JP2015200860A

JP2015200860A - 辞書データベース管理装置、ａｐｉサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム

Info

Publication number: JP2015200860A
Application number: JP2014111324A
Authority: JP
Inventors: 博隆尾曲; Hirotaka Omagari
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2014-04-01
Filing date: 2014-05-29
Publication date: 2015-11-12
Anticipated expiration: 2034-05-29
Also published as: JP5901694B2

Abstract

【課題】ユーザがそれぞれ異なる処理を実行する各サーバを使用する場合において、各サーバを一元的に管理することによって、ユーザが各サーバに個別にアクセスする必要をなくし、ユーザの利便性を高めること。【解決手段】本発明に係るサーバ管理装置は、複数のサーバを管理して第１情報から第２情報を生成するためのサーバ管理装置であって、第１サーバ及び第２サーバを識別するサーバ識別情報を含む第１データベースと、第１情報を、前記サーバ識別情報に基づいて特定された前記第１サーバに転送し、前記第１情報に対応して前記第１サーバから返信された中間情報を受信する第１サーバ管理部と、前記中間情報を前記サーバ識別情報に基づいて特定された前記第２サーバに転送し、前記中間情報に対応して前記第２サーバから返信された第２情報を受信する第２サーバ管理部と、を備える。【選択図】図１

Description

本発明は、辞書データベース管理装置、辞書データベース管理方法、辞書データベース管理プログラム、サーバ管理装置、サーバ管理方法、及びサーバ管理プログラムに関する。

従来、以下に示すような音声認識処理技術、自然言語処理技術、及び音声合成処理技術が知られている。

音声認識処理技術について、例えば、音響分析部は、未知入力音声をフレームごとにＬＰＣ分析し、特徴パラメータ抽出部はＰ個（Ｐは正の整数）の特徴パラメータをフレームごとに求め、音声区間検出部は入力音声の始端および終端フレームを、音声パワー情報などを用いて検出し、ＤＰ照合部は、入力音声と単音節標準パターンとの距離を求める。そして、距離比較部は、ＤＰ照合部において求めた距離の中で最小の値をもつ標準パターンに対応する音声名を認識結果として選択する（特許文献１）。

また、自然言語処理技術について、例えば、入力照会に関連する字句解答タイプ（ＬＡＴ：ｌｅｘｉｃａｌａｎｓｗｅｒｔｙｐｅ）を決定することと、入力照会ＬＡＴに関する第１のスコアを計算することであって、第１のスコアが照会ＬＡＴの品質を示すことと、情報源から入力照会に対する候補解答を入手することと、候補解答に関する解答タイプ（ＡＴ：ａｎｓｗｅｒｔｙｐｅ）を決定することと、照会ＬＡＴと候補解答ＡＴを比較することと、比較した照会ＬＡＴと候補解答ＡＴとの一致度を表す第２のスコアを計算することと、第１のスコアと第２のスコアを結合して、候補解答の品質を示す合計スコア（ｔｏｔａｌｓｃｏｒｅ）を提供することを含み、処理装置が、照会ＬＡＴを決定することと、第１および第２のスコアを計算することと、候補解答を入手することと、ＡＴを決定することと、比較することと、結合することのうちの１つまたは複数を自動的に実行する（特許文献２）。

さらに、音声合成処理技術について、例えば、音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、音素分割・音韻韻律情報付加ステップと、音声データ探索ステップと、音声データ補正ステップと、音声合成データ出力ステップと、を含む（特許文献３）。

特開平９−６８９９５号公報特表２０１３−５４３１７２号公報特開２００４−１３９０３３号公報

しかしながら、上述したような音声認識処理、自然言語処理、又は音声合成処理を実行するサーバについて、様々な企業がそれぞれ独自に運用を行っており、上述したような各サーバは一元的に管理されていなかった。よって、ユーザが、各サーバを使用する場合、ユーザは、各サーバに個別にアクセスする必要があり、大変非効率で、かつ利便性が低いという問題があった。

そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、ユーザがそれぞれ異なる処理を実行する各サーバを使用する場合において、各サーバを一元的に管理することによって、ユーザが各サーバに個別にアクセスする必要をなくし、ユーザの利便性を高めることを目的の一つとし得る。

上記課題を解決するために、本発明の一側面に係るサーバ管理装置は、少なくとも一つの音声認識処理サーバ、少なくとも一つの言語処理サーバ、及び少なくとも一つの音声合成処理サーバを識別するサーバ識別情報を含むサーバ識別情報データベースと、第１音声情報を受信する受信部と、前記受信した第１音声情報を、前記サーバ識別情報に基づいて特定された音声認識処理サーバに転送し、前記第１音声情報に対応して前記音声認識処理サーバから返信された第１文字列情報を受信する音声認識処理管理部と、前記第１文字列情報を前記サーバ識別情報に基づいて特定された言語処理サーバに転送し、前記第１文字列情報に対応して前記言語処理サーバから返信された第２文字列情報を受信する言語処理管理部と、前記第２文字列情報を前記サーバ識別情報に基づいて特定された音声合成処理サーバに転送し、前記第２文字列情報に対応して前記音声合成処理サーバから返信された第２音声情報を受信する音声合成処理管理部と、前記第２音声情報を送信する送信部と、を備える。

また、本発明の一側面に係るサーバ管理装置は、複数のサーバを管理して第１情報から第２情報を生成するためのサーバ管理装置であって、第１サーバ及び第２サーバを識別するサーバ識別情報を含む第１データベースと、前記サーバ識別情報に基づいて特定された前記第１サーバに前記第１情報を転送し、前記第１情報に対応して前記第１サーバから返信された中間情報を受信する第１サーバ管理部と、前記中間情報を前記サーバ識別情報に基づいて特定された前記第２サーバに転送し、前記中間情報に対応して前記第２サーバから返信された前記第２情報を受信する第２サーバ管理部と、を備える。

また、本発明の一側面に係るサーバ管理プログラムは、複数のサーバを管理して第１情報から第２情報を生成するためのサーバ管理プログラムであって、コンピュータに、第１サーバ及び第２サーバを識別するサーバ識別情報を参照する機能と、前記サーバ識別情報に基づいて特定された前記第１サーバに前記第１情報を転送し、前記第１情報に対応して前記第１サーバから返信された中間情報を受信する機能と、前記中間情報を前記サーバ識別情報に基づいて特定された前記第２サーバに転送し、前記中間情報に対応して前記第２サーバから返信された前記第２情報を受信する機能と、を実現させる。

また、本発明の一側面に係るサーバ管理方法は、複数のサーバを管理して第１情報から第２情報を生成するためのサーバ管理方法であって、第１サーバ及び第２サーバを識別するサーバ識別情報を参照することと、前記サーバ識別情報に基づいて特定された前記第１サーバに前記第１情報を転送し、前記第１情報に対応して前記第１サーバから返信された中間情報を受信することと、前記中間情報を前記サーバ識別情報に基づいて特定された前記第２サーバに転送し、前記中間情報に対応して前記第２サーバから返信された前記第２情報を受信することと、を含む。

なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や装置が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や装置の機能が１つの物理的手段や装置により実現されても良い。

本発明によれば、ユーザがそれぞれ異なる処理を実行する各サーバを使用する場合において、ユーザが各サーバに個別にアクセスする必要がなくなるため、ユーザの利便性を高めることができる。

本発明の実施形態に係るサーバ管理システムの一実施形態を示す概略構成図（システム構成図）である。本発明の実施形態に係るサーバ管理装置の一実施形態を示す機能的構成を示すブロック図である。本発明の実施形態に係るサーバ情報の一例を示す図である。本発明の実施形態に係る音声情報及び文字列情報を示す図である。図４（ａ）は、サーバ管理装置が保持する音声情報及び文字列情報の一例を示した図である。図４（ｂ）は、音声認識処理サーバが保持する音声情報及び文字列情報の一例を示した図である。図４（ｃ）は、言語処理サーバが保持する文字列情報の一例を示した図である。図４（ｄ）は、音声合成処理サーバが保持する音声情報及び文字列情報の一例を示した図である。本発明の実施形態に係る音声認識処理サーバの一実施形態を示す機能的構成を示すブロック図である。本発明の実施形態に係る言語処理サーバの一実施形態を示す機能的構成を示すブロック図である。本発明の実施形態に係る音声合成処理サーバの一実施形態を示す機能的構成を示すブロック図である。本発明の実施形態に係る対話型ＦＡＱ（ＦｒｅｑｕｅｎｔｌｙＡｓｋｅｄＱｕｅｓｔｉｏｎｓ）システムにおける音声認識処理、言語処理、及び音声合成処理のフローの一例を示すフローチャートである。本発明の実施形態に係るサーバ管理システムの一実施形態を示す概略構成図（システム構成図）に、ユーザ端末装置、サーバ管理装置、音声認識処理サーバ、言語処理サーバ、及び音声合成処理サーバが保持するデータを示した図である。本発明の実施形態に係る辞書ＤＢ管理システムの一実施形態を示す概略構成図（システム構成図）である。本発明の実施形態に係る辞書ＤＢ管理装置の一実施形態を示す機能的構成を示すブロック図である。本発明の実施形態に係る言語情報を音声認識処理サーバ、言語処理サーバ、及び音声合成処理サーバのうち少なくとも一つに登録するための処理の一例を示すフローチャートである。

以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。

＜第１実施形態＞
図１は、本発明の実施形態に係るサーバ管理システム１の一実施形態を示す概略構成図（システム構成図）である。図１に示すように、本発明の実施の形態に係るサーバ管理システム１は、例示的に、ユーザ端末装置２、サーバ管理装置３、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９を備えて構成されている。

サーバ管理装置３、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９は、所定のネットワークに接続されたサーバ用コンピュータであり、そのサーバ用コンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものである。

ユーザ端末装置２は、所定のネットワークに接続されたスマートフォンなどの携帯電話、タブレット端末、ラップトップ又はノートブック型コンピュータ等を含む、少なくともユーザ情報、音声情報、及び文字列情報を送受信する送受信機能を有する装置で構成されている。

所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、その具体的な構成は、ユーザ端末装置２とサーバ管理装置３との間、サーバ管理装置３と音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９のそれぞれとの間で少なくともユーザ情報、サーバ情報、音声情報、及び文字列情報の送受信が可能なように構成されていれば特に制限されない。

このように、ユーザ端末装置２とサーバ管理装置３との間、サーバ管理装置３と音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９のそれぞれとの間において、互いに通信可能に設定されることにより、サーバ管理システム１が構成される。

サーバ管理システム１は、例示的に、ユーザ端末装置２、サーバ管理装置３、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９を一台ずつ備えて構成されているが、必ずしも一台である必要はなく、装置及びサーバをそれぞれ複数台備えて構成されていてもよい。具体的には、サーバ管理装置３は、複数のユーザ端末装置２と通信可能に構成されていてもよく、また、ネットワーク内に分散された複数のサーバにより、１つのサーバ管理装置として機能するように構成されていてもよい。

図２は、本発明のサーバ管理装置３の一実施形態を示す機能的構成を示すブロック図である。図２に示すように、サーバ管理装置３は、機能的に、送受信部１０、サーバ管理部１２、サーバ情報ＤＢ（データベース）１４、音声／文字列情報ＤＢ（データベース）１６、及びユーザ情報ＤＢ（データベース）１８を含んで構成されている。

サーバ管理装置３の上記構成のうち、データベースは、例えば、メモリやハードディスク等のハードウェアとしての記憶領域を分割して用いることができる。またサーバ管理装置３のサーバ管理部１２は、記憶領域に格納されているソフトウェアプログラムを図示しないプロセッサが実行することにより機能的に実現することができる。なお、サーバ管理装置３は、上記機能を持つものであれば、特に制限はなく、クラウド・コンピューティングなどで実現される場合も含む。

送受信部１０は、ユーザ端末装置２とサーバ管理装置３との間、サーバ管理装置３と音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９のそれぞれとの間でデータの送受信を行うための機能ブロックである。送受信部１０は、機能的に、送信部２０及び受信部２２を含んで構成されている。送受信部１０の送信部２０は、例えば、所定のネットワークを介して音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９に音声情報や文字列情報を送信することができる。例えば、送受信部１０の受信部２２は、音声認識処理サーバ５から送信される文字列情報、言語処理サーバ７から送信される文字列情報、及び音声合成処理サーバ９から送信される音声情報を受信することができる。

サーバ情報ＤＢ１４は、例えば、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９を管理するために、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９それぞれのサーバに関する情報を、短期的に又は長期的に管理・保持するデータベースである。

図３は、本発明の実施形態に係るサーバ情報ＤＢ１４に保持されているサーバ情報の一例を示す図である。図３に示すように、サーバ管理ＤＢ１４は、サーバ識別情報として、サーバＩＤ、会社ＩＤ、サーバ名、会社名、アドレス、ポート番号、サーバ処理内容、通信状況情報、及び処理状況情報等を格納して構成されている。「サーバ処理内容」は、管理対象となるサーバが処理可能な処理内容を示す情報であり、サーバの処理内容を識別する文字列や符号である。また、「通信状況情報」は、そのサーバの最新の通信状況を示す情報である。「処理状況情報」は、そのサーバが実行している処理の進捗状況を示す情報である。サーバ管理ＤＢ１４は、これら各種の情報を保持・管理できるように、そして容易に検索・抽出などの再利用をできるように構成されている。

例えば、サーバ管理ＤＢ１４は、管理対象となるサーバが、音声認識処理サーバ５である場合、サーバ情報として「サーバ処理内容」については、「音声認識処理」が可能なことを示す情報が保持する。また管理対象となるサーバが、音声認識処理及び音声合成処理の双方を実行することができるサーバである場合、サーバ情報として「サーバ処理内容」については、「音声認識処理及び音声合成処理」が可能なことを示す情報が保持される。

なお、サーバ情報ＤＢ１４は、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９のような他のサーバのサーバ情報を保持するだけなく、サーバ管理装置３自身の情報を保持するように構成されていてもよい。

図１に戻り、音声／文字列情報ＤＢ１６は、サーバ管理装置３の受信部２２が、ユーザ端末装置２、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９の少なくとも一つから受信した音声または文字列情報を短期的に又は長期的に保持・管理できるように、そして容易に検索・抽出などの再利用をできるように構成されている。

図４は、本発明の実施形態に係る音声情報及び文字列情報を示す図である。図４（ａ）は、サーバ管理装置３が保持する音声情報及び文字列情報の一例を示した図である。図４（ｂ）は、音声認識処理サーバ５が保持する音声情報及び文字列情報の一例を示した図である。図４（ｃ）は、言語処理サーバ７が保持する文字列情報の一例を示した図である。図４（ｄ）は、音声合成処理サーバ９が保持する音声情報及び文字列情報の一例を示した図である。

図４（ａ）に示すように、サーバ管理装置３の音声／文字列情報ＤＢ１６は、サーバ管理装置３が受信した、又は、送信（転送）する音声情報及び文字列情報を保持している。なお、図４（ｂ）〜図４（ｄ）については、後述する。

図１に戻り、ユーザ情報ＤＢ１８は、サーバ管理装置３の受信部２２が、ユーザ端末装置２を管理するためのユーザ情報を短期的に又は長期的に保持するＤＢである。ユーザ情報としては、例えば、ユーザＩＤや初期パスワード、ユーザが設定したパスワードなどのログイン情報、ユーザの氏名、名称、住所、居所、性別、国籍などのユーザ属性情報である。ユーザ端末装置２が、サーバ管理装置３においてログイン処理を行う場合、ユーザ情報ＤＢ１８に保持されているユーザ情報が参照される。

サーバ管理部１２は、ユーザ端末装置２、音声認識処理サーバ５、言語処理サーバ７、又は音声合成処理サーバ９からの音声情報又は文字列情報に対する処理を行う各サーバを一元的に管理する機能ブロックである。サーバ管理部１２は、機能的に、情報取得部３０、情報認識／解析部３２、処理状況判断部３４、通信状況判断部３６、音声認識処理管理部３８、言語処理管理部４０、音声合成処理管理部４２、情報出力部４４、及びエラー処理部４６を含んで構成されている。

情報取得部３０は、受信部２２がユーザ端末装置２、音声認識処理サーバ５、言語処理サーバ７、又は音声合成処理サーバ９からの音声情報及び文字列情報を受信した場合に、受信した情報を取得する機能ブロックである。また、情報取得部３０は、音声／文字列情報ＤＢ１６に保持されている音声情報及び文字列情報、又はユーザ情報ＤＢ１８に保持されているユーザ情報を取得する機能ブロックである。

また、情報取得部３０は、受信部２２が音声認識処理サーバ５、言語処理サーバ７、又は音声合成処理サーバ９からのサーバ情報を受信した場合に、受信したサーバ情報を取得する機能ブロックである。また、情報取得部３０は、サーバ情報ＤＢ１４に保持されているサーバ情報を取得する機能ブロックである。

情報認識／解析部３２は、情報取得部３０が取得した音声情報、文字列情報、及びユーザ情報を認識・解析する機能ブロックである。具体的には、情報認識／解析部３２は、サーバ管理装置３において取得された情報が、音声情報であるか、文字列情報であるか、またはユーザ情報であるかを判定するように構成されている。

処理状況判断部３４は、音声認識処理サーバ５の音声認識処理、言語処理サーバ７の言語処理、及び音声合成処理サーバ９の音声合成処理の状況を判断する機能ブロックである。具体的には、情報取得部３０が取得した音声認識処理サーバ５、言語処理サーバ７、音声合成処理サーバ９のサーバ情報に含まれる処理状況情報に基づいて、各サーバの処理状況を判断する。

通信状況判断部３６は、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９の通信状況を判断する機能ブロックである。具体的には、情報取得部３０が取得した音声認識処理サーバ５、言語処理サーバ７、音声合成処理サーバ９のサーバ情報に含まれる通信状況情報に基づいて、各サーバの通信状況を判断する。

音声認識処理管理部３８は、後で詳述する音声認識処理サーバ５を管理する機能ブロックである。音声認識処理管理部３８は、例えば、音声認識処理サーバ５を識別するサーバ識別情報に基づいて特定された音声認識処理サーバ５に、受信部２２がユーザ端末装置２から受信した音声情報（第１音声情報）を転送し、転送した音声情報に対応して音声認識処理サーバ５が処理し、返信する文字列情報（第１文字列情報）を受信する。

なお、音声認識処理管理部３８は、受信部２２がユーザ端末装置２から受信した音声情報を、音声／文字列情報ＤＢ１６に一旦記憶した後、任意のタイミングで音声認識処理サーバ５に転送するように構成されていてもよい。

また、音声認識処理管理部３８は、例えば、音声認識処理サーバ５が複数存在する場合、処理状況判断部３４による、各々の音声認識処理サーバ５の音声認識処理状況の判断結果に基づいて、より最適な処理を実行可能な音声認識処理サーバ５を選択し、音声情報の音声認識処理を実行させるように制御してもよい。さらに、音声認識処理管理部３８は、例えば、音声認識処理サーバ５が複数存在する場合、通信状況判断部３６による、各々の音声認識処理サーバ５の通信処理状況の判断結果に基づいて、より最適な通信を実行可能な音声認識処理サーバ５を選択し、音声情報の音声認識処理を実行させるように制御してもよい。

言語処理管理部４０は、後で詳述する言語処理サーバ７を管理する機能ブロックである。言語処理管理部４０は、例えば、言語処理サーバ７を識別するサーバ識別情報に基づいて特定された言語処理サーバ７に、受信部２２が音声認識処理サーバ５から受信した文字列情報（第１文字列情報）を転送し、転送した文字列情報に対応して言語処理サーバ７が処理し、返信する文字列情報（中間情報）を受信する。

なお、言語処理管理部４０は、受信部２２が音声認識処理サーバ５から受信した文字列情報を、音声／文字列情報ＤＢ１６に一旦記憶した後、任意のタイミングで言語処理サーバ７に転送するように構成されていてもよい。

また、言語処理管理部４０は、言語処理サーバ７が複数存在する場合、処理状況判断部３４による、各々の言語処理サーバ７の言語処理状況の判断結果に基づいて、より最適な処理を実行可能な言語処理サーバ７を選択し、文字列情報の言語処理を実行させるように制御してもよい。さらに、言語処理管理部４０は、言語処理サーバ７が複数存在する場合、通信状況判断部３６による、各々の言語処理サーバ７の通信処理状況の判断結果に基づいて、より最適な通信を実行可能な言語処理サーバ７を選択し、文字列情報の言語処理を実行させるように制御してもよい。

音声合成処理管理部４２は、後で詳述する音声合成処理サーバ９を管理する機能ブロックである。音声合成処理管理部４２は、例えば、音声合成処理サーバ９を識別するサーバ識別情報に基づいて特定された音声合成処理サーバ９に、受信部２２が言語処理サーバ７から受信した文字列情報を転送し、転送した文字列情報に対応して音声合成処理サーバ９が処理し、返信する音声情報（第２音声情報）を受信する。

なお、音声合成処理管理部４２は、受信部２２が言語処理サーバ７から受信した文字列情報を、音声／文字列情報ＤＢ１６に一旦記憶した後、任意のタイミングで音声合成処理サーバ７に転送するように構成されていてもよい。

また、音声合成処理管理部４２は、音声合成処理サーバ９が複数存在する場合、処理状況判断部３４による、各々の音声合成処理サーバ９の音声合成処理状況の判断結果に基づいて、より最適な処理を実行可能な音声合成処理サーバ９を選択し、音声合成処理を実行させるように制御してもよい。さらに、音声合成処理管理部４２は、言語処理サーバ７が複数存在する場合、通信状況判断部３６による、各々の音声合成処理サーバ９の通信処理状況の判断結果に基づいて、より最適な通信を実行可能な音声合成処理サーバ９を選択し、音声合成処理を実行させるように制御してもよい。

情報出力部４４は、受信部２２が受信し、情報取得部３０が取得した、サーバ情報をサーバ情報ＤＢ１４に出力し、音声情報及び文字列情報を音声／文字列情報ＤＢ１６に出力し、ユーザ情報をユーザ情報ＤＢ１８に出力する機能ブロックである。また、音声／文字列情報ＤＢ１６からの音声情報及び文字列情報を出力する機能ブロックである。

エラー処理部４６は、サーバ管理装置３がユーザ端末装置２、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９からの各種情報を所定時間以内に受信又は取得することができなかった場合、エラー処理を行う機能ブロックである。例えば、サーバ管理装置３が、ユーザ端末装置２からの音声情報を所定時間以内に受信することができなかった場合、エラー処理部４６は、音声情報を受信することができなかったことを示す音声情報、文字列情報、その他の映像情報などを、ユーザ端末装置２に提供する。

図５は、本発明の実施形態に係る音声認識処理サーバ５の一実施形態を示す機能的構成を示すブロック図である。

図５に示すように、音声認識処理サーバ５は、機能的に、送受信部５０、音声認識処理部５２、サーバ情報ＤＢ５４、及び辞書ＤＢ５６を含んで構成されている。

音声認識処理サーバ５の上記各部は、例えば、メモリやハードディスク等の記憶領域を用いたり、記憶領域に格納されているプログラムをプロセッサが実行したりすることにより実現することができる。また、音声認識処理サーバ５の上記ＤＢは、プロセッサが実行することにより実現することができる。なお、音声認識処理サーバ５は、上記機能を持つものであれば、特に制限はなく、クラウド・コンピューティングなどで実現される場合も含む。

送受信部５０は、サーバ管理装置３との情報の送受信を行うための機能ブロックである。送受信部５０は、機能的に、送信部６０及び受信部６２を含んで構成されている。送受信部５０の送信部６０は、例えば、所定のネットワークを介してサーバ管理装置３に、音声認識処理サーバ５のサーバ情報、及び音声認識処理後の文字列情報（第１文字列情報）を送信することができる。送受信部５０の受信部６２は、例えば、サーバ管理装置３から転送されてきた音声情報（第１音声情報）を受信することができる。

サーバ情報ＤＢ５４は、音声認識処理サーバ５のサーバ情報を、短期的に又は長期的に保持・管理するＤＢである。サーバ情報ＤＢ５４は、サーバ管理装置３のサーバ情報ＤＢ１４と同様に、図３に示すサーバ情報の各項目、即ち、音声認識処理サーバ５のサーバ識別情報、通信状況情報、及び処理状況情報などを保持・管理し、容易に検索・抽出などの再利用をできるように構成されている。

辞書ＤＢ５６は、音声認識処理サーバ５が音声認識処理を行う際に参照するための音声情報、文字列情報などが短期的に又は長期的に保持されているＤＢである。また、辞書ＤＢ５６は、図４（ｂ）に示すように、サーバ管理装置３からの音声情報を短期的に又は長期的に保持するように、又は、音声認識処理後に生成された文字列情報を短期的に又は長期的に保持するように構成されていてもよい。

音声認識処理部５２は、機能的に、情報取得部７０、音声情報認識／解析部７２、文字列情報生成部７４、及び情報出力部７６を含んで構成されている。

情報取得部７０は、受信部６２がサーバ管理装置３からの音声情報を受信した場合に、受信した音声情報を取得する機能ブロックである。また、情報取得部７０は、サーバ情報ＤＢ５４に保持されている音声認識処理サーバ５のサーバ情報を取得する機能ブロックである。さらに、情報取得部７０は、辞書ＤＢ５６に保持されている文字列情報を取得する機能ブロックである。

音声情報認識／解析部７２は、情報取得部７０が取得した音声情報を、辞書ＤＢ５６に含まれている情報を参照することにより、認識及び解析する機能ブロックである。

文字列情報生成部７４は、音声情報認識／解析部７２が認識、解析した音声情報に対応した文字列情報（第１文字列情報）を生成する機能ブロックである。

情報出力部７６は、文字列情報生成部７４に生成された文字列情報を送信部６０に出力する機能ブロックである。また、情報出力部７６は、文字列情報生成部７４に生成された文字列情報が一旦辞書ＤＢ５６で保持された場合には、辞書ＤＢ５６で保持された文字列情報を、任意のタイミングで送信部６０に出力する機能ブロックである。

図６は、本発明の実施形態に係る言語処理サーバ７の一実施形態を示す機能的構成を示すブロック図である。

図６に示すように、言語処理サーバ７は、機能的に、送受信部８０、言語処理部８２、サーバ情報ＤＢ８４、及び辞書ＤＢ８６を含んで構成されている。

言語処理サーバ７の上記各部は、例えば、メモリやハードディスク等の記憶領域を用いたり、記憶領域に格納されているプログラムをプロセッサが実行したりすることにより実現することができる。また、言語処理サーバ７の上記ＤＢは、プロセッサが実行することにより実現することができる。なお、言語処理サーバ７は、上記機能を持つものであれば、特に制限はなく、クラウド・コンピューティングなどで実現される場合も含む。

送受信部８０は、サーバ管理装置３との情報の送受信を行うための機能ブロックである。送受信部８０は、機能的に、送信部９０及び受信部９２を含んで構成されている。送受信部８０の送信部９０は、例えば、所定のネットワークを介してサーバ管理装置３に、言語処理サーバ７のサーバ情報、言語処理後の文字列情報（中間情報）を送信することができる。送受信部８０の受信部９２は、例えば、サーバ管理装置３から転送されてきた文字列情報（第１文字列情報）を受信することができる。

サーバ情報ＤＢ８４は、言語処理サーバ７のサーバ情報を、短期的に又は長期的に保持・管理するＤＢである。サーバ情報ＤＢ８４は、サーバ管理装置３のサーバ情報ＤＢ１４と同様に、図３に示すサーバ情報の各項目、即ち、言語処理サーバ７のサーバ識別情報、通信状況情報、及び処理状況情報などを保持・管理できるように、そして容易に検索・抽出などの再利用をできるように構成されている。

辞書ＤＢ８６は、言語処理サーバ７が言語処理を行う際に参照するための文字列情報が短期的に又は長期的に保持されているＤＢである。また、辞書ＤＢ８６は、図４（ｃ）に示すように、サーバ管理装置３からの文字列情報（第１文字列情報）を短期的に又は長期的に保持するように、又は、言語処理後に生成された文字列情報（中間情報）を短期的に又は長期的に保持するように構成されていてもよい。

言語処理部８２は、機能的に、情報取得部１００、文字列情報認識／解析部１０２、文字列情報処理部１０４、及び情報出力部１０６を含んで構成されている。

情報取得部１００は、受信部９２がサーバ管理装置３からの文字列情報を受信した場合に、受信した文字列情報を取得する機能ブロックである。また、情報取得部１００は、サーバ情報ＤＢ８４に保持されている言語処理サーバ７のサーバ情報を取得する機能ブロックである。さらに、情報取得部７０は、辞書ＤＢ８６に保持されている文字列情報を取得する機能ブロックである。

文字列情報認識／解析部１０２は、情報取得部１００が取得した文字列情報を、辞書ＤＢ８６に含まれている文字列情報を参照することにより、認識及び解析する機能ブロックである。

文字列情報処理部１０４は、文字列情報認識／解析部１０２が認識、解析した文字列情報に対応した文字列情報（中間情報）を生成するために言語処理を実行する機能ブロックである。文字列情報処理部１０４は、例えば、情報取得部１００が取得した文字列情報が質問に関するものであった場合は、その質問に関する文字列情報に対応した回答に関する文字列情報を生成する。また、文字列情報処理部１０４は、情報取得部１００が取得した文字列情報が質問に関するものであった場合は、その質問に対するさらなる質問をするための文字列情報を生成する。

情報出力部１０６は、文字列情報処理部１０４により処理された文字列情報を送信部９０に出力する機能ブロックである。また、情報出力部１０６は、文字列情報処理部１０４により処理された文字列情報が一旦辞書ＤＢ８６で保持された場合には、辞書ＤＢ８６で保持された文字列情報を、任意のタイミングで送信部９０に出力する機能ブロックである。

図７は、本発明の実施形態に係る音声合成処理サーバ９の一実施形態を示す機能的構成を示すブロック図である。

図７に示すように、音声合成処理サーバ９は、機能的に、送受信部１１０、音声合成処理部１１２、サーバ情報ＤＢ１１４、及び辞書ＤＢ１１６を含んで構成されている。

音声合成処理サーバ９の上記各部は、例えば、メモリやハードディスク等の記憶領域を用いたり、記憶領域に格納されているプログラムをプロセッサが実行したりすることにより実現することができる。また、音声合成処理サーバ９の上記ＤＢは、プロセッサが実行することにより実現することができる。なお、音声合成処理サーバ９は、上記機能を持つものであれば、特に制限はなく、クラウド・コンピューティングなどで実現される場合も含む。

送受信部１１０は、サーバ管理装置３との情報の送受信を行うための機能ブロックである。送受信部１１０は、機能的に、送信部１２０及び受信部１２２を含んで構成されている。送受信部１１０の送信部１２０は、例えば、所定のネットワークを介してサーバ管理装置３に、音声合成処理サーバ９のサーバ情報、音声合成処理後の音声情報（第２音声情報）を送信することができる。送受信部１１０の受信部１２２は、例えば、サーバ管理装置３から転送されてきた文字列情報（中間情報）を受信することができる。

サーバ情報ＤＢ１１４は、音声合成処理サーバ９のサーバ情報を、短期的に又は長期的に保持・管理するＤＢである。サーバ情報ＤＢ１１４は、サーバ管理装置３のサーバ情報ＤＢ１４と同様に、図３に示すサーバ情報の各項目、即ち、音声合成処理サーバ９のサーバ識別情報、通信状況情報、及び処理状況情報などを保持・管理できるように、容易に検索・抽出などの再利用をできるように構成されている。

辞書ＤＢ１１６は、音声合成処理サーバ９が音声合成処理を行う際に参照するための音声情報、文字列情報などが短期的に又は長期的に保持されているＤＢである。また、辞書ＤＢ１１６は、図４（ｄ）に示すように、サーバ管理装置３からの文字列情報（中間情報）を短期的に又は長期的に保持するように、又は、音声合成処理後に生成された音声情報（第２音声情報）を短期的に又は長期的に保持するように構成されていてもよい。

音声合成処理部１１２は、機能的に、情報取得部１３０、文字列情報認識／解析部１３２、音声情報生成部１３４、及び情報出力部１３６を含んで構成されている。

情報取得部１３０は、受信部１２２がサーバ管理装置３からの文字列情報を受信した場合に、受信した文字列情報を取得する機能ブロックである。また、情報取得部１３０は、サーバ情報ＤＢ１１４に保持されている音声合成処理サーバ９のサーバ情報を取得する機能ブロックである。さらに、情報取得部１３０は、辞書ＤＢ１１６に保持されている音声情報、文字列情報を取得する機能ブロックである。

文字列情報認識／解析部１３２は、情報取得部１３０が取得した文字列情報を、辞書ＤＢ１１６に含まれている文字列情報を参照することにより、認識及び解析する機能ブロックである。

音声情報生成部１３４は、文字列情報認識／解析部１３２が認識、解析した文字列情報に対応した音声情報（第２音声情報）を生成・合成するための音声合成処理を実行する機能ブロックである。

情報出力部１３６は、音声情報生成部１３４により生成・合成された音声情報を送信部１２０に出力する機能ブロックである。また、情報出力部１３６は、音声情報生成部１３４により生成・合成された音声情報が一旦辞書ＤＢ１１６で保持された場合には、辞書ＤＢ１１６で保持された音声情報を、任意のタイミングで送信部１２０に出力する機能ブロックである。

図８は、本発明の実施形態に係る対話型ＦＡＱ（ＦｒｅｑｕｅｎｔｌｙＡｓｋｅｄＱｕｅｓｔｉｏｎｓ）システムの動作を説明するシーケンス図である。本実施形態に係るサーバ管理装置３は、上述した音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９を管理して、対話型ＦＡＱシステムを実現するように機能する。

前提として、サーバ管理装置３は、例えば契約などに基づいて、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９を登録・管理する。その際、サーバ管理装置３は、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９のサーバ情報を受信する。

図９は、本発明の実施形態に係るサーバ管理システム１の一実施形態を示す概略構成図（システム構成図）に、ユーザ端末装置２、サーバ管理装置３、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９が保持するデータの一例を示した図である。

ユーザ端末装置２は、図９に示す、ユーザ端末装置２のＡ．音声情報「けいたいでんわについておしえてください」をサーバ管理装置３に送信する（図８のステップＳ０１）。

次に、サーバ管理装置３は、図９に示す、ユーザ端末装置２が送信したＡ．音声情報「けいたいでんわについておしえてください」を受信し、受信したＡ．音声情報（第１音声情報）を、音声認識処理サーバ５を識別するサーバ識別情報に基づいて特定された音声認識処理サーバ５に、転送する（図８のステップＳ０２）。

次に、音声認識処理サーバ５は、サーバ管理装置３が転送したＡ．音声情報を、当該Ａ．音声情報に応じて処理し、図９に示す、Ａ．文字列情報「けいたいでんわについておしえてください」（第１文字列情報を）生成し、当該文字列情報を、サーバ管理装置３に返信する（図８のステップ０３）。

次に、サーバ管理装置３は、図９に示す、音声認識処理サーバ５が送信したＡ．文字列情報「けいたいでんわについておしえてください」を受信し、受信したＡ．文字列情報（第１文字列情報）を、言語処理サーバ７を識別するサーバ識別情報に基づいて特定された言語処理サーバ７に、転送する（図８のステップＳ０４）。

次に、言語処理サーバ７は、サーバ管理装置３が転送したＡ．文字列情報を、当該Ａ．文字列情報に応じて処理する。言語処理サーバ７は、例えば、図９に示す、Ａ．文字列情報「携帯電話について教えてください」を生成し、Ａ．文字列情報「携帯電話について教えてください」に応じて、Ｂ．文字列情報「どのメーカーの携帯電話についてですか」（中間情報）を生成し、当該Ｂ．文字列情報を、サーバ管理装置３に返信する（図８のステップ０５）。

次に、サーバ管理装置３は、図９に示す、言語処理サーバ７が送信したＢ．文字列情報「どのメーカーの携帯電話についてですか」を受信し、受信したＢ．文字列情報（中間情報）を、音声合成処理サーバ９を識別するサーバ識別情報に基づいて特定された音声合成処理サーバ９に、転送する（図８のステップ０６）。

次に、音声合成処理サーバ９は、サーバ管理装置３が転送したＢ．文字列情報を、当該Ｂ．文字列情報に応じて処理する。音声合成処理サーバ９は、当該Ｂ．文字列情報に応じて、図９に示すＢ．音声情報「どのメーカーのけいたいでんわについてですか」（第２音声情報）を生成・合成し、当該Ｂ．音声情報を、サーバ管理装置３に返信する（図８のステップ０７）。

次に、サーバ管理装置３は、図９に示す、音声合成処理サーバ９が送信したＢ．音声情報「どのメーカーのけいたいでんわについてですか」（第２音声情報）を受信し、受信したＢ．音声情報を、ユーザ端末装置２に送信する（図８のステップ０８）。

上記により、ユーザがそれぞれ異なる処理を実行する各サーバを使用する場合において、各サーバを一元的に管理することによって、ユーザが各サーバに個別にアクセスする必要がなくなるため、ユーザの利便性を高めることができる。

なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するものではない。本発明はその趣旨を逸脱することなく、変更／改良され得るとともに、本発明にはその等価物も含まれる。

また、サーバ管理システム１は、図１に示した構成要素を全て含むものではなく、その一部の構成要素により構成されるものであってもよい。例えば、サーバ管理システム１は、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９の３つのサーバを備えているが、必ずしも３つのサーバを備えている必要はなく、サーバの数、サーバの種類などに制限はない。サーバ管理システム１は、例えば、２つのサーバを備えていてもよく、第１サーバが、音声認識処理サーバである場合は、第２サーバは、言語処理サーバ又は音声合成処理サーバであってもよく、第１サーバが言語処理サーバである場合は、第２サーバは、音声合成処理サーバであってもよい。

さらに、図８に示すステップＳ０１〜Ｓ１６は必ずしもこのステップ通りに実行されなくてもよく、適宜変更されてよい。例えば、Ｓ０３及びＳ０４が実行される前に、Ｓ０５及びＳ０６が実行されていてもよい。

なお、サーバ管理装置３は、図示しないが、さらに処理実行部を備えるように構成し、当該処理実行部において、音声認識処理サーバ５が実行する音声認識処理、言語処理サーバ７が実行する言語処理、及び音声合成処理サーバ９が実行する音声合成処理のうち少なくとも一つを実行するように構成されていてもよい。具体的には、サーバ管理装置３の受信部２２は、第１音声情報を受信する。次いで、処理実行部は、１）受信した第１音声情報に対応して第１文字列情報を出力する音声認識処理、２）第１文字列情報に対応して第２文字列情報を出力する言語処理、および、３）第２文字列情報に対応して第２音声情報を出力する音声合成処理、のうち少なくとも１つを実行する。また、サーバ管理ＤＢ１４は、ａ）前記音声認識処理を実行する音声認識処理サーバ、ｂ）前記言語処理を実行する言語処理サーバ、及びｃ）前記音声合成処理を実行する音声合成処理サーバのうち少なくとも一つを識別するサーバ識別情報を含む。処理実行部は、上記音声認識処理、上記言語処理、および上記音声合成処理のうち１つ以上の処理を実行し、それ以外の処理をサーバ管理ＤＢ１４により識別された、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９のうち、当該処理実行部が実行した処理以外の処理を担う１以上のサーバに転送して実行させる。送信部２０は、当該処理実行部または上記音声合成処理サーバ９のいずれかが出力した上記第２音声情報をユーザ端末装置２に送信する。

＜第２実施形態＞
第２実施形態は、第１実施形態の音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９に、言語情報を辞書登録する際の実施形態である。すなわち、第２実施形態では、言語処理の対象となる、少なくとも韻律関連情報、形態素関連情報、又は読み表記関連情報を含む言語情報を一括して取得する。そして、この言語情報が韻律関連情報であるか、形態素関連情報であるか、読み表記関連情報であるか、に応じてそれぞれの情報に対応する処理を実行する、各サーバ５，７，９のユーザ辞書ＤＢ（データベース）１５２，１７２，１９２に各情報が登録される。以下では、第１実施形態と異なる点について特に説明し、他の点については説明を省略する。

図１０は、本発明の実施形態に係る辞書ＤＢ管理システム１Ａの一実施形態を示す概略構成図（システム構成図）である。図１０に示すように、本発明の実施の形態に係る辞書ＤＢ管理システム１Ａは、例示的に、入力装置２００、辞書ＤＢ管理装置３Ａ、ＡＰＩサーバ４、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９を備えて構成されている。

入力装置２００は、所定のネットワークに接続されたスマートフォンなどの携帯電話、タブレット端末、ラップトップ又はノートブック型コンピュータ等を含む、韻律関連情報、形態素関連情報、及び読み表記関連情報のうち少なくとも一つを含む言語情報を送受信する送受信機能を有する装置で構成されている。

ＡＰＩサーバ４は、入力装置２００と辞書ＤＢ管理装置３Ａとの間、辞書ＤＢ管理装置３Ａと音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９のそれぞれとの間で少なくとも、後述するサーバ識別情報、韻律関連情報、形態素関連情報、及び読み表記関連情報などの送受信が可能なように構成されているサーバである。

音声認識処理サーバ５は、例示的に、基本辞書ＤＢ１５０及びユーザ辞書ＤＢ１５２をさらに備えて構成されている。また、言語処理サーバ７は、例示的に、基本辞書ＤＢ１７０及びユーザ辞書ＤＢ１７２をさらに備えて構成されている。さらに、音声合成処理サーバ９は、例示的に、基本辞書ＤＢ１９０及びユーザ辞書ＤＢ１９２をさらに備えて構成されている。

基本辞書ＤＢ１５０，１７０，１９０は、あらかじめ標準的な言語情報を記憶している辞書データベースである。基本辞書ＤＢ１５０，１７０，１９０は、標準的な言語対応が継続的に可能となるように、任意のタイミングで更新される（書き換えられる）。

ユーザ辞書ＤＢ１５２，１７２，１９２は、標準的な言語情報以外の情報、たとえば、人物名、業界用語、業界で多用される固有名詞、サービス名などの情報が登録される辞書データベースである。ユーザ辞書ＤＢ１５２，１７２，１９２には、後述する辞書ＤＢ管理装置３Ａにより、新規の言語情報が登録されていく。

辞書ＤＢ管理装置３Ａは、言語情報を取得し、この言語情報が韻律関連情報であるか、形態素関連情報であるか、読み表記関連情報であるか、に応じてそれぞれの情報に対応する処理を実行する、各サーバ、すなわち、音声認識処理サーバ５のユーザ辞書ＤＢ１５２（第３辞書データベース）、言語処理サーバ７のユーザ辞書ＤＢ１７２（第２辞書データベース）、及び音声合成処理サーバ９のユーザ辞書ＤＢ１９２（第１辞書データベース）のうち少なくとも一つに上記情報を登録する機能を持つ装置である。

図１１は、本発明の実施形態に係る辞書ＤＢ管理装置３Ａの一実施形態を示す機能的構成を示すブロック図である。図１１に示すように、辞書ＤＢ管理装置３Ａは、機能的に、言語情報取得部３００、識別情報取得部３０２、言語情報補完部３０４、及び言語情報登録部３０６を含んで構成されている。

言語情報取得部３００は、言語処理の対象となる、少なくとも韻律関連情報、形態素関連情報、又は読み表記関連情報を含む言語情報を一括して取得する機能ブロックである。例えば、図１０に示すように、言語情報取得部３００は、漢字「町」、読み「まち」、およびアクセント情報を取得する。なお、言語情報取得部３００は、漢字「町」、読み「まち」、およびアクセント情報を自己が備える記憶部（不図示）に記憶するように構成されていてもよい。なお、言語情報は、日本語に関するものだけではなく、英語などの外国語に関するものを含んでいてもよい。

識別情報取得部３０２は、音声合成処理サーバ９、言語処理サーバ７、および音声認識処理サーバ５を識別する識別情報を取得する機能ブロックである。

言語情報補完部３０４は、言語情報取得部３００が取得する言語情報のうち、一部が欠けていた場合において、その欠けている情報を補完する機能ブロックである。具体的には、言語情報補完部３０４は、言語情報取得部３００が取得する言語情報のうち、韻律関連情報が欠けている場合は、当該韻律関連情報を補完する。例えば、言語情報補完部３０４は、言語情報取得部３００が取得する言語情報のうち、アクセント情報が欠けていた場合は、当該アクセント情報を補完する。言語情報補完部３０４は、読み表記関連情報を参照することによって、当該読み表記関連情報に対応するアクセント情報を補完するように構成されていてもよい。

言語情報登録部３０６は、取得した言語情報が韻律関連情報を含む場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成処理サーバ９のユーザ辞書ＤＢ１９２（第１辞書データベース）に登録し、上記言語情報が形態素関連情報を含む場合には当該形態素関連情報を蓄積して自然言語処理を実施する言語処理サーバ７のユーザ辞書ＤＢ１７２（第２辞書データベース）に登録し、上記言語情報が読み表記関連情報を含む場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識処理サーバ５のユーザ辞書ＤＢ１５２（第３辞書データベース）に登録する機能ブロックである。

例えば、図１０に示すように、言語情報登録部３０６は、音声合成処理サーバ９のユーザ辞書ＤＢ１９２（第１辞書データベース）に、漢字「町」およびアクセント情報（韻律関連情報）を登録する。そして、音声合成処理サーバ９は、漢字「町」及びアクセント情報（韻律関連情報）を蓄積し、音声合成処理を実施する。また、言語情報登録部３０６は、言語処理サーバ７のユーザ辞書ＤＢ１７２（第２辞書データベース）に、漢字「町」および、よみ「まち」（形態素関連情報）を登録する。そして、言語処理サーバ７は、漢字「町」および、よみ「まち」（形態素関連情報）を蓄積し、自然言語処理を実施する。さらに、言語情報登録部３０６は、音声認識処理サーバ５のユーザ辞書ＤＢ１５２（第３辞書データベース）に、よみ「まち」（読み表記関連情報）及び漢字「町」（読み表記関連情報）を登録する。そして、音声認識処理サーバ５は、よみ「まち」及び漢字「町」を蓄積し、音声認識処理を実施する。

また、オプションであるが、言語情報登録部３０６は、識別情報取得部３０２により取得された音声合成処理サーバ９、言語処理サーバ７、および音声認識処理サーバ５を識別する識別情報に基づいて、言語情報が韻律関連情報であるか、形態素関連情報であるか、読み表記関連情報であるか、に応じてそれぞれの情報に対応する処理を実行する音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９のうち少なくとも一つを特定し、特定したサーバのユーザ辞書ＤＢ１５２（第３辞書データベース），ユーザ辞書ＤＢ１７２（第２辞書データベース），及びユーザ辞書ＤＢ１９２（第１辞書データベース）の少なくとも一つに上記情報を登録する。

このように、言語情報登録部３０６は、取得した言語情報を登録すべき各サーバのアドレスを認識し、言語情報の種別に対応するサーバに正しく言語情報を登録することが可能となる。

なお、辞書ＤＢ管理装置３Ａは、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９から、各サーバ５，７，９の各基本辞書ＤＢ１５０，１７０，１９０に記憶又は登録されている言語情報をあらかじめ取得し、把握しておくことで、言語情報取得部３００が取得する言語情報のうち、各サーバ５，７，９の各ユーザ辞書ＤＢ１５２，１７２，１９２に登録すべき当該言語情報を選別するように構成されていてもよい。例えば、辞書ＤＢ管理装置３Ａは、あらかじめ、言語処理サーバ７及び／又は音声合成処理サーバ９が既に、漢字「町」、よみ「ちょう」を記録・登録していることを把握することで、漢字「町」について、よみ「まち」を言語処理サーバ７及び／又は音声合成処理サーバ９に登録するように構成されていてもよい。

図１２は、本発明の実施形態に係る言語情報を音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９のうち少なくとも一つに登録するための処理の一例を示すフローチャートである。

図１２に示すように、まず、言語情報取得部３００は、言語処理の対象となる、少なくとも韻律関連情報、形態素関連情報、又は読み表記関連情報を含む言語情報を一括して取得する（ステップＳ１１）。

次に、言語情報登録部３０６は、取得した言語情報が韻律関連情報を含む場合には音声合成処理サーバ９のユーザ辞書ＤＢ１９２に登録し、上記言語情報が形態素関連情報を含む場合には当該形態素関連情報を言語処理サーバ７のユーザ辞書ＤＢ１７２に登録し、上記言語情報が読み表記関連情報を含む場合には当該読み表記関連情報を音声認識処理サーバ５のユーザ辞書ＤＢ１５２に登録する（ステップＳ１２）。

各サーバ、すなわち、辞書ＤＢ管理装置３Ａ、ＡＰＩサーバ４、音声認識処理サーバ５、言語処理サーバ７、及び音声合成処理サーバ９の上記各部は、例えば、メモリやハードディスク等の記憶領域を用いたり、記憶領域に格納されているプログラムをプロセッサが実行したりすることにより実現することができる。また、各サーバの上記ＤＢは、プロセッサが実行することにより実現することができる。なお、各サーバは、上記機能を持つものであれば、特に制限はなく、クラウド・コンピューティングなどで実現される場合も含む。

上記辞書ＤＢ管理装置３Ａによれば、言語情報の登録を希望するユーザ、例えば所定の音声ガイドサービスの提供主体となるユーザは、入力装置２００を用いて、辞書ＤＢ管理装置３Ａにアクセスし、辞書ＤＢ管理装置３Ａの指示に従って言語情報を一括登録することができる。具体的には、上記実施形態のシステムであれば、ユーザから提供された言語情報が、辞書ＤＢ管理装置３Ａの登録管理処理により、音声認識処理サーバ５、言語処理サーバ７、および音声合成処理サーバ９のいずれかに、言語情報の種類に応じて正しく登録されることになる。このような言語情報を登録するユーザにとっては、音声認識処理サーバ５、言語処理サーバ７、および音声合成処理サーバ９のそれぞれに個別に対応する言語情報を登録するといった手間を省くことができ、音声ガイドサービスを開始するために必要な膨大な量の登録作業を簡単に済ませることができる。

そしてある程度の言語情報を各処理サーバに登録したあとは、上記実施形態で説明したように、辞書ＤＢ管理装置３Ａの制御によって、ユーザの音声による問い合わせに対応する回答を提供できるようになる。

また、辞書ＤＢ管理装置３Ａが各サーバのデータベースを一括して管理することで、異なる機能のサーバのユーザ辞書ＤＢを更新する負担を軽減することができる。

なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するものではない。本発明はその趣旨を逸脱することなく、変更／改良され得るとともに、本発明にはその等価物も含まれる。また、本発明は、その趣旨を逸脱しない範囲で種々変形（各実施形態を組み合わせる等）して実施することができる。

本実施形態の一部又は全部は、以下の態様のようにも記載されうるが、以下には限られない。
（態様１）
第１音声情報を受信する受信部と、
１）前記受信した第１音声情報に対応して第１文字列情報を出力する音声認識処理、
２）前記第１文字列情報に対応して第２文字列情報を出力する言語処理、および、
３）前記第２文字列情報に対応して第２音声情報を出力する音声合成処理、
のうち少なくとも１つを実行する処理実行部と、
ａ）前記音声認識処理を実行する音声認識処理サーバ、
ｂ）前記言語処理を実行する言語処理サーバ、及び
ｃ）前記音声合成処理を実行する音声合成処理サーバ
のうち少なくとも一つを識別するサーバ識別情報を含むサーバ識別情報データベースと、
前記第２音声情報を送信する送信部と、
を備え、
前記音声認識処理、前記言語処理、および前記音声合成処理のうち１つ以上の処理を実行し、それ以外の処理を前記サーバ識別情報データベースにより識別されたサーバに転送して実行させる、サーバ管理装置。
（態様２）
言語情報を登録するＡＰＩサーバであって、
前記言語情報を取得する言語情報取得部と、
取得した前記言語情報が韻律関連情報である場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成処理サーバに登録し、前記言語情報が形態素関連情報である場合には当該形態素関連情報を蓄積して自然言語処理を実施する自然言語処理サーバに登録し、前記言語情報が読み表記関連情報である場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識処理サーバに登録する言語情報登録部と、を備えるＡＰＩサーバ。
上記ＡＰＩサーバによれば、言語処理の対象となる言語情報を一括して取得する。そしのこの言語情報が韻律関連情報であるか、形態素関連情報であるか、読み表記関連情報であるか、に応じてそれぞれの情報に対応する処理を実行するサーバに各情報が登録される。例えば言語情報が、韻律関連情報、すなわち、言語を構成する音声の長短、母音・子音、およびアクセントの配列、音数等に関する情報であれば、当該情報を蓄積して前記言語に対応する音声を合成する処理を実行する音声合成処理サーバに登録される。例えば言語情報が形態素関連情報、すなわち、意味を持つ最小の言語単位（morpheme）を定義する情報であれば、当該情報を蓄積して自然言語解析を実施する自然言語処理サーバに登録される。例えば言語情報が読み表記関連情報、すなわち、言語の読みや漢字や仮名等の標記に関する情報であれば、当該情報を蓄積して音声認識を実施する音声認識処理サーバに登録される。
上記ＡＰＩサーバによれば、言語情報の登録を希望するユーザ、例えば所定の音声ガイドサービスの提供主体となるユーザは、コンピュータ装置を用いて、ＡＰＩサーバにアクセスし、ＡＰＩサーバの指示に従って言語情報を一括登録することができる。具体的には、上記実施形態のシステムであれば、ユーザから提供された言語情報が、ＡＰＩサーバの登録管理処理により、音声認識処理サーバ５、言語処理サーバ７、および音声合成処理サーバ９のいずれかに、言語情報の種類に応じて正しく登録されることになる。このような言語情報を登録するユーザにとっては、音声認識処理サーバ５、言語処理サーバ７、および音声合成処理サーバ９のそれぞれに個別に対応する言語情報を登録するといった手間を省くことができ、音声ガイドサービスを開始するために必要な膨大な量の登録作業を簡単に済ませることができる。
そしてある程度の言語情報を各処理サーバに登録したあとは、上記実施形態で説明したように、サーバ管理装置３の制御によって、ユーザの音声による問い合わせに対応する回答を提供できるようになる。
（態様３）
前記音声合成サーバ、前記自然言語サーバ、および前記音声認識サーバを識別する識別情報を管理する管理サーバと通信可能に構成されており、
前記管理サーバとの通信により取得した前記識別情報に基づいて前記言語情報を登録する、上記態様２に記載のＡＰＩサーバ。
上記ＡＰＩサーバによれば、上記した音声合成処理サーバ、自然言語処理サーバ、および音声認識処理サーバを識別するための識別情報を管理する管理サーバに問い合わせることで、取得した言語情報を登録すべきサーバのアドレスを認識し、言語情報の種別に対応するサーバに正しく言語情報を登録することが可能である。

１：サーバ管理システム
１Ａ：辞書ＤＢ管理システム
２：ユーザ端末装置
３：サーバ管理装置
３Ａ：辞書ＤＢ管理装置
４：ＡＰＩサーバ
５：音声認識処理サーバ
７：言語処理サーバ
９：音声合成処理サーバ
１２：サーバ管理部
１４：サーバ情報ＤＢ
１６：音声／文字列情報ＤＢ
１８：ユーザ情報ＤＢ
３６：処理状況判断部
３８：通信状況判断部
３９：音声認識処理管理部
４０：言語処理管理部
４１：音声合成処理管理部
４４：エラー処理部
５２：音声認識処理部
７４：文字列情報生成部
８２：言語処理部
１０４：文字列情報処理部
１１２：音声合成処理部
１３４：音声情報生成部
１５０，１７０，１９０：基本辞書ＤＢ
１５２，１７２，１９２：ユーザ辞書ＤＢ
２００：入力装置
３００：言語情報取得部
３０２：識別情報取得部
３０４：言語情報補完部
３０６：言語情報登録部

本発明は、辞書データベース管理装置、ＡＰＩサーバ、辞書データベース管理方法、及び辞書データベース管理プログラムに関する。

上記課題を解決するために、本発明の一側面に係る辞書データベース管理装置は、言語情報を登録する辞書データベース管理装置であって、前記言語情報を取得する言語情報取得部と、取得した前記言語情報が韻律関連情報を含む場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成処理サーバの第１辞書データベースに登録し、前記言語情報が形態素関連情報を含む場合には当該形態素関連情報を蓄積して自然言語処理を実施する言語処理サーバの第２辞書データベースに登録し、前記言語情報が読み表記関連情報を含む場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識処理サーバの第３辞書データベースに登録する言語情報登録部と、を備える。

また、本発明の一側面に係るＡＰＩサーバは、言語情報を登録するＡＰＩサーバであって、前記言語情報を取得する言語情報取得部と、取得した前記言語情報が韻律関連情報である場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成サーバに登録し、前記言語情報が形態素関連情報である場合には当該形態素関連情報を蓄積して自然言語処理を実施する自然言語サーバに登録し、前記言語情報が読み表記関連情報である場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識サーバに登録する言語情報登録部と、を備える。

また、本発明の一側面に係る辞書データベース管理方法は、言語情報を登録する辞書データベース管理方法であって、前記言語情報を取得するステップと、取得した前記言語情報が韻律関連情報を含む場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成処理サーバの第１辞書データベースに登録し、前記言語情報が形態素関連情報を含む場合には当該形態素関連情報を蓄積して自然言語処理を実施する言語処理サーバの第２辞書データベースに登録し、前記言語情報が読み表記関連情報を含む場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識処理サーバの第３辞書データベースに登録するステップと、を含む。

また、本発明の一側面に係る辞書データベース管理プログラムは、言語情報を登録する辞書データベース管理プログラムであって、コンピュータに、前記言語情報を取得する機能と、取得した前記言語情報が韻律関連情報を含む場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成処理サーバの第１辞書データベースに登録し、前記言語情報が形態素関連情報を含む場合には当該形態素関連情報を蓄積して自然言語処理を実施する言語処理サーバの第２辞書データベースに登録し、前記言語情報が読み表記関連情報を含む場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識処理サーバの第３辞書データベースに登録する機能と、を実現させる。

Claims

言語情報を登録する辞書データベース管理装置であって、
前記言語情報を取得する言語情報取得部と、
取得した前記言語情報が韻律関連情報を含む場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成処理サーバの第１辞書データベースに登録し、前記言語情報が形態素関連情報を含む場合には当該形態素関連情報を蓄積して自然言語処理を実施する言語処理サーバの第２辞書データベースに登録し、前記言語情報が読み表記関連情報を含む場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識処理サーバの第３辞書データベースに登録する言語情報登録部と、
を備える辞書データベース管理装置。
前記音声合成処理サーバ、前記言語処理サーバ、および前記音声認識処理サーバを識別する識別情報を取得する識別情報取得部をさらに備え、
前記言語情報登録部は、前記識別情報に基づいて前記言語情報を登録する、
請求項１に記載の辞書データベース管理装置。
言語情報を登録する辞書データベース管理方法であって、
前記言語情報を取得するステップと、
取得した前記言語情報が韻律関連情報を含む場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成処理サーバの第１辞書データベースに登録し、前記言語情報が形態素関連情報を含む場合には当該形態素関連情報を蓄積して自然言語処理を実施する言語処理サーバの第２辞書データベースに登録し、前記言語情報が読み表記関連情報を含む場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識処理サーバの第３辞書データベースに登録するステップと、を含む、
辞書データベース管理方法。
言語情報を登録する辞書データベース管理プログラムであって、
コンピュータに、
前記言語情報を取得する機能と、
取得した前記言語情報が韻律関連情報を含む場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成処理サーバの第１辞書データベースに登録し、前記言語情報が形態素関連情報を含む場合には当該形態素関連情報を蓄積して自然言語処理を実施する言語処理サーバの第２辞書データベースに登録し、前記言語情報が読み表記関連情報を含む場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識処理サーバの第３辞書データベースに登録する機能と、
を実現させるための辞書データベース管理プログラム。
少なくとも一つの音声認識処理サーバ、少なくとも一つの言語処理サーバ、及び少なくとも一つの音声合成処理サーバを識別するサーバ識別情報を含むサーバ識別情報データベースと、
第１音声情報を受信する受信部と、
前記受信した第１音声情報を、前記サーバ識別情報に基づいて特定された音声認識処理サーバに転送し、前記第１音声情報に対応して前記音声認識処理サーバから返信された第１文字列情報を受信する音声認識処理管理部と、
前記第１文字列情報を前記サーバ識別情報に基づいて特定された言語処理サーバに転送し、前記第１文字列情報に対応して前記言語処理サーバから返信された第２文字列情報を受信する言語処理管理部と、
前記第２文字列情報を前記サーバ識別情報に基づいて特定された音声合成処理サーバに転送し、前記第２文字列情報に対応して前記音声合成処理サーバから返信された第２音声情報を受信する音声合成処理管理部と、
前記第２音声情報を送信する送信部と、
を備えるサーバ管理装置。
複数のサーバを管理して第１情報から第２情報を生成するためのサーバ管理装置であって、
第１サーバ及び第２サーバを識別するサーバ識別情報を含む第１データベースと、
前記サーバ識別情報に基づいて特定された前記第１サーバに前記第１情報を転送し、前記第１情報に対応して前記第１サーバから返信された中間情報を受信する第１サーバ管理部と、
前記中間情報を前記サーバ識別情報に基づいて特定された前記第２サーバに転送し、前記中間情報に対応して前記第２サーバから返信された前記第２情報を受信する第２サーバ管理部と、
を備えるサーバ管理装置。
請求項６に記載のサーバ管理装置であって、
前記第１サーバが、音声認識処理を実行するサーバであり、
前記第２サーバが、言語処理又は音声合成処理を実行するサーバである、
サーバ管理装置。
請求項６に記載のサーバ管理装置であって、
前記第１サーバが、言語処理を実行するサーバであり、
前記第２サーバが、音声合成処理を実行するサーバである、
サーバ管理装置。
複数のサーバを管理して第１情報から第２情報を生成するためのサーバ管理プログラムであって、
コンピュータに、
第１サーバ及び第２サーバを識別するサーバ識別情報を参照する機能と、
前記サーバ識別情報に基づいて特定された前記第１サーバに前記第１情報を転送し、前記第１情報に対応して前記第１サーバから返信された中間情報を受信する機能と、
前記中間情報を前記サーバ識別情報に基づいて特定された前記第２サーバに転送し、前記中間情報に対応して前記第２サーバから返信された前記第２情報を受信する機能と、
を実現させるためのサーバ管理プログラム。
複数のサーバを管理して第１情報から第２情報を生成するためのサーバ管理方法であって、
第１サーバ及び第２サーバを識別するサーバ識別情報を参照することと、
前記サーバ識別情報に基づいて特定された前記第１サーバに前記第１情報を転送し、前記第１情報に対応して前記第１サーバから返信された中間情報を受信することと、
前記中間情報を前記サーバ識別情報に基づいて特定された前記第２サーバに転送し、前記中間情報に対応して前記第２サーバから返信された第２情報を受信することと、
を含むサーバ管理方法。
言語情報を登録するＡＰＩサーバであって、
前記言語情報を取得する言語情報取得部と、
取得した前記言語情報が韻律関連情報である場合には当該韻律関連情報を蓄積して音声合成処理を実施する音声合成サーバに登録し、前記言語情報が形態素関連情報である場合には当該形態素関連情報を蓄積して自然言語処理を実施する自然言語サーバに登録し、前記言語情報が読み表記関連情報である場合には当該読み表記関連情報を蓄積して音声認識処理を実施する音声認識サーバに登録する言語情報登録部と、
を備えるＡＰＩサーバ。
前記音声合成サーバ、前記自然言語サーバ、および前記音声認識サーバを識別する識別情報を管理する管理サーバと通信可能に構成されており、
前記管理サーバとの通信により取得した前記識別情報に基づいて前記言語情報を登録する、
請求項１１に記載のＡＰＩサーバ。