JP5233989B2

JP5233989B2 - 音声認識システム、音声認識方法、および音声認識処理プログラム

Info

Publication number: JP5233989B2
Application number: JP2009505186A
Authority: JP
Inventors: 潔山端
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-03-14
Filing date: 2008-03-14
Publication date: 2013-07-10
Anticipated expiration: 2028-03-14
Also published as: WO2008114708A1; US20100324899A1; JPWO2008114708A1; US8676582B2

Description

本発明は、クライアント端末装置において音声を入力し、ネットワークで接続されたサーバにおいて音声認識処理を行うサーバ・クライアント型の音声認識システム、音声認識方法、及び音声認識処理プログラムに関する。

上記のサーバ・クライアント型の音声認識システムにあっては、音声認識用の辞書をどのように配置するかが設計上重要なポイントとなっている。音声認識を行うエンジンがサーバに装備されていることを考慮すると、音声認識用辞書はエンジンからアクセスが容易なサーバに装備するのが妥当である。その理由は、一般に、クライアント端末装置（以下「クライアント」と略称）とサーバを接続するネットワーク回線は、サーバ内部のデータ伝送路であるデータバスと比較して、データ転送の速度が遅く且つ通信にかかるコストも高価なためである。

一方、クライアントに特有の単語など、クライアント毎に音声認識対象の語彙を変えたい場合があるが、クライアントに特有の単語の音声認識用辞書は、クライアントに装備するほうが管理上好都合である。そのため、一般には、サーバ・クライアント型の音声認識システムでは、サーバが備える音声認識用辞書とクライアントが備える音声認識用辞書の双方を利用して音声認識処理を進めることになる。サーバが備える音声認識用辞書とクライアントが備える音声認識用辞書の双方を利用して音声認識処理を行うシステムの一例が提案されている（特許文献１参照）。

図８に示す音声認識システムは、音声認識エンジン１０４と認識辞書１０３を有するクライアント１００と、音声認識エンジン１１４と認識辞書１１３を有するサーバ１１０から構成されている。この音声認識システムは、概ね次のように動作する。クライアント１００は音声入力部１０２から音声が入力されると、辞書制御部１０６により制御される認識辞書１０３を参照して音声認識エンジン１０４により音声認識処理を行う。音声認識処理に成功し、音声認識結果が得られた場合は、音声認識結果が結果統合部１０７を経由して出力される。

一方、音声認識処理に失敗し、音声認識結果がリジェクト（Reject）となった場合は、クライアント１００は入力された音声データを音声送信部１０５によりサーバ１１０に送信する。サーバ１１０は音声受信部１１２により音声データを受信し、辞書制御部１１５により制御される認識辞書１１３を参照して音声認識エンジン１１４により音声認識処理を行う。得られた音声認識結果は結果送信部１１６によりクライアント１１０に送信され、結果統合部１０７を経由して出力される。

要約すれば、クライアント単独で音声認識結果が得られた場合はそれを音声認識システムの出力とし、音声認識結果が得られなかった場合はサーバで音声認識処理を行い、その音声認識結果を音声認識システムの出力とするものである。

また、サーバが備える音声認識用辞書とクライアントが備える音声認識用辞書を利用して音声認識処理を行う別のシステムの例が提案されている（特許文献２参照）。図９に示す音声認識システムは、ユーザ辞書２０４Ａ、音声認識用データ２０４Ｂ、辞書管理情報２０４Ｃを格納した記憶部２０４を有するクライアント２００と、認識辞書２１５と音声認識部Ｂ２１４を有するサーバ２１０が、クライアント２００側の通信部２０２及びサーバ側の通信部２１１を介して相互に通信を行う構成となっている。

この音声認識システムは、概ね次のように動作する。クライアント２１０は音声認識処理に先立ち、ユーザ辞書２０４Ａを通信部２０２によりサーバ２１０に送信する。その後、クライアント２００は音声入力部２０１から入力された音声データを通信部２０２によりサーバ２１０に送信する。サーバ２１０は通信部２１１により受信したユーザ辞書２０４と辞書管理部２１２により管理される認識辞書２１５を用いて、音声認識部２１４により音声認識処理を行う。
特開２００３−２９５８９３号公報特許第３５８１６４８号

しかしながら、上述した技術による音声認識システムには、以下に述べる課題が存在する。

まず、特許文献１に記載の技術では、クライアント上の認識辞書とサーバ上の認識辞書を使った音声認識処理を行うことができない。それは、この特許文献１に記載のシステムにあっては、まず、クライアント上の認識辞書だけを用いて音声認識処理を行い、音声認識処理に失敗した場合にサーバ上の認識辞書のみを用いて音声認識処理を行うためである。このため、正解の音声認識結果が複数の単語を含み、一部の単語がクライアント側の認識辞書にのみ含まれ、別の一部の単語がサーバ側の認識辞書にのみ含まれるものであるような場合、このシステムでは、正解の音声認識結果を得ることができない。

また、上記特許文献１に記載の技術では、まず、クライアント側で音声認識処理を行うと共に音声認識処理の成功／失敗をクライアント側で判断し、失敗の場合にのみ、サーバ側で音声認識処理を行う。このため、この特許文献１のシステムでは、クライアントが、音声認識処理に失敗したにも関わらず誤って成功と判定すると、それがそのままシステム全体としての音声認識結果として採用される。このため、クライアントの音声認識処理の精度が、システム全体の音声認識処理の精度に大きく影響する。

ところが、クライアント端末で利用可能なリソースは、一般にサーバと比較して小さく、クライアント上で行う音声認識処理の精度は、サーバで処理する場合と比べて低いのが通常である。そのため、システムとしての音声認識の精度を上げにくいという不都合が生じている。

又、特許文献２に記載の技術では、音声認識処理の前にクライアント上の認識辞書をサーバに送信し、サーバでは送信された認識辞書とサーバ自身の認識辞書を用いて音声認識処理を行う。このシステムでは、音声認識処理の前に大量のデータ転送を行うため、多大な通信コストと通信時間がかかるという不都合が生じている。尚、この特許文献２には、認識語彙ごとに入力フォーム識別子を指定して管理するようにし、現在入力対象となっている入力フォームの情報を用いてユーザ辞書中の音声認識対象語彙を絞り込むやり方への言及がある。

しかしながら、この音声認識対象語彙を絞り込むやり方が適用可能なのは、発声前に予め、音声認識対象語彙を絞り込む情報（この場合は入力フォーム情報）が与えられている場合に限られ、このような追加情報が利用できない一般の音声認識システムに対しては適用することができない、という不都合が生じている。

本発明は、音声認識の質を維持しつつシステムの負担を増加させることなく当該音声認識をより迅速に処理し得るサーバ・クライアント型の音声認識システム、音声認識方法、及び音声認識処理プログラムを提供することを、その目的とする。

前記目的を達成するため、本発明に係る音声認識システムは、電気信号に変換された入力音声を認識する音声認識システムであって、
音声認識に用いるユーザ辞書を格納したユーザ辞書部と、
前記ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段と、
予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する音声認識手段とを有することを特徴とするものである。

本発明に係る音声認識方法は、電気信号に変換された入力音声を認識する音声認識方法であって、
ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成し、
予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識することを特徴とするものである。

本発明に係る音声認識プログラムは、電気信号に変換された入力音声を認識するために用いる音声認識プログラムであって、
前記クライアント端末装置のコンピュータに、
ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する機能とを実行させ、
前記サーバのコンピュータに、
予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する機能を実行させることを特徴とするもののである。

本発明は、音声認識装置における音声認識処理に際しては、音声入力装置から入力音声と縮小ユーザ辞書とを送るようにしたので、音声認識装置側では、縮小ユーザ辞書とシステム辞書とに基づいて音声認識の質を維持しつつ当該入力音声に対する音声認識を実行することができる。さらに音声入力装置からユーザ辞書に代えてデータ容量の小さい縮小ユーザ辞書を送るようにしたので、音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減でき、かかる点においてデータ伝送時間の短縮および前述した音声認識装置における音声認識の処理時間を大幅に短縮することができる。したがって、音声認識の質を維持しつつシステムの負担を増加させることなく当該音声認識をより迅速に成し得る。

以下、本発明の実施の形態を、添付図面に基づいて説明する。
［第１の実施形態］
本発明の第１の実施形態にかかる音声認識システムの一構成例を図１に基づいて説明する。

この図１において、本実施形態にかかる音声認識システムは、音声入力装置としてのクライアント端末装置（以下「クライアント」と略称する）１０と、音声認識装置としてのサーバ２０とから構成される。クライアント１０は、音声を入力する音声入力部１１と、音声認識に用いる単語を有するユーザ辞書部１２と、入力された音声に関してユーザ辞書部１２から不要と判断した単語を排除して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段としての縮小ユーザ辞書作成部１３と、入力音声及び縮小ユーザ辞書をサーバ２０に送信するクライアント通信部１４とを備えている。符号１３Ｄは、縮小ユーザ辞書作成部１３で作成した縮小ユーザ辞書を格納した縮小ユーザ辞書部を示す。又、符号１５は、サーバ２０で音声認識され送られてきた認識結果の音声情報を表示画面頭に出力表示する認識結果出力部を示す。

サーバ２０は、音声認識に用いる単語を有するシステム辞書２１と、クライアント１０から送信された入力音声及び縮小ユーザ辞書を受信するサーバ通信部２３と、システム辞書と縮小ユーザ辞書とを用いて入力音声について音声認識処理を行う音声認識手段としての音声認識部２２とを備えている。

このため、本実施形態におけるサーバ２０における音声認識処理では、実質的に、システム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果を得ることができるようになっている。又、クライアント１０からサーバ２０に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて削減できるようになっている。

前述した縮小ユーザ辞書は、具体的には、ユーザ辞書１２が有する単語の中から入力音声に含まれている可能性が高い単語を選び出した辞書として構成されている。縮小ユーザ辞書作成部１３は、ユーザ辞書部１２が有する単語と入力音声とを照合し、入力音声中に当該単語が現れる尤度を計算し、計算結果を基に尤度の高い単語を選択して縮小ユーザ辞書を作成する。

これにより、ユーザ辞書と縮小ユーザ辞書との差分は入力音声に含まれる可能性の低い単語となり、音声認識処理では、実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果が得られる。

又、クライアント１０の処理は、ユーザ辞書の単語に対して入力音声に含まれる可能性があるかどうかを判定する処理であり、この段階では、本当に出現している単語の欠落だけを注意すればよく、音声認識精度に直接悪影響を及ぼさないようになっている。

更に、前述した縮小ユーザ辞書作成部（縮小ユーザ辞書作成手段）１３は、前記ユーザ辞書１２を用いたワードスポッティング法によって縮小ユーザ辞書を作成する。

以下、これを更に詳述する。図１において、クライアント１０は、前述したように、音声入力部１１と、ユーザ辞書１２と、縮小辞書作成部１３と、クライアント通信部１４とを備えている。また、サーバ２０は、システム辞書部２１と、音声認識部２２と、サーバ通信部２３とを備えている。サーバ２０との通信を行うクライアント通信部１４と、クライアント１０との通信を行うサーバ通信部２３とは、通信回線１２０を介して接続されている。

クライアント１０において、音声入力部１１は、例えばマイクロフォンとＡ／Ｄ変換器から構成することが可能である。ユーザ辞書部１２は、ハードディスクや不揮発性メモリ等の記憶部からなり、これに辞書データが格納された形態が採られている。縮小辞書作成部１３は、入力音声を参照してユーザ辞書から縮小ユーザ辞書を作成するものであり、本実施形態では、ランダムアクセスメモリ（ＲＡＭ））を有するマイクロプロセッサと、前記ＲＡＭに格納されたコンピュータプログラムを実行する中央処理装置（ＣＰＵ）とから構成されている。クライアント通信部１４は、例えば有線ＬＡＮや無線ＬＡＮ、或いは携帯電話機等を利用してデータの通信を行う。

サーバ２０は、例えばパーソナルコンピュータ等により構成される。システム辞書部２１は、例えば音声認識に用いる辞書を格納したハードディスクにより構成されている。サーバ通信部２３は、ＬＡＮ等を利用してクライアント１０との間にデータの通信を行う。音声認識部２２は、システム辞書部２１のシステム辞書を参照しながら所定の音声認識処理を実行する。通信回線１２０は、例えば有線ＬＡＮや無線ＬＡＮ、あるいは携帯電話機で使用する無線網等から構成される。

次に、上記第１実施形態の動作を、図２に基づいて説明する。
まず、ユーザがクライアント１０の音声入力部１１から音声を入力する（ステップＳ１０１：音声入力工程）。これに伴い、縮小辞書作成部１３は、ステップＳ１０１で入力された音声データを参照して、ユーザ辞書部１２から縮小ユーザ辞書を作成する（ステップＳ１０２：縮小ユーザ辞書作成工程）。

具体的には、縮小ユーザ辞書は、ユーザ辞書部１０２に格納されているユーザ辞書に含まれる単語の中から入力音声に含まれている可能性が高いものを選び出すことにより作成された辞書で、前記ユーザ辞書の部分辞書としての性質を備えている。即ち、認識すべき音声が入力された場合、縮小ユーザ辞書はユーザ辞書部１０２のユーザ辞書に基づいて入力音声に対応した辞書として作成される。縮小ユーザ辞書には、ユーザ辞書の単語の内、一部のものだけが含まれているが、各単語の持つ情報はユーザ辞書と同じである。そして、この作成された縮小ユーザ辞書は、前述した縮小ユーザ辞書部１３Ｄに格納される。

次に、クライアント通信部１４が、ステップＳ１０１で入力された音声データと、ステップＳ１０２で作成された縮小ユーザ辞書とを、通信回線１２０を介してサーバ２０のサーバ通信部２３に送信する（ステップＳ１０３：送信工程）。

続いて、サーバ２０のサーバ通信部２３が、クライアント１０から送信されてきた音声データと縮小ユーザ辞書を受信する（ステップＳ１０４）。このサーバ側の音声認識部２２は、受信した音声データを対象として、システム辞書部２１にシステム辞書と受信した縮小ユーザ辞書との双方を用いて、音声認識処理を実行する（ステップ１０５：音声認識工程）。

そして、この音声認識処理された前記入力音声にかかる音声認識情報が前述したクライアント１０へ返送されて来た場合には、当該クライアント１０から外部に向けて出力される（入力音声出力工程）。この場合は、例えば、前述した認識結果出力部１５から外部に向けて画像若しくは文字表示等によって出力表示されるようになっている。

ここで、上述した各ステップ１０１乃至１０５にあっては、その実行内容をクライアント１０側とサーバ側とに分けて制御プログラム若しくはデータ処理にかかるプログラムに代えて実行可能に構成し、各々の側にて予め装備したコンピュータに実行させるように構成してもよい。

次に、上記縮小辞書作成部１３の構成について、図３を参照して説明する。
この縮小辞書作成部１３は、入力音声と単語の照合を行い入力音声中に当該単語が現れる尤度を計算する照合部１３Ａと、この尤度の対象となった単語と尤度の組を仮に保持する単語仮格納部１３Ｂと、この単語仮格納部１３Ｂを参照して尤度の高い一乃至複数の単語を選択する単語選択部１３Ｃとを備えて構成されている。

次に、図４に基づいて上記縮小辞書作成部１３の動作を説明する。
この縮小辞書作成部１３は、ユーザ辞書１２に含まれる単語のそれぞれに対して、ステップＳ２０２とステップＳ２０３の処理を繰り返す（ステップＳ２０１）。
ステップＳ２０２では、縮小辞書作成部１３は、照合部１３Ａにおいて、注目単語が入力音声に含まれる尤度を計算する（尤度計算工程）。ステップＳ２０３では、縮小辞書作成部１３は、注目単語を、計算した尤度と対応させて（組にして）縮小辞書とし、これを作成単語仮格納部１３Ｂに格納する（単語仮格納工程）。

ユーザ辞書１２に含まれる全ての単語に対して上記の処理が終了したら、縮小辞書作成部１３は、単語選択部１３Ｃを起動する。縮小辞書作成部１３は、単語選択部１３Ｃにより、単語仮格納部１３Ｂに格納された単語の中から尤度の高いものをいくつか選択する（単語選択工程）。選択された単語は、改めて辞書の形に編成され、縮小ユーザ辞書が作成されて縮小ユーザ辞書部１３Ｄに格納される（縮小辞書作成工程）。

ここで、単語選択部１３Ｂにおける選択処理は、様々なやり方で実施可能である。例えば、固定の尤度を予め定めておき、この尤度以上の単語を選択し、この尤度未満の単語は選択しない、というやり方で実施できる。
或いは、固定の数を予め定めておき、選択した単語数がこの数を超えない範囲で、尤度の高いものから単語を順に選択していく、というやり方で実施することもできる。
もちろん、これらを組み合わせて、例えば、選択した単語の数が予め定めた数を超えない範囲で、尤度の高いものから単語を順に選択していくが、これも予め定めた最低尤度より尤度の低い単語は選択しない、などのやり方で実施することもできる。

実際には、ユーザ辞書１２は、例えばハードディスクや不揮発性メモリに格納された辞書データとして構成することができる。単語仮格納部１３Ｂは、ハードディスクや不揮発性メモリ、あるいは揮発性メモリに確保されたデータ格納領域として構成する。
照合部１３Ａと単語選択部１３Ｃは、例えば、メモリ上に格納されコンピュータプログラムをＣＰＵで実行することにより構成されるようにしてもよいものである。

また、縮小ユーザ辞書部１３Ｄは、ユーザ辞書部１２の場合と同様に、ハードディスクやメモリ上に記憶された辞書データとしての形態が採られている。
縮小ユーザ辞書部１３Ｄに格納された縮小ユーザ辞書は、格納されているデータが、単語選択部１３Ｃで選択された単語に限られることから、ユーザ辞書の部分辞書としての性質を有する。

照合部１３Ａは、様々な実施形態を採ることができる。例えば、音声認識におけるワードスポッティング法に用いる手法を、そのまま適用して実施することができる。ワードスポッティング法とは、例えば、「日本国特許庁作成の標準技術集」平成１３年度のテーマ「サーチエンジン」の、Ｃ−６−（３）「音声検索」の項で説明されているように、入力音声から必要な単語や音節を拾い出していく方式である。

本第１実施形態では、ユーザ辞書１２の単語の各々に対して、その単語が入力音声から拾い出せるか否かを判定し（抽出可否判定工程）、判定時に計算した尤度とともに単語仮格納部１３Ｂに格納すればよい（縮小辞書作成工程）。
これらについては、各工程内容をプログラム化し前述したクライアント側に予め装備したコンピュータに実行させるように構成してもよい。

上記標準技術集を参照すると、ワードスポッティングの実現法としては、ＤＰ（Ｄynamic Processing ）マッチングを利用する方法がある。ＤＰマッチングとは、音声認識におけるパターンマッチング技術であり、単語中の同じ音素同士が対応するように時間正規化を行って単語と単語の類似距離を求めるものである。例えば一つの単語に対し二つの音声波形があるとする。これを時系列パターンＡとＢとし、Ａを入力音声、Ｂを標準パターンとする。

ＤＰマッチングを用いてワードスッポティングを行う場合、スポッティングの対象となる単語の標準パターンＢを入力音声Ａ（スペクトルなどのパラメータ系列）の始端から１フレームずつずらしながら、入力音声の部分区間とＤＰマッチングを行う。
マッチング結果としての距離がある閾値以下になったとき、その時点に標準パターンあり、と判定する。

本第１実施形態では、上述した閾値を定めず、距離がどのような値になっても、これを正負逆転して尤度として出力するように構成すればよい。距離を尤度に変換する際に正負を逆転するのは、距離は小さいほど単語が入力音声に含まれる可能性が高いので、値が大きいほど単語が入力音声に含まれる可能性が高くなる尤度として使用するには、大小を逆転する必要があるためである。

また、ＤＰマッチングの代わりにＨＭＭ（Ｈidden Ｍarkov Ｍodel）を用いてワードスポッティングを行う方法もよく知られている。ＨＭＭを用いてワードスポッティングを行う方法は、例えば、「確率モデルによる音声認識」第２版（中川聖一著、（社）電子情報通信学会発行、平成元年）の第３章3.4.2 「音韻・音節・単語スポッティングアルゴリズム」に詳しい。
上記で詳細に説明したように、照合部１３Ａにおける照合処理は、既知の技術を用いて様々な形態で実施することが可能である。

次に、この第１実施形態全体の具体的な動作を、図５の入力例と上記図２及び図４のフローチャートを用いて詳細に説明する。

図５（ａ）は、ユーザ辞書部１２に格納されたユーザ辞書（内容）の一例を示す。このユーザ辞書には、主にニューヨーク市内の地名に対する日本語表記と発音が格納されている。
今、ユーザが、クライアント１０の音声入力部１１に対し、例えば「シェイスタジアムはどこですか」と発声（音声入力）したと想定する（図２のステップＳ１０１）。
この発声に対応する読みは、ひらがなで表記すると、「しぇいすたじあむわどこですか」となる。ユーザの音声入力に伴い、直ちに縮小辞書作成部１３が起動する（図２のステップＳ１０２）。

図４を参照すると、縮小辞書作成部１３は、ユーザ辞書部１０２に格納された各単語に対し、その単語が入力音声に含まれる尤度を計算し、単語仮格納部１３Ｂに格納する処理を繰り返す（ステップＳ２０１：図４のステップＳ２０２乃至ステップＳ２０３）。本例では、まず、尤度の計算対象の単語としてユーザの発音した「イーストビレッジ」が選択され、縮小辞書作成部１３は、この単語と入力音声とを照合し、この単語が入力音声に含まれる尤度を計算する。計算された尤度が例えば「０．２」であった場合、縮小辞書作成部１３は、単語「イーストビレッジ」の辞書内容、即ち表記・発音及び尤度「０．２」の組を、単語仮格納部１３Ａに格納する。

次に、注目単語をユーザ辞書中の次の単語「クロイスターズ」に変えて、同様な尤度計算を行う。計算された尤度が例えば「０．１」であった場合、縮小辞書作成部１３は、単語「クロイスターズ」の辞書内容、即ち、表記・発音及び尤度「０．１」の組を、単語仮格納部１３Ｂに格納する。縮小辞書作成部１３は、ユーザ辞書１２の全ての単語に対して、この尤度計算と単語仮格納部１３Ｂへの単語格納の処理を繰り返す。
図５（ｂ）は、尤度計算及び単語格納の処理が完了した時点の単語仮格納部１３Ｂの内容の一例を示す図である。ユーザ辞書の全ての単語に対して、計算された尤度が、単語と対応するように格納されている。

次に、縮小辞書作成部１３は、単語選択部１３Ｃにより、単語仮格納部１３Ｂから尤度の高い単語を選択する（図４のステップＳ２０４）。本例では、尤度が例えば「０．５」以上の単語を選択するように、単語選択部１３Ｃが構成されているものとする。図５（ｂ）の内容を参照すると、該当する単語は、「シェイスタジアム」（尤度０．８）、「シェークスピアガーデン」（尤度０．６）、及び「メイシーズ」（尤度０．５）の三語であり、これら三語が単語選択部１３Ｃにより選択される。

次に、縮小辞書作成部１３は、単語選択部１３Ｃにより選択された三語を出力し、これら三語からなる辞書を作成する（図４のステップＳ２０５）。こうして作成されたものが縮小ユーザ辞書であり、縮小ユーザ辞書部１３Ｄに格納される。図５（Ｃ）に格納された内容を示す。
この図５（Ｃ）において、縮小ユーザ辞書は、先に選択された三つの単語「シェイスタジアム、シェークスピアガーデン、メイシーズ」からなり、各単語の辞書内容は、図５（ａ）に示したユーザ辞書と全く同じになるように構成されている。
このようにして、クライアント１０で作成された縮小ユーザ辞書は、入力音声データ「しぇいすたじあむわどこですか」と一緒に、クライアント通信部１４から通信回線１２０を介してサーバ２０のサーバ通信部２３に送信される（図２のステップＳ１０３）。

サーバ２０は、サーバ通信部２３により入力音声データと縮小ユーザ辞書を受信すると、音声認識部２２により音声認識処理を実行する（図２のステップＳ１０５）。この音声認識処理では、クライアント１０から送信された縮小ユーザ辞書と、サーバ２０側のシステム辞書との双方を使用する。図５（ｄ）に、サーバ２０のシステム辞書部２１に格納されているシステム辞書の内容の一例を示す。

図５（ｄ）において、本例では、「ここ」「そこ」のような指示詞、「だ」「です」のような独立助動詞、格助詞「が」「を」「に」、副助詞「は」、終助詞「か」、一般名詞「日本」「ワシントン」、間投詞「はい」「いいえ」のように、任意の状況で使われる可能性が高い一般的な単語がシステム辞書部２１に格納されている。
音声認識部２２は、入力音声「しぇいすたじあむはどこですか」に対して、縮小ユーザ辞書とシステム辞書の両方を使って音声認識処理を行い、音声認識結果「シェイスタジアム／は／どこ／です／か」を得る。ここで、スラッシュ「／」は、認識された単語の区切れ目を表すために、説明上導入した記号である。

上記音声認識結果「シェイスタジアム／は／どこ／です／か」における文頭の単語「シェイスタジアム」は、縮小ユーザ辞書に由来する単語であり、その後に続く「は」「どこ」「です」「か」は、いずれもシステム辞書に由来する単語である。縮小ユーザ辞書の単語は、元々はクライアント１０のユーザ辞書１２に格納されていた単語である。

このように、本第１実施形態では、クライアント１０側のユーザ辞書部１２のユーザ辞書とサーバ２０側のシステム辞書部２１のシステム辞書の単語が混在するような場合でも、その音声認識結果を得ることができる。これは従来技術に対する利点の一つである。

ここで、音声認識前にクライアントのユーザ辞書の全体をサーバに転送して音声認識処理でシステム辞書と一緒に使用する汎用の技術と、本第１実施形態とを比較する。
汎用の技術では、ユーザ辞書全体、即ち、図５（ａ）の例では１０単語全てを送信する必要があった。これに対し、本第１実施形態では、上述したように縮小ユーザ辞書に格納された三単語分のデータを転送すればよい。

一般に、クライアント１０とサーバ２０とを接続する通信線１２０は、クライアント１０及びサーバ２０それぞれに内蔵されたデータバスと比較して、データ転送速度が遅く、データ転送にかかるコストも格段に大きいのが普通である。このような状況で転送データ量を少なく抑えることは非常に重要であり、これにより、転送にかかる時間とコストを低減できるという従来にない利点を得ることが可能となる。

又、クライアント１０で利用できる計算リソースが少なく、縮小辞書作成部１３の照合部１３Ａにおける尤度計算の精度が良くない場合でも、単語選択部１３Ｃにおける選択基準を甘めに設定しておいて、より多くの単語が選択されるように構成する。
このように構成することにより音声認識精度の悪化を防止することができるのも、本第１実施形態の他にない優れた利点（効能）である。

これは、選択部１３Ｃが最終的には不要となる単語を選択し、不要となる単語が縮小ユーザ辞書に含まれた場合でも、正解に含まれる単語を落とさなければ、サーバ１０で実行する音声認識処理で正解が得られると期待できるためである。かかる場合は、縮小ユーザ辞書のサイズが大きくなりデータ転送時間とコストに影響があるが、これらとのトレードオフを考慮して選択部１３Ｃにおける選択基準を設定すればよい。

本第１実施形態では、縮小ユーザ辞書の作成に際して必要とするのは入力音声だけである点に特徴を有する。
これに対し、汎用の技術では、入力先のフォームのＩＤのように、音声以外の情報を使用することによってクライアントからサーバに送信する語彙を絞り込む必要があった。

本第１実施形態では、上述したように縮小ユーザ辞書の作成に際しては、入力音声以外の情報を必要としない。入力音声は音声認識処理において必ず必要となる情報であることから、本第１実施形態は音声認識処理を実行する任意の状況で適用可能となっている。
この点は、汎用の技術が音声認識の処理対象である音声データ以外の情報がないと適用できないのと比較して、本実施形態の大きな利点である。

尚、本実施形態では、単語選択部１３Ｃにおける選択基準を、通信線１２０の通信速度や通信コストを勘案して決定するように実施することも容易である。例えば、通信速度が低速な場合や通信コストが高価な場合、縮小ユーザ辞書に格納する単語数の上限を抑えて、クライアント１０からサーバ１２０に対する縮小ユーザ辞書の転送に一定以上の時間やコストがかからないように調整することは容易である。このような調整を、音声が入力されるたびに動的に行うように構成することも容易である。

以上説明したように、本第１実施形態においては、下記のような効果を奏する。
即ち、サーバ２０における音声認識処理では、実質的にシステム辞書とユーザ辞書の双方を同時に使用して音声認識結果を得ることができる。具体的に説明すると、ユーザが携帯する携帯端末などのクライアントにはユーザ辞書が搭載されているから、ユーザはユーザ辞書に必要な単語を登録する。ユーザ辞書をそのままの容量でサーバに送信してユーザ辞書とシステム辞書とを用いて音声認識を行うことが最善の方法であるが、辞書を送信することを考慮すると、送信容量の面で問題が生じる。

そこで、本発明の実施形態では、入力音声の認識に不要と判断した単語を排除することによりユーザ辞書の容量を縮小して縮小ユーザ辞書を作成し、これを入力音声のデータとともにサーバに送信する。したがって、クライアントからサーバへの送信容量が増えるのを抑えることができる。しかも、サーバに送信される縮小ユーザ辞書には、入力音声の認識に必要な単語が含まれ、その単語がユーザによって登録されるのであるから、縮小ユーザ辞書をサーバのシステム辞書と組み合わせることにより、入力音声を確実に認識できる。

以上のように本発明の実施形態では、ユーザ辞書から縮小ユーザ辞書を作成するが、その縮小ユーザ辞書は入力音声の認識に不要と判断した単語を排除して作成するものであり、縮小ユーザ辞書とシステム辞書とを用いた入力音声の認識処理は、ユーザ辞書とシステム辞書とを用いた入力音声の認識処理と実質的に同じであり、上述したように実質的にシステム辞書とユーザ辞書との双方を同時に使用して音声認識結果を得ることができるものである。

更に、入力音声以外の情報が利用できない場合でも、前述した入力音声のみでも縮小ユーザ辞書の作成が容易であり、又、汎用の例におけるユーザ辞書の転送に比較して転送量が大幅に少なくなることから、クライアント及びサーバ間で転送されるデータ量を大幅に低減させることができる。又、クライアントで利用可能なリソースが少ない場合でもシステム全体としての音声認識精度への悪影響が少ないという効果がある。

即ち、本第１の実施形態は上述したように構成され機能するので、これによると、前述したように音声認識装置における音声認識処理に際しては、音声入力装置から入力音声と縮小ユーザ辞書とを送るようにしたことから、音声認識装置側では、縮小ユーザ辞書とシステム辞書とに基づいて音声認識の質を維持しつつ当該入力音声に対する音声認識を実行することができる。さらに、音声入力装置からユーザ辞書に代えてデータ容量の小さい縮小ユーザ辞書を送るようにしたので、音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減できる。したがって、データ伝送時間の短縮および前述した音声認識装置における音声認識の処理時間を大幅に短縮することができ、音声認識の質を維持しつつシステムの負担を増加させることなく当該音声認識をより迅速に成し得る。

［第２の実施形態］
次に、本発明の第２の実施形態を図６及び図７を参照して説明する。
ここで、前述した第１の実施形態と同一の構成部材については同一の符号を用いるものとする。

この図６乃至図７において、本第２の実施形態である音声認識システムは、音声入力装置としてのクライアント端末装置（以下「クライアント」と略称する）６０と、音声認識装置としてのサーバ７０とから構成される。
クライアント（クライアント端末装置）６０は、図６に示すように音声入力部６１、データ処理部６２、記憶部６３、クライアント通信部６４、縮小辞書作成プログラム６５、および認識結果出力部６９とを備えている。
記憶部６３には、ユーザ辞書６３ａがデータとして記憶されている。データ処理部６２は、縮小辞書作成プログラム６５を読み込んで、データ処理（縮小辞書作成）を制御する。

データ処理部６２は、縮小辞書作成プログラム６５に従って、第１の実施形態の縮小辞書作成手段１３で実行する処理と同一の処理を実行する。具体的には、データ処理部６２は、クライアント（クライアント端末装置）６０の音声入力部６１に入力された音声を参照して、この音声に含まれる可能性の高い単語を記憶部６３内のユーザ辞書６３ａの中からいくつか選択して縮小ユーザ辞書を作成する。クライアント６０で作成された縮小ユーザ辞書は、クライアント通信部６４により通信回線１２０を介してサーバ（音声認識装置）７０に送信される。符号６９は、サーバ７０から送り込まれる入力音声に対する認識結果を出力表示する認識結果出力部を示す。

又、音声認識装置としてのサーバ７０は、図７に示すように、サーバ通信部７１、データ処理部７２、記憶部７３、音声認識プログラム７５を備えている。記憶部７３には、システム辞書７３ａがデータとして記憶されている。データ処理部７２は、音声認識プログラム７５を読み込んで、データ処理を制御する。

データ処理部７２は、音声認識プログラム７５に従って、前述した第１実施形態における音声認識部２２で実行する処理と同一の処理を実行する。
具体的には、データ処理部７２は、クライアント６０から送りこまれる入力音声データと縮小ユーザ辞書とをサーバ通信部７１を介して受信した後、記憶部７３内のシステム辞書７３ａと前記縮小ユーザ辞書の両方を利用して、入力音声データに対する音声認識処理を実行する。

本第２の実施形態では、クライアント６０およびサーバ７０とも、例えば、パーソナルコンピュータ（以下ＰＣ）、ＰＤＡ（Ｐersonal Ｄigital Ａssistant）、携帯電話機など、ＣＰＵとメモリを有しネットワーク接続が可能な電子機器であれば、どれを用いて実施することも可能である。又、クライアント６０の入力部６１は、コンピュータに汎用の音声入力機能があれば、これをそのまま利用することができる。
その他各部の機能については、或いはその他の構成およびその作用効果については、前述した第１実施形態の場合と同一となっている。

以上説明したように、本第２の実施形態においては、下記のような効果を奏する。
まず、サーバ７０における音声認識処理では、前述した第１実施形態の場合と同様に、実質的にシステム辞書とユーザ辞書とを同時に使用した場合と同じ音声認識結果を得ることができ、入力音声以外の情報が利用できない場合でもクライアント６０及びサーバ７０間で転送されるデータ量が少なくて済むという効果がある。
更に、クライアント６０で利用可能なリソースが少ない場合でもシステム全体としての音声認識精度への悪影響が少ないという効果がある。

このように、上述した各実施形態にあっては、音声入力装置であるクライアント端末装置（クライアント）では、入力された音声を対象としてユーザ辞書から単語を抽出し、縮小ユーザ辞書を作成する。単語の抽出は、ユーザ辞書の単語のうちから入力音声に含まれている可能性を判断し、可能性が高いものを抽出する処理として行われる。そして、前記音声入力装置（クライアント）から入力音声と縮小ユーザ辞書を音声認識装置（サーバ）に送信する。一方、音声認識装置（サーバ）側では、システム辞書と縮小ユーザ辞書を同時に使用して音声認識処理が行われる。ここで、クライアントのユーザ辞書と縮小ユーザ辞書の差分は入力音声に含まれる可能性の低い単語のみであるため、サーバの音声認識処理では実質的にシステム辞書とユーザ辞書とを同時に使用した場合と同じ音声認識結果が得られる。

又、縮小ユーザ辞書のサイズはユーザ辞書のサイズと比べて大幅に小さくできることが期待できるため、音声入力装置及び音声認識装置の間で転送されるデータ量を、ユーザ辞書全体を送信する場合と比べて確実に削減することができる。更に、音声入力装置と音声認識装置間の通信は、通常、サーバ内部あるいはクライアントのデータ転送と比べて転送速度が低速で通信コストも高価である。そのため、転送データ量の削減は、データ転送時間の短縮、音声認識処理のレスポンス改善、通信コスト削減が可能となる。

更に、音声入力装置（クライアント）ではユーザ辞書の単語に対して入力音声に含まれる可能性があるかどうかを判定するが、この段階では、本当に出現している単語が欠落しないように注意すればよく、縮小ユーザ辞書に不要な単語が含まれていても最終的な音声認識の精度には影響しない。不要な単語は音声認識処理で最終的に採用されないことが期待されるためである。従って、音声入力装置（クライアント）で処理に使えるリソースが少なく高精度な処理が実行できない場合でも、音声認識精度に直接悪影響を及ぼさない。言い換えれば、ＣＰＵやメモリなどリソースが少ない音声入力装置（クライアント）に対する本発明の機能搭載が容易となる。

即ち、本発明の実施形態によると、音声認識装置における音声認識処理では実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果を得ることができるばかりでなく、入力音声以外の情報が利用できない場合でも、音声入力装置及び音声認識装置間で転送されるデータ量が少なくて済む。更に、音声入力装置で利用可能なリソースが少ない場合でも、システム全体としての音声認識精度への悪影響が少なくできる。

本発明の他の実施形態にかかる音声認識システムは、音声を電気信号に変換し入力音声として入力する音声入力装置と、この音声入力装置に入力された入力音声を取り込んで認識処理する音声認識装置とを通信可能に接続して成る音声認識システムにあって、前述した音声入力装置は、前記入力音声の認識に用いる単語を格納したユーザ辞書部と、前記入力音声に対応する単語を前記ユーザ辞書部から抽出して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段とを備えている。又、前述した音声認識装置は、前記音声入出力装置から前記入力音声と前記縮小ユーザ辞書とを入力すると共に、この縮小ユーザ辞書と予め備えている音声認識用の単語を格納したシステム辞書とに基づいて前記入力音声を認識する音声認識手段を備えている、という構成としてもよいものである。

このため、これによると、上述したように音声認識装置における音声認識処理に際しては、音声入力装置から入力音声と縮小ユーザ辞書とを送るようにしたので、音声認識装置側では、縮小ユーザ辞書とシステム辞書とに基づいて音声認識の質を維持しつつ当該入力音声に対する音声認識を実行することができ、且つ音声入力装置からユーザ辞書に代えてデータ容量の小さい縮小ユーザ辞書を送るようにしたので、音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減でき、かかる点においてデータ伝送時間の短縮および前述した音声認識装置における音声認識の処理時間を大幅に短縮することができる。

本発明の他の実施形態にかかる音声認識システムでは、音声を電気信号に変換し入力音声として入力する音声入力装置と、この音声入力装置で入力された入力音声を認識処理する音声認識装置とを通信可能に接続して成る音声認識システムにあって、前記音声入出力装置は、音声を入力する音声入力部と、入力した音声の認識に用いる単語を格納したユーザ辞書部と、前記入力音声に対応する単語を前記ユーザ辞書から抽出して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段と、前記入力音声及び前記縮小ユーザ辞書を前記音声認識装置に送信する送信手段とを備えている。又、前述した音声認識装置は、音声認識用の単語を格納したシステム辞書部と、前記音声入力装置から送信される前記入力音声及び前記縮小ユーザ辞書を受信する受信手段と、前記システム辞書と前記縮小ユーザ辞書とを用いて前記入力音声について音声認識処理を行う音声認識部とを備える、という構成構成としてもよいものである。

このため、上記音声認識システムにあっては、前述した音声認識装置における音声認識処理に際しては、縮小ユーザ辞書とシステム辞書に基づいて認識処理を実行し得るので、実質的にユーザ辞書とシステム辞書の双方を使用した場合と同じ音声認識結果を得ることができる。
また、音声入力装置から音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減でき、かかる点において回線の負担を確実に低減することができ、全体的に音声認識の処理時間を短縮することができるという利点がある。更に、音声入力装置から音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減できる。

ここで、前述した縮小ユーザ辞書は、前記ユーザ辞書が有する単語の中から前記入力音声に含まれる可能性のある単語を選び出した辞書である。又、前述した縮小ユーザ辞書作成手段は、前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し且つその計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する構成としてもよい。

これにより、ユーザ辞書と縮小ユーザ辞書との差分は入力音声に含まれる可能性の低い単語となり、音声認識処理では実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果が得られる。又、音声入力装置側での上記処理は、ユーザ辞書の単語に対して入力音声に含まれる可能性があるかどうかを判定する処理であり、この段階では、本当に出現している単語が落ちないようにだけ注意すればよく、汎用の技術のように音声認識精度に直接悪影響を及ぼさないという利点がある。

更に、この縮小ユーザ辞書作成手段については、前記ユーザ辞書を用いたワードスポッティング法により前記縮小ユーザ辞書を作成するように構成してもよい。
これにより、音声認識に用いるワードスポッティング法を縮小ユーザ辞書の作成に有効に応用し効率的な縮小ユーザ辞書を作成することができる。

また、上述した縮小ユーザ辞書作成手段については、入力音声とユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を集計する照合部と、この集計された各単語と対応する尤度との組を仮に保持する単語仮格納部と、この単語仮格納部内から用度の高い一又複数の単語を選択し縮小ユーザ辞書作成する単語選択部と、を含む構成としてもよい。

本発明の他の実施形態にかかる音声認識方法は、音声入力装置にあって音声を電気信号に変換しこれを入力音声として入力し、前記音声入力装置が備えている音声認識用のユーザ辞書から前記入力された音声に関する単語を抽出して縮小ユーザ辞書を作成し、前記入力音声及び前記縮小ユーザ辞書を前記音声入力装置から音声認識装置に送信し、前記入力音声及び前記縮小ユーザ辞書を受信した前記音声認識装置にて作動し当該音声認識装置が備えている音声認識用のシステム辞書と受信した前記縮小ユーザ辞書とに基づいて前記入力音声について音声認識処理を行う構成としてもよいものである。

本発明の他の実施形態にかかる音声認識方法は、音声入力装置にあって音声を電気信号に変換しこれを入力音声として入力し、前記音声入力装置が備えている音声認識用のユーザ辞書から前記入力された音声に関する単語を抽出して縮小ユーザ辞書を作成し、前記入力音声及び前記縮小ユーザ辞書を前記音声入力装置から音声認識装置に送信し、前記入力音声及び前記縮小ユーザ辞書を受信した前記音声認識装置にて受信し、前記音声認識装置が作動し当該音声認識装置が備えている音声認識用のシステム辞書と受信した前記縮小ユーザ辞書とに基づいて前記入力音声について音声認識処理を行う構成としてもよいものである。

このため、音声認識装置における音声認識処理では実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果を得ることができる。また、音声入力装置から音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて削減できる。

ここで、前述した縮小ユーザ辞書を作成する際、前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する構成としてもよい。

又、前述した縮小ユーザ辞書を作成する際、ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成するように構成してもよい。

更に、前述した縮小ユーザ辞書を作成する際、前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を集計し、この集計された各単語と対応する尤度との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書を作成し、この選択された単語を改めて辞書の形に編成し縮小ユーザ辞書を作成する構成としてもよい。

本発明の他の実施形態にかかる音声認識処理プログラムは、音声を電気信号に変換し入力音声として入力する音声入力装置と、この音声入力装置に入力された入力音声を取り込んで認識処理する音声認識装置とを通信可能に接続して成る音声認識システムにあって、前記音声入力装置が備えているコンピュータに、
音声入力装置にあって受信した音声を電気信号に変換しこれを入力音声として入力する音声入力制御機能、前記音声入力装置が備えている音声認識用のユーザ辞書から前記入力音声に関する単語を抽出して縮小ユーザ辞書を作成する縮小ユーザ辞書作成制御機能、前記入力音声及び前記縮小ユーザ辞書を音声認識処理用として前記音声入力装置から音声認識装置に送信する送信制御機能、を実行させる構成としてもよいものである。

本発明の他の実施形態にかかる音声認識処理プログラムは、音声を電気信号に変換し入力音声として入力すると共にその認識結果を表示する音声入力装置と、この音声入力装置に入力された入力音声を取り込んで認識処理し前記音声入力装置に送り返す音声認識装置とを通信可能に接続して成る音声認識システムにあって、前記音声認識装置が備えているコンピュータに、
前記音声入力装置から送信される前記入力音声と前記音声入力装置側のユーザ辞書に係る縮小ユーザ辞書とを受信する認識対象受信処理機能、この受信した前記入力音声を、当該音声認識装置が備えている音声認識用のシステム辞書と前記受信した縮小ユーザ辞書とに基づいて音声認識処理を行う音声認識処理機能、を実行させる構成としてもよいものである。

このようにしても、前述した各システムの場合とほぼ同様に音声認識処理を迅速に実行することができ、且つ縮小ユーザ辞書を使用しても実質的にユーザ辞書を使用した場合と同等の音声認識結果を得ることができ、音声入力装置から音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減でき、全体的に音声認識の処理時間を短縮することができるという利点がある。

ここで、前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する機能を前記コンピュータに実行させる構成としてもよい。

又、前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を集計し、この集計された各単語と対応する尤度との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書を作成する機能を前記コンピュータに実行させる構成としてもよい。

又、ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成する構成してもよい。

これにより、音声認識装置における音声認識処理では実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果を得ることができる。又、音声入力装置の処理は、ユーザ辞書の単語に対して入力音声に含まれる可能性があるかどうかを判定する処理であり、この段階では、本当に出現している単語が欠落しないように注意すればよく、音声認識精度に直接悪影響を及ぼすことはない。

以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は２００７年３月１４日に出願された日本出願特願２００７−０６５２２９を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明の上記実施形態では、クライアントにおいて音声を入力し、クライアントと通信回線で接続されたサーバにおいて音声認識を行う構成の音声認識システム全般に適用することが可能である。また、クライアントとしては、上述したようにＰＤＡや携帯電話機等の携帯端末は勿論、ネットワークで接続されたＰＣやカーナビゲーション端末など、端末のサイズや形態を問わず広く適用することが可能である。

本発明の第１の実施形態にかかる音声認識システムの構成を示すブロック図である。図１に開示した音声認識システムの動作を示すフローチャートである。図１に開示した音声認識システムの縮小辞書作成部の構成を示すブロック図である。図３に開示した縮小辞書作成部の動作を示すフローチャートである。図１に開示したクライアントのユーザ辞書及びサーバのシステム辞書の例を示す図である。本発明の第２の実施形態にかかる音声認識システムのクライアントの構成を示すブロック図である。図６に開示した音声認識システムのサーバ部分の構成を示すブロック図である。汎用の音声認識システムの構成を示すブロック図である。汎用の別の音声認識システムの構成を示すブロック図である。

符号の説明

１０，６０音声入力装置としてのクライアント（クライアント端末装置）
１１，６１音声入力部
１２ユーザ辞書部
１３縮小辞書作成部（縮小辞書作成手段）
１３Ａ照合部
１３Ｂ単語仮格納部
１３Ｃ単語選択部
１３Ｄ縮小ユーザ辞書部
１４クライアント通信部（送信手段、受信手段）
１５，６９認識結果出力部
２０，７０音声認識装置としてのサーバ
２１システム辞書部
２２音声認識部（音声認識手段）
２３サーバ通信部（送信手段、受信手段）
６２データ処理部（縮小ユーザ辞書の作成）
７２データ処理部（音声認識処理）
７３記憶部（ユーザ辞書の記憶部）
７３ａシステム辞書
７５音声認識プログラム
１２０通信回線

Claims

電気信号に変換された入力音声を認識する音声認識システムであって、
音声認識に用いるユーザ辞書を格納したユーザ辞書部と、
前記ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段と、
予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する音声認識手段とを有することを特徴とする音声認識システム。
前記ユーザ辞書部と前記縮小ユーザ辞書作成手段とが、クライアント端末装置に搭載され、
前記音声認識手段が、前記クライアント端末装置と通信可能なサーバに搭載されている請求項１に記載の音声認識システム。
前記クライアント端末は、前記入力音声と前記縮小ユーザ辞書とを前記音声認識手段に送信する請求項２に記載の音声認識システム。
前記請求項１又は２に記載の音声認識システムにおいて、
前記縮小ユーザ辞書は、前記ユーザ辞書が有する単語の中から前記入力音声に含まれる可能性のある単語を選び出した辞書である音声認識システム。
前記請求項１又は２に記載の音声認識システムにおいて、
前記縮小ユーザ辞書作成手段は、前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し且つその計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する音声認識システム。
前記請求項１又は２に記載の音声認識システムにおいて、
前記縮小ユーザ辞書作成手段は、前記ユーザ辞書を用いたワードスポッティング法により前記縮小ユーザ辞書を作成する音声認識システム。
前記請求項１又は２に記載の音声認識システムにおいて、
前記縮小ユーザ辞書作成手段は、入力音声とユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を集計する照合部と、この集計された各単語と対応する尤度との組を仮に保持する単語仮格納部と、この単語仮格納部内から用度の高い一又複数の単語を選択し縮小ユーザ辞書作成する単語選択部とを有する音声認識システム。
電気信号に変換された入力音声を認識する音声認識方法であって、
ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成し、
予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識することを特徴とする音声認識方法。
クライアント側で前記ユーザ辞書から前記縮小ユーザ辞書を作成し、
前記入力音声のデータと前記縮小ユーザ辞書とを、前記クライアント端末と通信可能なサーバに送信し、前記サーバ側で前記システム辞書と前記縮小ユーザ辞書とを用いて前記入力音声を認識する請求項８に記載の音声認識方法。
前記請求項８又は９に記載の音声認識方法において、
前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する音声認識方法。
前記請求項８又は９に記載の音声認識方法において、
ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成する音声認識方法。
前記請求項８又は９に記載の音声認識方法において、
前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を計算し、この計算された尤度とこれに対応する単語との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書作成し、この選択された単語を改めて辞書の形に編成し縮小ユーザ辞書を作成する音声認識方法。
電気信号に変換された入力音声を、通信可能に接続されたクライアント端末装置とサーバとにより認識するための音声認識プログラムであって、
前記クライアント端末装置のコンピュータに、
ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する機能とを実行させ、
前記サーバのコンピュータに、
予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する機能を実行させることを特徴とする音声認識プログラム。
前記クライアント端末装置のコンピュータに、
前記入力音声と前記縮小ユーザ辞書とを前記サーバに向けて送信する指令を出力する機能を実行させる請求項１３に記載の音声認識プログラム。
前記請求項１３に記載の音声認識プログラムにおいて、
前記クライアント端末装置のコンピュータに、
前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する機能を実行させる音声認識プログラム。
前記請求項１３に記載の音声認識プログラムにおいて、
前記クライアント端末装置のコンピュータに、
ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成する機能を実行させる音声認識プログラム。
前記請求項１３に記載の音声認識プログラムにおいて、
前記クライアント端末装置のコンピュータに、
前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を計算し、この計算された尤度とこれに対応する単語との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書作成し、この選択された単語を改めて辞書の形に編成し縮小ユーザ辞書を作成する機能を実行させる音声認識プログラム。