JP5233989B2 - 音声認識システム、音声認識方法、および音声認識処理プログラム - Google Patents

音声認識システム、音声認識方法、および音声認識処理プログラム Download PDF

Info

Publication number
JP5233989B2
JP5233989B2 JP2009505186A JP2009505186A JP5233989B2 JP 5233989 B2 JP5233989 B2 JP 5233989B2 JP 2009505186 A JP2009505186 A JP 2009505186A JP 2009505186 A JP2009505186 A JP 2009505186A JP 5233989 B2 JP5233989 B2 JP 5233989B2
Authority
JP
Japan
Prior art keywords
user dictionary
dictionary
speech
word
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009505186A
Other languages
English (en)
Other versions
JPWO2008114708A1 (ja
Inventor
潔 山端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009505186A priority Critical patent/JP5233989B2/ja
Publication of JPWO2008114708A1 publication Critical patent/JPWO2008114708A1/ja
Application granted granted Critical
Publication of JP5233989B2 publication Critical patent/JP5233989B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、クライアント端末装置において音声を入力し、ネットワークで接続されたサーバにおいて音声認識処理を行うサーバ・クライアント型の音声認識システム、音声認識方法、及び音声認識処理プログラムに関する。
上記のサーバ・クライアント型の音声認識システムにあっては、音声認識用の辞書をどのように配置するかが設計上重要なポイントとなっている。音声認識を行うエンジンがサーバに装備されていることを考慮すると、音声認識用辞書はエンジンからアクセスが容易なサーバに装備するのが妥当である。その理由は、一般に、クライアント端末装置(以下「クライアント」と略称)とサーバを接続するネットワーク回線は、サーバ内部のデータ伝送路であるデータバスと比較して、データ転送の速度が遅く且つ通信にかかるコストも高価なためである。
一方、クライアントに特有の単語など、クライアント毎に音声認識対象の語彙を変えたい場合があるが、クライアントに特有の単語の音声認識用辞書は、クライアントに装備するほうが管理上好都合である。そのため、一般には、サーバ・クライアント型の音声認識システムでは、サーバが備える音声認識用辞書とクライアントが備える音声認識用辞書の双方を利用して音声認識処理を進めることになる。サーバが備える音声認識用辞書とクライアントが備える音声認識用辞書の双方を利用して音声認識処理を行うシステムの一例が提案されている(特許文献1参照)。
図8に示す音声認識システムは、音声認識エンジン104と認識辞書103を有するクライアント100と、音声認識エンジン114と認識辞書113を有するサーバ110から構成されている。この音声認識システムは、概ね次のように動作する。クライアント100は音声入力部102から音声が入力されると、辞書制御部106により制御される認識辞書103を参照して音声認識エンジン104により音声認識処理を行う。音声認識処理に成功し、音声認識結果が得られた場合は、音声認識結果が結果統合部107を経由して出力される。
一方、音声認識処理に失敗し、音声認識結果がリジェクト(Reject)となった場合は、クライアント100は入力された音声データを音声送信部105によりサーバ110に送信する。サーバ110は音声受信部112により音声データを受信し、辞書制御部115により制御される認識辞書113を参照して音声認識エンジン114により音声認識処理を行う。得られた音声認識結果は結果送信部116によりクライアント110に送信され、結果統合部107を経由して出力される。
要約すれば、クライアント単独で音声認識結果が得られた場合はそれを音声認識システムの出力とし、音声認識結果が得られなかった場合はサーバで音声認識処理を行い、その音声認識結果を音声認識システムの出力とするものである。
また、サーバが備える音声認識用辞書とクライアントが備える音声認識用辞書を利用して音声認識処理を行う別のシステムの例が提案されている(特許文献2参照)。図9に示す音声認識システムは、ユーザ辞書204A、音声認識用データ204B、辞書管理情報204Cを格納した記憶部204を有するクライアント200と、認識辞書215と音声認識部B214を有するサーバ210が、クライアント200側の通信部202及びサーバ側の通信部211を介して相互に通信を行う構成となっている。
この音声認識システムは、概ね次のように動作する。クライアント210は音声認識処理に先立ち、ユーザ辞書204Aを通信部202によりサーバ210に送信する。その後、クライアント200は音声入力部201から入力された音声データを通信部202によりサーバ210に送信する。サーバ210は通信部211により受信したユーザ辞書204と辞書管理部212により管理される認識辞書215を用いて、音声認識部214により音声認識処理を行う。
特開2003−295893号公報 特許第3581648号
しかしながら、上述した技術による音声認識システムには、以下に述べる課題が存在する。
まず、特許文献1に記載の技術では、クライアント上の認識辞書とサーバ上の認識辞書を使った音声認識処理を行うことができない。それは、この特許文献1に記載のシステムにあっては、まず、クライアント上の認識辞書だけを用いて音声認識処理を行い、音声認識処理に失敗した場合にサーバ上の認識辞書のみを用いて音声認識処理を行うためである。このため、正解の音声認識結果が複数の単語を含み、一部の単語がクライアント側の認識辞書にのみ含まれ、別の一部の単語がサーバ側の認識辞書にのみ含まれるものであるような場合、このシステムでは、正解の音声認識結果を得ることができない。
また、上記特許文献1に記載の技術では、まず、クライアント側で音声認識処理を行うと共に音声認識処理の成功/失敗をクライアント側で判断し、失敗の場合にのみ、サーバ側で音声認識処理を行う。このため、この特許文献1のシステムでは、クライアントが、音声認識処理に失敗したにも関わらず誤って成功と判定すると、それがそのままシステム全体としての音声認識結果として採用される。このため、クライアントの音声認識処理の精度が、システム全体の音声認識処理の精度に大きく影響する。
ところが、クライアント端末で利用可能なリソースは、一般にサーバと比較して小さく、クライアント上で行う音声認識処理の精度は、サーバで処理する場合と比べて低いのが通常である。そのため、システムとしての音声認識の精度を上げにくいという不都合が生じている。
又、特許文献2に記載の技術では、音声認識処理の前にクライアント上の認識辞書をサーバに送信し、サーバでは送信された認識辞書とサーバ自身の認識辞書を用いて音声認識処理を行う。このシステムでは、音声認識処理の前に大量のデータ転送を行うため、多大な通信コストと通信時間がかかるという不都合が生じている。尚、この特許文献2には、認識語彙ごとに入力フォーム識別子を指定して管理するようにし、現在入力対象となっている入力フォームの情報を用いてユーザ辞書中の音声認識対象語彙を絞り込むやり方への言及がある。
しかしながら、この音声認識対象語彙を絞り込むやり方が適用可能なのは、発声前に予め、音声認識対象語彙を絞り込む情報(この場合は入力フォーム情報)が与えられている場合に限られ、このような追加情報が利用できない一般の音声認識システムに対しては適用することができない、という不都合が生じている。
本発明は、音声認識の質を維持しつつシステムの負担を増加させることなく当該音声認識をより迅速に処理し得るサーバ・クライアント型の音声認識システム、音声認識方法、及び音声認識処理プログラムを提供することを、その目的とする。
前記目的を達成するため、本発明に係る音声認識システムは、電気信号に変換された入力音声を認識する音声認識システムであって、
音声認識に用いるユーザ辞書を格納したユーザ辞書部と、
前記ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段と、
予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する音声認識手段とを有することを特徴とするものである。
本発明に係る音声認識方法は、電気信号に変換された入力音声を認識する音声認識方法であって、
ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成し、
予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識することを特徴とするものである。
本発明に係る音声認識プログラムは、電気信号に変換された入力音声を認識するために用いる音声認識プログラムであって、
前記クライアント端末装置のコンピュータに、
ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する機能とを実行させ、
前記サーバのコンピュータに、
予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する機能を実行させることを特徴とするもののである。
本発明は、音声認識装置における音声認識処理に際しては、音声入力装置から入力音声と縮小ユーザ辞書とを送るようにしたので、音声認識装置側では、縮小ユーザ辞書とシステム辞書とに基づいて音声認識の質を維持しつつ当該入力音声に対する音声認識を実行することができる。さらに音声入力装置からユーザ辞書に代えてデータ容量の小さい縮小ユーザ辞書を送るようにしたので、音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減でき、かかる点においてデータ伝送時間の短縮および前述した音声認識装置における音声認識の処理時間を大幅に短縮することができる。したがって、音声認識の質を維持しつつシステムの負担を増加させることなく当該音声認識をより迅速に成し得る。
以下、本発明の実施の形態を、添付図面に基づいて説明する。
[第1の実施形態]
本発明の第1の実施形態にかかる音声認識システムの一構成例を図1に基づいて説明する。
この図1において、本実施形態にかかる音声認識システムは、音声入力装置としてのクライアント端末装置(以下「クライアント」と略称する)10と、音声認識装置としてのサーバ20とから構成される。クライアント10は、音声を入力する音声入力部11と、音声認識に用いる単語を有するユーザ辞書部12と、入力された音声に関してユーザ辞書部12から不要と判断した単語を排除して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段としての縮小ユーザ辞書作成部13と、入力音声及び縮小ユーザ辞書をサーバ20に送信するクライアント通信部14とを備えている。符号13Dは、縮小ユーザ辞書作成部13で作成した縮小ユーザ辞書を格納した縮小ユーザ辞書部を示す。又、符号15は、サーバ20で音声認識され送られてきた認識結果の音声情報を表示画面頭に出力表示する認識結果出力部を示す。
サーバ20は、音声認識に用いる単語を有するシステム辞書21と、クライアント10から送信された入力音声及び縮小ユーザ辞書を受信するサーバ通信部23と、システム辞書と縮小ユーザ辞書とを用いて入力音声について音声認識処理を行う音声認識手段としての音声認識部22とを備えている。
このため、本実施形態におけるサーバ20における音声認識処理では、実質的に、システム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果を得ることができるようになっている。又、クライアント10からサーバ20に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて削減できるようになっている。
前述した縮小ユーザ辞書は、具体的には、ユーザ辞書12が有する単語の中から入力音声に含まれている可能性が高い単語を選び出した辞書として構成されている。縮小ユーザ辞書作成部13は、ユーザ辞書部12が有する単語と入力音声とを照合し、入力音声中に当該単語が現れる尤度を計算し、計算結果を基に尤度の高い単語を選択して縮小ユーザ辞書を作成する。
これにより、ユーザ辞書と縮小ユーザ辞書との差分は入力音声に含まれる可能性の低い単語となり、音声認識処理では、実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果が得られる。
又、クライアント10の処理は、ユーザ辞書の単語に対して入力音声に含まれる可能性があるかどうかを判定する処理であり、この段階では、本当に出現している単語の欠落だけを注意すればよく、音声認識精度に直接悪影響を及ぼさないようになっている。
更に、前述した縮小ユーザ辞書作成部(縮小ユーザ辞書作成手段)13は、前記ユーザ辞書12を用いたワードスポッティング法によって縮小ユーザ辞書を作成する。
以下、これを更に詳述する。図1において、クライアント10は、前述したように、音声入力部11と、ユーザ辞書12と、縮小辞書作成部13と、クライアント通信部14とを備えている。また、サーバ20は、システム辞書部21と、音声認識部22と、サーバ通信部23とを備えている。サーバ20との通信を行うクライアント通信部14と、クライアント10との通信を行うサーバ通信部23とは、通信回線120を介して接続されている。
クライアント10において、音声入力部11は、例えばマイクロフォンとA/D変換器から構成することが可能である。ユーザ辞書部12は、ハードディスクや不揮発性メモリ等の記憶部からなり、これに辞書データが格納された形態が採られている。縮小辞書作成部13は、入力音声を参照してユーザ辞書から縮小ユーザ辞書を作成するものであり、本実施形態では、ランダムアクセスメモリ(RAM))を有するマイクロプロセッサと、前記RAMに格納されたコンピュータプログラムを実行する中央処理装置(CPU)とから構成されている。クライアント通信部14は、例えば有線LANや無線LAN、或いは携帯電話機等を利用してデータの通信を行う。
サーバ20は、例えばパーソナルコンピュータ等により構成される。システム辞書部21は、例えば音声認識に用いる辞書を格納したハードディスクにより構成されている。サーバ通信部23は、LAN等を利用してクライアント10との間にデータの通信を行う。音声認識部22は、システム辞書部21のシステム辞書を参照しながら所定の音声認識処理を実行する。通信回線120は、例えば有線LANや無線LAN、あるいは携帯電話機で使用する無線網等から構成される。
次に、上記第1実施形態の動作を、図2に基づいて説明する。
まず、ユーザがクライアント10の音声入力部11から音声を入力する(ステップS101:音声入力工程)。これに伴い、縮小辞書作成部13は、ステップS101で入力された音声データを参照して、ユーザ辞書部12から縮小ユーザ辞書を作成する(ステップS102:縮小ユーザ辞書作成工程)。
具体的には、縮小ユーザ辞書は、ユーザ辞書部102に格納されているユーザ辞書に含まれる単語の中から入力音声に含まれている可能性が高いものを選び出すことにより作成された辞書で、前記ユーザ辞書の部分辞書としての性質を備えている。即ち、認識すべき音声が入力された場合、縮小ユーザ辞書はユーザ辞書部102のユーザ辞書に基づいて入力音声に対応した辞書として作成される。縮小ユーザ辞書には、ユーザ辞書の単語の内、一部のものだけが含まれているが、各単語の持つ情報はユーザ辞書と同じである。そして、この作成された縮小ユーザ辞書は、前述した縮小ユーザ辞書部13Dに格納される。
次に、クライアント通信部14が、ステップS101で入力された音声データと、ステップS102で作成された縮小ユーザ辞書とを、通信回線120を介してサーバ20のサーバ通信部23に送信する(ステップS103:送信工程)。
続いて、サーバ20のサーバ通信部23が、クライアント10から送信されてきた音声データと縮小ユーザ辞書を受信する(ステップS104)。このサーバ側の音声認識部22は、受信した音声データを対象として、システム辞書部21にシステム辞書と受信した縮小ユーザ辞書との双方を用いて、音声認識処理を実行する(ステップ105:音声認識工程)。
そして、この音声認識処理された前記入力音声にかかる音声認識情報が前述したクライアント10へ返送されて来た場合には、当該クライアント10から外部に向けて出力される(入力音声出力工程)。この場合は、例えば、前述した認識結果出力部15から外部に向けて画像若しくは文字表示等によって出力表示されるようになっている。
ここで、上述した各ステップ101乃至105にあっては、その実行内容をクライアント10側とサーバ側とに分けて制御プログラム若しくはデータ処理にかかるプログラムに代えて実行可能に構成し、各々の側にて予め装備したコンピュータに実行させるように構成してもよい。
次に、上記縮小辞書作成部13の構成について、図3を参照して説明する。
この縮小辞書作成部13は、入力音声と単語の照合を行い入力音声中に当該単語が現れる尤度を計算する照合部13Aと、この尤度の対象となった単語と尤度の組を仮に保持する単語仮格納部13Bと、この単語仮格納部13Bを参照して尤度の高い一乃至複数の単語を選択する単語選択部13Cとを備えて構成されている。
次に、図4に基づいて上記縮小辞書作成部13の動作を説明する。
この縮小辞書作成部13は、ユーザ辞書12に含まれる単語のそれぞれに対して、ステップS202とステップS203の処理を繰り返す(ステップS201)。
ステップS202では、縮小辞書作成部13は、照合部13Aにおいて、注目単語が入力音声に含まれる尤度を計算する(尤度計算工程)。ステップS203では、縮小辞書作成部13は、注目単語を、計算した尤度と対応させて(組にして)縮小辞書とし、これを作成単語仮格納部13Bに格納する(単語仮格納工程)。
ユーザ辞書12に含まれる全ての単語に対して上記の処理が終了したら、縮小辞書作成部13は、単語選択部13Cを起動する。縮小辞書作成部13は、単語選択部13Cにより、単語仮格納部13Bに格納された単語の中から尤度の高いものをいくつか選択する(単語選択工程)。選択された単語は、改めて辞書の形に編成され、縮小ユーザ辞書が作成されて縮小ユーザ辞書部13Dに格納される(縮小辞書作成工程)。
ここで、単語選択部13Bにおける選択処理は、様々なやり方で実施可能である。例えば、固定の尤度を予め定めておき、この尤度以上の単語を選択し、この尤度未満の単語は選択しない、というやり方で実施できる。
或いは、固定の数を予め定めておき、選択した単語数がこの数を超えない範囲で、尤度の高いものから単語を順に選択していく、というやり方で実施することもできる。
もちろん、これらを組み合わせて、例えば、選択した単語の数が予め定めた数を超えない範囲で、尤度の高いものから単語を順に選択していくが、これも予め定めた最低尤度より尤度の低い単語は選択しない、などのやり方で実施することもできる。
実際には、ユーザ辞書12は、例えばハードディスクや不揮発性メモリに格納された辞書データとして構成することができる。単語仮格納部13Bは、ハードディスクや不揮発性メモリ、あるいは揮発性メモリに確保されたデータ格納領域として構成する。
照合部13Aと単語選択部13Cは、例えば、メモリ上に格納されコンピュータプログラムをCPUで実行することにより構成されるようにしてもよいものである。
また、縮小ユーザ辞書部13Dは、ユーザ辞書部12の場合と同様に、ハードディスクやメモリ上に記憶された辞書データとしての形態が採られている。
縮小ユーザ辞書部13Dに格納された縮小ユーザ辞書は、格納されているデータが、単語選択部13Cで選択された単語に限られることから、ユーザ辞書の部分辞書としての性質を有する。
照合部13Aは、様々な実施形態を採ることができる。例えば、音声認識におけるワードスポッティング法に用いる手法を、そのまま適用して実施することができる。ワードスポッティング法とは、例えば、「日本国特許庁作成の標準技術集」平成13年度のテーマ「サーチエンジン」の、C−6−(3)「音声検索」の項で説明されているように、入力音声から必要な単語や音節を拾い出していく方式である。
本第1実施形態では、ユーザ辞書12の単語の各々に対して、その単語が入力音声から拾い出せるか否かを判定し(抽出可否判定工程)、判定時に計算した尤度とともに単語仮格納部13Bに格納すればよい(縮小辞書作成工程)。
これらについては、各工程内容をプログラム化し前述したクライアント側に予め装備したコンピュータに実行させるように構成してもよい。
上記標準技術集を参照すると、ワードスポッティングの実現法としては、DP(Dynamic Processing )マッチングを利用する方法がある。DPマッチングとは、音声認識におけるパターンマッチング技術であり、単語中の同じ音素同士が対応するように時間正規化を行って単語と単語の類似距離を求めるものである。例えば一つの単語に対し二つの音声波形があるとする。これを時系列パターンAとBとし、Aを入力音声、Bを標準パターンとする。
DPマッチングを用いてワードスッポティングを行う場合、スポッティングの対象となる単語の標準パターンBを入力音声A(スペクトルなどのパラメータ系列)の始端から1フレームずつずらしながら、入力音声の部分区間とDPマッチングを行う。
マッチング結果としての距離がある閾値以下になったとき、その時点に標準パターンあり、と判定する。
本第1実施形態では、上述した閾値を定めず、距離がどのような値になっても、これを正負逆転して尤度として出力するように構成すればよい。距離を尤度に変換する際に正負を逆転するのは、距離は小さいほど単語が入力音声に含まれる可能性が高いので、値が大きいほど単語が入力音声に含まれる可能性が高くなる尤度として使用するには、大小を逆転する必要があるためである。
また、DPマッチングの代わりにHMM(Hidden Markov Model)を用いてワードスポッティングを行う方法もよく知られている。HMMを用いてワードスポッティングを行う方法は、例えば、「確率モデルによる音声認識」第2版(中川聖一著、(社)電子情報通信学会発行、平成元年)の第3章3.4.2 「音韻・音節・単語スポッティングアルゴリズム」に詳しい。
上記で詳細に説明したように、照合部13Aにおける照合処理は、既知の技術を用いて様々な形態で実施することが可能である。
次に、この第1実施形態全体の具体的な動作を、図5の入力例と上記図2及び図4のフローチャートを用いて詳細に説明する。
図5(a)は、ユーザ辞書部12に格納されたユーザ辞書(内容)の一例を示す。このユーザ辞書には、主にニューヨーク市内の地名に対する日本語表記と発音が格納されている。
今、ユーザが、クライアント10の音声入力部11に対し、例えば「シェイスタジアムはどこですか」と発声(音声入力)したと想定する(図2のステップS101)。
この発声に対応する読みは、ひらがなで表記すると、「しぇいすたじあむわどこですか」となる。ユーザの音声入力に伴い、直ちに縮小辞書作成部13が起動する(図2のステップS102)。
図4を参照すると、縮小辞書作成部13は、ユーザ辞書部102に格納された各単語に対し、その単語が入力音声に含まれる尤度を計算し、単語仮格納部13Bに格納する処理を繰り返す(ステップS201:図4のステップS202乃至ステップS203)。本例では、まず、尤度の計算対象の単語としてユーザの発音した「イーストビレッジ」が選択され、縮小辞書作成部13は、この単語と入力音声とを照合し、この単語が入力音声に含まれる尤度を計算する。計算された尤度が例えば「0.2」であった場合、縮小辞書作成部13は、単語「イーストビレッジ」の辞書内容、即ち表記・発音及び尤度「0.2」の組を、単語仮格納部13Aに格納する。
次に、注目単語をユーザ辞書中の次の単語「クロイスターズ」に変えて、同様な尤度計算を行う。計算された尤度が例えば「0.1」であった場合、縮小辞書作成部13は、単語「クロイスターズ」の辞書内容、即ち、表記・発音及び尤度「0.1」の組を、単語仮格納部13Bに格納する。縮小辞書作成部13は、ユーザ辞書12の全ての単語に対して、この尤度計算と単語仮格納部13Bへの単語格納の処理を繰り返す。
図5(b)は、尤度計算及び単語格納の処理が完了した時点の単語仮格納部13Bの内容の一例を示す図である。ユーザ辞書の全ての単語に対して、計算された尤度が、単語と対応するように格納されている。
次に、縮小辞書作成部13は、単語選択部13Cにより、単語仮格納部13Bから尤度の高い単語を選択する(図4のステップS204)。本例では、尤度が例えば「0.5」以上の単語を選択するように、単語選択部13Cが構成されているものとする。図5(b)の内容を参照すると、該当する単語は、「シェイスタジアム」(尤度0.8)、「シェークスピアガーデン」(尤度0.6)、及び「メイシーズ」(尤度0.5)の三語であり、これら三語が単語選択部13Cにより選択される。
次に、縮小辞書作成部13は、単語選択部13Cにより選択された三語を出力し、これら三語からなる辞書を作成する(図4のステップS205)。こうして作成されたものが縮小ユーザ辞書であり、縮小ユーザ辞書部13Dに格納される。図5(C)に格納された内容を示す。
この図5(C)において、縮小ユーザ辞書は、先に選択された三つの単語「シェイスタジアム、シェークスピアガーデン、メイシーズ」からなり、各単語の辞書内容は、図5(a)に示したユーザ辞書と全く同じになるように構成されている。
このようにして、クライアント10で作成された縮小ユーザ辞書は、入力音声データ「しぇいすたじあむわどこですか」と一緒に、クライアント通信部14から通信回線120を介してサーバ20のサーバ通信部23に送信される(図2のステップS103)。
サーバ20は、サーバ通信部23により入力音声データと縮小ユーザ辞書を受信すると、音声認識部22により音声認識処理を実行する(図2のステップS105)。この音声認識処理では、クライアント10から送信された縮小ユーザ辞書と、サーバ20側のシステム辞書との双方を使用する。図5(d)に、サーバ20のシステム辞書部21に格納されているシステム辞書の内容の一例を示す。
図5(d)において、本例では、「ここ」「そこ」のような指示詞、「だ」「です」のような独立助動詞、格助詞「が」「を」「に」、副助詞「は」、終助詞「か」、一般名詞「日本」「ワシントン」、間投詞「はい」「いいえ」のように、任意の状況で使われる可能性が高い一般的な単語がシステム辞書部21に格納されている。
音声認識部22は、入力音声「しぇいすたじあむはどこですか」に対して、縮小ユーザ辞書とシステム辞書の両方を使って音声認識処理を行い、音声認識結果「シェイスタジアム/は/どこ/です/か」を得る。ここで、スラッシュ「/」は、認識された単語の区切れ目を表すために、説明上導入した記号である。
上記音声認識結果「シェイスタジアム/は/どこ/です/か」における文頭の単語「シェイスタジアム」は、縮小ユーザ辞書に由来する単語であり、その後に続く「は」「どこ」「です」「か」は、いずれもシステム辞書に由来する単語である。縮小ユーザ辞書の単語は、元々はクライアント10のユーザ辞書12に格納されていた単語である。
このように、本第1実施形態では、クライアント10側のユーザ辞書部12のユーザ辞書とサーバ20側のシステム辞書部21のシステム辞書の単語が混在するような場合でも、その音声認識結果を得ることができる。これは従来技術に対する利点の一つである。
ここで、音声認識前にクライアントのユーザ辞書の全体をサーバに転送して音声認識処理でシステム辞書と一緒に使用する汎用の技術と、本第1実施形態とを比較する。
汎用の技術では、ユーザ辞書全体、即ち、図5(a)の例では10単語全てを送信する必要があった。これに対し、本第1実施形態では、上述したように縮小ユーザ辞書に格納された三単語分のデータを転送すればよい。
一般に、クライアント10とサーバ20とを接続する通信線120は、クライアント10及びサーバ20それぞれに内蔵されたデータバスと比較して、データ転送速度が遅く、データ転送にかかるコストも格段に大きいのが普通である。このような状況で転送データ量を少なく抑えることは非常に重要であり、これにより、転送にかかる時間とコストを低減できるという従来にない利点を得ることが可能となる。
又、クライアント10で利用できる計算リソースが少なく、縮小辞書作成部13の照合部13Aにおける尤度計算の精度が良くない場合でも、単語選択部13Cにおける選択基準を甘めに設定しておいて、より多くの単語が選択されるように構成する。
このように構成することにより音声認識精度の悪化を防止することができるのも、本第1実施形態の他にない優れた利点(効能)である。
これは、選択部13Cが最終的には不要となる単語を選択し、不要となる単語が縮小ユーザ辞書に含まれた場合でも、正解に含まれる単語を落とさなければ、サーバ10で実行する音声認識処理で正解が得られると期待できるためである。かかる場合は、縮小ユーザ辞書のサイズが大きくなりデータ転送時間とコストに影響があるが、これらとのトレードオフを考慮して選択部13Cにおける選択基準を設定すればよい。
本第1実施形態では、縮小ユーザ辞書の作成に際して必要とするのは入力音声だけである点に特徴を有する。
これに対し、汎用の技術では、入力先のフォームのIDのように、音声以外の情報を使用することによってクライアントからサーバに送信する語彙を絞り込む必要があった。
本第1実施形態では、上述したように縮小ユーザ辞書の作成に際しては、入力音声以外の情報を必要としない。入力音声は音声認識処理において必ず必要となる情報であることから、本第1実施形態は音声認識処理を実行する任意の状況で適用可能となっている。
この点は、汎用の技術が音声認識の処理対象である音声データ以外の情報がないと適用できないのと比較して、本実施形態の大きな利点である。
尚、本実施形態では、単語選択部13Cにおける選択基準を、通信線120の通信速度や通信コストを勘案して決定するように実施することも容易である。例えば、通信速度が低速な場合や通信コストが高価な場合、縮小ユーザ辞書に格納する単語数の上限を抑えて、クライアント10からサーバ120に対する縮小ユーザ辞書の転送に一定以上の時間やコストがかからないように調整することは容易である。このような調整を、音声が入力されるたびに動的に行うように構成することも容易である。
以上説明したように、本第1実施形態においては、下記のような効果を奏する。
即ち、サーバ20における音声認識処理では、実質的にシステム辞書とユーザ辞書の双方を同時に使用して音声認識結果を得ることができる。具体的に説明すると、ユーザが携帯する携帯端末などのクライアントにはユーザ辞書が搭載されているから、ユーザはユーザ辞書に必要な単語を登録する。ユーザ辞書をそのままの容量でサーバに送信してユーザ辞書とシステム辞書とを用いて音声認識を行うことが最善の方法であるが、辞書を送信することを考慮すると、送信容量の面で問題が生じる。
そこで、本発明の実施形態では、入力音声の認識に不要と判断した単語を排除することによりユーザ辞書の容量を縮小して縮小ユーザ辞書を作成し、これを入力音声のデータとともにサーバに送信する。したがって、クライアントからサーバへの送信容量が増えるのを抑えることができる。しかも、サーバに送信される縮小ユーザ辞書には、入力音声の認識に必要な単語が含まれ、その単語がユーザによって登録されるのであるから、縮小ユーザ辞書をサーバのシステム辞書と組み合わせることにより、入力音声を確実に認識できる。
以上のように本発明の実施形態では、ユーザ辞書から縮小ユーザ辞書を作成するが、その縮小ユーザ辞書は入力音声の認識に不要と判断した単語を排除して作成するものであり、縮小ユーザ辞書とシステム辞書とを用いた入力音声の認識処理は、ユーザ辞書とシステム辞書とを用いた入力音声の認識処理と実質的に同じであり、上述したように実質的にシステム辞書とユーザ辞書との双方を同時に使用して音声認識結果を得ることができるものである。
更に、入力音声以外の情報が利用できない場合でも、前述した入力音声のみでも縮小ユーザ辞書の作成が容易であり、又、汎用の例におけるユーザ辞書の転送に比較して転送量が大幅に少なくなることから、クライアント及びサーバ間で転送されるデータ量を大幅に低減させることができる。又、クライアントで利用可能なリソースが少ない場合でもシステム全体としての音声認識精度への悪影響が少ないという効果がある。
即ち、本第1の実施形態は上述したように構成され機能するので、これによると、前述したように音声認識装置における音声認識処理に際しては、音声入力装置から入力音声と縮小ユーザ辞書とを送るようにしたことから、音声認識装置側では、縮小ユーザ辞書とシステム辞書とに基づいて音声認識の質を維持しつつ当該入力音声に対する音声認識を実行することができる。さらに、音声入力装置からユーザ辞書に代えてデータ容量の小さい縮小ユーザ辞書を送るようにしたので、音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減できる。したがって、データ伝送時間の短縮および前述した音声認識装置における音声認識の処理時間を大幅に短縮することができ、音声認識の質を維持しつつシステムの負担を増加させることなく当該音声認識をより迅速に成し得る。
[第2の実施形態]
次に、本発明の第2の実施形態を図6及び図7を参照して説明する。
ここで、前述した第1の実施形態と同一の構成部材については同一の符号を用いるものとする。
この図6乃至図7において、本第2の実施形態である音声認識システムは、音声入力装置としてのクライアント端末装置(以下「クライアント」と略称する)60と、音声認識装置としてのサーバ70とから構成される。
クライアント(クライアント端末装置)60は、図6に示すように音声入力部61、データ処理部62、記憶部63、クライアント通信部64、縮小辞書作成プログラム65、および認識結果出力部69とを備えている。
記憶部63には、ユーザ辞書63aがデータとして記憶されている。データ処理部62は、縮小辞書作成プログラム65を読み込んで、データ処理(縮小辞書作成)を制御する。
データ処理部62は、縮小辞書作成プログラム65に従って、第1の実施形態の縮小辞書作成手段13で実行する処理と同一の処理を実行する。具体的には、データ処理部62は、クライアント(クライアント端末装置)60の音声入力部61に入力された音声を参照して、この音声に含まれる可能性の高い単語を記憶部63内のユーザ辞書63aの中からいくつか選択して縮小ユーザ辞書を作成する。クライアント60で作成された縮小ユーザ辞書は、クライアント通信部64により通信回線120を介してサーバ(音声認識装置)70に送信される。符号69は、サーバ70から送り込まれる入力音声に対する認識結果を出力表示する認識結果出力部を示す。
又、音声認識装置としてのサーバ70は、図7に示すように、サーバ通信部71、データ処理部72、記憶部73、音声認識プログラム75を備えている。記憶部73には、システム辞書73aがデータとして記憶されている。データ処理部72は、音声認識プログラム75を読み込んで、データ処理を制御する。
データ処理部72は、音声認識プログラム75に従って、前述した第1実施形態における音声認識部22で実行する処理と同一の処理を実行する。
具体的には、データ処理部72は、クライアント60から送りこまれる入力音声データと縮小ユーザ辞書とをサーバ通信部71を介して受信した後、記憶部73内のシステム辞書73aと前記縮小ユーザ辞書の両方を利用して、入力音声データに対する音声認識処理を実行する。
本第2の実施形態では、クライアント60およびサーバ70とも、例えば、パーソナルコンピュータ(以下PC)、PDA(Personal Digital Assistant)、携帯電話機など、CPUとメモリを有しネットワーク接続が可能な電子機器であれば、どれを用いて実施することも可能である。又、クライアント60の入力部61は、コンピュータに汎用の音声入力機能があれば、これをそのまま利用することができる。
その他各部の機能については、或いはその他の構成およびその作用効果については、前述した第1実施形態の場合と同一となっている。
以上説明したように、本第2の実施形態においては、下記のような効果を奏する。
まず、サーバ70における音声認識処理では、前述した第1実施形態の場合と同様に、実質的にシステム辞書とユーザ辞書とを同時に使用した場合と同じ音声認識結果を得ることができ、入力音声以外の情報が利用できない場合でもクライアント60及びサーバ70間で転送されるデータ量が少なくて済むという効果がある。
更に、クライアント60で利用可能なリソースが少ない場合でもシステム全体としての音声認識精度への悪影響が少ないという効果がある。
このように、上述した各実施形態にあっては、音声入力装置であるクライアント端末装置(クライアント)では、入力された音声を対象としてユーザ辞書から単語を抽出し、縮小ユーザ辞書を作成する。単語の抽出は、ユーザ辞書の単語のうちから入力音声に含まれている可能性を判断し、可能性が高いものを抽出する処理として行われる。そして、前記音声入力装置(クライアント)から入力音声と縮小ユーザ辞書を音声認識装置(サーバ)に送信する。一方、音声認識装置(サーバ)側では、システム辞書と縮小ユーザ辞書を同時に使用して音声認識処理が行われる。ここで、クライアントのユーザ辞書と縮小ユーザ辞書の差分は入力音声に含まれる可能性の低い単語のみであるため、サーバの音声認識処理では実質的にシステム辞書とユーザ辞書とを同時に使用した場合と同じ音声認識結果が得られる。
又、縮小ユーザ辞書のサイズはユーザ辞書のサイズと比べて大幅に小さくできることが期待できるため、音声入力装置及び音声認識装置の間で転送されるデータ量を、ユーザ辞書全体を送信する場合と比べて確実に削減することができる。更に、音声入力装置と音声認識装置間の通信は、通常、サーバ内部あるいはクライアントのデータ転送と比べて転送速度が低速で通信コストも高価である。そのため、転送データ量の削減は、データ転送時間の短縮、音声認識処理のレスポンス改善、通信コスト削減が可能となる。
更に、音声入力装置(クライアント)ではユーザ辞書の単語に対して入力音声に含まれる可能性があるかどうかを判定するが、この段階では、本当に出現している単語が欠落しないように注意すればよく、縮小ユーザ辞書に不要な単語が含まれていても最終的な音声認識の精度には影響しない。不要な単語は音声認識処理で最終的に採用されないことが期待されるためである。従って、音声入力装置(クライアント)で処理に使えるリソースが少なく高精度な処理が実行できない場合でも、音声認識精度に直接悪影響を及ぼさない。言い換えれば、CPUやメモリなどリソースが少ない音声入力装置(クライアント)に対する本発明の機能搭載が容易となる。
即ち、本発明の実施形態によると、音声認識装置における音声認識処理では実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果を得ることができるばかりでなく、入力音声以外の情報が利用できない場合でも、音声入力装置及び音声認識装置間で転送されるデータ量が少なくて済む。更に、音声入力装置で利用可能なリソースが少ない場合でも、システム全体としての音声認識精度への悪影響が少なくできる。
本発明の他の実施形態にかかる音声認識システムは、音声を電気信号に変換し入力音声として入力する音声入力装置と、この音声入力装置に入力された入力音声を取り込んで認識処理する音声認識装置とを通信可能に接続して成る音声認識システムにあって、前述した音声入力装置は、前記入力音声の認識に用いる単語を格納したユーザ辞書部と、前記入力音声に対応する単語を前記ユーザ辞書部から抽出して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段とを備えている。又、前述した音声認識装置は、前記音声入出力装置から前記入力音声と前記縮小ユーザ辞書とを入力すると共に、この縮小ユーザ辞書と予め備えている音声認識用の単語を格納したシステム辞書とに基づいて前記入力音声を認識する音声認識手段を備えている、という構成としてもよいものである。
このため、これによると、上述したように音声認識装置における音声認識処理に際しては、音声入力装置から入力音声と縮小ユーザ辞書とを送るようにしたので、音声認識装置側では、縮小ユーザ辞書とシステム辞書とに基づいて音声認識の質を維持しつつ当該入力音声に対する音声認識を実行することができ、且つ音声入力装置からユーザ辞書に代えてデータ容量の小さい縮小ユーザ辞書を送るようにしたので、音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減でき、かかる点においてデータ伝送時間の短縮および前述した音声認識装置における音声認識の処理時間を大幅に短縮することができる。
本発明の他の実施形態にかかる音声認識システムでは、音声を電気信号に変換し入力音声として入力する音声入力装置と、この音声入力装置で入力された入力音声を認識処理する音声認識装置とを通信可能に接続して成る音声認識システムにあって、前記音声入出力装置は、音声を入力する音声入力部と、入力した音声の認識に用いる単語を格納したユーザ辞書部と、前記入力音声に対応する単語を前記ユーザ辞書から抽出して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段と、前記入力音声及び前記縮小ユーザ辞書を前記音声認識装置に送信する送信手段とを備えている。又、前述した音声認識装置は、音声認識用の単語を格納したシステム辞書部と、前記音声入力装置から送信される前記入力音声及び前記縮小ユーザ辞書を受信する受信手段と、前記システム辞書と前記縮小ユーザ辞書とを用いて前記入力音声について音声認識処理を行う音声認識部とを備える、という構成構成としてもよいものである。
このため、上記音声認識システムにあっては、前述した音声認識装置における音声認識処理に際しては、縮小ユーザ辞書とシステム辞書に基づいて認識処理を実行し得るので、実質的にユーザ辞書とシステム辞書の双方を使用した場合と同じ音声認識結果を得ることができる。
また、音声入力装置から音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減でき、かかる点において回線の負担を確実に低減することができ、全体的に音声認識の処理時間を短縮することができるという利点がある。更に、音声入力装置から音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減できる。
ここで、前述した縮小ユーザ辞書は、前記ユーザ辞書が有する単語の中から前記入力音声に含まれる可能性のある単語を選び出した辞書である。又、前述した縮小ユーザ辞書作成手段は、前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し且つその計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する構成としてもよい。
これにより、ユーザ辞書と縮小ユーザ辞書との差分は入力音声に含まれる可能性の低い単語となり、音声認識処理では実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果が得られる。又、音声入力装置側での上記処理は、ユーザ辞書の単語に対して入力音声に含まれる可能性があるかどうかを判定する処理であり、この段階では、本当に出現している単語が落ちないようにだけ注意すればよく、汎用の技術のように音声認識精度に直接悪影響を及ぼさないという利点がある。
更に、この縮小ユーザ辞書作成手段については、前記ユーザ辞書を用いたワードスポッティング法により前記縮小ユーザ辞書を作成するように構成してもよい。
これにより、音声認識に用いるワードスポッティング法を縮小ユーザ辞書の作成に有効に応用し効率的な縮小ユーザ辞書を作成することができる。
また、上述した縮小ユーザ辞書作成手段については、入力音声とユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を集計する照合部と、この集計された各単語と対応する尤度との組を仮に保持する単語仮格納部と、この単語仮格納部内から用度の高い一又複数の単語を選択し縮小ユーザ辞書作成する単語選択部と、を含む構成としてもよい。
本発明の他の実施形態にかかる音声認識方法は、音声入力装置にあって音声を電気信号に変換しこれを入力音声として入力し、前記音声入力装置が備えている音声認識用のユーザ辞書から前記入力された音声に関する単語を抽出して縮小ユーザ辞書を作成し、前記入力音声及び前記縮小ユーザ辞書を前記音声入力装置から音声認識装置に送信し、前記入力音声及び前記縮小ユーザ辞書を受信した前記音声認識装置にて作動し当該音声認識装置が備えている音声認識用のシステム辞書と受信した前記縮小ユーザ辞書とに基づいて前記入力音声について音声認識処理を行う構成としてもよいものである。
本発明の他の実施形態にかかる音声認識方法は、音声入力装置にあって音声を電気信号に変換しこれを入力音声として入力し、前記音声入力装置が備えている音声認識用のユーザ辞書から前記入力された音声に関する単語を抽出して縮小ユーザ辞書を作成し、前記入力音声及び前記縮小ユーザ辞書を前記音声入力装置から音声認識装置に送信し、前記入力音声及び前記縮小ユーザ辞書を受信した前記音声認識装置にて受信し、前記音声認識装置が作動し当該音声認識装置が備えている音声認識用のシステム辞書と受信した前記縮小ユーザ辞書とに基づいて前記入力音声について音声認識処理を行う構成としてもよいものである。
このため、音声認識装置における音声認識処理では実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果を得ることができる。また、音声入力装置から音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて削減できる。
ここで、前述した縮小ユーザ辞書を作成する際、前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する構成としてもよい。
又、前述した縮小ユーザ辞書を作成する際、ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成するように構成してもよい。
更に、前述した縮小ユーザ辞書を作成する際、前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を集計し、この集計された各単語と対応する尤度との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書を作成し、この選択された単語を改めて辞書の形に編成し縮小ユーザ辞書を作成する構成としてもよい。
本発明の他の実施形態にかかる音声認識処理プログラムは、音声を電気信号に変換し入力音声として入力する音声入力装置と、この音声入力装置に入力された入力音声を取り込んで認識処理する音声認識装置とを通信可能に接続して成る音声認識システムにあって、前記音声入力装置が備えているコンピュータに、
音声入力装置にあって受信した音声を電気信号に変換しこれを入力音声として入力する音声入力制御機能、前記音声入力装置が備えている音声認識用のユーザ辞書から前記入力音声に関する単語を抽出して縮小ユーザ辞書を作成する縮小ユーザ辞書作成制御機能、前記入力音声及び前記縮小ユーザ辞書を音声認識処理用として前記音声入力装置から音声認識装置に送信する送信制御機能、を実行させる構成としてもよいものである。
本発明の他の実施形態にかかる音声認識処理プログラムは、音声を電気信号に変換し入力音声として入力すると共にその認識結果を表示する音声入力装置と、この音声入力装置に入力された入力音声を取り込んで認識処理し前記音声入力装置に送り返す音声認識装置とを通信可能に接続して成る音声認識システムにあって、前記音声認識装置が備えているコンピュータに、
前記音声入力装置から送信される前記入力音声と前記音声入力装置側のユーザ辞書に係る縮小ユーザ辞書とを受信する認識対象受信処理機能、この受信した前記入力音声を、当該音声認識装置が備えている音声認識用のシステム辞書と前記受信した縮小ユーザ辞書とに基づいて音声認識処理を行う音声認識処理機能、を実行させる構成としてもよいものである。
このようにしても、前述した各システムの場合とほぼ同様に音声認識処理を迅速に実行することができ、且つ縮小ユーザ辞書を使用しても実質的にユーザ辞書を使用した場合と同等の音声認識結果を得ることができ、音声入力装置から音声認識装置に転送するデータ量及び通信コストを、ユーザ辞書全体を送信する場合と比べて大幅に削減でき、全体的に音声認識の処理時間を短縮することができるという利点がある。
ここで、前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する機能を前記コンピュータに実行させる構成としてもよい。
又、前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を集計し、この集計された各単語と対応する尤度との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書を作成する機能を前記コンピュータに実行させる構成としてもよい。
又、ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成する構成してもよい。
これにより、音声認識装置における音声認識処理では実質的にシステム辞書とユーザ辞書の双方を使用した場合と同じ音声認識結果を得ることができる。又、音声入力装置の処理は、ユーザ辞書の単語に対して入力音声に含まれる可能性があるかどうかを判定する処理であり、この段階では、本当に出現している単語が欠落しないように注意すればよく、音声認識精度に直接悪影響を及ぼすことはない。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は2007年3月14日に出願された日本出願特願2007−065229を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明の上記実施形態では、クライアントにおいて音声を入力し、クライアントと通信回線で接続されたサーバにおいて音声認識を行う構成の音声認識システム全般に適用することが可能である。また、クライアントとしては、上述したようにPDAや携帯電話機等の携帯端末は勿論、ネットワークで接続されたPCやカーナビゲーション端末など、端末のサイズや形態を問わず広く適用することが可能である。
本発明の第1の実施形態にかかる音声認識システムの構成を示すブロック図である。 図1に開示した音声認識システムの動作を示すフローチャートである。 図1に開示した音声認識システムの縮小辞書作成部の構成を示すブロック図である。 図3に開示した縮小辞書作成部の動作を示すフローチャートである。 図1に開示したクライアントのユーザ辞書及びサーバのシステム辞書の例を示す図である。 本発明の第2の実施形態にかかる音声認識システムのクライアントの構成を示すブロック図である。 図6に開示した音声認識システムのサーバ部分の構成を示すブロック図である。 汎用の音声認識システムの構成を示すブロック図である。 汎用の別の音声認識システムの構成を示すブロック図である。
符号の説明
10,60 音声入力装置としてのクライアント(クライアント端末装置)
11,61 音声入力部
12 ユーザ辞書部
13 縮小辞書作成部(縮小辞書作成手段)
13A 照合部
13B 単語仮格納部
13C 単語選択部
13D 縮小ユーザ辞書部
14 クライアント通信部(送信手段、受信手段)
15,69 認識結果出力部
20,70 音声認識装置としてのサーバ
21 システム辞書部
22 音声認識部(音声認識手段)
23 サーバ通信部(送信手段、受信手段)
62 データ処理部(縮小ユーザ辞書の作成)
72 データ処理部(音声認識処理)
73 記憶部(ユーザ辞書の記憶部)
73a システム辞書
75 音声認識プログラム
120 通信回線

Claims (17)

  1. 電気信号に変換された入力音声を認識する音声認識システムであって、
    音声認識に用いるユーザ辞書を格納したユーザ辞書部と、
    前記ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段と、
    予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する音声認識手段とを有することを特徴とする音声認識システム。
  2. 前記ユーザ辞書部と前記縮小ユーザ辞書作成手段とが、クライアント端末装置に搭載され、
    前記音声認識手段が、前記クライアント端末装置と通信可能なサーバに搭載されている請求項1に記載の音声認識システム。
  3. 前記クライアント端末は、前記入力音声と前記縮小ユーザ辞書とを前記音声認識手段に送信する請求項2に記載の音声認識システム。
  4. 前記請求項1又は2に記載の音声認識システムにおいて、
    前記縮小ユーザ辞書は、前記ユーザ辞書が有する単語の中から前記入力音声に含まれる可能性のある単語を選び出した辞書である音声認識システム。
  5. 前記請求項1又は2に記載の音声認識システムにおいて、
    前記縮小ユーザ辞書作成手段は、前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し且つその計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する音声認識システム。
  6. 前記請求項1又は2に記載の音声認識システムにおいて、
    前記縮小ユーザ辞書作成手段は、前記ユーザ辞書を用いたワードスポッティング法により前記縮小ユーザ辞書を作成する音声認識システム。
  7. 前記請求項1又は2に記載の音声認識システムにおいて、
    前記縮小ユーザ辞書作成手段は、入力音声とユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を集計する照合部と、この集計された各単語と対応する尤度との組を仮に保持する単語仮格納部と、この単語仮格納部内から用度の高い一又複数の単語を選択し縮小ユーザ辞書作成する単語選択部とを有する音声認識システム。
  8. 電気信号に変換された入力音声を認識する音声認識方法であって、
    ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成し、
    予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識することを特徴とする音声認識方法。
  9. クライアント側で前記ユーザ辞書から前記縮小ユーザ辞書を作成し、
    前記入力音声のデータと前記縮小ユーザ辞書とを、前記クライアント端末と通信可能なサーバに送信し、前記サーバ側で前記システム辞書と前記縮小ユーザ辞書とを用いて前記入力音声を認識する請求項8に記載の音声認識方法。
  10. 前記請求項8又は9に記載の音声認識方法において、
    前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する音声認識方法。
  11. 前記請求項8又は9に記載の音声認識方法において、
    ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成する音声認識方法。
  12. 前記請求項8又は9に記載の音声認識方法において、
    前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を計算し、この計算された尤度とこれに対応する単語との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書作成し、この選択された単語を改めて辞書の形に編成し縮小ユーザ辞書を作成する音声認識方法。
  13. 電気信号に変換された入力音声を、通信可能に接続されたクライアント端末装置とサーバとにより認識するための音声認識プログラムであって、
    前記クライアント端末装置のコンピュータに、
    ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する機能とを実行させ、
    前記サーバのコンピュータに、
    予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する機能を実行させることを特徴とする音声認識プログラム。
  14. 前記クライアント端末装置のコンピュータに、
    前記入力音声と前記縮小ユーザ辞書とを前記サーバに向けて送信する指令を出力する機能を実行させる請求項13に記載の音声認識プログラム。
  15. 前記請求項13に記載の音声認識プログラムにおいて、
    前記クライアント端末装置のコンピュータに、
    前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する機能を実行させる音声認識プログラム。
  16. 前記請求項13に記載の音声認識プログラムにおいて、
    前記クライアント端末装置のコンピュータに、
    ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成する機能を実行させる音声認識プログラム。
  17. 前記請求項13に記載の音声認識プログラムにおいて、
    前記クライアント端末装置のコンピュータに、
    前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を計算し、この計算された尤度とこれに対応する単語との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書作成し、この選択された単語を改めて辞書の形に編成し縮小ユーザ辞書を作成する機能を実行させる音声認識プログラム。
JP2009505186A 2007-03-14 2008-03-14 音声認識システム、音声認識方法、および音声認識処理プログラム Active JP5233989B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009505186A JP5233989B2 (ja) 2007-03-14 2008-03-14 音声認識システム、音声認識方法、および音声認識処理プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007065229 2007-03-14
JP2007065229 2007-03-14
PCT/JP2008/054705 WO2008114708A1 (ja) 2007-03-14 2008-03-14 音声認識システム、音声認識方法、および音声認識処理プログラム
JP2009505186A JP5233989B2 (ja) 2007-03-14 2008-03-14 音声認識システム、音声認識方法、および音声認識処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2008114708A1 JPWO2008114708A1 (ja) 2010-07-01
JP5233989B2 true JP5233989B2 (ja) 2013-07-10

Family

ID=39765816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009505186A Active JP5233989B2 (ja) 2007-03-14 2008-03-14 音声認識システム、音声認識方法、および音声認識処理プログラム

Country Status (3)

Country Link
US (1) US8676582B2 (ja)
JP (1) JP5233989B2 (ja)
WO (1) WO2008114708A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200478B2 (en) * 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech
JP5471106B2 (ja) 2009-07-16 2014-04-16 独立行政法人情報通信研究機構 音声翻訳システム、辞書サーバ装置、およびプログラム
US20120330662A1 (en) * 2010-01-29 2012-12-27 Nec Corporation Input supporting system, method and program
JP5558284B2 (ja) * 2010-09-15 2014-07-23 株式会社Nttドコモ 音声認識システム、音声認識方法、および音声認識プログラム
JP5957269B2 (ja) * 2012-04-09 2016-07-27 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
KR101212126B1 (ko) 2012-07-09 2012-12-14 다이알로이드(주) 음성인식 서버, 음성인식 클라이언트 및 그 음성인식 방법
US9171066B2 (en) * 2012-11-12 2015-10-27 Nuance Communications, Inc. Distributed natural language understanding and processing using local data sources
USRE48569E1 (en) * 2013-04-19 2021-05-25 Panasonic Intellectual Property Corporation Of America Control method for household electrical appliance, household electrical appliance control system, and gateway
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
WO2015047515A2 (en) 2013-07-07 2015-04-02 United Technologies Corporation Fan drive gear system manifold radial tube filters
WO2015026899A1 (en) 2013-08-21 2015-02-26 United Technologies Corporation Integral gutter and front center body
US10210204B2 (en) * 2014-06-16 2019-02-19 Jeffrey E. Koziol Voice actuated data retrieval and automated retrieved data display
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
US10325592B2 (en) * 2017-02-15 2019-06-18 GM Global Technology Operations LLC Enhanced voice recognition task completion
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59107400A (ja) * 1982-12-13 1984-06-21 シャープ株式会社 音声認識方法
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2002162988A (ja) * 2000-11-27 2002-06-07 Canon Inc 音声認識システム及びその制御方法、コンピュータ可読メモリ
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005128076A (ja) * 2003-10-21 2005-05-19 Ntt Docomo Inc 端末からの音声データを認識する音声認識システム及び方法
JP2006330576A (ja) * 2005-05-30 2006-12-07 Sharp Corp 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0800158B1 (en) * 1996-04-01 2001-06-27 Hewlett-Packard Company, A Delaware Corporation Word spotting
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
JP2000020417A (ja) 1998-06-26 2000-01-21 Canon Inc 情報処理方法及び装置、その記憶媒体
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
JP2001255885A (ja) 2000-03-13 2001-09-21 Oki Electric Ind Co Ltd 音声ブラウザシステム
JP2002215184A (ja) 2001-01-19 2002-07-31 Casio Comput Co Ltd 音声認識装置、及びプログラム
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
JP2003140682A (ja) 2001-11-05 2003-05-16 Alpine Electronics Inc 音声認識装置及び音声辞書作成方法
US7548863B2 (en) * 2002-08-06 2009-06-16 Apple Inc. Adaptive context sensitive analysis
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
JP2005227510A (ja) 2004-02-12 2005-08-25 Ntt Docomo Inc 音声認識装置及び音声認識方法
US20050283724A1 (en) * 2004-06-18 2005-12-22 Research In Motion Limited Predictive text dictionary population
JPWO2008007688A1 (ja) 2006-07-13 2009-12-10 日本電気株式会社 音声認識機能を有する通話端末、その音声認識辞書の更新支援装置及び更新方法
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59107400A (ja) * 1982-12-13 1984-06-21 シャープ株式会社 音声認識方法
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2002162988A (ja) * 2000-11-27 2002-06-07 Canon Inc 音声認識システム及びその制御方法、コンピュータ可読メモリ
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005128076A (ja) * 2003-10-21 2005-05-19 Ntt Docomo Inc 端末からの音声データを認識する音声認識システム及び方法
JP2006330576A (ja) * 2005-05-30 2006-12-07 Sharp Corp 機器操作システム、音声認識装置、電子機器、情報処理装置、プログラム、及び記録媒体

Also Published As

Publication number Publication date
WO2008114708A1 (ja) 2008-09-25
US20100324899A1 (en) 2010-12-23
JPWO2008114708A1 (ja) 2010-07-01
US8676582B2 (en) 2014-03-18

Similar Documents

Publication Publication Date Title
JP5233989B2 (ja) 音声認識システム、音声認識方法、および音声認識処理プログラム
US11145292B2 (en) Method and device for updating language model and performing speech recognition based on language model
US8831939B2 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
WO2014208231A1 (ja) ローカルな音声認識を行なう音声認識クライアント装置
US7487091B2 (en) Speech recognition device for recognizing a word sequence using a switching speech model network
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP2016095383A (ja) 音声認識クライアント装置及びサーバ型音声認識装置
US9601107B2 (en) Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus
US9418662B2 (en) Method, apparatus and computer program product for providing compound models for speech recognition adaptation
CN108447471A (zh) 语音识别方法及语音识别装置
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
US7392184B2 (en) Arrangement of speaker-independent speech recognition
CN101183525A (zh) 用于自动语音识别系统的自适应语境
JP2013064777A (ja) 端末装置、音声認識プログラム、音声認識方法および音声認識システム
CN102543071A (zh) 用于移动设备的语音识别系统和方法
US7324945B2 (en) Method of dynamically altering grammars in a memory efficient speech recognition system
US20220399013A1 (en) Response method, terminal, and storage medium
US7835913B2 (en) Speaker-dependent voice recognition method and voice recognition system
US20190295541A1 (en) Modifying spoken commands
US11482244B2 (en) Textual echo cancellation
JP2002049390A (ja) 音声認識方法およびサーバならびに音声認識システム
JP3914709B2 (ja) 音声認識方法およびシステム
US11527244B2 (en) Dialogue processing apparatus, a vehicle including the same, and a dialogue processing method
JP2003202890A (ja) 音声認識装置及びその方法、プログラム
WO2024009465A1 (ja) 音声認識装置、プログラム、音声認識方法、及び音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130311

R150 Certificate of patent or registration of utility model

Ref document number: 5233989

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3