WO2013027360A1

WO2013027360A1 - 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置

Info

Publication number: WO2013027360A1
Application number: PCT/JP2012/005073
Authority: WO
Inventors: 岡本　明浩
Original assignee: 旭化成株式会社
Priority date: 2011-08-19
Filing date: 2012-08-09
Publication date: 2013-02-28
Also published as: EP2747077A1; JPWO2013027360A1; US9601107B2; CN103635962A; EP2747077A4; US20140129222A1; CN103635962B; JP5613335B2

Abstract

　音声データに対して第１の音声認識部（３）で音声認識処理を行った結果、音声認識不可と判定されるときには、第１の音声認識部（３）に入力した音声データと同一の音声データを第２のサーバ装置（６０）および第１のサーバ装置（７０）に送信する。前記音声データに対する第２のサーバ装置（６０）での音声認識結果の文字列と、前記音声データに基づき第１のサーバ装置（７０）の音響モデル識別子系列生成部（２７）で生成された音響モデルの識別子の系列とからなる認識用データを生成し、これを第１の音声認識部（３）の第１の認識辞書（３ｂ）に登録する。

Description

音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置

　本発明は、音声によりコマンド入力などを行う音声認識システム、当該音声認識システムで用いる認識辞書の認識用データを自動で追加登録する認識辞書登録システム、及び当該認識用データを構成する音響モデル識別子系列を自動で生成する音響モデル識別子系列生成装置に関する。

　従来、音声によりコマンド入力を行う音声認識機能を備えた端末などが提案されている。
　このような端末において音声認識機能の精度向上を図るためには、比較的大規模なハードウェアを必要とする。その一方で、携帯型端末などの場合には、搭載できるハードウェアには制限がある。そのため、携帯型端末などにおいては、必要とする精度を有する音声認識機能を実現することができない可能性がある。

　これを回避するために、以下の音声認識システムが特許文献１により提案されている。特許文献１により提案されている音声認識システムは、サーバとクライアントから構成される音声認識システムである。
　この音声認識システムでは、まず、クライアント（携帯端末）が取得した音声データに対し、第１の認識辞書を用いて１次音声認識を行う。１次音声認識が不可能な場合に、クライアントはその音声データをサーバに転送する。

　次に、サーバは第１の認識辞書よりも多くの語彙が記憶された第２の認識辞書を用いて音声データの２次音声認識を行う。これと共に、サーバでは、第１の認識辞書に登録するための認識用データを作成し、クライアントに送信する。クライアントは受信した認識用データを第１の認識辞書に登録する。
　上記音声認識システムを用いることによって、必要とする精度を有する音声認識機能を実現することが出来る。また、使用頻度が高い認識用データのみをハードウェアに追加することが出来るため、携帯端末等のハードウェアに制限がある装置であっても認識精度の高い認識辞書を作成することができる。

特開２００４－１２６５３号公報

　ところで、音声認識は、通常、取得した音声データからある特徴量を抽出し、その特徴量を用いて認識辞書に含まれる複数の認識用データのそれぞれの確からしさを計算することで行われる。そのため、認識辞書に含まれる認識用データは抽出する特徴量に対応したデータでなければならない。
　特許文献１により提案されている音声認識システムは、サーバにおける認識用データとクライアントにおける認識用データとで使用する特徴量の種類が一致していることから、サーバが生成した認識用データをクライアントの認識辞書に登録することができ、クライアントでは認識用データが追加登録された認識辞書を利用して音声認識を行うことができる。

　しかしながら、サーバとクライアントとで使用する特徴量の種類が異なる場合には、仮に、サーバが作成した認識用データをクライアントの認識辞書に登録したとしても、クライアントでは、新たに追加された認識用データを利用することができない。
　そのため、クライアントの使用する特徴量に対応した認識用データを作成するように、サーバを制御するなどの対処を行う必要がある。しかしながら、２次音声認識を行うサーバがクライアントのシステム構築者自らの管理下にない場合、サーバとクライアントの特徴量の種類を合致させることはもちろん、サーバ側にクライアントのシステムで利用可能な音声認識データを生成させることは困難である。

　そこで、この発明は、上記従来の未解決の問題に着目してなされたものであり、システム構築者自らの制御下にない音声認識装置を用いて音声認識を行う場合でも、その音声認識結果を利用した認識用データをクライアント側の音声認識装置の認識辞書に追加登録することの可能な音声認識システム、認識辞書登録システム及び当該認識用データを構成する音響モデル識別子系列を自動で生成する音響モデル識別子系列生成装置を提供することを目的としている。

　本発明の一態様は、第１の音声認識装置と、第２の音声認識装置と、音響モデル識別子系列生成装置と、を備え、前記第１の音声認識装置は、音声を取得し、取得した音声の音声データを出力する音声入力部と、文字列に関する情報と、当該文字列に関する情報に対応する第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第１の認識辞書と、前記音声入力部から出力される一の音声データから前記第１の種類の特徴量を抽出し、該第１の種類の特徴量と前記第１の認識辞書とを用いて前記一の音声データの音声認識処理を行う第１の音声認識処理部と、認識用データ登録部と、を有し、前記第２の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第１の種類の特徴量とは異なる第２の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第２の認識辞書と、前記一の音声データから前記第２の種類の特徴量を抽出し、該第２の種類の特徴量と前記第２の認識辞書とを用いて前記一の音声データの音声認識処理を行い、該一の音声データに対応する文字列に関する情報を外部に送信する第２の音声認識処理部と、を有し、前記音響モデル識別子系列生成装置は、前記一の音声データから前記第１の種類の特徴量を抽出し、該一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を有しており、前記第１の音声認識装置の前記認識用データ登録部は、前記音響モデル識別子系列生成部が送信する前記一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、前記第２の音声認識処理部が送信する前記一の音声データに対応する前記文字列に関する情報と、を受信し、受信した前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、前記文字列に関する情報と、が組み合わされてなる前記第１の認識辞書に格納するための認識用データを前記第１の認識辞書に登録することを特徴する音声認識システムである。

　上記構成において、ノイズデータが格納されたノイズデータ記憶部をさらに備え、前記音響モデル識別子系列生成部は、前記一の音声データに前記ノイズデータを重畳した第２の音声データから前記第１の種類の特徴量を抽出し、抽出した前記第１の種類の特徴量から、前記一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列を生成するものであってよい。
　前記音響モデル識別子系列生成部は、前記第２の音声データに含まれる人の声のエネルギとノイズのエネルギとの比が予め設定した比率になるように、前記一の音声データに前記ノイズデータを重畳するものであってよい。

　前記第２の音声認識処理部は、前記第１の音声認識処理部での前記一の音声データに対する音声認識処理において音声認識不可と判定されるときに、前記第１の音声認識処理部で音声認識不可と判定された前記一の音声データに対する音声認識処理を行うものであってよい。

　前記第２の音声認識処理部は、前記一の音声データに対応する文字列に関する情報を複数候補出力し、前記第１の音声認識装置は、前記第２の音声認識処理部が出力する前記一の音声データに対応する文字列に関する情報の複数の候補の中から一の候補を選択する選択部を有し、前記認識用データ登録部は、前記音響モデル識別子系列生成部が送信する前記一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、前記選択部が選択した前記第２の音声認識部が送信する前記一の音声データに対応する前記文字列に関する情報と、が組み合わされてなる前記第１の認識辞書に格納するための認識用データを生成し、当該認識用データを、前記第１の認識辞書に登録するものであってよい。

　前記音響モデル識別子系列生成装置は前記第１の音声認識装置とは異なる筐体に搭載されていてよい。
　前記音響モデル識別子系列生成装置は前記第１の音声認識装置と通信可能なサーバ装置に搭載されていてよい。
　前記音響モデル識別子系列生成装置は前記第１の音声認識装置と同じ筐体に搭載されていてよい。
　前記第１の音声認識処理部は端末装置に搭載され、前記第２の音声認識処理部は、前記端末装置と通信可能なサーバ装置に搭載されていてよい。

　本発明の他の態様は、第１の音声認識装置と音響モデル識別子系列生成装置とを備え、前記第１の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応する第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第１の認識辞書と、音声を取得し、取得した音声の音声データを出力する音声入力部から出力される一の音声データを取得し、該一の音声データから前記第１の種類の特徴量を抽出し、該第１の種類の特徴量と前記第１の認識辞書とを用いて前記一の音声データの音声認識処理を行う第１の音声認識処理部と、認識用データ登録部と、を有し、前記音響モデル識別子系列生成装置は、前記一の音声データから前記第１の種類の特徴量を抽出し、抽出した前記第１の種類の特徴量から前記一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を有しており、前記第１の音声認識装置の前記認識用データ登録部は、第２の音声認識装置から出力される前記一の音声データに対応する文字列に関する情報と、前記音響モデル識別子系列生成装置が送信する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる前記第１の認識辞書に格納するための認識用データを前記第１の認識辞書に登録し、前記第２の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第１の種類の特徴量とは異なる第２の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第２の認識辞書と、前記一の音声データから前記第２の種類の特徴量を抽出し、該第２の種類の特徴量と前記第２の認識辞書とを用いて音声認識処理を行い、前記一の音声データに対応する文字列に関する情報を外部に送信する第２の音声認識処理部と、を有することを特徴とする認識辞書登録システムである。

　本発明の他の態様は、音声を取得する音声入力部から出力される音声データから第１の種類の特徴量を抽出し、当該音声データに対応する第１の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を備える音響モデル識別子系列生成装置であって、前記音響モデル識別子系列生成部が、第１の音声認識装置が有する認識用データ登録部に前記音響モデルの識別子の系列を送信し、前記第１の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第１の認識辞書と、当該音声データから前記第１の種類の特徴量を抽出し、該第１の種類の特徴量と前記第１の認識辞書とを用いて当該音声データの音声認識処理を行う第１の音声認識処理部と、前記認識用データ登録部と、を備えており、前記認識用データ登録部が、第２の音声認識装置から出力される、前記音声データに対応する文字列に関する情報と、前記音響モデル識別子系列生成装置が送信する前記音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる、前記第１の認識辞書に格納するための認識用データを前記第１の認識辞書に登録し、前記第２の音声認識装置は、文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第１の種類の特徴量とは異なる第２の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第２の認識辞書と、前記音声データから前記第２の種類の特徴量を抽出し、該第２の種類の特徴量と前記第２の認識辞書とを用いて音声認識処理を行い、前記音声データに対応する文字列に関する情報を外部に送信する第２の音声認識処理部と、を備えていることを特徴とする音響モデル識別子系列生成装置である。

　本発明によれば、システム構築者自らの制御下にない音声認識装置を用いて音声認識を行うことにより得た音声認識結果を利用した認識用データをクライアント側の音声認識装置の認識辞書に自動で追加登録することが可能な、音声認識システム、認識辞書登録システム及び当該認識用データを構成する音響モデル識別子系列を自動で生成する音響モデル識別子系列生成装置を提供することができる。

本発明における音声認識システムの一例を示す概略構成図である。動作制御処理の処理手順の一例を示すフローチャートである。表示制御処理の処理手順の一例を示すフローチャートである。

　以下、図面を参照して本発明の実施の形態を説明する。
　図１は、本発明の一実施形態を示す、音声認識システム１００の一例を示す概略構成図である。なお、この音声認識システム１００は、認識辞書登録システム１１０および第２のサーバ装置（第２の音声認識装置）６０を備えた音声認識システムを構成している。
　この音声認識システム１００は、ユーザ端末５０（第１の音声認識装置）と、第１のサーバ装置（音響モデル識別子系列生成装置）７０と、第２のサーバ装置（第２の音声認識装置）６０とを含んで構成され、ユーザ端末５０は、第１のサーバ装置７０と第２のサーバ装置６０それぞれとの間で、有線または無線により通信可能に構成されている。

　認識辞書登録システム１１０は、音声認識システム１００から第２のサーバ装置（第２の音声認識装置）６０を除いた構成であり、ユーザ端末（第１の音声認識装置）５０と、第１のサーバ装置（音響モデル識別子系列生成装置）７０とから構成される。
　ユーザ端末５０は、音声入力部２と、第１の音声認識部３と、動作制御部５と、一時保存用記憶部６と、認識用データ登録部７と、表示制御部８と、表示装置９と、操作入力部１０とを備えている。

　音声入力部２はマイクロフォンなどの集音装置で構成される。この音声入力部２は、発声音声をその音声に対応するアナログの電気信号に変換し、この電気信号を図示しないＡ／Ｄ変換器でデジタル信号に変換しこれを音声データとして動作制御部５に出力する。なお、音声データは音を表すデータであれば特に限定は無い。
　第１の音声認識部３は、第１の音声認識処理部３ａと第１の認識辞書３ｂとを含んで構成される。

　第１の音声認識処理部３ａは、動作制御部５を介して音声入力部２から音声データを入力し、この音声データに対して音声認識を行う。第１の音声認識処理部３ａは、デジタル信号からなる音声データから音声認識のための特徴量（第１の種類の特徴量）の時系列データを抽出する。さらに、第１の音声認識処理部３ａは、第１の認識辞書３ｂに記憶された認識用データそれぞれの音響モデル識別子系列と音響モデル（識別子毎に特徴量が定義されたデータ群）とを用いて、ビタビアルゴリズム（Viterbi algorithm）によって前記特徴量の時系列データを解析して最も尤もらしい認識用データを選び出す。そして、その選び出された認識用データを構成する文字列を、入力された音声データの認識結果となる文字列として獲得する。

　第１の音声認識処理部３ａは、音声データに対する音声認識の結果、第１の認識辞書３ｂから対応する文字列を獲得することができた場合には、音声認識が成功したことを表す認識成功通知を動作制御部５に出力し、さらに表示制御部８に、認識成功通知とともに音声認識の結果獲得した文字列を出力する。逆に、第１の認識辞書３ｂから対応する文字列を獲得することができなかった場合には、音声認識ができなかったことを表す認識不可通知を動作制御部５および表示制御部８に出力する。

　ここで、第１の認識辞書３ｂには、文字列と、これに対応する音響モデルの識別子の系列である音響モデル識別子系列とが対応付けられて認識用データとして格納されている。
　第１の認識辞書３ｂへの認識用データの登録は、以下のような手順で予め行われている。すなわち、登録したい文字列に応じて、音声入力部２に向かってユーザが発声することにより、登録したい文字列に対応する音声データを獲得する。この音声データに対し、Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ　を応用したビタビアルゴリズムによる音声認識処理を行う。これにより、予め保持している、全発音記号（たとえば五十音）それぞれの音響モデルが並列に配され、発話終了までそれを無限ループで評価させる認識辞書を用いて、入力された音声データから抽出された特徴量の時系列データに対応する音響モデル列（音響モデルそれぞれの識別子の系列）を順次求め、これを以って登録したい文字列に対応する音響モデル識別子系列とする。

　例えば、「Thanks」という文字に応じてユーザが発声した音声データから「a」「Ri」「Ga」「To」という音響モデル列を獲得し、獲得した音響モデル列を、対応する音響モデル識別子系列に変換する。例えば、本実施例では、「a」の音響モデルに対応する識別子を「0-1」、「Ri」の音響モデルに対応する識別子を「13-9」、「Ga」の音響モデルに対応する識別子を「7-1」、「To」の音響モデルに対応する識別子を「20-15」とすると、“「a」「Ri」「Ga」「To」”という音響モデル列に対応する音響モデル識別子系列は、“「0-1」「13-9」「7-1」「20-15」”となる。

　この音響モデル識別子系列と操作入力部１０で入力した出力用文字列「Thanks」とを対応づけ、これを認識用データとして第１の認識辞書３ｂに登録する。
　そして、第１の音声認識処理部３ａでは、入力された音声データから特徴量（第１の種類の特徴量）の時系列データを抽出し、Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌを応用したビタビアルゴリズムによる音声認識処理により、この特徴量の時系列データに対応する文字列を第１の認識辞書３ｂから獲得する。

　このとき、第１の音声認識処理部３ａは、音声データから抽出された時系列の特徴量の時系列データと第１の認識辞書３ｂに登録されている認識用データとの間にどれだけ相関があるかをビタビアルゴリズムによる尤もらしさ（尤度）で評価し、その尤度がしきい値以上となる認識用データから、音声データに対応する文字列を獲得する。

　ここで、しきい値を設けず単純に一番尤度の高いものを常に認識処理結果として選択してしまうと、認識辞書に登録済みの語彙とは全く関係のない発話をした場合であっても、認識辞書に含まれる何れか尤度の一番高いものが出力されることになる。したがって、しきい値を設け、尤度がしきい値以上であり、ある程度の相関のあるもののみを認識処理結果とし、相関のないものは、相関するものはないという認識結果を出力する構成としている。なお、必ずしもしきい値を設定する必要はなく、全く関係のない発話を吸収するための専用の認識用データ（Garbage Model）を用いてその尤度と比較する方法でも、相関するものはないという認識結果を出力することができる。

　動作制御部５は、音声入力部２から音声データを入力し、この音声データに対する第１の音声認識部３での音声認識結果に応じて、第２のサーバ装置（第２の音声認識装置）６０での音声認識処理を実行させる動作制御処理を行う。なお、この第２のサーバ装置６０では、第１の音声認識部３での音声認識処理とは無関係に独自の音声認識処理を実行して、入力された音声データに対応する文字列を音声認識結果として出力する。

　動作制御部５は、具体的には、図２のフローチャートに示すように、まず、ステップＳ１で、音声入力部２から音声データを入力したか否かを判断し、音声データを入力したとき、当該音声データを一時保存用記憶部６に格納する（ステップＳ２）。また、第１の音声認識部３に対して音声認識の実行を指示するとともに、音声入力部２から入力した音声データを第１の音声認識部３に出力する（ステップＳ３）。

　動作制御部５は、第１の音声認識部３から音声認識結果として認識不可通知を入力したときには、ステップＳ４からステップＳ５に移行し、一時保存用記憶部６に格納した音声データを読み出し、読み出した音声データを第１のサーバ装置７０および第２のサーバ装置６０に出力する。つまり、第１の音声認識部３で音声認識に失敗した音声データと同一の音声データについて、第２のサーバ装置６０に対して音声認識の実行を指示する。

　一方、ステップＳ４で、第１の音声認識部３から音声認識結果として認識成功通知を入力したときには、第２のサーバ装置６０での音声認識を行う必要はないため、そのままステップＳ１に戻る。
　認識用データ登録部７は、第１のサーバ装置７０が作成する音響モデル識別子系列を受信するとともに、第２のサーバ装置６０での音声認識の結果得られた文字列を受信し、これら組み合わせて認識用データを生成しこれを第１の認識辞書３ｂに登録する。

　表示制御部８は、第１の音声認識部３または第２のサーバ装置６０での音声認識結果を表示装置９に出力する表示制御処理を行う。
　具体的には、図３に示すように、第１の音声認識部３から認識結果を入力し、その認識結果として認識成功通知を入力したときには、ステップＳ１１からステップＳ１２に移行し、認識結果とともに第１の音声認識部３から入力した音声認識結果の文字列を表示装置９に出力する。

　一方、第１の音声認識部３から、認識結果として認識不可通知を受信したときには、ステップＳ１３に移行し、第２のサーバ装置６０での音声認識結果を第２のサーバ装置６０から入力し、これを表示装置９に出力する（ステップＳ１４）。
　次いで、ステップＳ１５に移行し、第２のサーバ装置６０での音声認識結果として複数候補が設定されているときにはステップＳ１６に移行し、表示装置９に表示された複数候補のうち操作入力部１０（選択部）で選択された候補を読み込み、これを認識用データ登録部７宛に出力し、ステップＳ１１に戻る。また、操作入力部１０で、キャンセルが指示されたときにはそのままステップＳ１１に戻る。

　一方、ステップＳ１５で、第２のサーバ装置６０での音声認識結果として複数候補が設定されていないとき、すなわち第２のサーバ装置６０での音声認識結果として１つの文字列のみ入力したときにはステップＳ１７に移行する。そして、ユーザ端末５０は第２のサーバ装置６０の音声認識結果を受信し、受信した音声認識結果を認識用データ登録部７宛に出力し、ステップＳ１１に戻る。

　図１に戻って、第２のサーバ装置６０は、第２の音声認識処理部１４ａと第２の認識辞書１４ｂとを備える。
　第２の音声認識処理部１４ａは、ユーザ端末５０の動作制御部５から、音声入力部２で集音した音声データを入力し、当該音声データに対して第２の認識辞書１４ｂの認識用データを用いて音声認識を行う。この第２のサーバ装置６０の第２の音声認識処理部１４ａは、入力した音声データと認識用データとについて、相関すると思われる度合い（尤度）に基づいて音声認識結果の候補を１つ乃至複数出力する。
　そして、第２の音声認識処理部１４ａは、音声認識処理の結果得た１つ乃至複数の認識結果候補をユーザ端末５０に出力する。

　第２の認識辞書１４ｂには、文字列と、これに対応する音響モデル識別子系列とが対応付けられて認識用データとして格納されている。ただし、音響モデル（音響モデルの発音記号の種類や数、特徴量の種類や数や分析手法）や識別子との対応は第１の音声認識部３の第１の認識辞書３ｂと異なっていてもよい。
　即ち、第１の音声認識部３において、「a」の音響モデルに対応する識別子が「0-1」であるとすると、第２のサーバ装置（第２の音声認識装置）６０では、必ずしも「a」の音響モデルに対応する識別子が「0-1」である必要はないし、音響モデルの単位をモノフォンとする必要もない。

　この他にも、第２の音声認識処理部１４ａにおける処理方法は第１の音声認識処理部３ａの処理方法と異なっていてもよい。即ち、第１の音声認識処理部３ａは、音声データから音声認識のための特徴量（第１の種類の特徴量）の時系列データを抽出するが、第２の音声認識処理部１４ａは、音声データから第１の種類の特徴量を抽出する必要はなく、第１の種類の特徴量とは異なる第２の種類の特徴量（特徴量の時系列データ）を抽出し、それを第１の音声認識処理部３ａで用いたビタビアルゴリズムとは異なる解析手法を用いて処理してもよい。

　このように、第２のサーバ装置６０は取得した音声データを音声認識し、その認識結果である文字列を音声データの送信元のユーザ端末５０に出力しさえすればよく、その処理方法は問わない。
　第１のサーバ装置（音響モデル識別子系列生成装置）７０は、音響モデル識別子系列生成部２７とノイズデータ記憶部２７ａとを備える。

　音響モデル識別子系列生成部２７は、ユーザ端末５０から音声データを入力すると、音声データを第１の音声認識部３の第１の認識辞書３ｂに登録するための、音響モデル識別子系列の生成を行う。
　具体的には、ユーザ端末５０から音声データを入力すると、入力した音声データに対してノイズデータの重畳処理を行う。

　このノイズデータの重畳処理は、耐ノイズ性を向上させるための処理であって、予めノイズデータ記憶部２７ａに記憶させておいたノイズデータを、入力した音声データに重畳させてノイズ重畳音声データを生成する。このとき、入力した音声データのＳＮ比を判定し、ノイズ重畳音声データのＳＮ比が予め設定したＳＮ比となるように音声データにノイズデータを重畳する。
　次いで、ノイズ重畳音声データに対して、前記第１の音声認識処理部３aで抽出した特徴量（第１の種類の特徴量）と同種の特徴量の時系列データを獲得し、さらに、第１の音声認識処理部３aが記憶する音響モデルと同種の音響モデルを用いて獲得した音響モデルの識別子の系列を出力する。

　すなわち、Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ　を応用したビタビアルゴリズムによる音声認識処理により、予め保持している、全発音記号（たとえば五十音）それぞれの音響モデルが並列に配され、発話終了までそれを無限ループで評価させる認識辞書を用いて、ノイズ重畳音声データから抽出された特徴量の時系列データに対応する音響モデル列（音響モデルそれぞれの識別子の系列）を求め、これをもって登録したい文字列に対応する音響モデル識別子系列とする。
　次いで、生成した音響モデル識別子系列を、音声データの送信元のユーザ端末５０に出力する。

　次に、上記実施の形態の動作を説明する。
　ユーザが音声入力部２に向かって例えば文字列「Thanks」に対応する「a Ri Ga To」を発声すると、発声音声は、音声入力部２で集音され、所定の処理が行われてデジタル信号からなる音声データに変換される。この音声データは、動作制御部５を介して第１の音声認識部３に入力され（図２ステップＳ３）、ここで音声認識が行われる。

　第１の音声認識部３の第１の認識辞書３ｂに文字列「Thanks」と「a Ri Ga To」に対応する音響モデルの識別子の系列からなる認識用データが登録されていれば、音声認識結果として文字列「Thanks」が表示制御部８に出力され、これが表示装置９に表示される。
　一方、第１の音声認識部３の第１の認識辞書３ｂに文字列「Thanks」と「a Ri Ga To」に対応する音響モデルの識別子の系列からなる認識用データが登録されていない場合には、第１の音声認識部３では、該当データなしとして認識不可通知を動作制御部５に出力する。

　このため、動作制御部５では、音声データ入力時に、一時保存用記憶部６に記憶しておいた「a Ri Ga To」の音声データを読み出し、これを第２のサーバ装置６０に出力するとともに第１のサーバ装置７０に出力する（図２ステップＳ５）。
　第２のサーバ装置６０では、音声データを入力すると、この音声データに対し音声認識処理を行い、その音声認識結果（たとえば「a Ri Ga To」の音声データに対応する文字列「Thanks」）を、音声データの送信元のユーザ端末５０に出力する。ユーザ端末５０の表示制御部８では、入力した音声認識結果を表示装置９に出力する。

　このとき音声認識結果として複数の候補がある場合には、ユーザは操作入力部１０においていずれかの候補を選択する操作を行う。この選択情報は表示制御部８を介して認識用データ登録部７に出力される。認識結果として候補が単一の場合は表示制御部８から自動的に認識用データ登録部７に出力される。
　一方、第１のサーバ装置７０では、音声データを入力すると、この「a Ri Ga To」の音声データに対して、ノイズデータ重畳処理を行い、その結果得たノイズ重畳音声データから、特徴量の時系列データを獲得し、第１の認識処理部３ａと同種の音響モデルを用いて獲得した音響モデル識別子系列を生成する。

　そして、この音響モデル識別子系列を、音声データの送信元のユーザ端末５０に出力する。
　ユーザ端末５０の認識用データ登録部７は、第１のサーバ装置７０から入力した「a Ri Ga To」の音声データに対応する音響モデル識別子系列と、表示制御部８から入力した音声認識結果としての文字列「Thanks」とを対応づけこれを登録用の認識用データとして生成し、生成した認識用データを第１の音声認識部３の第１の認識辞書３ｂに登録する。

　したがって、次に、「a Ri Ga To」と発声した音声データが音声入力部２を介して入力されたときには、第１の認識辞書３ｂには、「Thanks」に対応する認識用データが登録されているため、第１の音声認識部３で音声認識を行うことにより、音声認識結果を得ることができる。
　そのため、第１の認識辞書３ｂに登録されていない文字列であっても、一度、第２のサーバ装置６０を利用することにより音声認識結果を得た文字列については、第１の認識辞書３ｂに自動的に登録されるため、次回からは第１の音声認識部３での音声認識により音声認識結果を得ることができる。また、このとき、第１の認識辞書３ｂには、自動的に認識用データが登録されるため、ユーザは、音声認識操作を行うだけで、第１の認識辞書３ｂに新たな語彙を登録することができる。

　また、この時、第２のサーバ装置６０はどのような方法で音声認識処理を行ってもよく、つまり、第２のサーバ装置６０がシステム構築者自らの制御下になくてもよい。
　第２のサーバ装置６０として、ユーザ端末５０にはない語彙を蓄えた音声認識装置を用いることで、ユーザの１つの発声に対してより多くの選択肢を表示制御部８に表示させることが可能となり、使い勝手を向上させることができる。第２のサーバ装置６０は、1台のサーバ装置である必要はなく、複数のサーバ装置を並列に用いてもよい。第２のサーバ装置６０に複数のサーバ装置を用いることで、より多くの選択肢を表示制御部８に表示させることが可能となる。

　また、第１の認識辞書３ｂに登録される認識用データは、予め登録されている認識用データに加え、ユーザが一度音声認識を行った文字列に対応する認識用データで構成される。したがって、第１の認識辞書３ｂにはユーザが必要とする認識用データが追加格納されることになり、すなわち、登録語彙数およびその内容をユーザに適した内容にすることができる。その結果認識率を向上させることができる。

　また、第１の認識辞書３ｂに新たに登録される認識用データは、ユーザの発声音声をもとに生成した音響モデル識別子系列を用いている。したがって、あらかじめ登録しておいた認識用データを用いる方式に比較して、ユーザの発声音声を反映した認識用データを得ることで認識率を向上させることができる。
　なお、音響モデル識別子系列生成装置（第１のサーバ装置）７０は、第１の音声認識装置（ユーザ端末）５０と同じ筐体に搭載されていてもよく、第１の音声認識装置（ユーザ端末）５０と通信可能なサーバ装置に搭載されていてもよい。

　音響モデル識別子系列生成装置（第１のサーバ装置）７０を第１の音声認識装置（ユーザ端末）５０と通信可能なサーバ装置に搭載することで、第１の音声認識装置（ユーザ端末）５０がユーザ端末である場合に、ユーザ端末の大幅な変更を伴うことなく、容易に、ユーザ端末の音声認識機能の精度を向上させることができる。
　特に、ユーザ端末５０が、携帯電話などの携帯型端末の場合には、搭載できるハードウェアに制限があるが、第２のサーバ装置６０との間で、必要なときにのみ通信を行って音声認識結果を獲得するとともに、その音声認識結果を自端末の認識辞書３ｂに登録する構成とすることによって、より使い勝手を向上させることができる。

　また、上記実施の形態においては、第１の音声認識部３での音声認識が不可であるときに第２のサーバ装置６０での音声認識を行う場合について説明したが、これに限るものではなく、入力された音声データに対し、第１の音声認識部３および第２のサーバ装置６０の両方同時に音声認識を開始する構成としてもよい。
　このような構成とすることによって、第１の音声認識部３での音声認識の処理時間の分だけ第２のサーバ装置６０の処理の開始が遅れる不具合を解消することができる。

　また、上記実施の形態においては、ノイズ重畳した音声データから生成した音響モデル識別子系列のみを登録する場合を説明したが、ノイズ重畳しない音声データから生成した音響モデル識別子系列を並列に登録してもよいし、ＳＮ比を複数設定してそれぞれの音響モデル識別子系列を並列に登録してもよい。そのＳＮ比はユーザ端末５０の動作環境における平均を取ってもよいし最大値を取ってもよい。ユーザの保有する自動車の遮音性能やエンジンノイズによってＳＮ比やノイズの音質を予め設定する方法も考えられる。
　また、ノイズデータ記憶部２７ａをサーバ装置７０に搭載した場合について説明したが、これに限るものではなく、例えば、ノイズデータ記憶部２７ａはユーザ端末、即ちクライアント側にあってもよく、別のサーバ装置内に搭載されていてもよい。

２　音声入力部
３　第１の音声認識部
３ａ　第１の音声認識処理部
３ｂ　第１の認識辞書
５　動作制御部
６　一時保存用記憶部
７　認識用データ登録部
８　表示制御部
９　表示装置
１０　操作入力部
１４　第２の音声認識部
１４ａ　第２の音声認識処理部
１４ｂ　第２の認識辞書
２７　音響モデル識別子系列生成部
２７ａ　ノイズデータ記憶部
５０　ユーザ端末（第１の音声認識装置）
６０　第２のサーバ装置（第２の音声認識装置）
７０　第１のサーバ装置（音響モデル識別子系列生成装置）
１００　音声認識システム
１１０　認識辞書登録システム

Claims

　第１の音声認識装置と、第２の音声認識装置と、音響モデル識別子系列生成装置と、を備え、
　前記第１の音声認識装置は、
　音声を取得し、取得した音声の音声データを出力する音声入力部と、
　文字列に関する情報と、当該文字列に関する情報に対応する第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第１の認識辞書と、
　前記音声入力部から出力される一の音声データから前記第１の種類の特徴量を抽出し、該第１の種類の特徴量と前記第１の認識辞書とを用いて前記一の音声データの音声認識処理を行う第１の音声認識処理部と、
　認識用データ登録部と、を有し、
　前記第２の音声認識装置は、
　文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第１の種類の特徴量とは異なる第２の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第２の認識辞書と、
　前記一の音声データから前記第２の種類の特徴量を抽出し、該第２の種類の特徴量と前記第２の認識辞書とを用いて前記一の音声データの音声認識処理を行い、該一の音声データに対応する文字列に関する情報を外部に送信する第２の音声認識処理部と、を有し、
　前記音響モデル識別子系列生成装置は、
　前記一の音声データから前記第１の種類の特徴量を抽出し、該一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を有しており、
　前記第１の音声認識装置の前記認識用データ登録部は、前記音響モデル識別子系列生成部が送信する前記一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、前記第２の音声認識処理部が送信する前記一の音声データに対応する前記文字列に関する情報と、を受信し、
　受信した前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、前記文字列に関する情報と、が組み合わされてなる前記第１の認識辞書に格納するための認識用データを前記第１の認識辞書に登録することを特徴する音声認識システム。
　ノイズデータが格納されたノイズデータ記憶部をさらに備え、
　前記音響モデル識別子系列生成部は、
　前記一の音声データに前記ノイズデータを重畳した第２の音声データから前記第１の種類の特徴量を抽出し、抽出した前記第１の種類の特徴量から、前記一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列を生成することを特徴とする請求項１に記載の音声認識システム。
　前記音響モデル識別子系列生成部は、
　前記第２の音声データに含まれる人の声のエネルギとノイズのエネルギとの比が予め設定した比率になるように、前記一の音声データに前記ノイズデータを重畳することを特徴とする請求項２に記載の音声認識システム。
　前記第２の音声認識処理部は、前記第１の音声認識処理部での前記一の音声データに対する音声認識処理において音声認識不可と判定されるときに、前記第１の音声認識処理部で音声認識不可と判定された前記一の音声データに対する音声認識処理を行うことを特徴とする請求項１から３のいずれかに記載の音声認識システム。
　前記第２の音声認識処理部は、前記一の音声データに対応する文字列に関する情報を複数候補出力し、
　前記第１の音声認識装置は、前記第２の音声認識処理部が出力する前記一の音声データに対応する文字列に関する情報の複数の候補の中から一の候補を選択する選択部を有し、
　前記認識用データ登録部は、前記音響モデル識別子系列生成部が送信する前記一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、前記選択部が選択した前記第２の音声認識部が送信する前記一の音声データに対応する前記文字列に関する情報と、が組み合わされてなる前記第１の認識辞書に格納するための認識用データを生成し、当該認識用データを、前記第１の認識辞書に登録することを特徴とする請求項１から４のいずれかに記載の音声認識システム。
　前記音響モデル識別子系列生成装置は前記第１の音声認識装置とは異なる筐体に搭載されることを特徴とする請求項１から５のいずれかに記載の音声認識システム。
　前記音響モデル識別子系列生成装置は前記第１の音声認識装置と通信可能なサーバ装置に搭載されることを特徴とする請求項６に記載の音声認識システム。
　前記音響モデル識別子系列生成装置は前記第１の音声認識装置と同じ筐体に搭載されていることを特徴とする請求項１から５のいずれかに記載の音声認識システム。
　前記第１の音声認識処理部は端末装置に搭載され、前記第２の音声認識処理部は、前記端末装置と通信可能なサーバ装置に搭載されることを特徴とする請求項１から請求項８のいずれかに記載の音声認識システム。
　第１の音声認識装置と音響モデル識別子系列生成装置とを備え、
　前記第１の音声認識装置は、
　文字列に関する情報と、当該文字列に関する情報に対応する第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第１の認識辞書と、
　音声を取得し、取得した音声の音声データを出力する音声入力部から出力される一の音声データを取得し、該一の音声データから前記第１の種類の特徴量を抽出し、該第１の種類の特徴量と前記第１の認識辞書とを用いて前記一の音声データの音声認識処理を行う第１の音声認識処理部と、
　認識用データ登録部と、
を有し、
　前記音響モデル識別子系列生成装置は、
　前記一の音声データから前記第１の種類の特徴量を抽出し、抽出した前記第１の種類の特徴量から前記一の音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を有しており、
　前記第１の音声認識装置の前記認識用データ登録部は、
　第２の音声認識装置から出力される前記一の音声データに対応する文字列に関する情報と、前記音響モデル識別子系列生成装置が送信する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる前記第１の認識辞書に格納するための認識用データを、前記第１の認識辞書に登録し、
　前記第２の音声認識装置は、
　文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第１の種類の特徴量とは異なる第２の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第２の認識辞書と、
　前記一の音声データから前記第２の種類の特徴量を抽出し、該第２の種類の特徴量と前記第２の認識辞書とを用いて音声認識処理を行い、前記一の音声データに対応する文字列に関する情報を外部に送信する第２の音声認識処理部と、を有することを特徴とする認識辞書登録システム。
　音声を取得する音声入力部から出力される音声データから第１の種類の特徴量を抽出し、当該音声データに対応する第１の種類の特徴量に基づく音響モデルの識別子の系列を生成し、該音響モデルの識別子の系列を送信する音響モデル識別子系列生成部を備える音響モデル識別子系列生成装置であって、
　前記音響モデル識別子系列生成部が、
　第１の音声認識装置が有する認識用データ登録部に前記音響モデルの識別子の系列を送信し、
　前記第１の音声認識装置は、
　文字列に関する情報と、当該文字列に関する情報に対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第１の認識辞書と、
　当該音声データから前記第１の種類の特徴量を抽出し、該第１の種類の特徴量と前記第１の認識辞書とを用いて当該音声データの音声認識処理を行う第１の音声認識処理部と、
　前記認識用データ登録部と、を備えており、
　前記認識用データ登録部が、
　第２の音声認識装置から出力される、前記音声データに対応する文字列に関する情報と、前記音響モデル識別子系列生成装置が送信する前記音声データに対応する前記第１の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる、前記第１の認識辞書に格納するための認識用データを、前記第１の認識辞書に登録し、
　前記第２の音声認識装置は、
　文字列に関する情報と、当該文字列に関する情報に対応し且つ前記第１の種類の特徴量とは異なる第２の種類の特徴量に基づく音響モデルの識別子の系列と、が組み合わされてなる認識用データが格納される第２の認識辞書と、
　前記音声データから前記第２の種類の特徴量を抽出し、該第２の種類の特徴量と前記第２の認識辞書とを用いて音声認識処理を行い、前記音声データに対応する文字列に関する情報を外部に送信する第２の音声認識処理部と、を備えていることを特徴とする音響モデル識別子系列生成装置。