JP4749756B2

JP4749756B2 - 音声認識装置及びそのプログラム

Info

Publication number: JP4749756B2
Application number: JP2005119881A
Authority: JP
Inventors: 貴志須藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-04-18
Filing date: 2005-04-18
Publication date: 2011-08-17
Anticipated expiration: 2025-04-18
Also published as: JP2006301102A

Description

この発明は、画面中の入力項目に対する入力を音声で操作する音声認識装置及びそのプログラムに関するものである。

近年は携帯端末を持つ人が急増し、キーボードによる入力以外の端末への情報入力方法に対する需要が高まってきている。その手法の一つが音声による入力である。音声認識において、ユーザや使用環境に応じてシステムを適応させる方法については様々な技術が提案されている。

例えば、ユーザの顧客番号や電話番号を使用してユーザを特定し、そのユーザに応じて、性別、年齢別、地域別に予め複数用意された音響モデルを変更するようにしたものがあった（例えば、特許文献１参照）。

特開２０００−３４７６８４号公報

しかしながら、従来の音声認識装置では、ユーザに関する情報を予め保持しておく必要がある。そのため、不特定多数の人が使用するシステムでは、音響モデルの変更を行うことが出来ない、という問題点があった。

この発明は上記のような課題を解決するためになされたもので、ユーザに関する情報を予め保持しておくことなく、音響モデルなど様々なシステムに関する適応を可能にする音声認識装置を得ることを目的とする。

この発明に係る音声認識装置は、画面制御用記述言語に含まれる特定の情報を解析する画面制御用記述言語解析部と、画面制御用記述言語解析部の解析結果に基づいて、特定の情報に対応した騒音除去処理の有無を適応化情報として決定する適応化情報決定部と、適応化情報決定部で決定した適応化情報に基づいて、画面制御用記述言語に基づいて表示された画面に対して入力された音声の音声認識を行う音声認識部とを備えたものである。

この発明の音声認識装置は、画面制御用記述言語に含まれる特定の情報に対応した適応化情報に基づいて音声認識を行うようにしたので、ユーザに関する情報を予め保持しておくことなく、音響モデルなど様々なシステムに関する適応を可能にする音声認識装置を得ることができる。

実施の形態１．
図１は、この発明の実施の形態１による音声認識装置を示す構成図である。
図において、音声認識装置は、画面制御用記述言語取得部１、画面表示部２、画面制御用記述言語解析部３、システム適応化情報保持部４、システムデータ保持部５、システム適応部６、音声取得部７、音声認識部８からなる。

画面制御用記述言語取得部１は、複数の入力項目を画面に表示するための画面制御用記述言語を取得する機能部である。画面表示部２は、画面制御用記述言語取得部１で取得した画面制御用記述言語に基づいて画面表示を行う機能部であり、画面制御のための制御部とディスプレイ等の表示部からなるものである。画面制御用記述言語解析部３は、画面制御用記述言語取得部１で取得した画面制御用記述言語に基づいて、その画面データに含まれる特定の情報を解析する機能部である。

システム適応化情報保持部４は、画面制御用記述言語解析部３で解析された特定の情報と、予め設けられた適応化情報としての騒音モデルとの対応関係を示す適応化対応表を有し、この適応化対応表から特定の情報に対応した騒音モデルの情報を選択し、これを適応化対応情報としてシステムデータ保持部５に出力する機能部である。システムデータ保持部５は、適応化モデルとして実際の騒音モデルを保持しており、システム適応化情報保持部４からの適応化対応情報に基づいて選択した騒音モデルを出力するよう構成されている。システム適応部６は、その画面に対応した騒音モデルを決定し、これを適応化情報として音声認識部８に出力する機能部である。また、これら、システム適応化情報保持部４〜システム適応部６によって、画面制御用記述言語解析部３で解析された特定の情報に対応した適応化情報を決定する適応化情報決定部９を構成している。

音声取得部７は、ユーザの音声を取得する機能部であり、音声入力回路等からなるものである。音声認識部８は、システム適応部６からの適応化情報としての騒音モデルと音声取得部７からの音声情報に基づいて、音声認識を行い、その認識結果を画面表示部２に出力する機能部である。

また、以降の実施の形態も含めて、本発明の音声認識装置はコンピュータを用いて実現され、上記の画面制御用記述言語取得部１〜音声認識部８の構成（画面表示部２は制御部分の構成）は、それぞれの機能に対応したプログラムと、これらのプログラムを実行するためのＣＰＵやメモリといったハードウェアから実現されている。

次に、実施の形態１の動作について説明する。
本実施の形態では、画面制御用記述言語として、代表的なＷｅｂブラウザが対応しているマークアップ言語であるＨＴＭＬ（HyperText Markup Language)として説明する。また、本実施の形態では、施設の点検作業のため複数の入力項目を持つページにおいて音声入力を行う場合を例にとって説明する。更に、本実施の形態では、ＨＴＭＬ文書のＵＲＬ（Uniform Resource Locator）を画面制御用記述言語に含まれる特定の情報として使用し、騒音モデルを選択及び設定する方法について説明する。

先ず、例に挙げるサイトについて説明する。
図２に施設１における点検用ページのHTML文書を示す。
ここで、施設１における点検用ページのURLは「http://www.tenken.ne.jp/place1.html」とする。
また、図３に施設１における点検用ページの画面表示内容を示す。施設１における点検用ページでは施設１の施設中央の温度の入力を入力項目１０１で、施設１の施設出口の温度の入力を入力項目１０２で行う。施設１における点検用ページにおける入力項目１０１と１０２への入力を行った後、入力決定ボタン１０３を押下すると、点検したデータがシステムに入力される。

また、図４に施設２における点検用ページのHTML文書を示す。
ここで、施設２における点検用ページのＵＲＬは、「http://www.tenken.ne.jp/place2.html」とする。また、図５に施設２における点検用ページの画面表示内容を示す。施設２における点検用ページでは施設２の施設中央の温度の入力を入力項目２０１で、施設２の施設出口の温度の入力を入力項目２０２で行う。施設２における点検用ページにおける入力項目２０１と２０２への入力を行った後、入力決定ボタン２０３を押下すると、点検したデータがシステムに入力される。

ここで、各施設についての情報を図６に示す。
上記のような点検の場合、図６に示すように点検場所によって騒音環境が大きく異なる可能性がある。そのような異なる騒音環境下で同一の騒音モデルを使用して音声認識を行った場合、データのミスマッチを引き起こし、高い認識性能が得られない可能性がある。このような問題に対応するため、本実施の形態では、適応化情報決定部９において、表示画面に応じて、使用するシステムデータ（適応化情報）を切り替える。即ち、システム適応化情報保持部４で、画面制御用記述言語解析部３で解析した情報に対応した騒音モデルを選択し、この騒音モデルをシステムデータ保持部５から取り出して、システム適応部６で、適応化情報として出力する。

ここで、騒音モデルとは、音声認識使用環境下の騒音を集め、その特徴を情報化したものである。この騒音モデルは音響モデルの一部として、入力データの無音部分に対する確率演算に使用される情報である。本実施の形態では音響モデルは、既定の音響モデルを使用するものとする。

次に、具体的な例を用いて本実施の形態の動作について説明する。
以下、図２の点検用ページが画面表示された場合のシステム適応の動作について、図７のフローチャートを使用して説明する。

先ず、ステップＳＴ１０１において、画面制御用記述言語取得部１は、ＵＲＬが「http://www.tenken.ne.jp/place1.html」であるネットワークアクセス先から画面制御用記述言語取得部１は、表示画面情報を取得する。ここで、表示画面構成を記述している図２に示すＨＴＭＬ文書を取得する。

ステップＳＴ１０２において、画面制御用記述言語取得部１で取得した図２に示すＨＴＭＬ文書に基づいて、画面表示部２は、図３に示すページを表示する。
ステップＳＴ１０３において、画面制御用記述言語取得部１で取得したＨＴＭＬ文書などのページ情報を画面制御用記述言語解析部３で解析する。解析した結果、ＨＴＭＬ文書のＵＲＬ「http://www.tenken.ne.jp/place1.html」が得られる。

ＵＲＬとシステムデータ保持部５で保持している騒音モデルとの関連付け情報は、システム適応化情報保持部４において、適応化対応表としてとして保持されており、例えば図８に示すような形式で格納される。図８から分かるように、ＵＲＬに文字列「place1」が含まれている場合、施設１が本システムの使用場所であることを特定できる。

システムデータ保持部５は、例えば、図９に示す騒音モデルを適応化モデルとして保持しているものとする。ここで、施設１用騒音モデルは、施設１の環境騒音、即ち電話のベル音や話し声などの騒音を学習することによって得られる騒音モデルであるものとする。また、施設２用騒音モデル及び施設３用騒音モデルも同様に、施設２、施設３それぞれの環境騒音を学習することによって得られる騒音モデルであるものとする。また、既定騒音モデルは、画面制御用記述言語解析部３での解析結果と、システム適応化情報保持部４で保持している情報との関連付けがなされなかった場合に設定するための騒音モデルである。

ステップＳＴ１０４において、画面制御用記述言語解析部３で解析した結果得られたＵＲＬと、システム適応化情報保持部４において保持している図８に示す適応化対応表を照合する。その結果、ＵＲＬには「place1」という文字列が含まれているので、「施設１用騒音モデル」を適応化対応情報としてシステムデータ保持部５に出力する。これにより、システムデータ保持部５は、図３に示すページにおいて使用する騒音モデルとして「施設１用騒音モデル」を選択する。ステップＳＴ１０５において、システム適応部６では、選択された騒音モデルに切り替える。

設定された騒音モデルは、図１０に示すように音声認識部８における確率演算処理において、既定の音響モデルの一部として、入力データの無音部分に対する演算処理で使用される。尚、音声認識部８における音声区間検出処理、音響特徴抽出処理、確率演算処理および認識辞書を用いた認識候補探索処理は、公知の処理であるため、ここでの説明は省略する。

このような動作により、騒音環境下においても適切な騒音モデルが設定されるため、認識性能が向上する。また、もし、画面制御用記述言語解析部３で解析して得られた表示画面のＵＲＬが、システム適応化情報保持部４において保持している適応化対応表にない場合は、これを示す情報が適応化対応情報としてシステムデータ保持部５に出力されて、システムデータ保持部５からは既定騒音モデルがシステム適応部６に出力され、ステップＳＴ１０６において、この既定騒音モデルが適応化情報としてシステム適応部６で設定される。

ＵＲＬが「http://www.tenken.ne.jp/place2.html」であるネットワークアクセス先から画面制御用記述言語取得部１において、表示画面情報を取得した場合も上記と同様の処理を行う。表示画面のＵＲＬには「place2」という文字列が含まれているので、システム適応化情報保持部４において保持している適応化対応表から、図５に示すページにおいて使用する騒音モデルとして「施設２用騒音モデル」が選択されて適応化対応情報として出力され、システムデータ保持部５では、この適応化対応情報に基づいて、保持している騒音モデルの中からこの「施設２用騒音モデル」を選択し、システム適応部６では選択された騒音モデルに切り替える。

上記のように、表示画面のＵＲＬを使用して使用場所を特定することにより、使用場所によって騒音環境が大きく異なる場合でも適切に騒音モデルを設定することが可能となる。

また、本実施形態を説明する上で、画面制御用記述言語解析部３で取得した情報としてＨＴＭＬ文書のＵＲＬのみとしているが、任意の表示画面解析情報を使用することが可能である。例えば、表示画面に記載されている文字列を使用することも可能である。更に、本実施の形態を説明する上で、画面制御用記述言語としてＨＴＭＬ文書を使用したが、これに限定されるものではなく、任意の記述言語を使用することが可能である。

以上のように、実施の形態１の音声認識装置によれば、画面制御用記述言語に含まれる特定の情報を解析する画面制御用記述言語解析部と、特定の情報に対応した適応化情報を有し、画面制御用記述言語解析部における解析結果に基づいて、適応化情報を決定する適応化情報決定部と、画面制御用記述言語に基づいて表示された画面に対して入力された音声を取得する音声取得部と、適応化情報決定部で決定した適応化情報に基づいて、音声取得部で取得された音声の音声認識を行う音声認識部とを備えたので、ユーザに関する情報を予め保持しておくことなく、音響モデルなど様々なシステムに関する適応を可能にする音声認識装置を得ることができる。

また、実施の形態１の音声認識装置によれば、適応化情報決定部は、表示画面に応じた騒音モデルを適応化情報として決定するようにしたので、更に、使用場所によって騒音環境が大きく異なる場合でも適切に騒音モデルを設定することが可能となるという効果が得られる。

また、実施の形態１の音声認識装置の制御用プログラムによれば、コンピュータを、画面制御用記述言語に含まれる特定の情報を解析する画面制御用記述言語解析部と、画面制御用記述言語解析部における解析結果に基づいて、特定の情報に対応した適応化情報を決定する適応化情報決定部と、適応化情報決定部で決定した適応化情報に基づいて、画面制御用記述言語に基づいて表示された画面に対して入力された音声の音声認識を行う音声認識部とを備えた音声認識装置として機能させるようにしたので、ユーザに関する情報を予め保持しておくことなく、音響モデルなど様々なシステムに関する適応を可能にする音声認識装置をコンピュータ上に実現することができる効果がある。

実施の形態２．
実施の形態２は、適応化モデルとして、使用環境毎の騒音重畳音響モデルを用意し、表示画面に応じて騒音重畳音響モデルの切り替えを行うようにしたものである。

実施の形態２の音声認識装置において、図面上の構成は実施の形態１と同様であるため、図１を援用して説明する。実施の形態２では、システム適応化情報保持部４で保持する適応化対応表は、画面制御用記述言語解析部３で取得した特定の情報と、騒音重畳音響モデルとの対応関係を示すよう構成され、システム適応化情報保持部４では、特定の情報が与えられた場合は、この適応化対応表に基づいて、騒音重畳音響モデルの情報を適応化対応情報として出力するよう構成されている。また、システムデータ保持部５では、適応化モデルとして騒音重畳音響モデルを有しており、システム適応化情報保持部４から適応化対応情報が与えられた場合は、これに対応した騒音重畳音響モデルを選択して出力するよう構成されている。

図１１は、システム適応化情報保持部４で保持する適応化情報表の説明図である。
図１２は、システムデータ保持部５で保持する騒音重畳音響モデルの説明図である。
これらの図に示す騒音重畳音響モデルとは、予め騒音が重畳された音声データにより学習した、音声認識に用いる基本的な音の単位（子音や母音など）の情報が記述されたものである。

また、システム適応部６は、システムデータ保持部５から出力された騒音重畳音響モデルを適応化情報として出力するよう構成されている。これ以外の構成は図１に示した実施の形態１と同様である。

次に、実施の形態２の動作について説明する。尚、本実施の形態の動作を説明する上で使用するページ及び使用環境は実施の形態１と同様であるとする。

図１３は、実施の形態２における適応化モデル決定の動作を示すフローチャートである。
本実施の形態では、実施の形態１と同様に、図２の点検用ページが画面表示された場合のシステム適応の動作について説明する。

先ず、ステップＳＴ２０１において、ＵＲＬが「http://www.tenken.ne.jp/place1.html」であるネットワークアクセス先から画面制御用記述言語取得部１は、表示画面情報を取得する。ここで、表示画面構成を記述している図２に示すＨＴＭＬ文書を取得する。

ステップＳＴ２０２において、画面表示部２は、画面制御用記述言語取得部１で取得した図２に示すＨＴＭＬ文書に基づいて、図３に示すページを表示する。ステップＳＴ２０３において、画面制御用記述言語取得部１で取得したＨＴＭＬ文書などのページ情報を画面制御用記述言語解析部３で解析する。解析した結果、ＨＴＭＬ文書のＵＲＬ「http://www.tenken.ne.jp/place1.html」が得られる。ＵＲＬとシステムデータ保持部５で保持している騒音重畳音響モデルとの関連付け情報は、システム適応化情報保持部４において、図１１に示すように適応化対応情報として保持されている。図１１から分かるように、ＵＲＬに文字列「place1」が含まれている場合、施設１が本システムの使用場所であることが特定できる。

システムデータ保持部５は、例えば、図１２に示す騒音重畳音響モデルを保持している。ここで、施設１用騒音重畳音響モデルは、施設１の環境騒音を重畳した音声データを用いて学習することによって得られる音響モデルであるものとする。施設２用騒音重畳音響モデル及び施設３用騒音重畳音響モデルも同様に、施設２、施設３それぞれの環境騒音を重畳した音声データを用いて学習することによって得られる音響モデルであるものとする。また、既定騒音重畳音響モデルは画面制御用記述言語解析部３での解析結果とシステム適応化情報保持部４で保持している情報との関連付けがなされなかった場合に設定するための騒音重畳音響モデルである。

ステップＳＴ２０４において、画面制御用記述言語解析部３で解析した結果得られたＵＲＬとシステム適応化情報保持部４において保持している図１１に示す適応化対応表を照合する。その結果、ＵＲＬには「place1」という文字列が含まれているので、図３に示すページにおいて使用する騒音重畳音響モデルとして「施設１用騒音重畳音響モデル」が選択されてこの情報が適応化対応情報として出力される。システムデータ保持部５では、適応化対応情報に基づいて、保持している騒音重畳音響モデルの中から対応するモデルを選択し、これを出力する。ステップＳＴ２０５において、システム適応部６では、与えられた騒音重畳音響モデルに切り替える。設定された騒音重畳音響モデルは、図１４に示すように音声認識部における確率演算処理に使用される。これにより、騒音環境下においても適切な騒音重畳音響モデルが設定されるため、認識性能が向上する。

もし、画面制御用記述言語解析部３で解析して得られた表示画面のＵＲＬが、システム適応化情報保持部４において保持している図１１に示す適応化対応表にない場合は、ステップＳＴ２０６において、既定騒音重畳音響モデルがシステム適応部６で設定される。

上記のように、表示画面のＵＲＬを使用して使用場所を特定することにより、使用場所によって騒音環境が大きく異なる場合でも適切に騒音重畳音響モデルを設定することが可能となる。

また、本実施の形態を説明する上で、画面制御用記述言語解析部３で取得した情報としてＨＴＭＬ文書のＵＲＬのみとしているが、任意の表示画面解析情報を使用することが可能である。例えば、表示画面に記載されている文字列を使用することも可能である。更に、本実施の形態を説明する上で、画面制御用記述言語としてＨＴＭＬ文書を使用したが、任意の記述言語を使用することが可能である。

以上のように、実施の形態２の音声認識装置によれば、適応化情報決定部は、表示画面に応じた騒音重畳音響モデルを適応化情報として決定するようにしたので、使用場所によって騒音環境が大きく異なる場合でも適切に騒音重畳音響モデルを設定することが可能となる。即ち、騒音モデルの設定だけでは、使用環境に十分に適応しているとは言えないような場合でも、音声認識性能を改善できる効果がある。

実施の形態３．
実施の形態３は、画面制御用記述言語解析部３で解析した特定の情報に基づいて、騒音除去処理の有無を設定するようにしたものである。即ち、環境騒音が想定できる場合は、騒音除去処理を行った方が認識性能改善において効果的なことがある。そこで、本実施の形態では、画面制御用記述言語解析部３で取得した情報を使用して騒音除去処理の有無を設定するようにしている。

実施の形態３における音声認識装置の図面上の構成は、システムデータ保持部５が設けられていないだけで、図１の構成と同様であるため、この図１を援用して説明する。
実施の形態３のシステム適応化情報保持部４は、画面制御用記述言語解析部３で解析した特定の情報に対応して騒音除去処理の有無を示す適応化対応表を備えている。

図１５は、システム適応化情報保持部４が保持する適応化対応表の説明図である。
図示のように、特定の情報としてのＵＲＬに対応して使用場所と騒音除去処理の有無が対応付けられている
また、実施の形態３のシステム適応部６は、システム適応化情報保持部４で決定された騒音除去処理の有無を示す情報に基づき、騒音除去処理の有無を適応化情報として出力するよう構成されている。これ以外の構成は、実施の形態１と同様であるため、その他の構成に関する説明は省略する。

次に、実施の形態３の動作について説明する。
図１６は、実施の形態３の騒音除去処理の設定動作を示すフローチャートである。
本実施の形態では、実施の形態１と同様に、図２の点検用ページが画面表示された場合のシステム適応の動作について説明する。

先ず、ステップＳＴ３０１において、ＵＲＬが「http://www.tenken.ne.jp/place1.html」であるネットワークアクセス先から画面制御用記述言語取得部１は、表示画面情報を取得する。ここで、表示画面構成を記述している図２に示すＨＴＭＬ文書を取得する。

次に、ステップＳＴ３０２において、画面表示部２は、画面制御用記述言語取得部１で取得した図２に示すＨＴＭＬ文書に基づいて、図３に示すページを表示する。ステップＳＴ３０３において、画面制御用記述言語取得部１で取得したＨＴＭＬ文書などのページ情報を画面制御用記述言語解析部３で解析する。解析した結果、ＨＴＭＬ文書のＵＲＬ「http://www.tenken.ne.jp/place1.html」が得られる。ＵＲＬと騒音除去処理との関連付け情報は、図１５に示したように、システム適応化情報保持部４において、適応化対応情報として保持されている。図１５から分かるように、ＵＲＬに文字列「place1」が含まれている場合、施設１が本システムの使用場所であることが特定できる。また、図６及び図１５から明らかなように、本実施の形態においては、環境騒音が定常騒音である場合は、騒音除去処理を行い、非定常騒音である場合は騒音除去処理を行わないものとする。

ステップＳＴ３０４において、画面制御用記述言語解析部３で解析した結果得られたＵＲＬとシステム適応化情報保持部４において保持している図１５に示す適応化対応表を照合する。その結果、ＵＲＬには「place1」という文字列が含まれているので、図３に示すページでは、騒音除去処理は「無し」が選択され、これが適応化対応情報としてシステム適応部６に出力される。これにより、ステップＳＴ３０５において、システム適応部６は、騒音除去処理を行わないよう設定する。設定された騒音除去処理の有無は、図１７に示すように音声認識部８における音響特徴抽出前に適用される。即ち、騒音除去処理が「無し」であった場合は、そのまま音響特徴抽出処理が行われ、騒音除去処理が「有り」であった場合は、所定の騒音除去処理を行った後、音響特徴処理を行う。
このような動作により、騒音環境下においても適切に騒音除去処理の有無を設定できるため、認識性能が向上する。

もし、画面制御用記述言語解析部３で解析して得られた表示画面のＵＲＬが、システム適応化情報保持部４において保持している図１５に示す適応化対応表にない場合は、ステップＳＴ３０６において、既定の騒音除去処理に関する設定がシステム適応部６で設定される。

上記のように、表示画面のＵＲＬを使用して使用場所を特定することにより、使用場所によって騒音環境が大きく異なる場合でも適切に騒音除去処理の有無を設定することが可能となる。

以上のように、実施の形態３の音声認識装置によれば、適応化情報決定部は、表示画面に応じた騒音除去処理の有無を適応化情報として決定するようにしたので、使用場所によって騒音環境が大きく異なる場合でも適切に騒音除去処理の有無を設定することが可能となる。

実施の形態４．
実施の形態４は、表示画面に応じて年代及び性別毎の音響モデルへの変更を行うようにしたものである。即ち、音声は、年代及び性別によって、その音響的特徴が大きく異なるため、使用環境への適応のみでは、認識性能改善において高い効果が得られない可能性がある。これに対処するため、実施の形態４では、表示画面によって年代や性別が限定されるページである場合、表示画面に応じて年代及び性別毎の音響モデルへの変更を行うようにしている。

実施の形態４における音声認識装置の図面上の構成は、図１の構成と同様であるため、この図１を援用して説明する。
実施の形態４のシステム適応化情報保持部４は、画面制御用記述言語解析部３で解析した特定の情報に対応した年代及び性別毎の音響モデルを示す適応化対応表を備えている。
図１８は、システム適応化情報保持部４が保持する適応化対応表の説明図である。
図示のように、特定の情報としてのＵＲＬに対応して使用場所と年代及び性別毎の音響モデルの情報が対応付けられている。このような適応化対応表を有するシステム適応化情報保持部４は、特定の情報としてのＵＲＬが与えられた場合、そのＵＲＬに対応した音響モデルを選択し、これを適応化対応情報として出力するよう構成されている。

また、システムデータ保持部５には、適応化モデルとして、年代及び性別毎の音響モデルが保持されている。
図１９は、年代及び性別毎の音響モデルの説明図である。
ここで、成人男性向け音響モデルは、成人男性の音声データを用いて学習することによって得られる音響モデルであるものとする。成人女性向け音響モデル、高齢者男性向け音響モデル及び高齢者女性向け音響モデルも同様に、成人女性、高齢者男性、高齢者女性それぞれの音声データを用いて学習することによって得られる音響モデルであるものとする。また、既定年代・性別毎音響モデルは画面制御用記述言語解析部３での解析結果とシステム適応化情報保持部４で保持している適応化対応表の情報との関連付けがなされなかった場合に設定するための音響モデルである。

このような適応化モデルを有するシステムデータ保持部５は、システム適応化情報保持部４から適応化対応情報が与えられた場合、その適応化対応情報に対応した音響モデルを選択し、これを適応化モデルとしてシステム適応部６に出力するよう構成されている。

また、実施の形態４のシステム適応部６は、システムデータ保持部５から出力された音響モデルの情報に基づいて、適応化情報を出力するよう構成されている。これ以外の構成は、実施の形態１と同様であるため、ここでの説明は省略する。

次に、実施の形態４の動作について説明する。
図２０は、実施の形態４における音響モデルの設定動作を示すフローチャートである。
本実施の形態では、実施の形態１と同様に、図２の点検用ページが画面表示された場合のシステム適応の動作について説明する。

先ず、ステップＳＴ４０１において、ＵＲＬが「http://www.tenken.ne.jp/place1.html」であるネットワークアクセス先から画面制御用記述言語取得部１は、表示画面情報を取得する。次に、画面表示部２は、ステップＳＴ４０２において、画面制御用記述言語取得部１で取得した図２に示すＨＴＭＬ文書に基づいて、図３に示すページを表示する。

ステップＳＴ４０３において、画面制御用記述言語取得部１で取得したＨＴＭＬ文書などのページ情報を画面制御用記述言語解析部３で解析する。解析した結果、ＨＴＭＬ文書のＵＲＬ「http://www.tenken.ne.jp/ place1.html」が得られる。ＵＲＬとシステムデータ保持部３で保持している情報との関連付け情報はシステム適応化情報保持部４において、図１８に示すように、表示画面に対して適切な年代及び性別毎の音響モデルの設定を行うための情報として保持されている。図１８から分かるように、ＵＲＬに文字列「place1」が含まれている場合、施設１が本システムの使用場所であることが特定できる。

ステップＳＴ４０４において、画面制御用記述言語解析部３で解析した結果得られたＵＲＬとシステム適応化情報保持部４において保持している適応化対応表を照合する。その結果、ＵＲＬには「place1」という文字列が含まれているので、ステップＳＴ４０５において、図３に示すページにおいて使用する年代及び性別毎の音響モデルとして、「成人男性向け音響モデル」がシステムデータ保持部５に保持されている音響モデルの中から選択され、これが、システム適応部６から適応化情報として音声認識部８に出力される。

設定された年代・性別毎音響モデルは、図２１に示すように音声認識部８における確率演算処理に使用される。これにより、表示画面により入力対象者の年代及び性別が異なる場合においても適切に年代・性別毎音響モデルが設定されるため、認識性能が向上する。

もし、画面制御用記述言語解析部３で解析して得られた表示画面のＵＲＬが、システム適応化情報保持部４において保持している適応化対応表にない場合は、ステップＳＴ４０６において、既定年代・性別毎音響モデルがシステム適応部６で設定される。

上記のように、表示画面のＵＲＬを使用して年代及び性別毎の音響モデルの設定を行うことにより、点検場所によってユーザの年代及び性別が限定できる場合に適切に音響モデルを選択することが可能となる。

尚、本実施の形態を説明する上で、画面制御用記述言語解析部３で取得した情報としてＨＴＭＬ文書のＵＲＬのみとしているが、任意の表示画面解析情報を使用することが可能である。例えば、表示画面に記載されている文字列を使用することも可能である。更に、本実施の形態を説明する上で、画面制御用記述言語としてＨＴＭＬ文書を使用したが、任意の記述言語を使用することが可能である。

以上のように、実施の形態４の音声認識装置によれば、適応化情報決定部は、表示画面に応じた年代毎、性別毎の音響モデルを適応化情報として決定するようにしたので、表示画面により入力対象者の年代及び性別が異なる場合においても適切に年代・性別毎音響モデルが設定されるため、音声認識性能を向上させることができる。

尚、保持する適応化モデルとして、実施の形態１では騒音モデル、実施の形態２では騒音重畳音響モデル、実施の形態４では年代・性別毎音響モデルとしたが、これらの適応化モデルを複数あるいは全て保持しておき、これらの中から適宜選択して用いるようにしてもよい。このようにすれば、条件等に応じてより適切な適応化モデルを設定することができ、更に音声認識性能を向上させることができる。

実施の形態５．
実施の形態１〜３では、表示画面に対して、騒音モデル、騒音重畳音響モデル及び騒音除去処理の有無を設定する方法について述べた。ここで、各施設についての詳細な位置に応じて適応化モデルを設定すれば、更に高い音声認識性能を実現することができる。そのため、実施の形態５では、施設内の位置に応じて騒音モデルや騒音重畳モデルを設定するようにしている。

図２２は、施設内の位置と騒音環境との関係を示す説明図である。
図示のように、同一施設内でも入力項目によって点検場所が異なり、また、騒音環境が大きく異なる場合がある。そのような異なる騒音環境下で同一のシステムデータ（騒音モデル、騒音重畳音響モデル及び騒音除去処理の有無）を使用して音声認識を行った場合、データのミスマッチを引き起こし、高い認識性能が得られない可能性がある。

このような問題に対応するため、実施の形態５では、表示画面の入力項目毎に、使用するシステムデータを切り替える。尚、実施の形態５における音声認識装置の図面上の構成は、図１の構成と同様であるため、図１を援用して説明する。

実施の形態５の画面制御用記述言語解析部３は、特定の情報として、画面のＵＲＬを解析すると共に、項目毎の位置を表すｎａｍｅ属性に含まれる文字を解析するよう構成されている。また、システム適応化情報保持部４は、ｎａｍｅ属性に含まれる文字に対応した騒音モデル、騒音重畳音響モデル及び騒音除去処理の有無を示す適応化対応表を備え、この適応化対応表に基づいて騒音モデルや騒音重畳音響モデルあるいは騒音除去処理といった適応化モデルの選択を行うよう構成されている。

図２３は、システム適応化情報保持部４が保持する適応化対応表の説明図である。
図示のように、特定の情報としてのＵＲＬに含まれる文字と更に位置を示す文字に対応して、騒音モデル、騒音重畳音響モデル及び騒音除去処理の有無を示す情報が対応付けられている。

システムデータ保持部５は、騒音モデル及び騒音重畳音響モデルを保持しており、システム適応化情報保持部４から与えられた適応化対応情報に基づいて対応したモデルをシステム適応部６に出力するよう構成されている。
図２４は、システムデータ保持部５が保持する適応化モデルの説明図である。
図示のように、システムデータ保持部５は、各施設の位置に対応した騒音モデルや騒音重畳音響モデルのデータを有している。

また、実施の形態５のシステム適応部６は、システムデータ保持部５から出力された騒音モデルや騒音重畳音響モデルといった適応化モデルの情報を、適応化情報として決定するよう構成されている。これ以外の構成は、実施の形態１と同様であるため、ここでの説明は省略する。

次に、実施の形態５の動作について説明する。
図２５は、実施の形態５におけるシステムの設定動作を示すフローチャートである。
本実施の形態では、実施の形態１と同様に、図２の点検用ページが画面表示された場合のシステム適応の動作について説明する。

先ず、ステップＳＴ５０１において、ＵＲＬが「http://www.tenken.ne.jp/place1.html」であるネットワークアクセス先から画面制御用記述言語取得部１は、表示画面情報を取得する。次に、ステップＳＴ５０２において、画面表示部２は、画面制御用記述言語取得部１で取得した図２に示すＨＴＭＬ文書に基づいて、図３に示すページを表示する。

ステップＳＴ５０３において、画面制御用記述言語取得部１で取得したＨＴＭＬ文書などのページ情報を画面制御用記述言語解析部３で解析する。解析した結果、ＨＴＭＬ文書のＵＲＬと入力項目毎のｎａｍｅ属性が得られる。

ステップＳＴ５０４において、システム適応化情報保持部４では、画面制御用記述言語解析部３で解析した結果得られたＵＲＬ及び入力項目毎のｎａｍｅ属性の文字と、保持している適応化対応表の情報とを照合する。その結果、ＵＲＬには「place1」という文字列が含まれており、また、入力項目１０１のｎａｍｅ属性には「centertemp」という文字列が含まれているので、図３に示すページの入力項目１０１への音声入力において使用する騒音モデルとして「施設１−施設中央用騒音モデル」が、騒音重畳音響モデルとして「施設１−施設中央用騒音重畳音響モデル」が選択され、これらの適応化対応情報がシステムデータ保持部５に送出される。

システムデータ保持部５では、これらの情報に基づいて、保持されている適応化モデルの中から対応するモデルを選択し、これをシステム適応部６に出力する。ステップＳＴ５０５において、システム適応部６では選択された騒音モデル及び騒音重畳音響モデルに切り替える。また、騒音除去処理は「無し」が選択され、システム適応部６で設定される。

また、入力項目１０２のｎａｍｅ属性には「exittemp」という文字列が含まれているので、ステップＳＴ５０４において、システム適応化情報保持部４は、図３に示すページの入力項目１０２への音声入力において使用する騒音モデルとして「施設１−施設出口用騒音モデル」を、また、騒音重畳音響モデルとして「施設１−施設出口用騒音重畳音響モデル」を選択して出力し、システムデータ保持部５は、保持しているデータの中からそれぞれ対応したモデルを選択して出力する。ステップＳＴ５０５において、システム適応部６では選択された騒音モデル及び騒音重畳音響モデルに切り替える。また、騒音除去処理は「有り」が選択され、システム適応部６で設定される。

もし、画面制御用記述言語解析部３で解析して得られた表示画面のＵＲＬまたはｎａｍｅ属性が、システム適応化情報保持部４において保持している適応化対応表にない場合は、ステップＳＴ５０６において、既定のシステムデータがシステム適応部６で設定される。

上記のように、表示画面のＵＲＬと入力項目のｎａｍｅ属性を使用してシステムデータの設定を行うことにより、表示画面中の入力項目毎に使用環境が異なり、その騒音環境が大きく異なる場合に適切にシステムデータを選択及び設定することが可能となる。

本実施の形態を説明する上で、画面制御用記述言語解析部３で取得した情報としてＨＴＭＬ文書のＵＲＬと入力項目のｎａｍｅ属性を使用しているが、任意の表示画面解析情報を使用することが可能である。例えば、表示画面に記載されている文字列を使用することも可能である。更に、本実施の形態を説明する上で、画面制御用記述言語としてＨＴＭＬ文書を使用したが、任意の記述言語を使用することが可能である。

以上のように、実施の形態５の音声認識装置によれば、適応化情報決定部は、表示画面中の入力項目毎の騒音モデルを適応化情報として決定するようにしたので、表示画面中の入力項目毎に使用環境が異なり、その騒音環境が大きく異なる場合でも適切に騒音モデルを選択及び設定することが可能となる。

また、実施の形態５の音声認識装置によれば、適応化情報決定部は、表示画面中の入力項目毎の騒音重畳音響モデルを適応化情報として決定するようにしたので、表示画面中の入力項目毎に使用環境が異なり、その騒音環境が大きく異なる場合でも適切に騒音重畳音響モデルを選択及び設定することが可能となる。

また、実施の形態５の音声認識装置によれば、適応化情報決定部は、表示画面中の入力項目毎の騒音除去処理の有無を適応化情報として決定するようにしたので、表示画面中の入力項目毎に使用環境が異なり、その騒音環境が大きく異なる場合でも適切に騒音除去処理の有無を設定することが可能となる。

実施の形態６．
実施の形態６は、表示画面の入力項目に応じて年代及び性別毎の音響モデルへの変更を行うようにしたものである。即ち、表示画面の入力項目毎に年代や性別が限定される場合、表示画面の入力項目毎に年代及び性別毎の音響モデルへの変更を行うことにより、それらのユーザにおいて、より高い認識性能を得ることができる。本実施の形態では、画面制御用記述言語解析部３で取得した情報を使用して年代及び性別毎の音響モデルを変更する方法について説明する。

実施の形態６における音声認識装置の図面上の構成は、図１の構成と同様であるため、この図１を援用して説明する。また、本実施の形態の動作を説明する上で使用するページ及び使用環境は実施の形態５と同様であるとする。

実施の形態６のシステム適応化情報保持部４は、画面制御用記述言語解析部３で解析した特定の情報としてＵＲＬに含まれる文字とｎａｍｅ属性に含まれる文字に対応した年代及び性別毎の音響モデルを示す適応化対応表を備えている。
図２６は、システム適応化情報保持部４が保持する適応化対応表の説明図である。
図示のように、特定の情報としてのＵＲＬに含まれる文字とｎａｍｅ属性に含まれる文字とに対応して年代及び性別毎の音響モデルの情報が対応付けられている。

また、システムデータ保持部５には、適応化モデルとして、年代及び性別毎の音響モデルが保持されている。この年代及び性別毎の音響モデルは、図１９に示した実施の形態４における音響モデルと同様であるため、ここでの説明は省略する。

また、実施の形態６のシステム適応部６は、システムデータ保持部５から出力された音響モデルの情報に基づいて、適応化情報を決定するよう構成されている。これ以外の構成は、実施の形態５と同様であるため、その他の構成に関する説明は省略する。

次に、実施の形態６の動作について説明する。
図２７は、実施の形態６における音響モデルの設定動作を示すフローチャートである。
本実施の形態では、実施の形態１と同様に、図２の点検用ページが画面表示された場合のシステム適応の動作について説明する。

先ず、ステップＳＴ６０１において、ＵＲＬが「http://www.tenken.ne.jp/place1.html」であるネットワークアクセス先から画面制御用記述言語取得部１は、表示画面情報を取得する。次に、ステップＳＴ６０２において、画面表示部２は、画面制御用記述言語取得部１で取得した図２に示すＨＴＭＬ文書に基づいて、図３に示すページを表示する。

ステップＳＴ６０３において、画面制御用記述言語取得部１で取得したＨＴＭＬ文書などのページ情報を画面制御用記述言語解析部３で解析する。解析した結果、ＨＴＭＬ文書のＵＲＬと入力項目毎のｎａｍｅ属性が得られる。

ステップＳＴ６０４において、画面制御用記述言語解析部３で解析した結果得られたＵＲＬ及び入力項目毎のｎａｍｅ属性とシステム適応化情報保持部４において保持している適応化対応表を照合する。ＵＲＬには「place1」という文字列が含まれており、また、入力項目１０１のｎａｍｅ属性には「centertemp」という文字列が含まれているので、図３に示すページの入力項目１０１への音声入力において使用する騒音モデルとして「成人男性音響モデル」が選択され、この適応化対応情報がシステムデータ保持部５に送出される。

システムデータ保持部５では、これらの情報に基づいて、保持されている音響モデルの中から対応する「成人男性音響モデル」を選択し、これをシステム適応部６に出力する。ステップＳＴ６０５において、システム適応部６では選択された成人男性音響モデルに切り替える。

また、入力項目１０２のｎａｍｅ属性には「exittemp」という文字列が含まれているので、ステップＳＴ６０４において、システム適応化情報保持部４は、図３に示すページの入力項目１０２への音声入力において使用する音響モデルとして「高齢者男性向け音響モデル」を選択して出力し、システムデータ保持部５は、保持しているデータの中から対応したモデルを選択して出力する。ステップＳＴ６０５において、システム適応部６では選択された音響モデルに切り替える。

上記のように、表示画面のＵＲＬと入力項目のｎａｍｅ属性を使用して年代及び性別毎の音響モデルの設定を行うことにより、点検場所によってユーザの年代及び性別が限定できる場合に適切に音響モデルを選択することが可能となる。

また、本実施の形態を説明する上で、画面制御用記述言語解析部３で取得した情報としてＨＴＭＬ文書のＵＲＬと入力項目のｎａｍｅ属性を使用しているが、任意の表示画面解析情報を使用することが可能である。例えば、表示画面に記載されている文字列を使用することも可能である。更に、本実施の形態を説明する上で、画面制御用記述言語としてＨＴＭＬ文書を使用したが、任意の記述言語を使用することが可能である。

以上のように、実施の形態６の音声認識装置によれば、適応化情報決定部は、表示画面中の入力項目毎の年代毎、性別毎の音響モデルを適応化情報として決定するようにしたので、表示画面中の入力項目毎にユーザの年代や性別が異なる場合でも適切に音響モデルを選択及び設定することが可能となる。

尚、上記各実施の形態の機能を実現するプログラムを記録した記録媒体をコンピュータに読み取らせ、実行することで各実施の形態を実施することが出来る。プログラムを供給するための記録媒体としてはＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、フロッピー（登録商標）ディスク、ハードディスク、メモリカード等、種々の記録媒体を用いることができる。

この発明の実施の形態１による音声認識装置を示す構成図である。施設１における点検用ページのHTML文書を示す説明図である。施設１における点検用ページの表示内容を示す説明図である。施設２における点検用ページのHTML文書を示す説明図である。施設２における点検用ページの表示内容を示す説明図である。実施の形態１における点検対象施設の情報を示す説明図である。実施の形態１における騒音モデル設定動作のフローチャートである。実施の形態１における適応化対照表を示す説明図である。実施の形態１における適応化モデルを示す説明図である。実施の形態１における適応化情報の設定処理を示す説明図である。実施の形態２における適応化対照表を示す説明図である。実施の形態２における騒音重畳音響モデルを示す説明図である。実施の形態２における騒音重畳音響モデル設定動作のフローチャートである。実施の形態２における適応化情報の設定処理を示す説明図である。実施の形態３における適応化対応表を示す説明図である。実施の形態３における騒音除去処理の有無を設定する場合の動作を示すフローチャートである。実施の形態３における適応化情報の設定処理を示す説明図である。実施の形態４における適応化対照表を示す説明図である。実施の形態４における適応化モデルを示す説明図である。実施の形態４における年代・性別毎音響モデル設定動作のフローチャートである。実施の形態４における適応化情報の設定処理を示す説明図である。実施の形態５における施設内の位置と騒音環境との関係を示す説明図である。実施の形態５における適応化対応表を示す説明図である。実施の形態５における適応化モデルを示す説明図である。実施の形態５におけるシステム設定動作を示すフローチャートである。実施の形態６における適応化対応表を示す説明図である。実施の形態６における年代・性別毎音響モデル設定処理のフローチャートである。

符号の説明

２画面表示部、３画面制御用記述言語解析部、７音声取得部、８音声認識部、９適応化情報決定部。

Claims

画面制御用記述言語に含まれる特定の情報を解析する画面制御用記述言語解析部と、
前記画面制御用記述言語解析部で解析された特定の情報に対応した騒音除去処理の有無を適応化情報として決定する適応化情報決定部と、
前記画面制御用記述言語に基づいて表示された画面に対して入力された音声を取得する音声取得部と、
前記適応化情報決定部で決定した適応化情報に基づいて、前記音声取得部で取得された音声の音声認識を行う音声認識部とを備えた音声認識装置。
適応化情報は、騒音環境の特徴を示す騒音モデル、音声の音響的な特徴を示す音響モデルまたは騒音環境下での音声の音響的な特徴を示す騒音重畳音響モデルのうち少なくともいずれか一つを、前記騒音除去処理の有無に加えて含むことを特徴とする請求項１記載の音声認識装置。
音響モデルは、年代毎、性別毎の音響モデルであることを特徴とする請求項２記載の音声認識装置。
特定の情報は、音声入力の場所を示す情報であることを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声認識装置。
適応化情報決定部は、表示画面中の入力項目毎の騒音モデルを適応化情報として決定することを特徴とする請求項２記載の音声認識装置。
適応化情報決定部は、表示画面中の入力項目毎の騒音重畳音響モデルを適応化情報として決定することを特徴とする請求項２記載の音声認識装置。
適応化情報決定部は、表示画面中の入力項目毎の騒音除去処理の有無を適応化情報として決定することを特徴とする請求項１記載の音声認識装置。
適応化情報決定部は、表示画面中の入力項目毎の年代毎、性別毎の音響モデルを適応化情報として決定することを特徴とする請求項２記載の音声認識装置。
コンピュータを、
画面制御用記述言語に含まれる特定の情報を解析する画面制御用記述言語解析部と、
前記画面制御用記述言語解析部における解析結果に基づいて、前記特定の情報に対応した騒音除去処理の有無を適応化情報として決定する適応化情報決定部と、
前記適応化情報決定部で決定した適応化情報に基づいて、前記画面制御用記述言語に基づいて表示された画面に対して入力された音声の音声認識を行う音声認識部とを備えた音声認識装置として機能させるためのプログラム。