JP4749756B2 - 音声認識装置及びそのプログラム - Google Patents
音声認識装置及びそのプログラム Download PDFInfo
- Publication number
- JP4749756B2 JP4749756B2 JP2005119881A JP2005119881A JP4749756B2 JP 4749756 B2 JP4749756 B2 JP 4749756B2 JP 2005119881 A JP2005119881 A JP 2005119881A JP 2005119881 A JP2005119881 A JP 2005119881A JP 4749756 B2 JP4749756 B2 JP 4749756B2
- Authority
- JP
- Japan
- Prior art keywords
- adaptation
- information
- noise
- description language
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1は、この発明の実施の形態1による音声認識装置を示す構成図である。
図において、音声認識装置は、画面制御用記述言語取得部1、画面表示部2、画面制御用記述言語解析部3、システム適応化情報保持部4、システムデータ保持部5、システム適応部6、音声取得部7、音声認識部8からなる。
本実施の形態では、画面制御用記述言語として、代表的なWebブラウザが対応しているマークアップ言語であるHTML(HyperText Markup Language)として説明する。また、本実施の形態では、施設の点検作業のため複数の入力項目を持つページにおいて音声入力を行う場合を例にとって説明する。更に、本実施の形態では、HTML文書のURL(Uniform Resource Locator)を画面制御用記述言語に含まれる特定の情報として使用し、騒音モデルを選択及び設定する方法について説明する。
図2に施設1における点検用ページのHTML文書を示す。
ここで、施設1における点検用ページのURLは「http://www.tenken.ne.jp/place1.html」とする。
また、図3に施設1における点検用ページの画面表示内容を示す。施設1における点検用ページでは施設1の施設中央の温度の入力を入力項目101で、施設1の施設出口の温度の入力を入力項目102で行う。施設1における点検用ページにおける入力項目101と102への入力を行った後、入力決定ボタン103を押下すると、点検したデータがシステムに入力される。
ここで、施設2における点検用ページのURLは、「http://www.tenken.ne.jp/place2.html」とする。また、図5に施設2における点検用ページの画面表示内容を示す。施設2における点検用ページでは施設2の施設中央の温度の入力を入力項目201で、施設2の施設出口の温度の入力を入力項目202で行う。施設2における点検用ページにおける入力項目201と202への入力を行った後、入力決定ボタン203を押下すると、点検したデータがシステムに入力される。
上記のような点検の場合、図6に示すように点検場所によって騒音環境が大きく異なる可能性がある。そのような異なる騒音環境下で同一の騒音モデルを使用して音声認識を行った場合、データのミスマッチを引き起こし、高い認識性能が得られない可能性がある。このような問題に対応するため、本実施の形態では、適応化情報決定部9において、表示画面に応じて、使用するシステムデータ(適応化情報)を切り替える。即ち、システム適応化情報保持部4で、画面制御用記述言語解析部3で解析した情報に対応した騒音モデルを選択し、この騒音モデルをシステムデータ保持部5から取り出して、システム適応部6で、適応化情報として出力する。
以下、図2の点検用ページが画面表示された場合のシステム適応の動作について、図7のフローチャートを使用して説明する。
ステップST103において、画面制御用記述言語取得部1で取得したHTML文書などのページ情報を画面制御用記述言語解析部3で解析する。解析した結果、HTML文書のURL「http://www.tenken.ne.jp/place1.html」が得られる。
実施の形態2は、適応化モデルとして、使用環境毎の騒音重畳音響モデルを用意し、表示画面に応じて騒音重畳音響モデルの切り替えを行うようにしたものである。
図12は、システムデータ保持部5で保持する騒音重畳音響モデルの説明図である。
これらの図に示す騒音重畳音響モデルとは、予め騒音が重畳された音声データにより学習した、音声認識に用いる基本的な音の単位(子音や母音など)の情報が記述されたものである。
本実施の形態では、実施の形態1と同様に、図2の点検用ページが画面表示された場合のシステム適応の動作について説明する。
実施の形態3は、画面制御用記述言語解析部3で解析した特定の情報に基づいて、騒音除去処理の有無を設定するようにしたものである。即ち、環境騒音が想定できる場合は、騒音除去処理を行った方が認識性能改善において効果的なことがある。そこで、本実施の形態では、画面制御用記述言語解析部3で取得した情報を使用して騒音除去処理の有無を設定するようにしている。
実施の形態3のシステム適応化情報保持部4は、画面制御用記述言語解析部3で解析した特定の情報に対応して騒音除去処理の有無を示す適応化対応表を備えている。
図示のように、特定の情報としてのURLに対応して使用場所と騒音除去処理の有無が対応付けられている
また、実施の形態3のシステム適応部6は、システム適応化情報保持部4で決定された騒音除去処理の有無を示す情報に基づき、騒音除去処理の有無を適応化情報として出力するよう構成されている。これ以外の構成は、実施の形態1と同様であるため、その他の構成に関する説明は省略する。
図16は、実施の形態3の騒音除去処理の設定動作を示すフローチャートである。
本実施の形態では、実施の形態1と同様に、図2の点検用ページが画面表示された場合のシステム適応の動作について説明する。
このような動作により、騒音環境下においても適切に騒音除去処理の有無を設定できるため、認識性能が向上する。
実施の形態4は、表示画面に応じて年代及び性別毎の音響モデルへの変更を行うようにしたものである。即ち、音声は、年代及び性別によって、その音響的特徴が大きく異なるため、使用環境への適応のみでは、認識性能改善において高い効果が得られない可能性がある。これに対処するため、実施の形態4では、表示画面によって年代や性別が限定されるページである場合、表示画面に応じて年代及び性別毎の音響モデルへの変更を行うようにしている。
実施の形態4のシステム適応化情報保持部4は、画面制御用記述言語解析部3で解析した特定の情報に対応した年代及び性別毎の音響モデルを示す適応化対応表を備えている。
図18は、システム適応化情報保持部4が保持する適応化対応表の説明図である。
図示のように、特定の情報としてのURLに対応して使用場所と年代及び性別毎の音響モデルの情報が対応付けられている。このような適応化対応表を有するシステム適応化情報保持部4は、特定の情報としてのURLが与えられた場合、そのURLに対応した音響モデルを選択し、これを適応化対応情報として出力するよう構成されている。
図19は、年代及び性別毎の音響モデルの説明図である。
ここで、成人男性向け音響モデルは、成人男性の音声データを用いて学習することによって得られる音響モデルであるものとする。成人女性向け音響モデル、高齢者男性向け音響モデル及び高齢者女性向け音響モデルも同様に、成人女性、高齢者男性、高齢者女性それぞれの音声データを用いて学習することによって得られる音響モデルであるものとする。また、既定年代・性別毎音響モデルは画面制御用記述言語解析部3での解析結果とシステム適応化情報保持部4で保持している適応化対応表の情報との関連付けがなされなかった場合に設定するための音響モデルである。
図20は、実施の形態4における音響モデルの設定動作を示すフローチャートである。
本実施の形態では、実施の形態1と同様に、図2の点検用ページが画面表示された場合のシステム適応の動作について説明する。
実施の形態1〜3では、表示画面に対して、騒音モデル、騒音重畳音響モデル及び騒音除去処理の有無を設定する方法について述べた。ここで、各施設についての詳細な位置に応じて適応化モデルを設定すれば、更に高い音声認識性能を実現することができる。そのため、実施の形態5では、施設内の位置に応じて騒音モデルや騒音重畳モデルを設定するようにしている。
図示のように、同一施設内でも入力項目によって点検場所が異なり、また、騒音環境が大きく異なる場合がある。そのような異なる騒音環境下で同一のシステムデータ(騒音モデル、騒音重畳音響モデル及び騒音除去処理の有無)を使用して音声認識を行った場合、データのミスマッチを引き起こし、高い認識性能が得られない可能性がある。
図示のように、特定の情報としてのURLに含まれる文字と更に位置を示す文字に対応して、騒音モデル、騒音重畳音響モデル及び騒音除去処理の有無を示す情報が対応付けられている。
図24は、システムデータ保持部5が保持する適応化モデルの説明図である。
図示のように、システムデータ保持部5は、各施設の位置に対応した騒音モデルや騒音重畳音響モデルのデータを有している。
図25は、実施の形態5におけるシステムの設定動作を示すフローチャートである。
本実施の形態では、実施の形態1と同様に、図2の点検用ページが画面表示された場合のシステム適応の動作について説明する。
実施の形態6は、表示画面の入力項目に応じて年代及び性別毎の音響モデルへの変更を行うようにしたものである。即ち、表示画面の入力項目毎に年代や性別が限定される場合、表示画面の入力項目毎に年代及び性別毎の音響モデルへの変更を行うことにより、それらのユーザにおいて、より高い認識性能を得ることができる。本実施の形態では、画面制御用記述言語解析部3で取得した情報を使用して年代及び性別毎の音響モデルを変更する方法について説明する。
図26は、システム適応化情報保持部4が保持する適応化対応表の説明図である。
図示のように、特定の情報としてのURLに含まれる文字とname属性に含まれる文字とに対応して年代及び性別毎の音響モデルの情報が対応付けられている。
図27は、実施の形態6における音響モデルの設定動作を示すフローチャートである。
本実施の形態では、実施の形態1と同様に、図2の点検用ページが画面表示された場合のシステム適応の動作について説明する。
Claims (9)
- 画面制御用記述言語に含まれる特定の情報を解析する画面制御用記述言語解析部と、
前記画面制御用記述言語解析部で解析された特定の情報に対応した騒音除去処理の有無を適応化情報として決定する適応化情報決定部と、
前記画面制御用記述言語に基づいて表示された画面に対して入力された音声を取得する音声取得部と、
前記適応化情報決定部で決定した適応化情報に基づいて、前記音声取得部で取得された音声の音声認識を行う音声認識部とを備えた音声認識装置。 - 適応化情報は、騒音環境の特徴を示す騒音モデル、音声の音響的な特徴を示す音響モデルまたは騒音環境下での音声の音響的な特徴を示す騒音重畳音響モデルのうち少なくともいずれか一つを、前記騒音除去処理の有無に加えて含むことを特徴とする請求項1記載の音声認識装置。
- 音響モデルは、年代毎、性別毎の音響モデルであることを特徴とする請求項2記載の音声認識装置。
- 特定の情報は、音声入力の場所を示す情報であることを特徴とする請求項1から請求項3のうちのいずれか1項記載の音声認識装置。
- 適応化情報決定部は、表示画面中の入力項目毎の騒音モデルを適応化情報として決定することを特徴とする請求項2記載の音声認識装置。
- 適応化情報決定部は、表示画面中の入力項目毎の騒音重畳音響モデルを適応化情報として決定することを特徴とする請求項2記載の音声認識装置。
- 適応化情報決定部は、表示画面中の入力項目毎の騒音除去処理の有無を適応化情報として決定することを特徴とする請求項1記載の音声認識装置。
- 適応化情報決定部は、表示画面中の入力項目毎の年代毎、性別毎の音響モデルを適応化情報として決定することを特徴とする請求項2記載の音声認識装置。
- コンピュータを、
画面制御用記述言語に含まれる特定の情報を解析する画面制御用記述言語解析部と、
前記画面制御用記述言語解析部における解析結果に基づいて、前記特定の情報に対応した騒音除去処理の有無を適応化情報として決定する適応化情報決定部と、
前記適応化情報決定部で決定した適応化情報に基づいて、前記画面制御用記述言語に基づいて表示された画面に対して入力された音声の音声認識を行う音声認識部とを備えた音声認識装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005119881A JP4749756B2 (ja) | 2005-04-18 | 2005-04-18 | 音声認識装置及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005119881A JP4749756B2 (ja) | 2005-04-18 | 2005-04-18 | 音声認識装置及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006301102A JP2006301102A (ja) | 2006-11-02 |
JP4749756B2 true JP4749756B2 (ja) | 2011-08-17 |
Family
ID=37469491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005119881A Expired - Fee Related JP4749756B2 (ja) | 2005-04-18 | 2005-04-18 | 音声認識装置及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4749756B2 (ja) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06214590A (ja) * | 1993-01-20 | 1994-08-05 | Asahi Chem Ind Co Ltd | 電話交換機の接続方法および音声認識方法 |
JP2000347684A (ja) * | 1999-06-02 | 2000-12-15 | Internatl Business Mach Corp <Ibm> | 音声認識システム |
JP4244514B2 (ja) * | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
JP2002328696A (ja) * | 2001-04-26 | 2002-11-15 | Canon Inc | 音声認識装置および音声認識装置における処理条件設定方法 |
JP3916947B2 (ja) * | 2001-12-20 | 2007-05-23 | 松下電器産業株式会社 | 音声認識機能付き表示装置 |
JP2003248499A (ja) * | 2002-02-26 | 2003-09-05 | Canon Inc | 音声認識システム、音声認識装置およびその制御方法 |
JP2004212641A (ja) * | 2002-12-27 | 2004-07-29 | Toshiba Corp | 音声入力システム及び音声入力システムを備えた端末装置 |
-
2005
- 2005-04-18 JP JP2005119881A patent/JP4749756B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006301102A (ja) | 2006-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5653392B2 (ja) | 音声翻訳装置、方法およびプログラム | |
JP2007127813A5 (ja) | ||
JP2006244296A (ja) | 読み上げ用ファイル作成装置、リンク読み上げ装置、及びプログラム | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
WO2005116865A2 (ja) | 言語判別装置、翻訳装置、翻訳サーバ、言語判別方法並びに翻訳処理方法 | |
AU2004200684A1 (en) | Presentation of data based on user input | |
JP6064629B2 (ja) | 音声入出力データベース検索方法、プログラム、及び装置 | |
JP4724051B2 (ja) | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 | |
JP5754177B2 (ja) | 音声認識装置、音声認識システム、音声認識方法及びプログラム | |
JP2011165092A (ja) | 文書画像関連情報提供装置、及び文書画像関連情報取得システム | |
JP4749756B2 (ja) | 音声認識装置及びそのプログラム | |
JP4565585B2 (ja) | データ処理装置、データ処理方法、記録媒体 | |
JP2005215726A (ja) | 話者に対する情報提示システム及びプログラム | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP2009157620A (ja) | 情報検索支援装置 | |
JPWO2014147922A1 (ja) | 入力支援システム、入力支援方法および入力支援プログラム | |
JP4756764B2 (ja) | プログラム及び情報処理装置並びに情報処理方法 | |
JP2021162917A (ja) | 情報処理装置及び情報処理方法 | |
JP6441177B2 (ja) | ポーズ長決定装置、ポーズ長決定方法、およびプログラム | |
JPH11252281A (ja) | 電話端末装置 | |
JP7367839B2 (ja) | 音声認識装置、制御方法、及びプログラム | |
JP7257010B2 (ja) | 検索支援サーバ、検索支援方法及びコンピュータプログラム | |
JP7409475B2 (ja) | 発話終端検出装置、制御方法、及びプログラム | |
JP7501610B2 (ja) | 音声認識装置、制御方法、及びプログラム | |
JP2007171275A (ja) | 言語処理装置及び現後処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071009 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080220 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080723 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101001 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110518 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |