JP2000056794A - 音声認識システム及び記録媒体 - Google Patents

音声認識システム及び記録媒体

Info

Publication number
JP2000056794A
JP2000056794A JP10227407A JP22740798A JP2000056794A JP 2000056794 A JP2000056794 A JP 2000056794A JP 10227407 A JP10227407 A JP 10227407A JP 22740798 A JP22740798 A JP 22740798A JP 2000056794 A JP2000056794 A JP 2000056794A
Authority
JP
Japan
Prior art keywords
recognition
speaker
recognition result
speech
evaluation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10227407A
Other languages
English (en)
Inventor
Kenji Yamamoto
健司 山本
Masatomo Yazaki
昌朋 矢崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP10227407A priority Critical patent/JP2000056794A/ja
Publication of JP2000056794A publication Critical patent/JP2000056794A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 語彙別、話者別に異なる評価方法を適用して
音声の認識率を向上させる音声認識システムの提供。 【解決手段】 語彙毎のような認識結果毎に適用すべき
評価方法を記憶している認識結果/評価方法関係テーブ
ル8及び評価方法集合テーブル9と、認識結果4aを、
この認識結果4aに応じた評価方法を適用して評価する
認識結果評価装置5とを設ける。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された音声か
ら、単語、文章等の認識結果を生成する際に、助詞を省
略して話す話者、訛りが有る話者等の話者の特徴に応じ
た認識結果を生成し、また認識結果の採否を評価する際
に、例えば、発音しにくい単語・文章は評価基準を緩
く、重要な単語・文章は評価基準を厳しくするといった
ように、認識結果毎、話者毎に評価方法を選択できる音
声認識システム及びこのような音声認識のコンピュータ
プログラムが記録されている記録媒体に関する。
【0002】
【従来の技術】図1は従来の音声認識システムのブロッ
ク図である。音声認識装置2は、例えばマイクロフォン
から入力された音声データ1としての音声信号をフレー
ム(5ms〜30ms間隔のタイムスライス)毎に音響
分析し、特徴パラメータの時系列データに変換する。
【0003】例えば、単語テンプレートマッチングによ
る音声認識の場合、辞書3の認識語彙3bには、単語テ
ンプレートとして、認識対象単語の音声モデルを音響分
析して得られた特徴パラメータの時系列データが予め登
録されている。音声認識装置2は、認識文法3a及び認
識語彙3bからなる辞書3を参照し、認識語彙3bに登
録されている単語テンプレートの時系列データと、入力
音声を音響分析して得られた特徴パラメータの時系列デ
ータとの距離(スコア)を求め、距離の小さい認識対象
単語から順に、距離のデータを含む付加情報4bととも
に認識結果4aとして認識結果評価装置5へ出力する。
【0004】また、音響セグメントネットワークによる
音声認識の場合、音声認識装置2は音素のスペクトルで
ある音響テンプレートと入力音声のスペクトルとの距離
を求め、スペクトル距離マトリクスを作成する。この場
合、辞書3の認識語彙3bには、認識対象単語の平仮名
表記が登録されている。
【0005】音声認識装置2は、上述の単語テンプレー
トに相当する働きをする音響セグメントネットワークを
認識語彙3b内の平仮名表記から自動生成し、認識対象
単語の音響セグメントネットワークと、入力音声のスペ
クトル距離マトリクスとを動的計画法を用いて照合して
距離を求め、距離の小さい認識対象単語から順に、距離
を含む付加情報4bとともに認識結果4aとして認識結
果評価装置5へ出力する。
【0006】認識結果評価装置5は、距離の閾値が登録
されている評価方法6を適用し、付加情報4bに含まれ
る距離が閾値より小さい場合は認識結果4aをアクセプ
トし、閾値より大きい場合は認識結果4aをリジェクト
する。
【0007】なお、認識結果4aがすべてリジェクトさ
れた場合、認識結果評価装置5は、認識結果4aをリジ
ェクトとして処理するか、ユーザに再度発音するように
要求するか、又はリジェクトした認識結果4aの正否を
ユーザに問い合わせる。認識結果評価装置5によってア
クセプトされた認識結果4aの文字データは上位アプリ
ケーション7に提供される。
【0008】
【発明が解決しようとする課題】ところで、単語、文章
の中には、多くの人にとって、又は特定の個人にとって
発音の困難なものがあるが、このような語彙ではテンプ
レートとの距離が大きくなってリジェクトされる可能性
が高い。しかし、従来の音声認識システムは、評価方法
として適用する距離の閾値が固定値であるので、このよ
うな語彙だけ閾値を大きくして評価基準を緩くすること
ができない。
【0009】また、例えばシステムをシャットダウンさ
せる命令のように、誤認識によるシステム全体への影響
が大きい重要な語彙は、誤って認識しないように閾値を
小さくして評価基準を厳しくするべきである。しかし、
従来のシステムでは全ての単語、文章に対して評価方法
は一律である。
【0010】さらに、例えば助詞を省略して話す癖があ
る話者、なまりがある話者の音声を認識する場合、従来
の音声認識システムでは、参照する認識文法、認識語彙
が一種類であるので、認識が困難になる。
【0011】本発明はこのような問題点を解決するため
になされたものであって、例えば発音が困難な語彙の評
価基準を緩くしたり、また重要な語彙の評価基準を厳し
くしたりといったように、認識結果毎に適した評価方法
を適用することにより、またなまり、文法等のように話
し方に特徴を有する話者の音声に対して、この話者の特
徴に適した認識文法、認識語彙を参照することにより、
音声の認識率を向上させる音声認識システム、及び音声
認識のコンピュータプログラムが記録されている記録媒
体の提供を目的とする。
【0012】
【課題を解決するための手段】第1発明の音声認識シス
テムは、音声を音響分析して得られた音声パターンから
該音声の認識結果を生成し、該認識結果を所定の評価方
法で評価して該認識結果の採否を決定して前記音声を認
識する音声認識システムにおいて、認識結果毎に適用す
べき評価方法を記憶している手段と、認識結果を、該認
識結果に応じた評価方法を適用して評価する手段とを備
えたことを特徴とする。
【0013】第2発明の音声認識システムは、音声を音
響分析して得られた音声パターンから、記憶している認
識語彙及び認識文法を参照して前記音声の認識結果を生
成し、該認識結果を所定の評価方法で評価して該認識結
果の採否を決定する音声認識システムにおいて、話者の
識別名を入力する手段と、該話者の識別名に対応する、
音声認識における該話者の固有情報を登録する手段と、
話者の固有情報毎に、音声認識時に参照する認識語彙及
び認識文法を記憶している手段と、話者が入力した音声
を音響分析して得られた音声パターンから、該音声の認
識結果を生成する際、該話者の固有情報に応じた認識語
彙及び認識文法を参照する手段とを備えたことを特徴と
する。
【0014】第3発明の音声認識システムは、音声を音
響分析して得られた音声パターンから、記憶している認
識語彙及び認識文法を参照して前記音声の認識結果を生
成し、該認識結果を所定の評価方法で評価して該認識結
果の採否を決定する音声認識システムにおいて、話者の
識別名を入力する手段と、該話者の識別名に対応する、
音声認識における該話者の固有情報を登録する手段と、
認識結果及び話者の固有情報の組み合わせ毎に、適用す
べき評価方法を記憶している手段と、認識結果を、該認
識結果及び話者の固有情報に応じた評価方法を適用して
評価する手段とを備えたことを特徴とする。
【0015】第4発明の音声認識システムは、音声を音
響分析して得られた音声パターンから、記憶している認
識語彙及び認識文法を参照して前記音声の認識結果を生
成し、該認識結果を所定の評価方法で評価して該認識結
果の採否を決定する音声認識システムにおいて、話者の
識別名を入力する手段と、該話者の識別名に対応する、
音声認識における該話者の固有情報を登録する手段と、
話者の固有情報毎に、音声認識時に参照する認識語彙及
び認識文法を記憶している手段と、認識結果毎に適用す
べき評価方法を記憶している手段と、話者が入力した音
声を音響分析して得られた音声パターンから、該音声の
認識結果を生成する際、該話者の固有情報に応じた認識
語彙及び認識文法を参照する手段と、認識結果を、該認
識結果に応じた評価方法を適用して評価する手段とを備
えたことを特徴とする。
【0016】第5発明の音声認識システムは、音声を音
響分析して得られた音声パターンから、記憶している認
識語彙及び認識文法を参照して前記音声の認識結果を生
成し、該認識結果を所定の評価方法で評価して該認識結
果の採否を決定する音声認識システムにおいて、話者の
識別名を入力する手段と、該話者の識別名に対応する、
音声認識における該話者の固有情報を登録する手段と、
話者の固有情報毎に、音声認識時に参照する認識語彙及
び認識文法を記憶している手段と、認識結果及び話者の
固有情報の組み合わせ毎に、適用すべき評価方法を記憶
している手段と、話者が入力した音声を音響分析して得
られた音声パターンから、該音声の認識結果を生成する
際、該話者の固有情報に応じた認識語彙及び認識文法を
参照する手段と、認識結果を、該認識結果及び該話者の
固有情報に応じた評価方法を適用して評価する手段とを
備えたことを特徴とする。
【0017】第6発明の音声認識システムは、第1又は
第4発明に加えて、認識結果毎に、適用が可能な複数種
の評価方法を記憶している手段と、認識結果を評価する
際に前記複数種の中からいずれかの評価方法を選択して
適用する手段とを備えたことを特徴とする。
【0018】第7発明の音声認識システムは、第3又は
第5発明に加えて、認識結果毎、又は認識結果及び話者
の固有情報の組み合わせ毎に、適用が可能な複数種の評
価方法を記憶している手段と、認識結果を評価する際に
前記複数種の中からいずれかの評価方法を選択して適用
する手段とを備えたことを特徴とする。
【0019】第8発明の音声認識システムは、第2又は
第4又は第5発明に加えて、話者の固有情報毎に、適用
が可能な複数種の認識語彙及び認識文法を記憶している
手段と、認識結果を生成する際に、前記複数種の中から
いずれかの認識語彙及び認識文法を選択して参照する手
段とを備えたことを特徴とする。
【0020】第9発明の音声認識システムは、第2又は
第3又は第4又は第5又は第7又は第8発明に加えて、
話者の音声を認識して該話者を識別する手段を備えたこ
とを特徴とする。
【0021】第10発明の記録媒体は、コンピュータに
音声を入力し、該コンピュータが、該音声を音響分析し
て得た音声パターンから該音声の認識結果を生成し、該
コンピュータが該認識結果を所定の評価方法で評価して
該認識結果の採否を決定する音声認識システムに使用す
る、コンピュータでの読み取りが可能な記録媒体におい
て、 認識結果毎に適用すべき評価方法のプログラム
と、前記コンピュータに、認識結果を、該認識結果に応
じた評価方法のプログラムを適用して評価させるプログ
ラムコード手段とを含むことを特徴とする。
【0022】本発明では、例えば発音が困難な語彙の評
価基準を緩くしたり、また重要な語彙の評価基準を厳し
くしたりといったように、認識結果毎に適した評価方法
を適用する。従って、音声の認識率が向上する。
【0023】また、本発明では、なまり、文法等のよう
に話し方に特徴を有する話者に対して、この話者の特徴
に適した認識文法、認識語彙を参照する。従って、音声
の認識率が向上する。
【0024】
【発明の実施の形態】(実施の形態1)図2は本発明の
音声認識システムの実施の形態1の構成を示すブロック
図である。音声認識装置2は、例えばマイクロフォンか
ら入力された音声データ1としての音声信号をフレーム
(5ms〜30ms間隔のタイムスライス)毎に音響分
析し、特徴パラメータの時系列データに変換する。
【0025】例えば、単語テンプレートマッチングによ
る音声認識の場合、辞書3の認識語彙3bには、単語テ
ンプレートとして、認識対象単語の音声モデルを音響分
析して得られた特徴パラメータの時系列データが予め登
録されている。音声認識装置2は、認識文法3a及び認
識語彙3bからなる辞書3を参照し、認識語彙3bに登
録されている単語テンプレートの時系列データと、入力
音声を音響分析して得られた特徴パラメータの時系列デ
ータとの距離(スコア)を求め、距離の小さい認識対象
単語から順に、距離のデータを含む付加情報4bととも
に認識結果4aとして認識結果評価装置5へ出力する。
【0026】また、音響セグメントネットワークによる
音声認識の場合、音声認識装置2は音素のスペクトルで
ある音響テンプレートと入力音声のスペクトルとの距離
を求め、スペクトル距離マトリクスを作成する。この場
合、辞書3の認識語彙3bには、認識対象単語の平仮名
表記が登録されている。
【0027】音声認識装置2は、上述の単語テンプレー
トに相当する働きをする音響セグメントネットワークを
認識語彙3b内の平仮名表記から自動生成し、認識対象
単語の音響セグメントネットワークと、入力音声のスペ
クトル距離マトリクスとを動的計画法を用いて照合して
距離を求め、距離の小さい認識対象単語から順に、距離
を含む付加情報4bとともに認識結果4aとして認識結
果評価装置5へ出力する。
【0028】システムは、認識結果4a毎に適用すべき
評価方法を特定する情報、例えば評価方法番号が登録さ
れている認識結果/評価方法関係テーブル8を参照し、
音声認識装置2から出力された認識結果4aに対応する
評価方法番号の評価方法9aを評価方法集合テーブル9
から獲得して認識結果評価装置5に設定する。この場合
の評価方法は、「認識結果のスコアが評価方法に設定さ
れている閾値より小さければアクセプトし、そうでなけ
ればリジェクトする」というプログラムである。認識結
果評価装置5はこの評価方法9aを適用し、付加情報4
bに含まれる距離が閾値より小さい場合は認識結果4a
をアクセプトし、閾値より大きい場合は認識結果4aを
リジェクトする。
【0029】なお、認識結果4aがすべてリジェクトさ
れた場合、認識結果評価装置5は、認識結果4aをリジ
ェクトとして処理するか、ユーザに再度発音するように
要求するか、又はリジェクトした認識結果4aの正否を
ユーザに問い合わせる。認識結果評価装置5によってア
クセプトされた認識結果4aの文字データは上位アプリ
ケーション7に提供される。
【0030】次に、認識結果別の評価方法の選択手順
を、図3のフローチャート、及び図4の認識結果/評価
方法関係テーブルの概念図に基づいて説明する。音声認
識装置2から出力された認識結果4aが認識結果/評価
方法関係テーブル8にあるか否かを判断し (ステップS
3−1)、認識結果/評価方法関係テーブル8に存在す
る場合は、対応する評価方法番号の評価方法9aを評価
方法集合テーブル9から獲得して認識結果評価装置5に
設定して (ステップS3−2)、正常終了する。
【0031】一方、認識結果4aが認識結果/評価方法
関係テーブル8に存在しない場合 (ステップS3−1の
NO)、認識結果/評価方法関係テーブル8及び評価方
法集合テーブル9にデフォルトの評価方法が登録されて
いるか否かを判断し (ステップS3−3)、デフォルト
の評価方法が登録されている場合は、デフォルトの評価
方法9aを認識結果評価装置5に設定して (ステップS
3−4)、正常終了する。また、認識結果4aが認識結
果/評価方法関係テーブル8に存在せず、さらにデフォ
ルトの評価方法が登録されていない場合は (ステップS
3−3のNO)、異常終了する。
【0032】(実施の形態2)図5は本発明の音声認識
システムの実施の形態2のブロック図である。音声認識
装置2は、例えばマイクロフォンから入力された音声デ
ータ1としての音声信号をフレーム(5ms〜30ms
間隔のタイムスライス)毎に音響分析し、特徴パラメー
タの時系列データに変換する。
【0033】本例では、システムが話者を識別する。そ
の方法としては、例えば話者がマイクロフォンから入力
した所定の単語、文章の音声データ1を音声認識装置2
が音声認識して時系列データに変換し、話者の所定の音
声の特徴パラメータの時系列データ、及びIDのような
話者を識別する情報が対応付けて登録されている話者集
合テーブル10を参照して、音声認識装置2の音声認識
結果から話者を特定する方法、または例えばキーボード
から話者が入力したID、パスワードから話者を識別す
る方法等がある。なお、本例では、話者を識別するため
に音声データ1を認識する音声認識装置が、話者の音声
データ1を認識する音声認識装置2と同一である構成を
示したが、話者を識別するための音声認識装置を別に設
けても良い。
【0034】また、話者集合テーブル10には、図6に
示すように、話者の識別名(YAMAMOTO、OKA
MOTO等)に対応させて、話者の固有情報(性別・年
令・出身地・話し方・使用言語・方言・発音しにくい単
語等)が付帯情報として登録されている。このような話
者の識別名と固有情報とは、例えばシステム利用者情報
として、利用者登録を行う際に登録手段14により登録
しておくことができる。また、必要に応じて変更するこ
とも可能である。登録されていないユーザ(UNKNO
WN)がシステムを使用する場合を考慮して、デフォル
トの付帯情報も登録しておく。
【0035】話者/語彙・文法関係テーブル11には、
話者の固有情報と、話者の固有情報に応じた認識語彙及
び認識文法を特定する認識語彙番号、認識文法のような
情報とが対応付けて登録されている。ここでいう、話者
に応じた認識語彙とは、例えばなまりのある話者に応じ
た認識語彙を意味しており、また話者に応じた認識文法
とは、例えば助詞を省いて話す傾向があるような話者に
応じた認識文法を意味している。
【0036】システムは、以上のような方法で話者を識
別し、話者/語彙・文法関係テーブル11から話者の固
有情報に対応する認識語彙12ab及び認識文法12a
aを語彙・文法集合テーブル12から獲得し、話者に応
じた(話者の別に無関係のデフォルトを含む)認識語彙
12ab及び認識文法12aaからなる辞書12aを音
声認識装置2に設定する。
【0037】例えば、単語テンプレートマッチングによ
る音声認識の場合、辞書12aの認識語彙12abに
は、単語テンプレートとして、認識対象単語の音声モデ
ルを音響分析して得られた特徴パラメータの時系列デー
タが予め登録されている。音声認識装置2は、認識文法
12aa及び認識語彙12abからなる辞書12を参照
し、認識語彙12abに登録されている単語テンプレー
トの時系列データと、入力音声を音響分析して得られた
特徴パラメータの時系列データとの距離(スコア)を求
め、距離の小さい認識対象単語から順に、距離のデータ
を含む付加情報4bとともに認識結果4aとして認識結
果評価装置5へ出力する。
【0038】また、音響セグメントネットワークによる
音声認識の場合、音声認識装置2は音素のスペクトルで
ある音響テンプレートと入力音声のスペクトルとの距離
を求め、スペクトル距離マトリクスを作成する。この場
合、辞書12aの認識語彙12abには、認識対象単語
の平仮名表記が登録されている。
【0039】音声認識装置2は、上述の単語テンプレー
トに相当する働きをする音響セグメントネットワークを
認識語彙12ab内の平仮名表記から自動生成し、認識
対象単語の音響セグメントネットワークと、入力音声の
スペクトル距離マトリクスとを動的計画法を用いて照合
して距離を求め、距離の小さい認識対象単語から順に、
距離を含む付加情報4bとともに認識結果4aとして認
識結果評価装置5へ出力する。
【0040】認識結果評価装置5は、距離の閾値が登録
されている評価方法6を適用し、付加情報4bに含まれ
る距離が閾値より小さい場合は認識結果4aをアクセプ
トし、閾値より大きい場合は認識結果4aをリジェクト
する。
【0041】なお、認識結果4aがすべてリジェクトさ
れた場合、認識結果評価装置5は、認識結果4aをリジ
ェクトとして処理するか、ユーザに再度発音するように
要求するか、又はリジェクトした認識結果4aの正否を
ユーザに問い合わせる。認識結果評価装置5によってア
クセプトされた認識結果4aの文字データは上位アプリ
ケーション7に提供される。
【0042】次に、話者別の認識語彙・認識文法の選択
手順を、図7のフローチャートに基づいて説明する。識
別した話者が話者/語彙・文法関係テーブル11にある
か否かを判断し (ステップS7−1)、話者/語彙・文
法関係テーブル11に存在する場合は、話者に対応する
認識語彙12ab及び認識文法12aaを語彙・文法集
合テーブル12から獲得して音声認識装置2に設定して
(ステップS7−2)、正常終了する。
【0043】一方、話者が話者/語彙・文法関係テーブ
ル11に存在しない場合 (ステップS7−1のNO)、
話者/語彙・文法関係テーブル11及び語彙・文法集合
テーブル12にデフォルトの認識語彙及び認識文法が登
録されているか否かを判断し(ステップS7−3)、デ
フォルトの認識語彙及び認識文法が登録されている場合
は、デフォルトの認識語彙12ab及び認識文法12a
aを音声認識装置2に設定して (ステップS7−4)、
正常終了する。また、話者が話者/語彙・文法関係テー
ブル11に存在せず、さらにデフォルトの認識語彙及び
認識文法が登録されていない場合は (ステップS7−3
のNO)、異常終了する。
【0044】(実施の形態3)図8は本発明の音声認識
システムの実施の形態3のブロック図である。音声認識
装置2は、例えばマイクロフォンから入力された音声デ
ータ1としての音声信号をフレーム(5ms〜30ms
間隔のタイムスライス)毎に音響分析し、特徴パラメー
タの時系列データに変換する。
【0045】例えば、単語テンプレートマッチングによ
る音声認識の場合、辞書3の認識語彙3bには、単語テ
ンプレートとして、認識対象単語の音声モデルを音響分
析して得られた特徴パラメータの時系列データが予め登
録されている。音声認識装置2は、認識文法3a及び認
識語彙3bからなる辞書3を参照し、認識語彙3bに登
録されている単語テンプレートの時系列データと、入力
音声を音響分析して得られた特徴パラメータの時系列デ
ータとの距離(スコア)を求め、距離の小さい認識対象
単語から順に、距離のデータを含む付加情報4bととも
に認識結果4aとして認識結果評価装置5へ出力する。
【0046】また、音響セグメントネットワークによる
音声認識の場合、音声認識装置2は音素のスペクトルで
ある音響テンプレートと入力音声のスペクトルとの距離
を求め、スペクトル距離マトリクスを作成する。この場
合、辞書3の認識語彙3bには、認識対象単語の平仮名
表記が登録されている。
【0047】音声認識装置2は、上述の単語テンプレー
トに相当する働きをする音響セグメントネットワークを
認識語彙3b内の平仮名表記から自動生成し、認識対象
単語の音響セグメントネットワークと、入力音声のスペ
クトル距離マトリクスとを動的計画法を用いて照合して
距離を求め、距離の小さい認識対象単語から順に、距離
を含む付加情報4bとともに認識結果4aとして認識結
果評価装置5へ出力する。
【0048】本例では、同じ語彙でも話者によって、例
えば発音がしにくい語彙である等の理由により、認識が
困難な場合があることを考慮して、システムが前述の実
施の形態2の場合と同様の方法で話者を識別する。シス
テムは、認識結果4a毎及び話者の固有情報毎に適用す
べき評価方法を特定する情報、例えば評価方法番号が登
録されている認識結果・話者/評価方法関係テーブル1
3を参照し、音声認識装置2から出力された認識結果4
a、及び識別した話者に対応する評価方法番号の評価方
法9aを評価方法集合テーブル9から獲得して認識結果
評価装置5に設定する。この場合の評価方法は、「認識
結果のスコアが評価方法に設定されている閾値より小さ
ければアクセプトし、そうでなければリジェクトする」
というプログラムである。認識結果評価装置5はこの評
価方法9aを適用し、付加情報4bに含まれる距離が閾
値より小さい場合は認識結果4aをアクセプトし、閾値
より大きい場合は認識結果4aをリジェクトする。
【0049】なお、認識結果4aがすべてリジェクトさ
れた場合、認識結果評価装置5は、認識結果4aをリジ
ェクトとして処理するか、ユーザに再度発音するように
要求するか、又はリジェクトした認識結果4aの正否を
ユーザに問い合わせる。認識結果評価装置5によってア
クセプトされた認識結果4aの文字データは上位アプリ
ケーション7に提供される。
【0050】次に、話者・認識結果別の評価方法の選択
手順の一例を、図9のフローチャート及び図10の認識
結果・話者/評価方法関係テーブル(その1)の概念図
に基づいて説明する。音声認識装置2から出力された認
識結果4aが認識結果・話者/評価方法関係テーブル1
3の認識結果集合にあるか否かを判断し (ステップS9
−1)、認識結果・話者/評価方法関係テーブル13の
認識結果集合に存在する場合は、その認識結果に対応す
る話者集合に、識別した話者があるか否かを判断する
(ステップS9−2)。識別した話者が話者集合に存在
する場合は、認識結果及び話者に対応する評価方法番号
の評価方法9aを評価方法集合テーブル9から獲得して
認識結果評価装置5に設定して (ステップS9−3)、
正常終了する。
【0051】一方、認識結果が認識結果・話者/評価方
法関係テーブル13の認識結果集合に存在するが、その
認識結果に対応する話者集合に、識別した話者が存在し
ない場合は (ステップS9−2のNO)、認識結果に対
応する評価方法を認識結果評価装置5に設定して (ステ
ップS9−4)、正常終了する。
【0052】また、認識結果4aが認識結果・話者/評
価方法関係テーブル13に存在しない場合は (ステップ
S9−1のNO)、認識結果・話者/評価方法関係テー
ブル13及び評価方法集合テーブル9にデフォルトの評
価方法が登録されているか否かを判断し (ステップS9
−5)、デフォルトの評価方法が登録されている場合
(ステップS9−6のYES)は、デフォルトの評価方
法9aを認識結果評価装置5に設定して (ステップS9
−6)、正常終了する。一方、認識結果4aが認識結果
・話者/評価方法関係テーブル13に存在せず、さらに
デフォルトの評価方法が登録されていない場合は (ステ
ップS9−5のNO)、異常終了する。
【0053】次に、話者・認識結果別の評価方法の選択
手順の他の例を、図11のフローチャート及び図12の
認識結果・話者/評価方法関係テーブル(その2)の概
念図に基づいて説明する。システムが識別した話者が認
識結果・話者/評価方法関係テーブル13の話者集合に
あるか否かを判断し (ステップS11−1)、認識結果
・話者/評価方法関係テーブル13の話者集合に存在す
る場合は、その話者に対応する認識結果集合に、音声認
識装置2から出力された認識結果4aがあるか否かを判
断する (ステップS11−2)。認識結果4aが認識結
果集合に存在する場合は、認識結果及び話者に対応する
評価方法番号の評価方法9aを評価方法集合テーブル9
から獲得して認識結果評価装置5に設定して (ステップ
S11−3)、正常終了する。
【0054】一方、話者が認識結果・話者/評価方法関
係テーブル13の話者集合に存在するが、その話者に対
応する認識結果集合に、音声認識装置2から出力された
認識結果4aが存在しない場合は (ステップS11−2
のNO)、話者に対応する評価方法を認識結果評価装置
5に設定して (ステップS11−4)、正常終了する。
【0055】また、話者が認識結果・話者/評価方法関
係テーブル13に存在しない場合は(ステップS11−
1のNO)、認識結果・話者/評価方法関係テーブル1
3及び評価方法集合テーブル9にデフォルトの評価方法
が登録されているか否かを判断し (ステップS11−
5)、デフォルトの評価方法が登録されている場合は、
デフォルトの評価方法9aを認識結果評価装置5に設定
して (ステップS11−6)、正常終了する。一方、話
者が認識結果・話者/評価方法関係テーブル13に存在
せず、さらにデフォルトの評価方法が登録されていない
場合は (ステップS11−5のNO)、異常終了する。
【0056】
【実施例】図13は、上位プログラムが、音声入力によ
ってコンピュータに指示を与えるプログラムである場合
の、認識結果/評価方法関係テーブルの一例の概念図で
ある。この例では、「シャットダウン」のように、「い
ま何時?」「今日は何日?」「テレビをつけろ」等の他
の語彙に比べて、誤認識して誤動作した場合にコンピュ
ータ・システムに重大な影響を与えるような重要な語彙
は、その閾値を他の語彙より小さく設定して評価基準を
厳しくする。
【0057】また「電話をかける」のように、誤認識し
て誤動作した場合に、「シャットダウン」の誤認識の場
合のようにコンピュータシステムに重大な影響を与えな
いが、他のコンピュータ・システムに作用するような相
対的に重要な語彙は閾値を「シャットダウン」よりは大
きく、他の語彙よりは小さく設定して評価基準をやや厳
しくする。その結果、「シャットダウン」はリジェクト
され易くなるので、誤認識によるコンピュータ・システ
ムの誤動作が可及的に減少する。
【0058】また、図14は、助詞を省略する傾向があ
る話者の存在を考慮して複数種の認識文法が登録されて
いる場合の、複数種の認識文法による認識結果部分集合
の具体例である。ユーザは、音声認識が行われるのに先
立って、認識文法1及び2のいずれか、又は両方を使用
して音声認識を行うように指示する。認識文法1を適用
した場合の認識結果部分集合は、それぞれ「電話をかけ
ろ」「テレビをつけろ」「テレビを消せ」「照明をつけ
ろ」となる。また認識文法2を適用した場合の認識結果
部分集合は、それぞれ「電話かけろ」「テレビつけろ」
「テレビ消せ」「照明つけろ」となる。
【0059】なお、以上のような音声認識のコンピュー
タプログラムはコンピュータにプレインストールして提
供することも、またCD-ROM、MO等の可搬型記録媒体で提
供することも可能である。さらにオンラインで提供する
ことも可能である。
【0060】
【発明の効果】以上のように、本発明の音声認識システ
ム及び記録媒体は、例えば発音が困難な語彙の評価基準
を緩くしたり、また重要な語彙の評価基準を厳しくした
りといったように、認識結果毎に適した評価方法を適用
するので、またなまり、文法等のように話し方に特徴を
有する話者の音声に対して、この話者の特徴に適した認
識文法、認識語彙を参照するので、音声の認識率を向上
させるという優れた効果を奏する。
【図面の簡単な説明】
【図1】従来の音声認識システムのブロック図である。
【図2】本発明の実施の形態1のブロック図である。
【図3】認識結果別の評価方法の選択手順のフローチャ
ートである。
【図4】認識結果/評価方法関係テーブルの概念図であ
る。
【図5】本発明の実施の形態2のブロック図である。
【図6】話者集合テーブルの概念図である。
【図7】話者別の認識語彙・認識文法の選択手順のフロ
ーチャートである。
【図8】本発明の実施の形態3のブロック図である。
【図9】話者・認識結果別の評価方法の選択手順(その
1)のフローチャートである。
【図10】認識結果・話者/評価方法関係テーブル(そ
の1)の概念図である。
【図11】話者・認識結果別の評価方法の選択手順(そ
の2)のフローチャートである。
【図12】認識結果・話者/評価方法関係テーブル(そ
の2)の概念図である。
【図13】認識結果/評価方法関係テーブルの概念図
(具体例)である。
【図14】複数種の認識文法による認識結果部分集合の
具体例の図である。
【符号の説明】
1 音声データ 2 音声認識装置 3 辞書 3a 認識文法 3b 認識語彙 4a 認識結果 4b 付加情報 5 認識結果評価装置 6 評価方法 7 上位アプリケーション 8 認識結果/評価方法関係テーブル 9 評価方法集合テーブル 9a 評価方法 10 話者集合テーブル 11 話者/語彙・文法関係テーブル 12a 辞書 12aa 認識文法 12ab 認識語彙 13 認識結果・話者/評価方法関係テーブル 14 登録手段

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声を音響分析して得られた音声パター
    ンから該音声の認識結果を生成し、該認識結果を所定の
    評価方法で評価して該認識結果の採否を決定して前記音
    声を認識する音声認識システムにおいて、 認識結果毎に適用すべき評価方法を記憶している手段
    と、 認識結果を、該認識結果に応じた評価方法を適用して評
    価する手段とを備えたことを特徴とする音声認識システ
    ム。
  2. 【請求項2】 音声を音響分析して得られた音声パター
    ンから、記憶している認識語彙及び認識文法を参照して
    前記音声の認識結果を生成し、該認識結果を所定の評価
    方法で評価して該認識結果の採否を決定する音声認識シ
    ステムにおいて、 話者の識別名を入力する手段と、 該話者の識別名に対応する、音声認識における該話者の
    固有情報を登録する手段と、 話者の固有情報毎に、音声認識時に参照する認識語彙及
    び認識文法を記憶している手段と、 話者が入力した音声を音響分析して得られた音声パター
    ンから、該音声の認識結果を生成する際、該話者の固有
    情報に応じた認識語彙及び認識文法を参照する手段とを
    備えたことを特徴とする音声認識システム。
  3. 【請求項3】 音声を音響分析して得られた音声パター
    ンから、記憶している認識語彙及び認識文法を参照して
    前記音声の認識結果を生成し、該認識結果を所定の評価
    方法で評価して該認識結果の採否を決定する音声認識シ
    ステムにおいて、 話者の識別名を入力する手段と、 該話者の識別名に対応する、音声認識における該話者の
    固有情報を登録する手段と、 認識結果及び話者の固有情報の組み合わせ毎に、適用す
    べき評価方法を記憶している手段と、 認識結果を、該認識結果及び話者の固有情報に応じた評
    価方法を適用して評価する手段とを備えたことを特徴と
    する音声認識システム。
  4. 【請求項4】 音声を音響分析して得られた音声パター
    ンから、記憶している認識語彙及び認識文法を参照して
    前記音声の認識結果を生成し、該認識結果を所定の評価
    方法で評価して該認識結果の採否を決定する音声認識シ
    ステムにおいて、 話者の識別名を入力する手段と、 該話者の識別名に対応する、音声認識における該話者の
    固有情報を登録する手段と、 話者の固有情報毎に、音声認識時に参照する認識語彙及
    び認識文法を記憶している手段と、 認識結果毎に適用すべき評価方法を記憶している手段
    と、 話者が入力した音声を音響分析して得られた音声パター
    ンから、該音声の認識結果を生成する際、該話者の固有
    情報に応じた認識語彙及び認識文法を参照する手段と、 認識結果を、該認識結果に応じた評価方法を適用して評
    価する手段とを備えたことを特徴とする音声認識システ
    ム。
  5. 【請求項5】 音声を音響分析して得られた音声パター
    ンから、記憶している認識語彙及び認識文法を参照して
    前記音声の認識結果を生成し、該認識結果を所定の評価
    方法で評価して該認識結果の採否を決定する音声認識シ
    ステムにおいて、 話者の識別名を入力する手段と、 該話者の識別名に対応する、音声認識における該話者の
    固有情報を登録する手段と、 話者の固有情報毎に、音声認識時に参照する認識語彙及
    び認識文法を記憶している手段と、 認識結果及び話者の固有情報の組み合わせ毎に、適用す
    べき評価方法を記憶している手段と、 話者が入力した音声を音響分析して得られた音声パター
    ンから、該音声の認識結果を生成する際、該話者の固有
    情報に応じた認識語彙及び認識文法を参照する手段と、 認識結果を、該認識結果及び該話者の固有情報に応じた
    評価方法を適用して評価する手段とを備えたことを特徴
    とする音声認識システム。
  6. 【請求項6】 認識結果毎に、適用が可能な複数種の評
    価方法を記憶している手段と、認識結果を評価する際に
    前記複数種の中からいずれかの評価方法を選択して適用
    する手段とを備えた請求項1又は4に記載の音声認識シ
    ステム。
  7. 【請求項7】 認識結果毎、又は認識結果及び話者の固
    有情報の組み合わせ毎に、適用が可能な複数種の評価方
    法を記憶している手段と、認識結果を評価する際に前記
    複数種の中からいずれかの評価方法を選択して適用する
    手段とを備えた請求項3又は5に記載の音声認識システ
    ム。
  8. 【請求項8】 話者の固有情報毎に、適用が可能な複数
    種の認識語彙及び認識文法を記憶している手段と、認識
    結果を生成する際に、前記複数種の中からいずれかの認
    識語彙及び認識文法を選択して参照する手段とを備えた
    請求項2又は4又は5に記載の音声認識システム。
  9. 【請求項9】 話者の音声を認識して該話者を識別する
    手段を備えた請求項2又は3又は4又は5又は7又は8
    に記載の音声認識システム。
  10. 【請求項10】 コンピュータに音声を入力し、該コン
    ピュータが、該音声を音響分析して得た音声パターンか
    ら該音声の認識結果を生成し、該コンピュータが該認識
    結果を所定の評価方法で評価して該認識結果の採否を決
    定する音声認識システムに使用する、コンピュータでの
    読み取りが可能な記録媒体において、 認識結果毎に適用すべき評価方法のプログラムと、 前記コンピュータに、認識結果を、該認識結果に応じた
    評価方法のプログラムを適用して評価させるプログラム
    コード手段とを含むことを特徴とする記録媒体。
JP10227407A 1998-08-11 1998-08-11 音声認識システム及び記録媒体 Withdrawn JP2000056794A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10227407A JP2000056794A (ja) 1998-08-11 1998-08-11 音声認識システム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10227407A JP2000056794A (ja) 1998-08-11 1998-08-11 音声認識システム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2000056794A true JP2000056794A (ja) 2000-02-25

Family

ID=16860359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10227407A Withdrawn JP2000056794A (ja) 1998-08-11 1998-08-11 音声認識システム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2000056794A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312296A (ja) * 2000-05-02 2001-11-09 Internatl Business Mach Corp <Ibm> 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
JP2002032213A (ja) * 2000-05-26 2002-01-31 Internatl Business Mach Corp <Ibm> ボイス・メール・メッセージを転記する方法およびシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312296A (ja) * 2000-05-02 2001-11-09 Internatl Business Mach Corp <Ibm> 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
JP2002032213A (ja) * 2000-05-26 2002-01-31 Internatl Business Mach Corp <Ibm> ボイス・メール・メッセージを転記する方法およびシステム

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
CN109313892B (zh) 稳健的语言识别方法和系统
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
Lee et al. Automatic speech recognition for acoustical analysis and assessment of cantonese pathological voice and speech
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH05181494A (ja) 音声パターンの識別装置と方法
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
JP2004037721A (ja) 音声応答システム、音声応答プログラム及びそのための記憶媒体
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
KR20100068530A (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
US20040073425A1 (en) Arrangement for real-time automatic recognition of accented speech
JP2010197644A (ja) 音声認識システム
JP2003163951A (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP2000056794A (ja) 音声認識システム及び記録媒体
JPH1083195A (ja) 入力言語認識装置及び入力言語認識方法
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JP3378547B2 (ja) 音声認識方法及び装置
JPH06337700A (ja) 音声合成装置
Islam et al. Speaker Identification System Built on A Hybrid Model Through Different Feature Extraction Techniques-A Review
JPH0720889A (ja) 不特定話者の音声認識装置および方法
JP2005017620A (ja) 言語特定方法、言語特定用プログラム及び言語特定方法を用いた機械翻訳システム
JP2020085942A (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051101