JP3302923B2

JP3302923B2 - 音声入力装置

Info

Publication number: JP3302923B2
Application number: JP10067898A
Authority: JP
Inventors: 優高野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-03-27
Filing date: 1998-03-27
Publication date: 2002-07-15
Anticipated expiration: 2018-03-27
Also published as: JPH11282485A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声入力装置に関
し、特に、複数の音声入力により単語認識を行う音声登
録認識装置に関する。

【０００２】

【従来の技術】複数の音声入力により単語認識を行う音
声登録認識装置として、例えば文献１（鹿野清宏、「音
声認識の基礎」、平成8年５月１７日、p.32〜34、39〜4
3）等の記載が参照される。

【０００３】音声入力装置による単語入力はまだ１００
％とはいえず、入力装置に音声認識の信頼性を上げる手
段が必要とされる。

【０００４】

【発明が解決しようとする課題】ところで、人間の音声
は、同一人の同一単語の発声であっても、発声の度に環
境や話者の状態によって大きく異なる場合が考えられ
る。特に、一回だけの発声内容を認識しようとする際に
は、その一回の発声の乱れ等が音声波形に大きく影響を
与え、誤認識が生じ易い。

【０００５】このため、音声入力装置を使用するさまざ
まな局面には、高い認識性能をもつとして、音声入力回
数を多く設定することが可能な局面が存在する。

【０００６】したがって本発明の目的は、そのような場
面において、複数の入力音声を利用して認識率の高い音
声認識を実現する音声入力装置を提供することにある。

【０００７】

【課題を解決するための手段】前記目的を達成するた
め、本発明は、二回以上の発声の情報を総合することに
より、一回だけの発声で起こりやすい、その発声特有の
「ゆれ」の影響を低減し、確度の高い音声入力を実現す
るようにしたものである。また、本発明は、発声様式の
異なる入力を採用することで、個々の発声様式に依存し
て発生する音声波形の「ゆれ」を解消する。

【０００８】より詳細には、本発明は、複数回の入力音
声のそれぞれ一定時間ごとの特徴量を計算する音声分析
手段と、入力として想定されるすべての単語の音声パタ
ン(「単語モデル」という）を保持する辞書部と、前記
特徴量と前記辞書部中の単語モデルとのパタンマッチン
グを行い、前記入力音声の前記単語モデルそれぞれに対
する尤度(「粗尤度」という）を算出して出力するマッ
チング手段と、前記各単語モデルの、前記入力音声すべ
てとの間の前記粗尤度を保持する粗尤度格納部と、前記
単語を、対応する前記単語モデルの前記入力音声との間
の前記粗尤度の加重平均の大きいものから、予め定めた
一定の個数だけ出力する出力手段と、を備え、前記辞書
部が、前記入力として想定されるすべての単語に対し、
当該単語中に出現する音節すべての音声パタン（「音節
モデル」という）を保持し、前記マッチング手段が、前
記入力音声が単語発声である場合に限り、前記特徴量と
前記辞書部中の前記単語モデルとのパタンマッチングを
行い、前記入力音声の各前記単語モデルに対する尤度を
前記粗尤度として出力し、前記入力音声が音節発声であ
る場合に限り、前記特徴量と前記辞書部中の前記音節モ
デルとのパタンマッチングを行い、前記入力音声中の各
音節の前記音節モデルに対する尤度に基づき算出した、
各単語の尤度を、前記粗尤度として出力する。

【０００９】

【発明の実施の形態】本発明の実施の形態について説明
する。通常、音声認識では、パタンマッチングにより入
力音声と既存の単語モデルの間の尤度を計算し、予め想
定した単語モデルの集合の中で最も尤度の高いものを認
識結果とする。ところが、発声の乱れにより、実際に発
声した単語に対応する単語モデルの尤度が低く算出され
ることは良くあることである。

【００１０】本発明では、複数回の発声の尤度の平均
値、あるいは最大値を尤度として用いることにより、そ
のような偶然要因により個別の発声の尤度低下の影響を
低減する。

【００１１】また、発声の様式に起因する尤度低下も考
えられる。特定の音節の組みの連接時に現れる「なま
け」等の音響的変化である。本発明では、そのような発
声様式に起因する尤度低下の影響を低減するため、複数
の発声様式による発声の尤度から、前記のような平均値
あるいは最大値を求め、尤度とする方法を用いる。

【００１２】本発明における音声入力装置は、その好ま
しい実施の形態において、複数の音声を入力とし各入力
音声のフレームごとの音響的特徴量を計算し出力する音
声分析手段（図１の１０１）と、単語モデルを保持する
辞書部（図１の１０２）と、音声分析手段から出力され
る各入力音声のの特徴量を入力とし入力音声の、各単語
モデルに対する尤度を求め粗尤度として出力するマッチ
ング手段（図１の１０３）と、前記入力音声と前記単語
モデルのあらゆる組み合わせの前記粗尤度を保持してい
る粗尤度格納部（図１の１０４）と、各単語モデルにつ
いて、その各入力音声に対する粗尤度の平均値を計算
し、その値の大きい順に単語モデルを順序付け、その順
序に従って一定数の単語モデルを出力する出力手段（図
１１の１０５）と、を備えている。

【００１３】本発明の実施の形態の動作について説明す
る。

【００１４】音声分析手段は、入力音声の一定時間（フ
レーム）ごとに、その区間の音声の周波数分析を行い、
特徴量を算出し、出力する。特徴量としては、音声のパ
ワー、パワー変化量、ケプストラム、ケプストラム変化
量等を使用する。

【００１５】辞書部は、認識対象の、すなわち予め想定
した単語すべての単語モデルを保持している。

【００１６】マッチング手段は、入力となる特徴量と、
辞書中の全単語モデルのパタンマッチングを行い、入力
音声の各単語モデルに対する粗尤度を計算し、出力す
る。

【００１７】粗尤度格納部は、各入力音声についてマッ
チング部が出力した各単語モデルの尤度を記憶してお
く。

【００１８】出力手段は、粗尤度格納部に格納されてい
る粗尤度を、単語モデルごとに合計し、平均値を求め
る。その後、その平均値の大きい単語モデルから順に一
定数だけ、当該単語モデルの表す単語を出力する。マッ
チング手段及び出力手段は、音声入力装置を構成するプ
ロセッサ等で実行されるプログラム制御によって実現す
るようにしてもよい。

【００１９】

【実施例】次に、上記した本発明の実施の形態について
さらに詳細に説明すべく、本発明の実施例について図面
を参照して以下に説明する。

【００２０】本発明の第１の実施例について説明する。
図１は、本発明の第１の実施例の構成を示す図である。
図１を参照すると、本発明の第１の実施例は、各入力音
声のフレームごとの音響的特徴量を計算し出力する音声
分析部１０１と、単語モデルを保持する辞書部１０２
と、音声分析部から出力される各入力音声のの特徴量を
入力とし入力音声の、各単語モデルに対する尤度を求め
粗尤度として出力するマッチング部１０３と、前記入力
音声と前記単語モデルのあらゆる組み合わせの前記粗尤
度を保持している粗尤度格納部１０４と、各単語モデル
につき、その各入力音声に対する粗尤度の平均値を計算
し、その値の大きい順に単語モデルを順序付け、その順
序に従って一定数の単語モデルを出力する出力部１０５
と、を備えて構成されている。

【００２１】図２は、本発明の第１の実施例の動作を示
すフローチャートである。図１及び図２を参照して、本
発明の第１の実施例の動作について説明する。

【００２２】辞書部１０２は、単語モデルとして、「さ
とう」、「かとう」、「ごとう」の３つを保持している
ものとする。また、出力部１０５が出力する単語の数
は、２とする。また、入力音声として、「さとう」とい
う発声が３回なされたものとする。

【００２３】まず、ステップ１において、音声分析部１
０１は「さとう」発声の第１回目から、その各フレーム
の特徴量を算出し、出力する。

【００２４】次にステップ２において、マッチング部１
０３は、辞書部１０２に格納されている各単語モデルに
つき、各フレームの特徴量のパタンマッチングを、上記
文献１にも記載されているように、Viterbi（ビタビ）
法を用いて行い、第１回目の「さとう」入力音声に対す
る各単語モデルの粗尤度を求める。

【００２５】次にステップ３において、マッチング部１
０３は、第１回目の「さとう」入力音声に対する各単語
モデルの粗尤度を、粗尤度格納部１０４に格納する。

【００２６】以後、「さとう」第２回目及び第３回目の
入力音声に対しても、ステップ１からステップ３を繰り
返すことにより、図３に示すように、粗尤度格納部１０
４の格納すべき粗尤度を求める。

【００２７】すべての入力音声と単語モデルの組み合わ
せにつき、粗尤度が格納されてから、ステップ４におい
て、出力部１０５は、図４に示すように、各単語モデル
の全発声に対する粗尤度の平均値を求める。

【００２８】しかる後、ステップ５において、出力部１
０５は前記粗尤度の平均値が大きい２単語「さとう」、
「かとう」を出力する。

【００２９】本発明の一実施例によれば、一回の発声だ
けによるパタンマッチングでは安定した尤度が得られな
いという弱点を補うものである。

【００３０】本発明の他の実施例について説明する。前
述したような、偶然要因による尤度の低下の影響を防止
するためならば、複数の発声中から、最も尤度の高い発
声だけを選んで認識すればよい。本発明の第２の実施例
は、図１に示した前記第１の実施例における出力部１０
５における平均値を、最大値で置き換えて構成したもの
である。このようにしても、偶然要因による尤度の低下
の影響を防ぐことができる。

【００３１】次に本発明の第３の実施例について説明す
る。尤度の低下は、偶然要因のみによってではなく、発
声様式の違いによっても起こりうる。発声様式の影響を
低減するために、複数の発声様式を用いる方法が考えら
れる。本発明の第３の実施例は、図１に示した前述の実
施例におけるマッチング部１０３の動作を変更したもの
である。

【００３２】本発明の第３の実施例において、マッチン
グ部１０５は、入力音声の様式に応じて、マッチング処
理を変更する。入力音声が「さとう」というような単語
発声の場合は、前記した第一の実施例に挙げた動作を行
うが、「さ、…、と、…、う」というような音節発声の
場合は、入力の各音節に対し、音節認識を行い、各音節
の尤度を平均することで、粗尤度を求める。

【００３３】本発明の第４の実施例は、図１に示した前
述の実施例における辞書部１０２の内容に、それぞれの
単語に含まれる音節すべてにつき、音節モデルを加える
ことによって得られる。例えば、単語モデル「さとう」
に対して、音節モデル「さ」、「と」及び「う」を加え
るという変更を行うものである。

【００３４】本発明の第４の実施例の動作について説明
する。本発明の第４の実施例の動作について、前記第１
の実施例と同様、図２に示すフローチャートに従い説明
する。

【００３５】辞書部１０２は、単語モデル「さとう」、
「かとう」、「ごとう」に加えて、各単語モデルに登場
する音節モデル「さ」、「と」、「う」、「か」、
「ご」の５個を保持する。

【００３６】また、出力部１０５が出力する単語の数
は、前記第１の実施例と同様、２とする。また、入力音
声として、「さとう」という単語発声が一回、「さ、
…、と、…、う」という音節発声が一回、それぞれなさ
れたものとする。

【００３７】単語発声に対するステップ１からステップ
３までの動作は、前記第１の実施例と同一である。

【００３８】音節発声においてもステップ１及びステッ
プ３は同一動作であるが、ステップ２が異なる。音節発
声に対するステップ２において、マッチング部１０３
は、辞書部１０２に格納されている単語モデルの第一音
節に相当する、「さ」、「か」、「ご」各音節モデル
と、入力の第一音節とのマッチングを、同様に文献１に
記載されるViterbi（ビタビ）法を用いて行い、各音節
モデルに対する入力の第一音節の尤度を求める。

【００３９】第二音節は、各単語の第二音節である
「と」の音節モデルと、入力の第二音節とのマッチング
を同様に行う。

【００４０】第三音節についても同様にしてマッチング
を行う。その後、マッチング部１０３は、各単語の粗尤
度として、入力の各音節の、各単語の対応する音節モデ
ルとの尤度の平均値を算出し、出力する。

【００４１】以後、ステップ４も同様に行い、粗尤度の
平均値が大きい方から２単語を出力する。

【００４２】この実施例を用いると、例に挙げたよう
に、単語発声及び音節発声の二つの発声様式からの情報
を得ることができる。これにより、発声様式に起因する
誤り、たとえば、単語内の音節間における「なまけ」、
音節の語頭における発声の乱れ、等の影響を低減するこ
とができる。

【００４３】また、これらの手段を用いても防げない誤
認識は、人力で訂正することも考えられる。本発明の第
５の実施例は、前記した実施例に、人力による訂正手段
を与える。

【００４４】図５を参照すると、本発明の第５の実施例
は、各入力音声のフレームごとの音響的特徴量を計算し
出力する音声分析部１０１と、単語モデルを保持する辞
書部１０２と、音声分析部から出力される各入力音声の
の特徴量を入力とし入力音声の、各単語モデルに対する
尤度を求め粗尤度として出力するマッチング部１０３
と、前記入力音声と前記単語モデルのあらゆる組み合わ
せの前記粗尤度を保持している粗尤度格納部１０４と、
各単語モデルにつき、その各入力音声に対する粗尤度の
平均値を計算し、その値の大きい順に単語モデルを順序
付け、その順序に従って一定数の単語モデルを出力する
出力部１０５と、人力による前記一定数の選択肢からの
選択を入力する入力手段１０６と、出力部１０５からの
出力及び入力手段１０６からの出力から、最終出力とな
る単語モデルを求め、出力する最終選択部１０７と、を
備えて構成されている。

【００４５】図６は、本発明の第５の実施例の動作を示
すフローチャートである。次に、図５及び図６を参照し
て、本発明の第５の実施例の動作について説明する。

【００４６】辞書部１０２、音声分析部１０１、マッチ
ング部１０３、粗尤度格納部１０４、出力部１０５の動
作は前述実施例と同一である。ただし、出力部１０５の
出力は、最終選択部１０７に対しても行われる。入力手
段１０６は、１から３までの数字を入力できる入力装置
であるとする。これはキーボードやスイッチ装置のよう
なものでも、別の音声入力装置でもよい。また、入力手
段１０６を操作する人間は、必ずしも入力音声を発声し
た人物と同一でなくともよい。入力手段１０６は、入力
された数字を最終選択部１０７に出力する。

【００４７】最終選択部１０７は、出力部１０５からの
出力とその順番を保持しておき、入力手段１０６の出力
である数字を順番とする単語モデルを出力する。また、
入力手段１０６に与えられた入力は数字の１であるとす
る。

【００４８】まず、ステップ１からステップ５までの動
作を、前述実施例と同一に行う。

【００４９】ステップ６において、入力手段１０６は与
えられた入力である数字の１を、最終選択部１０７に出
力する。

【００５０】ステップ７において、最終選択部１０７
は、数字の１に対応する１番目の出力「さとう」のみ
を、最終出力として出力する。

【００５１】この実施例では、最終選択により入力の確
実性が高まる。最終選択そのものは通常の一回入力の音
声認識にも使用されるが、この実施例では、上位前記一
定数までの単語モデル中に正解が含まれる確率が非常に
高いため、最終選択による確定の確率も高く、正解の含
まれない複数候補から選択を行わなければならない、等
の苦痛を使用者に与える確率は通常の一回入力使用時よ
り著しく低い。

【００５２】

【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。

【００５３】本発明の第１の効果は、一回の発声だけに
よるパタンマッチングでは安定した尤度が得られないと
いう問題点を解消し、偶然要因による尤度の低下の影響
を防ぐことができる、ということである。

【００５４】その理由は、本発明においては、複数回の
発声の尤度の平均値、あるいは最大値を尤度として用い
ることにより、そのような偶然要因により個別の発声の
尤度低下の影響を低減するようにしたことによる。

【００５５】また、本発明の第２の効果は、発声様式に
起因する誤り、たとえば、単語内の音節間における「な
まけ」、音節の語頭における発声の乱れ等の影響を低減
することができる、ということである。

【００５６】その理由は、本発明においては、そのよう
な発声様式に起因する尤度低下の影響を低減するため、
複数の発声様式による発声の尤度から、前記のような平
均値あるいは最大値を求め、尤度とするようにしたため
である。

【００５７】このように、本発明によれば、偶然要因あ
るいは発声様式に起因する誤りに対し頑健な音声入力装
置を実現することができる。

【図面の簡単な説明】

【図１】本発明の一実施例の構成を示すブロック図であ
る。

【図２】本発明の一実施例の動作を示すフローチャート
である。

【図３】本発明の一実施例における各単語モデルの、各
入力音声との間の粗尤度の一覧を表形式で示す図であ
る。

【図４】本発明の一実施例における各単語モデルの、各
入力音声との間の粗尤度及び粗尤度の平均の一覧を表形
式で示す図である。

【図５】本発明の他の実施例の構成を示すブロック図で
ある。

【図６】本発明の他の実施例の動作を示すフローチャー
トである。

【符号の説明】

１０１音声分析部１０２辞書部１０３マッチッング部１０４尤度格納部１０５出力部１０６入力手段１０７最終選択部

フロントページの続き (56)参考文献特開昭61−94097（ＪＰ，Ａ) 特開平10−340096（ＪＰ，Ａ) 特開平４−77796（ＪＰ，Ａ) 特公昭47−21921（ＪＰ，Ｂ１) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．96，Ｎｏ．449，ＳＰ96− 104，「複数サンプルを用いた未知語認識」ｐ．65−70（1997年１月17日発行) 日本音響学会平成９年度春季研究発表会講演論文集▲Ｉ▼ １−６−４「複数サンプルを用いた未知語の音韻系列の推定」ｐ．７−８（平成９年３月17日発行) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数回の入力音声のそれぞれ一定時間ごと
の特徴量を計算する音声分析手段と、入力として想定されるすべての単語の音声パタン(「単
語モデル」という）を保持する辞書部と、前記特徴量と前記辞書部中の単語モデルとのパタンマッ
チングを行い、前記入力音声の前記単語モデルそれぞれ
に対する尤度(「粗尤度」という）を算出して出力する
マッチング手段と、前記各単語モデルの、前記入力音声すべてとの間の前記
粗尤度を保持する粗尤度格納部と、前記単語を、対応する前記単語モデルの前記入力音声と
の間の前記粗尤度の加重平均の大きいものから、予め定
めた一定の個数だけ出力する出力手段と、を備えた音声入力装置であって、前記辞書部が、前記入力として想定されるすべての単語
に対し、当該単語中に出現する音節すべての音声パタン
（「音節モデル」という）を保持し、前記マッチング手段が、前記入力音声が単語発声である
場合に限り、前記特徴量と前記辞書部中の前記単語モデ
ルとのパタンマッチングを行い、前記入力音声の各前記
単語モデルに対する尤度を前記粗尤度として出力し、前記入力音声が音節発声である場合に限り、前記特徴量
と前記辞書部中の前記音節モデルとのパタンマッチング
を行い、前記入力音声中の各音節の前記音節モデルに対
する尤度に基づき算出した、各単語の尤度を、前記粗尤
度として出力する、ことを特徴とする音声入力装置。
【請求項２】複数回の入力音声のそれぞれ一定時間ごと
の特徴量を計算する音声分析手段と、入力として想定されるすべての単語の音声パタン(「単
語モデル」という）を保持する辞書部と、前記特徴量と前記辞書部中の前記単語モデルとのパタン
マッチングを行い、前記入力音声の各前記単語モデルに
対する尤度(「粗尤度」という）を算出して出力するマ
ッチング手段と、前記各単語モデルの、全前記入力音声との間の前記粗尤
度を保持する粗尤度格納部と、前記単語を、対応する前記単語モデルの前記入力音声と
の間の前記粗尤度の最大値に順序付け、当該順序に従っ
て予め定めた一定の個数だけ出力する出力手段と、を備えた音声入力装置であって、前記辞書部が、前記入力として想定されるすべての単語
に対し、当該単語中に出現する音節すべての音声パタン
（「音節モデル」という）を保持し、前記マッチング手段が、前記入力音声が単語発声である
場合に限り、前記特徴量と前記辞書部中の前記単語モデ
ルとのパタンマッチングを行い、前記入力音声の各前記
単語モデルに対する尤度を前記粗尤度として出力し、前記入力音声が音節発声である場合に限り、前記特徴量
と前記辞書部中の前記音節モデルとのパタンマッチング
を行い、前記入力音声中の各音節の前記音節モデルに対
する尤度に基づき算出した、各単語の尤度を、前記粗尤
度として出力する、ことを特徴とする音声入力装置。
【請求項３】前記マッチング手段が前記音節発声である
入力音声に対して出力する前記粗尤度は当該入力音声中
の各音節の、それぞれ対応する音節モデルに対する尤度
の平均値であることを特徴とする、請求項１又は２記載
の音声入力装置。
【請求項４】前記出力手段が出力する単語の個数は１で
あることを特徴とする、請求項１から３のいずれか一に
記載の音声入力装置。
【請求項５】前記予め定めた一定の個数の単語モデルの
中からユーザが正解を選択し入力するための入力手段
と、前記入力手段からの入力及び前記出力部からの出力から
最適な前記単語モデルを１個選び、出力する最終選択手
段と、をさらに備えることを特徴とする、請求項１乃至４のい
ずれか一に記載の音声入力装置。