JP3526549B2

JP3526549B2 - 音声認識装置、方法及び記録媒体

Info

Publication number: JP3526549B2
Application number: JP2000389365A
Authority: JP
Inventors: 英司喜多; 広樹谷岡
Original assignee: 株式会社ジャストシステム
Priority date: 2000-12-21
Filing date: 2000-12-21
Publication date: 2004-05-17
Anticipated expiration: 2020-12-21
Also published as: JP2002189496A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数の環境におけ
る対話を音声認識する音声認識装置、方法、及びその音
声認識のためのプログラムを記録した記録媒体に関す
る。

【０００２】

【従来の技術】パーソナルコンピュータの低価格化に伴
い、近年、コンピュータ人口が急速に増加している。つ
まり、何の専門知識も持たない者もコンピュータを使用
するようになってきており、誰にでも簡単に使えるマン
−マシンインタフェースに対する需要が高くなってきて
いる。そして、このようなマン−マシンインタフェース
として、旧来からのキーボードによる文字入力に代え
て、音声認識による文字入力を行えるようにした音声認
識システムが実用化されている。

【０００３】音声認識による文字入力を行うためには、
予め音響モデル辞書や言語モデル辞書を用意しておく必
要がある。そして、マイクロフォンから入力された音声
データを、音響モデル辞書や言語モデル辞書を参照する
ことによって、文字データに変換するものとしている。
ここで、音声データの文字データへの変換精度は、同一
の者が継続して使用することによって、高くなっていく
のが普通である。また、話者の声質、方言、しゃべり方
の癖などによっても、変換精度にばらつきがあるのが普
通である。

【０００４】

【発明が解決しようとする課題】従って、同一の音声認
識システムを用いて複数の話者による対話を音声認識し
て文字データに変換しようとした場合に、話者によって
は十分な精度で音声認識した文字データが得られない場
合がある。また、話者毎に異なる音声認識システムを用
いた場合であっても、音声認識システムによっては十分
な精度で音声認識した文字データが得られない場合もあ
る。

【０００５】さらに、同一程度の品質を有する音声デー
タが認識されれば、話者によらずに同等の音声認識がで
きるシステムであっても、各話者が使用するマイクロフ
ォンの性能の違いにより、或いは各話者の周囲の雑音の
違いによって、話者によっては十分な精度で音声認識し
た文字データが得られない場合もある。いずれにしても
従来の音声認識システムでは、話者の違いその他の環境
条件の違いによって、十分な精度の音声認識ができなく
なるという問題があった。

【０００６】本発明は、複数の環境における対話を精度
よく音声認識して、文字データに変換することができる
音声認識装置、方法及び音声認識のためのプログラムを
記録した記録媒体を提供することを目的とする。

【０００７】

【課題を解決するための手段】上記目的を達成するた
め、本発明の第１の観点にかかる音声認識装置は、複数
の環境における対話を音声データとして入力する音声入
力手段と、前記音声入力手段から入力された対話の音声
データを環境毎に音声認識して、それぞれ文字データに
変換する音声認識手段と、前記音声認識手段による音声
認識結果で変換された対話の文字データを記憶する対話
データ記憶手段と、前記対話データ記憶手段に記憶され
た対話の文字データを分析し、該分析結果に基づいて前
記対話の文字データに補足および／または訂正を加える
対話分析手段と、前記対話分析手段によって補足および
／または訂正が加えられた対話の文字データを出力する
文字出力手段と、を備え、前記対話分析手段は、前記対
話データ記憶手段に記憶された文字データに音声認識が
良好に行えなかったものがある場合に、該文字データと
は環境の異なる文字データに従って音声認識が良好に行
えなかった文字データの候補となる単語に重み付けをし
た後、該文字データに対応する音声データを再び音声認
識することを特徴とする。

【０００８】上記音声認識手段では、音声認識手段によ
って対話中において十分な精度で音声認識できず、適切
に変換されなかった文字データがあったとしても、対話
分析手段によって当該文字データに補足および／または
訂正を加えることができる。このため、単に音声認識手
段のみで音声認識を行った場合に比べて、より正確な文
字データが得られるようになるので、音声認識の精度が
高いものとなる。また、音響モデルを修正して用いて、
複数の環境における対話を精度よく音声認識することが
できる。

【０００９】上記目的を達成するため、本発明の第２の
観点にかかる音声認識装置は、複数の環境における対話
を音声データとして入力する音声入力手段と、前記音声
入力手段から入力された対話の音声データを環境毎に音
声認識して、それぞれ文字データに変換する音声認識手
段と、前記音声認識手段による音声認識結果で変換され
た対話の文字データを記憶する対話データ記憶手段と、
前記対話データ記憶手段に記憶された対話の文字データ
を分析し、該分析結果に基づいて前記対話の文字データ
に補足および／または訂正を加える対話分析手段と、前
記対話分析手段によって補足および／または訂正が加え
られた対話の文字データを出力する文字出力手段と、を
備え、前記対話分析手段は、前記対話データ記憶手段に
記憶された文字データに音声認識が良好に行えなかった
ものがある場合に、該文字データとは環境の異なる文字
データの対話内容に基づいて類推される単語の文字デー
タで、音声認識が良好に行えなかった文字データを置換
することを特徴とする。上記音声認識手段では、音声認
識手段によって対話中において十分な精度で音声認識で
きず、適切に変換されなかった文字データがあったとし
ても、対話分析手段によって当該文字データに補足およ
び／または訂正を加えることができる。このため、単に
音声認識手段のみで音声認識を行った場合に比べて、よ
り正確な文字データが得られるようになるので、音声認
識の精度が高いものとなる。また、対話モデルの適用に
より、複数の環境における対話を精度よく音声認識する
ことができる。

【００１０】前記対話分析手段は、また、前記対話デー
タ記憶手段に記憶された文字データに音声認識が良好に
行えなかったものがある場合に、該文字データとは環境
の異なる文字データと関連する単語の文字データで、音
声認識が良好に行えなかった文字データを補完するもの
とすることもできる。すなわち、複数の環境の発話内容
相互に言語モデルを適用することで、複数の環境におけ
る対話を精度よく音声認識することができる。

【００１１】なお、前記対話分析手段は、上記したよう
な単語への重み付けによる音声認識のやり直し、文字デ
ータの補完、及び文字データの置換についての２以上を
組み合わせて、文字データの補足および／または訂正を
行うものとしてもよい。このような組み合わせにより、
より高い精度での音声認識が可能となる。

【００１２】上記音声認識装置において、前記複数の環
境は、それぞれ対話の話者が異なるものであってもよ
い。その他にも、音声入力手段が異なるものであっても
よいし、音声入力手段と音声認識手段とが異なるもので
あってもよい。

【００１３】上記目的を達成するため、本発明の第３の
観点にかかる音声認識方法は、複数の環境における対話
を音声データとして入力する音声入力ステップと、前記
音声入力ステップで入力された対話の音声データを環境
毎に音声認識して、それぞれ文字データに変換する音声
認識ステップと、前記音声認識ステップにおける音声認
識結果で変換された対話の文字データを一時的に記憶す
る対話データ記憶ステップと、前記対話データ記憶ステ
ップで記憶された対話の文字データを分析し、該分析結
果に基づいて前記対話の文字データに補足および／また
は訂正を加える対話分析ステップと、前記対話分析ステ
ップで補足および／または訂正が加えられた対話の文字
データを出力する文字出力ステップと、を含み、前記対
話分析ステップでは、前記対話データ記憶ステップで記
憶された文字データに音声認識が良好に行えなかったも
のがある場合に、該文字データとは環境の異なる文字デ
ータに従って音声認識が良好に行えなかった文字データ
の候補となる単語に重み付けをした後、該文字データに
対応する音声データを再び音声認識することを特徴とす
る。

【００１４】上記目的を達成するため、本発明の４の観
点にかかるコンピュータ読み取り可能な記録媒体は、複
数の環境における対話を音声データとして入力する音声
入力ステップと、前記音声入力ステップで入力された対
話の音声データを環境毎に音声認識して、それぞれ文字
データに変換する音声認識ステップと、前記音声認識ス
テップにおける音声認識結果で変換された対話の文字デ
ータを一時的に記憶する対話データ記憶ステップと、前
記対話データ記憶ステップで記憶された対話の文字デー
タを分析し、該分析結果に基づいて前記対話の文字デー
タに補足および／または訂正を加える対話分析ステップ
と、前記対話分析ステップで補足および／または訂正が
加えられた対話の文字データを出力する文字出力ステッ
プとをコンピュータ装置に実行させるためのプログラム
を記録したことを特徴とする記録媒体であって、前記対
話分析ステップでは、前記対話データ記憶ステップで記
憶された文字データに音声認識が良好に行えなかったも
のがある場合に、該文字データとは環境の異なる文字デ
ータに従って音声認識が良好に行えなかった文字データ
の候補となる単語に重み付けをした後、該文字データに
対応する音声データを再び音声認識することを特徴とす
る。

【００１５】上記目的を達成するため、本発明の第５の
観点にかかる音声認識方法は、複数の環境における対話
を音声データとして入力する音声入力ステップと、前記
音声入力ステップで入力された対話の音声データを環境
毎に音声認識して、それぞれ文字データに変換する音声
認識ステップと、前記音声認識ステップにおける音声認
識結果で変換された対話の文字データを一時的に記憶す
る対話データ記憶ステップと、前記対話データ記憶ステ
ップで記憶された対話の文字データを分析し、該分析結
果に基づいて前記対話の文字データに補足および／また
は訂正を加える対話分析ステップと、前記対話分析ステ
ップで補足および／または訂正が加えられた対話の文字
データを出力する文字出力ステップと、を含み、前記対
話分析ステップでは、前記対話データ記憶ステップで記
憶された文字データに音声認識が良好に行えなかったも
のがある場合に、該文字データとは環境の異なる文字デ
ータの対話内容に基づいて類推される単語の文字データ
で、音声認識が良好に行えなかった文字データを置換す
ることを特徴とする。

【００１６】上記目的を達成するため、本発明の６の観
点にかかるコンピュータ読み取り可能な記録媒体は、複
数の環境における対話を音声データとして入力する音声
入力ステップと、前記音声入力ステップで入力された対
話の音声データを環境毎に音声認識して、それぞれ文字
データに変換する音声認識ステップと、前記音声認識ス
テップにおける音声認識結果で変換された対話の文字デ
ータを一時的に記憶する対話データ記憶ステップと、前
記対話データ記憶ステップで記憶された対話の文字デー
タを分析し、該分析結果に基づいて前記対話の文字デー
タに補足および／または訂正を加える対話分析ステップ
と、前記対話分析ステップで補足および／または訂正が
加えられた対話の文字データを出力する文字出力ステッ
プとをコンピュータ装置に実行させるためのプログラム
を記録したことを特徴とする記録媒体であって、前記対
話分析ステップでは、前記対話データ記憶ステップで記
憶された文字データに音声認識が良好に行えなかったも
のがある場合に、該文字データとは環境の異なる文字デ
ータの対話内容に基づいて類推される単語の文字データ
で、音声認識が良好に行えなかった文字データを置換す
ることを特徴とする。

【００１７】

【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。

【００１８】図１は、この実施の形態にかかる音声認識
装置の構成を示すブロック図である。この音声認識装置
は、例えば会議の議事録作成のために用いられるもの
で、図示するように、話者毎に設けられた複数のマイク
ロフォン１ａ、１ｂ、・・・と、複数のインターフェー
ス２ａ、２ｂ、・・・と、音声認識部３と、一次記憶装
置４と、対話分析部５と、辞書部６と、二次記憶装置７
と、表示装置８とから構成されている。

【００１９】音声認識部３及び対話分析部５は、コンピ
ュータ装置のＣＰＵがメモリ中に格納されたプログラム
を実行することにより実現され、辞書部６は、メモリ中
の所定の領域にインストールされた辞書ファイルによっ
て実現される。なお、ここでいう“一次”記憶装置４と
“二次”記憶装置７とは、それぞれデータが記憶される
処理順が一番目、二番目となるメモリ中の所定の領域を
指すもので、主記憶装置と補助記憶装置といった意味で
はない。

【００２０】マイクロフォン１ａ、１ｂ、・・・は、対
話の話者毎に設けられ、各話者が発話した音声を入力す
る。インターフェース２ａ、２ｂ、・・・は、それぞれ
マイクロフォン１ａ、１ｂ、・・・から入力された音声
データを、音声認識が可能な形式の音声データに変換し
て、音声認識部３に入力する。

【００２１】音声認識部３は、辞書部６に含まれる音響
モデル辞書６１と言語モデル辞書６２とを参照して、イ
ンターフェース２ａ、２ｂ、・・・から入力されてきた
対話の音声データを話者毎に音声認識し、文字データに
変換する。音声認識部３は、文字データへの変換が行え
る程に十分な精度で音声認識できない部分がある場合に
は、その旨を示す所定の識別情報を、その部分に挿入す
る。

【００２２】一次記憶装置４は、音声認識部３で話者毎
に音声認識されて変換された文字データを、変換前の音
声データ及び中途で生成される品詞データと共に記憶す
る。図２は、一次記憶装置４に記憶されたデータの構造
を示す図である。図示するように、環境の違い（ここで
は、話者の違い）毎に分類されてデータが記憶され、各
環境におけるデータは、音声データと品詞データと文字
データとを含んでいる。

【００２３】対話分析部５は、一次記憶装置４に記憶さ
れた文字データに音声認識できない旨を示す識別情報が
ある場合、それ以外の話者の発話内容に対応する文字デ
ータに基づいて、音声認識できなかった文字データを補
足する。また、音声認識できている場合であっても、他
の話者の発話内容に対応する文字データと矛盾が生じる
場合には、他の話者の発話内容に対応する文字データに
基づいて、その矛盾が生じている文字データを訂正す
る。

【００２４】このような文字データの補足または訂正を
行うため、対話分析部５は、重み付け部５１、補完部５
２及び置換部５３を備えている。重み付け部５１は、他
の話者の発話内容に従って音響モデル辞書６１中の単語
に重み付けを行い、一次記憶装置４に記憶された音声デ
ータを用いて、再び音声認識による文字データへの変換
を試みる。補完部５２は、言語モデル辞書６２を参照
し、他の話者の発話内容とのつながりが得られるよう
に、文字データを補完する。置換部５３は、対話モデル
辞書６３を参照し、他の話者の発話内容と矛盾を生じる
部分、または音声認識できなかった部分を、他の話者の
発話内容に応じて置換する。

【００２５】辞書部６は、音響モデル辞書６１、言語モ
デル辞書６２及び対話モデル辞書６３を含んでいる。こ
こで、音響モデルとは、音声の構成単位（例えば音素）
と特徴ベクトルと呼ばれる音声認識に必要なスペクトル
情報との関係を、マルコフモデルなどの形式で確率的に
モデル化したものである。言語モデルとは、音素の並び
を規定し、入力発生の可能性を規定するものであり、文
法などのルールに基づいたモデルや、統計的データに基
づいた音素と音素とのつながり方の制限や単語と単語と
のつながり方の制限を用いたモデルがある。対話モデル
とは、複数の話者の対話における単語の並びを規定し、
入力発生の可能性を規定するものであり、対話の内容の
文法ルールに基づいたモデルや、統計的データに基づい
た単語と単語のつながり方の制限や文章と文章のつなが
り方の制限を用いたモデルがある。

【００２６】二次記憶装置７は、対話分析部５による対
話の分析で補足および／または訂正が加えられた文字デ
ータ（但し、重み付け、補完及び置換のいずれも行われ
ていない場合は、音声認識部３において音声認識された
文字データ）を、対話における発話順に記憶する。図３
は、二次記憶装置７に記憶されたデータの構造を示す図
である。この図では、シーンを単位として、対話の内容
に対応する文字データが記憶されている。

【００２７】表示装置８は、ＣＲＴ（Cathode Ray Tub
e）ディスプレイ、液晶ディスプレイなどによって構成
され、二次記憶装置７に記憶された文字データを表示す
る。

【００２８】以下、この実施の形態にかかる音声認識装
置における動作について説明する。ここでは、マイクロ
フォン１ａ、１ｂ、・・・、及びインターフェース２
ａ、２ｂ、・・・は、話者毎に別々に用意されているも
のとする。図４は、この実施の形態にかかる音声認識装
置の処理を示すフローチャートである。

【００２９】まず、対話に参加している各話者は、各々
に対して設けられたマイクロフォン１ａ、１ｂ、・・・
に向かって、発話内容に応じて発声する。各話者が発声
した音声は、それぞれマイクロフォン１ａ、１ｂ、・・
・で電気信号の音声データに変換され、さらにインター
フェース２ａ、２ｂ、・・・で音声認識に適した形式の
音声データに変換されて、音声認識部３に入力される
（ステップＳ１１）。

【００３０】次に、音声認識部３は、辞書部６中の音響
モデル辞書６１及び言語モデル辞書６２を参照すること
によって、インターフェース２ａ、２ｂ、・・・から入
力された音声データをそれぞれ音声認識して文字データ
に変換する（ステップＳ１２）。ここで、音声認識がで
きない不明瞭な部分があった場合には、その旨を示す識
別情報を文字データ中に挿入する。

【００３１】さらに、音声認識部３は、インターフェー
ス２ａ、２ｂ、・・・の別に、すなわち話者別に単語デ
ータを一次記憶装置４に記憶する。また、音声認識部３
は、インターフェース２ａ、２ｂ、・・・からそれぞれ
入力された音声データと、中間データである品詞データ
についても、話者別に一次記憶装置４に記憶する（ステ
ップＳ１３）。

【００３２】次に、対話分析部５は、一次記憶装置４に
記憶されている文字データとして記憶された対話を分析
し、文字データに補足および／または訂正を加える（ス
テップＳ１４）。この文字データの補足および／または
訂正は、例えば、文字データ中に音声認識ができなかっ
た部分があった場合に、次のような処理を実行すること
により行うものである。

【００３３】重み付け部５１は、音声認識ができなかっ
た部分以外の話者による文字データに従って対話モデル
辞書６３を参照し、音声認識ができなかった部分の単語
が、どのような品詞、意味の単語であるかを推定する。
重み付け部５１は、音響モデル辞書６１中の推定した単
語に重み付けをした上で、一次記憶装置４に記憶された
対応箇所の音声データを音声認識する。そして、重み付
け部５１での音声認識で得られた文字データで、音声認
識部３では音声認識できなかった部分を置き換える。

【００３４】また、補完部５２は、言語モデル辞書６２
を参照し、音声認識ができなかった部分の話者による文
字データと、音声認識ができなかった部分以外の話者に
よる文字データとの間に、意味的または文法的なつなが
りを示す言葉（例えば、指示語）があるかどうかを調べ
る。このような言葉があれば、補完部５２は、意味的ま
たは文法的なつながりから、音声認識できなかった部分
の単語を推定し、その部分を推定した単語で補完する。

【００３５】また、置換部５３は、対話モデル辞書６３
を参照し、音声認識ができなかった部分以外の話者によ
る文字データから、音声認識ができなかった部分の文字
データが如何なる意味の言葉となるかを分析する。そし
て、置換部５３は、分析結果の意味を有する言葉のうち
から、音声認識結果として用いるべき単語に近い単語を
選び出し、選び出した単語で音声認識できなかった部分
を置換する。

【００３６】以上のようにして文字データの補足および
／または訂正が終了すると、対話分析部５は、補足およ
び／または訂正を行った文字データを、実際にされた対
話の順序に従って、二次記憶装置７に記憶する（ステッ
プＳ１５）。そして、表示装置８は、二次記憶装置７に
記憶された文字データを表示して（ステップＳ１６）、
このフローチャートの処理を終了する。

【００３７】以下、この実施の形態にかかる音声認識装
置における処理例を説明する。

【００３８】（例１）ここでは、音響モデルを用いる例
として、話者Ａの発話内容が「こんにちは。」と明瞭に
音声認識され、これに対する話者Ｂの発話内容が「こん
＊＊は。」（＊は、音声認識できない旨を示す制御情報
を表す。以下、同じ）と、明瞭に音声認識されなかった
場合を説明する。

【００３９】明瞭に音声認識された話者Ａの発話内容が
挨拶となっているので、対話モデル辞書６３を参照する
と、これに対する話者Ｂの発話内容も挨拶である可能性
が高いと判断される。そこで、重み付け部５１は、音響
モデル辞書６１中の挨拶を表す単語に重み付けを行った
上で、一次記憶装置４に記憶された音声データを用いて
再び音声認識を行う。この結果、最初に音声認識部３で
は明瞭に音声認識できなかった話者Ｂの発話内容が、
「こんにちは。」であるという音声認識結果を得ること
ができる。

【００４０】（例２）ここでは、言語モデルを用いた補
完の例として、話者Ａの発話内容が「ワープロソフトを
＊＊する方法。」と明瞭に音声認識されず、これに対す
る話者Ｂの発話内容が「それを起動する方法。」と明瞭
に音声認識された場合を説明する。

【００４１】明瞭に音声認識された話者Ｂの発話内容に
は、“それ”という指示語を含んでいる。補完部５２
は、言語モデル辞書６２を参照すると、“それ”という
指示語がその前に発話された内容に含まれる言葉を指す
ものであり、ここでは、話者Ａの発話内容中の“ワープ
ロソフト”を指すことが分かる。つまり、話者Ｂの発話
内容は、「“ワープロソフト”を起動する方法。」と同
義であることが分かり、“＊＊する”は、“起動する”
であると予測される。この結果、最初に音声認識部３で
は明瞭に音声認識されなかった話者Ａの発話内容が、
「ワープロソフトを“起動”する方法。」であると補完
することができる。

【００４２】（例３）ここでは、対話モデルを用いた置
換の例として、話者Ａの最初の発話内容「明日は晴れる
？」が明瞭に音声認識され、これに対する話者Ｂの発話
内容が「雲雲」（？）と明瞭に音声認識されず、さらに
これに対する話者Ａの発話内容が「じゃあ雨？」と明瞭
に音声認識された場合を説明する。

【００４３】明瞭に音声認識した話者Ａの発話内容は、
最初が“晴れる”という言葉を含んでおり、後が“雨”
という言葉を含んで最初とは逆のことを意味するものと
なっている。このため、置換部５３は、対話モデル辞書
６３を参照すると、話者Ｂの発話内容が否定の意味を表
す言葉であることが分かる。このため、最初に音声認識
部３では明瞭に音声認識されなかった話者Ｂの発話内容
を、「ううん。」に置換することができる。

【００４４】以上説明したように、この実施の形態にか
かる音声認識装置によれば、複数の話者の対話におい
て、特定の話者の発話内容が十分な精度で音声認識した
文字データが得られなくても、対話分析部５が、他の話
者の発話内容に基づいて文字データを補足したり、訂正
したりすることができる。このため、従来の音声認識に
比べて、高い精度で音声認識結果である文字データを得
ることができる。

【００４５】本発明は、上記の実施の形態に限られず、
種々の変形、応用が可能である。以下、本発明に適用可
能な上記の実施の形態の変形態様について説明する。

【００４６】上記の実施の形態では、対話分析部５は、
重み付け部５１による音響モデルを用いた重み付け、補
完部５２による言語モデルを用いた補完、或いは置換部
５３による対話モデルを用いた置換のいずれかのみを行
っているが如く説明していた。しかしながら、対話分析
部５は、これら３つのうちの２つ以上を適切に組み合わ
せて、一次記憶装置４に記憶された文字データのうちで
十分な精度で音声認識されなかった部分を、補足および
／または訂正することができる。このような組み合わせ
の適用により、複数の話者による対話をさらに精度よく
音声認識することができるようになる。

【００４７】上記の実施の形態では、マイクロフォン１
ａ、１ｂ、・・・と、インターフェース２ａ、２ｂ、・
・・とは話者毎に設けられていたが、それぞれから入力
された音声データは、全て同じ音声認識部３にて音声認
識されるものとしていた。これに対して、図５に示すよ
うに、話者毎に、すなわちマイクロフォン１ａ、１ｂ、
・・・及びインタフェース２ａ、２ｂ、・・・のそれぞ
れに対応させて、音声認識部３ａ、３ｂ、・・・を設け
てもよい。この場合、図４のステップＳ１２の処理も、
話者毎に並行処理されるものとなる。

【００４８】また、３以上の話者による対話において、
２人以上の話者が同一のマイクロフォンから音声を入力
するものであってもよい。この場合、マイクロフォン毎
にその指向性等の影響により音声認識の精度にばらつき
が生じることがあり得るので、マイクロフォン毎に一次
記憶部４にデータを記憶させるものとしてもよい。

【００４９】上記の実施の形態では、図４のフローチャ
ートに示した処理は、図１（或いは図５）に示すように
構成された音声認識装置の各部で順次実行されるものと
して説明した。しかしながら、図４のフローチャートに
示す処理をコンピュータ装置に実行させるためのプログ
ラムを、ＣＤ−ＲＯＭ、ＤＶＤなどのコンピュータ読み
取り可能な記録媒体に格納して配布し、該コンピュータ
装置にインストールして上記の音声認識装置装置を構築
するものとしてもよい。また、このプログラムは、Ｗｅ
ｂサーバの固定ディスク装置に格納しておき、インター
ネットを介してダウンロードし、コンピュータ装置にイ
ンストールするものとしてもよい。

【００５０】

【発明の効果】以上説明したように、本発明によれば、
複数の話者による対話の音声認識の精度を高くすること
ができる。

【図面の簡単な説明】

【図１】本発明の実施の形態にかかる音声認識装置の構
成を示すブロック図である。

【図２】図１の一次記憶装置におけるデータ構造を示す
図である。

【図３】図１の二次記憶装置におけるデータ構造を示す
図である。

【図４】本発明の実施の形態にかかる音声認識装置にお
ける処理を示すフローチャートである。

【図５】図１の音声認識装置の変形例を示す図である。

【符号の説明】

１ａ、１ｂ、・・・マイクロフォン２ａ、２ｂ、・・・インターフェース３、３ａ、３ｂ、・・・音声認識部４一次記憶装置５対話分析部６辞書部７二次記憶装置８表示装置５１重み付け部５２補完部５３置換部６１音響モデル辞書６２言語モデル辞書６３対話モデル辞書

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平10−69292（ＪＰ，Ａ) 特開2000−221991（ＪＰ，Ａ) 特開2000−268042（ＪＰ，Ａ) 関口，重永，連続音声認識への連想情報の利用，電子情報通信学会論文誌Ｄ−ＩＩ，日本，1994年８月，Ｖｏｌ．Ｄ77−Ｄ−ＩＩ，Ｎｏ．８，ｐ. 1522−1530 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/18 G06F 17/21 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】複数の環境における対話を音声データとし
て入力する音声入力手段と、前記音声入力手段から入力された対話の音声データを環
境毎に音声認識して、それぞれ文字データに変換する音
声認識手段と、前記音声認識手段による音声認識結果で変換された対話
の文字データを記憶する対話データ記憶手段と、前記対話データ記憶手段に記憶された対話の文字データ
を分析し、該分析結果に基づいて前記対話の文字データ
に補足および／または訂正を加える対話分析手段と、前記対話分析手段によって補足および／または訂正が加
えられた対話の文字データを出力する文字出力手段と、
を備え、前記対話分析手段は、前記対話データ記憶手段に記憶さ
れた文字データに音声認識が良好に行えなかったものが
ある場合に、該文字データとは環境の異なる文字データ
に従って音声認識が良好に行えなかった文字データの候
補となる単語に重み付けをした後、該文字データに対応
する音声データを再び音声認識することを特徴とする音
声認識装置。
【請求項２】複数の環境における対話を音声データとし
て入力する音声入力手段と、前記音声入力手段から入力された対話の音声データを環
境毎に音声認識して、それぞれ文字データに変換する音
声認識手段と、前記音声認識手段による音声認識結果で変換された対話
の文字データを記憶する対話データ記憶手段と、前記対話データ記憶手段に記憶された対話の文字データ
を分析し、該分析結果に基づいて前記対話の文字データ
に補足および／または訂正を加える対話分析手段と、前記対話分析手段によって補足および／または訂正が加
えられた対話の文字データを出力する文字出力手段と、
を備え、前記対話分析手段は、前記対話データ記憶手段に記憶さ
れた文字データに音声認識が良好に行えなかったものが
ある場合に、該文字データとは環境の異なる文字データ
の対話内容に基づいて類推される単語の文字データで、
音声認識が良好に行えなかった文字データを置換するこ
とを特徴とする音声認識装置。
【請求項３】前記対話分析手段は、前記対話データ記憶
手段に記憶された文字データに音声認識が良好に行えな
かったものがある場合に、該文字データとは環境の異な
る文字データと関連する単語の文字データで、音声認識
が良好に行えなかった文字データを補完することを特徴
とする請求項１または２に記載の音声認識装置。
【請求項４】前記複数の環境は、それぞれ対話の話者が
異なるものであることを特徴とする請求項１、２又は３
に記載の音声認識装置。
【請求項５】複数の環境における対話を音声データとし
て入力する音声入力ステップと、前記音声入力ステップで入力された対話の音声データを
環境毎に音声認識して、それぞれ文字データに変換する
音声認識ステップと、前記音声認識ステップにおける音声認識結果で変換され
た対話の文字データを一時的に記憶する対話データ記憶
ステップと、前記対話データ記憶ステップで記憶された対話の文字デ
ータを分析し、該分析結果に基づいて前記対話の文字デ
ータに補足および／または訂正を加える対話分析ステッ
プと、前記対話分析ステップで補足および／または訂正が加え
られた対話の文字データを出力する文字出力ステップ
と、を含み、前記対話分析ステップでは、前記対話データ記憶ステッ
プで記憶された文字データに音声認識が良好に行えなか
ったものがある場合に、該文字データとは環境の異なる
文字データに従って音声認識が良好に行えなかった文字
データの候補となる単語に重み付けをした後、該文字デ
ータに対応する音声データを再び音声認識することを特
徴とする音声認識方法。
【請求項６】複数の環境における対話を音声データとし
て入力する音声入力ステップと、前記音声入力ステップで入力された対話の音声データを
環境毎に音声認識して、それぞれ文字データに変換する
音声認識ステップと、前記音声認識ステップにおける音声認識結果で変換され
た対話の文字データを一時的に記憶する対話データ記憶
ステップと、前記対話データ記憶ステップで記憶された対話の文字デ
ータを分析し、該分析結果に基づいて前記対話の文字デ
ータに補足および／または訂正を加える対話分析ステッ
プと、前記対話分析ステップで補足および／または訂正が加え
られた対話の文字データを出力する文字出力ステップとをコンピュータ装置に実行させるためのプログラムを記
録したことを特徴とするコンピュータ読み取り可能な記
録媒体であって、前記対話分析ステップでは、前記対話データ記憶ステッ
プで記憶された文字データに音声認識が良好に行えなか
ったものがある場合に、該文字データとは環境の異なる
文字データに従って音声認識が良好に行えなかった文字
データの候補となる単語に重み付けをした後、該文字デ
ータに対応する音声データを再び音声認識することを特
徴とする記録媒体。
【請求項７】複数の環境における対話を音声データとし
て入力する音声入力ステップと、前記音声入力ステップで入力された対話の音声データを
環境毎に音声認識して、それぞれ文字データに変換する
音声認識ステップと、前記音声認識ステップにおける音声認識結果で変換され
た対話の文字データを一時的に記憶する対話データ記憶
ステップと、前記対話データ記憶ステップで記憶された対話の文字デ
ータを分析し、該分析結果に基づいて前記対話の文字デ
ータに補足および／または訂正を加える対話分析ステッ
プと、前記対話分析ステップで補足および／または訂正が加え
られた対話の文字データを出力する文字出力ステップ
と、を含み、前記対話分析ステップでは、前記対話データ記憶ステッ
プで記憶された文字データに音声認識が良好に行えなか
ったものがある場合に、該文字データとは環境の異なる
文字データの対話内容に基づいて類推される単語の文字
データで、音声認識が良好に行えなかった文字データを
置換することを特徴とする音声認識方法。
【請求項８】複数の環境における対話を音声データとし
て入力する音声入力ステップと、前記音声入力ステップで入力された対話の音声データを
環境毎に音声認識して、それぞれ文字データに変換する
音声認識ステップと、前記音声認識ステップにおける音声認識結果で変換され
た対話の文字データを一時的に記憶する対話データ記憶
ステップと、前記対話データ記憶ステップで記憶された対話の文字デ
ータを分析し、該分析結果に基づいて前記対話の文字デ
ータに補足および／または訂正を加える対話分析ステッ
プと、前記対話分析ステップで補足および／または訂正が加え
られた対話の文字データを出力する文字出力ステップとをコンピュータ装置に実行させるためのプログラムを記
録したことを特徴とするコンピュータ読み取り可能な記
録媒体であって、前記対話分析ステップでは、前記対話データ記憶ステッ
プで記憶された文字データに音声認識が良好に行えなか
ったものがある場合に、該文字データとは環境の異なる
文字データの対話内容に基づいて類推される単語の文字
データで、音声認識が良好に行えなかった文字データを
置換することを特徴とする記録媒体。