JP3526549B2 - 音声認識装置、方法及び記録媒体 - Google Patents

音声認識装置、方法及び記録媒体

Info

Publication number
JP3526549B2
JP3526549B2 JP2000389365A JP2000389365A JP3526549B2 JP 3526549 B2 JP3526549 B2 JP 3526549B2 JP 2000389365 A JP2000389365 A JP 2000389365A JP 2000389365 A JP2000389365 A JP 2000389365A JP 3526549 B2 JP3526549 B2 JP 3526549B2
Authority
JP
Japan
Prior art keywords
dialogue
data
character data
voice
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000389365A
Other languages
English (en)
Other versions
JP2002189496A (ja
Inventor
英司 喜多
広樹 谷岡
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2000389365A priority Critical patent/JP3526549B2/ja
Publication of JP2002189496A publication Critical patent/JP2002189496A/ja
Application granted granted Critical
Publication of JP3526549B2 publication Critical patent/JP3526549B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の環境におけ
る対話を音声認識する音声認識装置、方法、及びその音
声認識のためのプログラムを記録した記録媒体に関す
る。
【0002】
【従来の技術】パーソナルコンピュータの低価格化に伴
い、近年、コンピュータ人口が急速に増加している。つ
まり、何の専門知識も持たない者もコンピュータを使用
するようになってきており、誰にでも簡単に使えるマン
−マシンインタフェースに対する需要が高くなってきて
いる。そして、このようなマン−マシンインタフェース
として、旧来からのキーボードによる文字入力に代え
て、音声認識による文字入力を行えるようにした音声認
識システムが実用化されている。
【0003】音声認識による文字入力を行うためには、
予め音響モデル辞書や言語モデル辞書を用意しておく必
要がある。そして、マイクロフォンから入力された音声
データを、音響モデル辞書や言語モデル辞書を参照する
ことによって、文字データに変換するものとしている。
ここで、音声データの文字データへの変換精度は、同一
の者が継続して使用することによって、高くなっていく
のが普通である。また、話者の声質、方言、しゃべり方
の癖などによっても、変換精度にばらつきがあるのが普
通である。
【0004】
【発明が解決しようとする課題】従って、同一の音声認
識システムを用いて複数の話者による対話を音声認識し
て文字データに変換しようとした場合に、話者によって
は十分な精度で音声認識した文字データが得られない場
合がある。また、話者毎に異なる音声認識システムを用
いた場合であっても、音声認識システムによっては十分
な精度で音声認識した文字データが得られない場合もあ
る。
【0005】さらに、同一程度の品質を有する音声デー
タが認識されれば、話者によらずに同等の音声認識がで
きるシステムであっても、各話者が使用するマイクロフ
ォンの性能の違いにより、或いは各話者の周囲の雑音の
違いによって、話者によっては十分な精度で音声認識し
た文字データが得られない場合もある。いずれにしても
従来の音声認識システムでは、話者の違いその他の環境
条件の違いによって、十分な精度の音声認識ができなく
なるという問題があった。
【0006】本発明は、複数の環境における対話を精度
よく音声認識して、文字データに変換することができる
音声認識装置、方法及び音声認識のためのプログラムを
記録した記録媒体を提供することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点にかかる音声認識装置は、複数
の環境における対話を音声データとして入力する音声入
力手段と、前記音声入力手段から入力された対話の音声
データを環境毎に音声認識して、それぞれ文字データに
変換する音声認識手段と、前記音声認識手段による音声
認識結果で変換された対話の文字データを記憶する対話
データ記憶手段と、前記対話データ記憶手段に記憶され
た対話の文字データを分析し、該分析結果に基づいて前
記対話の文字データに補足および/または訂正を加える
対話分析手段と、前記対話分析手段によって補足および
/または訂正が加えられた対話の文字データを出力する
文字出力手段と、を備え、 前記対話分析手段は、前記対
話データ記憶手段に記憶された文字データに音声認識が
良好に行えなかったものがある場合に、該文字データと
は環境の異なる文字データに従って音声認識が良好に行
えなかった文字データの候補となる単語に重み付けをし
た後、該文字データに対応する音声データを再び音声認
識することを特徴とする。
【0008】上記音声認識手段では、音声認識手段によ
って対話中において十分な精度で音声認識できず、適切
に変換されなかった文字データがあったとしても、対話
分析手段によって当該文字データに補足および/または
訂正を加えることができる。このため、単に音声認識手
段のみで音声認識を行った場合に比べて、より正確な文
字データが得られるようになるので、音声認識の精度が
高いものとなる。また、音響モデルを修正して用いて、
複数の環境における対話を精度よく音声認識することが
できる。
【0009】上記目的を達成するため、本発明の第2の
観点にかかる音声認識装置は、 複数の環境における対話
を音声データとして入力する音声入力手段と、 前記音声
入力手段から入力された対話の音声データを環境毎に音
声認識して、それぞれ文字データに変換する音声認識手
段と、 前記音声認識手段による音声認識結果で変換され
た対話の文字データを記憶する対話データ記憶手段と、
前記対話データ記憶手段に記憶された対話の文字データ
を分析し、該分析結果に基づいて前記対話の文字データ
に補足および/または訂正を加える対話分析手段と、
記対話分析手段によって補足および/または訂正が加え
られた対話の文字データを出力する文字出力手段と、を
備え、 前記対話分析手段は、前記対話データ記憶手段に
記憶された文字データに音声認識が良好に行えなかった
ものがある場合に、該文字データとは環境の異なる文字
データの対話内容に基づいて類推される単語の文字デー
タで、音声認識が良好に行えなかった文字データを置換
する ことを特徴とする。 上記音声認識手段では、音声認
識手段によって対話中において十分な精度で音声認識で
きず、適切に変換されなかった文字データがあったとし
ても、対話分析手段によって当該文字データに補足およ
び/または訂正を加えることができる。このため、単に
音声認識手段のみで音声認識を行った場合に比べて、よ
り正確な文字データが得られるようになるので、音声認
識の精度が高いものとなる。 また、対話モデルの適用に
より、複数の環境における対話を精度よく音声認識する
ことができる。
【0010】前記対話分析手段は、また、前記対話デー
タ記憶手段に記憶された文字データに音声認識が良好に
行えなかったものがある場合に、該文字データとは環境
の異なる文字データと関連する単語の文字データで、音
声認識が良好に行えなかった文字データを補完するもの
とすることもできる。すなわち、複数の環境の発話内容
相互に言語モデルを適用することで、複数の環境におけ
る対話を精度よく音声認識することができる。
【0011】なお、前記対話分析手段は、上記したよう
な単語への重み付けによる音声認識のやり直し、文字デ
ータの補完、及び文字データの置換についての2以上を
組み合わせて、文字データの補足および/または訂正を
行うものとしてもよい。このような組み合わせにより、
より高い精度での音声認識が可能となる。
【0012】上記音声認識装置において、 前記複数の環
境は、それぞれ対話の話者が異なるものであってもよ
い。その他にも、音声入力手段が異なるものであっても
よいし、音声入力手段と音声認識手段とが異なるもので
あってもよい。
【0013】上記目的を達成するため、本発明の第3の
観点にかかる音声認識方法は、 複数の環境における対話
を音声データとして入力する音声入力ステップと、 前記
音声入力ステップで入力された対話の音声データを環境
毎に音声認識して、それぞれ文字データに変換する音声
認識ステップと、 前記音声認識ステップにおける音声認
識結果で変換された対話の文字データを一時的に記憶す
る対話データ記憶ステップと、 前記対話データ記憶ステ
ップで記憶された対話の文字データを分析し、該分析結
果に基づいて前記対話の文字データに補足および/また
は訂正を加える対話分析ステップと、 前記対話分析ステ
ップで補足および/または訂正が加えられた対話の文字
データを出力する文字出力ステップと、を含み、 前記対
話分析ステップでは、前記対話データ記憶ステップで記
憶された文字データに音声認識が良好に行えなかったも
のがある場合に、該文字データとは環境の異なる文字デ
ータに従って音声認識が良好に行えなかった文字データ
の候補となる単語に重み付けをした後、該文字データに
対応する音声データを再び音声認識する ことを特徴とす
る。
【0014】上記目的を達成するため、本発明の4の観
点にかかるコンピュータ読み取り可能な記録媒体は、
数の環境における対話を音声データとして入力する音声
入力ステップと、 前記音声入力ステップで入力された対
話の音声データを環境毎に音声認識して、それぞれ文字
データに変換する音声認識ステップと、 前記音声認識ス
テップにおける音声認識結果で変換された対話の文字デ
ータを一時的に記憶する対話データ記憶ステップと、
記対話データ記憶ステップで記憶された対話の文字デー
タを分析し、該分析結果に基づいて前記対話の文字デー
タに補足および/または訂正を加える対話分析ステップ
と、 前記対話分析ステップで補足および/または訂正が
加えられた対話の文字データを出力する文字出力ステッ
プと をコンピュータ装置に実行させるためのプログラム
を記録したことを特徴とする記録媒体であって、 前記対
話分析ステップでは、前記対話データ記憶ステップで記
憶された文字データに音声認識が良好に行えなかったも
のがある場合に、該文字データとは環境の異なる文字デ
ータに従って音声認識が良好に行えなかった文字データ
の候補となる単語に重み付けをした後、該文字データに
対応する音声データを再び音声認識する ことを特徴とす
る。
【0015】上記目的を達成するため、本発明の第
観点にかかる音声認識方法は、複数の環境における対話
を音声データとして入力する音声入力ステップと、前記
音声入力ステップで入力された対話の音声データを環境
毎に音声認識して、それぞれ文字データに変換する音声
認識ステップと、前記音声認識ステップにおける音声認
識結果で変換された対話の文字データを一時的に記憶す
る対話データ記憶ステップと、前記対話データ記憶ステ
ップで記憶された対話の文字データを分析し、該分析結
果に基づいて前記対話の文字データに補足および/また
は訂正を加える対話分析ステップと、前記対話分析ステ
ップで補足および/または訂正が加えられた対話の文字
データを出力する文字出力ステップと、を含み、 前記対
話分析ステップでは、前記対話データ記憶ステップで記
憶された文字データに音声認識が良好に行えなかったも
のがある場合に、該文字データとは環境の異なる文字デ
ータの対話内容に基づいて類推される単語の文字データ
で、音声認識が良好に行えなかった文字データを置換す
ことを特徴とする。
【0016】上記目的を達成するため、本発明のの観
点にかかるコンピュータ読み取り可能な記録媒体は、複
数の環境における対話を音声データとして入力する音声
入力ステップと、前記音声入力ステップで入力された対
話の音声データを環境毎に音声認識して、それぞれ文字
データに変換する音声認識ステップと、前記音声認識ス
テップにおける音声認識結果で変換された対話の文字デ
ータを一時的に記憶する対話データ記憶ステップと、前
記対話データ記憶ステップで記憶された対話の文字デー
タを分析し、該分析結果に基づいて前記対話の文字デー
タに補足および/または訂正を加える対話分析ステップ
と、前記対話分析ステップで補足および/または訂正が
加えられた対話の文字データを出力する文字出力ステッ
プとをコンピュータ装置に実行させるためのプログラム
を記録したことを特徴とする記録媒体であって、 前記対
話分析ステップでは、前記対話データ記憶ステップで記
憶された文字データに音声認識が良好に行えなかったも
のがある場合に、該文字データとは環境の異なる文字デ
ータの対話内容に基づいて類推される単語の文字データ
で、音声認識が良好に行えなかった文字データを置換す
ことを特徴とする。
【0017】
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
【0018】図1は、この実施の形態にかかる音声認識
装置の構成を示すブロック図である。この音声認識装置
は、例えば会議の議事録作成のために用いられるもの
で、図示するように、話者毎に設けられた複数のマイク
ロフォン1a、1b、・・・と、複数のインターフェー
ス2a、2b、・・・と、音声認識部3と、一次記憶装
置4と、対話分析部5と、辞書部6と、二次記憶装置7
と、表示装置8とから構成されている。
【0019】音声認識部3及び対話分析部5は、コンピ
ュータ装置のCPUがメモリ中に格納されたプログラム
を実行することにより実現され、辞書部6は、メモリ中
の所定の領域にインストールされた辞書ファイルによっ
て実現される。なお、ここでいう“一次”記憶装置4と
“二次”記憶装置7とは、それぞれデータが記憶される
処理順が一番目、二番目となるメモリ中の所定の領域を
指すもので、主記憶装置と補助記憶装置といった意味で
はない。
【0020】マイクロフォン1a、1b、・・・は、対
話の話者毎に設けられ、各話者が発話した音声を入力す
る。インターフェース2a、2b、・・・は、それぞれ
マイクロフォン1a、1b、・・・から入力された音声
データを、音声認識が可能な形式の音声データに変換し
て、音声認識部3に入力する。
【0021】音声認識部3は、辞書部6に含まれる音響
モデル辞書61と言語モデル辞書62とを参照して、イ
ンターフェース2a、2b、・・・から入力されてきた
対話の音声データを話者毎に音声認識し、文字データに
変換する。音声認識部3は、文字データへの変換が行え
る程に十分な精度で音声認識できない部分がある場合に
は、その旨を示す所定の識別情報を、その部分に挿入す
る。
【0022】一次記憶装置4は、音声認識部3で話者毎
に音声認識されて変換された文字データを、変換前の音
声データ及び中途で生成される品詞データと共に記憶す
る。図2は、一次記憶装置4に記憶されたデータの構造
を示す図である。図示するように、環境の違い(ここで
は、話者の違い)毎に分類されてデータが記憶され、各
環境におけるデータは、音声データと品詞データと文字
データとを含んでいる。
【0023】対話分析部5は、一次記憶装置4に記憶さ
れた文字データに音声認識できない旨を示す識別情報が
ある場合、それ以外の話者の発話内容に対応する文字デ
ータに基づいて、音声認識できなかった文字データを補
足する。また、音声認識できている場合であっても、他
の話者の発話内容に対応する文字データと矛盾が生じる
場合には、他の話者の発話内容に対応する文字データに
基づいて、その矛盾が生じている文字データを訂正す
る。
【0024】このような文字データの補足または訂正を
行うため、対話分析部5は、重み付け部51、補完部5
2及び置換部53を備えている。重み付け部51は、他
の話者の発話内容に従って音響モデル辞書61中の単語
に重み付けを行い、一次記憶装置4に記憶された音声デ
ータを用いて、再び音声認識による文字データへの変換
を試みる。補完部52は、言語モデル辞書62を参照
し、他の話者の発話内容とのつながりが得られるよう
に、文字データを補完する。置換部53は、対話モデル
辞書63を参照し、他の話者の発話内容と矛盾を生じる
部分、または音声認識できなかった部分を、他の話者の
発話内容に応じて置換する。
【0025】辞書部6は、音響モデル辞書61、言語モ
デル辞書62及び対話モデル辞書63を含んでいる。こ
こで、音響モデルとは、音声の構成単位(例えば音素)
と特徴ベクトルと呼ばれる音声認識に必要なスペクトル
情報との関係を、マルコフモデルなどの形式で確率的に
モデル化したものである。言語モデルとは、音素の並び
を規定し、入力発生の可能性を規定するものであり、文
法などのルールに基づいたモデルや、統計的データに基
づいた音素と音素とのつながり方の制限や単語と単語と
のつながり方の制限を用いたモデルがある。対話モデル
とは、複数の話者の対話における単語の並びを規定し、
入力発生の可能性を規定するものであり、対話の内容の
文法ルールに基づいたモデルや、統計的データに基づい
た単語と単語のつながり方の制限や文章と文章のつなが
り方の制限を用いたモデルがある。
【0026】二次記憶装置7は、対話分析部5による対
話の分析で補足および/または訂正が加えられた文字デ
ータ(但し、重み付け、補完及び置換のいずれも行われ
ていない場合は、音声認識部3において音声認識された
文字データ)を、対話における発話順に記憶する。図3
は、二次記憶装置7に記憶されたデータの構造を示す図
である。この図では、シーンを単位として、対話の内容
に対応する文字データが記憶されている。
【0027】表示装置8は、CRT(Cathode Ray Tub
e)ディスプレイ、液晶ディスプレイなどによって構成
され、二次記憶装置7に記憶された文字データを表示す
る。
【0028】以下、この実施の形態にかかる音声認識装
置における動作について説明する。ここでは、マイクロ
フォン1a、1b、・・・、及びインターフェース2
a、2b、・・・は、話者毎に別々に用意されているも
のとする。図4は、この実施の形態にかかる音声認識装
置の処理を示すフローチャートである。
【0029】まず、対話に参加している各話者は、各々
に対して設けられたマイクロフォン1a、1b、・・・
に向かって、発話内容に応じて発声する。各話者が発声
した音声は、それぞれマイクロフォン1a、1b、・・
・で電気信号の音声データに変換され、さらにインター
フェース2a、2b、・・・で音声認識に適した形式の
音声データに変換されて、音声認識部3に入力される
(ステップS11)。
【0030】次に、音声認識部3は、辞書部6中の音響
モデル辞書61及び言語モデル辞書62を参照すること
によって、インターフェース2a、2b、・・・から入
力された音声データをそれぞれ音声認識して文字データ
に変換する(ステップS12)。ここで、音声認識がで
きない不明瞭な部分があった場合には、その旨を示す識
別情報を文字データ中に挿入する。
【0031】さらに、音声認識部3は、インターフェー
ス2a、2b、・・・の別に、すなわち話者別に単語デ
ータを一次記憶装置4に記憶する。また、音声認識部3
は、インターフェース2a、2b、・・・からそれぞれ
入力された音声データと、中間データである品詞データ
についても、話者別に一次記憶装置4に記憶する(ステ
ップS13)。
【0032】次に、対話分析部5は、一次記憶装置4に
記憶されている文字データとして記憶された対話を分析
し、文字データに補足および/または訂正を加える(ス
テップS14)。この文字データの補足および/または
訂正は、例えば、文字データ中に音声認識ができなかっ
た部分があった場合に、次のような処理を実行すること
により行うものである。
【0033】重み付け部51は、音声認識ができなかっ
た部分以外の話者による文字データに従って対話モデル
辞書63を参照し、音声認識ができなかった部分の単語
が、どのような品詞、意味の単語であるかを推定する。
重み付け部51は、音響モデル辞書61中の推定した単
語に重み付けをした上で、一次記憶装置4に記憶された
対応箇所の音声データを音声認識する。そして、重み付
け部51での音声認識で得られた文字データで、音声認
識部3では音声認識できなかった部分を置き換える。
【0034】また、補完部52は、言語モデル辞書62
を参照し、音声認識ができなかった部分の話者による文
字データと、音声認識ができなかった部分以外の話者に
よる文字データとの間に、意味的または文法的なつなが
りを示す言葉(例えば、指示語)があるかどうかを調べ
る。このような言葉があれば、補完部52は、意味的ま
たは文法的なつながりから、音声認識できなかった部分
の単語を推定し、その部分を推定した単語で補完する。
【0035】また、置換部53は、対話モデル辞書63
を参照し、音声認識ができなかった部分以外の話者によ
る文字データから、音声認識ができなかった部分の文字
データが如何なる意味の言葉となるかを分析する。そし
て、置換部53は、分析結果の意味を有する言葉のうち
から、音声認識結果として用いるべき単語に近い単語を
選び出し、選び出した単語で音声認識できなかった部分
を置換する。
【0036】以上のようにして文字データの補足および
/または訂正が終了すると、対話分析部5は、補足およ
び/または訂正を行った文字データを、実際にされた対
話の順序に従って、二次記憶装置7に記憶する(ステッ
プS15)。そして、表示装置8は、二次記憶装置7に
記憶された文字データを表示して(ステップS16)、
このフローチャートの処理を終了する。
【0037】以下、この実施の形態にかかる音声認識装
置における処理例を説明する。
【0038】(例1)ここでは、音響モデルを用いる例
として、話者Aの発話内容が「こんにちは。」と明瞭に
音声認識され、これに対する話者Bの発話内容が「こん
**は。」(*は、音声認識できない旨を示す制御情報
を表す。以下、同じ)と、明瞭に音声認識されなかった
場合を説明する。
【0039】明瞭に音声認識された話者Aの発話内容が
挨拶となっているので、対話モデル辞書63を参照する
と、これに対する話者Bの発話内容も挨拶である可能性
が高いと判断される。そこで、重み付け部51は、音響
モデル辞書61中の挨拶を表す単語に重み付けを行った
上で、一次記憶装置4に記憶された音声データを用いて
再び音声認識を行う。この結果、最初に音声認識部3で
は明瞭に音声認識できなかった話者Bの発話内容が、
「こんにちは。」であるという音声認識結果を得ること
ができる。
【0040】(例2)ここでは、言語モデルを用いた補
完の例として、話者Aの発話内容が「ワープロソフトを
**する方法。」と明瞭に音声認識されず、これに対す
る話者Bの発話内容が「それを起動する方法。」と明瞭
に音声認識された場合を説明する。
【0041】明瞭に音声認識された話者Bの発話内容に
は、“それ”という指示語を含んでいる。補完部52
は、言語モデル辞書62を参照すると、“それ”という
指示語がその前に発話された内容に含まれる言葉を指す
ものであり、ここでは、話者Aの発話内容中の“ワープ
ロソフト”を指すことが分かる。つまり、話者Bの発話
内容は、「“ワープロソフト”を起動する方法。」と同
義であることが分かり、“**する”は、“起動する”
であると予測される。この結果、最初に音声認識部3で
は明瞭に音声認識されなかった話者Aの発話内容が、
「ワープロソフトを“起動”する方法。」であると補完
することができる。
【0042】(例3)ここでは、対話モデルを用いた置
換の例として、話者Aの最初の発話内容「明日は晴れる
?」が明瞭に音声認識され、これに対する話者Bの発話
内容が「雲雲」(?)と明瞭に音声認識されず、さらに
これに対する話者Aの発話内容が「じゃあ雨?」と明瞭
に音声認識された場合を説明する。
【0043】明瞭に音声認識した話者Aの発話内容は、
最初が“晴れる”という言葉を含んでおり、後が“雨”
という言葉を含んで最初とは逆のことを意味するものと
なっている。このため、置換部53は、対話モデル辞書
63を参照すると、話者Bの発話内容が否定の意味を表
す言葉であることが分かる。このため、最初に音声認識
部3では明瞭に音声認識されなかった話者Bの発話内容
を、「ううん。」に置換することができる。
【0044】以上説明したように、この実施の形態にか
かる音声認識装置によれば、複数の話者の対話におい
て、特定の話者の発話内容が十分な精度で音声認識した
文字データが得られなくても、対話分析部5が、他の話
者の発話内容に基づいて文字データを補足したり、訂正
したりすることができる。このため、従来の音声認識に
比べて、高い精度で音声認識結果である文字データを得
ることができる。
【0045】本発明は、上記の実施の形態に限られず、
種々の変形、応用が可能である。以下、本発明に適用可
能な上記の実施の形態の変形態様について説明する。
【0046】上記の実施の形態では、対話分析部5は、
重み付け部51による音響モデルを用いた重み付け、補
完部52による言語モデルを用いた補完、或いは置換部
53による対話モデルを用いた置換のいずれかのみを行
っているが如く説明していた。しかしながら、対話分析
部5は、これら3つのうちの2つ以上を適切に組み合わ
せて、一次記憶装置4に記憶された文字データのうちで
十分な精度で音声認識されなかった部分を、補足および
/または訂正することができる。このような組み合わせ
の適用により、複数の話者による対話をさらに精度よく
音声認識することができるようになる。
【0047】上記の実施の形態では、マイクロフォン1
a、1b、・・・と、インターフェース2a、2b、・
・・とは話者毎に設けられていたが、それぞれから入力
された音声データは、全て同じ音声認識部3にて音声認
識されるものとしていた。これに対して、図5に示すよ
うに、話者毎に、すなわちマイクロフォン1a、1b、
・・・及びインタフェース2a、2b、・・・のそれぞ
れに対応させて、音声認識部3a、3b、・・・を設け
てもよい。この場合、図4のステップS12の処理も、
話者毎に並行処理されるものとなる。
【0048】また、3以上の話者による対話において、
2人以上の話者が同一のマイクロフォンから音声を入力
するものであってもよい。この場合、マイクロフォン毎
にその指向性等の影響により音声認識の精度にばらつき
が生じることがあり得るので、マイクロフォン毎に一次
記憶部4にデータを記憶させるものとしてもよい。
【0049】上記の実施の形態では、図4のフローチャ
ートに示した処理は、図1(或いは図5)に示すように
構成された音声認識装置の各部で順次実行されるものと
して説明した。しかしながら、図4のフローチャートに
示す処理をコンピュータ装置に実行させるためのプログ
ラムを、CD−ROM、DVDなどのコンピュータ読み
取り可能な記録媒体に格納して配布し、該コンピュータ
装置にインストールして上記の音声認識装置装置を構築
するものとしてもよい。また、このプログラムは、We
bサーバの固定ディスク装置に格納しておき、インター
ネットを介してダウンロードし、コンピュータ装置にイ
ンストールするものとしてもよい。
【0050】
【発明の効果】以上説明したように、本発明によれば、
複数の話者による対話の音声認識の精度を高くすること
ができる。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる音声認識装置の構
成を示すブロック図である。
【図2】図1の一次記憶装置におけるデータ構造を示す
図である。
【図3】図1の二次記憶装置におけるデータ構造を示す
図である。
【図4】本発明の実施の形態にかかる音声認識装置にお
ける処理を示すフローチャートである。
【図5】図1の音声認識装置の変形例を示す図である。
【符号の説明】
1a、1b、・・・ マイクロフォン 2a、2b、・・・ インターフェース 3、3a、3b、・・・ 音声認識部 4 一次記憶装置 5 対話分析部 6 辞書部 7 二次記憶装置 8 表示装置 51 重み付け部 52 補完部 53 置換部 61 音響モデル辞書 62 言語モデル辞書 63 対話モデル辞書
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平10−69292(JP,A) 特開2000−221991(JP,A) 特開2000−268042(JP,A) 関口, 重永,連続音声認識への連想 情報の利用,電子情報通信学会論文誌 D−II,日本,1994年 8月,Vo l.D77−D−II, No.8,p. 1522−1530 (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 G06F 17/21 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】複数の環境における対話を音声データとし
    て入力する音声入力手段と、 前記音声入力手段から入力された対話の音声データを環
    境毎に音声認識して、それぞれ文字データに変換する音
    声認識手段と、 前記音声認識手段による音声認識結果で変換された対話
    の文字データを記憶する対話データ記憶手段と、 前記対話データ記憶手段に記憶された対話の文字データ
    を分析し、該分析結果に基づいて前記対話の文字データ
    に補足および/または訂正を加える対話分析手段と、 前記対話分析手段によって補足および/または訂正が加
    えられた対話の文字データを出力する文字出力手段と
    を備え、 前記対話分析手段は、前記対話データ記憶手段に記憶さ
    れた文字データに音声認識が良好に行えなかったものが
    ある場合に、該文字データとは環境の異なる文字データ
    に従って音声認識が良好に行えなかった文字データの候
    補となる単語に重み付けをした後、該文字データに対応
    する音声データを再び音声認識する ことを特徴とする音
    声認識装置。
  2. 【請求項2】複数の環境における対話を音声データとし
    て入力する音声入力手段と、 前記音声入力手段から入力された対話の音声データを環
    境毎に音声認識して、それぞれ文字データに変換する音
    声認識手段と、 前記音声認識手段による音声認識結果で変換された対話
    の文字データを記憶する対話データ記憶手段と、 前記対話データ記憶手段に記憶された対話の文字データ
    を分析し、該分析結果に基づいて前記対話の文字データ
    に補足および/または訂正を加える対話分析手段と、 前記対話分析手段によって補足および/または訂正が加
    えられた対話の文字データを出力する文字出力手段と、
    を備え、 前記対話分析手段は、前記対話データ記憶手段に記憶さ
    れた文字データに音声 認識が良好に行えなかったものが
    ある場合に、該文字データとは環境の異なる文字データ
    の対話内容に基づいて類推される単語の文字データで、
    音声認識が良好に行えなかった文字データを置換する
    とを特徴とする音声認識装置。
  3. 【請求項3】前記対話分析手段は、前記対話データ記憶
    手段に記憶された文字データに音声認識が良好に行えな
    かったものがある場合に、該文字データとは環境の異な
    る文字データと関連する単語の文字データで、音声認識
    が良好に行えなかった文字データを補完することを特徴
    とする請求項1または2に記載の音声認識装置。
  4. 【請求項4】前記複数の環境は、それぞれ対話の話者が
    異なるものであることを特徴とする請求項1、2又は3
    に記載の音声認識装置。
  5. 【請求項5】複数の環境における対話を音声データとし
    て入力する音声入力ステップと、 前記音声入力ステップで入力された対話の音声データを
    環境毎に音声認識して、それぞれ文字データに変換する
    音声認識ステップと、 前記音声認識ステップにおける音声認識結果で変換され
    た対話の文字データを一時的に記憶する対話データ記憶
    ステップと、 前記対話データ記憶ステップで記憶された対話の文字デ
    ータを分析し、該分析結果に基づいて前記対話の文字デ
    ータに補足および/または訂正を加える対話分析ステッ
    プと、 前記対話分析ステップで補足および/または訂正が加え
    られた対話の文字データを出力する文字出力ステップ
    と、を含み、 前記対話分析ステップでは、前記対話データ記憶ステッ
    プで記憶された文字データに音声認識が良好に行えなか
    ったものがある場合に、該文字データとは環境の異なる
    文字データに従って音声認識が良好に行えなかった文字
    データの候補となる単語に重み付けをした後、該文字デ
    ータに対応する音声データを再び音声認識する ことを特
    徴とする音声認識方法。
  6. 【請求項6】複数の環境における対話を音声データとし
    て入力する音声入力ステップと、 前記音声入力ステップで入力された対話の音声データを
    環境毎に音声認識して、それぞれ文字データに変換する
    音声認識ステップと、 前記音声認識ステップにおける音声認識結果で変換され
    た対話の文字データを一時的に記憶する対話データ記憶
    ステップと、 前記対話データ記憶ステップで記憶された対話の文字デ
    ータを分析し、該分析結果に基づいて前記対話の文字デ
    ータに補足および/または訂正を加える対話分析ステッ
    プと、 前記対話分析ステップで補足および/または訂正が加え
    られた対話の文字データを出力する文字出力ステップと をコンピュータ装置に実行させるためのプログラムを記
    録したことを特徴とするコンピュータ読み取り可能な記
    録媒体であって、 前記対話分析ステップでは、前記対話データ記憶ステッ
    プで記憶された文字データに音声認識が良好に行えなか
    ったものがある場合に、該文字データとは環境の異なる
    文字データに従って音声認識が良好に行えなかった文字
    データの候補となる単語に重み付けをした後、該文字デ
    ータに対応する音声データを再び音声認識する ことを特
    徴とする記録媒体。
  7. 【請求項7】複数の環境における対話を音声データとし
    て入力する音声入力ステップと、 前記音声入力ステップで入力された対話の音声データを
    環境毎に音声認識して、それぞれ文字データに変換する
    音声認識ステップと、 前記音声認識ステップにおける音声認識結果で変換され
    た対話の文字データを一時的に記憶する対話データ記憶
    ステップと、 前記対話データ記憶ステップで記憶された対話の文字デ
    ータを分析し、該分析結果に基づいて前記対話の文字デ
    ータに補足および/または訂正を加える対話分析ステッ
    プと、 前記対話分析ステップで補足および/または訂正が加え
    られた対話の文字データを出力する文字出力ステップ
    、を含み、 前記対話分析ステップでは、前記対話データ記憶ステッ
    プで記憶された文字データに音声認識が良好に行えなか
    ったものがある場合に、該文字データとは環境の異なる
    文字データの対話内容に基づいて類推される単語の文字
    データで、音声認識が良好に行えなかった文字データを
    置換する ことを特徴とする音声認識方法。
  8. 【請求項8】複数の環境における対話を音声データとし
    て入力する音声入力ステップと、 前記音声入力ステップで入力された対話の音声データを
    環境毎に音声認識して、それぞれ文字データに変換する
    音声認識ステップと、 前記音声認識ステップにおける音声認識結果で変換され
    た対話の文字データを一時的に記憶する対話データ記憶
    ステップと、 前記対話データ記憶ステップで記憶された対話の文字デ
    ータを分析し、該分析結果に基づいて前記対話の文字デ
    ータに補足および/または訂正を加える対話分析ステッ
    プと、 前記対話分析ステップで補足および/または訂正が加え
    られた対話の文字データを出力する文字出力ステップと をコンピュータ装置に実行させるためのプログラムを記
    録したことを特徴とするコンピュータ読み取り可能な記
    録媒体であって、 前記対話分析ステップでは、前記対話データ記憶ステッ
    プで記憶された文字データに音声認識が良好に行えなか
    ったものがある場合に、該文字データとは環境の異なる
    文字データの対話内容に基づいて類推される単語の文字
    データで、音声認識が良好に行えなかった文字データを
    置換する ことを特徴とする記録媒体。
JP2000389365A 2000-12-21 2000-12-21 音声認識装置、方法及び記録媒体 Expired - Fee Related JP3526549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000389365A JP3526549B2 (ja) 2000-12-21 2000-12-21 音声認識装置、方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000389365A JP3526549B2 (ja) 2000-12-21 2000-12-21 音声認識装置、方法及び記録媒体

Publications (2)

Publication Number Publication Date
JP2002189496A JP2002189496A (ja) 2002-07-05
JP3526549B2 true JP3526549B2 (ja) 2004-05-17

Family

ID=18855935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000389365A Expired - Fee Related JP3526549B2 (ja) 2000-12-21 2000-12-21 音声認識装置、方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP3526549B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210158383A (ko) * 2019-10-31 2021-12-30 주식회사 엘솔루 복수의 화자들에 대한 전사 데이터를 생성 및 관리하는 방법 및 이를 수행하는 전사 장치
EP4220628A4 (en) 2021-02-19 2024-05-22 Samsung Electronics Co Ltd ELECTRONIC SERVICE SUPPORT DEVICE FOR ARTIFICIAL INTELLIGENCE (AI) AGENT TALKING WITH USER
KR20220118698A (ko) * 2021-02-19 2022-08-26 삼성전자주식회사 사용자와 대화하는 인공 지능 에이전트 서비스를 지원하는 전자 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
関口, 重永,連続音声認識への連想情報の利用,電子情報通信学会論文誌 D−II,日本,1994年 8月,Vol.D77−D−II, No.8,p.1522−1530

Also Published As

Publication number Publication date
JP2002189496A (ja) 2002-07-05

Similar Documents

Publication Publication Date Title
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
US11450313B2 (en) Determining phonetic relationships
US7143035B2 (en) Methods and apparatus for generating dialog state conditioned language models
US7640159B2 (en) System and method of speech recognition for non-native speakers of a language
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
JPWO2007108500A1 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
US20230343328A1 (en) Efficient streaming non-recurrent on-device end-to-end model
US20220310073A1 (en) Mixture Model Attention for Flexible Streaming and Non-Streaming Automatic Speech Recognition
WO2020136948A1 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
JP3535292B2 (ja) 音声認識システム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP3526549B2 (ja) 音声認識装置、方法及び記録媒体
JP3039634B2 (ja) 音声認識装置
JP2871420B2 (ja) 音声対話システム
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2880436B2 (ja) 音声認識装置
JP2001013992A (ja) 音声理解装置
JP2005091758A (ja) 話者認識システム及び方法
Takrim et al. Speech to Text Recognition
US20230298570A1 (en) Rare Word Recognition with LM-aware MWER Training
JP2003099086A (ja) 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees