JP2002189496A - 音声認識装置、方法及び記録媒体 - Google Patents

音声認識装置、方法及び記録媒体

Info

Publication number
JP2002189496A
JP2002189496A JP2000389365A JP2000389365A JP2002189496A JP 2002189496 A JP2002189496 A JP 2002189496A JP 2000389365 A JP2000389365 A JP 2000389365A JP 2000389365 A JP2000389365 A JP 2000389365A JP 2002189496 A JP2002189496 A JP 2002189496A
Authority
JP
Japan
Prior art keywords
dialogue
data
character data
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000389365A
Other languages
English (en)
Other versions
JP3526549B2 (ja
Inventor
Eiji Kita
英司 喜多
Hiroki Tanioka
広樹 谷岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2000389365A priority Critical patent/JP3526549B2/ja
Publication of JP2002189496A publication Critical patent/JP2002189496A/ja
Application granted granted Critical
Publication of JP3526549B2 publication Critical patent/JP3526549B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 複数の話者による対話を精度よく音声認識し
て、文字データに変換する。 【解決手段】 対話を行ってる複数の話者がそれぞれマ
イクロフォン1a、1b、・・・から入力した音声デー
タは、音声認識部3において音声認識され、文字データ
に変換される。この文字データは、話者毎に分類されて
一次記憶装置4に記憶される。一次記憶装置4に記憶さ
れた文字データ中に音声認識が良好に行えなかった箇所
がある場合、対話分析部5は、辞書部6に含まれる各辞
書を参照して、文字データを補足したり、訂正したりす
る。対話分析部5において補足および/または訂正がさ
れた文字データは、対話の順序に従って二次記憶装置7
に記憶された後、表示装置8に表示される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の環境におけ
る対話を音声認識する音声認識装置、方法、及びその音
声認識のためのプログラムを記録した記録媒体に関す
る。
【0002】
【従来の技術】パーソナルコンピュータの低価格化に伴
い、近年、コンピュータ人口が急速に増加している。つ
まり、何の専門知識も持たない者もコンピュータを使用
するようになってきており、誰にでも簡単に使えるマン
−マシンインタフェースに対する需要が高くなってきて
いる。そして、このようなマン−マシンインタフェース
として、旧来からのキーボードによる文字入力に代え
て、音声認識による文字入力を行えるようにした音声認
識システムが実用化されている。
【0003】音声認識による文字入力を行うためには、
予め音響モデル辞書や言語モデル辞書を用意しておく必
要がある。そして、マイクロフォンから入力された音声
データを、音響モデル辞書や言語モデル辞書を参照する
ことによって、文字データに変換するものとしている。
ここで、音声データの文字データへの変換精度は、同一
の者が継続して使用することによって、高くなっていく
のが普通である。また、話者の声質、方言、しゃべり方
の癖などによっても、変換精度にばらつきがあるのが普
通である。
【0004】
【発明が解決しようとする課題】従って、同一の音声認
識システムを用いて複数の話者による対話を音声認識し
て文字データに変換しようとした場合に、話者によって
は十分な精度で音声認識した文字データが得られない場
合がある。また、話者毎に異なる音声認識システムを用
いた場合であっても、音声認識システムによっては十分
な精度で音声認識した文字データが得られない場合もあ
る。
【0005】さらに、同一程度の品質を有する音声デー
タが認識されれば、話者によらずに同等の音声認識がで
きるシステムであっても、各話者が使用するマイクロフ
ォンの性能の違いにより、或いは各話者の周囲の雑音の
違いによって、話者によっては十分な精度で音声認識し
た文字データが得られない場合もある。いずれにしても
従来の音声認識システムでは、話者の違いその他の環境
条件の違いによって、十分な精度の音声認識ができなく
なるという問題があった。
【0006】本発明は、複数の環境における対話を精度
よく音声認識して、文字データに変換することができる
音声認識装置、方法及び音声認識のためのプログラムを
記録した記録媒体を提供することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点にかかる音声認識装置は、複数
の環境における対話を音声データとして入力する音声入
力手段と、前記音声入力手段から入力された対話の音声
データを環境毎に音声認識して、それぞれ文字データに
変換する音声認識手段と、前記音声認識手段による音声
認識結果で変換された対話の文字データを記憶する対話
データ記憶手段と、前記対話データ記憶手段に記憶され
た対話の文字データを分析し、該分析結果に基づいて前
記対話の文字データに補足および/または訂正を加える
対話分析手段と、前記対話分析手段によって補足および
/または訂正が加えられた対話の文字データを出力する
文字出力手段とを備えることを特徴とする。
【0008】上記音声認識手段では、音声認識手段によ
って対話中において十分な精度で音声認識できず、適切
に変換されなかった文字データがあったとしても、対話
分析手段によって当該文字データに補足および/または
訂正を加えることができる。このため、単に音声認識手
段のみで音声認識を行った場合に比べて、より正確な文
字データが得られるようになるので、音声認識の精度が
高いものとなる。
【0009】上記音声認識装置において、前記対話分析
手段は、前記対話データ記憶手段に記憶された文字デー
タに音声認識が良好に行えなかったものがある場合に、
該文字データとは環境の異なる文字データに従って音声
認識が良好に行えなかった文字データの候補となる単語
に重み付けをした後、該文字データに対応する音声デー
タを再び音声認識するものとすることができる。すなわ
ち、音響モデルを修正して用いて、複数の環境における
対話を精度よく音声認識することができる。
【0010】前記対話分析手段は、また、前記対話デー
タ記憶手段に記憶された文字データに音声認識が良好に
行えなかったものがある場合に、該文字データとは環境
の異なる文字データと関連する単語の文字データで、音
声認識が良好に行えなかった文字データを補完するもの
とすることもできる。すなわち、複数の環境の発話内容
相互に言語モデルを適用することで、複数の環境におけ
る対話を精度よく音声認識することができる。
【0011】前記対話分析手段は、さらに、前記対話デ
ータ記憶手段に記憶された文字データに音声認識が良好
に行えなかったものがある場合に、該文字データとは環
境の異なる文字データの対話内容に基づいて類推される
単語の文字データで、音声認識が良好に行えなかった文
字データを置換するものとすることもできる。すなわ
ち、対話モデルの適用により、複数の環境における対話
を精度よく音声認識することができる。
【0012】なお、前記対話分析手段は、上記したよう
な単語への重み付けによる音声認識のやり直し、文字デ
ータの補完、及び文字データの置換についての2以上を
組み合わせて、文字データの補足および/または訂正を
行うものとしてもよい。このような組み合わせにより、
より高い精度での音声認識が可能となる。
【0013】上記音声認識装置において、前記音声入力
手段は、各環境における発話を音声データとして入力す
る複数の音声入力装置から構成されたものであってもよ
い。このとき、前記音声認識手段は、少なくとも1の音
声入力装置に関して他の音声入力装置とは異なるシステ
ムによって構成されたものとすることができる。
【0014】上記音声認識装置において、前記複数の環
境は、それぞれ対話の話者が異なるものであってもよ
い。その他にも、音声入力手段が異なるものであっても
よいし、音声入力手段と音声認識手段とが異なるもので
あってもよい。
【0015】上記目的を達成するため、本発明の第2の
観点にかかる音声認識方法は、複数の環境における対話
を音声データとして入力する音声入力ステップと、前記
音声入力ステップで入力された対話の音声データを環境
毎に音声認識して、それぞれ文字データに変換する音声
認識ステップと、前記音声認識ステップにおける音声認
識結果で変換された対話の文字データを一時的に記憶す
る対話データ記憶ステップと、前記対話データ記憶ステ
ップで記憶された対話の文字データを分析し、該分析結
果に基づいて前記対話の文字データに補足および/また
は訂正を加える対話分析ステップと、前記対話分析ステ
ップで補足および/または訂正が加えられた対話の文字
データを出力する文字出力ステップとを含むことを特徴
とする。
【0016】上記目的を達成するため、本発明の第3の
観点にかかるコンピュータ読み取り可能な記録媒体は、
複数の環境における対話を音声データとして入力する音
声入力ステップと、前記音声入力ステップで入力された
対話の音声データを環境毎に音声認識して、それぞれ文
字データに変換する音声認識ステップと、前記音声認識
ステップにおける音声認識結果で変換された対話の文字
データを一時的に記憶する対話データ記憶ステップと、
前記対話データ記憶ステップで記憶された対話の文字デ
ータを分析し、該分析結果に基づいて前記対話の文字デ
ータに補足および/または訂正を加える対話分析ステッ
プと、前記対話分析ステップで補足および/または訂正
が加えられた対話の文字データを出力する文字出力ステ
ップとをコンピュータ装置に実行させるためのプログラ
ムを記録したことを特徴とする。
【0017】
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
【0018】図1は、この実施の形態にかかる音声認識
装置の構成を示すブロック図である。この音声認識装置
は、例えば会議の議事録作成のために用いられるもの
で、図示するように、話者毎に設けられた複数のマイク
ロフォン1a、1b、・・・と、複数のインターフェー
ス2a、2b、・・・と、音声認識部3と、一次記憶装
置4と、対話分析部5と、辞書部6と、二次記憶装置7
と、表示装置8とから構成されている。
【0019】音声認識部3及び対話分析部5は、コンピ
ュータ装置のCPUがメモリ中に格納されたプログラム
を実行することにより実現され、辞書部6は、メモリ中
の所定の領域にインストールされた辞書ファイルによっ
て実現される。なお、ここでいう“一次”記憶装置4と
“二次”記憶装置7とは、それぞれデータが記憶される
処理順が一番目、二番目となるメモリ中の所定の領域を
指すもので、主記憶装置と補助記憶装置といった意味で
はない。
【0020】マイクロフォン1a、1b、・・・は、対
話の話者毎に設けられ、各話者が発話した音声を入力す
る。インターフェース2a、2b、・・・は、それぞれ
マイクロフォン1a、1b、・・・から入力された音声
データを、音声認識が可能な形式の音声データに変換し
て、音声認識部3に入力する。
【0021】音声認識部3は、辞書部6に含まれる音響
モデル辞書61と言語モデル辞書62とを参照して、イ
ンターフェース2a、2b、・・・から入力されてきた
対話の音声データを話者毎に音声認識し、文字データに
変換する。音声認識部3は、文字データへの変換が行え
る程に十分な精度で音声認識できない部分がある場合に
は、その旨を示す所定の識別情報を、その部分に挿入す
る。
【0022】一次記憶装置4は、音声認識部3で話者毎
に音声認識されて変換された文字データを、変換前の音
声データ及び中途で生成される品詞データと共に記憶す
る。図2は、一次記憶装置4に記憶されたデータの構造
を示す図である。図示するように、環境の違い(ここで
は、話者の違い)毎に分類されてデータが記憶され、各
環境におけるデータは、音声データと品詞データと文字
データとを含んでいる。
【0023】対話分析部5は、一次記憶装置4に記憶さ
れた文字データに音声認識できない旨を示す識別情報が
ある場合、それ以外の話者の発話内容に対応する文字デ
ータに基づいて、音声認識できなかった文字データを補
足する。また、音声認識できている場合であっても、他
の話者の発話内容に対応する文字データと矛盾が生じる
場合には、他の話者の発話内容に対応する文字データに
基づいて、その矛盾が生じている文字データを訂正す
る。
【0024】このような文字データの補足または訂正を
行うため、対話分析部5は、重み付け部51、補完部5
2及び置換部53を備えている。重み付け部51は、他
の話者の発話内容に従って音響モデル辞書61中の単語
に重み付けを行い、一次記憶装置4に記憶された音声デ
ータを用いて、再び音声認識による文字データへの変換
を試みる。補完部52は、言語モデル辞書62を参照
し、他の話者の発話内容とのつながりが得られるよう
に、文字データを補完する。置換部53は、対話モデル
辞書63を参照し、他の話者の発話内容と矛盾を生じる
部分、または音声認識できなかった部分を、他の話者の
発話内容に応じて置換する。
【0025】辞書部6は、音響モデル辞書61、言語モ
デル辞書62及び対話モデル辞書63を含んでいる。こ
こで、音響モデルとは、音声の構成単位(例えば音素)
と特徴ベクトルと呼ばれる音声認識に必要なスペクトル
情報との関係を、マルコフモデルなどの形式で確率的に
モデル化したものである。言語モデルとは、音素の並び
を規定し、入力発生の可能性を規定するものであり、文
法などのルールに基づいたモデルや、統計的データに基
づいた音素と音素とのつながり方の制限や単語と単語と
のつながり方の制限を用いたモデルがある。対話モデル
とは、複数の話者の対話における単語の並びを規定し、
入力発生の可能性を規定するものであり、対話の内容の
文法ルールに基づいたモデルや、統計的データに基づい
た単語と単語のつながり方の制限や文章と文章のつなが
り方の制限を用いたモデルがある。
【0026】二次記憶装置7は、対話分析部5による対
話の分析で補足および/または訂正が加えられた文字デ
ータ(但し、重み付け、補完及び置換のいずれも行われ
ていない場合は、音声認識部3において音声認識された
文字データ)を、対話における発話順に記憶する。図3
は、二次記憶装置7に記憶されたデータの構造を示す図
である。この図では、シーンを単位として、対話の内容
に対応する文字データが記憶されている。
【0027】表示装置8は、CRT(Cathode Ray Tub
e)ディスプレイ、液晶ディスプレイなどによって構成
され、二次記憶装置7に記憶された文字データを表示す
る。
【0028】以下、この実施の形態にかかる音声認識装
置における動作について説明する。ここでは、マイクロ
フォン1a、1b、・・・、及びインターフェース2
a、2b、・・・は、話者毎に別々に用意されているも
のとする。図4は、この実施の形態にかかる音声認識装
置の処理を示すフローチャートである。
【0029】まず、対話に参加している各話者は、各々
に対して設けられたマイクロフォン1a、1b、・・・
に向かって、発話内容に応じて発声する。各話者が発声
した音声は、それぞれマイクロフォン1a、1b、・・
・で電気信号の音声データに変換され、さらにインター
フェース2a、2b、・・・で音声認識に適した形式の
音声データに変換されて、音声認識部3に入力される
(ステップS11)。
【0030】次に、音声認識部3は、辞書部6中の音響
モデル辞書61及び言語モデル辞書62を参照すること
によって、インターフェース2a、2b、・・・から入
力された音声データをそれぞれ音声認識して文字データ
に変換する(ステップS12)。ここで、音声認識がで
きない不明瞭な部分があった場合には、その旨を示す識
別情報を文字データ中に挿入する。
【0031】さらに、音声認識部3は、インターフェー
ス2a、2b、・・・の別に、すなわち話者別に単語デ
ータを一次記憶装置4に記憶する。また、音声認識部3
は、インターフェース2a、2b、・・・からそれぞれ
入力された音声データと、中間データである品詞データ
についても、話者別に一次記憶装置4に記憶する(ステ
ップS13)。
【0032】次に、対話分析部5は、一次記憶装置4に
記憶されている文字データとして記憶された対話を分析
し、文字データに補足および/または訂正を加える(ス
テップS14)。この文字データの補足および/または
訂正は、例えば、文字データ中に音声認識ができなかっ
た部分があった場合に、次のような処理を実行すること
により行うものである。
【0033】重み付け部51は、音声認識ができなかっ
た部分以外の話者による文字データに従って対話モデル
辞書63を参照し、音声認識ができなかった部分の単語
が、どのような品詞、意味の単語であるかを推定する。
重み付け部51は、音響モデル辞書61中の推定した単
語に重み付けをした上で、一次記憶装置4に記憶された
対応箇所の音声データを音声認識する。そして、重み付
け部51での音声認識で得られた文字データで、音声認
識部3では音声認識できなかった部分を置き換える。
【0034】また、補完部52は、言語モデル辞書62
を参照し、音声認識ができなかった部分の話者による文
字データと、音声認識ができなかった部分以外の話者に
よる文字データとの間に、意味的または文法的なつなが
りを示す言葉(例えば、指示語)があるかどうかを調べ
る。このような言葉があれば、補完部52は、意味的ま
たは文法的なつながりから、音声認識できなかった部分
の単語を推定し、その部分を推定した単語で補完する。
【0035】また、置換部53は、対話モデル辞書63
を参照し、音声認識ができなかった部分以外の話者によ
る文字データから、音声認識ができなかった部分の文字
データが如何なる意味の言葉となるかを分析する。そし
て、置換部53は、分析結果の意味を有する言葉のうち
から、音声認識結果として用いるべき単語に近い単語を
選び出し、選び出した単語で音声認識できなかった部分
を置換する。
【0036】以上のようにして文字データの補足および
/または訂正が終了すると、対話分析部5は、補足およ
び/または訂正を行った文字データを、実際にされた対
話の順序に従って、二次記憶装置7に記憶する(ステッ
プS15)。そして、表示装置8は、二次記憶装置7に
記憶された文字データを表示して(ステップS16)、
このフローチャートの処理を終了する。
【0037】以下、この実施の形態にかかる音声認識装
置における処理例を説明する。
【0038】(例1)ここでは、音響モデルを用いる例
として、話者Aの発話内容が「こんにちは。」と明瞭に
音声認識され、これに対する話者Bの発話内容が「こん
**は。」(*は、音声認識できない旨を示す制御情報
を表す。以下、同じ)と、明瞭に音声認識されなかった
場合を説明する。
【0039】明瞭に音声認識された話者Aの発話内容が
挨拶となっているので、対話モデル辞書63を参照する
と、これに対する話者Bの発話内容も挨拶である可能性
が高いと判断される。そこで、重み付け部51は、音響
モデル辞書61中の挨拶を表す単語に重み付けを行った
上で、一次記憶装置4に記憶された音声データを用いて
再び音声認識を行う。この結果、最初に音声認識部3で
は明瞭に音声認識できなかった話者Bの発話内容が、
「こんにちは。」であるという音声認識結果を得ること
ができる。
【0040】(例2)ここでは、言語モデルを用いた補
完の例として、話者Aの発話内容が「ワープロソフトを
**する方法。」と明瞭に音声認識されず、これに対す
る話者Bの発話内容が「それを起動する方法。」と明瞭
に音声認識された場合を説明する。
【0041】明瞭に音声認識された話者Bの発話内容に
は、“それ”という指示語を含んでいる。補完部52
は、言語モデル辞書62を参照すると、“それ”という
指示語がその前に発話された内容に含まれる言葉を指す
ものであり、ここでは、話者Aの発話内容中の“ワープ
ロソフト”を指すことが分かる。つまり、話者Bの発話
内容は、「“ワープロソフト”を起動する方法。」と同
義であることが分かり、“**する”は、“起動する”
であると予測される。この結果、最初に音声認識部3で
は明瞭に音声認識されなかった話者Aの発話内容が、
「ワープロソフトを“起動”する方法。」であると補完
することができる。
【0042】(例3)ここでは、対話モデルを用いた置
換の例として、話者Aの最初の発話内容「明日は晴れる
?」が明瞭に音声認識され、これに対する話者Bの発話
内容が「雲雲」(?)と明瞭に音声認識されず、さらに
これに対する話者Aの発話内容が「じゃあ雨?」と明瞭
に音声認識された場合を説明する。
【0043】明瞭に音声認識した話者Aの発話内容は、
最初が“晴れる”という言葉を含んでおり、後が“雨”
という言葉を含んで最初とは逆のことを意味するものと
なっている。このため、置換部53は、対話モデル辞書
63を参照すると、話者Bの発話内容が否定の意味を表
す言葉であることが分かる。このため、最初に音声認識
部3では明瞭に音声認識されなかった話者Bの発話内容
を、「ううん。」に置換することができる。
【0044】以上説明したように、この実施の形態にか
かる音声認識装置によれば、複数の話者の対話におい
て、特定の話者の発話内容が十分な精度で音声認識した
文字データが得られなくても、対話分析部5が、他の話
者の発話内容に基づいて文字データを補足したり、訂正
したりすることができる。このため、従来の音声認識に
比べて、高い精度で音声認識結果である文字データを得
ることができる。
【0045】本発明は、上記の実施の形態に限られず、
種々の変形、応用が可能である。以下、本発明に適用可
能な上記の実施の形態の変形態様について説明する。
【0046】上記の実施の形態では、対話分析部5は、
重み付け部51による音響モデルを用いた重み付け、補
完部52による言語モデルを用いた補完、或いは置換部
53による対話モデルを用いた置換のいずれかのみを行
っているが如く説明していた。しかしながら、対話分析
部5は、これら3つのうちの2つ以上を適切に組み合わ
せて、一次記憶装置4に記憶された文字データのうちで
十分な精度で音声認識されなかった部分を、補足および
/または訂正することができる。このような組み合わせ
の適用により、複数の話者による対話をさらに精度よく
音声認識することができるようになる。
【0047】上記の実施の形態では、マイクロフォン1
a、1b、・・・と、インターフェース2a、2b、・
・・とは話者毎に設けられていたが、それぞれから入力
された音声データは、全て同じ音声認識部3にて音声認
識されるものとしていた。これに対して、図5に示すよ
うに、話者毎に、すなわちマイクロフォン1a、1b、
・・・及びインタフェース2a、2b、・・・のそれぞ
れに対応させて、音声認識部3a、3b、・・・を設け
てもよい。この場合、図4のステップS12の処理も、
話者毎に並行処理されるものとなる。
【0048】また、3以上の話者による対話において、
2人以上の話者が同一のマイクロフォンから音声を入力
するものであってもよい。この場合、マイクロフォン毎
にその指向性等の影響により音声認識の精度にばらつき
が生じることがあり得るので、マイクロフォン毎に一次
記憶部4にデータを記憶させるものとしてもよい。
【0049】上記の実施の形態では、図4のフローチャ
ートに示した処理は、図1(或いは図5)に示すように
構成された音声認識装置の各部で順次実行されるものと
して説明した。しかしながら、図4のフローチャートに
示す処理をコンピュータ装置に実行させるためのプログ
ラムを、CD−ROM、DVDなどのコンピュータ読み
取り可能な記録媒体に格納して配布し、該コンピュータ
装置にインストールして上記の音声認識装置装置を構築
するものとしてもよい。また、このプログラムは、We
bサーバの固定ディスク装置に格納しておき、インター
ネットを介してダウンロードし、コンピュータ装置にイ
ンストールするものとしてもよい。
【0050】
【発明の効果】以上説明したように、本発明によれば、
複数の話者による対話の音声認識の精度を高くすること
ができる。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる音声認識装置の構
成を示すブロック図である。
【図2】図1の一次記憶装置におけるデータ構造を示す
図である。
【図3】図1の二次記憶装置におけるデータ構造を示す
図である。
【図4】本発明の実施の形態にかかる音声認識装置にお
ける処理を示すフローチャートである。
【図5】図1の音声認識装置の変形例を示す図である。
【符号の説明】
1a、1b、・・・ マイクロフォン 2a、2b、・・・ インターフェース 3、3a、3b、・・・ 音声認識部 4 一次記憶装置 5 対話分析部 6 辞書部 7 二次記憶装置 8 表示装置 51 重み付け部 52 補完部 53 置換部 61 音響モデル辞書 62 言語モデル辞書 63 対話モデル辞書
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 571A

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】複数の環境における対話を音声データとし
    て入力する音声入力手段と、 前記音声入力手段から入力された対話の音声データを環
    境毎に音声認識して、それぞれ文字データに変換する音
    声認識手段と、 前記音声認識手段による音声認識結果で変換された対話
    の文字データを記憶する対話データ記憶手段と、 前記対話データ記憶手段に記憶された対話の文字データ
    を分析し、該分析結果に基づいて前記対話の文字データ
    に補足および/または訂正を加える対話分析手段と、 前記対話分析手段によって補足および/または訂正が加
    えられた対話の文字データを出力する文字出力手段とを
    備えることを特徴とする音声認識装置。
  2. 【請求項2】前記対話分析手段は、前記対話データ記憶
    手段に記憶された文字データに音声認識が良好に行えな
    かったものがある場合に、該文字データとは環境の異な
    る文字データに従って音声認識が良好に行えなかった文
    字データの候補となる単語に重み付けをした後、該文字
    データに対応する音声データを再び音声認識することを
    特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】前記対話分析手段は、前記対話データ記憶
    手段に記憶された文字データに音声認識が良好に行えな
    かったものがある場合に、該文字データとは環境の異な
    る文字データと関連する単語の文字データで、音声認識
    が良好に行えなかった文字データを補完することを特徴
    とする請求項1または2に記載の音声認識装置。
  4. 【請求項4】前記対話分析手段は、前記対話データ記憶
    手段に記憶された文字データに音声認識が良好に行えな
    かったものがある場合に、該文字データとは環境の異な
    る文字データの対話内容に基づいて類推される単語の文
    字データで、音声認識が良好に行えなかった文字データ
    を置換することを特徴とする請求項1乃至3のいずれか
    1項に記載の音声認識装置。
  5. 【請求項5】前記音声入力手段は、各環境における発話
    を音声データとして入力する複数の音声入力装置から構
    成され、 前記音声認識手段は、少なくとも1の音声入力装置に関
    して他の音声入力装置とは異なるシステムによって構成
    されていることを特徴とする請求項1乃至4のいずれか
    1項に記載の音声認識装置。
  6. 【請求項6】前記複数の環境は、それぞれ対話の話者が
    異なるものであることを特徴とする請求項1乃至5のい
    ずれか1項に記載の音声認識装置。
  7. 【請求項7】複数の環境における対話を音声データとし
    て入力する音声入力ステップと、 前記音声入力ステップで入力された対話の音声データを
    環境毎に音声認識して、それぞれ文字データに変換する
    音声認識ステップと、 前記音声認識ステップにおける音声認識結果で変換され
    た対話の文字データを一時的に記憶する対話データ記憶
    ステップと、 前記対話データ記憶ステップで記憶された対話の文字デ
    ータを分析し、該分析結果に基づいて前記対話の文字デ
    ータに補足および/または訂正を加える対話分析ステッ
    プと、 前記対話分析ステップで補足および/または訂正が加え
    られた対話の文字データを出力する文字出力ステップと
    を含むことを特徴とする音声認識方法。
  8. 【請求項8】複数の環境における対話を音声データとし
    て入力する音声入力ステップと、 前記音声入力ステップで入力された対話の音声データを
    環境毎に音声認識して、それぞれ文字データに変換する
    音声認識ステップと、 前記音声認識ステップにおける音声認識結果で変換され
    た対話の文字データを一時的に記憶する対話データ記憶
    ステップと、 前記対話データ記憶ステップで記憶された対話の文字デ
    ータを分析し、該分析結果に基づいて前記対話の文字デ
    ータに補足および/または訂正を加える対話分析ステッ
    プと、 前記対話分析ステップで補足および/または訂正が加え
    られた対話の文字データを出力する文字出力ステップと
    をコンピュータ装置に実行させるためのプログラムを記
    録したことを特徴とするコンピュータ読み取り可能な記
    録媒体。
JP2000389365A 2000-12-21 2000-12-21 音声認識装置、方法及び記録媒体 Expired - Fee Related JP3526549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000389365A JP3526549B2 (ja) 2000-12-21 2000-12-21 音声認識装置、方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000389365A JP3526549B2 (ja) 2000-12-21 2000-12-21 音声認識装置、方法及び記録媒体

Publications (2)

Publication Number Publication Date
JP2002189496A true JP2002189496A (ja) 2002-07-05
JP3526549B2 JP3526549B2 (ja) 2004-05-17

Family

ID=18855935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000389365A Expired - Fee Related JP3526549B2 (ja) 2000-12-21 2000-12-21 音声認識装置、方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP3526549B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021085687A1 (ko) * 2019-10-31 2021-05-06 주식회사 엘솔루 복수의 화자들에 대한 전사 데이터를 생성 및 관리하는 방법 및 이를 수행하는 전사 장치
WO2022177103A1 (ko) * 2021-02-19 2022-08-25 삼성전자 주식회사 사용자와 대화하는 인공 지능 에이전트 서비스를 지원하는 전자 장치
US11862178B2 (en) 2021-02-19 2024-01-02 Samsung Electronics Co., Ltd. Electronic device for supporting artificial intelligence agent services to talk to users

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021085687A1 (ko) * 2019-10-31 2021-05-06 주식회사 엘솔루 복수의 화자들에 대한 전사 데이터를 생성 및 관리하는 방법 및 이를 수행하는 전사 장치
WO2022177103A1 (ko) * 2021-02-19 2022-08-25 삼성전자 주식회사 사용자와 대화하는 인공 지능 에이전트 서비스를 지원하는 전자 장치
US11862178B2 (en) 2021-02-19 2024-01-02 Samsung Electronics Co., Ltd. Electronic device for supporting artificial intelligence agent services to talk to users

Also Published As

Publication number Publication date
JP3526549B2 (ja) 2004-05-17

Similar Documents

Publication Publication Date Title
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
US10460034B2 (en) Intention inference system and intention inference method
US8285546B2 (en) Method and system for identifying and correcting accent-induced speech recognition difficulties
US7640159B2 (en) System and method of speech recognition for non-native speakers of a language
US20020173956A1 (en) Method and system for speech recognition using phonetically similar word alternatives
JP5062171B2 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
US20230343328A1 (en) Efficient streaming non-recurrent on-device end-to-end model
US20220310073A1 (en) Mixture Model Attention for Flexible Streaming and Non-Streaming Automatic Speech Recognition
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3526549B2 (ja) 音声認識装置、方法及び記録媒体
US7206738B2 (en) Hybrid baseform generation
US6772116B2 (en) Method of decoding telegraphic speech
JP4042435B2 (ja) 音声自動質問応答装置
JP2880436B2 (ja) 音声認識装置
JP2001013992A (ja) 音声理解装置
US20230298570A1 (en) Rare Word Recognition with LM-aware MWER Training
JP2003271180A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
KR102637025B1 (ko) 자동 음성 인식을 위한 다언어 리스코어링 모델들
CN113506561B (zh) 文本拼音的转换方法及装置、存储介质及电子设备
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム
KR20240068723A (ko) Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합
KR20240070689A (ko) 콘포머에 대한 추론 성능의 최적화
WO2024086265A1 (en) Context-aware end-to-end asr fusion of context, acoustic and text representations
JP6179509B2 (ja) 言語モデル生成装置、音声認識装置、言語モデル生成方法およびプログラム記憶媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees