JP4333838B2 - 複数言語音声認識プログラム及び複数言語音声認識システム - Google Patents
複数言語音声認識プログラム及び複数言語音声認識システム Download PDFInfo
- Publication number
- JP4333838B2 JP4333838B2 JP2003191875A JP2003191875A JP4333838B2 JP 4333838 B2 JP4333838 B2 JP 4333838B2 JP 2003191875 A JP2003191875 A JP 2003191875A JP 2003191875 A JP2003191875 A JP 2003191875A JP 4333838 B2 JP4333838 B2 JP 4333838B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- word
- value
- candidate word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000007613 environmental effect Effects 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 claims description 10
- 230000002596 correlated effect Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 4
- 230000008676 import Effects 0.000 claims 2
- 238000000034 method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- UOZODPSAJZTQNH-UHFFFAOYSA-N Paromomycin II Natural products NC1C(O)C(O)C(CN)OC1OC1C(O)C(OC2C(C(N)CC(N)C2O)OC2C(C(O)C(O)C(CO)O2)N)OC1CO UOZODPSAJZTQNH-UHFFFAOYSA-N 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- ALEXXDVDDISNDU-JZYPGELDSA-N cortisol 21-acetate Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@@](C(=O)COC(=O)C)(O)[C@@]1(C)C[C@@H]2O ALEXXDVDDISNDU-JZYPGELDSA-N 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Description
【発明の属する技術分野】
本発明は、入力音声に最も似ている候補単語を複数の言語毎に抽出し、そのうちの一つの言語の候補単語を認識結果と判断するものであって、特定言語の使用頻度が高いと判断される場合には、特定言語と異なる言語の認識確率を抑制することのできるプログラム及びシステムに関する。
【0002】
【従来の技術】
複数言語認識プログラムには、英語と日本語を認識するものとして、図5に示すようにコンピュータに以下のステップを実行させるものがある。登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を二つの言語毎に選択して各言語の候補単語とする言語認識ステップ。各言語の候補単語固有のしきい値と、各候補単語の求めた距離値を比較して、距離値がしきい値よりも小さい候補単語がないときには認識不能とし、距離値がしきい値よりも小さい候補単語が一つあるときにはその候補単語を認識結果とし、候補単語が二つあるときには、候補単語毎に求めた距離値としきい値の差を比較して、差がある場合には、差の大きい方の候補単語を認識結果とする判定ステップ。
【0003】
ここで距離値とは、基本的には、登録されている候補単語の基準音声データ(波形データ)と、入力された音声データ(波形データ)を比較し、離れ具合を示した値である。但し、データ同士を単に比較すると、効率が悪いので、データの特徴部分について比較する方法を用いることがある(例えば非特許文献1,2,3参照)。
【0004】
また、しきい値とは、距離値に対して設定する任意の値であって、同じ音声とみなすか否かの分かれ目となる目安の値であり、距離値がしきい値よりも小さい場合には同じ音声とみなし、距離値がしきい値よりも大きい場合には別の音声とみなす。なお、しきい値は、上述したように目安の値であるので、距離値としきい値が計算上同じ場合には、同じ音声とみなすか、別の音声とみなすかは自由に設定して良い。
【0005】
【非特許文献1】
橋本 浩一、”特徴選択と特徴空間の変換”、2頁、[online]、東京大学 大学院情報理工学系研究科 システム情報学専攻 / 工学部 計数工学科 石川橋本研究室、[平成15年6月16日検索]、インターネット<URL:http://www.k2.t.u-tokyo.ac.jp/members/hashimoto/pattern.html>
【非特許文献2】
下萩原勉、”テンプレート切り出しによる不特定話者対応のワードスポッティング”、9頁、10頁、[online]、東京大学大学院 情報理工学系研究科 電子情報学専攻 田中(英)・坂井研究室、[平成15年6月16日検索]、インターネット<URL:http://www.mtl.t.u-tokyo.ac.jp/Research/mtl99bib-j.html>
【非特許文献3】
松谷 融、”音声認識による機器の制御”、5頁、14頁、[online]、高知工科大学工学部 知能機械システム工学科、インターネット<URL:http://www.kochi-tech.ac.jp/library/pp/2000/mec/mec.htm>
【0006】
【発明が解決しようとする課題】
上述したプログラムは、日本語と英語の双方で、まず、入力音声と距離が最も近い候補単語を一つ選択し、次に、候補単語の距離値がしきい値に入っていれば、その候補単語を認識結果としても良いと考え、日本語と英語の一方のみ候補単語の距離値がしきい値に入っている場合には、入っている言語の候補単語を認識結果とし、日本語と英語の双方の候補単語の距離値がしきい値に入っている場合には、しきい値から遠い方の候補単語を認識結果とすれば正しい認識結果になるはず、という思想で作られている。
【0007】
しかしながら、しきい値という概念からすれば、日本語と英語の双方の候補単語の距離値がしきい値に入っている場合には、何れを認識結果としても本来は良いはずである。それにも関わらず、しきい値から遠い候補単語を認識結果とするという思想に基づく従来のプログラムは、日本語と英語の発生頻度について差がある場合には、誤った認識結果になる確率が高くなると思われる。つまり、例えば日本語の入力が続いているときに日本語で「パロ」と言ったのに、英語の「Hello」として認識する場合である。従って、このような不具合をできる限り減らすために、特定の言語の認識結果が多い場合には、特定の言語を認識結果として採用しやすくし、他の言語が認識結果として採用され難くするプログラム及びシステムを発明した。
【0008】
【課題を解決するための手段】
請求項1の発明の複数言語音声認識プログラムは、コンピュータに、入力された音声データを取り込み、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、各言語での選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識ステップと、各言語の候補単語固有のしきい値と各候補単語の求めた距離値を比較して、しきい値を基準にして各候補単語を大きいものと小さいものに二分し、全ての言語について候補単語の距離値がしきい値よりも大きいときには認識不能とし、一つの言語のみについて候補単語の距離値がしきい値よりも小さいときには、その候補単語を認識結果とする判定ステップを実行させることを前提とする。
【0009】
そして、判定ステップでは、複数の言語について候補単語の距離値がしきい値よりも小さいときには、各言語の相対的な採用されにくさを表すペナルティ値に各候補単語固有のしきい値を合わせた合計値から、各候補単語の求めた距離値を相対的に引いた差を比較して、差の最も大きなものを採用し、採用個数が一つの場合にはその候補単語を認識結果とし、採用個数が複数の場合には何れか一つを選択して認識結果とすることを第一の特徴とする。また、ペナルティ値を増減する経験値を、認識結果の言語とそれ以外の言語の少なくとも一方に付与すると共に、現在付与した経験値を各言語の既存のペナルティ値に加味してペナルティ値を更新するペナルティ値更新ステップを、コンピュータに実行させることを第二の特徴とする。
【0010】
「加味」としてあるのは、ペナルティ値を更新する要素として経験値を用いてという意味であり、具体的には、経験値を既存のペナルティ値に単純に加算させても良いし、それ以外では例えば、特定言語の認識結果が連続して続く場合はその回数によっては、経験値にボーナス値を付加した状態で既存のペナルティ値に加算しても良い。また、選択個数や採用個数が複数の場合に何れか一つを選択する場合は、ランダムに選択しても良いし、後述する環境データを利用して、そのうち最も相関性の高いものをできる限り選択し、相関性の高いものが複数ある場合や、全てのものについて相関性がない場合にはランダムに選択しても良い。
【0011】
請求項2の発明は、請求項1記載の複数言語音声認識プログラムを前提とする。そして、ユーザー自身又はユーザの周囲の環境データを取り込む環境取得ステップを、コンピュータに実行させることを第一の特徴とする。また、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識ステップの代わりに、登録されている単語の基準音声データと入力音声データとの距離を比較して距離値が小さいものから複数の単語を複数の言語毎に抽出し、抽出した単語と環境データを照合して全単語が環境データとは相関性がないときには何れか一つの単語を選択して候補単語とし、一つ以上の単語が環境情報と相関性があるときには、最も相関性の高い単語を選択し、選択個数が一つの場合には、選択した単語を候補単語とし、選択個数が複数の場合には、何れか一つを選択して候補単語とする言語認識ステップを用いることを第二の特徴とする。
【0012】
請求項3の発明の複数言語音声認識システムは、複数の言語毎に、単語と、単語に対応する基準音声データと、単語に対応するしきい値を登録する登録手段と、音声を入力する音声入力手段と、入力された音声データを取り込み、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、各言語での選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識手段と、各言語の候補単語固有のしきい値と各候補単語の求めた距離値を比較して、しきい値を基準にして各候補単語を大きいものと小さいものに二分し、全ての言語について候補単語の距離値がしきい値よりも大きいときには認識不能とする判定手段を用いることを前提とする。
【0013】
そして、登録手段では、複数の言語毎に各言語の相対的な採用されにくさを表すペナルティ値を登録することを第一の特徴とする。また、判定手段では、一つの言語のみについて候補単語の距離値がしきい値よりも小さいときには、その候補単語を認識結果とし、複数の言語について候補単語の距離値がしきい値よりも小さいときには、ペナルティ値に各候補単語固有のしきい値を合わせた合計値から、各候補単語の求めた距離値を相対的に引いた差を比較して、差の最も大きなものを採用し、採用個数が一つの場合にはその候補単語を認識結果とし、採用個数が複数の場合には何れか一つを選択して認識結果とすることを第二の特徴とする。さらに、ペナルティ値を増減する経験値を、認識結果の言語とそれ以外の言語の少なくとも一方に付与すると共に、現在付与した経験値を各言語の既存のペナルティ値に加味してペナルティ値を更新するペナルティ値更新手段を用いることを第三の特徴とする。
【0014】
請求項4の発明では、請求項3記載の複数言語音声認識システムを前提とする。そして、ユーザー自身又はユーザの周囲の環境データを入力する環境入力手段を設けることを第一の特徴とする。また、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識手段の代わりに、登録されている単語の基準音声データと入力音声データとの距離を比較して距離値が小さいものから複数の単語を複数の言語毎に抽出し、抽出した単語と環境データを照合して全単語が環境データとは相関性がないときには何れか一つの単語を選択して候補単語とし、一つ以上の単語が環境情報と相関性があるときには、最も相関性の高い単語を選択し、選択個数が一つの場合には、選択した単語を候補単語とし、選択個数が複数の場合には、何れか一つを選択して候補単語とする言語認識手段を用いることを第二の特徴とする。
【0015】
【発明の実施の形態】
本発明の複数言語認識システムは図2に示すように、センサーや音声入力手段(マイク)1等からなる環境入力手段2が、アンプやA/D変換器等からなるデジタル化手段3を介在してバス4に接続されている。環境入力手段2は、マイクを含むセンサーやキーボード等の入力機器であって、入力される環境データの例としては、音声データ以外には、ユーザーの周囲の画像データ、温度データ等、ユーザー自身の個人データ等が例示できる。CPU5は、複数言語認識プログラム6を実行して、例えば入力音声に似ている候補単語を言語毎に選択したり、候補単語の中から最も適切なものを選択して最終的な認識結果として判定したり、認識結果として選択した単語の言語を、次回以降の認識処理で、採用されやすくしたりする。RAM7は、例えば入力音声データや選択した候補単語等を一旦格納する。
【0016】
本システムは、日本語、英語対応のものであり、システム内のメモリには、複数言語認識プログラム6と、日本語用登録手段8と、英語用登録手段9のファイルが格納されている。
【0017】
日本語用登録手段8は、暗い、おはよう、こんにちは、等の多数の日本語単語10と、各単語10に対応する基準音声データ11と、各単語10に対応するしきい値JSを関連づけたテーブル12が記憶されると共に、日本語用のペナルティ値JPの初期値がテーブル12とは別に記憶されている。
【0018】
英語用登録手段9も同様に、CRY、MORNING、HELLO等の多数の英単語13と、各単語13に対応する基準音声データ14と、各単語13に対応するしきい値ESを関連づけたテーブル15が記憶されると共に、英語用のペナルティ値EPの初期値が記憶されている。
【0019】
複数言語認識プログラム6は、日本語認識手段16と、英語認識手段17と、判定手段18と、ペナルティ値更新手段19とから構成され、CPU5、RAM7等を利用して以下の処理を行う。
【0020】
日本語認識手段16は図1に示すように、音声入力手段から入ってきた入力音声データを取り込んで、入力音声データと、日本語の全ての登録単語の基準音声データとの相対的な差(距離)を算出し、距離値の最も近い(小さい)単語を選択する。距離値の最も近い単語は、一つとは限らず、複数存在することも考えられる。一つの場合には、その単語を候補単語(入力音声データと最も近い単語)とするが、複数存在する場合には、図示しない乱数表を利用して一つを選択し、候補単語とする。
【0021】
また、乱数表だけでなく、環境入力手段2から入力された環境データを利用して、複数の単語から一つを選択するパターンもある。環境データとは、本システムで認識した過去の単語のうち最新のものや、比較的新しいもの、或いは、センサーから入力される現在の温度データやユーザーの周囲の画像データ、ユーザーの年齢、生年月日に代表される個人データ、等であり、各種センサー(マイクを含む)、キーボード等から入力する。環境データと複数の単語を照合して、最も相関性の高い単語を選択する。最も相関性の高い単語が一つの場合には、その単語を候補単語とするが、複数存在する場合には、乱数表を利用して一つを選択し、候補単語とする。選択した複数の単語全てについて、環境データと相関性が見られない場合には、乱数表を利用して一つを選択し、候補単語とする。
【0022】
英語認識手段17は、英単語を利用するということ以外は、日本語認識手段16と同じ処理を行って、一つの単語を候補単語として選択する。
【0023】
判定手段18は、各認識手段16,17から選択された日本語の候補単語と、英語の候補単語のどちらかを、音声入力データが意味する言葉であると判定するものである。具体的には、まず、各言語の候補単語のしきい値を基準にして、候補単語の距離値がしきい値よりも大きいか、小さいかを判定する。以後の説明では、計算上しきい値と同じ値の距離値は、しきい値よりも大きいものとみなす。日本語、英語双方の候補単語の距離値がしきい値よりも大きい場合は、該当単語ナシ(適切な単語がなく認識不能)とする。日本語と英語の一方の候補単語の距離値がしきい値よりも大きい場合は、小さい候補単語を認識結果として選択する。日本語と英語の双方の候補単語の距離値がしきい値よりも小さい場合には、しきい値とペナルティ値の合計値から距離値を引いて、差を求め、差の大きい方の候補単語を認識結果として選択する。双方の差が同じ場合には、日本語認識手段16で行った処理と同様に、乱数表のみに基づいて、又は環境データと乱数表に基づいて、何れか一方の候補単語を認識結果として採用する。そして、認識結果をメインプログラムへ通知する。
【0024】
ペナルティ値更新手段19は、認識結果として採用した候補単語の言語を、次回以降の入力音声データに対する認識結果として、採用されやすくするものである。具体的には、認識結果として採用された候補単語の言語には、ペナルティ値を減らす経験値を付与し、認識結果として採用されなかった候補単語の言語には、ペナルティ値を増やす経験値を付与し、現在付与した経験値を各言語の既存のペナルティ値に加味(ここでは加算)して、採用した言語についてはペナルティ値を減らし、採用されなかった言語についてはペナルティ値を増やすことによって、ペナルティ値を更新し、認識結果を反映させる。また、該当単語ナシの場合は、各言語でペナルティ値を維持する。
【0025】
メインプログラムでは、認識結果をいかなるように利用しても良く、例えば単に記憶させておいても良いし、認識結果をディスプレイ等の出力手段20(図2参照)に表示しても良いし、認識結果に基づいてロボットの手足を動かしたりしても良い。
【0026】
上述した本発明のシステムを用いて、音声を具体的な単語として認識するフローを図4を中心に、適宜図3を参照しながら説明する。まず、音声が発せられ、コンピュータ外のハードウェア(音声入力手段等)で、入力音声をデジタルデータとする。デジタル化された入力音声データがコンピュータ内に取り込まれ、日本語認識手段16では、登録されている全ての単語の基準音声データと入力音声データを比較して、最も距離の近い「暗い」を候補単語として選択する。このとき、予め登録されている「暗い」の基準音声データと、入力音声データとを比較して、その距離値JDが計算で7500になったものとする。一方、英語認識手段17では、同様にして「CRY」を候補単語として選択する。このとき、予め登録されている「CRY」の基準音声データと、入力音声データとを比較してその距離値EDが計算で7500になったものとする。
【0027】
続いて判定手段18では、予め登録されている「暗い」のしきい値JS(7610)を利用し、日本語の候補単語の「暗い」のしきい値JSよりも距離値JDが小さいか否かを計算する。
JS−JD=7610−7500=110>0
となり、入力音声データを日本語で認識した場合は、暗いと認識しても良いと判定する。
同様に、「CRY」についてもしきい値SE(7640)を利用して計算し、
ES−ED=7640−7500=140>0
となり、入力音声データを英語で認識した場合は「CRY」と認識しても良いと判定する。
双方の言語で単語を認識しても良いと判定したので、何れか一つに絞る処理に移行する。現在の日本語のペナルティ値JP(0)と、英語のペナルティ値EP(90)を利用し、各言語のしきい値からペナルティ値を引いた合計値を基準とし、その基準から各候補単語の距離値を引いた値を以下の計算式で求める。
日本語用の計算 (JS−JP)−JD=(7610−0)−7500=110
英語用の計算 (ES−EP)−ED=(7640−90)−7500=50
求めた値を日本語と英語とで比較すると、日本語の値の方が大きいので、日本語の候補単語を認識結果として採用する。なお、ペナルティ値を考慮せずに、しきい値から距離値を引いた値を比較した場合には、英語の値の方が大きくなり、逆の結果、即ち、英語を認識結果として採用することになることから、ペナルティ値の重要性が把握できる。
【0028】
続いてペナルティ値更新手段19では、認識結果に採用された日本語については、経験値(−1)を付与し、採用されなかった英語については経験値(+1)を付与する。そして、予め登録されているペナルティ値の上限値100、下限値0を利用して、それぞれ既存のペナルティ値に経験値を加算し、
日本語では JP+(−1)=0とし、
また、英語では EP+(+1)=91として、
ペナルティ値を更新する。
【0029】
上述した例では、日本語と英語の認識システム及びプログラムについて説明したが、3つ以上の言語であっても同様に処理する。
【0030】
【発明の効果】
本発明は、ペナルティ値を考慮することによって、それまでの認識結果が次回以降の認識で反映されることになる。従って、特定の言語の音声をそれまで頻繁に入力していれば、現在入力した音声データが複数の言語で選択された候補単語のしきい値条件を満たしていて、どの言語の単語とすれば良いのか判別に苦しむときに、その特定言語の単語を最終の認識結果として採用しやすくなる。また、各言語の音声を同じ頻度で入力していれば、全ての言語の候補単語が同じレベルで取り扱われることになる。
【0031】
また、環境データを取り込んだ場合には、候補単語の選択個数が複数でその優劣が付けにくい場合に環境データと相関性の高い単語を選択することによって、精度の高い認識結果が得られる。
【図面の簡単な説明】
【図1】本発明の複数言語認識プログラムのフローチャートである。
【図2】本発明の複数言語認識システムを示す構成図である。
【図3】本発明の複数言語認識システムによる認識フローを概略的に示した構成図である。
【図4】認識する流れを具体的に示すフローチャートである。
【図5】従来の複数言語認識プログラムのフローチャートである。
【符号の説明】
8 日本語用登録手段
9 英語用登録手段
16 日本語認識手段
17 英語認識手段
18 判定手段
19 ペナルティ値更新手段
Claims (4)
- コンピュータに、
入力された音声データを取り込み、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、各言語での選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識ステップと、
各言語の候補単語固有のしきい値と各候補単語の求めた距離値を比較して、しきい値を基準にして各候補単語を大きいものと小さいものに二分し、全ての言語について候補単語の距離値がしきい値よりも大きいときには認識不能とし、
一つの言語のみについて候補単語の距離値がしきい値よりも小さいときには、その候補単語を認識結果とし、
複数の言語について候補単語の距離値がしきい値よりも小さいときには、各言語の相対的な採用されにくさを表すペナルティ値に各候補単語固有のしきい値を合わせた合計値から、各候補単語の求めた距離値を相対的に引いた差を比較して、差の最も大きなものを採用し、
採用個数が一つの場合にはその候補単語を認識結果とし、
採用個数が複数の場合には何れか一つを選択して認識結果とする判定ステップと、
ペナルティ値を増減する経験値を、認識結果の言語とそれ以外の言語の少なくとも一方に付与すると共に、現在付与した経験値を各言語の既存のペナルティ値に加味してペナルティ値を更新するペナルティ値更新ステップを、実行させることを特徴とする複数言語音声認識プログラム。 - 請求項1記載の複数言語音声認識プログラムにおいて、
ユーザー自身又はユーザーの周囲の環境データを取り込む環境取得ステップを、コンピュータに実行させると共に、
登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識ステップの代わりに、
登録されている単語の基準音声データと入力音声データとの距離を比較して距離値が小さいものから複数の単語を複数の言語毎に抽出し、
抽出した単語と環境データを照合して全単語が環境データとは相関性がないときには何れか一つの単語を選択して候補単語とし、
一つ以上の単語が環境情報と相関性があるときには、最も相関性の高い単語を選択し、選択個数が一つの場合には、選択した単語を候補単語とし、選択個数が複数の場合には、何れか一つを選択して候補単語とする言語認識ステップを用いることを特徴とする複数言語音声認識プログラム。 - 複数の言語毎に各言語の相対的な採用されにくさを表すペナルティ値と、単語と、単語に対応する基準音声データと、単語に対応するしきい値を登録する登録手段(8,9)と、
音声を入力する音声入力手段(1)と、
入力された音声データを取り込み、登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、各言語での選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識手段(16,17)と、
各言語の候補単語固有のしきい値と各候補単語の求めた距離値を比較して、しきい値を基準にして各候補単語を大きいものと小さいものに二分し、全ての言語について候補単語の距離値がしきい値よりも大きいときには認識不能とし、
一つの言語のみについて候補単語の距離値がしきい値よりも小さいときには、その候補単語を認識結果とし、
複数の言語について候補単語の距離値がしきい値よりも小さいときには、ペナルティ値に各候補単語固有のしきい値を合わせた合計値から、各候補単語の求めた距離値を相対的に引いた差を比較して、差の最も大きなものを採用し、
採用個数が一つの場合にはその候補単語を認識結果とし、
採用個数が複数の場合には何れか一つを選択して認識結果とする判定手段(18)と、
ペナルティ値を増減する経験値を、認識結果の言語とそれ以外の言語の少なくとも一方に付与すると共に、現在付与した経験値を各言語の既存のペナルティ値に加味してペナルティ値を更新するペナルティ値更新手段(19)とからなることを特徴とする複数言語音声認識システム。 - 請求項3記載の複数言語音声認識システムにおいて、
ユーザー自身又はユーザーの周囲の環境データを入力する環境入力手段(2)を設けると共に、
登録されている単語の基準音声データと入力音声データとの距離を比較してそのうち距離値の最も小さい単語を複数の言語毎に選択し、各言語での選択個数が一つの場合には選択した単語を各言語の候補単語とし、選択個数が複数の場合には何れか一つを選択して各言語の候補単語とする言語認識手段(16,17)の代わりに、
登録されている単語の基準音声データと入力音声データとの距離を比較して距離値が小さいものから複数の単語を複数の言語毎に抽出し、
抽出した単語と環境データを照合して全単語が環境データとは相関性がないときには何れか一つの単語を選択して候補単語とし、
一つ以上の単語が環境情報と相関性があるときには、最も相関性の高い単語を選択し、選択個数が一つの場合には、選択した単語を候補単語とし、選択個数が複数の場合には、何れか一つを選択して候補単語とする言語認識手段(16,17)を用いることを特徴とする複数言語音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003191875A JP4333838B2 (ja) | 2003-07-04 | 2003-07-04 | 複数言語音声認識プログラム及び複数言語音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003191875A JP4333838B2 (ja) | 2003-07-04 | 2003-07-04 | 複数言語音声認識プログラム及び複数言語音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005025024A JP2005025024A (ja) | 2005-01-27 |
JP4333838B2 true JP4333838B2 (ja) | 2009-09-16 |
Family
ID=34189320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003191875A Expired - Fee Related JP4333838B2 (ja) | 2003-07-04 | 2003-07-04 | 複数言語音声認識プログラム及び複数言語音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4333838B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1975923B1 (en) * | 2007-03-28 | 2016-04-27 | Nuance Communications, Inc. | Multilingual non-native speech recognition |
DE112013007617B4 (de) * | 2013-11-20 | 2020-06-18 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
JP6697270B2 (ja) * | 2016-01-15 | 2020-05-20 | シャープ株式会社 | コミュニケーション支援システム、コミュニケーション支援方法、およびプログラム |
-
2003
- 2003-07-04 JP JP2003191875A patent/JP4333838B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005025024A (ja) | 2005-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493850B (zh) | 成长型对话装置 | |
Haider et al. | Emotion recognition in low-resource settings: An evaluation of automatic feature selection methods | |
TWI582754B (zh) | Language pattern generating means, language pattern generating method and program, voice recognizing apparatus, and voice recognition method and program thereof | |
CN111833845B (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN109086264B (zh) | 说话继续判定方法、说话继续判定装置以及记录介质 | |
CN109509470A (zh) | 语音交互方法、装置、计算机可读存储介质及终端设备 | |
JP6866715B2 (ja) | 情報処理装置、感情認識方法、及び、プログラム | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP2007018234A (ja) | 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置 | |
JPWO2009081861A1 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
US10380125B2 (en) | Information processing apparatus and information processing method | |
CN109920409B (zh) | 一种声音检索方法、装置、系统及存储介质 | |
US11170763B2 (en) | Voice interaction system, its processing method, and program therefor | |
JP2009139390A (ja) | 情報処理システム、処理方法及びプログラム | |
JP2007514992A (ja) | オーディオ対話システム及びボイスブラウズ方法 | |
JP6976155B2 (ja) | 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム | |
JP4333838B2 (ja) | 複数言語音声認識プログラム及び複数言語音声認識システム | |
CN112836016B (zh) | 会议纪要生成方法、装置、设备和存储介质 | |
CN111694933A (zh) | 对话控制系统、对话控制方法以及存储介质 | |
JP7363107B2 (ja) | 発想支援装置、発想支援システム及びプログラム | |
CN113868424A (zh) | 文本主题的确定方法、装置、计算机设备及存储介质 | |
US11227578B2 (en) | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP2004258723A (ja) | 話題抽出装置、話題抽出方法およびプログラム | |
JP7435740B2 (ja) | 音声認識装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060524 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090609 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090616 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120703 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4333838 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120703 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130703 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |