JP3962904B2 - Speech recognition system - Google Patents
Speech recognition system Download PDFInfo
- Publication number
- JP3962904B2 JP3962904B2 JP2002015705A JP2002015705A JP3962904B2 JP 3962904 B2 JP3962904 B2 JP 3962904B2 JP 2002015705 A JP2002015705 A JP 2002015705A JP 2002015705 A JP2002015705 A JP 2002015705A JP 3962904 B2 JP3962904 B2 JP 3962904B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- command word
- unit
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識システムに関し、特に、音声検出誤りによる誤認識を改良した音声認識システムに関するものである。
【0002】
【従来の技術】
従来の音声認識システムとしては、例えば、日本電気株式会社より発売されているパソコン用音声認識ソフト「SmartVoice」や日本アイ・ビー・エム株式会社より発売されているパソコン用音声認識ソフト「ViaVoice」等が挙げられる。図10は従来例の音声認識システムを示すブロック図である。図10において、音声入力装置1は、例えば、マイクロフォンを用いて音声を受け取り、マイクロフォンの音声信号のA/D変換等の処理を行う。音声入力装置1でデジタル化された入力データは音声検出部2に渡される。音声検出部2は受け取った入力データに関し、データのパワーの変化等に基づいてユーザが発声した音声データがその中に存在するかどうかを判断し、ユーザが発声したと判断した音声データを切り出して音声認識部3に渡す。
【0003】
音声認識部3は受け取った音声データと認識辞書4を用いて音声認識処理を行い、認識結果を認識結果処理部8に渡す。認識辞書4は音声認識システムが受け付けるコマンド語を登録した辞書である。認識結果処理部8は受け取った認識結果に基づいた処理を行う。
【0004】
具体的に説明すると、例えば、認識辞書4に「ファイルを開く」というコマンド語が登録されていて、ユーザが音声入力装置1を通して「ファイルを開く」と発声したとする。音声入力装置1はユーザの発声を含む音声を受け取り、A/D変換等の処理を行い、入力データを音声検出部2に渡す。音声検出部2は入力データに関しパワーの変化等を調べ、ユーザが発声した「ファイルを開く」の部分の入力データが、発声された音声データであると判断して、その部分を音声データとして切り出し、音声認識部3に渡す。
【0005】
音声認識部3はユーザが「ファイルを開く」と発声した音声データと、認識辞書4に登録されているコマンド語を比較して音声認識処理を行い、音声データが認識辞書4に登録されている「ファイルを開く」というコマンド語と一致するため、「ファイルを開く」が発声されたと判断する。音声認識部3は認識結果を「ファイルを開く」として認識結果処理部8に渡す。認識結果処理部8は受け取った「ファイルを開く」という認識結果に基づいて実際にファイルを開くといった処理を行う。
【0006】
【発明が解決しようとする課題】
しかしながら、上述した従来の音声認識システムでは、次のような2つの問題点があった。即ち、音声検出部2はユーザの発声を1発声毎に検出・音声データの切り出しを行い、音声認識部3は受け取った音声データと認識辞書4とを比較してどのコマンド語が発声されたかを判断しているため、ユーザは認識辞書4に格納されているコマンド語の通りに、間を空けずに1発声で発声しなければならない。そのため、間を空けずに1発声で発声しないと正しく認識されない。
【0007】
例えば、「ファイルを開く」の代わりに「ファイルオープン」と発声したり、間を空けて「ファイルを」と「開く」の2発声で発声した場合は、それぞれ、「ファイルオープン」の音声データと認識辞書4、「ファイルを」の音声データと認識辞書4、「開く」の音声データと認識辞書4とで認識処理を行うため、正しく認識されなかった。
【0008】
また、音声検出部2はユーザが1発声と意識した音声の範囲に拘わらず、音声検出部2自身の判断により1発声の範囲を検出し、音声認識部3は受け取ったその音声データ毎に認識処理を行うため、ユーザが迷ったり言いよどんだために発声に間が空いて、音声検出が誤ってユーザの1発声を複数の発声に分割してしまった場合は、正しく認識されないことがあった。例えば、ユーザが迷って「ファイルを・・・開く」と発声し、音声検出部2が「ファイルを」の音声データと「開く」の音声データを別々に切り出してしまった場合には、正しく認識されなかった。
【0009】
一方、音声検出で誤って発声が分割されたり、途切れたりする問題に対処する方法としては、例えば、特開平9−198077号公報に記載の音声認識システムがある。しかし、同公報の音声認識システムは、音声検出が無音で区切られてしまうのを防ぐ方法であり、仮に、ユーザがシステムの想定を超えた一定時間以上の無音を発声中に入れた場合には、分割されて音声が検出されるため、対処することができなかった。
【0010】
また、言いよどみが入力された場合への対処方法としては、例えば、特開平6−118989号公報に記載の連続音声認識方法があるが、同公報の方法の場合も、発声中に無音が入り、分割されて音声検出された場合には対処することができなかった。
【0011】
本発明は、上記従来の問題点に鑑みなされたもので、その目的は、ユーザがコマンド語を発声する時に間を空けて発声しても正しく認識できる音声認識システムを提供することにある。
【0012】
【課題を解決するための手段】
本発明の音声認識システムは、音声入力手段と、前記音声入力手段から受け取った入力データから音声を検出する手段と、先頭のノードから終端のノードに繋がる一本のアークで表され、各々に識別子が付与されたコマンド語を登録する認識辞書と、前記認識辞書のコマンド語を発声を受け付ける所定単位に分解すると共に、前記所定単位が各々独立したアークとなるようにネットワーク文法を変更し、且つ、前記コマンド語の各アークに対して、元のアークの識別子と元のアークが何個のアークに区切られたかを示す個数とそのアークが元のアークの先頭から何番目のアークであるかを示す順番とを含む識別子を対応させたテーブルを作成する手段と、前記検出手段により検出された音声に対して認識を行い、認識結果を保持する手段と、前記テーブルを参照して前記認識結果に対して可能性のある識別子を保存する手段と、前記保存された識別子を組み合わせ、その組み合わせ結果が前記認識辞書に登録されている元のコマンド語と一致した時に当該コマンド語を認識する手段とを備えたことを特徴とする。
【0013】
本発明においては、コマンド語が複数の発声に分割して発声された場合においても、そのコマンド語を正しく認識できるという効果が得られる。
【0014】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。
【0015】
(第1の実施形態)
図1は本発明の音声認識システムの第1の実施形態の構成を示すブロック図である。なお、図1では図10の従来の音声認識システムと同一部分は同一符号を付している。図1において、音声入力装置1はマイクロフォン等を用いて音声を受け取り、マイクロフォンからの音声信号のA/D変換等を行い、入力された音声をデジタルの入力データとして生成する。音声検出部2は音声入力装置1から受け取った入力データに対し、データのパワーの変化等を計算することによりユーザの発声した音声が含まれているかどうかを判断し、ユーザの発声した音声が含まれていると判断した場合、その部分を音声データとして切り出して音声認識部3に渡す。
【0016】
音声認識部3は受け取った音声データと認識辞書変更部5から渡された認識辞書とを用いて音声認識処理を行い、認識結果を認識結果保持部6に格納する。認識辞書4は認識対象となるコマンド語が登録された辞書である。認識辞書変更部5は詳しく後述するように認識辞書4に対し、登録されているコマンド語を単語或いは音節等の所定の単位に分解し、その単語列/音節列/その他の単位による列の部分列も認識対象となるように認識辞書4を変更する。
【0017】
認識結果保持部6は音声認識部3より認識結果を受け取り、複数の認識結果を保持する。認識結果制御部7は認識結果保持部6に保持されている認識結果を参照し、それらの組み合わせが元の認識辞書4に格納されているコマンド語になるかどうかを判断し、認識結果の組み合わせがコマンド語になると判断した場合は、そのコマンド語を認識結果処理部8に渡し、認識結果保持部6に格納されている内容を空にする。認識結果処理部8は認識結果のコマンド語を受け取り、そのコマンド語に対応した処理を行う。
【0018】
次に、本実施形態の動作を具体例を挙げて詳細に説明する。まず、認識辞書4は図2(a)に示すようなネットワーク文法で与えられているとする。即ち、この認識辞書4は先頭のノード101から終端のノード102までを繋ぐパスが認識対象となるコマンド語を表しており、「ファイル を 開く」、「ファイル を 閉じる」、「図 を 開く」、「図 を 閉じる」の4通りのコマンド語が認識対象となっている。また、認識辞書4はネットワーク文法の各アークが単語で構成されている。
【0019】
認識辞書変更部5はこの4通りのコマンド語に対し、単語を境界として部分的に発声したものも受け付けるようにするため、先頭のノード101と終端のノード102以外のノードに対し、先頭のノード101及び終端のノード102に繋がるアークを作成する。例えば、図2(a)に示すネットワーク文法の場合、図2(b)に示すようにアーク105、106、107、108の4つのアークを追加する。
【0020】
これらの追加されたアークは、認識されるコマンド語はなし(図2(b)ではφで表現する)となっている。これにより、図2(b)のネットワーク文法では、「ファイル」、「ファイル を」、「図」、「図を」、「開く」、「を開く」、「閉じる」、「を 閉じる」等、元のコマンド語を部分的に発声したものも受け付けられる。
【0021】
ここで、ユーザが音声入力装置1を通して、まず、「ファイルを」と発声したとする。この発声は音声検出部2を通して処理され、音声検出部2では「ファイルを」が発声された音声データと判断し、その部分を音声認識部3に渡す。一方、認識辞書変更部5は図2(b)に示すように変更した認識辞書を作成しており、音声認識部3では変更した認識辞書を用いて認識処理を行う。この場合、図2(b)の認識辞書では「ファイルを」のコマンド語が受け付けられるため、音声認識部3は「ファイルを」を認識し、認識結果保持部6に「ファイルを」が認識結果として保持される。
【0022】
認識結果保持部6に認識結果が保持されると、認識結果制御部7は認識結果保持部6に保持されている認識結果の組み合わせが、元の認識辞書4により受け付けられるかどうかを調べる。この時点では、「ファイルを」は図2(a)のネットワーク文法では受け付けられないため、元のコマンド語はまだ認識されていないと判断し、認識結果処理部8には何も渡さない。
【0023】
次に、ユーザが続けて音声入力装置1を通して「開く」と発声したとする。この時、同様に音声検出部2、音声認識部3により処理され、この時も、図2(b)の認識辞書では「開く」のコマンド語が受け付けられるため、音声認識部3は「開く」を認識し、これが認識結果として認識結果保持部6に保持される。認識結果制御部7は認識結果保持部6に認識結果が追加されたため、再度、認識結果の組み合わせが、元の認識辞書4により受け付けられるかどうかを調べる。
【0024】
今回は、「ファイルを」と「開く」を組み合わせた「ファイルを開く」が図2(a)のネットワーク文法で受け付けられるため、認識結果処理部8に「ファイルを開く」を認識結果として渡す。また、認識結果保持部6に保持されている内容を空にする。このように本実施形態では、ユーザが「ファイルを」、「開く」と区切って発声したものを「ファイルを開く」のコマンド語として正しく認識することができる。
【0025】
(第2の実施形態)
次に、本発明の第2実施形態について説明する。第2の実施形態の基本的構成は図1の第1の実施形態と同様であるが、認識辞書4の構造が異なっている。それに伴い、認識辞書変更部5、認識結果制御部7の動作が異なっている。本実施形態では、認識辞書4が図3(a)に示すように与えられているとする。この認識辞書4では、コマンド語が先頭のノードから終端のノードに繋がる一本のアークで表されている。また、各コマンド語には、#W001、#W002、#W003の識別子が付与されている。
【0026】
認識辞書変更部5は、まず、認識辞書4のコマンド語を発声を受け付ける単位に分解する。この場合は、単語単位の区切りを受け付けるものとし、コマンド語を形態素解析する等の手段により単語単位に分解する。そして、図3(b)に示すように各単語が独立したアークとなるようにネットワーク文法を変更する。その際、元のアークに付与されていた識別子を残しておくため、各アークに対し元となったアークの識別子と、そのアークが元のアークの先頭から何番目かと、いくつのアークに区切られたかの情報を付与する。
【0027】
例えば、図3(b)において「保存」というアークの「#W003#3#4」のうち「#W003」は、元のアークが「#W003」であることを表し、「#3#4」は4つのアークに分解されたうちの先頭から3番目であることを表している。
【0028】
このようにして変更された図3(b)のネットワーク文法に対し、認識辞書変更部5は、更に、第1の実施形態と同様に先頭と終端以外の各ノードに対し先頭のノード及び終端のノードに繋がるコマンド語のないアークを追加する。図4は図3(b)に対してこの処理を行ったネットワーク文法を示す。また、この際、同じコマンド語が複数のアークに出現する可能性もあるため、認識辞書変更部5は、図5に示すように認識されるコマンド語とアークに付与された識別子のテーブル51を保持する。
【0029】
ここで、まず、ユーザが音声入力装置1を通して「ファイルを」と発声したとする。この音声は、音声検出部2、音声認識部3を通して処理され、音声認識部3では「ファイル を」が認識結果として得られる。この認識結果は、認識結果保持部6に保持される。この時点では、図6に示すように認識結果保持部6に“ファイルを”が保持される。
【0030】
認識結果制御部7は、認識結果保持部6に保持されている認識結果が、元の認識辞書4で受け付けられるかどうかを調べる。まず、図5のテーブル51を参照し、認識結果に対し可能性のある識別子を調べ、認識結果保持部6に追加情報として保持する。この時の認識結果保持部6には、図6に111として示すように「#W001#1#3」、「#W001#2#3」、「#W002#1#3」、「#W002#2#3」、「#W003#2#4」が保持された状態となる。この状態では、111に保持されている識別子を組み合わせても、元の識別子にならないため、まだ元のコマンド語は認識されていないと判断し、認識結果処理部8には何も通知しない。
【0031】
次に、ユーザが続けて「保存」と発声したとする。この「保存」はユーザが言い間違えて発声したものとする。この場合も同様に入力音声が処理され、図6に示すように認識結果保持部6に“保存”の認識結果が保持される。認識結果制御部7は、同様にテーブル51の識別子の情報を認識結果保持部6に追加し、図6に112として示すように保存に対応する識別子「#W003#3#4」が保持される。この時の認識結果保持部6の状態は、図6の111と112を合わせたものになる。認識結果制御部7はこの状態でも元の識別子を構成できないため、まだ元のコマンド語は認識されていないと判断する。
【0032】
次いで、ユーザが「閉じる」と発声したとする。同様に入力音声が認識され、図6に示すように認識結果保持部6に“閉じる”の認識結果が保持される。認識結果制御部7は、同様にテーブル51の識別子の情報を認識結果保持部6に追加し、図6に113として示すように認識結果保持部6に「閉じる」に対応する識別子「#W002#3#3」が追加される。この時の認識結果保持部6の状態は、図6の111、112、113を合わせたものになる。
【0033】
この時、認識結果保持部6に付与された識別子を見ると、先頭から「#W002#1#3」、「#W002#2#3」、「#W002#3#3」の3つを繋げて「#W002」が完成する。よって、この時点で認識結果制御部7は、「#W002」のコマンド語、即ち「ファイルを閉じる」のコマンド語を認識できたと判断し、認識結果処理部8に「ファイルを閉じる」の認識結果を渡す。また、認識結果制御部7は認識結果保持部6に保持している内容を空にする。
【0034】
このように本実施形態では、ユーザが「ファイルを」、「保存」、「閉じる」のように途中で言い間違いや言いよどみ等余計な発声も含めて、区切って発声したものを、「ファイルを閉じる」のコマンド語として正しく認識することができる。
【0035】
また、以上の実施形態では、コマンド語を単語を境界として区切って発声できると説明したが、本発明は、単語ではなく、例えば、音節を境界として区切って発声できるシステムとしてもよい。例えば、図7(a)に示すような認識辞書があった場合、コマンド語の読みを音節単位に分解し、図7(b)に示すようにネットワーク文法の各アークも音節単位に分解する。以降の処理は図3の認識辞書に対して行った処理と同様である。このような実施形態では、「さく」、「せい」や「へん」、「こう」のようにコマンド語を音節部分で区切って発声しても認識することが可能である。
【0036】
更に、単語単位や音節単位以外にも、システムで定義した語句を部分的に発声できる境界としてもよい。例えば、2音節程度からなる語句を定義し、その語句によりコマンド語を分解するという方法や、文節によりコマンド語を分解するという方法等である。前者の方法としては、例えば、「おう」、「こう」、「そう」、「とう」等の2音節程度の語句を定義する。そして、例えば、これらの定義された語句を単位とすることで、「応答」というコマンド語は「おう」と「とう」に分解される。
【0037】
また、このようにネットワーク文法を拡張すると、ネットワーク文法が複雑になり、処理速度や認識性能に影響を与えることも考えられる。そのため、例えば、図3(b)のネットワーク文法に対し、同じコマンド語の付いたアークをまとめることにより、図8に示すようにネットワーク文法を単純化するという方法も考えられる。
【0038】
また、このようにコマンド語を部分的に発声したものも受け付けるように認識辞書を変更した場合、コマンド語の数の増加や、似たコマンド語の増加により誤認識が増えることが考えられる。例えば、図9(a)のような認識辞書の場合、「ファイル」と「入る」というコマンド語が受け付けられ、「ファイル」と「入る」は音響的に似ているため、「ファイル」と発声しても「入る」と誤認識されてしまうことが考えられる。このような問題の対策として、例えば、認識結果の第1位候補だけでなく、第2位以降の候補も使用するという方法がある。これは、音声認識手段3が音声認識時に複数の候補を認識結果保持部6に保持しておく。
【0039】
図9(b)はこの場合の認識結果保持部6に保持された認識結果の例を示す。ここでは、ユーザが「ファイル」と発声したものが、第1位候補では「入る」と認識され、「ファイル」は第2位候補として認識されたものとする。このような場合、図9(b)に示すように認識結果保持部6に第1位候補の他に第2位候補も含めて保持し、認識結果制御部7が第2位候補も含めて元のコマンド語の完成を判断することで正しく認識でき、誤認識が増える場合に対処できる。また、図9(b)に示すように「を」と「と」、「開く」と「入る」等のような場合も、同様に第1位候補、第2位候補を保持し、第2位候補も含めて元のコマンド語になるかを判断することで正しく認識できる。
【0040】
【発明の効果】
以上説明したように本発明によれば、認識辞書に登録されているコマンド語を所定の単位に分解し、複数の認識結果が得られた時にそれらの組み合わせが元のコマンド語になるかどうかを判断しているので、ユーザがコマンド語を発声する時に元々定義されているコマンド語の通りに1発声で発声するのではなく、長いコマンド語や1発声では言いにくいコマンド語を分割して発声した場合であっても、音声を正しく認識することができる。
【0041】
また、ユーザの意図とは関係なく音声検出部自身で1発声の範囲を判断し、音声データを切り出すが、音声検出部がユーザの意図しないように1発声を複数の発声に分けて切り出した場合でも、元のコマンド語を部分的に発声したものも受け付けられるようになり、認識結果保持部には元のコマンド語が認識されるまで複数の認識結果が保持され、それらの複数の認識結果を組み合わせて元のコマンド語になるかを判断するため、ユーザが発声の途中で言いよどんだり、詰まったりし、音声検出で区切られるくらいの大きな間が空いてしまった場合でも正しく認識することができる。
【図面の簡単な説明】
【図1】本発明による音声認識システムの第1の実施形態の構成を示すブロック図である。
【図2】図1の実施形態に用いる認識辞書のネットワーク文法の一例及びそれを認識辞書変更部により変更した認識辞書を示す図である。
【図3】本発明の第2の実施形態で用いる認識辞書のネットワーク文法の一例及びそれを認識辞書変更部により変更した認識辞書を示す図である。
【図4】図3のネットワーク文法に対しコマンド語がなしのアークが付与された認識辞書を示す図である。
【図5】コマンド語と識別子の対応を示すテーブルの図である。
【図6】認識結果保持部に保持された認識結果の例を示す図である。
【図7】認識辞書のコマンド語を音節単位で分解する場合の例を説明する図である。
【図8】コマンド語が分解された認識辞書に対し、同じコマンド語のアークをまとめて単純化した例を示す図である。
【図9】複数の認識候補を用いて認識処理を行う場合の例を説明する図である。
【図10】従来例の音声認識システムの構成を示すブロック図である。
【符号の説明】
1 音声入力装置
2 音声検出部
3 音声認識部
4 認識辞書
5 認識辞書変更部
6 認識結果保持部
7 認識結果制御部
8 認識結果処理部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition system, and more particularly to a speech recognition system that improves erroneous recognition due to speech detection errors.
[0002]
[Prior art]
Conventional voice recognition systems include, for example, PC voice recognition software “SmartVoice” released by NEC Corporation, PC voice recognition software “ViaVoice” released by IBM Japan, Ltd., etc. Is mentioned. FIG. 10 is a block diagram showing a conventional speech recognition system. In FIG. 10, the
[0003]
The
[0004]
More specifically, for example, it is assumed that a command word “open file” is registered in the
[0005]
The
[0006]
[Problems to be solved by the invention]
However, the above-described conventional speech recognition system has the following two problems. That is, the
[0007]
For example, if you say “file open” instead of “open”, or if you say “file open” and “open” with two voices, Since recognition processing is performed by the
[0008]
The
[0009]
On the other hand, as a method for coping with the problem that the utterance is divided or interrupted by voice detection, there is a voice recognition system described in Japanese Patent Laid-Open No. 9-198077, for example. However, the speech recognition system of the same publication is a method for preventing the voice detection from being divided by silence, and if the user puts silence in the utterance for a certain time exceeding the assumption of the system, Because it was divided and the voice was detected, it could not be dealt with.
[0010]
In addition, as a method for dealing with a case where stagnation is input, for example, there is a continuous speech recognition method described in Japanese Patent Laid-Open No. 6-118989. It was not possible to cope with the case where the voice was detected after being divided.
[0011]
The present invention has been made in view of the above-described conventional problems, and an object of the present invention is to provide a speech recognition system capable of correctly recognizing even when a user utters a command word after a while.
[0012]
[Means for Solving the Problems]
The voice recognition system according to the present invention is represented by voice input means, means for detecting voice from input data received from the voice input means, and a single arc connected from the first node to the last node, each having an identifier. Recognizing a command word to which is given, and decomposing the command word of the recognition dictionary into predetermined units for receiving utterances, changing the network grammar so that the predetermined units are independent arcs, and For each arc in the command word, an identifier of the original arc, a number indicating how many arcs the original arc is divided into, and the number of arcs from the beginning of the original arc. Means for creating a table in which identifiers including orders are associated, means for recognizing speech detected by the detection means, and holding a recognition result; The means for storing a possible identifier for the recognition result with reference to the table is combined with the stored identifier, and the combination result matches the original command word registered in the recognition dictionary And a means for recognizing the command word .
[0013]
In the present invention, even when a command word is divided into a plurality of utterances, the command word can be recognized correctly.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described in detail with reference to the drawings.
[0015]
(First embodiment)
FIG. 1 is a block diagram showing the configuration of the first embodiment of the speech recognition system of the present invention. In FIG. 1, the same parts as those of the conventional speech recognition system of FIG. In FIG. 1, a
[0016]
The
[0017]
The recognition
[0018]
Next, the operation of the present embodiment will be described in detail with a specific example. First, it is assumed that the
[0019]
The recognition
[0020]
These added arcs have no recognized command words (represented by φ in FIG. 2B). Thus, in the network grammar of FIG. 2 (b), “file”, “file”, “diagram”, “diagram”, “open”, “open”, “close”, “close”, etc. A partial utterance of the original command word is also accepted.
[0021]
Here, it is assumed that the user first utters “file” through the
[0022]
When the recognition result is held in the recognition
[0023]
Next, it is assumed that the user continuously utters “open” through the
[0024]
This time, “Open file” combining “Open file” and “Open” is accepted by the network grammar of FIG. 2A, and “Open file” is passed to the recognition
[0025]
(Second Embodiment)
Next, a second embodiment of the present invention will be described. The basic configuration of the second embodiment is the same as that of the first embodiment of FIG. 1, but the structure of the
[0026]
The recognition
[0027]
For example, in FIG. 3B, “# W003” in “
[0028]
For the network grammar shown in FIG. 3B changed as described above, the recognition
[0029]
Here, first, it is assumed that the user utters “file” through the
[0030]
The recognition result control unit 7 checks whether the recognition result held in the recognition
[0031]
Next, it is assumed that the user continuously says “Save”. It is assumed that this “save” is uttered by the user in error. Also in this case, the input voice is processed in the same manner, and the recognition result “save” is held in the recognition
[0032]
Next, assume that the user utters “close”. Similarly, the input voice is recognized, and the recognition result “closed” is held in the recognition
[0033]
At this time, when looking at the identifiers assigned to the recognition
[0034]
As described above, in the present embodiment, what the user uttered in a divided manner including “excluded” utterances such as “save file”, “save”, “close”, and other utterances in the middle is “close file”. "Can be correctly recognized as a command word.
[0035]
In the above embodiment, it has been described that a command word can be uttered by dividing a word as a boundary. However, the present invention may be a system that can utter a voice by dividing not a word but a syllable, for example. For example, when there is a recognition dictionary as shown in FIG. 7A, command word reading is decomposed into syllable units, and each arc of the network grammar is also decomposed into syllable units as shown in FIG. 7B. The subsequent processing is the same as the processing performed on the recognition dictionary of FIG. In such an embodiment, it is possible to recognize a command word by dividing it into syllable parts such as “saku”, “sei”, “hen”, and “ko”.
[0036]
Further, in addition to word units and syllable units, it is also possible to use boundaries that allow partial utterance of words defined by the system. For example, there are a method of defining a phrase consisting of about two syllables and decomposing a command word by the phrase, a method of decomposing a command word by a phrase, and the like. As the former method, for example, a phrase of about two syllables such as “Ou”, “Kou”, “So”, “Tou” is defined. Then, for example, by using these defined phrases as a unit, the command word “response” is decomposed into “o” and “to”.
[0037]
In addition, if the network grammar is expanded in this way, the network grammar becomes complicated, which may affect the processing speed and recognition performance. Therefore, for example, a method of simplifying the network grammar as shown in FIG. 8 by combining arcs with the same command word with respect to the network grammar of FIG.
[0038]
In addition, when the recognition dictionary is changed so as to accept a command word partially uttered in this way, it is conceivable that misrecognition increases due to an increase in the number of command words or an increase in similar command words. For example, in the case of the recognition dictionary as shown in FIG. 9A, the command words “file” and “enter” are accepted, and “file” and “enter” are acoustically similar. Even so, it may be misrecognized as “enter”. As a countermeasure for such a problem, for example, there is a method of using not only the first candidate of the recognition result but also the second and subsequent candidates. This is because the speech recognition means 3 holds a plurality of candidates in the recognition
[0039]
FIG. 9B shows an example of the recognition result held in the recognition
[0040]
【The invention's effect】
As described above, according to the present invention, it is determined whether or not a command word registered in the recognition dictionary is decomposed into a predetermined unit, and when a plurality of recognition results are obtained, the combination of them becomes the original command word. Therefore, when a user utters a command word, the command word is not uttered as one command word originally defined, but a long command word or a command word difficult to say with one utterance is divided and uttered. Even in this case, the voice can be recognized correctly.
[0041]
In addition, when the voice detection unit itself determines the range of one utterance regardless of the user's intention and cuts out the voice data, the voice detection unit cuts out one utterance divided into a plurality of utterances so as not to be the user's intention However, a part of the original command word can be accepted, and the recognition result holding unit holds a plurality of recognition results until the original command word is recognized. Since it is determined whether the original command word is combined, it can be correctly recognized even if the user utters or clogs in the middle of utterance, and there is a space that is separated by voice detection .
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a first embodiment of a speech recognition system according to the present invention.
FIG. 2 is a diagram illustrating an example of a network grammar of a recognition dictionary used in the embodiment of FIG. 1 and a recognition dictionary in which the recognition dictionary is changed by a recognition dictionary changing unit.
FIG. 3 is a diagram illustrating an example of a network grammar of a recognition dictionary used in the second embodiment of the present invention and a recognition dictionary obtained by changing the recognition grammar using a recognition dictionary changing unit.
4 is a diagram showing a recognition dictionary in which an arc having no command word is added to the network grammar of FIG. 3; FIG.
FIG. 5 is a table showing the correspondence between command words and identifiers.
FIG. 6 is a diagram illustrating an example of a recognition result held in a recognition result holding unit.
FIG. 7 is a diagram for explaining an example in the case of decomposing a command word in a recognition dictionary in units of syllables.
FIG. 8 is a diagram illustrating an example in which arcs of the same command word are collectively simplified for a recognition dictionary in which the command word is decomposed.
FIG. 9 is a diagram for explaining an example in a case where recognition processing is performed using a plurality of recognition candidates.
FIG. 10 is a block diagram showing a configuration of a conventional speech recognition system.
[Explanation of symbols]
DESCRIPTION OF
Claims (3)
前記音声入力手段から受け取った入力データから音声を検出する手段と、
先頭のノードから終端のノードに繋がる一本のアークで表され、各々に識別子が付与されたコマンド語を登録する認識辞書と、
前記認識辞書のコマンド語を発声を受け付ける所定単位に分解すると共に、前記所定単位が各々独立したアークとなるようにネットワーク文法を変更し、且つ、前記コマンド語の各アークに対して、元のアークの識別子と元のアークが何個のアークに区切られたかを示す個数とそのアークが元のアークの先頭から何番目のアークであるかを示す順番とを含む識別子を対応させたテーブルを作成する手段と、
前記検出手段により検出された音声に対して認識を行い、認識結果を保持する手段と、
前記テーブルを参照して前記認識結果に対して可能性のある識別子を保存する手段と、
前記保存された識別子を組み合わせ、その組み合わせ結果が前記認識辞書に登録されている元のコマンド語と一致した時に当該コマンド語を認識する手段とを備えたことを特徴とする音声認識システム。 Voice input means;
Means for detecting voice from input data received from the voice input means;
A recognition dictionary that registers a command word that is represented by a single arc connected from the first node to the last node, and to which each is assigned an identifier,
The command words in the recognition dictionary are decomposed into predetermined units for receiving utterances, the network grammar is changed so that the predetermined units are independent arcs, and the original arc is determined for each arc of the command words. A table in which identifiers including the number of arcs that indicate the number of arcs into which the original arc is divided and the order that indicates the number of arcs from the beginning of the original arc are created. Means,
Means for recognizing the sound detected by the detecting means and holding a recognition result;
Means for storing a possible identifier for the recognition result with reference to the table;
A speech recognition system comprising: a combination of the stored identifiers, and means for recognizing the command word when the combination result matches the original command word registered in the recognition dictionary .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002015705A JP3962904B2 (en) | 2002-01-24 | 2002-01-24 | Speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002015705A JP3962904B2 (en) | 2002-01-24 | 2002-01-24 | Speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003216179A JP2003216179A (en) | 2003-07-30 |
JP3962904B2 true JP3962904B2 (en) | 2007-08-22 |
Family
ID=27652008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002015705A Expired - Fee Related JP3962904B2 (en) | 2002-01-24 | 2002-01-24 | Speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3962904B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11416687B2 (en) * | 2020-03-04 | 2022-08-16 | Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. | Method and apparatus for recognizing speech |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5519126B2 (en) * | 2008-06-27 | 2014-06-11 | アルパイン株式会社 | Speech recognition apparatus and speech recognition method |
US10089061B2 (en) | 2015-08-28 | 2018-10-02 | Kabushiki Kaisha Toshiba | Electronic device and method |
US20170069309A1 (en) * | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
US20170075652A1 (en) | 2015-09-14 | 2017-03-16 | Kabushiki Kaisha Toshiba | Electronic device and method |
CN105931639B (en) * | 2016-05-31 | 2019-09-10 | 杨若冲 | A kind of voice interactive method for supporting multistage order word |
KR101994780B1 (en) * | 2018-10-08 | 2019-09-30 | 넷마블 주식회사 | Method and apparatus for registering shortcut key and excuting the shortcut key |
-
2002
- 2002-01-24 JP JP2002015705A patent/JP3962904B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11416687B2 (en) * | 2020-03-04 | 2022-08-16 | Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. | Method and apparatus for recognizing speech |
Also Published As
Publication number | Publication date |
---|---|
JP2003216179A (en) | 2003-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6374214B1 (en) | Method and apparatus for excluding text phrases during re-dictation in a speech recognition system | |
JP5093963B2 (en) | Speech recognition method with replacement command | |
EP1055226B1 (en) | System for using silence in speech recognition | |
US6735565B2 (en) | Select a recognition error by comparing the phonetic | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
JP2000122691A (en) | Automatic recognizing method for spelling reading type speech speaking | |
JP4960596B2 (en) | Speech recognition method and system | |
JP4867622B2 (en) | Speech recognition apparatus and speech recognition method | |
JP3803029B2 (en) | Voice recognition device | |
GB2451907A (en) | Device for modifying and improving the behavior of speech recognition systems | |
US20150269930A1 (en) | Spoken word generation method and system for speech recognition and computer readable medium thereof | |
JPH09127978A (en) | Voice recognition method, device therefor, and computer control device | |
JP3962904B2 (en) | Speech recognition system | |
US20020082829A1 (en) | Two-tier noise rejection in speech recognition | |
KR101122591B1 (en) | Apparatus and method for speech recognition by keyword recognition | |
EP1316944A2 (en) | Sound signal recognition system and method, and dialog control system and method using it | |
JP2000089786A (en) | Method for correcting speech recognition result and apparatus therefor | |
JP4220151B2 (en) | Spoken dialogue device | |
EP0987681B1 (en) | Speech recognition method and apparatus | |
JP2004046106A (en) | Speech recognition device and speech recognition program | |
JP3039453B2 (en) | Voice recognition device | |
JP2001013992A (en) | Voice understanding device | |
JP2002041082A (en) | Voice-recognition dictionary | |
JP2757356B2 (en) | Word speech recognition method and apparatus | |
JP6451171B2 (en) | Speech recognition apparatus, speech recognition method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040512 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070508 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100601 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110601 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110601 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120601 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120601 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130601 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |