JP6437092B2 - Speech recognition apparatus, speech recognition method, and speech recognition program - Google Patents
Speech recognition apparatus, speech recognition method, and speech recognition program Download PDFInfo
- Publication number
- JP6437092B2 JP6437092B2 JP2017505903A JP2017505903A JP6437092B2 JP 6437092 B2 JP6437092 B2 JP 6437092B2 JP 2017505903 A JP2017505903 A JP 2017505903A JP 2017505903 A JP2017505903 A JP 2017505903A JP 6437092 B2 JP6437092 B2 JP 6437092B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- keyword
- score
- unit
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Description
この発明は、統計言語モデルを使用したキーワード抽出型の音声認識技術に関するものである。 The present invention relates to a keyword extraction type speech recognition technique using a statistical language model.
キーワード抽出型の音声認識技術では、ユーザの発話内容の全てを一字一句正しく認識する必要はなく、キーワードと呼ばれる重要語だけ正しく認識することが要求される。例えば認識対象が料理名とその付帯表現であり、「寿司」がキーワードであって、「寿司を食べたい」との発話に対する認識結果が「寿司食べた」である場合、認識結果としては誤りを含むが、キーワードである「寿司」は正しく抽出しており正解であると言える。一方、「テニスしたいね」との発話に対する認識結果が「手に寿司鯛ね」である場合、認識結果としてはユーザが発話していない「寿司」を抽出しているため誤りである。つまり、あるキーワードを含む発話に対しては当該キーワードを正しく抽出し、当該キーワードを含まない発話に対しては当該キーワードを誤って抽出しないことが求められる。
なお、以下では上述した「テニスしたいね」のように認識対象外の発話をタスク外発話と称する。In the keyword extraction type speech recognition technology, it is not necessary to correctly recognize all of the user's utterance contents one by one, and it is required to correctly recognize only important words called keywords. For example, if the recognition target is a dish name and its accompanying expression, “sushi” is the keyword, and the recognition result for the utterance “I want to eat sushi” is “I ate sushi”, the recognition result is incorrect. Although it is included, the keyword “sushi” is correctly extracted and can be said to be correct. On the other hand, if the recognition result for the utterance “I want to play tennis” is “Sushi in hand”, the recognition result is an error because “sushi” that is not uttered by the user is extracted. That is, it is required to correctly extract the keyword for utterances including a certain keyword and not to extract the keyword erroneously for utterances not including the keyword.
In the following, utterances that are not subject to recognition, such as “I want to play tennis” described above, are referred to as utterances outside a task.
また、単語間の接続のしやすさを言語尤度と呼ぶ数値で表す統計言語モデルを用いた音声認識技術では、学習コーパスから言語尤度を学習することで、学習コーパス内に高頻度で出現する単語の組み合わせに対して高い言語尤度を与える。また、複数の語彙をクラスという1つのグループとして表現したクラス言語モデルを用いることで、スパース(粗密な情報)な学習コーパスから効率良く言語尤度を学習することができる。
例えば学習コーパス内に「寿司が食べたい」というコーパスがあった場合、「寿司、ラーメン、カレーライス、」を1つのクラスであるキーワードクラス<A>とし、「<A>が食べたい」という表現にすることにより、「寿司が食べたい」、「ラーメンが食べたい」および「カレーライスが食べたい」という単語の並びに対する言語尤度を学習することができる。In speech recognition technology using a statistical language model that expresses the ease of connection between words as a language likelihood, it appears in the learning corpus at a high frequency by learning the language likelihood from the learning corpus. High language likelihood is given to a combination of words. Further, by using a class language model in which a plurality of vocabularies are expressed as one group called a class, it is possible to efficiently learn a language likelihood from a sparse (rough information) learning corpus.
For example, if there is a corpus “I want to eat sushi” in the learning corpus, “Sushi, Ramen, Curry and Rice” is the one class class <A>, and the expression “I want to eat <A>” By doing so, it is possible to learn the language likelihood for the word sequences “I want to eat sushi”, “I want to eat ramen” and “I want to eat curry and rice”.
統計言語モデルを用いた音声認識技術では、学習コーパスに存在しないN−gram確立に基づく未知語に対しても低次のN−gram確率から高次のN−gram確率を補完するバックオフという手法で言語尤度を与えている。当該バックオフにより、学習コーパスに含まれない単語の連鎖を含む表現も受理可能になる。しかし、認識結果からキーワードを抽出するタスクではバックオフの結果、学習コーパスに含まれない発話に対してキーワードの誤検出が多くなるという問題があった。 In speech recognition technology using a statistical language model, a method called back-off that complements high-order N-gram probabilities from low-order N-gram probabilities for unknown words based on N-gram establishment that does not exist in the learning corpus. Gives the language likelihood. By this back-off, an expression including a chain of words that is not included in the learning corpus can be accepted. However, in the task of extracting keywords from the recognition result, there is a problem that as a result of backoff, keyword misdetection increases for utterances not included in the learning corpus.
例えば、「寿司、ラーメン、カレーライス」を抽出すべきキーワードクラスとして言語モデルを学習した場合を考える。この場合、「テニス」が学習コーパスに含まれない未知語だとすると、タスク外発話「テニスしたいね」に対して「手に寿司鯛ね」というように音響的には合致しているがN−gram確立に基づく未知語から構成される認識結果のスコアが高くなり、キーワードである「寿司」が誤って抽出されてしまう。このようにキーワードの誤検出が発生すると、ユーザが意図していないキーワードまたはそれに紐づく機能が提示されることとなり、ユーザに不快感を与えてしまう。特にキーワード長が短い場合、発話の一部分についてキーワードとの音響的な類似度が大きくなる頻度が高くなり、上述した例のようにキーワードの誤検出が多く発生する。 For example, consider a case where a language model is learned as a keyword class for extracting “sushi, ramen, curry and rice”. In this case, if “tennis” is an unknown word that is not included in the learning corpus, it is acoustically matched to the out-task utterance “I want to play tennis” as “sushi in hand”, but N-gram The score of the recognition result composed of unknown words based on the establishment becomes high, and the keyword “sushi” is erroneously extracted. In this way, when a keyword is erroneously detected, a keyword that is not intended by the user or a function associated with the keyword is presented, which causes discomfort to the user. In particular, when the keyword length is short, the frequency with which the acoustic similarity with the keyword increases for a part of the utterance increases, and the erroneous detection of the keyword occurs frequently as in the example described above.
上述した問題に対して、キーワードの1−gram確率を低くすることにより、キーワードの誤検出が抑制される。 By reducing the 1-gram probability of the keyword with respect to the above-described problem, erroneous keyword detection is suppressed.
また、上述した問題に対して特許文献1には、局所的なマッチングにより誤って挿入される可能性の高い短い単語に対して高い単語挿入ペナルティを与え、短い単語が連続して挿入されるのを抑制するために、挿入された単語の単語長を検出し、検出した単語長が短くなるほど大きなペナルティが課されるように単語挿入ペナルティを決定する音声認識装置が開示されている。
In addition, for the problem described above,
しかしながら、上述したキーワードの1−gram確率を低くする技術では、短いキーワードのみの発話に対する認識性能が低下するという課題があった。また、バックオフの手法を適用しない、あるいはバックオフで計算される未知語に対するN−gram確率値を低くすると、学習コーパスに含まれない表現の認識が困難となり、キーワードの抽出性能が低下するという課題があった。
また、上述した特許文献1の技術においても、短いキーワードを含む発話の認識性能が低下するという課題があった。However, the above-described technique for reducing the 1-gram probability of a keyword has a problem that the recognition performance for an utterance of only a short keyword is lowered. Further, if the back-off method is not applied or the N-gram probability value for an unknown word calculated by the back-off is lowered, it is difficult to recognize expressions not included in the learning corpus, and the keyword extraction performance decreases. There was a problem.
Further, the technique disclosed in
この発明は、上記のような課題を解決するためになされたもので、キーワードの抽出性能を低下させることなく、単語長が短いキーワードを含む発話に対する認識性能の低下を抑制することを目的とする。 The present invention has been made to solve the above-described problems, and an object thereof is to suppress a reduction in recognition performance for an utterance including a keyword having a short word length without reducing the keyword extraction performance. .
この発明に係る音声認識装置は、設定された認識対象について学習を行った言語モデルと、音声の特徴をモデル化した音響モデルとを用いて入力音声の音声認識を行い、得られた認識結果に基づいて算出される言語尤度および音響尤度から認識結果の認識スコアを算出する音声認識部と、言語モデルのN−gram確率に基づいて、音声認識部が取得した認識結果に含まれる未知語の数を算出する未知語数算出部と、設定された認識対象に関するキーワードを蓄積するキーワード蓄積部と、キーワード蓄積部に蓄積されたキーワードが、音声認識部が取得した認識結果に含まれる場合に、当該キーワードの長さ示すキーワード長を算出するキーワード長算出部と、未知語数算出部が算出した未知語の数の増加に応じて前記認識スコアを低減させ、キーワード長算出部が算出したキーワード長の減少に応じて前記認識スコアを低減させるように、音声認識部が算出した認識スコアを再計算し、再計算した認識スコアに基づいて音声認識部が取得した認識結果を出力するスコア再計算部とを備えるものである。 The speech recognition apparatus according to the present invention performs speech recognition of input speech using a language model that has been learned for a set recognition target and an acoustic model that is a model of speech characteristics, and the obtained recognition result is obtained. A speech recognition unit that calculates a recognition score of the recognition result from the language likelihood and acoustic likelihood calculated based on the unknown word included in the recognition result acquired by the speech recognition unit based on the N-gram probability of the language model When the unknown word number calculation unit for calculating the number of words, the keyword storage unit for storing keywords related to the set recognition target, and the keywords stored in the keyword storage unit are included in the recognition result acquired by the speech recognition unit, and keyword length calculation unit for calculating a keyword length indicating the length of the keyword, of reducing the recognition score in accordance with the increase in the number of unknown words unknown word count calculation unit has calculated , So as to reduce the recognition score in accordance with a decrease of the keyword length keyword length calculation section is calculated, recalculate the recognition score speech recognition unit is calculated, the voice recognition unit on the basis of the recalculated recognition score is acquired And a score recalculation unit that outputs the recognized result.
この発明によれば、キーワードの抽出性能を低下させることなく、単語長が短いキーワードを含む発話の認識性能低下を抑制することができる。また、タスク外発話に対して特に短いキーワードの誤認識を抑制することができる。 According to the present invention, it is possible to suppress a decrease in recognition performance of an utterance including a keyword having a short word length without reducing the keyword extraction performance. In addition, it is possible to suppress erroneous recognition of a keyword that is particularly short for an out-of-task utterance.
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る音声認識装置10の構成を示すブロック図である。
音声認識装置10は、入力信号に対して音声認識処理を行い、認識結果を取得する装置であって、音声認識部1、音響モデル蓄積部2、言語モデル蓄積部3、未知語数算出部4、キーワード長算出部5、キーワード蓄積部6およびスコア再計算部7で構成されている。Hereinafter, in order to explain the present invention in more detail, modes for carrying out the present invention will be described with reference to the accompanying drawings.
FIG. 1 is a block diagram showing the configuration of the
The
この実施の形態1では、音声認識部1、音響モデル蓄積部2、言語モデル蓄積部3、未知語数算出部4、キーワード長算出部5、キーワード蓄積部6およびスコア再計算部7は、それぞれ専用の回路により構成するものとして説明する。なお、当該回路によってなされる情報処理の方法についても本願発明の特徴である。また、他の構成回路、例えば汎用的なCPUなどで構成した制御回路とコンピュータプログラムとの組み合わせにより実現することも可能である。
In the first embodiment, the
図2は、実施の形態1に係る音声認識装置10のハードウェア構成を示す図である。
音声認識装置10の音声認識部1、未知語数算出部4、キーワード長算出部5およびスコア再計算部7は、プロセッサ20がメモリ30に記憶されたプログラムを実行することにより、実現される。音響モデル蓄積部2、言語モデル蓄積部3およびキーワード蓄積部6は、メモリ30を構成する。また、複数のプロセッサ20および複数のメモリ30が連携して上述した機能を実行するように構成してもよい。FIG. 2 is a diagram illustrating a hardware configuration of the
The
次に、音声認識装置10の各構成について説明する。なお以下では、当該音声認識装置10の認識対象を、料理名および当該料理名の付帯表現とした場合を例に説明を行う。
音声認識部1は、入力された音声について、音響モデル蓄積部2に蓄積された音響モデルと、言語モデル蓄積部3に蓄積された言語モデルとを用いて音声認識を行い、認識結果を取得する。さらに、取得した認識結果を認識スコアの大きい順に順位付けを行い、上位N個の認識結果の表記を抽出し、認識スコアを算出する。ここで、認識スコアは音響尤度と言語尤度の和である。Next, each configuration of the
The
音響モデル蓄積部2は、音声の特徴をモデル化した音響モデルを蓄積している。音響モデルは、例えばHMM(Hidden Markov Model)とする。言語モデル蓄積部3は、料理名および当該料理名の付帯表現を学習コーパスとして学習した統計言語モデル(N−gram言語モデル)を蓄積する。蓄積する料理名は、複数の語彙をクラスという1つのグループ(以下、キーワードクラスと称する)で表現した言語モデルを用いて学習する。蓄積する料理名の付帯表現は、例えば「<A>が食べたい」あるいは「おいしい<A>が食べたい」という表現である。
The acoustic
「<A>が食べたい」あるいは「おいしい<A>が食べたい」との表現において、キーワードクラスを<A>として学習コーパス上で記述し、キーワードクラス<A>に含まれるキーワードAが「寿司、ラーメン、カレーライス」などの料理名で表現される。当該表現を蓄積することにより、全てのキーワードAに対して「〜が食べたい」「おいしい〜が食べたい」という付帯表現を展開する必要がなく、効率的に言語モデルを学習することができる。
なお、料理名の付帯表現として「<A>が食べたい」および「おいしい<A>が食べたい」との表現を示したが、当該表現以外にユーザが発話すると推定される表現を網羅した学習コーパスを使用する。In the expression “I want to eat <A>” or “I want to eat delicious <A>”, the keyword class is described as <A> on the learning corpus, and the keyword A included in the keyword class <A> is “Sushi , Ramen, curry and rice ". By accumulating the expressions, it is not necessary to develop additional expressions such as “I want to eat” and “I want to eat delicious” for all the keywords A, and the language model can be efficiently learned.
In addition, although the expressions “<A> wants to eat” and “delicious <A> wants to eat” are shown as supplementary expressions of the dish name, learning that covers expressions that the user is supposed to utter in addition to the expressions Use a corpus.
未知語数算出部4は、言語モデル蓄積部3に蓄積された言語モデルを参照し、音声認識部1が抽出したN個の認識結果の表記に含まれる単語から、N−gram確率による未知語数を算出する。キーワード長算出部5は、キーワード蓄積部6に蓄積されたキーワードの表記およびキーワードの読みを参照し、音声認識部1が出力したN個の認識結果の表記に含まれるキーワードのキーワード長を算出する。キーワード蓄積部6は、音声認識部1が出力する認識結果の形式に合わせたキーワードの表記およびキーワードの読みを蓄積する。また、キーワード蓄積部6が蓄積対象とするキーワードは音声認識装置10の認識対象に対応したキーワードであり、例えば、認識対象が料理名および当該料理名の付帯表現とした場合に、「寿司、ラーメン、カレーライス」について、表記および読みを蓄積する。
The unknown word number calculation unit 4 refers to the language model stored in the language model storage unit 3 and calculates the number of unknown words based on the N-gram probability from the words included in the notation of the N recognition results extracted by the
スコア再計算部7は、音声認識部1が抽出した認識結果の認識スコア、未知語数算出部4が算出した未知語数、およびキーワード長算出部5が算出したキーワードのキーワード長を用いて、認識結果の認識スコアを再計算する。スコア再計算部7は、再計算した認識スコアのうち、最も大きい認識スコアを有する認識結果を出力する。
The
次に、音声認識装置10の動作について、フローチャートおよび具体例を参照しながら説明する。図3は、実施の形態1に係る音声認識装置10の動作を示すフローチャートである。図4は、実施の形態1に係る音声認識装置10の音声認識部1の認識結果を示す一例である。
音声認識装置10に音声が入力されると(ステップST1)、音声認識部1は音響モデル蓄積部2に蓄積された音響モデルと、言語モデル蓄積部3に蓄積された言語モデルとを参照し、ステップST1で入力された音声の音声認識を行って認識結果を取得する(ステップST2)。さらに、音声認識部1は、ステップST2で取得した認識結果を認識スコアが大きい順に順位付けを行い、上位N個の認識結果の表記および認識スコアを抽出する(ステップST3)。Next, the operation of the
When speech is input to the speech recognition device 10 (step ST1), the
ステップST1において音声としてタスク外発話「テニスしたいね」が入力されると、
音声認識部1は、ステップST2およびステップST3の処理を行い、図4に示す認識結果を抽出する。認識順位1位の認識結果の表記が「手に寿司鯛ね」であり、認識スコアが「110」である。認識順位2位の認識結果の表記が「手にする鯛ね」であり、認識スコアが「105」である。図4の認識結果では、読みのカナが「テニスしたいね」と一致する表記「手に寿司鯛ね」が最も大きい認識スコアを有し、認識順位1位の認識結果として抽出される。When an utterance outside task "I want to play tennis" is input as a voice in step ST1,
The
未知語数算出部4は、言語モデル蓄積部3に蓄積された言語モデルを参照し、ステップST3で抽出されたN個の認識結果nに含まれるN−gram確率に基づく未知語数を示す値Cn(以下、未知語数Cnと称する)を算出する(ステップST4)。ステップST4で算出された未知語数Cnはスコア再計算部7に出力される。なお、ステップST4の詳細な処理動作は後述する。The unknown word number calculation unit 4 refers to the language model stored in the language model storage unit 3, and indicates a value C n indicating the number of unknown words based on the N-gram probability included in the N recognition results n extracted in step ST3. (hereinafter, referred to as the unknown word number C n) is calculated (step ST4). The unknown word count C n calculated in step ST4 is output to the
キーワード長算出部5は、キーワード蓄積部6に蓄積されたキーワードの表記およびキーワードの読みを参照し、ステップST3で抽出されたN個の認識結果nに含まれるキーワードの長さを示す値Ln(以下、キーワード長Lnと称する)を算出する(ステップST5)。ステップST5で算出されたキーワード長Lnはスコア再計算部7に出力される。なお、ステップST5の詳細な処理動作は後述する。The keyword
スコア再計算部7は、ステップST4で算出された未知語数CnおよびステップST5で算出されたキーワード長Lnを用いて、ステップST3で抽出されたN個の認識結果の認識スコアの更新を行う(ステップST6)。スコア再計算部7は、ステップST6で更新した認識スコアが大きい順に認識結果の順位付けを行い、最も認識スコアが大きい認識結果を出力し(ステップST7)、処理を終了する。なお、ステップST6およびステップST7の詳細な処理動作は後述する。
次に、ステップST4で示した未知語数算出部4の処理動作についてより詳細に説明する。
図5は、実施の形態1に係る音声認識装置10の未知語数算出部4の動作を示すフローチャートである。以下では、N個の認識結果を認識結果n(n=1,2,3,・・・,N)と記載する。また、認識結果nに含まれる単語を単語m(m=1,2,3,・・・,Mn)と記載する。なお、nは認識結果のインデックスであり、mは単語のインデックスである。さらに、以下では未知語数として、3−gram確率に基づく未知語数をカウントする例を示す。Next, the processing operation of the unknown word number calculation unit 4 shown in step ST4 will be described in more detail.
FIG. 5 is a flowchart showing the operation of the unknown word number calculation unit 4 of the
未知語数算出部4は、ステップST3で抽出された認識結果のインデックスnを「1」に初期化し(ステップST11)、認識結果nに含まれる単語のインデックスmを「1」に初期化し、認識結果nに含まれる未知語数Cnを「0」に初期化する(ステップST12)。次に、未知語数算出部4は、言語モデル蓄積部3に蓄積された言語モデルを参照し、3−gram確率P(wn,m|wn,m−2wn,m−1)が設定された閾値Pth以下であるか否か判定を行う(ステップST13)。ここで、3−gram確率Pのwn,mはn番目の認識結果のm番目の単語を意味する。また、閾値Pthを用いることにより、3−gram確率Pが閾値Pth以下の場合には、当該単語が未知語であるとみなすことができる。The unknown word number calculation unit 4 initializes the index n of the recognition result extracted in step ST3 to “1” (step ST11), initializes the index m of the word included in the recognition result n to “1”, and recognizes the recognition result. The number of unknown words C n included in n is initialized to “0” (step ST12). Next, the unknown word number calculation unit 4 refers to the language model stored in the language model storage unit 3, and the 3-gram probability P (w n, m | w n, m−2 w n, m−1 ) performing the set determined whether the threshold value P th or less (step ST13). Here, w n, m of the 3-gram probability P means the m-th word of the n-th recognition result. Further, by using the threshold value Pth , when the 3-gram probability P is equal to or less than the threshold value Pth , the word can be regarded as an unknown word.
3−gram確率Pが閾値Pth以下である場合(ステップST13;YES)、未知語数算出部4は、未知語数Cnに1加算し(ステップST14)、認識結果nに含まれる単語のインデックスmに1加算する(ステップST15)。一方、3−gram確率Pが閾値Pthより大きい場合(ステップST13;NO)、上述したステップST15の処理に進む。ステップST15の次に、未知語数算出部4は、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mn以下であるか否か判定を行う(ステップST16)。When the 3-gram probability P is equal to or less than the threshold value P th (step ST13; YES), the unknown word number calculation unit 4 adds 1 to the unknown word number C n (step ST14), and the index m of the word included in the recognition result n. 1 is added to (step ST15). On the other hand, 3-gram probability if P is greater than the threshold P th (step ST13; NO), the process proceeds to step ST15 described above. After step ST15, the unknown word number calculation unit 4 determines whether or not the index m of the word included in the recognition result n is equal to or less than the number Mn of words included in the recognition result n (step ST16).
認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mn以下である場合(ステップST16;YES)、ステップST13の処理に戻る。一方、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mnより大きい場合(ステップST16;NO)、未知語数算出部4は認識結果のインデックスnに1加算する(ステップST17)。さらに、未知語数算出部4は、認識結果のインデックスnが認識結果の数N以下であるか否か判定を行う(ステップST18)。認識結果のインデックスnが認識結果の数N以下である場合(ステップST18;YES)、ステップST12の処理に戻る。一方、認識結果のインデックスnが認識結果の数Nより大きい場合(ステップST18;NO)、未知語数算出部4は、上述した処理により得られた未知語数Cnをスコア再計算部7に出力し(ステップST19)、図4のフローチャートのステップST5の処理に進む。When the index m of the word included in the recognition result n is less than or equal to the number Mn of words included in the recognition result n (step ST16; YES), the process returns to step ST13. On the other hand, when the word index m included in the recognition result n is larger than the number Mn of words included in the recognition result n (step ST16; NO), the unknown word number calculation unit 4 adds 1 to the index n of the recognition result. (Step ST17). Furthermore, the unknown word number calculation unit 4 determines whether or not the index n of the recognition result is equal to or less than the number N of recognition results (step ST18). If the index n of the recognition result is equal to or less than the number N of recognition results (step ST18; YES), the process returns to step ST12. On the other hand, when the index n of the recognition result is larger than the number N of the recognition results (step ST18; NO), the unknown word number calculation unit 4 outputs the unknown word number C n obtained by the above-described processing to the
なお、上述した説明では、3−gram確率に基づく未知語数をカウントする例を示したが、2−gram確率に基づく未知語数をカウントしてもよいし、3−gram確率に基づく未知語数および2−gram確率に基づく未知語数の両者の合計値をカウントするように構成してもよい。 In the above description, an example of counting the number of unknown words based on the 3-gram probability is shown, but the number of unknown words based on the 2-gram probability may be counted, or the number of unknown words based on the 3-gram probability and 2 -You may comprise so that the total value of both of the number of unknown words based on -gram probability may be counted.
次に、ステップST5で示したキーワード長算出部5の処理動作についてより詳細に説明する。
図6は、実施の形態1に係る音声認識装置10のキーワード長算出部5の動作を示すフローチャートである。
キーワード長算出部5は、ステップST3で抽出された認識結果のインデックスnを「1」に初期化し(ステップST21)、認識結果nに含まれる単語のインデックスmを「1」に初期化し、認識結果nに含まれるキーワードの長さを示す値Ln(以下、キーワード長Lnと称する)を「0」に初期化する(ステップST22)。次に、キーワード長算出部5は、キーワード蓄積部6に蓄積されたキーワードの表記およびキーワードの読みを参照し、n番目の認識結果のm番目の単語Wn,mが、キーワード蓄積部6に蓄積されたキーワードであるか否か判定を行う(ステップS23)。Next, the processing operation of the keyword
FIG. 6 is a flowchart showing the operation of the keyword
The keyword
Wn,mがキーワードである場合(ステップST23;YES)、キーワード長算出部5は当該キーワードのキーワード長Lnを、以下に示す式(1)および式(2)に基づいて更新する(ステップST24)。
L’n= UpdateLength ( Ln, length(wn,m)) (1)
Ln= L’n (2)
式(1)および式(2)において、L’nは更新後のキーワード長、length(w)はキーワードwの長さを返す関数、UpdateLength(Ln,A)はキーワード長Lnの更新を行う関数である。この実施の形態1では、length(w)はキーワードwのモーラ長を算出する関数、UpdateLength(Ln,A)はキーワード長LnとAの最小値演算を行う関数として説明を行う。When W n, m is a keyword (step ST23; YES), the keyword
L ' n = UpdateLength (L n , length (w n, m )) (1)
L n = L ' n (2)
In Expression (1) and Expression (2), L ′ n is a keyword length after update, length (w) is a function that returns the length of keyword w, and UpdateLength (L n , A) is an update of keyword length L n . The function to perform. In the first embodiment, length (w) is described as a function for calculating the mora length of the keyword w, and UpdateLength (L n , A) is described as a function for calculating the minimum value of the keyword lengths L n and A.
キーワード長算出部5は、認識結果nに含まれる単語のインデックスmに1加算する(ステップST25)。一方、単語Wn,mがキーワードでない場合(ステップST23;NO)、上述したステップST25の処理に進む。ステップST25の次に、キーワード長算出部5は、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mn以下であるか否か判定を行う(ステップST26)。認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mn以下である場合(ステップST26;YES)、ステップST23の処理に戻る。The keyword
一方、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mnより大きい場合(ステップST26;NO)、キーワード長算出部5は認識結果のインデックスnに1加算する(ステップST27)。さらに、キーワード長算出部5は、認識結果のインデックスnが認識結果の数N以下であるか否か判定を行う(ステップST28)。認識結果のインデックスnが認識結果の数N以下である場合(ステップST28;YES)、ステップST22の処理に戻る。一方、認識結果のインデックスnが認識結果の数Nより大きい場合(ステップST28;NO)、キーワード長算出部5は、上述した処理により得られたキーワード長Lnをスコア再計算部7に出力し(ステップST29)、図4のフローチャートのステップST6の処理に進む。On the other hand, when the index m of the word included in the recognition result n is larger than the number M n of words included in the recognition result n (step ST26; NO), the keyword
次に、ステップST6およびステップST7で示したスコア再計算部7の処理動作についてより詳細に説明する。
図7は、実施の形態1に係る音声認識装置10のスコア再計算部7の動作を示すフローチャートである。
スコア再計算部7は、ステップST3で抽出された認識結果のインデックスnを「1」に初期化する(ステップST31)。スコア再計算部7は、ステップST4で算出された未知語数CnおよびステップST5で算出されたキーワード長Lnを用いて、ステップST3で抽出された認識結果nの認識スコアScorenを以下の式(3)および式(4)に基づいて更新する(ステップST32)
Score’n=Rescore1(Scoren, Cn, Ln) (3)
Scoren= Score’n (4)
式(3)および式(4)において、Score´nは更新後の認識スコアを示し、Rescore1(Scoren, Cn, Ln)はスコアの更新を行う関数である。Next, the processing operation of the
FIG. 7 is a flowchart showing the operation of the
The
Score ' n = Rescore1 (Score n , C n , L n ) (3)
Score n = Score ' n (4)
In Equations (3) and (4), Score n represents the updated recognition score, and Rescore 1 (Score n , C n , L n ) is a function for updating the score.
スコアの更新を行う関数として、この実施の形態1では以下の式(5)に示す関数を用いる。
上述した式(5)の第2項および第3項は、従来技術である認識スコアに対するペナルティに相当する。α、β、THLは予め実験により決定されたパラメータである。この実施の形態1では、例えばα=1、β=10、THL=0とする。In the first embodiment, the function shown in the following formula (5) is used as a function for updating the score.
The second term and the third term of the above-described formula (5) correspond to a penalty for the recognition score, which is a conventional technique. α, β, and TH L are parameters determined in advance by experiments. In the first embodiment, for example, α = 1, β = 10, and TH L = 0.
なお、スコアの更新を行う関数は、Scoren,Cn,Lnの関数になっていれば式(5)以外の関数を適用することが可能である。例えば、以下の式(5a)として構成してもよい。
As the function for updating the score, functions other than Expression (5) can be applied as long as it is a function of Score n , C n , and L n . For example, you may comprise as the following formula | equation (5a).
スコア再計算部7は、認識結果のインデックスnに1加算し(ステップST33)、認識結果のインデックスnが認識結果の数N以下であるか否か判定を行う(ステップST34)。認識結果のインデックスnが認識結果の数N以下である場合(ステップST34;YES)、ステップST32の処理に戻る。一方、認識結果のインデックスnが認識結果の数Nより大きい場合(ステップST34;NO)、スコア再計算部7は、上述した処理により得られた認識スコアScorenを参照し、当該認識スコアScorenが大きい順に認識結果nの並び替えを行い(ステップST35)、最も認識スコアが大きい認識結果nを出力し(ステップST36)、処理を終了する。The
図8は、実施の形態1に係る音声認識装置10において認識スコアを更新した後の認識結果を示す一例である。図8では、認識順位、認識結果、更新前の認識スコア、未知語数Cn、キーワード長Lnおよび更新後の認識スコアを示している。
認識結果「手にする鯛ね」および「手に寿司鯛ね」の未知語数Cnは共に「2」である。一方、認識結果「手にする鯛ね」に含まれるキーワード長Lnは「0」であり、「手に寿司鯛ね」に含まれるキーワード長Lnは「2」である。これらの結果を上述した式(5)に代入すると、認識結果「手に寿司鯛ね」の更新後の認識スコアは「110-(1×2)-(10/2)=103」に低下する。一方、認識結果「手にする鯛ね」の更新後の認識スコアはLn=0であることから「105」のままである。これにより、更新後の認識スコアに基づく認識順位が逆転し、1位が認識結果「手にする鯛ね」となり、2位が認識結果「手に寿司鯛ね」となる。FIG. 8 is an example illustrating a recognition result after the recognition score is updated in the
The number of unknown words C n of the recognition results “handed sushi” and “sushi sushi” is both “2”. On the other hand, the keyword length L n included in the recognition result “hand-made rice cake” is “0”, and the keyword length L n contained in “hand-made sushi rice” is “2”. Substituting these results into the above formula (5), the recognition score after updating the recognition result “sushi in hand” decreases to “110− (1 × 2) − (10/2) = 103”. . On the other hand, the updated recognition score of the recognition result “Hold in hand” is “105” because L n = 0. As a result, the recognition order based on the updated recognition score is reversed, and the first place becomes the recognition result “hands on rice” and the second place the recognition result “hands on sushi rice”.
以上のように、この実施の形態1によれば、入力音声の音声認識を行い、認識スコアが上位の認識結果を抽出する音声認識部1と、蓄積された言語モデルを参照して認識結果の表記に基づいて未知語数を算出する未知語数算出部4と、蓄積されたキーワードを参照して認識結果の表記に基づいて認識結果に含まれるキーワードのキーワード長を算出するキーワード長算出部5と、音声認識部1が抽出した認識結果の認識スコアを、算出された未知語数およびキーワード長を用いて更新するスコア再計算部7を備えるように構成したので、未知語数が多く、且つキーワード長が短いキーワードが存在している認識結果の認識スコアを低下させることができる。これにより、タスク外発話に対して特にキーワード長が短いキーワードが多く出現するのを抑制することができる。
As described above, according to the first embodiment, the speech recognition of the input speech is performed, the
実施の形態2.
この実施の形態2では、音声認識装置10がユーザに提示した認識結果が選択された回数あるいは音声認識装置10が出力した認識結果に対応した機能が選択された回数をフィードバックし、タスク外発話に対してユーザが意図していないキーワードの出現をより抑制する構成を示す。
In the second embodiment, the number of times the recognition result presented to the user by the
図9は、実施の形態2に係る音声認識装置10aの構成を示すブロック図である。
実施の形態2の音声認識装置10aは、実施の形態1で示した音声認識装置10にキーワード選択頻度算出部8およびキーワード選択頻度蓄積部9を追加して設けている。なお、以下では、実施の形態1に係る音声認識装置10の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。FIG. 9 is a block diagram illustrating a configuration of the
The
キーワード選択頻度算出部8は、キーワード選択頻度蓄積部9に蓄積されたキーワード選択頻度を参照して、音声認識部1が抽出した認識結果に含まれるあるキーワードがユーザにより選択された回数を示すキーワード選択頻度を算出する。キーワード選択頻度蓄積部9は、スコア再計算部7aが出力した認識結果あるいは認識結果に対応した機能が選択されたか否かに基づいて、当該認識結果に含まれるキーワードが選択された回数を蓄積する。蓄積方法は適宜構成可能である。例えば、スコア再計算部7が出力した認識結果をキーワード選択頻度算出部8に入力することにより、キーワード選択頻度算出部8はユーザに提示したキーワードを取得して蓄積する。さらに、キーワード選択頻度算出部8は、ユーザからの入力操作を受け付ける外部装置から入力される情報を取得してユーザに選択されたキーワードを特定し、特定したキーワードの選択回数を加算する。
The keyword selection
次に、音声認識装置10aの動作について説明する。
図10はこの発明の実施の形態2に係る音声認識装置10aの動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置10と同一のステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
ステップST5においてキーワード長算出部5がキーワード長Lnを算出すると、キーワード選択頻度算出部8は、キーワード選択頻度蓄積部9に蓄積されたキーワードの選択頻度を参照し、ステップST3で抽出されたN個の認識結果に含まれるキーワードのキーワード選択頻度Fnを算出する(ステップST41)。ステップST41で算出された選択頻度Fnはスコア再計算部7aに出力される。なお、ステップST41の詳細な処理動作は後述する。Next, the operation of the
FIG. 10 is a flowchart showing the operation of the
When the keyword
スコア再計算部7aは、ステップST4で算出された未知語数Cn、ステップST5で算出されたキーワード長Ln、およびステップST41で算出された選択頻度Fnを用いて、ステップST3で抽出されたN個の認識結果の認識スコアの更新を行う(ステップST42)。スコア再計算部7aは、ステップST42で更新した認識スコアが大きい順に認識結果の順位付けを行い、最も認識スコアが大きい認識結果を出力し(ステップST43)、処理を終了する。なお、ステップST42およびステップST43の詳細な処理動作は後述する。The
次に、ステップST41で示したキーワード選択頻度算出部8の動作についてより詳細に説明する。
図11は、実施の形態2に係る音声認識装置10aのキーワード選択頻度算出部8の動作を示すフローチャートである。
キーワード選択頻度算出部8は、ステップST3で抽出された認識結果のインデックスnを「1」に初期化し(ステップST51)、認識結果nに含まれる単語のインデックスmを「1」に初期化し、認識結果nに含まれるキーワード選択頻度Fnを「−1」に初期化する(ステップST52)。Next, the operation of the keyword selection
FIG. 11 is a flowchart showing the operation of the keyword selection
The keyword selection
次に、キーワード選択頻度算出部8は、キーワード蓄積部6に蓄積されたキーワードの表記およびキーワードの読みを参照し、n番目の認識結果のm番目の単語Wn,mが、キーワード蓄積部6に蓄積されたキーワードであるか否か判定を行う(ステップST53)。単語Wn,mがキーワードである場合(ステップST53;YES)、キーワード選択頻度算出部8は認識結果nに含まれるキーワードのキーワード選択頻度Fnを、以下に示す式(6)および式(7)に基づいて更新する(ステップST54)。
F’n= UpdateFreq ( Fn, Freq (wn,m)) (6)
Fn= F’n (7)
式(6)および式(7)において、F’nは更新後のキーワード選択頻度、Freq(w)はキーワードwの選択頻度を返す関数、UpdateLength(Fn,A)はキーワード選択頻度Fnの更新を行う関数である。Next, the keyword selection
F ' n = UpdateFreq (F n , Freq (w n, m )) (6)
F n = F ' n (7)
In Formula (6) and Formula (7), F ′ n is a keyword selection frequency after update, Freq (w) is a function that returns the selection frequency of keyword w, and UpdateLength (F n , A) is the keyword selection frequency F n . A function that performs an update.
この実施の形態1では、Freq(w)として以下の式(8)で示す関数を用いる。
式(8)においてS(w)はキーワードwの選択回数、R(w)はキーワードwの認識回数である。また、この実施の形態2ではUpdateFreq(Fn,A)はキーワード選択頻度FnとAの最大値演算を行う関数とする。In the first embodiment, a function represented by the following equation (8) is used as Freq (w).
In equation (8), S (w) is the number of times the keyword w is selected, and R (w) is the number of times the keyword w is recognized. In the second embodiment, UpdateFreq (F n , A) is a function for calculating the maximum value of the keyword selection frequencies F n and A.
その後、キーワード選択頻度算出部8は、認識結果nに含まれる単語のインデックスmに1加算する(ステップST55)。一方、単語Wn,mがキーワードでない場合(ステップST53;NO)、上述したステップST55の処理に進む。ステップST55の次に、キーワード選択頻度算出部8は、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mn以下であるか否か判定を行う(ステップST56)。認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mn以下である場合(ステップST56;YES)、ステップST53の処理に戻る。After that, the keyword selection
一方、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mnより大きい場合(ステップST56;NO)、キーワード選択頻度算出部8は認識結果のインデックスnに1加算する(ステップST57)。さらに、キーワード選択頻度算出部8は、認識結果のインデックスnが認識結果の数N以下であるか否か判定を行う(ステップST58)。認識結果のインデックスnが認識結果の数N以下である場合(ステップST58;YES)、ステップST52の処理に戻る。一方、認識結果のインデックスnが認識結果の数Nより大きい場合(ステップST58;NO)、キーワード選択頻度算出部8は、上述した処理により得られたキーワード選択頻度Fnをキーワード選択頻度算出部8に出力し(ステップST59)、図10のフローチャートのステップST42の処理に進む。On the other hand, when the index m of the word included in the recognition result n is larger than the number M n of words included in the recognition result n (step ST56; NO), the keyword selection
次に、ステップST42およびステップST43で示したスコア再計算部7aの処理動作についてより詳細に説明する。
図12は、実施の形態2に係る音声認識装置10のスコア再計算部7aの動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置10のスコア再計算部7と同一のステップには図7で使用した符号と同一の符号を付し、説明を省略または簡略化する。Next, the processing operation of the
FIG. 12 is a flowchart showing the operation of the
スコア再計算部7aは、ステップST31で認識結果のインデックスnを「1」に初期化すると、ステップST4で算出された未知語数Cn、ステップST5で算出されたキーワード長LnおよびステップST41で算出されたキーワード選択頻度Fnを用いて、ステップST3で抽出された認識結果nの認識スコアScorenを以下の式(9)および式(10)に基づいて更新する(ステップS61)。
Score’n=Rescore2(Scoren, Cn, Ln, Fn) (9)
Scoren= Score’n (10)
式(9)および式(10)において、Score´nは更新後の認識スコアを示し、Rescore1(Scoren, Cn, Ln)はスコアの更新を行う関数である。When the index n of the recognition result is initialized to “1” in step ST31, the
Score ' n = Rescore2 (Score n , C n , L n , F n ) (9)
Score n = Score ' n (10)
In Equation (9) and Equation (10), Score ′ n represents the recognition score after update, and Rescore 1 (Score n , C n , L n ) is a function for updating the score.
この実施の形態1では、スコアの更新を行う関数として以下の式(11)に示す関数を用いる。
上述した式(11)の第2項から第4項は、従来技術である認識スコアに対するペナルティに相当する。α、β、γ、THL、THFは予め実験により決定されたパラメータである。この実施の形態2では、例えばα=1、β=10、γ=5、THL=0、THF=0.5とする。なお、スコアの更新を行う関数は、Scoren、Cn、Ln、Fnの関数になっていれば式(11)以外の関数を適用することが可能である。In the first embodiment, a function shown in the following equation (11) is used as a function for updating the score.
The second to fourth terms of the above-described formula (11) correspond to a penalty for the recognition score, which is a conventional technique. α, β, γ, TH L , and TH F are parameters determined in advance by experiments. In the second embodiment, for example, α = 1, β = 10, γ = 5, TH L = 0, and TH F = 0.5. As the function for updating the score, functions other than Expression (11) can be applied as long as the functions are Score n , C n , L n , and F n .
その後、スコア再計算部7aは、ステップST33からステップST36の処理を行い、認識結果を出力して処理を終了する。
Thereafter, the
図13は、実施の形態2に係る音声認識装置10aにおいて認識スコアを更新した後の認識結果を示す一例である。図13では、認識順位、認識結果、更新前の認識スコア、未知語数Cn、キーワード長Ln、キーワード選択頻度Fnおよび更新後の認識スコアを示している。
認識結果「手にする鯛ね」および「手に寿司鯛ね」の未知語数Cnは共に「2」である。一方、認識結果「手にする鯛ね」に含まれるキーワード長Lnは「0」であり、「手に寿司鯛ね」に含まれるキーワード長Lnは「2」である。さらに、認識結果「手にする鯛ね」に含まれるキーワード選択頻度Fnは「−1(キーワードが含まれていないことを意味する)」であり、「手に寿司鯛ね」に含まれるキーワード選択頻度Fnは「0」である。FIG. 13 is an example showing a recognition result after updating the recognition score in the
The number of unknown words C n of the recognition results “handed sushi” and “sushi sushi” is both “2”. On the other hand, the keyword length L n included in the recognition result “hand-made rice cake” is “0”, and the keyword length L n contained in “hand-made sushi rice” is “2”. Furthermore, the keyword selection frequency F n included in the recognition result “hand-made rice cake” is “−1 (means that no keyword is included)”, and the keyword included in “hand-made sushi rice cake”. The selection frequency F n is “0”.
これらの結果を上述した式(11)に代入すると、認識結果「手に寿司鯛ね」の更新後の認識スコアは「110-(1×2)-(10/2)-5=98」に低下する。一方、認識結果「手にする鯛ね」の更新後の認識スコアはLn=0であることから「105」のままである。これにより、更新後の認識スコアに基づく認識順位が逆転し、1位が認識結果「手にする鯛ね」となり、2位が認識結果「手に寿司鯛ね」となる。さらに、実施の形態1で示した図6の認識結果例と比較すると、キーワード選択頻度算出部8が算出したキーワード選択頻度Fnに基づいてペナルティが加えられることにより、図11の認識結果「手に寿司鯛ね」の認識スコアがより低下している。Substituting these results into the above-mentioned formula (11), the recognition score after updating the recognition result “sushi on hand” is “110- (1 × 2)-(10/2) -5 = 98”. descend. On the other hand, the updated recognition score of the recognition result “Hold in hand” is “105” because L n = 0. As a result, the recognition order based on the updated recognition score is reversed, and the first place becomes the recognition result “hands on rice” and the second place the recognition result “hands on sushi rice”. Moreover, when compared with the recognition result example of FIG. 6 described in
以上のように、この実施の形態2によれば、音声認識部1が抽出した認識結果に含まれるあるキーワードがユーザにより選択された回数を示すキーワード選択頻度を算出するキーワード選択頻度算出部8を備えるように構成したので、タスク外発話に対して、ユーザが意図しないキーワードが一時的に出現したとしても、当該キーワードを含む認識結果がユーザに選択される頻度が低い場合にはペナルティを加えるように認識スコアを再計算することができる。これにより、タスク外の発話に対してユーザが意図しないキーワードが多く出現するのを抑制することができる。
As described above, according to the second embodiment, the keyword selection
なお、上述した実施の形態1および実施の形態2では、認識対象を料理名および当該料理名の付帯表現とした場合を例に説明を行ったが、これらの認識対象に限定されるものではない。
In
なお、上述した実施の形態1では、未知語数の算出、キーワード長の算出の順で処理を行う場合を例に説明を行い、上述した実施の形態2では未知語数の算出、キーワード長の算出、キーワード選択頻度算出の順で処理を行う場合を例に説明を行ったが、算出の順序はこれに限定されるものではない。 In the above-described first embodiment, the case where processing is performed in the order of calculation of the number of unknown words and calculation of the keyword length will be described as an example. In the above-described second embodiment, calculation of the number of unknown words, calculation of the keyword length, Although the case where processing is performed in the order of keyword selection frequency calculation has been described as an example, the calculation order is not limited to this.
上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。 In addition to the above, within the scope of the present invention, the present invention can be freely combined with each embodiment, modified any component of each embodiment, or omitted any component in each embodiment. Is possible.
この発明に係る音声認識装置は、例えば音声認識機能を搭載したナビゲーションシステムや、ソフトウェアとして音声認識プログラムを当該した機器に適用し、キーワード長が短いキーワードを含む発話の認識性能を向上させるのに適している。 The speech recognition apparatus according to the present invention is suitable for improving the recognition performance of an utterance including a keyword having a short keyword length, for example, by applying a speech recognition program as a software to a navigation system equipped with a speech recognition function or a device to which the speech recognition program is applied. ing.
1 音声認識部、2 音響モデル蓄積部、3 言語モデル蓄積部、4 未知語数算出部、5 キーワード蓄積部、6 キーワード長算出部、7,7a スコア再計算部、8 キーワード選択頻度算出部、9 キーワード選択頻度蓄積部、10,10a 音声認識装置、20 メモリ、30 プロセッサ。
DESCRIPTION OF
Claims (7)
前記言語モデルのN−gram確率に基づいて、前記音声認識部が取得した認識結果に含まれる未知語の数を算出する未知語数算出部と、
前記設定された認識対象に関するキーワードを蓄積するキーワード蓄積部と、
前記キーワード蓄積部に蓄積されたキーワードが、前記音声認識部が取得した認識結果に含まれる場合に、当該キーワードの長さ示すキーワード長を算出するキーワード長算出部と、
前記未知語数算出部が算出した未知語の数の増加に応じて前記認識スコアを低減させ、前記キーワード長算出部が算出したキーワード長の減少に応じて前記認識スコアを低減させるように、前記音声認識部が算出した認識スコアを再計算し、再計算した認識スコアに基づいて前記音声認識部が取得した認識結果を出力するスコア再計算部とを備えた音声認識装置。 Language likelihood calculated based on the recognition result obtained by performing speech recognition of the input speech using a language model that has been learned for the set recognition target and an acoustic model that is modeled on the features of speech A speech recognition unit that calculates a recognition score of the recognition result from acoustic likelihood;
An unknown word number calculation unit that calculates the number of unknown words included in the recognition result acquired by the speech recognition unit based on the N-gram probability of the language model;
A keyword storage unit for storing keywords related to the set recognition target;
A keyword length calculation unit that calculates a keyword length indicating the length of the keyword when the keyword stored in the keyword storage unit is included in the recognition result acquired by the voice recognition unit;
The speech is reduced so that the recognition score is reduced according to an increase in the number of unknown words calculated by the unknown word number calculation unit, and the recognition score is reduced according to a decrease in keyword length calculated by the keyword length calculation unit. A speech recognition apparatus comprising: a score recalculation unit that recalculates a recognition score calculated by a recognition unit and outputs a recognition result acquired by the speech recognition unit based on the recalculated recognition score.
前記音声認識部が取得した認識結果に前記キーワード蓄積部に蓄積されたキーワードが含まれる場合に、当該キーワードが選択された回数を示す選択頻度を、前記キーワード選択頻度蓄積部に蓄積されたキーワード選択頻度を参照して算出するキーワード選択頻度算出部とを備え、
前記スコア再計算部は、前記未知語の数、前記キーワード長、および前記キーワード選択頻度算出部が算出した選択頻度に基づいて、前記音声認識部が算出した認識スコアを再計算することを特徴とする請求項1記載の音声認識装置。 A keyword selection frequency accumulating unit that accumulates the number of times the user selected a recognition result output by the score recalculation unit or a function corresponding to the recognition result;
When the recognition result acquired by the voice recognition unit includes the keyword stored in the keyword storage unit, the selection frequency indicating the number of times the keyword is selected is selected as the keyword selection stored in the keyword selection frequency storage unit. A keyword selection frequency calculation unit that calculates by referring to the frequency,
The score recalculation unit recalculates the recognition score calculated by the voice recognition unit based on the number of unknown words, the keyword length, and the selection frequency calculated by the keyword selection frequency calculation unit. The speech recognition apparatus according to claim 1.
未知語数算出部が、前記言語モデルのN−gram確率に基づいて、前記認識結果に含まれる未知語の数を算出し、
キーワード長算出部が、予め蓄積された設定された認識対象に関するキーワードが、前記認識結果に含まれる場合に、当該キーワードの長さ示すキーワード長を算出し、
スコア再計算部が、前記算出された未知語の数の増加に応じて前記認識スコアを低減させ、前記算出されたキーワード長の減少に応じて前記認識スコアを低減させるように、前記認識スコアを再計算し、再計算した認識スコアに基づいて前記認識結果を出力する音声認識方法。 The speech recognition unit performs speech recognition of the input speech using the language model learned for the set recognition target and the acoustic model that models the features of the speech, and is calculated based on the obtained recognition results A recognition score of the recognition result is calculated from the language likelihood and the acoustic likelihood,
An unknown word number calculation unit calculates the number of unknown words included in the recognition result based on the N-gram probability of the language model,
The keyword length calculation unit calculates a keyword length indicating the length of the keyword when the keyword related to the set recognition target accumulated in advance is included in the recognition result,
Score recalculation unit reduces the recognition score in accordance with the increase in the number of unknown words the calculated, so as to reduce the recognition score in accordance with a decrease of the calculated keyword length, the recognition score A speech recognition method for recalculating and outputting the recognition result based on the recalculated recognition score.
前記言語モデルのN−gram確率に基づいて、前記音声認識部が取得した認識結果に含まれる未知語の数を算出する未知語数算出部と、
前記設定された認識対象に関するキーワードを蓄積するキーワード蓄積部と、
前記キーワード蓄積部に蓄積されたキーワードが、前記音声認識部が取得した認識結果に含まれる場合に、当該キーワードの長さ示すキーワード長を算出するキーワード長算出部と、
前記未知語数算出部が算出した未知語の数の増加に応じて前記認識スコアを低減させ、前記キーワード長算出部が算出したキーワード長の減少に応じて前記認識スコアを低減させるように、前記音声認識部が算出した認識スコアを再計算し、再計算した認識スコアに基づいて前記認識結果を出力するスコア再計算部とをコンピュータに機能させる音声認識プログラム。 Language likelihood calculated based on the recognition result obtained by performing speech recognition of the input speech using a language model that has been learned for the set recognition target and an acoustic model that is modeled on the features of speech A speech recognition unit that calculates a recognition score of the recognition result from acoustic likelihood;
An unknown word number calculation unit that calculates the number of unknown words included in the recognition result acquired by the speech recognition unit based on the N-gram probability of the language model;
A keyword storage unit for storing keywords related to the set recognition target;
A keyword length calculation unit that calculates a keyword length indicating the length of the keyword when the keyword stored in the keyword storage unit is included in the recognition result acquired by the voice recognition unit;
The speech is reduced so that the recognition score is reduced according to an increase in the number of unknown words calculated by the unknown word number calculation unit, and the recognition score is reduced according to a decrease in keyword length calculated by the keyword length calculation unit. A speech recognition program for causing a computer to function as a score recalculation unit that recalculates a recognition score calculated by a recognition unit and outputs the recognition result based on the recalculated recognition score.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/057664 WO2016147292A1 (en) | 2015-03-16 | 2015-03-16 | Speech recognition device, speech recognition method, and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016147292A1 JPWO2016147292A1 (en) | 2017-06-22 |
JP6437092B2 true JP6437092B2 (en) | 2018-12-12 |
Family
ID=56918813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017505903A Expired - Fee Related JP6437092B2 (en) | 2015-03-16 | 2015-03-16 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6437092B2 (en) |
WO (1) | WO2016147292A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6487119B1 (en) * | 2017-07-31 | 2019-03-20 | 新電元工業株式会社 | Power converter |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4610451B2 (en) * | 2005-09-09 | 2011-01-12 | 株式会社エヌ・ティ・ティ・データ | Speech recognition apparatus and program |
JP2009098201A (en) * | 2007-10-12 | 2009-05-07 | Toshiba Corp | Speech recognition device and speech recognition method |
JP5311500B2 (en) * | 2010-02-05 | 2013-10-09 | Kddi株式会社 | Voice recognition device |
-
2015
- 2015-03-16 WO PCT/JP2015/057664 patent/WO2016147292A1/en active Application Filing
- 2015-03-16 JP JP2017505903A patent/JP6437092B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2016147292A1 (en) | 2016-09-22 |
JPWO2016147292A1 (en) | 2017-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
JP5040909B2 (en) | Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program | |
CN110675855B (en) | Voice recognition method, electronic equipment and computer readable storage medium | |
US9043209B2 (en) | Language model creation device | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
US8635070B2 (en) | Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types | |
JP2008293019A (en) | Language understanding device | |
JP2002258890A (en) | Speech recognizer, computer system, speech recognition method, program and recording medium | |
JPWO2016067418A1 (en) | Dialog control apparatus and dialog control method | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
JP5799733B2 (en) | Recognition device, recognition program, and recognition method | |
JP5276610B2 (en) | Language model generation apparatus, program thereof, and speech recognition system | |
JP4758758B2 (en) | Dictionary creation device and dictionary creation program | |
JP2013125144A (en) | Speech recognition device and program thereof | |
JP3660512B2 (en) | Voice recognition method, apparatus and program recording medium | |
JP5418596B2 (en) | Audio processing apparatus and method, and storage medium | |
JP6437092B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP4764203B2 (en) | Speech recognition apparatus and speech recognition program | |
JP5124012B2 (en) | Speech recognition apparatus and speech recognition program | |
JP2011154061A (en) | Dictionary creating device, computer program and data processing method therefor | |
JP4741452B2 (en) | Language model creation device, language model creation program, speech recognition device, and speech recognition program | |
JP6276516B2 (en) | Dictionary creation apparatus and dictionary creation program | |
JP4733436B2 (en) | Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium | |
Sarikaya et al. | Joint morphological-lexical language modeling (JMLLM) for Arabic | |
US20220138420A1 (en) | Difference extraction device, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6437092 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |