JP6437092B2 - Speech recognition apparatus, speech recognition method, and speech recognition program - Google Patents

Speech recognition apparatus, speech recognition method, and speech recognition program Download PDF

Info

Publication number
JP6437092B2
JP6437092B2 JP2017505903A JP2017505903A JP6437092B2 JP 6437092 B2 JP6437092 B2 JP 6437092B2 JP 2017505903 A JP2017505903 A JP 2017505903A JP 2017505903 A JP2017505903 A JP 2017505903A JP 6437092 B2 JP6437092 B2 JP 6437092B2
Authority
JP
Japan
Prior art keywords
recognition
keyword
score
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017505903A
Other languages
Japanese (ja)
Other versions
JPWO2016147292A1 (en
Inventor
知宏 成田
知宏 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2016147292A1 publication Critical patent/JPWO2016147292A1/en
Application granted granted Critical
Publication of JP6437092B2 publication Critical patent/JP6437092B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Description

この発明は、統計言語モデルを使用したキーワード抽出型の音声認識技術に関するものである。   The present invention relates to a keyword extraction type speech recognition technique using a statistical language model.

キーワード抽出型の音声認識技術では、ユーザの発話内容の全てを一字一句正しく認識する必要はなく、キーワードと呼ばれる重要語だけ正しく認識することが要求される。例えば認識対象が料理名とその付帯表現であり、「寿司」がキーワードであって、「寿司を食べたい」との発話に対する認識結果が「寿司食べた」である場合、認識結果としては誤りを含むが、キーワードである「寿司」は正しく抽出しており正解であると言える。一方、「テニスしたいね」との発話に対する認識結果が「手に寿司鯛ね」である場合、認識結果としてはユーザが発話していない「寿司」を抽出しているため誤りである。つまり、あるキーワードを含む発話に対しては当該キーワードを正しく抽出し、当該キーワードを含まない発話に対しては当該キーワードを誤って抽出しないことが求められる。
なお、以下では上述した「テニスしたいね」のように認識対象外の発話をタスク外発話と称する。
In the keyword extraction type speech recognition technology, it is not necessary to correctly recognize all of the user's utterance contents one by one, and it is required to correctly recognize only important words called keywords. For example, if the recognition target is a dish name and its accompanying expression, “sushi” is the keyword, and the recognition result for the utterance “I want to eat sushi” is “I ate sushi”, the recognition result is incorrect. Although it is included, the keyword “sushi” is correctly extracted and can be said to be correct. On the other hand, if the recognition result for the utterance “I want to play tennis” is “Sushi in hand”, the recognition result is an error because “sushi” that is not uttered by the user is extracted. That is, it is required to correctly extract the keyword for utterances including a certain keyword and not to extract the keyword erroneously for utterances not including the keyword.
In the following, utterances that are not subject to recognition, such as “I want to play tennis” described above, are referred to as utterances outside a task.

また、単語間の接続のしやすさを言語尤度と呼ぶ数値で表す統計言語モデルを用いた音声認識技術では、学習コーパスから言語尤度を学習することで、学習コーパス内に高頻度で出現する単語の組み合わせに対して高い言語尤度を与える。また、複数の語彙をクラスという1つのグループとして表現したクラス言語モデルを用いることで、スパース(粗密な情報)な学習コーパスから効率良く言語尤度を学習することができる。
例えば学習コーパス内に「寿司が食べたい」というコーパスがあった場合、「寿司、ラーメン、カレーライス、」を1つのクラスであるキーワードクラス<A>とし、「<A>が食べたい」という表現にすることにより、「寿司が食べたい」、「ラーメンが食べたい」および「カレーライスが食べたい」という単語の並びに対する言語尤度を学習することができる。
In speech recognition technology using a statistical language model that expresses the ease of connection between words as a language likelihood, it appears in the learning corpus at a high frequency by learning the language likelihood from the learning corpus. High language likelihood is given to a combination of words. Further, by using a class language model in which a plurality of vocabularies are expressed as one group called a class, it is possible to efficiently learn a language likelihood from a sparse (rough information) learning corpus.
For example, if there is a corpus “I want to eat sushi” in the learning corpus, “Sushi, Ramen, Curry and Rice” is the one class class <A>, and the expression “I want to eat <A>” By doing so, it is possible to learn the language likelihood for the word sequences “I want to eat sushi”, “I want to eat ramen” and “I want to eat curry and rice”.

統計言語モデルを用いた音声認識技術では、学習コーパスに存在しないN−gram確立に基づく未知語に対しても低次のN−gram確率から高次のN−gram確率を補完するバックオフという手法で言語尤度を与えている。当該バックオフにより、学習コーパスに含まれない単語の連鎖を含む表現も受理可能になる。しかし、認識結果からキーワードを抽出するタスクではバックオフの結果、学習コーパスに含まれない発話に対してキーワードの誤検出が多くなるという問題があった。   In speech recognition technology using a statistical language model, a method called back-off that complements high-order N-gram probabilities from low-order N-gram probabilities for unknown words based on N-gram establishment that does not exist in the learning corpus. Gives the language likelihood. By this back-off, an expression including a chain of words that is not included in the learning corpus can be accepted. However, in the task of extracting keywords from the recognition result, there is a problem that as a result of backoff, keyword misdetection increases for utterances not included in the learning corpus.

例えば、「寿司、ラーメン、カレーライス」を抽出すべきキーワードクラスとして言語モデルを学習した場合を考える。この場合、「テニス」が学習コーパスに含まれない未知語だとすると、タスク外発話「テニスしたいね」に対して「手に寿司鯛ね」というように音響的には合致しているがN−gram確立に基づく未知語から構成される認識結果のスコアが高くなり、キーワードである「寿司」が誤って抽出されてしまう。このようにキーワードの誤検出が発生すると、ユーザが意図していないキーワードまたはそれに紐づく機能が提示されることとなり、ユーザに不快感を与えてしまう。特にキーワード長が短い場合、発話の一部分についてキーワードとの音響的な類似度が大きくなる頻度が高くなり、上述した例のようにキーワードの誤検出が多く発生する。   For example, consider a case where a language model is learned as a keyword class for extracting “sushi, ramen, curry and rice”. In this case, if “tennis” is an unknown word that is not included in the learning corpus, it is acoustically matched to the out-task utterance “I want to play tennis” as “sushi in hand”, but N-gram The score of the recognition result composed of unknown words based on the establishment becomes high, and the keyword “sushi” is erroneously extracted. In this way, when a keyword is erroneously detected, a keyword that is not intended by the user or a function associated with the keyword is presented, which causes discomfort to the user. In particular, when the keyword length is short, the frequency with which the acoustic similarity with the keyword increases for a part of the utterance increases, and the erroneous detection of the keyword occurs frequently as in the example described above.

上述した問題に対して、キーワードの1−gram確率を低くすることにより、キーワードの誤検出が抑制される。   By reducing the 1-gram probability of the keyword with respect to the above-described problem, erroneous keyword detection is suppressed.

また、上述した問題に対して特許文献1には、局所的なマッチングにより誤って挿入される可能性の高い短い単語に対して高い単語挿入ペナルティを与え、短い単語が連続して挿入されるのを抑制するために、挿入された単語の単語長を検出し、検出した単語長が短くなるほど大きなペナルティが課されるように単語挿入ペナルティを決定する音声認識装置が開示されている。   In addition, for the problem described above, Patent Document 1 gives a high word insertion penalty for short words that are likely to be erroneously inserted by local matching, and short words are continuously inserted. In order to suppress this, a speech recognition device that detects the word length of an inserted word and determines a word insertion penalty so that a larger penalty is imposed as the detected word length becomes shorter is disclosed.

特開2011−164192号公報JP 2011-164192 A

しかしながら、上述したキーワードの1−gram確率を低くする技術では、短いキーワードのみの発話に対する認識性能が低下するという課題があった。また、バックオフの手法を適用しない、あるいはバックオフで計算される未知語に対するN−gram確率値を低くすると、学習コーパスに含まれない表現の認識が困難となり、キーワードの抽出性能が低下するという課題があった。
また、上述した特許文献1の技術においても、短いキーワードを含む発話の認識性能が低下するという課題があった。
However, the above-described technique for reducing the 1-gram probability of a keyword has a problem that the recognition performance for an utterance of only a short keyword is lowered. Further, if the back-off method is not applied or the N-gram probability value for an unknown word calculated by the back-off is lowered, it is difficult to recognize expressions not included in the learning corpus, and the keyword extraction performance decreases. There was a problem.
Further, the technique disclosed in Patent Document 1 described above has a problem that the recognition performance of an utterance including a short keyword is deteriorated.

この発明は、上記のような課題を解決するためになされたもので、キーワードの抽出性能を低下させることなく、単語長が短いキーワードを含む発話に対する認識性能の低下を抑制することを目的とする。   The present invention has been made to solve the above-described problems, and an object thereof is to suppress a reduction in recognition performance for an utterance including a keyword having a short word length without reducing the keyword extraction performance. .

この発明に係る音声認識装置は、設定された認識対象について学習を行った言語モデルと、音声の特徴をモデル化した音響モデルとを用いて入力音声の音声認識を行い、得られた認識結果に基づいて算出される言語尤度および音響尤度から認識結果の認識スコアを算出する音声認識部と、言語モデルのN−gram確率に基づいて、音声認識部が取得した認識結果に含まれる未知語の数を算出する未知語数算出部と、設定された認識対象に関するキーワードを蓄積するキーワード蓄積部と、キーワード蓄積部に蓄積されたキーワードが、音声認識部が取得した認識結果に含まれる場合に、当該キーワードの長さ示すキーワード長を算出するキーワード長算出部と、未知語数算出部が算出した未知語の数の増加に応じて前記認識スコアを低減させ、キーワード長算出部が算出したキーワード長の減少に応じて前記認識スコアを低減させるように、音声認識部が算出した認識スコアを再計算し、再計算した認識スコアに基づいて音声認識部が取得した認識結果を出力するスコア再計算部とを備えるものである。 The speech recognition apparatus according to the present invention performs speech recognition of input speech using a language model that has been learned for a set recognition target and an acoustic model that is a model of speech characteristics, and the obtained recognition result is obtained. A speech recognition unit that calculates a recognition score of the recognition result from the language likelihood and acoustic likelihood calculated based on the unknown word included in the recognition result acquired by the speech recognition unit based on the N-gram probability of the language model When the unknown word number calculation unit for calculating the number of words, the keyword storage unit for storing keywords related to the set recognition target, and the keywords stored in the keyword storage unit are included in the recognition result acquired by the speech recognition unit, and keyword length calculation unit for calculating a keyword length indicating the length of the keyword, of reducing the recognition score in accordance with the increase in the number of unknown words unknown word count calculation unit has calculated , So as to reduce the recognition score in accordance with a decrease of the keyword length keyword length calculation section is calculated, recalculate the recognition score speech recognition unit is calculated, the voice recognition unit on the basis of the recalculated recognition score is acquired And a score recalculation unit that outputs the recognized result.

この発明によれば、キーワードの抽出性能を低下させることなく、単語長が短いキーワードを含む発話の認識性能低下を抑制することができる。また、タスク外発話に対して特に短いキーワードの誤認識を抑制することができる。   According to the present invention, it is possible to suppress a decrease in recognition performance of an utterance including a keyword having a short word length without reducing the keyword extraction performance. In addition, it is possible to suppress erroneous recognition of a keyword that is particularly short for an out-of-task utterance.

実施の形態1に係る音声認識装置の構成を示すブロック図である。1 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 1. FIG. 実施の形態1に係る音声認識装置のハードウェア構成を示す図である。2 is a diagram illustrating a hardware configuration of the speech recognition apparatus according to Embodiment 1. FIG. 実施の形態1に係る音声認識装置の動作を示すフローチャートである。3 is a flowchart showing an operation of the speech recognition apparatus according to the first embodiment. 実施の形態1に係る音声認識装置の音声認識部の認識結果を示す一例である。6 is an example showing a recognition result of a voice recognition unit of the voice recognition device according to the first embodiment. 実施の形態1に係る音声認識装置の未知語数算出部の動作を示すフローチャートである。4 is a flowchart showing an operation of an unknown word number calculation unit of the speech recognition apparatus according to the first embodiment. 実施の形態1に係る音声認識装置のキーワード長算出部の動作を示すフローチャートである。4 is a flowchart illustrating an operation of a keyword length calculation unit of the speech recognition apparatus according to the first embodiment. 実施の形態1に係る音声認識装置のスコア再計算部の動作を示すフローチャートである。4 is a flowchart showing an operation of a score recalculation unit of the speech recognition apparatus according to Embodiment 1. 実施の形態1に係る音声認識装置の認識スコア更新後の認識結果を示す一例である。It is an example which shows the recognition result after the recognition score update of the speech recognition apparatus which concerns on Embodiment 1. FIG. 実施の形態2に係る音声認識装置の構成を示すブロック図である。4 is a block diagram illustrating a configuration of a speech recognition apparatus according to Embodiment 2. FIG. 実施の形態2に係る音声認識装置の動作を示すフローチャートである。6 is a flowchart showing the operation of the speech recognition apparatus according to the second embodiment. 実施の形態2に係る音声認識装置のキーワード選択頻度算出部の動作を示すフローチャートである。10 is a flowchart illustrating an operation of a keyword selection frequency calculation unit of the speech recognition apparatus according to the second embodiment. 実施の形態2に係る音声認識装置のスコア再計算部の動作を示すフローチャートである。10 is a flowchart illustrating an operation of a score recalculation unit of the speech recognition apparatus according to the second embodiment. 実施の形態2に係る音声認識装置の認識スコア更新後の認識結果を示す一例である。It is an example which shows the recognition result after the recognition score update of the speech recognition apparatus which concerns on Embodiment 2. FIG.

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る音声認識装置10の構成を示すブロック図である。
音声認識装置10は、入力信号に対して音声認識処理を行い、認識結果を取得する装置であって、音声認識部1、音響モデル蓄積部2、言語モデル蓄積部3、未知語数算出部4、キーワード長算出部5、キーワード蓄積部6およびスコア再計算部7で構成されている。
Hereinafter, in order to explain the present invention in more detail, modes for carrying out the present invention will be described with reference to the accompanying drawings.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing the configuration of the speech recognition apparatus 10 according to the first embodiment.
The speech recognition device 10 is a device that performs speech recognition processing on an input signal and obtains a recognition result, and includes a speech recognition unit 1, an acoustic model storage unit 2, a language model storage unit 3, an unknown word number calculation unit 4, The keyword length calculation unit 5, the keyword storage unit 6, and the score recalculation unit 7 are configured.

この実施の形態1では、音声認識部1、音響モデル蓄積部2、言語モデル蓄積部3、未知語数算出部4、キーワード長算出部5、キーワード蓄積部6およびスコア再計算部7は、それぞれ専用の回路により構成するものとして説明する。なお、当該回路によってなされる情報処理の方法についても本願発明の特徴である。また、他の構成回路、例えば汎用的なCPUなどで構成した制御回路とコンピュータプログラムとの組み合わせにより実現することも可能である。   In the first embodiment, the speech recognition unit 1, the acoustic model storage unit 2, the language model storage unit 3, the unknown word number calculation unit 4, the keyword length calculation unit 5, the keyword storage unit 6, and the score recalculation unit 7 are dedicated to each. It is assumed that the circuit is configured by Note that the information processing method performed by the circuit is also a feature of the present invention. It can also be realized by a combination of a computer program and a control circuit constituted by other constituent circuits such as a general-purpose CPU.

図2は、実施の形態1に係る音声認識装置10のハードウェア構成を示す図である。
音声認識装置10の音声認識部1、未知語数算出部4、キーワード長算出部5およびスコア再計算部7は、プロセッサ20がメモリ30に記憶されたプログラムを実行することにより、実現される。音響モデル蓄積部2、言語モデル蓄積部3およびキーワード蓄積部6は、メモリ30を構成する。また、複数のプロセッサ20および複数のメモリ30が連携して上述した機能を実行するように構成してもよい。
FIG. 2 is a diagram illustrating a hardware configuration of the speech recognition apparatus 10 according to the first embodiment.
The speech recognition unit 1, the unknown word number calculation unit 4, the keyword length calculation unit 5, and the score recalculation unit 7 of the speech recognition apparatus 10 are realized by the processor 20 executing a program stored in the memory 30. The acoustic model storage unit 2, the language model storage unit 3, and the keyword storage unit 6 constitute a memory 30. Further, a plurality of processors 20 and a plurality of memories 30 may be configured to cooperate to execute the above-described functions.

次に、音声認識装置10の各構成について説明する。なお以下では、当該音声認識装置10の認識対象を、料理名および当該料理名の付帯表現とした場合を例に説明を行う。
音声認識部1は、入力された音声について、音響モデル蓄積部2に蓄積された音響モデルと、言語モデル蓄積部3に蓄積された言語モデルとを用いて音声認識を行い、認識結果を取得する。さらに、取得した認識結果を認識スコアの大きい順に順位付けを行い、上位N個の認識結果の表記を抽出し、認識スコアを算出する。ここで、認識スコアは音響尤度と言語尤度の和である。
Next, each configuration of the speech recognition apparatus 10 will be described. In the following, a case where the recognition target of the voice recognition device 10 is a dish name and an accompanying expression of the dish name will be described as an example.
The speech recognition unit 1 performs speech recognition on the input speech using the acoustic model stored in the acoustic model storage unit 2 and the language model stored in the language model storage unit 3, and acquires a recognition result. . Further, the obtained recognition results are ranked in descending order of recognition score, the notation of the top N recognition results is extracted, and the recognition score is calculated. Here, the recognition score is the sum of acoustic likelihood and language likelihood.

音響モデル蓄積部2は、音声の特徴をモデル化した音響モデルを蓄積している。音響モデルは、例えばHMM(Hidden Markov Model)とする。言語モデル蓄積部3は、料理名および当該料理名の付帯表現を学習コーパスとして学習した統計言語モデル(N−gram言語モデル)を蓄積する。蓄積する料理名は、複数の語彙をクラスという1つのグループ(以下、キーワードクラスと称する)で表現した言語モデルを用いて学習する。蓄積する料理名の付帯表現は、例えば「<A>が食べたい」あるいは「おいしい<A>が食べたい」という表現である。   The acoustic model accumulating unit 2 accumulates an acoustic model obtained by modeling a voice feature. The acoustic model is, for example, an HMM (Hidden Markov Model). The language model accumulating unit 3 accumulates a statistical language model (N-gram language model) obtained by learning a dish name and an accompanying expression of the dish name as a learning corpus. The cooking names to be accumulated are learned using a language model in which a plurality of vocabularies are expressed in one group called a class (hereinafter referred to as a keyword class). The incidental expression of the accumulated dish name is, for example, an expression “I want to eat <A>” or “I want to eat delicious <A>”.

「<A>が食べたい」あるいは「おいしい<A>が食べたい」との表現において、キーワードクラスを<A>として学習コーパス上で記述し、キーワードクラス<A>に含まれるキーワードAが「寿司、ラーメン、カレーライス」などの料理名で表現される。当該表現を蓄積することにより、全てのキーワードAに対して「〜が食べたい」「おいしい〜が食べたい」という付帯表現を展開する必要がなく、効率的に言語モデルを学習することができる。
なお、料理名の付帯表現として「<A>が食べたい」および「おいしい<A>が食べたい」との表現を示したが、当該表現以外にユーザが発話すると推定される表現を網羅した学習コーパスを使用する。
In the expression “I want to eat <A>” or “I want to eat delicious <A>”, the keyword class is described as <A> on the learning corpus, and the keyword A included in the keyword class <A> is “Sushi , Ramen, curry and rice ". By accumulating the expressions, it is not necessary to develop additional expressions such as “I want to eat” and “I want to eat delicious” for all the keywords A, and the language model can be efficiently learned.
In addition, although the expressions “<A> wants to eat” and “delicious <A> wants to eat” are shown as supplementary expressions of the dish name, learning that covers expressions that the user is supposed to utter in addition to the expressions Use a corpus.

未知語数算出部4は、言語モデル蓄積部3に蓄積された言語モデルを参照し、音声認識部1が抽出したN個の認識結果の表記に含まれる単語から、N−gram確率による未知語数を算出する。キーワード長算出部5は、キーワード蓄積部6に蓄積されたキーワードの表記およびキーワードの読みを参照し、音声認識部1が出力したN個の認識結果の表記に含まれるキーワードのキーワード長を算出する。キーワード蓄積部6は、音声認識部1が出力する認識結果の形式に合わせたキーワードの表記およびキーワードの読みを蓄積する。また、キーワード蓄積部6が蓄積対象とするキーワードは音声認識装置10の認識対象に対応したキーワードであり、例えば、認識対象が料理名および当該料理名の付帯表現とした場合に、「寿司、ラーメン、カレーライス」について、表記および読みを蓄積する。   The unknown word number calculation unit 4 refers to the language model stored in the language model storage unit 3 and calculates the number of unknown words based on the N-gram probability from the words included in the notation of the N recognition results extracted by the speech recognition unit 1. calculate. The keyword length calculation unit 5 refers to the keyword descriptions and keyword readings stored in the keyword storage unit 6 and calculates the keyword lengths of the keywords included in the N recognition result descriptions output by the speech recognition unit 1. . The keyword accumulating unit 6 accumulates keyword notations and keyword readings according to the recognition result format output by the speech recognition unit 1. The keywords to be stored by the keyword storage unit 6 are keywords corresponding to the recognition targets of the speech recognition device 10. For example, when the recognition target is a dish name and an accompanying expression of the dish name, “sushi, ramen” , Curry and rice "accumulation and notation.

スコア再計算部7は、音声認識部1が抽出した認識結果の認識スコア、未知語数算出部4が算出した未知語数、およびキーワード長算出部5が算出したキーワードのキーワード長を用いて、認識結果の認識スコアを再計算する。スコア再計算部7は、再計算した認識スコアのうち、最も大きい認識スコアを有する認識結果を出力する。   The score recalculation unit 7 uses the recognition score of the recognition result extracted by the speech recognition unit 1, the number of unknown words calculated by the unknown word number calculation unit 4, and the keyword length of the keyword calculated by the keyword length calculation unit 5. Recalculate the recognition score for. The score recalculation unit 7 outputs a recognition result having the largest recognition score among the recalculated recognition scores.

次に、音声認識装置10の動作について、フローチャートおよび具体例を参照しながら説明する。図3は、実施の形態1に係る音声認識装置10の動作を示すフローチャートである。図4は、実施の形態1に係る音声認識装置10の音声認識部1の認識結果を示す一例である。
音声認識装置10に音声が入力されると(ステップST1)、音声認識部1は音響モデル蓄積部2に蓄積された音響モデルと、言語モデル蓄積部3に蓄積された言語モデルとを参照し、ステップST1で入力された音声の音声認識を行って認識結果を取得する(ステップST2)。さらに、音声認識部1は、ステップST2で取得した認識結果を認識スコアが大きい順に順位付けを行い、上位N個の認識結果の表記および認識スコアを抽出する(ステップST3)。
Next, the operation of the speech recognition apparatus 10 will be described with reference to a flowchart and a specific example. FIG. 3 is a flowchart showing the operation of the speech recognition apparatus 10 according to the first embodiment. FIG. 4 is an example showing a recognition result of the speech recognition unit 1 of the speech recognition apparatus 10 according to the first embodiment.
When speech is input to the speech recognition device 10 (step ST1), the speech recognition unit 1 refers to the acoustic model stored in the acoustic model storage unit 2 and the language model stored in the language model storage unit 3, Voice recognition of the voice input at step ST1 is performed to obtain a recognition result (step ST2). Furthermore, the speech recognition unit 1 ranks the recognition results acquired in step ST2 in descending order of recognition scores, and extracts the top N recognition result descriptions and recognition scores (step ST3).

ステップST1において音声としてタスク外発話「テニスしたいね」が入力されると、
音声認識部1は、ステップST2およびステップST3の処理を行い、図4に示す認識結果を抽出する。認識順位1位の認識結果の表記が「手に寿司鯛ね」であり、認識スコアが「110」である。認識順位2位の認識結果の表記が「手にする鯛ね」であり、認識スコアが「105」である。図4の認識結果では、読みのカナが「テニスしたいね」と一致する表記「手に寿司鯛ね」が最も大きい認識スコアを有し、認識順位1位の認識結果として抽出される。
When an utterance outside task "I want to play tennis" is input as a voice in step ST1,
The voice recognition unit 1 performs the processing of step ST2 and step ST3, and extracts the recognition result shown in FIG. The notation of the recognition result of the recognition rank No. 1 is “Sushi in hand” and the recognition score is “110”. The notation of the recognition result of the second recognition rank is “Keep it in hand” and the recognition score is “105”. In the recognition result of FIG. 4, the notation “sushi to sushi” in which the kana of the reading matches “I want to play tennis” has the largest recognition score, and is extracted as the recognition result of the first recognition rank.

未知語数算出部4は、言語モデル蓄積部3に蓄積された言語モデルを参照し、ステップST3で抽出されたN個の認識結果nに含まれるN−gram確率に基づく未知語数を示す値C(以下、未知語数Cと称する)を算出する(ステップST4)。ステップST4で算出された未知語数Cはスコア再計算部7に出力される。なお、ステップST4の詳細な処理動作は後述する。The unknown word number calculation unit 4 refers to the language model stored in the language model storage unit 3, and indicates a value C n indicating the number of unknown words based on the N-gram probability included in the N recognition results n extracted in step ST3. (hereinafter, referred to as the unknown word number C n) is calculated (step ST4). The unknown word count C n calculated in step ST4 is output to the score recalculation unit 7. The detailed processing operation of step ST4 will be described later.

キーワード長算出部5は、キーワード蓄積部6に蓄積されたキーワードの表記およびキーワードの読みを参照し、ステップST3で抽出されたN個の認識結果nに含まれるキーワードの長さを示す値L(以下、キーワード長Lと称する)を算出する(ステップST5)。ステップST5で算出されたキーワード長Lはスコア再計算部7に出力される。なお、ステップST5の詳細な処理動作は後述する。The keyword length calculation unit 5 refers to the keyword notations and keyword readings stored in the keyword storage unit 6 and refers to the values L n indicating the lengths of the keywords included in the N recognition results n extracted in step ST3. (hereinafter, referred to as keyword length L n) is calculated (step ST5). Keyword length L n calculated in step ST5 are output to the score recalculation unit 7. The detailed processing operation of step ST5 will be described later.

スコア再計算部7は、ステップST4で算出された未知語数CおよびステップST5で算出されたキーワード長Lを用いて、ステップST3で抽出されたN個の認識結果の認識スコアの更新を行う(ステップST6)。スコア再計算部7は、ステップST6で更新した認識スコアが大きい順に認識結果の順位付けを行い、最も認識スコアが大きい認識結果を出力し(ステップST7)、処理を終了する。なお、ステップST6およびステップST7の詳細な処理動作は後述する。Score recalculation unit 7 uses the keyword length L n calculated in unknown word number C n and step ST5 calculated in step ST4, updates the recognition score of the extracted N number of recognition results in step ST3 (Step ST6). The score recalculation unit 7 ranks the recognition results in descending order of the recognition score updated in step ST6, outputs the recognition result having the largest recognition score (step ST7), and ends the process. Detailed processing operations in steps ST6 and ST7 will be described later.

次に、ステップST4で示した未知語数算出部4の処理動作についてより詳細に説明する。
図5は、実施の形態1に係る音声認識装置10の未知語数算出部4の動作を示すフローチャートである。以下では、N個の認識結果を認識結果n(n=1,2,3,・・・,N)と記載する。また、認識結果nに含まれる単語を単語m(m=1,2,3,・・・,M)と記載する。なお、nは認識結果のインデックスであり、mは単語のインデックスである。さらに、以下では未知語数として、3−gram確率に基づく未知語数をカウントする例を示す。
Next, the processing operation of the unknown word number calculation unit 4 shown in step ST4 will be described in more detail.
FIG. 5 is a flowchart showing the operation of the unknown word number calculation unit 4 of the speech recognition apparatus 10 according to the first embodiment. Hereinafter, N recognition results are referred to as recognition results n (n = 1, 2, 3,..., N). Further, a word included in the recognition result n is described as a word m (m = 1, 2, 3,..., M n ). Note that n is an index of recognition results, and m is a word index. Furthermore, the example which counts the number of unknown words based on 3-gram probability as an unknown word number below is shown.

未知語数算出部4は、ステップST3で抽出された認識結果のインデックスnを「1」に初期化し(ステップST11)、認識結果nに含まれる単語のインデックスmを「1」に初期化し、認識結果nに含まれる未知語数Cを「0」に初期化する(ステップST12)。次に、未知語数算出部4は、言語モデル蓄積部3に蓄積された言語モデルを参照し、3−gram確率P(wn,m|wn,m−2n,m−1)が設定された閾値Pth以下であるか否か判定を行う(ステップST13)。ここで、3−gram確率Pのwn,mはn番目の認識結果のm番目の単語を意味する。また、閾値Pthを用いることにより、3−gram確率Pが閾値Pth以下の場合には、当該単語が未知語であるとみなすことができる。The unknown word number calculation unit 4 initializes the index n of the recognition result extracted in step ST3 to “1” (step ST11), initializes the index m of the word included in the recognition result n to “1”, and recognizes the recognition result. The number of unknown words C n included in n is initialized to “0” (step ST12). Next, the unknown word number calculation unit 4 refers to the language model stored in the language model storage unit 3, and the 3-gram probability P (w n, m | w n, m−2 w n, m−1 ) performing the set determined whether the threshold value P th or less (step ST13). Here, w n, m of the 3-gram probability P means the m-th word of the n-th recognition result. Further, by using the threshold value Pth , when the 3-gram probability P is equal to or less than the threshold value Pth , the word can be regarded as an unknown word.

3−gram確率Pが閾値Pth以下である場合(ステップST13;YES)、未知語数算出部4は、未知語数Cに1加算し(ステップST14)、認識結果nに含まれる単語のインデックスmに1加算する(ステップST15)。一方、3−gram確率Pが閾値Pthより大きい場合(ステップST13;NO)、上述したステップST15の処理に進む。ステップST15の次に、未知語数算出部4は、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数M以下であるか否か判定を行う(ステップST16)。When the 3-gram probability P is equal to or less than the threshold value P th (step ST13; YES), the unknown word number calculation unit 4 adds 1 to the unknown word number C n (step ST14), and the index m of the word included in the recognition result n. 1 is added to (step ST15). On the other hand, 3-gram probability if P is greater than the threshold P th (step ST13; NO), the process proceeds to step ST15 described above. After step ST15, the unknown word number calculation unit 4 determines whether or not the index m of the word included in the recognition result n is equal to or less than the number Mn of words included in the recognition result n (step ST16).

認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数M以下である場合(ステップST16;YES)、ステップST13の処理に戻る。一方、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mより大きい場合(ステップST16;NO)、未知語数算出部4は認識結果のインデックスnに1加算する(ステップST17)。さらに、未知語数算出部4は、認識結果のインデックスnが認識結果の数N以下であるか否か判定を行う(ステップST18)。認識結果のインデックスnが認識結果の数N以下である場合(ステップST18;YES)、ステップST12の処理に戻る。一方、認識結果のインデックスnが認識結果の数Nより大きい場合(ステップST18;NO)、未知語数算出部4は、上述した処理により得られた未知語数Cをスコア再計算部7に出力し(ステップST19)、図4のフローチャートのステップST5の処理に進む。When the index m of the word included in the recognition result n is less than or equal to the number Mn of words included in the recognition result n (step ST16; YES), the process returns to step ST13. On the other hand, when the word index m included in the recognition result n is larger than the number Mn of words included in the recognition result n (step ST16; NO), the unknown word number calculation unit 4 adds 1 to the index n of the recognition result. (Step ST17). Furthermore, the unknown word number calculation unit 4 determines whether or not the index n of the recognition result is equal to or less than the number N of recognition results (step ST18). If the index n of the recognition result is equal to or less than the number N of recognition results (step ST18; YES), the process returns to step ST12. On the other hand, when the index n of the recognition result is larger than the number N of the recognition results (step ST18; NO), the unknown word number calculation unit 4 outputs the unknown word number C n obtained by the above-described processing to the score recalculation unit 7. (Step ST19), the process proceeds to Step ST5 of the flowchart of FIG.

なお、上述した説明では、3−gram確率に基づく未知語数をカウントする例を示したが、2−gram確率に基づく未知語数をカウントしてもよいし、3−gram確率に基づく未知語数および2−gram確率に基づく未知語数の両者の合計値をカウントするように構成してもよい。   In the above description, an example of counting the number of unknown words based on the 3-gram probability is shown, but the number of unknown words based on the 2-gram probability may be counted, or the number of unknown words based on the 3-gram probability and 2 -You may comprise so that the total value of both of the number of unknown words based on -gram probability may be counted.

次に、ステップST5で示したキーワード長算出部5の処理動作についてより詳細に説明する。
図6は、実施の形態1に係る音声認識装置10のキーワード長算出部5の動作を示すフローチャートである。
キーワード長算出部5は、ステップST3で抽出された認識結果のインデックスnを「1」に初期化し(ステップST21)、認識結果nに含まれる単語のインデックスmを「1」に初期化し、認識結果nに含まれるキーワードの長さを示す値L(以下、キーワード長Lと称する)を「0」に初期化する(ステップST22)。次に、キーワード長算出部5は、キーワード蓄積部6に蓄積されたキーワードの表記およびキーワードの読みを参照し、n番目の認識結果のm番目の単語Wn,mが、キーワード蓄積部6に蓄積されたキーワードであるか否か判定を行う(ステップS23)。
Next, the processing operation of the keyword length calculation unit 5 shown in step ST5 will be described in more detail.
FIG. 6 is a flowchart showing the operation of the keyword length calculation unit 5 of the speech recognition apparatus 10 according to the first embodiment.
The keyword length calculation unit 5 initializes the index n of the recognition result extracted in step ST3 to “1” (step ST21), initializes the index m of the word included in the recognition result n to “1”, and recognizes the recognition result. A value L n (hereinafter referred to as keyword length L n ) indicating the length of the keyword included in n is initialized to “0” (step ST22). Next, the keyword length calculation unit 5 refers to the keyword notation and keyword reading stored in the keyword storage unit 6, and the mth word W n, m of the nth recognition result is stored in the keyword storage unit 6. It is determined whether or not the keyword is stored (step S23).

n,mがキーワードである場合(ステップST23;YES)、キーワード長算出部5は当該キーワードのキーワード長Lを、以下に示す式(1)および式(2)に基づいて更新する(ステップST24)。
L’n= UpdateLength ( Ln, length(wn,m)) (1)
Ln= L’n (2)
式(1)および式(2)において、L’は更新後のキーワード長、length(w)はキーワードwの長さを返す関数、UpdateLength(Ln,A)はキーワード長Lの更新を行う関数である。この実施の形態1では、length(w)はキーワードwのモーラ長を算出する関数、UpdateLength(Ln,A)はキーワード長LとAの最小値演算を行う関数として説明を行う。
When W n, m is a keyword (step ST23; YES), the keyword length calculation unit 5 updates the keyword length L n of the keyword based on the following equations (1) and (2) (step) ST24).
L ' n = UpdateLength (L n , length (w n, m )) (1)
L n = L ' n (2)
In Expression (1) and Expression (2), L ′ n is a keyword length after update, length (w) is a function that returns the length of keyword w, and UpdateLength (L n , A) is an update of keyword length L n . The function to perform. In the first embodiment, length (w) is described as a function for calculating the mora length of the keyword w, and UpdateLength (L n , A) is described as a function for calculating the minimum value of the keyword lengths L n and A.

キーワード長算出部5は、認識結果nに含まれる単語のインデックスmに1加算する(ステップST25)。一方、単語Wn,mがキーワードでない場合(ステップST23;NO)、上述したステップST25の処理に進む。ステップST25の次に、キーワード長算出部5は、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数M以下であるか否か判定を行う(ステップST26)。認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数M以下である場合(ステップST26;YES)、ステップST23の処理に戻る。The keyword length calculation unit 5 adds 1 to the word index m included in the recognition result n (step ST25). On the other hand, if the word W n, m is not a keyword (step ST23; NO), the process proceeds to step ST25 described above. Following step ST25, the keyword length calculation unit 5 determines whether or not the index m of the word included in the recognition result n is equal to or less than the number Mn of words included in the recognition result n (step ST26). When the index m of the word included in the recognition result n is equal to or less than the number Mn of words included in the recognition result n (step ST26; YES), the process returns to step ST23.

一方、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mより大きい場合(ステップST26;NO)、キーワード長算出部5は認識結果のインデックスnに1加算する(ステップST27)。さらに、キーワード長算出部5は、認識結果のインデックスnが認識結果の数N以下であるか否か判定を行う(ステップST28)。認識結果のインデックスnが認識結果の数N以下である場合(ステップST28;YES)、ステップST22の処理に戻る。一方、認識結果のインデックスnが認識結果の数Nより大きい場合(ステップST28;NO)、キーワード長算出部5は、上述した処理により得られたキーワード長Lをスコア再計算部7に出力し(ステップST29)、図4のフローチャートのステップST6の処理に進む。On the other hand, when the index m of the word included in the recognition result n is larger than the number M n of words included in the recognition result n (step ST26; NO), the keyword length calculation unit 5 adds 1 to the index n of the recognition result. (Step ST27). Further, the keyword length calculation unit 5 determines whether or not the recognition result index n is equal to or less than the number N of recognition results (step ST28). If the index n of the recognition result is less than or equal to the number N of recognition results (step ST28; YES), the process returns to step ST22. On the other hand, greater than the number N of index n of the recognition result is a recognition result (step ST28; NO), the keyword length calculating unit 5, and outputs a keyword length L n obtained by the process described above the score recalculation section 7 (Step ST29), the process proceeds to Step ST6 of the flowchart of FIG.

次に、ステップST6およびステップST7で示したスコア再計算部7の処理動作についてより詳細に説明する。
図7は、実施の形態1に係る音声認識装置10のスコア再計算部7の動作を示すフローチャートである。
スコア再計算部7は、ステップST3で抽出された認識結果のインデックスnを「1」に初期化する(ステップST31)。スコア再計算部7は、ステップST4で算出された未知語数CおよびステップST5で算出されたキーワード長Lを用いて、ステップST3で抽出された認識結果nの認識スコアScoreを以下の式(3)および式(4)に基づいて更新する(ステップST32)
Score’n=Rescore1(Scoren, Cn, Ln) (3)
Scoren= Score’n (4)
式(3)および式(4)において、Score´は更新後の認識スコアを示し、Rescore1(Scoren, Cn, Ln)はスコアの更新を行う関数である。
Next, the processing operation of the score recalculation unit 7 shown in step ST6 and step ST7 will be described in more detail.
FIG. 7 is a flowchart showing the operation of the score recalculation unit 7 of the speech recognition apparatus 10 according to the first embodiment.
The score recalculation unit 7 initializes the index n of the recognition result extracted in step ST3 to “1” (step ST31). The score recalculation unit 7 uses the unknown word count C n calculated in step ST4 and the keyword length L n calculated in step ST5 to calculate the recognition score Score n of the recognition result n extracted in step ST3 as follows: Update based on (3) and equation (4) (step ST32)
Score ' n = Rescore1 (Score n , C n , L n ) (3)
Score n = Score ' n (4)
In Equations (3) and (4), Score n represents the updated recognition score, and Rescore 1 (Score n , C n , L n ) is a function for updating the score.

スコアの更新を行う関数として、この実施の形態1では以下の式(5)に示す関数を用いる。

Figure 0006437092
上述した式(5)の第2項および第3項は、従来技術である認識スコアに対するペナルティに相当する。α、β、THは予め実験により決定されたパラメータである。この実施の形態1では、例えばα=1、β=10、TH=0とする。In the first embodiment, the function shown in the following formula (5) is used as a function for updating the score.
Figure 0006437092
The second term and the third term of the above-described formula (5) correspond to a penalty for the recognition score, which is a conventional technique. α, β, and TH L are parameters determined in advance by experiments. In the first embodiment, for example, α = 1, β = 10, and TH L = 0.

なお、スコアの更新を行う関数は、Score,C,Lの関数になっていれば式(5)以外の関数を適用することが可能である。例えば、以下の式(5a)として構成してもよい。

Figure 0006437092
As the function for updating the score, functions other than Expression (5) can be applied as long as it is a function of Score n , C n , and L n . For example, you may comprise as the following formula | equation (5a).
Figure 0006437092

スコア再計算部7は、認識結果のインデックスnに1加算し(ステップST33)、認識結果のインデックスnが認識結果の数N以下であるか否か判定を行う(ステップST34)。認識結果のインデックスnが認識結果の数N以下である場合(ステップST34;YES)、ステップST32の処理に戻る。一方、認識結果のインデックスnが認識結果の数Nより大きい場合(ステップST34;NO)、スコア再計算部7は、上述した処理により得られた認識スコアScoreを参照し、当該認識スコアScoreが大きい順に認識結果nの並び替えを行い(ステップST35)、最も認識スコアが大きい認識結果nを出力し(ステップST36)、処理を終了する。The score recalculation unit 7 adds 1 to the index n of the recognition result (step ST33), and determines whether or not the index n of the recognition result is equal to or less than the number N of recognition results (step ST34). If the index n of the recognition result is less than or equal to the number N of recognition results (step ST34; YES), the process returns to step ST32. On the other hand, if the index n of the recognition result is larger than the number N of recognition results (step ST34; NO), the score recalculation unit 7 refers to the recognition score Score n obtained by the above-described processing, and the recognition score Score n The recognition results n are rearranged in descending order (step ST35), the recognition result n having the largest recognition score is output (step ST36), and the process ends.

図8は、実施の形態1に係る音声認識装置10において認識スコアを更新した後の認識結果を示す一例である。図8では、認識順位、認識結果、更新前の認識スコア、未知語数C、キーワード長Lおよび更新後の認識スコアを示している。
認識結果「手にする鯛ね」および「手に寿司鯛ね」の未知語数Cは共に「2」である。一方、認識結果「手にする鯛ね」に含まれるキーワード長Lは「0」であり、「手に寿司鯛ね」に含まれるキーワード長Lは「2」である。これらの結果を上述した式(5)に代入すると、認識結果「手に寿司鯛ね」の更新後の認識スコアは「110-(1×2)-(10/2)=103」に低下する。一方、認識結果「手にする鯛ね」の更新後の認識スコアはL=0であることから「105」のままである。これにより、更新後の認識スコアに基づく認識順位が逆転し、1位が認識結果「手にする鯛ね」となり、2位が認識結果「手に寿司鯛ね」となる。
FIG. 8 is an example illustrating a recognition result after the recognition score is updated in the speech recognition apparatus 10 according to the first embodiment. FIG. 8 shows the recognition rank, the recognition result, the recognition score before update, the number of unknown words C n , the keyword length L n, and the recognition score after update.
The number of unknown words C n of the recognition results “handed sushi” and “sushi sushi” is both “2”. On the other hand, the keyword length L n included in the recognition result “hand-made rice cake” is “0”, and the keyword length L n contained in “hand-made sushi rice” is “2”. Substituting these results into the above formula (5), the recognition score after updating the recognition result “sushi in hand” decreases to “110− (1 × 2) − (10/2) = 103”. . On the other hand, the updated recognition score of the recognition result “Hold in hand” is “105” because L n = 0. As a result, the recognition order based on the updated recognition score is reversed, and the first place becomes the recognition result “hands on rice” and the second place the recognition result “hands on sushi rice”.

以上のように、この実施の形態1によれば、入力音声の音声認識を行い、認識スコアが上位の認識結果を抽出する音声認識部1と、蓄積された言語モデルを参照して認識結果の表記に基づいて未知語数を算出する未知語数算出部4と、蓄積されたキーワードを参照して認識結果の表記に基づいて認識結果に含まれるキーワードのキーワード長を算出するキーワード長算出部5と、音声認識部1が抽出した認識結果の認識スコアを、算出された未知語数およびキーワード長を用いて更新するスコア再計算部7を備えるように構成したので、未知語数が多く、且つキーワード長が短いキーワードが存在している認識結果の認識スコアを低下させることができる。これにより、タスク外発話に対して特にキーワード長が短いキーワードが多く出現するのを抑制することができる。   As described above, according to the first embodiment, the speech recognition of the input speech is performed, the speech recognition unit 1 that extracts the recognition result having the highest recognition score, and the recognition result of the recognition result by referring to the accumulated language model. An unknown word number calculating unit 4 that calculates the number of unknown words based on the notation, a keyword length calculating unit 5 that calculates the keyword length of the keyword included in the recognition result based on the notation of the recognition result with reference to the accumulated keyword, Since the score recalculation unit 7 that updates the recognition score of the recognition result extracted by the speech recognition unit 1 using the calculated number of unknown words and the keyword length is provided, the number of unknown words is large and the keyword length is short. The recognition score of the recognition result in which the keyword exists can be reduced. Thereby, it can suppress that many keywords with a short keyword length appear with respect to the utterance outside a task.

実施の形態2.
この実施の形態2では、音声認識装置10がユーザに提示した認識結果が選択された回数あるいは音声認識装置10が出力した認識結果に対応した機能が選択された回数をフィードバックし、タスク外発話に対してユーザが意図していないキーワードの出現をより抑制する構成を示す。
Embodiment 2. FIG.
In the second embodiment, the number of times the recognition result presented to the user by the voice recognition device 10 is selected or the number of times the function corresponding to the recognition result output by the voice recognition device 10 is selected is fed back to the out-task utterance. On the other hand, the structure which suppresses appearance of the keyword which a user does not intend is shown more.

図9は、実施の形態2に係る音声認識装置10aの構成を示すブロック図である。
実施の形態2の音声認識装置10aは、実施の形態1で示した音声認識装置10にキーワード選択頻度算出部8およびキーワード選択頻度蓄積部9を追加して設けている。なお、以下では、実施の形態1に係る音声認識装置10の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
FIG. 9 is a block diagram illustrating a configuration of the speech recognition apparatus 10a according to the second embodiment.
The voice recognition device 10a of the second embodiment is provided with a keyword selection frequency calculation unit 8 and a keyword selection frequency storage unit 9 added to the voice recognition device 10 shown in the first embodiment. In the following description, the same or corresponding parts as the components of the speech recognition apparatus 10 according to the first embodiment are denoted by the same reference numerals as those used in the first embodiment, and description thereof is omitted or simplified. .

キーワード選択頻度算出部8は、キーワード選択頻度蓄積部9に蓄積されたキーワード選択頻度を参照して、音声認識部1が抽出した認識結果に含まれるあるキーワードがユーザにより選択された回数を示すキーワード選択頻度を算出する。キーワード選択頻度蓄積部9は、スコア再計算部7aが出力した認識結果あるいは認識結果に対応した機能が選択されたか否かに基づいて、当該認識結果に含まれるキーワードが選択された回数を蓄積する。蓄積方法は適宜構成可能である。例えば、スコア再計算部7が出力した認識結果をキーワード選択頻度算出部8に入力することにより、キーワード選択頻度算出部8はユーザに提示したキーワードを取得して蓄積する。さらに、キーワード選択頻度算出部8は、ユーザからの入力操作を受け付ける外部装置から入力される情報を取得してユーザに選択されたキーワードを特定し、特定したキーワードの選択回数を加算する。   The keyword selection frequency calculation unit 8 refers to the keyword selection frequency stored in the keyword selection frequency storage unit 9 and indicates the number of times a certain keyword included in the recognition result extracted by the speech recognition unit 1 has been selected by the user. Calculate the selection frequency. The keyword selection frequency accumulation unit 9 accumulates the number of times a keyword included in the recognition result is selected based on whether the recognition result output from the score recalculation unit 7a or a function corresponding to the recognition result is selected. . The accumulation method can be appropriately configured. For example, by inputting the recognition result output from the score recalculation unit 7 to the keyword selection frequency calculation unit 8, the keyword selection frequency calculation unit 8 acquires and accumulates the keywords presented to the user. Further, the keyword selection frequency calculation unit 8 acquires information input from an external device that accepts an input operation from the user, specifies the keyword selected by the user, and adds the number of times the specified keyword is selected.

次に、音声認識装置10aの動作について説明する。
図10はこの発明の実施の形態2に係る音声認識装置10aの動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置10と同一のステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
ステップST5においてキーワード長算出部5がキーワード長Lを算出すると、キーワード選択頻度算出部8は、キーワード選択頻度蓄積部9に蓄積されたキーワードの選択頻度を参照し、ステップST3で抽出されたN個の認識結果に含まれるキーワードのキーワード選択頻度Fを算出する(ステップST41)。ステップST41で算出された選択頻度Fはスコア再計算部7aに出力される。なお、ステップST41の詳細な処理動作は後述する。
Next, the operation of the voice recognition device 10a will be described.
FIG. 10 is a flowchart showing the operation of the speech recognition apparatus 10a according to Embodiment 2 of the present invention. In the following, the same steps as those of the speech recognition apparatus 10 according to Embodiment 1 are denoted by the same reference numerals as those used in FIG. 3, and the description thereof is omitted or simplified.
When the keyword length calculation unit 5 calculates the keyword length L n in step ST5, the keyword selection frequency calculation unit 8 refers to the keyword selection frequency stored in the keyword selection frequency storage unit 9, and N extracted in step ST3. calculating a keyword selection frequency F n of keywords contained in the pieces of recognition result (step ST41). Selection frequency F n calculated in step ST41 is outputted to the score recalculation unit 7a. The detailed processing operation of step ST41 will be described later.

スコア再計算部7aは、ステップST4で算出された未知語数C、ステップST5で算出されたキーワード長L、およびステップST41で算出された選択頻度Fを用いて、ステップST3で抽出されたN個の認識結果の認識スコアの更新を行う(ステップST42)。スコア再計算部7aは、ステップST42で更新した認識スコアが大きい順に認識結果の順位付けを行い、最も認識スコアが大きい認識結果を出力し(ステップST43)、処理を終了する。なお、ステップST42およびステップST43の詳細な処理動作は後述する。The score recalculation unit 7a is extracted in step ST3 using the number of unknown words C n calculated in step ST4, the keyword length L n calculated in step ST5, and the selection frequency F n calculated in step ST41. The recognition score of N recognition results is updated (step ST42). The score recalculation unit 7a ranks the recognition results in descending order of the recognition score updated in step ST42, outputs the recognition result having the largest recognition score (step ST43), and ends the process. Detailed processing operations of step ST42 and step ST43 will be described later.

次に、ステップST41で示したキーワード選択頻度算出部8の動作についてより詳細に説明する。
図11は、実施の形態2に係る音声認識装置10aのキーワード選択頻度算出部8の動作を示すフローチャートである。
キーワード選択頻度算出部8は、ステップST3で抽出された認識結果のインデックスnを「1」に初期化し(ステップST51)、認識結果nに含まれる単語のインデックスmを「1」に初期化し、認識結果nに含まれるキーワード選択頻度Fを「−1」に初期化する(ステップST52)。
Next, the operation of the keyword selection frequency calculation unit 8 shown in step ST41 will be described in more detail.
FIG. 11 is a flowchart showing the operation of the keyword selection frequency calculation unit 8 of the speech recognition apparatus 10a according to the second embodiment.
The keyword selection frequency calculation unit 8 initializes the index n of the recognition result extracted in step ST3 to “1” (step ST51), initializes the index m of the word included in the recognition result n to “1”, and recognizes it. The keyword selection frequency F n included in the result n is initialized to “−1” (step ST52).

次に、キーワード選択頻度算出部8は、キーワード蓄積部6に蓄積されたキーワードの表記およびキーワードの読みを参照し、n番目の認識結果のm番目の単語Wn,mが、キーワード蓄積部6に蓄積されたキーワードであるか否か判定を行う(ステップST53)。単語Wn,mがキーワードである場合(ステップST53;YES)、キーワード選択頻度算出部8は認識結果nに含まれるキーワードのキーワード選択頻度Fを、以下に示す式(6)および式(7)に基づいて更新する(ステップST54)。
F’n= UpdateFreq ( Fn, Freq (wn,m)) (6)
Fn= F’n (7)
式(6)および式(7)において、F’は更新後のキーワード選択頻度、Freq(w)はキーワードwの選択頻度を返す関数、UpdateLength(Fn,A)はキーワード選択頻度Fの更新を行う関数である。
Next, the keyword selection frequency calculation unit 8 refers to the keyword notation and keyword reading stored in the keyword storage unit 6, and the mth word W n, m of the nth recognition result is the keyword storage unit 6. It is determined whether or not the keyword is stored in (Step ST53). When the word W n, m is a keyword (step ST53; YES), the keyword selection frequency calculation unit 8 determines the keyword selection frequency F n of the keyword included in the recognition result n by the following expressions (6) and (7) ) Based on (step ST54).
F ' n = UpdateFreq (F n , Freq (w n, m )) (6)
F n = F ' n (7)
In Formula (6) and Formula (7), F ′ n is a keyword selection frequency after update, Freq (w) is a function that returns the selection frequency of keyword w, and UpdateLength (F n , A) is the keyword selection frequency F n . A function that performs an update.

この実施の形態1では、Freq(w)として以下の式(8)で示す関数を用いる。

Figure 0006437092
式(8)においてS(w)はキーワードwの選択回数、R(w)はキーワードwの認識回数である。また、この実施の形態2ではUpdateFreq(Fn,A)はキーワード選択頻度FとAの最大値演算を行う関数とする。In the first embodiment, a function represented by the following equation (8) is used as Freq (w).
Figure 0006437092
In equation (8), S (w) is the number of times the keyword w is selected, and R (w) is the number of times the keyword w is recognized. In the second embodiment, UpdateFreq (F n , A) is a function for calculating the maximum value of the keyword selection frequencies F n and A.

その後、キーワード選択頻度算出部8は、認識結果nに含まれる単語のインデックスmに1加算する(ステップST55)。一方、単語Wn,mがキーワードでない場合(ステップST53;NO)、上述したステップST55の処理に進む。ステップST55の次に、キーワード選択頻度算出部8は、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数M以下であるか否か判定を行う(ステップST56)。認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数M以下である場合(ステップST56;YES)、ステップST53の処理に戻る。After that, the keyword selection frequency calculation unit 8 adds 1 to the word index m included in the recognition result n (step ST55). On the other hand, when the word W n, m is not a keyword (step ST53; NO), the process proceeds to step ST55 described above. Following step ST55, the keyword selection frequency calculation unit 8 determines whether or not the index m of the word included in the recognition result n is equal to or less than the number Mn of words included in the recognition result n (step ST56). . When the index m of the word included in the recognition result n is less than or equal to the number Mn of words included in the recognition result n (step ST56; YES), the process returns to step ST53.

一方、認識結果nに含まれる単語のインデックスmが、認識結果nに含まれる単語の数Mより大きい場合(ステップST56;NO)、キーワード選択頻度算出部8は認識結果のインデックスnに1加算する(ステップST57)。さらに、キーワード選択頻度算出部8は、認識結果のインデックスnが認識結果の数N以下であるか否か判定を行う(ステップST58)。認識結果のインデックスnが認識結果の数N以下である場合(ステップST58;YES)、ステップST52の処理に戻る。一方、認識結果のインデックスnが認識結果の数Nより大きい場合(ステップST58;NO)、キーワード選択頻度算出部8は、上述した処理により得られたキーワード選択頻度Fをキーワード選択頻度算出部8に出力し(ステップST59)、図10のフローチャートのステップST42の処理に進む。On the other hand, when the index m of the word included in the recognition result n is larger than the number M n of words included in the recognition result n (step ST56; NO), the keyword selection frequency calculation unit 8 adds 1 to the index n of the recognition result. (Step ST57). Further, the keyword selection frequency calculation unit 8 determines whether or not the recognition result index n is equal to or less than the number N of recognition results (step ST58). If the index n of the recognition result is equal to or less than the number N of recognition results (step ST58; YES), the process returns to step ST52. On the other hand, when the index n of the recognition result is larger than the number N of the recognition results (step ST58; NO), the keyword selection frequency calculation unit 8 uses the keyword selection frequency F n obtained by the above-described processing as the keyword selection frequency calculation unit 8. (Step ST59), the process proceeds to step ST42 in the flowchart of FIG.

次に、ステップST42およびステップST43で示したスコア再計算部7aの処理動作についてより詳細に説明する。
図12は、実施の形態2に係る音声認識装置10のスコア再計算部7aの動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置10のスコア再計算部7と同一のステップには図7で使用した符号と同一の符号を付し、説明を省略または簡略化する。
Next, the processing operation of the score recalculation unit 7a shown in step ST42 and step ST43 will be described in more detail.
FIG. 12 is a flowchart showing the operation of the score recalculation unit 7a of the speech recognition apparatus 10 according to the second embodiment. In the following, the same steps as those of the score recalculation unit 7 of the speech recognition apparatus 10 according to the first embodiment are denoted by the same reference numerals as those used in FIG. 7, and the description thereof is omitted or simplified.

スコア再計算部7aは、ステップST31で認識結果のインデックスnを「1」に初期化すると、ステップST4で算出された未知語数C、ステップST5で算出されたキーワード長LおよびステップST41で算出されたキーワード選択頻度Fを用いて、ステップST3で抽出された認識結果nの認識スコアScoreを以下の式(9)および式(10)に基づいて更新する(ステップS61)。
Score’n=Rescore2(Scoren, Cn, Ln, Fn) (9)
Scoren= Score’n (10)
式(9)および式(10)において、Score´は更新後の認識スコアを示し、Rescore1(Scoren, Cn, Ln)はスコアの更新を行う関数である。
When the index n of the recognition result is initialized to “1” in step ST31, the score recalculation unit 7a calculates the number of unknown words C n calculated in step ST4, the keyword length L n calculated in step ST5, and step ST41. The recognition score Score n of the recognition result n extracted in step ST3 is updated based on the following formula (9) and formula (10) using the keyword selection frequency F n thus performed (step S61).
Score ' n = Rescore2 (Score n , C n , L n , F n ) (9)
Score n = Score ' n (10)
In Equation (9) and Equation (10), Score ′ n represents the recognition score after update, and Rescore 1 (Score n , C n , L n ) is a function for updating the score.

この実施の形態1では、スコアの更新を行う関数として以下の式(11)に示す関数を用いる。

Figure 0006437092
上述した式(11)の第2項から第4項は、従来技術である認識スコアに対するペナルティに相当する。α、β、γ、TH、THは予め実験により決定されたパラメータである。この実施の形態2では、例えばα=1、β=10、γ=5、TH=0、TH=0.5とする。なお、スコアの更新を行う関数は、Scoren、C、L、Fの関数になっていれば式(11)以外の関数を適用することが可能である。In the first embodiment, a function shown in the following equation (11) is used as a function for updating the score.
Figure 0006437092
The second to fourth terms of the above-described formula (11) correspond to a penalty for the recognition score, which is a conventional technique. α, β, γ, TH L , and TH F are parameters determined in advance by experiments. In the second embodiment, for example, α = 1, β = 10, γ = 5, TH L = 0, and TH F = 0.5. As the function for updating the score, functions other than Expression (11) can be applied as long as the functions are Score n , C n , L n , and F n .

その後、スコア再計算部7aは、ステップST33からステップST36の処理を行い、認識結果を出力して処理を終了する。   Thereafter, the score recalculation unit 7a performs the processing from step ST33 to step ST36, outputs the recognition result, and ends the processing.

図13は、実施の形態2に係る音声認識装置10aにおいて認識スコアを更新した後の認識結果を示す一例である。図13では、認識順位、認識結果、更新前の認識スコア、未知語数C、キーワード長L、キーワード選択頻度Fおよび更新後の認識スコアを示している。
認識結果「手にする鯛ね」および「手に寿司鯛ね」の未知語数Cは共に「2」である。一方、認識結果「手にする鯛ね」に含まれるキーワード長Lは「0」であり、「手に寿司鯛ね」に含まれるキーワード長Lは「2」である。さらに、認識結果「手にする鯛ね」に含まれるキーワード選択頻度Fは「−1(キーワードが含まれていないことを意味する)」であり、「手に寿司鯛ね」に含まれるキーワード選択頻度Fは「0」である。
FIG. 13 is an example showing a recognition result after updating the recognition score in the speech recognition apparatus 10a according to the second embodiment. FIG. 13 shows the recognition rank, the recognition result, the recognition score before update, the number of unknown words C n , the keyword length L n , the keyword selection frequency F n, and the recognition score after update.
The number of unknown words C n of the recognition results “handed sushi” and “sushi sushi” is both “2”. On the other hand, the keyword length L n included in the recognition result “hand-made rice cake” is “0”, and the keyword length L n contained in “hand-made sushi rice” is “2”. Furthermore, the keyword selection frequency F n included in the recognition result “hand-made rice cake” is “−1 (means that no keyword is included)”, and the keyword included in “hand-made sushi rice cake”. The selection frequency F n is “0”.

これらの結果を上述した式(11)に代入すると、認識結果「手に寿司鯛ね」の更新後の認識スコアは「110-(1×2)-(10/2)-5=98」に低下する。一方、認識結果「手にする鯛ね」の更新後の認識スコアはL=0であることから「105」のままである。これにより、更新後の認識スコアに基づく認識順位が逆転し、1位が認識結果「手にする鯛ね」となり、2位が認識結果「手に寿司鯛ね」となる。さらに、実施の形態1で示した図6の認識結果例と比較すると、キーワード選択頻度算出部8が算出したキーワード選択頻度Fに基づいてペナルティが加えられることにより、図11の認識結果「手に寿司鯛ね」の認識スコアがより低下している。Substituting these results into the above-mentioned formula (11), the recognition score after updating the recognition result “sushi on hand” is “110- (1 × 2)-(10/2) -5 = 98”. descend. On the other hand, the updated recognition score of the recognition result “Hold in hand” is “105” because L n = 0. As a result, the recognition order based on the updated recognition score is reversed, and the first place becomes the recognition result “hands on rice” and the second place the recognition result “hands on sushi rice”. Moreover, when compared with the recognition result example of FIG. 6 described in Embodiment 1, by the penalty is added on the basis of the keyword selection frequency F n that keyword selection frequency calculating unit 8 is calculated, the recognition result of FIG. 11, "hand The recognition score for “Nishi Sushi” is lower.

以上のように、この実施の形態2によれば、音声認識部1が抽出した認識結果に含まれるあるキーワードがユーザにより選択された回数を示すキーワード選択頻度を算出するキーワード選択頻度算出部8を備えるように構成したので、タスク外発話に対して、ユーザが意図しないキーワードが一時的に出現したとしても、当該キーワードを含む認識結果がユーザに選択される頻度が低い場合にはペナルティを加えるように認識スコアを再計算することができる。これにより、タスク外の発話に対してユーザが意図しないキーワードが多く出現するのを抑制することができる。   As described above, according to the second embodiment, the keyword selection frequency calculation unit 8 that calculates the keyword selection frequency indicating the number of times a certain keyword included in the recognition result extracted by the speech recognition unit 1 is selected by the user is provided. Even if a keyword unintended by the user appears temporarily for an out-of-task utterance, a penalty will be added if the recognition result containing the keyword is not frequently selected by the user. The recognition score can be recalculated. Thereby, it can suppress that many keywords which a user does not intend with respect to the utterance outside a task appear.

なお、上述した実施の形態1および実施の形態2では、認識対象を料理名および当該料理名の付帯表現とした場合を例に説明を行ったが、これらの認識対象に限定されるものではない。   In Embodiments 1 and 2 described above, the case where the recognition target is a dish name and an accompanying expression of the dish name has been described as an example. However, the present invention is not limited to these recognition targets. .

なお、上述した実施の形態1では、未知語数の算出、キーワード長の算出の順で処理を行う場合を例に説明を行い、上述した実施の形態2では未知語数の算出、キーワード長の算出、キーワード選択頻度算出の順で処理を行う場合を例に説明を行ったが、算出の順序はこれに限定されるものではない。   In the above-described first embodiment, the case where processing is performed in the order of calculation of the number of unknown words and calculation of the keyword length will be described as an example. In the above-described second embodiment, calculation of the number of unknown words, calculation of the keyword length, Although the case where processing is performed in the order of keyword selection frequency calculation has been described as an example, the calculation order is not limited to this.

上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。   In addition to the above, within the scope of the present invention, the present invention can be freely combined with each embodiment, modified any component of each embodiment, or omitted any component in each embodiment. Is possible.

この発明に係る音声認識装置は、例えば音声認識機能を搭載したナビゲーションシステムや、ソフトウェアとして音声認識プログラムを当該した機器に適用し、キーワード長が短いキーワードを含む発話の認識性能を向上させるのに適している。   The speech recognition apparatus according to the present invention is suitable for improving the recognition performance of an utterance including a keyword having a short keyword length, for example, by applying a speech recognition program as a software to a navigation system equipped with a speech recognition function or a device to which the speech recognition program is applied. ing.

1 音声認識部、2 音響モデル蓄積部、3 言語モデル蓄積部、4 未知語数算出部、5 キーワード蓄積部、6 キーワード長算出部、7,7a スコア再計算部、8 キーワード選択頻度算出部、9 キーワード選択頻度蓄積部、10,10a 音声認識装置、20 メモリ、30 プロセッサ。   DESCRIPTION OF SYMBOLS 1 Speech recognition part, 2 Acoustic model storage part, 3 Language model storage part, 4 Unknown word number calculation part, 5 Keyword storage part, 6 Keyword length calculation part, 7, 7a Score recalculation part, 8 Keyword selection frequency calculation part, 9 Keyword selection frequency storage unit, 10, 10a speech recognition device, 20 memory, 30 processor.

Claims (7)

設定された認識対象について学習を行った言語モデルと、音声の特徴をモデル化した音響モデルとを用いて入力音声の音声認識を行い、得られた認識結果に基づいて算出される言語尤度および音響尤度から前記認識結果の認識スコアを算出する音声認識部と、
前記言語モデルのN−gram確率に基づいて、前記音声認識部が取得した認識結果に含まれる未知語の数を算出する未知語数算出部と、
前記設定された認識対象に関するキーワードを蓄積するキーワード蓄積部と、
前記キーワード蓄積部に蓄積されたキーワードが、前記音声認識部が取得した認識結果に含まれる場合に、当該キーワードの長さ示すキーワード長を算出するキーワード長算出部と、
前記未知語数算出部が算出した未知語の数の増加に応じて前記認識スコアを低減させ、前記キーワード長算出部が算出したキーワード長の減少に応じて前記認識スコアを低減させるように、前記音声認識部が算出した認識スコアを再計算し、再計算した認識スコアに基づいて前記音声認識部が取得した認識結果を出力するスコア再計算部とを備えた音声認識装置。
Language likelihood calculated based on the recognition result obtained by performing speech recognition of the input speech using a language model that has been learned for the set recognition target and an acoustic model that is modeled on the features of speech A speech recognition unit that calculates a recognition score of the recognition result from acoustic likelihood;
An unknown word number calculation unit that calculates the number of unknown words included in the recognition result acquired by the speech recognition unit based on the N-gram probability of the language model;
A keyword storage unit for storing keywords related to the set recognition target;
A keyword length calculation unit that calculates a keyword length indicating the length of the keyword when the keyword stored in the keyword storage unit is included in the recognition result acquired by the voice recognition unit;
The speech is reduced so that the recognition score is reduced according to an increase in the number of unknown words calculated by the unknown word number calculation unit, and the recognition score is reduced according to a decrease in keyword length calculated by the keyword length calculation unit. A speech recognition apparatus comprising: a score recalculation unit that recalculates a recognition score calculated by a recognition unit and outputs a recognition result acquired by the speech recognition unit based on the recalculated recognition score.
前記スコア再計算部は、前記キーワード長算出部が算出したキーワード長が設定された閾値よりも大きい場合に、前記未知語数算出部が算出した未知語の数にパラメータを乗算した値、およびパラメータを前記キーワード長で除算した値を、前記音声認識部が算出した認識スコアから減算することを特徴とする請求項1記載の音声認識装置。 The score recalculation unit, when the keyword length calculated by the keyword length calculation unit is larger than a set threshold, a value obtained by multiplying the number of unknown words calculated by the unknown word number calculation unit and a parameter, The speech recognition apparatus according to claim 1 , wherein a value obtained by dividing the keyword length is subtracted from a recognition score calculated by the speech recognition unit. 前記スコア再計算部は、前記キーワード長算出部が算出したキーワード長が設定された閾値よりも大きい場合に、前記未知語数算出部が算出した未知語の数にパラメータを乗算した値とパラメータを前記キーワード長で除算した値とを乗算した値を、前記音声認識部が算出した認識スコアから減算することを特徴とする請求項1記載の音声認識装置。 The score recalculation unit, when the keyword length calculated by the keyword length calculation unit is larger than a set threshold, a value obtained by multiplying the parameter by the number of unknown words calculated by the unknown word number calculation unit and the parameter The speech recognition apparatus according to claim 1 , wherein a value obtained by multiplying the value divided by the keyword length is subtracted from the recognition score calculated by the speech recognition unit. 前記スコア再計算部が出力した認識結果または当該認識結果に対応した機能がユーザによって選択された回数を蓄積するキーワード選択頻度蓄積部と、
前記音声認識部が取得した認識結果に前記キーワード蓄積部に蓄積されたキーワードが含まれる場合に、当該キーワードが選択された回数を示す選択頻度を、前記キーワード選択頻度蓄積部に蓄積されたキーワード選択頻度を参照して算出するキーワード選択頻度算出部とを備え、
前記スコア再計算部は、前記未知語の数、前記キーワード長、および前記キーワード選択頻度算出部が算出した選択頻度に基づいて、前記音声認識部が算出した認識スコアを再計算することを特徴とする請求項1記載の音声認識装置。
A keyword selection frequency accumulating unit that accumulates the number of times the user selected a recognition result output by the score recalculation unit or a function corresponding to the recognition result;
When the recognition result acquired by the voice recognition unit includes the keyword stored in the keyword storage unit, the selection frequency indicating the number of times the keyword is selected is selected as the keyword selection stored in the keyword selection frequency storage unit. A keyword selection frequency calculation unit that calculates by referring to the frequency,
The score recalculation unit recalculates the recognition score calculated by the voice recognition unit based on the number of unknown words, the keyword length, and the selection frequency calculated by the keyword selection frequency calculation unit. The speech recognition apparatus according to claim 1.
前記スコア再計算部は、前記未知語数算出部が算出した未知語の数の増加に応じて前記認識スコアを低減させ、前記キーワード長算出部が算出したキーワード長または前記キーワード選択頻度算出部が算出した選択頻度の減少に応じて前記認識スコアを低減させることを特徴とする請求項4記載の音声認識装置。 The score recalculation unit reduces the recognition score according to an increase in the number of unknown words calculated by the unknown word number calculation unit, and the keyword length calculated by the keyword length calculation unit or the keyword selection frequency calculation unit calculates The speech recognition apparatus according to claim 4, wherein the recognition score is reduced according to a decrease in the selected frequency. 音声認識部が、設定された認識対象について学習を行った言語モデルと、音声の特徴をモデル化した音響モデルとを用いて入力音声の音声認識を行い、得られた認識結果に基づいて算出される言語尤度および音響尤度から前記認識結果の認識スコアを算出し、
未知語数算出部が、前記言語モデルのN−gram確率に基づいて、前記認識結果に含まれる未知語の数を算出し、
キーワード長算出部が、予め蓄積された設定された認識対象に関するキーワードが、前記認識結果に含まれる場合に、当該キーワードの長さ示すキーワード長を算出し、
スコア再計算部が、前記算出された未知語の数の増加に応じて前記認識スコアを低減させ、前記算出されたキーワード長の減少に応じて前記認識スコアを低減させるように、前記認識スコアを再計算し、再計算した認識スコアに基づいて前記認識結果を出力する音声認識方法。
The speech recognition unit performs speech recognition of the input speech using the language model learned for the set recognition target and the acoustic model that models the features of the speech, and is calculated based on the obtained recognition results A recognition score of the recognition result is calculated from the language likelihood and the acoustic likelihood,
An unknown word number calculation unit calculates the number of unknown words included in the recognition result based on the N-gram probability of the language model,
The keyword length calculation unit calculates a keyword length indicating the length of the keyword when the keyword related to the set recognition target accumulated in advance is included in the recognition result,
Score recalculation unit reduces the recognition score in accordance with the increase in the number of unknown words the calculated, so as to reduce the recognition score in accordance with a decrease of the calculated keyword length, the recognition score A speech recognition method for recalculating and outputting the recognition result based on the recalculated recognition score.
設定された認識対象について学習を行った言語モデルと、音声の特徴をモデル化した音響モデルとを用いて入力音声の音声認識を行い、得られた認識結果に基づいて算出される言語尤度および音響尤度から前記認識結果の認識スコアを算出する音声認識部と、
前記言語モデルのN−gram確率に基づいて、前記音声認識部が取得した認識結果に含まれる未知語の数を算出する未知語数算出部と、
前記設定された認識対象に関するキーワードを蓄積するキーワード蓄積部と、
前記キーワード蓄積部に蓄積されたキーワードが、前記音声認識部が取得した認識結果に含まれる場合に、当該キーワードの長さ示すキーワード長を算出するキーワード長算出部と、
前記未知語数算出部が算出した未知語の数の増加に応じて前記認識スコアを低減させ、前記キーワード長算出部が算出したキーワード長の減少に応じて前記認識スコアを低減させるように、前記音声認識部が算出した認識スコアを再計算し、再計算した認識スコアに基づいて前記認識結果を出力するスコア再計算部とをコンピュータに機能させる音声認識プログラム。
Language likelihood calculated based on the recognition result obtained by performing speech recognition of the input speech using a language model that has been learned for the set recognition target and an acoustic model that is modeled on the features of speech A speech recognition unit that calculates a recognition score of the recognition result from acoustic likelihood;
An unknown word number calculation unit that calculates the number of unknown words included in the recognition result acquired by the speech recognition unit based on the N-gram probability of the language model;
A keyword storage unit for storing keywords related to the set recognition target;
A keyword length calculation unit that calculates a keyword length indicating the length of the keyword when the keyword stored in the keyword storage unit is included in the recognition result acquired by the voice recognition unit;
The speech is reduced so that the recognition score is reduced according to an increase in the number of unknown words calculated by the unknown word number calculation unit, and the recognition score is reduced according to a decrease in keyword length calculated by the keyword length calculation unit. A speech recognition program for causing a computer to function as a score recalculation unit that recalculates a recognition score calculated by a recognition unit and outputs the recognition result based on the recalculated recognition score.
JP2017505903A 2015-03-16 2015-03-16 Speech recognition apparatus, speech recognition method, and speech recognition program Expired - Fee Related JP6437092B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/057664 WO2016147292A1 (en) 2015-03-16 2015-03-16 Speech recognition device, speech recognition method, and speech recognition program

Publications (2)

Publication Number Publication Date
JPWO2016147292A1 JPWO2016147292A1 (en) 2017-06-22
JP6437092B2 true JP6437092B2 (en) 2018-12-12

Family

ID=56918813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017505903A Expired - Fee Related JP6437092B2 (en) 2015-03-16 2015-03-16 Speech recognition apparatus, speech recognition method, and speech recognition program

Country Status (2)

Country Link
JP (1) JP6437092B2 (en)
WO (1) WO2016147292A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6487119B1 (en) * 2017-07-31 2019-03-20 新電元工業株式会社 Power converter

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4610451B2 (en) * 2005-09-09 2011-01-12 株式会社エヌ・ティ・ティ・データ Speech recognition apparatus and program
JP2009098201A (en) * 2007-10-12 2009-05-07 Toshiba Corp Speech recognition device and speech recognition method
JP5311500B2 (en) * 2010-02-05 2013-10-09 Kddi株式会社 Voice recognition device

Also Published As

Publication number Publication date
WO2016147292A1 (en) 2016-09-22
JPWO2016147292A1 (en) 2017-06-22

Similar Documents

Publication Publication Date Title
JP6493866B2 (en) Information processing apparatus, information processing method, and program
JP5040909B2 (en) Speech recognition dictionary creation support system, speech recognition dictionary creation support method, and speech recognition dictionary creation support program
CN110675855B (en) Voice recognition method, electronic equipment and computer readable storage medium
US9043209B2 (en) Language model creation device
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US8635070B2 (en) Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types
JP2008293019A (en) Language understanding device
JP2002258890A (en) Speech recognizer, computer system, speech recognition method, program and recording medium
JPWO2016067418A1 (en) Dialog control apparatus and dialog control method
JP2007047412A (en) Apparatus and method for generating recognition grammar model and voice recognition apparatus
JP5799733B2 (en) Recognition device, recognition program, and recognition method
JP5276610B2 (en) Language model generation apparatus, program thereof, and speech recognition system
JP4758758B2 (en) Dictionary creation device and dictionary creation program
JP2013125144A (en) Speech recognition device and program thereof
JP3660512B2 (en) Voice recognition method, apparatus and program recording medium
JP5418596B2 (en) Audio processing apparatus and method, and storage medium
JP6437092B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP4764203B2 (en) Speech recognition apparatus and speech recognition program
JP5124012B2 (en) Speech recognition apparatus and speech recognition program
JP2011154061A (en) Dictionary creating device, computer program and data processing method therefor
JP4741452B2 (en) Language model creation device, language model creation program, speech recognition device, and speech recognition program
JP6276516B2 (en) Dictionary creation apparatus and dictionary creation program
JP4733436B2 (en) Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium
Sarikaya et al. Joint morphological-lexical language modeling (JMLLM) for Arabic
US20220138420A1 (en) Difference extraction device, method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181113

R150 Certificate of patent or registration of utility model

Ref document number: 6437092

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees