JP2019015950A - Voice recognition method, program, voice recognition device, and robot - Google Patents

Voice recognition method, program, voice recognition device, and robot Download PDF

Info

Publication number
JP2019015950A
JP2019015950A JP2018038717A JP2018038717A JP2019015950A JP 2019015950 A JP2019015950 A JP 2019015950A JP 2018038717 A JP2018038717 A JP 2018038717A JP 2018038717 A JP2018038717 A JP 2018038717A JP 2019015950 A JP2019015950 A JP 2019015950A
Authority
JP
Japan
Prior art keywords
utterance
phoneme
word
phonemes
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2018038717A
Other languages
Japanese (ja)
Inventor
勇次 國武
Yuji Kunitake
勇次 國武
太田 雄策
Yusaku Ota
雄策 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to CN201810674290.6A priority Critical patent/CN109215631A/en
Priority to US16/019,701 priority patent/US10650802B2/en
Priority to EP18181408.8A priority patent/EP3425628A1/en
Publication of JP2019015950A publication Critical patent/JP2019015950A/en
Ceased legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

To improve the recognition accuracy in the case of an infant speaker, or even under the circumstance in which an input utterance is greatly influenced by the noise.SOLUTION: The speech recognition method includes extracting a first utterance from sound picked up by a microphone corresponding to a speech processing device, calculating the reliability of a first utterance recognition result and the first utterance, exerting an utterance of repeat asking on the basis of the calculated reliability of the first utterance, extracting a second utterance obtained by the repeat asking by the microphone, calculating the reliability of a second utterance recognition result and the second utterance, and generating a recognition result from the first utterance recognition result and the second utterance recognition result on the basis of the calculated reliability of the second utterance.SELECTED DRAWING: Figure 1

Description

本開示は、音声認識の技術に関するものである。   The present disclosure relates to a speech recognition technique.

近年、発話した音声データから発話内容を示す単語列を推定する種々の音声認識方法が提案されている。   In recent years, various speech recognition methods have been proposed for estimating a word string indicating utterance content from uttered speech data.

例えば、特許文献1では、下記の音声認識方法が開示されている。すなわち、発話した音声データを複数の音素区間xに区画して各音素区間xに音素モデルを割り当て、n番目の音素区間xに対して割り当てた音素モデルpの尤度Psnと、音素モデルp以外の音素モデルの音素区間xの尤度の最高値Pmaxn及び尤度Psnの差分尤度Pdnとを求める。そして、尤度Psn及び差分尤度Pdnをそれぞれ、正解音素区間尤度モデル及び不正解音素度尤度モデルに入力して、正解音素区間尤度モデルの尤度Lncと、不正解音素尤度モデルの尤度Lniとを求める。そして、尤度Lncと尤度Lniとの差分尤度cnを求め、差分尤度cnの全音素区間の加算値を単語信頼度WCとして求め、単語信頼度WCが閾値以上であれば、その音声データに対して割り当てた音素列を出力し、単語信頼度WCが閾値未満であれば、当該音素列をリジェクトする。   For example, Patent Document 1 discloses the following speech recognition method. That is, the uttered speech data is divided into a plurality of phoneme sections x, a phoneme model is assigned to each phoneme section x, and the likelihood Psn of the phoneme model p assigned to the nth phoneme section x and the phoneme model p other than The maximum likelihood value Pmaxn of the phoneme section x and the differential likelihood Pdn of the likelihood Psn are obtained. Then, the likelihood Psn and the difference likelihood Pdn are respectively input to the correct phoneme segment likelihood model and the incorrect solution phoneme likelihood model, and the likelihood Lnc of the correct phoneme segment likelihood model and the incorrect phoneme likelihood model The likelihood Lni is obtained. Then, the difference likelihood cn between the likelihood Lnc and the likelihood Lni is obtained, the addition value of all phoneme sections of the difference likelihood cn is obtained as the word reliability WC, and if the word reliability WC is equal to or greater than the threshold, the speech The phoneme sequence assigned to the data is output, and if the word reliability WC is less than the threshold, the phoneme sequence is rejected.

しかし、特許文献1は、音素尤度のみが考慮されており、言語尤度は何ら考慮されていないので、言語として自然さを持つ音素列を再現することができないという課題がある。   However, since Patent Document 1 considers only phoneme likelihood and does not consider language likelihood, there is a problem that a phoneme string having naturalness as a language cannot be reproduced.

そこで、非特許文献1では、音響尤度と言語尤度とを用いて、発話を音声認識して単語列を推定する方法が開示されている。具体的には、非特許文献1では、式(1)の右辺に示す確率の積を最大とする単語列Wが認識結果として選択される。ここで、wは任意の単語列であり、P(O|w)は単語列wの音素列がOである確率(音響尤度)であり、音響モデルにより計算される。P(w)はwの言語としてのもっともらしさを示す確率(言語尤度)であり、n−gramなどの連続する単語の出現頻度情報を基に言語モデルにより計算される。   Therefore, Non-Patent Document 1 discloses a method for estimating a word string by recognizing speech by using acoustic likelihood and language likelihood. Specifically, in Non-Patent Document 1, the word string W that maximizes the product of the probabilities shown on the right side of Equation (1) is selected as the recognition result. Here, w is an arbitrary word string, and P (O | w) is a probability (acoustic likelihood) that the phoneme string of the word string w is O, and is calculated by an acoustic model. P (w) is a probability (language likelihood) indicating the likelihood of w as a language, and is calculated by a language model based on appearance frequency information of consecutive words such as n-gram.

また、この方法では、この音響尤度と言語尤度との積を認識結果の確からしさ(文章の信頼度)として認識結果と一緒に出力される。   In this method, the product of the acoustic likelihood and the language likelihood is output together with the recognition result as the likelihood of the recognition result (text reliability).

Figure 2019015950
Figure 2019015950

特開平11−249688号公報JP-A-11-249688

堀貴明・塚田元著、情報処理学会誌45巻10号PP.1020−1026、音声情報処理技術の最先端:3.重み付き有限状態トランスデューサによる音声認識、2004年10月Takaaki Hori and Gen Tsukada, Journal of Information Processing Society of Japan, Vol. 45, No. 10, PP.1020-1026. Speech recognition with weighted finite state transducers, October 2004

しかしながら、非特許文献1では、入力発話が曖昧であったり、入力発話がノイズなどの影響を強く受けていたりした場合、文章の信頼度が低い値となる。そして、文章の信頼度が低い場合、認識結果に誤りを含む可能性が高くなるという課題が存在する。   However, in Non-Patent Document 1, if the input utterance is ambiguous or the input utterance is strongly influenced by noise or the like, the reliability of the sentence is low. And when the reliability of a sentence is low, there exists a subject that possibility that an error will be included in a recognition result becomes high.

本開示は、このような課題を解決するためになされたものである。   This indication is made in order to solve such a subject.

本開示の一態様に係る音声認識方法は、
一の単語を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話を構成する前記N個の音素ごとに、全種類の音素の出現確率を算出し、
前記第1発話を構成する第1音素から第N音素まで、各前記N個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第1発話に対応する第1音素列と認識し、
前記第1音素列を構成するN個の音素が有する出現確率どうしを掛け合わせることによって第1値を算出し、
前記第1値が第1閾値未満である場合は、前記発話者へ前記一の単語を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、前記第2発話はM個(Mは2以上の自然数)の音素から構成され、
前記第2発話を構成する前記M個の音素ごとに、全種類の音素について出現確率を算出し、
前記第2発話を構成する第1音素から第M音素まで、各前記M個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第2発話に対応する第2音素列と認識し、
前記第2音素列を構成するM個の音素が有する出現確率どうしを掛け合わせることによって第2値を算出し、
前記第2値が前記第1閾値未満である場合は、前記第1音素列において第2閾値以上の出現確率を有する音素と前記第2音素列において前記第2閾値以上の出現確率を有する音素を抽出し、
メモリに記憶された辞書から、前記抽出された音素を含む単語を抽出し、前記辞書は各単語と前記各単語に対応する音素列を対応付け、
前記抽出された単語が一つである場合は、前記抽出された単語を前記一の単語に対応すると認識する。
A speech recognition method according to an aspect of the present disclosure includes:
A first utterance spoken by a speaker intended for a word is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
For each of the N phonemes constituting the first utterance, the appearance probabilities of all types of phonemes are calculated,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the N phonemes from the first phoneme constituting the first utterance to the Nth phoneme are arranged in order; a first phoneme string corresponding to the first utterance; Recognized,
A first value is calculated by multiplying appearance probabilities of N phonemes constituting the first phoneme string;
If the first value is less than a first threshold, let the speaker output a voice prompting the speaker to speak the one word again,
A second utterance re-spoken by the speaker with the intention of the one word is received via the microphone, and the second utterance is composed of M (M is a natural number of 2 or more) phonemes,
For each of the M phonemes constituting the second utterance, the appearance probability is calculated for all types of phonemes,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the M phonemes from the first phoneme constituting the second utterance to the Mth phoneme are arranged in order; a second phoneme string corresponding to the second utterance; Recognized,
A second value is calculated by multiplying the appearance probabilities of M phonemes constituting the second phoneme sequence;
When the second value is less than the first threshold, phonemes having an appearance probability equal to or higher than the second threshold in the first phoneme string and phonemes having an appearance probability equal to or higher than the second threshold in the second phoneme string Extract and
Extracting words including the extracted phonemes from a dictionary stored in a memory, the dictionary associates each word with a phoneme string corresponding to each word,
If the extracted word is one, the extracted word is recognized as corresponding to the one word.

本開示は、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができる。   The present disclosure can improve recognition accuracy even when the speaker is an infant or in an environment where the input utterance is greatly affected by noise.

実施の形態1における音声対話システムの全体構成の一例を示す図である。It is a figure which shows an example of the whole structure of the speech dialogue system in Embodiment 1. FIG. 二音素からなる発話において、音素毎に算出された出現確率の一例を示す図である。It is a figure which shows an example of the appearance probability calculated for every phoneme in the utterance which consists of two phonemes. 図2において第一音素目の音素と第二音素目の音素との組み合わせに対する出現確率の積を纏めた図である。FIG. 3 is a diagram summarizing products of appearance probabilities for combinations of phonemes of the first phoneme and phonemes of the second phoneme in FIG. 2. 実施の形態1における認識処理の一例を示すフローチャートである。3 is a flowchart illustrating an example of recognition processing in the first embodiment. 実施の形態1における対話の一例を示す図である。5 is a diagram illustrating an example of a conversation in Embodiment 1. FIG. 図5の対話例に対する第一認識結果と第二認識結果との一例を示す図である。It is a figure which shows an example of the 1st recognition result and the 2nd recognition result with respect to the example of a dialog of FIG. 単語辞書のデータ構成の一例を示す図である。It is a figure which shows an example of the data structure of a word dictionary. 第一認識結果から抽出された認識候補単語の一例を示す図である。It is a figure which shows an example of the recognition candidate word extracted from the 1st recognition result. 実施の形態1において、第一認識結果と第二認識結果とから認識候補単語を絞り込む処理の別の一例を示す図である。In Embodiment 1, it is a figure which shows another example of the process which narrows down a recognition candidate word from a 1st recognition result and a 2nd recognition result. 実施の形態2における音声対話システムの全体構成の一例を示す図である。It is a figure which shows an example of the whole structure of the voice interactive system in Embodiment 2. FIG. 複数のフレームに区切られた音声信号の一例を示す図である。It is a figure which shows an example of the audio | voice signal divided | segmented into the some flame | frame. 実施の形態2における認識処理の一例を示すフローチャートである。10 is a flowchart illustrating an example of recognition processing in the second embodiment. 実施の形態2の具体例において1−gramの言語モデルを採用した場合の探索空間の一例を示す図である。FIG. 11 is a diagram illustrating an example of a search space when a 1-gram language model is employed in a specific example of the second embodiment. 実施の形態2の具体例において2−gramの言語モデルを採用した場合の単語辞書の一例を示す図である。FIG. 10 is a diagram showing an example of a word dictionary when a 2-gram language model is adopted in a specific example of the second embodiment. 実施の形態2の具体例において2−gramの言語モデルを採用した場合の探索空間の一例を示す図である。FIG. 10 is a diagram illustrating an example of a search space when a 2-gram language model is employed in a specific example of the second embodiment. 実施の形態2の具体例における第一認識結果の各音素と第二認識結果の各音素との出現確率が合成された場合の探索空間を示す図である。It is a figure which shows the search space when the appearance probability of each phoneme of the 1st recognition result and each phoneme of the 2nd recognition result in the specific example of Embodiment 2 is synthesize | combined. 実施の形態3における音声対話システムの全体構成の一例を示す図である。FIG. 10 is a diagram showing an example of the overall configuration of a voice interaction system in a third embodiment. 実施の形態3における認識処理の一例を説明するフローチャートである。10 is a flowchart for explaining an example of recognition processing in the third embodiment. 実施の形態3における第一認識結果の5−bestの一例を示す図である。FIG. 10 is a diagram illustrating an example of 5-best of the first recognition result in the third embodiment. 実施の形態3における第二認識結果の5−bestの一例を示す図である。FIG. 20 is a diagram illustrating an example of 5-best of the second recognition result in the third embodiment. 実施の形態1〜3に係る音声認識装置が実装されたロボットの外観図である。It is an external view of the robot by which the speech recognition apparatus which concerns on Embodiment 1-3 is mounted.

(本開示の基礎となった知見)
ユーザが発話する音声から発話内容を解析し、解析結果を基に自然な応答を返すことでユーザとの自然な対話を実現したり、機器の制御又は情報提供などのサービスを提供したりする音声対話システムに関する技術が検討されている。
(Knowledge that became the basis of this disclosure)
Voice that analyzes utterance content from the voice uttered by the user and returns a natural response based on the analysis result to realize a natural dialogue with the user, or provide services such as device control or information provision Technologies related to dialogue systems are being studied.

成人を対象とした一般の音声認識システムでは、認識精度は90%を超えており、たとえ認識できなかったとしても、信頼度が低い認識結果を破棄して、聞き返しによりゆっくり発話してもらったり、はっきりと発話してもらったりすることで、高い信頼度を持つ認識結果を取得することが十分にできる。   In a general voice recognition system for adults, the recognition accuracy exceeds 90%, and even if it cannot be recognized, the recognition result with low reliability is discarded and the speech is slowly spoken by listening back, A recognition result with high reliability can be acquired sufficiently by having the user speak clearly.

しかしながら、一般の音声認識システムでは、言語の獲得段階にある幼児の発話、又は入力発話がノイズの影響を大きく受ける環境では、認識精度が低くなるため、たとえ聞き返したとしても信頼度の高い認識結果が得られないという課題がある。   However, in a general speech recognition system, the recognition accuracy is low in an environment where the speech of an infant in the language acquisition stage or the input speech is greatly affected by noise, so even if it is listened to again, a highly reliable recognition result There is a problem that cannot be obtained.

非特許文献1では、言語らしさを持つ単語列を出力させることはできるものの、信頼度の低い認識結果が得られた場合、聞き返すことについての開示がないので、上記の課題は解決できない。   In Non-Patent Document 1, although a word string having language-likeness can be output, the above problem cannot be solved because there is no disclosure about listening back when a recognition result with low reliability is obtained.

特許文献1では、信頼度の低い認識結果が得られた場合、その認識結果は破棄することが開示されているに過ぎず、聞き返すことについての開示がないので、非特許文献1と同様、上記の課題を解決できない。   In Patent Document 1, when a recognition result with low reliability is obtained, it is only disclosed that the recognition result is discarded, and there is no disclosure about replaying. Can't solve the problem.

そこで、本発明者は、信頼度が低い認識結果をそのまま破棄するのではなく、その認識結果と聞き返しにより得られた認識結果とを考慮すれば、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができるとの知見を得て、本開示を想到するに至った。   Therefore, the present inventor does not discard the recognition result with low reliability as it is, but considers the recognition result and the recognition result obtained by listening back, when the speaker is an infant or the input utterance is The present disclosure has been conceived by obtaining knowledge that recognition accuracy can be improved even in an environment that is greatly affected by noise.

本開示の一態様に係る音声認識方法は、
一の単語を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話を構成する前記N個の音素ごとに、全種類の音素の出現確率を算出し、
前記第1発話を構成する第1音素から第N音素まで、各前記N個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第1発話に対応する第1音素列と認識し、
前記第1音素列を構成するN個の音素が有する出現確率どうしを掛け合わせることによって第1値を算出し、
前記第1値が第1閾値未満である場合は、前記発話者へ前記一の単語を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、前記第2発話はM個(Mは2以上の自然数)の音素から構成され、
前記第2発話を構成する前記M個の音素ごとに、全種類の音素について出現確率を算出し、
前記第2発話を構成する第1音素から第M音素まで、各前記M個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第2発話に対応する第2音素列と認識し、
前記第2音素列を構成するM個の音素が有する出現確率どうしを掛け合わせることによって第2値を算出し、
前記第2値が前記第1閾値未満である場合は、前記第1音素列において第2閾値以上の出現確率を有する音素と前記第2音素列において前記第2閾値以上の出現確率を有する音素を抽出し、
メモリに記憶された辞書から、前記抽出された音素を含む単語を抽出し、前記辞書は各単語と前記各単語に対応する音素列を対応付け、
前記抽出された単語が一つである場合は、前記抽出された単語を前記一の単語に対応すると認識する。
A speech recognition method according to an aspect of the present disclosure includes:
A first utterance spoken by a speaker intended for a word is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
For each of the N phonemes constituting the first utterance, the appearance probabilities of all types of phonemes are calculated,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the N phonemes from the first phoneme constituting the first utterance to the Nth phoneme are arranged in order; a first phoneme string corresponding to the first utterance; Recognized,
A first value is calculated by multiplying appearance probabilities of N phonemes constituting the first phoneme string;
If the first value is less than a first threshold, let the speaker output a voice prompting the speaker to speak the one word again,
A second utterance re-spoken by the speaker with the intention of the one word is received via the microphone, and the second utterance is composed of M (M is a natural number of 2 or more) phonemes,
For each of the M phonemes constituting the second utterance, the appearance probability is calculated for all types of phonemes,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the M phonemes from the first phoneme constituting the second utterance to the Mth phoneme are arranged in order; a second phoneme string corresponding to the second utterance; Recognized,
A second value is calculated by multiplying the appearance probabilities of M phonemes constituting the second phoneme sequence;
When the second value is less than the first threshold, phonemes having an appearance probability equal to or higher than the second threshold in the first phoneme string and phonemes having an appearance probability equal to or higher than the second threshold in the second phoneme string Extract and
Extracting words including the extracted phonemes from a dictionary stored in a memory, the dictionary associates each word with a phoneme string corresponding to each word,
If the extracted word is one, the extracted word is recognized as corresponding to the one word.

この構成によれば、一の単語を意図する第1発話を認識することで得られた第1音素列の第1値が第1閾値より低く、第1音素列の信頼性が低い場合であっても、第1音素列は破棄されない。そして、聞き返しによって得られた一の単語を意図する第2発話の第2値が第1閾値より低く、第2音素列の信頼性も低い場合、第1音素列と第2音素列とのそれぞれから、信頼性の高い音素が抽出され、辞書と比較することで一の単語に対応する単語が抽出される。   According to this configuration, the first value of the first phoneme string obtained by recognizing the first utterance intended for one word is lower than the first threshold value, and the reliability of the first phoneme string is low. However, the first phoneme string is not discarded. Then, when the second value of the second utterance intended for one word obtained by listening is lower than the first threshold and the reliability of the second phoneme sequence is low, each of the first phoneme sequence and the second phoneme sequence Therefore, a phoneme with high reliability is extracted, and a word corresponding to one word is extracted by comparing with a dictionary.

このように、本構成は、第1発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第2発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、両認識結果である第1音素列と第2音素列とのうち信頼性の高い音素を用いて一の単語が認識されているので、一の単語の認識精度を高めることができる。   Thus, even if a recognition result with low reliability is obtained for the first utterance, this configuration does not discard the recognition result and recognizes the recognition result with low reliability for the second utterance. Use when results are obtained. Therefore, even if a highly reliable recognition result is not obtained by listening back, one word is recognized using a reliable phoneme from the first phoneme sequence and the second phoneme sequence that are both recognition results. Therefore, the recognition accuracy of one word can be improved.

更に、本構成では、第1音素列と第2音素列とのうち信頼性の高い音素を含む単語が辞書から抽出されているので、言語的に不自然な認識結果が得られることを防止できる。   Furthermore, in this configuration, since words including highly reliable phonemes from the first phoneme string and the second phoneme string are extracted from the dictionary, it is possible to prevent a linguistically unnatural recognition result from being obtained. .

以上により、本構成は、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができる。   As described above, this configuration can improve the recognition accuracy even when the speaker is an infant or in an environment where the input utterance is greatly affected by noise.

上記構成において、前記抽出された単語が複数である場合は、前記抽出された各単語を発話したか発話者に尋ねる音声を前記スピーカを通して出力し、
前記発話者から肯定又は否定の回答を前記マイクを介して受信し、
前記肯定の回答に対応する単語を、前記一の単語に対応すると認識してもよい。
In the above configuration, when there are a plurality of extracted words, a voice asking the speaker whether the extracted words are spoken or not is output through the speaker.
Receiving a positive or negative answer from the speaker via the microphone;
The word corresponding to the positive answer may be recognized as corresponding to the one word.

本構成によれば、第1音素列と第2音素列とのうち信頼性の高い音素を含む複数の単語が辞書から抽出された場合、どの単語を発話したのかを発話者に直接確認しているので、認識精度を高めることができる。   According to this configuration, when a plurality of words including a reliable phoneme are extracted from the dictionary from the first phoneme string and the second phoneme string, the speaker is directly confirmed as to which word is spoken. Therefore, recognition accuracy can be improved.

本開示の別の一態様に係る声認識方法は、
一の単語列を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される単語列の信頼度X1を算出し、

Figure 2019015950
tは、前記第1発話を構成するフレームを指定する番号を示し、
Tは、前記第1発話を構成するフレームの総数を示し、
A1(o,s|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態sに対応する音素列に遷移する確率を示し、
は前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、
L1(s,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態sに対応する単語列に遷移する確率を示し、
前記信頼度X1が閾値以上であるか判定し、
前記信頼度X1が前記閾値未満である場合は、前記発話者へ前記一の単語列を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、
前記第2発話の信頼度X1が前記閾値未満である場合は、前記第1発話と前記第2発話から推定される全ての単語列に対して合成信頼度Xを算出し、
Figure 2019015950
tは、前記第1発話および前記第2発話を構成するフレームを指定する番号を示し、
Tは、前記第1発話および前記第2発話を構成するフレームの総数を示し、
A1(o,s|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態sに対応する音素列に遷移する確率を示し、
は、前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は、全種類の音素を示し、
A2(q,s|st−1)は、前記第2発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態sに対応する音素列に遷移する確率を示し、
は前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
(s,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態sに対応する単語列に遷移する確率を示し、
前記合成信頼度Xのうち最大値を与える前記状態sに対応する単語列を、前記一の単語列として認識する。 A voice recognition method according to another aspect of the present disclosure includes:
A first utterance uttered by a speaker with the intention of a single word string is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating the reliability X1 of the word string estimated for the first utterance;
Figure 2019015950
t indicates a number for specifying a frame constituting the first utterance;
T indicates the total number of frames constituting the first utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P L1 (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
Determining whether the reliability X1 is greater than or equal to a threshold;
If the reliability X1 is less than the threshold, a voice prompting the speaker to speak the one word string again is output through a speaker;
Receiving a second utterance re-uttered by the speaker with the intention of the one word string, via the microphone;
When the reliability X1 of the second utterance is less than the threshold value, the composite reliability X is calculated for all word strings estimated from the first utterance and the second utterance,
Figure 2019015950
t indicates a number that designates a frame constituting the first utterance and the second utterance;
T represents the total number of frames constituting the first utterance and the second utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is a physical quantity obtained from the first utterance and used to estimate the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P A2 (q t , s t | s t−1 ) is the t th frame after the phoneme string corresponding to the state s t−1 from the first frame to the t−1 frame of the second utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
q t is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
A word string corresponding to the state s t giving the maximum value of the combined confidence X, recognized as the one word sequence.

本構成によれば、一の単語列を意図する第1発話がT個のフレームに分けられ、t−1番フレームまでの状態st−1からt番フレームまでの状態sに遷移するときの、音素列の確率PA1(o,s|st−1)と、単語列の確率PL1(s,st−1)との積を最大化する単語列が一の単語列として認識される。 According to this configuration, the first utterance intended for one word sequence is divided into the T frame, when a transition to a state s t from state s t-1 to t-1 th frame to the t-th frame A word sequence that maximizes the product of the probability P A1 (o t , s t | s t-1 ) of the phoneme sequence and the probability P L1 (s t , s t-1 ) of the word sequence Recognized as a column.

そして、第1発話の単語列の信頼度X1が閾値より低く、第1発話の単語列の信頼性が低い場合であっても、第1発話の単語列は破棄されない。そして、聞き返しによって得られた一の単語列を意図する第2発話の単語列の信頼度X1が閾値より低く、第2発話の単語列の信頼性も低い場合、状態sにおける第1発話の音素列の確率PA1(o,s|st−1)及び第2発話の音素列の確率PA2(q,s|st−1)の加算値と、状態sにおける単語列の確率P(s,st−1)との積が合成信頼度Xとして算出され、合成信頼度Xを最大化する単語列が一の単語として認識される。 And even if the reliability X1 of the word sequence of the first utterance is lower than the threshold value and the reliability of the word sequence of the first utterance is low, the word sequence of the first utterance is not discarded. Then, lower than the reliability X1 is the threshold of the word sequence of the second speech intended for one word string obtained by reflective listening, if the reliability of the word sequence of the second utterance also low, the first utterance in the state s t The sum of the phoneme sequence probability P A1 (o t , s t | s t-1 ) and the phoneme sequence probability P A2 (q t , s t | s t-1 ) of the second utterance, and the state s t The product of the word string probabilities P L (s t , s t−1 ) is calculated as the combined reliability X, and the word string that maximizes the combined reliability X is recognized as one word.

このように、本構成は、第1発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第2発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、両認識結果を合成することで一の単語列が認識されているので、一の単語列の認識精度を高めることができる。   Thus, even if a recognition result with low reliability is obtained for the first utterance, this configuration does not discard the recognition result and recognizes the recognition result with low reliability for the second utterance. Use when results are obtained. For this reason, even if a highly reliable recognition result cannot be obtained by listening back, since one word string is recognized by combining both recognition results, the recognition accuracy of one word string can be improved. .

更に、本構成では、音素列の確率のみならず単語列の確率も考慮されているので、言語的に不自然な認識結果が得られることを防止できる。   Furthermore, in this configuration, not only the probability of the phoneme string but also the probability of the word string is taken into consideration, so that a linguistically unnatural recognition result can be prevented.

以上により、本構成は、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができる。   As described above, this configuration can improve the recognition accuracy even when the speaker is an infant or in an environment where the input utterance is greatly affected by noise.

本開示の更に別の一態様に係る音声認識方法は、
一の単語列を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される全ての単語列の信頼度X1を算出し、

Figure 2019015950
t1は、前記第1発話を構成するフレームを指定する番号を示し、
T1は、前記第1発話を構成するフレームの総数を示し、
A1(ot1,st1|st1−1)は、前記第1発話の1番フレームからt1−1番フレームまでの状態st1−1に対応する音素列の次に、t1番フレームで任意の音素が出現し、状態st1に対応する音素列に遷移する確率を示し、
t1は前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、PL1(st1,st1−1)は、前記第1発話において前記状態st1−1に対応する単語列の次に、t1番フレームで任意の単語が出現し、前記状態st1に対応する単語列に遷移する確率を示し、
前記信頼度X1の最大値MaxX1が閾値以上であるか判定し、
前記最大値MaxX1が前記閾値未満である場合は、
前記信頼度X1の上位M個(Mは2以上の自然数)を与える前記第1発話に対して推定される第1単語列を抽出し、
前記発話者へ前記一の単語列を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、マイクを介して受信し、
前記第2発話に対して推定される全ての単語列の信頼度X2を算出し、
Figure 2019015950
t2は、前記第2発話を構成するフレームを指定する番号を示し、
T2は、前記第2発話を構成するフレームの総数を示し、
A2(ot2,st2|st2−1)は、前記第2発話の1番フレームからt2−1番フレームまでの状態st2−1に対応する音素列の次に、t2番フレームで任意の音素が出現し、状態st2に対応する音素列に遷移する確率を示し、
t2は前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
L2(st2,st2−1)は、前記第2発話において前記状態st2−1に対応する単語列の次に、t2番フレームで任意の単語が出現し、前記状態st2に対応する単語列に遷移する確率を示し、
前記信頼度X2の最大値MaxX2が閾値以上であるか判定し、
前記最大値MaxX2が前記閾値未満である場合は、前記信頼度X2の前記上位M個を与える前記第2発話に対して推定される第2単語列を抽出し、
前記第1単語列と前記第2単語列とに共通する単語列がある場合は、前記共通する単語列を前記一の単語列として認識する。 A speech recognition method according to still another aspect of the present disclosure is provided.
A first utterance uttered by a speaker with the intention of a single word string is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating reliability X1 of all word strings estimated for the first utterance;
Figure 2019015950
t1 indicates a number for specifying a frame constituting the first utterance;
T1 indicates the total number of frames constituting the first utterance,
P A1 (o t1 , s t1 | s t1-1 ) is the t1 frame after the phoneme sequence corresponding to the state s t1-1 from the first frame to the t1-1 frame of the first utterance. Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t1 ,
o t1 is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes indicate all types of phonemes, and P L1 (s t1 , s t1-1 ) is arbitrary in the frame t1 next to the word string corresponding to the state s t1-1 in the first utterance. And the probability of transition to a word string corresponding to the state s t1 ,
Determining whether the maximum value MaxX1 of the reliability X1 is equal to or greater than a threshold;
When the maximum value MaxX1 is less than the threshold value,
Extracting a first word string estimated for the first utterance giving the top M pieces of reliability X1 (M is a natural number of 2 or more);
Outputting a voice prompting the speaker to speak the one word string again through a speaker;
Receiving a second utterance re-spoken by the speaker with the intention of the one word string, via a microphone;
Calculating reliability X2 of all word strings estimated for the second utterance;
Figure 2019015950
t2 indicates a number that designates a frame constituting the second utterance;
T2 indicates the total number of frames constituting the second utterance,
P A2 (o t2, s t2 | s t2-1) is the next phoneme string corresponding to the state s t2-1 to t2-1 numbered frame from 1 numbered frame of the second speech, at t2 numbered frame Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t2 ,
o t2 is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L2 (s t2 , s t2-1 ) corresponds to the state s t2 when an arbitrary word appears in the t2 frame after the word string corresponding to the state s t2-1 in the second utterance. The probability of transition to a word string
It is determined whether the maximum value MaxX2 of the reliability X2 is greater than or equal to a threshold value,
If the maximum value MaxX2 is less than the threshold, extract a second word string estimated for the second utterance that gives the top M pieces of the reliability X2,
When there is a word string common to the first word string and the second word string, the common word string is recognized as the one word string.

本構成によれば、一の単語列を意図する第1発話がT個のフレームに分けられ、t−1番フレームまでの状態st−1からt番フレームまでの状態sに遷移するときの、音素列の確率PA1(o,s|st−1)と、単語列の確率PL1(s,st−1)との積が信頼度X1として算出される。 According to this configuration, the first utterance intended for one word sequence is divided into the T frame, when a transition to a state s t from state s t-1 to t-1 th frame to the t-th frame Of the phoneme string P A1 (o t , s t | s t-1 ) and the word string probability P L1 (s t , s t-1 ) are calculated as the reliability X1.

そして、信頼度X1の最大値MaxX1が閾値より低く、第1発話から認識された単語列の信頼性が低い場合、上位M個の信頼度X1を持つ第1単語列が抽出され、聞き返しにより第2発話が得られる。   When the maximum value MaxX1 of the reliability X1 is lower than the threshold value and the reliability of the word string recognized from the first utterance is low, the first word string having the top M reliability X1 is extracted, Two utterances are obtained.

そして、第2発話の単語列の信頼度X2の最大値MaxX2が閾値より低く、第2発話の単語列の信頼性も低い場合、上位M個の信頼度X2を持つ第2単語列が抽出され、第1単語列と第2単語列とにおいて共通する単語列がある場合は、共通する単語列が一の単語列として認識される。   If the maximum value MaxX2 of the reliability X2 of the word sequence of the second utterance is lower than the threshold value and the reliability of the word sequence of the second utterance is also low, the second word sequence having the top M reliability X2 is extracted. When there is a common word string in the first word string and the second word string, the common word string is recognized as one word string.

このように、本構成は、第1発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第2発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、第1発話と第2発話との両方で認識された単語列が一の単語列として認識されているので、一の単語列の認識精度を高めることができる。   Thus, even if a recognition result with low reliability is obtained for the first utterance, this configuration does not discard the recognition result and recognizes the recognition result with low reliability for the second utterance. Use when results are obtained. For this reason, even if a highly reliable recognition result is not obtained by listening back, the word sequence recognized in both the first utterance and the second utterance is recognized as one word sequence, so one word Column recognition accuracy can be increased.

更に、本構成では、音素列の確率のみならず単語列の確率も考慮されているので、言語的に不自然な認識結果が得られることを防止できる。   Furthermore, in this configuration, not only the probability of the phoneme string but also the probability of the word string is taken into consideration, so that a linguistically unnatural recognition result can be prevented.

以上により、本構成は、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができる。   As described above, this configuration can improve the recognition accuracy even when the speaker is an infant or in an environment where the input utterance is greatly affected by noise.

上記の音声認識方法はロボットに適用されてもよい。   The above speech recognition method may be applied to a robot.

また、本開示は、以上のような特徴的な処理を実行する音声認識方法として実現することができるだけでなく、音声認識方法に含まれる特徴的なステップを実行するための処理部を備える音声認識装置などとして実現することもできる。また、このような音声認識方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。   In addition, the present disclosure can be realized not only as a speech recognition method that performs the characteristic processing as described above, but also includes a speech recognition unit that includes a processing unit for executing the characteristic steps included in the speech recognition method. It can also be realized as a device. Moreover, it can also be realized as a computer program that causes a computer to execute the characteristic steps included in such a speech recognition method. Needless to say, such a computer program can be distributed via a computer-readable non-transitory recording medium such as a CD-ROM or a communication network such as the Internet.

以下、図面を参照しながら、本開示の実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、及びステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。   Hereinafter, embodiments of the present disclosure will be described with reference to the drawings. Note that each of the embodiments described below shows a specific example of the present disclosure. Numerical values, shapes, components, steps, order of steps, and the like shown in the following embodiments are merely examples, and are not intended to limit the present disclosure. In addition, among the constituent elements in the following embodiments, constituent elements that are not described in the independent claims indicating the highest concept are described as optional constituent elements. In all the embodiments, the contents can be combined.

(実施の形態1)
図1は、実施の形態1における音声対話システムの全体構成の一例を示す図である。図1に示す音声対話システムは、音声認識装置100、マイク400、スピーカ410、サービスアプリサーバ420、及び制御機器430を備える。
(Embodiment 1)
FIG. 1 is a diagram illustrating an example of the overall configuration of the voice interaction system according to the first embodiment. The voice interaction system shown in FIG. 1 includes a voice recognition device 100, a microphone 400, a speaker 410, a service application server 420, and a control device 430.

音声認識装置は100、プロセッサとしてのCPU(中央演算処理装置)20、及びメモリ30を備える。CPU20は、音声認識部200、単語信頼度判定部210、意図解釈部220、行動選択部230、応答生成部240、音声合成部250、及び発話抽出部260を備える。メモリ30は、単語辞書301及び認識結果記憶部302を備える。音声認識部200は、音素推定部201、単語推定部202、及び音素出現確率判定部203を備える。   The speech recognition apparatus includes 100, a CPU (Central Processing Unit) 20 as a processor, and a memory 30. The CPU 20 includes a speech recognition unit 200, a word reliability determination unit 210, an intention interpretation unit 220, an action selection unit 230, a response generation unit 240, a speech synthesis unit 250, and an utterance extraction unit 260. The memory 30 includes a word dictionary 301 and a recognition result storage unit 302. The speech recognition unit 200 includes a phoneme estimation unit 201, a word estimation unit 202, and a phoneme appearance probability determination unit 203.

単語辞書301は、音声認識装置100が認識可能な単語と音素列との組み合わせを記憶する。図7は、単語辞書のデータ構成の一例を示す図である。単語辞書には、「マンゴー」及び「レンガ」というような単語と、「mango:」及び「renga」というような各単語の音素列とが対応付けて記憶されている。   The word dictionary 301 stores combinations of words and phoneme strings that can be recognized by the speech recognition apparatus 100. FIG. 7 is a diagram illustrating an example of a data configuration of the word dictionary. In the word dictionary, words such as “mango” and “brick” and a phoneme string of each word such as “mango:” and “renga” are stored in association with each other.

図1に参照を戻す。音声認識装置100としてコンピュータを機能させるプログラムは、音声認識装置100を実装するロボット又は端末に組み込まれたメモリ30に格納され、CPU20等のプロセッサによって実行される。また、音声認識装置100を構成する全ての要素は、同一端末に実装されてもよいし、光ファイバ、無線又は公衆電話回線などの任意のネットワークを介して接続される別の端末又はサーバ上に個別に実装されてもよく、音声認識装置100と別の端末又はサーバとが互いに通信することによって音声対話処理を実現してもよい。   Returning to FIG. A program that causes a computer to function as the speech recognition apparatus 100 is stored in a memory 30 incorporated in a robot or a terminal in which the speech recognition apparatus 100 is mounted, and is executed by a processor such as the CPU 20. All elements constituting the speech recognition apparatus 100 may be mounted on the same terminal, or on another terminal or server connected via an arbitrary network such as an optical fiber, a radio, or a public telephone line. It may be implemented individually, and the voice interaction processing may be realized by the voice recognition device 100 and another terminal or server communicating with each other.

マイク400は、例えば、指向性マイクで構成され、音声認識装置100が実装された端末又はロボットに組み込まれている。また、マイク400は、例えばハンドマイク、ピンマイク、又は卓上マイクなど任意の収音デバイスで構成されてもよい。この場合、マイク400は、有線又は無線を介して音声認識装置100が実装された端末に接続される。また、マイク400は、スマートフォン又はタブレット端末などの収音及び通信機能を持つデバイスに搭載されたマイクで構成されてもよい。   The microphone 400 is constituted by, for example, a directional microphone, and is incorporated in a terminal or a robot on which the speech recognition apparatus 100 is mounted. Moreover, the microphone 400 may be configured by an arbitrary sound collection device such as a hand microphone, a pin microphone, or a table microphone. In this case, the microphone 400 is connected to a terminal on which the speech recognition apparatus 100 is mounted via wired or wireless. Moreover, the microphone 400 may be comprised with the microphone mounted in the device with sound collection and communication functions, such as a smart phone or a tablet terminal.

スピーカ410は、音声認識装置100が実装された端末又はロボットに組み込まれてもよいし、音声認識装置100が実装された端末又はロボットと、有線又は無線を介して接続されてもよい。また、スピーカ410は、スマートフォン又はタブレット端末などの集音及び通信機能を持つデバイスに搭載されたスピーカで構成されてもよい。   The speaker 410 may be incorporated in a terminal or robot on which the voice recognition device 100 is mounted, or may be connected to a terminal or robot on which the voice recognition device 100 is mounted via a wired or wireless connection. The speaker 410 may be configured by a speaker mounted on a device having sound collection and communication functions such as a smartphone or a tablet terminal.

サービスアプリサーバ420は、お天気、読み聞かせ、ニュース、及びゲームなどの複数のサービスをネットワークを介してユーザに提供するクラウドサーバである。例えば、サービスアプリサーバ420は、音声認識装置100による音声の認識結果を取得し、認識結果に応じて実行するサービスを決定する。サービスアプリサーバ420より提供されるサービスは、サービスアプリサーバ420における実行結果をネットワークを介して取得する機能を備えるプログラムによって実現されていてもよいし、サービスアプリサーバ420と、音声認識装置100が実装されるロボット又は端末上のメモリに記憶されたプログラムとによって実現されてもよい。   The service application server 420 is a cloud server that provides users with a plurality of services such as weather, storytelling, news, and games via a network. For example, the service application server 420 acquires a speech recognition result by the speech recognition apparatus 100 and determines a service to be executed according to the recognition result. The service provided by the service application server 420 may be realized by a program having a function of acquiring an execution result in the service application server 420 via a network, or implemented by the service application server 420 and the speech recognition apparatus 100. It may be realized by a robot stored in the memory or a program stored in a memory on the terminal.

制御機器430は、有線又は無線によって音声認識装置100と接続されたテレビ又は空調器等の機器で構成され、音声認識装置100から音声の認識結果を受信して制御される機器である。   The control device 430 is configured by a device such as a television or an air conditioner connected to the speech recognition device 100 by wire or wireless, and is a device that is controlled by receiving a speech recognition result from the speech recognition device 100.

発話抽出部260は、マイク400から出力された音声信号のうち発話中の音声信号を抽出して音素推定部201に出力する。ここで、発話抽出部260は、例えば所定音量以上の音声が一定期間以上継続した場合、発話が開始されたことを検出し、マイク400から入力される音声信号の音素推定部201への出力を開始する。また、発話抽出部260は所定音量未満の音声が所定期間以上続いたことを検出した場合、音素推定部201への音声信号の出力を停止する。本実施の形態では、発話抽出部260は、一の単語を意図して発話者が発話した音声の音声信号を抽出するものとする。また、発話者は、言語獲得段階にある幼児とする。   The speech extraction unit 260 extracts a speech signal being spoken from the speech signal output from the microphone 400 and outputs the speech signal to the phoneme estimation unit 201. Here, the utterance extraction unit 260 detects that the utterance has been started, for example, when a sound of a predetermined volume or higher continues for a certain period of time, and outputs an audio signal input from the microphone 400 to the phoneme estimation unit 201. Start. In addition, when the speech extraction unit 260 detects that the voice having a volume lower than the predetermined volume has continued for a predetermined period or longer, the speech extraction unit 260 stops outputting the voice signal to the phoneme estimation unit 201. In the present embodiment, it is assumed that the utterance extraction unit 260 extracts a voice signal of a voice uttered by a speaker with the intention of one word. The speaker is an infant in the language acquisition stage.

音素推定部201は、発話抽出部260により入力された音声信号を、所定の時間単位で構成される複数の音声区間に区切り、各音素区間において全種類の音素のそれぞれの出現確率を算出する。音素とは、言語において、音声の最小単位のことを指し、例えば、「a」及び「i」などの記号で表される。全種類の音素とは、発話に用いられる全ての音素を指す。この全種類の音素は、音響モデルによってモデル化されている。音響モデルとしては、例えば、HMM(Hidden Markov Model:隠れマルコフモデル)が挙げられる。   The phoneme estimation unit 201 divides the speech signal input by the utterance extraction unit 260 into a plurality of speech sections configured in a predetermined time unit, and calculates the appearance probabilities of all types of phonemes in each phoneme section. A phoneme refers to a minimum unit of speech in a language, and is represented by symbols such as “a” and “i”, for example. All types of phonemes refer to all phonemes used for speech. All types of phonemes are modeled by acoustic models. As an acoustic model, HMM (Hidden Markov Model: Hidden Markov Model) is mentioned, for example.

音素の種類数は言語によっても異なるが、日本語であれば例えば40程度である。ここで、音素推定部201は、HMMを用いて、連続する共通の音素区間を1つの音素区間として纏めることで、音素列を推定してもよい。そして、音素推定部201は、全音素区間における出現確率の積を最大とする音素の組み合わせを、発話者が発話した音素列として推定する。   The number of phoneme types varies depending on the language, but is about 40 for Japanese. Here, the phoneme estimation unit 201 may estimate a phoneme string by collecting continuous common phoneme segments as one phoneme segment using an HMM. Then, the phoneme estimation unit 201 estimates a phoneme combination that maximizes the product of appearance probabilities in all phoneme sections as a phoneme string uttered by the speaker.

単語推定部202は、音素推定部201により推定された音素列に対して最もマッチする単語を、単語辞書301から抽出し、抽出した単語を発話者が発話した単語として推定する。   The word estimation unit 202 extracts from the word dictionary 301 the word that most closely matches the phoneme string estimated by the phoneme estimation unit 201, and estimates the extracted word as a word spoken by the speaker.

図2は、二音素からなる発話において、音素毎に算出された出現確率の一例を示す図である。図3は、図2において第一音素目の音素と第二音素目の音素との組み合わせに対する出現確率の積を纏めた図である。   FIG. 2 is a diagram illustrating an example of the appearance probability calculated for each phoneme in an utterance composed of two phonemes. FIG. 3 is a diagram summarizing the products of appearance probabilities for combinations of phonemes of the first phoneme and phonemes of the second phoneme in FIG. 2.

例えば、二音素からなる単語が発話され、図2に示される音素の出現確率が得られたとする。図2では、一音素目に対して音素「a」及び「u」の出現確率がそれぞれ「0.4」及び「0.5」と算出され、二音素目に対して音素「i」及び「e」の出現確率がそれぞれ「0.3」及び「0.6」と算出されている。   For example, it is assumed that a word composed of two phonemes is uttered and the appearance probability of phonemes shown in FIG. 2 is obtained. In FIG. 2, the appearance probabilities of phonemes “a” and “u” are calculated as “0.4” and “0.5” for the first phoneme, respectively, and phonemes “i” and “i” for the second phoneme. The appearance probabilities of “e” are calculated as “0.3” and “0.6”, respectively.

この場合、一音素目と二音素目との音素の組み合わせとして「ai」、「ae」、「ui」及び「ue」の4つが得られ、各組み合わせの出現確率の積は、「0.12」、「0.24」、「0.15」、及び「0.30」となる。   In this case, “ai”, “ae”, “ui”, and “ue” are obtained as phoneme combinations of the first phoneme and the second phoneme, and the product of the appearance probabilities of each combination is “0.12”. ”,“ 0.24 ”,“ 0.15 ”, and“ 0.30 ”.

したがって、一音素目と二音素目との音素の出現確率の積が最大となる組み合わせは、出現確率が「0.30」である「ue」となる。この時、音素列「ue」で単語辞書301を検索し、音素列「ue」にマッチする単語を認識結果として出力する。この時の各音素の出現確率の積、つまり「ue」=「0.30」が認識された単語の信頼度となる。   Therefore, the combination having the maximum product appearance probability of the first phoneme and the second phoneme is “ue” whose appearance probability is “0.30”. At this time, the word dictionary 301 is searched for the phoneme string “ue”, and a word that matches the phoneme string “ue” is output as a recognition result. At this time, the product of the appearance probabilities of each phoneme, that is, “ue” = “0.30” is the reliability of the recognized word.

単語信頼度判定部210は、単語推定部202により認識された単語の信頼度(第1値、第2値の一例)と所定の閾値TH1(第1閾値の一例)とを比較して、単語の信頼度が閾値TH1未満である場合、認識結果記憶部302に、単語推定部202により認識された単語の音素列と、各音素の出現確率とを含む認識結果を第一発話に対する第一認識結果として記憶させる。この場合、単語信頼度判定部210は、発話者に一の単語を再度発話させるために、再発話を促す音声の生成指示を応答生成部240に出力する。   The word reliability determination unit 210 compares the word reliability recognized by the word estimation unit 202 (an example of the first value and the second value) with a predetermined threshold value TH1 (an example of the first threshold value) to determine the word When the reliability of the first utterance is less than the threshold TH1, a recognition result including the phoneme string of the word recognized by the word estimation unit 202 and the appearance probability of each phoneme is stored in the recognition result storage unit 302 as the first recognition for the first utterance. Remember as a result. In this case, the word reliability determination unit 210 outputs, to the response generation unit 240, a voice generation instruction that prompts re-speaking in order for the speaker to speak one word again.

単語信頼度判定部210は、再発話によって発話者に一の単語を意図する第二発話が行われ、単語推定部202により第二認識結果が得られた場合、第二認識結果の信頼度が閾値TH1未満であるか否かを判定する。   The word reliability determination unit 210 performs the second utterance intended for one word to the speaker by re-utterance, and when the word recognition unit 202 obtains the second recognition result, the reliability of the second recognition result is It is determined whether or not the threshold value is less than TH1.

音素出現確率判定部203は、単語信頼度判定部210により、第二認識結果の信頼度が閾値TH1未満と判定された場合、第一認識結果により認識された単語と、第二認識結果により認識された単語とのそれぞれにおいて、音素の出現確率が閾値TH2以上の音素を抽出する。   The phoneme appearance probability determination unit 203 recognizes the word recognized by the first recognition result and the second recognition result when the word reliability determination unit 210 determines that the reliability of the second recognition result is less than the threshold TH1. For each of the words that have been generated, a phoneme having a phoneme appearance probability greater than or equal to the threshold TH2 is extracted.

単語推定部202は、音素出現確率判定部203により抽出された音素列を含む単語を単語辞書301から抽出し、抽出結果に基づいて最終認識結果としての単語を決定する。   The word estimation unit 202 extracts a word including the phoneme string extracted by the phoneme appearance probability determination unit 203 from the word dictionary 301, and determines a word as a final recognition result based on the extraction result.

また、単語信頼度判定部210は、単語の信頼度が閾値TH1以上である場合、認識結果を意図解釈部220に出力する。   Moreover, the word reliability determination part 210 outputs a recognition result to the intention interpretation part 220, when the word reliability is more than threshold TH1.

意図解釈部220は、認識結果から応答の種別(例えば、相槌、又は質問回答など)と、行動の種別(しりとり、かくれんぼ、又はテレビ制御など)とを推定する。そして、意図解釈部220は、応答生成部240に応答の種別の推定結果を出力すると共に、行動選択部230に行動の種別の推定結果を出力する。   The intention interpretation unit 220 estimates the type of response (for example, a match or a question answer) and the type of action (such as shiritori, hide and seek, or television control) from the recognition result. Then, the intention interpretation unit 220 outputs the response type estimation result to the response generation unit 240 and also outputs the behavior type estimation result to the behavior selection unit 230.

行動選択部230は、意図解釈部220の推定結果から、実行するサービス又は制御対象となる制御機器430を判断する。そして、行動選択部230は、サービスを実行すると判断した場合、実行するサービスの提供依頼をサービスアプリサーバ420に送信する。また、行動選択部230は、制御機器430を制御すると判断した場合、制御対象となる制御機器430に制御指示を出力する。   The action selection unit 230 determines the service to be executed or the control device 430 to be controlled from the estimation result of the intention interpretation unit 220. If the action selection unit 230 determines to execute the service, the action selection unit 230 transmits a request to provide the service to be executed to the service application server 420. In addition, when the action selection unit 230 determines to control the control device 430, the behavior selection unit 230 outputs a control instruction to the control device 430 to be controlled.

応答生成部240は、意図解釈部220から応答の種別の推定結果を取得した場合、推定結果に対応する応答文を生成する。一方、応答生成部240は、単語信頼度判定部210から再発話を促す音声の生成指示を取得した場合、発話者に一の単語を聞き返す応答文を生成する。   When the response generation unit 240 acquires an estimation result of the response type from the intention interpretation unit 220, the response generation unit 240 generates a response sentence corresponding to the estimation result. On the other hand, when the response generation unit 240 obtains a voice generation instruction for prompting re-speech from the word reliability determination unit 210, the response generation unit 240 generates a response sentence to hear back one word from the speaker.

音声合成部250は、応答生成部240により生成された応答文を音声信号に変換し、スピーカ410に出力する。スピーカ410は、音声合成部250から出力された音声信号を音声に変換し、外部に出力する。   The voice synthesis unit 250 converts the response sentence generated by the response generation unit 240 into a voice signal and outputs the voice signal to the speaker 410. The speaker 410 converts the voice signal output from the voice synthesizer 250 into voice and outputs the voice to the outside.

図4は、実施の形態1における認識処理の一例を示すフローチャートである。まず、発話抽出部260は、マイク400における音声入力の有無を判断する(ステップS100)。音声入力が無いと判断された場合(ステップS100でNO)、音声入力が有りになるまでステップS100の処理は繰り返される。   FIG. 4 is a flowchart illustrating an example of recognition processing in the first embodiment. First, the utterance extraction unit 260 determines whether or not there is a voice input in the microphone 400 (step S100). When it is determined that there is no voice input (NO in step S100), the process of step S100 is repeated until there is a voice input.

一方、音声入力が有りと判断された場合(ステップS100でYES)、発話抽出部260は、マイク400から出力される音声信号から発話中の音声信号を抽出する(ステップS101)。   On the other hand, when it is determined that there is a voice input (YES in step S100), the utterance extraction unit 260 extracts a voice signal being uttered from the voice signal output from the microphone 400 (step S101).

次に、音声認識部200は、音声認識処理を実施する(ステップS102)。具体的には、音素推定部201は、発話抽出部260により抽出された音声信号を複数の音声区間に区切り、各音声区間の音声信号の特徴量を生成し、生成した特徴量を音響モデルと照合することで、各音声区間の音素を推定する。この時、音素推定部201は音声区間ごとに、音素の出現確率を計算し、HMMを用いることで連続する同一音素の音声区間を一つに纏める。例えば、発話音声を構成する第一音素、第二音素、及び第三音素で構成されているとすると、音素推定部201は、第一音素、第二音素、及び第三音素のそれぞれに対して全種類の音素の出現確率を算出する。   Next, the speech recognition unit 200 performs speech recognition processing (step S102). Specifically, the phoneme estimation unit 201 divides the speech signal extracted by the utterance extraction unit 260 into a plurality of speech sections, generates a feature amount of the speech signal in each speech section, and uses the generated feature amount as an acoustic model. By collating, the phonemes of each speech segment are estimated. At this time, the phoneme estimation unit 201 calculates the appearance probability of phonemes for each speech section, and combines consecutive speech sections of the same phoneme by using the HMM. For example, assuming that the first phoneme, the second phoneme, and the third phoneme that make up the uttered speech are configured, the phoneme estimation unit 201 performs each of the first phoneme, the second phoneme, and the third phoneme. Appearance probability of all types of phonemes is calculated.

例えば、第一音素は、音素「a」の確率が「0.4」、音素「i」の確率が「0.1」、音素「u」の確率が「0.2」というように全種類の音素のそれぞれについて、第一音素の出現確率が計算される。第二音素及び第三音素についても、第一音素と同様にして、全種類の音素のそれぞれの出現確率が計算される。   For example, the first phoneme has all types such that the probability of the phoneme “a” is “0.4”, the probability of the phoneme “i” is “0.1”, and the probability of the phoneme “u” is “0.2”. For each of the phonemes, the appearance probability of the first phoneme is calculated. For the second phoneme and the third phoneme, the appearance probabilities of all types of phonemes are calculated in the same manner as the first phoneme.

そして、音素推定部201は、第一音素の出現確率、第二音素の出現確率、及び第三音素の出現確率の積を最大化する3つの音素の組み合わせを発話音声の音素列として推定する。   Then, the phoneme estimation unit 201 estimates a combination of three phonemes that maximizes the product of the first phoneme appearance probability, the second phoneme appearance probability, and the third phoneme appearance probability as a phoneme sequence of the utterance speech.

次に、単語推定部202は、メモリ30に格納されている単語辞書301を参照し、音素推定部201により推定された音素列とマッチする単語を選択する。単語辞書301にマッチする単語がない場合、単語推定部202は、各音素の出現確率の積が次に大きい単語の音素列を音素推定部201に推定させる。そして、単語推定部202は、推定された音素列にマッチする単語を単語辞書301から検索する。このようにして、単語辞書301にマッチする単語が得られると、単語推定部202は、マッチした単語の音素列の出現確率の積をその単語の信頼度して採用すると共に、マッチした単語の音素列と、その音素列を構成する各音素の出現確率とを認識結果として、単語信頼度判定部210に出力する。   Next, the word estimation unit 202 refers to the word dictionary 301 stored in the memory 30 and selects a word that matches the phoneme string estimated by the phoneme estimation unit 201. If there is no matching word in the word dictionary 301, the word estimation unit 202 causes the phoneme estimation unit 201 to estimate a phoneme string of a word having the next highest product of the appearance probabilities of each phoneme. Then, the word estimation unit 202 searches the word dictionary 301 for a word that matches the estimated phoneme string. When a word that matches the word dictionary 301 is obtained in this way, the word estimation unit 202 adopts the product of the appearance probabilities of the phoneme string of the matched word as the reliability of the word, The phoneme string and the appearance probability of each phoneme constituting the phoneme string are output to the word reliability determination unit 210 as a recognition result.

次に、単語信頼度判定部210は、認識された単語の信頼度が閾値TH1以上であるか否かを判断する(ステップS103)。単語の信頼度が閾値TH1以上であった場合(ステップS103でYES)、単語信頼度判定部210は、認識結果記憶部302に第一認識結果が記憶されているか否かを判断する(ステップS104)。ここで、第一認識結果とは、ステップS101で得られた音声以前に発話された音声の認識結果であって、認識結果記憶部302に記憶されている認識結果のことを指す。   Next, the word reliability determination unit 210 determines whether or not the reliability of the recognized word is greater than or equal to the threshold value TH1 (step S103). When the word reliability is equal to or higher than the threshold TH1 (YES in step S103), the word reliability determination unit 210 determines whether or not the first recognition result is stored in the recognition result storage unit 302 (step S104). ). Here, the first recognition result is a recognition result of speech uttered before the speech obtained in step S101 and indicates a recognition result stored in the recognition result storage unit 302.

すなわち、前回の発話によって認識された単語の信頼度が閾値TH1未満であり、その発話の認識結果が認識結果記憶部302に記憶されている場合に、その認識結果が第一認識結果となる。   That is, when the reliability of the word recognized by the previous utterance is less than the threshold TH1, and the recognition result of the utterance is stored in the recognition result storage unit 302, the recognition result becomes the first recognition result.

第一認識結果が記憶されていた場合(ステップS104でYES)、単語信頼度判定部210は、認識結果記憶部302に記憶されている第一認識結果を消去し(ステップS105)、認識結果を意図解釈部220に出力する。次に、意図解釈部220は、認識結果に基づいて意図理解処理を実施する(ステップS106)。   When the first recognition result is stored (YES in step S104), the word reliability determination unit 210 deletes the first recognition result stored in the recognition result storage unit 302 (step S105), and the recognition result is displayed. The result is output to the intention interpretation unit 220. Next, the intention interpretation unit 220 performs intention understanding processing based on the recognition result (step S106).

一方、認識結果記憶部302に第一認識結果が記憶されていなかった場合(ステップS104でNO)、処理はステップS106へ遷移する。ステップS106では、意図解釈部220は、認識結果から、応答の種別と行動の種別とを推定する。ステップS107では、応答生成部240は、推定された応答の種別に対応する応答文を生成する。また、ステップS107では、行動選択部230は、推定された行動の種別にしたがって実行するサービス又は制御対象となる制御機器430を決定し、サービスを決定した場合はサービスの提供依頼をサービスアプリサーバ420に送信し、制御機器430を決定した場合は制御対象となる制御機器430に制御指示を出力する。   On the other hand, when the first recognition result is not stored in the recognition result storage unit 302 (NO in step S104), the process proceeds to step S106. In step S106, the intention interpretation unit 220 estimates a response type and an action type from the recognition result. In step S107, the response generation unit 240 generates a response sentence corresponding to the estimated response type. In step S107, the action selection unit 230 determines the service to be executed or the control device 430 to be controlled according to the estimated action type, and if the service is determined, the service application server 420 sends a service provision request. When the control device 430 is determined, a control instruction is output to the control device 430 to be controlled.

一方、認識された単語の信頼度が閾値TH1未満である場合(ステップS103でNO)、単語信頼度判定部210は、認識結果記憶部302を参照し、第一認識結果が記憶されているか否かを判断する(ステップS110)。第一認識結果が記憶されていない場合(ステップS110でNO)、単語信頼度判定部210は、単語推定部202により推定された単語の音素列と、各音素の出現確率とを、第一発話の認識結果(第一認識結果)として認識結果記憶部302に記憶させ(ステップS109)、再発話を促す音声の生成指示を応答生成部240に出力する。   On the other hand, when the reliability of the recognized word is less than the threshold TH1 (NO in step S103), the word reliability determination unit 210 refers to the recognition result storage unit 302 to determine whether the first recognition result is stored. Is determined (step S110). When the first recognition result is not stored (NO in step S110), the word reliability determination unit 210 uses the first utterance as the phoneme string of the word estimated by the word estimation unit 202 and the appearance probability of each phoneme. The recognition result (first recognition result) is stored in the recognition result storage unit 302 (step S109), and a voice generation instruction for prompting re-speech is output to the response generation unit 240.

次に、応答生成部240は、「もう1回ゆっくり言って?」というような聞き返し応答文を生成し、生成した応答文の音声信号を音声認識部200に生成させ、生成させた音声信号の音声をスピーカ410から出力させる(ステップS108)。ステップS108により聞き返し応答文の音声が出力されると、音声認識装置100は、発話者による一の単語を意図する再発話の待機状態になり、処理はS100に戻る。   Next, the response generation unit 240 generates a response sentence such as “Please say it again slowly?”, Causes the voice recognition unit 200 to generate a voice signal of the generated response sentence, and generates a response of the generated voice signal. Audio is output from the speaker 410 (step S108). When the voice of the reply response sentence is output in step S108, the speech recognition apparatus 100 enters a standby state for a re-utterance intended for one word by the speaker, and the process returns to S100.

この聞き返しにより、発話者により第二発話が行われ、ステップS100〜ステップS102の処理により、第一発話と同様、第二発話に対する第二認識結果が得られる。そして、第二認識結果の信頼度が閾値TH1未満であれば、ステップS103でNOと判定され、処理がS110に進む。   As a result, the second utterance is made by the speaker, and the second recognition result for the second utterance is obtained in the same manner as the first utterance by the processing in steps S100 to S102. And if the reliability of a 2nd recognition result is less than threshold value TH1, it will determine with NO by step S103, and a process will progress to S110.

一方、第二認識結果の信頼度が閾値TH1以上であれば(ステップS103でYES)、第二認識結果が発話者が意図する一の単語として決定され、ステップS105〜ステップS107の処理が実行される。   On the other hand, if the reliability of the second recognition result is equal to or higher than the threshold value TH1 (YES in step S103), the second recognition result is determined as one word intended by the speaker, and the processing from step S105 to step S107 is executed. The

ステップS110にて、第一認識結果が認識結果記憶部302に記憶されていた場合(ステップS110でYES)、音素出現確率判定部203は、認識結果記憶部302に記憶されている第一認識結果と、ステップS102により得られた発話者による再発話に対する第二認識結果とから所定の閾値TH2(第2閾値の一例)以上の音素をそれぞれ抽出する(ステップS111)。   When the first recognition result is stored in the recognition result storage unit 302 in step S110 (YES in step S110), the phoneme appearance probability determination unit 203 stores the first recognition result stored in the recognition result storage unit 302. Then, phonemes equal to or greater than a predetermined threshold TH2 (an example of the second threshold) are extracted from the second recognition result for the recurrent speech by the speaker obtained in step S102 (step S111).

次に、単語推定部202は、単語辞書301を参照し、第一認識結果の音素列において、閾値TH2以上の音素を含む単語を認識候補単語として抽出する(ステップS112)。次に、単語推定部202は、ステップS112で抽出した認識候補単語のリストから、第二認識結果の音素列において、閾値TH2以上の音素を含む単語で認識候補単語を絞り込む(ステップS113)。   Next, the word estimation unit 202 refers to the word dictionary 301 and extracts a word including a phoneme having a threshold value TH2 or more as a recognition candidate word in the phoneme string of the first recognition result (step S112). Next, the word estimation unit 202 narrows down the recognition candidate words from the list of recognition candidate words extracted in step S112 by words including phonemes having a threshold value TH2 or more in the phoneme string of the second recognition result (step S113).

図5は、実施の形態1における対話の一例を示す図である。図5において、ロボットは、音声認識装置100が実装されたロボットを指し、ロボットの後に付された数字はロボットの発話順序を示す。また、幼児とは、ロボットと対話する幼児を指し、幼児の後に付された数字は発話順序を示す。   FIG. 5 is a diagram illustrating an example of the dialogue in the first embodiment. In FIG. 5, the robot refers to the robot on which the speech recognition apparatus 100 is mounted, and the numbers attached after the robot indicate the utterance order of the robot. The infant refers to an infant who interacts with the robot, and the numbers attached after the infant indicate the utterance order.

まず、ロボットは、幼児に対して「どんな果物が好き?」(ロボット1)と発話し、これに対して幼児は「リンゴ」(幼児1)と発話している。しかし、ここでは、「リンゴ」(幼児1)の発話に対して認識された単語の信頼度が低くかったため、ロボットは、ステップS108によって、聞き返しを実施している。   First, the robot speaks “What kind of fruit do you like?” (Robot 1) to the infant, and the infant speaks “Apple” (Infant 1). However, since the reliability of the word recognized for the utterance of “apple” (toddler 1) is low here, the robot performs a replay in step S108.

この聞き返しにより、幼児は「リンゴ」(幼児2)と再発話しているが、この再発話の信頼度も低かった。この場合の音声認識装置100の処理を図6、図7、及び図8を用いて以下に説明する。   By this rehearsal, the toddler was re-speaking to “apple” (toddler 2), but the reliability of this re-speech was also low. The processing of the speech recognition apparatus 100 in this case will be described below with reference to FIGS. 6, 7, and 8.

図6は、図5の対話例に対する第一認識結果と第二認識結果との一例を示す図である。図6に示すように第一認識結果では、幼児の「リンゴ」という発話に対して単語「マンゴー」が認識されており、この単語の信頼度が閾値TH1未満であった。そのため、認識結果記憶部302に、第一認識結果が記憶されている。第一認識結果の内訳は、図6に示すように、認識単語が「マンゴー」であり、認識音素列が「m」、・・・、「o:」であり、音素の出現確率である「0.4」、・・・、「0.6」であった。   FIG. 6 is a diagram illustrating an example of the first recognition result and the second recognition result with respect to the dialogue example of FIG. As shown in FIG. 6, in the first recognition result, the word “mango” is recognized for the utterance “infringe” of the infant, and the reliability of this word is less than the threshold value TH1. Therefore, the first recognition result is stored in the recognition result storage unit 302. As shown in FIG. 6, the breakdown of the first recognition result is that the recognition word is “mango”, the recognition phoneme string is “m”,..., “O:”, and the phoneme appearance probability “ 0.4 ”,...,“ 0.6 ”.

第一認識結果の信頼度が低かったので、「もう一回ゆっくり言って?」というロボットの聞き返しにより、幼児が再び「リンゴ」と発話したが、「リンドウ」を認識する第二認識結果が得られており、第二認識結果においても、信頼度が閾値TH1以下であった。第二識結果の内訳は、図6に示すように、認識単語が「リンドウ」であり、認識音素列が「r」、・・・、「o:」であり、音素の出現確率が「0.9」、・・・、「0.5」であった。   Because the reliability of the first recognition result was low, the infant spoke again with an “apple” when asked by the robot, “Please say slowly again?”, But the second recognition result was recognized to recognize “gentian”. In the second recognition result, the reliability is equal to or less than the threshold value TH1. As shown in FIG. 6, the breakdown of the second knowledge result is that the recognized word is “Lindou”, the recognized phoneme string is “r”,..., “O:”, and the phoneme appearance probability is “0”. .9 ”,...,“ 0.5 ”.

ここで、音素の出現確率の閾値TH2を0.7とする。この場合、音素出現確率判定部203は、第一認識結果から、音素の出現確率が0.7以上である音素「n」と音素「g」とを抽出する。また、音素出現確率判定部203は、第二認識結果から、音素の出現確率が0.7以上である音素「r」と音素「i」と音素「n」とを抽出する。   Here, the threshold TH2 of the phoneme appearance probability is set to 0.7. In this case, the phoneme appearance probability determination unit 203 extracts a phoneme “n” and a phoneme “g” having a phoneme appearance probability of 0.7 or more from the first recognition result. Moreover, the phoneme appearance probability determination unit 203 extracts a phoneme “r”, a phoneme “i”, and a phoneme “n” having a phoneme appearance probability of 0.7 or more from the second recognition result.

次に、単語推定部202は、単語辞書301を参照し、第一認識結果から抽出された連続する「n」と「g」との音素列を含む単語を認識候補単語として抽出する。図7に例示された単語のうち、連続する音素列「ng」を含む単語は、「マンゴー」、「レンガ」、「リンゴ」、及び「リンゴジュース」である。   Next, the word estimation unit 202 refers to the word dictionary 301 and extracts, as recognition candidate words, words including continuous “n” and “g” phoneme sequences extracted from the first recognition result. Among the words illustrated in FIG. 7, words including the continuous phoneme string “ng” are “mango”, “brick”, “apple”, and “apple juice”.

そのため、単語推定部202は、図8に示すように「マンゴー」、「レンガ」、「リンゴ」、及び「リンゴジュース」を認識候補単語として抽出する。図8は、第一認識結果から抽出された認識候補単語の一例を示す図である。   Therefore, the word estimation unit 202 extracts “mango”, “brick”, “apple”, and “apple juice” as recognition candidate words as shown in FIG. FIG. 8 is a diagram illustrating an example of recognition candidate words extracted from the first recognition result.

更に、単語推定部202は、抽出した認識候補単語のうち、第二認識結果から抽出された連続する音素列「rin」を含む単語を抽出することにより、認識候補単語を絞り込む。図8に例示された認識候補単語のうち、連続する音素列「rin」を含む単語は「リンゴ」及び「リンゴジュース」である。   Furthermore, the word estimation unit 202 narrows down the recognition candidate words by extracting words including the continuous phoneme string “rin” extracted from the second recognition result from the extracted recognition candidate words. Among the recognition candidate words illustrated in FIG. 8, words including the continuous phoneme string “rin” are “apple” and “apple juice”.

そのため、単語推定部202は、ステップS113において、「リンゴ」及び「リンゴジュース」を認識候補単語として最終的に絞り込む。   Therefore, the word estimation unit 202 finally narrows down “apple” and “apple juice” as recognition candidate words in step S113.

図4のステップS115において、閾値TH3が3であったとすると、最終的に絞り込まれた認識候補単語は2つであるため、単語推定部202は、ステップS115でYESと判定する。ステップS116にて、単語推定部202は、「リンゴですか?」「リンゴジュースですか?」というように認識候補単語を一つずつ確認するための確認発話の音声信号を音声合成部250に生成させ、スピーカ410から出力させる。   If it is assumed that the threshold value TH3 is 3 in step S115 in FIG. 4, the word estimation unit 202 determines YES in step S115 because the number of recognition candidate words finally narrowed down is two. In step S116, the word estimation unit 202 generates a speech signal of confirmation utterances for confirming recognition candidate words one by one, such as “Is it an apple?” Or “Apple juice?” And output from the speaker 410.

発話者は、この確認発話に対して例えば、肯定する発話(例えば「はい」)又は否定する発話(例えば「いいえ」)を行う。単語推定部202は、確認発話に対して肯定する発話を認識した場合、その確認発話に対応する単語を一の単語を意図した発話として認識する。一方、単語推定部202は、確認発話に対して否定する発話を認識した場合、次の認識候補単語の確認発話を行う。   The speaker performs, for example, an affirmative utterance (for example, “Yes”) or a negative utterance (for example, “No”) for the confirmation utterance. When the word estimation unit 202 recognizes an utterance affirmed with respect to the confirmation utterance, the word estimation unit 202 recognizes a word corresponding to the confirmation utterance as an utterance intended for one word. On the other hand, when recognizing a negative utterance with respect to the confirmation utterance, the word estimation unit 202 confirms the next recognition candidate word.

図9は、実施の形態1において、第一認識結果と第二認識結果とから認識候補単語を絞り込む処理の別の一例を示す図である。図9の例では、第一認識結果及び第二認識結果において、閾値TH2以上の音素が連続していない場合の絞り込み方法が示されている。   FIG. 9 is a diagram illustrating another example of processing for narrowing recognition candidate words from the first recognition result and the second recognition result in the first embodiment. In the example of FIG. 9, the narrowing-down method in the case where phonemes having a threshold value TH2 or more are not continuous in the first recognition result and the second recognition result is shown.

図9において、対話例は図5と同じである。図9の例では、「リンゴ」という発話に対して単語「ルンバ」が認識された第一認識結果と、「リンゴ」という再発話に対して単語「黄粉」が認識された第二認識結果とが得られている。そして、図9の例では、第一認識結果及び第二認識結果とも、信頼度は閾値TH1=0.7未満であったため、単語「ルンバ」と単語「黄粉」とを用いて認識候補単語を絞り込む処理を行う。   In FIG. 9, the example of a dialog is the same as FIG. In the example of FIG. 9, the first recognition result in which the word “rumba” is recognized for the utterance “apple”, and the second recognition result in which the word “yellow powder” is recognized for the recurrent utterance “apple”. Is obtained. In the example of FIG. 9, since the reliability is less than the threshold value TH1 = 0.7 for both the first recognition result and the second recognition result, the recognition candidate word is determined using the word “rumba” and the word “yellow powder”. Perform the process of narrowing down.

図9に示すように、第一認識結果において閾値TH2=0.7以上の音素は「r」、「n」であり、両音素の順序は「r」の方が「n」より先である。第二認識結果において閾値TH2=0.7以上の音素は「i」、「o」であり、両音素の順序は「i」の方が「o」より先である。   As shown in FIG. 9, in the first recognition result, phonemes having a threshold TH2 = 0.7 or more are “r” and “n”, and the order of both phonemes is “r” before “n”. . In the second recognition result, phonemes with the threshold TH2 = 0.7 or more are “i” and “o”, and the order of both phonemes is “i” before “o”.

そこで、図9の例では、単語推定部202は、単語辞書301から、「r」と「n」との間に音素が存在しているか否かに拘わらず、「r」→「n」の順で音素が配列された単語を認識候補単語として抽出する。次に、音素出現確率判定部203は、抽出した認識候補単語の中から、「i」と「o」との間に音素が存在しているか否かに拘わらず、「i」→「o」の順で配列された単語を抽出し、認識候補単語の更なる絞り込みを行う。   Therefore, in the example of FIG. 9, the word estimation unit 202 sets “r” → “n” from the word dictionary 301 regardless of whether a phoneme exists between “r” and “n”. A word in which phonemes are arranged in order is extracted as a recognition candidate word. Next, the phoneme appearance probability determination unit 203 selects “i” → “o” from the extracted recognition candidate words regardless of whether a phoneme exists between “i” and “o”. The words arranged in this order are extracted, and the recognition candidate words are further narrowed down.

図4に参照を戻す。ステップS114にて、認識候補単語が1つに絞りこめた場合(ステップS114でYES)、単語推定部202は、絞り込んだ単語を認識結果として決定し、処理をステップS105に遷移させ、ステップS105以降の処理が実行される。   Returning to FIG. In step S114, when the number of recognition candidate words is narrowed down to one (YES in step S114), the word estimation unit 202 determines the narrowed-down word as a recognition result, causes the process to transition to step S105, and after step S105 The process is executed.

一方、認識候補単語が1つに絞り込めなかった場合(ステップS114でNO)、音素出現確率判定部203は、認識候補単語が2つ以上且つ閾値TH3以下に絞り込めた否かを判断する(ステップS115)。絞り込んだ認識候補単語の数が、2つ以上且つ閾値TH3以下であった場合(ステップS115でYES)、単語推定部202は、絞り込んだ認識候補単語を一つずつ発話者に確認する確認発話を行うよう音声合成部250に指示する(ステップS116)。確認発話としては、例えば、絞り込まれた認識候補単語の一つにリンゴが含まれているとすると、「あなたはリンゴといいましたか?」といった発話が挙げられる。   On the other hand, when the number of recognition candidate words cannot be narrowed down to one (NO in step S114), the phoneme appearance probability determination unit 203 determines whether or not the number of recognition candidate words is narrowed down to two or more and a threshold value TH3 or less ( Step S115). If the number of narrowed recognition candidate words is two or more and the threshold value TH3 or less (YES in step S115), the word estimation unit 202 performs a confirmation utterance for confirming the narrowed recognition candidate words to the speaker one by one. The voice synthesizer 250 is instructed to perform it (step S116). As the confirmation utterance, for example, if an apple is included in one of the narrowed recognition candidate words, an utterance such as “Did you say an apple?” Is mentioned.

確認発話に対して、発話者から「はい」又は「そうです」等の肯定を意味する発話が行われた場合、単語推定部202は、肯定された認識候補単語を認識結果として確定する。ステップS117で認識結果が確定した場合(ステップS117でYES)、処理はS105に遷移し、S105以降の処理が実行される。   When an utterance that means affirmation such as “Yes” or “Yes” is performed from the speaker with respect to the confirmation utterance, the word estimation unit 202 determines the recognized recognition candidate word as a recognition result. If the recognition result is confirmed in step S117 (YES in step S117), the process proceeds to S105, and the processes after S105 are executed.

一方、認識候補単語が2つ以上且つ閾値TH3以下に絞り込めなかった場合(ステップS115でNO)、処理はステップS109に遷移し、単語推定部202は、第二認識結果をメモリ30の認識結果記憶部302に記憶させる。この時、過去に同じ認識結果が存在すれば、その認識結果は過去の認識結果に上書きされる。また、この時、単語推定部202は、絞り込まれた全ての認識候補単語を第二認識結果に含ませて認識結果記憶部302に記憶させればよい。   On the other hand, when two or more recognition candidate words cannot be narrowed down to the threshold value TH3 or less (NO in step S115), the process proceeds to step S109, and the word estimation unit 202 uses the second recognition result as the recognition result in the memory 30. The data is stored in the storage unit 302. At this time, if the same recognition result exists in the past, the recognition result is overwritten on the past recognition result. At this time, the word estimation unit 202 may include all the narrowed-down recognition candidate words in the second recognition result and store them in the recognition result storage unit 302.

一方、ステップS116において、全ての認識候補単語に対して、肯定的な発話が実施されず、認識結果が確定されなかった場合(S117でNO)、音素出現確率判定部203は、認識を諦めて処理を終了する。   On the other hand, if a positive utterance is not performed for all recognition candidate words in step S116 and the recognition result is not confirmed (NO in S117), the phoneme appearance probability determination unit 203 gives up recognition. The process ends.

このように、実施の形態1の音声認識装置100によれば、第一発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第二発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、第一認識結果に含まれる音素列及び第二認識結果に含まれる音素列とのうち信頼性の高い音素を用いて一の単語が認識されている。その結果、一の単語の認識精度を高めることができる。   Thus, according to the speech recognition apparatus 100 of the first embodiment, even if a recognition result with low reliability is obtained for the first utterance, the recognition result is not discarded and the recognition result is This is used when a recognition result with low reliability is obtained for the utterance. For this reason, even if a highly reliable recognition result is not obtained by listening back, the phoneme string included in the first recognition result and the phoneme string included in the second recognition result may be used by using a reliable phoneme. The words are recognized. As a result, the recognition accuracy of one word can be improved.

なお、第一認識結果と第二認識結果とにより認識結果が一意に絞り込めなかった場合、すなわち、ステップS115でNOと判定されて認識結果記憶部302に第二認識結果が記憶された場合(ステップS109)、音声認識装置100は、更なる聞き返しにより、第三認識結果を取得すればよい。そして、第三認識結果において信頼度が閾値TH1未満であった場合、音素出現確率判定部203は、第一、第二、及び第三認識結果を用いた絞り込みを実行すればよい。この場合、音素出現確率判定部203は、第一認識結果及び第二認識結果によって絞り込まれた認識候補単語を、第三認識結果により認識された音素列のうち出現確率が閾値TH2以上の音素を含む単語で絞り込めばよい。これによっても、認識候補単語の数が閾値TH3以下にならなければ、音素出現確率判定部203は、更なる聞き返しを行い、認識候補単語の数が閾値TH3以下になるまで聞き返しを繰り返せばよい。   When the recognition result cannot be narrowed down uniquely by the first recognition result and the second recognition result, that is, when it is determined NO in Step S115 and the second recognition result is stored in the recognition result storage unit 302 ( In step S109), the speech recognition apparatus 100 may acquire the third recognition result by further listening. When the reliability is less than the threshold TH1 in the third recognition result, the phoneme appearance probability determination unit 203 may perform narrowing using the first, second, and third recognition results. In this case, the phoneme appearance probability determination unit 203 selects the recognition candidate words narrowed down by the first recognition result and the second recognition result as phonemes having an appearance probability of the threshold TH2 or more from the phoneme string recognized by the third recognition result. You can narrow down by the words you include. Even in this case, if the number of recognition candidate words is not less than or equal to the threshold TH3, the phoneme appearance probability determination unit 203 may perform further replay and repeat the replay until the number of recognition candidate words is less than or equal to the threshold TH3.

(実施の形態2)
図10は、実施の形態2における音声対話システムの全体構成の一例を示す図である。図10において、図1との相違点は、単語推定部202、音素出現確率判定部203、及び単語信頼度判定部210が、それぞれ、文章推定部1202、音素出現確率合成部1203、及び文章信頼度判定部1210に置き換えられている点にある。
(Embodiment 2)
FIG. 10 is a diagram illustrating an example of the overall configuration of the voice interaction system according to the second embodiment. 10 differs from FIG. 1 in that a word estimation unit 202, a phoneme appearance probability determination unit 203, and a word reliability determination unit 210 are respectively a sentence estimation unit 1202, a phoneme appearance probability synthesis unit 1203, and a sentence trust. The degree determination unit 1210 is replaced.

実施の形態1の音声認識部200は、音声として一つの単語のみを認識することが可能な構成であるのに対し、実施の形態2の音声認識部200の構成は、任意の単語から構成される文章(単語列)が認識可能な構成を取る。   The speech recognition unit 200 according to the first embodiment is configured to recognize only one word as speech, whereas the configuration of the speech recognition unit 200 according to the second embodiment is configured from arbitrary words. The sentence (word string) is recognized.

音素推定部201には、隠れマルコフモデル(Hidden Markov Model:HMM)が用いて音素列を推定し、文章推定部1202は、有限状態文法又はn−gramを用いて文章(単語列)を推定する。   The phoneme estimation unit 201 estimates a phoneme string using a hidden Markov model (HMM), and the sentence estimation unit 1202 estimates a sentence (word string) using a finite state grammar or n-gram. .

HMM及び有限状態文法又はn−グラムを組み合わせることで複数の音素がネットワーク状に繋げられた有向グラフで構成された探索空間が構成される。したがって、音声認識処理は、ネットワークの経路の探索問題に帰着される。すなわち、音声認識処理は、入力された音声信号に対して最も適合するネットワークの経路を見つけ、その経路に対応する単語列を認識結果とする処理となる。具体的には、音声認識処理は、下記の式(2)において、音素及び単語の出現確率の積を最大化する単語列W(S)を求める処理となる。   By combining the HMM and the finite state grammar or n-gram, a search space composed of a directed graph in which a plurality of phonemes are connected in a network is configured. Therefore, the speech recognition process is reduced to a search problem of the network route. That is, the voice recognition process is a process of finding a network path that best matches the input voice signal and using a word string corresponding to the path as a recognition result. Specifically, the speech recognition process is a process for obtaining a word string W (S) that maximizes the product of the phoneme and the word appearance probability in the following equation (2).

Figure 2019015950
Figure 2019015950

図11は、複数のフレームに区切られた音声信号の一例を示す図である。図11に示すように、フレームとは、入力された音声信号を、例えば25msecというような一定の時間間隔に区切ったものを指す。oは、t番目のフレームにおける特徴ベクトルを示す。特徴ベクトルとは、音素を推定するために用いられる物理量の一例であり、音声信号の音量から得られる。Tは、入力された音声信号の長さをフレーム数で表したものである。特徴ベクトルとしては、例えば、メル周波数ケプストラム係数(Mel−Frequency Cepstrum Coefficients)が採用できる。sはt番目のフレームまで処理が到達したときの状態を表す。 FIG. 11 is a diagram illustrating an example of an audio signal divided into a plurality of frames. As shown in FIG. 11, a frame refers to an input audio signal divided at a constant time interval such as 25 msec. o t indicates a feature vector in the t-th frame. A feature vector is an example of a physical quantity used for estimating a phoneme, and is obtained from the volume of an audio signal. T represents the length of the input audio signal in the number of frames. As the feature vector, for example, a Mel-Frequency Cepstrum Coefficients can be adopted. s t represents a state where the process has reached the t-th frame.

図11において、右向きの矢印1101は、状態sを表している。音素列に関して、状態sでは、「kykyo:o:nno」又は「kyo:no」の音素列が推定されている。なお、「kykyo:o:nno」及び「kyo:no」は音響モデルの違いに依存する。連続する同じ音素は結合するという音響モデルを音素推定部201が利用していれいる場合、状態sの推定結果は後者になる。簡単のために以降は、1フレーム1音素という音響モデルを用いて説明する。 11, an arrow 1101 of right represents the state s t. With respect to the phoneme string, in the state s t, "kykyo: o: nno" or "kyo: no" sequence of phonemes are estimated. Note that “kykyo: o: nno” and “kyo: no” depend on the difference in the acoustic model. If the same phoneme successive phoneme estimator 201 acoustic models of binding is been not use the estimation result of the state s t is the latter. For simplicity, the following description will be made using an acoustic model of one frame and one phoneme.

また、単語列に関して、状態sでは、「今日の」という単語列が推定されている。従って、P(o,s|st−1)は、状態st−1に対応する音素列から状態sに対応する音素列へ遷移する確率(音素列の出現確率)を表す。また、P(s,st−1)は状態st−1に対応する単語列から状態sに対応する単語列へ遷移する言語モデルの確率(単語列の出現確率)を表す。なお、単語列の出現確率P(s,st−1)は状態st−1と状態sとが単語の境界である場合に適用され、単語の境界以外は1となる。W(S)は、状態遷移過程S、すなわち、状態sに対応する単語列を表す。 In addition, with regard to the word string, in the state s t, word string of "Today" it has been estimated. Therefore, P A (o t , s t | s t−1 ) represents the probability of transition from the phoneme string corresponding to the state s t−1 to the phoneme string corresponding to the state s t (appearance probability of the phoneme string). . P L (s t , s t-1 ) represents the probability of the language model (word string appearance probability) for transition from the word string corresponding to the state s t-1 to the word string corresponding to the state s t . Note that the word string appearance probability P L (s t , s t-1 ) is applied when the state s t-1 and the state s t are word boundaries, and is 1 except for the word boundary. W (S) is the state transition process S, i.e., represent the word sequence corresponding to the state s t.

入力発話の音声信号に対して、最終的に推定される単語列は、1番目のフレームからT番目のフレームまでの音素列に対応する。音素列は1番目のフレーム→2番目のフレーム→・・・→T番目のフレームというように、前から順に推定されていく。何らかの発話があった場合、まず、音素推定部201は、発話の音声信号に対して音素列を推定し得る数だけ推定する。推定し得る音素列は、発話全体に対する音素列以外に、1番目のフレーム、1番目のフレームから2番目のフレーム、及び1番目のフレームから3番目のフレーム・・・というように発話の開始から連続した発話の途中までの音素列も含まれる。   The word string finally estimated for the speech signal of the input utterance corresponds to the phoneme string from the first frame to the Tth frame. The phoneme sequence is estimated in order from the first, such as the first frame → second frame →... → Tth frame. When there is any utterance, first, the phoneme estimation unit 201 estimates the number of phoneme strings that can be estimated with respect to the speech signal of the utterance. The phoneme sequence that can be estimated is the first frame, the second frame from the first frame, the third frame from the first frame, etc., in addition to the phoneme sequence for the entire utterance. A phoneme string up to the middle of a continuous utterance is also included.

次に、文章推定部1202は、推定された音素列に、割り当て可能な単語を、割り当てられるだけ割り当てていく。そして、文章推定部1202は、推定された音素列の出現確率に、割り当てられた単語の出現確率を乗算し、その最大値を得る音素列及び単語の組み合わせを単語列として最終的に推定する。ここで、推定された音素列の出現確率と、割り当てられた単語の出現確率との積は、推定された音素列及びそれに割り当てられた単語から構成される単語列の信頼度を示す。以下、具体的に説明する。   Next, the sentence estimation unit 1202 assigns as many assignable words as possible to the estimated phoneme string. Then, the sentence estimation unit 1202 multiplies the estimated appearance probability of the phoneme string by the appearance probability of the assigned word, and finally estimates the combination of the phoneme string and the word that obtains the maximum value as the word string. Here, the product of the appearance probability of the estimated phoneme string and the appearance probability of the assigned word indicates the reliability of the word string composed of the estimated phoneme string and the words assigned thereto. This will be specifically described below.

「今日の天気」と発話された場合、音素推定部201は、状態s、つまり、1番目のフレームの音素列(この場合は音素)から順に、発話全体(ここでは、1番目のフレームからT=9番目のフレームまで)の状態sの音素列を推定し、推定した音素列ごとにその出現確率を計算する。 When “Today's weather” is uttered, the phoneme estimation unit 201 starts from the state s 1 , that is, from the first frame phoneme sequence (in this case, the phoneme), in order from the entire utterance (here, from the first frame). estimating a phoneme sequence of states s 9 of T = to the 9th frame), we calculate the probability for each estimated phoneme string.

状態sの音素列が「ky」と推定された場合、状態s、つまり2番目のフレームまでの音素列は、例えば「kyo:」と推定される。そして、この場合の2番目のフレームまでの音素列の出現確率P(o,s|s)は、音素「ky」の後に、音素「o:」が出現する確率を表す。 When the phoneme string in the state s 1 is estimated as “ky”, the phoneme string up to the state s 2 , that is, the second frame is estimated as “kyo:”, for example. In this case, the appearance probability P A (o 2 , s 2 | s 1 ) of the phoneme string up to the second frame represents the probability that the phoneme “o:” appears after the phoneme “ky”.

状態sの音素列の候補は「kyo:」だけではなく、全種類の音素数だけ存在するが、実際に発話されたときの音声の特徴により、音素列の出現確率が変化する。ここでは、「今日の天気」と発話されているので、状態sの音素列は、音素列「kyo:」の出現確率Pの方が音素列「kyu:」の出現確率Pよりも高くなる。同様に、状態sの音素列は、音素列「kyo:notenki」の出現確率Pの方が音素列「kyo:nodenchi」の出現確率Pよりも高くなる。 The number of phoneme strings in state s 2 is not limited to “kyo:”, but there are all types of phoneme numbers, but the appearance probability of the phoneme string varies depending on the characteristics of the speech when it is actually spoken. In this case, because it is spoken as "today's weather", the phoneme string of state s 2, the phoneme string "kyo:" appearance it is a sequence of phonemes probability P A of "kyu:" than the occurrence probability P A of Get higher. Similarly, the phoneme string of state s 9, the phoneme string "kyo: notenki" probability of occurrence P A of it is a phoneme string: higher than the occurrence probability P A of "kyo nodenchi".

文章推定部1202は、まず、音素推定部201によって推定された音素列に対して、単語を割り当てていく。例えば、状態sの音素列が「kyo:notenki」と推定された場合、「今日の天気」又は「京の天気」などの単語が割り当てられる。次に、文章推定部1202は、割り当てた単語のそれぞれに対して、n−gramなどの言語モデルによる単語の出現確率を用いて、単語列の出現確率P(s,st−1)を計算する。例えば、文章推定部1202が2−gramの言語モデルを利用している場合、「今日の」に対する単語の出現確率P(s,st−1)は、「今日」の次に「の」が出現する確率を表し、「京の」に対する単語の出現確率P(s,st−1)は、「京」の次に「の」が出現する確率を表す。 The sentence estimation unit 1202 first assigns words to the phoneme string estimated by the phoneme estimation unit 201. For example, when the phoneme string in the state s 9 is estimated as “kyo: notenki”, a word such as “Today's weather” or “Kyoto's weather” is assigned. Next, the sentence estimation unit 1202 uses the word appearance probability P L (s t , s t-1 ) for each assigned word, using the word appearance probability based on a language model such as n-gram. Calculate For example, when the sentence estimation unit 1202 uses a 2-gram language model, the word appearance probability P L (s t , s t−1 ) for “today” is “to” next to “today”. ”Represents the probability of appearance, and the word appearance probability P L (s t , s t−1 ) for“ Kyo ”represents the probability of“ no ”appearing after“ Kyo ”.

これらの単語の出現確率は、単語辞書301において記憶されている。状態sの音素列「kyo:notenki」に対する単語の出現確率は、「今日の」の単語の出現確率の方が、「京の」の単語の出現確率より大きかった場合、「今日の天気」に対する単語の出現確率P(s,st−1)の方が「京の天気」に対する単語の出現確率P(s,st−1)よりも大きくなる。ここでは、2−gramの例を説明したが、n−gram(nは自然数)のいずれを利用していても単語の出現確率の計算は同様である。 The appearance probabilities of these words are stored in the word dictionary 301. If the appearance probability of the word “today” is greater than the appearance probability of the word “Kyoto” for the phoneme string “kyo: notenki” in the state s 9 , “today ’s weather” word of the occurrence probability P L (s t, s t -1) of the people is greater than the probability appearance of the word for "Today's weather" P L (s t, s t -1) for. Here, an example of 2-gram has been described, but the calculation of the word appearance probability is the same regardless of which n-gram (n is a natural number) is used.

文章信頼度判定部1210は、音素推定部201において推定された音素列の出現確率P(o,s|st−1)と、文章推定部1202において推定された全音素列のそれぞれに対して割り当られた複数の単語列の出現確率P(s,st−1)とを乗算して、複数の単語列の信頼度を計算する。そして、文章信頼度判定部1210は、複数の信頼度のうち最大の信頼度を持つ単語列を最終的な単語列として認識する。すなわち、文章推定部1202は、式(2)におけるW(s)を最終的な単語列として認識する。 The sentence reliability determination unit 1210 includes each of the phoneme string appearance probability P A (o t , s t | s t−1 ) estimated by the phoneme estimation unit 201 and all the phoneme strings estimated by the sentence estimation unit 1202. Are multiplied by the appearance probabilities P L (s t , s t−1 ) of the plurality of word strings assigned to, and the reliability of the plurality of word strings is calculated. Then, the sentence reliability determination unit 1210 recognizes a word string having the maximum reliability among the plurality of reliability as a final word string. That is, the sentence estimation unit 1202 recognizes W (s) in Expression (2) as a final word string.

音素出現確率合成部1203は、第一発話における各音素の出現確率と第二発話における各音素の出現確率との和を取ることで、各音素の出現確率を合成する。なお、各音素の出現確率が合成された場合、文章推定部1202は、合成された各音素の出現確率を用いて、第一発話に対して求めた手法と同様の手法を用いて複数の単語列の信頼度を計算し、最大の信頼度を持つ単語列を最終的な認識結果とする。すなわち、文章推定部1202は式(3)における単語列W(s)を最終的な認識結果とする。   The phoneme appearance probability synthesis unit 1203 synthesizes the appearance probability of each phoneme by taking the sum of the appearance probability of each phoneme in the first utterance and the appearance probability of each phoneme in the second utterance. When the appearance probabilities of each phoneme are combined, the sentence estimation unit 1202 uses the combined appearance probabilities of each phoneme to generate a plurality of words using the same method as the method obtained for the first utterance. The reliability of the sequence is calculated, and the word sequence having the maximum reliability is used as the final recognition result. That is, the sentence estimation unit 1202 uses the word string W (s) in Expression (3) as the final recognition result.

Figure 2019015950
Figure 2019015950

ここで、第一発話とは、聞き返しに対する応答発話ではなく、音声認識装置100からの問いかけに対する応答、又はユーザから音声認識装置100に対する話しかけによる発話のことを指す。また、第二発話とは、聞き返しに対する応答発話のことを指し、第一発話を意図する発話者による発話のことを指す。   Here, the first utterance is not a response utterance to a reply, but a response to an inquiry from the speech recognition apparatus 100 or an utterance by a conversation from the user to the speech recognition apparatus 100. The second utterance refers to a response utterance in response to a reply, and refers to an utterance by a speaker who intends the first utterance.

式(3)において、PA1は第一発話の音素列の出現確率を示し、PA2は第二発話の音素列の出現確率を示す。この時、第一発話と第二発話との各音素の出現確率の和は、第一発話の信頼度と第二発話の信頼度とに応じた重み付け加算した値が採用されてもよい。例えば、第一発話の信頼度をα、第二発話の信頼度をβとすると、出現確率の和は、第一発話の各音素の出現確率に対して重み値α/α+βを乗じた値と、第二発話の各音素の出現確率に対して重み値β/α+βを乗じた値との加算値が採用されてもよい。 In Expression (3), P A1 represents the appearance probability of the phoneme string of the first utterance, and P A2 represents the appearance probability of the phoneme string of the second utterance. At this time, the sum of the appearance probabilities of each phoneme in the first utterance and the second utterance may be a value obtained by weighted addition according to the reliability of the first utterance and the reliability of the second utterance. For example, if the reliability of the first utterance is α and the reliability of the second utterance is β, the sum of the appearance probabilities is obtained by multiplying the appearance probability of each phoneme of the first utterance by the weight value α / α + β. An addition value obtained by multiplying the appearance probability of each phoneme of the second utterance by the weight value β / α + β may be employed.

文章信頼度判定部1210は、文章推定部1202により推定された第一発話の認識結果に対する信頼度(音素列の出現確率と単語列の出現確率との積)が閾値TH1以上か否かを判定する。そして、文章信頼度判定部1210は、信頼度が閾値TH1未満の場合、第一発話に対する認識結果を第一認識結果として認識結果記憶部302に記憶し、聞き返しを実施する。ここで、第一認識結果には、単語列を推定するために必要な情報が含まれ、例えば、認識された単語列と、その単語列に対応する音素列と、その音素列を構成する各音素の出現確率が含まれる。   The sentence reliability determination unit 1210 determines whether or not the reliability (product of the phoneme string appearance probability and the word string appearance probability) with respect to the recognition result of the first utterance estimated by the sentence estimation unit 1202 is greater than or equal to a threshold value TH1. To do. Then, when the reliability is less than the threshold TH1, the sentence reliability determination unit 1210 stores the recognition result for the first utterance in the recognition result storage unit 302 as the first recognition result, and performs a replay. Here, the first recognition result includes information necessary for estimating the word string. For example, the recognized word string, the phoneme string corresponding to the word string, and each of the phoneme strings constituting the phoneme string Contains the phoneme appearance probability.

図12は、実施の形態2における認識処理の一例を示すフローチャートである。ステップS200及びステップS201の処理は、図4に示す、ステップS100及びステップS101の処理と同じである。   FIG. 12 is a flowchart illustrating an example of recognition processing according to the second embodiment. The processing in step S200 and step S201 is the same as the processing in step S100 and step S101 shown in FIG.

音声認識部200は、音声認識処理を実施する(ステップS202)。具体的には、音素推定部201は、実施の形態1と同様に、音響モデルを用いて各音声区間の音素を推定する。文章推定部1202は、単語辞書301に登録されている単語列を音素推定部201により推定された音素列に割り当てていく。このとき、文章推定部1202は、音素推定部201により推定された全ての音素列のそれぞれに対して割り当て可能な単語列を割り当てていき、推定された各音素列に対して1以上の単語列の割り当て結果を得る。そして、文章推定部1202は、音素列の出現確率と割り当てた単語列の出現確率との積が最大となる単語列を認識結果として出力すると共に、積の最大値を認識結果として得られた単語列の信頼度として文章信頼度判定部1210に出力する。   The voice recognition unit 200 performs a voice recognition process (step S202). Specifically, the phoneme estimation unit 201 estimates the phonemes of each speech section using an acoustic model, as in the first embodiment. The sentence estimation unit 1202 assigns the word string registered in the word dictionary 301 to the phoneme string estimated by the phoneme estimation unit 201. At this time, the sentence estimation unit 1202 assigns an assignable word string to each of all phoneme strings estimated by the phoneme estimation part 201, and one or more word strings for each estimated phoneme string Get the result of the assignment. Then, the sentence estimation unit 1202 outputs a word string that maximizes the product of the appearance probability of the phoneme string and the appearance probability of the assigned word string as the recognition result, and the word obtained as the recognition result using the maximum product value The column reliability is output to the sentence reliability determination unit 1210.

次に、文章信頼度判定部1210は、文章推定部1202により認識された単語列の信頼度が閾値TH1以上であるか否か判断する(ステップS203)。文章の信頼度が閾値TH1以上であった場合(ステップS203でYES)、処理はステップS204に進む。ステップS204〜ステップS207は、図4に示すステップS104〜ステップS107と同じである。   Next, the sentence reliability determination unit 1210 determines whether or not the reliability of the word string recognized by the sentence estimation unit 1202 is greater than or equal to the threshold value TH1 (step S203). If the text reliability is equal to or higher than the threshold TH1 (YES in step S203), the process proceeds to step S204. Steps S204 to S207 are the same as steps S104 to S107 shown in FIG.

一方、文章推定部1202により認識された単語列の信頼度が閾値TH1未満である場合(ステップS203でNO)、文章信頼度判定部1210は、認識結果記憶部302を参照し、第一認識結果が記憶されているか否かを判断する(ステップS210)。第一認識結果が記憶されていない場合(ステップS210でNO)、文章信頼度判定部1210は、文章推定部1202により認識された単語列と、その単語列に対応する音素列と、式(2)のP(o,s|st−1)により求められる各音素の出現確率とを、第一発話の認識結果(第一認識結果)として認識結果記憶部302に記憶させる(ステップS209)。ステップS208では、図4に示すステップS108と同様、音声認識装置100により聞き返しが行われる。この聞き返しにより、発話者により第二発話が行われ、ステップS200〜ステップS202の処理により、第一発話と同様、第二発話に対する第二認識結果が得られる。そして、第二認識結果の信頼度が閾値TH1未満であれば、ステップS203でNOと判定され処理がS210に進む。 On the other hand, when the reliability of the word string recognized by the sentence estimation unit 1202 is less than the threshold TH1 (NO in step S203), the sentence reliability determination unit 1210 refers to the recognition result storage unit 302 and performs the first recognition result. Is stored (step S210). When the first recognition result is not stored (NO in step S210), the sentence reliability determination unit 1210, the word string recognized by the sentence estimation unit 1202, the phoneme string corresponding to the word string, the formula (2) ) P A (o t , s t | s t-1 ), and the appearance probability of each phoneme is stored in the recognition result storage unit 302 as a recognition result (first recognition result) of the first utterance (step) S209). In step S208, the speech recognition apparatus 100 performs listening back as in step S108 shown in FIG. The second utterance is performed by the speaker by this replay, and the second recognition result for the second utterance is obtained by the processing of step S200 to step S202 as with the first utterance. If the reliability of the second recognition result is less than the threshold TH1, NO is determined in step S203, and the process proceeds to S210.

一方、第二認識結果の信頼度が閾値TH1以上であれば(ステップS203でYES)、第二認識結果が発話者が意図する一の単語列として決定され、ステップS205〜ステップS207の処理が実行される。   On the other hand, if the reliability of the second recognition result is equal to or higher than the threshold TH1 (YES in step S203), the second recognition result is determined as one word string intended by the speaker, and the processing in steps S205 to S207 is executed. Is done.

一方、第一認識結果が認識結果記憶部302に記憶されていた場合(ステップS210でYES)、音素出現確率合成部1203は、認識結果記憶部302に記憶されている第一認識結果に含まれる音素列の各音素の出現確率と、ステップS202により得られた第二発話の音素列の各音素の出現確率の和を取る(ステップS211)。   On the other hand, when the first recognition result is stored in the recognition result storage unit 302 (YES in step S210), the phoneme appearance probability synthesis unit 1203 is included in the first recognition result stored in the recognition result storage unit 302. The sum of the appearance probability of each phoneme in the phoneme string and the appearance probability of each phoneme in the phoneme string of the second utterance obtained in step S202 is calculated (step S211).

次に、文章推定部1202は、第一発話と第二発話との各音素の出現確率の和を乗算することで後述する合成出現確率を算出し、この合成出現確率に単語の出現確率を乗算することで、各単語列の信頼度を算出し、最大の信頼度を与える単語列を発話者が発話した一の単語列としてを認識する(ステップS212)。ステップS212の処理が終わると処理はステップS203へ遷移する。   Next, the sentence estimation unit 1202 calculates a composite appearance probability to be described later by multiplying the sum of the appearance probabilities of each phoneme of the first utterance and the second utterance, and multiplies the composite appearance probability by the word appearance probability. Thus, the reliability of each word string is calculated, and the word string giving the maximum reliability is recognized as one word string uttered by the speaker (step S212). When the process of step S212 ends, the process transitions to step S203.

(実施の形態2の具体例)
次に実施の形態2の具体例について説明する。この具体例では、簡単のために、「リンゴです」及び「マンゴーです」の二つの単語列(文章)のみを推定できるモデルを用いて、文章を認識する音声認識装置100が説明される。
(Specific example of Embodiment 2)
Next, a specific example of the second embodiment will be described. In this specific example, for the sake of simplicity, the speech recognition apparatus 100 that recognizes a sentence using a model that can estimate only two word strings (sentences) of “I am an apple” and “Is a mango” will be described.

音素推定部201が、発話に対する音素列として「ringodesu」と「mango:desu」とを推定したとする。この場合、各音素列の出現確率は、各音素列を構成する音素の出現確率同士の積として計算される。   It is assumed that the phoneme estimation unit 201 estimates “ringodesu” and “mango: desu” as phoneme sequences for an utterance. In this case, the appearance probability of each phoneme string is calculated as a product of the appearance probabilities of the phonemes constituting each phoneme string.

図13は、実施の形態2の具体例において1−gramの言語モデルを採用した場合の探索空間の一例を示す図である。   FIG. 13 is a diagram illustrating an example of a search space when a 1-gram language model is adopted in the specific example of the second embodiment.

図13の探索空間において、1番目の音素「sil」は「silent」を略したものであり、無音区間示す。また、図13において、各アルファベットは音素を示し、各アルファベットの下に記載された数値は、各音素の出現確率である。この探索空間では、先頭及び最終のそれぞれに要素「sil」が配置されており、音素列「ringodesu」及び音素列「mango:desu」とが含まれている。具体的には、この探索空間は、先頭の要素「sil」から「ringo」及び「mango:」の2つの音素列に分岐し、再び音素列「desu」で合流し、最終の要素「sil」へと至っている。   In the search space of FIG. 13, the first phoneme “sil” is an abbreviation of “silent” and indicates a silent section. Moreover, in FIG. 13, each alphabet shows a phoneme, and the numerical value described under each alphabet is the appearance probability of each phoneme. In this search space, an element “sil” is arranged at the beginning and the end, respectively, and includes a phoneme string “ringodesu” and a phoneme string “mango: desu”. Specifically, the search space branches from the leading element “sil” into two phoneme strings “ringo” and “mango:”, merges again with the phoneme string “desu”, and the final element “sil”. Has led to

この場合、音素列「ringodesu」の出現確率は、0.7×0.5×0.5×・・・×0.9×0.9と算出され、音素列「mango:desu」の出現確率は、0.2×0.3×0.4×・・・×0.9×0.9と算出される。   In this case, the appearance probability of the phoneme sequence “ringodesu” is calculated as 0.7 × 0.5 × 0.5 ×... × 0.9 × 0.9, and the appearance probability of the phoneme sequence “mango: desu”. Is calculated as 0.2 × 0.3 × 0.4 ×... × 0.9 × 0.9.

ここで、単語辞書301には、「リンゴ」、「マンゴー」、及び「です」の3つの単語と、各単語の出現確率とが登録されていたとする。この場合、文章推定部1202は、各音素列に対してこれら3つの単語を割り当てることで、図13に示す探索空間を得る。各単語の右に示される数値は単語の出現確率を示す。   Here, it is assumed that three words “apple”, “mango”, and “is” and the appearance probability of each word are registered in the word dictionary 301. In this case, the sentence estimation unit 1202 obtains the search space shown in FIG. 13 by assigning these three words to each phoneme string. The numerical value shown to the right of each word indicates the appearance probability of the word.

一般に単語の出現確率はn−gramが用いられる。n−gramでは、単語の出現確率が直前の単語に依存すると仮定する。図13の例では1−gramが用いられている。1−gramは、直前の単語には依存しないため、単語単体の出現確率を利用する。この時、一単語目に「リンゴ」が発話される確率は0.6であり、一単語目に「マンゴー」が発話される確率は0.4である。また、「マンゴー」及び「リンゴ」に続いて「です」が発話される確率は1である。   Generally, n-gram is used as the word appearance probability. In n-gram, it is assumed that the word appearance probability depends on the immediately preceding word. In the example of FIG. 13, 1-gram is used. Since 1-gram does not depend on the immediately preceding word, the appearance probability of a single word is used. At this time, the probability that “apple” is uttered as the first word is 0.6, and the probability that “mango” is uttered as the first word is 0.4. Further, the probability that “I” is uttered after “mango” and “apple” is 1.

文章推定部1202は、先頭の要素「sil」から最終の「sil」までを繋ぐ全経路のそれぞれを音素列として抽出し、各音素列に単語辞書301に登録された単語のうち割り当て可能な単語を割り当て、複数の単語列を得る。図13の例では、音素列「ringo」に単語「リンゴ」が割り当てられ、音素列「mango:」に単語「マンゴー」が割り当てられ、音素列「desu」に単語「です」が割り当てられる。そのため、図13の例では、単語列「リンゴです」及び「マンゴーです」が得られる。   The sentence estimation unit 1202 extracts all the paths connecting the leading element “sil” to the final “sil” as phoneme strings, and can be assigned to each phoneme string among the words registered in the word dictionary 301. Assign multiple word strings. In the example of FIG. 13, the word “apple” is assigned to the phoneme string “ringo”, the word “mango” is assigned to the phoneme string “mango:”, and the word “is” is assigned to the phoneme string “desu”. Therefore, in the example of FIG. 13, the word strings “I am an apple” and “I am a mango” are obtained.

そして、単語列「リンゴです」の音素列「rigodesu」+「sil」の各音素の出現確率の乗算値「0.7×0.5×・・・0.9」に単語「リンゴ」の出現確率「0.6及び「です」の出現確率「1」が乗じられ、単語列「リンゴです」の信頼度が得られる。同様にして、単語列「マンゴーです」の信頼度が得られる。   Then, the appearance of the word “apple” in the multiplication value “0.7 × 0.5 ×... 0.9” of the appearance probabilities of each phoneme of the phoneme sequence “rigodesu” + “sil” of the word sequence “I am apple” The probability “0.6” and the appearance probability “1” of “is” are multiplied, and the reliability of the word string “is apple” is obtained. Similarly, the reliability of the word string “is mango” is obtained.

そして、単語列「リンゴです」及び「マンゴーです」のうち、最大の信頼度を持つ単語列が認識結果として推定される。図13の例では、単語列「リンゴです」の信頼度の方が単語列「マンゴーです」の信頼度よりも大きいため、単語列「リンゴです」が認識結果となる。   Of the word strings “I am apple” and “I am mango”, the word string having the maximum reliability is estimated as the recognition result. In the example of FIG. 13, since the reliability of the word string “I am an apple” is greater than the reliability of the word string “I am a mango”, the recognition result is the word string “I am an apple”.

2−gramの場合、単語の出現確率は、直前の単語のみに依存すると仮定する。つまり、「リンゴ」、「マンゴー」、及び「です」の三単語のみからなる2−gramの辞書は、図14に示すようになる。図14は、実施の形態2の具体例において2−gramの言語モデルを採用した場合の単語辞書301の一例を示す図である。「sil」も含めて、「リンゴ」、「マンゴー」、及び「です」の三単語から得られる2−gramの組み合わせは下記の通りである。すなわち、2−gramの組み合わせは、「sil」に対して「リンゴ」、「マンゴー」、及び「です」の3組と、「リンゴ」に対して「です」、「マンゴー」、及び「sil」の3組と、「マンゴー」に対して「です」、「リンゴ」、及び「sil」の3組と、「です」に対して「リンゴ」、「マンゴー」、及び「sil」の3組とが考えられ、合計3×4=12組の組み合わせが考えられる。そこで、図14に示す単語辞書301では、これら12組の2−gramの単語列が登録されている。   In the case of 2-gram, it is assumed that the word appearance probability depends only on the immediately preceding word. That is, a 2-gram dictionary consisting of only three words “apple”, “mango”, and “is” is as shown in FIG. FIG. 14 is a diagram illustrating an example of the word dictionary 301 when the 2-gram language model is adopted in the specific example of the second embodiment. The combinations of 2-grams obtained from the three words “apple”, “mango”, and “is” including “sil” are as follows. That is, the 2-gram combination includes three sets of “apple”, “mango”, and “is” for “sil”, and “is”, “mango”, and “sil” for “apple”. 3 pairs of “I”, “apple” and “sil” for “mango”, and 3 pairs of “apple”, “mango” and “sil” for “do” And a total of 3 × 4 = 12 combinations are possible. Therefore, in the word dictionary 301 shown in FIG. 14, these 12 sets of 2-gram word strings are registered.

図14に示す単語辞書301を用いた2−gramの探索空間は図15のように表される。図15は、実施の形態2の具体例において2−gramの言語モデルを採用した場合の探索空間の一例を示す図である。なお、図15において音素列及び各音素の出現確率は図13と同じである。   A 2-gram search space using the word dictionary 301 shown in FIG. 14 is expressed as shown in FIG. FIG. 15 is a diagram illustrating an example of a search space when a 2-gram language model is employed in the specific example of the second embodiment. In FIG. 15, the phoneme string and the appearance probability of each phoneme are the same as those in FIG.

このとき、図14のような単語辞書301が記憶されている場合は、一単語目に「リンゴ」が出現する確率、すなわち、要素「sil」の次に「リンゴ」が出現する確率は、0.3である。また、一単語目に「マンゴー」が出現する確率、すなわち、要素「sil」の次に「マンゴー」が出現する確率は、0.2である。   At this time, when the word dictionary 301 as shown in FIG. 14 is stored, the probability that “apple” appears in the first word, that is, the probability that “apple” appears after the element “sil” is 0. .3. The probability that “mango” appears in the first word, that is, the probability that “mango” appears after the element “sil” is 0.2.

また、「リンゴ」の次に「です」が出現する確率は0.5であり、「マンゴー」の次に「です」が出現する確率は0.4である。更に、「です」の次に要素「sil」が出現する確率は0.6である。この場合、図15のグラフに示す各経路の音素列の出現確率と2−gramの単語列の出現確率との積が最大となる単語列が認識結果として採用される。すなわち、音素列「ringodesu」の各音素の出現確率と、「sil−リンゴ」、「リンゴ−です」、及び「です−sil」のそれぞれの出現確率(=0.3、0.5、及び0.6)との積が、単語列「リンゴです」の信頼度として算出される。同様にして、単語列「マンゴーです」の信頼度も算出される。そして、この例では、単語列「リンゴです」の信頼度の方が単語列「マンゴーです」の信頼度よりも高いため、最終的に単語列「リンゴです」が認識結果となる。これは、n−gramが3−gram以上の場合でも同様の処理となる。   The probability that “Is” will appear after “Apple” is 0.5, and the probability that “Is” will appear after “Mango” is 0.4. Further, the probability that the element “sil” appears after “is” is 0.6. In this case, the word string that maximizes the product of the appearance probability of the phoneme string of each path shown in the graph of FIG. 15 and the appearance probability of the 2-gram word string is adopted as the recognition result. That is, the appearance probability of each phoneme in the phoneme string “ringodesu” and the occurrence probabilities of “sil-apple”, “apple-is”, and “is-sil” (= 0.3, 0.5, and 0) .6) is calculated as the reliability of the word string “I am an apple”. Similarly, the reliability of the word string “is mango” is also calculated. In this example, since the reliability of the word string “I am an apple” is higher than the reliability of the word string “I am a mango”, the recognition result is finally the word string “I am an apple”. This is the same processing even when n-gram is 3-gram or more.

文章信頼度判定部1210は、文章推定部1202において推定された単語列の信頼度が閾値TH1以上であるか否かを判定する。音素出現確率合成部1203は、第一発話に対する第一認識結果の信頼度と第二発話に対する第二認識結果の信頼度とが共に閾値TH1未満である場合、第一発話における各音素の出現確率と第二発話における各音素の出現確率との和を乗算することで、合成出現確率を算出する。   The sentence reliability determination unit 1210 determines whether or not the reliability of the word string estimated by the sentence estimation unit 1202 is greater than or equal to a threshold value TH1. When the reliability of the first recognition result for the first utterance and the reliability of the second recognition result for the second utterance are both less than the threshold TH1, the phoneme appearance probability synthesis unit 1203 has an appearance probability of each phoneme in the first utterance. Is multiplied by the sum of the appearance probabilities of each phoneme in the second utterance to calculate a composite appearance probability.

文章推定部1202は、音素出現確率合成部1203により算出された合成出現確率を用いて、単語列(文章)を認識する。   The sentence estimation unit 1202 recognizes a word string (sentence) using the combined appearance probability calculated by the phoneme appearance probability combining unit 1203.

図16は、実施の形態2の具体例における第一認識結果の各音素と第二認識結果の各音素との出現確率が合成された場合の探索空間を示す図である。図16では、図15と同様、音素列「ringodesu」と音素列「mango:desu」との有向グラフが示されており、各音素について第一発話の出現確率と第二発話の出現確率とが示されている。また、図16の例では、1−gramの単語が割り当てられている。図16において、各音素の直ぐ下に記載された数値は第一発話の出現確率を示し、第一発話の直ぐ下に記載された数値は第二発話の出現確率を示している。   FIG. 16 is a diagram illustrating a search space when the appearance probabilities of each phoneme of the first recognition result and each phoneme of the second recognition result in the specific example of the second embodiment are combined. FIG. 16 shows a directed graph of the phoneme sequence “ringodesu” and the phoneme sequence “mango: desu”, as in FIG. 15, and the appearance probability of the first utterance and the appearance probability of the second utterance are shown for each phoneme. Has been. In the example of FIG. 16, a word of 1-gram is assigned. In FIG. 16, the numerical value described immediately below each phoneme indicates the appearance probability of the first utterance, and the numerical value described immediately below the first utterance indicates the appearance probability of the second utterance.

例えば、音素列「ringodesu」の第一発話における音素「r」の出現確率は、0.7であり、第二発話における音素「r」の出現確率は、0.3である。   For example, the appearance probability of the phoneme “r” in the first utterance of the phoneme string “ringodesu” is 0.7, and the appearance probability of the phoneme “r” in the second utterance is 0.3.

ここで、音素列「ringodesu」の合成出現確率は、(0.7+0.3)×(0.5+0.4)×・・・×(0.9+0.9)である。また、音素列「mango:desu」の合成出現確率は、(0.2+0.4)×(0.3+0.5)×・・・×(0.9+0.9)である。   Here, the combined appearance probability of the phoneme string “ringodesu” is (0.7 + 0.3) × (0.5 + 0.4) ×... × (0.9 + 0.9). The synthetic appearance probability of the phoneme string “mango: desu” is (0.2 + 0.4) × (0.3 + 0.5) ×... × (0.9 + 0.9).

この場合、文章推定部1202は、音素列「ringodesu」及び音素列「mango:desu」のそれぞれに対して、単語辞書301に登録された1−gramの単語列を割り当てていく。   In this case, the sentence estimation unit 1202 assigns a 1-gram word string registered in the word dictionary 301 to each of the phoneme string “ringodesu” and the phoneme string “mango: desu”.

そして、文章推定部1202は、音素出現確率合成部1203により算出された合成出現確率に、単語の出現確率を乗算することによって、各単語列の信頼度を算出する。そして、文章推定部1202は、最大の信頼度を持つ音素列を発話者が意図する一の単語列として認識する。   Then, the sentence estimation unit 1202 calculates the reliability of each word string by multiplying the combined appearance probability calculated by the phoneme appearance probability combining unit 1203 by the word appearance probability. Then, the sentence estimation unit 1202 recognizes the phoneme string having the maximum reliability as one word string intended by the speaker.

図16において、単語列「リンゴです」の信頼度は、一単語目に「リンゴ」が出現する確率が0.6であり、「リンゴ」の次に「です」が出現する確率が1であるため、(0.7+0.3)×(0.5+0.4)×・・・×(0.9+0.9)×0.6×1と算出される。同様に、単語列「マンゴーです」の信頼度は、一単語目に「マンゴー」が出現する確率が0.4であり、「マンゴー」の次に「です」が出現確率が1であるため、0.2+0.4)×(0.3+0.5)×・・・×(0.9+0.9)×0.4×1と算出される。   In FIG. 16, the reliability of the word string “I am an apple” has a probability of “apple” appearing as the first word is 0.6, and the probability that “is” appears after “apple” is 1. Therefore, (0.7 + 0.3) × (0.5 + 0.4) ×... × (0.9 + 0.9) × 0.6 × 1 is calculated. Similarly, the reliability of the word string “is a mango” has a probability that “mango” appears in the first word is 0.4, and “is” next to “mango” has an appearance probability of 1. 0.2 + 0.4) × (0.3 + 0.5) ×... × (0.9 + 0.9) × 0.4 × 1.

そして、ここでは、単語列「リンゴです」の方が単語列「マンゴーです」よりも信頼度が高いため、単語列「リンゴです」が発話されたと認識される。   Here, since the word string “I am an apple” is more reliable than the word string “I am a mango”, it is recognized that the word string “I am an apple” is spoken.

このように、実施の形態2の音声認識装置100によれば、第一発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第二発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、両認識結果を合成することで一の単語列が認識されているので、一の単語列の認識精度を高めることができる。   As described above, according to the speech recognition apparatus 100 of the second embodiment, even if a recognition result with low reliability is obtained for the first utterance, the recognition result is not discarded and the recognition result is This is used when a recognition result with low reliability is obtained for the utterance. For this reason, even if a highly reliable recognition result cannot be obtained by listening back, since one word string is recognized by combining both recognition results, the recognition accuracy of one word string can be improved. .

なお、ステップS209にて、認識結果記憶部302に記憶される認識結果は直前の認識結果だけでなく、聞き返しによって得られた過去複数回の認識結果であってもよい。この場合、音素出現確率合成部1203は、ステップS211において、過去複数回の認識結果として得られた複数の音素列の各音素の出現確率と、最新の認識結果として得られた音素列の各音素の出現確率とを合成すればよい。   Note that in step S209, the recognition result stored in the recognition result storage unit 302 may be not only the previous recognition result but also a plurality of past recognition results obtained by listening back. In this case, the phoneme appearance probability synthesis unit 1203, in step S211, the appearance probability of each phoneme of a plurality of phoneme strings obtained as a result of recognition in the past plural times and each phoneme of the phoneme string obtained as the latest recognition result. And the appearance probability of.

(実施の形態3)
図17は、実施の形態3における音声対話システムの全体構成の一例を示す図である。図17において、図10との相違点は、音素出現確率合成部1203を省略し、共通候補抽出部270を追加した点にある。
(Embodiment 3)
FIG. 17 is a diagram illustrating an example of the overall configuration of the voice interaction system according to the third embodiment. 17, the difference from FIG. 10 is that the phoneme appearance probability synthesis unit 1203 is omitted and a common candidate extraction unit 270 is added.

実施の形態3において、文章推定部1202は、実施の形態2と同様に単語列を推定するが、信頼度が最大の単語列を認識結果とするのではなく、信頼度が高い順に上位n個の単語列をそれぞれ認識候補として抽出し、上位n個の認識候補(n−best)を認識結果とする。n−bestとは、認識結果に含まれる複数の認識候補のうち、信頼度が高い順にn個の認識候補のことを指す。   In the third embodiment, the sentence estimation unit 1202 estimates a word string in the same manner as in the second embodiment, but does not use the word string with the highest reliability as the recognition result, but the top n words in the descending order of reliability. Are extracted as recognition candidates, and the top n recognition candidates (n-best) are used as recognition results. n-best refers to n recognition candidates in descending order of reliability among a plurality of recognition candidates included in the recognition result.

共通候補抽出部270は、文章信頼度判定部1210により、第一認識結果における信頼度の最大値が閾値TH1未満且つ第二認識結果における信頼度の最大値が閾値TH1未満と判定された場合、第一発話の認識候補(n−best)と第二発話の認識候補(n−best)とを比較し、共通する認識候補を抽出し、抽出結果に基づいて最終的に認識する単語列を決定する。   The common candidate extraction unit 270 determines that the maximum reliability value in the first recognition result is less than the threshold TH1 and the maximum reliability value in the second recognition result is less than the threshold TH1 by the sentence reliability determination unit 1210. The first utterance recognition candidate (n-best) and the second utterance recognition candidate (n-best) are compared, common recognition candidates are extracted, and a word string to be finally recognized is determined based on the extraction result. To do.

図18は、実施の形態3における認識処理の一例を説明するフローチャートである。ステップS300〜ステップS307の処理は、図12に示すステップS200〜ステップS207の処理と基本的に同じである。但し、ステップS303では、文章信頼度判定部1210は、文章推定部1202により推定された第一認識結果の信頼度の最大値が閾値TH1以上であるか否かを判定する。   FIG. 18 is a flowchart illustrating an example of recognition processing according to the third embodiment. The processing from step S300 to step S307 is basically the same as the processing from step S200 to step S207 shown in FIG. However, in step S303, the sentence reliability determination unit 1210 determines whether or not the maximum value of the reliability of the first recognition result estimated by the sentence estimation unit 1202 is greater than or equal to the threshold value TH1.

ステップS303において、第一認識結果の信頼度の最大値が閾値TH1以上である場合(ステップS303でYES)、当該最大値を持つ認識候補が発話者が意図した一の単語列として決定され、ステップS305〜ステップS307の処理が実行される。   In step S303, when the maximum value of the reliability of the first recognition result is equal to or greater than the threshold value TH1 (YES in step S303), a recognition candidate having the maximum value is determined as one word string intended by the speaker. The processing from S305 to step S307 is executed.

一方、ステップS303において、文章信頼度判定部1210は、第一認識結果における信頼度の最大値が閾値TH1未満である場合(ステップS303でNO)、認識結果記憶部302を参照し、第一認識結果が記憶されているか否かを判断する(ステップS310)。第一認識結果が記憶されていない場合(ステップS310でNO)、図19に示すように、文章信頼度判定部1210は、第一発話の認識結果に含まれる認識候補のうち、信頼度(音素毎の出現確率の積と単語毎の出現確率の積)が高い順にn個の認識候補をn−bestとして文章推定部1202から取得し、認識結果記憶部302に記憶する。ステップS308では、図10に示すステップS208と同様、音声認識装置100により聞き返しが行われる。この聞き返しにより、発話者により第二発話が行われ、ステップS300〜ステップS302の処理により、第一発話と同様、第二発話に対する第二認識結果が得られる。そして、第二認識結果の信頼度の最大値が閾値TH1未満であれば、ステップS303でNOと判定され処理がS310に進む。   On the other hand, in step S303, when the maximum reliability value in the first recognition result is less than the threshold value TH1 (NO in step S303), the sentence reliability determination unit 1210 refers to the recognition result storage unit 302 and performs the first recognition. It is determined whether the result is stored (step S310). When the first recognition result is not stored (NO in step S310), as shown in FIG. 19, the sentence reliability determination unit 1210 includes the reliability (phoneme) among the recognition candidates included in the recognition result of the first utterance. N recognition candidates are acquired as n-best from the sentence estimation unit 1202 and stored in the recognition result storage unit 302 in descending order of the product of the appearance probability for each word and the product of the appearance probability for each word. In step S308, similar to step S208 shown in FIG. The second utterance is performed by the speaker by this replay, and the second recognition result for the second utterance is obtained by the processing of step S300 to step S302 as with the first utterance. If the maximum value of the reliability of the second recognition result is less than the threshold value TH1, NO is determined in step S303, and the process proceeds to S310.

一方、第二認識結果の信頼度の最大値が閾値TH1以上であれば(ステップS303でYES)、当該最大値を持つ認識候補が発話者が意図する一の単語列として決定され、ステップS305〜ステップS307の処理が実行される。   On the other hand, if the maximum value of the reliability of the second recognition result is equal to or greater than the threshold value TH1 (YES in step S303), a recognition candidate having the maximum value is determined as one word string intended by the speaker, and steps S305 to S305 are performed. The process of step S307 is executed.

一方、第一認識結果が認識結果記憶部302に記憶されていた場合(ステップS310でYES)、共通候補抽出部270は、第一認識結果のn−bestと、第二認識結果のn−bestとを比較する(ステップS311)。   On the other hand, when the first recognition result is stored in the recognition result storage unit 302 (YES in step S310), the common candidate extraction unit 270 determines the n-best of the first recognition result and the n-best of the second recognition result. Are compared (step S311).

次に、共通候補抽出部270は、比較した結果、共通の認識候補があるか否かを判断する(ステップS312)。共通する認識候補が存在する場合(ステップS312でYES)、共通候補抽出部270は、共通候補が複数存在するか否かを判定する(ステップS313)。共通する認識候補が複数存在する場合(ステップS313でYES)、共通候補抽出部270は、共通する複数の認識候補のそれぞれについて第一認識結果の信頼度と第二認識結果の信頼度との和を算出する。そして、共通候補抽出部270は、信頼度の和が最大の認識候補を最終的な認識結果として決定してもよいし、信頼度の和が高い順に複数の認識候補を最終的な認識結果として決定してもよい。ステップS313の処理が終了すると、処理はステップS304に遷移する。また、共通候補抽出部270は、信頼度の和が高い順に得られた複数の認識候補に対して、図4のステップS116で説明した発話確認を行い、発話者によって同意が得られた認識候補を最終的な認識結果として決定してもよい。   Next, the common candidate extraction unit 270 determines whether there is a common recognition candidate as a result of the comparison (step S312). If there are common recognition candidates (YES in step S312), the common candidate extraction unit 270 determines whether or not there are a plurality of common candidates (step S313). When there are a plurality of common recognition candidates (YES in step S313), the common candidate extraction unit 270 adds the reliability of the first recognition result and the reliability of the second recognition result for each of the plurality of common recognition candidates. Is calculated. Then, the common candidate extraction unit 270 may determine a recognition candidate having the maximum reliability as a final recognition result, or select a plurality of recognition candidates as a final recognition result in descending order of the reliability. You may decide. When the process of step S313 ends, the process transitions to step S304. Further, the common candidate extraction unit 270 performs the utterance confirmation described in step S116 in FIG. 4 on the plurality of recognition candidates obtained in descending order of the reliability, and the recognition candidate whose consent is obtained by the speaker. May be determined as the final recognition result.

図19は、実施の形態3における第一認識結果の5−bestの一例を示す図である。図20は、実施の形態3における第二認識結果の5−bestの一例を示す図である。図19及び図20において、共通する認識候補は、「リンゴ食べたい」及び「インコ飛べた」である。この時、第一認識結果と第二認識結果との信頼度の和は、「リンゴ食べたい」が0.96(=0.54+0.42)、「インコ飛べた」が0.47(=0.20+0.27)である。この場合、信頼度の和が最大である「リンゴ食べたい」が最終的な認識結果として決定される。或いは、両方の認識候補が最終的な信頼度として決定されてもよい。   FIG. 19 is a diagram illustrating an example of 5-best of the first recognition result in the third embodiment. FIG. 20 is a diagram illustrating an example of 5-best of the second recognition result in the third embodiment. In FIG. 19 and FIG. 20, common recognition candidates are “I want to eat an apple” and “I can fly a parakeet”. At this time, the sum of the reliability of the first recognition result and the second recognition result is 0.96 (= 0.54 + 0.42) for “I want to eat an apple” and 0.47 (= 0 for “I can fly a parrot”) 20 + 0.27). In this case, “I want to eat an apple” having the maximum sum of reliability is determined as the final recognition result. Alternatively, both recognition candidates may be determined as final reliability.

一方、共通する認識候補が存在しなかった場合(ステップS312でNO)、処理はステップS309に遷移する。ステップS309では、共通候補抽出部270は、認識結果記憶部302に、第一認識結果に加えて更に第二認識結果を記憶させ、聞き返しの応答文の生成指示を応答生成部240に出力することで、発話者への更なる聞き返しを実施する(ステップS308)。これにより、第三認識結果が取得される。そして、第三認識結果の信頼度の最大値が閾値TH1未満であれば、第一、第二、及び第三認識結果が比較され、共通する認識候補が抽出される。この場合、第一、第二、及び第三認識結果のうち、少なくとも2つで共通する認識候補があれば、その認識候補が共通する認識結果として抽出される。   On the other hand, if there is no common recognition candidate (NO in step S312), the process transitions to step S309. In step S <b> 309, the common candidate extraction unit 270 stores the second recognition result in addition to the first recognition result in the recognition result storage unit 302, and outputs an instruction to generate a response to the response to the response generation unit 240. Then, the speaker is further heard back (step S308). Thereby, the third recognition result is acquired. And if the maximum value of the reliability of a 3rd recognition result is less than threshold value TH1, a 1st, 2nd, and 3rd recognition result will be compared and a common recognition candidate will be extracted. In this case, if there is a recognition candidate common to at least two of the first, second, and third recognition results, the recognition candidate is extracted as a common recognition result.

このように、実施の形態3に係る音声認識装置100によれば、第一発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第二発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、第一発話と第二発話との両方で認識された単語列が一の単語列が認識されているので、一の単語列の認識精度を高めることができる。   Thus, according to the speech recognition apparatus 100 according to Embodiment 3, even if a recognition result with low reliability is obtained for the first utterance, the recognition result is not discarded, and the recognition result is This is used when a low-reliability recognition result is obtained for two utterances. Therefore, even if a highly reliable recognition result is not obtained by replay, one word string is recognized because the word string recognized in both the first utterance and the second utterance is recognized. Column recognition accuracy can be increased.

(ロボット)
音声認識装置100は図21に示すようなロボット500に実装されてもよい。図21は、実施の形態1〜3に係る音声認識装置100が実装されたロボット500の外観図である。ロボット500は、球帯状のメイン筐体501、第1球冠部502、及び第2球冠部503を備える。メイン筐体501、第1球冠部502、及び第2球冠部503は全体として球体を構成する。即ち、ロボット500は、球体形状を有する。また、ロボット500は、第2球冠部503にカメラ504を備え、第1球冠部502に距離センサ505、スピーカ410、及びマイク400を備える。
(robot)
The speech recognition apparatus 100 may be mounted on a robot 500 as shown in FIG. FIG. 21 is an external view of a robot 500 on which the speech recognition apparatus 100 according to the first to third embodiments is mounted. The robot 500 includes a spherical main casing 501, a first spherical crown portion 502, and a second spherical crown portion 503. The main housing 501, the first spherical crown portion 502, and the second spherical crown portion 503 constitute a sphere as a whole. That is, the robot 500 has a spherical shape. In addition, the robot 500 includes a camera 504 in the second crown portion 503 and a distance sensor 505, a speaker 410, and a microphone 400 in the first crown portion 502.

カメラ504は、ロボット500の周辺環境の映像を取得する。また、距離センサ505は、ロボット500の周辺環境までの距離情報を取得する。尚、本態様において、ロボット500は、第2球冠部503にカメラ504を、第1球冠部502に距離センサ505、スピーカ410、及びマイク400を備えるが、これに限られるものではなく、第1球冠部502、及び第2球冠部503の少なくとも一方にカメラ504、距離センサ505、スピーカ410、及びマイク400を備えればよい。   The camera 504 acquires an image of the surrounding environment of the robot 500. The distance sensor 505 acquires distance information to the surrounding environment of the robot 500. In this aspect, the robot 500 includes the camera 504 in the second crown portion 503 and the distance sensor 505, the speaker 410, and the microphone 400 in the first crown portion 502, but is not limited thereto. The camera 504, the distance sensor 505, the speaker 410, and the microphone 400 may be provided in at least one of the first spherical crown portion 502 and the second spherical crown portion 503.

第1球冠部502の中心と第2球冠部503の中心とはメイン筐体501の内部に設けられたシャフト(図略)によって固定接続されている。メイン筐体501はシャフトに対して回転自在に取り付けられている。また、シャフトにはフレーム(図略)及び表示部(図略)が取り付けられている。フレームにはメイン筐体501を回転させる第1モータ(図略)が取り付けられている。この第1モータ(図略)が回転することで、メイン筐体501は第1球冠部502及び第2球冠部503に対して回転し、ロボット500は前進又は後退する。第1モータ及びメイン筐体501は移動機構の一例である。なお、ロボット500が前進又は後退する場合、第1球冠部502及び第2球冠部503は停止状態にあるので、カメラ504、距離センサ505、マイク400、及びスピーカ410はロボット1の正面を向いた状態に維持される。また、表示部には、ロボット1の目及び口を示す画像を表示する。この表示部は、第2モータ(図略)による動力によってシャフトに対する角度が調整自在に取り付けられている。したがって、表示部のシャフトに対する角度を調整することで、ロボットの目及び口の方向が調整される。なお、表示部はメイン筐体501とは独立してシャフトに取り付けられているので、メイン筐体501が回転してもシャフトに対する角度は変化しない。したがって、ロボット500は、目及び口の向きを固定した状態で前進又は後退できる。   The center of the first spherical crown portion 502 and the center of the second spherical crown portion 503 are fixedly connected by a shaft (not shown) provided inside the main casing 501. The main casing 501 is rotatably attached to the shaft. A frame (not shown) and a display unit (not shown) are attached to the shaft. A first motor (not shown) for rotating the main casing 501 is attached to the frame. As the first motor (not shown) rotates, the main casing 501 rotates relative to the first and second spherical crown portions 502 and 503, and the robot 500 moves forward or backward. The first motor and the main casing 501 are an example of a moving mechanism. When the robot 500 moves forward or backward, the first spherical crown portion 502 and the second spherical crown portion 503 are in a stopped state, so that the camera 504, the distance sensor 505, the microphone 400, and the speaker 410 are positioned in front of the robot 1. Maintained facing. Further, an image showing the eyes and mouth of the robot 1 is displayed on the display unit. The display unit is attached so that the angle with respect to the shaft can be adjusted by power from a second motor (not shown). Therefore, the direction of the eyes and mouth of the robot is adjusted by adjusting the angle of the display unit with respect to the shaft. Note that since the display unit is attached to the shaft independently of the main housing 501, the angle with respect to the shaft does not change even when the main housing 501 rotates. Therefore, the robot 500 can move forward or backward with the direction of the eyes and mouth fixed.

本開示は、音声の認識精度を向上させることができるため、例えば、発話が曖昧な幼児との対話を行うロボットの技術分野にとって有用である。   The present disclosure can improve the accuracy of speech recognition, and is useful, for example, in the technical field of robots that interact with an infant whose speech is ambiguous.

20 CPU
30 メモリ
100 音声認識装置
200 音声認識部
201 音素推定部
202 単語推定部
203 音素出現確率判定部
210 単語信頼度判定部
220 意図解釈部
230 行動選択部
240 応答生成部
250 音声合成部
260 発話抽出部
270 共通候補抽出部
301 単語辞書
302 認識結果記憶部
400 マイク
410 スピーカ
500 ロボット
1202 文章推定部
1203 音素出現確率合成部
1210 文章信頼度判定部
20 CPU
30 memory 100 speech recognition device 200 speech recognition unit 201 phoneme estimation unit 202 word estimation unit 203 phoneme appearance probability determination unit 210 word reliability determination unit 220 intention interpretation unit 230 action selection unit 240 response generation unit 250 speech synthesis unit 260 utterance extraction unit 270 Common candidate extraction unit 301 Word dictionary 302 Recognition result storage unit 400 Microphone 410 Speaker 500 Robot 1202 Sentence estimation unit 1203 Phoneme appearance probability synthesis unit 1210 Sentence reliability determination unit

Claims (11)

音声認識方法であって、
一の単語を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話を構成する前記N個の音素ごとに、全種類の音素の出現確率を算出し、
前記第1発話を構成する第1音素から第N音素まで、各前記N個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第1発話に対応する第1音素列と認識し、
前記第1音素列を構成するN個の音素が有する出現確率どうしを掛け合わせることによって第1値を算出し、
前記第1値が第1閾値未満である場合は、前記発話者へ前記一の単語を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、前記第2発話はM個(Mは2以上の自然数)の音素から構成され、
前記第2発話を構成する前記M個の音素ごとに、全種類の音素について出現確率を算出し、
前記第2発話を構成する第1音素から第M音素まで、各前記M個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第2発話に対応する第2音素列と認識し、
前記第2音素列を構成するM個の音素が有する出現確率どうしを掛け合わせることによって第2値を算出し、
前記第2値が前記第1閾値未満である場合は、前記第1音素列において第2閾値以上の出現確率を有する音素と前記第2音素列において前記第2閾値以上の出現確率を有する音素を抽出し、
メモリに記憶された辞書から、前記抽出された音素を含む単語を抽出し、前記辞書は各単語と前記各単語に対応する音素列を対応付け、
前記抽出された単語が一つである場合は、前記抽出された単語を前記一の単語に対応すると認識する、
音声認識方法。
A speech recognition method,
A first utterance spoken by a speaker intended for a word is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
For each of the N phonemes constituting the first utterance, the appearance probabilities of all types of phonemes are calculated,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the N phonemes from the first phoneme constituting the first utterance to the Nth phoneme are arranged in order; a first phoneme string corresponding to the first utterance; Recognized,
A first value is calculated by multiplying appearance probabilities of N phonemes constituting the first phoneme string;
If the first value is less than a first threshold, let the speaker output a voice prompting the speaker to speak the one word again,
A second utterance re-spoken by the speaker with the intention of the one word is received via the microphone, and the second utterance is composed of M (M is a natural number of 2 or more) phonemes,
For each of the M phonemes constituting the second utterance, the appearance probability is calculated for all types of phonemes,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the M phonemes from the first phoneme constituting the second utterance to the Mth phoneme are arranged in order; a second phoneme string corresponding to the second utterance; Recognized,
A second value is calculated by multiplying the appearance probabilities of M phonemes constituting the second phoneme sequence;
When the second value is less than the first threshold, phonemes having an appearance probability equal to or higher than the second threshold in the first phoneme string and phonemes having an appearance probability equal to or higher than the second threshold in the second phoneme string Extract and
Extracting words including the extracted phonemes from a dictionary stored in a memory, the dictionary associates each word with a phoneme string corresponding to each word,
If the extracted word is one, the extracted word is recognized as corresponding to the one word;
Speech recognition method.
前記抽出された単語が複数である場合は、前記抽出された各単語を発話したか発話者に尋ねる音声を前記スピーカを通して出力し、
前記発話者から肯定又は否定の回答を前記マイクを介して受信し、
前記肯定の回答に対応する単語を、前記一の単語に対応すると認識する、
請求項1に記載の音声認識方法。
If there are a plurality of extracted words, the voice that asks the speaker whether the extracted words are spoken is output through the speaker.
Receiving a positive or negative answer from the speaker via the microphone;
Recognizing the word corresponding to the positive answer as corresponding to the one word;
The speech recognition method according to claim 1.
音声認識方法であって、
一の単語列を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される単語列の信頼度X1を算出し、
Figure 2019015950
tは、前記第1発話を構成するフレームを指定する番号を示し、
Tは、前記第1発話を構成するフレームの総数を示し、
A1(o,s|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態sに対応する音素列に遷移する確率を示し、
は前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、
L1(s,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態sに対応する単語列に遷移する確率を示し、
前記信頼度X1が閾値以上であるか判定し、
前記信頼度X1が前記閾値未満である場合は、前記発話者へ前記一の単語列を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、
前記第2発話の信頼度X1が前記閾値未満である場合は、前記第1発話と前記第2発話から推定される全ての単語列に対して合成信頼度Xを算出し、
Figure 2019015950
tは、前記第1発話および前記第2発話を構成するフレームを指定する番号を示し、
Tは、前記第1発話および前記第2発話を構成するフレームの総数を示し、
A1(o,s|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態sに対応する音素列に遷移する確率を示し、
は、前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は、全種類の音素を示し、
A2(q,s|st−1)は、前記第2発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態sに対応する音素列に遷移する確率を示し、
は前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
(s,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態sに対応する単語列に遷移する確率を示し、
前記合成信頼度Xのうち最大値を与える前記状態sに対応する単語列を、前記一の単語列として認識する、
音声認識方法。
A speech recognition method,
A first utterance uttered by a speaker with the intention of a single word string is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating the reliability X1 of the word string estimated for the first utterance;
Figure 2019015950
t indicates a number for specifying a frame constituting the first utterance;
T indicates the total number of frames constituting the first utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P L1 (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
Determining whether the reliability X1 is greater than or equal to a threshold;
If the reliability X1 is less than the threshold, a voice prompting the speaker to speak the one word string again is output through a speaker;
Receiving a second utterance re-uttered by the speaker with the intention of the one word string, via the microphone;
When the reliability X1 of the second utterance is less than the threshold value, the composite reliability X is calculated for all word strings estimated from the first utterance and the second utterance,
Figure 2019015950
t indicates a number that designates a frame constituting the first utterance and the second utterance;
T represents the total number of frames constituting the first utterance and the second utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is a physical quantity obtained from the first utterance and used to estimate the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P A2 (q t , s t | s t−1 ) is the t th frame after the phoneme string corresponding to the state s t−1 from the first frame to the t−1 frame of the second utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
q t is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
A word string corresponding to the state s t giving the maximum value of the combined confidence X, recognized as the one word sequence,
Speech recognition method.
音声認識方法であって、
一の単語列を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される全ての単語列の信頼度X1を算出し、
Figure 2019015950
t1は、前記第1発話を構成するフレームを指定する番号を示し、
T1は、前記第1発話を構成するフレームの総数を示し、
A1(ot1,st1|st1−1)は、前記第1発話の1番フレームからt1−1番フレームまでの状態st1−1に対応する音素列の次に、t1番フレームで任意の音素が出現し、状態st1に対応する音素列に遷移する確率を示し、
t1は前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、PL1(st1,st1−1)は、前記第1発話において前記状態st1−1に対応する単語列の次に、t1番フレームで任意の単語が出現し、前記状態st1に対応する単語列に遷移する確率を示し、
前記信頼度X1の最大値MaxX1が閾値以上であるか判定し、
前記最大値MaxX1が前記閾値未満である場合は、
前記信頼度X1の上位M個(Mは2以上の自然数)を与える前記第1発話に対して推定される第1単語列を抽出し、
前記発話者へ前記一の単語列を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、マイクを介して受信し、
前記第2発話に対して推定される全ての単語列の信頼度X2を算出し、
Figure 2019015950
t2は、前記第2発話を構成するフレームを指定する番号を示し、
T2は、前記第2発話を構成するフレームの総数を示し、
A2(ot2,st2|st2−1)は、前記第2発話の1番フレームからt2−1番フレームまでの状態st2−1に対応する音素列の次に、t2番フレームで任意の音素が出現し、状態st2に対応する音素列に遷移する確率を示し、
t2は前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
L2(st2,st2−1)は、前記第2発話において前記状態st2−1に対応する単語列の次に、t2番フレームで任意の単語が出現し、前記状態st2に対応する単語列に遷移する確率を示し、
前記信頼度X2の最大値MaxX2が閾値以上であるか判定し、
前記最大値MaxX2が前記閾値未満である場合は、前記信頼度X2の前記上位M個を与える前記第2発話に対して推定される第2単語列を抽出し、
前記第1単語列と前記第2単語列とに共通する単語列がある場合は、前記共通する単語列を前記一の単語列として認識する、
音声認識方法。
A speech recognition method,
A first utterance uttered by a speaker with the intention of a single word string is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating reliability X1 of all word strings estimated for the first utterance;
Figure 2019015950
t1 indicates a number for specifying a frame constituting the first utterance;
T1 indicates the total number of frames constituting the first utterance,
P A1 (o t1 , s t1 | s t1-1 ) is the t1 frame after the phoneme sequence corresponding to the state s t1-1 from the first frame to the t1-1 frame of the first utterance. Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t1 ,
o t1 is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes indicate all types of phonemes, and P L1 (s t1 , s t1-1 ) is arbitrary in the frame t1 next to the word string corresponding to the state s t1-1 in the first utterance. And the probability of transition to a word string corresponding to the state s t1 ,
Determining whether the maximum value MaxX1 of the reliability X1 is equal to or greater than a threshold;
When the maximum value MaxX1 is less than the threshold value,
Extracting a first word string estimated for the first utterance giving the top M pieces of reliability X1 (M is a natural number of 2 or more);
Outputting a voice prompting the speaker to speak the one word string again through a speaker;
Receiving a second utterance re-spoken by the speaker with the intention of the one word string, via a microphone;
Calculating reliability X2 of all word strings estimated for the second utterance;
Figure 2019015950
t2 indicates a number that designates a frame constituting the second utterance;
T2 indicates the total number of frames constituting the second utterance,
P A2 (o t2, s t2 | s t2-1) is the next phoneme string corresponding to the state s t2-1 to t2-1 numbered frame from 1 numbered frame of the second speech, at t2 numbered frame Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t2 ,
o t2 is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L2 (s t2 , s t2-1 ) corresponds to the state s t2 when an arbitrary word appears in the t2 frame after the word string corresponding to the state s t2-1 in the second utterance. The probability of transition to a word string
It is determined whether the maximum value MaxX2 of the reliability X2 is greater than or equal to a threshold value,
If the maximum value MaxX2 is less than the threshold, extract a second word string estimated for the second utterance that gives the top M pieces of the reliability X2,
If there is a word string common to the first word string and the second word string, the common word string is recognized as the one word string;
Speech recognition method.
請求項1、3、4のいずれか一項に記載の音声認識方法をコンピュータに実行させるためのプログラム。   A program for causing a computer to execute the speech recognition method according to claim 1. プロセッサ、メモリ、マイク、及びスピーカを備える音声認識装置であって、
前記プロセッサは、
一の単語を意図して発話者によって発話された第1発話を、前記マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話を構成する前記N個の音素ごとに、全種類の音素の出現確率を算出し、
前記第1発話を構成する第1音素から第N音素まで、各前記N個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第1発話に対応する第1音素列と認識し、
前記第1音素列を構成するN個の音素が有する出現確率どうしを掛け合わせることによって第1値を算出し、
前記第1値が第1閾値未満である場合は、前記発話者へ前記一の単語を再度発話するように促す音声を前記スピーカを通して出力させ、
前記一の単語を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、前記第2発話はM個(Mは2以上の自然数)の音素から構成され、
前記第2発話を構成する前記M個の音素ごとに、全種類の音素について出現確率を算出し、
前記第2発話を構成する第1音素から第M音素まで、各前記M個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第2発話に対応する第2音素列と認識し、
前記第2音素列を構成するM個の音素が有する出現確率どうしを掛け合わせることによって第2値を算出し、
前記第2値が前記第1閾値未満である場合は、前記第1音素列において第2閾値以上の出現確率を有する音素と前記第2音素列において前記第2閾値以上の出現確率を有する音素を抽出し、
前記メモリに記憶された辞書から、前記抽出された音素を含む単語を抽出し、前記辞書は各単語と前記各単語に対応する音素列を対応付け、
前記抽出された単語が一つである場合は、前記抽出された単語を前記一の単語に対応すると認識する、
音声認識装置。
A speech recognition device comprising a processor, a memory, a microphone, and a speaker,
The processor is
Receiving a first utterance spoken by a speaker with the intention of a word via the microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
For each of the N phonemes constituting the first utterance, the appearance probabilities of all types of phonemes are calculated,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the N phonemes from the first phoneme constituting the first utterance to the Nth phoneme are arranged in order; a first phoneme string corresponding to the first utterance; Recognized,
A first value is calculated by multiplying appearance probabilities of N phonemes constituting the first phoneme string;
If the first value is less than a first threshold, the speaker is prompted to output a voice prompting the speaker to speak the one word again,
A second utterance re-spoken by the speaker with the intention of the one word is received via the microphone, and the second utterance is composed of M (M is a natural number of 2 or more) phonemes,
For each of the M phonemes constituting the second utterance, the appearance probability is calculated for all types of phonemes,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the M phonemes from the first phoneme constituting the second utterance to the Mth phoneme are arranged in order; a second phoneme string corresponding to the second utterance; Recognized,
A second value is calculated by multiplying the appearance probabilities of M phonemes constituting the second phoneme sequence;
When the second value is less than the first threshold, phonemes having an appearance probability equal to or higher than the second threshold in the first phoneme string and phonemes having an appearance probability equal to or higher than the second threshold in the second phoneme string Extract and
Extracting words including the extracted phonemes from the dictionary stored in the memory, the dictionary associates each word with a phoneme string corresponding to each word,
If the extracted word is one, the extracted word is recognized as corresponding to the one word;
Voice recognition device.
請求項6記載の音声認識装置と、
前記音声認識装置を内蔵する筐体と、
前記筐体を移動させる移動機構と、
を備えるロボット。
A voice recognition device according to claim 6;
A housing containing the voice recognition device;
A moving mechanism for moving the housing;
Robot equipped with.
プロセッサ、マイク、及びスピーカを備える音声認識装置であって、
前記プロセッサは、
一の単語列を意図して発話者によって発話された第1発話を、前記マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される単語列の信頼度X1を算出し、
Figure 2019015950
tは、前記第1発話を構成するフレームを指定する番号を示し、
Tは、前記第1発話を構成するフレームの総数を示し、
A1(o,s|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態sに対応する音素列に遷移する確率を示し、
は前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、
L1(s,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態sに対応する単語列に遷移する確率を示し、
前記信頼度X1が閾値以上であるか判定し、
前記信頼度X1が前記閾値未満である場合は、前記発話者へ前記一の単語列を再度発話するように促す音声を前記スピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、
前記第2発話の信頼度X1が前記閾値未満である場合は、前記第1発話と前記第2発話から推定される全ての単語列に対して合成信頼度Xを算出し、
Figure 2019015950
tは、前記第1発話および前記第2発話を構成するフレームを指定する番号を示し、
Tは、前記第1発話および前記第2発話を構成するフレームの総数を示し、
A1(o,s|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態sに対応する音素列に遷移する確率を示し、
は、前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は、全種類の音素を示し、
A2(q,s|st−1)は、前記第2発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態sに対応する音素列に遷移する確率を示し、
は前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
(s,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態sに対応する単語列に遷移する確率を示し、
前記合成信頼度Xのうち最大値を与える前記状態sに対応する単語列を、前記一の単語列として認識する、
音声認識装置。
A speech recognition device comprising a processor, a microphone, and a speaker,
The processor is
Receiving a first utterance uttered by a speaker with the intention of one word string via the microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating the reliability X1 of the word string estimated for the first utterance;
Figure 2019015950
t indicates a number for specifying a frame constituting the first utterance;
T indicates the total number of frames constituting the first utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P L1 (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
Determining whether the reliability X1 is greater than or equal to a threshold;
If the reliability X1 is less than the threshold, a voice prompting the speaker to speak the one word string again is output through the speaker.
Receiving a second utterance re-uttered by the speaker with the intention of the one word string, via the microphone;
When the reliability X1 of the second utterance is less than the threshold value, the composite reliability X is calculated for all word strings estimated from the first utterance and the second utterance,
Figure 2019015950
t indicates a number that designates a frame constituting the first utterance and the second utterance;
T represents the total number of frames constituting the first utterance and the second utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is a physical quantity obtained from the first utterance and used to estimate the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P A2 (q t , s t | s t−1 ) is the t th frame after the phoneme string corresponding to the state s t−1 from the first frame to the t−1 frame of the second utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
q t is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
A word string corresponding to the state s t giving the maximum value of the combined confidence X, recognized as the one word sequence,
Voice recognition device.
請求項8記載の音声認識装置と、
前記音声認識装置を内蔵する筐体と、
前記筐体を移動させる移動機構と、
を備えるロボット。
A voice recognition device according to claim 8;
A housing containing the voice recognition device;
A moving mechanism for moving the housing;
Robot equipped with.
プロセッサ、マイク、及びスピーカを備える音声認識装置であって、
前記プロセッサは、
一の単語列を意図して発話者によって発話された第1発話を、前記マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される全ての単語列の信頼度X1を算出し、
Figure 2019015950
t1は、前記第1発話を構成するフレームを指定する番号を示し、
T1は、前記第1発話を構成するフレームの総数を示し、
A1(ot1,st1|st1−1)は、前記第1発話の1番フレームからt1−1番フレームまでの状態st1−1に対応する音素列の次に、t1番フレームで任意の音素が出現し、状態st1に対応する音素列に遷移する確率を示し、
t1は前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、PL1(st1,st1−1)は、前記第1発話において前記状態st1−1に対応する単語列の次に、t1番フレームで任意の単語が出現し、前記状態st1に対応する単語列に遷移する確率を示し、
前記X1の最大値MaxX1が閾値以上であるか判定し、
前記最大値MaxX1が前記閾値未満である場合は、
前記信頼度X1の上位M個(Mは2以上の自然数)を与える前記第1発話に対して推定される第1単語列を抽出し、
前記発話者へ前記一の単語列を再度発話するように促す音声を前記スピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、
前記第2発話に対して推定される全ての単語列の信頼度X2を算出し、
Figure 2019015950
t2は、前記第2発話を構成するフレームを指定する番号を示し、
T2は、前記第2発話を構成するフレームの総数を示し、
A2(ot2,st2|st2−1)は、前記第2発話の1番フレームからt2−1番フレームまでの状態st2−1に対応する音素列の次に、t2番フレームで任意の音素が出現し、状態st2に対応する音素列に遷移する確率を示し、
t2は前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
L2(st2,st2−1)は、前記第2発話において前記状態st2−1に対応する単語列の次に、t2番フレームで任意の単語が出現し、前記状態st2に対応する単語列に遷移する確率を示し、
前記信頼度X2の最大値MaxX2が閾値以上であるか判定し、
前記最大値MaxX2が前記閾値未満である場合は、前記信頼度X2の前記上位M個を与える前記第2発話に対して推定される第2単語列を抽出し、
前記第1単語列と前記第2単語列とに共通する単語列がある場合は、前記共通する単語列を前記一の単語列として認識する、
音声認識装置。
A speech recognition device comprising a processor, a microphone, and a speaker,
The processor is
Receiving a first utterance uttered by a speaker with the intention of one word string via the microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating reliability X1 of all word strings estimated for the first utterance;
Figure 2019015950
t1 indicates a number for specifying a frame constituting the first utterance;
T1 indicates the total number of frames constituting the first utterance,
P A1 (o t1 , s t1 | s t1-1 ) is the t1 frame after the phoneme sequence corresponding to the state s t1-1 from the first frame to the t1-1 frame of the first utterance. Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t1 ,
o t1 is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes indicate all types of phonemes, and P L1 (s t1 , s t1-1 ) is arbitrary in the frame t1 next to the word string corresponding to the state s t1-1 in the first utterance. And the probability of transition to a word string corresponding to the state s t1 ,
Determining whether the maximum value MaxX1 of X1 is equal to or greater than a threshold;
When the maximum value MaxX1 is less than the threshold value,
Extracting a first word string estimated for the first utterance giving the top M pieces of reliability X1 (M is a natural number of 2 or more);
A voice prompting the speaker to speak the one word string again is output through the speaker;
Receiving a second utterance re-uttered by the speaker with the intention of the one word string, via the microphone;
Calculating reliability X2 of all word strings estimated for the second utterance;
Figure 2019015950
t2 indicates a number that designates a frame constituting the second utterance;
T2 indicates the total number of frames constituting the second utterance,
P A2 (o t2, s t2 | s t2-1) is the next phoneme string corresponding to the state s t2-1 to t2-1 numbered frame from 1 numbered frame of the second speech, at t2 numbered frame Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t2 ,
o t2 is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L2 (s t2 , s t2-1 ) corresponds to the state s t2 when an arbitrary word appears in the t2 frame after the word string corresponding to the state s t2-1 in the second utterance. The probability of transition to a word string
It is determined whether the maximum value MaxX2 of the reliability X2 is greater than or equal to a threshold value,
If the maximum value MaxX2 is less than the threshold, extract a second word string estimated for the second utterance that gives the top M pieces of the reliability X2,
If there is a word string common to the first word string and the second word string, the common word string is recognized as the one word string;
Voice recognition device.
請求項10記載の音声認識装置と、
前記音声認識装置を内蔵する筐体と、
前記筐体を移動させる移動機構と、
を備えるロボット。
A speech recognition device according to claim 10;
A housing containing the voice recognition device;
A moving mechanism for moving the housing;
Robot equipped with.
JP2018038717A 2017-07-05 2018-03-05 Voice recognition method, program, voice recognition device, and robot Ceased JP2019015950A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810674290.6A CN109215631A (en) 2017-07-05 2018-06-27 Audio recognition method, program, speech recognition equipment and robot
US16/019,701 US10650802B2 (en) 2017-07-05 2018-06-27 Voice recognition method, recording medium, voice recognition device, and robot
EP18181408.8A EP3425628A1 (en) 2017-07-05 2018-07-03 Voice recognition method, recording medium, voice recognition device, and robot

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017131762 2017-07-05
JP2017131762 2017-07-05

Publications (1)

Publication Number Publication Date
JP2019015950A true JP2019015950A (en) 2019-01-31

Family

ID=65358498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018038717A Ceased JP2019015950A (en) 2017-07-05 2018-03-05 Voice recognition method, program, voice recognition device, and robot

Country Status (1)

Country Link
JP (1) JP2019015950A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090735A (en) * 2019-12-25 2020-05-01 成都航天科工大数据研究院有限公司 Intelligent question-answering method based on knowledge graph and performance evaluation method thereof
US11557286B2 (en) 2019-08-05 2023-01-17 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01161299A (en) * 1987-12-17 1989-06-23 Sanyo Electric Co Ltd Voice recognition system
JPH0432900A (en) * 1990-05-29 1992-02-04 Ricoh Co Ltd Sound recognizing device
JP2008040075A (en) * 2006-08-04 2008-02-21 Toyota Motor Corp Robot apparatus and control method of robot apparatus
US20080059167A1 (en) * 2006-08-12 2008-03-06 International Business Machines Corporation Speech Recognition System
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01161299A (en) * 1987-12-17 1989-06-23 Sanyo Electric Co Ltd Voice recognition system
JPH0432900A (en) * 1990-05-29 1992-02-04 Ricoh Co Ltd Sound recognizing device
JP2008040075A (en) * 2006-08-04 2008-02-21 Toyota Motor Corp Robot apparatus and control method of robot apparatus
US20080059167A1 (en) * 2006-08-12 2008-03-06 International Business Machines Corporation Speech Recognition System
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
堀貴明,塚田元: "特集 音声情報処理技術の最先端 重み付き有限状態トランスデューサによる音声認識", 情報処理, vol. 第45巻,第10号, JPN6021049011, October 2004 (2004-10-01), pages 1020 - 1026, ISSN: 0004661408 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11557286B2 (en) 2019-08-05 2023-01-17 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11955119B2 (en) 2019-08-05 2024-04-09 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN111090735A (en) * 2019-12-25 2020-05-01 成都航天科工大数据研究院有限公司 Intelligent question-answering method based on knowledge graph and performance evaluation method thereof
CN111090735B (en) * 2019-12-25 2023-03-10 成都航天科工大数据研究院有限公司 Performance evaluation method of intelligent question-answering method based on knowledge graph

Similar Documents

Publication Publication Date Title
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
JP6574169B2 (en) Speech recognition with multi-directional decoding
US11875820B1 (en) Context driven device arbitration
EP3114679B1 (en) Predicting pronunciation in speech recognition
US9318103B2 (en) System and method for recognizing a user voice command in noisy environment
JP4195428B2 (en) Speech recognition using multiple speech features
JP3282075B2 (en) Apparatus and method for automatically generating punctuation in continuous speech recognition
JP2020086437A (en) Voice recognition method and voice recognition device
JP2018120212A (en) Method and apparatus for voice recognition
JP5951161B2 (en) Speech recognition apparatus and speech recognition method
US7272561B2 (en) Speech recognition device and speech recognition method
CN109155132A (en) Speaker verification method and system
KR102628211B1 (en) Electronic apparatus and thereof control method
WO2018078885A1 (en) Interactive device, interactive method, and interactive computer program
JP5385876B2 (en) Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium
US10143027B1 (en) Device selection for routing of communications
JP2019015950A (en) Voice recognition method, program, voice recognition device, and robot
US11693622B1 (en) Context configurable keywords
JP6468258B2 (en) Voice dialogue apparatus and voice dialogue method
CN112133285A (en) Voice recognition method, voice recognition device, storage medium and electronic equipment
US20230148275A1 (en) Speech synthesis device and speech synthesis method
US11563708B1 (en) Message grouping
US11172527B2 (en) Routing of communications to a device
US11328713B1 (en) On-device contextual understanding
WO2020208972A1 (en) Response generation device and response generation method

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20220927