JP2019015950A - Voice recognition method, program, voice recognition device, and robot - Google Patents
Voice recognition method, program, voice recognition device, and robot Download PDFInfo
- Publication number
- JP2019015950A JP2019015950A JP2018038717A JP2018038717A JP2019015950A JP 2019015950 A JP2019015950 A JP 2019015950A JP 2018038717 A JP2018038717 A JP 2018038717A JP 2018038717 A JP2018038717 A JP 2018038717A JP 2019015950 A JP2019015950 A JP 2019015950A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- phoneme
- word
- phonemes
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Landscapes
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本開示は、音声認識の技術に関するものである。 The present disclosure relates to a speech recognition technique.
近年、発話した音声データから発話内容を示す単語列を推定する種々の音声認識方法が提案されている。 In recent years, various speech recognition methods have been proposed for estimating a word string indicating utterance content from uttered speech data.
例えば、特許文献1では、下記の音声認識方法が開示されている。すなわち、発話した音声データを複数の音素区間xに区画して各音素区間xに音素モデルを割り当て、n番目の音素区間xに対して割り当てた音素モデルpの尤度Psnと、音素モデルp以外の音素モデルの音素区間xの尤度の最高値Pmaxn及び尤度Psnの差分尤度Pdnとを求める。そして、尤度Psn及び差分尤度Pdnをそれぞれ、正解音素区間尤度モデル及び不正解音素度尤度モデルに入力して、正解音素区間尤度モデルの尤度Lncと、不正解音素尤度モデルの尤度Lniとを求める。そして、尤度Lncと尤度Lniとの差分尤度cnを求め、差分尤度cnの全音素区間の加算値を単語信頼度WCとして求め、単語信頼度WCが閾値以上であれば、その音声データに対して割り当てた音素列を出力し、単語信頼度WCが閾値未満であれば、当該音素列をリジェクトする。
For example,
しかし、特許文献1は、音素尤度のみが考慮されており、言語尤度は何ら考慮されていないので、言語として自然さを持つ音素列を再現することができないという課題がある。
However, since
そこで、非特許文献1では、音響尤度と言語尤度とを用いて、発話を音声認識して単語列を推定する方法が開示されている。具体的には、非特許文献1では、式(1)の右辺に示す確率の積を最大とする単語列Wが認識結果として選択される。ここで、wは任意の単語列であり、P(O|w)は単語列wの音素列がOである確率(音響尤度)であり、音響モデルにより計算される。P(w)はwの言語としてのもっともらしさを示す確率(言語尤度)であり、n−gramなどの連続する単語の出現頻度情報を基に言語モデルにより計算される。
Therefore, Non-Patent
また、この方法では、この音響尤度と言語尤度との積を認識結果の確からしさ(文章の信頼度)として認識結果と一緒に出力される。 In this method, the product of the acoustic likelihood and the language likelihood is output together with the recognition result as the likelihood of the recognition result (text reliability).
しかしながら、非特許文献1では、入力発話が曖昧であったり、入力発話がノイズなどの影響を強く受けていたりした場合、文章の信頼度が低い値となる。そして、文章の信頼度が低い場合、認識結果に誤りを含む可能性が高くなるという課題が存在する。
However, in
本開示は、このような課題を解決するためになされたものである。 This indication is made in order to solve such a subject.
本開示の一態様に係る音声認識方法は、
一の単語を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話を構成する前記N個の音素ごとに、全種類の音素の出現確率を算出し、
前記第1発話を構成する第1音素から第N音素まで、各前記N個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第1発話に対応する第1音素列と認識し、
前記第1音素列を構成するN個の音素が有する出現確率どうしを掛け合わせることによって第1値を算出し、
前記第1値が第1閾値未満である場合は、前記発話者へ前記一の単語を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、前記第2発話はM個(Mは2以上の自然数)の音素から構成され、
前記第2発話を構成する前記M個の音素ごとに、全種類の音素について出現確率を算出し、
前記第2発話を構成する第1音素から第M音素まで、各前記M個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第2発話に対応する第2音素列と認識し、
前記第2音素列を構成するM個の音素が有する出現確率どうしを掛け合わせることによって第2値を算出し、
前記第2値が前記第1閾値未満である場合は、前記第1音素列において第2閾値以上の出現確率を有する音素と前記第2音素列において前記第2閾値以上の出現確率を有する音素を抽出し、
メモリに記憶された辞書から、前記抽出された音素を含む単語を抽出し、前記辞書は各単語と前記各単語に対応する音素列を対応付け、
前記抽出された単語が一つである場合は、前記抽出された単語を前記一の単語に対応すると認識する。
A speech recognition method according to an aspect of the present disclosure includes:
A first utterance spoken by a speaker intended for a word is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
For each of the N phonemes constituting the first utterance, the appearance probabilities of all types of phonemes are calculated,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the N phonemes from the first phoneme constituting the first utterance to the Nth phoneme are arranged in order; a first phoneme string corresponding to the first utterance; Recognized,
A first value is calculated by multiplying appearance probabilities of N phonemes constituting the first phoneme string;
If the first value is less than a first threshold, let the speaker output a voice prompting the speaker to speak the one word again,
A second utterance re-spoken by the speaker with the intention of the one word is received via the microphone, and the second utterance is composed of M (M is a natural number of 2 or more) phonemes,
For each of the M phonemes constituting the second utterance, the appearance probability is calculated for all types of phonemes,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the M phonemes from the first phoneme constituting the second utterance to the Mth phoneme are arranged in order; a second phoneme string corresponding to the second utterance; Recognized,
A second value is calculated by multiplying the appearance probabilities of M phonemes constituting the second phoneme sequence;
When the second value is less than the first threshold, phonemes having an appearance probability equal to or higher than the second threshold in the first phoneme string and phonemes having an appearance probability equal to or higher than the second threshold in the second phoneme string Extract and
Extracting words including the extracted phonemes from a dictionary stored in a memory, the dictionary associates each word with a phoneme string corresponding to each word,
If the extracted word is one, the extracted word is recognized as corresponding to the one word.
本開示は、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができる。 The present disclosure can improve recognition accuracy even when the speaker is an infant or in an environment where the input utterance is greatly affected by noise.
(本開示の基礎となった知見)
ユーザが発話する音声から発話内容を解析し、解析結果を基に自然な応答を返すことでユーザとの自然な対話を実現したり、機器の制御又は情報提供などのサービスを提供したりする音声対話システムに関する技術が検討されている。
(Knowledge that became the basis of this disclosure)
Voice that analyzes utterance content from the voice uttered by the user and returns a natural response based on the analysis result to realize a natural dialogue with the user, or provide services such as device control or information provision Technologies related to dialogue systems are being studied.
成人を対象とした一般の音声認識システムでは、認識精度は90%を超えており、たとえ認識できなかったとしても、信頼度が低い認識結果を破棄して、聞き返しによりゆっくり発話してもらったり、はっきりと発話してもらったりすることで、高い信頼度を持つ認識結果を取得することが十分にできる。 In a general voice recognition system for adults, the recognition accuracy exceeds 90%, and even if it cannot be recognized, the recognition result with low reliability is discarded and the speech is slowly spoken by listening back, A recognition result with high reliability can be acquired sufficiently by having the user speak clearly.
しかしながら、一般の音声認識システムでは、言語の獲得段階にある幼児の発話、又は入力発話がノイズの影響を大きく受ける環境では、認識精度が低くなるため、たとえ聞き返したとしても信頼度の高い認識結果が得られないという課題がある。 However, in a general speech recognition system, the recognition accuracy is low in an environment where the speech of an infant in the language acquisition stage or the input speech is greatly affected by noise, so even if it is listened to again, a highly reliable recognition result There is a problem that cannot be obtained.
非特許文献1では、言語らしさを持つ単語列を出力させることはできるものの、信頼度の低い認識結果が得られた場合、聞き返すことについての開示がないので、上記の課題は解決できない。
In
特許文献1では、信頼度の低い認識結果が得られた場合、その認識結果は破棄することが開示されているに過ぎず、聞き返すことについての開示がないので、非特許文献1と同様、上記の課題を解決できない。
In
そこで、本発明者は、信頼度が低い認識結果をそのまま破棄するのではなく、その認識結果と聞き返しにより得られた認識結果とを考慮すれば、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができるとの知見を得て、本開示を想到するに至った。 Therefore, the present inventor does not discard the recognition result with low reliability as it is, but considers the recognition result and the recognition result obtained by listening back, when the speaker is an infant or the input utterance is The present disclosure has been conceived by obtaining knowledge that recognition accuracy can be improved even in an environment that is greatly affected by noise.
本開示の一態様に係る音声認識方法は、
一の単語を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話を構成する前記N個の音素ごとに、全種類の音素の出現確率を算出し、
前記第1発話を構成する第1音素から第N音素まで、各前記N個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第1発話に対応する第1音素列と認識し、
前記第1音素列を構成するN個の音素が有する出現確率どうしを掛け合わせることによって第1値を算出し、
前記第1値が第1閾値未満である場合は、前記発話者へ前記一の単語を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、前記第2発話はM個(Mは2以上の自然数)の音素から構成され、
前記第2発話を構成する前記M個の音素ごとに、全種類の音素について出現確率を算出し、
前記第2発話を構成する第1音素から第M音素まで、各前記M個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第2発話に対応する第2音素列と認識し、
前記第2音素列を構成するM個の音素が有する出現確率どうしを掛け合わせることによって第2値を算出し、
前記第2値が前記第1閾値未満である場合は、前記第1音素列において第2閾値以上の出現確率を有する音素と前記第2音素列において前記第2閾値以上の出現確率を有する音素を抽出し、
メモリに記憶された辞書から、前記抽出された音素を含む単語を抽出し、前記辞書は各単語と前記各単語に対応する音素列を対応付け、
前記抽出された単語が一つである場合は、前記抽出された単語を前記一の単語に対応すると認識する。
A speech recognition method according to an aspect of the present disclosure includes:
A first utterance spoken by a speaker intended for a word is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
For each of the N phonemes constituting the first utterance, the appearance probabilities of all types of phonemes are calculated,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the N phonemes from the first phoneme constituting the first utterance to the Nth phoneme are arranged in order; a first phoneme string corresponding to the first utterance; Recognized,
A first value is calculated by multiplying appearance probabilities of N phonemes constituting the first phoneme string;
If the first value is less than a first threshold, let the speaker output a voice prompting the speaker to speak the one word again,
A second utterance re-spoken by the speaker with the intention of the one word is received via the microphone, and the second utterance is composed of M (M is a natural number of 2 or more) phonemes,
For each of the M phonemes constituting the second utterance, the appearance probability is calculated for all types of phonemes,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the M phonemes from the first phoneme constituting the second utterance to the Mth phoneme are arranged in order; a second phoneme string corresponding to the second utterance; Recognized,
A second value is calculated by multiplying the appearance probabilities of M phonemes constituting the second phoneme sequence;
When the second value is less than the first threshold, phonemes having an appearance probability equal to or higher than the second threshold in the first phoneme string and phonemes having an appearance probability equal to or higher than the second threshold in the second phoneme string Extract and
Extracting words including the extracted phonemes from a dictionary stored in a memory, the dictionary associates each word with a phoneme string corresponding to each word,
If the extracted word is one, the extracted word is recognized as corresponding to the one word.
この構成によれば、一の単語を意図する第1発話を認識することで得られた第1音素列の第1値が第1閾値より低く、第1音素列の信頼性が低い場合であっても、第1音素列は破棄されない。そして、聞き返しによって得られた一の単語を意図する第2発話の第2値が第1閾値より低く、第2音素列の信頼性も低い場合、第1音素列と第2音素列とのそれぞれから、信頼性の高い音素が抽出され、辞書と比較することで一の単語に対応する単語が抽出される。 According to this configuration, the first value of the first phoneme string obtained by recognizing the first utterance intended for one word is lower than the first threshold value, and the reliability of the first phoneme string is low. However, the first phoneme string is not discarded. Then, when the second value of the second utterance intended for one word obtained by listening is lower than the first threshold and the reliability of the second phoneme sequence is low, each of the first phoneme sequence and the second phoneme sequence Therefore, a phoneme with high reliability is extracted, and a word corresponding to one word is extracted by comparing with a dictionary.
このように、本構成は、第1発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第2発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、両認識結果である第1音素列と第2音素列とのうち信頼性の高い音素を用いて一の単語が認識されているので、一の単語の認識精度を高めることができる。 Thus, even if a recognition result with low reliability is obtained for the first utterance, this configuration does not discard the recognition result and recognizes the recognition result with low reliability for the second utterance. Use when results are obtained. Therefore, even if a highly reliable recognition result is not obtained by listening back, one word is recognized using a reliable phoneme from the first phoneme sequence and the second phoneme sequence that are both recognition results. Therefore, the recognition accuracy of one word can be improved.
更に、本構成では、第1音素列と第2音素列とのうち信頼性の高い音素を含む単語が辞書から抽出されているので、言語的に不自然な認識結果が得られることを防止できる。 Furthermore, in this configuration, since words including highly reliable phonemes from the first phoneme string and the second phoneme string are extracted from the dictionary, it is possible to prevent a linguistically unnatural recognition result from being obtained. .
以上により、本構成は、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができる。 As described above, this configuration can improve the recognition accuracy even when the speaker is an infant or in an environment where the input utterance is greatly affected by noise.
上記構成において、前記抽出された単語が複数である場合は、前記抽出された各単語を発話したか発話者に尋ねる音声を前記スピーカを通して出力し、
前記発話者から肯定又は否定の回答を前記マイクを介して受信し、
前記肯定の回答に対応する単語を、前記一の単語に対応すると認識してもよい。
In the above configuration, when there are a plurality of extracted words, a voice asking the speaker whether the extracted words are spoken or not is output through the speaker.
Receiving a positive or negative answer from the speaker via the microphone;
The word corresponding to the positive answer may be recognized as corresponding to the one word.
本構成によれば、第1音素列と第2音素列とのうち信頼性の高い音素を含む複数の単語が辞書から抽出された場合、どの単語を発話したのかを発話者に直接確認しているので、認識精度を高めることができる。 According to this configuration, when a plurality of words including a reliable phoneme are extracted from the dictionary from the first phoneme string and the second phoneme string, the speaker is directly confirmed as to which word is spoken. Therefore, recognition accuracy can be improved.
本開示の別の一態様に係る声認識方法は、
一の単語列を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される単語列の信頼度X1を算出し、
Tは、前記第1発話を構成するフレームの総数を示し、
PA1(ot,st|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態stに対応する音素列に遷移する確率を示し、
otは前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、
PL1(st,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態stに対応する単語列に遷移する確率を示し、
前記信頼度X1が閾値以上であるか判定し、
前記信頼度X1が前記閾値未満である場合は、前記発話者へ前記一の単語列を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、
前記第2発話の信頼度X1が前記閾値未満である場合は、前記第1発話と前記第2発話から推定される全ての単語列に対して合成信頼度Xを算出し、
Tは、前記第1発話および前記第2発話を構成するフレームの総数を示し、
PA1(ot,st|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態stに対応する音素列に遷移する確率を示し、
otは、前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は、全種類の音素を示し、
PA2(qt,st|st−1)は、前記第2発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態stに対応する音素列に遷移する確率を示し、
qtは前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
PL(st,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態stに対応する単語列に遷移する確率を示し、
前記合成信頼度Xのうち最大値を与える前記状態stに対応する単語列を、前記一の単語列として認識する。
A voice recognition method according to another aspect of the present disclosure includes:
A first utterance uttered by a speaker with the intention of a single word string is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating the reliability X1 of the word string estimated for the first utterance;
T indicates the total number of frames constituting the first utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P L1 (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
Determining whether the reliability X1 is greater than or equal to a threshold;
If the reliability X1 is less than the threshold, a voice prompting the speaker to speak the one word string again is output through a speaker;
Receiving a second utterance re-uttered by the speaker with the intention of the one word string, via the microphone;
When the reliability X1 of the second utterance is less than the threshold value, the composite reliability X is calculated for all word strings estimated from the first utterance and the second utterance,
T represents the total number of frames constituting the first utterance and the second utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is a physical quantity obtained from the first utterance and used to estimate the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P A2 (q t , s t | s t−1 ) is the t th frame after the phoneme string corresponding to the state s t−1 from the first frame to the t−1 frame of the second utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
q t is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
A word string corresponding to the state s t giving the maximum value of the combined confidence X, recognized as the one word sequence.
本構成によれば、一の単語列を意図する第1発話がT個のフレームに分けられ、t−1番フレームまでの状態st−1からt番フレームまでの状態stに遷移するときの、音素列の確率PA1(ot,st|st−1)と、単語列の確率PL1(st,st−1)との積を最大化する単語列が一の単語列として認識される。 According to this configuration, the first utterance intended for one word sequence is divided into the T frame, when a transition to a state s t from state s t-1 to t-1 th frame to the t-th frame A word sequence that maximizes the product of the probability P A1 (o t , s t | s t-1 ) of the phoneme sequence and the probability P L1 (s t , s t-1 ) of the word sequence Recognized as a column.
そして、第1発話の単語列の信頼度X1が閾値より低く、第1発話の単語列の信頼性が低い場合であっても、第1発話の単語列は破棄されない。そして、聞き返しによって得られた一の単語列を意図する第2発話の単語列の信頼度X1が閾値より低く、第2発話の単語列の信頼性も低い場合、状態stにおける第1発話の音素列の確率PA1(ot,st|st−1)及び第2発話の音素列の確率PA2(qt,st|st−1)の加算値と、状態stにおける単語列の確率PL(st,st−1)との積が合成信頼度Xとして算出され、合成信頼度Xを最大化する単語列が一の単語として認識される。 And even if the reliability X1 of the word sequence of the first utterance is lower than the threshold value and the reliability of the word sequence of the first utterance is low, the word sequence of the first utterance is not discarded. Then, lower than the reliability X1 is the threshold of the word sequence of the second speech intended for one word string obtained by reflective listening, if the reliability of the word sequence of the second utterance also low, the first utterance in the state s t The sum of the phoneme sequence probability P A1 (o t , s t | s t-1 ) and the phoneme sequence probability P A2 (q t , s t | s t-1 ) of the second utterance, and the state s t The product of the word string probabilities P L (s t , s t−1 ) is calculated as the combined reliability X, and the word string that maximizes the combined reliability X is recognized as one word.
このように、本構成は、第1発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第2発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、両認識結果を合成することで一の単語列が認識されているので、一の単語列の認識精度を高めることができる。 Thus, even if a recognition result with low reliability is obtained for the first utterance, this configuration does not discard the recognition result and recognizes the recognition result with low reliability for the second utterance. Use when results are obtained. For this reason, even if a highly reliable recognition result cannot be obtained by listening back, since one word string is recognized by combining both recognition results, the recognition accuracy of one word string can be improved. .
更に、本構成では、音素列の確率のみならず単語列の確率も考慮されているので、言語的に不自然な認識結果が得られることを防止できる。 Furthermore, in this configuration, not only the probability of the phoneme string but also the probability of the word string is taken into consideration, so that a linguistically unnatural recognition result can be prevented.
以上により、本構成は、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができる。 As described above, this configuration can improve the recognition accuracy even when the speaker is an infant or in an environment where the input utterance is greatly affected by noise.
本開示の更に別の一態様に係る音声認識方法は、
一の単語列を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される全ての単語列の信頼度X1を算出し、
T1は、前記第1発話を構成するフレームの総数を示し、
PA1(ot1,st1|st1−1)は、前記第1発話の1番フレームからt1−1番フレームまでの状態st1−1に対応する音素列の次に、t1番フレームで任意の音素が出現し、状態st1に対応する音素列に遷移する確率を示し、
ot1は前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、PL1(st1,st1−1)は、前記第1発話において前記状態st1−1に対応する単語列の次に、t1番フレームで任意の単語が出現し、前記状態st1に対応する単語列に遷移する確率を示し、
前記信頼度X1の最大値MaxX1が閾値以上であるか判定し、
前記最大値MaxX1が前記閾値未満である場合は、
前記信頼度X1の上位M個(Mは2以上の自然数)を与える前記第1発話に対して推定される第1単語列を抽出し、
前記発話者へ前記一の単語列を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、マイクを介して受信し、
前記第2発話に対して推定される全ての単語列の信頼度X2を算出し、
T2は、前記第2発話を構成するフレームの総数を示し、
PA2(ot2,st2|st2−1)は、前記第2発話の1番フレームからt2−1番フレームまでの状態st2−1に対応する音素列の次に、t2番フレームで任意の音素が出現し、状態st2に対応する音素列に遷移する確率を示し、
ot2は前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
PL2(st2,st2−1)は、前記第2発話において前記状態st2−1に対応する単語列の次に、t2番フレームで任意の単語が出現し、前記状態st2に対応する単語列に遷移する確率を示し、
前記信頼度X2の最大値MaxX2が閾値以上であるか判定し、
前記最大値MaxX2が前記閾値未満である場合は、前記信頼度X2の前記上位M個を与える前記第2発話に対して推定される第2単語列を抽出し、
前記第1単語列と前記第2単語列とに共通する単語列がある場合は、前記共通する単語列を前記一の単語列として認識する。
A speech recognition method according to still another aspect of the present disclosure is provided.
A first utterance uttered by a speaker with the intention of a single word string is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating reliability X1 of all word strings estimated for the first utterance;
T1 indicates the total number of frames constituting the first utterance,
P A1 (o t1 , s t1 | s t1-1 ) is the t1 frame after the phoneme sequence corresponding to the state s t1-1 from the first frame to the t1-1 frame of the first utterance. Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t1 ,
o t1 is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes indicate all types of phonemes, and P L1 (s t1 , s t1-1 ) is arbitrary in the frame t1 next to the word string corresponding to the state s t1-1 in the first utterance. And the probability of transition to a word string corresponding to the state s t1 ,
Determining whether the maximum value MaxX1 of the reliability X1 is equal to or greater than a threshold;
When the maximum value MaxX1 is less than the threshold value,
Extracting a first word string estimated for the first utterance giving the top M pieces of reliability X1 (M is a natural number of 2 or more);
Outputting a voice prompting the speaker to speak the one word string again through a speaker;
Receiving a second utterance re-spoken by the speaker with the intention of the one word string, via a microphone;
Calculating reliability X2 of all word strings estimated for the second utterance;
T2 indicates the total number of frames constituting the second utterance,
P A2 (o t2, s t2 | s t2-1) is the next phoneme string corresponding to the state s t2-1 to t2-1 numbered frame from 1 numbered frame of the second speech, at t2 numbered frame Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t2 ,
o t2 is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L2 (s t2 , s t2-1 ) corresponds to the state s t2 when an arbitrary word appears in the t2 frame after the word string corresponding to the state s t2-1 in the second utterance. The probability of transition to a word string
It is determined whether the maximum value MaxX2 of the reliability X2 is greater than or equal to a threshold value,
If the maximum value MaxX2 is less than the threshold, extract a second word string estimated for the second utterance that gives the top M pieces of the reliability X2,
When there is a word string common to the first word string and the second word string, the common word string is recognized as the one word string.
本構成によれば、一の単語列を意図する第1発話がT個のフレームに分けられ、t−1番フレームまでの状態st−1からt番フレームまでの状態stに遷移するときの、音素列の確率PA1(ot,st|st−1)と、単語列の確率PL1(st,st−1)との積が信頼度X1として算出される。 According to this configuration, the first utterance intended for one word sequence is divided into the T frame, when a transition to a state s t from state s t-1 to t-1 th frame to the t-th frame Of the phoneme string P A1 (o t , s t | s t-1 ) and the word string probability P L1 (s t , s t-1 ) are calculated as the reliability X1.
そして、信頼度X1の最大値MaxX1が閾値より低く、第1発話から認識された単語列の信頼性が低い場合、上位M個の信頼度X1を持つ第1単語列が抽出され、聞き返しにより第2発話が得られる。 When the maximum value MaxX1 of the reliability X1 is lower than the threshold value and the reliability of the word string recognized from the first utterance is low, the first word string having the top M reliability X1 is extracted, Two utterances are obtained.
そして、第2発話の単語列の信頼度X2の最大値MaxX2が閾値より低く、第2発話の単語列の信頼性も低い場合、上位M個の信頼度X2を持つ第2単語列が抽出され、第1単語列と第2単語列とにおいて共通する単語列がある場合は、共通する単語列が一の単語列として認識される。 If the maximum value MaxX2 of the reliability X2 of the word sequence of the second utterance is lower than the threshold value and the reliability of the word sequence of the second utterance is also low, the second word sequence having the top M reliability X2 is extracted. When there is a common word string in the first word string and the second word string, the common word string is recognized as one word string.
このように、本構成は、第1発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第2発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、第1発話と第2発話との両方で認識された単語列が一の単語列として認識されているので、一の単語列の認識精度を高めることができる。 Thus, even if a recognition result with low reliability is obtained for the first utterance, this configuration does not discard the recognition result and recognizes the recognition result with low reliability for the second utterance. Use when results are obtained. For this reason, even if a highly reliable recognition result is not obtained by listening back, the word sequence recognized in both the first utterance and the second utterance is recognized as one word sequence, so one word Column recognition accuracy can be increased.
更に、本構成では、音素列の確率のみならず単語列の確率も考慮されているので、言語的に不自然な認識結果が得られることを防止できる。 Furthermore, in this configuration, not only the probability of the phoneme string but also the probability of the word string is taken into consideration, so that a linguistically unnatural recognition result can be prevented.
以上により、本構成は、発話者が幼児である場合、又は入力発話がノイズの影響を大きく受ける環境下においても、認識精度を向上させることができる。 As described above, this configuration can improve the recognition accuracy even when the speaker is an infant or in an environment where the input utterance is greatly affected by noise.
上記の音声認識方法はロボットに適用されてもよい。 The above speech recognition method may be applied to a robot.
また、本開示は、以上のような特徴的な処理を実行する音声認識方法として実現することができるだけでなく、音声認識方法に含まれる特徴的なステップを実行するための処理部を備える音声認識装置などとして実現することもできる。また、このような音声認識方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。 In addition, the present disclosure can be realized not only as a speech recognition method that performs the characteristic processing as described above, but also includes a speech recognition unit that includes a processing unit for executing the characteristic steps included in the speech recognition method. It can also be realized as a device. Moreover, it can also be realized as a computer program that causes a computer to execute the characteristic steps included in such a speech recognition method. Needless to say, such a computer program can be distributed via a computer-readable non-transitory recording medium such as a CD-ROM or a communication network such as the Internet.
以下、図面を参照しながら、本開示の実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、及びステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。 Hereinafter, embodiments of the present disclosure will be described with reference to the drawings. Note that each of the embodiments described below shows a specific example of the present disclosure. Numerical values, shapes, components, steps, order of steps, and the like shown in the following embodiments are merely examples, and are not intended to limit the present disclosure. In addition, among the constituent elements in the following embodiments, constituent elements that are not described in the independent claims indicating the highest concept are described as optional constituent elements. In all the embodiments, the contents can be combined.
(実施の形態1)
図1は、実施の形態1における音声対話システムの全体構成の一例を示す図である。図1に示す音声対話システムは、音声認識装置100、マイク400、スピーカ410、サービスアプリサーバ420、及び制御機器430を備える。
(Embodiment 1)
FIG. 1 is a diagram illustrating an example of the overall configuration of the voice interaction system according to the first embodiment. The voice interaction system shown in FIG. 1 includes a
音声認識装置は100、プロセッサとしてのCPU(中央演算処理装置)20、及びメモリ30を備える。CPU20は、音声認識部200、単語信頼度判定部210、意図解釈部220、行動選択部230、応答生成部240、音声合成部250、及び発話抽出部260を備える。メモリ30は、単語辞書301及び認識結果記憶部302を備える。音声認識部200は、音素推定部201、単語推定部202、及び音素出現確率判定部203を備える。
The speech recognition apparatus includes 100, a CPU (Central Processing Unit) 20 as a processor, and a
単語辞書301は、音声認識装置100が認識可能な単語と音素列との組み合わせを記憶する。図7は、単語辞書のデータ構成の一例を示す図である。単語辞書には、「マンゴー」及び「レンガ」というような単語と、「mango:」及び「renga」というような各単語の音素列とが対応付けて記憶されている。
The
図1に参照を戻す。音声認識装置100としてコンピュータを機能させるプログラムは、音声認識装置100を実装するロボット又は端末に組み込まれたメモリ30に格納され、CPU20等のプロセッサによって実行される。また、音声認識装置100を構成する全ての要素は、同一端末に実装されてもよいし、光ファイバ、無線又は公衆電話回線などの任意のネットワークを介して接続される別の端末又はサーバ上に個別に実装されてもよく、音声認識装置100と別の端末又はサーバとが互いに通信することによって音声対話処理を実現してもよい。
Returning to FIG. A program that causes a computer to function as the
マイク400は、例えば、指向性マイクで構成され、音声認識装置100が実装された端末又はロボットに組み込まれている。また、マイク400は、例えばハンドマイク、ピンマイク、又は卓上マイクなど任意の収音デバイスで構成されてもよい。この場合、マイク400は、有線又は無線を介して音声認識装置100が実装された端末に接続される。また、マイク400は、スマートフォン又はタブレット端末などの収音及び通信機能を持つデバイスに搭載されたマイクで構成されてもよい。
The
スピーカ410は、音声認識装置100が実装された端末又はロボットに組み込まれてもよいし、音声認識装置100が実装された端末又はロボットと、有線又は無線を介して接続されてもよい。また、スピーカ410は、スマートフォン又はタブレット端末などの集音及び通信機能を持つデバイスに搭載されたスピーカで構成されてもよい。
The
サービスアプリサーバ420は、お天気、読み聞かせ、ニュース、及びゲームなどの複数のサービスをネットワークを介してユーザに提供するクラウドサーバである。例えば、サービスアプリサーバ420は、音声認識装置100による音声の認識結果を取得し、認識結果に応じて実行するサービスを決定する。サービスアプリサーバ420より提供されるサービスは、サービスアプリサーバ420における実行結果をネットワークを介して取得する機能を備えるプログラムによって実現されていてもよいし、サービスアプリサーバ420と、音声認識装置100が実装されるロボット又は端末上のメモリに記憶されたプログラムとによって実現されてもよい。
The
制御機器430は、有線又は無線によって音声認識装置100と接続されたテレビ又は空調器等の機器で構成され、音声認識装置100から音声の認識結果を受信して制御される機器である。
The
発話抽出部260は、マイク400から出力された音声信号のうち発話中の音声信号を抽出して音素推定部201に出力する。ここで、発話抽出部260は、例えば所定音量以上の音声が一定期間以上継続した場合、発話が開始されたことを検出し、マイク400から入力される音声信号の音素推定部201への出力を開始する。また、発話抽出部260は所定音量未満の音声が所定期間以上続いたことを検出した場合、音素推定部201への音声信号の出力を停止する。本実施の形態では、発話抽出部260は、一の単語を意図して発話者が発話した音声の音声信号を抽出するものとする。また、発話者は、言語獲得段階にある幼児とする。
The
音素推定部201は、発話抽出部260により入力された音声信号を、所定の時間単位で構成される複数の音声区間に区切り、各音素区間において全種類の音素のそれぞれの出現確率を算出する。音素とは、言語において、音声の最小単位のことを指し、例えば、「a」及び「i」などの記号で表される。全種類の音素とは、発話に用いられる全ての音素を指す。この全種類の音素は、音響モデルによってモデル化されている。音響モデルとしては、例えば、HMM(Hidden Markov Model:隠れマルコフモデル)が挙げられる。
The
音素の種類数は言語によっても異なるが、日本語であれば例えば40程度である。ここで、音素推定部201は、HMMを用いて、連続する共通の音素区間を1つの音素区間として纏めることで、音素列を推定してもよい。そして、音素推定部201は、全音素区間における出現確率の積を最大とする音素の組み合わせを、発話者が発話した音素列として推定する。
The number of phoneme types varies depending on the language, but is about 40 for Japanese. Here, the
単語推定部202は、音素推定部201により推定された音素列に対して最もマッチする単語を、単語辞書301から抽出し、抽出した単語を発話者が発話した単語として推定する。
The
図2は、二音素からなる発話において、音素毎に算出された出現確率の一例を示す図である。図3は、図2において第一音素目の音素と第二音素目の音素との組み合わせに対する出現確率の積を纏めた図である。 FIG. 2 is a diagram illustrating an example of the appearance probability calculated for each phoneme in an utterance composed of two phonemes. FIG. 3 is a diagram summarizing the products of appearance probabilities for combinations of phonemes of the first phoneme and phonemes of the second phoneme in FIG. 2.
例えば、二音素からなる単語が発話され、図2に示される音素の出現確率が得られたとする。図2では、一音素目に対して音素「a」及び「u」の出現確率がそれぞれ「0.4」及び「0.5」と算出され、二音素目に対して音素「i」及び「e」の出現確率がそれぞれ「0.3」及び「0.6」と算出されている。 For example, it is assumed that a word composed of two phonemes is uttered and the appearance probability of phonemes shown in FIG. 2 is obtained. In FIG. 2, the appearance probabilities of phonemes “a” and “u” are calculated as “0.4” and “0.5” for the first phoneme, respectively, and phonemes “i” and “i” for the second phoneme. The appearance probabilities of “e” are calculated as “0.3” and “0.6”, respectively.
この場合、一音素目と二音素目との音素の組み合わせとして「ai」、「ae」、「ui」及び「ue」の4つが得られ、各組み合わせの出現確率の積は、「0.12」、「0.24」、「0.15」、及び「0.30」となる。 In this case, “ai”, “ae”, “ui”, and “ue” are obtained as phoneme combinations of the first phoneme and the second phoneme, and the product of the appearance probabilities of each combination is “0.12”. ”,“ 0.24 ”,“ 0.15 ”, and“ 0.30 ”.
したがって、一音素目と二音素目との音素の出現確率の積が最大となる組み合わせは、出現確率が「0.30」である「ue」となる。この時、音素列「ue」で単語辞書301を検索し、音素列「ue」にマッチする単語を認識結果として出力する。この時の各音素の出現確率の積、つまり「ue」=「0.30」が認識された単語の信頼度となる。
Therefore, the combination having the maximum product appearance probability of the first phoneme and the second phoneme is “ue” whose appearance probability is “0.30”. At this time, the
単語信頼度判定部210は、単語推定部202により認識された単語の信頼度(第1値、第2値の一例)と所定の閾値TH1(第1閾値の一例)とを比較して、単語の信頼度が閾値TH1未満である場合、認識結果記憶部302に、単語推定部202により認識された単語の音素列と、各音素の出現確率とを含む認識結果を第一発話に対する第一認識結果として記憶させる。この場合、単語信頼度判定部210は、発話者に一の単語を再度発話させるために、再発話を促す音声の生成指示を応答生成部240に出力する。
The word
単語信頼度判定部210は、再発話によって発話者に一の単語を意図する第二発話が行われ、単語推定部202により第二認識結果が得られた場合、第二認識結果の信頼度が閾値TH1未満であるか否かを判定する。
The word
音素出現確率判定部203は、単語信頼度判定部210により、第二認識結果の信頼度が閾値TH1未満と判定された場合、第一認識結果により認識された単語と、第二認識結果により認識された単語とのそれぞれにおいて、音素の出現確率が閾値TH2以上の音素を抽出する。
The phoneme appearance
単語推定部202は、音素出現確率判定部203により抽出された音素列を含む単語を単語辞書301から抽出し、抽出結果に基づいて最終認識結果としての単語を決定する。
The
また、単語信頼度判定部210は、単語の信頼度が閾値TH1以上である場合、認識結果を意図解釈部220に出力する。
Moreover, the word
意図解釈部220は、認識結果から応答の種別(例えば、相槌、又は質問回答など)と、行動の種別(しりとり、かくれんぼ、又はテレビ制御など)とを推定する。そして、意図解釈部220は、応答生成部240に応答の種別の推定結果を出力すると共に、行動選択部230に行動の種別の推定結果を出力する。
The
行動選択部230は、意図解釈部220の推定結果から、実行するサービス又は制御対象となる制御機器430を判断する。そして、行動選択部230は、サービスを実行すると判断した場合、実行するサービスの提供依頼をサービスアプリサーバ420に送信する。また、行動選択部230は、制御機器430を制御すると判断した場合、制御対象となる制御機器430に制御指示を出力する。
The
応答生成部240は、意図解釈部220から応答の種別の推定結果を取得した場合、推定結果に対応する応答文を生成する。一方、応答生成部240は、単語信頼度判定部210から再発話を促す音声の生成指示を取得した場合、発話者に一の単語を聞き返す応答文を生成する。
When the
音声合成部250は、応答生成部240により生成された応答文を音声信号に変換し、スピーカ410に出力する。スピーカ410は、音声合成部250から出力された音声信号を音声に変換し、外部に出力する。
The
図4は、実施の形態1における認識処理の一例を示すフローチャートである。まず、発話抽出部260は、マイク400における音声入力の有無を判断する(ステップS100)。音声入力が無いと判断された場合(ステップS100でNO)、音声入力が有りになるまでステップS100の処理は繰り返される。
FIG. 4 is a flowchart illustrating an example of recognition processing in the first embodiment. First, the
一方、音声入力が有りと判断された場合(ステップS100でYES)、発話抽出部260は、マイク400から出力される音声信号から発話中の音声信号を抽出する(ステップS101)。
On the other hand, when it is determined that there is a voice input (YES in step S100), the
次に、音声認識部200は、音声認識処理を実施する(ステップS102)。具体的には、音素推定部201は、発話抽出部260により抽出された音声信号を複数の音声区間に区切り、各音声区間の音声信号の特徴量を生成し、生成した特徴量を音響モデルと照合することで、各音声区間の音素を推定する。この時、音素推定部201は音声区間ごとに、音素の出現確率を計算し、HMMを用いることで連続する同一音素の音声区間を一つに纏める。例えば、発話音声を構成する第一音素、第二音素、及び第三音素で構成されているとすると、音素推定部201は、第一音素、第二音素、及び第三音素のそれぞれに対して全種類の音素の出現確率を算出する。
Next, the
例えば、第一音素は、音素「a」の確率が「0.4」、音素「i」の確率が「0.1」、音素「u」の確率が「0.2」というように全種類の音素のそれぞれについて、第一音素の出現確率が計算される。第二音素及び第三音素についても、第一音素と同様にして、全種類の音素のそれぞれの出現確率が計算される。 For example, the first phoneme has all types such that the probability of the phoneme “a” is “0.4”, the probability of the phoneme “i” is “0.1”, and the probability of the phoneme “u” is “0.2”. For each of the phonemes, the appearance probability of the first phoneme is calculated. For the second phoneme and the third phoneme, the appearance probabilities of all types of phonemes are calculated in the same manner as the first phoneme.
そして、音素推定部201は、第一音素の出現確率、第二音素の出現確率、及び第三音素の出現確率の積を最大化する3つの音素の組み合わせを発話音声の音素列として推定する。
Then, the
次に、単語推定部202は、メモリ30に格納されている単語辞書301を参照し、音素推定部201により推定された音素列とマッチする単語を選択する。単語辞書301にマッチする単語がない場合、単語推定部202は、各音素の出現確率の積が次に大きい単語の音素列を音素推定部201に推定させる。そして、単語推定部202は、推定された音素列にマッチする単語を単語辞書301から検索する。このようにして、単語辞書301にマッチする単語が得られると、単語推定部202は、マッチした単語の音素列の出現確率の積をその単語の信頼度して採用すると共に、マッチした単語の音素列と、その音素列を構成する各音素の出現確率とを認識結果として、単語信頼度判定部210に出力する。
Next, the
次に、単語信頼度判定部210は、認識された単語の信頼度が閾値TH1以上であるか否かを判断する(ステップS103)。単語の信頼度が閾値TH1以上であった場合(ステップS103でYES)、単語信頼度判定部210は、認識結果記憶部302に第一認識結果が記憶されているか否かを判断する(ステップS104)。ここで、第一認識結果とは、ステップS101で得られた音声以前に発話された音声の認識結果であって、認識結果記憶部302に記憶されている認識結果のことを指す。
Next, the word
すなわち、前回の発話によって認識された単語の信頼度が閾値TH1未満であり、その発話の認識結果が認識結果記憶部302に記憶されている場合に、その認識結果が第一認識結果となる。
That is, when the reliability of the word recognized by the previous utterance is less than the threshold TH1, and the recognition result of the utterance is stored in the recognition
第一認識結果が記憶されていた場合(ステップS104でYES)、単語信頼度判定部210は、認識結果記憶部302に記憶されている第一認識結果を消去し(ステップS105)、認識結果を意図解釈部220に出力する。次に、意図解釈部220は、認識結果に基づいて意図理解処理を実施する(ステップS106)。
When the first recognition result is stored (YES in step S104), the word
一方、認識結果記憶部302に第一認識結果が記憶されていなかった場合(ステップS104でNO)、処理はステップS106へ遷移する。ステップS106では、意図解釈部220は、認識結果から、応答の種別と行動の種別とを推定する。ステップS107では、応答生成部240は、推定された応答の種別に対応する応答文を生成する。また、ステップS107では、行動選択部230は、推定された行動の種別にしたがって実行するサービス又は制御対象となる制御機器430を決定し、サービスを決定した場合はサービスの提供依頼をサービスアプリサーバ420に送信し、制御機器430を決定した場合は制御対象となる制御機器430に制御指示を出力する。
On the other hand, when the first recognition result is not stored in the recognition result storage unit 302 (NO in step S104), the process proceeds to step S106. In step S106, the
一方、認識された単語の信頼度が閾値TH1未満である場合(ステップS103でNO)、単語信頼度判定部210は、認識結果記憶部302を参照し、第一認識結果が記憶されているか否かを判断する(ステップS110)。第一認識結果が記憶されていない場合(ステップS110でNO)、単語信頼度判定部210は、単語推定部202により推定された単語の音素列と、各音素の出現確率とを、第一発話の認識結果(第一認識結果)として認識結果記憶部302に記憶させ(ステップS109)、再発話を促す音声の生成指示を応答生成部240に出力する。
On the other hand, when the reliability of the recognized word is less than the threshold TH1 (NO in step S103), the word
次に、応答生成部240は、「もう1回ゆっくり言って?」というような聞き返し応答文を生成し、生成した応答文の音声信号を音声認識部200に生成させ、生成させた音声信号の音声をスピーカ410から出力させる(ステップS108)。ステップS108により聞き返し応答文の音声が出力されると、音声認識装置100は、発話者による一の単語を意図する再発話の待機状態になり、処理はS100に戻る。
Next, the
この聞き返しにより、発話者により第二発話が行われ、ステップS100〜ステップS102の処理により、第一発話と同様、第二発話に対する第二認識結果が得られる。そして、第二認識結果の信頼度が閾値TH1未満であれば、ステップS103でNOと判定され、処理がS110に進む。 As a result, the second utterance is made by the speaker, and the second recognition result for the second utterance is obtained in the same manner as the first utterance by the processing in steps S100 to S102. And if the reliability of a 2nd recognition result is less than threshold value TH1, it will determine with NO by step S103, and a process will progress to S110.
一方、第二認識結果の信頼度が閾値TH1以上であれば(ステップS103でYES)、第二認識結果が発話者が意図する一の単語として決定され、ステップS105〜ステップS107の処理が実行される。 On the other hand, if the reliability of the second recognition result is equal to or higher than the threshold value TH1 (YES in step S103), the second recognition result is determined as one word intended by the speaker, and the processing from step S105 to step S107 is executed. The
ステップS110にて、第一認識結果が認識結果記憶部302に記憶されていた場合(ステップS110でYES)、音素出現確率判定部203は、認識結果記憶部302に記憶されている第一認識結果と、ステップS102により得られた発話者による再発話に対する第二認識結果とから所定の閾値TH2(第2閾値の一例)以上の音素をそれぞれ抽出する(ステップS111)。
When the first recognition result is stored in the recognition
次に、単語推定部202は、単語辞書301を参照し、第一認識結果の音素列において、閾値TH2以上の音素を含む単語を認識候補単語として抽出する(ステップS112)。次に、単語推定部202は、ステップS112で抽出した認識候補単語のリストから、第二認識結果の音素列において、閾値TH2以上の音素を含む単語で認識候補単語を絞り込む(ステップS113)。
Next, the
図5は、実施の形態1における対話の一例を示す図である。図5において、ロボットは、音声認識装置100が実装されたロボットを指し、ロボットの後に付された数字はロボットの発話順序を示す。また、幼児とは、ロボットと対話する幼児を指し、幼児の後に付された数字は発話順序を示す。
FIG. 5 is a diagram illustrating an example of the dialogue in the first embodiment. In FIG. 5, the robot refers to the robot on which the
まず、ロボットは、幼児に対して「どんな果物が好き?」(ロボット1)と発話し、これに対して幼児は「リンゴ」(幼児1)と発話している。しかし、ここでは、「リンゴ」(幼児1)の発話に対して認識された単語の信頼度が低くかったため、ロボットは、ステップS108によって、聞き返しを実施している。 First, the robot speaks “What kind of fruit do you like?” (Robot 1) to the infant, and the infant speaks “Apple” (Infant 1). However, since the reliability of the word recognized for the utterance of “apple” (toddler 1) is low here, the robot performs a replay in step S108.
この聞き返しにより、幼児は「リンゴ」(幼児2)と再発話しているが、この再発話の信頼度も低かった。この場合の音声認識装置100の処理を図6、図7、及び図8を用いて以下に説明する。
By this rehearsal, the toddler was re-speaking to “apple” (toddler 2), but the reliability of this re-speech was also low. The processing of the
図6は、図5の対話例に対する第一認識結果と第二認識結果との一例を示す図である。図6に示すように第一認識結果では、幼児の「リンゴ」という発話に対して単語「マンゴー」が認識されており、この単語の信頼度が閾値TH1未満であった。そのため、認識結果記憶部302に、第一認識結果が記憶されている。第一認識結果の内訳は、図6に示すように、認識単語が「マンゴー」であり、認識音素列が「m」、・・・、「o:」であり、音素の出現確率である「0.4」、・・・、「0.6」であった。
FIG. 6 is a diagram illustrating an example of the first recognition result and the second recognition result with respect to the dialogue example of FIG. As shown in FIG. 6, in the first recognition result, the word “mango” is recognized for the utterance “infringe” of the infant, and the reliability of this word is less than the threshold value TH1. Therefore, the first recognition result is stored in the recognition
第一認識結果の信頼度が低かったので、「もう一回ゆっくり言って?」というロボットの聞き返しにより、幼児が再び「リンゴ」と発話したが、「リンドウ」を認識する第二認識結果が得られており、第二認識結果においても、信頼度が閾値TH1以下であった。第二識結果の内訳は、図6に示すように、認識単語が「リンドウ」であり、認識音素列が「r」、・・・、「o:」であり、音素の出現確率が「0.9」、・・・、「0.5」であった。 Because the reliability of the first recognition result was low, the infant spoke again with an “apple” when asked by the robot, “Please say slowly again?”, But the second recognition result was recognized to recognize “gentian”. In the second recognition result, the reliability is equal to or less than the threshold value TH1. As shown in FIG. 6, the breakdown of the second knowledge result is that the recognized word is “Lindou”, the recognized phoneme string is “r”,..., “O:”, and the phoneme appearance probability is “0”. .9 ”,...,“ 0.5 ”.
ここで、音素の出現確率の閾値TH2を0.7とする。この場合、音素出現確率判定部203は、第一認識結果から、音素の出現確率が0.7以上である音素「n」と音素「g」とを抽出する。また、音素出現確率判定部203は、第二認識結果から、音素の出現確率が0.7以上である音素「r」と音素「i」と音素「n」とを抽出する。
Here, the threshold TH2 of the phoneme appearance probability is set to 0.7. In this case, the phoneme appearance
次に、単語推定部202は、単語辞書301を参照し、第一認識結果から抽出された連続する「n」と「g」との音素列を含む単語を認識候補単語として抽出する。図7に例示された単語のうち、連続する音素列「ng」を含む単語は、「マンゴー」、「レンガ」、「リンゴ」、及び「リンゴジュース」である。
Next, the
そのため、単語推定部202は、図8に示すように「マンゴー」、「レンガ」、「リンゴ」、及び「リンゴジュース」を認識候補単語として抽出する。図8は、第一認識結果から抽出された認識候補単語の一例を示す図である。
Therefore, the
更に、単語推定部202は、抽出した認識候補単語のうち、第二認識結果から抽出された連続する音素列「rin」を含む単語を抽出することにより、認識候補単語を絞り込む。図8に例示された認識候補単語のうち、連続する音素列「rin」を含む単語は「リンゴ」及び「リンゴジュース」である。
Furthermore, the
そのため、単語推定部202は、ステップS113において、「リンゴ」及び「リンゴジュース」を認識候補単語として最終的に絞り込む。
Therefore, the
図4のステップS115において、閾値TH3が3であったとすると、最終的に絞り込まれた認識候補単語は2つであるため、単語推定部202は、ステップS115でYESと判定する。ステップS116にて、単語推定部202は、「リンゴですか?」「リンゴジュースですか?」というように認識候補単語を一つずつ確認するための確認発話の音声信号を音声合成部250に生成させ、スピーカ410から出力させる。
If it is assumed that the threshold value TH3 is 3 in step S115 in FIG. 4, the
発話者は、この確認発話に対して例えば、肯定する発話(例えば「はい」)又は否定する発話(例えば「いいえ」)を行う。単語推定部202は、確認発話に対して肯定する発話を認識した場合、その確認発話に対応する単語を一の単語を意図した発話として認識する。一方、単語推定部202は、確認発話に対して否定する発話を認識した場合、次の認識候補単語の確認発話を行う。
The speaker performs, for example, an affirmative utterance (for example, “Yes”) or a negative utterance (for example, “No”) for the confirmation utterance. When the
図9は、実施の形態1において、第一認識結果と第二認識結果とから認識候補単語を絞り込む処理の別の一例を示す図である。図9の例では、第一認識結果及び第二認識結果において、閾値TH2以上の音素が連続していない場合の絞り込み方法が示されている。 FIG. 9 is a diagram illustrating another example of processing for narrowing recognition candidate words from the first recognition result and the second recognition result in the first embodiment. In the example of FIG. 9, the narrowing-down method in the case where phonemes having a threshold value TH2 or more are not continuous in the first recognition result and the second recognition result is shown.
図9において、対話例は図5と同じである。図9の例では、「リンゴ」という発話に対して単語「ルンバ」が認識された第一認識結果と、「リンゴ」という再発話に対して単語「黄粉」が認識された第二認識結果とが得られている。そして、図9の例では、第一認識結果及び第二認識結果とも、信頼度は閾値TH1=0.7未満であったため、単語「ルンバ」と単語「黄粉」とを用いて認識候補単語を絞り込む処理を行う。 In FIG. 9, the example of a dialog is the same as FIG. In the example of FIG. 9, the first recognition result in which the word “rumba” is recognized for the utterance “apple”, and the second recognition result in which the word “yellow powder” is recognized for the recurrent utterance “apple”. Is obtained. In the example of FIG. 9, since the reliability is less than the threshold value TH1 = 0.7 for both the first recognition result and the second recognition result, the recognition candidate word is determined using the word “rumba” and the word “yellow powder”. Perform the process of narrowing down.
図9に示すように、第一認識結果において閾値TH2=0.7以上の音素は「r」、「n」であり、両音素の順序は「r」の方が「n」より先である。第二認識結果において閾値TH2=0.7以上の音素は「i」、「o」であり、両音素の順序は「i」の方が「o」より先である。 As shown in FIG. 9, in the first recognition result, phonemes having a threshold TH2 = 0.7 or more are “r” and “n”, and the order of both phonemes is “r” before “n”. . In the second recognition result, phonemes with the threshold TH2 = 0.7 or more are “i” and “o”, and the order of both phonemes is “i” before “o”.
そこで、図9の例では、単語推定部202は、単語辞書301から、「r」と「n」との間に音素が存在しているか否かに拘わらず、「r」→「n」の順で音素が配列された単語を認識候補単語として抽出する。次に、音素出現確率判定部203は、抽出した認識候補単語の中から、「i」と「o」との間に音素が存在しているか否かに拘わらず、「i」→「o」の順で配列された単語を抽出し、認識候補単語の更なる絞り込みを行う。
Therefore, in the example of FIG. 9, the
図4に参照を戻す。ステップS114にて、認識候補単語が1つに絞りこめた場合(ステップS114でYES)、単語推定部202は、絞り込んだ単語を認識結果として決定し、処理をステップS105に遷移させ、ステップS105以降の処理が実行される。
Returning to FIG. In step S114, when the number of recognition candidate words is narrowed down to one (YES in step S114), the
一方、認識候補単語が1つに絞り込めなかった場合(ステップS114でNO)、音素出現確率判定部203は、認識候補単語が2つ以上且つ閾値TH3以下に絞り込めた否かを判断する(ステップS115)。絞り込んだ認識候補単語の数が、2つ以上且つ閾値TH3以下であった場合(ステップS115でYES)、単語推定部202は、絞り込んだ認識候補単語を一つずつ発話者に確認する確認発話を行うよう音声合成部250に指示する(ステップS116)。確認発話としては、例えば、絞り込まれた認識候補単語の一つにリンゴが含まれているとすると、「あなたはリンゴといいましたか?」といった発話が挙げられる。
On the other hand, when the number of recognition candidate words cannot be narrowed down to one (NO in step S114), the phoneme appearance
確認発話に対して、発話者から「はい」又は「そうです」等の肯定を意味する発話が行われた場合、単語推定部202は、肯定された認識候補単語を認識結果として確定する。ステップS117で認識結果が確定した場合(ステップS117でYES)、処理はS105に遷移し、S105以降の処理が実行される。
When an utterance that means affirmation such as “Yes” or “Yes” is performed from the speaker with respect to the confirmation utterance, the
一方、認識候補単語が2つ以上且つ閾値TH3以下に絞り込めなかった場合(ステップS115でNO)、処理はステップS109に遷移し、単語推定部202は、第二認識結果をメモリ30の認識結果記憶部302に記憶させる。この時、過去に同じ認識結果が存在すれば、その認識結果は過去の認識結果に上書きされる。また、この時、単語推定部202は、絞り込まれた全ての認識候補単語を第二認識結果に含ませて認識結果記憶部302に記憶させればよい。
On the other hand, when two or more recognition candidate words cannot be narrowed down to the threshold value TH3 or less (NO in step S115), the process proceeds to step S109, and the
一方、ステップS116において、全ての認識候補単語に対して、肯定的な発話が実施されず、認識結果が確定されなかった場合(S117でNO)、音素出現確率判定部203は、認識を諦めて処理を終了する。
On the other hand, if a positive utterance is not performed for all recognition candidate words in step S116 and the recognition result is not confirmed (NO in S117), the phoneme appearance
このように、実施の形態1の音声認識装置100によれば、第一発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第二発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、第一認識結果に含まれる音素列及び第二認識結果に含まれる音素列とのうち信頼性の高い音素を用いて一の単語が認識されている。その結果、一の単語の認識精度を高めることができる。
Thus, according to the
なお、第一認識結果と第二認識結果とにより認識結果が一意に絞り込めなかった場合、すなわち、ステップS115でNOと判定されて認識結果記憶部302に第二認識結果が記憶された場合(ステップS109)、音声認識装置100は、更なる聞き返しにより、第三認識結果を取得すればよい。そして、第三認識結果において信頼度が閾値TH1未満であった場合、音素出現確率判定部203は、第一、第二、及び第三認識結果を用いた絞り込みを実行すればよい。この場合、音素出現確率判定部203は、第一認識結果及び第二認識結果によって絞り込まれた認識候補単語を、第三認識結果により認識された音素列のうち出現確率が閾値TH2以上の音素を含む単語で絞り込めばよい。これによっても、認識候補単語の数が閾値TH3以下にならなければ、音素出現確率判定部203は、更なる聞き返しを行い、認識候補単語の数が閾値TH3以下になるまで聞き返しを繰り返せばよい。
When the recognition result cannot be narrowed down uniquely by the first recognition result and the second recognition result, that is, when it is determined NO in Step S115 and the second recognition result is stored in the recognition result storage unit 302 ( In step S109), the
(実施の形態2)
図10は、実施の形態2における音声対話システムの全体構成の一例を示す図である。図10において、図1との相違点は、単語推定部202、音素出現確率判定部203、及び単語信頼度判定部210が、それぞれ、文章推定部1202、音素出現確率合成部1203、及び文章信頼度判定部1210に置き換えられている点にある。
(Embodiment 2)
FIG. 10 is a diagram illustrating an example of the overall configuration of the voice interaction system according to the second embodiment. 10 differs from FIG. 1 in that a
実施の形態1の音声認識部200は、音声として一つの単語のみを認識することが可能な構成であるのに対し、実施の形態2の音声認識部200の構成は、任意の単語から構成される文章(単語列)が認識可能な構成を取る。
The
音素推定部201には、隠れマルコフモデル(Hidden Markov Model:HMM)が用いて音素列を推定し、文章推定部1202は、有限状態文法又はn−gramを用いて文章(単語列)を推定する。
The
HMM及び有限状態文法又はn−グラムを組み合わせることで複数の音素がネットワーク状に繋げられた有向グラフで構成された探索空間が構成される。したがって、音声認識処理は、ネットワークの経路の探索問題に帰着される。すなわち、音声認識処理は、入力された音声信号に対して最も適合するネットワークの経路を見つけ、その経路に対応する単語列を認識結果とする処理となる。具体的には、音声認識処理は、下記の式(2)において、音素及び単語の出現確率の積を最大化する単語列W(S)を求める処理となる。 By combining the HMM and the finite state grammar or n-gram, a search space composed of a directed graph in which a plurality of phonemes are connected in a network is configured. Therefore, the speech recognition process is reduced to a search problem of the network route. That is, the voice recognition process is a process of finding a network path that best matches the input voice signal and using a word string corresponding to the path as a recognition result. Specifically, the speech recognition process is a process for obtaining a word string W (S) that maximizes the product of the phoneme and the word appearance probability in the following equation (2).
図11は、複数のフレームに区切られた音声信号の一例を示す図である。図11に示すように、フレームとは、入力された音声信号を、例えば25msecというような一定の時間間隔に区切ったものを指す。otは、t番目のフレームにおける特徴ベクトルを示す。特徴ベクトルとは、音素を推定するために用いられる物理量の一例であり、音声信号の音量から得られる。Tは、入力された音声信号の長さをフレーム数で表したものである。特徴ベクトルとしては、例えば、メル周波数ケプストラム係数(Mel−Frequency Cepstrum Coefficients)が採用できる。stはt番目のフレームまで処理が到達したときの状態を表す。 FIG. 11 is a diagram illustrating an example of an audio signal divided into a plurality of frames. As shown in FIG. 11, a frame refers to an input audio signal divided at a constant time interval such as 25 msec. o t indicates a feature vector in the t-th frame. A feature vector is an example of a physical quantity used for estimating a phoneme, and is obtained from the volume of an audio signal. T represents the length of the input audio signal in the number of frames. As the feature vector, for example, a Mel-Frequency Cepstrum Coefficients can be adopted. s t represents a state where the process has reached the t-th frame.
図11において、右向きの矢印1101は、状態stを表している。音素列に関して、状態stでは、「kykyo:o:nno」又は「kyo:no」の音素列が推定されている。なお、「kykyo:o:nno」及び「kyo:no」は音響モデルの違いに依存する。連続する同じ音素は結合するという音響モデルを音素推定部201が利用していれいる場合、状態stの推定結果は後者になる。簡単のために以降は、1フレーム1音素という音響モデルを用いて説明する。
11, an
また、単語列に関して、状態stでは、「今日の」という単語列が推定されている。従って、PA(ot,st|st−1)は、状態st−1に対応する音素列から状態stに対応する音素列へ遷移する確率(音素列の出現確率)を表す。また、PL(st,st−1)は状態st−1に対応する単語列から状態stに対応する単語列へ遷移する言語モデルの確率(単語列の出現確率)を表す。なお、単語列の出現確率PL(st,st−1)は状態st−1と状態stとが単語の境界である場合に適用され、単語の境界以外は1となる。W(S)は、状態遷移過程S、すなわち、状態stに対応する単語列を表す。 In addition, with regard to the word string, in the state s t, word string of "Today" it has been estimated. Therefore, P A (o t , s t | s t−1 ) represents the probability of transition from the phoneme string corresponding to the state s t−1 to the phoneme string corresponding to the state s t (appearance probability of the phoneme string). . P L (s t , s t-1 ) represents the probability of the language model (word string appearance probability) for transition from the word string corresponding to the state s t-1 to the word string corresponding to the state s t . Note that the word string appearance probability P L (s t , s t-1 ) is applied when the state s t-1 and the state s t are word boundaries, and is 1 except for the word boundary. W (S) is the state transition process S, i.e., represent the word sequence corresponding to the state s t.
入力発話の音声信号に対して、最終的に推定される単語列は、1番目のフレームからT番目のフレームまでの音素列に対応する。音素列は1番目のフレーム→2番目のフレーム→・・・→T番目のフレームというように、前から順に推定されていく。何らかの発話があった場合、まず、音素推定部201は、発話の音声信号に対して音素列を推定し得る数だけ推定する。推定し得る音素列は、発話全体に対する音素列以外に、1番目のフレーム、1番目のフレームから2番目のフレーム、及び1番目のフレームから3番目のフレーム・・・というように発話の開始から連続した発話の途中までの音素列も含まれる。
The word string finally estimated for the speech signal of the input utterance corresponds to the phoneme string from the first frame to the Tth frame. The phoneme sequence is estimated in order from the first, such as the first frame → second frame →... → Tth frame. When there is any utterance, first, the
次に、文章推定部1202は、推定された音素列に、割り当て可能な単語を、割り当てられるだけ割り当てていく。そして、文章推定部1202は、推定された音素列の出現確率に、割り当てられた単語の出現確率を乗算し、その最大値を得る音素列及び単語の組み合わせを単語列として最終的に推定する。ここで、推定された音素列の出現確率と、割り当てられた単語の出現確率との積は、推定された音素列及びそれに割り当てられた単語から構成される単語列の信頼度を示す。以下、具体的に説明する。
Next, the
「今日の天気」と発話された場合、音素推定部201は、状態s1、つまり、1番目のフレームの音素列(この場合は音素)から順に、発話全体(ここでは、1番目のフレームからT=9番目のフレームまで)の状態s9の音素列を推定し、推定した音素列ごとにその出現確率を計算する。
When “Today's weather” is uttered, the
状態s1の音素列が「ky」と推定された場合、状態s2、つまり2番目のフレームまでの音素列は、例えば「kyo:」と推定される。そして、この場合の2番目のフレームまでの音素列の出現確率PA(o2,s2|s1)は、音素「ky」の後に、音素「o:」が出現する確率を表す。 When the phoneme string in the state s 1 is estimated as “ky”, the phoneme string up to the state s 2 , that is, the second frame is estimated as “kyo:”, for example. In this case, the appearance probability P A (o 2 , s 2 | s 1 ) of the phoneme string up to the second frame represents the probability that the phoneme “o:” appears after the phoneme “ky”.
状態s2の音素列の候補は「kyo:」だけではなく、全種類の音素数だけ存在するが、実際に発話されたときの音声の特徴により、音素列の出現確率が変化する。ここでは、「今日の天気」と発話されているので、状態s2の音素列は、音素列「kyo:」の出現確率PAの方が音素列「kyu:」の出現確率PAよりも高くなる。同様に、状態s9の音素列は、音素列「kyo:notenki」の出現確率PAの方が音素列「kyo:nodenchi」の出現確率PAよりも高くなる。 The number of phoneme strings in state s 2 is not limited to “kyo:”, but there are all types of phoneme numbers, but the appearance probability of the phoneme string varies depending on the characteristics of the speech when it is actually spoken. In this case, because it is spoken as "today's weather", the phoneme string of state s 2, the phoneme string "kyo:" appearance it is a sequence of phonemes probability P A of "kyu:" than the occurrence probability P A of Get higher. Similarly, the phoneme string of state s 9, the phoneme string "kyo: notenki" probability of occurrence P A of it is a phoneme string: higher than the occurrence probability P A of "kyo nodenchi".
文章推定部1202は、まず、音素推定部201によって推定された音素列に対して、単語を割り当てていく。例えば、状態s9の音素列が「kyo:notenki」と推定された場合、「今日の天気」又は「京の天気」などの単語が割り当てられる。次に、文章推定部1202は、割り当てた単語のそれぞれに対して、n−gramなどの言語モデルによる単語の出現確率を用いて、単語列の出現確率PL(st,st−1)を計算する。例えば、文章推定部1202が2−gramの言語モデルを利用している場合、「今日の」に対する単語の出現確率PL(st,st−1)は、「今日」の次に「の」が出現する確率を表し、「京の」に対する単語の出現確率PL(st,st−1)は、「京」の次に「の」が出現する確率を表す。
The
これらの単語の出現確率は、単語辞書301において記憶されている。状態s9の音素列「kyo:notenki」に対する単語の出現確率は、「今日の」の単語の出現確率の方が、「京の」の単語の出現確率より大きかった場合、「今日の天気」に対する単語の出現確率PL(st,st−1)の方が「京の天気」に対する単語の出現確率PL(st,st−1)よりも大きくなる。ここでは、2−gramの例を説明したが、n−gram(nは自然数)のいずれを利用していても単語の出現確率の計算は同様である。
The appearance probabilities of these words are stored in the
文章信頼度判定部1210は、音素推定部201において推定された音素列の出現確率PA(ot,st|st−1)と、文章推定部1202において推定された全音素列のそれぞれに対して割り当られた複数の単語列の出現確率PL(st,st−1)とを乗算して、複数の単語列の信頼度を計算する。そして、文章信頼度判定部1210は、複数の信頼度のうち最大の信頼度を持つ単語列を最終的な単語列として認識する。すなわち、文章推定部1202は、式(2)におけるW(s)を最終的な単語列として認識する。
The sentence
音素出現確率合成部1203は、第一発話における各音素の出現確率と第二発話における各音素の出現確率との和を取ることで、各音素の出現確率を合成する。なお、各音素の出現確率が合成された場合、文章推定部1202は、合成された各音素の出現確率を用いて、第一発話に対して求めた手法と同様の手法を用いて複数の単語列の信頼度を計算し、最大の信頼度を持つ単語列を最終的な認識結果とする。すなわち、文章推定部1202は式(3)における単語列W(s)を最終的な認識結果とする。
The phoneme appearance
ここで、第一発話とは、聞き返しに対する応答発話ではなく、音声認識装置100からの問いかけに対する応答、又はユーザから音声認識装置100に対する話しかけによる発話のことを指す。また、第二発話とは、聞き返しに対する応答発話のことを指し、第一発話を意図する発話者による発話のことを指す。
Here, the first utterance is not a response utterance to a reply, but a response to an inquiry from the
式(3)において、PA1は第一発話の音素列の出現確率を示し、PA2は第二発話の音素列の出現確率を示す。この時、第一発話と第二発話との各音素の出現確率の和は、第一発話の信頼度と第二発話の信頼度とに応じた重み付け加算した値が採用されてもよい。例えば、第一発話の信頼度をα、第二発話の信頼度をβとすると、出現確率の和は、第一発話の各音素の出現確率に対して重み値α/α+βを乗じた値と、第二発話の各音素の出現確率に対して重み値β/α+βを乗じた値との加算値が採用されてもよい。 In Expression (3), P A1 represents the appearance probability of the phoneme string of the first utterance, and P A2 represents the appearance probability of the phoneme string of the second utterance. At this time, the sum of the appearance probabilities of each phoneme in the first utterance and the second utterance may be a value obtained by weighted addition according to the reliability of the first utterance and the reliability of the second utterance. For example, if the reliability of the first utterance is α and the reliability of the second utterance is β, the sum of the appearance probabilities is obtained by multiplying the appearance probability of each phoneme of the first utterance by the weight value α / α + β. An addition value obtained by multiplying the appearance probability of each phoneme of the second utterance by the weight value β / α + β may be employed.
文章信頼度判定部1210は、文章推定部1202により推定された第一発話の認識結果に対する信頼度(音素列の出現確率と単語列の出現確率との積)が閾値TH1以上か否かを判定する。そして、文章信頼度判定部1210は、信頼度が閾値TH1未満の場合、第一発話に対する認識結果を第一認識結果として認識結果記憶部302に記憶し、聞き返しを実施する。ここで、第一認識結果には、単語列を推定するために必要な情報が含まれ、例えば、認識された単語列と、その単語列に対応する音素列と、その音素列を構成する各音素の出現確率が含まれる。
The sentence
図12は、実施の形態2における認識処理の一例を示すフローチャートである。ステップS200及びステップS201の処理は、図4に示す、ステップS100及びステップS101の処理と同じである。 FIG. 12 is a flowchart illustrating an example of recognition processing according to the second embodiment. The processing in step S200 and step S201 is the same as the processing in step S100 and step S101 shown in FIG.
音声認識部200は、音声認識処理を実施する(ステップS202)。具体的には、音素推定部201は、実施の形態1と同様に、音響モデルを用いて各音声区間の音素を推定する。文章推定部1202は、単語辞書301に登録されている単語列を音素推定部201により推定された音素列に割り当てていく。このとき、文章推定部1202は、音素推定部201により推定された全ての音素列のそれぞれに対して割り当て可能な単語列を割り当てていき、推定された各音素列に対して1以上の単語列の割り当て結果を得る。そして、文章推定部1202は、音素列の出現確率と割り当てた単語列の出現確率との積が最大となる単語列を認識結果として出力すると共に、積の最大値を認識結果として得られた単語列の信頼度として文章信頼度判定部1210に出力する。
The
次に、文章信頼度判定部1210は、文章推定部1202により認識された単語列の信頼度が閾値TH1以上であるか否か判断する(ステップS203)。文章の信頼度が閾値TH1以上であった場合(ステップS203でYES)、処理はステップS204に進む。ステップS204〜ステップS207は、図4に示すステップS104〜ステップS107と同じである。
Next, the sentence
一方、文章推定部1202により認識された単語列の信頼度が閾値TH1未満である場合(ステップS203でNO)、文章信頼度判定部1210は、認識結果記憶部302を参照し、第一認識結果が記憶されているか否かを判断する(ステップS210)。第一認識結果が記憶されていない場合(ステップS210でNO)、文章信頼度判定部1210は、文章推定部1202により認識された単語列と、その単語列に対応する音素列と、式(2)のPA(ot,st|st−1)により求められる各音素の出現確率とを、第一発話の認識結果(第一認識結果)として認識結果記憶部302に記憶させる(ステップS209)。ステップS208では、図4に示すステップS108と同様、音声認識装置100により聞き返しが行われる。この聞き返しにより、発話者により第二発話が行われ、ステップS200〜ステップS202の処理により、第一発話と同様、第二発話に対する第二認識結果が得られる。そして、第二認識結果の信頼度が閾値TH1未満であれば、ステップS203でNOと判定され処理がS210に進む。
On the other hand, when the reliability of the word string recognized by the
一方、第二認識結果の信頼度が閾値TH1以上であれば(ステップS203でYES)、第二認識結果が発話者が意図する一の単語列として決定され、ステップS205〜ステップS207の処理が実行される。 On the other hand, if the reliability of the second recognition result is equal to or higher than the threshold TH1 (YES in step S203), the second recognition result is determined as one word string intended by the speaker, and the processing in steps S205 to S207 is executed. Is done.
一方、第一認識結果が認識結果記憶部302に記憶されていた場合(ステップS210でYES)、音素出現確率合成部1203は、認識結果記憶部302に記憶されている第一認識結果に含まれる音素列の各音素の出現確率と、ステップS202により得られた第二発話の音素列の各音素の出現確率の和を取る(ステップS211)。
On the other hand, when the first recognition result is stored in the recognition result storage unit 302 (YES in step S210), the phoneme appearance
次に、文章推定部1202は、第一発話と第二発話との各音素の出現確率の和を乗算することで後述する合成出現確率を算出し、この合成出現確率に単語の出現確率を乗算することで、各単語列の信頼度を算出し、最大の信頼度を与える単語列を発話者が発話した一の単語列としてを認識する(ステップS212)。ステップS212の処理が終わると処理はステップS203へ遷移する。
Next, the
(実施の形態2の具体例)
次に実施の形態2の具体例について説明する。この具体例では、簡単のために、「リンゴです」及び「マンゴーです」の二つの単語列(文章)のみを推定できるモデルを用いて、文章を認識する音声認識装置100が説明される。
(Specific example of Embodiment 2)
Next, a specific example of the second embodiment will be described. In this specific example, for the sake of simplicity, the
音素推定部201が、発話に対する音素列として「ringodesu」と「mango:desu」とを推定したとする。この場合、各音素列の出現確率は、各音素列を構成する音素の出現確率同士の積として計算される。
It is assumed that the
図13は、実施の形態2の具体例において1−gramの言語モデルを採用した場合の探索空間の一例を示す図である。 FIG. 13 is a diagram illustrating an example of a search space when a 1-gram language model is adopted in the specific example of the second embodiment.
図13の探索空間において、1番目の音素「sil」は「silent」を略したものであり、無音区間示す。また、図13において、各アルファベットは音素を示し、各アルファベットの下に記載された数値は、各音素の出現確率である。この探索空間では、先頭及び最終のそれぞれに要素「sil」が配置されており、音素列「ringodesu」及び音素列「mango:desu」とが含まれている。具体的には、この探索空間は、先頭の要素「sil」から「ringo」及び「mango:」の2つの音素列に分岐し、再び音素列「desu」で合流し、最終の要素「sil」へと至っている。 In the search space of FIG. 13, the first phoneme “sil” is an abbreviation of “silent” and indicates a silent section. Moreover, in FIG. 13, each alphabet shows a phoneme, and the numerical value described under each alphabet is the appearance probability of each phoneme. In this search space, an element “sil” is arranged at the beginning and the end, respectively, and includes a phoneme string “ringodesu” and a phoneme string “mango: desu”. Specifically, the search space branches from the leading element “sil” into two phoneme strings “ringo” and “mango:”, merges again with the phoneme string “desu”, and the final element “sil”. Has led to
この場合、音素列「ringodesu」の出現確率は、0.7×0.5×0.5×・・・×0.9×0.9と算出され、音素列「mango:desu」の出現確率は、0.2×0.3×0.4×・・・×0.9×0.9と算出される。 In this case, the appearance probability of the phoneme sequence “ringodesu” is calculated as 0.7 × 0.5 × 0.5 ×... × 0.9 × 0.9, and the appearance probability of the phoneme sequence “mango: desu”. Is calculated as 0.2 × 0.3 × 0.4 ×... × 0.9 × 0.9.
ここで、単語辞書301には、「リンゴ」、「マンゴー」、及び「です」の3つの単語と、各単語の出現確率とが登録されていたとする。この場合、文章推定部1202は、各音素列に対してこれら3つの単語を割り当てることで、図13に示す探索空間を得る。各単語の右に示される数値は単語の出現確率を示す。
Here, it is assumed that three words “apple”, “mango”, and “is” and the appearance probability of each word are registered in the
一般に単語の出現確率はn−gramが用いられる。n−gramでは、単語の出現確率が直前の単語に依存すると仮定する。図13の例では1−gramが用いられている。1−gramは、直前の単語には依存しないため、単語単体の出現確率を利用する。この時、一単語目に「リンゴ」が発話される確率は0.6であり、一単語目に「マンゴー」が発話される確率は0.4である。また、「マンゴー」及び「リンゴ」に続いて「です」が発話される確率は1である。 Generally, n-gram is used as the word appearance probability. In n-gram, it is assumed that the word appearance probability depends on the immediately preceding word. In the example of FIG. 13, 1-gram is used. Since 1-gram does not depend on the immediately preceding word, the appearance probability of a single word is used. At this time, the probability that “apple” is uttered as the first word is 0.6, and the probability that “mango” is uttered as the first word is 0.4. Further, the probability that “I” is uttered after “mango” and “apple” is 1.
文章推定部1202は、先頭の要素「sil」から最終の「sil」までを繋ぐ全経路のそれぞれを音素列として抽出し、各音素列に単語辞書301に登録された単語のうち割り当て可能な単語を割り当て、複数の単語列を得る。図13の例では、音素列「ringo」に単語「リンゴ」が割り当てられ、音素列「mango:」に単語「マンゴー」が割り当てられ、音素列「desu」に単語「です」が割り当てられる。そのため、図13の例では、単語列「リンゴです」及び「マンゴーです」が得られる。
The
そして、単語列「リンゴです」の音素列「rigodesu」+「sil」の各音素の出現確率の乗算値「0.7×0.5×・・・0.9」に単語「リンゴ」の出現確率「0.6及び「です」の出現確率「1」が乗じられ、単語列「リンゴです」の信頼度が得られる。同様にして、単語列「マンゴーです」の信頼度が得られる。 Then, the appearance of the word “apple” in the multiplication value “0.7 × 0.5 ×... 0.9” of the appearance probabilities of each phoneme of the phoneme sequence “rigodesu” + “sil” of the word sequence “I am apple” The probability “0.6” and the appearance probability “1” of “is” are multiplied, and the reliability of the word string “is apple” is obtained. Similarly, the reliability of the word string “is mango” is obtained.
そして、単語列「リンゴです」及び「マンゴーです」のうち、最大の信頼度を持つ単語列が認識結果として推定される。図13の例では、単語列「リンゴです」の信頼度の方が単語列「マンゴーです」の信頼度よりも大きいため、単語列「リンゴです」が認識結果となる。 Of the word strings “I am apple” and “I am mango”, the word string having the maximum reliability is estimated as the recognition result. In the example of FIG. 13, since the reliability of the word string “I am an apple” is greater than the reliability of the word string “I am a mango”, the recognition result is the word string “I am an apple”.
2−gramの場合、単語の出現確率は、直前の単語のみに依存すると仮定する。つまり、「リンゴ」、「マンゴー」、及び「です」の三単語のみからなる2−gramの辞書は、図14に示すようになる。図14は、実施の形態2の具体例において2−gramの言語モデルを採用した場合の単語辞書301の一例を示す図である。「sil」も含めて、「リンゴ」、「マンゴー」、及び「です」の三単語から得られる2−gramの組み合わせは下記の通りである。すなわち、2−gramの組み合わせは、「sil」に対して「リンゴ」、「マンゴー」、及び「です」の3組と、「リンゴ」に対して「です」、「マンゴー」、及び「sil」の3組と、「マンゴー」に対して「です」、「リンゴ」、及び「sil」の3組と、「です」に対して「リンゴ」、「マンゴー」、及び「sil」の3組とが考えられ、合計3×4=12組の組み合わせが考えられる。そこで、図14に示す単語辞書301では、これら12組の2−gramの単語列が登録されている。
In the case of 2-gram, it is assumed that the word appearance probability depends only on the immediately preceding word. That is, a 2-gram dictionary consisting of only three words “apple”, “mango”, and “is” is as shown in FIG. FIG. 14 is a diagram illustrating an example of the
図14に示す単語辞書301を用いた2−gramの探索空間は図15のように表される。図15は、実施の形態2の具体例において2−gramの言語モデルを採用した場合の探索空間の一例を示す図である。なお、図15において音素列及び各音素の出現確率は図13と同じである。
A 2-gram search space using the
このとき、図14のような単語辞書301が記憶されている場合は、一単語目に「リンゴ」が出現する確率、すなわち、要素「sil」の次に「リンゴ」が出現する確率は、0.3である。また、一単語目に「マンゴー」が出現する確率、すなわち、要素「sil」の次に「マンゴー」が出現する確率は、0.2である。
At this time, when the
また、「リンゴ」の次に「です」が出現する確率は0.5であり、「マンゴー」の次に「です」が出現する確率は0.4である。更に、「です」の次に要素「sil」が出現する確率は0.6である。この場合、図15のグラフに示す各経路の音素列の出現確率と2−gramの単語列の出現確率との積が最大となる単語列が認識結果として採用される。すなわち、音素列「ringodesu」の各音素の出現確率と、「sil−リンゴ」、「リンゴ−です」、及び「です−sil」のそれぞれの出現確率(=0.3、0.5、及び0.6)との積が、単語列「リンゴです」の信頼度として算出される。同様にして、単語列「マンゴーです」の信頼度も算出される。そして、この例では、単語列「リンゴです」の信頼度の方が単語列「マンゴーです」の信頼度よりも高いため、最終的に単語列「リンゴです」が認識結果となる。これは、n−gramが3−gram以上の場合でも同様の処理となる。 The probability that “Is” will appear after “Apple” is 0.5, and the probability that “Is” will appear after “Mango” is 0.4. Further, the probability that the element “sil” appears after “is” is 0.6. In this case, the word string that maximizes the product of the appearance probability of the phoneme string of each path shown in the graph of FIG. 15 and the appearance probability of the 2-gram word string is adopted as the recognition result. That is, the appearance probability of each phoneme in the phoneme string “ringodesu” and the occurrence probabilities of “sil-apple”, “apple-is”, and “is-sil” (= 0.3, 0.5, and 0) .6) is calculated as the reliability of the word string “I am an apple”. Similarly, the reliability of the word string “is mango” is also calculated. In this example, since the reliability of the word string “I am an apple” is higher than the reliability of the word string “I am a mango”, the recognition result is finally the word string “I am an apple”. This is the same processing even when n-gram is 3-gram or more.
文章信頼度判定部1210は、文章推定部1202において推定された単語列の信頼度が閾値TH1以上であるか否かを判定する。音素出現確率合成部1203は、第一発話に対する第一認識結果の信頼度と第二発話に対する第二認識結果の信頼度とが共に閾値TH1未満である場合、第一発話における各音素の出現確率と第二発話における各音素の出現確率との和を乗算することで、合成出現確率を算出する。
The sentence
文章推定部1202は、音素出現確率合成部1203により算出された合成出現確率を用いて、単語列(文章)を認識する。
The
図16は、実施の形態2の具体例における第一認識結果の各音素と第二認識結果の各音素との出現確率が合成された場合の探索空間を示す図である。図16では、図15と同様、音素列「ringodesu」と音素列「mango:desu」との有向グラフが示されており、各音素について第一発話の出現確率と第二発話の出現確率とが示されている。また、図16の例では、1−gramの単語が割り当てられている。図16において、各音素の直ぐ下に記載された数値は第一発話の出現確率を示し、第一発話の直ぐ下に記載された数値は第二発話の出現確率を示している。 FIG. 16 is a diagram illustrating a search space when the appearance probabilities of each phoneme of the first recognition result and each phoneme of the second recognition result in the specific example of the second embodiment are combined. FIG. 16 shows a directed graph of the phoneme sequence “ringodesu” and the phoneme sequence “mango: desu”, as in FIG. 15, and the appearance probability of the first utterance and the appearance probability of the second utterance are shown for each phoneme. Has been. In the example of FIG. 16, a word of 1-gram is assigned. In FIG. 16, the numerical value described immediately below each phoneme indicates the appearance probability of the first utterance, and the numerical value described immediately below the first utterance indicates the appearance probability of the second utterance.
例えば、音素列「ringodesu」の第一発話における音素「r」の出現確率は、0.7であり、第二発話における音素「r」の出現確率は、0.3である。 For example, the appearance probability of the phoneme “r” in the first utterance of the phoneme string “ringodesu” is 0.7, and the appearance probability of the phoneme “r” in the second utterance is 0.3.
ここで、音素列「ringodesu」の合成出現確率は、(0.7+0.3)×(0.5+0.4)×・・・×(0.9+0.9)である。また、音素列「mango:desu」の合成出現確率は、(0.2+0.4)×(0.3+0.5)×・・・×(0.9+0.9)である。 Here, the combined appearance probability of the phoneme string “ringodesu” is (0.7 + 0.3) × (0.5 + 0.4) ×... × (0.9 + 0.9). The synthetic appearance probability of the phoneme string “mango: desu” is (0.2 + 0.4) × (0.3 + 0.5) ×... × (0.9 + 0.9).
この場合、文章推定部1202は、音素列「ringodesu」及び音素列「mango:desu」のそれぞれに対して、単語辞書301に登録された1−gramの単語列を割り当てていく。
In this case, the
そして、文章推定部1202は、音素出現確率合成部1203により算出された合成出現確率に、単語の出現確率を乗算することによって、各単語列の信頼度を算出する。そして、文章推定部1202は、最大の信頼度を持つ音素列を発話者が意図する一の単語列として認識する。
Then, the
図16において、単語列「リンゴです」の信頼度は、一単語目に「リンゴ」が出現する確率が0.6であり、「リンゴ」の次に「です」が出現する確率が1であるため、(0.7+0.3)×(0.5+0.4)×・・・×(0.9+0.9)×0.6×1と算出される。同様に、単語列「マンゴーです」の信頼度は、一単語目に「マンゴー」が出現する確率が0.4であり、「マンゴー」の次に「です」が出現確率が1であるため、0.2+0.4)×(0.3+0.5)×・・・×(0.9+0.9)×0.4×1と算出される。 In FIG. 16, the reliability of the word string “I am an apple” has a probability of “apple” appearing as the first word is 0.6, and the probability that “is” appears after “apple” is 1. Therefore, (0.7 + 0.3) × (0.5 + 0.4) ×... × (0.9 + 0.9) × 0.6 × 1 is calculated. Similarly, the reliability of the word string “is a mango” has a probability that “mango” appears in the first word is 0.4, and “is” next to “mango” has an appearance probability of 1. 0.2 + 0.4) × (0.3 + 0.5) ×... × (0.9 + 0.9) × 0.4 × 1.
そして、ここでは、単語列「リンゴです」の方が単語列「マンゴーです」よりも信頼度が高いため、単語列「リンゴです」が発話されたと認識される。 Here, since the word string “I am an apple” is more reliable than the word string “I am a mango”, it is recognized that the word string “I am an apple” is spoken.
このように、実施の形態2の音声認識装置100によれば、第一発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第二発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、両認識結果を合成することで一の単語列が認識されているので、一の単語列の認識精度を高めることができる。
As described above, according to the
なお、ステップS209にて、認識結果記憶部302に記憶される認識結果は直前の認識結果だけでなく、聞き返しによって得られた過去複数回の認識結果であってもよい。この場合、音素出現確率合成部1203は、ステップS211において、過去複数回の認識結果として得られた複数の音素列の各音素の出現確率と、最新の認識結果として得られた音素列の各音素の出現確率とを合成すればよい。
Note that in step S209, the recognition result stored in the recognition
(実施の形態3)
図17は、実施の形態3における音声対話システムの全体構成の一例を示す図である。図17において、図10との相違点は、音素出現確率合成部1203を省略し、共通候補抽出部270を追加した点にある。
(Embodiment 3)
FIG. 17 is a diagram illustrating an example of the overall configuration of the voice interaction system according to the third embodiment. 17, the difference from FIG. 10 is that the phoneme appearance
実施の形態3において、文章推定部1202は、実施の形態2と同様に単語列を推定するが、信頼度が最大の単語列を認識結果とするのではなく、信頼度が高い順に上位n個の単語列をそれぞれ認識候補として抽出し、上位n個の認識候補(n−best)を認識結果とする。n−bestとは、認識結果に含まれる複数の認識候補のうち、信頼度が高い順にn個の認識候補のことを指す。
In the third embodiment, the
共通候補抽出部270は、文章信頼度判定部1210により、第一認識結果における信頼度の最大値が閾値TH1未満且つ第二認識結果における信頼度の最大値が閾値TH1未満と判定された場合、第一発話の認識候補(n−best)と第二発話の認識候補(n−best)とを比較し、共通する認識候補を抽出し、抽出結果に基づいて最終的に認識する単語列を決定する。
The common
図18は、実施の形態3における認識処理の一例を説明するフローチャートである。ステップS300〜ステップS307の処理は、図12に示すステップS200〜ステップS207の処理と基本的に同じである。但し、ステップS303では、文章信頼度判定部1210は、文章推定部1202により推定された第一認識結果の信頼度の最大値が閾値TH1以上であるか否かを判定する。
FIG. 18 is a flowchart illustrating an example of recognition processing according to the third embodiment. The processing from step S300 to step S307 is basically the same as the processing from step S200 to step S207 shown in FIG. However, in step S303, the sentence
ステップS303において、第一認識結果の信頼度の最大値が閾値TH1以上である場合(ステップS303でYES)、当該最大値を持つ認識候補が発話者が意図した一の単語列として決定され、ステップS305〜ステップS307の処理が実行される。 In step S303, when the maximum value of the reliability of the first recognition result is equal to or greater than the threshold value TH1 (YES in step S303), a recognition candidate having the maximum value is determined as one word string intended by the speaker. The processing from S305 to step S307 is executed.
一方、ステップS303において、文章信頼度判定部1210は、第一認識結果における信頼度の最大値が閾値TH1未満である場合(ステップS303でNO)、認識結果記憶部302を参照し、第一認識結果が記憶されているか否かを判断する(ステップS310)。第一認識結果が記憶されていない場合(ステップS310でNO)、図19に示すように、文章信頼度判定部1210は、第一発話の認識結果に含まれる認識候補のうち、信頼度(音素毎の出現確率の積と単語毎の出現確率の積)が高い順にn個の認識候補をn−bestとして文章推定部1202から取得し、認識結果記憶部302に記憶する。ステップS308では、図10に示すステップS208と同様、音声認識装置100により聞き返しが行われる。この聞き返しにより、発話者により第二発話が行われ、ステップS300〜ステップS302の処理により、第一発話と同様、第二発話に対する第二認識結果が得られる。そして、第二認識結果の信頼度の最大値が閾値TH1未満であれば、ステップS303でNOと判定され処理がS310に進む。
On the other hand, in step S303, when the maximum reliability value in the first recognition result is less than the threshold value TH1 (NO in step S303), the sentence
一方、第二認識結果の信頼度の最大値が閾値TH1以上であれば(ステップS303でYES)、当該最大値を持つ認識候補が発話者が意図する一の単語列として決定され、ステップS305〜ステップS307の処理が実行される。 On the other hand, if the maximum value of the reliability of the second recognition result is equal to or greater than the threshold value TH1 (YES in step S303), a recognition candidate having the maximum value is determined as one word string intended by the speaker, and steps S305 to S305 are performed. The process of step S307 is executed.
一方、第一認識結果が認識結果記憶部302に記憶されていた場合(ステップS310でYES)、共通候補抽出部270は、第一認識結果のn−bestと、第二認識結果のn−bestとを比較する(ステップS311)。
On the other hand, when the first recognition result is stored in the recognition result storage unit 302 (YES in step S310), the common
次に、共通候補抽出部270は、比較した結果、共通の認識候補があるか否かを判断する(ステップS312)。共通する認識候補が存在する場合(ステップS312でYES)、共通候補抽出部270は、共通候補が複数存在するか否かを判定する(ステップS313)。共通する認識候補が複数存在する場合(ステップS313でYES)、共通候補抽出部270は、共通する複数の認識候補のそれぞれについて第一認識結果の信頼度と第二認識結果の信頼度との和を算出する。そして、共通候補抽出部270は、信頼度の和が最大の認識候補を最終的な認識結果として決定してもよいし、信頼度の和が高い順に複数の認識候補を最終的な認識結果として決定してもよい。ステップS313の処理が終了すると、処理はステップS304に遷移する。また、共通候補抽出部270は、信頼度の和が高い順に得られた複数の認識候補に対して、図4のステップS116で説明した発話確認を行い、発話者によって同意が得られた認識候補を最終的な認識結果として決定してもよい。
Next, the common
図19は、実施の形態3における第一認識結果の5−bestの一例を示す図である。図20は、実施の形態3における第二認識結果の5−bestの一例を示す図である。図19及び図20において、共通する認識候補は、「リンゴ食べたい」及び「インコ飛べた」である。この時、第一認識結果と第二認識結果との信頼度の和は、「リンゴ食べたい」が0.96(=0.54+0.42)、「インコ飛べた」が0.47(=0.20+0.27)である。この場合、信頼度の和が最大である「リンゴ食べたい」が最終的な認識結果として決定される。或いは、両方の認識候補が最終的な信頼度として決定されてもよい。 FIG. 19 is a diagram illustrating an example of 5-best of the first recognition result in the third embodiment. FIG. 20 is a diagram illustrating an example of 5-best of the second recognition result in the third embodiment. In FIG. 19 and FIG. 20, common recognition candidates are “I want to eat an apple” and “I can fly a parakeet”. At this time, the sum of the reliability of the first recognition result and the second recognition result is 0.96 (= 0.54 + 0.42) for “I want to eat an apple” and 0.47 (= 0 for “I can fly a parrot”) 20 + 0.27). In this case, “I want to eat an apple” having the maximum sum of reliability is determined as the final recognition result. Alternatively, both recognition candidates may be determined as final reliability.
一方、共通する認識候補が存在しなかった場合(ステップS312でNO)、処理はステップS309に遷移する。ステップS309では、共通候補抽出部270は、認識結果記憶部302に、第一認識結果に加えて更に第二認識結果を記憶させ、聞き返しの応答文の生成指示を応答生成部240に出力することで、発話者への更なる聞き返しを実施する(ステップS308)。これにより、第三認識結果が取得される。そして、第三認識結果の信頼度の最大値が閾値TH1未満であれば、第一、第二、及び第三認識結果が比較され、共通する認識候補が抽出される。この場合、第一、第二、及び第三認識結果のうち、少なくとも2つで共通する認識候補があれば、その認識候補が共通する認識結果として抽出される。
On the other hand, if there is no common recognition candidate (NO in step S312), the process transitions to step S309. In step S <b> 309, the common
このように、実施の形態3に係る音声認識装置100によれば、第一発話に対して信頼性の低い認識結果が得られたとしても、その認識結果を破棄せず、その認識結果を第二発話に対して信頼性の低い認識結果が得られた場合に利用する。そのため、聞き返しによって、信頼性の高い認識結果が得られなかったとしても、第一発話と第二発話との両方で認識された単語列が一の単語列が認識されているので、一の単語列の認識精度を高めることができる。
Thus, according to the
(ロボット)
音声認識装置100は図21に示すようなロボット500に実装されてもよい。図21は、実施の形態1〜3に係る音声認識装置100が実装されたロボット500の外観図である。ロボット500は、球帯状のメイン筐体501、第1球冠部502、及び第2球冠部503を備える。メイン筐体501、第1球冠部502、及び第2球冠部503は全体として球体を構成する。即ち、ロボット500は、球体形状を有する。また、ロボット500は、第2球冠部503にカメラ504を備え、第1球冠部502に距離センサ505、スピーカ410、及びマイク400を備える。
(robot)
The
カメラ504は、ロボット500の周辺環境の映像を取得する。また、距離センサ505は、ロボット500の周辺環境までの距離情報を取得する。尚、本態様において、ロボット500は、第2球冠部503にカメラ504を、第1球冠部502に距離センサ505、スピーカ410、及びマイク400を備えるが、これに限られるものではなく、第1球冠部502、及び第2球冠部503の少なくとも一方にカメラ504、距離センサ505、スピーカ410、及びマイク400を備えればよい。
The
第1球冠部502の中心と第2球冠部503の中心とはメイン筐体501の内部に設けられたシャフト(図略)によって固定接続されている。メイン筐体501はシャフトに対して回転自在に取り付けられている。また、シャフトにはフレーム(図略)及び表示部(図略)が取り付けられている。フレームにはメイン筐体501を回転させる第1モータ(図略)が取り付けられている。この第1モータ(図略)が回転することで、メイン筐体501は第1球冠部502及び第2球冠部503に対して回転し、ロボット500は前進又は後退する。第1モータ及びメイン筐体501は移動機構の一例である。なお、ロボット500が前進又は後退する場合、第1球冠部502及び第2球冠部503は停止状態にあるので、カメラ504、距離センサ505、マイク400、及びスピーカ410はロボット1の正面を向いた状態に維持される。また、表示部には、ロボット1の目及び口を示す画像を表示する。この表示部は、第2モータ(図略)による動力によってシャフトに対する角度が調整自在に取り付けられている。したがって、表示部のシャフトに対する角度を調整することで、ロボットの目及び口の方向が調整される。なお、表示部はメイン筐体501とは独立してシャフトに取り付けられているので、メイン筐体501が回転してもシャフトに対する角度は変化しない。したがって、ロボット500は、目及び口の向きを固定した状態で前進又は後退できる。
The center of the first
本開示は、音声の認識精度を向上させることができるため、例えば、発話が曖昧な幼児との対話を行うロボットの技術分野にとって有用である。 The present disclosure can improve the accuracy of speech recognition, and is useful, for example, in the technical field of robots that interact with an infant whose speech is ambiguous.
20 CPU
30 メモリ
100 音声認識装置
200 音声認識部
201 音素推定部
202 単語推定部
203 音素出現確率判定部
210 単語信頼度判定部
220 意図解釈部
230 行動選択部
240 応答生成部
250 音声合成部
260 発話抽出部
270 共通候補抽出部
301 単語辞書
302 認識結果記憶部
400 マイク
410 スピーカ
500 ロボット
1202 文章推定部
1203 音素出現確率合成部
1210 文章信頼度判定部
20 CPU
30
Claims (11)
一の単語を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話を構成する前記N個の音素ごとに、全種類の音素の出現確率を算出し、
前記第1発話を構成する第1音素から第N音素まで、各前記N個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第1発話に対応する第1音素列と認識し、
前記第1音素列を構成するN個の音素が有する出現確率どうしを掛け合わせることによって第1値を算出し、
前記第1値が第1閾値未満である場合は、前記発話者へ前記一の単語を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、前記第2発話はM個(Mは2以上の自然数)の音素から構成され、
前記第2発話を構成する前記M個の音素ごとに、全種類の音素について出現確率を算出し、
前記第2発話を構成する第1音素から第M音素まで、各前記M個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第2発話に対応する第2音素列と認識し、
前記第2音素列を構成するM個の音素が有する出現確率どうしを掛け合わせることによって第2値を算出し、
前記第2値が前記第1閾値未満である場合は、前記第1音素列において第2閾値以上の出現確率を有する音素と前記第2音素列において前記第2閾値以上の出現確率を有する音素を抽出し、
メモリに記憶された辞書から、前記抽出された音素を含む単語を抽出し、前記辞書は各単語と前記各単語に対応する音素列を対応付け、
前記抽出された単語が一つである場合は、前記抽出された単語を前記一の単語に対応すると認識する、
音声認識方法。 A speech recognition method,
A first utterance spoken by a speaker intended for a word is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
For each of the N phonemes constituting the first utterance, the appearance probabilities of all types of phonemes are calculated,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the N phonemes from the first phoneme constituting the first utterance to the Nth phoneme are arranged in order; a first phoneme string corresponding to the first utterance; Recognized,
A first value is calculated by multiplying appearance probabilities of N phonemes constituting the first phoneme string;
If the first value is less than a first threshold, let the speaker output a voice prompting the speaker to speak the one word again,
A second utterance re-spoken by the speaker with the intention of the one word is received via the microphone, and the second utterance is composed of M (M is a natural number of 2 or more) phonemes,
For each of the M phonemes constituting the second utterance, the appearance probability is calculated for all types of phonemes,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the M phonemes from the first phoneme constituting the second utterance to the Mth phoneme are arranged in order; a second phoneme string corresponding to the second utterance; Recognized,
A second value is calculated by multiplying the appearance probabilities of M phonemes constituting the second phoneme sequence;
When the second value is less than the first threshold, phonemes having an appearance probability equal to or higher than the second threshold in the first phoneme string and phonemes having an appearance probability equal to or higher than the second threshold in the second phoneme string Extract and
Extracting words including the extracted phonemes from a dictionary stored in a memory, the dictionary associates each word with a phoneme string corresponding to each word,
If the extracted word is one, the extracted word is recognized as corresponding to the one word;
Speech recognition method.
前記発話者から肯定又は否定の回答を前記マイクを介して受信し、
前記肯定の回答に対応する単語を、前記一の単語に対応すると認識する、
請求項1に記載の音声認識方法。 If there are a plurality of extracted words, the voice that asks the speaker whether the extracted words are spoken is output through the speaker.
Receiving a positive or negative answer from the speaker via the microphone;
Recognizing the word corresponding to the positive answer as corresponding to the one word;
The speech recognition method according to claim 1.
一の単語列を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される単語列の信頼度X1を算出し、
Tは、前記第1発話を構成するフレームの総数を示し、
PA1(ot,st|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態stに対応する音素列に遷移する確率を示し、
otは前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、
PL1(st,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態stに対応する単語列に遷移する確率を示し、
前記信頼度X1が閾値以上であるか判定し、
前記信頼度X1が前記閾値未満である場合は、前記発話者へ前記一の単語列を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、
前記第2発話の信頼度X1が前記閾値未満である場合は、前記第1発話と前記第2発話から推定される全ての単語列に対して合成信頼度Xを算出し、
Tは、前記第1発話および前記第2発話を構成するフレームの総数を示し、
PA1(ot,st|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態stに対応する音素列に遷移する確率を示し、
otは、前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は、全種類の音素を示し、
PA2(qt,st|st−1)は、前記第2発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態stに対応する音素列に遷移する確率を示し、
qtは前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
PL(st,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態stに対応する単語列に遷移する確率を示し、
前記合成信頼度Xのうち最大値を与える前記状態stに対応する単語列を、前記一の単語列として認識する、
音声認識方法。 A speech recognition method,
A first utterance uttered by a speaker with the intention of a single word string is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating the reliability X1 of the word string estimated for the first utterance;
T indicates the total number of frames constituting the first utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P L1 (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
Determining whether the reliability X1 is greater than or equal to a threshold;
If the reliability X1 is less than the threshold, a voice prompting the speaker to speak the one word string again is output through a speaker;
Receiving a second utterance re-uttered by the speaker with the intention of the one word string, via the microphone;
When the reliability X1 of the second utterance is less than the threshold value, the composite reliability X is calculated for all word strings estimated from the first utterance and the second utterance,
T represents the total number of frames constituting the first utterance and the second utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is a physical quantity obtained from the first utterance and used to estimate the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P A2 (q t , s t | s t−1 ) is the t th frame after the phoneme string corresponding to the state s t−1 from the first frame to the t−1 frame of the second utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
q t is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
A word string corresponding to the state s t giving the maximum value of the combined confidence X, recognized as the one word sequence,
Speech recognition method.
一の単語列を意図して発話者によって発話された第1発話を、マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される全ての単語列の信頼度X1を算出し、
T1は、前記第1発話を構成するフレームの総数を示し、
PA1(ot1,st1|st1−1)は、前記第1発話の1番フレームからt1−1番フレームまでの状態st1−1に対応する音素列の次に、t1番フレームで任意の音素が出現し、状態st1に対応する音素列に遷移する確率を示し、
ot1は前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、PL1(st1,st1−1)は、前記第1発話において前記状態st1−1に対応する単語列の次に、t1番フレームで任意の単語が出現し、前記状態st1に対応する単語列に遷移する確率を示し、
前記信頼度X1の最大値MaxX1が閾値以上であるか判定し、
前記最大値MaxX1が前記閾値未満である場合は、
前記信頼度X1の上位M個(Mは2以上の自然数)を与える前記第1発話に対して推定される第1単語列を抽出し、
前記発話者へ前記一の単語列を再度発話するように促す音声をスピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、マイクを介して受信し、
前記第2発話に対して推定される全ての単語列の信頼度X2を算出し、
T2は、前記第2発話を構成するフレームの総数を示し、
PA2(ot2,st2|st2−1)は、前記第2発話の1番フレームからt2−1番フレームまでの状態st2−1に対応する音素列の次に、t2番フレームで任意の音素が出現し、状態st2に対応する音素列に遷移する確率を示し、
ot2は前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
PL2(st2,st2−1)は、前記第2発話において前記状態st2−1に対応する単語列の次に、t2番フレームで任意の単語が出現し、前記状態st2に対応する単語列に遷移する確率を示し、
前記信頼度X2の最大値MaxX2が閾値以上であるか判定し、
前記最大値MaxX2が前記閾値未満である場合は、前記信頼度X2の前記上位M個を与える前記第2発話に対して推定される第2単語列を抽出し、
前記第1単語列と前記第2単語列とに共通する単語列がある場合は、前記共通する単語列を前記一の単語列として認識する、
音声認識方法。 A speech recognition method,
A first utterance uttered by a speaker with the intention of a single word string is received via a microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating reliability X1 of all word strings estimated for the first utterance;
T1 indicates the total number of frames constituting the first utterance,
P A1 (o t1 , s t1 | s t1-1 ) is the t1 frame after the phoneme sequence corresponding to the state s t1-1 from the first frame to the t1-1 frame of the first utterance. Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t1 ,
o t1 is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes indicate all types of phonemes, and P L1 (s t1 , s t1-1 ) is arbitrary in the frame t1 next to the word string corresponding to the state s t1-1 in the first utterance. And the probability of transition to a word string corresponding to the state s t1 ,
Determining whether the maximum value MaxX1 of the reliability X1 is equal to or greater than a threshold;
When the maximum value MaxX1 is less than the threshold value,
Extracting a first word string estimated for the first utterance giving the top M pieces of reliability X1 (M is a natural number of 2 or more);
Outputting a voice prompting the speaker to speak the one word string again through a speaker;
Receiving a second utterance re-spoken by the speaker with the intention of the one word string, via a microphone;
Calculating reliability X2 of all word strings estimated for the second utterance;
T2 indicates the total number of frames constituting the second utterance,
P A2 (o t2, s t2 | s t2-1) is the next phoneme string corresponding to the state s t2-1 to t2-1 numbered frame from 1 numbered frame of the second speech, at t2 numbered frame Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t2 ,
o t2 is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L2 (s t2 , s t2-1 ) corresponds to the state s t2 when an arbitrary word appears in the t2 frame after the word string corresponding to the state s t2-1 in the second utterance. The probability of transition to a word string
It is determined whether the maximum value MaxX2 of the reliability X2 is greater than or equal to a threshold value,
If the maximum value MaxX2 is less than the threshold, extract a second word string estimated for the second utterance that gives the top M pieces of the reliability X2,
If there is a word string common to the first word string and the second word string, the common word string is recognized as the one word string;
Speech recognition method.
前記プロセッサは、
一の単語を意図して発話者によって発話された第1発話を、前記マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話を構成する前記N個の音素ごとに、全種類の音素の出現確率を算出し、
前記第1発話を構成する第1音素から第N音素まで、各前記N個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第1発話に対応する第1音素列と認識し、
前記第1音素列を構成するN個の音素が有する出現確率どうしを掛け合わせることによって第1値を算出し、
前記第1値が第1閾値未満である場合は、前記発話者へ前記一の単語を再度発話するように促す音声を前記スピーカを通して出力させ、
前記一の単語を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、前記第2発話はM個(Mは2以上の自然数)の音素から構成され、
前記第2発話を構成する前記M個の音素ごとに、全種類の音素について出現確率を算出し、
前記第2発話を構成する第1音素から第M音素まで、各前記M個の音素に対応する最大出現確率を有する音素を順に並べた音素列を前記第2発話に対応する第2音素列と認識し、
前記第2音素列を構成するM個の音素が有する出現確率どうしを掛け合わせることによって第2値を算出し、
前記第2値が前記第1閾値未満である場合は、前記第1音素列において第2閾値以上の出現確率を有する音素と前記第2音素列において前記第2閾値以上の出現確率を有する音素を抽出し、
前記メモリに記憶された辞書から、前記抽出された音素を含む単語を抽出し、前記辞書は各単語と前記各単語に対応する音素列を対応付け、
前記抽出された単語が一つである場合は、前記抽出された単語を前記一の単語に対応すると認識する、
音声認識装置。 A speech recognition device comprising a processor, a memory, a microphone, and a speaker,
The processor is
Receiving a first utterance spoken by a speaker with the intention of a word via the microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
For each of the N phonemes constituting the first utterance, the appearance probabilities of all types of phonemes are calculated,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the N phonemes from the first phoneme constituting the first utterance to the Nth phoneme are arranged in order; a first phoneme string corresponding to the first utterance; Recognized,
A first value is calculated by multiplying appearance probabilities of N phonemes constituting the first phoneme string;
If the first value is less than a first threshold, the speaker is prompted to output a voice prompting the speaker to speak the one word again,
A second utterance re-spoken by the speaker with the intention of the one word is received via the microphone, and the second utterance is composed of M (M is a natural number of 2 or more) phonemes,
For each of the M phonemes constituting the second utterance, the appearance probability is calculated for all types of phonemes,
A phoneme string in which phonemes having the maximum appearance probability corresponding to each of the M phonemes from the first phoneme constituting the second utterance to the Mth phoneme are arranged in order; a second phoneme string corresponding to the second utterance; Recognized,
A second value is calculated by multiplying the appearance probabilities of M phonemes constituting the second phoneme sequence;
When the second value is less than the first threshold, phonemes having an appearance probability equal to or higher than the second threshold in the first phoneme string and phonemes having an appearance probability equal to or higher than the second threshold in the second phoneme string Extract and
Extracting words including the extracted phonemes from the dictionary stored in the memory, the dictionary associates each word with a phoneme string corresponding to each word,
If the extracted word is one, the extracted word is recognized as corresponding to the one word;
Voice recognition device.
前記音声認識装置を内蔵する筐体と、
前記筐体を移動させる移動機構と、
を備えるロボット。 A voice recognition device according to claim 6;
A housing containing the voice recognition device;
A moving mechanism for moving the housing;
Robot equipped with.
前記プロセッサは、
一の単語列を意図して発話者によって発話された第1発話を、前記マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される単語列の信頼度X1を算出し、
Tは、前記第1発話を構成するフレームの総数を示し、
PA1(ot,st|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態stに対応する音素列に遷移する確率を示し、
otは前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、
PL1(st,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態stに対応する単語列に遷移する確率を示し、
前記信頼度X1が閾値以上であるか判定し、
前記信頼度X1が前記閾値未満である場合は、前記発話者へ前記一の単語列を再度発話するように促す音声を前記スピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、
前記第2発話の信頼度X1が前記閾値未満である場合は、前記第1発話と前記第2発話から推定される全ての単語列に対して合成信頼度Xを算出し、
Tは、前記第1発話および前記第2発話を構成するフレームの総数を示し、
PA1(ot,st|st−1)は、前記第1発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態stに対応する音素列に遷移する確率を示し、
otは、前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は、全種類の音素を示し、
PA2(qt,st|st−1)は、前記第2発話の1番フレームからt−1番フレームまでの状態st−1に対応する音素列の次に、t番フレームで任意の音素が出現し、状態stに対応する音素列に遷移する確率を示し、
qtは前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
PL(st,st−1)は、前記第1発話において前記状態st−1に対応する単語列の次に、t番フレームで任意の単語が出現し、前記状態stに対応する単語列に遷移する確率を示し、
前記合成信頼度Xのうち最大値を与える前記状態stに対応する単語列を、前記一の単語列として認識する、
音声認識装置。 A speech recognition device comprising a processor, a microphone, and a speaker,
The processor is
Receiving a first utterance uttered by a speaker with the intention of one word string via the microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating the reliability X1 of the word string estimated for the first utterance;
T indicates the total number of frames constituting the first utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P L1 (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
Determining whether the reliability X1 is greater than or equal to a threshold;
If the reliability X1 is less than the threshold, a voice prompting the speaker to speak the one word string again is output through the speaker.
Receiving a second utterance re-uttered by the speaker with the intention of the one word string, via the microphone;
When the reliability X1 of the second utterance is less than the threshold value, the composite reliability X is calculated for all word strings estimated from the first utterance and the second utterance,
T represents the total number of frames constituting the first utterance and the second utterance,
P A1 (o t , s t | s t-1 ) is the t-th frame after the phoneme string corresponding to the state s t-1 from the first frame to the t-1 frame of the first utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
o t is a physical quantity obtained from the first utterance and used to estimate the arbitrary phoneme;
The arbitrary phonemes represent all types of phonemes,
P A2 (q t , s t | s t−1 ) is the t th frame after the phoneme string corresponding to the state s t−1 from the first frame to the t−1 frame of the second utterance. any phoneme appeared, indicates the probability of transition to the phoneme string corresponding to the state s t,
q t is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L (s t, s t -1) is the next word string corresponding to the state s t-1 in the first utterance, any word is found at t-th frame, corresponding to the state s t The probability of transition to a word string
A word string corresponding to the state s t giving the maximum value of the combined confidence X, recognized as the one word sequence,
Voice recognition device.
前記音声認識装置を内蔵する筐体と、
前記筐体を移動させる移動機構と、
を備えるロボット。 A voice recognition device according to claim 8;
A housing containing the voice recognition device;
A moving mechanism for moving the housing;
Robot equipped with.
前記プロセッサは、
一の単語列を意図して発話者によって発話された第1発話を、前記マイクを介して受信し、
前記第1発話はN個(Nは2以上の自然数)の音素から構成され、
前記第1発話に対して推定される全ての単語列の信頼度X1を算出し、
T1は、前記第1発話を構成するフレームの総数を示し、
PA1(ot1,st1|st1−1)は、前記第1発話の1番フレームからt1−1番フレームまでの状態st1−1に対応する音素列の次に、t1番フレームで任意の音素が出現し、状態st1に対応する音素列に遷移する確率を示し、
ot1は前記第1発話から得られ、前記任意の音素を推定するための物理量を示し、
前記任意の音素は全種類の音素を示し、PL1(st1,st1−1)は、前記第1発話において前記状態st1−1に対応する単語列の次に、t1番フレームで任意の単語が出現し、前記状態st1に対応する単語列に遷移する確率を示し、
前記X1の最大値MaxX1が閾値以上であるか判定し、
前記最大値MaxX1が前記閾値未満である場合は、
前記信頼度X1の上位M個(Mは2以上の自然数)を与える前記第1発話に対して推定される第1単語列を抽出し、
前記発話者へ前記一の単語列を再度発話するように促す音声を前記スピーカを通して出力させ、
前記一の単語列を意図して前記発話者によって再度発話された第2発話を、前記マイクを介して受信し、
前記第2発話に対して推定される全ての単語列の信頼度X2を算出し、
T2は、前記第2発話を構成するフレームの総数を示し、
PA2(ot2,st2|st2−1)は、前記第2発話の1番フレームからt2−1番フレームまでの状態st2−1に対応する音素列の次に、t2番フレームで任意の音素が出現し、状態st2に対応する音素列に遷移する確率を示し、
ot2は前記第2発話から得られ、前記任意の音素を推定するための物理量を示し、
PL2(st2,st2−1)は、前記第2発話において前記状態st2−1に対応する単語列の次に、t2番フレームで任意の単語が出現し、前記状態st2に対応する単語列に遷移する確率を示し、
前記信頼度X2の最大値MaxX2が閾値以上であるか判定し、
前記最大値MaxX2が前記閾値未満である場合は、前記信頼度X2の前記上位M個を与える前記第2発話に対して推定される第2単語列を抽出し、
前記第1単語列と前記第2単語列とに共通する単語列がある場合は、前記共通する単語列を前記一の単語列として認識する、
音声認識装置。 A speech recognition device comprising a processor, a microphone, and a speaker,
The processor is
Receiving a first utterance uttered by a speaker with the intention of one word string via the microphone;
The first utterance is composed of N phonemes (N is a natural number of 2 or more),
Calculating reliability X1 of all word strings estimated for the first utterance;
T1 indicates the total number of frames constituting the first utterance,
P A1 (o t1 , s t1 | s t1-1 ) is the t1 frame after the phoneme sequence corresponding to the state s t1-1 from the first frame to the t1-1 frame of the first utterance. Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t1 ,
o t1 is obtained from the first utterance and indicates a physical quantity for estimating the arbitrary phoneme;
The arbitrary phonemes indicate all types of phonemes, and P L1 (s t1 , s t1-1 ) is arbitrary in the frame t1 next to the word string corresponding to the state s t1-1 in the first utterance. And the probability of transition to a word string corresponding to the state s t1 ,
Determining whether the maximum value MaxX1 of X1 is equal to or greater than a threshold;
When the maximum value MaxX1 is less than the threshold value,
Extracting a first word string estimated for the first utterance giving the top M pieces of reliability X1 (M is a natural number of 2 or more);
A voice prompting the speaker to speak the one word string again is output through the speaker;
Receiving a second utterance re-uttered by the speaker with the intention of the one word string, via the microphone;
Calculating reliability X2 of all word strings estimated for the second utterance;
T2 indicates the total number of frames constituting the second utterance,
P A2 (o t2, s t2 | s t2-1) is the next phoneme string corresponding to the state s t2-1 to t2-1 numbered frame from 1 numbered frame of the second speech, at t2 numbered frame Indicates the probability that an arbitrary phoneme appears and transitions to a phoneme string corresponding to the state s t2 ,
o t2 is obtained from the second utterance and indicates a physical quantity for estimating the arbitrary phoneme;
P L2 (s t2 , s t2-1 ) corresponds to the state s t2 when an arbitrary word appears in the t2 frame after the word string corresponding to the state s t2-1 in the second utterance. The probability of transition to a word string
It is determined whether the maximum value MaxX2 of the reliability X2 is greater than or equal to a threshold value,
If the maximum value MaxX2 is less than the threshold, extract a second word string estimated for the second utterance that gives the top M pieces of the reliability X2,
If there is a word string common to the first word string and the second word string, the common word string is recognized as the one word string;
Voice recognition device.
前記音声認識装置を内蔵する筐体と、
前記筐体を移動させる移動機構と、
を備えるロボット。
A speech recognition device according to claim 10;
A housing containing the voice recognition device;
A moving mechanism for moving the housing;
Robot equipped with.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810674290.6A CN109215631A (en) | 2017-07-05 | 2018-06-27 | Audio recognition method, program, speech recognition equipment and robot |
US16/019,701 US10650802B2 (en) | 2017-07-05 | 2018-06-27 | Voice recognition method, recording medium, voice recognition device, and robot |
EP18181408.8A EP3425628A1 (en) | 2017-07-05 | 2018-07-03 | Voice recognition method, recording medium, voice recognition device, and robot |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017131762 | 2017-07-05 | ||
JP2017131762 | 2017-07-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019015950A true JP2019015950A (en) | 2019-01-31 |
Family
ID=65358498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018038717A Ceased JP2019015950A (en) | 2017-07-05 | 2018-03-05 | Voice recognition method, program, voice recognition device, and robot |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019015950A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090735A (en) * | 2019-12-25 | 2020-05-01 | 成都航天科工大数据研究院有限公司 | Intelligent question-answering method based on knowledge graph and performance evaluation method thereof |
US11557286B2 (en) | 2019-08-05 | 2023-01-17 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01161299A (en) * | 1987-12-17 | 1989-06-23 | Sanyo Electric Co Ltd | Voice recognition system |
JPH0432900A (en) * | 1990-05-29 | 1992-02-04 | Ricoh Co Ltd | Sound recognizing device |
JP2008040075A (en) * | 2006-08-04 | 2008-02-21 | Toyota Motor Corp | Robot apparatus and control method of robot apparatus |
US20080059167A1 (en) * | 2006-08-12 | 2008-03-06 | International Business Machines Corporation | Speech Recognition System |
US9123339B1 (en) * | 2010-11-23 | 2015-09-01 | Google Inc. | Speech recognition using repeated utterances |
-
2018
- 2018-03-05 JP JP2018038717A patent/JP2019015950A/en not_active Ceased
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01161299A (en) * | 1987-12-17 | 1989-06-23 | Sanyo Electric Co Ltd | Voice recognition system |
JPH0432900A (en) * | 1990-05-29 | 1992-02-04 | Ricoh Co Ltd | Sound recognizing device |
JP2008040075A (en) * | 2006-08-04 | 2008-02-21 | Toyota Motor Corp | Robot apparatus and control method of robot apparatus |
US20080059167A1 (en) * | 2006-08-12 | 2008-03-06 | International Business Machines Corporation | Speech Recognition System |
US9123339B1 (en) * | 2010-11-23 | 2015-09-01 | Google Inc. | Speech recognition using repeated utterances |
Non-Patent Citations (1)
Title |
---|
堀貴明,塚田元: "特集 音声情報処理技術の最先端 重み付き有限状態トランスデューサによる音声認識", 情報処理, vol. 第45巻,第10号, JPN6021049011, October 2004 (2004-10-01), pages 1020 - 1026, ISSN: 0004661408 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11557286B2 (en) | 2019-08-05 | 2023-01-17 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
US11955119B2 (en) | 2019-08-05 | 2024-04-09 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
CN111090735A (en) * | 2019-12-25 | 2020-05-01 | 成都航天科工大数据研究院有限公司 | Intelligent question-answering method based on knowledge graph and performance evaluation method thereof |
CN111090735B (en) * | 2019-12-25 | 2023-03-10 | 成都航天科工大数据研究院有限公司 | Performance evaluation method of intelligent question-answering method based on knowledge graph |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
JP6574169B2 (en) | Speech recognition with multi-directional decoding | |
US11875820B1 (en) | Context driven device arbitration | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
US9318103B2 (en) | System and method for recognizing a user voice command in noisy environment | |
JP4195428B2 (en) | Speech recognition using multiple speech features | |
JP3282075B2 (en) | Apparatus and method for automatically generating punctuation in continuous speech recognition | |
JP2020086437A (en) | Voice recognition method and voice recognition device | |
JP2018120212A (en) | Method and apparatus for voice recognition | |
JP5951161B2 (en) | Speech recognition apparatus and speech recognition method | |
US7272561B2 (en) | Speech recognition device and speech recognition method | |
CN109155132A (en) | Speaker verification method and system | |
KR102628211B1 (en) | Electronic apparatus and thereof control method | |
WO2018078885A1 (en) | Interactive device, interactive method, and interactive computer program | |
JP5385876B2 (en) | Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium | |
US10143027B1 (en) | Device selection for routing of communications | |
JP2019015950A (en) | Voice recognition method, program, voice recognition device, and robot | |
US11693622B1 (en) | Context configurable keywords | |
JP6468258B2 (en) | Voice dialogue apparatus and voice dialogue method | |
CN112133285A (en) | Voice recognition method, voice recognition device, storage medium and electronic equipment | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
US11563708B1 (en) | Message grouping | |
US11172527B2 (en) | Routing of communications to a device | |
US11328713B1 (en) | On-device contextual understanding | |
WO2020208972A1 (en) | Response generation device and response generation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20200605 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210301 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220517 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20220927 |