JP2006209077A - Voice interactive device and method - Google Patents
Voice interactive device and method Download PDFInfo
- Publication number
- JP2006209077A JP2006209077A JP2005260406A JP2005260406A JP2006209077A JP 2006209077 A JP2006209077 A JP 2006209077A JP 2005260406 A JP2005260406 A JP 2005260406A JP 2005260406 A JP2005260406 A JP 2005260406A JP 2006209077 A JP2006209077 A JP 2006209077A
- Authority
- JP
- Japan
- Prior art keywords
- word
- voice
- ending
- shiritori
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、発話者の発話した単語を音声認識して、発話者としりとりをする音声対話装置、および方法に関する。 The present invention relates to a speech dialogue apparatus and method for recognizing a word spoken by a speaker and recognizing it as a speaker.
次のようなしりとりゲーム機が特許文献1によって知られている。このしりとりゲーム機では、発話者の発話した単語を単語記憶手段に記憶した単語と照合することで音声認識した後に、音声認識した単語の語頭と語尾の文字を抽出する。そして、音声認識した語尾で始まり、語尾が「ん」でない単語を単語記憶手段から読み込んで音声出力する。
The following shiritori game machine is known from
しかしながら、従来のしりとりゲーム機では、発話者の発話した単語を音声認識した後に単語の語頭と語尾を抽出するため、一度単語全体を音声認識する必要が生じ、単語記憶手段に記憶した単語数が多くなるにしたがって音声認識に要する時間が増大し、また誤認識率が高くなるという問題が生じていた。 However, in the conventional shiritori game machine, since the beginning and ending of the word are extracted after speech recognition of the word spoken by the speaker, it is necessary to recognize the entire word once, and the number of words stored in the word storage means is As the number of times increases, the time required for speech recognition increases, and the problem of an increased recognition rate has arisen.
本発明は、発話者としりとりを行う音声対話装置および方法であって、音声入力手段を介して入力された単語から語頭および語尾を抽出して音声認識し、音声認識した単語の語頭および語尾に基づいて、入力された単語がしりとりのルールに則って発話されたものであるか否かを判定し、入力された単語がしりとりのルールに則って発話されたものであると判定した場合には、音声認識した単語の語尾と同一文字から始まる応答用単語を抽出して音声出力することを特徴とする。 The present invention relates to a spoken dialogue apparatus and method for performing conversation with a speaker, extracting a word head and a word ending from a word input via a voice input means, performing voice recognition, and applying the word recognition to the word head and word ending. If it is determined that the input word is uttered according to Shiritori rules, and the input word is uttered according to Shiritori rules, The response word starting from the same character as the end of the speech-recognized word is extracted and output as speech.
本発明によれば、入力された単語の語頭および語尾を音声認識するようにした。これによって、しりとりにおいてルール判定で用いられるのは単語の語頭および語尾であることを加味して、当該ポイントとなる部分のみを音声認識することで、処理速度を向上し、誤認識率を低下することができる。 According to the present invention, the beginning and ending of the input word are recognized by voice. As a result, taking into account that the beginning and end of a word are used for rule determination in shiritori, the processing speed is improved and the misrecognition rate is reduced by recognizing only the part that becomes the point. be able to.
―第1の実施の形態―
図1は、第1の実施の形態における音声対話装置の一実施の形態の構成を示すブロック図である。音声対話装置100は、発話者が発話した単語を入力するマイク101と、音声入力の開始、すなわちしりとりの開始を指示するための音声入力操作スイッチ102と、マイク101を介して入力された単語の語頭、および語尾を認識するために「あ」〜「ん」の50音全ての音節を待ち受け用音節として格納する認識用音節辞書103と、しりとり用の応答用単語を格納する応答用単語データベース104と、発話者に対して応答用単語を音声出力するためのスピーカー105と、入力された単語の語頭語尾の認識、および応答単語の決定などの各種処理を実行する制御装置106と、過去のしりとり履歴、すなわち発話者が発話した単語、および音声対話装置100が発話者に応答した応答単語の音声データの履歴を記憶するための履歴メモリ107とを備えている。
-First embodiment-
FIG. 1 is a block diagram showing a configuration of an embodiment of a voice interaction apparatus according to the first embodiment. The voice
制御装置106は、マイク101を介して単語の音声データが入力されると、まず入力された単語の語頭および語尾を抽出する。すなわち、図2に示すように入力された音声データから語頭に相当する部分2a、および語尾に相当する部分2bを抽出する。そして、抽出した語頭および語尾の音声データと、認識用音節辞書103に格納された待ち受け用音節とを照合処理して、各待ち受け用音節における語頭および語尾の認識尤度、すなわち確からしさを算出する。そして、語頭および語尾のそれぞれに対して、認識尤度が最大となる待ち受け用音節を抽出して、それぞれを語頭および語尾の認識結果候補とする。
When the voice data of a word is input via the
なお、第1の実施の形態において、認識尤度は、例えば0〜1の数値で表され、抽出した語頭または語尾と待ち受け用音節とが全く一致しない場合には0、完全に一致した場合には1が算出される。すなわち、語頭および語尾と待ち受け用音節との一致度が高いほど、認識尤度は大きくなるものとする。例えば、発話者によって「りんご」と発話され、音声入力された場合には、図3に示すように、語頭の認識結果候補が「り」となり、語尾の認識結果候補が「ご」となる。また、そのときの認識尤度として、それぞれ(A)、例えば0.7、および(B)、例えば0.8が算出されたものとする。この場合、算出された語頭および語尾の認識尤度の大きさに基づいて、発話者への応答内容を変化させる。 In the first embodiment, the recognition likelihood is represented by a numerical value of 0 to 1, for example, 0 when the extracted head or ending and the standby syllable do not match at all. 1 is calculated. That is, it is assumed that the recognition likelihood increases as the coincidence between the beginning and ending and the standby syllable increases. For example, when an “apple” is uttered by a speaker and a voice is input, as shown in FIG. 3, the recognition result candidate at the beginning is “ri” and the recognition result candidate at the ending is “go”. It is assumed that (A), for example, 0.7, and (B), for example, 0.8 are calculated as the recognition likelihood at that time. In this case, the response content to the speaker is changed based on the calculated recognition likelihood of the beginning and ending.
すなわち、語頭の認識尤度、および語尾の認識尤度がそれぞれあらかじめ設定した所定値より大きいか否かを判断する。ここで所定値は、認識尤度が当該所定値より大きければ、語頭および語尾と待ち受け用音節との一致度が十分に高く、音声認識結果として採用することができるような値が設定されている。そして、語頭および語尾の認識尤度と、この所定値との比較結果を、図4に示すパターン1〜パターン4の4つのパターンに分類し、次の(1)〜(4)に示すように、各パターンごとに発話者への応答内容を変化させる。
That is, it is determined whether the recognition likelihood of the beginning and the recognition likelihood of the ending are each greater than a predetermined value set in advance. Here, the predetermined value is set such that if the likelihood of recognition is greater than the predetermined value, the degree of coincidence between the beginning and ending and the standby syllable is sufficiently high and can be adopted as a speech recognition result. . Then, the comparison result between the recognition likelihood of the beginning and the end of the word and this predetermined value is classified into four
(1)パターン1:語頭および語尾の認識尤度が共に所定値より大きい場合
この場合には、語尾の認識尤度が所定値より大きいことから、発話者が発話した単語の語尾を特定することができる。よって、この語尾と同一文字から始まる応答単語を出力することが可能となる。しかし、発話者によって発話された単語が、一般的なしりとりのルールに則ってされたものであるか否かを判定する必要があることから、以下のように処理する。なお、一般的なしりとりのルールとしては、「発話された単語の語尾が「ん」でないか」、「発話された単語の語頭が直前の応答単語の語尾と同一文字で始まるか」、および「過去に出現した単語を繰り返し発話していないか」について判定する。
(1) Pattern 1: When the recognition likelihood of the beginning and the ending is both larger than a predetermined value In this case, the ending of the word spoken by the speaker is specified because the recognition likelihood of the ending is larger than the predetermined value. Can do. Therefore, it is possible to output a response word starting from the same character as this ending. However, since it is necessary to determine whether the word uttered by the speaker is in accordance with the general rules of shiritori, the following processing is performed. In addition, as a general rule of shiritori, “the ending of the spoken word is not“ n ””, “whether the beginning of the spoken word begins with the same character as the ending of the previous response word”, and “ Whether or not a word that appeared in the past has been uttered repeatedly is determined.
このために、まず、音声認識の結果特定できた語尾が「ん」でないかを判定する。また、語頭の認識結果候補が履歴メモリ107に格納されている直前に音声対話装置100が応答した応答単語の語尾と一致しているかを判定する。ここまでのルール判定(第1のルール判定)結果に基づいて、発話者によって発話された単語がしりとりルールに則っていないと判断した場合には、発話者に対して「もう一度お話ください」のような単語の再発話を促す応答メッセージをスピーカー105を介して出力する。
For this purpose, first, it is determined whether or not the ending that can be identified as a result of speech recognition is “n”. In addition, it is determined whether or not the recognition result candidate for the beginning of the word matches the ending of the response word responded by the spoken
一方、ここまでの第1のルール判定の結果に関しては、発話者によって発話された単語がしりとりルールに則ったものであると判断した場合には、さらに第2のルール判定を実行して「過去に出現した単語を繰り返し発話していないか」について判定する。第1の実施の形態では、上述したように発話された単語の語頭および語尾のみを抽出して音声認識することから、単語の語頭および語尾のみを用いて第2のルール判定を行う。このために履歴メモリ107に格納されたしりとり履歴に含まれる過去に出現した全単語、すなわち発話者が発話済みの単語と音声対話装置100が出力済みの応答単語における語頭と語尾との対の中に、発話者が発話した単語から抽出した語頭と語尾との対と一致するものが所定数以上存在するか否かを判断する。
On the other hand, regarding the result of the first rule determination so far, when it is determined that the word uttered by the speaker is in accordance with the shiritori rule, the second rule determination is further executed and “past It is determined whether or not the word that appears in is repeatedly uttered. In the first embodiment, as described above, only the beginning and ending of the uttered word are extracted and speech recognition is performed, so the second rule determination is performed using only the beginning and ending of the word. For this reason, among all the words that have appeared in the past included in the shiritori history stored in the
履歴メモリ107に格納された過去に出現した全単語の語頭と語尾との対の中に、発話者が今回発話した単語の語頭と語尾との対と一致するものが所定数以上存在すると判断した場合には、発話者は既に出現済みの単語を繰り返し発話したと判定する。そして、発話者に対して「その単語は既に発話済みです。他の単語を発話してください」のような単語の再発話を促す応答メッセージをスピーカー105を介して出力する。
It has been determined that there are more than a predetermined number of pairs of word prefixes and endings of all the words that have appeared in the past stored in the
これに対して、履歴メモリ107に格納された過去に出現した全単語の語頭と語尾との対の中に、発話者が今回発話した単語の語頭と語尾との対と一致するものが所定数以上存在しないと判断した場合には、発話者によって発話された単語を受け付け、認識した語尾から始まり、履歴メモリ107内に存在しない任意の応答用単語を応答用単語データベース104から抽出して、スピーカー105を介して出力する。このとき、応答用単語データベース104内に該当する応答用単語が存在しない場合には、発話者の勝利となる。
In contrast, a predetermined number of pairs of beginning and ending words of all the words that have appeared in the past stored in the
なお、このような出現済み単語の判定方法においては、実際には発話者は未出現の単語を発話したにも関わらず、語頭と語尾の組み合わせが同一の単語が過去に所定回数以上出現していればルールに則った単語でないと判定され、逆に同じ単語を繰り返し発話したにも関わらず、語頭と語尾の組み合わせが同一の単語の出現回数が所定回数未満であればルールに則った単語であると判定される可能性がある。しかし、第1の実施の形態では、発話された単語の語頭および語尾のみを抽出して音声認識することから、単語の語頭および語尾の組み合わせのみを考慮して画一的にルール判定を行うものとする。 It should be noted that in such a method for determining an already-occurring word, a word having the same combination of beginning and ending has appeared more than a predetermined number of times in the past, even though the speaker actually uttered a word that has not yet appeared. If the number of occurrences of the word with the same combination of beginning and end is less than the predetermined number of times, it is determined that the word does not comply with the rule. It may be determined that there is. However, in the first embodiment, since only the beginning and ending of the spoken word are extracted and speech recognition is performed, the rule determination is performed uniformly considering only the combination of the beginning and ending of the word. And
(2)パターン2:語頭の認識尤度が所定値以下で、語尾の認識尤度が所定値より大きい場合
この場合にも、語尾の認識尤度が所定値より大きいことから、発話者が発話した単語の語尾を特定することができる。このため、上述したパターン1と同様の処理を行う。
(2) Pattern 2: When the recognition likelihood of the beginning is less than a predetermined value and the recognition likelihood of the ending is larger than the predetermined value In this case, since the recognition likelihood of the ending is larger than the predetermined value, the speaker speaks The ending of the word can be specified. For this reason, the same processing as that of the
(3)パターン3:語頭の認識尤度が所定値より大きく、語尾の認識尤度が所定値以下の場合
この場合には、語尾の認識尤度が所定値以下であることから発話者が発話した単語の語尾を特定することができず、発話者に対して出力する応答用単語を決定することができない。したがって、発話者に対して「もう一度お話ください」のような単語の再発話を促す応答メッセージをスピーカー105を介して出力する。
(3) Pattern 3: When the recognition likelihood of the beginning is larger than a predetermined value and the recognition likelihood of the ending is less than or equal to a predetermined value In this case, since the recognition likelihood of the ending is less than or equal to a predetermined value, the speaker speaks It is impossible to specify the ending of the selected word and to determine the response word to be output to the speaker. Therefore, a response message that prompts the speaker to re-speak a word such as “Please speak again” is output via the
(4)パターン4:語頭および語尾の認識尤度が共に所定値以下の場合
この場合には、語頭および語尾の両方が正常に音声認識できないことから、発話者は、音声対話装置100が直前に出力した応答単語を正しく理解しておらず、はっきりと発話していない可能性がある。したがって、直前の応答単語を再度発話者に提示して再発話を促すための応答メッセージをスピーカー105を介して出力する。例えば、履歴メモリ107に格納された直前の応答単語をが「パパイヤ」である場合には、「パパイヤの“や”で考えてください」のような応答メッセージを出力する。
(4) Pattern 4: When the recognition likelihood of the beginning and the ending is both equal to or less than the predetermined value In this case, since both the beginning and the ending cannot be normally recognized, the speaker can immediately The output response word may not be understood correctly and may not be spoken clearly. Therefore, a response message for prompting the re-speaking by presenting the immediately previous response word to the speaker again is output via the
図5は、第1の実施の形態における音声対話装置100の処理を示すフローチャートである。図5に示す処理は音声対話装置100の電源がオンされると、制御装置106によって実行される。ステップS10において、発話者によって音声入力操作スイッチ102が押下され、しりとりの開始が指示されたか否かが判断される。音声入力操作スイッチ102が押下されたと判断した場合には、ステップS20へ進む。ステップS20では、応答用単語データベース104内に格納されている任意の応答用単語を抽出して、スピーカー104から音声出力する。その後、ステップS30へ進む。
FIG. 5 is a flowchart showing processing of the voice
ステップS30では、出力した応答単語の音声データを履歴メモリ106に記憶して、ステップS40へ進む。ステップS40では、発話者から単語が発話され、マイク101を介して入力されたか否かが判断される。発話者による単語の発話があったと判断した場合には、ステップS50へ進む。ステップS50では、入力された単語の音声データから語頭に相当する部分2a、および語尾に相当する部分2bを抽出して、ステップS60へ進む。ステップS60では、抽出した語頭および語尾の音声データと、認識用音節辞書103に格納された待ち受け用音節とを照合処理して、各待ち受け用音節における語頭および語尾の認識尤度を算出する。その後、ステップS70へ進む。
In step S30, the output voice data of the response word is stored in the
ステップS70では、算出した語尾の認識尤度が上述した所定値より大きいか否かが判断される。語尾の認識尤度が所定値より大きいと判断した場合には、ステップS80へ進む。ステップS80では、上述したパターン1またはパターン2に該当することから、第1のルール判定として「発話された単語の語尾が「ん」でないか」、および「発話された単語の語頭が直前の応答単語の語尾と同一文字で始まるか」について判定する。そして、ステップS90へ進み、この第1のルール判定の結果に基づいて処理を分岐する。
In step S70, it is determined whether or not the calculated ending recognition likelihood is greater than the predetermined value. If it is determined that the ending recognition likelihood is greater than the predetermined value, the process proceeds to step S80. In step S80, since it corresponds to the above-described
発話者の発話した単語が第1のルールに則ったものでないと判断した場合にはステップS130へ進み、発話者に対して単語の再発話を促す応答メッセージをスピーカー105を介して出力する。これに対して、発話者の発話した単語が第1のルールに則ったものであると判断した場合にはステップS100へ進む。ステップS100では、第2のルール判定として「過去に出現した単語を繰り返し発話していないか」について判定するために、履歴メモリ107に格納された過去に出現した全単語の語頭と語尾との対の中に、発話者が今回発話した単語の語頭と語尾との対と一致するものが所定数以上存在するか否かを判断する。そして、ステップS110へ進み、判定結果に基づいて処理を分岐する。
If it is determined that the word spoken by the speaker is not in accordance with the first rule, the process proceeds to step S130, and a response message that prompts the speaker to re-utter the word is output via the
発話者が既に出現済みの単語を繰り返し発話したと判断した場合には、上述したステップS130へ進み、発話者に対して単語の再発話を促す応答メッセージをスピーカー105を介して出力する。これに対して、発話者が既に出現済みの単語を繰り返し発話していないと判断した場合には、ステップS150へ進む。ステップS150では、発話者によって発話された単語を受け付け、認識した語尾から始まり、履歴メモリ107内に存在しない任意の応答用単語を応答用単語データベース104から抽出して、ステップS160へ進む。
When it is determined that the speaker has repeatedly uttered a word that has already appeared, the process proceeds to step S130 described above, and a response message that prompts the speaker to re-utter the word is output via the
ステップS160では、応答用単語が応答用単語データベース104から抽出できたか否かを判断する。応答用単語が抽出できたと判断した場合には、引き続きしりとりを続行できることから、ステップS170へ進んで発話者によって入力された単語の音声データを履歴メモリ107に記憶する。その後、ステップS20へ戻り、抽出した応答用単語をスピーカー105を介して出力する。一方、応答用単語が応答用単語データベース104から抽出できないと判断した場合には、ステップS180へ進み、使用者の勝利と判定して処理を終了する。
In step S160, it is determined whether or not the response word has been extracted from the
次に、ステップS70で語尾の認識尤度が所定値以下であると判断した場合の処理について説明する。この場合には、ステップS120へ進む。ステップS120では、語頭の認識尤度が所定値よりも大きいか否かを判断する。語頭の認識尤度が所定値よりも大きいと判断した場合には、上述したパターン3に該当することから、ステップS130へ進み、発話者に対して単語の再発話を促す応答メッセージをスピーカー105を介して出力する。これに対して、語頭の認識尤度が所定値以下であると判断した場合には、ステップS140へ進む。この場合には、上述したパターン4に該当することから、直前の応答単語を再度発話者に提示して再発話を促すための応答メッセージをスピーカー105を介して出力する。
Next, processing when it is determined in step S70 that the ending recognition likelihood is equal to or less than a predetermined value will be described. In this case, the process proceeds to step S120. In step S120, it is determined whether the recognition likelihood of the beginning of the word is greater than a predetermined value. If it is determined that the recognition probability of the beginning of the word is larger than the predetermined value, the pattern 3 corresponds to the above-described pattern 3, and thus the process proceeds to step S130, and a response message that prompts the speaker to re-utter the word is sent to the
以上説明した第1の実施の形態によれば、以下のような作用効果を得ることができる。
(1)発話者によって音声入力された単語の語頭および語尾のみを抽出し、抽出した単語を認識用音節辞書103に格納された待ち受け用音節と照合処理して、各待ち受け用音節における語頭および語尾の認識尤度を算出して音声認識するようにした。これによって、音声認識の対象をしりとりのポイントとなる語頭および語尾のみに限定することができ、認識処理の負荷を低減することができる。
According to the first embodiment described above, the following operational effects can be obtained.
(1) Only the beginning and ending of a word input by a speaker are extracted, and the extracted word is collated with a standby syllable stored in the
(2)また、語頭と語尾の間に含まれる文字を認識する必要がないことから、音声認識時の待ち受け単語として大量の単語を用意しておく必要がなく、発話者が発話したあらゆる単語に対応することが可能となる。 (2) In addition, since there is no need to recognize characters contained between the beginning and end of a word, it is not necessary to prepare a large number of words as standby words at the time of speech recognition. It becomes possible to respond.
(3)語尾の認識尤度が所定値以下の場合には、発話者に対して再発話を促すようにした。これによって、誤認識を防止することができる。 (3) When the recognition likelihood of the ending is less than or equal to a predetermined value, the utterer is prompted to recite. Thereby, erroneous recognition can be prevented.
(4)語頭および語尾の認識尤度が共に所定値以下の場合には、発話者に対して直前の応答単語を提示して再発話を促すようにした。これによって、発話者が直前の応答単語を理解していない可能性がある場合に、直前の応答単語を再提示することによって発話者が発話すべき語頭の情報を提示して、スムーズにしりとりを続けることができる。 (4) When both the initial and final recognition likelihoods are less than or equal to a predetermined value, the immediately preceding response word is presented to the speaker to encourage recurrent speech. As a result, when there is a possibility that the speaker does not understand the immediately preceding response word, by re-presenting the immediately preceding response word, information on the beginning of the speech to be spoken by the speaker is presented so that the conversation can be performed smoothly. You can continue.
(5)第1のルール判定として、音声認識の結果特定できた語尾が「ん」でないかを判定し、さらに語頭の認識結果候補が履歴メモリ107に格納されている直前に音声対話装置100が応答した応答単語の語尾と一致しているかを判定するようにした。これによって、簡易に発話者によって発話された単語が、一般的なしりとりのルールに則っているか否かを判定することができる。
(5) As the first rule determination, it is determined whether or not the ending that can be specified as a result of the speech recognition is “n”, and the
(6)履歴メモリ107に格納された過去に出現した全単語の語頭と語尾との対の中に、発話者が今回発話した単語の語頭と語尾との対と一致するものが所定数以上存在すると判断した場合には、発話者は既に出現済みの単語を繰り返し発話したと判定するようにした。これによって、発話者が発話した単語全体と、履歴メモリ107に格納された過去に出現した全ての単語の全体とをマッチング処理する必要がなく、語頭および語尾の組み合わせのみをマッチング処理すれば良いことから、判定処理の負荷を低減することができる。
(6) There are more than a predetermined number of pairs of beginning and ending parts of all words that have appeared in the past stored in the
―第2の実施の形態―
上述した第1の実施の形態では、しりとり用の応答用単語を応答用単語データベース104に格納しておき、発話者によって発話された単語に基づいて、応答用単語データベース104内に格納されている応答用単語を抽出して、スピーカー105を介して出力する例について説明した。これに対して第2の実施の形態では、応答用単語データベース104において、応答用単語をカテゴリに分類して格納しておき、さらに各応答用単語に難易度(レベル)を付加する。
-Second embodiment-
In the first embodiment described above, the response word for shiritori is stored in the
そして、使用者は、しりとりで使用する単語の範囲としてカテゴリを指定し、さらにしりとりの難易度を設定(レベルを調整)することによって、音声対話装置100から出力される単語を制御することができる。
The user can control a word output from the voice
なお、第2の実施の形態では、図2に示した発話音声データの波形に基づいた単語の語頭と語尾を抽出する具体例を示す図、図3に示した単語の語頭および語尾と待ち受け用音節との照合結果の具体例を示す図、および図4に示した語頭および語尾の認識尤度と所定値との比較結果を示す図の各図については、第1の実施の形態と同様のため、説明を省略する。 In the second embodiment, a diagram showing a specific example of extracting the word head and ending based on the waveform of the speech voice data shown in FIG. 2, and the word head and ending and the standby shown in FIG. About each figure of the figure which shows the specific example of the collation result with a syllable, and the figure which shows the comparison result with the recognition likelihood of the beginning and ending shown in FIG. 4, and a predetermined value, it is the same as that of 1st Embodiment Therefore, the description is omitted.
また、以下の説明では、使用者によってマイク101を介して入力された単語に対して、第1の実施の形態で上述したしりとりのルール判定を行った結果、発話者によって発話された単語はしりとりのルールに則ったものであると判定されているものとする。
Further, in the following description, as a result of performing the above-described shiritori rule determination in the first embodiment for a word input by the user via the
図6は、第2の実施の形態における音声対話装置の一実施の形態の構成を示すブロック図である。なお、図6においては、図1に示す第1の実施の形態と同一の構成要素に対しては同一の符号を付与して相違点を中心に説明する。音声対話装置100は、発話者に対して出力される応答単語や、各種メニューなどを表示するモニタ108をさらに備えている。
FIG. 6 is a block diagram illustrating a configuration of an embodiment of a voice interaction apparatus according to the second embodiment. In FIG. 6, the same components as those in the first embodiment shown in FIG. The voice
このモニタ108は、使用者によって操作されるタッチパネル108aを備えている。使用者はモニタ108に表示されたメニュー上の任意の項目を指で触れる(タッチする)ことにより、タッチした項目を選択して、音声対話装置100に対して処理の実行を指示することができる。なお、この実施の形態では、タッチパネル108aを使用者が操作して音声対話装置100に対するコマンドを入力する例について説明するが、リモコンやハードスイッチなどのその他の入力装置を搭載し、使用者はこれらの入力装置を介してコマンドを入力してもよい。また、マイク101を介して音声コマンドを音声入力するようにしてもよい。
The
図7は、第2の実施の形態における応答用単語データベース104内に格納される応答用単語を模式的に示した図である。ここでは、使用者によって発話された単語の語尾は「あ」であると判定された場合について説明する。したがって、図7に示す例では、「あ」で始まる応答用単語のみを示す。
FIG. 7 is a diagram schematically showing response words stored in the
この図7に示すように、各応答用単語は、単語の読みを示すラベル(見出し語)7aと、応答用単語の品詞7bと、応答用単語が属するカテゴリ7cと、後述するレベル7dとが対応付けられている。
As shown in FIG. 7, each response word has a label (headword) 7a indicating the reading of the word, a part of
カテゴリ7cは、しりとりに用いる応答用単語の範囲に関する情報であり、駅名、地名、植物、自然、または動物などの、各応答用単語をその意味によりカテゴリに分類した結果を示している。使用者によってしりとりで使用する単語の範囲を限定するために、カテゴリとして「駅名」が指定された場合には、カテゴリ7cが「駅名」であるラベル7aが「あきるの」の応答用単語のみを応答単語の候補として抽出する。
The
レベル7dは、しりとりの難易度に関する情報であり、しりとりの難易度に対応する数値で表される。しりとりの難易度は、「易しい」、「普通」、「難しい」の3段階あり、難易度が「易しい」ほど、音声対話装置100が応答できる単語を少なくして、使用者が勝利する可能性を高くする。これに対して、難易度が「難しい」ほど、音声対話装置100が応答できる単語を多くして少なくして、使用者が勝利する可能性を低くする。この実施の形態では、難易度「易しい」に相当するレベル7cとして「1」が設定され、難易度「普通」に相当するレベル7cとして「2」が設定され、難易度「難しい」に相当するレベル7cとして「3」が設定される。
使用者によって難易度が「易しい」に設定された場合には、音声対話装置100が応答できる単語を少なくするために、レベル7cが「1」の応答用単語のみをしりとりで使用する単語とする。使用者によって難易度が「普通」に設定された場合には、音声対話装置100が応答できる単語を難易度が「易しい」場合よりも多くするために、レベル7cが「1」の応答用単語と、レベル7cが「2」の応答用単語をしりとりで使用する単語とする。そして、使用者によって難易度が「難しい」に設定された場合には、音声対話装置100が応答できる単語を多くするために、レベル7cが「1」〜「3」の全ての応答用単語をしりとりで使用する単語とする。
When the difficulty level is set to “easy” by the user, in order to reduce the number of words that the
以下、使用者によって、上述したように音声対話装置100から出力される単語を制御するために、応答用単語のカテゴリ、およびしりとりの難易度が設定された場合の具体例について説明する。図8は、使用者が応答用単語のカテゴリ指定、およびしりとりの難易度設定を行うためのモニタ108に表示される設定画面の具体例を示す図である。使用者は、使用者がタッチパネル108aを操作して、この図8に示す設定画面により、あらかじめ応答用単語の抽出条件として、応答用単語のカテゴリ、およびしりとりの難易度を設定しておく。
Hereinafter, a specific example will be described in which the category of the response word and the difficulty level of shiritori are set by the user in order to control the word output from the
この図8は、しりとりの難易度として、難易度設定8aで「難しい」が設定され、応答用単語のカテゴリとして、カテゴリ設定8bで「駅名」が指定された場合の具体例を示している。このように、図8に示す設定画面で、応答用単語のカテゴリ、およびしりとりの難易度が設定された場合には、制御装置106は、設定された応答用単語のカテゴリ、およびしりとりの難易度を応答用単語の抽出条件として、図7で上述した応答用単語データベース104内に格納されている応答用単語の中から抽出条件に合致する応答用単語のみを適合単語として抽出する。
FIG. 8 shows a specific example in which “difficult” is set in the difficulty setting 8a as the difficulty level of the shiritori, and “station name” is specified in the category setting 8b as the category of the response word. In this way, when the response word category and the shiritori difficulty level are set on the setting screen shown in FIG. 8, the
すなわち、図8に示す例では、使用者によって難易度設定8aで「難しい」が指定され、カテゴリ設定8bで「駅名」が指定されていることから、制御装置106は、図7で上述した応答用単語データベース104内に格納されている応答用単語の中から、カテゴリ7cが「駅名」であり、かつレベル7cが「1」〜「3」の全ての応答用単語を適合単語として抽出する。その結果、図7に示した応答用単語の中から、ラベル7aが「あきるの」の応答用単語のみが適合単語として抽出される。
That is, in the example shown in FIG. 8, since “difficult” is designated by the difficulty setting 8a by the user and “station name” is designated by the category setting 8b, the
なお、応答用単語データベース104内に、図8に示す設定画面で使用者によって設定された抽出条件に合致する応答用単語が存在しない場合、すなわち適合単語として抽出される応答用単語が1つもない場合には、発話者の勝利となる。そして、制御装置106は、スピーカー105を介して負けを宣言するガイダンス、例えば「思いつく言葉がありません。私の負けです」を出力する。
In the
上述した処理の結果、適合単語として1つ以上の応答用単語が抽出された場合には、抽出した応答用単語が、発話者によって既に発話された単語と同一ではないか、また音声対話装置100が既に応答した単語と同一ではないかを判定する。このために、第1の実施の形態で発話者が既に出現済みの単語を繰り返し発話したか否かを判定する際に行った第2のルール判定における処理を、抽出した各適合単語に対して実行する。すなわち、抽出した各適合単語の語頭と語尾との対と、履歴メモリ107に格納された過去に出現した全単語の語頭と語尾との対とを比較して、各適合単語が既に使用された単語であるか否かを判定する。そして、抽出した適合単語の中から、すでに使用されている応答用単語を除外する。
If one or more response words are extracted as matching words as a result of the processing described above, the extracted response word is not the same as the word already spoken by the speaker, and the
その結果、残った適合単語が0個であれば、発話者の勝利となることから、制御装置106は、上述したような負けを宣言するガイダンスをスピーカー105を介して出力する。これに対して、残った適合単語が1個であれば、その残った適合単語をスピーカー105を介して出力して応答する。また、残った適合単語が2個以上であれば、残った適合単語の中から無作為に任意の1つの単語を抽出して、スピーカー105を介して出力して応答する。
As a result, if the number of remaining matching words is 0, the speaker wins, and the
図9は、第2の実施の形態における音声対話装置100の処理を示すフローチャートである。図9に示す処理は音声対話装置100の電源がオンされると、制御装置106によって実行される。なお、図9においては、図5に示す第1の実施の形態における音声対話装置100の処理と同一の処理内容については、同じステップ番号を付与し、相違点を中心に説明する。ステップS151において、図10に示す応答単語抽出処理を実行する。
FIG. 9 is a flowchart showing processing of the
図10は、第2の実施の形態における応答単語抽出処を示すフローチャートである。ステップS210において、図8で上述した設定画面で、使用者によってあらかじめ設定されている応答用単語の抽出条件、すなわち設定された応答用単語のカテゴリ、および指定されたしりとりの難易度を読み込む。その後、ステップS220へ進み、設定された抽出条件に基づいて、図7で上述した応答用単語データベース104内に格納されている応答用単語の中から抽出条件に合致する応答用単語のみを適合単語として抽出する。その後、ステップS230へ進む。
FIG. 10 is a flowchart showing a response word extraction process in the second embodiment. In step S210, the extraction condition of the response word preset by the user, that is, the set category of response word and the difficulty level of the designated shiritori are read on the setting screen described above with reference to FIG. Thereafter, the process proceeds to step S220, and based on the set extraction condition, only the response word that matches the extraction condition is selected from the response words stored in the
ステップS230では、適合単語が抽出されたか否かを判断する。適合単語が1つも抽出されないと判断した場合には、応答単語の抽出は不可であると判定して図9に示す処理に復帰する。これに対して抽出単語が抽出された場合には、ステップS240へ進む。ステップS240では、抽出した適合単語の語頭、および語尾を抽出して、ステップS250へ進む。ステップS250では、第1の実施の形態における第2のルール判定における処理と同様に、抽出した各適合単語の語頭と語尾との対と、履歴メモリ107に格納された過去に出現した全単語の語頭と語尾との対とを比較して、各適合単語が既に使用された単語であるか否かを判定する。
In step S230, it is determined whether a matching word has been extracted. If it is determined that no matching word is extracted, it is determined that the response word cannot be extracted, and the process returns to the process shown in FIG. On the other hand, if the extracted word is extracted, the process proceeds to step S240. In step S240, the beginning and ending of the extracted matching word are extracted, and the process proceeds to step S250. In step S250, similar to the processing in the second rule determination in the first embodiment, the pair of the beginning and end of each extracted matching word and all the words that have appeared in the past stored in the
その後、ステップS260へ進み、抽出した適合単語の中から、すでに使用されている応答用単語を除外して、ステップS270へ進む。ステップS270では、すでに使用されている応答用単語を除外した結果、残った適合単語の数を判定する。残った適合単語が0個であると判断した場合には、応答単語の抽出は不可であると判定して図9に示す処理に復帰する。 Thereafter, the process proceeds to step S260, where the already used response word is excluded from the extracted matching words, and the process proceeds to step S270. In step S270, the number of matching words remaining as a result of excluding the response words already used is determined. If it is determined that there are no remaining matching words, it is determined that the response word cannot be extracted, and the process returns to the process illustrated in FIG.
これに対して、残った適合単語が1個であると判断した場合には、ステップS280へ進み、その残った適合単語を応答単語として決定する。その後、図9に示す処理に復帰する。また、残った適合単語が複数であると判断した場合には、ステップS290へ進み、残った適合単語の中から無作為に任意の1つの単語を抽出して、応答単語として決定する。その後、図9に示す処理に復帰する。 On the other hand, if it is determined that there is one remaining matching word, the process proceeds to step S280, and the remaining matching word is determined as a response word. Thereafter, the process returns to the process shown in FIG. If it is determined that there are a plurality of remaining matching words, the process proceeds to step S290, where one arbitrary word is randomly extracted from the remaining matching words and determined as a response word. Thereafter, the process returns to the process shown in FIG.
以上説明した第2の実施の形態によれば、第1の実施の形態による作用効果に加えて、以下のような効果を得ることができる。
(1)応答用単語データベース104内に格納されている応答用単語の中から、使用者によって設定された応答用単語のカテゴリと一致するカテゴリの応答用単語のみを適合単語として抽出して、使用者に対して応答する単語の候補とするようにした。これによって、特定のカテゴリ(ジャンル)の単語のみを対象としたしりとりを行うことができる。
According to the second embodiment described above, the following effects can be obtained in addition to the operational effects of the first embodiment.
(1) From the response words stored in the
(2)応答用単語データベース104内に格納されている応答用単語の中から、使用者によって指定された難易度に応じて抽出した適合単語を使用者に対して応答する単語の候補とするようにした。これによって、使用者はしりとりゲームの難易度を任意に設定することができ、上級者から初心者まで幅広い使用者を対象としたしりとりゲームを提供することができる。
(2) Matching words extracted according to the degree of difficulty specified by the user from among the response words stored in the
―変形例―
なお、上述した実施の形態の音声対話装置は、以下のように変形することもできる。
(1)上述した第1および第2の実施の形態では、認識尤度は0〜1の数値で表され、発話者が発話した単語から抽出した語頭および語尾と待ち受け用音節とが全く一致しない場合には0、完全に一致した場合には1が算出される例について説明した。しかしこれに限定されず、その他の算出方法によって認識尤度を算出してもよい。
-Modification-
Note that the voice interaction apparatus according to the embodiment described above can be modified as follows.
(1) In the first and second embodiments described above, the recognition likelihood is represented by a numerical value of 0 to 1, and the beginning and ending extracted from the words spoken by the speaker and the standby syllables do not coincide at all. The example in which 0 is calculated in the case and 1 is calculated in the case of complete coincidence has been described. However, the present invention is not limited to this, and the recognition likelihood may be calculated by other calculation methods.
(2)上述した第1および第2の実施の形態では、履歴メモリ107に格納された過去に出現した全単語の語頭と語尾との対の中に、発話者が発話した単語から抽出した語頭と語尾との対と一致するものが所定数以上存在すると判断した場合には、発話者は既に出現済みの単語を繰り返し発話したと判定する例について説明した。しかしこれに限定されず、発話者が発話した単語の音声データの波形と、履歴メモリ107に格納された出現済みの全単語の音声データの波形とを比較して、履歴メモリ107に格納された単語の中に、波形が発話者が発話した単語と類似するものが存在する場合に、発話者が既に出現済みの単語を繰り返し発話したと判定してもよい。また、第2の実施の形態において、抽出した適合単語が既に使用された単語であるか否かを判定する場合も同様である。
(2) In the first and second embodiments described above, the beginning extracted from the word spoken by the speaker in the pair of the beginning and ending of all the words that have been stored in the
(3)上述した第2の実施の形態では、使用者は、しりとりで使用する単語の範囲を指定するために単語のカテゴリを指定する例について説明した。しかしこれに限定されず、例えば図7に示した品詞7bを指定してしりとりで使用する単語の範囲を指定してもよく、その他のしりとりで使用する単語の範囲を指定する条件を設定できるようにしてもよい。この場合には、応答用単語データベース104内に格納する応答用単語に、しりとりで使用する単語の範囲を指定する条件となる情報を付加するようにする。
(3) In the above-described second embodiment, an example has been described in which the user designates a word category in order to designate a word range used in shiritori. However, the present invention is not limited to this. For example, the range of words used in shiritori may be designated by specifying the part of
なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。 Note that the present invention is not limited to the configurations in the above-described embodiments as long as the characteristic functions of the present invention are not impaired.
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク101は音声入力手段に、応答用単語データベース104は格納手段に、履歴メモリ107は履歴記憶手段に相当する。制御装置106は音声認識手段、ルール判定手段、出力手段、および出現済み単語判定手段に相当する。タッチパネル108aは難易度設定手段、および範囲設定手段に相当する。なお、この対応は一例であり、実施の形態の構成によって対応関係は異なるものである。
The correspondence between the constituent elements of the claims and the embodiment will be described. The
100 音声対話装置
101 マイク
102 音声入力操作スイッチ
103 認識用音節辞書
104 応答用単語データベース
105 スピーカー
106 制御装置
107 履歴メモリ
108 モニタ
108a タッチパネル
DESCRIPTION OF
Claims (10)
前記音声入力手段を介して入力された単語から語頭および語尾を抽出して音声認識する音声認識手段と、
しりとりの応答用単語を格納する格納手段と、
前記音声認識手段で音声認識した単語の語頭および語尾に基づいて、前記入力された単語がしりとりのルールに則って発話されたものであるか否かを判定するルール判定手段と、
前記ルール判定手段で入力された単語がしりとりのルールに則って発話されたものであると判定した場合には、前記音声認識手段で音声認識した単語の語尾と同一文字から始まる応答用単語を前記格納手段から抽出して音声出力する出力手段とを備えることを特徴とする音声対話装置。 A spoken dialogue device that interacts with a speaker,
Speech recognition means for recognizing speech by extracting the beginning and ending from the word input via the speech input means;
Storage means for storing a response word for shiritori;
Rule determining means for determining whether or not the input word is uttered in accordance with a rule of shiritori based on the beginning and ending of the word recognized by the voice recognition means;
When it is determined that the word input by the rule determination unit is uttered according to a rule of shiritori, the response word starting from the same character as the ending of the word recognized by the voice recognition unit is A voice dialogue apparatus comprising: output means for extracting voice from the storage means and outputting the voice.
前記音声認識手段は前記音声入力手段を介して入力された単語の音声データから語頭および語尾を抽出し、抽出した語頭および語尾を待ち受け用音節と照合処理してそれぞれの認識尤度を算出することによって、単語の語頭および語尾を音声認識することを特徴とする音声対話装置。 The voice interactive apparatus according to claim 1,
The speech recognition means extracts the beginning and ending from the speech data of the word input via the speech input means, and compares the extracted beginning and ending with the standby syllable to calculate each recognition likelihood. A speech dialogue apparatus characterized by recognizing the beginning and ending of a word by means of voice.
前記音声認識手段で算出した語尾の認識尤度が所定値以下の場合には、発話者に対して単語の再発話を促すことを特徴とする音声対話装置。 The voice interaction apparatus according to claim 2,
A spoken dialogue apparatus characterized by prompting a speaker to recite a word when the ending recognition likelihood calculated by the voice recognition means is a predetermined value or less.
前記音声認識手段で算出した語頭の音声認識尤度が所定値以下で、かつ語尾の認識尤度も所定値以下の場合には、発話者に対して発話者が発話すべき語頭の情報を提示して単語の再発話を促すことを特徴とする音声対話装置。 The voice interaction apparatus according to claim 2 or 3,
When the speech recognition likelihood of the beginning calculated by the speech recognition means is less than or equal to a predetermined value and the recognition likelihood of the ending is also less than or equal to a predetermined value, information on the beginning of the speaker to be uttered by the speaker is presented to the speaker A speech dialogue apparatus characterized by prompting a re-speech of a word.
前記音声入力手段を介して入力された単語、および前記出力手段を介して出力した応答用単語の履歴をしりとり履歴として記憶する履歴記憶手段をさらに備え、
前記ルール判定手段は、前記履歴記憶手段に記憶したしりとり履歴を参照して、前記音声入力手段を介して入力された単語が既に出現済みの単語であるか否かを判定する出現済み単語判定手段を含み、
前記出現済み単語判定手段で、前記音声入力手段を介して入力された単語が既に出現済みの単語であると判断した場合には、発話者に対して単語の再発話を促すことを特徴とする音声対話装置。 In the voice interactive apparatus according to any one of claims 1 to 4,
A history storage means for storing the history of the word input via the voice input means and the response word output via the output means as a slicing history;
The rule determination means refers to the bookmarking history stored in the history storage means and determines whether or not the word input via the voice input means is an already appearing word Including
When the appearing word determination means determines that the word input via the voice input means is an already appearing word, it prompts the speaker to recite the word. Spoken dialogue device.
前記出現済み単語判定手段は、前記履歴記憶手段に記憶したしりとり履歴に含まれる全単語の語頭と語尾との対の中に、前記音声認識手段で音声認識した単語の語頭と語尾との対と同一のものが所定数以上存在する場合には、前記音声入力手段を介して入力された単語は既に出現済みの単語であると判定することを特徴とする音声対話装置。 The voice interaction apparatus according to claim 5, wherein
The appearance word determination means includes a pair of the beginning and ending of the word speech-recognized by the speech recognition means in the pair of the beginning and ending of all the words included in the shiritori history stored in the history storage means. A spoken dialogue apparatus characterized in that if a predetermined number or more of the same ones exist, it is determined that a word input through the voice input means has already appeared.
前記出現済み単語判定手段は、前記履歴記憶手段に記憶したしりとり履歴に含まれる全単語の音声データの波形の中に、前記音声入力手段を介して入力された単語の音声データの波形と類似する単語が存在する場合には、前記音声入力手段を介して入力された単語は既に出現済みの単語であると判定することを特徴とする音声対話装置。 The voice interaction apparatus according to claim 5, wherein
The appearance word determination unit is similar to the waveform of the speech data of the word input via the speech input unit in the waveform of the speech data of all the words included in the shiritori history stored in the history storage unit. A spoken dialogue apparatus characterized in that, when a word exists, it is determined that the word input through the voice input means has already appeared.
しりとりの難易度を設定する難易度設定手段をさらに備え、
前記格納手段に格納される前記しりとりの応答用単語には、それぞれしりとりの難易度に関する情報が付加されており、
前記出力手段は、前記しりとりの難易度に関する情報に基づいて、前記難易度設定手段で設定されたしりとりの難易度に応じた応答用単語を、前記格納手段から抽出して音声出力することを特徴とする音声対話装置。 In the voice interactive apparatus according to any one of claims 1 to 7,
It further comprises a difficulty level setting means for setting the difficulty level of the shiritori.
Information about the difficulty level of each shiritori is added to each of the shiritori response words stored in the storage means,
The output means extracts a response word corresponding to the difficulty level of the shiritori set by the difficulty level setting means from the storage means based on the information on the difficulty level of the shiritori, and outputs it as a voice. Voice dialogue device.
しりとりに用いる応答用単語の範囲を設定する範囲設定手段をさらに備え、
前記格納手段に格納される前記しりとりの応答用単語には、それぞれしりとりに用いる応答用単語の範囲に関する情報が付加されており、
前記出力手段は、前記しりとりに用いる応答用単語の範囲に関する情報に基づいて、前記範囲設定手段で設定されたしりとりに用いる応答用単語の範囲に応じた応答用単語を前記格納手段から抽出して音声出力することを特徴とする音声対話装置。 In the voice interaction device according to any one of claims 1 to 8,
It further comprises range setting means for setting a range of response words used for shiritori,
Information about the range of response words used for each shiritori is added to each of the shiritori response words stored in the storage means,
The output means extracts, from the storage means, response words corresponding to the range of response words used for shiritori set by the range setting means, based on information about the range of response words used for the shiritori. A voice dialogue apparatus characterized by outputting a voice.
前記音声入力手段を介して入力された単語から語頭および語尾を抽出して音声認識し、
音声認識した単語の語頭および語尾に基づいて、入力された単語がしりとりのルールに則って発話されたものであるか否かを判定し、
入力された単語がしりとりのルールに則って発話されたものであると判定した場合には、音声認識した単語の語尾と同一文字から始まる応答用単語を抽出して音声出力することを特徴とする音声対話方法。 A spoken dialogue method that interacts with a speaker,
Extracting the beginning and ending from the word input via the voice input means to recognize the voice;
Based on the beginning and ending of the speech-recognized word, determine whether the input word is spoken according to the rules of shiritori,
When it is determined that the input word is uttered in accordance with the rules of shiritori, a response word starting from the same character as the end of the speech-recognized word is extracted and output as speech Spoken dialogue method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005260406A JP2006209077A (en) | 2004-12-28 | 2005-09-08 | Voice interactive device and method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004378862 | 2004-12-28 | ||
JP2005260406A JP2006209077A (en) | 2004-12-28 | 2005-09-08 | Voice interactive device and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006209077A true JP2006209077A (en) | 2006-08-10 |
Family
ID=36965947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005260406A Pending JP2006209077A (en) | 2004-12-28 | 2005-09-08 | Voice interactive device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006209077A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017133822A (en) * | 2016-10-31 | 2017-08-03 | 真理 井上 | Air conditioner and air conditioning system |
JP2021078950A (en) * | 2019-11-21 | 2021-05-27 | Kddi株式会社 | Game management device, game management method, and program |
-
2005
- 2005-09-08 JP JP2005260406A patent/JP2006209077A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017133822A (en) * | 2016-10-31 | 2017-08-03 | 真理 井上 | Air conditioner and air conditioning system |
JP2021078950A (en) * | 2019-11-21 | 2021-05-27 | Kddi株式会社 | Game management device, game management method, and program |
JP7252883B2 (en) | 2019-11-21 | 2023-04-05 | Kddi株式会社 | GAME MANAGEMENT DEVICE, GAME MANAGEMENT METHOD AND PROGRAM |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4829576A (en) | Voice recognition system | |
JP6570651B2 (en) | Voice dialogue apparatus and voice dialogue method | |
EP1267326B1 (en) | Artificial language generation | |
JP3284832B2 (en) | Speech recognition dialogue processing method and speech recognition dialogue device | |
RU2379767C2 (en) | Error correction for speech recognition systems | |
EP1217609A2 (en) | Speech recognition | |
WO2006054724A1 (en) | Voice recognition device and method, and program | |
JPH07507880A (en) | Speech recognizer for languages with compound words | |
JPS603699A (en) | Adaptive automatically dispersing voice recognition | |
JP2016521383A (en) | Method, apparatus and computer readable recording medium for improving a set of at least one semantic unit | |
WO2018043138A1 (en) | Information processing device, information processing method, and program | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
GB2376554A (en) | Artificial language generation and evaluation | |
JP4491438B2 (en) | Voice dialogue apparatus, voice dialogue method, and program | |
US11416593B2 (en) | Electronic device, control method for electronic device, and control program for electronic device | |
JP3837061B2 (en) | Sound signal recognition system, sound signal recognition method, dialogue control system and dialogue control method using the sound signal recognition system | |
JP2006209077A (en) | Voice interactive device and method | |
JP4296290B2 (en) | Speech recognition apparatus, speech recognition method and program | |
JP2001042996A (en) | Device and method for document preparation | |
JP2003177788A (en) | Audio interactive system and its method | |
JP2008243076A (en) | Interpretation device, method and program | |
JP2017054038A (en) | Learning support apparatus and program for learning support apparatus | |
JP2003044085A (en) | Dictation device with command input function | |
CA2597826C (en) | Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance | |
KR20200086611A (en) | Method of interactive foreign language learning by voice talking each other using voice recognition function and TTS function |