JP2015087718A - Voice interaction system and voice interaction method - Google Patents
Voice interaction system and voice interaction method Download PDFInfo
- Publication number
- JP2015087718A JP2015087718A JP2013228525A JP2013228525A JP2015087718A JP 2015087718 A JP2015087718 A JP 2015087718A JP 2013228525 A JP2013228525 A JP 2013228525A JP 2013228525 A JP2013228525 A JP 2013228525A JP 2015087718 A JP2015087718 A JP 2015087718A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- response
- utterance
- response sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声対話システム及び音声対話方法に関し、特に、人が発声した音声を認識して、認識した音声に応じた音声を発声する技術に関する。 The present invention relates to a voice dialogue system and a voice dialogue method, and more particularly to a technique for recognizing a voice uttered by a person and uttering a voice corresponding to the recognized voice.
特許文献1には、ユーザの音声を認識して、認識された音声に基づいて、ユーザとの対話を行う対話装置が開示されている。特許文献1に開示の対話装置のように、人との対話を行うロボットは、人との対話において、人の発話における文章構造を解析してから、解析結果に基づいてその発話への応答となる音声を発声する。
すなわち、このようなロボットは、人の発話において一文に含まれる全ての音声区間における音声を認識してから、その発話における音声に対する応答を行う。そのため、人がしゃべる一文が長いと、なかなか応答が行われずテンポの悪い対話になってしまい、人の会話意欲を削いでしまうという問題がある。特に、人が一方的にしゃべる場合、音声区間の途切れが分かりづらく、交互にきれいな受け答えを成立させることは困難であった。 That is, such a robot recognizes speech in all speech sections included in one sentence in a human utterance, and then responds to the speech in the utterance. For this reason, when one sentence spoken by a person is long, there is a problem in that the response is not performed easily and the conversation becomes poor in tempo, and the conversational motivation of the person is reduced. In particular, when a person speaks unilaterally, it is difficult to understand the interruption of the speech section, and it is difficult to establish a beautiful answer alternately.
本発明は、上述した知見に基づいてなされたものであって、人の発話が長い場合であっても、適切な受け答えをすることができる音声対話システム及び音声対話方法を提供することを目的とする。 The present invention has been made on the basis of the above-described knowledge, and an object thereof is to provide a voice dialogue system and a voice dialogue method capable of appropriately receiving and answering even when a human utterance is long. To do.
本発明の第1の態様に係る音声対話システムは、外部から入力される音声において、人が発声している音声を認識する音声認識手段と、前記音声認識手段による音声認識結果に応じた応答音声を発声する音声発声手段と、を備え、前記音声認識手段は、前記外部から入力される音声が、読点であるとして予め定めた第1の音声パターンであるか、句点であるとして予め定めた第2の音声パターンであるかを判断し、前記第1の音声パターンであると判断した場合には、当該第1の音声パターンであると判断したときまでの読点単位の区間における音声を認識し、前記第2の音声パターンであると判断した場合には、当該第2の音声パターンであると判断したときまでの句点単位の区間における音声を認識するものである。 The voice dialogue system according to the first aspect of the present invention includes a voice recognition unit for recognizing a voice uttered by a person and a response voice corresponding to a voice recognition result by the voice recognition unit. Voice utterance means for uttering the voice, wherein the voice recognition means is a first voice pattern that is predetermined as a punctuation point or a predetermined first as a punctuation point. If it is determined that it is the first voice pattern, the voice in the section of the reading point unit until it is determined that the first voice pattern is determined, When it is determined that the voice pattern is the second voice pattern, the voice in the section in units of punctuation until it is determined that the voice pattern is the second voice pattern is recognized.
本発明の第2の態様に係る音声対話方法は、外部から入力される音声において、人が発声している音声を認識する音声認識ステップと、前記音声認識ステップによる音声認識結果に応じた応答音声を発声する音声発声ステップと、を備え、前記音声認識ステップでは、前記外部から入力される音声が、読点であるとして予め定めた第1の音声パターンであるか、句点であるとして予め定めた第2の音声パターンであるかを判断し、前記第1の音声パターンであると判断した場合には、当該第1の音声パターンであると判断したときまでの読点単位の区間における音声を認識し、前記第2の音声パターンであると判断した場合には、当該第2の音声パターンであると判断したときまでの句点単位の区間における音声を認識するものである。 The voice interaction method according to the second aspect of the present invention includes a voice recognition step for recognizing a voice uttered by a person in a voice input from the outside, and a response voice according to a voice recognition result obtained by the voice recognition step. And in the voice recognition step, the voice inputted from the outside is a first voice pattern predetermined as a punctuation mark or a predetermined first as a punctuation mark. If it is determined that it is the first voice pattern, the voice in the section of the reading point unit until it is determined that the first voice pattern is determined, When it is determined that the voice pattern is the second voice pattern, the voice in the section in units of punctuation until it is determined that the voice pattern is the second voice pattern is recognized.
上述した本発明の各態様によれば、人の発話が長い場合であっても、適切な受け答えをすることができる音声対話システム及び音声対話方法を提供することができる。 According to each aspect of the present invention described above, it is possible to provide a voice dialogue system and a voice dialogue method capable of giving an appropriate answer even when a person's utterance is long.
以下に図面を参照しながら、本発明の好適な実施の形態について説明する。以下の実施の形態に示す具体的な数値等は、発明の理解を容易とするための例示にすぎず、特に断る場合を除き、それに限定されるものではない。また、以下の記載及び図面では、説明の明確化のため、当業者にとって自明な事項等については、適宜、省略及び簡略化がなされている。 Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings. Specific numerical values and the like shown in the following embodiments are merely examples for facilitating understanding of the invention, and are not limited thereto unless otherwise specified. In the following description and drawings, matters obvious to those skilled in the art are omitted or simplified as appropriate for the sake of clarity.
<発明の実施の形態>
図1を参照して、本実施の形態に係る音声対話システム1の構成について説明する。図1は、本実施の形態に係る音声対話システム1の構成図である。音声対話システム1は、例えば、人と対話するロボットに適用することができる。
<Embodiment of the Invention>
With reference to FIG. 1, the structure of the voice
音声対話システム1は、制御部2、記憶部3、マイク4、スピーカ5、及びI/Oポート6を有する。制御部2、記憶部3、及びI/Oポート6は、相互にバスを介して接続されている。マイク4及びスピーカ5は、I/Oポート6と接続されている。
The
制御部2は、音声対話システム1を統括的に制御する。制御部2は、CPU(Central Processing Unit)を有し、記憶部3に格納されたプログラムを実行することによって、本実施の形態1に係る音声対話システム1としての各種処理を実行する。すなわち、記憶部3に格納されたプログラムは、本実施の形態に係る音声対話システム1としての各種処理を、CPUに実行させるためのコードを含む。制御部2は、読点用音声認識部11、名詞抽出部12、読点用応答文作成部13、発話タイミング判定部14、句点用音声認識部21、句点用応答文作成部22、音声合成部30として機能する。
The
読点用音声認識部11は、人が発声した音声を読点単位で音声認識する。読点用音声認識部11は、人が音声を発声している発話区間(音声区間)が終了してから次の発話区間が開始されない時間が、第1の所定時間に達した場合、読点で発話区間が終了したと認識する。そして、読点用音声認識部11は、終了した発話区間を含む読点単位の区間における音声を音声認識する。より厳密には、読点用音声認識部11は、終了した発話区間の音声を音声認識する。すなわち、読点用音声認識部11は、一文の開始又は1つ前の読点から、その次の読点までの区間となる、1つの発話区間における音声を音声認識することになる。ここで、第1の所定時間として、例えば人の発話における読点での平均的な発話区間間の時間を採用する等して任意に好適な時間を設定すればよい。
The reading point
名詞抽出部12は、読点用音声認識部11が認識した読点単位の音声から名詞を抽出し、抽出した名詞を示す名詞情報を名詞データベース42に格納する。
The
読点用応答文作成部13は、名詞データベース42に格納された名詞情報が示す名詞を確認する応答文を作成する。すなわち、読点用応答文作成部13は、名詞を確認する応答文を示す応答文情報を生成する。
The punctuation mark response
発話タイミング判定部14は、読点での発話区間の終了を検出し、その検出タイミングにおいて読点用応答文作成部13によって応答文情報が生成されている場合には、その応答文情報を音声合成部30に出力する。読点での発話区間の終了を検出は、上述と同様に、人が音声を発声している発話区間が終了してから次の発話区間が開始されない時間が、第1の所定時間に達したことをもって検出するようにすればよい。
The utterance
句点用音声認識部21は、人が発声した音声を句点単位で音声認識する。句点用音声認識部21は、人が音声を発声している発話区間が終了してから次の発話区間が開始されない時間が、第1の所定時間よりも長い第2の所定時間に達した場合、句点で発話区間が終了したと認識する。そして、句点用音声認識部21は、終了した発話区間を含む句点単位の区間における音声を音声認識する。より厳密には、句点用音声認識部21は、その句点までの一文の区間に含まれる1つ以上の発話区間における音声を音声認識する。すなわち、句点用音声認識部21は、一文の開始から句点までの区間に含まれる、少なくとも1つの発話区間における音声を音声認識することになる。ここで、第2の所定時間として、例えば人の発話での句点における平均的な発話区間間の時間を採用する等して任意に好適な時間を設定すればよい。
The phrase
句点用応答文作成部22は、句点用音声認識部21が認識した「動詞」及び「格要素+格」を確認する応答文を作成する。すなわち、句点用応答文作成部22は、「動詞」及び「格要素+格」を確認する応答文を示す応答文情報を生成し、音声合成部30に出力に格納する。
The phrase response
音声合成部30は、読点用応答文作成部13及び句点用応答文作成部22から出力された応答文情報が示す応答文の音声を示す音声情報を音声合成によって生成し、I/Oポート6を介してスピーカ5に出力する。
The
記憶部3は、上記のプログラムや、音声対話システム1として処理に必要な各種情報が格納される。記憶部3は、認識用辞書データベース41、及び名詞データベース42が構築される。認識用辞書データベース41は、人が発声した音声中の単語を認識するために、照合用の複数の単語の音声情報が予め格納されている。これらの単語の音声情報は、例えば、複数人の音声をサンプリングすることで算出した平均的な音声を示すように事前に作成してもよい。
The
すなわち、読点用音声認識部11及び句点用音声認識部21は、認識用辞書データベース41に格納された単語の音声情報と、人が発声した音声の音声情報とを照合することで、人が発声した音声中の各単語を認識することにより、音声認識した区間における音声内容を認識する。認識用辞書データベース41の単語の種類としては、「動詞」、「格要素」、及び「格」等が用意される。
That is, the punctuation point
ここで、読点用音声認識部11及び句点用音声認識部21は、音声認識した区間における音声内容として可能性のある複数のパターンの音声内容を音声認識結果として生成する。そして、読点用音声認識部11は、それらの複数のパターンの音声内容に所定の割合以上で同一の「格要素」(名詞)が含まれている場合には、その「格要素」(名詞)が信頼できると判定する。句点用音声認識部21は、それらの複数のパターンの音声内容に所定の割合以上で同一の「動詞」又は「格要素+格」が含まれている場合には、その「動詞」又は「格要素+格」が信頼できると判定する。例えば、10パターンの音声内容を生成したときには、8パターン以上の音声内容において同一の「動詞」が含まれている場合であれば、その「動詞」が信頼できると判定し、同一の「動詞」が含まれている音声内容が8パターン未満である場合であれば、その「動詞」が信頼できないと判定するようにしてもよい。
Here, the punctuation point
名詞抽出部12は、読点用音声認識部11によって信頼できると判定された「格要素」(名詞)を抽出し、読点用応答文作成部13は、名詞抽出部12が抽出した「格要素」(名詞)を確認する応答文を示す応答文情報を生成する。一方、句点用応答文作成部22は、「動詞」及び「格要素+格」のうち、句点用音声認識部21によって信頼できると判定されたものを確認する応答文を示す応答文情報を生成する。なお、信頼できると判定された「動詞」が複数検出された場合には、その中で最も信頼できるものを用いて応答文を作成するようにすればよい。ここで、最も信頼できると判定された「動詞」とは、生成した複数のパターンの音声内容に同一の「動詞」が含まれている数が最も多い「動詞」とすればよい。これは、「格要素」(名詞)、又は「格要素+格」についても同様である。
The
マイク4は、外部から入力された音声を、その音声を示す音声情報に変換し、I/Oポート6に出力する。スピーカ5は、I/Oポート6から出力された音声情報を音声に変換し、出音する。これにより、制御部2の音声合成部30によって音声合成された音声が発声される。
The
I/Oポート6は、マイク4から出力された音声情報をA/D変換し、制御部2に出力する。I/Oポート6は、制御部2から出力された音声情報をD/A変換し、スピーカ5に出力する。
The I /
本実施の形態は、以上に説明した構成によって、名詞抽出結果に基づいて、読点単位の短い間隔でオウム返しをすることを可能とし、相手の話の腰を折らずに対話を続けることを可能とする。また、これによれば、一文が長くなかなか相手の話に対して総括的な応答をすることができない場合であっても、こまめに短いオウム返しをすることが可能であるため、相手の話を促すことができる。 In the present embodiment, the configuration described above allows parrots to be returned at short intervals in reading units based on the noun extraction result, and the conversation can be continued without breaking the opponent's story. And Also, according to this, even if it is difficult to make a comprehensive response to the other person's story, it is possible to return a short parrot frequently, so Can be urged.
続いて、図2〜図4を参照して、本発明の実施の形態に係る音声対話システム1の処理について説明する。図2は、本発明の実施の形態に係る音声対話システム1の処理を示すフローチャートである。
Then, with reference to FIGS. 2-4, the process of the voice
マイク4は、継続的に、外部から入力される音声を示す音声情報を生成し、I/Oポート6を介して制御部2に出力する。よって、人から発話入力があった場合(S1:Yes)、マイク4は、その発話における音声を示す音声情報を生成し、I/Oポート6を介して制御部2に出力する。
The
読点用音声認識部11は、読点での発話区間の終了を検出し、その終了した発話区間における音声情報に基づいて、その発話区間における音声情報が示す音声の音声認識を行う(S2)。具体的には、読点用音声認識部11は、マイク4から人の発声した音声を示す音声情報が出力されなくなった時間が第1の所定時間に到達したことを、読点での発話区間の終了として検出する。ここで、人の発声した音声を示す音声情報が出力されなくなったか否かの判定は、例えば、音声情報が示す音声の音圧レベルが所定の一定値以下となったか否かによって判定するようにすればよい。そして、読点用音声認識部11は、発話区間において出力を受けた音声情報が示す音声の音声認識を行う。
The reading point
名詞抽出部12は、読点用音声認識部11が認識した音声内容から、読点用音声認識部11によって信頼できると判定された名詞を抽出し、抽出した名詞を示す名詞情報を名詞データベース42に格納する(S3)。
The
読点用応答文作成部13は、名詞データベース42に格納された名詞情報が示す名詞を確認する応答文を示す応答文情報を生成し、記憶部3に格納する(S4)。
The punctuation mark response
一方、発話タイミング判定部14は、読点での発話区間の終了を検出する(S5)。具体的には、発話タイミング判定部14は、上述と同様に、マイク4から人の発声した音声を示す音声情報が出力されなくなった時間が第1の所定時間に到達したことを、発話区間の終了として検出する。
On the other hand, the utterance
発話タイミング判定部14は、発話区間の終了を検出した場合、名詞を確認する応答文を発話可能であるか否かを判定する(S6)。具体的は、発話タイミング判定部14は、読点用応答文作成部13によって応答文情報が作成済みで記憶部3に格納されている場合、名詞を確認する応答文を発話可能であると判定する。他方、発話タイミング判定部14は、読点用応答文作成部13によって応答文情報が作成済みでなく記憶部3に格納されていない場合、名詞を確認する応答文を発話可能でないと判定する。
When the utterance
発話タイミング判定部14は、名詞を確認する応答文を発話可能であると判定した場合(S6:Yes)、記憶部3に格納された応答文情報を音声合成部30に出力する。発話タイミング判定部14は、名詞を確認する応答文を発話可能でないと判定した場合(S6:No)、応答文情報が未作成であるため、応答文情報の音声合成部30への出力は行わない。
When the speech
一方、句点用音声認識部21は、句点での発話区間の終了を検出し、その終了した発話区間まで続いた一文の区間に含まれる各音声区間における音声情報に基づいて、それらの発話区間における音声情報が示す音声の音声認識を行う(S7)。具体的には、句点用音声認識部21は、マイク4から人の発声した音声を示す音声情報が出力されなくなった時間が第2の所定時間に到達したことを、句点での発話区間の終了として検出する。ここで、人の発声した音声を示す音声情報が出力されなくなったか否かの判定は、例えば、音声情報が示す音声の音圧レベルが所定の一定値以下となったか否かによって判定するようにすればよい。そして、句点用音声認識部21は、各発話区間において出力を受けた音声情報が示す音声の音声認識を行う。
On the other hand, the
句点用音声認識部21は、認識した一文の音声内容において「動詞」及び「格要素+格」のうち、少なくともいずれかが存在するか否かを判定する(S8)。
The phrase
句点用音声認識部21は、認識した一文の音声内容において「動詞」及び「格要素+格」のうち、少なくともいずれかが存在すると判定した場合(S8:Yes)、「動詞」及び「格要素+格」のうち、存在すると判定したものが信頼できるか否かを判定する(S9)。
When the phrase
句点用応答文作成部22は、句点用音声認識部21によって、認識した一文の音声内容において「動詞」及び「格要素+格」がいずれも存在し、かつ「動詞」及び「格要素+格」のいずれも信頼できると判定された場合(S9:Yes)、「動詞」+「格要素+格」を確認する応答文を示す応答文情報を作成し、音声合成部30に出力する(S10)。
The phrase response
一方、句点用応答文作成部22は、句点用音声認識部21によって、認識した一文の音声内容において、少なくとも「動詞」が存在し、かつ「動詞」だけが信頼できると判定された場合(S11)、「動詞」を確認する応答文を示す応答文情報を作成し、音声合成部30に出力する(S12)。
On the other hand, the phrase response
一方、句点用応答文作成部22は、句点用音声認識部21によって、認識した一文の音声内容において、少なくとも「格要素+格」が存在し、かつ「格要素+格」だけが信頼できると判定された場合(S13)、「格要素+格」を確認する応答文を示す応答文情報を作成し、音声合成部30に出力する(S14)。
On the other hand, when the phrase response
句点用音声認識部21によって、認識した一文の音声内容において「動詞」及び「格要素+格」のいずれも存在しないと判定された場合(S8:No)、及び、認識した一文の音声内容において「動詞」及び「格要素+格」のうち、存在すると判定されたものの全てが信頼できないと判定された場合(S9:No)は、応答文情報の作成は行われない。
When the phrase
音声合成部30は、読点用応答文作成部13及び句点用応答文作成部22から出力された応答文情報から、応答する応答文を発声するための応答文情報を選択する(S15)。音声合成部30は、選択した応答文情報を音声合成して、その応答文情報が示す応答文の音声を示す音声情報を生成し、順次I/Oポート6を介してスピーカ5に出力する(S16)。これにより、人の発声した音声に対する応答として、その音声の内容を確認する応答文の音声がスピーカ5から発声される。
The
ここで、図3を参照して、ステップS15の応答文選択処理について、より詳細に説明する。図3は、ステップS15の応答文選択処理を示すフローチャートである。 Here, with reference to FIG. 3, the response sentence selection process of step S15 is demonstrated in detail. FIG. 3 is a flowchart showing the response sentence selection process in step S15.
図3では、読点用応答文作成部13が作成した応答文情報を「A」として示し、句点用応答文作成部22が作成した応答文情報を「B」として示している。音声合成部30は、読点用応答文作成部13及び句点用応答文作成部22の少なくともいずれか1つから応答文情報の出力を受けた場合、その応答文情報が示す応答文の音声合成を開始する。
In FIG. 3, the response sentence information created by the punctuation mark response
ここで、音声合成部30は、応答文情報Aの音声合成中(応答文情報Aが示す応答文の音声の発声中)に、応答文情報Bの出力を受けた場合には、応答文情報Aの音声合成を中断して、応答文情報Bの音声合成を開始する。それに対して、音声合成部30は、応答文情報Bの音声合成中(応答文情報Bが示す応答文の音声の発声中)に、応答文情報Aの出力を受けた場合には、応答文情報Bの音声合成は中断せずに継続し、応答文情報Aの音声合成は行わない。すなわち、音声合成部30は、読点用応答文作成部13によって作成された応答文情報Aが示す応答文よりも、句点用応答文作成部22によって作成された応答文情報Bが示す応答文を優先的に発声する。応答文情報Aの応答文よりも、応答文情報Bの応答文の方が、人が発声した一文の音声に対する総括的な応答内容となっているため、この応答文情報Bが作成し終わっているタイミングのように、人が一文をしゃべり終わったタイミングでの応答内容として、より適切であるからである。
Here, when the
ここで、応答文情報Aが示す応答文を連続して音声合成する場合には、その応答文を、所定の相槌(間投詞)(例えば「うん」)に置き換えて音声合成を行う。これによって、常に、名詞を確認する応答をする場合と比較して、会話にリズムを持たせることが可能となる。 Here, when continuously synthesizing the response sentence indicated by the response sentence information A, the response sentence is replaced with a predetermined interaction (interjection) (for example, “Yes”) to perform speech synthesis. As a result, it is possible to always give a rhythm to the conversation as compared with the case of responding to confirm the noun.
以上に説明したように、本実施の形態に係る音声対話システム1は、図4に示すように、発話区間終了検出(S5)及び発話タイミング判定(S6)を中心とした処理によって、読点レベルの切れ目で応答をすることができ、テンポの良い対話を可能としている。
As described above, the
すなわち、句点を検出する時間(第2の所定時間)よりも短い時間(第1の所定時間)の間、人の発話が無いことを検出するようにすることで、読点単位での発話区間の切れ目を検出することを可能としている。これは、上述したように、例えば、人の発声した音声の音圧レベルが一定値以下の時間が第1の所定時間(例えば0.3sec)の間継続したことをもって検出される。 That is, by detecting that there is no human utterance for a time (first predetermined time) shorter than the time (second predetermined time) for detecting a punctuation mark, It is possible to detect a break. As described above, this is detected when, for example, a time during which a sound pressure level of a voice uttered by a person is below a certain value continues for a first predetermined time (for example, 0.3 sec).
そして、発話区間の終了検出時に、名詞を確認する応答文が作成済みである場合に、この発話区間の終了タイミングで応答文の音声を発声する。すなわち、人の発話における読点のタイミングで応答文の音声が発声され、テンポの良い対話をすることができる。 When a response sentence for confirming a noun has already been created when detecting the end of the utterance section, the voice of the response sentence is uttered at the end timing of the utterance section. That is, a response sentence is uttered at the timing of a reading point in a person's utterance, and a conversation with a good tempo can be performed.
続いて、図5〜図18を参照して、人の発話として一例を挙げて、上述した音声対話システム1の処理の流れについて説明する。
Next, with reference to FIG. 5 to FIG. 18, the flow of processing of the above-described
ここでは、人が以下の内容を発話した例について説明する。 Here, an example in which a person speaks the following contents will be described.
「主人がね、親戚のところに行くけども、11日にね、帰ってくるって言ってね、雨の中出掛けたんですけど。。。」 “The husband goes to his relatives, but on the 11th, he said he would come home and went out in the rain.”
この場合、図5に示すように、読点用音声認識部11における音声認識処理(読点処理)は、「主人がね」「親戚のところに行くけども」「11日にね」「帰ってくるって言ってね」「雨の中出掛けたんですけど」と読点レベルの切れ目の単位で行われる。句点用音声認識部21における音声認識処理(句点処理)は、「主人がね、親戚のところに行くけども、11日にね、帰ってくるって言ってね、雨の中出掛けたんですけど」までの句点レベルの切れ目の単位で行われる。すなわち、句点処理が1サイクル回る間に読点処理は5サイクル回る。以下、その読点処理の5サイクルについて説明する。また、以下の説明では、読点処理について発話区間の音声内容における名詞が全て信頼できると判定されるものとして説明する。
In this case, as shown in FIG. 5, the speech recognition processing (reading processing) in the
(1サイクル目、1段階目:図6)
人によって1発話目「主人がね」まで発話されたときに、読点用音声認識部11及び発話タイミング判定部14は、読点単位での発話区間の終了を検出する。このときには、発話タイミング判定部14は、発話区間の終了は検出されたが、まだ1発話目に対する応答文情報が作成されていないため、音声合成部30を介した応答文の音声の発声は行わない。読点用音声認識部11は、1発話目の発話区間における音声「主人がね」の音声認識を実施する。
(First cycle, first stage: Fig. 6)
When a person speaks up to the first utterance “the master is,” the punctuation
(1サイクル目、2段階目:図7)
発話タイミング判定部14は、2発話目の発話区間の終了を待ち合わせる。名詞抽出部12は、読点用音声認識部11が認識した1発話目の音声内容から、名詞「ご主人」を抽出する。読点用応答文作成部13は、名詞抽出部12が抽出した名詞「ご主人」に基づいて、その名詞「ご主人」を確認する応答文「あーご主人が」の応答文情報を作成する。
(First cycle, second stage: Fig. 7)
The utterance
(2サイクル目、1段階目:図8)
人によって2発話目「親戚のところに行くけども」まで発話されたときに、読点用音声認識部11及び発話タイミング判定部14は、読点単位での発話区間の終了を検出する。このときには、発話タイミング判定部14は、1発話目に対する応答文情報が作成されているため、その応答文情報を音声合成部30に送信する。読点用音声認識部11は、2発話目の発話区間における音声「親戚のところに行くけども」の音声認識を実施する。
(Second cycle, first stage: Fig. 8)
When a person speaks up to the second utterance “I'm going to a relative”, the punctuation
(2サイクル目、2段階目:図9)
発話タイミング判定部14は、3発話目の発話区間の終了を待ち合わせる。名詞抽出部12は、読点用音声認識部11が認識した2発話目の音声内容から、名詞「親戚」を抽出する。読点用応答文作成部13は、名詞抽出部12が抽出した名詞「親戚」に基づいて、その名詞「親戚」を確認する応答文「親戚ね」の応答文情報を作成する。また、音声合成部30は、発話タイミング判定部14から送信された応答文情報が示す応答文「あーご主人が」の音声を音声合成によって生成してスピーカ5を介して発声する。
(Second cycle, second stage: Fig. 9)
The utterance
(3サイクル目、1段階目:図10)
人によって3発話目「11日にね」まで発話されたときに、読点用音声認識部11及び発話タイミング判定部14は、読点単位での発話区間の終了を検出する。このときには、発話タイミング判定部14は、2発話目に対する応答文情報が作成されているため、その応答文情報を音声合成部30に送信する。読点用音声認識部11は、3発話目の発話区間における音声「11日にね」の音声認識を実施する。
(3rd cycle, 1st stage: Fig. 10)
When a person speaks up to the third utterance “
ここで、音声合成部30は、発話タイミング判定部14から送信された応答文情報が示す応答文「11日」を、定型の相槌「うん」の音声に差し替える。このように、読点における音声認識処理(読点処理)の結果が連続したときには、応答文を、一つ置きに、名詞を確認しない簡易な相槌(間投詞)に差し替えることで、会話にリズムを持たせることができる。
Here, the
(3サイクル目、2段階目:図11)
発話タイミング判定部14は、4発話目の発話区間の終了を待ち合わせる。名詞抽出部12は、読点用音声認識部11が認識した3発話目の音声内容から、名詞「11日」を抽出する。読点用応答文作成部13は、名詞抽出部12が抽出した名詞「11日」に基づいて、その名詞「11日」を確認する応答文「11日にね」の応答文情報を作成する。また、音声合成部30は、差し替え後の応答文「うん」の音声を音声合成によって生成してスピーカ5を介して発声する。このように、音声合成部30における応答文選択処理では、読点における音声認識処理(読点処理)の結果が連続したときには、「名詞を確認する応答」と、定型の相槌「うん」を交互に音声合成する。
(3rd cycle, 2nd stage: Fig. 11)
The utterance
ここで、定型の相槌は、例えば、その相槌の応答文を示す応答文情報を記憶部3に予め格納しておき、音声合成部30は、その応答文情報が示す応答文(相槌)の音声を音声合成するようにすればよい。また、相槌の内容も上記の例「うん」のみに限られず、他の相槌を用意してもよく、複数の相槌を用意して、それらを所定の順序又はランダムに音声合成するようにしてもよい。
Here, for example, the standard interaction is stored in advance in the
(4サイクル目、1段階目:図12)
人によって4発話目「帰ってくるって言ってね」まで発話されたときに、読点用音声認識部11及び発話タイミング判定部14は、読点単位での発話区間の終了を検出する。このときには、発話タイミング判定部14は、3発話目に対する応答文情報が作成されているため、その応答文情報を音声合成部30に送信する。読点用音声認識部11は、4発話目の発話区間における音声「帰ってくるって言ってね」の音声認識を実施する。
(4th cycle, 1st stage: Fig. 12)
When a person speaks up to the fourth utterance “Please say come back”, the punctuation
(4サイクル目、2段階目:図13)
発話タイミング判定部14は、5発話目の発話区間の終了を待ち合わせる。名詞抽出部12は、読点用音声認識部11が認識した4発話目の音声内容には名詞が含まれていないため、名詞を抽出することができない。よって、読点用応答文作成部13も、4発話目に対する応答文情報は作成しない。また、音声合成部30は、発話タイミング判定部14から出力された応答文情報が示す応答文「11日にね」の音声を音声合成によって生成してスピーカ5を介して発声する。
(4th cycle, 2nd stage: Fig. 13)
The utterance
(5サイクル目、1段階目:図14)
人によって5発話目「雨の中出掛けたんですけど」まで発話されたときに、読点用音声認識部11及び発話タイミング判定部14は、読点単位での発話区間の終了を検出する。このときには、発話タイミング判定部14は、発話区間の終了は検出されたが、4発話目に対する応答文情報が作成されていないため、音声合成部30を介した応答文の音声の発声は行わない。読点用音声認識部11は、5発話目の発話区間における音声「雨の中出掛けたんですけど」の音声認識を実施する。
(5th cycle, 1st stage: Fig. 14)
When a person speaks up to the fifth utterance “I went out in the rain”, the punctuation
(5サイクル目、2段階目:図15)
発話タイミング判定部14は、6発話目の発話区間の終了を待ち合わせる。名詞抽出部12は、読点用音声認識部11が認識した5発話目の音声内容から、名詞「雨」を抽出する。読点用応答文作成部13は、名詞抽出部12が抽出した名詞「雨」に基づいて、その名詞「雨」を確認する応答文「雨ね」の応答文情報を作成する。
(5th cycle, 2nd stage: Fig. 15)
The utterance
一方で、5サイクル目では、人による「主人がね、親戚のところに行くけども、11日にね、帰ってくるって言ってね、雨の中出掛けたんですけど。。。」までの一文の発話が終了するため、句点用音声認識部21も、句点での発話区間の終了を検出する。よって、句点用音声認識部21も、図16に示すように、1発話目〜5発話目までの一文の音声について音声認識処理(句点処理)を実施する。
On the other hand, in the fifth cycle, one sentence from a person said, “My husband goes to his relatives, but he says he will come home on the 11th.” Since the utterance ends, the phrase
ここで、句点用音声認識部21は、信頼できる「格要素+格」が「主人が」であると判定し、信頼できる動詞は「出掛けた」であると判定したものとする。この場合、句点用応答文作成部22は、「動詞」と「格要素+格」の最も信頼できる組み合わせである「ご主人が出掛けたんだね。」という応答文の応答文情報を生成する。そして、句点用応答文作成部22は、生成した応答文情報を音声合成部30に送信する。
Here, it is assumed that the
なお、句点用応答文作成部22は、「動詞」のみ信頼できた場合は、「出掛けたんだ。」という応答文の応答文情報を生成し、「格要素+格」のみ信頼できた場合は、「ご主人がね。」という文の応答文情報を生成する。句点用応答文作成部22は、「動詞」及び「格要素+格」のどちらも信頼できなかった場合は、応答文情報は生成しない。
The response
(6サイクル目)
6サイクル目では、読点用応答文作成部13と句点用応答文作成部22の応答文情報の作成・送信タイミングによっては、音声合成部30において、読点用応答文作成部13による応答文「雨ね」の音声合成と、句点用応答文作成部22の応答文「ご主人が出掛けたんだね」の音声合成とが競合することになる。
(6th cycle)
In the sixth cycle, depending on the response sentence information creation / transmission timing of the punctuation response
上述したように、音声合成部30は、いずれか一方の応答文情報のみの送信を受けている場合には、その応答文情報の応答文の音声を音声合成し、両方の応答文情報が競合した場合には、句点用応答文作成部22からの応答文情報を優先的に処理する。すなわち、例えば、図17に示すように、読点用応答文作成部13からの応答文情報のみの送信を受けている場合、音声合成部30は、その応答文情報が示す応答文「雨ね」の音声合成を実施する。
As described above, when only one of the response sentence information is received, the
一方、例えば、図18に示すように、読点用応答文作成部13からの応答文情報のみの送信を先に受けて、その応答文情報が示す応答文「雨ね」を音声合成中に、句点用応答文作成部22からの応答文情報の送信を受けた場合には、音声合成部30は、読点用応答文作成部13からの応答文情報が示す応答文「雨ね」の音声合成を中断して、句点用応答文作成部22からの応答文情報が示す応答文「ご主人が出掛けたんだね」の音声合成を開始する。よって、例えば、「あめ、ご主人が出掛けたんだね」といったように発声中であっても強制的に優先度の高い応答文の音声の発声に切り替えられる。
On the other hand, for example, as illustrated in FIG. 18, the response sentence information only from the punctuation mark response
まとめると、例文の対話結果は以下のようになる。「A」は、人の発話内容を示し、「B」は、音声対話システム1の発話内容を示している。
In summary, the dialogue result of the example sentence is as follows. “A” indicates the utterance content of the person, and “B” indicates the utterance content of the
A:主人がね、(名詞抽出:主人)親戚のところに行くけども、
B:あーご主人が(読点処理結果)
A:11日にね、(名詞抽出:11日)
B:うん(読点処理結果)
A:帰ってくるって言ってね、
B:11日ね(読点処理結果)
A:雨の中出掛けたんですけど。。。(名詞抽出:雨)
B:ご主人が出掛けたんだね(句点処理結果)
A:そしたら急にね・・・。
A: My husband (noun extraction: my husband) goes to my relatives,
B: Oh my husband (reading result)
A: On the 11th (noun extraction: 11th)
B: Yeah (reading result)
A: Tell me to come home,
B: 11 days (reading result)
A: I went out in the rain. . . (Noun extraction: rain)
B: Your husband went out (results of the phrase processing)
A: Then suddenly ...
このように、本実施の形態では、こまめに応答をして、音声対話システム1が人に対して話を聞いていることを示すことで、対話の継続性を高めることができる。すなわち、読点では、こまめに短い応答文で確認することで、人の話を阻害しないように人の話を促すことができるようにしている。一方で、句点ではそれよりも長い総括的な応答文で確認をすることで、人が話し手として十分な対話感覚が得られるようにしている。
As described above, in this embodiment, it is possible to improve the continuity of the dialogue by frequently responding and indicating that the
それに対して、本実施の形態を適用しない場合には、例文の対話結果は以下のようになる。 On the other hand, when the present embodiment is not applied, the dialogue result of the example sentence is as follows.
A:主人がね、親戚のところに行くけども、11日にね、帰ってくるって言ってね、雨の中出掛けたんですけど。。。
B:ご主人が出掛けたんだね
(ご主人がね、出掛けたんだ、など)
A: My husband went to my relatives, but on the 11th, he said he would come home and went out in the rain. . .
B: My husband went out (My husband went out, etc.)
すなわち、句点までの一文の発話が終了するまで、応答が全くなされず、人の会話意欲を削いでしまう。 That is, no response is made at all until the utterance of one sentence up to a punctuation point ends, and the person's willingness to conversation is reduced.
以上に説明したように、本実施の形態は、人が音声を発声している音声区間における音声を認識する音声認識手段(読点用音声認識部11及び句点用音声認識部21に対応する)と、音声認識手段による音声認識結果に応じた応答音声を発声する音声発声手段(名詞抽出部12、読点用応答文作成部13、発話タイミング判定部14、句点用応答文作成部22、音声合成部30に対応する)と、を備えるようにしている。そして、音声認識手段は、音声区間が終了してから次の音声区間が開始されない時間が、第1の所定時間に達した場合、終了した音声区間を含む読点単位の区間における音声を認識し、音声区間が終了してから次の音声区間が開始されない時間が、第1の所定時間よりも長い第2の所定時間に達した場合、終了した音声区間を含む句点単位の区間における音声を認識するようにしている。
As described above, the present embodiment is a voice recognition means for recognizing a voice in a voice section in which a person utters a voice (corresponding to the reading
これによれば、音声区間が終了してから次の音声区間が開始される時間によって、句点と読点とを区別して認識し、人の発話中に読点毎に受け答えをすることができる。したがって、人の発話が長い場合であっても、適切な受け答えをすることができる。 According to this, it is possible to distinguish and recognize the punctuation mark and the punctuation mark according to the time when the next voicing period is started after the end of the speech section, and to receive and answer each punctuation mark during the utterance of the person. Therefore, even if a person's utterance is long, it is possible to give an appropriate answer.
また、本実施の形態では、読点単位の音声認識結果に応じた応答音声の発声タイミングと、句点単位の音声認識結果に応じた応答音声の発声タイミングとが競合した場合、句点単位の音声認識結果に応じた応答音声を優先的に発声するようにしている。これによれば、句読点に応じて適切な音声を発話することができる。 Further, in the present embodiment, when the utterance timing of the response voice according to the speech recognition result in units of reading points competes with the utterance timing of the response speech according to the speech recognition result in units of punctuation points, the speech recognition result in units of punctuation points The response voice corresponding to the voice is preferentially uttered. According to this, an appropriate voice can be uttered according to the punctuation marks.
<本発明の他の実施の形態>
上記の実施の形態では、読点及び句点を発話が無い時間(音声の音圧レベルが一定値以下である時間)が所定時間に達したか否かによって判定するようにしていたが、これに限られない。例えば、次に説明する(変形例1)又は(変形例2)のように、読点及び句点を判定するようにしてもよい。
<Other embodiments of the present invention>
In the above embodiment, reading and punctuation are determined based on whether or not the time when there is no utterance (the time during which the sound pressure level of the voice is below a certain value) has reached a predetermined time. I can't. For example, as described below (Modification 1) or (Modification 2), reading marks and punctuation marks may be determined.
(変形例1:周波数による判別)
特定周波数帯域に含まれるスペクトルの割合が第1の割合以下である場合は読点である判断し、特定周波数帯域に含まれるスペクトルの割合が第1の割合よりも低い第2の割合以下である場合は句点であると判断するようにしてよい。例えば、特定周波数帯に含まれるスペクトルの割合が全体の20%以下の場合は読点である判断し、特定周波数帯に含まれるスペクトルの割合が10%以下の場合は句点と判断する。
(Modification 1: Discrimination by frequency)
When the ratio of the spectrum included in the specific frequency band is equal to or less than the first ratio, it is determined as a reading point, and when the ratio of the spectrum included in the specific frequency band is equal to or less than the second ratio lower than the first ratio May be determined to be a punctuation mark. For example, when the ratio of the spectrum included in the specific frequency band is 20% or less of the whole, it is determined as a reading point, and when the ratio of the spectrum included in the specific frequency band is 10% or less, it is determined as a punctuation mark.
具体的には、読点用音声認識部11及び発話タイミング判定部14は、マイク4から出力された音声情報が示す音声において、特定周波数帯域に含まれるスペクトルの割合が第1の割合以下であることを、読点での発話区間の終了として検出する。また、句点用音声認識部21は、マイク4から出力された音声情報が示す音声において、特定周波数帯域に含まれるスペクトルの割合が第2の割合以下であることを、句点での発話区間の終了として検出する。
Specifically, in the voice indicated by the voice information output from the
なお、上記の特定周波数帯域は、人の発話中にスペクトルの割合が高くなると考えられる任意の周波数帯域を予め定めるようにしてよい。 The specific frequency band may be determined in advance as an arbitrary frequency band that is considered to have a high spectrum ratio during human speech.
(変形例2:HMM(Hidden Markov Model:隠れマルコフモデル)による判別)
音声に基づいて読点の尤度(読点らしさ)を算出する読点認識用のHMMと、音声に基づいて句点の尤度(句点らしさ)を算出する句点認識用のHMMと、発話の尤度(発話区間らしさ)を算出する発話認識用のHMM等の各種HMMを予め用意する。そして、音声に基づいて読点認識用のHMMが算出した尤度が一番高い場合、読点であると判定する。音声に基づいて句点認識用のHMMが算出した尤度が一番高い場合、句点であると判定する。音声に基づいて発話認識用のHMMが算出した尤度が一番高い場合、読点でも句点でもなく、発話中であると判定する。
(Modification 2: Discrimination based on HMM (Hidden Markov Model))
HMM for reading recognition that calculates the likelihood (reading likelihood) of a reading point based on speech, HMM for phrase recognition that calculates the likelihood (punctuation likelihood) of phrase based on speech, and the likelihood of speech (utterance) Various HMMs such as an utterance recognition HMM for calculating the section likelihood) are prepared in advance. When the likelihood calculated by the HMM for reading point recognition based on the voice is the highest, it is determined that the reading point is read. When the likelihood calculated by the HMM for recognizing a punctuation based on speech is the highest, it is determined that the punctuation is a punctuation. When the likelihood calculated by the speech recognition HMM based on the speech is the highest, it is determined that the speech is not a punctuation mark nor a punctuation mark.
具体的は、読点認識用のHMM、句点認識用のHMM、及び発話認識用のHMMを予め学習により生成しておき、それらのHMMの情報を記憶部3に格納しておく。読点用音声認識部11及び発話タイミング判定部14は、マイク4から出力された音声情報が示す音声を、各HMMへの入力とし、それらのHMMの出力した尤度において、読点認識用のHMMが算出した尤度が一番高いことを、読点での発話区間の終了として検出する。また、句点用音声認識部21は、マイク4から出力された音声情報が示す音声を、各HMMへの入力とし、それらのHMMの出力した尤度において、句点認識用のHMMが算出した尤度が一番高いことを、句点での発話区間の終了として検出する。
Specifically, an HMM for reading point recognition, an HMM for phrase recognition, and an HMM for speech recognition are generated in advance by learning, and information on these HMMs is stored in the
以上に実施の形態及び他の実施の形態として説明したように、本実施の形態では、人が発声している音声が、読点であるとして予め定めた第1の音声パターン(次の音声区間が開始されない時間が第1の所定時間経過、スペクトルの割合が第1の割合以下、読点認識用のHMMの算出した尤度が一番高い)であると判断した場合に、第1の音声パターンであると判断したときまでの読点単位の区間における音声を認識し、人が発声している音声が、、読点であるとして予め定めた第2の音声パターン(次の音声区間が開始されない時間が第2の所定時間経過、スペクトルの割合が第2の割合以下、句点認識用のHMMの算出した尤度が一番高い)であると判断した場合に、第2の音声パターンであると判断したときまでの読点単位に区間における音声を認識するようにしている。 As described above in the embodiment and the other embodiments, in the present embodiment, the first voice pattern (the next voice section is determined in advance) that the voice uttered by a person is a reading point. When it is determined that the first predetermined time has elapsed, the spectrum ratio is equal to or less than the first ratio, and the likelihood calculated by the HMM for reading mark recognition is the highest) Recognize the voice in the section of the reading point until it is determined that there is a second voice pattern that has been pre-determined that the voice uttered by the person is the reading point (the time when the next voice section is not started) 2 is determined to be the second speech pattern when it is determined that the predetermined time elapses in 2 and the spectrum ratio is equal to or less than the second ratio and the HMM for the phrase recognition is the highest likelihood). Up to the reading unit That is to recognize the voice.
これによれば、第1の音声パターンであるか第2の音声パターンであるかによって、句点と読点とを区別して認識し、人の発話中に読点毎に受け答えをすることができる。したがって、人の発話が長い場合であっても、適切な受け答えをすることができる。 According to this, it is possible to distinguish and recognize a punctuation mark and a reading mark depending on whether it is the first sound pattern or the second sound pattern, and receive and answer each reading mark during a person's utterance. Therefore, even if a person's utterance is long, it is possible to give an appropriate answer.
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。 Note that the present invention is not limited to the above-described embodiment, and can be changed as appropriate without departing from the spirit of the present invention.
1 音声対話システム
2 制御部
3 記憶部
4 マイク
5 スピーカ
6 I/Oポート
11 読点用音声認識部
12 名詞抽出部
13 読点用応答文作成部
14 発話タイミング判定部
21 句点用音声認識部
22 句点用応答文作成部
30 音声合成部
DESCRIPTION OF
Claims (7)
前記音声認識手段による音声認識結果に応じた応答音声を発声する音声発声手段と、を備え、
前記音声認識手段は、
前記外部から入力される音声が、読点であるとして予め定めた第1の音声パターンであるか、句点であるとして予め定めた第2の音声パターンであるかを判断し、
前記第1の音声パターンであると判断した場合には、当該第1の音声パターンであると判断したときまでの読点単位の区間における音声を認識し、
前記第2の音声パターンであると判断した場合には、当該第2の音声パターンであると判断したときまでの句点単位の区間における音声を認識する、
音声対話システム。 Speech recognition means for recognizing speech uttered by a person in speech input from the outside;
Voice utterance means for uttering a response voice according to a voice recognition result by the voice recognition means,
The voice recognition means
Determining whether the externally input voice is a first voice pattern predetermined as a punctuation mark or a second voice pattern predetermined as a punctuation mark;
If it is determined to be the first sound pattern, it recognizes the sound in the reading unit interval until it is determined to be the first sound pattern;
If it is determined to be the second voice pattern, it recognizes the voice in the period of the phrase unit until it is determined to be the second voice pattern.
Spoken dialogue system.
前記人が音声を発声している音声区間を判断し、
前記第1の音声パターンとして、前記音声区間が終了してから次の音声区間が開始されない時間が、第1の所定時間に達したことを判断し、
前記第2の音声パターンとして、前記音声区間が終了してから次の音声区間が開始されない時間が、前記第1の所定時間よりも長い第2の所定時間に達したことを判断する、
請求項1に記載の音声対話システム。 The voice recognition means
Determine the voice segment in which the person is speaking,
As the first voice pattern, it is determined that a time when the next voice section is not started after the end of the voice section has reached a first predetermined time,
Determining, as the second voice pattern, that a time during which the next voice section is not started after the end of the voice section has reached a second predetermined time longer than the first predetermined time;
The speech dialogue system according to claim 1.
請求項1又は2に記載の音声対話システム。 The speech utterance means, when the utterance timing of the response speech according to the speech recognition result in the reading unit and the utterance timing of the response speech in accordance with the speech recognition result in the phrase unit compete, Preferentially utter response voice according to the result,
The voice interaction system according to claim 1 or 2.
前記音声発声手段は、前記読点単位の音声認識結果に応じた応答音声の発声が連続する場合には、前記応答音声として、前記応答文の音声に代えて相槌の音声を発声する、
請求項1乃至3のいずれか1項に記載の音声対話システム。 The voice utterance unit utters a voice of a response sentence for confirming a voice content in the section of the reading point unit as a response voice according to the voice recognition result of the reading point unit,
The voice utterance unit utters a compatible voice instead of the voice of the response sentence as the response voice when the utterance of the response voice according to the voice recognition result of the reading mark unit is continuous.
The voice interaction system according to any one of claims 1 to 3.
前記音声発声手段は、前記読点単位の音声認識結果に応じた応答音声として、前記名詞抽出手段が抽出した名詞を確認する応答文の音声を発声する、
請求項1乃至4のいずれか1項に記載の音声対話システム。 The voice utterance means has a noun extraction means for extracting a noun included in the voice content in the section of the reading point unit based on the voice recognition result of the reading point unit.
The voice utterance means utters the voice of a response sentence for confirming the noun extracted by the noun extraction means as the response voice according to the voice recognition result in reading points.
The spoken dialogue system according to any one of claims 1 to 4.
前記音声発声手段は、
前記第1の音声パターンであると判断したときに前記応答文作成手段によって応答文が作成されている場合には、前記読点単位の音声認識結果に応じた応答音声として、当該作成されている応答文の音声を発声し、
前記応答文作成手段によって応答文が作成されていない場合には、次に前記第1の音声パターンであると判断したときに前記応答文作成手段によって応答文が作成されていれば、前記読点単位の音声認識結果に応じた応答音声として、当該作成されている応答文の音声を発声する、
請求項1乃至5のいずれか1項に記載の音声対話システム。 The voice utterance means has a response sentence creation means for creating a response sentence for confirming the voice content in the section of the reading point unit as the content of the response voice according to the voice recognition result of the reading point unit,
The voice utterance means includes
If a response sentence is created by the response sentence creation means when it is determined that the first voice pattern is the response, the created response is used as a response voice according to the speech recognition result in the reading unit. Speak the sentence,
In the case where a response sentence has not been created by the response sentence creating means, if the response sentence has been created by the response sentence creating means when it is determined that it is the first voice pattern next time, the reading unit Utter the voice of the created response sentence as a response voice according to the voice recognition result of
The voice interaction system according to any one of claims 1 to 5.
前記音声認識ステップによる音声認識結果に応じた応答音声を発声する音声発声ステップと、を備え、
前記音声認識ステップでは、
前記外部から入力される音声が、読点であるとして予め定めた第1の音声パターンであるか、句点であるとして予め定めた第2の音声パターンであるかを判断し、
前記第1の音声パターンであると判断した場合には、当該第1の音声パターンであると判断したときまでの読点単位の区間における音声を認識し、
前記第2の音声パターンであると判断した場合には、当該第2の音声パターンであると判断したときまでの句点単位の区間における音声を認識する、
音声対話方法。 A speech recognition step for recognizing speech uttered by a person in speech input from outside;
A voice utterance step of uttering a response voice according to the voice recognition result of the voice recognition step,
In the voice recognition step,
Determining whether the externally input voice is a first voice pattern predetermined as a punctuation mark or a second voice pattern predetermined as a punctuation mark;
If it is determined to be the first sound pattern, it recognizes the sound in the reading unit interval until it is determined to be the first sound pattern;
If it is determined to be the second voice pattern, it recognizes the voice in the period of the phrase unit until it is determined to be the second voice pattern.
Spoken dialogue method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013228525A JP2015087718A (en) | 2013-11-01 | 2013-11-01 | Voice interaction system and voice interaction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013228525A JP2015087718A (en) | 2013-11-01 | 2013-11-01 | Voice interaction system and voice interaction method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015087718A true JP2015087718A (en) | 2015-05-07 |
Family
ID=53050533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013228525A Pending JP2015087718A (en) | 2013-11-01 | 2013-11-01 | Voice interaction system and voice interaction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015087718A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10971149B2 (en) | 2018-05-11 | 2021-04-06 | Toyota Jidosha Kabushiki Kaisha | Voice interaction system for interaction with a user by voice, voice interaction method, and program |
-
2013
- 2013-11-01 JP JP2013228525A patent/JP2015087718A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10971149B2 (en) | 2018-05-11 | 2021-04-06 | Toyota Jidosha Kabushiki Kaisha | Voice interaction system for interaction with a user by voice, voice interaction method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361763B1 (en) | Detecting system-directed speech | |
JP6066471B2 (en) | Dialog system and utterance discrimination method for dialog system | |
WO2015151157A1 (en) | Device and method for understanding user intent | |
JP5195414B2 (en) | Response generating apparatus and program | |
JP2011033680A (en) | Voice processing device and method, and program | |
US20170345426A1 (en) | System and methods for robust voice-based human-iot communication | |
WO2018078885A1 (en) | Interactive device, interactive method, and interactive computer program | |
US20120078622A1 (en) | Spoken dialogue apparatus, spoken dialogue method and computer program product for spoken dialogue | |
US10504520B1 (en) | Voice-controlled communication requests and responses | |
US11348579B1 (en) | Volume initiated communications | |
US20170337922A1 (en) | System and methods for modifying user pronunciation to achieve better recognition results | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP4491438B2 (en) | Voice dialogue apparatus, voice dialogue method, and program | |
JP2004333543A (en) | System and method for speech interaction | |
JP4700522B2 (en) | Speech recognition apparatus and speech recognition program | |
JP4992925B2 (en) | Spoken dialogue apparatus and program | |
WO2017094913A1 (en) | Natural language processing device and natural language processing method | |
JP5342629B2 (en) | Male and female voice identification method, male and female voice identification device, and program | |
JP2011039222A (en) | Speech recognition system, speech recognition method and speech recognition program | |
JP5493537B2 (en) | Speech recognition apparatus, speech recognition method and program thereof | |
JP6736225B2 (en) | Interactive device, interactive device control method, and program | |
JP2015087718A (en) | Voice interaction system and voice interaction method | |
JP2012255867A (en) | Voice recognition device | |
JP2009116075A (en) | Speech recognition device | |
JPH08263092A (en) | Response voice generating method and voice interactive system |