JP6698423B2 - Response control device, control program, information processing method, and communication system - Google Patents
Response control device, control program, information processing method, and communication system Download PDFInfo
- Publication number
- JP6698423B2 JP6698423B2 JP2016099496A JP2016099496A JP6698423B2 JP 6698423 B2 JP6698423 B2 JP 6698423B2 JP 2016099496 A JP2016099496 A JP 2016099496A JP 2016099496 A JP2016099496 A JP 2016099496A JP 6698423 B2 JP6698423 B2 JP 6698423B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- response
- voice
- phrases
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000004044 response Effects 0.000 title claims description 321
- 238000004891 communication Methods 0.000 title claims description 35
- 230000010365 information processing Effects 0.000 title claims description 5
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 104
- 230000008569 process Effects 0.000 claims description 104
- 238000012545 processing Methods 0.000 claims description 36
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 10
- 239000000470 constituent Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000287531 Psittacidae Species 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Manipulator (AREA)
- Toys (AREA)
Description
本発明は、応答制御装置と、制御プログラムと、情報処理方法と、サーバおよび応答制御装置を備えた通信システムとに関する。 The present invention relates to a response control device, a control program, an information processing method, and a communication system including a server and a response control device.
従来、ユーザとの間で音声対話を行うための音声認識装置が知られている。音声認識装置においては、ユーザからの質問に幅広く対応させるために、膨大な質問内容と応答内容とを予め記憶させておく必要がある。一方、ユーザからの質問は、バラエティに富んでおり、すべてを想定して質問内容と応答内容とを準備することが不可能であった。 Conventionally, a voice recognition device for performing voice conversation with a user is known. In the voice recognition device, it is necessary to store a huge amount of question contents and response contents in advance in order to widely respond to questions from users. On the other hand, the questions from the user are rich in variety, and it is impossible to prepare the question content and the response content assuming all the questions.
このため、たとえば、特開2009−251019号公報(特許文献1)は、入力された音声に対する認識結果の信頼度と、当該認識結果に対応するタスクの影響度とに基づいて、当該認識結果に対する応答内容を決定する音声認識装置を開示している。 Therefore, for example, Japanese Unexamined Patent Application Publication No. 2009-251019 (Patent Document 1) discloses a recognition result for an input voice based on the reliability of the recognition result and the influence degree of a task corresponding to the recognition result. Disclosed is a voice recognition device that determines a response content.
しかしながら、従来の音声認識装置は、想定されていない認識結果に対する応答内容を定めていない。このため、誤認識などにより想定されていない認識結果となった場合には、適切に応答することができず、応答内容の不足を補うことにまで寄与できていなかった。 However, the conventional voice recognition device does not define the response content for an unexpected recognition result. For this reason, when an unexpected recognition result is obtained due to erroneous recognition or the like, it is not possible to appropriately respond, and it has not been possible to contribute to the lack of response content.
本開示は、上記の問題点に鑑みなされたものであって、そのある局面における目的は、応答内容の不足を補うことができる応答制御装置と、制御プログラムと、情報処理方法と、通信システムとを提供することにある。 The present disclosure has been made in view of the above problems, and an object of a certain aspect thereof is to provide a response control device, a control program, an information processing method, and a communication system capable of compensating for lack of response content. To provide.
ある局面に従うと、応答制御装置は、音声の入力を受け付ける音声受付手段と、音声受付手段により受け付けられた音声から特定されるフレーズが、予め定められた複数種類のフレーズのうちのいずれかであるときに、当該フレーズに対応するフレーズ用応答処理を実行する応答処理実行手段とを備え、応答処理実行手段は、音声受付手段により受け付けられた音声から特定されるフレーズが複数種類のフレーズのうちのいずれかと近似するときに、近似する当該フレーズに対応する近似用応答処理を実行する。 According to one aspect, in the response control device, the voice reception unit that receives a voice input and the phrase specified by the voice received by the voice reception unit is one of a plurality of predetermined phrases. And a response process executing means for executing a response process for a phrase corresponding to the phrase, wherein the response process executing means is one of a plurality of types of phrases in which the phrase identified from the voice accepted by the voice accepting means. When approximating any of them, the approximating response process corresponding to the approximating phrase is executed.
他の局面に従うと、制御プログラムは、応答制御装置としてコンピュータを機能させ、コンピュータを上記各手段として機能させる。 According to another aspect, the control program causes a computer to function as a response control device and causes the computer to function as each of the above means.
さらに他の局面に従うと、情報処理方法は、音声の入力を受け付けるステップと、受け付けられた音声から特定されるフレーズが、予め定められた複数種類のフレーズのうちのいずれかであるときに、当該フレーズに対応するフレーズ用応答処理を実行するステップと、受け付けられた音声から特定されるフレーズが複数種類のフレーズのうちのいずれかと近似するときに、近似する当該フレーズに対応する近似用応答処理を実行するステップとを備える。 According to still another aspect, the information processing method includes a step of receiving a voice input, and when the phrase identified from the received voice is one of a plurality of predetermined phrases. A step of executing a response process for a phrase corresponding to the phrase, and an approximation response process corresponding to the approximate phrase when the phrase specified from the received voice approximates one of a plurality of types of phrases. Performing steps.
さらに他の局面に従うと、通信システムは、サーバと、当該サーバと通信可能な応答制御装置とを備える。応答制御装置は、音声の入力を受け付ける音声受付手段と、音声受付手段により受け付けられた音声に対応する音声情報を送信し、サーバからの応答情報を受信する通信手段と、受信した応答情報に基づいて応答処理を実行する応答処理実行手段とを含む。サーバは、予め定められた複数種類のフレーズ各々に対応する応答情報としてフレーズ用応答情報と近似用応答情報とを記憶する記憶手段と、応答制御装置からの音声情報から特定されるフレーズが複数種類のフレーズのうちのいずれかであるときに、当該フレーズに対応するフレーズ用応答情報を応答情報として送信する応答情報送信手段と、応答制御装置からの音声情報から特定されるフレーズが複数種類のフレーズのうちのいずれかと近似するときに、近似する当該フレーズに対応する近似用応答情報を応答情報として送信する近似応答情報送信手段とを含む。 According to still another aspect, the communication system includes a server and a response control device capable of communicating with the server. The response control device includes a voice receiving unit that receives a voice input, a communication unit that transmits voice information corresponding to the voice received by the voice receiving unit and receives response information from the server, and based on the received response information. Response processing executing means for executing response processing according to the present invention. The server stores a plurality of types of phrases specified from a storage unit that stores response information for phrases and response information for approximation as response information corresponding to each of a plurality of types of predetermined phrases, and a phrase specified from voice information from the response control device. Response phrase transmitting means for transmitting the phrase response information corresponding to the phrase as response information, and the phrase specified from the voice information from the response control device has a plurality of types of phrases. And an approximate response information transmitting means for transmitting, as response information, approximate response information corresponding to the approximate phrase.
ある局面によれば、応答内容の不足を補うことができる。 According to one aspect, it is possible to compensate for the lack of response content.
以下、図面を参照しつつ、実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。 Hereinafter, embodiments will be described with reference to the drawings. In the following description, the same parts are designated by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.
[実施の形態1]
<A.システム構成>
図1は、本実施の形態にかかる通信システムの概略構成を説明するための図である。図1を参照して、通信システム1は、携帯端末100(以下、端末100ともいう)と、サーバ装置200とを含む。端末100は、応答制御装置の一例であって、ユーザの音声に対する応答フレーズを出力する処理(音声入力時応答処理)を行なう。以下では、端末100として、プログラムの実行により、筐体を構成する可動部を自動的に動かすことが可能な端末(いわゆる、ロボット型の端末)を例に挙げて説明する。
[Embodiment 1]
<A. System configuration>
FIG. 1 is a diagram for explaining the schematic configuration of the communication system according to the present embodiment. Referring to FIG. 1, communication system 1 includes a mobile terminal 100 (hereinafter, also referred to as terminal 100) and a
具体的には、端末100は、手、足、頭部、胴部等を備える。端末100は、典型的には、歩行可能な自律型の移動体として構成されている。頭部は、胴部に対して所定の角度内において回転可能に構成されている。また、頭部には、カメラが内蔵されている。なお、端末100は、上記のような人型のロボットに限定されるものではない。
Specifically, the
端末100は、ユーザ700によって持ち運ばれることにより、様々な場所で利用される。端末100は、基地局500およびネットワーク600を介して、サーバ装置200と通信する。
The
<B.処理の概要>
以下、通信システム1における処理の概要について説明する。端末100は、ユーザ700から発せられる音声に基づき、音声認識してフレーズを特定する。フレーズとは、たとえば、句、単語、単語の集まりなどをいう。音声認識とは、入力された音声データを対応するフレーズに変換することをいう。端末100は、想定される複数種類のフレーズ(正規のフレーズともいう)に対応する応答フレーズを予め記憶している。端末100は、音声から特定したフレーズに対応する応答フレーズを記憶しているときに、当該応答フレーズを出力する。
<B. Outline of processing>
The outline of the processing in the communication system 1 will be described below. The
また、端末100は、ユーザの発音や周りの騒音などの影響により、音声の一部を誤認識することが生じ得る。このような誤認識に備えて、端末100は、想定される正規のフレーズと近似するフレーズについても、対応する応答フレーズを予め記憶している。近似するフレーズとは、正規のフレーズに対し、たとえば、濁点(「゛」)の有無、促音(「ッ」)の有無、長音符(「ー」)の有無などの点のみにおいて相違しているフレーズをいう。このため、端末100は、特定したフレーズに対応する応答フレーズを記憶していないときであっても、当該フレーズと近似するフレーズに対応する応答フレーズを記憶しているときに、当該応答フレーズを出力する。
Further, the
さらに、端末100は、学習条件が成立したときに、応答フレーズを学習するための学習処理を行なう。学習条件は、記憶されていないフレーズを所定頻度で特定(たとえば、2回連続して特定)したとき、および、予め定められている学習開始フレーズを特定したときなどに成立する。以下に、概要を説明する。
Further, the
図2は、ユーザ700と端末100との会話のやりとりの一例を示す図である。図2に示される吹き出し(ステップM01〜M12)は、ユーザ700から発せられる音声あるいは端末100から出力される音声を示している。また、図2に示される四角囲い(ステップS01〜S13)は、端末100により実行される処理の概要を示している。
FIG. 2 is a diagram showing an example of exchange of conversation between the
まず、音声から特定されるフレーズに対応する応答フレーズが端末100に記憶されている場合について説明する。
ステップM01に示すように、ユーザ700は、端末100に対して、「身長は?」という音声を発したとする。これに対し、端末100では、ユーザ700からのメッセージを音声認識し、当該音声認識の結果に対応する応答フレーズを抽出して出力する。なお、端末100は、音声認識の結果として特定されるフレーズを履歴として記憶する。
First, a case where a response phrase corresponding to a phrase specified by voice is stored in the terminal 100 will be described.
As shown in step M01, it is assumed that the
図2では、ステップS01に示すように、端末100は、ユーザ700からの音声が「シンチョーハ?」であると認識し、当該フレーズに基づいて「シンチョー」について問われていると認識する。
ステップS02では、問われている対象である「シンチョー」と合致する応答フレーズを抽出する。この例では、「シンチョー」と合致する応答フレーズとして、「身長はだいたい19cmだよ。」が記憶されているとする。よって、ステップM02に示すように、端末100は、「身長はだいたい19cmだよ。」といった応答フレーズを出力する。
In FIG. 2, as shown in step S01, the terminal 100 recognizes that the voice from the
In step S02, a response phrase that matches the target "Shincho" is extracted. In this example, it is assumed that “height is about 19 cm” is stored as a response phrase that matches “Shincho”. Therefore, as shown in step M02, the terminal 100 outputs a response phrase such as "height is about 19 cm."
次に、音声から特定されるフレーズに対応する応答フレーズが端末100に記憶されていないが、音声から特定されるフレーズと近似するフレーズ(フレーズ(近似)とも示す)に対応する応答フレーズが記憶されている場合について説明する。
ステップM03に示すように、ユーザ700は、端末100に対して、「体重は?」という音声を発したとする。これに対し、ステップS03に示すように、端末100は、1文字目に濁点が付いた「ダイジューハ?」であると誤認識したとする。
Next, although the response phrase corresponding to the phrase specified by the voice is not stored in the terminal 100, the response phrase corresponding to the phrase similar to the phrase specified by the voice (also referred to as phrase (approximate)) is stored. The case will be described.
As shown in step M03, it is assumed that the
しかし、「ダイジュー」という意味を成さない文言と合致するフレーズは、設計段階において想定されておらず記憶されていない。このような場合、端末100は、音声から特定されるフレーズと近似するフレーズが記憶されているか否かを判定し、近似するフレーズが記憶されている場合には当該近似するフレーズに対応する応答フレーズを抽出して出力する。端末100は、音声認識の結果に基づいて特定されるフレーズと濁点・促音・長音符などの有無の点において相違するフレーズが記憶されているか否かを判定する。 However, a phrase that matches the wording that does not mean “daiju” is not assumed at the design stage and is not stored. In such a case, the terminal 100 determines whether or not a phrase similar to the phrase specified by the voice is stored, and if a similar phrase is stored, the response phrase corresponding to the similar phrase is stored. Is extracted and output. The terminal 100 determines whether or not a phrase that differs from the phrase identified based on the result of voice recognition in terms of the presence or absence of a dakuten, a consonant, a long note, etc. is stored.
図2の例では、「ダイジュー」の一文字目の「ダ」の濁点を除いた「タイジュー」が記憶されているとする。この場合、端末100は、「ダイジュー」が「タイジュー」と近似していると判定し、ステップM04に示されるように、近似する「タイジュー」と合致する応答フレーズを抽出する。この例では、近似する「タイジュー」と合致する応答フレーズとして、「ひょっとして体重のこと?体重はだいたい300gだよ。」が記憶されているとする。このため、ステップM04に示すように、端末100は、「ひょっとして体重のこと?体重はだいたい300gだよ。」といった応答フレーズを出力する。 In the example of FIG. 2, it is assumed that “daiju”, which is the first character of “dai”, is stored, excluding the dakuten of “da”. In this case, the terminal 100 determines that “daiju” is close to “taiju”, and extracts a response phrase that matches the approximate “taiju” as shown in step M04. In this example, it is assumed that “maybe the weight? The weight is about 300 g.” is stored as the response phrase that matches the approximate “Taiju”. For this reason, as shown in step M04, the terminal 100 outputs a response phrase such as "maybe the weight? The weight is about 300g."
次に、音声から特定されるフレーズに対応する応答フレーズも近似するフレーズに対応する応答フレーズも記憶されていない場合について説明する。
ステップM05に示すように、ユーザ700は、端末100に対して、「足の大きさは?」という音声を発したとする。これに対し、ステップS05に示すように、端末100は、ユーザ700からの音声が「アシノオオキサハ?」であると正しく認識したとする。
Next, a case will be described in which a response phrase corresponding to a phrase specified from a voice and a response phrase corresponding to a similar phrase are not stored.
As shown in step M05, the
しかし、「アシノオオキサハ?」について問われることが設計段階において想定されていないときには、「アシノオオキサハ?」というフレーズが記憶されておらず、当該フレーズと近似するフレーズも記憶されていないことになる。 However, when it is not assumed in the design stage that the question about “Ashino Oxaha?” is expected, the phrase “Ashino Oxaha?” is not stored, and the phrase close to the phrase is not stored.
この場合、端末100は、ステップS06において特定されたフレーズに対応する応答フレーズがないと判定し、ステップS07において、「アシノオオキサハ?」という音声認識の結果そのものを履歴として記憶する。その上で、端末100は、不明なフレーズを特定した場合の応答フレーズを出力する。不明なフレーズを特定した場合の応答フレーズとしては、再度の発話を促すフレーズが定められており、たとえば、ステップM06に示すように「よく聞こえなかったよ。」というフレーズが定められている。端末100は、当該応答フレーズを出力するとともに、首を傾げるポーズをとるように頭部を駆動させる。 In this case, the terminal 100 determines that there is no response phrase corresponding to the phrase specified in step S06, and in step S07, the result itself of the voice recognition "Ashino Oxah?" is stored as a history. Then, the terminal 100 outputs a response phrase when an unknown phrase is specified. As a response phrase when an unknown phrase is specified, a phrase for prompting another utterance is defined, for example, a phrase "I didn't hear well" is defined as shown in step M06. The terminal 100 outputs the response phrase and drives the head so as to take a pose of tilting the neck.
ステップM07に示すように、不明なフレーズが特定された状況において、ユーザ700が再度「足の大きさは?」という音声を発した場合、端末100は、ステップS08、S09に示すように、前回と同様に応答フレーズが記憶されていないと判定する。続いて、今回の音声認識の結果がステップS07において記憶された直近(前回)の音声認識の結果と合致するか否かを判定する。
As shown in step M07, in a situation in which an unknown phrase is specified, when the
ステップS10で示すように、端末100は、今回の音声認識の結果が前回の音声認識の結果と合致すると判定した場合は、音声を誤認識したのではなく、ユーザ700が意図して「足の大きさは?」と発話している蓋然性が高いため、以下に示すような学習処理を行なう。
As shown in step S10, when the terminal 100 determines that the result of the current voice recognition matches the result of the previous voice recognition, the terminal 100 does not recognize the voice erroneously, and the
まず、ステップM08に示すように、端末100は、特定された不明なフレーズに基づき「「アシノオオキサハ?」と聞かれたらなんて答えたらいい?」といった応答フレーズを出力する。このように、オウム返しのように応答するため、ユーザにとって意味が分からないことを問いかけてしまうことを防止できる。この問い掛けに対して、ステップM09に示すように、ユーザ700は、「5cmだよ。」という音声を発したとする。
First, as shown in step M08, what should the terminal 100 answer when asked ""Ashino Ooxaha?", based on the specified unknown phrase. The response phrase such as "is output. In this way, since a response such as a parrot return is made, it is possible to prevent the user from inquiring about something that does not make sense. In response to this inquiry, as shown in step M09, it is assumed that the
ステップS11に示すように、端末100は、ユーザ700からの音声が「ゴセンチメートルダヨ」であると認識し、その結果に基づいて、ステップM10に示すように「「ゴセンチメートルだよ」と答えればいい?」といった応答フレーズを出力する。この問い掛けに対して、ステップM11に示すように、ユーザ700は、「オーケー(OK)」という音声を発したとする。これに対し、ステップS12に示すように、端末100は、その音声を「オーケー」と認識した場合、ステップS13に示すように、「アシノオオキサハ?」の応答フレーズとして「ゴセンチメートルダヨ」というフレーズを記憶した上で、ステップM12に示すように「わかったよ。」といった応答フレーズを出力する。
As shown in step S11, the terminal 100 recognizes that the voice from the
このような学習処理が行なわれることにより、以後、端末100は、音声認識の結果として「アシノオオキサハ?」を特定したときには、応答フレーズとして記憶されている「ゴセンチメートルダヨ」を出力することができる。また、音声認識の結果が「アシノオオキサ」と近似する結果となったとき(たとえば、「アジノオオキサ」など)にも、応答フレーズとして「ひょっとしてアシノオオキサのこと?アシノオオキサはゴセンチメートルダヨ。」を出力するようにしてもよい。 By performing such a learning process, thereafter, when the terminal 100 specifies “Ashino Oxaha?” as a result of the voice recognition, the terminal 100 can output “Gocentimeter Dayo” stored as the response phrase. .. Also, when the result of the voice recognition is similar to "Ashinoooxa" (for example, "Azinoooxa"), the response phrase "Hello by chance? You may do so.
以上のように、端末100は、ユーザ700から発せられる音声に基づいて特定したフレーズに対応する応答フレーズが記憶されているときには、当該応答フレーズを出力する(ステップS01、S02、M02)。また、端末100は、特定したフレーズに対応する応答フレーズが記憶されていないときであっても、当該フレーズと近似するフレーズに対応する応答フレーズが記憶されているときには当該応答フレーズを出力する(ステップS03、S04、M04)。さらに、端末100は、近似するフレーズに対応する応答フレーズも記憶されていないときであって、当該特定したフレーズが所定頻度で認識(たとえば、2回連続して認識)されたときに、当該フレーズに対応する応答フレーズを学習するための学習処理を行なう(ステップS05〜S13、M06〜M12)。
As described above, when the response phrase corresponding to the phrase specified based on the voice uttered by the
<C.ハードウェア構成>
図3は、端末100のハードウェア構成の一例を表した図である。図3を参照して、端末100は、主たる構成要素として、プログラムを実行するCPU(Central Processing Unit)151と、データを不揮発的に格納するROM(Read-Only Memory)152と、CPU151によるプログラムの実行により生成されたデータ、又は入力装置を介して入力されたデータを揮発的に格納するRAM(Random Access Memory)153と、データを不揮発的に格納するフラッシュメモリ154と、LED(Light Emitting Diode)155と、操作キー156と、スイッチ157と、GPS(Global Positioning System)受信機158と、通信IF(Interface)159と、電源回路160と、タッチスクリーン161と、マイク162と、スピーカ163と、カメラ164と、駆動装置165と、アンテナ1581,1591とを含む。各構成要素は、相互にデータバスによって接続されている。
<C. Hardware configuration>
FIG. 3 is a diagram showing an example of the hardware configuration of the terminal 100. Referring to FIG. 3,
タッチスクリーン161は、ディスプレイ1611と、タッチパネル1612により構成される。アンテナ1581は、GPS受信機158用のアンテナである。アンテナ1591は、通信IF159用のアンテナである。
The
LED155は、端末100の動作状態を表す各種の表示ランプである。たとえば、LED155は、端末100の主電源のオンまたはオフ状態、およびフラッシュメモリ154への読み出しまたは書き込み状態等を表す。
The
操作キー156は、端末100のユーザが主電源のオンまたはオフ等するためのキー(操作ボタン)である。スイッチ157は、電源回路160に給電を行なうか否かを切替えるための主電源用のスイッチ、およびその他の各種の押しボタンスイッチである。
The
GPS受信機158は、4つ以上のGPS衛星からの電波に基づき、端末100の現在位置の位置情報を取得する。GPS受信機158によって取得された位置情報は、通信ID159を介して、サーバ装置200に送信される。端末100による位置情報の取得の開始タイミングについては、後述する。
The
通信IF159は、サーバ装置200に対するデータの送信処理およびサーバ装置200から送信されたデータの受信処理を行なう。
The communication IF 159 performs a data transmission process for the
電源回路160は、コンセントを介して受信した商用電源の電圧を降圧し、端末100の各部に電源供給を行なう回路である。
The
タッチスクリーン161は、各種のデータを表示および入力を受け付けるためのデバイスである。ディスプレイ1611は、画像を表示するための画面を含んで構成されている。
The
マイク162は、端末100の周囲の音を集音する。たとえば、マイク162は、ユーザ700の発話に基づく音声を集める。
The
スピーカ163は、応答フレーズに対応する音声を出力する。スピーカ163は、ある局面においては、ユーザ等とのコミュニケーションのために、発話を行なう。
The
カメラ164は、端末100の周囲の被写体を撮像するための撮像装置である。カメラ164による撮像により得られた画像データは、通信ID159を介して、サーバ装置200に送信される。
The
駆動装置165は、端末100の手、足、頭部を駆動させるための駆動機構である。なお、駆動装置165により足が駆動されることにより、端末100は歩行する。また、駆動装置165によって頭部が胴部に対して回転することにより、カメラ164の向きが代わる。また、端末100は、駆動装置165によって頭部の角度を変化させることにより、首を傾げるポーズが可能となる。
The
端末100における処理(たとえば、音声入力時応答処理)は、各ハードウェアおよびCPU151により実行されるソフトウェア(制御プログラム)によって実現される。このようなソフトウェアは、フラッシュメモリ154に予め記憶されている場合がある。また、ソフトウェアは、その他の記憶媒体に格納されて、プログラムプロダクトとして流通している場合もある。あるいは、ソフトウェアは、いわゆるインターネットに接続されている情報提供事業者によってダウンロード可能なプログラムプロダクトとして提供される場合もある。このようなソフトウェアは、読取装置によりその記憶媒体から読み取られて、あるいは、通信IF159等を介してダウンロードされた後、フラッシュメモリ154に一旦格納される。そのソフトウェアは、CPU151によってフラッシュメモリ154から読み出され、RAM153に実行可能なプログラムの形式で格納される。CPU151は、そのプログラムを実行する。
The process (for example, voice input response process) in the terminal 100 is realized by each hardware and software (control program) executed by the
同図に示される端末100を構成する各構成要素は、一般的なものである。したがって、本開示の本質的な部分は、RAM153、フラッシュメモリ154、記憶媒体に格納されたソフトウェア、あるいはネットワークを介してダウンロード可能なソフトウェアであるともいえる。なお、端末100の各ハードウェアの動作は周知であるので、詳細な説明は繰り返さない。
The respective constituent elements that make up the terminal 100 shown in the figure are general ones. Therefore, it can be said that the essential part of the present disclosure is the software stored in the
なお、記録媒体としては、DVD(Digital Versatile Disc)−RAMに限られず、DVD-ROM、CD(Compact Disc)−ROM、FD(Flexible Disc)、ハードディスク、磁気テープ、カセットテープ、光ディスク、EEPROM(Electrically Erasable Programmable ROM)、フラッシュROMなどの半導体メモリ等の固定的にプログラムを担持する媒体でもよい。また、記録媒体は、当該プログラム等をコンピュータが読取可能な一時的でない媒体である。また、ここでいうプログラムとは、CPUにより直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。 The recording medium is not limited to a DVD (Digital Versatile Disc)-RAM, but may be a DVD-ROM, a CD (Compact Disc)-ROM, an FD (Flexible Disc), a hard disk, a magnetic tape, a cassette tape, an optical disk, or an EEPROM (Electrically). It may be a medium such as an Erasable Programmable ROM) or a semiconductor memory such as a flash ROM that fixedly carries a program. The recording medium is a non-transitory medium in which the program and the like can be read by a computer. Further, the program mentioned here includes not only a program directly executable by the CPU but also a program in a source program format, a compressed program, an encrypted program, and the like.
図4は、サーバ装置200のハードウェア構成の一例を表した図である。図4を参照して、サーバ装置200は、主たる構成要素として、プログラムを実行するCPU251と、データを不揮発的に格納するROM252と、CPU251によるプログラムの実行により生成されたデータ、又は入力装置を介して入力されたデータを揮発的に格納するRAM253と、データを不揮発的に格納するHDD(Hard Disc Drive)254と、LED255と、スイッチ256と、通信IF(Interface)257と、電源回路258と、ディスプレイ259と、操作キー260とを含む。各構成要素は、相互にデータバスによって接続されている。
FIG. 4 is a diagram showing an example of a hardware configuration of the
電源回路258は、コンセントを介して受信した商用電源の電圧を降圧し、サーバ装置200の各部に電源供給を行なう回路である。スイッチ256は、電源回路258に給電を行なうか否かを切替えるための主電源用のスイッチ、およびその他の各種の押しボタンスイッチである。ディスプレイ259は、各種のデータを表示するためのデバイスである。
The
通信IF257は、端末100に対するデータの送信処理および端末100から送信されたデータの受信処理を行なう。 The communication IF 257 performs a data transmission process for the terminal 100 and a data reception process for the data transmitted from the terminal 100.
LED255は、サーバ装置200の動作状態を表す各種の表示ランプである。たとえば、LED255は、サーバ装置200の主電源のオンまたはオフ状態、およびHDD254への読み出しまたは書き込み状態等を表す。操作キー260は、サーバ装置200のユーザがサーバ装置200へデータを入力するための用いるキー(キーボード)である。
The
サーバ装置200における処理は、各ハードウェアおよびCPU251により実行されるソフトウェアによって実現される。このようなソフトウェアは、HDD254に予め記憶されている場合がある。また、ソフトウェアは、その他の記憶媒体に格納されて、プログラムプロダクトとして流通している場合もある。あるいは、ソフトウェアは、いわゆるインターネットに接続されている情報提供事業者によってダウンロード可能なプログラムプロダクトとして提供される場合もある。このようなソフトウェアは、読取装置によりその記憶媒体から読み取られて、あるいは、通信IF257等を介してダウンロードされた後、HDD254に一旦格納される。そのソフトウェアは、CPU251によってHDD254から読み出され、RAM253に実行可能なプログラムの形式で格納される。CPU251は、そのプログラムを実行する。
The processing in the
同図に示されるサーバ装置200を構成する各構成要素は、一般的なものである。したがって、本開示の本質的な部分は、RAM253、HDD254、記憶媒体に格納されたソフトウェア、あるいはネットワークを介してダウンロード可能なソフトウェアであるともいえる。なお、サーバ装置200の各ハードウェアの動作は周知であるので、詳細な説明は繰り返さない。
The respective constituent elements of the
なお、記録媒体としては、DVD−RAMに限られず、DVD-ROM、CD−ROM、FD、ハードディスク、磁気テープ、カセットテープ、光ディスク、EEPROM、フラッシュROMなどの半導体メモリ等の固定的にプログラムを担持する媒体でもよい。また、記録媒体は、当該プログラム等をコンピュータが読取可能な一時的でない媒体である。また、ここでいうプログラムとは、CPUにより直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含む。 The recording medium is not limited to the DVD-RAM, and the program is fixedly carried such as a DVD-ROM, a CD-ROM, an FD, a hard disk, a magnetic tape, a cassette tape, an optical disk, an EEPROM, or a flash ROM. It may be a medium. The recording medium is a non-transitory medium in which the program and the like can be read by a computer. Further, the program mentioned here includes not only a program directly executable by the CPU but also a program in a source program format, a compressed program, an encrypted program, and the like.
<D.機能的構成>
図5は、端末100の機能的構成を説明するための機能ブロック図である。図5を参照して、端末100は、制御部111と、記憶部112と、駆動部115と、音声入力部116と、音声出力部117と、通信処理部118とを備えている。なお、端末100には、位置情報取得部113および撮像部114なども備えており、さらにその他の機能的構成を備えるものであってもよい。
<D. Functional configuration>
FIG. 5 is a functional block diagram for explaining the functional configuration of the terminal 100. Referring to FIG. 5,
音声入力部116は、端末100の周囲の音を集め、集められた音声を音声データとして制御部111に送る。音声入力部116は、たとえばマイク162により構成されている。音声出力部117は、応答フレーズに対応する音声を出力する。音声出力部117は、たとえばスピーカ163により構成されている。
The
記憶部112は、各種の制御プログラムを記憶するとともに、応答フレーズDB(Data Base)1121と、音声認識結果DB1122と、学習結果DB1123とを有している。記憶部112は、たとえばRAM153などにより構成されている。
The
応答フレーズDB1121は、設計段階から想定されている複数種類のフレーズ(正規のフレーズ)に対応する応答フレーズ、および複数種類のフレーズ(正規のフレーズ)各々と近似する場合の応答フレーズなどを記憶する。音声認識結果DB1122は、ユーザから発せられた音声に基づく音声認識の結果を記憶する。学習結果DB1123は、学習処理により新たに追加されたフレーズに対応する応答フレーズを記憶する。以下に具体例を説明する。
The response phrase DB 1121 stores a response phrase corresponding to a plurality of types of phrases (regular phrases) assumed from the design stage, a response phrase in the case of approximating each of the plurality of types of phrases (regular phrases), and the like. The voice recognition result DB 1122 stores the result of voice recognition based on the voice uttered by the user. The
図6は、記憶部112に記憶されている応答フレーズDB1121、音声認識結果DB1122、および学習結果DB1123の概略構成を説明するための図である。図6(a)を参照して、応答フレーズDB1121は、フレーズと、当該フレーズに対応する応答フレーズとを含む。
FIG. 6 is a diagram for explaining a schematic configuration of the response phrase DB 1121, the voice recognition result DB 1122, and the
フレーズとしては、たとえば、「シンチョー」「タイジュー」など複数種類のフレーズ(フレーズ(合致))、複数種類のフレーズ各々に近似するフレーズ(フレーズ(近似)、および学習開始フレーズである「ヘンジオボエテ」などが記憶されている。また、それぞれのフレーズに対しては、応答フレーズが記憶されている。たとえば、「シンチョー(合致)」に対しては、図2のM02で示したとおり、「身長はだいたい19cmだよ。」というメッセージが記憶されている。また、「タイジュー(近似)」に対しては、図2のM04で示したとおり、「ひょっとして体重のこと?体重はだいたい300gだよ。」というメッセージが記憶されている。また、学習開始フレーズに対しては、「オーケー、まずは覚える言葉を教えてね。」というメッセージが記憶されている。その他、不明なフレーズや学習処理中のフレーズに対しては、たとえば図2のステップM06、M08、M10、M12などに示すような応答フレーズが記憶されている。 Examples of phrases include multiple types of phrases (phrases (matches)) such as "Shincho" and "Taiju", phrases (phrases (approximation)) that are close to each of multiple types of phrases, and "Hengio Boete" that is a learning start phrase. In addition, a response phrase is stored for each phrase.For example, for "Shincho (match)", as shown in M02 of Fig. 2, "height is about 19 cm. As for the "Taiju (approximate)", as indicated by M04 in Fig. 2, "maybe weight? Weight is about 300g." For the learning start phrase, the message "OK, please tell me the words to remember first." is stored. In addition, for unknown phrases and phrases in the process of learning On the other hand, response phrases such as those shown in steps M06, M08, M10 and M12 of FIG. 2 are stored.
図6(b)を参照して、音声認識結果DB1122は、音声認識の結果により特定されたフレーズを含む。図6(b)の例では、図2のステップS01、S03、S05、S08、S11、S12における音声認識の結果により特定されたフレーズが記憶される。 Referring to FIG. 6B, the voice recognition result DB 1122 includes a phrase specified by the result of voice recognition. In the example of FIG. 6B, the phrase specified by the result of the voice recognition in steps S01, S03, S05, S08, S11, and S12 of FIG. 2 is stored.
図6(c)を参照して、学習結果DB1123は、学習により追加されたフレーズと、当該フレーズに対応する応答フレーズとを含む。図6(c)の例では、図2のステップS13により、追加フレーズ「アシノオオキサハ?」に対して応答フレーズ「ゴセンチメートルダヨ。」が記憶されている。
With reference to FIG. 6C, the
応答フレーズDB1121の記憶情報は、サーバ装置200から定期的に送信される更新用データに基づきアップデートされる。これにより、フレーズおよび応答フレーズを更新することができる。更新用データは、サーバ装置200を管理する管理者などにより入力されたフレーズおよび応答フレーズを特定するためのデータである。
The stored information in the response phrase DB 1121 is updated based on the update data periodically transmitted from the
また、学習結果DB1123の記憶情報は、サーバ装置200に送信可能である。サーバ装置200は、端末100からの学習結果DB1123の記憶情報を含む更新用データを他の端末に送信する。これにより、端末100において学習させた内容を、他の端末にも反映させることができる。
Further, the storage information of the
図5に戻り、制御部111は、端末100の全体の動作を制御する。制御部111は、音声認識部1110と、発話内容決定部1111と、近似判定部1112と、学習機能部1113と、駆動制御部1114と、表示制御部1115とを有する。制御部111は、たとえばCPU151などにより構成されている。
Returning to FIG. 5, the
音声認識部1110は、音声入力部116により入力された音声データに基づいて、フレーズを特定するための音声認識を行なう機能を有している。
The
発話内容決定部1111は、音声出力部116から出力する応答フレーズを決定する機能を有している。具体的に、発話内容決定部1111は、音声認識部1110により特定されたフレーズに対応する応答フレーズが応答フレーズDB1121あるいは学習結果DB1123に記憶されているか否かを判定し、記憶されているときには当該応答フレーズに決定する。
The utterance
近似判定部1112は、音声認識部1110により特定されたフレーズと近似する正規のフレーズが応答フレーズDB1121あるいは学習結果DB1123に記憶されているか否かを判定する。具体的に、近似判定部1112は、音声認識部1110により特定されたフレーズと、濁点・促音・長音符などの有無の点のみにおいて相違しているフレーズが記憶されているか否かを判定する。
The
発話内容決定部1111は、特定されたフレーズに対応する応答フレーズが記憶されていないときであっても、近似判定部1112により当該フレーズと近似するフレーズが記憶されていると判定されたときには、当該近似するフレーズに対応する応答フレーズに決定する。
Even if the response phrase corresponding to the specified phrase is not stored, the utterance
学習機能部1113は、学習条件が成立したときに学習処理を実行する機能を有している。学習機能部1113は、たとえば、応答フレーズDB1121および学習結果DB1123に記憶されていないフレーズが2回連続して認識されることなどにより学習条件が成立したと判定したときに、当該フレーズに対応する応答フレーズを学習結果DB1123に記憶する。
The
駆動制御部1113は、端末100の駆動部115を駆動させる機能を有する。これにより、端末100は、可動部を動かすことが可能となる。表示制御部1115は、端末100の表示部119に各種の情報を表示させる機能を有する。
The
通信処理部118は、ネットワーク600を介したサーバ装置200との通信に用いられる。通信処理部118は、データをサーバ装置200に送信するための送信部1181と、データをサーバ装置200から受信するための受信部1182とを有する。
The
<E.処理の詳細>
図7は、端末100のCPU151が実行する音声入力時応答処理の流れを説明するためのフローチャートである。CPU151は、ユーザ700から音声が発せられて、音声入力部116から音声データが入力されたときに音声入力時応答処理を実行する。CPU151の音声認識部1110は、入力された音声データに基づいて音声認識し、フレーズを特定する。
<E. Processing details>
FIG. 7 is a flowchart for explaining the flow of the voice input response process executed by the
図7を参照して、ステップS100においては、特定されたフレーズを探す処理が行なわれる。具体的には、特定されたフレーズあるいは近似するフレーズが応答フレーズDB1121および学習結果DB1123に記憶されているか否かを判定する。
Referring to FIG. 7, in step S100, a process of searching for the specified phrase is performed. Specifically, it is determined whether the specified phrase or a similar phrase is stored in the response phrase DB 1121 and the
ステップS101においては、CPU151は、特定されたフレーズそのものと合致するフレーズが記憶されているか否かを判定する。ステップS101において合致するフレーズが記憶されていると判定されたときには、CPU151は、ステップS102において当該フレーズに対応して記憶されている応答フレーズを出力する。これにより、音声出力部117から応答フレーズを出力させることができる。これにより、端末100は、ユーザ700からの発話から特定されるフレーズに対する応答を行なうことができる。
In step S101, the
一方、ステップS101において合致するフレーズが記憶されていないと判定されたときには、ステップS103において、CPU151は、特定されたフレーズと近似するフレーズが記憶されているか否かを判定する。ステップS103において近似するフレーズが記憶されていると判定されたときには、ステップS104において、CPU151は、当該近似するフレーズに対応して記憶されている応答フレーズを出力する。これにより、ユーザ700からの発話から特定されるフレーズが記憶されていない場合であっても、端末100は、当該フレーズと近似するフレーズに対する応答を行なうことができる。その結果、音声から特定されるフレーズそのものに対応する応答フレーズが準備されていない場合であっても、端末100は、ユーザ700に応答することでき、応答フレーズの不足を補うことができる。
On the other hand, when it is determined in step S101 that the matching phrase is not stored, in step S103, the
ステップS103において近似するフレーズが記憶されていないと判定されたときには、ステップS105において、CPU151は、特定されたフレーズが学習処理を開始するための学習開始フレーズであるか否かを判定する。学習開始フレーズとは、たとえば、「返事覚えて(ヘンジオボエテ)」、「言葉覚えて(コトバオボエテ)」などである。
When it is determined in step S103 that a similar phrase is not stored, in step S105, the
ステップS105において学習開始フレーズであると判定されなかったときには、ステップS106において、CPU151は、今回の音声認識の結果そのもののフレーズを音声認識結果DB1122に記憶する。これにより、端末100は、音声認識の結果の履歴を蓄積することができる。なお、合致するフレーズあるいは近似するフレーズが記憶されているときにも、音声認識の結果は履歴として蓄積される。
When it is not determined in step S105 that the phrase is the learning start phrase, in step S106, the
ステップS107においては、CPU151は、今回の音声認識の結果が前回の音声認識の結果と合致するか否かを判定する。つまり、2回連続で同じフレーズが特定されたか否かが判定される。ステップS107において、前回の音声認識の結果と合致しないと判定されたときには、ステップS109において、CPU151は、「よく聞こえなかったよ。」を応答フレーズとして出力するとともに、首を傾げるポーズをとるように頭部を駆動させる。これにより、ユーザに再度の発話を促すことができる。
In step S107, the
一方、ステップS107において今回の音声認識の結果が前回の音声認識の結果と合致すると判定されて学習条件が成立したときには、CPU151は、制御をステップS108へ移行して、学習処理を実行する。2回連続で同じフレーズが特定されることにより実行される学習処理では、CPU151は、図2のステップM08〜M12、S11〜S13に例示する発話・応答を行なうことにより、今回の音声認識の結果に基づくフレーズに対応する応答フレーズを学習結果DB1123に記憶する。このように、不明なフレーズが所定頻度で特定されたときに学習処理が実行されるため、不適切な問い返しおよび学習が行なわれてしまうことを防止できる。以降においては、音声から特定されるフレーズが学習処理で追加したフレーズとなったときに、端末100は、対応する応答フレーズを出力することができる。
On the other hand, when it is determined in step S107 that the result of the current voice recognition matches the result of the previous voice recognition and the learning condition is satisfied, the
ステップS105に戻り、学習開始フレーズであると判定されたときには、CPU151は、制御をステップS108へ移行して、学習処理を実行する。学習開始フレーズとなることにより実行される学習処理では、たとえば、以下のような発話・応答が行なわれる。
端末100の応答内容:オッケー、まずは覚える言葉を教えてね。
ユーザ700の発話内容:「○△×□」だよ。
端末100の応答内容:「○△×□」だね?「○△×□」って言われたら、なんて返事したらいい?返事する言葉を教えてね。
ユーザ700の発話内容:「△△×※○□」でいいよ。
端末100の応答内容:「△△×※○□」だね。オッケー、覚えたよ。
Returning to step S105, when it is determined that the phrase is the learning start phrase, the
Response from terminal 100: Okay, first of all, please tell me the words to remember.
Utterance content of the user 700: It is “○Δ×□”.
Response content of the terminal 100: "○△×□", right? What should I reply when asked "○△×□"? Please tell me the words to reply.
Utterance content of the user 700: “ΔΔ×*○□” is acceptable.
The response content of the terminal 100: "△△×※○□". Okay, I remember.
このような学習処理が行なわれることにより、端末100は、音声認識の結果に基づくフレーズ(○△×□)に対応する応答フレーズ(△△×※○□)を学習結果DB1123に記憶する。これにより、以降において学習処理で追加したフレーズ(○△×□)となったときに、対応する応答フレーズ(△△×※○□)を出力することができる。
By performing such learning processing, the terminal 100 stores in the
[実施の形態2]
上記実施の形態1においては、端末100単独で音声入力時応答処理を実行可能な例について説明したが、これに限らず、サーバ装置200と通信することにより音声入力時応答処理が実行可能となるようにしてもよい。
[Second Embodiment]
In the first embodiment, the example in which the terminal 100 alone can execute the voice input response process has been described, but the present invention is not limited to this, and the voice input response process can be executed by communicating with the
たとえば、図5に示した記憶部112、発話内容決定部1111、学習機能部1113を、サーバ装置200が備えるようにしてもよい。この場合における端末100およびサーバ装置200の機能的構成を例示する。図8は、端末100およびサーバ装置200の機能的構成を説明するための機能ブロック図である。
For example, the
図8に示すように、サーバ装置200は、制御部211と、記憶部212と、通信処理部213とを備えている。記憶部212は、応答フレーズDB2121、音声認識結果DB2122、および学習結果DB2123を有している。応答フレーズDB2121、音声認識結果DB2122、および学習結果DB2123は、各々、実施の形態1における応答フレーズDB1121、音声認識結果DB1122、および学習結果DB1123に相当する。
As shown in FIG. 8, the
制御部211は、たとえば、発話内容決定部2111、近似判定部2112、および学習機能部2113を有する。発話内容決定部2111、近似判定部2112、および学習機能部2113は、各々、実施の形態1における発話内容決定部1111、近似判定部1112、および学習機能部1113に相当する。
The
通信処理部213は、ネットワーク600を介した端末100との通信に用いられる。通信処理部213は、データを端末100に送信するための送信部2131と、データを端末100から受信するための受信部2132とを有する。
The
次に、音声入力時応答処理の概要について説明する。端末100は、ユーザ700から発せられる音声に基づいてフレーズを特定し、当該フレーズを特定可能なフレーズデータを送信部1181を介してサーバ装置200へ送信する。
Next, an outline of the voice input response process will be described. The terminal 100 specifies a phrase based on the voice uttered by the
サーバ装置200は、フレーズデータを受信すると、当該フレーズデータから特定されるフレーズに基づいて発話内容決定部2111により応答フレーズを決定する。発話内容決定部2111は、特定されるフレーズに対応する応答フレーズが記憶部212に記憶されているか否かを判定し、当該フレーズに対応する応答フレーズが記憶されているときには、当該応答フレーズを特定可能な応答データを送信部2131を介して端末100へ送信する。これにより、端末100は、特定されたフレーズに対応する応答フレーズを出力することができる。
When the
また、発話内容決定部2111は、特定したフレーズに対応する応答フレーズが記憶されていないときであっても、近似判定部2112により当該フレーズと近似すると判定されたフレーズに対応する応答フレーズが記憶されているときには、当該応答フレーズを特定可能な応答データを送信部2131を介して端末100へ送信する。これにより、端末100は、特定されたフレーズと近似するフレーズに対応する応答フレーズを出力することができる。
The utterance
さらに、発話内容決定部2111により、特定したフレーズおよび近似するフレーズに対応する応答フレーズが記憶されていないと判定されたときであっても、当該特定したフレーズが所定頻度で認識(たとえば、2回連続して認識)されたときには、学習機能部2113は、当該フレーズに対応する応答フレーズを学習するための学習処理を行なう。具体的には、学習機能部2113は、図2のステップM08〜M12、S11〜S13に例示する発話・応答を行なうための処理を実行する。
Further, even when the utterance
また、発話内容決定部2111は、特定したフレーズが学習開始フレーズであったときにも実施の形態1で説明した学習開始フレーズ判定時の発話・応答を行なうための処理を実行する。
Further, the utterance
この場合、学習結果DB2123の記憶情報は、端末毎(たとえば、端末を識別可能な識別番号毎)に特定可能に記憶されているものであってもよく、すべての端末間で共有可能となるように記憶されているものであってもよい。 In this case, the storage information of the learning result DB 2123 may be stored so that it can be specified for each terminal (for example, for each identification number that can identify the terminal), and can be shared among all the terminals. May be stored in.
なお、サーバ装置200と通信することにより音声入力時応答処理が実行可能となる例として、図5に示した記憶部112、発話内容決定部1111、学習機能部1113のみならず、音声認識部1110についても、サーバ装置200が備えるようにしてもよい。この場合、端末100は、ユーザ700から発せられる音声を特定可能な音声データを送信部1181を介してサーバ装置200へ送信する。サーバ装置200は、音声データを受信すると、当該音声データに基づいて音声認識部により音声認識してフレーズを特定し、当該フレーズに基づく処理を実行するようにしてもよい。
As an example in which the response process at the time of voice input can be executed by communicating with the
[実施の形態3]
上記実施の形態1および2においては、近似するフレーズとして、濁点などの有無の点のみにおいて相違しているフレーズを例示したが、これに替えてあるいは加えて、正規のフレーズに含まれる一部のフレーズを近似するフレーズとしてもよい。たとえば、「シンチョー」に近似するフレーズとしては、「ジンチョー」などに替えてあるいは加えて、「シンチョ」や「ンチョー」などを含めてもよい。また、「タイジュー」に近似するフレーズとしては、「ダイジュー」などに替えてあるいは加えて、「タイジュ」や「イジュー」などを含めてもよい。
[Third Embodiment]
In the above-described first and second embodiments, the phrase that is different only in the presence or absence of a dakuten or the like has been illustrated as an approximate phrase. It may be a phrase that approximates the phrase. For example, as a phrase similar to "Shincho", instead of or in addition to "Jincho" or the like, "Shincho" or "Ncho" may be included. Further, as a phrase similar to “taiju”, “daiju” or “idue” may be included instead of or in addition to “daiju” or the like.
また、上記実施の形態1および2においては、近似判定部を備え、当該近似判定部により近似するフレーズであるか否かを判定する例について説明したが、近似判定部を備えることなく、図9に示すように、近似するフレーズそのものに対して応答フレーズが記憶されるように応答フレーズDBを構成してもよい。 In addition, in the above-described first and second embodiments, an example has been described in which the approximate determination unit is provided and it is determined by the approximate determination unit whether or not the phrase is approximate. However, without the approximate determination unit, FIG. As shown in, the response phrase DB may be configured such that the response phrase is stored for the approximate phrase itself.
図9は、フレーズとして正規のフレーズと、近似するフレーズとに対応して応答フレーズが記憶されている応答フレーズDBの概略構成を説明するための図である。たとえば、正規のフレーズである「シンチョー」や「タイジュー」などに対応する応答フレーズが記憶されるとともに、「シンチョー」に近似するフレーズとして「ジンチョー」「シンチョ」「ンチョー」などに対応する応答フレーズが記憶されるとともに、「タイジュー」に近似するフレーズとして「ダイジュー」「タイジュ」「イジュー」などに対応する応答フレーズが記憶されている。 FIG. 9 is a diagram for explaining a schematic configuration of a response phrase DB in which response phrases are stored in correspondence with regular phrases as phrases and similar phrases. For example, a response phrase corresponding to a regular phrase such as “Shincho” or “Taiju” is stored, and response phrases corresponding to “Jincho”, “Shincho”, “Ncho”, etc. are similar to “Shincho”. In addition to being stored, a response phrase corresponding to “daiju”, “taiju”, “idue”, etc. is stored as a phrase similar to “taiju”.
このように応答フレーズDBが構成されている場合、発話内容決定部は、音声認識の結果により特定されたフレーズが応答フレーズDBに記憶されているか否かを判定することにより、近似判定部を備えずとも、正規のフレーズに対応する応答フレーズのみならず、近似するフレーズに対応する応答フレーズを抽出することができる。 When the response phrase DB is configured in this way, the utterance content determination unit includes the approximation determination unit by determining whether or not the phrase specified by the result of voice recognition is stored in the response phrase DB. Of course, not only the response phrase corresponding to the regular phrase but also the response phrase corresponding to the approximate phrase can be extracted.
また、正規のフレーズと近似するフレーズに対応する応答フレーズは、近似するフレーズにかかわらず、共通(兼用)の応答フレーズを記憶するものであってもよい。具体的に、近似する場合における共通の応答フレーズとして、「ひょっとして…のこと?」を応答フレーズとして記憶し応答フレーズとしては、「…」の部分に正規のフレーズそのものを挿入し、かつ正規のフレーズに対応する応答フレーズをその後に付加するものであってもよい。たとえば、「シンチョー」や「タイジュー」などに近似するフレーズに対応して「ひょっとして…のこと?」が定められており、「シンチョー」に近似するフレーズが特定されたときには、応答フレーズとして「ひょっとしてシンチョーのこと?身長はだいたい19cmだよ。」を出力するようにしてもよい。これにより、近似するフレーズに対応する応答データを記憶するための記憶容量を低減できる。 Further, the response phrase corresponding to the phrase approximate to the regular phrase may be a common (shared) response phrase regardless of the approximate phrase. Specifically, as a common response phrase in the case of approximation, “Hottotto…?” is stored as a response phrase, and as the response phrase, the regular phrase itself is inserted in the part of “...” The response phrase corresponding to the phrase may be added thereafter. For example, "Hottotto... means?" is defined for phrases that are similar to "Shincho" or "Taiju", and when a phrase that is similar to "Shincho" is specified, the response phrase is " Maybe it's Shincho? He's about 19 cm tall." This can reduce the storage capacity for storing the response data corresponding to the approximated phrase.
[実施の形態4]
上記実施の形態1〜3における学習処理は、不明なフレーズを2回連続して特定したときに実行する例について説明したが、不明なフレーズが所定頻度で特定されることにより実行されるものであればこれに限るものではない。学習処理は、たとえば、音声認識結果DBにおける直近10回の履歴のうちで、不明な同一フレーズが3回特定されることにより実行されるようにしてもよい。また、回数だけでなく、1回目と2回目の間隔が1分以内といった期間での判定としてもよい。
[Embodiment 4]
Although the learning process in the first to third embodiments has been described with respect to the example executed when the unknown phrase is specified twice consecutively, the learning process is executed by specifying the unknown phrase at a predetermined frequency. If so, it is not limited to this. The learning process may be executed, for example, by identifying the same unknown phrase three times in the history of the latest 10 times in the voice recognition result DB. Further, the determination may be made not only in the number of times but also in a period in which the first and second intervals are within 1 minute.
[その他]
上記実施の形態1〜4では、応答フレーズを端末100かサーバ装置200のいずれかで決定する例について説明したが、これに限らず、端末100において応答フレーズを決定するとともに、サーバ装置200においても応答フレーズを決定するようにしてもよい。この場合、端末100は、ユーザからの音声に対して応答する応答フレーズをサーバ装置200からも取得し、当該応答フレーズと自ら決定した応答フレーズとのうちから、情報の重要度(応答レベル)がより高い応答フレーズを、出力すべき応答フレーズとして選択して出力するようにしてもよい。
[Other]
In the above-described first to fourth embodiments, an example in which the response phrase is determined by either the terminal 100 or the
上記実施の形態1〜4では、近似するフレーズが特定されたときには、当該近似するフレーズに対応する応答フレーズを出力する例について説明したが、これに限らず、近似するフレーズが所定頻度で特定されたとき(2回連続で特定されたときなど)に、特定されたフレーズが正規のフレーズであると擬制し、当該特定されたフレーズに対する応答フレーズを学習させるようにしてもよい。 In the above-described first to fourth embodiments, an example of outputting a response phrase corresponding to the approximate phrase when the approximate phrase is specified has been described, but the present invention is not limited to this, and the approximate phrase is specified at a predetermined frequency. When the specified phrase is specified twice (for example, two consecutive times), the specified phrase may be pretended to be a regular phrase, and the response phrase for the specified phrase may be learned.
上記実施の形態1〜4では、音声から特定されるフレーズに対応する応答処理として、応答フレーズを出力する処理、学習処理を例示したが、予め対応付けられた処理であればこれに限らず、たとえば、端末100を所定態様で駆動する処理、カメラ164で撮像する処理などであってもよい。
In the above-described first to fourth embodiments, as the response process corresponding to the phrase specified from the voice, the process of outputting the response phrase and the learning process are illustrated, but the process is not limited to this as long as it is a process associated in advance, For example, it may be a process of driving the terminal 100 in a predetermined mode, a process of capturing an image with the
[まとめ]
以下、上述した処理のうち主要な処理と、当該処理により得られる利点とについて記載する。
[Summary]
Hereinafter, the main processing of the above-mentioned processing and the advantages obtained by the processing will be described.
(1) 端末100は、ユーザ700からの音声から特定されるフレーズが、応答フレーズDBあるいは学習結果DBに記憶されたフレーズのうちのいずれかであるときに、当該フレーズに対応する応答フレーズを出力する処理を実行し、記憶されていない不明なフレーズであって当該不明なフレーズが所定頻度で特定されているときに、その後において当該不明なフレーズに対応する応答フレーズを出力可能にするための学習処理を実行する。これにより、不明なフレーズが特定されると即座に学習処理を実行せず、所定頻度に達したときにユーザが意図してその不明なフレーズを発していると擬制して学習処理を実行できる。その結果、ユーザからの発話に対して将来的に幅広く応答できるようにしつつも、不適切な問い返しおよび学習が行なわれてしまうことを防止できる。
(1) When the phrase specified by the voice from the
(2) 端末100は、想定される複数種類のフレーズおよび近似するフレーズに対応する応答フレーズを記憶する応答フレーズDBと、学習処理によりフレーズに対応する応答フレーズを更新記憶する学習結果DBとを有する。これにより、ユーザが音声を発してから応答するまでの間を極力短縮できる。
(2) The
(3) 学習処理を行なう契機となる所定頻度は、記憶されていない不明なフレーズが2回連続して特定されることにより達する頻度である。これにより、たとえば学習処理を開始するための特別な音声や操作を行なう必要がないため、学習のハードルを下げることができる。その結果、学習頻度を向上させることができる。 (3) The predetermined frequency that triggers the learning process is the frequency that is reached when an unstored unknown phrase is specified twice in succession. As a result, it is not necessary to perform a special voice or operation for starting the learning process, so that the learning hurdle can be reduced. As a result, the learning frequency can be improved.
(4) 記憶されていない不明なフレーズが特定されたときには、図2のM06に示すように、「よく聞こえなかったよ。」といった応答が出力される。これにより、ユーザに対して再度の発話を促すことができる。 (4) When an unknown phrase that is not stored is specified, a response such as "I didn't hear well." is output, as indicated by M06 in FIG. This can prompt the user to speak again.
(5) 学習処理は、学習開始契機となった不明なフレーズに対応する応答フレーズの発話を促す処理(図2のM08)と、ユーザの発話から特定されるフレーズそのものを不明なフレーズに対応する応答フレーズとして記憶する処理(図2のS13)とを含む。これにより、どのようなフレーズについても応答フレーズとして記憶することができる。 (5) The learning process corresponds to the process of urging the utterance of the response phrase corresponding to the unknown phrase that triggered the learning (M08 in FIG. 2) and the phrase itself identified from the utterance of the user as the unknown phrase. The process of storing as a response phrase (S13 of FIG. 2) is included. This allows any phrase to be stored as a response phrase.
(6) 学習開始フレーズであるときには、その後においてフレーズに対応する応答フレーズを学習可能となる。これにより、ユーザの意思に基づいて積極的に学習させることができる。 (6) When it is the learning start phrase, the response phrase corresponding to the phrase can be learned thereafter. Thereby, it is possible to positively learn based on the intention of the user.
(7) 端末100は、ユーザ700からの音声から特定されるフレーズが、応答フレーズDBあるいは学習結果DBに記憶された正規のフレーズと合致するときに、当該正規のフレーズに対応する応答フレーズを出力する処理を実行し、応答フレーズDBあるいは学習結果DBに記憶された正規のフレーズと近似するときに、近似する場合に対応する応答フレーズを出力する処理を実行する。これにより、ユーザ700の音声から特定されるフレーズそのものに対応する応答フレーズが準備されていない場合であっても応答することできる。その結果、応答フレーズの不足を補うことができる。
(7) When the phrase specified by the voice from the
(8) 近似判定部を有する実施の形態では、ユーザ700の音声から特定されるフレーズが正規のフレーズのうちのいずれかと近似するか否かを判定する。発話内容決定部は、ユーザ700の音声から特定されるフレーズが正規のフレーズのうちのいずれかと近似するときには、近似する場合に対応して記憶されている応答フレーズを出力する。これにより、正規のフレーズに対して合致する場合と近似する場合との応答フレーズを準備することにより、ユーザの発話に対して幅広く応答することができる。
(8) In the embodiment including the approximation determining unit, it is determined whether or not the phrase specified from the voice of the
(9) 近似判定部を有しない実施の形態では、正規のフレーズに含まれる一部のフレーズを当該正規のフレーズと近似するフレーズと擬制した上で、図9の応答フレーズDBに示されるように、正規のフレーズに対応する応答フレーズと、当該正規のフレーズに含まれる一部のフレーズに対応する応答フレーズとを準備することにより、処理負担を軽減しつつユーザの発話に対して幅広く応答することができる。 (9) In the embodiment that does not have the approximation determining unit, some phrases included in the regular phrase are pretended to be phrases close to the regular phrase, and then, as shown in the response phrase DB of FIG. By providing a response phrase corresponding to a legitimate phrase and a response phrase corresponding to a part of the phrases included in the legitimate phrase, it is possible to widely respond to the user's utterance while reducing the processing load. You can
(10) 正規のフレーズのうち、たとえば、「シンチョー」と近似する場合の応答フレーズと、「タイジュー」と近似する場合の応答フレーズとは、「ひょっとして」といった共通のフレーズを含む。 (10) Among the regular phrases, for example, the response phrase when approximating “Shincho” and the response phrase when approximating “Taiju” include a common phrase such as “hyotto”.
また、「シンチョー」と近似する場合には、共通の「ひょっとして」と、「シンチョー」に対応する応答フレーズとを用いて、たとえば、「ひょっとしてシンチョーのこと?身長はだいたい19cmだよ。」を出力する。これにより、近似するフレーズ毎に異なる応答フレーズを準備するものと比較して、応答フレーズを記憶するための記憶容量を低減できる。 In addition, in the case of approximating "Shincho", using the common "Hyotto" and the response phrase corresponding to "Shincho", for example, "Hyotto Shincho? Height is about 19 cm. Is output. As a result, the storage capacity for storing the response phrase can be reduced as compared with the case where a different response phrase is prepared for each approximate phrase.
(11) 通信システムは、サーバ装置200と、当該サーバ装置200と通信可能な端末100とを備える。その上で、実施の形態2および3における端末100は、ユーザからの音声に対応する音声情報(たとえば、音声認識の結果から特定されるフレーズデータ、音声データなど)を送信し、その後にサーバ装置200から送信される応答情報(応答データ)に基づいて応答フレーズを出力する処理を実行する。
(11) The communication system includes a
一方、サーバ装置200は、端末100からの音声情報から特定されるフレーズが、応答フレーズDBあるいは学習結果DBに記憶されたフレーズのうちのいずれかであるときに、当該フレーズに対応する応答情報を出力する処理を実行し、記憶されていない不明なフレーズであって当該不明なフレーズが所定頻度で特定されているときに、その後において当該不明なフレーズに対応する応答情報を出力可能にするための学習処理を実行する。これにより、不明なフレーズが特定されると即座に学習処理を実行せず、所定頻度に達したときにユーザが意図してその不明なフレーズを発していると擬制して学習処理を実行できる。その結果、ユーザからの発話に対して将来的に幅広く応答できるようにしつつも、不適切な問い返しおよび学習が行なわれてしまうことを防止できる。
On the other hand, when the phrase specified from the voice information from the terminal 100 is one of the phrases stored in the response phrase DB or the learning result DB, the
また、サーバ装置200は、端末100からの音声情報から特定されるフレーズが、応答フレーズDBあるいは学習結果DBに記憶されたフレーズと合致するときに、当該フレーズに対応する応答情報を出力する処理を実行し、応答フレーズDBあるいは学習結果DBに記憶されたフレーズと近似するときに、当該近似するフレーズに対応する応答情報を出力する処理を実行する。これにより、ユーザの音声から特定されるフレーズそのものに対応する応答情報が準備されていない場合であっても応答することできる。その結果、応答情報の不足を補うことができる。
Further, the
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiments disclosed this time are to be considered as illustrative in all points and not restrictive. The scope of the present invention is shown not by the above description but by the claims, and is intended to include meanings equivalent to the claims and all modifications within the scope.
1 通信システム、100 通信端末、111,211 制御部、112,212 記憶部、115 駆動部、116 音声入力部、117 音声出力部、118,213 通信処理部、119 表示部、158 GPS受信機、162 マイク、163 スピーカ、164 カメラ、165 駆動装置、200 サーバ装置、500 基地局、600 ネットワーク、700 ユーザ、1110 音声認識部、1111,2111 発話内容決定部、1112,2112 近似判定部、1113,2113 学習機能部、1114 駆動制御部、1115 表示制御部、1121,2121 応答フレーズDB、1122,2122 音声認識結果DB、1123,2123 学習結果DB、1181,2131 送信部、1182,2132 受信部。 1 communication system, 100 communication terminal, 111, 211 control unit, 112, 212 storage unit, 115 drive unit, 116 voice input unit, 117 voice output unit, 118, 213 communication processing unit, 119 display unit, 158 GPS receiver, 162 microphones, 163 speakers, 164 cameras, 165 driving devices, 200 server devices, 500 base stations, 600 networks, 700 users, 1110 voice recognition units, 1111 and 1111 utterance content determination units, 1112 and 2112 approximation determination units, 1113 and 2113 Learning function unit, 1114 drive control unit, 1115 display control unit, 1121,121 response phrase DB, 1122, 2122 voice recognition result DB, 1123, 2123 learning result DB, 1181,2131 transmission unit, 1182, 2132 reception unit.
Claims (9)
前記音声受付手段により受け付けられた音声から特定されるフレーズが、予め定められた複数種類のフレーズのうちのいずれかであるときに、当該フレーズに対応するフレーズ用応答処理を実行する応答処理実行手段とを備え、
前記応答処理実行手段は、前記音声受付手段により受け付けられた音声から特定されるフレーズが前記複数種類のフレーズのうちのいずれかと近似するときに、近似する当該フレーズに対応する近似用応答処理を実行し、
前記複数種類のフレーズ各々に対応するフレーズ用応答処理と近似用応答処理とを特定可能な情報を記憶する記憶手段をさらに備え、
前記応答処理実行手段は、前記記憶手段の記憶情報に基づいて、前記音声受付手段により受け付けられた音声から特定されるフレーズに対応するフレーズ用応答処理または近似用応答処理を実行し、
前記音声受付手段により受け付けられた音声から特定されるフレーズが前記複数種類のフレーズのうちのいずれかと近似するか否かを判定する近似判定手段をさらに備え、
前記記憶手段は、前記複数種類のフレーズ各々と近似するフレーズに対応させて近似用応答処理を記憶し、
前記応答処理実行手段は、前記近似判定手段により前記複数種類のフレーズのうちのいずれかと近似すると判定されたときに、近似する当該フレーズに対応して前記記憶手段に記憶されている近似用応答処理を実行する、応答制御装置。 A voice receiving means for receiving voice input,
When the phrase specified by the voice accepted by the voice accepting unit is one of a plurality of predetermined phrases, a response process executing unit that executes a phrase response process corresponding to the phrase. With and
The response process executing means, when a phrase specified by the voice received by the voice receiving device approximates any one of the plurality of types of phrases, executes a response process for approximation corresponding to the approximate phrase. Then
Further comprising a storage means for storing information capable of specifying a phrase response process and an approximation response process corresponding to each of the plurality of types of phrases,
The response process execution means executes a phrase response process or an approximation response process corresponding to a phrase identified from the voice received by the voice reception device, based on the storage information of the storage device,
Further comprising an approximate determination means for determining whether or not to approximate the one of the phrases in the phrase is the plurality of types identified from the voice received by the voice receiving unit,
The storage means stores the response processing for approximation in association with a phrase approximate to each of the plurality of types of phrases,
The response processing execution means, when the approximation determination means determines that the phrase is approximated to any one of the plurality of types of phrases, the response processing for approximation stored in the storage means corresponding to the approximated phrase. It is executed, response control device.
前記音声受付手段により受け付けられた音声から特定されるフレーズが、予め定められた複数種類のフレーズのうちのいずれかであるときに、当該フレーズに対応するフレーズ用応答処理を実行する応答処理実行手段とを備え、
前記応答処理実行手段は、前記音声受付手段により受け付けられた音声から特定されるフレーズが前記複数種類のフレーズのうちのいずれかと近似するときに、近似する当該フレーズに対応する近似用応答処理を実行し、
前記複数種類のフレーズ各々に対応するフレーズ用応答処理と近似用応答処理とを特定可能な情報を記憶する記憶手段をさらに備え、
前記応答処理実行手段は、前記記憶手段の記憶情報に基づいて、前記音声受付手段により受け付けられた音声から特定されるフレーズに対応するフレーズ用応答処理または近似用応答処理を実行し、
前記記憶手段は、前記複数種類のフレーズ各々に含まれる一部のフレーズに対応させて近似用応答処理を記憶し、
前記応答処理実行手段は、前記音声受付手段により受け付けられた音声から特定されるフレーズが前記複数種類のフレーズのうちのいずれでもなくかつ前記一部のフレーズを含むときに、当該一部のフレーズに対応して前記記憶手段に記憶されている近似用応答処理を実行する、応答制御装置。 A voice receiving means for receiving voice input,
When the phrase specified by the voice accepted by the voice accepting unit is one of a plurality of predetermined phrases, a response process executing unit that executes a phrase response process corresponding to the phrase. With and
The response process executing means, when a phrase specified by the voice received by the voice receiving device approximates any one of the plurality of types of phrases, executes a response process for approximation corresponding to the approximate phrase. Then
Further comprising a storage means for storing information capable of specifying a phrase response process and an approximation response process corresponding to each of the plurality of types of phrases,
The response process execution means executes a phrase response process or an approximation response process corresponding to a phrase identified from the voice received by the voice reception device, based on the storage information of the storage device,
The storage means stores approximate response processing in association with some of the phrases included in each of the plurality of types of phrases,
The response process executing means, when the phrase specified by the voice accepted by the voice accepting means is not any of the plurality of types of phrases and includes the part of the phrase, selects the part of the phrase. performing approximation for response processing stored in the storage means in response, response control device.
前記第1フレーズに対応する近似用応答処理と、前記第2フレーズに対応する近似用応答処理とは、共通の処理を含む、請求項1または請求項2に記載の応答制御装置。 The plurality of types of phrases include a first phrase and a second phrase,
The response control device according to claim 1 , wherein the approximation response process corresponding to the first phrase and the approximation response process corresponding to the second phrase include common processes.
受け付けられた音声から特定されるフレーズが、予め定められた複数種類のフレーズのうちのいずれかであるときに、当該フレーズに対応するフレーズ用応答処理を実行するステップと、
受け付けられた音声から特定されるフレーズが前記複数種類のフレーズのうちのいずれかと近似するときに、近似する当該フレーズに対応する近似用応答処理を実行するステップとを備え、
前記フレーズ用応答処理を実行するステップは、前記複数種類のフレーズ各々に対応するフレーズ用応答処理と近似用応答処理とを特定可能な情報を記憶する記憶手段の記憶情報に基づいて、前記フレーズ用応答処理を実行することを含み、
前記近似用応答処理を実行するステップは、
前記音声の入力を受け付けるステップにおいて受け付けられた音声から特定されるフレーズが前記複数種類のフレーズのうちのいずれかと近似するか否かを判定することと、
前記複数種類のフレーズのうちのいずれかと近似すると判定されたときに、近似する当該フレーズに対応して前記記憶手段に記憶されている近似用応答処理を実行することと、を含む、情報処理方法。 A step of receiving voice input,
When the phrase specified from the received voice is one of a plurality of types of predetermined phrases, a step of executing a phrase response process corresponding to the phrase,
When the phrase specified from the received voice is approximated to any one of the plurality of types of phrases, a step of performing an approximate response process corresponding to the approximated phrase is provided ,
The step of executing the phrase response process may include executing the phrase response process based on storage information of a storage unit that stores information capable of specifying the phrase response process and the approximation response process corresponding to each of the plurality of types of phrases. Including performing a response process,
The step of performing the approximation response process,
Determining whether or not the phrase specified from the received voice in the step of receiving the input of the voice is similar to any of the plurality of types of phrases;
Executing an approximation response process stored in the storage means in correspondence with the approximate phrase when it is determined to be approximate to any one of the plurality of types of phrases. ..
受け付けられた音声から特定されるフレーズが、予め定められた複数種類のフレーズのうちのいずれかであるときに、当該フレーズに対応するフレーズ用応答処理を実行するステップと、
受け付けられた音声から特定されるフレーズが前記複数種類のフレーズのうちのいずれかと近似するときに、近似する当該フレーズに対応する近似用応答処理を実行するステップとを備え、
前記フレーズ用応答処理を実行するステップは、前記複数種類のフレーズに対応するフレーズ用応答処理と前記複数種類のフレーズ各々に含まれる一部のフレーズに対応する近似用応答処理とを特定可能な情報を記憶する記憶手段の記憶情報に基づいて、前記フレーズ用応答処理を実行することを含み、
前記近似用応答処理を実行するステップは、前記音声の入力を受け付けるステップにおいて受け付けられた音声から特定されるフレーズが前記複数種類のフレーズのうちのいずれでもなくかつ前記一部のフレーズを含むときに、当該一部のフレーズに対応して前記記憶手段に記憶されている近似用応答処理を実行することを含む、情報処理方法。 A step of receiving voice input,
When the phrase specified from the received voice is one of a plurality of types of predetermined phrases, a step of executing a phrase response process corresponding to the phrase,
When the phrase specified from the received voice is approximated to any one of the plurality of types of phrases, a step of performing an approximate response process corresponding to the approximated phrase is provided,
The step of executing the phrase response process is information capable of specifying the phrase response process corresponding to the plurality of types of phrases and the approximation response process corresponding to some of the phrases included in each of the plurality of types of phrases. Including executing the phrase response process based on storage information of a storage unit that stores
The step of executing the response processing for approximation is performed when the phrase specified from the voice received in the step of receiving the input of the voice is not any of the plurality of types of phrases and includes the partial phrase. An information processing method , comprising: executing an approximate response process stored in the storage means in correspondence with the part of the phrases .
前記応答制御装置は、
音声の入力を受け付ける音声受付手段と、
前記音声受付手段により受け付けられた音声に対応する音声情報を送信し、前記サーバからの応答情報を受信する通信手段と、
受信した応答情報に基づいて応答処理を実行する応答処理実行手段とを含み、
前記サーバは、
予め定められた複数種類のフレーズ各々に対応する応答情報としてフレーズ用応答情報と近似用応答情報とを記憶する記憶手段と、
前記応答制御装置からの音声情報から特定されるフレーズが前記複数種類のフレーズのうちのいずれかであるときに、当該フレーズに対応するフレーズ用応答情報を応答情報として送信する応答情報送信手段と、
前記応答制御装置からの音声情報から特定されるフレーズが前記複数種類のフレーズのうちのいずれかと近似するときに、近似する当該フレーズに対応する近似用応答情報を応答情報として送信する近似応答情報送信手段とを含み、
前記記憶手段は、前記複数種類のフレーズ各々と近似するフレーズに対応させて近似用応答情報を記憶し、
前記サーバは、前記応答制御装置からの音声情報から特定されるフレーズが前記複数種類のフレーズのうちのいずれかと近似するか否かを判定する近似判定手段をさらに含み、
前記応答処理実行手段は、前記近似判定手段により前記複数種類のフレーズのうちのいずれかと近似すると判定されたときに、近似する当該フレーズに対応して前記記憶手段に記憶されている近似用応答情報を前記応答情報として送信行する、通信システム。 A communication system comprising a server and a response control device capable of communicating with the server,
The response control device,
A voice receiving means for receiving voice input,
A communication unit for transmitting voice information corresponding to the voice received by the voice receiving unit and receiving response information from the server;
And a response process executing means for executing a response process based on the received response information,
The server is
A storage unit that stores phrase response information and approximation response information as response information corresponding to each of a plurality of predetermined phrases.
When the phrase specified from the voice information from the response control device is any of the plurality of types of phrases, response information transmitting means for transmitting the phrase response information corresponding to the phrase as response information,
Approximate response information transmission for transmitting, as response information, approximate response information corresponding to the approximate phrase when the phrase specified from the voice information from the response control device approximates any of the plurality of types of phrases and means only including,
The storage means stores approximate response information in association with a phrase that is similar to each of the plurality of types of phrases,
The server further includes an approximation determination unit that determines whether or not the phrase specified from the voice information from the response control device is similar to any one of the plurality of types of phrases,
The response process executing means, when the approximation determining means determines that the phrase is approximate to any one of the plurality of types of phrases, the response information for approximation stored in the storage means corresponding to the approximate phrase. Is transmitted as the response information .
前記応答制御装置は、The response control device,
音声の入力を受け付ける音声受付手段と、A voice receiving means for receiving voice input,
前記音声受付手段により受け付けられた音声に対応する音声情報を送信し、前記サーバからの応答情報を受信する通信手段と、Communication means for transmitting voice information corresponding to the voice accepted by the voice accepting means and receiving response information from the server;
受信した応答情報に基づいて応答処理を実行する応答処理実行手段とを含み、A response process executing means for executing a response process based on the received response information,
前記サーバは、The server is
予め定められた複数種類のフレーズ各々に対応する応答情報としてフレーズ用応答情報と近似用応答情報とを記憶する記憶手段と、A storage unit that stores phrase response information and approximation response information as response information corresponding to each of a plurality of predetermined phrases.
前記応答制御装置からの音声情報から特定されるフレーズが前記複数種類のフレーズのうちのいずれかであるときに、当該フレーズに対応するフレーズ用応答情報を応答情報として送信する応答情報送信手段と、When the phrase specified from the voice information from the response control device is one of the plurality of types of phrases, response information transmitting means for transmitting the response information for phrase corresponding to the phrase as response information,
前記応答制御装置からの音声情報から特定されるフレーズが前記複数種類のフレーズのうちのいずれかと近似するときに、近似する当該フレーズに対応する近似用応答情報を応答情報として送信する近似応答情報送信手段とを含み、Approximate response information transmission for transmitting, as response information, approximate response information corresponding to the approximate phrase when the phrase specified from the voice information from the response control device approximates any one of the plurality of types of phrases And means,
前記記憶手段は、前記複数種類のフレーズ各々に含まれる一部のフレーズに対応させて近似用応答処理を記憶し、The storage means stores approximate response processing in association with some of the phrases included in each of the plurality of types of phrases,
前記近似応答情報送信手段は、前記応答制御装置からの音声情報から特定されるフレーズが前記複数種類のフレーズのうちのいずれでもなくかつ前記一部のフレーズを含むときに、当該一部のフレーズに対応して前記記憶手段に記憶されている近似用応答情報を前記応答情報として送信する、通信システム。When the phrase specified from the voice information from the response control device is not any of the plurality of types of phrases and includes the partial phrase, the approximate response information transmitting unit selects the partial phrase. A communication system which transmits the response information for approximation correspondingly stored in the storage means as the response information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016099496A JP6698423B2 (en) | 2016-05-18 | 2016-05-18 | Response control device, control program, information processing method, and communication system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016099496A JP6698423B2 (en) | 2016-05-18 | 2016-05-18 | Response control device, control program, information processing method, and communication system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017207610A JP2017207610A (en) | 2017-11-24 |
JP6698423B2 true JP6698423B2 (en) | 2020-05-27 |
Family
ID=60414963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016099496A Expired - Fee Related JP6698423B2 (en) | 2016-05-18 | 2016-05-18 | Response control device, control program, information processing method, and communication system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6698423B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832010B2 (en) * | 2018-06-05 | 2020-11-10 | International Business Machines Corporation | Training of conversational agent using natural language |
JP2021156907A (en) * | 2018-06-15 | 2021-10-07 | ソニーグループ株式会社 | Information processor and information processing method |
CN111063343B (en) * | 2019-12-11 | 2022-08-19 | 广东美的厨房电器制造有限公司 | Voice interaction method and device, electronic equipment and medium |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11119792A (en) * | 1997-10-20 | 1999-04-30 | Toyota Motor Corp | Equipment controller with voice recognizing function, and voice recognizing device |
JP4267101B2 (en) * | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Voice identification device, pronunciation correction device, and methods thereof |
JP3550654B2 (en) * | 1999-06-29 | 2004-08-04 | オムロン株式会社 | Speech recognition device and method, and recording medium |
JP2001084028A (en) * | 1999-09-17 | 2001-03-30 | Toshiba Corp | Plant monitor |
JP2005181442A (en) * | 2003-12-16 | 2005-07-07 | Fuji Electric Holdings Co Ltd | Speech interaction device, and method and program therefor |
-
2016
- 2016-05-18 JP JP2016099496A patent/JP6698423B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2017207610A (en) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106201424B (en) | A kind of information interacting method, device and electronic equipment | |
JP6129134B2 (en) | Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
JP6698423B2 (en) | Response control device, control program, information processing method, and communication system | |
JP2017003611A (en) | Voice recognition device, voice recognition system, terminal used in voice recognition system and method for generating speaker identification model | |
US20200193994A1 (en) | Electronic device and method for controlling electronic device | |
JP2014191029A (en) | Voice recognition system and method for controlling voice recognition system | |
KR102629796B1 (en) | An electronic device supporting improved speech recognition | |
JP6316214B2 (en) | SYSTEM, SERVER, ELECTRONIC DEVICE, SERVER CONTROL METHOD, AND PROGRAM | |
JP7347217B2 (en) | Information processing device, information processing system, information processing method, and program | |
CN109568973B (en) | Conversation device, conversation method, server device, and computer-readable storage medium | |
GB2578512A (en) | Electronic apparatus and method for controlling the same | |
US10143027B1 (en) | Device selection for routing of communications | |
WO2020044543A1 (en) | Information processing device, information processing method, and program | |
JP6643468B2 (en) | Response control device, control program, information processing method, and communication system | |
JP2011253389A (en) | Terminal and reply information creation program for pseudo conversation | |
JP6696803B2 (en) | Audio processing device and audio processing method | |
US11488607B2 (en) | Electronic apparatus and control method thereof for adjusting voice recognition recognition accuracy | |
JP6645779B2 (en) | Dialogue device and dialogue program | |
US20220161131A1 (en) | Systems and devices for controlling network applications | |
US20200296784A1 (en) | Routing of communications to a device | |
CN113314115A (en) | Voice processing method of terminal equipment, terminal equipment and readable storage medium | |
WO2020026360A1 (en) | Computer system, screen sharing method, and program | |
US20200130195A1 (en) | Dialogue apparatus and control program for dialogue apparatus | |
JP4741817B2 (en) | Audio output device, character image display device, audio output method, and character image display method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190320 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200330 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200428 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6698423 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |