JP2018120203A - Information processing method and program - Google Patents
Information processing method and program Download PDFInfo
- Publication number
- JP2018120203A JP2018120203A JP2017145707A JP2017145707A JP2018120203A JP 2018120203 A JP2018120203 A JP 2018120203A JP 2017145707 A JP2017145707 A JP 2017145707A JP 2017145707 A JP2017145707 A JP 2017145707A JP 2018120203 A JP2018120203 A JP 2018120203A
- Authority
- JP
- Japan
- Prior art keywords
- information
- response
- voice
- server
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本開示は、情報処理方法及びプログラムに関する。 The present disclosure relates to an information processing method and a program.
例えば、音声認識技術の一例が特許文献1に開示されている。特許文献1の装置及び方法は、音声コマンドを用いて消費者電化製品に関連する装置を音声制御する。この装置及び方法は、サーバを利用してユーザの命令を認識する際、命令の認識から動作の実行までにかかる時間を短縮するために、ユーザがよく発話する音声認識命令とそれに対応する制御命令情報とをローカルの「保存部」に記憶させる。
For example,
特許文献1の装置及び方法に代表される音声対話エージェントでは、一問一答のように、一往復の対話のみが想定されている。
In the voice dialogue agent represented by the apparatus and method of
本開示は、複数回の対話の応答時間を低減する情報処理方法及びプログラムを提供する。 The present disclosure provides an information processing method and program for reducing response time of a plurality of dialogues.
本開示の一態様に係る情報処理方法は、ユーザとの対話を通じて少なくとも1つの機器を制御するプロセッサによって実行される情報処理方法であって、マイクロホンから入力された前記ユーザの第1音声を示す第1音声情報を取得し、前記第1音声情報から生成された第1フレーズ情報を、ネットワークを介してサーバに出力し、前記第1フレーズ情報に応じた第1応答情報を、前記ネットワークを介して前記サーバから取得し、前記第1応答情報は、前記第1音声に対する第1応答メッセージを示し、前記第1応答情報に基づいて、スピーカに前記第1応答メッセージを出力させ、前記サーバ上で前記第1応答情報に関連づけられている第2応答情報を、前記ネットワークを介して前記サーバから取得し、前記第2応答情報は、1以上のフレーズ情報に応じて異なる複数の命令に分岐する条件分岐命令を含み、前記1以上のフレーズ情報のそれぞれは、前記第1応答メッセージに対する前記ユーザの返答の選択候補に関するものであり、前記第1応答メッセージが出力された後に、前記マイクロホンから入力された前記ユーザの第2音声を示す第2音声情報を取得し、前記第2音声は前記第1応答メッセージに対する前記ユーザの返答を含み、前記条件分岐命令のうち、前記1以上のフレーズ情報と前記第2音声情報から生成された第2フレーズ情報とを照合することによって決定された命令に応じて、前記スピーカ及び前記少なくとも1つの機器の少なくとも1つに所定の動作を実行させ、前記第2音声情報を取得してから前記所定の動作を実行させるまでの間、前記第2音声情報及び前記第2フレーズ情報のいずれも前記サーバに出力されない。 An information processing method according to an aspect of the present disclosure is an information processing method executed by a processor that controls at least one device through a dialog with a user, and includes a first voice indicating the first voice of the user input from a microphone. 1 voice information is acquired, the 1st phrase information generated from the 1st voice information is outputted to a server via a network, and the 1st response information according to the 1st phrase information is sent via the network Obtained from the server, the first response information indicates a first response message for the first voice, and based on the first response information, causes the speaker to output the first response message, and on the server Second response information associated with the first response information is acquired from the server via the network, and the second response information is equal to or greater than one. Including a conditional branch instruction that branches into a plurality of different instructions according to the lasing information, wherein each of the one or more pieces of phrase information relates to a selection candidate of the user's response to the first response message, and the first response After the message is output, second voice information indicating the second voice of the user input from the microphone is acquired, and the second voice includes a response of the user to the first response message, and the conditional branch Of the commands, at least one of the speaker and the at least one device according to a command determined by collating the one or more phrase information and the second phrase information generated from the second audio information. During the period from when the second sound information is acquired until the predetermined operation is performed. Both of information and the second phrase information is not output to the server.
本開示の一態様に係るプログラムは、上記の情報処理方法を前記プロセッサに実行させる。 A program according to an aspect of the present disclosure causes the processor to execute the information processing method.
本開示の一態様に係る対話処理方法は、サーバ上の第2プロセッサによって実行される情報処理方法であって、前記第2プロセッサは、ユーザとの対話を通じて少なくとも1つの機器を制御する第1プロセッサとネットワークを介して通信可能であり、マイクロホンから入力された前記ユーザの第1音声に関する第1フレーズ情報を、前記第1プロセッサから前記ネットワークを介して取得し、前記第1フレーズ情報は、前記第1音声に対応する文字列と前記文字列の意味情報との少なくとも一方を示し、前記第1フレーズ情報に応じた第1応答情報を、前記ネットワークを介して前記第1プロセッサに出力し、前記第1応答情報は、スピーカから出力される、前記第1音声に対する第1応答メッセージを示し、前記サーバ上で前記第1応答情報に関連づけられている第2応答情報を、前記ネットワークを介して前記第1プロセッサに出力し、前記第2応答情報は、1以上のフレーズ情報に応じて異なる複数の命令に分岐する条件分岐命令を含み、前記1以上のフレーズ情報のそれぞれは、前記第1応答メッセージに対する前記ユーザの返答の選択候補に関するものである。 An interaction processing method according to an aspect of the present disclosure is an information processing method executed by a second processor on a server, and the second processor controls at least one device through interaction with a user. The first phrase information about the first voice of the user input from the microphone is acquired from the first processor via the network, and the first phrase information is At least one of a character string corresponding to one voice and semantic information of the character string, and outputting first response information corresponding to the first phrase information to the first processor via the network; 1 response information shows the 1st response message with respect to the said 1st audio | voice output from a speaker, The said 1st response on the said server Conditional branch instruction that outputs second response information associated with the information to the first processor via the network, and the second response information branches to a plurality of different instructions according to one or more phrase information Each of the one or more pieces of phrase information relates to a selection candidate of the user's response to the first response message.
本開示の一態様に係るプログラムは、上記の情報処理方法を前記第2プロセッサに実行させる。 A program according to an aspect of the present disclosure causes the second processor to execute the information processing method.
本開示の情報処理方法及びプログラムによれば、複数回の対話の応答時間の低減が可能になる。 According to the information processing method and program of the present disclosure, it is possible to reduce the response time of a plurality of dialogues.
[本開示の技術の基礎となった知見]
本発明者らは、特許文献1に開示されるような従来技術において、以下の問題が生じることを見出した。上記特許文献1の方法及び装置は、一問一答の対話のみが想定されている。このような方法及び装置は、一問一答を超える対話に関して、応答時間が長くなる、又は、応答できない場合がある。本発明者らは、複数回の対話に関して、ローカル側及びクラウド側の装置の応答時間を低減する技術を検討した。本発明者らは、複数回の対話で機器制御を行うクラウド型音声対話エージェントにおいて、簡単な認識命令とこれに対応する制御命令とをローカル側にオフロードする、つまり負担が軽減するように与えることで、音声対話エージェントの応答時間を短縮することを見出した。そこで、本発明者らは、以下の改善策を検討した。
[Knowledge that became the basis of the technology of this disclosure]
The present inventors have found that the following problems occur in the prior art as disclosed in
本開示の一態様に係る第1の情報処理方法は、ユーザとの対話を通じて少なくとも1つの機器を制御するプロセッサによって実行される情報処理方法であって、マイクロホンから入力された前記ユーザの第1音声を示す第1音声情報を取得し、前記第1音声情報から生成された第1フレーズ情報(第1の音声認識結果)を、ネットワークを介してサーバに出力し、前記第1フレーズ情報に応じた第1応答情報を、前記ネットワークを介して前記サーバから取得し、前記第1応答情報は、前記第1音声に対する第1応答メッセージを示し、前記第1応答情報に基づいて、スピーカに前記第1応答メッセージを出力させ、前記サーバ上で前記第1応答情報に関連づけられている第2応答情報を、前記ネットワークを介して前記サーバから取得し、前記第2応答情報は、1以上のフレーズ情報に応じて異なる複数の命令に分岐する条件分岐命令(処理情報)を含み、前記1以上のフレーズ情報のそれぞれは、前記第1応答メッセージに対する前記ユーザの返答の選択候補に関するものであり、前記第1応答メッセージが出力された後に、前記マイクロホンから入力された前記ユーザの第2音声を示す第2音声情報を取得し、前記第2音声は前記第1応答メッセージに対する前記ユーザの返答を含み、前記条件分岐命令のうち、前記1以上のフレーズ情報(推定返答情報)と前記第2音声情報から生成された第2フレーズ情報(第2の音声認識結果)とを照合することによって決定された命令に応じて、前記スピーカ及び前記少なくとも1つの機器の少なくとも1つに所定の動作を実行させ、前記第2音声情報を取得してから前記所定の動作を実行させるまでの間、前記第2音声情報及び前記第2フレーズ情報のいずれも前記サーバに出力されない。 A first information processing method according to an aspect of the present disclosure is an information processing method executed by a processor that controls at least one device through interaction with a user, and the first voice of the user input from a microphone Is obtained, and the first phrase information (first speech recognition result) generated from the first voice information is output to a server via the network, and the first phrase information is determined according to the first phrase information. First response information is obtained from the server via the network, and the first response information indicates a first response message for the first voice, and the first response information is sent to a speaker based on the first response information. Outputting a response message, obtaining second response information associated with the first response information on the server from the server via the network; The second response information includes a conditional branch instruction (processing information) that branches into a plurality of different instructions according to one or more phrase information, and each of the one or more phrase information includes the user for the first response message. The second voice information indicating the second voice of the user inputted from the microphone is acquired after the first response message is output, and the second voice is the second voice information. A second response information (second speech recognition result) generated from the one or more pieces of phrase information (estimated response information) and the second speech information in the conditional branch instruction ) And causing at least one of the speaker and the at least one device to perform a predetermined operation in accordance with an instruction determined by checking During the period from the acquisition of the second audio information to thereby perform a predetermined operation, both of the second audio information and the second phrase information is not output to the server.
上記態様によれば、ユーザの第1音声の取得後、第1音声に応じた第1応答情報と、第1応答情報の第1応答メッセージに対するユーザの返答に応じた第2応答情報とが、サーバにおいて決定される。そして、サーバから、第1応答情報及び第2応答情報が得られる。このため、第1応答情報に基づき、ユーザの第1音声に応じた第1応答メッセージの出力が可能である。また、第2応答情報に基づき、第1応答メッセージに対するユーザの返答に応じて、スピーカによるメッセージの出力及び機器の制御が可能である。よって、ユーザとの複数回の対話が可能となる。さらに、第2応答情報が条件分岐命令を含むため、第1応答メッセージに対するユーザの異なる複数の返答に応じた対応が可能になる。よって、第1応答メッセージに対するユーザの返答を取得した後、返答に応じた応答情報を生成するためのサーバとの通信が不要である。従って、複数回の対話における応答時間の短縮が可能になる。 According to the above aspect, after the acquisition of the first voice of the user, the first response information according to the first voice and the second response information according to the user's response to the first response message of the first response information are: Determined at the server. Then, the first response information and the second response information are obtained from the server. For this reason, the 1st response message according to a user's 1st voice can be outputted based on the 1st response information. Further, based on the second response information, it is possible to output a message and control the device by a speaker in accordance with a user response to the first response message. Therefore, multiple dialogues with the user are possible. Furthermore, since the second response information includes the conditional branch instruction, it is possible to respond to the first response message according to a plurality of different responses from the user. Therefore, after acquiring the user's response to the first response message, communication with the server for generating response information corresponding to the response is unnecessary. Accordingly, it is possible to shorten the response time in a plurality of dialogues.
また、本開示の一態様に係る第2の情報処理方法は、サーバ上の第2プロセッサ(対話処理装置)によって実行される情報処理方法であって、前記第2プロセッサは、ユーザとの対話を通じて少なくとも1つの機器を制御する第1プロセッサとネットワークを介して通信可能であり、マイクロホンから入力された前記ユーザの第1音声に関する第1フレーズ情報(第1の音声認識結果)を、前記第1プロセッサから前記ネットワークを介して取得し、前記第1フレーズ情報は、前記第1音声に対応する文字列と前記文字列の意味情報との少なくとも一方を示し、前記第1フレーズ情報に応じた第1応答情報を、前記ネットワークを介して前記第1プロセッサに出力し、前記第1応答情報は、スピーカから出力される、前記第1音声に対する第1応答メッセージを示し、前記サーバ上で前記第1応答情報に関連づけられている第2応答情報を、前記ネットワークを介して前記第1プロセッサに出力し、前記第2応答情報は、1以上のフレーズ情報(推定返答情報)に応じて異なる複数の命令に分岐する条件分岐命令(処理情報)を含み、前記1以上のフレーズ情報のそれぞれは、前記第1応答メッセージに対する前記ユーザの返答の選択候補に関するものである。 In addition, a second information processing method according to an aspect of the present disclosure is an information processing method executed by a second processor (interaction processing device) on a server, and the second processor passes through a dialog with a user. The first processor is capable of communicating with a first processor that controls at least one device via a network, and first phrase information (first speech recognition result) regarding the first voice of the user input from a microphone is used as the first processor. And the first phrase information indicates at least one of a character string corresponding to the first voice and semantic information of the character string, and a first response corresponding to the first phrase information Information is output to the first processor via the network, and the first response information is output from a speaker in response to a first sound corresponding to the first sound. A response message is displayed, and second response information associated with the first response information on the server is output to the first processor via the network, and the second response information includes one or more pieces of phrase information A conditional branch instruction (processing information) that branches into a plurality of different instructions according to (estimated response information), and each of the one or more phrase information relates to a selection candidate of the user's reply to the first response message It is.
上記態様によれば、サーバにおいて、ユーザの第1音声に関する第1フレーズ情報の取得後、第1音声に応じた第1応答情報と、第1応答情報の第1応答メッセージに対するユーザの返答に対応した第2応答情報とが、決定される。そして、第1応答情報及び第2応答情報が、サーバから第1プロセッサに出力される。第1プロセッサは、第1応答情報に基づき、ユーザの第1音声に応じた第1応答メッセージを出力することができる。また、第1プロセッサは、第2応答情報に基づき、第1応答メッセージに対するユーザの返答に応じて、スピーカによるメッセージの出力及び機器の制御を行うことができる。よって、ユーザとの複数回の対話が可能となる。さらに、第2応答情報が条件分岐命令を含むため、第1応答メッセージに対するユーザの異なる複数の返答に応じて、第1プロセッサが対応することができる。よって、第1応答メッセージに対するユーザの返答を取得した後、返答に応じた応答情報を生成するための第1プロセッサとサーバとの通信が不要である。従って、複数回の対話における応答時間の短縮が可能になる。 According to the above aspect, the server responds to the first response information corresponding to the first voice and the user's response to the first response message of the first response information after obtaining the first phrase information about the first voice of the user. The second response information is determined. Then, the first response information and the second response information are output from the server to the first processor. The first processor can output a first response message corresponding to the first voice of the user based on the first response information. In addition, the first processor can perform message output and speaker control by a speaker in accordance with a user response to the first response message based on the second response information. Therefore, multiple dialogues with the user are possible. Furthermore, since the second response information includes a conditional branch instruction, the first processor can respond to a plurality of different responses from the user to the first response message. Therefore, after the user's response to the first response message is acquired, communication between the first processor and the server for generating response information corresponding to the response is unnecessary. Accordingly, it is possible to shorten the response time in a plurality of dialogues.
例えば、本開示の一態様に係る第1の情報処理方法において、前記第1応答情報と前記第2応答情報とは、同時に前記サーバから取得されてもよい。 For example, in the first information processing method according to an aspect of the present disclosure, the first response information and the second response information may be simultaneously acquired from the server.
上記態様によれば、サーバとプロセッサとの通信頻度が低減し、ユーザの音声に対する応答時間の短縮が可能になる。具体的には、第1応答情報が示す第1応答メッセージに対するユーザの返答の確認前に、ユーザの返答に対する第2応答情報が、サーバから得られる。このため、サーバがユーザの返答を確認するための通信が不要である。さらに、第1応答メッセージに対する返答をユーザから受け取っているが、第2応答情報を未だ取得しておらず、次の動作を行えないという処理の遅延を防ぐことができる。 According to the above aspect, the communication frequency between the server and the processor is reduced, and the response time to the user's voice can be shortened. Specifically, before confirming the user's response to the first response message indicated by the first response information, the second response information for the user's response is obtained from the server. This eliminates the need for communication for the server to confirm the user's response. Furthermore, although a response to the first response message has been received from the user, the second response information has not yet been acquired, and processing delays such that the next operation cannot be performed can be prevented.
例えば、本開示の一態様に係る第1の情報処理方法において、前記第1フレーズ情報が前記サーバに出力された後、前記第2応答情報は、前記第1フレーズ情報及び前記第1応答情報の少なくとも一方に応じて、前記サーバ上に格納された複数の第2応答情報の中から選択されてもよい。 For example, in the first information processing method according to an aspect of the present disclosure, after the first phrase information is output to the server, the second response information includes the first phrase information and the first response information. According to at least one, it may be selected from a plurality of second response information stored on the server.
例えば、本開示の一態様に係る第1の情報処理方法は、さらに、前記所定の動作を実行させた後、前記所定の動作が実行されたことを示す実行通知を前記サーバに出力してもよい。 For example, in the first information processing method according to one aspect of the present disclosure, after the predetermined operation is executed, an execution notification indicating that the predetermined operation is executed may be output to the server. Good.
上記態様によれば、サーバは、実行通知を取得することによって、ユーザとの対話を通じた機器の制御に関連する動作を終了することができる。よって、サーバの不要な待機及び動作の低減が可能になる。 According to the above aspect, the server can end the operation related to the control of the device through the dialogue with the user by acquiring the execution notification. Therefore, unnecessary standby and operation of the server can be reduced.
例えば、本開示の一態様に係る第1の情報処理方法において、前記複数の命令の少なくとも1つは、前記第2音声に対する第2応答メッセージを前記スピーカから出力させる命令を含んでもよい。 For example, in the first information processing method according to an aspect of the present disclosure, at least one of the plurality of commands may include a command to output a second response message for the second sound from the speaker.
上記態様によれば、第2応答情報を取得することによって、第1応答メッセージに対するユーザの返答を含む第2音声の内容に応じて、音声を用いた対応をすることができる。 According to the above aspect, by acquiring the second response information, it is possible to take a response using voice according to the content of the second voice including the user's response to the first response message.
例えば、本開示の一態様に係る第1の情報処理方法において、前記複数の命令の少なくとも1つは、前記少なくとも1つの機器へ制御コマンドを送信させる命令を含んでもよい。 For example, in the first information processing method according to an aspect of the present disclosure, at least one of the plurality of instructions may include an instruction that causes a control command to be transmitted to the at least one device.
上記態様によれば、第2応答情報を取得することによって、第1応答メッセージに対するユーザの返答を含む第2音声の内容に応じて、機器を制御することができる。 According to the said aspect, by acquiring 2nd response information, an apparatus can be controlled according to the content of the 2nd audio | voice containing the user's reply with respect to a 1st response message.
例えば、本開示の一態様に係る第1の情報処理方法において、前記ネットワークはインターネットであり、前記情報処理方法は、前記少なくとも1つの機器と前記インターネットを介さずに通信可能なローカルサーバ上で実行されてもよい。 For example, in the first information processing method according to an aspect of the present disclosure, the network is the Internet, and the information processing method is executed on a local server that can communicate with the at least one device without using the Internet. May be.
上記態様によれば、ローカルサーバと少なくとも1つの機器との通信による、応答時間の増加が抑えられる。 According to the above aspect, an increase in response time due to communication between the local server and at least one device can be suppressed.
また、本開示の一態様に係る第1のプログラムは、上記の第1の情報処理方法を前記プロセッサに実行させる。 A first program according to an aspect of the present disclosure causes the processor to execute the first information processing method.
例えば、本開示の一態様に係る第2の情報処理方法において、前記第1プロセッサは、前記条件分岐命令のうち、前記1以上のフレーズ情報と前記第2音声情報から生成された第2フレーズ情報とを照合することによって決定された命令に応じて、前記スピーカ及び前記少なくとも1つの機器の少なくとも1つに所定の動作を実行させてもよい。 For example, in the second information processing method according to an aspect of the present disclosure, the first processor includes second phrase information generated from the one or more phrase information and the second audio information in the conditional branch instruction. And at least one of the speaker and the at least one device may perform a predetermined operation in accordance with an instruction determined by comparing
上記態様によれば、第1プロセッサは、条件分岐命令のうちから、ユーザの第2音声の内容に適した命令を選択することができる。これにより、ユーザの第2音声の内容と、上記命令に基づく第1プロセッサの動作との不適合に起因する、応答時間の増加が抑えられる。 According to the above aspect, the first processor can select an instruction suitable for the content of the user's second voice from the conditional branch instructions. As a result, an increase in response time due to incompatibility between the content of the user's second voice and the operation of the first processor based on the command is suppressed.
例えば、本開示の一態様に係る第2の情報処理方法において、前記第2プロセッサは、前記第1プロセッサが前記ユーザの返答を取得してから、前記所定の動作を実行させるまでの間、前記第2音声情報及び前記第2フレーズ情報を前記第1プロセッサに出力しないとしてもよい。 For example, in the second information processing method according to an aspect of the present disclosure, the second processor is configured to perform the predetermined operation after the first processor acquires the user's response. The second audio information and the second phrase information may not be output to the first processor.
例えば、本開示の一態様に係る第2の情報処理方法は、さらに、前記所定の動作が実行されたことを示す実行通知を前記第1プロセッサから取得してもよい。 For example, the second information processing method according to an aspect of the present disclosure may further acquire an execution notification indicating that the predetermined operation has been executed from the first processor.
上記態様によれば、サーバの第2プロセッサは、実行通知を取得することによって、ユーザとの対話を通じた機器の制御に関連する動作を終了することができる。よって、第2プロセッサの不要な待機及び動作の低減が可能になる。 According to the above aspect, the second processor of the server can end the operation related to the control of the device through the dialogue with the user by acquiring the execution notification. Therefore, unnecessary standby and operation of the second processor can be reduced.
例えば、本開示の一態様に係る第2の情報処理方法において、前記第1応答情報と前記第2応答情報とは、同時に前記第1プロセッサに出力されてもよい。 For example, in the second information processing method according to an aspect of the present disclosure, the first response information and the second response information may be simultaneously output to the first processor.
上記態様によれば、第2プロセッサと第1プロセッサとの通信頻度が低減し、ユーザの音声に対する応答時間の短縮が可能になる。具体的には、第1応答情報が示す第1応答メッセージに対するユーザの返答の確認前に、ユーザの返答に対する第2応答情報が、第1プロセッサに出力される。このため、第2プロセッサは、上記ユーザの返答を取得する通信をする必要がない。さらに、第1応答メッセージに対してユーザが返答しているが、第1プロセッサが第2応答情報を未だ取得してないため、次の動作を行えないという処理の遅延を防ぐことができる。 According to the above aspect, the communication frequency between the second processor and the first processor is reduced, and the response time to the user's voice can be shortened. Specifically, the second response information for the user response is output to the first processor before confirming the user response to the first response message indicated by the first response information. For this reason, the second processor does not need to perform communication for obtaining the user's response. Furthermore, although the user responds to the first response message, since the first processor has not yet acquired the second response information, it is possible to prevent a delay in processing that the next operation cannot be performed.
例えば、本開示の一態様に係る第2の情報処理方法において、前記複数の命令の少なくとも1つは、前記第2音声に対する第2応答メッセージを前記スピーカから出力させる命令を含んでもよい。 For example, in the second information processing method according to an aspect of the present disclosure, at least one of the plurality of instructions may include an instruction for outputting a second response message for the second sound from the speaker.
上記態様によれば、第1プロセッサは、第2応答情報を取得することによって、第1応答メッセージに対するユーザの返答を含む第2音声の内容に応じて、音声を用いた対応をすることができる。 According to the above aspect, the first processor can take a response using the voice according to the content of the second voice including the user's response to the first response message by acquiring the second response information. .
例えば、本開示の一態様に係る第2の情報処理方法において、前記複数の命令の少なくとも1つは、前記少なくとも1つの機器へ制御コマンドを出力させる命令を含んでもよい。 For example, in the second information processing method according to an aspect of the present disclosure, at least one of the plurality of instructions may include an instruction that causes the at least one device to output a control command.
上記態様によれば、第1プロセッサは、第2応答情報を取得することによって、第1応答メッセージに対するユーザの返答を含む第2音声の内容に応じて、機器を制御することができる。 According to the said aspect, the 1st processor can control an apparatus according to the content of the 2nd audio | voice containing the user's reply with respect to a 1st response message by acquiring 2nd response information.
例えば、本開示の一態様に係る第2の情報処理方法において、前記サーバ上には、複数の意味情報と、前記複数の意味情報にそれぞれ関連づけられている複数の第1応答情報と、前記複数の第1応答情報にそれぞれ関連づけられている複数の第2応答情報とを含むデータベースが格納されており、前記第1フレーズ情報を取得した後、前記データベースを参照して、前記複数の意味情報の中から、前記第1音声に対応する意味情報を特定し、前記複数の第1応答情報の中から、特定された前記意味情報に関連づけられている前記第1応答情報を特定し、前記複数の第2応答情報の中から、特定された前記第1応答情報に関連づけられている前記第2応答情報を特定してもよい。 For example, in the second information processing method according to one aspect of the present disclosure, on the server, a plurality of semantic information, a plurality of first response information respectively associated with the plurality of semantic information, and the plurality of the plurality of semantic information A database including a plurality of second response information respectively associated with the first response information, and after obtaining the first phrase information, referring to the database, Identifying the semantic information corresponding to the first voice, identifying the first response information associated with the identified semantic information from the plurality of first response information, You may identify the 2nd response information linked | related with the identified said 1st response information from 2nd response information.
上記態様によれば、サーバ側のみにおいて、第1フレーズ情報から第1応答情報及び第2応答情報の生成処理が可能である。サーバは、処理能力が高く、データ容量も大きい。上記生成処理をサーバが行うことによって、処理時間の短縮が可能になる。 According to the said aspect, the production | generation process of 1st response information and 2nd response information from 1st phrase information is possible only in the server side. The server has a high processing capacity and a large data capacity. When the server performs the generation process, the processing time can be shortened.
また、本開示の一形態に係る第2のプログラムは、上記の第2の情報処理方法を前記第2プロセッサに実行させる。 Further, a second program according to an aspect of the present disclosure causes the second processor to execute the second information processing method.
なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。 These comprehensive or specific modes may be realized by a system, a method, an integrated circuit, a computer program, or a recording medium such as a computer-readable CD-ROM. The system, method, integrated circuit, computer program Also, any combination of recording media may be realized.
以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本開示の技術の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。 Hereinafter, embodiments will be specifically described with reference to the drawings. Note that each of the embodiments described below shows a specific example of the technology of the present disclosure. Numerical values, shapes, components, steps, order of steps, and the like shown in the following embodiments are merely examples, and are not intended to limit the present disclosure. In addition, among the constituent elements in the following embodiments, constituent elements that are not described in the independent claims indicating the highest concept are described as optional constituent elements. In all the embodiments, the contents can be combined.
[実施の形態]
[1.提供するサービスの全体像]
まず、図1A〜図1Cを参照して、実施の形態に係る対話処理装置を備える音声対話エージェントシステム1が配置される情報管理システムが提供する、サービスの全体像について説明する。図1Aは、実施の形態に係る対話処理装置を備える音声対話エージェントシステム1が配置される環境の一例を示す図であり、音声対話エージェントシステムを備える情報管理システムが提供するサービスの全体像を示す図である。図1Bは、図1Aのデータセンタ運営会社が、機器メーカに該当する例を示す図である。図1Cは、図1Aのデータセンタ運営会社が、機器メーカ及び管理会社の両者又はいずれか一方に該当する例を示す図である。なお、対話処理装置は、後述するホームゲートウェイ(ローカルサーバとも呼ぶ)102であってもよく、クラウドサーバ111であってもよく、ホームゲートウェイ102及びクラウドサーバ111を含むものでもよい。
[Embodiment]
[1. Overview of services provided]
First, with reference to FIG. 1A to FIG. 1C, an overview of services provided by an information management system in which a voice
図1Aに示されるように、情報管理システム4000は、グループ4100、データセンタ運営会社4110及びサービスプロバイダ4120を備える。グループ4100は、例えば企業、団体又は家庭等であり、その規模を問わない。グループ4100は、第1の機器101a及び第2の機器101bを含む複数の機器101、並びにホームゲートウェイ102を備える。複数の機器101は、例えば家電機器である。複数の機器101は、例えば、スマートフォン、パーソナルコンピュータ(PC)又はテレビ等のインターネットなどの通信網と接続可能な機器を含んでもよく、例えば、照明、洗濯機又は冷蔵庫等のそれ自身ではインターネットなどの通信網と接続不可能な機器を含んでもよい。複数の機器101は、それ自身ではインターネット等の通信網と接続不可能であっても、ホームゲートウェイ102を介してインターネット等の通信網と接続可能となる機器を含んでもよい。また、ユーザ5100は、グループ4100内の複数の機器101を使用する。
As shown in FIG. 1A, the
データセンタ運営会社4110は、クラウドサーバ111を備える。クラウドサーバ111は、インターネットなどの通信網を介して様々な装置と連携する仮想化サーバである。クラウドサーバ111は、主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社4110は、データの管理、クラウドサーバ111の管理、及びそれらを行うデータセンタの運営等を行っている。データセンタ運営会社4110が行っている役務の詳細については後述する。以降では、通信網として、インターネットが用いられるものとして説明するが、通信網は、インターネットに限定されない。
The data
ここで、データセンタ運営会社4110は、データの管理又はクラウドサーバ111の管理のみを行っている会社に限らない。例えば、図1Bに示すように、複数の機器101のうちの一つの機器を開発又は製造している機器メーカが、データの管理又はクラウドサーバ111の管理等を行っている場合は、機器メーカがデータセンタ運営会社4110に該当する。また、データセンタ運営会社4110は一つの会社に限らない。例えば、図1Cに示すように、機器メーカ及び管理会社が共同又は分担してデータの管理又はクラウドサーバ111の管理を行っている場合は、両者又はいずれか一方がデータセンタ運営会社4110に該当する。
Here, the data
サービスプロバイダ4120は、サーバ121を備える。ここで言うサーバ121とは、その規模は問わず、例えば、個人用PC内のメモリ等も含む。また、サービスプロバイダ4120がサーバ121を備えていない場合もある。
The
なお、上記の情報管理システム4000において、ホームゲートウェイ102は必須ではない。例えば、クラウドサーバ111が全てのデータ管理を行っている場合等は、ホームゲートウェイ102は不要となる。また、家庭内の全ての機器101がインターネットに接続されている場合のように、それ自身ではインターネットと接続不可能な機器が存在しない場合もある。
In the
次に、情報管理システム4000における情報の流れを説明する。まず、グループ4100の第1の機器101a又は第2の機器101bは、各々のログ情報をデータセンタ運営会社4110のクラウドサーバ111にそれぞれ送信する。クラウドサーバ111は、第1の機器101a又は第2の機器101bのログ情報を集積する(図1Aの矢印131)。ここで、ログ情報とは、複数の機器101の例えば運転状況及び動作日時等を示す情報である。例えば、ログ情報は、テレビの視聴履歴、レコーダの録画予約情報、洗濯機の運転日時、洗濯物の量、冷蔵庫の開閉日時、及び冷蔵庫の開閉回数などを含み得るが、これらの情報に限らず、種々の機器101から取得が可能な種々の情報を含んでもよい。なお、ログ情報は、インターネットを介して複数の機器101自体から直接クラウドサーバ111に提供されてもよい。また、ログ情報は、複数の機器101から一旦ホームゲートウェイ102に集積され、ホームゲートウェイ102からクラウドサーバ111に提供されてもよい。
Next, the information flow in the
次に、データセンタ運営会社4110のクラウドサーバ111は、集積したログ情報を一定の単位でサービスプロバイダ4120に提供する。ここで、一定の単位とは、データセンタ運営会社4110が集積した情報を整理してサービスプロバイダ4120に提供することの出来る単位でもよく、サービスプロバイダ4120が要求する単位でもよい。また、ログ情報は、一定の単位で提供されるとしているが、一定の単位で提供されなくてもよく、状況に応じて提供される情報量が変化してもよい。ログ情報は、必要に応じてサービスプロバイダ4120が保有するサーバ121に保存される(図1Aの矢印132)。
Next, the
そして、サービスプロバイダ4120は、ログ情報を、ユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。情報が提供されるユーザは、複数の機器101を使用するユーザ5100でもよく、外のユーザ5200でもよい。ユーザ5100,5200への情報提供方法としては、例えば、サービスプロバイダ4120から直接ユーザ5100,5200へ情報が提供されてもよい(図1Aの矢印133,134)。また、ユーザ5100への情報提供方法としては、例えば、データセンタ運営会社4110のクラウドサーバ111を再度経由して、ユーザ5100に情報が提供される方法でもよい(図1Aの矢印135,136)。また、データセンタ運営会社4110のクラウドサーバ111は、ログ情報を、ユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ4120に提供してもよい。なお、ユーザ5100は、ユーザ5200と異なっていても同一であってもよい。
Then, the
[2−1.実施の形態に係る音声対話エージェントシステムの構成]
以下、実施の形態に係る音声対話エージェントシステム1の構成を説明する。音声対話エージェントシステム1は、ユーザの音声指示に対して、応答時間を短縮するシステムである。本実施の形態では、音声対話エージェントシステム1は、複数回の対話で機器制御を行うクラウド型音声対話エージェントシステムであり、簡単な認識命令と対応する制御命令とをローカル側にオフロードすることで、その応答時間を短縮する。
[2-1. Configuration of Spoken Dialogue Agent System According to Embodiment]
Hereinafter, the configuration of the voice
まず、音声対話エージェントシステム1の構成に関して、音声対話エージェントシステムの構成、音声入出力装置のハードウェア構成、機器のハードウェア構成、ローカルサーバのハードウェア構成、クラウドサーバのハードウェア構成、音声入出力装置の機能ブロック、機器の機能ブロック、ローカルサーバの機能ブロック、及びクラウドサーバの機能ブロックを順次説明する。さらに、音声対話エージェントシステム1の構成に関して、ローカル辞書DBの具体例、対話ルールDBの具体例、オフロード命令生成DBの具体例も説明する。そして、音声対話エージェントシステム1の動作に関して、音声対話エージェントシステム1による応答時間を短縮する処理のシーケンスを説明する。
First, regarding the configuration of the voice
図2を参照して、実施の形態に係る対話処理装置を含む音声対話エージェントシステム1の構成を説明する。図2は、実施の形態に係る音声対話エージェントシステム1の構成を示す概略図である。音声対話エージェントシステム1は、音声入出力装置240と、複数の機器101と、ローカルサーバ102と、情報通信ネットワーク220と、クラウドサーバ111とを含む。ローカルサーバ102は、ホームゲートウェイの一例である。情報通信ネットワーク220は、例えば、インターネットであり、通信網の一例である。本実施の形態では、複数の機器101は、テレビ243、エアコン244及び冷蔵庫245で構成される。また、複数の機器101を構成する機器は、テレビ243、エアコン244及び冷蔵庫245に限定されるものでなく、任意の機器でよい。音声入出力装置240、複数の機器101及びローカルサーバ102は、グループ4100に配置される。ここで、ローカルサーバ102が、対話処理装置を構成してもよく、クラウドサーバ111が、対話処理装置を構成してもよく、ローカルサーバ102及びクラウドサーバ111が共に、対話処理装置を構成してもよい。
With reference to FIG. 2, the structure of the spoken
図2に示す例では、人間であるユーザ5100が、音声対話エージェントシステム1が配置されるグループ4100内に存在する。また、ユーザ5100が、音声対話エージェントシステム1に対する話者であるとする。
In the example shown in FIG. 2, a
音声入出力装置240は、グループ4100内の音声を取得する集音部の一例であり、グループ4100内に音声を出力する音声出力部の一例でもある。音声入出力装置240は、マイクロホンを介して音声を取得してもよく、スピーカを介して音声を出力してもよい。マイクロホン及びスピーカは、音声入出力装置240に備えられてもよく、音声入出力装置240を搭載する装置に備えられてもよく、音声入出力装置240及び上記装置と別個の装置に備えられてもよい。グループ4100は、音声入出力装置240が音声によりユーザに情報提供可能な空間である。音声入出力装置240は、グループ4100内のユーザ5100の音声を認識し、認識した音声入力によるユーザ5100の指示に応じて、音声入出力装置240より音声情報を提示し、且つ機器101を制御する。より具体的には、音声入出力装置240は、音声入力によるユーザ5100の指示に従いコンテンツを表示したり、ユーザ5100の質問に回答したり、機器101を制御したりする。
The voice input /
また、ここでは、音声入出力装置240、複数の機器101及びローカルサーバ102の間の接続には、有線又は無線による接続を用いることができる。無線による接続には、様々な無線通信が適用可能である。例えば、Wi−Fi(登録商標)(Wireless Fidelity)などの無線LAN(Local Area Network)が適用されてもよく、Bluetooth(登録商標)、ZigBee(登録商標)等の近距離無線通信が適用されてもよい。
In addition, here, a wired or wireless connection can be used for the connection between the voice input /
また、音声入出力装置240、機器101及びローカルサーバ102のうち少なくとも一部が一体化されていてもよい。例えば、音声入出力装置240に、ローカルサーバ102の機能が組み込まれ、音声入出力装置240が、自身でクラウドサーバ111と通信するローカル端末として機能してもよい。又は、音声入出力装置240が、複数の機器101のそれぞれ、若しくは、複数の機器101のうちの1つに組み込まれてもよい。後者の場合、音声入出力装置240が組み込まれた機器101が、他の機器101を制御してもよい。又は、音声入出力装置240の機能とローカルサーバ102の機能とのうち少なくともローカルサーバ102の機能が、複数の機器101のそれぞれ、若しくは、複数の機器101のうちの1つに組み込まれてもよい。前者の場合、各機器101が、自身でクラウドサーバ111と通信するローカル端末として機能してもよく、後者の場合、ローカルサーバ102の機能が組み込まれたローカル端末である1つの機器101を介して、他の機器101がクラウドサーバ111と通信してもよい。
In addition, at least some of the voice input /
さらに、音声入出力装置240、機器101、ローカルサーバ102及びクラウドサーバ111について、ハードウェア構成の観点から説明する。図3は、実施の形態に係る音声入出力装置240のハードウェア構成の一例を示す。図3に示すように、音声入出力装置240は、処理回路300、集音回路301、音声出力回路302及び通信回路303を有している。処理回路300、集音回路301、音声出力回路302及び通信回路303は、バス330で相互に接続されており、互いの間でデータ及び命令の授受を行うことが可能である。ここで、クラウドサーバ111は、サーバの一例である。
Further, the voice input /
処理回路300は、CPU(Central Processing Unit)310と、機器ID341及びコンピュータプログラム342を格納したメモリ320との組み合わせによって実現され得る。CPU310は、音声入出力装置240の動作を制御するが、ローカルサーバ102を介して接続される各機器101の動作も制御してもよい。この場合、処理回路300は、各機器101の制御命令を、ローカルサーバ102を介して送信するが、各機器101に直接送信してもよい。CPU310は、メモリ320に展開されたコンピュータプログラム342に記述された命令群を実行する。これにより、CPU310は種々の機能を実現することができる。コンピュータプログラム342には、後述する音声入出力装置240の動作を実現するための命令群が記述されている。上述のコンピュータプログラム342は、製品としての音声入出力装置240のメモリ320に予め格納されていてもよい。又は、コンピュータプログラム342は、CD−ROM等の記録媒体に記録されて製品として市場に流通され、若しくは、インターネット等の電気通信回線を通じて伝送され、記録媒体又は電気通信回線を通じて取得されたコンピュータプログラム342がメモリ320に格納されてもよい。
The
或いは、処理回路300は、以下に説明する動作を実現するように構成された専用のハードウェアによって実現されていてもよい。なお、機器ID341は、機器101に一意に付与された識別子である。機器ID341は、機器101のメーカによって独自に付与されてもよいし、或いは、原則としてネットワーク上で一意に割り当てられる物理アドレス(いわゆるMAC(Media Access Control)アドレス)であってもよい。
Alternatively, the
なお、図3では、コンピュータプログラム342が格納されているメモリ320に機器ID341が格納されているとした。しかしながらこれは、処理回路300の構成の一例である。例えば、コンピュータプログラム342がRAM(Random Access Memory)又はROM(Read Only Memory)に格納され、機器ID341がフラッシュメモリに格納されてもよい。
In FIG. 3, it is assumed that the device ID 341 is stored in the memory 320 in which the computer program 342 is stored. However, this is an example of the configuration of the
集音回路301は、ユーザの音声を収集してアナログ音声信号を生成し、そのアナログ音声信号をデジタルデータに変換してバス330に送信する。
The
音声出力回路302は、バス330を通じて受信したデジタルデータをアナログ音声信号に変換し、そのアナログ音声信号を出力する。
The
通信回路303は、有線通信又は無線通信を介して、他の機器(例えばローカルサーバ102)と通信を行う回路である。限定されるものではないが、本実施の形態では、通信回路303は、ネットワークを介して他の機器と通信を行い、例えばイーサネット(登録商標)規格に準拠したネットワーク等の有線LANを介して通信を行う。通信回路303は、処理回路300によって生成されたログ情報及びID情報をローカルサーバ102に送信する。また、通信回路303は、ローカルサーバ102より受信した信号を、バス330を通じて処理回路300に送信する。
The
音声入出力装置240は、図示される構成要素以外にも、音声入出力装置240に要求される機能を実現するための他の構成要素も含み得る。
The voice input /
図4は、実施形態に係る機器101のハードウェア構成の一例を示す。図2に示されるテレビ243、エアコン244及び冷蔵庫245は、機器101の一例である。図4に示すように、機器101は、入出力回路410と、通信回路450と、処理回路470とを有している。入出力回路410、通信回路450及び処理回路470は、バス460で相互に接続されており、互いの間でデータ及び命令の授受を行うことが可能である。
FIG. 4 shows an example of a hardware configuration of the
処理回路470は、CPU430と、機器ID441及びコンピュータプログラム442を格納したメモリ440との組み合わせによって実現され得る。CPU430は、機器101の動作を制御する。CPU430は、メモリ440に展開されたコンピュータプログラム442に記述された命令群を実行し、種々の機能を実現することができる。コンピュータプログラム442には、機器101の動作を実現するための命令群が記述されている。上述のコンピュータプログラム442は、製品としての機器101のメモリ440に予め格納されていてもよい。又は、コンピュータプログラム442は、CD−ROM等の記録媒体に記録されて製品として市場に流通され、若しくは、インターネット等の電気通信回線を通じて伝送され、記録媒体又は電気通信回線を通じて取得されたコンピュータプログラム442がメモリ440に格納されてもよい。
The
或いは、処理回路470は、以下に説明する動作を実現するように構成された専用のハードウェアによって実現されていてもよい。なお、機器ID441は、機器101に一意に付与された識別子である。機器ID441は、機器101のメーカによって独自に付与されてもよいし、或いは、原則としてネットワーク上で一意に割り当てられる物理アドレス(いわゆるMACアドレス)であってもよい。
Alternatively, the
なお、図4では、コンピュータプログラム442が格納されているメモリ440に機器ID441が格納されているとした。しかしながらこれは、処理回路470の構成の一例である。例えば、コンピュータプログラム442がRAM又はROMに格納され、機器ID441がフラッシュメモリに格納されてもよい。
In FIG. 4, it is assumed that the
入出力回路410は、処理回路470が処理した結果を出力する。また、入出力回路410は、入力されたアナログ信号をデジタルデータに変換してバス330に送信する。
The input /
通信回路450は、有線通信又は無線通信を介して、他の装置(例えばローカルサーバ102)と通信を行う回路である。限定されるものではないが、本実施の形態では、通信回路450は、ネットワークを介して他の装置と通信を行い、例えばイーサネット(登録商標)規格に準拠したネットワーク等の有線LANを介して通信を行う。通信回路450は、処理回路470によって生成されたログ情報及びID情報をローカルサーバ102に送信する。また、通信回路450は、ローカルサーバ102より受信した信号を、バス460を通じて処理回路470に送信する。
The
機器101は、図示される構成要素以外にも、機器101に要求される機能を実現するための他の構成要素も含み得る。
The
図5は、ローカルサーバ102のハードウェア構成の一例を示す。ローカルサーバ102は、音声入出力装置240、機器101及び情報通信ネットワーク220の間のゲートウェイを構成する。図5に示されるように、ローカルサーバ102は、第一通信回路551と、第二通信回路552と、処理回路570と、音響モデルDB(データベース;Data Base)580と、言語モデルDB581と、音声素片DB582と、韻律制御DB583と、ローカル辞書DB584とを、構成要素として備えている。これらの構成要素は、バス560で相互に接続されており、互いの間でデータ及び命令の授受を行うことが可能である。
FIG. 5 shows an example of the hardware configuration of the
処理回路570は、音響モデルDB580、言語モデルDB581、音声素片DB582、韻律制御DB583及びローカル辞書DB584に接続されており、これらのDBに格納された管理情報の取得及び編集を行うことができる。なお、本実施形態では、音響モデルDB580、言語モデルDB581、音声素片DB582、韻律制御DB583及びローカル辞書DB584は、ローカルサーバ102の内部の構成要素であるが、ローカルサーバ102の外部に設けられていてもよい。その場合には、各DB及びローカルサーバ102の構成要素の間の接続手段には、バス560に加えて、インターネット回線、有線又は無線LAN等の通信回線が含まれ得る。
The
第一通信回路551は、有線通信又は無線通信を介して、他の装置(例えば音声入出力装置240及び機器101)と通信を行う回路である。限定されるものではないが、本実施の形態では、第一通信回路551は、ネットワークを介して他の装置と通信を行い、例えばイーサネット(登録商標)規格に準拠したネットワーク等の有線LANを介して通信を行う。第一通信回路551は、処理回路570によって生成されたログ情報及びID情報を音声入出力装置240及び機器101に送信する。また、第一通信回路551は、音声入出力装置240及び機器101より受信した信号を、バス560を通じて処理回路570に送信する。
The
第二通信回路552は、有線通信又は無線通信を介して、クラウドサーバ111と通信を行う回路である。第二通信回路552は、有線通信又は無線通信を介して、通信網に接続し、さらに、通信網を介してクラウドサーバ111と通信する。本実施の形態では、通信網は、情報通信ネットワーク220である。第二通信回路552は、例えばイーサネット(登録商標)規格に準拠したネットワーク等の有線LANを介して通信を行う。第二通信回路552は、クラウドサーバ111との間で、種々の情報を送受信する。
The
処理回路570は、CPU530と、一意に識別可能なゲートウェイID(以下、GW−IDとも呼ぶ)541及びコンピュータプログラム542を格納したメモリ540との組み合わせによって実現され得る。CPU530は、ローカルサーバ102の動作を制御するが、音声入出力装置240及び機器101の動作も制御してもよい。ゲートウェイID541は、ローカルサーバ102に一意に付与された識別子である。ゲートウェイID541は、ローカルサーバ102のメーカによって独自に付与されてもよいし、或いは、原則としてネットワーク上で一意に割り当てられる物理アドレス(いわゆるMACアドレス)であってもよい。CPU530は、メモリ540に展開されたコンピュータプログラム542に記述された命令群を実行し、種々の機能を実現することができる。コンピュータプログラム542には、ローカルサーバ102の動作を実現するための命令群が記述されている。上述のコンピュータプログラム542は、製品としてのローカルサーバ102のメモリ540に予め格納されていてもよい。又は、コンピュータプログラム542は、CD−ROM等の記録媒体に記録されて製品として市場に流通され、若しくは、インターネット等の電気通信回線を通じて伝送され、記録媒体又は電気通信回線を通じて取得されたコンピュータプログラム542がメモリ540に格納されてもよい。ここで、処理回路570又はCPU530は、プロセッサ又は第1プロセッサの一例である。
The
或いは、処理回路570は、以下に説明する動作を実現するように構成された専用のハードウェアによって実現されていてもよい。ローカルサーバ102は、図示される構成要素以外にも、ローカルサーバ102に要求される機能を実現するための他の構成要素も含み得る。
Alternatively, the
なお、図5では、コンピュータプログラム542が格納されているメモリ540にゲートウェイID541が格納されているとした。しかしながらこれは、処理回路570の構成の一例である。例えば、コンピュータプログラム542がRAM又はROMに格納され、ゲートウェイID541がフラッシュメモリに格納されてもよい。
In FIG. 5, it is assumed that the
音響モデルDB580は、音声の波形などの周波数パターン及び音声に対応する文字列等を含む種々の音響モデルを登録している。言語モデルDB581は、単語とその並び方等を含む種々の言語モデルを登録している。音声素片DB582は、音素等を単位とし且つ音声の特徴を表現した種々の音声素片を登録している。韻律制御DB583は、文字列の韻律を制御するための種々の情報を登録している。ローカル辞書DB584は、種々の文字列と、文字列それぞれに対応する意味タグとを対応付けて登録している。文字列は、単語、文節などのフレーズ等で構成される。意味タグは、文字列の意味を表す論理表現を指す。例えば、文字列の意味が類似する複数の文字列には、同一の意味タグが共通して設定される。例えば、意味タグは、タスク対象の名称、タスク対象へのタスク内容等を、キーワードとして示す。例えば、図11を参照すると、文字列と、文字列に対応する意味タグとの組み合わせの例が示されている。ここで、意味タグは、意味情報の一例である。
The
図6は、クラウドサーバ111のハードウェア構成の一例を示す。図6に示されるように、クラウドサーバ111は、通信回路650と、処理回路670と、対話ルールDB691と、オフロード命令生成DB692とを、構成要素として備えている。これらの構成要素は、バス680で相互に接続されており、互いの間でデータ及び命令を授受することが可能である。
FIG. 6 shows an exemplary hardware configuration of the
処理回路670は、CPU671と、プログラム673を格納したメモリ672とを有している。CPU671は、クラウドサーバ111の動作を制御する。CPU671は、メモリ672に展開されたコンピュータプログラム673に記述された命令群を実行する。これにより、CPU671は種々の機能を実現することができる。コンピュータプログラム673には、クラウドサーバ111が後述する動作を実現するための命令群が記述されている。上述のコンピュータプログラム673は、CD−ROM等の記録媒体に記録されて製品として市場に流通され、又は、インターネット等の電気通信回線を通じて伝送され得る。図6に示すハードウェアを備えた装置(例えばPC)は、当該コンピュータプログラム673を読み込むことにより、本実施形態によるクラウドサーバ111として機能し得る。ここで、処理回路670又はCPU671は、第2プロセッサの一例である。
The
処理回路670は、対話ルールDB691と、オフロード命令生成DB692とに接続されており、これらDBに格納された管理情報の取得及び編集を行うことができる。なお、本実施形態では、対話ルールDB691及びオフロード命令生成DB692は、クラウドサーバ111の内部の構成要素であるが、クラウドサーバ111の外部に設けられていてもよい。その場合には、各DB及びクラウドサーバ111の構成要素の間の接続手段には、バス680に加えて、インターネット回線、有線又は無線LAN等の通信回線が含まれ得る。詳細は後述するが、対話ルールDB691は、種々の意味タグと、各意味タグに関する条件とを対応付けて登録している。オフロード命令生成DB692は、音声対話エージェントシステム1の応答メッセージと、応答メッセージに対応するローカルサーバ102に対する命令データ(本実施の形態では、オフロード命令データ)とを対応付けて登録している。オフロード命令データは、ユーザと音声対話エージェントシステム1との間の複数通りにわたる対話に対応した命令データであり、ローカルサーバ102の負荷を軽減するように構成された命令データである。オフロード命令データは、ユーザと音声対話エージェントシステム1との間の複数回の対話にも対応し得る命令データでもある。ここで、対話ルールDB691及びオフロード命令生成DB692は、データベースの一例である。
The
通信回路650は、有線通信又は無線通信を介して、他の装置(例えばローカルサーバ102)と通信を行う回路である。通信回路650は、有線通信又は無線通信を介して、通信網に接続し、さらに、通信網を介して他の装置(例えば、ローカルサーバ102)と通信する。本実施の形態では、通信網は、情報通信ネットワーク220である。通信回路650は、例えばイーサネット(登録商標)規格に準拠したネットワーク等の有線LANを介して通信を行う。
The
次いで、音声入出力装置240、機器101、ローカルサーバ102及びクラウドサーバ111について、システム構成の観点から説明する。図7は、音声入出力装置240のシステム構成の一例を示すブロック図である。図7に示されるように、音声入出力装置240は、集音部700と、音声検出部710と、音声区間切り出し部720と、通信部730と、音声出力部740とを備える。
Next, the voice input /
集音部700は、図3の集音回路301に対応する。集音部700は、ユーザの音声を収集してアナログ音声信号を生成し、生成したアナログ音声信号をデジタルデータに変換し、変換したデジタルデータから音声信号を生成する。
The
音声検出部710及び音声区間切り出し部720は、図3の処理回路300により実現される。コンピュータプログラム342を実行したCPU310は、ある時点では、例えば音声検出部710として機能し、異なる他の一時点では音声区間切り出し部720として機能する。なお、これら2つの構成要素のうち、少なくとも1つが、DSP(Digital Signal Processor)などの専用の処理を行うハードウェアによって実現されてもよい。
The
音声検出部710は、音声を検出したかどうかを判定する。例えば、検出した音声のレベルが所定値以下の場合には、音声検出部710は音声を検出していないと判断する。音声区間切り出し部720は、取得した音声信号の中から音声が存在する区間を検出する。例えば、当該区間は、時間区間である。
The
通信部730は、図3の通信回路303に対応する。通信部730は、ネットワーク等の有線通信又は無線通信を介して、音声入出力装置240の他の装置(例えばローカルサーバ102)と通信を行う。通信部730は、例えばイーサネット(登録商標)規格に準拠したネットワーク等の有線LANを介して通信を行う。通信部730は、音声区間切り出し部720が検出した音声区間の音声信号を、他の装置に送信する。また、通信部730は、他の装置から受信した音声信号を音声出力部740に受け渡す。
The
音声出力部740は、図3の音声出力回路302に対応する。音声出力部740は、通信部730が受信した音声信号をアナログ音声信号に変換し、そのアナログ音声信号を出力する。
The
図8は、機器101のシステム構成の一例を示すブロック図である。図8に示されるように、機器101は、通信部800と、機器制御部810とを備える。
FIG. 8 is a block diagram illustrating an example of a system configuration of the
通信部800は、図4の通信回路450に対応する。通信部800は、ネットワーク等の有線通信又は無線通信を介して、機器101の他の装置(例えばローカルサーバ102)と通信を行う。通信部800は、例えばイーサネット(登録商標)規格に準拠したネットワーク等の有線LANを介して通信を行う。
The
機器制御部810は、図4の入出力回路410及び処理回路470に対応する。機器制御部810は、通信部800が受信した制御データを読み込み、機器101の動作を制御する。また、機器制御部810は、機器101の動作の制御上での処理結果の出力を制御する。例えば、機器制御部810は、通信部800が受信した制御データの処理回路470による読み込み及び処理、入出力回路410の入出力制御等を実施する。
The
図9は、ローカルサーバ102のシステム構成の一例を示すブロック図である。図9に示されるように、ローカルサーバ102は、通信部900と、受信データ解析部910と、音声認識部920と、ローカル辞書照合部930と、制御部940と、音声合成部950と、送信データ生成部960と、コマンド記録部970とを備える。
FIG. 9 is a block diagram illustrating an example of a system configuration of the
通信部900は、図5の第一通信回路551及び第二通信回路552に対応する。通信部900は、ネットワーク等の有線通信又は無線通信を介して、ローカルサーバ102の他の装置(例えば音声入出力装置240及び機器101)と通信を行う。通信部900はまた、有線通信又は無線通信を介して、情報通信ネットワーク220等の通信網に接続し、さらに、通信網を介してクラウドサーバ111とも通信する。通信部900は、例えばイーサネット(登録商標)規格に準拠したネットワーク等の有線LANを介して通信を行う。通信部900は、他の装置及びクラウドサーバ111等から受信したデータを受信データ解析部910に受け渡す。また、通信部900は、送信データ生成部960が生成したデータを、他の装置及びクラウドサーバ111等に送信する。
The
受信データ解析部910は、図5の処理回路570に対応する。受信データ解析部910は、通信部900が受信したデータの種別を解析する。また、受信データ解析部910は、受信したデータの種別を解析した結果、ローカルサーバ102内部にて更なる処理を行うか、それとも他の装置にデータを送信すべきかを判断する。前者の場合、受信データ解析部910は、受信したデータを音声認識部920等に受け渡す。後者の場合、受信データ解析部910は、次に送信すべき装置と、当該装置に送信すべきデータとの組み合わせを決定する。
The reception
音声認識部920は、図5の処理回路570と、音響モデルDB580と、言語モデルDB581とにより実現される。音声認識部920は、音声信号から、文字列データに変換する。具体的には、音声認識部920は、予め登録された音響モデルの情報を音響モデルDB580より取得し、音響モデルと音声データの周波数特性とから、音声データを音素データに変換する。さらに、音声認識部920は、予め登録された言語モデルの情報を言語モデルDB581より取得し、言語モデルと音素データの並び方とから、音素データを特定の文字列データに変換する。音声認識部920は、変換した文字列データをローカル辞書照合部930に引き渡す。
The
ローカル辞書照合部930は、図5の処理回路570と、ローカル辞書DB584とにより実現される。ローカル辞書照合部930は、文字列データから、意味タグに変換する。意味タグとは、具体的には、制御対象となる機器及びタスク内容等を指すキーワードである。ローカル辞書照合部930は、受信した文字列データと、ローカル辞書DB584とを照合することで、当該文字列データと一致した意味タグを抽出する。なお、ローカル辞書DB584には、単語等の文字列と、文字列に対応する意味タグとが、対応付けられて収納されている。受信した文字列に一致する文字列を、ローカル辞書DB584内で探索することによって、受信した文字列と一致する、つまり適合する意味タグが抽出される。
The local
制御部940は、図5の処理回路570に対応する。制御部940は、コマンド記録部970に記録されたオフロード命令データの有無の判定処理、及び、コマンド記録部970に記録されたオフロード命令データと意味タグとの照合処理を行う。
The
音声合成部950は、図5の処理回路570と、音声素片DB582と、韻律制御DB583とにより実現される。音声合成部950は、文字列データから、音声信号に変換する。具体的には、音声合成部950は、予め登録された音声素片モデル及び韻律制御モデルの情報をそれぞれ、音声素片DB582及び韻律制御DB583より取得し、音声素片モデル、韻律制御モデル及び文字列データから、文字列データを特定の音声信号に変換する。
The
送信データ生成部960は、図5の処理回路570に対応する。送信データ生成部960は、受信データ解析部910が決定した、次に送信すべき装置及び当該装置に送信すべきデータの組み合わせから、送信データを生成する。
The transmission
コマンド記録部970は、図5のメモリ540に対応する。コマンド記録部970は、クラウドサーバ111がローカルサーバ102に送信したオフロード命令データを記録する。
The
図10は、クラウドサーバ111のシステム構成の一例を示すブロック図である。図10に示されるように、クラウドサーバ111は、通信部1000と、対話ルール照合部1020と、応答生成部1030とを備える。
FIG. 10 is a block diagram illustrating an example of a system configuration of the
通信部1000は、図6の通信回路650に対応する。通信部1000は、ネットワーク等の有線通信又は無線通信を介して、情報通信ネットワーク220等の通信網に接続し、さらに、通信網を介して、他の装置(例えばローカルサーバ102)と通信を行う。通信部1000は、例えばイーサネット(登録商標)規格に準拠したネットワーク等の有線LANを介して通信を行う。
The
対話ルール照合部1020は、図6の処理回路670と、対話ルールDB691とにより実現される。対話ルール照合部1020は、意味タグとその条件とを照合し、オフロード命令生成DB参照用の処理IDに変換する。
The dialogue
応答生成部1030は、図6の処理回路670と、オフロード命令生成DB692とにより実現される。応答生成部1030は、オフロード命令生成DB692を照合し、制御対象となる機器101を制御する制御信号を生成する。さらに、応答生成部1030は、照合結果に基づき、ユーザ5100に提供すべきテキスト情報の文字列データを生成する。
The
図11は、ローカル辞書DB584の登録内容の具体例を示す図である。ローカル辞書DB584には、単語等の文字列と意味タグの情報とが、互いに関連付けられて保持されている。意味タグとは、ある文字列の意味を表す論理表現を指す。また、意味タグは、変数として値を保持することができる。図11のテーブルに示されるように、例えば、ローカル辞書DB584は、文字列「予約」と、意味タグ<reserve>とを対応付けて保持している。また、例えば、ローカル辞書DB584は、文字列「音量20」と、式を表わす意味タグ「[<volume>]=20」とを対応付けて保持している。<volume>は、文字列「音量」の意味を表す意味タグだが、鍵括弧「[]」で囲われた意味タグは、値を保持できる変数としての役割を備えることができる。
FIG. 11 is a diagram showing a specific example of registered contents in the
図12A及び図12Bをそれぞれ参照すると、対話ルールDB691及びオフロード命令生成DB692の登録内容の具体例が示されている。例えば、図12Aは、対話ルールDB691の具体例を示す。対話ルールDB691には、意味タグと、意味タグ値の条件と、処理IDの情報とが、互いに関連付けられて保持されている。例えば、文字列「番組予約」に対応する意味タグ<reserve><program>のように、文字列が複数の単語を含む場合、このような文字列に対応する意味タグは、複数の意味タグの組み合わせである場合がある。意味タグ値の条件とは、意味タグに設定される条件であり、意味タグに代入された値に関する条件である。処理IDとは、対話ルールDB691の各項目に一意に割り当てられた番号である。
Referring to FIGS. 12A and 12B respectively, specific examples of registration contents of the
図12Bは、オフロード命令生成DB692の具体例を示す。オフロード命令生成DB692には、処理IDと、システム応答メッセージと、オフロード命令データとが、互いに関連付けられて保持されている。システム応答メッセージは、ユーザと音声対話エージェントシステム1との対話において、ユーザに発する応答メッセージである。オフロード命令データは、システム応答メッセージに対するユーザの返答に対する処理の命令データであり、ユーザと音声対話エージェントシステム1との複数通りにわたる対話に対応した命令データである。1つのオフロード命令データは、ユーザの複数通りの返答に対応するように構成されている。このようなオフロード命令データは、クラウドサーバ111とローカルサーバ102との間の通信を低減し、ローカルサーバ102の負荷を軽減する。さらに、本例では、オフロード命令データは、簡単な認識命令とこれに対応する制御命令とを含むため、オフロード命令データに基づく処理が簡易である。ここで、システム応答メッセージは、第1応答メッセージの一例であり、オフロード命令データは、条件分岐命令の一例である。ユーザと音声対話エージェントシステム1との複数通りにわたる対話は、第1応答メッセージに対するユーザの返答の選択候補の一例である。
FIG. 12B shows a specific example of the offload
処理IDは、オフロード命令生成DB692の各項目に一意に割り当てられた番号である。オフロード命令生成DB692の処理IDは、対話ルールDB691の処理IDと対応している。処理IDが同一の場合、オフロード命令生成DB692のシステム応答メッセージ及びオフロード命令データは、対話ルールDB691の意味タグ及び意味タグ値の条件に対応する。例えば、オフロード命令生成DB692のシステム応答メッセージは、対話ルールDB691の意味タグに対する応答メッセージである。また、オフロード命令生成DB692のオフロード命令データの内容は、対話ルールDB691の意味タグ及び意味タグ値の条件に関連する。
The process ID is a number uniquely assigned to each item in the offload
[2−2.実施の形態に係る音声対話エージェントシステムの動作]
次いで、音声対話エージェントシステム1の動作に関して、音声対話エージェントシステム1の応答時間を短縮する処理の流れを説明する。図13A及び図13Bは、音声対話エージェントシステム1の応答時間を短縮する処理の一連のシーケンスを示す。このシーケンスは、ユーザ5100が音声により音声入出力装置240に何らかの指示を開始したときに開始される。
[2-2. Operation of Spoken Dialogue Agent System According to Embodiment]
Next, regarding the operation of the voice
図13Aに示すように、ユーザ5100が音声入出力装置240に、マイクロホンなどから音声により指示を入力すると、ステップS1501において、音声入出力装置240はユーザ5100の音声データを取得する。音声入出力装置240の通信回路303は、取得した音声データをローカルサーバ102に送信する。ローカルサーバ102は当該音声データを受信する。なお、上記指示は、ユーザ5100と音声対話エージェントシステム1とが行う複数回にわたる一連の対話において、最初に発せられる音声であるとして、以降の説明を行う。よって、図13Aは、音声が初めて発せられた場合の音声対話エージェントシステム1のシーケンスを示す。ここで、上記ユーザの音声は、第1音声の一例であり、上記音声データは、第1音声情報の一例である。
As shown in FIG. 13A, when the
次いで、ステップS1502において、ローカルサーバ102は、音声入出力装置240から音声データを受信し、音声データの音声認識処理を行う。音声認識処理とは、ローカルサーバ102が有する音声認識部920によってユーザの音声を認識する処理である。具体的には、ローカルサーバ102は、音響モデルDB580及び言語モデルDB581に登録された音響モデル及び言語モデルの情報を保持している。ユーザ5100が音声入出力装置240に音声を入力すると、ローカルサーバ102のCPU530は、ユーザ5100の音声から周波数特性を抽出し、音響モデルDB580に保持されている音響モデルから、抽出した周波数特性に対応する音素データを抽出する。次に、CPU530は、抽出した音素データの並び方が、言語モデルDB581に保持されている言語モデルのどの文字列データに最も近いかを照合することにより、音素データを特定の文字列データに変換する。この結果、音声データが文字列データに変換される。
Next, in step S1502, the
次いで、ステップS1503において、ローカルサーバ102は、文字列データのローカル辞書照合処理を行う。ローカル辞書照合処理とは、ローカルサーバ102が有するローカル辞書照合部930によって、文字列データを意味タグに変換する処理である。具体的には、ローカルサーバ102は、ローカル辞書DB584に登録された辞書の情報を保持している。ローカルサーバ102のCPU530は、ステップS1502において変換された文字列データとローカル辞書DB584とを照合し、当該文字列データと一致する意味タグ、つまり当該文字列データに対応する意味タグを出力する。ここで、出力される意味タグは、第1フレーズ情報の一例である。
Next, in step S1503, the
さらに、ステップS1504において、ローカルサーバ102は、コマンド記録部970に、クラウドサーバ111から受信したオフロード命令データが記録されているか否かを判定する。記録されていない場合(ステップS1504でNo)、ローカルサーバ102は、意味タグと自身のゲートウェイIDとを組み合わせてクラウドサーバ111に送信し、ステップS1505に進む。なお、上述したステップS1501〜S1503までの処理は、ユーザ5100と音声対話エージェントシステム1との間の複数回にわたる一連の対話において、ユーザ5100が最初に発する音声に対する処理であるため、オフロード命令データはまだ生成されておらず、コマンド記録部970に記録されていない。このため、以降の処理には、ユーザ5100へシステム応答メッセージを出力する前に行われるステップS1501〜S1508の一連の処理が、引き続き選択される。
Further, in step S1504, the
しかしながら、ユーザ5100と音声対話エージェントシステム1との間の一連の対話の途中では、オフロード命令データが生成され、コマンド記録部970に記録されている場合がある。このように、オフロード命令データが記録されている場合(ステップS1504でYes)、図13Bに示すような、以降の処理には、ユーザ5100へシステム応答メッセージを出力した後に行われるステップS1509〜1514の一連の処理が選択される。この場合、ローカルサーバ102の処理は、ステップS1504からステップS1513に進むことになる。
However, in the middle of a series of conversations between the
ステップS1504に続くステップS1505において、クラウドサーバ111は、受信した意味タグの対話ルール照合処理を行う。対話ルール照合処理とは、クラウドサーバ111が有する対話ルール照合部1020によって、意味タグを処理IDに変換する処理である。具体的には、クラウドサーバ111は、対話ルールDB691に保持された対話ルールの情報を保持している。対話ルールの情報は、図12Aに示されるように、意味タグ、意味タグ値の条件及び処理IDを含む。クラウドサーバ111のCPU671は、ステップS1503において変換された意味タグと対話ルールDB691とを照合し、対話ルールDB691に保持されており且つ当該意味タグに対応する意味タグ値の条件を確認し、当該意味タグをこれに対応する適切な処理IDに変換する。例えば、意味タグが、図12Aに示される<reserve><program>である場合、この意味タグは処理ID「S001」に変換される。
In step S <b> 1505 following step S <b> 1504, the
次いで、ステップS1506において、クラウドサーバ111は、処理IDからのオフロード命令生成処理を行う。オフロード命令生成処理とは、クラウドサーバ111が有する応答生成部1030によって、システム応答メッセージとオフロード命令データとを生成する処理である。具体的には、クラウドサーバ111は、オフロード命令生成DB692に保持されたシステム応答メッセージ及びオフロード命令データの情報を保持している。クラウドサーバ111のCPU671は、ステップS1505において変換された処理IDとオフロード命令生成DB692とを照合し、当該処理IDに対応するシステム応答メッセージ及びオフロード命令データを出力する。例えば、図12Bの例において、処理IDが「S001」である場合、システム応答メッセージ「予約していいですか?」と、オフロード命令データ「if (<yes>) then cmd=0x10010f0a and reply “それでは予約します” else reply “予約を中止します”」とが出力される。クラウドサーバ111は、生成したシステム応答メッセージ及びオフロード命令データとゲートウェイIDとを組み合わせてローカルサーバ102に送信する。
Next, in step S1506, the
ステップS1507において、ローカルサーバ102は、クラウドサーバ111から受信したシステム応答メッセージ、オフロード命令データ及びゲートウェイIDを対応付けて、コマンド記録部970に記録する。具体的は、ローカルサーバ102のCPU530は、コマンド記録部970に対応するメモリ540に、システム応答メッセージ、オフロード命令データ及びゲートウェイIDを対応付けて記憶させる。ここで、システム応答メッセージ及びゲートウェイIDは、第1応答情報の一例であり、オフロード命令データ及びゲートウェイIDは、第2応答情報の一例である。
In step S1507, the
次のステップS1508において、ローカルサーバ102は、音声合成処理を行う。音声合成処理とは、ローカルサーバ102が有する音声合成部950が、システム応答メッセージを音声データに変換する処理である。具体的には、ローカルサーバ102は、音声素片DB582に登録された音声素片の情報と、韻律制御DBに登録された韻律情報とを保持している。ローカルサーバ102のCPU530は、音声素片DB582に登録された音声素片の情報と、韻律制御DBに登録された韻律情報とを読み込み、システム応答メッセージの文字列データから特定の音声データに変換する。そして、ローカルサーバ102は、ステップS1508にて変換した音声データを、音声入出力装置240に送信する。さらに、音声データを受信した音声入出力装置240は、システム応答メッセージを音声として、スピーカなどからユーザ5100へ出力する。
In the next step S1508, the
図13Bを参照すると、その後、ユーザ5100が、音声入出力装置240に音声を入力すると、ステップS1509において、音声入出力装置240はユーザ5100の音声データを取得する。音声入出力装置240は、取得した音声データをローカルサーバ102に送信し、ローカルサーバ102は当該音声データを受信する。音声データには、システム応答メッセージに対する適切な回答が含まれている場合も、含まれていない場合もある。これに対する判断は、後の処理で行われる。以降では、ユーザ5100へシステム応答メッセージを出力した後に行われるステップS1509〜1514の一連の処理が行われる。なお、音声入出力装置240が、音声の入力を、例えば所定の時間以上にわたって検出しない場合、ステップS1501〜S1508の処理を含む一連の処理を終了してもよい。ここで、上記ユーザの音声は、第2音声の一例であり、上記音声データは、第2音声情報の一例である。
Referring to FIG. 13B, after that, when the
次いで、ステップS1510において、ローカルサーバ102は、音声入出力装置240から音声データを受信し、さらに、ステップS1502の処理と同様に、当該音声データを文字列データに変換する音声認識処理を行う。さらに、ステップS1511において、ローカルサーバ102は、ステップS1503の処理と同様に、変換した文字列データを意味タグに変換するローカル辞書照合処理を行う。
Next, in step S1510, the
次のステップS1512において、ローカルサーバ102は、コマンド記録部970に、クラウドサーバ111から受信したオフロード命令データが記録されているか否かを判定する。記録されている場合(ステップS1512でYes)、ローカルサーバ102は、ステップS1513の処理に進む。記録されているオフロード命令データは、ステップS1507において記録されたデータである。本例では、ステップS1507において、オフロード命令データがコマンド記録部970に記録され、ステップS1508において、システム応答メッセージが音声として出力されているため、ステップS1513の処理が行われる。
In the next step S1512, the
しかしながら、オフロード命令データが記録されていない場合(ステップS1512でNo)、以降の処理には、例えば、ユーザ5100へシステム応答メッセージを出力する前のステップS1501〜S1508の一連の処理が、選択されることになる。
However, when the offload command data is not recorded (No in step S1512), for example, a series of processes in steps S1501 to S1508 before outputting a system response message to the
次のステップS1513において、ローカルサーバ102は、ステップS1511において変換された意味タグと、コマンド記録部970に記録されたオフロード命令データに含まれる条件とがマッチするか否かを判定する。マッチする場合(ステップS1513でYes)、ローカルサーバ102は、オフロード命令データに記述された制御コマンドのうちの当該条件に適合時の制御コマンドを機器101に送信し、オフロード命令データに記述されたメッセージのうちの当該条件に適合時のメッセージの文字例データを出力する。さらに、ローカルサーバ102は、制御コマンドの実行通知とゲートウェイIDとを組み合わせて、クラウドサーバ111に送信する。受信したクラウドサーバ111は、ユーザ5100と音声対話エージェントシステム1との間の複数回の対話を伴う機器101の制御の完了を認める。そして、ローカルサーバ102は、ステップS1514の音声合成処理に進む。ここで、上記意味タグは、第2フレーズ情報の一例である。
In the next step S1513, the
一方、マッチしない場合(ステップS1513でNo)、ローカルサーバ102は、オフロード命令データに記述されたメッセージのうちの当該条件に不適合時のメッセージの文字列データを出力する。さらに、ローカルサーバ102は、オフロード命令データに記述された制御コマンドのうちの当該条件に不適合時の制御コマンドを出力するが、図12Bに示されるような本例では、制御コマンドを出力しない。なお、オフロード命令データには、当該条件への適合時と異なる不適合時の制御コマンドが記述され、この制御コマンドをローカルサーバ102が出力してもよい。そして、ローカルサーバ102は、制御コマンドの不実行通知とゲートウェイIDとを組み合わせて、クラウドサーバ111に送信する。さらに、ローカルサーバ102は、ステップS1514の音声合成処理に進む。
On the other hand, if there is no match (No in step S1513), the
例えば、コマンド記録部970に、オフロード命令データとして、図12Bに示される「if (<yes>) then cmd=0x10010f0a and reply “それでは予約します” else reply “予約を中止します”」が記録されているとする。さらに、ステップS1513より前のステップS1508において、システム応答メッセージ「予約していいですか?」が音声入出力装置240から出力されているものとする。ユーザ5100が、「はい」、「いいえ」又はその他のフレーズを発話した場合、ステップS1510の音声認識処理にて、ローカルサーバ102は、音声データを文字列「はい」、「いいえ」又は「フレーズ内容」に変換する。その後、ステップS1511のローカル辞書照合処理にて、ローカルサーバ102は、文字列「はい」、「いいえ」又は「フレーズ内容」を、意味タグ<yes>、<no>、又は<フレーズ内容のキーワード>に変換する。そして、ステップS1512にて、ローカルサーバ102は、コマンド記録部970にオフロード命令データが記録されていると判定する。
For example, “if (<yes>) then cmd = 0x10010f0a and reply“ I will reserve ”else reply“ Cancel reservation ”” shown in FIG. 12B is recorded in the
ステップS1513にて、ローカルサーバ102は、意味タグ<yes>、<no>、又は<フレーズ内容のキーワード>とオフロード命令データの条件とがマッチするか否かを判定する。この例において、オフロード命令データの条件は「if(<yes>)」であるため、意味タグが<yes>である場合、意味タグとオフロード命令データの条件とがマッチする。意味タグが、<no>又は<フレーズ内容のキーワード>、つまり<yes>以外である場合、意味タグとオフロード命令データの条件とがマッチしない。マッチする場合、ローカルサーバ102は、制御コマンド「cmd=0x10010f0a」を機器101に送信し、「それでは予約します」というメッセージの文字列データを出力する。マッチしない場合、ローカルサーバ102は、「予約を中止します」というメッセージの文字列データのみを出力する。このように、オフロード命令データは、条件分岐命令の一例であり、意味タグ<yes>及び<no>からなる1つ以上のフレーズ情報に応じて分岐する異なる複数の命令を含む。また、「それでは予約します」というメッセージ及び「予約を中止します」というメッセージは、第2応答メッセージの一例である。
In step S1513, the
ステップS1514において、ローカルサーバ102は、音声合成処理を行う。この音声合成処理では、ローカルサーバ102が、ステップS1513の処理に関連して出力したメッセージを、ステップS1508の処理と同様に、音声データに変換する。例えば、上述で例示したメッセージの文字列データ「それでは予約します」又は「予約を中止します」が、音声データに変換される。ローカルサーバ102は、ステップS1514にて変換した音声データを、音声入出力装置240に送信する。さらに、音声データを受信した音声入出力装置240は、メッセージを音声として、スピーカなどからユーザ5100へ出力する。
In step S1514, the
上述したように、ステップS1501〜S1514の処理において、ユーザ5100と音声対話エージェントシステム1との間の複数回の対話に関する処理は、ローカルサーバ102によって行われ、オフロード命令データの生成は、クラウドサーバ111によって行われる。このため、ローカルサーバ102とクラウドサーバ111との通信は、オフロード命令データの生成時に行われ、ユーザ5100と音声対話エージェントシステム1とが対話する度に行われる必要がない。このため、ローカルサーバ102とクラウドサーバ111との間の通信回数が低く抑えられ、通信時間が短くなる。このような実施の形態に係る音声対話エージェントシステム1は、簡単な認識命令とこれに対応する制御命令とをローカル側にオフロードする、つまり負担が軽減するように与えることで、音声対話エージェントシステム1の応答時間を短縮する。また、容量が大きいデータベースを備えることができるクラウドサーバ111が、オフロード命令データを生成するため、ローカルサーバ102の負荷が低く抑えられる。
As described above, in the processing of steps S1501 to S1514, the processing related to a plurality of dialogues between the
また、音声対話エージェントシステム1の動作の上記説明は、ステップS1501において、ユーザ5100の最初の音声が発せられるケースに関する説明であったが、ステップS1501における音声が、対話のどの時点か特定されていなくてもよい。
Further, the above description of the operation of the voice
また、実施の形態では、1つの条件と当該条件に対応する命令とを含むオフロード命令データが例示されていたが、これに限定されない。オフロード命令データは、2つ以上の条件と、各条件に対応する命令とを含んでもよい。これにより、ユーザ5100の多様な回答に対応した機器101の制御が可能である。
In the embodiment, the offload instruction data including one condition and an instruction corresponding to the condition has been exemplified, but the present invention is not limited to this. The offload instruction data may include two or more conditions and an instruction corresponding to each condition. Thereby, it is possible to control the
また、実施の形態では、ユーザ5100と音声対話エージェントシステム1との間の対話に関する処理に対して、1つのオフロード命令データが用いられていたが、2つ以上のオフロード命令データが用いられてもよい。例えば、第1のオフロード命令データの条件が満たされない場合、第2のオフロード命令データが用いられるように処理が行われてもよい。
Further, in the embodiment, one offload command data is used for the process related to the dialogue between the
また、実施の形態に係る音声対話エージェントシステム1では、ローカルサーバ102は、ステップS1504において、意味タグをクラウドサーバ111に送信していたが、これに限定されない。ローカルサーバ102は、意味タグの代わりに又は意味タグに加えて、文字列データを送信してもよい。このような文字列データは、第1フレーズ情報の一例である。この場合、クラウドサーバ111が、ローカル辞書DB584のような辞書DBを備えていれば、クラウドサーバ111が、受信した文字列データを意味タグに変換してもよい。クラウドサーバ111は、ローカルサーバ102よりも容量が大きい辞書DBを有することができるため、多種多様な文字列データから意味タグへの変換が可能である。
In the spoken
また、実施の形態に係る音声対話エージェントシステム1では、クラウドサーバ111は、システム応答メッセージ及びオフロード命令データを一緒に、ローカルサーバ102に送信していたが、時間差を伴って別々に送信してもよい。例えば、クラウドサーバ111は、システム応答メッセージの送信の後にオフロード命令データを送信してもよく、オフロード命令データの送信タイミングは、ステップS1506でのシステム応答メッセージの送信後からステップS1512の処理を行う前まで期間のうちのいつでもよい。例えば、クラウドサーバ111は、上記期間を推定する、又は、予め推定された上記期間を記憶し、推定した期間内にオフロード命令データを送信してもよい。なお、オフロード命令データの送信は、音声入出力装置240がシステム応答メッセージを音声出力する前であることが、望ましく、このようなタイミングが推定され、推定されたタイミングに基づき、オフロード命令データが送信されてもよい。
In the voice
[3.効果等]
以上で説明したように、本開示の実施の形態に係る対話処理装置の一態様であるクラウドサーバ111は、音声認識結果を取得する取得部としての通信部1000と、対話処理部としての対話ルール照合部1020及び応答生成部1030とを備える。対話ルール照合部1020及び応答生成部1030は、通信部1000により取得される音声認識結果に基づいて応答情報を決定し、応答情報に応じた処理情報を決定する。なお、処理情報は、応答情報に対して推定されるユーザの返答についての推定返答情報と、推定返答情報に応じた動作制御情報とを含む。通信部1000は、決定される応答情報及び処理情報を送信する。例えば、応答情報は、システム応答メッセージであってもよい。例えば、推定返答情報は、オフロード命令データに含まれる条件に関する情報であってよく、動作制御情報は、オフロード命令データに含まれる、条件に応じた制御コマンド及びメッセージを含んでもよい。
[3. Effect]
As described above, the
上述の構成において、クラウドサーバ111は、音声認識結果に基づく応答情報と、応答情報に応じた処理情報とを決定し、送信する。そして、クラウドサーバ111から応答情報及び処理情報を受信するローカルサーバ102等の装置は、応答情報に基づき、ユーザに対して、ユーザの音声の認識結果に対する応答メッセージを出力することができ、処理情報の推定返答情報及び動作制御情報に基づき、応答メッセージに対するユーザの返答に対応した動作制御を行うことができる。推定返答情報は、応答情報に基づき推定された情報であり、動作制御情報は、推定返答情報に対応して設定された情報である。このような処理情報は、ユーザから返答を受け取った後に返答に応じて生成される情報ではなく、予め設定された情報である。これにより、当該装置は、ユーザから返答を受け取ったとき、返答に対応する情報を取得するために、クラウドサーバ111と通信する必要がない。よって、ユーザと複数回の対話を行う際、当該装置とクラウドサーバ111との通信回数が低減し、当該装置及びクラウドサーバ111の応答時間の短縮が可能になる。
In the above configuration, the
実施の形態に係る対話処理装置の一態様のクラウドサーバ111において、通信部1000は、動作制御情報を用いて行われた動作制御の結果を示す動作制御結果情報を受信する。例えば、動作制御結果情報は、制御コマンドの実行通知であってもよい。上述の構成において、クラウドサーバ111は、動作制御結果情報を受信することによって、ユーザとローカルサーバ102等の装置との間の対話処理に関連する動作を終了することができる。よって、クラウドサーバ111の不要な待機及び動作の低減が可能になる。
In
実施の形態に係る対話処理装置の一態様のクラウドサーバ111において、通信部1000は、応答情報及び処理情報を共に送信する。上述の構成において、クラウドサーバ111の通信頻度が低減し、クラウドサーバ111及びローカルサーバ102等の装置の応答時間の短縮が可能になる。具体的には、クラウドサーバ111は、応答情報に対するユーザの返答を確認せずに処理情報を送信するため、ユーザの返答を確認するための通信が不要である。さらに、ローカルサーバ102等の装置が、応答情報に対する返答をユーザから受け取っているが、処理情報を未だ受信しておらず、次の動作を行えないという処理の遅延を防ぐことができる。
In the
実施の形態に係る対話処理装置の一態様のクラウドサーバ111において、音声認識結果が、通信部1000を介して取得される。上述の構成において、クラウドサーバ111は、離れた位置にあるローカルサーバ102等の装置から音声認識結果を取得する。よって、クラウドサーバ111は、音声の取得場所の環境の影響を受けずに構成されることができる。
In the
実施の形態に係る対話処理装置の別の一態様のローカルサーバ102は、音声認識結果を取得する取得部としての音声認識部920と、通信部900と、動作制御部としての制御部940とを備える。通信部900は、音声認識部920により取得される第1の音声認識結果に基づいた応答情報と、応答情報に応じた処理情報とを受信する。なお、処理情報は、応答情報から推定されるユーザの返答についての推定返答情報と、推定返答情報に応じた動作制御情報とを含む。制御部940は、音声認識部920により取得される第2の音声認識結果と、推定返答情報との照合結果に応じて、動作制御情報に基づく動作を行う。
The
上述の構成において、ローカルサーバ102は、ユーザの音声の第1の音声認識結果に基づく応答情報に基づき、ユーザに対して、第1の音声認識結果に対する応答メッセージを出力することができ、処理情報の推定返答情報及び動作制御情報に基づき、応答メッセージに対するユーザの返答に対応した動作制御を行うことができる。さらに、ローカルサーバ102は、ユーザの音声の第2の音声認識結果に対応した動作制御情報に基づく動作を行うことができる。処理情報は、ユーザから返答を受け取った後に返答に応じて生成される情報でなく、予め設定された情報である。これにより、ローカルサーバ102は、第2の音声認識結果を取得したとき、これに対応するための情報を取得するために、通信する必要がない。よって、ユーザと複数回の対話を行う際、ローカルサーバ102の応答時間の短縮が可能になる。
In the above-described configuration, the
実施の形態に係る対話処理装置の別の一態様のローカルサーバ102において、通信部900は、応答情報及び処理情報を共に受信する。上述の構成において、ローカルサーバ102の通信頻度が低減し、ローカルサーバ102の応答時間の短縮が可能になる。具体的には、ローカルサーバ102は、応答情報に対するユーザの返答を取得する前に処理情報を受信するため、ユーザの返答に対応して通信する必要がない。さらに、ローカルサーバ102が、応答情報に対する返答をユーザから受け取っているが、処理情報を未だ受信しておらず、次の動作を行えないという処理の遅延を防ぐことができる。
In
実施の形態に係る対話処理装置の別の一態様のローカルサーバ102において、通信部900は、第1の音声認識結果を送信する。上述の構成において、第1の音声認識結果に基づいた処理は、クラウドサーバ111等のローカルサーバ102とは別の装置によって行われる。これにより、ローカルサーバ102における処理の負荷が低減し、処理速度の向上が可能になる。
In
実施の形態に係る対話処理装置の別の一態様のローカルサーバ102において、第2の音声認識結果は、通信部900により受信された応答情報に基づく応答が再生された後の音声認識結果である。上述の構成において、第2の音声認識結果は、応答情報に基づく応答メッセージに対するユーザの返答を含み得る。よって、ローカルサーバ102は、ユーザの返答に適切に対応した処理を可能にする。
In
実施の形態に係るクラウドサーバ111及びローカルサーバ102において、処理情報は、推定返答情報及び動作制御情報の複数の組を含む。上述の構成において、ユーザの様々な返答に対応した制御が可能になる。
In the
実施の形態に係るクラウドサーバ111及びローカルサーバ102において、動作制御情報は、ユーザの返答に対する第2の応答情報と、制御対象への動作指示を含む動作指示情報とを含む。例えば、ユーザの返答は、メッセージを含み、推定返答情報は、メッセージの内容に対応したメッセージ情報を含み、動作制御情報は、メッセージ情報に応じた第2の応答情報及び動作指示情報を含んでよい。上述の構成において、動作制御情報に基づく動作では、ユーザへ返答に対する応答を提示して確認を受けつつ、制御対象を制御することが可能になる。例えば、メッセージ情報は、ユーザのメッセージの意味タグに対応し且つオフロード命令データ内の条件に含まれる意味タグであってもよい。メッセージ情報に応じた第2の応答情報は、オフロード命令データ内の条件に応じたメッセージであってよく、メッセージ情報に応じた動作指示情報は、オフロード命令データ内の条件に応じた制御コマンドであってもよい。
In the
また、実施の形態の一態様に係るクラウドサーバ111の対話処理方法は、音声認識結果を取得し、取得される音声認識結果に基づいて応答情報を決定し、応答情報に応じた処理情報を決定し、決定される応答情報及び処理情報を送信し、処理情報は、応答情報に対して推定されるユーザの返答についての推定返答情報と、推定返答情報に応じた動作制御情報とを含む。
In addition, the conversation processing method of the
また、実施の形態の別の一態様に係るローカルサーバ102の対話処理方法は、第1の音声認識結果を取得して送信し、送信される第1の音声認識結果に基づいた応答情報と、応答情報に応じた処理情報とを受信する。ここで、処理情報が、応答情報から推定されるユーザの返答についての推定返答情報と、推定返答情報に応じた動作制御情報とを含む。さらに、対話処理方法は、第2の音声認識結果を取得し、取得される第2の音声認識結果と推定返答情報との照合結果に応じて、動作制御情報に基づく動作を行う。
Further, the dialogue processing method of the
上述の対話処理方法によれば、実施の形態に係る対話処理装置による効果と同様の効果が得られる。なお、上記方法は、MPU(Micro Processing Unit)、CPU、プロセッサ、LSI(Large Scale Integration:大規模集積回路)などの回路、ICカード(Integrated Circuit Card)又は単体のモジュール等によって、実現されてもよい。 According to the above-described dialogue processing method, the same effect as that obtained by the dialogue processing apparatus according to the embodiment can be obtained. Note that the above method may be realized by an MPU (Micro Processing Unit), a CPU, a processor, a circuit such as an LSI (Large Scale Integration), an IC card (Integrated Circuit Card), or a single module. Good.
また、実施の形態での処理は、ソフトウェアプログラム又はソフトウェアプログラムからなるデジタル信号によって実現されてもよい。例えば、実施の形態での処理は、次のようなプログラム又はプログラムからなるデジタル信号によって、実現される。 The processing in the embodiment may be realized by a software program or a digital signal made up of a software program. For example, the processing in the embodiment is realized by the following program or a digital signal including the program.
実施の形態の一態様に係るクラウドサーバ111の処理を実現するプログラムは、コンピュータに以下の機能を実行させるプログラムであって、音声認識結果を取得し、取得される音声認識結果に基づいて応答情報を決定し、応答情報に応じた処理情報を決定し、決定される応答情報及び処理情報を送信することを実行させる。なお、処理情報は、応答情報に対して推定されるユーザの返答についての推定返答情報と、推定返答情報に応じた動作制御情報とを含む。
The program that realizes the processing of the
実施の形態の別の一態様に係るローカルサーバ102の処理を実現するプログラムは、コンピュータに以下の機能を実行させるプログラムであって、音声認識結果を取得し、取得される第1の音声認識結果に基づいた応答情報と、応答情報に応じた処理情報とを受信することを実行させる。ここで、処理情報は、応答情報から推定されるユーザの返答についての推定返答情報と、推定返答情報に応じた動作制御情報とを含む。プログラムはさらに、取得される第2の音声認識結果と推定返答情報との照合結果に応じて、動作制御情報に基づく制御を行うことをコンピュータに実行させる。
A program that realizes processing of the
[その他]
以上、本出願において開示する技術の例示として、実施の形態に係る対話処理装置等について説明したが、本開示は、実施の形態に限定されるものではない。本開示における技術は、適宜、変更、置き換え、付加、省略などを行った実施の形態の変形例又は他の実施の形態にも適用可能である。また、実施の形態で説明する各構成要素を組み合わせて、新たな実施の形態又は変形例とすることも可能である。
[Others]
As described above, the dialogue processing apparatus according to the embodiment has been described as an example of the technology disclosed in the present application, but the present disclosure is not limited to the embodiment. The technology in the present disclosure can also be applied to a modified example of the embodiment in which modifications, replacements, additions, omissions, and the like are appropriately performed or other embodiments. In addition, it is possible to combine the constituent elements described in the embodiment to form a new embodiment or modification.
上述したように、本開示の包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよい。また、本開示の包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。 As described above, the comprehensive or specific aspect of the present disclosure may be realized by a recording medium such as a system, a method, an integrated circuit, a computer program, or a computer-readable CD-ROM. The comprehensive or specific aspect of the present disclosure may be realized by any combination of a system, a method, an integrated circuit, a computer program, and a recording medium.
例えば、上記実施の形態に係る対話処理装置に含まれる各処理部は典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。 For example, each processing unit included in the dialogue processing apparatus according to the above embodiment is typically realized as an LSI that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。 Further, the circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor. An FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI or a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
なお、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。 In the above embodiment, each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component. Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
さらに、本開示の技術はプログラムであってもよいし、プログラムが記録された非一時的なコンピュータ読み取り可能な記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。 Furthermore, the technology of the present disclosure may be a program or a non-transitory computer-readable recording medium on which the program is recorded. Needless to say, the program can be distributed via a transmission medium such as the Internet.
また、上記で用いた序数、数量等の数字は、全て本開示の技術を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。また、構成要素間の接続関係は、本開示の技術を具体的に説明するために例示するものであり、本開示の機能を実現する接続関係はこれに限定されない。 Further, the numbers such as the ordinal numbers and the quantities used in the above are examples for specifically explaining the technology of the present disclosure, and the present disclosure is not limited to the illustrated numbers. In addition, the connection relationship between the constituent elements is exemplified for specifically explaining the technology of the present disclosure, and the connection relationship for realizing the functions of the present disclosure is not limited thereto.
また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。 In addition, division of functional blocks in the block diagram is an example, and a plurality of functional blocks can be realized as one functional block, a single functional block can be divided into a plurality of functions, or some functions can be transferred to other functional blocks. May be. In addition, functions of a plurality of functional blocks having similar functions may be processed in parallel or time-division by a single hardware or software.
以上、一つの態様に係る対話処理装置等について、実施の形態に基づいて説明したが、本開示は、実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つの態様の範囲内に含まれてもよい。 As mentioned above, although the interactive processing apparatus etc. which concern on one aspect were demonstrated based on embodiment, this indication is not limited to embodiment. Unless it deviates from the gist of the present disclosure, forms in which various modifications conceived by those skilled in the art have been made in the embodiments and forms constructed by combining components in different embodiments are also included in the scope of one aspect. May be.
なお、本開示は、音声対話エージェントシステムとユーザとの対話に関するものであれば適用可能である。例えば、音声対話エージェントシステムを用いてユーザが家電機器等を動作させる場合に有効である。例えば、ユーザが音声操作に対応した電子レンジ又はオーブンを動作させる場合に、「温めて」という指示をした場合を想定する。このとき、音声対話エージェントシステムはユーザに対して「何分温めますか?」又は「何度に温めますか?」などと具体的な指示を聞き返すことが可能である。これに対して返答可能なユーザ(聞き返したことに対してエージェントシステムが指示を受け付けるユーザ)は当初に「温めて」と指示したユーザのみである。 It should be noted that the present disclosure is applicable as long as it relates to a dialogue between a voice interaction agent system and a user. For example, it is effective when a user operates home appliances or the like using a voice interaction agent system. For example, it is assumed that the user gives an instruction “warm up” when operating a microwave oven or oven corresponding to voice operation. At this time, the voice interaction agent system can ask the user to return a specific instruction such as “How many minutes do you want to warm up?” Or “How many times do you want to warm up?”. In contrast to this, only users who initially instructed to “warm up” are users who can respond (users who receive instructions from the agent system in response to hearing back).
これ以外にも、ユーザの抽象的な指示に対して、音声対話エージェントシステムが具体的な内容を聞き返す動作に本開示は適用可能となる。また、音声対話エージェントシステムがユーザに対して聞き返す内容は、動作実行の確認などであってもよい。 In addition to this, the present disclosure can be applied to an operation in which the voice interaction agent system listens back to specific contents in response to an abstract instruction from the user. The content that the voice interaction agent system asks the user to return may be confirmation of operation execution.
なお、上記態様において、ユーザからの音声の入力は、システム又は各家電機器が備えるマイクロホンによって行われるとしてもよい。また、音声対話エージェントシステムからユーザに対する聞き返しは、システム又は各家電機器が備えるスピーカなどからユーザに対して伝えるとしてもよい。本開示において、「所定の動作」は、例えば、スピーカを介してユーザに音声を出力する動作であってもよい。すなわち、本開示において、制御対象となる「機器」は、音声入出力装置(例えばスピーカ)であってもよい。本開示において、「プロセッサ」、「マイクロホン」、及び/又は「スピーカ」は、例えば、制御対象となる「機器」に内蔵されていてもよい。本開示において、「フレーズ情報」は、文字列又はその意味を示す情報である。上記態様における「文字列データ」及び「意味タグ」は、フレーズ情報の一例である。 Note that in the above aspect, voice input from the user may be performed by a microphone provided in the system or each home appliance. Further, the user's feedback from the voice interaction agent system may be transmitted to the user from a speaker or the like included in the system or each home appliance. In the present disclosure, the “predetermined operation” may be an operation of outputting sound to the user via a speaker, for example. That is, in the present disclosure, the “device” to be controlled may be a voice input / output device (for example, a speaker). In the present disclosure, the “processor”, “microphone”, and / or “speaker” may be incorporated in a “device” to be controlled, for example. In the present disclosure, “phrase information” is information indicating a character string or its meaning. “Character string data” and “meaning tag” in the above embodiment are examples of phrase information.
なお、上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現されるクラウドサービスの類型はこれらに限られるものでない。 In addition, the technique demonstrated in the said aspect can be implement | achieved in the following types of cloud services, for example. However, the types of cloud services in which the technology described in the above aspect is realized are not limited to these.
以下、サービスの類型1(自社データセンタ型クラウドサービス)を利用した情報管理システムが提供するサービスの全体像、サービスの類型2(IaaS利用型クラウドサービス)を利用した情報管理システムが提供するサービスの全体像、サービスの類型3(PaaS利用型クラウドサービス)を利用した情報管理システムが提供するサービスの全体像、サービスの類型4(SaaS利用型クラウドサービス)を利用した情報管理システムが提供するサービスの全体像について順次説明する。 Hereinafter, an overview of services provided by an information management system using service type 1 (in-house data center type cloud service), and services provided by an information management system using service type 2 (cloud service using IaaS) Overview of services provided by an information management system using a service type 3 (PaaS-based cloud service), and information services provided by an information management system using a service type 4 (SaaS-based cloud service) The overall image will be described sequentially.
[サービスの類型1:自社データセンタ型クラウドサービス]
図14は、実施の形態に係る音声対話エージェントシステムが適用可能である、サービスの類型1(自社データセンタ型クラウドサービス)における情報管理システムが提供する、サービスの全体像を示す図である。図14に示すように、本類型では、サービスプロバイダ4120がグループ4100から情報を取得し、ユーザに対してサービスを提供する。本類型では、サービスプロバイダ4120が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ4120が、ビッグデータを管理するクラウドサーバ111を保有している。したがって、データセンタ運営会社は存在しない。
[Service type 1: In-house data center type cloud service]
FIG. 14 is a diagram illustrating an overall image of a service provided by an information management system in service type 1 (in-house data center type cloud service) to which the voice interaction agent system according to the embodiment is applicable. As shown in FIG. 14, in this type, the
本類型では、サービスプロバイダ4120は、データセンタ(クラウドサーバ)4203を運営及び管理している。また、サービスプロバイダ4120は、オペレーティングシステム(OS)4202及びアプリケーション4201を管理する。サービスプロバイダ4120は、サービスプロバイダ4120が管理するOS4202及びアプリケーション4201を用いてサービスを提供する(矢印204)。
In this type, the
[サービスの類型2:IaaS利用型クラウドサービス]
図15は、実施の形態に係る音声対話エージェントシステムが適用可能である、サービスの類型2(IaaS利用型クラウドサービス)における情報管理システムが提供する、サービスの全体像を示す図である。ここで、IaaSとは、インフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築及び稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
[Service type 2: Cloud service using IaaS]
FIG. 15 is a diagram illustrating an overall image of a service provided by an information management system in service type 2 (cloud service using IaaS) to which the voice interaction agent system according to the embodiment is applicable. Here, IaaS is an abbreviation for infrastructure as a service, and is a cloud service provision model that provides a base for constructing and operating a computer system as a service via the Internet.
図15に示すように、本類型では、データセンタ運営会社4110が、データセンタ(クラウドサーバ)4203を運営及び管理している。また、サービスプロバイダ4120は、OS4202及びアプリケーション4201を管理する。サービスプロバイダ4120は、サービスプロバイダ4120が管理するOS4202及びアプリケーション4201を用いてサービスを提供する(矢印204)。
As shown in FIG. 15, in this type, a data
[サービスの類型3:PaaS利用型クラウドサービス]
図16は、実施の形態に係る音声対話エージェントシステムが適用可能である、サービスの類型3(PaaS利用型クラウドサービス)における情報管理システムが提供する、サービスの全体像を示す図である。ここで、PaaSとは、プラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築及び稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
[Service type 3: Cloud service using PaaS]
FIG. 16 is a diagram showing an overall image of a service provided by an information management system in service type 3 (PaaS use type cloud service) to which the voice interaction agent system according to the embodiment is applicable. Here, PaaS is an abbreviation for Platform as a Service, and is a cloud service provision model that provides a platform serving as a foundation for constructing and operating software as a service via the Internet.
図16に示すように、本類型では、データセンタ運営会社4110は、OS4202を管理し、データセンタ(クラウドサーバ)4203を運営及び管理している。また、サービスプロバイダ4120は、アプリケーション4201を管理する。サービスプロバイダ4120は、データセンタ運営会社4110が管理するOS4202及びサービスプロバイダ4120が管理するアプリケーション4201を用いてサービスを提供する(矢印204)。
As shown in FIG. 16, in this type, the data
[サービスの類型4:SaaS利用型クラウドサービス]
図17は、実施の形態に係る音声対話エージェントシステムが適用可能である、サービスの類型4(SaaS利用型クラウドサービス)における情報管理システムが提供する、サービスの全体像を示す図である。ここで、SaaSとは、ソフトウェア・アズ・ア・サービスの略である。SaaS利用型クラウドサービスは、例えば、データセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社又は個人などの利用者がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
[Service type 4: Cloud service using SaaS]
FIG. 17 is a diagram illustrating an overall image of a service provided by an information management system in service type 4 (SaaS-based cloud service) to which the voice interaction agent system according to the embodiment is applicable. Here, SaaS is an abbreviation for software as a service. The SaaS-based cloud service is, for example, an application provided by a platform provider who owns a data center (cloud server), or a user such as a company or individual who does not have a data center (cloud server) on the Internet. This is a cloud service provision model that has functions that can be used via other networks.
図17に示すように、本類型では、データセンタ運営会社4110は、アプリケーション4201を管理し、OS4202を管理し、データセンタ(クラウドサーバ)4203を運営及び管理している。また、サービスプロバイダ4120は、データセンタ運営会社4110が管理するOS4202及びアプリケーション4201を用いてサービスを提供する(矢印204)。
As shown in FIG. 17, in this type, the data
以上、いずれのクラウドサービスの類型においても、サービスプロバイダ4120がサービスを提供する。また、例えば、サービスプロバイダ又はデータセンタ運営会社は、OS、アプリケーション又はビッグデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。
As described above, in any cloud service type, the
本開示の技術は、音声対話エージェントに適用できる。 The technology of the present disclosure can be applied to a voice interaction agent.
101,101a,101b 機器
102 ローカルサーバ
111 クラウドサーバ
240 音声入出力装置
300 音声入出力装置の処理回路
301 音声入出力装置の集音回路
302 音声入出力装置の音声出力回路
303 音声入出力装置の通信回路
310 音声入出力装置のCPU
320 音声入出力装置のメモリ
330 音声入出力装置のバス
341 音声入出力装置の機器ID
342 音声入出力装置のプログラム
410 機器の入出力回路
430 機器のCPU
440 機器のメモリ
441 機器の機器ID
442 機器のプログラム
450 機器の通信回路
460 機器のバス
470 機器の処理回路
530 ローカルサーバのCPU
540 ローカルサーバのメモリ
541 ローカルサーバのゲートウェイID
542 ローカルサーバのプログラム
551 ローカルサーバの第一通信回路
552 ローカルサーバの第二通信回路
560 ローカルサーバのバス
570 ローカルサーバの処理回路
580 ローカルサーバの音響モデルDB
581 ローカルサーバの言語モデルDB
582 ローカルサーバの音声素片DB
583 ローカルサーバの韻律制御DB
584 ローカルサーバのローカル辞書DB
650 クラウドサーバの通信回路
670 クラウドサーバの処理回路
671 クラウドサーバのCPU
672 クラウドサーバのメモリ
680 クラウドサーバのバス
691 クラウドサーバの対話ルールDB
692 クラウドサーバのオフロード命令生成DB
700 音声入出力装置の集音部
710 音声入出力装置の音声検出部
720 音声入出力装置の音声区間切り出し部
730 音声入出力装置の通信部
740 音声入出力装置の音声出力部
800 機器の通信部
810 機器の機器制御部
900 ローカルサーバの通信部
910 ローカルサーバの受信データ解析部
920 ローカルサーバの音声認識部
930 ローカルサーバのローカル辞書照合部
940 ローカルサーバの制御部
950 ローカルサーバの音声合成部
960 ローカルサーバの送信データ生成部
970 ローカルサーバのコマンド記録部
1000 クラウドサーバの通信部
1020 クラウドサーバの対話ルール照合部
1030 クラウドサーバの応答生成部
101, 101a,
320 Memory of voice input /
342 Voice input /
440
442
540
542
581 Local server language model DB
582 Local server speech segment DB
583 Prosody control DB of local server
584 Local dictionary DB of local server
650 Cloud
672
692 Cloud Server Offload Instruction Generation DB
700 Sound Collection Unit of Audio Input /
Claims (17)
マイクロホンから入力された前記ユーザの第1音声を示す第1音声情報を取得し、
前記第1音声情報から生成された第1フレーズ情報を、ネットワークを介してサーバに出力し、
前記第1フレーズ情報に応じた第1応答情報を、前記ネットワークを介して前記サーバから取得し、前記第1応答情報は、前記第1音声に対する第1応答メッセージを示し、
前記第1応答情報に基づいて、スピーカに前記第1応答メッセージを出力させ、
前記サーバ上で前記第1応答情報に関連づけられている第2応答情報を、前記ネットワークを介して前記サーバから取得し、前記第2応答情報は、1以上のフレーズ情報に応じて異なる複数の命令に分岐する条件分岐命令を含み、前記1以上のフレーズ情報のそれぞれは、前記第1応答メッセージに対する前記ユーザの返答の選択候補に関するものであり、
前記第1応答メッセージが出力された後に、前記マイクロホンから入力された前記ユーザの第2音声を示す第2音声情報を取得し、前記第2音声は前記第1応答メッセージに対する前記ユーザの返答を含み、
前記条件分岐命令のうち、前記1以上のフレーズ情報と前記第2音声情報から生成された第2フレーズ情報とを照合することによって決定された命令に応じて、前記スピーカ及び前記少なくとも1つの機器の少なくとも1つに所定の動作を実行させ、
前記第2音声情報を取得してから前記所定の動作を実行させるまでの間、前記第2音声情報及び前記第2フレーズ情報のいずれも前記サーバに出力されない、
情報処理方法。 An information processing method executed by a processor that controls at least one device through dialogue with a user,
Obtaining first voice information indicating the first voice of the user input from a microphone;
Outputting the first phrase information generated from the first voice information to a server via a network;
First response information corresponding to the first phrase information is acquired from the server via the network, and the first response information indicates a first response message for the first voice,
Based on the first response information, the speaker outputs the first response message,
Second response information associated with the first response information on the server is acquired from the server via the network, and the second response information includes a plurality of instructions that differ according to one or more pieces of phrase information Each of the one or more pieces of phrase information relates to a selection candidate of the user's response to the first response message,
After the first response message is output, second voice information indicating the second voice of the user input from the microphone is acquired, and the second voice includes the user's response to the first response message. ,
Of the conditional branch instructions, in response to an instruction determined by collating the one or more phrase information and the second phrase information generated from the second audio information, the speaker and the at least one device Causing at least one to perform a predetermined action,
Neither the second audio information nor the second phrase information is output to the server until the second operation is performed after the second audio information is acquired.
Information processing method.
請求項1に記載の情報処理方法。 The first response information and the second response information are acquired from the server at the same time.
The information processing method according to claim 1.
請求項1または2に記載の情報処理方法。 After the first phrase information is output to the server, the second response information is a plurality of second information stored on the server according to at least one of the first phrase information and the first response information. Selected from the response information,
The information processing method according to claim 1 or 2.
請求項1から3のいずれか一項に記載の情報処理方法。 Furthermore, after executing the predetermined operation, an execution notification indicating that the predetermined operation has been executed is output to the server.
The information processing method according to any one of claims 1 to 3.
請求項1から4のいずれか一項に記載の情報処理方法。 At least one of the plurality of instructions includes an instruction to output a second response message for the second sound from the speaker.
The information processing method according to any one of claims 1 to 4.
請求項1から5のいずれか一項に記載の情報処理方法。 At least one of the plurality of instructions includes an instruction that causes a control command to be transmitted to the at least one device.
The information processing method according to any one of claims 1 to 5.
前記情報処理方法は、前記少なくとも1つの機器と前記インターネットを介さずに通信可能なローカルサーバ上で実行される、
請求項1から6のいずれか一項に記載の情報処理方法。 The network is the Internet;
The information processing method is executed on a local server capable of communicating with the at least one device without going through the Internet.
The information processing method according to any one of claims 1 to 6.
マイクロホンから入力された前記ユーザの第1音声に関する第1フレーズ情報を、前記第1プロセッサから前記ネットワークを介して取得し、前記第1フレーズ情報は、前記第1音声に対応する文字列と前記文字列の意味情報との少なくとも一方を示し、
前記第1フレーズ情報に応じた第1応答情報を、前記ネットワークを介して前記第1プロセッサに出力し、前記第1応答情報は、スピーカから出力される、前記第1音声に対する第1応答メッセージを示し、
前記サーバ上で前記第1応答情報に関連づけられている第2応答情報を、前記ネットワークを介して前記第1プロセッサに出力し、前記第2応答情報は、1以上のフレーズ情報に応じて異なる複数の命令に分岐する条件分岐命令を含み、前記1以上のフレーズ情報のそれぞれは、前記第1応答メッセージに対する前記ユーザの返答の選択候補に関するものである、
情報処理方法。 An information processing method executed by a second processor on a server, wherein the second processor is capable of communicating via a network with a first processor that controls at least one device through interaction with a user.
First phrase information related to the first voice of the user input from a microphone is acquired from the first processor via the network, and the first phrase information includes a character string and the character corresponding to the first voice. Indicates at least one of the column semantic information,
First response information corresponding to the first phrase information is output to the first processor via the network, and the first response information is a first response message for the first sound output from a speaker. Show
Second response information associated with the first response information on the server is output to the first processor via the network, and the second response information is different depending on one or more pieces of phrase information. Each of the one or more pieces of phrase information relates to a selection candidate of the user's response to the first response message.
Information processing method.
請求項9に記載の情報処理方法。 The first processor, in the conditional branch instruction, according to an instruction determined by collating the one or more phrase information and second phrase information generated from second audio information, the speaker and the Causing at least one of the at least one device to perform a predetermined operation;
The information processing method according to claim 9.
請求項10に記載の情報処理方法。 The second processor outputs the second voice information and the second phrase information to the first processor from when the first processor acquires the user's response until the predetermined operation is executed. do not do,
The information processing method according to claim 10.
請求項10または11に記載の情報処理方法。 Further, an execution notification indicating that the predetermined operation has been executed is acquired from the first processor.
The information processing method according to claim 10 or 11.
請求項9から12のいずれか一項に記載の情報処理方法。 The first response information and the second response information are simultaneously output to the first processor.
The information processing method according to any one of claims 9 to 12.
請求項9から13のいずれか一項に記載の情報処理方法。 At least one of the plurality of instructions includes an instruction to output a second response message to the second sound from the speaker.
The information processing method according to any one of claims 9 to 13.
請求項9から14のいずれか一項に記載の情報処理方法。 At least one of the plurality of instructions includes an instruction that causes the at least one device to output a control command.
The information processing method according to any one of claims 9 to 14.
前記第1フレーズ情報を取得した後、前記データベースを参照して、
前記複数の意味情報の中から、前記第1音声に対応する意味情報を特定し、
前記複数の第1応答情報の中から、特定された前記意味情報に関連づけられている前記第1応答情報を特定し、
前記複数の第2応答情報の中から、特定された前記第1応答情報に関連づけられている前記第2応答情報を特定する、
請求項9から15のいずれか一項に記載の情報処理方法。 On the server, a plurality of semantic information, a plurality of first response information respectively associated with the plurality of semantic information, and a plurality of second response information respectively associated with the plurality of first response information And a database containing
After obtaining the first phrase information, referring to the database,
Identifying semantic information corresponding to the first voice from the plurality of semantic information;
Identifying the first response information associated with the identified semantic information from the plurality of first response information;
Identifying the second response information associated with the identified first response information from the plurality of second response information;
The information processing method according to any one of claims 9 to 15.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710817707.5A CN108010522A (en) | 2016-11-02 | 2017-09-12 | Information processing method and recording medium |
US15/730,865 US20180122375A1 (en) | 2016-11-02 | 2017-10-12 | Information processing method and non-temporary storage medium for system to control at least one device through dialog with user |
EP17198544.3A EP3319083A1 (en) | 2016-11-02 | 2017-10-26 | Information processing method and non-temporary storage medium |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662416296P | 2016-11-02 | 2016-11-02 | |
US62/416,296 | 2016-11-02 | ||
JP2017012406 | 2017-01-26 | ||
JP2017012406 | 2017-01-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018120203A true JP2018120203A (en) | 2018-08-02 |
Family
ID=63043820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017145707A Pending JP2018120203A (en) | 2016-11-02 | 2017-07-27 | Information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018120203A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979452A (en) * | 2019-03-21 | 2019-07-05 | 中山安信通机器人制造有限公司 | On-vehicle machines people's natural language processing method, computer installation and computer readable storage medium |
WO2020079941A1 (en) | 2018-10-15 | 2020-04-23 | ソニー株式会社 | Information processing device, information processing method, and computer program |
CN115240668A (en) * | 2022-07-06 | 2022-10-25 | 广东开放大学(广东理工职业学院) | Voice interaction household control method and robot |
JP2023051952A (en) * | 2018-10-02 | 2023-04-11 | シャープ株式会社 | Voice operation system and voice operation method |
-
2017
- 2017-07-27 JP JP2017145707A patent/JP2018120203A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023051952A (en) * | 2018-10-02 | 2023-04-11 | シャープ株式会社 | Voice operation system and voice operation method |
JP7471379B2 (en) | 2018-10-02 | 2024-04-19 | シャープ株式会社 | Voice operation system and voice operation method |
WO2020079941A1 (en) | 2018-10-15 | 2020-04-23 | ソニー株式会社 | Information processing device, information processing method, and computer program |
US12003804B2 (en) | 2018-10-15 | 2024-06-04 | Sony Corporation | Information processing device, information processing method, and computer program |
CN109979452A (en) * | 2019-03-21 | 2019-07-05 | 中山安信通机器人制造有限公司 | On-vehicle machines people's natural language processing method, computer installation and computer readable storage medium |
CN115240668A (en) * | 2022-07-06 | 2022-10-25 | 广东开放大学(广东理工职业学院) | Voice interaction household control method and robot |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108010523B (en) | Information processing method and recording medium | |
JP6567737B2 (en) | Spoken dialogue control method | |
US10950230B2 (en) | Information processing device and information processing method | |
JP6908461B2 (en) | Information processing method and program | |
KR102489914B1 (en) | Electronic Device and method for controlling the electronic device | |
EP3389044A1 (en) | Management layer for multiple intelligent personal assistant services | |
KR100679043B1 (en) | Apparatus and method for spoken dialogue interface with task-structured frames | |
EP3319083A1 (en) | Information processing method and non-temporary storage medium | |
JP2018120203A (en) | Information processing method and program | |
US20160225372A1 (en) | Smart home connected device contextual learning using audio commands | |
EP1976255B1 (en) | Call center with distributed speech recognition | |
WO2018000278A1 (en) | Context sensitive multi-round dialogue management system and method based on state machines | |
JP2019204515A (en) | Sequence dependent data message consolidation in voice activated computer network environment | |
JP2013007764A (en) | Voice data repeating device, terminal, voice data repeating method, and voice recognition system | |
WO2016147400A1 (en) | Dialog data collection system, dialog data collection method, dialog data collection program, dialog data collection assist device, dialog data collection assist method, and dialog data collection assist program | |
KR102383574B1 (en) | Voice conversational service system and method using deep learning | |
WO2015125560A1 (en) | Information processing device, voice interaction device, and control program | |
CN114402383A (en) | Electronic device and method for controlling voice recognition thereof | |
JP2016057508A (en) | Voice interactive device, control method and control program for the voice interactive device | |
JP2017191531A (en) | Communication system, server, and communication method | |
JP7515131B2 (en) | Audio control method and server device | |
JP7055327B2 (en) | Conversation collection device, conversation collection system and conversation collection method | |
JP7009092B2 (en) | Information processing equipment and information processing method | |
US10505879B2 (en) | Communication support device, communication support method, and computer program product | |
WO2019138477A1 (en) | Smart speaker, smart speaker control method, and program |