JP2020021040A - Information processing unit, sound output method, and sound output program - Google Patents
Information processing unit, sound output method, and sound output program Download PDFInfo
- Publication number
- JP2020021040A JP2020021040A JP2018147243A JP2018147243A JP2020021040A JP 2020021040 A JP2020021040 A JP 2020021040A JP 2018147243 A JP2018147243 A JP 2018147243A JP 2018147243 A JP2018147243 A JP 2018147243A JP 2020021040 A JP2020021040 A JP 2020021040A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- voice information
- audio
- utterance data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、ユーザからの音声指示に基づいて制御を行う情報処理装置、音声出力方法、及び、音声出力プログラムに関する。 The present invention relates to an information processing device that performs control based on a voice instruction from a user, a voice output method, and a voice output program.
従来、人工知能を利用した機器の開発が目覚ましい。その中には、ユーザからの音声による指示に従って、指示された内容を実行する機器がある。例えば、特許文献1には、ユーザからの音声による指示に従って、音楽を再生したり、アラームを実行したり、計算をしたり、他の機器(例えば、照明装置)の制御を行ったりする情報処理装置(スマートスピーカー)が開示されている。 Conventionally, the development of devices utilizing artificial intelligence has been remarkable. Among them, there are devices that execute the instructed content in accordance with a voice instruction from a user. For example, Patent Literature 1 discloses information processing for playing music, executing an alarm, calculating, and controlling another device (for example, a lighting device) in accordance with a voice instruction from a user. A device (smart speaker) is disclosed.
ところで、ユーザは指示をする際に言い間違いをしたり、考えを改めたりして、言い直しをすることがある。しかしながら、従来のスマートスピーカーの場合、最初にユーザが発話した内容に対する応答をするので、言い直しをした場合に対する応答をしないという問題がある。また、このような場合に、ユーザには、再度指示をし直すという煩雑さや、最初に指示した内容に対する応答の発話の終了を待たなければ次の指示ができないという問題もあった。 By the way, when giving an instruction, the user sometimes makes a mistake by saying a wrong word or changing his / her thought. However, in the case of the conventional smart speaker, there is a problem that since the user responds to the content spoken first by the user, it does not respond to restatement. Further, in such a case, there is a problem that the user is troublesome to give an instruction again, and cannot give a next instruction without waiting for the end of the utterance of a response to the first instruction.
そこで、本発明は上記問題に鑑みて成されたものであり、ユーザが言い直しをした場合であっても、適切に応答をすることができる音声出力装置、音声出力方法及び音声出力プログラムを提供することを目的とする。 Therefore, the present invention has been made in view of the above problems, and provides an audio output device, an audio output method, and an audio output program that can appropriately respond even when a user rephrases. The purpose is to do.
上記課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザによる発話音声を示す音声情報の入力を受け付ける受付部と、音声情報に基づいて、発話音声に対する返事に相当するロボット発話データを生成する生成部と、ロボット発話データを出力する出力部と、を備え、生成部は、第1の音声情報を受け付けてから、所定時間内に第2の音声情報を受け付けた場合であって、第2の音声情報に、第1の音声情報に含まれる第1の単語と同じカテゴリの第2の単語が含まれているときに、少なくとも、第2の音声情報に基づいて、ロボット発話データを生成する。 In order to solve the above-described problem, an information processing apparatus according to one aspect of the present invention includes a receiving unit that receives input of voice information indicating a user's uttered voice, and a robot corresponding to a reply to the uttered voice based on the voice information. A generation unit that generates utterance data; and an output unit that outputs robot utterance data, wherein the generation unit receives the first voice information and then receives the second voice information within a predetermined time. When the second voice information includes a second word of the same category as the first word included in the first voice information, at least the robot based on the second voice information Generate utterance data.
上記課題を解決するために、本発明の一態様に係る音声出力方法は、ユーザによる発話音声を示す音声情報の入力を受け付ける受付ステップと、音声情報に基づいて、発話音声に対する返事に相当するロボット発話データを生成する生成ステップと、ロボット発話データを出力する出力ステップと、を含み、生成ステップは、第1の音声情報を受け付けてから、所定時間内に第2の音声情報を受け付けた場合であって、第2の音声情報に、第1の音声情報に含まれる第1の単語と同じカテゴリの第2の単語が含まれているときに、少なくとも、第2の音声情報に基づいて、ロボット発話データを生成する。 In order to solve the above-mentioned problem, a voice output method according to one aspect of the present invention includes a receiving step of receiving an input of voice information indicating a speech voice by a user, and a robot corresponding to a reply to the speech voice based on the voice information. A generating step of generating utterance data; and an output step of outputting robot utterance data, wherein the generating step includes a step of receiving the first voice information and then receiving the second voice information within a predetermined time. When the second voice information includes a second word of the same category as the first word included in the first voice information, at least the robot based on the second voice information Generate utterance data.
上記課題を解決するために、本発明の一態様に係る音声出力プログラムは、コンピュータに、ユーザによる発話音声を示す音声情報の入力を受け付ける受付機能と、音声情報に基づいて、発話音声に対する返事に相当するロボット発話データを生成する生成機能と、ロボット発話データを出力する出力機能と、を実現させ、生成機能は、第1の音声情報を受け付けてから、所定時間内に第2の音声情報を受け付けた場合であって、第2の音声情報に、第1の音声情報に含まれる第1の単語と同じカテゴリの第2の単語が含まれているときに、少なくとも、第2の音声情報に基づいて、ロボット発話データを生成する。 In order to solve the above problem, an audio output program according to one embodiment of the present invention provides a computer with a reception function for receiving input of audio information indicating an uttered voice by a user, and a reply to the uttered voice based on the audio information. A generation function of generating the corresponding robot utterance data and an output function of outputting the robot utterance data are realized, and the generation function converts the second voice information within a predetermined time after receiving the first voice information. In the case where the second voice information is received and the second voice information includes the second word in the same category as the first word included in the first voice information, at least the second voice information Based on this, robot utterance data is generated.
上記情報処理装置において、生成部は、第2の音声情報に第1の音声情報を否定する単語が含まれる場合に、第2の音声情報にのみ基づくロボット発話データを生成することとしてもよい。 In the information processing device, when the second voice information includes a word that denies the first voice information, the generation unit may generate the robot utterance data based only on the second voice information.
上記情報処理装置において、生成部は、第2の音声情報に第1の音声情報と接続する単語が含まれる場合に、第1の音声情報と第2の音声情報との双方に対するロボット発話データを生成することとしてもよい。 In the information processing device, when the second voice information includes a word connected to the first voice information, the generation unit may generate the robot utterance data for both the first voice information and the second voice information. It may be generated.
上記情報処理装置において、生成部は、第2の音声情報に、第1の音声情報に含まれる第1の単語と同種類の第2の単語が含まれている場合に、いずれが正しいのかを問い合わせるロボット発話データを生成することとしてもよい。 In the information processing apparatus, when the second audio information includes a second word of the same type as the first word included in the first audio information, the generation unit determines which one is correct. The robot utterance data to be queried may be generated.
上記情報処理装置において、ロボット発話データに基づく音声を出力する音声出力部と、ユーザの発話音声を集音する音声収集部とを更に備え、出力部は、音声出力部にロボット発話データを出力し、受付部は、音声収集部が収集した発話音声を音声情報として入力され、出力部は、第1の音声情報に基づくロボット発話データを出力しているときに、所定時間内に第2の音声情報を受け付けると、第2の音声情報に、第1の音声情報に含まれる第1の単語と同種類の第2の単語が含まれているときには第1の音声情報に対して生成されたロボット発話データの音声出力部への出力を中止することとしてもよい。 The information processing apparatus further includes a voice output unit that outputs a voice based on the robot utterance data, and a voice collection unit that collects a user's utterance voice, wherein the output unit outputs the robot utterance data to the voice output unit. The receiving unit receives the uttered voice collected by the voice collecting unit as voice information, and the output unit outputs the second voice within a predetermined time when outputting the robot utterance data based on the first voice information. When the information is received, the robot generated for the first voice information when the second voice information includes a second word of the same type as the first word included in the first voice information The output of the utterance data to the audio output unit may be stopped.
上記情報処理装置において、出力部は、音声出力部へのロボット発話データの出力を中止した後に、第2の音声情報に基づく新たなロボット発話データを出力することとしてもよい。 In the information processing device, the output unit may output new robot utterance data based on the second audio information after stopping outputting the robot utterance data to the audio output unit.
上記情報処理装置において、出力部は、外部のスピーカーにロボット発話データを出力し、受付部は、外部のマイクが収集した発話音声を音声情報として入力を受け付けるものであり、出力部は、外部のスピーカーが第1の音声情報に基づくロボット発話データに基づく音声を音声出力しているときにユーザから受け付けた発話音声に基づく第2の音声情報を受け付け、当該第2の音声情報に、第1の音声情報に含まれる第1の単語と同種類の第2の単語が含まれているときには第1の音声情報に対して生成されたロボット発話データに基づく音声の出力を中止する中止指示を出力することとしてもよい。 In the information processing device, the output unit outputs the robot utterance data to an external speaker, the receiving unit receives an input of the uttered voice collected by the external microphone as voice information, and the output unit outputs the external voice. When the speaker is outputting a voice based on the robot utterance data based on the first voice information, the speaker receives second voice information based on the uttered voice received from the user, and the first voice information includes the first voice information. When the second word of the same type as the first word included in the voice information is included, a stop instruction to stop outputting the voice based on the robot utterance data generated for the first voice information is output. It may be that.
上記情報処理装置において、出力部は、中止指示を出力した後に、第2の音声情報に基づく新たなロボット発話データを出力することとしてもよい。 In the information processing device, the output unit may output new robot utterance data based on the second voice information after outputting the stop instruction.
上記情報処理装置において、生成部は、ユーザに対して問い合わせをするためのロボット発話データを生成するとともに、当該問い合わせに対する回答として望まれる言葉のカテゴリを決定し、生成部は、問い合わせに対する回答としての、第1の音声情報と第2の音声情報とを受け付けた場合に、第1の音声情報に決定したカテゴリに属する単語が第1の単語として含まれており、第2の音声情報に決定したカテゴリに属する単語が第2の単語として含まれていたときに、少なくとも第2の音声情報に基づいて、ロボット発話データを生成することとしてもよい。 In the information processing device, the generation unit generates the robot utterance data for making an inquiry to the user, determines a category of a word desired as a response to the inquiry, and the generation unit determines When the first audio information and the second audio information are received, the words belonging to the category determined as the first audio information are included as the first words, and are determined as the second audio information. When a word belonging to the category is included as the second word, the robot utterance data may be generated based on at least the second voice information.
本発明の一態様に係る情報処理装置は、ユーザが言い直しをした場合であっても、適切に応答をすることができる。 The information processing device according to one embodiment of the present invention can appropriately respond even when the user makes a restatement.
<実施形態>
本発明の一実施形態について、図面を参照しながら説明する。
<Embodiment>
An embodiment of the present invention will be described with reference to the drawings.
本発明に係る情報処理装置たりえる音声出力装置100は、ユーザ10からの音声による指示入力に基づいて、指示入力の内容に対応する回答となる発話音声を出力する装置である。音声出力装置100は、ユーザからの音声による指示(問い合わせ)があった場合に、その指示に対応する回答となるロボット発話データを生成して出力する。このとき、音声出力装置100は、ユーザが言い直しをしたかどうかを判定し、適宜、適切と推定される回答を示すロボット発話データを生成する。音声出力装置100は、どのような態様で実現されてもよく、図1に示すようなサーバ装置やコンピュータシステムとして実現されてもよいし、スマートスピーカーのようなスピーカー、ロボットなどに内包される態様で実現されてもよい。音声出力装置100は、スマートスピーカー、ロボットまたはAIアシスタントを制御するための制御装置であってもよい。
The
以下、このような音声出力装置100について説明する。
Hereinafter, such an
(システム構成)
図1に示すように、通信システム1は、ユーザ10からの音声による指示(問い合わせ)を受け付ける機器としてスマートスピーカー200と、ユーザ10からの音声による指示に対する応答を示すロボット発話データを生成する音声出力装置100と、を含む。
(System configuration)
As shown in FIG. 1, the communication system 1 includes a
スマートスピーカー200は、マイクを内蔵しており、ユーザの発話音声を含む周囲の音声を逐次集音し、集音して得られる音声データを音声出力装置100に送信する。また、スマートスピーカー200は、音声出力装置100から送信されたロボット発話データに基づく音声を出力する。
The
音声出力装置100は、音声データを受信し、受信した音声データからユーザ10の指示を抽出し、ユーザ10の指示に応じた回答を示すロボット発話データを生成する。そして、生成したロボット発話データをスマートスピーカー200に送信する。
The
図1の例では、ユーザ10が、「東京の天気を教えて?」と問い合わせをしたあとで、「あ、やっぱり、品川の天気を教えて?」と言い直しをしたことに対して、スマートスピーカー200が、「品川の天気ですね?今日の品川の天気は…」と回答をしている例を示している。なお、「品川」および「新橋」は日本の地名である。このように、本実施の形態に係るスマートスピーカー200は、音声出力装置100からの指示の下、ユーザ10の言い直しに対応して、言い直された方の指示に従った応答をすることができる。
In the example of FIG. 1, after the
図1に示すように、音声出力装置100は、ネットワーク300を介して、スマートスピーカー200と通信可能に接続されている。また、図示はしていないが、ネットワーク300には、音声出力装置100が情報を収集する情報処理装置が通信可能に接続されていてよい。
As shown in FIG. 1, the
ネットワーク300は、音声出力装置100と各種の機器との間を相互に接続させるためのネットワークであり、例えば、無線ネットワークや有線ネットワークである。具体的には、ネットワーク300は、ワイヤレスLAN(wireless LAN:WLAN)や広域ネットワーク(wide area network:WAN)、ISDNs(integrated service digital networks)、無線LANs、LTE(long term evolution)、LTE−Advanced、第4世代(4G)、第5世代(5G)、CDMA(code division multiple access)、WCDMA(登録商標)、イーサネット(登録商標)などである。
The
また、ネットワーク300は、これらの例に限られず、例えば、公衆交換電話網(Public Switched Telephone Network:PSTN)やブルートゥース(Bluetooth(登録商標))、ブルートゥースローエナジー(Bluetooth Low Energy)、光回線、ADSL(Asymmetric Digital Subscriber Line)回線、衛星通信網などであってもよく、どのようなネットワークであってもよい。ネットワーク300は、ユーザ10の住居に備えられる場合には、ホームネットワークと呼称されることもある。
The
また、ネットワーク300、例えば、NB−IoT(Narrow Band IoT)や、eMTC(enhanced Machine Type Communication)であってもよい。なお、NB−IoTやeMTCは、IoT向けの無線通信方式であり、低コスト、低消費電力で長距離通信が可能なネットワークである。
In addition, the
また、ネットワーク300は、これらの組み合わせであってもよい。また、ネットワーク300は、これらの例を組み合わせた複数の異なるネットワークを含むものであってもよい。例えば、ネットワーク300は、LTEによる無線ネットワークと、閉域網であるイントラネットなどの有線ネットワークとを含むものであってもよい。
Further, the
(音声出力装置の構成例)
図2は、音声出力装置100の構成例を示すブロック図である。図2に示すように、音声出力装置100は、例えば、受信部110と、記憶部120と、制御部130と、送信部140と、を備える。音声出力装置100は、ユーザが発話した内容について、言い直しかどうかを認識し、その認識に基づいてユーザが求めている回答を特定して、その回答内容を示すロボット発話データを生成、出力するものである。即ち、音声出力装置100は、ユーザの発話に基づく第1音声情報、その後の発話に基づく第2音声情報とを解析し、第2音声情報に、第1音声情報に含まれる文言と同一カテゴリとなる文言がある場合に言い直しであると認識する。ここで同一カテゴリとは、少なくとも第1音声情報と第2音声情報とに、ユーザが知りたい情報の種別のことをいい、例えば、ユーザがある場所の天気を知りたい場合に、その場所を示す情報がカテゴリとなり、例えば、ユーザが知りたい情報が店舗に係るものであって、店の種類(例えば、紳士服、小物、家具など)を音声により指示する場合に、その店の種類がカテゴリとなるが、カテゴリはこれらの例に限定されるものではない。
(Configuration example of audio output device)
FIG. 2 is a block diagram illustrating a configuration example of the
受信部110は、ネットワーク300を介して、スマートスピーカー200から音声データを受信する通信インターフェースである。受信部110は、ユーザからの音声による指示入力を示す音声データを受信する。受信部110は、音声データを受信すると、制御部130に伝達する。また、受信部110は、図示しないネットワーク300に接続されている他の情報処理装置から送信された情報を受信する。
The receiving
記憶部120は、音声出力装置100が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部120は、例えば、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。なお、音声出力装置100は、プログラムを記憶部120に記憶し、当該プログラムを実行して、制御部130が、制御部130に含まれる各機能部としての処理を実行してもよい。このプログラムは、音声出力装置100に、制御部130が実行する各機能を実現させる。
The
記憶部120は、受信した受信した音声データに基づいてユーザからの指示内容を推定するための音声解析を行う音声解析プログラムや、解析結果に基づいて、ロボット音声を示すロボット発話データを生成するための音声データ生成プログラムを記憶している。記憶部120は、入力された音声について、状況に応じて生成するロボット発話データを生成するための回答モデル情報121を記憶している。回答モデル情報121の詳細については、後述する。
The
制御部130は、音声出力装置100の各部を制御するものであり、例えば、中央処理装置(CPU)やマイクロプロセッサ、ASIC、FPGAなどであってもよい。なお、制御部130は、これらの例に限られず、どのようなものであってもよい。
The
制御部130は、音声解析部131と、生成部132と、を含む。
The
音声解析部131は、受け付けた音声情報に基づく音声を解析する機能を有し、解析結果を生成部132に伝達する。音声情報の解析は、従来の音声認識技術を用いてよく、入力された音声をテキストデータに変換し、文脈を解析する。文脈の解析には、例えば、従来の形態素解析を利用することができる。音声解析部131は、解析結果を、生成部132に伝達する。
The
生成部132は、伝達された音声結果に基づいて、ロボット発話データを生成する機能を有する。生成部132は、従来と同様に受け付けている音声情報の解析結果に応じた回答を示すロボット発話データを生成する。また、従来の機能に加えて、生成部132は、音声解析部131から、解析結果を受け付けた場合に、その所定時間前に別の解析結果を受け付けているかに応じて、ロボット発話データを生成する。即ち、第1の音声情報を解析した第1の解析結果を受け付けてから、所定時間内に、第2の音声情報を解析した解析結果を受け付けた場合に、それまでの発話の流れや、第1の音声情報と第2の音声情報とのうち、いずれを優先するのか、あるいは、いずれに対しても返答するのかなどを判断し、そのうえで、状況に応じた回答となるロボット発話データを生成する。また、生成部132は、第1の音声情報から所定時間後に第2の音声情報を受け付けた場合に、第2の音声情報に対応したロボット発話データを作成することとしてよい(しなくともよい)。生成部132は、状況に応じてどのような回答をするかについては、記憶部120に記憶されている回答モデル情報121を参照して決定し、ロボット発話データを生成する。生成部132は、生成したロボット発話データを送信部140に伝達し、スマートスピーカー200に送信するように指示する。
The
送信部140は、制御部130(生成部132)からの指示に従って、スマートスピーカー200に、スマートスピーカー200に発声させるためのロボット発話データを送信する機能を有する通信インターフェースである。
The
以上が、音声出力装置100の構成例である。
The above is the configuration example of the
(スマートスピーカーの構成例)
図3は、スマートスピーカー200の構成例を示すブロック図である。図3に示すように、スマートスピーカー200は、受信部210と、記憶部220と、スピーカー230と、マイク240と、送信部250と、を備える。
(Example of smart speaker configuration)
FIG. 3 is a block diagram illustrating a configuration example of the
受信部210は、音声出力装置100から制御信号(音声データ)を受信する通信インターフェースである。受信部210は、受信した制御信号(音声データ)をスピーカー230に伝達する。
The receiving
記憶部220は、スマートスピーカー200が動作する上で必要とする各種のプログラムやデータを記憶する機能を有する。記憶部220は、例えば、HDD、SSD、フラッシュメモリなど各種の記憶媒体により実現される。なお、スマートスピーカー200は、プログラムを記憶部220に記憶し、当該プログラムを実行して、図示しない制御部が、スマートスピーカー200として実現すべき機能を実現することとしてよい。記憶部220は、例えば、マイク240が集音した音声データを記憶する。
The
スピーカー230は、音声出力装置100から送信されて受信した制御信号(音声データ)を再生する機能を有する。
The
マイク240は、スマートスピーカー200の周囲の音声を集音する機能を有する。マイク240は、1つのマイクロフォンで構成されてもよいし、複数のマイクロフォンで構成されていてもよい。また、マイクロフォンは、集音の方向が限定された指向性のものであってもよい。マイク240は、集音した音声を示す音声データを、記憶部220に記憶する。
The
送信部250は、記憶部220に記憶されている音声データを、音声出力装置100に送信する機能を有する通信インターフェースである。送信部250は、記憶部220に記憶されている音声データを逐次、音声出力装置100に送信することとしてもよいし、ユーザからの音声による指示入力があったと検出できた場合に、その前後の所定長分の音声データを送信することとしてもよい。
The
以上が、スマートスピーカー200の構成例である。
The above is the configuration example of the
(回答モデル情報121の構成例)
次に、回答モデル情報121の一例を、図4を用いて説明する。図4は、回答モデル情報121のデータ構成例を示すデータ概念図である。
(Example of configuration of answer model information 121)
Next, an example of the
図4に示すように、回答モデル情報121は、状況情報410と、対応情報420とが対応付けられた情報である。
As shown in FIG. 4, the
状況情報410は、音声情報の入力を受け付けている状況、受け付けた音声情報の解析結果から示される状況を示す情報である。
The
対応情報420は、対応する状況情報410に応じて、音声出力装置100が、どのような基準でロボット音声発話データを生成する(あるいは、生成しない)かを規定する情報である。
The
例えば、状況情報410として、「・第1音声情報受信後、所定時間後に第2音声情報を取得」していること、「第2音声情報に質問に該当する単語なし」である場合に、音声出力装置100は、対応する対応情報420に示すように、「第2音声情報に対応するロボット発話データを生成しない」か、投げかけられた音声がどういう音声であったかを「問い合わせをするロボット発話データを生成する」という対応をする。
For example, when the
また、例えば、状況情報410として、「・第1音声情報受信後、所定時間内に第2音声情報を取得」し、「・第2音声情報に第1音声情報に含まれる同じカテゴリの単語があり」、「第2音声情報に第1音声情報を否定する単語が含まれる」場合に、音声出力装置100は、「第2音声情報に対応するロボット発話データのみを生成する」という対応をする。
Further, for example, as the
このように、音声出力装置100は、状況情報410において設定されている状態になったときに、対応する対応情報420で示される対応をして、ロボット発話データを生成する(生成しないこともある)。
As described above, when the state set in the
(通信システム1のやり取りの例)
図5は、通信システム1において、ユーザによる言い直しが発生しなかった場合の、スマートスピーカー200と、音声出力装置100との間のやり取りを示すシーケンス図である。
(Example of exchange of communication system 1)
FIG. 5 is a sequence diagram showing an exchange between the
図5に示すように、スマートスピーカー200は、ユーザからの音声(以下、第1音声)の入力を受け付ける(ステップS501)。スマートスピーカー200は、受け付けた音声をデジタルデータに変換した第1音声情報を、音声出力装置100に、送信する(ステップS502)。
As shown in FIG. 5, the
音声出力装置100は、第1音声情報を受信すると、その内容を解析する(ステップS503)。そして、音声出力装置100は、解析結果、即ち、第1音声情報に基づく、応答を示すロボット発話データを生成する(ステップS504)。音声出力装置100は、生成したロボット発話データをスマートスピーカー200に送信する(ステップS505)。
Upon receiving the first audio information, the
ロボット発話データを受信したスマートスピーカー200は、そのロボット発話データに基づく音声を出力し(ステップS506)、ステップS501で受け付けたユーザからの指示(問い合わせ)に対する応答をする。
The
図5に示す処理は、従来のスマートスピーカーにおいても実現できている動作になる。 The process shown in FIG. 5 is an operation that can be realized even in a conventional smart speaker.
一方、図6は、通信システム1において、ユーザによる言い直しが発生した場合のスマートスピーカー200と、音声出力装置100との間のやり取りを示すシーケンス図である。図6に示すシーケンス図において、ステップS501〜S503に係る処理は、図5に示す処理におけるステップS501〜S503の処理と同様であるので、説明を省略する。
On the other hand, FIG. 6 is a sequence diagram showing an exchange between the
第1音声情報を送信後、スマートスピーカー200は、更にユーザから次の音声(以下、第2音声)の入力を受け付ける(ステップS601)。すると、スマートスピーカー200は、第2音声をデジタルデータに変換した第2音声情報を音声出力装置100に送信する(ステップS602)。
After transmitting the first voice information, the
すると、音声出力装置100は、第2音声情報を解析する(ステップS603)。この解析の結果、第1音声情報を受信してから、所定時間(言い直しを受け付ける時間として適切な時間であって、例えば、5秒)内に、第2音声情報を受信していること、第2音声情報の中に、第1音声情報の指示に含まれる単語と同じカテゴリの単語が含まれているとする。
Then, the
このような場合に、音声出力装置100は、少なくとも第2音声情報に基づいて、ロボット発話データを生成する(ステップS604)。ここで、少なくとも第2音声情報に基づいて生成するとは、第2音声情報のみに基づいて生成することと、第1音声情報と第2音声情報との双方に基づいて音声データを生成することとの両方の場合を含む。
In such a case, the
音声出力装置100は、生成したロボット発話データを、スマートスピーカー200に送信する(ステップS605)。
The
スマートスピーカー200は、ロボット発話データを受信すると、そのロボット発話データに基づく音声を出力する(ステップS606)。
Upon receiving the robot utterance data, the
このように、音声出力装置100は、ユーザが続けざまに発話を行った場合に、それが言い直しかどうかを、その前の発話から所定時間内であるか否か、そして、発話内容に共通するカテゴリの単語が含まれるかによって判定して、適切に応答を行うことができる。
As described above, when the user speaks one after another, the
(音声出力装置100の動作例)
図7は、音声出力装置100の動作であって、機器の制御を行う際の動作を示すフローチャートである。
(Operation Example of Audio Output Device 100)
FIG. 7 is a flowchart illustrating the operation of the
図7に示すように、音声出力装置100の受信部110は、スマートスピーカー200から、ユーザが発話した音声を示す第1音声情報を受信する(ステップS701)。受信部110は、受信した第1音声情報を、制御部130に伝達する。
As illustrated in FIG. 7, the receiving
制御部130の音声解析部131は、伝達された第1音声情報を解析し(ステップS702)、どのような指示内容(問い合わせ内容)であるかを特定する。当該指示の特定については、予め、記憶部120に問い合わせ内容となり得る単語のリストを保持しておくことにより特定することができる。音声解析部131は、解析結果を生成部132に伝達する。
The
そして、生成部132は、解析結果、即ち、第1音声情報を解析した結果に基づいて、その第1音声情報で示される指示内容(問い合わせ内容)に対する応答となるロボット発話音声データの生成を開始する(ステップS703)。
Then, based on the analysis result, that is, the result of analyzing the first voice information, the
ロボット発話音声データの生成開始した後に、制御部130は、受信部110から新たな音声情報である第2音声情報を受け付けたか否かを判定する(ステップS704)。
After starting the generation of the robot utterance voice data, the
第2音声情報を受け付けていない場合には(ステップS704のNO)、生成部132は、そのまま第1音声情報に対する応答であるロボット発話データを生成し、送信部140を介して、スマートスピーカー200に送信させて(ステップS705)、処理を終了する。
If the second voice information has not been received (NO in step S704), the
一方、第2音声情報を受け付けていた場合(ステップS704のYES)、音声解析部131は、第1音声情報の受け付けから所定時間内であるか否かを判定する(ステップS706)。当該判定は、第1音声情報の受信時間と、第2音声情報の受信時間との差分をとり、所定時間となる閾値と比較することにより判定することができる。なお、第2音声情報を受け付けたタイミングにおいて、第1音声情報に対する応答であるロボット発話データの生成、スマートスピーカー200への送信まで完了していてもよいし、完了していなくてもよい。
On the other hand, when the second voice information has been received (YES in step S704), the
第2音声情報の受付が、第1音声情報の受付から、所定時間内であると判定した場合に(ステップS706のYES)、音声解析部131は、第2音声情報に、第1音声情報に含まれる単語と同一カテゴリの単語があるか否かを判定する(ステップS707)。ここで、同一カテゴリの単語があるか否かは、例えば、第1音声情報に含まれる単語であって、問い合わせの目的格となる単語についての属性と、第2音声情報に含まれる単語であって、同一の問い合わせの目的格となる単語についての属性とで一致するものがあるか否かによって判定することができる。一具体例を挙げれば、第1音声情報として、「東京の天気を教えて」という問い合わせがある場合に、「天気」が問い合わせの内容となり、その問い合わせの目的格は「東京」となる。このとき、「東京」には、地名、都市名、場所といった属性を持ち得る。そして、第2音声情報として、「品川の天気を教えて」との問い合わせがある場合に、同様に、「天気」が問い合わせの内容となり、その問い合わせの目的格は「品川」となる。このとき、「品川」には、地名、都市名、場所となった属性を持ち得るので、第2音声情報には、第1音声情報に含まれる単語と同一のカテゴリの単語があると判定することができる。
When it is determined that the reception of the second audio information is within a predetermined time from the reception of the first audio information (YES in step S706), the
第2音声情報に、第1音声情報に含まれる単語と同一カテゴリの単語があると判定できた場合に(ステップS707のYES)、音声解析部131による第1音声情報と第2音声情報との間の文脈の解析と併せた、第2音声情報の解析結果を生成部132に伝達する。そして、生成部132は、伝達された解析結果に基づいて、少なくとも、第2音声情報に基づくロボット発話データ、即ち、第2音声情報に対する応答となるロボット発話データを生成する。そして、生成部132は、送信部140を介して、生成したロボット発話データを、スマートスピーカー200に送信して(ステップS709)、処理を終了する。ここで、少なくとも第2音声情報に対する応答となるロボット発話データとは、第2音声情報に含まれる問い合わせに対する応答を含み、場合によっては、第1音声情報に含まれる問い合わせに対する応答を含むことがある。また、このとき生成部132は、まだ第1音声情報に基づくロボット発話音声データの生成、送信を完了していない場合には、その生成、送信を中止したうえで、少なくとも第2音声情報に基づくロボット発話データの生成、出力を行う。これは、スマートスピーカー200が、第1音声情報に基づくロボット発話データを音声として出力している最中に、ユーザ10が発話を行って第2音声情報が得られた場合であって、第2音声情報と第1音声情報とが同一カテゴリの単語であると判定されたときに、音声出力装置100は、スマートスピーカー200に第1音声情報に基づくロボット発話データによる音声出力の中止を指示するものであってもよい。そして、この中止の指示の後に、生成部132は、第2音声情報に基づくロボット発話データを生成し、音声衆力装置は、第2音声情報に基づくロボット発話データをスマートスピーカー200に送信することとしてもよい。
When it is determined that the second voice information includes a word in the same category as the word included in the first voice information (YES in step S707), the
一方、ステップS706において、音声解析部131が第2音声情報を、第1音声情報を受け付けてから所定時間内に受け付けていないと判断した場合(ステップS706のNO)や、ステップS707において、音声解析部131が第2音声情報に第1音声情報に含まれる単語と同一カテゴリの単語がないと判定した場合(ステップS707のNO)には、音声解析部131は、第2音声情報に質問に該当する単語があるか否かを判定する(ステップS708)。ここでの、所定時間とは、例えば、スマートスピーカー200が第1音声情報に基づくロボット発話データを、音声として、出力している間の時間のことであってよい。
On the other hand, when the
第2音声情報に、質問に該当する単語が含まれている場合(ステップS708のYES)、生成部132は、その質問内容に対する回答となるロボット発話データを生成し、送信部140を介して、スマートスピーカー200に送信し(ステップS710)、処理を終了する。
When the word corresponding to the question is included in the second voice information (YES in step S708), the
また、第2音声情報に質問に該当する単語がない場合には(ステップS708のNO)、ステップS705の処理に移行する。なお、このとき、ステップS704の処理に移行するのではなく、ユーザに対して、もう一度問い合わせを言い直してもらうためのリクエストをするロボット発話データを生成して、スマートスピーカー200に送信するように構成されてもよい。
If there is no word corresponding to the question in the second voice information (NO in step S708), the process proceeds to step S705. In this case, instead of moving to the process of step S704, the system is configured to generate robot utterance data for requesting the user to re-inquire again and transmit the generated data to the
なお、スマートスピーカー200の動作は、ユーザからの音声をマイク240で受け付けて、その音声情報を、送信部250から音声出力装置100に送信し、その音声出力装置100から出力されたロボット発話データを受信部210で受信して、スピーカー230から出力(報知)するだけであるので、詳細な説明については省略する。
The operation of the
(応答具体例)
以下には、スマートスピーカー200が集音した音声データに基づいて、音声出力装置100が実行する処理について具体的に説明する。以下の具体例では、ユーザが天気を問い合わせる例を用いて説明する。
(Example of response)
Hereinafter, a process executed by the
(例1)ユーザが、「東京の天気を教えて?…あ、やっぱり、品川の天気を教えて?」と発言した場合 (Example 1) When the user says, "Tell me the weather in Tokyo? Ah, after all, tell me the weather in Shinagawa?"
例1は、図4に示す回答モデル情報121において、状況情報410として、欄412の状況を満たす場合に該当する。この場合、対応情報420としては、欄422に示される対応をすることになる。具体的には、この場合、まず、音声出力装置100には、第1音声情報として、「東京の天気を教えて?」という情報が伝達され、その解析を行うことになる。そして、「天気」という文言から、天気予報サーバにアクセスし、「東京」の天気情報を取得する。そして、その天気情報に基づくロボット発話データを生成する。ここで、音声出力装置100には、第2音声情報として、「あ、やっぱり、品川の天気を教えて?」という情報が伝達される。
Example 1 corresponds to a case where the status in the
すると、音声出力装置100は、第2音声情報を、第1音声情報を受信してから所定時間内(例えば、5秒)に受信しているか判断し、所定時間内に受信したと判断したものとする。すると、生成部132は、第1音声情報に含まれる「天気」と、第2音声情報に含まれる「天気」というアプリケーションを指定する文言があること、そして、「東京」と「品川」という「地名」という同じカテゴリの単語が双方に含まれていることを検出する。
Then, the
この場合、生成部132は、第2音声情報が言い直しであると判断し、第1音声情報に対するロボット発話データの生成を中止し、第2音声情報に対する回答を示すロボット発話データを生成する。例えば、生成部132は、天気予報サーバにアクセスし、品川の天気情報を取得し、その内容に応じたロボット発話データ(例えば、品川の天気は晴れ。気温は○○度。)を生成する。
In this case, the
すると、この場合、スマートスピーカー200は、品川の天気についてのみのアナウンスを行うことになるので、ユーザは、指示のし直しをすることなく、真に知りたい情報を得ることができる。
Then, in this case, the
なお、このとき、生成部132は、更に、ユーザの発言の文脈を解析して、後者が言い直しであるとの判定の確度を向上させてもよい。上記の例で言えば、「やっぱり」という前者を否定する文脈が有ることから、後者が言い直しであるとの判定の確度を向上させることができる。
At this time, the
(例2)ユーザが、「東京の天気を教えて?…あ、それから、大阪も」と発言した場合 (Example 2) When the user says "Tell me the weather in Tokyo? Oh, and also Osaka"
例2は、図4に示す回答モデル情報121において、状況情報410として、欄413の状況を満たす場合に該当する。この場合、対応情報420としては、欄423に示される対応をすることになる。具体的には、この場合、まず、音声出力装置100には、第1音声情報として、「東京の天気を教えて?」という情報が伝達され、その解析を行うことになる。そして、「天気」という文言から、天気予報サーバにアクセスし、「東京」の天気情報を取得する。そして、その天気情報に基づくロボット発話データを生成する。ここで、音声出力装置100には、第2音声情報として、「あ、それから、大阪も」という情報が伝達される。
Example 2 corresponds to a case where the status of the
すると、音声出力装置100は、第2音声情報を、第1音声情報を受信してから所定時間内(例えば、5秒)に受信しているか判断し、所定時間内に受信したと判断したものとする。すると、生成部132は、第1音声情報に含まれる「東京」と、第2音声情報に含まれる「大阪」という「地名」という同じカテゴリの単語が双方に含まれていることを検出する。
Then, the
一方で、この場合、音声解析部131は、第2音声情報の文脈を解析し、「それから」や「も」という追加の意味合いを有する語が含まれていると解釈する。このような場合に、生成部132は、第2音声情報が言い直しではなく、追加の情報の要求であると判断し、第1音声情報に対するロボット発話データの生成、送信を行うとともに、第2音声情報に対する回答を示すロボット発話データを生成して、送信する。したがって、スマートスピーカー200には、東京と大阪の双方の天気の情報が伝えられ、スマートスピーカー200は、双方の天気の情報を報知する。
On the other hand, in this case, the
(例3)ユーザが、「東京の天気を教えて?」と発言し、所定時間経過後に、「あと、大阪も」と発言した場合 (Example 3) When the user says "Tell me the weather in Tokyo?", And after a predetermined time elapses, he says "And also Osaka"
例3は、図4に示す回答モデル情報121において、状況情報410として、欄411の状況を満たす場合に該当する。この場合、対応情報420としては、欄421に示される対応をすることになる。具体的には、この場合、まず、音声出力装置100には、第1音声情報として、「東京の天気を教えて?」という情報が伝達され、その解析を行うことになる。そして、音声出力装置100は、その内容から東京の天気に関する情報を含むロボット発話データを生成する。その所定時間経過後に、音声出力装置100には、第2音声情報として、「あと、大阪も」という情報が伝達された場合、最初の質問から所定時間経過しているため、音声出力装置100は、双方の関連性がないと判定する。
Example 3 corresponds to a case where the status in the
このような場合には、音声出力装置100は、第1音声情報に対する応答のロボット発話データのみを生成するか、第1音声情報に対する応答のロボット発話データを生成し、送信しつつ、「もう一度、質問をお願いします」というリクエストをするロボット発話データを生成して、送信する構成にしてよい。このとき、第1音声情報に対する応答のロボット発話データを生成せずに、「もう一度、質問をお願いします」というリクエストをするロボット発話データのみを生成して、送信するように構成してもよい。
In such a case, the
(例4)スマートスピーカー200から「どこの天気が知りたいですか?」と問い合わせをし、ユーザが、「新橋…、品川」と発言した場合
(Example 4) When the
この場合、音声出力装置100は、第1音声情報として、「新橋」という音声を受け付ける。そして、第2音声情報として、「品川」という音声を受け付ける。ユーザの発言は、スマートスピーカー200がした質問に対する回答になり、「新橋」も「品川」も共に「地名」という同一カテゴリの単語であると音声解析部131は、解析することができる。このような場合に、音声出力装置100は、上記(例1)に示したように、言い直しであると判断して、後者の「品川」がユーザが知りたい天気の場所であると認定して、「品川」の天気を示すロボット発話データを生成して、送信することとしてもよいが、双方の地名間の距離が所定距離内であれば、その双方の地名が含まれる地域の天気を取得して、その情報を報知するようにしてもよい。この例の場合であれば、音声出力装置100は、「新橋」及び「品川」が含まれる「東京」という地域の天気の情報を示すロボット発話データを生成して、スマートスピーカー200に送信するようにしてもよい。この例4の場合についての回答モデル情報121は、図4には示していないが、状況情報410としては、例えば、
「・第1音声情報受信後、所定時間内に第2音声情報を取得。
・第2音声情報に質問に該当する単語あり」となり、
対応情報420としては、
「・第2音声情報に対応するロボット発話データのみを生成する」ということになる。
In this case, the
"-Acquire the second audio information within a predetermined time after receiving the first audio information.
・ There is a word corresponding to the question in the second voice information "
As the
This means that “only the robot utterance data corresponding to the second voice information is generated”.
以上のように、音声出力装置100は、ユーザからの様々な態様の問い合わせについて、自然な応答をするためのロボット発話データを生成することができる。また、この例4によれば、音声出力装置100は、ユーザの音声中に、第1音声情報を否定する文言がなくとも、即ち、特定語彙を有する文言がなくとも、ユーザによる言い直しを認識して、自然な応答をするためのロボット発話データを生成することができる。
As described above, the
(例5)スマートスピーカー200から「どこの天気が知りたいですか?」と問い合わせをし、ユーザが、「新橋、…、品川!品川!品川!」と発言した場合
(Example 5) When the
この場合、音声出力装置100は、第1音声情報として、「新橋」という音声を受け付ける。そして、第2音声情報として、「品川」という音声を受け付ける。ユーザの発言は、スマートスピーカー200がした質問に対する回答になり、「新橋」も「品川」も共に「地名」という同一カテゴリの単語であると音声解析部131は、解析することができる。一方で、例5の場合、例4とは異なり、ユーザが複数回同じ文言を発声していることを音声出力装置100は、解析により認識することができる。このような場合に、音声出力装置100は、質問に対する回答として、所定時間内に、同一カテゴリの文言が複数含まれるような場合には、その複数の文言のうち、ユーザが最も多く発言した文言を、質問に対する回答として特定して、ロボット発話データを生成するようにしてもよい。また、特に、ユーザが連続して、同じ文言を繰り返していることが解析できた場合に、その繰り返しの文言を、質問に対する回答として特定して、ロボット発話データを生成するようにしてもよい。
In this case, the
この例5の場合についての回答モデル情報121は、図4には示していないが、状況情報410としては、例えば、
「・第1音声情報受信後、所定時間内に第2音声情報を取得。
・第1音声情報と第2音声情報に複数の回答となる文言あり」、となり、
対応情報420としては、
「・第1音声情報と第2音声情報とで、回答となる文言のうち最も登場回数の多い文言に対応するロボット発話データのみを生成する」ということとしてよい。
また、あるいは、状況情報410としては、例えば、
「・第1音声情報受信後、所定時間内に第2音声情報を取得。
・第2音声情報に複数回繰り返されている文言あり」となり、
対応情報420としては、
「・第2音声情報で複数回繰り返されている文言に基づくロボット発話データを生成する」ということとしてよい。
Although the
"-Acquire the second audio information within a predetermined time after receiving the first audio information.
・ The first voice information and the second voice information have a plurality of answers, "
As the
It is also possible to say that “only the robot voice data corresponding to the word having the highest number of appearances among the words to be answered is generated by the first voice information and the second voice information”.
Alternatively, as the
"-Acquire the second audio information within a predetermined time after receiving the first audio information.
・ There is a wording that is repeated multiple times in the second audio information "
As the
"・ Generate robot utterance data based on words repeated a plurality of times in the second voice information".
このように複数回強調されたような回答こそ、ユーザが知りたい回答であると推測することができるので、音声出力装置100は、そのような文言をユーザの知りたい情報の回答であると特定して、自然な応答をするためのロボット発話データを生成することができる。なお、ユーザが強調している回答に基いてロボット発話データを生成する場合に、回答数ではなく、ユーザの声の音量に基づくものであってもよい。即ち、ユーザの声の音量が高い方の回答がユーザが知りたい事項に対する回答であると特定するようにしてもよい。
Since the answer emphasized a plurality of times in this way can be presumed to be the answer that the user wants to know, the
(まとめ)
このように、音声出力装置100は、ユーザが言い直しをした場合に、その言い直しが、言い直しをする前の言葉を発したタイミングから所定時間以内に行われていること、言い直しの中の単語に、言い直しをする前の言葉の中の単語と同じカテゴリを含むか否かによって、第2音声情報が言い直しかどうかを判定することができる。したがって、音声出力装置100は、第1音声情報と、第2音声情報とについて、その双方についてのロボット発話データを作成する必要があるのか、それとも、第2音声情報に対する回答のみを示すロボット発話データを生成すればいいのかの判断をすることができる。そして、言い直しであると判断できた場合に、音声出力装置100は、第2音声情報の方が、ユーザが実際に問い合わせたい内容であると判断して応答を行うので、より、自然な会話の応答をすることができる音声出力装置100を提供することができる。
(Summary)
As described above, when the user makes a restatement, the
(補足)
上記実施形態に係る装置は、上記実施形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
(Supplement)
It goes without saying that the device according to the above embodiment is not limited to the above embodiment, and may be realized by another method. Hereinafter, various modifications will be described.
(1)上記実施形態においては、天気に関する問い合わせをする例を示しているが、音声出力装置100は、天気以外の事例に対しても対応できるのは言うまでもない。ユーザからの天気の問い合わせに限らず、例えば、家電操作、音楽再生、買い物等のリスト管理などにおいても活用できる。家電操作の場合であれば、一例として、「冷房を24度、…26度でつけて」という指示を受け付けたとする。このとき、音声出力装置100は、24度と発話してから26度と発話するまでの間の時間が所定時間以内である場合に、「24度」と「26度」とが同じ温度というカテゴリに属することから「26度」の方を、ユーザが指定した情報であると解釈して、音声出力装置100は、家電を操作する情報処理装置として、冷房を26度の設定でオンする制御を行うことができる。また、音楽再生の例であれば、ユーザが「Aをかけて。…Bの方がいいかな」という発話をしたとする。この場合、音声出力装置100は、「Aをかけて」との発言から「Bの方がいいかな」という発言までの間の時間が所定時間以内であれば、「A」と「B」がどちらも音楽(曲)というカテゴリに属することから、スマートスピーカーに対して、「B」の曲の再生を指示する。また、買い物等のリスト管理を行うのであれば、「ニンジン、ナス、ジャガイモ、…じゃなくてサツマイモ」という発言をユーザがしたときに、音声出力装置100は、買い物リストを管理する情報処理装置として、「ジャガイモ」という発言から、「サツマイモ」という発言までの時間が所定時間以内であれば、サツマイモのみを買い物リストに追加する。このように、音声出力装置100は、天気の問い合わせ以外にも様々な場面におけるユーザによる言い直しに対応して、ユーザにとって望ましいと推定される処理を行うことができる。また、その他の例としては、経路案内における地名などについても、同様のことが言える。
(1) In the above embodiment, an example is shown in which an inquiry about the weather is made. However, it goes without saying that the
(2)上記実施の形態において、音声出力装置100が保持する機能の一部を別の装置が保持し、その別の装置に音声出力装置100が実行する処理の一部を負担させてもよい。例えば、音声解析機能を有する他の情報処理装置が、まず、スマートスピーカー200が受け付けたユーザの音声を解析し、その解析結果を音声出力装置100に転送する。そして、音声出力装置100は、転送された解析結果に基づくロボット発話データを生成するように構成されていてもよい。
(2) In the above embodiment, a part of the functions held by the
(3)上記実施の形態において、音声出力装置100は、実行する処理に応じて複数存在してよい。例えば、天気に関する情報を通知する装置、料理に関する情報を通知する装置、家電を操作する装置など、様々な装置が考えられる。このとき、通信システム1は、更に、スマートスピーカー200が受け付けた音声を先に解析し、どの装置にその音声に基づく問い合わせを行うのかを決定する情報処理装置が含まれてもよい。そのような構成において、その情報処理装置において、上記実施の形態に示す言い直しの判定と、音声を伝達する装置の指定に役立てることとしてもよい。例えば、ユーザが、「天気…じゃなくて、電車の発車時間を教えて」というような問い合わせをしたい種別についての言い直しをした場合に、回答をする装置を、天気の情報を管理する装置とするか電車の時間を管理する装置とするかについて、同時に実行できないことから、そのうちの一方であって、言い直しであると判定された場合に、後者の方に対応する装置に、音声による問いかけを転送するというように構成されてもよい。
(3) In the above embodiment, a plurality of
(4)上記実施の形態においては、スマートスピーカー200と、音声出力装置100を別の装置として、説明したが、スマートスピーカー200と、音声出力装置100とは、一体に形成されてもよい。即ち、スマートスピーカー200は、音声出力装置100が有する機能の一部又は全部を備えることとしてもよい。
(4) In the above embodiment, the
(5)上記実施の形態においては、ユーザとの対話における文脈、質問に対する回答として望ましい文言として、同じカテゴリの単語が、第1の音声情報と第2の音声情報とに含まれるか否かを判定していた。しかしながら、音声出力装置100側(スマートスピーカー200側)から、ユーザに対して、何らかの問いかけをする場合には、生成部132は、その問いかけためのロボット発話データを生成する際に、その問いかけに対する回答としてふさわしいと想定されるカテゴリをも決定し、その決定したカテゴリを記憶部120に記憶する。そして、音声出力装置100の制御部130は、問いかけに対するユーザからの回答として、第1の音声情報と第1の音声情報から所定時間内に第2の音声情報とが得られたときに、第1の音声情報に、決定した(記憶した)カテゴリに属する単語が含まれるか否かを判定する。また、同様に、第2の音声情報に、決定した(記憶した)カテゴリに属する単語が含まれるか否かを判定する。そして、両音声情報に、決定したカテゴリに属する単語が含まれていた場合に、生成部132は、少なくとも、第2の音声情報に基づくロボット発話データを生成することとしてもよい。こうすることで、第1の音声情報及び第2の音声情報に同じカテゴリの単語が含まれるか否かを検証する際の絞り込みが容易になり、処理時間を短縮することができる。
(5) In the above-described embodiment, it is determined whether or not words in the same category are included in the first audio information and the second audio information as words that are desirable as an answer to the context and the question in the dialogue with the user. Had been determined. However, when asking the user any question from the
(6)本開示の各実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。記憶媒体は、HDDやSDDなどの任意の適切な記憶媒体、またはこれらの2つ以上の適切な組合せを含むことができる。記憶媒体は、揮発性、不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。 (6) The program according to each embodiment of the present disclosure may be provided in a state stored in a computer-readable storage medium. The storage medium is capable of storing the program on a “temporary tangible medium”. The storage medium may include any suitable storage medium such as an HDD or an SDD, or a suitable combination of two or more thereof. The storage medium may be volatile, non-volatile, or a combination of volatile and non-volatile. The storage medium is not limited to these examples, and may be any device or medium as long as it can store a program.
なお、音声出力装置100は、例えば、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。また、当該プログラムは、任意の伝送媒体(通信ネットワークや放送波等)を介して、音声出力装置100に提供されてもよい。音声出力装置100は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。
Note that the
なお、当該プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective―C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。 The program can be implemented using, for example, a script language such as ActionScript or JavaScript (registered trademark), an object-oriented programming language such as Objective-C or Java (registered trademark), or a markup language such as HTML5.
音声出力装置100における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、音声出力装置100の各機能部は、上記実施形態に示した機能を実現する1または複数の回路によって実現されてもよく、1の回路により複数の機能部の機能が実現されることとしてもよい。
At least part of the processing in the
(7)本開示の実施形態を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、各実施形態に示す構成を適宜組み合わせることとしてもよい。 (7) Although the embodiments of the present disclosure have been described based on the drawings and examples, it should be noted that those skilled in the art can easily make various changes and modifications based on the present disclosure. Therefore, it should be noted that these variations and modifications are included in the scope of the present disclosure. For example, the functions and the like included in each means, each step, and the like can be rearranged so as not to be logically inconsistent, and a plurality of means, steps, and the like can be combined into one or divided. . Further, the configurations shown in the embodiments may be appropriately combined.
100 音声出力装置
110 受信部
120 記憶部
130 制御部
131 音声解析部
132 生成部
140 送信部
Claims (11)
前記音声情報に基づいて、前記発話音声に対する返事に相当するロボット発話データを生成する生成部と、
前記ロボット発話データを出力する出力部と、を備え、
前記生成部は、第1の音声情報を受け付けてから、所定時間内に第2の音声情報を受け付けた場合であって、前記第2の音声情報に、前記第1の音声情報に含まれる第1の単語と同じカテゴリの第2の単語が含まれているときに、少なくとも、前記第2の音声情報に基づいて、ロボット発話データを生成する
情報処理装置。 A receiving unit that receives input of voice information indicating an uttered voice by the user;
A generation unit that generates robot utterance data corresponding to a reply to the utterance voice based on the voice information;
An output unit that outputs the robot utterance data,
The generation unit may include a case where the second audio information is received within a predetermined time after receiving the first audio information, wherein the second audio information includes a second audio information included in the first audio information. An information processing device that generates robot utterance data based on at least the second voice information when a second word of the same category as one word is included.
ことを特徴とする請求項1に記載の情報処理装置。 The said generation part, when the word which denies the said 1st audio | voice information is contained in the said 2nd audio | voice information, produces | generates the robot utterance data based only on the said 2nd audio | voice information. 2. The information processing device according to 1.
ことを特徴とする請求項1又は2に記載の情報処理装置。 The generation unit generates robot utterance data for both the first voice information and the second voice information when the second voice information includes a word connected to the first voice information. The information processing apparatus according to claim 1 or 2, wherein
ことを特徴とする請求項1に記載の情報処理装置。 When the second voice information includes a second word of the same type as the first word included in the first voice information, a robot utterance inquiring which is correct The information processing apparatus according to claim 1, wherein the information processing apparatus generates data.
前記ユーザの発話音声を集音する音声収集部とを更に備え、
前記出力部は、前記音声出力部に前記ロボット発話データを出力し、
前記受付部は、前記音声収集部が収集した発話音声を前記音声情報として入力され、
前記出力部は、第1の音声情報に基づくロボット発話データを出力しているときに、所定時間内に第2の音声情報を受け付けると、前記第2の音声情報に、前記第1の音声情報に含まれる第1の単語と同種類の第2の単語が含まれているときには前記第1の音声情報に対して生成されたロボット発話データの前記音声出力部への出力を中止する
ことを特徴とする請求項1〜4のいずれか一項に記載の情報処理装置。 An audio output unit that outputs an audio based on the robot utterance data,
A voice collection unit that collects the voice of the user,
The output unit outputs the robot utterance data to the voice output unit,
The receiving unit receives the uttered voice collected by the voice collecting unit as the voice information,
The output unit outputs the first voice information to the second voice information when receiving the second voice information within a predetermined time while outputting the robot utterance data based on the first voice information. When the second word of the same type as the first word included in the first voice information is included, the output of the robot utterance data generated for the first voice information to the voice output unit is stopped. The information processing apparatus according to claim 1.
ことを特徴とする請求項5に記載の情報処理装置。 The information processing according to claim 5, wherein the output unit outputs new robot utterance data based on the second voice information after stopping outputting the robot utterance data to the voice output unit. apparatus.
前記受付部は、外部のマイクが収集した発話音声を前記音声情報として入力を受け付けるものであり、
前記出力部は、前記外部のスピーカーが第1の音声情報に基づくロボット発話データに基づく音声を音声出力しているときに前記ユーザから受け付けた発話音声に基づく第2の音声情報を受け付け、当該第2の音声情報に、前記第1の音声情報に含まれる第1の単語と同種類の第2の単語が含まれているときには前記第1の音声情報に対して生成されたロボット発話データに基づく音声の出力を中止する中止指示を出力する
ことを特徴とする請求項1〜4のいずれか一項に記載の情報処理装置。 The output unit outputs the robot utterance data to an external speaker,
The receiving unit is configured to receive an uttered voice collected by an external microphone as the voice information,
The output unit receives the second voice information based on the uttered voice received from the user when the external speaker is outputting voice based on the robot utterance data based on the first voice information, and When the second voice information includes a second word of the same type as the first word included in the first voice information, the second voice information is based on the robot utterance data generated for the first voice information. The information processing apparatus according to claim 1, wherein the information processing apparatus outputs a stop instruction to stop outputting the voice.
ことを特徴とする請求項7に記載の情報処理装置。 The information processing device according to claim 7, wherein the output unit outputs new robot utterance data based on the second voice information after outputting the stop instruction.
前記生成部は、前記問い合わせに対する回答としての、前記第1の音声情報と前記第2の音声情報とを受け付けた場合に、前記第1の音声情報に前記決定したカテゴリに属する単語が前記第1の単語として含まれており、前記第2の音声情報に前記決定したカテゴリに属する単語が前記第2の単語として含まれていたときに、少なくとも前記第2の音声情報に基づいて、ロボット発話データを生成する
ことを特徴とする請求項1〜8のいずれか一項に記載の情報処理装置。 The generation unit, while generating robot utterance data for making an inquiry to the user, determines a category of words desired as a response to the inquiry,
The generating unit, when receiving the first voice information and the second voice information as an answer to the inquiry, when the word belonging to the determined category in the first voice information is the first voice information. When the second voice information includes a word belonging to the determined category as the second word, the robot utterance data is based on at least the second voice information. The information processing apparatus according to any one of claims 1 to 8, wherein the information processing apparatus generates:
前記音声情報に基づいて、前記発話音声に対する返事に相当するロボット発話データを生成する生成ステップと、
前記ロボット発話データを出力する出力ステップと、を含み、
前記生成ステップは、第1の音声情報を受け付けてから、所定時間内に第2の音声情報を受け付けた場合であって、前記第2の音声情報に、前記第1の音声情報に含まれる第1の単語と同じカテゴリの第2の単語が含まれているときに、少なくとも、前記第2の音声情報に基づいて、ロボット発話データを生成する
コンピュータが実行する音声出力方法。 A receiving step of receiving an input of voice information indicating an uttered voice by the user;
A generation step of generating robot utterance data corresponding to a reply to the utterance voice based on the voice information;
An output step of outputting the robot utterance data,
The generation step is a case where the second audio information is received within a predetermined time after the first audio information is received, and the second audio information includes a second audio information included in the first audio information. An audio output method executed by a computer for generating robot utterance data based on at least the second audio information when a second word of the same category as one word is included.
ユーザによる発話音声を示す音声情報の入力を受け付ける受付機能と、
前記音声情報に基づいて、前記発話音声に対する返事に相当するロボット発話データを生成する生成機能と、
前記ロボット発話データを出力する出力機能と、を実現させ、
前記生成機能は、第1の音声情報を受け付けてから、所定時間内に第2の音声情報を受け付けた場合であって、前記第2の音声情報に、前記第1の音声情報に含まれる第1の単語と同じカテゴリの第2の単語が含まれているときに、少なくとも、前記第2の音声情報に基づいて、ロボット発話データを生成する
音声出力プログラム。 On the computer,
A reception function for receiving an input of voice information indicating an uttered voice by the user;
A generation function of generating robot utterance data corresponding to a reply to the utterance voice based on the voice information;
Output function of outputting the robot utterance data,
The generation function is a case where the second audio information is received within a predetermined time after the first audio information is received, and the second audio information includes a second audio information included in the first audio information. A voice output program for generating robot utterance data based on at least the second voice information when a second word of the same category as the first word is included.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018147243A JP6761007B2 (en) | 2018-08-03 | 2018-08-03 | Information processing device, audio output method, audio output program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018147243A JP6761007B2 (en) | 2018-08-03 | 2018-08-03 | Information processing device, audio output method, audio output program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020119482A Division JP7058305B2 (en) | 2020-07-10 | 2020-07-10 | Information processing device, audio output method, audio output program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020021040A true JP2020021040A (en) | 2020-02-06 |
JP6761007B2 JP6761007B2 (en) | 2020-09-23 |
Family
ID=69588537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018147243A Active JP6761007B2 (en) | 2018-08-03 | 2018-08-03 | Information processing device, audio output method, audio output program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6761007B2 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08190398A (en) * | 1995-01-10 | 1996-07-23 | Sony Corp | Voice recognition device |
JP2003208196A (en) * | 2002-01-11 | 2003-07-25 | Matsushita Electric Ind Co Ltd | Speech interaction method and apparatus |
JP2004333641A (en) * | 2003-05-01 | 2004-11-25 | Nippon Telegr & Teleph Corp <Ntt> | Voice input processing method, display control method for voice interaction, voice input processing device, display control device for voice interaction, voice input processing program, and display control program for voice interaction |
JP2006184371A (en) * | 2004-12-27 | 2006-07-13 | Nissan Motor Co Ltd | Device and method for speech recognition |
JP2007057844A (en) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | Speech recognition system and speech processing system |
JP2014142566A (en) * | 2013-01-25 | 2014-08-07 | Alpine Electronics Inc | Voice recognition system and voice recognition method |
JP2018097029A (en) * | 2016-12-08 | 2018-06-21 | 三菱電機株式会社 | Voice recognition device and voice recognition method |
WO2019107145A1 (en) * | 2017-11-28 | 2019-06-06 | ソニー株式会社 | Information processing device and information processing method |
-
2018
- 2018-08-03 JP JP2018147243A patent/JP6761007B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08190398A (en) * | 1995-01-10 | 1996-07-23 | Sony Corp | Voice recognition device |
JP2003208196A (en) * | 2002-01-11 | 2003-07-25 | Matsushita Electric Ind Co Ltd | Speech interaction method and apparatus |
JP2004333641A (en) * | 2003-05-01 | 2004-11-25 | Nippon Telegr & Teleph Corp <Ntt> | Voice input processing method, display control method for voice interaction, voice input processing device, display control device for voice interaction, voice input processing program, and display control program for voice interaction |
JP2006184371A (en) * | 2004-12-27 | 2006-07-13 | Nissan Motor Co Ltd | Device and method for speech recognition |
JP2007057844A (en) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | Speech recognition system and speech processing system |
JP2014142566A (en) * | 2013-01-25 | 2014-08-07 | Alpine Electronics Inc | Voice recognition system and voice recognition method |
JP2018097029A (en) * | 2016-12-08 | 2018-06-21 | 三菱電機株式会社 | Voice recognition device and voice recognition method |
WO2019107145A1 (en) * | 2017-11-28 | 2019-06-06 | ソニー株式会社 | Information processing device and information processing method |
Non-Patent Citations (1)
Title |
---|
船越孝太郎,徳永健伸: "音声情報処理技術の最先端 話し言葉における言い直しの処理", 情報処理, vol. 第45巻,第10号, JPN6019040955, 15 October 2004 (2004-10-15), JP, pages 1032 - 1037, ISSN: 0004140043 * |
Also Published As
Publication number | Publication date |
---|---|
JP6761007B2 (en) | 2020-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887604B1 (en) | Speech interface device with caching component | |
US10991374B2 (en) | Request-response procedure based voice control method, voice control device and computer readable storage medium | |
US11509726B2 (en) | Encapsulating and synchronizing state interactions between devices | |
KR102429436B1 (en) | Server for seleting a target device according to a voice input, and controlling the selected target device, and method for operating the same | |
JP5545467B2 (en) | Speech translation system, control device, and information processing method | |
JP5598998B2 (en) | Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device | |
KR20190046623A (en) | Dialog system with self-learning natural language understanding | |
JP2017107078A (en) | Voice interactive method, voice interactive device, and voice interactive program | |
JP7300435B2 (en) | Methods, apparatus, electronics, and computer-readable storage media for voice interaction | |
KR20190075800A (en) | Intelligent personal assistant interface system | |
JP2004288018A (en) | Interaction control system and method | |
JP7347217B2 (en) | Information processing device, information processing system, information processing method, and program | |
US11532301B1 (en) | Natural language processing | |
US11626107B1 (en) | Natural language processing | |
CN110659361B (en) | Conversation method, device, equipment and medium | |
KR102335048B1 (en) | User device, method and server for providing voice recognition service | |
KR20210066651A (en) | Electronic device and Method for controlling the electronic device thereof | |
JP7058305B2 (en) | Information processing device, audio output method, audio output program | |
JP6761007B2 (en) | Information processing device, audio output method, audio output program | |
KR20210098250A (en) | Electronic device and Method for controlling the electronic device thereof | |
JP6468069B2 (en) | Electronic device control system, server, and terminal device | |
US11893996B1 (en) | Supplemental content output | |
KR102268376B1 (en) | Apparatus and method for providing multilingual conversation service | |
WO2021140816A1 (en) | Information processing device, information processing system, information processing method, and program | |
US11450325B1 (en) | Natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191223 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200414 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200710 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20200710 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200721 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20200728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200825 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200903 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6761007 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |