JP6129134B2 - Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus - Google Patents
Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus Download PDFInfo
- Publication number
- JP6129134B2 JP6129134B2 JP2014198740A JP2014198740A JP6129134B2 JP 6129134 B2 JP6129134 B2 JP 6129134B2 JP 2014198740 A JP2014198740 A JP 2014198740A JP 2014198740 A JP2014198740 A JP 2014198740A JP 6129134 B2 JP6129134 B2 JP 6129134B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- voice
- utterance
- signal
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本開示は、音声認識および音声認証に関し、より特定的には、音声認識と音声認証とを同じタイミングで行う技術に関する。 The present disclosure relates to voice recognition and voice authentication, and more specifically, to a technique for performing voice recognition and voice authentication at the same timing.
音声認識技術を用いた装置が知られている。たとえば、特開2011−000681号公報(特許文献1)は、「コミュニケーション対象との親密度に応じて多様なコミュニケーション行動を実行することができるコミュニケーションロボット」を開示している([要約]参照)。 Devices using voice recognition technology are known. For example, Japanese Patent Laying-Open No. 2011-000681 (Patent Document 1) discloses a “communication robot that can execute various communication behaviors according to intimacy with a communication target” (see [Summary]). .
特許文献1に開示された技術によると、コミュニケーションロボットのユーザ認証は、ユーザが持つ無線タグを用いて行なわれる。そのため、同一の無線タグが別人によって用いられた場合、ユーザ認証が正しく行われず、コミュニケーションロボットが不適切に作動する場合もあり得る。したがって、コミュニケーションが適切に行われる技術が必要とされている。 According to the technology disclosed in Patent Document 1, user authentication of a communication robot is performed using a wireless tag possessed by the user. Therefore, when the same wireless tag is used by another person, user authentication may not be performed correctly, and the communication robot may operate inappropriately. Therefore, there is a need for a technology that allows appropriate communication.
本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、ユーザ認証が正確に行われてコミュニケーションが実現される音声対話装置を提供することである。 The present disclosure has been made in order to solve the above-described problems, and an object in one aspect is to provide a voice interactive apparatus in which user authentication is accurately performed and communication is realized. .
他の局面における目的は、ユーザ認証を正確に行ないユーザに応じたコミュニケーションを実現するための音声対話システムを提供することである。 An object in another aspect is to provide a voice interaction system for accurately performing user authentication and realizing communication according to a user.
他の局面における目的は、ユーザ認証を正確に行ないユーザに応じたコミュニケーションを実現するための端末を提供することである。 An object in another aspect is to provide a terminal for accurately performing user authentication and realizing communication according to a user.
他の局面における目的は、ユーザ認証を正確に行ないユーザに応じたコミュニケーションを実現するための音声対話方法を提供することである。 An object in another aspect is to provide a voice interaction method for accurately performing user authentication and realizing communication according to a user.
さらに他の局面における目的は、ユーザ認証が正確に行われてコミュニケーションが実現される音声対話装置としてコンピュータを機能させるためのプログラムを提供することである。 Still another object of the present invention is to provide a program for causing a computer to function as a voice interactive apparatus in which user authentication is accurately performed and communication is realized.
一実施の形態に従う音声対話装置は、発話を認識するように構成された音声認識部と、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、当該話題を音声で出力するように構成された音声出力部とを備える。 A speech dialogue apparatus according to an embodiment is configured to identify a speaker based on a speech recognition unit configured to recognize an utterance, a recognized utterance, and user information registered in advance. A speech estimation unit, a recognized speech, and a topic estimation unit configured to generate a topic that the speaker is interested in based on the identified speaker, and outputs the topic in speech And an audio output unit configured as described above.
他の実施の形態に従う音声対話装置は、発話に基づく音声信号の入力を受け付けるように構成された音声信号入力部と、入力された音声信号に基づいて発話を認識するように構成された音声認識部と、入力された音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、当該話題を音声で出力するための話題信号を出力するように構成された出力部とを備える。 A voice interaction device according to another embodiment includes a voice signal input unit configured to accept an input of a voice signal based on an utterance, and a voice recognition configured to recognize the utterance based on the input voice signal Based on the voice authentication unit configured to identify the speaker, the recognized utterance, and the identified speaker based on the input unit, the input voice signal and the user information registered in advance Thus, a topic estimation unit configured to generate a topic in which the speaker is interested and an output unit configured to output a topic signal for outputting the topic by voice.
他の実施の形態に従うと、音声対話システムが提供される。この音声対話システムは、端末と、端末と通信可能なサーバとを備える。端末は、発話を受け付けて当該発話を認識するように構成された音声認識部と、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するように構成された送信部とを備える。サーバは、音声信号と識別信号とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、当該話題を音声で出力するための話題信号を端末に送信するように構成された話題送信部とを備える。端末は、さらに、サーバから受信する話題信号に基づいて、話題を音声で出力するように構成された出力部を備える。 According to another embodiment, a voice interaction system is provided. This voice interaction system includes a terminal and a server capable of communicating with the terminal. The terminal is configured to identify a speaker based on a speech recognition unit configured to accept an utterance and recognize the utterance, and the recognized utterance and user information registered in advance. An authentication unit; and a transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to the server. The server transmits a topic estimation unit configured to generate a topic in which the speaker is interested based on the voice signal and the identification signal, and a topic signal for outputting the topic as a voice to the terminal. A topic transmission unit configured as described above. The terminal further includes an output unit configured to output the topic by voice based on the topic signal received from the server.
他の実施の形態に従うと、上記の音声対話システムに用いられる端末が提供される。この端末は、発話を認識するように構成された音声認識部と、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するように構成された送信部と、当該発話者が興味を持つ話題を音声で出力するための話題信号をサーバから受信して、話題を音声で出力するように構成された出力部とを備える。 According to another embodiment, a terminal used for the above-described voice interaction system is provided. The terminal includes a voice recognition unit configured to recognize an utterance, a voice authentication unit configured to identify a speaker based on the recognized utterance and pre-registered user information, A transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to the server, and a topic signal for outputting a topic that the speaker is interested in by voice from the server And an output unit configured to receive and output the topic by voice.
好ましくは、音声対話装置は、音声対話装置の各ユーザとの対話の履歴を格納するように構成された記憶部をさらに備える。話題推定部は、当該ユーザとの対話の履歴に基づいて、話題を生成するように構成されている。 Preferably, the voice interaction device further includes a storage unit configured to store a history of interaction with each user of the voice interaction device. The topic estimation unit is configured to generate a topic based on a history of dialogues with the user.
好ましくは、音声対話装置は、音声対話装置のユーザとの対話の履歴に基づいて、当該ユーザと音声対話装置との親密度を算出するように構成された親密度算出部をさらに備える。話題推定部は、親密度に応じて、話題の語調を調整するように構成されている。 Preferably, the voice interaction device further includes a closeness calculation unit configured to calculate a closeness between the user and the voice interaction device based on a history of interaction with the user of the voice interaction device. The topic estimation unit is configured to adjust the tone of the topic according to the familiarity.
他の実施の形態に従うと、音声対話方法が提供される。この方法は、発話を認識するステップと、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、当該話題を音声で出力するステップとを含む。 According to another embodiment, a voice interaction method is provided. This method is based on a step of recognizing an utterance, a step of identifying a speaker based on the recognized utterance and pre-registered user information, a recognized utterance, and an identified speaker. And generating a topic that the speaker is interested in, and outputting the topic as a voice.
他の実施の形態に従う音声対話方法は、発話に基づく音声信号の入力を受け付けるステップと、入力された音声信号に基づいて発話を認識するステップと、入力された音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、当該話題を音声で出力するための話題信号を出力するステップとを含む。 A voice interaction method according to another embodiment includes a step of receiving an input of an audio signal based on an utterance, a step of recognizing an utterance based on the input audio signal, and a user who is registered in advance with the input audio signal A step of identifying a speaker based on the information; a step of generating a topic of interest to the speaker based on the recognized utterance and the identified speaker; and outputting the topic in speech Outputting a topic signal for the purpose.
他の実施の形態に従う音声対話方法は、発話を認識するステップと、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、音声信号と識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号をサーバから受信するステップと、話題信号に基づいて当該話題を音声で出力するステップとを含む。 A speech interaction method according to another embodiment includes a step of recognizing an utterance, a step of identifying a speaker based on the recognized utterance and pre-registered user information, an audio signal based on the utterance, A step of transmitting an identification signal of the identified speaker to the server, and a topic signal for outputting a topic of interest of the speaker, which is estimated based on the voice signal and the identification signal. And a step of outputting the topic by voice based on the topic signal.
他の実施の形態に従うと、コンピュータを音声対話装置として機能させるためのプログラムが提供される。このプログラムは、一つ以上のプロセッサに、発話を認識するステップと、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を音声で出力するための話題信号を生成するステップと、話題信号に基づいて当該話題を音声で出力するステップとを実行させる。 According to another embodiment, a program for causing a computer to function as a voice interaction device is provided. The program includes, in one or more processors, a step of recognizing an utterance, a step of identifying a speaker based on the recognized utterance and pre-registered user information, a recognized utterance, A step of generating a topic signal for outputting a topic in which the speaker is interested in a voice based on the speaker, and a step of outputting the topic in a voice based on the topic signal are executed.
他の実施の形態に従う、コンピュータを音声対話装置として機能させるためのプログラムは、一つ以上のプロセッサに、発話に基づく音声信号の入力を受け付けるステップと、入力された音声信号に基づいて発話を認識するステップと、入力された音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、当該話題を音声で出力するための話題信号を出力するステップとを実行させる。 According to another embodiment, a program for causing a computer to function as a voice interaction apparatus includes a step of accepting an input of an audio signal based on an utterance to one or more processors, and an utterance is recognized based on the input audio signal. And the step of identifying a speaker based on the input voice signal and pre-registered user information, the recognized utterance, and the identified speaker. A step of generating a topic having interest and a step of outputting a topic signal for outputting the topic as a voice are executed.
他の実施の形態に従う、コンピュータを音声対話装置として機能させるためのプログラムは、一つ以上のプロセッサに、発話を認識するステップと、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、音声信号と識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号をサーバから受信するステップと、話題信号に基づいて当該話題を音声で出力するステップとを実行させる。 A program for causing a computer to function as a voice interaction device according to another embodiment is based on the step of recognizing an utterance by one or more processors, the recognized utterance, and user information registered in advance. A step of identifying a speaker, a step of transmitting an audio signal based on the utterance and an identification signal of the identified speaker to the server, and the speaker estimated based on the audio signal and the identification signal A step of receiving a topic signal for outputting a topic of interest by voice from the server and a step of outputting the topic by voice based on the topic signal are executed.
他の局面に従う音声対話システムは、端末と、サーバとを備える。端末は、発話を認識するように構成された音声認識部と、認識された発話を発話信号に変換するように構成された音声信号変換部と、発話信号をサーバに送信するように構成された送信部とを含む。サーバは、端末から受信した発話信号に基づいて発話を認識するように構成された音声認識部と、発話信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、当該話題を音声で出力するための話題信号を端末に送信するように構成された送信部とを含む。端末は、さらに、サーバから話題信号を受信するように構成された受信部と、話題信号に基づいて当該話題を音声で出力するように構成された出力部とを含む。 A voice interaction system according to another aspect includes a terminal and a server. The terminal is configured to transmit a speech signal to the server, a speech recognition unit configured to recognize the speech, a speech signal conversion unit configured to convert the recognized speech into a speech signal, and Including a transmitter. The server is configured to identify the speaker based on the speech recognition unit configured to recognize the speech based on the speech signal received from the terminal, and the speech signal and the user information registered in advance. A speech estimation unit, a recognized speech, and a topic estimation unit configured to generate a topic that the speaker is interested in based on the identified speaker, and outputs the topic in speech And a transmitter configured to transmit a topic signal for transmission to the terminal. The terminal further includes a receiving unit configured to receive a topic signal from the server, and an output unit configured to output the topic as a voice based on the topic signal.
他の実施の形態に従うと、上記のシステムに用いる端末が提供される。この端末は、発話を認識するように構成された音声認識部と、認識された発話を発話信号に変換するように構成された音声信号変換部と、発話信号をサーバに送信するように構成された送信部と、発話信号に基づいて生成された話題信号をサーバから受信するように構成された受信部と、話題信号に基づいて、発話に対応する話題を音声で出力するように構成された出力部とを備える。 According to another embodiment, a terminal for use in the above system is provided. The terminal is configured to transmit a speech signal to a server, a speech recognition unit configured to recognize a speech, a speech signal conversion unit configured to convert the recognized speech into a speech signal, and A transmission unit, a reception unit configured to receive a topic signal generated based on the utterance signal from the server, and a topic corresponding to the utterance based on the topic signal. And an output unit.
この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。 The above and other objects, features, aspects and advantages of the present invention will become apparent from the following detailed description of the present invention taken in conjunction with the accompanying drawings.
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.
<技術思想>
まず、本開示の概要について説明する。開示される技術思想は、以下の通り、3つの要素から構成される。
<Technology>
First, an outline of the present disclosure will be described. The disclosed technical idea is composed of three elements as follows.
(1)音声認識と音声認証とが並列に行なわれる。したがって、ユーザの発話内容の認識と当該ユーザの認証とが同時に行なわれる。 (1) Voice recognition and voice authentication are performed in parallel. Therefore, recognition of the user's utterance content and authentication of the user are performed simultaneously.
(2)ユーザ毎に、対話内容のログに基づいて各ユーザの興味ある話題が推定され、推定された話題に基づく対話が生成される。 (2) For each user, a topic of interest of each user is estimated based on the log of the conversation content, and a dialog based on the estimated topic is generated.
(3)対話数やその頻度に基いて、ロボット(音声対話装置、あるいは音声対話システム)の発話内容が変化する。 (3) The utterance content of the robot (speech dialogue apparatus or voice dialogue system) changes based on the number of dialogues and their frequency.
これらの要素の結果、ユーザは、ロボット(音声対話システム)に親しみを持つことができる。 As a result of these factors, the user can become familiar with the robot (voice interaction system).
たとえば、要素(1)により、当該技術思想が適用される音声対話システムは、カメラや無線タグ等の機器からの情報を使用することなく、ユーザを特定し(音声認証)、また、当該ユーザの発言内容の取得(音声認識)が可能になる。 For example, the voice interaction system to which the technical idea is applied by the element (1) specifies a user without using information from a device such as a camera or a wireless tag (voice authentication), and the user's Acquisition of speech contents (voice recognition) becomes possible.
次に、要素(2)により、ユーザの日々の会話が音声対話システムに記憶され、必要に応じて分析される。音声対話システムは、分析結果に基づいて、各ユーザが興味ある話題(スポーツ、芸能ニュースなど)を他の情報提供装置から取得し、対話しているユーザに応じた話題を当該ユーザに提供することができる。 Then, by element (2), the user's daily conversation is stored in the spoken dialogue system and analyzed as needed. Based on the analysis result, the voice dialogue system acquires a topic (sports, entertainment news, etc.) that each user is interested in from another information providing device, and provides the user with a topic according to the user who is interacting. Can do.
さらに、要素(3)により、音声対話システムとユーザとの対話が長期にかつ定期的に行われることにより、対話内容に応じて、音声対話システムからの発話の表現(言葉づかい、語調等)が変化し得る。その結果、ユーザが音声対話システム(あるいは、音声対話システムに含まれるロボットのような音声入出力端末)に対して親近感を持ち得る。 Furthermore, due to element (3), the dialogue between the spoken dialogue system and the user is carried out over a long period and regularly, so that the expression of speech from the spoken dialogue system (wording, tone, etc.) changes according to the dialogue content Can do. As a result, the user can be familiar with the voice interaction system (or a voice input / output terminal such as a robot included in the voice interaction system).
<音声対話システム10の構成>
図1を参照して、本開示の実施の形態に係る音声対話システム10の技術思想について具体的に説明する。図1は、音声対話システム10の構成を概念的に表わす図である。音声対話システム10は、音声認識モジュール110と、音声認証モジュール120と、話題推定モジュール130と、対話生成モジュール140とを備える。
<Configuration of Spoken
With reference to FIG. 1, the technical idea of the spoken
音声対話システム10に対して行なわれたユーザの発話は、音声データに変換される。音声認識モジュール110は、音声データを認識するための処理を実行する。当該処理は特に限られず、様々な周知の音声認識技術が適用可能である。音声認識モジュール110による認識の結果(たとえば認識された話題)は、話題推定モジュール130に入力される。
The user's utterance made to the voice
音声対話システム10に対するユーザの発話は、音声認識モジュール110に入力されると同時に音声認証モジュール120に入力される。音声認証モジュール120は、ユーザの発話の音声を認証し、その発話者(音声対話システム10のユーザ)を特定する。したがって、音声の認識と発話者の特定とが、ほぼ同じタイミングで実行される。特定されたユーザは、話題推定モジュール130に入力される。
The user's speech to the
話題推定モジュール130は、音声認識モジュール110によって認識された話題と、音声認証モジュール120によって特定されたユーザとに基づいて、発話を行なったユーザに適切な話題を推定する。たとえば、ユーザが子供である場合には、ニュースを保持するデータベースから当該子供が興味を持つ話題が抽出され、あるいは、当該子供との間で最近交わされた話題が対話履歴から抽出され得る。別の局面において、ユーザが大人の女性である場合には、女性が興味を持つ話題がデータベースから抽出され、あるいは、当該女性との間で過去に交わされた話題が対話履歴から抽出され得る。話題推定モジュール130による推定の結果は、対話生成モジュール140に入力される。
The
対話生成モジュール140は、話題推定モジュール130による結果(たとえば、子供のユーザが興味を持つスポーツの話題、女性が興味を持つファッションの話題等)に基づいて、ユーザに対する発話の内容を生成する。さらに別の局面において、対話生成モジュール140は、話題推定モジュール130による結果に加えて、当該ユーザと音声対話システム10との親密度をさらに考慮して、ユーザに対する発話の内容を生成する。対話生成モジュール140は、発話の内容を生成すると、音声対話システム10は、当該内容を音声で出力するための信号を生成し、当該信号に基づいて、機器の発話として当該ユーザに返答する。
The
[第1の実施の形態]
<音声対話システム10の構成>
図2を参照して、第1の実施の形態に係る音声対話システム10の構成について説明する。図2は、音声対話システム10の構成の一例を表わすブロック図である。音声対話システム10は、コミュニケーション端末200と、サーバ220とを備える。コミュニケーション端末200は、音声入力部210と、音声出力部211とを含む。
[First Embodiment]
<Configuration of Spoken
With reference to FIG. 2, the configuration of the
サーバ220は、制御部230と、音声認識部240と、対話分析部250と、対話履歴記憶部260と、対話DB(Database)部270と、対話生成部280と、音声合成部290とを含む。音声認識部240は、音声認識モジュール241と、話者特定モジュール242とを含む。
The
コミュニケーション端末200は、ある局面において、たとえば、ぬいぐるみの外観を備える電子機器として実現される。別の局面において、コミュニケーション端末200は、液晶テレビその他の表示装置であって、予め準備された人の画像を表示可能な装置によっても実現される。この場合、人の画像は、3次元の画像として立体的に表示されてもよい。
The
コミュニケーション端末200において、音声入力部210は、コミュニケーション端末200に対する発話の入力を受け付けて、当該発話に応じた信号をサーバ220に送信する。
In the
音声出力部211は、サーバ220から送られる信号に基づいてコミュニケーション端末200の発話として音声を出力する。
The
サーバ220において、制御部230は、サーバ220の動作を制御する。
ある局面において、制御部230は、コミュニケーション端末200から送られる信号を処理し、サーバ220における音声認識のため処理後の信号を音声認識部240に送出する。
In the
In one aspect,
音声認識部240は、制御部230から送られる音声信号を用いて周知の技術による音声認識処理と当該音声を与えたユーザ(話者)を特定する処理とを実行する。より具体的には、音声認識部240において、音声認識モジュール241は、コミュニケーション端末200が受け付けた音声の認識処理を実行する。話者特定モジュール242は、コミュニケーション端末200が受け付けた音声を発話した話者(コミュニケーション端末200のユーザ)を特定する。たとえば、話者特定モジュール242は、サーバ220において予め登録されているユーザの音声情報(たとえば、既に保存されているユーザ識別情報と声紋データ)と、コミュニケーション端末200によって送られた音声信号(抽出された声紋データ)とを比較して、当該発話者を特定する。
The
対話分析部250は、音声認識部240による認識の結果に基づいて、コミュニケーション端末200に対するユーザの発話を分析する。より具体的には、対話分析部250は、音声認識の結果(発話内容)から形態素を切り出し、固有表現の抽出処理を実行する。
The
対話履歴記憶部260は、対話分析部250による分析の結果を保持する。より具体的には、対話履歴記憶部260は、ユーザと音声対話システム10との過去の会話、および、それらの会話の結果に基づく形態素、固有表現の出現履歴などを保持する。
The dialogue
対話DB部270は、予め用意された対話文を生成するための対話の入力フレーズと返答フレーズとの対を保持している。対話を生成する際の条件が対話DB部270に与えられると、複数の返答フレーズから当該条件によって特定される状況に応じたフレーズが検索される。
The
対話生成部280は、対話履歴記憶部260に保持されているデータと対話DB部270によって保持されているデータベースとを用いて対話を生成する。より具体的には、対話生成部280は、対話DB部270に与えられるユーザの発話内容によって検索される返答フレーズと対話履歴記憶部260において保持されている対話履歴とを用いて音声対話システム10に対して発話を行なっているユーザとの対話文を生成する。対話文は、たとえば文字列情報として生成される。
The
音声合成部290は、対話生成部280によって生成された対話文を用いて音声合成を行ない、音声対話システム10の発話のためのデータを生成する。
The
制御部230は、音声合成部290によって音声合成されたデータを受け取ると、そのデータをコミュニケーション端末200に送信する。
When
コミュニケーション端末200において、音声出力部211はその対話文を音声として出力する。
In the
一例として、ある局面において、子供のユーザ201が「ただいま」と発話すると、コミュニケーション端末200は、その発話の内容の入力を受け付けて、サーバ220に音声信号を送信する。サーバ220は、ユーザ201の発話内容について音声認識処理を実行し、発話された内容が「ただいま」であることを音声認識し、また、その発話者がユーザ201(子供)であることを特定する。サーバ220は、そのような音声認識の結果に基づいて「ただいま」に対する対話として「お帰り。学校どうだった?」と発話するための音声合成処理を実行し、処理後の結果をコミュニケーション端末200に送信する。その結果、コミュニケーション端末200は、ユーザ201に対し「お帰り。学校どうだった?」と発話する。
As an example, in a certain situation, when the
別の局面において、大人の女性のユーザ202が同じ言葉「ただいま」と発話すると、コミュニケーション端末200は、その発話の音声入力を受け付けて、音声信号をサーバ220に送信する。サーバ220は、当該発話の内容を音声認識するとともに話者を特定する。より具体的には、サーバ220は、「ただいま」との発話内容を認識し、同時に、当該発話の内容がユーザ202(大人の女性)によるものであることを特定する。サーバ220は、そのような音声認識の結果に基づいて「ただいま」に対する対話文を生成する。より具体的には、サーバ220は、ユーザ202による発話の内容に応答するための対話として「お帰り。お仕事お疲れ様」との発話内容を生成する。サーバ220は、その対話文を音声合成すると、合成後の信号をコミュニケーション端末200に送信する。コミュニケーション端末200は、ユーザ202に対し「お帰り。お仕事お疲れ様」と音声で出力する。
In another aspect, when the adult
<コミュニケーション端末200の構成>
図3を参照して、本実施の形態に係るコミュニケーション端末200の構成について説明する。図3は、コミュニケーション端末200のハードウェア構成を表わすブロック図である。
<Configuration of
With reference to FIG. 3, the configuration of
コミュニケーション端末200は、CPU(Central Processing Unit)20と、アンテナ23と、通信装置24と、操作ボタン25と、カメラ26と、フラッシュメモリ27と、RAM(Random Access Memory)28と、ROM(Read Only Memory)29と、メモリカード駆動装置30と、マイク32と、スピーカ33と、音声信号処理回路34と、モニタ35と、LED(Light Emitting Diode)36と、データ通信インターフェイス37と、バイブレータ38と、加速度センサ39と、アクチュエータ40とを備える。メモリカード駆動装置30には、メモリカード31が装着され得る。
The
アンテナ23は、サーバ220によって発信される信号を受信し、または、サーバ220を介して他の通信装置と通信するための信号を送信する。アンテナ23によって受信された信号は、通信装置24によってフロントエンド処理が行なわれた後、処理後の信号は、CPU20に送られる。
The
操作ボタン25は、コミュニケーション端末200に対する操作を受け付ける。操作ボタン25は、たとえば、ハードキーまたはソフトキーとして実現される。操作ボタン25は、ユーザによる操作を受け付けると、その時のコミュニケーション端末200の動作モードに応じた信号をCPU20に送出する。
The
CPU20は、コミュニケーション端末200に対して与えられる命令に基づいてコミュニケーション端末200の動作を制御するための処理を実行する。コミュニケーション端末200が信号を受信すると、CPU20は、通信装置24から送られた信号に基づいて予め規定された処理を実行し、処理後の信号を音声信号処理回路34に送出する。音声信号処理回路34は、その信号に対して予め規定された信号処理を実行し、処理後の信号をスピーカ33に送出する。スピーカ33は、その信号に基づいて音声を出力する。
The
マイク32は、コミュニケーション端末200に対する発話を受け付けて、発話された音声に対応する信号を音声信号処理回路34に対して送出する。音声信号処理回路34は、予め規定された処理を当該信号に対して実行し、処理後の信号をCPU20に対して送出する。CPU20は、その信号を送信用のデータに変換し、変換後のデータを通信装置24に対して送出する。通信装置24は、そのデータを用いて送信用の信号を生成し、アンテナ23に向けてその信号を送出する。アンテナ23から発信される信号は、サーバ220に受信される。なお、他の局面において、アンテナ23の代わりに、有線によってサーバ220とコミュニケーション端末200とが接続されていてもよい。
The
フラッシュメモリ27は、CPU20から送られるデータを格納する。また、CPU20は、フラッシュメモリ27に格納されているデータを読み出し、そのデータを用いて予め規定された処理を実行する。
The
RAM28は、操作ボタン25に対して行なわれた操作に基づいてCPU20によって生成されるデータを一時的に保持する。ROM29は、コミュニケーション端末200に予め定められた動作を実行させるためのプログラムあるいはデータを格納している。CPU20は、ROM29から当該プログラムまたはデータを読み出し、コミュニケーション端末200の動作を制御する。
The
メモリカード駆動装置30は、メモリカード31に格納されているデータを読み出し、CPU20に送出する。メモリカード駆動装置30は、CPU20によって出力されるデータを、メモリカード31の空き領域に書き込む。
The memory
音声信号処理回路34は、上述のような通話のための信号処理を実行する。なお、図3に示される例では、CPU20と音声信号処理回路34とが別個の構成として示されているが、他の局面において、CPU20と音声信号処理回路34とが一体として構成されていてもよい。
The audio
モニタ35は、CPU20から取得されるデータに基づいて画像を表示する。モニタ35は、たとえば、フラッシュメモリ27に格納されている静止画像(たとえば、会議資料、契約書その他の電子文書)、動画像、音楽ファイルの属性(当該ファイルの名前、演奏者、演奏時間など)を表示する。静止画像は、描画された画像、デフォルトでコミュニケーション端末200の製造事業者によって予め準備された画像を含み得る。
The
LED36は、CPU20からの信号に基づいて、予め定められた発光動作を実現する。データ通信インターフェイス37は、データ通信用のケーブルの装着を受け付ける。
The
データ通信インターフェイス37は、CPU20から出力される信号を当該ケーブルに対して送出する。あるいは、データ通信インターフェイス37は、当該ケーブルを介して受信されるデータを、CPU20に対して送出する。
The
バイブレータ38は、CPU20から出力される信号に基づいて、予め定められた周波数で発振動作を実行する。
加速度センサ39は、コミュニケーション端末200に作用する加速度の方向を検出する。検出結果は、CPU20に入力される。
The
アクチュエータ40は、CPU20からの信号に基づいて、コミュニケーション端末20の一部の部材(図示しない)を駆動する。たとえば、コミュニケーション端末20が、ぬいぐるみの外観を有する電子機器として実現される場合、アクチュエータ40は、当該ぬいぐるみの手、足、首その他の部分を駆動し得る。これにより、コミュニケーション端末40は、ユーザの発話に応じた動作(うなずき、首振り等)を行ない得る。
The
なお、本実施の形態に係るコミュニケーション端末200は上述の構成要素を全て備える必要はなく、少なくとも、音声入出力機能と通信機能とを有する情報処理端末であればよい。
Note that the
<サーバの構成>
図4を参照して、本実施の形態に係るサーバ220の構成について説明する。図4は、実施の形態に係るサーバ220を実現するコンピュータ400のハードウェア構成を表わすブロック図である。
<Server configuration>
With reference to FIG. 4, a configuration of
コンピュータ400は、主たる構成要素として、プログラムを実行するCPU1と、コンピュータ400のユーザによる指示の入力を受けるマウス2およびキーボード3と、CPU1によるプログラムの実行により生成されたデータ、又はマウス2若しくはキーボード3を介して入力されたデータを揮発的に格納するRAM4と、データを不揮発的に格納するハードディスク5と、光ディスク駆動装置6と、通信IF(Interface)7と、モニタ8とを備える。各構成要素は、相互にバスによって接続されている。光ディスク駆動装置6には、CD−ROM9その他の光ディスクが装着され得る。通信IF7は、USB(Universal Serial Bus)インターフェイス、有線LAN(Local Area Network)、無線LAN、Bluetooth(登録商標)インターフェイス等を含むが、これらに限られない。
The computer 400 includes, as main components, a CPU 1 that executes a program, a
コンピュータ400における処理は、各ハードウェアおよびCPU1により実行されるソフトウェアによって実現される。このようなソフトウェアは、ハードディスク5に予め格納されている場合がある。また、ソフトウェアは、CD−ROM9その他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置6その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信IF7を介してダウンロードされた後、ハードディスク5に一旦格納される。そのソフトウェアは、CPU1によってハードディスク5から読み出され、RAM4に実行可能なプログラムの形式で格納される。CPU1は、そのプログラムを実行する。
Processing in the computer 400 is realized by each hardware and software executed by the CPU 1. Such software may be stored in the
図4に示されるコンピュータ400を構成する各構成要素は、一般的なものである。したがって、本実施の形態に係る本質的な部分は、コンピュータ400に格納されたプログラムであるともいえる。コンピュータ400のハードウェアの動作は周知であるので、詳細な説明は繰り返さない。 Each component constituting the computer 400 shown in FIG. 4 is general. Therefore, it can be said that an essential part according to the present embodiment is a program stored in the computer 400. Since the operation of the hardware of computer 400 is well known, detailed description will not be repeated.
なお、データ記録媒体としては、CD−ROM、FD(Flexible Disk)、ハードディスクに限られず、磁気テープ、カセットテープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、IC(Integrated Circuit)カード(メモリカードを含む)、光カード、マスクROM、EPROM(Electronically Programmable Read-Only Memory)、EEPROM(Electronically Erasable Programmable Read-Only Memory)、フラッシュROMなどの半導体メモリ等の固定的にプログラムを担持する不揮発性のデータ記録媒体でもよい。 The data recording medium is not limited to a CD-ROM, FD (Flexible Disk), and hard disk, but is a magnetic tape, cassette tape, optical disk (MO (Magnetic Optical Disc) / MD (Mini Disc) / DVD (Digital Versatile Disc)). ), IC (Integrated Circuit) card (including memory card), optical card, mask ROM, EPROM (Electronically Programmable Read-Only Memory), EEPROM (Electronically Erasable Programmable Read-Only Memory), flash ROM, etc. It may be a non-volatile data recording medium that carries a fixed program.
ここでいうプログラムとは、CPUにより直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含み得る。 The program here may include not only a program directly executable by the CPU but also a program in a source program format, a compressed program, an encrypted program, and the like.
<無線タグを用いた音声対話システム>
図5を参照して、別の局面に従う音声対話システムについて説明する。図5は、無線タグを用いた発話に対する音声対話システムの構成の概要を表わす図である。
<Voice interaction system using wireless tags>
With reference to FIG. 5, a voice interaction system according to another aspect will be described. FIG. 5 is a diagram showing an outline of the configuration of a voice interaction system for utterance using a wireless tag.
音声対話システム50は、コミュニケーション端末500と、サーバ520とを備える。コミュニケーション端末500は、音声入力部210と、音声出力部211と、無線タグ情報送信部510とを含む。サーバ520は、制御部530と、音声認識部540と、ユーザ識別子部541と、対話分析部550と、対話履歴記憶部560と、対話DB部570と、対話生成部580と、音声合成部590とを含む。
The
ある局面において、ユーザ201は、携帯電話501を有している。携帯電話501は、その識別情報としてたとえば無線タグAを有している。ある局面において、ユーザ201が「ただいま」と発話すると、携帯電話501の識別情報(無線タグA)とともにコミュニケーション端末500に入力される。コミュニケーション端末500は、ユーザの発話の内容を認識する。コミュニケーション端末500において、無線タグ情報送信部510は、ユーザ201からの発話に伴う無線タグAを抽出し、その抽出した内容をサーバ520に送信する。サーバ520は、ユーザ201の発話内容「ただいま」と無線タグAとを認識し、ユーザ201に応じた対話が対話生成部580によって生成される。
In one aspect, the
サーバ520は、ユーザ201に対する対話文を生成するとその信号をコミュニケーション端末500に送信する。コミュニケーション端末500は、ユーザ201に対して「お帰り。学校どうだった?」と発話する。
When the
別の局面において、大人のユーザ202が、同一の携帯電話501を使用している場合において「ただいま」と発話すると、コミュニケーション端末500は、発話の内容「ただいま」を受け付けるとともに、携帯電話501と通信することにより携帯電話501に関連付けられている無線タグAを取得する。コミュニケーション端末500は、発話の内容「ただいま」と無線タグAとをサーバ520に送信する。すなわち、コミュニケーション端末500は、発話の主体がユーザ201およびユーザ202のいずれであっても、携帯電話501に関連付けられている無線タグAを送信する。サーバ520は、発話の内容「ただいま」と無線タグAとを受信すると、発話者が大人のユーザ202であるにも係わらず、子供のユーザ201による発話が行なわれたと無線タグAを用いて判断する。サーバ520は、ユーザ201に対する対話文と同じ対話文を音声合成する。サーバ520は、「お帰り。学校どうだった?」との対話文をコミュニケーション端末500に送信する。コミュニケーション端末500は、ユーザ202に対して「お帰り。学校どうだった?」と発話することになる。このように、ユーザが所有し得る無線通信端末(たとえば携帯電話501)のように無線タグを用いてユーザを認識する場合、発話者は簡単に他人になりすますことができる。サーバ520は、どのユーザが発話したかを特定することができなくなるため、ユーザに応じた対話文ではなく、携帯電話501に固有な対話文を生成することになる。
In another aspect, when an
<制御構造>
図6を参照して、本実施の形態に係る音声対話システム10の制御構造について説明する。図6は、ユーザを音声対話システム10に登録する場合に実行される処理を表わすシーケンスチャートである。
<Control structure>
With reference to FIG. 6, the control structure of the spoken
ステップS610にて、音声対話システム10への登録を求めるユーザは、コミュニケーション端末200に対して音声認証学習のリクエストを送信する。コミュニケーション端末200は、そのリクエストを受信すると、サーバ220との通信を確立し、当該リクエストをサーバ220に送信する。サーバ220の制御部230は、そのリクエストを受信する。
In step S <b> 610, the user who requests registration in the
ステップS620にて、サーバ220の制御部230は、音声認証学習のリクエストの受信に応答して、音声認証学習用のメッセージをユーザに通知する。より具体的には、制御部230は、コミュニケーション端末200に対して当該メッセージを送信する。コミュニケーション端末200は、サーバ220から当該メッセージを受信すると、音声出力部211がメッセージを音声で出力する。ユーザは、音声認証のために発話しないといけないメッセージを知ることができる。その後、制御はステップS625に移される。
In step S620, the
ステップS625にて、制御部230は、コミュニケーション端末200に対して音声取得を指示する命令を送信する。
In step S625,
ステップS630にて、コミュニケーション端末200は、サーバ220から当該命令を受信すると、発話を促すメッセージをユーザに対して出力する。より具体的には、たとえばコミュニケーション端末200は、発話を促すメッセージ「このメッセージが終わった後に発話をして下さい」を音声で出力する。他の局面において、コミュニケーション端末200は、メッセージをモニタに表示してもよい。さらに他の局面において、コミュニケーション端末200が音声入出力機能と通信機能と駆動機能とを備えるぬいぐるみとして実現される場合、コミュニケーション端末200は、手を耳に当てる仕草のように、発話を促す動作を行なってもよい。
In step S630, upon receiving the command from
ステップS640にて、ユーザは、当該発話を促すメッセージを認識すると、音声認証学習用のメッセージをコミュニケーション端末200に向けて発話する。
In step S640, when the user recognizes the message prompting the utterance, the user utters the voice authentication learning message toward the
ステップS650にて、コミュニケーション端末200の音声入力部210は、ユーザによるメッセージの発話の入力を受け付けて、その発話に応じた音声データをサーバ220に送信する。
In step S650,
ステップS660にて、サーバ220の制御部230は、その音声データの受信を検知すると、音声認識部240に対して当該メッセージの学習リクエストを送信する。音声認識部240は、当該学習リクエストの受信に応答して、音声認識処理と話者特定処理とを実行する。より具体的には、音声認識部240は、音声認識モジュール241としてユーザによって行なわれた発話の内容を音声認識処理する。また、音声認識部240は、話者特定モジュール242として、発話の内容から形態素を抽出し、当該発話を行なった話者を特定するための情報を取得する。
In step S660, when the
ステップS670にて、音声認識部240は、学習が完了したことを示す学習完了レスポンスを制御部230に送信する。
In step S670, the
ステップS680にて、制御部230は、学習完了レスポンスを受信すると、当該ユーザの学習が完了したことをコミュニケーション端末200に通知する。
In step S680, when receiving the learning completion response,
ステップS690にて、コミュニケーション端末200は、学習完了を通知するメッセージをユーザに対して発話する。このようにしてユーザ識別のための登録処理が実行される。なお、ステップS610におけるリクエストは、別の局面においては、ユーザが直接サーバに対して行なうものであってもよい。また音声対話システム10にユーザを登録するために用いられる端末はコミュニケーション端末200に限られない。少なくとも音声認識機能とサーバ220との通信機能とを備える情報処理通信端末であればよい。
In step S690,
上記のような処理は、コミュニケーション端末200およびサーバ220にユーザを登録するための処理プログラムが予め実行されている場合に実現される。また、ユーザを登録するための処理を開始するトリガは、ユーザによる特定の発話(ユーザ登録希望など)、あるいは、コミュニケーション端末200またはサーバ220の入力スイッチその他入力操作等であってもよい。
The above processing is realized when a processing program for registering a user in the
図7を参照して、本実施の形態に係るユーザ識別に基づく発話シーケンスについて説明する。図7は、発話したユーザに応じた返答が生成される処理を表わすシーケンスチャートである。 With reference to FIG. 7, an utterance sequence based on user identification according to the present embodiment will be described. FIG. 7 is a sequence chart showing a process of generating a response according to the user who spoke.
ステップS710にて、ユーザがコミュニケーション端末200に対して発話する。
ステップS720にて、コミュニケーション端末200は、ユーザの発話の入力を受け付けると、当該発話に応じた音声データをサーバ220に送信する。
In step S710, the user speaks to
In step S <b> 720, when receiving an input of the user's utterance,
ステップS730にて、サーバ220の制御部230は、コミュニケーション端末200からの音声データの受信を検知すると、当該音声データを認識するリクエストを音声認識部240に送信する。
In step S730, when the
ステップS740にて、音声認識部240は、当該認識のリクエストに応答して、発話の内容を認識するための音声認識処理と、発話者を特定するための話者特定処理と、を実行する。さらに、音声認識部240は、音声認識の結果および話者特定の結果を認識レスポンスとして制御部230に送信する。
In step S740, in response to the recognition request, the
ステップS750にて、制御部230は、認識レスポンスの受信に応答して、分析生成リクエストを対話分析部250および対話生成部280にそれぞれ送信する。対話分析部250は、そのリクエストを受信すると、対話履歴記憶部260を参照して当該ユーザの過去の対話の履歴を抽出する。対話生成部280は、生成リクエストの受信に応答して対話履歴記憶部260に保持されている対話履歴と対話DB部270に保持されている対話のデータベースとを用いて、当該発話を行なったユーザに固有の対話文を生成する。
In step S750, in response to receiving the recognition response,
ステップS760にて、対話分析部250および対話生成部280は、発話の分析の結果と生成した対話とを制御部230に送信する。制御部230は、分析の結果と生成された対話との受信に基づいて音声合成部290に当該対話文の音声合成を実行させる。音声合成部290が発話に対する返答を音声合成処理により生成する。ステップS770にて、制御部230は、音声合成部290によって生成された返答フレーズをコミュニケーション端末200に送信する。
In step S760,
ステップS780にて、コミュニケーション端末200は、返答フレーズをサーバ220から受信すると、当該返答フレーズをユーザに発話する。これにより、音声対話システム10に対する発話を行なったユーザに固有な対話が実現され得る。
In step S780, when receiving a response phrase from
<興味推定>
図8を参照して、本実施の形態に係る音声対話システム10の一例としてユーザ識別に基づくユーザに合わせた返答を行なう場合(興味推定)の概要について説明する。図8は、ある局面における興味推定の一例を表わす図である。ある局面に従う音声対話システム80は、コミュニケーション端末500とサーバ820とを備える。コミュニケーション端末500は、音声入力部210と音声出力部211と無線タグ情報送信部510とを含む。サーバ820は、制御部530と、音声認識部540と、対話分析部850と、対話生成部880と、対話DB部570と、音声合成部590とを含む。
<Interest estimation>
With reference to FIG. 8, an outline of a case where a reply tailored to a user based on user identification (interest estimation) is described as an example of the
図8に示される例は、音声対話システム80が発話を行なったユーザを特定できず、当該ユーザの興味を知ることができない場合である。この場合、ユーザ201がコミュニケーション端末500に対して「ニュースを教えて」と発話すると、コミュニケーション端末500はサーバ820と通信し、「ニュースを教えて」に対する適切な応答としてたとえば最新のニュース「今日、日本代表がギリシャと引分けたよ」を特定する。サーバ820がその対話の結果をコミュニケーション端末500に送信すると、コミュニケーション端末500は、ユーザ201に対して「今日、日本代表がギリシャと引分けたよ」と発話する。
The example shown in FIG. 8 is a case where the
このような音声対話システム80に対して別のユーザ(たとえば大人の女性のユーザ202)が同じ問いかけ「ニュースを教えて」を発すると、コミュニケーション端末500はサーバ820と通信する。このとき、最新のニュースが更新されていない場合には、サーバ820は、「ニュースを教えて」に対する対話としてユーザ201に対して出力された結果「今日、日本代表がギリシャと引分けたよ」との発話を特定する。その結果、コミュニケーション端末500は、大人の女性のユーザ202に対しても「今日、日本代表がギリシャと引分けたよ」と発話することになる。すなわち、ユーザの種類や興味に係わらず、同様の発話(同じキーワードを有する発話)に対しては音声対話システム80は同じ返答を行なうことになる。
When another user (for example, an adult female user 202) issues the same question “tell news” to such a
<音声対話システム90の構成>
図9を参照して、本実施の形態に従う音声対話システム90について説明する。図9は、音声対話システム90の構成の一例を表わすブロック図である。音声対話システム90は、ユーザ識別に基づきユーザに合わせた返答をすることができる。音声対話システム90は、コミュニケーション端末200と、サーバ920とを備える。コミュニケーション端末200は、音声入力部210と、音声出力部211とを含む。サーバ920は、サーバ220の構成に対して、対話生成部280の代わりに対話生成部980を備える。対話生成部980は、興味推定モジュール990を含む。
<Configuration of Spoken
With reference to FIG. 9, a spoken
ある局面において、ユーザ201がコミュニケーション端末200に対して「ニュースを教えて」と発話すると、コミュニケーション端末200はサーバ920と通信し、ユーザ201の興味と発話内容(ニュースを教えて)とに応じた対話を生成する。より具体的には、対話生成部980において、興味推定モジュール990は、ユーザ201に固有の興味と、発話の内容(ニュースを教えて)とに基づいて、ユーザ201の興味を推定する。たとえば、興味推定モジュール990は、ユーザ201の興味としてスポーツが含まれることを対話履歴記憶部260から検知する。興味推定モジュール990は、そのような検知結果に基づいて、ユーザ201に応じた対話を生成する。たとえば、興味推定モジュール990は、対話DB部270に保持されているデータ(スポーツに特化したニュース)を参照して、「今日、日本代表がギリシャと引分けたよ」との対話を生成する。サーバ920がそのような興味推定の結果に基づいてユーザ201の興味に固有な対話を生成し、当該対話の音声合成を行なうと、コミュニケーション端末200はユーザ201に対して「今日、日本代表がギリシャと引分けたよ」と発話する。
In a certain situation, when the
別の局面において、大人の女性のユーザ202が「ニュースを教えて」と発話すると、コミュニケーション端末200はサーバ920に発話の内容を送信する。サーバ920において、興味推定モジュール990は、発話者に応じた対話を生成する。より具体的には、まず、興味推定モジュール990は、「ニュースを教えて」との発話を行なったユーザ202が大人の女性であることを特定し、当該ユーザ202の興味(たとえば芸能関係)を特定する。興味推定モジュール990は、対話DB部270にアクセスして、芸能関係の最新のニュースを特定する。対話生成部980は、ユーザ202に応じた対話として芸能関係のニュースを特定すると、「ニュースを教えて」に対する対話「大島優子卒業わずか9日でサプライズ復帰だって」と生成する。サーバ920が、生成した対話をコミュニケーション端末200に送信すると、コミュニケーション端末200はユーザ202に対して「大島優子卒業。わずか9日でサプライズ復帰だって」と発話する。このように、音声対話システム90は、発話者に応じた発話を行なうことになる。
In another aspect, when the adult
音声対話システム90は、コミュニケーション端末200に対するユーザの過去の発話内容(たとえばサッカーの話を数多くしていたり、芸能関係の話を多くしていたりするなど)の情報をこれまでの発話情報から解析し履歴として保持する。これにより、音声対話システム90は、複数のユーザのそれぞれに応じた興味のある発話が可能となる。
The
<制御構造>
図10を参照して、音声対話システム90の制御構造について説明する。図10は、音声対話システム10において行なわれる処理を表わすシーケンスチャートである。なお、前述の処理と同一の処理には同一のステップ番号を付してある。したがって、同じ処理の説明は繰り返さない。
<Control structure>
With reference to FIG. 10, the control structure of the
ステップS1010にて、対話分析部250および対話生成部280は、対話履歴記憶部260に対して興味取得リクエストを送信する。対話履歴記憶部260は、興味取得リクエストから、認識されたユーザに固有の興味を抽出する。
In step S1010,
ステップS1020にて、対話履歴記憶部260は、対話分析部250および対話生成部980に対して興味取得レスポンスを送信する。より具体的には、対話履歴記憶部260は、興味取得リクエストに含まれる当該ユーザに固有の興味を参照して、対話生成部980を介して、対話DB部270から当該興味を抽出し、その抽出結果を対話分析部250および対話生成部280に送信する。
In step S1020, dialog
ステップS1030にて、制御部230は、対話ログ保存リクエストを対話履歴記憶部260に送信する。より具体的には、制御部230は、対話ログを保存するリクエストと、保存の対象となる対話ログ(または対話ログを識別するためのデータ)とを対話履歴記憶部260に送信する。
In step S1030,
ステップS1040にて、対話履歴記憶部260は、当該リクエストの受信に基づいて、当該リクエストにより特定される対話ログを保存する。
In step S1040, dialogue
<興味を推定する方法>
図11を参照して、音声対話システムのユーザの興味推定法について説明する。図11は、複数のユーザの各々の興味を推定する方法を概念的に表わす図である。
<Method of estimating interest>
With reference to FIG. 11, a user's interest estimation method of the voice interaction system will be described. FIG. 11 is a diagram conceptually showing a method for estimating the interest of each of a plurality of users.
ある局面においてユーザ201は、音声対話システム90に対して「新しいゲーム知ってる?」と発話する。音声対話システム90は、発話者(ユーザ201)を特定し、発話の内容(新しいゲーム知ってる?)を認識すると、発話に含まれるキーワード(たとえば名詞「ゲーム」)を抽出し、対話履歴記憶部260にキーワード「ゲーム」をユーザ201に関連付けて格納する。
In one aspect, the
別の局面において、別のユーザ202が音声対話システム90に対して「新しいカフェが近所にできたんだって」と発話すると、サーバ920は、キーワード「カフェ」を抽出し、その抽出したキーワードとユーザ202の識別情報とを関連付けて対話履歴記憶部260に格納する。
In another aspect, when another
このようにして、対話履歴記憶部260は、ユーザ毎に、当該ユーザの発話中に含まれるキーワード(たとえば名詞)を順次蓄積していく。
In this manner, the dialogue
興味推定モジュール990は、対話履歴記憶部260に格納されている各ユーザの発話内容に含まれる名詞の出現回数と、出現時刻とに基づいてスコア付けを行なう。興味推定モジュール990は、スコアが高いものから当該ユーザの興味ある事象として扱う。たとえば、興味推定モジュール990は、より直近の一定期間に出現する名詞のスコアが高くなるように係数を設定する。係数の設定方法は、たとえば比例的にあるいはステップ関数的に増加するように設定され得る。
The
<データ構造>
図12および図13を参照して、本実施の形態に係る音声対話システム90のデータ構造について説明する。図12は、対話履歴記憶部260に保持されるテーブル1200を表わす図である。図13は、特定のユーザについて抽出されたテーブル1300を表わす図である。
<Data structure>
With reference to FIG. 12 and FIG. 13, the data structure of the
図12に示されるように、テーブル1200は、対話履歴興味記録テーブルとして作成され更新される。テーブル1200は、レコードID1210と、ユーザID1220と、話者1230と、興味名詞1240と、タイムスタンプ1250とを含む。レコードID1210は、音声対話システム90と各ユーザとによって行なわれた対話を識別する。ユーザID1220は、音声対話システム90に登録されている。ユーザを識別する。話者1230は、当該発話を行なったユーザの名前である。興味名詞1240は、当該ユーザが関心を持つ名詞を表わす。タイムスタンプ1250は、当該発話が認識された時刻を特定する。タイムスタンプ1250を用いて、レコードの抽出対象となる期間を適宜設定することができる。
As shown in FIG. 12, the table 1200 is created and updated as a dialog history interest record table. The table 1200 includes a
図13を参照して、テーブル1300は、レコードID1210と、ユーザID1220と、話者1230と、興味名詞1240と、タイムスタンプ1250とを含む。たとえば、音声対話システム90のユーザとしてユーザID1220が「12344312」と特定されると、テーブル1300に示されるように、当該ユーザIDの値を有する各レコードが抽出される。このユーザは、興味として、たとえば「音楽」、「きゃりーぱみゅぱみゅ」、「サマーソニック」を有していることがわかる。
Referring to FIG. 13, table 1300 includes
図14を参照して、音声対話システム90のデータ構造についてさらに説明する。図14は、対話DB部270のデータ構造を表わす図である。対話DB部270は、入力フレーズ1110と、興味名詞1120と、出力フレーズ1130とを含む。入力フレーズ1110は、音声対話システム90に対して入力された発話内容を表わす。
The data structure of the
興味名詞1120は、対話履歴記憶部260に格納されている興味名詞1240に相当する。出力フレーズ1130は、興味名詞1120のそれぞれに応じて関連付けられているユーザに対する応答内容を表わす。
The interest noun 1120 corresponds to the
[実施の形態の効果]
以上のようにして、本実施の形態によれば、ユーザがRFIDを所持することを要求したり、音声対話システムにカメラを導入することなく、ユーザの認証とそのユーザに合わせた話題の提供が可能となる。音声対話システムは、そのユーザが過去に話したこと、あるいは、関連することを提供できるので、ユーザと音声対話システムとの円滑な会話が可能となる。
[Effect of the embodiment]
As described above, according to the present embodiment, it is possible to authenticate a user and provide a topic tailored to the user without requiring the user to possess an RFID or introducing a camera to the voice interaction system. It becomes possible. Since the voice interaction system can provide what the user has spoken or related in the past, a smooth conversation between the user and the voice interaction system is possible.
ユーザが定期的かつ長期的に使用することにより、音声対話システムを構成するロボット(コミュニケーション端末200)の発話内容がより親近感を持つものへと変化する。ロボットがユーザの興味ある内容に基づいて返答することにより、ユーザがロボットに対して親しみや愛着を持つことが可能となる。 When the user uses it regularly and for a long period of time, the utterance content of the robot (communication terminal 200) constituting the voice interaction system changes to something more familiar. When the robot responds based on the content that the user is interested in, it becomes possible for the user to be familiar with and attached to the robot.
[第2の実施の形態]
以下、第2の実施の形態について説明する。第2の実施の形態に係る音声対話システムでは、特定のユーザの話題が推定され得る。
[Second Embodiment]
Hereinafter, a second embodiment will be described. In the voice interactive system according to the second embodiment, the topic of a specific user can be estimated.
<話題推定>
図15を参照して、ユーザ識別に基づきユーザに合わせた返答する他の対応(話題推定)について説明する。図15は、ある局面における音声対話システム80による話題推定の概要を表わす図である。
<Topic estimation>
With reference to FIG. 15, another response (topic estimation) that responds to the user based on the user identification will be described. FIG. 15 is a diagram showing an outline of topic estimation by the
ユーザ1501が音声対話システム80に対して、「週末、京都旅行なんだ」と発話する(発話1510)。音声対話システム80は、発話1510を認識すると、コミュニケーション端末500が「京都といえば金閣だよね」と発話する(発話1520)。その後、ユーザ1501が「お勧めのお土産あるかな?」と発話すると(発話1530)、音声対話システム80は発話1530の音声を認識し、その認識結果に基づいて、コミュニケーション端末500は、メッセージ「何のお土産?」を音声で出力する(発話1540)。
The
発話1540の内容から明らかなように、音声対話システム80は、ユーザ1501が直前まで話していた話題を知らないため、ユーザが正確に表現する必要がある。
As is clear from the content of the
<音声対話システム1600の構成>
そこで、図16を参照して、本実施の形態に従う音声対話システム1600について説明する。図16は、音声対話システム1600の構成を概念的に表わす図である。音声対話システム1600は、コミュニケーション端末200と、サーバ1620とを備える。サーバ1620は、図2に示されるサーバ220の構成に対して、対話履歴記憶部260に代えて、対話履歴記憶部1660を備える。また、サーバ1620は、対話生成部1680と対話DB部1670とを備える。対話生成部1680は、話題推定モジュール1690を含む。なお、本実施の形態に係る音声対話システム1600の他の構成は、音声対話システム90の構成と同じである。したがって、同じ構成の説明は繰り返さない。
<Configuration of Spoken
Therefore, with reference to FIG. 16, a spoken
本実施の形態に係る音声対話システム1600において、ユーザ1501が「週末、京都旅行なんだ」とコミュニケーション端末200に対して発話すると(発話1510)、コミュニケーション端末200は、「京都といえば金閣だよね」をユーザ1501に返す(発話1520)。ユーザ1501が「お勧めのお土産あるかな?」とコミュニケーション端末1200に返すと(発話1530)、音声対話システム1600は、過去の履歴と話題とに基づいて、僕は八つ橋がお勧めだよ」とユーザ1501に返答する(発話1640)。
In
すなわち、音声対話システム1600によると、サーバ1620は、ユーザ1501と音声対話システム1600との間で直前まで話されていた話題(たとえば、京都に関する話)を参照することができるため、ユーザ1501に対応した、より自然な対話が可能となる。
That is, according to the
なお、音声対話システム1600による話題推定を用いた発話のシーケンスは、興味推定を用いた発話シーケンス(図10)と同様である。したがって、音声対話システム1600の発話シーケンスの説明は繰り返さない。
Note that the utterance sequence using topic estimation by the
<話題推定法>
図17を参照して、音声対話システム1600における話題推定法について説明する。図17は、音声対話システム1600が複数のユーザそれぞれの発話に基づいて話題を推定する一態様を表わす図である。
<Topic estimation method>
With reference to FIG. 17, the topic estimation method in the
ある局面において、ユーザ201は、音声対話システム1600のコミュニケーション端末200に対して、発話(明日、遠足で上野動物園に行くんだ)を行なう。音声対話システム1600は、その発話から興味名詞(キーワード)として「上野動物園」を抽出し、その抽出した内容を対話履歴記憶部1660に格納する。別の局面において、大人のユーザ202が発話(代官山においしいカフェがあるんだって)を行なうと、サーバ1620は、興味名詞として「代官山」を抽出し、その抽出した結果をユーザ202に関連付けて対話履歴1660に格納する。すなわち、サーバ1620は、固有表現の抽出を行ない、得られた単語とその種別とを対話履歴として対話履歴記憶部1660に保存する。固有表現は、たとえば、組織名、人名、地名、日付表現、時間表現、金額表現、割合表現、固有物名の8種類を含む。
In one aspect, the
対話生成部1680は、対話履歴記憶部1660に格納されている対話履歴を参照して話題を抽出する。より具体的には、話題推定モジュール1690は、対話履歴記憶部1660に格納されているデータの中から、予め定められた直近の一定時間内に記録されている固有表現を話題として抽出する。話題推定モジュール1690は、その抽出された話題をフィルタとして用いて、対話DB部1670に保存されているデータから候補を絞り込む。図17に示される例では、ユーザ202による最後の発話から予め定められた直近の一定期間内に抽出された固有表現(沖縄、石垣島)をフィルタとして用いる。
The
<データ構造>
図18を参照して、サーバ1620のデータ構造について説明する。図18は、対話DB部1670のデータ構造を概念的に表わす図である。ある局面において、対話DB部1670は、テーブル1800を含む。テーブル1800は、話題フィルタ構造を有している。より具体的には、テーブル1800は、ユーザ発話1810と、地名1820と、返答フレーズ1830とを含む。ユーザ発話1810は、音声対話システム1600のユーザによって行なわれた発話を表わす。地名1820は、当該発話の際に固有表現として抽出された地名を表わす。返答フレーズ1830は、ユーザとの対話において出力された返答を表わす。
<Data structure>
The data structure of the
図19を参照して、本実施の形態に係る対話システム1600のデータ構造についてさらに説明する。図19は、対話履歴記憶部1660におけるデータの格納の一態様を概念的に表わす図である。対話履歴記憶部1660は、テーブル1900を含む。テーブル1900は、ユーザと音声対話システム1600との対話の履歴を記憶している。テーブル1900は、レコードID1910と、ユーザID1920と、話者1930と、話題キーワード1940と、話題種別1950と、タイムスタンプ1960とを含む。レコードID1910は、テーブル1900に含まれる各レコードを識別する。ユーザID1920は、当該レコードの発話を行なったユーザを識別する。話者1930は、当該ユーザIDによって特定されるユーザ(発話者)を特定する。話題キーワード1940は、当該ユーザによる発話から固有表現として抽出された名詞を表わす。話題種別1950は、話題キーワード1940によって特定される話題の種類を表わす。話題種別1950は、たとえば組織(ORGANIZATION)、場所(LOCATION)などと表わされる。タイムスタンプ1960は、当該発話がテーブル1900に追加された時刻を表わす。
With reference to FIG. 19, the data structure of
図20を参照して、サーバ1620のデータ構造についてさらに説明する。図20は、サーバ1620が備えるテーブル2000におけるデータの格納の一態様を概念的に表す図である。テーブル2000は、レコードID1910と、ユーザID1920と、話者1930と、話題キーワード2040と、話題種別1950と、タイムスタンプ1960とを含む。テーブル2000は、ユーザID1920が「12344312」で特定されるユーザのみの発話のレコードを含む。
The data structure of the
より具体的には、話題キーワード2040に示されるように、当該ユーザは、話題として上野動物園、上野、東京都を有している。したがって、あるユーザが音声対話システム1600に対して発話した場合、対話生成部1680は、当該ユーザの直近の話題として上野動物園、上野、東京都の話題キーワード2040を用いて当該ユーザからの発話に対する返答を生成し得る。
More specifically, as indicated by the
図21を参照して、本実施の形態に係る音声対話システム1600のデータ構造についてさらに説明する。図21は、対話DB部1670のデータ構造を表わす図である。対話DB部1670は、入力フレーズ2110と、場所2120と、出力フレーズ2120とを含む。対話DB部1670は、話題で推定された場所に基づいてフィルタリングを行なうためのデータを保持している。たとえば、音声対話システム1600において、ユーザが「雑学教えて」との発話をコミュニケーション端末200に与えると(入力フレーズ2110)、サーバ1620は、その発話に関連付けられる場所(たとえば「北海道」)を抽出する。この場合、話題推定モジュール1690は、場所2120が「北海道」である4つの出力フレーズ2120を抽出することになる。
With reference to FIG. 21, the data structure of voice
[実施の形態の効果]
以上のようにして、本実施の形態に係る音声対話システムによれば、ユーザとコミュニケーション端末との対話が継続する場合に、直前の話題を理解するので、コミュニケーション端末200は、ユーザの発話に応じて詳細な返答を行なうことができる。たとえば、京都を旅行するユーザがお土産を訪ねている場合に、コミュニケーション端末は、京都にちなんだお土産を返答することができる。このような応答ができるので、ユーザとコミュニケーション端末との対話がより自然な対話となる。
[Effect of the embodiment]
As described above, according to the voice interaction system according to the present embodiment, when the conversation between the user and the communication terminal continues, the immediately preceding topic is understood, so that the
[第3の実施の形態]
以下、第3の実施の形態について説明する。本実施の形態に係る音声対話システムは、ユーザとの親密度に応じて音声出力される発話の語調が異なる点で、前述の実施の形態に係る音声対話システムと異なる。
[Third Embodiment]
The third embodiment will be described below. The spoken dialogue system according to the present embodiment is different from the spoken dialogue system according to the above-described embodiment in that the tone of the utterance output by voice is different according to the familiarity with the user.
<親密度>
まず、図22を参照して、第3の実施の形態に係る音声対話システム2200について説明する。図22は、音声対話システム2200の構成の一例を表わす図である。音声対話システム2200は、コミュニケーション端末200と、サーバ2220とを備える。サーバ2220は、サーバ220の構成に対して、対話分析部250に代えて対話分析部2250を、対話生成部280に代えて対話生成部2280を備える。対話分析部2250は、親密度算出モジュール2251を含む。その他の構成は、図2に示される構成と同様である。したがって同じ構成の説明は繰り返さない。
<Intimacy>
First, a
音声対話システム2200によれば、ユーザとの対話数やその頻度に基づいて親密度が変化し、応答が変わる点で前述の各実施の形態に係る音声対話システムと異なる。たとえば、ユーザ1501が3ヶ月前に「おはよう」とコミュニケーション端末200に対して発話する。このとき、音声対話システム2200とユーザ1501との間はそれほど親密ではないため、サーバ2220は、予め保存されているデータに基づいて発話「おはよう」に対する応答を返信する。具体的には、コミュニケーション端末200は、ユーザ1501に対して「おはようございます。今日もいい天気ですね」と丁寧な語調で発話する。
The
これに対し3ヶ月経過後の現時点でユーザ1501と音声対話システム2200との間の親密度が増している場合、ユーザ1501が「おはよう」と同じ発話を行なった場合でも、コミュニケーション端末200は、よりフランクな表現として「おはよう。今日もいい天気だからお出かけしてみたら?」と発話する。このように、同じユーザ1501による同じ発話(おはよう)に対するそれぞれの応答は、時間の経過によって変化し得る親密度によって応答内容が変わる。
On the other hand, when the intimacy between the
<親密度の算出方法>
図23を参照して、本実施の形態に係る音声対話システム2200における親密度の算出方法について説明する。図23は、親密度算出モジュール2251による親密度の算出を概念的に表わす図である。
<Calculation method of intimacy>
With reference to FIG. 23, a method of calculating the familiarity in
ケース(A)は、ユーザが継続的に音声対話システムに話しかけることにより親密度が上昇する場合を表わす図である。すなわち、グラフ2310に示されるように、時間の経過とともにユーザ2002がコミュニケーション端末200に話しかけることにより、音声対話システム2200とユーザ202との親密度は上昇する。上昇の程度は、ある局面において線形的(比例的)であるが、上昇の程度は必ずしもグラフ2310に見られる程度に限られない。たとえば、段階的に(ステップ関数的に)親密度が上昇してもよい。話しかけるフレーズ中に出現する単語が示す感情の程度に基づいて変化し得る。たとえば、出現する単語がネガティブなフレーズの場合には親密度は上昇しない。一方、出現する単語がポジティブなフレーズの場合には、そのポジティブ度に応じて親密度が上昇し得る。
Case (A) is a diagram showing a case where the intimacy increases due to the user continuously speaking to the voice interaction system. That is, as shown in the
また、ユーザ202が音声対話システム2200を継続的に使用していない場合には親密度が低下するように、予め定められた一定期間内に一定値の親密度が減少するように構成されてもよい。親密度算出モジュール2251は、ある局面において、対話履歴記憶部260に格納されている対話履歴を用いて各ユーザについて親密度を算出する。たとえば、親密度算出モジュール2251は、親密度の上昇度合いとして予め設定された値を逐次加算し、あるいはネガティブフレーズの場合には当該値を減算することにより各ユーザの親密度を算出する。
In addition, when the
ケース(B)は、同一のユーザ202によって同じフレーズを有する発話が行なわれた場合に親密度の上昇が抑制される態様を表わす図である。すなわち、グラフ2320に示されるように、ユーザ202が「天気を教えて」と発話すると、最初は親密度は予め定められた一定の度合いだけ上昇し得る。しかしながら、ユーザ202が同じフレーズを有する発話しか行なわない場合には、音声対話システム2200は、そのユーザについての親密度の上昇を抑制する。より具体的には、親密度算出モジュール2251は、対話履歴記憶部260に格納されているデータを参照して、ユーザ202による発話に含まれるフレーズ(名詞)が同一であるか否かを判断する。親密度算出モジュール2251は、ユーザ202による発話が同じフレーズを含む発話の繰り返しであることを検知すると、そのユーザ202についての親密度を一定値に維持する。
Case (B) is a diagram showing a mode in which an increase in closeness is suppressed when utterances having the same phrase are performed by the
したがって、たとえば、あるユーザが、毎日、天気予報しか尋ねない場合、あるいはニュースのような一般的な話題しか尋ねない場合には、そのユーザによる発話に含まれるフレーズが同じであれば、そのユーザの親密度は一定値のままである。 Thus, for example, if a user asks only the weather forecast every day, or asks only general topics such as news, if the phrases included in the utterance by the user are the same, the user's Intimacy remains constant.
<音声対話システムによる返答の変化>
図24を参照して、音声対話システム2200による返答の変化について説明する。図24は、親密度に応じて返答が変化する態様を説明する図である。
<Changes in responses by spoken dialogue system>
With reference to FIG. 24, the change of the response by the
ケース(A)に示されるように、親密度に応じて対話DB部270のフレーズが変化し得る。対話DB部270は、テーブル2400を含む。テーブル2400は、ユーザ発話2410と、親密度2420と、返答フレーズ2430とを含む。ユーザ発話2410は、ユーザによる音声対話システム2200への発話を表わす。親密度2420は、たとえば複数の区分によって分けられる。返答フレーズ2430は、各親密度に応じて予め保存されているフレーズを表わす。たとえば、ユーザ発話2410が「おはよう」である場合において親密度2420が「高い」と判定される場合には、返答フレーズ2430は、「おはよう。今日も元気に頑張ろう」となる。
As shown in the case (A), the phrase of the
ケース(B)は、親密度に応じて言い回しが変化する態様を表わす図である。ある局面において、ユーザからのニュースの問いかけに対して、音声対話システム2200は、設定されている親密度に応じて、「政府が、南極大陸に日本の新たな基地建設を計画していることが明らかになったそうです。」と発話する(発話2440)。この時点では、親密度は低いと設定されているため、発話の語調も比較的丁寧な語調である。
Case (B) is a diagram showing a manner in which the wording changes according to the familiarity. In one aspect, the spoken
ある局面において、対話生成部2280は、その発話2440の内容を変えることなく、音声対話システム2200との対話を行なおうとしているユーザの親密度に応じて、発話2440の内容を伝える表現を変換する。たとえば、認証されたユーザの親密度が予め設定された基準よりも高いことが検出されると、対話生成部2280は、発話内容を構成するフレーズ「していることが」をフレーズ「してるってことが」に変更する。また、対話生成部2280は、フレーズ「明らかになった」をフレーズ「わかった」に変更する。すなわち、対話生成部2280は、親密度が標準よりも高いという判断結果に基づいて、デフォルトで出力され得る発話内容の表現を平易な表現に変更する。さらに、対話生成部2280は、フレーズ「そうです」をフレーズ「そうだよ」に変換する。すなわち、対話生成部2280は、発話対象となるフレーズを丁寧な語調から普通の語調に変換する。
In a certain aspect, the
このような変換ルールが対話生成部2280において規定されている場合、対話生成部2280は、返答フレーズ2150として親密度が高いフレーズを返答する。すなわち対話生成部2280はフレーズ「政府が、南極大陸に日本の新たな基地建設を計画しているってことがわかったそうだよ」と変換する。コミュニケーション端末200は、その変換に基づいて生成された返答フレーズ2450を出力し得る。
When such a conversion rule is defined in the
[実施の形態の効果]
以上のようにして、本実施の形態に係る音声対話システム2200は、各ユーザとのこれまでの対話の履歴に応じて親密度を算出し、その親密度に応じて発話の語調を変更する。これにより、ユーザは、音声対話システム2200を構成するコミュニケーション端末200に対して親しみをさらに感じることになる。
[Effect of the embodiment]
As described above, the
[第4の実施の形態]
上述の第1〜第3の実施の形態は、音声入出力機能(コミュニケーション端末)と発話生成機能(サーバ)とが別個の機器で実現される場合が例示されている。しかしながら、本開示に係る技術思想は、他の機器構成によっても実現され得る。たとえば、音声入出力機能と発話生成機能とが一つの機器によって実現されてもよい。たとえば、図2に示されるコミュニケーション端末200とサーバ220とが一体となった機器が音声対話装置として実現されてもよい。
[Fourth Embodiment]
In the first to third embodiments described above, a case where the voice input / output function (communication terminal) and the speech generation function (server) are realized by separate devices is illustrated. However, the technical idea according to the present disclosure can be realized by other device configurations. For example, the voice input / output function and the speech generation function may be realized by a single device. For example, a device in which the
そこで、図25を参照して、第4の実施の形態に係る音声対話装置2500について説明する。図25は、音声対話装置2500の構成の概要を表すブロック図である。音声対話装置2500は、図2に示されるコミュニケーション端末200およびサーバ220が備える構成を備える。このような構成により、音声対話装置2500は、通信回線を用いることなく、ユーザの発話に基づいて、音声認識、音声認証、および発話生成を行なうことができるので、通信回線の影響を受けることなく迅速な会話が可能になる。
Therefore, with reference to FIG. 25, a voice
[第5の実施の形態]
さらに別の局面において、音声認識および音声認証が、ユーザからの発話を受け付けるコミュニケーション端末によって行われてもよい。この場合、コミュニケーション端末は、音声認識の結果および音声認証の結果を、それぞれサーバに送信する。サーバは、各結果を用いて発話に対する応答を生成する。
[Fifth Embodiment]
In still another aspect, voice recognition and voice authentication may be performed by a communication terminal that accepts an utterance from a user. In this case, the communication terminal transmits the voice recognition result and the voice authentication result to the server. The server uses each result to generate a response to the utterance.
そこで、図26を参照して、この局面に従う音声対話システム2600の構成について説明する。図26は、音声対話システム2600の構成の概略を表すブロック図である。音声対話システム2600は、コミュニケーション端末2610と、サーバ2620とを備える。
Therefore, with reference to FIG. 26, the configuration of a
コミュニケーション端末2610は、コミュニケーション端末200の構成に加えて、音声認識部240を備える。音声認識部240は、音声認識モジュール241と、話者特定モジュール242とを含む。音声認識モジュール241は、音声入力部210によって受け付けられた音声信号の認識処理を実行する。話者特定モジュール242は、当該音声信号と、コミュニケーション端末2610のメモリ(図示しない)に登録されている音声データおよびユーザ識別情報とを用いて発話者を特定する。
The
音声認識部240によって認識された音声内容および特定されたユーザ情報は、サーバ2620に送信される。サーバ2620は、当該音声内容およびユーザ情報を用いて、当該ユーザの過去の対話履歴を参照しながら、音声内容に応じた応答を生成する。
The voice content recognized by the
その他の処理は、前述の実施の形態に係る音声対話システムにおける処理と同じである。したがって、詳細な説明は繰り返さない。 Other processes are the same as the processes in the voice interaction system according to the above-described embodiment. Therefore, detailed description will not be repeated.
[第6の実施の形態]
第1〜第3の実施の形態に係るサーバは、音声認識機能と対話生成機能と音声合成機能とを実現するように構成されていた。他の局面において、各機能が別個のコンピュータ装置において実現されてもよい。
[Sixth Embodiment]
The servers according to the first to third embodiments are configured to realize a speech recognition function, a dialog generation function, and a speech synthesis function. In other aspects, each function may be implemented in a separate computer device.
[第7の実施の形態]
上述の各実施の形態は、コミュニケーション端末あるいはサーバが備えるコンピュータのプロセッサ(図示しない)が、メモリに保存されているプログラムに含まれる命令を実行することにより、実現されるものとして例示されている。しかしながら、本実施の形態に係るコミュニケーション端末またはサーバが備える各機能の少なくとも一部または全部が、当該機能を実現する回路その他のハードウェアによって実現されてもよい。
[Seventh Embodiment]
Each of the above-described embodiments is exemplified as being realized by a processor (not shown) of a computer included in a communication terminal or server executing instructions included in a program stored in a memory. However, at least a part or all of the functions included in the communication terminal or server according to the present embodiment may be realized by a circuit or other hardware that realizes the function.
<構成>
本開示に基づく構成は、以下のように要約され得る。
<Configuration>
The configuration according to the present disclosure can be summarized as follows.
[構成1]
発話を認識するように構成された音声認識部(241)と、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部(242)と、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部(280)と、
当該話題を音声で出力するように構成された音声出力部(211)とを備える、音声対話装置(2500)。
[Configuration 1]
A voice recognition unit (241) configured to recognize an utterance;
A voice authentication unit (242) configured to identify a speaker based on the recognized utterance and pre-registered user information;
A topic estimation unit (280) configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A voice interactive device (2500) comprising a voice output unit (211) configured to output the topic in a voice.
[構成2]
発話に基づく音声信号の入力を受け付けるように構成された音声信号入力部と、
入力された上記音声信号に基づいて上記発話を認識するように構成された音声認識部(241)と、
入力された上記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部(242)と、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部(280)と、
当該話題を音声で出力するための話題信号を出力するように構成された出力部(230)とを備える、音声対話装置(220)。
[Configuration 2]
An audio signal input unit configured to accept an input of an audio signal based on an utterance;
A voice recognition unit (241) configured to recognize the utterance based on the input voice signal;
A voice authentication unit (242) configured to identify a speaker based on the input voice signal and user information registered in advance;
A topic estimation unit (280) configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A voice interaction device (220) comprising: an output unit (230) configured to output a topic signal for outputting the topic in voice.
[構成3]
端末(2610)と、
上記端末と通信可能なサーバ(2620)とを備え、
上記端末は、
発話を受け付けて当該発話を認識するように構成された音声認識部(241)と、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部(242)と、
上記発話に基づく音声信号と、上記特定された発話者の識別信号とを上記サーバに送信するように構成された送信部とを備え、
上記サーバは、
上記音声信号と上記識別信号とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を上記端末に送信するように構成された話題送信部とを備え、
上記端末は、さらに、
上記サーバから受信する上記話題信号に基づいて、上記話題を音声で出力するように構成された出力部を備える、音声対話システム。
[Configuration 3]
A terminal (2610);
A server (2620) capable of communicating with the terminal,
The terminal
A voice recognition unit (241) configured to accept an utterance and recognize the utterance;
A voice authentication unit (242) configured to identify a speaker based on the recognized utterance and pre-registered user information;
A transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to the server;
The server
A topic estimation unit configured to generate a topic in which the speaker is interested based on the voice signal and the identification signal;
A topic transmission unit configured to transmit a topic signal for outputting the topic as a voice to the terminal,
The terminal
A spoken dialogue system comprising an output unit configured to output the topic by voice based on the topic signal received from the server.
[構成4]
構成3に記載の音声対話システムに用いられる端末であって、
発話を認識するように構成された音声認識部と、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
上記発話に基づく音声信号と、上記特定された発話者の識別信号とをサーバに送信するように構成された送信部と、
当該発話者が興味を持つ話題を音声で出力するための話題信号を上記サーバから受信して、上記話題を音声で出力するように構成された出力部とを備える、端末。
[Configuration 4]
A terminal used in the voice interaction system according to
A speech recognizer configured to recognize utterances;
A voice authentication unit configured to identify a speaker based on the recognized utterance and pre-registered user information;
A transmitter configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to a server;
A terminal comprising: an output unit configured to receive a topic signal for outputting a topic of interest of the speaker by voice from the server and output the topic by voice.
[構成5]
上記音声対話装置の各ユーザとの対話の履歴を格納するように構成された記憶部をさらに備え、
上記話題推定部は、当該ユーザとの対話の履歴に基づいて、上記話題を生成するように構成されている、構成1または2に記載の音声対話装置。
[Configuration 5]
A storage unit configured to store a history of interaction with each user of the voice interaction device;
The speech conversation apparatus according to
[構成6]
上記音声対話装置のユーザとの対話の履歴に基づいて、当該ユーザと上記音声対話装置との親密度を算出するように構成された親密度算出部をさらに備え、
上記話題推定部は、上記親密度に応じて、上記話題の語調を調整するように構成されている、構成1または2に記載の音声対話装置。
[Configuration 6]
A closeness calculation unit configured to calculate a closeness between the user and the voice interaction device based on a history of interaction with the user of the voice interaction device;
The spoken dialogue apparatus according to
[構成7]
発話を認識するステップと、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するステップとを含む、音声対話方法。
[Configuration 7]
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Generating a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A voice dialogue method including the step of outputting the topic by voice.
[構成8]
発話に基づく音声信号の入力を受け付けるステップと、
入力された上記音声信号に基づいて上記発話を認識するステップと、
入力された上記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するための話題信号を出力するステップとを含む、音声対話方法。
[Configuration 8]
Receiving an input of an audio signal based on an utterance;
Recognizing the utterance based on the input audio signal;
Identifying a speaker based on the input audio signal and pre-registered user information;
Generating a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
Outputting a topic signal for outputting the topic by voice.
[構成9]
発話を認識するステップと、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、
上記音声信号と上記識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号を上記サーバから受信するステップと、
上記話題信号に基づいて当該話題を音声で出力するステップとを含む、音声対話方法。
[Configuration 9]
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Transmitting an audio signal based on the utterance and an identification signal of the identified speaker to a server;
Receiving from the server a topic signal for outputting a topic of interest that the speaker is interested, estimated based on the voice signal and the identification signal;
A voice dialogue method including the step of outputting the topic by voice based on the topic signal.
[構成10]
コンピュータを音声対話装置として機能させるためのプログラムであって、上記プログラムは、一つ以上のプロセッサに、
発話を認識するステップと、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を音声で出力するための話題信号を生成するステップと、
上記話題信号に基づいて当該話題を音声で出力するステップとを実行させる、プログラム。
[Configuration 10]
A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Generating a topic signal for outputting a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A program for executing the step of outputting the topic by voice based on the topic signal.
[構成11]
コンピュータを音声対話装置として機能させるためのプログラムであって、上記プログラムは、一つ以上のプロセッサに、
発話に基づく音声信号の入力を受け付けるステップと、
入力された上記音声信号に基づいて上記発話を認識するステップと、
入力された上記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するための話題信号を出力するステップとを実行させる、プログラム。
[Configuration 11]
A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Receiving an input of an audio signal based on an utterance;
Recognizing the utterance based on the input audio signal;
Identifying a speaker based on the input audio signal and pre-registered user information;
Generating a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A program for executing a step of outputting a topic signal for outputting the topic by voice.
[構成12]
コンピュータを音声対話装置として機能させるためのプログラムであって、上記プログラムは、一つ以上のプロセッサに、
発話を認識するステップと、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、
上記音声信号と上記識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号を上記サーバから受信するステップと、
上記話題信号に基づいて当該話題を音声で出力するステップとを実行させる、プログラム。
[Configuration 12]
A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Transmitting an audio signal based on the utterance and an identification signal of the identified speaker to a server;
Receiving from the server a topic signal for outputting a topic of interest that the speaker is interested, estimated based on the voice signal and the identification signal;
A program for executing the step of outputting the topic by voice based on the topic signal.
[構成13]
端末と、
サーバとを備え、
上記端末は、発話を認識するように構成された音声認識部と、
認識された発話を発話信号に変換するように構成された音声信号変換部と、
上記発話信号を上記サーバに送信するように構成された送信部とを含み、
上記サーバは、
上記端末から受信した上記発話信号に基づいて上記発話を認識するように構成された音声認識部と、
上記発話信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を上記端末に送信するように構成された送信部とを含み、
上記端末は、さらに、
上記サーバから上記話題信号を受信するように構成された受信部と、
上記話題信号に基づいて当該話題を音声で出力するように構成された出力部とを含む、音声対話システム。
[Configuration 13]
A terminal,
With a server,
The terminal includes a voice recognition unit configured to recognize an utterance;
An audio signal converter configured to convert a recognized utterance into an utterance signal;
A transmitter configured to transmit the speech signal to the server,
The server
A speech recognition unit configured to recognize the utterance based on the utterance signal received from the terminal;
A voice authentication unit configured to identify a speaker based on the utterance signal and user information registered in advance;
A topic estimation unit configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A transmission unit configured to transmit a topic signal for outputting the topic as a voice to the terminal,
The terminal
A receiver configured to receive the topic signal from the server;
And a voice dialogue system including an output unit configured to output the topic in a voice based on the topic signal.
[構成14]
構成13に記載のシステムに用いる端末であって、
発話を認識するように構成された音声認識部と、
上記認識された発話を発話信号に変換するように構成された音声信号変換部と、
上記発話信号をサーバに送信するように構成された送信部と、
上記発話信号に基づいて生成された話題信号を上記サーバから受信するように構成された受信部と、
上記話題信号に基づいて、上記発話に対応する話題を音声で出力するように構成された出力部とを備える、端末。
[Configuration 14]
A terminal used in the system according to Configuration 13,
A speech recognizer configured to recognize utterances;
An audio signal converter configured to convert the recognized utterance into an utterance signal;
A transmitter configured to transmit the utterance signal to a server;
A receiver configured to receive from the server a topic signal generated based on the utterance signal;
A terminal comprising: an output unit configured to output a topic corresponding to the utterance by voice based on the topic signal.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
110,241 音声認識モジュール、120 音声認証モジュール、130,1690 話題推定モジュール、140 対話生成モジュール、200,500,1200,2610 コミュニケーション端末、210 音声入力部、211 音声出力部、220,520,820,920,1620,2220,2620 サーバ、230,530 制御部、240,540 音声認識部、242 話者特定モジュール、250,550,850,2250 対話分析部、260,560,1660 対話履歴記憶部、280,580,880,980,1680,2280 対話生成部、290,590 音声合成部、400 コンピュータ、501 携帯電話、510 無線タグ情報送信部、541 ユーザ識別子部、990 興味推定モジュール、1110,2110 入力フレーズ、1120,1240 興味名詞、1130,2120 出力フレーズ、1200,1300,1800,1900,2000,2400 テーブル、1230,1930 話者、1250,1960 タイムスタンプ、1501 ユーザ。 110,241 Voice recognition module, 120 Voice authentication module, 130,1690 Topic estimation module, 140 Dialogue generation module, 200,500,1200,2610 Communication terminal, 210 Voice input part, 211 Voice output part, 220,520,820, 920, 1620, 2220, 2620 Server, 230, 530 Control unit, 240, 540 Speech recognition unit, 242 Speaker identification module, 250, 550, 850, 2250 Dialog analysis unit, 260, 560, 1660 Dialog history storage unit, 280 , 580, 880, 980, 1680, 2280 Dialogue generation unit, 290, 590 Speech synthesis unit, 400 computer, 501 mobile phone, 510 RFID tag information transmission unit, 541 user identifier unit, 990 interest estimation module, 1110, 2110 Input phrase, 1120, 1240 Interest noun, 1130, 2120 Output phrase, 1200, 1300, 1800, 1900, 2000, 2400 Table, 1230, 1930 Speaker, 1250, 1960 Time stamp, 1501 User.
Claims (13)
発話を認識するように構成された音声認識部と、
前記発話に基づく音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するように構成された音声出力部とを備え、
前記話題推定部は、前記音声対話装置のユーザとの対話の履歴に基づいて、生成する話題の語調を調整するように構成される、音声対話装置。 A voice interaction device,
A speech recognizer configured to recognize utterances;
A voice authentication unit configured to identify a speaker based on a voice signal based on the utterance and user information registered in advance;
A topic estimation unit configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
An audio output unit configured to output the topic in audio ;
The topic estimating unit is configured to adjust a tone of a topic to be generated based on a history of a conversation with a user of the voice conversation apparatus.
発話に基づく音声信号の入力を受け付けるように構成された音声信号入力部と、
入力された前記音声信号に基づいて前記発話を認識するように構成された音声認識部と、
入力された前記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を出力するように構成された出力部とを備え、
前記話題推定部は、前記音声対話装置のユーザとの対話の履歴に基づいて、生成する話題の語調を調整するように構成される、音声対話装置。 A voice interaction device,
An audio signal input unit configured to accept an input of an audio signal based on an utterance;
A speech recognition unit configured to recognize the utterance based on the input speech signal;
A voice authentication unit configured to identify a speaker based on the input voice signal and pre-registered user information;
A topic estimation unit configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
An output unit configured to output a topic signal for outputting the topic by voice ;
The topic estimating unit is configured to adjust a tone of a topic to be generated based on a history of a conversation with a user of the voice conversation apparatus.
前記端末と通信可能なサーバとを備え、
前記端末は、
発話を受け付けて当該発話を認識するように構成された音声認識部と、
前記発話に基づく音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記発話に基づく音声信号と、前記特定された発話者の識別信号とを前記サーバに送信するように構成された送信部とを備え、
前記サーバは、
前記音声信号と前記識別信号とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を前記端末に送信するように構成された話題送信部とを備え、
前記話題推定部は、前記端末のユーザとの対話の履歴に基づいて、生成する話題の語調を調整するように構成され、
前記端末は、さらに、
前記サーバから受信する前記話題信号に基づいて、前記話題を音声で出力するように構成された出力部を備える、音声対話システム。 A terminal,
A server capable of communicating with the terminal,
The terminal
A voice recognition unit configured to accept an utterance and recognize the utterance;
A voice authentication unit configured to identify a speaker based on a voice signal based on the utterance and user information registered in advance;
A transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to the server;
The server
A topic estimation unit configured to generate a topic in which the speaker is interested based on the voice signal and the identification signal;
A topic transmission unit configured to transmit a topic signal for outputting the topic by voice to the terminal;
The topic estimation unit is configured to adjust the tone of the topic to be generated based on the history of dialogue with the user of the terminal,
The terminal further includes
A spoken dialogue system comprising: an output unit configured to output the topic by voice based on the topic signal received from the server.
発話を認識するように構成された音声認識部と、
前記発話に基づく音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記発話に基づく音声信号と、前記特定された発話者の識別信号とをサーバに送信するように構成された送信部と、
当該発話者が興味を持つ話題を音声で出力するための話題信号を前記サーバから受信して、前記話題を音声で出力するように構成された出力部とを備える、端末。 A terminal used in the voice interaction system according to claim 3,
A speech recognizer configured to recognize utterances;
A voice authentication unit configured to identify a speaker based on a voice signal based on the utterance and user information registered in advance;
A transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to a server;
A terminal comprising: an output unit configured to receive a topic signal for outputting a topic of interest of the speaker by voice from the server and output the topic by voice.
前記話題推定部は、前記親密度に応じて、前記話題の語調を調整するように構成されている、請求項1または2に記載の音声対話装置。 A closeness calculation unit configured to calculate a closeness between the user and the voice interaction device based on a history of interaction with the user of the voice interaction device;
The spoken dialogue apparatus according to claim 1, wherein the topic estimation unit is configured to adjust a tone of the topic according to the familiarity.
前記発話に基づく音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
ユーザとの対話の履歴をメモリに記憶するステップと、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するステップとを備え、
前記話題を生成するステップは、前記ユーザとの対話の履歴に基づいて、生成する話題の語調を調整することを含む、音声対話方法。 Recognizing the utterance,
Identifying a speaker based on an audio signal based on the utterance and user information registered in advance;
Storing a history of user interactions in memory;
Generating a topic that the speaker is interested in based on the recognized utterance and the identified speaker;
And a step of outputting by voice the topic,
The step of generating the topic includes a voice interaction method including adjusting a tone of the topic to be generated based on a history of interaction with the user .
入力された前記音声信号に基づいて前記発話を認識するステップと、
入力された前記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
ユーザとの対話の履歴をメモリに記憶するステップと、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するための話題信号を出力するステップとを備え、
前記話題を生成するステップは、前記ユーザとの対話の履歴に基づいて、生成する話題の語調を調整することを含む、音声対話方法。 Receiving an input of an audio signal based on an utterance;
Recognizing the utterance based on the input audio signal;
Identifying a speaker based on the input audio signal and pre-registered user information;
Storing a history of user interactions in memory;
Generating a topic that the speaker is interested in based on the recognized utterance and the identified speaker;
And a step of outputting a topic signals for outputting by voice the topic,
The step of generating the topic includes a voice interaction method including adjusting a tone of the topic to be generated based on a history of interaction with the user .
前記発話に基づく音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
前記発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、
前記音声信号と前記識別信号とに基づいて推定された、当該発話者が興味を持つ話題であって、ユーザとの対話の履歴に基づいて語調を調整された話題を音声で出力するための話題信号を前記サーバから受信するステップと、
前記話題信号に基づいて当該話題を音声で出力するステップとを含む、音声対話方法。 Recognizing the utterance,
Identifying a speaker based on an audio signal based on the utterance and user information registered in advance;
Transmitting an audio signal based on the utterance and an identification signal of the identified speaker to a server;
A topic that is estimated based on the voice signal and the identification signal, and that is a topic that the speaker is interested in, and that is a topic for which a tone is adjusted based on a history of dialogue with the user, and that is output in speech Receiving a signal from the server;
And outputting the topic in a voice based on the topic signal.
発話を認識するステップと、
前記発話に基づく音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
ユーザとの対話の履歴をメモリに記憶するステップと、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を音声で出力するための話題信号を生成するステップと、
前記話題信号に基づいて当該話題を音声で出力するステップとを実行させ、
前記話題信号を生成するステップは、前記ユーザとの対話の履歴に基づいて、生成する話題の語調を調整した前記話題信号を生成することを含む、プログラム。 A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Recognizing the utterance,
Identifying a speaker based on an audio signal based on the utterance and user information registered in advance;
Storing a history of user interactions in memory;
Generating a topic signal for outputting a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
Executing the step of outputting the topic by voice based on the topic signal ,
The step of generating the topic signal includes generating the topic signal in which the tone of the topic to be generated is adjusted based on a history of dialogue with the user .
発話に基づく音声信号の入力を受け付けるステップと、
入力された前記音声信号に基づいて前記発話を認識するステップと、
入力された前記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
ユーザとの対話の履歴をメモリに記憶するステップと、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するための話題信号を出力するステップとを実行させ、
前記話題を生成するステップは、前記ユーザとの対話の履歴に基づいて、生成する話題の語調を調整することを含む、プログラム。 A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Receiving an input of an audio signal based on an utterance;
Recognizing the utterance based on the input audio signal;
Identifying a speaker based on the input audio signal and pre-registered user information;
Storing a history of user interactions in memory;
Generating a topic that the speaker is interested in based on the recognized utterance and the identified speaker;
Outputting a topic signal for outputting the topic by voice ,
The step of generating the topic includes adjusting the tone of the topic to be generated based on a history of interaction with the user .
発話を認識するステップと、
前記発話に基づく音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
前記発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、
ユーザとの対話の履歴をメモリに記憶するステップと、
前記音声信号と前記識別信号とに基づいて推定された、当該発話者が興味を持つ話題であって、ユーザとの対話の履歴に基づいて語調を調整された話題を音声で出力するための話題信号を前記サーバから受信するステップと、
前記話題信号に基づいて当該話題を音声で出力するステップとを実行させる、プログラム。 A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Recognizing the utterance,
Identifying a speaker based on an audio signal based on the utterance and user information registered in advance;
Transmitting an audio signal based on the utterance and an identification signal of the identified speaker to a server;
Storing a history of user interactions in memory;
A topic that is estimated based on the voice signal and the identification signal, and that is a topic that the speaker is interested in, and that is a topic for which a tone is adjusted based on a history of dialogue with the user, and that is output in speech Receiving a signal from the server;
A program for executing the step of outputting the topic by voice based on the topic signal.
サーバとを備え、
前記端末は、
発話を認識するように構成された音声認識部と、
認識された発話を発話信号に変換するように構成された音声信号変換部と、
前記発話信号を前記サーバに送信するように構成された送信部とを含み、
前記サーバは、
前記端末から受信した前記発話信号に基づいて前記発話を認識するように構成された音声認識部と、
前記発話信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を前記端末に送信するように構成された送信部とを含み、
前記話題推定部は、前記端末のユーザとの対話の履歴に基づいて、生成する話題の語調を調整した前記話題信号を生成するように構成され、
前記端末は、さらに、
前記サーバから前記話題信号を受信するように構成された受信部と、
前記話題信号に基づいて当該話題を音声で出力するように構成された出力部とを含む、音声対話システム。 A terminal,
With a server,
The terminal
A speech recognizer configured to recognize utterances;
An audio signal converter configured to convert a recognized utterance into an utterance signal;
A transmitter configured to transmit the speech signal to the server,
The server
A speech recognition unit configured to recognize the utterance based on the utterance signal received from the terminal;
A voice authentication unit configured to identify a speaker based on the speech signal and pre-registered user information;
A topic estimation unit configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A transmission unit configured to transmit to the terminal a topic signal for outputting the topic by voice,
The topic estimation unit is configured to generate the topic signal in which the tone of the topic to be generated is adjusted based on a history of dialogue with the user of the terminal.
The terminal further includes
A receiver configured to receive the topic signal from the server;
And a voice dialogue system including an output unit configured to output the topic by voice based on the topic signal.
発話を認識するように構成された音声認識部と、
前記認識された発話を発話信号に変換するように構成された音声信号変換部と、
前記発話信号をサーバに送信するように構成された送信部と、
前記発話信号に基づいて生成された話題であって、前記端末のユーザとの対話の履歴に基づいて語調を調整された話題を示す話題信号を前記サーバから受信するように構成された受信部と、
前記話題信号に基づいて、前記発話に対応する話題を音声で出力するように構成された出力部とを備える、端末。 A terminal for use in a system according to claim 1 2,
A speech recognizer configured to recognize utterances;
An audio signal converter configured to convert the recognized utterance into an utterance signal;
A transmitter configured to transmit the speech signal to a server;
A receiving unit configured to receive a topic signal indicating a topic generated based on the utterance signal and adjusted in tone based on a history of dialogue with the user of the terminal from the server; ,
A terminal comprising: an output unit configured to output a topic corresponding to the utterance by voice based on the topic signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014198740A JP6129134B2 (en) | 2014-09-29 | 2014-09-29 | Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014198740A JP6129134B2 (en) | 2014-09-29 | 2014-09-29 | Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016071050A JP2016071050A (en) | 2016-05-09 |
JP6129134B2 true JP6129134B2 (en) | 2017-05-17 |
Family
ID=55864510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014198740A Expired - Fee Related JP6129134B2 (en) | 2014-09-29 | 2014-09-29 | Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6129134B2 (en) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6833209B2 (en) * | 2016-06-05 | 2021-02-24 | 国立大学法人千葉大学 | Utterance promotion device |
JP2018001387A (en) * | 2016-07-08 | 2018-01-11 | ロボットスタート株式会社 | Robot, program, robot system, and server |
JP6468258B2 (en) * | 2016-08-01 | 2019-02-13 | トヨタ自動車株式会社 | Voice dialogue apparatus and voice dialogue method |
JP6712961B2 (en) * | 2017-03-15 | 2020-06-24 | 日立グローバルライフソリューションズ株式会社 | Communication system and communication control device |
CN107507612B (en) * | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | Voiceprint recognition method and device |
EP3680838A4 (en) * | 2017-09-08 | 2020-08-12 | Sony Corporation | Information processing device and information processing method |
CN107844586B (en) * | 2017-11-16 | 2022-05-06 | 百度在线网络技术(北京)有限公司 | News recommendation method and device |
JP7143591B2 (en) * | 2018-01-17 | 2022-09-29 | トヨタ自動車株式会社 | speaker estimation device |
JP6494828B1 (en) * | 2018-03-07 | 2019-04-03 | ヤフー株式会社 | Management device, management method and management program |
WO2019176018A1 (en) * | 2018-03-14 | 2019-09-19 | 株式会社ウフル | Ai speaker system, method for controlling ai speaker system, and program |
JP7131077B2 (en) * | 2018-05-24 | 2022-09-06 | カシオ計算機株式会社 | CONVERSATION DEVICE, ROBOT, CONVERSATION DEVICE CONTROL METHOD AND PROGRAM |
CN111626452B (en) * | 2019-02-28 | 2023-08-04 | 百度在线网络技术(北京)有限公司 | Intelligent government affair processing method, device, terminal and medium |
WO2020180286A1 (en) * | 2019-03-01 | 2020-09-10 | Google Llc | Dynamically adapting assistant responses |
US11935527B2 (en) | 2020-10-23 | 2024-03-19 | Google Llc | Adapting automated assistant functionality based on generated proficiency measure(s) |
CN112559714B (en) | 2020-12-24 | 2024-04-12 | 北京百度网讯科技有限公司 | Dialogue generation method and device, electronic equipment and storage medium |
WO2023189521A1 (en) * | 2022-03-30 | 2023-10-05 | ソニーグループ株式会社 | Information processing device and information processing method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050023941A (en) * | 2003-09-03 | 2005-03-10 | 삼성전자주식회사 | Audio/video apparatus and method for providing personalized services through voice recognition and speaker recognition |
JP2008083100A (en) * | 2006-09-25 | 2008-04-10 | Toshiba Corp | Voice interactive device and method therefor |
JP2009064186A (en) * | 2007-09-05 | 2009-03-26 | Mazda Motor Corp | Interactive system for vehicle |
JP5349860B2 (en) * | 2008-08-07 | 2013-11-20 | 株式会社バンダイナムコゲームス | PROGRAM, INFORMATION STORAGE MEDIUM, AND GAME DEVICE |
JP2010109618A (en) * | 2008-10-29 | 2010-05-13 | Ntt Communications Kk | Authentication device, authentication method, and program |
-
2014
- 2014-09-29 JP JP2014198740A patent/JP6129134B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016071050A (en) | 2016-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6129134B2 (en) | Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus | |
US11600291B1 (en) | Device selection from audio data | |
CN108231070B (en) | Voice conversation device, voice conversation method, recording medium, and robot | |
US10832686B2 (en) | Method and apparatus for pushing information | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
EP3824462B1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
US9899028B2 (en) | Information processing device, information processing system, information processing method, and information processing program | |
JP6084654B2 (en) | Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model | |
WO2019087811A1 (en) | Information processing device and information processing method | |
WO2011048826A1 (en) | Speech translation system, control apparatus and control method | |
JP7040449B2 (en) | Voice processing device, information processing device, voice processing method and information processing method | |
KR102628211B1 (en) | Electronic apparatus and thereof control method | |
CN110998719A (en) | Information processing apparatus, information processing method, and computer program | |
KR20240115216A (en) | Method and apparatus for speech signal processing | |
JP2019045867A (en) | Voice control method, voice control device, and program | |
WO2019239659A1 (en) | Information processing device and information processing method | |
KR20210042520A (en) | An electronic apparatus and Method for controlling the electronic apparatus thereof | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
US11790913B2 (en) | Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal | |
WO2019150708A1 (en) | Information processing device, information processing system, information processing method, and program | |
CN112823047A (en) | System and apparatus for controlling web applications | |
JP2019015950A (en) | Voice recognition method, program, voice recognition device, and robot | |
CN114514576A (en) | Data processing method, device and storage medium | |
US20240119930A1 (en) | Artificial intelligence device and operating method thereof | |
JPWO2019044534A1 (en) | Information processing device and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170321 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6129134 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |