JP2016071050A - Voice interactive device, voice interactive system, terminal, voice interactive method, program for letting computer function as voice interactive device - Google Patents

Voice interactive device, voice interactive system, terminal, voice interactive method, program for letting computer function as voice interactive device Download PDF

Info

Publication number
JP2016071050A
JP2016071050A JP2014198740A JP2014198740A JP2016071050A JP 2016071050 A JP2016071050 A JP 2016071050A JP 2014198740 A JP2014198740 A JP 2014198740A JP 2014198740 A JP2014198740 A JP 2014198740A JP 2016071050 A JP2016071050 A JP 2016071050A
Authority
JP
Japan
Prior art keywords
topic
voice
utterance
signal
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014198740A
Other languages
Japanese (ja)
Other versions
JP6129134B2 (en
Inventor
泰貴 畠山
Yasutaka Hatakeyama
泰貴 畠山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2014198740A priority Critical patent/JP6129134B2/en
Publication of JP2016071050A publication Critical patent/JP2016071050A/en
Application granted granted Critical
Publication of JP6129134B2 publication Critical patent/JP6129134B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a voice interactive device that authenticates a user without using a radio tag nor a camera, and replies a topic matching the user according to utterance.SOLUTION: A voice interactive system 10 comprises: a voice recognition module 110 for recognizing voice data based upon utterance; a voice authentication module 120 for determining a speaker based upon utterance; a topic estimation module 130 for estimating a topic corresponding to the determined speaker; and an interaction generation module 140 for generating details of utterance to the user based upon a result (for example, topics of sports that the user's children are interested in, topics of fashion that females are interested in, etc.) of the topic estimation module 130.SELECTED DRAWING: Figure 1

Description

本開示は、音声認識および音声認証に関し、より特定的には、音声認識と音声認証とを同じタイミングで行う技術に関する。   The present disclosure relates to voice recognition and voice authentication, and more specifically, to a technique for performing voice recognition and voice authentication at the same timing.

音声認識技術を用いた装置が知られている。たとえば、特開2011−000681号公報(特許文献1)は、「コミュニケーション対象との親密度に応じて多様なコミュニケーション行動を実行することができるコミュニケーションロボット」を開示している([要約]参照)。   Devices using voice recognition technology are known. For example, Japanese Patent Laying-Open No. 2011-000681 (Patent Document 1) discloses a “communication robot that can execute various communication behaviors according to intimacy with a communication target” (see [Summary]). .

特開2011−000681号公報JP 2011-000681 A

特許文献1に開示された技術によると、コミュニケーションロボットのユーザ認証は、ユーザが持つ無線タグを用いて行なわれる。そのため、同一の無線タグが別人によって用いられた場合、ユーザ認証が正しく行われず、コミュニケーションロボットが不適切に作動する場合もあり得る。したがって、コミュニケーションが適切に行われる技術が必要とされている。 According to the technology disclosed in Patent Document 1, user authentication of a communication robot is performed using a wireless tag possessed by the user. Therefore, when the same wireless tag is used by another person, user authentication may not be performed correctly, and the communication robot may operate inappropriately. Therefore, there is a need for a technology that allows appropriate communication.

本開示は、上述のような問題点を解決するためになされたものであって、ある局面における目的は、ユーザ認証が正確に行われてコミュニケーションが実現される音声対話装置を提供することである。   The present disclosure has been made in order to solve the above-described problems, and an object in one aspect is to provide a voice interactive apparatus in which user authentication is accurately performed and communication is realized. .

他の局面における目的は、ユーザ認証を正確に行ないユーザに応じたコミュニケーションを実現するための音声対話システムを提供することである。   An object in another aspect is to provide a voice interaction system for accurately performing user authentication and realizing communication according to a user.

他の局面における目的は、ユーザ認証を正確に行ないユーザに応じたコミュニケーションを実現するための端末を提供することである。   An object in another aspect is to provide a terminal for accurately performing user authentication and realizing communication according to a user.

他の局面における目的は、ユーザ認証を正確に行ないユーザに応じたコミュニケーションを実現するための音声対話方法を提供することである。   An object in another aspect is to provide a voice interaction method for accurately performing user authentication and realizing communication according to a user.

さらに他の局面における目的は、ユーザ認証が正確に行われてコミュニケーションが実現される音声対話装置としてコンピュータを機能させるためのプログラムを提供することである。   Still another object of the present invention is to provide a program for causing a computer to function as a voice interactive apparatus in which user authentication is accurately performed and communication is realized.

一実施の形態に従う音声対話装置は、発話を認識するように構成された音声認識部と、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、当該話題を音声で出力するように構成された音声出力部とを備える。   A speech dialogue apparatus according to an embodiment is configured to identify a speaker based on a speech recognition unit configured to recognize an utterance, a recognized utterance, and user information registered in advance. A speech estimation unit, a recognized speech, and a topic estimation unit configured to generate a topic that the speaker is interested in based on the identified speaker, and outputs the topic in speech And an audio output unit configured as described above.

他の実施の形態に従う音声対話装置は、発話に基づく音声信号の入力を受け付けるように構成された音声信号入力部と、入力された音声信号に基づいて発話を認識するように構成された音声認識部と、入力された音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、当該話題を音声で出力するための話題信号を出力するように構成された出力部とを備える。   A voice interaction device according to another embodiment includes a voice signal input unit configured to accept an input of a voice signal based on an utterance, and a voice recognition configured to recognize the utterance based on the input voice signal Based on the voice authentication unit configured to identify the speaker, the recognized utterance, and the identified speaker based on the input unit, the input voice signal and the user information registered in advance Thus, a topic estimation unit configured to generate a topic in which the speaker is interested and an output unit configured to output a topic signal for outputting the topic by voice.

他の実施の形態に従うと、音声対話システムが提供される。この音声対話システムは、端末と、端末と通信可能なサーバとを備える。端末は、発話を受け付けて当該発話を認識するように構成された音声認識部と、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するように構成された送信部とを備える。サーバは、音声信号と識別信号とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、当該話題を音声で出力するための話題信号を端末に送信するように構成された話題送信部とを備える。端末は、さらに、サーバから受信する話題信号に基づいて、話題を音声で出力するように構成された出力部を備える。   According to another embodiment, a voice interaction system is provided. This voice interaction system includes a terminal and a server capable of communicating with the terminal. The terminal is configured to identify a speaker based on a speech recognition unit configured to accept an utterance and recognize the utterance, and the recognized utterance and user information registered in advance. An authentication unit; and a transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to the server. The server transmits a topic estimation unit configured to generate a topic in which the speaker is interested based on the voice signal and the identification signal, and a topic signal for outputting the topic as a voice to the terminal. A topic transmission unit configured as described above. The terminal further includes an output unit configured to output the topic by voice based on the topic signal received from the server.

他の実施の形態に従うと、上記の音声対話システムに用いられる端末が提供される。この端末は、発話を認識するように構成された音声認識部と、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するように構成された送信部と、当該発話者が興味を持つ話題を音声で出力するための話題信号をサーバから受信して、話題を音声で出力するように構成された出力部とを備える。   According to another embodiment, a terminal used for the above-described voice interaction system is provided. The terminal includes a voice recognition unit configured to recognize an utterance, a voice authentication unit configured to identify a speaker based on the recognized utterance and pre-registered user information, A transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to the server, and a topic signal for outputting a topic that the speaker is interested in by voice from the server And an output unit configured to receive and output the topic by voice.

好ましくは、音声対話装置は、音声対話装置の各ユーザとの対話の履歴を格納するように構成された記憶部をさらに備える。話題推定部は、当該ユーザとの対話の履歴に基づいて、話題を生成するように構成されている。   Preferably, the voice interaction device further includes a storage unit configured to store a history of interaction with each user of the voice interaction device. The topic estimation unit is configured to generate a topic based on a history of dialogues with the user.

好ましくは、音声対話装置は、音声対話装置のユーザとの対話の履歴に基づいて、当該ユーザと音声対話装置との親密度を算出するように構成された親密度算出部をさらに備える。話題推定部は、親密度に応じて、話題の語調を調整するように構成されている。   Preferably, the voice interaction device further includes a closeness calculation unit configured to calculate a closeness between the user and the voice interaction device based on a history of interaction with the user of the voice interaction device. The topic estimation unit is configured to adjust the tone of the topic according to the familiarity.

他の実施の形態に従うと、音声対話方法が提供される。この方法は、発話を認識するステップと、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、当該話題を音声で出力するステップとを含む。   According to another embodiment, a voice interaction method is provided. This method is based on a step of recognizing an utterance, a step of identifying a speaker based on the recognized utterance and pre-registered user information, a recognized utterance, and an identified speaker. And generating a topic that the speaker is interested in, and outputting the topic as a voice.

他の実施の形態に従う音声対話方法は、発話に基づく音声信号の入力を受け付けるステップと、入力された音声信号に基づいて発話を認識するステップと、入力された音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、当該話題を音声で出力するための話題信号を出力するステップとを含む。   A voice interaction method according to another embodiment includes a step of receiving an input of an audio signal based on an utterance, a step of recognizing an utterance based on the input audio signal, and a user who is registered in advance with the input audio signal A step of identifying a speaker based on the information; a step of generating a topic of interest to the speaker based on the recognized utterance and the identified speaker; and outputting the topic in speech Outputting a topic signal for the purpose.

他の実施の形態に従う音声対話方法は、発話を認識するステップと、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、音声信号と識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号をサーバから受信するステップと、話題信号に基づいて当該話題を音声で出力するステップとを含む。   A speech interaction method according to another embodiment includes a step of recognizing an utterance, a step of identifying a speaker based on the recognized utterance and pre-registered user information, an audio signal based on the utterance, A step of transmitting an identification signal of the identified speaker to the server, and a topic signal for outputting a topic of interest of the speaker, which is estimated based on the voice signal and the identification signal. And a step of outputting the topic by voice based on the topic signal.

他の実施の形態に従うと、コンピュータを音声対話装置として機能させるためのプログラムが提供される。このプログラムは、一つ以上のプロセッサに、発話を認識するステップと、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を音声で出力するための話題信号を生成するステップと、話題信号に基づいて当該話題を音声で出力するステップとを実行させる。   According to another embodiment, a program for causing a computer to function as a voice interaction device is provided. The program includes, in one or more processors, a step of recognizing an utterance, a step of identifying a speaker based on the recognized utterance and pre-registered user information, a recognized utterance, A step of generating a topic signal for outputting a topic in which the speaker is interested in a voice based on the speaker, and a step of outputting the topic in a voice based on the topic signal are executed.

他の実施の形態に従う、コンピュータを音声対話装置として機能させるためのプログラムは、一つ以上のプロセッサに、発話に基づく音声信号の入力を受け付けるステップと、入力された音声信号に基づいて発話を認識するステップと、入力された音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、当該話題を音声で出力するための話題信号を出力するステップとを実行させる。   According to another embodiment, a program for causing a computer to function as a voice interaction apparatus includes a step of accepting an input of an audio signal based on an utterance to one or more processors, and an utterance is recognized based on the input audio signal. And the step of identifying a speaker based on the input voice signal and pre-registered user information, the recognized utterance, and the identified speaker. A step of generating a topic having interest and a step of outputting a topic signal for outputting the topic as a voice are executed.

他の実施の形態に従う、コンピュータを音声対話装置として機能させるためのプログラムは、一つ以上のプロセッサに、発話を認識するステップと、認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、音声信号と識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号をサーバから受信するステップと、話題信号に基づいて当該話題を音声で出力するステップとを実行させる。   A program for causing a computer to function as a voice interaction device according to another embodiment is based on the step of recognizing an utterance by one or more processors, the recognized utterance, and user information registered in advance. A step of identifying a speaker, a step of transmitting an audio signal based on the utterance and an identification signal of the identified speaker to the server, and the speaker estimated based on the audio signal and the identification signal A step of receiving a topic signal for outputting a topic of interest by voice from the server and a step of outputting the topic by voice based on the topic signal are executed.

他の局面に従う音声対話システムは、端末と、サーバとを備える。端末は、発話を認識するように構成された音声認識部と、認識された発話を発話信号に変換するように構成された音声信号変換部と、発話信号をサーバに送信するように構成された送信部とを含む。サーバは、端末から受信した発話信号に基づいて発話を認識するように構成された音声認識部と、発話信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、認識された発話と、特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、当該話題を音声で出力するための話題信号を端末に送信するように構成された送信部とを含む。端末は、さらに、サーバから話題信号を受信するように構成された受信部と、話題信号に基づいて当該話題を音声で出力するように構成された出力部とを含む。   A voice interaction system according to another aspect includes a terminal and a server. The terminal is configured to transmit a speech signal to the server, a speech recognition unit configured to recognize the speech, a speech signal conversion unit configured to convert the recognized speech into a speech signal, and Including a transmitter. The server is configured to identify the speaker based on the speech recognition unit configured to recognize the speech based on the speech signal received from the terminal, and the speech signal and the user information registered in advance. A speech estimation unit, a recognized speech, and a topic estimation unit configured to generate a topic that the speaker is interested in based on the identified speaker, and outputs the topic in speech And a transmitter configured to transmit a topic signal for transmission to the terminal. The terminal further includes a receiving unit configured to receive a topic signal from the server, and an output unit configured to output the topic as a voice based on the topic signal.

他の実施の形態に従うと、上記のシステムに用いる端末が提供される。この端末は、発話を認識するように構成された音声認識部と、認識された発話を発話信号に変換するように構成された音声信号変換部と、発話信号をサーバに送信するように構成された送信部と、発話信号に基づいて生成された話題信号をサーバから受信するように構成された受信部と、話題信号に基づいて、発話に対応する話題を音声で出力するように構成された出力部とを備える。   According to another embodiment, a terminal for use in the above system is provided. The terminal is configured to transmit a speech signal to a server, a speech recognition unit configured to recognize a speech, a speech signal conversion unit configured to convert the recognized speech into a speech signal, and A transmission unit, a reception unit configured to receive a topic signal generated based on the utterance signal from the server, and a topic corresponding to the utterance based on the topic signal. And an output unit.

この発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの発明に関する次の詳細な説明から明らかとなるであろう。   The above and other objects, features, aspects and advantages of the present invention will become apparent from the following detailed description of the present invention taken in conjunction with the accompanying drawings.

音声対話システム10の構成を概念的に表わす図である。1 is a diagram conceptually showing the configuration of a voice interaction system 10. FIG. 音声対話システム10の構成の一例を表わすブロック図である。1 is a block diagram illustrating an example of a configuration of a voice interaction system 10. FIG. コミュニケーション端末200のハードウェア構成を表わすブロック図である。2 is a block diagram showing a hardware configuration of communication terminal 200. FIG. 実施の形態に係るサーバを実現するコンピュータ400のハードウェア構成を表わすブロック図である。It is a block diagram showing the hardware constitutions of the computer 400 which implement | achieves the server which concerns on embodiment. 無線タグを用いた発話に対する音声対話システムの構成の概要を表わす図である。It is a figure showing the outline | summary of a structure of the voice dialogue system with respect to the utterance using a wireless tag. ユーザを音声対話システム10に登録する場合に実行される処理を表わすシーケンスチャートである。3 is a sequence chart showing processing executed when a user is registered in the voice interaction system 10. 発話したユーザに応じた返答が生成される処理を表わすシーケンスチャートである。It is a sequence chart showing the process by which the reply according to the user who uttered is produced | generated. ある局面における興味推定の一例を表わす図である。It is a figure showing an example of the interest estimation in a certain situation. 音声対話システム90の構成の一例を表わすブロック図である。2 is a block diagram illustrating an example of a configuration of a voice interaction system 90. FIG. 音声対話システム10において行なわれる処理を表わすシーケンスチャートである。3 is a sequence chart showing processing performed in the voice interaction system 10. 複数のユーザの各々の興味を推定する方法を概念的に表わす図である。It is a figure which represents notionally the method of estimating each user's interest. 対話履歴記憶部260に保持されるテーブル1200を表わす図である。It is a figure showing the table 1200 hold | maintained at the dialog log | history memory | storage part 260. FIG. 特定のユーザについて抽出されたテーブル1300を表わす図である。It is a figure showing the table 1300 extracted about the specific user. 対話DB部270のデータ構造を表わす図である。It is a figure showing the data structure of dialog DB section 270. ある局面における音声対話システム80による話題推定の概要を表わす図である。It is a figure showing the outline | summary of the topic estimation by the speech dialogue system 80 in a certain situation. 音声対話システム1600の構成を概念的に表わす図である。It is a figure which represents notionally the structure of the voice dialogue system 1600. 複数のユーザそれぞれの発話に基づいて話題を推定する一態様を表わす図である。It is a figure showing the one aspect | mode which estimates a topic based on each user's utterance. 対話DB部1670のデータ構造を概念的に表わす図である。It is a figure which represents the data structure of the dialog DB part 1670 conceptually. 対話履歴記憶部1660におけるデータの格納の一態様を概念的に表わす図である。It is a figure which represents notionally the one aspect | mode of the data storage in the dialog log | history memory | storage part 1660. FIG. サーバ1620が備えるテーブル2000におけるデータの格納の一態様を概念的に表す図である。FIG. 18 is a diagram conceptually illustrating one aspect of data storage in a table 2000 provided in the server 1620. 対話DB部1670のデータ構造を表わす図である。It is a figure showing the data structure of dialog DB part 1670. 音声対話システム2200の構成の一例を表わす図である。It is a figure showing an example of a structure of the voice interactive system 2200. FIG. 親密度算出モジュール2251による親密度の算出を概念的に表わす図である。FIG. 10 is a diagram conceptually illustrating calculation of intimacy by an intimacy calculating module 2251. 親密度に応じて返答が変化する態様を説明する図である。It is a figure explaining the aspect from which a response changes according to familiarity. 音声対話装置2500の構成の概要を表すブロック図である。2 is a block diagram illustrating an outline of a configuration of a voice interaction apparatus 2500. FIG. 音声対話システム2600の構成の概略を表すブロック図である。FIG. 11 is a block diagram illustrating a schematic configuration of a voice interaction system 2600.

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.

<技術思想>
まず、本開示の概要について説明する。開示される技術思想は、以下の通り、3つの要素から構成される。
<Technology>
First, an outline of the present disclosure will be described. The disclosed technical idea is composed of three elements as follows.

(1)音声認識と音声認証とが並列に行なわれる。したがって、ユーザの発話内容の認識と当該ユーザの認証とが同時に行なわれる。   (1) Voice recognition and voice authentication are performed in parallel. Therefore, recognition of the user's utterance content and authentication of the user are performed simultaneously.

(2)ユーザ毎に、対話内容のログに基づいて各ユーザの興味ある話題が推定され、推定された話題に基づく対話が生成される。   (2) For each user, a topic of interest of each user is estimated based on the log of the conversation content, and a dialog based on the estimated topic is generated.

(3)対話数やその頻度に基いて、ロボット(音声対話装置、あるいは音声対話システム)の発話内容が変化する。   (3) The utterance content of the robot (speech dialogue apparatus or voice dialogue system) changes based on the number of dialogues and their frequency.

これらの要素の結果、ユーザは、ロボット(音声対話システム)に親しみを持つことができる。   As a result of these factors, the user can become familiar with the robot (voice interaction system).

たとえば、要素(1)により、当該技術思想が適用される音声対話システムは、カメラや無線タグ等の機器からの情報を使用することなく、ユーザを特定し(音声認証)、また、当該ユーザの発言内容の取得(音声認識)が可能になる。   For example, the voice interaction system to which the technical idea is applied by the element (1) specifies a user without using information from a device such as a camera or a wireless tag (voice authentication), and the user's Acquisition of speech contents (voice recognition) becomes possible.

次に、要素(2)により、ユーザの日々の会話が音声対話システムに記憶され、必要に応じて分析される。音声対話システムは、分析結果に基づいて、各ユーザが興味ある話題(スポーツ、芸能ニュースなど)を他の情報提供装置から取得し、対話しているユーザに応じた話題を当該ユーザに提供することができる。   Then, by element (2), the user's daily conversation is stored in the spoken dialogue system and analyzed as needed. Based on the analysis result, the voice dialogue system acquires a topic (sports, entertainment news, etc.) that each user is interested in from another information providing device, and provides the user with a topic according to the user who is interacting. Can do.

さらに、要素(3)により、音声対話システムとユーザとの対話が長期にかつ定期的に行われることにより、対話内容に応じて、音声対話システムからの発話の表現(言葉づかい、語調等)が変化し得る。その結果、ユーザが音声対話システム(あるいは、音声対話システムに含まれるロボットのような音声入出力端末)に対して親近感を持ち得る。   Furthermore, due to element (3), the dialogue between the spoken dialogue system and the user is carried out over a long period and regularly, so that the expression of speech from the spoken dialogue system (wording, tone, etc.) changes according to the dialogue content Can do. As a result, the user can be familiar with the voice interaction system (or a voice input / output terminal such as a robot included in the voice interaction system).

<音声対話システム10の構成>
図1を参照して、本開示の実施の形態に係る音声対話システム10の技術思想について具体的に説明する。図1は、音声対話システム10の構成を概念的に表わす図である。音声対話システム10は、音声認識モジュール110と、音声認証モジュール120と、話題推定モジュール130と、対話生成モジュール140とを備える。
<Configuration of Spoken Dialog System 10>
With reference to FIG. 1, the technical idea of the spoken dialogue system 10 according to the embodiment of the present disclosure will be specifically described. FIG. 1 is a diagram conceptually showing the configuration of the voice interaction system 10. The voice dialogue system 10 includes a voice recognition module 110, a voice authentication module 120, a topic estimation module 130, and a dialogue generation module 140.

音声対話システム10に対して行なわれたユーザの発話は、音声データに変換される。音声認識モジュール110は、音声データを認識するための処理を実行する。当該処理は特に限られず、様々な周知の音声認識技術が適用可能である。音声認識モジュール110による認識の結果(たとえば認識された話題)は、話題推定モジュール130に入力される。   The user's utterance made to the voice interactive system 10 is converted into voice data. The voice recognition module 110 executes a process for recognizing voice data. The process is not particularly limited, and various known voice recognition techniques can be applied. The recognition result (for example, the recognized topic) by the speech recognition module 110 is input to the topic estimation module 130.

音声対話システム10に対するユーザの発話は、音声認識モジュール110に入力されると同時に音声認証モジュール120に入力される。音声認証モジュール120は、ユーザの発話の音声を認証し、その発話者(音声対話システム10のユーザ)を特定する。したがって、音声の認識と発話者の特定とが、ほぼ同じタイミングで実行される。特定されたユーザは、話題推定モジュール130に入力される。   The user's speech to the voice interaction system 10 is input to the voice recognition module 110 and simultaneously to the voice authentication module 120. The voice authentication module 120 authenticates the voice of the user's utterance and identifies the speaker (user of the voice interaction system 10). Therefore, voice recognition and speaker identification are performed at substantially the same timing. The identified user is input to the topic estimation module 130.

話題推定モジュール130は、音声認識モジュール110によって認識された話題と、音声認証モジュール120によって特定されたユーザとに基づいて、発話を行なったユーザに適切な話題を推定する。たとえば、ユーザが子供である場合には、ニュースを保持するデータベースから当該子供が興味を持つ話題が抽出され、あるいは、当該子供との間で最近交わされた話題が対話履歴から抽出され得る。別の局面において、ユーザが大人の女性である場合には、女性が興味を持つ話題がデータベースから抽出され、あるいは、当該女性との間で過去に交わされた話題が対話履歴から抽出され得る。話題推定モジュール130による推定の結果は、対話生成モジュール140に入力される。   The topic estimation module 130 estimates a topic appropriate for the user who made the utterance based on the topic recognized by the speech recognition module 110 and the user specified by the speech authentication module 120. For example, when the user is a child, a topic in which the child is interested can be extracted from a database holding news, or a topic recently exchanged with the child can be extracted from the conversation history. In another aspect, when the user is an adult woman, topics in which the woman is interested can be extracted from the database, or topics that have been exchanged with the woman in the past can be extracted from the conversation history. The result of estimation by the topic estimation module 130 is input to the dialog generation module 140.

対話生成モジュール140は、話題推定モジュール130による結果(たとえば、子供のユーザが興味を持つスポーツの話題、女性が興味を持つファッションの話題等)に基づいて、ユーザに対する発話の内容を生成する。さらに別の局面において、対話生成モジュール140は、話題推定モジュール130による結果に加えて、当該ユーザと音声対話システム10との親密度をさらに考慮して、ユーザに対する発話の内容を生成する。対話生成モジュール140は、発話の内容を生成すると、音声対話システム10は、当該内容を音声で出力するための信号を生成し、当該信号に基づいて、機器の発話として当該ユーザに返答する。   The dialogue generation module 140 generates the content of the utterance for the user based on the result of the topic estimation module 130 (for example, the topic of sports in which the child user is interested, the topic of fashion in which the woman is interested). In yet another aspect, the dialog generation module 140 generates the content of the utterance for the user in consideration of the closeness between the user and the voice interaction system 10 in addition to the result of the topic estimation module 130. When the dialog generation module 140 generates the content of the utterance, the voice dialog system 10 generates a signal for outputting the content as a voice, and replies to the user as a device utterance based on the signal.

[第1の実施の形態]
<音声対話システム10の構成>
図2を参照して、第1の実施の形態に係る音声対話システム10の構成について説明する。図2は、音声対話システム10の構成の一例を表わすブロック図である。音声対話システム10は、コミュニケーション端末200と、サーバ220とを備える。コミュニケーション端末200は、音声入力部210と、音声出力部211とを含む。
[First Embodiment]
<Configuration of Spoken Dialog System 10>
With reference to FIG. 2, the configuration of the voice interaction system 10 according to the first exemplary embodiment will be described. FIG. 2 is a block diagram illustrating an example of the configuration of the voice interaction system 10. The voice interaction system 10 includes a communication terminal 200 and a server 220. Communication terminal 200 includes an audio input unit 210 and an audio output unit 211.

サーバ220は、制御部230と、音声認識部240と、対話分析部250と、対話履歴記憶部260と、対話DB(Database)部270と、対話生成部280と、音声合成部290とを含む。音声認識部240は、音声認識モジュール241と、話者特定モジュール242とを含む。   The server 220 includes a control unit 230, a speech recognition unit 240, a dialog analysis unit 250, a dialog history storage unit 260, a dialog DB (Database) unit 270, a dialog generation unit 280, and a voice synthesis unit 290. . The voice recognition unit 240 includes a voice recognition module 241 and a speaker identification module 242.

コミュニケーション端末200は、ある局面において、たとえば、ぬいぐるみの外観を備える電子機器として実現される。別の局面において、コミュニケーション端末200は、液晶テレビその他の表示装置であって、予め準備された人の画像を表示可能な装置によっても実現される。この場合、人の画像は、3次元の画像として立体的に表示されてもよい。   The communication terminal 200 is implemented as an electronic device having a stuffed appearance in a certain aspect, for example. In another aspect, communication terminal 200 is also realized by a liquid crystal television or other display device that can display an image of a person prepared in advance. In this case, the human image may be displayed three-dimensionally as a three-dimensional image.

コミュニケーション端末200において、音声入力部210は、コミュニケーション端末200に対する発話の入力を受け付けて、当該発話に応じた信号をサーバ220に送信する。   In the communication terminal 200, the voice input unit 210 receives an utterance input to the communication terminal 200 and transmits a signal corresponding to the utterance to the server 220.

音声出力部211は、サーバ220から送られる信号に基づいてコミュニケーション端末200の発話として音声を出力する。   The voice output unit 211 outputs a voice as an utterance of the communication terminal 200 based on a signal sent from the server 220.

サーバ220において、制御部230は、サーバ220の動作を制御する。
ある局面において、制御部230は、コミュニケーション端末200から送られる信号を処理し、サーバ220における音声認識のため処理後の信号を音声認識部240に送出する。
In the server 220, the control unit 230 controls the operation of the server 220.
In one aspect, control unit 230 processes a signal sent from communication terminal 200 and sends the processed signal to voice recognition unit 240 for voice recognition in server 220.

音声認識部240は、制御部230から送られる音声信号を用いて周知の技術による音声認識処理と当該音声を与えたユーザ(話者)を特定する処理とを実行する。より具体的には、音声認識部240において、音声認識モジュール241は、コミュニケーション端末200が受け付けた音声の認識処理を実行する。話者特定モジュール242は、コミュニケーション端末200が受け付けた音声を発話した話者(コミュニケーション端末200のユーザ)を特定する。たとえば、話者特定モジュール242は、サーバ220において予め登録されているユーザの音声情報(たとえば、既に保存されているユーザ識別情報と声紋データ)と、コミュニケーション端末200によって送られた音声信号(抽出された声紋データ)とを比較して、当該発話者を特定する。   The voice recognition unit 240 executes a voice recognition process using a known technique using a voice signal sent from the control unit 230 and a process of specifying a user (speaker) who has given the voice. More specifically, in the speech recognition unit 240, the speech recognition module 241 executes speech recognition processing accepted by the communication terminal 200. The speaker specifying module 242 specifies a speaker (user of the communication terminal 200) who has spoken the voice received by the communication terminal 200. For example, the speaker identifying module 242 may extract the voice information (for example, user identification information and voiceprint data already stored) of the user registered in advance in the server 220 and the voice signal (extracted) transmitted by the communication terminal 200. And the voiceprint data) are identified.

対話分析部250は、音声認識部240による認識の結果に基づいて、コミュニケーション端末200に対するユーザの発話を分析する。より具体的には、対話分析部250は、音声認識の結果(発話内容)から形態素を切り出し、固有表現の抽出処理を実行する。   The dialog analysis unit 250 analyzes the user's utterance to the communication terminal 200 based on the recognition result by the voice recognition unit 240. More specifically, the dialogue analysis unit 250 cuts out morphemes from the result of speech recognition (utterance content) and executes a specific expression extraction process.

対話履歴記憶部260は、対話分析部250による分析の結果を保持する。より具体的には、対話履歴記憶部260は、ユーザと音声対話システム10との過去の会話、および、それらの会話の結果に基づく形態素、固有表現の出現履歴などを保持する。   The dialogue history storage unit 260 holds the result of the analysis by the dialogue analysis unit 250. More specifically, the dialogue history storage unit 260 holds past conversations between the user and the voice dialogue system 10, morphemes based on the results of those conversations, appearance history of specific expressions, and the like.

対話DB部270は、予め用意された対話文を生成するための対話の入力フレーズと返答フレーズとの対を保持している。対話を生成する際の条件が対話DB部270に与えられると、複数の返答フレーズから当該条件によって特定される状況に応じたフレーズが検索される。   The dialogue DB unit 270 holds a pair of dialogue input phrase and response phrase for generating a prepared dialogue sentence. When a condition for generating a dialog is given to the dialog DB unit 270, a phrase corresponding to the situation specified by the condition is searched from a plurality of response phrases.

対話生成部280は、対話履歴記憶部260に保持されているデータと対話DB部270によって保持されているデータベースとを用いて対話を生成する。より具体的には、対話生成部280は、対話DB部270に与えられるユーザの発話内容によって検索される返答フレーズと対話履歴記憶部260において保持されている対話履歴とを用いて音声対話システム10に対して発話を行なっているユーザとの対話文を生成する。対話文は、たとえば文字列情報として生成される。   The dialog generation unit 280 generates a dialog using the data held in the dialog history storage unit 260 and the database held by the dialog DB unit 270. More specifically, the dialog generation unit 280 uses the response phrase searched based on the user's utterance content given to the dialog DB unit 270 and the dialog history stored in the dialog history storage unit 260 to use the voice dialog system 10. Generate a dialogue with the user who is speaking. The dialogue sentence is generated as character string information, for example.

音声合成部290は、対話生成部280によって生成された対話文を用いて音声合成を行ない、音声対話システム10の発話のためのデータを生成する。   The voice synthesis unit 290 performs voice synthesis using the dialogue sentence generated by the dialogue generation unit 280 and generates data for the speech of the voice dialogue system 10.

制御部230は、音声合成部290によって音声合成されたデータを受け取ると、そのデータをコミュニケーション端末200に送信する。   When control unit 230 receives the data synthesized by speech synthesis unit 290, control unit 230 transmits the data to communication terminal 200.

コミュニケーション端末200において、音声出力部211はその対話文を音声として出力する。   In the communication terminal 200, the voice output unit 211 outputs the dialogue sentence as a voice.

一例として、ある局面において、子供のユーザ201が「ただいま」と発話すると、コミュニケーション端末200は、その発話の内容の入力を受け付けて、サーバ220に音声信号を送信する。サーバ220は、ユーザ201の発話内容について音声認識処理を実行し、発話された内容が「ただいま」であることを音声認識し、また、その発話者がユーザ201(子供)であることを特定する。サーバ220は、そのような音声認識の結果に基づいて「ただいま」に対する対話として「お帰り。学校どうだった?」と発話するための音声合成処理を実行し、処理後の結果をコミュニケーション端末200に送信する。その結果、コミュニケーション端末200は、ユーザ201に対し「お帰り。学校どうだった?」と発話する。   As an example, in a certain situation, when the child user 201 utters “just now”, the communication terminal 200 receives an input of the content of the utterance and transmits an audio signal to the server 220. The server 220 performs a speech recognition process on the utterance content of the user 201, recognizes that the uttered content is “now”, and specifies that the utterer is the user 201 (child). . Based on the result of such speech recognition, the server 220 executes speech synthesis processing for speaking “Return. How was the school?” As a dialogue for “I ’m right now”, and the result of the processing is the communication terminal 200. Send to. As a result, the communication terminal 200 utters “Return. How was the school?” To the user 201.

別の局面において、大人の女性のユーザ202が同じ言葉「ただいま」と発話すると、コミュニケーション端末200は、その発話の音声入力を受け付けて、音声信号をサーバ220に送信する。サーバ220は、当該発話の内容を音声認識するとともに話者を特定する。より具体的には、サーバ220は、「ただいま」との発話内容を認識し、同時に、当該発話の内容がユーザ202(大人の女性)によるものであることを特定する。サーバ220は、そのような音声認識の結果に基づいて「ただいま」に対する対話文を生成する。より具体的には、サーバ220は、ユーザ202による発話の内容に応答するための対話として「お帰り。お仕事お疲れ様」との発話内容を生成する。サーバ220は、その対話文を音声合成すると、合成後の信号をコミュニケーション端末200に送信する。コミュニケーション端末200は、ユーザ202に対し「お帰り。お仕事お疲れ様」と音声で出力する。   In another aspect, when the adult female user 202 utters the same word “I'm right now”, the communication terminal 200 accepts the voice input of the utterance and sends a voice signal to the server 220. The server 220 recognizes the content of the utterance by voice and identifies the speaker. More specifically, the server 220 recognizes the content of the utterance “immediately” and, at the same time, specifies that the content of the utterance is from the user 202 (adult female). The server 220 generates a dialogue sentence for “Now” based on the result of such speech recognition. More specifically, the server 220 generates an utterance content “Return. Thank you for your work” as a dialog for responding to the utterance content by the user 202. When the dialogue is synthesized with the dialogue, the server 220 transmits the synthesized signal to the communication terminal 200. The communication terminal 200 outputs, to the user 202, “Return.

<コミュニケーション端末200の構成>
図3を参照して、本実施の形態に係るコミュニケーション端末200の構成について説明する。図3は、コミュニケーション端末200のハードウェア構成を表わすブロック図である。
<Configuration of communication terminal 200>
With reference to FIG. 3, the configuration of communication terminal 200 according to the present embodiment will be described. FIG. 3 is a block diagram showing a hardware configuration of communication terminal 200.

コミュニケーション端末200は、CPU(Central Processing Unit)20と、アンテナ23と、通信装置24と、操作ボタン25と、カメラ26と、フラッシュメモリ27と、RAM(Random Access Memory)28と、ROM(Read Only Memory)29と、メモリカード駆動装置30と、マイク32と、スピーカ33と、音声信号処理回路34と、モニタ35と、LED(Light Emitting Diode)36と、データ通信インターフェイス37と、バイブレータ38と、加速度センサ39と、アクチュエータ40とを備える。メモリカード駆動装置30には、メモリカード31が装着され得る。   The communication terminal 200 includes a CPU (Central Processing Unit) 20, an antenna 23, a communication device 24, operation buttons 25, a camera 26, a flash memory 27, a RAM (Random Access Memory) 28, and a ROM (Read Only). Memory) 29, memory card drive device 30, microphone 32, speaker 33, audio signal processing circuit 34, monitor 35, LED (Light Emitting Diode) 36, data communication interface 37, vibrator 38, An acceleration sensor 39 and an actuator 40 are provided. A memory card 31 can be attached to the memory card drive device 30.

アンテナ23は、サーバ220によって発信される信号を受信し、または、サーバ220を介して他の通信装置と通信するための信号を送信する。アンテナ23によって受信された信号は、通信装置24によってフロントエンド処理が行なわれた後、処理後の信号は、CPU20に送られる。   The antenna 23 receives a signal transmitted by the server 220 or transmits a signal for communicating with another communication device via the server 220. The signal received by the antenna 23 is subjected to front-end processing by the communication device 24, and the processed signal is sent to the CPU 20.

操作ボタン25は、コミュニケーション端末200に対する操作を受け付ける。操作ボタン25は、たとえば、ハードキーまたはソフトキーとして実現される。操作ボタン25は、ユーザによる操作を受け付けると、その時のコミュニケーション端末200の動作モードに応じた信号をCPU20に送出する。   The operation button 25 receives an operation on the communication terminal 200. The operation button 25 is realized as a hard key or a soft key, for example. When the operation button 25 receives an operation by the user, the operation button 25 sends a signal to the CPU 20 according to the operation mode of the communication terminal 200 at that time.

CPU20は、コミュニケーション端末200に対して与えられる命令に基づいてコミュニケーション端末200の動作を制御するための処理を実行する。コミュニケーション端末200が信号を受信すると、CPU20は、通信装置24から送られた信号に基づいて予め規定された処理を実行し、処理後の信号を音声信号処理回路34に送出する。音声信号処理回路34は、その信号に対して予め規定された信号処理を実行し、処理後の信号をスピーカ33に送出する。スピーカ33は、その信号に基づいて音声を出力する。   The CPU 20 executes a process for controlling the operation of the communication terminal 200 based on a command given to the communication terminal 200. When the communication terminal 200 receives the signal, the CPU 20 executes a predetermined process based on the signal sent from the communication device 24 and sends the processed signal to the audio signal processing circuit 34. The audio signal processing circuit 34 performs predetermined signal processing on the signal, and sends the processed signal to the speaker 33. The speaker 33 outputs sound based on the signal.

マイク32は、コミュニケーション端末200に対する発話を受け付けて、発話された音声に対応する信号を音声信号処理回路34に対して送出する。音声信号処理回路34は、予め規定された処理を当該信号に対して実行し、処理後の信号をCPU20に対して送出する。CPU20は、その信号を送信用のデータに変換し、変換後のデータを通信装置24に対して送出する。通信装置24は、そのデータを用いて送信用の信号を生成し、アンテナ23に向けてその信号を送出する。アンテナ23から発信される信号は、サーバ220に受信される。なお、他の局面において、アンテナ23の代わりに、有線によってサーバ220とコミュニケーション端末200とが接続されていてもよい。   The microphone 32 receives an utterance to the communication terminal 200 and sends a signal corresponding to the uttered voice to the voice signal processing circuit 34. The audio signal processing circuit 34 performs a predetermined process on the signal, and sends the processed signal to the CPU 20. The CPU 20 converts the signal into data for transmission, and sends the converted data to the communication device 24. The communication device 24 generates a signal for transmission using the data, and transmits the signal to the antenna 23. A signal transmitted from the antenna 23 is received by the server 220. In another aspect, instead of antenna 23, server 220 and communication terminal 200 may be connected by wire.

フラッシュメモリ27は、CPU20から送られるデータを格納する。また、CPU20は、フラッシュメモリ27に格納されているデータを読み出し、そのデータを用いて予め規定された処理を実行する。   The flash memory 27 stores data sent from the CPU 20. In addition, the CPU 20 reads data stored in the flash memory 27 and executes a predetermined process using the data.

RAM28は、操作ボタン25に対して行なわれた操作に基づいてCPU20によって生成されるデータを一時的に保持する。ROM29は、コミュニケーション端末200に予め定められた動作を実行させるためのプログラムあるいはデータを格納している。CPU20は、ROM29から当該プログラムまたはデータを読み出し、コミュニケーション端末200の動作を制御する。   The RAM 28 temporarily holds data generated by the CPU 20 based on the operation performed on the operation button 25. The ROM 29 stores a program or data for causing the communication terminal 200 to execute a predetermined operation. The CPU 20 reads the program or data from the ROM 29 and controls the operation of the communication terminal 200.

メモリカード駆動装置30は、メモリカード31に格納されているデータを読み出し、CPU20に送出する。メモリカード駆動装置30は、CPU20によって出力されるデータを、メモリカード31の空き領域に書き込む。   The memory card driving device 30 reads data stored in the memory card 31 and sends it to the CPU 20. The memory card drive device 30 writes the data output by the CPU 20 in the empty area of the memory card 31.

音声信号処理回路34は、上述のような通話のための信号処理を実行する。なお、図3に示される例では、CPU20と音声信号処理回路34とが別個の構成として示されているが、他の局面において、CPU20と音声信号処理回路34とが一体として構成されていてもよい。   The audio signal processing circuit 34 performs signal processing for a call as described above. In the example shown in FIG. 3, the CPU 20 and the audio signal processing circuit 34 are shown as separate configurations. However, in other aspects, the CPU 20 and the audio signal processing circuit 34 may be configured as an integral unit. Good.

モニタ35は、CPU20から取得されるデータに基づいて画像を表示する。モニタ35は、たとえば、フラッシュメモリ27に格納されている静止画像(たとえば、会議資料、契約書その他の電子文書)、動画像、音楽ファイルの属性(当該ファイルの名前、演奏者、演奏時間など)を表示する。静止画像は、描画された画像、デフォルトでコミュニケーション端末200の製造事業者によって予め準備された画像を含み得る。   The monitor 35 displays an image based on data acquired from the CPU 20. The monitor 35 has, for example, still images (for example, conference materials, contracts and other electronic documents), moving images, and music file attributes (name of the file, performer, performance time, etc.) stored in the flash memory 27. Is displayed. The still image may include a drawn image and an image prepared in advance by a manufacturer of the communication terminal 200 by default.

LED36は、CPU20からの信号に基づいて、予め定められた発光動作を実現する。データ通信インターフェイス37は、データ通信用のケーブルの装着を受け付ける。   The LED 36 realizes a predetermined light emission operation based on a signal from the CPU 20. The data communication interface 37 accepts attachment of a data communication cable.

データ通信インターフェイス37は、CPU20から出力される信号を当該ケーブルに対して送出する。あるいは、データ通信インターフェイス37は、当該ケーブルを介して受信されるデータを、CPU20に対して送出する。   The data communication interface 37 sends a signal output from the CPU 20 to the cable. Alternatively, the data communication interface 37 sends data received via the cable to the CPU 20.

バイブレータ38は、CPU20から出力される信号に基づいて、予め定められた周波数で発振動作を実行する。   Vibrator 38 performs an oscillating operation at a predetermined frequency based on a signal output from CPU 20.

加速度センサ39は、コミュニケーション端末200に作用する加速度の方向を検出する。検出結果は、CPU20に入力される。   The acceleration sensor 39 detects the direction of acceleration acting on the communication terminal 200. The detection result is input to the CPU 20.

アクチュエータ40は、CPU20からの信号に基づいて、コミュニケーション端末20の一部の部材(図示しない)を駆動する。たとえば、コミュニケーション端末20が、ぬいぐるみの外観を有する電子機器として実現される場合、アクチュエータ40は、当該ぬいぐるみの手、足、首その他の部分を駆動し得る。これにより、コミュニケーション端末40は、ユーザの発話に応じた動作(うなずき、首振り等)を行ない得る。   The actuator 40 drives some members (not shown) of the communication terminal 20 based on a signal from the CPU 20. For example, when the communication terminal 20 is realized as an electronic device having the appearance of a stuffed toy, the actuator 40 can drive the hand, the leg, the neck, and other parts of the stuffed toy. Thereby, the communication terminal 40 can perform an operation (nodding, swinging, etc.) according to the user's utterance.

なお、本実施の形態に係るコミュニケーション端末200は上述の構成要素を全て備える必要はなく、少なくとも、音声入出力機能と通信機能とを有する情報処理端末であればよい。   Note that the communication terminal 200 according to the present embodiment need not include all the above-described components, and may be any information processing terminal having at least a voice input / output function and a communication function.

<サーバの構成>
図4を参照して、本実施の形態に係るサーバ220の構成について説明する。図4は、実施の形態に係るサーバ220を実現するコンピュータ400のハードウェア構成を表わすブロック図である。
<Server configuration>
With reference to FIG. 4, a configuration of server 220 according to the present embodiment will be described. FIG. 4 is a block diagram illustrating a hardware configuration of a computer 400 that implements the server 220 according to the embodiment.

コンピュータ400は、主たる構成要素として、プログラムを実行するCPU1と、コンピュータ400のユーザによる指示の入力を受けるマウス2およびキーボード3と、CPU1によるプログラムの実行により生成されたデータ、又はマウス2若しくはキーボード3を介して入力されたデータを揮発的に格納するRAM4と、データを不揮発的に格納するハードディスク5と、光ディスク駆動装置6と、通信IF(Interface)7と、モニタ8とを備える。各構成要素は、相互にバスによって接続されている。光ディスク駆動装置6には、CD−ROM9その他の光ディスクが装着され得る。通信IF7は、USB(Universal Serial Bus)インターフェイス、有線LAN(Local Area Network)、無線LAN、Bluetooth(登録商標)インターフェイス等を含むが、これらに限られない。   The computer 400 includes, as main components, a CPU 1 that executes a program, a mouse 2 and a keyboard 3 that receive input of instructions from a user of the computer 400, data generated by execution of a program by the CPU 1, or a mouse 2 or a keyboard 3 A RAM 4 that stores data input via the volatile memory, a hard disk 5 that stores data in a nonvolatile manner, an optical disk drive device 6, a communication IF (Interface) 7, and a monitor 8. Each component is connected to each other by a bus. A CD-ROM 9 and other optical disks can be mounted on the optical disk drive 6. The communication IF 7 includes, but is not limited to, a USB (Universal Serial Bus) interface, a wired LAN (Local Area Network), a wireless LAN, and a Bluetooth (registered trademark) interface.

コンピュータ400における処理は、各ハードウェアおよびCPU1により実行されるソフトウェアによって実現される。このようなソフトウェアは、ハードディスク5に予め格納されている場合がある。また、ソフトウェアは、CD−ROM9その他のコンピュータ読み取り可能な不揮発性のデータ記録媒体に格納されて、プログラム製品として流通している場合もある。あるいは、当該ソフトウェアは、インターネットその他のネットワークに接続されている情報提供事業者によってダウンロード可能なプログラム製品として提供される場合もある。このようなソフトウェアは、光ディスク駆動装置6その他のデータ読取装置によってデータ記録媒体から読み取られて、あるいは、通信IF7を介してダウンロードされた後、ハードディスク5に一旦格納される。そのソフトウェアは、CPU1によってハードディスク5から読み出され、RAM4に実行可能なプログラムの形式で格納される。CPU1は、そのプログラムを実行する。   Processing in the computer 400 is realized by each hardware and software executed by the CPU 1. Such software may be stored in the hard disk 5 in advance. The software may be stored in a CD-ROM 9 or other non-volatile computer-readable data recording medium and distributed as a program product. Alternatively, the software may be provided as a program product that can be downloaded by an information provider connected to the Internet or other networks. Such software is read from the data recording medium by the optical disk drive 6 or other data reading device, or downloaded via the communication IF 7 and then temporarily stored in the hard disk 5. The software is read from the hard disk 5 by the CPU 1 and stored in the RAM 4 in the form of an executable program. The CPU 1 executes the program.

図4に示されるコンピュータ400を構成する各構成要素は、一般的なものである。したがって、本実施の形態に係る本質的な部分は、コンピュータ400に格納されたプログラムであるともいえる。コンピュータ400のハードウェアの動作は周知であるので、詳細な説明は繰り返さない。   Each component constituting the computer 400 shown in FIG. 4 is general. Therefore, it can be said that an essential part according to the present embodiment is a program stored in the computer 400. Since the operation of the hardware of computer 400 is well known, detailed description will not be repeated.

なお、データ記録媒体としては、CD−ROM、FD(Flexible Disk)、ハードディスクに限られず、磁気テープ、カセットテープ、光ディスク(MO(Magnetic Optical Disc)/MD(Mini Disc)/DVD(Digital Versatile Disc))、IC(Integrated Circuit)カード(メモリカードを含む)、光カード、マスクROM、EPROM(Electronically Programmable Read-Only Memory)、EEPROM(Electronically Erasable Programmable Read-Only Memory)、フラッシュROMなどの半導体メモリ等の固定的にプログラムを担持する不揮発性のデータ記録媒体でもよい。   The data recording medium is not limited to a CD-ROM, FD (Flexible Disk), and hard disk, but is a magnetic tape, cassette tape, optical disk (MO (Magnetic Optical Disc) / MD (Mini Disc) / DVD (Digital Versatile Disc)). ), IC (Integrated Circuit) card (including memory card), optical card, mask ROM, EPROM (Electronically Programmable Read-Only Memory), EEPROM (Electronically Erasable Programmable Read-Only Memory), flash ROM, etc. It may be a non-volatile data recording medium that carries a fixed program.

ここでいうプログラムとは、CPUにより直接実行可能なプログラムだけでなく、ソースプログラム形式のプログラム、圧縮処理されたプログラム、暗号化されたプログラム等を含み得る。   The program here may include not only a program directly executable by the CPU but also a program in a source program format, a compressed program, an encrypted program, and the like.

<無線タグを用いた音声対話システム>
図5を参照して、別の局面に従う音声対話システムについて説明する。図5は、無線タグを用いた発話に対する音声対話システムの構成の概要を表わす図である。
<Voice interaction system using wireless tags>
With reference to FIG. 5, a voice interaction system according to another aspect will be described. FIG. 5 is a diagram showing an outline of the configuration of a voice interaction system for utterance using a wireless tag.

音声対話システム50は、コミュニケーション端末500と、サーバ520とを備える。コミュニケーション端末500は、音声入力部210と、音声出力部211と、無線タグ情報送信部510とを含む。サーバ520は、制御部530と、音声認識部540と、ユーザ識別子部541と、対話分析部550と、対話履歴記憶部560と、対話DB部570と、対話生成部580と、音声合成部590とを含む。   The voice interaction system 50 includes a communication terminal 500 and a server 520. Communication terminal 500 includes a voice input unit 210, a voice output unit 211, and a wireless tag information transmission unit 510. The server 520 includes a control unit 530, a voice recognition unit 540, a user identifier unit 541, a dialog analysis unit 550, a dialog history storage unit 560, a dialog DB unit 570, a dialog generation unit 580, and a voice synthesis unit 590. Including.

ある局面において、ユーザ201は、携帯電話501を有している。携帯電話501は、その識別情報としてたとえば無線タグAを有している。ある局面において、ユーザ201が「ただいま」と発話すると、携帯電話501の識別情報(無線タグA)とともにコミュニケーション端末500に入力される。コミュニケーション端末500は、ユーザの発話の内容を認識する。コミュニケーション端末500において、無線タグ情報送信部510は、ユーザ201からの発話に伴う無線タグAを抽出し、その抽出した内容をサーバ520に送信する。サーバ520は、ユーザ201の発話内容「ただいま」と無線タグAとを認識し、ユーザ201に応じた対話が対話生成部580によって生成される。   In one aspect, the user 201 has a mobile phone 501. The cellular phone 501 has, for example, a wireless tag A as its identification information. In a certain situation, when the user 201 speaks “I'm right now”, it is input to the communication terminal 500 together with the identification information (wireless tag A) of the mobile phone 501. The communication terminal 500 recognizes the content of the user's utterance. In the communication terminal 500, the wireless tag information transmission unit 510 extracts the wireless tag A accompanying the utterance from the user 201, and transmits the extracted content to the server 520. The server 520 recognizes the user 201's utterance content “now” and the wireless tag A, and a dialog corresponding to the user 201 is generated by the dialog generation unit 580.

サーバ520は、ユーザ201に対する対話文を生成するとその信号をコミュニケーション端末500に送信する。コミュニケーション端末500は、ユーザ201に対して「お帰り。学校どうだった?」と発話する。   When the server 520 generates a dialogue sentence for the user 201, the server 520 transmits the signal to the communication terminal 500. The communication terminal 500 utters “Return. How was the school?” To the user 201.

別の局面において、大人のユーザ202が、同一の携帯電話501を使用している場合において「ただいま」と発話すると、コミュニケーション端末500は、発話の内容「ただいま」を受け付けるとともに、携帯電話501と通信することにより携帯電話501に関連付けられている無線タグAを取得する。コミュニケーション端末500は、発話の内容「ただいま」と無線タグAとをサーバ520に送信する。すなわち、コミュニケーション端末500は、発話の主体がユーザ201およびユーザ202のいずれであっても、携帯電話501に関連付けられている無線タグAを送信する。サーバ520は、発話の内容「ただいま」と無線タグAとを受信すると、発話者が大人のユーザ202であるにも係わらず、子供のユーザ201による発話が行なわれたと無線タグAを用いて判断する。サーバ520は、ユーザ201に対する対話文と同じ対話文を音声合成する。サーバ520は、「お帰り。学校どうだった?」との対話文をコミュニケーション端末500に送信する。コミュニケーション端末500は、ユーザ202に対して「お帰り。学校どうだった?」と発話することになる。このように、ユーザが所有し得る無線通信端末(たとえば携帯電話501)のように無線タグを用いてユーザを認識する場合、発話者は簡単に他人になりすますことができる。サーバ520は、どのユーザが発話したかを特定することができなくなるため、ユーザに応じた対話文ではなく、携帯電話501に固有な対話文を生成することになる。   In another aspect, when an adult user 202 uses the same mobile phone 501 and utters “immediately”, the communication terminal 500 receives the utterance content “immediately” and communicates with the mobile phone 501. By doing so, the wireless tag A associated with the mobile phone 501 is acquired. The communication terminal 500 transmits the utterance content “Now” and the wireless tag A to the server 520. That is, the communication terminal 500 transmits the wireless tag A associated with the mobile phone 501 regardless of whether the subject of the utterance is the user 201 or the user 202. When the server 520 receives the wireless tag A and the content of the utterance “immediately”, the server 520 determines using the wireless tag A that the utterance is made by the child user 201 even though the speaker is the adult user 202. To do. The server 520 synthesizes the same dialogue sentence as the dialogue sentence for the user 201. The server 520 transmits a dialogue sentence “Return. How was the school?” To the communication terminal 500. The communication terminal 500 speaks to the user 202 “Return. How was the school?” As described above, when a user is recognized using a wireless tag like a wireless communication terminal (for example, a mobile phone 501) that can be owned by the user, the speaker can easily impersonate another person. Since the server 520 cannot identify which user has spoken, the server 520 generates a dialogue sentence unique to the mobile phone 501 instead of a dialogue sentence according to the user.

<制御構造>
図6を参照して、本実施の形態に係る音声対話システム10の制御構造について説明する。図6は、ユーザを音声対話システム10に登録する場合に実行される処理を表わすシーケンスチャートである。
<Control structure>
With reference to FIG. 6, the control structure of the spoken dialogue system 10 according to the present embodiment will be described. FIG. 6 is a sequence chart showing processing executed when a user is registered in the voice interaction system 10.

ステップS610にて、音声対話システム10への登録を求めるユーザは、コミュニケーション端末200に対して音声認証学習のリクエストを送信する。コミュニケーション端末200は、そのリクエストを受信すると、サーバ220との通信を確立し、当該リクエストをサーバ220に送信する。サーバ220の制御部230は、そのリクエストを受信する。   In step S <b> 610, the user who requests registration in the voice interaction system 10 transmits a request for voice authentication learning to the communication terminal 200. When receiving the request, the communication terminal 200 establishes communication with the server 220 and transmits the request to the server 220. The control unit 230 of the server 220 receives the request.

ステップS620にて、サーバ220の制御部230は、音声認証学習のリクエストの受信に応答して、音声認証学習用のメッセージをユーザに通知する。より具体的には、制御部230は、コミュニケーション端末200に対して当該メッセージを送信する。コミュニケーション端末200は、サーバ220から当該メッセージを受信すると、音声出力部211がメッセージを音声で出力する。ユーザは、音声認証のために発話しないといけないメッセージを知ることができる。その後、制御はステップS625に移される。   In step S620, the control unit 230 of the server 220 notifies the user of a voice authentication learning message in response to receiving the voice authentication learning request. More specifically, the control unit 230 transmits the message to the communication terminal 200. When the communication terminal 200 receives the message from the server 220, the voice output unit 211 outputs the message by voice. The user can know the message that must be spoken for voice authentication. Thereafter, control is transferred to step S625.

ステップS625にて、制御部230は、コミュニケーション端末200に対して音声取得を指示する命令を送信する。   In step S625, control unit 230 transmits a command to instruct voice acquisition to communication terminal 200.

ステップS630にて、コミュニケーション端末200は、サーバ220から当該命令を受信すると、発話を促すメッセージをユーザに対して出力する。より具体的には、たとえばコミュニケーション端末200は、発話を促すメッセージ「このメッセージが終わった後に発話をして下さい」を音声で出力する。他の局面において、コミュニケーション端末200は、メッセージをモニタに表示してもよい。さらに他の局面において、コミュニケーション端末200が音声入出力機能と通信機能と駆動機能とを備えるぬいぐるみとして実現される場合、コミュニケーション端末200は、手を耳に当てる仕草のように、発話を促す動作を行なってもよい。   In step S630, upon receiving the command from server 220, communication terminal 200 outputs a message prompting the user to speak. More specifically, for example, the communication terminal 200 outputs a message for prompting utterance “Please speak after this message is finished” by voice. In another aspect, communication terminal 200 may display a message on a monitor. In still another aspect, when communication terminal 200 is realized as a stuffed toy having a voice input / output function, a communication function, and a drive function, communication terminal 200 performs an operation for prompting utterance like a gesture of placing a hand on an ear. You may do it.

ステップS640にて、ユーザは、当該発話を促すメッセージを認識すると、音声認証学習用のメッセージをコミュニケーション端末200に向けて発話する。   In step S640, when the user recognizes the message prompting the utterance, the user utters the voice authentication learning message toward the communication terminal 200.

ステップS650にて、コミュニケーション端末200の音声入力部210は、ユーザによるメッセージの発話の入力を受け付けて、その発話に応じた音声データをサーバ220に送信する。   In step S650, voice input unit 210 of communication terminal 200 receives an input of a message utterance by a user, and transmits voice data corresponding to the utterance to server 220.

ステップS660にて、サーバ220の制御部230は、その音声データの受信を検知すると、音声認識部240に対して当該メッセージの学習リクエストを送信する。音声認識部240は、当該学習リクエストの受信に応答して、音声認識処理と話者特定処理とを実行する。より具体的には、音声認識部240は、音声認識モジュール241としてユーザによって行なわれた発話の内容を音声認識処理する。また、音声認識部240は、話者特定モジュール242として、発話の内容から形態素を抽出し、当該発話を行なった話者を特定するための情報を取得する。   In step S660, when the control unit 230 of the server 220 detects reception of the voice data, the control unit 230 transmits a learning request for the message to the voice recognition unit 240. In response to receiving the learning request, the voice recognition unit 240 performs voice recognition processing and speaker identification processing. More specifically, the voice recognition unit 240 performs voice recognition processing on the content of an utterance made by the user as the voice recognition module 241. In addition, the speech recognition unit 240 extracts, as the speaker identification module 242, morphemes from the content of the utterance and acquires information for identifying the speaker who performed the utterance.

ステップS670にて、音声認識部240は、学習が完了したことを示す学習完了レスポンスを制御部230に送信する。   In step S670, the speech recognition unit 240 transmits a learning completion response indicating that learning is completed to the control unit 230.

ステップS680にて、制御部230は、学習完了レスポンスを受信すると、当該ユーザの学習が完了したことをコミュニケーション端末200に通知する。   In step S680, when receiving the learning completion response, control unit 230 notifies communication terminal 200 that learning of the user has been completed.

ステップS690にて、コミュニケーション端末200は、学習完了を通知するメッセージをユーザに対して発話する。このようにしてユーザ識別のための登録処理が実行される。なお、ステップS610におけるリクエストは、別の局面においては、ユーザが直接サーバに対して行なうものであってもよい。また音声対話システム10にユーザを登録するために用いられる端末はコミュニケーション端末200に限られない。少なくとも音声認識機能とサーバ220との通信機能とを備える情報処理通信端末であればよい。   In step S690, communication terminal 200 utters a message notifying completion of learning to the user. In this way, registration processing for user identification is executed. In another aspect, the request in step S610 may be made directly by the user to the server. A terminal used for registering a user in the voice interaction system 10 is not limited to the communication terminal 200. Any information processing communication terminal having at least a voice recognition function and a communication function with the server 220 may be used.

上記のような処理は、コミュニケーション端末200およびサーバ220にユーザを登録するための処理プログラムが予め実行されている場合に実現される。また、ユーザを登録するための処理を開始するトリガは、ユーザによる特定の発話(ユーザ登録希望など)、あるいは、コミュニケーション端末200またはサーバ220の入力スイッチその他入力操作等であってもよい。   The above processing is realized when a processing program for registering a user in the communication terminal 200 and the server 220 is executed in advance. The trigger for starting the process for registering the user may be a specific utterance (such as user registration request) by the user, an input switch of the communication terminal 200 or the server 220, or other input operation.

図7を参照して、本実施の形態に係るユーザ識別に基づく発話シーケンスについて説明する。図7は、発話したユーザに応じた返答が生成される処理を表わすシーケンスチャートである。   With reference to FIG. 7, an utterance sequence based on user identification according to the present embodiment will be described. FIG. 7 is a sequence chart showing a process of generating a response according to the user who spoke.

ステップS710にて、ユーザがコミュニケーション端末200に対して発話する。
ステップS720にて、コミュニケーション端末200は、ユーザの発話の入力を受け付けると、当該発話に応じた音声データをサーバ220に送信する。
In step S710, the user speaks to communication terminal 200.
In step S <b> 720, when receiving an input of the user's utterance, communication terminal 200 transmits voice data corresponding to the utterance to server 220.

ステップS730にて、サーバ220の制御部230は、コミュニケーション端末200からの音声データの受信を検知すると、当該音声データを認識するリクエストを音声認識部240に送信する。   In step S730, when the control unit 230 of the server 220 detects reception of voice data from the communication terminal 200, the control unit 230 transmits a request for recognizing the voice data to the voice recognition unit 240.

ステップS740にて、音声認識部240は、当該認識のリクエストに応答して、発話の内容を認識するための音声認識処理と、発話者を特定するための話者特定処理と、を実行する。さらに、音声認識部240は、音声認識の結果および話者特定の結果を認識レスポンスとして制御部230に送信する。   In step S740, in response to the recognition request, the speech recognition unit 240 executes speech recognition processing for recognizing the content of the utterance and speaker identification processing for identifying the speaker. Further, the voice recognition unit 240 transmits the result of voice recognition and the result of speaker identification to the control unit 230 as a recognition response.

ステップS750にて、制御部230は、認識レスポンスの受信に応答して、分析生成リクエストを対話分析部250および対話生成部280にそれぞれ送信する。対話分析部250は、そのリクエストを受信すると、対話履歴記憶部260を参照して当該ユーザの過去の対話の履歴を抽出する。対話生成部280は、生成リクエストの受信に応答して対話履歴記憶部260に保持されている対話履歴と対話DB部270に保持されている対話のデータベースとを用いて、当該発話を行なったユーザに固有の対話文を生成する。   In step S750, in response to receiving the recognition response, control unit 230 transmits an analysis generation request to dialog analysis unit 250 and dialog generation unit 280, respectively. When the dialog analysis unit 250 receives the request, the dialog analysis unit 250 refers to the dialog history storage unit 260 and extracts the past dialog history of the user. The dialogue generation unit 280 uses the dialogue history held in the dialogue history storage unit 260 and the dialogue database held in the dialogue DB unit 270 in response to receiving the generation request, and the user who made the utterance Generate a dialog sentence specific to.

ステップS760にて、対話分析部250および対話生成部280は、発話の分析の結果と生成した対話とを制御部230に送信する。制御部230は、分析の結果と生成された対話との受信に基づいて音声合成部290に当該対話文の音声合成を実行させる。音声合成部290が発話に対する返答を音声合成処理により生成する。ステップS770にて、制御部230は、音声合成部290によって生成された返答フレーズをコミュニケーション端末200に送信する。   In step S760, dialog analysis unit 250 and dialog generation unit 280 transmit the result of the utterance analysis and the generated dialog to control unit 230. The control unit 230 causes the speech synthesis unit 290 to perform speech synthesis of the dialogue sentence based on the reception of the analysis result and the generated dialogue. The speech synthesizer 290 generates a response to the utterance by speech synthesis processing. In step S770, control unit 230 transmits the response phrase generated by speech synthesis unit 290 to communication terminal 200.

ステップS780にて、コミュニケーション端末200は、返答フレーズをサーバ220から受信すると、当該返答フレーズをユーザに発話する。これにより、音声対話システム10に対する発話を行なったユーザに固有な対話が実現され得る。   In step S780, when receiving a response phrase from server 220, communication terminal 200 utters the response phrase to the user. Thereby, the dialog peculiar to the user who performed the utterance to the voice dialog system 10 can be realized.

<興味推定>
図8を参照して、本実施の形態に係る音声対話システム10の一例としてユーザ識別に基づくユーザに合わせた返答を行なう場合(興味推定)の概要について説明する。図8は、ある局面における興味推定の一例を表わす図である。ある局面に従う音声対話システム80は、コミュニケーション端末500とサーバ820とを備える。コミュニケーション端末500は、音声入力部210と音声出力部211と無線タグ情報送信部510とを含む。サーバ820は、制御部530と、音声認識部540と、対話分析部850と、対話生成部880と、対話DB部570と、音声合成部590とを含む。
<Interest estimation>
With reference to FIG. 8, an outline of a case where a reply tailored to a user based on user identification (interest estimation) is described as an example of the voice interaction system 10 according to the present embodiment. FIG. 8 is a diagram illustrating an example of interest estimation in a certain situation. A voice interaction system 80 according to an aspect includes a communication terminal 500 and a server 820. Communication terminal 500 includes an audio input unit 210, an audio output unit 211, and an RFID tag information transmission unit 510. Server 820 includes a control unit 530, a speech recognition unit 540, a dialog analysis unit 850, a dialog generation unit 880, a dialog DB unit 570, and a speech synthesis unit 590.

図8に示される例は、音声対話システム80が発話を行なったユーザを特定できず、当該ユーザの興味を知ることができない場合である。この場合、ユーザ201がコミュニケーション端末500に対して「ニュースを教えて」と発話すると、コミュニケーション端末500はサーバ820と通信し、「ニュースを教えて」に対する適切な応答としてたとえば最新のニュース「今日、日本代表がギリシャと引分けたよ」を特定する。サーバ820がその対話の結果をコミュニケーション端末500に送信すると、コミュニケーション端末500は、ユーザ201に対して「今日、日本代表がギリシャと引分けたよ」と発話する。   The example shown in FIG. 8 is a case where the voice conversation system 80 cannot identify the user who made the utterance and cannot know the user's interest. In this case, when the user 201 utters “tell news” to the communication terminal 500, the communication terminal 500 communicates with the server 820, and as an appropriate response to “tell news”, for example, the latest news “Today, The Japanese national team drew with Greece. When the server 820 transmits the result of the dialogue to the communication terminal 500, the communication terminal 500 speaks to the user 201 “Today, the Japanese representative has drawn with Greece”.

このような音声対話システム80に対して別のユーザ(たとえば大人の女性のユーザ202)が同じ問いかけ「ニュースを教えて」を発すると、コミュニケーション端末500はサーバ820と通信する。このとき、最新のニュースが更新されていない場合には、サーバ820は、「ニュースを教えて」に対する対話としてユーザ201に対して出力された結果「今日、日本代表がギリシャと引分けたよ」との発話を特定する。その結果、コミュニケーション端末500は、大人の女性のユーザ202に対しても「今日、日本代表がギリシャと引分けたよ」と発話することになる。すなわち、ユーザの種類や興味に係わらず、同様の発話(同じキーワードを有する発話)に対しては音声対話システム80は同じ返答を行なうことになる。   When another user (for example, an adult female user 202) issues the same question “tell news” to such a voice interaction system 80, the communication terminal 500 communicates with the server 820. At this time, if the latest news has not been updated, the server 820 outputs the result of the dialogue to the user 201 as “Tell me the news” “Today, the Japanese representative has drawn with Greece” Identify utterances. As a result, the communication terminal 500 speaks to the adult female user 202 as “Today, the Japanese representative has drawn with Greece”. In other words, regardless of the type and interest of the user, the voice interaction system 80 makes the same response to the same utterance (an utterance having the same keyword).

<音声対話システム90の構成>
図9を参照して、本実施の形態に従う音声対話システム90について説明する。図9は、音声対話システム90の構成の一例を表わすブロック図である。音声対話システム90は、ユーザ識別に基づきユーザに合わせた返答をすることができる。音声対話システム90は、コミュニケーション端末200と、サーバ920とを備える。コミュニケーション端末200は、音声入力部210と、音声出力部211とを含む。サーバ920は、サーバ220の構成に対して、対話生成部280の代わりに対話生成部980を備える。対話生成部980は、興味推定モジュール990を含む。
<Configuration of Spoken Dialog System 90>
With reference to FIG. 9, a spoken dialogue system 90 according to the present embodiment will be described. FIG. 9 is a block diagram illustrating an example of the configuration of the voice interaction system 90. The voice interaction system 90 can make a response tailored to the user based on the user identification. The voice interaction system 90 includes a communication terminal 200 and a server 920. Communication terminal 200 includes an audio input unit 210 and an audio output unit 211. The server 920 includes a dialog generation unit 980 instead of the dialog generation unit 280 with respect to the configuration of the server 220. The dialog generation unit 980 includes an interest estimation module 990.

ある局面において、ユーザ201がコミュニケーション端末200に対して「ニュースを教えて」と発話すると、コミュニケーション端末200はサーバ920と通信し、ユーザ201の興味と発話内容(ニュースを教えて)とに応じた対話を生成する。より具体的には、対話生成部980において、興味推定モジュール990は、ユーザ201に固有の興味と、発話の内容(ニュースを教えて)とに基づいて、ユーザ201の興味を推定する。たとえば、興味推定モジュール990は、ユーザ201の興味としてスポーツが含まれることを対話履歴記憶部260から検知する。興味推定モジュール990は、そのような検知結果に基づいて、ユーザ201に応じた対話を生成する。たとえば、興味推定モジュール990は、対話DB部270に保持されているデータ(スポーツに特化したニュース)を参照して、「今日、日本代表がギリシャと引分けたよ」との対話を生成する。サーバ920がそのような興味推定の結果に基づいてユーザ201の興味に固有な対話を生成し、当該対話の音声合成を行なうと、コミュニケーション端末200はユーザ201に対して「今日、日本代表がギリシャと引分けたよ」と発話する。   In a certain situation, when the user 201 utters “tell news” to the communication terminal 200, the communication terminal 200 communicates with the server 920 in accordance with the interest of the user 201 and the content of the utterance (tell news). Create a conversation. More specifically, in the dialog generation unit 980, the interest estimation module 990 estimates the interest of the user 201 based on the interest unique to the user 201 and the content of the utterance (tell the news). For example, the interest estimation module 990 detects from the dialogue history storage unit 260 that sports are included as the interest of the user 201. The interest estimation module 990 generates a dialog corresponding to the user 201 based on such a detection result. For example, the interest estimation module 990 refers to the data held in the dialogue DB unit 270 (sports-specific news), and generates a dialogue “Today the Japanese representative has drawn with Greece”. When the server 920 generates a dialogue unique to the interest of the user 201 based on the result of the interest estimation and performs speech synthesis of the dialogue, the communication terminal 200 gives the user 201 “Today, the Japanese representative is Greek. "I was drawn."

別の局面において、大人の女性のユーザ202が「ニュースを教えて」と発話すると、コミュニケーション端末200はサーバ920に発話の内容を送信する。サーバ920において、興味推定モジュール990は、発話者に応じた対話を生成する。より具体的には、まず、興味推定モジュール990は、「ニュースを教えて」との発話を行なったユーザ202が大人の女性であることを特定し、当該ユーザ202の興味(たとえば芸能関係)を特定する。興味推定モジュール990は、対話DB部270にアクセスして、芸能関係の最新のニュースを特定する。対話生成部980は、ユーザ202に応じた対話として芸能関係のニュースを特定すると、「ニュースを教えて」に対する対話「大島優子卒業わずか9日でサプライズ復帰だって」と生成する。サーバ920が、生成した対話をコミュニケーション端末200に送信すると、コミュニケーション端末200はユーザ202に対して「大島優子卒業。わずか9日でサプライズ復帰だって」と発話する。このように、音声対話システム90は、発話者に応じた発話を行なうことになる。   In another aspect, when the adult female user 202 utters “Tell me the news”, the communication terminal 200 transmits the content of the utterance to the server 920. In the server 920, the interest estimation module 990 generates a dialog corresponding to the speaker. More specifically, first, the interest estimation module 990 specifies that the user 202 who made the utterance “tell me the news” is an adult woman, and the interest (for example, entertainment related) of the user 202 is specified. Identify. The interest estimation module 990 accesses the dialogue DB unit 270 and identifies the latest entertainment-related news. When the dialogue-related unit 980 identifies entertainment-related news as a dialogue according to the user 202, the dialogue generation unit 980 generates a dialogue “Tell me the news” “Yushima Oshima graduated just 9 days after a surprise return”. When the server 920 transmits the generated dialog to the communication terminal 200, the communication terminal 200 utters to the user 202 “Yuko Oshima graduated. In this way, the voice interaction system 90 performs an utterance according to the speaker.

音声対話システム90は、コミュニケーション端末200に対するユーザの過去の発話内容(たとえばサッカーの話を数多くしていたり、芸能関係の話を多くしていたりするなど)の情報をこれまでの発話情報から解析し履歴として保持する。これにより、音声対話システム90は、複数のユーザのそれぞれに応じた興味のある発話が可能となる。   The voice dialogue system 90 analyzes information on the user's past utterance contents (for example, a lot of soccer talks or a lot of entertainment-related talks) from the utterance information so far. Keep as history. As a result, the voice interaction system 90 can make an interesting utterance according to each of a plurality of users.

<制御構造>
図10を参照して、音声対話システム90の制御構造について説明する。図10は、音声対話システム10において行なわれる処理を表わすシーケンスチャートである。なお、前述の処理と同一の処理には同一のステップ番号を付してある。したがって、同じ処理の説明は繰り返さない。
<Control structure>
With reference to FIG. 10, the control structure of the voice interaction system 90 will be described. FIG. 10 is a sequence chart showing processing performed in the voice interaction system 10. The same steps as those described above are denoted by the same step numbers. Therefore, the description of the same process will not be repeated.

ステップS1010にて、対話分析部250および対話生成部280は、対話履歴記憶部260に対して興味取得リクエストを送信する。対話履歴記憶部260は、興味取得リクエストから、認識されたユーザに固有の興味を抽出する。   In step S1010, dialog analysis unit 250 and dialog generation unit 280 transmit an interest acquisition request to dialog history storage unit 260. The dialogue history storage unit 260 extracts an interest unique to the recognized user from the interest acquisition request.

ステップS1020にて、対話履歴記憶部260は、対話分析部250および対話生成部980に対して興味取得レスポンスを送信する。より具体的には、対話履歴記憶部260は、興味取得リクエストに含まれる当該ユーザに固有の興味を参照して、対話生成部980を介して、対話DB部270から当該興味を抽出し、その抽出結果を対話分析部250および対話生成部280に送信する。   In step S1020, dialog history storage unit 260 transmits an interest acquisition response to dialog analysis unit 250 and dialog generation unit 980. More specifically, the dialogue history storage unit 260 extracts the interest from the dialogue DB unit 270 via the dialogue generation unit 980 with reference to the interest specific to the user included in the interest acquisition request, and The extraction result is transmitted to the dialog analysis unit 250 and the dialog generation unit 280.

ステップS1030にて、制御部230は、対話ログ保存リクエストを対話履歴記憶部260に送信する。より具体的には、制御部230は、対話ログを保存するリクエストと、保存の対象となる対話ログ(または対話ログを識別するためのデータ)とを対話履歴記憶部260に送信する。   In step S1030, control unit 230 transmits a dialogue log storage request to dialogue history storage unit 260. More specifically, the control unit 230 transmits a request to save the dialogue log and a dialogue log (or data for identifying the dialogue log) to be saved to the dialogue history storage unit 260.

ステップS1040にて、対話履歴記憶部260は、当該リクエストの受信に基づいて、当該リクエストにより特定される対話ログを保存する。   In step S1040, dialogue history storage section 260 saves a dialogue log specified by the request based on the reception of the request.

<興味を推定する方法>
図11を参照して、音声対話システムのユーザの興味推定法について説明する。図11は、複数のユーザの各々の興味を推定する方法を概念的に表わす図である。
<Method of estimating interest>
With reference to FIG. 11, a user's interest estimation method of the voice interaction system will be described. FIG. 11 is a diagram conceptually showing a method for estimating the interest of each of a plurality of users.

ある局面においてユーザ201は、音声対話システム90に対して「新しいゲーム知ってる?」と発話する。音声対話システム90は、発話者(ユーザ201)を特定し、発話の内容(新しいゲーム知ってる?)を認識すると、発話に含まれるキーワード(たとえば名詞「ゲーム」)を抽出し、対話履歴記憶部260にキーワード「ゲーム」をユーザ201に関連付けて格納する。   In one aspect, the user 201 utters “Do you know a new game?” To the voice interaction system 90. When the spoken dialogue system 90 identifies the speaker (user 201) and recognizes the content of the utterance (Do you know a new game?), The voice dialogue system 90 extracts a keyword (for example, a noun “game”) included in the utterance, and stores the dialogue history storage unit. The keyword “game” is stored in 260 in association with the user 201.

別の局面において、別のユーザ202が音声対話システム90に対して「新しいカフェが近所にできたんだって」と発話すると、サーバ920は、キーワード「カフェ」を抽出し、その抽出したキーワードとユーザ202の識別情報とを関連付けて対話履歴記憶部260に格納する。   In another aspect, when another user 202 speaks to the voice interaction system 90 that “a new cafe has been created in the neighborhood”, the server 920 extracts the keyword “cafe” and the extracted keyword and the user 202. Are stored in the dialogue history storage unit 260 in association with each other.

このようにして、対話履歴記憶部260は、ユーザ毎に、当該ユーザの発話中に含まれるキーワード(たとえば名詞)を順次蓄積していく。   In this manner, the dialogue history storage unit 260 sequentially accumulates keywords (for example, nouns) included in the user's utterance for each user.

興味推定モジュール990は、対話履歴記憶部260に格納されている各ユーザの発話内容に含まれる名詞の出現回数と、出現時刻とに基づいてスコア付けを行なう。興味推定モジュール990は、スコアが高いものから当該ユーザの興味ある事象として扱う。たとえば、興味推定モジュール990は、より直近の一定期間に出現する名詞のスコアが高くなるように係数を設定する。係数の設定方法は、たとえば比例的にあるいはステップ関数的に増加するように設定され得る。   The interest estimation module 990 performs scoring based on the number of appearances of the noun included in the utterance content of each user stored in the dialogue history storage unit 260 and the appearance time. The interest estimation module 990 treats the user as an event of interest from the highest score. For example, the interest estimation module 990 sets the coefficient so that the score of a noun that appears in a more recent fixed period is higher. The coefficient setting method can be set to increase proportionally or stepwise, for example.

<データ構造>
図12および図13を参照して、本実施の形態に係る音声対話システム90のデータ構造について説明する。図12は、対話履歴記憶部260に保持されるテーブル1200を表わす図である。図13は、特定のユーザについて抽出されたテーブル1300を表わす図である。
<Data structure>
With reference to FIG. 12 and FIG. 13, the data structure of the voice interaction system 90 according to the present embodiment will be described. FIG. 12 is a diagram showing a table 1200 held in the dialogue history storage unit 260. FIG. 13 is a diagram showing a table 1300 extracted for a specific user.

図12に示されるように、テーブル1200は、対話履歴興味記録テーブルとして作成され更新される。テーブル1200は、レコードID1210と、ユーザID1220と、話者1230と、興味名詞1240と、タイムスタンプ1250とを含む。レコードID1210は、音声対話システム90と各ユーザとによって行なわれた対話を識別する。ユーザID1220は、音声対話システム90に登録されている。ユーザを識別する。話者1230は、当該発話を行なったユーザの名前である。興味名詞1240は、当該ユーザが関心を持つ名詞を表わす。タイムスタンプ1250は、当該発話が認識された時刻を特定する。タイムスタンプ1250を用いて、レコードの抽出対象となる期間を適宜設定することができる。   As shown in FIG. 12, the table 1200 is created and updated as a dialog history interest record table. The table 1200 includes a record ID 1210, a user ID 1220, a speaker 1230, an interest noun 1240, and a time stamp 1250. The record ID 1210 identifies a dialogue performed by the voice dialogue system 90 and each user. The user ID 1220 is registered in the voice interaction system 90. Identifies the user. The speaker 1230 is the name of the user who made the utterance. The interest noun 1240 represents a noun that the user is interested in. The time stamp 1250 specifies the time when the utterance is recognized. The time stamp 1250 can be used to appropriately set a period from which records are to be extracted.

図13を参照して、テーブル1300は、レコードID1210と、ユーザID1220と、話者1230と、興味名詞1240と、タイムスタンプ1250とを含む。たとえば、音声対話システム90のユーザとしてユーザID1220が「12344312」と特定されると、テーブル1300に示されるように、当該ユーザIDの値を有する各レコードが抽出される。このユーザは、興味として、たとえば「音楽」、「きゃりーぱみゅぱみゅ」、「サマーソニック」を有していることがわかる。   Referring to FIG. 13, table 1300 includes record ID 1210, user ID 1220, speaker 1230, interest noun 1240, and time stamp 1250. For example, when the user ID 1220 is specified as “12344312” as the user of the voice interaction system 90, each record having the value of the user ID is extracted as shown in the table 1300. It can be seen that this user has, for example, “music”, “kyary pamyu pamyu”, and “summer sonic” as interests.

図14を参照して、音声対話システム90のデータ構造についてさらに説明する。図14は、対話DB部270のデータ構造を表わす図である。対話DB部270は、入力フレーズ1110と、興味名詞1120と、出力フレーズ1130とを含む。入力フレーズ1110は、音声対話システム90に対して入力された発話内容を表わす。   The data structure of the voice interaction system 90 will be further described with reference to FIG. FIG. 14 is a diagram showing the data structure of dialog DB unit 270. The dialogue DB unit 270 includes an input phrase 1110, an interest noun 1120, and an output phrase 1130. The input phrase 1110 represents the utterance content input to the voice interactive system 90.

興味名詞1120は、対話履歴記憶部260に格納されている興味名詞1240に相当する。出力フレーズ1130は、興味名詞1120のそれぞれに応じて関連付けられているユーザに対する応答内容を表わす。   The interest noun 1120 corresponds to the interest noun 1240 stored in the dialogue history storage unit 260. The output phrase 1130 represents the response content for the user associated with each of the interest nouns 1120.

[実施の形態の効果]
以上のようにして、本実施の形態によれば、ユーザがRFIDを所持することを要求したり、音声対話システムにカメラを導入することなく、ユーザの認証とそのユーザに合わせた話題の提供が可能となる。音声対話システムは、そのユーザが過去に話したこと、あるいは、関連することを提供できるので、ユーザと音声対話システムとの円滑な会話が可能となる。
[Effect of the embodiment]
As described above, according to the present embodiment, it is possible to authenticate a user and provide a topic tailored to the user without requiring the user to possess an RFID or introducing a camera to the voice interaction system. It becomes possible. Since the voice interaction system can provide what the user has spoken or related in the past, a smooth conversation between the user and the voice interaction system is possible.

ユーザが定期的かつ長期的に使用することにより、音声対話システムを構成するロボット(コミュニケーション端末200)の発話内容がより親近感を持つものへと変化する。ロボットがユーザの興味ある内容に基づいて返答することにより、ユーザがロボットに対して親しみや愛着を持つことが可能となる。   When the user uses it regularly and for a long period of time, the utterance content of the robot (communication terminal 200) constituting the voice interaction system changes to something more familiar. When the robot responds based on the content that the user is interested in, it becomes possible for the user to be familiar with and attached to the robot.

[第2の実施の形態]
以下、第2の実施の形態について説明する。第2の実施の形態に係る音声対話システムでは、特定のユーザの話題が推定され得る。
[Second Embodiment]
Hereinafter, a second embodiment will be described. In the voice interactive system according to the second embodiment, the topic of a specific user can be estimated.

<話題推定>
図15を参照して、ユーザ識別に基づきユーザに合わせた返答する他の対応(話題推定)について説明する。図15は、ある局面における音声対話システム80による話題推定の概要を表わす図である。
<Topic estimation>
With reference to FIG. 15, another response (topic estimation) that responds to the user based on the user identification will be described. FIG. 15 is a diagram showing an outline of topic estimation by the voice interaction system 80 in a certain situation.

ユーザ1501が音声対話システム80に対して、「週末、京都旅行なんだ」と発話する(発話1510)。音声対話システム80は、発話1510を認識すると、コミュニケーション端末500が「京都といえば金閣だよね」と発話する(発話1520)。その後、ユーザ1501が「お勧めのお土産あるかな?」と発話すると(発話1530)、音声対話システム80は発話1530の音声を認識し、その認識結果に基づいて、コミュニケーション端末500は、メッセージ「何のお土産?」を音声で出力する(発話1540)。   The user 1501 utters “I'm traveling to Kyoto on the weekend” to the voice interaction system 80 (utterance 1510). When the voice conversation system 80 recognizes the utterance 1510, the communication terminal 500 utters “Kyoto is a golden pavilion” (utterance 1520). Thereafter, when the user 1501 utters “Is there a recommended souvenir?” (Utterance 1530), the voice dialogue system 80 recognizes the voice of the utterance 1530, and based on the recognition result, the communication terminal 500 displays the message “ "What souvenir?" Is output by voice (utterance 1540).

発話1540の内容から明らかなように、音声対話システム80は、ユーザ1501が直前まで話していた話題を知らないため、ユーザが正確に表現する必要がある。   As is clear from the content of the utterance 1540, the voice dialogue system 80 does not know the topic that the user 1501 has spoken until immediately before, so the user needs to express it accurately.

<音声対話システム1600の構成>
そこで、図16を参照して、本実施の形態に従う音声対話システム1600について説明する。図16は、音声対話システム1600の構成を概念的に表わす図である。音声対話システム1600は、コミュニケーション端末200と、サーバ1620とを備える。サーバ1620は、図2に示されるサーバ220の構成に対して、対話履歴記憶部260に代えて、対話履歴記憶部1660を備える。また、サーバ1620は、対話生成部1680と対話DB部1670とを備える。対話生成部1680は、話題推定モジュール1690を含む。なお、本実施の形態に係る音声対話システム1600の他の構成は、音声対話システム90の構成と同じである。したがって、同じ構成の説明は繰り返さない。
<Configuration of Spoken Dialog System 1600>
Therefore, with reference to FIG. 16, a spoken dialogue system 1600 according to the present embodiment will be described. FIG. 16 is a diagram conceptually showing the configuration of the voice interaction system 1600. The voice interaction system 1600 includes a communication terminal 200 and a server 1620. The server 1620 includes a dialogue history storage unit 1660 instead of the dialogue history storage unit 260 in the configuration of the server 220 shown in FIG. The server 1620 also includes a dialog generation unit 1680 and a dialog DB unit 1670. Dialog generation unit 1680 includes a topic estimation module 1690. The other configuration of the voice interaction system 1600 according to the present embodiment is the same as the configuration of the voice interaction system 90. Therefore, the description of the same configuration will not be repeated.

本実施の形態に係る音声対話システム1600において、ユーザ1501が「週末、京都旅行なんだ」とコミュニケーション端末200に対して発話すると(発話1510)、コミュニケーション端末200は、「京都といえば金閣だよね」をユーザ1501に返す(発話1520)。ユーザ1501が「お勧めのお土産あるかな?」とコミュニケーション端末1200に返すと(発話1530)、音声対話システム1600は、過去の履歴と話題とに基づいて、僕は八つ橋がお勧めだよ」とユーザ1501に返答する(発話1640)。   In voice dialogue system 1600 according to the present embodiment, when user 1501 utters “communication on weekends in Kyoto” with respect to communication terminal 200 (utterance 1510), communication terminal 200 says “Kyoto is Kinkaku”. Is returned to the user 1501 (utterance 1520). When the user 1501 returns “Is there a recommended souvenir?” To the communication terminal 1200 (utterance 1530), the voice dialogue system 1600 recommends Yatsuhashi based on the past history and topic. ”To the user 1501 (utterance 1640).

すなわち、音声対話システム1600によると、サーバ1620は、ユーザ1501と音声対話システム1600との間で直前まで話されていた話題(たとえば、京都に関する話)を参照することができるため、ユーザ1501に対応した、より自然な対話が可能となる。   That is, according to the voice dialogue system 1600, the server 1620 can refer to the topic (for example, a story about Kyoto) that has been spoken immediately before between the user 1501 and the voice dialogue system 1600. A more natural dialogue.

なお、音声対話システム1600による話題推定を用いた発話のシーケンスは、興味推定を用いた発話シーケンス(図10)と同様である。したがって、音声対話システム1600の発話シーケンスの説明は繰り返さない。   Note that the utterance sequence using topic estimation by the voice interaction system 1600 is the same as the utterance sequence using interest estimation (FIG. 10). Therefore, the description of the utterance sequence of the voice interaction system 1600 will not be repeated.

<話題推定法>
図17を参照して、音声対話システム1600における話題推定法について説明する。図17は、音声対話システム1600が複数のユーザそれぞれの発話に基づいて話題を推定する一態様を表わす図である。
<Topic estimation method>
With reference to FIG. 17, the topic estimation method in the voice interaction system 1600 will be described. FIG. 17 is a diagram illustrating an aspect in which the voice conversation system 1600 estimates a topic based on the utterances of each of a plurality of users.

ある局面において、ユーザ201は、音声対話システム1600のコミュニケーション端末200に対して、発話(明日、遠足で上野動物園に行くんだ)を行なう。音声対話システム1600は、その発話から興味名詞(キーワード)として「上野動物園」を抽出し、その抽出した内容を対話履歴記憶部1660に格納する。別の局面において、大人のユーザ202が発話(代官山においしいカフェがあるんだって)を行なうと、サーバ1620は、興味名詞として「代官山」を抽出し、その抽出した結果をユーザ202に関連付けて対話履歴1660に格納する。すなわち、サーバ1620は、固有表現の抽出を行ない、得られた単語とその種別とを対話履歴として対話履歴記憶部1660に保存する。固有表現は、たとえば、組織名、人名、地名、日付表現、時間表現、金額表現、割合表現、固有物名の8種類を含む。   In one aspect, the user 201 utters (goes to Ueno Zoo on an excursion tomorrow) to the communication terminal 200 of the voice interaction system 1600. The spoken dialogue system 1600 extracts “Ueno Zoo” as an interesting noun (keyword) from the utterance, and stores the extracted content in the dialogue history storage unit 1660. In another aspect, when the adult user 202 utters (there is a delicious cafe in Daikanyama), the server 1620 extracts “Daikanyama” as an interest noun, and associates the extracted result with the user 202 for dialogue. Stored in the history 1660. That is, the server 1620 extracts a specific expression, and stores the obtained word and its type in the dialog history storage unit 1660 as a dialog history. The unique expressions include, for example, eight types of names such as an organization name, a person name, a place name, a date expression, a time expression, a monetary expression, a ratio expression, and a unique object name.

対話生成部1680は、対話履歴記憶部1660に格納されている対話履歴を参照して話題を抽出する。より具体的には、話題推定モジュール1690は、対話履歴記憶部1660に格納されているデータの中から、予め定められた直近の一定時間内に記録されている固有表現を話題として抽出する。話題推定モジュール1690は、その抽出された話題をフィルタとして用いて、対話DB部1670に保存されているデータから候補を絞り込む。図17に示される例では、ユーザ202による最後の発話から予め定められた直近の一定期間内に抽出された固有表現(沖縄、石垣島)をフィルタとして用いる。   The dialogue generation unit 1680 refers to the dialogue history stored in the dialogue history storage unit 1660 and extracts topics. More specifically, the topic estimation module 1690 extracts, from the data stored in the dialogue history storage unit 1660, a specific expression recorded within a predetermined fixed time as a topic. The topic estimation module 1690 uses the extracted topics as a filter to narrow down candidates from data stored in the dialog DB unit 1670. In the example shown in FIG. 17, a specific expression (Okinawa, Ishigakijima) extracted within a certain period of time that is predetermined in advance from the last utterance by the user 202 is used as a filter.

<データ構造>
図18を参照して、サーバ1620のデータ構造について説明する。図18は、対話DB部1670のデータ構造を概念的に表わす図である。ある局面において、対話DB部1670は、テーブル1800を含む。テーブル1800は、話題フィルタ構造を有している。より具体的には、テーブル1800は、ユーザ発話1810と、地名1820と、返答フレーズ1830とを含む。ユーザ発話1810は、音声対話システム1600のユーザによって行なわれた発話を表わす。地名1820は、当該発話の際に固有表現として抽出された地名を表わす。返答フレーズ1830は、ユーザとの対話において出力された返答を表わす。
<Data structure>
The data structure of the server 1620 will be described with reference to FIG. FIG. 18 is a diagram conceptually showing the data structure of dialog DB unit 1670. In one aspect, dialog DB unit 1670 includes a table 1800. The table 1800 has a topic filter structure. More specifically, table 1800 includes user utterance 1810, place name 1820, and reply phrase 1830. User utterance 1810 represents an utterance made by a user of voice interaction system 1600. The place name 1820 represents a place name extracted as a specific expression at the time of the utterance. The response phrase 1830 represents a response output in the dialog with the user.

図19を参照して、本実施の形態に係る対話システム1600のデータ構造についてさらに説明する。図19は、対話履歴記憶部1660におけるデータの格納の一態様を概念的に表わす図である。対話履歴記憶部1660は、テーブル1900を含む。テーブル1900は、ユーザと音声対話システム1600との対話の履歴を記憶している。テーブル1900は、レコードID1910と、ユーザID1920と、話者1930と、話題キーワード1940と、話題種別1950と、タイムスタンプ1960とを含む。レコードID1910は、テーブル1900に含まれる各レコードを識別する。ユーザID1920は、当該レコードの発話を行なったユーザを識別する。話者1930は、当該ユーザIDによって特定されるユーザ(発話者)を特定する。話題キーワード1940は、当該ユーザによる発話から固有表現として抽出された名詞を表わす。話題種別1950は、話題キーワード1940によって特定される話題の種類を表わす。話題種別1950は、たとえば組織(ORGANIZATION)、場所(LOCATION)などと表わされる。タイムスタンプ1960は、当該発話がテーブル1900に追加された時刻を表わす。   With reference to FIG. 19, the data structure of dialog system 1600 according to the present embodiment will be further described. FIG. 19 is a diagram conceptually showing one mode of data storage in dialog history storage unit 1660. The dialogue history storage unit 1660 includes a table 1900. The table 1900 stores a history of dialogue between the user and the voice dialogue system 1600. The table 1900 includes a record ID 1910, a user ID 1920, a speaker 1930, a topic keyword 1940, a topic type 1950, and a time stamp 1960. The record ID 1910 identifies each record included in the table 1900. The user ID 1920 identifies the user who made the utterance of the record. The speaker 1930 specifies the user (speaker) specified by the user ID. The topic keyword 1940 represents a noun extracted as a specific expression from the utterance by the user. The topic type 1950 represents the type of topic specified by the topic keyword 1940. The topic type 1950 is expressed as, for example, an organization (ORGANIZATION), a location (LOCATION), or the like. Time stamp 1960 represents the time when the utterance was added to table 1900.

図20を参照して、サーバ1620のデータ構造についてさらに説明する。図20は、サーバ1620が備えるテーブル2000におけるデータの格納の一態様を概念的に表す図である。テーブル2000は、レコードID1910と、ユーザID1920と、話者1930と、話題キーワード2040と、話題種別1950と、タイムスタンプ1960とを含む。テーブル2000は、ユーザID1920が「12344312」で特定されるユーザのみの発話のレコードを含む。   The data structure of the server 1620 will be further described with reference to FIG. FIG. 20 is a diagram conceptually illustrating one aspect of data storage in table 2000 provided in server 1620. The table 2000 includes a record ID 1910, a user ID 1920, a speaker 1930, a topic keyword 2040, a topic type 1950, and a time stamp 1960. The table 2000 includes an utterance record only for the user whose user ID 1920 is specified by “12344312”.

より具体的には、話題キーワード2040に示されるように、当該ユーザは、話題として上野動物園、上野、東京都を有している。したがって、あるユーザが音声対話システム1600に対して発話した場合、対話生成部1680は、当該ユーザの直近の話題として上野動物園、上野、東京都の話題キーワード2040を用いて当該ユーザからの発話に対する返答を生成し得る。   More specifically, as indicated by the topic keyword 2040, the user has Ueno Zoo, Ueno, and Tokyo as topics. Therefore, when a certain user utters the voice dialogue system 1600, the dialogue generation unit 1680 uses the topic keywords 2040 of Ueno Zoo, Ueno, and Tokyo as the latest topic of the user, and responds to the utterance from the user. Can be generated.

図21を参照して、本実施の形態に係る音声対話システム1600のデータ構造についてさらに説明する。図21は、対話DB部1670のデータ構造を表わす図である。対話DB部1670は、入力フレーズ2110と、場所2120と、出力フレーズ2120とを含む。対話DB部1670は、話題で推定された場所に基づいてフィルタリングを行なうためのデータを保持している。たとえば、音声対話システム1600において、ユーザが「雑学教えて」との発話をコミュニケーション端末200に与えると(入力フレーズ2110)、サーバ1620は、その発話に関連付けられる場所(たとえば「北海道」)を抽出する。この場合、話題推定モジュール1690は、場所2120が「北海道」である4つの出力フレーズ2120を抽出することになる。   With reference to FIG. 21, the data structure of voice interactive system 1600 according to the present embodiment will be further described. FIG. 21 shows a data structure of dialog DB unit 1670. The dialogue DB unit 1670 includes an input phrase 2110, a place 2120, and an output phrase 2120. The dialogue DB unit 1670 holds data for performing filtering based on the location estimated by the topic. For example, in the voice interaction system 1600, when the user gives an utterance “Tell me about trivia” to the communication terminal 200 (input phrase 2110), the server 1620 extracts a location (for example, “Hokkaido”) associated with the utterance. . In this case, the topic estimation module 1690 extracts four output phrases 2120 whose place 2120 is “Hokkaido”.

[実施の形態の効果]
以上のようにして、本実施の形態に係る音声対話システムによれば、ユーザとコミュニケーション端末との対話が継続する場合に、直前の話題を理解するので、コミュニケーション端末200は、ユーザの発話に応じて詳細な返答を行なうことができる。たとえば、京都を旅行するユーザがお土産を訪ねている場合に、コミュニケーション端末は、京都にちなんだお土産を返答することができる。このような応答ができるので、ユーザとコミュニケーション端末との対話がより自然な対話となる。
[Effect of the embodiment]
As described above, according to the voice interaction system according to the present embodiment, when the conversation between the user and the communication terminal continues, the immediately preceding topic is understood, so that the communication terminal 200 responds to the user's utterance. Detailed responses. For example, when a user traveling in Kyoto visits a souvenir, the communication terminal can respond with a souvenir associated with Kyoto. Since such a response can be made, the dialogue between the user and the communication terminal becomes a more natural dialogue.

[第3の実施の形態]
以下、第3の実施の形態について説明する。本実施の形態に係る音声対話システムは、ユーザとの親密度に応じて音声出力される発話の語調が異なる点で、前述の実施の形態に係る音声対話システムと異なる。
[Third Embodiment]
The third embodiment will be described below. The spoken dialogue system according to the present embodiment is different from the spoken dialogue system according to the above-described embodiment in that the tone of the utterance output by voice is different according to the familiarity with the user.

<親密度>
まず、図22を参照して、第3の実施の形態に係る音声対話システム2200について説明する。図22は、音声対話システム2200の構成の一例を表わす図である。音声対話システム2200は、コミュニケーション端末200と、サーバ2220とを備える。サーバ2220は、サーバ220の構成に対して、対話分析部250に代えて対話分析部2250を、対話生成部280に代えて対話生成部2280を備える。対話分析部2250は、親密度算出モジュール2251を含む。その他の構成は、図2に示される構成と同様である。したがって同じ構成の説明は繰り返さない。
<Intimacy>
First, a voice interaction system 2200 according to the third embodiment will be described with reference to FIG. FIG. 22 is a diagram illustrating an example of the configuration of the voice interaction system 2200. The voice interaction system 2200 includes a communication terminal 200 and a server 2220. The server 2220 includes a dialog analysis unit 2250 instead of the dialog analysis unit 250 and a dialog generation unit 2280 instead of the dialog generation unit 280 with respect to the configuration of the server 220. The dialog analysis unit 2250 includes a closeness calculation module 2251. Other configurations are the same as those shown in FIG. Therefore, the description of the same configuration will not be repeated.

音声対話システム2200によれば、ユーザとの対話数やその頻度に基づいて親密度が変化し、応答が変わる点で前述の各実施の形態に係る音声対話システムと異なる。たとえば、ユーザ1501が3ヶ月前に「おはよう」とコミュニケーション端末200に対して発話する。このとき、音声対話システム2200とユーザ1501との間はそれほど親密ではないため、サーバ2220は、予め保存されているデータに基づいて発話「おはよう」に対する応答を返信する。具体的には、コミュニケーション端末200は、ユーザ1501に対して「おはようございます。今日もいい天気ですね」と丁寧な語調で発話する。   The voice interaction system 2200 is different from the voice interaction systems according to the above-described embodiments in that the intimacy changes based on the number of interactions with the user and the frequency thereof and the response changes. For example, the user 1501 utters “good morning” to the communication terminal 200 three months ago. At this time, since the voice interaction system 2200 and the user 1501 are not so intimate, the server 2220 returns a response to the utterance “good morning” based on the data stored in advance. Specifically, the communication terminal 200 utters in a polite tone to the user 1501 “Good morning. Good weather today”.

これに対し3ヶ月経過後の現時点でユーザ1501と音声対話システム2200との間の親密度が増している場合、ユーザ1501が「おはよう」と同じ発話を行なった場合でも、コミュニケーション端末200は、よりフランクな表現として「おはよう。今日もいい天気だからお出かけしてみたら?」と発話する。このように、同じユーザ1501による同じ発話(おはよう)に対するそれぞれの応答は、時間の経過によって変化し得る親密度によって応答内容が変わる。   On the other hand, when the intimacy between the user 1501 and the voice interaction system 2200 is increasing at the present time after three months have passed, the communication terminal 200 is more effective even when the user 1501 makes the same utterance as “good morning”. As a frank expression, he says, "Good morning. Why don't you go out because the weather is good today?" In this way, the response contents of the responses to the same utterance (good morning) by the same user 1501 change depending on the familiarity that can change over time.

<親密度の算出方法>
図23を参照して、本実施の形態に係る音声対話システム2200における親密度の算出方法について説明する。図23は、親密度算出モジュール2251による親密度の算出を概念的に表わす図である。
<Calculation method of intimacy>
With reference to FIG. 23, a method of calculating the familiarity in voice interaction system 2200 according to the present embodiment will be described. FIG. 23 is a diagram conceptually showing the calculation of the familiarity by the familiarity calculating module 2251.

ケース(A)は、ユーザが継続的に音声対話システムに話しかけることにより親密度が上昇する場合を表わす図である。すなわち、グラフ2310に示されるように、時間の経過とともにユーザ2002がコミュニケーション端末200に話しかけることにより、音声対話システム2200とユーザ202との親密度は上昇する。上昇の程度は、ある局面において線形的(比例的)であるが、上昇の程度は必ずしもグラフ2310に見られる程度に限られない。たとえば、段階的に(ステップ関数的に)親密度が上昇してもよい。話しかけるフレーズ中に出現する単語が示す感情の程度に基づいて変化し得る。たとえば、出現する単語がネガティブなフレーズの場合には親密度は上昇しない。一方、出現する単語がポジティブなフレーズの場合には、そのポジティブ度に応じて親密度が上昇し得る。   Case (A) is a diagram showing a case where the intimacy increases due to the user continuously speaking to the voice interaction system. That is, as shown in the graph 2310, as the user 2002 speaks to the communication terminal 200 over time, the closeness between the voice interactive system 2200 and the user 202 increases. The degree of increase is linear (proportional) in a certain aspect, but the degree of increase is not necessarily limited to the level seen in the graph 2310. For example, the intimacy may increase step by step (step function). It can change based on the degree of emotion represented by the words that appear in the spoken phrase. For example, intimacy does not increase when the appearing word is a negative phrase. On the other hand, when the appearing word is a positive phrase, the familiarity can be increased according to the positive degree.

また、ユーザ202が音声対話システム2200を継続的に使用していない場合には親密度が低下するように、予め定められた一定期間内に一定値の親密度が減少するように構成されてもよい。親密度算出モジュール2251は、ある局面において、対話履歴記憶部260に格納されている対話履歴を用いて各ユーザについて親密度を算出する。たとえば、親密度算出モジュール2251は、親密度の上昇度合いとして予め設定された値を逐次加算し、あるいはネガティブフレーズの場合には当該値を減算することにより各ユーザの親密度を算出する。   In addition, when the user 202 is not continuously using the voice interaction system 2200, the intimacy of a certain value may be decreased within a predetermined period so that the intimacy is decreased. Good. In a certain situation, the familiarity calculation module 2251 calculates the familiarity for each user using the conversation history stored in the conversation history storage unit 260. For example, the familiarity calculation module 2251 calculates the familiarity of each user by sequentially adding a preset value as the degree of increase in familiarity or subtracting the value in the case of a negative phrase.

ケース(B)は、同一のユーザ202によって同じフレーズを有する発話が行なわれた場合に親密度の上昇が抑制される態様を表わす図である。すなわち、グラフ2320に示されるように、ユーザ202が「天気を教えて」と発話すると、最初は親密度は予め定められた一定の度合いだけ上昇し得る。しかしながら、ユーザ202が同じフレーズを有する発話しか行なわない場合には、音声対話システム2200は、そのユーザについての親密度の上昇を抑制する。より具体的には、親密度算出モジュール2251は、対話履歴記憶部260に格納されているデータを参照して、ユーザ202による発話に含まれるフレーズ(名詞)が同一であるか否かを判断する。親密度算出モジュール2251は、ユーザ202による発話が同じフレーズを含む発話の繰り返しであることを検知すると、そのユーザ202についての親密度を一定値に維持する。   Case (B) is a diagram showing a mode in which an increase in closeness is suppressed when utterances having the same phrase are performed by the same user 202. That is, as shown in the graph 2320, when the user 202 speaks “tell me the weather”, the intimacy may initially increase by a certain fixed degree. However, if the user 202 does not speak only with the same phrase, the voice interaction system 2200 suppresses an increase in familiarity for the user. More specifically, the familiarity calculation module 2251 refers to the data stored in the dialogue history storage unit 260 and determines whether phrases (nouns) included in the utterances by the user 202 are the same. . When the closeness calculation module 2251 detects that the utterance by the user 202 is repetition of the utterance including the same phrase, the closeness calculation module 2251 maintains the closeness for the user 202 at a constant value.

したがって、たとえば、あるユーザが、毎日、天気予報しか尋ねない場合、あるいはニュースのような一般的な話題しか尋ねない場合には、そのユーザによる発話に含まれるフレーズが同じであれば、そのユーザの親密度は一定値のままである。   Thus, for example, if a user asks only the weather forecast every day, or asks only general topics such as news, if the phrases included in the utterance by the user are the same, the user's Intimacy remains constant.

<音声対話システムによる返答の変化>
図24を参照して、音声対話システム2200による返答の変化について説明する。図24は、親密度に応じて返答が変化する態様を説明する図である。
<Changes in responses by spoken dialogue system>
With reference to FIG. 24, the change of the response by the voice interaction system 2200 will be described. FIG. 24 is a diagram for explaining a mode in which the response changes according to the familiarity.

ケース(A)に示されるように、親密度に応じて対話DB部270のフレーズが変化し得る。対話DB部270は、テーブル2400を含む。テーブル2400は、ユーザ発話2410と、親密度2420と、返答フレーズ2430とを含む。ユーザ発話2410は、ユーザによる音声対話システム2200への発話を表わす。親密度2420は、たとえば複数の区分によって分けられる。返答フレーズ2430は、各親密度に応じて予め保存されているフレーズを表わす。たとえば、ユーザ発話2410が「おはよう」である場合において親密度2420が「高い」と判定される場合には、返答フレーズ2430は、「おはよう。今日も元気に頑張ろう」となる。   As shown in the case (A), the phrase of the dialogue DB unit 270 can change according to the familiarity. The dialogue DB unit 270 includes a table 2400. Table 2400 includes user utterances 2410, intimacy 2420, and reply phrases 2430. User utterance 2410 represents an utterance to the voice interaction system 2200 by the user. The familiarity 2420 is divided, for example, by a plurality of sections. The reply phrase 2430 represents a phrase stored in advance according to each familiarity. For example, when the user utterance 2410 is “good morning” and the closeness 2420 is determined to be “high”, the response phrase 2430 is “good morning. I will do my best today”.

ケース(B)は、親密度に応じて言い回しが変化する態様を表わす図である。ある局面において、ユーザからのニュースの問いかけに対して、音声対話システム2200は、設定されている親密度に応じて、「政府が、南極大陸に日本の新たな基地建設を計画していることが明らかになったそうです。」と発話する(発話2440)。この時点では、親密度は低いと設定されているため、発話の語調も比較的丁寧な語調である。   Case (B) is a diagram showing a manner in which the wording changes according to the familiarity. In one aspect, the spoken dialogue system 2200 responds to the news question from the user according to the familiarity that has been set: “The government is planning to build a new base in Japan in Antarctica. It seems to have become clear, "he utters (utterance 2440). At this point, since the intimacy is set to be low, the tone of the utterance is also a relatively polite tone.

ある局面において、対話生成部2280は、その発話2440の内容を変えることなく、音声対話システム2200との対話を行なおうとしているユーザの親密度に応じて、発話2440の内容を伝える表現を変換する。たとえば、認証されたユーザの親密度が予め設定された基準よりも高いことが検出されると、対話生成部2280は、発話内容を構成するフレーズ「していることが」をフレーズ「してるってことが」に変更する。また、対話生成部2280は、フレーズ「明らかになった」をフレーズ「わかった」に変更する。すなわち、対話生成部2280は、親密度が標準よりも高いという判断結果に基づいて、デフォルトで出力され得る発話内容の表現を平易な表現に変更する。さらに、対話生成部2280は、フレーズ「そうです」をフレーズ「そうだよ」に変換する。すなわち、対話生成部2280は、発話対象となるフレーズを丁寧な語調から普通の語調に変換する。   In a certain aspect, the dialogue generation unit 2280 converts the expression that conveys the content of the utterance 2440 according to the familiarity of the user who is going to interact with the voice dialogue system 2200 without changing the content of the utterance 2440. To do. For example, when it is detected that the familiarity of the authenticated user is higher than a preset standard, the dialogue generation unit 2280 phrase “is doing” the phrase that constitutes the utterance content. Change to "tega". In addition, the dialogue generation unit 2280 changes the phrase “obtained” to the phrase “understood”. That is, the dialogue generation unit 2280 changes the expression of the utterance content that can be output by default to a simple expression based on the determination result that the familiarity is higher than the standard. Furthermore, the dialog generation unit 2280 converts the phrase “Yes” to the phrase “Yes”. That is, the dialogue generation unit 2280 converts a phrase to be uttered from a polite tone into a normal tone.

このような変換ルールが対話生成部2280において規定されている場合、対話生成部2280は、返答フレーズ2150として親密度が高いフレーズを返答する。すなわち対話生成部2280はフレーズ「政府が、南極大陸に日本の新たな基地建設を計画しているってことがわかったそうだよ」と変換する。コミュニケーション端末200は、その変換に基づいて生成された返答フレーズ2450を出力し得る。   When such a conversion rule is defined in the dialog generation unit 2280, the dialog generation unit 2280 responds with a phrase having a high familiarity as the response phrase 2150. That is, the dialogue generator 2280 translates the phrase “It seems that the government is planning to build a new Japanese base in Antarctica”. The communication terminal 200 can output the response phrase 2450 generated based on the conversion.

[実施の形態の効果]
以上のようにして、本実施の形態に係る音声対話システム2200は、各ユーザとのこれまでの対話の履歴に応じて親密度を算出し、その親密度に応じて発話の語調を変更する。これにより、ユーザは、音声対話システム2200を構成するコミュニケーション端末200に対して親しみをさらに感じることになる。
[Effect of the embodiment]
As described above, the voice interaction system 2200 according to the present embodiment calculates the familiarity according to the history of conversations with each user so far, and changes the tone of the utterance according to the familiarity. As a result, the user feels more familiar with the communication terminal 200 constituting the voice interaction system 2200.

[第4の実施の形態]
上述の第1〜第3の実施の形態は、音声入出力機能(コミュニケーション端末)と発話生成機能(サーバ)とが別個の機器で実現される場合が例示されている。しかしながら、本開示に係る技術思想は、他の機器構成によっても実現され得る。たとえば、音声入出力機能と発話生成機能とが一つの機器によって実現されてもよい。たとえば、図2に示されるコミュニケーション端末200とサーバ220とが一体となった機器が音声対話装置として実現されてもよい。
[Fourth Embodiment]
In the first to third embodiments described above, a case where the voice input / output function (communication terminal) and the speech generation function (server) are realized by separate devices is illustrated. However, the technical idea according to the present disclosure can be realized by other device configurations. For example, the voice input / output function and the speech generation function may be realized by a single device. For example, a device in which the communication terminal 200 and the server 220 shown in FIG. 2 are integrated may be realized as a voice interaction device.

そこで、図25を参照して、第4の実施の形態に係る音声対話装置2500について説明する。図25は、音声対話装置2500の構成の概要を表すブロック図である。音声対話装置2500は、図2に示されるコミュニケーション端末200およびサーバ220が備える構成を備える。このような構成により、音声対話装置2500は、通信回線を用いることなく、ユーザの発話に基づいて、音声認識、音声認証、および発話生成を行なうことができるので、通信回線の影響を受けることなく迅速な会話が可能になる。   Therefore, with reference to FIG. 25, a voice interactive apparatus 2500 according to the fourth embodiment will be described. FIG. 25 is a block diagram showing an outline of the configuration of the voice interaction apparatus 2500. The voice interactive apparatus 2500 has a configuration provided in the communication terminal 200 and the server 220 shown in FIG. With this configuration, the voice interaction apparatus 2500 can perform voice recognition, voice authentication, and utterance generation based on a user's utterance without using a communication line, and thus is not affected by the communication line. Quick conversation is possible.

[第5の実施の形態]
さらに別の局面において、音声認識および音声認証が、ユーザからの発話を受け付けるコミュニケーション端末によって行われてもよい。この場合、コミュニケーション端末は、音声認識の結果および音声認証の結果を、それぞれサーバに送信する。サーバは、各結果を用いて発話に対する応答を生成する。
[Fifth Embodiment]
In still another aspect, voice recognition and voice authentication may be performed by a communication terminal that accepts an utterance from a user. In this case, the communication terminal transmits the voice recognition result and the voice authentication result to the server. The server uses each result to generate a response to the utterance.

そこで、図26を参照して、この局面に従う音声対話システム2600の構成について説明する。図26は、音声対話システム2600の構成の概略を表すブロック図である。音声対話システム2600は、コミュニケーション端末2610と、サーバ2620とを備える。   Therefore, with reference to FIG. 26, the configuration of a voice interaction system 2600 according to this aspect will be described. FIG. 26 is a block diagram showing an outline of the configuration of the voice interaction system 2600. The voice interaction system 2600 includes a communication terminal 2610 and a server 2620.

コミュニケーション端末2610は、コミュニケーション端末200の構成に加えて、音声認識部240を備える。音声認識部240は、音声認識モジュール241と、話者特定モジュール242とを含む。音声認識モジュール241は、音声入力部210によって受け付けられた音声信号の認識処理を実行する。話者特定モジュール242は、当該音声信号と、コミュニケーション端末2610のメモリ(図示しない)に登録されている音声データおよびユーザ識別情報とを用いて発話者を特定する。   The communication terminal 2610 includes a voice recognition unit 240 in addition to the configuration of the communication terminal 200. The voice recognition unit 240 includes a voice recognition module 241 and a speaker identification module 242. The speech recognition module 241 executes speech signal recognition processing accepted by the speech input unit 210. The speaker specifying module 242 specifies a speaker using the voice signal, voice data and user identification information registered in a memory (not shown) of the communication terminal 2610.

音声認識部240によって認識された音声内容および特定されたユーザ情報は、サーバ2620に送信される。サーバ2620は、当該音声内容およびユーザ情報を用いて、当該ユーザの過去の対話履歴を参照しながら、音声内容に応じた応答を生成する。   The voice content recognized by the voice recognition unit 240 and the specified user information are transmitted to the server 2620. The server 2620 uses the audio content and user information to generate a response corresponding to the audio content while referring to the user's past conversation history.

その他の処理は、前述の実施の形態に係る音声対話システムにおける処理と同じである。したがって、詳細な説明は繰り返さない。   Other processes are the same as the processes in the voice interaction system according to the above-described embodiment. Therefore, detailed description will not be repeated.

[第6の実施の形態]
第1〜第3の実施の形態に係るサーバは、音声認識機能と対話生成機能と音声合成機能とを実現するように構成されていた。他の局面において、各機能が別個のコンピュータ装置において実現されてもよい。
[Sixth Embodiment]
The servers according to the first to third embodiments are configured to realize a speech recognition function, a dialog generation function, and a speech synthesis function. In other aspects, each function may be implemented in a separate computer device.

[第7の実施の形態]
上述の各実施の形態は、コミュニケーション端末あるいはサーバが備えるコンピュータのプロセッサ(図示しない)が、メモリに保存されているプログラムに含まれる命令を実行することにより、実現されるものとして例示されている。しかしながら、本実施の形態に係るコミュニケーション端末またはサーバが備える各機能の少なくとも一部または全部が、当該機能を実現する回路その他のハードウェアによって実現されてもよい。
[Seventh Embodiment]
Each of the above-described embodiments is exemplified as being realized by a processor (not shown) of a computer included in a communication terminal or server executing instructions included in a program stored in a memory. However, at least a part or all of the functions included in the communication terminal or the server according to the present embodiment may be realized by a circuit or other hardware that realizes the function.

<構成>
本開示に基づく構成は、以下のように要約され得る。
<Configuration>
The configuration according to the present disclosure can be summarized as follows.

[構成1]
発話を認識するように構成された音声認識部(241)と、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部(242)と、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部(280)と、
当該話題を音声で出力するように構成された音声出力部(211)とを備える、音声対話装置(2500)。
[Configuration 1]
A voice recognition unit (241) configured to recognize an utterance;
A voice authentication unit (242) configured to identify a speaker based on the recognized utterance and pre-registered user information;
A topic estimation unit (280) configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A voice interactive device (2500) comprising a voice output unit (211) configured to output the topic in a voice.

[構成2]
発話に基づく音声信号の入力を受け付けるように構成された音声信号入力部と、
入力された上記音声信号に基づいて上記発話を認識するように構成された音声認識部(241)と、
入力された上記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部(242)と、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部(280)と、
当該話題を音声で出力するための話題信号を出力するように構成された出力部(230)とを備える、音声対話装置(220)。
[Configuration 2]
An audio signal input unit configured to accept an input of an audio signal based on an utterance;
A voice recognition unit (241) configured to recognize the utterance based on the input voice signal;
A voice authentication unit (242) configured to identify a speaker based on the input voice signal and user information registered in advance;
A topic estimation unit (280) configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A voice interaction device (220) comprising: an output unit (230) configured to output a topic signal for outputting the topic in voice.

[構成3]
端末(2610)と、
上記端末と通信可能なサーバ(2620)とを備え、
上記端末は、
発話を受け付けて当該発話を認識するように構成された音声認識部(241)と、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部(242)と、
上記発話に基づく音声信号と、上記特定された発話者の識別信号とを上記サーバに送信するように構成された送信部とを備え、
上記サーバは、
上記音声信号と上記識別信号とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を上記端末に送信するように構成された話題送信部とを備え、
上記端末は、さらに、
上記サーバから受信する上記話題信号に基づいて、上記話題を音声で出力するように構成された出力部を備える、音声対話システム。
[Configuration 3]
A terminal (2610);
A server (2620) capable of communicating with the terminal,
The terminal
A voice recognition unit (241) configured to accept an utterance and recognize the utterance;
A voice authentication unit (242) configured to identify a speaker based on the recognized utterance and pre-registered user information;
A transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to the server;
The server
A topic estimation unit configured to generate a topic in which the speaker is interested based on the voice signal and the identification signal;
A topic transmission unit configured to transmit a topic signal for outputting the topic as a voice to the terminal,
The terminal
A spoken dialogue system comprising an output unit configured to output the topic by voice based on the topic signal received from the server.

[構成4]
構成3に記載の音声対話システムに用いられる端末であって、
発話を認識するように構成された音声認識部と、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
上記発話に基づく音声信号と、上記特定された発話者の識別信号とをサーバに送信するように構成された送信部と、
当該発話者が興味を持つ話題を音声で出力するための話題信号を上記サーバから受信して、上記話題を音声で出力するように構成された出力部とを備える、端末。
[Configuration 4]
A terminal used in the voice interaction system according to Configuration 3,
A speech recognizer configured to recognize utterances;
A voice authentication unit configured to identify a speaker based on the recognized utterance and pre-registered user information;
A transmitter configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to a server;
A terminal comprising: an output unit configured to receive a topic signal for outputting a topic of interest of the speaker by voice from the server and output the topic by voice.

[構成5]
上記音声対話装置の各ユーザとの対話の履歴を格納するように構成された記憶部をさらに備え、
上記話題推定部は、当該ユーザとの対話の履歴に基づいて、上記話題を生成するように構成されている、構成1または2に記載の音声対話装置。
[Configuration 5]
A storage unit configured to store a history of interaction with each user of the voice interaction device;
The speech conversation apparatus according to Configuration 1 or 2, wherein the topic estimation unit is configured to generate the topic based on a history of conversations with the user.

[構成6]
上記音声対話装置のユーザとの対話の履歴に基づいて、当該ユーザと上記音声対話装置との親密度を算出するように構成された親密度算出部をさらに備え、
上記話題推定部は、上記親密度に応じて、上記話題の語調を調整するように構成されている、構成1または2に記載の音声対話装置。
[Configuration 6]
A closeness calculation unit configured to calculate a closeness between the user and the voice interaction device based on a history of interaction with the user of the voice interaction device;
The spoken dialogue apparatus according to Configuration 1 or 2, wherein the topic estimation unit is configured to adjust the tone of the topic according to the familiarity.

[構成7]
発話を認識するステップと、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するステップとを含む、音声対話方法。
[Configuration 7]
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Generating a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A voice dialogue method including the step of outputting the topic by voice.

[構成8]
発話に基づく音声信号の入力を受け付けるステップと、
入力された上記音声信号に基づいて上記発話を認識するステップと、
入力された上記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するための話題信号を出力するステップとを含む、音声対話方法。
[Configuration 8]
Receiving an input of an audio signal based on an utterance;
Recognizing the utterance based on the input audio signal;
Identifying a speaker based on the input audio signal and pre-registered user information;
Generating a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
Outputting a topic signal for outputting the topic by voice.

[構成9]
発話を認識するステップと、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、
上記音声信号と上記識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号を上記サーバから受信するステップと、
上記話題信号に基づいて当該話題を音声で出力するステップとを含む、音声対話方法。
[Configuration 9]
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Transmitting an audio signal based on the utterance and an identification signal of the identified speaker to a server;
Receiving from the server a topic signal for outputting a topic of interest that the speaker is interested, estimated based on the voice signal and the identification signal;
A voice dialogue method including the step of outputting the topic by voice based on the topic signal.

[構成10]
コンピュータを音声対話装置として機能させるためのプログラムであって、上記プログラムは、一つ以上のプロセッサに、
発話を認識するステップと、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を音声で出力するための話題信号を生成するステップと、
上記話題信号に基づいて当該話題を音声で出力するステップとを実行させる、プログラム。
[Configuration 10]
A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Generating a topic signal for outputting a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A program for executing the step of outputting the topic by voice based on the topic signal.

[構成11]
コンピュータを音声対話装置として機能させるためのプログラムであって、上記プログラムは、一つ以上のプロセッサに、
発話に基づく音声信号の入力を受け付けるステップと、
入力された上記音声信号に基づいて上記発話を認識するステップと、
入力された上記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するための話題信号を出力するステップとを実行させる、プログラム。
[Configuration 11]
A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Receiving an input of an audio signal based on an utterance;
Recognizing the utterance based on the input audio signal;
Identifying a speaker based on the input audio signal and pre-registered user information;
Generating a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A program for executing a step of outputting a topic signal for outputting the topic by voice.

[構成12]
コンピュータを音声対話装置として機能させるためのプログラムであって、上記プログラムは、一つ以上のプロセッサに、
発話を認識するステップと、
上記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
上記発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、
上記音声信号と上記識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号を上記サーバから受信するステップと、
上記話題信号に基づいて当該話題を音声で出力するステップとを実行させる、プログラム。
[Configuration 12]
A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Transmitting an audio signal based on the utterance and an identification signal of the identified speaker to a server;
Receiving from the server a topic signal for outputting a topic of interest that the speaker is interested, estimated based on the voice signal and the identification signal;
A program for executing the step of outputting the topic by voice based on the topic signal.

[構成13]
端末と、
サーバとを備え、
上記端末は、発話を認識するように構成された音声認識部と、
認識された発話を発話信号に変換するように構成された音声信号変換部と、
上記発話信号を上記サーバに送信するように構成された送信部とを含み、
上記サーバは、
上記端末から受信した上記発話信号に基づいて上記発話を認識するように構成された音声認識部と、
上記発話信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
上記認識された発話と、上記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を上記端末に送信するように構成された送信部とを含み、
上記端末は、さらに、
上記サーバから上記話題信号を受信するように構成された受信部と、
上記話題信号に基づいて当該話題を音声で出力するように構成された出力部とを含む、音声対話システム。
[Configuration 13]
A terminal,
With a server,
The terminal includes a voice recognition unit configured to recognize an utterance;
An audio signal converter configured to convert a recognized utterance into an utterance signal;
A transmitter configured to transmit the speech signal to the server,
The server
A speech recognition unit configured to recognize the utterance based on the utterance signal received from the terminal;
A voice authentication unit configured to identify a speaker based on the utterance signal and user information registered in advance;
A topic estimation unit configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A transmission unit configured to transmit a topic signal for outputting the topic as a voice to the terminal,
The terminal
A receiver configured to receive the topic signal from the server;
And a voice dialogue system including an output unit configured to output the topic in a voice based on the topic signal.

[構成14]
構成13に記載のシステムに用いる端末であって、
発話を認識するように構成された音声認識部と、
上記認識された発話を発話信号に変換するように構成された音声信号変換部と、
上記発話信号をサーバに送信するように構成された送信部と、
上記発話信号に基づいて生成された話題信号を上記サーバから受信するように構成された受信部と、
上記話題信号に基づいて、上記発話に対応する話題を音声で出力するように構成された出力部とを備える、端末。
[Configuration 14]
A terminal used in the system according to Configuration 13,
A speech recognizer configured to recognize utterances;
An audio signal converter configured to convert the recognized utterance into an utterance signal;
A transmitter configured to transmit the utterance signal to a server;
A receiver configured to receive from the server a topic signal generated based on the utterance signal;
A terminal comprising: an output unit configured to output a topic corresponding to the utterance by voice based on the topic signal.

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。   The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.

110,241 音声認識モジュール、120 音声認証モジュール、130,1690 話題推定モジュール、140 対話生成モジュール、200,500,1200,2610 コミュニケーション端末、210 音声入力部、211 音声出力部、220,520,820,920,1620,2220,2620 サーバ、230,530 制御部、240,540 音声認識部、242 話者特定モジュール、250,550,850,2250 対話分析部、260,560,1660 対話履歴記憶部、280,580,880,980,1680,2280 対話生成部、290,590 音声合成部、400 コンピュータ、501 携帯電話、510 無線タグ情報送信部、541 ユーザ識別子部、990 興味推定モジュール、1110,2110 入力フレーズ、1120,1240 興味名詞、1130,2120 出力フレーズ、1200,1300,1800,1900,2000,2400 テーブル、1230,1930 話者、1250,1960 タイムスタンプ、1501 ユーザ。   110,241 Voice recognition module, 120 Voice authentication module, 130,1690 Topic estimation module, 140 Dialogue generation module, 200,500,1200,2610 Communication terminal, 210 Voice input part, 211 Voice output part, 220,520,820, 920, 1620, 2220, 2620 Server, 230, 530 Control unit, 240, 540 Speech recognition unit, 242 Speaker identification module, 250, 550, 850, 2250 Dialog analysis unit, 260, 560, 1660 Dialog history storage unit, 280 , 580, 880, 980, 1680, 2280 Dialogue generation unit, 290, 590 Speech synthesis unit, 400 computer, 501 mobile phone, 510 RFID tag information transmission unit, 541 user identifier unit, 990 interest estimation module, 1110, 2110 Input phrase, 1120, 1240 Interest noun, 1130, 2120 Output phrase, 1200, 1300, 1800, 1900, 2000, 2400 Table, 1230, 1930 Speaker, 1250, 1960 Time stamp, 1501 User.

Claims (14)

発話を認識するように構成された音声認識部と、
前記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するように構成された音声出力部とを備える、音声対話装置。
A speech recognizer configured to recognize utterances;
A voice authenticator configured to identify a speaker based on the recognized utterance and pre-registered user information;
A topic estimation unit configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A voice dialogue apparatus comprising: a voice output unit configured to output the topic in voice.
発話に基づく音声信号の入力を受け付けるように構成された音声信号入力部と、
入力された前記音声信号に基づいて前記発話を認識するように構成された音声認識部と、
入力された前記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を出力するように構成された出力部とを備える、音声対話装置。
An audio signal input unit configured to accept an input of an audio signal based on an utterance;
A speech recognition unit configured to recognize the utterance based on the input speech signal;
A voice authentication unit configured to identify a speaker based on the input voice signal and pre-registered user information;
A topic estimation unit configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
An audio dialogue apparatus comprising: an output unit configured to output a topic signal for outputting the topic in audio.
端末と、
前記端末と通信可能なサーバとを備え、
前記端末は、
発話を受け付けて当該発話を認識するように構成された音声認識部と、
前記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記発話に基づく音声信号と、前記特定された発話者の識別信号とを前記サーバに送信するように構成された送信部とを備え、
前記サーバは、
前記音声信号と前記識別信号とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を前記端末に送信するように構成された話題送信部とを備え、
前記端末は、さらに、
前記サーバから受信する前記話題信号に基づいて、前記話題を音声で出力するように構成された出力部を備える、音声対話システム。
A terminal,
A server capable of communicating with the terminal,
The terminal
A voice recognition unit configured to accept an utterance and recognize the utterance;
A voice authenticator configured to identify a speaker based on the recognized utterance and pre-registered user information;
A transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to the server;
The server
A topic estimation unit configured to generate a topic in which the speaker is interested based on the voice signal and the identification signal;
A topic transmission unit configured to transmit a topic signal for outputting the topic by voice to the terminal;
The terminal further includes
A spoken dialogue system comprising: an output unit configured to output the topic by voice based on the topic signal received from the server.
請求項3に記載の音声対話システムに用いられる端末であって、
発話を認識するように構成された音声認識部と、
前記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記発話に基づく音声信号と、前記特定された発話者の識別信号とをサーバに送信するように構成された送信部と、
当該発話者が興味を持つ話題を音声で出力するための話題信号を前記サーバから受信して、前記話題を音声で出力するように構成された出力部とを備える、端末。
A terminal used in the voice interaction system according to claim 3,
A speech recognizer configured to recognize utterances;
A voice authenticator configured to identify a speaker based on the recognized utterance and pre-registered user information;
A transmission unit configured to transmit an audio signal based on the utterance and an identification signal of the identified speaker to a server;
A terminal comprising: an output unit configured to receive a topic signal for outputting a topic of interest of the speaker by voice from the server and output the topic by voice.
前記音声対話装置の各ユーザとの対話の履歴を格納するように構成された記憶部をさらに備え、
前記話題推定部は、当該ユーザとの対話の履歴に基づいて、前記話題を生成するように構成されている、請求項1または2に記載の音声対話装置。
A storage unit configured to store a history of interaction with each user of the voice interaction device;
The spoken dialogue apparatus according to claim 1, wherein the topic estimation unit is configured to generate the topic based on a history of dialogue with the user.
前記音声対話装置のユーザとの対話の履歴に基づいて、当該ユーザと前記音声対話装置との親密度を算出するように構成された親密度算出部をさらに備え、
前記話題推定部は、前記親密度に応じて、前記話題の語調を調整するように構成されている、請求項1または2に記載の音声対話装置。
A closeness calculation unit configured to calculate a closeness between the user and the voice interaction device based on a history of interaction with the user of the voice interaction device;
The spoken dialogue apparatus according to claim 1, wherein the topic estimation unit is configured to adjust a tone of the topic according to the familiarity.
発話を認識するステップと、
前記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するステップとを含む、音声対話方法。
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Generating a topic that the speaker is interested in based on the recognized utterance and the identified speaker;
A voice dialogue method including the step of outputting the topic by voice.
発話に基づく音声信号の入力を受け付けるステップと、
入力された前記音声信号に基づいて前記発話を認識するステップと、
入力された前記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するための話題信号を出力するステップとを含む、音声対話方法。
Receiving an input of an audio signal based on an utterance;
Recognizing the utterance based on the input audio signal;
Identifying a speaker based on the input audio signal and pre-registered user information;
Generating a topic that the speaker is interested in based on the recognized utterance and the identified speaker;
Outputting a topic signal for outputting the topic by voice.
発話を認識するステップと、
前記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
前記発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、
前記音声信号と前記識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号を前記サーバから受信するステップと、
前記話題信号に基づいて当該話題を音声で出力するステップとを含む、音声対話方法。
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Transmitting an audio signal based on the utterance and an identification signal of the identified speaker to a server;
Receiving, from the server, a topic signal for outputting a topic of interest of the speaker, which is estimated based on the voice signal and the identification signal;
And outputting the topic in a voice based on the topic signal.
コンピュータを音声対話装置として機能させるためのプログラムであって、前記プログラムは、一つ以上のプロセッサに、
発話を認識するステップと、
前記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を音声で出力するための話題信号を生成するステップと、
前記話題信号に基づいて当該話題を音声で出力するステップとを実行させる、プログラム。
A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Generating a topic signal for outputting a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A program for executing the step of outputting the topic by voice based on the topic signal.
コンピュータを音声対話装置として機能させるためのプログラムであって、前記プログラムは、一つ以上のプロセッサに、
発話に基づく音声信号の入力を受け付けるステップと、
入力された前記音声信号に基づいて前記発話を認識するステップと、
入力された前記音声信号と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するステップと、
当該話題を音声で出力するための話題信号を出力するステップとを実行させる、プログラム。
A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Receiving an input of an audio signal based on an utterance;
Recognizing the utterance based on the input audio signal;
Identifying a speaker based on the input audio signal and pre-registered user information;
Generating a topic that the speaker is interested in based on the recognized utterance and the identified speaker;
A program for executing a step of outputting a topic signal for outputting the topic by voice.
コンピュータを音声対話装置として機能させるためのプログラムであって、前記プログラムは、一つ以上のプロセッサに、
発話を認識するステップと、
前記認識された発話と予め登録されているユーザ情報とに基づいて、発話者を特定するステップと、
前記発話に基づく音声信号と、特定された発話者の識別信号とをサーバに送信するステップと、
前記音声信号と前記識別信号とに基づいて推定された、当該発話者が興味を持つ話題のを音声で出力するための話題信号を前記サーバから受信するステップと、
前記話題信号に基づいて当該話題を音声で出力するステップとを実行させる、プログラム。
A program for causing a computer to function as a voice interaction device, wherein the program is stored in one or more processors,
Recognizing the utterance,
Identifying a speaker based on the recognized utterance and pre-registered user information;
Transmitting an audio signal based on the utterance and an identification signal of the identified speaker to a server;
Receiving, from the server, a topic signal for outputting a topic of interest of the speaker, which is estimated based on the voice signal and the identification signal;
A program for executing the step of outputting the topic by voice based on the topic signal.
端末と、
サーバとを備え、
前記端末は、発話を認識するように構成された音声認識部と、
認識された発話を発話信号に変換するように構成された音声信号変換部と、
前記発話信号を前記サーバに送信するように構成された送信部とを含み、
前記サーバは、
前記端末から受信した前記発話信号に基づいて前記発話を認識するように構成された音声認識部と、
前記発話信号と予め登録されているユーザ情報とに基づいて、発話者を特定するように構成された音声認証部と、
前記認識された発話と、前記特定された発話者とに基づいて、当該発話者が興味を持つ話題を生成するように構成された話題推定部と、
当該話題を音声で出力するための話題信号を前記端末に送信するように構成された送信部とを含み、
前記端末は、さらに、
前記サーバから前記話題信号を受信するように構成された受信部と、
前記話題信号に基づいて当該話題を音声で出力するように構成された出力部とを含む、音声対話システム。
A terminal,
With a server,
The terminal includes a voice recognition unit configured to recognize an utterance;
An audio signal converter configured to convert a recognized utterance into an utterance signal;
A transmitter configured to transmit the speech signal to the server,
The server
A speech recognition unit configured to recognize the utterance based on the utterance signal received from the terminal;
A voice authentication unit configured to identify a speaker based on the speech signal and pre-registered user information;
A topic estimation unit configured to generate a topic in which the speaker is interested based on the recognized utterance and the identified speaker;
A transmission unit configured to transmit to the terminal a topic signal for outputting the topic by voice,
The terminal further includes
A receiver configured to receive the topic signal from the server;
And a voice dialogue system including an output unit configured to output the topic by voice based on the topic signal.
請求項13に記載のシステムに用いる端末であって、
発話を認識するように構成された音声認識部と、
前記認識された発話を発話信号に変換するように構成された音声信号変換部と、
前記発話信号をサーバに送信するように構成された送信部と、
前記発話信号に基づいて生成された話題信号を前記サーバから受信するように構成された受信部と、
前記話題信号に基づいて、前記発話に対応する話題を音声で出力するように構成された出力部とを備える、端末。
A terminal used in the system according to claim 13,
A speech recognizer configured to recognize utterances;
An audio signal converter configured to convert the recognized utterance into an utterance signal;
A transmitter configured to transmit the speech signal to a server;
A receiving unit configured to receive a topic signal generated based on the utterance signal from the server;
A terminal comprising: an output unit configured to output a topic corresponding to the utterance by voice based on the topic signal.
JP2014198740A 2014-09-29 2014-09-29 Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus Expired - Fee Related JP6129134B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014198740A JP6129134B2 (en) 2014-09-29 2014-09-29 Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014198740A JP6129134B2 (en) 2014-09-29 2014-09-29 Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus

Publications (2)

Publication Number Publication Date
JP2016071050A true JP2016071050A (en) 2016-05-09
JP6129134B2 JP6129134B2 (en) 2017-05-17

Family

ID=55864510

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014198740A Expired - Fee Related JP6129134B2 (en) 2014-09-29 2014-09-29 Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus

Country Status (1)

Country Link
JP (1) JP6129134B2 (en)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017219845A (en) * 2016-06-05 2017-12-14 国立大学法人 千葉大学 Speech promotion apparatus and speech promotion program
JP2018001387A (en) * 2016-07-08 2018-01-11 ロボットスタート株式会社 Robot, program, robot system, and server
JP2018021953A (en) * 2016-08-01 2018-02-08 トヨタ自動車株式会社 Voice interactive device and voice interactive method
CN107844586A (en) * 2017-11-16 2018-03-27 百度在线网络技术(北京)有限公司 News recommends method and apparatus
JP2018152810A (en) * 2017-03-15 2018-09-27 株式会社日立製作所 Communication system and communication control device
WO2019049491A1 (en) * 2017-09-08 2019-03-14 ソニー株式会社 Information processing device and information processing method
JP2019124835A (en) * 2018-01-17 2019-07-25 トヨタ自動車株式会社 Speaker estimation device
JP2019159378A (en) * 2018-03-07 2019-09-19 ヤフー株式会社 Management apparatus, management method, and management program
WO2019177102A1 (en) * 2018-03-14 2019-09-19 株式会社ウフル Ai speaker system, method for controlling ai speaker system, and program
JP2019527371A (en) * 2017-06-30 2019-09-26 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Voiceprint identification method and apparatus
JP2019203998A (en) * 2018-05-24 2019-11-28 カシオ計算機株式会社 Conversation device, robot, conversation device control method and program
CN111626452A (en) * 2019-02-28 2020-09-04 百度在线网络技术(北京)有限公司 Intelligent government affair processing method, device, terminal and medium
WO2020180286A1 (en) * 2019-03-01 2020-09-10 Google Llc Dynamically adapting assistant responses
JP2021193619A (en) * 2020-12-24 2021-12-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Dialog generation method, device, electronic apparatus and storage medium
WO2023189521A1 (en) * 2022-03-30 2023-10-05 ソニーグループ株式会社 Information processing device and information processing method
US11935527B2 (en) 2020-10-23 2024-03-19 Google Llc Adapting automated assistant functionality based on generated proficiency measure(s)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078072A (en) * 2003-09-03 2005-03-24 Samsung Electronics Co Ltd Av device and its method in which individualized service is provided through voice recognition and speaker recognition
JP2008083100A (en) * 2006-09-25 2008-04-10 Toshiba Corp Voice interactive device and method therefor
JP2009064186A (en) * 2007-09-05 2009-03-26 Mazda Motor Corp Interactive system for vehicle
JP2010035908A (en) * 2008-08-07 2010-02-18 Namco Bandai Games Inc Program, information storage medium, and game device
JP2010109618A (en) * 2008-10-29 2010-05-13 Ntt Communications Kk Authentication device, authentication method, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005078072A (en) * 2003-09-03 2005-03-24 Samsung Electronics Co Ltd Av device and its method in which individualized service is provided through voice recognition and speaker recognition
JP2008083100A (en) * 2006-09-25 2008-04-10 Toshiba Corp Voice interactive device and method therefor
JP2009064186A (en) * 2007-09-05 2009-03-26 Mazda Motor Corp Interactive system for vehicle
JP2010035908A (en) * 2008-08-07 2010-02-18 Namco Bandai Games Inc Program, information storage medium, and game device
JP2010109618A (en) * 2008-10-29 2010-05-13 Ntt Communications Kk Authentication device, authentication method, and program

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017219845A (en) * 2016-06-05 2017-12-14 国立大学法人 千葉大学 Speech promotion apparatus and speech promotion program
JP2018001387A (en) * 2016-07-08 2018-01-11 ロボットスタート株式会社 Robot, program, robot system, and server
JP2018021953A (en) * 2016-08-01 2018-02-08 トヨタ自動車株式会社 Voice interactive device and voice interactive method
US10269349B2 (en) 2016-08-01 2019-04-23 Toyota Jidosha Kabushiki Kaisha Voice interactive device and voice interaction method
JP2018152810A (en) * 2017-03-15 2018-09-27 株式会社日立製作所 Communication system and communication control device
US11302337B2 (en) 2017-06-30 2022-04-12 Baidu Online Network Technology (Beijing.) Co., Ltd. Voiceprint recognition method and apparatus
JP2019527371A (en) * 2017-06-30 2019-09-26 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Voiceprint identification method and apparatus
JP7188852B2 (en) 2017-09-08 2022-12-13 ソニーグループ株式会社 Information processing device and information processing method
WO2019049491A1 (en) * 2017-09-08 2019-03-14 ソニー株式会社 Information processing device and information processing method
JPWO2019049491A1 (en) * 2017-09-08 2020-10-15 ソニー株式会社 Information processing device and information processing method
CN107844586A (en) * 2017-11-16 2018-03-27 百度在线网络技术(北京)有限公司 News recommends method and apparatus
JP2019091428A (en) * 2017-11-16 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Method and apparatus for recommending news
JP7143591B2 (en) 2018-01-17 2022-09-29 トヨタ自動車株式会社 speaker estimation device
JP2019124835A (en) * 2018-01-17 2019-07-25 トヨタ自動車株式会社 Speaker estimation device
JP2019159378A (en) * 2018-03-07 2019-09-19 ヤフー株式会社 Management apparatus, management method, and management program
WO2019177102A1 (en) * 2018-03-14 2019-09-19 株式会社ウフル Ai speaker system, method for controlling ai speaker system, and program
WO2019176018A1 (en) * 2018-03-14 2019-09-19 株式会社ウフル Ai speaker system, method for controlling ai speaker system, and program
CN110524547A (en) * 2018-05-24 2019-12-03 卡西欧计算机株式会社 Conversational device, robot, conversational device control method and storage medium
CN110524547B (en) * 2018-05-24 2023-04-25 卡西欧计算机株式会社 Session device, robot, session device control method, and storage medium
JP2019203998A (en) * 2018-05-24 2019-11-28 カシオ計算機株式会社 Conversation device, robot, conversation device control method and program
JP7131077B2 (en) 2018-05-24 2022-09-06 カシオ計算機株式会社 CONVERSATION DEVICE, ROBOT, CONVERSATION DEVICE CONTROL METHOD AND PROGRAM
CN111626452A (en) * 2019-02-28 2020-09-04 百度在线网络技术(北京)有限公司 Intelligent government affair processing method, device, terminal and medium
CN111626452B (en) * 2019-02-28 2023-08-04 百度在线网络技术(北京)有限公司 Intelligent government affair processing method, device, terminal and medium
WO2020180286A1 (en) * 2019-03-01 2020-09-10 Google Llc Dynamically adapting assistant responses
AU2019432912B2 (en) * 2019-03-01 2022-10-06 Google Llc Dynamically adapting assistant responses
JP2022522104A (en) * 2019-03-01 2022-04-14 グーグル エルエルシー Dynamically adapting the assistant's response
CN113557566A (en) * 2019-03-01 2021-10-26 谷歌有限责任公司 Dynamically adapting assistant responses
JP7386878B2 (en) 2019-03-01 2023-11-27 グーグル エルエルシー Dynamically adapting assistant responses
US11875790B2 (en) 2019-03-01 2024-01-16 Google Llc Dynamically adapting assistant responses
CN113557566B (en) * 2019-03-01 2024-04-12 谷歌有限责任公司 Dynamically adapting assistant responses
US11935527B2 (en) 2020-10-23 2024-03-19 Google Llc Adapting automated assistant functionality based on generated proficiency measure(s)
JP7264963B2 (en) 2020-12-24 2023-04-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Dialogue generation method, device, electronic device and storage medium
JP2021193619A (en) * 2020-12-24 2021-12-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Dialog generation method, device, electronic apparatus and storage medium
US11954449B2 (en) 2020-12-24 2024-04-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for generating conversation reply information using a set of historical conversations, electronic device, and storage medium
WO2023189521A1 (en) * 2022-03-30 2023-10-05 ソニーグループ株式会社 Information processing device and information processing method

Also Published As

Publication number Publication date
JP6129134B2 (en) 2017-05-17

Similar Documents

Publication Publication Date Title
JP6129134B2 (en) Voice dialogue apparatus, voice dialogue system, terminal, voice dialogue method, and program for causing computer to function as voice dialogue apparatus
US11600291B1 (en) Device selection from audio data
CN108231070B (en) Voice conversation device, voice conversation method, recording medium, and robot
US20190088262A1 (en) Method and apparatus for pushing information
US9899028B2 (en) Information processing device, information processing system, information processing method, and information processing program
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
EP3824462B1 (en) Electronic apparatus for processing user utterance and controlling method thereof
CA2756140C (en) Service oriented speech recognition for in-vehicle automated interaction
CN107895578A (en) Voice interactive method and device
JP6084654B2 (en) Speech recognition apparatus, speech recognition system, terminal used in the speech recognition system, and method for generating a speaker identification model
WO2019087811A1 (en) Information processing device and information processing method
WO2011048826A1 (en) Speech translation system, control apparatus and control method
JP7040449B2 (en) Voice processing device, information processing device, voice processing method and information processing method
WO2015102082A1 (en) Terminal device, program, and server device for providing information according to user data input
JP6111802B2 (en) Spoken dialogue apparatus and dialogue control method
CN110998719A (en) Information processing apparatus, information processing method, and computer program
CN112513984A (en) Electronic device and control method thereof
WO2019239659A1 (en) Information processing device and information processing method
JP6120708B2 (en) Terminal device and program
WO2018079294A1 (en) Information processing device and information processing method
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
US20230148275A1 (en) Speech synthesis device and speech synthesis method
WO2019150708A1 (en) Information processing device, information processing system, information processing method, and program
KR20210042520A (en) An electronic apparatus and Method for controlling the electronic apparatus thereof
JP2019015950A (en) Voice recognition method, program, voice recognition device, and robot

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170321

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170411

R150 Certificate of patent or registration of utility model

Ref document number: 6129134

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees