WO2011030372A1 - Speech interaction device and program - Google Patents

Speech interaction device and program Download PDF

Info

Publication number
WO2011030372A1
WO2011030372A1 PCT/JP2009/004446 JP2009004446W WO2011030372A1 WO 2011030372 A1 WO2011030372 A1 WO 2011030372A1 JP 2009004446 W JP2009004446 W JP 2009004446W WO 2011030372 A1 WO2011030372 A1 WO 2011030372A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
user
unit
mode
feature amount
Prior art date
Application number
PCT/JP2009/004446
Other languages
French (fr)
Japanese (ja)
Inventor
山本大介
土井美和子
小林優佳
横山祥恵
古賀敏之
熊巳創
片岡敬弘
Original Assignee
株式会社 東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 東芝 filed Critical 株式会社 東芝
Priority to PCT/JP2009/004446 priority Critical patent/WO2011030372A1/en
Publication of WO2011030372A1 publication Critical patent/WO2011030372A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A speech interaction device (100) is characterized by being provided with a generation unit (101) which generates an interaction sentence compliant with a user-initiative mode or a system-initiative mode in accordance with instructions of the modes, a speech presentation unit (102) which presents the interaction sentence to a user by speech, a speech feature quantity calculation unit (103) which calculates the speech feature quantity of the user in response to the speech presented by the speech presentation unit, a determination unit (104) which calculates the activation level of the interaction by the user on the basis of the speech feature quantity of the user, and a switch unit (105) which switches the mode of the generation unit (101) to the user-initiative mode when the activation level is equal to or higher than a threshold and switches the mode of the generation unit (101) to the system-initiative mode when the activation level is lower than the threshold.

Description

音声対話装置及びプログラムSpoken dialogue apparatus and program
 本発明は、音声を用いた対話技術に関する。 The present invention relates to a dialogue technique using voice.
 特開2009-37050号公報は、対話装置が話題を提示し(例えば、ユーザにとって関心のあるキーワードを含めた話題を提示)、この話題に対するユーザの関心の度合いを推定する。ユーザの関心が低い場合に話題を切り換えることによって、ユーザを退屈させない対話装置を開示している。 Japanese Patent Application Laid-Open No. 2009-37050 presents a topic (for example, presents a topic including a keyword of interest to the user) by the dialogue apparatus, and estimates the degree of interest of the user with respect to this topic. An interactive apparatus that does not bore users by switching topics when the user's interest is low is disclosed.
特開2009-37050号公報JP 2009-37050 A
 しかしながら、特開2009-37050号公報に開示された技術では、一方的に話題を提示するシステムであり、ユーザにとっては面白みに欠ける。対話装置が話題を切り換えただけでは、音声対話により会話を持続することは難しい。 However, the technique disclosed in Japanese Patent Application Laid-Open No. 2009-37050 is a system that unilaterally presents a topic, and is not interesting for the user. It is difficult to maintain a conversation by voice conversation only by the conversation device switching the topic.
 そこで、本発明は、ユーザとの間で持続した会話が可能な、音声による対話装置を提供することを目的とする。 Therefore, an object of the present invention is to provide a voice interactive device capable of continuous conversation with a user.
 本発明の一態様に係る音声対話装置は、ユーザ主導モード及びシステム主導モードの指示により、いずれか一方のモードも対応する対話文を生成する生成部と、前記対話文を音声でユーザに提示するための音声提示部と、、前記音声提示部が提示した音声に応答して、ユーザの音声特徴量を算出する音声特徴量算出部と、前記音声特徴量に基づいて前記ユーザの対話の活性度を算出する判定部と、前記活性度が閾値以上である場合に前記生成部のモードをユーザ主導モードに切替え、前記活性度が前記閾値未満である場合に前記生成部のモードをシステム主導モードに切替える切替部と、を備えることを特徴とする。 A voice interaction device according to an aspect of the present invention presents a dialog unit that generates a dialogue sentence corresponding to either mode in response to an instruction in a user initiative mode or a system initiative mode, and presents the dialogue sentence to the user by voice. A voice presentation unit for calculating the voice feature amount of the user in response to the voice presented by the voice presentation unit, and the activity level of the user's interaction based on the voice feature amount And a determination unit that calculates the mode, the mode of the generation unit is switched to a user-driven mode when the activity is greater than or equal to a threshold, and the mode of the generation unit is switched to a system-driven mode when the activity is less than the threshold And a switching unit for switching.
 本発明によれば、音声対話により持続した会話ができる対話処理を行うことができる。 According to the present invention, it is possible to perform a dialogue process that enables a sustained conversation by voice dialogue.
第1の実施形態に係る音声対話装置の構成を示すブロック図。The block diagram which shows the structure of the voice interactive apparatus which concerns on 1st Embodiment. 対話データベースの構成を示す図。The figure which shows the structure of a dialogue database. 関係距離を概略的に示す図。The figure which shows a related distance schematically. 音声特徴量算出部の構成を示す図。The figure which shows the structure of an audio | voice feature-value calculation part. 音声時間検出部の動作を説明するための図。The figure for demonstrating operation | movement of an audio | voice time detection part. 音声対話装置の動作を表すフローチャートを示す図。The figure which shows the flowchart showing operation | movement of a voice interactive apparatus. 発話例を示す図。The figure which shows the example of utterance. 第2の実施形態に係る音声対話装置の構成を示すブロック図。The block diagram which shows the structure of the voice interactive apparatus which concerns on 2nd Embodiment. 音声対話装置の動作を表すフローチャートを示す図。The figure which shows the flowchart showing operation | movement of a voice interactive apparatus.
 以下、図面を参照しつつ本発明の実施形態について説明する。また、以下説明する図面において、符号が一致するものは、同様のものを示しており、重複した説明は省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings to be described below, the same reference numerals indicate the same parts, and duplicate descriptions are omitted.
(第1の実施形態)
 図1は、本発明の第1の実施形態に係る音声対話装置100の構成を示すブロック図である。本実施形態では、音声対話装置100がロボットに適用される場合を例に説明するが、本発明はこれに限定されず、音声対話装置が搭載可能な各種の装置にも適用されうる。なお、本実施形態で説明するように、音声対話装置100がロボットに適用される場合は、音声対話装置100は、ロボットの音声対話に係る部分を示す。さらに、図1で示す制御対象111は、ロボットの手、足、又は頭部等の部分を示す。
(First embodiment)
FIG. 1 is a block diagram showing a configuration of a voice interactive apparatus 100 according to the first embodiment of the present invention. In the present embodiment, the case where the voice interaction device 100 is applied to a robot will be described as an example. However, the present invention is not limited to this, and can be applied to various devices on which the voice interaction device can be mounted. As described in the present embodiment, when the voice interaction device 100 is applied to a robot, the voice interaction device 100 indicates a part related to the voice interaction of the robot. Furthermore, the control target 111 shown in FIG. 1 indicates a part such as a robot hand, foot, or head.
 音声対話装置100は、ユーザと対話するための文章を生成する生成部101と、生成部101が生成した文章を音声でユーザに提示するための音声提示部を備える。音声提示部とは、音声合成部102と、音声出力部108のことを示す。具体的には、音声合成部102は、生成部101が生成した文章を音声信号に変換するし、得られた音声信号は、音声出力部108により音声に変換して出力される。ユーザがこの音声を聞いてこれに応答する音声を発生すると、音声入力部107がユーザの音声を音声信号に変換する。 The voice interaction apparatus 100 includes a generation unit 101 that generates a sentence for interacting with the user, and a voice presentation unit that presents the sentence generated by the generation unit 101 to the user by voice. The voice presentation unit indicates the voice synthesis unit 102 and the voice output unit 108. Specifically, the speech synthesis unit 102 converts the text generated by the generation unit 101 into a speech signal, and the obtained speech signal is converted into speech by the speech output unit 108 and output. When the user hears this voice and generates a voice that responds to the voice, the voice input unit 107 converts the user's voice into a voice signal.
 なお、音声出力部108は、ロボット以外の用途で使用される場合、音声対話装置100と外部接続させてもよい。 Note that the voice output unit 108 may be externally connected to the voice interaction device 100 when used for purposes other than the robot.
 音声対話装置101はさらに、ユーザが発した音声の特徴量を算出する音声特徴量算出部103と、音声特徴量算出部103で算出した特徴量に基づいてユーザの対話の活性度を判定する判定部104と、判定部104の判定に応じてシステム主導モードとユーザ主導モードとを切り替える切替部105とを備える。 The voice dialogue apparatus 101 further includes a voice feature amount calculation unit 103 that calculates a feature amount of a voice uttered by the user, and a determination that determines the activity level of the user's dialogue based on the feature amount calculated by the voice feature amount calculation unit 103 Unit 104 and a switching unit 105 that switches between the system-driven mode and the user-driven mode in accordance with the determination of the determination unit 104.
 また、音声対話装置100は、対話データベース106に複数のキーワード等を記憶し、対話テンプレート109に対話データベース106に記憶されたキーワードを用いて文章を生成するための文章のテンプレートを記憶している。 Further, the voice interaction device 100 stores a plurality of keywords and the like in the interaction database 106, and stores a sentence template for generating a sentence using the keywords stored in the interaction database 106 in the interaction template 109.
 生成部101は、対話データベース106に接続され、対話データベース106を用いてユーザと対話するための文章を生成し、音声合成部102へ生成した文章を送る。音声合成部102は、生成部101から送られた文章を音声信号に変換し、その音声信号をスピーカー等の音声出力部108から音声としてユーザに出力する。 The generating unit 101 is connected to the dialog database 106, generates a text for interacting with the user using the dialog database 106, and sends the generated text to the speech synthesizer 102. The voice synthesizing unit 102 converts the sentence sent from the generating unit 101 into a voice signal, and outputs the voice signal from the voice output unit 108 such as a speaker to the user as voice.
表現出力部110は、対話テンプレート109に予め登録されたテンプレート(対話文)に関連付けて記憶された動作データに応じて、制御対象111としてのロボット又はCG等を動作させることで、円滑に対話を行う。対話テンプレート109には、例えば、テンプレートが質問文であれば首をかしげる、テンプレートが“うんうん”といった相槌であればうなずく、というようにテンプレートに動作データを関連付けて登録されている。表現出力部110は、対話テンプレート109に登録されたテンプレートに関連付けられた動作データに基づいて、例えば、ロボットの動作又はCGの画像を変化させる。 The expression output unit 110 operates the robot or the CG as the control target 111 according to the operation data stored in association with the template (dialog sentence) registered in advance in the dialog template 109, so that the dialog is smoothly performed. Do. In the dialogue template 109, for example, if the template is a question sentence, the head is curled, and if the template is a companion such as “Yes”, the action data is registered in association with the template. The expression output unit 110 changes, for example, the robot operation or the CG image based on the operation data associated with the template registered in the dialogue template 109.
 図2は、対話データベース106が記憶する情報を示す図である。対話データベース106は、複数のキーワード等が格納された複数の話題データ1~N(ただし、Nは2以上の整数)を有する。話題データ1~Nは、それぞれ話題と、その話題に関係する場所の名称、人物名、食べ物の名称等のキーワードと、キーワードの優先順位と、それぞれのキーワード間の関係性を示す距離(以下「関係距離」という。)と、を含む。 FIG. 2 is a diagram showing information stored in the dialogue database 106. The dialogue database 106 has a plurality of topic data 1 to N (where N is an integer of 2 or more) in which a plurality of keywords and the like are stored. The topic data 1 to N are each a topic, a keyword such as a name of a place related to the topic, a person name, a name of food, a keyword priority, and a distance indicating a relationship between the keywords (hereinafter, “ And "related distance").
 対話データベース106は、例えば、話題データ1を切替部105が選択したとすると、話題データ1の中のキーワードをいくつか選択し、その選択したそれぞれのキーワード間の関係距離に基づいて文章を生成する。 For example, if the switching unit 105 selects the topic data 1, the dialogue database 106 selects some keywords in the topic data 1 and generates a sentence based on the relationship distance between the selected keywords. .
 キーワード間の関係距離から文章を生成する方法としては、種々の方法が考えられる。例えば、関連性の近いキーワードを2つ選び、その概念構造の近さから文章を作成する方法がある。図3は、概念構造の近さを概略的に示す図である。 “りんご”と“みかん”ならば同じ概念(果物)の一つなので1、“りんご”と“果物”ならば“りんご”が“果物”に内包されるので2とするなど、概念構造の近さが表される。図3(a)では、数値が大きいほど概念構造が近い。例えば、関係距離が1である“りんご”と“みかん”では、「“りんご”と“みかん”ではどちらがおいしいの?」のように、関係距離に応じて予め定められた文章を生成することが出来る。関係距離としては、他にも連想距離が挙げられる。図3(b)は、連想距離を概略的に示す図である。図3(b)に示すように、ある単語を聞いて連想される単語を統計的に処理し、単語間の類似関係を示す指標で連想距離を表すことができる。例えば、“りんご”と聞いて連想するものを挙げてくださいという質問を多数の人にして、その頻度から連想距離を算出することが出来る。図3(b)では、数値が大きいほど連想距離が近ため、例えば、“りんご”と“果物”の連想距離は0.2と類似度が高く、“りんご”と“野菜”の連想距離は4.2と類似度がそれ程高くないことが分かる。関係距離としては、他にも文章距離や対話履歴距離などが挙げられる。文章距離は、ニュース記事などの文章から、各キーワードが文章中で何語離れているかを表す。対話履歴距離は、過去の対話履歴から、各キーワードが文章中で何語離れているかを表す。 Various methods can be considered as a method for generating a sentence from the relational distance between keywords. For example, there is a method of selecting two closely related keywords and creating a sentence from the closeness of the conceptual structure. FIG. 3 is a diagram schematically showing the proximity of the conceptual structure. “Apple” and “mandarin” are one of the same concepts (fruits), and “apples” and “fruits” are “fruits” because “apples” are contained in “fruits”. Is expressed. In FIG. 3A, the conceptual structure is closer as the numerical value is larger. For example, in the case of “apples” and “mandarin oranges” having a relational distance of 1, a sentence predetermined according to the relational distance can be generated, such as “Which is better in“ apples ”or“ mandarin oranges ”?” I can do it. Other related distances include associative distances. FIG. 3B is a diagram schematically showing the associative distance. As shown in FIG. 3B, words associated with a certain word are statistically processed, and the associative distance can be expressed by an index indicating the similarity between the words. For example, it is possible to calculate the associative distance from the frequency of asking many people the question of “listen to something that is associated with listening to“ apple ””. In FIG. 3 (b), the larger the value is, the closer the associative distance is. For example, the associative distance between “apples” and “fruits” is as high as 0.2, and the associative distance between “apples” and “vegetables” is It can be seen that the similarity is not so high as 4.2. Other related distances include text distance and dialog history distance. The sentence distance represents how many words each keyword is separated from the sentence such as a news article. The dialogue history distance represents how many words each keyword is separated from the past dialogue history.
 音声合成部102は、生成部101から送られてきた文章を音声信号に変換する。変換された音声信号は、音声合成部102に接続された音声出力部108を通して対話対象のユーザに音声として出力される。 The voice synthesizer 102 converts the text sent from the generator 101 into a voice signal. The converted voice signal is output as voice to the user who is the object of dialogue through the voice output unit 108 connected to the voice synthesis unit 102.
 図4に示すように、音声特徴量算出部103は、音量検出部401と、ピッチ検出部402と、音声時間検出部403と、音声認識部404と、を備える。音声特徴量算出部103は、マイク等の音声入力部95が接続され、各部で得た音声情報を判定部104へ送る。 As shown in FIG. 4, the voice feature quantity calculation unit 103 includes a volume detection unit 401, a pitch detection unit 402, a voice time detection unit 403, and a voice recognition unit 404. The audio feature amount calculation unit 103 is connected to an audio input unit 95 such as a microphone, and sends audio information obtained by each unit to the determination unit 104.
 音量検出部401は、音声入力部401から入力されたユーザが発声した音声の音量を検出する。具体的には、時系列的にユーザが発声した音声の振幅をデータとして蓄積し、このデータから音声の振幅の平均値や分散を算出する。 The volume detection unit 401 detects the volume of the voice uttered by the user input from the voice input unit 401. Specifically, the amplitude of the voice uttered by the user in time series is accumulated as data, and the average value and variance of the voice amplitude are calculated from this data.
 ピッチ検出部402は、音声入力部401から入力されたユーザーが発声した音声の基本周波数(ピッチ)を検出する。具体的には、時系列的にユーザーが発声した音声の基本周波数をデータとして蓄積し、このデータから基本周波数の平均値や分散を算出する。 The pitch detection unit 402 detects the fundamental frequency (pitch) of the voice uttered by the user input from the voice input unit 401. Specifically, the fundamental frequency of the voice uttered by the user in time series is accumulated as data, and the average value and variance of the fundamental frequency are calculated from this data.
 音声時間検出部403は、音声入力部401からユーザが発話を開始してから終了するまでの時間、ロボットの発話終了からユーザの発話開始までの時間を検出する。 The voice time detection unit 403 detects the time from the voice input unit 401 until the user ends the utterance and the time from the end of the robot utterance to the start of the user's utterance.
 図5は、音声時間検出部403の動作を説明するための図である。横軸は時間を示す。図5(a)は、ロボットの発話を示し、図5(b)は、ユーザの発話を示す。T1は、一方の話者(ロボット)が話し終わって、次の話者(ユーザ)が話し始めるまでの時間(交替潜時)を示す。T2は、ユーザが発声してから発声が終了するまでの時間を示す。ユーザが発声してから発声が終了し、再びユーザが発声し始めるまでの時間(以下「発声間隔」という。)をデータとして蓄積し、このデータから発声間隔の平均時間を算出する。 FIG. 5 is a diagram for explaining the operation of the audio time detection unit 403. The horizontal axis indicates time. FIG. 5A shows the utterance of the robot, and FIG. 5B shows the utterance of the user. T1 indicates the time (alternative latency) until one speaker (robot) finishes speaking and the next speaker (user) starts speaking. T2 indicates the time from when the user utters until the utterance ends. The time from when the user utters until the utterance ends and until the user starts to utter again (hereinafter referred to as “speech interval”) is stored as data, and the average time of the utterance interval is calculated from this data.
音声認識部404は、音声を認識して文章化するものであり、連続音声認識と呼ばれる文章を認識するものであっても、単語認識と呼ばれる予め決められた待ち受け語彙のみを認識するものであってもよい。連続音声認識の場合には、ユーザの音声を文章として認識し、その文章中に、話題データのキーワードが含まれるか否かを算出する。単語認識の場合には、話題データのキーワードを待ち受け語彙として登録しておき、その待ち受け語彙が認識されたか否かを算出する。 The speech recognition unit 404 recognizes speech and converts it into sentences. Even if it recognizes sentences called continuous speech recognition, it recognizes only a predetermined standby vocabulary called word recognition. May be. In the case of continuous speech recognition, the user's speech is recognized as a sentence, and whether or not the topic data keyword is included in the sentence is calculated. In the case of word recognition, a keyword of topic data is registered as a standby vocabulary, and whether or not the standby vocabulary is recognized is calculated.
 このように、ユーザと音声対話装置100が数回の対話を繰り返した後、音量検出部401、ピッチ検出部402、音声時間検出部403、音声認識部404で、音声の振幅の平均値と分散や音声の周波数の平均値と分散、交替潜時における平均時間と分散、音声認識による話題データのキーワードが認識された否かのデータは音声データベース405に格納される。また、予めユーザが発声した音声情報を蓄積しておき、これらの音声情報を音声データベース405に格納することもできる。なお、平均値と分散は、それぞれ、音声の振幅、周波数、発声間隔等の物理量と対話回数から算出する。 As described above, after the user and the voice interaction device 100 repeat the conversation several times, the sound volume detection unit 401, the pitch detection unit 402, the voice time detection unit 403, and the voice recognition unit 404 use the average value and variance of the voice amplitude. In addition, the voice database 405 stores the average value and variance of the frequency of voice, the average time and variance in alternation latency, and whether or not the topic data keyword is recognized by voice recognition. Further, voice information uttered by the user can be accumulated in advance, and the voice information can be stored in the voice database 405. The average value and variance are calculated from physical quantities such as voice amplitude, frequency, and speech interval, and the number of conversations, respectively.
 判定部104は、音声特徴量算出部103に接続された音声データベース405から送られた音声特徴量のデータと、ユーザが発した音声特徴量とをそれぞれ比較して、活性度を判定する。 The determination unit 104 compares the voice feature amount data sent from the voice database 405 connected to the voice feature amount calculation unit 103 with the voice feature amount emitted by the user, and determines the degree of activity.
ここで、活性度とは、ユーザが発した音声が音声データベース405に蓄積された、ユーザが過去に発した音声から算出された音声情報を構成する振幅、周波数、発声間隔等の物理量よりも大きいか或いは小さいかという度合いで示される。過去とは、音声対話装置100とユーザが対話を始めてから時間の経過を示し。例えば、分単位でも良いし、数年分でもよい。 Here, the degree of activity is larger than physical quantities such as amplitude, frequency, and utterance interval constituting voice information calculated from voices uttered by the user in which voices uttered by the user are accumulated in the voice database 405. Or a small degree. The past indicates the passage of time since the voice interaction device 100 and the user started a conversation. For example, it may be in minutes or for several years.
 例えば、音声の振幅の場合は、音声データベース405から送られた音声の振幅の平均値よりも、ユーザが発声した音声の振幅の方が大きい場合は、活性度が閾値以上であると判定する。 For example, in the case of the amplitude of the voice, if the amplitude of the voice uttered by the user is larger than the average value of the amplitude of the voice sent from the voice database 405, it is determined that the activity is equal to or greater than the threshold value.
 音声の周波数の場合は、音声データベース405から送られた音声の周波数の平均値よりも、ユーザが発声した音声の周波数の方が大きい場合は、活性度が高いと判定する。 In the case of the voice frequency, if the frequency of the voice uttered by the user is larger than the average value of the voice frequency sent from the voice database 405, it is determined that the activity is high.
 なお、音声データベース405から送られた音声の振幅及び周波数の平均値を活性度の判定に用いられる閾値とする。すなわち、過去のユーザが発声した音声の振幅及び周波数の平均値と現在のユーザが発声した音声の振幅及び周波数を比較して活性度を判定することができる。 Note that the average value of the amplitude and frequency of the voice sent from the voice database 405 is set as a threshold used for the determination of the activity. That is, the degree of activity can be determined by comparing the average value of the amplitude and frequency of the voice uttered by the past user with the amplitude and frequency of the voice uttered by the current user.
 発声間隔の場合は、音声データベース405から送られた発声間隔の平均時間よりも、ユーザの発声間隔の方が短い場合は、活性度が高いと判定する。すなわち、過去のユーザの発声間隔の平均値と現在のユーザの発声間隔を比較して活性度を判定する。 In the case of an utterance interval, if the user's utterance interval is shorter than the average interval of the utterance intervals sent from the voice database 405, it is determined that the activity is high. That is, the degree of activity is determined by comparing the average value of the past user speech intervals with the current user speech interval.
 このように、活性度が高いと判定され、音声対話装置100がシステム主導モードの状態である場合は、判定部104は切替部105にユーザ主導モードに切替える。 Thus, when it is determined that the activity level is high and the voice interactive apparatus 100 is in the system driven mode, the determining unit 104 switches the switching unit 105 to the user driven mode.
 一方で、活性度が閾値未満であると判定され、音声対話装置100がユーザ主導モードの状態である場合は、判定部104は切替部105にシステム主導モードへ切替える。 On the other hand, when it is determined that the activity is less than the threshold value and the voice interaction apparatus 100 is in the user-driven mode, the determination unit 104 switches the switching unit 105 to the system-driven mode.
 なお、本実施形態では、上記した3つの音声情報を構成する振幅、周波数、及び発声間隔等の物理量のうち少なくとも1つを用いれば、判定部104で判定することができる。 In the present embodiment, the determination unit 104 can determine if at least one of the physical quantities such as the amplitude, frequency, and utterance interval constituting the three pieces of audio information is used.
 ここで、システム主導モードとは、生成部101で予め決められた順番で図2に示す対話データベース105内の話題データ1~Nを選択して文章を生成するモードをいう。 Here, the system-driven mode refers to a mode in which the topic data 1 to N in the dialogue database 105 shown in FIG.
 ユーザ主導モードとは、図2に示すように、システム主導モードで選択されている話題データに固定し、ユーザが発した音声をその固定された話題データの中に含まれる単語と比較しながら音声認識を行い、該当した単語がある場合にはその単語を用いて生成部101で文章を生成するモードをいう。 As shown in FIG. 2, the user-driven mode is fixed to the topic data selected in the system-driven mode, and the voice uttered by the user is compared with the words included in the fixed topic data. This is a mode in which recognition is performed, and when there is a corresponding word, the generation unit 101 generates a sentence using the word.
 切替部105は、判定部104で算出した活性度に応じて、システム主導モードとユーザ主導モードを切替える。 The switching unit 105 switches between the system initiative mode and the user initiative mode according to the activity calculated by the determination unit 104.
 図6は、音声対話装置100の動作を表すフローチャートを示す図である。図6(a)は、ステップS601~ステップS604はシステム主導モードでの動作を示し、図6(b)は、ステップS611~ステップS614はユーザ主導モードでの動作を示している。以下、音声対話装置100の初期状態が、システム主導モードであるとして説明するが、本発明はこれに限定されず、ユーザ主導モードが初期状態であってもよい。 FIG. 6 is a flowchart illustrating the operation of the voice interaction apparatus 100. 6A shows operations in the system initiative mode in steps S601 to S604, and FIG. 6B shows operations in the user initiative mode in steps S611 to S614. Hereinafter, although the initial state of the voice interactive apparatus 100 is described as being in the system-driven mode, the present invention is not limited to this, and the user-driven mode may be in the initial state.
 ステップS601では、生成部101は、対話データベース106を用いて予め決められた話題データ及びその話題データの中の代表的なキーワードを選択して、ユーザと対話するための文章を生成し、音声合成部102に送る。 In step S601, the generation unit 101 selects topic data determined in advance using the conversation database 106 and a representative keyword in the topic data, generates a sentence for interacting with the user, and performs speech synthesis. Send to part 102.
 ステップS602では、音声合成部102は、生成部101から送られた文章を音声に変換する。音声出力部108は、音声合成部102で生成された音声をユーザに出力する。 In step S602, the speech synthesis unit 102 converts the text sent from the generation unit 101 into speech. The voice output unit 108 outputs the voice generated by the voice synthesis unit 102 to the user.
 ステップS3603では、音声特徴量算出部103は、音声出力部108から出力された音声を聞いたユーザがそれに対して答えたときのユーザの音声から音声特徴量を算出する。 In step S3603, the voice feature quantity calculation unit 103 calculates a voice feature quantity from the user's voice when the user who heard the voice output from the voice output unit 108 answers the voice.
ステップS604では、判定部104は、音声特徴量算出部103で算出された音声特徴量に基づいてユーザの対話の活性度を判定する。判定部104で活性度が高くないと判定された場合は(ステップS604で「NO」)、ステップS601に戻り、生成部101で別の文章を生成する。判定部104で活性度が閾値以上であると判定された場合は(ステップS604で「YES」)、切替部105は、システム主導モードからユーザ主導モードに切替える。 In step S <b> 604, the determination unit 104 determines the activity level of the user's dialogue based on the voice feature amount calculated by the voice feature amount calculation unit 103. If the determination unit 104 determines that the activity is not high (“NO” in step S604), the process returns to step S601, and the generation unit 101 generates another sentence. If the determination unit 104 determines that the activity is equal to or greater than the threshold (“YES” in step S604), the switching unit 105 switches from the system-driven mode to the user-driven mode.
 ステップS611では、ユーザ主導モードに切替えられた直後では、システム主導モードでユーザの対話の活性度が高かったときに選択されていた話題データ、具体的には、ステップS601において生成部101で文章を生成するために選択した話題データを用いる。その話題データの中のキーワードを選択して、生成部101で文章を生成する。後述するステップS613でユーザの音声を検出した後は、音声認識部40が、ユーザの音声を認識して、ステップS604で固定されたときの話題データの中のキーワードと比較する。生成部101は、検出した音声が固定された話題データの中のキーワードと一致した場合は、そのキーワードを用いて文章を生成する。一方で、生成部101は、検出した音声が固定した話題データの中のキーワードと一致しない場合は、(「へぇ、ふーん、そうなんだ。」)等の予め対話データベース106に格納されたキーワードを用いて文章を生成する。 In step S611, immediately after switching to the user-driven mode, the topic data selected when the activity level of the user's dialogue is high in the system-driven mode, specifically, the text is generated by the generation unit 101 in step S601. Use topic data selected to generate. A keyword in the topic data is selected, and the generation unit 101 generates a sentence. After detecting the user's voice in step S613 to be described later, the voice recognition unit 40 recognizes the user's voice and compares it with the keyword in the topic data when fixed in step S604. When the detected voice matches the keyword in the fixed topic data, the generation unit 101 generates a sentence using the keyword. On the other hand, when the detected voice does not match the keyword in the fixed topic data, the generation unit 101 uses a keyword stored in the dialogue database 106 in advance (such as “Hey, huh, yeah”). To generate a sentence.
 ステップS612では、音声合成部102は、生成部101から送られた文章を音声信号に変換する。音声出力部108は、音声合成部102で変換された音声信号を音声としてユーザに出力する
 ステップS613では、音声特徴量算出部103は、音声出力部108から出力された音声を聞いたユーザがそれに対して答えたときのユーザの音声から音声特徴量を算出する。
In step S612, the speech synthesis unit 102 converts the text sent from the generation unit 101 into a speech signal. The voice output unit 108 outputs the voice signal converted by the voice synthesizing unit 102 to the user as voice. In step S613, the voice feature amount calculation unit 103 receives the voice output from the voice output unit 108. The voice feature amount is calculated from the voice of the user when the answer is made.
 ステップS614では、判定部104は、音声特徴量算出部103で算出された音声特徴量に基づいてユーザの対話の活性度を判定する。判定部104で活性度が閾値以上であると判定された場合は(ステップS614で「NO」)、ステップS604に戻る。一方で、判定部104で活性度が閾値未満であると判定された場合は(ステップS614で「YES」)、判定部104は切替部105にユーザ主導モードからシステム主導モードに切替える指示をする。そして、切替部105は、ユーザ主導モードからシステム主導モードに切替えて、ステップS601へ戻る。 In step S614, the determination unit 104 determines the activity level of the user's interaction based on the voice feature amount calculated by the voice feature amount calculation unit 103. If the determination unit 104 determines that the activity is equal to or higher than the threshold (“NO” in step S614), the process returns to step S604. On the other hand, when the determination unit 104 determines that the activity is less than the threshold (“YES” in step S614), the determination unit 104 instructs the switching unit 105 to switch from the user-driven mode to the system-driven mode. Then, the switching unit 105 switches from the user-driven mode to the system-driven mode, and returns to step S601.
 このように、本実施形態では、ユーザの会話の活性度を判定することによって、システム主導モードとユーザ主導モードを切替えることができる。その結果、持続した音声対話をすることが可能となる。 Thus, in the present embodiment, the system-driven mode and the user-driven mode can be switched by determining the activity level of the user's conversation. As a result, it is possible to have a continuous voice conversation.
 次に、上記の動作に従って対話処理が行われたときの発話例を例示的に示す示す。図7は、発話例を示す図である。初めはシステム主導モード(話題提示)でスタートしている。ここでは、話題データ1を用いているとし、話題データ1の中での優先度が最も高い(話題を最も代表する)キーワードである、“りんご”と、“りんご”に最もキーワード距離が近い“青森”を抽出するものとする。そして、“りんご”の「果物」という概念と、“青森”の「県名」という概念から、対話テンプレート109を探索し、“「果物」と言えば、「県名」だよね”というテンプレートを使い、“りんごと言えば、青森だよね”と発話する。それに対して、ユーザが“そうかなぁ”と短く、低い声で発話したとする。ユーザの発話音声に基づいて音声特徴量算出部103で算出された音声特徴量から、活性度を算出する。これまでの履歴と比較して、活性度が閾値未満であるため、システム主導モード(話題提示)を続ける。そして、“青森”というキーワードを持つ他の話題データ2を用い、話題データ2の、“青森”というキーワードに最もキーワード距離の近い、“東北”を使う。“青森”の「県名」と“東北”の「地方名」の概念から、対話テンプレート109を探索し、“「件名」は「地方名」にあるんだよね”というテンプレートを使い、“青森は東北にあるんだよね”と発話する。それを受けて、ユーザが、“うん、そうだよ。青森は東北にある県だよ!”と元気に発話したとする。音声特徴量算出部103で算出された音声特徴量(例えば、音量や声の高さなど)から、活性度が閾値以上であると判定し、ユーザ主導モードに切り替える。ユーザ主導モードでは、システム主導モードで活性度の高かったときの話題データ2を用いる。そして、話題データ2で優先度が最も高い“青森”を使いて、ユーザ主導モード用の対話テンプレート109の中から「県名」の概念を用いて、“青森に行ったことある?”と発話する。ユーザが“うん、青森で生まれたんだ。青森はいいところだよ。”と発話し、話に乗ってきたとする。活性度は閾値未満ではないため、引き続きユーザ主導モードを続ける。また、音声特徴量算出部103で、キーワードが認識されなかった場合には、“うんうん”といった相槌を打つ。さらに、ユーザが、“夏にはねぶた祭りがあってねぇ。”と話題データ2のキーワードの一つである、“ねぶた祭り”に関する発話をし、そのキーワードが認識された場合には、“ねぶた祭りかぁ”とその発話を繰り返す。このように会話を続けて、再度、ユーザの対話の活性度が低くなったら、システム主導モードに切替え、話題データ3を用いて、次の話題を提示する。 Next, an example of utterance when dialogue processing is performed according to the above operation will be shown as an example. FIG. 7 is a diagram illustrating an utterance example. At first, it started in the system driven mode (topic presentation). Here, it is assumed that topic data 1 is used, and the keyword distance is closest to “apple”, which is the keyword having the highest priority in topic data 1 (most representative of the topic), and “apple”. “Aomori” shall be extracted. Then, from the concept of “fruit” of “apple” and the concept of “prefecture name” of “Aomori”, the dialogue template 109 is searched, and the template “prefecture name” is called “fruit”. The user utters “Speaking of apples, Aomori.” On the other hand, it is assumed that the user utters a low voice with a short “Yes”. The degree of activity is calculated from the voice feature amount calculated in step 4. Since the degree of activity is less than the threshold compared to the history so far, the system-driven mode (topic presentation) is continued. Use “Tohoku”, which is the closest keyword distance to the keyword “Aomori” in Topic Data 2. Use “Topic” in “Aomori” and “Region” in “Tohoku”. From the concept of vs Search the template 109 and use the template ““ Subject is in “Region” ”” and say “Aomori is in Tohoku”. ,that's right. Aomori is a prefecture in Tohoku! "From the voice feature quantity (for example, volume and voice pitch) calculated by the voice feature quantity calculation unit 103, it is determined that the activity is equal to or higher than the threshold value, and the user-driven mode is set. In the user-driven mode, the topic data 2 when the activity is high in the system-driven mode is used, and “Aomori” having the highest priority in the topic data 2 is used, and the dialog template 109 for the user-driven mode is used. Using the concept of “prefecture name”, say “Have you ever been to Aomori?” Suppose a user speaks, “Yeah, I was born in Aomori. Aomori is a good place.” Since the degree of activity is not less than the threshold, the user-driven mode is continued. Also, if the keyword is not recognized by the voice feature amount calculation unit 103, a conflict such as “Yes” is given. Furthermore, when the user utters “Nebuta Festival”, which is one of the keywords in Topic Data 2, and “Nebuta Festival in summer,” and the keyword is recognized, The festival is repeated. Continuing the conversation in this way, when the activity level of the user's dialogue again decreases, the system is switched to the system-driven mode, and the next topic is presented using the topic data 3.
このように、システム主導モードでは、話題データを順次切り替えて、新たな話題を提示する。一方、ユーザ主導モードでは、話題データを固定して、ユーザの話に合わせて、相槌を打ったり、ユーザの発話したキーワードを繰り返したりすることで、ユーザの発話を促す。 As described above, in the system-driven mode, the topic data is sequentially switched to present a new topic. On the other hand, in the user-driven mode, the topic data is fixed, and the user's utterance is urged by repeating the keyword or the keyword spoken by the user according to the user's story.
(第2の実施形態)
 図8は、本発明の第2の実施形態に係る音声対話装置800のブロック図である。音声対話装置800は、画像特徴量算出部801と、表現出力部110をさらに備える点で、音声対話装置100と相違する。音声対話装置800のうち、音声対話装置100と同様な構成については、説明を省略する。
(Second Embodiment)
FIG. 8 is a block diagram of a voice interaction apparatus 800 according to the second embodiment of the present invention. The voice interaction apparatus 800 is different from the voice interaction apparatus 100 in that it further includes an image feature amount calculation unit 801 and an expression output unit 110. The description of the same configuration as the voice interaction device 100 in the voice interaction device 800 is omitted.
 画像特徴量算出部801は、不図示の画像データベース及び画像入力部802に接続される。画像入力部802は、対話対象であるユーザを時系列的に撮像して、撮像した画像を画像特徴量算出部801に送る。 The image feature amount calculation unit 801 is connected to an image database and image input unit 802 (not shown). The image input unit 802 images the user who is the subject of dialogue in time series, and sends the captured image to the image feature amount calculation unit 801.
 画像特徴量算出部801は、画像入力部802から送られた画像からユーザの顔の輪郭を検出し、検出した輪郭から特徴点を検出して、この特徴点の位置を画像データベースに蓄積し、これらから特徴点の位置の動き幅の平均値を算出する。 The image feature amount calculation unit 801 detects the contour of the user's face from the image sent from the image input unit 802, detects the feature point from the detected contour, accumulates the position of the feature point in the image database, From these, the average value of the movement width at the position of the feature point is calculated.
 具体的には、画像特徴量算出部801は、画像データベースに予め、顔画像のテンプレートを用意しておき、そのテンプレートと画像入力部802が撮像したユーザの画像とを比較して、顔の輪郭を検出する。そして、画像特徴量算出部801は、検出された輪郭から撮像したユーザの画像の目、口、鼻等の特徴点を検出し、これらの特徴点をモニタする。 Specifically, the image feature quantity calculation unit 801 prepares a face image template in the image database in advance, compares the template with the user image captured by the image input unit 802, and determines the face contour. Is detected. Then, the image feature amount calculation unit 801 detects feature points such as eyes, mouth, and nose of the user's image captured from the detected contour, and monitors these feature points.
 判定部104は、音声特徴量算出部103に加えて、画像特徴量算出部801を備えることによって、ユーザの顔輪郭から検出した特徴点の位置を用いて活性度を判定することができる。 The determination unit 104 includes the image feature amount calculation unit 801 in addition to the audio feature amount calculation unit 103, and thus can determine the activity using the position of the feature point detected from the user's face outline.
 具体的には、画像特徴量算出部801で検出したユーザの顔の輪郭の特徴点の位置と、画像データベースに蓄積され、算出された特徴点における位置の動き幅の平均値とを比較して、平均値よりも画像特徴量算出部801で検出したユーザの顔の輪郭の特徴点の位置の動き幅の方が大きければ、活性度が閾値以上であると判定する。なお、画像データベースから送られた特徴点における位置の動き幅の平均値を閾値とする。すなわち、音声対話装置800がシステム主導モードであって、ユーザの顔の輪郭の特徴点の位置の動き幅が閾値以上である場合に、ユーザ主導モードに切替わる。 Specifically, the position of the feature point of the contour of the user's face detected by the image feature amount calculation unit 801 is compared with the average value of the movement width of the position at the calculated feature point stored in the image database. If the movement width at the position of the feature point of the contour of the user's face detected by the image feature amount calculation unit 801 is larger than the average value, the activity is determined to be greater than or equal to the threshold value. Note that the average value of the movement widths of the positions at the feature points sent from the image database is used as a threshold value. That is, when the voice interaction apparatus 800 is in the system-driven mode and the movement width of the feature point position of the user's facial contour is equal to or greater than the threshold value, the user-driven mode is switched.
 一方で、音声対話装置800がユーザ主導モードであって、ユーザの顔の輪郭の特徴点の位置の動き幅が閾値以下である場合に、システム主導モードに切替わる。 On the other hand, when the voice interaction apparatus 800 is in the user-driven mode and the movement width of the feature point position of the user's facial contour is equal to or less than the threshold, the system switches to the system-driven mode.
 また、予めユーザの顔の輪郭画像から検出した特徴点の位置の動き幅の平均値を蓄積しておき、これらの特徴点の位置情報を画像データベースに格納することもできる。なお、平均値は、特徴点の位置のベクトル変化量の積算値を対話回数で割って算出する。 It is also possible to accumulate an average value of the motion widths of the positions of feature points detected in advance from the contour image of the user's face and store the position information of these feature points in the image database. The average value is calculated by dividing the integrated value of the vector change amount of the feature point position by the number of dialogues.
 図9は、音声対話装置800の動作を表すフローチャートを示す図である。 FIG. 9 is a flowchart illustrating the operation of the voice interaction apparatus 800.
 図9(a)は、システム主導モードでの動作を示し、図9(b)は、ユーザ主導モードでの動作を示している。 FIG. 9 (a) shows the operation in the system driven mode, and FIG. 9 (b) shows the operation in the user driven mode.
音声対話装置800の動作のうち、ステップS901、S902及びS911は、図6のステップS601、S602及びS611と同様であるため、説明は省略する。 Of the operations of the voice interactive apparatus 800, steps S901, S902, and S911 are the same as steps S601, S602, and S611 in FIG.
 ステップS903では、図6のステップS603の動作に加えて、音声出力部106から出力された音声に対するユーザの顔の動きをユーザの顔画像の画像特徴量から検出する。 In step S903, in addition to the operation in step S603 of FIG. 6, the movement of the user's face with respect to the sound output from the sound output unit 106 is detected from the image feature amount of the user's face image.
 ステップS904では、図6のステップS604の動作に加えて、検出した画像特徴量からユーザの会話の活性度を判定する。活性度が閾値以上である場合は(ステップS904で「YES」)、切替部105は、システム主導モードからユーザ主導モードに切り替えて、ステップS911に進む。活性度が高くない場合は(ステップS904で「NO」)、ステップS901に戻る。 In step S904, in addition to the operation of step S604 in FIG. 6, the activity level of the user's conversation is determined from the detected image feature amount. If the activity is equal to or greater than the threshold (“YES” in step S904), the switching unit 105 switches from the system-driven mode to the user-driven mode, and proceeds to step S911. If the activity is not high (“NO” in step S904), the process returns to step S901.
ユーザ主導モードにおけるステップS913及びステップS914の動作は、ステップS903及びステップS904と同様に、画像特徴量を用いて動作を行う他は、図6の動作と同様である。 The operations in step S913 and step S914 in the user-driven mode are the same as the operations in FIG. 6 except that the operation is performed using the image feature amount, as in steps S903 and S904.
 このように、本実施形態では、音声特徴量算出部103に加えて、画像特徴量算出部801を備えることにより、音声だけでなく、画像でもユーザの会話の活性度を判定することができるので、ユーザの会話の活性度を精度高く判定し、持続的な対話をすることができる。 As described above, according to the present embodiment, by providing the image feature amount calculation unit 801 in addition to the sound feature amount calculation unit 103, it is possible to determine the activity level of the user's conversation not only by sound but also by image. , It is possible to determine the activity level of the user's conversation with high accuracy and to have a continuous conversation.
 なお、本発明の実施形態に係る音声対話装置の各部の各機能は、コンピュータ読み取り可能な記憶媒体格納された音声対話プログラムによってコンピュータに実行させることができる。また、本発明は、上記実施形態に限定されず、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。 In addition, each function of each part of the voice interactive apparatus according to the embodiment of the present invention can be executed by a computer by a voice interactive program stored in a computer-readable storage medium. Further, the present invention is not limited to the above-described embodiment, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
100 音声対話装置
101 生成部
102 音声合成部
103 音声特徴量算出部
104 判定部
105 切替部
DESCRIPTION OF SYMBOLS 100 Voice interaction apparatus 101 Generation | occurrence | production part 102 Speech synthesis part 103 Voice feature-value calculation part 104 Determination part 105 Switching part

Claims (5)

  1.  ユーザ主導モード及びシステム主導モードの指示により、いずれか一方のモードに対応する対話文を生成する生成部と、
     前記対話文を音声でユーザに提示するための音声提示部と、
     前記音声提示部が提示した音声に応答して、ユーザの音声特徴量を算出する音声特徴量算出部と、
     前記音声特徴量に基づいて前記ユーザの対話の活性度を算出する判定部と、
     前記活性度が閾値以上である場合に前記生成部のモードをユーザ主導モードに切替え、前記活性度が前記閾値未満である場合に前記生成部のモードをシステム主導モードに切替える切替部と、
     を備えることを特徴とする音声対話装置。
    A generation unit that generates a dialogue sentence corresponding to one of the modes according to an instruction of the user-driven mode and the system-driven mode;
    A voice presentation unit for presenting the dialogue sentence to the user by voice;
    A voice feature amount calculation unit that calculates a voice feature amount of the user in response to the voice presented by the voice presentation unit;
    A determination unit that calculates the activity of the user's dialogue based on the voice feature amount;
    A switching unit that switches the mode of the generation unit to a user-driven mode when the activity is greater than or equal to a threshold; and a mode that switches the mode of the generation unit to a system-driven mode when the activity is less than the threshold;
    A voice interactive apparatus comprising:
  2. 前記切替部は、過去の前記活性度が現在の前記活性度よりも小さい場合に前記生成部のモードをユーザ主導モードに切替え、過去の前記活性度が現在の前記活性度よりも大きい場合に前記生成部のモードをシステム主導モードに切替えることを特徴とする請求項1に記載の音声対話装置。 The switching unit switches the mode of the generation unit to a user-driven mode when the past activity is smaller than the current activity, and when the past activity is greater than the current activity The spoken dialogue apparatus according to claim 1, wherein the mode of the generation unit is switched to a system initiative mode.
  3.  撮像された画像の画像特徴量を算出する画像特徴量算出部を更に備え、
    前記判定部は、前記音声特徴量及び前記画像特徴量を用いて前記活性度を算出することを特徴とする請求項1に記載の音声対話装置。
    An image feature amount calculation unit that calculates an image feature amount of the captured image;
    The spoken dialogue apparatus according to claim 1, wherein the determination unit calculates the activity level using the voice feature amount and the image feature amount.
  4.  前記対話文に関連付けて記憶された動作データに応じてロボット又はCGを動作させる表現出力部を更に備えることを特徴とする、請求項1に記載の音声対話装置。 The speech dialogue apparatus according to claim 1, further comprising an expression output unit that causes the robot or CG to operate in accordance with operation data stored in association with the dialogue sentence.
  5.  コンピュータを、
     ユーザ主導モード及びシステム主導モードの指示により、いずれか一方のモードに対応する対話文を生成する生成部と、
     前記対話文を音声でユーザに提示するための音声提示部と、
     前記音声提示部が提示した音声に応答して、ユーザの音声特徴量を算出する音声特徴量算出部と、
     前記ユーザの音声特徴量に基づいて前記ユーザの対話の活性度を算出する判定部と、
     前記活性度が閾値以上である場合に前記生成部のモードをユーザ主導モードに切替え、前記活性度が前記閾値未満である場合に前記生成部のモードをシステム主導モードに切替える切替部と
     して機能させるための音声対話プログラム。
    Computer
    A generation unit that generates a dialogue sentence corresponding to one of the modes according to an instruction of the user-driven mode and the system-driven mode;
    A voice presentation unit for presenting the dialogue sentence to the user by voice;
    A voice feature amount calculation unit that calculates a voice feature amount of the user in response to the voice presented by the voice presentation unit;
    A determination unit that calculates an activity level of the user's dialogue based on the voice feature amount of the user;
    Functions as a switching unit that switches the mode of the generating unit to a user-driven mode when the activity is greater than or equal to a threshold, and switches the mode of the generating unit to a system-driven mode when the activity is less than the threshold A voice dialogue program to let you.
PCT/JP2009/004446 2009-09-09 2009-09-09 Speech interaction device and program WO2011030372A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/004446 WO2011030372A1 (en) 2009-09-09 2009-09-09 Speech interaction device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/004446 WO2011030372A1 (en) 2009-09-09 2009-09-09 Speech interaction device and program

Publications (1)

Publication Number Publication Date
WO2011030372A1 true WO2011030372A1 (en) 2011-03-17

Family

ID=43732061

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/004446 WO2011030372A1 (en) 2009-09-09 2009-09-09 Speech interaction device and program

Country Status (1)

Country Link
WO (1) WO2011030372A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016085747A (en) * 2015-11-24 2016-05-19 株式会社東芝 Interactive device
JP2020077272A (en) * 2018-11-09 2020-05-21 株式会社タカラトミー Conversation system and conversation program
JP2020109608A (en) * 2018-12-28 2020-07-16 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC Method and system for deactivating display of smart display device based on sound-based mechanism

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004513445A (en) * 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ User interface / entertainment device that simulates personal interaction and responds to the user's emotional state and / or personality
JP2005301017A (en) * 2004-04-14 2005-10-27 Sony Corp Apparatus and method for information processing, and program
JP2008083100A (en) * 2006-09-25 2008-04-10 Toshiba Corp Voice interactive device and method therefor
JP2008170817A (en) * 2007-01-12 2008-07-24 Toyota Motor Corp Interaction control device, interaction control method and interaction control program
JP2009037050A (en) * 2007-08-02 2009-02-19 Toyota Motor Corp Interaction device and program for interaction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004513445A (en) * 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ User interface / entertainment device that simulates personal interaction and responds to the user's emotional state and / or personality
JP2005301017A (en) * 2004-04-14 2005-10-27 Sony Corp Apparatus and method for information processing, and program
JP2008083100A (en) * 2006-09-25 2008-04-10 Toshiba Corp Voice interactive device and method therefor
JP2008170817A (en) * 2007-01-12 2008-07-24 Toyota Motor Corp Interaction control device, interaction control method and interaction control program
JP2009037050A (en) * 2007-08-02 2009-02-19 Toyota Motor Corp Interaction device and program for interaction

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016085747A (en) * 2015-11-24 2016-05-19 株式会社東芝 Interactive device
JP2020077272A (en) * 2018-11-09 2020-05-21 株式会社タカラトミー Conversation system and conversation program
JP7058588B2 (en) 2018-11-09 2022-04-22 株式会社タカラトミー Conversation system and conversation program
JP2020109608A (en) * 2018-12-28 2020-07-16 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC Method and system for deactivating display of smart display device based on sound-based mechanism
JP7190982B2 (en) 2018-12-28 2022-12-16 バイドゥ ユーエスエイ エルエルシー Method and System for Display Shutdown of Smart Display Device Based on Voice-Based Mechanism

Similar Documents

Publication Publication Date Title
US11580960B2 (en) Generating input alternatives
US11264030B2 (en) Indicator for voice-based communications
US11380330B2 (en) Conversational recovery for voice user interface
US20220157311A1 (en) Multi-layer keyword detection
US10074369B2 (en) Voice-based communications
US9972318B1 (en) Interpreting voice commands
US10678504B1 (en) Maintaining context for voice processes
US10056078B1 (en) Output of content based on speech-based searching and browsing requests
US10448115B1 (en) Speech recognition for localized content
US10453449B2 (en) Indicator for voice-based communications
US11232808B2 (en) Adjusting speed of human speech playback
US10365887B1 (en) Generating commands based on location and wakeword
US11538478B2 (en) Multiple virtual assistants
US10593319B1 (en) Parallelization of instruction steps
US10600419B1 (en) System command processing
US11579841B1 (en) Task resumption in a natural understanding system
US20240029743A1 (en) Intermediate data for inter-device speech processing
US11315552B1 (en) Responding with unresponsive content
EP3507796A1 (en) Voice-based communications
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
WO2011030372A1 (en) Speech interaction device and program
US11544303B1 (en) Responding with unresponsive content
US11763809B1 (en) Access to multiple virtual assistants
US11626106B1 (en) Error attribution in natural language processing systems
US11393451B1 (en) Linked content in voice user interface

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09849152

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09849152

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP