JP6373709B2 - Dialogue device - Google Patents
Dialogue device Download PDFInfo
- Publication number
- JP6373709B2 JP6373709B2 JP2014202219A JP2014202219A JP6373709B2 JP 6373709 B2 JP6373709 B2 JP 6373709B2 JP 2014202219 A JP2014202219 A JP 2014202219A JP 2014202219 A JP2014202219 A JP 2014202219A JP 6373709 B2 JP6373709 B2 JP 6373709B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- response information
- voice
- input
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Description
本発明は、ユーザの音声を認識して応答する対話装置及び対話システムに関する。 The present invention relates to an interactive apparatus and an interactive system that recognize and respond to a user's voice.
近年、介護や癒しのケアロボットや家事代行ロボットといったロボットが徐々にユーザの生活に浸透してきている。例えば、特許文献1〜4に開示されているように、音声認識機能を有し、ユーザの発話に対して応答する対話ロボット(対話装置)や、例えば、特許文献5,6に開示されているように、音声認識機能に加え、ユーザの生活情報を蓄積してユーザの補助や支援を行う機能を有する対話ロボットも開発されている。
In recent years, robots such as care and healing robots and housekeeping robots have gradually permeated the lives of users. For example, as disclosed in
従来の対話ロボットは、性能やコストの面から複雑な音声認識を行うことは困難であり、また応答内容もパターン化されたものや単純なものであり、面白みに欠け、飽きられ易いものとなりがちである。そこで、対話ロボットをサーバ装置と通信接続させ、対話ロボットがサーバ装置による音声認識に基づく応答内容を受信して出力(応答)するシステムも開発されている。しかし、この場合、対話ロボット単体で音声認識して応答する場合と比べて、応答のタイミングが遅れてしまう。また、通信が切断されると、応答内容を受信できない。そのため、ユーザがストレスを感じ、会話し難いといった思いをすることもある。 Conventional conversation robots are difficult to perform complex speech recognition in terms of performance and cost, and the response content is also patterned and simple, which tends to be uninteresting and easy to get tired of. It is. Therefore, a system has also been developed in which a dialogue robot is connected to a server device in communication, and the dialogue robot receives and outputs (responses) response contents based on voice recognition by the server device. However, in this case, the response timing is delayed as compared with the case where the dialog robot alone recognizes and responds. Further, when communication is disconnected, the response content cannot be received. For this reason, the user may feel stressed and feel difficult to talk.
そこで、本発明は、上記の問題点に鑑みてなされたものであり、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる対話装置及び対話システムを提供することにある。 Accordingly, the present invention has been made in view of the above problems, and provides an interactive apparatus and an interactive system that can smoothly output a plurality of information and provide a comfortable interactive environment without stressing the user. There is to do.
上記の課題を解決するために、本発明の一態様に係る対話装置は、入力音声を音声認識する音声認識手段と、上記音声認識の結果に応じた応答内容を示す主応答情報、及び、当該応答情報に対応づけられ当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部と、上記入力音声が入力される時刻を推定する時刻算出手段と、上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成手段と、上記入力音声の入力に対し、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御手段と、を備えたことを特徴とする。 In order to solve the above-described problem, an interactive apparatus according to an aspect of the present invention includes a speech recognition unit that recognizes input speech, main response information that indicates response contents according to the result of the speech recognition, and A response information storage unit that stores sub-response information indicating response content that is associated with response information and added to the response content indicated by the main response information; time calculation means that estimates the time when the input voice is input; Sub-response information generating means for acquiring material information used for generating or updating the sub-response information and generating or updating the sub-response information before the estimated input time, which is the estimated time, and the input voice Output control means for outputting the response content indicated by the sub-response information together with the response content indicated by the main response information obtained by referring to the response information storage unit.
本発明の一態様に係る対話装置によると、入力音声に対して、主応答情報が示す応答内容の音声出力に、副応答情報が示す応答内容の音声出力を付加できるので、複数の情報での応答が可能である。また、副応答情報は、入力音声の推定入力時刻よりも前に生成または更新されるので、変化に富んだ応答が可能である。このように、上記構成によると、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。 According to the interactive apparatus according to one aspect of the present invention, since the voice output of the response content indicated by the secondary response information can be added to the voice output of the response content indicated by the main response information with respect to the input voice, A response is possible. Moreover, since the secondary response information is generated or updated before the estimated input time of the input voice, a response rich in change is possible. Thus, according to the above configuration, a plurality of information can be smoothly output as a voice, and a comfortable interactive environment can be provided without causing stress to the user.
〔実施の形態1〕
以下、本発明の一実施形態について図1〜4に基づいて説明すれば以下の通りである。
[Embodiment 1]
Hereinafter, it will be as follows if one Embodiment of this invention is described based on FIGS.
(対話システムの構成)
図1は、本実施の形態に係る対話システム100の構成を示す図である。図1に示すように、対話システム100は、対話装置10、管理サーバ30、情報提供サーバ31−1,31−2、通信端末70、を備えており、これらは通信ネットワークを介して接続している。この通信ネットワークとしては、例えば、インターネットが利用できる。また、電話回線網、移動体通信網、CATV(CAble TeleVision)通信網、衛星通信網などを利用することもできる。
(Configuration of interactive system)
FIG. 1 is a diagram showing a configuration of a
対話装置10は音声認識機能を有しており、ユーザは自然言語を用いた音声出力(発話)によって対話装置10と対話することができる。対話装置10は、対話ロボットであってもよいし、音声認識機能を備えた、スマートフォン、タブレット端末、パーソナルコンピュータ、家電(家庭用電子機器)等であってもよい。
The
管理サーバは、対話装置10を管理する装置であり、情報提供サーバ31−1、31−2は対話装置10に各種情報を提供する装置であり、通信端末70は、対話装置10のユーザが有する通信端末であり、例えば、ユーザに関する情報を管理サーバに登録するのに用いられる。詳細は後述する。
The management server is a device that manages the
なお、図1では、説明の簡略化のため、1つの対話装置10、1つの通信端末70、2つの情報提供サーバ31−1,31−2を図示しているが、これらの数は限定されない。また、図1では、対話装置10は対話ロボットとして、通信端末70はスマートフォンとして表わされているが、これらに限定されるものではない。また、管理サーバ30が管理する対話装置10の種類は問わず、つまり、管理サーバ30に、対話ロボットとスマートフォンといったように異なる種類の対話装置10が通信接続していてもよい。
In FIG. 1, for simplification of explanation, one
(対話装置)
対話装置10の構成について説明する。対話装置10は、音声(入力音声)が入力されると、音声認識を行い、その認識結果に応じた対話を行う装置である。対話装置10は、図1に示すように、音声入力部11、音声出力部12、制御部13、データ格納部14、及び通信部15を備えている。
(Interactive device)
A configuration of the
音声入力部11は、マイク等の音声入力装置であり、音声出力部12は、スピーカ等の音声出力装置である。
The voice input unit 11 is a voice input device such as a microphone, and the
制御部13は、対話装置10の各部の動作を制御するブロックである。制御部13は、例えば、CPU(Central Processing Unit)や専用プロセッサなどの演算処理部などにより構成されるコンピュータ装置から成る。制御部13は、データ格納部14に記憶されている対話装置10における各種制御を実施するためのプログラムを読み出して実行することで、対話装置10の各部の動作を統括的に制御する。
The
データ格納部14は、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)などを含み、対話装置10にて用いられる各種情報(データ)を記憶するブロックである。また、データ格納部14には、応答情報格納部141が含まれる。応答情報格納部141は、単語やフレーズに対応させて主応答情報が登録されているデータベースである。主応答情報は、単語1つに対応したものだけでなく、複数の単語の組み合わせに対応しものが登録されている。また、ある単語やあるフレーズに対応させて複数の主対応情報が登録されていてもよく、この場合、実際に音声出力されるものを選択すればよい。なお、単語やフレーズおよび主応答情報は、何れもテキストデータとして格納しておけばよい。このようなデータベースの構築、また、データベースからの応答情報の取得については、公知技術が利用できる。
The
さらに、応答情報格納部141には、主応答情報対応付けられて副応答情報が登録されている。副応答情報は、主応答情報が示す応答内容に付加される応答内容を示す情報であり、後述のように、応答情報格納部141に格納されていない場合には、所定時刻になると生成されて格納される。また、格納されている場合には、所定時刻になると更新される。副応答情報については、具体例を用いて後述する。副応答情報もテキストデータとして応答情報格納部141に格納すればよい。
Further, in the response
さらに、制御部13は、音声認識部(音声認識手段)16、時刻算出部(時刻算出手段)17、材料情報取得部18、副応答情報生成部(副応答情報生成手段)19、出力制御部(出力制御手段)20、及び音声合成部21としての機能を有する。
Furthermore, the
音声認識部16は、ユーザからの入力音声を認識するブロックである。具体的には、音声認識部16は、音声入力部11から入力された音声データをテキストデータに変換して、そのテキストデータを解析して単語やフレーズを抽出する。なお、音声認識の処理について公知技術を用いることができる。
The
時刻算出部17は、入力音声が入力される時刻を推定(算出)するブロックである。時刻算出部17により推定された時刻を推定入力時刻と称する。材料情報取得部18は、副応答情報の生成または更新に用いる後述の材料情報を取得するブロックである。副応答情報生成部19は、時刻算出部17が算出した推定入力時刻よりも前に、材料情報取得部18から材料情報を受け取り(取得し)、副応答情報を生成または更新するブロックである。生成または更新された副応答情報は応答情報格納部141に格納される。
The
本実施形態では、時刻算出部17は、入力音声のうちの特定の入力音声の推定入力時刻を算出し、副応答情報生成部19は、時刻算出部17が算出した特定の入力音声の推定入力時刻よりも前に、応答情報格納部141に格納されている全ての副応答情報を生成または更新する。例えば、特定の入力音声を「おはよう」とすると、「おはよう」の推定入力時刻よりも前に、つまり、ユーザの一日の始まりと推定される時刻前に、全ての副音声情報を生成または更新することができる。ユーザは、一日毎に生成または更新された副応答情報が示す応答内容の音声を聞くことができる。
In the present embodiment, the
もちろん、入力音声毎に推定入力時刻を算出して、ある入力音声の音声認識の結果に対応付けられた主応答情報に付加される副応答情報を、その入力音声について算出した推定入力時刻前に生成または更新する構成であってもよい。 Of course, the estimated input time is calculated for each input voice, and the secondary response information added to the main response information associated with the result of the voice recognition of the input voice is displayed before the estimated input time calculated for the input voice. The structure which produces | generates or updates may be sufficient.
時刻算出部17による推定入力時刻を算出について具体例を用いて説明する。時刻算出部17は、入力音声の過去の入力時刻の情報を基に推定入力時刻を算出する。この場合、例えば、入力音声の前回の入力時刻の情報を推定入力時刻として算出してもよいし、あるいは、過去の所定期間内(例えば、直近の、1週間または1ヶ月)の入力音声の入力時刻の平均を推定入力時刻として算出してもよい。あるいは、時刻算出部17は、ユーザの生活情報を基に推定入力時刻を算出する。この場合、例えば、ユーザの起床時刻を推定入力時刻として算出してもよい。ユーザの起床時刻は、例えば、対話装置10に目覚まし時計の機能が備えられており、設定されたアラームを鳴らす時刻から取得してもよい。もちろん、これらは例示であり、これらに限定されない。生活情報は、ユーザの生活状態ないし生活環境に関する情報であれば限定されない。
The calculation of the estimated input time by the
副応答情報生成部19は、材料情報として入力音声の過去の入力時刻の情報を基に副応答情報を生成または更新する。あるいは、副応答情報生成部19は、材料情報としてユーザの生活状態ないし生活環境に関する生活情報を基に副応答情報を生成または更新する。生活情報は、ユーザの生活状態ないし生活環境に関する情報であればどのような情報でもよく、例えば、対話装置が設置された地域の天気や交通に関する情報、ユーザのスケジュール(計画)、ユーザの生活パターンに関する情報、ユーザの健康に関する情報等が挙げられる。また、生活情報は、声認識部による入力音声の音声認識の結果から得られる情報であってもよい。また、通信部15を介して外部から受信した情報、あるいは、ユーザないしその周囲の状態を検知する状態検知部が検知した情報であってもよい。また、これらの情報の組み合わせであってもよい。状態検知部については、実施の形態2にて説明を行う。副応答情報については、後段で具体例を用いて説明する。
The secondary response
副応答情報が応答情報格納部141に登録されていない場合には、副応答情報生成部19は、材料情報を用いて副応答情報を生成する。この生成の処理は、情報が無い(ゼロ)副応答情報の更新の処理とも言えるので、応答情報の生成の処理も副応答情報の更新の処理に含めてもよい。
When the secondary response information is not registered in the response
また、上記では、副応答情報生成部19が、副応答情報を生成または更新するものとして説明したが、推定入力時刻前に副応答情報を生成し、所定時刻あるいは所定の音声(例えば、「おやすみ」)入力後に副音声情報をクリアする構成であってもよい。
In the above description, the secondary response
また、副応答情報生成部19が、副応答情報を通信ネットワーク60経由で外部から受信する処理も、副応答情報の生成または更新の処理に含めてもよい。
Further, the process in which the secondary response
出力制御部20は、音声データを音声出力部12に出力させることで音声出力を行うブロックである。出力制御部20は、音声入力部11からの入力音声に対する応答として、応答情報格納部141を参照して得られる主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する。
The
音声合成部21は、音声データを生成するブロックである。音声合成部21は、主応答情報で示される応答内容の音声データ、副応答情報で示される応答内容の音声データを生成する。生成された音声データは、音声出力部12を介して出力される。
The
対話装置10は、このように、応答情報格納部141を参照することにより、ユーザの発話に対して応答を返すことが、つまり、ユーザとの対話が可能になる。
As described above, the
通信部15は、外部との通信を行うブロックである。通信部15は、管理サーバ30及び情報提供サーバ31−1、31−2から、生活情報を受信する。
The
以上のように、対話装置10は、入力音声に対して、主応答情報が示す応答内容の音声出力に、副応答情報が示す応答内容の音声出力を付加できるので、複数の情報での応答が可能である。また、副応答情報は、推定入力時刻よりも前に生成または更新されるので、変化に富んだ応答が可能である。このように、対話装置10は、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。
As described above, since the
また、副応答情報の生成または更新に用いられる材料情報を外部から取得する場合、入力音声の入力時に外部との通信が途絶えていても、入力音声の推定入力時刻より前に副応答情報を生成または更新するので、この生成または更新後に入力音声が入力されると、生成または更新された副応答情報をユーザに提供することができる。また、入力音声の入力時には、副応答情報も応答情報格納部141を参照して得るため、副応答情報を入力時に生成または更新したり、外部から受信したりする装置よりも、すばやい応答(音声出力)が可能である。
In addition, when acquiring material information used for generating or updating secondary response information from outside, secondary response information is generated before the estimated input time of input speech even if communication with the outside is interrupted when input speech is input. Alternatively, since the update is performed, when the input voice is input after the generation or the update, the generated or updated side response information can be provided to the user. Further, since the secondary response information is also obtained by referring to the response
なお、対話装置10に撮像部が備えられている場合には、撮像部から入力された画像からユーザの表情や位置を解析してそれに基づき対話をするように構成されていてもよい。また、撮像部から得られる画像等からユーザを識別して対話をするように構成されていてもよい。
When the
(管理サーバ及び情報提供サーバ)
次に、管理サーバ30及び情報提供サーバ31−1、31−2について説明する。
(Management server and information providing server)
Next, the management server 30 and the information providing servers 31-1 and 31-2 will be described.
管理サーバ30は、対話装置10を管理する装置である。管理サーバ30に複数の対話装置10が接続されている場合には、それぞれを個別に管理する。さらに、管理サーバ30は、対話装置10に生活情報を提供(送信)する。管理サーバ30はが提供する生活情報は、後述のように、通信端末70から取得(受信)した生活情報である。管理サーバ30は、クラウドサービスを提供するクラウドサーバであってもよいが、これに限定されることはない。また、管理サーバ30は、1台であってもよいし、複数台が通信ネットワークを介して接続したものであってもよい。
The management server 30 is a device that manages the
情報提供サーバ31−1,31−2は、ユーザの生活情報を提供する装置である。情報提供サーバ31−1,31−2が提供する生活情報はどのような情報であってもよく、例えば、気象情報、交通情報、災害情報、行政が発信する地域情報等が挙げられる。以下では、情報提供サーバ31−1を、天気情報を提供する天気情報提供サーバ31−1、情報提供サーバ31−2を、交通情報を提供する交通情報提供サーバ31−2として説明を行う。 The information providing servers 31-1, 31-2 are devices that provide user life information. The life information provided by the information providing servers 31-1 and 31-2 may be any information, such as weather information, traffic information, disaster information, and local information transmitted by the government. Hereinafter, the information providing server 31-1 will be described as the weather information providing server 31-1 that provides the weather information, and the information providing server 31-2 as the traffic information providing server 31-2 that provides the traffic information.
ここで、管理サーバ30、天気情報提供サーバ31−1、交通情報提供サーバ31−2が、個別にユーザの生活情報を対話装置10に送信する構成でも、天気情報提供サーバ31−1及び交通情報提供サーバ31−2からの材料情報は管理サーバ30にいったん集約されて、管理サーバから対話装置10に送信する構成であってもよい。
Here, even if the management server 30, the weather information providing server 31-1, and the traffic information providing server 31-2 individually transmit the user's life information to the
対話システム100では、このような管理サーバ30及び情報提供サーバ31−1,31−2から提供された生活情報を基に副応答情報を生成または更新できるため、例えば、次のような応答を行うことが可能となる。副応答情報を生成または更新する際に天気情報提供サーバ31−1の提供する天気情報を利用することで、例えば、「おはよう。」という入力音声に対して、主応答情報が示す応答内容の音声(主応答情報で出力される音声)である「おはよう。」に、副応答情報が示す応答内容の音声(副応答情報で出力される音声)である「今日は雨が降るみたいだよ。」を付加することができる。
In the
さらに、管理サーバ30は、通信端末70や図示しない他の通信端末から録音音声を登録できるようになっていてもよい。そして、この場合、副応答情報生成部19が、この登録された録音音声を副応答情報として取得することも、副応答情報の生成または更新に含める。録音音声は音声データとして形成されているので、そのまま対話装置10に送信すると、対話装置10での音声合成の処理はなされない。例えば、「冷蔵庫にケーキがあるよ」という音声がユーザの母親の通信端末(図示せず)から管理サーバ30に登録されると、対話装置10が、ユーザの「ただいま」という入力音声に対して、主応答情報を用いて「おかえり」を音声出力して、それに付加して、副応答情報を用いて「お母さんからの伝言だよ。「冷蔵庫にケーキがあるよ」。」を音声出力する、というような高度な応答を行うこともできる。
Furthermore, the management server 30 may be able to register the recorded voice from the
(通信端末)
通信端末70は、通信ネットワーク60を介して他の装置と通信を行える機器である。通信端末70は、管理サーバ30にユーザの生活情報を登録できるように構成されている。通信端末70としては、ユーザの生活情報を登録するためのソフトウェア(アプリケーション)が内蔵されたタブレット端末やスマートフォン、パーソナルコンピュータ等の汎用機器を想定する。通信端末70から管理サーバ30に登録できる生活情報は、生活状態ないし生活環境に関する情報であれば限定されず、例えば、ユーザのスケジュール、住んでいる地域、起床時間、ユーザのよく使用する(例えば、通勤や通学に使用する)路線等の情報が挙げられる。こまた、生活情報は、ユーザが通信端末70に入力してもよいし、通信端末70が自動または手動で取得してもよい。例えば、ユーザのよく使用する路線として、使用回数の多い基地局からユーザの通常の行動範囲を把握して、その範囲に含まれる路線を取得してもよい。これらは全て例示である。
(Communication terminal)
The
(主応答情報及び副応答情報)
次に、主応答情報及び副応答情報を用いた応答について具体例を図3及び4を参照して説明する。
(Main response information and secondary response information)
Next, a specific example of the response using the main response information and the sub response information will be described with reference to FIGS.
図3の(a)は、対話装置10が取得している、副応答情報の生成または更新に用いられる材料情報の一例を示す。図3の(a)は、取得している材料情報には、「晴」を示す天気の情報、「なし」を示す交通の情報、「燃えるごみの日」、「10時に習い事のピアノ」、「19時に食事会」を示すスケジュールの情報、「昨日の起床時刻は7時3分」を示す生活ログの情報があることを示している。
(A) of FIG. 3 shows an example of material information used for generating or updating the secondary response information acquired by the
ここで、「なし」という交通の情報を取得しているとは、言い換えれば、交通の情報は取得していない、ということである。ケジュールの情報は、上記したように通信端末70から管理サーバ30に登録したものを対話装置10が取得する構成でも、対話装置10にユーザが直接登録でき、対話装置10はそれを取得する構成であってもよい。生活ログとは、対話装置10が取得するユーザの生活情報であり、対話装置10は生活ログを記録しデータ格納部14に格納する。あるいは、通信端末70が生活ログを記録し管理サーバ30に送信し、対話装置10は管理サーバ30から生活ログを取得するという構成であってもよい。
Here, acquiring traffic information of “none” means, in other words, not acquiring traffic information. As described above, the schedule information can be registered directly in the
副応答情報生成部19は、時刻算出部17が算出した特定の入力音声(例えば、「おはよう」)の推定入力時刻よりも前に、材料情報を取得しおき、材料情報を基に副応答情報を生成または更新する。ここでは、対話装置10は、毎日、特定の入力音声である「おはよう」の推定入力時刻よりも前に、材料情報を取得しておき、材料情報を基に副応答情報を生成または更新するものとする。
The secondary response
図3の(c)は、入力音声を音声認識した結果である音声認識単語に応じた応答内容を示す主応答情報のデータベースの一例である。図3の(c)に示すデータベースでは、さらに、各主応答情報には、副応答情報を付加するか否かを示す情報が対応付けられている。 (C) of FIG. 3 is an example of the database of the main response information which shows the response content according to the speech recognition word which is the result of carrying out the speech recognition of the input speech. In the database shown in FIG. 3C, each main response information is further associated with information indicating whether or not the sub response information is added.
図3の(d)は、主応答情報「おはよう」に付加される副応答情報の一例であり、材料情報を基に生成または更新したものを示している。図3の(d)のように副応答情報が複数ある場合には、副応答情報生成部19は、副応答情報に優先度を設定する。そして、出力制御部20は、優先度に従って副応答情報を特定し、特定した副応答情報で示される応答内容を音声出力する。副応答情報は、主応答情報毎に設けられているが、ここでは、「おはよう」以外の主応答情報に付加される副応答情報の例については説明しない。
(D) of FIG. 3 is an example of the sub response information added to the main response information “Good morning”, and shows the information generated or updated based on the material information. When there are a plurality of pieces of sub response information as shown in (d) of FIG. 3, the sub response
普段とは異なる状況を伝える副音声情報、緊急性を要する内容を伝えるものである副音声情報には、優先度を高く設定する。例えば、交通情報、スケジュール登録、悪天候を材料情報として生成または更新した副音声情報には高い優先度を付ける。本実施の形態では、優先度は1から3まであり、1の方が優先されるものである。 A high priority is set for sub audio information that conveys a different situation than usual and sub audio information that conveys urgent content. For example, high priority is given to sub audio information generated or updated as traffic information, schedule registration, and bad weather as material information. In the present embodiment, the priority is from 1 to 3, with 1 being prioritized.
出力制御部20は、優先度が1の副応答情報は必ず出力する。また、優先度が2の副応答情報は優先度が1の副応答情報が無い場合に、ランダムに1つ出力する。また、優先度が3の副応答情報は、優先度が1の副応答情報及び優先度が2の副応答情報が無い場合にランダムに出力する。
The
この具体例では、図3の(b)に示すように、対話装置10は、「おはよう」という入力音声に対して、「おはよう」という主応答情報に、優先度が1の「今日は燃えるごみの日だよ」という副応答情報を付加して音声出力する。優先度が1の副応答情報が複数有る場合には、複数出力してもよいし、選択して出力してもよい。
In this specific example, as shown in (b) of FIG. 3, the
別の具体例を図4を用いて説明する。図4の(a)は、材料情報の一例、図4の(c)は、入力音声を音声認識した結果である音声認識単語に応じた応答内容を示す主応答情報のデータベースの一例である。図4の(d)は、主応答情報「いってきます」に付加される副応答情報の一例である。この具体例では、図4の(b)に示すように、対話装置10は、「いってきます」という入力音声に対して、「いってらっしゃい」という主応答情報に、「傘忘れていない?」という副応答情報を付加して音声出力する。
Another specific example will be described with reference to FIG. 4A is an example of material information, and FIG. 4C is an example of a database of main response information indicating response contents according to a voice recognition word that is a result of voice recognition of an input voice. FIG. 4D is an example of sub response information added to the main response information “I will come”. In this specific example, as shown in FIG. 4B, the
〔実施の形態2〕
以下では、本発明の別の実施の形態の対話装置10aについて図5〜7を用いて説明する。なお説明の便宜上、実施の形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
[Embodiment 2]
Below, the
対話装置10の提供するサービス(対話装置10の動作)は主に対話であったが、対話装置10aは、対話以外にも、ユーザに各種サービスを提供可能に設けられている。そのため、対話装置10aは、提供可能なサービス毎の動作モードを有している。対話装置10aが提供可能なサービスとしては、例えば、対話、家電の操作、ユーザの生活情報の記録、ユーザへの音声アドバイスが挙げられるが、こられに限定されない。対話は、ユーザからの入力音声に対して行うものであるが、ユーザへの音声アドバイスとは、ユーザからの入力音声が無くても、対話装置10aから自発的に音声出力(発話)される情報である。対話装置10aによるサービスの提供については後に具体例を用いて説明する。
Although the service provided by the dialog device 10 (operation of the dialog device 10) is mainly a dialog, the
対話装置10aは、図5に示すように、ユーザ宅40にある家電を赤外線通信や無線LAN通信などで操作可能に設けられている。家電は、例えば、空気調和機(エアコン)、洗濯機、冷蔵庫、調理器具、照明装置、給湯機器、撮影機器、各種AV(Audio-Visual)機器、各種家庭用ロボット(例えば、掃除ロボット、家事支援ロボット、動物型ロボット等)等である。以下では、対話装置10aが操作できる家電として、エアコン50−1、テレビ50−2、冷蔵庫50−3を用いて説明を行うが、操作対象の家電はこれらに限定されない。
As shown in FIG. 5, the
対話装置10aは、図6に示すように、実施の形態1の対話装置10の構成に加え、動作部22及び状態検知部24を備えている。動作部22は、対話装置10aの各種動作を実行するブロックである。状態検知部24は、ユーザないしその周囲の状態を検知する装置であればよく、例えば、人感センサ、撮像部(カメラ)、温度センサ等が挙げられる。しかし、これらに限定されない。
As shown in FIG. 6, the
また、対話装置10aの制御部13aは、制御部13と同様の機能に加え、モード設定部(モード設定手段)23としての機能を有する。モード設定部23は、音声入力部11から入力された入力音声の音声認識の結果に基づき提供するサービスを決定し、決定したサービスを提供する動作モードに対話装置10aを設定する。よって、対話装置10aは、ユーザとの対話から、例えば、エアコン50−1を操作したいことを類推した場合には、エアコン50−1を操作する動作モードに対話装置10aを設定し、操作を行うことが可能となる。
The
また、対話装置10aのデータ格納部14aは、モード情報格納部143を含み、モード情報格納部143には、サービス毎に、そのサービスを提供する動作モードに対話装置10aを設定するための情報が格納されている。
Further, the
対話装置10aから家電を操作する際には、赤外線を用いて家電の位置を検出してもよいし、状態検知部24が撮像部を有している場合には、この撮像部が取得した情報で家電の位置を検出してもよい。
When operating the home appliance from the
実施の形態の対話システムは、図2の対話装置10が対話装置10aに置き換わったものである。実施の形態の対話システムは、さらに、エアコン50−1、テレビ50−2、及び冷蔵庫50−3が通信ネットワーク60に接続しており、管理サーバ30が、これら家電からの情報を取得する構成であってもよい。この場合に管理サーバ30が取得する情報としては、例えば、エアコン50−1、テレビ50−2、及び冷蔵庫50−3の、設定状況、動作状況を示す情報、周囲環境の情報が挙げられる。管理サーバ30は、これら家電から取得した情報のうちユーザの生活情報、例えば、エアコン50−1のON/OFFや設定温度の情報、冷蔵庫50−3を開ける回数の情報、テレビ50−2のON/OFFの情報を、対話装置10aに送信する。
The dialogue system of the embodiment is obtained by replacing the
このような構成であると、対話装置10aは、エアコン50−1、テレビ50−2、及び冷蔵庫50−3から得た生活情報も推定入力時刻の算出及び副応答情報の生成または更新に利用することができる。よって、この場合、例えば、「いってきます」という入力音声に対して、主応答情報で出力される音声である「いってらっしゃい。」に、副応答情報で出力される音声である「エアコンとテレビが点いているので消してね。」を付加することができる。
With such a configuration, the
なお、管理サーバ30を介さず、エアコン50−1、テレビ50−2、及び冷蔵庫50−3から直接対話装置10aに生活情報を送信する構成であってもよい。この場合、エアコン50−1、テレビ50−2、及び冷蔵庫50−3が、対話装置10aに生活情報を提供する情報提供装置である。
In addition, the structure which transmits life information directly to the
また、冷蔵庫50−3が音声録音及び再生機能を有している場合、「ただいま」という入力音声に対して、主応答情報で出力される音声である「おかえり。」に、副応答情報で出力される音声である「冷蔵庫さんがお母さんの伝言を聞いているよ。」を付加することができる。この場合、冷蔵庫の伝言が再生されるまで、一定時間ごとに、副応答情報で出力される音声の出力を繰り返してもよい。冷蔵庫50−3への音声録音は、直接行う構成であっても、実施の形態1に記載のように、管理サーバ30介して行う構成でもよい。 In addition, when the refrigerator 50-3 has a voice recording and reproduction function, “Okaeri”, which is a voice output as main response information, is output as auxiliary response information with respect to an input voice “now”. "The refrigerator is listening to the mother's message" can be added. In this case, until the message of the refrigerator is reproduced, the output of the sound output as the secondary response information may be repeated at regular intervals. The voice recording to the refrigerator 50-3 may be performed directly or may be performed via the management server 30 as described in the first embodiment.
次に、対話装置10aの動作の具体例について、図7を用いて説明する。
Next, a specific example of the operation of the
例えば、「おはよう」という入力音声を音声認識すると、生活状態が「起床」であると把握して、生活ログとして「起床時間」を記録しデータ格納部14に格納する。なお、生活ログとは、対話装置10aが取得するユーザの生活情報である。この「起床時間」の過去の記録を基に平均起床時刻を算出ることで、実施の形態1で記載したように、「おはよう」という入力音声の推定入力時刻の算出ができる。
For example, when an input voice of “Good morning” is recognized as a voice, it is understood that the living state is “wake up”, and “wake up time” is recorded as a life log and stored in the
さらに、このとき対話装置10aは、対話装置10aの動作モードを、スリープモード(またはセキュリティモード)から復帰させ、例えば、音声出力を最小限に抑えた対話モードに変更する。これは、起床時ユーザは忙しいことが多いための配慮である。
Further, at this time, the
対話装置10aは、起床時に必要な情報(例えば、天気やニュースの情報)を副応答情報として出力する。例えば、主応答情報に応じて「おはよう。」を、副応答情報に応じて「今日は晴れだよ。」を音声出力する。
The
また、起床平均時刻と今回記録した「起床時刻」を比較し、例えば、「早起きだね。」や「遅刻するよ。」を副応答情報として出力してもよい。また、副応答情報生成部19は、例えば、「早起きだね」の副応答情報には、起床平均時刻よりも前の所定時間になると倒れるフラグを付けておき、出力制御部20はフラグが倒れた副応答情報は出力しないようになっていてもよい。これは、起床平均時刻の直前や起床平均時刻の後に「早起きだね」が出力されないための処置である。
Further, the average wake-up time may be compared with the “wake-up time” recorded this time, and for example, “You wake up early” or “I'll be late” may be output as auxiliary response information. Further, for example, the auxiliary response
また、起床平均時刻から、この時刻以前に、生活情報を取得して副応答情報の生成または更新を行ったり、エアコン50−1の運転を行ったりする。また、起床平均時刻を所定時刻経過しても入力音声「おはよう」を受信しないと、例えば、「もう朝だよ、起きなくていいの?」を音声アドバイスとして音声出力して通知する。 In addition, from the average wake-up time, living information is acquired and sub-response information is generated or updated before this time, or the air conditioner 50-1 is operated. Also, if the input voice “Good morning” is not received even after a predetermined time has elapsed from the average wake-up time, for example, “Okay morning, do you need to wake up?” Is output as voice advice and notified.
同様に、例えば、「いただきます」あるいは「ごちそうさま」という入力音声を音声認識すると、生活状態が「食事(朝食)」であると把握して、生活ログとして「食事回数」を記録しデータ格納部14に格納する。この場合、「食事回数」のデータを参照して、食べていない日があれば、例えば「朝ごはん食べた方がいいよ。」を音声アドバイスとして音声出力して通知する。
Similarly, for example, when the input voice of “you receive” or “feast” is recognized, the life state is “meal (breakfast)” and “meals” is recorded as a life log and the
これらのように、対話装置10aは、入力音声の音声認識の結果に基づき、各種サービスを提供することができる。よって、ユーザは、対話装置に話し掛けるだけでサービスの提供を受けることができ、快適な生活環境を享受できる。
As described above, the
〔実施の形態3〕
実施の形態1及び2にて説明した対話装置10及び10aは、それぞれ、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
[Embodiment 3]
The
後者の場合、対話装置10及び10aは、それぞれ、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラム及び各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)等を備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
In the latter case, each of the
本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications are possible, and the present invention also relates to embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is included in the technical scope. Furthermore, a new technical feature can be formed by combining the technical means disclosed in each embodiment.
〔まとめ〕
本発明の態様1に係る対話装置(10)は、入力音声を音声認識する音声認識手段(音声認識部16)と、上記音声認識の結果に応じた応答内容を示す主応答情報、及び、当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部(141)と、上記入力音声が入力される時刻を推定する時刻算出手段(時刻算出部17)と、上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成手段(副応答情報生成部19)と、上記入力音声が入力されると、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御手段(出力制御部20)と、を備えている。
[Summary]
An interactive device (10) according to
上記構成によると、入力音声の推定入力時刻よりも前に、副応答情報を生成または更新し、入力音声が入力されると、主応答情報が示す応答内容の共に上記副応答情報が示す応答内容を音声出力する。このように、入力音声に対して、主応答情報が示す応答内容の音声出力に、副応答情報が示す応答内容の音声出力を付加できるので、複数の情報での応答が可能である。また、副応答情報は、入力音声の推定入力時刻よりも前に生成または更新されるので、変化に富んだ応答が可能である。このように、上記構成によると、複数の情報をスムーズに音声出力でき、ユーザにストレスを与えることなく快適な対話環境を提供できる。 According to the above configuration, the secondary response information is generated or updated before the estimated input time of the input voice, and when the input voice is input, the response content indicated by the secondary response information together with the response content indicated by the main response information Is output as audio. As described above, since the voice output of the response content indicated by the sub-response information can be added to the voice output of the response content indicated by the main response information with respect to the input voice, a response with a plurality of information is possible. Moreover, since the secondary response information is generated or updated before the estimated input time of the input voice, a response rich in change is possible. Thus, according to the above configuration, a plurality of information can be smoothly output as a voice, and a comfortable interactive environment can be provided without causing stress to the user.
また、副応答情報の生成または更新に用いられる材料情報を外部から取得する場合、入力音声の入力時に外部との通信が途絶えていても、入力音声の推定入力時刻より前に副応答情報を生成または更新するので、この生成または更新後に入力音声が入力されると、生成または更新された副応答情報をユーザに提供することができる。また、入力音声の入力時には、副応答情報も応答情報格納部を参照して得るため、副応答情報を入力時に生成または更新したり外部から受信したりする装置よりも、すばやい応答(音声出力)が可能である。 In addition, when acquiring material information used for generating or updating secondary response information from outside, secondary response information is generated before the estimated input time of input speech even if communication with the outside is interrupted when input speech is input. Alternatively, since the update is performed, when the input voice is input after the generation or the update, the generated or updated side response information can be provided to the user. Further, since the secondary response information is also obtained by referring to the response information storage unit when the input voice is input, the response (voice output) is quicker than the device that generates or updates the secondary response information at the time of input or receives it from the outside. Is possible.
本発明の態様2に係る対話装置では、上記態様1において、上記時刻算出手段は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報を基に上記推定入力時刻を算出する。
In the interactive apparatus according to
上記構成によると、入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報によって算出された推定入力時刻よりも前に、副応答情報が生成または更新される。入力音声の過去の入力時刻の情報またはユーザの生活情報を用いることで、副応答情報の生成または更新の時期をユーザの生活パターンに則したものとすることができる。 According to the above configuration, the auxiliary response information is generated or updated before the estimated input time calculated based on the past input time information of the input voice or the life information on the user's living state or living environment. By using the past input time information of the input voice or the user's life information, it is possible to make the timing of generation or update of the sub-response information in accordance with the user's life pattern.
本発明の態様3に係る対話装置では、上記態様1または2において、上記材料情報は、上記入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報である。
In the dialog device according to
上記構成によると、入力音声の過去の入力時刻の情報、または、ユーザの生活状態ないし生活環境に関する生活情報に基づき副応答情報が生成または更新される。よって、入力音声の過去の入力時刻の情報またはユーザの生活情報を用いることで、副応答情報の応答内容を、例えば、ユーザのよく口にする音声や生活パターンに沿ったものとすることができる。よって、副応答情報として、ユーザにとって有益な情報を提供することが可能になる。 According to the above configuration, the secondary response information is generated or updated based on the past input time information of the input voice or the life information on the user's living state or living environment. Therefore, by using the past input time information of the input voice or the life information of the user, the response content of the secondary response information can be set in accordance with, for example, the voice or life pattern often spoken by the user. . Therefore, it is possible to provide useful information for the user as the secondary response information.
生活情報は、ユーザの生活状態ないし生活環境に関する情報であればどのような情報でもよく、例えば、対話装置が設置された地域の天気や交通に関する情報、ユーザの生活パターンに関する情報、ユーザの健康に関する情報が挙げられる。 The living information may be any information as long as it is information related to the user's living state or living environment. For example, information related to the weather and traffic in the area where the interactive device is installed, information related to the user's life pattern, and information related to the user's health Information.
上記生活情報は、声認識手段による上記入力音声の音声認識の結果であってもよい。また、外部装置から受信した情報、あるいは、ユーザないしその周囲の状態を検知する自装置が有する状態検知部が検知した情報であってもよい。また、これらの情報の組み合わせであってもよい。自装置が有する状態検知部とは、ユーザないしその周囲の状態を検知することができる装置であればよく、例えば、人感センサ、カメラ、温度センサ等が挙げられる。しかし、これらに限定されない。 The life information may be a result of speech recognition of the input speech by voice recognition means. Further, it may be information received from an external device, or information detected by a state detection unit included in the user's own device that detects the state of the user or its surroundings. Moreover, the combination of these information may be sufficient. The state detection unit included in the device itself may be any device that can detect the user or the surrounding state, and examples thereof include a human sensor, a camera, and a temperature sensor. However, it is not limited to these.
本発明の態様4に係る対話装置では、上記態様1から3のいずれか1つにおいて、上記時刻算出手段は、上記入力音声のうちの特定の入力音声の推定入力時刻を算出し、上記副応答情報生成手段は、上記特定の入力音声の推定入力時刻よりも前に全ての上記副応答情報を生成または更新する。
In the interactive device according to aspect 4 of the present invention, in any one of the
上記構成によると、特定の入力音声の音声認識の結果に応じた応答内容を示す主応答情報に付加される副応答情報だけでなく、全ての副応答情報を、特定の入力音声の推定入力時刻よりも前に生成または更新することができる。このように、特定の入力音声の推定入力時刻を用いることで、例えば、「おはよう」という入力音声の推定入力時刻よりも前に、つまり、ユーザの一日の始まりと推定される時刻前に、全ての副音声情報を生成または更新することができる。ユーザは、一日毎に生成または更新された副応答情報が示す応答内容の音声を聞くことができる。 According to the above configuration, not only the secondary response information added to the primary response information indicating the response content according to the result of the speech recognition of the specific input speech, but also all the secondary response information is estimated input time of the specific input speech. Can be generated or updated before. In this way, by using the estimated input time of a specific input voice, for example, before the estimated input time of the input voice of “Good morning”, that is, before the time estimated to be the start of the user's day, All sub audio information can be generated or updated. The user can hear the voice of the response content indicated by the side response information generated or updated every day.
もちろん、入力音声毎に推定入力時刻を算出して、ある入力音声の音声認識の結果に対応付けられた主応答情報に付加される副応答情報を、その入力音声について算出した推定入力時刻前に生成または更新する構成であってもよい。 Of course, the estimated input time is calculated for each input voice, and the secondary response information added to the main response information associated with the result of the voice recognition of the input voice is displayed before the estimated input time calculated for the input voice. The structure which produces | generates or updates may be sufficient.
本発明の態様5に係る対話装置では、上記態様1から4のいずれか1つにおいて、副応答情報生成手段は、上記副応答情報に優先度を設定し、上記応答情報格納部が優先度を設定された副応答情報を複数格納している場合、上記出力制御手段は、上記優先度に従って副応答情報を特定し、当該特定した副応答情報で示される応答内容を音声出力する。
In the interactive device according to aspect 5 of the present invention, in any one of the
上記構成によると、副応答音声が複数ある場合、優先度に従った音声出力を行うことが可能となる。 According to the above configuration, when there are a plurality of auxiliary response voices, it is possible to perform voice output according to the priority.
本発明の態様6に係る対話装置では、上記態様1から5のいずれか1つにおいて、自装置が提供可能なサービス毎の動作モードを有しており、上記音声認識手段による上記入力音声の音声認識の結果に基づき提供するサービスを決定し、当該決定したサービスを提供する動作モードに自装置を設定するモード設定手段(モード設定部23)をさらに備えている。
In the dialogue apparatus according to aspect 6 of the present invention, in any one of the
上記構成によると、提供するサービスの決定は、音声認識手段による入力音声の音声認識の結果に基づき行うことができる。そして、対話装置は、提供するサービスが決定されると、そのサービスを提供する動作モードに自装置を設定し、サービスの提供を行うことが可能となる。提供するサービスの例としては、例えば、対話、家電の操作、ユーザの生活情報の記録、ユーザへの音声アドバイスが挙げられる。対話は、ユーザからの入力音声に対して行うものであるが、ユーザへの音声アドバイスとは、ユーザからの入力音声が無くても、対話装置から自発的に音声出力される情報であるとする。このように、ユーザは、対話装置に話し掛けるだけでサービスの提供を受けることができ、快適な生活環境を享受できる。 According to the above configuration, the service to be provided can be determined based on the result of speech recognition of the input speech by the speech recognition means. When the service to be provided is determined, the interactive apparatus can set the own apparatus to an operation mode for providing the service and provide the service. Examples of services to be provided include dialogue, operation of home appliances, recording of user life information, and voice advice to the user. The dialogue is performed on the input voice from the user, and the voice advice to the user is information that is spontaneously outputted from the dialogue device even if there is no input voice from the user. . In this way, the user can receive a service simply by talking to the interactive device, and can enjoy a comfortable living environment.
さらに、モード設定手段は、外部装置から受信した情報、あるいは、ユーザないしその周囲の状態を検知する自装置が有する状態検知部が検知した情報等に基づき提供するサービスを決定してもよい。 Further, the mode setting means may determine a service to be provided based on information received from an external device, information detected by a state detection unit included in the user's own device or the surrounding device, and the like.
本発明の態様7に係る対話システムは、上記態様1から6のいずれか1つに記載の対話装置と、上記材料情報を提供する情報提供装置とが通信ネットワークを介して接続されて構成されている。
An interactive system according to an aspect 7 of the present invention is configured by connecting the interactive apparatus according to any one of the
上記対話システムによると、ユーザによる入力音声に対してスムーズな応答が可能であり、ユーザにストレスを与えることなく快適な対話環境を提供できる。 According to the dialog system, it is possible to respond smoothly to the voice input by the user, and it is possible to provide a comfortable dialog environment without stressing the user.
また、本発明の態様8に係る情報提供装置は、上記態様7の対話システムに備えられる情報提供装置である。 Moreover, the information provision apparatus which concerns on aspect 8 of this invention is an information provision apparatus with which the interactive system of the said aspect 7 is equipped.
上記情報提供装置を用いることで、上記態様8の対話システムを構築することができる。 By using the information providing apparatus, the dialog system according to aspect 8 can be constructed.
また、本発明の各態様に係る対話装置、情報提供装置または対話システムは、コンピュータによって実現してもよく、この場合には、コンピュータを対話装置、情報提供装置または対話システムが備える各手段として動作させることにより対話装置、情報提供装置または対話システムをコンピュータにて実現させるプログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も本発明の範疇に入る。 In addition, the interactive apparatus, the information providing apparatus, or the interactive system according to each aspect of the present invention may be realized by a computer. In this case, the computer operates as each unit included in the interactive apparatus, the information providing apparatus, or the interactive system. Accordingly, a program for realizing a dialogue apparatus, an information providing apparatus or a dialogue system on a computer, and a computer-readable recording medium on which the program is recorded also fall within the scope of the present invention.
本発明は、ユーザの音声を認識して応答する対話装置等に利用可能である。 The present invention can be used for an interactive device that recognizes and responds to a user's voice.
10,10a 対話装置
11 音声入力部
12 音声出力部
13,13a 制御部
14,14a データ格納部
15 通信部
16 音声認識部(音声認識手段)
17 時刻算出部(時刻算出手段)
18 材料情報取得部
19 副応答情報生成部(副応答情報生成部)
20 出力制御部(出力制御手段)
22 動作部
23 モード設定部(モード設定手段)
30 管理サーバ(外部装置、情報提供装置)
31−1,31−2 情報提供サーバ(外部装置、情報提供装置)
40 ユーザ宅
50−1 エアコン
50−2 テレビ
50−3 冷蔵庫
100 対話システム
141 応答情報格納部
143 モード情報格納部
DESCRIPTION OF
17 Time calculation unit (time calculation means)
18 Material
20 Output control unit (output control means)
22
30 Management server (external device, information providing device)
31-1, 31-2 Information providing server (external device, information providing device)
40 User's house 50-1 Air conditioner 50-2 Television 50-3
Claims (5)
上記音声認識の結果に応じた応答内容を示す主応答情報、及び当該主応答情報が示す応答内容に付加される応答内容を示す副応答情報を格納する応答情報格納部と、
上記入力音声が入力される時刻を推定する時刻算出手段と、
上記推定された時刻である推定入力時刻よりも前に、上記副応答情報の生成または更新に用いる材料情報を取得して上記副応答情報を生成または更新する副応答情報生成手段と、
上記入力音声が入力されると、上記応答情報格納部を参照して得られる上記主応答情報が示す応答内容と共に上記副応答情報が示す応答内容を音声出力する出力制御手段と、を備えたことを特徴とする対話装置。 Speech recognition means for recognizing input speech,
A response information storage unit for storing main response information indicating response content according to the result of the voice recognition, and sub response information indicating response content added to the response content indicated by the main response information;
Time calculation means for estimating the time when the input voice is input;
Prior to the estimated input time which is the estimated time, sub-response information generating means for obtaining or updating the sub-response information by acquiring material information used for generating or updating the sub-response information;
Output control means for outputting the response content indicated by the sub-response information together with the response content indicated by the main response information obtained by referring to the response information storage unit when the input voice is input; An interactive device characterized by the above.
上記応答情報格納部が優先度を設定された副応答情報を複数格納している場合、上記出力制御手段は、上記優先度に従って副応答情報を特定し、当該特定した副応答情報で示される応答内容を音声出力することを特徴とする請求項1から3のいずれか1項に記載の対話装置。 The secondary response information generating means sets a priority for the secondary response information,
When the response information storage unit stores a plurality of sub-response information with priorities set, the output control means specifies the sub-response information according to the priority, and the response indicated by the specified sub-response information 4. The interactive apparatus according to claim 1, wherein the content is output as a voice.
上記音声認識手段による上記入力音声の音声認識の結果に基づき提供するサービスを決定し、当該決定したサービスを提供する動作モードに自装置を設定するモード設定手段をさらに備えたことを特徴とする請求項1から4のいずれか1項に記載の対話装置。 It has an operation mode for each service that the device can provide,
The apparatus further comprises mode setting means for determining a service to be provided based on a result of voice recognition of the input voice by the voice recognition means, and setting the own apparatus in an operation mode for providing the determined service. Item 5. The interactive device according to any one of Items 1 to 4.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014202219A JP6373709B2 (en) | 2014-09-30 | 2014-09-30 | Dialogue device |
PCT/JP2015/077545 WO2016052520A1 (en) | 2014-09-30 | 2015-09-29 | Conversation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014202219A JP6373709B2 (en) | 2014-09-30 | 2014-09-30 | Dialogue device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016071248A JP2016071248A (en) | 2016-05-09 |
JP6373709B2 true JP6373709B2 (en) | 2018-08-15 |
Family
ID=55630547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014202219A Expired - Fee Related JP6373709B2 (en) | 2014-09-30 | 2014-09-30 | Dialogue device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6373709B2 (en) |
WO (1) | WO2016052520A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019021771A1 (en) | 2017-07-24 | 2019-01-31 | 京セラ株式会社 | Charging stand, mobile terminal, communication system, method, and program |
CN109117233A (en) * | 2018-08-22 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | Method and apparatus for handling information |
JP2021061636A (en) * | 2021-01-07 | 2021-04-15 | 京セラ株式会社 | Portable terminal and method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3708432B2 (en) * | 2000-12-07 | 2005-10-19 | 日本電信電話株式会社 | Adaptive network service system and recording medium therefor |
JP4984708B2 (en) * | 2006-07-21 | 2012-07-25 | 富士通株式会社 | Information processing apparatus having voice dialogue function |
JP5753212B2 (en) * | 2013-03-19 | 2015-07-22 | シャープ株式会社 | Speech recognition system, server, and speech processing apparatus |
-
2014
- 2014-09-30 JP JP2014202219A patent/JP6373709B2/en not_active Expired - Fee Related
-
2015
- 2015-09-29 WO PCT/JP2015/077545 patent/WO2016052520A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2016071248A (en) | 2016-05-09 |
WO2016052520A1 (en) | 2016-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10258295B2 (en) | Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication | |
JP2023015054A (en) | Dynamic and/or context-specific hot word for calling automation assistant | |
JP2016502192A (en) | Response endpoint selection | |
CN110709930B (en) | Method, system and medium for providing information about detected events | |
US20200297264A1 (en) | Information processing device, information processing method, and program | |
WO2020105302A1 (en) | Response generation device, response generation method, and response generation program | |
US11119722B2 (en) | Movable body control apparatus and recording medium | |
JP2017144521A (en) | Information processing device, information processing method and program | |
JP6373709B2 (en) | Dialogue device | |
US20130159400A1 (en) | User device, server, and operating conditions setting system | |
US11233490B2 (en) | Context based volume adaptation by voice assistant devices | |
WO2020116026A1 (en) | Response processing device, response processing method, and response processing program | |
WO2017175442A1 (en) | Information processing device and information processing method | |
JP7031578B2 (en) | Information processing equipment, information processing methods and programs | |
US20210157542A1 (en) | Context based media selection based on preferences setting for active consumer(s) | |
US20160125726A1 (en) | Cognitive alerting device | |
CN110958348B (en) | Voice processing method and device, user equipment and intelligent sound box | |
US20210004747A1 (en) | Information processing device, information processing method, and program | |
WO2016117514A1 (en) | Robot control device and robot | |
JP2016206249A (en) | Interactive device, interactive system, and control method for interactive device | |
KR20230047434A (en) | Inferring assistant action(s) based on ambient sensing of the assistant device(s) | |
JP6060122B2 (en) | Information providing system and information providing apparatus | |
WO2020149031A1 (en) | Response processing device and response processing method | |
US11430320B2 (en) | Method and device to notify an individual | |
JP7163103B2 (en) | Information processing device, information processing method and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180619 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180718 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6373709 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |