JP2015148648A - Dialogue system, speech controller, dialog unit, speech control method, control program of speech controller and control program of dialog unit - Google Patents
Dialogue system, speech controller, dialog unit, speech control method, control program of speech controller and control program of dialog unit Download PDFInfo
- Publication number
- JP2015148648A JP2015148648A JP2014019742A JP2014019742A JP2015148648A JP 2015148648 A JP2015148648 A JP 2015148648A JP 2014019742 A JP2014019742 A JP 2014019742A JP 2014019742 A JP2014019742 A JP 2014019742A JP 2015148648 A JP2015148648 A JP 2015148648A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- operation information
- speech
- condition
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、音声を認識する対話システムに関し、特に、ユーザが発した音声を認識して、該音声に対し返答音声を出力する対話システムに関する。 The present invention relates to a dialog system that recognizes voice, and more particularly to a dialog system that recognizes voice uttered by a user and outputs a response voice to the voice.
従来、ユーザが発した音声に対し、音声認識結果に応じた処理を行う対話装置がある。 2. Description of the Related Art Conventionally, there is an interactive device that performs processing corresponding to a voice recognition result for voice uttered by a user.
例えば、特許文献1には、通常会話モードと無線通信装置使用モード(音声入力によってハンズフリーで操作するモード)との切り替えを、音声(例えば、「モード切替」という特定のキーワード)の入力によって行う携帯型無線通信装置が開示されている。これにより、携帯型無線通信装置に対する指示のつもりでなく、ユーザが発した通常の会話時の音声を指示と認識してしまい誤動作するという問題を回避している。 For example, in Patent Document 1, switching between a normal conversation mode and a wireless communication device usage mode (a mode in which hands-free operation is performed by voice input) is performed by inputting voice (for example, a specific keyword “mode switching”). A portable wireless communication device is disclosed. This avoids the problem that the user does not intend to give an instruction to the portable wireless communication device but erroneously recognizes the voice of the normal conversation made by the user as the instruction.
また、運転中のユーザの安全に配慮してユーザに会話させるための情報処理システムが開示されている。具体的には、特許文献2には、車両のセンサ情報およびカーナビ情報に基づいて走行状況を把握し、当該走行状況を説明する音データを、入力された運転者の音声データに付加する通信制御装置が開示されている。これにより、上記運転者と通話する車外の通話者に対して、運転者の走行状況を知らせることができ、走行状況を考慮した会話を行わせることができる。
In addition, an information processing system for allowing a user to talk in consideration of the safety of the user during driving is disclosed. Specifically, in
さらに、特許文献3には、話者の感性に即した円滑な対話を行うことができる音声対話装置が開示されている。具体的には、音声対話装置は、通常状態では、ユーザの発話速度に応じた速度で応答音声を出力する一方、当該応答音声を出力中に所定のイベントが発生したときに、該応答音声の出力速度を高速化あるいは低速化する。さらに、音声対話装置は、車両の走行状態に応じて、応答音声の提供を見合わせる待機状態を呈する。
Furthermore,
上述の従来技術においては、ユーザまたは対話装置が置かれている環境によっては、対話装置の音声認識機能が精度良く働かずに、入力された音声を誤認識し、誤認識に伴って誤作動(誤った返答音声を出力してしまうなど)起こしたりする可能性がある。このような誤認識または誤作動が起こり得る環境としては、例えば、別の音声出力機器から音声が出力され、その音声を対話装置が検出してしまう環境、あるいは、ユーザが対話装置に対してではなく、他の対象(人または機器)に向けて発話をしている環境などが考えられる。 In the above-described prior art, depending on the environment in which the user or the interactive device is placed, the speech recognition function of the interactive device does not work accurately, and the input speech is misrecognized. (Such as outputting an incorrect answer voice). As an environment in which such erroneous recognition or malfunction may occur, for example, an environment in which voice is output from another voice output device and the voice is detected by the dialogue device, or the user does not respond to the dialogue device. There may be an environment where the user is speaking to another object (person or device).
しかしながら、上述の従来技術においては、誤認識または誤作動が起こり得る上述のような環境を検出できないため、誤認識または誤作動を回避するための適切な処理を実行できないという問題がある。具体的には、特許文献1の技術では、対話装置を(音声を認識しない)モードへ切り替えるためには、ユーザによる切り替えを指示するための意図的な
操作(音声入力)が必要となる。さらに、ユーザの手間が増え、ユーザが上記操作を実行し損なった場合に誤認識を回避することができない。また、特許文献2および3の技術は、車両の走行状況を検出するものであり、誤認識または誤作動が起こり得る環境を検出できない。
However, in the above-described conventional technology, there is a problem that an appropriate process for avoiding erroneous recognition or malfunction cannot be performed because the above-described environment in which erroneous recognition or malfunction can occur cannot be detected. Specifically, in the technique of Patent Document 1, in order to switch the dialogue apparatus to the mode (not recognizing voice), an intentional operation (voice input) for instructing switching by the user is required. Furthermore, erroneous recognition cannot be avoided if the user's effort increases and the user fails to perform the above operation. In addition, the techniques of
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音声の誤認識またはそれに伴う誤作動が起こり得る環境下にあることを検出し、誤認識または誤作動を回避することが可能な対話システムを実現することにある。 The present invention has been made in view of the above-mentioned problems, and its object is to detect that there is an environment in which erroneous recognition of speech or a malfunction associated therewith can occur and to avoid erroneous recognition or malfunction. It is to realize a dialogue system that can do this.
上記の課題を解決するために、本発明の一態様に係る対話システムは、ユーザが発した音声に対し返答音声を出力する対話装置を制御する対話システムであって、ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断手段と、上記条件判断手段によって上記音声誤認識条件が成立すると判断された場合に、上記対話装置によって上記返答音声が出力されないように制御する発話制御手段とを含み、上記条件判断手段は、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断する。 In order to solve the above problem, a dialog system according to an aspect of the present invention is a dialog system that controls a dialog device that outputs a response voice in response to a voice uttered by a user. A non-recognition voice that is not a recognition target voice, and a condition determination unit that determines that the voice recognition condition of the dialog device is satisfied when the dialog device can be erroneously detected as a recognition target voice; Utterance control means for controlling so that the reply voice is not output by the interactive device when it is judged by the means that the voice error recognition condition is satisfied, and the condition judgment means directly outputs the non-recognition target voice. Or the success or failure of the said audio | voice recognition condition is judged based on the operation information which shows the operation condition of the non-target audio | voice generation source apparatus to generate | occur | produce indirectly.
上記の課題を解決するために、本発明の一態様に係る発話制御装置は、ユーザが発した音声に対し返答音声を出力する対話装置を制御する発話制御装置であって、ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断手段と、上記条件判断手段によって上記音声誤認識条件が成立すると判断された場合に、上記対話装置によって上記返答音声が出力されないように制御する発話制御手段とを備え、上記条件判断手段は、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断する。 In order to solve the above problem, an utterance control device according to an aspect of the present invention is an utterance control device that controls an interactive device that outputs a response voice in response to a voice uttered by a user. A non-recognition voice that is not a recognition target voice that is generated with respect to the above-mentioned condition determination means for determining that the voice recognition condition of the dialog apparatus is satisfied when the dialog apparatus can be erroneously detected as a recognition target voice; Utterance control means for controlling so that the reply voice is not output by the dialogue device when the condition judgment means judges that the voice error recognition condition is satisfied, and the condition judgment means includes the non-recognition voice Is determined based on the operation information indicating the operation status of the out-of-target audio generating device that directly or indirectly generates the above.
上記の課題を解決するために、本発明の一態様に係る対話装置は、ユーザが発した音声に対し返答音声を出力する対話装置であって、ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断手段と、上記条件判断手段によって上記音声誤認識条件が成立すると判断された場合に、上記返答音声の出力を抑制する対話制御手段とを備え、上記条件判断手段は、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断する。 In order to solve the above-described problem, an interactive apparatus according to an aspect of the present invention is an interactive apparatus that outputs a response voice in response to a voice uttered by a user, and a recognition target that the user utters to the interactive apparatus. When a non-recognition voice that is not a voice can be erroneously detected as a recognition target voice by the dialogue apparatus, a condition judgment unit that judges that the voice recognition condition of the dialogue apparatus is satisfied, and the voice judgment error by the condition judgment unit A dialogue control means for suppressing the output of the reply voice when it is judged that a recognition condition is satisfied, and the condition judgment means generates the non-recognized voice directly or indirectly. The success or failure of the voice error recognition condition is determined based on the operation information indicating the operation status of the device.
上記の課題を解決するために、本発明の一態様に係る発話制御方法は、ユーザが発した音声に対し返答音声を出力する対話装置を制御する発話制御方法であって、ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断ステップと、上記条件判断ステップにて上記音声誤認識条件が成立すると判断された場合に、上記対話装置によって上記返答音声が出力されないように制御する発話制御ステップとを含み、上記条件判断ステップでは、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断する。 In order to solve the above-described problem, an utterance control method according to an aspect of the present invention is an utterance control method for controlling an interactive apparatus that outputs a response voice in response to a voice uttered by a user. A condition determination step for determining that a speech error recognition condition of the interactive device is satisfied when a non-recognition speech that is not a recognition target speech that is issued to the device may be erroneously detected as a recognition target speech by the interactive device; An utterance control step for controlling so that the reply voice is not output by the dialogue device when it is determined in the condition determination step that the voice error recognition condition is satisfied. Based on the operation information indicating the operation status of the non-target audio source device that generates sound directly or indirectly, the success or failure of the above-mentioned sound misrecognition condition is judged. .
本発明の一態様によれば、対話装置の置かれた環境に応じて、適切に、音声出力を抑制することができるので、結果として、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。 According to one aspect of the present invention, it is possible to appropriately suppress voice output in accordance with the environment in which the interactive device is placed, and as a result, it is possible to avoid voice misrecognition or associated malfunction. There is an effect that can be done.
≪実施形態1≫
本発明の実施形態1について、図1〜図5に基づいて説明すれば、以下のとおりである。実施形態1では、一例として、図2に示す対話システムに、本発明の対話システムを適用した場合について説明する。図2に示す対話システムは、例示にすぎず、本発明の対話
システムを限定するものではない。
Embodiment 1
Embodiment 1 of the present invention will be described below with reference to FIGS. In the first embodiment, as an example, a case where the dialogue system of the present invention is applied to the dialogue system shown in FIG. 2 will be described. The dialogue system shown in FIG. 2 is merely an example, and does not limit the dialogue system of the present invention.
〔対話システム概要〕
図2は、本発明の実施形態1に係る対話システムの概略を示す図である。図2に示す対話システム401は、発話制御サーバ1と、対話装置2と、デジタルテレビ(以下、TV)3と、情報収集サーバ4とを含む。
[Outline of Dialogue System]
FIG. 2 is a diagram showing an outline of the dialogue system according to Embodiment 1 of the present invention. A dialogue system 401 shown in FIG. 2 includes an utterance control server 1, a
対話装置2は、ユーザの発話を音声として認識し、返答音声を出力することによってユーザと対話する。対話装置2は、例えば、自走式掃除機であるが、上記の対話の機能および発話制御サーバ1と通信する機能を有していれば、どのような情報処理装置であってもよく、例えば、人間型ロボット、パソコン、タブレット端末、スマートフォンなどでもよい。
The
発話制御サーバ(発話制御装置)1は、対話装置2に対して発話に係る指示を送信することにより対話装置2の音声出力を制御する。
The utterance control server (speech control device) 1 controls the voice output of the
発話に係る指示には、例えば、返答音声を出力しない対話モードに切り替わるように対話装置2に対して指示する「出力抑制指示」と、返答音声を出力する対話モードに戻るように対話装置2に対して指示する「抑制解除指示」とを含む。
For the instruction related to the utterance, for example, an “output suppression instruction” for instructing the
発話制御サーバ1は、情報収集サーバ4から送信されたTV3の稼働情報に基づいて、対話装置2が置かれている環境を判断し、判断した環境に応じて、出力抑制指示または抑制解除指示を対話装置2に送信する。
The utterance control server 1 determines the environment in which the
なお、ユーザのどのような発話に対してどのような返答音声を出力するのかを決定したり、返答音声を出力するタイミングを決定したりするための機能は、公知のものが採用されればよく、当該機能は、発話制御サーバ1および対話装置2の少なくとも1つに設けられている。
It should be noted that a publicly known function may be adopted as a function for determining what kind of response voice is output for what kind of user's utterance and determining the timing for outputting the answer voice. The function is provided in at least one of the utterance control server 1 and the
さらに、実施形態1では、対話装置2は、発話制御サーバ1の指示にしたがって、ユーザの発話以外の所定のイベントをトリガとして自発的に音声を出力してもよい。このように出力される音声を、ユーザの発話を受けて出力される返答音声と区別する場合に、自発音声と称する。すなわち、発話に係る指示として、発話制御サーバ1は、自発音声の出力を指示する「自発音声出力指示」を対話装置2に送信してもよい。
Further, in the first embodiment, the
例えば、対話装置2が自走式掃除機である場合に、発話制御サーバ1は、掃除の完了、あるいは、自走式掃除機の異常など、所定のイベントをユーザに報告するときに、自発音声を出力するように対話装置2に対して指示を送る。あるいは、発話制御サーバ1は、対話装置2が設置されている建物内の他の機器と連携して、それらの機器の異常を検知したときにその旨を報告するように、対話装置2を制御する。あるいは、発話制御サーバ1は、外部の情報提供サーバ(図示せず)と連携して、大雨・地震などの災害警報を受信したときにその旨を報告するように、対話装置2を制御する。
For example, when the
TV(対象外音声発生源機器/音声出力機器)3は、誤認識が起こり得る環境を対話装置2にもたらす音声出力機器の一例として挙げられている。具体的には、TV3は、対話装置2との対話の目的で発せられたのではない音声(認識対象外音声)を出力する。
The TV (non-target audio generating source device / audio output device) 3 is cited as an example of an audio output device that brings an environment in which misrecognition may occur to the
情報収集サーバ(情報収集装置)4は、TV3の情報を収集してTV3の稼働状況を管理し、発話制御サーバ1に通知する。
The information collection server (information collection device) 4 collects information on the
なお、図2には、1台のTV3と1台の対話装置2との対のみ記載しているが、発話制御サーバ1および情報収集サーバ4は、この対話システム401のサービスを利用しているユーザごとに、TV3(他の音声出力機器でもよい)と対話装置2との対を複数管理している。したがって、発話制御サーバ1および情報収集サーバ4は、TV3の識別情報(以下、機器ID)を用いて、TV3を一意に特定することができ、対話装置2の識別情報(以下、装置ID)を用いて、対話装置2を一意に特定することができる。なお、1台の対話装置2に対して、複数の音声出力機器(他のTV3、録画再生装置、音楽再生装置など)が関連付けて管理されていてもよい。
FIG. 2 shows only a pair of one
実施形態1では、ユーザがリモコンを用いてTV3を操作すると、リモコンの制御信号を受け付けたTV3が、制御信号の内容を示す操作情報を、自機の機器IDとともに情報収集サーバ4に送信する。情報収集サーバ4は、受信した操作情報に基づいて、TV3の稼働状況を判断し、TV3の稼働状況を示す稼働情報をTV3の機器IDとともに送信する。
In the first embodiment, when the user operates the
上述したとおり、発話制御サーバ1は、稼働情報に基づいて、TV3と対になる対話装置2が置かれている環境を判断し、環境に適した発話に係る指示を対話装置2に対して送信する。こうして、対話装置2は、発話制御サーバ1の指示にしたがうことにより、環境に応じて、適切に、音声出力を抑制することができるので、結果として、音声の誤認識またはそれに伴う誤作動を回避することができる。
As described above, the utterance control server 1 determines the environment in which the
誤認識または誤作動の回避を実現するための対話システム401の各装置の構成について、以下に詳細に説明する。 The configuration of each device of the interactive system 401 for realizing erroneous recognition or avoiding malfunction will be described in detail below.
〔対話システムの各装置の機能構成〕
図1は、本発明の実施形態1に係る対話システムにおける各装置の要部構成を示す機能ブロックである。
[Functional configuration of each device in the interactive system]
FIG. 1 is a functional block showing the main configuration of each device in the interactive system according to the first embodiment of the present invention.
(発話制御サーバ1の要部構成)
図1に示すとおり、発話制御サーバ1は、発話制御サーバ1を統括して制御する制御部10と、制御部10が使用する各種データを記憶する記憶部11とを備えている。なお、発話制御サーバ1は、対話装置2の制御やインターネット上の情報にアクセスするための通信部、および発話制御サーバ1にデータを入力するための入力部などのブロックを備えているが、これらのブロックについて図示を省略している。
(Main components of the utterance control server 1)
As shown in FIG. 1, the utterance control server 1 includes a
制御部10は、機能ブロックとして、稼働情報受信部54、制御対象特定部55、条件判断部56および発話制御部57を含む。
The
記憶部11には、機器装置対応テーブル71およびルールテーブル74が格納されている。 The storage unit 11 stores a device device correspondence table 71 and a rule table 74.
稼働情報受信部54は、上記通信部を介して情報収集サーバ4から送信された稼働情報を受信するものである。
The operation
稼働情報は、情報収集サーバ4が管理する音声出力機器(本実施形態ではTV3)の稼働状況を示す情報である。稼働情報は、TV3の稼働状況が変化したとき、あるいは、定期的に、情報収集サーバ4から発話制御サーバ1に送信される。対話システム401では、複数のTV3が管理される。この場合、稼働情報は、TV3を一意に特定するための機器IDと対応付けて稼働情報受信部54に送信される。稼働情報受信部54は、受信した機器IDを制御対象特定部55に、受信した稼働情報を条件判断部56にそれぞれ供給す
る。なお、稼働情報の具体例は、図3の(c)を参照して後に詳述する。
The operation information is information indicating the operation status of the audio output device (
制御対象特定部55は、稼働情報受信部54から供給された機器IDに基づいて、制御対象となる対話装置2を特定するものである。具体的には、機器IDは、供給された稼働情報がどのTV3のものか特定しているので、制御対象特定部55は、この機器IDに基づいて、TV3に関連付けられている対話装置2を、機器装置対応テーブル71を参照することにより特定することができる。このようにして特定された対話装置2は、TV3の稼働情報に応じて発話を制御するべき対象として発話制御部57によって認識される。なお、機器装置対応テーブル71の具体例は、図3の(d)を参照して後に詳述する。
The control
条件判断部56は、稼働情報受信部54から供給されたTV3の稼働情報に基づいて、TV3と対になる対話装置2が置かれている環境において、音声の誤認識が起こり得る条件(以下、音声誤認識条件)が成立するか否かを判断するものである。実施形態1では、稼働情報において、音声出力機器がユーザの発話と誤認識する可能性のある音声を出力する(あるいは、出力すると予測される)稼働状況にある旨が示されている場合に、条件判断部56は、音声誤認識条件が成立すると判断する。例えば、稼働情報が示す内容ごとに、音声誤認識条件の成否が対応付けられているルールテーブル74を参照してもよい。なお、ルールテーブル74の具体例は、図3の(e)を参照して後に詳述する。
Based on the operation information of the
発話制御部57は、制御対象特定部55によって特定された対話装置2に対して、発話に係る指示を、条件判断部56によって判断された音声誤認識条件の成否に応じて送信するものである。具体的には、発話制御部57は、音声誤認識条件が成立すると判断された場合に、返答音声を出力させないように対話装置2を制御するための出力抑制指示を対話装置2に送信する。一方、音声誤認識条件が成立しないと判断された場合に、返答音声を出力するように対話装置2を制御するための抑制解除指示を対話装置2に送信する。
The
なお、稼働情報が定期的に受信される場合、最新の稼働情報に基づいて判断された音声誤認識条件の成否が、直前に受信された稼働情報に基づいて判断された音声誤認識条件の成否から変化しないことが想定される。このような場合、発話制御部57は、同じ指示を連続で送信することになるので、当該送信を取りやめる構成であってもよい。
In addition, when operation information is periodically received, the success or failure of the speech error recognition condition determined based on the latest operation information is the success or failure of the speech error recognition condition determined based on the operation information received immediately before. It is assumed that there will be no change. In such a case, since the
また、発話制御部57は、自装置内の各部を制御することにより(すなわち、対話装置2に対して発話に係る指示を送ることなく)、最終的に対話装置2によって返答音声が出力されないように制御する構成であってもよい。発話制御部57の当該構成については、変形例3において詳細に説明する。
Further, the
(対話装置2の要部構成)
図1に示すとおり、対話装置2は、対話装置2を統括して制御する制御部20、制御部20が使用する各種データを記憶する記憶部21、音声の入力を受け付ける音声入力部22、および音声を出力する音声出力部23を備えている。なお、対話装置2は、発話制御サーバ1からの発話に係る指示を受信するための通信部、対話を実現するために音声認識結果を処理する処理部、および自走式掃除機としての機能を実現するための各部を備えているが、これらのブロックについて図示を省略している。
(Main part configuration of the dialogue device 2)
As shown in FIG. 1, the
制御部20は、機能ブロックとして、対話モード制御部(対話制御手段)58、音声認識部(音声認識手段)59および音声出力制御部(音声出力制御手段)60を含む。
The
音声認識部59は、音声入力部22を介して入力された音声のデジタル信号を解析して、音声に含まれる言葉をテキスト形式に変換するものである。変換されたテキストデータは、適した返答音声を生成するための図示しない下流の各処理部によって取り扱われる。
音声認識部59としては、公知の音声認識技術が適宜採用されればよい。
The
As the
音声出力制御部60は、発話制御サーバ1または対話装置2において生成された音声データ(返答音声または自発音声)を音声出力部23に供給して、ユーザが聴取可能な音声として出力するように、音声出力部23を制御するものである。
The voice
対話モード制御部58は、発話制御サーバ1の発話に係る指示にしたがって、音声認識部59および音声出力制御部60の動作を制御するものである。具体的には、発話制御サーバ1から出力抑制指示を受信した場合には、対話モード制御部58は、対話装置2が返答音声を出力しない対話モードになるように、音声認識部59および音声出力制御部60の少なくとも一方の動作を抑制する。反対に、発話制御サーバ1から抑制解除指示を受信した場合には、対話モード制御部58は、対話装置2が返答音声を出力する対話モードに戻るように、音声認識部59および音声出力制御部60対する動作の抑制を解除する。なお対話モード制御部58は、返答音声を出力しない対話モード時であっても、発話制御サーバ1から自発音声出力指示を受信した場合には、自発音声を出力するように音声出力制御部60を制御してもよい。
The dialogue
以下では、返答音声を出力しない対話モードに切り替える構成として、対話モード制御部58が、音声認識部59の音声認識機能を無効にする構成を採用する。「音声認識機能を無効にする」とは、音声入力部22が何らかの音声を検出し、その音声データを制御部20に入力したとしても、該音声データを処理してテキストデータを生成することを音声認識部59に実行させないということを意味する。これにより、対話装置2の周囲で何らかの音声が発生したとしても、対話装置2がそれに対して返答音声を出力しないようにできる。しかし、対話モード制御部58の構成は上記に限定されない。例えば、対話モード制御部58は、返答音声を音声出力部23に出力しないように音声出力制御部60の動作を抑制してもよい。これにより、何らかの音声が入力され、音声認識部59によって音声認識され、認識結果に基づいて返答音声が生成されたとしても、対話装置2が該返答音声を出力しないようにできる。あるいは、対話モード制御部58は、図示しない処理部が音声認識結果のテキストデータを処理しないように当該処理部の動作を抑制してもよい。これにより、何らかの音声が入力され、音声認識部59によって音声認識され、テキストデータが生成されたとしても、それに対応する返答音声が生成されないので、対話装置2が上記音声に対して返答音声を出力しないようにできる。
In the following, a configuration in which the dialogue
(音声出力機器の要部構成)
図1に示すとおり、TV(音声出力機器)3は、TV3を統括して制御する制御部30、制御部30が使用する各種データを記憶する記憶部31、ユーザがTV3を操作するためのリモコンとして機能する操作部32を備えている。なお、TV3は、情報収集サーバ4に対して各種情報を送信するための通信部、およびデジタルテレビとしての機能を実現するための各部を備えているが、これらのブロックについて図示を省略している。
(Main components of audio output equipment)
As shown in FIG. 1, a TV (audio output device) 3 includes a
制御部30は、機能ブロックとして、操作情報送信部(操作情報送信手段)50を含む。
The
操作情報送信部50は、操作部32から送出される制御信号を受け付けて、当該制御信号の内容を示す操作情報を情報収集サーバ4に送信するものである。具体的には、リモコンとしての操作部32には、電源オンオフボタン、数字ボタン、十字(上、下、左、右)ボタン、決定ボタン、戻るボタン、データ放送表示ボタン、4色(青、赤、緑、黄)ボタンなどが設けられている。操作情報送信部50は、ユーザによって押下されたボタンの情報を操作情報として情報収集サーバ4に送信する。このとき、操作情報送信部50は、記憶部31に記憶されている自機の機器IDを上記操作情報に対応付けて情報収集サーバ4
に送信する。なお、操作情報の具体例は、図3の(a)を参照して後に詳述する。
The operation
Send to. A specific example of the operation information will be described in detail later with reference to FIG.
あるいは、操作情報送信部50は、ボタン操作が起こる度に上記操作情報を送信するのではなく、TV3の状態変化が起こる度に上記操作情報を送信する構成であってもよい。詳細には、操作部32のボタンが押下されたことにしたがって、TV3が何らかの動作を行ったことに伴い、TV3の状態が変化した場合のみ、操作情報送信部50は、押下された上記ボタンの情報を操作情報として情報収集サーバ4に送信する。例えば、操作情報送信部50は、ボタンの押下によって、TV3の電源オン、オフの状態が切り替わった時、視聴チャンネルが切り替わった時、外部入力に切り替えられた時などに、当該ボタンの操作情報を情報収集サーバ4に送信する。これにより、ボタンが押下されてもTV3の状態が変化しない場合には操作情報の送信を省略することができる。
Alternatively, the operation
(情報収集サーバ4の要部構成)
図1に示すとおり、情報収集サーバ4は、情報収集サーバ4を統括して制御する制御部40、および制御部40が使用する各種データを記憶する記憶部41を備えている。なお、情報収集サーバ4は、TV3から送信される情報を受信したり、発話制御サーバ1に情報を送信したりするための通信部、および情報収集サーバ4にデータを入力するための入力部などのブロックを備えているが、これらのブロックについて図示を省略している。
(Main components of the information collection server 4)
As shown in FIG. 1, the information collection server 4 includes a
制御部40は、機能ブロックとして、操作情報受信部(操作情報受信手段)51、稼働情報生成部(稼働情報設定手段)52、および稼働情報送信部(稼働情報送信手段)53を含む。
The
記憶部41には、機器状態管理テーブル70が格納されている。
The
操作情報受信部51は、TV3から、TV3の機器IDとともに操作情報を受信する。そして、機器状態管理テーブル70において受信した機器IDに対応付けて格納されている機器の状態を、受信された操作情報に基づいて更新する。操作情報受信部51は、例えば、記憶部41に格納されている図示しない状態遷移情報を参照する。状態遷移情報は、TV3の直前の状態と、イベント(ボタン押下)と、遷移後の状態とが対応付けられた情報である。これにより、操作情報受信部51は、受信した操作情報に基づいて、TV3がどの状態の場合に、どのボタンが押下されると、どの状態に遷移するのかを決定することができる。
The operation
なお、操作情報受信部51は、操作情報に代えて最新の機器の状態をTV3から受信する構成であってもよい。この場合、上述の、操作情報受信部51における、操作情報に基づいて最新の機器の状態を決定する機能は、TV3に設けられる。そして、操作情報受信部51は、機器状態管理テーブル70に格納されている機器の状態を、受信した最新の機器の状態に更新するだけでよく、操作情報受信部51の構成を簡素化できる。
The operation
稼働情報生成部52は、機器状態管理テーブル70においてTV3ごとに管理されているTV3の状態に基づいて、稼働情報を生成したり、更新したりするものである。操作情報受信部51によって、機器状態管理テーブル70に格納されているTV3の状態が更新された場合には、稼働情報生成部52は、その最新の状態に基づいて、当該TV3の稼働情報を更新する。稼働情報は、TV3が稼働しているのか否か、また、稼働している場合にどのような動作を実行しているのかを示す情報である。稼働情報は、発話制御サーバ1によって、TV3などの音声出力機器が、音声誤認識条件を満たす環境をもたらしているか否かを判断するのに利用される。なお、機器状態管理テーブル70の具体例は、図3の(b)を参照して後に詳述する。
The operation
稼働情報送信部53は、稼働情報生成部52によって生成された稼働情報を送信するものである。具体的には、稼働情報送信部53は、機器状態管理テーブル70において、稼働情報が更新されたとき、あるいは、定期的に、稼働情報を発話制御サーバ1に送信する。このとき、発話制御サーバ1がどのTV3の稼働情報かを特定できるよう、機器IDを上記稼働情報に対応付けて送信することが好ましい。
The operation
なお、操作情報が定期的に受信される場合、最新の操作情報に基づいて更新された稼働情報が、直前の操作情報に基づいて更新された稼働情報から変化しないことが想定される。このような場合、稼働情報送信部53は、同じ稼働情報を連続で送信することになるので、当該送信を取りやめる構成であってもよい。
When the operation information is periodically received, it is assumed that the operation information updated based on the latest operation information does not change from the operation information updated based on the immediately previous operation information. In such a case, the operation
〔情報およびテーブルについて〕
実施形態1の対話システム401において、各装置が取り扱う情報およびテーブルについて、図3の(a)〜(e)に示す。図3の(a)は、TV3から情報収集サーバ4に送信される情報の具体例を示す図である。図3の(b)は、機器状態管理テーブル70の具体例を示す図である。図3の(c)は、情報収集サーバ4から発話制御サーバ1に送信される情報の具体例を示す図である。図3の(d)は、機器装置対応テーブル71の具体例を示す図である。図3の(e)は、ルールテーブル74の具体例を示す図である。
[About information and tables]
In the interactive system 401 according to the first embodiment, information and tables handled by each device are shown in (a) to (e) of FIG. FIG. 3A is a diagram illustrating a specific example of information transmitted from the
図3は、理解を容易にする目的で各種情報の一具体例を示すものであり、各装置の構成を限定するものではない。また、図3において、各種情報データ構造をテーブル形式にて示したことは一例であって、当該データ構造を、テーブル形式に限定する意図はない。以降、データ構造を説明するためのその他の図においても同様である。 FIG. 3 shows a specific example of various information for the purpose of facilitating understanding, and does not limit the configuration of each device. Also, in FIG. 3, the various information data structures shown in the table format are merely examples, and the data structures are not intended to be limited to the table format. Hereinafter, the same applies to other figures for explaining the data structure.
具体例を挙げて説明すると、まず、対話システム401において、ユーザが、TV3にて2チャンネルを視聴中に、チャンネルを1つ前のチャンネルに切り替えるために、操作部32(リモコン)の上ボタンを押下したとする。TV3は、この操作にしたがって1チャンネルを選局する。このとき、TV3の操作情報送信部50は、入力された制御信号の内容「上ボタン押下」を示す操作情報と、自機の機器IDとを対応付けて情報収集サーバ4に送信する。このとき送信された機器IDおよび操作情報の具体例が図3の(a)に示されている。
A specific example will be described. First, in the interactive system 401, when the user is viewing two channels on the
情報収集サーバ4の操作情報受信部51は、図3の(a)に示す機器IDおよび操作情報を受信すると、この機器IDおよび操作情報を用いて、機器状態管理テーブル70に格納されている情報を更新する。具体的には、図3の(b)に示す機器状態管理テーブル70のうち、機器ID「TV0001」に対応付けられている状態「電源オン−2CH選局中」を、「電源オン−1CH選局中」に更新する。上述したとおり、操作情報受信部51は、状態「電源オン−2CH選局中」で、「上ボタン押下」のイベントが起こると、TV3の状態が、「電源オン−1CH選局中」に遷移することを、図示しない上記状態遷移情報に基づいて決定することができる。あるいは、操作情報受信部51は、TV3にて任意のチャンネルが選局されているときに数字ボタンが押下されたときには、TV3はその数字のチャンネルを選局中であると決定することができる。あるいは、操作情報受信部51は、EPG(Electronic Program Guide)などのOSD(On-Screen Display)画像が表
示されている状態で、十字ボタンおよび決定ボタンが押下されたときには、TV3は上記状態で選択されたチャンネルを選局中であると決定したりすることができる。
When the operation
情報収集サーバ4の稼働情報生成部52は、機器の状態が更新されると、更新された機器の状態に基づいて、稼働情報を更新する。実施形態1では、稼働情報生成部52は、TV3の状態が「電源オフ」を示す場合には、対応付けられている稼働情報も「電源オフ」を示すように設定(生成または更新)する。一方、稼働情報生成部52は、TV3の状態
が「電源オン」かつ「(任意のチャンネルを)選局中」を示す場合には、「(ユーザが任意のチャンネルを)視聴中」を示す稼働情報を生成または更新する。また、稼働情報生成部52は、TV3の状態が「電源オン」かつ「(選局以外の任意の動作中)」を示す場合には、「非視聴使用中」を示す稼働情報を生成または更新する。
When the device state is updated, the operation
上述の具体例では、機器ID「TV0001」の状態「電源オン−2CH選局中」は、「電源オン−1CH選局中」に更新された。よって、稼働情報は更新されたが結果的に「視聴中」のままである。なお、稼働情報生成部52は、稼働情報を生成または更新した日時を、図3の(b)に示すように、最終更新日時のカラムに格納してもよい。
In the above-described specific example, the state of the device ID “TV0001” “power-on-2CH being selected” is updated to “power-on-1CH being selected”. Therefore, the operation information has been updated, but as a result remains “viewing”. Note that the operation
他の具体例において、操作情報受信部51によって、機器ID「TV0002」の状態「電源オフ」が、「電源オン−1CH選局中」に更新された場合には、稼働情報生成部52は、機器ID「TV0002」の稼働情報を「電源オフ」から「視聴中」に更新する。
In another specific example, when the operation
稼働情報送信部53は、稼働情報生成部52によって稼働情報が生成されたり、更新されたりすると、対応付けられている機器IDとともに、最新の上記稼働情報を発話制御サーバ1に送信する。例えば、機器ID「TV0001」の稼働情報「視聴中」が更新されたとき、稼働情報送信部53が送信する機器IDおよび稼働情報の具体例が図3の(c)に示されている。
When the operation information is generated or updated by the operation
発話制御サーバ1の稼働情報受信部(稼働情報受信手段)54は、図3の(c)に示す機器IDおよび稼働情報を受信すると、上記機器IDを制御対象特定部55に、上記稼働情報を条件判断部56に、それぞれ供給する。
When the operation information receiving unit (operation information receiving unit) 54 of the utterance control server 1 receives the device ID and the operation information shown in (c) of FIG. 3, the device ID is transmitted to the control
まず、制御対象特定部(制御対象特定手段)55は、供給された上記機器IDを用いて、機器IDが示すTV3の対となる対話装置2であって、発話の制御を行う対象となる対話装置2を特定する。図3の(d)に示す機器装置対応テーブル71によれば、機器IDに対応付けて、制御対象となる対話装置2の装置IDが対応付けて記憶されている。したがって、制御対象特定部55は、機器装置対応テーブル71を参照することにより、制御対象の対話装置2を特定することができる。上述の具体例では、受信された機器IDが「TV0001」を示すので、制御対象特定部55は、制御対象の対話装置2を、装置ID「DE0001」の対話装置2であると特定する。
First, the control target specifying unit (control target specifying means) 55 is a
次に、条件判断部(条件判断手段)56は、供給された上記稼働情報を用いて、TV3と対になる対話装置2が置かれている環境において、音声誤認識条件が成立するか否かを判断する。図3の(e)に示すルールテーブル74によれば、稼働情報の内容ごとに、音声誤認識情報の成否が対応付けられている。したがって、条件判断部56は、ルールテーブル74を参照することにより、稼働情報に基づいて音声誤認識条件の成否を判断することができる。上述の具体例では、受信された稼働情報が「視聴中」を示すので、条件判断部56は、対話装置2が現在置かれている環境において、音声誤認識条件が成立すると判断する。こうして、「TV0001」のTV3がユーザによって視聴されているので、「DE0001」の対話装置2が音声の誤認識を起こす可能性が高いという状況が対話システム401において把握される。
Next, the condition determination unit (condition determination means) 56 uses the supplied operation information to determine whether or not a voice error recognition condition is satisfied in an environment where the
そこで、この具体例では、発話制御部(発話制御手段)57は、特定された「DE0001」の対話装置2に対して、発話に係る指示として、出力抑制指示を送信する。出力抑制指示を受信した対話装置2の対話モード制御部58は、この指示にしたがって、既述のとおり音声認識部59または音声出力制御部60を制御する。結果として、対話装置2の周囲で何らかの音声が発生しても、対話装置2の音声出力部23からは、その音声の返答音声は出力されない。こうして、対話装置2が音声の誤認識を起こす可能性が高い状況下
において、対話装置2が音声の誤認識を起こしたり、誤作動を起こしたりすることを回避できる。特に、上述の具体例では、ユーザがTV3を視聴している間、TV3から出力された音声に反応して対話装置2が誤った返答音声を出力することを回避できる。結果として、ユーザのTV3の視聴を誤作動によって邪魔すること防止できる。
Therefore, in this specific example, the utterance control unit (speech control means) 57 transmits an output suppression instruction as an instruction related to the utterance to the identified
なお、機器装置対応テーブル71は、情報収集サーバ4の記憶部41に格納されていてもよい。この場合、制御対象特定部55は、制御部40に設けられ、稼働情報送信部53は、制御対象特定部55が特定した装置IDと稼働情報とを対応付けて、発話制御サーバ1に供給すればよい。
The device device correspondence table 71 may be stored in the
〔処理フロー〕
図4は、対話システム401において、TV3が実行する操作情報送信処理の流れと、情報収集サーバ4が実行する稼働情報送信処理の流れとを示すフローチャートである。図5は、対話システム401において、発話制御サーバ1が実行する発話制御処理の流れと、対話装置2が実行する対話モード制御処理の流れとを示すフローチャートである。
[Process flow]
FIG. 4 is a flowchart showing the flow of operation information transmission processing executed by the
(操作情報送信フロー)
図4を参照して、TV3が、ユーザのリモコン操作によって操作部32から送出された制御信号を受け付けると(S101においてYES)、操作情報送信部50は、自機の機器IDおよび上記制御信号の内容を示す操作情報を情報収集サーバ4に送信する(S102)(例えば、図3の(a))。あるいは、TV3が前回制御信号を受け付けてから、制御信号を受け付けることなく一定時間以上経過した場合も考えられる(S101においてYES)。この場合、操作情報送信部50は、押下されたボタンを示す代わりに押下されたボタンがないということを示す操作情報を情報収集サーバ4に送信する(S102)。
(Operation information transmission flow)
Referring to FIG. 4, when
(稼働情報送信フロー)
情報収集サーバ4の操作情報受信部51が機器IDおよび操作情報を受信すると(S103においてYES)、操作情報受信部51は、機器状態管理テーブル70(図3の(b))において、上記機器IDによって特定されるTV3の状態を、上記操作情報に基づいて更新する(S104)。
(Operation information transmission flow)
When the operation
TV3の状態が、電源オンかつ(チャンネルを)選局中を示す場合には(S105においてYES、かつ、S106においてYES)、稼働情報生成部52は、TV3の稼働情報「視聴中」を生成する、または、稼働情報を「視聴中」に更新する(S107)。そして、稼働情報送信部53は、TV3の機器IDおよび稼働情報「視聴中」を発話制御サーバ1に送信する(S108)。一方、TV3の状態が、電源オフまたは選局中以外の電源オンを示す場合には(S105においてNO、または、S106においてNO)、稼働情報生成部52は、TV3の稼働情報を、「電源オフ」または「非視聴使用中」を示すように生成または更新する(S109)。そして、稼働情報送信部53は、TV3の機器IDおよび稼働情報「電源オフ」または「非視聴使用中」を発話制御サーバ1に送信する(S110)。
When the state of the
なお、操作情報受信部51は、1台のTV3について、前回操作情報を受信してから、一定時間以上操作情報を受信しなかった場合には(S103においてNO、S111においてYES)、TV3の状態を「電源オフ」に更新してもよい。この場合、S109およびS110が実行される。
If the operation
あるいは、操作情報受信部51は、すべてのTV3について、定期的に、図3の(b)に示す機器状態管理テーブル70の最終更新日時をチェックしてもよい。そして、操作情報受信部51は、最終更新日時から(または、操作情報の前回の受信から)一定時間以上
経過しているすべてのTV3を抽出し、これらのTV3について、状態を「電源オフ」に更新する。この場合、抽出されたすべてのTV3についてまとめて、稼働情報生成部52によって稼働情報が「電源オフ」に更新され、稼働情報送信部53によって発話制御サーバ1に送信される。
Alternatively, the operation
なお、機器装置対応テーブル71を情報収集サーバ4が保持する場合、情報収集サーバ4に設けられた制御対象特定部55は、S103の後から、S108またはS110より前のいずれかのステップにおいて、機器IDに基づいて装置IDを特定するステップを実行する。この場合、S108またはS110では、機器IDに代えて装置IDが稼働情報とともに送信される。
Note that when the information collection server 4 holds the device device correspondence table 71, the control
(発話制御フロー)
図5を参照して、発話制御サーバ1の稼働情報受信部54が、機器IDおよび稼働情報(例えば、図3の(c))を受信すると(S112においてYES)、制御対象特定部55は、機器装置対応テーブル71(図3の(d))を参照し、上記TV3と対になっている、発話制御対象の対話装置2を特定する(S113)。具体的には、受信された機器IDに対応する装置IDを特定する。なお、機器IDに代えて装置IDが稼働情報とともに受信された場合には、S113は省略可能である。
(Speech control flow)
Referring to FIG. 5, when the operation
一方、条件判断部56は、ルールテーブル74(図3の(e))を参照し、受信された稼働情報に基づいて、上記対話装置2の環境において、音声誤認識条件が成立しているか否かを判断する(S114)。図3の(e)に示す例では、条件判断部56は、稼働情報が「視聴中」を示す場合に、音声誤認識条件が成立すると判断し、稼働情報が「電源オフ」または「非視聴使用中」を示す場合に、音声誤認識条件が成立しないと判断する。
On the other hand, the
音声誤認識条件が成立すると判断された場合(S114においてYES)、発話制御部57は、S113にて特定された対話装置2に対して、返答音声の出力を抑制する指示、すなわち、出力抑制指示を送信する(S115)。一方、音声誤認識条件が成立しないと判断された場合(S114においてNO)、発話制御部57は、S113にて特定された対話装置2に対して、返答音声の出力抑制を解除する指示、すなわち、抑制解除指示を送信する(S116)。
When it is determined that the erroneous voice recognition condition is satisfied (YES in S114), the
(対話モード制御フロー)
対話装置2の対話モード制御部58が発話に係る指示を受信すると(S117においてYES)、対話モード制御部58は指示内容を分析する。受信した指示が出力抑制指示である場合(S118において1)、対話モード制御部58は、対話装置2の対話モードを、返答音声を出力しない対話モードに切り替える(S119)。具体的には、音声認識部59の音声認識機能を無効にすることにより、返答音声の出力を抑制する。一方、受信した指示が抑制解除指示である場合(S118において2)、対話モード制御部58は、対話モードを、返答音声を出力する対話モードに切り替える(S120)。具体的には、音声認識部59の音声認識機能を有効にすることにより、返答音声の出力抑制を解除する。
(Interactive mode control flow)
When interactive
なお、対話モード制御部58は、S118において、発話に係る指示が、自発音声出力指示であると分析した場合には、現在のモードが返答音声を出力しない対話モードであっても、音声出力制御部60に対して、自発音声を出力するよう指示してもよい。
When the conversation
≪実施形態2≫
本発明の実施形態2について、図6〜図9に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、先の実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。以降の実施形態においても同様である。
<<
The second embodiment of the present invention will be described below with reference to FIGS. For convenience of explanation, members having the same functions as those described in the previous embodiment are denoted by the same reference numerals and description thereof is omitted. The same applies to the following embodiments.
実施形態2では、音声出力機器(TV3)は、インターネットなど、外部ネットワークに接続されておらず、外部の装置と通信する機能を有していない。すなわち、音声出力機器は、自機の状態を外部に送信することができない。このように、音声出力機器がネットワーク接続されていない場合であっても、発話制御サーバ1において音声出力機器の状況および対話装置2の環境を把握し、音声の誤認識を適切に回避することが可能である。
In the second embodiment, the audio output device (TV 3) is not connected to an external network such as the Internet and does not have a function of communicating with an external device. That is, the audio output device cannot transmit its own state to the outside. As described above, even when the voice output device is not connected to the network, the speech control server 1 can grasp the status of the voice output device and the environment of the
〔対話システム概要〕
図6は、本発明の実施形態2に係る対話システムの概略を示す図である。図6に示す対話システム402は、発話制御サーバ1と、対話装置2と、音声出力機器(例えば、TV3)とを含む。
[Outline of Dialogue System]
FIG. 6 is a diagram showing an outline of a dialogue system according to
稼働情報は、実施形態1の対話システム401では情報収集サーバ4によって生成され発話制御サーバ1に供給される構成であったが、実施形態2の対話システム402では、情報収集サーバ4は設けられず、情報収集サーバ4に代えて対話装置2が発話制御サーバ1に供給する構成である。
The operation information is configured to be generated by the information collection server 4 and supplied to the utterance control server 1 in the interactive system 401 of the first embodiment, but the information collection server 4 is not provided in the
実施形態2では、対話装置2は、TV3との間で赤外線を介して通信する機能を有し、操作部32と同様に制御信号を送ってTV3を遠隔で操作するとともに、TV3の状態を把握することが可能である。これにより、対話装置2は、TV3が受け付けた操作情報と、TV3の最新の状態とを自装置にて把握しているので、これらの情報に基づいて稼働情報を生成することができる。つまり、対話装置2は、自装置の装置IDと、自装置にて生成した稼働情報とを発話制御サーバ1に送信することができる。発話制御サーバ1は、受信した稼働情報に応じて、発話に係る指示を対話装置2に対して返信することができる。
In the second embodiment, the
結果として、TV3がユーザによって視聴されている間、音声の誤認識またはそれに伴う誤作動を回避することができるという、実施形態1と同様の効果を得ることができる。
As a result, while the
〔対話システムの各装置の機能構成〕
図7は、本発明の実施形態2に係る対話システムにおける各装置の要部構成を示す機能ブロックである。図8の(a)〜(d)は、実施形態2の対話システム402において、各装置が取り扱う情報およびテーブルの具体例を示す図である。
[Functional configuration of each device in the interactive system]
FIG. 7 is a functional block showing a main configuration of each device in the dialogue system according to
(発話制御サーバ1の要部構成)
図7に示す発話制御サーバ1において、図1に示す実施形態1の発話制御サーバ1と異なる点は、以下の点である。
(Main components of the utterance control server 1)
The utterance control server 1 shown in FIG. 7 is different from the utterance control server 1 of the first embodiment shown in FIG. 1 in the following points.
実施形態2では、稼働情報受信部54は、機器IDに代えて装置IDを稼働情報とともに受信する。よって、発話制御サーバ1は、制御対象の対話装置2を、上記装置IDから直接把握することができる。そのため、制御部10は、制御対象特定部55を含んでいなくてもよい。また、記憶部11には、機器装置対応テーブル71が格納されていなくてもよい。稼働情報受信部54は、受信した装置IDを発話制御部57に供給し、受信した稼働情報を条件判断部56に送信する。
In the second embodiment, the operation
(対話装置2の要部構成)
図7に示す対話装置2において、図1に示す実施形態1の対話装置2と異なる点は、以下の点である。
(Main part configuration of the dialogue device 2)
The
対話装置2は、TV3を操作するための制御信号を送出する赤外線送信部24を備えている。制御部20は、機能ブロックとして、さらに、機器操作部(機器操作手段)61、
稼働情報生成部52、および、稼働情報送信部53を含む。
The
An operation
記憶部21には、機器状態管理テーブル70および装置ID72が格納されている。装置ID72は、図8の(a)に示すとおり、対話装置2に個別に割り当てられている識別情報である。この装置ID72は、稼働情報送信部53が稼働情報を送信するときに利用される。
The
機器操作部61は、所定のイベントの発生(所定の時刻になる、または、ユーザに指示される、など)に応じて、TV3を遠隔で操作するものである。また、機器操作部61は、実施形態1の操作情報受信部51と同様の方法で、上記の遠隔操作の内容を示す操作情報に応じて、機器状態管理テーブル70に格納されているTV3の状態を更新する。
The
例えば、TV3のチャンネルを2チャンネルから1チャンネルに切り替えるようにユーザに指示されたとする。この場合、機器操作部61は、TV3の状態が2チャンネル選局中から1チャンネル選局中に遷移するように、例えば、リモコンの上ボタン押下に相当する制御信号を、赤外線送信部24を制御して、TV3に向かって送出させる。機器操作部61は、上記制御信号(上ボタン押下)がTV3に向かって送出された旨を示す操作情報を生成し、これに基づいて、機器状態管理テーブル70に格納されているTV3の状態を更新する。具体的には、機器操作部61は、まず、図8の(b)に示す操作情報を生成する。そして、図8の(c)に示す機器状態管理テーブル70から、操作対象のTV3(機器ID「TV0001」)のレコードを読み出す。そして、上記操作情報に基づいて、TV3の状態を、実施形態1の操作情報受信部51と同様の方法で更新する。
For example, it is assumed that the user is instructed to switch the channel of the
稼働情報生成部52は、実施形態1の稼働情報生成部52と同様に、稼働情報を生成したり、更新したりする。図示していないが、実施形態1と同様に稼働情報を生成または更新した日時を、最終更新日時として機器状態管理テーブル70に格納してもよい。なお、図8の(c)に示す機器状態管理テーブル70は、対話装置2が遠隔で操作可能な1以上の音声出力機器の状態について管理するためのテーブルである。したがって、TV3の他にも、対話装置2が遠隔操作できる録画再生装置、音楽再生装置などのレコードが機器状態管理テーブル70にて管理されていてもよい。
The operation
稼働情報送信部53は、実施形態1の稼働情報送信部53と同様に、稼働情報生成部52によって生成または更新された稼働情報を発話制御サーバ1に送信する。ただし、実施形態2では、機器IDではなく、自装置の識別情報である装置ID72を稼働情報に対応付けて送信する。図8の(d)には、稼働情報送信部53が送信する装置IDおよび稼働情報の具体例が示されている。
The operation
(音声出力機器の要部構成)
TV3は、実施形態2では、通信部および制御部30において操作情報送信部50を含んでいなくてもよい。TV3は、少なくとも、対話装置2から送出された制御信号を受信するための赤外線受信部33を備えている。また、TV3は、赤外線受信部33が受信した制御信号にしたがって、デジタルテレビとしての機能を実行するための各部を備えているが、これらのブロックについて図示を省略している。
(Main components of audio output equipment)
In the second embodiment, the
上記構成によれば、対話装置2が遠隔で操作することによって音声出力機器(TV3など)の稼働状況が変化すると、対話装置2は、その変化を、稼働情報を送信して、発話制御サーバ1に報告する。発話制御サーバ1は、実施形態1と同様に稼働情報に基づいて、音声誤認識条件の成否を判断し、判断結果に応じて、出力抑制指示または抑制解除指示を、報告元の対話装置2に対して返信する。
According to the above configuration, when the operating status of the audio output device (
このように、音声出力機器がネットワーク接続されていない場合であっても、発話制御サーバ1において音声出力機器の状況および対話装置2の環境を把握し、音声の誤認識を適切に回避することが可能である。
As described above, even when the voice output device is not connected to the network, the speech control server 1 can grasp the status of the voice output device and the environment of the
〔処理フロー〕
図9は、対話システム402において、対話装置2が実行する稼働情報送信処理の流れと、発話制御サーバ1が実行する発話制御処理の流れとを示すフローチャートである。
[Process flow]
FIG. 9 is a flowchart showing the flow of the operation information transmission process executed by the
(稼働情報送信フロー)
対話装置2の機器操作部61が、音声出力機器(ここでは、TV3とする)を遠隔で操作する所定のイベントの発生を検知すると(S201においてYES)、機器操作部61は、赤外線送信部24を制御して、TV3を遠隔で操作する。そして、その操作内容を示す操作情報に基づいて、機器状態管理テーブル70において、TV3の状態を更新する(S202)。
(Operation information transmission flow)
When the
TV3の状態が、電源オンかつ(チャンネルを)選局中を示す場合には(S203においてYES、かつ、S204においてYES)、稼働情報生成部52は、TV3の稼働情報「視聴中」を生成する、または、稼働情報を「視聴中」に更新する(S205)。そして、稼働情報送信部53は、装置ID72および稼働情報「視聴中」を発話制御サーバ1に送信する(S206)。一方、TV3の状態が、電源オフまたは選局中以外の電源オンを示す場合には(S203においてNO、または、S204においてNO)、稼働情報生成部52は、TV3の稼働情報を、「電源オフ」または「非視聴使用中」を示すように生成または更新する(S207)。そして、稼働情報送信部53は、装置ID72および稼働情報「電源オフ」または「非視聴使用中」を発話制御サーバ1に送信する(S208)。
When the state of the
(発話制御フロー)
発話制御サーバ1の稼働情報受信部54が、装置ID72および稼働情報を受信すると(S209においてYES)、稼働情報受信部54は、装置ID72を発話制御部57に供給し、稼働情報を条件判断部56に供給する。以降の処理は、図5に示すS114〜S116と同様である。
(Speech control flow)
When the operation
(対話モード制御フロー)
図5に示すS117〜S120と同様である。
(Interactive mode control flow)
This is the same as S117 to S120 shown in FIG.
≪実施形態3≫
本発明の実施形態3について、図10〜図13に基づいて説明すれば、以下のとおりである。
<<
The third embodiment of the present invention will be described below with reference to FIGS.
誤認識が起こり得る環境を対話装置2にもたらす原因は、TV3などの音声出力機器に限られない。ユーザが対話装置に対してではなく、他の対象に向けて発話をしている環境下でも、対話装置2は誤認識および誤操作を起こす可能性がある。例えば、ユーザは、電話機、携帯電話、スマートフォン、インターフォンなどの通話機器を用いて、遠隔の通話相手に対して発話することが考えられる。この発話は、明らかに、対話装置2に対して向けられたものではないが、該発話の音声を、ユーザの近くにいる対話装置2が誤認識する可能性がある。実施形態3では、本発明の対話システムは、通話機器を使用してユーザが発話する環境を把握し、音声の誤認識を適切に回避することが可能である。
The cause of causing an environment in which erroneous recognition may occur to the
〔対話システム概要〕
図10は、本発明の実施形態3に係る対話システムの概略を示す図である。図10に示
す対話システム403は、発話制御サーバ1と、対話装置2と、1以上の通話機器(例えば、電話機3a)とを含む。
[Outline of Dialogue System]
FIG. 10 is a diagram showing an outline of a dialogue system according to
実施形態3では、通話機器は、通話相手の機器から着信があった場合に、所定の呼出音を出力して該着信をユーザに知らせる機能を有する。その後、着信に気づいたユーザが通話機器を使用して、通話相手に対して発話すると予想される。 In the third embodiment, the call device has a function of outputting a predetermined ringing tone and notifying the user of an incoming call when an incoming call is received from the device of the other party. Thereafter, the user who notices the incoming call is expected to speak to the other party using the telephone device.
対話装置2は、通話機器(電話機3a)ごとに特有の所定の呼出音を検出することにより、電話機(対象外音声発生源機器/通話機器)3aを特定するとともに、電話機3aが通話中の状態になることを把握することができる。そして、電話機3aが通話中の状態であることに基づいて、電話機3aの稼働情報を生成することができる。後は、実施形態2と同様に、対話装置2が自装置の装置IDと電話機3aの稼働情報とを発話制御サーバ1に送信すればよい。
The
結果として、電話機3aが通話中の状態である間は、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を得ることができる。 As a result, while the telephone 3a is in a call state, it is possible to obtain an effect that it is possible to avoid erroneous voice recognition or a malfunction associated therewith.
〔対話システムの各装置の機能構成〕
図11は、本発明の実施形態3に係る対話システムにおける各装置の要部構成を示す機能ブロックである。図12の(a)〜(d)は、実施形態3の対話システム403において、各装置が取り扱う情報およびテーブルの具体例を示す図である。
[Functional configuration of each device in the interactive system]
FIG. 11 is a functional block showing a main configuration of each device in the dialogue system according to
(発話制御サーバ1の要部構成)
図11に示す発話制御サーバ1において、図7に示す実施形態2の発話制御サーバ1と異なる点は、以下の点である。
(Main components of the utterance control server 1)
The utterance control server 1 shown in FIG. 11 is different from the utterance control server 1 of the second embodiment shown in FIG. 7 in the following points.
実施形態3では、稼働情報受信部54は、装置ID72とともに、通話機器(電話機3a)の稼働情報(例えば、図12の(d))を受信する。実施形態3において稼働情報は、「通話中」(ユーザによって電話機3aが使用され、ユーザが通話相手と会話している状態)または「待機中」(着信を待ち受ける状態)を示す。
In the third embodiment, the operation
条件判断部56は、ルールテーブル74を参照して、受信した稼働情報に基づいて、対話装置2が置かれている環境において音声誤認識条件が成立するか否かを判断する。例えば、図12の(e)に示すルールテーブル74にしたがえば、条件判断部56は、電話機3aの稼働情報が「通話中」を示す場合に、音声誤認識条件が成立すると判断し、稼働情報が「待機中」を示す場合に、音声誤認識条件が成立しないと判断する。
The
(対話装置2の要部構成)
図11に示す対話装置2において、図2に示す実施形態2の対話装置2と異なる点は、以下の点である。
(Main part configuration of the dialogue device 2)
The
対話装置2は、赤外線送信部24を備えていなくてもよい。
The
また、制御部20は、機器操作部61を含んでいなくてもよく、代わりに、機能ブロックとして、音判定部(音判定手段)62を備えている。
Moreover, the
また、記憶部21には、さらに、呼出音テーブル73が格納されている。
The
音判定部62は、音声入力部22を介して制御部20に入力された音声データを分析してそれが何の音であるのかを判定するものである。また、音判定部62は、その判定結果
に応じて、機器状態管理テーブル70(例えば、図12の(c))において管理されている各通話機器の状態を更新する。
The
図12の(b)は、呼出音テーブル73の具体例を示す図である。実施形態3では、音判定部62は、呼出音テーブル73にあらかじめ登録されている通話機器ごとの呼出音のサンプルと、入力された音声データとを比較して、該音声データの音が、登録されている通話機器の呼出音であれば、その音がどの呼出音であるのかを呼出音テーブル73のサンプルの中から特定する。なお、通話機器が電話機3aの1台しかない場合には、音判定部62は、上記音が電話機3aの呼出音であるのか否かを判定するだけでよい。音判定部62は、呼出音を特定すると、その呼出音に対応付けられている機器IDに基づいて、着信を受けた通話機器を特定することができる。そして、音判定部62は、機器状態管理テーブル70に格納されている、上記機器IDに対応付けられている通話機器の状態を更新する。具体的には、音判定部62は、電話機3aの呼出音が17:30に鳴ったと判定した場合、図12の(c)の機器状態管理テーブル70において、機器ID「PH1001」の状態を、「17:30着信有」に更新する。
FIG. 12B is a diagram showing a specific example of the ringing tone table 73. In the third embodiment, the
さらに、音判定部62は、記憶部21に格納されている、人の声の音のサンプル(図示せず)と、入力された音声データとを比較することにより、入力された音声データの音が人の声であるのか否かを判定することが好ましい。音判定部62は、人の声であるのか否かを判定するだけでよく、発話内容をテキスト化する音声認識部59と比較して、構成を簡素化することができ、処理負荷も低減される。人の声のサンプルは、事前に用意されたものであってもよいし、対話装置2のユーザの声を登録したものであってもよい。
Furthermore, the
詳細には、音判定部62は、登録された通話機器の呼出音が鳴ったと判定した後、人の声の入力を監視する。例えば、機器ID「PH1002」のインターフォン(図示せず)の呼出音が15:40に鳴ったと判定した後、人の声の入力を監視する。その後、当該人の声の入力が一定時間以上途切れたことを確認すると、上記呼出音をトリガにして開始された通話が終了した(例えば、15:42に終了した)と判定する。このとき、音判定部62は、図12の(c)に示すとおり、機器ID「PH1002」のインターフォンの状態を、「15:40着信有」から「15:42通話終了」へと更新する。上記構成により、通話機器が通話中の状態である期間を対話装置2が把握することができる。
Specifically, the
稼働情報生成部52は、通話機器の稼働情報を生成したり更新したりする。図示していないが、実施形態1と同様に稼働情報を生成または更新した日時を、最終更新日時として機器状態管理テーブル70に格納してもよい。稼働情報生成部52は、通話機器の状態が、「通話終了」から「着信有」に更新された場合に、稼働情報を「待機中」から「通話中」に更新する。また、通話機器の状態が、「着信有」から「通話終了」に更新された場合に、稼働情報を「通話中」から「待機中」に更新する。
The operation
稼働情報送信部53は、実施形態2の稼働情報送信部53と同様に、稼働情報生成部52によって生成または更新された稼働情報を装置ID72(例えば、図12の(a))とともに発話制御サーバ1に送信する。図12の(d)には、稼働情報送信部53が送信する装置IDおよび稼働情報の具体例が示されている。
Similarly to the operation
(通話機器の要部構成)
通話機器としての電話機3aは、電話機として一般的な機能を実行するための各部(少なくとも、着信をユーザに報知する音声出力部)を備えていればよく、図示を省略している。
(Main components of telephone equipment)
The telephone 3a as a telephone device only needs to include each unit (at least a voice output unit for notifying a user of an incoming call) for executing a general function as a telephone, and is not illustrated.
対話装置2の周囲にある通話機器(電話機3aなど)が着信を受けて、呼出音を出力す
ると、その後、ユーザが通話相手に対して発話することにより、音声の誤認識を起こしやすい環境がもたらされる。上記構成によれば、呼出音をトリガにして上記通話機器が着信に応答することにより、通話機器の稼働状況が変化すると、対話装置2は、その変化を呼出音の集音によって検知する。そして、変化後の稼働情報を生成し発話制御サーバ1に送信して、当該変化を発話制御サーバ1に報告する。さらに、対話装置2は、呼出音が鳴ったあとに集音される人(ユーザ)の声の入力を監視し、この声の入力が一定時間以上途切れたら、上記呼出音を契機に開始された通話が終了したと判定することができる。そして、通話終了を示す稼働情報を生成し発話制御サーバ1に送信して、発話制御サーバ1に報告する。発話制御サーバ1は、実施形態2と同様に稼働情報に基づいて、音声誤認識条件の成否を判断し、判断結果に応じて、出力抑制指示または抑制解除指示を、報告元の対話装置2に対して返信する。
When a call device (such as the telephone 3a) around the
このように、発話制御サーバ1は、対話装置2以外の対象に対してユーザの発話がなされる環境について、通話機器の状況に基づいて、把握することができる。つまり、通話機器が通話中の状態にある期間、音声の誤認識を適切に回避することが可能である。
As described above, the utterance control server 1 can grasp the environment in which the user utters a target other than the
〔処理フロー〕
図13は、対話システム403において、対話装置2が実行する稼働情報送信処理の流れと、発話制御サーバ1が実行する発話制御処理の流れとを示すフローチャートである。
[Process flow]
FIG. 13 is a flowchart showing the flow of the operation information transmission process executed by the
(稼働情報送信フロー)
対話装置2の音判定部62が、通話機器の呼出音が鳴ったことを検知すると(S301においてYES)、続いて、音判定部62は、呼出音テーブル73(図12の(b))において、検知した呼出音に対応付けられた機器IDに基づいてどの通話機器が着信を受けたのかを特定する(S302)。ここでは、電話機3aが特定されたものとする。そして、音判定部62は、機器状態管理テーブル70(図12の(c))に格納されている電話機3aの状態を更新する(S303)。
(Operation information transmission flow)
When the
電話機3aの状態が、着信有を示す場合には(S304においてYES)、稼働情報生成部52は、電話機3aの稼働情報「通話中」を生成する、または、稼働情報を「通話中」に更新する(S305)。そして、稼働情報送信部53は、装置ID72(図12の(a))および稼働情報「通話中」(図12の(d))を発話制御サーバ1に送信する(S306)。一方、電話機3aの状態が、通話終了を示す場合には(S304においてNO)、稼働情報生成部52は、電話機3aの稼働情報を、「待機中」を示すように生成または更新する(S307)。そして、稼働情報送信部53は、装置ID72および稼働情報「待機中」を発話制御サーバ1に送信する(S308)。
When the state of the telephone 3a indicates that there is an incoming call (YES in S304), the operation
なお、図示していないが、S306のステップの後からS309のステップの前までの間に、音判定部62は、人の声の入力を監視する。そして、音判定部62は、人の声の入力が一定時間以上途切れたことを検知すると(S301においてNO、S309においてYES)、直前に着信有の状態に更新した電話機3aについて、機器状態管理テーブル70の状態を「通話終了」に更新する(S303)。そして、以降の処理(S304〜308)が繰り返される。
Although not shown, the
(発話制御フロー)
発話制御サーバ1の稼働情報受信部54が、装置ID72および稼働情報を受信すると(S309においてYES)、稼働情報受信部54は、装置ID72を発話制御部57に供給し、稼働情報を条件判断部56に供給する。以降の処理は、図5に示すS114〜S116と同様である。ただし、条件判断部56は、S114において、図12の(e)に示すルールテーブル74を参照する点が実施形態2と異なる。
(Speech control flow)
When the operation
(対話モード制御フロー)
図5に示すS117〜S120と同様である。
(Interactive mode control flow)
This is the same as S117 to S120 shown in FIG.
≪実施形態4≫
本発明の実施形態4について、図6、7、9および14に基づいて説明すれば、以下のとおりである。
<< Embodiment 4 >>
The following description will discuss Embodiment 4 of the present invention with reference to FIGS.
誤認識が起こり得る環境を対話装置2にもたらす原因は、TV3などの音声出力機器に限られない。近年、音声案内を出力する機能を有した家庭用電気機器(以下、家電機器)が広く普及している。例えば、洗濯機、炊飯器、電子レンジ、給湯器などの家電機器は、稼働中に、さまざまな工程でユーザに向けて音声案内を出力する(例えば、洗濯機が「洗濯を開始します」、「すすぎが完了しました」、「脱水中です、フタを開けることはできません」などと音声案内を出力する)。このような音声案内が家電機器から出力される環境下でも、対話装置2は誤認識および誤操作を起こす可能性がある。実施形態4では、本発明の対話システムは、家電機器が稼働中に音声案内を出力する環境を把握し、音声の誤認識を適切に回避することが可能である。
The cause of causing an environment in which erroneous recognition may occur to the
〔対話システム概要〕
本発明の実施形態4に係る対話システム404としては、一例として、図6に示す実施形態2の対話システム402と略同様の構成が採用される。あるいは、図2に示す実施形態1の対話システム401が採用されてもよい。
[Outline of Dialogue System]
As an example of the dialogue system 404 according to the fourth embodiment of the present invention, a configuration substantially the same as that of the
実施形態4の対話システム404において、図6に示す実施形態2の対話システム402と異なる点は、以下の点である。
The dialog system 404 of the fourth embodiment is different from the
実施形態4では、対話システム404は、対象外音声発生源機器として、音声出力機器(TV3)の代わりに、1以上の家電機器(例えば、洗濯機、炊飯器、電子レンジなど)を含む。 In the fourth embodiment, the dialogue system 404 includes one or more home appliances (for example, a washing machine, a rice cooker, a microwave oven, etc.) instead of the audio output device (TV3) as the non-target audio generation source device.
実施形態4では、対話装置2は、これらの家電機器を遠隔で操作し、各家電機器の稼働情報を発話制御サーバ1に供給する構成である。
In the fourth embodiment, the
結果として、家電機器が稼働中の間、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を得ることができる。 As a result, it is possible to obtain an effect that it is possible to avoid voice misrecognition or accompanying malfunction while the home appliance is in operation.
〔対話システムの各装置の機能構成〕
図14の(a)〜(d)は、実施形態4の対話システム404において、各装置が取り扱う情報およびテーブルの具体例を示す図である。
[Functional configuration of each device in the interactive system]
(A)-(d) of FIG. 14 is a figure which shows the specific example of the information and table which each apparatus handles in the interactive system 404 of Embodiment 4. FIG.
(発話制御サーバ1の要部構成)
実施形態4の発話制御サーバ1において、図7に示す発話制御サーバ1と異なる点は、以下の点である。
(Main components of the utterance control server 1)
The utterance control server 1 of the fourth embodiment is different from the utterance control server 1 shown in FIG. 7 in the following points.
実施形態4では、稼働情報受信部54は、家電機器(例えば、洗濯機)の稼働情報(例えば、図14の(c))を受信する。実施形態4において、稼働情報は、後に詳述するとおり、「稼働中」、「待機中」または「電源オフ」を示す。
In the fourth embodiment, the operation
記憶部11には、図14の(d)に示すルールテーブル74が格納されている。条件判断部56は、上記ルールテーブル74を参照して、受信した稼働情報に基づいて、対話装
置2が置かれている環境において音声誤認識条件が成立するか否かを判断する。例えば、図14の(d)に示すルールテーブル74にしたがえば、条件判断部56は、洗濯機の稼働情報が「稼働中」を示す場合に、音声誤認識条件が成立すると判断し、稼働情報が「待機中」または「電源オフ」を示す場合に、音声誤認識条件が成立しないと判断する。
The storage unit 11 stores a rule table 74 shown in FIG. The
(対話装置2の要部構成)
実施形態4の対話装置2において、図7に示す実施形態2の対話装置2と異なる点は、以下の点である。
(Main part configuration of the dialogue device 2)
The
機器操作部61は、家電機器を遠隔で操作するものである。具体的には、機器操作部61は、操作対象の家電機器の電源オン/オフを制御したり、家電機器が電源オンのときに、所定の機能を実行するように該家電機器に指示したりする。実施形態4では、機器操作部61は、家電機器を操作すると、操作対象の家電機器の機器IDと操作情報とを稼働情報生成部52に供給する。実施形態4では、操作情報は、機器操作部61が家電機器の電源をオフからオンに切り替えた場合に「電源オン」を示し、電源をオンからオフに切り替えた場合に「電源オフ」を示し、家電機器に対して所定の機能を実行するように指示した場合に「実行指示」を示す。例えば、機器操作部61が、洗濯機に洗濯を開始するように指示した場合に、機器操作部61から稼働情報生成部52に供給される機器IDおよび操作情報の具体例が、図14の(a)に示されている。
The
稼働情報生成部52は、機器操作部61から供給された機器IDおよび操作情報に基づいて、機器状態管理テーブル70(例えば、図14の(b))において、家電機器の稼働情報を生成または更新する。上述の例では、機器ID「WA0001」の洗濯機の操作情報が「実行指示」を示している。つまり、洗濯機は、対話装置2の指示にしたがって洗濯を開始したので、稼働情報生成部52は、洗濯機の稼働情報を「稼働中」に更新する。操作情報が「電源オン」を示す場合、洗濯機は、まだ稼働していないが、ユーザまたは対話装置2からの指示を受け付けていつでも洗濯を開始できる状態に遷移する。よって、稼働情報生成部52は、稼働情報を「待機中」に更新する。操作情報が「電源オフ」を示す場合、洗濯機は稼働できる状態にないので、稼働情報生成部52は、稼働情報を「電源オフ」に更新する。図示していないが、実施形態1と同様に稼働情報を生成または更新した日時を、最終更新日時として機器状態管理テーブル70に格納してもよい。
Based on the device ID and operation information supplied from the
稼働情報送信部53は、稼働情報生成部52によって生成または更新された稼働情報を発話制御サーバ1に送信する。図14の(c)には、稼働情報送信部53が送信する装置IDおよび稼働情報の具体例が示されている。
The operation
(家電機器の要部構成)
図7において、TV3に代わる家電機器(洗濯機など)は、図7に示すブロックに加えて、それぞれの家電機器としての一般的な機能を実行するための各部(少なくとも、所定の工程にて音声案内を出力する音声出力部)を備えているが、このブロックについて図示を省略している。
(Main components of home appliances)
7, in addition to the blocks shown in FIG. 7, each home appliance (such as a washing machine) replacing the
上記構成によれば、対話装置2が遠隔で操作することによって家電機器(洗濯機など)の稼働状況が変化すると、対話装置2は、その変化を、稼働情報を送信して、発話制御サーバ1に報告する。発話制御サーバ1は、稼働情報に基づいて、音声誤認識条件の成否を判断し、判断結果に応じて、出力抑制指示または抑制解除指示を、報告元の対話装置2に対して返信する。具体的には、発話制御サーバ1は、稼働情報が「稼働中」を示しており、家電機器が何らかの音声案内を出力する状態である場合には、対話装置2に対して返答音声を出力しないように指示する。一方、稼働情報が「待機中」または「電源オフ」を示しており、家電機器が音声案内を出力する状態でない場合には、対話装置2に対して返答
音声を出力するように指示する。
According to the above configuration, when the operation status of the household electrical appliance (such as a washing machine) is changed by remote operation of the
このように、音声案内を出力する家電機器が対話装置2の周囲にある場合であっても、発話制御サーバ1において、家電機器の状況および対話装置2の環境を把握し、音声の誤認識を適切に回避することが可能である。
As described above, even when the home appliance that outputs the voice guidance is in the vicinity of the
なお、上述の例では、対話システム404において、対話装置2が家電機器を遠隔で操作する構成を採用したがこれに限られない。実施形態4では、対話装置2と家電機器とがLAN(Local Area Network)などの構内ネットワークで通信に可能に接続されており、各家電機器が、電源オン、および、機能の実行開始を対話装置2に報告する構成も、実施形態4の対話システム404として採用することができる。この場合、電源オフは、対話装置2において、上記報告が一定時間以上受信されないことによって、判断される。
In the above-described example, the dialog system 404 employs a configuration in which the
〔処理フロー〕
実施形態4の対話システム404における各装置の処理の流れを、図9および図5を参照して説明すると以下のとおりである。
[Process flow]
The processing flow of each device in the interactive system 404 of the fourth embodiment will be described below with reference to FIGS. 9 and 5.
(稼働情報送信フロー)
図9に示すとおり、対話装置2の機器操作部61が、家電機器(ここでは、洗濯機とする)を遠隔で操作する所定のイベントの発生を検知すると(S201においてYES)、機器操作部61は、赤外線送信部24を制御して、洗濯機を遠隔で操作する。そして、操作対象の機器IDと、その操作内容を示す操作情報を稼働情報生成部52に供給する(S202)。なお、実施形態4では、機器状態管理テーブル70において、家電機器の状態は格納されていないので、ここで機器状態管理テーブル70は更新されない。
(Operation information transmission flow)
As illustrated in FIG. 9, when the
実施形態4では、S203のステップは省略される。そして、S204のステップに代えて、操作情報が「実行指示」であるか否かを判断するステップ(図示せず。S204’とする。)が実行される。洗濯機の操作情報が、実行指示を示す場合には(S204’においてYES)、稼働情報生成部52は、洗濯機の稼働情報「稼働中」を生成する、または、稼働情報を「稼働中」に更新する(S205)。そして、稼働情報送信部53は、装置ID72および上記稼働情報(実施形態4では「稼働中」)を発話制御サーバ1に送信する(S206)。一方、洗濯機の操作情報が、電源オンまたは電源オフを示す場合には(S204’においてNO)、稼働情報生成部52は、洗濯機の稼働情報を、「待機中」または「電源オフ」を示すように生成または更新する(S207)。そして、稼働情報送信部53は、装置ID72および上記稼働情報(実施形態4では、「待機中」または「電源オフ」)を発話制御サーバ1に送信する(S208)。
In the fourth embodiment, step S203 is omitted. Then, instead of the step of S204, a step of determining whether or not the operation information is an “execution instruction” (not shown; S204 ′) is executed. When the operation information of the washing machine indicates an execution instruction (YES in S204 ′), the operation
(発話制御フロー)
発話制御サーバ1の稼働情報受信部54が、装置ID72および稼働情報を受信すると(S209においてYES)、稼働情報受信部54は、装置ID72を発話制御部57に供給し、稼働情報を条件判断部56に供給する。以降の処理は、図5に示すS114〜S116と同様である。ただし、条件判断部56は、S114において、図14の(d)に示すルールテーブル74を参照する点が実施形態2と異なる。
(Speech control flow)
When the operation
(対話モード制御フロー)
図5に示すS117〜S120と同様である。
(Interactive mode control flow)
This is the same as S117 to S120 shown in FIG.
≪実施形態5≫
〔ソフトウェアによる実現例〕
発話制御サーバ1、対話装置2、TV3、および、情報収集サーバ4の制御ブロック(
特に、制御部10、20、30および40)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
<< Embodiment 5 >>
[Example of software implementation]
Control blocks of the utterance control server 1, the
In particular, the
後者の場合、上記の発話制御サーバ1、対話装置2、TV3、および、情報収集サーバ4を図17に示すようなコンピュータ(電子計算機)を用いて構成することができる。図17は、上記の発話制御サーバ1、対話装置2、TV3、または、情報収集サーバ4として利用可能なコンピュータ100の構成を例示したブロック図である。
In the latter case, the utterance control server 1, the
コンピュータ100は、図17に示すように、バス110を介して互いに接続された演算装置120と、主記憶装置130と、補助記憶装置140と、入出力インタフェース150とを備えている。演算装置120、主記憶装置130、および補助記憶装置140は、それぞれ、例えばCPU、RAM(random access memory)、ハードディスクドライブであってもよい。なお、主記憶装置130は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などを用いることができる。
As shown in FIG. 17, the
入出力インタフェース150には、入力装置200および出力装置300が接続される。上記各サーバの入力装置200および出力装置300は、他のサーバ、TV3または対話装置2から送信されるデータの受信、および、他のサーバ、TV3または対話装置2へのデータの送信を行う。対話装置2の入力装置200および出力装置300は、発話制御サーバ1からのデータの受信およびユーザの音声の取得、ならびに、発話制御サーバ1へのデータの送信およびユーザへの発話等を行う。TV3の入力装置200および出力装置300は、ユーザから操作指示の取得および各サーバまたは対話装置2からのデータの受信、ならびに、各サーバまたは対話装置2からのデータの送信を行う。
The
補助記憶装置140には、コンピュータ100を上記の発話制御サーバ1、対話装置2、TV3、または、情報収集サーバ4として動作させるための各プログラムが格納されている。そして、演算装置120は、補助記憶装置140に格納された上記各プログラムを主記憶装置130上に展開し、主記憶装置130上に展開された上記各プログラムに含まれる命令を実行することによって、コンピュータ100を、上記の発話制御サーバ1、対話装置2、TV3、または、情報収集サーバ4が備える各部として機能させる。また、補助記憶装置140は、上記各プログラムおよび各種データが演算装置120(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)であってもよい。
The
なお、ここでは、内部記録媒体である補助記憶装置140に記録されている上記各プログラムを用いてコンピュータ100機能させる構成について説明したが、外部記録媒体に記録されているプログラムを用いてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
Here, the configuration for causing the
≪変形例1≫
各実施形態の対話装置2の対話モード制御部58は、返答音声を出力しない対話モードの間、すなわち、音声認識機能を無効にしている間に、発話制御サーバ1から自発音声を出力する自発音声出力指示を受信した場合には、音声出力制御部60を制御して、指定された自発音声を出力してもよい。この場合、対話モード制御部58は、返答音声の出力を抑制している期間であっても、上記自発音声の出力後一定の期間だけ、返答音声の出力抑制を解除することが好ましい。
<< Modification 1 >>
The dialogue
ユーザは、対話装置2が自発的に発言した場合、TV3の視聴中であっても、当該発言を受けて対話装置2に対して何らかの応答を返す可能性が考えられる。その応答に対して対話装置2が反応を示さないのは、対話として不自然である。上記構成によれば、自発音声を出力後の一定期間は、返答音声の出力抑制を解除するので、対話装置2は、上記応答に対してさらに返答音声を出力することができる。結果として、上記の不自然さを解消することが可能である。
When the
発話制御サーバ1から自発音声出力指示が送信されるユースケースとしては、例えば、以下のようなものが想定されている。ユーザは、所定時刻に所定の内容を対話装置2に発言させるように、事前にタイマ設定を発話制御サーバ1に対して行うことができる。具体的には、ユーザは、所定の時刻(例えば、20時)になったら、翌日の天気について対話装置2が発言するように発話制御サーバ1に対して事前に設定しているものとする。この場合、発話制御サーバ1は、上記設定にしたがって、翌日の天気の情報を外部の情報提供サーバから取得して、「明日晴れだよ」という自発音声を生成し、これを20時に出力するように対話装置2に対して指示する。
As a use case in which a spontaneous voice output instruction is transmitted from the utterance control server 1, for example, the following is assumed. The user can perform timer setting on the speech control server 1 in advance so that the
対話装置2の音声出力制御部60は「明日晴れだよ」という自発音声を出力する。ここで、対話モード制御部58は、一定期間(例えば、5秒)返答音声の出力抑制を解除する。ユーザは、上記自発音声に反応して、例えば、「わかった、ありがとう」と発話する。出力抑制が解除されているので、音声認識部59は、上記ユーザの発話を音声認識することができる。そして、例えば、音声出力制御部60は、上記ユーザの発話に対する返答音声として「どういたしまして」を出力することができる。対話モード制御部58は、自発音声が出力されてから5秒が経過すると、再び、対話装置2の対話モードを、返答音声を出力しない対話モードに戻す。すなわち、音声認識部59の音声認識機能を無効にする。
The voice
≪変形例2≫
各実施形態において、音声誤認識条件の成否の判断は、発話制御サーバ1に設けられた条件判断部56によって実行される構成であった。しかし、本発明の対話システムは、上記の構成に限られない。本発明の対話システムは、稼働情報受信部54および条件判断部56を対話装置2に設けることにより、音声誤認識条件の成否の判断を対話装置2が行う構成を採用することができる。この場合、成否の判断のために必要となる機器の稼働情報は、実施形態1の変形例2においては、情報収集サーバ4から発話制御サーバ1を経由して対話装置2に供給される。あるいは、対話装置2が情報収集サーバ4に対して直接要求することにより取得される。また、実施形態2および4の変形例2においては、対話装置2が各機器と通信して各機器より稼働情報を直接取得するか、あるいは、上記通信によって各機器の状態を把握し、それに基づいて対話装置2自身が稼働情報を生成すればよい。また、実施形態3の変形例2においては、対話装置2が各機器の状態を各種センサにより監視して各機器の状態を把握し、それに基づいて稼働情報を生成すればよい。そして、条件判断部56の音声誤認識条件の成否の判断に応じて、対話モード制御部58が、音声認識部59および音声出力制御部60の少なくともいずれか一方を制御して対話モードの切り替えを行う。
<<
In each embodiment, the determination as to whether or not the voice recognition condition is successful is performed by the
さらに、変形例2において、対話装置2は、稼働情報を一定時間間隔で定期的に取得し、その都度、音声誤認識条件の成否の判断を行うことが好ましい。上記構成によれば、稼働情報供給側の装置(発話制御サーバ1、情報収集サーバ4、もしくは、音声出力機器、通話機器および家電機器などの各機器)からの稼働情報の供給が通信エラーのために滞っている場合でも、対話装置2から自発的に要求することによって、各機器の最新の稼働情報から、対話装置2がおかれている環境を常に正確に判断し、適切に、返答音声の出力を制御できる。
Furthermore, in the modified example 2, it is preferable that the
図15および図16は、変形例2における、対話システムの各装置の処理の流れを示すフローチャートである。 FIG. 15 and FIG. 16 are flowcharts showing the processing flow of each device of the interactive system in the second modification.
図15を参照して、対話装置2の稼働情報受信部54が、対話装置2と対になる機器について、前回稼働情報を取得した時点から一定時間経過したと判断した場合(S401においてYES)、稼働情報受信部54は、稼働情報を発話制御サーバ1に要求する(S402)。具体的には、稼働情報受信部54は、対話装置2の装置IDを含む稼働情報リクエストを生成して発話制御サーバ1に送信する。
Referring to FIG. 15, when the operation
変形例2では、発話制御サーバ1は、稼働情報を情報収集サーバ4から代理で取得する稼働情報代理取得処理を実行する。発話制御サーバ1が上記稼働情報リクエストを受信すると(S403においてYES)、制御対象特定部55は、機器装置対応テーブル71を参照して、受信された装置IDに対応するTV3を特定する(S404)。そして、発話制御サーバ1の稼働情報受信部54は、特定したTV3の機器IDを含む稼働情報リクエストを生成して情報収集サーバ4に送信する(S405)。
In the second modification, the utterance control server 1 executes an operation information proxy acquisition process for acquiring operation information from the information collection server 4 as a proxy. When the utterance control server 1 receives the operation information request (YES in S403), the control
情報収集サーバ4が上記稼働情報リクエストを受信すると(S406においてYES)、稼働情報生成部52は、受信された機器IDに基づいて、どの機器の稼働情報を出力すべきかを特定する(S407)。例えば、稼働情報生成部52は、TV3の稼働情報が要求されていると判断する。稼働情報生成部52は、機器状態管理テーブル70(図3の(b))から、TV3の稼働情報を取得する(S408)。ここで、稼働情報生成部52が、取得しようとする稼働情報に対応付けられた最終更新日時が現在時刻と比較して所定以上古い情報であると判断することが想定される。この場合には、稼働情報生成部52は、稼働情報に代えて、当該稼働情報が古くて無効である旨を示すエラーメッセージを取得してもよい。あるいは、稼働情報が古い場合、操作情報受信部51がTV3に対して最新の操作情報を要求して、該操作情報に基づいてTV3の状態を最新の状態に更新し、稼働情報生成部52が最新の状態に基づいて稼働状態を更新してもよい。
When the information collection server 4 receives the operation information request (YES in S406), the operation
稼働情報送信部53は、上記稼働情報リクエストに対する応答として、S408にて取得された稼働情報(またはエラーメッセージ)とS406にて受信された機器IDとを含む稼働情報レスポンスを、発話制御サーバ1に返す(S409)。
The operation
発話制御サーバ1の稼働情報受信部54は、上記稼働情報レスポンスを受信する(S410)。制御対象特定部55は、受信された機器IDに対応する装置IDを機器装置対応テーブル71から取得して、上記稼働情報レスポンスを返すべき対話装置2を特定する(S411)。図示しない発話制御サーバ1の稼働情報送信部は、S403にて受信された稼働情報リクエストに対する応答として、特定された対話装置2に対し、稼働情報またはエラーメッセージを含む稼働情報レスポンスを返信する(S412)。
The operation
図16を参照して、対話装置2の稼働情報受信部54が上記稼働情報レスポンスを受信する(S413)。
Referring to FIG. 16, the operation
対話装置2の条件判断部56は、上記稼働情報レスポンスに含まれているのが、「視聴中」を示す稼働情報である場合(S414において1)、自装置が置かれている環境について、音声誤認識条件が成立していると判断する。そして、対話モード制御部58は、対話モードを、返答音声を出力しない対話モードに切り替える(S415)。上記稼働情報レスポンスに含まれているのが、「電源オフまたは非視聴使用中」を示す稼働情報である場合(S414において2)、自装置が置かれている環境について、音声誤認識条件が成立していないと判断する。そして、対話モード制御部58は、返答音声を出力する対話モードに切り替える(S416)。あるいは、上記稼働情報レスポンスに含まれているのが
、上記エラーメッセージである場合(S414において3)、対話モード制御部58は、デフォルトの対話モードに切り替える(S417)。なお、デフォルトの対話モードは、返答音声を出力する対話モードであってもよい。
If the operation information response includes operation information indicating “viewing” (1 in S414), the
≪変形例3≫
上述の各実施形態では、対話装置2は、音声認識部59を備え、自装置に入力された音声を認識して、自装置で生成した返答音声、または、発話制御サーバ1から供給された返答音声を出力する構成であった。しかし、本発明の対話システムにおける対話装置2の構成は、上記構成に限られない。
<<
In each of the above-described embodiments, the
例えば、音声認識部59を持たない対話装置2を本発明の対話システムに採用することができる。すなわち、クライアント側(対話装置2)には音声認識機能がなく、対話装置2が音声入力部22(マイク)で拾った音声を発話制御サーバ1に送信し、発話制御サーバ1が当該音声を認識する。このような対話システムも本発明の範疇に入る。より具体的には、音声認識部59は、発話制御サーバ1の制御部10に設けられる。そして、対話装置2の制御部20は、音声認識部59に代えて、図示しない音声データ送信部(音声データ送信手段)を備えている。音声データ送信部は、音声入力部22を介して入力された音声データを、発話制御サーバ1に送信する。発話制御サーバ1の音声認識部59は、上記音声データ送信部から受信した音声データを認識する。発話制御サーバ1は、図示しない返答音声を生成するための図示しない下流の各処理部にて返答音声を生成する。そして、発話制御サーバ1の発話制御部57は、生成された返答音声を対話装置2に返信する。対話装置2では、対話モード制御部58は、発話制御サーバ1から供給された返答音声の出力を音声出力制御部60に指示し、音声出力制御部60が音声出力部23を介して上記返答音声を出力する。このように、対話装置2が音声認識部59を有していない場合でも、対話装置2は、ユーザと対話することが可能である。
For example, the
上記構成においては、さらに、返答音声の出力抑制を以下のようにして実現することが可能である。 In the above-described configuration, it is possible to further suppress output of response voice as follows.
第1に、発話制御サーバ1の発話制御部57は、条件判断部56によって音声誤認識条件が成立すると判断された場合には、対話装置2に対して音声データを送信しないように指示する。この指示にしたがって、対話装置2の対話モード制御部58は、上記音声データ送信部に対して音声データの送信を禁止する。上記構成によれば、発話制御サーバ1によって音声データが処理されないので、返答音声が生成されず、対話装置2に供給できない。
First, the
第2に、発話制御サーバ1の発話制御部57は、条件判断部56によって音声誤認識条件が成立すると判断された場合には、対話装置2の音声データ送信部から送信された音声データの受信を拒否する。上記構成によれば、音声データが受信されないので、発話制御サーバ1において返答音声が生成されず、返答音声を対話装置2に供給できない。
Secondly, the
第3に、発話制御サーバ1の発話制御部57は、条件判断部56によって音声誤認識条件が成立すると判断された場合には、受信された音声データを処理しないように、返答音声を生成するための各処理部を制御する。上記構成によれば、発話制御サーバ1において返答音声が生成されず、返答音声を対話装置2に供給できない。
Third, the
第4に、発話制御サーバ1の発話制御部57は、条件判断部56によって音声誤認識条件が成立すると判断された場合には、自装置にて生成された返答音声を対話装置2に送信しない。上記構成によれば、対話装置2に対して返答音声が供給されない。
Fourth, the
以上の各構成によれば、結果として、音声誤認識条件の成立時、認識対象外音声が発生しても、返答音声の出力が抑制され、対話装置2の誤認識および誤動作を回避することができる。
According to each of the above configurations, as a result, even if a voice that is not a recognition target is generated when the voice recognition condition is satisfied, the output of the reply voice is suppressed, and erroneous recognition and malfunction of the
≪変形例4≫
実施形態1において、音声誤認識条件の成否の判断は、情報収集サーバ4によって実行されてもよい。この場合、本発明の対話システムにおいて、情報収集サーバ4には、条件判断部56が設けられ、稼働情報送信部53に代えて、成否の判断結果を発話制御サーバ1に通知する通知部(図示せず)が設けられる。
<< Modification 4 >>
In the first embodiment, whether or not the erroneous voice recognition condition is satisfied may be determined by the information collection server 4. In this case, in the dialogue system of the present invention, the information collection server 4 is provided with a
≪変形例5≫
実施形態1において、情報収集サーバ4と、発話制御サーバ1とは、1台のコンピュータによって構成されてもよい。この場合、情報収集サーバ4に設けられた稼働情報送信部53と、発話制御サーバ1に設けられた稼働情報受信部54とを省略することが可能である。
<< Modification 5 >>
In the first embodiment, the information collection server 4 and the utterance control server 1 may be configured by a single computer. In this case, the operation
≪変形例6≫
実施形態2〜4において、各機器の稼働状況を管理する情報収集サーバ4は省略されているが、ユーザごとに各機器の稼働状況を一元的に管理するという目的がある場合、それぞれの対話システム402〜404は、情報収集サーバ4を含んで構築されてもよい。具体的には、対話装置2は、対話システム402〜404において、発話制御サーバ1に送信していた装置IDおよび稼働情報を、情報収集サーバ4にも送信するように構成される。あるいは、対話装置2は、装置IDおよび稼働情報を情報収集サーバ4にだけに送信し、情報収集サーバ4が、装置IDおよび稼働情報を発話制御サーバ1に転送する構成であってもよい。これにより、対話装置2からのリクエストは情報収集サーバ4に集約されるので、情報収集サーバ4において各機器の稼働状況を一元的に管理できるとともに、発話制御サーバ1の処理負荷を情報収集サーバ4に分散させることが可能となる。
<< Modification 6 >>
In the second to fourth embodiments, the information collection server 4 for managing the operation status of each device is omitted. However, when there is a purpose to centrally manage the operation status of each device for each user, each
〔まとめ〕
本発明の態様1に係る対話システム(401〜404)は、ユーザが発した音声を認識して、該音声に対し返答音声を出力する対話装置(2)を制御する対話システムであって、ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断手段(条件判断部56)と、上記条件判断手段によって上記音声誤認識条件が成立すると判断された場合に、上記対話装置によって上記返答音声が出力されないように制御する発話制御手段(発話制御部57)とを含み、上記条件判断手段は、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器(例えば、音声出力機器、通話機器、家電機器など、より具体的には、TV3、電話機3a、洗濯機など)の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断する。
[Summary]
A dialogue system (401 to 404) according to an aspect 1 of the present invention is a dialogue system that controls a dialogue device (2) that recognizes a voice uttered by a user and outputs a response voice to the voice. A condition determination that determines that a speech misrecognition condition of the interactive device is satisfied when a non-recognition speech that is not a recognition target speech uttered to the interactive device can be erroneously detected as a recognition target speech by the interactive device Utterance control means (speech control section 57) for controlling the answering voice not to be output by the dialogue device when it is determined by the means (condition judgment section 56) and the condition judgment means that the voice recognition error condition is satisfied. ), And the condition determination means includes a non-recognized sound source device (for example, a sound output device, a call device) that directly or indirectly generates the non-recognized sound. Such as home appliances, and more specifically,
上記の構成によれば、対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、条件判断手段は、対話装置の音声誤認識条件の成否を判断する。例えば、条件判断手段は、上記稼働情報が設定される度に(新たに生成されたり、更新されたりする度に)成否の判断を行えばよい。条件判断手段によって音声誤認識条件が成立すると判断されると、発話制御手段は、対話装置によって上記返答音声が出力されないように制御する。 According to said structure, based on the operation information which shows the operation condition of a non-target audio | voice generation | occurrence | production source apparatus, a condition determination means determines the success or failure of the audio | voice misrecognition conditions of a dialogue apparatus. For example, the condition determination means may determine success or failure every time the operation information is set (every time it is newly generated or updated). If it is determined by the condition determining means that the voice recognition condition is satisfied, the utterance control means controls the dialog device so that the response voice is not output.
具体的には、上記対話装置の周囲にある対象外音声発生源機器が、認識対象外音声を発生させる稼働状況である場合に、対話装置が、上記対象外音声発生源機器によって直接または間接的に発生させられた認識対象外音声を認識対象音声として誤って検知し得ると考
えられる。したがって、条件判断手段は、対象外音声発生源機器の稼働情報に基づいて、対象外音声発生源機器が認識対象外音声を発生させる稼働状況である場合に、上記対話装置について音声誤認識条件が成立すると判断する。そして、この場合に、発話制御手段によって、返答音声の出力は抑制される。例えば、発話制御手段は、返答音声を出力しないように上記対話装置に指示することによって出力を抑制してもよい。あるいは、上記対話装置が自装置で返答音声を生成する機能を持たない場合には、発話制御手段は、返答音声を上記対話装置に供給しないことによって出力を抑制してもよい。
Specifically, when the non-target audio source device around the dialog device is in an operating state in which non-recognition target sound is generated, the dialog device is directly or indirectly connected by the non-target sound source device. It is considered that the non-recognition voice generated in the above can be erroneously detected as the recognition target voice. Therefore, the condition determination means determines that the voice recognition condition is not correct for the interactive device when the non-target sound source device is in an operating state in which non-recognition target sound is generated based on the operation information of the non-target sound source device. Judgment is made. In this case, the output of response voice is suppressed by the speech control means. For example, the utterance control means may suppress the output by instructing the dialogue apparatus not to output a reply voice. Alternatively, when the dialogue apparatus does not have a function of generating a response voice by itself, the utterance control unit may suppress the output by not supplying the answer voice to the dialogue apparatus.
なお、対象外音声発生源機器が「間接的に認識対象外音声を発生させる」とは、当該対象外音声発生源機器が自機に備わっている機能を実行したことを契機に、当該対象外音声発生源機器とは別の実体(例えば、ユーザまたは当該対象外音声発生源機器とは別の機器)が、認識対象外音声を発生させることを指す。 Note that “indirect generation of non-recognized audio” means that the non-target audio source device is “not indirectly recognized” when the non-target audio source device has executed a function of its own device. This means that an entity different from the sound source device (for example, a user or a device different from the non-target sound source device) generates non-recognition sound.
以上のことから、対象外音声発生源機器の稼働状況に応じて、誤認識が起こりやすい状況、すなわち、認識対象外音声が対話装置の周囲で発生し得る状況では、当該対話装置は、認識対象外音声が発生しても、それに対して返答音声を出力することがなくなる。結果として、認識対象外音声が発生しても、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。 Based on the above, in a situation where misrecognition is likely to occur depending on the operating status of the non-target speech source device, that is, in a situation where unrecognized voice can occur around the dialog device, the dialog device Even if external audio is generated, no response audio is output. As a result, even if a speech that is not a recognition target is generated, there is an effect that it is possible to avoid erroneous speech recognition or malfunction associated therewith.
本発明の態様2に係る対話システムでは、上記態様1において、上記対象外音声発生源機器は、認識対象外音声を出力する音声出力機能を少なくとも有する音声出力機器であり、上記対話システムは、上記音声出力機器が上記音声出力機能を実行している間、当該音声出力機器の稼働情報を、上記音声出力機能を実行中であることを示すように設定する稼働情報設定手段(稼働情報生成部52)を含み、上記条件判断手段は、上記稼働情報設定手段によって設定された、上記音声出力機器の稼働情報が、上記音声出力機能を実行中であることを示す場合に、上記対話装置の音声誤認識条件が成立すると判断してもよい。
In the dialog system according to
上記の構成によれば、対象外音声発生源機器が、認識対象外音声を出力する音声出力機能を少なくとも有する音声出力機器である場合に、当該音声出力機器が、認識対象外音声を直接的に出力している間、上記対話装置の音声誤認識条件が成立すると判断される。 According to the above configuration, when the untargeted sound source device is a sound output device having at least a sound output function for outputting unrecognized sound, the sound output device directly outputs unrecognized sound. While the data is being output, it is determined that the voice recognition condition for the interactive device is satisfied.
以上のことから、音声出力機器が対話装置の周囲で認識対象外音声を直接的に出力している状況では、上記対話装置は、上記認識対象外音声が発生しても、それに対して返答音声を出力することがなくなる。結果として、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。なお、音声出力機器が認識対象外音声を直接的に出力している状況としては、例えば、これに限定されないが、TVが任意のチャンネルを選局して映像と併せて音声を出力している状況、あるいは、録画再生装置が録画した番組の映像と音声とを出力している状況、あるいは、音楽再生装置が音楽を再生している状況などが想定される。ユーザが、これらの音声出力機器を利用して出力される認識対象外音声を視聴している場合には、対話装置の誤認識および誤作動によって当該視聴が邪魔されることを回避できるので特にメリットが大きい。 From the above, in a situation where the voice output device directly outputs non-recognition target sound around the dialog device, the dialog device responds to the occurrence of the non-recognition sound. Will not be output. As a result, there is an effect that it is possible to avoid erroneous recognition of voice or the accompanying malfunction. Note that the situation in which the audio output device directly outputs unrecognized audio is not limited to this, for example, but the TV selects an arbitrary channel and outputs the audio together with the video. A situation, a situation in which video and audio of a program recorded by the recording / playback apparatus are output, or a situation in which the music playback apparatus is playing back music are assumed. When the user is viewing non-recognized audio output using these audio output devices, it is particularly advantageous because the viewing can be prevented from being disturbed by erroneous recognition and malfunction of the interactive device. Is big.
本発明の態様3に係る対話システムでは、上記態様1において、上記対象外音声発生源機器は、ユーザが遠隔の通話相手と通話するための通話機器であり、上記対話システムは、上記通話機器が着信を知らせる呼出音を出力してから、ユーザが発する音声が一定時間以上途切れるまでの間、当該通話機器の稼働情報を、通話中であることを示すように設定する稼働情報設定手段(稼働情報生成部52)を含み、上記条件判断手段は、上記稼働情報設定手段によって設定された、上記通話機器の稼働情報が、通話中であることを示す場合に、上記対話装置の音声誤認識条件が成立すると判断してもよい。
In the dialogue system according to
上記の構成によれば、対象外音声発生源機器が通話機器であって、当該通話機器が、呼出音を出力することによって通話開始の契機となった場合に、当該通話の間、上記対話装置の音声誤認識条件が成立すると判断される。 According to the above configuration, when the non-target audio generation source device is a call device, and the call device triggers the start of a call by outputting a ringing tone, the dialogue apparatus during the call Is determined to be satisfied.
以上のことから、通話機器が呼出音の出力によって間接的に認識対象外音声を発生させる状況、つまり、着信後にユーザが通話相手と通話している状況では、上記対話装置は、上記認識対象外音声(通話相手と通話しているユーザの声)が発生しても、それに対して返答音声を出力することがなくなる。結果として、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。ユーザが、通話機器を用いて通話している場合には、対話装置の誤認識および誤作動によって当該通話が邪魔されることを回避できるので特にメリットが大きい。なお、通話機器としては、これには限定されないが、固定電話機、携帯電話、スマートフォン、インターフォンなどが想定される。 From the above, in a situation where the calling device indirectly generates unrecognized sound by outputting a ringing tone, that is, in a situation where the user is talking to the other party after receiving a call, the interactive device is not recognized. Even if voice (the voice of the user who is talking to the other party) is generated, no response voice is output. As a result, there is an effect that it is possible to avoid erroneous recognition of voice or the accompanying malfunction. When the user is making a call using a call device, the merit is particularly great because the call can be prevented from being disturbed by erroneous recognition and malfunction of the interactive device. In addition, although it is not limited to this as a telephone call apparatus, a fixed telephone, a mobile phone, a smart phone, an intercom etc. are assumed.
本発明の態様4に係る対話システムでは、上記態様1において、上記対象外音声発生源機器は、自機が稼働している間、所定のタイミングで認識対象外音声を出力する音声出力機能を少なくとも有する家電機器であり、上記対話システムは、上記家電機器が稼働している間、当該家電機器の稼働情報を、稼働中であることを示すように設定する稼働情報設定手段(稼働情報生成部52)を含み、上記条件判断手段は、上記稼働情報設定手段によって設定された、上記家電機器の稼働情報が、稼働中であることを示す場合に、上記対話装置の音声誤認識条件が成立すると判断してもよい。 In the dialog system according to aspect 4 of the present invention, in the above aspect 1, the non-target audio generation source device has at least a sound output function for outputting non-recognition target sound at a predetermined timing while the device is operating. An operation information setting unit (operation information generation unit 52) that sets operation information of the home appliance to indicate that it is in operation while the home appliance is in operation. And the condition determination means determines that the voice recognition condition for the interactive device is satisfied when the operation information of the home appliance set by the operation information setting means indicates that the operation is in progress. May be.
上記の構成によれば、対象外音声発生源機器が、自機が稼働中に所定のタイミングで認識対象外音声を出力する音声出力機能を少なくとも有する家電機器である場合に、当該家電機器が、稼働している間、上記対話装置の音声誤認識条件が成立すると判断される。 According to the above configuration, when the non-target sound source device is a home device that has at least a sound output function of outputting non-recognition target sound at a predetermined timing while the device is operating, While operating, it is determined that the voice recognition condition of the interactive device is satisfied.
以上のことから、家電機器が対話装置の周囲で稼働中であり、認識対象外音声をいつ出力してもおかしくない状況において、上記対話装置は、上記認識対象外音声が発生しても、それに対して返答音声を出力することがなくなる。結果として、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。なお、家電機器が認識対象外音声を直接的に出力している状況としては、例えば、これに限定されないが、自機の稼働状況をユーザに通知する音声案内を出力している状況、自機にエラーが発生しそれをユーザに通知する音声案内を出力している状況、自機に対する操作をユーザに促すための音声案内を出力している状況などが想定される。ユーザがこれらの家電機器を利用中、対話装置が誤認識および誤作動によって発言することがなくなる。よって、ユーザは煩わしい思いをすることなく家電機器を利用することができので、特にメリットが大きい。 From the above, in a situation where home appliances are operating around the interactive device and it is not always possible to output unrecognized speech, the interactive device On the other hand, no response voice is output. As a result, there is an effect that it is possible to avoid erroneous recognition of voice or the accompanying malfunction. The situation in which the home appliance directly outputs the non-recognized voice is not limited to this, for example, but the situation in which voice guidance for notifying the user of the operation status of the own device is output, A situation in which a voice guidance for notifying the user of the occurrence of an error and outputting a voice guidance for prompting the user to perform an operation on the device is assumed. While the user is using these home appliances, the interactive device does not speak due to erroneous recognition and malfunction. Therefore, since the user can use the home appliance without annoying thoughts, the merit is particularly great.
本発明の態様5に係る対話システムでは、上記態様1〜4において、上記対話装置は、上記発話制御手段から上記返答音声の出力を抑制する指示を取得した場合に、自装置に入力された音声を認識する音声認識手段(音声認識部59)および上記返答音声の出力を実行する音声出力制御手段(音声出力制御部60)の少なくともいずれか一方の機能を無効にする対話制御手段(対話モード制御部58)を備えていてもよい。 In the dialog system according to aspect 5 of the present invention, in the above aspects 1 to 4, when the dialog apparatus acquires an instruction to suppress the output of the reply voice from the utterance control unit, the voice input to the own apparatus Dialogue control means (dialogue mode control) for disabling at least one of the functions of voice recognition means (voice recognition unit 59) for recognizing voice and voice output control means (voice output control unit 60) for executing output of the reply voice Part 58).
上記の構成によれば、上記対話装置は、認識対象外音声を認識対象音声として誤って検知し得る状況では、上記発話制御手段から上記返答音声の出力を抑制する指示を取得する。この場合、対話装置の対話制御手段は、音声認識手段および音声出力制御手段の少なくともいずれか一方の機能を無効にする。 According to said structure, the said dialogue apparatus acquires the instruction | indication which suppresses the output of the said response voice from the said speech control means in the condition which can detect unrecognized audio | voice as recognition object audio | voice accidentally. In this case, the dialog control means of the dialog device disables the function of at least one of the voice recognition means and the voice output control means.
これにより、音声認識手段の機能が無効になれば、上記音声認識手段は、認識対象外音声が発生しても、これを音声認識の処理にかけることがない。したがって、上記認識対象外音声に対して誤って返答音声が出力されることが抑制される。また、音声出力制御手段
の機能が無効になれば、認識対象外音声が発生して誤って認識対象音声として音声認識の処理にかけられたとしても、これに応答するための返答音声は出力されない。結果として、認識対象外音声が発生しても、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。
As a result, if the function of the voice recognition unit is disabled, the voice recognition unit does not subject the voice recognition process to the voice recognition process even if a voice that is not a recognition target is generated. Therefore, it is possible to suppress a response voice from being erroneously output with respect to the non-recognition target voice. Further, if the function of the voice output control means is disabled, even if an unrecognized voice is generated and erroneously subjected to voice recognition processing as a recognition target voice, a reply voice for responding thereto is not output. As a result, even if a speech that is not a recognition target is generated, there is an effect that it is possible to avoid erroneous speech recognition or malfunction associated therewith.
本発明の態様6に係る対話システムでは、上記態様5において、上記発話制御手段は、さらに、ユーザが発した音声の入力がなくとも、所定のイベントの発生に応じて、該イベントに対応する発言を内容とする音声を自発音声として自発的に出力するように上記対話装置に指示するものであり、上記対話制御手段は、上記発話制御手段の上記自発音声を出力する指示にしたがって該自発音声を出力した後、上記返答音声の出力の抑制を一定期間解除することが好ましい。 In the dialog system according to Aspect 6 of the present invention, in the Aspect 5, the speech control means further includes a speech corresponding to the event in response to the occurrence of the predetermined event even if the user does not input the voice. The dialogue control means instructs the dialogue apparatus to voluntarily output a voice having the content as a spontaneous voice, and the dialogue control means outputs the spontaneous voice according to an instruction of the utterance control means to output the spontaneous voice. After outputting, it is preferable to release the suppression of the response voice output for a certain period.
ユーザは、対話装置が自発的に発言した場合には、当該発言を受けて対話装置に対して何らかの応答を返す可能性が高い。しかし、返答音声の出力抑制中に上記ユーザの応答に対して対話装置が反応を示さないのは、対話として不自然である。 When the dialog device speaks spontaneously, the user is likely to receive some response and return some response to the dialog device. However, it is unnatural as a dialogue that the dialogue device does not respond to the user's response while the output of the reply voice is suppressed.
しかし、上記の構成によれば、対話装置が自発音声を出力した後の一定期間は、返答音声の出力抑制が解除される。この期間、対話装置は、一時的にユーザの発話に対して返答音声を出力することができる。結果として、上記の不自然さを解消することが可能である。 However, according to the above configuration, the output suppression of the response voice is released for a certain period after the dialogue apparatus outputs the spontaneous voice. During this period, the dialogue apparatus can temporarily output a response voice in response to the user's utterance. As a result, it is possible to eliminate the unnaturalness described above.
本発明の態様7に係る発話制御装置(発話制御サーバ1)は、ユーザが発した音声を認識して、該音声に対し返答音声を出力する対話装置を制御する発話制御装置であって、ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断手段(条件判断部56)と、上記条件判断手段によって上記音声誤認識条件が成立すると判断された場合に、上記対話装置によって上記返答音声が出力されないように制御する発話制御手段(発話制御部57)とを備え、上記条件判断手段は、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断する。 An utterance control device (speech control server 1) according to an aspect 7 of the present invention is an utterance control device that recognizes a voice uttered by a user and controls an interactive device that outputs a response voice to the voice. A condition determination that determines that a speech misrecognition condition of the interactive device is satisfied when a non-recognition speech that is not a recognition target speech uttered to the interactive device can be erroneously detected as a recognition target speech by the interactive device Utterance control means (speech control section 57) for controlling the answering voice not to be output by the dialogue device when it is determined by the means (condition judgment section 56) and the condition judgment means that the voice recognition error condition is satisfied. ), And the condition determination means is based on operation information indicating an operation status of the non-recognized sound generation source device that directly or indirectly generates the non-recognized sound, Serial to determine the success or failure of speech recognition error conditions.
上記の構成によれば、対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、条件判断部は、対話装置の音声誤認識条件の成否を判断する。条件判断手段によって音声誤認識条件が成立すると判断されると、発話制御手段は、対話装置によって上記返答音声が出力されないように制御する。 According to said structure, a condition judgment part judges the success or failure of the audio | voice misrecognition conditions of a dialogue apparatus based on the operation information which shows the operation condition of a non-target audio | voice generation source apparatus. If it is determined by the condition determining means that the voice recognition condition is satisfied, the utterance control means controls the dialog device so that the response voice is not output.
これにより、対象外音声発生源機器の稼働状況に応じて、誤認識が起こりやすい状況、すなわち、認識対象外音声が対話装置の周囲で発生し得る状況では、当該対話装置は、認識対象外音声が発生しても、それに対して返答音声を出力することがなくなる。結果として、認識対象外音声が発生しても、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。 As a result, in situations where misrecognition is likely to occur depending on the operating status of the non-target audio source device, that is, in situations where non-recognition target audio may occur around the dialog device, the dialog device No response voice will be output. As a result, even if a speech that is not a recognition target is generated, there is an effect that it is possible to avoid erroneous speech recognition or malfunction associated therewith.
本発明の態様8に係る発話制御装置は、上記態様7において、上記対象外音声発生源機器と通信網を介して通信して該対象外音声発生源機器の情報を収集することにより、上記対象外音声発生源機器の稼働情報を生成する情報収集装置(情報収集サーバ4)から、上記稼働情報を受信する稼働情報受信手段(稼働情報受信部54)を備えていてもよい。 The speech control apparatus according to aspect 8 of the present invention provides the speech control apparatus according to aspect 7 described above, by communicating with the non-target sound generation source device via a communication network and collecting information on the non-target sound generation source device. Operation information receiving means (operation information receiving unit 54) that receives the operation information from an information collection device (information collection server 4) that generates operation information of the external sound source device may be provided.
上記の構成によれば、対象外音声発生源機器が通信機能を有している場合に、情報収集装置に各対象外音声発生源機器の稼働状況を把握させて、各対象外音声発生源機器の稼働情報を生成させることができる。発話制御装置は、情報収集装置から供給された稼働情報
を用いて音声誤認識条件の成否を判断すればよく、発話制御装置の構成を簡素化することができる。
According to the above configuration, when the non-target sound source device has a communication function, the information collection device grasps the operating status of each non-target sound source device, and each non-target sound source device Operation information can be generated. The utterance control device only has to determine whether or not the voice recognition condition is satisfied using the operation information supplied from the information collecting device, and the configuration of the utterance control device can be simplified.
本発明の態様9に係る発話制御装置は、上記態様7において、上記対象外音声発生源機器の動作を近距離無線通信によって制御する上記対話装置から、上記対象外音声発生源機器の稼働情報を受信する稼働情報受信手段(稼働情報受信部54)を備えていてもよい。 The speech control apparatus according to aspect 9 of the present invention provides the operation information of the non-target sound generation source device in the aspect 7 from the interactive device that controls the operation of the non-target sound generation source device by short-range wireless communication. Operation information receiving means (operation information receiving unit 54) for receiving may be provided.
上記の構成によれば、対話装置が対象外音声発生源機器を遠隔で制御する制御機能を有している場合に、対話装置に各対象外音声発生源機器の稼働状況を把握させて、各対象外音声発生源機器の稼働情報を生成させることができる。対象外音声発生源機器が通信機能を有していない場合であっても、音声の誤認識またはそれに伴う誤作動を回避するという目的を達成することができる。 According to the above configuration, when the interactive device has a control function for remotely controlling the non-target audio source device, the interactive device grasps the operating status of each non-target audio source device, It is possible to generate operation information of a non-target audio source device. Even when the non-target sound source device does not have a communication function, the object of erroneous recognition of sound or the accompanying malfunction can be achieved.
本発明の態様10に係る対話装置(2)は、ユーザが発した音声を認識して、該音声に対し返答音声を出力する対話装置であって、ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断手段(条件判断部56)と、上記条件判断手段によって上記音声誤認識条件が成立すると判断された場合に、上記返答音声の出力を抑制する対話制御手段(対話モード制御部58)とを備え、上記条件判断手段は、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断する。 The dialogue apparatus (2) according to the tenth aspect of the present invention is a dialogue apparatus that recognizes a voice uttered by a user and outputs a response voice in response to the voice. Condition determination means (condition determination unit 56) for determining that a voice error recognition condition of the dialog device is satisfied when a non-recognition voice that is not a target voice can be erroneously detected as a recognition target voice by the dialog device; A dialogue control means (interaction mode control unit 58) that suppresses output of the reply voice when the condition judgment means judges that the voice error recognition condition is satisfied, and the condition judgment means excludes the recognition target The success or failure of the speech error recognition condition is determined based on operation information indicating the operation status of the non-target sound generation source device that directly or indirectly generates sound.
上記の構成によれば、対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、条件判断部は、対話装置の音声誤認識条件の成否を判断する。条件判断手段によって音声誤認識条件が成立すると判断されると、対話制御手段は、自装置の上記返答音声の出力を抑制する。 According to said structure, a condition judgment part judges the success or failure of the audio | voice misrecognition conditions of a dialogue apparatus based on the operation information which shows the operation condition of a non-target audio | voice generation source apparatus. If it is determined by the condition determining means that the voice recognition condition is satisfied, the dialogue control means suppresses the output of the reply voice of the own device.
これにより、対象外音声発生源機器の稼働状況に応じて、誤認識が起こりやすい状況、すなわち、認識対象外音声が対話装置の周囲で発生し得る状況では、当該対話装置は、認識対象外音声が発生しても、それに対して返答音声を出力することがなくなる。結果として、認識対象外音声が発生しても、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。 As a result, in situations where misrecognition is likely to occur depending on the operating status of the non-target audio source device, that is, in situations where non-recognition target audio may occur around the dialog device, the dialog device No response voice will be output. As a result, even if a speech that is not a recognition target is generated, there is an effect that it is possible to avoid erroneous speech recognition or malfunction associated therewith.
本発明の態様11に係る対話装置では、上記態様10において、上記対話制御手段は、自装置に入力された音声を認識する音声認識手段(音声認識部59)および上記返答音声の出力を実行する音声出力制御手段(音声出力制御部60)の少なくともいずれか一方の機能を無効にすることにより、上記返答音声の出力を抑制してもよい。
In the dialog device according to aspect 11 of the present invention, in the
上記の構成によれば、対話制御手段は、認識対象外音声を認識対象音声として誤って検知し得る状況では、音声認識手段および音声出力制御手段の少なくともいずれか一方の機能を無効にする。 According to the above configuration, the dialog control unit disables at least one of the functions of the voice recognition unit and the voice output control unit in a situation where the non-recognition target voice can be erroneously detected as the recognition target voice.
これにより、音声認識手段の機能が無効になれば、上記音声認識手段は、認識対象外音声が発生しても、これを音声認識の処理にかけることがない。したがって、上記認識対象外音声に対して誤って返答音声が出力されることが抑制される。また、音声出力制御手段の機能が無効になれば、認識対象外音声が発生して誤って認識対象音声として音声認識の処理にかけられたとしても、これに応答するための返答音声は出力されない。結果として、認識対象外音声が発生しても、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。 As a result, if the function of the voice recognition unit is disabled, the voice recognition unit does not subject the voice recognition process to the voice recognition process even if a voice that is not a recognition target is generated. Therefore, it is possible to suppress a response voice from being erroneously output with respect to the non-recognition target voice. Further, if the function of the voice output control means is disabled, even if an unrecognized voice is generated and erroneously subjected to voice recognition processing as a recognition target voice, a reply voice for responding thereto is not output. As a result, even if a speech that is not a recognition target is generated, there is an effect that it is possible to avoid erroneous speech recognition or malfunction associated therewith.
本発明の態様12に係る対話装置では、上記態様10または11において、上記対話制御手段は、さらに、ユーザが発した音声の入力がなくとも、所定のイベントの発生に応じて、該イベントに対応する発言を内容とする音声を自発音声として自発的に出力するものであり、上記返答音声の出力を抑制している間に上記自発音声を出力した後、当該抑制を一定期間解除することが好ましい。
In the dialog device according to aspect 12 of the present invention, in the
ユーザは、対話装置が自発的に発言した場合には、当該発言を受けて対話装置に対して何らかの応答を返す可能性が高い。しかし、返答音声の出力抑制中に上記ユーザの応答に対して対話装置が反応を示さないのは、対話として不自然である。 When the dialog device speaks spontaneously, the user is likely to receive some response and return some response to the dialog device. However, it is unnatural as a dialogue that the dialogue device does not respond to the user's response while the output of the reply voice is suppressed.
しかし、上記の構成によれば、対話装置が自発音声を出力した後の一定期間は、返答音声の出力抑制が解除される。この期間、対話装置は、一時的にユーザの発話に対して返答音声を出力することができる。結果として、上記の不自然さを解消することが可能である。 However, according to the above configuration, the output suppression of the response voice is released for a certain period after the dialogue apparatus outputs the spontaneous voice. During this period, the dialogue apparatus can temporarily output a response voice in response to the user's utterance. As a result, it is possible to eliminate the unnaturalness described above.
本発明の態様13に係る発話制御方法は、ユーザが発した音声を認識して、該音声に対し返答音声を出力する対話装置を制御する発話制御方法であって、ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断ステップ(S114)と、上記条件判断ステップにて上記音声誤認識条件が成立すると判断された場合に、上記対話装置によって上記返答音声が出力されないように制御する発話制御ステップ(S115)とを含み、上記条件判断ステップでは、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断する。 An utterance control method according to an aspect 13 of the present invention is an utterance control method for recognizing a voice uttered by a user and controlling a dialog device that outputs a response voice to the voice. A condition determination step (S114) for determining that the voice recognition condition of the interactive device is satisfied when the non-recognition speech that is not the recognition target speech generated in the above can be erroneously detected as the recognition target speech by the interactive device; An utterance control step (S115) for controlling the interactive device not to output the response voice when it is determined in the condition determining step that the voice error recognition condition is satisfied, and in the condition determining step, Based on the operation information indicating the operation status of the non-target audio generating device that directly or indirectly generates the non-recognized audio, the speech misrecognition condition To determine the success or failure of.
上記の方法によれば、条件判断ステップにて、対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、対話装置の音声誤認識条件の成否が判断される。条件判断ステップにて音声誤認識条件が成立すると判断されると、次に、発話制御ステップにて、対話装置によって上記返答音声が出力されないように制御が行われる。 According to the above method, in the condition determination step, whether or not the voice error recognition condition of the interactive device is satisfied is determined based on the operation information indicating the operation status of the non-target audio generation source device. If it is determined in the condition determination step that the erroneous voice recognition condition is satisfied, then in the utterance control step, control is performed so that the response voice is not output by the dialogue apparatus.
これにより、対象外音声発生源機器の稼働状況に応じて、誤認識が起こりやすい状況、すなわち、認識対象外音声が対話装置の周囲で発生し得る状況では、当該対話装置は、認識対象外音声が発生しても、それに対して返答音声を出力することがなくなる。結果として、音声の誤認識またはそれに伴う誤作動を回避することができるという効果を奏する。 As a result, in situations where misrecognition is likely to occur depending on the operating status of the non-target audio source device, that is, in situations where non-recognition target audio may occur around the dialog device, the dialog device No response voice will be output. As a result, there is an effect that it is possible to avoid erroneous recognition of voice or the accompanying malfunction.
本発明の各態様に係る発話制御装置、対話装置、および、対話システムに含まれる各装置は、コンピュータによって実現してもよい。この場合には、コンピュータを上記発話制御装置(または上記対話装置)が備える各手段として動作させることにより上記発話制御装置(または上記対話装置)をコンピュータにて実現させる発話制御装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 Each device included in the speech control device, the interactive device, and the interactive system according to each aspect of the present invention may be realized by a computer. In this case, a control program for the utterance control apparatus that causes the utterance control apparatus (or the interactive apparatus) to be realized by the computer by operating the computer as each unit included in the utterance control apparatus (or the interactive apparatus), and A computer-readable recording medium on which it is recorded also falls within the scope of the present invention.
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention. Furthermore, a new technical feature can be formed by combining the technical means disclosed in each embodiment.
本発明は、ユーザが発した音声を認識して、該音声に対し返答音声を出力する対話装置
、およびその制御に利用することができる。
INDUSTRIAL APPLICABILITY The present invention can be used for an interactive apparatus that recognizes a voice uttered by a user and outputs a response voice in response to the voice and controls the voice.
1 発話制御サーバ(発話制御装置)
2 対話装置
3 TV(対象外音声発生源機器/音声出力機器)
3a 電話機(対象外音声発生源機器/通話機器)
4 情報収集サーバ(情報収集装置)
22 音声入力部
23 音声出力部
24 赤外線送信部
32 操作部
33 赤外線受信部
50 操作情報送信部(操作情報送信手段)
51 操作情報受信部(操作情報受信手段)
52 稼働情報生成部(稼働情報設定手段)
53 稼働情報送信部(稼働情報送信手段)
54 稼働情報受信部(稼働情報受信手段)
55 制御対象特定部(制御対象特定手段)
56 条件判断部(条件判断手段)
57 発話制御部(発話制御手段)
58 対話モード制御部(対話制御手段)
59 音声認識部(音声認識手段)
60 音声出力制御部(音声出力制御手段)
61 機器操作部(機器操作手段)
62 音判定部(音判定手段)
401、402、403、404 対話システム
1 Speech control server (speech control device)
2
3a Telephone (non-target audio source / calling equipment)
4 Information collection server (information collection device)
22
51 Operation information receiving unit (operation information receiving means)
52 Operation information generation unit (operation information setting means)
53 Operation information transmission unit (operation information transmission means)
54 Operation information receiving unit (operation information receiving means)
55 Control object specifying part (control object specifying means)
56 Condition Judgment Unit (Condition Judgment Unit)
57 Speech control unit (speech control means)
58 Dialog mode control unit (dialog control means)
59 Voice recognition unit (voice recognition means)
60 Audio output control unit (audio output control means)
61 Device operation unit (device operation means)
62 Sound determination unit (sound determination means)
401, 402, 403, 404 Dialogue system
Claims (15)
ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断手段と、
上記条件判断手段によって上記音声誤認識条件が成立すると判断された場合に、上記対話装置によって上記返答音声が出力されないように制御する発話制御手段とを含み、
上記条件判断手段は、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断することを特徴とする対話システム。 A dialogue system for controlling a dialogue device that outputs a response voice in response to a voice uttered by a user,
A condition for determining that a speech misrecognition condition of the interactive device is satisfied when a non-recognition speech that is not a recognition target speech uttered by the user to the interactive device can be erroneously detected as a recognition target speech by the interactive device Judgment means,
Utterance control means for controlling so that the reply voice is not output by the dialogue device when the condition judgment means judges that the voice error recognition condition is satisfied,
The condition judging means judges success or failure of the speech misrecognition condition based on operating information indicating an operating status of a non-target speech generating source device that directly or indirectly generates the non-recognized speech. Interactive system.
上記対話システムは、上記音声出力機器が上記音声出力機能を実行している間、当該音声出力機器の稼働情報を、上記音声出力機能を実行中であることを示すように設定する稼働情報設定手段を含み、
上記条件判断手段は、上記稼働情報設定手段によって設定された、上記音声出力機器の稼働情報が、上記音声出力機能を実行中であることを示す場合に、上記対話装置の音声誤認識条件が成立すると判断することを特徴とする請求項1に記載の対話システム。 The non-target sound generation source device is a sound output device having at least a sound output function for outputting non-recognition target sound,
The dialogue system sets operation information of the audio output device so as to indicate that the audio output function is being executed while the audio output device is executing the audio output function. Including
The condition judging means satisfies the voice recognition condition for the interactive device when the voice output device operating information set by the voice information setting means indicates that the voice output function is being executed. The dialogue system according to claim 1, wherein the dialogue system is determined to be.
上記対話システムは、上記通話機器が着信を知らせる呼出音を出力してから、ユーザが発する音声が一定時間以上途切れるまでの間、当該通話機器の稼働情報を、通話中であることを示すように設定する稼働情報設定手段を含み、
上記条件判断手段は、上記稼働情報設定手段によって設定された、上記通話機器の稼働情報が、通話中であることを示す場合に、上記対話装置の音声誤認識条件が成立すると判断することを特徴とする請求項1に記載の対話システム。 The non-target audio source device is a call device for a user to call a remote call partner,
The interactive system displays the operation information of the call device to indicate that the call device is busy during a period from when the call device outputs a ringing tone notifying an incoming call until the voice uttered by the user is interrupted for a predetermined time or more. Including operation information setting means to set,
The condition determining means determines that the voice recognition condition of the interactive device is satisfied when the operating information of the calling device set by the operating information setting means indicates that a call is in progress. The interactive system according to claim 1.
上記対話システムは、上記家電機器が稼働している間、当該家電機器の稼働情報を、稼働中であることを示すように設定する稼働情報設定手段を含み、
上記条件判断手段は、上記稼働情報設定手段によって設定された、上記家電機器の稼働情報が、稼働中であることを示す場合に、上記対話装置の音声誤認識条件が成立すると判断することを特徴とする請求項1に記載の対話システム。 The non-target audio generation source device is a household electrical appliance having at least a sound output function for outputting non-recognition target sound at a predetermined timing while the device is operating,
The interactive system includes operation information setting means for setting operation information of the home appliance to indicate that the home appliance is in operation while the home appliance is operating,
The condition determining means determines that a voice error recognition condition of the interactive device is satisfied when the operation information of the household electrical appliance set by the operation information setting means indicates that it is operating. The interactive system according to claim 1.
上記対話制御手段は、上記発話制御手段の上記自発音声を出力する指示にしたがって該自発音声を出力した後、上記返答音声の出力の抑制を一定期間解除することを特徴とする請求項5に記載の対話システム。 Further, the speech control means may spontaneously output a speech having a speech corresponding to the event as a spontaneous speech in response to the occurrence of a predetermined event, even if the speech uttered by the user is not input. Instructing the dialogue device,
6. The dialog control unit according to claim 5, wherein after the speech control unit outputs the spontaneous speech in accordance with an instruction to output the spontaneous speech, the suppression of the output of the response speech is canceled for a certain period. Interactive system.
ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断手段と、
上記条件判断手段によって上記音声誤認識条件が成立すると判断された場合に、上記対話装置によって上記返答音声が出力されないように制御する発話制御手段とを備え、
上記条件判断手段は、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断することを特徴とする発話制御装置。 An utterance control device that controls an interactive device that outputs a response voice to a voice uttered by a user,
A condition for determining that a speech misrecognition condition of the interactive device is satisfied when a non-recognition speech that is not a recognition target speech uttered by the user to the interactive device can be erroneously detected as a recognition target speech by the interactive device Judgment means,
Utterance control means for controlling the interactive voice so that the reply voice is not output by the dialogue device when the voice judgment condition is judged to be satisfied by the condition judgment means,
The condition judging means judges success or failure of the speech misrecognition condition based on operating information indicating an operating status of a non-target speech generating source device that directly or indirectly generates the non-recognized speech. An utterance control device.
ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断手段と、
上記条件判断手段によって上記音声誤認識条件が成立すると判断された場合に、上記返答音声の出力を抑制する対話制御手段とを備え、
上記条件判断手段は、上記認識対象外音声を直接または間接的に発生させる対象外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断することを特徴とする対話装置。 An interactive device that outputs a response voice in response to a voice uttered by a user,
A condition for determining that a speech misrecognition condition of the interactive device is satisfied when a non-recognition speech that is not a recognition target speech uttered by the user to the interactive device can be erroneously detected as a recognition target speech by the interactive device Judgment means,
Dialogue control means for suppressing the output of the answer voice when the condition judgment means judges that the voice error recognition condition is satisfied,
The condition judging means judges success or failure of the speech misrecognition condition based on operating information indicating an operating status of a non-target speech generating source device that directly or indirectly generates the non-recognized speech. Interactive device.
上記返答音声の出力を抑制している間に上記自発音声を出力した後、当該抑制を一定期間解除することを特徴とする請求項10または11に記載の対話装置。 Further, the dialogue control means spontaneously outputs a voice having a speech corresponding to the event as a spontaneous voice in response to the occurrence of a predetermined event without the input of the voice uttered by the user. Yes,
The interactive apparatus according to claim 10 or 11, wherein after the spontaneous voice is output while the output of the reply voice is suppressed, the suppression is released for a certain period.
ユーザが上記対話装置に対して発した認識対象音声ではない認識対象外音声が、上記対話装置によって認識対象音声として誤検知され得る場合に、上記対話装置の音声誤認識条件が成立すると判断する条件判断ステップと、
上記条件判断ステップにて上記音声誤認識条件が成立すると判断された場合に、上記対話装置によって上記返答音声が出力されないように制御する発話制御ステップとを含み、
上記条件判断ステップでは、上記認識対象外音声を直接または間接的に発生させる対象
外音声発生源機器の稼働状況を示す稼働情報に基づいて、上記音声誤認識条件の成否を判断することを特徴とする発話制御方法。 An utterance control method for controlling an interactive device that outputs a response voice in response to a voice uttered by a user,
A condition for determining that a speech misrecognition condition of the interactive device is satisfied when a non-recognition speech that is not a recognition target speech uttered by the user to the interactive device can be erroneously detected as a recognition target speech by the interactive device A decision step;
An utterance control step for controlling so that the answering voice is not output by the dialogue device when it is determined in the condition determining step that the voice error recognition condition is satisfied,
In the condition determining step, the success or failure of the speech misrecognition condition is determined based on operation information indicating an operation status of an untargeted sound generation source device that directly or indirectly generates the unrecognized sound. Utterance control method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014019742A JP2015148648A (en) | 2014-02-04 | 2014-02-04 | Dialogue system, speech controller, dialog unit, speech control method, control program of speech controller and control program of dialog unit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014019742A JP2015148648A (en) | 2014-02-04 | 2014-02-04 | Dialogue system, speech controller, dialog unit, speech control method, control program of speech controller and control program of dialog unit |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015148648A true JP2015148648A (en) | 2015-08-20 |
Family
ID=53892055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014019742A Pending JP2015148648A (en) | 2014-02-04 | 2014-02-04 | Dialogue system, speech controller, dialog unit, speech control method, control program of speech controller and control program of dialog unit |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015148648A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2015174272A1 (en) * | 2014-05-15 | 2017-04-20 | シャープ株式会社 | Network system, server, communication device, information processing method, and program |
JP2018537714A (en) * | 2015-12-01 | 2018-12-20 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Generate notifications by electronic devices based on contextual data in response to voice phrases from users |
WO2019069596A1 (en) * | 2017-10-03 | 2019-04-11 | 東芝ライフスタイル株式会社 | Household appliance system |
WO2019069597A1 (en) * | 2017-10-03 | 2019-04-11 | 東芝ライフスタイル株式会社 | Home electric system |
WO2020059879A1 (en) * | 2018-09-21 | 2020-03-26 | シャープ株式会社 | Speech-generation device, server, control system, control method, and program |
JP2021018543A (en) * | 2019-07-18 | 2021-02-15 | 東芝ライフスタイル株式会社 | Household electrical appliance and information processing system |
CN113168834A (en) * | 2018-12-18 | 2021-07-23 | 日产自动车株式会社 | Voice recognition device, control method for voice recognition device, content playback device, and content transmission/reception system |
JP2023051952A (en) * | 2018-10-02 | 2023-04-11 | シャープ株式会社 | Voice operation system and voice operation method |
-
2014
- 2014-02-04 JP JP2014019742A patent/JP2015148648A/en active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2015174272A1 (en) * | 2014-05-15 | 2017-04-20 | シャープ株式会社 | Network system, server, communication device, information processing method, and program |
JP2018537714A (en) * | 2015-12-01 | 2018-12-20 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Generate notifications by electronic devices based on contextual data in response to voice phrases from users |
CN111183416A (en) * | 2017-10-03 | 2020-05-19 | 东芝生活电器株式会社 | Household appliance system |
JP7036561B2 (en) | 2017-10-03 | 2022-03-15 | 東芝ライフスタイル株式会社 | Home appliance system |
JP2019068320A (en) * | 2017-10-03 | 2019-04-25 | 東芝ライフスタイル株式会社 | Consumer-electronics system |
JP2019068321A (en) * | 2017-10-03 | 2019-04-25 | 東芝ライフスタイル株式会社 | Consumer-electronics system |
WO2019069597A1 (en) * | 2017-10-03 | 2019-04-11 | 東芝ライフスタイル株式会社 | Home electric system |
CN111183416B (en) * | 2017-10-03 | 2024-03-01 | 东芝生活电器株式会社 | Household electrical appliance system |
CN111183478B (en) * | 2017-10-03 | 2023-09-08 | 东芝生活电器株式会社 | Household electrical appliance system |
CN111183478A (en) * | 2017-10-03 | 2020-05-19 | 东芝生活电器株式会社 | Household appliance system |
WO2019069596A1 (en) * | 2017-10-03 | 2019-04-11 | 東芝ライフスタイル株式会社 | Household appliance system |
WO2020059879A1 (en) * | 2018-09-21 | 2020-03-26 | シャープ株式会社 | Speech-generation device, server, control system, control method, and program |
CN112740170A (en) * | 2018-09-21 | 2021-04-30 | 夏普株式会社 | Speech device, server, control system, control method, and program |
JP2020052445A (en) * | 2018-09-21 | 2020-04-02 | シャープ株式会社 | Utterance apparatus, server, control system, control method and program |
JP2023051952A (en) * | 2018-10-02 | 2023-04-11 | シャープ株式会社 | Voice operation system and voice operation method |
JP7471379B2 (en) | 2018-10-02 | 2024-04-19 | シャープ株式会社 | Voice operation system and voice operation method |
CN113168834A (en) * | 2018-12-18 | 2021-07-23 | 日产自动车株式会社 | Voice recognition device, control method for voice recognition device, content playback device, and content transmission/reception system |
US11922953B2 (en) | 2018-12-18 | 2024-03-05 | Nissan Motor Co., Ltd. | Voice recognition device, control method of voice recognition device, content reproducing device, and content transmission/reception system |
JP2021018543A (en) * | 2019-07-18 | 2021-02-15 | 東芝ライフスタイル株式会社 | Household electrical appliance and information processing system |
JP7269812B2 (en) | 2019-07-18 | 2023-05-09 | 東芝ライフスタイル株式会社 | Home appliances |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015148648A (en) | Dialogue system, speech controller, dialog unit, speech control method, control program of speech controller and control program of dialog unit | |
US7403598B2 (en) | Remote control of a speaker phone device as a standalone device or as part of a security system | |
US20170013184A1 (en) | Monitoring camera system | |
JP7179834B2 (en) | VOICE RECOGNITION DEVICE, VOICE RECOGNITION DEVICE COOPERATION SYSTEM, AND VOICE RECOGNITION DEVICE COOPERATION METHOD | |
CN103139394B (en) | A kind of incoming call sound based on mobile phone or hang up processing method and system | |
CN108024128B (en) | Control method and device for Bluetooth music playing, terminal equipment and storage medium | |
CN105794186A (en) | Method, device and electronic device for controlling application program | |
JP2012100185A (en) | Video conference system, video conference method, program and recording medium | |
EP3301893B1 (en) | Information prompting method and device | |
JPH11220529A (en) | Cordless telephone system | |
CN105791532A (en) | Incoming call reminding method and terminal | |
CN106230714A (en) | A kind of method and device responding communication request | |
WO2019052056A1 (en) | Control method, device and system for wireless charging of mobile terminal | |
US9692870B2 (en) | Monitoring camera system | |
KR101638275B1 (en) | Communication processing method, device, program, and recording medium | |
WO2014172894A1 (en) | Split-type mobile terminal and interaction processing method for communications event | |
US20090245491A1 (en) | Digital information device and method for processing calls | |
JP2012147042A (en) | Communication apparatus, communication system, and intercom system for multiple dwelling house | |
JP2022120184A (en) | Fire warning facility | |
KR101339314B1 (en) | Emergency call apparatus of elevator | |
JP2012159900A (en) | Monitoring device, control program, and control method | |
CN113573195A (en) | Mode control method and device for Bluetooth headset and computer readable storage medium | |
JP5129629B2 (en) | Intercom device | |
JP2006262185A (en) | Interphone system for multiple dwelling house | |
KR101603280B1 (en) | Method, terminal and computer-readable recording medium for managing emergency situation |