JP2021173880A - Information processing unit, program and information processing method - Google Patents
Information processing unit, program and information processing method Download PDFInfo
- Publication number
- JP2021173880A JP2021173880A JP2020078049A JP2020078049A JP2021173880A JP 2021173880 A JP2021173880 A JP 2021173880A JP 2020078049 A JP2020078049 A JP 2020078049A JP 2020078049 A JP2020078049 A JP 2020078049A JP 2021173880 A JP2021173880 A JP 2021173880A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- recognition
- unit
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 37
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000004891 communication Methods 0.000 claims abstract description 132
- 230000004044 response Effects 0.000 claims abstract description 112
- 230000005540 biological transmission Effects 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 abstract 2
- 230000006870 function Effects 0.000 description 14
- 238000000034 method Methods 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Computer And Data Communications (AREA)
Abstract
Description
本発明は、情報処理装置、プログラム、および情報処理方法に関する。 The present invention relates to an information processing device, a program, and an information processing method.
従来、ユーザの音声を取得し、取得した音声に応答して様々な操作をする装置、いわゆるスマートスピーカーの技術が知られている。 Conventionally, there is known a technique of a so-called smart speaker, which is a device that acquires a user's voice and performs various operations in response to the acquired voice.
下記特許文献1に開示されているスマートスピーカーでは、ユーザの音声を示す音声情報を入力して、ネットワークを介して接続される音声出力装置にこの音声情報を送信する。音声出力装置は受信した音声情報に基づいて音声を認識し、認識結果に基づいてユーザの音声に対して発話するための発話データを生成する。音声出力装置がこの発話データをスマートスピーカーに送信して、スマートスピーカーは発話データに基づいて音声を出力する。
In the smart speaker disclosed in
特許文献1のスマートスピーカーでは、音声出力装置の通信が不可能となった場合、ユーザの音声に応答できなくなるという問題がある。
The smart speaker of
そこで、本発明は、音声を認識する装置との通信が不可能となった場合でもユーザの音声に応答することができる情報処理装置、プログラム、および情報処理方法を提供することを目的とする。 Therefore, an object of the present invention is to provide an information processing device, a program, and an information processing method capable of responding to a user's voice even when communication with a device that recognizes voice becomes impossible.
本発明の一態様に係る情報処理装置は、音声を認識する音声認識システムとネットワークを介して接続する情報処理装置であって、ユーザの音声を取得する音声取得部と、音声認識システムとの通信が可能か否か判定する判定部と、音声認識システムとの通信が可能な場合、取得された音声の音声データを音声認識システムに送信する送信部と、音声認識システムから、音声データの認識結果を示す第1認識情報を受信する受信部と、音声認識システムとの通信が不可能な場合、取得された音声を認識し、認識結果を示す第2認識情報を生成する音声認識部と、第1認識情報または第2認識情報に基づき、音声に対して応答するための第1応答情報を生成する応答生成部と、第1応答情報に基づき、音声に対する応答を出力する出力部と、を備える。 The information processing device according to one aspect of the present invention is an information processing device that connects to a voice recognition system that recognizes voice via a network, and is a communication between a voice acquisition unit that acquires a user's voice and the voice recognition system. When communication with the voice recognition system is possible, the voice data recognition result from the transmission unit that transmits the voice data of the acquired voice to the voice recognition system and the voice recognition system. When communication between the receiving unit that receives the first recognition information indicating the above and the voice recognition system is impossible, the voice recognition unit that recognizes the acquired voice and generates the second recognition information indicating the recognition result, and the first It includes a response generation unit that generates first response information for responding to voice based on one recognition information or second recognition information, and an output unit that outputs a response to voice based on the first response information. ..
本発明の一態様に係るプログラムは、音声を認識する音声認識システムとネットワークを介して接続する情報処理装置に、ユーザの音声を取得する音声取得機能と、音声認識システムとの通信が可能か否か判定する判定機能と、音声認識システムとの通信が可能な場合、取得された音声の音声データを音声認識システムに送信する送信機能と、音声認識システムから、音声データの認識結果を示す第1認識情報を受信する受信機能と、音声認識システムとの通信が不可能な場合、取得された音声を認識し、認識結果を示す第2認識情報を生成する音声認識機能と、第1認識情報または第2認識情報に基づき、音声に対して応答するための第1応答情報を生成する応答生成機能と、第1応答情報に基づき、音声に対する応答を出力する出力機能と、を実現させる。 The program according to one aspect of the present invention has a voice acquisition function for acquiring a user's voice and communication with the voice recognition system in an information processing device connected to a voice recognition system for recognizing voice via a network. The first, which indicates the recognition result of the voice data from the voice recognition system, and the transmission function of transmitting the voice data of the acquired voice to the voice recognition system when communication with the voice recognition system is possible. When communication with the voice recognition system is not possible with the reception function that receives the recognition information, the voice recognition function that recognizes the acquired voice and generates the second recognition information indicating the recognition result, and the first recognition information or A response generation function that generates a first response information for responding to a voice based on the second recognition information, and an output function that outputs a response to the voice based on the first response information are realized.
本発明の一態様に係る情報処理方法は、音声を認識する音声認識システムとネットワークを介して接続する情報処理装置が、ユーザの音声を取得し、音声認識システムとの通信が可能か否か判定し、音声認識システムとの通信が可能な場合、取得された音声の音声データを音声認識システムに送信し、音声認識システムから、音声データの認識結果を示す第1認識情報を受信し、音声認識システムとの通信が不可能な場合、取得された音声を認識し、認識結果を示す第2認識情報を生成し、第1認識情報または第2認識情報に基づき、音声に対して応答するための第1応答情報を生成し、第1応答情報に基づき、音声に対する応答を出力する。 In the information processing method according to one aspect of the present invention, the information processing device connected to the voice recognition system that recognizes voice via a network acquires the user's voice and determines whether or not communication with the voice recognition system is possible. Then, when communication with the voice recognition system is possible, the voice data of the acquired voice is transmitted to the voice recognition system, and the first recognition information indicating the recognition result of the voice data is received from the voice recognition system to perform voice recognition. When communication with the system is impossible, it recognizes the acquired voice, generates the second recognition information indicating the recognition result, and responds to the voice based on the first recognition information or the second recognition information. The first response information is generated, and the response to the voice is output based on the first response information.
上記の態様によれば、情報処理装置と音声認識システムとの通信が不可能な場合でも、情報処理装置内の音声認識部によりユーザの音声を認識することができる。このため情報処理装置は、音声認識システムとの通信が不可能な場合でもユーザの音声に応答することができる。 According to the above aspect, even when communication between the information processing device and the voice recognition system is impossible, the voice recognition unit in the information processing device can recognize the user's voice. Therefore, the information processing device can respond to the user's voice even when communication with the voice recognition system is impossible.
本発明によれば、音声を認識する装置との通信が不可能となった場合でもユーザの音声に応答することができる情報処理装置、プログラム、および情報処理方法を提供することができる。 According to the present invention, it is possible to provide an information processing device, a program, and an information processing method capable of responding to a user's voice even when communication with a device that recognizes voice becomes impossible.
添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一または同様の構成を有する。 Preferred embodiments of the present invention will be described with reference to the accompanying drawings. In each figure, those having the same reference numerals have the same or similar configurations.
本実施形態において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や「手段」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や「手段」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されてもよい。 In the present embodiment, the "part", "means", "device", and "system" do not simply mean physical means, but the "part", "means", "device", and "system". Including the case where the function of is realized by software. Further, even if the functions of one "part", "means", "device", or "system" are realized by two or more physical means or devices, two or more "parts" or "means", The functions of "device" and "system" may be realized by one physical means or device.
[第1実施形態]
本発明の第1実施形態(以下、「本実施形態」という)について説明する。本実施形態では、本実施形態に係る対話システム1が(1)ユーザと対話する、(2)ユーザの音声を議事録に記録する、(3)ユーザの音声指示により家電などの装置の動作を制御する、例を用いて説明するが、これに限る趣旨ではない。
[First Embodiment]
The first embodiment of the present invention (hereinafter, referred to as “the present embodiment”) will be described. In the present embodiment, the
<1.システム構成>
図1を参照して、対話システム1のシステム構成例を説明する。対話システム1は、ユーザの音声に応じて動作するシステムである。対話システム1は、上記(1)〜(3)の機能をユーザに提供する。
<1. System configuration>
A system configuration example of the
図1に示すように、対話システム1は、対話装置100と、サーバ装置200と、を含む。また対話システム1は、第1ネットワークN1を介して音声認識システム300と接続さている。また対話システム1の対話装置100は、第2ネットワークN2を介してローカル装置400aと接続されている。また対話システム1は、第1ネットワークN1を介してリモート装置400bと接続されている。
As shown in FIG. 1, the
第1ネットワークN1は、広域通信網のネットワークであり、例えば、インターネット、移動体通信網、電話回線などを含む。また、第1ネットワークN1は、例えば、3G(第3世代移動通信システム)回線、4G(第4世代移動通信システム)回線、5G(第5世代移動通信システム)回線、またはLTE(登録商標)(Long Term Evolution)回線などを用いた無線通信方式を用いてもよい。 The first network N1 is a network of a wide area communication network, and includes, for example, the Internet, a mobile communication network, a telephone line, and the like. The first network N1 is, for example, a 3G (3rd generation mobile communication system) line, a 4G (4th generation mobile communication system) line, a 5G (5th generation mobile communication system) line, or LTE (registered trademark) (registered trademark). A wireless communication method using a Long Term Evolution) line or the like may be used.
第2ネットワークN2は、所定の施設や室内に対して独自に構築された通信網であり、LAN(Local Area Network)である。言い換えれば、対話装置100とローカル装置400aとは、同一のLAN内に設置されている。第2ネットワークN2は、有線および/または無線により、対話装置100とローカル装置400aとが互いに通信できるものであれば、任意の通信方式を用いることができる。また第2ネットワークN2は、複数の通信方式を用いるものであってもよい。第2ネットワークN2は、例えば、Wi−Fi(登録商標)規格に準拠した無線LANを含み、ルータが中継することで、これらの相互接続を実現させてもよい。
The second network N2 is a communication network independently constructed for a predetermined facility or room, and is a LAN (Local Area Network). In other words, the
第2ネットワークN2は、例えば、ローカル装置400aと直接接続するためのネットワークであってもよい。第2ネットワークN2は、例えば、Bluetooth(登録商標)や赤外線通信等の10m程度の近距離無線通信を実現するネットワークを含んでもよい。
The second network N2 may be, for example, a network for directly connecting to the
対話装置100は、サーバ装置200や音声認識システム300、または装置400との通信が可能な情報処理装置である。対話装置100は、ユーザの音声を取得して、取得した音声に対話などで応答する、いわゆるスマートスピーカーである。対話装置100は、例えば、汎用のタブレット端末やスマートフォンなどであってもよい。対話装置100は、例えば、汎用のタブレット端末に専用のプログラムをインストールし、このプログラムを実行させることにより、タブレット端末を対話装置100として使用してもよい。
The
サーバ装置200は、対話装置100との通信や議事録の管理が可能な情報処理装置である。サーバ装置200は、所定のプログラムを実行することにより、対話装置100と連携して、ユーザの音声に対する応答や議事録の新規登録、変更並びに削除(以下、これらの処理をまとめて「更新」ともいう)し、またはこれらの履歴を管理するサーバ機能を実現する。
The
音声認識システム300は、対話装置100やサーバ装置200と通信の通信が可能なシステムである。音声認識システム300は、対話装置100またはサーバ装置200から受信したユーザの音声を示す音声データ(以下、単に「音声データ」ともいう)に基づいてユーザの音声を認識する。
The
ローカル装置400aおよびリモート装置400bは、ユーザの音声指示に応じて対話装置100により動作を制御される装置である。ローカル装置400aは、対話装置100と同一のLAN(第2ネットワークN2)内の装置である。リモート装置400bは、対話装置が接続するLAN(第2ネットワークN2)外の装置である。ローカル装置400aとリモート装置400bとは、特に区別の必要がない場合に総称して「装置400」という。
The
<2.システム概要>
図2〜3を参照して、対話システム1の概要を、(A)対話装置100がオンラインのとき、(B)対話装置100がオンラインからオフラインに切り替わったとき、という二つの場面に分けて説明する。
<2. System overview>
With reference to FIGS. 2 and 3, the outline of the
図2を参照して、まず上記(A)の場面について説明する。対話装置100は、オンラインの状態であり、サーバ装置200および音声認識システム300との通信が可能な状態である。
First, the scene (A) will be described with reference to FIG. The
(1)図2に示すように、対話装置100の音声取得部120は、ユーザの音声「議事録を開始」を取得する。(2)対話装置100の音声取得部120が取得した音声の音声データを音声認識システム300に送信するため、判定部111は、音声認識システム300との通信が可能か否か判定する。
(1) As shown in FIG. 2, the
判定部111の判定により音声認識システム300との通信が可能な場合、対話装置100の通信部130は音声データを音声認識システム300に送信する。(4)対話装置100の通信部130は、音声認識システム300から第1認識情報を受信する。
When communication with the
「第1認識情報」とは、音声認識システム300による音声データの認識結果を示す情報である。第1認識情報は、例えば、音声の内容(「議事録開始」)をテキストで表したものでもよい。なお第1認識情報と第2認識情報とは、いずれもユーザの音声を認識した結果を示す情報であるため、特に区別の必要がなければ以下総称して「認識情報」という。
The "first recognition information" is information indicating the recognition result of the voice data by the
(5)通信部130が受信した第1認識情報をサーバ装置200に送信するため、対話装置100の判定部111は、サーバ装置200との通信が可能か判定する。
(5) Since the first recognition information received by the
(6)判定部111の判定によりサーバ装置200との通信が可能な場合、対話装置100の通信部130は第1認識情報をサーバ装置200に送信する。(7)サーバ装置200の通信部230は、対話装置100から第1認識情報を受信する。
(6) When communication with the
(8)サーバ装置200の応答生成部213は、通信部230が受信した第1認識情報に基づき第2応答情報を生成する。ここで「第2応答情報」とは、サーバ装置200が生成する、ユーザの音声に対して応答するための情報である。第2応答情報は、例えば、対話装置100から出力する音声の内容「議事録を開始します」をテキストで表したものでもよく、またこの内容を出力するための音声のデータであってもよい。なお第1応答情報と第2応答情報とは、いずれもユーザの音声に対する応答の内容を示す情報であるため、特に区別の必要がなければ以下総称して「応答情報」という。
(8) The
(9)サーバ装置200の通信部230は、第2応答情報を対話装置100に送信する。(10)対話装置100の通信部130は、サーバ装置200から第2応答情報を受信する。
(9) The
(11)対話装置100の出力部140は、通信部130が受信した第2応答情報に基づき、音声に対する応答を出力する。出力部140は、具体的には、「議事録を開始します」とする音声を出力する。
(11) The
(12)サーバ装置200の装置制御部215は、第2応答情報に基づいて、自装置の動作を制御する。装置制御部215は、第2応答情報に基づいて、第1認識情報に示された音声の内容を議事録として記録を開始する。装置制御部215は、この音声の内容を議事録のフォーマットに合わせるよう調整して記憶部250に記憶する。
(12) The device control unit 215 of the
つぎに図3を参照して、上記(B)の場面について説明する。 Next, the scene of (B) above will be described with reference to FIG.
(1)図3に示すように、対話装置100の音声取得部120は、ユーザの音声「議事録を開始」を取得する。(2)対話装置100の音声取得部120が取得した音声の音声データを音声認識システム300に送信するため、判定部111は、音声認識システム300との通信が可能か否か判定する。
(1) As shown in FIG. 3, the
(3)判定部111の判定により音声認識システム300との通信が不可能な場合、対話装置100の音声認識部112は、取得された音声を認識し、第2認識情報を生成する。またこの際音声認識部112は、通信部130と音声認識システム300との間の音声データ送信の際のセッションに関する第1セッション情報を参照して、送信途中の音声データを引き継いでもよい。第1セッション情報の詳細は後述する。
(3) When communication with the
「第2認識情報」とは、対話装置100の音声認識部112による音声データの認識結果を示す情報である。第2認識情報は、例えば、音声の内容(「議事録開始」)をテキストで表してもよい。
The "second recognition information" is information indicating the recognition result of the voice data by the
(4)対話装置100の応答生成部113は、第2認識情報に基づいて第1応答情報を生成する。ここで「第1応答情報」とは、応答生成部113によるユーザの音声に対して応答するための情報である。第1応答情報は、例えば、対話装置100から出力する音声の内容「議事録を開始します」をテキストで表してもよく、またこの内容を出力するための音声データのファイルであってもよい。またこの際応答生成部113は、通信部130とサーバ装置200との間の認識情報送信の際のセッションに関する第2セッション情報を参照して、送信途中の認識情報を引き継いでもよい。第2セッション情報の詳細は後述する。
(4) The
(5)対話装置100の出力部140は、第1応答情報に基づいて、音声に対する応答を出力する。出力部140は、具体的には、「議事録を開始します」とする音声を出力する。
(5) The
(6)対話装置100の識別部114は、第2認識情報に基づき、ユーザの音声がローカル指示であることを識別する。対話装置100の装置制御部116は、自装置に対するローカル指示の場合、第1応答情報に基づいて、自装置の動作を制御する。装置制御部116は、第1応答情報に基づいて第2認識情報の音声の内容を議事録として記録を開始する。装置制御部116は、第2認識情報を所定の議事録フォーマットに合わせるよう調整して議事録として記憶部150に記憶する。
(6) The
「ローカル指示」とは、ユーザの音声のうち対話装置100が接続する所定のネットワーク内の装置に対する指示をいう。ここで「所定のネットワーク」とは、例えば、第2ネットワークN2である。またこの装置には、ローカル400aと、自装置(対話装置100)とが含まれる。
The “local instruction” refers to an instruction to a device in a predetermined network to which the
上記記憶された議事録は、対話装置100とサーバ装置200との通信が可能になった場合に、サーバ装置200の記憶部250に通信が不能となるまで記憶されていた議事録に加えるために送信してもよい。
When communication between the
上記構成によれば、対話装置100は、音声認識システムとの通信が不可能な場合でも、対話装置100内の音声認識部112によりユーザの音声を認識することができる。上記構成によれば、対話装置100は、さらにサーバ装置200との通信が不可能な場合でも自装置における音声認識の結果に基づいてユーザの音声に応答することができる。このため上記構成によれば、ユーザは、オフライン環境でも通常どおり対話装置100を利用することができる。
According to the above configuration, the
<3.機能構成>
図4を参照して、本実施形態に係る対話装置100の機能構成を説明する。図4に示すように、対話装置100は、通信部130と、制御部110と、音声取得部120と、出力部140と、記憶部150と、を備える。
<3. Functional configuration>
The functional configuration of the
制御部110は、判定部111と、音声認識部112と、応答生成部113と、識別部114と、を備える。また制御部110は、例えば、特定部115または装置制御部116を備えてもよい。
The
判定部111は、音声認識システム300との通信が可能か否か判定する。判定部111は、例えば、サイクリックまたはイベントドリブンでネットワーク接続の状態(オフラインまたはオンライン)を監視して、監視の結果に基づいて音声認識システム300との通信が可能か否か判定してもよい。
The
判定部111は、例えば、通信部130によって第1ネットワークN1を介してサーバ装置200に通信接続要求を送信し、この通信接続要求の応答を受信した場合に通信が可能と判定してもよい。他方判定部111は、例えば、通信部130によって第1ネットワークN1を介してサーバ装置200に通信接続要求を送信し、一定の時間、この通信接続要求の応答を受信しなかった場合に通信が不可能と判定してもよい。
For example, the
判定部111は、例えば、第1ネットワークN1の中継・転送機器(不図示)に、サーバ装置200の第1ネットワークN1への接続状況を問合せて、この問合せに対する応答によって通信が可能か不可能か判定してもよい。
For example, the
判定部111の上記判定の態様は、音声認識システム300との通信だけではなく、サーバ装置200、またはローカル装置400aやリモート装置400bとの通信に対する判定においても適用できる。
The above-mentioned determination mode of the
判定部111は、例えば、サーバ装置200との通信が可能か否か判定してもよい
The
判定部111は、例えば、ユーザの音声がリモート指示の場合、リモート装置400bとの通信が可能か判定してもよい。判定部111は、例えば、ユーザの音声がローカル指示の場合、ローカル装置400aとの通信が可能か判定してもよい。
For example, when the user's voice is a remote instruction, the
音声認識部112は、音声取得部120により取得されたユーザの音声を認識する。音声認識部112は、この認識の結果を示す第2認識情報を生成する。音声認識部112は、例えば、音声取得部120が取得した音声データを音声認識技術によりテキスト情報に変換する。この変換したテキスト情報が、第2認識情報に相当する。
The
音声認識部112は、送信部131が音声認識システム300に音声データを送信している途中で音声認識システム300との通信が不可能になった場合、第1セッション情報を参照して、未送信の音声データの音声に基づいて第2認識情報を生成してもよい。
When the
「第1セッション情報」とは、送信部131が音声認識システム300に音声データを送信する際に確立したセッションに関する情報である。第1セッション情報は、例えば、送信していた音声データの各パケットや各セグメントがどこまで送信完了したかを示してもよい。第1セッション情報は、例えば、音声データの全セグメントのうち最後に送信完了したセグメントのTCPヘッダのシーケンス番号やACK番号、または最初の未送信セグメントのTCPヘッダのシーケンス番号などを示してもよい。
The "first session information" is information about a session established when the
上記構成によれば、音声認識部112は、音声認識システム300に送信途中の音声データを引き継いで、第2認識情報を生成することができる。このため上記構成によれば、音声認識部112は、音声認識システム300との通信が遮断されても、円滑に精度よくユーザの音声を認識することができる。
According to the above configuration, the
応答生成部113は、第1認識情報または第2認識情報に基づき、第1応答情報を生成する。応答生成部113は、例えば、自然言語処理を用いて認識情報を解析してもよい。応答生成部113は、この解析により、ユーザの音声に対する応答の内容を特定する。応答生成部113は、具体的には、図2〜3に示すように、ユーザの音声の内容「議事録を開始」を形態素解析して「議事録」および「開始」という単語を抽出する。次いで応答生成部113は、抽出したこれらの単語を検索キーとして、辞書情報を検索して該当する応答の内容を特定する。この応答の内容とは、(ア)議事録として記憶部150または記憶部250への認識情報の記録を開始する処理を実行、(イ)ユーザに「議事録を開始します」とする音声を出力する処理を実行、である。
The
「辞書情報」とは、単語または複数の単語の組み合わせと、応答の内容とローカル指示かリモート指示かを示すフラグとを関連付ける情報である。辞書情報は、例えば、「議事録」および「開始」とする単語の組み合わせと、上記(ア)および(イ)の処理の実行とする応答の内容と、リモート指示を示すフラグと、を関連付ける。なおこのフラグにおいて、リモート指示についてローカルで代替可能か否かでさらに分けて設けてもよい。すなわち、フラグ情報は、「ローカル指示」、「リモート指示(ローカル代替可)」、「リモート指示(ローカル代替不可)」とする3種類のフラグ(例えば、「1」〜「3」)のいずれかを示してもよい。 "Dictionary information" is information that associates a word or a combination of a plurality of words with the content of a response and a flag indicating whether it is a local instruction or a remote instruction. The dictionary information associates, for example, a combination of words "minutes" and "start" with the content of the response to be executed in the processes (a) and (b) above, and a flag indicating a remote instruction. It should be noted that this flag may be further divided according to whether or not the remote instruction can be replaced locally. That is, the flag information is one of three types of flags (for example, "1" to "3") of "local instruction", "remote instruction (local substitution possible)", and "remote instruction (local substitution not possible)". May be indicated.
応答生成部113は、送信部131がリモート指示の送信を取り止めた場合、リモート指示の音声に対する応答としてリモート指示を取り止めた旨の第1応答情報を生成してもよい。
When the
上記構成によれば、応答生成部113は、リモート装置400bへのリモート指示を取り止めたことをユーザに応答することができる。このため上記構成によれば、応答生成部113は、リモート指示を取り止めたことをユーザに把握させることができる。
According to the above configuration, the
応答生成部113は、送信部131がサーバ装置200に第1認識情報または第2認識情報を送信している途中でサーバ装置200との通信が不可能になった場合、第2セッション情報を参照して、未送信の第1認識情報または第2認識情報に基づいて第1応答情報を生成してもよい。
The
「第2セッション情報」とは、送信部131がサーバ装置200に第1認識情報または第2認識情報を送信する際に確立したセッションに関する情報である。第2セッション情報は、例えば、送信していた認識情報の各パケットや各セグメントがどこまで送信完了したかを示してもよい。第2セッション情報は、例えば、認識情報の全セグメントのうち最後に送信完了したセグメントのTCPヘッダのシーケンス番号やACK番号、または最初の未送信セグメントのTCPヘッダのシーケンス番号を示してもよい。
The "second session information" is information about a session established when the
上記構成によれば、応答生成部113は、サーバ装置200に送信途中の認識情報を引き継いで、第1応答情報を生成することができる。このため上記構成によれば、応答生成部113は、サーバ装置200との通信が遮断されても、円滑に精度よくユーザの音声に対して応答することができる。
According to the above configuration, the
識別部114は、第1認識情報または第2認識情報に基づき、ユーザの音声のうち、情報処理装置が接続する所定のネットワーク外のリモート装置400bに対するリモート指示を識別する。
Based on the first recognition information or the second recognition information, the
識別部114は、第1認識情報または第2認識情報に基づき、ユーザの音声のうち、情報処理装置が接続する所定のネットワーク内のローカル装置400aまたは自装置に対するローカル指示を識別する。
Based on the first recognition information or the second recognition information, the
識別部114は、例えば、応答生成部113と同様に自然言語処理を用いて解析を行って単語を抽出してもよい。識別部114は、抽出した単語に基づき、応答生成部113と同様に辞書情報の検索・特定によりリモート指示かローカル指示かを識別してもよい。
The
特定部115は、リモート指示における指示の実行タイミングを特定する。特定部115は、例えば、リモート指示に含まれる時刻または実行までの期間を表す情報に基づきリモート指示の実行タイミングを特定する。この「時刻または実行までの期間を表す情報」とは、例えば、「朝7時」や「18:00」または「5分後」などを示す情報である。
The
装置制御部116は、第1応答情報に基づいて、自装置の動作を制御する。装置制御部116は、第1応答情報に基づいて、ユーザの音声指示に対する応答が議事録の開始の場合、第2認識情報の音声の内容を議事録として記憶部150に記録する。
The
通信部130は、ネットワークNを介して、サーバ装置200、音声認識システム300、装置400などとの間で各種情報・データを送受信する。通信部130は、送信部131と、受信部132と、を備える。
The
送信部131は、音声認識システム300との通信が可能な場合、音声取得部120により取得された音声の音声データを音声認識システム300に送信する。
When communication with the
送信部131は、例えば、サーバ装置200との通信が可能な場合、第1認識情報または第2認識情報をサーバ装置200に送信してもよい。
The
送信部131は、例えば、判定部111の判定によりリモート装置400bとの通信が可能な場合、リモート指示をリモート装置400bに送信してもよい。他方送信部131は、例えば、リモート装置400bとの通信が不可能な場合、リモート指示をキューイングし、その後リモート装置400bとの通信が可能となった際にキューイングされたリモート指示を読み出してリモート装置400bに送信してもよい。
The
上記構成によれば、送信部131は、一時的にリモート装置400bとの通信が不可能な場合でもその後通信が可能となった際にリモート指示をリモート装置400bに送信することができる。
According to the above configuration, even if communication with the
送信部131は、例えば、判定部111の判定によりローカル装置400aとの通信が可能な場合、ローカル指示をローカル装置400aに送信してもよい。他方送信部131は、例えば、ローカル装置400aとの通信が不可能な場合、ローカル指示をキューイングし、その後ローカル装置400aとの通信が可能となった際にキューイングされたローカル指示を読み出してローカル装置400aに送信してもよい。
The
送信部131は、例えば、特定部115により特定されたリモート指示の実行タイミングにおいてリモート装置400bとの通信が不可能な場合、リモート装置400bへのリモート指示の送信を取り止めてもよい。送信部131は、例えば、実行タイミングが「(音声の取得時点から)5分後」でかつこの取得時点から5分を超えてリモート装置400bとの通信が不可能な場合、リモート装置400bへのリモート指示の送信を取り止める。
For example, when the
上記構成によれば、送信部131は、実行の時期を逸したリモート指示をリモート装置400bに送信しないことができる。このため上記構成によれば、送信部131は、リモート装置400bへの余計・冗長な指示の送信を抑止することができる。
According to the above configuration, the
送信部131は、例えば、バッチ処理時間帯を記憶する記憶部を参照して、リモート指示の実行タイミングが特定の日時および即時ではない場合、その後リモート装置との通信が可能となった際にバッチ処理時間帯にキューイングされたリモート指示を読み出してリモート装置に一括または順次送信してもよい。この「バッチ処理時間帯」とは、相対的に負荷の高い通信処理や緊急度の低い通信処理を行うための時間帯である。バッチ処理時間帯は、例えば、オンラインリアルタイム処理が少ない夜間や休日などの時間帯が設定されてもよい。またここでいう「記憶部」は、自装置の記憶部150であってもよいし、他の装置の記憶部であってもよい。
For example, the
上記構成によれば、送信部131は、特定の日時および即時ではないリモート指示に関してはバッチ処理時間帯にリモート装置400bに送信することができる。このため上記構成によれば、送信部131は、通信が復旧した際にキューイングされたリモート指示を全量送信することなく優先度(重要度・緊急度)の高い一部の指示に限定して送信し、その後のバッチ処理時間帯に残りを回すことができる。
According to the above configuration, the
送信部131は、例えば、バッチ処理時間帯を記憶する記憶部を参照して、所定期間蓄積された音声データを、その後リモート装置との通信が可能となった際にバッチ処理時間帯にサーバ装置200に送信してもよい。
The
上記構成によれば、送信部131は、例えばオフラインで大量の議事録音声を取得したものを、サーバ200において一括で文字起こしする場合に、他の優先する処理やユーザに対する応答に影響を与えずに処理を行うことができる。
According to the above configuration, the
ここで図5を参照して、自装置に対するローカル指示・リモート装置400bに対するリモート指示と、その実行・キューイングとの関係の一例を説明する。図5に示すように、対話装置100は、自装置に対するローカル指示の実行タイミングが即時の場合、ローカル指示をキューイングすることなく即時実行してもよい。また対話装置100は、ローカル指示の実行タイミングが特定の日時に指定または何ら指定がない場合、ローカル指示をキューイングして、指定された日時または順次キューイングから読み出して実行してもよい。
Here, with reference to FIG. 5, an example of the relationship between the local instruction to the own device / remote instruction to the
対話装置100は、リモート指示の実行タイミングが即時の場合、リモート指示をキューイングすることなく即時リモート装置400bに送信してもよい。また対話装置100は、リモート指示の実行タイミングが特定の日時に指定または何ら指定がない場合、リモート指示をキューイングして、指定された日時または順次キューイングから読み出してリモート装置400bに送信してもよい。
When the execution timing of the remote instruction is immediate, the
図4に戻って説明を続ける。受信部132は、音声認識システム300から、送信部131が送信した音声データの認識結果を示す第1認識情報を受信する。
The explanation will be continued by returning to FIG. The receiving
受信部132は、例えば、サーバ装置200から、第1認識情報または第2認識情報に基づき生成された第2応答情報を受信してもよい。
The receiving
音声取得部120は、ユーザの音声を取得する。
The
出力部140は、第1応答情報または第2応答情報に基づき、音声に対する応答を出力する。出力部140の出力態様は、どのような態様でもよい。出力部140の出力態様は、例えば、音声出力、画面出力、ファイル出力またはメッセージ出力などが考えられる。
The
上記構成によれば、出力部140は、サーバ装置200や音声認識システム300との通信が不可能な場合でも、ユーザの音声に応答することができる。このため上記構成によれば、ユーザは、オフライン環境でも通常どおり対話装置100を利用することができる。また上記構成によれば、出力部140は、自装置で生成した第1応答情報だけではなく、サーバ装置200が生成した第2応答情報を利用することもできる。
According to the above configuration, the
記憶部150は、音声データ、第1認識情報、第2認識情報、第1応答情報、第2応答情報、第1セッション情報、第2セッション情報、記録された議事録を示す議事録情報または設定情報などを記憶する。ここで「設定情報」とは、対話装置100が動作するために設定されているパラメータを示す情報である。設定情報は、バッチ処理時間帯を含んでもよい。
The
記憶部150は、データベースマネジメントシステム(DBMS)を利用して上記の情報を記憶してもよいし、ファイルシステムを利用して上記の情報を記憶してもよい。DBMSを利用する場合は、上記の情報ごとにテーブルを設けて、テーブル間を関連付けてこれらの情報を管理してもよい。
The
図6を参照して、本実施形態に係るサーバ装置200の機能構成を説明する。図6に示すように、サーバ装置200は、制御部210と、通信部230と、記憶部250と、を備える。通信部230と記憶部250の機能は、対話装置100の通信部130と記憶部150と同様のため説明を割愛する。
The functional configuration of the
制御部210は、判定部211と、音声認識部212と、応答生成部213と、を備える。また制御部210は、例えば、装置制御部215を備えてもよい。各機能部の機能は、対話装置100の判定部111と、音声認識部112と、応答生成部113と、装置制御部116と同様のため説明を割愛する。
The
<4.動作例>
図7を参照して、対話装置100の動作例を説明する。なお、以下に示す図7の動作例の処理の順番は一例であって、適宜、変更されてもよい。
<4. Operation example>
An operation example of the
図7に示すように、対話装置100の音声取得部120は、ユーザの音声を取得する(S10)。次いで判定部111は、音声認識システム300との通信が可能か否か判定する(S11)。
As shown in FIG. 7, the
判定部111の判定により音声認識システム300との通信が可能な場合(S12のYes)、音声取得部120により取得された音声の音声データを音声認識システムに送信する(S13)。音声認識システム300から、この音声データの認識結果を示す第1認識情報を受信する(S14)。
When communication with the
判定部111の判定により音声認識システム300との通信が不可能な場合(S12のNo)、音声認識部112は、音声取得部120により取得された音声を認識し、この認識結果を示す第2認識情報を生成する(S15)。
When communication with the
応答生成部113は、第1認識情報または第2認識情報に基づき、第1応答情報を生成する(S16)。出力部140は、第1応答情報に基づき、ユーザの音声に対する応答を出力する(S17)。
The
<5.ハードウェア構成>
図8を参照して、上述してきた対話装置100およびサーバ装置200をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。
<5. Hardware configuration>
With reference to FIG. 8, an example of the hardware configuration in the case where the above-described
図8に示すように、コンピュータ800は、プロセッサ801と、メモリ803と、記憶装置805と、入力I/F部807と、データI/F部809と、通信I/F部811、表示装置813、音声入力装置817および音声出力装置819を含む。
As shown in FIG. 8, the
プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、対話装置100の制御部110やサーバ装置200の制御部210が備える各機能部などは、メモリ803に一時記憶されたプログラムをプロセッサ801が実行することにより実現可能である。
The
メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
The
記憶装置805は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置805は、音声データ、第1認識情報、第2認識情報、第1応答情報、第2応答情報、第1セッション情報、第2セッション情報、議事録情報または設定情報などを登録するテーブルと、このテーブルを管理するDBを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。
The
入力I/F部807は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。
The input I /
データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。
The data I /
通信I/F部811は、コンピュータ800の外部の装置と有線または無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。
The communication I /
表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。また、入力I/F部807としてタッチパネルが採用される場合には、表示装置813は、入力I/F部807と一体化して構成することが可能である。
The
音声入力装置817は、マイクなどの音声を検出するための入力装置である。音声入力装置は、例えば、音声信号を含めたアナログ振動信号を取得するマイクロフォン、アナログ振動信号を増幅するアンプ、アナログ振動信号をデジタル信号に変換するA/D変換部などを備える。音声入力装置817は、例えば、ユーザが発する音声を検出する。
The
音声出力装置819は、音声を出力するための出力装置であり、例えば、スピーカなどである。また音声出力装置819は、ヘッドフォンまたはイヤフォンに音を出力するための装置であってもよい。
The
[第2実施形態]
次に、本発明の第2実施形態(以下、「本実施形態」という)について説明する。本実施形態では、本実施形態に係る対話システム1aが(4)ユーザと遠隔にいる相手(以下、「会話相手」という)との間の音声による会話を実現する例を用いて説明するが、これに限る趣旨ではない。以下、第1実施形態と異なる点を中心に説明する。
[Second Embodiment]
Next, a second embodiment of the present invention (hereinafter, referred to as "the present embodiment") will be described. In the present embodiment, the dialogue system 1a according to the present embodiment will be described with reference to (4) an example in which a voice conversation between a user and a remote partner (hereinafter referred to as “conversation partner”) is realized. It is not limited to this. Hereinafter, the points different from those of the first embodiment will be mainly described.
<1.システム構成および概要>
本実施形態に係る対話装置100aは、第1ネットワークN1を介して相手装置と接続されている。
<1. System configuration and overview>
The dialogue device 100a according to the present embodiment is connected to the partner device via the first network N1.
図9〜10を参照して、対話システム1aの概要を説明する。 The outline of the dialogue system 1a will be described with reference to FIGS. 9 to 10.
図9〜10に示すように、先ず第1ネットワークN1において相手装置と通信可能(以下、単に「オンライン」ともいう)となっている場合、対話装置100aは相手装置に音声データをリアルタイムで送信する。すなわちユーザと会話相手とは、対話装置100aと相手装置を介してリアルタイムに通話することが可能である。このとき対話装置100aは、ユーザの発話データを記録しない。ここで「発話データ」とは、ユーザの音声の音声データから無音区間の少なくとも一部を除いたデータである。 As shown in FIGS. 9 to 10, when the first network N1 is capable of communicating with the other device (hereinafter, also simply referred to as “online”), the dialogue device 100a transmits voice data to the other device in real time. .. That is, the user and the conversation partner can talk in real time via the dialogue device 100a and the other party device. At this time, the dialogue device 100a does not record the user's utterance data. Here, the "utterance data" is data obtained by removing at least a part of the silent section from the voice data of the user's voice.
次に第1ネットワークN1においてオンラインから相手装置と通信不可能(以下、単に「オフライン」ともいう)となった場合、対話装置100は、ユーザの発話データを記録する。このとき相手装置では当然にユーザの音声は出力されない。
Next, when it becomes impossible to communicate with the other device from online in the first network N1 (hereinafter, also simply referred to as “offline”), the
次に第1ネットワークN1においてオフラインから再びオンラインとなった場合、対話装置100aは、発話データを相手装置に送信する。またこのとき対話装置100aは、ユーザの発話データを引き続き記録する。対話装置100aはユーザの発話のタイミングと相手装置の発話データの再生タイミングのずれが解消されると発話データの記録を停止する。対話装置100aは発話データの送信が完了した後に相手装置への音声データの送信を再開する。すなわちユーザと会話相手とは、対話装置100aと相手装置を介してリアルタイムに通話することが再び可能となる。 Next, when the first network N1 goes from offline to online again, the dialogue device 100a transmits the utterance data to the other device. At this time, the dialogue device 100a continues to record the user's utterance data. The dialogue device 100a stops recording the utterance data when the difference between the utterance timing of the user and the reproduction timing of the utterance data of the other device is resolved. The dialogue device 100a resumes the transmission of voice data to the other device after the transmission of the utterance data is completed. That is, the user and the conversation partner can talk again in real time via the dialogue device 100a and the other party device.
上記構成によれば、対話システム1aは、オンラインからオフラインとなった場合に、録音した音声データのうち無音区間の全部または一部を除いたデータを相手装置に送信することができる。このため上記構成によれば、音声データから無音区間を除いて相手装置に送信することにより、オフラインになったことによるユーザの発話タイミングと相手装置の再生タイミングのずれを解消することができる。したがって上記構成によれば、ユーザと会話相手との遠隔会話の途中で、相手装置との通信が不可能となった場合でも、対話システム1aは、通信が可能となった後に会話相手にユーザが発話した情報をスムーズに伝えることができる。 According to the above configuration, the dialogue system 1a can transmit the recorded voice data excluding all or a part of the silent section to the other device when going from online to offline. Therefore, according to the above configuration, by transmitting the voice data to the other party device by removing the silent section, it is possible to eliminate the difference between the user's utterance timing and the reproduction timing of the other party device due to being offline. Therefore, according to the above configuration, even if communication with the other party device becomes impossible during a remote conversation between the user and the conversation partner, the dialogue system 1a allows the user to talk to the conversation partner after the communication becomes possible. You can smoothly convey the spoken information.
<2.機能構成>
対話装置100aの機能構成の一例について説明する。対話装置100aは、第1実施形態に係る対話装置100の音声取得部120、通信部130、出力部140および記憶部150を共通して備え、制御部110においては、判定部111を共通して備え、これらの機能部に加えて検出部と、を備える。
<2. Functional configuration>
An example of the functional configuration of the dialogue device 100a will be described. The dialogue device 100a commonly includes a
判定部111は、相手装置との通信が可能か否か判定する。
The
検出部は、音声取得部120により取得された音声データから発話区間と無音区間とを検出する。検出部は、例えば、この音声データを一度録音し、録音された音声データから発話区間と無音区間とを検出してもよい。この「無音区間」とは、音声データにおいて音声レベルがゼロとなる区間である。また検出部は、検出の前処理として、音声データに対してイコライザー処理やタイムアライメント処理などの各種音響処理を行ってもよい。
The detection unit detects the utterance section and the silent section from the voice data acquired by the
記録部は、相手装置との通信が不可能な場合、発話データを記録する。記録部は、例えば、録音された音声データから発話区間のデータを抽出して発話データを生成してもよい。記録部は、この生成した発話データを記憶部150に記録する。
The recording unit records the utterance data when communication with the other device is impossible. For example, the recording unit may extract the data of the utterance section from the recorded voice data to generate the utterance data. The recording unit records the generated utterance data in the
記録部は、例えば、ユーザの発話タイミングと相手装置のユーザの発話の再生タイミングのずれの少なくとも一部が解消されるまで発話データを記録してもよい。 The recording unit may record the utterance data until, for example, at least a part of the difference between the utterance timing of the user and the reproduction timing of the user's utterance of the other device is eliminated.
記録部は、例えば、相手装置との通信が不可能となった期間(以下、「オフライン期間」という)の開始から合計した無音区間の長さが、オフライン期間の長さを超えるまで(例えば、図9の時点Pまで)発話データを記録してもよい。また記録部は、他の例として、オフライン期間の開始から合計した無音区間の長さが、オフライン期間における合計した発話区間の長さを超えるまで(例えば、図10の時点P’まで)発話データを記録してもよい。 In the recording unit, for example, from the start of the period during which communication with the other device becomes impossible (hereinafter referred to as "offline period") until the total length of the silent section exceeds the length of the offline period (for example,). The utterance data may be recorded (up to the time point P in FIG. 9). Further, as another example, the recording unit uses the utterance data until the total length of the silent section from the start of the offline period exceeds the total length of the utterance section in the offline period (for example, up to the time point P'in FIG. 10). May be recorded.
送信部131は、音声取得部120により取得された音声データを相手装置に送信する。送信部131は、相手装置との通信が可能となった場合相手装置に発話データを送信し、発話データの送信が完了した後に音声データの送信を再開する。
The
上記構成によれば、対話システム1aは、オンラインからオフラインとなった場合に、録音した音声データのうち無音区間の全部または一部を除いたデータを相手装置に送信することができる。このため上記構成によれば、音声データから無音区間を除いて相手装置に送信することにより、オフラインになったことによるユーザの発話タイミングと相手装置の再生タイミングのずれを解消することができる。 According to the above configuration, the dialogue system 1a can transmit the recorded voice data excluding all or a part of the silent section to the other device when going from online to offline. Therefore, according to the above configuration, by transmitting the voice data to the other device by removing the silent section, it is possible to eliminate the difference between the user's utterance timing and the reproduction timing of the other device due to being offline.
<3.動作例>
図11を参照して、対話装置100aの動作例を説明する。なお、以下に示す図11の動作例の処理の順番は一例であって、適宜、変更されてもよい。
<3. Operation example>
An operation example of the dialogue device 100a will be described with reference to FIG. The order of processing of the operation example of FIG. 11 shown below is an example, and may be changed as appropriate.
図11に示すように、対話装置100の音声取得部120は、ユーザの音声を取得する(S20)。次いで判定部111は、相手装置との通信が可能か否か判定する(S21)。
As shown in FIG. 11, the
判定部111の判定により相手装置との通信が不可能な場合(S22のNo)、記録部は発話データを記録する(S23)。 When communication with the other device is impossible due to the determination of the determination unit 111 (No in S22), the recording unit records the utterance data (S23).
判定部111の判定により相手装置との通信が可能な場合(S22のYes)、かつ相手装置への発話データの送信が完了していない場合(S24のNo)、送信部131は発話データを送信する(S25)。またユーザの発話タイミングと相手装置のユーザの発話の再生タイミングのずれの少なくとも一部が解消されていない場合(S26のNo)、記録部は発話データを記録する(S27)。
When communication with the other device is possible by the determination of the determination unit 111 (Yes in S22) and the transmission of the utterance data to the other device is not completed (No in S24), the
判定部111の判定により相手装置との通信が可能な場合(S22のYes)、かつ相手装置への発話データの送信が完了した場合(S24のYes)、送信部131は音声データを送信する(S28)。
When communication with the other device is possible by the determination of the determination unit 111 (Yes in S22) and when the transmission of the utterance data to the other device is completed (Yes in S24), the
ユーザと会話相手が会話を続ける場合(S29のYes)、ステップS20の前に戻る。 When the user and the conversation partner continue the conversation (Yes in S29), the process returns to the step S20.
なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。 It should be noted that the present embodiment is an example for explaining the present invention, and the present invention is not intended to be limited only to the embodiment. Further, the present invention can be modified in various ways as long as it does not deviate from the gist thereof. Further, those skilled in the art can adopt an embodiment in which each element described below is replaced with an equal one, and such an embodiment is also included in the scope of the present invention.
1、1a…対話システム、100、100a…対話装置、110…制御部、111…判定部、112…音声認識部、113…応答生成部、114…識別部、115…特定部、116…装置制御部、120…音声取得部、130…通信部、131…送信部、132…受信部、140…出力部、150…記憶部、200…サーバ装置、210…制御部、211…判定部、212…音声認識部、213…応答生成部、214…識別部、215…装置制御部、230…通信部、250…記憶部、300…音声認識システム、400…装置、400a…ローカル装置、400b…リモート装置、800…コンピュータ、801…プロセッサ、803…メモリ、805…記憶装置、807…入力I/F部、809…データI/F部、811…通信I/F部、813…表示装置、817…音声入力装置、819…音声出力装置。 1, 1a ... Dialogue system, 100, 100a ... Dialogue device, 110 ... Control unit, 111 ... Judgment unit, 112 ... Voice recognition unit, 113 ... Response generation unit, 114 ... Identification unit, 115 ... Specific unit, 116 ... Device control Unit, 120 ... Voice acquisition unit, 130 ... Communication unit, 131 ... Transmission unit, 132 ... Reception unit, 140 ... Output unit, 150 ... Storage unit, 200 ... Server device, 210 ... Control unit, 211 ... Judgment unit, 212 ... Voice recognition unit, 213 ... Response generation unit, 214 ... Identification unit, 215 ... Device control unit, 230 ... Communication unit, 250 ... Storage unit, 300 ... Voice recognition system, 400 ... Device, 400a ... Local device, 400b ... Remote device , 800 ... Computer, 801 ... Processor, 803 ... Memory, 805 ... Storage device, 807 ... Input I / F section, 809 ... Data I / F section, 811 ... Communication I / F section, 813 ... Display device, 817 ... Voice Input device, 819 ... Audio output device.
Claims (10)
ユーザの音声を取得する音声取得部と、
前記音声認識システムとの通信が可能か否か判定する判定部と、
前記音声認識システムとの通信が可能な場合、取得された前記音声の音声データを前記音声認識システムに送信する送信部と、
前記音声認識システムから、前記音声データの認識結果を示す第1認識情報を受信する受信部と、
前記音声認識システムとの通信が不可能な場合、前記取得された音声を認識し、認識結果を示す第2認識情報を生成する音声認識部と、
前記第1認識情報または前記第2認識情報に基づき、前記音声に対して応答するための第1応答情報を生成する応答生成部と、
前記第1応答情報に基づき、前記音声に対する応答を出力する出力部と、を備える、
情報処理装置。 An information processing device that connects to a voice recognition system that recognizes voice via a network.
A voice acquisition unit that acquires the user's voice,
A determination unit that determines whether communication with the voice recognition system is possible, and
When communication with the voice recognition system is possible, a transmission unit that transmits the acquired voice data of the voice to the voice recognition system, and a transmission unit.
A receiving unit that receives the first recognition information indicating the recognition result of the voice data from the voice recognition system, and
When communication with the voice recognition system is impossible, a voice recognition unit that recognizes the acquired voice and generates second recognition information indicating the recognition result, and a voice recognition unit.
A response generation unit that generates first response information for responding to the voice based on the first recognition information or the second recognition information.
An output unit that outputs a response to the voice based on the first response information is provided.
Information processing device.
前記判定部は、前記サーバ装置との通信が可能か否か判定し、
前記送信部は、前記サーバ装置との通信が可能な場合、前記第1認識情報または前記第2認識情報を前記サーバ装置に送信し、
前記受信部は、前記サーバ装置から、前記第1認識情報または前記第2認識情報に基づき生成された前記第2応答情報を受信する、
前記出力部は、前記受信した第2応答情報に基づき、前記音声に対する応答を出力する、
請求項1に記載の情報処理装置。 The information processing device is connected to the server device that generates the second response information for responding to the voice based on the first recognition information or the second recognition information via the network.
The determination unit determines whether or not communication with the server device is possible, and determines whether or not communication with the server device is possible.
When communication with the server device is possible, the transmission unit transmits the first recognition information or the second recognition information to the server device.
The receiving unit receives the first recognition information or the second response information generated based on the second recognition information from the server device.
The output unit outputs a response to the voice based on the received second response information.
The information processing device according to claim 1.
前記判定部は、前記音声が前記リモート指示の場合、前記リモート装置との通信が可能か判定し、
前記送信部は、
前記リモート装置との通信が可能な場合、前記リモート指示を前記リモート装置に送信し、
前記リモート装置との通信が不可能な場合、前記リモート指示をキューイングし、その後リモート装置との通信が可能となった際にキューイングされた前記リモート指示を読み出して前記リモート装置に送信する、
請求項1または2に記載の情報処理装置。 Based on the first recognition information or the second recognition information, the user's voice is further provided with an identification unit that identifies a remote instruction to a remote device outside a predetermined network to which the information processing device is connected.
When the voice is the remote instruction, the determination unit determines whether communication with the remote device is possible.
The transmitter
When communication with the remote device is possible, the remote instruction is transmitted to the remote device.
When communication with the remote device is not possible, the remote instruction is queued, and then when communication with the remote device becomes possible, the queued remote instruction is read and transmitted to the remote device.
The information processing device according to claim 1 or 2.
前記送信部は、特定された前記実行タイミングにおいて前記リモート装置との通信が不可能な場合、前記リモート装置への前記リモート指示の送信を取り止め、
前記応答生成部は、前記リモート指示の音声に対する応答として前記リモート指示を取り止めた旨の前記第1応答情報を生成する、
請求項3に記載の情報処理装置。 Further provided with a specific unit for specifying the execution timing of the remote instruction,
When communication with the remote device is not possible at the specified execution timing, the transmitter cancels transmission of the remote instruction to the remote device.
The response generation unit generates the first response information indicating that the remote instruction has been canceled as a response to the voice of the remote instruction.
The information processing device according to claim 3.
請求項4に記載の情報処理装置。 The transmitting unit refers to a storage unit that stores the batch processing time zone, and when the execution timing of the instruction is not a specific date and time and immediately, and then communication with the remote device becomes possible, the batch processing is performed. Read the remote instruction queued in the time zone and send it to the remote device.
The information processing device according to claim 4.
請求項1から5のいずれか一項に記載の情報処理装置。 When the transmission unit becomes unable to communicate with the voice recognition system while the transmission unit is transmitting the voice data to the voice recognition system, the voice recognition unit causes the transmission unit to send the voice recognition system to the voice recognition system. The second recognition information is generated based on the voice of the voice data that has not been transmitted by referring to the first session information regarding the session established when the voice data is transmitted.
The information processing device according to any one of claims 1 to 5.
請求項2に記載の情報処理装置。 When the transmission unit becomes unable to communicate with the server device while the transmission unit is transmitting the first recognition information or the second recognition information to the server device, the response generation unit causes the transmission unit to perform. Based on the untransmitted first recognition information or the second recognition information with reference to the second session information regarding the session established when the first recognition information or the second recognition information is transmitted to the server device. Generate the first response information,
The information processing device according to claim 2.
前記判定部は、前記相手装置との通信が可能か否か判定し、
前記送信部は、取得された前記音声データを前記相手装置に送信し、
情報処理装置は、
前記音声データから発話区間と無音区間とを検出する検出部と、
前記相手装置との通信が不可能な場合、前記音声データから前記無音区間の少なくとも一部を除いた発話データを記録する記録部と、
前記送信部は、前記相手装置との通信が可能となった場合相手装置に前記発話データを送信し、発話データの送信が完了した後に前記音声データの送信を再開する、
請求項1から7のいずれか一項に記載の情報処理装置。 The information processing device is connected to the other device of the other party by voice conversation with the user via the network.
The determination unit determines whether or not communication with the other device is possible, and determines whether or not communication with the other device is possible.
The transmission unit transmits the acquired voice data to the other device, and then transmits the acquired voice data to the other device.
Information processing equipment
A detection unit that detects an utterance section and a silent section from the voice data,
When communication with the other device is impossible, a recording unit that records utterance data excluding at least a part of the silent section from the voice data, and a recording unit.
The transmission unit transmits the utterance data to the other device when communication with the other device becomes possible, and resumes the transmission of the voice data after the transmission of the utterance data is completed.
The information processing device according to any one of claims 1 to 7.
ユーザの音声を取得する音声取得機能と、
前記音声認識システムとの通信が可能か否か判定する判定機能と、
前記音声認識システムとの通信が可能な場合、前記取得された音声の音声データを前記音声認識システムに送信する送信機能と、
前記音声認識システムから、前記音声データの認識結果を示す第1認識情報を受信する受信機能と、
前記音声認識システムとの通信が不可能な場合、前記取得された音声を認識し、認識結果を示す第2認識情報を生成する音声認識機能と、
前記第1認識情報または前記第2認識情報に基づき、前記音声に対して応答するための第1応答情報を生成する応答生成機能と、
前記第1応答情報に基づき、前記音声に対する応答を出力する出力機能と、を実現させる、
プログラム。 For information processing devices that connect to a voice recognition system that recognizes voice via a network
With the voice acquisition function to acquire the user's voice,
A determination function for determining whether or not communication with the voice recognition system is possible, and
When communication with the voice recognition system is possible, a transmission function for transmitting the voice data of the acquired voice to the voice recognition system, and
A receiving function for receiving the first recognition information indicating the recognition result of the voice data from the voice recognition system, and
When communication with the voice recognition system is impossible, a voice recognition function that recognizes the acquired voice and generates a second recognition information indicating the recognition result, and a voice recognition function.
A response generation function that generates first response information for responding to the voice based on the first recognition information or the second recognition information.
An output function that outputs a response to the voice based on the first response information is realized.
program.
ユーザの音声を取得し、
前記音声認識システムとの通信が可能か否か判定し、
前記音声認識システムとの通信が可能な場合、前記取得された音声の音声データを前記音声認識システムに送信し、
前記音声認識システムから、前記音声データの認識結果を示す第1認識情報を受信し、
前記音声認識システムとの通信が不可能な場合、前記取得された音声を認識し、認識結果を示す第2認識情報を生成し、
前記第1認識情報または前記第2認識情報に基づき、前記音声に対して応答するための第1応答情報を生成し、
前記第1応答情報に基づき、前記音声に対する応答を出力する、
情報処理方法。 An information processing device that connects to a voice recognition system that recognizes voice via a network
Get the user's voice and
It is determined whether communication with the voice recognition system is possible, and
When communication with the voice recognition system is possible, the voice data of the acquired voice is transmitted to the voice recognition system.
The first recognition information indicating the recognition result of the voice data is received from the voice recognition system, and the first recognition information is received.
When communication with the voice recognition system is impossible, the acquired voice is recognized and a second recognition information indicating the recognition result is generated.
Based on the first recognition information or the second recognition information, the first response information for responding to the voice is generated.
Outputs a response to the voice based on the first response information.
Information processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020078049A JP2021173880A (en) | 2020-04-27 | 2020-04-27 | Information processing unit, program and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020078049A JP2021173880A (en) | 2020-04-27 | 2020-04-27 | Information processing unit, program and information processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021173880A true JP2021173880A (en) | 2021-11-01 |
Family
ID=78281661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020078049A Pending JP2021173880A (en) | 2020-04-27 | 2020-04-27 | Information processing unit, program and information processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021173880A (en) |
-
2020
- 2020-04-27 JP JP2020078049A patent/JP2021173880A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6513749B2 (en) | Voice assist system, server device, voice assist method thereof, and program for execution by computer | |
US9666190B2 (en) | Speech recognition using loosely coupled components | |
KR20190075800A (en) | Intelligent personal assistant interface system | |
US8682640B2 (en) | Self-configuring language translation device | |
CN110832579A (en) | Last mile equalization | |
JP7059929B2 (en) | Information processing equipment | |
CN103152244A (en) | Communication method, device and communication system of controlling real-time communication platform | |
JP5616390B2 (en) | Response generation apparatus, response generation method, and response generation program | |
US20160366528A1 (en) | Communication system, audio server, and method for operating a communication system | |
WO2019031268A1 (en) | Information processing device and information processing method | |
KR20130108173A (en) | Question answering system using speech recognition by radio wire communication and its application method thereof | |
KR20200013774A (en) | Pair a Voice-Enabled Device with a Display Device | |
JP2015184487A (en) | Voice processor and voice processing method | |
JP2018049080A (en) | Communication system, information processing device, program, communication method | |
JP2019215449A (en) | Conversation auxiliary apparatus, conversation auxiliary method, and program | |
JP2021173880A (en) | Information processing unit, program and information processing method | |
JP6462291B2 (en) | Interpreting service system and interpreting service method | |
CN113299285A (en) | Device control method, device, electronic device and computer-readable storage medium | |
US20190304457A1 (en) | Interaction device and program | |
US11641592B1 (en) | Device management using stored network metrics | |
JP6468069B2 (en) | Electronic device control system, server, and terminal device | |
WO2021025074A1 (en) | Group calling system, group calling method, and program | |
JP2009272984A (en) | Communication controller | |
JP2004301980A (en) | Speech interaction device and proxy device for speech interaction, and programs for them | |
KR20140123370A (en) | Question answering system using speech recognition by radio wire communication and its application method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230407 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240405 |