JP7088703B2 - Information processing system - Google Patents

Information processing system Download PDF

Info

Publication number
JP7088703B2
JP7088703B2 JP2018052341A JP2018052341A JP7088703B2 JP 7088703 B2 JP7088703 B2 JP 7088703B2 JP 2018052341 A JP2018052341 A JP 2018052341A JP 2018052341 A JP2018052341 A JP 2018052341A JP 7088703 B2 JP7088703 B2 JP 7088703B2
Authority
JP
Japan
Prior art keywords
unit
processing
voice
terminal
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018052341A
Other languages
Japanese (ja)
Other versions
JP2019164615A (en
Inventor
幸司 粂谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018052341A priority Critical patent/JP7088703B2/en
Publication of JP2019164615A publication Critical patent/JP2019164615A/en
Priority to JP2022093542A priority patent/JP7349533B2/en
Application granted granted Critical
Publication of JP7088703B2 publication Critical patent/JP7088703B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、情報処理システム、及び情報処理方法に関する。 The present invention relates to an information processing system and an information processing method.

ユーザの発話に応じた検索結果をユーザに提供する情報提供システムが知られている(例えば、特許文献1参照)。特許文献1には、車載端末と、サーバと、検索エンジンとを備えた情報提供システムが開示されている。車載端末は、ユーザの発話を音声認識処理によって文字列に変換してサーバに送信する。サーバは、検索エンジンに対して、文字列に応じた検索を要求する。検索エンジンは検索結果をサーバに送信し、サーバは、検索エンジンから取得した検索結果を車載端末に送信する。 An information providing system that provides a user with a search result according to a user's utterance is known (see, for example, Patent Document 1). Patent Document 1 discloses an information providing system including an in-vehicle terminal, a server, and a search engine. The in-vehicle terminal converts the user's utterance into a character string by voice recognition processing and sends it to the server. The server requests the search engine to search according to the character string. The search engine sends the search results to the server, and the server sends the search results obtained from the search engine to the in-vehicle terminal.

特開2017-194850号公報Japanese Unexamined Patent Publication No. 2017-194850

しかしながら、特許文献1に開示された技術によれば、発話(音声)に対応する文字列をサーバに送信した端末のみが、検索結果(処理の結果)を受信する。したがって、発話(音声)に対応する文字列をサーバに送信した端末以外の端末は、検索結果(処理の結果)を受信することができない。 However, according to the technique disclosed in Patent Document 1, only the terminal that has transmitted the character string corresponding to the utterance (voice) to the server receives the search result (processing result). Therefore, a terminal other than the terminal that has transmitted the character string corresponding to the utterance (voice) to the server cannot receive the search result (processing result).

本発明は、上記課題に鑑み、音声データをサーバに送信した処理ユニットに加えて、音声データをサーバに送信した処理ユニット以外の処理ユニットも処理の結果を受信することができる情報処理システム、及び情報処理方法を提供することを目的とする。 In view of the above problems, the present invention has an information processing system capable of receiving processing results by a processing unit other than the processing unit that has transmitted voice data to the server, in addition to the processing unit that has transmitted voice data to the server. The purpose is to provide an information processing method.

本発明の情報処理システムは、複数の処理ユニットを備える。前記処理ユニットは、音声入力部と、音声データ生成部と、音声データ送信部と、少なくとも1つの処理結果データ受信部とを備える。前記音声入力部は、特定のコマンドを示す第1音声と、前記複数の処理ユニットのうちの少なくとも1つを特定する第2音声とを入力する。前記音声データ生成部は、前記第1音声に対応する第1音声データ及び前記第2音声に対応する第2音声データを生成する。前記音声データ送信部は、前記第1音声データ及び前記第2音声データをサーバに送信する。前記少なくとも1つの処理結果データ受信部は、前記サーバから処理結果データを受信する。前記処理結果データは、前記特定のコマンドに対応する処理の実行結果を示す。前記複数の処理ユニットのうち、前記第1音声データ及び前記第2音声データを送信した処理ユニットと、前記第2音声データによって特定された処理ユニットとが、前記処理結果データを受信する。 The information processing system of the present invention includes a plurality of processing units. The processing unit includes a voice input unit, a voice data generation unit, a voice data transmission unit, and at least one processing result data reception unit. The voice input unit inputs a first voice indicating a specific command and a second voice specifying at least one of the plurality of processing units. The voice data generation unit generates a first voice data corresponding to the first voice and a second voice data corresponding to the second voice. The voice data transmission unit transmits the first voice data and the second voice data to the server. The at least one processing result data receiving unit receives the processing result data from the server. The processing result data indicates the execution result of the processing corresponding to the specific command. Among the plurality of processing units, the processing unit that has transmitted the first voice data and the second voice data and the processing unit specified by the second voice data receive the processing result data.

本発明の情報処理方法は、特定のコマンドを示す第1音声と、複数の処理ユニットのうちの少なくとも1つを特定する第2音声とを入力するステップと、前記第1音声に対応する第1音声データ及び前記第2音声に対応する第2音声データを生成するステップと、前記第1音声データ及び前記第2音声データをサーバに送信するステップと、前記複数の処理ユニットのうち、前記第1音声データ及び前記第2音声データを送信した処理ユニットと、前記第2音声データによって特定された処理ユニットとが、処理結果データを前記サーバから受信するステップとを含む。前記処理結果データは、前記特定のコマンドに対応する処理の実行結果を示す。 The information processing method of the present invention includes a step of inputting a first voice indicating a specific command and a second voice specifying at least one of a plurality of processing units, and a first voice corresponding to the first voice. A step of generating voice data and a second voice data corresponding to the second voice, a step of transmitting the first voice data and the second voice data to a server, and the first of the plurality of processing units. The processing unit that has transmitted the voice data and the second voice data and the processing unit specified by the second voice data include a step of receiving the processing result data from the server. The processing result data indicates the execution result of the processing corresponding to the specific command.

本発明によれば、音声データをサーバに送信した処理ユニットに加えて、音声データをサーバに送信した処理ユニット以外の処理ユニットも処理の結果を受信することができる。 According to the present invention, in addition to the processing unit that transmitted the voice data to the server, the processing unit other than the processing unit that transmitted the voice data to the server can also receive the processing result.

本発明の実施形態1に係る情報処理システムの構成を示す図である。It is a figure which shows the structure of the information processing system which concerns on Embodiment 1 of this invention. 本発明の実施形態1に係る第1スマートスピーカの構成を示す図である。It is a figure which shows the structure of the 1st smart speaker which concerns on Embodiment 1 of this invention. 本発明の実施形態1に係るサーバの構成を示す図である。It is a figure which shows the structure of the server which concerns on Embodiment 1 of this invention. 本発明の実施形態1に係る管理テーブルを示す図である。It is a figure which shows the management table which concerns on Embodiment 1 of this invention. 本発明の実施形態1に係る第1スマートスピーカの動作を示すフローチャートである。It is a flowchart which shows the operation of the 1st smart speaker which concerns on Embodiment 1 of this invention. 本発明の実施形態1に係るサーバの動作を示すフローチャートである。It is a flowchart which shows the operation of the server which concerns on Embodiment 1 of this invention. 本発明の実施形態2に係る情報処理システムの構成を示す図である。It is a figure which shows the structure of the information processing system which concerns on Embodiment 2 of this invention. 本発明の実施形態2に係る第1スマートスピーカの構成を示す図である。It is a figure which shows the structure of the 1st smart speaker which concerns on Embodiment 2 of this invention. 本発明の実施形態2に係る第1サーバの構成を示す図である。It is a figure which shows the structure of the 1st server which concerns on Embodiment 2 of this invention. (a)は本発明の実施形態2に係る第1管理テーブルを示す図である。(b)は本発明の実施形態2に係る第2管理テーブルを示す図である。(A) is a figure which shows the 1st management table which concerns on Embodiment 2 of this invention. (B) is a figure which shows the 2nd management table which concerns on Embodiment 2 of this invention. 本発明の実施形態2に係る第1端末の構成を示す図である。It is a figure which shows the structure of the 1st terminal which concerns on Embodiment 2 of this invention. 本発明の実施形態2に係る第1サーバの動作を示すフローチャートである。It is a flowchart which shows the operation of the 1st server which concerns on Embodiment 2 of this invention. 本発明の実施形態2に係る第1端末の動作を示すフローチャートである。It is a flowchart which shows the operation of the 1st terminal which concerns on Embodiment 2 of this invention.

以下、図面を参照して本発明の実施形態を説明する。ただし、本発明は以下の実施形態に限定されない。なお、説明が重複する箇所については、適宜説明を省略する場合がある。また、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. However, the present invention is not limited to the following embodiments. In addition, the description may be omitted as appropriate for the parts where the explanations are duplicated. Further, in the figure, the same or corresponding parts are designated by the same reference numerals and the description is not repeated.

[実施形態1]
図1は、実施形態1に係る情報処理システム1の構成を示す図である。図1に示すように、情報処理システム1は、第1処理ユニット2a~第3処理ユニット2cと、サーバ3とを備える。
[Embodiment 1]
FIG. 1 is a diagram showing a configuration of an information processing system 1 according to the first embodiment. As shown in FIG. 1, the information processing system 1 includes a first processing unit 2a to a third processing unit 2c and a server 3.

本実施形態において、第1処理ユニット2aは、第1スマートスピーカ21aを含む。第2処理ユニット2bは、第2スマートスピーカ21bを含む。第3処理ユニット2cは、第3スマートスピーカ21cを含む。第1スマートスピーカ21a~第3スマートスピーカ21cはそれぞれ音声入出力端末の一例である。 In the present embodiment, the first processing unit 2a includes the first smart speaker 21a. The second processing unit 2b includes a second smart speaker 21b. The third processing unit 2c includes a third smart speaker 21c. The first smart speaker 21a to the third smart speaker 21c are examples of audio input / output terminals, respectively.

第1スマートスピーカ21a~第3スマートスピーカ21cはそれぞれ、例えばインターネット回線を介して、サーバ3との間で通信を行う。具体的には、第1スマートスピーカ21a~第3スマートスピーカ21cはそれぞれ、ユーザが発生した音声を入力し、入力した音声を音声データ(デジタルデータ)に変換してサーバ3へ送信する。 Each of the first smart speaker 21a to the third smart speaker 21c communicates with the server 3 via, for example, an internet line. Specifically, the first smart speaker 21a to the third smart speaker 21c each input the voice generated by the user, convert the input voice into voice data (digital data), and transmit the input voice to the server 3.

詳しくは、第1スマートスピーカ21a~第3スマートスピーカ21cはそれぞれ、起動コマンドを示すデータを記憶している。第1スマートスピーカ21a~第3スマートスピーカ21cは、ユーザが起動コマンドを示す音声を発声した場合、レディ状態となる。第1スマートスピーカ21a~第3スマートスピーカ21cは、レディ状態となってから所定の期間が経過する前にユーザが音声を発声すると、その音声を音声データに変換してサーバ3へ送信する。 Specifically, the first smart speaker 21a to the third smart speaker 21c each store data indicating an activation command. The first smart speaker 21a to the third smart speaker 21c are in the ready state when the user utters a voice indicating an activation command. When the user utters a voice before a predetermined period elapses after the first smart speaker 21a to the third smart speaker 21c are in the ready state, the voice is converted into voice data and transmitted to the server 3.

サーバ3は、第1スマートスピーカ21a~第3スマートスピーカ21cのいずれか1つから音声データを受信すると、受信した音声データが特定のコマンドを示すか否かを判定する。音声データが特定のコマンドを示す場合、サーバ3は、特定のコマンドに対応する処理の実行結果を示す処理結果データを取得する。本実施形態において、処理結果データは音声データである。サーバ3は、音声データを送信したスマートスピーカに、処理結果データを送信する。なお、以下の説明において、音声データを送信したスマートスピーカを「音声送信スマートスピーカ」と記載する場合がある。 When the server 3 receives voice data from any one of the first smart speaker 21a to the third smart speaker 21c, the server 3 determines whether or not the received voice data indicates a specific command. When the voice data indicates a specific command, the server 3 acquires the processing result data indicating the execution result of the processing corresponding to the specific command. In the present embodiment, the processing result data is voice data. The server 3 transmits the processing result data to the smart speaker that has transmitted the voice data. In the following description, a smart speaker that has transmitted voice data may be referred to as a “voice transmission smart speaker”.

本実施形態において、サーバ3は、音声送信スマートスピーカ以外のスマートスピーカにも処理結果データ(音声データ)を送信する。具体的には、サーバ3は、受信した音声データに、第1スマートスピーカ21a~第3スマートスピーカ21cのうちの少なくとも1つを指定する指定キーワードが含まれる場合、音声送信スマートスピーカと、指定キーワードが指定するスマートスピーカとに、処理結果データ(音声データ)を送信する。なお、以下の説明において、指定キーワードが指定するスマートスピーカを「指定スマートスピーカ」と記載する場合がある。 In the present embodiment, the server 3 transmits the processing result data (voice data) to a smart speaker other than the voice transmission smart speaker. Specifically, when the received voice data includes a designated keyword for designating at least one of the first smart speaker 21a to the third smart speaker 21c, the server 3 uses the voice transmission smart speaker and the designated keyword. Sends the processing result data (voice data) to the smart speaker specified by. In the following description, the smart speaker designated by the designated keyword may be described as "designated smart speaker".

続いて図1及び図2を参照して、第1スマートスピーカ21aの構成を説明する。図2は、実施形態1に係る第1スマートスピーカ21aの構成を示す図である。図2に示すように、第1スマートスピーカ21aは、音声入力部211と、音声出力部212と、通信部213と、記憶部214と、制御部215とを備える。 Subsequently, the configuration of the first smart speaker 21a will be described with reference to FIGS. 1 and 2. FIG. 2 is a diagram showing the configuration of the first smart speaker 21a according to the first embodiment. As shown in FIG. 2, the first smart speaker 21a includes a voice input unit 211, a voice output unit 212, a communication unit 213, a storage unit 214, and a control unit 215.

音声入力部211は、ユーザが発声した音声を集音して、アナログ電気信号に変換する。アナログ電気信号は、制御部215に入力される。音声入力部211は、例えば、マイクロフォンである。なお、以下の説明において、ユーザが発声した音声を「ユーザ音声」と記載する場合がある。 The voice input unit 211 collects the voice uttered by the user and converts it into an analog electric signal. The analog electric signal is input to the control unit 215. The voice input unit 211 is, for example, a microphone. In the following description, the voice uttered by the user may be described as "user voice".

音声出力部212は、サーバ3から受信した音声データに対応する音声を出力する。音声出力部212は、例えば、スピーカである。 The voice output unit 212 outputs the voice corresponding to the voice data received from the server 3. The audio output unit 212 is, for example, a speaker.

通信部213は、サーバ3との間の通信を制御する。通信部213は、例えば、LAN(Local Area Network)ボード又は無線LANボードを備える。具体的には、通信部213は、音声データをサーバ3に送信する。また、通信部213は、サーバ3から音声データを受信する。 The communication unit 213 controls communication with the server 3. The communication unit 213 includes, for example, a LAN (Local Area Network) board or a wireless LAN board. Specifically, the communication unit 213 transmits voice data to the server 3. Further, the communication unit 213 receives voice data from the server 3.

本実施形態において、通信部213は、音声データ送信部の一例である。また、通信部213は、処理結果データ受信部の一例である。詳しくは、特定のコマンドを示す音声を音声入力部211が入力すると、通信部213は、特定のコマンドを示す音声データを送信する。更に、図1を参照して説明した指定キーワードを示す音声を音声入力部211が入力すると、通信部213は、指定キーワードを示す音声データを送信する。また、通信部213は、図1を参照して説明した処理結果データ(音声データ)を受信する。 In the present embodiment, the communication unit 213 is an example of the voice data transmission unit. Further, the communication unit 213 is an example of a processing result data receiving unit. Specifically, when the voice input unit 211 inputs a voice indicating a specific command, the communication unit 213 transmits voice data indicating the specific command. Further, when the voice input unit 211 inputs the voice indicating the designated keyword described with reference to FIG. 1, the communication unit 213 transmits the voice data indicating the designated keyword. Further, the communication unit 213 receives the processing result data (voice data) described with reference to FIG.

記憶部214は、例えばRAM(Random Access Memory)及びROM(Read Only Memory)のような半導体メモリーを備える。記憶部214は更に、HDD(Hard Disk Drive)のようなストレージデバイスを備えてもよい。記憶部214は、制御部215が実行する制御プログラムを記憶する。記憶部214は更に、図1を参照して説明した起動コマンドを示すデータを記憶する。 The storage unit 214 includes a semiconductor memory such as a RAM (Random Access Memory) and a ROM (Read Only Memory), for example. The storage unit 214 may further include a storage device such as an HDD (Hard Disk Drive). The storage unit 214 stores the control program executed by the control unit 215. The storage unit 214 further stores data indicating an activation command described with reference to FIG.

制御部215は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)、又はDSP(Digital Signal Processor)のようなプロセッサを備える。制御部215は、記憶部214に記憶された制御プログラムに基づいて、第1スマートスピーカ21aの動作を制御する。 The control unit 215 includes, for example, a processor such as a CPU (Central Processing Unit), an MPU (Micro Processing Unit), an ASIC (Application Specific Integrated Circuit), or a DSP (Digital Signal Processor). The control unit 215 controls the operation of the first smart speaker 21a based on the control program stored in the storage unit 214.

具体的には、制御部215は、音声入力部211から入力されたアナログ電気信号(ユーザ音声)をデジタル信号(音声データ)に変換して、通信部213にデジタル信号を送信させる。また、制御部215は、通信部213が受信したデジタル信号(音声データ)をアナログ電気信号に変換して、音声出力部212に音声を出力させる。 Specifically, the control unit 215 converts the analog electric signal (user voice) input from the voice input unit 211 into a digital signal (voice data), and causes the communication unit 213 to transmit the digital signal. Further, the control unit 215 converts the digital signal (voice data) received by the communication unit 213 into an analog electric signal, and causes the voice output unit 212 to output voice.

詳しくは、制御部215は、音声入力部211がユーザ音声を入力すると、記憶部214に記憶された起動コマンドを示すデータを参照して、ユーザ音声に対応する音声データが起動コマンドを示すか否かを判定する。制御部215は、ユーザ音声に対応する音声データが起動コマンドを示す場合、レディ状態となる。制御部215は、レディ状態となってから所定の期間が経過する前に音声入力部211がユーザ音声を入力すると、ユーザ音声に対応する音声データを記憶部214に保存する。なお、記憶部214は、所定の期間を示すデータを記憶している。所定の期間は、例えば8秒間である。 Specifically, when the voice input unit 211 inputs the user voice, the control unit 215 refers to the data indicating the start command stored in the storage unit 214, and whether or not the voice data corresponding to the user voice indicates the start command. Is determined. The control unit 215 is in the ready state when the voice data corresponding to the user voice indicates an activation command. When the voice input unit 211 inputs the user voice before the predetermined period elapses after the ready state, the control unit 215 stores the voice data corresponding to the user voice in the storage unit 214. The storage unit 214 stores data indicating a predetermined period. The predetermined period is, for example, 8 seconds.

本実施形態において、制御部215は、所定の期間が経過するまでの間、音声入力部211がユーザ音声を入力する度に、ユーザ音声に対応する音声データを記憶部214に保存する。制御部215は、所定の期間が経過すると、記憶部214に音声データが保存されているか否かを判定する。制御部215は、記憶部214に音声データが保存されている場合、記憶部214に保存されている音声データを通信部213に送信させる。 In the present embodiment, the control unit 215 stores the voice data corresponding to the user voice in the storage unit 214 every time the voice input unit 211 inputs the user voice until a predetermined period elapses. When the predetermined period elapses, the control unit 215 determines whether or not the voice data is stored in the storage unit 214. When the voice data is stored in the storage unit 214, the control unit 215 causes the communication unit 213 to transmit the voice data stored in the storage unit 214.

以上、図1及び図2を参照して、第1スマートスピーカ21aの構成を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cの構成は、第1スマートスピーカ21aの構成と同様であるため、その説明は割愛する。 The configuration of the first smart speaker 21a has been described above with reference to FIGS. 1 and 2. Since the configurations of the second smart speaker 21b and the third smart speaker 21c are the same as the configurations of the first smart speaker 21a, the description thereof will be omitted.

続いて図1及び図3を参照して、サーバ3の構成を説明する。図3は、実施形態1に係るサーバ3の構成を示す図である。図3に示すように、サーバ3は、通信部31と、音声認識部32と、記憶部33と、制御部34とを備える。 Subsequently, the configuration of the server 3 will be described with reference to FIGS. 1 and 3. FIG. 3 is a diagram showing a configuration of the server 3 according to the first embodiment. As shown in FIG. 3, the server 3 includes a communication unit 31, a voice recognition unit 32, a storage unit 33, and a control unit 34.

通信部31は、第1スマートスピーカ21a~第3スマートスピーカ21cとの間の通信を制御する。通信部31は、例えば、LANボード又は無線LANボードを備える。具体的には、通信部31は、第1スマートスピーカ21a~第3スマートスピーカ21cから音声データを受信する。また、通信部31は、第1スマートスピーカ21a~第3スマートスピーカ21cへ音声データを送信する。 The communication unit 31 controls communication between the first smart speaker 21a and the third smart speaker 21c. The communication unit 31 includes, for example, a LAN board or a wireless LAN board. Specifically, the communication unit 31 receives voice data from the first smart speaker 21a to the third smart speaker 21c. Further, the communication unit 31 transmits voice data to the first smart speaker 21a to the third smart speaker 21c.

本実施形態において、通信部31は、音声データ受信部の一例である。また、通信部31は、処理結果データ送信部の一例である。詳しくは、通信部31は、特定のコマンドを示す音声データを受信する。更に、通信部31は、図1を参照して説明した指定キーワードを示す音声データを受信する。また、通信部31は、図1を参照して説明した処理結果データ(音声データ)を送信する。 In the present embodiment, the communication unit 31 is an example of a voice data receiving unit. Further, the communication unit 31 is an example of a processing result data transmission unit. Specifically, the communication unit 31 receives voice data indicating a specific command. Further, the communication unit 31 receives voice data indicating the designated keyword described with reference to FIG. Further, the communication unit 31 transmits the processing result data (voice data) described with reference to FIG.

音声認識部32は、通信部31が受信した音声データを音声認識技術によりテキスト情報(以下、「認識結果テキスト」と記載する場合がある。)に変換する。音声認識部32は、例えば、音声認識LSI(Large Scale Integration)を備える。 The voice recognition unit 32 converts the voice data received by the communication unit 31 into text information (hereinafter, may be referred to as “recognition result text”) by the voice recognition technique. The voice recognition unit 32 includes, for example, a voice recognition LSI (Large Scale Integration).

記憶部33は、例えばRAM及びROMのような半導体メモリーを備える。更に、記憶部33は、HDDのようなストレージデバイスを備える。記憶部33は、制御部34が実行する制御プログラムを記憶する。記憶部33は更に、管理テーブル331を記憶する。管理テーブル331には、図1を参照して説明した指定キーワードが登録される。 The storage unit 33 includes a semiconductor memory such as a RAM and a ROM. Further, the storage unit 33 includes a storage device such as an HDD. The storage unit 33 stores the control program executed by the control unit 34. The storage unit 33 further stores the management table 331. The designated keywords described with reference to FIG. 1 are registered in the management table 331.

制御部34は、例えばCPU又はMPUのようなプロセッサを備える。また、制御部34は、記憶部33に記憶された制御プログラムに基づいて、サーバ3の動作を制御する。 The control unit 34 includes a processor such as a CPU or an MPU. Further, the control unit 34 controls the operation of the server 3 based on the control program stored in the storage unit 33.

具体的には、制御部34は、記憶部33に記憶されているキーワード群を参照して、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。あるいは、制御部34は、意図推定処理により認識結果テキストを解析して、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。制御部34が意図推定処理を実行する場合、記憶部33は、コーパスを記憶する。制御部34は、認識結果テキストに特定のコマンドを示す文字列が含まれる場合、特定のコマンドに対応する処理を実行して処理結果データを取得する。例えば、特定のコマンドは、検索キーワードと、検索処理の実行を促すキーワードとを示す。この場合、制御部34は、検索キーワードに基づいて検索処理を実行し、検索結果を示すデータを取得する。 Specifically, the control unit 34 refers to the keyword group stored in the storage unit 33, and determines whether or not the recognition result text includes a character string indicating a specific command. Alternatively, the control unit 34 analyzes the recognition result text by the intention estimation process, and determines whether or not the recognition result text contains a character string indicating a specific command. When the control unit 34 executes the intention estimation process, the storage unit 33 stores the corpus. When the recognition result text contains a character string indicating a specific command, the control unit 34 executes the process corresponding to the specific command and acquires the process result data. For example, a particular command indicates a search keyword and a keyword that prompts the execution of a search process. In this case, the control unit 34 executes the search process based on the search keyword and acquires data indicating the search result.

制御部34は、通信部31に処理結果データを送信させる。具体的には、制御部34は、管理テーブル331を参照して、認識結果テキストに指定キーワードを示す文字列が含まれるか否かを判定する。認識結果テキストに指定キーワードを示す文字列が含まれていない場合、通信部31は、音声送信スマートスピーカに処理結果データを送信する。一方、認識結果テキストに指定キーワードを示す文字列が含まれている場合、通信部31は、音声送信スマートスピーカと指定スマートスピーカとに処理結果データを送信する。 The control unit 34 causes the communication unit 31 to transmit the processing result data. Specifically, the control unit 34 refers to the management table 331 and determines whether or not the recognition result text includes a character string indicating the designated keyword. When the recognition result text does not include the character string indicating the designated keyword, the communication unit 31 transmits the processing result data to the voice transmission smart speaker. On the other hand, when the recognition result text contains a character string indicating the designated keyword, the communication unit 31 transmits the processing result data to the voice transmission smart speaker and the designated smart speaker.

なお、サーバ3は、他のサーバに、特定のコマンドに対応する処理の実行を要求してもよい。この場合、サーバ3は、他のサーバから処理結果データを取得(受信)する。 The server 3 may request another server to execute a process corresponding to a specific command. In this case, the server 3 acquires (receives) the processing result data from another server.

続いて図4を参照して、管理テーブル331を説明する。図4は、実施形態1に係る管理テーブル331を示す図である。図4に示すように、管理テーブル331は、スマートスピーカ登録欄41と、指定キーワード登録欄42とを有する。 Subsequently, the management table 331 will be described with reference to FIG. FIG. 4 is a diagram showing a management table 331 according to the first embodiment. As shown in FIG. 4, the management table 331 has a smart speaker registration field 41 and a designated keyword registration field 42.

スマートスピーカ登録欄41には、サーバ3との間で通信が可能なスマートスピーカを識別するスマートスピーカ識別情報が登録される。本実施形態では、スマートスピーカ登録欄41に、第1スマートスピーカ21a~第3スマートスピーカ21cを識別するスマートスピーカ識別情報が登録される。スマートスピーカ識別情報は、ユーザが任意に決定して登録する。 In the smart speaker registration field 41, smart speaker identification information for identifying a smart speaker capable of communicating with the server 3 is registered. In the present embodiment, smart speaker identification information for identifying the first smart speaker 21a to the third smart speaker 21c is registered in the smart speaker registration field 41. The smart speaker identification information is arbitrarily determined and registered by the user.

指定キーワード登録欄42には、スマートスピーカ登録欄41に登録されたスマートスピーカを特定するキーワード(指定キーワード)が登録される。指定キーワードは、ユーザが任意に決定して登録する。例えば、指定キーワードは、スマートスピーカが設置された場所の名称であり得る。図4に示す指定キーワード登録欄42には、第1スマートスピーカ21aの指定キーワードとして「A地点」が登録されている。同様に、第2スマートスピーカ21bの指定キーワードとして「B地点」が登録されており、第3スマートスピーカ21cの指定キーワードとして「C地点」が登録されている。管理テーブル331は、スマートスピーカ識別情報と指定キーワードとを関連付ける。 In the designated keyword registration field 42, a keyword (designated keyword) for specifying the smart speaker registered in the smart speaker registration field 41 is registered. The specified keyword is arbitrarily determined and registered by the user. For example, the designated keyword may be the name of the place where the smart speaker is installed. In the designated keyword registration field 42 shown in FIG. 4, "point A" is registered as a designated keyword for the first smart speaker 21a. Similarly, "point B" is registered as a designated keyword for the second smart speaker 21b, and "point C" is registered as a designated keyword for the third smart speaker 21c. The management table 331 associates the smart speaker identification information with the designated keyword.

なお、第1スマートスピーカ21a~第3スマートスピーカ21cは、音声データをサーバ3に送信する際に、自機のスマートスピーカ識別情報を送信する。スマートスピーカ識別情報は、第1スマートスピーカ21a~第3スマートスピーカ21cの記憶部214(図2)に記憶されている。サーバ3は、音声データと共に受信したスマートスピーカ識別情報に基づいて、音声データを送信したスマートスピーカに処理結果データを送信する。 The first smart speaker 21a to the third smart speaker 21c transmit the smart speaker identification information of their own device when transmitting the voice data to the server 3. The smart speaker identification information is stored in the storage unit 214 (FIG. 2) of the first smart speaker 21a to the third smart speaker 21c. The server 3 transmits the processing result data to the smart speaker that transmitted the voice data based on the smart speaker identification information received together with the voice data.

続いて図1、図2及び図5を参照して、第1スマートスピーカ21aの動作を説明する。図5は、実施形態1に係る第1スマートスピーカ21aの動作を示すフローチャートである。図5に示す動作は、第1スマートスピーカ21aの音声入力部211がユーザ音声を入力するとスタートする。 Subsequently, the operation of the first smart speaker 21a will be described with reference to FIGS. 1, 2 and 5. FIG. 5 is a flowchart showing the operation of the first smart speaker 21a according to the first embodiment. The operation shown in FIG. 5 starts when the voice input unit 211 of the first smart speaker 21a inputs the user voice.

図5に示すように、音声入力部211がユーザ音声を入力すると、制御部215は、ユーザ音声に対応する音声データを生成する(ステップS1)。制御部215は、音声データを生成すると、記憶部214に記憶されている起動コマンドを示すデータを参照して、音声データが起動コマンドを示すか否かを判定する(ステップS2)。 As shown in FIG. 5, when the voice input unit 211 inputs the user voice, the control unit 215 generates voice data corresponding to the user voice (step S1). When the voice data is generated, the control unit 215 refers to the data indicating the activation command stored in the storage unit 214, and determines whether or not the voice data indicates the activation command (step S2).

制御部215は、音声データが起動コマンドを示すと判定すると(ステップS2のYes)、所定の期間、レディ状態となる(ステップS3)。レディ状態において、制御部215は、音声入力部211がユーザ音声を入力すると、ユーザ音声に対応する音声データを記憶部214に保存する。制御部215は、所定の期間が経過すると、記憶部214に音声データが保存されているか否かを判定する(ステップS4)。 When the control unit 215 determines that the voice data indicates an activation command (Yes in step S2), the control unit 215 is in a ready state for a predetermined period (step S3). In the ready state, when the voice input unit 211 inputs the user voice, the control unit 215 stores the voice data corresponding to the user voice in the storage unit 214. When the predetermined period elapses, the control unit 215 determines whether or not the voice data is stored in the storage unit 214 (step S4).

制御部215は、記憶部214に音声データが保存されていると判定すると(ステップS4のYes)、記憶部214に保存された音声データと、記憶部214に記憶されているスマートスピーカ識別情報とをサーバ3に送信して(ステップS5)、図5に示す動作を終了する。 When the control unit 215 determines that the voice data is stored in the storage unit 214 (Yes in step S4), the voice data stored in the storage unit 214 and the smart speaker identification information stored in the storage unit 214 Is transmitted to the server 3 (step S5), and the operation shown in FIG. 5 is terminated.

また、制御部215は、音声データが起動コマンドを示さないと判定した場合(ステップS2のNo)、又は、記憶部214に音声データが保存されていないと判定した場合(ステップS4のNo)、図5に示す動作を終了する。 Further, when the control unit 215 determines that the voice data does not indicate the activation command (No in step S2), or determines that the voice data is not stored in the storage unit 214 (No in step S4). The operation shown in FIG. 5 is terminated.

以上、図1、図2及び図5を参照して第1スマートスピーカ21aの動作を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cは、第1スマートスピーカ21aと同様に、図5に示す動作を実行する。 The operation of the first smart speaker 21a has been described above with reference to FIGS. 1, 2 and 5. The second smart speaker 21b and the third smart speaker 21c execute the operation shown in FIG. 5 in the same manner as the first smart speaker 21a.

続いて図1、図3、図4及び図6を参照して、サーバ3の動作を説明する。図6は、実施形態1に係るサーバ3の動作を示すフローチャートである。図6に示す動作は、サーバ3の通信部31が音声データ及びスマートスピーカ識別情報を受信するとスタートする。 Subsequently, the operation of the server 3 will be described with reference to FIGS. 1, 3, 4, and 6. FIG. 6 is a flowchart showing the operation of the server 3 according to the first embodiment. The operation shown in FIG. 6 starts when the communication unit 31 of the server 3 receives the voice data and the smart speaker identification information.

図6に示すように、通信部31が音声データ及びスマートスピーカ識別情報を受信すると、音声認識部32は、音声データをテキスト情報に変換して、認識結果テキストを生成する(ステップS11)。この結果、制御部34が、認識結果テキストを取得する。また、制御部34は、通信部31が音声データ及びスマートスピーカ識別情報を受信すると、処理結果データ(音声データ)の送信先として、通信部31が受信したスマートスピーカ識別情報を記憶部33に保存する。 As shown in FIG. 6, when the communication unit 31 receives the voice data and the smart speaker identification information, the voice recognition unit 32 converts the voice data into text information and generates a recognition result text (step S11). As a result, the control unit 34 acquires the recognition result text. Further, when the communication unit 31 receives the voice data and the smart speaker identification information, the control unit 34 stores the smart speaker identification information received by the communication unit 31 in the storage unit 33 as a transmission destination of the processing result data (voice data). do.

制御部34は、認識結果テキストを取得すると、認識結果テキストから特定のコマンドを認識できるか否かを判定する(ステップS12)。換言すると、制御部34は、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。例えば、制御部34は、記憶部33に記憶されているキーワード群を参照して、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。あるいは、制御部34は、記憶部33に記憶されているコーパスを用いた意図推定処理により、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。 When the control unit 34 acquires the recognition result text, it determines whether or not a specific command can be recognized from the recognition result text (step S12). In other words, the control unit 34 determines whether or not the recognition result text contains a character string indicating a specific command. For example, the control unit 34 refers to the keyword group stored in the storage unit 33, and determines whether or not the recognition result text contains a character string indicating a specific command. Alternatively, the control unit 34 determines whether or not the recognition result text contains a character string indicating a specific command by an intention estimation process using the corpus stored in the storage unit 33.

制御部34は、認識結果テキストから特定のコマンドを認識できると判定すると(ステップS12のYes)、認識した特定のコマンドを記憶部33に保存する(ステップS13)。 When the control unit 34 determines that the specific command can be recognized from the recognition result text (Yes in step S12), the control unit 34 stores the recognized specific command in the storage unit 33 (step S13).

制御部34は、認識した特定のコマンドを記憶部33に保存すると、記憶部33に記憶されている管理テーブル331を参照して、認識結果テキストから指定キーワードを認識できるか否かを判定する(ステップS14)。換言すると、制御部34は、認識結果テキストに指定キーワードを示す文字列が含まれるか否かを判定する。 When the recognized specific command is stored in the storage unit 33, the control unit 34 refers to the management table 331 stored in the storage unit 33 and determines whether or not the designated keyword can be recognized from the recognition result text (. Step S14). In other words, the control unit 34 determines whether or not the recognition result text contains a character string indicating the designated keyword.

制御部34は、認識結果テキストから指定キーワードを認識できると判定すると(ステップS14のYes)、認識した指定キーワードに対応するスマートスピーカ識別情報を、処理結果データ(音声データ)の送信先として記憶部33に保存する(ステップS15)。 When the control unit 34 determines that the designated keyword can be recognized from the recognition result text (Yes in step S14), the control unit 34 stores the smart speaker identification information corresponding to the recognized designated keyword as a transmission destination of the processing result data (voice data). Save in 33 (step S15).

制御部34は、スマートスピーカ識別情報を記憶部33に保存すると、記憶部33に保存した特定のコマンドに対応する処理結果データ(音声データ)を取得する(ステップS16)。あるいは、制御部34は、認識結果テキストから指定キーワードを認識できないと判定すると(ステップS14のNo)、記憶部33に保存した特定のコマンドに対応する処理結果データ(音声データ)を取得する(ステップS16)。具体的には、制御部34は、特定のコマンドに対応する処理を実行して、処理結果データを取得する。あるいは、制御部34は、他のサーバに、特定のコマンドに対応する処理の実行を要求して、他のサーバから処理結果データを取得する。 When the smart speaker identification information is stored in the storage unit 33, the control unit 34 acquires the processing result data (voice data) corresponding to the specific command stored in the storage unit 33 (step S16). Alternatively, when the control unit 34 determines that the designated keyword cannot be recognized from the recognition result text (No in step S14), the control unit 34 acquires the processing result data (voice data) corresponding to the specific command stored in the storage unit 33 (step). S16). Specifically, the control unit 34 executes the process corresponding to the specific command and acquires the process result data. Alternatively, the control unit 34 requests another server to execute the process corresponding to the specific command, and acquires the process result data from the other server.

制御部34は、処理結果データを取得すると、処理結果データの送信先として記憶部33に保存したスマートスピーカ識別情報を参照して、通信部31に処理結果データ(音声データ)を送信させ(ステップS17)、図6に示す動作を終了する。詳しくは、認識結果テキストから指定キーワードを認識できた場合(ステップS14のYes)、サーバ3は、音声送信スマートスピーカと指定スマートスピーカとに処理結果データを送信する。一方、認識結果テキストから指定キーワードを認識できない場合(ステップS14のNo)、サーバ3は、音声送信スマートスピーカに処理結果データを送信する。 When the control unit 34 acquires the processing result data, the control unit 34 refers to the smart speaker identification information stored in the storage unit 33 as the transmission destination of the processing result data, and causes the communication unit 31 to transmit the processing result data (voice data) (step). S17), the operation shown in FIG. 6 is terminated. Specifically, when the designated keyword can be recognized from the recognition result text (Yes in step S14), the server 3 transmits the processing result data to the voice transmission smart speaker and the designated smart speaker. On the other hand, when the designated keyword cannot be recognized from the recognition result text (No in step S14), the server 3 transmits the processing result data to the voice transmission smart speaker.

また、制御部34は、認識結果テキストから特定のコマンドを認識できないと判定すると(ステップS12のNo)、エラーフラグをONにする(ステップS18)。制御部34は、エラーフラグをONにすると、エラーメッセージを示す音声データを通信部31に送信させ(ステップS17)、図6に示す動作を終了する。詳しくは、サーバ3は、音声送信スマートスピーカにエラーメッセージ(音声データ)を送信する。エラーメッセージは、コマンドを認識できない旨を示す。 Further, when the control unit 34 determines that the specific command cannot be recognized from the recognition result text (No in step S12), the control unit 34 turns on the error flag (step S18). When the error flag is turned ON, the control unit 34 causes the communication unit 31 to transmit voice data indicating an error message (step S17), and ends the operation shown in FIG. Specifically, the server 3 transmits an error message (voice data) to the voice transmission smart speaker. The error message indicates that the command cannot be recognized.

以上、図1~図6を参照して、本発明の実施形態1について説明した。本実施形態によれば、音声データをサーバに送信したスマートスピーカ(処理ユニット)に加えて、音声データをサーバに送信したスマートスピーカ(処理ユニット)以外のスマートスピーカ(処理ユニット)も処理の結果を受信することができる。例えば、第1スマートスピーカ21aのユーザが起動コマンドを示す音声を発声した後、所定の期間内に、検索キーワードに基づく検索の実行を促す音声と、B地点を示す音声とを発声すると、検索キーワードに基づく検索結果を示す音声が、第1スマートスピーカ21a及び第2スマートスピーカ21bから出力される。 The first embodiment of the present invention has been described above with reference to FIGS. 1 to 6. According to the present embodiment, in addition to the smart speaker (processing unit) that transmitted the voice data to the server, the smart speaker (processing unit) other than the smart speaker (processing unit) that transmitted the voice data to the server also performs the processing result. Can be received. For example, when the user of the first smart speaker 21a utters a voice indicating an activation command and then utters a voice prompting execution of a search based on the search keyword and a voice indicating the B point within a predetermined period, the search keyword is used. The voice indicating the search result based on the above is output from the first smart speaker 21a and the second smart speaker 21b.

なお、本実施形態において、サーバ3の記憶部33は、第1スマートスピーカ21a~第3スマートスピーカ21cのそれぞれの指定キーワードを記憶したが、第1スマートスピーカ21a~第3スマートスピーカ21cのそれぞれの指定キーワードに加えて、第1スマートスピーカ21a~第3スマートスピーカ21cの全てを指定する指定キーワードを更に記憶してもよい。例えば、第1スマートスピーカ21a~第3スマートスピーカ21cの全てを指定する指定キーワードは、「オール(ALL)」であり得る。この場合、例えば、第1スマートスピーカ21aのユーザが起動コマンドを示す音声を発声した後、所定の期間内に、検索キーワードに基づく検索の実行を促す音声と、「オール」を示す音声とを発声すると、検索キーワードに基づく検索結果を示す音声が、第1スマートスピーカ21a~第3スマートスピーカ21cから出力される。 In the present embodiment, the storage unit 33 of the server 3 stores the designated keywords of the first smart speaker 21a to the third smart speaker 21c, but each of the first smart speaker 21a to the third smart speaker 21c is stored. In addition to the designated keyword, the designated keyword that specifies all of the first smart speaker 21a to the third smart speaker 21c may be further stored. For example, the designated keyword for designating all of the first smart speaker 21a to the third smart speaker 21c may be "ALL". In this case, for example, after the user of the first smart speaker 21a utters a voice indicating an activation command, a voice prompting execution of a search based on the search keyword and a voice indicating "all" are uttered within a predetermined period. Then, the voice indicating the search result based on the search keyword is output from the first smart speaker 21a to the third smart speaker 21c.

[実施形態2]
続いて図7~図12を参照して本発明の実施形態2について説明する。但し、実施形態1と異なる事項を説明し、実施形態1と同じ事項についての説明は割愛する。実施形態2は、情報処理システム1がウエブ会議システムである点で実施形態1と異なる。
[Embodiment 2]
Subsequently, the second embodiment of the present invention will be described with reference to FIGS. 7 to 12. However, matters different from those of the first embodiment will be described, and explanations of the same matters as those of the first embodiment will be omitted. The second embodiment is different from the first embodiment in that the information processing system 1 is a web conference system.

図7は、実施形態2に係る情報処理システム1の構成を示す図である。図7に示すように、情報処理システム1(ウエブ会議システム)は、第1処理ユニット2a~第3処理ユニット2cと、第1サーバ3と、第2サーバ4とを備える。なお、第1サーバ3は、実施形態1において説明したサーバ3に対応する。 FIG. 7 is a diagram showing a configuration of the information processing system 1 according to the second embodiment. As shown in FIG. 7, the information processing system 1 (web conference system) includes a first processing unit 2a to a third processing unit 2c, a first server 3, and a second server 4. The first server 3 corresponds to the server 3 described in the first embodiment.

本実施形態において、第1処理ユニット2aは、第1スマートスピーカ21aと、第1端末22aと、第1表示装置23aとを含む。第2処理ユニット2bは、第2スマートスピーカ21bと、第2端末22bと、第2表示装置23bとを含む。第3処理ユニット2cは、第3スマートスピーカ21cと、第3端末22cと、第3表示装置23cとを含む。第1スマートスピーカ21a~第3スマートスピーカ21cはそれぞれ音声入出力端末の一例であり、第1端末22a~第3端末22cはそれぞれ情報処理端末の一例である。 In the present embodiment, the first processing unit 2a includes a first smart speaker 21a, a first terminal 22a, and a first display device 23a. The second processing unit 2b includes a second smart speaker 21b, a second terminal 22b, and a second display device 23b. The third processing unit 2c includes a third smart speaker 21c, a third terminal 22c, and a third display device 23c. The first smart speaker 21a to the third smart speaker 21c are examples of audio input / output terminals, and the first terminal 22a to the third terminal 22c are examples of information processing terminals, respectively.

また、本実施形態において、第1スマートスピーカ21a及び第1表示装置23aは、第1端末22aの周辺装置であり、第2スマートスピーカ21b及び第2表示装置23bは、第2端末22bの周辺装置であり、第3スマートスピーカ21c及び第3表示装置23cは、第3端末22cの周辺装置である。 Further, in the present embodiment, the first smart speaker 21a and the first display device 23a are peripheral devices of the first terminal 22a, and the second smart speaker 21b and the second display device 23b are peripheral devices of the second terminal 22b. The third smart speaker 21c and the third display device 23c are peripheral devices of the third terminal 22c.

本実施形態において、第1サーバ3は、例えばインターネット回線を介して、第1スマートスピーカ21a~第3スマートスピーカ21cの各々との間で通信を行う。更に、第1サーバ3は、例えばインターネット回線を介して、第1端末22a~第3端末22cの各々との間で通信を行う。 In the present embodiment, the first server 3 communicates with each of the first smart speaker 21a to the third smart speaker 21c, for example, via an internet line. Further, the first server 3 communicates with each of the first terminal 22a to the third terminal 22c via, for example, an internet line.

第1サーバ3は、第1スマートスピーカ21a~第3スマートスピーカ21cから受信した音声データに基づいて処理結果データを取得する。本実施形態において、処理結果データは、音声データ又は端末用コマンドである。 The first server 3 acquires the processing result data based on the voice data received from the first smart speaker 21a to the third smart speaker 21c. In the present embodiment, the processing result data is voice data or a command for a terminal.

第1サーバ3は、処理結果データが音声データである場合、音声送信スマートスピーカに処理結果データ(音声データ)を送信する。更に、実施形態1において説明したように、第1サーバ3は、音声送信スマートスピーカ以外のスマートスピーカにも処理結果データ(音声データ)を送信する。詳しくは、第1サーバ3は、受信した音声データに指定キーワードが含まれる場合、音声送信スマートスピーカと指定スマートスピーカとに処理結果データ(音声データ)を送信する。 When the processing result data is voice data, the first server 3 transmits the processing result data (voice data) to the voice transmission smart speaker. Further, as described in the first embodiment, the first server 3 transmits the processing result data (voice data) to the smart speaker other than the voice transmission smart speaker. Specifically, when the received voice data includes the designated keyword, the first server 3 transmits the processing result data (voice data) to the voice transmission smart speaker and the designated smart speaker.

第1サーバ3は、処理結果データが端末用コマンドである場合、音声送信スマートスピーカに接続している端末に処理結果データ(端末用コマンド)を送信する。以下、音声送信スマートスピーカに接続している端末を「接続端末」と記載する場合がある。 When the processing result data is a terminal command, the first server 3 transmits the processing result data (terminal command) to the terminal connected to the voice transmission smart speaker. Hereinafter, the terminal connected to the voice transmission smart speaker may be referred to as a "connected terminal".

詳しくは、第1サーバ3は、第1スマートスピーカ21a~第3スマートスピーカ21cと第1端末22a~第3端末22cとの対応関係を記憶している。第1サーバ3は、第1端末22a~第3端末22cから定期的に要求信号を受信する。要求信号は、第1サーバ3に対し、処理結果データ(端末用コマンド)の送信を要求する。第1サーバ3は、処理結果データが端末用コマンドである場合、接続端末から要求信号を受信すると、接続端末へ処理結果データ(端末用コマンド)を送信する。 Specifically, the first server 3 stores the correspondence between the first smart speaker 21a to the third smart speaker 21c and the first terminal 22a to the third terminal 22c. The first server 3 periodically receives a request signal from the first terminal 22a to the third terminal 22c. The request signal requests the first server 3 to transmit the processing result data (terminal command). When the processing result data is a terminal command, the first server 3 receives the request signal from the connecting terminal and transmits the processing result data (terminal command) to the connecting terminal.

更に、第1サーバ3は、接続端末以外の端末にも処理結果データ(端末用コマンド)を送信する。詳しくは、第1サーバ3は、受信した音声データに指定キーワードが含まれる場合、接続端末と、指定スマートスピーカに接続している端末とに、処理結果データ(端末用コマンド)を送信する。なお、以下の説明において、指定スマートスピーカに接続している端末を「指定端末」と記載する場合がある。 Further, the first server 3 transmits the processing result data (terminal command) to terminals other than the connected terminal. Specifically, when the received voice data includes the designated keyword, the first server 3 transmits the processing result data (terminal command) to the connected terminal and the terminal connected to the designated smart speaker. In the following description, the terminal connected to the designated smart speaker may be referred to as a "designated terminal".

第2サーバ4は、例えばインターネット回線を介して、第1端末22a~第3端末22cの各々との間で通信を行うことにより、第1端末22a~第3端末22cの間でウエブ会議を実行させる。具体的には、第2サーバ4は、第1端末22aから受信した音声データ及び撮像データを、第2端末22b及び第3端末22cへ送信する。同様に、第2サーバ4は、第2端末22bから受信した音声データ及び撮像データを、第1端末22a及び第3端末22cへ送信する。また、第2サーバ4は、第3端末22cから受信した音声データ及び撮像データを、第1端末22a及び第2端末22bへ送信する。 The second server 4 executes a web conference between the first terminal 22a and the third terminal 22c by communicating with each of the first terminal 22a to the third terminal 22c via, for example, an internet line. Let me. Specifically, the second server 4 transmits the audio data and the image pickup data received from the first terminal 22a to the second terminal 22b and the third terminal 22c. Similarly, the second server 4 transmits the audio data and the image pickup data received from the second terminal 22b to the first terminal 22a and the third terminal 22c. Further, the second server 4 transmits the audio data and the image pickup data received from the third terminal 22c to the first terminal 22a and the second terminal 22b.

続いて図7を参照して、第1処理ユニット2aに含まれる第1スマートスピーカ21a、第1端末22a、及び第1表示装置23aの動作について説明する。 Subsequently, with reference to FIG. 7, the operation of the first smart speaker 21a, the first terminal 22a, and the first display device 23a included in the first processing unit 2a will be described.

第1スマートスピーカ21aは、ユーザ音声に対応する音声データを第1端末22aへ送信する。また、第1スマートスピーカ21aは、第1端末22aから音声データを受信する。第1スマートスピーカ21aは、第1端末22aから受信した音声データに対応する音声を出力する。更に、第1スマートスピーカ21aは撮像部を備え、撮像データを第1端末22aへ送信する。 The first smart speaker 21a transmits voice data corresponding to the user voice to the first terminal 22a. Further, the first smart speaker 21a receives voice data from the first terminal 22a. The first smart speaker 21a outputs the voice corresponding to the voice data received from the first terminal 22a. Further, the first smart speaker 21a includes an image pickup unit, and transmits image pickup data to the first terminal 22a.

また、第1スマートスピーカ21aは、レディ状態においても、音声データ及び撮像データを第1端末22aへ送信し、第1端末22aから音声データを受信する。更に、実施形態1において説明したように、第1スマートスピーカ21aがレディ状態となってから所定の期間が経過するまでの間にユーザが音声を発声すると、第1スマートスピーカ21aは、ユーザ音声に対応する音声データを第1サーバ3へ送信する。 Further, the first smart speaker 21a transmits audio data and imaging data to the first terminal 22a and receives audio data from the first terminal 22a even in the ready state. Further, as described in the first embodiment, when the user utters a voice between the time when the first smart speaker 21a becomes ready and the predetermined period elapses, the first smart speaker 21a becomes the user voice. The corresponding voice data is transmitted to the first server 3.

第1端末22aは、第1スマートスピーカ21aから受信した音声データ及び撮像データを第2サーバ4へ送信する。また、第1端末22aは、第2サーバ4から音声データ及び撮像データを受信する。第1端末22aは、第2サーバ4から受信した音声データを第1スマートスピーカ21aへ送信する。また、第1端末22aは、第2サーバ4から受信した撮像データを第1表示装置23aに出力する。第1表示装置23aは、第1端末22aから入力された撮像データに対応する映像を表示する。 The first terminal 22a transmits the audio data and the image pickup data received from the first smart speaker 21a to the second server 4. Further, the first terminal 22a receives audio data and image pickup data from the second server 4. The first terminal 22a transmits the voice data received from the second server 4 to the first smart speaker 21a. Further, the first terminal 22a outputs the image pickup data received from the second server 4 to the first display device 23a. The first display device 23a displays an image corresponding to the image pickup data input from the first terminal 22a.

更に、第1端末22aは、第1サーバ3へ要求信号を送信して、第1サーバ3に対し処理結果データ(端末用コマンド)の送信を要求する。第1端末22aは、第1サーバ3から端末用コマンドを受信すると、受信した端末用コマンドに対応する処理を実行する。 Further, the first terminal 22a transmits a request signal to the first server 3 and requests the first server 3 to transmit the processing result data (terminal command). When the first terminal 22a receives a terminal command from the first server 3, the first terminal 22a executes a process corresponding to the received terminal command.

なお、第2処理ユニット2bに含まれる第2スマートスピーカ21b、第2端末22b、及び第2表示装置23bの動作は、第1処理ユニット2aに含まれる第1スマートスピーカ21a、第1端末22a、及び第1表示装置23aの動作と同様であるため、その説明は省略する。また、第3処理ユニット2cに含まれる第3スマートスピーカ21c、第3端末22c、及び第3表示装置23cの動作は、第1処理ユニット2aに含まれる第1スマートスピーカ21a、第1端末22a、及び第1表示装置23aの動作と同様であるため、その説明は省略する。 The operation of the second smart speaker 21b, the second terminal 22b, and the second display device 23b included in the second processing unit 2b is the operation of the first smart speaker 21a, the first terminal 22a, included in the first processing unit 2a. Since the operation is the same as that of the first display device 23a, the description thereof will be omitted. Further, the operation of the third smart speaker 21c, the third terminal 22c, and the third display device 23c included in the third processing unit 2c is the operation of the first smart speaker 21a, the first terminal 22a, included in the first processing unit 2a. Since the operation is the same as that of the first display device 23a, the description thereof will be omitted.

続いて図7及び図8を参照して、実施形態2に係る第1スマートスピーカ21aの構成を説明する。図8は、実施形態2に係る第1スマートスピーカ21aの構成を示す図である。 Subsequently, the configuration of the first smart speaker 21a according to the second embodiment will be described with reference to FIGS. 7 and 8. FIG. 8 is a diagram showing the configuration of the first smart speaker 21a according to the second embodiment.

図8に示すように、第1スマートスピーカ21aは、音声入力部211、音声出力部212、第1通信部213、記憶部214、制御部215、撮像部216、及び第2通信部217を備える。なお、第1通信部213は、実施形態1において説明した通信部213に対応する。 As shown in FIG. 8, the first smart speaker 21a includes a voice input unit 211, a voice output unit 212, a first communication unit 213, a storage unit 214, a control unit 215, an image pickup unit 216, and a second communication unit 217. .. The first communication unit 213 corresponds to the communication unit 213 described in the first embodiment.

本実施形態において、制御部215は音声データ生成部の一例である。また、第1通信部213は音声データ送信部の一例であるとともに、第1処理結果データ受信部の一例である。 In the present embodiment, the control unit 215 is an example of the voice data generation unit. Further, the first communication unit 213 is an example of a voice data transmission unit and an example of a first processing result data reception unit.

撮像部216は、第1スマートスピーカ21aの周辺環境を撮像して画像信号(アナログ電気信号)を出力する。例えば、撮像部216は、CCD(Charge-Coupled Device)のような撮像素子を備える。 The image pickup unit 216 captures the surrounding environment of the first smart speaker 21a and outputs an image signal (analog electric signal). For example, the image pickup unit 216 includes an image pickup device such as a CCD (Charge-Coupled Device).

第2通信部217は、第1端末22aとの間の通信を制御する。第2通信部217は、例えば、Bluetooth(登録商標)のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第2通信部217は、例えば、USB(Universal Serial Bus)端子を備えるUSBインターフェースであり得る。 The second communication unit 217 controls communication with the first terminal 22a. The second communication unit 217 includes, for example, a wireless communication module conforming to a short-range wireless communication standard such as Bluetooth (registered trademark). Alternatively, the second communication unit 217 may be, for example, a USB interface including a USB (Universal Serial Bus) terminal.

第2通信部217は、音声入力部211が入力した音声に対応する音声データを第1端末22aへ送信する。また、第2通信部217は、撮像部216から出力された画像信号に対応する撮像データを第1端末22aへ送信する。更に、第2通信部217は、第1端末22aから音声データを受信する。 The second communication unit 217 transmits voice data corresponding to the voice input by the voice input unit 211 to the first terminal 22a. Further, the second communication unit 217 transmits the image pickup data corresponding to the image signal output from the image pickup unit 216 to the first terminal 22a. Further, the second communication unit 217 receives voice data from the first terminal 22a.

制御部215は、音声入力部211から入力されたアナログ電気信号(ユーザ音声)をデジタル信号(音声データ)に変換して、第2通信部217にデジタル信号を送信させる。また、制御部215は、撮像部216から入力された画像信号(アナログ電気信号)をデジタル信号(撮像データ)に変換して、第2通信部217にデジタル信号を送信させる。 The control unit 215 converts the analog electric signal (user voice) input from the voice input unit 211 into a digital signal (voice data), and causes the second communication unit 217 to transmit the digital signal. Further, the control unit 215 converts the image signal (analog electric signal) input from the image pickup unit 216 into a digital signal (imaging data), and causes the second communication unit 217 to transmit the digital signal.

更に、制御部215は、第2通信部217が受信したデジタル信号(音声データ)をアナログ電気信号に変換して、音声出力部212に音声を出力させる。また、実施形態1と同様に、制御部215は、第1通信部213が受信したデジタル信号(音声データ)をアナログ電気信号に変換して、音声出力部212に音声を出力させる。したがって、本実施形態において、音声出力部212は、第1通信部213が第1サーバ3から受信した音声データに対応する音声に加えて、第2通信部217が第1端末22aから受信した音声データに対応する音声を出力する。 Further, the control unit 215 converts the digital signal (voice data) received by the second communication unit 217 into an analog electric signal, and causes the voice output unit 212 to output voice. Further, as in the first embodiment, the control unit 215 converts the digital signal (voice data) received by the first communication unit 213 into an analog electric signal, and causes the voice output unit 212 to output voice. Therefore, in the present embodiment, in the voice output unit 212, in addition to the voice corresponding to the voice data received by the first communication unit 213 from the first server 3, the voice received by the second communication unit 217 from the first terminal 22a. Output the audio corresponding to the data.

更に、制御部215は、レディ状態となってから所定の期間が経過する前に音声入力部211がユーザ音声を入力すると、ユーザ音声に対応する音声データを第2通信部217に送信させる一方で、ユーザ音声に対応する音声データの複製物を記憶部214に保存する。制御部215は、所定の期間が経過すると、記憶部214に保存されている音声データ(複製物)を第1通信部213に送信させる。 Further, when the voice input unit 211 inputs the user voice before the predetermined period elapses after the ready state, the control unit 215 causes the second communication unit 217 to transmit the voice data corresponding to the user voice. , A copy of voice data corresponding to the user voice is stored in the storage unit 214. When the predetermined period elapses, the control unit 215 causes the first communication unit 213 to transmit the voice data (replica) stored in the storage unit 214.

以上、図7及び図8を参照して、第1スマートスピーカ21aの構成を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cの構成は、第1スマートスピーカ21aの構成と同様であるため、その説明は割愛する。 The configuration of the first smart speaker 21a has been described above with reference to FIGS. 7 and 8. Since the configurations of the second smart speaker 21b and the third smart speaker 21c are the same as the configurations of the first smart speaker 21a, the description thereof will be omitted.

続いて図7及び図9を参照して、第1サーバ3の構成を説明する。図9は、実施形態2に係る第1サーバ3の構成を示す図である。図9に示すように、第1サーバ3は、通信部31と、音声認識部32と、記憶部33と、制御部34とを備える。 Subsequently, the configuration of the first server 3 will be described with reference to FIGS. 7 and 9. FIG. 9 is a diagram showing the configuration of the first server 3 according to the second embodiment. As shown in FIG. 9, the first server 3 includes a communication unit 31, a voice recognition unit 32, a storage unit 33, and a control unit 34.

本実施形態において、記憶部33は、第1管理テーブル331と、第2管理テーブル332とを記憶する。第1管理テーブル331は、実施形態1において説明した管理テーブル331に対応する。したがって、第1管理テーブル331には、指定キーワードが登録されている。第2管理テーブル332には、第1スマートスピーカ21a~第3スマートスピーカ21cと第1端末22a~第3端末22cとの対応関係が登録されている。 In the present embodiment, the storage unit 33 stores the first management table 331 and the second management table 332. The first management table 331 corresponds to the management table 331 described in the first embodiment. Therefore, the designated keyword is registered in the first management table 331. In the second management table 332, the correspondence relationship between the first smart speaker 21a to the third smart speaker 21c and the first terminal 22a to the third terminal 22c is registered.

また、記憶部33は、端末用記憶領域333を有する。本実施形態において、端末用記憶領域333は、第1記憶領域333aと、第2記憶領域333bと、第3記憶領域333cとを含む。第1記憶領域333aは、第1端末22aに送信する端末用コマンド(処理結果データ)を記憶する領域である。同様に、第2記憶領域333bは、第2端末22bに送信する端末用コマンド(処理結果データ)を記憶する領域であり、第3記憶領域333cは、第3端末22cに送信する端末用コマンド(処理結果データ)を記憶する領域である。 Further, the storage unit 33 has a terminal storage area 333. In the present embodiment, the terminal storage area 333 includes a first storage area 333a, a second storage area 333b, and a third storage area 333c. The first storage area 333a is an area for storing terminal commands (processing result data) to be transmitted to the first terminal 22a. Similarly, the second storage area 333b is an area for storing terminal commands (processing result data) to be transmitted to the second terminal 22b, and the third storage area 333c is a terminal command (terminal command) to be transmitted to the third terminal 22c. This is an area for storing processing result data).

制御部34は、通信部31に処理結果データを送信させる。具体的には、制御部34は、処理結果データが音声データであるか端末用コマンドであるかを判定する。制御部34は、認識結果テキストに指定キーワードを示す文字列が含まれているか否かを示す判定結果と、処理結果データが音声データであるか端末用コマンドであるかを示す判定結果とに基づいて、処理結果データの送信先を決定する。 The control unit 34 causes the communication unit 31 to transmit the processing result data. Specifically, the control unit 34 determines whether the processing result data is voice data or a terminal command. The control unit 34 is based on a determination result indicating whether or not the recognition result text contains a character string indicating a specified keyword, and a determination result indicating whether the processing result data is voice data or a terminal command. To determine the destination of the processing result data.

詳しくは、処理結果データが音声データであり、認識結果テキストに指定キーワードを示す文字列が含まれていない場合、通信部31は、実施形態1と同様に、音声送信スマートスピーカに処理結果データを送信する。また、処理結果データが音声データであり、認識結果テキストに指定キーワードを示す文字列が含まれている場合、通信部31は、実施形態1と同様に、音声送信スマートスピーカと指定スマートスピーカとに処理結果データを送信する。 Specifically, when the processing result data is voice data and the recognition result text does not include a character string indicating a designated keyword, the communication unit 31 transmits the processing result data to the voice transmission smart speaker as in the first embodiment. Send. Further, when the processing result data is voice data and the recognition result text contains a character string indicating a designated keyword, the communication unit 31 uses the voice transmission smart speaker and the designated smart speaker as in the first embodiment. Send the processing result data.

一方、処理結果データが端末用コマンドあり、認識結果テキストに指定キーワードを示す文字列が含まれていない場合、制御部34は、第1記憶領域333a~第3記憶領域333cのうち、接続端末に対応する記憶領域に端末用コマンドを記憶させる。通信部31が接続端末から要求信号を受信すると、制御部34が、接続端末に対応する記憶領域から端末用コマンドを読み出し、通信部31が、記憶部33から読み出された端末用コマンドを接続端末に送信する。 On the other hand, when the processing result data has a command for a terminal and the recognition result text does not include a character string indicating a designated keyword, the control unit 34 sets the connection terminal in the first storage area 333a to the third storage area 333c. Store terminal commands in the corresponding storage area. When the communication unit 31 receives the request signal from the connected terminal, the control unit 34 reads the terminal command from the storage area corresponding to the connected terminal, and the communication unit 31 connects the terminal command read from the storage unit 33. Send to the terminal.

また、処理結果データが端末用コマンドあり、認識結果テキストに指定キーワードを示す文字列が含まれている場合、制御部34は、第1記憶領域333a~第3記憶領域333cのうち、接続端末に対応する記憶領域と、指定端末に対応する記憶領域とに端末用コマンドを記憶させる。通信部31が接続端末から要求信号を受信すると、制御部34が、接続端末に対応する記憶領域から端末用コマンドを読み出し、通信部31が、記憶部33から読み出された端末用コマンドを接続端末に送信する。また、通信部31が指定端末から要求信号を受信すると、制御部34が、指定端末に対応する記憶領域から端末用コマンドを読み出し、通信部31が、記憶部33から読み出された端末用コマンドを指定端末に送信する。 Further, when the processing result data has a command for a terminal and the recognition result text contains a character string indicating a designated keyword, the control unit 34 sets the connection terminal in the first storage area 333a to the third storage area 333c. The terminal command is stored in the corresponding storage area and the storage area corresponding to the designated terminal. When the communication unit 31 receives the request signal from the connected terminal, the control unit 34 reads the terminal command from the storage area corresponding to the connected terminal, and the communication unit 31 connects the terminal command read from the storage unit 33. Send to the terminal. Further, when the communication unit 31 receives the request signal from the designated terminal, the control unit 34 reads the terminal command from the storage area corresponding to the designated terminal, and the communication unit 31 reads the terminal command from the storage unit 33. Is sent to the designated terminal.

続いて図10(a)及び図10(b)を参照して、第1管理テーブル331及び第2管理テーブル332を説明する。図10(a)は、実施形態2に係る第1管理テーブル331を示す図である。図10(b)は、実施形態2に係る第2管理テーブル332を示す図である。図10(a)に示すように、第1管理テーブル331は、図4を参照して説明した管理テーブル331と同様に、スマートスピーカ登録欄41と、指定キーワード登録欄42とを有する。 Subsequently, the first management table 331 and the second management table 332 will be described with reference to FIGS. 10 (a) and 10 (b). FIG. 10A is a diagram showing a first management table 331 according to the second embodiment. FIG. 10B is a diagram showing a second management table 332 according to the second embodiment. As shown in FIG. 10A, the first management table 331 has a smart speaker registration column 41 and a designated keyword registration column 42, similarly to the management table 331 described with reference to FIG.

図10(b)に示すように、第2管理テーブル332は、スマートスピーカ登録欄101と、端末登録欄102とを有する。スマートスピーカ登録欄101には、図10(a)に示すスマートスピーカ登録欄41と同様に、スマートスピーカ識別情報が登録される。端末登録欄102には、サーバ3との間で通信が可能な端末を識別する端末識別情報が登録される。第2管理テーブル332は、スマートスピーカ識別情報と端末識別情報とを関連付ける。 As shown in FIG. 10B, the second management table 332 has a smart speaker registration column 101 and a terminal registration column 102. Similar to the smart speaker registration field 41 shown in FIG. 10A, smart speaker identification information is registered in the smart speaker registration field 101. In the terminal registration field 102, terminal identification information for identifying a terminal capable of communicating with the server 3 is registered. The second management table 332 associates the smart speaker identification information with the terminal identification information.

本実施形態では、端末登録欄102に、第1端末22a~第3端末22cを識別する端末識別情報が登録される。端末識別情報は、ユーザが任意に決定して登録する。例えば、ユーザは、スマートスピーカ識別情報を登録する際に、スマートスピーカ識別情報に関連付けて端末識別情報を登録し得る。 In the present embodiment, the terminal identification information that identifies the first terminal 22a to the third terminal 22c is registered in the terminal registration field 102. The terminal identification information is arbitrarily determined and registered by the user. For example, when registering the smart speaker identification information, the user may register the terminal identification information in association with the smart speaker identification information.

なお、第1端末22a~第3端末22cは、要求信号を第1サーバ3に送信する際に、自機の端末識別情報を送信する。第1端末22a~第3端末22cはそれぞれ、自機の端末識別情報を記憶している。第1サーバ3は、要求信号と共に受信した端末識別情報に基づいて、要求信号を送信した端末に処理結果データを送信する。 The first terminal 22a to the third terminal 22c transmit the terminal identification information of the own machine when transmitting the request signal to the first server 3. Each of the first terminal 22a to the third terminal 22c stores the terminal identification information of the own machine. The first server 3 transmits the processing result data to the terminal that transmitted the request signal based on the terminal identification information received together with the request signal.

続いて図7及び図11を参照して、第1端末22aの構成を説明する。図11は、実施形態2に係る第1端末22aの構成を示す図である。図11に示すように、第1端末22aは、第1通信部221、第2通信部222、出力部223、記憶部224、及び制御部225を備える。本実施形態において、第1端末22aは、ノート型PC(パーソナルコンピュータ)又はデスクトップ型PCのような情報処理装置である。あるいは、第1端末22aは、タブレットPC又はスマートフォンのような携帯型の情報処理装置である。 Subsequently, the configuration of the first terminal 22a will be described with reference to FIGS. 7 and 11. FIG. 11 is a diagram showing the configuration of the first terminal 22a according to the second embodiment. As shown in FIG. 11, the first terminal 22a includes a first communication unit 221, a second communication unit 222, an output unit 223, a storage unit 224, and a control unit 225. In the present embodiment, the first terminal 22a is an information processing device such as a notebook PC (personal computer) or a desktop PC. Alternatively, the first terminal 22a is a portable information processing device such as a tablet PC or a smartphone.

第1通信部221は、第1サーバ3との間の通信を制御する。また、第1通信部221は、第2サーバ4との間の通信を制御する。第1通信部221は、例えば、LANボード又は無線LANボードを備える。本実施形態において、第1通信部221は、第2処理結果データ受信部の一例である。また、第1通信部221は、要求信号送信部の一例である。 The first communication unit 221 controls communication with the first server 3. Further, the first communication unit 221 controls communication with the second server 4. The first communication unit 221 includes, for example, a LAN board or a wireless LAN board. In the present embodiment, the first communication unit 221 is an example of the second processing result data receiving unit. Further, the first communication unit 221 is an example of a request signal transmission unit.

具体的には、第1通信部221は、要求信号と、図10(b)を参照して説明した端末識別情報とを第1サーバ3に送信する。また、第1通信部221は、第1サーバ3から処理結果データ(端末用コマンド)を受信する。 Specifically, the first communication unit 221 transmits the request signal and the terminal identification information described with reference to FIG. 10B to the first server 3. Further, the first communication unit 221 receives the processing result data (terminal command) from the first server 3.

更に、第1通信部221は、音声データ及び撮像データを第2サーバ4に送信する。また、第1通信部221は、音声データ及び撮像データを第2サーバ4から受信する。 Further, the first communication unit 221 transmits the voice data and the image pickup data to the second server 4. Further, the first communication unit 221 receives the audio data and the image pickup data from the second server 4.

第2通信部222は、第1スマートスピーカ21aとの間の通信を制御する。第2通信部222は、例えば、Bluetooth(登録商標)のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第2通信部222は、例えば、USB端子を備えるUSBインターフェースであり得る。 The second communication unit 222 controls communication with the first smart speaker 21a. The second communication unit 222 includes, for example, a wireless communication module conforming to a short-range wireless communication standard such as Bluetooth (registered trademark). Alternatively, the second communication unit 222 may be, for example, a USB interface including a USB terminal.

第2通信部222は、第1スマートスピーカ21aから音声データを受信する。また、第2通信部222は、第1スマートスピーカ21aへ音声データを送信する。更に、第2通信部222は、第1スマートスピーカ21aから撮像データを受信する。 The second communication unit 222 receives voice data from the first smart speaker 21a. Further, the second communication unit 222 transmits voice data to the first smart speaker 21a. Further, the second communication unit 222 receives the image pickup data from the first smart speaker 21a.

出力部223は、撮像データを第1表示装置23aに出力する。出力部223は、例えば、HDMI(登録商標)端子又はDisplayportのようなデジタル映像インターフェースである。なお、出力部223は、D-SUB端子のようなアナログ映像インターフェースであってもよい。 The output unit 223 outputs the image pickup data to the first display device 23a. The output unit 223 is, for example, an HDMI (registered trademark) terminal or a digital video interface such as Displayport. The output unit 223 may be an analog video interface such as a D-SUB terminal.

記憶部224は、例えばRAM及びROMのような半導体メモリーを備える。更に、記憶部224は、HDDのようなストレージデバイスを備える。記憶部224は、制御部225が実行する制御プログラムを記憶する。また、記憶部224は、図10(b)を参照して説明した端末識別情報を記憶する。本実施形態において、記憶部224は更に、ウエブ会議用アプリケーションソフトウエアを記憶する。 The storage unit 224 includes a semiconductor memory such as a RAM and a ROM. Further, the storage unit 224 includes a storage device such as an HDD. The storage unit 224 stores the control program executed by the control unit 225. Further, the storage unit 224 stores the terminal identification information described with reference to FIG. 10 (b). In this embodiment, the storage unit 224 further stores application software for web conferencing.

制御部225は、例えばCPU又はMPUのようなプロセッサを備える。また、制御部225は、記憶部224に記憶された制御プログラムに基づいて、第1端末22aの動作を制御する。 The control unit 225 includes a processor such as a CPU or an MPU. Further, the control unit 225 controls the operation of the first terminal 22a based on the control program stored in the storage unit 224.

具体的には、制御部225は、定期的に要求信号を生成し、第1通信部221を介して要求信号と端末識別情報とを第1サーバ3に送信する。例えば、制御部225は、30秒ごと、又は1分ごとに、第1通信部221を介して要求信号と接続端末識別情報とを送信する。また、制御部225は、第1通信部221を介して第1サーバ3から処理結果データ(端末用コマンド)を受信すると、端末用コマンドに対応する処理を実行する。 Specifically, the control unit 225 periodically generates a request signal, and transmits the request signal and the terminal identification information to the first server 3 via the first communication unit 221. For example, the control unit 225 transmits a request signal and connection terminal identification information via the first communication unit 221 every 30 seconds or every minute. Further, when the control unit 225 receives the processing result data (terminal command) from the first server 3 via the first communication unit 221, the control unit 225 executes the process corresponding to the terminal command.

例えば、端末用コマンドは、ウエブ会議の終了を命令するコマンドであり得る。端末用コマンドがウエブ会議の終了を命令するコマンドである場合、制御部225は、ウエブ会議用アプリケーションソフトウエアの実行を停止する。あるいは、端末用コマンドは、印刷の実行を命令するコマンドであり得る。端末用コマンドが印刷の実行を命令するコマンドである場合、制御部225は、第1端末22aに接続されているプリンターに印刷を要求する。 For example, the terminal command can be a command that commands the end of the web conference. When the terminal command is a command for instructing the end of the web conference, the control unit 225 stops the execution of the web conference application software. Alternatively, the terminal command may be a command instructing the execution of printing. When the terminal command is a command for instructing the execution of printing, the control unit 225 requests the printer connected to the first terminal 22a to print.

続いて図7及び図11を参照して、第1端末22aの制御部225がウエブ会議用アプリケーションソフトウエアに基づいて実行する処理について説明する。制御部225は、ウエブ会議用アプリケーションソフトウエアを実行することにより、第2処理ユニット2bの第2端末22bと第3処理ユニット2cの第3端末22cとの間でウエブ会議を実行する。 Subsequently, with reference to FIGS. 7 and 11, a process executed by the control unit 225 of the first terminal 22a based on the web conference application software will be described. The control unit 225 executes the web conference between the second terminal 22b of the second processing unit 2b and the third terminal 22c of the third processing unit 2c by executing the application software for the web conference.

具体的には、制御部225は、第2通信部222を介して第1スマートスピーカ21aから受信した音声データ及び撮像データを、第1通信部221を介して第2サーバ4へ送信する。この結果、第2処理ユニット2bの第2スマートスピーカ21b、及び第3処理ユニット2cの第3スマートスピーカ21cから、第1スマートスピーカ21aに入力された音声が出力される。また、第2処理ユニット2bの第2表示装置23b、及び第3処理ユニット2cの第3表示装置23cが、第1スマートスピーカ21aによって撮像された映像を表示する。 Specifically, the control unit 225 transmits the audio data and the image pickup data received from the first smart speaker 21a via the second communication unit 222 to the second server 4 via the first communication unit 221. As a result, the voice input to the first smart speaker 21a is output from the second smart speaker 21b of the second processing unit 2b and the third smart speaker 21c of the third processing unit 2c. Further, the second display device 23b of the second processing unit 2b and the third display device 23c of the third processing unit 2c display the image captured by the first smart speaker 21a.

また、制御部225は、第1通信部221を介して第2サーバ4から受信した音声データを、第2通信部222を介して第1スマートスピーカ21aに送信する。この結果、第1スマートスピーカ21aから、第2処理ユニット2bの第2スマートスピーカ21bによって入力された音声が出力される。また、第1スマートスピーカ21aから、第3処理ユニット2cの第3スマートスピーカ21cによって入力された音声が出力される。 Further, the control unit 225 transmits the voice data received from the second server 4 via the first communication unit 221 to the first smart speaker 21a via the second communication unit 222. As a result, the sound input by the second smart speaker 21b of the second processing unit 2b is output from the first smart speaker 21a. Further, the sound input by the third smart speaker 21c of the third processing unit 2c is output from the first smart speaker 21a.

また、制御部225は、第1通信部221を介して第2サーバ4から受信した撮像データを、出力部223を介して第1表示装置23aに出力する。この結果、第1表示装置23aが、第2処理ユニット2bの第2スマートスピーカ21bによって撮像された映像、及び第3処理ユニット2cの第3スマートスピーカ21cによって撮像された映像を表示する。 Further, the control unit 225 outputs the image pickup data received from the second server 4 via the first communication unit 221 to the first display device 23a via the output unit 223. As a result, the first display device 23a displays the image captured by the second smart speaker 21b of the second processing unit 2b and the image captured by the third smart speaker 21c of the third processing unit 2c.

以上、図7及び図11を参照して、第1端末22aの構成を説明した。なお、第2端末22b及び第3端末22cの構成は第1端末22aの構成と同様であるため、その説明は省略する。 The configuration of the first terminal 22a has been described above with reference to FIGS. 7 and 11. Since the configurations of the second terminal 22b and the third terminal 22c are the same as the configurations of the first terminal 22a, the description thereof will be omitted.

続いて図7、図9、図10(a)、図10(b)及び図12を参照して、第1サーバ3の動作を説明する。図12は、実施形態2に係る第1サーバ3の動作を示すフローチャートである。図12に示す動作は、第1サーバ3の通信部31が音声データ及びスマートスピーカ識別情報を受信するとスタートする。 Subsequently, the operation of the first server 3 will be described with reference to FIGS. 7, 9, 10 (a), 10 (b), and 12. FIG. 12 is a flowchart showing the operation of the first server 3 according to the second embodiment. The operation shown in FIG. 12 starts when the communication unit 31 of the first server 3 receives the voice data and the smart speaker identification information.

図12に示すように、通信部31が音声データ及びスマートスピーカ識別情報を受信すると、図6を参照して説明した動作と同様に、音声認識部32が、音声データをテキスト情報に変換して、認識結果テキストを生成する(ステップS21)。また、制御部34は、通信部31が音声データ及びスマートスピーカ識別情報を受信すると、処理結果データ(音声データ)の送信先として、通信部31が受信したスマートスピーカ識別情報を記憶部33に保存する。 As shown in FIG. 12, when the communication unit 31 receives the voice data and the smart speaker identification information, the voice recognition unit 32 converts the voice data into text information in the same manner as the operation described with reference to FIG. , A recognition result text is generated (step S21). Further, when the communication unit 31 receives the voice data and the smart speaker identification information, the control unit 34 stores the smart speaker identification information received by the communication unit 31 in the storage unit 33 as a transmission destination of the processing result data (voice data). do.

制御部34は、認識結果テキストを取得すると、図6を参照して説明した動作と同様に、認識結果テキストから特定のコマンドを認識できるか否かを判定する(ステップS22)。 When the control unit 34 acquires the recognition result text, it determines whether or not a specific command can be recognized from the recognition result text, as in the operation described with reference to FIG. 6 (step S22).

制御部34は、認識結果テキストから特定のコマンドを認識できると判定すると(ステップS22のYes)、図6を参照して説明した動作と同様に、認識した特定のコマンドを記憶部33に保存する(ステップS23)。 When the control unit 34 determines that the specific command can be recognized from the recognition result text (Yes in step S22), the control unit 34 stores the recognized specific command in the storage unit 33 in the same manner as the operation described with reference to FIG. (Step S23).

制御部34は、認識した特定のコマンドを記憶部33に保存すると、図6を参照して説明した動作と同様に、記憶部33に記憶されている第1管理テーブル331を参照して、認識結果テキストから指定キーワードを認識できるか否かを判定する(ステップS24)。 When the recognized specific command is stored in the storage unit 33, the control unit 34 recognizes by referring to the first management table 331 stored in the storage unit 33 in the same manner as the operation described with reference to FIG. It is determined whether or not the designated keyword can be recognized from the result text (step S24).

制御部34は、認識結果テキストから指定キーワードを認識できると判定すると(ステップS24のYes)、図6を参照して説明した動作と同様に、認識した指定キーワードに対応するスマートスピーカ識別情報を、処理結果データ(音声データ)の送信先として記憶部33に保存する(ステップS25)。 When the control unit 34 determines that the designated keyword can be recognized from the recognition result text (Yes in step S24), the control unit 34 obtains the smart speaker identification information corresponding to the recognized designated keyword, as in the operation described with reference to FIG. It is stored in the storage unit 33 as a transmission destination of the processing result data (voice data) (step S25).

制御部34は、スマートスピーカ識別情報を記憶部33に保存すると、記憶部33に保存した特定のコマンドが、処理結果データとして音声データを取得させるコマンドであるのか、処理結果データとして端末用コマンドを取得させるコマンドであるのかを判定する(ステップS26)。あるいは、制御部34は、認識結果テキストから指定キーワードを認識できないと判定すると(ステップS24のNo)、記憶部33に保存した特定のコマンドが、処理結果データとして音声データを取得させるコマンドであるのか、処理結果データとして端末用コマンドを取得させるコマンドであるのかを判定する(ステップS26)。 When the smart speaker identification information is stored in the storage unit 33, the control unit 34 issues a terminal command as the processing result data, whether the specific command stored in the storage unit 33 is a command for acquiring voice data as the processing result data. It is determined whether the command is to be acquired (step S26). Alternatively, if the control unit 34 determines that the designated keyword cannot be recognized from the recognition result text (No in step S24), is the specific command stored in the storage unit 33 a command to acquire voice data as processing result data? , It is determined whether the command is to acquire the terminal command as the processing result data (step S26).

制御部34は、特定のコマンドが音声データを取得させるコマンドであると判定すると(ステップS26の「音声データ」)、特定のコマンドに対応する処理を実行して、音声データ(処理結果データ)を取得する(ステップS27)。あるいは、制御部34は、他のサーバに、特定のコマンドに対応する処理の実行を要求して、他のサーバから音声データ(処理結果データ)を取得する(ステップS27)。 When the control unit 34 determines that the specific command is a command for acquiring voice data (“voice data” in step S26), the control unit 34 executes a process corresponding to the specific command and obtains voice data (processing result data). Acquire (step S27). Alternatively, the control unit 34 requests another server to execute a process corresponding to a specific command, and acquires voice data (process result data) from the other server (step S27).

制御部34は、音声データ(処理結果データ)を取得すると、処理結果データの送信先として記憶部33に保存したスマートスピーカ識別情報を参照して、通信部31に音声データ(処理結果データ)を送信させ(ステップS28)、図12に示す動作を終了する。詳しくは、認識結果テキストから指定キーワードを認識できた場合(ステップS24のYes)、第1サーバ3は、音声送信スマートスピーカと指定スマートスピーカとに音声データ(処理結果データ)を送信する。一方、認識結果テキストから指定キーワードを認識できない場合(ステップS24のNo)、第1サーバ3は、音声送信スマートスピーカに音声データ(処理結果データ)を送信する。 When the control unit 34 acquires the voice data (processing result data), the control unit 34 refers to the smart speaker identification information stored in the storage unit 33 as the transmission destination of the processing result data, and outputs the voice data (processing result data) to the communication unit 31. The transmission is performed (step S28), and the operation shown in FIG. 12 is terminated. Specifically, when the designated keyword can be recognized from the recognition result text (Yes in step S24), the first server 3 transmits voice data (processing result data) to the voice transmission smart speaker and the designated smart speaker. On the other hand, when the designated keyword cannot be recognized from the recognition result text (No in step S24), the first server 3 transmits voice data (processing result data) to the voice transmission smart speaker.

一方、制御部34は、特定のコマンドが端末用コマンドを取得させるコマンドであると判定すると(ステップS26の「コマンド」)、特定のコマンドに対応する処理を実行して、端末用コマンド(処理結果データ)を取得する(ステップS29)。 On the other hand, when the control unit 34 determines that the specific command is a command for acquiring the terminal command (“command” in step S26), the control unit 34 executes the process corresponding to the specific command and executes the process corresponding to the specific command (process result). Data) is acquired (step S29).

制御部34は、端末用コマンド(処理結果データ)を取得すると、処理結果データの送信先として記憶部33に保存したスマートスピーカ識別情報と、第2管理テーブル332とを参照して、第1記憶領域333a~第3記憶領域333cのうちの少なくとも1つに端末用コマンドを記憶させる(ステップS30)。 When the control unit 34 acquires the terminal command (processing result data), the control unit 34 refers to the smart speaker identification information stored in the storage unit 33 as the transmission destination of the processing result data and the second management table 332 for the first storage. The terminal command is stored in at least one of the areas 333a to the third storage area 333c (step S30).

制御部34は、端末用コマンドを端末用記憶領域333に記憶した後に、通信部31が要求用信号を受信すると、端末用記憶領域333に記憶した端末用コマンド(処理結果データ)を通信部31に送信させ(ステップS31)、図12に示す動作を終了する。詳しくは、認識結果テキストから指定キーワードを認識できた場合(ステップS24のYes)、第1サーバ3は、接続端末と指定端末とに端末用コマンド(処理結果データ)を送信する。一方、認識結果テキストから指定キーワードを認識できない場合(ステップS24のNo)、第1サーバ3は、接続端末に端末用コマンド(処理結果データ)を送信する。 When the communication unit 31 receives the request signal after storing the terminal command in the terminal storage area 333, the control unit 34 stores the terminal command (processing result data) stored in the terminal storage area 333 in the communication unit 31. (Step S31), and the operation shown in FIG. 12 is terminated. Specifically, when the designated keyword can be recognized from the recognition result text (Yes in step S24), the first server 3 transmits a terminal command (processing result data) to the connected terminal and the designated terminal. On the other hand, when the designated keyword cannot be recognized from the recognition result text (No in step S24), the first server 3 transmits a terminal command (processing result data) to the connected terminal.

また、制御部34は、認識結果テキストから特定のコマンドを認識できないと判定すると(ステップS22のNo)、図6を参照して説明した動作と同様に、エラーフラグをONにして(ステップS32)、エラーメッセージを示す音声データを通信部31に送信させ(ステップS28)、図12に示す動作を終了する。詳しくは、第1サーバ3は、音声送信スマートスピーカにエラーメッセージ(音声データ)を送信する。 Further, when the control unit 34 determines that the specific command cannot be recognized from the recognition result text (No in step S22), the error flag is turned ON (step S32) in the same manner as the operation described with reference to FIG. , The voice data indicating the error message is transmitted to the communication unit 31 (step S28), and the operation shown in FIG. 12 is terminated. Specifically, the first server 3 transmits an error message (voice data) to the voice transmission smart speaker.

続いて図11及び図13を参照して、第1端末22aの動作を説明する。図13は、実施形態2に係る第1端末22aの動作を示すフローチャートである。図13に示す動作は、定期的に実行される。 Subsequently, the operation of the first terminal 22a will be described with reference to FIGS. 11 and 13. FIG. 13 is a flowchart showing the operation of the first terminal 22a according to the second embodiment. The operation shown in FIG. 13 is periodically executed.

詳しくは、図13に示すように、制御部225は、第1通信部221を介して第1サーバ3に要求信号を送信する(ステップS41)。制御部225は、要求信号を送信した後、第1通信部221が第1サーバ3から端末用コマンドを受信したか否かを判定する(ステップS42)。制御部225は、第1通信部221が端末用コマンドを受信したと判定すると(ステップS42のYes)、受信した端末用コマンドに対応する処理を実行して(ステップS43)、図13に示す動作を終了する。あるいは、制御部225、第1通信部221が端末用コマンドを受信しないと判定すると(ステップS42のNo)、図13に示す動作を終了する。 Specifically, as shown in FIG. 13, the control unit 225 transmits a request signal to the first server 3 via the first communication unit 221 (step S41). After transmitting the request signal, the control unit 225 determines whether or not the first communication unit 221 has received the terminal command from the first server 3 (step S42). When the control unit 225 determines that the first communication unit 221 has received the terminal command (Yes in step S42), the control unit 225 executes a process corresponding to the received terminal command (step S43), and performs the operation shown in FIG. To finish. Alternatively, when it is determined that the control unit 225 and the first communication unit 221 do not receive the terminal command (No in step S42), the operation shown in FIG. 13 ends.

なお、第2端末22bの制御部225及び第3端末22cの制御部225も、第1端末22aの制御部225と同様の動作を実行する。 The control unit 225 of the second terminal 22b and the control unit 225 of the third terminal 22c also execute the same operation as the control unit 225 of the first terminal 22a.

以上、図7~図13を参照して、本発明の実施形態2について説明した。本実施形態によれば、音声データをサーバに送信した処理ユニットに加えて、音声データをサーバに送信した処理ユニット以外の処理ユニットも処理の結果を受信することができる。例えば、第1処理ユニット2a(第1端末22a)のユーザが起動コマンドを示す音声を発声した後、所定の期間内に、ウエブ会議の終了を促す音声と、B地点を示す音声とを発声すると、第1端末22a及び第2端末22bがウエブ会議用アプリケーションの実行を停止する。あるいは、第1処理ユニット2a(第1端末22a)のユーザが起動コマンドを示す音声を発声した後、所定の期間内に、ウエブ会議の終了を促す音声と、「オール」を示す音声とを発声すると、第1端末22a~第3端末22cがウエブ会議用アプリケーションの実行を停止する。 The second embodiment of the present invention has been described above with reference to FIGS. 7 to 13. According to the present embodiment, in addition to the processing unit that has transmitted the voice data to the server, the processing unit other than the processing unit that has transmitted the voice data to the server can also receive the processing result. For example, when the user of the first processing unit 2a (first terminal 22a) utters a voice indicating an activation command, and then utters a voice prompting the end of the web conference and a voice indicating the point B within a predetermined period. , The first terminal 22a and the second terminal 22b stop the execution of the web conference application. Alternatively, after the user of the first processing unit 2a (first terminal 22a) utters a voice indicating an activation command, a voice prompting the end of the web conference and a voice indicating "all" are uttered within a predetermined period. Then, the first terminal 22a to the third terminal 22c stop the execution of the web conference application.

なお、本実施形態において、第1スマートスピーカ21a~第3スマートスピーカ21cが撮像部216を備える構成を説明したが、第1端末22a~第3端末22cが撮像部を備えてもよい。あるいは、第1端末22a~第3端末22cに周辺装置としてカメラ装置が接続されてもよい。 Although the configuration in which the first smart speaker 21a to the third smart speaker 21c include the image pickup unit 216 has been described in the present embodiment, the first terminal 22a to the third terminal 22c may include the image pickup unit. Alternatively, a camera device may be connected to the first terminal 22a to the third terminal 22c as a peripheral device.

また、本実施形態において、情報処理システム1はウエブ会議システムであったが、情報処理システム1はテレビ会議システム又は電話会議システムであってもよい。この場合、第1端末22a~第3端末22cは、LANを介して接続される。 Further, in the present embodiment, the information processing system 1 is a web conference system, but the information processing system 1 may be a video conference system or a telephone conference system. In this case, the first terminal 22a to the third terminal 22c are connected via a LAN.

情報処理システム1がテレビ会議システム又は電話会議システムである場合、第2サーバ4は省略され得る。また、情報処理システム1が電話会議システムである場合、第1端末22a~第3端末22cは、電話会議専用のマイク/スピーカ装置であり得る。また、情報処理システム1が電話会議システムである場合、第1表示装置23a~第3表示装置23cは省略され得る。 When the information processing system 1 is a video conference system or a telephone conference system, the second server 4 may be omitted. When the information processing system 1 is a conference call system, the first terminal 22a to the third terminal 22c may be microphone / speaker devices dedicated to the conference call. Further, when the information processing system 1 is a telephone conference system, the first display device 23a to the third display device 23c may be omitted.

また、本実施形態において、第1処理ユニット2a~第3処理ユニット2cが第1端末22a~第3端末22cを含む構成について説明したが、第1スマートスピーカ21a~第3スマートスピーカ21cが第1端末22a~第3端末22cの機能を有してもよい。この場合、第1端末22a~第3端末22cは省略され得る。 Further, in the present embodiment, the configuration in which the first processing unit 2a to the third processing unit 2c include the first terminal 22a to the third terminal 22c has been described, but the first smart speaker 21a to the third smart speaker 21c are the first. It may have the function of the terminal 22a to the third terminal 22c. In this case, the first terminal 22a to the third terminal 22c may be omitted.

以上、本発明の実施形態1、2について図面を参照しながら説明した。但し、本発明は、上記の実施形態に限られず、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。 The embodiments 1 and 2 of the present invention have been described above with reference to the drawings. However, the present invention is not limited to the above embodiment, and can be implemented in various embodiments without departing from the gist thereof.

例えば、本発明による実施形態では、情報処理システム1は、3つの処理ユニットを備えたが、情報処理システム1は、2つの処理ユニット又は4つ以上の処理ユニットを備えてもよい。 For example, in the embodiment according to the present invention, the information processing system 1 includes three processing units, but the information processing system 1 may include two processing units or four or more processing units.

また、本発明による実施形態において、第1スマートスピーカ21a~第3スマートスピーカ21cの制御部215は、所定の期間が経過した後にユーザ音声をサーバ3に送信したが、第1スマートスピーカ21a~第3スマートスピーカ21cの制御部215は、所定の期間が経過する前にユーザ音声をサーバ3に送信してもよい。具体的には、第1スマートスピーカ21a~第3スマートスピーカ21cの制御部215は、音声データを、所定回数(例えば、2回)、記憶部214に保存すると、記憶部214に保存した音声データをサーバ3に送信してもよい。 Further, in the embodiment according to the present invention, the control unit 215 of the first smart speaker 21a to the third smart speaker 21c transmits the user voice to the server 3 after a predetermined period has elapsed, but the first smart speaker 21a to the first smart speaker 21a to the third smart speaker 21a. The control unit 215 of the 3 smart speaker 21c may transmit the user voice to the server 3 before the predetermined period elapses. Specifically, when the control unit 215 of the first smart speaker 21a to the third smart speaker 21c stores the voice data in the storage unit 214 a predetermined number of times (for example, twice), the voice data stored in the storage unit 214. May be sent to the server 3.

本発明は、スマートスピーカのような音声入出力端末を使用するシステムに有用である。 The present invention is useful for systems that use audio input / output terminals such as smart speakers.

1 情報処理システム
2a 第1処理ユニット
2b 第2処理ユニット
2c 第3処理ユニット
3 サーバ
21a 第1スマートスピーカ
21b 第2スマートスピーカ
21c 第3スマートスピーカ
22a 第1端末
22b 第2端末
22c 第3端末
31 通信部
32 音声認識部
34 制御部
211 音声入力部
213 通信部
215 制御部
221 第1通信部
333 端末用記憶領域
333a 第1記憶領域
333b 第2記憶領域
333c 第3記憶領域
1 Information processing system 2a 1st processing unit 2b 2nd processing unit 2c 3rd processing unit 3 server 21a 1st smart speaker 21b 2nd smart speaker 21c 3rd smart speaker 22a 1st terminal 22b 2nd terminal 22c 3rd terminal 31 communication Unit 32 Voice recognition unit 34 Control unit 211 Voice input unit 213 Communication unit 215 Control unit 221 First communication unit 333 Terminal storage area 333a First storage area 333b Second storage area 333c Third storage area

Claims (5)

複数の処理ユニットを備えた情報処理システムであって、
前記処理ユニットは、
特定のコマンドを示す第1音声と、前記複数の処理ユニットのうちの少なくとも1つを特定する第2音声とを入力する音声入力部と、
前記第1音声に対応する第1音声データ及び前記第2音声に対応する第2音声データを生成する音声データ生成部と、
前記第1音声データ及び前記第2音声データをサーバに送信する音声データ送信部と、
前記サーバから処理結果データを受信する少なくとも1つの処理結果データ受信部と
を備え、
前記処理ユニットは、音声入出力端末及び情報処理端末を含み、
前記音声入出力端末は、前記音声入力部、前記音声データ生成部、及び前記音声データ送信部を備え、
前記情報処理端末は、前記処理結果データ受信部を備え、
前記処理結果データは、前記特定のコマンドに対応する処理の実行結果を示し、
前記複数の処理ユニットのうち、前記第1音声データ及び前記第2音声データを送信した処理ユニットである第1処理ユニットに含まれる前記情報処理端末と、前記第2音声データによって特定された処理ユニットである第2処理ユニットに含まれる前記情報処理端末とがそれぞれ、前記サーバから同一の前記処理結果データを受信する、情報処理システム。
An information processing system equipped with multiple processing units.
The processing unit is
A voice input unit for inputting a first voice indicating a specific command and a second voice specifying at least one of the plurality of processing units.
A voice data generation unit that generates a first voice data corresponding to the first voice and a second voice data corresponding to the second voice, and a voice data generation unit.
A voice data transmission unit that transmits the first voice data and the second voice data to the server, and
It is provided with at least one processing result data receiving unit that receives processing result data from the server.
The processing unit includes an audio input / output terminal and an information processing terminal.
The voice input / output terminal includes the voice input unit, the voice data generation unit, and the voice data transmission unit.
The information processing terminal includes the processing result data receiving unit.
The processing result data indicates the execution result of the processing corresponding to the specific command.
Among the plurality of processing units, the information processing terminal included in the first processing unit which is the processing unit that transmitted the first voice data and the second voice data, and the processing unit specified by the second voice data. An information processing system in which the information processing terminal included in the second processing unit receives the same processing result data from the server.
複数の処理ユニットを備えた情報処理システムであって、
前記処理ユニットは、
特定のコマンドを示す第1音声と、前記複数の処理ユニットのうちの少なくとも1つを特定する第2音声とを入力する音声入力部と、
前記第1音声に対応する第1音声データ及び前記第2音声に対応する第2音声データを生成する音声データ生成部と、
前記第1音声データ及び前記第2音声データをサーバに送信する音声データ送信部と、
前記サーバから処理結果データを受信する少なくとも1つの処理結果データ受信部と
を備え、
前記少なくも1つの処理結果データ受信部は、第1処理結果データ受信部及び第2処理結果データ受信部を含み、
前記処理ユニットは、音声入出力端末及び情報処理端末を含み、
前記処理結果データは、前記特定のコマンドに対応する処理の実行結果を示し、
前記複数の処理ユニットのうち、前記第1音声データ及び前記第2音声データを送信した処理ユニットである第1処理ユニットと、前記第2音声データによって特定された処理ユニットである第2処理ユニットとがそれぞれ、前記サーバから同一の前記処理結果データを受信し、
前記特定のコマンドは、前記処理結果データとして音声データを取得させる第1コマンドと、前記処理結果データとして前記情報処理端末に対する命令を示す端末用コマンドを取得させる第2コマンドとを含み、
前記音声入出力端末は、前記音声入力部、前記音声データ生成部、前記音声データ送信部、及び前記第1処理結果データ受信部を備え、
前記情報処理端末は、前記第2処理結果データ受信部を備え、
前記複数の処理ユニットのうち、前記第1処理ユニットに含まれる前記音声入出力端末と、前記第2処理ユニットに含まれる前記音声入出力端末とがそれぞれ、前記処理結果データとして、前記サーバから同一の前記音声データを受信し、
前記複数の処理ユニットのうち、前記第1処理ユニットに含まれる前記情報処理端末と、前記第2処理ユニットに含まれる前記情報処理端末とがそれぞれ、前記処理結果データとして、前記サーバから同一の前記端末用コマンドを受信する、情報処理システム。
An information processing system equipped with multiple processing units.
The processing unit is
A voice input unit for inputting a first voice indicating a specific command and a second voice specifying at least one of the plurality of processing units.
A voice data generation unit that generates a first voice data corresponding to the first voice and a second voice data corresponding to the second voice, and a voice data generation unit.
A voice data transmission unit that transmits the first voice data and the second voice data to the server, and
With at least one processing result data receiving unit that receives processing result data from the server
Equipped with
The at least one processing result data receiving unit includes a first processing result data receiving unit and a second processing result data receiving unit.
The processing unit includes an audio input / output terminal and an information processing terminal.
The processing result data indicates the execution result of the processing corresponding to the specific command.
Among the plurality of processing units, a first processing unit that is a processing unit that has transmitted the first voice data and the second voice data, and a second processing unit that is a processing unit specified by the second voice data. Receive the same processing result data from the server, respectively.
The specific command includes a first command for acquiring voice data as the processing result data, and a second command for acquiring a terminal command indicating an instruction for the information processing terminal as the processing result data.
The voice input / output terminal includes the voice input unit, the voice data generation unit, the voice data transmission unit, and the first processing result data reception unit.
The information processing terminal includes the second processing result data receiving unit.
Among the plurality of processing units, the audio input / output terminal included in the first processing unit and the audio input / output terminal included in the second processing unit are the same as the processing result data from the server. Received the voice data of
Among the plurality of processing units, the information processing terminal included in the first processing unit and the information processing terminal included in the second processing unit are the same as the processing result data from the server. An information processing system that receives commands for terminals.
前記情報処理端末は、
前記サーバに対してデータの送信を要求する要求信号を生成する制御部と、
前記要求信号を前記サーバに送信する要求信号送信部と
を更に備える、請求項又は請求項に記載の情報処理システム。
The information processing terminal is
A control unit that generates a request signal requesting data transmission to the server,
The information processing system according to claim 1 or 2 , further comprising a request signal transmission unit that transmits the request signal to the server.
前記情報処理システムは、前記サーバを備え、
前記サーバは、
前記第1音声データ及び前記第2音声データを受信する音声データ受信部と、
前記第1音声データ及び前記第2音声データをテキスト情報に変換する音声認識部と、
前記テキスト情報に基づいて前記処理結果データを取得する制御部と、
前記処理結果データを送信する処理結果データ送信部と
を備え、
前記処理結果データ送信部は、前記第1処理ユニットと、前記第2処理ユニットとに、同一の前記処理結果データをそれぞれ送信する、請求項1から請求項のいずれか1項に記載の情報処理システム。
The information processing system includes the server.
The server
A voice data receiving unit that receives the first voice data and the second voice data,
A voice recognition unit that converts the first voice data and the second voice data into text information, and
A control unit that acquires the processing result data based on the text information,
A processing result data transmission unit for transmitting the processing result data is provided.
The information according to any one of claims 1 to 3 , wherein the processing result data transmitting unit transmits the same processing result data to the first processing unit and the second processing unit, respectively. Processing system.
前記サーバは、前記複数の処理ユニットの各々に対応する記憶領域を有し、
前記サーバの前記制御部は、前記記憶領域のうち、前記第1処理ユニットに対応する記憶領域と、前記第2処理ユニットに対応する記憶領域とに、前記処理結果データを記憶させる、請求項に記載の情報処理システム。
The server has a storage area corresponding to each of the plurality of processing units.
4. The control unit of the server stores the processing result data in a storage area corresponding to the first processing unit and a storage area corresponding to the second processing unit in the storage area. Information processing system described in.
JP2018052341A 2018-03-20 2018-03-20 Information processing system Active JP7088703B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018052341A JP7088703B2 (en) 2018-03-20 2018-03-20 Information processing system
JP2022093542A JP7349533B2 (en) 2018-03-20 2022-06-09 Information processing system and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018052341A JP7088703B2 (en) 2018-03-20 2018-03-20 Information processing system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022093542A Division JP7349533B2 (en) 2018-03-20 2022-06-09 Information processing system and information processing method

Publications (2)

Publication Number Publication Date
JP2019164615A JP2019164615A (en) 2019-09-26
JP7088703B2 true JP7088703B2 (en) 2022-06-21

Family

ID=68065619

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018052341A Active JP7088703B2 (en) 2018-03-20 2018-03-20 Information processing system
JP2022093542A Active JP7349533B2 (en) 2018-03-20 2022-06-09 Information processing system and information processing method

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022093542A Active JP7349533B2 (en) 2018-03-20 2022-06-09 Information processing system and information processing method

Country Status (1)

Country Link
JP (2) JP7088703B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002223483A (en) 2000-11-09 2002-08-09 Yamatake Corp Remote management system
JP2008139423A (en) 2006-11-30 2008-06-19 Sony Corp Content reproduction system, reproducing device, reproduction switching method, and program
WO2015133022A1 (en) 2014-03-03 2015-09-11 ソニー株式会社 Information processing apparatus, information processing method, and program
US20180068663A1 (en) 2016-09-07 2018-03-08 Samsung Electronics Co., Ltd. Server and method for controlling external device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
CN105652672A (en) 2015-12-29 2016-06-08 小米科技有限责任公司 Method and apparatus for controlling intelligent device
US10304463B2 (en) 2016-10-03 2019-05-28 Google Llc Multi-user personalization at a voice interface device
JP7057647B2 (en) 2017-11-17 2022-04-20 キヤノン株式会社 Voice control system, control method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002223483A (en) 2000-11-09 2002-08-09 Yamatake Corp Remote management system
JP2008139423A (en) 2006-11-30 2008-06-19 Sony Corp Content reproduction system, reproducing device, reproduction switching method, and program
WO2015133022A1 (en) 2014-03-03 2015-09-11 ソニー株式会社 Information processing apparatus, information processing method, and program
US20180068663A1 (en) 2016-09-07 2018-03-08 Samsung Electronics Co., Ltd. Server and method for controlling external device

Also Published As

Publication number Publication date
JP2019164615A (en) 2019-09-26
JP2022133293A (en) 2022-09-13
JP7349533B2 (en) 2023-09-22

Similar Documents

Publication Publication Date Title
US10437526B2 (en) Printing method, sound control system, and program
KR102447381B1 (en) Method for providing intelligent agent service while calling and electronic device thereof
JP7427408B2 (en) Information processing device, information processing method, and information processing program
US20160294892A1 (en) Storage Medium Storing Program, Server Apparatus, and Method of Controlling Server Apparatus
CN110413249B (en) Remote interactive system
JP6973380B2 (en) Information processing device and information processing method
US10996923B2 (en) Display control device, display control system, and display control method
JP7088703B2 (en) Information processing system
CN113299309A (en) Voice translation method and device, computer readable medium and electronic equipment
CN112119372B (en) Electronic apparatus and control method thereof
JP2011205238A (en) Communication terminal and information retrieval method
JP6934831B2 (en) Dialogue device and program
EP4231200A1 (en) Distributed machine learning inference
CN111128145A (en) Electronic device, control method, and storage medium
US20210368231A1 (en) System and method for streaming video data
JP7141226B2 (en) Voice input device and remote dialogue system
JP2015011651A (en) Information processing device, information processing method, and program
JP5321247B2 (en) Thin client system, thin client system control method, thin client terminal control program, and server control program
WO2021091063A1 (en) Electronic device and control method thereof
KR20210059367A (en) Voice input processing method and electronic device supporting the same
CN115811576A (en) Image forming system with interactive agent function, control method thereof, and storage medium
US11895276B2 (en) Method, apparatus, and system for controlling voice print
JP7489928B2 (en) Information processing device, system, device control device, and program for operating a device by voice
US11568866B2 (en) Audio processing system, conferencing system, and audio processing method
JP2013238986A (en) Processing apparatus, processing system, and output method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220609

R150 Certificate of patent or registration of utility model

Ref document number: 7088703

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150