JP2019067423A - Purchase settlement method - Google Patents

Purchase settlement method Download PDF

Info

Publication number
JP2019067423A
JP2019067423A JP2018213519A JP2018213519A JP2019067423A JP 2019067423 A JP2019067423 A JP 2019067423A JP 2018213519 A JP2018213519 A JP 2018213519A JP 2018213519 A JP2018213519 A JP 2018213519A JP 2019067423 A JP2019067423 A JP 2019067423A
Authority
JP
Japan
Prior art keywords
information
speaker
voice
control
purchase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018213519A
Other languages
Japanese (ja)
Other versions
JP6718941B2 (en
Inventor
摩里子 山田
Mariko Yamada
摩里子 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JP2019067423A publication Critical patent/JP2019067423A/en
Application granted granted Critical
Publication of JP6718941B2 publication Critical patent/JP6718941B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

To provide a purchase settlement method capable of preventing the purchase of merchandise by voice to a speaker who does not want to settle the purchase of merchandise.SOLUTION: A purchase settlement method for purchasing an article by voice acquires voice information, analyzes the acquired voice information, and acquires a voice command indicating a control instruction to the equipment, specifies the speaker information about the speaker who utters the acquired voice information based on the acquired voice information when the voice command is a voice command relating to the purchase settlement, refers to a table in which the purchasable speaker information and the information required for the purchase settlement are associated with each other, judges whether or not the specified speaker information is the speaker information by which the article can be purchased and the purchase should be settled, and performs the purchase settlement processing by using the voice command and the information required for the purchase settlement when it is determined that the specified speaker information is the speaker information by which the article can be purchased and the purchase should be settled.SELECTED DRAWING: Figure 19

Description

本開示は、音声によって複数の機器を制御する機器制御方法、話者からの音声に基づいて制御される複数の機器に関する情報を表示する表示装置を制御する表示制御方法、及び音声によって物品を購入する購入決済方法に関するものである。   The present disclosure relates to a device control method for controlling a plurality of devices by voice, a display control method for controlling a display device for displaying information on a plurality of devices controlled based on voice from a speaker, and purchasing an article by voice Related to the purchase settlement method.

従来、音声入力により、家庭内の種々の機器を操作及び制御する音声認識システムがある。このような音声認識システムでは、音声入力によって機器が制御されるだけでなく、ユーザの音声指示に対して音声による応答を行うことで、擬似的に機器と対話するサービスが提案されている(例えば、特許文献1参照)。   BACKGROUND Conventionally, there are voice recognition systems that operate and control various devices in a home by voice input. In such a speech recognition system, in addition to the control of the device by voice input, a service that interacts with the device in a pseudo manner by making a voice response to the user's voice instruction has been proposed (for example, , Patent Document 1).

特開2002−182679号公報Unexamined-Japanese-Patent No. 2002-182679

しかしながら、上記の音声認識システムでは、どの話者が発話しても同様に全ての機器が制御できる。そのため、機器を制御させたくない話者であっても、機器に対して音声指示が可能となる。このように、従来の音声認識システムでは、機器を制御させたくない話者に対して、音声により機器を制御させないようにすることに関しては検討されていない。また、従来、音声認識によって安全に物品を購入することができる音声認識システムについて検討されていなかった。   However, in the above speech recognition system, all devices can be controlled similarly regardless of which speaker speaks. Therefore, even a speaker who does not want to control the device can give voice instructions to the device. As described above, in the conventional voice recognition system, it has not been considered to prevent the speaker not wanting to control the device to control the device by voice. Also, conventionally, no speech recognition system has been considered which can purchase an article safely by speech recognition.

本開示の一態様は、商品の購入を決済させたくない話者に対して音声により商品の購入を決済させないようにすることができる購入決済方法を提供する。   One aspect of the present disclosure provides a purchase settlement method that can prevent the purchase of a product from being settled by voice for a speaker who does not want to settle the purchase of the product.

本開示の一局面に係る購入決済方法は、音声によって物品を購入する購入決済方法であって、音声情報を取得し、取得した前記音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、前記音声コマンドが購入決済に関する音声コマンドである場合、取得した前記音声情報に基づいて、取得した前記音声情報を発話した話者に関する話者情報を特定し、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルを参照し、特定された前記話者情報が購入決済可能な話者情報であるか否かを判断し、特定された前記話者情報が購入決済可能な話者情報であると判断された場合、前記音声コマンドと、前記購入決済に必要な情報とを用いて購入決済処理を行う。   A purchase settlement method according to one aspect of the present disclosure is a purchase settlement method for purchasing an article by voice, acquiring speech information, analyzing the acquired speech information, and acquiring a speech command indicating a control instruction to a device If the voice command is a voice command related to purchase settlement, the speaker information on the speaker who utters the acquired voice information is specified based on the acquired voice information, and the speaker information capable of purchase settlement (B) referring to a table associated with information necessary for purchase settlement to determine whether the specified speaker information is speaker information available for purchase settlement, and the specified speaker information indicates purchase settlement When it is determined that the information is possible speaker information, purchase settlement processing is performed using the voice command and information necessary for the purchase settlement.

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。   Note that these general or specific aspects may be realized by a system, method, integrated circuit, computer program, or recording medium, and any of the system, apparatus, method, integrated circuit, computer program, and recording medium It may be realized by any combination.

本開示によれば、商品の購入を決済させたくない話者に関する話者情報が特定された場合、商品の購入を決済させたくない話者に対して音声により商品の購入を決済させないようにすることができる。   According to the present disclosure, when the speaker information on the speaker who does not want to settle the purchase of the product is specified, the purchase of the product is not made to be settled by voice to the speaker who does not want to settle the purchase of the product. be able to.

本実施の形態における音声認識システムの全体構成を示す図である。FIG. 1 is a diagram showing an overall configuration of a speech recognition system in the present embodiment. 機器メーカがデータセンタ運営会社に該当する例を示す図である。It is a figure which shows the example in which an apparatus maker corresponds to a data center operating company. 機器メーカ及び管理会社の両者又はいずれか一方がデータセンタ運営会社に該当する例を示す図である。It is a figure which shows the example which an equipment maker and / or a management company correspond to a data center operating company. 本実施の形態の変形例における音声認識システムの全体構成を示す図である。It is a figure which shows the whole structure of the speech recognition system in the modification of this Embodiment. 本開示の実施の形態1における機器の構成を示す図である。It is a figure which shows the structure of the apparatus in Embodiment 1 of this indication. 本開示の実施の形態1における制御装置の構成を示す図である。It is a figure which shows the structure of the control apparatus in Embodiment 1 of this indication. 本開示の実施の形態1におけるデータベースの構成を示す図である。It is a figure which shows the structure of the database in Embodiment 1 of this indication. 本開示の実施の形態1における音声認識システムの機能構成を示す図である。It is a figure which shows the function structure of the speech recognition system in Embodiment 1 of this indication. 本開示の実施の形態1における音声認識システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the speech recognition system in Embodiment 1 of this indication. 本開示の実施の形態1における音声認識システムの第1の機器に対する動作を説明するためのシーケンス図である。It is a sequence diagram for demonstrating the operation | movement with respect to the 1st apparatus of the speech recognition system in Embodiment 1 of this indication. 本開示の実施の形態1における音声認識システムの第2の機器に対する動作を説明するためのシーケンス図である。It is a sequence diagram for demonstrating the operation | movement with respect to the 2nd apparatus of the speech recognition system in Embodiment 1 of this indication. 本開示の実施の形態1における制御処理部及びデータベースの構成を示す図である。It is a figure which shows the structure of the control processing part in Embodiment 1 of this indication, and a database. データベースに記録されている音声情報と、推定される年齢との関係を示すテーブルの一例を示す図である。It is a figure which shows an example of the table which shows the relationship between the audio | voice information currently recorded on the database, and the age estimated. データベースに記憶されている音声モデルと制御対象機器との関係を示すテーブルの一例を示す図である。It is a figure which shows an example of the table which shows the relationship between the audio | voice model memorize | stored in the database, and a control object apparatus. データベースに記録されている音声コマンドと制御対象機器との関係を示すテーブルの一例を示す図である。It is a figure which shows an example of the table which shows the relationship between the audio | voice command currently recorded on the database, and a control object apparatus. 機器のメモリに記憶されている音声コマンドと制御内容とを関連付けたテーブルの一例を示す図である。It is a figure which shows an example of the table which matched the audio | voice command and control content which were memorize | stored in the memory of an apparatus. 音声によって操作することが可能な機器を一覧で表示する表示画面の一例を示す図である。It is a figure which shows an example of the display screen which displays the apparatus which can be operated by audio | voice by a list. 音声によって操作する話者を機器毎に設定する動作を説明するための図である。It is a figure for demonstrating the operation | movement which sets the speaker operated by an audio | voice for every apparatus. 音声によって操作する話者を機器毎に設定した際に表示される表示画面の一例を示す図である。It is a figure which shows an example of the display screen displayed when the speaker operated by an audio | voice is set for every apparatus. 本開示の実施の形態2における音声認識システムの機能構成を示す図である。It is a figure which shows the function structure of the speech recognition system in Embodiment 2 of this indication. 本開示の実施の形態2における音声認識システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the speech recognition system in Embodiment 2 of this indication. 本開示の実施の形態2における音声認識システムの購入決済処理を説明するためのシーケンス図である。It is a sequence diagram for demonstrating the purchase payment process of the speech recognition system in Embodiment 2 of this indication. 本開示の実施の形態2における制御装置及びサーバの構成を示す図である。It is a figure which shows the structure of the control apparatus in Embodiment 2 of this indication, and a server. データベースに記録されている音声情報と、推定される年齢と、推定される性別との関係を示す第1のテーブルの一例を示す図である。It is a figure which shows an example of the 1st table which shows the relationship between the audio | voice information currently recorded on the database, estimated age, and estimated sex. 購入決済データベースに記憶されているユーザ番号と音声情報と年齢とクレジットカード情報との関係を示すテーブルの一例を示す図である。It is a figure which shows an example of the table which shows the relationship between the user number memorize | stored in the purchase payment database, audio | voice information, age, and credit card information. サービスの類型1(自社データセンタ型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。It is a figure which shows the whole image of the service which the speech recognition system in service type 1 (company data center type | mold cloud service) provides. サービスの類型2(IaaS利用型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。It is a figure which shows the overall image of the service which the speech recognition system in service type 2 (IaaS type cloud service) provides. サービスの類型3(PaaS利用型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。It is a figure which shows the overall image of the service which the speech recognition system in service type 3 (PaaS utilization type | mold cloud service) provides. サービスの類型4(SaaS利用型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。It is a figure which shows the overview of the service which the speech recognition system in service type 4 (SaaS utilization type | mold cloud service) provides.

(本開示の基礎となった知見)
特許文献1には、ネットワークに接続された複数の機器同士が情報を交換することで、ユーザからの音声コマンドに対して適切な機器が応答及び動作する音声認識システムが記載されている。
(Findings that formed the basis of this disclosure)
Patent Document 1 describes a voice recognition system in which a plurality of devices connected to a network exchange information to respond to and operate an appropriate device in response to a voice command from a user.

ただし、特許文献1の音声認識システムでは誰が音声コマンドを発しても、一様に同様の応答及び動作がなされる。すなわち、制御対象の複数の機器を所有する家庭内の人物ではない第三者が発話をしても、家庭内の人物と同様に各機器を操作することができてしまう。また、例えば子供が音声コマンドによって火を扱う調理機器を操作したり、操作する必要の無い機器を操作したりすることも考えられる。   However, in the speech recognition system of Patent Document 1, the same response and operation are uniformly performed regardless of who issues the speech command. That is, even if a third person who is not a person in the home who owns a plurality of devices to be controlled speaks, each device can be operated like a person in the home. Also, for example, it is conceivable that a child operates a cooking device that handles fire by a voice command or operates a device that does not need to be operated.

また、特許文献1のような複数の機器と対話する音声認識システムにおいては、機器の制御に限らず、さらに音声コマンドによって物品を購入することが可能な音声認識システムを構築することが期待される。例えば、冷蔵庫と対話するシーンにおいては、庫内に在庫の無い食品をユーザが指定した際に、指定した食品を購入するか否かを問いかけ、ユーザが購入することを選択した場合に当該食品をネットワーク経由で発注することが考えられる。このような場合にも、誰の音声によっても音声認識システムが動作してしまうことは好ましくない。   In addition, in a voice recognition system that interacts with a plurality of devices as in Patent Document 1, it is expected to construct a voice recognition system which can purchase an article by voice command without being limited to control of devices. . For example, in a scene in which the user interacts with a refrigerator, when the user designates a food having no stock in the refrigerator, the user is asked whether or not to purchase the designated food, and the user selects the food when purchasing. It is conceivable to place an order via a network. Even in such a case, it is not preferable that the voice recognition system is operated by anyone's voice.

すなわち、特許文献1のような従来の音声認識システムでは、音声により誰でも全ての機器を操作することができ、機器を操作させたくない話者に対して、音声により機器を操作させないようにすることに関して考慮されていなかった。また、従来、音声認識によって安全に物品を購入することができる音声認識システムについて検討されていなかった。   That is, in the conventional voice recognition system such as Patent Document 1, anyone can operate all the devices by voice, and the speaker who does not want to operate the devices is prevented from operating the devices by voice. It was not considered in regard to things. Also, conventionally, no speech recognition system has been considered which can purchase an article safely by speech recognition.

以上の課題を解決すべく、本開示の一局面に係る機器制御方法は、音声によって複数の機器を制御する機器制御方法であって、音声情報を取得し、取得した音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定し、音声コマンドと話者情報とに基づいて、複数の機器のうちの制御対象機器を特定する。   In order to solve the above problems, a device control method according to an aspect of the present disclosure is a device control method for controlling a plurality of devices by voice, which obtains voice information, analyzes the obtained voice information, and a device. The voice command indicating the control instruction for the voice is acquired, the speaker information on the speaker who utters the acquired voice information is specified based on the obtained voice information, and the plurality of devices are specified based on the voice command and the speaker information. Identify the control target device of

この構成によれば、音声コマンドと話者情報とに基づいて、複数の機器のうちの制御対象機器が特定されるので、機器を制御させたくない話者に関する話者情報が特定された場合、機器を制御させたくない話者に対して、音声により機器を制御させないようにすることができる。   According to this configuration, the control target device among the plurality of devices is specified based on the voice command and the speaker information, so when speaker information regarding a speaker who does not want to control the device is specified, For a speaker who does not want to control the device, the device can not be controlled by voice.

また、上記態様において、話者情報は、話者の年齢に関する情報を含むことが好ましい。   Further, in the above aspect, the speaker information preferably includes information on the age of the speaker.

この構成によれば、話者の年齢に応じて音声により機器を制御させないようにすることができる。例えば、子供又は高齢者の話者に対して音声により機器を制御させないようにすることができる。   According to this configuration, it is possible to prevent the device from being controlled by voice according to the age of the speaker. For example, a speaker of a child or an elderly person can be prevented from controlling the device by voice.

また、上記態様において、話者情報と制御対象機器の候補を示す候補機器とを関連付けて記憶する第1のテーブルと、音声コマンドと候補機器とを関連付けて記憶する第2のテーブルとをそれぞれ参照し、第1のテーブル及び第2のテーブルの両方に合致する候補機器を制御対象機器として特定することが好ましい。   Further, in the above aspect, reference is made to each of a first table that associates and stores speaker information and a candidate device indicating a candidate of a control target device, and a second table that associates and stores a voice command and a candidate device. Preferably, candidate devices that match both the first table and the second table are identified as control target devices.

この構成によれば、話者情報と制御対象機器の候補を示す候補機器とを関連付けて記憶する第1のテーブルと、音声コマンドと候補機器とを関連付けて記憶する第2のテーブルとがそれぞれ参照され、第1のテーブル及び第2のテーブルの両方に合致する候補機器が制御対象機器として特定される。   According to this configuration, the first table in which the speaker information and the candidate device indicating the candidate of the control target device are associated and stored, and the second table in which the voice command and the candidate device are associated and stored are referred to. Candidate devices that match both the first table and the second table are identified as controlled devices.

したがって、特定された話者情報に対応する候補機器と、取得された音声コマンドに対応する候補機器とのうち、一致する候補機器が制御対象機器として決定されるので、制御対象機器を容易に決定することができる。   Therefore, among the candidate devices corresponding to the specified speaker information and the candidate devices corresponding to the acquired voice command, the matching candidate device is determined as the control target device, so the control target device can be easily determined. can do.

また、上記態様において、第1のテーブル及び第2のテーブルの両方に合致する候補機器がない場合、制御対象機器が無い旨を通知することが好ましい。   Furthermore, in the above aspect, when there is no candidate device that matches both of the first table and the second table, it is preferable to notify that there is no control target device.

この構成によれば、制御対象機器が無い旨が通知されるので、ユーザは、発話した音声コマンドに対して、制御される機器が無いことを知ることができる。   According to this configuration, since it is notified that there is no device to be controlled, the user can know that there is no device to be controlled with respect to the voice command uttered.

また、上記態様において、話者情報と話者情報に対応する話者の機器の使用履歴とを関連付けて記憶する第3のテーブルを参照し、話者情報に対応する話者の機器の使用履歴と音声コマンドとに基づいて、制御対象機器を特定することが好ましい。   Further, in the above aspect, the third table which associates and stores the speaker information and the use history of the device of the speaker corresponding to the speaker information is referred to, and the use history of the device of the speaker corresponding to the speaker information It is preferable to specify the control target device based on the and the voice command.

この構成によれば、複数の候補機器が存在する場合、使用履歴に基づいて、過去の同一時刻に使用された機器を制御対象機器として決定することができ、また、過去に最も頻繁に使用された機器を制御対象機器として決定することができる。   According to this configuration, when there are a plurality of candidate devices, it is possible to determine the device used at the same time in the past as the control target device based on the usage history, and to be used most frequently in the past Can be determined as the control target device.

また、上記態様において、話者の位置を示す話者位置情報と、複数の機器のそれぞれの位置を示す機器位置情報とを取得し、音声コマンドと話者情報と話者位置情報と機器位置情報とに基づいて、制御対象機器を特定することが好ましい。   Further, in the above aspect, the speaker position information indicating the position of the speaker and the device position information indicating the positions of the plurality of devices are acquired, and the voice command, the speaker information, the speaker position information and the device position information It is preferable to identify a control target device based on

この構成によれば、話者の位置を示す話者位置情報と、複数の機器のそれぞれの位置を示す機器位置情報とを取得し、音声コマンドと話者情報と話者位置情報と機器位置情報とに基づいて、制御対象機器が特定されるので、複数の候補機器が存在する場合、話者の位置から最も近くにある機器を制御対象機器として決定することができる。   According to this configuration, the speaker position information indicating the position of the speaker and the device position information indicating the positions of the plurality of devices are acquired, and the voice command, the speaker information, the speaker position information and the device position information are obtained. Since the control target device is specified based on the above, when there are a plurality of candidate devices, the device closest to the position of the speaker can be determined as the control target device.

また、上記態様において、音声によって制御可能な複数の機器に関する第1の情報の一覧を表示するように、機器に関する情報を表示する表示装置を制御し、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報を、制御を受け付けない機器に対応する第1の情報の近傍に表示するように表示装置を制御することが好ましい。   Further, in the above aspect, the display device displaying the information on the device is controlled to display the list of the first information on the plurality of devices controllable by the voice, and the control of the device by the voice regarding the specific speaker is performed. It is preferable to control the display device to display the second information indicating the rejection, in the vicinity of the first information corresponding to the device that does not receive the control.

この構成によれば、音声によって制御可能な複数の機器に関する第1の情報の一覧が表示される。そして、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報が、制御を受け付けない機器に対応する第1の情報の近傍に表示される。   According to this configuration, a list of first information related to a plurality of controllable audio devices is displayed. Then, second information indicating that the control of the device by voice is not received for the specific speaker is displayed in the vicinity of the first information corresponding to the device not receiving control.

したがって、ユーザは、音声によって制御可能な複数の機器を容易に確認することができるとともに、音声によって制御可能な複数の機器のうち、特定の話者による制御を受け付けない機器を容易に確認することができる。   Therefore, the user can easily confirm the plurality of devices that can be controlled by voice and can easily check the devices that can not be controlled by a specific speaker among the plurality of devices that can be controlled by voice. Can.

本開示の他の局面に係る表示制御方法は、話者からの音声に基づいて制御される複数の機器に関する情報を表示する表示装置を制御する表示制御方法であって、音声によって制御可能な複数の機器に関する第1の情報の一覧を表示するように表示装置を制御し、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報を、制御を受け付けない機器に対応する第1の情報の近傍に表示するように表示装置を制御する。   A display control method according to another aspect of the present disclosure is a display control method for controlling a display device that displays information related to a plurality of devices controlled based on a voice from a speaker, Control the display device to display a list of the first information on the device, and correspond to the device not receiving the control, the second information indicating that the control of the device by voice is not received for the specific speaker The display device is controlled to be displayed in the vicinity of the first information.

この構成によれば、音声によって制御可能な複数の機器に関する第1の情報の一覧が表示される。そして、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報が、制御を受け付けない機器に対応する第1の情報の近傍に表示される。   According to this configuration, a list of first information related to a plurality of controllable audio devices is displayed. Then, second information indicating that the control of the device by voice is not received for the specific speaker is displayed in the vicinity of the first information corresponding to the device not receiving control.

したがって、ユーザは、音声によって制御可能な複数の機器を容易に確認することができるとともに、音声によって制御可能な複数の機器のうち、特定の話者による制御を受け付けない機器を容易に確認することができる。   Therefore, the user can easily confirm the plurality of devices that can be controlled by voice and can easily check the devices that can not be controlled by a specific speaker among the plurality of devices that can be controlled by voice. Can.

また、上記態様において、表示装置は、タッチパネル式ディスプレイであり、表示装置の表示画面には、第1の情報と、第1の情報とは異なる位置に配置された第2の情報とが表示されており、第2の情報を表示する表示領域がユーザによりタッチされ、第2の情報が第1の情報に向かってドラッグされ、第2の情報が第1の情報の上でドロップされることにより、第2の情報を第1の情報の近傍に表示するように表示装置を制御し、第2の情報が第1の情報の近傍に表示された場合、第1の情報に対応する機器の音声による制御を受け付けないように特定の話者に対する設定を変更することが好ましい。   In the aspect described above, the display device is a touch panel display, and the first information and the second information arranged at a position different from the first information are displayed on the display screen of the display device. The display area displaying the second information is touched by the user, the second information is dragged toward the first information, and the second information is dropped on the first information. And controlling the display device to display the second information in the vicinity of the first information, and when the second information is displayed in the vicinity of the first information, the voice of the device corresponding to the first information It is preferable to change the setting for a specific speaker so as not to accept control by the speaker.

この構成によれば、表示装置の表示画面には、第1の情報と、第1の情報とは異なる位置に配置された第2の情報とが表示されている。第2の情報を表示する表示領域がユーザによりタッチされ、第2の情報が第1の情報に向かってドラッグされ、第2の情報が第1の情報の上でドロップされることにより、第2の情報が第1の情報の近傍に表示される。そして、第2の情報が第1の情報の近傍に表示された場合、第1の情報に対応する機器の音声による制御を受け付けないように特定の話者に対する設定が変更される。   According to this configuration, the first information and the second information arranged at a position different from the first information are displayed on the display screen of the display device. The display area displaying the second information is touched by the user, the second information is dragged toward the first information, and the second information is dropped on the first information. Information is displayed in the vicinity of the first information. Then, when the second information is displayed in the vicinity of the first information, the setting for the specific speaker is changed so as not to receive the control by the voice of the device corresponding to the first information.

したがって、音声によって制御可能な複数の機器のうち、特定の話者による制御を受け付けない機器を容易に設定することができる。   Therefore, among a plurality of devices that can be controlled by voice, it is possible to easily set a device that does not receive control by a specific speaker.

本開示の他の局面に係る購入決済方法は、音声によって物品を購入する購入決済方法であって、音声情報を取得し、取得した音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、音声コマンドが購入決済に関する音声コマンドである場合、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定し、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルを参照し、特定された話者情報が購入決済可能な話者情報であるか否かを判断し、特定された話者情報が購入決済可能な話者情報であると判断された場合、音声コマンドと、購入決済に必要な情報とを用いて購入決済処理を行う。   A purchase settlement method according to another aspect of the present disclosure is a purchase settlement method for purchasing an article by voice, acquiring speech information, analyzing the acquired speech information, and acquiring a speech command indicating a control instruction to a device If the voice command is a voice command for purchase settlement, the speaker information on the speaker who utters the acquired voice information is specified based on the acquired voice information, and the purchase settlement possible speaker information and the purchase settlement Refer to the table in which the necessary information is associated, and it is determined whether or not the specified speaker information is speaker information that can be purchased and settled, and the speaker information that is identified can be purchased and settled speaker information If it is determined that the purchase settlement process is performed using the voice command and the information necessary for purchase settlement.

この構成によれば、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルが参照され、特定された話者情報が購入決済可能な話者情報であるか否かが判断され、特定された話者情報が購入決済可能な話者情報であると判断された場合、音声コマンドと、購入決済に必要な情報とを用いて購入決済処理が行われる。   According to this configuration, the table in which the purchase settlement possible speaker information is associated with the information necessary for the purchase settlement is referred to, and it is determined whether the identified speaker information is the purchase settlement possible speaker information. If it is determined that the determined speaker information is the speaker information that can be purchased and settled, the purchase settlement process is performed using the voice command and the information necessary for the purchase and settlement.

したがって、商品の購入を決済させたくない話者に関する話者情報が特定された場合、商品の購入を決済させたくない話者に対して音声により商品の購入を決済させないようにすることができる。   Therefore, when the speaker information on the speaker who does not want to settle the purchase of the product is specified, it is possible not to make the purchase of the product be settled by voice to the speaker who does not want to settle the purchase of the product.

(音声認識システムの全体構成)
図1Aは、本実施の形態における音声認識システムの全体構成を示す図である。図1Bは、機器メーカがデータセンタ運営会社に該当する例を示す図である。図1Cは、機器メーカ及び管理会社の両者又はいずれか一方がデータセンタ運営会社に該当する例を示す図である。
(Overall configuration of speech recognition system)
FIG. 1A is a diagram showing an overall configuration of a speech recognition system according to the present embodiment. FIG. 1B is a diagram showing an example in which the device maker corresponds to a data center operating company. FIG. 1C is a diagram showing an example in which both or one of the device maker and the management company corresponds to the data center operating company.

グループ100は、例えば企業、団体又は家庭等であり、その規模を問わない。グループ100には、機器A、機器B及び機器Cを含む複数の機器101と、ホームゲートウェイ102と、収音装置103と、スピーカ104とが存在する。   The group 100 is, for example, a company, a group, a family, or the like, regardless of the size. The group 100 includes a plurality of devices 101 including a device A, a device B, and a device C, a home gateway 102, a sound collection device 103, and a speaker 104.

複数の機器101は、インターネットと接続可能な機器(例えば、スマートフォン、パーソナルコンピュータ(PC)又はテレビ等)、及びそれ自身ではインターネットと接続不可能な機器(例えば、照明機器、洗濯機又は冷蔵庫等)を含む。複数の機器101は、それ自身ではインターネットと接続不可能な機器であっても、ホームゲートウェイ102を介してインターネットと接続可能となる機器を含んでもよい。また、ユーザ10は、グループ100内の複数の機器101を使用する。インターネットと接続可能な機器は、ホームゲートウェイ102を介さず直接後述する制御装置111と接続してもよい。複数の機器101は、直接又はホームゲートウェイ102を介して、後述する制御装置111から制御コマンドを受信する。   The plurality of devices 101 can be connected to the Internet (for example, a smartphone, a personal computer (PC) or a television), and devices that can not be connected to the Internet by themselves (for example, a lighting device, a washing machine, or a refrigerator) including. The plurality of devices 101 may include devices that can be connected to the Internet via the home gateway 102 even if the devices can not connect to the Internet by themselves. Also, the user 10 uses a plurality of devices 101 in the group 100. The device connectable to the Internet may be connected directly to the control device 111 described later without passing through the home gateway 102. The plurality of devices 101 receive control commands from the control device 111 described later directly or via the home gateway 102.

ホームゲートウェイ102は、複数の機器101のうちの一部又は全部の機器、収音装置103、又はスピーカ104と接続し、様々な情報を送受信する。ホームゲートウェイ102と各機器とは、ケーブル等を用いて有線にて接続してもよいし、Wi−Fi又はBluetooth(登録商標)等を用いて無線にて接続してもよい。また、ホームゲートウェイ102は、制御装置111と接続し、情報を送受信する。   The home gateway 102 is connected to some or all of the plurality of devices 101, the sound collection device 103, or the speaker 104, and transmits and receives various information. The home gateway 102 and each device may be connected by wire using a cable or the like, or may be connected wirelessly using Wi-Fi or Bluetooth (registered trademark). In addition, the home gateway 102 is connected to the control device 111 to transmit and receive information.

収音装置103は、グループ100の部屋内の音声を取得する。取得した音声は、ホームゲートウェイ102を介して制御装置111に出力される。または、取得した音声は、収音装置103から制御装置111に直接出力される。収音装置103は、一般的なマイクで構成され、収音装置103の設置場所に関しては特に限定しない。収音装置103は、部屋の音声を取得し易い天井又は照明器具等に設置することが好ましい。また、収音装置103は、ユーザ10のいる方向に指向性を向ける機能を備えてもよい。   The sound collection device 103 acquires the sound in the room of the group 100. The acquired voice is output to the control device 111 via the home gateway 102. Alternatively, the acquired voice is directly output from the sound collection device 103 to the control device 111. The sound collection device 103 is configured by a general microphone, and the installation location of the sound collection device 103 is not particularly limited. It is preferable that the sound collection device 103 be installed on a ceiling, a lighting fixture, or the like that can easily acquire the sound of a room. In addition, the sound collection device 103 may have a function of directing directivity in the direction in which the user 10 is present.

また、収音装置103は、部屋内に固定されている必要はなく、スマートフォンなどの移動可能な携帯端末に設けられていてもよい。   Moreover, the sound collection apparatus 103 does not need to be fixed in the room, and may be provided in a movable portable terminal such as a smartphone.

スピーカ104は、ホームゲートウェイ102を介して制御装置111から制御コマンドを受信し、受信した制御コマンドに応じて音を出力する。または、スピーカ104は、制御装置111から直接制御コマンドを受信し、受信した制御コマンドに応じて音を出力する。   The speaker 104 receives a control command from the control device 111 via the home gateway 102, and outputs a sound according to the received control command. Alternatively, the speaker 104 receives a control command directly from the control device 111, and outputs a sound according to the received control command.

なお、ホームゲートウェイ102及びスピーカ104は、音声認識システムの必須の構成ではない。   The home gateway 102 and the speaker 104 are not essential components of the voice recognition system.

データセンタ運営会社110は、制御装置111を備える。制御装置111は、インターネットを介して様々な機器と連携する仮想化サーバである。制御装置111は、主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社110は、データの管理、制御装置111の管理、及びそれらを行うデータセンタの運営等を行っている。   The data center operating company 110 comprises a control device 111. The control device 111 is a virtualization server that cooperates with various devices via the Internet. The control device 111 mainly manages huge data (big data) and the like which are difficult to handle with ordinary database management tools and the like. The data center operating company 110 manages data, manages the control device 111, and operates a data center that performs these operations.

ここで、データセンタ運営会社110は、データの管理又は制御装置111の運営等のみを行っている会社に限らない。例えば、図1Bに示すように、複数の機器101のうちの一つの機器を開発及び製造している機器メーカが、データの管理又は制御装置111の管理等を行っている場合は、機器メーカがデータセンタ運営会社110に該当する。また、データセンタ運営会社110は一つの会社に限らない。例えば、図1Cに示すように、機器メーカ及び他の管理会社が共同又は分担してデータの管理又は制御装置111の運営を行っている場合は、両者又はいずれか一方がデータセンタ運営会社110に該当する。   Here, the data center operating company 110 is not limited to a company that only manages data or operates the control device 111. For example, as shown in FIG. 1B, when a device maker developing and manufacturing one of the plurality of devices 101 manages data or manages the control device 111, the device maker It corresponds to the data center operating company 110. Also, the data center operating company 110 is not limited to one company. For example, as shown in FIG. 1C, when a device maker and another management company jointly or share management of data management or control apparatus 111, both or any one of them is the data center operating company 110. Applicable

制御装置111は、インターネットを介してホームゲートウェイ102と接続し、ホームゲートウェイ102に接続された複数の機器101、収音装置103又はスピーカ104などと様々な情報を送受信する。または、制御装置111は、インターネットを介して複数の機器101、収音装置103又はスピーカ104などと直接接続し、様々な情報を送受信する。また、制御装置111は、後述するサーバ121と接続し、情報を送受信する。   The control device 111 is connected to the home gateway 102 via the Internet, and transmits / receives various information to / from a plurality of devices 101 connected to the home gateway 102, the sound collection device 103, the speaker 104, and the like. Alternatively, the control device 111 directly connects to the plurality of devices 101, the sound collection device 103, the speaker 104, and the like via the Internet, and transmits and receives various information. Further, the control device 111 is connected to a server 121 described later to transmit and receive information.

サービスプロバイダ120は、ユーザ10にサービスを提供するためのサーバ121を備える。ここで言うサーバ121とは、その規模は問わず、例えば、個人用PC内のメモリ等も含む。また、サービスプロバイダ120がサーバ121を備えていない場合もある。サービスプロバイダ120とデータセンタ運営会社110とが同一の会社であってもよい。サーバ121は、制御装置111から情報を受信し、ユーザへ提供するサービスに関する制御及び処理を行う。サービスは、グループ100内のユーザ10に提供されてもよいし、グループ100外のユーザ20に提供されてもよい。   The service provider 120 comprises a server 121 for providing services to the user 10. The server 121 referred to here includes, for example, a memory in a personal PC, etc., regardless of its size. In addition, the service provider 120 may not include the server 121. The service provider 120 and the data center operating company 110 may be the same company. The server 121 receives information from the control device 111, and performs control and processing related to the service provided to the user. The service may be provided to the users 10 in the group 100 or may be provided to the users 20 outside the group 100.

なお、図1Aでは、制御装置111は、グループ100の宅外に配置されているが、本開示は特にこれに限定されず、図2に示すように、制御装置111は、グループ100の宅内に配置されてもよい。   Although the control device 111 is disposed outside the group 100 in FIG. 1A, the present disclosure is not particularly limited to this, and as shown in FIG. It may be arranged.

図2は、本実施の形態の変形例における音声認識システムの全体構成を示す図である。   FIG. 2 is a diagram showing an overall configuration of a speech recognition system according to a modification of the present embodiment.

図2に示すように、制御装置111は、グループ100内に存在してもよい。   As shown in FIG. 2, the controller 111 may exist in the group 100.

以上が音声認識システムの全体構成の説明である。以下、各実施の形態を説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示す。以下の実施の形態で示される数値、形状、構成要素、ステップ及びステップの順序などは、本開示の一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本開示の最上位概念を示す独立請求項に記載されていない構成要素は、任意の構成要素として説明される。また、全ての実施の形態において、各々の実施の形態の内容を組み合わせることもできる。   The above is the description of the overall configuration of the speech recognition system. Each embodiment will be described below. The embodiments described below all show one specific example of the present disclosure. The numerical values, shapes, components, steps, and order of steps and the like described in the following embodiments are an example of the present disclosure, and are not intended to limit the present disclosure. Further, among the components in the following embodiments, components that are not described in the independent claim indicating the highest concept of the present disclosure are described as arbitrary components. Moreover, in all the embodiments, the contents of the respective embodiments can be combined.

(実施の形態1)
(各機器の構成)
図3は、本開示の実施の形態1における機器の構成を示す図である。図4は、本開示の実施の形態1における制御装置の構成を示す図である。図5は、本開示の実施の形態1におけるデータベースの構成を示す図である。
Embodiment 1
(Configuration of each device)
FIG. 3 is a diagram showing the configuration of the device in the first embodiment of the present disclosure. FIG. 4 is a diagram showing a configuration of a control device in the first embodiment of the present disclosure. FIG. 5 is a diagram showing the configuration of a database in the first embodiment of the present disclosure.

まず、図3を用いて、図1Aにおける複数の機器101(機器A、機器B、機器C、・・・)の構成を説明する。ここで、複数の機器101は、家庭内のあらゆる機器を含む。機器101aは、複数の機器101のうちの1つの機器である。機器101aは、例えば、テレビ、BD(Blu−ray(登録商標) Disc)レコーダ、エアコン、冷蔵庫、洗濯機、電子レンジ、及び各種調理器(ガスコンロ及びIHクッキングヒータ)等の種々の機器を含み、特に限定しない。機器101aは、家電機器に限らず、住設機器、住環境を測定及び検知するセンサ、及び電動車両なども含めた、家庭内で使用される電化製品であってもよい。   First, the configuration of a plurality of devices 101 (device A, device B, device C,...) In FIG. 1A will be described using FIG. 3. Here, the plurality of devices 101 include all devices in the home. The device 101 a is one of the plurality of devices 101. The device 101a includes, for example, various devices such as a television, a BD (Blu-ray (registered trademark) Disc) recorder, an air conditioner, a refrigerator, a washing machine, a microwave, and various cookers (gas stove and IH cooking heater). Not limited The device 101a may be an electric appliance used in the home, including not only home appliances but also home appliances, sensors for measuring and detecting a home environment, and electric vehicles.

機器101aは、例えば、通信部201、制御処理部202、メモリ203、マイク204、スピーカ205及び表示部206を備える。ただし、機器101aは、上記したように様々な機器を含むので、機器101aの構成はこれに限定されない。機器101aは、例えば、メモリ203、マイク204、スピーカ205及び表示部206のいずれか又はすべてを備えていなくてもよい。また、機器101aは、図示していない他の構成を含んでいてもよい。   The device 101a includes, for example, a communication unit 201, a control processing unit 202, a memory 203, a microphone 204, a speaker 205, and a display unit 206. However, since the device 101a includes various devices as described above, the configuration of the device 101a is not limited to this. The device 101a may not include, for example, any or all of the memory 203, the microphone 204, the speaker 205, and the display unit 206. In addition, the device 101a may include another configuration not illustrated.

通信部201は、ネットワークを介して、又は各種ケーブルなどを介して、様々な機器と情報を送受信する。通信部201は、各種通信用IC(Integrated Circuit)などのハードウェアで構成される。   The communication unit 201 transmits and receives information to and from various devices via a network or via various cables. The communication unit 201 is configured by hardware such as various communication ICs (Integrated Circuits).

制御処理部202は、通信部201によって受信された様々なデータ(情報)を処理及び演算し、機器101内の各構成の動作を制御する。制御処理部202は、例えばCPU(Central Processing Unit)などのハードウェアで構成される。   The control processing unit 202 processes and calculates various data (information) received by the communication unit 201, and controls the operation of each component in the device 101. The control processing unit 202 is configured by hardware such as a central processing unit (CPU), for example.

メモリ203は、通信部201によって受信されたデータ(情報)、制御処理部202によって演算されたデータ(情報)、又は制御用のプログラム等を格納する。メモリ203は、例えばROM(Read Only Memory)などのハードウェアで構成される。   The memory 203 stores data (information) received by the communication unit 201, data (information) calculated by the control processing unit 202, or a control program. The memory 203 is configured by hardware such as a ROM (Read Only Memory), for example.

マイク204は、例えば人の音声コマンドを収音(取得)する。マイク204に関しては、一般的に機器に搭載されるものであれば特に限定しない。スピーカ205及び表示部206に関しても、一般的に機器に搭載されるものを用いればよく、説明を省略する。   The microphone 204 picks up (acquires) a voice command of a person, for example. The microphone 204 is not particularly limited as long as it is generally mounted on a device. With regard to the speaker 205 and the display unit 206 as well, those generally mounted on a device may be used, and the description will be omitted.

次に、図4を用いて、制御装置111の構成を説明する。制御装置111は、通信部211、制御処理部212及びデータベース213を備える。ただし、制御装置111の構成はこれに限られない。制御装置111の一部の構成が欠けていてもよいし、他の構成を含んでいてもよい。   Next, the configuration of the control device 111 will be described using FIG. The control device 111 includes a communication unit 211, a control processing unit 212, and a database 213. However, the configuration of the control device 111 is not limited to this. Some configurations of the controller 111 may be omitted, or other configurations may be included.

通信部211は、ネットワークを介して、又は各種ケーブルなどを介して、様々な機器と情報を送受信する。通信部211は、各種通信用IC(Integrated Circuit)などのハードウェアで構成される。   The communication unit 211 transmits / receives information to / from various devices via a network or via various cables and the like. The communication unit 211 is configured by hardware such as various communication ICs (Integrated Circuits).

制御処理部212は、通信部211によって受信された様々なデータ(情報)を処理及び演算し、制御装置111内又は複数の機器101内の各構成の動作を制御する。制御処理部212は、例えばCPU(Central Processing Unit)などのハードウェアで構成される。   The control processing unit 212 processes and calculates various data (information) received by the communication unit 211, and controls the operation of each component in the control device 111 or in the plurality of devices 101. The control processing unit 212 is configured by hardware such as a central processing unit (CPU), for example.

データベース213は、様々なデータを蓄積している。データベース213は、例えば、機器101aのマイク204又は収音装置103にて取得した人の音声、又は機器101aの使用履歴等を含んでもよい。データベース213に蓄積されたデータは、制御処理部212によって話者の年齢又は性別を推定する処理に利用される。データベース213の詳細は後述する。また、データベース213は、図5に示すように、グループ(家族、企業又は団体など)ごとに取得したデータを関連付けて蓄積していてもよい。すなわち、データベース213は、第1のグループのデータを格納するデータベースと、第2のグループのデータを格納するデータベースと、第3のグループのデータを格納するデータベースとを備えてもよい。   The database 213 stores various data. The database 213 may include, for example, the voice of a person acquired by the microphone 204 or the sound collection device 103 of the device 101a, or the use history of the device 101a. The data accumulated in the database 213 is used by the control processing unit 212 for processing of estimating the age or gender of the speaker. Details of the database 213 will be described later. Further, as shown in FIG. 5, the database 213 may associate and accumulate data acquired for each group (family, company or group, etc.). That is, the database 213 may include a database storing data of the first group, a database storing data of the second group, and a database storing data of the third group.

(音声認識システムの機能構成)
図6は、本開示の実施の形態1における音声認識システムの機能構成を示す図である。音声認識システムは、図6に示すように、音声取得部301、音声解析部302、話者特定部303、制御対象機器特定部304及び機器制御部305を備える。
(Functional configuration of speech recognition system)
FIG. 6 is a diagram showing a functional configuration of the speech recognition system in the first embodiment of the present disclosure. As shown in FIG. 6, the speech recognition system includes a speech acquisition unit 301, a speech analysis unit 302, a speaker identification unit 303, a control target device identification unit 304, and a device control unit 305.

音声取得部301は、機器周辺で発した話者の音声を示す音声情報を取得する。音声取得部301は、収音装置103又は各機器に搭載されるマイク204によって実現される。   The voice acquisition unit 301 acquires voice information indicating the voice of the speaker that has been emitted around the device. The sound acquisition unit 301 is realized by the sound collection device 103 or the microphone 204 mounted on each device.

音声解析部302は、音声取得部301によって取得された音声情報を解析して、音声コマンドを取得する。音声解析部302は、制御装置111の制御処理部212によって実現される。音声解析部302は、音声取得部301によって取得された音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得する。   The voice analysis unit 302 analyzes voice information acquired by the voice acquisition unit 301 to acquire a voice command. The voice analysis unit 302 is realized by the control processing unit 212 of the control device 111. The voice analysis unit 302 analyzes the voice information acquired by the voice acquisition unit 301, and acquires a voice command indicating a control instruction to the device.

話者特定部303は、音声取得部301によって取得された音声情報に基づいて、取得された音声情報を発話した話者に関する話者情報を特定する。ここでは、話者特定部303は、大まかな話者の年齢又は性別などを特定する。話者特定部303は、例えば、制御装置111の制御処理部212及びデータベース213によって実現される。制御処理部212は、データベース213に蓄積されている年齢又は性別ごとの音声に関するデータと、音声取得部301によって取得された音声情報とを比較することで、音声情報を発話した話者の年齢又は性別などを推定する。   The speaker identifying unit 303 identifies, based on the voice information acquired by the voice acquiring unit 301, the speaker information on the speaker who has uttered the acquired voice information. Here, the speaker specifying unit 303 specifies a rough speaker's age or gender. The speaker identification unit 303 is realized by, for example, the control processing unit 212 of the control device 111 and the database 213. The control processing unit 212 compares the voice data for each age or gender stored in the database 213 with the voice information acquired by the voice acquisition unit 301 to determine the age of the speaker who uttered the voice information or Estimate gender etc.

すなわち、話者情報は、話者の年齢に関する情報を含む。データベース213は、複数の年齢と、各年齢を特定することが可能な音声モデルとを対応付けて記憶している。なお、年齢は、10歳などの1つの年齢だけでなく、0〜10歳などの所定の年齢の範囲を含んでもよい。話者特定部303は、音声取得部301によって取得された音声情報に一致する音声モデルを特定し、特定した音声モデルに対応付けられている年齢を特定する。   That is, the speaker information includes information on the speaker's age. The database 213 stores a plurality of ages in association with voice models that can identify each age. In addition, the age may include not only one age such as 10 years old but also a predetermined age range such as 0-10 years old. The speaker identification unit 303 identifies a voice model that matches the voice information acquired by the voice acquisition unit 301, and identifies the age associated with the identified voice model.

なお、話者情報として、年齢又は性別のような大まかな情報だけでなく、より詳細に話者を特定してもよい。例えば、データベース213は、各話者の詳細な年齢、性別、嗜好及び生活パターンなどに関する情報と、各話者の音声情報(音声モデル)とを関連付けて記憶してもよい。この場合、話者特定部303は、より詳細に話者を特定できる。   As the speaker information, not only rough information such as age or gender, but also the speaker may be specified in more detail. For example, the database 213 may store information on the detailed age, gender, preference, life pattern, etc. of each speaker in association with the voice information (voice model) of each speaker. In this case, the speaker specifying unit 303 can specify the speaker in more detail.

制御対象機器特定部304は、話者特定部303によって特定された話者情報に基づいて、複数の機器101のうちの制御対象機器を特定する。制御対象機器特定部304は、例えば制御装置111の制御処理部212及びデータベース213によって実現される。ここで、本実施の形態では、制御対象機器特定部304は、話者情報に基づいて制御対象機器を特定しているが、制御対象機器特定部304は、話者特定部303によって特定された話者情報のみに基づいて制御対象機器を特定してもよいし、話者特定部303によって特定された話者情報以外の情報に基づいて制御対象機器を特定してもよい。話者情報以外の情報に基づいて制御対象機器を特定する処理についての詳細は後述する。   The control target device specifying unit 304 specifies a control target device among the plurality of devices 101 based on the speaker information specified by the speaker specifying unit 303. The control target device identification unit 304 is realized by, for example, the control processing unit 212 of the control device 111 and the database 213. Here, in the present embodiment, the control target device specifying unit 304 specifies the control target device based on the speaker information, but the control target device specifying unit 304 is specified by the speaker specifying unit 303. The control target device may be specified based on only the speaker information, or the control target device may be specified based on information other than the speaker information specified by the speaker specifying unit 303. Details of the process of identifying the control target device based on information other than the speaker information will be described later.

機器制御部305は、音声解析部302によって解析された音声コマンドに基づいて、制御対象機器特定部304によって特定された制御対象機器を制御する。機器制御部305は、機器101aの制御処理部202によって実現される。   The device control unit 305 controls the control target device identified by the control target device identification unit 304 based on the voice command analyzed by the voice analysis unit 302. The device control unit 305 is realized by the control processing unit 202 of the device 101a.

(音声認識システムのフローチャート)
以下に、図7を用いて、本音声認識システムにおける機器制御方法の処理の流れを説明する。
(Flowchart of speech recognition system)
The flow of processing of the device control method in the present speech recognition system will be described below with reference to FIG.

図7は、本開示の実施の形態1における音声認識システムの動作を示すフローチャートである。   FIG. 7 is a flowchart showing the operation of the speech recognition system in the first embodiment of the present disclosure.

まず、ステップS301において、音声取得部301は、話者の音声情報を取得する。   First, in step S301, the speech acquisition unit 301 acquires speech information of a speaker.

次に、ステップS302において、音声解析部302は、音声取得部301によって取得された音声情報を解析し音声コマンドを取得する。   Next, in step S302, the voice analysis unit 302 analyzes the voice information acquired by the voice acquisition unit 301 to acquire a voice command.

次に、ステップS303において、話者特定部303は、音声取得部301によって取得された音声情報に基づいて、取得された音声情報を発話した話者に関する話者情報を特定する。   Next, in step S303, the speaker identifying unit 303 identifies, based on the voice information acquired by the voice acquiring unit 301, the speaker information on the speaker who has uttered the acquired voice information.

次に、ステップS304において、制御対象機器特定部304は、音声解析部302によって取得された音声コマンドと、話者特定部303によって特定された話者情報とに基づいて、複数の機器101のうちの制御対象機器を特定する。なお、ここでは、特定した話者情報のみから制御対象機器が特定されてもよい。   Next, in step S304, the control target device identification unit 304 selects one of the plurality of devices 101 based on the voice command acquired by the voice analysis unit 302 and the speaker information identified by the speaker identification unit 303. Identify the control target device of Here, the control target device may be specified only from the specified speaker information.

次に、ステップS305において、機器制御部305は、制御対象機器特定部304によって特定された制御対象機器を制御する。   Next, in step S305, the device control unit 305 controls the control target device identified by the control target device identification unit 304.

(音声認識システムの動作例)
図8及び図9を用いて、本実施の形態1における音声認識システムの動作の流れの一例を説明する。図8は、本開示の実施の形態1における音声認識システムの第1の機器に対する動作を説明するためのシーケンス図である。図9は、本開示の実施の形態1における音声認識システムの第2の機器に対する動作を説明するためのシーケンス図である。また、図10は、本開示の実施の形態1における制御処理部及びデータベースの構成を示す図である。
(Operation example of speech recognition system)
An example of the flow of the operation of the speech recognition system according to the first embodiment will be described with reference to FIGS. 8 and 9. FIG. 8 is a sequence diagram for illustrating the operation of the first device of the speech recognition system in the first embodiment of the present disclosure. FIG. 9 is a sequence diagram for illustrating the operation of the second device of the speech recognition system in the first embodiment of the present disclosure. FIG. 10 is a diagram showing configurations of a control processing unit and a database in the first embodiment of the present disclosure.

なお、以下で説明する音声認識システムにおいて、図10に示すように、制御装置111の制御処理部212は、音声解析部302、話者特定部303及び制御対象機器特定部304を備える。また、図10に示すように、制御装置111のデータベース213は、音声コマンドリスト600と、複数のテーブル(テーブル700、テーブル801及びテーブル802)とを備える。   In the voice recognition system described below, as shown in FIG. 10, the control processing unit 212 of the control device 111 includes a voice analysis unit 302, a speaker identification unit 303, and a control target device identification unit 304. Further, as shown in FIG. 10, the database 213 of the control device 111 includes a voice command list 600 and a plurality of tables (table 700, table 801 and table 802).

まず、ステップS501において、収音装置103は、音声情報を取得する。ここで、本音声認識システムにおいて、音声情報を取得するタイミングは限定されない。収音装置103は、常時音声情報を取得してもよいし、予め設定されたタイミング又は間隔で音声情報を取得してもよい。例えば、収音装置103は、設置された空間内の音声情報を常時取得しており、取得した音声情報内に人の声の周波数帯域を検出した際に、取得した音声情報を制御装置111へ出力してもよい。   First, in step S501, the sound collection device 103 acquires audio information. Here, in the present speech recognition system, the timing of acquiring speech information is not limited. The sound collection device 103 may constantly acquire audio information, or may acquire audio information at a preset timing or interval. For example, the sound collection device 103 constantly acquires voice information in the installed space, and when detecting the frequency band of human voice in the acquired voice information, the acquired voice information is sent to the control device 111. You may output it.

また、収音装置103は、取得した音声情報内に人の声の周波数帯域を検出した際に、特定の第1のワードを検出し、検出した特定の第1のワードに続く他の第2のワードを音声情報として取得してもよい。例えば、第1のワードが“音声認識”である場合に、話者は「音声認識、温度を上げる」といったように第1のワードの後に続けて第2のワードを発声する。これにより、取得した音声情報が、音声コマンドであるか否かの識別が可能となる。なお、音声情報であるか否かの識別に関しては収音装置103ではなく制御装置111が行ってもよい。   In addition, when the sound collection device 103 detects the frequency band of human voice in the acquired voice information, it detects a specific first word, and another second following the detected specific first word. May be acquired as voice information. For example, if the first word is "speech recognition", the speaker utters a second word following the first word, such as "speech recognition, temperature up". This makes it possible to identify whether the acquired voice information is a voice command. Note that the control device 111 may perform identification as to whether or not it is audio information, not the sound collection device 103.

ここで、収音装置103が取得した音声情報には、話者の発話した音声以外に、様々なノイズが含まれる。そのため、収音装置103は、音声情報に含まれるノイズを除去するノイズ除去部を備えてもよい。また、収音装置103がノイズ除去部を備えるのではなく、制御装置111がノイズ除去部を備えてもよい。   Here, the speech information acquired by the sound collection device 103 includes various noises in addition to the speech uttered by the speaker. Therefore, the sound collection device 103 may include a noise removal unit that removes noise included in the audio information. In addition, the control device 111 may include a noise removal unit, instead of the sound collection device 103 including a noise removal unit.

なお、ステップS501の処理は、図7におけるステップS301の処理に相当する。   The process of step S501 corresponds to the process of step S301 in FIG.

次に、ステップS502において、収音装置103は、取得した音声情報を制御装置111に出力する。ここで、音声情報の出力に際しては、例えば図1Aに示すような音声認識システムの構成では、収音装置103と制御装置111とを有線で接続することで、収音装置103は音声情報を直接出力してもよい。また、収音装置103がネットワークに接続するための通信部を備えている場合は、収音装置103はネットワーク経由で音声情報を制御装置111に送信してもよい。また、収音装置103はホームゲートウェイ102を介して音声情報を制御装置111に送信してもよい。また、音声情報を制御装置111に出力するタイミングに関しても特に限定しない。例えば、収音装置103が常時音声情報を取得している場合、一定時間音声情報を記録し、取得した音声情報内に人の声の周波数帯域を検出した際にのみ、収音装置103は記録された音声情報を制御装置111に出力してもよい。   Next, in step S502, the sound collection device 103 outputs the acquired voice information to the control device 111. Here, when outputting voice information, for example, in the configuration of the voice recognition system as shown in FIG. 1A, the sound collection device 103 directly connects the voice information by connecting the sound collection device 103 and the control device 111 by wire. You may output it. In addition, when the sound collection device 103 includes a communication unit for connecting to the network, the sound collection device 103 may transmit audio information to the control device 111 via the network. In addition, the sound collection device 103 may transmit voice information to the control device 111 via the home gateway 102. Further, the timing of outputting the audio information to the control device 111 is not particularly limited. For example, when the sound collection device 103 constantly acquires sound information, the sound collection device 103 records sound information for a certain period of time, and the sound collection device 103 records only when the frequency band of human voice is detected in the acquired sound information. The output voice information may be output to the control device 111.

次に、ステップS503において、制御装置111の制御処理部212の音声解析部302は、取得した音声情報を解析し、音声コマンドを取得する。音声解析の方法は既知の方法を用いればよい。音声解析の方法としては、例えば、取得した音声情報を解析し、予め登録されている音声コマンドリスト600のうちどの音声コマンドに近いかを解析し、音声コマンドを特定する方法等が考えられる。予め登録されている音声コマンドリストの内容としては、例えば、「オン」、「オフ」、「あげる」及び「さげる」などの機器に対する動作指示が考えられる。ここで、音声解析部302が音声情報を解析した結果、登録された音声コマンドリスト600に合致するワードが音声情報に存在しない場合は、次のステップS504の処理に進まなくてもよい。   Next, in step S503, the voice analysis unit 302 of the control processing unit 212 of the control device 111 analyzes the obtained voice information to obtain a voice command. The speech analysis method may be a known method. As a method of speech analysis, for example, a method of analyzing acquired speech information, analyzing which speech command is close in the speech command list 600 registered in advance, and identifying the speech command can be considered. As the contents of the voice command list registered in advance, for example, an operation instruction to an apparatus such as "ON", "OFF", "GUE", and "PAG" can be considered. Here, as a result of the speech analysis unit 302 analyzing the speech information, if there is no word in the speech information that matches the registered speech command list 600, the process may not proceed to the next step S504.

なお、ステップS503の処理は、図7におけるステップS302の処理に相当する。   The process of step S503 corresponds to the process of step S302 in FIG.

次に、ステップS504において、制御装置111の制御処理部212の話者特定部303は、取得された音声情報から、音声情報を発話した話者に関する話者情報を特定する。   Next, in step S504, the speaker specifying unit 303 of the control processing unit 212 of the control device 111 specifies, from the acquired voice information, speaker information on the speaker who has uttered the voice information.

ここでは、例えば、制御装置111の話者特定部303は、取得された音声情報と、データベース213のテーブル700に登録されている音声情報とを比較し、大まかな話者情報を推定する。   Here, for example, the speaker specifying unit 303 of the control device 111 compares the acquired voice information with the voice information registered in the table 700 of the database 213 to estimate rough speaker information.

図11は、データベース213に記録されている音声情報と、推定される年齢との関係を示すテーブル700の一例を示す図である。図11に示すように、データベース213には、5段階に分けられた年齢範囲に対応する音声情報(音声モデル)が登録されている。ここで、音声モデルとは、各年齢に該当する不特定多数の話者の音声の特徴を用いて作成された識別用モデルを指す。音声モデルには、各年代の音声の話者性を示す特徴が含まれている。例えば、音声モデルAは、不特定多数の0〜10歳の人間の発話から特徴を抽出し、抽出した特徴を何らかの規範を用いて学習し、モデル化したものである。   FIG. 11 is a diagram showing an example of a table 700 showing the relationship between voice information recorded in the database 213 and the estimated age. As shown in FIG. 11, in the database 213, speech information (speech model) corresponding to the age range divided into five stages is registered. Here, the speech model refers to a discrimination model created using speech characteristics of an unspecified number of speakers corresponding to each age. The speech model contains features that indicate the speaker nature of speech of each age. For example, the speech model A is obtained by extracting features from an unspecified number of 0 to 10-year-old human speech, and learning and modeling the extracted features using some norm.

音声情報をモデル化する方法は特に限定しない。一般的に、男性、女性、子供及び大人など、性別又は年代が異なれば、声帯振動の基本周波数又は声道の特性が異なることが知られている。これらの違いに注目し、例えば、分類したい年代又は性別ごとの音声情報から抽出した基本周波数をモデル化してもよいし、声道特性の特徴量を抽出し、抽出した特徴料を機械学習等による統計的なアプローチでモデル化してもよい。また、本実施の形態では、年齢を5段階に分けてデータベース化されている例を示したが、これに限らない。少なくとも子供(例えば0〜10歳)と、それ以外の大人といったように2段階の年齢層に対応する音声情報がモデル化され、データベースとして格納されていればよい。図11のテーブル700のように、音声情報(音声モデル)と年齢に関する情報とが関連付けられていてもよいし、音声情報(音声モデル)と性別又はその他の情報とが関連付けられていてもよい。   The method of modeling the speech information is not particularly limited. Generally, it is known that the characteristics of the fundamental frequency or vocal tract of vocal cord vibration differ depending on gender or age, such as male, female, child and adult. Focusing on these differences, for example, a fundamental frequency extracted from speech information for each age or gender to be classified may be modeled, or feature quantities of vocal tract characteristics may be extracted, and the extracted feature fee may be machine learning or the like. It may be modeled by a statistical approach. Moreover, although the example which divided age into five steps and was database-ized was shown in this Embodiment, it does not restrict to this. Audio information corresponding to two age groups such as at least a child (for example, 0 to 10 years old) and other adults may be modeled and stored as a database. As in the table 700 of FIG. 11, voice information (voice model) and information related to age may be associated, or voice information (voice model) and gender or other information may be associated.

なお、ステップ504の処理は、図7におけるステップS303の処理に相当する。   The process of step 504 corresponds to the process of step S303 in FIG.

次に、ステップS505において、制御装置111の制御処理部212の制御対象機器特定部304は、制御対象機器を特定する。以下、制御対象機器を特定する方法の一例として、特定された話者情報(音声モデル)と、取得された音声コマンドとから制御対象機器を特定する方法を説明する。なお、制御対象機器を特定する方法としては、以下に説明する方法に限られず、例えば、特定した話者情報のみから制御対象機器を特定する方法、又は特定した話者情報とその他の情報とを組み合わせて制御対象機器を特定する方法が考えられる。   Next, in step S505, the control target device identification unit 304 of the control processing unit 212 of the control device 111 identifies a control target device. Hereinafter, as an example of a method of specifying a control target device, a method of specifying a control target device from the specified speaker information (voice model) and the acquired voice command will be described. The method of specifying the control target device is not limited to the method described below. For example, a method of specifying the control target device only from the specified speaker information, or the specified speaker information and other information A method may be considered in combination to specify the control target device.

図10に示すように、制御対象機器特定部304は、第1の制御対象機器限定部3041と第2の制御対象機器限定部3042とを含んでもよい。   As shown in FIG. 10, the control target device identification unit 304 may include a first control target device restriction unit 3041 and a second control target device restriction unit 3042.

図12は、データベース213に記憶されている音声モデルと制御対象機器との関係を示すテーブル801の一例を示す図である。   FIG. 12 is a diagram showing an example of a table 801 showing the relationship between the speech model stored in the database 213 and the control target device.

第1の制御対象機器限定部3041は、図12に示すデータベース213のテーブル801を用いて、話者特定部303によって特定された話者情報(音声モデルA〜D)から制御対象機器を限定する。なお、図12において、例えば、機器Aはテレビであり、機器Bはガスコンロであり、機器Cはエアコンであり、機器Dは子供用玩具である。テーブル801に示すように、話者特定部303によって話者の年齢が0〜10歳(音声モデルA)であると特定された場合、制御対象機器は、機器A(テレビ)及び機器D(子供用玩具)に限定される。また、話者特定部303によって話者の年齢が11〜20歳(音声モデルB)であると特定された場合、制御対象機器は、機器A、機器C及び機器Dに限定される。同様に、話者特定部303によって話者の年齢が21〜40歳(音声モデルC)であると特定された場合、制御対象機器は、機器A、機器B及び機器Cに限定される。他の年齢についても、図12に示す通りに制御対象機器が限定される。   The first control target device limiting unit 3041 limits control target devices from the speaker information (speech models A to D) specified by the speaker specifying unit 303 using the table 801 of the database 213 shown in FIG. . In FIG. 12, for example, the device A is a television, the device B is a gas stove, the device C is an air conditioner, and the device D is a toy for children. As shown in the table 801, when it is specified by the speaker specifying unit 303 that the age of the speaker is 0 to 10 years (voice model A), the control target devices are the device A (television) and the device D (children Limited to toys). When the speaker identification unit 303 identifies that the speaker age is 11 to 20 (voice model B), the control target devices are limited to the device A, the device C, and the device D. Similarly, when the speaker specifying unit 303 specifies that the age of the speaker is 21 to 40 (voice model C), the control target devices are limited to the device A, the device B, and the device C. The control target devices are limited as shown in FIG. 12 for other ages.

なお、テーブル801は、音声モデルと制御対象機器とを関連付けているが、本開示は特にこれに限定されず、年齢と制御対象機器とを関連付けてもよい。   Although the table 801 associates the voice model with the control target device, the present disclosure is not particularly limited thereto, and the age may be associated with the control target device.

図13は、データベース213に記録されている音声コマンドと制御対象機器との関係を示すテーブル802の一例を示す図である。   FIG. 13 is a diagram showing an example of a table 802 indicating the relationship between voice commands recorded in the database 213 and control target devices.

第2の制御対象機器限定部3042は、図13に示すデータベース213のテーブル802を用いて、音声解析部302によって取得された音声コマンドから制御対象機器を限定する。例えば、音声コマンドが「おん」又は「おふ」である場合、制御対象機器は、機器A(テレビ)、機器B(ガスコンロ)、機器C(エアコン)及び機器D(子供用玩具)に限定される。一方、例えば、音声コマンドが「あげる」又は「さげる」である場合、制御対象機器は、機器A(テレビ)、機器B(ガスコンロ)及び機器C(エアコン)に限定される。   The second control target device limiting unit 3042 limits the control target device from the voice command acquired by the voice analysis unit 302 using the table 802 of the database 213 shown in FIG. 13. For example, when the voice command is "on" or "off", the control target devices are limited to device A (TV), device B (gas stove), device C (air conditioner) and device D (child's toy) Ru. On the other hand, for example, when the voice command is "raising" or "teasing", the control target devices are limited to the device A (television), the device B (gas stove) and the device C (air conditioner).

ここで、例えば、話者特定部303によって音声モデルAと分類され、音声解析部302によって「あげる」という音声コマンドが取得された場合、制御対象機器は、第1の制御対象機器限定部3041と第2の制御対象機器限定部3042との双方によって限定される複数の機器101のうちの機器A(テレビ)に特定される。   Here, for example, when the speaker identification unit 303 classifies the speech model A as the speech model A and the speech analysis unit 302 acquires a speech command “raising”, the control target device is the first control target device restriction unit 3041 and The device A (television) among the plurality of devices 101 limited by both the second control target device limiting unit 3042 is specified.

このように、制御対象機器特定部304は、話者情報と制御対象機器の候補を示す候補機器とを関連付けて記憶するテーブル801(第1のテーブル)と、音声コマンドと候補機器とを関連付けて記憶するテーブル802(第2のテーブル)とをそれぞれ参照し、テーブル801及びテーブル802の両方に合致する候補機器を制御対象機器として特定する。   As described above, the control target device specifying unit 304 associates the voice command with the candidate device by associating the table 801 (first table) storing the speaker information with the candidate device indicating the candidate of the control target device. Each of the tables 802 (second table) to be stored is referred to, and a candidate device that matches both the table 801 and the table 802 is specified as a control target device.

また、制御対象機器特定部304は、テーブル801(第1のテーブル)及びテーブル802(第2のテーブル)の両方に合致する候補機器がない場合、制御対象機器が無い旨を通知してもよい。   In addition, when there is no candidate device that matches both of the table 801 (first table) and the table 802 (second table), the control target device identification unit 304 may notify that there is no control target device. .

なお、ステップS505の処理は、図7におけるステップS304の処理に相当する。   The process of step S505 corresponds to the process of step S304 in FIG.

次に、ステップS506において、制御装置111の通信部211は、制御対象機器の通信部201に音声コマンドを送信する。上記のように、ステップS505において制御対象機器が機器Aに特定された場合、図8に示すように、通信部211は、「あげる」という音声コマンドを機器Aであるテレビに送信する。   Next, in step S506, the communication unit 211 of the control device 111 transmits a voice command to the communication unit 201 of the control target device. As described above, when the device to be controlled is identified as the device A in step S505, the communication unit 211 transmits a voice command “raise” to the television as the device A as illustrated in FIG.

一方、ステップS505において制御対象機器が機器Bに特定された場合、図9に示すように、通信部211は、音声コマンドを機器Bの通信部201に送信する。   On the other hand, when the control target device is specified as the device B in step S505, the communication unit 211 transmits a voice command to the communication unit 201 of the device B, as shown in FIG.

次に、ステップS507において、制御対象機器の制御処理部202は、受信した音声コマンドに応じて動作を制御する。   Next, in step S507, the control processing unit 202 of the control target device controls the operation according to the received voice command.

図14は、機器のメモリに記憶されている音声コマンドと制御内容とを関連付けたテーブル803の一例を示す図である。ここで、各機器は、図14に示すようなテーブル803を保持している。例えば、機器Aに「あげる」という音声コマンドが入力された際には制御処理部202はスピーカ205を制御し、音量設定値を一定値上げる。   FIG. 14 is a diagram showing an example of a table 803 in which voice commands stored in the memory of the device and control contents are associated. Here, each device holds a table 803 as shown in FIG. For example, when a voice command “raise” is input to the device A, the control processing unit 202 controls the speaker 205 to raise the volume setting value by a fixed value.

以上、本実施の形態1の音声認識システムによれば、話者の年齢等の情報と、音声コマンドとから、話者の音声コマンドに対する制御対象機器を特定することができる。これにより、従来のように、制御対象機器を特定するための入力動作が不要となり、よりユーザの利便性を向上させることができる。また、音声によって誰でも全ての機器を操作できるという従来の音声認識システムの課題を解決することができる。例えば、子供がガスコンロなどの機器を音声にて操作することを防止することができる。   As described above, according to the voice recognition system of the first embodiment, it is possible to specify the control target device for the voice command of the speaker from the information such as the age of the speaker and the voice command. As a result, as in the conventional case, the input operation for specifying the control target device is not necessary, and the user's convenience can be further improved. In addition, it is possible to solve the problem of the conventional voice recognition system that anyone can operate all the devices by voice. For example, it is possible to prevent a child from operating equipment such as a gas stove by voice.

なお、本実施の形態1では、制御装置111の制御処理部212が、音声解析部302、話者特定部303及び制御対象機器特定部304を含む例を説明したが、これに限られない。複数の機器101のいずれかの機器における制御処理部202が、音声解析部302、話者特定部303及び制御対象機器特定部304のいずれか又は全てを含んでいてもよい。また、サービスプロバイダが所有するサーバ121が、音声解析部302、話者特定部303及び制御対象機器特定部304のいずれか又は全てを含んでいてもよい。その場合は、データセンタ運営会社110は、取得した情報を蓄積してサービスプロバイダに送信する。または、データセンタ運営会社110が存在しない場合もある。   In the first embodiment, an example in which the control processing unit 212 of the control device 111 includes the voice analysis unit 302, the speaker specifying unit 303, and the control target device specifying unit 304 has been described, but the present invention is not limited thereto. The control processing unit 202 in any one of the plurality of devices 101 may include any or all of the voice analysis unit 302, the speaker identification unit 303, and the control target device identification unit 304. Also, the server 121 owned by the service provider may include any or all of the voice analysis unit 302, the speaker identification unit 303, and the control target device identification unit 304. In that case, the data center operating company 110 accumulates the acquired information and transmits it to the service provider. Alternatively, the data center operating company 110 may not exist.

なお、ステップS303において特定される話者情報は、音声による機器の制御を受け付けるか否かを判断するための最低限のおおまかな情報でよいが、予めグループごとの個人と音声モデルとが関連付けられたテーブルが登録されていれば、音声情報から詳細な話者を特定できる。例えば、話者が、家族の中でも父親及び母親のいずれであるか、姉及び妹のいずれであるか、といったように詳細に話者を特定することができる。これにより、グループに属する予め登録された話者以外の話者が音声コマンドを発話しても、機器を制御できないようにすることができる。したがって、外部の者からグループ(家など)内の機器が制御されることを防ぐことができる。   The speaker information specified in step S303 may be the minimum rough information for determining whether to receive control of the device by voice, but the individual for each group is associated with the voice model in advance. If the table is registered, detailed speakers can be identified from the voice information. For example, the speaker can be specified in detail, such as whether the speaker is a father or a mother or a sister or a sister in a family. This makes it possible not to control the device even if speakers other than the previously registered speakers belonging to the group speak a voice command. Therefore, it is possible to prevent an outsider from controlling the devices in the group (such as a house).

また、予め設定されたグループごとのデータベースが蓄積されていれば、各話者に対する機器の使用頻度を集計できる。したがって、制御対象機器特定部304は、音声コマンドを発話した話者の使用頻度の高い機器を優先的に制御対象機器として特定してもよい。すなわち、データベース213は、話者情報と、話者情報に対応する話者の機器の使用履歴とを関連付けて記憶するテーブルを記憶してもよく、制御対象機器特定部304は、当該テーブルを参照し、話者情報に対応する話者の機器の使用履歴と音声コマンドとに基づいて、制御対象機器を特定してもよい。これにより、ユーザが意図していない機器を制御してしまうことを防止することができる。なお、グループごとの個人と関連付けられたテーブルの詳細に関しては実施の形態2でも説明する。   In addition, if a database for each group set in advance is accumulated, it is possible to count the frequency of use of the device for each speaker. Therefore, the control target device identification unit 304 may preferentially specify the device with high frequency of use of the speaker who utters the voice command as the control target device. That is, the database 213 may store a table that stores speaker information and the usage history of the device of the speaker corresponding to the speaker information and stores the table, and the control target device specifying unit 304 refers to the table. The control target device may be specified based on the usage history of the device of the speaker corresponding to the speaker information and the voice command. This makes it possible to prevent the control of the device not intended by the user. The details of the table associated with the individual for each group will be described in the second embodiment.

また、制御対象機器特定部304は、使用頻度の履歴とともに、機器を使用した時刻に関する情報を用いて制御対象機器を特定してもよい。これにより、話者が音声コマンドを発話した時刻に、その話者が使用している頻度の高い機器を制御対象機器として特定できる。したがって、制御対象機器を特定する精度をより向上させることができる。   Further, the control target device specifying unit 304 may specify the control target device using information on time when the device is used, together with the history of the use frequency. As a result, at the time when the speaker utters a voice command, it is possible to specify a device frequently used by the speaker as a control target device. Therefore, the accuracy of specifying the control target device can be further improved.

また、制御対象機器特定部304は、話者及び機器の位置情報をさらに利用することで、制御対象機器を特定してもよい。すなわち、制御対象機器特定部304は、話者の位置を示す話者位置情報と、複数の機器のそれぞれの位置を示す機器位置情報とを取得し、音声コマンドと話者情報と話者位置情報と機器位置情報とに基づいて、制御対象機器を特定してもよい。   Further, the control target device specifying unit 304 may specify the control target device by further utilizing the position information of the speaker and the device. That is, the control target device specifying unit 304 acquires speaker position information indicating the position of the speaker and device position information indicating the positions of the plurality of devices, and the voice command, the speaker information, and the speaker position information The control target device may be specified based on the device position information and the device position information.

例えば、制御対象機器特定部304は、音声コマンドと話者情報とに基づいて複数の制御対象機器の候補が特定された後に、話者の位置と、特定された複数の制御対象機器の候補の位置との関係から、最も話者の位置に近い制御対象機器の候補を制御対象機器として特定してもよい。位置情報は、例えばGPS(Global Positioning System)等を利用してもよい。また、収音装置103によって取得される音声情報に基づいて、収音装置103と各機器との位置関係及び収音装置103と話者との位置関係を計測してもよい。複数の機器101にマイク204及びスピーカ205が備えられており、各機器が情報を交換することができれば、より詳細に各機器の位置関係及び話者の位置を特定することができる。   For example, after the control target device specifying unit 304 specifies a plurality of control target device candidates based on the voice command and the speaker information, the position of the speaker and the specified plurality of control target device candidates are identified. From the relationship with the position, the candidate for the control target device closest to the speaker position may be specified as the control target device. The position information may use, for example, a GPS (Global Positioning System) or the like. Further, based on the voice information acquired by the sound collection device 103, the positional relationship between the sound collection device 103 and each device and the positional relationship between the sound collection device 103 and the speaker may be measured. The plurality of devices 101 are provided with the microphone 204 and the speaker 205, and if the devices can exchange information, the positional relationship between the devices and the position of the speaker can be specified in more detail.

また、ステップS305において、特定された制御対象機器を制御する際、制御処理部202は、特定された話者に応じて制御対象機器を制御してもよい。例えば、テーブル700の音声モデルA(0〜10歳)と特定された話者が、機器A(テレビ)を音声コマンドによって制御する場合は、機器Aの表示部206は、「テレビを見るときは1m以上離れましょう」という文字を表示したり、スピーカ205は、「テレビを見るときは1m以上離れましょう」という音声を出力したりしてもよい。また、音声モデルE(60〜80歳)と特定された話者が機器Cを音声コマンドによって制御する場合は、スピーカ205は、操作方法に関するより詳細な音声ガイドを出力してもよい。すなわち、話者の情報に応じてステップS305における機器の制御方法又は機器の制御結果を変更してもよい。   Further, in step S305, when controlling the specified control target device, the control processing unit 202 may control the control target device according to the specified speaker. For example, when the speaker specified as voice model A (0 to 10 years old) in the table 700 controls the device A (TV) by a voice command, the display unit 206 of the device A The characters “let's leave 1 m or more” may be displayed, or the speaker 205 may output a voice “let's leave 1 m or more when watching TV”. In addition, when the speaker specified as the voice model E (60 to 80 years old) controls the device C by a voice command, the speaker 205 may output a more detailed voice guide regarding the operation method. That is, the control method of the device or the control result of the device in step S305 may be changed according to the information of the speaker.

また、図12及び図13に示すテーブルは、メーカ側が予めデフォルトを設定していてもよいし、ユーザによる編集を受け付けてもよい。この場合、ユーザが各テーブルを編集するためのUI(ユーザインタフェース)が構築されていることが好ましい。   Further, in the tables shown in FIG. 12 and FIG. 13, the maker may set default in advance, or may receive editing by the user. In this case, it is preferable that a UI (user interface) for the user to edit each table is constructed.

図15は、音声によって操作することが可能な機器を一覧で表示する表示画面の一例を示す図であり、図16は、音声によって操作する話者を機器毎に設定する動作を説明するための図であり、図17は、音声によって操作する話者を機器毎に設定した際に表示される表示画面の一例を示す図である。   FIG. 15 is a view showing an example of a display screen for displaying a list of devices that can be operated by voice in a list, and FIG. 16 is a diagram for explaining an operation of setting a speaker operated by voice for each device. FIG. 17 is a diagram showing an example of a display screen displayed when a speaker operated by voice is set for each device.

図15〜図17では、ユーザが各テーブルを設定するためのUIを示している。例えば、図15に示すように、スマートフォンの画面には、音声操作可能な機器の一覧が表示される。また、画面の下部には、特定のユーザの機器の利用を制限するためのアイコン501,502が表示される。アイコン501は、音声モデルAに対応する0〜10歳の話者による操作を制限するためのアイコンであり、アイコン502は、音声モデルDに対応する61〜80歳の話者による操作を制限するためのアイコンである。画面を表示する表示部はタッチパネル式ディスプレイ等で構成される。図16に示すように、ユーザは、アイコン501,502を、対象の機器の上にドラックアンドドロップする。これにより、制御処理部212は、テーブル801において、アイコンに対応する音声モデルに関連付けられている制御対象機器を変更する。   15 to 17 show UIs for the user to set each table. For example, as shown in FIG. 15, a list of devices that can be voice-operated is displayed on the screen of the smartphone. In the lower part of the screen, icons 501 and 502 for limiting the use of the device of a specific user are displayed. The icon 501 is an icon for restricting the operation by the 0 to 10-year-old speaker corresponding to the voice model A, and the icon 502 is for restricting the operation by the 61 to 80-year-old speaker corresponding to the voice model D It is an icon for The display unit for displaying the screen is configured of a touch panel display or the like. As shown in FIG. 16, the user drags and drops the icons 501 and 502 onto the target device. Thereby, the control processing unit 212 changes the control target device associated with the voice model corresponding to the icon in the table 801.

図17の例では、最終的に、機器B(ガスコンロ)は、音声モデルA(0〜10歳)の話者と音声モデルD(61〜80歳)の話者とが音声コマンドにより操作できない機器に設定されている。また、機器C(エアコン)は、音声モデルA(0〜10歳)の話者が音声コマンドにより操作できない機器に設定されている。   In the example of FIG. 17, finally, the device B (gas stove) can not be operated by the voice command between the speaker of the voice model A (0 to 10 years old) and the speaker of the voice model D (61 to 80 years old) It is set to. Further, the device C (air conditioner) is set to a device in which the speaker of the voice model A (0 to 10 years old) can not operate by the voice command.

このように、制御装置111の制御処理部212は、話者からの音声に基づいて制御される複数の機器101に関する情報を表示する表示装置(例えば、スマートフォン)を制御する。制御処理部212は、音声によって制御可能な複数の機器に関する第1の情報の一覧を表示するように表示装置を制御する。また、制御処理部212は、特定の話者に関して音声による機器の制御を受け付けないことを示す第2の情報を、制御を受け付けない機器に対応する第1の情報の近傍に表示するように表示装置を制御する。   As described above, the control processing unit 212 of the control device 111 controls a display device (for example, a smartphone) that displays information related to the plurality of devices 101 controlled based on the voice from the speaker. The control processing unit 212 controls the display device to display a list of first information related to a plurality of controllable audio devices. Further, the control processing unit 212 displays the second information indicating that the control of the device by voice is not received for the specific speaker so as to be displayed in the vicinity of the first information corresponding to the device not receiving the control. Control the device.

また、表示装置の表示画面には、第1の情報と、第1の情報とは異なる位置に配置された第2の情報とが表示されている。制御処理部212は、表示装置の表示画面において第2の情報を表示する表示領域がユーザによりタッチされ、第2の情報が第1の情報に向かってドラッグされ、第2の情報が第1の情報の上でドロップされることにより、第2の情報を第1の情報の近傍に表示するように表示装置を制御する。また、制御処理部212は、第2の情報が第1の情報の近傍に表示された場合、第1の情報に対応する機器の音声による制御を受け付けないように特定の話者に対する設定を変更する。   Further, on the display screen of the display device, the first information and the second information arranged at a position different from the first information are displayed. In the control processing unit 212, the display area for displaying the second information on the display screen of the display device is touched by the user, the second information is dragged toward the first information, and the second information is the first information. By dropping on the information, the display device is controlled to display the second information in the vicinity of the first information. In addition, when the second information is displayed in the vicinity of the first information, the control processing unit 212 changes the setting for the specific speaker so as not to receive the control by the voice of the device corresponding to the first information. Do.

また、音声認識システムは、制御対象機器特定部304が制御対象機器を特定した理由を出力する出力部を備えてもよい。例えば、図12及び図13のようにテーブルが設定されている場合は、音声モデルEの話者が「きょう」という音声コマンドを発話した際には、自動的に制御対象機器は機器B(エアコン)に特定される。この際、制御装置111の通信部211は、スピーカ205から「あなたがその音声コマンドで制御できる機器は、エアコンのみなので、エアコンを制御します。」という音声を出力する制御コマンドを送信してもよい。これにより、話者はなぜ自動的に機器Bが制御されたのか把握することができるため、話者への不快感を低減できる。   The voice recognition system may also include an output unit that outputs the reason why the control target device identification unit 304 identifies the control target device. For example, in the case where the table is set as shown in FIGS. 12 and 13, when the speaker of the voice model E utters a voice command "Kyou", the control target device is automatically the device B (air conditioner (air conditioner) Specific to At this time, even if the communication unit 211 of the control device 111 transmits a control command to output a voice from the speaker 205 "The equipment that you can control by the voice command is the air conditioner, so control the air conditioner." Good. As a result, the speaker can automatically understand why the device B is controlled, thereby reducing discomfort to the speaker.

また、音声認識システムは、話者を特定した時点で制御対象機器を可視的に話者に伝える制御対象機器通知部を備えてもよい。例えば、収音装置103が設置されている部屋内に存在する話者が音声モデルAであると特定された際には、自動的に制御対象機器の候補が機器A及び機器Dに特定される。この際、制御装置111は、機器A及び機器Dに備えられた発光部(図3には図示せず)を発光させるように制御してもよい。これにより、話者は音声コマンドによって制御できる機器を可視的に把握できる。   In addition, the voice recognition system may include a control target device notification unit that visibly transmits the control target device to the speaker when the speaker is identified. For example, when a speaker present in a room in which the sound collection device 103 is installed is specified as the voice model A, candidates for the control target device are automatically specified as the device A and the device D. . At this time, the control device 111 may control the light emitting unit (not shown in FIG. 3) provided in the device A and the device D to emit light. As a result, the speaker can visually grasp the devices that can be controlled by the voice command.

また、制御装置111は、特定された話者が制御対象機器では無い機器を音声コマンドで制御しようとした際に、「その機器は制御対象外です」という音声ガイドをスピーカ104から出力するように制御してもよい。例えば、図12及び図13のテーブルが登録されている場合、音声モデルAと特定された話者が「きょう」と発話しても制御対象機器が存在しないことになる。したがって、音声コマンドに対応する制御対象機器が存在しない場合、制御装置111の通信部211は、スピーカ205から「その機器は制御対象外です」という音声ガイドを出力する旨の制御コマンドを送信してもよい。   In addition, when the specified speaker tries to control a device that is not a control target device by a voice command, the control device 111 outputs a voice guide “the device is not a control target” from the speaker 104. You may control. For example, in the case where the tables of FIG. 12 and FIG. 13 are registered, even if the speaker specified as the speech model A utters “K”, the control target device does not exist. Therefore, when there is no control target device corresponding to the voice command, the communication unit 211 of the control device 111 transmits a control command indicating that the voice guide “the device is not controlled” is output from the speaker 205. It is also good.

(実施の形態2)
(本実施の形態2の基礎となった知見)
本実施の形態2では、音声によって複数の機器を制御するだけではなく、音声によって各機器又は家と仮想的に対話して、物品を購入するシステムを想定している。例えば、ユーザがシステムに登録されたレシピ通りに調理しようとした際、不足している食材の購入をシステム側から促し、ユーザ側が音声にて不足している食材の購入を指示することができれば、ユーザにとってもサービスプロバイダにとっても利便性及び価値の高いシステムとなる。
Second Embodiment
(Findings that formed the basis of the second embodiment)
In the second embodiment, not only a plurality of devices are controlled by voice, but also a system that virtually interacts with each device or house by voice to purchase an item is assumed. For example, when the user tries to cook according to the recipe registered in the system, if the system side urges the purchase of the deficient food from the system side, and the user can instruct the purchase of the deficient food by voice. It is a convenient and valuable system for both users and service providers.

ただし、この際、例えば家に侵入した不審者でも、音声入力によって物品を購入することが可能となってしまう。また、幼い子供でも高価な商品を購入することが可能である。すなわち、誰でも物品を購入することができる。また、従来、音声認識システムによって購入決済を行う場合、ユーザ認証を行う方法については確立されていないので、サービスプロバイダは、音声によって物品を購入しようとしている話者が予め登録されているユーザであるか否かを特定できない。そのため、ユーザを認証し安全に物品を購入することができるシステムの構築が必要である。   However, at this time, for example, even a suspicious person who has invaded a house can purchase an article by voice input. Also, even young children can purchase expensive products. That is, anyone can purchase an item. Also, conventionally, when performing purchase settlement with a voice recognition system, a method for performing user authentication has not been established, so that the service provider is a user whose speaker who intends to purchase an article by voice is a user registered in advance. It can not be identified. Therefore, it is necessary to construct a system that can authenticate the user and purchase the item safely.

本実施の形態2では、上記の課題を解決する音声認識システムを提供する。   The second embodiment provides a speech recognition system that solves the above-mentioned problems.

なお、本実施の形態2では、実施の形態1と異なる構成を中心に説明する。なお、本実施の形態2は、実施の形態1における構成を併用することも可能である。音声認識システムの全体構成、機器101aの構成、及び制御装置の構成等に関しては、図1A、図1B、図1C、図2〜図5と同様であるので、説明を省略する。   In the second embodiment, a configuration different from that of the first embodiment will be mainly described. In the second embodiment, the configuration in the first embodiment can be used in combination. The overall configuration of the voice recognition system, the configuration of the device 101a, the configuration of the control device, and the like are the same as those in FIGS.

(音声認識システムの機能構成)
図18は、本開示の実施の形態2における音声認識システムの機能構成を示す図である。音声認識システムは、図18に示すように、音声取得部1001、音声解析部1002、話者特定部1003及び購入決済部1004を備える。
(Functional configuration of speech recognition system)
FIG. 18 is a diagram showing a functional configuration of the speech recognition system in the second embodiment of the present disclosure. The speech recognition system includes a speech acquisition unit 1001, a speech analysis unit 1002, a speaker identification unit 1003, and a purchase settlement unit 1004, as shown in FIG.

音声取得部1001、音声解析部1002及び話者特定部1003の構成は、実施の形態1の音声取得部301、音声解析部302及び話者特定部303の構成と同様であるので説明を省略する。ただし、本実施の形態2において、話者特定部1003が特定する話者情報は詳細な話者情報である。詳細な話者情報に関しては後述する。   The configurations of speech acquisition unit 1001, speech analysis unit 1002, and speaker identification unit 1003 are the same as the configurations of speech acquisition unit 301, speech analysis unit 302, and speaker identification unit 303 of the first embodiment, so the description will be omitted. . However, in the second embodiment, the speaker information specified by the speaker specifying unit 1003 is detailed speaker information. Detailed speaker information will be described later.

購入決済部1004は、音声解析部1002によって取得された音声コマンドと、話者特定部1003によって特定された話者情報とに基づいて、商品の購入決済を行う。購入決済方法の詳細に関しては後述する。なお、購入決済部1004は、サービスプロバイダ120のサーバ121にて実現する。サーバ121の詳細な構成については後述する。   The purchase settlement unit 1004 purchases and settles a product based on the voice command acquired by the voice analysis unit 1002 and the speaker information specified by the speaker specification unit 1003. The details of the purchase and settlement method will be described later. The purchase settlement unit 1004 is realized by the server 121 of the service provider 120. The detailed configuration of the server 121 will be described later.

なお、購入決済部1004は、データセンタ運営会社110の制御装置111にて実現してもよい。   The purchase settlement unit 1004 may be realized by the control device 111 of the data center operating company 110.

(音声認識システムのフローチャート)
以下に、図19を用いて、本音声認識システムにおける購入決済方法の処理の流れを説明する。
(Flowchart of speech recognition system)
The flow of processing of the purchase / settlement method in the present speech recognition system will be described below using FIG.

図19は、本開示の実施の形態2における音声認識システムの動作を示すフローチャートである。   FIG. 19 is a flowchart showing an operation of the speech recognition system in the second embodiment of the present disclosure.

まず、ステップS1101において、音声取得部1001は、話者の音声情報を取得する。   First, in step S1101, the speech acquisition unit 1001 acquires speech information of the speaker.

次に、ステップS1102において、音声解析部1002は、音声取得部1001によって取得された音声情報を解析し音声コマンドを取得する。また、音声解析部1002は、音声コマンドが購入決済に関する音声コマンドであるか否かを判断する。   Next, in step S1102, the speech analysis unit 1002 analyzes the speech information acquired by the speech acquisition unit 1001 to acquire a speech command. Further, the voice analysis unit 1002 determines whether the voice command is a voice command related to purchase settlement.

次に、ステップS1103において、話者特定部1003は、音声取得部1001によって取得された音声情報に基づいて、取得された音声情報を発話した話者に関する話者情報を特定する。話者特定部1003は、音声コマンドが購入決済に関する音声コマンドである場合、取得した音声情報に基づいて、取得した音声情報を発話した話者に関する話者情報を特定する。   Next, in step S1103, the speaker specifying unit 1003 specifies the speaker information on the speaker who has uttered the obtained voice information based on the voice information obtained by the voice obtaining unit 1001. When the voice command is a voice command relating to purchase settlement, the speaker specifying unit 1003 specifies speaker information on a speaker who has uttered the obtained voice information based on the obtained voice information.

次に、ステップS1104において、購入決済部1004は、音声解析部1002によって取得された音声コマンドと、話者特定部303によって特定された話者情報とに基づいて、商品の購入決済を行う。購入決済部1004は、購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルを参照し、特定された話者情報が購入決済可能な話者情報であるか否かを判断し、特定された話者情報が購入決済可能な話者情報であると判断された場合、音声コマンドと、購入決済に必要な情報とを用いて購入決済処理を行う。   Next, in step S1104, the purchase settlement unit 1004 performs purchase settlement of the product based on the voice command acquired by the speech analysis unit 1002 and the speaker information specified by the speaker specification unit 303. The purchase settlement unit 1004 refers to a table in which the purchase settlement possible speaker information is associated with the information necessary for the purchase settlement, and determines whether the identified speaker information is the purchase settlement possible speaker information. If it is determined that the identified speaker information is the speaker information that can be purchased and settled, the purchase settlement process is performed using the voice command and the information necessary for the purchase and settlement.

(音声認識システムの動作例)
図20を用いて、本実施の形態2における音声認識システムの動作の流れの一例を説明する。図20は、本開示の実施の形態2における音声認識システムの購入決済処理を説明するためのシーケンス図である。また、図21は、本開示の実施の形態2における制御装置及びサーバの構成を示す図である。
(Operation example of speech recognition system)
An example of the flow of the operation of the speech recognition system according to the second embodiment will be described with reference to FIG. FIG. 20 is a sequence diagram for illustrating purchase settlement processing of the speech recognition system according to the second embodiment of the present disclosure. FIG. 21 is a diagram showing configurations of a control device and a server in the second embodiment of the present disclosure.

なお、以下で説明する音声認識システムにおいて、図21に示すように、制御装置111の制御処理部212は、音声解析部1002及び話者特定部1003を備える。さらに、制御処理部212は、制御コマンド選択部1006及び本人認証部1008を備えてもよい。また、図21に示すように、制御装置111のデータベース213は、第1の音声コマンドリスト1301、第2の音声コマンドリスト1302、グループ(家又は会社)ごとに関連付けられたテーブル(第1のテーブル1401及び第2のテーブル1402)を備える。   In the speech recognition system described below, as shown in FIG. 21, the control processing unit 212 of the control device 111 includes a speech analysis unit 1002 and a speaker identification unit 1003. Furthermore, the control processing unit 212 may include a control command selection unit 1006 and a person authentication unit 1008. Further, as shown in FIG. 21, the database 213 of the control device 111 includes a first voice command list 1301, a second voice command list 1302, a table associated with each group (house or company) (first table 1401 and a second table 1402).

また、サービスプロバイダのサーバ121は、通信部1210、制御処理部1220及び購入決済データベース1230を備える。また、制御処理部1220は、購入決済部1004を備える。また、制御処理部1220は、登録有無確認部1005を備えてもよい。購入決済データベース1230はテーブル1403を備える。   In addition, the server 121 of the service provider includes a communication unit 1210, a control processing unit 1220, and a purchase payment database 1230. Further, the control processing unit 1220 includes a purchase settlement unit 1004. Further, the control processing unit 1220 may include a registration presence / absence confirmation unit 1005. The purchase settlement database 1230 comprises a table 1403.

まず、ステップS1201において、収音装置103は、音声情報を取得する。ここで、商品の購入を指示する音声コマンドが取得されたとする。例えば「牛乳を購入」という音声情報が収音装置103に入力される。なお、ステップS1201の処理は、図19に示すステップS1101の処理に該当する。   First, in step S1201, the sound collection device 103 acquires audio information. Here, it is assumed that a voice command instructing purchase of a product is acquired. For example, voice information “purchase milk” is input to the sound collection device 103. The process of step S1201 corresponds to the process of step S1101 shown in FIG.

次に、ステップS1202において、収音装置103は、取得した音声情報を制御装置111に送信する。   Next, in step S1202, the sound collection device 103 transmits the acquired voice information to the control device 111.

次に、ステップS1203において、制御装置111の制御処理部212の音声解析部1002は、取得した音声情報を解析し、音声コマンドを取得する。音声解析部1002は、実施の形態1と同様に、音声情報を解析する。ここで、音声解析部1002は、音声コマンドに購入決済を意図する言葉が含まれているか否かを確認する。また、音声解析部1002は、音声コマンドに購入対象の商品に関するワードが含まれているか否かを確認する。   Next, in step S1203, the voice analysis unit 1002 of the control processing unit 212 of the control device 111 analyzes the obtained voice information to obtain a voice command. The voice analysis unit 1002 analyzes voice information as in the first embodiment. Here, the voice analysis unit 1002 checks whether the voice command includes a word intended for purchase settlement. Also, the voice analysis unit 1002 checks whether the voice command includes a word related to the product to be purchased.

例えば、「牛乳を購入」という音声コマンドが入力された場合は、音声解析部1002は、“牛乳”というワードと“購入”というワードとをそれぞれ、購入を意味するワードを予め記憶する第1の音声コマンドリスト1301と比較する。この場合、“購入”というワードが第1の音声コマンドリスト1301中に存在するので、音声解析部1002は、購入決済の音声コマンドであることを情報として付け加える。また、音声解析部1002は、“牛乳”というワードを、購入可能な物品の名称を予め記憶する第2の音声コマンドリスト1302と比較する。“牛乳”というワードが第2の音声コマンドリスト1302中に存在する場合、音声解析部1002は、購入対象商品を牛乳に設定する。   For example, when a voice command "purchase milk" is input, the voice analysis unit 1002 stores the word "milk" and the word "purchase" in advance, each of which stores the word meaning purchase. The voice command list 1301 is compared. In this case, since the word "purchase" exists in the first voice command list 1301, the voice analysis unit 1002 adds, as information, a voice command of purchase settlement. Further, the voice analysis unit 1002 compares the word “milk” with the second voice command list 1302 in which the names of articles that can be purchased are stored in advance. If the word "milk" is present in the second voice command list 1302, the voice analysis unit 1002 sets the product to be purchased as milk.

なお、ステップS1203の処理は、図19に示すステップS1102の処理に該当する。   The process of step S1203 corresponds to the process of step S1102 shown in FIG.

次に、ステップS1204において、制御装置111の制御処理部212の話者特定部1003は、取得された音声情報から、音声情報を発話した話者に関する話者情報を特定する。データベース213は、各グループの構成員の詳細な情報が蓄積されたテーブル(第1のテーブル1401及び第2のテーブル1402)を含む。第1のテーブル1401は、第1のグループの構成員の音声情報、年齢及び性別を関連付けて記憶する。第2のテーブル1402は、第1のグループとは異なる第2のグループの構成員の音声情報、年齢及び性別を関連付けて記憶する。   Next, in step S1204, the speaker identification unit 1003 of the control processing unit 212 of the control device 111 identifies, from the acquired voice information, speaker information on the speaker who has uttered the voice information. The database 213 includes a table (first table 1401 and second table 1402) in which detailed information of members of each group is accumulated. The first table 1401 associates and stores voice information, age, and gender of members of the first group. The second table 1402 associates and stores voice information, age and gender of members of a second group different from the first group.

図22は、データベース213に記録されている音声情報と、推定される年齢と、推定される性別との関係を示す第1のテーブル1401の一例を示す図である。第1のテーブル1401では、音声情報と詳細な年齢と性別とが関連付けられている。ここで、音声情報は、実施の形態1で説明した通りである。話者特定部1003は、ステップS1201の処理で取得した音声情報と、第1のテーブル1401に登録されている音声情報とを比較することで話者情報を特定する。   FIG. 22 is a diagram showing an example of a first table 1401 showing the relationship between voice information recorded in the database 213, estimated age, and estimated sex. In the first table 1401, voice information, detailed age and gender are associated. Here, the audio information is as described in the first embodiment. The speaker identification unit 1003 identifies speaker information by comparing the voice information acquired in the process of step S1201 with the voice information registered in the first table 1401.

第1のテーブル1401の構築方法は特に限定しない。例えば、制御処理部212は、ユーザによるUI(ユーザインタフェース)を用いた初期設定を予め受け付けることで第1のテーブル1401を構築してもよい。また、制御処理部212は、収音装置103が音声情報を取得したいずれかのタイミングで、話者に年齢及び性別などの情報を入力させることで第1のテーブル1401を構築してもよい。また、後述する購入決済データベース1230に話者が情報を登録した際、又は購入決済データベース1230に話者が情報を登録した後、制御処理部212は、自動的に第1のテーブル1401に購入決済データベース1230の情報をコピーしてもよい。   The construction method of the first table 1401 is not particularly limited. For example, the control processing unit 212 may construct the first table 1401 by receiving in advance an initial setting using a UI (user interface) by the user. Further, the control processing unit 212 may construct the first table 1401 by causing the speaker to input information such as age and gender at any timing when the sound collection device 103 has acquired the voice information. In addition, when the speaker registers information in the purchase / settlement database 1230 described later, or after the speaker registers information in the purchase / settlement database 1230, the control processing unit 212 automatically performs purchase settlement on the first table 1401. Information of the database 1230 may be copied.

ステップS1204の処理は、図19に示すステップS1103の処理に該当する。   The process of step S1204 corresponds to the process of step S1103 shown in FIG.

次に、ステップS1205において、制御装置111の通信部211は、ステップS1203にて解析された結果、購入決済の音声コマンドであると判断された場合、特定した話者情報をサーバ121の通信部1210に送信する。なお、音声コマンドが購入決済の音声コマンドであるか否かの判断はこの時点で行わなくてもよい。サーバ121の通信部1210は、制御装置111によって送信された話者情報を受信する。   Next, in step S 1205, when the communication unit 211 of the control apparatus 111 is determined as a voice command of purchase settlement as a result of analysis in step S 1203, the specified speaker information is used as the communication unit 1210 of the server 121. Send to The determination as to whether the voice command is a purchase payment voice command may not be made at this point. The communication unit 1210 of the server 121 receives the speaker information transmitted by the control device 111.

次に、ステップS1206において、サーバ121の制御処理部1220の登録有無確認部1005は、ステップS1204において特定された話者情報が購入決済データベース1230に登録されているか否かを確認する。購入決済データベース1230は、音声認識システムにおいて物品の購入が可能なユーザに関する情報を記憶するテーブル1403を含む。   Next, in step S1206, the registration presence / absence confirmation unit 1005 of the control processing unit 1220 of the server 121 confirms whether the speaker information identified in step S1204 is registered in the purchase settlement database 1230. The purchase payment database 1230 includes a table 1403 storing information on users who can purchase an item in the speech recognition system.

図23は、購入決済データベース1230に記憶されているユーザ番号と音声情報と年齢とクレジットカード情報との関係を示すテーブル1403の一例を示す図である。   FIG. 23 is a view showing an example of a table 1403 showing the relationship among user numbers, voice information, age and credit card information stored in the purchase payment database 1230.

ここで、登録有無確認部1005は、ステップS1204において特定された話者の音声情報が、テーブル1403に存在する場合は、ユーザ登録の有無を“有”として記憶する。   Here, when the voice information of the speaker identified in step S 1204 is present in the table 1403, the registration presence / absence confirmation unit 1005 stores the presence / absence of user registration as “presence”.

例えば、ステップS1204において、図22の音声情報“001”と特定された話者は、テーブル1403には存在しないので、登録有無確認部1005は、ユーザ登録の有無を“無”として記憶し、ステップS1207の処理には進まず、処理を終了する。なお、登録有無確認部1005は、処理を終了せずに、「登録情報がありません」などの音声ガイドを出力する制御コマンドを作成しスピーカ104に送信してもよい。一方、例えばステップS1204において、図22の音声情報“003”と特定された話者は、テーブル1403に存在するので、登録有無確認部1005は、ユーザ登録の有無を“有”として記憶し、ステップS1207の処理に進む。   For example, since the speaker specified as the voice information “001” in FIG. 22 does not exist in the table 1403 in step S 1204, the registration presence / absence confirmation unit 1005 stores the presence / absence of user registration as “absent”, and the step The process does not proceed to the process of S1207 and ends the process. The registration presence / absence confirmation unit 1005 may create a control command for outputting a voice guide such as “no registration information” or the like and transmit the control command to the speaker 104 without ending the process. On the other hand, for example, the speaker identified as voice information “003” in FIG. 22 in step S 1204 exists in the table 1403, so the registration presence / absence confirmation unit 1005 stores the presence / absence of user registration as “present”, and the step The process proceeds to the process of S1207.

なお、ユーザ登録の有無の判断に際して、テーブル1401の音声情報とテーブル1403の音声情報との一致のみを判断するのではなく、その他の情報(例えば年齢又は性別等)の一致を併せて用いることで、認証の精度を向上させてもよい。   It should be noted that not only the match between the voice information in the table 1401 and the voice information in the table 1403 is determined when determining the presence or absence of user registration, but by using the match of other information (for example, age or gender). , The accuracy of authentication may be improved.

次に、ステップS1207において、サーバ121の通信部1210は、ユーザ登録の有無を示す情報を制御装置111の通信部211に送信する。制御装置111の通信部211は、サーバ121によって送信されたユーザ登録の有無を示す情報を受信する。   Next, in step S1207, the communication unit 1210 of the server 121 transmits information indicating the presence or absence of user registration to the communication unit 211 of the control device 111. The communication unit 211 of the control device 111 receives the information indicating the presence or absence of the user registration transmitted by the server 121.

次に、ステップS1208において、制御装置111の制御処理部212の制御コマンド選択部1006は、スピーカ104を制御するための制御コマンドをステップS1203において解析した音声コマンドに基づいて選択する。例えば、音声コマンドのうち購入可能物品の音声コマンドリスト1302と合致した商品を示すワードが安価な商品(ここでは牛乳)であれば、制御コマンド選択部1006は、「購入決済を行います。牛乳を購入してよろしいでしょうか」という音声ガイドを出力する制御コマンドを選択(生成)する。また、音声コマンドリスト1302と合致した商品を示すワードが比較的高価な商品であれば、制御コマンド選択部1006は、「購入決済を行います。パスワードを発話して下さい」という音声ガイドを出力する制御コマンドを選択(生成)する。   Next, in step S1208, the control command selection unit 1006 of the control processing unit 212 of the control device 111 selects a control command for controlling the speaker 104 based on the voice command analyzed in step S1203. For example, if the word indicating the product matching the voice command list 1302 of the purchasable item in the voice command is an inexpensive product (here, milk), the control command selection unit 1006 performs “purchase settlement. Select (generate) a control command that outputs a voice guide saying "Are you sure you want to purchase?" In addition, if the word indicating the product that matches the voice command list 1302 is a relatively expensive product, the control command selection unit 1006 outputs a voice guide saying "Pay a purchase payment. Please speak a password". Select (generate) a control command.

ここでは、制御コマンド選択部1006は、購入する商品が安価である否かによって、作成する音声ガイドを変更しているが、これに限られない。制御コマンド選択部1006は、購入する商品が安価である否かに関わらず、常に同じ音声ガイドを生成してもよい。また、購入する商品が安価である否かの判断は、購入する商品が所定の値段より安いか否かによって判断される。所定の値段は、ユーザによって設定されてもよい。   Here, although the control command selection unit 1006 changes the voice guide to be created depending on whether or not the product to be purchased is inexpensive, the present invention is not limited to this. The control command selection unit 1006 may always generate the same voice guide regardless of whether the product to be purchased is inexpensive. In addition, the determination as to whether or not the item to be purchased is inexpensive is determined by whether the item to be purchased is less than a predetermined price. The predetermined price may be set by the user.

次に、ステップS1209において、制御装置111の通信部211は、ステップS1208において選択した制御コマンドをスピーカ104に送信する。スピーカ104は、制御装置111によって送信された制御コマンドを受信する。   Next, in step S1209, the communication unit 211 of the control device 111 transmits the control command selected in step S1208 to the speaker 104. The speaker 104 receives the control command transmitted by the control device 111.

次に、ステップS1210において、スピーカ104は、受信した制御コマンドに基づいて音声ガイドを出力する。音声ガイドについては、ステップS1208において説明した通りである。これにより、話者に再度発話を促すことができる。   Next, in step S1210, the speaker 104 outputs an audio guide based on the received control command. The voice guide is as described in step S1208. This can prompt the speaker to speak again.

次に、ステップS1211において、収音装置103は、発話を促された話者の音声情報を再度取得する。   Next, in step S1211, the sound collection device 103 reacquires voice information of the speaker who is prompted to speak.

次に、ステップS1212において、収音装置103は、取得した音声情報を制御装置111に送信する。   Next, in step S1212, the sound collection device 103 transmits the acquired voice information to the control device 111.

次に、ステップS1213において、制御装置111の音声解析部1002は、再度音声を解析し、音声コマンドを取得する。   Next, in step S1213, the voice analysis unit 1002 of the control device 111 analyzes the voice again to obtain a voice command.

次に、ステップS1214において、制御装置111の話者特定部1003は、取得された音声情報から、音声情報を発話した話者に関する話者情報を特定する。   Next, in step S1214, the speaker specifying unit 1003 of the control device 111 specifies, from the acquired voice information, speaker information on the speaker who has uttered the voice information.

次に、ステップS1215において、制御処理部212の本人認証部1008は、ステップS1204において特定した話者情報と、ステップS1214において特定した話者情報とが一致するか否かを判断し、2つの話者情報が一致する場合は、本人認証ができたと判断する。   Next, in step S1215, the personal identification unit 1008 of the control processing unit 212 determines whether the speaker information identified in step S1204 matches the speaker information identified in step S1214, and the two stories If the user information matches, it is determined that the user authentication is successful.

なお、ステップS1215において、本人認証部1008は、ステップS1213において解析した音声コマンドが、商品の購入を肯定する内容であるか否かを判断してもよい。ここで、音声コマンドが商品の購入を肯定する内容であると判断された場合、本人認証部1008は、本人認証ができたと判断する。一方、音声コマンドが商品の購入を否定する内容(例えば、“いいえ”又は“購入しない”など)であると判断された場合、処理を終了してもよい。この場合、制御コマンド選択部1006は、「購入意思がないようなので、決済処理を終了します。」という音声ガイドを出力する制御コマンドを選択(生成)し、スピーカ104に送信してもよい。   In step S1215, the personal authentication unit 1008 may determine whether the voice command analyzed in step S1213 is content that affirms purchase of a product. Here, if it is determined that the voice command is content that affirms the purchase of the product, the person authentication unit 1008 determines that the person authentication is successful. On the other hand, when it is determined that the voice command is content that denies the purchase of the product (for example, "No" or "Do not buy", etc.), the process may be ended. In this case, the control command selection unit 1006 may select (generate) a control command for outputting a voice guide of “end payment processing because there is no purchase intention”, and may transmit it to the speaker 104.

次に、ステップS1216において、制御装置111の通信部211は、ステップS1215において本人の認証ができたと判断された場合は、本人認証が成功したことを示す情報をサーバ121に送信する。ここで、本人の認証ができなかったと判断された場合は、制御コマンド選択部1006は、「本人の認証ができません」という音声ガイドを出力する制御コマンドを選択(生成)し、スピーカ104に送信してもよい。サーバ121の通信部1210は、制御装置111によって送信された本人認証が成功したことを示す情報を受信する。   Next, in step S1216, when it is determined in step S1215 that the authentication of the user is successful, the communication unit 211 of the control device 111 transmits, to the server 121, information indicating that the user authentication is successful. Here, if it is determined that the authentication of the user could not be performed, the control command selection unit 1006 selects (generates) a control command for outputting a voice guide saying "the authentication of the user can not be performed", and transmits it to the speaker 104. May be The communication unit 1210 of the server 121 receives the information indicating that the user authentication transmitted by the control device 111 is successful.

最後に、ステップS1217において、サーバ121の制御処理部1220の購入決済部1004は、音声によって指定された商品を購入する購入決済処理を行う。図23のテーブル1403では、ユーザ番号と音声情報と年齢とクレジットカード情報とが関連付けられて管理されている。そのため、ステップS1217において、購入決済部1004は、対応する話者のクレジットカード情報を抽出し、通信部1210を介してカード会社等と通信することで購入決済処理を行うことが可能である。   Finally, in step S1217, the purchase settlement unit 1004 of the control processing unit 1220 of the server 121 performs purchase settlement processing for purchasing a product designated by voice. In the table 1403 of FIG. 23, the user number, the voice information, the age, and the credit card information are associated and managed. Therefore, in step S1217, the purchase settlement unit 1004 can perform purchase settlement processing by extracting the credit card information of the corresponding speaker and communicating with a card company or the like via the communication unit 1210.

以上、本実施の形態2における音声認識システムでは、取得した音声情報から話者を特定し、サービスプロバイダのサーバに蓄積されている購入決済データベースを参照することで、話者がユーザ登録されているか否かを判断し、購入決済処理が行われる。これにより、煩わしい認証作業をユーザに強いることはない。また、誰が発話しても物品が購入できるという危険性を防ぐことができる。   As described above, in the voice recognition system according to the second embodiment, whether the speaker is registered as a user by identifying the speaker from the acquired voice information and referring to the purchase / payment database stored in the server of the service provider It is determined whether or not there is a purchase settlement process. In this way, the user is not forced to perform troublesome authentication work. In addition, it is possible to prevent the danger of being able to purchase an item regardless of who speaks.

また、商品の購入を再度確認することで、本人認証が行われる。これにより、より安全性の高い購入決済処理が行える。   In addition, identity verification is performed by confirming the purchase of the product again. This enables more secure purchase settlement processing.

なお、制御処理部212は、話者の現在位置を検出する位置検出部を備えてもよい。ステップS1201において音声情報を取得した後、位置検出部は、話者の位置を検出し、ステップS1215において位置検出部は、再度話者の位置を検出し、本人認証部1008は、検出された2つの話者の位置が変化していないことを確認することで、本人認証を行ってもよい。これにより、最初に音声情報が取得された話者とは異なる話者が購入決済の意思確認のタイミング(ステップS1211)で割り込んで発話したとしても、購入決済をキャンセルすることができる。   The control processing unit 212 may include a position detection unit that detects the current position of the speaker. After acquiring voice information in step S1201, the position detection unit detects the position of the speaker, and in step S1215, the position detection unit detects the position of the speaker again, and the personal identification unit 1008 detects 2 Authentication may be performed by confirming that the positions of the two speakers have not changed. As a result, even if a speaker different from the speaker from whom the voice information was acquired first is interrupted and uttered at the purchase payment decision timing (step S1211), the purchase payment can be canceled.

上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現されるクラウドサービスの類型はこれに限られるものでない。   The techniques described in the above aspects may be implemented, for example, in the following cloud service types. However, the type of cloud service in which the technology described in the above aspect is implemented is not limited to this.

(サービスの類型1:自社データセンタ型クラウドサービス)
図24は、サービスの類型1(自社データセンタ型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。本類型では、サービスプロバイダ120がグループ100から情報を取得し、ユーザに対してサービスを提供する。本類型では、サービスプロバイダ120が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ120が、ビッグデータを管理するクラウドサーバ(制御装置111)を保有している。したがって、本類型では、データセンタ運営会社は存在しない。
(Service Type 1: In-house data center cloud service)
FIG. 24 is a diagram showing an overview of services provided by the speech recognition system in service type 1 (in-house data center type cloud service). In this type, the service provider 120 obtains information from the group 100 and provides a service to the user. In this type, the service provider 120 has the function of a data center operating company. That is, the service provider 120 has a cloud server (control device 111) that manages big data. Therefore, in this type, there is no data center operating company.

本類型では、サービスプロバイダ120は、データセンタ(クラウドサーバ)2030を運営及び管理している。また、サービスプロバイダ120は、オペレーティングシステム(OS)2020及びアプリケーション2010を管理する。サービスプロバイダ120は、サービスプロバイダ120が管理するOS2020及びアプリケーション2010を用いてサービスを提供する(矢印2040)。   In this type, the service provider 120 operates and manages the data center (cloud server) 2030. Also, the service provider 120 manages an operating system (OS) 2020 and an application 2010. The service provider 120 provides a service using the OS 2020 and the application 2010 managed by the service provider 120 (arrow 2040).

(サービスの類型2:IaaS利用型クラウドサービス)
図25は、サービスの類型2(IaaS利用型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。ここで、IaaSとは、インフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築及び稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
(Type 2 of service: Cloud service using IaaS)
FIG. 25 is a diagram showing an overview of services provided by the speech recognition system in service type 2 (IaaS-based cloud service). Here, IaaS is an abbreviation of infrastructure as a service, and is a cloud service providing model that provides the infrastructure itself for building and operating a computer system as a service via the Internet.

本類型では、データセンタ運営会社110が、データセンタ(クラウドサーバ)2030を運営及び管理している。また、サービスプロバイダ120は、OS2020及びアプリケーション2010を管理する。サービスプロバイダ120は、サービスプロバイダ120が管理するOS2020及びアプリケーション2010を用いてサービスを提供する(矢印2040)。   In this type, the data center operating company 110 operates and manages the data center (cloud server) 2030. Also, the service provider 120 manages the OS 2020 and the application 2010. The service provider 120 provides a service using the OS 2020 and the application 2010 managed by the service provider 120 (arrow 2040).

(サービスの類型3:PaaS利用型クラウドサービス)
図26は、サービスの類型3(PaaS利用型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。ここで、PaaSとは、プラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築及び稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
(Type 3 of service: Cloud service using PaaS)
FIG. 26 is a diagram showing an overview of services provided by the speech recognition system in service type 3 (PaaS-based cloud service). Here, PaaS is an abbreviation of platform as a service, and is a cloud service providing model that provides a platform serving as a foundation for building and operating software as a service via the Internet.

本類型では、データセンタ運営会社110は、OS2020を管理し、データセンタ(クラウドサーバ)2030を運営及び管理している。また、サービスプロバイダ120は、アプリケーション2010を管理する。サービスプロバイダ120は、データセンタ運営会社110が管理するOS2020及びサービスプロバイダ120が管理するアプリケーション2010を用いてサービスを提供する(矢印2040)。   In this type, the data center operating company 110 manages the OS 2020, and operates and manages the data center (cloud server) 2030. Also, the service provider 120 manages the application 2010. The service provider 120 provides a service using the OS 2020 managed by the data center operating company 110 and the application 2010 managed by the service provider 120 (arrow 2040).

(サービスの類型4:SaaS利用型クラウドサービス)
図27は、サービスの類型4(SaaS利用型クラウドサービス)における音声認識システムが提供するサービスの全体像を示す図である。ここで、SaaSとは、ソフトウェア・アズ・ア・サービスの略である。SaaS利用型クラウドサービスは、例えば、データセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社又は個人などの利用者がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
(Type 4 of service: Cloud service using SaaS)
FIG. 27 is a diagram showing an overview of a service provided by the speech recognition system in the service type 4 (SaaS cloud service). Here, SaaS is an abbreviation of software as a service. The SaaS-based cloud service is, for example, an application provided by a platform provider having a data center (cloud server), a user such as a company or an individual who does not have a data center (cloud server), the Internet, etc. Cloud service provision model having functions that can be used via the network of

本類型では、データセンタ運営会社110は、アプリケーション2010を管理し、OS2020を管理し、データセンタ(クラウドサーバ)2030を運営及び管理している。また、サービスプロバイダ120は、データセンタ運営会社110が管理するOS2020及びアプリケーション2010を用いてサービスを提供する(矢印2040)。   In this type, the data center operating company 110 manages the application 2010, manages the OS 2020, and operates and manages the data center (cloud server) 2030. The service provider 120 also provides a service using the OS 2020 and the application 2010 managed by the data center operating company 110 (arrow 2040).

以上、いずれのクラウドサービスの類型においても、サービスプロバイダ120がサービスを提供する。また、例えば、サービスプロバイダ又はデータセンタ運営会社は、OS、アプリケーション又はビッグデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。   As described above, the service provider 120 provides a service in any type of cloud service. Also, for example, a service provider or a data center operating company may develop an OS, an application, a database of big data, etc. by oneself, or may outsource it to a third party.

本開示に係る機器制御方法、表示制御方法及び購入決済方法は、機器を制御させたくない話者に対して、音声により機器を制御させないようにすることができ、音声によって複数の機器を制御する機器制御方法、話者からの音声に基づいて制御される複数の機器に関する情報を表示する表示装置を制御する表示制御方法、及び音声によって物品を購入する購入決済方法として有用である。   A device control method, a display control method, and a purchase settlement method according to the present disclosure can prevent a speaker who does not want to control a device to control the device by voice, and controls a plurality of devices by voice. The present invention is useful as a device control method, a display control method for controlling a display device that displays information on a plurality of devices controlled based on voice from a speaker, and a purchase settlement method for purchasing an article by voice.

10,20 ユーザ
100 グループ
101 複数の機器
101a 機器
102 ホームゲートウェイ
103 収音装置
104 スピーカ
110 データセンタ運営会社
111 制御装置
120 サービスプロバイダ
121 サーバ
201 通信部
202 制御処理部
203 メモリ
204 マイク
205 スピーカ
206 表示部
211 通信部
212 制御処理部
213 データベース
301 音声取得部
302 音声解析部
303 話者特定部
304 制御対象機器特定部
305 機器制御部
1001 音声取得部
1002 音声解析部
1003 話者特定部
1004 購入決済部
1005 登録有無確認部
1006 制御コマンド選択部
1008 本人認証部
1210 通信部
1220 制御処理部
1230 購入決済データベース
3041 第1の制御対象機器限定部
3042 第2の制御対象機器限定部
10, 20 Users 100 Groups 101 Multiple Devices 101a Devices 102 Home Gateway 103 Sound Collection Device 104 Speaker 110 Data Center Operating Company 111 Control Device 120 Service Provider 121 Server 201 Communication Unit 202 Control Processing Unit 203 Memory 204 Microphone 205 Speaker 206 Display Unit 211 communication unit 212 control processing unit 213 database 301 speech acquisition unit 302 speech analysis unit 303 speaker identification unit 304 control target device identification unit 305 device control unit 1001 speech acquisition unit 1002 speech analysis unit 1003 speaker identification unit 1004 purchase settlement unit 1005 Registration existence check unit 1006 Control command selection unit 1008 Person authentication unit 1210 Communication unit 1220 Control processing unit 1230 Purchase settlement database 3041 First control target Instrument Limited 3042 second control target device limiting section

Claims (3)

音声によって物品を購入する購入決済方法であって、
音声情報を取得し、
取得した前記音声情報を解析し、機器に対する制御指示を示す音声コマンドを取得し、
前記音声コマンドが購入決済に関する音声コマンドである場合、取得した前記音声情報に基づいて、取得した前記音声情報を発話した話者に関する話者情報を特定し、
購入決済可能な話者情報と、購入決済に必要な情報とを関連付けたテーブルを参照し、特定された前記話者情報が購入決済可能な話者情報であるか否かを判断し、特定された前記話者情報が購入決済可能な話者情報であると判断された場合、前記音声コマンドと、前記購入決済に必要な情報とを用いて購入決済処理を行う、
購入決済方法。
It is a purchase settlement method for purchasing goods by voice,
Get voice information,
The acquired voice information is analyzed to obtain a voice command indicating a control instruction to the device,
When the voice command is a voice command related to purchase settlement, the speaker information on the speaker who utters the obtained voice information is specified based on the obtained voice information,
With reference to a table in which purchase settlement possible speaker information is associated with information necessary for purchase settlement, it is determined whether the identified speaker information is purchase settlement possible speaker information or not. When it is determined that the speaker information is purchasable-speaking speaker information, purchase settlement processing is performed using the voice command and the information necessary for the purchase settlement.
Purchase settlement method.
購入対象の前記物品の価格が所定の価格以下である場合は購入決裁処理を行い、
購入対象の前記物品の価格が所定の価格以上である場合は、購入決裁処理を行うためのパスワードの発話を促す音声情報を出力させる制御を行う、
請求項1に記載の購入決裁方法。
If the price of the item to be purchased is equal to or less than a predetermined price, purchase approval processing is performed,
When the price of the article to be purchased is equal to or higher than a predetermined price, control is performed to output voice information prompting the user to utter a password for performing purchase decision processing.
The purchase decision method according to claim 1.
前記話者の位置に関する話者位置情報を取得し、
前記話者位置情報を用いて、購入決裁可能な話者の発話であるか否かを判断する、
請求項1に記載の購入決裁方法。
Obtaining speaker position information on the position of the speaker;
Using the speaker position information, it is determined whether or not it is the utterance of the purchase-decided speaker.
The purchase decision method according to claim 1.
JP2018213519A 2013-08-29 2018-11-14 Purchase settlement method Active JP6718941B2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361871538P 2013-08-29 2013-08-29
US61/871,538 2013-08-29
JP2014153721 2014-07-29
JP2014153721 2014-07-29

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015533977A Division JP6522503B2 (en) 2013-08-29 2014-08-20 Device control method, display control method and purchase settlement method

Publications (2)

Publication Number Publication Date
JP2019067423A true JP2019067423A (en) 2019-04-25
JP6718941B2 JP6718941B2 (en) 2020-07-08

Family

ID=66340174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018213519A Active JP6718941B2 (en) 2013-08-29 2018-11-14 Purchase settlement method

Country Status (1)

Country Link
JP (1) JP6718941B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000149137A (en) * 1998-11-10 2000-05-30 Canon Inc Electronic money transaction terminal equipment, electronic money transaction method and computer readable storage medium
JP2002279245A (en) * 2001-03-19 2002-09-27 Ntt Docomo Inc Service center and order receiving method
JP2004164040A (en) * 2002-11-08 2004-06-10 Nec Fielding Ltd Settlement system, settlement method, voiceprint identification server device and program
JP2004530180A (en) * 2000-12-18 2004-09-30 ディジスピーチ・マーケティング・リミテッド Access control for interactive learning systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000149137A (en) * 1998-11-10 2000-05-30 Canon Inc Electronic money transaction terminal equipment, electronic money transaction method and computer readable storage medium
JP2004530180A (en) * 2000-12-18 2004-09-30 ディジスピーチ・マーケティング・リミテッド Access control for interactive learning systems
JP2002279245A (en) * 2001-03-19 2002-09-27 Ntt Docomo Inc Service center and order receiving method
JP2004164040A (en) * 2002-11-08 2004-06-10 Nec Fielding Ltd Settlement system, settlement method, voiceprint identification server device and program

Also Published As

Publication number Publication date
JP6718941B2 (en) 2020-07-08

Similar Documents

Publication Publication Date Title
JP6522503B2 (en) Device control method, display control method and purchase settlement method
KR102513297B1 (en) Electronic device and method for executing function of electronic device
US11942085B1 (en) Naming devices via voice commands
US11429345B2 (en) Remote execution of secondary-device drivers
KR101949497B1 (en) Method and system for processing user command to provide and adjust operation of device or range of providing contents accoding to analyzing presentation of user speech
US20170289582A1 (en) Device control method and electric device
US20190349214A1 (en) Smart home automation systems and methods
KR102429260B1 (en) Apparatus and method for processing control command based on voice agent, agent apparatus
EP3077921B1 (en) Natural language control of secondary device
US10127906B1 (en) Naming devices via voice commands
US20200232671A1 (en) Device control system
US10185544B1 (en) Naming devices via voice commands
US11303955B2 (en) Video integration with home assistant
JP2016130800A (en) System, server, electronic apparatus, method for controlling server, and program
JP2018206385A (en) Method and device for actively providing information suitable for position and space for user
WO2020202862A1 (en) Response generation device and response generation method
JP7452528B2 (en) Information processing device and information processing method
JP6718941B2 (en) Purchase settlement method
JP7018850B2 (en) Terminal device, decision method, decision program and decision device
JP2019028388A (en) Home electric device system
JP6698428B2 (en) Network system, information processing method, and server
KR102255844B1 (en) Method and apparatus for providing appropriate information for location and space of user actively
KR102643720B1 (en) Artificial intelligence interface system for robot
US20240233726A1 (en) Naming devices via voice commands
US20230186700A1 (en) Accessing smart home devices using a fingerprint sensor on a doorbell device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R150 Certificate of patent or registration of utility model

Ref document number: 6718941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150