JP2020160781A - Voice recognition order system and voice recognition order method - Google Patents

Voice recognition order system and voice recognition order method Download PDF

Info

Publication number
JP2020160781A
JP2020160781A JP2019059274A JP2019059274A JP2020160781A JP 2020160781 A JP2020160781 A JP 2020160781A JP 2019059274 A JP2019059274 A JP 2019059274A JP 2019059274 A JP2019059274 A JP 2019059274A JP 2020160781 A JP2020160781 A JP 2020160781A
Authority
JP
Japan
Prior art keywords
order
information
smart speaker
instruction information
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019059274A
Other languages
Japanese (ja)
Inventor
千洋 江波戸
Chihiro Ebato
千洋 江波戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Echigoya Co Ltd
Original Assignee
Echigoya Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Echigoya Co Ltd filed Critical Echigoya Co Ltd
Priority to JP2019059274A priority Critical patent/JP2020160781A/en
Publication of JP2020160781A publication Critical patent/JP2020160781A/en
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

To provide a voice recognition order system and a voice recognition order method, in which a smart speaker is used to process orders such as food orders.SOLUTION: A voice recognition order system S is configured to include a smart speaker 31A and an order server 10 connected to the smart speaker 31A via a network so that information can be exchanged. The smart speaker 31A receives voice data obtained when a user speaks in a trigger activated state, recognizes the voice data, authenticates that a specified access keyword has been spoken, and generates text information that identifies user's order content based on the voice data. When the authentication of the access keyword having been spoken is successful, order information including the text information is transmitted to the order server 10.SELECTED DRAWING: Figure 1

Description

本発明は、スマートスピーカーを用いて、オーダー処理を行う音声認識オーダーシステム及び音声認識オーダー方法に関する。 The present invention relates to a voice recognition order system and a voice recognition order method for performing order processing using a smart speaker.

近年、レストラン等の飲食店において、テーブルに設置されたタッチパネル式の端末装置から注文を行うシステムが採用されている。端末装置の表示画面に表示されたメニューの中から、料理と個数をタッチパネルにより選択し、「注文」ボタンをタッチすると、そのオーダー情報が端末装置から厨房内の注文受付装置に無線ネットワークを介して送信されるようになっている。厨房内の注文受付装置では、オーダー情報をプリントアウトしたり注文受付装置の表示画面に表示させたりして、オーダー情報を調理者に提示することにより、調理が開始される。このようなタッチパネル式のオーダーシステムは、従来公知のPOSシステムと連動して、会計処理や集計処理までもスムーズに行うことができるよう構成されているものもある。さらには、テーブル席に設置されたロボットと、直接的あるいはタブレット等を介して間接的に対話を行い、対話の内容から顧客の状況を判断し、店舗スタッフへとオペレーションの指示を出す店舗管理システムに関する技術も開示されている(特許文献1)。 In recent years, in restaurants such as restaurants, a system for placing an order from a touch panel type terminal device installed on a table has been adopted. From the menu displayed on the display screen of the terminal device, select the dish and quantity on the touch panel and touch the "Order" button, and the order information will be sent from the terminal device to the order receiving device in the kitchen via the wireless network. It is supposed to be sent. In the order receiving device in the kitchen, cooking is started by presenting the order information to the cook by printing out the order information or displaying it on the display screen of the order receiving device. Some of such touch panel type ordering systems are configured so that accounting processing and aggregation processing can be smoothly performed in conjunction with a conventionally known POS system. Furthermore, a store management system that directly or indirectly interacts with the robot installed at the table seat, judges the customer's situation from the content of the dialogue, and gives operation instructions to the store staff. (Patent Document 1) is also disclosed.

特開2018−161711号公報JP-A-2018-1617111

従来のタッチパネル式のオーダーシステムでは、顧客はタッチパネルを用いて必要なキータッチを行って料理のメニューページを開き、料理を選択し、さらに個数を選択し、最後にオーダー決定を行っている。
一方で、昨今、検索エンジンを使った調査、オンラインニュースの読み上げ、音楽や動画の再生といった操作をユーザの音声にて受け付けて実行するスマートスピーカーが販売されている。スマートスピーカーであれば、ユーザはタッチパネルを操作せずとも発話することで各種操作を行うことができる。
しかしながら、現在市販されているスマートスピーカー及びスマートスピーカーによるシステムでは、スマートスピーカーを客席に置いただけでは、タッチパネル表示画面へ所望のメニューページを開いたり、厨房へ所望の料理の注文を行なうことはできない。例えば、「ビール」と発話した場合、スマートスピーカーは通常接続されるAIアシスタントサーバへ接続し、「ビール」に紐づけられた一般的な検索結果、例えば、「ビールとは、アルコール飲料の一種。様々な作り方があるが、主に大麦を発芽させた麦芽(デンプンが酵素(アミラーゼ)で糖化している)を、ビール酵母でアルコール発酵させて・・・以下、略」といった最適解を返すだけで、料理の注文には結びつかない。
In the conventional touch panel type order system, the customer makes a necessary key touch using the touch panel to open the menu page of the dish, selects the dish, further selects the number, and finally decides the order.
On the other hand, recently, smart speakers that accept and execute operations such as surveys using search engines, reading online news, and playing music and videos by user's voice are on the market. With a smart speaker, the user can perform various operations by speaking without operating the touch panel.
However, in the smart speakers currently on the market and systems using smart speakers, it is not possible to open a desired menu page on the touch panel display screen or order a desired dish from the kitchen simply by placing the smart speaker in the audience seat. For example, when speaking "beer", the smart speaker connects to the AI assistant server that is normally connected, and general search results associated with "beer", for example, "beer is a type of alcoholic beverage. There are various ways to make it, but mainly the malt that has sprouted barley (starch is saccharified by an enzyme (amylase)) is alcohol-fermented with beer yeast, and the optimum solution is returned. So, it doesn't lead to ordering food.

本発明は、このような問題等に鑑みて、その目的は、スマートスピーカーを用いて料理の注文等のオーダー処理を行う音声認識オーダーシステム及び音声認識オーダー方法を提供することにある。 In view of such problems and the like, an object of the present invention is to provide a voice recognition order system and a voice recognition order method for performing order processing such as ordering food using a smart speaker.

本発明の音声認識オーダーシステムは、音声入力手段と音声出力手段を少なくとも備えるスマートスピーカーと、ネットワークを介して前記スマートスピーカーと情報の授受を可能に接続された第一のコンピュータを含んで構成された音声認識オーダーシステムであって、前記スマートスピーカーは、トリガ起動状態中にユーザが発話することで得られる音声データを受信する音声データ受信手段、前記音声データ受信手段が受信した音声データを認識して、所定のアクセスキーワードが発話されたこと認証する認証手段、前記音声データ受信手段が受信した音声データに基づいてユーザのオーダー内容を特定するテキスト情報を生成するテキスト情報生成手段、及び、前記認証手段によりアクセスキーワードの発話の認証が成功している場合に、前記テキスト情報生成手段が生成した前記テキスト情報を含むオーダー情報を前記第一のコンピュータに送信するオーダー情報送信手段を有し、前記第一のコンピュータは、前記スマートスピーカーの前記オーダー情報送信手段が送信した前記オーダー情報を受信すると、受信した前記オーダー情報に基づいてオーダー受付処理を実行する受付処理手段を有する。 The voice recognition ordering system of the present invention includes a smart speaker including at least a voice input means and a voice output means, and a first computer connected to the smart speaker so as to be able to exchange information via a network. In the voice recognition order system, the smart speaker recognizes voice data receiving means for receiving voice data obtained by speaking by a user while the trigger is activated, and voice data received by the voice data receiving means. , An authentication means that authenticates that a predetermined access keyword has been spoken, a text information generation means that generates text information that identifies a user's order content based on the voice data received by the voice data receiving means, and the authentication means. The first computer has an order information transmitting means for transmitting order information including the text information generated by the text information generating means to the first computer when the authentication of the speech of the access keyword is successful. The computer has a reception processing means that executes an order reception process based on the received order information when the order information transmitted by the order information transmission means of the smart speaker is received.

前記第一のコンピュータは、受信した前記オーダー情報に基づいて、前記オーダー内容に応じた処理を実行するよう指示するオーダー実行指示情報を生成する指示情報生成手段と、前記指示情報生成手段が生成した前記オーダー実行指示情報を、ネットワークを介して前記第一のコンピュータと情報の授受を可能に接続された第二のコンピュータに送信する指示情報送信手段を有し、前記第二のコンピュータは、前記第一のコンピュータの前記指示情報送信手段が送信した前記オーダー実行指示情報を受信する指示情報受信手段と、前記指示情報受信手段が受信した前記オーダー実行指示情報に基づいて、前記オーダー内容に応じた処理を実行するオーダー実行手段を有するよう構成してもよい。 Based on the received order information, the first computer generates instruction information generating means for generating order execution instruction information for instructing execution of processing according to the order contents, and the instruction information generating means. The second computer has an instruction information transmitting means for transmitting the order execution instruction information to a second computer connected to the first computer via a network so as to be able to exchange information. Processing according to the order contents based on the instruction information receiving means for receiving the order execution instruction information transmitted by the instruction information transmitting means of one computer and the order execution instruction information received by the instruction information receiving means. It may be configured to have an order execution means for executing.

複数の前記スマートスピーカーと、各前記スマートスピーカーのそれぞれに対応付けられた端末装置であって、ユーザが操作指示可能な前記端末装置を含む前記音声認識オーダーシステムにおいて、前記オーダー実行指示情報は、前記オーダー情報の送信元であるスマートスピーカーを特定するためのID情報を含み、前記第二のコンピュータは、前記オーダー実行指示情報に含まれる前記ID情報により特定されたスマートスピーカーに対応づけられた前記端末装置を、制御対象端末装置として前記オーダー実行指示情報に基づいて制御する端末制御手段を有するよう構成してもよい。 In the voice recognition order system including the plurality of smart speakers and the terminal device associated with each of the smart speakers and capable of instructing the operation by the user, the order execution instruction information is the same. The second computer includes ID information for identifying the smart speaker that is the source of the order information, and the second computer is the terminal associated with the smart speaker specified by the ID information included in the order execution instruction information. The device may be configured to have a terminal control means for controlling the device as a control target terminal device based on the order execution instruction information.

前記第二のコンピュータは、前記制御対象端末装置の表示画面に、前記オーダー実行指示情報が示す前記オーダー内容に応じた表示を行うよう指示する旨の制御情報を、前記制御対象端末装置に送信するよう構成してもよい。 The second computer transmits control information to the control target terminal device to instruct the display screen of the control target terminal device to display according to the order content indicated by the order execution instruction information. It may be configured as follows.

本発明の音声認識オーダー方法は、音声入力手段と音声出力手段を少なくとも備えるスマートスピーカーと、ネットワークを介して前記スマートスピーカーと情報の授受を可能に接続された第一のコンピュータにより実行される音声認識オーダー方法であって、前記スマートスピーカーが、トリガ起動状態中にユーザが発話することで得られる音声データを受信する音声データ受信ステップと、受信した音声データを認識して、所定のアクセスキーワードが発話されたこと認証する認証ステップと、前記音声データ受信ステップにて受信した音声データに基づいてユーザのオーダー内容を特定するテキスト情報生成するテキスト情報生成ステップと、前記認証ステップにてアクセスキーワードの発話の認証が成功している場合に、前記テキスト情報生成ステップにて生成された前記テキスト情報を含むオーダー情報を第一の前記コンピュータに送信するオーダー情報送信ステップと、を有し、前記第一のコンピュータが、前記スマートスピーカーから送信された前記オーダー情報を受信すると、当該オーダー情報に基づいてオーダー受付処理を実行する受付処理ステップと、を有する。 The voice recognition ordering method of the present invention is performed by a smart speaker having at least a voice input means and a voice output means, and a first computer connected to the smart speaker via a network so as to exchange information. In the ordering method, the smart speaker recognizes the voice data reception step of receiving the voice data obtained by the user speaking while the trigger is activated and the received voice data, and a predetermined access keyword is spoken. An authentication step for authenticating that the computer has been performed, a text information generation step for generating text information that identifies the user's order content based on the voice data received in the voice data reception step, and an access keyword utterance in the authentication step. The first computer has an order information transmission step of transmitting order information including the text information generated in the text information generation step to the first computer when the authentication is successful. However, when it receives the order information transmitted from the smart speaker, it has a reception processing step of executing an order reception process based on the order information.

前記第一のコンピュータが、前記スマートスピーカーから送信された前記オーダー情報を受信すると、当該オーダー情報に基づいて、前記オーダー内容に応じた処理を実行するよう指示するオーダー実行指示情報を生成する指示情報生成ステップと、前記指示情報生成ステップにより生成された前記オーダー実行指示情報を、ネットワークを介して前記第一のコンピュータと情報の授受を可能に接続された第二のコンピュータに送信する指示情報送信ステップと、を有し、前記第二のコンピュータが、前記第一のコンピュータから送信された前記オーダー実行指示情報を受信する指示情報受信ステップと、前記指示情報受信ステップにて受信した前記オーダー実行指示情報に基づいて、前記オーダー内容に応じた処理を実行するオーダー実行ステップと、を有するよう構成してもよい。 When the first computer receives the order information transmitted from the smart speaker, instruction information for generating order execution instruction information instructing to execute a process according to the order contents based on the order information. The instruction information transmission step of transmitting the generation step and the order execution instruction information generated by the instruction information generation step to a second computer connected to the first computer via a network so as to be able to exchange information. And, the instruction information receiving step in which the second computer receives the order execution instruction information transmitted from the first computer, and the order execution instruction information received in the instruction information receiving step. Based on the above, it may be configured to have an order execution step for executing a process according to the order contents.

前記オーダー実行指示情報は、前記オーダー情報の送信元である前記スマートスピーカーを特定するためのID情報を含み、前記第二のコンピュータが、複数の前記スマートスピーカーと、各前記スマートスピーカーのそれぞれに対応付けられた端末装置であって、ユーザが操作指示可能な前記端末装置のうち、前記オーダー実行指示情報に含まれる前記ID情報により特定されたスマートスピーカーに対応づけられた前記端末装置を、制御対象端末装置として前記オーダー実行指示情報に基づいて制御する端末制御ステップを有するよう構成してもよい。 The order execution instruction information includes ID information for identifying the smart speaker that is the source of the order information, and the second computer corresponds to the plurality of the smart speakers and each of the smart speakers. Among the attached terminal devices that can be operated by the user, the terminal device associated with the smart speaker specified by the ID information included in the order execution instruction information is controlled. The terminal device may be configured to have a terminal control step for controlling based on the order execution instruction information.

前記第二のコンピュータが、前記制御対象端末装置の表示画面に、前記オーダー実行指示情報が示す前記オーダー内容に応じた表示を行うよう指示する旨の制御情報を、前記制御対象端末装置に送信よう構成してもよい。 Let's send control information to the control target terminal device that the second computer instructs the display screen of the control target terminal device to display according to the order content indicated by the order execution instruction information. It may be configured.

本発明によれば、スマートスピーカーを用いて料理の注文等のオーダー処理を行う音声認識オーダーシステム及び音声認識オーダー方法を提供することができる。 According to the present invention, it is possible to provide a voice recognition order system and a voice recognition order method for performing order processing such as ordering food using a smart speaker.

音声認識オーダーシステムSの構成例を示す説明図である。It is explanatory drawing which shows the configuration example of the voice recognition order system S. オーダーサーバ10の構成を概略的に示すブロック図である。It is a block diagram which shows schematic structure of order server 10. 店舗サーバ30の構成を概略的に示すブロック図である。It is a block diagram which shows the structure of the store server 30 schematicly. スマートスピーカー31Aの構成を概略的に示すブロック図である。It is a block diagram which shows schematic structure of smart speaker 31A. タブレット端末31Bの構成を概略的に示すブロック図である。It is a block diagram which shows the structure of the tablet terminal 31B schematicly. 店舗情報DB1021の一例である。This is an example of the store information DB 1021. 発話シナリオDB1022の一例である。This is an example of the utterance scenario DB 1022. 客席端末管理DB3021の一例である。This is an example of the audience seat terminal management DB 3021. 処理動作例を説明するためのシーケンスチャートである。It is a sequence chart for explaining the processing operation example. 処理動作例を説明するためのシーケンスチャートである。It is a sequence chart for explaining the processing operation example. 処理動作例を説明するためのシーケンスチャートである。It is a sequence chart for explaining the processing operation example. 処理動作例を説明するためのシーケンスチャートである。It is a sequence chart for explaining the processing operation example. 処理動作例を説明するためのシーケンスチャートである。It is a sequence chart for explaining the processing operation example. 処理動作例を説明するためのシーケンスチャートである。It is a sequence chart for explaining the processing operation example. 処理動作例を説明するためのシーケンスチャートである。It is a sequence chart for explaining the processing operation example. ホテル情報DB1023の一例である。This is an example of the hotel information DB1023. 発話シナリオDB1024の一例である。This is an example of the utterance scenario DB1024. 処理動作例を説明するためのシーケンスチャートである。It is a sequence chart for explaining the processing operation example. 処理動作例を説明するためのシーケンスチャートである。It is a sequence chart for explaining the processing operation example.

本発明の実施形態について、図面を参照して説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。即ち、本発明は、その効果を奏する限りにおいて種々変形(各実施例を組み合わせる等)して実施することができる。また、以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付して表している。図面は模式的なものであり、必ずしも実際の寸法や比率等とは一致しない。図面相互間においても互いの寸法の関係や比率が異なる部分が含まれていることがある。 An embodiment of the present invention will be described with reference to the drawings. However, the embodiments described below are merely examples, and there is no intention of excluding the application of various modifications and techniques not specified below. That is, the present invention can be implemented with various modifications (combining each embodiment, etc.) as long as the effect is exhibited. Further, in the description of the following drawings, the same or similar parts are designated by the same or similar reference numerals. The drawings are schematic and do not necessarily match the actual dimensions and ratios. Even between drawings, parts with different dimensional relationships and ratios may be included.

図1は、音声認識オーダーシステムSの構成例を示す説明図である。なお、ここではレストラン等において各客席に用意された客席端末31と、第一のコンピュータとしてのオーダーサーバ10と、第二のコンピュータとしての店舗サーバ30、当該音声認識オーダーシステムSを運営する事業者が設置するサービス提供者装置20、スマートスピーカー31AのAIアシスタントサーバ40とからなり、それぞれ有線又は無線にてネットワークに接続している。音声認識オーダーシステムSは、複数のレストランに適用できる。各レストランには複数の客席がある。 FIG. 1 is an explanatory diagram showing a configuration example of the voice recognition order system S. Here, a business operator that operates a seat terminal 31 prepared for each seat in a restaurant or the like, an order server 10 as a first computer, a store server 30 as a second computer, and the voice recognition order system S. The service provider device 20 installed by the company and the AI assistant server 40 of the smart speaker 31A are connected to the network by wire or wirelessly, respectively. The voice recognition order system S can be applied to a plurality of restaurants. Each restaurant has multiple seats.

客席端末31は、スマートスピーカー31Aと当該スマートスピーカー31Aと一対で使用される客席タブレット端末(以下、タブレット端末31Bと言う。)からなる。客席端末31は、無線接続にてアクセスポイント(不図示)を介してネットワークに接続し、その他のシステム構成要素は有線にてネットワークに接続している。アクセスポイント(不図示)は、無線端末を相互に接続し、有線ネットワーク等のネットワークに接続する無線機である。 The audience seat terminal 31 includes a smart speaker 31A and an audience seat tablet terminal (hereinafter, referred to as a tablet terminal 31B) used in pairs with the smart speaker 31A. The audience terminal 31 is wirelessly connected to the network via an access point (not shown), and other system components are connected to the network by wire. An access point (not shown) is a wireless device that connects wireless terminals to each other and connects to a network such as a wired network.

なお、本実施形態では、サーバ側の構成として、オーダーサーバ10、サービス提供者装置20及びAIアシスタントサーバ40をそれぞれ分離した構成としたが、これらは一のコンピュータ上で構成されてもよいし、それぞれのサーバを更に複数のコンピュータで構成することもできる。 In the present embodiment, the order server 10, the service provider device 20, and the AI assistant server 40 are separated from each other as the server-side configuration, but these may be configured on one computer. Each server can be further composed of a plurality of computers.

音声認識オーダーシステムSは、音声入力手段の一例としてのマイクロフォンと、音声出力手段の一例としてのスピーカーと、を少なくとも備えるスマートスピーカー31Aと、ネットワークを介してスマートスピーカー31Aと情報の授受を可能に接続された第一のコンピュータの一例としてのオーダーサーバ10を含んで構成された音声認識オーダーシステムSである。 The voice recognition order system S is connected to a smart speaker 31A including at least a microphone as an example of a voice input means and a speaker as an example of a voice output means, and information can be exchanged with the smart speaker 31A via a network. It is a voice recognition order system S configured to include an order server 10 as an example of the first computer.

スマートスピーカー31Aは、トリガ起動状態中にユーザが発話することで得られる音声データを受信する音声データ受信手段、音声データ受信手段が受信した音声データを認識して、所定のアクセスキーワードが発話されたこと認証する認証手段、音声データ受信手段が受信した音声データに基づいてユーザのオーダー内容を特定するテキスト情報を生成するテキスト情報生成手段、及び、認証手段によりアクセスキーワードの発話の認証が成功している場合に、テキスト情報生成手段が生成したテキスト情報を含むオーダー情報をオーダーサーバ10に送信するオーダー情報送信手段を有する。オーダーサーバ10は、スマートスピーカー31Aのオーダー情報送信手段が送信したオーダー情報を受信すると、受信したオーダー情報に基づいてオーダー受付処理を実行する受付処理手段を有する。 The smart speaker 31A recognizes the voice data receiving means for receiving the voice data obtained by the user speaking while the trigger is activated and the voice data received by the voice data receiving means, and a predetermined access keyword is spoken. The authentication means for authenticating, the text information generation means for generating text information that identifies the user's order content based on the voice data received by the voice data receiving means, and the authentication means have successfully authenticated the utterance of the access keyword. If so, it has an order information transmitting means for transmitting the order information including the text information generated by the text information generating means to the order server 10. When the order server 10 receives the order information transmitted by the order information transmitting means of the smart speaker 31A, the order server 10 has a reception processing means that executes an order reception process based on the received order information.

図2は、オーダーサーバ10の構成を概略的に示すブロック図、図3は、店舗サーバ30の構成を概略的に示すブロック図、図4は、スマートスピーカー31Aの構成を概略的に示すブロック図、図5は、タブレット端末31Bの構成を概略的に示すブロック図である。 FIG. 2 is a block diagram schematically showing the configuration of the order server 10, FIG. 3 is a block diagram schematically showing the configuration of the store server 30, and FIG. 4 is a block diagram schematically showing the configuration of the smart speaker 31A. , FIG. 5 is a block diagram schematically showing the configuration of the tablet terminal 31B.

<オーダーサーバ10>
オーダーサーバ10は、主に、各レストランの各客席のスマートスピーカー31Aからオーダー情報を受信して必要なオーダー受付処理を実行する装置である。
オーダーサーバ10は、演算機能を有するCPU、作業用RAM、各種データ及びプログラムを記憶するROM等から構成された本発明の第一のコンピュータとしての制御部101、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等を備える記憶部102、モニタ等の表示画面を備える表示部103、音声認識オーダーシステムSを運営する事業者からの指示を受け付け当該指示に応じた指示信号を制御部101に対して与える入力部(例えば、キーボード、マウス、操作パネル(タッチパネルを含む)等)104、各種ネットワーク(LAN(Local Area Network)を含む)を介して客席端末31、サービス提供者装置20及び店舗サーバ30などと通信を行なうための通信部105を備えて構成されている。各構成部材はバスを介して相互に接続されている。
<Order server 10>
The order server 10 is mainly a device that receives order information from the smart speaker 31A of each audience seat of each restaurant and executes necessary order acceptance processing.
The order server 10 is a semiconductor memory element such as a control unit 101, a RAM, and a flash memory as the first computer of the present invention, which is composed of a CPU having a calculation function, a work RAM, a ROM for storing various data and programs, and the like. Alternatively, a storage unit 102 having a storage device such as a hard disk or an optical disk, a display unit 103 having a display screen such as a monitor, or an instruction signal corresponding to the instruction received from a business operator operating the voice recognition order system S. Is given to the control unit 101 via an input unit (for example, a keyboard, a mouse, an operation panel (including a touch panel), etc.) 104, various networks (including a LAN (Local Area Network)), an audience terminal 31, and a service provider. It is configured to include a communication unit 105 for communicating with the device 20 and the store server 30 and the like. The components are connected to each other via a bus.

制御部101は、受付処理手段1011、指示情報生成手段1012、指示情報送信手段1013を含み、他の部材と協動して本発明の各手段として機能する。
記憶部102は、店舗情報データベース(DB)1021、発話シナリオデータベース(DB)1022等を記憶する。
The control unit 101 includes a reception processing means 1011 and an instruction information generating means 1012, and an instruction information transmitting means 1013, and functions as each means of the present invention in cooperation with other members.
The storage unit 102 stores the store information database (DB) 1021, the utterance scenario database (DB) 1022, and the like.

店舗情報DB1021には、音声認識オーダーシステムSを導入した企業が運営する店舗(例えば、レストラン)の店舗情報が登録(記憶)されている。図6Aは、店舗情報DB1021の一例であり、図6Aに示す例の場合、店舗を一意に特定する「店舗ID」に対応付けて、店舗サーバ30の宛先情報を含む「店舗情報」、「アクセスキーワード」が登録されている。全ての店舗にそれぞれ異なる店舗IDが付与されている。 In the store information DB 1021, store information of a store (for example, a restaurant) operated by a company that has introduced the voice recognition order system S is registered (stored). FIG. 6A is an example of the store information DB 1021, and in the case of the example shown in FIG. 6A, "store information" including the destination information of the store server 30 and "access" are associated with the "store ID" that uniquely identifies the store. "Keyword" is registered. All stores are given different store IDs.

「店舗情報」には、各店舗内に設置されている各客席端末31のタブレット端末31Bを一意に特定する「タブレット端末ID」と、タブレット端末31Bに対し必要な制御情報を送信するための「タブレット端末宛先情報」と、スマートスピーカー31Aを一意に特定するID情報の一例としての「スマートスピーカーID」と、スマートスピーカー31Aに対し応答する宛先となる「スマートスピーカー宛先情報」と、が対応付けて登録されている。 The "store information" includes a "tablet terminal ID" that uniquely identifies the tablet terminal 31B of each audience seat terminal 31 installed in each store, and a "tablet terminal ID" for transmitting necessary control information to the tablet terminal 31B. The "tablet terminal destination information", the "smart speaker ID" as an example of the ID information that uniquely identifies the smart speaker 31A, and the "smart speaker destination information" that is the destination that responds to the smart speaker 31A are associated with each other. It is registered.

発話シナリオDB1022には、スマートスピーカー31Aを通じてレストランのユーザと行われる会話の複数の発話シナリオ情報が蓄積されている。発話シナリオとは、ユーザとオーダーサーバ10との間でやりとりされる会話のストーリである。飲食店に入店したユーザは、入店してから退店するまでの間に複数の滞在状態を遷移する。そこで発話シナリオDB1022には、遷移状態ごとに別個の発話シナリオが蓄積されている。 The utterance scenario DB 1022 stores information on a plurality of utterance scenarios of conversations with the restaurant user through the smart speaker 31A. The utterance scenario is a story of conversations exchanged between the user and the order server 10. A user who has entered a restaurant changes a plurality of stay states between the time he / she enters the restaurant and the time he / she leaves the restaurant. Therefore, in the utterance scenario DB 1022, separate utterance scenarios are accumulated for each transition state.

各発話シナリオは、ユーザが対話(すなわち、スマートスピーカー31Aに向けての発話又はタブレット端末31Bでの選択)に用いるユーザ側シナリオデータと、オーダーサーバ10が対話に用いるサーバ側シナリオデータと、さらに、各“所定発話”が行われた際の“次に行うべき処理の情報”が対応付けて記憶されている。例えば、“所定発話:人数を伝える発話”の後には、“次に行うべき処理”としての“タブレット端末31Bの表示画面にメニューを表示させるようオーダー実行指示情報を送信する”などである。具体的な処理については後述する。 Each utterance scenario includes user-side scenario data used by the user for dialogue (that is, utterance toward the smart speaker 31A or selection on the tablet terminal 31B), server-side scenario data used by the order server 10 for dialogue, and further. The "information on the next process to be performed" when each "predetermined utterance" is performed is stored in association with each other. For example, after "predetermined utterance: utterance that conveys the number of people", "send order execution instruction information so that the menu is displayed on the display screen of the tablet terminal 31B" as "the next process to be performed". The specific processing will be described later.

図6Bは、発話シナリオDB1022の一例であり、図6Bに示す例の場合、発話シナリオDB1022は、店舗を一意に特定する「店舗ID」に対応付けて、「発話シナリオ」と「商品リスト」が登録されている。店舗情報DB1021及び発話シナリオDB1022は、音声認識オーダーシステムSを運営する事業者から、入力部10を介して、又は、ネットワークを介して接続されたサービス提供者装置20から更新することができるように構成されている。 FIG. 6B is an example of the utterance scenario DB 1022, and in the case of the example shown in FIG. 6B, the utterance scenario DB 1022 has a “speech scenario” and a “product list” in association with the “store ID” that uniquely identifies the store. It is registered. The store information DB 1021 and the utterance scenario DB 1022 can be updated from the service provider device 20 connected via the input unit 10 or via the network from the business operator operating the voice recognition order system S. It is configured.

<店舗サーバ30>
店舗サーバ30は、主に、オーダーサーバ10からのオーダー実行指示情報を受信して、例えば、タブレット端末31Bの制御等、オーダー内容に応じた処理を実行する装置である。例えば、レストランの厨房等のバックヤードに設置されている。例えば、店舗内の各客席の注文状況を管理するPOSシステムのサーバとして機能してもよい。
<Store server 30>
The store server 30 is a device that mainly receives order execution instruction information from the order server 10 and executes processing according to the order contents, such as control of the tablet terminal 31B. For example, it is installed in the backyard of a restaurant kitchen or the like. For example, it may function as a server of a POS system that manages the order status of each seat in the store.

店舗サーバ30は、演算機能を有するCPU、作業用RAM、各種データ及びプログラムを記憶するROM等から構成された本発明の第二のコンピュータとしての制御部301、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等を備える記憶部302、モニタ等の表示画面を備える表示部303、店舗内の店員からの指示を受け付け当該指示に応じた指示信号を制御部301に対して与える入力部(例えば、キーボード、マウス、操作パネル(タッチパネルを含む)等)304、各種ネットワーク(LAN(Local Area Network)を含む)を介してオーダーサーバ10、客席端末31及びサービス提供者装置20などと通信を行なうための通信部305を備えて構成されている。各構成部材はバスを介して相互に接続されている。 The store server 30 is a semiconductor memory element such as a control unit 301, a RAM, and a flash memory as a second computer of the present invention, which is composed of a CPU having a calculation function, a work RAM, a ROM for storing various data and programs, and the like. Alternatively, a storage unit 302 having a storage device such as a hard disk or an optical disk, a display unit 303 having a display screen such as a monitor, or an instruction signal corresponding to the instruction received from a clerk in the store is sent to the control unit 301. The order server 10, the audience terminal 31, and the service provider device 20 via an input unit (for example, a keyboard, a mouse, an operation panel (including a touch panel), etc.) 304, and various networks (including a LAN (Local Area Network)). It is configured to include a communication unit 305 for communicating with and the like. The components are connected to each other via a bus.

制御部301は、指示情報受信手段3011、オーダー実行手段3012、端末制御手段3013を含み、他の部材と協動して本発明の各手段として機能する。
記憶部302は、客席端末管理データベース(DB)3021等を記憶する。図6Cは、客席端末管理DB3021の一例であり、図6Cに示す例の場合、店舗サーバ30が設置された店舗内に設置されている各客席端末31のタブレット端末31Bを一意に特定する「タブレット端末ID」と、タブレット端末31Bに対し必要な制御情報を送信するための「タブレット端末宛先情報」と、スマートスピーカー31Aを一意に特定するID情報の一例としての「スマートスピーカーID」と、スマートスピーカー31Aに対し応答する宛先となる「スマートスピーカー宛先情報」と、が対応付けて登録されている。が対応付けて登録されている。
The control unit 301 includes an instruction information receiving means 3011, an order executing means 3012, and a terminal controlling means 3013, and functions as each means of the present invention in cooperation with other members.
The storage unit 302 stores the audience seat terminal management database (DB) 3021 and the like. FIG. 6C is an example of the audience seat terminal management DB 3021, and in the case of the example shown in FIG. 6C, the “tablet” that uniquely identifies the tablet terminal 31B of each audience seat terminal 31 installed in the store where the store server 30 is installed. A "terminal ID", a "tablet terminal destination information" for transmitting necessary control information to the tablet terminal 31B, a "smart speaker ID" as an example of ID information that uniquely identifies the smart speaker 31A, and a smart speaker. "Smart speaker destination information", which is a destination for responding to 31A, is registered in association with each other. Are registered in association with each other.

<客席端末31>
客席端末31は、各客席のテーブル上等にそれぞれ設置され、スマートスピーカー31Aとタブレット端末31Bにより構成される。
<スマートスピーカー31A>
スマートスピーカー31Aは、いわゆるIoT(Internet of Things)機器であり、AIアシスタントサーバ40と連携して、種々の情報処理を行う。例えば、スマートスピーカー31Aは、音声解析技術を用いて、ユーザが発声した言葉の内容を特定し、特定した内容に応じて、情報やコンテンツの提供、さらには各種電子商店街への注文等を実現することが可能な装置である。
<Audience terminal 31>
The audience seat terminal 31 is installed on a table or the like of each audience seat, and is composed of a smart speaker 31A and a tablet terminal 31B.
<Smart speaker 31A>
The smart speaker 31A is a so-called IoT (Internet of Things) device, and performs various information processing in cooperation with the AI assistant server 40. For example, the smart speaker 31A uses voice analysis technology to identify the content of words uttered by the user, provide information and content according to the specified content, and even make orders to various electronic shopping districts. It is a device that can be used.

スマートスピーカー31Aは、制御部311Aと、記憶部312Aと、音声出力手段としてのスピーカー313Aと、音声入力手段としてのマイクロフォン314Aと、操作部315Aと、通信部316Aと、を有する。また、スマートスピーカー31Aの筐体には、視覚的にスマートスピーカー31Aのステータスを示すLED(発光素子)具備する。 The smart speaker 31A includes a control unit 311A, a storage unit 312A, a speaker 313A as a voice output means, a microphone 314A as a voice input means, an operation unit 315A, and a communication unit 316A. Further, the housing of the smart speaker 31A is provided with an LED (light emitting element) that visually indicates the status of the smart speaker 31A.

通信部316Aは、NIC等によって実現され、ネットワークと有線又は無線で接続される。そして、オーダーサーバ10、店舗サーバ30及びAIアシスタントサーバ40との間で情報の送受信を行う。 The communication unit 316A is realized by NIC or the like, and is connected to the network by wire or wirelessly. Then, information is transmitted and received between the order server 10, the store server 30, and the AI assistant server 40.

操作部315Aは、ユーザから各種操作を受け付ける入力装置である。例えば、操作部315Aは、スマートスピーカー31Aに備えられた操作キー等によって実現される。
なお、スマートスピーカー31Aは、物理的な操作部315Aを有しなくてもよい。例えば、操作部315Aは、物理的な操作キーではなく、マイクロフォン314Aによって検知される音声を入力として受け付けるものであってもよい。
The operation unit 315A is an input device that receives various operations from the user. For example, the operation unit 315A is realized by an operation key or the like provided on the smart speaker 31A.
The smart speaker 31A does not have to have a physical operation unit 315A. For example, the operation unit 315A may receive the voice detected by the microphone 314A as an input instead of the physical operation keys.

マイクロフォン314Aは、スマートスピーカー31Aに関する各種情報を検知する。具体的には、マイクロフォン314Aは、各種センサであり、ユーザが発する音声や、スマートスピーカー31Aの周囲の環境音を検知し、音声データとして取得する。 The microphone 314A detects various information about the smart speaker 31A. Specifically, the microphone 314A is various sensors, detects a voice emitted by a user and an environmental sound around the smart speaker 31A, and acquires it as voice data.

記憶部312Aは、オーダーサーバ10の接続先情報及びAIアシスタントサーバ40の接続先情報、当該スマートスピーカー31Aを一意に特定するID情報の一例としての「スマートスピーカーID」及び設置されている店舗を一意に特定する「店舗ID」など各種情報を記憶する。記憶部312Aは、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。 The storage unit 312A uniquely identifies the connection destination information of the order server 10, the connection destination information of the AI assistant server 40, the "smart speaker ID" as an example of the ID information that uniquely identifies the smart speaker 31A, and the store where the smart speaker is installed. Stores various information such as the "store ID" specified in. The storage unit 312A is realized by, for example, a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.

記憶部312Aは音声認識データベース(DB)3121A等を記憶する。音声認識DB3121Aには、スマートスピーカー31Aを起動状態とするためのトリガとなる言語が記憶されている。スマートスピーカー31Aは、マイクロフォン314Aを通してユーザからのトリガとなる音声発話を受けると、待機状態から起動状態となる。そして、筐体に具備したLEDが起動状態を示す色に発色する。 The storage unit 312A stores the voice recognition database (DB) 3121A and the like. The voice recognition DB3121A stores a language that triggers the smart speaker 31A to be activated. When the smart speaker 31A receives a voice utterance that is a trigger from the user through the microphone 314A, the smart speaker 31A goes from the standby state to the activated state. Then, the LED provided in the housing develops a color indicating the activated state.

また、音声認識DB3121Aには、オーダーサーバ10に接続するための認証を行うための所定のアクセスキーワード情報が記憶されている。後述する制御部311Aの認証手段3112Aが、マイクロフォン314Aを通じて受信した音声データの接頭に「アクセスキーワード」があるか否かの認証を行い、受信した音声データの接頭に「アクセスキーワード」がある場合に、オーダーサーバ10にテキスト情報を含むオーダー情報を送信する。 Further, the voice recognition DB3121A stores predetermined access keyword information for performing authentication for connecting to the order server 10. When the authentication means 3112A of the control unit 311A, which will be described later, authenticates whether or not the prefix of the voice data received through the microphone 314A has an "access keyword", and the prefix of the received voice data has an "access keyword". , Sends order information including text information to the order server 10.

「アクセスキーワード」は、例えば、店舗名「○○レストラン」等とする。「アクセスキーワード」がない場合には、AIアシスタントサーバ40に接続し、いわゆる従来公知の情報処理が行われる。さらに、例えば、記憶部312Aは、マイクロフォン314Aによって検知された音声データを、各情報が検知された日時と対応付けて記憶してもよい。 The "access keyword" is, for example, the store name "○○ restaurant" or the like. If there is no "access keyword", the AI assistant server 40 is connected to perform so-called conventionally known information processing. Further, for example, the storage unit 312A may store the voice data detected by the microphone 314A in association with the date and time when each information is detected.

制御部311Aは、演算機能を有するCPU、作業用RAM、各種データ及びプログラムを記憶するROM等から構成される。また、制御部311Aは、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。 The control unit 311A is composed of a CPU having a calculation function, a work RAM, a ROM for storing various data and programs, and the like. Further, the control unit 311A is a controller, and is realized by, for example, an integrated circuit such as an ASIC or FPGA.

制御部311Aは、音声データ受信手段3111A、認証手段3112A、テキスト情報生成手段3113A、オーダー情報送信手段3114Aを含み、他の部材と協動して本発明の各手段として機能する。 The control unit 311A includes a voice data receiving means 3111A, an authentication means 3112A, a text information generating means 3113A, and an order information transmitting means 3114A, and functions as each means of the present invention in cooperation with other members.

<タブレット端末31B>
タブレット端末31Bは、例えば、店舗サーバ30からの制御情報に応じた処理を行なう。例えば、店舗サーバ30からの制御情報に従ってタッチパネルにメニュー等を表示する装置である。また、ユーザが操作指示可能な装置であって、タッチパネル上でユーザの操作を受け付け、画面遷移を行なったり、注文を受け付けたり、店舗サーバ30へ会計指示を送信したりすることもできる。
<Tablet terminal 31B>
The tablet terminal 31B performs processing according to control information from the store server 30, for example. For example, it is a device that displays a menu or the like on a touch panel according to control information from the store server 30. In addition, it is a device that allows the user to instruct operations, and can accept user operations on the touch panel, perform screen transitions, accept orders, and send accounting instructions to the store server 30.

タブレット端末31Bは、演算機能を有するCPU、作業用RAM、各種データ及びプログラムを記憶するROM等から構成されたコンピュータとしての制御部311B、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等を備える記憶部312、タッチパネル等の表示画面を備える表示部313B、タッチパネルを介してユーザの操作指示を受け付け当該指示に応じた指示信号を制御部311Bに対して与える入力部314B、各種ネットワーク(LAN(Local Area Network)を含む)を介して店舗サーバ30、オーダーサーバ10、サービス提供者装置20などと通信を行なうための通信部315Bを備えて構成されている。各構成部材はバスを介して相互に接続されている。 The tablet terminal 31B is a control unit 311B as a computer composed of a CPU having a calculation function, a work RAM, a ROM for storing various data and programs, a semiconductor memory element such as a RAM or a flash memory, or a hard disk or an optical disk. Storage unit 312 including a storage device such as, etc., display unit 313B including a display screen such as a touch panel, input unit 314B that receives a user's operation instruction via the touch panel and gives an instruction signal corresponding to the instruction to the control unit 311B. A communication unit 315B for communicating with a store server 30, an order server 10, a service provider device 20, and the like via various networks (including a LAN (Local Area Network)) is provided. The components are connected to each other via a bus.

記憶部312Bは、注文可能商品データベース(DB)3121B等を記憶する。注文可能商品DB3121Bには、注文可能な料理のメニューリスト情報(料理の写真、料理情報(産地等)、値段等)が登録(記憶)されており、当該注文可能商品DB3121Bから抽出したメニューや料理の情報等が表示画面に表示される。注文可能商品DB3121Bのメニューリスト情報は、店舗サーバ30から制御情報に基づいて更新可能に構成されている。 The storage unit 312B stores the orderable product database (DB) 312B and the like. Menu list information (food photos, food information (production area, etc.), prices, etc.) of orderable dishes is registered (memorized) in the orderable product DB3121B, and menus and dishes extracted from the orderable product DB3121B. Information etc. is displayed on the display screen. The menu list information of the orderable product DB3121B is configured to be updatable from the store server 30 based on the control information.

<音声認識オーダーシステムSの処理動作例1>
図7乃至図12は、ユーザが入店し、スマートスピーカー31Aを介してオーダーサーバ10に種々のオーダー情報を送信し、オーダーサーバ10が受信したオーダー情報に基づいてオーダー受付処理を実行する際の処理動作例を説明するためのシーケンスチャートである。
<Processing operation example 1 of voice recognition order system S>
7 to 12 show a case where a user enters a store, transmits various order information to the order server 10 via the smart speaker 31A, and executes an order acceptance process based on the order information received by the order server 10. It is a sequence chart for explaining the processing operation example.

<入店〜メニュー表示>
スマートスピーカー31Aはユーザからのトリガとなる音声発話を受け、待機状態から起動状態になる(ステップ1)。ユーザはトリガ発話に続けて何らかの発話を行い、制御部311Aの音声データ受信手段3111Aは、マイクロフォン314Aと協働し、それらの発話を受け音声データとして受信する(ステップS2)。
<Entering the store-menu display>
The smart speaker 31A receives a voice utterance that triggers the user, and changes from the standby state to the activated state (step 1). The user makes some utterance following the trigger utterance, and the voice data receiving means 3111A of the control unit 311A cooperates with the microphone 314A to receive those utterances and receive them as voice data (step S2).

次いで、制御部311Aの認証手段3112Aは、受信した音声データを認識して、発話の接頭にアクセスキーワードが発話されたか否かを認証する(ステップS3)。記憶部312Aの音声認識DBに予め記憶されているアクセスキーワードと照合を行い認証する。図7は、「○○レストラン」をアクセスキーワードとした場合の例である。図7の例では、アクセスキーワード「○○レストラン」を接頭に発話しているので、認証成功(OK)となり、テキスト情報生成手段3113Aが、ステップS2で受信した音声データに基づいてユーザのオーダー内容を特定するテキスト情報を生成する(ステップS4)。 Next, the authentication means 3112A of the control unit 311A recognizes the received voice data and authenticates whether or not the access keyword is spoken at the prefix of the utterance (step S3). Authentication is performed by collating with the access keyword stored in advance in the voice recognition DB of the storage unit 312A. FIG. 7 shows an example in which "○○ restaurant" is used as an access keyword. In the example of FIG. 7, since the access keyword “○○ restaurant” is spoken as a prefix, the authentication is successful (OK), and the text information generation means 3113A orders the user based on the voice data received in step S2. Generate text information to specify (step S4).

そして、記憶部312Aに記憶したオーダーサーバ10の接続先情報を参照して、ステップS4で生成したテキスト情報を含むオーダー情報をオーダーサーバ10へ送信する(ステップS5)。この際、記憶部312Aに記憶した「店舗ID」と「スマートスピーカーID」とを共に送信する。 Then, with reference to the connection destination information of the order server 10 stored in the storage unit 312A, the order information including the text information generated in step S4 is transmitted to the order server 10 (step S5). At this time, the "store ID" and the "smart speaker ID" stored in the storage unit 312A are transmitted together.

次に、オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信すると(ステップS6)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS7)。具体的には、オーダー情報に含まれるテキスト情報に基づいてオーダー受付処理を実行する。 Next, when the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A (step S6), the reception processing means 1011 executes the order reception processing based on the received order information (step S7). Specifically, the order acceptance process is executed based on the text information included in the order information.

図7前段に示す例では、「○○レストラン こんにちは」という内容のテキスト情報を含むオーダー情報をスマートスピーカー31Aから受信している。そして、制御手段101は、記憶部102の発話シナリオDB1022(図6B)のうち、オーダー情報と共に受信した「店舗ID」に対応付けられた「発話シナリオ」から、オーダー情報に含まれるテキスト情報のうち、アクセスキーワードを除く「こんにちは」に対する会話の返答を抽出して、オーダー情報の送信元であるスマートスピーカー31Aに返答する。「店舗ID」により、複数の店舗の中から送信元の店舗を特定し、更に、「スマートスピーカーID」により、複数の客席端末31のスマートスピーカー31Aの中から送信元のスマートスピーカー31Aを特定することができる。 In the example shown in FIG. 7 the previous stage, it has received the order information, including the text information of the content of "○○ Restaurant Hello" from the smart speaker 31A. Then, the control means 101 is out of the text information included in the order information from the "utterance scenario" associated with the "store ID" received together with the order information in the utterance scenario DB 1022 (FIG. 6B) of the storage unit 102. , extracts the response of conversation for the "Hello" except for the access keyword, to respond to smart speaker 31A, which is the source of the order information. The "store ID" identifies the sender's store from among a plurality of stores, and the "smart speaker ID" identifies the sender's smart speaker 31A from among the smart speakers 31A of the plurality of audience terminals 31. be able to.

図7前段の例では、「ようこそ○○レストランヘ!何名様ですか?」という返答をする。具体的には、受付処理手段1011は、記憶部102の店舗情報DB1021を参照して、オーダー情報と共に送信された「店舗ID」と「スマートスピーカーID」に対応づけて記憶されたスマートスピーカー31Aの宛先情報に対して返答する。なお、ステップS5において、スマートスピーカー31Aの宛先情報をオーダー情報に含んでオーダーサーバ10に送信し、ステップS7においてオーダー情報に含まれたスマートスピーカー31Aの宛先情報に対して返答するよう構成してもよい。 In the example in the first part of Fig. 7, the reply is "Welcome to XX restaurant! How many people?". Specifically, the reception processing means 1011 refers to the store information DB 1021 of the storage unit 102, and refers to the smart speaker 31A stored in association with the "store ID" and the "smart speaker ID" transmitted together with the order information. Reply to the destination information. In step S5, the destination information of the smart speaker 31A may be included in the order information and transmitted to the order server 10, and in step S7, the destination information of the smart speaker 31A included in the order information may be returned. Good.

スマートスピーカー31Aでは、オーダーサーバ10からの返答を受けると、スピーカー313Aから返答を出力する(ステップS8)。
次いで、ユーザは「○○レストラン 4名」と発話すると、制御部311Aでは、音声データ受信(ステップS9)、アクセスキーワードの認証(ステップS10)、テキスト情報生成(ステップS11)、テキスト情報を含むオーダー情報送信(ステップS12)を行う。当該ステップS9乃至S12の処理はそれぞれステップS2乃至ステップS5の処理と同様であるため説明を省略する。
When the smart speaker 31A receives the response from the order server 10, the smart speaker 31A outputs the response from the speaker 313A (step S8).
Next, when the user utters "4 XX restaurants", the control unit 311A receives voice data (step S9), authenticates access keywords (step S10), generates text information (step S11), and orders including text information. Information transmission (step S12) is performed. Since the processes of steps S9 to S12 are the same as the processes of steps S2 to S5, the description thereof will be omitted.

アクセスキーワードによる認証状態は、所定時間維持するよう設定することができる。そのため、ステップS3で行った認証状態が、ステップS9の後も続いている場合には、ステップS10のアクセスキーワードの認証は不要である。また、スマートスピーカー31AがステップS9で発話を受けて音声データを受信する前に起動状態でない場合には、ユーザからのトリガとなる音声発話を受け、待機状態から起動状態とした後に、ステップS9以降の処理を行う。スマートスピーカー31Aが待機状態か、起動状態か、認証状態かは、ステータスを示すLED(発光素子)の発光色で区別できるよう、それぞれの状態に対応する異なる色のLED(発光素子)の発光色でユーザに示す。 The authentication status based on the access keyword can be set to be maintained for a predetermined time. Therefore, if the authentication state performed in step S3 continues after step S9, the authentication of the access keyword in step S10 is unnecessary. If the smart speaker 31A is not in the activated state before receiving the utterance in step S9 and receiving the voice data, it receives the voice utterance that triggers the user, changes from the standby state to the activated state, and then steps S9 and thereafter. Perform the processing of. Whether the smart speaker 31A is in the standby state, activated state, or authenticated state can be distinguished by the light emitting color of the LED (light emitting element) indicating the status, so that the light emitting color of the LED (light emitting element) of a different color corresponding to each state can be distinguished. Show to the user.

オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信すると(ステップS13)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS14)。図7後段に示す例では、オーダー内容に応じた処理を実行するよう指示するオーダー実行指示情報を生成し、オーダー情報送信元のスマートスピーカー31Aが設置された店舗サーバ30へ送信する。 When the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A (step S13), the reception processing means 1011 executes the order reception processing based on the received order information (step S14). In the example shown in the latter part of FIG. 7, order execution instruction information for instructing execution of processing according to the order contents is generated and transmitted to the store server 30 in which the smart speaker 31A of the order information transmission source is installed.

記憶部102の発話シナリオDB1022(図6B)を参照し、テキスト情報のうち、アクセスキーワードを除く発話を受け、“次に行うべき処理”を実行することとなる。例えば、図7後段に示す「○○レストラン 4名」という内容のテキスト情報を含むオーダー情報を受信した場合のように、人数を伝える発話の後には、人数を伝えたスマートスピーカー31Aと対となるタブレット端末31Bの表示画面にメニューを表示させることが“次に行うべき処理”である。そのため、当該指示を示すオーダー実行指示情報を、指示情報生成手段1012が生成し、指示情報送信手段1012がオーダー情報送信元のスマートスピーカー31Aが設置された店舗サーバ30へ送信する(図8:ステップS15)。 With reference to the utterance scenario DB 1022 (FIG. 6B) of the storage unit 102, the utterance excluding the access keyword is received from the text information, and the “next process” is executed. For example, as in the case of receiving order information including text information of "○○ restaurant 4 people" shown in the latter part of FIG. 7, after the utterance that tells the number of people, it is paired with the smart speaker 31A that tells the number of people. Displaying the menu on the display screen of the tablet terminal 31B is the "next process". Therefore, the order execution instruction information indicating the instruction is generated by the instruction information generating means 1012, and the instruction information transmitting means 1012 transmits the order execution instruction information to the store server 30 in which the smart speaker 31A of the order information transmitting source is installed (FIG. 8: step). S15).

具体的には、記憶部102の店舗情報DB1021(図6A)を参照して、ステップS12でオーダー情報と共に送信された「店舗ID」と「スマートスピーカーID」に対応づけて記憶された「店舗情報」に含まれる店舗サーバ30の宛先情報に向けてオーダー実行指示情報を送信する。このとき、ステップS12におけるオーダー情報の送信元であるスマートスピーカー31Aを特定するためのID情報である「スマートスピーカーID」を共に送信する。 Specifically, referring to the store information DB 1021 (FIG. 6A) of the storage unit 102, the “store information” stored in association with the “store ID” and the “smart speaker ID” transmitted together with the order information in step S12 is stored. The order execution instruction information is transmitted to the destination information of the store server 30 included in the above. At this time, the "smart speaker ID" which is the ID information for identifying the smart speaker 31A which is the transmission source of the order information in step S12 is also transmitted.

店舗サーバ30の指示情報受信手段3011は、オーダーサーバ10からオーダー実行指示情報を受信する(ステップS16)。そして、店舗サーバ30のオーダー実行手段3012は、オーダー実行指示情報に基づいて、オーダー内容に応じた処理を実行する。 The instruction information receiving means 3011 of the store server 30 receives the order execution instruction information from the order server 10 (step S16). Then, the order execution means 3012 of the store server 30 executes processing according to the order contents based on the order execution instruction information.

図8の例では、店舗サーバ30の端末制御手段3013が、オーダー実行指示情報に含まれるスマートスピーカーIDにより特定されたスマートスピーカー31Aに対応づけられたタブレット端末31Bを制御対象端末装置としてオーダー実行指示情報に基づいて制御する。 In the example of FIG. 8, the terminal control means 3013 of the store server 30 uses the tablet terminal 31B associated with the smart speaker 31A specified by the smart speaker ID included in the order execution instruction information as the control target terminal device for order execution instruction. Control based on information.

具体的には、記憶部302の客席端末管理DB3021(図6C)を参照して、ステップS16でオーダー実行指示情報と共に送信された「スマートスピーカーID」に対応づけて記憶された「タブレット端末宛先情報」に向けて、タブレット端末31Bの表示画面にメニューを表示させる旨の制御情報を送信する(ステップS17)。 Specifically, referring to the audience terminal management DB 3021 (FIG. 6C) of the storage unit 302, the “tablet terminal destination information” stored in association with the “smart speaker ID” transmitted together with the order execution instruction information in step S16. The control information for displaying the menu on the display screen of the tablet terminal 31B is transmitted (step S17).

タブレット端末31Bは、店舗サーバ30からの制御情報を受信し(ステップS18)、当該制御情報に応じた処理を行う(ステップS19)。図8の例では、メニューの表紙をタブレット端末31Bの表示部313Bの表示画面に表示する。具体的には、タブレット端末31Bの記憶部312Bの注文可能商品DBに記憶されているメニューリスト情報から抽出して表示する。 The tablet terminal 31B receives the control information from the store server 30 (step S18) and performs processing according to the control information (step S19). In the example of FIG. 8, the cover of the menu is displayed on the display screen of the display unit 313B of the tablet terminal 31B. Specifically, it is extracted from the menu list information stored in the orderable product DB of the storage unit 312B of the tablet terminal 31B and displayed.

なお、ステップS15にて、オーダー情報送信元のスマートスピーカー31Aの「スマートスピーカーID」を送信しているが、指示情報生成手段1012が生成するオーダー実行指示情報の内容が、タブレット端末31Bに関する内容であれば、店舗情報DB1021(図6A)を参照して、オーダー情報送信元のスマートスピーカー31Aの「スマートスピーカーID」に変えて、当該「スマートスピーカーID」に対応付けられた「タブレット端末ID」又は「タブレット端末宛先情報」を送信してもよい。例えば、「タブレット端末宛先情報」を受信した場合には、ステップS17において、店舗サーバ30の端末制御手段3013は、客席端末管理DB3021(図6C)を参照する必要がなくなる。 In step S15, the "smart speaker ID" of the smart speaker 31A, which is the source of the order information, is transmitted, but the content of the order execution instruction information generated by the instruction information generation means 1012 is the content related to the tablet terminal 31B. If there is, the store information DB 1021 (FIG. 6A) is referred to, and the "smart speaker ID" of the smart speaker 31A of the order information transmission source is changed to the "tablet terminal ID" associated with the "smart speaker ID" or You may send "tablet terminal address information". For example, when the "tablet terminal destination information" is received, in step S17, the terminal control means 3013 of the store server 30 does not need to refer to the audience seat terminal management DB 3021 (FIG. 6C).

タブレット端末31Bの表示画面に表示されているメニューの表紙から、ドリンクメニューページ、お食事メニューページ、デザートメニューページ、注文状況表示のページなど、種々の表示を行う際には、タブレット端末31Bの表示画面であるタッチパネル上でユーザがタッチしてページをめくったり、表示を変えたりすることができる。
本実施形態では、スマートスピーカー31Aを通じてタブレット端末31Bの表示を変えて商品を注文するケースについて説明する。
When various displays such as a drink menu page, a meal menu page, a dessert menu page, and an order status display page are displayed from the cover of the menu displayed on the display screen of the tablet terminal 31B, the display screen of the tablet terminal 31B is used. The user can touch on the touch panel to turn the page or change the display.
In the present embodiment, a case of ordering a product by changing the display of the tablet terminal 31B through the smart speaker 31A will be described.

<所望ページの表示>
スマートスピーカー31Aはユーザからのトリガとなる音声発話を受け、待機状態から起動状態になる(ステップ20)。ユーザはトリガ発話に続けて何らかの発話を行い、制御部311Aの音声データ受信手段3111Aは、マイクロフォン314Aと協働し、それらの発話を受け音声データ(「○○レストラン ドリンクメニューを開いて」)として受信する(ステップS21)。
<Display of desired page>
The smart speaker 31A receives a voice utterance that triggers the user, and changes from the standby state to the activated state (step 20). The user makes some utterance following the trigger utterance, and the voice data receiving means 3111A of the control unit 311A cooperates with the microphone 314A to receive those utterances and use them as voice data (“Open the XX restaurant drink menu”). Receive (step S21).

次いで、制御部311Aでは、アクセスキーワードの認証(ステップS22)、テキスト情報生成(ステップS23)、テキスト情報を含むオーダー情報送信(ステップS24)を行う。当該ステップS21乃至S24の処理はそれぞれステップS2乃至ステップS5の処理と同様であるため説明を省略する。 Next, the control unit 311A performs access keyword authentication (step S22), text information generation (step S23), and order information transmission including text information (step S24). Since the processes of steps S21 to S24 are the same as the processes of steps S2 to S5, the description thereof will be omitted.

オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信すると(ステップS25)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS26)。具体的には、オーダー情報に含まれるテキスト情報に基づいてオーダー受付処理を実行する。
図9に示す例では、オーダー内容に応じた処理を実行するよう指示するオーダー実行指示情報を生成し、オーダー情報送信元のスマートスピーカー31Aが設置された店舗サーバ30へ送信する。
When the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A (step S25), the reception processing means 1011 executes the order reception processing based on the received order information (step S26). Specifically, the order acceptance process is executed based on the text information included in the order information.
In the example shown in FIG. 9, order execution instruction information for instructing execution of processing according to the order contents is generated and transmitted to the store server 30 in which the smart speaker 31A of the order information transmission source is installed.

記憶部102の発話シナリオDB1022(図6B)を参照し、テキスト情報のうち、アクセスキーワードを除く発話を受け、“次に行うべき処理”を実行することとなる。例えば、図9に示す「○○レストラン ドリンクメニューを開いて」という内容のテキスト情報を含むオーダー情報を受信した場合のように、所定のメニューページを開くよう要求する発話の後には、要求元のスマートスピーカー31Aと対となるタブレット端末31Bの表示画面に要求されたメニューページを表示させることが“次に行うべき処理”である。そのため、当該指示を示すオーダー実行指示情報を、指示情報生成手段1012が生成し、指示情報送信手段1012がオーダー情報送信元のスマートスピーカー31Aが設置された店舗サーバ30へ送信する(ステップS27)。具体的な処理はステップS15の処理と同様であるため説明を省略する。 With reference to the utterance scenario DB 1022 (FIG. 6B) of the storage unit 102, the utterance excluding the access keyword is received from the text information, and the “next process” is executed. For example, as in the case of receiving order information including the text information "Open the XX restaurant drink menu" shown in FIG. 9, after the utterance requesting to open the predetermined menu page, the requesting source smart Displaying the requested menu page on the display screen of the tablet terminal 31B paired with the speaker 31A is the "next process". Therefore, the order execution instruction information indicating the instruction is generated by the instruction information generating means 1012, and the instruction information transmitting means 1012 transmits the order information transmitting means to the store server 30 in which the smart speaker 31A of the order information transmitting source is installed (step S27). Since the specific processing is the same as the processing in step S15, the description thereof will be omitted.

店舗サーバ30の指示情報受信手段3011は、オーダーサーバ10からオーダー実行指示情報を受信する(ステップS28)。そして、店舗サーバ30のオーダー実行手段3012は、オーダー実行指示情報に基づいて、オーダー内容に応じた処理を実行する。 The instruction information receiving means 3011 of the store server 30 receives the order execution instruction information from the order server 10 (step S28). Then, the order execution means 3012 of the store server 30 executes processing according to the order contents based on the order execution instruction information.

図9の例では、店舗サーバ30の端末制御手段3013が、オーダー実行指示情報に含まれるスマートスピーカーIDにより特定されたスマートスピーカー31Aに対応づけられたタブレット端末31Bを制御対象端末装置としてオーダー実行指示情報に基づいて制御する。 In the example of FIG. 9, the terminal control means 3013 of the store server 30 uses the tablet terminal 31B associated with the smart speaker 31A specified by the smart speaker ID included in the order execution instruction information as the control target terminal device for order execution instruction. Control based on information.

具体的には、記憶部302の客席端末管理DB3021(図6C)を参照して、ステップS28でオーダー実行指示情報と共に受信した「スマートスピーカーID」に対応づけて記憶された「タブレット端末宛先情報」に向けて、タブレット端末31Bの表示画面にドリンクメニューページを表示させるよう指示する旨の制御情報を送信する(ステップS29)。 Specifically, referring to the audience terminal management DB 3021 (FIG. 6C) of the storage unit 302, the "tablet terminal destination information" stored in association with the "smart speaker ID" received together with the order execution instruction information in step S28. Control information to instruct the display screen of the tablet terminal 31B to display the drink menu page is transmitted (step S29).

タブレット端末31Bは、店舗サーバ30からの制御情報を受信し(ステップS30)、当該制御情報に応じた処理を行う(ステップS31)。図9の例では、ドリンクメニューページをタブレット端末31Bの表示部313Bの表示画面に表示する。具体的には、タブレット端末31Bの記憶部312Bの注文可能商品DBに記憶されているメニューリスト情報から抽出して表示する。 The tablet terminal 31B receives the control information from the store server 30 (step S30) and performs processing according to the control information (step S31). In the example of FIG. 9, the drink menu page is displayed on the display screen of the display unit 313B of the tablet terminal 31B. Specifically, it is extracted from the menu list information stored in the orderable product DB of the storage unit 312B of the tablet terminal 31B and displayed.

タブレット端末31Bの表示画面に表示されているドリンクメニューページから、ユーザがタッチパネルをタッチして所望のドリンクを注文することができる。
引き続き、本実施形態では、スマートスピーカー31Aを通じて所望の商品を注文するケースについて説明する。
From the drink menu page displayed on the display screen of the tablet terminal 31B, the user can touch the touch panel to order a desired drink.
Subsequently, in the present embodiment, a case where a desired product is ordered through the smart speaker 31A will be described.

<商品の注文>
次いで、制御部311Aの音声データ受信手段3111Aは、マイクロフォン314Aと協働し、ユーザの発話を受け音声データ(「○○レストラン 生ビール4つ!」)として受信する(ステップS32)。
<Product order>
Next, the voice data receiving means 3111A of the control unit 311A cooperates with the microphone 314A and receives the user's utterance as voice data (“○○ restaurant draft beer 4!”) (Step S32).

次いで、制御部311Aでは、アクセスキーワードの認証(ステップS33)、テキスト情報生成(ステップS34)、テキスト情報を含むオーダー情報送信(ステップS35)を行う。なお、ステップS21で行った認証状態が続いている場合には、ステップS33のアクセスキーワードの認証は不要である。当該ステップS32乃至S35の処理はそれぞれステップS2乃至ステップS5の処理と同様であるため説明を省略する。 Next, the control unit 311A performs access keyword authentication (step S33), text information generation (step S34), and order information transmission including text information (step S35). If the authentication status performed in step S21 continues, the access keyword authentication in step S33 is unnecessary. Since the processes of steps S32 to S35 are the same as the processes of steps S2 to S5, the description thereof will be omitted.

オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信すると(ステップS36)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS37)。具体的には、オーダー情報に含まれるテキスト情報に基づいてオーダー受付処理を実行する。 When the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A (step S36), the reception processing means 1011 executes the order reception processing based on the received order information (step S37). Specifically, the order acceptance process is executed based on the text information included in the order information.

図10前段に示す例では、「○○レストラン 生ビール4つ!」という内容のテキスト情報を含むオーダー情報をスマートスピーカー31Aから受信している。そして、制御手段101は、記憶部102の発話シナリオDB1022(図6B)のうち、オーダー情報と共に受信した「店舗ID」に対応付けられた「発話シナリオ」から、オーダー情報に含まれるテキスト情報のうち、アクセスキーワードを除く「生ビール4つ!」に対する“会話の返答”と、“次に行うべき処理”を実行することとなる。 In the example shown in the first part of FIG. 10, order information including text information of "○○ restaurant draft beer 4!" Is received from the smart speaker 31A. Then, the control means 101 is out of the text information included in the order information from the "utterance scenario" associated with the "store ID" received together with the order information in the utterance scenario DB 1022 (FIG. 6B) of the storage unit 102. , "Conversation response" to "4 draft beers!" Excluding access keywords and "Next processing" will be executed.

会話の返答として、オーダー情報の送信元であるスマートスピーカー31Aに返答する。また、次に行うべき処理は、タブレット端末31Bの表示画面に注文内容を表示させることである。
まず、図10前段の例では、「以上でよろしいですか?」という返答をする。具体的な処理はステップS7の処理と同様であるため説明を省略する。
スマートスピーカー31Aでは、オーダーサーバ10からの返答を受けると、スピーカー313Aから返答を出力する(ステップS38)。
As a reply to the conversation, the smart speaker 31A, which is the sender of the order information, is replied. The next process to be performed is to display the order contents on the display screen of the tablet terminal 31B.
First, in the example in the first part of FIG. 10, the reply "Are you sure you want to do this?" Is given. Since the specific processing is the same as the processing in step S7, the description thereof will be omitted.
When the smart speaker 31A receives the response from the order server 10, the smart speaker 31A outputs the response from the speaker 313A (step S38).

ステップS39にて、タブレット端末31Bの表示画面に注文内容を表示させる指示を示すオーダー実行指示情報を、指示情報生成手段1012が生成し、指示情報送信手段1012がオーダー情報送信元のスマートスピーカー31Aが設置された店舗サーバ30へ送信する(ステップS39)。具体的な処理はステップS15の処理と同様であるため説明を省略する。 In step S39, the instruction information generating means 1012 generates order execution instruction information indicating an instruction to display the order contents on the display screen of the tablet terminal 31B, and the instruction information transmitting means 1012 causes the smart speaker 31A of the order information transmitting source to generate the order execution instruction information. It is transmitted to the installed store server 30 (step S39). Since the specific processing is the same as the processing in step S15, the description thereof will be omitted.

店舗サーバ30の指示情報受信手段3011は、オーダーサーバ10からオーダー実行指示情報を受信する(ステップS40)。そして、店舗サーバ30のオーダー実行手段3012は、オーダー実行指示情報に基づいて、オーダー内容に応じた処理を実行する。 The instruction information receiving means 3011 of the store server 30 receives the order execution instruction information from the order server 10 (step S40). Then, the order execution means 3012 of the store server 30 executes processing according to the order contents based on the order execution instruction information.

図10前段の例では、店舗サーバ30の端末制御手段3013が、オーダー実行指示情報に含まれるスマートスピーカーIDにより特定されたスマートスピーカー31Aに対応づけられたタブレット端末31Bを制御対象端末装置としてオーダー実行指示情報に基づいて制御する。 In the example of the first stage of FIG. 10, the terminal control means 3013 of the store server 30 orders execution using the tablet terminal 31B associated with the smart speaker 31A specified by the smart speaker ID included in the order execution instruction information as the control target terminal device. Control based on the instruction information.

具体的には、記憶部302の客席端末管理DB3021(図6C)を参照して、ステップS40でオーダー実行指示情報と共に受信した「スマートスピーカーID」に対応づけて記憶された「タブレット端末宛先情報」に向けて、タブレット端末31Bの表示画面に注文内容を表示させる旨の制御情報を送信する(ステップS41)。 Specifically, referring to the audience terminal management DB 3021 (FIG. 6C) of the storage unit 302, the “tablet terminal destination information” stored in association with the “smart speaker ID” received together with the order execution instruction information in step S40. Control information for displaying the order details on the display screen of the tablet terminal 31B is transmitted (step S41).

タブレット端末31Bは、店舗サーバ30からの制御情報を受信し(ステップS42)、当該制御情報に応じた処理を行う(ステップS43)。図10前段の例では、注文内容をタブレット端末31Bの表示部313Bの表示画面に表示する。具体的には、タブレット端末31Bの記憶部312Bの注文可能商品DBに記憶されているメニューリスト情報から抽出して表示する。
ステップS38の発話を受けて、ユーザは引き続き注文を行ってもよい(ステップS32〜S43)。
The tablet terminal 31B receives the control information from the store server 30 (step S42) and performs processing according to the control information (step S43). In the example of the first stage of FIG. 10, the order contents are displayed on the display screen of the display unit 313B of the tablet terminal 31B. Specifically, it is extracted from the menu list information stored in the orderable product DB of the storage unit 312B of the tablet terminal 31B and displayed.
Upon receiving the utterance in step S38, the user may continue to place an order (steps S32 to S43).

制御部311Aの音声データ受信手段3111Aは、マイクロフォン314Aと協働し、ユーザの発話を受け音声データ(「以上で」)として受信する(ステップS44)。
次いで、制御部311Aでは、テキスト情報生成(ステップS45)、テキスト情報を含むオーダー情報送信(ステップS46)を行う。
The voice data receiving means 3111A of the control unit 311A cooperates with the microphone 314A and receives the user's utterance as voice data (“at or above”) (step S44).
Next, the control unit 311A performs text information generation (step S45) and order information transmission including text information (step S46).

当該ステップS44乃至S46の処理はそれぞれステップS2、ステップS4、ステップS5の処理と同様であるため説明を省略する。なお、スマートスピーカー31AがステップS44で発話を受けて音声データを受信する前に起動状態でない場合には、ユーザからのトリガとなる音声発話を受け、待機状態から起動状態とした後に、ステップS44以降の処理を行う。ステップS33で行った認証状態が続いていない場合には、ステップS44に続いてアクセスキーワードの認証を行う。認証状態でない場合に、ユーザがアクセスキーワードを発話しなかった場合には、AIアシスタントサーバ40に向けた発話となる。AIアシスタントサーバ40とのやり取りについては図13を用いて後に詳述する。 Since the processes of steps S44 to S46 are the same as the processes of steps S2, S4, and S5, respectively, the description thereof will be omitted. If the smart speaker 31A is not in the activated state before receiving the utterance in step S44 and receiving the voice data, it receives the voice utterance that triggers the user, changes from the standby state to the activated state, and then steps S44 and thereafter. Perform the processing of. If the authentication status performed in step S33 does not continue, the access keyword is authenticated following step S44. If the user does not speak the access keyword in the non-authenticated state, the utterance is directed to the AI assistant server 40. The communication with the AI assistant server 40 will be described in detail later with reference to FIG.

次いで、オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信すると(ステップS47)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS48)。具体的には、オーダー情報に含まれるテキスト情報に基づいてオーダー受付処理を実行する。 Next, when the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A (step S47), the reception processing means 1011 executes the order reception processing based on the received order information (step S48). Specifically, the order acceptance process is executed based on the text information included in the order information.

図10後段に示す例では、オーダー内容に応じた処理を実行するよう指示するオーダー実行指示情報を生成し、オーダー情報送信元のスマートスピーカー31Aが設置された店舗サーバ30へ送信する。 In the example shown in the latter part of FIG. 10, order execution instruction information for instructing execution of processing according to the order contents is generated and transmitted to the store server 30 in which the smart speaker 31A of the order information transmission source is installed.

記憶部102の発話シナリオDB1022(図6B)を参照し、テキスト情報のうち、アクセスキーワードを除く発話を受け、“次に行うべき処理”を実行することとなる。例えば、図10後段に示す「以上で」という内容のテキスト情報を含むオーダー情報を受信した場合のように、注文を確定するよう要求する発話の後には、要求元のスマートスピーカー31Aと対となるタブレット端末31Bの表示画面に注文確定表示をすることが“次に行うべき処理”である。そのため、当該指示を示すオーダー実行指示情報を、指示情報生成手段1012が生成し、指示情報送信手段1012がオーダー情報送信元のスマートスピーカー31Aが設置された店舗サーバ30へ送信する(ステップS49)。具体的な処理はステップS15の処理と同様であるため説明を省略する。 With reference to the utterance scenario DB 1022 (FIG. 6B) of the storage unit 102, the utterance excluding the access keyword is received from the text information, and the “next process” is executed. For example, as in the case of receiving the order information including the text information of "above" shown in the latter part of FIG. 10, after the utterance requesting the confirmation of the order, the smart speaker 31A of the requesting source is paired. Displaying the order confirmation on the display screen of the tablet terminal 31B is the "next process". Therefore, the order execution instruction information indicating the instruction is generated by the instruction information generating means 1012, and the instruction information transmitting means 1012 transmits the order information transmitting means to the store server 30 in which the smart speaker 31A of the order information transmitting source is installed (step S49). Since the specific processing is the same as the processing in step S15, the description thereof will be omitted.

店舗サーバ30の指示情報受信手段3011は、オーダーサーバ10からオーダー実行指示情報を受信する(ステップS50)。そして、店舗サーバ30のオーダー実行手段3012は、オーダー実行指示情報に基づいて、オーダー内容に応じた処理を実行する。 The instruction information receiving means 3011 of the store server 30 receives the order execution instruction information from the order server 10 (step S50). Then, the order execution means 3012 of the store server 30 executes processing according to the order contents based on the order execution instruction information.

図10後段の例では、店舗サーバ30の端末制御手段3013が、オーダー実行指示情報に含まれるスマートスピーカーIDにより特定されたスマートスピーカー31Aに対応づけられたタブレット端末31Bを制御対象端末装置としてオーダー実行指示情報に基づいて制御する。 In the example in the latter part of FIG. 10, the terminal control means 3013 of the store server 30 orders execution using the tablet terminal 31B associated with the smart speaker 31A specified by the smart speaker ID included in the order execution instruction information as the control target terminal device. Control based on the instruction information.

具体的には、記憶部302の客席端末管理DB3021(図6C)を参照して、ステップS50でオーダー実行指示情報と共に受信した「スマートスピーカーID」に対応づけて記憶された「タブレット端末宛先情報」に向けて、タブレット端末31Bの表示画面に注文確定表示を指示する旨の制御情報を送信する(ステップS51)。 Specifically, referring to the audience terminal management DB 3021 (FIG. 6C) of the storage unit 302, the “tablet terminal destination information” stored in association with the “smart speaker ID” received together with the order execution instruction information in step S50. Control information to instruct the order confirmation display is transmitted to the display screen of the tablet terminal 31B (step S51).

タブレット端末31Bは、店舗サーバ30からの制御情報を受信し(ステップS52)、当該制御情報に応じた処理を行う(ステップS53)。図10後段の例では、注文確定表示をタブレット端末31Bの表示部313Bの表示画面に表示する。 The tablet terminal 31B receives the control information from the store server 30 (step S52) and performs processing according to the control information (step S53). In the latter example of FIG. 10, the order confirmation display is displayed on the display screen of the display unit 313B of the tablet terminal 31B.

注文確定表示と共に、確認ボタンを表示し、ユーザが当該確認ボタンを選択したときに正式なオーダーが行われたとして、厨房内の注文端末装置へオーダー情報を送信し、注文端末装置のモニター等にオーダーを表示したりオーダーをプリントアウトしたりして調理者に提示し調理を開始してもよい。店舗サーバ30を注文端末装置として機能させてもよい。又は、ステップS50でオーダー実行指示情報を受信したときに、正式なオーダーが行われたと確定してもよい。ユーザへ確認を取るか否かは適宜設計変更できる。 A confirmation button is displayed along with the order confirmation display, and when the user selects the confirmation button, it is assumed that a formal order has been placed, and the order information is sent to the order terminal device in the kitchen and displayed on the monitor of the order terminal device. The order may be displayed or printed out and presented to the cook to start cooking. The store server 30 may function as an order terminal device. Alternatively, when the order execution instruction information is received in step S50, it may be confirmed that the formal order has been placed. Whether or not to confirm with the user can be changed as appropriate.

<種々のオーダー>
上述したような料理の注文に限らず、音声認識オーダーシステムSによれば、種々のオーダーに対応できる。
図11のシーケンスチャートに示すように、ステップS100乃至ステップS104においてユーザが「今月のおすすめ」を紹介するようオーダーすると、オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信して(ステップS105)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS106)。
<Various orders>
Not limited to the above-mentioned food order, the voice recognition order system S can handle various orders.
As shown in the sequence chart of FIG. 11, when the user orders to introduce "this month's recommendation" in steps S100 to S104, the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A. Then (step S105), the order acceptance process is executed based on the received order information (step S106).

そうすると、店舗サーバ30を介して、要求元のスマートスピーカー31Aと対となるタブレット端末31Bの表示画面におすすめ動画を再生表示する(ステップS107乃至ステップS111)。おすすめ動画は、タブレット端末31Bの記憶部312Bの注文可能商品DBに記憶されているメニューリスト情報から抽出して表示する。 Then, the recommended moving image is reproduced and displayed on the display screen of the tablet terminal 31B paired with the requesting smart speaker 31A via the store server 30 (steps S107 to S111). The recommended moving image is extracted from the menu list information stored in the orderable product DB of the storage unit 312B of the tablet terminal 31B and displayed.

図12のシーケンスチャートに示すように、ステップS120乃至ステップS124においてユーザが“鮮魚盛り”について説明するようオーダーすると、オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信して(ステップS125)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS126)。 As shown in the sequence chart of FIG. 12, when the user orders to explain "fresh fish heap" in steps S120 to S124, the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A. (Step S125), the order acceptance process is executed based on the received order information (step S126).

すると、制御手段101は、記憶部102の発話シナリオDB1022(図6B)を参照して、オーダー情報と共に受信した「店舗ID」に対応付けられた「発話シナリオ」から、“鮮魚盛り”の説明を抽出して、オーダー情報の送信元であるスマートスピーカー31Aに返答する(ステップS127)。 Then, the control means 101 refers to the utterance scenario DB 1022 (FIG. 6B) of the storage unit 102, and explains the “fresh fish assortment” from the “speaking scenario” associated with the “store ID” received together with the order information. It is extracted and replied to the smart speaker 31A, which is the source of the order information (step S127).

なお、制御手段101は、記憶部102の発話シナリオDB1022(図6B)を参照して、オーダー情報と共に受信した「店舗ID」に対応付けられた「商品リスト」に説明を求められた商品がない場合には、「その商品はございません。」等を返答する。
以上説明したように、音声認識オーダーシステムSによれば、種々のオーダーに対応できる。上述した事例に限定されず、注文のキャンセルや、会計依頼等もオーダーすることができる。
In addition, the control means 101 refers to the utterance scenario DB 1022 (FIG. 6B) of the storage unit 102, and there is no product requested to be explained in the "product list" associated with the "store ID" received together with the order information. In that case, reply "There is no such product."
As described above, the voice recognition order system S can handle various orders. Not limited to the above-mentioned cases, it is possible to cancel an order or place an order for an accounting request.

<認証不可の場合>
上述した実施形態では、スマートスピーカー31Aの制御部311Aの認証手段3112Aによって、音声データ受信手段3111Aが受信した音声データについて、所定のアクセスキーワードが発話されたか否かを認証し、認証が成功した場合を例に説明したが、認証失敗(認証不可)の場合について、図13のシーケンスチャートを参照して説明する。
<If authentication is not possible>
In the above-described embodiment, when the authentication means 3112A of the control unit 311A of the smart speaker 31A authenticates whether or not a predetermined access keyword is spoken for the voice data received by the voice data receiving means 3111A, and the authentication is successful. However, the case of authentication failure (authentication not possible) will be described with reference to the sequence chart of FIG.

スマートスピーカー31Aはユーザからのトリガとなる音声発話を受け、待機状態から起動状態になる(ステップ130)。ユーザはトリガ発話に続けて何らかの発話を行い、制御部311Aの音声データ受信手段3111Aは、マイクロフォン314Aと協働し、それらの発話を受け音声データ(「□□線 恵比寿駅の終電は何時?」)として受信する(ステップS131)。 The smart speaker 31A receives a voice utterance that triggers the user, and changes from the standby state to the activated state (step 130). The user makes some utterance following the trigger utterance, and the voice data receiving means 3111A of the control unit 311A cooperates with the microphone 314A to receive the utterances and voice data (“What time is the last train at Ebisu Station on the □□ line?””. ) (Step S131).

次いで、制御部311Aでは、アクセスキーワードの認証(ステップS132)を行う。記憶部312Aの音声認識DBに予め記憶されているアクセスキーワードと照合を行い認証し、認証が成功していない場合、すなわち、認証不可(NG)の場合には、受信した音声データをAIアシスタントサーバ40へ送信する(ステップS133)。AIアシスタントサーバ40にて、従来公知の情報処理が行われる。つまり、音声データを受信し(ステップS134)、音声解析が行われ(ステップS135)、最適解がスマートスピーカー31Aへ返答される(ステップS136、S137)。 Next, the control unit 311A authenticates the access keyword (step S132). Authentication is performed by collating with the access keyword stored in advance in the voice recognition DB of the storage unit 312A, and if the authentication is not successful, that is, if the authentication is not possible (NG), the received voice data is sent to the AI assistant server. It is transmitted to 40 (step S133). Conventionally known information processing is performed on the AI assistant server 40. That is, the voice data is received (step S134), voice analysis is performed (step S135), and the optimum solution is returned to the smart speaker 31A (steps S136 and S137).

このように、本実施形態のスマートスピーカー31Aによれば、アクセスキーワードの認証が成功すればオーダーサーバ10へ接続され、アクセスキーワードの認証がされなければ(認証不可)、通常のAIアシスタントサーバ40に接続される。よって、従来公知のスマートスピーカーとしての機能を保ったまま音声認識オーダーシステムSの構成に組み込むことができる。 As described above, according to the smart speaker 31A of the present embodiment, if the access keyword authentication is successful, the connection is made to the order server 10, and if the access keyword is not authenticated (authentication is not possible), the normal AI assistant server 40 is connected. Be connected. Therefore, it can be incorporated into the configuration of the voice recognition order system S while maintaining the function as a conventionally known smart speaker.

<他の使用例>
上述した実施形態では、音声認識オーダーシステムSをレストランに適用した場合を例に説明したが、本発明の音声認識オーダーシステムSは、他の場面にも適用できる。次いで、ホテルや旅館等に対し、本発明の音声認識オーダーシステムSを適用した場合について説明する。
<Other usage examples>
In the above-described embodiment, the case where the voice recognition order system S is applied to a restaurant has been described as an example, but the voice recognition order system S of the present invention can also be applied to other situations. Next, a case where the voice recognition order system S of the present invention is applied to a hotel, an inn, or the like will be described.

客席端末31と店舗サーバ30は、その呼び名がかわるだけで構成は上記記載の内容と同様である。すなわち、各ホテルの各客室に用意された客室端末31と、第一のコンピュータとしてのオーダーサーバ10と、第二のコンピュータとしてのフロントサーバ30、当該音声認識オーダーシステムSを運営する事業者が設置するサービス提供者装置20、スマートスピーカー31AのAIアシスタントサーバ40とからなり、それぞれ有線又は無線にてネットワークに接続している。 The configuration of the audience seat terminal 31 and the store server 30 is the same as that described above, except that the names are changed. That is, a guest room terminal 31 prepared in each guest room of each hotel, an order server 10 as a first computer, a front server 30 as a second computer, and a business operator operating the voice recognition order system S are installed. The service provider device 20 and the AI assistant server 40 of the smart speaker 31A are connected to the network by wire or wirelessly, respectively.

オーダーサーバ10は、主に、各ホテルの各客室に設置したスマートスピーカー31Aからオーダー情報を受信して必要なオーダー受付処理を実行する装置である。
記憶部102は、ホテル情報データベース(DB)1023、発話シナリオデータベース(DB)1024等を記憶する。図14Aは、ホテル情報DB1023の一例であり、図14Aに示す例の場合、ホテルを一意に特定する「ホテルID」に対応付けて、フロントサーバ30の宛先情報を含む「ホテル情報」、「アクセスキーワード」が登録されている。全てのホテルにそれぞれ異なるホテルIDが付与されている。
The order server 10 is a device that mainly receives order information from the smart speaker 31A installed in each guest room of each hotel and executes necessary order acceptance processing.
The storage unit 102 stores the hotel information database (DB) 1023, the utterance scenario database (DB) 1024, and the like. FIG. 14A is an example of the hotel information DB 1023, and in the case of the example shown in FIG. 14A, “hotel information” including the destination information of the front server 30 and “access” are associated with the “hotel ID” that uniquely identifies the hotel. "Keywords" are registered. All hotels are given different hotel IDs.

「ホテル情報」には、ホテル内の各客室に設置されている客室端末31のタブレット端末31Bを一意に特定する「タブレット端末ID」と、タブレット端各末31Bに対し必要な制御情報を送信するための「タブレット端末宛先情報」と、スマートスピーカー31Aを一意に特定するID情報の一例としての「スマートスピーカーID」と、スマートスピーカー31Aに対し応答する宛先となる「スマートスピーカー宛先情報」と、が対応付けて登録されている。 In the "hotel information", the "tablet terminal ID" that uniquely identifies the tablet terminal 31B of the guest room terminal 31 installed in each guest room in the hotel and the necessary control information are transmitted to each end 31B of the tablet end. "Tablet terminal destination information" for this purpose, "smart speaker ID" as an example of ID information that uniquely identifies the smart speaker 31A, and "smart speaker destination information" that is the destination that responds to the smart speaker 31A. It is registered in association with each other.

発話シナリオDB1024には、スマートスピーカー31Aを通じてホテルに滞在するユーザと行われる会話の複数の発話シナリオ情報が蓄積されている。発話シナリオとは、ユーザとオーダーサーバ10との間でやりとりされる会話のストーリである。ホテルの客室内のユーザは、入室からチェックアウトのために室内から退室するまで間に複数の滞在状態を遷移する。発話シナリオDB1024には、遷移状態ごとに別個の発話シナリオが蓄積されている。 The utterance scenario DB 1024 stores information on a plurality of utterance scenarios of conversations with the user staying at the hotel through the smart speaker 31A. The utterance scenario is a story of conversations exchanged between the user and the order server 10. A user in a hotel guest room transitions between a plurality of stay states from entering the room to leaving the room for check-out. In the utterance scenario DB 1024, separate utterance scenarios are accumulated for each transition state.

図14Bは、発話シナリオDB1024の一例であり、図14Bに示す例の場合、発話シナリオDB1024は、「ホテルID」に対応付けて、「発話シナリオ」と「リクエストリスト」が登録されている。 FIG. 14B is an example of the utterance scenario DB 1024, and in the case of the example shown in FIG. 14B, the utterance scenario DB 1024 has a “speech scenario” and a “request list” registered in association with the “hotel ID”.

フロントサーバ30は、店舗サーバ30と同様の動作を行う。主に、オーダーサーバ10からのオーダー実行指示情報を受信して、例えば、タブレット端末31Bの制御等、オーダー内容に応じた処理を実行する装置である。例えば、ホテルのフロントやコンシェルジュルーム等に設置されている。 The front server 30 operates in the same manner as the store server 30. This is a device that mainly receives order execution instruction information from the order server 10 and executes processing according to the order contents, such as control of the tablet terminal 31B. For example, it is installed at the front desk of a hotel or in a concierge room.

客室端末31は、各客室にそれぞれ設置され、スマートスピーカー31Aとタブレット端末31Bにより構成される。
タブレット端末31Bの記憶部312Bは、リクエスト内容データベース(DB)(不図示)等を記憶する。リクエスト内容DB3121Bには、リクエスト可能な情報、例えば、ルームサービスの内容、夕食の予約、夕食時間の予約・変更、朝食の予約、朝食時間の予約・変更、貸切風呂の予約等が登録(記憶)されており、当該リクエスト内容DBから読みだしたリクエスト内容が表示画面に表示される。
The guest room terminal 31 is installed in each guest room and is composed of a smart speaker 31A and a tablet terminal 31B.
The storage unit 312B of the tablet terminal 31B stores a request content database (DB) (not shown) and the like. Request details DB3121B registers (memorizes) requestable information such as room service details, dinner reservations, dinner time reservations / changes, breakfast reservations, breakfast time reservations / changes, and private bath reservations. The request content read from the request content DB is displayed on the display screen.

<音声認識オーダーシステムSの処理動作例2>
図15及び図16は、ホテルに対し本発明の音声認識オーダーシステムSを適用した場合の処理動作例を説明するためのシーケンスチャートである。
<Processing operation example 2 of voice recognition order system S>
15 and 16 are sequence charts for explaining an example of processing operation when the voice recognition order system S of the present invention is applied to a hotel.

ステップS200乃至ステップS204においてユーザが「夕食予約」をオーダーすると、オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信して(ステップS205)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS206)。 When the user orders the "supper reservation" in steps S200 to S204, the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A (step S205), and based on the received order information. The order acceptance process is executed (step S206).

そうすると、フロントサーバ30を介して、要求元のスマートスピーカー31Aと対となるタブレット端末31Bの表示画面に予約可能時間を表示する(ステップS207乃至ステップS211)。例えば、フロントサーバ30は、ステップS209において、ホテル内の各レストランの予約可能時間情報を含む制御情報を送信する。そして、タブレット端末31Bでは、記憶部312Bのリクエスト内容DBに記憶されているレストラン情報を抽出し、受信した予約可能時間情報と対応付けて表示する。 Then, the reservable time is displayed on the display screen of the tablet terminal 31B paired with the requesting smart speaker 31A via the front server 30 (steps S207 to S211). For example, in step S209, the front server 30 transmits control information including reservation time information of each restaurant in the hotel. Then, the tablet terminal 31B extracts the restaurant information stored in the request content DB of the storage unit 312B and displays it in association with the received reservable time information.

引き続き、ステップS212乃至ステップS215においてユーザが「17時から和食処予約」をオーダーすると、オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信して(ステップS216)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS217)。 Subsequently, when the user orders "Japanese restaurant reservation from 17:00" in steps S212 to S215, the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A (step S216) and receives the order information. The order acceptance process is executed based on the ordered order information (step S217).

図16前段の例では、制御手段101は、記憶部102の発話シナリオDB1024(図14B)のうち、オーダー情報と共に受信した「ホテルID」に対応付けられた「発話シナリオ」から、オーダー情報に含まれるテキスト情報のうち、アクセスキーワードを除く「17時から和食処予約」に対する会話の返答と、次に行うべき処理を実行することとなる。 In the example of the first stage of FIG. 16, the control means 101 is included in the order information from the “utterance scenario” associated with the “hotel ID” received together with the order information in the utterance scenario DB1024 (FIG. 14B) of the storage unit 102. Of the text information provided, the response to the conversation to "Reservation for Japanese restaurant from 17:00" excluding the access keyword and the processing to be performed next will be executed.

会話の返答として、オーダー情報の送信元であるスマートスピーカー31Aに返答する。また、次に行うべき処理は、タブレット端末31Bの表示画面に注文内容を表示させることである。
まず、図16前段の例では、「他に御用はございますか?」という返答をし、スマートスピーカー31Aから出力する(ステップS218)。
As a reply to the conversation, the smart speaker 31A, which is the sender of the order information, is replied. The next process to be performed is to display the order contents on the display screen of the tablet terminal 31B.
First, in the example in the first stage of FIG. 16, the reply "Do you have any other needs?" Is replied and output from the smart speaker 31A (step S218).

また、フロントサーバ30を介して、要求元のスマートスピーカー31Aと対となるタブレット端末31Bの表示画面に予約内容を表示する(ステップS219乃至ステップS223)。 Further, the reservation content is displayed on the display screen of the tablet terminal 31B paired with the requesting smart speaker 31A via the front server 30 (steps S219 to S223).

さらに、ステップS224乃至ステップS226にて、ユーザからスマートスピーカー31Aを通じてオーダーを受けると、オーダーサーバ10の受付処理手段1011は、スマートスピーカー31Aが送信したオーダー情報を受信して(ステップS227)、受信したオーダー情報に基づいてオーダー受付処理を実行する(ステップS228)。以下、ステップS229乃至ステップS234の処理は上述した処理と同様のため説明を省略する。 Further, when an order is received from the user through the smart speaker 31A in steps S224 to S226, the reception processing means 1011 of the order server 10 receives the order information transmitted by the smart speaker 31A (step S227) and receives the order. The order acceptance process is executed based on the order information (step S228). Hereinafter, since the processing of steps S229 to S234 is the same as the processing described above, the description thereof will be omitted.

以上説明したように、本実施形態における音声認識オーダーシステムSによれば、所定のアクセスキーワードが発話されたか否かを認証し、認証が成功した場合にオーダーサーバ10にオーダー情報を送信し、オーダーサーバ10にてオーダー情報に基づいたオーダー受付処理を実行することができるので、レストランやホテル等においてスマートスピーカー31Aを利用してオーダー処理を行う音声認識オーダーシステムSを実現できる。 As described above, according to the voice recognition order system S in the present embodiment, it is authenticated whether or not a predetermined access keyword is spoken, and if the authentication is successful, the order information is transmitted to the order server 10 to place an order. Since the server 10 can execute the order reception process based on the order information, it is possible to realize the voice recognition order system S that performs the order process using the smart speaker 31A in a restaurant, a hotel, or the like.

オーダー内容が会話を返答することでオーダー受付処理を実行させる場合には、オーダーサーバ10からスマートスピーカー31Aに向けて所定の返答を行なうことができる。また、オーダー内容に対応する“次に行うべき処理”がある場合には、当該処理を実行することができる。 When the order reception process is executed by replying the conversation with the order contents, a predetermined reply can be made from the order server 10 to the smart speaker 31A. In addition, if there is a "process to be performed next" corresponding to the order contents, the process can be executed.

また、オーダー情報に基づいたオーダー受付処理として行うべき処理が店舗サーバ30に指示すべき処理であれば、店舗サーバ30に対してオーダー実行指示情報を送信することにより、店舗サーバ30がオーダー内容に応じた処理を実行することができる。そして、店舗サーバ30がタブレット端末31Bを制御情報にオーダー実行指示情報に含まれるスマートスピーカーID(ID情報)に対応づけられたタブレット端末IDのタブレット端末31Bを特定し、当該タブレット端末31Bを制御対象端末装置として制御することができる。 Further, if the process to be performed as the order acceptance process based on the order information is the process to be instructed to the store server 30, the store server 30 can change the order contents by transmitting the order execution instruction information to the store server 30. It is possible to execute the corresponding processing. Then, the store server 30 identifies the tablet terminal 31B of the tablet terminal ID associated with the smart speaker ID (ID information) included in the order execution instruction information in the control information of the tablet terminal 31B, and controls the tablet terminal 31B. It can be controlled as a terminal device.

本発明の適用範囲は上述した構成に限定されることはない。本発明は、スマートスピーカーを用いて行われる音声認識オーダーシステム及び音声認識オーダー方法に対し、広く適用することができる。 The scope of application of the present invention is not limited to the above-described configuration. The present invention can be widely applied to a voice recognition ordering system and a voice recognition ordering method performed by using a smart speaker.

10 オーダーサーバ(第一のコンピュータ)
101 制御部
1011 受付処理手段
1012 指示情報生成手段
1013 指示情報送信手段
102 記憶部
1021 店舗情報データベース(DB)
1022 発話シナリオデータベース(DB)
103 表示部、104 入力部、105 通信部
30 店舗サーバ(第二のコンピュータ)
301 制御部
3011 指示情報受信手段
3013 端末制御手段
302 記憶部
3021 客席端末管理データベース(DB)
303 表示部、304 入力部、305 通信部
31 客席端末
31A スマートスピーカー
311A 制御部
3111A 音声データ受信手段
3112A 認証手段
3113A テキスト情報生成手段
3114A オーダー情報送信手段
312A 記憶部
3121A 音声認識データベース(DB)
313A スピーカー(音声出力手段)、
314A マイクロフォン(音声入力手段)、
315A 操作部、316A 通信部
31B タブレット端末(端末装置、制御対象端末装置)
311B 制御部
312B 記憶部
3121B 注文可能商品データベース(DB)
313B 表示部、314B 入力部、315B 通信部
40 AIアシスタントサーバ

10 Order server (first computer)
101 Control unit 1011 Reception processing means 1012 Instruction information generation means 1013 Instruction information transmission means 102 Storage unit 1021 Store information database (DB)
1022 Speech scenario database (DB)
103 display unit, 104 input unit, 105 communication unit 30 Store server (second computer)
301 Control unit 3011 Instruction information receiving means 3013 Terminal control means 302 Storage unit 3021 Audience terminal management database (DB)
303 Display unit, 304 Input unit, 305 Communication unit 31 Audience terminal 31A Smart speaker 311A Control unit 3111A Voice data receiving means 3112A Authentication means 3113A Text information generating means 3114A Order information transmitting means 312A Storage unit 3121A Voice recognition database (DB)
313A speaker (audio output means),
314A microphone (voice input means),
315A operation unit, 316A communication unit 31B tablet terminal (terminal device, controlled terminal device)
311B Control unit 312B Storage unit 3121B Orderable product database (DB)
313B display unit, 314B input unit, 315B communication unit 40 AI assistant server

Claims (8)

音声入力手段と音声出力手段を少なくとも備えるスマートスピーカーと、ネットワークを介して前記スマートスピーカーと情報の授受を可能に接続された第一のコンピュータを含んで構成された音声認識オーダーシステムであって、
前記スマートスピーカーは、
トリガ起動状態中にユーザが発話することで得られる音声データを受信する音声データ受信手段、
前記音声データ受信手段が受信した音声データを認識して、所定のアクセスキーワードが発話されたこと認証する認証手段、
前記音声データ受信手段が受信した音声データに基づいてユーザのオーダー内容を特定するテキスト情報を生成するテキスト情報生成手段、及び、
前記認証手段によりアクセスキーワードの発話の認証が成功している場合に、前記テキスト情報生成手段が生成した前記テキスト情報を含むオーダー情報を前記第一のコンピュータに送信するオーダー情報送信手段を有し、
前記第一のコンピュータは、
前記スマートスピーカーの前記オーダー情報送信手段が送信した前記オーダー情報を受信すると、受信した前記オーダー情報に基づいてオーダー受付処理を実行する受付処理手段を有することを特徴とする音声認識オーダーシステム。
A voice recognition ordering system including a smart speaker having at least a voice input means and a voice output means, and a first computer connected to the smart speaker via a network so as to exchange information.
The smart speaker
A voice data receiving means for receiving voice data obtained by a user speaking while the trigger is activated.
An authentication means that recognizes the voice data received by the voice data receiving means and authenticates that a predetermined access keyword has been spoken.
A text information generating means that generates text information that specifies a user's order content based on the voice data received by the voice data receiving means, and a text information generating means.
It has an order information transmitting means for transmitting the order information including the text information generated by the text information generating means to the first computer when the authentication of the utterance of the access keyword is successful by the authentication means.
The first computer is
A voice recognition order system comprising a reception processing means that executes an order reception process based on the received order information when the order information transmission means of the smart speaker receives the order information transmitted.
前記第一のコンピュータは、受信した前記オーダー情報に基づいて、前記オーダー内容に応じた処理を実行するよう指示するオーダー実行指示情報を生成する指示情報生成手段と、
前記指示情報生成手段が生成した前記オーダー実行指示情報を、ネットワークを介して前記第一のコンピュータと情報の授受を可能に接続された第二のコンピュータに送信する指示情報送信手段を有し、
前記第二のコンピュータは、
前記第一のコンピュータの前記指示情報送信手段が送信した前記オーダー実行指示情報を受信する指示情報受信手段と、
前記指示情報受信手段が受信した前記オーダー実行指示情報に基づいて、前記オーダー内容に応じた処理を実行するオーダー実行手段を有することを特徴とする請求項1に記載の音声認識オーダーシステム。
The first computer is an instruction information generation means for generating order execution instruction information instructing to execute a process according to the order contents based on the received order information.
It has an instruction information transmitting means for transmitting the order execution instruction information generated by the instruction information generating means to a second computer connected to the first computer via a network so as to exchange information.
The second computer
An instruction information receiving means for receiving the order execution instruction information transmitted by the instruction information transmitting means of the first computer, and
The voice recognition order system according to claim 1, further comprising an order execution means that executes a process according to the order contents based on the order execution instruction information received by the instruction information receiving means.
複数の前記スマートスピーカーと、各前記スマートスピーカーのそれぞれに対応付けられた端末装置であって、ユーザが操作指示可能な前記端末装置を含む請求項2に記載の音声認識オーダーシステムにおいて、
前記オーダー実行指示情報は、前記オーダー情報の送信元であるスマートスピーカーを特定するためのID情報を含み、
前記第二のコンピュータは、前記オーダー実行指示情報に含まれる前記ID情報により特定されたスマートスピーカーに対応づけられた前記端末装置を、制御対象端末装置として前記オーダー実行指示情報に基づいて制御する端末制御手段を有することを特徴とする音声認識オーダーシステム。
The voice recognition order system according to claim 2, wherein the plurality of smart speakers and a terminal device associated with each of the smart speakers and including the terminal device capable of instructing an operation by a user.
The order execution instruction information includes ID information for identifying a smart speaker that is a source of the order information.
The second computer is a terminal that controls the terminal device associated with the smart speaker specified by the ID information included in the order execution instruction information as a control target terminal device based on the order execution instruction information. A voice recognition ordering system characterized by having a control means.
前記第二のコンピュータは、前記制御対象端末装置の表示画面に、前記オーダー実行指示情報が示す前記オーダー内容に応じた表示を行うよう指示する旨の制御情報を、前記制御対象端末装置に送信することを特徴とする請求項3に記載の音声認識オーダーシステム。 The second computer transmits control information to the control target terminal device to instruct the display screen of the control target terminal device to display according to the order content indicated by the order execution instruction information. The voice recognition order system according to claim 3, wherein the voice recognition order system is characterized. 音声入力手段と音声出力手段を少なくとも備えるスマートスピーカーと、ネットワークを介して前記スマートスピーカーと情報の授受を可能に接続された第一のコンピュータにより実行される音声認識オーダー方法であって、
前記スマートスピーカーが、
トリガ起動状態中にユーザが発話することで得られる音声データを受信する音声データ受信ステップと、
受信した音声データを認識して、所定のアクセスキーワードが発話されたこと認証する認証ステップと、
前記音声データ受信ステップにて受信した音声データに基づいてユーザのオーダー内容を特定するテキスト情報生成するテキスト情報生成ステップと、
前記認証ステップにてアクセスキーワードの発話の認証が成功している場合に、前記テキスト情報生成ステップにて生成された前記テキスト情報を含むオーダー情報を第一の前記コンピュータに送信するオーダー情報送信ステップと、を有し、
前記第一のコンピュータが、
前記スマートスピーカーから送信された前記オーダー情報を受信すると、当該オーダー情報に基づいてオーダー受付処理を実行する受付処理ステップと、を有することを特徴とする音声認識オーダー方法。
A voice recognition ordering method executed by a smart speaker having at least a voice input means and a voice output means, and a first computer connected to the smart speaker via a network so as to exchange information.
The smart speaker
A voice data reception step that receives voice data obtained by the user speaking while the trigger is activated, and
An authentication step that recognizes the received voice data and authenticates that the specified access keyword has been spoken.
A text information generation step for generating text information that specifies a user's order content based on the voice data received in the voice data receiving step, and a text information generation step.
When the authentication of the utterance of the access keyword is successful in the authentication step, the order information transmission step of transmitting the order information including the text information generated in the text information generation step to the first computer is used. Have,
The first computer
A voice recognition ordering method comprising: a reception processing step of executing an order reception process based on the order information upon receiving the order information transmitted from the smart speaker.
前記第一のコンピュータが、
前記スマートスピーカーから送信された前記オーダー情報を受信すると、当該オーダー情報に基づいて、前記オーダー内容に応じた処理を実行するよう指示するオーダー実行指示情報を生成する指示情報生成ステップと、
前記指示情報生成ステップにより生成された前記オーダー実行指示情報を、ネットワークを介して前記第一のコンピュータと情報の授受を可能に接続された第二のコンピュータに送信する指示情報送信ステップと、を有し、
前記第二のコンピュータが、
前記第一のコンピュータから送信された前記オーダー実行指示情報を受信する指示情報受信ステップと、
前記指示情報受信ステップにて受信した前記オーダー実行指示情報に基づいて、前記オーダー内容に応じた処理を実行するオーダー実行ステップと、を有することを特徴とする請求項5に記載の音声認識オーダー方法。
The first computer
Upon receiving the order information transmitted from the smart speaker, an instruction information generation step of generating order execution instruction information instructing to execute a process according to the order contents based on the order information, and an instruction information generation step.
It has an instruction information transmission step of transmitting the order execution instruction information generated by the instruction information generation step to a second computer connected to the first computer via a network so as to exchange information. And
The second computer
An instruction information receiving step for receiving the order execution instruction information transmitted from the first computer, and
The voice recognition order method according to claim 5, further comprising an order execution step for executing a process according to the order content based on the order execution instruction information received in the instruction information receiving step. ..
前記オーダー実行指示情報は、前記オーダー情報の送信元である前記スマートスピーカーを特定するためのID情報を含み、
前記第二のコンピュータが、複数の前記スマートスピーカーと、各前記スマートスピーカーのそれぞれに対応付けられた端末装置であって、ユーザが操作指示可能な前記端末装置のうち、前記オーダー実行指示情報に含まれる前記ID情報により特定されたスマートスピーカーに対応づけられた前記端末装置を、制御対象端末装置として前記オーダー実行指示情報に基づいて制御する端末制御ステップを有することを特徴とする請求項6に記載の音声認識オーダー方法。
The order execution instruction information includes ID information for identifying the smart speaker that is the source of the order information.
The second computer is a plurality of smart speakers and a terminal device associated with each of the smart speakers, and is included in the order execution instruction information among the terminal devices that can be operated by the user. The sixth aspect of claim 6 is characterized in that the terminal device associated with the smart speaker specified by the ID information is controlled as a control target terminal device based on the order execution instruction information. Voice recognition ordering method.
前記第二のコンピュータが、前記制御対象端末装置の表示画面に、前記オーダー実行指示情報が示す前記オーダー内容に応じた表示を行うよう指示する旨の制御情報を、前記制御対象端末装置に送信することを特徴とする請求項7に記載の音声認識オーダー方法。

The second computer transmits control information to the control target terminal device to instruct the display screen of the control target terminal device to display according to the order content indicated by the order execution instruction information. The voice recognition ordering method according to claim 7, characterized in that.

JP2019059274A 2019-03-26 2019-03-26 Voice recognition order system and voice recognition order method Pending JP2020160781A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019059274A JP2020160781A (en) 2019-03-26 2019-03-26 Voice recognition order system and voice recognition order method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019059274A JP2020160781A (en) 2019-03-26 2019-03-26 Voice recognition order system and voice recognition order method

Publications (1)

Publication Number Publication Date
JP2020160781A true JP2020160781A (en) 2020-10-01

Family

ID=72643503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019059274A Pending JP2020160781A (en) 2019-03-26 2019-03-26 Voice recognition order system and voice recognition order method

Country Status (1)

Country Link
JP (1) JP2020160781A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023032207A1 (en) * 2021-09-06 2023-03-09 日本電気株式会社 Order assistance device, system, method, and computer-readable medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023032207A1 (en) * 2021-09-06 2023-03-09 日本電気株式会社 Order assistance device, system, method, and computer-readable medium

Similar Documents

Publication Publication Date Title
US20210021710A1 (en) Consumer electronic registration, control and support concierge device and method
US10755706B2 (en) Voice-based user interface with dynamically switchable endpoints
JP7104357B2 (en) Equipment control system
US8280009B2 (en) Consumer electronic registration, control and support concierge device and method
US6941553B2 (en) Hypertext concept notation for dynamically constructing a sentence to respond to a user request
USRE43181E1 (en) Communication between parties or stations over a network
CN105284107A (en) Device, system, and method, and computer-readable medium for providing interactive advertising
US20070226019A1 (en) Computer implemented method, apparatus, and computer usable program code for configuring language dependent features
KR102581348B1 (en) Recommending automated assistant action for inclusion in automated assistant routine
JP2017126223A (en) System, server, device, terminal, method for controlling system, method for controlling server, program for server, and program for terminal
JP6461738B2 (en) Cooperation system and device control server
JP2020160781A (en) Voice recognition order system and voice recognition order method
JP6015923B2 (en) Negotiation support device and negotiation support system
US20200243083A1 (en) Information processing device, program, and information processing method
KR101984960B1 (en) Service system for performing translation in accommodations
JP7208506B2 (en) RESERVATION MANAGEMENT SYSTEM, RESERVATION MANAGEMENT METHOD AND RESERVATION MANAGEMENT PROGRAM
JP3710950B2 (en) Information sharing apparatus and information sharing method
KR102665068B1 (en) Smart hospitality service system using artificial intelligence speaker
JP7423123B2 (en) Electronic devices and how they work
KR20190059888A (en) Language translation system for supporting communication between service provider and user
JP7351642B2 (en) Audio processing system, conference system, audio processing method, and audio processing program
JP6311061B1 (en) Information management apparatus, information management method and program
US20090036110A1 (en) Connecting apparatus, connecting method, and computer product
JP2021033949A (en) Reservation system, reservation method, and reservation program
JP2018013835A (en) Computer system for determining candidate to live together in share house or share room, and method and program executed in computer system