JP6454807B1 - Voice authentication payment system - Google Patents

Voice authentication payment system Download PDF

Info

Publication number
JP6454807B1
JP6454807B1 JP2018081031A JP2018081031A JP6454807B1 JP 6454807 B1 JP6454807 B1 JP 6454807B1 JP 2018081031 A JP2018081031 A JP 2018081031A JP 2018081031 A JP2018081031 A JP 2018081031A JP 6454807 B1 JP6454807 B1 JP 6454807B1
Authority
JP
Japan
Prior art keywords
user
voice
authentication
smart speaker
receiving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018081031A
Other languages
Japanese (ja)
Other versions
JP2019191716A (en
Inventor
麻衣子 高宮
麻衣子 高宮
理奈 大石
理奈 大石
傑 井之上
傑 井之上
哲 潮村
哲 潮村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2018081031A priority Critical patent/JP6454807B1/en
Application granted granted Critical
Publication of JP6454807B1 publication Critical patent/JP6454807B1/en
Publication of JP2019191716A publication Critical patent/JP2019191716A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

【課題】 スマートスピーカー及びそれを用いたシステムであっても、オンラインショッピングを完遂することはできないため、その機能を提供する。【解決手段】 マイクロフォンとスピーカーを少なくとも備えるスマートスピーカー10からユーザが発話することで得られる音声データを受信し、受信した音声データを用いて声紋認証を行って対象ユーザを認証し、ユーザが購入を希望する商品を特定する情報を前記スマートスピーカー10から受信し、ユーザからの決済処理依頼を前記スマートスピーカー10から受信し、対象ユーザの認証が成功している場合に、前記決済処理依頼に沿って決済処理を実行する。【選択図】 図1PROBLEM TO BE SOLVED: To provide a function of a smart speaker and a system using the same because online shopping cannot be completed. SOLUTION: Voice data obtained by a user speaking from a smart speaker 10 having at least a microphone and a speaker is received, voiceprint authentication is performed using the received voice data, the target user is authenticated, and the user purchases the voice data. When the information for specifying the desired product is received from the smart speaker 10 and the payment processing request from the user is received from the smart speaker 10 and the target user is successfully authenticated, Execute payment processing. [Selection] Figure 1

Description

本発明は、音声認証を用いて決済を行う音声認証決済システムに関する。   The present invention relates to a voice authentication settlement system that performs settlement using voice authentication.

一般的に、オンラインショッピングで決済を行う場合には、対象のECサイトへログイン(ID及びパスワード)し、商品を選択した上で、クレジットカードの番号、氏名及びセキュリティコードを入力して決済を行う。ECサイトの会員情報とクレジットカード情報が既に紐づいている場合には、再度のクレジットカード情報は不要で割愛することができる。   Generally, when making a payment through online shopping, log in to the target EC site (ID and password), select a product, and enter the credit card number, name, and security code to make the payment. . If the membership information and the credit card information on the EC site are already linked, the credit card information again is unnecessary and can be omitted.

このような一般的なオンラインショッピングに加え、購入者の個人情報を開示することなく購入処理を実行することができる決済支援装置も、特許文献1により開示されている。   In addition to such general online shopping, Patent Document 1 discloses a settlement support apparatus that can execute a purchase process without disclosing the purchaser's personal information.

特開2016−81467号JP-A-2016-81467

前記のオンラインショッピングで、購入者はデスクトップPC、ノートPC、スマートフォンといったデバイスを用いて必要なキータッチを行ってログイン、商品選択、決済等を行っている。一方、昨今、検索エンジンを使った調査、オンラインニュースの読み上げ、音楽や動画の再生といった操作をエンドユーザの音声にて受けつけて実行するスマートスピーカーが販売されている。スマートスピーカーであれば、エンドユーザは手が離せない作業を行っている場合でも、発話をすることで各種操作を行うことができる。しかしながら、現在市販されているスマートスピーカー及びそれを用いたシステムであっても、オンラインショッピングを完遂することはできない。   In the online shopping, the purchaser performs necessary key touches using devices such as a desktop PC, a notebook PC, and a smartphone to perform login, product selection, settlement, and the like. On the other hand, smart speakers are now on the market that accept and perform operations such as surveys using search engines, reading online news, and playing music and videos with the voice of end users. With a smart speaker, the end user can perform various operations by speaking even when the end user is working. However, even online smart speakers and systems using the same cannot complete online shopping.

本発明はこうした課題に鑑みてなされたものであり、その目的は、スマートスピーカーを用いてオンラインショッピングを実行する機能を提供することにある。   The present invention has been made in view of these problems, and an object thereof is to provide a function of performing online shopping using a smart speaker.

本発明に係る音声認証決済システムは、マイクロフォンとスピーカーを少なくとも備えるスマートスピーカーからユーザが発話することで得られる音声データを受信し、受信した音声データを用いて声紋認証を行って対象ユーザを認証し、ユーザが購入を希望する商品を特定する情報を前記スマートスピーカーから受信し、ユーザからの決済処理依頼を前記スマートスピーカーから受信し、対象ユーザの認証が成功している場合に、前記決済処理依頼に沿って決済処理を実行するものである。   The voice authentication settlement system according to the present invention receives voice data obtained by a user speaking from a smart speaker having at least a microphone and a speaker, and performs voiceprint authentication using the received voice data to authenticate a target user. When the user receives information specifying a product that the user desires to purchase from the smart speaker, receives a payment processing request from the user from the smart speaker, and the authentication of the target user is successful, the payment processing request The settlement process is executed along with the above.

本発明によれば、認証した上で、スマートスピーカーを介してユーザからの操作指示を受け、購入する商品を特定して決済処理を行うことができる。   According to the present invention, after authentication, an operation instruction from a user can be received through a smart speaker, and a product to be purchased can be specified and payment processing can be performed.

本発明に係る第1の実施形態に係る音声認証決済システムの構成図である。1 is a configuration diagram of a voice authentication settlement system according to a first embodiment of the present invention. 本発明に係る第1の実施形態に係るシーケンス図である。It is a sequence diagram concerning a 1st embodiment concerning the present invention. 本発明に係るその他の実施形態に係るシーケンス図である。It is a sequence diagram concerning other embodiments concerning the present invention. 本発明に係るその他の実施形態に係るシーケンス図である。It is a sequence diagram concerning other embodiments concerning the present invention. 本発明に係るその他の実施形態に係る音声認証決済システムの構成図である。It is a block diagram of the voice authentication payment system which concerns on other embodiment which concerns on this invention. 本発明に係るその他の実施形態に係る表示装置における表示例である。It is a display example in the display apparatus which concerns on other embodiment which concerns on this invention.

(第1の実施形態)
以下、各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面において説明上重要ではない部材の一部は省略して表示する。
(First embodiment)
Hereinafter, the same or equivalent components, members, and processes shown in the drawings are denoted by the same reference numerals, and repeated description is appropriately omitted. In addition, in the drawings, some of the members that are not important for explanation are omitted.

図1は本実施形態に係る音声認証決済システムの構成図である。この音声認証決済システムは、スマートスピーカー10、音声認証サーバ30、ECサーバ40及び決済サーバ50からなり、それぞれ有線又は無線にてネットワークに接続している。図1では、一例として、スマートスピーカー10は無線接続にてアクセスポイント20を介してネットワークに接続し、その他のシステム構成要素は有線にてネットワークに接続している。アクセスポイント20は、無線端末を相互に接続し、有線ネットワーク等のネットワークに接続する無線機である。なお、本実施形態では、サーバ側の構成として、音声認証サーバ30、ECサーバ40及び決済サーバ50をそれぞれ分離した構成としたが、これらは一のコンピュータ上で構成されてもよいし、それぞれのサーバを更に複数のコンピュータで構成することもできる。   FIG. 1 is a configuration diagram of a voice authentication settlement system according to the present embodiment. This voice authentication settlement system includes a smart speaker 10, a voice authentication server 30, an EC server 40, and a settlement server 50, and each is connected to a network by wire or wirelessly. In FIG. 1, as an example, the smart speaker 10 is connected to the network via the access point 20 by wireless connection, and the other system components are connected to the network by wire. The access point 20 is a wireless device that connects wireless terminals to each other and connects to a network such as a wired network. In the present embodiment, the voice authentication server 30, the EC server 40, and the payment server 50 are separated from each other as a server-side configuration. However, these may be configured on one computer. The server can also be composed of a plurality of computers.

スマートスピーカー10は、エンドユーザからの音声入力を受け、音声データに変換して他装置に出力する。図1の構成では、音声データを音声認証サーバ30又はECサーバ40に送信する。スマートスピーカー10は内部に記録する音声データ又は外部から受信した音声データを音声出力する機能も有する。スマートスピーカー10のハードウェア構成の一例としては、外部の音声を検出して電気信号に変換するマイクロフォン、音声データを音声出力するスピーカー、外部装置の通信を行う通信モジュール、視覚的にスマートスピーカーのステータスを示すLED(発光素子)、各種操作指示を行うための操作ボタン及び各モジュール及び素子を制御するCPU(制御部)からなる。スマートスピーカーは現時点でも既に様々の種類のものが販売されており、複数マイクロフォン及び複数スピーカーを有するものもあり、例えば、上面の外周部に等間隔にマイクロフォンを配設し、側面の外周部に等間隔にスピーカーを配設することで、どの方向からもエンドユーザが音声入力を行い、どの方向からも音声を聞くことができる。また、マイクロフォン又はスピーカーの種類によっては、指向性を持たせたモジュールもあり、ソフトウェア制御によってその指向性を変更することができ、エンドユーザからの音声入力を検出するとエンドユーザが居る方向に指向性を高める制御を行い、また、エンドユーザが居る方向に指向性を高めて音声出力する制御を行うこともできる。   The smart speaker 10 receives voice input from an end user, converts it into voice data, and outputs the voice data to another device. In the configuration of FIG. 1, the voice data is transmitted to the voice authentication server 30 or the EC server 40. The smart speaker 10 also has a function of outputting voice data recorded inside or voice data received from outside. Examples of the hardware configuration of the smart speaker 10 include a microphone that detects external sound and converts it into an electrical signal, a speaker that outputs sound data as sound, a communication module that performs communication with an external device, and a status of the smart speaker visually. LED (light emitting element), an operation button for performing various operation instructions, and a CPU (control unit) for controlling each module and element. Various types of smart speakers are already on the market at present, and some have multiple microphones and multiple speakers. For example, microphones are arranged on the outer periphery of the upper surface at equal intervals, and the outer periphery of the side surface, etc. By arranging the speakers at intervals, the end user can input voice from any direction and listen to the voice from any direction. Depending on the type of microphone or speaker, some modules have directivity, and the directivity can be changed by software control. When voice input from an end user is detected, the directivity is in the direction the end user is. In addition, it is possible to perform control to increase the directivity in the direction in which the end user is present and to output sound.

前記音声認証サーバ30は、受信した音声データを用いて認証を行う装置であり、受信した音声データと予め記憶している音声データとの比較を行って声紋認証するものである。図1では、スマートスピーカー10が送信した音声データをアクセスポイント20及びネットワークを介して音声認証サーバ30が受信し、声紋認証を行う。ここで使用する声紋認証技術は公知慣用技術を用いることができる。例えば、音声データをスペクトラムに変換し、周波数上の分布状況から個人認証を行う技術があり、または、エンドユーザに特定のキーワードを発話させて取得した音声データと予め保持している過去に同じキーワードを発話させて取得した音声データを比較する技術もある。複数のエンドユーザがスマートスピーカーを使用していたとしても、個人認証することでどのエンドユーザが認証されたかを特定することができ、つまり、現在の利用者を特定することができる。   The voice authentication server 30 is an apparatus that performs authentication using received voice data, and performs voiceprint authentication by comparing the received voice data with previously stored voice data. In FIG. 1, the voice authentication server 30 receives voice data transmitted from the smart speaker 10 via the access point 20 and the network, and performs voiceprint authentication. As the voiceprint authentication technique used here, a known and common technique can be used. For example, there is a technology that converts voice data into a spectrum and performs personal authentication from the distribution status on the frequency, or the same keyword in the past as voice data acquired by letting the end user speak a specific keyword There is also a technique for comparing voice data acquired by speaking. Even if a plurality of end users use the smart speaker, it is possible to specify which end user is authenticated by performing personal authentication, that is, it is possible to specify the current user.

前記ECサーバ40は、EC(electronic commerce)についてエンドユーザと対話を行い、購入商品を選別し、注文処理を行う。注文処理のうち、決済については決済サーバ50にて行う。音声認識を行ってエンドユーザと特定の分野に関して対話を行う公知慣用技術は既に存在し、それらの技術を用いてECサーバ40を実装する。意図解釈型ではエンドユーザの発話を理解し、次のアクションを実行するタスクを判定し、シナリオ対話型では予めシナリオを設定し、そのシナリオに沿って会話を行う。例えば、「お茶が欲しい」とエンドユーザが発話し、ECサーバ40がその意図を解釈し、ECサーバ40内で購入可能なお茶の中から最も売上高の高い商品を特定してその商品を「○○お茶500mlはいかがでしょうか。対象商品1個で送料込みの200円となります。」と提案し、エンドユーザが「購入する」と言えば、注文確認をした上で決済処理を決済サーバ50に依頼する動作を行う。ECサーバ40による音声出力はECサーバ40が対象の音声データをスマートスピーカー10に送信して音声出力する。本実施形態では、ECサーバ40が音声認識機能及び対話機能を有する構成としているが、音声認証サーバ30、決済サーバ50又は別装置がそれらの機能を有していても良い。注文確認では、商品名、数量及び購入金額を音声出力し、エンドユーザが了承の旨の発話をした場合には、次の決済処理依頼に移行する。なお、購入者の送付先及び決済情報(クレジット情報)は予めECサーバ40で設定されているものとする。   The EC server 40 interacts with end users about EC (electronic commerce), selects purchased products, and performs order processing. Of the order processing, settlement is performed by the settlement server 50. There are already known conventional techniques for performing speech recognition and interacting with an end user in a specific field, and the EC server 40 is implemented using these techniques. In the intention interpretation type, the user understands the utterance of the end user, determines a task to execute the next action, and in the scenario interactive type, a scenario is set in advance and a conversation is performed in accordance with the scenario. For example, the end user speaks “I want tea”, the EC server 40 interprets the intention, identifies the product with the highest sales from the teas that can be purchased in the EC server 40, and selects the product “ ○○ How about 500ml of tea? It will be 200 yen including shipping fee for one target product. "If the end user says" Purchase ", the payment processing will be done after confirming the order and confirming the payment processing. Perform the operation requested. The sound output by the EC server 40 is performed by the EC server 40 transmitting the target sound data to the smart speaker 10 and outputting the sound. In the present embodiment, the EC server 40 has a voice recognition function and a dialogue function, but the voice authentication server 30, the settlement server 50, or another device may have these functions. In order confirmation, the product name, quantity, and purchase price are output by voice, and if the end user utters approval, the process proceeds to the next settlement processing request. It is assumed that the buyer's destination and payment information (credit information) are set in advance by the EC server 40.

前記決済サーバ50は決済処理依頼を受け、決済認証を経て決済処理を実行する。決済認証は決済サーバ50が音声認証サーバ30に依頼し、音声認証サーバ30で既に対象ユーザが認証済みである場合には認証成功とし、認証が未済の場合には音声認証を行う。決済処理の実行は、クレジットカード等のオンライン決済の場合には、クレジットカード会社等の金融システムと通信して実施する。   The payment server 50 receives the payment processing request and executes the payment processing through payment authentication. The payment server 50 requests the voice authentication server 30 for the payment authentication. When the target user has already been authenticated by the voice authentication server 30, the authentication is successful, and when the authentication has not been completed, the voice authentication is performed. The payment process is executed by communicating with a financial system such as a credit card company in the case of online payment such as a credit card.

前記ECサーバ40は、決済サーバ50からの決済完了通知を受け、受注発送処理を行い、注文完了をスマートスピーカー10を介してエンドユーザに通知する。   The EC server 40 receives the payment completion notification from the payment server 50, performs order shipment processing, and notifies the end user via the smart speaker 10 of the order completion.

次に、本実施形態に係るシステムの動作について図2を用いて説明する。スマートスピーカー10はエンドユーザからのトリガとなる音声発話を受け、待機状態から起動状態になる(ステップ5)。エンドユーザはトリガ発話に続けて何らかの発話を行い、スマートスピーカー10はそれらの発話を受け音声データに変換し、音声認証サーバ30に送信する(ステップ10)。音声認証サーバ30はスマートスピーカー10からの音声データを受信し、声紋技術を用いた音声認証を行う(ステップ15)。音声認証が成功した場合には音声認証サーバ30は認証成功をECサーバ40に通知し、ECサーバ40は通知を受けてオンラインショッピングのヒアリング状態に移行する(ステップ20)。ここで、音声認証サーバ30は音声認証に使用した音声データもECサーバ40に送信する。ECサーバ40は受信した音声データ及びヒアリング状態以降にスマートスピーカー10から受信した音声データを用いてヒアリングを行う(ステップ20)。ヒアリングを経ることである商品の注文をエンドユーザからECサーバ40が受ける。ECサーバ40が注文確認の音声データをスマートスピーカー10に送信し(ステップ30)、スマートスピーカー10が受信して音声出力する(ステップ35)。エンドユーザから注文確認了承の旨の音声データをスマートスピーカー10を介して受信した場合には、ECサーバ40は注文内容に含まれる決済方法を決済サーバ50に送信して決済処理依頼を行う(ステップ40)。決済サーバ50は決済処理依頼を受け(ステップ45)、対象ユーザを特定して決済認証依頼を音声認証サーバ30に行う(ステップ50)。音声認証サーバ30は決済サーバ50からの決済認証依頼を受け、対象ユーザの決済認証を行い、ステップ15で既に音声認証済みであれば認証成功とし、音声認証が実行されていない場合等ではステップ15の音声認証を行う。ここで、音声認証に必要な音声データは、ステップ20で取得したエンドユーザの音声データを用いてもよいし、新たにエンドユーザに発話して貰って取得しても良い。決済認証が終われば認証結果が音声認証サーバ30から決済サーバ50に通知され、認証成功であれば決済サーバ50が決済処理を対象ユーザの決済情報を用いて外部の金融機関のシステムと共に実行する(ステップ60)。決済処理が完了した場合にはその通知を決済サーバ50からECサーバ40に行う(ステップ65)。ECサーバ40は決済完了通知を受け、受注発送処理を実行する(ステップ70)。ECサーバ40は受注発送処理が完了した後にエンドユーザに対して注文完了通知をスマートスピーカー10を介して行う(ステップ75)。   Next, the operation of the system according to the present embodiment will be described with reference to FIG. The smart speaker 10 receives a voice utterance as a trigger from the end user, and enters a start state from a standby state (step 5). The end user makes some utterance following the trigger utterance, and the smart speaker 10 receives the utterance, converts it into voice data, and transmits it to the voice authentication server 30 (step 10). The voice authentication server 30 receives the voice data from the smart speaker 10 and performs voice authentication using voiceprint technology (step 15). If the voice authentication is successful, the voice authentication server 30 notifies the EC server 40 of the authentication success, and the EC server 40 receives the notification and shifts to an online shopping hearing state (step 20). Here, the voice authentication server 30 also transmits the voice data used for voice authentication to the EC server 40. The EC server 40 performs hearing using the received voice data and voice data received from the smart speaker 10 after the hearing state (step 20). The EC server 40 receives an order for a product to be heard through from the end user. The EC server 40 transmits voice data for order confirmation to the smart speaker 10 (step 30), and the smart speaker 10 receives and outputs the voice (step 35). When the voice data to the effect of confirming the order confirmation is received from the end user via the smart speaker 10, the EC server 40 transmits the settlement method included in the order contents to the settlement server 50 and makes a settlement process request (step) 40). The settlement server 50 receives the settlement processing request (step 45), specifies the target user, and makes a settlement authentication request to the voice authentication server 30 (step 50). The voice authentication server 30 receives the payment authentication request from the payment server 50 and performs the payment authentication of the target user. If the voice authentication has already been completed in step 15, the authentication is successful. If the voice authentication is not executed, step 15 is executed. Perform voice authentication. Here, as the voice data necessary for voice authentication, the voice data of the end user acquired in step 20 may be used, or may be acquired by newly speaking to the end user. When the payment authentication is completed, the authentication result is notified from the voice authentication server 30 to the payment server 50. If the authentication is successful, the payment server 50 executes the payment process together with the system of the external financial institution using the payment information of the target user ( Step 60). When the payment processing is completed, the notification is sent from the payment server 50 to the EC server 40 (step 65). The EC server 40 receives the payment completion notification and executes order shipment processing (step 70). The EC server 40 sends an order completion notice to the end user via the smart speaker 10 after the order dispatch process is completed (step 75).

(その他の実施形態)
前記第1の実施形態においては、ステップ15で音声認証を行った後は基本的に音声認証を実施しなかったが、図3に示す通り、ステップ15以降もステップ55の決済認証が完了するまでには定期的又は発話毎にスマートスピーカー10から音声認証サーバ30が音声データを受信して適時に音声認証を行ってもよく、ステップ15以降に認証対象のエンドユーザが居なくなった場合に居なくなった後の音声認証が失敗するために適切な認証状態を維持することができ、例えば、決済認証に失敗するために認証対象のエンドユーザ以外の者が注文依頼をすることができなくなる。
(Other embodiments)
In the first embodiment, the voice authentication is basically not performed after the voice authentication is performed in step 15. However, as shown in FIG. The voice authentication server 30 may receive voice data from the smart speaker 10 periodically or for each utterance, and may perform voice authentication in a timely manner. After the voice authentication fails, an appropriate authentication state can be maintained. For example, since the payment authentication fails, a person other than the end user to be authenticated cannot make an order request.

前記第1の実施形態においては、図4に示す通り、ステップ11で受信した音声データの音声分離を行い、音声分離を行った上で時系列的に一番早く発話したエンドユーザの分離済み音声データを用いてステップ15の音声認証を行い、音声認証が成功した場合にECサーバ40をヒアリング待機状態に移行し(ステップ20)、その後、音声認証が完了したエンドユーザとのヒアリングを行い、ステップ75の注文完了まで終わると、最初のエンドユーザの次に発話したエンドユーザの分離した音声データを用いて音声認証を行って同様に注文処理まで行い、以降、同様にその次のエンドユーザの処理を実行する構成とすることもできる。これにより、複数のエンドユーザがスマートスピーカー10の周りにいた場合でも、別々に注文を聞くことができる。ここで、音声認証してヒアリング中のエンドユーザが他のユーザからの発注もまとめて受けることを希望する旨の発話をした場合には、ECサーバ40がその意図を理解し、各ユーザからの注文をまとめて受けつけ、音声認証済みのヒアリング中のエンドユーザの決済情報を用いて決済する構成であっても良い。あるエンドユーザが他のエンドユーザに奢ることもでき、又は、一旦あるエンドユーザがまとめて支払って他のエンドユーザから別途回収することもできる。   In the first embodiment, as shown in FIG. 4, the voice data received in step 11 is voice-separated, and after voice separation, the end-user separated voice uttered earliest in time series The voice authentication of step 15 is performed using the data, and when the voice authentication is successful, the EC server 40 is shifted to the hearing standby state (step 20), and thereafter, the hearing with the end user who has completed the voice authentication is performed, When 75 orders are completed, voice authentication is performed using the voice data separated from the end user uttered next to the first end user, and the order processing is performed in the same manner. It can also be set as the structure which performs. Thereby, even when a plurality of end users are around the smart speaker 10, the orders can be heard separately. Here, when the end user, who is listening through voice authentication and wishes to receive orders from other users at the same time, the EC server 40 understands the intention, A configuration may be adopted in which orders are received together and settlement is performed using the settlement information of the end user during the hearing-verified hearing. One end user can meet another end user, or once an end user can pay together and collect it separately from another end user.

前記第1の実施形態のシステム構成に加え、図5の示す通り、表示装置11を加える構成であってもよく、その表示装置11もアクセスポイント20を介してネットワークと接続し、ECサーバ40又はスマートスピーカー10からの指示を受け、その指示で示されたURLを表示する構成でも良い。これにより、スマートスピーカー10が商品提案を音声で行うと共に、表示装置11に図6のように商品情報を表示することもできる。表示装置11がタッチパネル型ディスプレイでエンドユーザがタッチ操作で表示制御を行ってもよいが、エンドユーザはスマートスピーカー10を用いて制御することもできる。ここで、表示情報中のオブジェクト中でユーザが制御対象可能なもので、表示ラベルが付与されていないもの、例えば、右上の詳細ボタンを声のみで操作するのは難しい場合もあるので、オブジェクトに対して<1>ないし<6>などの制御用のラベルを付与することで音声による制御が可能となる。ECサーバに連動するWebサーバは、通常のWebページを保持してスマートスピーカー10を介する表示制御の場合にのみ制御用ラベルを付与する制御を行う。表示装置11にウェブブラウザ機能が搭載されており、スマートスピーカーから制御で指定されたURLにアクセスしてこれらの表示が可能になるが、Webサーバがスマートスピーカーからのアクセスであることを識別するためにURLのパラメータ領域にスマートスピーカーに関連するアクセスであることを示す変数を付与してもよい。表示装置11はディスプレイを含むコンピュータからなる構成であり、そのコンピュータ上にオペレーティングシステムが導入されており、ブラウザの機能も有している。そのため、表示装置11は指定されたURLのページをユーザに対して表示することができる。スマートスピーカー10による表示装置11の制御を可能とするために、表示装置11上にスマートスピーカー制御用モジュールを導入する必要がある。このスマートスピーカー制御用モジュールは表示装置11のオペレーティングシステムに導入されるソフトウェアであってもよいし、ブラウザ機能のアドインとして導入されるソフトウェアであってもよい。このスマートスピーカー制御用モジュールがオペレーティングシステムに照会し、ブラウザ機能で表示されているオブジェクトのうちユーザが制御可能なオブジェクトを特定し、特定したオブジェクトに対して制御用ラベルを付与する。このオペレーティングシステムの照会時に各オブジェクトに対してどのような制御が可能であるかも情報取得する。例えば、リンクオブジェクト、ボタンオブジェクトに対してクリック操作が可能であり、そのクリック操作によってリンクオブジェクトであれば対象のURLへジャンプし、ボタンオブジェクトはそのボタンオブジェクトのクリックイベントに対して紐づけられている動作が実行される。従って、図6の画面が表示されている際に、ユーザがスマートスピーカー10に対して「<1>をクリック」と音声制御することで、ECサーバ40を介して表示装置11のスマートスピーカー制御用モジュールに対してその制御が到達して<1>のクリックが実行され、商品ID00001の詳細画面が表示されることになる。   In addition to the system configuration of the first embodiment, as shown in FIG. 5, the display device 11 may be added. The display device 11 is also connected to the network via the access point 20, and the EC server 40 or It may be configured to receive an instruction from the smart speaker 10 and display a URL indicated by the instruction. Thereby, the smart speaker 10 can make a product proposal by voice, and can also display product information on the display device 11 as shown in FIG. Although the display device 11 may be a touch panel display and the end user may perform display control by a touch operation, the end user can also control using the smart speaker 10. Here, the objects that can be controlled by the user among the objects in the display information that are not given a display label, for example, it may be difficult to operate the detail button in the upper right with only the voice. On the other hand, a control label such as <1> to <6> is assigned to enable control by voice. The web server linked to the EC server performs control to hold a normal web page and give a control label only in the case of display control via the smart speaker 10. The display device 11 has a web browser function, and the URL specified by the control from the smart speaker can be accessed to display them. In order to identify that the Web server is an access from the smart speaker. A variable indicating that access is related to the smart speaker may be added to the parameter area of the URL. The display device 11 is composed of a computer including a display. An operating system is installed on the computer 11 and also has a browser function. Therefore, the display device 11 can display the page of the designated URL to the user. In order to enable the smart speaker 10 to control the display device 11, it is necessary to introduce a smart speaker control module on the display device 11. The smart speaker control module may be software installed in the operating system of the display device 11 or software installed as an add-in for the browser function. The smart speaker control module inquires of the operating system, identifies an object that can be controlled by the user among objects displayed by the browser function, and assigns a control label to the identified object. Information on what kind of control is possible for each object at the time of inquiry of the operating system is also acquired. For example, a click operation can be performed on a link object or a button object. If the link object is a link object, the URL jumps to the target URL, and the button object is linked to the click event of the button object. The action is executed. Therefore, when the screen of FIG. 6 is displayed, the user performs voice control of “click <1>” on the smart speaker 10, thereby controlling the smart speaker of the display device 11 via the EC server 40. The control reaches the module, and <1> is clicked, and the detailed screen of the product ID 00001 is displayed.

本発明は、エンドユーザが発話した音声内容にて認証して決済する音声認証決済システムに好適に利用可能である。   INDUSTRIAL APPLICABILITY The present invention can be suitably used for a voice authentication settlement system that authenticates and makes a settlement using voice content spoken by an end user.

スマートスピーカー 10
表示装置 11
アクセスポイント 20
音声認証サーバ 30
ECサーバ 40
決済サーバ 50

Smart speaker 10
Display device 11
Access point 20
Voice authentication server 30
EC server 40
Payment server 50

Claims (6)

マイクロフォンとスピーカーを少なくとも備えるスマートスピーカーからユーザが発話することで得られる音声データを受信する音声データ受信ステップと、
受信した音声データを音声分離し、音声分離した音声データのうち時系列で最初に発話したユーザの音声データを用いて声紋認証を行って対象ユーザを認証する認証ステップと、
ユーザが購入を希望する商品を特定する情報を前記スマートスピーカーから受信する商品情報受信ステップと、
ユーザからの決済処理依頼を前記スマートスピーカーから受信する決済処理依頼受信ステップと、
対象ユーザの認証が成功している場合に、前記決済処理依頼に沿って決済処理を実行する決済処理ステップとを1又は複数のコンピュータが実行する音声認証決済方法であって、
前記認証ステップは、最初に発話したユーザからの決済処理依頼を決済処理した後に最初に発話したユーザの次に発話したユーザの前記音声分離した音声データを用いて音声認証し、当該次に発話したユーザに対して前記商品情報受信ステップ、決済処理依頼受信ステップ及び決済処理ステップを実行する音声認証決済方法
A voice data receiving step of receiving voice data obtained by a user speaking from a smart speaker having at least a microphone and a speaker;
An authentication step of voice-separating the received voice data and authenticating the target user by performing voiceprint authentication using the voice data of the user who spoke first in time series among the voice-separated voice data ;
A product information receiving step for receiving from the smart speaker information identifying a product that the user wishes to purchase;
A payment processing request reception step for receiving a payment processing request from a user from the smart speaker;
A voice authentication settlement method in which one or a plurality of computers execute a settlement process step of executing a settlement process in accordance with the settlement process request when authentication of the target user is successful ,
The authentication step performs voice authentication using the voice-separated voice data of the user who spoke next to the user who spoke first after the settlement processing request from the user who spoke first, and then spoke A voice authentication settlement method for executing a product information reception step, a settlement processing request reception step, and a settlement processing step for a user .
前記対象ユーザを認証するステップで認証成功した場合に、初回の認証に使用した音声データを受信した以降の追加の音声データをスマートスピーカーから受信し、当該追加の音声データを用いて追加で認証するステップを更に含む前記請求項1に記載の音声認証決済方法。   When authentication is successful in the step of authenticating the target user, additional audio data after receiving the audio data used for the first authentication is received from the smart speaker, and additionally authenticated using the additional audio data The voice authentication settlement method according to claim 1, further comprising a step. 前記追加で認証するステップは定期的に実行する前記請求項2に記載の音声認証決済方法。   The voice authentication settlement method according to claim 2, wherein the additional authentication step is executed periodically. 前記認証ステップで認証された対象ユーザが他のユーザからの発注もまとめて受けることを希望する旨の音声データを受信して意図を理解し、各ユーザからの注文をまとめて受けつけるステップを更に含み、The method further includes the step of receiving the voice data indicating that the target user authenticated in the authentication step desires to receive orders from other users collectively, understanding the intention, and receiving the orders from each user collectively. ,
前記決済処理ステップで認証された対象ユーザについてまとめて受けつけた注文を決済処理する前記請求項1に記載の音声認証決済方法。The voice authentication settlement method according to claim 1, wherein the order received collectively for the target users authenticated in the settlement processing step is settled.
ユーザからの要請を受けてスマートスピーカーから表示制御を受けて外部の装置から受信する表示情報を表示する表示装置に対し、当該表示する表示情報のうちユーザが操作指示可能なオブジェクトであるリンクオブジェクト又はボタンオブジェクトに対してユーザが可視できる制御用ラベルを付与して表示情報を表示するように制御するステップを更に含む前記請求項1に記載の音声認証決済方法。 To the display device for displaying the display information received from the external device receives the display control from the smart speaker receives a request from the user, or linked object user is an object operable instructions of the display information to be the display The voice authentication settlement method according to claim 1, further comprising a step of controlling the button object so as to display the display information by providing a control label visible to the user. マイクロフォンとスピーカーを少なくとも備えるスマートスピーカーからユーザが発話することで得られる音声データを受信する音声データ受信手段と、
受信した音声データを音声分離し、音声分離した音声データのうち時系列で最初に発話したユーザの音声データを用いて声紋認証を行って対象ユーザを認証する認証手段と、
ユーザが購入を希望する商品を特定する情報を前記スマートスピーカーから受信する商品情報受信手段と、
ユーザからの決済処理依頼を前記スマートスピーカーから受信する決済処理依頼受信手段と、
対象ユーザの認証が成功している場合に、前記決済処理依頼に沿って決済処理を実行する決済処理手段とを備え、前記認証手段は、最初に発話したユーザからの決済処理依頼を決済処理した後に最初に発話したユーザの次に発話したユーザの前記音声分離した音声データを用いて音声認証し、当該次に発話したユーザに対して前記商品情報受信手段、決済処理依頼受信手段及び決済処理手段を実行する音声認証決済システム。
Audio data receiving means for receiving audio data obtained by a user speaking from a smart speaker having at least a microphone and a speaker;
Authentication means for voice-separating the received voice data, authenticating the target user by performing voiceprint authentication using the voice data of the user who spoke first in time series among the voice-separated voice data ;
Product information receiving means for receiving information identifying the product that the user wishes to purchase from the smart speaker;
Payment processing request receiving means for receiving a payment processing request from a user from the smart speaker;
A payment processing means for executing payment processing in accordance with the payment processing request when the target user has been successfully authenticated , and the authentication means has processed the payment processing request from the user who spoke first Voice authentication is performed using the voice-separated voice data of the user who has spoken next after the user who has spoken first, and the product information receiving means, payment processing request receiving means, and payment processing means for the user who spoke next voice authentication settlement system to run the.
JP2018081031A 2018-04-20 2018-04-20 Voice authentication payment system Active JP6454807B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018081031A JP6454807B1 (en) 2018-04-20 2018-04-20 Voice authentication payment system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018081031A JP6454807B1 (en) 2018-04-20 2018-04-20 Voice authentication payment system

Publications (2)

Publication Number Publication Date
JP6454807B1 true JP6454807B1 (en) 2019-01-16
JP2019191716A JP2019191716A (en) 2019-10-31

Family

ID=65020388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018081031A Active JP6454807B1 (en) 2018-04-20 2018-04-20 Voice authentication payment system

Country Status (1)

Country Link
JP (1) JP6454807B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020190463A1 (en) * 2019-03-18 2020-09-24 Amazon Technologies, Inc. Secure data submission via audio transmission
CN113095902A (en) * 2021-03-11 2021-07-09 北京联创新天科技有限公司 Electronic commerce order management system

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7505567B2 (en) 2020-09-14 2024-06-25 日本電気株式会社 Aggregation device, aggregation system, aggregation method, and program

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021305A (en) * 1996-07-01 1998-01-23 Hitachi Maxell Ltd Electronic commodity transaction system
WO2001009808A1 (en) * 1999-08-02 2001-02-08 E-Mark Systems Inc. Electronic settlement system, and settlement device and terminal
JP2001306989A (en) * 2000-04-25 2001-11-02 Nec Corp On-line shopping system
JP2011237966A (en) * 2010-05-10 2011-11-24 Seiko Epson Corp Customer service support device, customer service support method and program
JP2014052940A (en) * 2012-09-10 2014-03-20 Hitachi Kokusai Electric Inc Commodity sales support system
JP2014229278A (en) * 2013-05-27 2014-12-08 株式会社東芝 Electronic apparatus, method, and program
JP2015079152A (en) * 2013-10-17 2015-04-23 富士通株式会社 Voice authentication device, voice authentication method, and voice authentication program
JP2015109040A (en) * 2013-12-05 2015-06-11 富士通テレコムネットワークス株式会社 Emergency call device and emergency call system
US20180047394A1 (en) * 2016-08-12 2018-02-15 Paypal, Inc. Location based voice association system

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021305A (en) * 1996-07-01 1998-01-23 Hitachi Maxell Ltd Electronic commodity transaction system
WO2001009808A1 (en) * 1999-08-02 2001-02-08 E-Mark Systems Inc. Electronic settlement system, and settlement device and terminal
JP2001306989A (en) * 2000-04-25 2001-11-02 Nec Corp On-line shopping system
JP2011237966A (en) * 2010-05-10 2011-11-24 Seiko Epson Corp Customer service support device, customer service support method and program
JP2014052940A (en) * 2012-09-10 2014-03-20 Hitachi Kokusai Electric Inc Commodity sales support system
JP2014229278A (en) * 2013-05-27 2014-12-08 株式会社東芝 Electronic apparatus, method, and program
JP2015079152A (en) * 2013-10-17 2015-04-23 富士通株式会社 Voice authentication device, voice authentication method, and voice authentication program
JP2015109040A (en) * 2013-12-05 2015-06-11 富士通テレコムネットワークス株式会社 Emergency call device and emergency call system
US20180047394A1 (en) * 2016-08-12 2018-02-15 Paypal, Inc. Location based voice association system

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"音声アシスタント、無人コンビニ、注文ボタン…。買い物大革命が起こる! 進撃中!アマゾンの歩き方 The", 日経トレンディ, vol. 第416号, JPN6018034358, 4 April 2017 (2017-04-04), pages 第92-93頁 *
大庭 隆伸: "ドコモAIエージェント・オープンパートナーイニシアティブ:多目的対話プラットフォームの開発", 情報処理学会 研究報告 音声言語情報処理(SLP) 2017−SLP−118 [ONLINE], JPN6018034361, 6 October 2017 (2017-10-06), pages 第1-4頁 *
安蔵 靖志: "AI スマートスピーカー VR/AR/MR ロボット パソコンとITで変わる近未来", 日経パソコン, vol. 第785号, JPN6018034363, 8 January 2018 (2018-01-08), pages 第32-37頁 *
山口 真吾: "ideathon AI next 5", NEW MEDIA, vol. 第35巻,第12号, JPN6018034366, 1 December 2017 (2017-12-01), pages 第66-68頁 *
岡部 稜: "スマートデバイスを用いたコンテキストアウェアネスに基づくマルチファクタ認証システム", 電子情報通信学会技術研究報告, vol. 第115巻,第517号, JPN6018034369, 17 March 2016 (2016-03-17), JP, pages 第37-42頁 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020190463A1 (en) * 2019-03-18 2020-09-24 Amazon Technologies, Inc. Secure data submission via audio transmission
US11120423B2 (en) 2019-03-18 2021-09-14 Amazon Technologies, Inc. Secure data submission via audio transmission
CN113095902A (en) * 2021-03-11 2021-07-09 北京联创新天科技有限公司 Electronic commerce order management system

Also Published As

Publication number Publication date
JP2019191716A (en) 2019-10-31

Similar Documents

Publication Publication Date Title
JP6812392B2 (en) Information output method, information output device, terminal device and computer-readable storage medium
US10535071B2 (en) Using semantic processing for customer support
TWI394090B (en) Voice commerce method, apparatus for prompting a caller to select a voice commerce system, voice commerce system and constructing method thereof
JP6454807B1 (en) Voice authentication payment system
US20150186892A1 (en) Methods and systems for verifying a transaction
EP3482359A1 (en) Using semantic processing for customer support
US10956907B2 (en) Authorization of transactions based on automated validation of customer speech
CN107844586A (en) News recommends method and apparatus
WO2015096638A1 (en) Method and system for controlling message dissemination from public accounts to user accounts
US20150089607A1 (en) Method and apparatus for providing user authentication and identification based on a one-time password
CN105359178A (en) Systems and methods for implementing instant payments on mobile devices
JP2014507030A (en) Audio-based application architecture
WO2020134654A1 (en) Electronic payment method, apparatus and system and storage medium
CN109087639A (en) Method for voice recognition, device, electronic equipment and computer-readable medium
US20210012401A1 (en) Authenticating voice transactions with payment card
CN110992125A (en) Shopping method, device and system
US9286462B2 (en) Apparatus and method for automatic login
US11651059B2 (en) User account matching based on a natural language utterance
CN112446753A (en) Data processing method, device, equipment and machine readable medium
US11593067B1 (en) Voice interaction scripts
US11431426B2 (en) Mobile service requests to any sound emitting device
US11328280B1 (en) Biometric authentication system
US20160321637A1 (en) Point of sale payment using mobile device and checkout credentials
CN107767856B (en) Voice processing method and device and server
CN111695985A (en) System and method for processing voluntary deposit service of accumulation fund

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180420

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180420

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181217

R150 Certificate of patent or registration of utility model

Ref document number: 6454807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250