JP2021039255A - Authentication method, authentication system, device, and program - Google Patents

Authentication method, authentication system, device, and program Download PDF

Info

Publication number
JP2021039255A
JP2021039255A JP2019161003A JP2019161003A JP2021039255A JP 2021039255 A JP2021039255 A JP 2021039255A JP 2019161003 A JP2019161003 A JP 2019161003A JP 2019161003 A JP2019161003 A JP 2019161003A JP 2021039255 A JP2021039255 A JP 2021039255A
Authority
JP
Japan
Prior art keywords
voice
voice information
character string
user
authentication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019161003A
Other languages
Japanese (ja)
Inventor
一成 渡部
Kazunari Watabe
一成 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hakushito Rock Co Ltd
Original Assignee
Hakushito Rock Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hakushito Rock Co Ltd filed Critical Hakushito Rock Co Ltd
Priority to JP2019161003A priority Critical patent/JP2021039255A/en
Publication of JP2021039255A publication Critical patent/JP2021039255A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

To provide an authentication method, an authentication system, a device, and a program that enable even a blind user or a user whose hands are busy with driving, cooking, parenting, delivery etc., to perform authentication.SOLUTION: An authentication method includes authenticating whether an object user is a specific user who is already registered. The authentication method comprises a first step and a second step. In the first step, voice in a predetermined character string is output from a speaker 23. After the first step, in the second step, the voice that the object user utters is received by a microphone 21 to acquire voice information, and it is determined from the voice information whether the object user is a specific user. In the second step, at least two determinations are made. The first determination is to determine that a character string recognized from the voice information matches the predetermined character string. The second determination is to determine that a feature quantity recognized from the voice information matches a feature quantity of voice information previously registered as a voice of the specific user.SELECTED DRAWING: Figure 4

Description

本発明は、認証方法、認証システム、デバイス及びプログラムに関する。 The present invention relates to authentication methods, authentication systems, devices and programs.

特許文献1には、従来の認証方法が開示されている。特許文献1に記載の認証方法は、声紋を使用したログイン方法である。特許文献1に記載のログイン方法は、ユーザからログイン要求があると、ログイン文字列を生成した上で、ログイン文字列の少なくとも一つの文字を置換し、この置換した文字列を表示する。 Patent Document 1 discloses a conventional authentication method. The authentication method described in Patent Document 1 is a login method using a voiceprint. The login method described in Patent Document 1 generates a login character string when a user requests a login, replaces at least one character of the login character string, and displays the replaced character string.

ユーザは、表示された文字列を確認した後、置換前のログイン文字列を読む。特許文献1に記載のログイン方法では、文字列を読んだユーザの声紋を取得し、ログイン文字列が正しいか否かを判定するのに加え、音声に基づいて声紋認証も実行する。 After checking the displayed character string, the user reads the login character string before replacement. In the login method described in Patent Document 1, in addition to acquiring the voiceprint of the user who has read the character string and determining whether or not the login character string is correct, voiceprint authentication is also executed based on the voice.

特表2017−530387号公報Special Table 2017-530387

しかしながら、特許文献1記載のログイン方法では、ログイン文字列を表示するため、視力が弱い高齢者や盲目な人などの目が不自由な人はログインすることができないという問題がある。また、運転中、料理中、子育て中、荷物配達中など、ユーザの手がふさがっている状態では、文字列を目視することが困難な状況であり、ログインできない問題がある。 However, since the login method described in Patent Document 1 displays a login character string, there is a problem that visually impaired people such as elderly people with weak eyesight and blind people cannot log in. Further, when the user's hand is occupied, such as while driving, cooking, raising a child, or delivering a package, it is difficult to visually check the character string, and there is a problem that the user cannot log in.

本発明は、上記事情に鑑みてなされ、目が不自由な人や、運転中、料理中、子育て中、荷物配達中など、手がふさがっている状態にあるユーザでも認証することが可能な認証方法、認証システム、デバイス及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and it is possible to authenticate even a visually impaired person or a user who is in a state where his / her hand is occupied, such as while driving, cooking, raising a child, or delivering a package. It is intended to provide methods, authentication systems, devices and programs.

本発明の一態様に係る認証方法は、対象ユーザが予め登録されている特定ユーザであるか否かを認証するための認証方法である。認証方法は、第一ステップと、第二ステップとを備える。第一ステップは、スピーカから所定の文字列の音声を出力させる。第二ステップは、前記第一ステップの後、前記対象ユーザが発した音声をマイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが前記特定ユーザであるか否かを判定する。前記第二ステップでは、少なくとも二つの判定を実行する。一つめの判定は、前記音声情報から認識された文字列が、前記所定の文字列に適合することを判定する。二つ目の判定は、前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することを判定する。 The authentication method according to one aspect of the present invention is an authentication method for authenticating whether or not the target user is a pre-registered specific user. The authentication method includes a first step and a second step. The first step is to output the sound of a predetermined character string from the speaker. In the second step, after the first step, the voice emitted by the target user is received by the microphone to acquire voice information, and it is determined from the voice information whether or not the target user is the specific user. .. In the second step, at least two determinations are performed. The first determination is to determine that the character string recognized from the voice information conforms to the predetermined character string. The second determination is based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, and the feature of the voice emitted by the target user is the target. Determine if it matches the characteristics of the user's voice.

本発明の一態様に係る認証システムは、スピーカと、マイクと、制御部と、を備える。前記制御部は、前記スピーカから所定の文字列の音声を出力させる。前記制御部は、その後、対象ユーザが発した音声を前記マイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが、予め登録されている特定ユーザであるか否かを判定する。前記判定は、前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、を実行する。 The authentication system according to one aspect of the present invention includes a speaker, a microphone, and a control unit. The control unit outputs a voice of a predetermined character string from the speaker. The control unit then receives the voice emitted by the target user by the microphone to acquire voice information, and determines whether or not the target user is a pre-registered specific user from the voice information. .. The determination is that the character string recognized from the voice information conforms to the predetermined character string, the feature amount recognized from the voice information, and the voice of the specific user are registered in advance. Based on the feature amount of the voice information, it is determined that the feature of the voice emitted by the target user matches the feature of the voice of the target user.

本発明の一態様に係るデバイスは、スピーカと、マイクと、制御部と、を備える。前記制御部は、前記スピーカから所定の文字列の音声を出力させる。前記制御部は、その後、対象ユーザが発した音声を前記マイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが、予め登録されている特定ユーザであるか否かを判定する。前記判定は、前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、を実行する。 A device according to one aspect of the present invention includes a speaker, a microphone, and a control unit. The control unit outputs a voice of a predetermined character string from the speaker. The control unit then receives the voice emitted by the target user by the microphone to acquire voice information, and determines whether or not the target user is a pre-registered specific user from the voice information. .. The determination is that the character string recognized from the voice information conforms to the predetermined character string, the feature amount recognized from the voice information, and the voice of the specific user are registered in advance. Based on the feature amount of the voice information, it is determined that the feature of the voice emitted by the target user matches the feature of the voice of the target user.

本発明の一態様に係るプログラムは、上記認証方法をコンピュータに実行させるためのプログラムである。 The program according to one aspect of the present invention is a program for causing a computer to execute the above authentication method.

本発明の上記態様に係る認証方法、認証システム、デバイス及びプログラムは、目が不自由な人でもでも認証することができる、という利点がある。また、本発明の上記態様に係る認証方法、認証システム、デバイス及びプログラムは、運転中、料理中、子育て中、荷物配達中など、ユーザの手がふさがっている状態であっても、手で何かを操作入力することや、画面上に何かを表示させることなく、自然な会話の中でユーザ認証することができる。また、 本発明の上記態様に係る認証方法、認証システム、デバイス及びプログラムは、第二ステップにより、ユーザの1回の発声により、次の2種類の判定により認証を行うことができ、ユーザ認証の際に、ユーザが煩わしい思いをすることない。 The authentication method, authentication system, device and program according to the above aspect of the present invention have an advantage that even a visually impaired person can authenticate. In addition, the authentication method, authentication system, device, and program according to the above aspect of the present invention can be used by hand even when the user's hand is occupied, such as while driving, cooking, raising a child, or delivering a package. It is possible to authenticate the user in a natural conversation without inputting the operation or displaying something on the screen. In addition, the authentication method, authentication system, device, and program according to the above aspect of the present invention can be authenticated by the following two types of determinations by one utterance of the user by the second step, and can be used for user authentication. At that time, the user does not have to worry about it.

図1は、本発明の一実施形態に係る認証システムの概略図である。FIG. 1 is a schematic view of an authentication system according to an embodiment of the present invention. 図2は、同上のデバイスのハードウェア構成のブロック図である。FIG. 2 is a block diagram of the hardware configuration of the same device. 図3は、同上のサーバのハードウェア構成のブロック図である。FIG. 3 is a block diagram of the hardware configuration of the same server. 図4は、同上の認証システムの機能構成のブロック図である。FIG. 4 is a block diagram of the functional configuration of the authentication system of the same. 図5は、同上の認証システムのシーケンス図である。FIG. 5 is a sequence diagram of the same authentication system. 図6は、同上の認証システムのフローチャートである。FIG. 6 is a flowchart of the same authentication system. 図7は、変形例のデバイスのブロック図である。FIG. 7 is a block diagram of a modified example device.

(1)実施形態1
(1.1)概要
本実施形態に係る認証方法は、例えば、スマートスピーカ等のデバイス2において、デバイス2を使用しようとしている者(以下、「対象ユーザ」又は単に「ユーザ」という。)が、予め登録されている者(以下、「特定ユーザ」という。)であるか否かを、音声で認証する方法である。
(1) Embodiment 1
(1.1) Overview In the authentication method according to the present embodiment, for example, in a device 2 such as a smart speaker, a person who intends to use the device 2 (hereinafter, referred to as a “target user” or simply a “user”) This is a method of voice authentication of whether or not a person is a registered person (hereinafter referred to as a "specific user").

デバイス2は、スマートスピーカに限らず、パーソナルコンピュータ,スマートフォン,タブレット端末、ウェアラブル端末(時計型、メガネ型、コンタクトレンズ型、衣類型、靴型、指輪型、ブレスレット型、ネックレス型、イヤリング型など)等の情報端末や、家電機器(例:冷蔵庫、洗濯機、ガスコンロ、エアコン、テレビ、炊飯器、電子レンジなど)、玄関の扉等の施錠装置(例:スマートフォンやカードキーなどで操作できるスマートロック)、自動車等の乗り物(車両など)の認証装置(例:カーナビの認証、音声操作を行う場合の認証、施錠や始動時の認証など)、ロボット、電気機器等が挙げられる。また、これらのデバイスは、ユーザとスマートスピーカとが自然な会話の中で、音声によるデバイス操作(一のデバイスが他のデバイスを操作することも含む)を行うことができるものである。例えば、デバイス2の使用を開始するときに、本実施形態に係る認証方法を実行可能な認証システム1が、対象ユーザが特定ユーザであることを認証すると、デバイス2の使用を許可する。 Device 2 is not limited to smart speakers, but personal computers, smartphones, tablet terminals, wearable terminals (watch type, glasses type, contact lens type, clothing type, shoe type, ring type, bracelet type, necklace type, earring type, etc.) Information terminals such as, home appliances (eg refrigerators, washing machines, gas stoves, air conditioners, TVs, rice cookers, microwave ovens, etc.), lock devices such as entrance doors (eg smart locks that can be operated with smartphones, card keys, etc.) ), Authentication devices for vehicles such as automobiles (vehicles, etc.) (eg, car navigation authentication, authentication for voice operation, authentication at the time of locking and starting, etc.), robots, electrical equipment, etc. In addition, these devices allow the user and the smart speaker to perform device operations by voice (including one device operating another device) in a natural conversation. For example, when the device 2 is started to be used, if the authentication system 1 capable of executing the authentication method according to the present embodiment authenticates that the target user is a specific user, the device 2 is permitted to be used.

本実施形態に係る認証方法は、図5に示すように、第一ステップと、第一ステップの後に行われる第二ステップとを備える。第一ステップは、スピーカ23から所定の文字列の音声を出力させる。第二ステップは、対象ユーザが発した音声をマイク21により受信して音声情報を取得し、当該音声情報から対象ユーザが特定ユーザであるか否かを判定する。 As shown in FIG. 5, the authentication method according to the present embodiment includes a first step and a second step performed after the first step. The first step is to output the sound of a predetermined character string from the speaker 23. In the second step, the voice emitted by the target user is received by the microphone 21 to acquire voice information, and it is determined from the voice information whether or not the target user is a specific user.

本実施形態に係る第二ステップでは、少なくとも二つの判定が実行される。二つの判定のうちの一つ目は、受信した音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つ目は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザの音声の特徴が特定ユーザの音声の特徴に適合することを判定する。なお、これらが実行される順番は特に問わない。 In the second step according to this embodiment, at least two determinations are performed. The first of the two determinations is to determine that the character string recognized from the received voice information conforms to a predetermined character string. The second is that the characteristics of the voice of the target user match the characteristics of the voice of the specific user based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user. Judge that. The order in which these are executed does not matter.

これらの判定を実行し、全てが適合することで、対象ユーザが特定ユーザであるとみなされる。したがって、本実施形態に係る認証方法によれば、音声のみで登録されたユーザであることの認証を行うことができる。 When these judgments are executed and all of them match, the target user is considered to be a specific user. Therefore, according to the authentication method according to the present embodiment, it is possible to authenticate that the user is a registered user only by voice.

これらの具体的な態様は、システム、デバイス、集積回路、コンピュータプログラム、コンピュータで読み取り可能なCD-ROM等の記録媒体等で実現されてもよい。また、これらの態様は、システム、デバイス、集積回路、コンピュータプログラム、記録媒体等の組み合わせで実現されてもよい。 These specific embodiments may be realized by a system, a device, an integrated circuit, a computer program, a recording medium such as a computer-readable CD-ROM, or the like. Further, these aspects may be realized by a combination of a system, a device, an integrated circuit, a computer program, a recording medium, and the like.

(1.2)詳細
以下、本実施形態に係る認証方法を実行する認証システム1に基づいて詳細に説明する。
(1.2) Details Hereinafter, the details will be described based on the authentication system 1 that executes the authentication method according to the present embodiment.

本実施形態に係る認証システム1は、例えば、対象ユーザがデバイス2を使用するとき、又は対象ユーザがデバイス2を使用しているときに、対象ユーザが特定ユーザであるか否かを認証するシステムである。本実施形態では、認証システム1は、図1に示すように、デバイス2と、サーバ4とで実現されている。デバイス2及びサーバ4は、通信ネットワーク8を介して双方向に通信可能に接続されている。 The authentication system 1 according to the present embodiment is, for example, a system that authenticates whether or not the target user is a specific user when the target user uses the device 2 or when the target user is using the device 2. Is. In this embodiment, the authentication system 1 is realized by the device 2 and the server 4, as shown in FIG. The device 2 and the server 4 are bidirectionally connected to each other via the communication network 8.

(1.2.1)通信ネットワーク
通信ネットワーク8は、デバイス2とサーバ4とが互いに通信するための双方向のネットワークである。通信ネットワーク8は、本実施形態では、インターネットであるが、例えば、企業内ネットワークのような通信範囲が制限されたネットワークであってもよい。
(1.2.1) Communication network The communication network 8 is a bidirectional network for the device 2 and the server 4 to communicate with each other. The communication network 8 is the Internet in the present embodiment, but may be a network having a limited communication range, such as an in-house network.

通信ネットワーク8としては、例えば、伝送制御プロトコル/インターネット・プロトコル(TCP/IP),GSM(登録商標)やCDMAやLTE等のモバイルデータ通信ネットワーク,Bluetooth(登録商標),wi−fi(登録商標),Z−WAVE,Insteon,EnOcean,ZigBee,HomePlug(登録商標),MQTT(Message Queueing Telemetry Transport),XMPP(extensible messaging and presence protocol),CoAP(constrained application protocol)等、又はこれらの組み合わせが例示される。 Examples of the communication network 8 include transmission control protocol / Internet protocol (TCP / IP), mobile data communication networks such as GSM (registered trademark), MQT and LTE, Bluetooth (registered trademark), and wi-fi (registered trademark). , Z-WAVE, Institute, EnOcean, ZigBee, HomePlug (registered trademark), MQTT (Message Queueing Telemetry Transport), XMPP (extensible messaging and presence protocol), CoAP (constrained application protocol), etc., or combinations thereof are exemplified. ..

(1.2.2)ハードウェア構成
デバイス2は、本実施形態では、スマートスピーカである。ただし、本開示に係るデバイス2は、スマートスピーカに限らず、パーソナルコンピュータ,スマートフォン,タブレット端末等の情報端末や、家電機器、玄関の扉等の施錠装置、自動車等の乗り物の認証装置、ロボット、電気機器等であってもよい。ここで、図2には、デバイス2のハードウェア構成を示す。図2に示すように、本実施形態に係るデバイス2は、マイク21,コンピュータ22,スピーカ23及び通信インターフェイス24を備える。
(1.2.2) Hardware Configuration The device 2 is a smart speaker in this embodiment. However, the device 2 according to the present disclosure is not limited to a smart speaker, but is an information terminal such as a personal computer, a smartphone, a tablet terminal, a home appliance, a locking device such as a front door, an authentication device for a vehicle such as an automobile, a robot, and the like. It may be an electric device or the like. Here, FIG. 2 shows the hardware configuration of the device 2. As shown in FIG. 2, the device 2 according to the present embodiment includes a microphone 21, a computer 22, a speaker 23, and a communication interface 24.

マイク21は、周囲の音を集めるマイクロフォンである。マイク21は、入力された音をデジタル化して、音声情報に変換する。マイク21は、コンピュータ22につながっており、音声情報をコンピュータ22に出力する。 The microphone 21 is a microphone that collects ambient sounds. The microphone 21 digitizes the input sound and converts it into voice information. The microphone 21 is connected to the computer 22 and outputs voice information to the computer 22.

コンピュータ22は、デバイス2を動作させる制御プログラムを実行可能なプロセッサと、主記憶装置と、補助記憶装置とを備える。主記憶装置は、いわゆるメインメモリであり、揮発性の記憶領域(例えば、RAM)である。補助記憶装置は、制御プログラムなどを記憶する装置であり、不揮発性の記憶領域(例えば、ROM)である。不揮発性の記憶領域としては、ROMに限らず、ハードディスク,フラッシュメモリ等であってもよい。 The computer 22 includes a processor capable of executing a control program for operating the device 2, a main storage device, and an auxiliary storage device. The main storage device is a so-called main memory, which is a volatile storage area (for example, RAM). The auxiliary storage device is a device that stores a control program or the like, and is a non-volatile storage area (for example, ROM). The non-volatile storage area is not limited to ROM, but may be a hard disk, flash memory, or the like.

スピーカ23は、音声情報が入力されると、アナログ化して音を出力する。スピーカ23はコンピュータ22に接続されており、コンピュータ22から出力された音声情報が入力される。 When voice information is input, the speaker 23 converts the sound into analog and outputs the sound. The speaker 23 is connected to the computer 22, and the voice information output from the computer 22 is input.

通信インターフェイス24は、通信ネットワーク8を介してサーバ4と通信を行うインターフェイスである。通信インターフェイス24は、本実施形態では、無線LANインターフェイスであるが、本開示では、有線LANインターフェイス,無線WAN,有線WAN等であってもよい。 The communication interface 24 is an interface that communicates with the server 4 via the communication network 8. The communication interface 24 is a wireless LAN interface in the present embodiment, but in the present disclosure, it may be a wired LAN interface, a wireless WAN, a wired WAN, or the like.

図3には、サーバ4のハードウェア構成を示す。図3に示すように、本実施形態に係るサーバ4は、コンピュータ41と、通信インターフェイス42とを備える。 FIG. 3 shows the hardware configuration of the server 4. As shown in FIG. 3, the server 4 according to the present embodiment includes a computer 41 and a communication interface 42.

コンピュータ41は、デバイス2を動作させる制御プログラムを実行可能なプロセッサと、主記憶装置と、補助記憶装置とを備える。主記憶装置は、いわゆるメインメモリであり、揮発性の記憶領域(例えば、RAM)である。補助記憶装置は、制御プログラムなどを記憶する装置であり、不揮発性の記憶領域(例えば、ROM)である。不揮発性の記憶領域としては、ROMに限らず、ハードディスク,フラッシュメモリ等であってもよい。 The computer 41 includes a processor capable of executing a control program for operating the device 2, a main storage device, and an auxiliary storage device. The main storage device is a so-called main memory, which is a volatile storage area (for example, RAM). The auxiliary storage device is a device that stores a control program or the like, and is a non-volatile storage area (for example, ROM). The non-volatile storage area is not limited to ROM, but may be a hard disk, flash memory, or the like.

通信インターフェイス42は、通信ネットワーク8を介してデバイス2と通信を行うインターフェイスである。通信インターフェイス42は、本実施形態では、無線LANインターフェイスであるが、本開示では、有線LANインターフェイス,無線WAN,有線WAN等であってもよい。 The communication interface 42 is an interface that communicates with the device 2 via the communication network 8. The communication interface 42 is a wireless LAN interface in the present embodiment, but in the present disclosure, it may be a wired LAN interface, a wireless WAN, a wired WAN, or the like.

(1.2.3)機能構成
次に、認証システム1の機能構成を説明する。図4に示すように、デバイス2は、通信部34と、処理部33と、発音部31と、音声取得部32と、を備える。
(12.3) Functional configuration Next, the functional configuration of the authentication system 1 will be described. As shown in FIG. 4, the device 2 includes a communication unit 34, a processing unit 33, a sounding unit 31, and a voice acquisition unit 32.

通信部34は、通信ネットワーク8を介してサーバ4との間で通信接続をし、サーバ4との間で通信を行う。通信部34は、サーバ4から送信された音声情報を受信し、受信した音声情報を処理部33に出力する。また、通信部34は、処理部33から出力された音声情報をサーバ4に送信する。通信部34は、本実施形態では、通信インターフェイス24,コンピュータ22等により実現される。 The communication unit 34 makes a communication connection with the server 4 via the communication network 8 and communicates with the server 4. The communication unit 34 receives the voice information transmitted from the server 4 and outputs the received voice information to the processing unit 33. Further, the communication unit 34 transmits the voice information output from the processing unit 33 to the server 4. In the present embodiment, the communication unit 34 is realized by the communication interface 24, the computer 22, and the like.

処理部33は、音声取得部32(マイク21)を介して受信した音声情報をサーバ4に出力したり、通信部34を介して受信した情報(音声情報を含む)に基づいて、スピーカ23で音声を出力させたり、などの各種処理を行う。処理部33は、本実施形態では、コンピュータ22により実現される。 The processing unit 33 outputs the voice information received via the voice acquisition unit 32 (microphone 21) to the server 4, or uses the speaker 23 based on the information (including voice information) received via the communication unit 34. Performs various processes such as outputting audio. The processing unit 33 is realized by the computer 22 in this embodiment.

発音部31は、処理部33から出力された音声情報を外部に音として出力する。発音部31は、本実施形態では、スピーカ23と、コンピュータ22とにより実現される。 The sounding unit 31 outputs the voice information output from the processing unit 33 to the outside as sound. In the present embodiment, the sounding unit 31 is realized by the speaker 23 and the computer 22.

音声取得部32は、ユーザが発した音声を受信し、音声情報を取得する。音声取得部32が取得した音声情報は、処理部33に出力される。音声取得部32は、本実施形態では、マイク21とコンピュータ22とにより実現される。 The voice acquisition unit 32 receives the voice emitted by the user and acquires the voice information. The voice information acquired by the voice acquisition unit 32 is output to the processing unit 33. In the present embodiment, the voice acquisition unit 32 is realized by the microphone 21 and the computer 22.

次にサーバ4の機能構成について説明する。サーバ4は、本実施形態では、通信部5と、制御部6と、を備える。 Next, the functional configuration of the server 4 will be described. In the present embodiment, the server 4 includes a communication unit 5 and a control unit 6.

通信部5は、通信ネットワーク8を介してデバイス2との間で通信接続をし、デバイス2との間で通信を行う。通信部5は、デバイス2から送信された音声情報を受信し、受信した音声情報を制御部6に出力する。また、通信部5は、制御部6から出力された情報をデバイス2に送信する。通信部5は、本実施形態では、通信インターフェイス42,コンピュータ41等により実現される。 The communication unit 5 makes a communication connection with the device 2 via the communication network 8 and communicates with the device 2. The communication unit 5 receives the voice information transmitted from the device 2 and outputs the received voice information to the control unit 6. Further, the communication unit 5 transmits the information output from the control unit 6 to the device 2. In the present embodiment, the communication unit 5 is realized by the communication interface 42, the computer 41, and the like.

制御部6は、通信部5から入力された情報に基づいて、各種処理を行う。制御部6は、本実施形態では、文字列生成部62,ID記憶部61,文字認識部64,文字判定部65,時間計測部66,時間判定部67,特徴抽出部68,特徴判定部69,特徴記憶部70を備える。 The control unit 6 performs various processes based on the information input from the communication unit 5. In the present embodiment, the control unit 6 includes a character string generation unit 62, an ID storage unit 61, a character recognition unit 64, a character determination unit 65, a time measurement unit 66, a time determination unit 67, a feature extraction unit 68, and a feature determination unit 69. , A feature storage unit 70 is provided.

文字列生成部62は、認証の際に対象ユーザに復唱させるための文字列を生成する。文字列は、発音が可能な複数の文字からなる。文字列は、例えば、複数の平仮名(ここでは、二文字の平仮名「い」「ぬ」とする)で構成される。ただし、文字列としては、発音可能な文字の組み合わせであればよく、アルファベットからなる文字列であってもよい。本開示でいう文字列には、数字も含む。また、文字列生成部62は、平仮名の文字のランダムな組み合わせで文字列を生成してもよい。 The character string generation unit 62 generates a character string for the target user to repeat at the time of authentication. A character string consists of a plurality of characters that can be pronounced. The character string is composed of, for example, a plurality of hiragana characters (here, the two-character hiragana characters "i" and "nu"). However, the character string may be a combination of characters that can be pronounced, and may be a character string composed of alphabets. The character string referred to in the present disclosure includes numbers. Further, the character string generation unit 62 may generate a character string by a random combination of hiragana characters.

文字列生成部62は、例えば、予め登録された情報から文字列を生成してもよい。予め登録された情報としては、任意のパスワード,住所,氏名,好きな食べ物,好きな映画,通学している学校名,所属するクラブ名,好きなスポーツ等が挙げられる。 The character string generation unit 62 may generate a character string from, for example, information registered in advance. Pre-registered information includes an arbitrary password, address, name, favorite food, favorite movie, school name to attend school, club name to which the student belongs, favorite sport, and the like.

文字列生成部62は、例えば、ID記憶部61に記憶されたユーザのID情報から文字列を生成してもよい。ID記憶部61には、ID情報が記憶されている。ID記憶部61には、例えば、デバイス2の音声取得部32を通して、ID情報が登録される。本開示でいう「ID情報」とは、特定ユーザのユーザ名の事である。ユーザ名は、実名でもよいし、ハンドルネームでもよい。 The character string generation unit 62 may generate a character string from the user's ID information stored in the ID storage unit 61, for example. ID information is stored in the ID storage unit 61. ID information is registered in the ID storage unit 61, for example, through the voice acquisition unit 32 of the device 2. The "ID information" referred to in the present disclosure is a user name of a specific user. The user name may be a real name or a handle name.

文字列生成部62で生成した文字列の情報は、音声情報生成部63と文字判定部65とに出力される。 The character string information generated by the character string generation unit 62 is output to the voice information generation unit 63 and the character determination unit 65.

音声情報生成部63は、文字列生成部62から入力された文字列の情報から音声情報を生成する。音声情報生成部63は、本実施形態では、文字列生成部62から文字列「い」「ぬ」が入力されると、文字列に対応する音声情報「イヌ」を生成する。例えば、文字列生成部62から数字の文字列「1」「2」「3」が入力されると、音声情報「イチニサン」を生成する。さらに他例として、文字列生成部62からアルファベットの文字列「D」「O」「G」が入力されると、音声情報生成部63は、音声情報「ドッグ」を生成してもよい。音声情報生成部63で生成された音声情報は、通信部5に出力され、デバイス2に送信される。 The voice information generation unit 63 generates voice information from the character string information input from the character string generation unit 62. In the present embodiment, the voice information generation unit 63 generates the voice information "dog" corresponding to the character string when the character strings "i" and "nu" are input from the character string generation unit 62. For example, when the numerical character strings "1", "2", and "3" are input from the character string generation unit 62, the voice information "Ichinisan" is generated. As yet another example, when the character strings "D", "O", and "G" of the alphabet are input from the character string generation unit 62, the voice information generation unit 63 may generate the voice information "dog". The voice information generated by the voice information generation unit 63 is output to the communication unit 5 and transmitted to the device 2.

後述のフローチャートで説明するように、デバイス2の発音部31からは、所定の文字列の音声が出力される。本開示でいう「所定の文字列」とは、認証を実行するための文字列を意味する。本実施形態では、音声情報生成部63で生成された音声情報に基づいて音声が出力される。例えば、本実施形態では、デバイス2は、発音部31によって「『イヌ』と発音して下さい」、あるいは「『イヌ』という言葉を繰り返してください」と出力する。これを聞いた対象ユーザは、「イヌ」と復唱することができる。 As will be described in the flowchart described later, the sounding unit 31 of the device 2 outputs the sound of a predetermined character string. The "predetermined character string" as used in the present disclosure means a character string for executing authentication. In the present embodiment, voice is output based on the voice information generated by the voice information generation unit 63. For example, in the present embodiment, the device 2 outputs "Please pronounce" dog "" or "Please repeat the word" dog "" by the sounding unit 31. The target user who hears this can repeat "dog".

文字認識部64は、通信部5を介して受け取ったデバイス2からの音声情報に基づいて、文字列を認識する。文字認識部64は、本実施形態では、例えば、デバイス2から音声情報である「イヌ」を受け取ると、文字列の各文字「い」「ぬ」を認識する。各文字の認識は、例えば、音声パターンマッチング技術により実現可能である。文字認識部64によって認識された文字列の情報は、文字判定部65に出力される。 The character recognition unit 64 recognizes a character string based on the voice information from the device 2 received via the communication unit 5. In the present embodiment, for example, when the character recognition unit 64 receives the voice information "dog" from the device 2, the character recognition unit 64 recognizes each character "i" and "nu" in the character string. Recognition of each character can be realized by, for example, a voice pattern matching technique. The character string information recognized by the character recognition unit 64 is output to the character determination unit 65.

文字判定部65は、文字列生成部62で生成された文字列と、入力された文字列の情報とが一致(適合)するか否かを判定する。また、文字列生成部62で生成された文字列と、入力された文字列の情報とが一致(適合)するか否かは、例えば、所定のテーブル等に対応付けが登録されているか否か、反対語、同義語、同音異義語、同一文字列、略同一文字列等など種々の方法が適用できる。文字判定部65により判定された結果は、文字判定部65から出力され、認証部71に出力される。 The character determination unit 65 determines whether or not the character string generated by the character string generation unit 62 matches (matches) the information of the input character string. Further, whether or not the character string generated by the character string generation unit 62 and the information of the input character string match (match) is, for example, whether or not the correspondence is registered in a predetermined table or the like. , Opposite words, synonyms, synonyms, same character strings, substantially the same character strings, etc. can be applied. The result determined by the character determination unit 65 is output from the character determination unit 65 and output to the authentication unit 71.

時間計測部66は、デバイス2が所定の文字列に対応する音声を発音してから、音声情報を取得するまでの時間を計測し、時間情報を生成する。要するに、時間計測部66は、第一ステップが実行された時から対象ユーザが発した音声に対応する音声情報を取得するまでの時間を計測する。時間計測部66は、例えば、コンピュータ41の内部のタイマにより実現される。本実施形態では、デバイス2が起動した時点(認証の開始時点)をタイプスタンプとしてサーバのメインメモリに記録し、この認証の開始時点から、デバイス2から送信された音声情報を通信部5で受信した時点までをもって、「第一ステップが実行された時から対象ユーザが発した音声に対応する音声情報を取得するまでの時間」とする。ただし、本開示では、発音部31から音声が出力された時点から、音声取得部32で音声が入力された時点までをもって、「第一ステップが実行された時から対象ユーザが発した音声に対応する音声情報を取得するまでの時間」としてもよい。要するに、「第一ステップが実行された時」とは、厳密な意味で第一ステップが開始された時を意味するのではなく、第一ステップの実行中のいずれかから開始されていればよい。 The time measuring unit 66 measures the time from when the device 2 pronounces the voice corresponding to the predetermined character string until the voice information is acquired, and generates the time information. In short, the time measuring unit 66 measures the time from the time when the first step is executed to the time when the voice information corresponding to the voice emitted by the target user is acquired. The time measuring unit 66 is realized by, for example, a timer inside the computer 41. In the present embodiment, the time when the device 2 is started (the time when the authentication is started) is recorded in the main memory of the server as a type stamp, and the voice information transmitted from the device 2 is received by the communication unit 5 from the time when the device 2 is started. The time from the time when the first step is executed to the time when the voice information corresponding to the voice uttered by the target user is acquired is defined as the time until the time. However, in the present disclosure, from the time when the voice is output from the sounding unit 31 to the time when the voice is input by the voice acquisition unit 32, "corresponding to the voice emitted by the target user from the time when the first step is executed". It may be "time until acquisition of voice information to be performed". In short, "when the first step is executed" does not mean when the first step is started in a strict sense, but it may be started from any of the execution of the first step. ..

時間計測部66で生成された時間情報は、時間判定部67に出力される。 The time information generated by the time measurement unit 66 is output to the time determination unit 67.

時間判定部67は、時間計測部66で出力された時間情報が入力されると、時間情報が閾値以内であるか否かを判定する。要するに、時間判定部67は、第一ステップが実行された時から音声情報を取得するまでの時間が所定時間以内であることを判定する。本実施形態では、閾値は、好ましくは、5[s]以上60[s]以下のうちのいずれかである。より好ましくは、閾値は、5[s]以上20[s]以下のうちのいずれかである。 When the time information output by the time measurement unit 66 is input, the time determination unit 67 determines whether or not the time information is within the threshold value. In short, the time determination unit 67 determines that the time from the time when the first step is executed until the voice information is acquired is within a predetermined time. In the present embodiment, the threshold value is preferably any one of 5 [s] or more and 60 [s] or less. More preferably, the threshold value is any one of 5 [s] or more and 20 [s] or less.

時間判定部67により判定された結果は、時間判定部67から出力され、認証部71に出力される。 The result determined by the time determination unit 67 is output from the time determination unit 67 and output to the authentication unit 71.

特徴抽出部68は、通信部5を介して受け取ったデバイス2からの音声情報に基づいて、音声の特徴量を抽出する。本実施形態では、特徴抽出部68は、対象ユーザが発した音声の音声情報から、特徴ベクトルを抽出する。音声の特徴量の抽出は、MFCC(Mel-Frequency Cepstrum Coefficients),線形予測 (Linear Predictive Coding;LPC),PLP(Perceptual Linier Prediction),LSP(Line Spectrum Pair)等による方法が例示される。音声の特徴量の抽出は、これらの方法を組み合わせてもよい。 The feature extraction unit 68 extracts the feature amount of voice based on the voice information from the device 2 received via the communication unit 5. In the present embodiment, the feature extraction unit 68 extracts a feature vector from the voice information of the voice emitted by the target user. Examples of voice feature extraction methods include MFCC (Mel-Frequency Cepstrum Coefficients), Linear Predictive Coding (LPC), PLP (Perceptual Linier Prediction), and LSP (Line Spectrum Pair). These methods may be combined for the extraction of voice features.

特徴抽出部68で抽出された特徴量(特徴ベクトル)の情報は、特徴判定部69に出力される。 The information of the feature amount (feature vector) extracted by the feature extraction unit 68 is output to the feature determination unit 69.

特徴判定部69は、特徴抽出部68から入力された特徴量の情報と、特徴記憶部70に特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。特徴判定部69による判定は、例えば、特徴抽出部68から入力された特徴量と、特徴記憶部70から入力された音声情報の特徴量との差分が、閾値以下である場合に、「適合する」と判定する。要するに、ここでいう「適合する」とは、厳密に同一であることを意味するのではなく、特徴量の傾向が同じあれば、「適合する」範疇であるとする。 The feature determination unit 69 is a voice emitted by the target user based on the feature amount information input from the feature extraction unit 68 and the feature amount of the voice information registered in advance as the voice of the specific user in the feature storage unit 70. It is determined that the characteristics of the above match the characteristics of the voice of the target user. The determination by the feature determination unit 69 is "matched" when, for example, the difference between the feature amount input from the feature extraction unit 68 and the feature amount of the voice information input from the feature storage unit 70 is equal to or less than the threshold value. ". In short, "fitting" here does not mean that they are exactly the same, but if the features have the same tendency, it is considered to be in the "fitting" category.

特徴記憶部70には、予め、特定ユーザの音声として音声情報が登録されている。特徴記憶部70への音声情報の特徴量の登録は、デバイス2の音声取得部32を介して入力された音声情報が、特徴抽出部68により抽出された後に行われる。特徴記憶部70は、本実施形態では、不揮発性の記憶領域により実現される。 Voice information is registered in advance in the feature storage unit 70 as voice of a specific user. The feature amount of the voice information is registered in the feature storage unit 70 after the voice information input via the voice acquisition unit 32 of the device 2 is extracted by the feature extraction unit 68. In this embodiment, the feature storage unit 70 is realized by a non-volatile storage area.

特徴判定部69により判定された結果は、特徴判定部69から出力され、認証部71に入力される。 The result determined by the feature determination unit 69 is output from the feature determination unit 69 and input to the authentication unit 71.

認証部71は、文字判定部65,時間判定部67及び特徴判定部69から、全て適合することの判定の情報が入力されると、認証が成功したと判定する。本実施形態では、認証部71は、認証が成功したと判定すると、認証が成功したことの情報(以下、成功情報という)を通信部5を介して、デバイス2に送信する。 The authentication unit 71 determines that the authentication is successful when the character determination unit 65, the time determination unit 67, and the feature determination unit 69 all input the information of the determination of conformity. In the present embodiment, when the authentication unit 71 determines that the authentication is successful, the authentication unit 71 transmits information that the authentication is successful (hereinafter, referred to as success information) to the device 2 via the communication unit 5.

一方、認証部71は、文字判定部65,時間判定部67及び特徴判定部69の少なくとの一つから、適合しないことの判定の情報が入力されると、認証が失敗したと判定する。認証が失敗したと判定すると、認証が失敗したことの情報(以下、失敗情報という)を、通信部5を介して、デバイス2に送信する。 On the other hand, the authentication unit 71 determines that the authentication has failed when the information of the determination of nonconformity is input from one of the character determination unit 65, the time determination unit 67, and at least one of the feature determination units 69. If it is determined that the authentication has failed, the information that the authentication has failed (hereinafter referred to as failure information) is transmitted to the device 2 via the communication unit 5.

デバイス2の処理部33に成功情報が入力されると、処理部33は、例えば、発音部31から「認証が成功しました」と出力させ、以降のデバイス2の使用を許可する。一方、失敗情報が処理部33に入力されると、処理部33は、例えば、発音部31から「もう一度、繰り返してください」と出力させ、再び、認証を行う。動作の詳しい説明については、フローチャートを用いて説明する。 When the success information is input to the processing unit 33 of the device 2, the processing unit 33 outputs, for example, "authentication succeeded" from the sounding unit 31 and permits the subsequent use of the device 2. On the other hand, when the failure information is input to the processing unit 33, the processing unit 33 outputs, for example, "Please repeat again" from the sounding unit 31, and authenticates again. A detailed explanation of the operation will be described with reference to a flowchart.

(1.2.4)動作
次に、認証システム1の動作について、図5を用いて説明する。図5は本実施形態に係る認証システム1における認証方法の一例を示すシーケンス図である。
(12.4) Operation Next, the operation of the authentication system 1 will be described with reference to FIG. FIG. 5 is a sequence diagram showing an example of an authentication method in the authentication system 1 according to the present embodiment.

ユーザは、デバイス2に対して何らかの操作を行う(例えば、電源ON)。すると、デバイス2は、起動する(S1)。デバイス2は起動後、認証が必要な操作が実行されると(例えば、ユーザが商品を購入する等の認証が必要な操作を行うと)、認証の第一ステップが実行される。具体的に、デバイス2は、起動したことの情報を、通信ネットワーク8を介して、サーバ4に送信する(S2)。 The user performs some operation on the device 2 (for example, the power is turned on). Then, the device 2 starts up (S1). After the device 2 is started, when an operation requiring authentication is executed (for example, when a user performs an operation requiring authentication such as purchasing a product), the first step of authentication is executed. Specifically, the device 2 transmits the information that it has been activated to the server 4 via the communication network 8 (S2).

サーバ4は、起動情報を受信すると(S3)、制御部6で文字列の生成を行い(S4)、生成した文字列の情報を、通信ネットワーク8を介してデバイス2に送信する(S5)。 When the server 4 receives the startup information (S3), the control unit 6 generates a character string (S4), and transmits the generated character string information to the device 2 via the communication network 8 (S5).

デバイス2は、文字列の情報を受信し(S6)、スピーカ23により文字列の音声を出力する(S7)。ここでは、デバイス2は、例えば「『イヌ』と繰り返して下さい」などと出力する。ユーザは、デバイス2から出力された音声に従い、これに対応する文字列を復唱する。ここでは、ユーザは、「イヌ」と発音する。 The device 2 receives the character string information (S6), and outputs the sound of the character string by the speaker 23 (S7). Here, the device 2 outputs, for example, "Please repeat with" dog "". The user repeats the corresponding character string according to the voice output from the device 2. Here, the user pronounces "dog".

次に、認証システム1は、第二ステップを実行する。デバイス2は、ユーザが発音した音声を、マイク21から取得し(S8)、音声情報に変換する。そして、デバイス2は、ここで取得した音声情報を、通信ネットワーク8を介して、サーバ4に送信する(S9)。 Next, the authentication system 1 executes the second step. The device 2 acquires the voice pronounced by the user from the microphone 21 (S8) and converts it into voice information. Then, the device 2 transmits the voice information acquired here to the server 4 via the communication network 8 (S9).

サーバ4は、音声情報を受信すると(S10)、認証処理を開始する(S11)。そして、サーバ4は、認証処理を行った結果を、通信ネットワーク8を介して、デバイス2に送信する(S12)と共に、サーバ4のメインメモリに格納する(S15)。 When the server 4 receives the voice information (S10), the server 4 starts the authentication process (S11). Then, the server 4 transmits the result of the authentication process to the device 2 via the communication network 8 (S12), and stores the result in the main memory of the server 4 (S15).

デバイス2は、認証結果を受信し(S13)、その後の処理を実行する(S14)。 The device 2 receives the authentication result (S13) and executes the subsequent processing (S14).

認証処理の詳細を、図6に示す。図6は認証処理のフローチャートである。 The details of the authentication process are shown in FIG. FIG. 6 is a flowchart of the authentication process.

サーバ4は、認証処理を開始すると(S110)、受信した音声情報から認識された文字列が、スピーカ23から出力した文字列(デバイス2に送信した文字列)に適合するか否かを判定する(S111)。 When the server 4 starts the authentication process (S110), the server 4 determines whether or not the character string recognized from the received voice information matches the character string output from the speaker 23 (the character string transmitted to the device 2). (S111).

受信した音声情報から認識された文字列が、スピーカ23から出力した文字列に適合すると判定すると、ステップ112の判定に進み、適合しないと判定すると、認証失敗であると判定する(S114)。 If it is determined that the character string recognized from the received voice information matches the character string output from the speaker 23, the process proceeds to the determination in step 112, and if it is determined that the character string does not match, it is determined that the authentication has failed (S114).

ステップ112では、受信した音声情報から抽出された特徴ベクトルが、予め登録された音声情報の特徴ベクトルに合致するか否かを判定する(S112)。ここでいう「合致」とは、厳密に一致することをだけを意味するのではなく、特徴ベクトルの傾向が共通することも含む。 In step 112, it is determined whether or not the feature vector extracted from the received voice information matches the feature vector of the voice information registered in advance (S112). The term "match" as used herein does not only mean that the match is exact, but also includes that the tendency of the feature vectors is common.

受信した音声情報から抽出された特徴ベクトルが、予め登録された音声情報の特徴ベクトルに合致するか否かを判定し、合致したと判定すると、ステップ113の判定に進み、合致したと判定すると、認証失敗であると判定する(S114)。 It is determined whether or not the feature vector extracted from the received voice information matches the feature vector of the voice information registered in advance, and if it is determined that the feature vector matches, the process proceeds to the determination in step 113, and if it is determined that the feature vector matches, it is determined. It is determined that the authentication has failed (S114).

ステップ113では、デバイス2のスピーカ23から出力された時点から、マイク21から音声が取得されるまでの時間tが、閾値以下であるか否かを判定する。 In step 113, it is determined whether or not the time t from the time when the sound is output from the speaker 23 of the device 2 to the time when the sound is acquired from the microphone 21 is equal to or less than the threshold value.

デバイス2のスピーカ23から出力された時点から、マイク21から音声が取得されるまでの時間tが、閾値以下であると判定すると、認証が成功したと判定し、時間tが閾値よりも大きい場合には、認証失敗であると判定する(S114)。 When it is determined that the time t from the time when the output from the speaker 23 of the device 2 to the acquisition of the sound from the microphone 21 is equal to or less than the threshold value, it is determined that the authentication is successful and the time t is larger than the threshold value. Is determined to be an authentication failure (S114).

認証が失敗したと判定すると、サーバ4は、ステップ5に戻り、再び文字列をデバイス2に送信して、認証をやり直す。本実施形態では、認証が成功するまで、繰り返し認証を実行するが、認証の回数(例えば、3回)を制限し、これを超えた場合にはデバイス2の電源をOFFにするなどしてもよい。 If it is determined that the authentication has failed, the server 4 returns to step 5, transmits the character string to the device 2 again, and redoes the authentication. In the present embodiment, the authentication is repeatedly executed until the authentication is successful, but the number of authentications (for example, 3 times) is limited, and when the number of authentications is exceeded, the power of the device 2 may be turned off. Good.

(2)変形例
以上説明した実施形態1に係る認証システム1及び認証方法は、本開示の一例に過ぎない。以下、本開示に係る認証システム1及び認証方法お変形例を列挙する。以下のいくつかの変形例と上記実施形態とは適宜組み合わせて用いることができる。
(2) Modified Example The authentication system 1 and the authentication method according to the first embodiment described above are only examples of the present disclosure. The following is a list of authentication system 1 and modified examples of the authentication method according to the present disclosure. The following modified examples and the above-described embodiment can be used in appropriate combinations.

上記実施形態では、制御部6は、サーバ4が備えたが、図7に示すように、制御部6はデバイス2のコンピュータ22(図2参照)により実現されてもよい。この場合、通信ネットワーク8を介した音声情報の送受信はなくてもよい。制御部6は、実施形態1で説明した機能構成と同じであるため、説明を省略する。 In the above embodiment, the control unit 6 is provided by the server 4, but as shown in FIG. 7, the control unit 6 may be realized by the computer 22 (see FIG. 2) of the device 2. In this case, it is not necessary to send and receive voice information via the communication network 8. Since the control unit 6 has the same functional configuration as that described in the first embodiment, the description thereof will be omitted.

上記実施形態では、スピーカ23とマイク21が一つの筐体にあり、制御部6が別の筐体にあるが、これらは一つの筺体に収まっていてもよいし、それぞれが別の筐体に収まっていてもよい。 In the above embodiment, the speaker 23 and the microphone 21 are in one housing, and the control unit 6 is in another housing, but these may be housed in one housing, or they may be housed in different housings. It may fit.

上記実施形態では、文字列として「いぬ」を例示したが、これに限らず、文字列として、文章(例えば、「いぬがかわいい」)などであってもよく、文字数に制限はない。文字列を、主語と述語とを含む文章にすると、長い文字列でもユーザが復唱しやすくて好ましい。なお、この所定の文字列を出力する前後に、認証には関係がなく、使用者がデバイスと会話できるような音声情報が、デバイスの発音部31から出力されても良い。 In the above embodiment, "dog" is illustrated as a character string, but the character string may be a sentence (for example, "dog is cute") or the like, and the number of characters is not limited. It is preferable that the character string is a sentence including the subject and the predicate because it is easy for the user to repeat even a long character string. Before and after outputting this predetermined character string, voice information that is not related to authentication and allows the user to talk with the device may be output from the sounding unit 31 of the device.

上記実施形態では、認証の対象となる特定ユーザを一人として説明したが、本開示では、特定ユーザは複数であってもよい。 In the above embodiment, the specific user to be authenticated is described as one person, but in the present disclosure, there may be a plurality of specific users.

上記実施形態では、認証方法の開始は、デバイス2の起動によって実行されたが、例えば、デバイス2に対し、データを双方に送受信可能に接続されたユーザ端末(例えば、スマートフォン)から認証方法の開始が指示されてもよい。その場合、上記のように、デバイス2のスピーカ23及びマイク21を介して音声の送受信を行ってもよいし、ユーザ端末のスピーカ及びマイクを介して音声の送受信を行ってもよい。
この場合において、例えば、ユーザ端末の特定の操作(例えば、インターネットにおける決済)を実行したことの信号を、デバイス2が受信したことをトリガーにして、デバイス2がサーバ4に認証開始の信号を送信してもよい。そして、認証の結果を、デバイス2を介してユーザ端末に送信し、ユーザ端末は、認証が成功した旨の信号を受けることで、以後の処理を実行可能としてもよい。
In the above embodiment, the start of the authentication method is executed by activating the device 2. For example, the start of the authentication method is started from a user terminal (for example, a smartphone) connected to the device 2 so that data can be transmitted and received to both parties. May be instructed. In that case, as described above, the sound may be transmitted / received via the speaker 23 and the microphone 21 of the device 2, or the sound may be transmitted / received via the speaker and the microphone of the user terminal.
In this case, for example, the device 2 transmits a signal for starting authentication to the server 4 triggered by the reception of the signal that the device 2 has executed a specific operation (for example, payment on the Internet) of the user terminal. You may. Then, the result of the authentication may be transmitted to the user terminal via the device 2, and the user terminal may be able to execute the subsequent processing by receiving the signal that the authentication is successful.

(3)まとめ
以上説明したように、第1の態様の認証方法は、対象ユーザが予め登録されている特定ユーザであるか否かを認証するための認証方法である。認証方法は、第一ステップと、第二ステップとを備える。第一ステップは、スピーカ23から所定の文字列の音声を出力させる。第二ステップは、第一ステップの後、対象ユーザが発した音声をマイク21により受信して音声情報を取得し、当該音声情報から対象ユーザが特定ユーザであるか否かを判定する。第二ステップでは、少なくとも二つの判定を実行する。一つめの判定は、音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つめの判定は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。
また、第二ステップでは、三つ目の判定として、第一ステップが実行された時から音声情報を取得するまでの時間が、所定時間以内であることを更に判定してもよい。この三つ目の判定は必須ではない。なお、一つ目,二つ目,三つ目の判定は、判定を行う順番が入れ替わってもよい。
(3) Summary As described above, the authentication method of the first aspect is an authentication method for authenticating whether or not the target user is a pre-registered specific user. The authentication method includes a first step and a second step. The first step is to output the sound of a predetermined character string from the speaker 23. In the second step, after the first step, the voice emitted by the target user is received by the microphone 21 to acquire voice information, and it is determined from the voice information whether or not the target user is a specific user. In the second step, at least two determinations are made. The first determination is to determine that the character string recognized from the voice information conforms to a predetermined character string. The second determination is based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, and the voice feature emitted by the target user is the voice feature of the target user. Judge that it conforms to.
Further, in the second step, as the third determination, it may be further determined that the time from the execution of the first step to the acquisition of the voice information is within a predetermined time. This third judgment is not essential. For the first, second, and third judgments, the order in which the judgments are made may be changed.

この態様によれば、音声の発音で認証することができるため、視力が弱い者等の目が不自由な者や、文字を読むことができない者(子供,外国人等)であっても認証を行うことができる。また、第1の態様によれば、従前の認証方法のように、パスワードを記憶する必要がない。
また、この態様によれば、運転中、料理中、子育て中、荷物配達中など、ユーザの手がふさがっている状態であっても、手で何かを操作入力することや、画面上に何かを表示させることなく、自然な会話の中でユーザ認証することができる。
また、この態様によれれば、手でデバイスを操作することなく、スマートスピーカ(スマートフォン等にその機能が含まれているものを含む)のように会話の中で認証できるため、デバイスの使い方がわからない者であっても、自然な会話の中で認証することができる。
また、この態様によれば、第二ステップでは、ユーザの1回の発声により、次の2種類の判定により認証を行うことができ、ユーザ認証の際に、ユーザが煩わしい思いをすることない。すなわち、上記認証方法は、デバイスからの質問にユーザが1回の回答(発音)することにより、2つの判定がされるため、何回も質問に回答することなく、ユーザ認証の際に、ユーザが煩わしい思いをすることがありません。すなわち、一つ目の判定は、音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つ目の判定は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。この一つ目の判定では、ユーザがパスワードを覚える必要がない。二つ目の判定では、なりすましによる認証を防止できる。
According to this aspect, since it is possible to authenticate by the pronunciation of voice, even a visually impaired person such as a person with weak eyesight or a person who cannot read characters (children, foreigners, etc.) can be authenticated. It can be performed. Further, according to the first aspect, it is not necessary to store the password as in the conventional authentication method.
In addition, according to this aspect, even when the user's hand is occupied, such as while driving, cooking, raising a child, or delivering a package, something can be manually input or displayed on the screen. It is possible to authenticate the user in a natural conversation without displaying.
In addition, according to this aspect, it is possible to authenticate in a conversation like a smart speaker (including a smartphone or the like whose function is included) without manually operating the device, so that the device can be used. Even those who do not understand can be authenticated in a natural conversation.
Further, according to this aspect, in the second step, the user can be authenticated by the following two types of determinations by one utterance of the user, and the user does not feel annoyed at the time of user authentication. That is, in the above authentication method, since the user answers (pronounces) the question from the device once to make two judgments, the user does not have to answer the question many times and the user is authenticated. Does not bother you. That is, the first determination determines that the character string recognized from the voice information conforms to a predetermined character string. The second determination is based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, and the feature of the voice emitted by the target user is the voice of the target user. Determine if it fits the feature. In this first determination, the user does not have to remember the password. In the second determination, authentication by spoofing can be prevented.

第2の態様の認証方法では、第1の態様において、所定の文字列が、予め登録された、特定ユーザのID情報である。 In the authentication method of the second aspect, in the first aspect, a predetermined character string is pre-registered ID information of a specific user.

この態様によれば、対象ユーザの使い慣れた文字列を用いて認証を行うことができる。 According to this aspect, authentication can be performed using a character string familiar to the target user.

第3の態様の認証システム1では、スピーカ23と、マイク21と、制御部6と、を備えた認証システム1である。制御部6は、スピーカ23から所定の文字列の音声を出力させ、その後、対象ユーザが発した音声を前記マイク21により受信して音声情報を取得し、当該音声情報から対象ユーザが、予め登録されている特定ユーザであるか否かを判定する。その判定は、少なくとも二つの判定を含む。一つ目の判定は、音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つ目の判定は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。
前記判定は、三つ目の判定として、第一ステップが実行された時から音声情報を取得するまでの時間が、所定時間以内であることを更に判定してもよい。この三つ目の判定は必須ではない。なお、一つ目,二つ目,三つ目の判定は、判定を行う順番が入れ替わってもよい。
The authentication system 1 of the third aspect is the authentication system 1 including the speaker 23, the microphone 21, and the control unit 6. The control unit 6 outputs a voice of a predetermined character string from the speaker 23, then receives the voice emitted by the target user by the microphone 21 to acquire voice information, and the target user registers in advance from the voice information. It is determined whether or not the user is a specific user. The determination includes at least two determinations. The first determination is to determine that the character string recognized from the voice information conforms to a predetermined character string. The second determination is based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, and the feature of the voice emitted by the target user is the voice of the target user. Determine if it fits the feature.
As the third determination, the determination may further determine that the time from the execution of the first step to the acquisition of voice information is within a predetermined time. This third judgment is not essential. For the first, second, and third judgments, the order in which the judgments are made may be changed.

この態様によれば、音声の発音で認証することができるため、視力が弱い者等の目が不自由な者や、文字を読むことができない者(子供,外国人等)であっても認証を行うことができる。また、この態様によれば、従前の認証システムのように、パスワードを記憶する必要がない。 According to this aspect, since it is possible to authenticate by the pronunciation of voice, even a visually impaired person such as a person with weak eyesight or a person who cannot read characters (children, foreigners, etc.) can be authenticated. It can be performed. Further, according to this aspect, it is not necessary to memorize the password as in the conventional authentication system.

第4の態様のデバイス2は、スピーカ23と、マイク21と、制御部6と、を備える。制御部6は、スピーカ23から所定の文字列の音声を出力させ、その後、対象ユーザが発した音声をマイク21により受信して音声情報を取得し、当該音声情報から対象ユーザが、予め登録されている特定ユーザであるか否かを判定する。その判定は、少なくとも二つの判定を含む。一つ目の判定は、音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つ目の判定は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。
前記判定は、三つ目の判定として、第一ステップが実行された時から音声情報を取得するまでの時間が、所定時間以内であることを更に判定してもよい。この三つ目の判定は必須ではない。なお、一つ目,二つ目,三つ目の判定は、判定を行う順番が入れ替わってもよい。
The device 2 of the fourth aspect includes a speaker 23, a microphone 21, and a control unit 6. The control unit 6 outputs a voice of a predetermined character string from the speaker 23, then receives the voice emitted by the target user by the microphone 21 to acquire voice information, and the target user is registered in advance from the voice information. Determines whether or not the user is a specific user. The determination includes at least two determinations. The first determination is to determine that the character string recognized from the voice information conforms to a predetermined character string. The second determination is based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, and the feature of the voice emitted by the target user is the voice of the target user. Determine if it fits the feature.
As the third determination, the determination may further determine that the time from the execution of the first step to the acquisition of voice information is within a predetermined time. This third judgment is not essential. For the first, second, and third judgments, the order in which the judgments are made may be changed.

この態様によれば、音声の発音で認証することができるため、視力が弱い者等の目が不自由な者や、文字を読むことができない者であっても認証を行うことができる。また、この態様によれば、従前のデバイスのように、認証の祭に、パスワードを記憶する必要がない。 According to this aspect, since it is possible to authenticate by the pronunciation of voice, it is possible to authenticate even a visually impaired person such as a person with weak eyesight or a person who cannot read characters. Also, according to this aspect, it is not necessary to memorize the password at the authentication festival as in the conventional device.

第5の態様のプログラムは、第1の態様又は第2の態様の認証方法をコンピュータ4122に実行させるためのプログラムである。 The program of the fifth aspect is a program for causing the computer 4122 to execute the authentication method of the first aspect or the second aspect.

この態様によれば、プログラムによって、音声による認証を実行させることができる。 According to this aspect, the program can execute voice authentication.

ただし、第2の態様は、本発明の認証方法においては、必須の構成ではなく、適宜選択して採用することができる。 However, the second aspect is not an essential configuration in the authentication method of the present invention, and can be appropriately selected and adopted.

1 認証システム
2 デバイス
21 マイク
23 スピーカ
6 制御部
1 Authentication system 2 Device 21 Microphone 23 Speaker 6 Control unit

Claims (9)

対象ユーザが予め登録されている特定ユーザであるか否かを認証するための認証方法であって、
制御部が、
スピーカから所定の文字列の音声を出力させる第一ステップと、
前記第一ステップの後、前記対象ユーザが発した音声をマイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが前記特定ユーザであるか否かを判定する第二ステップと、
を備え、
前記第二ステップでは、
前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、
前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、
を実行する、
認証方法。
It is an authentication method for authenticating whether or not the target user is a pre-registered specific user.
The control unit
The first step of outputting the sound of a predetermined character string from the speaker,
After the first step, a second step of receiving the voice emitted by the target user with a microphone to acquire voice information and determining whether or not the target user is the specific user from the voice information.
With
In the second step,
Judgment that the character string recognized from the voice information conforms to the predetermined character string, and
Based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, the voice feature emitted by the target user matches the voice feature of the target user. Judgment to do and
To execute,
Authentication method.
前記第二ステップでは、前記第一ステップが実行された時から前記音声情報を取得するまでの時間が、所定時間以内であることの判定を更に実行する、
請求項1記載の認証方法。
In the second step, it is further determined that the time from the time when the first step is executed to the acquisition of the voice information is within a predetermined time.
The authentication method according to claim 1.
前記所定の文字列が、予め登録された、前記特定ユーザのID情報である、
請求項1又は請求項2記載の認証方法。
The predetermined character string is the ID information of the specific user registered in advance.
The authentication method according to claim 1 or 2.
スピーカと、マイクと、制御部と、を備えた認証システムであって、
前記制御部は、
前記スピーカから所定の文字列の音声を出力させ、
その後、対象ユーザが発した音声を前記マイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが、予め登録されている特定ユーザであるか否かを判定するように構成されており、
前記判定では、
前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、
前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、
を実行する、
認証システム。
An authentication system equipped with a speaker, a microphone, and a control unit.
The control unit
The sound of a predetermined character string is output from the speaker, and the sound is output.
After that, the voice emitted by the target user is received by the microphone to acquire voice information, and it is determined from the voice information whether or not the target user is a pre-registered specific user. Ori,
In the above judgment,
Judgment that the character string recognized from the voice information conforms to the predetermined character string, and
Based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, the voice feature emitted by the target user matches the voice feature of the target user. Judgment to do and
To execute,
Authentication system.
前記判定では、前記スピーカから所定の文字列の音声を出力させた時から前記音声情報を取得するまでの時間が、所定時間以内であることの判定を更に実行する、
請求項4記載の認証システム。
In the determination, it is further determined that the time from the time when the voice of the predetermined character string is output from the speaker to the acquisition of the voice information is within the predetermined time.
The authentication system according to claim 4.
スピーカと、マイクと、制御部と、を備えたデバイスであって、
前記制御部は、
前記スピーカから所定の文字列の音声を出力させ、
その後、対象ユーザが発した音声を前記マイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが、予め登録されている特定ユーザであるか否かを判定するように構成されており、
前記判定では、
前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、
前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、
を実行する、
デバイス。
A device equipped with a speaker, a microphone, and a control unit.
The control unit
The sound of a predetermined character string is output from the speaker, and the sound is output.
After that, the voice emitted by the target user is received by the microphone to acquire voice information, and it is determined from the voice information whether or not the target user is a pre-registered specific user. Ori,
In the above judgment,
Judgment that the character string recognized from the voice information conforms to the predetermined character string, and
Based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, the voice feature emitted by the target user matches the voice feature of the target user. Judgment to do and
To execute,
device.
前記判定では、前記スピーカから所定の文字列の音声を出力させた時から前記音声情報を取得するまでの時間が、所定時間以内であることの判定を更に実行する、
請求項6記載のデバイス。
In the determination, it is further determined that the time from the time when the voice of the predetermined character string is output from the speaker to the acquisition of the voice information is within the predetermined time.
The device according to claim 6.
請求項1〜3のいずれか一項に記載の認証方法をコンピュータに実行させるためのプログラム。 A program for causing a computer to execute the authentication method according to any one of claims 1 to 3. 請求項1〜3のいずれか一項に記載の認証方法により認証を行う車両又は施錠装置。 A vehicle or locking device that authenticates by the authentication method according to any one of claims 1 to 3.
JP2019161003A 2019-09-04 2019-09-04 Authentication method, authentication system, device, and program Pending JP2021039255A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019161003A JP2021039255A (en) 2019-09-04 2019-09-04 Authentication method, authentication system, device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019161003A JP2021039255A (en) 2019-09-04 2019-09-04 Authentication method, authentication system, device, and program

Publications (1)

Publication Number Publication Date
JP2021039255A true JP2021039255A (en) 2021-03-11

Family

ID=74847047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019161003A Pending JP2021039255A (en) 2019-09-04 2019-09-04 Authentication method, authentication system, device, and program

Country Status (1)

Country Link
JP (1) JP2021039255A (en)

Similar Documents

Publication Publication Date Title
JP7294477B2 (en) Authentication device, authentication method and computer program
KR102513297B1 (en) Electronic device and method for executing function of electronic device
US10832686B2 (en) Method and apparatus for pushing information
EP3272101B1 (en) Audiovisual associative authentication method, related system and device
CN117056892A (en) Secure authorization for access to private data in virtual reality
US20130006626A1 (en) Voice-based telecommunication login
CN110858841B (en) Electronic device and method for registering new user through authentication of registered user
US9311461B2 (en) Security system based on questions that do not publicly identify the speaker
US11170790B2 (en) User authentication with audio reply
US10936705B2 (en) Authentication method, electronic device, and computer-readable program medium
TW201901520A (en) Use biometrics to validate user methods, systems, and media
KR20130059999A (en) Authentication system and method based by voice
WO2021131102A1 (en) Authentication method, authentication system, smart speaker, and program
CN109800550B (en) Dialogue exchange type account identity authentication method and device
JP2021039255A (en) Authentication method, authentication system, device, and program
KR101876262B1 (en) Multi-factor user authentication system
WO2020054002A1 (en) Information processing device, user authentication network system, and user authentication method
Tanui Insecurity in the Internet of Things-Amazon Alexa
JPWO2019106811A1 (en) Query response system and query response method
Usman Development of a User Centered Based user interface for building automation control
FI126129B (en) Audiovisual associative authentication method and equivalent system
CN116628653A (en) Account login method, account login device, electronic equipment and computer readable storage medium
OGorman et al. A Method for Performing Secure User-Authentication Over a Hands-Free, Voice Communications Device
JPH11296187A (en) Terminal equipment of speech command system
JP2016201065A (en) Information supply apparatus and program