JP2021039255A - Authentication method, authentication system, device, and program - Google Patents
Authentication method, authentication system, device, and program Download PDFInfo
- Publication number
- JP2021039255A JP2021039255A JP2019161003A JP2019161003A JP2021039255A JP 2021039255 A JP2021039255 A JP 2021039255A JP 2019161003 A JP2019161003 A JP 2019161003A JP 2019161003 A JP2019161003 A JP 2019161003A JP 2021039255 A JP2021039255 A JP 2021039255A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice information
- character string
- user
- authentication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、認証方法、認証システム、デバイス及びプログラムに関する。 The present invention relates to authentication methods, authentication systems, devices and programs.
特許文献1には、従来の認証方法が開示されている。特許文献1に記載の認証方法は、声紋を使用したログイン方法である。特許文献1に記載のログイン方法は、ユーザからログイン要求があると、ログイン文字列を生成した上で、ログイン文字列の少なくとも一つの文字を置換し、この置換した文字列を表示する。
ユーザは、表示された文字列を確認した後、置換前のログイン文字列を読む。特許文献1に記載のログイン方法では、文字列を読んだユーザの声紋を取得し、ログイン文字列が正しいか否かを判定するのに加え、音声に基づいて声紋認証も実行する。
After checking the displayed character string, the user reads the login character string before replacement. In the login method described in
しかしながら、特許文献1記載のログイン方法では、ログイン文字列を表示するため、視力が弱い高齢者や盲目な人などの目が不自由な人はログインすることができないという問題がある。また、運転中、料理中、子育て中、荷物配達中など、ユーザの手がふさがっている状態では、文字列を目視することが困難な状況であり、ログインできない問題がある。
However, since the login method described in
本発明は、上記事情に鑑みてなされ、目が不自由な人や、運転中、料理中、子育て中、荷物配達中など、手がふさがっている状態にあるユーザでも認証することが可能な認証方法、認証システム、デバイス及びプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and it is possible to authenticate even a visually impaired person or a user who is in a state where his / her hand is occupied, such as while driving, cooking, raising a child, or delivering a package. It is intended to provide methods, authentication systems, devices and programs.
本発明の一態様に係る認証方法は、対象ユーザが予め登録されている特定ユーザであるか否かを認証するための認証方法である。認証方法は、第一ステップと、第二ステップとを備える。第一ステップは、スピーカから所定の文字列の音声を出力させる。第二ステップは、前記第一ステップの後、前記対象ユーザが発した音声をマイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが前記特定ユーザであるか否かを判定する。前記第二ステップでは、少なくとも二つの判定を実行する。一つめの判定は、前記音声情報から認識された文字列が、前記所定の文字列に適合することを判定する。二つ目の判定は、前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することを判定する。 The authentication method according to one aspect of the present invention is an authentication method for authenticating whether or not the target user is a pre-registered specific user. The authentication method includes a first step and a second step. The first step is to output the sound of a predetermined character string from the speaker. In the second step, after the first step, the voice emitted by the target user is received by the microphone to acquire voice information, and it is determined from the voice information whether or not the target user is the specific user. .. In the second step, at least two determinations are performed. The first determination is to determine that the character string recognized from the voice information conforms to the predetermined character string. The second determination is based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, and the feature of the voice emitted by the target user is the target. Determine if it matches the characteristics of the user's voice.
本発明の一態様に係る認証システムは、スピーカと、マイクと、制御部と、を備える。前記制御部は、前記スピーカから所定の文字列の音声を出力させる。前記制御部は、その後、対象ユーザが発した音声を前記マイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが、予め登録されている特定ユーザであるか否かを判定する。前記判定は、前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、を実行する。 The authentication system according to one aspect of the present invention includes a speaker, a microphone, and a control unit. The control unit outputs a voice of a predetermined character string from the speaker. The control unit then receives the voice emitted by the target user by the microphone to acquire voice information, and determines whether or not the target user is a pre-registered specific user from the voice information. .. The determination is that the character string recognized from the voice information conforms to the predetermined character string, the feature amount recognized from the voice information, and the voice of the specific user are registered in advance. Based on the feature amount of the voice information, it is determined that the feature of the voice emitted by the target user matches the feature of the voice of the target user.
本発明の一態様に係るデバイスは、スピーカと、マイクと、制御部と、を備える。前記制御部は、前記スピーカから所定の文字列の音声を出力させる。前記制御部は、その後、対象ユーザが発した音声を前記マイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが、予め登録されている特定ユーザであるか否かを判定する。前記判定は、前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、を実行する。 A device according to one aspect of the present invention includes a speaker, a microphone, and a control unit. The control unit outputs a voice of a predetermined character string from the speaker. The control unit then receives the voice emitted by the target user by the microphone to acquire voice information, and determines whether or not the target user is a pre-registered specific user from the voice information. .. The determination is that the character string recognized from the voice information conforms to the predetermined character string, the feature amount recognized from the voice information, and the voice of the specific user are registered in advance. Based on the feature amount of the voice information, it is determined that the feature of the voice emitted by the target user matches the feature of the voice of the target user.
本発明の一態様に係るプログラムは、上記認証方法をコンピュータに実行させるためのプログラムである。 The program according to one aspect of the present invention is a program for causing a computer to execute the above authentication method.
本発明の上記態様に係る認証方法、認証システム、デバイス及びプログラムは、目が不自由な人でもでも認証することができる、という利点がある。また、本発明の上記態様に係る認証方法、認証システム、デバイス及びプログラムは、運転中、料理中、子育て中、荷物配達中など、ユーザの手がふさがっている状態であっても、手で何かを操作入力することや、画面上に何かを表示させることなく、自然な会話の中でユーザ認証することができる。また、 本発明の上記態様に係る認証方法、認証システム、デバイス及びプログラムは、第二ステップにより、ユーザの1回の発声により、次の2種類の判定により認証を行うことができ、ユーザ認証の際に、ユーザが煩わしい思いをすることない。 The authentication method, authentication system, device and program according to the above aspect of the present invention have an advantage that even a visually impaired person can authenticate. In addition, the authentication method, authentication system, device, and program according to the above aspect of the present invention can be used by hand even when the user's hand is occupied, such as while driving, cooking, raising a child, or delivering a package. It is possible to authenticate the user in a natural conversation without inputting the operation or displaying something on the screen. In addition, the authentication method, authentication system, device, and program according to the above aspect of the present invention can be authenticated by the following two types of determinations by one utterance of the user by the second step, and can be used for user authentication. At that time, the user does not have to worry about it.
(1)実施形態1
(1.1)概要
本実施形態に係る認証方法は、例えば、スマートスピーカ等のデバイス2において、デバイス2を使用しようとしている者(以下、「対象ユーザ」又は単に「ユーザ」という。)が、予め登録されている者(以下、「特定ユーザ」という。)であるか否かを、音声で認証する方法である。
(1)
(1.1) Overview In the authentication method according to the present embodiment, for example, in a
デバイス2は、スマートスピーカに限らず、パーソナルコンピュータ,スマートフォン,タブレット端末、ウェアラブル端末(時計型、メガネ型、コンタクトレンズ型、衣類型、靴型、指輪型、ブレスレット型、ネックレス型、イヤリング型など)等の情報端末や、家電機器(例:冷蔵庫、洗濯機、ガスコンロ、エアコン、テレビ、炊飯器、電子レンジなど)、玄関の扉等の施錠装置(例:スマートフォンやカードキーなどで操作できるスマートロック)、自動車等の乗り物(車両など)の認証装置(例:カーナビの認証、音声操作を行う場合の認証、施錠や始動時の認証など)、ロボット、電気機器等が挙げられる。また、これらのデバイスは、ユーザとスマートスピーカとが自然な会話の中で、音声によるデバイス操作(一のデバイスが他のデバイスを操作することも含む)を行うことができるものである。例えば、デバイス2の使用を開始するときに、本実施形態に係る認証方法を実行可能な認証システム1が、対象ユーザが特定ユーザであることを認証すると、デバイス2の使用を許可する。
本実施形態に係る認証方法は、図5に示すように、第一ステップと、第一ステップの後に行われる第二ステップとを備える。第一ステップは、スピーカ23から所定の文字列の音声を出力させる。第二ステップは、対象ユーザが発した音声をマイク21により受信して音声情報を取得し、当該音声情報から対象ユーザが特定ユーザであるか否かを判定する。
As shown in FIG. 5, the authentication method according to the present embodiment includes a first step and a second step performed after the first step. The first step is to output the sound of a predetermined character string from the
本実施形態に係る第二ステップでは、少なくとも二つの判定が実行される。二つの判定のうちの一つ目は、受信した音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つ目は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザの音声の特徴が特定ユーザの音声の特徴に適合することを判定する。なお、これらが実行される順番は特に問わない。 In the second step according to this embodiment, at least two determinations are performed. The first of the two determinations is to determine that the character string recognized from the received voice information conforms to a predetermined character string. The second is that the characteristics of the voice of the target user match the characteristics of the voice of the specific user based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user. Judge that. The order in which these are executed does not matter.
これらの判定を実行し、全てが適合することで、対象ユーザが特定ユーザであるとみなされる。したがって、本実施形態に係る認証方法によれば、音声のみで登録されたユーザであることの認証を行うことができる。 When these judgments are executed and all of them match, the target user is considered to be a specific user. Therefore, according to the authentication method according to the present embodiment, it is possible to authenticate that the user is a registered user only by voice.
これらの具体的な態様は、システム、デバイス、集積回路、コンピュータプログラム、コンピュータで読み取り可能なCD-ROM等の記録媒体等で実現されてもよい。また、これらの態様は、システム、デバイス、集積回路、コンピュータプログラム、記録媒体等の組み合わせで実現されてもよい。 These specific embodiments may be realized by a system, a device, an integrated circuit, a computer program, a recording medium such as a computer-readable CD-ROM, or the like. Further, these aspects may be realized by a combination of a system, a device, an integrated circuit, a computer program, a recording medium, and the like.
(1.2)詳細
以下、本実施形態に係る認証方法を実行する認証システム1に基づいて詳細に説明する。
(1.2) Details Hereinafter, the details will be described based on the
本実施形態に係る認証システム1は、例えば、対象ユーザがデバイス2を使用するとき、又は対象ユーザがデバイス2を使用しているときに、対象ユーザが特定ユーザであるか否かを認証するシステムである。本実施形態では、認証システム1は、図1に示すように、デバイス2と、サーバ4とで実現されている。デバイス2及びサーバ4は、通信ネットワーク8を介して双方向に通信可能に接続されている。
The
(1.2.1)通信ネットワーク
通信ネットワーク8は、デバイス2とサーバ4とが互いに通信するための双方向のネットワークである。通信ネットワーク8は、本実施形態では、インターネットであるが、例えば、企業内ネットワークのような通信範囲が制限されたネットワークであってもよい。
(1.2.1) Communication network The
通信ネットワーク8としては、例えば、伝送制御プロトコル/インターネット・プロトコル(TCP/IP),GSM(登録商標)やCDMAやLTE等のモバイルデータ通信ネットワーク,Bluetooth(登録商標),wi−fi(登録商標),Z−WAVE,Insteon,EnOcean,ZigBee,HomePlug(登録商標),MQTT(Message Queueing Telemetry Transport),XMPP(extensible messaging and presence protocol),CoAP(constrained application protocol)等、又はこれらの組み合わせが例示される。
Examples of the
(1.2.2)ハードウェア構成
デバイス2は、本実施形態では、スマートスピーカである。ただし、本開示に係るデバイス2は、スマートスピーカに限らず、パーソナルコンピュータ,スマートフォン,タブレット端末等の情報端末や、家電機器、玄関の扉等の施錠装置、自動車等の乗り物の認証装置、ロボット、電気機器等であってもよい。ここで、図2には、デバイス2のハードウェア構成を示す。図2に示すように、本実施形態に係るデバイス2は、マイク21,コンピュータ22,スピーカ23及び通信インターフェイス24を備える。
(1.2.2) Hardware Configuration The
マイク21は、周囲の音を集めるマイクロフォンである。マイク21は、入力された音をデジタル化して、音声情報に変換する。マイク21は、コンピュータ22につながっており、音声情報をコンピュータ22に出力する。
The
コンピュータ22は、デバイス2を動作させる制御プログラムを実行可能なプロセッサと、主記憶装置と、補助記憶装置とを備える。主記憶装置は、いわゆるメインメモリであり、揮発性の記憶領域(例えば、RAM)である。補助記憶装置は、制御プログラムなどを記憶する装置であり、不揮発性の記憶領域(例えば、ROM)である。不揮発性の記憶領域としては、ROMに限らず、ハードディスク,フラッシュメモリ等であってもよい。
The computer 22 includes a processor capable of executing a control program for operating the
スピーカ23は、音声情報が入力されると、アナログ化して音を出力する。スピーカ23はコンピュータ22に接続されており、コンピュータ22から出力された音声情報が入力される。
When voice information is input, the
通信インターフェイス24は、通信ネットワーク8を介してサーバ4と通信を行うインターフェイスである。通信インターフェイス24は、本実施形態では、無線LANインターフェイスであるが、本開示では、有線LANインターフェイス,無線WAN,有線WAN等であってもよい。
The
図3には、サーバ4のハードウェア構成を示す。図3に示すように、本実施形態に係るサーバ4は、コンピュータ41と、通信インターフェイス42とを備える。
FIG. 3 shows the hardware configuration of the
コンピュータ41は、デバイス2を動作させる制御プログラムを実行可能なプロセッサと、主記憶装置と、補助記憶装置とを備える。主記憶装置は、いわゆるメインメモリであり、揮発性の記憶領域(例えば、RAM)である。補助記憶装置は、制御プログラムなどを記憶する装置であり、不揮発性の記憶領域(例えば、ROM)である。不揮発性の記憶領域としては、ROMに限らず、ハードディスク,フラッシュメモリ等であってもよい。
The
通信インターフェイス42は、通信ネットワーク8を介してデバイス2と通信を行うインターフェイスである。通信インターフェイス42は、本実施形態では、無線LANインターフェイスであるが、本開示では、有線LANインターフェイス,無線WAN,有線WAN等であってもよい。
The
(1.2.3)機能構成
次に、認証システム1の機能構成を説明する。図4に示すように、デバイス2は、通信部34と、処理部33と、発音部31と、音声取得部32と、を備える。
(12.3) Functional configuration Next, the functional configuration of the
通信部34は、通信ネットワーク8を介してサーバ4との間で通信接続をし、サーバ4との間で通信を行う。通信部34は、サーバ4から送信された音声情報を受信し、受信した音声情報を処理部33に出力する。また、通信部34は、処理部33から出力された音声情報をサーバ4に送信する。通信部34は、本実施形態では、通信インターフェイス24,コンピュータ22等により実現される。
The
処理部33は、音声取得部32(マイク21)を介して受信した音声情報をサーバ4に出力したり、通信部34を介して受信した情報(音声情報を含む)に基づいて、スピーカ23で音声を出力させたり、などの各種処理を行う。処理部33は、本実施形態では、コンピュータ22により実現される。
The
発音部31は、処理部33から出力された音声情報を外部に音として出力する。発音部31は、本実施形態では、スピーカ23と、コンピュータ22とにより実現される。
The sounding
音声取得部32は、ユーザが発した音声を受信し、音声情報を取得する。音声取得部32が取得した音声情報は、処理部33に出力される。音声取得部32は、本実施形態では、マイク21とコンピュータ22とにより実現される。
The
次にサーバ4の機能構成について説明する。サーバ4は、本実施形態では、通信部5と、制御部6と、を備える。
Next, the functional configuration of the
通信部5は、通信ネットワーク8を介してデバイス2との間で通信接続をし、デバイス2との間で通信を行う。通信部5は、デバイス2から送信された音声情報を受信し、受信した音声情報を制御部6に出力する。また、通信部5は、制御部6から出力された情報をデバイス2に送信する。通信部5は、本実施形態では、通信インターフェイス42,コンピュータ41等により実現される。
The
制御部6は、通信部5から入力された情報に基づいて、各種処理を行う。制御部6は、本実施形態では、文字列生成部62,ID記憶部61,文字認識部64,文字判定部65,時間計測部66,時間判定部67,特徴抽出部68,特徴判定部69,特徴記憶部70を備える。
The
文字列生成部62は、認証の際に対象ユーザに復唱させるための文字列を生成する。文字列は、発音が可能な複数の文字からなる。文字列は、例えば、複数の平仮名(ここでは、二文字の平仮名「い」「ぬ」とする)で構成される。ただし、文字列としては、発音可能な文字の組み合わせであればよく、アルファベットからなる文字列であってもよい。本開示でいう文字列には、数字も含む。また、文字列生成部62は、平仮名の文字のランダムな組み合わせで文字列を生成してもよい。
The character
文字列生成部62は、例えば、予め登録された情報から文字列を生成してもよい。予め登録された情報としては、任意のパスワード,住所,氏名,好きな食べ物,好きな映画,通学している学校名,所属するクラブ名,好きなスポーツ等が挙げられる。
The character
文字列生成部62は、例えば、ID記憶部61に記憶されたユーザのID情報から文字列を生成してもよい。ID記憶部61には、ID情報が記憶されている。ID記憶部61には、例えば、デバイス2の音声取得部32を通して、ID情報が登録される。本開示でいう「ID情報」とは、特定ユーザのユーザ名の事である。ユーザ名は、実名でもよいし、ハンドルネームでもよい。
The character
文字列生成部62で生成した文字列の情報は、音声情報生成部63と文字判定部65とに出力される。
The character string information generated by the character
音声情報生成部63は、文字列生成部62から入力された文字列の情報から音声情報を生成する。音声情報生成部63は、本実施形態では、文字列生成部62から文字列「い」「ぬ」が入力されると、文字列に対応する音声情報「イヌ」を生成する。例えば、文字列生成部62から数字の文字列「1」「2」「3」が入力されると、音声情報「イチニサン」を生成する。さらに他例として、文字列生成部62からアルファベットの文字列「D」「O」「G」が入力されると、音声情報生成部63は、音声情報「ドッグ」を生成してもよい。音声情報生成部63で生成された音声情報は、通信部5に出力され、デバイス2に送信される。
The voice
後述のフローチャートで説明するように、デバイス2の発音部31からは、所定の文字列の音声が出力される。本開示でいう「所定の文字列」とは、認証を実行するための文字列を意味する。本実施形態では、音声情報生成部63で生成された音声情報に基づいて音声が出力される。例えば、本実施形態では、デバイス2は、発音部31によって「『イヌ』と発音して下さい」、あるいは「『イヌ』という言葉を繰り返してください」と出力する。これを聞いた対象ユーザは、「イヌ」と復唱することができる。
As will be described in the flowchart described later, the sounding
文字認識部64は、通信部5を介して受け取ったデバイス2からの音声情報に基づいて、文字列を認識する。文字認識部64は、本実施形態では、例えば、デバイス2から音声情報である「イヌ」を受け取ると、文字列の各文字「い」「ぬ」を認識する。各文字の認識は、例えば、音声パターンマッチング技術により実現可能である。文字認識部64によって認識された文字列の情報は、文字判定部65に出力される。
The
文字判定部65は、文字列生成部62で生成された文字列と、入力された文字列の情報とが一致(適合)するか否かを判定する。また、文字列生成部62で生成された文字列と、入力された文字列の情報とが一致(適合)するか否かは、例えば、所定のテーブル等に対応付けが登録されているか否か、反対語、同義語、同音異義語、同一文字列、略同一文字列等など種々の方法が適用できる。文字判定部65により判定された結果は、文字判定部65から出力され、認証部71に出力される。
The
時間計測部66は、デバイス2が所定の文字列に対応する音声を発音してから、音声情報を取得するまでの時間を計測し、時間情報を生成する。要するに、時間計測部66は、第一ステップが実行された時から対象ユーザが発した音声に対応する音声情報を取得するまでの時間を計測する。時間計測部66は、例えば、コンピュータ41の内部のタイマにより実現される。本実施形態では、デバイス2が起動した時点(認証の開始時点)をタイプスタンプとしてサーバのメインメモリに記録し、この認証の開始時点から、デバイス2から送信された音声情報を通信部5で受信した時点までをもって、「第一ステップが実行された時から対象ユーザが発した音声に対応する音声情報を取得するまでの時間」とする。ただし、本開示では、発音部31から音声が出力された時点から、音声取得部32で音声が入力された時点までをもって、「第一ステップが実行された時から対象ユーザが発した音声に対応する音声情報を取得するまでの時間」としてもよい。要するに、「第一ステップが実行された時」とは、厳密な意味で第一ステップが開始された時を意味するのではなく、第一ステップの実行中のいずれかから開始されていればよい。
The
時間計測部66で生成された時間情報は、時間判定部67に出力される。
The time information generated by the
時間判定部67は、時間計測部66で出力された時間情報が入力されると、時間情報が閾値以内であるか否かを判定する。要するに、時間判定部67は、第一ステップが実行された時から音声情報を取得するまでの時間が所定時間以内であることを判定する。本実施形態では、閾値は、好ましくは、5[s]以上60[s]以下のうちのいずれかである。より好ましくは、閾値は、5[s]以上20[s]以下のうちのいずれかである。
When the time information output by the
時間判定部67により判定された結果は、時間判定部67から出力され、認証部71に出力される。
The result determined by the
特徴抽出部68は、通信部5を介して受け取ったデバイス2からの音声情報に基づいて、音声の特徴量を抽出する。本実施形態では、特徴抽出部68は、対象ユーザが発した音声の音声情報から、特徴ベクトルを抽出する。音声の特徴量の抽出は、MFCC(Mel-Frequency Cepstrum Coefficients),線形予測 (Linear Predictive Coding;LPC),PLP(Perceptual Linier Prediction),LSP(Line Spectrum Pair)等による方法が例示される。音声の特徴量の抽出は、これらの方法を組み合わせてもよい。
The
特徴抽出部68で抽出された特徴量(特徴ベクトル)の情報は、特徴判定部69に出力される。
The information of the feature amount (feature vector) extracted by the
特徴判定部69は、特徴抽出部68から入力された特徴量の情報と、特徴記憶部70に特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。特徴判定部69による判定は、例えば、特徴抽出部68から入力された特徴量と、特徴記憶部70から入力された音声情報の特徴量との差分が、閾値以下である場合に、「適合する」と判定する。要するに、ここでいう「適合する」とは、厳密に同一であることを意味するのではなく、特徴量の傾向が同じあれば、「適合する」範疇であるとする。
The
特徴記憶部70には、予め、特定ユーザの音声として音声情報が登録されている。特徴記憶部70への音声情報の特徴量の登録は、デバイス2の音声取得部32を介して入力された音声情報が、特徴抽出部68により抽出された後に行われる。特徴記憶部70は、本実施形態では、不揮発性の記憶領域により実現される。
Voice information is registered in advance in the
特徴判定部69により判定された結果は、特徴判定部69から出力され、認証部71に入力される。
The result determined by the
認証部71は、文字判定部65,時間判定部67及び特徴判定部69から、全て適合することの判定の情報が入力されると、認証が成功したと判定する。本実施形態では、認証部71は、認証が成功したと判定すると、認証が成功したことの情報(以下、成功情報という)を通信部5を介して、デバイス2に送信する。
The
一方、認証部71は、文字判定部65,時間判定部67及び特徴判定部69の少なくとの一つから、適合しないことの判定の情報が入力されると、認証が失敗したと判定する。認証が失敗したと判定すると、認証が失敗したことの情報(以下、失敗情報という)を、通信部5を介して、デバイス2に送信する。
On the other hand, the
デバイス2の処理部33に成功情報が入力されると、処理部33は、例えば、発音部31から「認証が成功しました」と出力させ、以降のデバイス2の使用を許可する。一方、失敗情報が処理部33に入力されると、処理部33は、例えば、発音部31から「もう一度、繰り返してください」と出力させ、再び、認証を行う。動作の詳しい説明については、フローチャートを用いて説明する。
When the success information is input to the
(1.2.4)動作
次に、認証システム1の動作について、図5を用いて説明する。図5は本実施形態に係る認証システム1における認証方法の一例を示すシーケンス図である。
(12.4) Operation Next, the operation of the
ユーザは、デバイス2に対して何らかの操作を行う(例えば、電源ON)。すると、デバイス2は、起動する(S1)。デバイス2は起動後、認証が必要な操作が実行されると(例えば、ユーザが商品を購入する等の認証が必要な操作を行うと)、認証の第一ステップが実行される。具体的に、デバイス2は、起動したことの情報を、通信ネットワーク8を介して、サーバ4に送信する(S2)。
The user performs some operation on the device 2 (for example, the power is turned on). Then, the
サーバ4は、起動情報を受信すると(S3)、制御部6で文字列の生成を行い(S4)、生成した文字列の情報を、通信ネットワーク8を介してデバイス2に送信する(S5)。
When the
デバイス2は、文字列の情報を受信し(S6)、スピーカ23により文字列の音声を出力する(S7)。ここでは、デバイス2は、例えば「『イヌ』と繰り返して下さい」などと出力する。ユーザは、デバイス2から出力された音声に従い、これに対応する文字列を復唱する。ここでは、ユーザは、「イヌ」と発音する。
The
次に、認証システム1は、第二ステップを実行する。デバイス2は、ユーザが発音した音声を、マイク21から取得し(S8)、音声情報に変換する。そして、デバイス2は、ここで取得した音声情報を、通信ネットワーク8を介して、サーバ4に送信する(S9)。
Next, the
サーバ4は、音声情報を受信すると(S10)、認証処理を開始する(S11)。そして、サーバ4は、認証処理を行った結果を、通信ネットワーク8を介して、デバイス2に送信する(S12)と共に、サーバ4のメインメモリに格納する(S15)。
When the
デバイス2は、認証結果を受信し(S13)、その後の処理を実行する(S14)。
The
認証処理の詳細を、図6に示す。図6は認証処理のフローチャートである。 The details of the authentication process are shown in FIG. FIG. 6 is a flowchart of the authentication process.
サーバ4は、認証処理を開始すると(S110)、受信した音声情報から認識された文字列が、スピーカ23から出力した文字列(デバイス2に送信した文字列)に適合するか否かを判定する(S111)。
When the
受信した音声情報から認識された文字列が、スピーカ23から出力した文字列に適合すると判定すると、ステップ112の判定に進み、適合しないと判定すると、認証失敗であると判定する(S114)。
If it is determined that the character string recognized from the received voice information matches the character string output from the
ステップ112では、受信した音声情報から抽出された特徴ベクトルが、予め登録された音声情報の特徴ベクトルに合致するか否かを判定する(S112)。ここでいう「合致」とは、厳密に一致することをだけを意味するのではなく、特徴ベクトルの傾向が共通することも含む。 In step 112, it is determined whether or not the feature vector extracted from the received voice information matches the feature vector of the voice information registered in advance (S112). The term "match" as used herein does not only mean that the match is exact, but also includes that the tendency of the feature vectors is common.
受信した音声情報から抽出された特徴ベクトルが、予め登録された音声情報の特徴ベクトルに合致するか否かを判定し、合致したと判定すると、ステップ113の判定に進み、合致したと判定すると、認証失敗であると判定する(S114)。 It is determined whether or not the feature vector extracted from the received voice information matches the feature vector of the voice information registered in advance, and if it is determined that the feature vector matches, the process proceeds to the determination in step 113, and if it is determined that the feature vector matches, it is determined. It is determined that the authentication has failed (S114).
ステップ113では、デバイス2のスピーカ23から出力された時点から、マイク21から音声が取得されるまでの時間tが、閾値以下であるか否かを判定する。
In step 113, it is determined whether or not the time t from the time when the sound is output from the
デバイス2のスピーカ23から出力された時点から、マイク21から音声が取得されるまでの時間tが、閾値以下であると判定すると、認証が成功したと判定し、時間tが閾値よりも大きい場合には、認証失敗であると判定する(S114)。
When it is determined that the time t from the time when the output from the
認証が失敗したと判定すると、サーバ4は、ステップ5に戻り、再び文字列をデバイス2に送信して、認証をやり直す。本実施形態では、認証が成功するまで、繰り返し認証を実行するが、認証の回数(例えば、3回)を制限し、これを超えた場合にはデバイス2の電源をOFFにするなどしてもよい。
If it is determined that the authentication has failed, the
(2)変形例
以上説明した実施形態1に係る認証システム1及び認証方法は、本開示の一例に過ぎない。以下、本開示に係る認証システム1及び認証方法お変形例を列挙する。以下のいくつかの変形例と上記実施形態とは適宜組み合わせて用いることができる。
(2) Modified Example The
上記実施形態では、制御部6は、サーバ4が備えたが、図7に示すように、制御部6はデバイス2のコンピュータ22(図2参照)により実現されてもよい。この場合、通信ネットワーク8を介した音声情報の送受信はなくてもよい。制御部6は、実施形態1で説明した機能構成と同じであるため、説明を省略する。
In the above embodiment, the
上記実施形態では、スピーカ23とマイク21が一つの筐体にあり、制御部6が別の筐体にあるが、これらは一つの筺体に収まっていてもよいし、それぞれが別の筐体に収まっていてもよい。
In the above embodiment, the
上記実施形態では、文字列として「いぬ」を例示したが、これに限らず、文字列として、文章(例えば、「いぬがかわいい」)などであってもよく、文字数に制限はない。文字列を、主語と述語とを含む文章にすると、長い文字列でもユーザが復唱しやすくて好ましい。なお、この所定の文字列を出力する前後に、認証には関係がなく、使用者がデバイスと会話できるような音声情報が、デバイスの発音部31から出力されても良い。
In the above embodiment, "dog" is illustrated as a character string, but the character string may be a sentence (for example, "dog is cute") or the like, and the number of characters is not limited. It is preferable that the character string is a sentence including the subject and the predicate because it is easy for the user to repeat even a long character string. Before and after outputting this predetermined character string, voice information that is not related to authentication and allows the user to talk with the device may be output from the sounding
上記実施形態では、認証の対象となる特定ユーザを一人として説明したが、本開示では、特定ユーザは複数であってもよい。 In the above embodiment, the specific user to be authenticated is described as one person, but in the present disclosure, there may be a plurality of specific users.
上記実施形態では、認証方法の開始は、デバイス2の起動によって実行されたが、例えば、デバイス2に対し、データを双方に送受信可能に接続されたユーザ端末(例えば、スマートフォン)から認証方法の開始が指示されてもよい。その場合、上記のように、デバイス2のスピーカ23及びマイク21を介して音声の送受信を行ってもよいし、ユーザ端末のスピーカ及びマイクを介して音声の送受信を行ってもよい。
この場合において、例えば、ユーザ端末の特定の操作(例えば、インターネットにおける決済)を実行したことの信号を、デバイス2が受信したことをトリガーにして、デバイス2がサーバ4に認証開始の信号を送信してもよい。そして、認証の結果を、デバイス2を介してユーザ端末に送信し、ユーザ端末は、認証が成功した旨の信号を受けることで、以後の処理を実行可能としてもよい。
In the above embodiment, the start of the authentication method is executed by activating the
In this case, for example, the
(3)まとめ
以上説明したように、第1の態様の認証方法は、対象ユーザが予め登録されている特定ユーザであるか否かを認証するための認証方法である。認証方法は、第一ステップと、第二ステップとを備える。第一ステップは、スピーカ23から所定の文字列の音声を出力させる。第二ステップは、第一ステップの後、対象ユーザが発した音声をマイク21により受信して音声情報を取得し、当該音声情報から対象ユーザが特定ユーザであるか否かを判定する。第二ステップでは、少なくとも二つの判定を実行する。一つめの判定は、音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つめの判定は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。
また、第二ステップでは、三つ目の判定として、第一ステップが実行された時から音声情報を取得するまでの時間が、所定時間以内であることを更に判定してもよい。この三つ目の判定は必須ではない。なお、一つ目,二つ目,三つ目の判定は、判定を行う順番が入れ替わってもよい。
(3) Summary As described above, the authentication method of the first aspect is an authentication method for authenticating whether or not the target user is a pre-registered specific user. The authentication method includes a first step and a second step. The first step is to output the sound of a predetermined character string from the
Further, in the second step, as the third determination, it may be further determined that the time from the execution of the first step to the acquisition of the voice information is within a predetermined time. This third judgment is not essential. For the first, second, and third judgments, the order in which the judgments are made may be changed.
この態様によれば、音声の発音で認証することができるため、視力が弱い者等の目が不自由な者や、文字を読むことができない者(子供,外国人等)であっても認証を行うことができる。また、第1の態様によれば、従前の認証方法のように、パスワードを記憶する必要がない。
また、この態様によれば、運転中、料理中、子育て中、荷物配達中など、ユーザの手がふさがっている状態であっても、手で何かを操作入力することや、画面上に何かを表示させることなく、自然な会話の中でユーザ認証することができる。
また、この態様によれれば、手でデバイスを操作することなく、スマートスピーカ(スマートフォン等にその機能が含まれているものを含む)のように会話の中で認証できるため、デバイスの使い方がわからない者であっても、自然な会話の中で認証することができる。
また、この態様によれば、第二ステップでは、ユーザの1回の発声により、次の2種類の判定により認証を行うことができ、ユーザ認証の際に、ユーザが煩わしい思いをすることない。すなわち、上記認証方法は、デバイスからの質問にユーザが1回の回答(発音)することにより、2つの判定がされるため、何回も質問に回答することなく、ユーザ認証の際に、ユーザが煩わしい思いをすることがありません。すなわち、一つ目の判定は、音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つ目の判定は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。この一つ目の判定では、ユーザがパスワードを覚える必要がない。二つ目の判定では、なりすましによる認証を防止できる。
According to this aspect, since it is possible to authenticate by the pronunciation of voice, even a visually impaired person such as a person with weak eyesight or a person who cannot read characters (children, foreigners, etc.) can be authenticated. It can be performed. Further, according to the first aspect, it is not necessary to store the password as in the conventional authentication method.
In addition, according to this aspect, even when the user's hand is occupied, such as while driving, cooking, raising a child, or delivering a package, something can be manually input or displayed on the screen. It is possible to authenticate the user in a natural conversation without displaying.
In addition, according to this aspect, it is possible to authenticate in a conversation like a smart speaker (including a smartphone or the like whose function is included) without manually operating the device, so that the device can be used. Even those who do not understand can be authenticated in a natural conversation.
Further, according to this aspect, in the second step, the user can be authenticated by the following two types of determinations by one utterance of the user, and the user does not feel annoyed at the time of user authentication. That is, in the above authentication method, since the user answers (pronounces) the question from the device once to make two judgments, the user does not have to answer the question many times and the user is authenticated. Does not bother you. That is, the first determination determines that the character string recognized from the voice information conforms to a predetermined character string. The second determination is based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, and the feature of the voice emitted by the target user is the voice of the target user. Determine if it fits the feature. In this first determination, the user does not have to remember the password. In the second determination, authentication by spoofing can be prevented.
第2の態様の認証方法では、第1の態様において、所定の文字列が、予め登録された、特定ユーザのID情報である。 In the authentication method of the second aspect, in the first aspect, a predetermined character string is pre-registered ID information of a specific user.
この態様によれば、対象ユーザの使い慣れた文字列を用いて認証を行うことができる。 According to this aspect, authentication can be performed using a character string familiar to the target user.
第3の態様の認証システム1では、スピーカ23と、マイク21と、制御部6と、を備えた認証システム1である。制御部6は、スピーカ23から所定の文字列の音声を出力させ、その後、対象ユーザが発した音声を前記マイク21により受信して音声情報を取得し、当該音声情報から対象ユーザが、予め登録されている特定ユーザであるか否かを判定する。その判定は、少なくとも二つの判定を含む。一つ目の判定は、音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つ目の判定は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。
前記判定は、三つ目の判定として、第一ステップが実行された時から音声情報を取得するまでの時間が、所定時間以内であることを更に判定してもよい。この三つ目の判定は必須ではない。なお、一つ目,二つ目,三つ目の判定は、判定を行う順番が入れ替わってもよい。
The
As the third determination, the determination may further determine that the time from the execution of the first step to the acquisition of voice information is within a predetermined time. This third judgment is not essential. For the first, second, and third judgments, the order in which the judgments are made may be changed.
この態様によれば、音声の発音で認証することができるため、視力が弱い者等の目が不自由な者や、文字を読むことができない者(子供,外国人等)であっても認証を行うことができる。また、この態様によれば、従前の認証システムのように、パスワードを記憶する必要がない。 According to this aspect, since it is possible to authenticate by the pronunciation of voice, even a visually impaired person such as a person with weak eyesight or a person who cannot read characters (children, foreigners, etc.) can be authenticated. It can be performed. Further, according to this aspect, it is not necessary to memorize the password as in the conventional authentication system.
第4の態様のデバイス2は、スピーカ23と、マイク21と、制御部6と、を備える。制御部6は、スピーカ23から所定の文字列の音声を出力させ、その後、対象ユーザが発した音声をマイク21により受信して音声情報を取得し、当該音声情報から対象ユーザが、予め登録されている特定ユーザであるか否かを判定する。その判定は、少なくとも二つの判定を含む。一つ目の判定は、音声情報から認識された文字列が、所定の文字列に適合することを判定する。二つ目の判定は、音声情報から認識された特徴量と、特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、対象ユーザが発した音声の特徴が対象ユーザの音声の特徴に適合することを判定する。
前記判定は、三つ目の判定として、第一ステップが実行された時から音声情報を取得するまでの時間が、所定時間以内であることを更に判定してもよい。この三つ目の判定は必須ではない。なお、一つ目,二つ目,三つ目の判定は、判定を行う順番が入れ替わってもよい。
The
As the third determination, the determination may further determine that the time from the execution of the first step to the acquisition of voice information is within a predetermined time. This third judgment is not essential. For the first, second, and third judgments, the order in which the judgments are made may be changed.
この態様によれば、音声の発音で認証することができるため、視力が弱い者等の目が不自由な者や、文字を読むことができない者であっても認証を行うことができる。また、この態様によれば、従前のデバイスのように、認証の祭に、パスワードを記憶する必要がない。 According to this aspect, since it is possible to authenticate by the pronunciation of voice, it is possible to authenticate even a visually impaired person such as a person with weak eyesight or a person who cannot read characters. Also, according to this aspect, it is not necessary to memorize the password at the authentication festival as in the conventional device.
第5の態様のプログラムは、第1の態様又は第2の態様の認証方法をコンピュータ4122に実行させるためのプログラムである。 The program of the fifth aspect is a program for causing the computer 4122 to execute the authentication method of the first aspect or the second aspect.
この態様によれば、プログラムによって、音声による認証を実行させることができる。 According to this aspect, the program can execute voice authentication.
ただし、第2の態様は、本発明の認証方法においては、必須の構成ではなく、適宜選択して採用することができる。 However, the second aspect is not an essential configuration in the authentication method of the present invention, and can be appropriately selected and adopted.
1 認証システム
2 デバイス
21 マイク
23 スピーカ
6 制御部
1
Claims (9)
制御部が、
スピーカから所定の文字列の音声を出力させる第一ステップと、
前記第一ステップの後、前記対象ユーザが発した音声をマイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが前記特定ユーザであるか否かを判定する第二ステップと、
を備え、
前記第二ステップでは、
前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、
前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、
を実行する、
認証方法。 It is an authentication method for authenticating whether or not the target user is a pre-registered specific user.
The control unit
The first step of outputting the sound of a predetermined character string from the speaker,
After the first step, a second step of receiving the voice emitted by the target user with a microphone to acquire voice information and determining whether or not the target user is the specific user from the voice information.
With
In the second step,
Judgment that the character string recognized from the voice information conforms to the predetermined character string, and
Based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, the voice feature emitted by the target user matches the voice feature of the target user. Judgment to do and
To execute,
Authentication method.
請求項1記載の認証方法。 In the second step, it is further determined that the time from the time when the first step is executed to the acquisition of the voice information is within a predetermined time.
The authentication method according to claim 1.
請求項1又は請求項2記載の認証方法。 The predetermined character string is the ID information of the specific user registered in advance.
The authentication method according to claim 1 or 2.
前記制御部は、
前記スピーカから所定の文字列の音声を出力させ、
その後、対象ユーザが発した音声を前記マイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが、予め登録されている特定ユーザであるか否かを判定するように構成されており、
前記判定では、
前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、
前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、
を実行する、
認証システム。 An authentication system equipped with a speaker, a microphone, and a control unit.
The control unit
The sound of a predetermined character string is output from the speaker, and the sound is output.
After that, the voice emitted by the target user is received by the microphone to acquire voice information, and it is determined from the voice information whether or not the target user is a pre-registered specific user. Ori,
In the above judgment,
Judgment that the character string recognized from the voice information conforms to the predetermined character string, and
Based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, the voice feature emitted by the target user matches the voice feature of the target user. Judgment to do and
To execute,
Authentication system.
請求項4記載の認証システム。 In the determination, it is further determined that the time from the time when the voice of the predetermined character string is output from the speaker to the acquisition of the voice information is within the predetermined time.
The authentication system according to claim 4.
前記制御部は、
前記スピーカから所定の文字列の音声を出力させ、
その後、対象ユーザが発した音声を前記マイクにより受信して音声情報を取得し、当該音声情報から前記対象ユーザが、予め登録されている特定ユーザであるか否かを判定するように構成されており、
前記判定では、
前記音声情報から認識された文字列が、前記所定の文字列に適合することの判定と、
前記音声情報から認識された特徴量と、前記特定ユーザの音声として予め登録されている音声情報の特徴量とに基づき、前記対象ユーザが発した音声の特徴が前記対象ユーザの音声の特徴に適合することの判定と、
を実行する、
デバイス。 A device equipped with a speaker, a microphone, and a control unit.
The control unit
The sound of a predetermined character string is output from the speaker, and the sound is output.
After that, the voice emitted by the target user is received by the microphone to acquire voice information, and it is determined from the voice information whether or not the target user is a pre-registered specific user. Ori,
In the above judgment,
Judgment that the character string recognized from the voice information conforms to the predetermined character string, and
Based on the feature amount recognized from the voice information and the feature amount of the voice information registered in advance as the voice of the specific user, the voice feature emitted by the target user matches the voice feature of the target user. Judgment to do and
To execute,
device.
請求項6記載のデバイス。 In the determination, it is further determined that the time from the time when the voice of the predetermined character string is output from the speaker to the acquisition of the voice information is within the predetermined time.
The device according to claim 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019161003A JP2021039255A (en) | 2019-09-04 | 2019-09-04 | Authentication method, authentication system, device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019161003A JP2021039255A (en) | 2019-09-04 | 2019-09-04 | Authentication method, authentication system, device, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021039255A true JP2021039255A (en) | 2021-03-11 |
Family
ID=74847047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019161003A Pending JP2021039255A (en) | 2019-09-04 | 2019-09-04 | Authentication method, authentication system, device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021039255A (en) |
-
2019
- 2019-09-04 JP JP2019161003A patent/JP2021039255A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7294477B2 (en) | Authentication device, authentication method and computer program | |
KR102513297B1 (en) | Electronic device and method for executing function of electronic device | |
US10832686B2 (en) | Method and apparatus for pushing information | |
EP3272101B1 (en) | Audiovisual associative authentication method, related system and device | |
CN117056892A (en) | Secure authorization for access to private data in virtual reality | |
US20130006626A1 (en) | Voice-based telecommunication login | |
CN110858841B (en) | Electronic device and method for registering new user through authentication of registered user | |
US9311461B2 (en) | Security system based on questions that do not publicly identify the speaker | |
US11170790B2 (en) | User authentication with audio reply | |
US10936705B2 (en) | Authentication method, electronic device, and computer-readable program medium | |
TW201901520A (en) | Use biometrics to validate user methods, systems, and media | |
KR20130059999A (en) | Authentication system and method based by voice | |
WO2021131102A1 (en) | Authentication method, authentication system, smart speaker, and program | |
CN109800550B (en) | Dialogue exchange type account identity authentication method and device | |
JP2021039255A (en) | Authentication method, authentication system, device, and program | |
KR101876262B1 (en) | Multi-factor user authentication system | |
WO2020054002A1 (en) | Information processing device, user authentication network system, and user authentication method | |
Tanui | Insecurity in the Internet of Things-Amazon Alexa | |
JPWO2019106811A1 (en) | Query response system and query response method | |
Usman | Development of a User Centered Based user interface for building automation control | |
FI126129B (en) | Audiovisual associative authentication method and equivalent system | |
CN116628653A (en) | Account login method, account login device, electronic equipment and computer readable storage medium | |
OGorman et al. | A Method for Performing Secure User-Authentication Over a Hands-Free, Voice Communications Device | |
JPH11296187A (en) | Terminal equipment of speech command system | |
JP2016201065A (en) | Information supply apparatus and program |