JP7073910B2 - Voice-based authentication device, voice-based authentication method, and program - Google Patents
Voice-based authentication device, voice-based authentication method, and program Download PDFInfo
- Publication number
- JP7073910B2 JP7073910B2 JP2018100010A JP2018100010A JP7073910B2 JP 7073910 B2 JP7073910 B2 JP 7073910B2 JP 2018100010 A JP2018100010 A JP 2018100010A JP 2018100010 A JP2018100010 A JP 2018100010A JP 7073910 B2 JP7073910 B2 JP 7073910B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sound
- data
- user
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、利用者の発話を用いて認証処理を行う、音声型認証装置、及び音声型認証方法に関し、更には、これらを実現するためのプログラムに関する。 The present invention relates to a voice-type authentication device and a voice-type authentication method that perform authentication processing using a user's utterance, and further relates to a program for realizing these.
近年、人の身体的特徴を用いて認証を行う生体認証が注目されている。生体認証に用いられる身体的特徴としては、顔、虹彩、指紋、静脈、音声等が挙げられる。このうち、音声を使った生体認証では、利用者は、パスワードを発話するだけで良く、利用者にとって最も手軽である。 In recent years, biometric authentication, which authenticates using the physical characteristics of a person, has attracted attention. Physical features used for biometrics include face, iris, fingerprints, veins, voice and the like. Of these, in biometric authentication using voice, the user only has to speak the password, which is the easiest for the user.
但し、音声を使った生体認証では、データのマスクが難しい点と、録音データを用いたなりすましが簡単にできてしまう点とから、セキュリティの確保が難しいという問題がある。これに対して、特許文献1は、セキュリティが確保された音声型認証装置を提案している。 However, biometric authentication using voice has a problem that it is difficult to secure security because it is difficult to mask data and spoofing using recorded data can be easily performed. On the other hand, Patent Document 1 proposes a voice-type authentication device in which security is ensured.
具体的には、特許文献1に開示された音声型認証装置では、まず、可変タグの全てとパスワードとを直結して得られた認証文字列を作成し、ユーザに対して、この認証文字列の発話を要求する。次に、音声型認証装置は、発話の音声データを特徴量化し、可変タグの位置を検出する。その後、音声型認証装置は、検出したタグの位置に基づいて、パスワードを特定し、特定したパスワードと登録パスワードとを比較して、認証を許可するかどうかを判定する。なお、可変タグとしては、数字列、単語等が用いられる。 Specifically, in the voice-type authentication device disclosed in Patent Document 1, first, an authentication character string obtained by directly connecting all of the variable tags and the password is created, and this authentication character string is given to the user. Request to speak. Next, the voice-type authentication device features the voice data of the utterance and detects the position of the variable tag. After that, the voice-type authentication device identifies the password based on the position of the detected tag, compares the identified password with the registered password, and determines whether or not authentication is permitted. As the variable tag, a number string, a word, or the like is used.
このように、特許文献1に開示された音声型認証装置では、パスワードと可変タグとを組み合わせることで、パスワードのマスクが可能となる。また、特許文献1に開示された音声型認証装置では、可変タグは定期的に変更されるので、録音データを用いたなりすましによる認証の排除が可能となる。 As described above, in the voice type authentication device disclosed in Patent Document 1, the password can be masked by combining the password and the variable tag. Further, in the voice type authentication device disclosed in Patent Document 1, since the variable tag is changed periodically, it is possible to eliminate the authentication by spoofing using the recorded data.
しかしながら、特許文献1に開示された音声型認証装置では、ユーザに対して、予め、可変タグの内容と、可変タグが挿入される位置とが提示され、ユーザは、可変タグとパスワードとを組み合わせた認証文字列を、提示されたように読み上げる必要がある。このため、特許文献1に開示された音声型認証装置では、音声認証による手軽さがなく、ユーザにとっての負担が大きいという問題もある。 However, in the voice-type authentication device disclosed in Patent Document 1, the content of the variable tag and the position where the variable tag is inserted are presented to the user in advance, and the user combines the variable tag and the password. You need to read the authentication string as presented. Therefore, the voice-type authentication device disclosed in Patent Document 1 has a problem that the voice authentication is not easy and the burden on the user is heavy.
本発明の目的の一例は、上記問題を解消し、音声認証において、セキュリティの確保を図りつつ、ユーザにおける負担を軽減し得る、音声型認証装置、音声型認証方法、及びプログラムを提供することにある。 An example of an object of the present invention is to provide a voice-type authentication device, a voice-type authentication method, and a program that can solve the above-mentioned problems and reduce the burden on the user while ensuring security in voice authentication. be.
上記目的を達成するため、本発明の一側面における音声型認証装置は、ユーザの音声を用いて認証処理を行うための装置であって、
前記ユーザの音声をマスクするマスク音が、認証に際して前記ユーザが発した音声に、
重なるように、前記マスク音の音データを再生する、マスク音出力部と、
認証に際して前記ユーザが発した音声と前記マスク音とが重なった状態の音声データを取得し、取得した前記音声データから、前記マスク音の音データを用いて、前記ユーザが発した音声の音声データを抽出する、音声分析部と、
抽出された前記ユーザが発した音声の音声データを用いて、認証処理を実行する、認証処理部と、
を備えている、
ことを特徴とする。
In order to achieve the above object, the voice type authentication device in one aspect of the present invention is a device for performing authentication processing using a user's voice.
The mask sound that masks the user's voice is the voice emitted by the user during authentication.
A mask sound output unit that reproduces the sound data of the mask sound so as to overlap with each other.
At the time of authentication, voice data in a state where the voice emitted by the user and the mask sound are overlapped is acquired, and the voice data of the voice emitted by the user is used from the acquired voice data using the sound data of the mask sound. With the voice analysis unit,
An authentication processing unit that executes authentication processing using the extracted voice data of the voice emitted by the user, and
Is equipped with
It is characterized by that.
また、上記目的を達成するため、本発明の一側面における音声型認証方法は、ユーザの音声を用いて認証処理を行うための方法であって、
(a)前記ユーザの音声をマスクするマスク音が、認証に際して前記ユーザが発した音声に、重なるように、前記マスク音の音データを再生する、ステップと、
(b)認証に際して前記ユーザが発した音声と前記マスク音とが重なった状態の音声データを取得し、取得した前記音声データから、前記マスク音の音データを用いて、前記ユーザが発した音声の音声データを抽出する、ステップと、
(c)抽出された前記ユーザが発した音声の音声データを用いて、認証処理を実行する、ステップと、
を有する、
ことを特徴とする。
Further, in order to achieve the above object, the voice type authentication method in one aspect of the present invention is a method for performing an authentication process using a user's voice.
(A) A step of reproducing the sound data of the mask sound so that the mask sound that masks the voice of the user overlaps the voice emitted by the user at the time of authentication.
(B) At the time of authentication, voice data in a state where the voice emitted by the user and the mask sound overlap is acquired, and the voice emitted by the user is used from the acquired voice data using the sound data of the mask sound. Steps and steps to extract audio data
(C) A step of executing an authentication process using the extracted voice data of the voice emitted by the user, and
Have,
It is characterized by that.
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによって、ユーザの音声を用いて認証処理を行うためのプログラムであって、
前記コンピュータに、
(a)前記ユーザの音声をマスクするマスク音が、認証に際して前記ユーザが発した音声に、重なるように、前記マスク音の音データを再生する、ステップと、
(b)認証に際して前記ユーザが発した音声と前記マスク音とが重なった状態の音声データを取得し、取得した前記音声データから、前記マスク音の音データを用いて、前記ユーザが発した音声の音声データを抽出する、ステップと、
(c)抽出された前記ユーザが発した音声の音声データを用いて、認証処理を実行する、ステップと、
を実行させる、ことを特徴とする。
Further, in order to achieve the above object, the program in one aspect of the present invention is a program for performing an authentication process using a user's voice by a computer.
To the computer
(A) A step of reproducing the sound data of the mask sound so that the mask sound that masks the voice of the user overlaps the voice emitted by the user at the time of authentication.
(B) At the time of authentication, voice data in a state where the voice emitted by the user and the mask sound overlap is acquired, and the voice emitted by the user is used from the acquired voice data using the sound data of the mask sound. Steps and steps to extract audio data
(C) A step of executing an authentication process using the extracted voice data of the voice emitted by the user, and
It is characterized by executing.
以上のように、本発明によれば、音声認証において、セキュリティの確保を図りつつ、ユーザにおける負担を軽減することができる。 As described above, according to the present invention, it is possible to reduce the burden on the user while ensuring security in voice authentication.
(実施の形態)
以下、本発明の実施の形態における、音声型認証装置、音声型認証方法、及びプログラムについて、図1~図5を参照しながら説明する。
(Embodiment)
Hereinafter, the voice-type authentication device, the voice-type authentication method, and the program according to the embodiment of the present invention will be described with reference to FIGS. 1 to 5.
[装置構成]
最初に、図1を用いて、本実施の形態における音声型認証装置の概略構成について説明する。図1は、本発明の実施の形態における音声型認証装置の概略構成を示すブロック図である。
[Device configuration]
First, the schematic configuration of the voice-type authentication device according to the present embodiment will be described with reference to FIG. FIG. 1 is a block diagram showing a schematic configuration of a voice-type authentication device according to an embodiment of the present invention.
図1に示す、本実施の形態における音声型認証装置100は、ユーザの音声を用いて認証処理を行う装置である。図1に示すように、音声型認証装置100は、マスク音出力部10と、音声分析部20と、認証処理部30とを備えている。
The voice-
マスク音出力部10は、ユーザの音声をマスクするマスク音が、認証に際してユーザが発した音声に重なるように、マスク音の音データを再生する。音声分析部20は、認証に際してユーザが発した音声とマスク音とが重なった状態の音声データを取得する。そして、音声分析部20は、取得した音声データから、マスク音の音データを用いて、ユーザが発した音声の音声データを抽出する。認証処理部30は、抽出されたユーザが発した音声の音声データを用いて、認証処理を実行する。
The mask
以上のように、本実施の形態では、ユーザが認証のために発話を行うと、その発話に重なるようにマスク音が再生される。そして、両者が重なった状態の音声データから、ユーザの発話の音声データが取り出されて、認証が行われる。つまり、ユーザは、パスワード等を発話するだけで良く、従来に比べて、ユーザにおける負担は極めて小さくなる。 As described above, in the present embodiment, when the user makes an utterance for authentication, the mask sound is reproduced so as to overlap the utterance. Then, the voice data of the user's utterance is taken out from the voice data in the state where both are overlapped, and the authentication is performed. That is, the user only has to utter a password or the like, and the burden on the user is extremely small as compared with the conventional case.
また、ユーザの発話にはマスク音が重ねられるので、仮に録音されても、再生時にはユーザの発話とマスク音との両方が一緒に再生されることになる。従って、録音による音声データによって認証しようとした場合は、複数のマスク音が重なった状態の音声データが入力されるので、録音によるなりすましを容易に特定できる。本実施の形態によれば、音声認証におけるセキュリティも確保できる。 Further, since the mask sound is superimposed on the user's utterance, even if it is recorded, both the user's utterance and the mask sound are reproduced together at the time of reproduction. Therefore, when an attempt is made to authenticate by recording voice data, voice data in a state where a plurality of mask sounds are overlapped is input, so that spoofing by recording can be easily identified. According to this embodiment, security in voice authentication can be ensured.
続いて、図2を用いて、本実施の形態における音声型認証装置100の構成をより具体的に説明する。図2は、本発明の実施の形態における音声認識処理装置の具体的構成を示すブロック図である。
Subsequently, with reference to FIG. 2, the configuration of the voice-
図2に示すように、本実施の形態においては、音声型認証装置100には、音声入力装置40と、音声出力装置50とが接続されている。音声入力装置40は、マイクであり、外部の音声を音声データに変換し、得られた音声データを音声型認証装置100に入力する。音声出力装置50は、スピーカであり、マスク音出力部10によってマスク音の音データが再生されると、再生されたマスク音を外部に出力する。
As shown in FIG. 2, in the present embodiment, the
マスク音出力部10は、本実施の形態では、ユーザ60が音声入力装置40に向かって、認証データ(アカウント、パスワード等)を発話するタイミングで、マスク音の音声データを、音声出力装置50によって再生する。つまり、また、マスク音出力部10は、再生されたマスク音が、ユーザが認証のために発した音声と重なるように、再生を実行する。これにより、音声入力装置40には、ユーザが認証のために発した音声とマスク音とが入力される。そして、音声入力装置40は、ユーザが認証のために発した認証データの音声とマスク音とが重なった状態の音声データを音声分析部20に入力する。
In the present embodiment, the mask
また、マスク音出力部10は、音声データを再生すると、再生された時刻、再生時の時刻といった情報と共に、音声データを音声分析部20に入力する。更に、マスク音は、マ
スク音出力部10によって作成されていても良いし、予め作成されて登録されていても良い。
Further, when the voice data is reproduced, the mask
また、マスク音出力部10は、マスク対象となるユーザ60の音声に合わせて、マスク音のパラメータ(音量、音質、内容等)を変化させることができる。これは、一般的な傾向として、マスク音の音量が大きい程、更に、マスク音の音質が、認証時にユーザ60が発する音声の音質に近い程(例えば、人の声に近い程)、マスク効果が高くなるからである。
Further, the mask
また、マスク音の各パラメータは、予め、管理者等によって、デフォルト値として設定されていても良いし、外部の音響環境、秘匿すべき情報の重要度に応じて後から変更されても良い。マスク音のパラメータの設定の態様は、特に限定されるものではない。 Further, each parameter of the mask sound may be set as a default value in advance by an administrator or the like, or may be changed later according to the external acoustic environment and the importance of information to be kept secret. The mode of setting the parameters of the mask sound is not particularly limited.
また、マスク音出力部10によって出力されるマスク音は、音楽であっても良いし、人の声であっても良い。更には、マスク音は、波長が人の可聴域外にある音であっても良い。更に、マスク音出力部10は、なりすまし防止効果を高めるため、ユーザによる認証の度に、マスク音を変えることもできる。例えば、マスク音として音楽が利用される場合は、マスク音出力部10は、認証の度に、曲を変更する。
Further, the mask sound output by the mask
また、本実施の形態では、音声分析部20は、音声入力装置40から音声データが出力されると、この音声データを取得し、取得した音声データから、認証情報を取り出すと共に、ユーザの音声が成りすましによる音声であるかどうかの判定を行う。このため、図2に示すように、音声分析部20は、マスク音取出部21と、マスク音比較部22と、ユーザ音声復元部23と、複製音声判定部24とを備えている。
Further, in the present embodiment, when the voice data is output from the
マスク音取出部21は、音声入力装置40から音声データが入力されると、この入力された音声データを取得し、取得した音声データをマスク音比較部22に送出する。これにより、マスク音比較部22は、後述するように、音声入力装置40から入力された音声データ中のマスク音の部分を推定し、推定したマスク音の部分を特定するデータ(以下「マスク音特定データ」と表記する)を、マスク音取出部21に送出する。また、マスク音取出部21は、送出されてきたマスク音特定データと、音声入力装置40から入力された音声データとを、ユーザ音声復元部23に送出する。
When voice data is input from the
マスク音比較部22は、上述したように、まず、マスク音出力部10が生成した音データと、音声入力装置40から入力された音声データとを比較する。そして、マスク音比較部22は、比較の結果から、音声入力装置40から入力された音声データ中のマスク音の部分(成分)を推定し、推定したマスク音の部分を特定するマスク音特定データを作成する。
As described above, the mask
具体的には、音声入力装置40から入力された音声データは合成波となっているため、マスク音比較部22は、例えば、フーリエ変換等を利用して、この音声データを複数の波に分解し、分解の結果から、マスク音の部分を推定する。
Specifically, since the voice data input from the
また、マスク音比較部22は、推定したマスク音の部分を特定するマスク音特定データを、上述したように、マスク音取出部21に送出する。更に、マスク音比較部22は、マスク音特定データと、マスク音出力部10が生成した音データとを、後述の複製音声判定部24に送出する。
Further, the mask
複製音声判定部24は、音声データ(マスク音特定データ)と、マスク音出力部10が生成した音データとに基づいて、認証に際してユーザが発した音声が、なりすましによる
音声、即ち複製(録音)された音声であるかどうかを判定する。また、複製音声判定部24は、判定結果を、認証処理部30に入力する。
In the duplicate
具体的には、複製音声判定部24は、以下の条件(1)~(4)全てが満たされていない場合に、なりすましによる音声であると判定する。
Specifically, the duplicate
条件(1)は、音声入力装置40が入力した音声データに「マスク音」が存在すること、即ち、音声入力装置40から入力された音声データから、マスク音の音データと同一の音データを抽出できることである。マスク音が存在しない場合は録音の可能性があるからである。
The condition (1) is that "mask sound" exists in the voice data input by the
具体的には、複製音声判定部24は、マスク音特定データと、マスク音出力部10が生成した音データとが一致している場合は、条件(1)が満たされていると判定する。
Specifically, the duplicate
条件(2)は、「マスク音」が1つであること、即ち、音声データから抽出できた音データが、1つであることである。位相がずれた波、位相が同じ波の合成波が存在する場合は、マスク音と共に録音されたユーザの音声が入力されている可能性があるからである。 The condition (2) is that there is one "mask sound", that is, there is one sound data that can be extracted from the voice data. This is because if there is a wave that is out of phase or a combined wave that has the same phase, the user's voice recorded with the mask sound may have been input.
具体的には、複製音声判定部24は、マスク音特定データから、1つの音データのみを特定できる場合は、条件(2)が満たされていると判定する。
Specifically, the duplicate
条件(3)は、「マスク音」の音量レベルが、想定値内にあること、即ち、音声データから抽出できた音データの音量レベルが所定の範囲内であることである。マスク音の音量レベルが大きい場合、小さい場合は録音の可能性があるからである。 The condition (3) is that the volume level of the "mask sound" is within the assumed value, that is, the volume level of the sound data extracted from the voice data is within a predetermined range. This is because if the volume level of the mask sound is high, there is a possibility of recording if it is low.
具体的には、複製音声判定部24は、マスク音特定データのレベルと、音声出力装置50で再生されたマスク音の音量のレベルとの差が設定範囲内にある場合は、条件(3)が満たされていると判定する。
Specifically, the duplicate
条件(4)は、「マスク音」の再生開始時刻が、想定の範囲であること、即ち、音声データから抽出できた音データの元になった音の再生時の時刻が所定の時間帯であることである。音声出力装置50の再生開始時刻より前にマスク音が入力されていれば、録音の可能性あるからである。また、再生開始時刻から、音声入力装置40に音声が入力された時刻までに、長い時間が経過している場合も録音の可能性があるからである。
The condition (4) is that the playback start time of the "mask sound" is within the expected range, that is, the playback time of the sound that is the source of the sound data extracted from the voice data is in a predetermined time zone. There is. This is because if the mask sound is input before the reproduction start time of the
具体的には、複製音声判定部24は、マスク音特定データから元のマスク音の再生時刻を特定し、特定した時刻と、音声入力装置40での音声の入力開始時刻との差が設定範囲内にある場合は、条件(4)が満たされていると判定する。
Specifically, the duplicate
ユーザ音声復元部23は、音声入力装置40に入力された音声データから、マスク音特定データを用いて、マスク音の波長成分を除去して、ユーザの音声の音声データを抽出して、ユーザの音声を復元する。また、ユーザ音声復元部23は、マスク音の波長成分が除去された音声データを、認証処理部30に入力する。
The user
具体的には、ユーザ音声復元部23は、マスク音特定データの位相を逆位相とした音声データを作成し、作成した音声データと、音声入力装置40から入力された音声データと合成することで、マスク音の波長成分を除去することができる。なお、マスク音の波長成分の除去の手法としては、従来からの他の手法を用いることができる。
Specifically, the user
認証処理部30は、本実施の形態では、図2に示すように、音声認識部31と、認証デ
ータ照応部32と、認証判定部33と、認証データ格納部34とを備えている。
In the present embodiment, the
音声認識部31は、ユーザ音声復元部23から音声データが入力されると、入力された音声データに対して音声認識を実行し、音声データをテキストデータに変換する。また、音声認識部31は、変換によって得られたテキストデータを認証データ照応部32に送出する。
When voice data is input from the user
なお、音声認識部31による音声認識は、通常、雑音データ配下では困難である。従って、複製音声判定部24によって、複製音声であるにも関わらず、複製音声(なりすまし)ではないと判定された場合は、マスク音が除去されていない録音データが入力されているので、音声認識部31が認識に失敗する可能性は高くなる。この場合、認証が失敗となり、なりすましによる認証が回避される。
It should be noted that voice recognition by the
認証データ照応部32は、認証データ格納部34に問い合わせを行い、入力されたテキストデータを、予め登録されている認証データ(パスワード等)に照応し、照応結果を、認証判定部33に送出する。認証データ格納部34は、認証判定の対象となるデータ、例えば、暗号化された状態のID、パスワード等を格納している。
The authentication
認証判定部33は、認証データ照応部32による照応の結果に基づいて、認証許可又は不許可の判定を行う。また、認証判定部33は、認証の結果を、ユーザ60に通知する。
The
[装置動作]
次に、本実施の形態における音声型認証装置100の動作について図3を用いて説明する。図3は、本発明の実施の形態における音声型認証装置の動作を示すフロー図である。以下の説明においては、適宜図1及び図2を参酌する。また、本実施の形態では、音声型認証装置100を動作させることによって、音声型認証方法が実施される。よって、本実施の形態における音声型認証方法の説明は、以下の音声型認証装置100の動作説明に代える。
[Device operation]
Next, the operation of the voice-
最初に、図3に示すように、マスク音出力部10は、ユーザの音声をマスクするマスク音が、認証に際してユーザが発した音声に重なるように、マスク音の音データを再生する(ステップA1)。
First, as shown in FIG. 3, the mask
具体的には、ステップA1では、マスク音出力部10は、ユーザ60が音声入力装置40に向かって、認証データを発話するタイミングで、音声データを、音声出力装置50によって再生する。そして、ステップA1が実行されると、音声入力装置40は、ユーザが認証のために発した認証データの音声とマスク音とが重なった状態の音声データを音声分析部20に入力する。
Specifically, in step A1, the mask
次に、音声分析部20において、マスク音取出部21は、音声入力装置40から音声データが出力されると、この音声データを取得し、取得した音声データをマスク音比較部22に送出する(ステップA2)。
Next, in the
次に、マスク音比較部22は、ステップA2で取得された音声データと、マスク音出力部10が生成した音データとを比較して、音声データ中のマスク音の部分を推定し、推定したマスク音の部分を特定するマスク音特定データを作成する(ステップA3)。
Next, the mask
また、ステップA3では、マスク音比較部23は、マスク音特定データを、マスク音取出部21に送出する。更に、マスク音比較部23は、マスク音特定データと、マスク音出力部10が生成した音データとを、後述の複製音声判定部24に送出する。また、この場
合、マスク音取出部21は、ステップA2で取得した音声データと、マスク音特定データとを、ユーザ音声復元部23に送出する。
Further, in step A3, the mask
次に、複製音声判定部24は、マスク音特定データと、マスク音出力部10が生成した音データとに基づいて、認証に際してユーザが発した音声が、複製された音声であるかどうかを判定する(ステップA4)。ステップA4の詳細については図4を用いて後述する。
Next, the duplicate
ステップA4の判定の結果、複製された音声である場合は、認証判定部33が、認証は失敗であると判定する(ステップA8)。
As a result of the determination in step A4, if the voice is duplicated, the
一方、ステップA4の判定の結果、複製された音声でない場合は、ユーザ音声復元部23が、ステップA2で取得された音声データから、マスク音特定データを用いて、マスク音の波長成分を除去して、ユーザの音声の音声データを抽出して、ユーザの音声を復元する(ステップA5)。
On the other hand, if the result of the determination in step A4 is that the voice is not duplicated, the user
次に、認証処理部30において、音声認識部31は、ステップA5で抽出されたユーザの音声の音声データに対して音声認識を実行し、音声データをテキストデータに変換する(ステップA6)。また、音声認識部31は、変換によって得られたテキストデータを認証データ照応部32に送出する。
Next, in the
次に、認証データ照応部32は、認証データ格納部34に問い合わせを行い、ステップA6で得られたテキストデータを、予め登録されている認証データ(パスワード等)に照応する(ステップA7)。具体的には、認証データ照応部32は、ステップA6で得られたテキストデータが、認証データと一致しているかどうかを判断し、判断結果を認証判定部33に通知する。
Next, the authentication
次に、認証判定部33は、認証データ照応部32による照応の結果に基づいて、認証許可又は不許可の判定を行う(ステップA8)。ステップA8の実行後、認証判定部33は、認証の結果を、ユーザ60に通知する(ステップA9)。
Next, the
続いて、図4を用いて、図3に示すステップA4についてより具体的に説明する。図4は、図3に示すステップA4をより具体的に示すフロー図である。 Subsequently, with reference to FIG. 4, step A4 shown in FIG. 3 will be described more specifically. FIG. 4 is a flow chart showing step A4 shown in FIG. 3 more specifically.
図4に示すように、最初に、複製音声判定部24は、音声入力装置40が入力した音声データに「マスク音」が存在するかどうかを判定する(ステップA41)。
As shown in FIG. 4, first, the duplicate
具体的には、複製音声判定部24は、ステップA3で作成されたマスク音特定データと、マスク音出力部10が生成した音データとが一致している場合は、「マスク音」が存在すると判定する。
Specifically, when the duplicated
ステップA41の判定の結果、「マスク音」が存在しない場合は、複製音声判定部24は、ステップA46を実行する。
As a result of the determination in step A41, if the "mask sound" does not exist, the duplicate
一方、ステップA41の判定の結果、「マスク音」が存在する場合は、複製音声判定部24は、「マスク音」が1つであるかどうかを判定する(ステップA42)。
On the other hand, if the "mask sound" is present as a result of the determination in step A41, the duplicate
具体的には、複製音声判定部24は、ステップA3で作成されたマスク音特定データから、1つの音データのみを特定できた場合は、「マスク音」が1つであると判定する。
Specifically, the duplicate
ステップA42の判定の結果、「マスク音」が1つでない場合は、複製音声判定部24は、ステップA46を実行する。
As a result of the determination in step A42, if there is not one "mask sound", the duplicate
一方、ステップA42の判定の結果、「マスク音」が1つである場合は、複製音声判定部24は、「マスク音」の音量レベルが、想定値内にあるかどうかを判定する(ステップA43)。
On the other hand, if the result of the determination in step A42 is that there is only one "mask sound", the duplicate
具体的には、複製音声判定部24は、ステップA3で作成されたマスク音特定データのレベルと、音声出力装置50で再生されたマスク音の音量のレベルとの差が設定範囲内にある場合は、「マスク音」の音量レベルは想定値内であると判定する。
Specifically, when the duplicate
ステップA43の判定の結果、「マスク音」が想定値内にない場合は、複製音声判定部24は、ステップA46を実行する。
As a result of the determination in step A43, if the "mask sound" is not within the assumed value, the duplicate
一方、ステップA43の判定の結果、「マスク音」が想定値内にある場合は、複製音声判定部24は、「マスク音」の再生開始時刻が、想定の範囲になるかどうかを判定する(ステップA44)。
On the other hand, if the "mask sound" is within the expected value as a result of the determination in step A43, the duplicate
具体的には、複製音声判定部24は、ステップA3で作成されたマスク音特定データから元のマスク音の再生時刻を特定し、特定した時刻と、音声入力装置40での音声の入力開始時刻との差が設定範囲内にある場合は、「マスク音」の再生開始時刻が、想定の範囲にあると判定する。
Specifically, the duplicate
ステップA44の判定の結果、「マスク音」の再生開始時刻が、想定の範囲にない場合は、複製音声判定部24は、ステップA46を実行する。一方、ステップA44の判定の結果、「マスク音」の再生開始時刻が、想定の範囲にある場合は、複製音声判定部24は、ステップA45を実行する。
As a result of the determination in step A44, if the reproduction start time of the "mask sound" is not within the expected range, the duplicate
ステップA45では、複製音声判定部24は、音声入力装置40に入力された音声は複製された音声でないと判定する。ステップA46では、複製音声判定部24は、音声入力装置40に入力された音声は複製された音声であると判定する。
In step A45, the duplicate
以上のステップA1~A9の実行により、ユーザの発話による認証時にマスク音が重ねられた状態で認証が行われる。また、その際、なりすましでないかどうかの判定も行われる。 By executing the above steps A1 to A9, the authentication is performed with the mask sound superimposed at the time of the authentication by the user's utterance. At that time, it is also determined whether or not the person is impersonating.
[実施の形態における効果]
以上のように、本実施の形態における音声型認証装置100は、「音声をマスクする機能」と、「マスク音声の音声データを用いて認証情報を復元する機能」と、「複製音声による成りすましを、マスク音声データを利用してチェックする機能」とを有している。このような機能により、ユーザは、パスワード等を発話するだけで良く、従来に比べて、ユーザにおける負担は極めて小さくなる。また、同時に、音声認証におけるセキュリティも確保される。
[Effect in the embodiment]
As described above, the voice-
[変形例]
上述した例では、マスク音は、音声出力装置50によって再生されているが、本実施の形態は、この態様に限定されるものではない。例えば、マスク音として、BGMとして流される音楽が採用される場合であれば、マスク音は外部の音声発生装置(CDプレーヤー等)から常に連続して再生されているものであっても良い。但し、この場合は、マスク音出力部10は、音声発生装置と連動して、再生されるマスク音の音データを音声分析部2
0に入力する。
[Modification example]
In the above-mentioned example, the mask sound is reproduced by the
Enter 0.
[プログラム]
本実施の形態におけるプログラムは、コンピュータに、図3に示すステップA1~A9を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における音声型認証装置100と音声型認証方法とを実現することができる。この場合、コンピュータのプロセッサは、マスク音出力部10、音声分析部20、及び認証処理部30として機能し、処理を行なう。
[program]
The program in the present embodiment may be any program as long as it causes a computer to execute steps A1 to A9 shown in FIG. By installing and executing this program on a computer, the voice-
また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、マスク音出力部10、音声分析部20、及び認証処理部30のいずれかとして機能しても良い。
Further, the program in the present embodiment may be executed by a computer system constructed by a plurality of computers. In this case, for example, each computer may function as any of the mask
[物理構成]
ここで、本実施の形態におけるプログラムを実行することによって、音声型認証装置を実現するコンピュータについて図5を用いて説明する。図5は、本発明の実施の形態における音声型認証装置を実現するコンピュータの一例を示すブロック図である。
[Physical configuration]
Here, a computer that realizes a voice-type authentication device by executing the program according to the present embodiment will be described with reference to FIG. FIG. 5 is a block diagram showing an example of a computer that realizes the voice-type authentication device according to the embodiment of the present invention.
図5に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。なお、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。
As shown in FIG. 5, the
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
The
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
Further, specific examples of the
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
The data reader /
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
Specific examples of the
なお、本実施の形態における音声型認証装置100は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、音声型認証装置100は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
The voice-
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記19)によって表現することができるが、以下の記載に限定されるものではない。 A part or all of the above-described embodiments can be expressed by the following descriptions (Appendix 1) to (Appendix 19), but the present invention is not limited to the following description.
(付記1)
ユーザの音声を用いて認証処理を行うための装置であって、
前記ユーザの音声をマスクするマスク音が、認証に際して前記ユーザが発した音声に、重なるように、前記マスク音の音データを再生する、マスク音出力部と、
認証に際して前記ユーザが発した音声と前記マスク音とが重なった状態の音声データを取得し、取得した前記音声データから、前記マスク音の音データを用いて、前記ユーザが発した音声の音声データを抽出する、音声分析部と、
抽出された前記ユーザが発した音声の音声データを用いて、認証処理を実行する、認証処理部と、
を備えている、
ことを特徴とする音声型認証装置。
(Appendix 1)
A device for performing authentication processing using the user's voice.
A mask sound output unit that reproduces the sound data of the mask sound so that the mask sound that masks the user's voice overlaps the voice emitted by the user at the time of authentication.
At the time of authentication, voice data in a state where the voice emitted by the user and the mask sound are overlapped is acquired, and the voice data of the voice emitted by the user is used from the acquired voice data using the sound data of the mask sound. With the voice analysis unit,
An authentication processing unit that executes authentication processing using the extracted voice data of the voice emitted by the user, and
Is equipped with
A voice-type authentication device characterized by this.
(付記2)
付記1に記載の音声型認証装置であって、
前記音声分析部が、取得した前記音声データと前記マスク音の音データとに基づいて、認証に際して前記ユーザが発した音声が、複製による音声であるかどうかを判定する、
ことを特徴とする音声型認証装置。
(Appendix 2)
The voice-type authentication device described in Appendix 1
Based on the acquired voice data and the sound data of the mask sound, the voice analysis unit determines whether or not the voice emitted by the user at the time of authentication is a duplicated voice.
A voice-type authentication device characterized by this.
(付記3)
付記2に記載の音声型認証装置であって、
前記音声分析部が、
取得した前記音声データから、前記マスク音の音データと同一の音データを抽出できること、
抽出できた音データが1つであること、
抽出した音データの音量レベルが所定の範囲内であること、
抽出した音データの元になった音の再生時の時刻が所定の時間帯にあること、
を条件にして、全ての条件が満たされていない場合に、複製による音声であると判定する、
ことを特徴とする音声型認証装置。
(Appendix 3)
The voice-type authentication device described in Appendix 2,
The voice analysis unit
The same sound data as the sound data of the mask sound can be extracted from the acquired voice data.
There is only one sound data that can be extracted.
The volume level of the extracted sound data is within the specified range,
The time when the sound that is the source of the extracted sound data is played back is in the specified time zone.
If all the conditions are not met, it is judged that the sound is duplicated.
A voice-type authentication device characterized by this.
(付記4)
付記1~3のいずれかに記載の音声型認証装置であって、
前記マスク音の波長が、人の可聴域外に設定されている、
ことを特徴とする音声型認証装置。
(Appendix 4)
The voice-type authentication device according to any one of Supplementary note 1 to 3.
The wavelength of the mask sound is set outside the human audible range.
A voice-type authentication device characterized by this.
(付記5)
付記1~4のいずれかに記載の音声型認証装置であって、
前記マスク音出力部が、前記マスク音の音データを生成し、生成した前記音声データを再生する、
ことを特徴とする音声型認証装置。
(Appendix 5)
The voice-type authentication device according to any one of Supplementary note 1 to 4.
The mask sound output unit generates sound data of the mask sound and reproduces the generated voice data.
A voice-type authentication device characterized by this.
(付記6)
付記1~4のいずれかに記載の音声型認証装置であって、
前記マスク音出力部が、予め作成されている前記マスク音の音データを取得し、取得した前記音声データを再生する、
ことを特徴とする音声型認証装置。
(Appendix 6)
The voice-type authentication device according to any one of Supplementary note 1 to 4.
The mask sound output unit acquires the sound data of the mask sound created in advance and reproduces the acquired voice data.
A voice-type authentication device characterized by this.
(付記7)
付記1~6のいずれかに記載の音声型認証装置であって、
前記マスク音出力部、前記音声分析部、及び前記認証処理部が、ハードウェアによって実現されている、
ことを特徴とする音声型認証装置。
(Appendix 7)
The voice-type authentication device according to any one of Supplementary note 1 to 6.
The mask sound output unit, the voice analysis unit, and the authentication processing unit are realized by hardware.
A voice-type authentication device characterized by this.
(付記8)
ユーザの音声を用いて認証処理を行うための方法であって、
(a)前記ユーザの音声をマスクするマスク音が、認証に際して前記ユーザが発した音声に、重なるように、前記マスク音の音データを再生する、ステップと、
(b)認証に際して前記ユーザが発した音声と前記マスク音とが重なった状態の音声データを取得し、取得した前記音声データから、前記マスク音の音データを用いて、前記ユーザが発した音声の音声データを抽出する、ステップと、
(c)抽出された前記ユーザが発した音声の音声データを用いて、認証処理を実行する、ステップと、
を有する、
ことを特徴とする音声型認証方法。
(Appendix 8)
It is a method for performing authentication processing using the user's voice.
(A) A step of reproducing the sound data of the mask sound so that the mask sound that masks the voice of the user overlaps the voice emitted by the user at the time of authentication.
(B) At the time of authentication, voice data in a state where the voice emitted by the user and the mask sound overlap is acquired, and the voice emitted by the user is used from the acquired voice data using the sound data of the mask sound. Steps and steps to extract audio data from
(C) A step of executing an authentication process using the extracted voice data of the voice emitted by the user, and
Have,
A voice-based authentication method characterized by this.
(付記9)
付記8に記載の音声型認証方法であって、
(d)前記(b)のステップで取得した前記音声データと前記マスク音の音データとに基づいて、認証に際して前記ユーザが発した音声が、複製による音声であるかどうかを判定する、ステップを更に有する、
ことを特徴とする音声型認証方法。
(Appendix 9)
The voice-based authentication method described in
(D) Based on the voice data acquired in the step (b) and the sound data of the mask sound, a step of determining whether or not the voice emitted by the user at the time of authentication is a duplicated voice is performed. Have more
A voice-based authentication method characterized by this.
(付記10)
付記9に記載の音声型認証方法であって、
前記(d)のステップにおいて、
取得した前記音声データから、前記マスク音の音データと同一の音データを抽出できること、
抽出できた音データが1つであること、
抽出した音データの音量レベルが所定の範囲内であること、
抽出した音データの元になった音の再生時の時刻が所定の時間帯にあること、
を条件にして、全ての条件が満たされていない場合に、複製による音声であると判定する、
ことを特徴とする音声型認証方法。
(Appendix 10)
The voice-based authentication method described in Appendix 9,
In step (d) above,
The same sound data as the sound data of the mask sound can be extracted from the acquired voice data.
There is only one sound data that can be extracted.
The volume level of the extracted sound data is within the specified range,
The time when the sound that is the source of the extracted sound data is played back is in the specified time zone.
If all the conditions are not met, it is judged that the sound is duplicated.
A voice-based authentication method characterized by this.
(付記11)
付記8~10のいずれかに記載の音声型認証方法であって、
前記マスク音の波長が、人の可聴域外に設定されている、
ことを特徴とする音声型認証方法。
(Appendix 11)
The voice-based authentication method according to any one of
The wavelength of the mask sound is set outside the human audible range.
A voice-based authentication method characterized by this.
(付記12)
付記8~11のいずれかに記載の音声型認証方法であって、
前記(a)のステップにおいて、前記マスク音の音データを生成し、生成した前記音声データを再生する、
ことを特徴とする音声型認証方法。
(Appendix 12)
The voice-based authentication method according to any one of
In the step (a), the sound data of the mask sound is generated, and the generated voice data is reproduced.
A voice-based authentication method characterized by this.
(付記13)
付記8~11のいずれかに記載の音声型認証方法であって、
前記(a)のステップにおいて、予め作成されている前記マスク音の音データを取得し、取得した前記音声データを再生する、
ことを特徴とする音声型認証方法。
(Appendix 13)
The voice-based authentication method according to any one of
In the step (a), the sound data of the mask sound created in advance is acquired, and the acquired voice data is reproduced.
A voice-based authentication method characterized by this.
(付記14)
コンピュータによって、ユーザの音声を用いて認証処理を行うためのプログラムであって、
前記コンピュータに、
(a)前記ユーザの音声をマスクするマスク音が、認証に際して前記ユーザが発した音声に、重なるように、前記マスク音の音データを再生する、ステップと、
(b)認証に際して前記ユーザが発した音声と前記マスク音とが重なった状態の音声データを取得し、取得した前記音声データから、前記マスク音の音データを用いて、前記ユーザが発した音声の音声データを抽出する、ステップと、
(c)抽出された前記ユーザが発した音声の音声データを用いて、認証処理を実行する、ステップと、
を実行させる、ことを特徴とするプログラム。
(Appendix 14)
A program for performing authentication processing using the user's voice by a computer.
To the computer
(A) A step of reproducing the sound data of the mask sound so that the mask sound that masks the voice of the user overlaps the voice emitted by the user at the time of authentication.
(B) At the time of authentication, voice data in a state where the voice emitted by the user and the mask sound overlap is acquired, and the voice emitted by the user is used from the acquired voice data using the sound data of the mask sound. Steps and steps to extract audio data from
(C) A step of executing an authentication process using the extracted voice data of the voice emitted by the user, and
A program characterized by executing.
(付記15)
付記14に記載のプログラムであって、
前記コンピュータに、
(d)前記(b)のステップで取得した前記音声データと前記マスク音の音データとに基づいて、認証に際して前記ユーザが発した音声が、複製による音声であるかどうかを判定する、ステップを更に実行させる、
ことを特徴とするプログラム。
(Appendix 15)
The program described in Appendix 14,
To the computer
(D) Based on the voice data acquired in the step (b) and the sound data of the mask sound, a step of determining whether or not the voice emitted by the user at the time of authentication is a duplicated voice is performed. Let it run further,
A program characterized by that.
(付記16)
付記15に記載のプログラムであって、
前記(d)のステップにおいて、
取得した前記音声データから、前記マスク音の音データと同一の音データを抽出できること、
抽出できた音データが1つであること、
抽出した音データの音量レベルが所定の範囲内であること、
抽出した音データの元になった音の再生時の時刻が所定の時間帯にあること、
を条件にして、全ての条件が満たされていない場合に、複製による音声であると判定する、
ことを特徴とするプログラム。
(Appendix 16)
The program described in Appendix 15
In step (d) above,
The same sound data as the sound data of the mask sound can be extracted from the acquired voice data.
There is only one sound data that can be extracted.
The volume level of the extracted sound data is within the specified range,
The time when the sound that is the source of the extracted sound data is played back is in the specified time zone.
If all the conditions are not met, it is judged that the sound is duplicated.
A program characterized by that.
(付記17)
付記14~16のいずれかに記載のプログラムであって、
前記マスク音の波長が、人の可聴域外に設定されている、
ことを特徴とするプログラム。
(Appendix 17)
The program described in any of the appendices 14 to 16 and
The wavelength of the mask sound is set outside the human audible range.
A program characterized by that.
(付記18)
付記14~17のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記マスク音の音データを生成し、生成した前記音声データを再生する、
ことを特徴とするプログラム。
(Appendix 18)
The program described in any of the appendices 14 to 17 and
In the step (a), the sound data of the mask sound is generated, and the generated voice data is reproduced.
A program characterized by that.
(付記19)
付記14~17のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、予め作成されている前記マスク音の音データを取得し、取得した前記音声データを再生する、
ことを特徴とするプログラム。
(Appendix 19)
The program described in any of the appendices 14 to 17 and
In the step (a), the sound data of the mask sound created in advance is acquired, and the acquired voice data is reproduced.
A program characterized by that.
以上のように、本発明によれば、音声認証において、セキュリティの確保を図りつつ、ユーザにおける負担を軽減することができる。本発明は、ID及びパスワードといった秘匿したい認証データを、音声を使って入力するシステムに有用である。 As described above, according to the present invention, it is possible to reduce the burden on the user while ensuring security in voice authentication. The present invention is useful for a system for inputting authentication data to be kept secret, such as an ID and a password, by using voice.
10 マスク音出力部
20 音声分析部
21 マスク音取出部
22 マスク音比較部
23 ユーザ音声復元部
24 複製音声判定部
30 認証処理部
31 音声認識部
32 認証データ照応部
33 認証判定部
34 認証データ格納部
40 音声入力装置
50 音声出力装置
100 音声型認証装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
10 Mask
112
Claims (7)
前記ユーザの音声をマスクするマスク音が、認証に際して前記ユーザが発した音声に、重なるように、前記マスク音の音データを再生する、マスク音出力部と、
認証に際して前記ユーザが発した音声と前記マスク音とが重なった状態の音声データを取得し、取得した前記音声データと前記マスク音の音データとに基づいて、認証に際して前記ユーザが発した音声が、複製による音声であるかどうかを判定し、判定の結果、前記ユーザが発した音声が、複製による音声でない場合に、取得した前記音声データから、前記マスク音の音データを用いて、前記ユーザが発した音声の音声データを抽出する、音声分析部と、
抽出された前記ユーザが発した音声の音声データを用いて、認証処理を実行する、認証処理部と、
を備え、
前記音声分析部が、
取得した前記音声データから、前記マスク音の音データと同一の音データを抽出できること、
抽出できた音データが1つであること、
抽出した音データの音量レベルが所定の範囲内であること、
抽出した音データの元になった音の再生時の時刻が所定の時間帯にあること、
を条件にして、全ての条件が満たされていない場合に、複製による音声であると判定する、
ことを特徴とする音声型認証装置。 A device for performing authentication processing using the user's voice.
A mask sound output unit that reproduces the sound data of the mask sound so that the mask sound that masks the user's voice overlaps the voice emitted by the user at the time of authentication.
At the time of authentication, the voice data in a state where the voice emitted by the user and the mask sound are overlapped is acquired, and the voice emitted by the user at the time of authentication is based on the acquired voice data and the sound data of the mask sound. , It is determined whether or not the voice is duplicated, and as a result of the determination, when the voice emitted by the user is not the voice due to duplication, the user uses the sound data of the mask sound from the acquired voice data. The voice analysis unit that extracts the voice data of the voice emitted by
An authentication processing unit that executes authentication processing using the extracted voice data of the voice emitted by the user, and
Equipped with
The voice analysis unit
The same sound data as the sound data of the mask sound can be extracted from the acquired voice data.
There is only one sound data that can be extracted.
The volume level of the extracted sound data is within the specified range,
The time when the sound that is the source of the extracted sound data is played back is in the specified time zone.
If all the conditions are not met, it is judged that the sound is duplicated .
A voice-type authentication device characterized by this.
前記マスク音の波長が、人の可聴域外に設定されている、
ことを特徴とする音声型認証装置。 The voice-type authentication device according to claim 1 .
The wavelength of the mask sound is set outside the human audible range.
A voice-type authentication device characterized by this.
前記マスク音出力部が、前記マスク音の音データを生成し、生成した前記音声データを再生する、
ことを特徴とする音声型認証装置。 The voice-type authentication device according to claim 1 or 2 .
The mask sound output unit generates sound data of the mask sound and reproduces the generated voice data.
A voice-type authentication device characterized by this.
前記マスク音出力部が、予め作成されている前記マスク音の音データを取得し、取得した前記音声データを再生する、
ことを特徴とする音声型認証装置。 The voice-type authentication device according to claim 1 or 2 .
The mask sound output unit acquires the sound data of the mask sound created in advance and reproduces the acquired voice data.
A voice-type authentication device characterized by this.
前記マスク音出力部、前記音声分析部、及び前記認証処理部が、ハードウェアによって実現されている、
ことを特徴とする音声型認証装置。 The voice-type authentication device according to any one of claims 1 to 4 .
The mask sound output unit, the voice analysis unit, and the authentication processing unit are realized by hardware.
A voice-type authentication device characterized by this.
(a)前記ユーザの音声をマスクするマスク音が、認証に際して前記ユーザが発した音声に、重なるように、前記マスク音の音データを再生する、ステップと、
(b)認証に際して前記ユーザが発した音声と前記マスク音とが重なった状態の音声データを取得し、取得した前記音声データと前記マスク音の音データとに基づいて、認証に際して前記ユーザが発した音声が、複製による音声であるかどうかを判定し、判定の結果、前記ユーザが発した音声が、複製による音声でない場合に、取得した前記音声データから、前記マスク音の音データを用いて、前記ユーザが発した音声の音声データを抽出する、ステップと、
(c)抽出された前記ユーザが発した音声の音声データを用いて、認証処理を実行する、ステップと、
を有し、
前記(b)のステップにおいて、
取得した前記音声データから、前記マスク音の音データと同一の音データを抽出できること、
抽出できた音データが1つであること、
抽出した音データの音量レベルが所定の範囲内であること、
抽出した音データの元になった音の再生時の時刻が所定の時間帯にあること、
を条件にして、全ての条件が満たされていない場合に、複製による音声であると判定する、
ことを特徴とする音声型認証方法。 It is a method for performing authentication processing using the user's voice.
(A) A step of reproducing the sound data of the mask sound so that the mask sound that masks the voice of the user overlaps the voice emitted by the user at the time of authentication.
(B) At the time of authentication, the user acquires voice data in a state where the voice emitted by the user and the mask sound overlap each other, and the user emits at the time of authentication based on the acquired voice data and the sound data of the mask sound. It is determined whether or not the generated voice is a duplicated voice, and as a result of the determination, when the voice emitted by the user is not the duplicated voice, the sound data of the mask sound is used from the acquired voice data. , The step of extracting the voice data of the voice emitted by the user,
(C) A step of executing an authentication process using the extracted voice data of the voice emitted by the user, and
Have,
In step (b) above,
The same sound data as the sound data of the mask sound can be extracted from the acquired voice data.
There is only one sound data that can be extracted.
The volume level of the extracted sound data is within the specified range,
The time when the sound that is the source of the extracted sound data is played back is in the specified time zone.
If all the conditions are not met, it is judged that the sound is duplicated .
A voice-based authentication method characterized by this.
前記コンピュータに、
(a)前記ユーザの音声をマスクするマスク音が、認証に際して前記ユーザが発した音声に、重なるように、前記マスク音の音データを再生する、ステップと、
(b)認証に際して前記ユーザが発した音声と前記マスク音とが重なった状態の音声データを取得し、取得した前記音声データと前記マスク音の音データとに基づいて、認証に際して前記ユーザが発した音声が、複製による音声であるかどうかを判定し、判定の結果、前記ユーザが発した音声が、複製による音声でない場合に、取得した前記音声データから、前記マスク音の音データを用いて、前記ユーザが発した音声の音声データを抽出する、ステップと、
(c)抽出された前記ユーザが発した音声の音声データを用いて、認証処理を実行する、ステップと、
を実行させ、
前記(b)のステップにおいて、
取得した前記音声データから、前記マスク音の音データと同一の音データを抽出できること、
抽出できた音データが1つであること、
抽出した音データの音量レベルが所定の範囲内であること、
抽出した音データの元になった音の再生時の時刻が所定の時間帯にあること、
を条件にして、全ての条件が満たされていない場合に、複製による音声であると判定する、ことを特徴とするプログラム。 A program for performing authentication processing using the user's voice by a computer.
To the computer
(A) A step of reproducing the sound data of the mask sound so that the mask sound that masks the voice of the user overlaps the voice emitted by the user at the time of authentication.
(B) At the time of authentication, the user acquires voice data in a state where the voice emitted by the user and the mask sound overlap each other, and the user emits at the time of authentication based on the acquired voice data and the sound data of the mask sound. It is determined whether or not the generated voice is a duplicated voice, and as a result of the determination, when the voice emitted by the user is not the duplicated voice, the sound data of the mask sound is used from the acquired voice data. , The step of extracting the voice data of the voice emitted by the user,
(C) A step of executing an authentication process using the extracted voice data of the voice emitted by the user, and
To execute ,
In step (b) above,
The same sound data as the sound data of the mask sound can be extracted from the acquired voice data.
There is only one sound data that can be extracted.
The volume level of the extracted sound data is within the specified range,
The time when the sound that is the source of the extracted sound data is played back is in the specified time zone.
A program characterized in that, if all the conditions are not satisfied, it is determined that the voice is a duplicated voice .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018100010A JP7073910B2 (en) | 2018-05-24 | 2018-05-24 | Voice-based authentication device, voice-based authentication method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018100010A JP7073910B2 (en) | 2018-05-24 | 2018-05-24 | Voice-based authentication device, voice-based authentication method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204368A JP2019204368A (en) | 2019-11-28 |
JP7073910B2 true JP7073910B2 (en) | 2022-05-24 |
Family
ID=68727012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018100010A Active JP7073910B2 (en) | 2018-05-24 | 2018-05-24 | Voice-based authentication device, voice-based authentication method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7073910B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014174255A (en) | 2013-03-07 | 2014-09-22 | Sony Corp | Signal processing device, signal processing method, and storage medium |
JP2015079152A (en) | 2013-10-17 | 2015-04-23 | 富士通株式会社 | Voice authentication device, voice authentication method, and voice authentication program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3442553B2 (en) * | 1995-10-31 | 2003-09-02 | 株式会社リコー | Speaker recognition system and speaker recognition method |
-
2018
- 2018-05-24 JP JP2018100010A patent/JP7073910B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014174255A (en) | 2013-03-07 | 2014-09-22 | Sony Corp | Signal processing device, signal processing method, and storage medium |
JP2015079152A (en) | 2013-10-17 | 2015-04-23 | 富士通株式会社 | Voice authentication device, voice authentication method, and voice authentication program |
Also Published As
Publication number | Publication date |
---|---|
JP2019204368A (en) | 2019-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663307B2 (en) | RtCaptcha: a real-time captcha based liveness detection system | |
JP6693539B2 (en) | Terminal device, authentication system, authentication method, and computer program | |
US10158633B2 (en) | Using the ability to speak as a human interactive proof | |
US20200243086A1 (en) | Localizing and Verifying Utterances by Audio Fingerprinting | |
US20190013026A1 (en) | System and method for efficient liveness detection | |
WO2018129869A1 (en) | Voiceprint verification method and apparatus | |
TW202141469A (en) | In-ear liveness detection for voice user interfaces | |
US20210304783A1 (en) | Voice conversion and verification | |
WO2017215186A1 (en) | Secure login method and device, and a storage medium | |
US20210382972A1 (en) | Biometric Authentication Using Voice Accelerometer | |
US20220270618A1 (en) | Acoustic signatures for voice-enabled computer systems | |
JP7120313B2 (en) | Biometric authentication device, biometric authentication method and program | |
Johnson et al. | Voice authentication using short phrases: Examining accuracy, security and privacy issues | |
US20180063106A1 (en) | User authentication using audiovisual synchrony detection | |
Garg et al. | Subband analysis for performance improvement of replay attack detection in speaker verification systems | |
JP7073910B2 (en) | Voice-based authentication device, voice-based authentication method, and program | |
Firc et al. | The dawn of a text-dependent society: Deepfakes as a threat to speech verification systems | |
Zhang et al. | Volere: Leakage resilient user authentication based on personal voice challenges | |
TWM622203U (en) | Voiceprint identification device for financial transaction system | |
US20230290354A1 (en) | Systems and apparatus for multifactor authentication using bone conduction and audio signals | |
US20240127825A1 (en) | Authentication method and system | |
Aloufi et al. | On-Device Voice Authentication with Paralinguistic Privacy | |
GB2612397A (en) | An authentication method and system | |
WO2023158972A1 (en) | Speaker verification with multitask speech models | |
Baroughi | Attacks on Biometric Systems for Speaker and Face Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220425 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7073910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |