JP4672003B2 - 音声認証システム - Google Patents

音声認証システム Download PDF

Info

Publication number
JP4672003B2
JP4672003B2 JP2007503538A JP2007503538A JP4672003B2 JP 4672003 B2 JP4672003 B2 JP 4672003B2 JP 2007503538 A JP2007503538 A JP 2007503538A JP 2007503538 A JP2007503538 A JP 2007503538A JP 4672003 B2 JP4672003 B2 JP 4672003B2
Authority
JP
Japan
Prior art keywords
keyword
unit
voice
syllable
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007503538A
Other languages
English (en)
Other versions
JPWO2006087799A1 (ja
Inventor
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2006087799A1 publication Critical patent/JPWO2006087799A1/ja
Application granted granted Critical
Publication of JP4672003B2 publication Critical patent/JP4672003B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本発明は、音声を用いて本人確認を行う音声認証システムに関し、特に、テキスト依存型の音声認証システムに関する。
従来、システム利用者の本人確認の一手段として、音声認証が実用化されている。近年は、モバイル環境における電子商取引等の際の個人認証にバイオメトリクス認証の一つである指紋認証が用いられることが多くなっている。しかし指紋認証には別途特別なセンサが必要であるが、音声を用いて個人認証する場合には、例えば携帯電話ではセンサであるマイクが既に装備されているため、モバイル環境での音声認証に携帯端末を適用することが期待されている。
音声認証は、テキスト依存型とテキスト自由型の二種類に大きく分類される。テキスト依存型は、あらかじめ、キーワード(パスワード)やフレーズを利用者に読み上げさせてその音声を登録しておき、認証時には、登録時と同じキーワード若しくはフレーズを利用者に発声させ、認証を行う方式である。テキスト自由型は、発話内容には関係なく声質のみで認証を行う方式である。従って、テキスト自由型の場合は、キーワード等を決めておく必要がなく、利用者は任意の発声内容で登録・認証を行える。本発明は前者のテキスト依存型の音声認証に関するものである。
テキスト依存型音声認証では、声質と発声内容(キーワード等)の秘密性の情報の両方に基づいて認証処理を行うので、比較的高い認証精度が得られる。しかし、認証時に傍に他人が居る環境では、秘密のキーワードが聞かれてしまう可能性がある。このため、プライバシーが保たれない環境で認証を行うような用途(例えば、店舗のレジカウンタや自動販売機において決済機能内蔵の携帯電話を用いて支払いをする際の本人確認等)には、利用者の抵抗があるため、テキスト依存型音声認証を採用し難い。
また、キーワードが暴露された場合、発声内容の秘密性を認証に利用できなくなるため、認証精度が落ちてしまう。さらに、利用者本人が発声した秘密のキーワードを、他人がテープレコーダやICレコーダで不正に録音し、認証時にこれを再生することにより、詐称(録音再生詐称)が成功する恐れもある。
これらの問題に対して、録音再生詐称を防止するために、音声の位相差情報に基づいてスピーカからの再生であることを検出する方法(特許文献1参照)や、伝達特性を比較したり音声にDTMF信号をかぶせて音声透かしを入れたりすることにより録音再生を検出する方法(特許文献2参照)等が提案されている。また、利用者に、認証毎に異なる内容のテキストを発声させることにより、録音再生詐称を防ぐシステムもある(特許文献3参照)。
また、複数種類のパスワードをインデックスと対応づけて登録しておき、認証時には、パスワードと共に、そのパスワードに対応するインデックスを入力させることにより、パスワードが暴露されても詐称を防ぐ方法が提案されている(特許文献4)。また、音声認証に用いる暗証番号を回りに暴露されないようにする手段として、番号それぞれに色が指定された画面を表示し、色の名前を認証時に発声させることにより、暗証番号の漏洩を防ぐ方法も提案されている(特許文献5)。
また、数字複数桁の音声入力により操作者の認証を行うシステムにおいて、数字桁の入力順序を予め多種類準備し、認証時にそのうちの1種を指示して入力させる方法もある(特許文献6)。また、秘密の記号列を変形して発声するように指定することにより、秘密のパスワードの漏洩を防ぐシステムもある(特許文献7)。さらに、音声入力される暗証番号にダミー番号をランダムに挿入することを指示することによって暗証番号の漏洩を防ぐ音声応答認識装置も知られている(特許文献8)。
特開2001−10949号公報 特表2002−514318号公報 特開2000−148187号公報 特開2000−181490号公報 特開2002−311992号公報 特開昭59−191645号公報 特開昭63−231496号公報 特開昭63−207262号公報
しかしながら、上述の特許文献1〜3に記載されているような録音再生詐称対策を行ったとしても、録音された時点でパスワードは暴露されているため、認証精度は落ちてしまう。また、パスワードの漏洩を防いだり隠匿したりするには、上述の特許文献4〜8に記載されている方法のように、発声内容の変更や特別な操作が必要であり、利用者にとって使いづらいという問題がある。また、認証の度に発声内容を指定する場合には、発話内容(何と発声したか)の秘密性の情報を認証に使えないため、高い精度は得られないという問題がある。
以上の問題に鑑み、本発明は、テキスト依存型の音声認証システムにおいて、キーワードの漏洩や録音詐称を防ぐことにより、キーワードの秘密性を利用して高い認証精度を維持し得る音声認証システムを提供することを目的とする。
上記の目的を達成するために、本発明にかかる音声認証システムは、キーワードを音声入力させて認証を行うテキスト依存型の音声認証システムであって、発声が可能な単位を最小単位として複数の部分に分割されたキーワードの音声入力を、前記部分毎に時間間隔をおいて複数回にわたって受け付ける入力部と、利用者の登録キーワードを、前記発声が可能な単位で作成された話者モデルとして予め格納した話者モデル格納部と、前記入力部において1回の音声入力で受け付けられたキーワードの部分から、当該部分に含まれる音声の特徴量を求める特徴量変換部と、前記特徴量変換部で求められた特徴量と前記話者モデルとの類似度を求める類似度計算部と、前記類似度計算部で求められた類似度に基づき、前記複数回の音声入力により発声内容に関する情報を判定する発声内容判定部と、該発声内容判定部で判定された発声内容に関する情報に基づき、前記複数回の音声入力の発声内容を用いて登録キーワードを構成しうるか否かを判定するキーワード確認部と、前記キーワード確認部による判定結果と、前記類似度計算部で求められた類似度とに基づき、認証を受理するか棄却するかを判定する認証判定部とを備えたことを特徴とする。
この構成によれば、キーワードを発声が可能な単位を最小単位として複数の部分に分割して音声入力させることにより、周囲に他人が居る環境での認証時に、キーワード全体の漏洩を防止できる。また、キーワード全体を1回で続けて発声しないので、キーワード全体が録音されるのを防げるので録音詐称も抑止できる。さらに、キーワード確認部において、複数回の音声入力により登録キーワードを構成するすべての音韻の音声入力が完了したか否かを判定し、その判定結果と類似度計算部で求められた類似度とに基づいて、認証を受理するか棄却するかを判定することにより、精度の高いテキスト依存型音声認証システムを提供できる。
本発明にかかる音声認証システムにおいて、前記発声が可能な単位の一例は、音節である。この場合、前記話者モデル格納部において、登録キーワードを構成する各音節の話者モデルに個別のインデックスが付与されており、前記特徴量変換部が、前記音声入力で受け付けられたキーワードの部分から、音節毎の特徴量を求め、前記類似度計算部が、前記音節毎の特徴量と前記話者モデルとの類似度を求め、前記類似度計算部により求められた類似度に基づき、前記音声入力で受け付けられたキーワードの部分が、登録キーワードのどの音節に最も類似するかを判定する音節判定部をさらに備え、前記キーワード確認部が、前記音節判定部の判定結果に基づき、前記複数回の音声入力の発声内容を用いて登録キーワードを構成しうるか否かを判定することが好ましい。これにより、音声認識を行わなくても、認証時に音声入力されたキーワードの発話内容が登録キーワードの発話内容と一致しているかを判定できるため、音声認識用の文法辞書等を持つ必要がなく、システム構成を簡略化できる。
本発明にかかる音声認証システムにおいて、発声が可能な単位の他の例は、数字の読みまたはアルファベットの読みである。これにより、数字またはアルファベットあるいはこれらの組み合わせからなるキーワードに適応可能である。
本発明にかかる音声認証システムにおいて、前記特徴量変換部により求められた特徴量から、不特定話者音声認識により、前記キーワードの部分の音韻を認識する音声認識部をさらに備え、前記キーワード確認部が、前記音声認識部の認識結果に基づいて、登録キーワードを構成しうるか否かを判定することが好ましい。認証時のキーワードの発話内容が登録キーワードの発話内容と一致しているかを音声認識によって判定することにより、高精度な音声認証が可能となる。
本発明にかかる音声認証システムにおいて、前記キーワードのある部分の音声入力の完了から所定の時間が経過しても次の部分の音声入力がなく、かつ、それまでの音声入力の発声内容の情報を用いて登録キーワードを構成できない場合、前記認証判定部が認証を棄却することが好ましい。セキュリティを強化できるからである。
本発明にかかる音声認証システムにおいて、前記キーワードの部分の音声入力がある度に利用者の所在位置情報を取得する位置情報取得部と、前回の音声入力時に前記位置情報取得部で取得された所在位置情報と、今回の音声入力時に前記位置情報取得部で取得された所在位置情報とを比較し、前回の音声入力時から今回の音声入力時までの間に利用者が所定の距離以上移動したかを確認する位置確認部とをさらに備えたことが好ましい。キーワードを分割して音声入力する際に、音声入力毎に場所を移動した方が、周囲の他人にバスワード全体が知られてしまう可能性をさらに低くすることでセキュリティを強化できるからである。
また、本発明にかかる音声認証システムにおいて、前記複数回の音声入力で受け付けられたキーワードの部分の全てについて、前記類似度計算部で求められた類似度を統合して統合類似度を求める類似度統合部をさらに備え、前記認証判定部が、前記類似度統合部により求められた統合類似度に基づいて認証を受理するか棄却するかを判定することが好ましい。キーワード全体について類似度を統合して判定する方が、発声長が長くなるので、安定した類似度により判定できるからである。
また、本発明にかかる音声認証システムにおいて、前記入力部が、利用者の携帯端末より音声入力を受け付けることが好ましい。これにより、最初に音声入力した場所から離れた場所で2回目以降の音声入力を可能にするので、キーワード全体が他人に暴露される可能性を低くすることが可能だからである。
上記の目的を達成するために、本発明にかかるコンピュータプログラムは、キーワードを音声入力させて認証を行うテキスト依存型の音声認証システムを具現化するコンピュータプログラムであって、発声が可能な単位を最小単位として複数の部分に分割されたキーワードの音声入力を、前記部分毎に時間間隔をおいて複数回にわたって受け付ける入力処理と、1回の音声入力で受け付けられたキーワードの部分から、当該部分に含まれる音声の特徴量を求める特徴量変換処理と、利用者のキーワードが、前記発声が可能な単位で作成された話者モデルとして予め登録された話者モデル格納部を参照し、前記特徴量変換処理で求められた特徴量と、前記話者モデルとの類似度を求める類似度計算処理と、前記類似度計算処理で求められた類似度に基づき、前記複数回の音声入力により発声内容に関する情報を判定する発声内容判定処理と、前記発声内容判定処理で判定された発声内容に関する情報に基づき、前記複数回の音声入力の発声内容を用いて登録キーワードを構成しうるか否かを判定するキーワード確認処理と、前記キーワード確認処理による判定結果と、前記類似度計算処理で求められた類似度とに基づき、認証を受理するか棄却するかを判定する認証判定処理とをコンピュータに実行させることを特徴とする。
また、上記のコンピュータプログラムを記録した記録媒体も、本発明の一側面である。
図1は、本発明の第1の実施形態にかかる音声認証システムの概略構成を示すブロック図である。 図2は、前記音声認証システムにおいて、認証時入力キーワードの音節と登録キーワードの音節との類似度から、キーワードの正しさを判定する方法を説明する図である。 図3は、本発明の第1の実施形態にかかる音声認証システムの動作を示すフローチャートである。 図4は、本発明の第2の実施形態にかかる音声認証システムの概略構成を示すブロック図である。 図5は、本発明の第2の実施形態にかかる音声認証システムの動作を示すフローチャートである。 図6は、本発明の第3の実施形態にかかる音声認証システムの概略構成を示すブロック図である。 図7は、本発明の第3の実施形態にかかる音声認証システムの動作を示すフローチャートである。 図8は、本発明の第4の実施形態にかかる音声認証システムの概略構成を示すブロック図である。 図9は、本発明の第4の実施形態にかかる音声認証システムの動作を示すフローチャートである。
(第1の実施形態)
本発明にかかる音声認証システムの一実施形態について、以下に説明する。
本実施形態にかかる音声認証システムでは、認証を受けようとする利用者は、携帯電話または携帯端末から、予め登録された秘密のキーワード(パスワード)を音声入力することにより、認証を受ける。この音声認証システムにおいて、利用者は、認証時に、キーワードを構成する全ての音節を、1音節または複数音節からなる部分に分割し、分割したキーワードを、時間間隔をあけて、さらに好ましくは場所を移動して、複数回に分けて音声入力する。分割したキーワードの入力順序は、キーワードの順番でも良いし、ランダムな順番でも良い。なお、認証時に、前記複数回の音声入力によって、キーワードを構成するすべての音節を発声することが必要である。
例えば、キーワードが「カラオケ」である場合、利用者は、このキーワードを例えば「カラ」と「オケ」のように分割し、1回目の分割キーワード(例えば「カラ」)を音声入力してから数秒から数分経過した後に、2回目の分割キーワード(例えば「オケ」)を音声入力する。近くに居る他人にキーワードを聞かれることを避けるために、1回目の音声入力と2回目の音声入力との間で利用者が場所を移動することが好ましい。
キーワードの分割は、「カオ」と「ラケ」、「ケカ」と「オラ」、「ラカ」と「ケオ」のように、音節の順序をランダムにしても良い。また、「カ」と「ケオラ」のように、単音節からなる分割キーワードがあっても良い。さらに、分割数は2に限定されない。
そして、本実施形態の音声認証システムは、このように分割されて発声されたキーワードに基づいて、音声認証を行う。これにより、近くに他人が居る環境でキーワードを発声したとしても、一回の発声ではキーワードの一部しか聞かれることがないので、キーワード全体が他人に知られることを防止できる。
なお、本実施形態にかかる音声認証システムは、キーワードを、1音節または複数音節からなる分割キーワードに分割して音声認証を行うので、音節単位で単語を区切ることが容易な言語(例えば日本語)での音声認証に適している。
本実施形態にかかる音声認証システムは、図1に示すように、入力部11、特徴量変換部12、類似度計算部13、音節判定部14、類似度保管部15、待機時間管理部16、キーワード確認部17、類似度統合部18、認証判定部19、登録話者別音節モデルデータベース20、および、キーワード登録部21を備えている。
入力部11は、利用者の携帯電話や携帯端末から、認証を受けようとする利用者の利用者IDと音声を入力する。なお、携帯電話のように利用者が1名に限定される場合には、利用者IDの入力手順は不要である。特徴量変換部12は、入力した音声を、話者別音節モデルとの比較に用いられる特徴量に変換する。
音節判定部14は、特徴量変換部12で得られた特徴量と、利用者が登録話者別音節モデルデータベース20に予め登録してある話者音節モデルとを比較して類似度を求め、求められた類似度に基づいて、入力音声の各音節が、話者音節モデルのどれに最も類似するかを判定する。類似度保管部15は、入力音声の各音節について、前記音節判定部14で求められた、話者音節モデルに対する類似度を保管する。
待機時間管理部16は、キーワードが複数回に分けて発声されるときの発声の時間間隔を監視する。キーワード確認部17は、音節判定部14による音節の認識結果に基づき、複数回の発声によってキーワードの全音節が発声されたかを確認する。類似度統合部18は、類似度保管部15に保管されている音節毎の類似度に基づき、認証時に発声されたキーワード音声が、登録されているキーワード音声に、全体としてどの程度類似しているかを表す統合類似度を求める。認証判定部19は、類似度統合部18で求められた統合類似度に基づき、利用者の認証を受理するか棄却するかを判定する。
キーワード登録部21は、音声認証システムの利用者がキーワードを登録する際に、当該利用者が入力部11へ音声入力したキーワードから音節モデルを作成し、登録話者別音節モデルデータベース20へ登録する。
なお、上記の音声認証システムは、コンピュータおよびその周辺機器によって実現することができる。この場合、類似度保管部15および登録話者別音節モデルデータベース20は、コンピュータ内部またはこのコンピュータからアクセス可能な記憶装置によって実現できる。入力部11、特徴量変換部12、類似度計算部13、音節判定部14、待機時間管理部16、キーワード確認部17、類似度統合部18、認証判定部19、キーワード登録部21は、上記コンピュータのプロセッサに、これら各部の機能を具現化させるプログラムを実行させることによって実現できる。従って、このようなプログラムまたはこのプログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の一実施形態である。
ここで、以上の構成にかかる本実施形態の音声認証システムにおける音声認証の手順について説明する。
最初に、利用者が、音声認証システムの登録話者別音節モデルデータベース20へキーワードを登録する際の手順について説明する。利用者は、所望のキーワードを決めて、入力部11に接続された携帯電話等のマイクロフォンに対して発声する。このとき、利用者は、キーワードを、1音節ずつ、無音区間で区切って発声する。例えばキーワードが「カラオケ」の場合、このキーワードには「カ」「ラ」「オ」「ケ」の4音節が含まれるので、利用者は、これらの4音節を無音区間で区切って発声する。入力部11は、入力された音節発声を、特徴量変換部12に渡す。特徴量変換部12においては入力された音声波をMFCC(Mel Frequency Cepstral Coefficients)やLPCケプストラムなどの音声の特徴を抽出した特徴ベクトル系列に変換する。その後順次、キーワード登録部21へ渡す。
キーワード登録部21は、入力された音節のそれぞれに対して、入力された順に、インデックスを割り当てる。すなわち、上記の例では、「カ(一番目の音節)」へインデックスI1、「ラ(二番目の音節)」へインデックスI2、「オ(三番目の音節)」へインデックスI3、「ケ(四番目の音節)」へインデックスI4を、それぞれ割り当てる。なお、キーワード登録部21は、音節が入力された順番にインデックスを割り当てれば十分であって、各音節の発声(音韻)が何であるかを認識する必要はない。ただし後述の通り、同じ内容の音節がキーワードに含まれているか否かのチェックをこの時点で行う場合もある。
キーワード登録部21は、このようにインデックスを割り当てた各音節から話者音節モデルを作成し、上述のように割り当てたインデックスと共に、当該利用者の利用者ID等と関連づけて登録話者別音節モデルデータベース20へ登録する。話者別音節モデルは、例えば不特定話者GMM(Gaussian Mixture Model)をMAP(MaximumA Posteriori)推定により特定話者に適応し、その適応を音節別に実施することで作成することができる。ただし、話者音節モデルはGMMに限定されず、HMM(Hidden Markov Model)など、インデックス別に話者モデルを作成できるものであれば、任意の手法を適用できる。また適応をせずに、登録された特徴ベクトル系列をそのままテンプレートとして保管することによっても話者別音節モデルを作成することも可能である。
なお、認証精度を向上させるために、利用者にキーワードをできるだけ多く(3回以上)繰り返して発声させるのが望ましい。この場合、一音節につき、繰り返し回数分(例えば3回繰り返し発声させた場合は3個)の特徴ベクトル系列を用いて話者別音節モデルが適応され、登録話者別音節モデルデータベース20へ登録される。前述のテンプレートとして保管する形態の話者別音節モデルの場合には、繰り返し回数分のテンプレートをもった話者別音節モデルが登録話者別音節モデルデータベース20へ登録される。
次に、上記の手順によって利用者が「カラオケ」というキーワードを登録した後に、当該利用者が認証を受ける場合の手順について、図3のフローチャートを参照しながら説明する。なお、ここでは、利用者が携帯電話から音声入力を行い、かつ、キーワードを2回に分割して発声する例を示すが、キーワードの分割数は2に限定されない。また、キーワードの入力手段は携帯電話に限らない。
携帯電話に認証開始ボタンがある場合にはボタンを押すことにより、あるいは認証が必要なアプリを起動した際、あるいは他のアプリケーションの実行途中で認証要求があった際に、認証処理が開始される。
最初に、入力部11は、利用者が携帯電話のキーパッドを用いて入力した利用者ID等を受け付ける(Op11)。なお、携帯電話のように利用者が1名に限定される場合には利用者IDの入力手順は不要となる。次に、利用者が、携帯電話のマイクロフォンに向けて1回目の分割キーワードを発声すると、入力部11はこの音声を受け取る(Op12)。なお、ここでは、前記利用者が、「カラ」と「オケ」にキーワードを分割し、音声入力するものとする。利用者は、1回目の分割キーワードとして、「カ」「ラ」を一音節ずつ無音区間で区切って音声入力する。以降、このように音声入力された「カ」「ラ」の各音節を、入力された順序に従ってS1,S2と表す。
なお、1回目の分割キーワードの入力が完了したか否かは、無音区間が所定の時間以上続いたか否かによって判断することが可能である。あるいは、分割キーワードの入力が完了した時に、利用者に所定のキー操作をさせるようにしても良い。
入力された音節S1,S2のそれぞれは、特徴量変換部12において、登録時と同一の分析方法によりMFCCやLPCケプストラムなどの、話者音節モデルとの比較に用いられる特徴ベクトル系列(特徴量)に変換される(Op13)。特徴量変換部12で得られた特徴量は類似度計算部13へ送られる。
次に、類似度計算部13は、登録話者別音節モデルデータベース20から、当該利用者の利用者IDに関連づけて格納されている当該利用者の話者音節モデル(すなわち、上述のインデックスI1〜I4の話者音節モデル)を抽出し、抽出した話者音節モデルに対する前記特徴量の類似度を計算する(Op14)。ここで、インデックスI1の話者音節モデルに対する音節S1の類似度をCS1:I1のように表記するものとする。すなわち、Op14において、例えば音節S1については、CS1:I1、CS1:I2、CS1:I3、CS1:I4の4つの値が類似度として求めら、音節S2については、CS2:I1、CS2:I2、CS2:I3、CS2:I4の4つの値が類似度として求められる。求められた類似度は、音節判定部14へ送られる。
なお、音節モデルをテンプレートとして登録したときに、キーワードを繰り返して発声させた場合のように、同じ音節について複数回分の話者別音節テンプレートが登録されている場合は、それらの話者別音節テンプレートの全てについて、類似度の計算をそれぞれ行う。従って、キーワード登録時に、「カ」「ラ」「オ」「ケ」を3回繰り返し発声させてテンプレートを話者音節モデルとして登録した場合は、それらの話者音節モデルのインデックスをI1(1)、I1(2)、I1(3)・・・のように割り当てると、Op14では、例えば音節S1について、CS1:I1(1)、CS1:I1(2)、CS1:I1(3)、CS1:I2(1)、CS1:I2(2)、CS1:I2(3)・・・の12個の値が、類似度として得られる。
次に、音節判定部14は、類似度計算部13で求められた類似度に基づき、S1,S2の各音節について、登録話者別音節モデルデータベース20に格納されている話者音節モデルの中で最も類似度の高いモデルのインデックスを選択する(Op15)。
例えば、音節S1として利用者が発声したのは「カ」であるため、音節S1についての類似度CS1:I1、CS1:I2、CS1:I3、CS1:I4のうち、インデックスI1(登録時の音節「カ」)の話者音節モデルに対する類似度CS1:I1が最大値となる。従って、図2に示すように、音節判定部14は、発声された音節S1がインデックスI1の話者音節モデルに相当すると判定し、発声済み音節のインデックスデータとして「I1」を類似度保管部15に保管する。また、これと共に、音節S1についての類似度の最大値であるCS1:I1が、音節S1の類似度(音節類似度)として類似度保管部15に保管される。
また、上記と同様にして、音節S2についても、話者音節モデルのうち最も類似度の高いモデルのインデックスが選択される。ここで、音節S2として利用者が発声したのは「ラ」であるため、音節S2についての類似度CS2:I1、CS2:I2、CS2:I3、CS2:I4のうち、インデックスI2(登録時の音節「ラ」)の話者音節モデルに対する類似度CS2:I2が最大値となる。これにより、図2に示すように、音節判定部14は、音節S2がインデックスI2に相当すると判定し、発声済み音節のインデックスデータとして「I2」を類似度保管部15に保管する。また、これと共に、音節S2についての類似度の最大値であるCS2:I2も、音節S2の音節類似度として類似度保管部15に保管される。
ここで、2回目の分割キーワードの入力がまだ済んでいないので(Op16の結果がNO)、Op17へ進む。
なお、待機時間管理部16は、入力部11に1回目の分割キーワード(「カラ」)が入力された後の経過時間を、タイマ(図示せず)により測定している。そして、2回目の分割キーワード入力が所定時間(例えば10分)内に開始されない場合は、タイムアウトとしてOp18へ進み、1回目の分割キーワードの処理結果を、類似度保管部15等から消去する(Op18)。この場合、利用者は、認証を受けるためには、1回目の分割キーワード入力からやり直さなければならない。
なお、第三者へのキーワードの暴露を確実に防止するために、1回目の分割キーワードの音声入力から所定時間(例えば2分)が経過しなければ2回目の分割キーワードの音声入力を受け付けないようにしても良い。この場合、1回目の分割キーワードの入力が終了したときに、2回目の分割キーワードの音声入力までに一定時間をおくように指示するメッセージを利用者の携帯電話等のディスプレイへ表示したり、同様の内容の音声メッセージを当該携帯電話へ送ったりすることが好ましい。
一方、Op17において、上記の所定時間内に2回目の分割キーワード入力が開始された場合は、待機時間管理部16がタイマをストップ・クリアすると共に、Op19へ進み、2回目の分割キーワード入力を受け付け(Op19)、その後Op13へ進む。
この例では、利用者は、2回目の分割キーワードとして、「オ」「ケ」を一音節ずつ区切って発声する。以降、このように音声入力された「オ」「ケ」の各音節を、入力された順序に従ってS3,S4と表すものとする。
入力された音節S3,S4のそれぞれは、特徴量変換部12において特徴量に変換される(Op13)。次に、類似度計算部13は、登録話者別音節モデルデータベース20から、当該利用者の利用者IDに関連づけて格納されている話者音節モデル(すなわち、インデックスI1〜I4の話者音節モデル)を抽出し、抽出した話者音節モデルに対する前記特徴量の類似度を計算する(Op14)。
これにより、インデックスI1〜I4の話者音節モデルのそれぞれに対して、音節S3,S4のそれぞれについて特徴量変換部12で得られた特徴量との類似度CS3:I1、CS3:I2、CS3:I3、CS3:I4、CS4:I1、CS4:I2、CS4:I3、CS4:I4が計算される。
なお、キーワードの登録時にキーワードを繰り返し発声させることにより、同じ音節について複数回分の話者音節モデルが登録されている場合は、それらの話者音節モデルの全てについて、類似度の計算をそれぞれ行う。従って、キーワード登録時に、「カ」「ラ」「オ」「ケ」を3回繰り返し発声させて話者音節モデルが登録されている場合は、それらの話者音節モデルのインデックスをI1(1)、I1(2)、I1(3)・・・のように割り当てると、例えば音節S3について、CS3:I1(1)、CS3:I1(2)、CS3:I1(3)、CS3:I2(1)、CS3:I2(2)、CS3:I2(3)・・・の12個の値が、類似度として得られる。
次に、音節判定部14は、類似度計算部13で求められた類似度に基づき、S3,S4の各音節について、登録話者別音節モデルデータベース20に格納されている話者音節モデルの中で最も類似度の高いモデルのインデックスを選択する(Op15)。
この例では、音節S3として利用者が発声したのは「オ」であるため、音節S3についての類似度CS3:I1、CS3:I2、CS3:I3、CS3:I4のうち、CS3:I3が最大値となる。従って、音節判定部14は、音節S3がインデックスI3に相当すると判定し、発声済み音節のインデックスデータとして「I3」を類似度保管部15に保管する。また、これと共に、音節S3についての類似度の最大値であるCS3:I3も、音節S3の音節類似度として、類似度保管部15に保管される。
上記と同様にして、音節S4についても、話者音節モデルのうち最も類似度の高いモデルのインデックスが選択される。ここで、音節S4として利用者が発声したのは「ケ」であるため、音節S4についての類似度CS4:I1、CS4:I2、CS4:I3、CS4:I4のうち、CS4:I4が最大値となる。従って、音節判定部14は、音節S4がインデックスI4に相当すると判定し、発声済み音節のインデックスデータとして「I4」を類似度保管部15に保管する。これと共に、音節S4についての類似度の最大値であるCS4:I4も、音節S3の音節類似度として、類似度保管部15に保管される。
以上のとおり、2回目の分割キーワードの処理が終了すると(Op16にてYES)、キーワード確認部17が、類似度保管部15に保管されている発声済み音節のインデックスデータに基づき、1回目と2回目の発声によってキーワードの全ての音節が発声されたかを確認する(Op20)。上記の例の場合、類似度保管部15には、発声済み音節のインデックスデータとして「I1」、「I2」、「I3」、「I4」が保管されている。すなわち、登録されているキーワードの全てのインデックス(I1〜I4)が揃っているので、キーワード確認部17は、キーワードの全ての音節が発声されたことを確認できる。Op20の判断結果がNOの場合は、その旨が認証判定部19へ通知され、認証判定部19は当該利用者の認証を棄却する(Op21)。
例えば、上記の例において、1回目の分割キーワードとして「カ」「ラ」と発声し、2回目の分割キーワードとして「カ」「ケ」と発声した場合は、「オ」が発声されていないために、発声済み音節のインデックスデータ中に「オ」のインデックスI3が存在しない。このため、認証は棄却される。
一方、Op20の判断結果がYESの場合は、類似度統合部18が、類似度保管部15に保管されている、音節S1〜S4のそれぞれの音節類似度(CS1:I1,CS2:I2,CS3:I3,CS4:I4)に基づいて、発声されたキーワード全体が登録キーワードにどの程度似ているかを表す統合類似度を算出する(Op22)。統合類似度としては、各音節の音節類似度の総計(すなわち、この例では、CS1:I1+CS2:I2+CS3:I3+CS4:I4)を用いても良いし、各音節の音節類似度の平均値を用いても良い。あるいは、各音節の音節類似度の総和をフレーム数等の時間長で平均化したものを、統合類似度として用いても良い。
このように類似度統合部18で求められた統合類似度は、認証判定部19へ送られ、認証判定部19が、所定の閾値と統合類似度とを比較する。認証判定部19は、統合類似度が所定の閾値を超えていれば当該利用者の認証を受理し、下回っていれば棄却する(Op23)。
本実施形態にかかる音声認証システムでは、以上の手順により、音声による利用者の認証が可能である。
なお、上記の実施形態では、登録されたキーワードを構成する音節の全てが、複数回に分割されたキーワード発声によって過不足なく発声されたか否かを認識する。従って、上記の具体例では、「カラオケ」というキーワードを「カラ」と「オケ」との2つに分割したが、例えば、「カオ」と「ラケ」、「ケカ」と「オラ」、「ラカ」と「ケオ」のように、音節の順序をランダムにしたキーワードの分割方法をとっても、正しい音声認証が可能である。
なお、本実施形態では、キーワードの登録時も認証時も音韻を認識しないので、キーワードが同じ音の音節を2つ以上含む場合は、それらの音節を区別することができない。そこで、認証時に音声入力された音節の複数が、登録されている話者音節モデルの複数に対して相互に高い類似度を示した場合は、これらは同じ音節であると見なして処理することが好ましい。
例えば、キーワードが「スキヤキ」である場合、このキーワードの登録時には、キーワード登録部21が、「ス(一番目の音節)」へインデックスI1、「キ(二番目の音節)」へインデックスI2、「ヤ(三番目の音節)」へインデックスI3、「キ(四番目の音節)」へインデックスI4をそれぞれ割り当てて、登録話者別音節モデルデータベース20に話者音節モデルを格納する。
そして、認証時に、例えば利用者が1回目の分割キーワードとして「ス(音節S1)」「キ(音節S2)」、2回目の分割キーワードとして「ヤ(音節S3)」「キ(音節S4)」と発声したとする。この場合、音節S2と音節S4の両方が、インデックスI2,I4の話者音節モデルに対して共に高い類似度を示すが、音節S2とインデックスI2の話者音節モデルとの類似度、音節S4とインデックスI2の話者音節モデルとの類似度、音節S2とインデックスI4の話者音節モデルとの類似度、音節S4とインデックスI4の話者音節モデルとの類似度は、互いに大きな差はないため、音節S2との類似度が最も高いインデックスと、音節S4との類似度が最も高いインデックスとが一致してしまう可能性もある。例えば音節S2とS4との両方がインデックスI2と最も類似すると判断された場合であれば、インデックスI4の音節が発声されていないとして、認証が棄却されてしまう。
従って、このように、複数の音節が、話者音節モデルの複数に対して相互に高い類似度であって、かつ、他の話者音節モデルに対する類似度よりも顕著に高い類似度を示す場合は、Op15において最も類似度の高いインデックスを選択するのではなく、それら複数の音節が同じ音であると見なし、それらの複数の音節との類似度が高い話者音節モデルのインデックスをすべて類似度保管部15へ保持すれば良い。あるいは、登録時に、複数の音節発声が、話者別音節モデルの複数に対して相互に高い類似度か否かを調べる等により、それら複数の音節が同じ音であることをチェックし、それを示す情報を記憶しておき、それらの音節に類似する話者音節モデルのインデックスとして同一のインデックスが類似度保管部15に保管されていれば、全てのインデックスが揃っていなくても認証を棄却しないようにしても良い。
これにより、上記の例において、「ス」「キ」「ヤ」「キ」の入力音節に対する類似話者音節モデルのインデックスとして、例えば、「I1」,「I2」,「I3」,「I2」が類似度保管部15に保管されていても、キーワードの全ての音節が発声されたものと正しく判断することができる。
以上、本発明の一実施形態にかかる音声認証システムについて説明したが、上記の説明は、本発明を実施するための一具体例に過ぎず、発明の範囲内で種々の変更が可能である。
例えば、上記の実施形態では、認証時にキーワードを2回に分割して発声する例を説明したが、キーワードの分割数は、2に限定されず、任意である。キーワードの分割数が3以上の場合は、分割キーワードの音声入力と、入力された分割キーワードに対する図3のOp13〜Op15の処理とを、分割数だけ繰り返せば良い。従って、「カ」と「ラオケ」、「オケラ」と「カ」、「ラ」と「ケ」と「オカ」、あるいは、「オ」と「ラ」と「カ」と「ケ」といったような分割によっても、正しい音声認証が可能である。
さらに、認証を受けようとする利用者が分割数を任意に決定できるようにしても良い。この場合、分割キーワードを複数回発声することによってキーワード全体の発声が完了したときに、利用者に例えば携帯電話の特定のボタンを押させることとし、音声認証システムは、入力部11において当該ボタンが押されたことを検知すると、図3のOp20以降の処理へ移行するようにすれば良い。あるいは、分割キーワードの発声が終了する毎に、それまでに発声された音節の集合と登録キーワードを構成する音節とを比較し、キーワードを構成する音節が全て発声済みであると判断されたときに、図3のOp20以降の処理へ移行するようにしても良い。
また、本実施形態では、2回目の分割キーワードが入力した後に、キーワード確認部17でキーワード確認を行い、さらに、類似度統合部18でキーワード全体としての統合類似度を算出し、認証判定部19で認証を受理するか棄却するかを判定する構成とした。しかし、1回目の分割キーワードの音声入力が終了した時点で、類似度統合部18が、1回目の分割キーワードに含まれる音節だけから統合類似度を算出するものとしても良い。
この場合、1回目の分割キーワードから算出された統合類似度が所定の閾値を下回る場合は、1回目の分割キーワードの音声入力をやりなおさせても良い。このようにすれば、例えば2回目の分割キーワードの類似度が高いが1回目の分割キーワードの類似度が低い場合に、最初から音声入力をやり直す手間が軽減されるという利点がある。
なお、セキュリティを厳しくする観点からは、1回目の分割キーワードの類似度が低い場合は、2回目の分割キーワードを入力させることなく、認証判定部19が認証を棄却するようにしても良い。
また、2回目の分割キーワードの入力が終了した後に、2回目の分割キーワードの類似度が低い場合は、キーワード確認部17により全音節が発声済みであることが確認されていることを条件として、2回目の分割キーワードの音声入力をやりなおさせても良い。上記の条件を付けるのは、全音節が発声済みであることが確認されていない場合に2回目の分割キーワードの音声入力のやりなおしを認めると、キーワードの試行を許すこととなり、詐称者による認証突破が可能となってしまうからである。
なお、安定した認証結果を得るためには、分割キーワード毎に類似度を求める方法よりも、分割キーワードの音声入力が全て終了した後にキーワード全体としての統合類似度を算出する方法の方が有利である。分割キーワードは発声長が短いので安定した類似度が得られにくいことがあるのに対して、キーワード全体としての統合類似度は発声長が長いので比較的安定した類似度が得られるからである。そのため、1回目の分割キーワードの類似度で判定する場合のしきい値は全体よりもやや緩めに設定することになる。
(第2の実施形態)
本発明にかかる音声認証システムの他の実施形態について、以下に説明する。なお、第1の実施形態で説明した構成と同様の機能を有する構成については、第1の実施形態で用いた参照記号と同じ記号を付記し、その詳細な説明は省略する。
本実施形態にかかる音声認証システムは、英語等のように、音節単位でのキーワード分割が必ずしも容易ではない言語による音声認証にも適している。
このため、本実施形態にかかる音声認証システムは、図4に示すように、入力部11、特徴量変換部12、類似度計算部13、類似度保管部15、待機時間管理部16、キーワード確認部17、類似度統合部18、認証判定部19、話者モデルデータベース22、キーワード登録部21、文法生成部23、認識文法格納部24、および、音声認識部25を備えている。
ここで、本実施形態の音声認証システムにおける音声認証の手順について、図5を参照しながら説明する。
最初に、利用者が、音声認証システムの話者モデルデータベース22へキーワードを登録する際の手順について説明する。利用者は、所望のキーワードを決めて、入力部11に接続された携帯電話等のマイクロフォンに対して発声する。本実施形態では、文法生成部23が、音声入力されたキーワードを音声認識(不特定話者音声認識)し、認識結果としての認識文法を認識文法格納部24へ登録する。なお登録前に、画面などに認識結果を表示して利用者が登録したキーワードの内容を確認させるのが望ましい。また認識結果を修正する手段(ボタン等)を与えるのが望ましい。
なお、不特定話者音声認識で単音節認識を行うことは精度的に難しいので、利用者は、キーワードを登録する際に、キーワードの発声内容を、例えば携帯電話のキー等を用いて、入力部11に対してテキスト入力するようにするのが望ましい。入力テキスト(キーワードの発声内容)と発声されたキーワード音声は、入力部11から文法生成部23へ渡される。
文法生成部23は、テキスト入力された発声内容から、利用者が入力し得るキーワード分割のパターンを認識するための文法を生成する。この文法は、音節単位に限定されず、音素単位の分割による全てのパターンを網羅するように生成される。日本語のように音節単位で切りやすい言語の場合には音節単位で分割しうる全てのパターンを網羅するように生成されるが、英語のように音節単位で切ることが難しい言語の場合には、音素単位の分割による全てのパターンを網羅するように生成される。例えば″verification″というキーワードに対しては″ve,veri,verifi,tion,cation,fication,verifica″等のパターンを受理する文法が生成される。生成された文法は、キーワード登録部21に渡されると共に、認識文法格納部24へ格納される。
キーワード登録部21は、登録されたキーワードの音声を用いて適応した話者モデル(すなわち音素または音節単位の話者モデル)を作成し、当該利用者の利用者IDと関連づけて、話者モデルデータベース22へ登録する。音素単位の話者モデルの作成方法としては、不特定話者音声認識によりキーワードの音声と音素の時間対応づけ(アライメントと呼ぶ)を行い、キーワードを構成する音素別に適応を行い、話者別音素モデルを話者モデルとして作成する方法がある。また、適応方法としてはMLLR(Maximum Likelihood Linear Regression)法、MAP法等、モデル適応により話者適応を実現する方法であれば何でもよい。音節単位で話者モデルを作成する場合には音節単位でキーワードとの時間対応付けを行ったのち、話者適応を行い作成する。
上記の手順によりキーワード登録が完了した後に、利用者が音声入力により認証を受ける際の手順について、以下に説明する。なお、以下の例においても、キーワードを2回に分割して音声入力する例を説明するが、キーワードの分割数は2に限定されない。
最初に、入力部11は、利用者が携帯電話のキーパッドを用いて入力した利用者ID等を受け付ける(Op31)。なお、携帯電話のように利用者が1名に限定される場合には利用者IDの入力手順は不要となる。次に、利用者が、携帯電話のマイクロフォンに向けて1回目の分割キーワードを発声すると、入力部11はこの音声を受け取る(Op32)。なお、本実施形態では、利用者は音節毎に区切って音声入力をしなくても良い。例えば、キーワードが「カラオケ」である場合、1回目の分割キーワードを「カラ」とする場合、第1の実施形態のように「カ」と「ラ」の間に無音区間を入れずに、「カラ」と一気に発声しても良い。
また、英語等は、話者が音節を厳密に意識しない傾向が強いため、キーワードを分割した際に、誤って音節が欠落したり重複したりする可能性がある。音節の重複はキーワード認証に際してあまり問題とならないため、本実施形態では、例えばキーワードが「verification」である場合に、「verifi」と「fication」のように、分割キーワードにおいて音節が重複することは許容される。
入力された分割キーワードは、特徴量変換部12において、MFCCやLPCケプストラムなどの、音声認識に用いられる特徴量に変換される(Op33)。特徴量変換部12で得られた特徴量は音声認識部25へ送られる。
次に、音声認識部25は、認識文法格納部24に格納されている認識文法を参照し、分割キーワードとして発声された音声の音韻を不特定話者音声認識で認識する(Op34)。認識結果は、類似度計算部13へ送られる。キーワードと異なる発声がされた場合等、認識スコアが非常に悪い場合には「認識できない」と判定した方が良く、この場合には「認識できない」という結果を類似度計算部13に送る。
この例では不特定話者音声認識で認識したが、登録時に適応した話者モデルを利用して認識させても良い。この場合、音声認識時に計算した類似度がそのまま話者モデルに対する類似度となるので、類似度計算部13での類似度計算は不要となる。
次に、類似度計算部13は、前記の認識結果に基づき、話者モデルデータベース22から、当該利用者の話者モデルのうち、前記Op34で認識された音韻に対応する話者モデルを抽出し、抽出した話者モデルに対する前記特徴量の類似度を計算する(Op35)。
Op35の結果に基づき、発声済みの分割キーワードから認識された音韻が、登録キーワードのどの音素を網羅しているかを表す情報(発声済み音素データ)が、類似度保管部15へ保管される(Op36)。これと共に、認識された音韻の話者モデルに対する類似度も、類似度保管部15に保管される。
ここで、2回目の分割キーワードの入力がまだ済んでいないので(Op37の結果がNO)、Op38へ進む。
なお、待機時間管理部16は、入力部11に1回目の分割キーワードが入力された後の経過時間を、タイマにより測定している。そして、2回目の分割キーワード入力が所定時間内に開始されない場合は、タイムアウトとしてOp39へ進み、1回目の分割キーワードの処理結果を、類似度保管部15等から消去する(Op39)。この場合、利用者は、認証を受けるためには、1回目の分割キーワード入力からやり直さなければならない。
一方、Op38において、上記の所定時間内に2回目の分割キーワード入力が開始された場合は、待機時間管理部16がタイマをストップ・クリアすると共に、Op40へ進み、2回目の分割キーワード入力を受け付け(Op40)、その後Op33へ進む。
そして、2回目の分割キーワードに対して、Op33〜Op36の処理を行った後、キーワード確認部17が、類似度保管部15に保管されている発声済み音素データに基づき、1回目と2回目の発声によってキーワードの全ての音素が発声されたかを確認する(Op41)。Op41の判断結果がNOの場合は、その旨が認証判定部19へ通知され、認証判定部19は当該利用者の認証を棄却する(Op42)。
一方、Op41の判断結果がYESの場合は、類似度統合部18が、類似度保管部15に保管されている分割キーワード毎の類似度に基づいて、発声されたキーワード全体が登録キーワードにどの程度似ているかを表す統合類似度を算出する(Op43)。統合類似度としては、分割キーワードの類似度の総計を用いても良いし、分割キーワードの類似度の平均値を用いても良い。
このように類似度統合部18で求められた統合類似度は、認証判定部19へ送られ、認証判定部19が、所定の閾値と統合類似度とを比較する。認証判定部19は、統合類似度が所定の閾値を超えていれば当該利用者の認証を受理し、下回っていれば棄却する(Op44)。
本実施形態にかかる音声認証システムでは、以上の手順により、音声による利用者の認証が可能である。本実施形態では、上述のとおり、複数音節をキーワード分割の最小単位としても良いし、形態素または単語など、発声の単位とできるものなら、音節以外をキーワード分割の最小単位としてもよい。
また、キーワードが数字列(例えば「1234」)である場合、日本語であれば「イチ」、「ニ」、「サン」、「シ」のように、あるいは英語であれば「one」、「two」、「three」、「four」のように、数字を単位としてキーワードの確認および音声認証を行ってもよい。ただし、この場合は、数字認識用の文法を用いる必要がある。
同様に、キーワードが数字とアルファベット等の混合(例えば「1a2b」)である場合は、数字とアルファベットの認識用文法を用いる必要がある。
(第3の実施形態)
本発明にかかる音声認証システムのさらに他の実施形態について、以下に説明する。なお、第1または第2の実施形態で説明した構成と同様の機能を有する構成については、それらの実施形態で用いた参照記号と同じ記号を付記し、その詳細な説明は省略する。
本実施形態にかかる音声認証システムは、2回目以降の分割キーワードが音声入力される毎に、前回の分割キーワードの音声入力時から利用者が場所を移動しているか否かを確認し、場所を移動していない場合は音声入力を受け付けない。
このため、本実施形態にかかる音声認証システムは、図6に示すように、入力部11、特徴量変換部12、類似度計算部13、音節判定部14、類似度保管部15、待機時間管理部16、キーワード確認部17、類似度統合部18、認証判定部19、登録話者別音節モデルデータベース20、キーワード登録部21、位置情報取得部31、および、位置確認部32を備えている。すなわち、本実施形態にかかる音声認証システムは、第1の実施形態にかかる音声認証システムに、位置情報取得部31、および、位置確認部32をさらに備えた構成である。
位置情報取得部31は、利用者の携帯電話等に組み込まれたGPS(Global Positioning System)により、利用者が分割キーワードを音声入力する都度、利用者の現在位置を表す情報を取得する。位置確認部32は、位置情報取得部31により取得された情報に基づき、前回の分割キーワードの音声入力時から利用者が場所を移動しているか否かを確認する。
以上の構成にかかる、本実施形態の音声認証システムの動作について、図7を参照しながら説明する。
最初に、入力部11は、利用者が携帯電話のキーパッドを用いて入力した利用者ID等を受け付ける(Op51)。なお携帯電話のように利用者が1名に限定される場合には利用者IDの入力手順は不要となる。次に、利用者が、携帯電話のマイクロフォンに向けて1回目の分割キーワードを発声すると、入力部11はこの音声を受け取る(Op52)。このとき同時に、位置情報取得部31が、利用者の携帯電話に組み込まれたGPSにより、利用者の現在位置を表す情報を取得し、取得した情報を位置確認部32へ渡す(Op53)。
入力された1回目の分割キーワードの各音節は、特徴量変換部12において特徴量に変換される(Op54)。特徴量変換部12で得られた特徴量は類似度計算部13へ送られる。
次に、類似度計算部13は、登録話者別音節モデルデータベース20から、当該利用者の利用者IDに関連づけて格納されている当該利用者の話者音節モデルを抽出し、抽出した話者音節モデルに対する前記特徴量の類似度を計算する(Op55)。求められた類似度は、音節判定部14へ送られる。
次に、音節判定部14は、類似度計算部13で求められた類似度に基づき、1回目の分割キーワードの各音節について、登録話者別音節モデルデータベース20の話者音節モデルの中で最も類似度の高いモデルのインデックスを選択し、その類似度と共に、類似度保管部15に保管する(Op56)。ここで、2回目の分割キーワードの入力がまだ済んでいないので(Op57の結果がNO)、Op58へ進む。
第三者へのキーワードの暴露をより確実に防止するために、1回目の分割キーワードの入力が終了したときに、2回目の分割キーワードの音声入力までに場所を移動するように指示するメッセージを利用者の携帯電話等のディスプレイへ表示したり、同様の内容の音声メッセージを当該携帯電話へ送ったりすることが好ましい。
このため、Op58において、1回目の分割キーワードの音声入力後、適当な時間(例えば1分)が経ったときに、位置情報取得部31が、利用者の携帯電話に組み込まれたGPSにより、利用者の現在位置を表す情報を取得し、取得した情報を位置確認部32へ渡す。
位置確認部32は、Op53で取得された1回目の分割キーワード入力時の位置情報と、Op58で取得された位置情報とを比較することにより、1回目の分割キーワードを入力した後に、利用者が所定の距離(例えば50m)以上離れた場所へ移動しているかを確認する(Op59)。なお、前記所定の距離は50mに限定されず、任意である。
Op59の確認結果がNOであれば、音声認証システムは、利用者の携帯電話へ、場所を移動するように指示する音声メッセージを送る。あるいは、場所を移動するよう指示する警告メッセージを表示する(Op60)。
一方、Op59の確認結果がYESであれば、Op61以降の処理を続行する。Op61〜Op67の処理は、第1の実施形態において説明したOp17〜Op23と同様であるため、説明は省略する。
以上のように、本実施形態にかかる音声認証システムは、GPS等を利用して利用者の現在位置を確認し、分割キーワードの前回の入力時から利用者が所定の距離以上移動していない場合は、場所を移動するよう指示する。これにより、第三者へキーワードが暴露されることをより確実に防止できる。
なお、本実施形態では、第1の実施形態にかかる音声認証システムに、位置情報取得部31および位置確認部32をさらに備えた構成を例示したが、第2の実施形態にかかる音声認証システムに位置情報取得部31および位置確認部32をさらに備えた構成も、本発明の一実施態様である。
(第4の実施形態)
本発明にかかる音声認証システムのさらに他の実施形態について、以下に説明する。なお、第1〜第3の実施形態で説明した構成と同様の機能を有する構成については、それらの実施形態で用いた参照記号と同じ記号を付記し、その詳細な説明は省略する。
本実施形態にかかる音声認証システムは、キーワードの分割方法等をシステムが利用者へ指示し、利用者が指示どおりに音声入力をしていない場合は、認証を棄却する構成である。
このため、本実施形態にかかる音声認証システムは、図8に示すように、入力部11、特徴量変換部12、類似度計算部13、音節判定部14、類似度保管部15、待機時間管理部16、キーワード確認部17、類似度統合部18、認証判定部19、登録話者別音節モデルデータベース20、キーワード登録部21、および、指示出力部41を備えている。すなわち、本実施形態にかかる音声認証システムは、第1の実施形態にかかる音声認証システムに、指示出力部41をさらに備えた構成である。
指示出力部41は、予め定められた複数種類のパターンからランダムに選択したパターンに従って利用者にキーワードを分割入力させるよう指示を出す。
そのような指示としては、例えば、「1回目の分割キーワードとして最初の3音節、2回目の分割キーワードとして残りの全音節を入力して下さい。」、「奇数音節を1回目の分割キーワードとし、偶数音節を2回目の分割キーワードとして下さい。」、「キーワードを逆方向から1音節ずつ入力して下さい。」といった指示が考えられる。なお、これらの指示はあくまで一例であり、指示内容は任意である。
ここで、本実施形態にかかる音声認証システムの動作について、図9を参照しな説明する。なお、利用者によるキーワードの登録手順は第1の実施形態と同様であるため、説明を省略する。
最初に、入力部11は、利用者が携帯電話のキーパッドを用いて入力した利用者ID等を受け付ける(Op71)。なお、携帯電話のように利用者が1名に限定される場合には利用者IDの入力手順は不要となる。次に、指示出力部41が、予め定められた複数種類のパターンからランダムに選択したパターンに従って、利用者の携帯電話に対して、1回目の分割キーワードを入力させるための指示を、表示または音声メッセージとして出力する(Op72)。指示出力部41による指示内容は、後のOp76における音節判定部14の処理のために、音節判定部14へも送られる。
例えばここで、「奇数音節を1回目の分割キーワードとして下さい。」という指示がされた場合、キーワードが「カラオケ」であったとすると、利用者は、1回目の分割キーワードとして「カ」「オ」、2回目の分割キーワードとして「ラ」「ケ」を入力しなければならない。
利用者が、この指示に従って、携帯電話のマイクロフォンに向けて1回目の分割キーワードを発声すると、入力部11はこの音声を受け取る(Op73)。
入力された音節S1,S2のそれぞれは、特徴量変換部12において、特徴量に変換される(Op74)。特徴量変換部12で得られた特徴量は類似度計算部13へ送られる。
次に、類似度計算部13は、登録話者別音節モデルデータベース20から、当該利用者の利用者IDに関連づけて格納されている当該利用者の話者音節モデルを抽出し、抽出した話者音節モデルに対する前記特徴量の類似度を計算する(Op75)。求められた類似度は、音節判定部14へ送られる。
次に、音節判定部14は、類似度計算部13で求められた類似度に基づき、1回目の分割キーワードの各音節について、登録話者別音節モデルデータベース20に格納されている話者音節モデルの中で最も類似度の高いモデルのインデックスを選択し、その類似度と共に類似度保管部15に保管する(Op76)。
また、Op76において、音節判定部14は、1回目の分割キーワードの各音節が、指示出力部41による指示どおりに発声されたかを判定する。すなわち、上記の例では、1回目の分割キーワードとして奇数音節、つまりキーワードの第1音節(インデックスI1)である「カ」と第3音節(インデックスI3)である「オ」を入力する旨の指示が出されている。従って、1回目の分割キーワードの1つ目の音節は、インデックスI1の話者音節モデルとの類似度が最も大きくなければならず、また、2つ目の音節は、インデックスI3の話者音節モデルとの類似度が最も大きくなければならない。そうでない場合は、音節判定部14は、その判定結果を認証判定部19へ通知し、認証判定部19が認証を棄却する。
なお、図9において、Op77以降は、第1の実施形態において説明したOp16〜Op23と同様であるため、その重複した説明は省略する。
本実施形態にかかる音声認証システムでは、以上のように、指示出力部41が、キーワードの分割方法が認証毎にランダムになるように、分割方法を利用者へ指示することにより、キーワードの暴露をより確実に防止することができる。
なお、上記の説明では、指示出力部41が、キーワードの分割方法を一つ選択して利用者へ指示するものとしたが、指示出力部41が複数パターンの分割方法を利用者へ提示し、利用者がその中からいずれかのパターンを選択するようにしても良い。
また、本実施形態では、第1の実施形態にかかる音声認証システムに、指示出力部41をさらに備えた構成を例示したが、第2または第3の実施形態にかかる音声認証システムに指示出力部41をさらに備えた構成も、本発明の一実施態様である。
例えば、第2の実施形態にかかる音声認証システムに指示出力部41を加えた構成の場合であって、キーワードが数字列の場合は、例えば、「1回目の分割キーワードとして2桁および4桁目の数字を入力し、2回目の分割キーワードとして1桁および3桁目の数字を入力して下さい。」、「暗証番号を逆方向から順番に入力して下さい。」といった指示が可能である。さらに、キーワードが数字とアルファベットの混合の場合は、「1回目の分割キーワードとして奇数番目の数字またはアルファベット、2回目に偶数番目の数字またはアルファベットを入力して下さい。」といった指示が可能である。
以上、各実施形態において説明したように、本発明によれば、キーワードを分割して入力することにより、キーワード全体を他人に聞かれることがない。従って、他人がキーワード内容を知ることが難しくなり、またキーワード全体を続けて録音することができないので、録音詐称を防ぐことができる。
また、テキスト依存型の音声認証は、キーワード内容が暴露されることが多く、従来は、高い性能維持のためにキーワードを頻繁に変えなければならず、運用のコストが大きいという問題があった。しかし、本発明によれば、キーワード内容が暴露されにくくなり、キーワードを頻繁に変更する必要がなく、キーワード変更のためのコストを削減できるという効果がある。
さらに、例えば人気のない場所で1回目の分割キーワードを音声入力しておき、レジカウンタ前等の公衆の面前では2回目の分割キーワードのみを音声入力するようにすれば、公衆の面前での認証時間を短くすることができるので、スピーディーに決済を行うことができる、という効果もある。
なお、上記の各実施形態にかかる音声認証システムにおいて、例えば周囲に他人が居ない場合等にキーワードを分割せずに音声認証を行うことが可能となるように、利用者がキーワードを分割入力するか否かを選択できるようにしても良い。
本発明は、キーワードの漏洩や録音詐称を防ぐことにより、キーワードの秘密性を利用して高い認証精度を維持し得るテキスト依存型の音声認証システムとして有用である。

Claims (10)

  1. キーワードを音声入力させて認証を行うテキスト依存型の音声認証システムであって、
    発声が可能な単位を最小単位として複数の部分に分割されたキーワードの音声入力を、前記部分毎に時間間隔をおいて複数回にわたって受け付ける入力部と、
    利用者の登録キーワードを、前記発声が可能な単位で作成された話者モデルとして予め格納した話者モデル格納部と、
    前記入力部において1回の音声入力で受け付けられたキーワードの部分から、当該部分に含まれる音声の特徴量を求める特徴量変換部と、
    前記特徴量変換部で求められた特徴量と前記話者モデルとの類似度を求める類似度計算部と、
    前記類似度計算部で求められた類似度に基づき、前記複数回の音声入力により発声内容を判定する発声内容判定部と、前記複数回の音声入力の発声内容が過不足なく登録キーワードを構成しうるか否かを判定するキーワード確認部と、
    前記キーワード確認部による判定結果と、前記類似度計算部で求められた類似度とに基づき、認証を受理するか棄却するかを判定する認証判定部とを備えた音声認証システム。
  2. 前記発声が可能な単位が音節である、請求項1に記載の音声認証システム。
  3. 前記話者モデル格納部において、登録キーワードを構成する各音節の話者モデルに個別のインデックスが付与されており、
    前記特徴量変換部が、前記音声入力で受け付けられたキーワードの部分から、音節毎の特徴量を求め、
    前記類似度計算部が、前記音節毎の特徴量と前記話者モデルとの類似度を求め、
    前記類似度計算部により求められた類似度に基づき、前記音声入力で受け付けられたキーワードの部分が、登録キーワードのどの音節に最も類似するかを判定する音節判定部をさらに備え、
    前記キーワード確認部が、前記音節判定部の判定結果に基づき、前記複数回の音声入力により判定された音節を用いて登録キーワードを構成しうるか否かを判定する、請求項2に記載の音声認証システム。
  4. 前記発声が可能な単位が、数字の読みまたはアルファベットの読みである、請求項1〜3のいずれかに記載の音声認証システム。
  5. 前記特徴量変換部により求められた特徴量から、不特定話者音声認識により、前記キーワードの部分の音韻を認識する音声認識部をさらに備え、
    前記キーワード確認部が、前記音声認識部の認識結果に基づいて、前記複数回の音声入力により音声認識された結果を用いて、登録キーワードを構成しうるか否かを判定する、請求項1に記載の音声認証システム。
  6. 前記キーワードのある部分の音声入力の完了から所定の時間が経過しても次の部分の音声入力がなく、かつ、それまでの音声入力の発声内容の情報を用いて登録キーワードを構成できない場合、前記認証判定部が認証を棄却する、請求項1に記載の音声認証システム。
  7. 前記キーワードの部分の音声入力がある度に利用者の所在位置情報を取得する位置情報取得部と、
    前回の音声入力時に前記位置情報取得部で取得された所在位置情報と、今回の音声入力時に前記位置情報取得部で取得された所在位置情報とを比較し、前回の音声入力時から今回の音声入力時までの間に利用者が所定の距離以上移動したかを確認する位置確認部とをさらに備えた、請求項1に記載の音声認証システム。
  8. 前記複数回の音声入力で受け付けられたキーワードの部分の全てについて、前記類似度計算部で求められた類似度を統合して統合類似度を求める類似度統合部をさらに備え、
    前記認証判定部が、前記類似度統合部により求められた統合類似度に基づいて認証を受理するか棄却するかを判定する、請求項1に記載の音声認証システム。
  9. 前記入力部が、利用者の携帯端末より音声入力を受け付ける、請求項1に記載の音声認証システム。
  10. キーワードを音声入力させて認証を行うテキスト依存型の音声認証システムを具現化するコンピュータプログラムであって、
    発声が可能な単位を最小単位として複数の部分に分割されたキーワードの音声入力を、前記部分毎に時間間隔をおいて複数回にわたって受け付ける入力処理と、
    1回の音声入力で受け付けられたキーワードの部分から、当該部分に含まれる音声の特徴量を求める特徴量変換処理と、
    利用者のキーワードが、前記発声が可能な単位で作成された話者モデルとして予め登録された話者モデル格納部を参照し、前記特徴量変換処理で求められた特徴量と、前記話者モデルとの類似度を求める類似度計算処理と、
    前記類似度計算処理で求められた類似度に基づき、前記複数回の音声入力により発声内容を判定する発声内容判定処理と、
    前記複数回の音声入力の発声内容が過不足なく登録キーワードを構成しうるか否かを判定するキーワード確認処理と、
    前記キーワード確認処理による判定結果と、前記類似度計算処理で求められた類似度とに基づき、認証を受理するか棄却するかを判定する認証判定処理とをコンピュータに実行させることを特徴とするコンピュータプログラム。
JP2007503538A 2005-02-18 2005-02-18 音声認証システム Expired - Fee Related JP4672003B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/002589 WO2006087799A1 (ja) 2005-02-18 2005-02-18 音声認証システム

Publications (2)

Publication Number Publication Date
JPWO2006087799A1 JPWO2006087799A1 (ja) 2008-07-03
JP4672003B2 true JP4672003B2 (ja) 2011-04-20

Family

ID=36916215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007503538A Expired - Fee Related JP4672003B2 (ja) 2005-02-18 2005-02-18 音声認証システム

Country Status (4)

Country Link
US (1) US7657431B2 (ja)
JP (1) JP4672003B2 (ja)
CN (1) CN101124623B (ja)
WO (1) WO2006087799A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11152008B2 (en) 2017-12-19 2021-10-19 Samsung Electronics Co., Ltd. Electronic apparatus, method for controlling thereof and computer readable recording medium

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9113001B2 (en) 2005-04-21 2015-08-18 Verint Americas Inc. Systems, methods, and media for disambiguating call data to determine fraud
US20070280436A1 (en) * 2006-04-14 2007-12-06 Anthony Rajakumar Method and System to Seed a Voice Database
US8073691B2 (en) * 2005-04-21 2011-12-06 Victrio, Inc. Method and system for screening using voice data and metadata
US8930261B2 (en) * 2005-04-21 2015-01-06 Verint Americas Inc. Method and system for generating a fraud risk score using telephony channel based audio and non-audio data
US20060248019A1 (en) * 2005-04-21 2006-11-02 Anthony Rajakumar Method and system to detect fraud using voice data
US8510215B2 (en) * 2005-04-21 2013-08-13 Victrio, Inc. Method and system for enrolling a voiceprint in a fraudster database
US8924285B2 (en) * 2005-04-21 2014-12-30 Verint Americas Inc. Building whitelists comprising voiceprints not associated with fraud and screening calls using a combination of a whitelist and blacklist
US8903859B2 (en) 2005-04-21 2014-12-02 Verint Americas Inc. Systems, methods, and media for generating hierarchical fused risk scores
US8793131B2 (en) 2005-04-21 2014-07-29 Verint Americas Inc. Systems, methods, and media for determining fraud patterns and creating fraud behavioral models
US9571652B1 (en) 2005-04-21 2017-02-14 Verint Americas Inc. Enhanced diarization systems, media and methods of use
US20120053939A9 (en) * 2005-04-21 2012-03-01 Victrio Speaker verification-based fraud system for combined automated risk score with agent review and associated user interface
US8639757B1 (en) 2011-08-12 2014-01-28 Sprint Communications Company L.P. User localization using friend location information
US7958539B2 (en) * 2006-12-06 2011-06-07 Motorola Mobility, Inc. System and method for providing secure access to password-protected resources
KR100921867B1 (ko) * 2007-10-17 2009-10-13 광주과학기술원 광대역 오디오 신호 부호화 복호화 장치 및 그 방법
EP2065823A1 (en) * 2007-11-26 2009-06-03 BIOMETRY.com AG System and method for performing secure online transactions
JP2009146263A (ja) * 2007-12-17 2009-07-02 Panasonic Corp 本人認証システム
US8312033B1 (en) 2008-06-26 2012-11-13 Experian Marketing Solutions, Inc. Systems and methods for providing an integrated identifier
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus
US8442824B2 (en) 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
WO2010066269A1 (en) * 2008-12-10 2010-06-17 Agnitio, S.L. Method for verifying the identify of a speaker and related computer readable medium and computer
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
DE112009004357B4 (de) * 2009-01-30 2019-06-13 Mitsubishi Electric Corp. Spracherkennungssystem
US9652802B1 (en) 2010-03-24 2017-05-16 Consumerinfo.Com, Inc. Indirect monitoring and reporting of a user's credit data
US9619826B1 (en) * 2010-07-30 2017-04-11 West Corporation Third-party authentication systems and methods
CN102377736A (zh) * 2010-08-12 2012-03-14 杭州华三通信技术有限公司 一种基于语音识别的认证方法和设备
EP2676197B1 (en) 2011-02-18 2018-11-28 CSidentity Corporation System and methods for identifying compromised personally identifiable information on the internet
JP5799586B2 (ja) * 2011-05-27 2015-10-28 富士通株式会社 生体認証装置、生体認証方法及び生体認証用コンピュータプログラム
US9607336B1 (en) 2011-06-16 2017-03-28 Consumerinfo.Com, Inc. Providing credit inquiry alerts
CN102238189B (zh) * 2011-08-01 2013-12-11 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
US8819793B2 (en) 2011-09-20 2014-08-26 Csidentity Corporation Systems and methods for secure and efficient enrollment into a federation which utilizes a biometric repository
KR101303939B1 (ko) * 2011-10-17 2013-09-05 한국과학기술연구원 디스플레이 장치 및 컨텐츠 디스플레이 방법
US11030562B1 (en) 2011-10-31 2021-06-08 Consumerinfo.Com, Inc. Pre-data breach monitoring
CN202563514U (zh) * 2012-02-23 2012-11-28 江苏华丽网络工程有限公司 具有多媒体认证加密保护功能的移动电子设备
US9368116B2 (en) 2012-09-07 2016-06-14 Verint Systems Ltd. Speaker separation in diarization
US10134400B2 (en) 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using acoustic labeling
US9633652B2 (en) * 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US8812387B1 (en) 2013-03-14 2014-08-19 Csidentity Corporation System and method for identifying related credit inquiries
US9633322B1 (en) 2013-03-15 2017-04-25 Consumerinfo.Com, Inc. Adjustment of knowledge-based authentication
US10664936B2 (en) 2013-03-15 2020-05-26 Csidentity Corporation Authentication systems and methods for on-demand products
CN103220286B (zh) * 2013-04-10 2015-02-25 郑方 基于动态密码语音的身份确认系统及方法
US9721147B1 (en) 2013-05-23 2017-08-01 Consumerinfo.Com, Inc. Digital identity
CN104217149B (zh) * 2013-05-31 2017-05-24 国际商业机器公司 基于语音的生物认证方法及设备
US9754258B2 (en) * 2013-06-17 2017-09-05 Visa International Service Association Speech transaction processing
US10846699B2 (en) 2013-06-17 2020-11-24 Visa International Service Association Biometrics transaction processing
US9460722B2 (en) 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
US9984706B2 (en) 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
US9813905B2 (en) * 2013-10-14 2017-11-07 U.S. Bank, National Association DTMF token for automated out-of-band authentication
CN104598790A (zh) * 2013-10-30 2015-05-06 鸿富锦精密工业(深圳)有限公司 手持装置解锁系统、方法及手持装置
US9646613B2 (en) 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
US9507852B2 (en) * 2013-12-10 2016-11-29 Google Inc. Techniques for discriminative dependency parsing
US10373240B1 (en) 2014-04-25 2019-08-06 Csidentity Corporation Systems, methods and computer-program products for eligibility verification
JP6316685B2 (ja) * 2014-07-04 2018-04-25 日本電信電話株式会社 声まね音声評価装置、声まね音声評価方法及びプログラム
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US10339527B1 (en) 2014-10-31 2019-07-02 Experian Information Solutions, Inc. System and architecture for electronic fraud detection
EP3167399B1 (en) * 2014-11-04 2019-04-10 NEC Corporation Method for providing encrypted information and encrypting entity
US9875742B2 (en) 2015-01-26 2018-01-23 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers
CN105096121B (zh) * 2015-06-25 2017-07-25 百度在线网络技术(北京)有限公司 声纹认证方法和装置
US11151468B1 (en) 2015-07-02 2021-10-19 Experian Information Solutions, Inc. Behavior analysis using distributed representations of event data
CN106572049B (zh) * 2015-10-09 2019-08-27 腾讯科技(深圳)有限公司 一种身份验证方法及装置
US9633659B1 (en) * 2016-01-20 2017-04-25 Motorola Mobility Llc Method and apparatus for voice enrolling an electronic computing device
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
JP6682007B2 (ja) * 2016-11-11 2020-04-15 旭化成株式会社 電子機器、電子機器の制御方法及び電子機器の制御プログラム
US10614797B2 (en) * 2016-12-01 2020-04-07 International Business Machines Corporation Prefix methods for diarization in streaming mode
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
US10277590B2 (en) 2017-01-17 2019-04-30 International Business Machines Corporation Cognitive intelligence based voice authentication
CN108630207B (zh) * 2017-03-23 2021-08-31 富士通株式会社 说话人确认方法和说话人确认设备
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
CN109147770B (zh) 2017-06-16 2023-07-28 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
US10354656B2 (en) * 2017-06-23 2019-07-16 Microsoft Technology Licensing, Llc Speaker recognition
CN109215643B (zh) 2017-07-05 2023-10-24 阿里巴巴集团控股有限公司 一种交互方法、电子设备及服务器
JP7166780B2 (ja) * 2017-08-03 2022-11-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 車両制御装置、車両制御方法及びプログラム
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
JP2019053165A (ja) * 2017-09-14 2019-04-04 株式会社東芝 音声認識装置
US10699028B1 (en) 2017-09-28 2020-06-30 Csidentity Corporation Identity security architecture systems and methods
CN109754784B (zh) * 2017-11-02 2021-01-29 华为技术有限公司 训练滤波模型的方法和语音识别的方法
US10896472B1 (en) 2017-11-14 2021-01-19 Csidentity Corporation Security and identity verification system and architecture
US10402149B2 (en) * 2017-12-07 2019-09-03 Motorola Mobility Llc Electronic devices and methods for selectively recording input from authorized users
US10757323B2 (en) 2018-04-05 2020-08-25 Motorola Mobility Llc Electronic device with image capture command source identification and corresponding methods
FR3080927B1 (fr) * 2018-05-03 2024-02-02 Proton World Int Nv Authentification d'un circuit electronique
US11538128B2 (en) 2018-05-14 2022-12-27 Verint Americas Inc. User interface for fraud alert management
US10911234B2 (en) 2018-06-22 2021-02-02 Experian Information Solutions, Inc. System and method for a token gateway environment
US10887452B2 (en) 2018-10-25 2021-01-05 Verint Americas Inc. System architecture for fraud detection
CN109920447B (zh) * 2019-01-29 2021-07-13 天津大学 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
JP7266448B2 (ja) * 2019-04-12 2023-04-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識方法、話者認識装置、及び話者認識プログラム
US11115521B2 (en) 2019-06-20 2021-09-07 Verint Americas Inc. Systems and methods for authentication and fraud detection
US11941065B1 (en) 2019-09-13 2024-03-26 Experian Information Solutions, Inc. Single identifier platform for storing entity data
US11868453B2 (en) 2019-11-07 2024-01-09 Verint Americas Inc. Systems and methods for customer authentication based on audio-of-interest
US11508380B2 (en) * 2020-05-26 2022-11-22 Apple Inc. Personalized voices for text messaging
US11436309B2 (en) 2020-07-09 2022-09-06 Bank Of America Corporation Dynamic knowledge-based voice authentication
CN112101947A (zh) * 2020-08-27 2020-12-18 江西台德智慧科技有限公司 一种提高语音支付安全性的方法
CN113178199B (zh) * 2021-06-29 2021-08-31 中国科学院自动化研究所 基于相位偏移检测的数字音频篡改取证方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1056449A (ja) * 1996-08-09 1998-02-24 Oki Electric Ind Co Ltd セキュリティ強化システム
JPH10173644A (ja) * 1996-12-11 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> 本人認証方法
JP2000099090A (ja) * 1998-09-22 2000-04-07 Kdd Corp 記号列を用いた話者認識方法
JP2003044445A (ja) * 2001-08-02 2003-02-14 Matsushita Graphic Communication Systems Inc 認証システム、サービス提供サーバ装置および音声認証装置並びに認証方法
JP2004118456A (ja) * 2002-09-25 2004-04-15 Japan Science & Technology Corp 位置情報を用いた移動端末の認証システム
JP2004279770A (ja) * 2003-03-17 2004-10-07 Kddi Corp 話者認証装置及び判別関数設定方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6015990B2 (ja) 1983-04-15 1985-04-23 富士通株式会社 有資格者判定方式
JPS63207262A (ja) 1987-02-23 1988-08-26 Nec Corp 暗証番号保護方式
JPS63231496A (ja) 1987-03-20 1988-09-27 富士通株式会社 音声認識応答システム
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5517558A (en) * 1990-05-15 1996-05-14 Voice Control Systems, Inc. Voice-controlled account access over a telephone network
AU5359498A (en) * 1996-11-22 1998-06-10 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
EP0896712A4 (en) 1997-01-31 2000-01-26 T Netix Inc SYSTEM AND METHOD FOR DISCOVERING RECORDED LANGUAGE
JP2000148187A (ja) 1998-11-18 2000-05-26 Nippon Telegr & Teleph Corp <Ntt> 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体
JP3835032B2 (ja) 1998-12-18 2006-10-18 富士通株式会社 利用者照合装置
IL145285A0 (en) * 1999-03-11 2002-06-30 British Telecomm Speaker recognition
JP4328423B2 (ja) 1999-10-04 2009-09-09 セコム株式会社 音声識別装置
JP2002312318A (ja) 2001-04-13 2002-10-25 Nec Corp 電子装置、本人認証方法およびプログラム
JP4574889B2 (ja) 2001-04-13 2010-11-04 富士通株式会社 話者認証装置
JP4318475B2 (ja) * 2003-03-27 2009-08-26 セコム株式会社 話者認証装置及び話者認証プログラム
JP2004334377A (ja) * 2003-05-01 2004-11-25 Advanced Media Inc 音声情報記憶システム
US7386448B1 (en) * 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1056449A (ja) * 1996-08-09 1998-02-24 Oki Electric Ind Co Ltd セキュリティ強化システム
JPH10173644A (ja) * 1996-12-11 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> 本人認証方法
JP2000099090A (ja) * 1998-09-22 2000-04-07 Kdd Corp 記号列を用いた話者認識方法
JP2003044445A (ja) * 2001-08-02 2003-02-14 Matsushita Graphic Communication Systems Inc 認証システム、サービス提供サーバ装置および音声認証装置並びに認証方法
JP2004118456A (ja) * 2002-09-25 2004-04-15 Japan Science & Technology Corp 位置情報を用いた移動端末の認証システム
JP2004279770A (ja) * 2003-03-17 2004-10-07 Kddi Corp 話者認証装置及び判別関数設定方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11152008B2 (en) 2017-12-19 2021-10-19 Samsung Electronics Co., Ltd. Electronic apparatus, method for controlling thereof and computer readable recording medium

Also Published As

Publication number Publication date
JPWO2006087799A1 (ja) 2008-07-03
CN101124623B (zh) 2011-06-01
US7657431B2 (en) 2010-02-02
US20080172230A1 (en) 2008-07-17
CN101124623A (zh) 2008-02-13
WO2006087799A1 (ja) 2006-08-24

Similar Documents

Publication Publication Date Title
JP4672003B2 (ja) 音声認証システム
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
JP4213716B2 (ja) 音声認証システム
Naik Speaker verification: A tutorial
Das et al. Development of multi-level speech based person authentication system
WO2018025025A1 (en) Speaker recognition
Justin et al. Speaker de-identification using diphone recognition and speech synthesis
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
Mansour et al. Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms
CN111402862A (zh) 语音识别方法、装置、存储介质及设备
JPH1173195A (ja) 話者の申し出識別を認証する方法
JP2019219574A (ja) 話者モデル作成システム、認識システム、プログラムおよび制御装置
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
Das et al. Multi-style speaker recognition database in practical conditions
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
KR20110079161A (ko) 이동 단말기에서 화자 인증 방법 및 장치
JP4440414B2 (ja) 話者照合装置及び方法
WO2006027844A1 (ja) 話者照合装置
JP3818063B2 (ja) 個人認証装置
Nair et al. A reliable speaker verification system based on LPCC and DTW
JP2000099090A (ja) 記号列を用いた話者認識方法
Rao et al. Text-dependent speaker recognition system for Indian languages
Singh et al. Underlying text independent speaker recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110118

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees