JP2017044778A

JP2017044778A - 認証装置

Info

Publication number: JP2017044778A
Application number: JP2015165610A
Authority: JP
Inventors: 秀太郎國政; Shutaro Kunimasa
Original assignee: Osaka Gas Co Ltd
Current assignee: Osaka Gas Co Ltd
Priority date: 2015-08-25
Filing date: 2015-08-25
Publication date: 2017-03-02

Abstract

【課題】カメラとマイクを用いた簡便な構成で、セキュリティレベルの向上した堅牢な認証システムを実現する装置を提供する。【解決手段】声紋認証により個人を特定する認証装置１は、被認証者がキーワードを発声した際の声紋情報を取得する声紋情報取得部１１と、被認証者がキーワードを発声することで生じる口唇の開度の時間変化を算出する口開度算出部１２と、被認証者を認証する被認証者認証部１３を備えてなる。被認証者認証部１３は、声紋情報が被認証者の登録された声紋と一致し、且つ、口開度算出部１２より算出された口唇の実際の開度の時間変化が声紋情報から想定される口唇の開度の時間変化と一致すると判定した場合に、被認証者を認証する。【選択図】図１

Description

本発明は、セキュリティ等の目的で個人を特定、認証する認証装置に関する。

セキュリティ技術において、セキュリティレベルを向上させるための方法として、複数の認証方式を組み合わせることが試みられている。

特に、顔認証や声紋認証など、複数の個人情報（生体情報）を組み合わせて認証に用いるものとして、下記の例が挙げられる。

特許文献１に記載の個人認証装置は、複数の生体認証部による認証結果が食い違う場合に、照合スコアベクトル空間における矛盾照合スコアを検出することで、矛盾照合スコアに基づいて「正当」か「不当」かを判断するもので、単に論理和を用いることに起因して本人排除率が上昇することなく、認証精度の向上を図るものである。

特許文献２に記載の個人認証装置は、音声と口唇の動きを比較し、双方の母音データを比較することで一次認証を行い、その後顔認証による二次認証を行うものである。

特許文献３に記載の個人情報認証システムは、顔検出を行い、ランダムに指定されるキーワードの発語をユーザに促し、キーワード発語時の顔の動画像に基づいてユーザを特定し、認証するものである。

特開平１１−２５３４２７号公報特開２００６−９９６２６号公報特開２００８−４０５０号公報

顔認証システムは、単独では写真・動画などに表示された顔による誤認証の問題があり、セキュリティの担保が困難という課題がある。

また、顔認証に限らず、近年の認証システム全般にいえることであるが、単一の要素による認証は容易に看破されることが危惧されているため、少なくとも２要素以上を認証キーとする多要素認証が求められている。

その追加要素として声紋認証技術を導入することも考えられるが、顔認証と声紋認証が夫々独立した２段階認証システムでは、顔写真と録音音声により容易になりすましされ、看破される危惧がある。

つまり、多要素認証システムにおいて要素の追加は必ずしもセキュリティレベルの向上に寄与するとは限らず、夫々の要素のシナジーを利かせつつ、セキュリティレベルの向上を担保する必要がある。

そこで、本発明は、上記の状況を鑑み、カメラ撮影とマイク録音を用いて、セキュリティレベルが向上した認証装置を提供することをその目的とする。

上記目的を達成するための本発明に係る認証装置は、
声紋認証により個人を特定する認証装置であって、
キーワード、前記キーワードに対応する被認証者の声紋、及び、前記キーワードの発声の際に想定される口唇の開度の時間変化が登録されている記憶部と、
前記被認証者が前記キーワードを発声した際の声紋情報を取得する声紋情報取得部と、
前記被認証者が前記キーワードを発声することで生じる口唇の開度の時間変化を算出する口開度算出部と、
前記声紋情報が前記被認証者の登録された声紋と一致し、且つ、前記口開度算出部より算出された口唇の実際の開度の時間変化が前記声紋情報から想定される口唇の開度の時間変化と一致すると判定した場合に、前記被認証者を認証する被認証者認証部と、を備えたことを第１の特徴とする。

上記第１の特徴の本発明に係る認証装置に依れば、被認証者にキーワードの発声を促し、声紋認証により個人を特定する構成であり、発声時の口唇の動きを実際の発声と照合することで、キーワードを発声したときに、発声と同じタイミング、キーワードの音節に対応する口唇の開度の時間変化パターンで、現実に口を動かしているかを判断する。これにより、セキュリティレベルの向上を実現できる。即ち、録音した音声により声紋認証を看破したとしても、録音と口唇の動きが一致していないと本人であると認証しないため、セキュリティ向上を望める。

なお、ここで、口唇の開度の時間変化が「一致」するとは、数学的な意味で、厳密に等しいことを意味するものではなく、認証精度或いは被認証者の体調等を考慮して、多少の相違は許容されてよい。被認証者認証部は、口唇の開度の時間変化が完全に一致しないものであっても、その違いが所定の範囲内に収まる場合、一致すると判定してよい。好適には、後述の通り、２つの口唇の開度の時間変化の間の一致度を算出し、一致度が閾値を超える場合に一致すると判定することができる。

上記第１の特徴の本発明に係る認証装置は、好ましくは、更に、
前記被認証者認証部は、
前記声紋情報を分析し、前記被認証者が前記キーワードの各音節を発声した発声期間の始期及び終期を、音節ごとに算出し、
前記発声期間ごとに、当該発声期間における口唇の実際の開度の時間変化と、当該発声期間で発声した音節により想定される口唇の開度の時間変化とを比較し、
全ての前記発声期間において、両者の時間変化が一致すると判定した場合に、前記被認証者を認証することを第２の特徴とする。

上記第２の特徴の本発明に係る認証装置に依れば、声紋情報に基づいて被認証者がキーワードの各音節を発声した発声期間を求め、当該各発声期間において、実際の口唇の開度の時間変化が対応する音節を発声したときに生じる時間変化と一致しているかを判定する。少なくとも１つの発声期間で時間変化が一致しない場合、被認証者を認証しない。

各発声期間において、口唇は、その始期では子音を発声するための動きをし、その後、母音を発声するために略一定の開度になり、その終期では、次の発声期間での子音の発声に備えた動きとなるはずである。例えば、録音された音声を利用したこと等により、音節の発声と、口唇の動きが同期していない場合には、少なくとも何れかの発声期間において、発声期間の始期（終期）において子音の発声のための口唇の動きをしていないことになるため、不正行為であることを容易に看破できる。また、複数の母音を発声時の口唇の開度の強弱パターンを比較することで、不正行為を容易に看破できる。

上記第２の特徴の本発明に係る認証装置は、好ましくは、更に、
前記記憶部は、前記被認証者が前記キーワードの各音節を発声する際に想定される口唇の開度の時間変化を、前記被認証者毎に記憶しており、
前記被認証者認証部は、
前記声紋情報が前記被認証者の登録された声紋と一致した場合、
前記発声期間ごとに、前記声紋情報により特定された前記被認証者が当該発声期間の対応する音節を発声する際に想定される口唇の開度の時間変化を、前記記憶部を参照して取得し、
前記取得された時間変化を、当該発声期間における口唇の実際の開度の時間変化と比較し、全ての前記発声期間において両者の時間変化が一致すると判定した場合、前記被認証者を認証することを第３の特徴とする。

上述の通り、口唇の開度の時間変化は、発声する音節（母音、又は母音と子音の組み合わせ）に応じたパターンとなるが、母音と子音の発声については被認証者毎ごとに個人差（癖、方言）が存在し、口唇の開度の時間変化パターンについても同様に個人差が生じる。上記第３の特徴の本発明に係る認証装置では、被認証者ごとに口唇の開度の時間変化を予め保持しておき、実際の口唇の開度の時間変化を声紋認証により特定された被認証者の口唇の開度の時間変化パターンと比較することで、認証精度の向上を望める。

上記第１乃至第３の何れかの特徴の本発明に係る認証装置は、好ましくは、更に、
被認証者の顔部の画像から口唇部位を検出し、特定する口唇部位特定部を備え、
前記口開度算出部は、前記口唇部位特定部が検出した口唇部位の開度の時間変化を算出することを第４の特徴とする。

上記第４の特徴の本発明に係る認証装置に依れば、口唇部位特定部が口唇部位を検出し、特定することにより、口開度算出部が口唇の開度の時間変化を算出するにあたっては当該口唇部位が含まれる範囲の画像を解析し、時間変化を追いかければよく、顔全体の画像の時間変化を取得する必要はないので、認証の処理速度を高めることができる。

上記第４の特徴の本発明に係る認証装置は、好ましくは、更に、
顔認証による被認証者特定を行う顔認証部を備え、前記口唇部位特定部は、前記認証された顔から口唇部位を特定する構成とすることができる。

上記第４の特徴の本発明に係る認証装置は、好ましくは、更に、
前記口唇部位特定部は、前記被認証者の顔部が撮像され、撮像位置から顔の各部までの距離の分布を示すものとして顔の凹凸形状が反映された２次元データを取得し、
前記２次元データから、口唇部分を特定する構成とすることができる。

上記第１乃至第４の何れかの特徴の本発明に係る認証装置は、好ましくは、更に、
前記被認証者認証部は、
前記口開度算出部より算出された口唇の開度の時間変化と、前記声紋情報から想定される口唇の開度の時間変化との間の一致度を算出し、前記一致度が設定された閾値を超える場合に、前記口開度算出部より算出された口唇の開度の時間変化が前記声紋情報から想定される口唇の開度の時間変化と一致すると判定する構成とすることができる。

上記第１乃至第４の何れかの特徴の本発明に係る認証装置は、好ましくは、更に、前記キーワードが、母音「あ」を含む音節と、「あ」と異なる母音を含む音節を含んでなることを第５の特徴とする。

上記第５の特徴の本発明に係る認証装置に依れば、キーワード中の個々の母音の発声時の口唇の開度パターンを声紋情報から想定されるパターンと比較することで、精度よく認証が可能となる。

母音「あ」は、口を最も大きく開けて発声する音である。したがって、「あ」と、「あ」以外の母音を含むキーワードを発声させ、口唇の開度の母音による変化（強弱）がキーワード発声時のパターンと一致しているか検出することで、口開度算出部より算出された口唇の実際の開度の時間変化と声紋情報から想定される時間変化との照合が容易となる。

上記第１乃至第５の何れかの特徴の本発明に係る認証装置は、好ましくは、更に、前記キーワードが、少なくとも１つの両唇音を音節として有することを第６の特徴とする。

両唇音とは、日本語では「ま」行音［ｍ］、「わ」行音［ｗ］、「ふ」音［ｈｕ］、「ば」行音［ｂ］、又は「ぱ」行音［ｐ］等が相当し、発声に際して口を一度閉じるか、少なくとも口を小さくすぼめて発声する必要のある音である。即ち、このような両唇音の発声時には、口唇の開度はその発声前後と比較して急激に小さく（好ましくは、ゼロに）なる。

したがって、キーワード中に含まれる両唇音の発声時の口唇の開度変化を検出することで、被認証者の認証が容易になる。

上記第６の特徴の本発明に係る認証装置は、好ましくは、更に、
前記被認証者認証部は、
前記声紋情報から、前記被認証者が前記キーワード中の前記両唇音を発声した発声期間の始期を算出し、
前記両唇音の前記発声期間の始期において、前記口開度算出部より算出された口唇の実際の開度が極小値をとっていない場合、前記被認証者を認証しないことを第７の特徴とする。

上記第７の特徴の本発明に係る認証装置では、より具体的に、被認証者が両唇音を発声した発声期間の始期を導出し、当該始期において、口唇の開度が極小に至っていないかを検出する。開度が極小値をとっていなければ、口唇の動きと発声が一致しないため、不正な認証行為であることを容易に看破できる。

以上の通り、上記本発明に係る認証装置は、カメラとマイクを用意するだけで容易に認証が可能となり、認証システムを構築可能となる。認証システムに導入する機器数が少なく、更に、不正な方法で取得された被認証者の顔写真や録音音声による成りすましを防ぐことができ、堅牢な認証システムを構築できる。

本発明の一実施形態に係る認証装置（認証システム）の構成の一例を示すブロック図カメラを介して取得される顔画像の模式図特定の音節を発声する場合に、想定される口唇の開度の時間変化を示すグラフ声紋情報から予測される口唇の開度の時間変化と、口開度算出部により算出される実際の口唇の開度の時間変化との関係を示すグラフ本発明の一実施形態に係る認証装置（認証システム）の構成の一例を示すブロック図本発明の一実施形態に係る認証装置（認証システム）の構成の一例を示すブロック図本発明の一実施形態に係る認証装置（認証システム）の認証時の動作の一例を示すフローチャート

〈第１実施形態〉
以下に、本発明の一実施形態に係る認証装置１につき、図面を参照して説明する。図１は、認証装置１の構成の一例を示すブロック図である。図１に示すように、認証装置１は、記憶部１０（データベース）、声紋情報取得部１１、口開度算出部１２、被認証者認証部１３、及び、口唇部位特定部１４と、を備える。認証装置１に、被認証者の顔画像を撮像するカメラ１５、及び音声を取得するマイク１６を備え、認証システムが構築されている。ここで、声紋情報取得部１１、口開度算出部１２、被認証者認証部１３、及び、口唇部位特定部１４の各処理は、コンピュータのハードウェア資源（ＣＰＵや各種記憶装置等）及びソフトウェア資源（ＯＳ、各種ドライバ等）を使用して演算処理が行われ、かかる演算処理が、ＣＰＵによりその実行が制御されるプログラムを実行することによりソフトウェア的に実現される。記憶部１０は、当該コンピュータ内に設けられた、或いはネットワークを介してアクセスが可能な所定の記憶装置の所定の記憶領域に構築されている。

認証装置１は、声紋認証により個人を特定する構成であり、マイク１６を介して被認証者の音声を取得する。被認証者がキーワードを発声すると、発声時の音声をマイク１６が集音し、認証装置１に送信される。また、認証装置１は、カメラ１５を介して被認証者の顔画像を取得する。認証装置１は、マイク１６から取得した音声について声紋分析を行い、声紋情報取得部１１が、被認証者がキーワードを発声した際の声紋情報を取得する。なお、具体的な声紋認証の方法については、公知の構成を利用可能であり、詳細な説明は割愛する。

記憶部１０は、キーワード、及びキーワードに対応する被認証者の声紋が登録されている。キーワードは、被認証者毎に登録されているのが好ましい。好ましくは、キーワードは、一般のセキュリティシステムにおけるパスワードに相当するものであり、被認証者が各自、適切なものを設定できる。認証精度の向上の点からは、後述するように、キーワードは特定の音節を含んだものとすることが好ましい。

記憶部１０にはまた、被認証者がキーワードの各音節を発声する際に想定される標準的な口唇の開度の時間変化パターンが、音節ごとに登録されているとする。

口開度算出部１２は、カメラ１５を介して取得した顔画像を元に、被認証者がキーワードを発声することで生じる口唇の開度の時間変化を算出する。図２に、顔画像の例を模式的に示す。ここで、口唇の開度とは、口をどの程度開いて発声したかを示すものであるが、開度の算出方法としては、口を開いた部分の面積Ｓを算出する方法のほか、開いた口の横方向（水平方向）の幅Ｌ１、上下方向の幅Ｌ２、或いはＬ２に対するＬ１の比Ｌ１／Ｌ２を求める方法など、様々な算出基準が考えられる。

口唇部位特定部１４が、被認証者の顔画像から口唇部位を検出し特定すると、口開度算出部１２は、一定間隔ごとに、当該特定された口唇部位の開度を、画像解析により算出し、口唇の開度の時間変化を求める。

被認証者認証部１３は、声紋情報が被認証者の登録された声紋と一致し、且つ、口開度算出部１２より算出された口唇の実際の開度の時間変化が声紋情報から想定される口唇の開度の時間変化と一致すると判定した場合に、被認証者を認証する。

図３（ａ）〜（ｄ）に、記憶部１０に登録されている、口唇の開度（口開度：面積Ｓ）の時間変化パターンＳ（ｔ）の例を、特定の音節を発声する場合に示す。図３から分かるように、口唇の開度は、発声する音節に応じて、先ず（子音を含む場合）発声の開始期Ｔ０において子音の発声のための開度Ｓ０となり、その後、所定期間Ｔｃ（＝Ｔ１−Ｔ０）経過後は母音の発声に応じた一定の開度Ｓ１を維持する。特に、図３（ｄ）に示すように、「ま」を発声する場合、両唇を閉じて発声するため、子音［ｍ］発声時の開度Ｓ０は一旦ゼロにまで急激に減少することが想定される。

例えば、図３（ａ）〜（ｄ）を順に連接させると、「ただいま」と発声するときの口唇の開度の時間変化パターンが得られる。この場合、母音の変化だけを取り出すと、「ああいあ」となるが、「あ」は一般に口を大きく開けて発生するので、口唇の開度（面積Ｓ）は大きい。一方、「い」は、「あ」に比べれば口唇の開度（面積Ｓ）は小さい。さらに、母音「い」は、口を横に広げて発声するため、横（水平）方向の口唇の開度Ｌ１が、縦（上下）方向の口唇の開度Ｌ２より大きいことが想定される。

つまり、「ただいま」と発声する場合、母音発声時の口唇の開度変化に着目すると、大きな開度Ｓが２度続いた後、口開面積としての開度は小さいが横方向に広がった（Ｌ１／Ｌ２の大きな）開度となり、その後、大きな開度Ｓがもう一度繰り返される。被認証者認証部１３は、声紋認証を行うとともに、このような口唇の開度変化パターンを、口開度算出部１２より算出された口唇の開度が示すかどうかを検証し、実際の口唇の動きがキーワードの発声に対応した動きになっているかを判定する。対応した動きになっている場合に限り、被認証者を認証することで、不正な成りすましを防ぐことができる。

具体的に、被認証者認証部１３は、声紋情報を分析し、被認証者がキーワードの各音節を発声した発声期間の始期及び終期を、音節ごとに算出する。そして、
（１）実際の口唇の開度の変化タイミングが、各音節の変化タイミング（子音の発声タイミング）と一致しているか、
（２）実際の口唇の開度の変化が、キーワードから推定される隣接する音節間の母音発声時の口唇の開度の強弱と一致しているか、を判定することができる。

被認証者認証部１３は、図３の音節ごとの口唇の時間変化パターンＳ（ｔ）を組み合わせ、キーワードを発声した場合に想定される口唇の開度の時間変化Ｆ（ｔ）を求める。ただし、このとき、（例えば、母音発声による口唇の開度が一定の期間を調整することにより）各パターンＳ（ｔ）の期間を対応する発声期間の長さと同じに設定し、Ｆ（ｔ）内の各パターンＳ（ｔ）の始期及び終期が対応する発声期間の始期及び終期と一致するようにする。さらに、母音の発声後、異なる母音又は子音の発声のために口唇が変化するまでに一定の期間を要するとし、例えば図４（ａ）に示すＦ（ｔ）を生成する。

その後、被認証者認証部１３は、Ｆ（ｔ）と、口開度算出部１２により算出された実際の口唇の開度変化Ｇ（ｔ）との一致度合いを求める。本実施形態では、例えば、Ｆ（ｔ）とＧ（ｔ）を関数ベクトルとし、ベクトルのなす角を求めることにより、数１に示す一致度Ｃを導出することができる。なお、一致度Ｃは、口唇の開口面積Ｓ、横方向の幅Ｌ１、及び、縦方向の幅Ｌ２を開度とする場合のように、開度に相当するものを複数考慮する場合、夫々の開度について算出されることができる。

［数１］
Ｃ＝ｃｏｓθ＝ ∫Ｆ（ｔ）Ｇ（ｔ）ｄｔ／｜Ｆ（ｔ）｜｜Ｇ（ｔ）｜
｜Ｆ（ｔ）｜＝（∫Ｆ（ｔ）Ｆ（ｔ）ｄｔ）^１／２
｜Ｇ（ｔ）｜＝（∫Ｇ（ｔ）Ｇ（ｔ）ｄｔ）^１／２

図４に、キーワードの発声から予測される口唇の開度の時間変化Ｆ（ｔ）と口開度算出部１２より算出される実際の口唇の開度の時間変化Ｇ（ｔ）の関係を示す。図４（ｂ）は正常な認証の場合であり、図４（ｃ）、（ｄ）の場合は認証されない。正常な認証では、図４（ｂ）に示すように、Ｇ（ｔ）はＦ（ｔ）と略比例関係にあるので、一致度Ｃは１に近い値となる。しかしながら、図４（ｃ）に示すように、一部の発声期間（ここでは、音節「だ」に対応する期間）で母音の発声が異なる場合や、図４（ｄ）に示すように、何れかの発声期間（ここでは、音節「た」に対応する期間）において口唇の開度の変化タイミングがずれている場合には、一致度Ｃは１から大きく外れた値となるので、不正な認証であることを推測できる。

したがって、夫々の発声期間において、口唇の実際の開度の時間変化が記憶部１０に保持されたパターンＳ（ｔ）と一致する（略比例関係にある）場合に限り、上記の一致度Ｃは１に近い値となる。被認証者認証部１３は、一致度Ｃが設定された閾値を超える場合に、Ｆ（ｔ）とＧ（ｔ）が一致すると判定し、認証を許可する構成とすることができる。

なお、一致度Ｃは、前述の通り、口唇の開口面積Ｓ、横方向の幅Ｌ１、縦方向の幅Ｌ２を開度とする場合のように、複数の開度を考慮する場合には、夫々について一致度を算出し、全ての一致度が設定された閾値を超える場合に限り、認証を許可してもよい。

Ｆ（ｔ）とＧ（ｔ）の一致判定を精度良く行うためには、声紋認証のキーワードとして、異なる複数の母音が含まれていることが好ましい。発生時において口唇の開度が異なる複数の母音が含まれていることで、母音間で開度の強弱が発生するため、一致判定を精度良く行うことができる。特に、口を大きく開けて発音することから、口唇の開度も大きくなる母音「あ」と、「あ」と異なる母音が含まれていることが好適である。

また、キーワードには、両唇音が含まれていることが好ましい。両唇音とは、発声に際して口を一端閉じるか、少なくとも口を小さくすぼめて発生する音であり、日本語では「ま」行音［ｍ］、「わ」行音［ｗ］、「ふ」音［ｈｕ］、「ば」行音［ｂ］、又は「ぱ」行音［ｐ］等が相当する。このなかでも、「ま」行音［ｍ］、「ば」行音［ｂ］、又は「ぱ」行音［ｐ］が好ましい。これらの両唇音がキーワードに含まれている場合、両唇音の発声時において、口唇の開度は急激に減少し、ゼロに近づく。したがって、両唇音発声時の口唇の開度変化により、一致判定を精度よく行うことができる。上記の条件を満たすキーワードとして、上述の「ただいま」がある。

また、被認証者が両唇音を発声した始期において、口唇の開度は急激に減少し、極小値（好ましくは、ゼロ）をとることから、被認証者認証部１３は、声紋情報から両唇音を発声した発声期間の始期を算出し、当該始期において口唇の開度が極小に至っていないかを判定することができる。開度が極小値をとっていなければ、口唇の動きと発声が一致しないことは明らかである。両唇音の発声期間の始期と口唇の開度が極小となる時期が一致していない場合には、上述の一致度に基づく判定を行うことなく（或いは、一致度を算出することなく）、不正な認証行為として認証を拒否してよい。

以上、本発明に係る認証装置１では、カメラとマイクを用意するだけで容易に多要素認証システムを構築できる。この認証システムは、不正な方法で取得された被認証者の顔写真や録音音声による成りすましを防ぐことができ、堅牢な認証システムとなる。

もっとも、被認証者本人がキーワードを発声する際の口唇の動きを音声とともに録音録画した動画像を使用されると、不正な認証を防ぐことはできないが、そのような動画像を、第三者が、本人の許可なく撮影、取得することは困難であろう。

したがって、本発明に係る認証装置１を用いることにより、簡便な構成で堅牢な認証システムを実現できる。

〈第２実施形態〉
以下に、本発明の一実施形態に係る認証装置２につき、図面を参照して説明する。図５は、認証装置２の構成の一例を示すブロック図である。図５に示すように、認証装置２は、認証装置１の構成に加えて、顔認証による被認証者特定を行う顔認証部１７を備えてなる。認証装置２に、カメラ１５及びマイク１６を備え、認証システムが構築されている。

記憶部１０、声紋情報取得部１１、口開度算出部１２、被認証者認証部１３については、認証装置１と同様の構成であり、説明を割愛する。また、顔認証部１７による顔認証の方法としては、公知の構成を利用することができる。

顔認証部１７が、カメラ１５により撮像された画像を解析し、顔認証に成功すると、口唇部位特定部１４は、顔認証部１７により認証された顔の画像を利用し、顔画像から口唇の位置を特定する。その後、口開度算出部１２は、一定間隔ごとに、当該特定された口唇部位を画像解析し、口唇の開度の時間変化を求める。

この場合、顔認証部１７は、顔の各部位の位置関係を把握するために広範な領域（図２の領域Ａ１）を画像解析する必要があるが、認証成功後、口開度算出部１２が口唇の開度を求めるにあたっては、認証された顔の口唇部分に係る領域（図２の領域Ａ２）の画像を解析するだけで良いので、処理速度を大幅に低減できる。

認証装置２は、上述した認証装置１の効果を奏するほか、声紋認証に加えて顔認証を行うためセキュリティが強化される。更に、キーワード発生中に複数回顔認証を行うように構成することで、声紋認証中の顔の各部位の位置が変化していないこと（不自然な位置変化がないこと）を確認できる。これにより、実際に本人が口唇を動かして発声していることを保証でき、より堅牢な認証システムを実現できる。

〈第３実施形態〉
以下に、本発明の一実施形態に係る認証装置３につき、図面を参照して説明する。図６は、認証装置３の構成の一例を示すブロック図である。認証装置３は、口唇部位特定部１４による口唇部位の特定方法として認証装置２と異なる方法を用いる。認証装置３に、所定の間隔を空けて配置された２台のカメラ１５ａ、１５ｂ、及びマイク１６を備え、認証システムが構築されている。

記憶部１０、声紋情報取得部１１、口開度算出部１２、被認証者認証部１３については、認証装置１と同様の構成であり、説明を割愛する。

本実施形態では、２台のカメラ１５ａ、１５ｂによって、２つの異なる位置から見た被認証者の顔部画像が撮像される。これら２台のカメラで得られた画像間の差分を評価することにより、認証装置３は、顔部の立体形状（凹凸形状）を反映するものとして、撮像位置から顔の各部までの距離の分布を示す２次元データ（画像）を得る。

口唇部位特定部１４は、当該２次元データを取得すると、当該２次元データから、口元の独特な凹凸形状（上唇と下唇の２山構造）を検知し、口唇部位を特定する。その後、口開度算出部１２は、一定間隔ごとに、当該特定された口唇部位を画像解析し、口唇の開度の時間変化を求める。

これにより、認証装置３は、上述した認証装置１の効果を奏するほか、実際に本人が口唇を動かして発声していることを保証でき、より堅牢な認証システムを実現できる。また、認証装置２と同様、口開度算出部１２が口唇の開度を求めるにあたっては、顔全体の立体形状を解析する必要はなく、口唇部位特定部１４によって特定された口唇部位の立体形状の画像を解析するだけで良いので、処理速度を大幅に低減できる。

以上、認証装置１〜３を用いることで、カメラとマイクを用意するだけで容易に認証システムを構築可能でありながら、不正な方法で取得された被認証者の顔写真や録音音声による成りすましを防ぐことができ、堅牢な認証システムを実現できる。

図７に、認証装置１〜３（ここでは、認証装置１）を備えた認証システムの認証時の動作の一例を示すフローチャートを示す。

先ず、声紋認証が行われる（ステップＳ３１）。認証装置１は、マイク１６を介して被認証者の音声を取得し、声紋分析を行い、キーワードを発声した被認証者を特定する。声紋認証に失敗した場合（ステップＳ３２でＮＯ分枝）、認証は拒否される。

声紋認証に成功すると（ステップＳ３２でＹＥＳ分枝）、声紋情報取得部１１が、被認証者がキーワードを発声した際の声紋情報を取得する（ステップＳ３３）。

続いて、口唇部位特定部１４は、カメラ１５を介して取得した被認証者の顔画像から口唇部位を検出し特定する（ステップＳ３４）。口開度算出部１２は、一定間隔ごとに、当該特定された口唇部位の開度を画像解析により算出し、口唇の開度の時間変化Ｇ（ｔ）を求める（ステップＳ３５）。なお、ステップＳ３４及びＳ３５は、ステップＳ３３と並列に処理されることができる。

被認証者認証部１３は、口開度算出部１２より算出された口唇の実際の開度の時間変化Ｇ（ｔ）と、キーワードの発声から想定される口唇の開度の時間変化Ｆ（ｔ）との間の一致度を算出する（ステップＳ３６）。想定される口唇の開度変化Ｆ（ｔ）を求める方法、及び一致度の算出方法については、前述のとおりである。

被認証者認証部１３は、上記一致度が設定された閾値と同じか、少なくとも閾値を超える場合（ステップＳ３７でＹＥＳ分岐）に、被認証者を認証する。一致度が閾値未満の場合、被認証者を認証しない（ステップＳ３７でＮＯ分岐）。

なお、ステップＳ３４における唇部位特定部１４による顔画像内の口唇部位を検出、特定方法については、認証装置２のように顔認証の結果を利用する方法や、認証装置３のように顔部の３次元立体形状を解析することにより口唇部位を特定する方法が挙げられる。

〈別実施形態〉
以下に、別実施形態について説明する。

〈１〉上記第１実施形態において、音節ごとの口唇の開度の時間変化パターンＳ（ｔ）は模式的に示したものであり、図３及び図４で示したモデルに限られるものではない。口唇の時間変化パターンＳ（ｔ）を組み合わせて想定される口開度変化Ｆ（ｔ）を導出するにあたっては、様々な方法が考えられる。

〈２〉上記第１〜第３実施形態では、音節ごとの口唇の開度の時間変化パターンＳ（ｔ）について、被認証者に依らず共通の時間変化のパターンを用いるとしている。しかしながら、口唇の開度の時間変化パターンＳ（ｔ）を被認証者別に用意することも可能である。特に、認証装置１〜３は声紋認証を行うことから、声紋認証により被認証者を特定できるので、当該特定された被認証者の口唇の開度の時間変化パターンを用いて被認証者認証部１３による認証処理を行うことができる。

口唇の開度の時間変化は、発声に応じたパターンとなるが、母音と子音の発声については被認証者ごとに個人差（癖、方言）が存在し、口唇の開度の時間変化パターンについても同様に（例えば、母音間の口唇の開度の違いや、子音発声時の開度において）個人差が生じ得る。声紋認証により特定された被認証者に応じて最適な口唇の開度の時間変化Ｆ（ｔ）を算出し、実際の口唇の開度の時間変化Ｇ（ｔ）と比較することで、認証精度の向上を望める。

この場合、認証装置１〜３は、最初に被認証者にキーワードを発声させ、声紋を登録するに際して、カメラ１５及び口開度算出部を介してキーワードの各音節を発声時の口唇の開度の時間変化を取得し、記憶部１０に保持しておけばよい。認証時には、被認証者認証部は、声紋認証が成功した場合に、声紋情報より特定された被認証者がキーワードの各音節を発声する際に想定される口唇の開度の時間変化Ｆ（ｔ）を記憶部１０を参照して取得し、実際の口唇の開度の時間変化Ｇ（ｔ）と比較することができる。

〈３〉上記第３実施形態において、口唇部位特定部１４が顔部の凹凸形状を取得する方法としては、上記のような２台のカメラを用いた偏差撮影の方法に限られるものではない。例えば、対象に向け赤外線を照射し、反射赤外光の到達時間差から対象までの距離情報分布を得るもの、所謂ＴＯＦ（Time-of-Flight）方式の距離画像センサを利用してもよい。

〈４〉上記第１〜第３実施形態において、声紋認証を行う前に、例えば会員証、社員証等の磁気カードのような記憶媒体に記憶された個人情報を読み出すように構成してもよい。この場合、認証装置１〜３は、声紋認証を行う前から被認証者は特定されており、当該特定された被認証者が発声するはずのキーワードも声紋認証前から知ることができる。したがって、認証装置１〜３は、声紋認証にあたって、声紋情報が記憶媒体の所有者のものと一致するかを判定すればよく、認証処理速度の高速化を望める。本発明では、被認証者がキーワードに対応する口唇の動きをしているかが重要であり、被認証者が発声した個々の音節を特定し、キーワードと一字一句完全に一致する文言を発声しているかまで判定する必要はない。

本発明は、セキュリティ目的で個人を特定、認証する認証システムとしての利用が可能である。

１〜３：本発明の一実施形態に係る認証装置
１０：記憶部（データベース）
１１：声紋情報取得部
１２：口開度算出部
１３：被認証者認証部
１４：口唇部位特定部
１５、１５ａ、１５ｂ：カメラ
１６：マイク
１７：顔認証部

Claims

声紋認証により個人を特定する認証装置であって、
キーワード、前記キーワードに対応する被認証者の声紋、及び、前記キーワードの発声の際に想定される口唇の開度の時間変化が登録されている記憶部と、
前記被認証者が前記キーワードを発声した際の声紋情報を取得する声紋情報取得部と、
前記被認証者が前記キーワードを発声することで生じる口唇の開度の時間変化を算出する口開度算出部と、
前記声紋情報が前記被認証者の登録された声紋と一致し、且つ、前記口開度算出部より算出された口唇の実際の開度の時間変化が前記声紋情報から想定される口唇の開度の時間変化と一致すると判定した場合に、前記被認証者を認証する被認証者認証部と、を備えたことを特徴とする認証装置。
前記被認証者認証部は、
前記声紋情報を分析し、前記被認証者が前記キーワードの各音節を発声した発声期間の始期及び終期を、音節ごとに算出し、
前記発声期間ごとに、当該発声期間における口唇の実際の開度の時間変化と、当該発声期間で発声した音節により想定される口唇の開度の時間変化とを比較し、
全ての前記発声期間において、両者の時間変化が一致すると判定した場合に、前記被認証者を認証することを特徴とする請求項１に記載の認証装置。
前記記憶部は、前記被認証者が前記キーワードの各音節を発声する際に想定される口唇の開度の時間変化を、前記被認証者毎に記憶しており、
前記被認証者認証部は、
前記声紋情報が前記被認証者の登録された声紋と一致した場合、
前記発声期間ごとに、前記声紋情報により特定された前記被認証者が当該発声期間の対応する音節を発声する際に想定される口唇の開度の時間変化を、前記記憶部を参照して取得し、
前記取得された時間変化を、当該発声期間における口唇の実際の開度の時間変化と比較し、全ての前記発声期間において両者の時間変化が一致すると判定した場合、前記被認証者を認証することを特徴とする請求項２に記載の認証装置。
被認証者の顔部の画像から口唇部位を検出し、特定する口唇部位特定部を備え、
前記口開度算出部は、前記口唇部位特定部が検出した口唇部位の開度の時間変化を算出することを特徴とする請求項１〜３の何れか１項に記載の認証装置。
顔認証による被認証者特定を行う顔認証部を備え、
前記口唇部位特定部は、前記認証された顔から口唇部位を特定することを特徴とする請求項４に記載の認証装置。
前記口唇部位特定部は、
前記被認証者の顔部が撮像され、撮像位置から顔の各部までの距離の分布を示すものとして顔の凹凸形状が反映された２次元データを取得し、
前記２次元データから、口唇部分を特定することを特徴とする請求項４に記載の認証装置。
前記被認証者認証部は、
前記口開度算出部より算出された口唇の開度の時間変化と、前記声紋情報から想定される口唇の開度の時間変化との間の一致度を算出し、前記一致度が設定された閾値を超える場合に、前記口開度算出部より算出された口唇の開度の時間変化が前記声紋情報から想定される口唇の開度の時間変化と一致すると判定することを特徴とする請求項１〜６の何れか１項に記載の認証装置。
前記キーワードが、母音「あ」を含む音節と、「あ」と異なる母音を含む音節を含んでなることを特徴とする請求項１〜７の何れか１項に記載の認証装置。
前記キーワードが、少なくとも１つの両唇音を音節として有することを特徴とする請求項１〜８の何れか１項に記載の認証装置。
前記被認証者認証部は、
前記声紋情報から、前記被認証者が前記キーワード中の前記両唇音を発声した発声期間の始期を算出し、
前記両唇音の前記発声期間の始期において、前記口開度算出部より算出された口唇の実際の開度が極小値をとっていない場合、前記被認証者を認証しないことを特徴とする請求項９に記載の認証装置。