JP4049732B2

JP4049732B2 - 音声認証装置、音声認証方法および音声認証プログラム

Info

Publication number: JP4049732B2
Application number: JP2003389665A
Authority: JP
Inventors: 清志本多; 達也北村; 覚藤田; 浩典竹本
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2003-11-19
Filing date: 2003-11-19
Publication date: 2008-02-20
Anticipated expiration: 2023-11-19
Also published as: JP2005148640A

Description

この発明は、音声の個人差に基づいて、話者を自動的に判定する話者認識を用いて、個人の認証を行なうための音声認証装置、音声認証方法および音声認証プログラムに関する。

重要な施設や部屋への部外者の入室を制限したりする場合や、システム外部からのシステム破壊等およびシステム内部からの不正アクセスを防止するためのアクセス管理や、さらには、電子商取引におけるいわゆる「なりすまし」などの不正行為の防止のために「個人認証技術」が必要とされる局面が増大している。

このような個人認証には、従来から、「ユーザーＩＤ」と「パスワード」の組み合わせや、公開鍵暗号系における「秘密鍵」等を利用した方式が採用されている。

さらに、より個人認証の信頼度を向上させるために、指紋や虹彩などの本人の身体的特徴や行動的特徴を用いたいわゆる「バイオメトリクス」による認証技術も多く利用されている。

一方、「バイオメトリクス」の一種である、音声を用いた個人認証技術に対する期待も高まっている。これは、最近の音声処理技術の発展に伴い、認証対象者の音声という、従来からの通信システムをそのまま利用可能な特徴を個人認証に用いることができれば、容易に通信関連のシステムが実現できると期待されるからである（たとえば、非特許文献１を参照）。

ただし、音声による本人認証（以下、「音声認証」とよぶ）では、上記のような利点があるものの、指紋や虹彩などと比較すると、個人の身体的特性との関連性が従来方式では低く、本人認証の技術として利用するためには、さらなる精度の向上が必要である。

ここで、声道の下部構造と３次元ＭＲＩ動画像データとの対応関係から、声道下部構造のモデル化を試みた例は存在するが（たとえば、非特許文献２を参照）、音声認証をいかにして行なうかについては、従来、必ずしも明らかではなかった。
古井著、"音声による本人認証第１部音声による本人認証のしくみと技術動向",情報処理, 40巻11号, 1999年, 11月竹本，本多，正木，島田，藤本著，"３次元MRI動画データに基づく声道下部構造のモデル化"，日本音響学会講演論文集 pp. 281-282, 2003年9月

本発明は、上述したような問題点を解決するためになされたものであって、その目的は、音声スペクトル上の複数の特徴と、その生成要因となる声道内の各部位との対応関係を組み合わせて利用することにより、入力された音声の話者を特定することが可能な音声認証装置、音声認証方法および音声認証プログラムを提供することである。

このような目的を達成するために、本発明の１つの局面に従うと、音声認証装置であって、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するための特徴抽出手段を備え、声道モデルは、口腔に対応する第１の音響管部分と、第１の音響管部分に連結し、咽頭腔に対応する第２の音響管部分と、第２の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、第２の音響管部分の底面に連結し、梨状窩に対応する少なくとも１つの円錐管とを含み、学習時において、特徴抽出手段により決定された形状パラメータを登録形状パラメータとして認証対象者と関連付けて記憶するための記憶手段をさらに備え、特徴抽出手段は、認証時において、話者からの音声入力に基づいて、声道モデルの形状パラメータを認証形状パラメータとして決定し、話者が登録された認証対象者であるか否かを特定するために、認証形状パラメータと登録形状パラメータとの比較を行なう類似度比較手段をさらに備える。

好ましくは、特徴抽出手段は、音声入力に基づいて、形状パラメータの初期値を決定する初期値決定手段と、初期値に基づく声道モデルの伝達関数と音声入力の入力スペクトルとの差を最小化するように形状パラメータを修正する修正手段とを含む。

好ましくは、第１の音響管部分は、互いに連結した複数の第１の音響管を含み、第２の音響管部分は、互いに連結した複数の第２の音響管を含む。

この発明の他の局面に従うと、音声認証方法であって、学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、声道モデルは、口腔に対応する第１の音響管部分と、第１の音響管部分に連結し、咽頭腔に対応する第２の音響管部分と、第２の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、第２の音響管部分の底面に連結し、梨状窩に対応する少なくとも１つの円錐管とを含み、学習時において決定された形状パラメータを登録形状パラメータとして認証対象者と関連付けて記憶装置に記憶するステップと、認証時において、話者からの音声入力に基づいて、声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、認証形状パラメータと登録形状パラメータとの比較結果に基づいて、話者が登録された認証対象者であるか否かを特定するステップとをさらに備える。

好ましくは、声道モデルの形状パラメータを決定するステップは、音声入力に基づいて、形状パラメータの初期値を決定するステップと、初期値に基づく声道モデルの伝達関数と音声入力の入力スペクトルとの差を最小化するように形状パラメータを修正するステップとを含む。

この発明のさらに他の局面にしたがうと、コンピュータに音声認証処理を実行させるための音声認証プログラムであって、音声認証処理は、学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、声道モデルは、口腔に対応する第１の音響管部分と、第１の音響管部分に連結し、咽頭腔に対応する第２の音響管部分と、第２の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、第２の音響管部分の底面に連結し、梨状窩に対応する少なくとも１つの円錐管とを含み、学習時において決定された形状パラメータを登録形状パラメータとして認証対象者と関連付けて記憶するステップと、認証時において、話者からの音声入力に基づいて、声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、認証形状パラメータと登録形状パラメータとの比較結果に基づいて、話者が登録された認証対象者であるか否かを特定するステップとをさらに備える。

本発明に係る音声認証装置、音声認証方法および音声認証プログラムは、音声認証において、個人の身体的特性との関連性を高めて本人認証を行なうことができ、音声認証の精度を向上させることが可能である。

以下、図面を参照して本発明の実施の形態について説明する。
［ハードウェア構成］
図１は、本発明の音声認証方法および音声認証プログラムが適用される音声認証装置を用いた音声認証システム１０００の一例を示す概念図である。

図１を参照して、音声認証システム１０００は、認証対象者２の発話に基づいて認証対象者２に対してアクセスを許可するか否かを判断するコンピュータ１００を備える。

すなわち、以下では、本発明の音声認証方法をアクセス権の管理に適用する場合を例にとって説明することにする。

図１を参照して、このコンピュータ１００は、ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory ）上の情報を読込むためのＣＤ−ＲＯＭドライブ１０８およびフレキシブルディスク（Flexible Disk、以下ＦＤ）１１６に情報を読み書きするためのＦＤドライブ１０６を備えたコンピュータ本体１０２と、コンピュータ本体１０２に接続された表示装置としてのディスプレイ１０４と、同じくコンピュータ本体１０２に接続された入力装置としてのキーボード１１０およびマウス１１２と、音声入力装置としてのマイク１３２と、音声出力装置としてのスピーカ１３４とを含む。

なお、本発明の音声認証方法を入室管理などに適用する場合には、コンピュータ１００は入室管理システムの一部として動作し、本人認証された場合には、ゲートの開錠処理等を行なうことになる。また、本発明の音声認証方法を電子商取引等に適用する場合には、マイク１３２から入力された音声は、通信に適したフォーマットに変換された後に、ネットワーク３１０を介して、相手先のコンピュータシステム３００に伝送される。相手先のコンピュータシステム３００において、以下に説明するような音声認証処理を行ない、認証対象者２の本人認証を行なうことになる。

図２は、このコンピュータ１００のハードウェア構成をブロック図形式で示す図である。

図２に示されるように、このコンピュータ１００を構成するコンピュータ本体１０２は、ＣＤ−ＲＯＭドライブ１０８およびＦＤドライブ１０６に加えて、それぞれバスＢＳに接続されたＣＰＵ（Central Processing Unit ）１２０と、ＲＯＭ（Read Only Memory) およびＲＡＭ（Random Access Memory）を含むメモリ１２２と、直接アクセスメモリ装置、たとえば、ハードディスク１２４と、マイク１３２またはスピーカ１３４とデータの授受を行なうためのインタフェース１２８とを含んでいる。ＣＤ−ＲＯＭドライブ１０８にはＣＤ−ＲＯＭ１１８が装着される。ＦＤドライブ１０６にはＦＤ１１６が装着される。

なお、インタフェース１２８は、たとえば、相手先のコンピュータシステム３００との通信を行なうために使用することもできる。

後に説明するように、本発明の音声認証プログラムが動作するにあたっては、その動作の基礎となる情報を格納するデータベースは、ハードディスク１２４に格納されるものとして説明を行なう。

なお、ＣＤ−ＲＯＭ１１８は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、ＤＶＤ−ＲＯＭ（Digital Versatile Disc）やメモリカードなどでもよく、その場合は、コンピュータ本体１０２には、これらの媒体を読取ることが可能なドライブ装置が設けられる。

本発明の音声認証装置の主要部は、コンピュータハードウェアと、ＣＰＵ１２０により実行されるソフトウェアとにより構成される。一般的にこうしたソフトウェアはＣＤ−ＲＯＭ１１８、ＦＤ１１６等の記憶媒体に格納されて流通し、ＣＤ−ＲＯＭドライブ１０８またはＦＤドライブ１０６等により記憶媒体から読取られてハードディスク１２４に一旦格納される。または、当該装置がネットワーク３１０に接続されている場合には、ネットワーク上のサーバから一旦ハードディスク１２４にコピーされる。そうしてさらにハードディスク１２４からメモリ１２２中のＲＡＭに読出されてＣＰＵ１２０により実行される。なお、ネットワーク接続されている場合には、ハードディスク１２４に格納することなくＲＡＭに直接ロードして実行するようにしてもよい。

図１および図２に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、ＦＤ１１６、ＣＤ−ＲＯＭ１１８、ハードディスク１２４等の記憶媒体に記憶されたソフトウェアである。

なお、一般的傾向として、コンピュータのオペレーティングシステムの一部として様々なプログラムモジュールを用意しておき、アプリケーションプログラムはこれらモジュールを所定の配列で必要な時に呼び出して処理を進める方式が一般的である。そうした場合、当該音声認証装置を実現するためのソフトウェア自体にはそうしたモジュールは含まれず、当該コンピュータでオペレーティングシステムと協働してはじめて音声認証装置が実現することになる。しかし、一般的なプラットフォームを使用する限り、そうしたモジュールを含ませたソフトウェアを流通させる必要はなく、それらモジュールを含まないソフトウェア自体およびそれらソフトウェアを記録した記録媒体（およびそれらソフトウェアがネットワーク上を流通する場合のデータ信号）が実施の形態を構成すると考えることができる。

［個人性生成要因にもとづく音声認証］
図３は、音声スペクトル上の特徴と声道内の部位の対応関係を示す図である。

以下に説明するとおり、本発明の音声認証装置や音声認証方法は、音声スペクトル上の複数の特徴と、その生成要因となる声道内の各部位との対応関係を組み合わせて利用することにより、入力された音声の話者を特定することを可能にするものである。

特に、本発明では、入力された音声（母音）から話者の個人性要因を抽出することにより音声認証を行なう。このとき、音声認証において、認証に用いる音声の発声内容（キーワード）を予め決めておく「テキスト依存型」の認証や、どんな言葉を発生してもよい「テキスト独立型」の認証や、装置を使うたびに新しいキーワードを装置側から認証対象者に対して指定する「テキスト指定型」の認証のいずれにの場合にも、本発明の音声認証を適用することができる。

一方、図４は、音声生成系の正中断面図を示す概念図である。

図３および図４を参照すると、音声スペクトルの極（極大点）の分布パターンは、「声道長」に対応している。「声道」とは、声門から咽頭腔、口腔を通り唇に至る空間を指す。

低次フォルマントは、「咽頭腔と口腔の長さ、断面積および容積の関係」に対応している。低周波側から４番目の極大点である第４フォルマントは、「喉頭腔の形状」と対応している。

さらに、高周波数帯域に存在する零点（極小点）の数、周波数、バンド幅、およびその周辺の極との相対的エネルギー差は、後に詳しく説明するように、「声道下部の梨状窩の形状」と対応している。

声道形状は、個々の人間の声質、すなわち音声の個人性を決定づける主要因である。言い換えれば、音声の個人性の主たる生成要因は、声道形状の個人差であるといえる。

以下、図３における声道内の部位について、さらに詳しく説明する。

（声道長）
「声道長」とは声門から口唇までの長さを指す。声道長は年齢、性別、個人の体格との相関が高い。音響管の長さが長いほどその共鳴周波数が低くなるので、声道長と音声スペクトルの極の分布パターンには対応関係がある。従って、音声からその話者の声道長を求めることができる。

（咽頭腔と口腔の長さ、断面積、容積の関係）
咽頭腔と口腔の長さ、断面積、容積の関係は低次フォルマントを決定する。

図５は、声道の２区間モデルにおける咽頭腔と口腔の断面積変化、および低次フォルマントとの理論的関係を示す図である。

図５（ａ）は、声道を２つの区間からなる音響管で代表させた２区間モデルにおいて、口腔に比べて咽頭腔の断面積が大きい場合と、口腔に比べて咽頭腔の断面積が小さい場合とを示している。一方、図５（ｂ）は、図５（ａ）に示した咽頭腔と口腔との間の断面積の関係が異なる２つの場合にそれぞれ対応する、フォルマント周波数の変化を示す図である。

まず、図５（ａ）の上側のように、咽頭腔の断面積が増大すると、図５（ｂ）の上側に示すように、第１フォルマント（F1）の低下と第２フォルマント（F2）の上昇が起こる。

これに対して、図５（ａ）の下側のように、口腔の断面積が増大すると、第１フォルマント（F1）の上昇と第２フォルマント（F2）の低下が起こる。

この図５に示すような関係は、核磁気共鳴画像法（MRI：Magnetic Resonance Imaging）にもとづく実測値と録音音声との間にも観測され、第１フォルマント周波数は咽頭腔断面積と、第２フォルマント周波数は口腔断面積との相関が認められる。

図６は、咽頭腔平均面積と第１フォルマント周波数との相関関係をＭＲＩによる実測値で示す図である。図６（ａ）は、複数の被験者について、ＭＲＩにより実測された咽頭腔の平均面積と母音「あ」の第１フォルマントの周波数の実測値との関係を示す。また、図６（ｂ）は、複数の被験者について、ＭＲＩにより実測された咽頭腔の平均面積と母音「え」の第１フォルマントの周波数の実測値との関係を示す。

咽頭腔の平均面積の実測値と母音の第１フォルマントの周波数の実測値との間には負の相関がみられる。

また、図７は、口腔平均面積と第１フォルマント周波数との相関関係をＭＲＩによる実測値で示す図である。図７（ａ）は、複数の被験者について、ＭＲＩにより実測された口腔の平均面積と母音「あ」の第１フォルマントの周波数の実測値との関係を示す。また、図７（ｂ）は、複数の被験者について、ＭＲＩにより実測された口腔の平均面積と母音「え」の第１フォルマントの周波数の実測値との関係を示す。

口腔の平均面積の実測値と母音の第１フォルマントの周波数の実測値との間には正の相関がみられる。

以上の関係を用いて、低次フォルマントから咽頭腔と口腔の概形を推定することができる。

（喉頭腔の形状）
「喉頭腔」とは下咽頭腔の一部を構成する細い管である。

図８は、喉頭腔の形状を説明するための図面である。図８（ａ）は、ＭＲＩ画像において喉頭腔を白線で囲んで示し、図８（ｂ）は、ＭＲＩ画像から得られた下咽頭腔の３次元形状をワイヤフレームで示しており、喉頭腔部分は、ワイヤフレームを太線で示すとともにグレースケールを濃くして示してある。なお、図８（ｂ）に示すとおり、下咽頭腔には、喉頭腔と、原則としては喉頭腔の両側後部に、後に説明する梨状窩が含まれている。

図９は、３名分の下咽頭腔の３次元形状を示す図である。図９において、図９（ａ１）〜（ａ３）は、それぞれ３名の被験者についてＭＲＩ画像から得られた下咽頭腔の３次元形状をワイヤフレームで表わしたものを正面から見た図であり、図９（ｂ１）〜（ｂ３）は、これらのワイヤフレームをそれぞれ左側から見た図である。

この図に示されるように、喉頭腔の形状と大きさには個人差がある。

図１０は、図９に示した３名について、各母音（/a/, /i/, /u/, /e/, /o/）を発声しているときの下咽頭腔の各部の横断面形状を声門からの距離をパラメータとして示す図である。図１０（ｃ１）〜（ｃ３）の各々が、図９（ａ１）〜（ａ３）に示した各人に対応している。

図１０に示すように、発声する母音が変わっても、各人において、その形状変化が極めて小さい。

図１１は、母音「え」の音声スペクトルを示す図である。図１１において、第４フォルマントには、矢印を付して示す。

喉頭腔は声道内で音響的に独立しており、ヘルムホルツ共鳴器として働く。そして、喉頭腔の形状や大きさは音声スペクトルの第４フォルマントの周波数、バンド幅、エネルギーを決定する。すなわち、喉頭腔の形態上の個人差は、第４フォルマントに現れる。

図１２は、話者ア〜コの第４フォルマントの周波数を示す図である。

図１２に示すように、第４フォルマント周波数は、個人間で異なっている。従って、喉頭腔は音声の個人性生成の一要因であるといえる。

第４フォルマントに対応するヘルムホルツ共鳴器の形状を求めることによって、話者の喉頭腔の形状を求めることが可能である。

なお、図１２には、各話者について、梨状窩による零点の周波数も記載されているが、これについては後述する。

（梨状窩の形状）
図１３は、下咽頭腔における梨状窩の位置を示す図である。図１３は、ＭＲＩ画像から得られた下咽頭腔の３次元形状を正面から見てワイヤフレームで示しており、梨状窩部分は、ワイヤフレームを太線で示すとともにグレースケールを濃くして示してある。

梨状窩は下咽頭腔に、原則として左右１つずつ存在する分岐管である。前面から見ると梨状窩は、図１３のような形状をしているので、この形状は円錐で近似することができる。

図１０に示したとおり、喉頭腔と同様に、梨状窩の形状、長さ、大きさには個人差があり、なおかつ発声する母音が変わってもその形状変化が極めて小さい。

梨状窩は声道内の分岐管であるため、音声スペクトル上で零点（極小点）を発生させる。梨状窩の形状、長さ、大きさは音声スペクトルの高周波数帯域に現れる零点の数、周波数、バンド幅、その零点の周辺の極との相対的エネルギー差を決定する。

図１４は、母音「え」の音声スペクトル上の梨状窩による零点の位置を示す図である。

図１４において、梨状窩による零点には、矢印を付加している。

また、図１２には、上述のとおり話者ア〜コの１０名の梨状窩による零点の周波数を示している。

図１２より、梨状窩による零点の周波数には個人差があることがわかる。この周波数は梨状窩の形態の個人差に対応する。従って、梨状窩も音声の個人性生成の一要因であるといえる。

２つの梨状窩の形状、長さ、大きさが異なる場合には零点が２つ現れ、形状、長さ、大きさが等しいかもしくは近い場合には零点は１つのみ現れる。一般に、梨状窩は左右２つ存在するが、図９（ａ３）に示した被験者のように梨状窩が片方にのみ存在する人もいる。この場合にも零点は１つのみ現れる。

以上のことから、梨状窩による零点に関する情報を用いれば、話者の梨状窩の形状、長さ、大きさを求めることができる。

なお、音声スペクトル上で梨状窩の影響が表われる周波数帯域は、固定電話の周波数帯域（4 kHz以下）よりも高い。そのため、本手法を電話に利用する場合には、より広い周波数帯域を持つ携帯電話やＩＰ電話を対象にする必要がある。

［声道モデルの形状パラメータの最適化による話者の登録と認証］
本発明では、上記の個人性生成要因を組み合わせて個人の登録と認証を行なう。

音声から声道断面積関数を逆推定することは難しい課題の一つであるが、その理由として、従来の音声生成モデルでは前述した梨状窩と喉頭腔の共鳴現象を考慮していないために、高域スペクトルの複雑性を逆推定に取り込むことができないことがあげられる。

図１５は、本発明の音声生成モデルの概念図説明するための図である。

すなわち、本発明では、音声の生成を、音源からの音が、主声道の共鳴と下咽頭腔の共鳴との影響を受けた結果が、音声として発声されているものとしてモデル化している。

図１５に示すようなモデルを用いることで、高域スペクトルの複雑性を逆推定に取り込むことを可能とする。

すなわち、従来の音声生成モデルでは音声を音源と声道の線形結合で表わすのに対し、本発明における音声生成モデルでは音源と主声道共鳴のほかに下咽頭腔共鳴を加えている。このモデルに基づいて、音声スペクトルに含まれている下咽頭共鳴の成分を取り除くことにより、主声道の断面積関数を正確に推定することができる。

具体的には、個人性パラメータの決定には下記のいずれかの方法を用いることができる。

（第１の個人性パラメータの決定方法）
まず、第１の個人性パラメータの決定方法としては、入力された音声のスペクトルから、咽頭腔・口腔の形状パラメータ、喉頭腔・梨状窩の形状パラメータを求め、これらをそのまま個人性パラメータとして採用するという方法を用いることができる。

（第２の個人性パラメータの決定方法）
あるいは、上記のパラメータを声道モデルに適用して、入力された音声のスペクトルと声道モデルにより計算した伝達関数が一致するよう最適化し、そのときの声道モデルのパラメータを個人性パラメータとして採用する方法を用いることも可能である。

以下、これら２つの個人性パラメータの決定方法について、さらに詳しく説明する。

［第１の個人性パラメータの決定方法の詳細］
まず、主声道共鳴と下咽頭腔共鳴とは線形関係になく相互作用があるため、音声から個人性要因を抽出するには声道モデルより得られる伝達関数と入力された音声のスペクトルとの間で誤差最小化をはかることにより、個人性パラメータを求めなければならない。この最適化には一般的な誤差最小化の手法を用いることができる。

以下、声道モデルの形状パラメータを最適化する手法を説明する。

図１６は、図１５で説明した声道の各部分から構成される声道モデルの外形を示す図である。この声道モデルは、基本的に口腔と喉頭腔をそれぞれ２つの音響管で近似し、これら２つの音響管が連結されているものとしている。さらに、喉頭腔の音響管の底部には、２つの円錐で表わされる梨状窩と、２つの小音響管の連結により近似される喉頭腔とが連結されているものとする。音源からの音は、喉頭腔底部からこの声道モデルに入力されるものとする。

図１７は、図１６に示した３次元声道モデルの形状を特定するための各パラメータを示す図である。

図１７に示すとおり、まず、口腔に対応する音響管は長さＬorで、断面の半径Ｒorの円筒形状であり、上面側（口腔側）は開口している。一方、咽頭腔に対応する音響管は長さＬphで、断面の半径Ｒphの円筒形状であり、その上面は口腔に対応する音響管の下側の開口部と連結している。一方、咽頭腔に対応する音響管の下面には、その中央部に、喉頭腔に対応する連結小音響管が連結するとともに、この連結音響管の両側に梨状窩に対応する２つの円錐管が連結する。喉頭腔に対応する連結小音響管は、咽頭腔に対応する音響管の下面と連結する断面半径Ｒla1、長さＬla1の円筒形の第１の小音響管と、この第１の小音響管の下面と連結する断面半径Ｒla2、長さＬla2の円筒形の第２の小音響管とを備え、第２の小音響管の下側は、開口している。この第２の小音響管の下側から音源の音が声道モデルに入力される。

（音声認証システムの機能構成）
図１８は、コンピュータ１００上で動作するソフトウェアにより実現される音声認証システム１０００の機能構成を説明するための機能ブロック図である。

なお、このような図１８に示す音声認証システムの基本的な構成は、上述した非特許文献１に記載されたものと同様であるが、以下の説明のとおり、本発明では、話者モデルが図１６および図１７で示される声道モデルのパラメータの組み合わせにより表現される構成となっている。

以下、簡単に音声認証システム１０００の機能構成について、簡単に説明する。

図１８を参照して、入力される音声波は、まず、音声分析部２００において、２０ミリ秒程度の細かい時間ごとにスペクトル変換される。このようなスペクトルの表現方法としては、特に限定されないが、たとえば、ケプストラム（cepstrum）パラメータを用いることができる。以下では、ケプトストラムパラメータのように音声スペクトルを表現するためのパラメータを「音声パラメータ」と呼ぶ。

話者モデルの登録処理（学習処理）では、切替部２０４は、特徴抽出部２０２から話者モデル作成部２０６に処理をつなぐように切り替えられている。

そこで、特徴抽出部２０２は、音声パラメータの時系列に基づいて、話者の特徴を表現するパラメータ、すなわち、上述した声道モデルの形状を規定する各パラメータ（以下、「声道モデル形状パラメータ」と呼ぶ）の値を抽出する。

話者モデル作成部２０６は、ハードディスク１２４のような記憶装置に、各話者と対応する声道モデル形状パラメータとを対応付けて登録する。

続いて、しきい値設定部２１０は、予め各話者の音声の変動の幅を同一話者についての複数の入力音声から調べ、本人の音声と判定するための許容限界のしきい値を決定する。

一方、認証処理においては、切替部２０４は、特徴抽出部２０２から類似度計算部２２０に処理をつなぐように切り替えられている。

したがって、認証処理においても、学習処理時と同様にして、音声分析部２００と特徴抽出部２０２との処理により、入力音声に対応した声道モデル形状パラメータを抽出する。

類似度計算部２２０は、特徴抽出部２０２により抽出された声道モデル形状パラメータと、登録されている各話者モデルとの比較を行ない、類似の度合い、たとえば、両者の距離を計算し、しきい値比較部２２２は、類似の度合いが予め設定されているしきい値よりも大きければ、本人の音声と判定して受理する旨の認証結果を出力し、そうでない場合は、他人の音声として判定して、拒否するあるいは棄却する認証結果を出力する。

すなわち、本発明では、上述のとおり、話者の音声からこの声道モデルの形状パラメータを決定し、これを用いて認証を行なう。ある話者の音声に対する声道モデルの形状パラメータの決定は以下のような方法で行なう。

（ある話者の音声に対する声道モデルの形状パラメータの決定）
図１９は、第１の個人性パラメータの決定方法により、話者の音声に対する声道モデルの形状パラメータを決定して登録するための話者モデルの登録処理の手続きを説明するためのフローチャートである。

図１９を参照して、話者モデルの登録処理が開始されると、まず、声道長の決定が行なわれる（ステップＳ１００）。すなわち、音声分析部２００が、音声をスペクトル分析する。そして、特徴抽出部２０２は、一定の周波数帯域に現れる極の数に基づいて、声道長を決定する。その際、ＭＲＩ計測により予め得られている標準的な声道長を参考にする。

続いて、特徴抽出部２０２は、声道長および基本周波数からしきい値処理によって男女を判定する（ステップＳ１０２）。このようなしきい値は、予め実験的に定めておくものとする。

次に、特徴抽出部２０２は、喉頭管の形状パラメータを決定する（ステップＳ１０４）。すなわち、図１７のパラメータＬla1、Ｌla2、Ｒla2はＭＲＩ計測による標準的な値を参考に決定するものとする。喉頭管はヘルムホルツ共鳴器とみなせるので、これら３つのパラメータと第４フォルマント周波数からＲla1を決定することができる。

次に、特徴抽出部２０２は、梨状窩の形状パラメータを決定する（ステップＳ１０６）。

このとき、上述のとおり、梨状窩は円錐形で近似されている。梨状窩の形状パラメータの決定のために、たとえば、あらかじめ円錐形の底面の半径と高さとその円錐形により作られる零点の周波数とバンド幅の関係をテーブルにしておく。次に、音声スペクトル上で４ｋＨｚ以上の周波数帯域に現れる零点の数を特定し、零点が１つであれば１つの円錐形を、零点が２つあれば２つの円錐形を用いる。そして、音声スペクトル上の零点の周波数とバンド幅からテーブル逆引きにより円錐形の底面の半径（図１７のパラメータＲpr1、Ｒpr2）と高さ（図１７のＬpr1、Ｌpr2）を決定する。

続いて、特徴抽出部２０２は、口腔および咽頭腔の形状パラメータを決定する（ステップＳ１０８）。

ここでは、声道長を２等分し咽頭腔と口腔からなる２区間声道モデルをつくり、低次フォルマントの分析より咽頭腔と口腔の断面積を求める。

さらに、特徴抽出部２０２は、２区間声道モデルへ下咽頭腔を追加して声道モデルを完成させる（ステップＳ１１０）。すなわち、ステップＳ１０８で得られた声道モデルに下咽頭腔を加える。

次に、話者モデル作成部２０６は、ステップＳ１１０により得られた声道モデルの形状パラメータを当該話者に関する個人性パラメータとして、記憶装置に登録する（ステップＳ１１２）。

以上で、第１の個人性パラメータの決定方法に基づく、話者モデルの登録処理が完了する。

［第２の個人性パラメータの決定方法の詳細］
次に、上述した第２の個人性パラメータの決定方法、および第２の個人性パラメータの決定方法に基づく、話者モデルの登録処理について説明する。

（第２の個人性パラメータの決定方法の第１の例）
図１９のステップＳ１０８で得られた声道モデルにおいて、咽頭腔と口腔をそれぞれさらに２等分した４区間声道モデルを作る。初期値としては、２等分した各部分は、２等分前と同じ断面積を有するものとする。その上で、この４区間声道モデルの伝達関数と入力スペクトルとの差を最小化するように４区間の形状パラメータおよび下咽頭腔の形状パラメータを最適化する。必要に応じてさらに分割数を増やし８区間声道モデルを用いることもできる。上記最適化により、分割された各部分の断面積を個別に決定する。これにより得られた声道モデルの形状パラメータを当該話者に関する個人性パラメータとする。このような形状パラメータの決定方法は、登録時（学習時）においても、認証時においても実施される。

なお、咽頭腔に相当する音響管と口腔に対応する音響管を分割する数については、上述した２分割や４分割に限られず、分割した結果に対応して得られる伝達関数と入力スペクトルの差を、計算により最小化することが可能な自由度であるかぎり、咽頭腔に相当する音響管と口腔に対応する音響管とのそれぞれで他の分割数とすることも可能である。

（第２の個人性パラメータの決定方法の第２の例）
図２０は、第２の個人性パラメータの決定方法の第２の例の手続きを示すフローチャートである。

まず、特徴抽出部２０２は、音声から声道断面積関数を求める（ステップＳ２００）。これは例えば、いわゆるＰＡＲＣＯＲ分析を用いることで可能である。

次に、特徴抽出部２０２は、図１９のステップＳ１０４と同じ方法で音声スペクトルから喉頭腔の形状パラメータを求める（ステップＳ２０２）。

続いて、特徴抽出部２０２は、低次フォルマントと口腔平均面積、低次フォルマントと咽頭腔平均面積との相関関係から、ステップＳ２００で求めた声道断面積関数の口腔および咽頭腔に相当する部分を修正する（ステップＳ２０４）。

ステップＳ２００で求めた声道断面積関数には分岐管が含まれない。そこで、特徴抽出部２０２は、図１９のステップＳ１０６と同じ方法で音声スペクトルから円錐形で近似した梨状窩の形状パラメータを求める（ステップＳ２０６）。

そして、特徴抽出部２０２は、以上により求めた喉頭腔、口腔、咽頭腔、梨状窩の形状パラメータを初期値として、図１７に示したような声道モデルを作成する（ステップＳ２０８）。なお、ＰＡＲＣＯＲ分析の分析次数に応じて、口腔および咽頭腔の分割数、すなわち精度は変化する。

続いて、特徴抽出部２０２は、この声道モデルの伝達関数を計算し、それと音声スペクトルとの誤差が最小となるまで声道モデルの形状パラメータを修正する（ステップＳ２１０）。

ステップＳ２１０により得られた声道モデルの形状パラメータを当該話者に関する個人性パラメータとし、記憶装置に登録する（ステップＳ２１２）。

このような形状パラメータの決定方法も、登録時（学習時）におけるだけでなく、認証時においても実施される。

以上のようにして、図１８に示したような音声認証システムに話者を登録する際には、第１または第２の個人性パラメータの決定方法を用いて、音声から登録話者の個人性パラメータを決定して登録する。話者を照合する場合には、入力音声からその話者の個人性パラメータを決定し、登録話者の個人性パラメータと照合して入力音声の話者と決定する。

このような構成により、音声認証において、個人の身体的特性との関連性を高めて本人認証を行なうことができ、音声認証の精度を向上させることが可能である。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の音声認証方法を実施するための音声認証装置１０００の一例を示す概念図である。コンピュータ１００のハードウェア構成をブロック図形式で示す図である。音声スペクトル上の特徴と声道内の部位の対応関係を示す図である。音声生成系の正中断面図を示す概念図である。声道の２区間モデルにおける咽頭腔と口腔の断面積変化、および低次フォルマントとの理論的関係を示す図である。咽頭腔平均面積と第１フォルマント周波数との相関関係をＭＲＩによる実測値で示す図である。口腔平均面積と第１フォルマント周波数との相関関係をＭＲＩによる実測値で示す図である。喉頭腔の形状を説明するための図面である。３名分の下咽頭腔の３次元形状を示す図である。図９に示した３名について、各母音を発声しているときの下咽頭腔の各部の横断面形状を声門からの距離をパラメータとして示す図である。母音「え」の音声スペクトルを示す図である。話者ア〜コの第４フォルマントの周波数を示す図である。下咽頭腔における梨状窩の位置を示す図である。母音「え」の音声スペクトル上の梨状窩による零点の位置を示す図である。本発明の音声生成モデルの概念図説明するための図である。図１５で説明した声道の各部分から構成される声道モデルの外形を示す図である。図１６に示した３次元声道モデルの形状を特定するための各パラメータを示す図である。コンピュータ１００上で動作するソフトウェアにより実現される音声認証システム１０００の機能構成を説明するための機能ブロック図である。話者の音声に対する声道モデルの形状パラメータを決定して登録するための話者モデルの登録処理の手続きを説明するためのフローチャートである。第２の個人性パラメータの決定方法の第２の例の手続きを示すフローチャートである。

符号の説明

１００コンピュータ、１０２コンピュータ本体、１０４ディスプレイ、１０６ＦＤドライブ、１０８ＣＤ−ＲＯＭドライブ、１１０キーボード、１１２マウス、１１６フレキシブルディスク、１１８ＣＤ−ＲＯＭ、１２０ＣＰＵ、１２２メモリ、１２４ハードディスク、１２８通信インタフェース、１３２マイク、１３４スピーカ、３００相手先コンピュータ、３１０ネットワーク、１０００音声認証システム。

Claims

認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するための特徴抽出手段を備え、
前記声道モデルは、
口腔に対応する第１の音響管部分と、
前記第１の音響管部分に連結し、咽頭腔に対応する第２の音響管部分と、
前記第２の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、
前記第２の音響管部分の底面に連結し、梨状窩に対応する少なくとも１つの円錐管とを含み、
学習時において、前記特徴抽出手段により決定された前記形状パラメータを登録形状パラメータとして前記認証対象者と関連付けて記憶するための記憶手段をさらに備え、
前記特徴抽出手段は、認証時において、話者からの音声入力に基づいて、前記声道モデルの形状パラメータを認証形状パラメータとして決定し、
前記話者が登録された前記認証対象者であるか否かを特定するために、前記認証形状パラメータと前記登録形状パラメータとの比較を行なう類似度比較手段をさらに備える、音声認証装置。
前記特徴抽出手段は、
前記音声入力に基づいて、前記形状パラメータの初期値を決定する初期値決定手段と、
前記初期値に基づく声道モデルの伝達関数と前記音声入力の入力スペクトルとの差を最小化するように前記形状パラメータを修正する修正手段とを含む、請求項１記載の音声認証装置。
前記第１の音響管部分は、互いに連結した複数の第１の音響管を含み、
前記第２の音響管部分は、互いに連結した複数の第２の音響管を含む、請求項２記載の音声認証装置。
学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、
前記声道モデルは、
口腔に対応する第１の音響管部分と、
前記第１の音響管部分に連結し、咽頭腔に対応する第２の音響管部分と、
前記第２の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、
前記第２の音響管部分の底面に連結し、梨状窩に対応する少なくとも１つの円錐管とを含み、
学習時において決定された前記形状パラメータを登録形状パラメータとして前記認証対象者と関連付けて記憶装置に記憶するステップと、
認証時において、話者からの音声入力に基づいて、前記声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、
前記認証形状パラメータと前記登録形状パラメータとの比較結果に基づいて、前記話者が登録された前記認証対象者であるか否かを特定するステップとをさらに備える、音声認証方法。
前記声道モデルの形状パラメータを決定するステップは、
前記音声入力に基づいて、前記形状パラメータの初期値を決定するステップと、
前記初期値に基づく声道モデルの伝達関数と前記音声入力の入力スペクトルとの差を最小化するように前記形状パラメータを修正するステップとを含む、請求項４記載の音声認証方法。
前記第１の音響管部分は、互いに連結した複数の第１の音響管を含み、
前記第２の音響管部分は、互いに連結した複数の第２の音響管を含む、請求項５記載の音声認証方法。
コンピュータに音声認証処理を実行させるための音声認証プログラムであって、
前記音声認証処理は、
学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、
前記声道モデルは、
口腔に対応する第１の音響管部分と、
前記第１の音響管部分に連結し、咽頭腔に対応する第２の音響管部分と、
前記第２の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、
前記第２の音響管部分の底面に連結し、梨状窩に対応する少なくとも１つの円錐管とを含み、
学習時において決定された前記形状パラメータを登録形状パラメータとして前記認証対象者と関連付けて記憶装置に記憶するステップと、
認証時において、話者からの音声入力に基づいて、前記声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、
前記認証形状パラメータと前記登録形状パラメータとの比較結果に基づいて、前記話者が登録された前記認証対象者であるか否かを特定するステップとをさらに備える、音声認証プログラム。
前記声道モデルの形状パラメータを決定するステップは、
前記音声入力に基づいて、前記形状パラメータの初期値を決定するステップと、
前記初期値に基づく声道モデルの伝達関数と前記音声入力の入力スペクトルとの差を最小化するように前記形状パラメータを修正するステップとを含む、請求項７記載の音声認証プログラム。
前記第１の音響管部分は、互いに連結した複数の第１の音響管を含み、
前記第２の音響管部分は、互いに連結した複数の第２の音響管を含む、請求項８記載の音声認証プログラム。