JP4049732B2 - 音声認証装置、音声認証方法および音声認証プログラム - Google Patents

音声認証装置、音声認証方法および音声認証プログラム Download PDF

Info

Publication number
JP4049732B2
JP4049732B2 JP2003389665A JP2003389665A JP4049732B2 JP 4049732 B2 JP4049732 B2 JP 4049732B2 JP 2003389665 A JP2003389665 A JP 2003389665A JP 2003389665 A JP2003389665 A JP 2003389665A JP 4049732 B2 JP4049732 B2 JP 4049732B2
Authority
JP
Japan
Prior art keywords
shape parameter
authentication
voice
acoustic tube
vocal tract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003389665A
Other languages
English (en)
Other versions
JP2005148640A (ja
Inventor
清志 本多
達也 北村
覚 藤田
浩典 竹本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2003389665A priority Critical patent/JP4049732B2/ja
Publication of JP2005148640A publication Critical patent/JP2005148640A/ja
Application granted granted Critical
Publication of JP4049732B2 publication Critical patent/JP4049732B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

この発明は、音声の個人差に基づいて、話者を自動的に判定する話者認識を用いて、個人の認証を行なうための音声認証装置、音声認証方法および音声認証プログラムに関する。
重要な施設や部屋への部外者の入室を制限したりする場合や、システム外部からのシステム破壊等およびシステム内部からの不正アクセスを防止するためのアクセス管理や、さらには、電子商取引におけるいわゆる「なりすまし」などの不正行為の防止のために「個人認証技術」が必要とされる局面が増大している。
このような個人認証には、従来から、「ユーザーID」と「パスワード」の組み合わせや、公開鍵暗号系における「秘密鍵」等を利用した方式が採用されている。
さらに、より個人認証の信頼度を向上させるために、指紋や虹彩などの本人の身体的特徴や行動的特徴を用いたいわゆる「バイオメトリクス」による認証技術も多く利用されている。
一方、「バイオメトリクス」の一種である、音声を用いた個人認証技術に対する期待も高まっている。これは、最近の音声処理技術の発展に伴い、認証対象者の音声という、従来からの通信システムをそのまま利用可能な特徴を個人認証に用いることができれば、容易に通信関連のシステムが実現できると期待されるからである(たとえば、非特許文献1を参照)。
ただし、音声による本人認証(以下、「音声認証」とよぶ)では、上記のような利点があるものの、指紋や虹彩などと比較すると、個人の身体的特性との関連性が従来方式では低く、本人認証の技術として利用するためには、さらなる精度の向上が必要である。
ここで、声道の下部構造と3次元MRI動画像データとの対応関係から、声道下部構造のモデル化を試みた例は存在するが(たとえば、非特許文献2を参照)、音声認証をいかにして行なうかについては、従来、必ずしも明らかではなかった。
古井著、"音声による本人認証 第1部 音声による本人認証のしくみと技術動向",情報処理, 40巻11号, 1999年, 11月 竹本,本多,正木,島田,藤本著,"3次元MRI動画データに基づく声道下部構造のモデル化",日本音響学会講演論文集 pp. 281-282, 2003年9月
本発明は、上述したような問題点を解決するためになされたものであって、その目的は、音声スペクトル上の複数の特徴と、その生成要因となる声道内の各部位との対応関係を組み合わせて利用することにより、入力された音声の話者を特定することが可能な音声認証装置、音声認証方法および音声認証プログラムを提供することである。
このような目的を達成するために、本発明の1つの局面に従うと、音声認証装置であって、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するための特徴抽出手段を備え、声道モデルは、口腔に対応する第1の音響管部分と、第1の音響管部分に連結し、咽頭腔に対応する第2の音響管部分と、第2の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、第2の音響管部分の底面に連結し、梨状窩に対応する少なくとも1つの円錐管とを含み、学習時において、特徴抽出手段により決定された形状パラメータを登録形状パラメータとして認証対象者と関連付けて記憶するための記憶手段をさらに備え、特徴抽出手段は、認証時において、話者からの音声入力に基づいて、声道モデルの形状パラメータを認証形状パラメータとして決定し、話者が登録された認証対象者であるか否かを特定するために、認証形状パラメータと登録形状パラメータとの比較を行なう類似度比較手段をさらに備える。
好ましくは、特徴抽出手段は、音声入力に基づいて、形状パラメータの初期値を決定する初期値決定手段と、初期値に基づく声道モデルの伝達関数と音声入力の入力スペクトルとの差を最小化するように形状パラメータを修正する修正手段とを含む。
好ましくは、第1の音響管部分は、互いに連結した複数の第1の音響管を含み、第2の音響管部分は、互いに連結した複数の第2の音響管を含む。
この発明の他の局面に従うと、音声認証方法であって、学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、声道モデルは、口腔に対応する第1の音響管部分と、第1の音響管部分に連結し、咽頭腔に対応する第2の音響管部分と、第2の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、第2の音響管部分の底面に連結し、梨状窩に対応する少なくとも1つの円錐管とを含み、学習時において決定された形状パラメータを登録形状パラメータとして認証対象者と関連付けて記憶装置に記憶するステップと、認証時において、話者からの音声入力に基づいて、声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、認証形状パラメータと登録形状パラメータとの比較結果に基づいて、話者が登録された認証対象者であるか否かを特定するステップとをさらに備える。
好ましくは、声道モデルの形状パラメータを決定するステップは、音声入力に基づいて、形状パラメータの初期値を決定するステップと、初期値に基づく声道モデルの伝達関数と音声入力の入力スペクトルとの差を最小化するように形状パラメータを修正するステップとを含む。
好ましくは、第1の音響管部分は、互いに連結した複数の第1の音響管を含み、第2の音響管部分は、互いに連結した複数の第2の音響管を含む。
この発明のさらに他の局面にしたがうと、コンピュータに音声認証処理を実行させるための音声認証プログラムであって、音声認証処理は、学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、声道モデルは、口腔に対応する第1の音響管部分と、第1の音響管部分に連結し、咽頭腔に対応する第2の音響管部分と、第2の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、第2の音響管部分の底面に連結し、梨状窩に対応する少なくとも1つの円錐管とを含み、学習時において決定された形状パラメータを登録形状パラメータとして認証対象者と関連付けて記憶するステップと、認証時において、話者からの音声入力に基づいて、声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、認証形状パラメータと登録形状パラメータとの比較結果に基づいて、話者が登録された認証対象者であるか否かを特定するステップとをさらに備える。
好ましくは、声道モデルの形状パラメータを決定するステップは、音声入力に基づいて、形状パラメータの初期値を決定するステップと、初期値に基づく声道モデルの伝達関数と音声入力の入力スペクトルとの差を最小化するように形状パラメータを修正するステップとを含む。
好ましくは、第1の音響管部分は、互いに連結した複数の第1の音響管を含み、第2の音響管部分は、互いに連結した複数の第2の音響管を含む。
本発明に係る音声認証装置、音声認証方法および音声認証プログラムは、音声認証において、個人の身体的特性との関連性を高めて本人認証を行なうことができ、音声認証の精度を向上させることが可能である。
以下、図面を参照して本発明の実施の形態について説明する。
[ハードウェア構成]
図1は、本発明の音声認証方法および音声認証プログラムが適用される音声認証装置を用いた音声認証システム1000の一例を示す概念図である。
図1を参照して、音声認証システム1000は、認証対象者2の発話に基づいて認証対象者2に対してアクセスを許可するか否かを判断するコンピュータ100を備える。
すなわち、以下では、本発明の音声認証方法をアクセス権の管理に適用する場合を例にとって説明することにする。
図1を参照して、このコンピュータ100は、CD−ROM(Compact Disc Read-Only Memory )上の情報を読込むためのCD−ROMドライブ108およびフレキシブルディスク(Flexible Disk、以下FD)116に情報を読み書きするためのFDドライブ106を備えたコンピュータ本体102と、コンピュータ本体102に接続された表示装置としてのディスプレイ104と、同じくコンピュータ本体102に接続された入力装置としてのキーボード110およびマウス112と、音声入力装置としてのマイク132と、音声出力装置としてのスピーカ134とを含む。
なお、本発明の音声認証方法を入室管理などに適用する場合には、コンピュータ100は入室管理システムの一部として動作し、本人認証された場合には、ゲートの開錠処理等を行なうことになる。また、本発明の音声認証方法を電子商取引等に適用する場合には、マイク132から入力された音声は、通信に適したフォーマットに変換された後に、ネットワーク310を介して、相手先のコンピュータシステム300に伝送される。相手先のコンピュータシステム300において、以下に説明するような音声認証処理を行ない、認証対象者2の本人認証を行なうことになる。
図2は、このコンピュータ100のハードウェア構成をブロック図形式で示す図である。
図2に示されるように、このコンピュータ100を構成するコンピュータ本体102は、CD−ROMドライブ108およびFDドライブ106に加えて、それぞれバスBSに接続されたCPU(Central Processing Unit )120と、ROM(Read Only Memory) およびRAM (Random Access Memory)を含むメモリ122と、直接アクセスメモリ装置、たとえば、ハードディスク124と、マイク132またはスピーカ134とデータの授受を行なうためのインタフェース128とを含んでいる。CD−ROMドライブ108にはCD−ROM118が装着される。FDドライブ106にはFD116が装着される。
なお、インタフェース128は、たとえば、相手先のコンピュータシステム300との通信を行なうために使用することもできる。
後に説明するように、本発明の音声認証プログラムが動作するにあたっては、その動作の基礎となる情報を格納するデータベースは、ハードディスク124に格納されるものとして説明を行なう。
なお、CD−ROM118は、コンピュータ本体に対してインストールされるプログラム等の情報を記録可能な媒体であれば、他の媒体、たとえば、DVD−ROM(Digital Versatile Disc)やメモリカードなどでもよく、その場合は、コンピュータ本体102には、これらの媒体を読取ることが可能なドライブ装置が設けられる。
本発明の音声認証装置の主要部は、コンピュータハードウェアと、CPU120により実行されるソフトウェアとにより構成される。一般的にこうしたソフトウェアはCD−ROM118、FD116等の記憶媒体に格納されて流通し、CD−ROMドライブ108またはFDドライブ106等により記憶媒体から読取られてハードディスク124に一旦格納される。または、当該装置がネットワーク310に接続されている場合には、ネットワーク上のサーバから一旦ハードディスク124にコピーされる。そうしてさらにハードディスク124からメモリ122中のRAMに読出されてCPU120により実行される。なお、ネットワーク接続されている場合には、ハードディスク124に格納することなくRAMに直接ロードして実行するようにしてもよい。
図1および図2に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、FD116、CD−ROM118、ハードディスク124等の記憶媒体に記憶されたソフトウェアである。
なお、一般的傾向として、コンピュータのオペレーティングシステムの一部として様々なプログラムモジュールを用意しておき、アプリケーションプログラムはこれらモジュールを所定の配列で必要な時に呼び出して処理を進める方式が一般的である。そうした場合、当該音声認証装置を実現するためのソフトウェア自体にはそうしたモジュールは含まれず、当該コンピュータでオペレーティングシステムと協働してはじめて音声認証装置が実現することになる。しかし、一般的なプラットフォームを使用する限り、そうしたモジュールを含ませたソフトウェアを流通させる必要はなく、それらモジュールを含まないソフトウェア自体およびそれらソフトウェアを記録した記録媒体(およびそれらソフトウェアがネットワーク上を流通する場合のデータ信号)が実施の形態を構成すると考えることができる。
[個人性生成要因にもとづく音声認証]
図3は、音声スペクトル上の特徴と声道内の部位の対応関係を示す図である。
以下に説明するとおり、本発明の音声認証装置や音声認証方法は、音声スペクトル上の複数の特徴と、その生成要因となる声道内の各部位との対応関係を組み合わせて利用することにより、入力された音声の話者を特定することを可能にするものである。
特に、本発明では、入力された音声(母音)から話者の個人性要因を抽出することにより音声認証を行なう。このとき、音声認証において、認証に用いる音声の発声内容(キーワード)を予め決めておく「テキスト依存型」の認証や、どんな言葉を発生してもよい「テキスト独立型」の認証や、装置を使うたびに新しいキーワードを装置側から認証対象者に対して指定する「テキスト指定型」の認証のいずれにの場合にも、本発明の音声認証を適用することができる。
一方、図4は、音声生成系の正中断面図を示す概念図である。
図3および図4を参照すると、音声スペクトルの極(極大点)の分布パターンは、「声道長」に対応している。「声道」とは、声門から咽頭腔、口腔を通り唇に至る空間を指す。
低次フォルマントは、「咽頭腔と口腔の長さ、断面積および容積の関係」に対応している。低周波側から4番目の極大点である第4フォルマントは、「喉頭腔の形状」と対応している。
さらに、高周波数帯域に存在する零点(極小点)の数、周波数、バンド幅、およびその周辺の極との相対的エネルギー差は、後に詳しく説明するように、「声道下部の梨状窩の形状」と対応している。
声道形状は、個々の人間の声質、すなわち音声の個人性を決定づける主要因である。言い換えれば、音声の個人性の主たる生成要因は、声道形状の個人差であるといえる。
以下、図3における声道内の部位について、さらに詳しく説明する。
(声道長)
「声道長」とは声門から口唇までの長さを指す。声道長は年齢、性別、個人の体格との相関が高い。音響管の長さが長いほどその共鳴周波数が低くなるので、声道長と音声スペクトルの極の分布パターンには対応関係がある。従って、音声からその話者の声道長を求めることができる。
(咽頭腔と口腔の長さ、断面積、容積の関係)
咽頭腔と口腔の長さ、断面積、容積の関係は低次フォルマントを決定する。
図5は、声道の2区間モデルにおける咽頭腔と口腔の断面積変化、および低次フォルマントとの理論的関係を示す図である。
図5(a)は、声道を2つの区間からなる音響管で代表させた2区間モデルにおいて、口腔に比べて咽頭腔の断面積が大きい場合と、口腔に比べて咽頭腔の断面積が小さい場合とを示している。一方、図5(b)は、図5(a)に示した咽頭腔と口腔との間の断面積の関係が異なる2つの場合にそれぞれ対応する、フォルマント周波数の変化を示す図である。
まず、図5(a)の上側のように、咽頭腔の断面積が増大すると、図5(b)の上側に示すように、第1フォルマント(F1)の低下と第2フォルマント(F2)の上昇が起こる。
これに対して、図5(a)の下側のように、口腔の断面積が増大すると、第1フォルマント(F1)の上昇と第2フォルマント(F2)の低下が起こる。
この図5に示すような関係は、核磁気共鳴画像法(MRI:Magnetic Resonance Imaging)にもとづく実測値と録音音声との間にも観測され、第1フォルマント周波数は咽頭腔断面積と、第2フォルマント周波数は口腔断面積との相関が認められる。
図6は、咽頭腔平均面積と第1フォルマント周波数との相関関係をMRIによる実測値で示す図である。図6(a)は、複数の被験者について、MRIにより実測された咽頭腔の平均面積と母音「あ」の第1フォルマントの周波数の実測値との関係を示す。また、図6(b)は、複数の被験者について、MRIにより実測された咽頭腔の平均面積と母音「え」の第1フォルマントの周波数の実測値との関係を示す。
咽頭腔の平均面積の実測値と母音の第1フォルマントの周波数の実測値との間には負の相関がみられる。
また、図7は、口腔平均面積と第1フォルマント周波数との相関関係をMRIによる実測値で示す図である。図7(a)は、複数の被験者について、MRIにより実測された口腔の平均面積と母音「あ」の第1フォルマントの周波数の実測値との関係を示す。また、図7(b)は、複数の被験者について、MRIにより実測された口腔の平均面積と母音「え」の第1フォルマントの周波数の実測値との関係を示す。
口腔の平均面積の実測値と母音の第1フォルマントの周波数の実測値との間には正の相関がみられる。
以上の関係を用いて、低次フォルマントから咽頭腔と口腔の概形を推定することができる。
(喉頭腔の形状)
「喉頭腔」とは下咽頭腔の一部を構成する細い管である。
図8は、喉頭腔の形状を説明するための図面である。図8(a)は、MRI画像において喉頭腔を白線で囲んで示し、図8(b)は、MRI画像から得られた下咽頭腔の3次元形状をワイヤフレームで示しており、喉頭腔部分は、ワイヤフレームを太線で示すとともにグレースケールを濃くして示してある。なお、図8(b)に示すとおり、下咽頭腔には、喉頭腔と、原則としては喉頭腔の両側後部に、後に説明する梨状窩が含まれている。
図9は、3名分の下咽頭腔の3次元形状を示す図である。図9において、図9(a1)〜(a3)は、それぞれ3名の被験者についてMRI画像から得られた下咽頭腔の3次元形状をワイヤフレームで表わしたものを正面から見た図であり、図9(b1)〜(b3)は、これらのワイヤフレームをそれぞれ左側から見た図である。
この図に示されるように、喉頭腔の形状と大きさには個人差がある。
図10は、図9に示した3名について、各母音(/a/, /i/, /u/, /e/, /o/)を発声しているときの下咽頭腔の各部の横断面形状を声門からの距離をパラメータとして示す図である。図10(c1)〜(c3)の各々が、図9(a1)〜(a3)に示した各人に対応している。
図10に示すように、発声する母音が変わっても、各人において、その形状変化が極めて小さい。
図11は、母音「え」の音声スペクトルを示す図である。図11において、第4フォルマントには、矢印を付して示す。
喉頭腔は声道内で音響的に独立しており、ヘルムホルツ共鳴器として働く。そして、喉頭腔の形状や大きさは音声スペクトルの第4フォルマントの周波数、バンド幅、エネルギーを決定する。すなわち、喉頭腔の形態上の個人差は、第4フォルマントに現れる。
図12は、話者ア〜コの第4フォルマントの周波数を示す図である。
図12に示すように、第4フォルマント周波数は、個人間で異なっている。従って、喉頭腔は音声の個人性生成の一要因であるといえる。
第4フォルマントに対応するヘルムホルツ共鳴器の形状を求めることによって、話者の喉頭腔の形状を求めることが可能である。
なお、図12には、各話者について、梨状窩による零点の周波数も記載されているが、これについては後述する。
(梨状窩の形状)
図13は、下咽頭腔における梨状窩の位置を示す図である。図13は、MRI画像から得られた下咽頭腔の3次元形状を正面から見てワイヤフレームで示しており、梨状窩部分は、ワイヤフレームを太線で示すとともにグレースケールを濃くして示してある。
梨状窩は下咽頭腔に、原則として左右1つずつ存在する分岐管である。前面から見ると梨状窩は、図13のような形状をしているので、この形状は円錐で近似することができる。
図10に示したとおり、喉頭腔と同様に、梨状窩の形状、長さ、大きさには個人差があり、なおかつ発声する母音が変わってもその形状変化が極めて小さい。
梨状窩は声道内の分岐管であるため、音声スペクトル上で零点(極小点)を発生させる。梨状窩の形状、長さ、大きさは音声スペクトルの高周波数帯域に現れる零点の数、周波数、バンド幅、その零点の周辺の極との相対的エネルギー差を決定する。
図14は、母音「え」の音声スペクトル上の梨状窩による零点の位置を示す図である。
図14において、梨状窩による零点には、矢印を付加している。
また、図12には、上述のとおり話者ア〜コの10名の梨状窩による零点の周波数を示している。
図12より、梨状窩による零点の周波数には個人差があることがわかる。この周波数は梨状窩の形態の個人差に対応する。従って、梨状窩も音声の個人性生成の一要因であるといえる。
2つの梨状窩の形状、長さ、大きさが異なる場合には零点が2つ現れ、形状、長さ、大きさが等しいかもしくは近い場合には零点は1つのみ現れる。一般に、梨状窩は左右2つ存在するが、図9(a3)に示した被験者のように梨状窩が片方にのみ存在する人もいる。この場合にも零点は1つのみ現れる。
以上のことから、梨状窩による零点に関する情報を用いれば、話者の梨状窩の形状、長さ、大きさを求めることができる。
なお、音声スペクトル上で梨状窩の影響が表われる周波数帯域は、固定電話の周波数帯域(4 kHz以下)よりも高い。そのため、本手法を電話に利用する場合には、より広い周波数帯域を持つ携帯電話やIP電話を対象にする必要がある。
[声道モデルの形状パラメータの最適化による話者の登録と認証]
本発明では、上記の個人性生成要因を組み合わせて個人の登録と認証を行なう。
音声から声道断面積関数を逆推定することは難しい課題の一つであるが、その理由として、従来の音声生成モデルでは前述した梨状窩と喉頭腔の共鳴現象を考慮していないために、高域スペクトルの複雑性を逆推定に取り込むことができないことがあげられる。
図15は、本発明の音声生成モデルの概念図説明するための図である。
すなわち、本発明では、音声の生成を、音源からの音が、主声道の共鳴と下咽頭腔の共鳴との影響を受けた結果が、音声として発声されているものとしてモデル化している。
図15に示すようなモデルを用いることで、高域スペクトルの複雑性を逆推定に取り込むことを可能とする。
すなわち、従来の音声生成モデルでは音声を音源と声道の線形結合で表わすのに対し、本発明における音声生成モデルでは音源と主声道共鳴のほかに下咽頭腔共鳴を加えている。このモデルに基づいて、音声スペクトルに含まれている下咽頭共鳴の成分を取り除くことにより、主声道の断面積関数を正確に推定することができる。
具体的には、個人性パラメータの決定には下記のいずれかの方法を用いることができる。
(第1の個人性パラメータの決定方法)
まず、第1の個人性パラメータの決定方法としては、入力された音声のスペクトルから、咽頭腔・口腔の形状パラメータ、喉頭腔・梨状窩の形状パラメータを求め、これらをそのまま個人性パラメータとして採用するという方法を用いることができる。
(第2の個人性パラメータの決定方法)
あるいは、上記のパラメータを声道モデルに適用して、入力された音声のスペクトルと声道モデルにより計算した伝達関数が一致するよう最適化し、そのときの声道モデルのパラメータを個人性パラメータとして採用する方法を用いることも可能である。
以下、これら2つの個人性パラメータの決定方法について、さらに詳しく説明する。
[第1の個人性パラメータの決定方法の詳細]
まず、主声道共鳴と下咽頭腔共鳴とは線形関係になく相互作用があるため、音声から個人性要因を抽出するには声道モデルより得られる伝達関数と入力された音声のスペクトルとの間で誤差最小化をはかることにより、個人性パラメータを求めなければならない。この最適化には一般的な誤差最小化の手法を用いることができる。
以下、声道モデルの形状パラメータを最適化する手法を説明する。
図16は、図15で説明した声道の各部分から構成される声道モデルの外形を示す図である。この声道モデルは、基本的に口腔と喉頭腔をそれぞれ2つの音響管で近似し、これら2つの音響管が連結されているものとしている。さらに、喉頭腔の音響管の底部には、2つの円錐で表わされる梨状窩と、2つの小音響管の連結により近似される喉頭腔とが連結されているものとする。音源からの音は、喉頭腔底部からこの声道モデルに入力されるものとする。
図17は、図16に示した3次元声道モデルの形状を特定するための各パラメータを示す図である。
図17に示すとおり、まず、口腔に対応する音響管は長さLorで、断面の半径Rorの円筒形状であり、上面側(口腔側)は開口している。一方、咽頭腔に対応する音響管は長さLphで、断面の半径Rphの円筒形状であり、その上面は口腔に対応する音響管の下側の開口部と連結している。一方、咽頭腔に対応する音響管の下面には、その中央部に、喉頭腔に対応する連結小音響管が連結するとともに、この連結音響管の両側に梨状窩に対応する2つの円錐管が連結する。喉頭腔に対応する連結小音響管は、咽頭腔に対応する音響管の下面と連結する断面半径Rla1、長さLla1の円筒形の第1の小音響管と、この第1の小音響管の下面と連結する断面半径Rla2、長さLla2の円筒形の第2の小音響管とを備え、第2の小音響管の下側は、開口している。この第2の小音響管の下側から音源の音が声道モデルに入力される。
(音声認証システムの機能構成)
図18は、コンピュータ100上で動作するソフトウェアにより実現される音声認証システム1000の機能構成を説明するための機能ブロック図である。
なお、このような図18に示す音声認証システムの基本的な構成は、上述した非特許文献1に記載されたものと同様であるが、以下の説明のとおり、本発明では、話者モデルが図16および図17で示される声道モデルのパラメータの組み合わせにより表現される構成となっている。
以下、簡単に音声認証システム1000の機能構成について、簡単に説明する。
図18を参照して、入力される音声波は、まず、音声分析部200において、20ミリ秒程度の細かい時間ごとにスペクトル変換される。このようなスペクトルの表現方法としては、特に限定されないが、たとえば、ケプストラム(cepstrum)パラメータを用いることができる。以下では、ケプトストラムパラメータのように音声スペクトルを表現するためのパラメータを「音声パラメータ」と呼ぶ。
話者モデルの登録処理(学習処理)では、切替部204は、特徴抽出部202から話者モデル作成部206に処理をつなぐように切り替えられている。
そこで、特徴抽出部202は、音声パラメータの時系列に基づいて、話者の特徴を表現するパラメータ、すなわち、上述した声道モデルの形状を規定する各パラメータ(以下、「声道モデル形状パラメータ」と呼ぶ)の値を抽出する。
話者モデル作成部206は、ハードディスク124のような記憶装置に、各話者と対応する声道モデル形状パラメータとを対応付けて登録する。
続いて、しきい値設定部210は、予め各話者の音声の変動の幅を同一話者についての複数の入力音声から調べ、本人の音声と判定するための許容限界のしきい値を決定する。
一方、認証処理においては、切替部204は、特徴抽出部202から類似度計算部220に処理をつなぐように切り替えられている。
したがって、認証処理においても、学習処理時と同様にして、音声分析部200と特徴抽出部202との処理により、入力音声に対応した声道モデル形状パラメータを抽出する。
類似度計算部220は、特徴抽出部202により抽出された声道モデル形状パラメータと、登録されている各話者モデルとの比較を行ない、類似の度合い、たとえば、両者の距離を計算し、しきい値比較部222は、類似の度合いが予め設定されているしきい値よりも大きければ、本人の音声と判定して受理する旨の認証結果を出力し、そうでない場合は、他人の音声として判定して、拒否するあるいは棄却する認証結果を出力する。
すなわち、本発明では、上述のとおり、話者の音声からこの声道モデルの形状パラメータを決定し、これを用いて認証を行なう。ある話者の音声に対する声道モデルの形状パラメータの決定は以下のような方法で行なう。
(ある話者の音声に対する声道モデルの形状パラメータの決定)
図19は、第1の個人性パラメータの決定方法により、話者の音声に対する声道モデルの形状パラメータを決定して登録するための話者モデルの登録処理の手続きを説明するためのフローチャートである。
図19を参照して、話者モデルの登録処理が開始されると、まず、声道長の決定が行なわれる(ステップS100)。すなわち、音声分析部200が、音声をスペクトル分析する。そして、特徴抽出部202は、一定の周波数帯域に現れる極の数に基づいて、声道長を決定する。その際、MRI計測により予め得られている標準的な声道長を参考にする。
続いて、特徴抽出部202は、声道長および基本周波数からしきい値処理によって男女を判定する(ステップS102)。このようなしきい値は、予め実験的に定めておくものとする。
次に、特徴抽出部202は、喉頭管の形状パラメータを決定する(ステップS104)。すなわち、図17のパラメータLla1、Lla2、Rla2はMRI計測による標準的な値を参考に決定するものとする。喉頭管はヘルムホルツ共鳴器とみなせるので、これら3つのパラメータと第4フォルマント周波数からRla1を決定することができる。
次に、特徴抽出部202は、梨状窩の形状パラメータを決定する(ステップS106)。
このとき、上述のとおり、梨状窩は円錐形で近似されている。梨状窩の形状パラメータの決定のために、たとえば、あらかじめ円錐形の底面の半径と高さとその円錐形により作られる零点の周波数とバンド幅の関係をテーブルにしておく。次に、音声スペクトル上で4kHz以上の周波数帯域に現れる零点の数を特定し、零点が1つであれば1つの円錐形を、零点が2つあれば2つの円錐形を用いる。そして、音声スペクトル上の零点の周波数とバンド幅からテーブル逆引きにより円錐形の底面の半径(図17のパラメータRpr1、 Rpr2)と高さ(図17のLpr1、Lpr2)を決定する。
続いて、特徴抽出部202は、口腔および咽頭腔の形状パラメータを決定する(ステップS108)。
ここでは、声道長を2等分し咽頭腔と口腔からなる2区間声道モデルをつくり、低次フォルマントの分析より咽頭腔と口腔の断面積を求める。
さらに、特徴抽出部202は、2区間声道モデルへ下咽頭腔を追加して声道モデルを完成させる(ステップS110)。すなわち、ステップS108で得られた声道モデルに下咽頭腔を加える。
次に、話者モデル作成部206は、ステップS110により得られた声道モデルの形状パラメータを当該話者に関する個人性パラメータとして、記憶装置に登録する(ステップS112)。
以上で、第1の個人性パラメータの決定方法に基づく、話者モデルの登録処理が完了する。
[第2の個人性パラメータの決定方法の詳細]
次に、上述した第2の個人性パラメータの決定方法、および第2の個人性パラメータの決定方法に基づく、話者モデルの登録処理について説明する。
(第2の個人性パラメータの決定方法の第1の例)
図19のステップS108で得られた声道モデルにおいて、咽頭腔と口腔をそれぞれさらに2等分した4区間声道モデルを作る。初期値としては、2等分した各部分は、2等分前と同じ断面積を有するものとする。その上で、この4区間声道モデルの伝達関数と入力スペクトルとの差を最小化するように4区間の形状パラメータおよび下咽頭腔の形状パラメータを最適化する。必要に応じてさらに分割数を増やし8区間声道モデルを用いることもできる。上記最適化により、分割された各部分の断面積を個別に決定する。これにより得られた声道モデルの形状パラメータを当該話者に関する個人性パラメータとする。このような形状パラメータの決定方法は、登録時(学習時)においても、認証時においても実施される。
なお、咽頭腔に相当する音響管と口腔に対応する音響管を分割する数については、上述した2分割や4分割に限られず、分割した結果に対応して得られる伝達関数と入力スペクトルの差を、計算により最小化することが可能な自由度であるかぎり、咽頭腔に相当する音響管と口腔に対応する音響管とのそれぞれで他の分割数とすることも可能である。
(第2の個人性パラメータの決定方法の第2の例)
図20は、第2の個人性パラメータの決定方法の第2の例の手続きを示すフローチャートである。
まず、特徴抽出部202は、音声から声道断面積関数を求める(ステップS200)。これは例えば、いわゆるPARCOR分析を用いることで可能である。
次に、特徴抽出部202は、図19のステップS104と同じ方法で音声スペクトルから喉頭腔の形状パラメータを求める(ステップS202)。
続いて、特徴抽出部202は、低次フォルマントと口腔平均面積、低次フォルマントと咽頭腔平均面積との相関関係から、ステップS200で求めた声道断面積関数の口腔および咽頭腔に相当する部分を修正する(ステップS204)。
ステップS200で求めた声道断面積関数には分岐管が含まれない。そこで、特徴抽出部202は、図19のステップS106と同じ方法で音声スペクトルから円錐形で近似した梨状窩の形状パラメータを求める(ステップS206)。
そして、特徴抽出部202は、以上により求めた喉頭腔、口腔、咽頭腔、梨状窩の形状パラメータを初期値として、図17に示したような声道モデルを作成する(ステップS208)。なお、PARCOR分析の分析次数に応じて、口腔および咽頭腔の分割数、すなわち精度は変化する。
続いて、特徴抽出部202は、この声道モデルの伝達関数を計算し、それと音声スペクトルとの誤差が最小となるまで声道モデルの形状パラメータを修正する(ステップS210)。
ステップS210により得られた声道モデルの形状パラメータを当該話者に関する個人性パラメータとし、記憶装置に登録する(ステップS212)。
このような形状パラメータの決定方法も、登録時(学習時)におけるだけでなく、認証時においても実施される。
以上のようにして、図18に示したような音声認証システムに話者を登録する際には、第1または第2の個人性パラメータの決定方法を用いて、音声から登録話者の個人性パラメータを決定して登録する。話者を照合する場合には、入力音声からその話者の個人性パラメータを決定し、登録話者の個人性パラメータと照合して入力音声の話者と決定する。
このような構成により、音声認証において、個人の身体的特性との関連性を高めて本人認証を行なうことができ、音声認証の精度を向上させることが可能である。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明の音声認証方法を実施するための音声認証装置1000の一例を示す概念図である。 コンピュータ100のハードウェア構成をブロック図形式で示す図である。 音声スペクトル上の特徴と声道内の部位の対応関係を示す図である。 音声生成系の正中断面図を示す概念図である。 声道の2区間モデルにおける咽頭腔と口腔の断面積変化、および低次フォルマントとの理論的関係を示す図である。 咽頭腔平均面積と第1フォルマント周波数との相関関係をMRIによる実測値で示す図である。 口腔平均面積と第1フォルマント周波数との相関関係をMRIによる実測値で示す図である。 喉頭腔の形状を説明するための図面である。 3名分の下咽頭腔の3次元形状を示す図である。 図9に示した3名について、各母音を発声しているときの下咽頭腔の各部の横断面形状を声門からの距離をパラメータとして示す図である。 母音「え」の音声スペクトルを示す図である。 話者ア〜コの第4フォルマントの周波数を示す図である。 下咽頭腔における梨状窩の位置を示す図である。 母音「え」の音声スペクトル上の梨状窩による零点の位置を示す図である。 本発明の音声生成モデルの概念図説明するための図である。 図15で説明した声道の各部分から構成される声道モデルの外形を示す図である。 図16に示した3次元声道モデルの形状を特定するための各パラメータを示す図である。 コンピュータ100上で動作するソフトウェアにより実現される音声認証システム1000の機能構成を説明するための機能ブロック図である。 話者の音声に対する声道モデルの形状パラメータを決定して登録するための話者モデルの登録処理の手続きを説明するためのフローチャートである。 第2の個人性パラメータの決定方法の第2の例の手続きを示すフローチャートである。
符号の説明
100 コンピュータ、102 コンピュータ本体、104 ディスプレイ、106 FDドライブ、108 CD−ROMドライブ、110 キーボード、112 マウス、116 フレキシブルディスク、118 CD−ROM、120 CPU、122 メモリ、124 ハードディスク、128 通信インタフェース、132 マイク、 134 スピーカ、300 相手先コンピュータ、310 ネットワーク、1000 音声認証システム。

Claims (9)

  1. 認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するための特徴抽出手段を備え、
    前記声道モデルは、
    口腔に対応する第1の音響管部分と、
    前記第1の音響管部分に連結し、咽頭腔に対応する第2の音響管部分と、
    前記第2の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、
    前記第2の音響管部分の底面に連結し、梨状窩に対応する少なくとも1つの円錐管とを含み、
    学習時において、前記特徴抽出手段により決定された前記形状パラメータを登録形状パラメータとして前記認証対象者と関連付けて記憶するための記憶手段をさらに備え、
    前記特徴抽出手段は、認証時において、話者からの音声入力に基づいて、前記声道モデルの形状パラメータを認証形状パラメータとして決定し、
    前記話者が登録された前記認証対象者であるか否かを特定するために、前記認証形状パラメータと前記登録形状パラメータとの比較を行なう類似度比較手段をさらに備える、音声認証装置。
  2. 前記特徴抽出手段は、
    前記音声入力に基づいて、前記形状パラメータの初期値を決定する初期値決定手段と、
    前記初期値に基づく声道モデルの伝達関数と前記音声入力の入力スペクトルとの差を最小化するように前記形状パラメータを修正する修正手段とを含む、請求項1記載の音声認証装置。
  3. 前記第1の音響管部分は、互いに連結した複数の第1の音響管を含み、
    前記第2の音響管部分は、互いに連結した複数の第2の音響管を含む、請求項2記載の音声認証装置。
  4. 学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、
    前記声道モデルは、
    口腔に対応する第1の音響管部分と、
    前記第1の音響管部分に連結し、咽頭腔に対応する第2の音響管部分と、
    前記第2の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、
    前記第2の音響管部分の底面に連結し、梨状窩に対応する少なくとも1つの円錐管とを含み、
    学習時において決定された前記形状パラメータを登録形状パラメータとして前記認証対象者と関連付けて記憶装置に記憶するステップと、
    認証時において、話者からの音声入力に基づいて、前記声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、
    前記認証形状パラメータと前記登録形状パラメータとの比較結果に基づいて、前記話者が登録された前記認証対象者であるか否かを特定するステップとをさらに備える、音声認証方法。
  5. 前記声道モデルの形状パラメータを決定するステップは、
    前記音声入力に基づいて、前記形状パラメータの初期値を決定するステップと、
    前記初期値に基づく声道モデルの伝達関数と前記音声入力の入力スペクトルとの差を最小化するように前記形状パラメータを修正するステップとを含む、請求項4記載の音声認証方法。
  6. 前記第1の音響管部分は、互いに連結した複数の第1の音響管を含み、
    前記第2の音響管部分は、互いに連結した複数の第2の音響管を含む、請求項5記載の音声認証方法。
  7. コンピュータに音声認証処理を実行させるための音声認証プログラムであって、
    前記音声認証処理は、
    学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、
    前記声道モデルは、
    口腔に対応する第1の音響管部分と、
    前記第1の音響管部分に連結し、咽頭腔に対応する第2の音響管部分と、
    前記第2の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、
    前記第2の音響管部分の底面に連結し、梨状窩に対応する少なくとも1つの円錐管とを含み、
    学習時において決定された前記形状パラメータを登録形状パラメータとして前記認証対象者と関連付けて記憶装置に記憶するステップと、
    認証時において、話者からの音声入力に基づいて、前記声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、
    前記認証形状パラメータと前記登録形状パラメータとの比較結果に基づいて、前記話者が登録された前記認証対象者であるか否かを特定するステップとをさらに備える、音声認証プログラム。
  8. 前記声道モデルの形状パラメータを決定するステップは、
    前記音声入力に基づいて、前記形状パラメータの初期値を決定するステップと、
    前記初期値に基づく声道モデルの伝達関数と前記音声入力の入力スペクトルとの差を最小化するように前記形状パラメータを修正するステップとを含む、請求項7記載の音声認証プログラム。
  9. 前記第1の音響管部分は、互いに連結した複数の第1の音響管を含み、
    前記第2の音響管部分は、互いに連結した複数の第2の音響管を含む、請求項8記載の音声認証プログラム。
JP2003389665A 2003-11-19 2003-11-19 音声認証装置、音声認証方法および音声認証プログラム Expired - Fee Related JP4049732B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003389665A JP4049732B2 (ja) 2003-11-19 2003-11-19 音声認証装置、音声認証方法および音声認証プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003389665A JP4049732B2 (ja) 2003-11-19 2003-11-19 音声認証装置、音声認証方法および音声認証プログラム

Publications (2)

Publication Number Publication Date
JP2005148640A JP2005148640A (ja) 2005-06-09
JP4049732B2 true JP4049732B2 (ja) 2008-02-20

Family

ID=34696343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003389665A Expired - Fee Related JP4049732B2 (ja) 2003-11-19 2003-11-19 音声認証装置、音声認証方法および音声認証プログラム

Country Status (1)

Country Link
JP (1) JP4049732B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4556028B2 (ja) * 2005-11-04 2010-10-06 株式会社国際電気通信基礎技術研究所 発話主体同定装置及びコンピュータプログラム
CN106448673B (zh) * 2016-09-18 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种汉语电子喉语音转换方法
CN115914505B (zh) * 2023-01-06 2023-07-14 粤港澳大湾区数字经济研究院(福田) 基于语音驱动数字人模型的视频生成方法及系统

Also Published As

Publication number Publication date
JP2005148640A (ja) 2005-06-09

Similar Documents

Publication Publication Date Title
Yan et al. The catcher in the field: A fieldprint based spoofing detection for text-independent speaker verification
Czyzewski et al. An audio-visual corpus for multimodal automatic speech recognition
KR101963993B1 (ko) 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법
US8589167B2 (en) Speaker liveness detection
US8571867B2 (en) Method and system for bio-metric voice print authentication
JP4213716B2 (ja) 音声認証システム
KR102210775B1 (ko) 인적 상호 증명으로서 말하는 능력을 이용하는 기법
Chetty Biometric liveness checking using multimodal fuzzy fusion
Saquib et al. A survey on automatic speaker recognition systems
Zheng et al. Robustness-related issues in speaker recognition
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
JP2007279742A (ja) 話者認証確認方法及び装置
JP2006235623A (ja) 短い発話登録を使用する話者認証のためのシステムおよび方法
Saquib et al. Voiceprint recognition systems for remote authentication-a survey
Zhang et al. Volere: Leakage resilient user authentication based on personal voice challenges
Yu et al. Antifake: Using adversarial audio to prevent unauthorized speech synthesis
JP4049732B2 (ja) 音声認証装置、音声認証方法および音声認証プログラム
Singh et al. Voice disguise by mimicry: deriving statistical articulometric evidence to evaluate claimed impersonation
JP4440414B2 (ja) 話者照合装置及び方法
Nagakrishnan et al. Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models
KR100917419B1 (ko) 화자 인식 시스템
JP2007127891A (ja) 発話主体同定装置及びコンピュータプログラム
Chetty Biometric liveness detection based on cross modal fusion
Shi et al. Anti-replay: A fast and lightweight voice replay attack detection system
JPWO2006027844A1 (ja) 話者照合装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071127

R150 Certificate of patent or registration of utility model

Ref document number: 4049732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees