JP4049732B2 - 音声認証装置、音声認証方法および音声認証プログラム - Google Patents
音声認証装置、音声認証方法および音声認証プログラム Download PDFInfo
- Publication number
- JP4049732B2 JP4049732B2 JP2003389665A JP2003389665A JP4049732B2 JP 4049732 B2 JP4049732 B2 JP 4049732B2 JP 2003389665 A JP2003389665 A JP 2003389665A JP 2003389665 A JP2003389665 A JP 2003389665A JP 4049732 B2 JP4049732 B2 JP 4049732B2
- Authority
- JP
- Japan
- Prior art keywords
- shape parameter
- authentication
- voice
- acoustic tube
- vocal tract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
古井著、"音声による本人認証 第1部 音声による本人認証のしくみと技術動向",情報処理, 40巻11号, 1999年, 11月 竹本,本多,正木,島田,藤本著,"3次元MRI動画データに基づく声道下部構造のモデル化",日本音響学会講演論文集 pp. 281-282, 2003年9月
[ハードウェア構成]
図1は、本発明の音声認証方法および音声認証プログラムが適用される音声認証装置を用いた音声認証システム1000の一例を示す概念図である。
図3は、音声スペクトル上の特徴と声道内の部位の対応関係を示す図である。
「声道長」とは声門から口唇までの長さを指す。声道長は年齢、性別、個人の体格との相関が高い。音響管の長さが長いほどその共鳴周波数が低くなるので、声道長と音声スペクトルの極の分布パターンには対応関係がある。従って、音声からその話者の声道長を求めることができる。
咽頭腔と口腔の長さ、断面積、容積の関係は低次フォルマントを決定する。
「喉頭腔」とは下咽頭腔の一部を構成する細い管である。
図13は、下咽頭腔における梨状窩の位置を示す図である。図13は、MRI画像から得られた下咽頭腔の3次元形状を正面から見てワイヤフレームで示しており、梨状窩部分は、ワイヤフレームを太線で示すとともにグレースケールを濃くして示してある。
本発明では、上記の個人性生成要因を組み合わせて個人の登録と認証を行なう。
まず、第1の個人性パラメータの決定方法としては、入力された音声のスペクトルから、咽頭腔・口腔の形状パラメータ、喉頭腔・梨状窩の形状パラメータを求め、これらをそのまま個人性パラメータとして採用するという方法を用いることができる。
あるいは、上記のパラメータを声道モデルに適用して、入力された音声のスペクトルと声道モデルにより計算した伝達関数が一致するよう最適化し、そのときの声道モデルのパラメータを個人性パラメータとして採用する方法を用いることも可能である。
まず、主声道共鳴と下咽頭腔共鳴とは線形関係になく相互作用があるため、音声から個人性要因を抽出するには声道モデルより得られる伝達関数と入力された音声のスペクトルとの間で誤差最小化をはかることにより、個人性パラメータを求めなければならない。この最適化には一般的な誤差最小化の手法を用いることができる。
図18は、コンピュータ100上で動作するソフトウェアにより実現される音声認証システム1000の機能構成を説明するための機能ブロック図である。
図19は、第1の個人性パラメータの決定方法により、話者の音声に対する声道モデルの形状パラメータを決定して登録するための話者モデルの登録処理の手続きを説明するためのフローチャートである。
次に、上述した第2の個人性パラメータの決定方法、および第2の個人性パラメータの決定方法に基づく、話者モデルの登録処理について説明する。
図19のステップS108で得られた声道モデルにおいて、咽頭腔と口腔をそれぞれさらに2等分した4区間声道モデルを作る。初期値としては、2等分した各部分は、2等分前と同じ断面積を有するものとする。その上で、この4区間声道モデルの伝達関数と入力スペクトルとの差を最小化するように4区間の形状パラメータおよび下咽頭腔の形状パラメータを最適化する。必要に応じてさらに分割数を増やし8区間声道モデルを用いることもできる。上記最適化により、分割された各部分の断面積を個別に決定する。これにより得られた声道モデルの形状パラメータを当該話者に関する個人性パラメータとする。このような形状パラメータの決定方法は、登録時(学習時)においても、認証時においても実施される。
図20は、第2の個人性パラメータの決定方法の第2の例の手続きを示すフローチャートである。
Claims (9)
- 認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するための特徴抽出手段を備え、
前記声道モデルは、
口腔に対応する第1の音響管部分と、
前記第1の音響管部分に連結し、咽頭腔に対応する第2の音響管部分と、
前記第2の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、
前記第2の音響管部分の底面に連結し、梨状窩に対応する少なくとも1つの円錐管とを含み、
学習時において、前記特徴抽出手段により決定された前記形状パラメータを登録形状パラメータとして前記認証対象者と関連付けて記憶するための記憶手段をさらに備え、
前記特徴抽出手段は、認証時において、話者からの音声入力に基づいて、前記声道モデルの形状パラメータを認証形状パラメータとして決定し、
前記話者が登録された前記認証対象者であるか否かを特定するために、前記認証形状パラメータと前記登録形状パラメータとの比較を行なう類似度比較手段をさらに備える、音声認証装置。 - 前記特徴抽出手段は、
前記音声入力に基づいて、前記形状パラメータの初期値を決定する初期値決定手段と、
前記初期値に基づく声道モデルの伝達関数と前記音声入力の入力スペクトルとの差を最小化するように前記形状パラメータを修正する修正手段とを含む、請求項1記載の音声認証装置。 - 前記第1の音響管部分は、互いに連結した複数の第1の音響管を含み、
前記第2の音響管部分は、互いに連結した複数の第2の音響管を含む、請求項2記載の音声認証装置。 - 学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、
前記声道モデルは、
口腔に対応する第1の音響管部分と、
前記第1の音響管部分に連結し、咽頭腔に対応する第2の音響管部分と、
前記第2の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、
前記第2の音響管部分の底面に連結し、梨状窩に対応する少なくとも1つの円錐管とを含み、
学習時において決定された前記形状パラメータを登録形状パラメータとして前記認証対象者と関連付けて記憶装置に記憶するステップと、
認証時において、話者からの音声入力に基づいて、前記声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、
前記認証形状パラメータと前記登録形状パラメータとの比較結果に基づいて、前記話者が登録された前記認証対象者であるか否かを特定するステップとをさらに備える、音声認証方法。 - 前記声道モデルの形状パラメータを決定するステップは、
前記音声入力に基づいて、前記形状パラメータの初期値を決定するステップと、
前記初期値に基づく声道モデルの伝達関数と前記音声入力の入力スペクトルとの差を最小化するように前記形状パラメータを修正するステップとを含む、請求項4記載の音声認証方法。 - 前記第1の音響管部分は、互いに連結した複数の第1の音響管を含み、
前記第2の音響管部分は、互いに連結した複数の第2の音響管を含む、請求項5記載の音声認証方法。 - コンピュータに音声認証処理を実行させるための音声認証プログラムであって、
前記音声認証処理は、
学習時において、認証対象者からの音声入力に基づいて、声道モデルの形状パラメータを決定するステップを備え、
前記声道モデルは、
口腔に対応する第1の音響管部分と、
前記第1の音響管部分に連結し、咽頭腔に対応する第2の音響管部分と、
前記第2の音響管部分の底面に連結し、喉頭腔に対応する連結小音響管と、
前記第2の音響管部分の底面に連結し、梨状窩に対応する少なくとも1つの円錐管とを含み、
学習時において決定された前記形状パラメータを登録形状パラメータとして前記認証対象者と関連付けて記憶装置に記憶するステップと、
認証時において、話者からの音声入力に基づいて、前記声道モデルの形状パラメータを認証形状パラメータとして決定するステップと、
前記認証形状パラメータと前記登録形状パラメータとの比較結果に基づいて、前記話者が登録された前記認証対象者であるか否かを特定するステップとをさらに備える、音声認証プログラム。 - 前記声道モデルの形状パラメータを決定するステップは、
前記音声入力に基づいて、前記形状パラメータの初期値を決定するステップと、
前記初期値に基づく声道モデルの伝達関数と前記音声入力の入力スペクトルとの差を最小化するように前記形状パラメータを修正するステップとを含む、請求項7記載の音声認証プログラム。 - 前記第1の音響管部分は、互いに連結した複数の第1の音響管を含み、
前記第2の音響管部分は、互いに連結した複数の第2の音響管を含む、請求項8記載の音声認証プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003389665A JP4049732B2 (ja) | 2003-11-19 | 2003-11-19 | 音声認証装置、音声認証方法および音声認証プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003389665A JP4049732B2 (ja) | 2003-11-19 | 2003-11-19 | 音声認証装置、音声認証方法および音声認証プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005148640A JP2005148640A (ja) | 2005-06-09 |
JP4049732B2 true JP4049732B2 (ja) | 2008-02-20 |
Family
ID=34696343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003389665A Expired - Fee Related JP4049732B2 (ja) | 2003-11-19 | 2003-11-19 | 音声認証装置、音声認証方法および音声認証プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4049732B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4556028B2 (ja) * | 2005-11-04 | 2010-10-06 | 株式会社国際電気通信基礎技術研究所 | 発話主体同定装置及びコンピュータプログラム |
CN106448673B (zh) * | 2016-09-18 | 2019-12-10 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种汉语电子喉语音转换方法 |
CN115914505B (zh) * | 2023-01-06 | 2023-07-14 | 粤港澳大湾区数字经济研究院(福田) | 基于语音驱动数字人模型的视频生成方法及系统 |
-
2003
- 2003-11-19 JP JP2003389665A patent/JP4049732B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005148640A (ja) | 2005-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yan et al. | The catcher in the field: A fieldprint based spoofing detection for text-independent speaker verification | |
Czyzewski et al. | An audio-visual corpus for multimodal automatic speech recognition | |
KR101963993B1 (ko) | 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법 | |
US8589167B2 (en) | Speaker liveness detection | |
US8571867B2 (en) | Method and system for bio-metric voice print authentication | |
JP4213716B2 (ja) | 音声認証システム | |
KR102210775B1 (ko) | 인적 상호 증명으로서 말하는 능력을 이용하는 기법 | |
Chetty | Biometric liveness checking using multimodal fuzzy fusion | |
Saquib et al. | A survey on automatic speaker recognition systems | |
Zheng et al. | Robustness-related issues in speaker recognition | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
JP2007279742A (ja) | 話者認証確認方法及び装置 | |
JP2006235623A (ja) | 短い発話登録を使用する話者認証のためのシステムおよび方法 | |
Saquib et al. | Voiceprint recognition systems for remote authentication-a survey | |
Zhang et al. | Volere: Leakage resilient user authentication based on personal voice challenges | |
Yu et al. | Antifake: Using adversarial audio to prevent unauthorized speech synthesis | |
JP4049732B2 (ja) | 音声認証装置、音声認証方法および音声認証プログラム | |
Singh et al. | Voice disguise by mimicry: deriving statistical articulometric evidence to evaluate claimed impersonation | |
JP4440414B2 (ja) | 話者照合装置及び方法 | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models | |
KR100917419B1 (ko) | 화자 인식 시스템 | |
JP2007127891A (ja) | 発話主体同定装置及びコンピュータプログラム | |
Chetty | Biometric liveness detection based on cross modal fusion | |
Shi et al. | Anti-replay: A fast and lightweight voice replay attack detection system | |
JPWO2006027844A1 (ja) | 話者照合装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050516 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4049732 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101207 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111207 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131207 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |