JP2007127891A - 発話主体同定装置及びコンピュータプログラム - Google Patents
発話主体同定装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2007127891A JP2007127891A JP2005321351A JP2005321351A JP2007127891A JP 2007127891 A JP2007127891 A JP 2007127891A JP 2005321351 A JP2005321351 A JP 2005321351A JP 2005321351 A JP2005321351 A JP 2005321351A JP 2007127891 A JP2007127891 A JP 2007127891A
- Authority
- JP
- Japan
- Prior art keywords
- principal component
- utterance
- coefficient
- cepstrum
- vocal tract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 title claims description 6
- 230000001755 vocal effect Effects 0.000 claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000004364 calculation method Methods 0.000 claims abstract description 47
- 238000000611 regression analysis Methods 0.000 claims abstract description 22
- 238000000513 principal component analysis Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 50
- 230000008569 process Effects 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 4
- 210000000056 organ Anatomy 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 36
- 238000002595 magnetic resonance imaging Methods 0.000 description 32
- 238000013500 data storage Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 3
- 238000002591 computed tomography Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 208000016339 iris pattern Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
【解決手段】 装置は、ある音素を発話中の発話者の声道形状を表すMRIデータ30及び音声データ32と、発話中の話者の音声データとに基づいて話者を同定する装置であり、複数の発話者について声道形状の主成分分析を行なうPCA分析部60と、発話者の各々につき音声データからケプストラム係数を算出するケプストラム算出部64と、複数の発話者の各々の声道形状を主成分ベクトルの線形和で近似するための主成分係数を算出する主成分係数算出部67と、複数の発話者の各々に対しケプストラム係数の線形和で主成分係数を推定するための回帰係数36を決定する重回帰分析処理部68と、同定時に、発話者の音声データより得たケプストラム係数と回帰係数36から主成分係数を推定し、複数の発話者から得ておいた係数と比較して同定を行なう同定処理装置とを含む。
【選択図】 図2
Description
<構成>
図1に、本発明の第1の実施の形態に係る音声による発話者同定システム20のブロック図を示す。図1を参照して、発話者同定システム20は、複数の登録対象者の各々について、所定の音素の発話時の声道形状を撮影したMRIデータを記憶するためのMRIデータ記憶部30と、MRIデータの撮影時と近接したとき(可能なら同時)に、撮影時の発話から得られた音声データを記憶するための音声データ記憶部32と、MRIデータ記憶部30に記憶された複数の登録対象者のMRIデータと、音声データ記憶部32に記憶された各登録対象者の音声データとに基づいて、これら複数の登録対象者を識別するための参照データと、同定処理時の同定処理対象者の音声の音響特徴量から当該同定処理対象者の声道形状関数を推定する際に使用する回帰係数とを求め、それぞれ出力するための同定用データ作成装置34とを含む。
上記した実施の形態に係る発話者同定システム20は、既に述べたようにコンピュータ及び当該コンピュータ上で実行されるプログラムにより実現できる。ただしMRIデータと、MRIデータ取得時の登録対象者の発話の音声データとは与えられるものとする。また、同定処理には音声データの取得を行なうことが必要であるが、市販されているコンピュータでは音声関係の処理をするための機能が実装されていることが大半であるから、市販のコンピュータを用いることができる。
図8に、本実施の形態に係る同定処理装置42を実現するためのコンピュータシステム210の外観図を、図9にコンピュータシステム210のブロック図を、それぞれ示す。なおここに示すコンピュータシステム210はあくまで一例であり、この他にも種々の構成が可能である。
上記した発話者同定システム20は以下のように動作する。発話者同定システム20の動作には二つのフェーズがある。第1のフェーズではMRIデータと音声データから回帰係数を算出し、同時に参照データベース38を作成する。第2のフェーズでは、第1のフェーズで作成された回帰係数と参照データベース38とを用い、同定処理対象者40の同定を行なう。
32 音声データ記憶部
34 同定用データ作成装置
36 回帰係数記憶部
38 参照データベース
40 同定処理対象者
42 同定処理装置
44 同定結果
60 PCA分析部
62 主成分記憶部
64 ケプストラム算出部
66 ケプストラム係数記憶部
68 重回帰分析処理部
80 音声データ
82 ケプストラム算出部
84 主成分係数推定部
86 距離算出部
88 最短距離判定部
Claims (8)
- 所定の音素を発話中の発話主体の声道形状を表す所定の声道形状パラメータと、前記所定の音素を発話中の前記発話主体の音声データと、当該所定の音素を発話中の同定対象者の音声データとに基づいて、同定処理対象者を同定するための発話主体同定装置であって、
複数の発話主体について、前記声道形状パラメータに対する主成分分析を行ない、前記声道形状パラメータの平均値及び前記声道形状パラメータの発話主体による変動を説明する主成分ベクトルのうちの上位の所定個数を算出するための主成分分析手段と、
前記複数の発話主体の各々について、前記所定の音素を発話中の音声データに対する音響分析を行ない、所定の複数の音響特徴量を算出するための音響特徴量算出手段と、
前記複数の発話主体の各々の前記声道形状パラメータについて、前記所定個数の主成分ベクトルの線形和で近似するための主成分係数を算出するための主成分係数算出手段と、
前記複数の発話主体の各々に対し、前記音響特徴量算出手段により算出された前記複数の音響特徴量の線形和で、当該発話主体について前記主成分係数算出手段により算出された前記主成分係数を推定するための係数系列を重回帰分析により決定するための重回帰分析手段と、
前記所定の音素を発話中の同定処理対象者の音声データから前記音響特徴量算出手段により算出されるものと同じ前記複数の音響特徴量を算出し、当該複数の音響特徴量に対し前記回帰分析手段により算出された係数系列を適用した線形和により、前記同定処理対象者の前記声道形状パラメータを算出するための主成分係数を推定するための推定手段と、
前記推定手段により推定された主成分係数と前記主成分係数算出手段により前記複数の発話主体の各々に対し算出された主成分係数とを比較することにより、前記同定処理対象者の同定を行なうための同定手段とを含む、発話主体同定装置。 - 前記音響特徴量算出手段は、前記複数の発話主体の各々について、前記所定の音素を発話中の音声データに対するケプストラム分析を行ない、所定の次数までのケプストラム係数を前記音響特徴量として算出するためのケプストラム算出手段を含む、請求項1に記載の発話主体同定装置。
- 前記音響特徴量算出手段は、
前記複数の発話主体の各々について、前記所定の音素を発話中の音声データに対するケプストラム分析を行ない、所定の次数までのケプストラム係数を算出するためのケプストラム算出手段と、
前記ケプストラム算出手段により前記複数の発話主体の各々について算出された前記所定の次数までのケプストラム係数に対し主成分分析を行ない、前記所定の次数までのケプストラム係数の、発話主体による変動を説明するための主成分ベクトルを算出し、前記複数の発話主体の各々について当該主成分ベクトルにより前記所定の次数までのケプストラム係数を近似するための主成分係数を前記音響特徴量として算出するための手段とを含む、請求項1に記載の発話主体同定装置。 - 前記声道形状パラメータは、前記所定の音素を発話中の発話主体の声道断面関数を含む、請求項1〜請求項3のいずれかに記載の発話主体同定装置。
- 前記声道形状パラメータは、前記所定の音素を発話中の発話主体の声道断面幅関数を含む、請求項1〜請求項3のいずれかに記載の発話主体同定装置。
- 前記同定手段は、
前記推定手段により推定された主成分係数と、前記複数の発話主体の各々に対し前記主成分係数算出手段により算出された主成分係数との間に定義される所定の距離関数の値を算出するための距離算出手段と、
前記複数の発話主体のうち、前記距離算出手段により算出された距離が最も小さい発話主体として前記同定処理対象者を同定するための手段とを含む、請求項1〜請求項5のいずれかに記載の発話主体同定装置。 - 前記同定処理対象者を同定するための手段は、
前記距離算出手段により算出された距離のうちの最短距離を特定するための手段と、
前記最短距離が所定のしきい値に対し所定の関係を充足するか否かを判定するための手段と、
前記判定するための手段により前記最短距離が前記しきい値以下であると判定されたことに応答して、前記最短距離を与える発話主体として前記同定処理対象者を同定するための手段と、
前記判定するための手段により前記最短距離が前記しきい値より大きいと判定されたことに応答して、同定ができないことを示す処理を実行するための手段とを含む、請求項1〜請求項5のいずれかに記載の発話主体同定装置。 - コンピュータにより実行されると、当該コンピュータを請求項1〜請求項7のいずれかに記載の発話主体同定装置として動作させる、コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005321351A JP4556028B2 (ja) | 2005-11-04 | 2005-11-04 | 発話主体同定装置及びコンピュータプログラム |
US11/527,607 US7617102B2 (en) | 2005-11-04 | 2006-09-27 | Speaker identifying apparatus and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005321351A JP4556028B2 (ja) | 2005-11-04 | 2005-11-04 | 発話主体同定装置及びコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2007127891A true JP2007127891A (ja) | 2007-05-24 |
JP2007127891A5 JP2007127891A5 (ja) | 2007-12-13 |
JP4556028B2 JP4556028B2 (ja) | 2010-10-06 |
Family
ID=38004923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005321351A Expired - Fee Related JP4556028B2 (ja) | 2005-11-04 | 2005-11-04 | 発話主体同定装置及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7617102B2 (ja) |
JP (1) | JP4556028B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080090034A (ko) * | 2007-04-03 | 2008-10-08 | 삼성전자주식회사 | 음성 화자 인식 방법 및 시스템 |
WO2011007497A1 (ja) * | 2009-07-16 | 2011-01-20 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
CN101833951B (zh) * | 2010-03-04 | 2011-11-09 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
US9384738B2 (en) | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05508242A (ja) * | 1991-04-30 | 1993-11-18 | ノキア テレコミュニカシオンス オサケ ユキチュア | 話者認識方法 |
JP2001249675A (ja) * | 2000-03-07 | 2001-09-14 | Atr Ningen Joho Tsushin Kenkyusho:Kk | 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体 |
JP2005148640A (ja) * | 2003-11-19 | 2005-06-09 | Advanced Telecommunication Research Institute International | 音声認証装置、音声認証方法および音声認証プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
JP2004258845A (ja) | 2003-02-25 | 2004-09-16 | Ntt Data Systems Corp | 本人認証装置、行動記録方法、交通費精算方法 |
-
2005
- 2005-11-04 JP JP2005321351A patent/JP4556028B2/ja not_active Expired - Fee Related
-
2006
- 2006-09-27 US US11/527,607 patent/US7617102B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05508242A (ja) * | 1991-04-30 | 1993-11-18 | ノキア テレコミュニカシオンス オサケ ユキチュア | 話者認識方法 |
JP2001249675A (ja) * | 2000-03-07 | 2001-09-14 | Atr Ningen Joho Tsushin Kenkyusho:Kk | 調音状態の推定表示方法およびそのためのコンピュータプログラムを記録したコンピュータ読取可能な記録媒体 |
JP2005148640A (ja) * | 2003-11-19 | 2005-06-09 | Advanced Telecommunication Research Institute International | 音声認証装置、音声認証方法および音声認証プログラム |
Non-Patent Citations (3)
Title |
---|
CSNG200600972125, 北村 達也 Tatsuya Kitamura, "母音発声時の声道断面積関数の個人差について Individualities in vocal tract area functions during vow", 日本音響学会2004年春季研究発表会講演論文集−I− THE 2004 SPRING MEETING OF THE ACOUSTICAL SOCI, 20040317, p.285−286, JP, 社団法人日本音響学会 * |
CSNG200700044099, 本多 清志 Kiyoshi Honda, "下咽頭腔の共鳴特性 Resonance characteristics of hypopharygneal cavities", 日本音響学会2004年秋季研究発表会講演論文集−I− THE 2004 AUTUMN MEETING OF THE ACOUSTICAL SOCI, 20040921, p.235−236, JP, 社団法人日本音響学会 * |
CSNG200700044118, 坂寄 洋介 Y. Sakayori, "声道形状の非一様性を考慮した女声・男声変換に関する検討 Female−to−make voice conversion taiking non−", 日本音響学会2004年秋季研究発表会講演論文集−I− THE 2004 AUTUMN MEETING OF THE ACOUSTICAL SOCI, 200409, p.293−294, JP, 社団法人日本音響学会 * |
Also Published As
Publication number | Publication date |
---|---|
US7617102B2 (en) | 2009-11-10 |
US20070106511A1 (en) | 2007-05-10 |
JP4556028B2 (ja) | 2010-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10950245B2 (en) | Generating prompts for user vocalisation for biometric speaker recognition | |
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
JP5708155B2 (ja) | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
CN109346088A (zh) | 身份识别方法、装置、介质及电子设备 | |
US10748544B2 (en) | Voice processing device, voice processing method, and program | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
JP6532021B2 (ja) | 音声処理装置及び音声処理方法 | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
US11727954B2 (en) | Diagnostic techniques based on speech-sample alignment | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
US11538490B2 (en) | Diagnostic techniques based on speech models | |
CN111179940A (zh) | 一种语音识别方法、装置及计算设备 | |
JP7160095B2 (ja) | 属性識別装置、属性識別方法、およびプログラム | |
JP4556028B2 (ja) | 発話主体同定装置及びコンピュータプログラム | |
JP2020060757A (ja) | 話者認識装置、話者認識方法、及び、プログラム | |
WO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
AU2020235966B2 (en) | Diagnostic techniques based on speech-sample alignment | |
Li et al. | Toward Pitch-Insensitive Speaker Verification via Soundfield | |
CA3183702A1 (en) | Synthesizing patient-specific speech models | |
JP2015022357A (ja) | 情報処理システム、情報処理方法および情報処理装置 | |
Alhamdani et al. | Efficient speaker verification system based on heart sound and speech | |
JP2009025388A (ja) | 音声認識装置 | |
JP2002041079A (ja) | 音声認識装置および音声認識方法、並びに、プログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071026 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100630 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4556028 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |