JP4305509B2 - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP4305509B2 JP4305509B2 JP2006349210A JP2006349210A JP4305509B2 JP 4305509 B2 JP4305509 B2 JP 4305509B2 JP 2006349210 A JP2006349210 A JP 2006349210A JP 2006349210 A JP2006349210 A JP 2006349210A JP 4305509 B2 JP4305509 B2 JP 4305509B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- voice
- appropriate
- input voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims abstract description 45
- 238000003860 storage Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 25
- 230000005236 sound signal Effects 0.000 description 23
- 239000000284 extract Substances 0.000 description 13
- 238000001514 detection method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Alarm Systems (AREA)
Description
松井知子,「HMMによる話者認識」,電子情報通信学会技術研究報告,電子情報通信学会,1996年1月,SP95−111 p.17−24 早川昭二 外2名,「線形予測残差スペクトルの調波構造に含まれる個人性情報を用いた話者認識」,電子情報通信学会論文誌,電子情報通信学会,1997年9月,A Vol.J80−1 No.9 p.1360−1367
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。本形態の音声処理装置100は、利用者が発声した音声の特徴量に基づいて当該利用者の正当性(予め登録された正規の利用者であるか否か)を判定する話者認証のための装置である。図1に示すように、音声処理装置100は、登録部10と照合部30と記憶装置50とを具備する。登録部10および照合部30の各々には収音機器62と入力装置64と出力装置66とが接続される。
図1に示すように、登録部10は、区間検出部11と判定部12と特徴抽出部13と管理部14と報知部15とを含む。区間検出部11は、音声信号SINのうち実際に利用者が発声した区間(以下「発話区間」という)を検出する。例えば、区間検出部11は、音声信号SINの振幅(音量)が閾値を上回る区間を発話区間として検出する。
次に、照合部30の構成および動作を説明する。図1に示すように、照合部30は、区間検出部31と判定部32と特徴抽出部33と選択部34と比較部35と報知部36とを含む。区間検出部31は、区間検出部11と同様に、音声信号SINの発話区間を検出する。
第1実施形態においては音量に基づいて入力音声VINの適否が判定される構成を例示したが、入力音声VINの適否の判定の基準は音量に限定されない。例えば、入力音声VINの発話区間の時間長(利用者が発声を継続する時間長)が短い場合や入力音声VINに含まれる雑音のレベルが高い場合には、利用者の音声の特徴を忠実に反映した特徴量(CA,CB)を抽出することが困難である。そこで、本形態においては、入力音声VINの音量に加えて発話区間の時間長や雑音のレベルが入力音声VINの適否の判定に利用される。
以上の各形態においては、入力音声VINの音量や発話区間の時間長や雑音のレベルなど音声信号SINから特定される数値(登録情報Rに含められる特徴量CAと区別するために以下では「特性値」と表記する)と所定の閾値との比較によって入力音声VINの適否を判定する構成を例示した。これに対し、本形態においては、複数回にわたって発声された入力音声VINのうち相前後する入力音声VINの比較によって入力音声VINの適否が判定される。
以上の各形態においては、判定部12が入力音声VINを適正と判定した場合に特徴抽出部13が特徴量CAを抽出する構成を例示した。これに対して本形態においては、特徴抽出部13が抽出した特徴量CAに基づいて判定部12が入力音声VINの適否を判定する。
D=√{trace(AB-1)・trace(BA-1)} ……(1)
ただし、式(1)の演算子「trace()」は、括弧内の正方行列の対角線要素の和を意味する。
次に、音声信号SINに基づいて発声者を識別する話者識別のために音声処理装置100を利用した第5実施形態を説明する。図9は、音声処理装置100の構成を示すブロック図である。本形態の音声処理装置100は第1実施形態と同様の登録部10と記憶装置50とを具備する。また、本形態の照合部30は図1の選択部34を含まない。
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
入力音声VINの適否の基準(特性値や特徴量CA,CB)は以上の例示に限定されない。例えば、第4実施形態において、周波数軸上に画定された複数の帯域の各々におけるエンベロープの強度は当該帯域内で変動するのが通常であるが、計算上の桁落ちなどに起因して何れかの帯域のエンベロープの強度が一定となる場合がある。以上の性質を考慮して、図6の特徴抽出部13が入力音声VINから帯域間相関行列を算定する過程において、少なくともひとつの帯域内のエンベロープの強度が一定値である場合に当該入力音声VINを不適切と判定する構成としてもよい。
以上の各形態においては登録情報Rを作成する場合を例示したが、既に作成された登録情報Rを更新する場合にも以上の各形態を適用することが可能である。すなわち、管理部14は、入力装置64から入力された識別情報Idを含む登録情報Rを辞書Dから検索し、特徴抽出部13が新たに抽出した特徴量CAに基づいて当該登録情報R内の特徴量CAを更新する。
特徴量(CA,CB)の内容は適宜に変更される。例えば、第1実施形態から第3実施形態における特徴量(CA,CB)を第4実施形態における帯域間相関行列としてもよい。また、登録情報Rが複数の特徴量CAを含む構成も採用される。
Claims (6)
- 音声の特徴量を含む登録情報を記憶する記憶手段と、
複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、
前記複数の入力音声のうち前記判定手段が適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理手段と、
前記判定手段が不適切と判定した場合に発声者に報知する報知手段と
を具備する音声処理装置。 - 音声の特徴量を含む登録情報を記憶する記憶手段と、
複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、
前記判定手段が適切と判定した場合に前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する照合手段と、
前記判定手段が不適切と判定した場合に発声者に報知する報知手段と
を具備する音声処理装置。 - 前記判定手段は、前記入力音声の音量と前記入力音声の時間長と前記入力音声に含まれる雑音のレベルとの少なくともひとつに基づいて前記入力音声の適否を判定する
請求項1または請求項2に記載の音声処理装置。 - 周波数軸上の複数の帯域の各々の成分のエンベロープの相関値を要素とする帯域間相関行列を前記入力音声の特徴量として抽出する特徴量抽出手段
を具備する請求項1から請求項3の何れかに記載の音声処理装置。 - 音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、
複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、
前記複数の入力音声のうち前記判定処理で適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理処理と、
前記判定処理で不適切と判定した場合に発声者に報知する報知処理と
を実行させるプログラム。 - 音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、
複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、
前記判定処理で適切と判定した場合に前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する照合処理と、
前記判定処理で不適切と判定した場合に発声者に報知する報知処理と
を実行させるプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006349210A JP4305509B2 (ja) | 2006-12-26 | 2006-12-26 | 音声処理装置およびプログラム |
US11/961,580 US8117031B2 (en) | 2006-12-26 | 2007-12-20 | Voice processing apparatus and program |
EP07024990A EP1939861B1 (en) | 2006-12-26 | 2007-12-21 | Registration for speaker verification |
AT07024990T ATE554477T1 (de) | 2006-12-26 | 2007-12-21 | Registrierung zur sprechererkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006349210A JP4305509B2 (ja) | 2006-12-26 | 2006-12-26 | 音声処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008158396A JP2008158396A (ja) | 2008-07-10 |
JP4305509B2 true JP4305509B2 (ja) | 2009-07-29 |
Family
ID=39221684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006349210A Expired - Fee Related JP4305509B2 (ja) | 2006-12-26 | 2006-12-26 | 音声処理装置およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US8117031B2 (ja) |
EP (1) | EP1939861B1 (ja) |
JP (1) | JP4305509B2 (ja) |
AT (1) | ATE554477T1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4458184B2 (ja) | 2008-06-09 | 2010-04-28 | ソニー株式会社 | 情報管理装置、通信処理装置、および方法、並びにプログラム |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59192A (ja) * | 1982-06-25 | 1984-01-05 | 株式会社東芝 | 個人照合装置 |
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
JPS59178587A (ja) * | 1983-03-30 | 1984-10-09 | Nec Corp | 話者確認システム |
JPS60158498A (ja) * | 1984-01-27 | 1985-08-19 | 株式会社リコー | パターン照合装置 |
US5583961A (en) * | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
US6012027A (en) | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
GB9822931D0 (en) | 1998-10-20 | 1998-12-16 | Canon Kk | Speech processing apparatus and method |
JP2000155600A (ja) | 1998-11-24 | 2000-06-06 | Nec Corp | 音声認識システムおよび入力音声レベル警告方法 |
US6336091B1 (en) | 1999-01-22 | 2002-01-01 | Motorola, Inc. | Communication device for screening speech recognizer input |
JP3926280B2 (ja) | 2003-03-05 | 2007-06-06 | 株式会社アドバンスト・メディア | 音声認識システム |
JP2006113439A (ja) | 2004-10-18 | 2006-04-27 | Ntt Data Corp | 音声自動応答装置及びプログラム |
-
2006
- 2006-12-26 JP JP2006349210A patent/JP4305509B2/ja not_active Expired - Fee Related
-
2007
- 2007-12-20 US US11/961,580 patent/US8117031B2/en not_active Expired - Fee Related
- 2007-12-21 AT AT07024990T patent/ATE554477T1/de active
- 2007-12-21 EP EP07024990A patent/EP1939861B1/en not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
US8117031B2 (en) | 2012-02-14 |
JP2008158396A (ja) | 2008-07-10 |
EP1939861A1 (en) | 2008-07-02 |
ATE554477T1 (de) | 2012-05-15 |
US20080154597A1 (en) | 2008-06-26 |
EP1939861B1 (en) | 2012-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8401861B2 (en) | Generating a frequency warping function based on phoneme and context | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
US8036884B2 (en) | Identification of the presence of speech in digital audio data | |
US8069039B2 (en) | Sound signal processing apparatus and program | |
JP6220304B2 (ja) | 音声識別装置 | |
CN112992109B (zh) | 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体 | |
US7650281B1 (en) | Method of comparing voice signals that reduces false alarms | |
CN110797032A (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
WO2000077772A2 (en) | Speech and voice signal preprocessing | |
US11081115B2 (en) | Speaker recognition | |
JP4305509B2 (ja) | 音声処理装置およびプログラム | |
JP2007133413A (ja) | 話者テンプレート圧縮方法および装置、複数の話者テンプレートをマージする方法および装置、ならびに話者認証 | |
Das et al. | Comparison of DTW score and warping path for text dependent speaker verification system | |
Jayanna et al. | Fuzzy vector quantization for speaker recognition under limited data conditions | |
JP4245948B2 (ja) | 音声認証装置、音声認証方法及び音声認証プログラム | |
US20060150805A1 (en) | Method of automatically detecting vibrato in music | |
Tsai et al. | Bird species identification based on timbre and pitch features | |
JP4349415B2 (ja) | 音信号処理装置およびプログラム | |
WO2014155652A1 (ja) | 話者検索システム、プログラム | |
JP4807261B2 (ja) | 音声処理装置およびプログラム | |
Jagtap et al. | Speaker verification using Gaussian mixture model | |
JP2001350494A (ja) | 照合装置及び照合方法 | |
Paul et al. | Presence of speech region detection using vowel-like regions and spectral slope information | |
CN110931020A (zh) | 一种语音检测方法及装置 | |
Shinde et al. | Speech processing for isolated Marathi word recognition using MFCC and DTW features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090407 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090420 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4305509 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120515 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130515 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140515 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |