JP2007256689A - 音声の類似度の評価を行う方法および装置 - Google Patents

音声の類似度の評価を行う方法および装置 Download PDF

Info

Publication number
JP2007256689A
JP2007256689A JP2006081853A JP2006081853A JP2007256689A JP 2007256689 A JP2007256689 A JP 2007256689A JP 2006081853 A JP2006081853 A JP 2006081853A JP 2006081853 A JP2006081853 A JP 2006081853A JP 2007256689 A JP2007256689 A JP 2007256689A
Authority
JP
Japan
Prior art keywords
correlation matrix
voice
unit
similarity
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006081853A
Other languages
English (en)
Other versions
JP4527679B2 (ja
Inventor
Mikio Higashiyama
三樹夫 東山
Michiko Kazama
道子 風間
Osamu Goto
理 後藤
Takehiko Kawahara
毅彦 川▲原▼
Yasuo Yoshioka
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Yamaha Corp
Original Assignee
Waseda University
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Yamaha Corp filed Critical Waseda University
Priority to JP2006081853A priority Critical patent/JP4527679B2/ja
Priority to US11/726,077 priority patent/US7996213B2/en
Priority to TW096109552A priority patent/TWI328798B/zh
Priority to EP07104554A priority patent/EP1837863B1/en
Priority to KR1020070028801A priority patent/KR100919546B1/ko
Priority to CN2007100880853A priority patent/CN101042870B/zh
Publication of JP2007256689A publication Critical patent/JP2007256689A/ja
Application granted granted Critical
Publication of JP4527679B2 publication Critical patent/JP4527679B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】 音声の類似度の評価の精度を高める。
【解決手段】 周波数分析部51および帯域別エンベロープ生成部52は、周波数軸上において間を空けて並んだ複数の帯域に各々属する各成分を入力音声から抽出し、それらのエンベロープE−i(i=1〜N)を出力する。相関値算出部53は、j=1〜N、k=1〜Nの範囲内の全ての(j,k)の組み合わせについて、E−jおよびE−k間の相関値ajkを算出し、これらを要素とする帯域間相関行列を出力する。この帯域間相関行列を音声の特徴量として使用し、音声の類似度を評価する。
【選択図】図2

Description

この発明は、いわゆる帯域間相関行列を利用して音声の類似度の評価を行う技術並びにこの技術を利用した話者認証および話者識別の技術に関する。
話者認証および話者識別においては、話者が発する音声と予め特定の話者から得られた音声とがどの程度類似しているかの評価が必要となる。このような音声の類似度を評価するために一般的に行われるのは、比較対象である音声の特徴を何らか手段により数量化して特徴量とし、各音声から得られる各特徴量を比較することにより音声の類似度を評価するという手法である。非特許文献1は、このような音声の特徴量として、帯域間相関行列を利用し、話者識別を行う技術を開示している。この帯域間相関行列は、帯域分割された音声の各成分のエンベロープの帯域間の相関値を要素とする行列である。複数の話者の音声から各々得られる帯域間相関行列の内容は、各話者の発話内容の影響をあまり受けず、話者自体に依存する。そして、話者が同じであれば、発話内容によらず類似した内容の帯域間相関行列が得られる。従って、この帯域間相関行列を音声の特徴量として用いることにより、話者認証や話者識別を行うことができる。
2002年3月の電子情報通信学会における風間道子、東山三樹夫、山崎芳男による発表論文「包絡線の帯域間相関行列を用いた話者識別」
ところで、上述した非特許文献1に開示の技術において用いられる帯域間相関行列は、周波数軸上において隣接する帯域間における音声の成分のエンベロープの相関値を要素として多数含んでいる。しかし、どの話者であっても、周波数軸上において隣接する帯域における音声の成分のエンベロープの相関値は高くなる。このように、非特許文献1において用いられていた帯域間相関行列は、個人差の現れない要素を含んだものであり、この点が音声の類似度の評価の精度を劣化させる原因となっていた。
この発明は、以上説明した事情に鑑みてなされたものであり、音声の特徴量に話者の個人差を強く反映させ、音声の類似度の評価の精度を高めることを可能にする技術的手段を提供することを目的としている。
この発明では、周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を、比較対象である2つの音声について生成する。そして、これらの帯域間相関行列を用いて音声の類似度を算出する。なお、このようにする代わりに、周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を、比較対象である2つの音声について生成し、これらの各帯域間相関行列から、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、各小行列を用いて音声の類似度を算出してもよい。
この発明によれば、類似度の算出に用いられる両帯域間相関行列は、個人差の現れない要素が排除された内容となっている。従って、この帯域間相関行列を用いることにより、音声の類似度の評価の精度を高めることができる。
この発明による音声の類似度の評価の技術が具現される典型例として、例えば話者認証や話者識別がある。その詳細は以下に掲げる「発明を実施するための最良の形態」において明らかにされる。
以下、図面を参照し、この発明の実施の形態を説明する。
<第1実施形態>
図1はこの発明の一実施形態である話者認証装置の構成を示すブロック図である。この話者認証装置は、大別して、登録部10と、テンプレートDB(データベース)20と、認証部30とにより構成されている。
登録部10の構成は次の通りである。まず、ID入力部11は、あるサービスを受けることについて正当な権原を有するユーザのIDを受け取る装置であり、キーボード等により構成されている。音声入力部12は、上記正当な権原を有するユーザの音声を受け取る装置であり、例えばマイクロホンとこのマイクロホンから出力されるアナログ音声信号をデジタル形式の音声データに変換するA/D変換器により構成されている。発話区間検出部13は、音声入力部12から出力される音声データのレベルを監視し、レベルが閾値以上である発話区間内の音声データを通過させる装置である。
特徴量抽出部14は、発話区間検出部13を通過した発話区間の音声データから特徴量を抽出する装置である。本実施形態では、ユーザ毎に、複数種類の文章を発話させ、特徴量抽出部14は、各文章の音声から特徴量を各々抽出する。登録情報作成部15は、それらの特徴量を平均化した特徴量をID入力部11が受け取ったユーザIDと対応付け、登録情報としてテンプレートDB20に登録する。
認証部30の構成は次の通りである。まず、ID入力部31は、認証対象であるユーザのIDを受け取る装置であり、キーボード等により構成されている。音声入力部32は、認証対象であるユーザの音声を受け取る装置であり、音声入力部12と同様、マイクロホンとA/D変換器等により構成されている。音声入力部32の後段には発話区間検出部13と同様な発話区間検出部33が設けられている。
特徴量抽出部34は、特徴量抽出部14と同様な抽出方法により、発話区間検出部33を通過した音声データから特徴量を抽出する装置である。登録情報選択部35は、ID入力部31が受け取ったユーザのIDに対応付けられた特徴量をテンプレートDB20から読み出し、所定の閾値とともに出力する装置である。
特徴量比較部36は、特徴量抽出部34により抽出された特徴量と登録情報選択部35により読み出された特徴量とを比較し、比較結果として、両特徴量が表す音声の類似度を出力する装置である。認証結果出力部37は、特徴量比較部36から出力される類似度と登録情報選択部35から出力される閾値とを比較することにより、音声入力部32が受け取った音声の発生元であるユーザがID入力部31が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する装置である。
本実施形態の特徴は、特徴量抽出部14および34の構成、これらにより抽出される特徴量である帯域間相関行列の内容並びに特徴量比較部36において行われる特徴量の比較方法にある。
特徴量抽出部14および34は、いずれも図2に示す帯域間相関行列生成部を有している。周波数分析部51は、一定時間長のフレーム単位で、発話区間検出部13または33を通過した音声データにFFT(高速フーリエ変換)を施し、FFTにより得られる振幅スペクトルを出力する。
帯域別エンベロープ生成部52は、周波数軸上において間を空けて並んだ複数の帯域に各々属する各成分を周波数分析部51のFFT結果から抽出し、各帯域に属する音声の各成分のエンベロープを生成する装置である。さらに詳述すると、帯域別エンベロープ生成部52は、次の処理を行う。まず、フレーム毎に、周波数分析部51から得られる振幅スペクトルの中から、図3に示すように、周波数軸上において間を空けて並んだ第1帯域〜第N帯域に各々属するものを抽出し、dB値の形式に変換する。そして、第1帯域〜第N帯域の各々について、フレーム毎に得られるdB値表現の振幅スペクトルの推移を求めて、第1帯域〜第N帯域に各々属する音声の成分のエンベロープE−i(i=1〜N)を出力する。なお、帯域別の音声成分のエンベロープE−i(i=1〜N)は、通過帯域の異なった複数のBPF(バンドパスフィルタ)からなるフィルタバンクにより入力音声の帯域分割を行い、このフィルタバンクを通過した各帯域の信号に半波整流および平滑化等の処理を施すことにより求めてもよい。
相関値算出部53は、j=1〜N、k=1〜Nの範囲内における全ての(j,k)の組み合わせについて、第j帯域のエンベロープE−jおよび第k帯域のエンベロープE−k間の相関値ajkを算出し、相関値ajk(j=1〜N、k=1〜N)を要素とするN行N列の帯域間相関行列を出力する。
以上が特徴量抽出部14および34の構成並びにこれらにより抽出される帯域間相関行列の内容の詳細である。
特徴量比較部36は、以上説明した帯域間相関行列同士の比較を行い、比較対象である各帯域間相関行列の抽出元である各音声の類似度を算出する。ある好ましい態様において、特徴量比較部36は、比較対象である2つの帯域間相関行列について、例えば列毎に両帯域間相関行列の要素間の相関値を求め、全列についての相関値の平均値を類似度として出力する。他の好ましい態様において、特徴量比較部36は、比較対象である2つの帯域間相関行列をAおよびBとした場合、下記式(1)に従って類似度Dを算出する。
D=√(trace(AB−1)・trace(BA−1)) ………(1)
ただし、上記式(1)において、trace()は、括弧内の正方行列の対角線要素の和を意味する。
図4は本実施形態において行われる認証処理を示すフローチャートである。あるユーザの認証処理においては、まず、ID入力部31によりそのユーザのIDが取得されるとともに、同ユーザの発話区間内の音声データが音声入力部32および発話区間検出部33により取得される(ステップS11)。
次に特徴量抽出部34により、ステップS11において取得された音声データから帯域間相関行列Aが生成され(ステップS12)、登録情報選択部35によりステップS11において取得されたIDに対応付けられた帯域間相関行列BがテンプレートDB20から読み出される(ステップS13)。
そして、特徴量比較部36は、帯域間相関行列AおよびBに基づいて音声の類似度Dを算出し(ステップS14)、認証結果出力部37はこの類似度Dと閾値とを比較する(ステップS15)。そして、認証結果出力部37は、類似度Dが閾値以上であれば、話者であるユーザはユーザIDに対応した本人であると判断し(ステップS16)、そうでない場合は詐称者であると判断し(ステップS17)、その判断結果を出力する。
以上説明した本実施形態において、特徴量比較部36において比較される2つの帯域間相関行列は、周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とするものである。従来技術の下では、話者毎に、周波数軸上において隙間なく並んだ帯域間における音声の成分のエンベロープを要素とする帯域間相関行列を求め、特徴量として利用した。しかし、隣り合った帯域間では、どの話者でも音声の成分のエンベロープの相関値が高くなる。この意味において、従来技術において用いられていた帯域間相関行列は、個人差の現れない要素を含んだものであったと言える。しかし、本実施形態において比較対象となる帯域間相関行列は、個人差の現れない要素が排除された内容となっている。従って、本実施形態によれば、帯域間相関行列の比較の際に、個人差を際立たせ、認証の精度を向上させることができるという効果がある。
<第2実施形態>
本実施形態も、上記第1実施形態と同様、話者認証装置に関するものである。本実施形態による話者認証装置は上記第1実施形態のものと基本的に同様な構成を有する。本実施形態と上記第1実施形態との相違は、特徴量抽出部14および34における帯域間相関行列の生成方法並びに特徴量比較部36における帯域間相関行列の比較方法にある。
本実施形態において、特徴量抽出部14および34は、前掲図3に示したような間の空いた第1帯域〜第N帯域ではなく、周波数軸上において隙間なく並んだ第1帯域〜第2N帯域に属する成分のエンベロープEi(i=1〜2N)を、発話区間検出部13または33を通過した音声データから生成し、これらのエンベロープEi(i=1〜2N)に基づいて帯域間相関行列(2N×2N行列)を生成する。
そして、特徴量比較部36は、比較対象である2つの帯域間相関行列において、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、各小行列同士を比較することにより音声の類似度を算出する。図5はその例を示している。この例では、比較対象である2個の帯域間相関行列(2N×2N行列)から偶数列の要素および偶数行の要素を間引いて、小行列(N×N行列)を構成し、それらの比較により音声の類似度を算出する。
この場合において、比較対象である小行列(N×N行列)の各要素は、周波数軸上において間を空けて並んだN個の帯域間における音声の成分のエンベロープの相関値となる。
従って、本実施形態においても上記第1実施形態と同様な効果が得られる。
<第3実施形態>
図6はこの発明の一実施形態である話者識別装置の構成を示すブロック図である。この話者識別装置は、上記第1実施形態(図1)のものと同様な登録部10とテンプレートDB20を有するとともに、識別部40を有する。
識別部40の構成は次の通りである。まず、音声入力部41は、識別対象であるユーザから音声を受け取り、音声データを出力する装置である。発話区間検出部42は、音声入力部41が出力する音声データのうち発話区間のものを検出して出力する装置である。特徴量抽出部43は、発話区間検出部42を通過した音声データから特徴量を抽出する装置である。特徴量比較部44は、特徴量抽出部43により抽出された特徴量をテンプレートDB20に登録された各ユーザの特徴量と比較し、比較結果を示す類似度を出力する装置である。そして、識別結果出力部45は、テンプレートDB20に登録された各ユーザの特徴量の中から特徴量抽出部43により抽出された特徴量との類似度が最も高いものを選択し、その特徴量に対応付けられたユーザのIDを出力する装置である。
本実施形態における特徴量抽出部14および43の構成、これらにより抽出される特徴量である帯域間相関行列の内容並びに特徴量比較部44において行われる特徴量の比較方法は、上記第1実施形態または第2実施形態において説明した通りである。
図7は本実施形態において行われる認証処理を示すフローチャートである。あるユーザの識別処理においては、まず、識別対象であるユーザの発話区間内の音声データが音声入力部41および発話区間検出部42により取得される(ステップS21)。
次に特徴量抽出部43により、ステップS21において取得された音声データから帯域間相関行列Aが生成される(ステップS22)。また、このとき、識別結果出力部45は、最大類似度Dmaxを0に初期化する。
そして、テンプレートDB20に登録された帯域間相関行列の個数がMであるとした場合、本実施形態では、i=1〜Mまでの各iについて、ステップS23〜S28のループ処理を繰り返し実行する。
まず、特徴量比較部44は、テンプレートDB20からi番目のユーザの帯域間相関行列Biを読み出す(ステップS24)。次に特徴量比較部44は、ステップS22において得られた帯域間相関行列AとステップS24において読み出された帯域間相関行列Biとの類似度Dを算出する(ステップS25)。ここで、特徴量である帯域間相関行列AおよびBiが上記第1実施形態に開示されたような周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とするものである場合、このステップS25では帯域間相関行列Aと帯域間相関行列Biをそのまま用いて類似度Dを算出する。これに対し、帯域間相関行列AおよびBiが周波数軸上において間を空けないで並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とするものである場合、このステップS25では、上記第2実施形態において開示したように、帯域間相関行列AおよびBiの各々について行の間引きおよび列の間引きを行って小行列を各々構成し、これらの小行列を用いて類似度Dを算出する。そして、識別結果出力部45は、このようにして得られた類似度Dを最大類似度Dmaxと比較し(ステップS26)、D>Dmaxである場合に限り、Dmax=Dとするとともにimax=iとする(ステップS27)。
以上の処理がi=1〜Mまでの各iについて繰り返される結果、テンプレートDB20内のM個の帯域間相関行列Bi(i=1〜M)のうち入力音声から得られた帯域間相関行列Aとの相関値が最も高い帯域間相関行列Bimaxのインデックスimaxが得られる。識別結果出力部45は、このインデックスimaxに対応付けられたユーザIDであるIDimaxを識別結果として出力する(ステップS29)。
以上が本実施形態の動作である。本実施形態においても上記第1実施形態および第2実施形態と同様な効果が得られる。
<第4実施形態>
上記第2実施形態において特徴量比較部36は、比較対象である2つの帯域間相関行列の各々から1種類の抽出方法(例えば奇数列および奇数行の間引き、あるいは偶数列かつ偶数行の要素の抽出)により各1種類の小行列を抽出し、各小行列同士を比較することにより音声の類似度を算出した。しかし、2つの帯域間相関行列の各々から小行列を抽出する方法は1種類ではない。本実施形態において特徴量比較部36は、比較対象である2つの音声について得られた各帯域間相関行列から、異なった複数種類の抽出方法により複数種類の小行列を各々抽出する。そして、比較対象である2つの音声の帯域間相関行列から同一の抽出方法により各々抽出された2つの小行列間の類似度を算出する処理を複数種類の抽出方法の各々について実行する。そして、各抽出方法について得られた小行列間の類似度の総合的な評価(例えば各類似度の平均)を行うことにより比較対象である2つの音声の類似度を算出するのである。本実施形態による類似度の評価方法は、上記第1および2実施形態において示したような話者認証システムに用いてもよいし、上記第3実施形態において示したような話者識別システムに用いてもよい。
図8は本実施形態において特徴量比較部36により行われる類似度の算出処理の例を示している。この例において、特徴量比較部36は、次の4種類の抽出方法により、テンプレートDB20から読み出された帯域間相関行列と入力音声の帯域間相関行列の各々から小行列を抽出する。
(a)奇数列かつ奇数行の要素の抽出
(b)偶数列かつ偶数行の要素の抽出
(c)偶数列かつ奇数行の要素の抽出
(d)奇数列かつ偶数行の要素の抽出
特徴量比較部36は、このようにして2つの帯域間相関行列から4種類の抽出方法により各々抽出された各小行列のうち同一抽出方法により抽出された小行列同士を比較し、各小行列間の類似度を算出する。この結果、4種類の類似度が得られる。特徴量比較部36は、この4種類の類似度の例えば平均値を求め、これを比較対象である2つの音声の最終的な類似度とするのである。この方法では、上記第2実施形態に比べ、類似度の評価がより正確なものになることが期待される。
なお、以上説明した例では、元の帯域間相関行列において連続した2行2列の各要素の中から1つの要素を抽出することにより4種類の小行列を構成したが、2行2列以外のm行m列(m>2)の各要素の中から1つの要素を抽出する方法により小行列を構成してもよい。例えば連続した3行3列の各要素から1つの要素を抽出した場合には、9種類の小行列を元の帯域間相関行列から抽出することができる。この場合、入力音声の帯域間相関行列から抽出された9種類の小行列と、テンプレートDB20の帯域間相関行列から抽出された9種類の小行列を同一種類の抽出方法により得られたもの同士比較し、各小行列間の類似度の例えば平均値を音声の類似度とすればよい。
<各実施形態の効果の確認>
本願発明者らは、上記各実施形態の効果を確認するため、上記第3実施形態(図6)のような話者識別システムを構成し、これによる話者識別実験を行った。この実験に当たり、男性25人のグループ、女性28人のグループの各人から音声を採取して帯域間相関行列を生成し、上述したテンプレートDB20を予め作成した。なお、この帯域間相関行列の生成の際、特徴量抽出部14では、FFTではなく、LPFおよび複数のBPFからなるフィルタバンクにより各帯域別の音声信号のエンベロープを求めた。特徴量抽出部43による入力音声の帯域間相関行列の生成方法も同様である。そして、実験では、男性、女性のグループ毎に、グループ内の任意の者の音声を音声入力部41に与えて話者識別を行わせ、識別結果の正答率である識別率を求めた。その際、特徴量比較部44において比較対象である2つの帯域間相関行列から類似度の算出に用いる小行列を得る際の間引き間隔を変化させ、これに対する識別率の依存性を求めた。
図9は男性25名についての識別率の間引き間隔に対する依存性を示すものであり、図10は男性28名についての識別率の間引き間隔に対する依存性を示すものある。これらの図において、間引き間隔0の場合の識別率は、特徴量比較部44に入力音声の帯域間相関行列およびテンプレートDB20の帯域間相関行列の間引きを行わせず、各帯域間相関行列間の類似度を出力させた場合における話者識別の識別率である。また、間引き間隔1の場合の識別率は、特徴量比較部44に1列おきかつ1行おきの帯域間相関行列の間引きを行わせ、比較対象である2つの音声間の類似度を出力させた場合に得られた識別率である。なお、上記第4実施形態において説明したように、元の帯域間相関行列から1列おきかつ1行おきの間引きにより小行列を得る方法は4通りあるので、特徴量比較部34では、上記の(a)、(b)の方法により、2つの帯域間相関行列から小行列を各々求めて小行列間の類似度を求め、これらの類似度の平均値を最終的な音声間の類似度としている。同様に、間引き間隔kの場合の識別率は、特徴量比較部44にk列おきかつk行おきの帯域間相関行列の間引きを行わせて、比較対象である2つの音声間の類似度を算出させた場合に得られた識別率である。
これらの図に示すように、実験結果は、比較対象である音声の帯域間相関行列をそのまま用いて音声の類似度を算出させるよりも、帯域間相関行列について行および列の間引きを行って音声の類似度の算出を行わせた方が話者の識別率が向上することを示している。
以上、この発明の各種の実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。例えば次の通りである。
(1)上記第1実施形態において、第1帯域〜第N帯域の各々の幅と、各帯域の間隔は等しくてもよく、異なっていてもよい。
(2)上記第2実施形態では、周波数軸上において隙間なく並んだ複数の帯域間における音声の成分のエンベロープを入力音声から求め、これらのエンベロープの帯域間における相関値を要素とする帯域間相関行列を特徴量として使用した。しかし、帯域間相関行列の元となる音声の成分のエンベロープは、必ずしも周波数軸上において隙間なく並んだ複数の帯域におけるものである必要はなく、隙間を空けて並んだ複数の帯域における音声の成分であってもよい。
(3)上記第1実施形態および第2実施形態における話者認証装置では、認証部30とは別の装置として登録部10が設けられているが、認証部30に登録部10の機能を併せ持たせ、ユーザが認証に用いる自分の音声の帯域間相関行列を認証部30を介してテンプレートDB20に登録し得るように構成してもよい。上記第3実施形態における話者識別装置も同様であり、識別部40に登録部10の機能を併せ持たせてもよい。
この発明の第1実施形態である話者認証装置の構成を示すブロック図である。 同実施形態において特徴量抽出部として用いられる帯域間相関行列生成部の構成を示すブロック図である。 同実施形態において音声の成分の抽出を行うN個の帯域を示す図である。 同実施形態において行われる認証処理を示すフローチャートである。 この発明の第2実施形態における帯域間相関行列の比較方法を説明する図である。 この発明の第3実施形態である話者識別装置の構成を示すブロック図である。 同実施形態において行われる識別処理を示すフローチャートである。 この発明の第4実施形態において特徴量比較部により行われる類似度の算出処理を示す図である。 この発明の各実施形態の効果を示す図である。 この発明の各実施形態の効果を示す図である。
符号の説明
10……登録部、20……テンプレートDB、30……認証部、40……識別部、12,32,41……音声入力部、11,31……ID入力部、13,33,42……発話区間検出部、14,34,43……特徴量抽出部、15……登録情報作成部、35……登録情報選択部、36,44……特徴量比較部、37……認証結果出力部、45……識別結果出力部。

Claims (9)

  1. 周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
    比較対象である2つの音声について前記帯域間相関行列生成過程により得られた各帯域間相関行列を用いて音声の類似度を算出する類似度算出過程と
    を具備することを特徴とする音声の類似度評価方法。
  2. 周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
    比較対象である2つの音声について前記帯域間相関行列生成過程により得られた各帯域間相関行列から、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、各小行列を用いて音声の類似度を算出する類似度算出過程と
    を具備することを特徴とする音声の類似度評価方法。
  3. 周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
    比較対象である2つの音声について前記帯域間相関行列生成手段により得られた各帯域間相関行列を用いて音声の類似度を算出する類似度算出手段と
    を具備することを特徴とする音声の類似度評価装置。
  4. 周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
    比較対象である2つの音声について前記帯域間相関行列生成手段により得られた各帯域間相関行列から、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、各小行列同士を用いて音声の類似度を算出する類似度算出手段と
    を具備することを特徴とする音声の類似度評価装置。
  5. 前記類似度算出手段は、比較対象である2つの音声について得られた各帯域間相関行列から、異なった複数種類の抽出方法により複数種類の前記小行列を各々抽出し、比較対象である2つの音声の帯域間相関行列から同一の抽出方法により各々抽出された2つの小行列間の類似度を算出する処理を前記複数種類の抽出方法の各々について実行し、各抽出方法について得られた小行列間の類似度の総合的な評価を行うことにより前記比較対象である2つの音声の類似度を算出することを特徴とする請求項4に記載の音声の類似度評価装置。
  6. 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
    認証対象であるユーザのIDを受け取るID入力部と、
    前記認証対象であるユーザの音声を受け取る音声入力部と、
    周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
    前記ID入力部が受け取ったユーザのIDに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
    前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列とから音声の類似度を算出する特徴量比較部と、
    前記特徴量比較部により算出された音声の類似度に基づいて前記音声入力部が受け取った音声の発生元であるユーザが前記ID入力部が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
    を具備することを特徴とする話者認証装置。
  7. 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
    認証対象であるユーザのIDを受け取るID入力部と、
    前記認証対象であるユーザの音声を受け取る音声入力部と、
    周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
    前記ID入力部が受け取ったユーザのIDに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
    前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列の各々から、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、各小行列を用いて音声の類似度を算出する特徴量比較部と、
    前記特徴量比較部により算出された音声の類似度に基づき、前記音声入力部が受け取った音声の発生元であるユーザが前記ID入力部が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
    を具備することを特徴とする話者認証装置。
  8. 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
    識別対象であるユーザの音声を受け取る音声入力部と、
    周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
    前記特徴量抽出部により生成された帯域間相関行列と前記データベースに記憶された各帯域間相関行列の各々との各類似度を各々算出する特徴量比較部と、
    前記特徴量比較部により算出された各類似度に基づき、前記データベースに記憶された各帯域間相関行列の中から前記特徴量抽出部により生成された帯域間相関行列と最も類似するものを選択し、選択した帯域間相関行列に対応付けられたIDを出力する識別結果出力部と
    を具備することを特徴とする話者識別装置。
  9. 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
    識別対象であるユーザの音声を受け取る音声入力部と、
    周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
    前記特徴量抽出部により生成された帯域間相関行列および前記データベースに記憶された各帯域間相関行列の各々から、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、前記特徴量抽出部により生成された帯域間相関行列から得られた小行列と前記データベースに記憶された各帯域間相関行列から得られた各小行列との各類似度を各々算出する特徴量比較部と、
    前記特徴量比較部により算出された各類似度に基づき、前記データベースに記憶された各帯域間相関行列の中から前記特徴量抽出部により生成された帯域間相関行列と最も類似するものを選択し、選択した帯域間相関行列に対応付けられたIDを出力する識別結果出力部と
    を具備することを特徴とする話者識別装置。
JP2006081853A 2006-03-24 2006-03-24 音声の類似度の評価を行う方法および装置 Expired - Fee Related JP4527679B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006081853A JP4527679B2 (ja) 2006-03-24 2006-03-24 音声の類似度の評価を行う方法および装置
US11/726,077 US7996213B2 (en) 2006-03-24 2007-03-20 Method and apparatus for estimating degree of similarity between voices
TW096109552A TWI328798B (en) 2006-03-24 2007-03-20 Method and apparatus for estimating degree of similarity between voices
EP07104554A EP1837863B1 (en) 2006-03-24 2007-03-21 Method and apparatus for estimating degreee of similarity between voices
KR1020070028801A KR100919546B1 (ko) 2006-03-24 2007-03-23 음성 간의 유사도를 평가하는 방법 및 장치
CN2007100880853A CN101042870B (zh) 2006-03-24 2007-03-26 用于评估声音间相似度的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006081853A JP4527679B2 (ja) 2006-03-24 2006-03-24 音声の類似度の評価を行う方法および装置

Publications (2)

Publication Number Publication Date
JP2007256689A true JP2007256689A (ja) 2007-10-04
JP4527679B2 JP4527679B2 (ja) 2010-08-18

Family

ID=38191379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006081853A Expired - Fee Related JP4527679B2 (ja) 2006-03-24 2006-03-24 音声の類似度の評価を行う方法および装置

Country Status (6)

Country Link
US (1) US7996213B2 (ja)
EP (1) EP1837863B1 (ja)
JP (1) JP4527679B2 (ja)
KR (1) KR100919546B1 (ja)
CN (1) CN101042870B (ja)
TW (1) TWI328798B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590632A (zh) * 2015-12-16 2016-05-18 广东德诚网络科技有限公司 一种基于语音相似性识别的s-t教学过程分析方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
CN101221760B (zh) * 2008-01-30 2010-12-22 中国科学院计算技术研究所 一种音频匹配方法及系统
TWI412019B (zh) 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
CN102956238B (zh) * 2011-08-19 2016-02-10 杜比实验室特许公司 用于在音频帧序列中检测重复模式的方法及设备
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
CN104580754B (zh) * 2014-12-03 2018-08-17 贵阳朗玛信息技术股份有限公司 Ivr系统及基于ivr的聊天速配方法
CN105679324B (zh) * 2015-12-29 2019-03-22 福建星网视易信息系统有限公司 一种声纹识别相似度评分的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01103759A (ja) * 1987-10-16 1989-04-20 Nec Corp パスワード検出装置
JPH03266898A (ja) * 1990-03-16 1991-11-27 Fujitsu Ltd 大語彙音声認識処理方式
JP2003044077A (ja) * 2001-07-26 2003-02-14 Toshiba Corp 音声特徴量抽出方法と装置及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
JPS60158498A (ja) * 1984-01-27 1985-08-19 株式会社リコー パターン照合装置
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
KR100484210B1 (ko) * 1996-05-03 2006-07-25 위니베르시떼 피에르 에 마리 퀴리 예측모델을사용한,특히억세스제어응용을위한발성자음성인식방법
JP2000330590A (ja) * 1999-05-21 2000-11-30 Ricoh Co Ltd 話者照合方法および話者照合システム
DE60038535T2 (de) * 1999-08-26 2009-07-02 Sony Corp. Verfahren und vorrichtung, speicherverfahren und - vorrichtung zur informationsbeschaffung und verarbeitung
US7024359B2 (en) 2001-01-31 2006-04-04 Qualcomm Incorporated Distributed voice recognition system using acoustic feature vector modification
JP3969079B2 (ja) 2001-12-12 2007-08-29 ソニー株式会社 音声認識装置および方法、記録媒体、並びにプログラム
JP4314016B2 (ja) * 2002-11-01 2009-08-12 株式会社東芝 人物認識装置および通行制御装置
JP4510539B2 (ja) * 2004-07-26 2010-07-28 日本放送協会 特定話者音声出力装置及び特定話者判定プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01103759A (ja) * 1987-10-16 1989-04-20 Nec Corp パスワード検出装置
JPH03266898A (ja) * 1990-03-16 1991-11-27 Fujitsu Ltd 大語彙音声認識処理方式
JP2003044077A (ja) * 2001-07-26 2003-02-14 Toshiba Corp 音声特徴量抽出方法と装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590632A (zh) * 2015-12-16 2016-05-18 广东德诚网络科技有限公司 一种基于语音相似性识别的s-t教学过程分析方法

Also Published As

Publication number Publication date
TW200805252A (en) 2008-01-16
US7996213B2 (en) 2011-08-09
CN101042870B (zh) 2010-12-29
TWI328798B (en) 2010-08-11
EP1837863A3 (en) 2011-11-16
KR20070096913A (ko) 2007-10-02
KR100919546B1 (ko) 2009-10-01
CN101042870A (zh) 2007-09-26
EP1837863A2 (en) 2007-09-26
US20070225979A1 (en) 2007-09-27
JP4527679B2 (ja) 2010-08-18
EP1837863B1 (en) 2013-02-27

Similar Documents

Publication Publication Date Title
JP4527679B2 (ja) 音声の類似度の評価を行う方法および装置
Xiao et al. Single-channel speech extraction using speaker inventory and attention network
Todisco et al. A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients.
Todisco et al. Constant Q cepstral coefficients: A spoofing countermeasure for automatic speaker verification
JP5662276B2 (ja) 音響信号処理装置および音響信号処理方法
CN112331218B (zh) 一种针对多说话人的单通道语音分离方法和装置
Thakur et al. Speech recognition using euclidean distance
JP6622159B2 (ja) 信号処理システム、信号処理方法およびプログラム
Mansour et al. Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms
CN103811023A (zh) 音频处理装置以及音频处理方法
CN105283916B (zh) 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
JP2012163918A (ja) 音声信号処理装置、および音声信号処理方法、並びにプログラム
JPWO2018051945A1 (ja) 音声処理装置、音声処理方法、およびプログラム
Williamson et al. Estimating nonnegative matrix model activations with deep neural networks to increase perceptual speech quality
Linh et al. MFCC-DTW algorithm for speech recognition in an intelligent wheelchair
Verma et al. Indian language identification using k-means clustering and support vector machine (SVM)
Damper et al. Improving speaker identification in noise by subband processing and decision fusion
Gangonda et al. Speech processing for marathi numeral recognition using MFCC and DTW features
Grais et al. Audio-Visual speech recognition with background music using single-channel source separation
JP4490384B2 (ja) 音声の類似度の評価を行う方法および装置
Mahmood et al. Artificially intelligent recognition of Arabic speaker using voice print-based local features
Barbu A supervised text-independent speaker recognition approach
JP4305509B2 (ja) 音声処理装置およびプログラム
Permana et al. Similarity measurement for speaker identification using frequency of vector pairs

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100603

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees