JP2006078654A - Voice authenticating system, method, and program - Google Patents
Voice authenticating system, method, and program Download PDFInfo
- Publication number
- JP2006078654A JP2006078654A JP2004261005A JP2004261005A JP2006078654A JP 2006078654 A JP2006078654 A JP 2006078654A JP 2004261005 A JP2004261005 A JP 2004261005A JP 2004261005 A JP2004261005 A JP 2004261005A JP 2006078654 A JP2006078654 A JP 2006078654A
- Authority
- JP
- Japan
- Prior art keywords
- voiced
- voice
- feature
- speaker
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声認証装置及び方法並びにプログラムに関し、例えばCELP(Code Excited Linear Prediction)符号化方式による符号化処理により得られたパラメータに基づいて話者認証を行う音声認証装置に適用して好適なものである。 The present invention relates to a voice authentication apparatus, method, and program, and is suitable for application to a voice authentication apparatus that performs speaker authentication based on parameters obtained by encoding processing using a CELP (Code Excited Linear Prediction) encoding method, for example. Is.
近年、電子商取引やオンライン・バンキングなどのネットワークを利用したサービスの拡大・浸透に伴い、情報セキュリティ及びプライバシー保護の観点から、ユーザの正当性を確認する個人認証の必要性が高まっている。このような状況の下、従来では簡便で安価な個人認証手法として、ICカードやパスワードなどのユーザの所有物や知識に基づく個人認証が行われていた。 In recent years, with the expansion and penetration of services using networks such as electronic commerce and online banking, the need for personal authentication to confirm the legitimacy of users is increasing from the viewpoint of information security and privacy protection. Under such circumstances, conventionally, as a simple and inexpensive personal authentication method, personal authentication based on the possession and knowledge of the user such as an IC card and a password has been performed.
しかしながらこのような従来手法によると、盗難や紛失又は忘却などの危険性が伴う問題がある。そこで、近年、音声、筆跡、指紋又は顔の表情といった個人の身体的又は行動的特徴を利用した、いわゆるバイオメトリクス認証に注目が集まっている。 However, according to such a conventional method, there is a problem accompanied by danger such as theft, loss or forgetting. In recent years, so-called biometric authentication using personal physical or behavioral features such as speech, handwriting, fingerprints or facial expressions has attracted attention.
例えば音声には、音韻性情報及び個人性情報が併存しており、音韻性情報は音声認識に利用でき、個人性情報は話者認識に利用できることが知られている。また携帯電話を利用したディジタル音声通信においては、音声が伝送のためにCELP符号化方式により符号化されるが、符号化された音声の中には音韻性情報及び個人性情報が保存されている。そこで、かかる符号化により得られたLSP(Line Spectrum Pair)と呼ばれるパラメータを利用して、個人認証を行うことが従来から提案されている(例えば非特許文献1参照)。
ところが、音声に含まれる個人性情報を利用した個人認証(以下、これを音声認証又は話者認証と呼ぶ)では、環境雑音の影響を受け易く、環境雑音が多い状況下では認証精度が著しく劣化する。 However, personal authentication using personality information contained in speech (hereinafter referred to as speech authentication or speaker authentication) is easily affected by environmental noise, and the accuracy of authentication is significantly degraded under conditions of high environmental noise. To do.
実際上、研究用ATR日本語音声データベースに収録された雑音を含まない理想的な音声をCELP符号化処理し、得られたLSPを用いて話者認証を行う一方で、かかる音声に電子協騒音データベースに収録された「自動車(car)」、「人ごみ(crowd)」、「駅(station)」又は「交差点(street)」の雑音を付加して、この音声をCELP符号化処理することにより得られたLSPを用いて話者認証を行うようにして、雑音環境下での話者認証の信頼性を評価する実験を行ったところ、図15に示すような実験結果が得られた。 In practice, ideal speech that does not contain noise recorded in the research ATR Japanese speech database is CELP encoded, and speaker authentication is performed using the resulting LSP. It is obtained by adding CELP coding processing to the speech by adding noise of “car”, “crowd”, “station” or “street” recorded in the database. An experiment for evaluating the reliability of speaker authentication under a noisy environment by performing speaker authentication using the obtained LSP, an experimental result as shown in FIG. 15 was obtained.
この図15からも明らかなように、雑音を付加していない状態での誤り率が5.13〔%〕であったのに対し、「自動車(car)」の雑音を付加したときの誤り率が30.80〔%〕、「人ごみ(crowd)」の雑音を付加したときの誤り率が15.87〔%〕、「駅(station)」の雑音を付加したときでの誤り率が14.52〔%〕、「交差点(street)」の雑音を付加したときの誤り率が9.47〔%〕でなり、雑音環境下では話者認証の信頼性が低くなる。 As is apparent from FIG. 15, the error rate when no noise is added is 5.13 [%], whereas the error rate when the “car” noise is added is 30.80. [%], Error rate when adding “crowd” noise is 15.87 [%], error rate when adding “station” noise is 14.52 [%], “intersection ( The error rate is 9.47 [%] when the noise of “street” is added, and the reliability of speaker authentication is low in a noisy environment.
なおこの評価は、図16に示すように、次式 In addition, as shown in FIG.
で定義されるFRR(False Rejection Rate:本人拒否率)と、次式 FRR (False Rejection Rate) defined by, and the following formula
で定義されるFAR(False Acceptance Rate:他人受け入れ率)との値が等しくなる点における誤り率であるEER(Equal Error Rate:等誤り率)を用いて行っている。また各雑音データの諸元については図17に示す。 This is performed using EER (Equal Error Rate), which is an error rate at a point where the value of FAR (False Acceptance Rate) is the same. The specifications of each noise data are shown in FIG.
しかしながら、話者認証が実際に使用される環境には様々な環境があり得る。従って、かかる音声認証装置を構築するに際しては、種々の雑音環境下においても実用上十分な認証精度を得られるように耐雑音性を向上させることが望まれる。 However, there may be various environments in which speaker authentication is actually used. Therefore, when constructing such a voice authentication device, it is desired to improve noise resistance so that practically sufficient authentication accuracy can be obtained even under various noise environments.
本発明は以上の点を考慮してなされたもので、耐雑音性及び信頼性を格段的に向上させ得る音声認証装置及び方法並びにプログラムを提案しようとするものである。 The present invention has been made in view of the above points, and an object of the present invention is to propose a voice authentication apparatus, method, and program capable of significantly improving noise resistance and reliability.
かかる課題を解決するため本発明においては、音声認証装置において、入力する音声信号に基づいて、話者の個人性を表す所定の特徴パラメータを順次生成して出力する特徴パラメータ生成手段と、音声信号の有音区間を検出する有音区間検出手段と、音声信号の有声音区間を検出する有声音区間検出手段と、有音区間検出手段及び有声音検出手段の検出結果に基づいて、特徴パラメータ生成手段から順次出力される特徴パラメータの中から音声信号における有音区間かつ有声音区間の特徴パラメータを抽出する特徴パラメータ抽出手段と、特徴パラメータ抽出手段により抽出された特徴パラメータに基づいて、話者認証を行う話者認証手段とを設けるようにした。 In order to solve such a problem, in the present invention, in the voice authentication apparatus, a feature parameter generating means for sequentially generating and outputting a predetermined feature parameter representing the personality of the speaker based on the input voice signal, and the voice signal Based on the detection results of the voiced section detecting means for detecting the voiced section of the voice signal, the voiced section detecting means for detecting the voiced section of the voice signal, and the voiced section detecting means and the voiced sound detecting means Feature parameter extracting means for extracting feature parameters of voiced and voiced sections in the speech signal from the feature parameters sequentially output from the means, and speaker authentication based on the feature parameters extracted by the feature parameter extracting means And a speaker authentication means.
この結果この音声認証装置では、環境雑音に対して安定な特徴を示す特徴パラメータのみを利用した話者登録及び話者照合を行うことができるため、話者登録時や話者照合時における環境雑音の影響を受け難くすることができる。 As a result, this voice authentication device can perform speaker registration and speaker verification using only feature parameters that exhibit stable characteristics against environmental noise, so environmental noise during speaker registration and speaker verification Can be made less susceptible to
また本発明においては、音声認証方法において、入力する音声信号に基づいて、話者の個人性を表す所定の特徴パラメータを順次生成して出力すると共に、音声信号の有音区間及び有声音区間をそれぞれ検出する第1のステップと、生成した特徴パラメータの中から音声信号における有音区間かつ有声音区間の特徴パラメータを抽出する第2のステップと、抽出した特徴パラメータに基づいて、話者認証を行う第3のステップとを設けるようにした。 According to the present invention, in the voice authentication method, predetermined feature parameters representing the individuality of the speaker are sequentially generated and output based on the input voice signal, and the voiced and voiced sections of the voice signal are determined. Speaker authentication is performed based on the first step for detecting each, the second step for extracting the feature parameters of the voiced and voiced sections of the speech signal from the generated feature parameters, and the extracted feature parameters. And a third step to be performed.
この結果この音声認証方法によれば、環境雑音に対して安定な特徴を示す特徴パラメータのみを利用した話者登録及び話者照合を行うことができるため、話者登録時や話者照合時における環境雑音の影響を受け難くすることができる。 As a result, according to this voice authentication method, speaker registration and speaker verification can be performed using only feature parameters that show stable characteristics against environmental noise. Therefore, at the time of speaker registration or speaker verification It can be made less susceptible to environmental noise.
さらに本発明においては、プログラムにおいて、コンピュータに、入力する音声信号に基づいて、話者の個人性を表す所定の特徴パラメータを順次生成して出力すると共に、音声信号の有音区間及び有声音区間をそれぞれ検出する第1のステップと、生成した特徴パラメータの中から音声信号における有音区間かつ有声音区間の特徴パラメータを抽出する第2のステップと、抽出した特徴パラメータに基づいて、話者認証を行う第3のステップとを有する処理を実行させるようにした。 Furthermore, in the present invention, the program sequentially generates and outputs predetermined characteristic parameters representing the personality of the speaker based on the voice signal input to the computer, and also includes the voiced and voiced sections of the voice signal. A second step of extracting the feature parameters of the voiced and voiced sections of the speech signal from the generated feature parameters, and speaker authentication based on the extracted feature parameters And a third step of performing the process.
この結果このプログラムによれば、環境雑音に対して安定な特徴を示す特徴パラメータのみを利用した話者登録及び話者照合を行うことができるため、話者登録時や話者照合時における環境雑音の影響を受け難くすることができる。 As a result, according to this program, speaker registration and speaker verification can be performed using only feature parameters that show stable characteristics against environmental noise. Can be made less susceptible to
本発明によれば、音声認証装置及び方法並びにプログラムにおいて、入力する音声信号に基づいて、話者の個人性を表す所定の特徴パラメータを順次生成して出力すると共に、音声信号の有音区間及び有声音区間をそれぞれ検出し、生成した特徴パラメータの中から音声信号における有音区間かつ有声音区間の特徴パラメータを抽出し、抽出した特徴パラメータに基づいて話者認証を行うようにしたことにより、環境雑音に対して安定な特徴を示す特徴パラメータのみを利用した話者登録及び話者照合を行うことができるため、話者登録時や話者照合時における環境雑音の影響を受け難くすることができ、かくして耐雑音性及び信頼性を格段的に向上させ得る音声認証装置及び方法並びにプログラムを実現できる。 According to the present invention, in the voice authentication apparatus, method, and program, the predetermined feature parameters representing the personality of the speaker are sequentially generated and output based on the input voice signal, By detecting each voiced sound section, extracting the feature parameters of the voiced sound section and the voiced sound section from the generated feature parameters, and performing speaker authentication based on the extracted feature parameters, Speaker registration and speaker verification using only feature parameters that show stable characteristics against environmental noise can be performed, making it less susceptible to environmental noise during speaker registration and speaker verification. Thus, it is possible to realize a voice authentication apparatus, method, and program capable of significantly improving noise resistance and reliability.
以下図面について、本発明の一実施の形態を詳述する。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
(1)第1の実施の形態
(1−1)原理
雑音環境下において話者認証の認証精度が劣化する原因の1つとして、音声が存在しない、つまり話者の個人性情報を含まない区間の音声情報を話者認証に用いていることが挙げられる。
(1) First Embodiment (1-1) Principle As one of the causes of deterioration in authentication accuracy of speaker authentication under a noisy environment, there is no voice, that is, a section that does not include speaker personality information Is used for speaker authentication.
そこで、例えばCELP符号化方式により符号化された音声情報を利用して話者認証を行う音声認証装置において、環境雑音に対して安定な特徴を示すフレームのLSPのみを選択的に抽出し、このLSPを用いて登録処理や照合処理を行うことが耐雑音処理として有効であると考えられる。 Therefore, for example, in a voice authentication apparatus that performs speaker authentication using voice information encoded by the CELP encoding method, only LSPs of frames that show stable characteristics against environmental noise are selectively extracted. It is considered that registration processing and verification processing using LSP is effective as noise-proof processing.
この場合、ITU/T(International Telecommunication Union / Telecommunication Standardization Sector)では、CELP符号化方式の一種であるCS−ACELP(Conjugate Structure-Algebraic CELP)符号化方式がG.729として標準化されており、さらにこのCS−ACELP符号化方式をVoIP等に適用するために、無音区間を圧縮処理してビットレートを下げる方式がG.729 AnnexBとして標準化されている。 In this case, in ITU / T (International Telecommunication Union / Telecommunication Standardization Sector), a CS-ACELP (Conjugate Structure-Algebraic CELP) encoding method which is a kind of CELP encoding method is standardized as G.729. In order to apply the CS-ACELP coding method to VoIP and the like, a method for compressing a silent section and reducing the bit rate is standardized as G.729 Annex B.
そしてこのG.729 AnnexBでは、無音区間の検出のためのアルゴリズムとしてVAD(Voice Activity Decision)アルゴリズムが採用されている。そこで、このVADアルゴリズムを用いて音声区間のフレームのLSPのみを抽出し、このLSPを用いて話者登録や話者照合を行うことによって、環境雑音の影響を受け難くすることができるものと考えられる。 In G.729 Annex B, a VAD (Voice Activity Decision) algorithm is adopted as an algorithm for detecting a silent section. Therefore, by extracting only the LSP of the frame of the voice section using this VAD algorithm and performing speaker registration and speaker verification using this LSP, it is considered that it can be made less susceptible to environmental noise. It is done.
一方、CS−ACELP符号化方式による符号化処理により得られるパラメータの1つであるピッチ(Pitch delay)は、励振信号の基本周期を表すものであり、有声音における音の高低に対応するパラメータである。有声音は無声音と比べてパワーが強く、有声音のLSPは話者の声道の特徴を安定して表現できる。従って、ピッチを利用して有声音区間のフレームのLSPを抽出することで、雑音環境下においても変化の少ない安定したLSPを取得できることが期待できる。 On the other hand, the pitch (Pitch delay), which is one of the parameters obtained by the encoding process using the CS-ACELP encoding method, represents the fundamental period of the excitation signal, and is a parameter corresponding to the level of the sound in the voiced sound. is there. Voiced sound has stronger power than unvoiced sound, and LSP of voiced sound can stably express the characteristics of the vocal tract of the speaker. Therefore, it can be expected that a stable LSP with little change can be obtained even in a noisy environment by extracting the LSP of the frame of the voiced sound section using the pitch.
ここで、VADアルゴリズムによる有音/無音フレームの挙動と、ピッチ及び有声音/無声音フレームの関係とについて本願出願人が調べたところ、
(1)ピッチが安定しているフレームは、雑音によるLSPの変化が小さい
(2)ピッチは無声音フレームではほとんど安定せず、有声音フレームで安定する
(3)ピッチは無音フレームの一部で安定する場合がある
という事実が明らかになった。
Here, the applicant of the present invention investigated the behavior of voiced / silent frames by the VAD algorithm and the relationship between the pitch and voiced / unvoiced frames.
(1) A frame with a stable pitch has a small change in LSP due to noise.
(2) The pitch is hardly stable in the unvoiced sound frame, but stable in the voiced sound frame.
(3) The fact that the pitch may be stable in a part of the silent frame was revealed.
従って、これらの事実から、VADアルゴリズムとピッチの安定区間を抽出する手法とを組み合わせることによって、精度良く有声音のフレームを抽出することができるものと思われる。すなわちVADアルゴリズムによって有音区間と判定され、かつピッチに基づき有声音区間と判定される区間内のフレームを選択することによって、環境雑音に対して安定な特徴を示すフレームのLSPのみを抽出することができ、このLSPを用いて話者登録や話者照合を行うことによって、環境雑音の影響を低減させて、信頼性の高い話者認証を行うことができるものと考えられる。以下、かかる原理を適用した音声認証装置について説明する。 Therefore, from these facts, it is considered that a frame of voiced sound can be extracted with high accuracy by combining the VAD algorithm and a technique for extracting a stable section of pitch. That is, by selecting a frame within a section determined as a voiced section by the VAD algorithm and determined as a voiced section based on the pitch, only the LSP of a frame showing a stable characteristic against environmental noise is extracted. By performing speaker registration and speaker verification using this LSP, it is considered that the influence of environmental noise can be reduced and speaker authentication with high reliability can be performed. Hereinafter, a voice authentication device to which such a principle is applied will be described.
(1−2)第1の実施の形態による音声認証装置の構成
図1において、10は全体として本実施の形態による音声認証装置を示し、話者の音声をマイクロホン(図示せず)により集音することにより得られた音声信号S1をCELP符号化部2に入力する。
(1-2) Configuration of Voice Authentication Device According to First Embodiment In FIG. 1,
CELP符号化部2は、供給される音声信号S1に対してCS−ACELP符号化方式による符号化処理を施し、得られたフレーム(10〔ms〕)ごとの量子化されたLSPをフレーム選択処理部3に送出する。またCELP符号化部2は、かかるCS−ACELP符号化処理によりサブフレーム(5〔ms〕)ごとに得られるピッチ(Pitch delay)をピッチ情報として有声音/無声音判定部4に送出する。
The
有声音/無声音判定部4は、供給されるピッチ情報に基づいて、そのとき対象としているフレームが有声音区間及び無声音区間のいずれのものであるか否かをサブフレームごとに判定する。
Based on the supplied pitch information, the voiced / unvoiced
具体的には、有声音/無声音判定部4は、図2に示す有声音/無声音判定処理手順RT1に従って、まず対象とするフレームを中心としたN(例えば10)点のピッチを抽出し(ステップSP1)、この後これら抽出した10個のピッチの値を最小二乗法により直線で近似して、このときの平均二乗誤差Dを算出する(ステップSP2)。
Specifically, the voiced / unvoiced
次いで有声音/無声音判定部4は、このようにして求めた平均二乗誤差Dが、当該平均二乗誤差Dについて予め定められた第1の閾値Dth未満であり、かつそのとき注目しているピッチの値が当該値Pについて予め定められた第2の閾値Pth未満であるか否かを判断する(ステップSP3)。
Next, the voiced / unvoiced
そして有声音/無声音判定部4は、この判断の結果として肯定結果を得た場合には、そのフレームがピッチが安定した有声音区間のものであると判定し(ステップSP4)、否定結果を得た場合には、そのフレームがピッチが安定していない無声音区間のものであると判定して(ステップSP5)、この判定結果を有声音/無声音判定信号S2としてフレーム選択処理部に送出する(ステップSP6)。
When the voiced / unvoiced
さらに有声音/無声音判定部4は、この後同様の処理をサブフレームごとに繰り返す(ステップSP1〜ステップSP6)。このようにして有声音/無声音判定部4は、サブフレームごとに、対象とするフレームが有声音区間及び無声音区間のいずれのものであるか否かの判定結果を有声音/無声音判定信号S2として順次フレーム選択処理部3に送出する。
Furthermore, the voiced / unvoiced
一方、マイクロホンからの音声信号S1は、有音/無音判定部5にも与えられる。そして有音/無音判定部5は、供給される音声信号S1について、VADアルゴリズムを用いてフレームごとにそのフレームが有音区間及び無声音区間のいずれのものであるか否かを判定する。
On the other hand, the sound signal S <b> 1 from the microphone is also given to the sound /
実際上、有音/無音判定部5は、図3に示すVADアルゴリズムによる有音/無音判定処理手順RT2に従って、フレーム(10〔ms〕)ごとに、まず全帯域エネルギ、低帯域エネルギ及び零交差率を求める。また有音/無音判定部5は、これと共に後述するCELP符号化部2における場合と同様にしてLSPを求め、このLSPのスペクトルを算出する(ステップSP11)。
Actually, the voice /
そして有音/無音判定部5は、これらLSPから求めたスペクトル、全帯域エネルギ、低帯域エネルギ及び零交差率と、後述する環境雑音におけるこれら4つのパラメータの各平均値との差分をそれぞれ求めることにより、当該4つのパラメータの差分パラメータを生成する(ステップSP12)。
Then, the sound /
また有音/無音判定部5は、この後ステップSP11において得られた全帯域エネルギが15〔dB〕以下であるか否かを判断し(ステップSP13)、肯定結果を得た場合にはそのフレーム内の音は「雑音」であると判定する一方(ステップSP14)、否定結果を得た場合には、かかる4つの差分パラメータが作る4次元ベクトル空間上の位置から、そのフレーム内の音が「音声」及び「雑音」のいずれであるかを初期判定する(ステップSP15)。
Further, the sound /
続いて有音/無音判定部5は、前数フレーム分の初期判定結果に基づいて当該判定結果のスムージング(平滑化)処理を行うことにより、そのフレームについて、「音声」及び「雑音」のいずれであるかを最終的に判定する(ステップSP16)。この結果、例えば2つ前のフレーム、1つ前のフレームがともに「音声」で、対象とするフレームの初期判定が「雑音」の場合、前フレームとのエネルギの差がある閾値よりも小さいときには、対象とするフレームでは音声が連続している判断し、最終判断では「雑音」から「音声」に変更されることとなる。
Subsequently, the voice /
そして有音/無音判定部5は、このようにして得られた最終的な判定結果に基づいて、「音声」と判定した場合には「有音区間」、「雑音」と判定した場合には「無音区間」との判定結果を有音/無音判定信号S3としてフレーム選択処理部3に送出する(ステップSP7)。
Then, the sound /
また有音/無音判定部5は、そのフレームについて、最終的に「雑音」と判定したか否かを判断し(ステップSP18)、否定結果を得た場合には次のフレームに処理を移し(ステップSP11)、これに対して肯定結果を得た場合には、そのフレームについて抽出したLSPから求めたスペクトル、全帯域エネルギ、低帯域エネルギ及び零交差率を利用して、背景雑音におけるこれら4つのパラメータの各平均値を更新する(ステップSP19)。
The sound /
そして有音/無音判定部5は、この後各フレームについて同様の処理を繰り返す(ステップSP11〜ステップSP19)。このようにして有音/無音判定部5は、フレームごとに、「有音区間」又は「無音区間」の判定結果を有音/無音判定信号S3として順次フレーム選択処理部3に送出する。
The sound /
フレーム選択処理部3は、供給される有音声/無声音判定信号S2及び有音/無音判定信号S3に基づいて、フレームごとに、そのフレームが有音区間かつ有声音区間のものであるか否かを判断する。この際フレーム選択処理部3は、有音/無音判定信号S3に基づき得られる有音区間であるか否かの判定結果がフレーム単位(10〔ms〕)であるのに対し、有声音/無声音判定信号S2に基づき得られる有声音区間であるか否かの判定結果がサブフレーム(5〔ms〕)単位であるため、図4に示すように、奇数番目のサブフレームの判定結果に基づいてそのフレームが有声音区間のものであるか否かを判断する。
Based on the supplied voiced / unvoiced sound determination signal S2 and voiced / silent sound determination signal S3, the frame
そしてフレーム選択処理部3は、かかる判断結果に基づいて、CELP符号化部2から順次供給される各フレームのLSPのうち、有音区間かつ有声音区間であると判定されたフレームのLSPのみを抽出する。そしてフレーム選択部3は、登録モード時には、このようにして得られた有音区間かつ有声音区間のフレームのLSPを重み付け処理部6に送出する。
Then, based on the determination result, the frame
重み付け処理部6は、フレーム選択処理部3から供給される各LSPに対して、当該LSPの平均値(以下、これを平均LSPと呼ぶ)に所定の重み付け係数wを乗じたものを加算する重み付け処理を施す。この場合、話者の平均LSPは個人性を表すことが知られており、このような重み付け処理を施すことで、個人性を強調して、図5に示すように、LSPが作る10次元ユークリッド空間における話者ごとの分布を分離することができる。そして重み付け処理部6は、このようにして得られた重み付けされたLSPをクラスタリング部7に送出する。
The
クラスタリング部7は、図6に示すように、フレーム選択処理部3から供給されるLSPに対してLBG+splittingアルゴリズムによるクラスタリング処理を実行する。
As shown in FIG. 6, the
ここでLBGアルゴリズムは、適当な初期コードブックCN (0)から出発し、学習系列Tに分割条件と代表点条件を繰り返し適用することで、良好なコードブックに収束させる設計アルゴリズムである。そしてこのLBGアルゴリズムによるクラスタリング処理は、図7に示すクラスタリング処理手順RT3に従って行われる。 Here, the LBG algorithm is a design algorithm that starts from an appropriate initial codebook C N (0) and converges to a good codebook by repeatedly applying a division condition and a representative point condition to the learning sequence T. The clustering process by the LBG algorithm is performed according to the clustering process procedure RT3 shown in FIG.
すなわちLBGアルゴリズムによるクラスタリング処理では、まず次元数をK、レベル数をNとして、N個の初期量子化代表ベクトルy1 (0),y2 (0),……,yN (0)からなる初期コードブックCN (0)と、L個のK次元学習ベクトルx1 (0),x2 (0),……,xN (0)からなる学習系列Tと、収束判定用閾値εとが予め与えられているものとして、mを「0」、初期ひずみD(−1)を無限大にそれぞれ設定(m=0、D(−1)=∞)する(ステップSP1)。 That is, in the clustering process by the LBG algorithm, first, the number of dimensions is K, the number of levels is N, and N initial quantization representative vectors y 1 (0) , y 2 (0) ,..., Y N (0) are included. A learning sequence T composed of an initial codebook C N (0) , L K-dimensional learning vectors x 1 (0) , x 2 (0) ,..., X N (0) , a convergence determination threshold ε, Are set in advance, m is set to “0”, and initial strain D (−1) is set to infinity (m = 0, D (−1) = ∞) (step SP1).
続いて、量子化代表ベクトルy1 (m),y2 (m),……,yN (m)からなるコードブックCN (m)のもとで、平均ひずみD(m)を最小とするN個の領域p1 (m),p2 (m),……,pN (m)への学習系列Tの分割PN (m)を分割条件を適用してから定める。すなわち、量子化代表ベクトルyi (m)に対応した領域Pi (m)は、N個の量子化代表ベクトルのなかでyi (m)とのひずみが最小となる学習ベクトルの集合で与えられる。こうしてL個の学習ベクトルがN個の領域に分割される。また各領域に所属する学習ベクトルをその領域内の量子化代表ベクトルで置き換えたときに生じる平均ひずみD(m)を算出する(ステップSP2)。 Subsequently, the average distortion D (m) is minimized under the codebook C N (m) composed of the quantized representative vectors y 1 (m) , y 2 (m) ,..., Y N (m). N regions p 1 to (m), p 2 (m ), ......, defined division of the learning sequence T to p N (m) P N (m) is after applying the divided condition. That is, the region corresponding to the quantization representative vector y i (m) P i ( m) is given by a set of learning vector strain and y i (m) among the N quantization representative vector is minimized It is done. In this way, L learning vectors are divided into N regions. Further, the average distortion D (m) that occurs when the learning vector belonging to each region is replaced with the quantized representative vector in that region is calculated (step SP2).
次に、このようにして求めた平均ひずみD(m)が次式 Next, the average strain D (m) thus determined is
を満たすか否かを判定し(ステップSP3)、満たさない場合には、N個の領域p1 (m),p2 (m),……,pN (m)への学習系列Tの分割PN (m)のもとで、学習系列Tに対して平均ひずみD(m)を最小とするN個の量子化代表ベクトルy1 (m),y2 (m),……,yN (m)からなるコードブックCNを代表点条件を適用して定める。領域Pi (m)に所属する学習ベクトルTの平均ベクトルとして与えられる重心を量子化代表ベクトルyiとする(ステップSP24)。さらにmをインクリメントし、CNをコードブックCN (m)として(ステップSP25)、同様の処理を繰り返す。 (Step SP3), if not, the learning sequence T is divided into N regions p 1 (m) , p 2 (m) ,..., P N (m) . N quantization representative vectors y 1 (m) , y 2 (m) ,..., Y N that minimize the average distortion D (m) with respect to the learning sequence T under P N (m). the codebook C N consisting of (m) determined by applying the representative point condition. The center of gravity given as the average vector of the learning vectors T belonging to the region P i (m) is set as a quantized representative vector y i (step SP24). Further, m is incremented, C N is set as the code book C N (m) (step SP25), and the same processing is repeated.
そして、やがて平均ひずみD(m)が(3)式を満たすと処理を停止して、このときのコードブックCN (m)を最終的に設計したNレベルのコードブックに決定する(ステップSP26)。これにより最終的に適切な状態に収束したNレベルのコードブックを得ることができる。 Then, when the average strain D (m) eventually satisfies the equation (3), the processing is stopped, and the code book C N (m) at this time is finally determined as the designed N-level code book (step SP26). ). As a result, an N-level codebook finally converged to an appropriate state can be obtained.
一方、LBGアルゴリズムにより設計されたコードブックの良否は、初期コードブックCN (0)と学習系列Tの選定に強く依存する。初期コードブックCN (0)は想定される入力ベクトルの分布範囲を被覆していることが望ましい。この条件をある程度満足する初期コードブックの生成方法として、splittingアルゴリズムが知られている。 On the other hand, the quality of the code book designed by the LBG algorithm strongly depends on the selection of the initial code book C N (0) and the learning sequence T. The initial codebook C N (0) preferably covers the assumed input vector distribution range. A splitting algorithm is known as a method for generating an initial codebook that satisfies this condition to some extent.
このsplittingアルゴリズムは、NレベルのコードブックCNの量子化代表ベクトルy1,y2,……,yNを次式
The splitting algorithm, the
のように微小なベクトルδを用いて接近した2つのベクトルに分割することによって、量子化代表ベクトルy1,y2,……,y2Nからなる2Nレベルの初期コードブックC2N (0)を生成するものである。そしてこのsplittingアルゴリズムをLBCアルゴリズムと組み合わせることによって、1レベルのコードブックから出発して順次2,4,8,……レベルのコードブックを設計することができる。 By dividing into two vectors in proximity with the minute vector δ as, quantization representative vector y 1, y 2, ......, y 2N consists 2N level of initial codebook C 2N (0) is Is to be generated. By combining this splitting algorithm with the LBC algorithm, it is possible to design codebooks of 2, 4, 8,.
かくしてクラスタリング部7は、重み付け処理部6から供給される重み付け処理された各LSPに対して、このようなLBCアルゴリズム及びsplittingアルゴリズムを組み合わせたLBG+splittingアルゴリズムによるクラスタリング処理を実行することにより、その話者に固有のLSPと同じ10次元のN(例えば16)個の量子化代表ベクトルを得、これらをその話者の特徴コードブックCB(図6)として例えばフラッシュメモリやハードディスク等でなる記憶部8に格納して保存する。
Thus, the
一方、照合モード時には、重み付け処理部6から出力される重み付け処理されたLSPが照合部9のベクトル量子化部10に与えられる。また照合モード時、対象とする登録話者の特徴コードブックCBが記憶部8から読み出されてベクトル量子化部10に与えられる。
On the other hand, in the collation mode, the weighted LSP output from the
かくしてベクトル量子化部10は、図8に示すように、重み付け処理部6から順次与えられる有音区間かつ有声音区間のフレームの各LSPを、特徴コードブックCBでベクトル量子化することにより、当該フレームごとの量子化誤差を算出する。すなわちベクトル量子化部10は、各LSP(10次元ベクトル)について、特徴コードブロックCBを構成する16個の量子化代表ベクトル(10次元ベクトル)との間の各距離をそれぞれ順に算出する。
Thus, as shown in FIG. 8, the
そしてベクトル量子化部10は、このようにしてそのフレームについて得られた16個の距離のうちの最小のもの(以下、これを最小量子化誤差と呼ぶ)を量子化誤差検出信号S4として判定部11に送出する。
Then, the
判定部11は、最小量子化誤差検出信号S4に基づき得られる各フレームの最小量子化誤差の値と、当該量子化誤差について予め設定された所定の第3の閾値とを比較する。この比較は、照合音声の音声長として予め定められた時間に応じて設定された規定フレーム数分だけ行われる。そして判定部11は、最小量子化誤差が当該第3の閾値よりも小さいフレーム数をカウントし、当該フレーム数が予め設定された第4の閾値以上であったときに、そのときの話者を本人であると判定し、判定結果を判定信号S5として出力する。
The
なおCELP符号化部2の具体的構成を図9に示す。CELP符号化部2では、供給される音声信号S1をハイパスフィルタでなる前処理部20に入力する。そして前処理部20は、供給される音声信号S1に対して140〔Hz〕をカットオフ周波数とするフィルタリング処理を施し、かくして得られた雑音成分を除去した音声信号S10をLPC(Linear Predictor Coefficients)分析部21及び減算部22に入力する。
A specific configuration of the
LPC分析部21は、供給される音声信号S10に対して線形予測分析をフレーム(10〔ms〕)ごとに行うことにより、フレームごとの合成フィルタのフィルタ係数(LPC)を決定して、これを合成フィルタ23に設定する。またLPC分析部21は、この後このようにして得られた各フィルタ係数(LPC)をそれぞれLSPに変換し、これらLSPを量子化した後に、これを上述のようにフレーム選択処理部3(図1)に送出する。
The
一方、合成フィルタ23は、サブフレームごとに、後述のように加算部29から供給される音源信号S11に対してそのとき設定されたフィルタ係数(LPC)でフィルタリング処理することにより合成音声の音声信号でなる合成音声信号S12を生成し、これを減算部22に送出する。
On the other hand, the
そして減算部22は、供給される音声信号S10から合成音声信号S12を減算処理することにより、入力音声と合成音声の波形歪み成分を表す歪み検出信号S13を得、これを聴感重み付け部24に送出する。
The
このとき聴感重み付け部24には、LPC分析部21からそのときの合成フィルタ23のフィルタ係数(LPC)が与えられる。かくして聴感重み付け部24は、歪み検出信号S13に対して聴感上の歪みが最小となるよう、かかる合成フィルタ23のフィルタ係数(LPC)に基づき決定されるフィルタ係数の所定のフィルタリング処理を施し、得られた聴感重み付け歪み検出信号S14をピッチ分析部25及び固定コードブック探索部26に送出する。
At this time, the
ピッチ分析部25は、供給される聴感重み付け歪み検出信号S14に基づいて、合成音声のピッチL及び当該合成音声のピッチ成分に対するゲインGPをA-b-Sによって決定する。具体的に、ピッチ分析部25は、聴感重み付け部24から与えられる聴感重み付け歪み検出信号S14と、後述のように加算部29から与えられる音源信号S11とに基づいて、聴感重み付け歪み検出信号S14の信号レベルが最も小さくなるようなピッチLを選択し、これを現在のサブフレームのピッチLに決定する。そしてピッチ分析部25は、このようにして決定したピッチLを上述のように有声音/無声音区間判定部4(図1)に送出する。
The
なおピッチLが決定すると、これに応じてゲインG1も決定する。そしてこの決定結果に応じたコードベクトルが適応コードブック27から出力され、これが増幅部28において上述のゲインGPで増幅処理されて加算部29に与えられる。
Note the pitch L is determined, the gain G 1 is also determined accordingly. A code vector corresponding to the determination result is output from the
またこのとき固定コードブック探索部26は、適応コードブック27による合成音声を入力音声から取り除いた差分音声についての音源信号S11をA-b-Sによって決定する。具体的に固定コードブック探索部26は、固定コードブック30から予め用意されている各コードベクトルのうちの1つのコードベクトルを出力させる。なお1つのコードベクトルに対して1つのゲインGCが決定する。そしてこの固定コードブック30から出力されたコードベクトルが、この後増幅部31において上述のゲインGCで増幅処理されて、加算部29に与えられる。
At this time, the fixed
加算部29は、これらゲインGPで増幅処理された適用コードブック27からのコードベクトルと、ゲインGCで増幅処理された固定コードブック30からのコードベクトルとを加算することにより、音声生成モデルにおける人間の声帯振動に対応する音源信号S11を生成し、これを当該音声生成モデルにおける人間の調音運動すなわち声道の伝達関数に対応する合成フィルタ23と、上述のピッチ分析部25とにそれぞれ送出する。
かくしてこの音源信号S11が、この後上述のように合成フィルタ23においてフィルタリング処理されることにより合成音声が生成され、この合成音声と入力音声との間の歪みが聴感重み付け部24においてフィルタリング処理されて固定コードブック探索部26に与えられる。そして固定コードブック探索部26は、同様の操作をすべてのコードベクトルについて行い、歪みが最も小さくなるコードベクトルをそのときのコードベクトルとして決定する。
Thus, the sound source signal S11 is subsequently filtered in the
このようにしてこのCELP符号化部2においては、入力する音声信号S1に基づいてLSP及びピッチを得ることができるようになされている。
In this way, the
(1−3)本実施の形態の動作及び効果
以上の構成において、この音声認証装置1では、CS−ACELP符号化方式による符号化処理により得られたピッチ情報に基づいて有声音区間を検出すると共に、VADアルゴリズムにより有音区間を検出し、CS−ACELP符号化方式による符号化処理により得られたフレームごとのLSPのうちの有音区間かつ有声音区間のフレームのLSPのみを抽出して、このLSPを利用して話者登録及び話者照合を行う。
(1-3) Operation and effect of the present embodiment In the above configuration, the
従って、この音声認証装置1では、環境雑音に対して安定な特徴を示すフレームのLSPのみを利用した話者登録及び話者照合を行うことができるため、話者登録時や話者照合時における環境雑音の影響を受け難くすることができる。
Therefore, since this
実際上、研究用ATR日本語音声データベースに収録された雑音を含まない理想的な音声に、電子協騒音データベースに収録された上述の「自動車(car)」、「人ごみ(crowd)」、「駅(station)」又は「交差点(street)」の雑音を、SN比が10〔dB〕、15〔dB〕、20〔dB〕となるように付加割合を順次変えながら付加して、上述のフレーム選択処理による耐雑音処理を行った場合と、行わなかった場合とにおける話者認証の信頼性を評価する実験を行ったところ、図10及び図11に示すような実験結果が得られた。なお、ここでも評価はEERを用いて行っている。 In fact, the above-mentioned “car”, “crowd” and “station” recorded in the electronic cooperative noise database are added to the ideal speech without noise included in the ATR Japanese speech database for research. (Station) or “street” noise is added by changing the addition ratio sequentially so that the SN ratio is 10 [dB], 15 [dB], and 20 [dB], and the above frame selection Experiments were performed to evaluate the reliability of speaker authentication in the case where noise proofing processing was performed and in the case where noise proofing processing was not performed. As a result, experimental results as shown in FIGS. 10 and 11 were obtained. Here, the evaluation is also performed using EER.
この実験結果からも明らかなように、雑音の種類によって多少の精度の違いはあるものの、全体としてかかるフレーム選択処理による耐雑音処理を行なった場合(図10)の方が、当該耐雑音処理を行わなかった場合(図11)に比べて誤り率が低くなる。従って、この耐雑音処理を行うことによって信頼性の高い話者認証を行い得ることが分かる。 As is clear from this experimental result, although there is a slight difference in accuracy depending on the type of noise, the noise proofing process is performed when the noise proofing process by the frame selection process as a whole (FIG. 10) is performed. The error rate is lower than when not performed (FIG. 11). Therefore, it can be seen that highly reliable speaker authentication can be performed by performing the noise proof processing.
またこれとは別に、音声長(発話時間)を5秒、10秒、20秒、30秒と変えて、音声長と照合精度との関係について評価する実験を行ったところ、図12及び図13に示すような実験結果が得られた。 Separately from this, when the voice length (speech time) was changed to 5 seconds, 10 seconds, 20 seconds, and 30 seconds, an experiment for evaluating the relationship between the voice length and the collation accuracy was performed. Experimental results as shown in Fig. 1 were obtained.
この実験結果からも分かるように、上述のフレーム選択処理による耐雑音処理を行なった場合(図12)と、当該耐雑音処理を行わなかった場合(図13)とのいずれの場合においても音声長が長いほど照合精度が高くなるが、耐雑音処理を行うことによって、より短時間で耐雑音処理を行わなかった場合と同じ照合精度を得ることができる。従って、かかる耐雑音処理を行うことによって短時間で信頼性の高い話者認証を行い得ることが分かった。 As can be seen from the results of this experiment, the voice length in both cases where the noise immunity processing by the above-described frame selection processing is performed (FIG. 12) and when the noise immunity processing is not performed (FIG. 13). The longer the length is, the higher the collation accuracy is. However, by performing the noise proofing process, it is possible to obtain the same matching precision as when the noise proofing process is not performed in a shorter time. Therefore, it was found that reliable speaker authentication can be performed in a short time by performing such noise proof processing.
以上の構成によれば、有音区間かつ有声音区間のフレームのLSPのみを利用して話者登録及び話者照合を行うようにしたことにより、話者登録時や話者照合時における環境雑音の影響を受け難くすることができ、かくして耐雑音性が高く、信頼性の高い話者認証を行い得る音声照合装置を実現できる。 According to the above configuration, since the speaker registration and the speaker verification are performed using only the LSP of the voiced and voiced frame, the environmental noise at the time of speaker registration and speaker verification is obtained. Thus, it is possible to realize a voice collation apparatus that can perform speaker authentication with high noise resistance and high reliability.
(2)第2の実施の形態
(2−1)原理
図1について上述した第1の実施の形態による音声認証装置1では、平均LSPに表れる個人性を重要視し、重み付け処理部6において、フレーム選択処理部3から出力される有音区間かつ有声音区間のフレームのLSPに対して平均LSPに所定の重み付け係数wを乗じたものを加算する重み付け処理を行っている。
(2) Second Embodiment (2-1) Principle In the
しかしながら、このような方法によると、平均LSPが安定するまでに相当の時間を要するという問題があり、さらに平均LSPには雑音成分も含まれるために付加雑音の影響を受け易いという問題もある。 However, according to such a method, there is a problem that it takes a considerable time until the average LSP is stabilized, and there is also a problem that the average LSP is easily affected by additional noise because it includes a noise component.
一方、図1について上述した照合部9のベクトル量子化部10において算出される量子化誤差は、照合音声に基づく各LSPと、登録音声に基づく登録話者に固有のパラメータである量子化代表ベクトルとの間の距離を表すものであり、この値が小さければ小さいほど照合話者が登録話者である可能性が高い。
On the other hand, the quantization error calculated in the
従って、ベクトル量子化部10から出力される、これら量子化誤差の最小値である最小量子化誤差の平均に基づいて照合話者が登録話者であるか否かを判定しても、実用上十分な照合精度が得られるものと思われる。
Therefore, even if it is determined whether or not the collation speaker is a registered speaker based on the average of the minimum quantization errors, which are the minimum values of these quantization errors, output from the
そしてこの方法によれば、照合話者が登録話者である場合には、この値が常に小さい値となると考えられることから、最小量子化誤差の平均値が安定するまでにはそれほどの時間を要せず、また重み付け処理部6における重み付け処理のように付加雑音の平均が付加されることもないことから、付加雑音の影響も少ないものと考えられる。
According to this method, when the verification speaker is a registered speaker, it is considered that this value is always a small value. Therefore, it takes much time until the average value of the minimum quantization error is stabilized. It is not necessary, and since the average of the additional noise is not added unlike the weighting processing in the
そこで、この第2の実施の形態においては、最小量子化誤差の平均に基づく話者認証アルゴリズムを提案する。以下、かかるアルゴリズムを適用した第2の実施の形態による音声認証装置について説明する。 Therefore, in the second embodiment, a speaker authentication algorithm based on the average of minimum quantization errors is proposed. Hereinafter, a voice authentication device according to a second embodiment to which such an algorithm is applied will be described.
(2−2)第2の実施の形態による音声認証装置の構成
図1との対応部分に同一符号を付して示す図14は、第2の実施の形態による音声認証装置40を示すものであり、重み付け処理部6(図1)に代えて照合部41に平均距離演算部42が設けられている点を除いて第1の実施の形態による音声認証装置1(図1)と同様に構成されている。
(2-2) Configuration of Voice Authentication Device According to Second Embodiment FIG. 14 showing the same parts as those in FIG. 1 with the same reference numerals shows a
実際上、この音声認証装置40の場合、フレーム選択処理部3から出力された有音区間かつ有声音区間の各フレームのLSPは、クラスタリング部7に与えられる。そしてクラスタリング部7は、このLSPに基づいて、上述のLBCアルゴリズム及びsplittingアルゴリズムを組み合わせたLBG+splittingアルゴリズムによるクラスタリング処理を実行することにより、その話者に固有のLSPと同じ10次元のN(例えば16)個の量子化代表ベクトルを得、登録モード時には、これらをその話者の特徴コードブックCB(図6)として記憶部8に格納して保存する。
In practice, in the case of the
一方、照合モード時には、登録モード時と同様にして得られた有音区間かつ有声音区間の各フレームのLSPがフレーム選択処理部3から照合部41のベクトル量子化部10に与えられる。また照合モード時、ベクトル量子化部10には、記憶部8に保存された特徴コードブックCBのうち、そのとき対象としている登録話者の特徴コードブックCBも与えられる。
On the other hand, in the verification mode, the LSP of each frame in the voiced and voiced intervals obtained in the same manner as in the registration mode is given from the frame
かくしてベクトル量子化部10は、第1の実施の形態の場合と同様にして、フレーム選択処理部3から順次与えられる各LSPについて、特徴コードブロックCBを構成する16個の量子化代表ベクトルとの間の各距離をそれぞれ順に算出し、得られた16個の距離のうちの最小量子化誤差を量子化誤差検出信号S4として平均距離演算部42に送出する。
In this way, the
平均距離演算部42は、供給される量子化誤差検出信号S4に基づき得られる有音区間かつ有声音区間のフレームごとの最小量子化誤差に基づいて、特徴コードブロックCBの各量子化代表ベクトルと照合音声に基づくLSPとの間の平均距離を算出する。
The average
実際上、平均距離演算部42は、ベクトル量子化部10から与えられる量子化誤差検出信号S4に基づき得られる有音区間かつ有声音区間のフレームごとの最小量子化誤差の平均値を算出する。この際、平均距離演算部42は、かかるフレームごとの最小量子化誤差の平均値を、過去所定フレーム数分の量子化最小誤差を用いて、これら過去所定フレーム数分の量子化最小誤差の平均を算出する移動平均法により算出するようになされ、得られた算出結果を量子化誤差平均値信号S20として判定部43に送出する。
Actually, the average
かくして判定部43は、第1の実施の形態の場合と同様にして、量子化誤差平均値信号S20に基づき得られる該当フレームの最小量子化誤差の平均値と、当該平均値について予め定められた第5の閾値とを比較し、この最小量子化誤差の平均値が当該第5の閾値より小さいときにはそのときの話者を本人であると判定する一方、最小量子化誤差の平均値が当該第5の閾値より大きいときにはそのときの話者を他人であると判定し、判定結果を判定信号S21として出力する。
Thus, the
(2−3)本実施の形態の動作及び効果
以上の構成において、この音声認証装置40では、有音区間かつ有声音区間のフレームの最小量子化誤差の平均値に基づいて話者照合を行う。
(2-3) Operation and effect of the present embodiment In the above configuration, the
従って、この音声認証装置40では、平均LSPを利用した重み付け処理を行う第1の実施の形態による音声認証装置1(図1)と比較して格段的に短時間で同じ精度の話者照合を行うことができ、ほぼリアルタイムでの話者認証を行うことができる。
Therefore, this
実際上、シミュレーションを行ったところ、第1の実施の形態による音声認証装置1において、誤り率30〔%〕程度の認証精度を得るためには15秒程度の時間を必要としたのに対して、この音声認証装置40によれば、1〜2秒程度で同じ認証精度を得ることができることが確認できた。
Actually, when a simulation was performed, the
またこの音声認証装置40では、平均LSPを利用した重み付け処理を行う第1の実施の形態による音声認証装置1と比較して環境雑音の影響を受け難く、その分信頼性の高い話者認証を行うことができる。
Further, the
さらにこの音声認証装置40では、有音区間かつ有声音区間のフレームごとの最小量子化誤差の平均値を算出する際に、過去所定フレーム数分の量子化最小誤差を用いた移動平均法により算出するようにしているため、最新の情報のみを用いて最小量子化誤差の平均値を算出することができ、その分より信頼性の高い話者認証を行うことができる。
Further, in the
以上の構成によれば、有音区間かつ有声音区間のフレームの最小量子化誤差の平均値に基づいて話者照合を行うようにしたことにより、より短時間でより信頼性が高い話者認証を行い得る音声認証装置を実現できる。 According to the above configuration, the speaker verification is performed based on the average value of the minimum quantization error of the frames in the voiced and voiced sections, so that the speaker authentication can be performed more quickly and more reliably. A voice authentication device capable of performing
(3)他の実施の形態
なお上述の第1及び第2の実施の形態においては、音声信号S1における有声音区間を検出する手法として、CS−ACELP符号化処理により得られたピッチ情報を利用するようにした場合について述べたが、本発明はこれに限らず、音声信号S1における有声音区間を検出する手法としては、その音声認証装置において適用する符号化方式等に応じた種々の手法を広く適用することができる。
(3) Other Embodiments In the first and second embodiments described above, pitch information obtained by CS-ACELP coding processing is used as a method for detecting a voiced sound section in the speech signal S1. Although the present invention is not limited to this, the present invention is not limited to this, and as a method for detecting the voiced sound section in the speech signal S1, various methods according to the encoding method applied in the speech authentication apparatus can be used. Can be widely applied.
また上述の第1及び第2の実施の形態においては、音声信号S1における有音区間を検出する手法としてVADアルゴリズムを適用するようにした場合について述べたが、本発明はこれに限らず、この他種々の手法を広く適用することができる。 In the first and second embodiments described above, the case where the VAD algorithm is applied as a method for detecting a voiced section in the audio signal S1 has been described, but the present invention is not limited to this, Various other methods can be widely applied.
ただし、第1及び第2の実施の形態のように音声信号S1における有声音区間を検出する手法として、CS−ACELP符号化処理により得られたピッチ情報を利用する一方、音声信号S1における有音区間を検出する手法としてVADアルゴリズムを適用することによって、既存の携帯電話において得られるパラメータを利用して有音区間かつ有声音区間を検出することができるため、僅かな変更のみで既存の携帯電話に本発明による音声認証機能を搭載することができる利点がある。 However, as a method for detecting the voiced sound section in the speech signal S1 as in the first and second embodiments, the pitch information obtained by the CS-ACELP encoding process is used, while the speech in the speech signal S1 is used. By applying the VAD algorithm as a method for detecting a section, it is possible to detect a voiced section and a voiced section using parameters obtained in an existing mobile phone. There is an advantage that the voice authentication function according to the present invention can be installed.
さらに上述の第2の実施の形態においては、ベクトル量子化部10において算出された16個の距離のうちの最小量子化誤差のみを利用して、特徴コードブロックCBの各量子化代表ベクトルと照合音声に基づくLSPとの間の平均距離を算出するようにした場合について述べたが、本発明はこれに限らず、ベクトル量子化部10において算出された16個の距離すべてを利用して、当該平均値を算出するようにしても良い。
Furthermore, in the above-described second embodiment, only the minimum quantization error among the 16 distances calculated by the
本発明は、CELP符号化方式による符号化処理により得られたパラメータに基づいて話者認証を行う音声認証装置のほか、この他種々の音声情報に基づいて話者認証を行う音声認証装置に広く適用することができる。 The present invention is widely applied to a voice authentication device that performs speaker authentication based on parameters obtained by encoding processing using a CELP encoding method and a voice authentication device that performs speaker authentication based on various types of voice information. Can be applied.
1、40……音声認証装置、2……CELP符号化部、3……フレーム選択部、4……有声音/無声音判定部、5……有音/無音判定部、6……重み付け処理部、7……クラスタリング部、8……記憶部、9、41……照合部、10……ベクトル量子化部、11、43……判定部、42……平均距離演算部、S1……音声信号、S2……有声音/無声音判定信号、S3……有音/無音判定信号、S4……量子化誤差検出信号、S5、S21……判定信号、S20……量子化誤差平均値信号。
DESCRIPTION OF
Claims (9)
上記音声信号の有音区間を検出する有音区間検出手段と、
上記音声信号の有声音区間を検出する有声音区間検出手段と、
上記有音区間検出手段及び上記有声音検出手段の検出結果に基づいて、上記特徴パラメータ生成手段から順次出力される上記特徴パラメータの中から上記音声信号における上記有音区間かつ上記有声音区間の上記特徴パラメータを抽出する特徴パラメータ抽出手段と、
上記特徴パラメータ抽出手段により抽出された上記特徴パラメータに基づいて、話者認証を行う話者認証手段と
を具えることを特徴とする音声認証装置。 Feature parameter generating means for sequentially generating and outputting predetermined feature parameters representing the personality of the speaker based on the input audio signal;
A voiced section detecting means for detecting a voiced section of the audio signal;
Voiced sound section detecting means for detecting a voiced sound section of the voice signal;
Based on the detection results of the voiced section detecting means and the voiced sound detecting means, the voiced section of the voice signal and the voiced voice section of the voice parameter are sequentially output from the feature parameters generated from the feature parameter generating means. Feature parameter extraction means for extracting feature parameters;
A voice authentication apparatus comprising: speaker authentication means for performing speaker authentication based on the feature parameter extracted by the feature parameter extraction means.
上記音声信号をCS−ACELP(Conjugate Structure-Algebraic Code Excited Linear Prediction)符号化方式で符号化処理することにより上記特徴パラメータとしてLSP(Line Spectrum Pair)をフレーム単位で生成し、
上記有声音区間検出手段は、
上記特徴パラメータ生成手段において上記音声信号を上記符号化処理することにより得られたピッチ情報に基づいて上記音声信号の有声音区間を検出し、
上記有音区間検出手段は、
VAD(Voice Activity Decision)アルゴリズムを用いて上記音声信号の上記有音区間を検出する
ことを特徴とする請求項1に記載の音声認証装置。 The feature parameter generation means includes:
The audio signal is encoded by a CS-ACELP (Conjugate Structure-Algebraic Code Excited Linear Prediction) encoding method to generate an LSP (Line Spectrum Pair) as the feature parameter in units of frames,
The voiced sound section detecting means is
Detecting a voiced sound section of the voice signal based on pitch information obtained by encoding the voice signal in the feature parameter generation means;
The voiced section detecting means is
The voice authentication device according to claim 1, wherein the voiced section of the voice signal is detected using a VAD (Voice Activity Decision) algorithm.
登録モード時に上記特徴パラメータ抽出手段から供給される抽出された上記特徴パラメータに対して所定のクラスタリング処理を施すことにより、上記話者に固有の所定数の代表ベクトルからなる特徴コードブックを生成する特徴コードブック生成手段と、
上記特徴コードブック生成手段により生成された上記特徴コードブックを記憶保持する記憶手段と、
照合モード時に上記特徴パラメータ抽出手段から供給される抽出された上記特徴パラメータと、上記記憶手段から読み出された上記特徴コードブックを構成する各上記代表ベクトルとの距離を算出する距離算出手段と、
上記距離算出手段により算出された上記特徴パラメータ及び各上記代表ベクトル間の距離の平均値を算出する平均距離算出手段と、
上記平均距離算出手段の算出結果に基づいて話者照合判定を行う判定手段と
を具えることを特徴とする請求項1に記載の音声認証装置。 The above speaker authentication means
A feature that generates a feature codebook including a predetermined number of representative vectors unique to the speaker by performing a predetermined clustering process on the extracted feature parameters supplied from the feature parameter extraction means in the registration mode. Codebook generation means;
Storage means for storing and holding the feature code book generated by the feature code book generation means;
Distance calculating means for calculating a distance between the extracted feature parameter supplied from the feature parameter extracting means in the collation mode and each representative vector constituting the feature codebook read from the storage means;
Average distance calculating means for calculating an average value of the distance between the feature parameter and the representative vector calculated by the distance calculating means;
The voice authentication device according to claim 1, further comprising: a determination unit that performs speaker collation determination based on a calculation result of the average distance calculation unit.
上記距離算出手段により算出された上記特徴パラメータ及び各上記代表ベクトル間の距離の平均値を、過去所定数の当該距離を用いた移動平均法により算出する
ことを特徴とする請求項3に記載の音声認証装置。 The average distance calculation means is
The average value of the distance between the characteristic parameter and the representative vector calculated by the distance calculation means is calculated by a moving average method using a predetermined number of the distances in the past. Voice authentication device.
生成した上記特徴パラメータの中から上記音声信号における上記有音区間かつ上記有声音区間の上記特徴パラメータを抽出する第2のステップと、
抽出した上記特徴パラメータに基づいて、話者認証を行う第3のステップと
を具えることを特徴とする音声認証方法。 A first step of sequentially generating and outputting predetermined feature parameters representing the individuality of the speaker based on the input voice signal, and detecting each of the voiced and voiced sections of the voice signal;
A second step of extracting, from the generated feature parameters, the feature parameters of the voiced section and the voiced section of the voice signal;
A voice authentication method comprising: a third step of performing speaker authentication based on the extracted feature parameter.
上記音声信号をCS−ACELP(Conjugate Structure-Algebraic Code Excited Linear Prediction)符号化方式で符号化処理することにより上記特徴パラメータとしてLSP(Line Spectrum Pair)をフレーム単位で生成する一方、当該符号化処理により得られたピッチ情報に基づいて上記音声信号の有声音区間を検出すると共に、VAD(Voice Activity Decision)アルゴリズムを用いて上記音声信号の上記有音区間を検出する
ことを特徴とする請求項5に記載の音声認証方法。 In the first step,
The audio signal is encoded by a CS-ACELP (Conjugate Structure-Algebraic Code Excited Linear Prediction) encoding method to generate an LSP (Line Spectrum Pair) as the feature parameter in units of frames. 6. The voiced sound section of the voice signal is detected based on the obtained pitch information, and the voiced section of the voice signal is detected using a VAD (Voice Activity Decision) algorithm. The voice authentication method described.
登録モード時、上記第2のステップにおいて抽出した上記特徴パラメータに対して所定のクラスタリング処理を施すことにより、上記話者に固有の所定数の代表ベクトルからなる特徴コードブックを生成する特徴コードブック生成ステップと、
生成した上記特徴コードブックを記憶保持する記憶ステップと、
照合モード時、抽出した上記音声信号における上記有音区間かつ上記有声音区間の上記特徴パラメータと上記記憶保持した上記特徴コードブックを構成する各上記代表ベクトルとの距離を算出する距離算出ステップと、
上記距離算出ステップにおいて算出した上記特徴パラメータ及び各上記代表ベクトル間の距離の平均値を算出する平均距離算出ステップと、
上記平均距離算出ステップでの算出結果に基づいて話者照合判定を行う判定ステップと
を具えることを特徴とする請求項5に記載の音声認証方法。 The third step is
Feature codebook generation for generating a feature codebook composed of a predetermined number of representative vectors unique to the speaker by performing a predetermined clustering process on the feature parameters extracted in the second step in the registration mode Steps,
A storing step for storing and storing the generated feature codebook;
A distance calculating step for calculating a distance between the feature parameter of the voiced voice section and the voiced voice period in the extracted voice signal and each representative vector constituting the feature code book stored and held in the collation mode;
An average distance calculating step of calculating an average value of the distance between the feature parameter and the representative vector calculated in the distance calculating step;
The voice authentication method according to claim 5, further comprising: a determination step of performing speaker verification determination based on a calculation result in the average distance calculation step.
上記距離算出ステップにおいて算出した上記特徴パラメータ及び各上記代表ベクトル間の距離の平均値を、過去所定数の当該距離を用いた移動平均法により算出する
ことを特徴とする請求項7に記載の音声認証方法。 In the above average distance calculation step,
The voice according to claim 7, wherein the average value of the feature parameter calculated in the distance calculation step and the distance between the representative vectors is calculated by a moving average method using a predetermined number of the distances in the past. Authentication method.
入力する音声信号に基づいて、話者の個人性を表す所定の特徴パラメータを順次生成して出力すると共に、上記音声信号の有音区間及び有声音区間をそれぞれ検出する第1のステップと、
生成した上記特徴パラメータの中から上記音声信号における上記有音区間かつ上記有声音区間の上記特徴パラメータを抽出する第2のステップと、
抽出した上記特徴パラメータに基づいて、話者認証を行う第3のステップと
を具える処理を実行させるためのプログラム。
On the computer,
A first step of sequentially generating and outputting predetermined feature parameters representing the individuality of the speaker based on the input voice signal, and detecting each of the voiced and voiced sections of the voice signal;
A second step of extracting, from the generated feature parameters, the feature parameters of the voiced section and the voiced section of the voice signal;
A program for executing a process comprising: a third step of performing speaker authentication based on the extracted feature parameter.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004261005A JP2006078654A (en) | 2004-09-08 | 2004-09-08 | Voice authenticating system, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004261005A JP2006078654A (en) | 2004-09-08 | 2004-09-08 | Voice authenticating system, method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006078654A true JP2006078654A (en) | 2006-03-23 |
Family
ID=36158182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004261005A Pending JP2006078654A (en) | 2004-09-08 | 2004-09-08 | Voice authenticating system, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006078654A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008151840A (en) * | 2006-12-14 | 2008-07-03 | Nippon Telegr & Teleph Corp <Ntt> | Temporary voice interval determination device, method, program and its recording medium, and voice interval determination device |
US8069039B2 (en) | 2006-12-25 | 2011-11-29 | Yamaha Corporation | Sound signal processing apparatus and program |
JP2016197200A (en) * | 2015-04-06 | 2016-11-24 | 日本電信電話株式会社 | Invalid voice input determination device, voice signal processing device, method, and program |
JP2021526669A (en) * | 2018-06-29 | 2021-10-07 | 日本電気株式会社 | Voice feature extraction device, voice feature extraction method, and program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0266598A (en) * | 1988-09-01 | 1990-03-06 | Matsushita Electric Ind Co Ltd | Speech signal compressing and expanding device |
JP2001290494A (en) * | 2000-04-05 | 2001-10-19 | Matsushita Electric Ind Co Ltd | Method and device for generating registered word dictionary, and method and device for speech recognition |
JP2002244697A (en) * | 2001-02-16 | 2002-08-30 | Casio Comput Co Ltd | Device and method for voice authentication, and program |
JP2002261553A (en) * | 2001-03-02 | 2002-09-13 | Ricoh Co Ltd | Voice automatic gain control device, voice automatic gain control method, storage medium housing computer program having algorithm for the voice automatic gain control and computer program having algorithm for the voice automatic control |
JP2003036097A (en) * | 2001-07-25 | 2003-02-07 | Sony Corp | Device and method for detecting and retrieving information |
JP2003036087A (en) * | 2001-07-25 | 2003-02-07 | Sony Corp | Apparatus and method for detecting information |
-
2004
- 2004-09-08 JP JP2004261005A patent/JP2006078654A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0266598A (en) * | 1988-09-01 | 1990-03-06 | Matsushita Electric Ind Co Ltd | Speech signal compressing and expanding device |
JP2001290494A (en) * | 2000-04-05 | 2001-10-19 | Matsushita Electric Ind Co Ltd | Method and device for generating registered word dictionary, and method and device for speech recognition |
JP2002244697A (en) * | 2001-02-16 | 2002-08-30 | Casio Comput Co Ltd | Device and method for voice authentication, and program |
JP2002261553A (en) * | 2001-03-02 | 2002-09-13 | Ricoh Co Ltd | Voice automatic gain control device, voice automatic gain control method, storage medium housing computer program having algorithm for the voice automatic gain control and computer program having algorithm for the voice automatic control |
JP2003036097A (en) * | 2001-07-25 | 2003-02-07 | Sony Corp | Device and method for detecting and retrieving information |
JP2003036087A (en) * | 2001-07-25 | 2003-02-07 | Sony Corp | Apparatus and method for detecting information |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008151840A (en) * | 2006-12-14 | 2008-07-03 | Nippon Telegr & Teleph Corp <Ntt> | Temporary voice interval determination device, method, program and its recording medium, and voice interval determination device |
JP4758879B2 (en) * | 2006-12-14 | 2011-08-31 | 日本電信電話株式会社 | Temporary speech segment determination device, method, program and recording medium thereof, speech segment determination device, method |
US8069039B2 (en) | 2006-12-25 | 2011-11-29 | Yamaha Corporation | Sound signal processing apparatus and program |
JP2016197200A (en) * | 2015-04-06 | 2016-11-24 | 日本電信電話株式会社 | Invalid voice input determination device, voice signal processing device, method, and program |
JP2021526669A (en) * | 2018-06-29 | 2021-10-07 | 日本電気株式会社 | Voice feature extraction device, voice feature extraction method, and program |
JP7095756B2 (en) | 2018-06-29 | 2022-07-05 | 日本電気株式会社 | Voice feature extraction device, voice feature extraction method, and program |
US11580967B2 (en) | 2018-06-29 | 2023-02-14 | Nec Corporation | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mak et al. | A study of voice activity detection techniques for NIST speaker recognition evaluations | |
Lee et al. | Packet loss concealment based on deep neural networks for digital speech transmission | |
JP4802135B2 (en) | Speaker authentication registration and confirmation method and apparatus | |
JP4818335B2 (en) | Signal band expander | |
JP4040126B2 (en) | Speech decoding method and apparatus | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
Chakroborty et al. | Fusion of a complementary feature set with MFCC for improved closed set text-independent speaker identification | |
US9754602B2 (en) | Obfuscated speech synthesis | |
JPH08123484A (en) | Method and device for signal synthesis | |
Suthokumar et al. | Independent Modelling of High and Low Energy Speech Frames for Spoofing Detection. | |
Pati et al. | Processing of linear prediction residual in spectral and cepstral domains for speaker information | |
JP2006078654A (en) | Voice authenticating system, method, and program | |
Othmane et al. | Enhancement of esophageal speech using voice conversion techniques | |
Singh et al. | Features and techniques for speaker recognition | |
Jayanna et al. | Limited data speaker identification | |
Arun Sankar et al. | Speech sound classification and estimation of optimal order of LPC using neural network | |
Shende et al. | Comparison of different parameters used in GMM based automatic speaker recognition | |
EP1564723A1 (en) | Transcoder and coder conversion method | |
Nainan et al. | A comparison of performance evaluation of ASR for noisy and enhanced signal using GMM | |
Janicki et al. | Improving GMM-based speaker recognition using trained voice activity detection | |
Nidhyananthan et al. | A framework for multilingual text-independent speaker identification system | |
Sharma et al. | Non-intrusive bit-rate detection of coded speech | |
JP2004151423A (en) | Band extending device and method | |
Park et al. | Deep Q-network-based noise suppression for robust speech recognition | |
Helali et al. | Automatic Speech Recognition System Based on Hybrid Feature Extraction Techniques Using TEO-PWP for in Real Noisy Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070709 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070726 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100324 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100831 |