JP2005301022A - Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method - Google Patents

Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method Download PDF

Info

Publication number
JP2005301022A
JP2005301022A JP2004118831A JP2004118831A JP2005301022A JP 2005301022 A JP2005301022 A JP 2005301022A JP 2004118831 A JP2004118831 A JP 2004118831A JP 2004118831 A JP2004118831 A JP 2004118831A JP 2005301022 A JP2005301022 A JP 2005301022A
Authority
JP
Japan
Prior art keywords
analysis
feature vector
feature
speaker
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004118831A
Other languages
Japanese (ja)
Inventor
Tomonari Kakino
友成 柿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2004118831A priority Critical patent/JP2005301022A/en
Publication of JP2005301022A publication Critical patent/JP2005301022A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice feature extracting device capable of analyzing individualities more in detail from the frequency spectrum of a voice without fixing the resolution in a frequency direction. <P>SOLUTION: The voice feature extracting device 4 includes a 1st analyzing means 13 of analyzing frequency components of an input voice to extract spectrum components, a logarithmic converting means 14 of logarithmically converting the extracted spectrum components, and a 2nd analyzing means 15 of taking multiple resolution analysis of the logarithmically converted spectrum to obtain a feature vector. Consequently, frequency-directional lengths of respective analysis windows are reduced together with the height of the quefrency and analysis with frequency resolution which is higher as the quefrency becomes higher is enabled to take the analysis more in detail without fixing the frequency resolution when individualities are analyzed from the frequency spectrum of the voice, thereby providing a speaker recognizing device whose speaker recognition precision is improved. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置、音声波に含まれる個人性情報を用いて話者を認識する話者認識装置、プログラム及び音声特徴抽出方法に関する。   The present invention relates to an audio feature extraction apparatus for sequentially outputting a feature vector including personality information after dividing an input digital audio signal into frames of an appropriate length and performing window processing, and an individuality included in an audio wave The present invention relates to a speaker recognition device that recognizes a speaker using information, a program, and a voice feature extraction method.

音声波に含まれる個人性情報を用いて、誰の声であるかを自動的に判定することを話者認識(speaker recognition)という。このような話者認識の形態は、話者識別(speaker identification)と話者照合(speaker verification)に分けることができる。話者識別とは、入力音声が、あらかじめ登録されているN人の内の誰の声であるかを判定するものである。話者照合とは、入力音声と同時に自分が誰であるかのIDを入力して、その音声が本当にそのIDに対応する人の声であるか否かを判定するものである。話者識別の場合は、多数の登録話者の内から最も類似度(尤度)の高い話者を選び、その話者の音声であると判断する。話者照合の場合は、IDに基づく本人の標準パターンとの類似度(モデルに対する尤度)が、一定の閾値よりも大きければ本人の音声であると判定し、それ以外の場合は他人の音声であると判定する。   The automatic determination of who is the voice using the personality information included in the sound wave is called speaker recognition. Such forms of speaker recognition can be divided into speaker identification and speaker verification. Speaker identification is to determine who is the voice of the N people registered in advance. In speaker verification, an ID of who the person is is input at the same time as the input voice, and it is determined whether or not the voice is really a voice of a person corresponding to the ID. In the case of speaker identification, the speaker having the highest similarity (likelihood) is selected from a large number of registered speakers, and the speaker's voice is determined. In the case of speaker verification, if the similarity to the person's standard pattern based on the ID (likelihood for the model) is greater than a certain threshold, the person's voice is determined. Otherwise, the voice of the other person is used. It is determined that

ところで、話者識別の性能は、登録話者の内の本人以外の話者が選択される誤り率で評価される。当然ながら登録話者の数が多くなればそれだけ難しくなるので、話者識別の誤り率は、登録話者の数が増えるにつれて単調に増加することになる。したがって、登録話者の数が増えた場合であっても、話者識別の誤り率の増加を低く抑えることが望まれている。   By the way, the performance of speaker identification is evaluated by an error rate at which a speaker other than the registered speaker is selected. Of course, as the number of registered speakers increases, it becomes more difficult, so the error rate of speaker identification increases monotonically as the number of registered speakers increases. Therefore, even when the number of registered speakers increases, it is desired to suppress the increase in the error rate of speaker identification.

近年、話者識別においては、個人性を表す特徴パラメータとして低次ケプストラム係数が広く用いられている。ここで、ケプストラム法による低次ケプストラム係数を抽出する手順について図7を用いて説明する。   In recent years, in speaker identification, a low-order cepstrum coefficient is widely used as a feature parameter representing personality. Here, a procedure for extracting low-order cepstrum coefficients by the cepstrum method will be described with reference to FIG.

図7において、501は入力される音声波(デジタル音声信号)、502は音声波を適当な長さのフレームに切り分け、かつ、ハミング窓などの窓処理を施す時間窓処理部、503は離散フーリエ変換処理部、504は振幅スペクトルを対数変換する対数変換処理部、505は逆離散フーリエ変換処理部、506はリフタリング処理部、507は出力されるケプストラム係数、である。   In FIG. 7, reference numeral 501 denotes an input audio wave (digital audio signal), 502 denotes a time window processing unit that divides the audio wave into frames of an appropriate length and performs window processing such as a Hamming window, and 503 denotes a discrete Fourier. A conversion processing unit 504 is a logarithmic conversion processing unit for logarithmically converting the amplitude spectrum, 505 is an inverse discrete Fourier transform processing unit, 506 is a liftering processing unit, and 507 is an output cepstrum coefficient.

入力された音声波501は、時間窓処理部502において適当な長さ(一般的には20〜30ms)のフレームに分割され、順次ハミング窓などの窓が乗じられる。次いで、離散フーリエ変換部503にて振幅スペクトルが抽出され、これを対数変換処理部504にて対数変換することにより、対数振幅スペクトルが得られる。一般的に、ここで得られた対数振幅スペクトル包絡の概形情報に個人性を示す情報が含まれていると言われている。この概形情報を抽出するために、逆離散フーリエ変換処理部505にて逆フーリエ変換を行いケプストラムを求め、続くリフタリング処理部506にて高次ケプストラムを除くことにより、低次ケプストラム係数が求まる(例えば、非特許文献1参照)。   The input audio wave 501 is divided into frames of an appropriate length (generally 20 to 30 ms) in the time window processing unit 502 and sequentially multiplied by a window such as a Hamming window. Next, an amplitude spectrum is extracted by the discrete Fourier transform unit 503, and a logarithmic amplitude spectrum is obtained by logarithmically transforming the amplitude spectrum by the logarithmic transformation processing unit 504. Generally, it is said that information indicating individuality is included in the outline information of the logarithmic amplitude spectrum envelope obtained here. In order to extract the outline information, the inverse discrete Fourier transform processing unit 505 performs inverse Fourier transform to obtain a cepstrum, and the subsequent liftering processing unit 506 removes the high-order cepstrum to obtain a low-order cepstrum coefficient ( For example, refer nonpatent literature 1).

逆離散フーリエ変換は、ケフレンシーに対する分析窓の周波数分解能が図8の左図のように一定となる解析手法であって、各分析窓毎に対数振幅スペクトルを逆離散フーリエ変換し、その分析窓に対応するケプストラム係数を求める。各分析窓毎に求めたケプストラム係数の列が、図8の右図のような特徴ベクトルとなる。   The inverse discrete Fourier transform is an analysis method in which the frequency resolution of the analysis window with respect to the quefrency is constant as shown in the left diagram of FIG. 8. The logarithmic amplitude spectrum is inversely discrete Fourier transformed for each analysis window, and the analysis window Find the corresponding cepstrum coefficients. A column of cepstrum coefficients obtained for each analysis window becomes a feature vector as shown in the right figure of FIG.

古井貞熙著 “音声情報処理” 森北出版株式会社 P.25“Sound Information Processing” by Sadahiro Furui Morikita Publishing Co., Ltd. 25

ところが、従来のケプストラム法により抽出されるケプストラム係数においては、各分析窓の周波数方向の長さが一定であるため、周波数方向の分解能が固定されてしまうという問題がある。これは、周波数方向に個人性を示す情報が偏って存在していた場合、話者の識別能に悪影響を及ぼす要因となる。   However, the cepstrum coefficient extracted by the conventional cepstrum method has a problem that the resolution in the frequency direction is fixed because the length of each analysis window in the frequency direction is constant. This is a factor that adversely affects speaker discrimination when information indicating individuality is biased in the frequency direction.

本発明は、音声の周波数スペクトルから個人性を分析する際に周波数方向の分解能が固定されず、より詳細な分析を行うことができる音声特徴抽出装置、プログラム及び音声特徴抽出方法を提供することを目的とする。   The present invention provides a speech feature extraction device, a program, and a speech feature extraction method capable of performing more detailed analysis without resolution in the frequency direction being fixed when analyzing individuality from the frequency spectrum of speech. Objective.

本発明は、話者認識精度の向上した話者認識装置を提供することを目的とする。   It is an object of the present invention to provide a speaker recognition device with improved speaker recognition accuracy.

本発明の音声特徴抽出装置は、入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置において、窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第1の分析手段と、この第1の分析手段により抽出された前記スペクトル成分を対数変換する対数変換手段と、この対数変換手段により対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第2の分析手段と、を備える。   The speech feature extraction apparatus according to the present invention is a speech feature extraction apparatus that outputs a feature vector including personality information sequentially after dividing an input digital speech signal into frames of an appropriate length and performing window processing. Frequency analysis of the processed digital audio signal and extraction of spectral components, logarithmic conversion means for logarithmically converting the spectral components extracted by the first analyzing means, and logarithmic conversion Second analysis means for obtaining a feature vector by performing multi-resolution analysis on the logarithmic spectrum logarithmically converted by the means.

したがって、各分析窓の周波数方向の長さがその解析対象となるケフレンシーの高さと共に縮小され、周波数方向に解像度の高い解析を実施することが可能となる。   Therefore, the length in the frequency direction of each analysis window is reduced together with the height of the quefrency to be analyzed, and analysis with high resolution in the frequency direction can be performed.

本発明の音声特徴抽出装置、プログラム及び音声特徴抽出方法によれば、音声の周波数スペクトルから個人性を分析する際に周波数方向の分解能が固定されず、より詳細な分析を行うことができる。   According to the speech feature extraction device, the program, and the speech feature extraction method of the present invention, when analyzing personality from the frequency spectrum of speech, the resolution in the frequency direction is not fixed, and more detailed analysis can be performed.

本発明の話者認識装置によれば、音声の周波数スペクトルから個人性を分析する際に周波数方向の分解能が固定されず、より詳細な分析を行うことができるため、話者認識精度の向上した話者認識装置を提供することができる。   According to the speaker recognition device of the present invention, when analyzing personality from the frequency spectrum of speech, the resolution in the frequency direction is not fixed and more detailed analysis can be performed, so that the speaker recognition accuracy is improved. A speaker recognition device can be provided.

本発明の実施の一形態を図1ないし図6に基づいて説明する。   An embodiment of the present invention will be described with reference to FIGS.

図1は本実施の形態の話者認識装置100の構成を示すブロック図である。図1に示すように、話者認識装置100は、マイク1、低域通過フィルタ2、A/D変換部3、特徴ベクトル生成部4、話者選択部5、話者モデル生成部6、記憶部7で構成されている。   FIG. 1 is a block diagram showing the configuration of the speaker recognition apparatus 100 of the present embodiment. As shown in FIG. 1, the speaker recognition apparatus 100 includes a microphone 1, a low-pass filter 2, an A / D conversion unit 3, a feature vector generation unit 4, a speaker selection unit 5, a speaker model generation unit 6, and a storage. It consists of part 7.

マイク1は、入力された音声を電気的アナログ信号に変換するものである。低域通過フィルタ2は、入力されたアナログ信号から所定の周波数以上の周波数をカットし出力するものである。A/D変換部3は、入力されたアナログ信号を所定のサンプリング周波数、量子化ビット数でデジタル信号に変換するものである。以上、マイク1、低域通過フィルタ2、A/D変換部3により、音声を入力するための音声入力手段が構成されている。   The microphone 1 converts input sound into an electrical analog signal. The low-pass filter 2 cuts and outputs a frequency equal to or higher than a predetermined frequency from the input analog signal. The A / D converter 3 converts the input analog signal into a digital signal with a predetermined sampling frequency and the number of quantization bits. As described above, the microphone 1, the low-pass filter 2, and the A / D converter 3 constitute an audio input unit for inputting audio.

特徴ベクトル生成部4は、音声特徴抽出装置として機能するものであり、入力されたデジタル信号から個人性特徴情報を抽出し、順次個人性情報を含む特徴データである特徴ベクトルを出力するものである。   The feature vector generation unit 4 functions as an audio feature extraction device, extracts personality feature information from an input digital signal, and sequentially outputs feature vectors that are feature data including personality information. .

話者モデル生成部6(モデル作成手段)は、特徴ベクトル生成部4で生成された特徴ベクトルから話者モデル(個人性特徴モデル)を作成するものであり、記憶部7(登録手段)は、話者モデル生成部6で作成された話者モデル(例えば、コードブック)を登録するものである。   The speaker model generation unit 6 (model creation unit) creates a speaker model (personality feature model) from the feature vector generated by the feature vector generation unit 4, and the storage unit 7 (registration unit) A speaker model (for example, a code book) created by the speaker model generation unit 6 is registered.

話者選択部5(話者選択手段)は、特徴ベクトル生成部4で生成された特徴ベクトルと予め記憶部7に登録されている話者モデル(例えば、コードブック)から最も類似度(尤度)の高い話者を選択し、選択した話者認識結果を出力するものである。   The speaker selection unit 5 (speaker selection means) obtains the highest similarity (likelihood) from the feature vector generated by the feature vector generation unit 4 and a speaker model (for example, a code book) registered in the storage unit 7 in advance. ) Is selected, and the selected speaker recognition result is output.

ここで、本実施の形態の特徴的な機能を発揮する特徴ベクトル生成部4の各種処理部について図2を参照しつつ説明する。図2に示すように、11は入力される音声波(デジタル音声信号)、12は音声波を適当な長さのフレームに切り分け、かつ、ハミング窓などの窓処理を施す時間窓処理部、13は入力音声を周波数分析し、スペクトル成分を抽出する離散フーリエ変換処理部(第1の分析手段)、14は振幅スペクトルを対数変換する対数変換処理部(対数変換手段)、15はウェーブレット変換によりスペクトル成分を多重解像度解析(MRA:Multi-Resolution Analysis)し、特徴ベクトルを得るMRA処理部(第2の分析手段)、16は上記の処理により出力される特徴ベクトル(多重解像度パラメータ)である。   Here, various processing units of the feature vector generation unit 4 that exhibits the characteristic functions of the present embodiment will be described with reference to FIG. As shown in FIG. 2, 11 is an input audio wave (digital audio signal), 12 is a time window processing unit that divides the audio wave into frames of an appropriate length and performs window processing such as a Hamming window, 13 Is a discrete Fourier transform processing unit (first analysis unit) that performs frequency analysis of input speech and extracts spectral components, 14 is a logarithmic transformation processing unit (logarithmic transformation unit) that performs logarithmic transformation of the amplitude spectrum, and 15 is a spectrum obtained by wavelet transformation. An MRA processing unit (second analysis means) 16 obtains a feature vector by performing multi-resolution analysis (MRA) on the components, and 16 is a feature vector (multi-resolution parameter) output by the above processing.

特徴ベクトル生成部4で行われる多重解像度分析は、図3の左図に示すように、各分析窓の周波数方向の長さがケフレンシーの高さと共に縮小されていることにより、高ケフレンシーになるに従い周波数分解能が高い解析を実施することが可能となっている。特徴ベクトル生成部4は、このような解析を実施することにより、図3の右図に示すような特徴ベクトル(多重解像度パラメータ)を出力する。   As shown in the left diagram of FIG. 3, the multi-resolution analysis performed by the feature vector generation unit 4 is performed as the quefrency becomes higher because the length in the frequency direction of each analysis window is reduced with the height of the quefrency. Analysis with high frequency resolution can be performed. The feature vector generation unit 4 outputs such a feature vector (multi-resolution parameter) as shown in the right diagram of FIG. 3 by performing such an analysis.

なお、本実施の形態の特徴ベクトル生成部4では、図6に示したようなケプストラム係数を抽出する従来型の分析処理部(第3の分析手段)も兼ね備えるようにしても良い。ケプストラム係数を抽出する従来型の分析処理部(第3の分析手段)も兼ね備えるようにすることで、特徴ベクトル生成部4から出力される特徴ベクトルは、図4に示すように低次ケプストラム係数と多重解像度パラメータとを合わせた多次元ベクトルとなる(統合手段)。   Note that the feature vector generation unit 4 of the present embodiment may also include a conventional analysis processing unit (third analysis unit) that extracts cepstrum coefficients as shown in FIG. By combining the conventional analysis processing unit (third analysis unit) that extracts the cepstrum coefficient, the feature vector output from the feature vector generation unit 4 is a low-order cepstrum coefficient as shown in FIG. It becomes a multidimensional vector combined with multi-resolution parameters (integration means).

また、低次ケプストラム係数と多重解像度パラメータとを統合して特徴ベクトルを生成する際には、低次ケプストラム係数と多重解像度パラメータとを足し合わせて統合するものに限らず、図5に示すように、ケプストラムの変数である各ケフレンシー帯域毎に択一的に統合しても良い(統合手段)。このようにすることにより、各ケフレンシー帯域毎に最適な分析窓を採用したことと等価の効果を得ることができ、より理想的な分析を実施することが可能となる。   Further, when the feature vector is generated by integrating the low-order cepstrum coefficient and the multi-resolution parameter, the feature vector is not limited to adding and integrating the low-order cepstrum coefficient and the multi-resolution parameter as shown in FIG. Alternatively, it may be alternatively integrated for each cefency band which is a variable of cepstrum (integration means). By doing in this way, the effect equivalent to having employ | adopted the optimal analysis window for every quefrency zone | band can be acquired, and it becomes possible to implement a more ideal analysis.

次に、本実施の形態における話者認識装置100の登録処理の流れについて説明する。マイク1に人力された音声は、電気的アナログ信号として出力される。アナログ信号として出力された入力音声は、低域通過フィルタ2によりサンプリング周波数(例えば、12kHz)の1/2以上の周波数をカットされる。その後、入力音声は、A/D変換部3にてサンプリング周波数でサンプリングされデジタル信号に変換される。   Next, the flow of registration processing of the speaker recognition apparatus 100 in the present embodiment will be described. The sound that has been manpowered by the microphone 1 is output as an electrical analog signal. The input sound output as an analog signal is cut by the low-pass filter 2 at a frequency that is 1/2 or more of the sampling frequency (for example, 12 kHz). Thereafter, the input sound is sampled at the sampling frequency by the A / D converter 3 and converted into a digital signal.

A/D変換部3にてデジタル信号に変換された入力音声は、特徴ベクトル生成部4に入力され、音声分析により抽出される個人性情報を含む特徴データが特徴ベクトル(多重解像度パラメータ)として出力される。   The input speech converted into a digital signal by the A / D conversion unit 3 is input to the feature vector generation unit 4, and feature data including personality information extracted by speech analysis is output as a feature vector (multi-resolution parameter). Is done.

特徴ベクトル生成部4から出力された特徴ベクトル(多重解像度パラメータ)は、話者モデル生成部6に入力されて話者モデル生成部6において話者モデル(例えば、コードブック)が作成され、話者モデル生成部6で作成された話者モデル(例えば、コードブック)が記憶部7に登録される。   The feature vector (multi-resolution parameter) output from the feature vector generation unit 4 is input to the speaker model generation unit 6, and a speaker model (for example, a code book) is created in the speaker model generation unit 6. A speaker model (for example, a code book) created by the model generation unit 6 is registered in the storage unit 7.

次に、本実施の形態における話者認識装置100の話者認識処理の流れについて説明する。マイク1に人力された音声は、電気的アナログ信号として出力される。アナログ信号として出力された入力音声は、低域通過フィルタ2によりサンプリング周波数(例えば、12kHz)の1/2以上の周波数をカットされる。その後、入力音声は、A/D変換部3にてサンプリング周波数でサンプリングされデジタル信号に変換される。   Next, the flow of speaker recognition processing of the speaker recognition device 100 in the present embodiment will be described. The sound that has been manpowered by the microphone 1 is output as an electrical analog signal. The input sound output as an analog signal is cut by the low-pass filter 2 at a frequency that is 1/2 or more of the sampling frequency (for example, 12 kHz). Thereafter, the input sound is sampled at the sampling frequency by the A / D converter 3 and converted into a digital signal.

A/D変換部3にてデジタル信号に変換された入力音声は、特徴ベクトル生成部4に入力され、音声分析により抽出される個人性情報を含む特徴データが特徴ベクトル(多重解像度パラメータ)として出力される。   The input speech converted into a digital signal by the A / D conversion unit 3 is input to the feature vector generation unit 4, and feature data including personality information extracted by speech analysis is output as a feature vector (multi-resolution parameter). Is done.

特徴ベクトル生成部4から出力された特徴ベクトル(多重解像度パラメータ)は話者選択部5に入力され、記憶部7に予め登録されている話者モデル(例えば、コードブック)から最も類似度(尤度)の高い話者が選択され、選択した話者認識結果が出力される。   The feature vector (multi-resolution parameter) output from the feature vector generation unit 4 is input to the speaker selection unit 5 and the highest similarity (likelihood) from a speaker model (for example, a code book) registered in the storage unit 7 in advance. A speaker with a high degree) is selected, and the selected speaker recognition result is output.

このように本実施の形態によれば、各分析窓の周波数方向の長さがケフレンシーの高さと共に縮小され、高ケフレンシーになるに従い周波数分解能が高い解析を実施することが可能となることにより、音声の周波数スペクトルから個人性を分析する際に周波数分解能が固定されず、より詳細な分析を行うことができるので、話者認識精度の向上した話者認識装置100を提供することができる。   As described above, according to the present embodiment, the length in the frequency direction of each analysis window is reduced with the height of the quefrency, and it becomes possible to perform an analysis with a high frequency resolution as the quefrency becomes higher. When analyzing personality from the frequency spectrum of speech, the frequency resolution is not fixed, and more detailed analysis can be performed. Therefore, the speaker recognition device 100 with improved speaker recognition accuracy can be provided.

なお、本発明は上記した実施の形態に示す特定のハードウェア構成に限定されるものではなく、ソフトウェアによっても実現可能である。図6は、本発明をソフトウェアによって実現する場合の話者認識装置100の構成例を示すブロック図である。話者認識装置100は、この話者認識装置100の各部を集中的に制御するCPU101を備えており、このCPU101には、BIOSなどを記憶したROMや各種データを書換え可能に記憶するRAMで構成されるメモリ102がバス接続されており、マイクロコンピュータを構成している。また、CPU101には、HDD(Hard Disk Drive)103と、コンピュータ読み取り可能な記憶媒体であるCD(Compact Disc)−ROM104を読み取るCD−ROMドライブ105と、話者認識装置100とインターネット等との通信を司る通信装置106と、キーボード107と、CRT、LCDなどの表示装置108と、マイク1とが、図示しないI/Oを介してバス接続されている。   The present invention is not limited to the specific hardware configuration shown in the above-described embodiment, and can be realized by software. FIG. 6 is a block diagram illustrating a configuration example of the speaker recognition device 100 when the present invention is implemented by software. The speaker recognition device 100 includes a CPU 101 that centrally controls each unit of the speaker recognition device 100. The CPU 101 includes a ROM that stores a BIOS and a RAM that stores various data in a rewritable manner. A memory 102 is connected to the bus and constitutes a microcomputer. The CPU 101 includes a HDD (Hard Disk Drive) 103, a CD-ROM drive 105 that reads a CD (Compact Disc) -ROM 104 that is a computer-readable storage medium, and communication between the speaker recognition device 100 and the Internet. A communication device 106 that manages the above, a keyboard 107, a display device 108 such as a CRT or LCD, and the microphone 1 are connected by bus via an I / O (not shown).

CD−ROM104などのコンピュータ読み取り可能な記憶媒体には本発明の音声特徴抽出機能を実現するプログラムが記憶されており、このプログラムを話者認識装置100にインストールすることにより、CPU101に本発明の音声特徴抽出機能を実行させることができる。また、マイク1から入力された音声は一時的にHDD103などに格納される。そして、該プログラムが起動されると、HDD103などに一時保存された音声データが読み込まれ、音声特徴抽出処理が実行され、音声特徴抽出処理により抽出された特徴ベクトルが話者認識処理に供される。   A computer-readable storage medium such as the CD-ROM 104 stores a program for realizing the voice feature extraction function of the present invention. By installing this program in the speaker recognition device 100, the CPU 101 stores the voice of the present invention. The feature extraction function can be executed. Also, the sound input from the microphone 1 is temporarily stored in the HDD 103 or the like. When the program is started, the voice data temporarily stored in the HDD 103 or the like is read, the voice feature extraction process is executed, and the feature vector extracted by the voice feature extraction process is used for the speaker recognition process. .

なお、記憶媒体としては、CD−ROM104のみならず、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等、各種方式のメディアを用いることができる。また、インターネットなどのネットワークからプログラムをダウンロードし、HDD103にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のOS(Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、ワープロソフトなど所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。   As a storage medium, not only the CD-ROM 104 but also various types of media such as various optical disks such as DVD, various magnetic disks such as various magneto-optical disks and flexible disks, and semiconductor memories can be used. Further, a program may be downloaded from a network such as the Internet and installed in the HDD 103. In this case, the storage device storing the program in the server on the transmission side is also a storage medium of the present invention. Note that the program may operate on a predetermined OS (Operating System), in which case the OS may execute a part of various processes described later, or a word processor. It may be included as part of a group of program files that constitute predetermined application software such as software or an OS.

本発明の実施の一形態の話者認識装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speaker recognition apparatus of one Embodiment of this invention. 特徴ベクトル生成部の各種処理部を示すブロック図である。It is a block diagram which shows the various process parts of a feature vector production | generation part. 周波数ケフレンシー平面上の分析窓と特徴ベクトル(多重解像度パラメータ)を示す模式図である。It is a schematic diagram which shows the analysis window and feature vector (multi-resolution parameter) on a frequency quefrency plane. 特徴ベクトル生成部における処理により出力される特徴ベクトルの変形例を示す模式図である。It is a schematic diagram which shows the modification of the feature vector output by the process in a feature vector production | generation part. 特徴ベクトル生成部における処理により出力される特徴ベクトルの別の変形例を示す模式図である。It is a schematic diagram which shows another modification of the feature vector output by the process in a feature vector production | generation part. 本発明をソフトウェアによって実現する場合の話者認識装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the speaker recognition apparatus in the case of implement | achieving this invention by software. ケプストラム係数を抽出する従来型の分析処理部の各種処理部を示すブロック図である。It is a block diagram which shows the various process parts of the conventional analysis process part which extracts a cepstrum coefficient. 従来型の周波数ケフレンシー平面上の分析窓と特徴ベクトルを示す模式図である。It is a schematic diagram which shows the analysis window and feature vector on the conventional frequency quefrency plane.

符号の説明Explanation of symbols

1,2,3 音声入力手段
4 音声特徴抽出装置
5 話者選択手段
6 モデル作成手段
7 登録手段
13 第1の分析手段
14 対数変換手段
15 第2の分析手段
100 話者認識装置
1, 2, 3 Voice input means 4 Voice feature extraction device 5 Speaker selection means 6 Model creation means 7 Registration means 13 First analysis means 14 Logarithmic conversion means 15 Second analysis means 100 Speaker recognition device

Claims (10)

入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置において、
窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第1の分析手段と、
この第1の分析手段により抽出された前記スペクトル成分を対数変換する対数変換手段と、
この対数変換手段により対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第2の分析手段と、
を備えることを特徴とする音声特徴抽出装置。
In an audio feature extraction apparatus that outputs a feature vector including personality information sequentially after dividing an input digital audio signal into frames of an appropriate length and performing window processing.
First analysis means for performing frequency analysis of the windowed digital audio signal and extracting a spectral component;
Logarithmic conversion means for logarithmically converting the spectral components extracted by the first analysis means;
A second analysis means for performing multi-resolution analysis of the logarithmic spectrum logarithmically converted by the logarithmic conversion means to obtain a feature vector;
An audio feature extraction apparatus comprising:
前記第1の分析手段により抽出された前記スペクトル成分からケプストラム係数を抽出し、特徴ベクトルを得る第3の分析手段と、
前記第2の分析手段から得られた特徴ベクトルと前記第3の分析手段から得られた特徴ベクトルとを統合する統合手段と、
を備えることを特徴とする請求項1記載の音声特徴抽出装置。
Third analysis means for extracting a cepstrum coefficient from the spectral component extracted by the first analysis means and obtaining a feature vector;
Integration means for integrating the feature vector obtained from the second analysis means and the feature vector obtained from the third analysis means;
The speech feature extraction apparatus according to claim 1, further comprising:
ケプストラムの変数である各ケフレンシー帯域毎に択一的にベクトルを統合する、
ことを特徴とする請求項3記載の音声特徴抽出装置。
Alternatively, vector integration for each cefency band that is a variable of cepstrum,
The speech feature extraction apparatus according to claim 3.
音声波に含まれる個人性情報を用いて話者を認識する話者認識装置において、
デジタル音声信号を入力する音声入力手段と、
入力されたデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する請求項1ないし3のいずれか一記載の音声特徴抽出装置と、
この音声特徴抽出装置から入力された特徴ベクトルから個人性特徴モデルを作成するモデル作成手段と、
このモデル作成手段で作成された個人性特徴モデルを登録する登録手段と、
前記音声特徴抽出装置から出力された特徴ベクトルに基づき前記登録手段により登録されている個人性特徴モデルから最も類似度(尤度)の高い話者を選択する話者選択手段と、
を備えることを特徴とする話者認識装置。
In a speaker recognition device that recognizes a speaker using personality information included in a sound wave,
Audio input means for inputting a digital audio signal;
4. The speech feature extraction apparatus according to claim 1, wherein after the input digital speech signal is divided into frames of an appropriate length and subjected to window processing, feature vectors including personality information are sequentially output. ,
Model creation means for creating a personality feature model from the feature vector input from the speech feature extraction device;
Registration means for registering the individuality feature model created by the model creation means;
Speaker selection means for selecting the speaker with the highest similarity (likelihood) from the individuality feature model registered by the registration means based on the feature vector output from the speech feature extraction device;
A speaker recognition device comprising:
入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出機能を実行するコンピュータに読取可能なプログラムであって、
窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第1の分析機能と、
この第1の分析機能により抽出された前記スペクトル成分を対数変換する対数変換機能と、
この対数変換機能により対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第2の分析機能と、
を前記コンピュータに実行させることを特徴とするプログラム。
A computer-readable program for executing an audio feature extraction function for sequentially outputting a feature vector including personality information after dividing an input digital audio signal into frames of an appropriate length and performing window processing. ,
A first analysis function for performing frequency analysis on a digital audio signal subjected to window processing and extracting a spectral component;
A logarithmic conversion function for logarithmically converting the spectral components extracted by the first analysis function;
A second analysis function for multi-resolution analysis of the logarithmic spectrum logarithmically converted by the logarithmic conversion function to obtain a feature vector;
That causes the computer to execute the program.
前記第1の分析機能により抽出された前記スペクトル成分からケプストラム係数を抽出し、特徴ベクトルを得る第3の分析機能と、
前記第2の分析機能から得られた特徴ベクトルと前記第3の分析機能から得られた特徴ベクトルとを統合する統合機能と、
を前記コンピュータに実行させることを特徴とする請求項5記載のプログラム。
A third analysis function for extracting a cepstrum coefficient from the spectral component extracted by the first analysis function and obtaining a feature vector;
An integration function for integrating the feature vector obtained from the second analysis function and the feature vector obtained from the third analysis function;
The program according to claim 5, wherein the computer is executed.
ケプストラムの変数である各ケフレンシー帯域毎に択一的にベクトルを統合する、
ことを特徴とする請求項6記載のプログラム。
Alternatively, vector integration for each cefency band that is a variable of cepstrum,
The program according to claim 6.
入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出方法において、
窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第1の分析ステップと、
この第1の分析ステップにより抽出された前記スペクトル成分を対数変換する対数変換ステップと、
この対数変換ステップにより対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第2の分析ステップと、
を備えることを特徴とする音声特徴抽出方法。
In an audio feature extraction method for outputting a feature vector including personality information sequentially after dividing an input digital audio signal into frames of an appropriate length and performing window processing,
A first analysis step of frequency-analyzing the windowed digital audio signal and extracting a spectral component;
A logarithmic transformation step for logarithmically transforming the spectral component extracted by the first analysis step;
A second analysis step in which a logarithmic spectrum logarithmically transformed by the logarithmic transformation step is subjected to multiresolution analysis to obtain a feature vector;
A speech feature extraction method comprising:
前記第1の分析ステップにより抽出された前記スペクトル成分からケプストラム係数を抽出し、特徴ベクトルを得る第3の分析ステップと、
前記第2の分析ステップから得られた特徴ベクトルと前記第3の分析ステップから得られた特徴ベクトルとを統合する統合ステップと、
を備えることを特徴とする請求項8記載の音声特徴抽出方法。
A third analysis step of extracting a cepstrum coefficient from the spectral component extracted by the first analysis step to obtain a feature vector;
An integration step of integrating the feature vector obtained from the second analysis step and the feature vector obtained from the third analysis step;
The speech feature extraction method according to claim 8, further comprising:
ケプストラムの変数である各ケフレンシー帯域毎に択一的にベクトルを統合する、
ことを特徴とする請求項9記載の音声特徴抽出方法。
Alternatively, vector integration for each cefency band that is a variable of cepstrum,
The speech feature extraction method according to claim 9.
JP2004118831A 2004-04-14 2004-04-14 Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method Pending JP2005301022A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004118831A JP2005301022A (en) 2004-04-14 2004-04-14 Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004118831A JP2005301022A (en) 2004-04-14 2004-04-14 Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method

Publications (1)

Publication Number Publication Date
JP2005301022A true JP2005301022A (en) 2005-10-27

Family

ID=35332614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004118831A Pending JP2005301022A (en) 2004-04-14 2004-04-14 Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method

Country Status (1)

Country Link
JP (1) JP2005301022A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048534A (en) * 2012-08-31 2014-03-17 Sogo Keibi Hosho Co Ltd Speaker recognition device, speaker recognition method, and speaker recognition program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048534A (en) * 2012-08-31 2014-03-17 Sogo Keibi Hosho Co Ltd Speaker recognition device, speaker recognition method, and speaker recognition program

Similar Documents

Publication Publication Date Title
JP5662276B2 (en) Acoustic signal processing apparatus and acoustic signal processing method
JP4802135B2 (en) Speaker authentication registration and confirmation method and apparatus
JP5230103B2 (en) Method and system for generating training data for an automatic speech recognizer
JP3364904B2 (en) Automatic speech recognition method and apparatus
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
JP4797342B2 (en) Method and apparatus for automatically recognizing audio data
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
JP2002140089A (en) Method and apparatus for pattern recognition training wherein noise reduction is performed after inserted noise is used
US6990447B2 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
JP4061094B2 (en) Speech recognition apparatus, speech recognition method and program thereof
KR101888058B1 (en) The method and apparatus for identifying speaker based on spoken word
JP2005078077A (en) Method and device to pursue vocal tract resonance using temporal restriction guided by nonlinear predictor and target
CN112185342A (en) Voice conversion and model training method, device and system and storage medium
JP2002268698A (en) Voice recognition device, device and method for standard pattern generation, and program
JP6273227B2 (en) Speech recognition system, speech recognition method, program
JP4571871B2 (en) Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof
WO2007000816A1 (en) Speech feature extracting device, speaker recognizer, program, and speech feature extracting method
JP2005301022A (en) Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method
JP4464797B2 (en) Speech recognition method, apparatus for implementing the method, program, and recording medium therefor
US20070219796A1 (en) Weighted likelihood ratio for pattern recognition
JP4550674B2 (en) Speech feature extraction device, speech feature extraction method, and speech feature extraction program
JP7159767B2 (en) Audio signal processing program, audio signal processing method, and audio signal processing device
Jagtap et al. Speaker verification using Gaussian mixture model
JP4362072B2 (en) Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof
JP2019090930A (en) Sound source enhancement device, sound source enhancement learning device, sound source enhancement method and program