JP2005301022A - Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method - Google Patents
Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method Download PDFInfo
- Publication number
- JP2005301022A JP2005301022A JP2004118831A JP2004118831A JP2005301022A JP 2005301022 A JP2005301022 A JP 2005301022A JP 2004118831 A JP2004118831 A JP 2004118831A JP 2004118831 A JP2004118831 A JP 2004118831A JP 2005301022 A JP2005301022 A JP 2005301022A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- feature vector
- feature
- speaker
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置、音声波に含まれる個人性情報を用いて話者を認識する話者認識装置、プログラム及び音声特徴抽出方法に関する。 The present invention relates to an audio feature extraction apparatus for sequentially outputting a feature vector including personality information after dividing an input digital audio signal into frames of an appropriate length and performing window processing, and an individuality included in an audio wave The present invention relates to a speaker recognition device that recognizes a speaker using information, a program, and a voice feature extraction method.
音声波に含まれる個人性情報を用いて、誰の声であるかを自動的に判定することを話者認識(speaker recognition)という。このような話者認識の形態は、話者識別(speaker identification)と話者照合(speaker verification)に分けることができる。話者識別とは、入力音声が、あらかじめ登録されているN人の内の誰の声であるかを判定するものである。話者照合とは、入力音声と同時に自分が誰であるかのIDを入力して、その音声が本当にそのIDに対応する人の声であるか否かを判定するものである。話者識別の場合は、多数の登録話者の内から最も類似度(尤度)の高い話者を選び、その話者の音声であると判断する。話者照合の場合は、IDに基づく本人の標準パターンとの類似度(モデルに対する尤度)が、一定の閾値よりも大きければ本人の音声であると判定し、それ以外の場合は他人の音声であると判定する。 The automatic determination of who is the voice using the personality information included in the sound wave is called speaker recognition. Such forms of speaker recognition can be divided into speaker identification and speaker verification. Speaker identification is to determine who is the voice of the N people registered in advance. In speaker verification, an ID of who the person is is input at the same time as the input voice, and it is determined whether or not the voice is really a voice of a person corresponding to the ID. In the case of speaker identification, the speaker having the highest similarity (likelihood) is selected from a large number of registered speakers, and the speaker's voice is determined. In the case of speaker verification, if the similarity to the person's standard pattern based on the ID (likelihood for the model) is greater than a certain threshold, the person's voice is determined. Otherwise, the voice of the other person is used. It is determined that
ところで、話者識別の性能は、登録話者の内の本人以外の話者が選択される誤り率で評価される。当然ながら登録話者の数が多くなればそれだけ難しくなるので、話者識別の誤り率は、登録話者の数が増えるにつれて単調に増加することになる。したがって、登録話者の数が増えた場合であっても、話者識別の誤り率の増加を低く抑えることが望まれている。 By the way, the performance of speaker identification is evaluated by an error rate at which a speaker other than the registered speaker is selected. Of course, as the number of registered speakers increases, it becomes more difficult, so the error rate of speaker identification increases monotonically as the number of registered speakers increases. Therefore, even when the number of registered speakers increases, it is desired to suppress the increase in the error rate of speaker identification.
近年、話者識別においては、個人性を表す特徴パラメータとして低次ケプストラム係数が広く用いられている。ここで、ケプストラム法による低次ケプストラム係数を抽出する手順について図7を用いて説明する。 In recent years, in speaker identification, a low-order cepstrum coefficient is widely used as a feature parameter representing personality. Here, a procedure for extracting low-order cepstrum coefficients by the cepstrum method will be described with reference to FIG.
図7において、501は入力される音声波(デジタル音声信号)、502は音声波を適当な長さのフレームに切り分け、かつ、ハミング窓などの窓処理を施す時間窓処理部、503は離散フーリエ変換処理部、504は振幅スペクトルを対数変換する対数変換処理部、505は逆離散フーリエ変換処理部、506はリフタリング処理部、507は出力されるケプストラム係数、である。
In FIG. 7,
入力された音声波501は、時間窓処理部502において適当な長さ(一般的には20〜30ms)のフレームに分割され、順次ハミング窓などの窓が乗じられる。次いで、離散フーリエ変換部503にて振幅スペクトルが抽出され、これを対数変換処理部504にて対数変換することにより、対数振幅スペクトルが得られる。一般的に、ここで得られた対数振幅スペクトル包絡の概形情報に個人性を示す情報が含まれていると言われている。この概形情報を抽出するために、逆離散フーリエ変換処理部505にて逆フーリエ変換を行いケプストラムを求め、続くリフタリング処理部506にて高次ケプストラムを除くことにより、低次ケプストラム係数が求まる(例えば、非特許文献1参照)。
The
逆離散フーリエ変換は、ケフレンシーに対する分析窓の周波数分解能が図8の左図のように一定となる解析手法であって、各分析窓毎に対数振幅スペクトルを逆離散フーリエ変換し、その分析窓に対応するケプストラム係数を求める。各分析窓毎に求めたケプストラム係数の列が、図8の右図のような特徴ベクトルとなる。 The inverse discrete Fourier transform is an analysis method in which the frequency resolution of the analysis window with respect to the quefrency is constant as shown in the left diagram of FIG. 8. The logarithmic amplitude spectrum is inversely discrete Fourier transformed for each analysis window, and the analysis window Find the corresponding cepstrum coefficients. A column of cepstrum coefficients obtained for each analysis window becomes a feature vector as shown in the right figure of FIG.
ところが、従来のケプストラム法により抽出されるケプストラム係数においては、各分析窓の周波数方向の長さが一定であるため、周波数方向の分解能が固定されてしまうという問題がある。これは、周波数方向に個人性を示す情報が偏って存在していた場合、話者の識別能に悪影響を及ぼす要因となる。 However, the cepstrum coefficient extracted by the conventional cepstrum method has a problem that the resolution in the frequency direction is fixed because the length of each analysis window in the frequency direction is constant. This is a factor that adversely affects speaker discrimination when information indicating individuality is biased in the frequency direction.
本発明は、音声の周波数スペクトルから個人性を分析する際に周波数方向の分解能が固定されず、より詳細な分析を行うことができる音声特徴抽出装置、プログラム及び音声特徴抽出方法を提供することを目的とする。 The present invention provides a speech feature extraction device, a program, and a speech feature extraction method capable of performing more detailed analysis without resolution in the frequency direction being fixed when analyzing individuality from the frequency spectrum of speech. Objective.
本発明は、話者認識精度の向上した話者認識装置を提供することを目的とする。 It is an object of the present invention to provide a speaker recognition device with improved speaker recognition accuracy.
本発明の音声特徴抽出装置は、入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置において、窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第1の分析手段と、この第1の分析手段により抽出された前記スペクトル成分を対数変換する対数変換手段と、この対数変換手段により対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第2の分析手段と、を備える。 The speech feature extraction apparatus according to the present invention is a speech feature extraction apparatus that outputs a feature vector including personality information sequentially after dividing an input digital speech signal into frames of an appropriate length and performing window processing. Frequency analysis of the processed digital audio signal and extraction of spectral components, logarithmic conversion means for logarithmically converting the spectral components extracted by the first analyzing means, and logarithmic conversion Second analysis means for obtaining a feature vector by performing multi-resolution analysis on the logarithmic spectrum logarithmically converted by the means.
したがって、各分析窓の周波数方向の長さがその解析対象となるケフレンシーの高さと共に縮小され、周波数方向に解像度の高い解析を実施することが可能となる。 Therefore, the length in the frequency direction of each analysis window is reduced together with the height of the quefrency to be analyzed, and analysis with high resolution in the frequency direction can be performed.
本発明の音声特徴抽出装置、プログラム及び音声特徴抽出方法によれば、音声の周波数スペクトルから個人性を分析する際に周波数方向の分解能が固定されず、より詳細な分析を行うことができる。 According to the speech feature extraction device, the program, and the speech feature extraction method of the present invention, when analyzing personality from the frequency spectrum of speech, the resolution in the frequency direction is not fixed, and more detailed analysis can be performed.
本発明の話者認識装置によれば、音声の周波数スペクトルから個人性を分析する際に周波数方向の分解能が固定されず、より詳細な分析を行うことができるため、話者認識精度の向上した話者認識装置を提供することができる。 According to the speaker recognition device of the present invention, when analyzing personality from the frequency spectrum of speech, the resolution in the frequency direction is not fixed and more detailed analysis can be performed, so that the speaker recognition accuracy is improved. A speaker recognition device can be provided.
本発明の実施の一形態を図1ないし図6に基づいて説明する。 An embodiment of the present invention will be described with reference to FIGS.
図1は本実施の形態の話者認識装置100の構成を示すブロック図である。図1に示すように、話者認識装置100は、マイク1、低域通過フィルタ2、A/D変換部3、特徴ベクトル生成部4、話者選択部5、話者モデル生成部6、記憶部7で構成されている。
FIG. 1 is a block diagram showing the configuration of the
マイク1は、入力された音声を電気的アナログ信号に変換するものである。低域通過フィルタ2は、入力されたアナログ信号から所定の周波数以上の周波数をカットし出力するものである。A/D変換部3は、入力されたアナログ信号を所定のサンプリング周波数、量子化ビット数でデジタル信号に変換するものである。以上、マイク1、低域通過フィルタ2、A/D変換部3により、音声を入力するための音声入力手段が構成されている。
The microphone 1 converts input sound into an electrical analog signal. The low-
特徴ベクトル生成部4は、音声特徴抽出装置として機能するものであり、入力されたデジタル信号から個人性特徴情報を抽出し、順次個人性情報を含む特徴データである特徴ベクトルを出力するものである。
The feature
話者モデル生成部6(モデル作成手段)は、特徴ベクトル生成部4で生成された特徴ベクトルから話者モデル(個人性特徴モデル)を作成するものであり、記憶部7(登録手段)は、話者モデル生成部6で作成された話者モデル(例えば、コードブック)を登録するものである。
The speaker model generation unit 6 (model creation unit) creates a speaker model (personality feature model) from the feature vector generated by the feature
話者選択部5(話者選択手段)は、特徴ベクトル生成部4で生成された特徴ベクトルと予め記憶部7に登録されている話者モデル(例えば、コードブック)から最も類似度(尤度)の高い話者を選択し、選択した話者認識結果を出力するものである。
The speaker selection unit 5 (speaker selection means) obtains the highest similarity (likelihood) from the feature vector generated by the feature
ここで、本実施の形態の特徴的な機能を発揮する特徴ベクトル生成部4の各種処理部について図2を参照しつつ説明する。図2に示すように、11は入力される音声波(デジタル音声信号)、12は音声波を適当な長さのフレームに切り分け、かつ、ハミング窓などの窓処理を施す時間窓処理部、13は入力音声を周波数分析し、スペクトル成分を抽出する離散フーリエ変換処理部(第1の分析手段)、14は振幅スペクトルを対数変換する対数変換処理部(対数変換手段)、15はウェーブレット変換によりスペクトル成分を多重解像度解析(MRA:Multi-Resolution Analysis)し、特徴ベクトルを得るMRA処理部(第2の分析手段)、16は上記の処理により出力される特徴ベクトル(多重解像度パラメータ)である。
Here, various processing units of the feature
特徴ベクトル生成部4で行われる多重解像度分析は、図3の左図に示すように、各分析窓の周波数方向の長さがケフレンシーの高さと共に縮小されていることにより、高ケフレンシーになるに従い周波数分解能が高い解析を実施することが可能となっている。特徴ベクトル生成部4は、このような解析を実施することにより、図3の右図に示すような特徴ベクトル(多重解像度パラメータ)を出力する。
As shown in the left diagram of FIG. 3, the multi-resolution analysis performed by the feature
なお、本実施の形態の特徴ベクトル生成部4では、図6に示したようなケプストラム係数を抽出する従来型の分析処理部(第3の分析手段)も兼ね備えるようにしても良い。ケプストラム係数を抽出する従来型の分析処理部(第3の分析手段)も兼ね備えるようにすることで、特徴ベクトル生成部4から出力される特徴ベクトルは、図4に示すように低次ケプストラム係数と多重解像度パラメータとを合わせた多次元ベクトルとなる(統合手段)。
Note that the feature
また、低次ケプストラム係数と多重解像度パラメータとを統合して特徴ベクトルを生成する際には、低次ケプストラム係数と多重解像度パラメータとを足し合わせて統合するものに限らず、図5に示すように、ケプストラムの変数である各ケフレンシー帯域毎に択一的に統合しても良い(統合手段)。このようにすることにより、各ケフレンシー帯域毎に最適な分析窓を採用したことと等価の効果を得ることができ、より理想的な分析を実施することが可能となる。 Further, when the feature vector is generated by integrating the low-order cepstrum coefficient and the multi-resolution parameter, the feature vector is not limited to adding and integrating the low-order cepstrum coefficient and the multi-resolution parameter as shown in FIG. Alternatively, it may be alternatively integrated for each cefency band which is a variable of cepstrum (integration means). By doing in this way, the effect equivalent to having employ | adopted the optimal analysis window for every quefrency zone | band can be acquired, and it becomes possible to implement a more ideal analysis.
次に、本実施の形態における話者認識装置100の登録処理の流れについて説明する。マイク1に人力された音声は、電気的アナログ信号として出力される。アナログ信号として出力された入力音声は、低域通過フィルタ2によりサンプリング周波数(例えば、12kHz)の1/2以上の周波数をカットされる。その後、入力音声は、A/D変換部3にてサンプリング周波数でサンプリングされデジタル信号に変換される。
Next, the flow of registration processing of the
A/D変換部3にてデジタル信号に変換された入力音声は、特徴ベクトル生成部4に入力され、音声分析により抽出される個人性情報を含む特徴データが特徴ベクトル(多重解像度パラメータ)として出力される。
The input speech converted into a digital signal by the A /
特徴ベクトル生成部4から出力された特徴ベクトル(多重解像度パラメータ)は、話者モデル生成部6に入力されて話者モデル生成部6において話者モデル(例えば、コードブック)が作成され、話者モデル生成部6で作成された話者モデル(例えば、コードブック)が記憶部7に登録される。
The feature vector (multi-resolution parameter) output from the feature
次に、本実施の形態における話者認識装置100の話者認識処理の流れについて説明する。マイク1に人力された音声は、電気的アナログ信号として出力される。アナログ信号として出力された入力音声は、低域通過フィルタ2によりサンプリング周波数(例えば、12kHz)の1/2以上の周波数をカットされる。その後、入力音声は、A/D変換部3にてサンプリング周波数でサンプリングされデジタル信号に変換される。
Next, the flow of speaker recognition processing of the
A/D変換部3にてデジタル信号に変換された入力音声は、特徴ベクトル生成部4に入力され、音声分析により抽出される個人性情報を含む特徴データが特徴ベクトル(多重解像度パラメータ)として出力される。
The input speech converted into a digital signal by the A /
特徴ベクトル生成部4から出力された特徴ベクトル(多重解像度パラメータ)は話者選択部5に入力され、記憶部7に予め登録されている話者モデル(例えば、コードブック)から最も類似度(尤度)の高い話者が選択され、選択した話者認識結果が出力される。
The feature vector (multi-resolution parameter) output from the feature
このように本実施の形態によれば、各分析窓の周波数方向の長さがケフレンシーの高さと共に縮小され、高ケフレンシーになるに従い周波数分解能が高い解析を実施することが可能となることにより、音声の周波数スペクトルから個人性を分析する際に周波数分解能が固定されず、より詳細な分析を行うことができるので、話者認識精度の向上した話者認識装置100を提供することができる。
As described above, according to the present embodiment, the length in the frequency direction of each analysis window is reduced with the height of the quefrency, and it becomes possible to perform an analysis with a high frequency resolution as the quefrency becomes higher. When analyzing personality from the frequency spectrum of speech, the frequency resolution is not fixed, and more detailed analysis can be performed. Therefore, the
なお、本発明は上記した実施の形態に示す特定のハードウェア構成に限定されるものではなく、ソフトウェアによっても実現可能である。図6は、本発明をソフトウェアによって実現する場合の話者認識装置100の構成例を示すブロック図である。話者認識装置100は、この話者認識装置100の各部を集中的に制御するCPU101を備えており、このCPU101には、BIOSなどを記憶したROMや各種データを書換え可能に記憶するRAMで構成されるメモリ102がバス接続されており、マイクロコンピュータを構成している。また、CPU101には、HDD(Hard Disk Drive)103と、コンピュータ読み取り可能な記憶媒体であるCD(Compact Disc)−ROM104を読み取るCD−ROMドライブ105と、話者認識装置100とインターネット等との通信を司る通信装置106と、キーボード107と、CRT、LCDなどの表示装置108と、マイク1とが、図示しないI/Oを介してバス接続されている。
The present invention is not limited to the specific hardware configuration shown in the above-described embodiment, and can be realized by software. FIG. 6 is a block diagram illustrating a configuration example of the
CD−ROM104などのコンピュータ読み取り可能な記憶媒体には本発明の音声特徴抽出機能を実現するプログラムが記憶されており、このプログラムを話者認識装置100にインストールすることにより、CPU101に本発明の音声特徴抽出機能を実行させることができる。また、マイク1から入力された音声は一時的にHDD103などに格納される。そして、該プログラムが起動されると、HDD103などに一時保存された音声データが読み込まれ、音声特徴抽出処理が実行され、音声特徴抽出処理により抽出された特徴ベクトルが話者認識処理に供される。
A computer-readable storage medium such as the CD-
なお、記憶媒体としては、CD−ROM104のみならず、DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等、各種方式のメディアを用いることができる。また、インターネットなどのネットワークからプログラムをダウンロードし、HDD103にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のOS(Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、ワープロソフトなど所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
As a storage medium, not only the CD-
1,2,3 音声入力手段
4 音声特徴抽出装置
5 話者選択手段
6 モデル作成手段
7 登録手段
13 第1の分析手段
14 対数変換手段
15 第2の分析手段
100 話者認識装置
1, 2, 3 Voice input means 4 Voice
Claims (10)
窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第1の分析手段と、
この第1の分析手段により抽出された前記スペクトル成分を対数変換する対数変換手段と、
この対数変換手段により対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第2の分析手段と、
を備えることを特徴とする音声特徴抽出装置。 In an audio feature extraction apparatus that outputs a feature vector including personality information sequentially after dividing an input digital audio signal into frames of an appropriate length and performing window processing.
First analysis means for performing frequency analysis of the windowed digital audio signal and extracting a spectral component;
Logarithmic conversion means for logarithmically converting the spectral components extracted by the first analysis means;
A second analysis means for performing multi-resolution analysis of the logarithmic spectrum logarithmically converted by the logarithmic conversion means to obtain a feature vector;
An audio feature extraction apparatus comprising:
前記第2の分析手段から得られた特徴ベクトルと前記第3の分析手段から得られた特徴ベクトルとを統合する統合手段と、
を備えることを特徴とする請求項1記載の音声特徴抽出装置。 Third analysis means for extracting a cepstrum coefficient from the spectral component extracted by the first analysis means and obtaining a feature vector;
Integration means for integrating the feature vector obtained from the second analysis means and the feature vector obtained from the third analysis means;
The speech feature extraction apparatus according to claim 1, further comprising:
ことを特徴とする請求項3記載の音声特徴抽出装置。 Alternatively, vector integration for each cefency band that is a variable of cepstrum,
The speech feature extraction apparatus according to claim 3.
デジタル音声信号を入力する音声入力手段と、
入力されたデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する請求項1ないし3のいずれか一記載の音声特徴抽出装置と、
この音声特徴抽出装置から入力された特徴ベクトルから個人性特徴モデルを作成するモデル作成手段と、
このモデル作成手段で作成された個人性特徴モデルを登録する登録手段と、
前記音声特徴抽出装置から出力された特徴ベクトルに基づき前記登録手段により登録されている個人性特徴モデルから最も類似度(尤度)の高い話者を選択する話者選択手段と、
を備えることを特徴とする話者認識装置。 In a speaker recognition device that recognizes a speaker using personality information included in a sound wave,
Audio input means for inputting a digital audio signal;
4. The speech feature extraction apparatus according to claim 1, wherein after the input digital speech signal is divided into frames of an appropriate length and subjected to window processing, feature vectors including personality information are sequentially output. ,
Model creation means for creating a personality feature model from the feature vector input from the speech feature extraction device;
Registration means for registering the individuality feature model created by the model creation means;
Speaker selection means for selecting the speaker with the highest similarity (likelihood) from the individuality feature model registered by the registration means based on the feature vector output from the speech feature extraction device;
A speaker recognition device comprising:
窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第1の分析機能と、
この第1の分析機能により抽出された前記スペクトル成分を対数変換する対数変換機能と、
この対数変換機能により対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第2の分析機能と、
を前記コンピュータに実行させることを特徴とするプログラム。 A computer-readable program for executing an audio feature extraction function for sequentially outputting a feature vector including personality information after dividing an input digital audio signal into frames of an appropriate length and performing window processing. ,
A first analysis function for performing frequency analysis on a digital audio signal subjected to window processing and extracting a spectral component;
A logarithmic conversion function for logarithmically converting the spectral components extracted by the first analysis function;
A second analysis function for multi-resolution analysis of the logarithmic spectrum logarithmically converted by the logarithmic conversion function to obtain a feature vector;
That causes the computer to execute the program.
前記第2の分析機能から得られた特徴ベクトルと前記第3の分析機能から得られた特徴ベクトルとを統合する統合機能と、
を前記コンピュータに実行させることを特徴とする請求項5記載のプログラム。 A third analysis function for extracting a cepstrum coefficient from the spectral component extracted by the first analysis function and obtaining a feature vector;
An integration function for integrating the feature vector obtained from the second analysis function and the feature vector obtained from the third analysis function;
The program according to claim 5, wherein the computer is executed.
ことを特徴とする請求項6記載のプログラム。 Alternatively, vector integration for each cefency band that is a variable of cepstrum,
The program according to claim 6.
窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第1の分析ステップと、
この第1の分析ステップにより抽出された前記スペクトル成分を対数変換する対数変換ステップと、
この対数変換ステップにより対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第2の分析ステップと、
を備えることを特徴とする音声特徴抽出方法。 In an audio feature extraction method for outputting a feature vector including personality information sequentially after dividing an input digital audio signal into frames of an appropriate length and performing window processing,
A first analysis step of frequency-analyzing the windowed digital audio signal and extracting a spectral component;
A logarithmic transformation step for logarithmically transforming the spectral component extracted by the first analysis step;
A second analysis step in which a logarithmic spectrum logarithmically transformed by the logarithmic transformation step is subjected to multiresolution analysis to obtain a feature vector;
A speech feature extraction method comprising:
前記第2の分析ステップから得られた特徴ベクトルと前記第3の分析ステップから得られた特徴ベクトルとを統合する統合ステップと、
を備えることを特徴とする請求項8記載の音声特徴抽出方法。 A third analysis step of extracting a cepstrum coefficient from the spectral component extracted by the first analysis step to obtain a feature vector;
An integration step of integrating the feature vector obtained from the second analysis step and the feature vector obtained from the third analysis step;
The speech feature extraction method according to claim 8, further comprising:
ことを特徴とする請求項9記載の音声特徴抽出方法。 Alternatively, vector integration for each cefency band that is a variable of cepstrum,
The speech feature extraction method according to claim 9.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004118831A JP2005301022A (en) | 2004-04-14 | 2004-04-14 | Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004118831A JP2005301022A (en) | 2004-04-14 | 2004-04-14 | Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005301022A true JP2005301022A (en) | 2005-10-27 |
Family
ID=35332614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004118831A Pending JP2005301022A (en) | 2004-04-14 | 2004-04-14 | Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005301022A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014048534A (en) * | 2012-08-31 | 2014-03-17 | Sogo Keibi Hosho Co Ltd | Speaker recognition device, speaker recognition method, and speaker recognition program |
-
2004
- 2004-04-14 JP JP2004118831A patent/JP2005301022A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014048534A (en) * | 2012-08-31 | 2014-03-17 | Sogo Keibi Hosho Co Ltd | Speaker recognition device, speaker recognition method, and speaker recognition program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5662276B2 (en) | Acoustic signal processing apparatus and acoustic signal processing method | |
JP4802135B2 (en) | Speaker authentication registration and confirmation method and apparatus | |
JP5230103B2 (en) | Method and system for generating training data for an automatic speech recognizer | |
JP3364904B2 (en) | Automatic speech recognition method and apparatus | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP4797342B2 (en) | Method and apparatus for automatically recognizing audio data | |
US10614827B1 (en) | System and method for speech enhancement using dynamic noise profile estimation | |
JP2002140089A (en) | Method and apparatus for pattern recognition training wherein noise reduction is performed after inserted noise is used | |
US6990447B2 (en) | Method and apparatus for denoising and deverberation using variational inference and strong speech models | |
JP4061094B2 (en) | Speech recognition apparatus, speech recognition method and program thereof | |
KR101888058B1 (en) | The method and apparatus for identifying speaker based on spoken word | |
JP2005078077A (en) | Method and device to pursue vocal tract resonance using temporal restriction guided by nonlinear predictor and target | |
CN112185342A (en) | Voice conversion and model training method, device and system and storage medium | |
JP2002268698A (en) | Voice recognition device, device and method for standard pattern generation, and program | |
JP6273227B2 (en) | Speech recognition system, speech recognition method, program | |
JP4571871B2 (en) | Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof | |
WO2007000816A1 (en) | Speech feature extracting device, speaker recognizer, program, and speech feature extracting method | |
JP2005301022A (en) | Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method | |
JP4464797B2 (en) | Speech recognition method, apparatus for implementing the method, program, and recording medium therefor | |
US20070219796A1 (en) | Weighted likelihood ratio for pattern recognition | |
JP4550674B2 (en) | Speech feature extraction device, speech feature extraction method, and speech feature extraction program | |
JP7159767B2 (en) | Audio signal processing program, audio signal processing method, and audio signal processing device | |
Jagtap et al. | Speaker verification using Gaussian mixture model | |
JP4362072B2 (en) | Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof | |
JP2019090930A (en) | Sound source enhancement device, sound source enhancement learning device, sound source enhancement method and program |