JP5272141B2 - Voice processing apparatus and program - Google Patents
Voice processing apparatus and program Download PDFInfo
- Publication number
- JP5272141B2 JP5272141B2 JP2009126598A JP2009126598A JP5272141B2 JP 5272141 B2 JP5272141 B2 JP 5272141B2 JP 2009126598 A JP2009126598 A JP 2009126598A JP 2009126598 A JP2009126598 A JP 2009126598A JP 5272141 B2 JP5272141 B2 JP 5272141B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- value
- section
- speaker
- index value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、音声信号を処理する技術に関する。 The present invention relates to a technique for processing an audio signal.
音声信号から抽出された特徴量を利用した話者認識の技術が従来から提案されている。例えば、特許文献1には、音声信号を時間軸上で区分した複数の区間の各々から抽出された平均パワースペクトルやMFCC(mel-frequency cepstral coefficient)を利用して、各区間を話者毎に分類する技術が提案されている。 Conventionally, speaker recognition techniques using feature amounts extracted from speech signals have been proposed. For example, in Patent Document 1, each section is classified for each speaker by using an average power spectrum or MFCC (mel-frequency cepstral coefficient) extracted from each of a plurality of sections obtained by dividing a voice signal on a time axis. Classification techniques have been proposed.
しかし、平均パワースペクトルやMFCCを利用する構成では、充分に高精度な話者認識を実現できない可能性もある。したがって、高精度な話者認識を実現できる新規な特徴量が従来から強く要望および期待されている。以上の事情を背景として、本発明は、高精度な話者認識を実現し得る特徴量を提案することを目的とする。 However, the configuration using the average power spectrum and MFCC may not be able to realize sufficiently accurate speaker recognition. Therefore, there has been a strong demand and expectation for a new feature amount that can realize speaker recognition with high accuracy. In view of the above circumstances, an object of the present invention is to propose a feature amount capable of realizing highly accurate speaker recognition.
以上の課題を解決するために、本発明の第1の態様に係る音声処理装置は、音声信号の自己相関数列を算定する特徴抽出手段と、自己相関数列を特徴量として話者認識を実行する話者認識手段とを具備する。以上の形態においては、音声信号の自己相関数列が話者認識の特徴量として利用されるから、高精度な話者認識を実現することが可能である。 In order to solve the above problems, the speech processing apparatus according to the first aspect of the present invention executes feature recognition using feature extraction means for calculating an autocorrelation sequence of speech signals and speaker recognition using the autocorrelation sequence as a feature quantity. Speaker recognition means. In the above embodiment, since the autocorrelation sequence of the speech signal is used as a feature amount for speaker recognition, it is possible to realize speaker recognition with high accuracy.
音声信号のうち高域側の成分ほど発話の内容に応じた自己相関数列の変動が抑制されるという傾向がある。したがって、発話の内容に影響されない高精度な話者認識を実現するという観点からすると、音声信号のうち所定の周波数を上回る成分について自己相関数列を算定する構成が格別に好適である。 There is a tendency that fluctuations in the autocorrelation sequence corresponding to the content of the utterance are suppressed as the higher frequency component of the audio signal. Therefore, from the viewpoint of realizing highly accurate speaker recognition that is not affected by the content of the utterance, a configuration that calculates an autocorrelation sequence for a component that exceeds a predetermined frequency in the speech signal is particularly suitable.
ところで、複数の音声信号の類否(相関の有無)の判定には、例えば、各音声信号の特徴量の相関を示す相関係数(相互相関)が利用される。しかし、特徴量を規定する数値列が表す分布(スペクトルや時間波形など)における強度の相違は相関係数に必ずしも反映されない。例えば、周波数が共通で振幅が相違する複数の正弦波の相関係数は、周波数および振幅の双方が共通する(すなわち、波形が完全に合致する)複数の正弦波の相関係数と同じ数値(最大値)となる。したがって、発声者を高精度に区別できない場合がある。 By the way, for the determination of the similarity (presence / absence of correlation) of a plurality of audio signals, for example, a correlation coefficient (cross-correlation) indicating the correlation between the feature amounts of each audio signal is used. However, the difference in intensity in the distribution (spectrum, time waveform, etc.) represented by the numerical sequence that defines the feature quantity is not necessarily reflected in the correlation coefficient. For example, the correlation coefficient of a plurality of sine waves having the same frequency but different amplitudes has the same numerical value as the correlation coefficient of a plurality of sine waves having the same frequency and amplitude (that is, the waveform perfectly matches) ( Maximum value). Therefore, the speaker may not be distinguished with high accuracy.
以上の課題を解決するために、本発明の第2の態様に係る音声処理装置は、複数の数値の系列で表わされる特徴量を音声信号から抽出する特徴抽出手段と、複数の数値の系列で表わされる参照用の特徴量を記憶する記憶手段と、特徴抽出手段が抽出した特徴量と参照用の特徴量との各々における対応する位置に、相異なる数値を含む補助成分を付加する成分付加手段と、補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定手段と、類否指標値を利用して話者認識を実行する認識処理手段とを具備する。以上の態様においては、音声信号の特徴量と参照用の特徴量とが共通の補助成分の付加後に比較されるから、音声信号の特徴量の各数値の系列が参照用の特徴量の各数値の系列の定数倍であるような関係が成立する場合でも、音声信号の特徴量と参照用の特徴量との相違を類否指標値にて顕在化することが可能である。したがって、高精度な話者認識が可能である。 In order to solve the above-described problem, a speech processing apparatus according to the second aspect of the present invention includes feature extraction means for extracting feature values represented by a plurality of numerical sequences from a speech signal, and a plurality of numerical sequences. Storage means for storing the reference feature quantity to be represented, and component addition means for adding auxiliary components including different numerical values to corresponding positions in the feature quantity extracted by the feature extraction means and the reference feature quantity, respectively. And an index calculation means for calculating the similarity index value indicating the similarity of each feature quantity after the addition of the auxiliary component, and a recognition processing means for executing speaker recognition using the similarity index value. In the above aspect, since the feature value of the audio signal and the feature value for reference are compared after the addition of the common auxiliary component, each numerical value series of the feature value of the audio signal is represented by each value of the reference feature value. Even when a relationship that is a constant multiple of the sequence is established, the difference between the feature value of the audio signal and the reference feature value can be manifested by the similarity index value. Therefore, highly accurate speaker recognition is possible.
なお、特許文献1の技術においては、音声信号を区分した複数の区間から2個の区間を選択する複数の組合せについて特徴量の類否を判定するから、音声信号の各区間を実時間的に発声者毎に分類することは困難である。そこで、本発明の第3の態様に係る音声処理装置は、音声信号を複数の区間に区分する音声区分手段と、音声信号の各区間について特徴量を抽出する特徴抽出手段と、参照用の特徴量を記憶する記憶手段と、各区間の特徴量を利用して複数の区間の各々を発声者毎の集合に分類する話者認識手段とを具備し、話者認識手段は、特徴抽出手段が算定した一の区間の特徴量について、記憶手段が記憶する参照用の特徴量との類否を示す類否指標値と、既存の集合に分類された1以上の区間に対応する特徴量との類否を示す類否指標値とを算定する指標算定手段と、一の区間の特徴量が、参照用の特徴量に類似する場合に、一の区間を新規な集合に分類し、既存の集合の特徴量に類似する場合に、一の区間を既存の集合に分類する認識処理手段とを含む。以上の態様においては、音声信号を区分した1個の区間の特徴量を参照用の特徴量および既存の集合の特徴量と比較することで各区間が発声者毎の集合に分類されるから、音声信号の全部の区間は各区間の分類に必要ない。したがって、音声信号の各区間を実時間的に分類できる(すなわち、音声信号の各区間が供給されるたびに当該区間を何れかの集合に分類できる)という利点がある。 In the technique of Patent Document 1, since the similarity of the feature amount is determined for a plurality of combinations for selecting two sections from a plurality of sections into which the audio signal is divided, each section of the audio signal is determined in real time. It is difficult to classify by speaker. Therefore, the speech processing apparatus according to the third aspect of the present invention includes speech classification means for dividing a speech signal into a plurality of sections, feature extraction means for extracting feature quantities for each section of the speech signal, and reference features. Storage means for storing the amount, and speaker recognition means for classifying each of the plurality of sections into a set for each speaker by using the feature amount of each section. About the calculated feature quantity of one section, the similarity index value indicating similarity with the reference feature quantity stored in the storage means, and the feature quantity corresponding to one or more sections classified into the existing set Index calculation means for calculating the similarity index value indicating similarity, and when the feature quantity of one section is similar to the reference feature quantity, classify the one section into a new set, and set the existing set A recognition processing means for classifying one section into an existing set when the feature amount is similar to No. In the above aspect, each section is classified into a set for each speaker by comparing the feature quantity of one section into which the speech signal is divided with the reference feature quantity and the feature quantity of the existing set. All sections of the audio signal are not necessary for classification of each section. Therefore, there is an advantage that each section of the audio signal can be classified in real time (that is, the section can be classified into any set whenever each section of the audio signal is supplied).
第3の態様に係る音声処理装置の具体例において、認識処理手段は、一の区間の特徴量が参照用の特徴量に類似する場合であっても、既存の集合の特徴量との類否指標値が所定の閾値に対して類似側の数値である場合には、一の区間を当該既存の集合に分類する。以上の態様によれば、発声者が共通する複数の区間が別個の集合に分類される可能性が低減されるという利点がある。また、認識処理手段は、一の区間の特徴量が記既存の集合の特徴量に類似する場合であっても、既存の集合の特徴量との類否指標値が所定の閾値に対して非類似側の数値である場合には、一の区間を新規な集合に分類する。以上の態様によれば、発声者が異なる複数の区間が共通の集合に分類される可能性が低減されるという利点がある。 In the specific example of the speech processing apparatus according to the third aspect, the recognition processing means determines whether the feature quantity of one section is similar to the feature quantity of the existing set even when the feature quantity of one section is similar to the reference feature quantity. When the index value is a numerical value on the similar side with respect to the predetermined threshold, one section is classified into the existing set. According to the above aspect, there exists an advantage that possibility that the several area | region where a speaker is in common will be classified into a separate set is reduced. In addition, the recognition processing means may determine whether the similarity index value with the feature value of the existing set is not equal to the predetermined threshold value even if the feature value of one section is similar to the feature value of the existing set. If it is a numerical value on the similar side, one section is classified into a new set. According to the above aspect, there is an advantage that the possibility that a plurality of sections with different speakers are classified into a common set is reduced.
なお、「類否指標値が所定の閾値に対して類似側の数値である場合」には、各特徴量が類似するほど増加するように定義された類否指標値が所定の閾値を上回る場合と、各特徴量が類似するほど減少するように定義された類否指標値が所定の閾値を下回る場合とが包含される。同様に、「類否指標値が所定の閾値に対して非類似側の数値である場合」には、各特徴量が類似するほど増加するように定義された類否指標値が所定の閾値を下回る場合と、各特徴量が類似するほど減少するように定義された類否指標値が所定の閾値を上回る場合とが包含される。 In addition, when “similarity index value is a numerical value on the similar side with respect to a predetermined threshold value”, the similarity index value defined so as to increase as each feature quantity is similar exceeds the predetermined threshold value And the case where the similarity index value defined so as to decrease as the feature amounts become similar is less than a predetermined threshold value. Similarly, when “similarity index value is a numerical value on a dissimilar side with respect to a predetermined threshold value”, the similarity index value defined so as to increase as each feature amount is similar to the predetermined threshold value. The case where it falls below and the case where the similarity index value defined so that each feature-value decreases like it exceed a predetermined threshold are included.
第1の態様と第2の態様と第3の態様とから選択された2以上の態様は任意に併合される。例えば、第2の態様および第3の態様における特徴量は本来的には任意ではあるが、第1の態様の自己相関数列を第2の態様および第3の態様における特徴量として採用することが可能である。また、第2の態様における成分付加手段を第1の態様や第3の態様に付加した構成も採用される。 Two or more aspects selected from the first aspect, the second aspect, and the third aspect are arbitrarily merged. For example, the feature quantities in the second and third aspects are essentially arbitrary, but the autocorrelation sequence of the first aspect may be adopted as the feature quantities in the second and third aspects. Is possible. Moreover, the structure which added the component addition means in the 2nd aspect to the 1st aspect or the 3rd aspect is also employ | adopted.
本出願内の「話者認識」は、音声信号の音声の発声者が正規の登録者に該当するか否かを判定する話者認証(話者照合)と、音声信号の音声の発声者を識別する話者識別とを包括する概念である。話者識別は、音声信号の音声の発声者が複数の登録者の何れに該当するのかを判定する処理と、複数の発声者が存在する状況で収録された音声の各区間が何れの発声者の音声に該当するのかを判定する処理(更には各区間を発声者毎に分類する処理)とを包含する。以上のように定義された話者認識の概念に含まれる何れの処理にも、本発明(第1の態様から第3の態様)を適用することが可能である。もっとも、話者認識以外の処理に対する本発明の適用の可能性を排除する趣旨ではない。 “Speaker recognition” in this application refers to speaker authentication (speaker verification) for determining whether or not a voice speaker of a voice signal corresponds to a regular registrant, and a voice speaker of a voice signal. It is a concept that includes speaker identification to be identified. For speaker identification, the process of determining which of the plurality of registrants corresponds to the voice speaker of the voice signal, and which speaker is in each segment of the voice recorded in the situation where there are multiple speakers And a process of determining whether the voice corresponds to the voice (further, a process of classifying each section for each speaker). The present invention (the first to third aspects) can be applied to any process included in the concept of speaker recognition defined as described above. However, this is not intended to exclude the possibility of applying the present invention to processing other than speaker recognition.
以上の各態様に係る音声処理装置は、音声信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。例えば、本発明の第1の態様に係るプログラムは、音声信号の自己相関数列を算定する特徴抽出処理と、自己相関数列を特徴量として利用した話者認識処理とをコンピュータに実行させる。 The sound processing apparatus according to each of the above aspects is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to processing of a sound signal, or a general-purpose operation such as a CPU (Central Processing Unit). This is also realized by cooperation between the processing device and the program. For example, the program according to the first aspect of the present invention causes a computer to execute a feature extraction process for calculating an autocorrelation sequence of speech signals and a speaker recognition process using the autocorrelation sequence as a feature quantity.
第2の態様に係るプログラムは、複数の数値の系列で表わされる特徴量を音声信号から抽出する特徴抽出処理と、特徴抽出処理で抽出した特徴量と複数の数値の系列で表わされる参照用の特徴量との各々における対応する位置に、相異なる数値を含む補助成分を付加する成分付加処理と、補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定処理と、類否指標値を利用した話者認識処理とをコンピュータに実行させる。また、第3の態様に係るプログラムは、音声信号を複数の区間に区分する音声区分処理と、音声信号の各区間について特徴量を抽出する特徴抽出処理と、各区間の特徴量を利用して複数の区間の各々を発声者毎の集合に分類する話者認識処理とをコンピュータに実行させるプログラムであって、話者認識処理が、特徴抽出処理で算定した一の区間の特徴量について、参照用の特徴量との類否を示す類否指標値と、既存の集合に分類された1以上の区間に対応する特徴量との類否を示す類否指標値とを算定する指標算定処理と、一の区間の特徴量が、参照用の特徴量に類似する場合に、一の区間を新規な集合に分類し、既存の集合の特徴量に類似する場合に、一の区間を既存の集合に分類する認識処理とを含む。 The program according to the second aspect includes a feature extraction process for extracting feature amounts represented by a plurality of numerical value sequences from a speech signal, a feature amount extracted by the feature extraction processing, and a reference value represented by a plurality of numerical value sequences. Component addition processing for adding auxiliary components including different numerical values to corresponding positions in each feature amount, and index calculation processing for calculating similarity index values indicating similarity of each feature amount after the addition of auxiliary components And a speaker recognition process using the similarity index value. Further, the program according to the third aspect uses an audio classification process for dividing an audio signal into a plurality of sections, a feature extraction process for extracting a feature quantity for each section of the audio signal, and a feature quantity of each section. A program for causing a computer to execute speaker recognition processing for classifying each of a plurality of sections into a set for each speaker, and the speaker recognition processing refers to the feature amount of one section calculated by the feature extraction processing. An index calculation process for calculating an similarity index value indicating similarity with a feature quantity for use and an similarity index value indicating similarity with a feature quantity corresponding to one or more sections classified into an existing set; When the feature value of one section is similar to the reference feature value, the one section is classified into a new set, and when the feature value is similar to the feature value of the existing set, the one section is set to the existing set. And recognition processing to classify.
以上の各態様に係るプログラムによれば、本発明の各態様に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 According to the program according to each aspect described above, the same operations and effects as the sound processing apparatus according to each aspect of the present invention are exhibited. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100Aのブロック図である。図1に示すように、音声処理装置100Aには、信号供給装置12と出力装置14とが接続される。信号供給装置12は、音声の時間軸上の波形を表す音声信号Vを音声処理装置100Aに供給する。例えば、周囲の音声を収音して音声信号Vを生成する収音機器や、各種の記録媒体から音声信号Vを取得する再生装置や、通信網から音声信号Vを受信する通信装置が、信号供給装置12として利用される。
<A: First Embodiment>
FIG. 1 is a block diagram of a
音声処理装置100Aは、音声信号Vを利用した話者認識を実行する装置(話者認識装置)である。具体的には、音声処理装置100Aが実行する話者認識は、音声信号Vの音声の発声者が複数の登録者の何れに該当するのかを判定する話者識別である。出力装置14は、音声処理装置100Aによる話者認識(話者識別)の結果を画像や音声で出力する。例えば表示装置や印刷装置や放音機器(スピーカやヘッドホン)が出力装置14として利用される。
The
図1に示すように、音声処理装置100Aは、演算処理装置22と記憶装置24とを含んで構成されるコンピュータシステムである。記憶装置24は、演算処理装置22が実行するプログラム26や演算処理装置22が使用するデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置24として任意に採用される。
As shown in FIG. 1, the sound processing device 100 </ b> A is a computer system that includes an
演算処理装置22は、記憶装置24に格納されたプログラム26を実行することで、音声信号Vの話者認識を実行するための複数の機能(特徴抽出部32,話者認識部34)を実現する。なお、演算処理装置22の各要素を複数の装置(集積回路)に分散的に搭載した構成や、音声信号Vの処理に専用される電子回路(DSP)が各要素を実現する構成も採用される。
The
図1の特徴抽出部32は、音声信号Vの特徴量FVを抽出する。具体的には、特徴抽出部32は、音声信号Vの自己相関数列AVを特徴量FVとして生成する。自己相関数列AVは、音声信号Vの自己相関値a(m)の系列(時系列)に相当する。記号mは、音声信号Vに対する自身の時間軸上の移動量(時間差)を示す整数である。
The
図2および図3は、試験的に採取された音声信号Vの自己相関数列AV(自己相関関数)を、3人の発声者S(SA〜SC)の各々について図示したグラフである。図2には、音声信号Vの低域側(1.5kHz以下)の成分の自己相関数列AVが図示され、図3には、音声信号Vの高域側(2kHz〜7.8kHz)の成分の自己相関数列AVが図示されている。図2および図3の各グラフにおける横軸は、音声信号Vの時間軸上の移動量(自身との時間差)を意味し、縦軸は、自己相関値a(m)を意味する。各発声者Sのグラフには、発話の内容が異なる複数の音声信号Vの自己相関数列AVが併記されている。 FIGS. 2 and 3 are graphs illustrating the autocorrelation sequence AV (autocorrelation function) of the voice signal V collected on a trial basis for each of the three speakers S (SA to SC). FIG. 2 shows the autocorrelation sequence AV of the low frequency component (1.5 kHz or less) of the audio signal V, and FIG. 3 shows the self component of the high frequency component (2 kHz to 7.8 kHz) of the audio signal V. A correlation sequence AV is shown. 2 and 3, the horizontal axis represents the movement amount of the audio signal V on the time axis (time difference from itself), and the vertical axis represents the autocorrelation value a (m). In the graph of each speaker S, an autocorrelation sequence AV of a plurality of speech signals V having different utterance contents is written together.
図2や図3から把握されるように、自己相関数列AVには、発声者に固有で発話の内容に依存しない特徴が現れる。したがって、音声信号Vの話者認識のための特徴量として自己相関数列AVを利用することが可能である。ただし、図2に例示した低域側の成分には、図3に例示した高域側の成分と比較すると、発話の内容に起因した自己相関値a(m)の変動が発生し易い。高精度な話者認識のためには発話の内容に独立な特徴量(例えば、発声者の声道の共振特性を反映した特徴量)が要望されるから、話者認識用の特徴量としては、音声信号Vのうち所定の周波数を上回る成分の自己相関数列AVが格別に好適である。 As can be understood from FIGS. 2 and 3, the autocorrelation sequence AV has characteristics that are specific to the speaker and independent of the content of the utterance. Therefore, the autocorrelation sequence AV can be used as a feature amount for speaker recognition of the voice signal V. However, the low-frequency component illustrated in FIG. 2 is more likely to vary the autocorrelation value a (m) due to the content of the utterance than the high-frequency component illustrated in FIG. For high-accuracy speaker recognition, features that are independent of the content of the utterance (for example, features that reflect the resonance characteristics of the vocal tract of the speaker) are required. The autocorrelation sequence AV having a component exceeding a predetermined frequency in the audio signal V is particularly suitable.
図4は、図1の特徴抽出部32の具体的なブロック図である。図4の低域抑圧部51は、音声信号Vのうち所定の周波数fcを下回る成分を抑圧するフィルタ(ハイパスフィルタ)である。低域抑圧部51による処理後の音声信号Vを対象とした話者認識にて所望の精度が実現される程度に、発話の内容に起因した自己相関値a(m)の変動が抑制されるように、周波数fcは実験的または統計的に選定される。具体的には、1.5kHz以上かつ2.0kHz以下の範囲内の数値が周波数fcとして好適である。
FIG. 4 is a specific block diagram of the
時間-周波数変換部52は、低域抑圧部51による処理後の音声信号V(例えば2.0kHz〜7.8kHzの成分)を時間軸上で区分した複数のフレームの各々について周波数スペクトルQを生成する。周波数スペクトルQの生成には、高速フーリエ変換などの公知の技術が任意に採用される。パワー算定部53は、周波数スペクトル(振幅スペクトル)Qの絶対値の自乗をパワースペクトル|Q|2として算定する。平均部54は、パワー算定部53が算定したパワースペクトル|Q|2を複数のフレームについて平均(または加算)することで平均パワースペクトル(平均周波数特性)Pを生成する。平均パワースペクトルPの算定に使用されるパワースペクトル|Q|2のフレームの個数や位置は任意である。
The time-
周波数-時間変換部55は、平均部54が生成した平均パワースペクトルPに逆フーリエ変換を実行する。Wiener-Khintchineの定理から、平均パワースペクトルPに逆フーリエ変換を実行した時間領域の数値列が自己相関数列AVに相当する。具体的には、周波数-時間変換部55は、以下の数式(1)の演算(逆フーリエ変換)で各自己相関値a(m)を算定する。なお、数式(1)の記号kは、周波数軸上に離散的に設定された複数の周波数(周波数ビン)の何れかを指定する整数であり、数式(1)の記号p(k)は、平均パワースペクトルPのうち記号kが示す周波数での強度(パワー)を意味する。
図1に示すように、記憶装置24には、特徴量FVと同種の参照用の特徴量FREF(辞書)が、相異なる複数の登録者の各々の音声について事前に格納される。具体的には、自己相関数列AVと同様の方法で登録者毎に生成された自己相関数列AREFが特徴量FREFとして記憶装置24に格納される。なお、自己相関数列AREFの生成には特徴抽出部32を流用できるが、音声処理装置100Aとは別個の装置で登録者毎に生成して記憶装置24に格納する方法も採用される。自己相関数列AVを構成する自己相関値a(m)の個数と参照用の自己相関数列AREFを構成する自己相関値a(m)の個数とは共通する。
As shown in FIG. 1, in the
話者認識部34は、特徴抽出部32が抽出した特徴量FV(自己相関数列AV)と記憶装置24に格納された各特徴量FREF(自己相関数列AREF)とを比較することで話者認識を実行する。図1に示すように、話者認識部34は、指標算定部42と認識処理部44とを含んで構成される。指標算定部42は、音声信号Vの自己相関数列AVと参照用の自己相関数列AREFとの類否(特徴量FVと特徴量FREFとの相関)を示す類否指標値Rを、記憶装置24に格納された複数の自己相関数列AREFの各々について算定する。具体的には、話者認識部34は、以下の数式(2)で定義される相関係数Corを類否指標値Rとして算定する。
The
図1の指標算定部42は、自己相関数列AVの各自己相関値a(m)を数式(2)の各数値d1(i)に代入するとともに自己相関数列AREFの各自己相関値a(m)を数式(2)の各数値d2(i)に代入したときの相関係数Corを類否指標値Rとして算定する。したがって、自己相関数列AVと自己相関数列AREFとが類似するほど類否指標値Rは大きい数値となる。
The
図1の認識処理部44は、指標算定部42が自己相関数列AREF毎(登録者毎)に算定した類否指標値Rを利用した話者識別を実行する。具体的には、認識処理部44は、複数の登録者のうち自己相関数列AVと自己相関数列AREFとの類否指標値Rが最大となる登録者を特定する。すなわち、音声信号Vの音声の発声者(未知)が複数の登録者のなかから識別される。認識処理部44による識別の結果は出力装置14から出力される。
The
以上の形態においては、音声信号Vの自己相関数列AVが話者認識の特徴量FVとして利用されるから、高精度な話者認識を実現することが可能である。また、音声信号Vのうち周波数fcを上回る成分(すなわち、発話の内容に起因した自己相関値a(m)の変動が少ない成分)の自己相関数列AVが話者認識に適用されるから、発話の内容に拘わらず高精度な話者認識が可能であるという格別の効果が実現される。 In the above embodiment, since the autocorrelation sequence AV of the audio signal V is used as the feature amount FV for speaker recognition, it is possible to realize speaker recognition with high accuracy. In addition, since the autocorrelation sequence AV of the component of the voice signal V that exceeds the frequency fc (that is, the component in which the autocorrelation value a (m) varies less due to the content of the utterance) is applied to speaker recognition, A special effect is realized that speaker recognition with high accuracy is possible regardless of the content of the.
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。第2実施形態においては、類否指標値Rの算定の対象が第1実施形態とは相違する。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In the second embodiment, the target for calculating the similarity index value R is different from that of the first embodiment. In addition, about the element in which an effect | action and a function are equivalent to 1st Embodiment in each following form, the same code | symbol as the above is attached | subjected and each detailed description is abbreviate | omitted suitably.
図5および図6は、第2実施形態にて類否指標値Rを算定する方法の原理を説明するための概念図である。図5には、周波数が共通で振幅が相違する2種類の波形(WA,WB)が図示されている。波形WAを表す数値列(数値d1(i)の系列)と波形WBを表す数値列(数値d2(i)の系列)とから数式(2)で算定される相関係数Corは、波形WAと波形WBとで振幅が相違するにも拘わらず、両者の合致を意味する最大値「1」となる。したがって、相関係数Corからは波形WAと波形WBとを区別できない。 5 and 6 are conceptual diagrams for explaining the principle of the method for calculating the similarity index value R in the second embodiment. FIG. 5 shows two types of waveforms (WA, WB) having the same frequency but different amplitudes. Correlation coefficient Cor calculated by equation (2) from a numerical sequence representing the waveform WA (sequence of numerical values d1 (i)) and a numerical sequence representing the waveform WB (sequence of numerical values d2 (i)) is the waveform WA Although the amplitude is different from that of the waveform WB, the maximum value “1” means that the two match. Therefore, the waveform WA and the waveform WB cannot be distinguished from the correlation coefficient Cor.
他方、図6は、波形WAおよび波形WBの各々における相対応する位置に共通の成分(以下「補助成分」という)Wpを付加した場合が図示されている。図6の例示では、波形WAおよび波形WBの各々の直後に補助成分Wpが付加されている。補助成分Wpは、強度が変動する成分(非直流成分)である。具体的には、強度が周期的に変動する波形の成分(例えば正弦波成分)が補助成分Wpとして好適に採用される。なお、図6においては、補助成分Wpの振幅が波形WAの振幅を上回るとともに波形WBの振幅を下回り、かつ、補助成分Wpの周波数が波形WAおよび波形WBの周波数を上回る場合を例示したが、補助成分Wpの振幅や周波数は任意に変更される。 On the other hand, FIG. 6 shows a case where a common component (hereinafter referred to as “auxiliary component”) Wp is added to the corresponding position in each of the waveform WA and the waveform WB. In the example of FIG. 6, the auxiliary component Wp is added immediately after each of the waveform WA and the waveform WB. The auxiliary component Wp is a component whose intensity varies (non-DC component). Specifically, a waveform component (for example, a sine wave component) whose intensity varies periodically is suitably employed as the auxiliary component Wp. FIG. 6 illustrates the case where the amplitude of the auxiliary component Wp exceeds the amplitude of the waveform WA and is lower than the amplitude of the waveform WB, and the frequency of the auxiliary component Wp exceeds the frequencies of the waveform WA and the waveform WB. The amplitude and frequency of the auxiliary component Wp are arbitrarily changed.
波形WAに補助成分Wpを付加した波形WApを表す数値列(数値d1(i)の系列)と、波形WBに補助成分Wpを付加した波形WBpを表す数値列(数値d2(i)の系列)とから数式(2)で算定される相関係数Corは、最大値「1」を下回る数値(例えば0.9)となる。すなわち、共通の補助成分Wpを付加することで、波形WAと波形WBとの相違(振幅の相違)を相関係数Corにて顕在化させることが可能である。他方、波形WAと波形WBとが完全に合致するならば、補助成分Wpの付加後も波形は当然に合致するから、相関係数Corは最大値となる。第2実施形態においては、以上の原理を利用して、音声信号Vの特徴量FV(自己相関数列AV)と参照用の特徴量FREF(自己相関数列AREF)との相違を顕在化させる。 A numerical sequence (a series of numerical values d1 (i)) representing the waveform WAp with the auxiliary component Wp added to the waveform WA, and a numerical sequence (a series of numerical values d2 (i)) representing the waveform WBp with the auxiliary component Wp added to the waveform WB. Therefore, the correlation coefficient Cor calculated by the equation (2) is a numerical value (for example, 0.9) that is less than the maximum value “1”. That is, by adding the common auxiliary component Wp, the difference between the waveform WA and the waveform WB (difference in amplitude) can be manifested by the correlation coefficient Cor. On the other hand, if the waveform WA and the waveform WB completely match, the waveform naturally matches even after the auxiliary component Wp is added, so the correlation coefficient Cor becomes the maximum value. In the second embodiment, the difference between the feature amount FV (autocorrelation sequence AV) of the audio signal V and the reference feature amount FREF (autocorrelation sequence AREF) is made obvious by using the above principle.
図7は、第2実施形態に係る音声処理装置100Bのブロック図である。図7に示すように、音声処理装置100Bは、第1実施形態の音声処理装置100Aに成分付加部36を追加した構成である。成分付加部36は、特徴抽出部32が生成した自己相関数列AVと記憶装置24に格納された複数の自己相関数列AREFの各々とに対して共通の補助成分Wpを付加する。補助成分Wpは、相異なる数値を含む複数の数値wの系列(例えば正弦波の強度の時系列)として設定される。
FIG. 7 is a block diagram of an
図7の指標算定部42は、補助成分Wpを付加した自己相関数列AVと補助成分Wpを付加した参照用の自己相関数列AREFとの類否指標値Rを、記憶装置24に格納された複数の自己相関数列AREFの各々について算定する。具体的には、指標算定部42は、自己相関数列AVの各自己相関値a(m)と補助成分Wpの各数値wとを数式(2)の各数値d1(i)に代入するとともに、自己相関数列AREFの各自己相関値a(m)と補助成分Wpの各数値wとを数式(2)の各数値d2(i)に代入することで、自己相関数列AVと自己相関数列AREFとの類否指標値R(相関係数Cor)を算定する。認識処理部44による話者認識の方法は第1実施形態と同様である。
The
第2実施形態においては、共通の補助成分Wpを付加した自己相関数列AVと自己相関数列AREFとの比較で話者認識が実行されるから、補助成分Wpを付加しない第1実施形態と比較すると、自己相関数列AVと自己相関数列AREFとの相違を顕在化させることが可能である。したがって、第1実施形態よりも高精度な話者認識が実現されるという利点がある。 In the second embodiment, speaker recognition is performed by comparing the autocorrelation sequence AV with the common auxiliary component Wp added thereto and the autocorrelation sequence AREF. Therefore, compared with the first embodiment without adding the auxiliary component Wp, The difference between the autocorrelation sequence AV and the autocorrelation sequence AREF can be made obvious. Therefore, there is an advantage that speaker recognition with higher accuracy than that of the first embodiment is realized.
<C:第3実施形態>
次に、本発明の第3実施形態について説明する。話者認識のひとつの態様である話者識別は、音声の発声者が複数の登録者の何れであるのかを判定する処理と、複数の発声者が存在する状況で収録された音声の各区間が何れの発声者の音声に該当するのかを判定する処理とに大別される。第1実施形態や第2実施形態では前者の話者識別を例示したが、第3実施形態では後者の話者識別を例示する。なお、以下では第1実施形態の構成を基礎として第3実施形態を説明するが、第2実施形態における成分付加部36を第3実施形態に追加することも当然に可能である。
<C: Third Embodiment>
Next, a third embodiment of the present invention will be described. Speaker identification, which is one aspect of speaker recognition, is a process for determining which of a plurality of registrants a voice speaker and each section of speech recorded in a situation where a plurality of speakers exist. Is roughly divided into processing for determining which speaker's voice corresponds to. In the first embodiment and the second embodiment, the former speaker identification is illustrated, but in the third embodiment, the latter speaker identification is illustrated. In the following, the third embodiment will be described based on the configuration of the first embodiment, but it is naturally possible to add the
図8は、第3実施形態に係る音声処理装置100Cのブロック図である。図8に示すように、音声処理装置100Cは、第1実施形態の音声処理装置100Aに音声区分部38を追加するとともに、第1実施形態の認識処理部44を認識処理部46に置換した構成である。複数の発声者が存在する状況(例えば複数の参加者が存在する会議)で収録された音声信号Vが信号供給装置12から音声処理装置100Cに供給される。
FIG. 8 is a block diagram of a
音声区分部38は、音声信号Vを時間軸上で複数の区間(ブロック)Bに区分する。各区間Bは、ひとりの発声者が連続して発生した可能性が高いと推定される期間である。各区間Bには固有の識別子Ibが付与される。音声処理装置100Cは、音声信号Vの各区間Bが何れの発声者の音声に該当するのかを判定する。
The
通常の発話(特に会議における発言)には、発話の開始点から音量が徐々に増加するとともに途中の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。そこで、音声区分部38は、図9に示すように、音声信号Vの波形の包絡線(エンベロープ)Eに現れる複数の谷部Dの各々を境界として音声信号Vを複数の区間Bに区分する。以上の構成によれば、例えばひとりの発声者による発声の最後の部分と別の発声者による発生の先頭の部分とが重複する場合や、複数の発声者が間隔をあけずに順次に発声した場合であっても、各発声者による発声を別個の区間Bに区分することが可能である。もっとも、音声信号Vを複数の区間Bに区分する方法は本発明において任意である。
In a normal utterance (especially in a conference), the volume gradually increases from the start point of the utterance and gradually decreases from an intermediate point to the end point of the utterance. Therefore, as shown in FIG. 9, the
特徴抽出部32は、音声信号Vの複数の区間Bの各々について特徴量FV(自己相関数列AV)を算定する。他方、記憶装置24は、代表的な複数種の声質の音声(サンプル)の各々について特徴量FVと同種の特徴量FREF(自己相関数列AREF)を辞書として記憶する。すなわち、第1実施形態や第2実施形態では、音声信号Vの発声者の候補となる複数の登録者の特徴量FREFを事前に生成して記憶装置24に格納したが、第3実施形態では、音声信号Vの発声者の特徴量FREFが記憶装置24に格納されるわけではない。
The
図8の話者認識部34は、音声信号Vの各区間Bの特徴量FVを利用して複数の区間Bの各々を発声者毎の集合(クラスタ)CLj(jは自然数)に分類する。区間Bの分類は、各区間Bの特徴量FVを特徴抽出部32が算定するたびに実時間的に実行される。図8に示すように、話者認識部34による分類の結果に応じて集合CLj毎の記憶領域Mj(M1,M2,……)が記憶装置24に設定される。集合CLjの記憶領域Mjには、集合CLjに分類された各区間Bの識別子Ibおよび当該区間B内の音声信号Vと、集合CLjに分類された各区間Bの特徴量FVに応じた特徴量FCとが記憶される。集合CLjの特徴量FCは、例えば、集合CLjに分類された1以上の区間Bの特徴量FVの平均値である。
The
図10は、話者認識部34の動作のフローチャートである。図10に示すように、音声信号Vの最初の区間Bを取得すると(ステップS1)、認識処理部46は、当該区間Bを新規な集合CL1に分類する(ステップS2)。すなわち、認識処理部46は、ステップS1で取得した区間Bの識別子Ibと音声信号Vと特徴量FV(特徴量FC)とを、記憶装置24の記憶領域M1に格納する。
FIG. 10 is a flowchart of the operation of the
次の区間B(以下「対象区間B」という)を取得すると(ステップS3)、指標算定部42は、対象区間Bの特徴量FVと参照用の特徴量FREFとの類否指標値Rを、記憶装置24に格納された複数の特徴量FREFの各々について算定する(ステップS4)。更に、指標算定部42は、対象区間Bの特徴量FVと既存の集合(すなわち、認識処理部46が1以上の区間Bを過去に分類した集合)CLjの特徴量FCとの類否指標値Rを算定する(ステップS5)。
When the next section B (hereinafter referred to as “target section B”) is acquired (step S3), the
図10の処理を開始した直後のステップS5では、最初の区間Bが集合CL1に分類された段階に過ぎないから、認識処理部46は、集合CL1の特徴量FCについてのみ特徴量FVとの類否指標値Rが算定される。他方、図10の処理が進行して複数の集合CLjが生成された段階では、認識処理部46は、集合CLjの特徴量FCと対象区間Bの特徴量FVとの類否指標値Rを複数の集合CLjの各々についてステップS5で算定する。なお、ステップS4やステップS5における類否指標値Rの算定の方法は第1実施形態と同様である。また、ステップS4およびステップS5の順序は逆転され得る。
In step S5 immediately after the start of the process of FIG. 10, the first section B is only at the stage where it is classified into the set CL1, so the
認識処理部46は、ステップS4およびステップS5にて算定した複数の類否指標値Rのなかの最大値が、参照用の特徴量FREFの類否指標値R(ステップS4)と、既存の集合CLの特徴量FVの類否指標値R(ステップS5)との何れに該当するのかを判定する(ステップS6)。
The
参照用の特徴量FREFとの類否指標値Rが最大値である場合(S6:YES)、認識処理部46は、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとの類否指標値R(ステップS5)のなかの最大値Rmax1が所定の閾値RTH1を上回るか否か(すなわち、両者が充分に類似するか否か)を判定する(ステップS7)。ステップS7の結果が否定である場合(すなわち、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとが類似しない場合)、認識処理部46は、対象区間Bを新規な集合CLjに分類する(ステップS10)。すなわち、認識処理部46は、対象区間Bの識別子Ibと音声信号Vと特徴量FV(特徴量FC)とを集合CLjの記憶領域Mjに格納する。
When the similarity index value R with the reference feature quantity FREF is the maximum value (S6: YES), the
他方、ステップS7の結果が肯定である場合(すなわち、対象区間Bの特徴量FVが、参照用の特徴量FREFに類似するけれども、既存の集合CLjの特徴量FCにも充分に類似する場合)、認識処理部46は、既存の集合CLjのうちステップS5で算定した類否指標値Rが最大となる集合CLjに対象区間Bを分類する(ステップS8)。具体的には、認識処理部46は、対象区間Bの識別子Ibと音声信号Vとを既存の集合CLjの記憶領域Mjに追加するとともに、当該集合CLjの特徴量FCを、対象区間Bの特徴量FVに応じた数値(例えば、集合CLjに過去に分類された各区間Bの特徴量FVと対象区間Bの特徴量FVとの平均値)に更新する。以上の説明から理解されるように、対象区間Bの発声者と既存の集合CLj内の区間Bの発声者とが共通すると充分に高い確度で判断できる場合に限って両者間の類否指標値Rが閾値RTH1を上回るように、ステップS7で適用される閾値RTH1は実験的または統計的に設定される。
On the other hand, when the result of step S7 is affirmative (that is, when the feature value FV of the target section B is similar to the reference feature value FREF but sufficiently similar to the feature value FC of the existing set CLj). The
既存の集合CLjの特徴量FCとの類否指標値Rが最大値であるとステップS6で判定した場合(S6:NO)、認識処理部46は、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとの類否指標値R(ステップS5)のなかの最大値Rmax2が、所定の閾値RTH2を下回るか否か(すなわち、両者が充分に相違するか否か)を判定する(ステップS9)。ステップS9の結果が否定である場合(すなわち、対象区間Bの特徴量FVと集合CLjの特徴量FCとが類似する場合)、認識処理部46は、既存の集合CLjのうちステップS5で算定した類否指標値Rが最大となる集合CLjに対象区間Bを分類する(ステップS8)。ステップS8の処理は前述の通りである。
When it is determined in step S6 that the similarity index value R with the feature value FC of the existing set CLj is the maximum value (S6: NO), the
他方、ステップS9の結果が肯定である場合(すなわち、対象区間Bの特徴量FVが参照用の特徴量FREFおよび既存の集合CLjの特徴量FCの何れにも類似しない場合)、認識処理部46は、対象区間Bを新規な集合CLjに分類する(ステップS10)。ステップS10の処理は前述の通りである。
On the other hand, if the result of step S9 is affirmative (that is, if the feature value FV of the target section B is not similar to either the reference feature value FREF or the feature value FC of the existing set CLj), the
ステップS8またはステップS10の処理を実行すると、話者認識部34は、話者認識を終了するか否かを判定する(ステップS11)。話者認識の終了の指示が利用者から付与された場合や音声信号Vの全部の区間Bの分類が完了した場合に、認識処理部46は話者認識を終了する(S11:YES)。他方、話者認識を終了しない場合、話者認識部34は、処理をステップS3に移行し、次に取得する区間Bを新たな対象区間BとしてステップS4以降の処理を実行する。したがって、音声信号Vの複数の区間Bのうち特徴量FVが類似する各区間B(すなわち、発声者が共通すると判断できる区間B)が共通の集合CLjに分類される。以上の説明から理解されるように、対象区間Bの発声者と既存の集合CLj内の区間Bの発声者とが相違すると充分に高い確度で判断できる場合に限って両者間の類否指標値Rが閾値RTH2を下回るように、ステップS9で適用される閾値RTH2は実験的または統計的に設定される。
When the process of step S8 or step S10 is executed, the
認識処理部46による分類の結果は出力装置14から出力される。例えば、会議の議事録が出力装置14から画像として出力される。議事録には、音声信号Vの区間B毎に、当該区間Bが分類された集合CLjの識別子(発声者の識別子)と、当該区間B内の音声信号Vの音声認識で特定された文字列(すなわち、発言の内容)とが、時系列に配列される。
The classification result by the
以上の形態においては、音声信号Vを区分した1個の区間Bの特徴量FVを参照用の特徴量FREFおよび既存の集合CLjの特徴量FCと比較することで各区間Bが発声者毎の集合CLjに分類されるから、音声信号Vの全部の区間Bは1個の区間Bの分類に必要ない。したがって、音声信号Vの各区間Bを実時間的に分類できるという利点がある。なお、参照用の特徴量FREFを記憶装置24に格納せずに、既存の各集合CLjの特徴量FCと区間Bの特徴量FVとの類否指標値Rを閾値と比較することで各区間Bを発声者毎に分類する構成(以下「対比例」という)も想定される。しかし、対比例のもとでは、類否の判断の基準となる閾値を適切に選定することが困難であるという問題がある。他方、第3実施形態においては、既存の集合CLjの特徴量FCに対する類否指標値Rと参照用の特徴量FREFに対する類否指標値Rとの大小に応じて各区間Bの分類が実行されるから、対比例における閾値の設定は問題にならないという利点がある。
In the above embodiment, each section B is determined for each speaker by comparing the feature quantity FV of one section B into which the audio signal V is divided with the reference feature quantity FREF and the feature quantity FC of the existing set CLj. Since it is classified into the set CLj, all the sections B of the audio signal V are not necessary for classification of one section B. Therefore, there is an advantage that each section B of the audio signal V can be classified in real time. In addition, without storing the reference feature quantity FREF in the
さらに、以上の形態においては、対象区間Bの特徴量FVが参照用の特徴量FREFに最も類似する場合であっても、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとの類否指標値Rが閾値RTH1を上回るほどに両者が類似する場合には、対象区間Bが当該集合CLjに分類される。したがって、共通の発声者が発声した複数の区間Bが別の集合CLjに分類される可能性が低減されるという利点がある。また、対象区間Bの特徴量FVが既存の集合CLjの特徴量FCに最も類似する場合であっても、対象区間Bの特徴量FVと既存の集合CLjの特徴量FCとの類否指標値Rが閾値RTH2を下回るほどに両者が相違する場合、対象区間Bは当該集合CLjには分類されない、したがって、別の発声者が発声した複数の区間Bが同じ集合CLjに分類される可能性が低減されるという利点がある。 Furthermore, in the above embodiment, even if the feature quantity FV of the target section B is most similar to the reference feature quantity FREF, the feature quantity FV of the target section B and the feature quantity FC of the existing set CLj When the similarity index value R is so similar that it exceeds the threshold value RTH1, the target section B is classified into the set CLj. Therefore, there is an advantage that the possibility that a plurality of sections B uttered by a common speaker is classified into another set CLj is reduced. Even if the feature value FV of the target section B is most similar to the feature value FC of the existing set CLj, the similarity index value between the feature value FV of the target section B and the feature value FC of the existing set CLj If the two differ so that R falls below the threshold value RTH2, the target section B is not classified into the set CLj. Therefore, a plurality of sections B uttered by another speaker may be classified into the same set CLj. There is an advantage that it is reduced.
<D:変形例>
以上に例示した各形態は様々に変形され得る。変形の具体的な態様を以下に例示する。なお、以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
<D: Modification>
Each form illustrated above can be variously modified. Specific modes of deformation are exemplified below. Note that two or more aspects arbitrarily selected from the following examples may be appropriately combined.
(1)変形例1
第1実施形態では平均パワースペクトルPの逆フーリエ変換で自己相関数列AVを算定したが、時間領域の演算で音声信号Vから自己相関数列AVを算定する構成も採用される。ただし、周波数領域の演算で自己相関数列AVを算定する第1実施形態によれば、特徴抽出部32による演算量が削減されるという利点がある。また、低域抑圧部51の位置は任意に変更される。例えば、時間-周波数変換部52の後段に低域抑圧部51を配置して周波数スペクトルQのうちの低域側の成分を抑圧する構成も採用される。もっとも、低域抑圧部51は本発明において必須ではない。すなわち、音声信号Vのうちの低域側の成分の自己相関数列AVにも発声者に固有の特徴は現れるから、低域抑圧部51を省略した構成(すなわち、音声信号Vの全帯域を対象として自己相関数列AVを算定する構成)であっても、話者認識に利用できる自己相関数列AV(特徴量FV)を算定することは可能である。
(1) Modification 1
In the first embodiment, the autocorrelation sequence AV is calculated by inverse Fourier transform of the average power spectrum P. However, a configuration in which the autocorrelation sequence AV is calculated from the audio signal V by time domain calculation is also employed. However, according to the first embodiment in which the autocorrelation sequence AV is calculated by calculation in the frequency domain, there is an advantage that the amount of calculation by the
(2)変形例2
以上の各形態においては自己相関数列(AV,AREF)を特徴量(FV,FREF,FC)として例示したが、第2実施形態や第3実施形態における特徴量(FV,FREF,FC)の種類は任意に変更される。例えば、音声の平均パワースペクトルP(周波数スペクトルQの絶対値の自乗の平均値)や、周波数スペクトルQから算定されるケプストラムの複数のフレームにわたる平均(平均ケプストラム)を特徴量(FV,FREF,FC)として利用することが可能である。
(2)
In each of the above embodiments, the autocorrelation sequence (AV, AREF) is exemplified as the feature quantity (FV, FREF, FC). However, the types of feature quantities (FV, FREF, FC) in the second and third embodiments are described. Is arbitrarily changed. For example, the average power spectrum P of speech (the average value of the square of the absolute value of the frequency spectrum Q) or the average (average cepstrum) over a plurality of frames of the cepstrum calculated from the frequency spectrum Q is used as the feature quantity (FV, FREF, FC ) Can be used.
また、類否指標値Rは数式(2)の相関係数Corに限定されず、特徴量FVや特徴量FREFの種類に応じた適切な類否指標値Rが選定される。例えば、特徴量FVおよび特徴量FREFとして平均ケプストラムを利用した構成では、特徴量FVと特徴量FREFとの差分(第3実施形態では更に特徴量FVと特徴量FCとの差分)が類否指標値Rとして算定される。なお、平均パワースペクトルPを特徴量FVや特徴量FREFとして利用した構成では、数式(2)の相関係数Corが類否指標値として利用される。また、特徴量FVや特徴量FREFの種類によっては、距離や尤度を類否指標値Rとして算定する構成も好適である。 Further, the similarity index value R is not limited to the correlation coefficient Cor of the equation (2), and an appropriate similarity index value R corresponding to the type of the feature amount FV or the feature amount FREF is selected. For example, in the configuration using the average cepstrum as the feature quantity FV and the feature quantity FREF, the difference between the feature quantity FV and the feature quantity FREF (the difference between the feature quantity FV and the feature quantity FC in the third embodiment) is the similarity index. Calculated as the value R. In the configuration in which the average power spectrum P is used as the feature amount FV or the feature amount FREF, the correlation coefficient Cor in Expression (2) is used as the similarity index value. Also, depending on the type of feature quantity FV and feature quantity FREF, a configuration in which distance and likelihood are calculated as similarity index value R is also suitable.
以上のように類否指標値Rの定義は任意である。また、類否指標値Rの大小と特徴量FVおよび特徴量FREFとの類否との関係は類否指標値Rの定義に応じて定まる。すなわち、以上の各形態においては特徴量FVと特徴量FREFとが類似するほど類否指標値Rが大きい数値となるように類否指標値Rを定義したが、特徴量FVと特徴量FREFとが類似するほど類否指標値Rが小さい数値となるように類否指標値Rを定義した構成(例えば、特徴量FVと特徴量FREFとの距離を類否指標値Rとした構成)も採用される。 As described above, the definition of the similarity index value R is arbitrary. The relationship between the similarity index value R and the similarity between the feature quantity FV and the feature quantity FREF is determined according to the definition of the similarity index value R. That is, in each of the above embodiments, the similarity index value R is defined so that the similarity index value R becomes a larger numerical value as the feature quantity FV and the feature quantity FREF are similar, but the feature quantity FV and the feature quantity FREF are The similarity index value R is defined so that the similarity index value R becomes smaller as the similarity is similar (for example, a configuration in which the distance between the feature quantity FV and the feature quantity FREF is the similarity index value R) is also adopted. Is done.
(3)変形例3
第2実施形態における特徴量(FV,FREF)として平均パワースペクトルPを採用した場合、成分付加部36は、音声信号Vの平均パワースペクトルPV(特徴量FV)と、各登録者の音声の平均パワースペクトルPREF(特徴量FREF)との各々に共通の補助成分Wpを付加する。指標算定部42は、平均パワースペクトルPVにおける周波数毎の強度(パワー)の数値と補助成分Wpの各数値とを数式(2)の各数値d1(i)に代入するとともに、平均パワースペクトルPREFにおける周波数毎の強度の数値と補助成分Wpの各数値とを数式(2)の各数値d2(i)に代入したときの相関係数Corを類否指標値Rとして算定する。
(3) Modification 3
When the average power spectrum P is adopted as the feature amount (FV, FREF) in the second embodiment, the
また、補助成分Wpを付加する位置は適宜に変更される。例えば、特徴量FV(自己相関数列AVや平均パワースペクトルPV)と特徴量FREF(自己相関数列AREFや平均パワースペクトルPREF)の各々における先頭や途中の位置に補助成分Wpを付加または挿入する構成でも、第2実施形態と同様の効果が実現される。つまり、特徴量FVと特徴量FREFとにおける相対応する位置(両者における同じ位置)に補助成分Wpを付加する構成が本発明においては好適であるが、特徴量FVや特徴量FREFにおける補助成分Wpの具体的な位置は不問である。更に、補助成分Wpが示す波形も任意である。すなわち、補助成分Wpが示す波形に拘わらず、共通の補助成分Wpを特徴量FVと特徴量FREFとに付加することで第2実施形態と同様の効果が実現される。 Further, the position where the auxiliary component Wp is added is appropriately changed. For example, the auxiliary component Wp may be added or inserted at the beginning or in the middle of the feature amount FV (autocorrelation sequence AV or average power spectrum PV) and feature amount FREF (autocorrelation sequence AREF or average power spectrum PREF). The effect similar to 2nd Embodiment is implement | achieved. That is, a configuration in which the auxiliary component Wp is added to the corresponding position (the same position in both) of the feature amount FV and the feature amount FREF is preferable in the present invention, but the auxiliary component Wp in the feature amount FV and the feature amount FREF is preferred. The specific position of is unquestioned. Furthermore, the waveform indicated by the auxiliary component Wp is also arbitrary. That is, regardless of the waveform indicated by the auxiliary component Wp, by adding the common auxiliary component Wp to the feature quantity FV and the feature quantity FREF, the same effect as in the second embodiment is realized.
以上の説明から理解されるように、第2実施形態における成分付加部36は、特徴抽出部32が抽出した特徴量FVおよび特徴量FREFの各々を示す数値列(自己相関数列や平均パワースペクトルを構成する数値の集合)に共通の補助成分Wp(典型的には非直流成分)を付加する要素として包括される。
As can be understood from the above description, the
(4)変形例4
以上の各形態においては話者識別を例示したが、第1実施形態の音声処理装置100Aや第2実施形態の音声処理装置100Bは、音声信号Vの音声の発声者が正規の登録者に該当するか否かを判定する話者認証(話者照合)にも利用される。例えば、正規の登録者の音声から抽出された特徴量FREF(例えば自己相関数列AREF)が記憶装置24に格納され、指標算定部42は、音声信号Vから抽出された特徴量FV(例えば自己相関数列AV)と登録者の特徴量FREFとの類否指標値Rを算定する。認識処理部44は、類否指標値Rの大小に応じて音声信号Vの音声の発声者の正当性を判定する。具体的には、認識処理部44は、類否指標値Rが所定の閾値を上回る場合(特徴量FVと特徴量FREFとが類似する場合)には発声者の正当性を認証し、類否指標値Rが閾値を下回る場合には認証を否定する。
(4) Modification 4
In each of the above embodiments, speaker identification has been exemplified. However, in the
(5)変形例5
以上の各形態においては1種類の特徴量FVを利用したが、相異なる複数種の特徴量の組合せを特徴量FV(さらには特徴量FREF)として話者認識に利用する構成も好適である。例えば、自己相関数列AVと平均パワースペクトルPと平均ケプストラムとから選択された2種以上の特徴量の組合せを特徴抽出部32が特徴量FVとして抽出する。指標算定部42は、特徴量FVの特徴量毎に参照用の特徴量FREFとの類否指標値を算定するとともに各特徴量の類否指標値の加重和を話者認識用の類否指標値Rとして算定する。以上の構成によれば、特徴量FVと特徴量FREFとの類否の判断に音声の様々な観点(性質)が反映されるから、1種類の特徴量を利用する場合と比較して高精度な話者認識が実現されるという利点がある。また、各特徴量の類否指標値の加重和が類否指標値Rとして話者認識に利用されるから、特定の特徴量を他の特徴量に対して優先させるといった操作が可能である。
(5)
In each of the above embodiments, one type of feature value FV is used. However, a configuration in which a combination of different types of feature values is used as the feature value FV (and also the feature value FREF) for speaker recognition is also suitable. For example, the
100A,100B,100C……音声処理装置、12……信号供給装置、14……出力装置、22……演算処理装置、24……記憶装置、26……プログラム、32……特徴抽出部、34……話者認識部、36……成分付加部、38……音声区分部、42……指標算定部、44……認識処理部、46……認識処理部、51……低域抑圧部、52……時間-周波数変換部、53……パワー算定部、54……平均部、55……周波数-時間変換部。
100A, 100B, 100C ... speech processing device, 12 ... signal supply device, 14 ... output device, 22 ... calculation processing device, 24 ... storage device, 26 ... program, 32 ... feature extraction unit, 34 ……
Claims (7)
複数の数値の系列で表わされる参照用の特徴量を記憶する記憶手段と、
前記特徴抽出手段が抽出した特徴量と前記参照用の特徴量との各々における相対応する位置に、相異なる数値を含む共通の補助成分を付加する成分付加手段と、
前記補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定手段と、
前記類否指標値を利用して話者認識を実行する認識処理手段と
を具備する音声処理装置。 Feature extraction means for extracting a feature amount represented by a series of numerical values from an audio signal ;
Storage means for storing feature values for reference represented by a series of a plurality of numerical values;
Component addition means for adding a common auxiliary component including different numerical values to corresponding positions in each of the feature quantity extracted by the feature extraction means and the reference feature quantity;
An index calculating means for calculating an similarity index value indicating the similarity of each feature quantity after addition of the auxiliary component;
A speech processing apparatus comprising recognition processing means for performing speaker recognition using the similarity index value .
請求項1の音声処理装置。 The speech processing apparatus according to claim 1, wherein the feature extraction unit extracts a feature amount for a component that exceeds a predetermined frequency in the speech signal.
前記特徴抽出手段は、前記各区間について特徴量を抽出し、
前記指標算定手段は、前記各区間について類否指標値を算定し、
前記認識処理手段は、前記各区間の類否指標値を利用して前記複数の区間の各々を発声者毎の集合に分類する
請求項1または請求項2の音声処理装置。 Voice classification means for dividing the voice signal into a plurality of sections;
The feature extraction means extracts a feature amount for each section ,
The index calculation means calculates a similarity index value for each section,
The speech processing apparatus according to claim 1, wherein the recognition processing unit classifies each of the plurality of sections into a set for each speaker using the similarity index value of each section.
前記認識処理手段は、前記一の区間の特徴量が、前記参照用の特徴量に類似する場合に、前記一の区間を新規な集合に分類し、前記既存の集合の特徴量に類似する場合に、前記一の区間を前記既存の集合に分類する
請求項3の音声処理装置。 The index calculation unit, the feature amounts of one section the feature extraction means is calculated, indicating the similarity between the feature quantity of a reference stored in said storage means is extracted from the audio samples representative voice Calculating the similarity index value and the similarity index value indicating similarity between the feature quantity corresponding to one or more sections classified into the existing set ;
If the recognition processing means, the feature quantity of the one section is the case similar to the feature quantity for the reference, which classifies the one segment to a new collection, similar to the feature amount of the existing set And classify the one section into the existing set
The speech processing apparatus according to claim 3 .
請求項4の音声処理装置。 Said recognition processing means, even if the characteristic quantity of the one section is similar to the feature quantity for the reference, similar against a threshold similarity index value is in a predetermined feature amount of the existing set If it is a numerical value on the side, classify the one section into the existing set
The speech processing apparatus according to claim 4 .
請求項4または請求項5の音声処理装置。 The recognition processing means may determine whether the similarity index value with the feature value of the existing set is equal to a predetermined threshold value even when the feature value of the one section is similar to the feature value of the existing set. If the value is on the dissimilar side, classify the one section into a new set
The speech processing apparatus according to claim 4 or 5 .
前記特徴抽出処理で抽出した特徴量と記憶手段に記憶される複数の数値の系列で表わされる参照用の特徴量との各々における対応する位置に、相異なる数値を含む共通の補助成分を付加する成分付加処理と、
前記補助成分の付加後の各特徴量の類否を示す類否指標値を算定する指標算定処理と、
前記類否指標値を利用した話者認識処理と
をコンピュータに実行させるプログラム。 A feature extraction process for extracting a feature value represented by a series of numerical values from a speech signal ;
A common auxiliary component including different numerical values is added to the corresponding position in each of the characteristic amounts extracted in the characteristic extraction processing and the reference characteristic amounts represented by a plurality of numerical value sequences stored in the storage means. Component addition processing,
An index calculation process for calculating an similarity index value indicating the similarity of each feature quantity after the addition of the auxiliary component;
A program for causing a computer to execute speaker recognition processing using the similarity index value .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009126598A JP5272141B2 (en) | 2009-05-26 | 2009-05-26 | Voice processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009126598A JP5272141B2 (en) | 2009-05-26 | 2009-05-26 | Voice processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010276697A JP2010276697A (en) | 2010-12-09 |
JP5272141B2 true JP5272141B2 (en) | 2013-08-28 |
Family
ID=43423747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009126598A Expired - Fee Related JP5272141B2 (en) | 2009-05-26 | 2009-05-26 | Voice processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5272141B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429891B (en) * | 2020-03-30 | 2022-03-04 | 腾讯科技(深圳)有限公司 | Audio data processing method, device and equipment and readable storage medium |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6048040B2 (en) * | 1977-10-20 | 1985-10-24 | 日本電信電話株式会社 | Learning processing method for individual differences in speech recognition |
JPS63500126A (en) * | 1985-07-01 | 1988-01-14 | エッコ・インダストリ−ズ・インコ−ポレ−テッド | speaker verification device |
JP2504171B2 (en) * | 1989-03-16 | 1996-06-05 | 日本電気株式会社 | Speaker identification device based on glottal waveform |
US6480825B1 (en) * | 1997-01-31 | 2002-11-12 | T-Netix, Inc. | System and method for detecting a recorded voice |
JP2001318691A (en) * | 2000-05-09 | 2001-11-16 | Fuji Xerox Co Ltd | Individual identifying device |
JP2002169592A (en) * | 2000-11-29 | 2002-06-14 | Sony Corp | Device and method for classifying and sectioning information, device and method for retrieving and extracting information, recording medium, and information retrieval system |
JP4244524B2 (en) * | 2001-02-16 | 2009-03-25 | カシオ計算機株式会社 | Voice authentication apparatus, voice authentication method, and program |
JP5418223B2 (en) * | 2007-03-26 | 2014-02-19 | 日本電気株式会社 | Speech classification device, speech classification method, and speech classification program |
JP4973352B2 (en) * | 2007-07-13 | 2012-07-11 | ヤマハ株式会社 | Voice processing apparatus and program |
JP5109050B2 (en) * | 2007-07-13 | 2012-12-26 | 学校法人早稲田大学 | Voice processing apparatus and program |
-
2009
- 2009-05-26 JP JP2009126598A patent/JP5272141B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010276697A (en) | 2010-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017157142A1 (en) | Song melody information processing method, server and storage medium | |
JP5961950B2 (en) | Audio processing device | |
US8965766B1 (en) | Systems and methods for identifying music in a noisy environment | |
EP1569200A1 (en) | Identification of the presence of speech in digital audio data | |
Yang et al. | BaNa: A noise resilient fundamental frequency detection algorithm for speech and music | |
JP5127982B2 (en) | Music search device | |
JP2009008836A (en) | Musical section detection method, musical section detector, musical section detection program and storage medium | |
JP5050698B2 (en) | Voice processing apparatus and program | |
JP2010210758A (en) | Method and device for processing signal containing voice | |
US10706867B1 (en) | Global frequency-warping transformation estimation for voice timbre approximation | |
Rajan et al. | Music genre classification by fusion of modified group delay and melodic features | |
JP6487650B2 (en) | Speech recognition apparatus and program | |
JP5083951B2 (en) | Voice processing apparatus and program | |
CN111243618B (en) | Method, device and electronic equipment for determining specific voice fragments in audio | |
JP6565548B2 (en) | Acoustic analyzer | |
JP5272141B2 (en) | Voice processing apparatus and program | |
JP6526602B2 (en) | Speech recognition apparatus, method thereof and program | |
JP2006154212A (en) | Speech evaluation method and evaluation device | |
JP6299140B2 (en) | Sound processing apparatus and sound processing method | |
JP2023539121A (en) | Audio content identification | |
Sinith et al. | Pattern recognition in South Indian classical music using a hybrid of HMM and DTW | |
JP2011013383A (en) | Audio signal correction device and audio signal correction method | |
JP5157474B2 (en) | Sound processing apparatus and program | |
JP6599408B2 (en) | Acoustic signal processing apparatus, method, and program | |
JP5157475B2 (en) | Sound processing apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120418 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130410 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |