JP2007017620A - Utterance section detecting device, and computer program and recording medium therefor - Google Patents
Utterance section detecting device, and computer program and recording medium therefor Download PDFInfo
- Publication number
- JP2007017620A JP2007017620A JP2005197804A JP2005197804A JP2007017620A JP 2007017620 A JP2007017620 A JP 2007017620A JP 2005197804 A JP2005197804 A JP 2005197804A JP 2005197804 A JP2005197804 A JP 2005197804A JP 2007017620 A JP2007017620 A JP 2007017620A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- data
- frame
- utterance section
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004590 computer program Methods 0.000 title claims description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 238000001514 detection method Methods 0.000 claims description 67
- 238000003860 storage Methods 0.000 claims description 27
- 238000001228 spectrum Methods 0.000 claims description 22
- 230000010354 integration Effects 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 13
- 238000002360 preparation method Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 238000013500 data storage Methods 0.000 abstract description 24
- 238000012545 processing Methods 0.000 description 40
- 238000000034 method Methods 0.000 description 36
- 230000008569 process Effects 0.000 description 21
- 238000009432 framing Methods 0.000 description 20
- 238000005457 optimization Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Abstract
Description
この発明は音声認識技術に関し、特に、音声認識に先立って音声信号中から発話区間を精度よく検出するための発話区間検出装置に関する。 The present invention relates to a speech recognition technique, and more particularly to an utterance interval detection device for accurately detecting an utterance interval from a speech signal prior to speech recognition.
現在の音声認識技術における最も重要な課題の一つに、雑音環境下での頑健な認識の実現が挙げられる。この問題を解決するための手法として、スペクトルサブトラクションやWienerフィルターなどの雑音抑圧手法、MLLR(maximum likelihood linear regression)やPMC(parallel model combination)による雑音へのモデル適応などのアプローチが知られている。 One of the most important issues in current speech recognition technology is the realization of robust recognition in noisy environments. As methods for solving this problem, noise suppression methods such as spectrum subtraction and Wiener filter, approaches such as model adaptation to noise by MLLR (maximum likelihood linear regression) and PMC (parallel model combination) are known.
これらに加えて、発話区間検出は雑音環境下での音声認識において非常に重要な要素技術である。 In addition to these, speech interval detection is a very important elemental technology in speech recognition under noisy environments.
図1に、発話区間検出の概念及び位置付けについて示す。図1の左側を参照して、音声認識の処理では、音声入力60に対して発話区間検出処理62を行なう。そして、発話区間と判定された区間に含まれる音声データに対して音声認識処理64を行なう。
FIG. 1 shows the concept and positioning of speech segment detection. Referring to the left side of FIG. 1, in speech recognition processing, speech
図1の右側を参照して、例えば、音声データ30が、発話区間42及び46と、それ以外の区間40、44及び48とを含むものとする。発話区間42及び46には大きな波形の動きが見られる。これらは話者の発話により生じたものでである。一方、区間40、44及び48にも若干の波形が見られるが、これらは主として雑音データである。音声データ30から発話区間42及び46のみに含まれる音声波形50及び52を切り出すのが発話区間検出処理62である。より具体的には、発話区間検出処理62では、発話区間の開始時と、発話区間の終了時とを決定する。そして発話区間の開始時と終了時との間に存在する音声データに対して音声認識をすることにより、音声認識結果54及び56が得られる。
With reference to the right side of FIG. 1, for example, it is assumed that the
図1から明らかなように、発話区間が正しく検出されなければ、それに続く認識処理が成功する可能性はきわめて低くなる。雑音部分まで含めて音声認識が行われるためである。したがって、発話区間をできるだけ正しく決定する技術が必要である。近年、発話区間検出に関する研究も盛んに行われ、これまでに様々な処理方法が提案されている。 As is clear from FIG. 1, if the utterance period is not detected correctly, the possibility that the subsequent recognition process will succeed is extremely low. This is because voice recognition is performed including the noise part. Therefore, a technique for determining the utterance interval as correctly as possible is required. In recent years, active research has been conducted on utterance section detection, and various processing methods have been proposed so far.
特許文献1には、音声データのエネルギを測定することにより発話区間検出を行なう発話区間検出装置が開示されている。特許文献1に開示された技術では、音声データに含まれる環境雑音データの変化に追随して、発話区間検出のための音声エネルギのしきい値を変化させる。
上記したように、発話区間検出のための方法は種々提案されている。特に、特許文献1に記載の技術は、雑音環境の変化にも頑健な発話区間検出が可能になると期待される。しかし、特許文献1に記載の技術にせよ、その他の技術にせよ、発話区間検出の精度にはさらに改良の余地があるというのが現状である。特に、それらの処理方法の多くは、性能が雑音条件(例えば雑音の種類)に大きく依存してしまうという問題がある。将来の音声認識技術は、種々の環境で使用されることが予想される。したがって、どのような雑音条件の下でも一定の性能を示す発話区間検出のための技術が求められている。
As described above, various methods for detecting an utterance section have been proposed. In particular, the technique described in
したがって本発明の一つの目的は、雑音条件にかかわらず、一定の性能を示すことが可能な発話区間検出装置を提供することである。 Accordingly, an object of the present invention is to provide an utterance section detecting device capable of exhibiting constant performance regardless of noise conditions.
本発明の他の目的は、雑音条件に関わらず、従来の技術よりも高い性能を示すことが可能な発話区間検出装置を提供することである。 Another object of the present invention is to provide an utterance section detecting apparatus capable of exhibiting higher performance than the conventional technique regardless of noise conditions.
本発明のさらに他の目的は、雑音条件に関わらず、従来の技術よりも高精度で発話区間を検出することが可能な発話区間検出装置を提供することである。 Still another object of the present invention is to provide an utterance section detection device capable of detecting an utterance section with higher accuracy than the conventional technique regardless of noise conditions.
本発明の第1の局面に係る発話区間検出装置は、音声データ内の発話区間を検出するための発話区間検出装置であって、音声データの各フレームに対し、予め定める複数種類の特徴量を算出するための特徴量算出手段と、音声データの各フレームに対し、特徴量算出手段により算出された複数種類の特徴量にそれぞれ所定の重み付けをしてこれら複数種類の特徴量を統合し、統合スコアを算出するための特徴量統合手段と、特徴量統合手段により算出される統合スコアに基づいて、音声データのフレームごとに発話区間と非発話区間との識別を行なうための発話区間識別手段とを含み、さらに、各フレームに対し、発話区間と非発話区間とを示すラベルが付されたラベル付データを準備するためのラベル付データ準備手段と、ラベル付データ準備手段により準備されたラベル付データを学習データとし、発話区間識別手段における識別誤りが所定の基準を満たすように、特徴量統合手段における複数種類の特徴量に対する重み付けを学習するための重み学習手段とを含む。 An utterance interval detection device according to a first aspect of the present invention is an utterance interval detection device for detecting an utterance interval in audio data, and a plurality of types of feature amounts determined in advance for each frame of the audio data. A feature amount calculation means for calculating, and for each frame of audio data, a plurality of types of feature amounts calculated by the feature amount calculation means are respectively weighted to integrate the plurality of types of feature amounts. A feature amount integration unit for calculating a score, and an utterance interval identification unit for identifying an utterance interval and a non-utterance interval for each frame of speech data based on the integrated score calculated by the feature amount integration unit; In addition, for each frame, labeled data preparation means for preparing labeled data with a label indicating an utterance interval and a non-utterance interval, and labeled data Weight learning means for learning weights for a plurality of types of feature amounts in the feature amount integration means so that the labeled data prepared by the preparation means is used as learning data, and the identification error in the utterance section identification means satisfies a predetermined criterion Including.
複数種類の特徴量に対し、学習データに基づいて識別誤りが所定の基準を満たすように重み付けをし、それらを統合して統合スコアを得る。この統合スコアを用いて音声データの発話区間・非発話区間を識別する。複数種類の特徴量に、学習による重み付けを行なうため、雑音環境に応じて各特徴量に対する重みが適切に算出され、雑音環境にかかわりなく一定の精度で発話区間・非発話区間の識別を行なうことができる。 A plurality of types of feature quantities are weighted based on learning data so that identification errors satisfy a predetermined criterion, and are integrated to obtain an integrated score. The integrated score is used to identify speech / non-speech intervals in the speech data. Since multiple types of feature quantities are weighted by learning, the weights for each feature quantity are calculated appropriately according to the noise environment, and the speech and non-speech sections are identified with a constant accuracy regardless of the noise environment. Can do.
好ましくは、複数種類の特徴量は、各フレームにおける音声信号の振幅レベルと、各フレームにおける音声信号のゼロ交差数と、各フレームにおける音声信号のスペクトル情報と、各フレームにおけるGMM対数尤度とからなる群から選ばれる。 Preferably, the plurality of types of feature amounts are based on the amplitude level of the audio signal in each frame, the number of zero crossings of the audio signal in each frame, the spectrum information of the audio signal in each frame, and the GMM log likelihood in each frame. Chosen from the group of
これら既存の特徴量のうちから選ばれる複数種類の特徴量に対し、学習による適切な重み付けを行なう。その結果、本発明に係る発話区間検出装置によれば、これら既存の特徴量を単独で用いた場合と比較して、大部分の場合により高い精度で発話区間の検出を行なうことができる。この結果は、実験によっても裏付けられた。 Appropriate weighting by learning is performed on a plurality of types of feature values selected from these existing feature values. As a result, according to the utterance section detecting apparatus according to the present invention, it is possible to detect the utterance section with higher accuracy in most cases compared to the case where these existing feature quantities are used alone. This result was confirmed by experiments.
より好ましくは、ラベル付データ準備手段は、発話区間検出装置の動作時に、所与の基準発話に対応する音声データを取得するための音声データ取得手段と、所与の基準発話に対する音響モデルを予め準備するための手段と、音声データ取得手段により取得された音声データに対し、所与の基準発話に対する音響モデルとの強制アライメントを行なうことにより、音声データ取得手段の取得した音声データの各フレームに対し、発話区間と非発話区間とのラベル付を行なうための手段とを含む。 More preferably, the labeled data preparation means includes an audio data acquisition means for acquiring audio data corresponding to a given reference utterance and an acoustic model for the given reference utterance in advance during operation of the utterance section detecting device. For each frame of the voice data acquired by the voice data acquisition means, the voice data acquired by the voice data acquisition means is subjected to forced alignment with the acoustic model for a given reference utterance with respect to the voice data acquired by the voice data acquisition means. On the other hand, it includes means for labeling the speech segment and the non-speech segment.
発話区間検出装置の動作時に、基準発話に対応する音声データが取得される。また、基準発話に対する音響モデルを用いた強制アライメントによってラベル付データが準備される。予め内容がわかっている基準発話に対する強制アライメントは比較的正確に行なえる。その結果、実際の発話区間検出装置の動作時に、正確な学習用データのラベル付を行なうことができるので、実際の雑音環境に応じた、正確な重み付けの算出が可能になる。 During operation of the utterance section detection device, voice data corresponding to the reference utterance is acquired. Also, labeled data is prepared by forced alignment using an acoustic model for the reference utterance. Forced alignment with reference utterances whose contents are known in advance can be performed relatively accurately. As a result, since the learning data can be labeled accurately during the operation of the actual utterance section detecting device, accurate weighting can be calculated according to the actual noise environment.
さらに好ましくは、特徴量統合手段は、音声データの各フレームに対し、特徴量算出手段により算出された複数種類の特徴量にそれぞれ所定の重み付けをして加算することにより、これら複数種類の特徴量を統合し、統合スコアを算出するための手段と、所定の重み付けのための重みを記憶するための重み記憶手段とを含み、重み学習手段は、ラベル付データ準備手段により準備されたラベル付データを学習データとし、特徴量統合手段における識別誤りが小さくなるように所定の修正基準にしたがって重み記憶手段に記憶された重みを更新するための重み更新手段を含む。 More preferably, the feature amount integration unit adds each of the plurality of types of feature amounts by adding a predetermined weight to each of the plurality of types of feature amounts calculated by the feature amount calculation unit for each frame of the audio data. And a weight storage means for storing a weight for a predetermined weight, and the weight learning means is labeled data prepared by the labeled data preparation means. And weight update means for updating the weight stored in the weight storage means in accordance with a predetermined correction criterion so that the identification error in the feature quantity integration means is reduced.
重み更新手段は、ラベル付データ準備手段により準備されたラベル付データを学習データとし、発話区間識別手段における識別誤りに関する最小分類誤り学習により重み記憶手段に記憶された重みを更新するための手段を含んでもよい。 The weight update means uses the labeled data prepared by the labeled data preparation means as learning data, and means for updating the weight stored in the weight storage means by the minimum classification error learning related to the identification error in the utterance section identification means. May be included.
最小分類誤り学習により重みを学習することにより、基準発話の数が少なくてもよい精度が得られることが実験から判明した。 Experiments have shown that learning weights with minimum classification error learning can provide accuracy with a small number of reference utterances.
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの発話区間検出装置として動作させる。 When the computer program according to the second aspect of the present invention is executed by a computer, it causes the computer to operate as any of the above-described utterance section detection devices.
本発明の第3の局面に係る記録媒体は、このコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体である。 A recording medium according to the third aspect of the present invention is a computer-readable recording medium on which the computer program is recorded.
以下、本発明の一実施の形態に係る発話区間検出装置について、その構成と動作、並びにコンピュータによる実現について説明する。本実施の形態に係る発話区間検出装置は、4種類の特徴量に対してそれぞれ重みを割当て、それら重み付けられた特徴量を統合した値によって発話区間の検出を行なう点、及び特徴量に割当てる重みを、動作開始直後に最適化する点に特徴がある。 Hereinafter, the configuration and operation of an utterance section detecting apparatus according to an embodiment of the present invention and implementation by a computer will be described. The utterance section detection device according to the present embodiment assigns weights to the four types of feature amounts, detects the utterance section based on a value obtained by integrating the weighted feature amounts, and assigns weights to the feature amounts. Is characterized in that it is optimized immediately after the start of operation.
以下の説明及び図面においては、同じ部品には同じ参照番号を付してある。それらの機能及び名称も同じである。したがってそれらについての詳細な説明は繰返さない。また以下の説明では、発話区間検出装置がデスクトップの音声応答システムの一部をなすものとして説明するが、本発明に係る発話区間検出装置がそのような用途に限定されず、一般の音声認識処理など、発話区間の検出を行なうことが必要な全てのシステムに適用可能なことはいうまでもない。なお、本明細書において最適化とは、必ずしも最も好ましい条件に装置を設定することに限らず、初期状態から多少とも好ましい状態に装置を設定する場合も含むものとする。 In the following description and drawings, the same parts are denoted by the same reference numerals. Their functions and names are also the same. Therefore, detailed description thereof will not be repeated. Further, in the following description, it is assumed that the utterance section detection device forms part of the desktop voice response system. However, the utterance section detection device according to the present invention is not limited to such applications, and general speech recognition processing is performed. Needless to say, the present invention is applicable to all systems that need to detect a speech section. In this specification, the term “optimization” does not necessarily mean that the apparatus is set to the most preferable condition, but includes the case where the apparatus is set to a somewhat preferable state from the initial state.
さらに、以下の実施の形態では、特徴量として4種類を用いる。しかし本発明はそのような実施の形態には限定されず、複数種類の特徴量を用いるものであればどのようなものでもよい。また、以下の実施の形態では、これら特徴量に割当てられる重みの初期値を全て同じ値としている。しかし本発明はそのような実施の形態には限定されず、予め実験により定めた特定の値を初期値としてもよいし、ランダムに初期値を定めるようにしてもよい。 Furthermore, in the following embodiments, four types are used as feature amounts. However, the present invention is not limited to such an embodiment, and may be anything as long as it uses a plurality of types of feature amounts. In the following embodiments, the initial values of the weights assigned to these feature quantities are all the same value. However, the present invention is not limited to such an embodiment, and a specific value determined in advance by experiment may be set as the initial value, or the initial value may be set at random.
また、以下の説明では、音声を処理する際の単位となるフレームの長さは、100msecと25msecとの2種類を使用し、特徴量の種類により使い分ける。これは、この程度の長さであれば、各特徴量算出の際に音声データに変化がなく一定であるとみなすことができるためである。したがってフレームの長さはこれらに限定されず、処理に支障が生じない範囲で適宜選択できる。フレームのシフト時間は10msecとするが、このシフト時間についても処理に支障が生じない範囲で適宜選択できる。 Also, in the following description, two types of frame lengths, 100 msec and 25 msec, are used as units for processing audio, and are used depending on the type of feature amount. This is because if the length is such a level, it can be considered that the audio data is constant without any change in the calculation of each feature amount. Therefore, the length of the frame is not limited to these, and can be appropriately selected within a range where the processing is not hindered. Although the frame shift time is 10 msec, this shift time can also be selected as appropriate within a range that does not hinder the processing.
<構成>
図2に、本発明の一実施の形態に係る発話区間検出装置80の構成を、ブロック図形式で示す。本実施の形態に係る発話区間検出装置80は、例えば音声認識装置及び音声合成機能を持つ音声応答システムの一部をなすものとし、音声応答システムの他の機能部分と共通の部品を持つ。
<Configuration>
FIG. 2 shows, in a block diagram form, the configuration of an utterance
図2を参照して、この発話区間検出装置80は、マイクロホン82の出力するアナログ信号をサンプリングし、量子化し、デジタル化してデジタルの音声信号として出力するためのA/D変換処理部86の出力を受けて発話区間検出を行なうための発話区間検出処理部90と、発話区間検出装置80の電源投入時に発話区間検出処理部90で使用する重みを最適化する処理を行なうための重み最適化部92とを含む。重み最適化部92は、重み最適化処理のために、所定の基準発話を発話するようにユーザに促すメッセージを発生させるための音声データを出力し、音声合成装置94及びスピーカ84を介してメッセージを出力する。
Referring to FIG. 2, this utterance
発話区間検出処理部90は、A/D変換処理部86の出力するデジタルの音声信号を、100msecの長さで10msecずつのシフト量でフレーム化するための第1のフレーム化処理部87と、A/D変換処理部86の出力する音声信号を、25msecの長さで10msecずつのシフト量でフレーム化するための第2のフレーム化処理部88とを含む。
The utterance section
発話区間検出処理部90は、第1のフレーム化処理部87の出力するフレームデータから2種類の特徴量を、第2のフレーム化処理部88の出力するフレームデータからさらに2種類の特徴量を、それぞれ算出し出力するための特徴量算出部102と、重み最適化部92から与えられるサンプルデータの特徴量を受ける第1の入力132及び特徴量算出部102の出力する特徴量を受ける第2の入力134を有し、重み最適化部92から与えられる制御信号によって第1の入力132及び第2の入力134のいずれかを選択して出力するための選択部100と、上記した4種類の特徴量に対してそれぞれ割当てられる重みを記憶するための重み記憶部104と、重み記憶部104に記憶された重みを用いて、選択部100から与えられる4種類の特徴量を統合して統合スコアを算出するための特徴量統合部106と、特徴量統合部106から得られた統合スコアを予め学習済のしきい値と比較することにより各フレームについて発話区間か非発話区間かを識別し、各フレームにラベルを付して出力するための発話区間識別部108とを含む。
The utterance section
特徴量算出部102は、第1のフレーム化処理部87の出力するフレームデータの振幅レベルに基づいて音声波形の振幅レベルの特徴量f(1)を算出するための振幅レベル特徴量算出部140と、第1のフレーム化処理部87の出力するフレームデータのゼロ交差数に基づいて、ゼロ交差数の特徴量f(2)を算出するためのゼロ交差数特徴量算出部142と、第2のフレーム化処理部88の出力するフレームデータのスペクトル情報に基づき、スペクトル情報特徴量f(3)を算出するためのスペクトル情報特徴量算出部144と、第2のフレーム化処理部88の出力するフレームデータのGMM対数尤度に基づいて、GMM対数尤度特徴量f(4)を算出するためのGMM対数尤度特徴量算出部146とを含む。以下、特徴量算出部102の各部で算出される特徴量について説明する。
The feature
(1)音声波形の振幅レベル
音声波形の振幅レベルは、発話区間検出に用いられる最も基本的な特徴であり、様々な音声認識システムに実装されている。t番目のフレームに対する振幅レベルEtは、以下の式で求められる。
(1) Amplitude level of speech waveform The amplitude level of a speech waveform is the most basic feature used for speech section detection, and is implemented in various speech recognition systems. amplitude level E t for t th frame is calculated by the following formula.
本実施の形態では、雑音区間における特徴量が既知であるものとし、振幅レベルについては雑音レベルとの比を用いる。すなわち、振幅レベル特徴量算出部140が算出する特徴量ft (1)は、は以下のようになる。
In the present embodiment, it is assumed that the feature amount in the noise section is known, and the ratio with the noise level is used for the amplitude level. That is, the feature quantity f t (1) calculated by the amplitude level feature
(2)ゼロ交差数(ZCR)
ゼロ交差数は、一定時間内に信号レベルがゼロと交わる回数である。音声区間ではこの値が大きくなる。したがってこの現象を利用して発話区間検出を行なうことができる。ただし実際にはゼロの代わりに一定のバイアス値を設定し、バイアスの範囲内での交差はカウントしないのが一般的である。この特徴量をft (2)とすると、ゼロ交差数特徴量算出部142が算出する特徴量ft (2)も振幅レベルと同様に雑音区間との比を用い、以下のように表される。
(2) Number of zero crossings (ZCR)
The number of zero crossings is the number of times that the signal level crosses zero within a certain time. This value becomes large in the voice section. Therefore, it is possible to detect the utterance section using this phenomenon. However, in practice, a constant bias value is set instead of zero, and the intersection within the bias range is generally not counted. Assuming that this feature quantity is ft (2) , the feature quantity ft (2) calculated by the zero-crossing number feature
(3)スペクトル情報
スペクトルから特徴を抽出して発話区間検出に利用する技術は近年盛んに行われている。音声と雑音とのスペクトル例を図3に示す。図3に示す例では、音声150は雑音152よりも低周波数領域に分布している成分が多い。高周波数領域では両者はほぼ同じである。もちろん、スペクトルは音声の場合も雑音の場合も種類により季節により異なってくる。本実施の形態では、周波数領域をいくつかのチャネルに分割し、各チャネルごとにS/N比を計算する。こうして算出したS/N比の平均値をスペクトル情報による特徴量とする。
(3) Spectrum information In recent years, techniques for extracting features from a spectrum and using it for detecting an utterance section have been actively performed. An example spectrum of speech and noise is shown in FIG. In the example shown in FIG. 3, the
スペクトル情報特徴量算出部144が算出する特徴量ft (3)は以下の式で表される。
The feature value f t (3) calculated by the spectrum information feature
(4)GMM対数尤度
ガウス混合分布(GMM)は、統計的学習が容易なことから近年発話区間検出によく用いられている。ここでは音声のGMMと雑音のGMMとの対数尤度比を特徴量として用いる。GMM対数尤度特徴量算出部146が算出する特徴量ft (4)は以下の式で示される。
(4) GMM logarithmic likelihood Gaussian mixture distribution (GMM) is often used in recent years for utterance detection because it is easy to learn statistically. Here, the log likelihood ratio between the speech GMM and the noise GMM is used as the feature amount. The feature value f t (4) calculated by the GMM log-likelihood feature
再び図2を参照して、重み最適化部92は、重み記憶部104に記憶される重みを最適化する際に、発話者に対して所定の基準発話を行なうように促すメッセージと、当該基準発話に対する音声モデルとを予め記憶し、当該メッセージを音声合成装置94に与えるための基準データ記憶部126と、前述したメッセージにしたがってユーザが発話したことにより得られるサンプルの音声データから得られた特徴量を、特徴量算出部102から受け取って記憶するためのサンプルデータ記憶部120と、サンプルデータ記憶部120に記憶されたサンプルの音声データから得た特徴量に対し、基準データ記憶部126に記憶された基準発話の音声モデルとの間の強制アライメント処理を行なうことにより、サンプルデータの各フレームに対して発話区間/非発話区間の識別を行ない、発話区間/非発話区間のラベルを記憶したラベルファイルを作成するためのラベルファイル作成部122と、ラベルファイル作成部122により作成されたラベルファイルを記憶するためのラベルファイル記憶部124とを含む。
Referring to FIG. 2 again, the
重み最適化部92はさらに、ラベルファイル記憶部124に記憶されたラベルファイルと、サンプルデータの特徴量を特徴量統合部106で統合して得られたスコアに基づき発話区間識別部108が識別して得られた各フレームに対するラベルとに基づき、両者の間の相違(発話区間識別部108の識別誤り)を最小化するように統合重みを再計算するための処理を行ない、重み記憶部104に記憶された重みを更新するための重み更新部128と、発話区間検出装置80に電源が投入されリセット信号が与えられたことに応答して、重み最適化部92内の各部、及び発話区間検出処理部90内の選択部100と重み記憶部104とを制御して、最小誤り分類(MCE)学習により重み記憶部104に記憶された重みを最適化するための処理を行なうための初期化制御部130とを含む。
The
−MCE学習を用いた重み最適化−
上記した4つの特徴量ft (1),ft (2),ft (3),ft (4)に対し、それぞれ重みw1,w2,w3,w4を付けて統合する。ある時刻tにおける入力フレームxtに対する統合スコアF(xt)は以下の式で表される。
-Weight optimization using MCE learning-
The above four feature quantities ft (1) , ft (2) , ft (3) , and ft (4) are integrated with weights w 1 , w 2 , w 3 , and w 4 , respectively. . The integrated score F (x t ) for the input frame x t at a certain time t is expressed by the following equation.
この発話区間検出装置80を雑音環境に適応させるため、重み最適化部92はMCE学習を用いて統合のための重みwkを最適化する。識別学習には、一般化確率的降下法(GPD)を用いる。
In order to adapt the utterance
・損失関数の定義
学習データxtに対する誤分類測度は以下のように表される。
And classification measure false for the definition learning data x t of the loss function is expressed as follows.
次に、誤分類測度に0、1のステップ関数を近似するシグモイド関数を適用して、次の式により損失を定義する。 Next, a sigmoid function approximating a step function of 0 or 1 is applied to the misclassification measure, and the loss is defined by the following equation.
・重みの最適化
重みの更新は以下の通りに行なう。振幅レベル、ゼロ交差数、スペクトル情報、及びGMM対数尤度から得た特徴量に対する重みを前述のとおりそれぞれw1、w2、w3及びw4とする。本実施の形態では、これら重みが常に0より大きくなければならないという制約条件を設けている。MCE学習による更新の過程において常にこの制約条件が満たされることを保証するために、重みw={w1,w2,w3,w4}を以下の新しいセット〜wに変換する。なお、本明細書のテキスト中において使用される「〜」は、式中では直後の文字の直上に記載してあるものである。
・ Optimization of weights Weights are updated as follows. As described above, w 1 , w 2 , w 3, and w 4 are weights for the feature amounts obtained from the amplitude level, the number of zero crossings, the spectrum information, and the GMM log likelihood. In this embodiment, there is a constraint that these weights must always be greater than zero. In order to ensure that this constraint is always satisfied in the process of updating by MCE learning, the weights w = {w 1 , w 2 , w 3 , w 4 } are converted into the following new sets ~ w. In addition, "-" used in the text of this specification is described immediately above the character immediately after in a formula.
〜wの学習が終了したら、〜wをwに以下の式で逆変換する。 When learning of ~ w is completed, ~ w is inversely converted to w by the following expression.
・発話区間の識別
こうして、重みw1,w2,w3,w4を最適化した後、統合スコアF(xt)を求め、以下の二つの識別関数を利用して音声(発話区間)か非音声(非発話区間)かの識別を行なう。MCE学習では、識別する各クラスごとに識別関数を用意する必要があるため、このように二つの識別関数を用いている。
・ Identification of utterance interval After optimizing the weights w 1 , w 2 , w 3 , and w 4 , the integrated score F (x t ) is obtained, and the speech (utterance interval) is obtained using the following two identification functions Or non-speech (non-speech interval). In MCE learning, since it is necessary to prepare an identification function for each class to be identified, two identification functions are used in this way.
図4に、本実施の形態に係る重み最適化部92をコンピュータプログラムで実現する際の、プログラムの制御構造をフローチャート形式で示す。図4を参照して、電源が投入されると、ステップ160で発話区間検出装置80の各部を初期化(クリア)する処理を行なう。続いてステップ162において、発話区間検出装置80の状態を初期状態に設定する。すなわち、初期化制御部130は選択部100に指示してサンプルデータ記憶部120からの出力を受けるように接続を設定する。
FIG. 4 is a flowchart showing a program control structure when the
ステップ164において、参照データの音声合成を行なう。すなわち、初期化制御部130は音声合成装置94に指令を出し、基準データ記憶部126から基準発話の発生を促すメッセージのテキストを読出させる。音声合成装置94は、このメッセージのテキストに対する音声合成を行ない、音声信号をスピーカ84に与える。スピーカ84はこの音声信号を音声に変換する。このメッセージは、例えば「『こんにちは』」を3回繰返してください。」というようなメッセージである。
In
ステップ166において、メッセージに応答してユーザが発話する基準発話の入力をマイクロホン82及びA/D変換処理部86から受け、ステップ168において4種類の特徴量を算出する。この特徴量はサンプルデータ記憶部120に記憶される。
In
ステップ170において、サンプルデータ記憶部120に記憶されたサンプルデータの特徴量に対し、基準データ記憶部126に記憶された音響モデルとの間の強制アライメントを行ない、サンプルデータのうちの発話区間と非発話区間とをフレームごとに識別する。ただしこのとき、発話区間と非発話区間とをそれぞれ大きくまとめるためにスムージング処理を行なう。この識別結果に応じ、フレームごとに発話区間/非発話区間を特定するラベルからなるラベルファイルを作成し、ラベルファイル記憶部124に記憶する。
In
ステップ172では、強制アライメントの結果が、妥当なものか否かをアライメントの尤度により判定する。強制アライメントの結果が妥当でないときには再度ステップ160に戻り、以上の処理を繰返す。強制アライメントの結果が妥当なときにはステップ174に進む。
In
ステップ174では、MCE学習による重みの算出を行なう。具体的には、初期化制御部130は、第1の入力132に与えられる特徴量を算出するように選択部100を制御し、かつ前述したMCE学習にしたがってラベルファイル記憶部124に記憶されたラベルファイルのラベルと、選択部100から与えられる特徴量から求められた統合スコアによってフレームごとに識別された発話区間/非発話区間の識別結果(ラベル)とを比較し、相互の誤りが最小になるように重み記憶部104、特徴量統合部106、発話区間識別部108、及び重み更新部128を制御する。
In
重みの算出が終わったら、最終的に得られた重みをステップ176において重み記憶部104に再度記憶する。ステップ178で、発話区間検出装置80の状態を通常状態に設定する。すなわち、第2の入力134からの特徴量を選択するように、選択部100を設定する。したがって以後、発話区間検出処理部90は、マイクロホン82、A/D変換処理部86、第1のフレーム化処理部87、第2のフレーム化処理部88、及び特徴量算出部102によって算出された特徴量に基づき、リアルタイムで発話区間の検出を行なうようになる。また同時に初期化制御部130は、サンプルデータ記憶部120、ラベルファイル作成部122、及び重み更新部128の動作を停止させる。すなわち、以後の処理では重み記憶部104に記憶された重みは更新されなくなる。
When the weight calculation is completed, the finally obtained weight is stored again in the
<動作>
以上に構成を説明した発話区間検出装置80の動作について以下に説明する。予め、基準データ記憶部126には基準発話の発話を促すためのメッセージのテキストデータと、基準発話に対する強制アライメントを行なうための音声モデルとが記憶されているものとする。実際の動作時、発話区間検出装置80の電源が投入されると、図2に示す初期化制御部130は、発話区間検出装置80の各部を初期化する。さらに初期化制御部130は、発話区間検出処理部90の選択部100を初期状態に設定する。すなわち、第1の入力132への入力を選択するように設定する。
<Operation>
The operation of the utterance
初期化制御部130は続いて、音声合成装置94に対し指示を与え、基準データ記憶部126に記憶されている基準発話を発話することをユーザに促すためのメッセージの音声合成を行わせるようにする。これに応答して、音声合成装置94は基準データ記憶部126からメッセージのテキストを読出し、音声合成を行なって音声信号を生成しスピーカ84に与える。スピーカ84はこの音声信号を音声に変換する。ユーザは、この音声に促され、所定の発話を行なう。
Subsequently, the
この音声は、マイクロホン82によりアナログ音声信号に変換され、A/D変換処理部86に与えられる。A/D変換処理部86は、音声信号をサンプリングし、量子化し、さらにデジタル化して第1のフレーム化処理部87及び第2のフレーム化処理部88に与える。
This sound is converted into an analog sound signal by the
第1のフレーム化処理部87は、入力される音声データを100msec単位でフレーム化し、振幅レベル特徴量算出部140及びゼロ交差数特徴量算出部142に与える。第2のフレーム化処理部88は入力される音声を25msec単位でフレーム化し、スペクトル情報特徴量算出部144及びGMM対数尤度特徴量算出部146に与える。フレームのシフト時間は10msecである。
The first
振幅レベル特徴量算出部140、ゼロ交差数特徴量算出部142、スペクトル情報特徴量算出部144、及びGMM対数尤度特徴量算出部146はそれぞれ、与えられるフレームデータに対して振幅レベル特徴量(パワー)、ゼロ交差数、スペクトル情報、及びGMM対数尤度比を算出し、サンプルデータ記憶部120に与える。サンプルデータ記憶部120は、これら特徴量をフレームごとに記憶する。
The amplitude level feature
続いて初期化制御部130は、ラベルファイル作成部122を制御してラベルファイルの作成を行なう。すなわち、ラベルファイル作成部122は、基準データ記憶部126に記憶されている、初期化のための音響モデルに対し、サンプルデータ記憶部120に記憶されている特徴量を用いて強制的なアライメントを行ない、サンプルデータ中の発話開始点と発話終了点とを特定する。このとき、発話区間と非発話区間との境界で両者ができるだけ混在しないよう、スムージング処理を行なう。このような強制アライメント処理は、音声認識の一形態ということができるが、この実施の形態での初期化時のように発話内容が予め判っている場合、この処理は容易に実現できる。
Subsequently, the
ラベルファイル作成部122は、このようにしてサンプルデータの各フレームごとに発話区間/非発話区間のラベルを付ける。このラベルをフレームの順番に並べてラベルファイルが作成される。このラベルファイルは、図2に示すラベルファイル記憶部124に記憶される。
In this way, the label
初期化制御部130は、ラベルファイルの作成が完了すると、重み記憶部104、特徴量統合部106、発話区間識別部108、及び重み更新部128を制御して、重みを最適化するためのMCE学習処理を実行させる。MCE学習処理が終了すると、得られた重みを改めて重み記憶部104に記憶させる。さらに初期化制御部130は、第2の入力134の入力を選択するように選択部100を設定し、サンプルデータ記憶部120、ラベルファイル作成部122、及び重み更新部128の動作を停止させる。
When the creation of the label file is completed, the
この後は、マイクロホン82及びA/D変換処理部86によりデジタル化された音声信号は、第1のフレーム化処理部87及び第2のフレーム化処理部88でフレーム化され、特徴量算出部102に与えられる。特徴量算出部102は前述した4種類の特徴量を算出する。この特徴量は、今度はサンプルデータ記憶部120ではなく選択部100を介して特徴量統合部106に与えられる。特徴量統合部106は、与えられた4種類の特徴量を重み記憶部104に記憶された重みを用いて統合し、得られた統合スコアを発話区間識別部108に与える。発話区間識別部108は、この統合スコアをしきい値と比較し、しきい値以上の統合スコアを示すフレームを発話区間、それ以外を非発話区間と判定し、フレームに発話区間/非発話区間を示すラベルを付して図示しない音声認識装置に与える。この際、発話区間の判定結果に対してスムージングを行なう。
Thereafter, the audio signal digitized by the
以上のように本実施の形態に係る発話区間検出装置80では、4種類の特徴量を用い、それらを統合して得られる統合スコアに基づいて発話区間/非発話区間の識別を行なう。統合の際の重みは、発話区間検出装置80の電源投入時に、基準データを用いて最適化される。この最適化により、雑音環境に応じた重みの値が決定される。したがって、雑音環境の種類に応じて、発話区間/非発話区間の識別が正確に行なえるよう、4種類の特徴量に対する重みが適宜調整される。その結果、雑音の種類にかかわらず、常に一定の効果を得ることができるようになる。しかも、後に示す実験結果から分かるように、4種類の特徴量を単独で用いる装置と比較すると、ほとんど全ての条件で最も優れた精度を得ることができる。したがって、雑音の種類にかかわらず、従来の技術よりも高い性能を示すことが可能になる。
As described above, the utterance
<実験と評価>
−タスク及び実験条件−
本実施の形態に係る発話区間検出装置80の有効性を評価するために、雑音環境下における発話検出実験を行なった。音声データは、10人の話者の発話を防音室で収録したもの(16kHz,16ビット)を用いた。1人あたりの発話は10回で、各発話は1秒から3秒程度である。各発話の間には3秒程度のポーズが挿入されている。雑音として、センサールーム、工作機械、話し声の3種類を用意し、これを音声データに重畳することでテストデータを作成する。センサールームの雑音は比較的静かで、エアコンの音が聞こえる程度のものである。工作機械の雑音は、ものを切断するような比較的高周波の成分が多いものである。話し声の雑音は、背景で話す人の声を含み、発話区間検出の対象となる発話と重なる周波数帯域の成分が多いものである。
<Experiment and evaluation>
-Tasks and experimental conditions-
In order to evaluate the effectiveness of the utterance
各雑音に対して重畳時のS/N比を10db及び15dbとした3種類のデータを作成した。したがって、テストデータのサンプルは計600(3雑音×2S/N比×10人×10発話)発話となる。重みの学習に用いるデータは、テストデータと同じ話者による別の10発話とする。 Three types of data were created with S / N ratios of 10 db and 15 db at the time of superposition for each noise. Therefore, a total of 600 test data samples (3 noise × 2 S / N ratio × 10 persons × 10 utterances) are generated. The data used for weight learning is another 10 utterances by the same speaker as the test data.
本実施の形態では、式(2)、(3)及び(4)において、雑音の特徴量を計算する必要がある。今回の実験では、テストデータのうち、音声が含まれていない最初の1秒間を用いてそれらを計算した。また、学習のためのラベルファイルは、強制アライメントでなく人手で作成した。 In the present embodiment, it is necessary to calculate noise feature amounts in the equations (2), (3), and (4). In this experiment, the test data were calculated using the first 1 second of the test data that did not contain speech. The label file for learning was created manually instead of forced alignment.
次に、発話区間検出に用いた特徴について述べる。フレーム長は振幅レベル及びゼロ交差数においては100msec、GMM対数尤度及びスペクトル情報については25msecとした。フレーム周期は各特徴とも10msecである。スペクトル情報の分割チャネル数は20とする。GMMには32混合で対角共分散行列のガウス分布を用い、その入力は12次元のメルケプストラム及びその一次差分(Δ)と、Δ-パワーとからなる25次元とする。音声GMMの学習には既存の新聞記事読上げコーパスの304人による約32000発話、雑音GMMの学習にはセンサールーム、オフィス、廊下の3種類の雑音(各20分程度)をそれぞれ用いた。ここで、センサールームのみが発話区間検出の評価用データにも用いられている雑音である。ゼロ交差数のバイアス値は300である。 Next, features used for detecting the utterance section will be described. The frame length was 100 msec for the amplitude level and the number of zero crossings, and 25 msec for the GMM log likelihood and spectrum information. The frame period is 10 msec for each feature. The number of division channels of spectrum information is 20. The GMM uses a Gaussian distribution of a diagonal covariance matrix with 32 mixtures, and its input is 25 dimensions consisting of a 12-dimensional mel cepstrum, its primary difference (Δ), and Δ-power. For speech GMM learning, about 32,000 utterances by 304 people in an existing newspaper article reading corpus were used, and for noise GMM learning, three types of noise (each about 20 minutes) in the sensor room, office, and corridor were used. Here, only the sensor room is the noise used for the evaluation data for detecting the utterance section. The bias value for the number of zero crossings is 300.
発話区間検出の評価尺度には、フレームベースでのfalse alarm rate (FAR)及びfalse rejection rate(FRR)を用いる。FARは全非音声フレームにおいて誤って音声と認識されたフレームの割合、FRRは全音声フレームにおいて誤って非音声と認識されたフレームの割合をそれぞれ示す。 As an evaluation measure for detecting an utterance interval, frame-based false alarm rate (FAR) and false rejection rate (FRR) are used. FAR indicates the proportion of frames erroneously recognized as speech in all non-speech frames, and FRR indicates the proportion of frames erroneously recognized as non-speech in all speech frames.
−実験結果−
6パターンの雑音条件に対する実験結果を図5から図10に示す。図5はセンサールーム(10db)、図6はセンサールーム(15db)、図7は工作機械(10db)、図8は工作機械(15db)、図9は話し声(10db)、及び図10は話し声(15db)の結果を示す。
-Experimental results-
The experimental results for six patterns of noise conditions are shown in FIGS. 5 is a sensor room (10 db), FIG. 6 is a sensor room (15 db), FIG. 7 is a machine tool (10 db), FIG. 8 is a machine tool (15 db), FIG. 9 is a speaking voice (10 db), and FIG. The result of 15 db) is shown.
それぞれの図は各特徴を単独で用いて発話区間検出を行なった結果と、本実施の形態での結果とを重ねて表している。図中の「■」をプロットした線200、210、220、230、240及び250はいずれも、本実施の形態に係る発話区間検出の結果を示す。「振幅」、「スペクトル」、「ゼロ交差数」、及び「GMM」はそれぞれ、振幅レベル、スペクトル情報、ゼロ交差数、及びGMM対数尤度を単独で用いたときの発話区間検出の結果を示す。いずれの図においても、横軸はFAR、縦軸はFRRに対応する。なお図7および図8において、ゼロ交差数を用いた結果は図の範囲外にあり表れていない。図中のプロットは識別関数(発話区間識別部108における発話区間検出)のしきい値に対応しており、しきい値を変えながら実験を行なうことによって図のようなオペレーション曲線を得た。
Each figure shows the result of detecting an utterance section using each feature alone and the result in this embodiment.
まず、単独の特徴について考察する。センサールーム雑音は雑音GMMの作成に用いられたためGMM対数尤度の結果が最もよくなることが期待されたが、実際にはゼロ交差数が最も高い性能を示した。また、工作機械ではスペクトル情報、話し声ではGMM対数尤度が最も高い発話区間検出性能を示した。 First, consider a single feature. Since sensor room noise was used to create a noise GMM, the GMM log-likelihood result was expected to be the best, but in practice the zero crossing number showed the highest performance. In addition, the machine tool showed the spectrum information and the speech section detection performance with the highest GMM logarithmic likelihood in the spoken voice.
これらの結果から、雑音環境に応じて最適な特徴量が異なることが分かる。それに対して、本実施の形態に係る発話区間検出装置80は、全ての雑音環境において単独特徴を上回る結果を示した。これより、提案手法の有効性が示された。
From these results, it can be seen that the optimum feature amount varies depending on the noise environment. On the other hand, the utterance
次に、重み学習のために用いた音声データを評価する、いわゆるクローズド実験を行なった。センサールーム(S/N比:10db)での実験結果を図5の「クローズド」で示されたオペレーション線に示す。図より、「クローズド」、「本実施の形態」の結果がほとんど同じであることが分かる。他の雑音条件についても同様の結果が得られた。これは、本実施の形態による発話区間検出が発話の変動に対して頑健であることを表している。 Next, a so-called closed experiment was performed in which speech data used for weight learning was evaluated. The result of the experiment in the sensor room (S / N ratio: 10 db) is shown in the operation line indicated by “closed” in FIG. From the figure, it can be seen that the results of “closed” and “this embodiment” are almost the same. Similar results were obtained for other noise conditions. This indicates that the utterance section detection according to the present embodiment is robust against the fluctuation of the utterance.
また、重み適応の有効性を確かめるために、本実施の形態に係る発話区間検出装置80において重みを最適化する前の状態(すなわち全重みが等しい場合)で実験を行なった結果と最適化後の結果とを比較した。同時に、適応に用いる発話数を1、5、及び10と変化させて実験を行ない、それに伴う性能の変化を調べた。
In addition, in order to confirm the effectiveness of weight adaptation, in the utterance
各雑音を10dbで重畳したテストデータに対する実験結果をEER(Equal Error Rate)でテーブル1に示す。EERはFARとFRRとが等しくなる点の値である。 Table 1 shows EER (Equal Error Rate) experimental results for test data in which each noise is superimposed at 10 db. EER is the value at the point where FAR and FRR are equal.
<コンピュータによる実現>
本実施の形態に係る発話区間検出装置80のうち、特に重み最適化部92及び発話区間検出処理部90は、コンピュータハードウェア及び当該コンピュータハードウェア上で実行されるコンピュータプログラムにより実現可能である。図11は重み最適化部92及び発話区間検出処理部90を実現するための一例として、コンピュータシステム330の外観を示し、図12はコンピュータシステム330の内部構成を示す。
<Realization by computer>
Of the speech
図11を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342と、マイクロホン370(図2に示すマイクロホン82に相当)と、スピーカ372(図2に示すスピーカ84に相当)とを含む。
Referring to FIG. 11, this
図12を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360と、マイクロホン370及びスピーカ372とバス366とに接続されるサウンドボード368とを含む。コンピュータシステム330はさらに、図示しないプリンタを含んでもよい。
Referring to FIG. 12, in addition to FD drive 352 and CD-
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
Although not shown here, the
コンピュータシステム330に発話区間検出装置80としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
A computer program for causing the
このプログラムは、コンピュータ340にこの実施の形態に係る発話区間検出装置80として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、またはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した発話区間検出装置80としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
This program includes a plurality of instructions for causing the
なお、例えば図2に示すラベルファイル記憶部124及び基準データ記憶部126はハードディスク354を用いて実現され、サンプルデータ記憶部120及び重み記憶部104はRAM360により実現される。また、図2に示すA/D変換処理部86の機能は、サウンドボード368により提供される。
For example, the label
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
80 発話区間検出装置
82 マイクロホン
84 スピーカ
86 A/D変換処理部
87 第1のフレーム化処理部
88 第2のフレーム化処理部
90 発話区間検出処理部
92 重み最適化部
94 音声合成装置
100 選択部
102 特徴量算出部
104 重み記憶部
106 特徴量統合部
108 発話区間識別部
120 サンプルデータ記憶部
122 ラベルファイル作成部
124 ラベルファイル記憶部
126 基準データ記憶部
128 重み更新部
130 初期化制御部
140 振幅レベル特徴量算出部
142 ゼロ交差数特徴量算出部
144 スペクトル情報特徴量算出部
146 GMM対数尤度特徴量算出部
DESCRIPTION OF
Claims (7)
前記音声データの各フレームに対し、予め定める複数種類の特徴量を算出するための特徴量算出手段と、
音声データの各フレームに対し、前記特徴量算出手段により算出された前記複数種類の特徴量にそれぞれ所定の重み付けをして、これら複数種類の特徴量を統合し、統合スコアを算出するための特徴量統合手段と、
前記特徴量統合手段により算出される統合スコアに基づいて、前記音声データのフレームごとに発話区間と非発話区間との識別を行なうための発話区間識別手段とを含み、
さらに、各フレームに対し、発話区間と非発話区間とを示すラベルが付されたラベル付データを準備するためのラベル付データ準備手段と、
前記ラベル付データ準備手段により準備された前記ラベル付データを学習データとし、前記発話区間識別手段における識別誤りが所定の基準を満たすように、前記特徴量統合手段における前記複数種類の特徴量に対する重み付けを学習するための重み学習手段とを含む、発話区間検出装置。 An utterance interval detection device for detecting an utterance interval in audio data,
Feature amount calculating means for calculating a plurality of predetermined feature amounts for each frame of the audio data;
Features for calculating the integrated score by weighting each of the plurality of types of feature amounts calculated by the feature amount calculation means for each frame of the audio data, and integrating the plurality of types of feature amounts. Quantity integration means;
Based on the integrated score calculated by the feature amount integration means, including an utterance interval identification means for identifying an utterance interval and a non-utterance interval for each frame of the voice data,
Furthermore, for each frame, labeled data preparation means for preparing labeled data with a label indicating an utterance interval and a non-utterance interval;
The labeled data prepared by the labeled data preparation means is used as learning data, and the feature quantity integration means weights the plurality of types of feature quantities so that the identification error in the utterance section identification means satisfies a predetermined criterion. An utterance section detecting device including weight learning means for learning
前記発話区間検出装置の動作時に、所与の基準発話に対応する音声データを取得するための音声データ取得手段と、
前記所与の基準発話に対する音響モデルを予め準備するための手段と、
前記音声データ取得手段により取得された音声データに対し、前記所与の基準発話に対する音響モデルとの強制アライメントを行なうことにより、前記音声データ取得手段の取得した音声データの各フレームに対し、発話区間と非発話区間とのラベル付を行なうための手段とを含む、請求項1又は請求項2に記載の発話区間検出装置。 The labeled data preparation means includes:
Voice data acquisition means for acquiring voice data corresponding to a given reference utterance during operation of the utterance section detection device;
Means for pre-preparing an acoustic model for the given reference utterance;
For each frame of the speech data acquired by the speech data acquisition means, by performing forced alignment of the speech data acquired by the speech data acquisition means with the acoustic model for the given reference utterance, The utterance section detection apparatus according to claim 1, further comprising: means for labeling the utterance and the non-speech section.
前記所定の重み付けのための重みを記憶するための重み記憶手段とを含み、
前記重み学習手段は、前記ラベル付データ準備手段により準備された前記ラベル付データを学習データとし、前記特徴量統合手段における識別誤りが小さくなるように所定の修正基準にしたがって前記重み記憶手段に記憶された重みを更新するための重み更新手段を含む、請求項1〜請求項3のいずれかに記載の発話区間検出装置。 The feature amount integration unit adds each of the plurality of types of feature amounts by adding a predetermined weight to each of the plurality of types of feature amounts calculated by the feature amount calculation unit for each frame of the audio data. And means for calculating the integrated score;
Weight storage means for storing a weight for the predetermined weight,
The weight learning means uses the labeled data prepared by the labeled data preparation means as learning data, and stores it in the weight storage means in accordance with a predetermined correction criterion so that identification errors in the feature quantity integrating means are reduced. The utterance section detection device according to claim 1, further comprising weight update means for updating the weights that have been set.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005197804A JP2007017620A (en) | 2005-07-06 | 2005-07-06 | Utterance section detecting device, and computer program and recording medium therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005197804A JP2007017620A (en) | 2005-07-06 | 2005-07-06 | Utterance section detecting device, and computer program and recording medium therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007017620A true JP2007017620A (en) | 2007-01-25 |
Family
ID=37754857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005197804A Pending JP2007017620A (en) | 2005-07-06 | 2005-07-06 | Utterance section detecting device, and computer program and recording medium therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007017620A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008216618A (en) * | 2007-03-05 | 2008-09-18 | Fujitsu Ten Ltd | Speech discrimination device |
WO2010070839A1 (en) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | Sound detecting device, sound detecting program and parameter adjusting method |
US7844452B2 (en) | 2008-05-30 | 2010-11-30 | Kabushiki Kaisha Toshiba | Sound quality control apparatus, sound quality control method, and sound quality control program |
US7856354B2 (en) | 2008-05-30 | 2010-12-21 | Kabushiki Kaisha Toshiba | Voice/music determining apparatus, voice/music determination method, and voice/music determination program |
US8812313B2 (en) | 2008-12-17 | 2014-08-19 | Nec Corporation | Voice activity detector, voice activity detection program, and parameter adjusting method |
US9293131B2 (en) | 2010-08-10 | 2016-03-22 | Nec Corporation | Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program |
WO2016143125A1 (en) * | 2015-03-12 | 2016-09-15 | 三菱電機株式会社 | Speech segment detection device and method for detecting speech segment |
JP2018022014A (en) * | 2016-08-03 | 2018-02-08 | 日本電信電話株式会社 | Feature quantity extraction device, feature quantity extraction function information generator, and method and program thereof |
JP7169473B1 (en) | 2022-02-17 | 2022-11-10 | アルインコ株式会社 | Digital radio transmitter and digital radio communication system |
-
2005
- 2005-07-06 JP JP2005197804A patent/JP2007017620A/en active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008216618A (en) * | 2007-03-05 | 2008-09-18 | Fujitsu Ten Ltd | Speech discrimination device |
US7856354B2 (en) | 2008-05-30 | 2010-12-21 | Kabushiki Kaisha Toshiba | Voice/music determining apparatus, voice/music determination method, and voice/music determination program |
US7844452B2 (en) | 2008-05-30 | 2010-11-30 | Kabushiki Kaisha Toshiba | Sound quality control apparatus, sound quality control method, and sound quality control program |
US8938389B2 (en) | 2008-12-17 | 2015-01-20 | Nec Corporation | Voice activity detector, voice activity detection program, and parameter adjusting method |
JP5234117B2 (en) * | 2008-12-17 | 2013-07-10 | 日本電気株式会社 | Voice detection device, voice detection program, and parameter adjustment method |
US8812313B2 (en) | 2008-12-17 | 2014-08-19 | Nec Corporation | Voice activity detector, voice activity detection program, and parameter adjusting method |
WO2010070839A1 (en) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | Sound detecting device, sound detecting program and parameter adjusting method |
US9293131B2 (en) | 2010-08-10 | 2016-03-22 | Nec Corporation | Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program |
WO2016143125A1 (en) * | 2015-03-12 | 2016-09-15 | 三菱電機株式会社 | Speech segment detection device and method for detecting speech segment |
JPWO2016143125A1 (en) * | 2015-03-12 | 2017-06-01 | 三菱電機株式会社 | Speech segment detection apparatus and speech segment detection method |
JP2018022014A (en) * | 2016-08-03 | 2018-02-08 | 日本電信電話株式会社 | Feature quantity extraction device, feature quantity extraction function information generator, and method and program thereof |
JP7169473B1 (en) | 2022-02-17 | 2022-11-10 | アルインコ株式会社 | Digital radio transmitter and digital radio communication system |
JP2023119893A (en) * | 2022-02-17 | 2023-08-29 | アルインコ株式会社 | Digital radio transmitter and digital radio communication system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4568371B2 (en) | Computerized method and computer program for distinguishing between at least two event classes | |
Mak et al. | A study of voice activity detection techniques for NIST speaker recognition evaluations | |
US6615170B1 (en) | Model-based voice activity detection system and method using a log-likelihood ratio and pitch | |
EP1210711B1 (en) | Sound source classification | |
JP2007017620A (en) | Utterance section detecting device, and computer program and recording medium therefor | |
US20050143997A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
EP2083417B1 (en) | Sound processing device and program | |
US20150066500A1 (en) | Speech processing device, speech processing method, and speech processing program | |
Khoa | Noise robust voice activity detection | |
JP2017032857A (en) | Voice processing device and voice processing method | |
JP5050698B2 (en) | Voice processing apparatus and program | |
Kida et al. | Voice activity detection based on optimally weighted combination of multiple features. | |
Grewal et al. | Isolated word recognition system for English language | |
JP2797861B2 (en) | Voice detection method and voice detection device | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
KR20210000802A (en) | Artificial intelligence voice recognition processing method and system | |
Mankala et al. | Automatic speech processing using HTK for Telugu language | |
JPS60114900A (en) | Voice/voiceless discrimination | |
Beritelli et al. | Adaptive V/UV speech detection based on acoustic noise estimation and classification | |
Jesus et al. | Frication and voicing classification | |
Solvang et al. | Voice activity detection based on adjustable linear prediction and GARCH models | |
JPS6367197B2 (en) | ||
JP2006010739A (en) | Speech recognition device | |
JP5157474B2 (en) | Sound processing apparatus and program | |
JP4749990B2 (en) | Voice recognition device |