JP2007292940A - Voice recognition device and voice recognition method - Google Patents
Voice recognition device and voice recognition method Download PDFInfo
- Publication number
- JP2007292940A JP2007292940A JP2006119436A JP2006119436A JP2007292940A JP 2007292940 A JP2007292940 A JP 2007292940A JP 2006119436 A JP2006119436 A JP 2006119436A JP 2006119436 A JP2006119436 A JP 2006119436A JP 2007292940 A JP2007292940 A JP 2007292940A
- Authority
- JP
- Japan
- Prior art keywords
- frames
- frame
- zero
- sound
- zero crosses
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声識別装置及び音声識別方法に関する。 The present invention relates to a voice identification device and a voice identification method.
入力した音声信号によって示される音が無声音か有声音かを識別する音声識別技術がある。音声識別技術は、音声認識又は音声合成等に用いられる。このような音声識別技術として、下記特許文献1には、所定区間の音声信号のゼロクロス数と予め設定したゼロクロス数の閾値とに基づいて、所定区間の音声信号が無声音を示すか、又は有声音を示すか識別する技術が記載されている。
しかしながら、無声音を示す所定区間の音声信号のゼロクロス数は、有声音を示す所定区間の音声信号のゼロクロス数より大きい場合もあれば、小さい場合もある。よって、所定区間の音声信号のゼロクロス数を用いる場合、無声音と有声音を識別するための適当な閾値を設定するのは困難である。 However, the number of zero crosses of the audio signal in the predetermined section indicating unvoiced sound may be larger or smaller than the number of zero crosses of the audio signal in the predetermined section indicating voiced sound. Therefore, when using the zero-cross number of the audio signal in a predetermined section, it is difficult to set an appropriate threshold value for identifying unvoiced sound and voiced sound.
また、音声識別方法として変形相関法が知られている。変形相関法は、入力された音声信号の波形に対して、自己相関関数を求めた後、線形予測分析を行い、次数分の線形予測係数を求める。その後、変形相関法では、予測残差を求めて予測残差のピークを検出し、ピーク間の時間距離を測定し、測定結果に基づいて音声の識別を行う。 Also, a modified correlation method is known as a speech identification method. In the modified correlation method, an autocorrelation function is obtained for a waveform of an input speech signal, and then linear prediction analysis is performed to obtain linear prediction coefficients corresponding to orders. Thereafter, in the modified correlation method, the prediction residual is obtained, the peak of the prediction residual is detected, the time distance between the peaks is measured, and the voice is identified based on the measurement result.
変形相関法は、このように複雑な操作を要するため、音声の識別速度が遅くなる。よって、変形相関法では、リアルタイムな対話システムに用いられる音声認識及び音声合成には対応できない。 Since the modified correlation method requires such a complicated operation, the voice identification speed is slow. Therefore, the modified correlation method cannot cope with speech recognition and speech synthesis used in a real-time dialogue system.
そこで本発明では、音声信号が示す音素が無声音か有声音かを正確かつ迅速に識別可能な音声識別装置及び音声識別方法を提供することを目的とする。 Therefore, an object of the present invention is to provide a speech identification device and a speech identification method that can accurately and quickly identify whether a phoneme indicated by a speech signal is an unvoiced sound or a voiced sound.
本発明者らは、研究の結果、無声音の音声信号は、有声音の音声信号と比較して周期性が乏しく、ゼロクロス数の変動が大きいことを見出した。本発明者らは、このゼロクロス数の変動に着目して研究を進めることで本願発明を想起したものである。 As a result of research, the present inventors have found that an unvoiced sound signal has less periodicity than a voiced sound signal and has a large variation in the number of zero crossings. The present inventors recalled the present invention by advancing research focusing on the variation in the number of zero crossings.
本発明の音声識別装置は、時間軸に沿った音声信号を、それぞれの切り出し開始時刻をずらして複数のフレームに切り出すフレーム生成手段と、当該切り出された複数のフレームそれぞれに対応するゼロクロス数を算出するゼロクロス算出手段と、当該算出されたゼロクロス数に基づいて、複数のフレームそれぞれにおけるゼロクロス数を、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数と比較するゼロクロス比較手段と、当該比較結果に基づいて、複数のフレームそれぞれに対応する音素が無声音か有声音かを識別する音素識別手段と、を備える。 The voice identification device according to the present invention calculates a frame generation unit that cuts a voice signal along a time axis into a plurality of frames by shifting each cut-out start time, and calculates the number of zero crosses corresponding to each of the cut out frames. Based on the calculated zero-cross number, a zero-cross comparison unit that compares the zero-cross number in each of the plurality of frames with a zero-cross number in a frame adjacent to each of the plurality of frames, based on the calculated zero-cross number, Phoneme identifying means for identifying whether a phoneme corresponding to each of a plurality of frames is an unvoiced sound or a voiced sound.
本発明の音声識別方法は、フレーム生成手段が、時間軸に沿った音声信号をそれぞれの切り出し開始時刻をずらして複数のフレームに切り出す第1ステップと、ゼロクロス算出手段が、第1ステップにおいて切り出された複数のフレームそれぞれに対応するゼロクロス数を算出する第2ステップと、第2ステップにおいて算出されたゼロクロス数に基づいて、ゼロクロス比較手段が、複数のフレームそれぞれにおけるゼロクロス数を複数のフレームそれぞれに近接するフレームにおけるゼロクロス数と比較する第3ステップと、第3ステップにおける比較結果に基づいて、音素識別手段が、複数のフレームそれぞれに対応する音素が無声音か有声音かを識別する第4ステップと、を備える。 According to the speech identification method of the present invention, the frame generation unit extracts the audio signal along the time axis into a plurality of frames by shifting the extraction start time, and the zero-cross calculation unit is extracted in the first step. The second step of calculating the number of zero crosses corresponding to each of the plurality of frames, and the zero cross comparison means, based on the number of zero crosses calculated in the second step, closes the number of zero crosses in each of the plurality of frames to each of the plurality of frames. A third step of comparing with the number of zero crosses in the frame to be performed, a fourth step of identifying whether the phoneme corresponding to each of the plurality of frames is an unvoiced sound or a voiced sound based on the comparison result in the third step; Is provided.
本発明によれば、音声信号をフレームに切り出して、近接するフレーム同士のゼロクロス数を比較した結果に基づいて、複数のフレームそれぞれに対応する音素が無声音か有声音かを識別している。従って、各フレームのゼロクロス数と閾値とを比較する場合に比較して正確に識別することが出来ると共に、変形相関法に比較して迅速に識別することができる。 According to the present invention, audio signals are cut out into frames, and whether the phonemes corresponding to the plurality of frames are unvoiced sounds or voiced sounds is identified based on the result of comparing the number of zero crosses between adjacent frames. Therefore, the number of zero crosses of each frame can be accurately identified as compared with the case where the threshold is compared, and the number can be quickly identified as compared with the modified correlation method.
また本発明の音声識別装置では、音素識別手段は、複数のフレームそれぞれにおけるゼロクロス数と、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値を超えた場合に、後方のフレームに対応する音素が無声音であると識別することも好ましい。 Further, in the speech identification device of the present invention, the phoneme identification means, when the difference value between the number of zero crosses in each of a plurality of frames and the number of zero crosses in a frame adjacent to each of the plurality of frames exceeds a predetermined threshold, It is also preferable to identify that the phoneme corresponding to the rear frame is an unvoiced sound.
また本発明の音声識別方法では、第4ステップにおいて、音素識別手段は、複数のフレームそれぞれにおけるゼロクロス数と、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値を超えた場合に、後方のフレームに対応する音素が無声音であると識別することも好ましい。 In the speech identification method of the present invention, in the fourth step, the phoneme identifying means sets a threshold value in which a difference value between the number of zero crosses in each of a plurality of frames and the number of zero crosses in a frame adjacent to each of the plurality of frames is set in advance. When exceeding, it is also preferable to identify that the phoneme corresponding to the rear frame is an unvoiced sound.
また本発明の音声識別装置では、音素識別手段は、複数のフレームそれぞれにおけるゼロクロス数と、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値より小さい場合に、後方のフレームに対応する音素が有声音であると識別することも好ましい。 Further, in the speech identification device of the present invention, the phoneme identification unit is configured to perform a backward operation when a difference value between the number of zero crosses in each of a plurality of frames and the number of zero crosses in a frame adjacent to each of the plurality of frames is smaller than a predetermined threshold. It is also preferable to identify that the phoneme corresponding to this frame is a voiced sound.
また本発明の音声識別方法では、第4ステップにおいて、音素識別手段は、複数のフレームそれぞれにおけるゼロクロス数と、複数のフレームそれぞれに近接するフレームにおけるゼロクロス数との差分値が予め定められた閾値より小さい場合に、後方のフレームに対応する音素が有声音であると識別することも好ましい。 In the speech identification method of the present invention, in the fourth step, the phoneme identifying means determines that a difference value between the number of zero crosses in each of a plurality of frames and the number of zero crosses in a frame adjacent to each of the plurality of frames is based on a predetermined threshold. It is also preferable to identify that the phoneme corresponding to the rear frame is a voiced sound when it is small.
この好ましい態様によれば、近接するフレーム同士のゼロクロス数をより正確に比較することができる。 According to this preferable aspect, the number of zero crosses between adjacent frames can be compared more accurately.
本発明によれば、近接するフレームのゼロクロス数の変動に基づいて無声音か有声音かを識別するので、音声信号が示す音が無声音か有声音かを正確かつ迅速に識別可能である。 According to the present invention, since it is identified whether it is unvoiced sound or voiced sound based on the variation in the number of zero crosses of adjacent frames, it is possible to accurately and quickly identify whether the sound indicated by the sound signal is unvoiced sound or voiced sound.
本発明の知見は、例示のみのために示された添付図面を参照して以下の詳細な記述を考慮することによって容易に理解することができる。引き続いて、添付図面を参照しながら本発明の実施の形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。 The knowledge of the present invention can be easily understood by considering the following detailed description with reference to the accompanying drawings shown for illustration only. Subsequently, embodiments of the present invention will be described with reference to the accompanying drawings. Where possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.
本発明の実施形態に係る音声識別システムについて図1を参照しながら説明する。図1は、本実施形態に係る音声識別システムの構成図である。本実施形態に係る音声識別システム1は、マイク3と、音声識別装置10とを備えて、人が話す言葉を構成するそれぞれの音が有声音か無声音かを識別するシステムである。
A voice identification system according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a configuration diagram of a voice identification system according to the present embodiment. The
マイク3は、コンデンサマイクであり、人が話す言葉の音の振動をサンプリングし、音声信号に変換して音声識別装置10へ出力する。音声識別装置10は、マイク3から入力した音声信号に基づいて、人が話す言葉を構成するそれぞれの音が有声音か無声音かを識別する装置である。
The microphone 3 is a condenser microphone, samples vibrations of sounds spoken by a person, converts them into voice signals, and outputs them to the
本発明の実施形態に係る音声識別装置10についてより詳細に説明する。音声識別装置10は、物理的な構成要素として、CPU、メモリー、電源、及び入出力インターフェイス部を備えるパーソナルコンピュータである。また、図2に示すように、音声識別装置10は、機能的な構成要素として、図2に示すように、検出部11と、生成部(フレーム生成手段)13と、算出部(ゼロクロス算出手段)15と、識別部(ゼロクロス比較手段、音素識別手段)17とを備える。図2は、本実施形態に係る音声識別装置の機能ブロック図である。引き続いて、機能的な各構成要素についてそれぞれ説明する。
The
検出部11は、図3に示すように、入力した音声信号S1から発話区間を検出する部分である。図3は、本実施形態に係る音声識別装置が入力した音声信号の波形を示すグラフである。検出部11は、音声信号S1を入力し、音声信号の振幅に対して、発話区間の語始及び語尾共に2段階のラッチをかけて発話区間を検出する。
As shown in FIG. 3, the
すなわち、検出部11は、図3の波形において、振幅が立ち上がった点Aから一定時間内に振幅励起が起こった(点B)場合に、振幅が立ち上がった点Aを発話区間の語始とする。また、検出部11は、振幅が立ち下がった点Dから300ms以上振幅の励起がない場合に、振幅が立ち下がった点Dを発話区間の語尾とする。検出部11は、図3に示す波形においては、振幅が立ち下がった点Cから300ms以内に振幅の励起があるので、振幅が立ち下がった点Cを発話区間の語尾と認識しない。
That is, in the waveform of FIG. 3, when the amplitude excitation occurs within a certain time from the point A where the amplitude rises (point B), the
検出部11は、発話区間を検出後、図4に示すように、検出した発話区間の音声信号S2に対してプリエンファシスを行い、音声信号S3を生成する。図4(a)は、プリエンファシス前の音声信号S2の波形を示すグラフである。図4(b)は、プリエンファシス後の音声信号S3の波形を示すグラフである。プリエンファシスとは、音声信号の高域を強調することである。プリエンファシス後の音声信号S3の振幅は、プリエンファシス前の音声信号S2の振幅より大きい。
After detecting the utterance section, the
具体的には、検出部11は、音声信号S2のプリエンファシスを下式(1)によって行う。
上式(1)において、HSR[]はプリエンファシス前の音声信号を示し、HPrSR[]はプリエンファシス後の音声信号を示す。
Specifically, the
In the above equation (1), HSR [] indicates an audio signal before pre-emphasis, and HPrSR [] indicates an audio signal after pre-emphasis.
図5(a)は、プリエンファシス前の音声信号S2のペクトルを示すグラフである。図5(b)は、プリエンファシス後の音声信号S3のペクトルを示すグラフである。図5に示すように、プリエンファシスによって、より高域の信号が増幅されている。プリエンファシス前の音声信号における特定の周波数のパワー「la」,「lb」が強調されてより大きなパワー「la’」「lb’」となっている。検出部11は、プリエンファシスを行った音声信号S3を生成部13へ出力する。
FIG. 5A is a graph showing the spectrum of the audio signal S2 before pre-emphasis. FIG. 5B is a graph showing the spectrum of the audio signal S3 after pre-emphasis. As shown in FIG. 5, a higher frequency signal is amplified by pre-emphasis. The powers “la” and “lb” at specific frequencies in the audio signal before pre-emphasis are emphasized to become larger powers “la ′” and “lb ′”. The
生成部13は、音声信号S3を用いて複数のフレームを生成する部分である。生成部13は、図6に示すように、音声信号S3を512サンプリングごとに30%ずつシフトさせながら関数H(ハミング窓)を乗算して複数のフレームを生成する。図6は、シフト後の音声信号の波形と関数Hとを示すグラフである。
The
具体的には、生成部13は、下式(2)によってフレームを生成する。
上式(2)において、Preciseはサンプリング数(512)を示し、pは次数を示す。生成部13は、音声信号S3の時系列順に、フレームを生成すると共に、時系列順にフレームにフレームナンバーを割り当てる。すなわち、フレームナンバーN(Nは正の整数)のフレームは、フレームナンバーN−1のフレームにおける後方部分の70%ほどを含み、音声信号S3においてフレームナンバーN−1のフレームに後続する部分に対応する信号を30%ほど含む。生成部13は、生成した複数のフレームを算出部15へ出力する。
Specifically, the
In the above formula (2), Precise indicates the sampling number (512), and p indicates the order. The
算出部15は、各フレームに対応するゼロクロス数を算出する部分である。算出部15は、各フレームのノイズを除去すると共に各フレームに対応するゼロクロス数を算出する。ゼロクロス数とは、ノイズを除去した信号の波形とグラフの横軸との交点の数である。算出部15は、まず、フレームごとに図7(a)に示す自己相関関数を算出する。図7(a)は、フレームの自己相関関数を示す。具体的には、算出部15は、XtXt−τ+1平均が0の定常時系列データ{x(t)|t=0,…,N−1}が与えられた場合に、下式(3)を用いて自己相関関数を算出する。
更に、算出部15は、算出した自己相関関数を3連連続で移動平均させて、図7(b)に示す平均自己相関関数を算出する。図7(b)は、図7(a)の自己相関関数の移動平均をとった平均自己相関関数を示す。算出部15は、平均自己相関関数を利用して、各フレームのゼロクロス数を算出する。算出部15は、算出したゼロクロス数と、該当するフレームのフレームナンバーとを識別部17へ出力する。
Further, the
識別部17は、フレームナンバーN−1のフレームに対応するゼロクロス数とフレームナンバーNのフレームに対応するゼロクロス数との比較に基づいてフレームナンバーNのフレームによって示される音が無声音か有声音かを識別する部分である。
Based on the comparison between the number of zero crosses corresponding to the frame of frame number N-1 and the number of zero crosses corresponding to the frame of frame number N, the
より具体的には、識別部17は、フレームナンバーN−1のフレームに対応するゼロクロス数とフレームナンバーNのフレームに対応するゼロクロス数との差が所定の値より大きい場合に、フレームナンバーNのフレームが示す音が無声音であると識別する。また、識別部17は、フレームナンバーN−1のフレームに対応するゼロクロス数とフレームナンバーNのフレームに対応するゼロクロス数との差が所定の値より小さい場合に、フレームナンバーNのフレームが示す音が有声音であると識別する。
More specifically, when the difference between the number of zero crosses corresponding to the frame of frame number N-1 and the number of zero crosses corresponding to the frame of frame number N is greater than a predetermined value, the
より具体的に図8を参照して説明する。図8は、各フレームのゼロクロス数を示す図である。フレームのゼロクロス数が、図8の左から、「13」「20」「24」「30」「25」「30」「39」「8」と比較的変動している領域は、ゼロクロス数変化の安定しないフレーム域Aである。 More specific description will be given with reference to FIG. FIG. 8 is a diagram showing the number of zero crossings in each frame. The area where the number of zero crosses of the frame is relatively fluctuating from “13” “20” “24” “30” “25” “30” “39” “8” from the left in FIG. The frame area A is not stable.
フレーム域Aに含まれる各フレームのゼロクロス数は、直前のフレームのゼロクロス数との差が比較的大きい。よって、識別部17は、フレーム域Aに含まれる各フレームが示す音を無声音と識別する。すなわち、識別部17は、ゼロクロス数の変動が大きいフレームが示す音を無声音と識別する。なお、図8に示されるフレーム域Aの波形は、無声音である子音「s」を示す。
The difference between the number of zero crosses in each frame included in the frame area A and the number of zero crosses in the immediately preceding frame is relatively large. Therefore, the
フレームのゼロクロス数が、上記フレーム域Aに続いて図8の左から、「7」「8」「8」「8」と比較的安定している領域は、ゼロクロス数変化の安定したフレーム域Bである。 From the left in FIG. 8, the area where the number of zero crosses of the frame is relatively stable from the left in FIG. 8 is “7”, “8”, “8”, “8”. It is.
フレーム域Bに含まれる各フレームのゼロクロス数は、直前のフレームのゼロクロス数との差が比較的小さい。よって、識別部17は、フレーム域Bに含まれる各フレームが示す音を有声音と識別する。すなわち、識別部17は、ゼロクロス数の変動が小さいフレームが示す音を有声音と識別する。なお、図8示されるフレーム域Bの波形は、有声音である母音「a」を示す。
The number of zero crosses in each frame included in the frame area B is relatively small from the number of zero crosses in the immediately preceding frame. Therefore, the
また、図9は、フレームのゼロクロス数の変動を示すグラフである。横軸がフレームナンバーを示し、縦軸がフレームのゼロクロス数を示す。曲線X1及び曲線X2それぞれが、音声信号のゼロクロス数の変動を示す。 FIG. 9 is a graph showing fluctuations in the number of zero crossings in a frame. The horizontal axis indicates the frame number, and the vertical axis indicates the number of zero crossings of the frame. Each of the curve X1 and the curve X2 indicates a variation in the number of zero crossings of the audio signal.
曲線X1の領域Y1は、ゼロクロス数の変動が大きいので、識別部17は、領域Y1に含まれるフレームが示す各音を無声音であると識別する。また、曲線X2の領域Y2は、ゼロクロス数の変動が小さいので、識別部17は、領域Y2に含まれるフレームが示す各音を有声音であると識別する。このようにして、識別部17は、フレーム毎のゼロクロス数の変動を検出して、フレームが示す音が無声音か又は有声音かを識別する。
Since the region Y1 of the curve X1 has a large variation in the number of zero crossings, the
無声音は、有声音と比較して周期性が乏しいのでフレーム毎のゼロクロス数の変動が大きい。また、有声音は、無声音と比較して周期性を有するのでフレーム毎のゼロクロス数の変化が小さい。よって、上述したように、フレーム毎のゼロクロス数の変動を検出することにより、フレームが示す音が無声音か有声音か識別することができる。 The unvoiced sound has less periodicity than the voiced sound, and therefore the fluctuation of the number of zero crosses per frame is large. In addition, the voiced sound has a periodicity as compared with the unvoiced sound, so that the change in the number of zero crosses for each frame is small. Therefore, as described above, by detecting a variation in the number of zero crosses for each frame, it is possible to identify whether the sound indicated by the frame is an unvoiced sound or a voiced sound.
引き続いて、図10を参照して、音声信号に基づいて音を識別する際の上記音声識別装置10の動作を説明すると共に、本実施形態に係る音声識別方法を説明する。図10は、本実施形態に係る音声識別装置の動作を示すフローチャートである。
Subsequently, with reference to FIG. 10, the operation of the
識別処理を開始すると、音声識別システム1が録音モードに移行して「.wavファイル」が投入される(S21)。録音モードに移行すると、入力された音声信号S1の発話区間が、検出部11によって検出される(S22)。発話区間の音声信号S2が検出されると、音声信号S2の波形に対するプリエンファシスが、検出部11によってなされる(S23)。
When the identification process is started, the
音声信号S2がプリエンファシスされると、フレームが、プリエンファシスされた音声信号S3に基づいて生成部13によって生成される(S24)。フレームが生成されると、自己相関関数が、フレーム毎に算出部15によって算出される(S25)。自己相関関数が算出されると、自己相関関数の移動平均が、算出部15によって算出される(S26)。
When the audio signal S2 is pre-emphasized, a frame is generated by the
移動平均が算出されると、フレームナンバー0のフレームのゼロクロス数が、算出部15によって算出される(S27)。フレームナンバーiのフレームのゼロクロス数が、算出部15によって算出される(S28)。
When the moving average is calculated, the zero cross number of the frame with
フレームナンバーi−1のフレームのゼロクロス数とフレームナンバーiのフレームのゼロクロス数との差が所定値より大きいと識別部17によって判断される(S29でYES)と、フレームナンバーiのフレームが示す音(音素)が無声音であると識別部17によって識別される(S30)。
When the
フレームナンバーi−1のフレームのゼロクロス数とフレームナンバーiのフレームのゼロクロス数との差が所定値より小さいと識別部17によって判断される(S29でNO)と、フレームナンバーiのフレームが示す音(音素)が有声音であると識別部17によって識別される(S31)。
When the discriminating
音が無声音か有声音か識別されると、フレームナンバーiをプラスする(S32)。識別対象のフレームが発話区間の最終フレームではない場合(S33でNO)は、ステップS28へ戻り、識別対象のフレームが発話区間の最終フレームとなるまで繰り返す。 When the sound is identified as unvoiced or voiced, the frame number i is added (S32). If the identification target frame is not the last frame of the utterance section (NO in S33), the process returns to step S28 and is repeated until the identification target frame becomes the final frame of the utterance section.
識別対象のフレームが発話区間の最終フレームである場合(S33でYES)は、識別処理を終了する。このようにして、発話区間の音声信号が示す音がそれぞれ有声音か無声音か識別される。 If the identification target frame is the last frame of the utterance section (YES in S33), the identification process is terminated. In this way, it is discriminated whether the sound indicated by the speech signal in the utterance section is voiced sound or unvoiced sound.
本実施形態によれば、フレームナンバーN−1のフレームに対応するゼロクロス数とフレームナンバーNのフレームに対応するゼロクロス数との比較に基づいてフレームナンバーNのフレームによって示される音が無声音か有声音かを識別する。よってゼロクロス数の変動に基づいてフレームによって示される音を識別することができる。すなわち、音声信号が示す音が無声音か有声音かをより簡易かつより正確に識別することができる。 According to the present embodiment, the sound indicated by the frame of frame number N based on a comparison between the number of zero crosses corresponding to the frame of frame number N-1 and the number of zero crosses corresponding to the frame of frame number N is unvoiced sound or voiced sound. To identify. Therefore, the sound indicated by the frame can be identified based on the variation of the number of zero crossings. That is, it is possible to more easily and accurately identify whether the sound indicated by the audio signal is an unvoiced sound or a voiced sound.
また本実施形態によれば、識別部17が、フレームナンバーN−1のフレームに対応するゼロクロス数とフレームナンバーNのフレームに対応するゼロクロス数との差が所定の値より大きい場合に、フレームナンバーNのフレームの示す音が無声音であると識別する。この場合、ゼロクロス数の変動が比較的大きい領域に含まれるフレームによって示される音を無声音であると識別できるので、音を的確に識別することができる。
Further, according to the present embodiment, when the
また本実施形態によれば、識別部17が、フレームナンバーN−1のフレームに対応するゼロクロス数とフレームナンバーNのフレームに対応するゼロクロス数との差が所定の値より小さい場合に、フレームナンバーNのフレームの示す音が有声音であると識別する。この場合、ゼロクロス数の変動が比較的小さい領域に含まれるフレームによって示される音を有声音であると識別できるので、音を的確に識別することができる。
Further, according to the present embodiment, when the
上記音声識別装置10を用いて日本語の子音について識別試験を行った。図11は、本実施形態に係る音声識別装置を用いた識別試験結果を示す表である。図11において、「○」が音声識別装置10による識別が正確であったことを示し、「×」が音声識別装置10による識別が不正確であったことを示す。図11の識別試験結果によれば、音声識別装置10を用いた音声識別の的中率は9割程度である。
A discrimination test was conducted on Japanese consonants using the
従来の音声識別方法として知られる変形相関法の的中率は、8割程度である。変形相関法は、入力された音声信号の波形に対して、自己相関関数を求めた後、線形予測分析を行い、次数分の線形予測係数を求める。次数分の線形予測係数とは、現サンプル値について、過去の複数のサンプリング値との相関で表せる程度を示す基準である。その後、変形相関法は、予測残差を求めて予測残差のピークを検出し、ピーク間の時間距離を測定し、その測定結果に基づいて識別を行う。変形相関法は、このように複雑な操作を要するため、識別に時間がかかる。 The hit rate of the modified correlation method known as a conventional speech identification method is about 80%. In the modified correlation method, an autocorrelation function is obtained for a waveform of an input speech signal, and then linear prediction analysis is performed to obtain linear prediction coefficients corresponding to orders. The linear prediction coefficient for the order is a standard indicating the degree to which the current sample value can be expressed by correlation with a plurality of past sampling values. Thereafter, the modified correlation method obtains a prediction residual, detects a peak of the prediction residual, measures a time distance between the peaks, and performs identification based on the measurement result. Since the modified correlation method requires such a complicated operation, identification takes time.
図11の識別試験結果によれば、本実施形態の音声識別装置10は、従来の変形相関法を用いた場合と同程度以上の正確さで音声信号が示す音が無声音か有声音かを識別することができる。また、本実施形態の音声識別装置10は、変形相関法を用いた場合よりも簡易かつ迅速な方法で音声信号が示す音が無声音か有声音かを識別することができる。
According to the discrimination test result of FIG. 11, the
上述した本実施形態では、互いに隣接するフレームのゼロクロス数を比較対象としたが、本発明の実施の形態はこれに限られず、互いに近接する(近くにある)フレームのゼロクロス数を比較対象としていればよい。本実施形態では30%ずつシフトさせながらフレームを生成したが、例えばシフト量を少なくしてより細かくフレーミングをすることも好ましい。このようにフレーム間隔を短くした場合には、データの相互関連性を阻害しない範囲で2つ以上前のフレームを比較対照としてもよい。このように互いに近接するフレーム、すなわちデータの相互関連性を阻害しない程度に近くに存在するフレームのゼロクロス数を比較対照とすることも好ましい。 In the above-described embodiment, the number of zero crosses of adjacent frames is a comparison target. However, the embodiment of the present invention is not limited to this, and the number of zero crosses of adjacent (near) frames can be compared. That's fine. In this embodiment, the frame is generated while shifting by 30%. However, for example, it is also preferable to perform the framing more finely by reducing the shift amount. When the frame interval is shortened in this way, two or more previous frames may be used as a comparison reference within a range that does not inhibit the correlation of data. In this way, it is also preferable to use the number of zero crossings of frames close to each other, that is, frames that are close enough not to inhibit the correlation of data as a comparison.
1…音声識別システム、3…マイク10…音声識別装置、11…検出部、13…生成部、15…算出部、17…識別部。
DESCRIPTION OF
Claims (6)
当該切り出された複数のフレームそれぞれに対応するゼロクロス数を算出するゼロクロス算出手段と、
当該算出されたゼロクロス数に基づいて、前記複数のフレームそれぞれにおけるゼロクロス数を、前記複数のフレームそれぞれに近接するフレームにおけるゼロクロス数と比較するゼロクロス比較手段と、
当該比較結果に基づいて、前記複数のフレームそれぞれに対応する音素が無声音か有声音かを識別する音素識別手段と、
を備える音声識別装置。 A frame generation means for cutting out the audio signal along the time axis into a plurality of frames by shifting each cut-out start time;
Zero-cross calculating means for calculating the number of zero-crosses corresponding to each of the plurality of cut out frames,
Zero cross comparison means for comparing the number of zero crosses in each of the plurality of frames with the number of zero crosses in a frame adjacent to each of the plurality of frames based on the calculated number of zero crosses;
Phoneme identification means for identifying whether the phoneme corresponding to each of the plurality of frames is an unvoiced sound or a voiced sound based on the comparison result;
A voice identification device comprising:
ゼロクロス算出手段が、前記第1ステップにおいて切り出された複数のフレームそれぞれに対応するゼロクロス数を算出する第2ステップと、
前記第2ステップにおいて算出されたゼロクロス数に基づいて、ゼロクロス比較手段が、前記複数のフレームそれぞれにおけるゼロクロス数を前記複数のフレームそれぞれに近接するフレームにおけるゼロクロス数と比較する第3ステップと、
前記第3ステップにおける比較結果に基づいて、音素識別手段が、前記複数のフレームそれぞれに対応する音素が無声音か有声音かを識別する第4ステップと、
を備える音声識別方法。 A first step in which the frame generation means cuts the audio signal along the time axis into a plurality of frames by shifting each cut-out start time;
A second step in which the zero cross calculating means calculates the number of zero crosses corresponding to each of the plurality of frames cut out in the first step;
Based on the number of zero crosses calculated in the second step, a third step in which zero cross comparison means compares the number of zero crosses in each of the plurality of frames with the number of zero crosses in a frame adjacent to each of the plurality of frames;
A fourth step in which the phoneme identifying means identifies whether the phoneme corresponding to each of the plurality of frames is an unvoiced sound or a voiced sound based on the comparison result in the third step;
A voice identification method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006119436A JP2007292940A (en) | 2006-04-24 | 2006-04-24 | Voice recognition device and voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006119436A JP2007292940A (en) | 2006-04-24 | 2006-04-24 | Voice recognition device and voice recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007292940A true JP2007292940A (en) | 2007-11-08 |
Family
ID=38763635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006119436A Pending JP2007292940A (en) | 2006-04-24 | 2006-04-24 | Voice recognition device and voice recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007292940A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203351A (en) * | 2011-03-28 | 2012-10-22 | Yamaha Corp | Consonant identification apparatus and program |
US8762147B2 (en) | 2011-02-02 | 2014-06-24 | JVC Kenwood Corporation | Consonant-segment detection apparatus and consonant-segment detection method |
JP2015180965A (en) * | 2015-06-17 | 2015-10-15 | ヤマハ株式会社 | Audio signal identification device and program |
JP2018077546A (en) * | 2013-09-09 | 2018-05-17 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | Unvoiced/voiced determination for speech processing |
JP2019523901A (en) * | 2016-05-20 | 2019-08-29 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Similarity information determination device, similarity information determination method, autocorrelation information determination device, cross-correlation information determination device, and computer program |
-
2006
- 2006-04-24 JP JP2006119436A patent/JP2007292940A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8762147B2 (en) | 2011-02-02 | 2014-06-24 | JVC Kenwood Corporation | Consonant-segment detection apparatus and consonant-segment detection method |
JP2012203351A (en) * | 2011-03-28 | 2012-10-22 | Yamaha Corp | Consonant identification apparatus and program |
JP2018077546A (en) * | 2013-09-09 | 2018-05-17 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | Unvoiced/voiced determination for speech processing |
US10347275B2 (en) | 2013-09-09 | 2019-07-09 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
JP2015180965A (en) * | 2015-06-17 | 2015-10-15 | ヤマハ株式会社 | Audio signal identification device and program |
JP2019523901A (en) * | 2016-05-20 | 2019-08-29 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Similarity information determination device, similarity information determination method, autocorrelation information determination device, cross-correlation information determination device, and computer program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4911034B2 (en) | Voice discrimination system, voice discrimination method, and voice discrimination program | |
WO2004111996A1 (en) | Acoustic interval detection method and device | |
JPH0990974A (en) | Signal processor | |
JP2006171750A (en) | Feature vector extracting method for speech recognition | |
JP5040778B2 (en) | Speech synthesis apparatus, method and program | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
JP5081730B2 (en) | Speech segment detection apparatus and speech segment detection method | |
JP2007292940A (en) | Voice recognition device and voice recognition method | |
JP4353202B2 (en) | Prosody identification apparatus and method, and speech recognition apparatus and method | |
Urbain et al. | Automatic phonetic transcription of laughter and its application to laughter synthesis | |
JP5621786B2 (en) | Voice detection device, voice detection method, and voice detection program | |
JP4839970B2 (en) | Prosody identification apparatus and method, and speech recognition apparatus and method | |
JP2002189487A (en) | Speech recognition device and speech recognition method | |
JP7159655B2 (en) | Emotion estimation system and program | |
Lertwongkhanakool et al. | An automatic real-time synchronization of live speech with its transcription approach | |
KR0136608B1 (en) | Phoneme recognizing device for voice signal status detection | |
JP6599408B2 (en) | Acoustic signal processing apparatus, method, and program | |
JP4479191B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition processing program | |
Awais et al. | Continuous arabic speech segmentation using FFT spectrogram | |
JP3502265B2 (en) | Voice analysis device, voice analysis method, and recording medium storing voice analysis program | |
JP2019028301A (en) | Acoustic signal processing apparatus, method and program | |
JP2019029861A (en) | Acoustic signal processing device, method and program | |
JP6790851B2 (en) | Speech processing program, speech processing method, and speech processor | |
JP3049711B2 (en) | Audio processing device | |
El Haddad et al. | Shaking and speech-smile vowels classification: An attempt at amusement arousal estimation from speech signals |