JP5169297B2 - Sound processing apparatus and program - Google Patents
Sound processing apparatus and program Download PDFInfo
- Publication number
- JP5169297B2 JP5169297B2 JP2008041520A JP2008041520A JP5169297B2 JP 5169297 B2 JP5169297 B2 JP 5169297B2 JP 2008041520 A JP2008041520 A JP 2008041520A JP 2008041520 A JP2008041520 A JP 2008041520A JP 5169297 B2 JP5169297 B2 JP 5169297B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- index value
- unvoiced
- unit section
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephone Function (AREA)
Description
本発明は、音響の種類を判別する技術に関する。 The present invention relates to a technique for determining the type of sound.
収音機器による収録音などの音響(以下「入力音」という)を音声の区間と非音声の区間とに区別する技術が従来から提案されている。例えば特許文献1には、入力音のうち所定の周波数帯域に属する成分の強度に基づいて音声を検出する技術が開示されている。
しかし、特許文献1の技術においては、音響的な特性が非音声に類似する無声音を高精度に検出することが困難である。したがって、実際には音声(有声音および無声音)が継続している区間内であっても、無声音の区間が非音声と誤判定され、音声と判定される区間が途切れる可能性がある。以上の事情に鑑みて、本発明は、無声音を高精度に判別することをひとつの目的とする。 However, in the technique of Patent Document 1, it is difficult to detect an unvoiced sound having an acoustic characteristic similar to that of non-voice with high accuracy. Therefore, even in a section where voice (voiced sound and unvoiced sound) is actually continuing, the section of unvoiced sound may be erroneously determined as non-speech and the section determined as speech may be interrupted. In view of the above circumstances, an object of the present invention is to discriminate unvoiced sound with high accuracy.
以上の課題を解決するために、本発明の第1の態様に係る音処理装置は、入力音の各単位区間について変調スペクトルを特定する変調スペクトル特定手段と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段(例えば図2の指標算定部42)と、入力音の零交差数に応じた第2指標値を各単位区間について算定する第2指標算定手段(例えば図2の指標算定部44)と、各単位区間の入力音が音声であるか否かを第1指標値と第1閾値との大小に基づいて判定する音声判定手段と、各単位区間の入力音が無声音であるか否かを、第1閾値とは相違する第2閾値と第1指標値との大小と、第2指標値とに基づいて判定する無声音判定手段とを具備する。
In order to solve the above problems, a sound processing apparatus according to the first aspect of the present invention includes a modulation spectrum specifying unit that specifies a modulation spectrum for each unit section of an input sound, and a modulation frequency of the modulation spectrum is a predetermined frequency. First index calculation means for calculating a first index value corresponding to the intensity of the component belonging to the range (for example, the
以上の構成においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に基づいて各単位区間の入力音が無声音であるか否かが判定されるから、入力音の周波数スペクトルを利用する技術と比較して高精度に無声音を判別することが可能となる。また、入力音の零交差数に応じた第2指標値が無声音判定手段による無声音の判定に利用されるから、第1指標値のみを利用する構成と比較して高精度に無声音が判別される。例えば、有声音は無声音と比較して零交差数が小さいという傾向があるから、第2指標値を利用することで無声音を有声音と高精度に区別することが可能である。 In the above configuration, since it is determined whether or not the input sound of each unit section is an unvoiced sound based on the intensity of the component whose modulation frequency falls within a predetermined range in the modulation spectrum, the frequency spectrum of the input sound is used. It is possible to discriminate the unvoiced sound with higher accuracy than the technology to do. Further, since the second index value corresponding to the number of zero crossings of the input sound is used for the determination of the unvoiced sound by the unvoiced sound determination means, the unvoiced sound can be determined with higher accuracy than the configuration using only the first index value. . For example, a voiced sound tends to have a smaller number of zero crossings than an unvoiced sound. Therefore, the unvoiced sound can be distinguished from a voiced sound with high accuracy by using the second index value.
本発明の好適な態様に係る音処理装置は、入力音の周波数スペクトルの平坦性に応じた第3指標値を各単位区間について算定する第3指標算定手段(例えば図2の指標算定部46)を具備し、無声音判定手段は、各単位区間の入力音が無声音であるか否かを第1指標値と第2指標値と第3指標値とに基づいて判定する。以上の態様においては、入力音の周波数スペクトルの平坦性に応じた第3指標値が無声音判定手段による無声音の判定に利用されるから、第1指標値および第2指標値のみを利用する構成と比較して高精度に無声音を判別することが可能である。例えば、有声音や環境音(例えばプッシュトーン)などの音響は無声音と比較して周波数スペクトルの平坦性が低いという傾向があるから、第3指標値を利用することで無声音を有声音や環境音と高精度に区別することが可能である。
The sound processing apparatus according to a preferred aspect of the present invention is a third index calculation means for calculating a third index value corresponding to the flatness of the frequency spectrum of the input sound for each unit section (for example, the
本発明の第2の態様に係る音処理装置は、入力音の各単位区間について変調スペクトルを特定する変調スペクトル特定手段と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段と、入力音の周波数スペクトルの平坦性に応じた第3指標値を各単位区間について算定する第3指標算定手段と、各単位区間の入力音が音声であるか否かを第1指標値と第1閾値との大小に基づいて判定する音声判定手段と、各単位区間の入力音が無声音であるか否かを、第1閾値とは相違する第2閾値と第1指標値との大小と、第3指標値とに基づいて判定する無声音判定手段とを具備する。 The sound processing apparatus according to the second aspect of the present invention includes a modulation spectrum specifying unit that specifies a modulation spectrum for each unit section of an input sound, and a modulation frequency corresponding to the intensity of a component that belongs to a predetermined range in the modulation spectrum. First index calculation means for calculating the first index value, third index calculation means for calculating a third index value corresponding to the flatness of the frequency spectrum of the input sound for each unit section, and input sound in each unit section The sound determination means for determining whether or not the sound is based on the magnitude of the first index value and the first threshold, and whether or not the input sound of each unit section is an unvoiced sound are different from the first threshold. An unvoiced sound determining means for determining based on the magnitude of the second threshold value and the first index value and the third index value is provided.
第2の態様においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に基づいて各単位区間の入力音が無声音であるか否かが判定されるから、入力音の周波数スペクトルを利用する技術と比較して高精度に無声音を判別することが可能となる。また、入力音の周波数スペクトルの平坦性に応じた第3指標値が無声音判定手段による無声音の判定に利用されるから、第1指標値のみを利用する構成と比較して高精度に無声音が判別される。例えば、有声音や環境音(例えばプッシュトーン)などの音響は無声音と比較して周波数スペクトルの平坦性が低いという傾向があるから、第3指標値を利用することで無声音を有声音や環境音と高精度に区別することが可能である。 In the second aspect, since it is determined whether or not the input sound of each unit section is an unvoiced sound based on the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum, the frequency spectrum of the input sound is It is possible to discriminate unvoiced sound with higher accuracy than the technology used. Further, since the third index value corresponding to the flatness of the frequency spectrum of the input sound is used for the determination of the unvoiced sound by the unvoiced sound determination means, the unvoiced sound is discriminated with higher accuracy than the configuration using only the first index value. Is done. For example, since sounds such as voiced sounds and environmental sounds (for example, push tones) tend to have lower frequency spectrum flatness than unvoiced sounds, the third index value is used to convert unvoiced sounds into voiced sounds and environmental sounds. And can be distinguished with high accuracy.
なお、無声音は、声帯の振動を伴わない音声(有声音以外の音声)である。無声子音や無声化した有声音(母音)が無声音に該当する。無声化とは、本来的には声帯の振動を伴なって発声されるべき有声音が何らかの条件のもとで声帯の振動を伴なわずに発声される現象である。 Note that the unvoiced sound is sound that does not accompany vocal cord vibration (voice other than voiced sound). Unvoiced consonants and unvoiced voiced sounds (vowels) correspond to unvoiced sounds. Devoicing is a phenomenon in which a voiced sound that should be originally uttered with vocal cord vibration is uttered without any vocal cord vibration under some conditions.
また、「入力音が無声音であるか否かを指標値に基づいて判定する」とは、入力音が無声音であるか否かの判定の結果が当該指標値の大小に応じて変化することを意味する。無声音判定手段による判定の具体的な方法は、以下に例示するように各指標値の定義に応じて適宜に選定される。 Further, “determining whether or not the input sound is an unvoiced sound based on the index value” means that the determination result of whether or not the input sound is an unvoiced sound changes depending on the magnitude of the index value. means. The specific method of determination by the unvoiced sound determination means is appropriately selected according to the definition of each index value as exemplified below.
第1の態様および第2の態様に係る音処理装置において、変調スペクトルのうち変調周波数が所定の範囲内にある成分の強度が高いほど第1指標値が減少するように第1指標値が定義される場合、例えば、第1指標値が小さいほど、入力音が無声音と判定される可能性が上昇するように、無声音判定手段による判定の内容が選定される。例えば、第1指標値以外の指標値が入力音を無声音と判定するための条件を充足している場合、無声音判定手段は、第1指標値が所定の閾値(例えば図9の閾値T1B)を下回る場合に入力音を無声音と判定し、第1指標値が当該閾値を上回る場合に入力音が無声音ではないと判定する。一方、変調スペクトルのうち変調周波数が所定の範囲内にある成分の強度が高いほど第1指標値が増加するように第1指標値が定義される場合、例えば、第1指標値が大きいほど、入力音が無声音と判定される可能性が上昇するように、無声音判定手段による判定の内容が選定される。例えば、第1指標値以外の指標値が入力音を無声音と判定するための条件を充足している場合、無声音判定手段は、第1指標値が所定の閾値を上回る場合に入力音を無声音と判定し、第1指標値が当該閾値を下回る場合に入力音が無声音ではないと判定する。 In the sound processing apparatus according to the first and second aspects, the first index value is defined such that the first index value decreases as the intensity of a component having a modulation frequency within a predetermined range in the modulation spectrum increases. In this case, for example, the content of determination by the unvoiced sound determination unit is selected such that the smaller the first index value, the higher the possibility that the input sound is determined to be unvoiced sound. For example, when an index value other than the first index value satisfies a condition for determining the input sound as an unvoiced sound, the unvoiced sound determination means determines that the first index value has a predetermined threshold value (for example, the threshold value T1B in FIG. 9). The input sound is determined to be an unvoiced sound if the input sound is lower, and the input sound is determined not to be an unvoiced sound if the first index value exceeds the threshold value. On the other hand, when the first index value is defined such that the first index value increases as the intensity of a component having a modulation frequency within a predetermined range in the modulation spectrum increases, for example, the larger the first index value, The content of the determination by the unvoiced sound determination means is selected so that the possibility that the input sound is determined to be an unvoiced sound increases. For example, when an index value other than the first index value satisfies a condition for determining an input sound as an unvoiced sound, the unvoiced sound determination means determines that the input sound is an unvoiced sound when the first index value exceeds a predetermined threshold value. It determines, and when a 1st index value is less than the said threshold value, it determines with an input sound not being an unvoiced sound.
また、第1の態様に係る音処理装置において、入力音の零交差数が多いほど第2指標値が増加するように第2指標値が定義される場合、例えば、第2指標値が大きいほど、入力音が無声音と判定される可能性が上昇するように、無声音判定手段による判定の内容が選定される。例えば、第2指標値以外の指標値が入力音を無声音と判定するための条件を充足している場合、無声音判定手段は、第2指標値が所定の閾値(例えば図9の閾値T2)を上回る場合に入力音を無声音と判定し、第2指標値が当該閾値を下回る場合に入力音が無声音ではないと判定する。一方、入力音の零交差数が多いほど第2指標値が減少するように第2指標値が定義される場合(例えば零交差数の逆数が第2指標値として算定される場合)、例えば、第2指標値が小さいほど、入力音が無声音と判定される可能性が上昇するように無声音判定手段による判定の内容が選定される。例えば、第2指標値以外の指標値が入力音を無声音と判定するための条件を充足している場合、無声音判定手段は、第2指標値が所定の閾値を下回る場合に入力音を無声音と判定し、第2指標値が当該閾値を上回る場合に入力音が無声音ではないと判定する。 In the sound processing device according to the first aspect, when the second index value is defined such that the second index value increases as the number of zero crossings of the input sound increases, for example, the larger the second index value, The content of the determination by the unvoiced sound determination means is selected so that the possibility that the input sound is determined to be an unvoiced sound increases. For example, when an index value other than the second index value satisfies a condition for determining the input sound as an unvoiced sound, the unvoiced sound determination means determines that the second index value has a predetermined threshold (for example, the threshold T2 in FIG. 9). When it exceeds, the input sound is determined as an unvoiced sound, and when the second index value is below the threshold, it is determined that the input sound is not an unvoiced sound. On the other hand, when the second index value is defined so that the second index value decreases as the number of zero crossings of the input sound increases (for example, when the reciprocal of the number of zero crossings is calculated as the second index value), for example, The content of the determination by the unvoiced sound determination means is selected so that the possibility that the input sound is determined to be unvoiced increases as the second index value decreases. For example, when an index value other than the second index value satisfies a condition for determining an input sound as an unvoiced sound, the unvoiced sound determination means determines that the input sound is an unvoiced sound when the second index value is lower than a predetermined threshold value. It determines, and when a 2nd parameter | index value exceeds the said threshold value, it determines with an input sound not being an unvoiced sound.
第2の態様に係る音処理装置において、入力音の周波数スペクトルの平坦性が高いほど第3指標値が減少するように第3指標値が定義される場合、例えば、第3指標値が小さいほど、入力音が無声音と判定される可能性が上昇するように、無声音判定手段による判定の内容が選定される。例えば、第3指標値以外の指標値が入力音を無声音と判定するための条件を充足している場合、無声音判定手段は、第3指標値が所定の閾値(例えば図9の閾値T3)を下回る場合に入力音を無声音と判定し、第3指標値が当該閾値を上回る場合に入力音が無声音ではないと判定する。一方、入力音の周波数スペクトルの平坦性が高いほど第3指標値が増加するように第3指標値が定義される場合、例えば、第3指標値が大きいほど、入力音が無声音と判定される可能性が上昇するように、無声音判定手段による判定の内容が選定される。例えば、第3指標値以外の指標値が入力音を無声音と判定するための条件を充足している場合、無声音判定手段は、第3指標値が所定の閾値を上回る場合に入力音を無声音と判定し、第3指標値が当該閾値を下回る場合に入力音が無声音ではないと判定する。 In the sound processing device according to the second aspect, when the third index value is defined such that the third index value decreases as the flatness of the frequency spectrum of the input sound increases, for example, the smaller the third index value, The content of the determination by the unvoiced sound determination means is selected so that the possibility that the input sound is determined to be an unvoiced sound increases. For example, when an index value other than the third index value satisfies a condition for determining an input sound as an unvoiced sound, the unvoiced sound determination means determines that the third index value has a predetermined threshold (for example, a threshold T3 in FIG. 9). The input sound is determined to be an unvoiced sound when lower than the threshold, and the input sound is determined not to be an unvoiced sound when the third index value exceeds the threshold value. On the other hand, when the third index value is defined such that the third index value increases as the flatness of the frequency spectrum of the input sound increases, for example, the input sound is determined to be unvoiced as the third index value increases. The content of determination by the unvoiced sound determination means is selected so that the possibility increases. For example, when an index value other than the third index value satisfies a condition for determining the input sound as an unvoiced sound, the unvoiced sound determination means determines that the input sound is an unvoiced sound when the third index value exceeds a predetermined threshold value. When the third index value is below the threshold, it is determined that the input sound is not an unvoiced sound.
変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度が高いほど第1指標値が減少するように第1指標値が算定される構成において、音声判定手段は、第1指標値が第1閾値(例えば図6の閾値T1A)を下回る単位区間の入力音を音声と判定し、無声音判定手段は、第1閾値よりも大きい第2閾値を第1指標値が下回る単位区間の入力音を無声音と判定する。また、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度が高いほど第1指標値が増加するように第1指標値が算定される構成において、音声判定手段は、第1指標値が第1閾値を上回る単位区間の入力音を音声と判定し、無声音判定手段は、第1閾値よりも小さい第2閾値を第1指標値が上回る単位区間の入力音を無声音と判定する。以上の各態様によれば、有声音と無声音とを高精度に区別することが可能である。 In the configuration in which the first index value is calculated so that the first index value decreases as the intensity of the component whose modulation frequency falls within the predetermined range in the modulation spectrum increases, the speech determination means has the first index value as the first index value. An input sound in a unit section that falls below a threshold value (for example, threshold value T1A in FIG. 6) is determined as speech, and the unvoiced sound determination means uses unvoiced sound as an input sound in a unit section in which the first index value falls below a second threshold value that is greater than the first threshold value. Is determined. Further, in the configuration in which the first index value is calculated so that the first index value increases as the intensity of the component whose modulation frequency belongs to the predetermined range in the modulation spectrum is higher, the sound determination means has the first index value The input sound in the unit section exceeding the first threshold is determined as speech, and the unvoiced sound determining means determines the input sound in the unit section in which the first index value exceeds the second threshold smaller than the first threshold as unvoiced sound. According to the above aspects, it is possible to distinguish voiced and unvoiced sounds with high accuracy.
第1の態様および第2の態様に係る音処理装置の具体例において、無声音判定手段が無声音と判定した単位区間の入力音と他の単位区間の入力音とに対して異なる処理を実行する音処理手段が設置される。また、他の具体例においては、音声判定手段が音声と判定した単位区間の入力音と無声音判定手段が無声音と判定した単位区間の入力音とに対して異なる処理を実行する音処理手段が設置される。以上の構成においては、入力音の種類(音声/非音声または有声音/無声音)に応じた適切な処理を実行することで所望の特性の音響を生成することが可能である。 In the specific example of the sound processing device according to the first aspect and the second aspect, the sound that performs different processing on the input sound of the unit section determined by the unvoiced sound determination unit as the unvoiced sound and the input sound of the other unit sections Processing means are installed. In another specific example, sound processing means for performing different processing on the input sound of the unit section determined by the sound determination means as the sound and the input sound of the unit section determined by the unvoiced sound determination means as the unvoiced sound is installed. Is done. In the above configuration, it is possible to generate sound having a desired characteristic by executing appropriate processing according to the type of input sound (voice / non-voice or voiced / unvoiced sound).
以上の総ての態様に係る音処理装置は、入力音の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。第1の態様に係るプログラムは、入力音の各単位区間について変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、入力音の零交差数に応じた第2指標値を各単位区間について算定する第2指標算定処理と、各単位区間の入力音が音声であるか否かを第1指標値と第1閾値との大小に基づいて判定する音声判定処理と、各単位区間の入力音が無声音であるか否かを、第1閾値とは相違する第2閾値と第1指標値との大小と、第2指標値とに基づいて判定する無声音判定処理とをコンピュータに実行させる。第2の態様に係るプログラムは、入力音の各単位区間について変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、入力音の周波数スペクトルの平坦性に応じた第3指標値を各単位区間について算定する第3指標算定処理と、各単位区間の入力音が音声であるか否かを第1指標値と第1閾値との大小に基づいて判定する音声判定処理と、各単位区間の入力音が無声音であるか否かを、第1閾値とは相違する第2閾値と第1指標値との大小と、第3指標値とに基づいて判定する無声音判定処理とをコンピュータに実行させる。本発明のプログラムによれば、以上の各態様に係る音処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 The sound processing apparatus according to all of the above aspects is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to processing of input sound, or a general purpose such as a CPU (Central Processing Unit). This is also realized by cooperation between the arithmetic processing unit and the program. The program according to the first aspect includes a modulation spectrum specifying process for specifying a modulation spectrum for each unit section of the input sound, and a first index value corresponding to the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum. A first index calculation process for calculating; a second index calculation process for calculating a second index value corresponding to the number of zero crossings of the input sound for each unit section; and whether or not the input sound of each unit section is a voice. The second threshold value and the first index, which are different from the first threshold value, are determined based on the magnitude of the first index value and the first threshold value, and whether or not the input sound of each unit section is an unvoiced sound. The computer performs unvoiced sound determination processing that is determined based on the magnitude of the value and the second index value. The program according to the second aspect includes a modulation spectrum specifying process for specifying a modulation spectrum for each unit section of the input sound, and a first index value corresponding to the intensity of a component whose modulation frequency is within a predetermined range of the modulation spectrum. A first index calculation process for calculating, a third index calculation process for calculating a third index value corresponding to the flatness of the frequency spectrum of the input sound for each unit section, and whether or not the input sound of each unit section is speech The second threshold value and the second threshold value that are different from the first threshold value are voice determination processing that determines whether or not the input sound of each unit section is an unvoiced sound , based on the magnitude of the first index value and the first threshold value. The computer performs unvoiced sound determination processing that is determined based on the magnitude of the 1 index value and the third index value. According to the program of this invention, the effect | action and effect similar to the sound processing apparatus which concern on each above aspect are show | played. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.
図1は、本発明の実施の形態に係る遠隔会議システムのブロック図である。遠隔会議システム100は、地理的に離間した空間R1と空間R2とで複数の利用者U(会議の参加者)が相互に音声を授受するシステムである。各空間R(R1,R2)には、収音機器12と音処理装置14と音処理装置16と放音機器18とが設置される。
FIG. 1 is a block diagram of a remote conference system according to an embodiment of the present invention. The
収音機器12は、空間R内に存在する入力音VINの波形を表す音響信号SINを生成する装置(マイクロホン)である。空間R1および空間R2の各々の音処理装置14は、音響信号SINから出力信号SOUTを生成して空間R1および空間R2の他方の音処理装置16に送信する。音処理装置16は、出力信号SOUTを増幅して放音機器18に出力する。放音機器18は、音処理装置16から供給される増幅後の出力信号SOUTに応じた音波を放射する装置(スピーカ)である。以上の構成により、空間R1内の各利用者Uの発声音が空間R2内の放音機器18から出力され、空間R2内の各利用者Uの発声音が空間R1内の放音機器18から出力される。
The
図2は、空間R1および空間R2の各々に設置される音処理装置14の構成を示すブロック図である。図2に示すように、音処理装置14は、制御装置22と記憶装置24とを具備する。制御装置22は、プログラムを実行することで図2の各要素として機能する演算処理装置である。なお、図2の各要素はDSPなどの電子回路によっても実現される。記憶装置24は、制御装置22が実行するプログラムや制御装置22が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置24として任意に利用される。
FIG. 2 is a block diagram showing a configuration of the
制御装置22は、収音機器12から供給される音響信号SIN(入力音VIN)を時間軸に沿って区分した複数の区間(以下「単位区間」という)の各々について当該入力音VINの種類(有声音/無声音/非音声)を判別する機能と、判別の結果に応じた処理を音響信号SINに対して実行することで出力信号SOUTを生成する機能とを実現する。有声音は、声帯の振動を伴なう音声(発話音)である。無声音は、声帯の振動を伴なわない音声である。一方、非音声は、音声以外の音響(雑音)である。各種の暗騒音(例えば空調設備の動作音)や各種の環境音(例えば携帯電話機の着信音や扉の開閉音)が非音声に該当する。
The
図2の周波数分析部32は、フーリエ変換(例えばFFT(Fast Fourier Transform))を含む周波数分析を音響信号SINに対して実行することで、音響信号SINを時間軸に沿って区分した複数のフレームの各々について周波数スペクトル(対数スペクトル)S0を算定する。各フレームは単位区間と比較して充分に短い時間長に設定される。
The
変調スペクトル特定部34は、音響信号SIN(入力音VIN)の変調スペクトルMSを特定する。変調スペクトルMSは、音響信号SINの周波数スペクトルS0のうち特定の周波数帯域に属する成分の時間的な変動(以下「時間軌跡」という)についてフーリエ変換を実行した結果に相当する。
The modulation
図3は、変調スペクトル特定部34のブロック図である。図4は、変調スペクトル特定部34による処理を説明するための概念図である。図4の部分(A)には、周波数分析部32がフレーム毎に特定した周波数スペクトルS0を時系列に配列したスペクトログラムSPが図示されている。
FIG. 3 is a block diagram of the modulation
図3に示すように、変調スペクトル特定部34は成分抽出部342と周波数分析部344とで構成される。成分抽出部342は、図4の部分(A)および部分(B)に示すように、スペクトログラムSPのうち特定の周波数帯域ωに属する成分の強度(エネルギ)の時間軌跡STを抽出する。さらに詳述すると、成分抽出部342は、各フレームの周波数スペクトルS0のうち周波数帯域ωに属する成分の強度を算定し、周波数スペクトルS0の強度を複数のフレームついて時系列に配列することで時間軌跡STを生成する。周波数帯域ωは、入力音VINが音声である場合の時間軌跡STの周波数特性(変調スペクトルMS)と入力音VINが非音声である場合の時間軌跡STの周波数特性とが顕著に相違するように実験的または統計的に選定される。例えば、周波数帯域ωは、10Hz(さらに好適には50Hz)から800Hzまでの範囲に選定される。なお、各周波数スペクトルS0におけるひとつの周波数の成分の強度の時系列を時間軌跡STとして成分抽出部342が抽出する構成も採用される。
As shown in FIG. 3, the modulation
図3の周波数分析部344は、図4の部分(B)および部分(C)に示すように、時間軌跡STに対してフーリエ変換を実行することで、時間軌跡STを時間軸に沿って区分した複数の単位区間TUの各々について変調スペクトルMSを算定する。単位区間TUは、複数のフレームで構成される所定の時間長(例えば1秒程度)の期間である。なお、本形態においては各単位区間TUが重複しない構成を便宜的に例示するが、相前後する各単位区間TUが部分的に重複する構成も採用される。
As shown in part (B) and part (C) of FIG. 4, the
図5は、複数種の音響(有声音/無声音/非音声)の変調スペクトルMSを示す。図5の部分(A)は有声音(「あいうえお」と発声した音声)の変調スペクトルMSである。図5の部分(B)は、無声音が豊富な音響の変調スペクトルMSである。さらに詳述すると、図5の部分(B)は、特に「さ」および「し」が殆ど無声化されるように「さしすせそ」と発声した場合の音声の変調スペクトルMSである。また、図5の部分(C)および部分(D)は非音声の変調スペクトルMSである。さらに詳述すると、図5の部分(C)はホワイトノイズ(暗騒音)の変調スペクトルMSであり、図5の部分(D)は電話機のプッシュトーン(環境音)の変調スペクトルMSである。 FIG. 5 shows modulation spectra MS of plural kinds of sounds (voiced / unvoiced / non-voice). Part (A) of FIG. 5 is a modulation spectrum MS of voiced sound (speech uttered as “Aiueo”). Part (B) of FIG. 5 is a modulation spectrum MS of sound rich in unvoiced sound. More specifically, part (B) of FIG. 5 is a modulation spectrum MS of a voice when “sashisoseso” is uttered so that “sa” and “shi” are almost silent. Further, part (C) and part (D) of FIG. 5 are non-voice modulation spectrum MS. More specifically, part (C) of FIG. 5 is a modulation spectrum MS of white noise (background noise), and part (D) of FIG. 5 is a modulation spectrum MS of a push tone (environmental sound) of the telephone.
人間の通常の発話音(すなわち音声)の変調スペクトルMSにおいては、図4の部分(C)に示すように、発話中に音節が切替わる周波数に相当する4Hz程度の変調周波数にて強度が極大となる場合が多い。さらに詳述すると、音声(有声音および無声音)の変調スペクトルMS(図5の部分(A)および部分(B))においては、変調周波数が10Hzを下回る範囲内で強度が高いという傾向がある。一方、多くの非音声の変調スペクトルMS(図5の部分(C)および部分(D))においては、変調周波数が10Hzを上回る範囲の成分の強度が高いという傾向がある。 In the modulation spectrum MS of a normal human speech sound (that is, speech), as shown in part (C) of FIG. 4, the intensity is maximum at a modulation frequency of about 4 Hz corresponding to the frequency at which the syllable is switched during speech. In many cases. More specifically, in the modulation spectrum MS of voice (voiced sound and unvoiced sound) (part (A) and part (B) in FIG. 5), the intensity tends to be high within a range where the modulation frequency is below 10 Hz. On the other hand, in many non-speech modulation spectra MS (part (C) and part (D) in FIG. 5), the intensity of components in the range where the modulation frequency exceeds 10 Hz tends to be high.
以上の特性の相違を考慮して、本形態においては、変調スペクトル特定部34が特定した変調スペクトルMSのうち変調周波数が所定の範囲(以下「判定対象範囲」という)Aに属する成分の強度を入力音VINの種類の判定に利用する。判定対象範囲Aは、変調スペクトルMSの強度の相違が音声と非音声とで顕著となる範囲に設定される。例えば10Hz以下の範囲(さらに好適には2Hzから8Hzの範囲)が判定対象範囲Aとして適切である。
In consideration of the above difference in characteristics, in the present embodiment, the intensity of a component whose modulation frequency belongs to a predetermined range (hereinafter referred to as “determination target range”) A in the modulation spectrum MS specified by the modulation
図2の指標算定部42は、変調スペクトル特定部34が各単位区間TUについて特定した変調スペクトルMSについて、判定対象範囲Aに属する成分の強度(エネルギ)に応じた指標値D1を算定する。さらに詳述すると、指標算定部42は、第1に、変調スペクトルMSのうち変調周波数が判定対象範囲Aに属する成分の強度(例えば判定対象範囲A内の各変調周波数における強度の加算値や平均値)L1と、変調周波数の全範囲にわたる変調スペクトルMSの強度(総ての変調周波数における強度の加算値や平均値)L2とを算定する。第2に、指標算定部42は、強度L1と強度L2との相対比(L1/L2)を含む以下の演算式(A)に基づいて指標値D1を算定する。
D1=1−(L1/L2) ……(A)
演算式(A)の内容から理解されるように、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1が高いほど(すなわち入力音VINが音声である可能性が高いほど)、指標値D1は小さい数値となる。したがって、指標値D1は、入力音VINが音声および非音声の何れであるかを判断するための指標となる。また、判定対象範囲Aは発話時に音節が切替わる周波数の成分を豊富に含むから、指標値D1は、音声に特有なリズム(発話のリズム)が入力音VINに含まれるか否かを判断するための指標としても把握される。
2 calculates an index value D1 corresponding to the intensity (energy) of a component belonging to the determination target range A for the modulation spectrum MS specified by the modulation
D1 = 1- (L1 / L2) (A)
As understood from the content of the arithmetic expression (A), the index value increases as the intensity L1 of the component within the determination target range A in the modulation spectrum MS increases (that is, the possibility that the input sound VIN is a voice). D1 is a small numerical value. Therefore, the index value D1 is an index for determining whether the input sound VIN is voice or non-voice. Further, since the determination target range A includes abundant frequency components at which syllables are switched during utterance, the index value D1 determines whether or not the input sound VIN includes a rhythm peculiar to speech (speech rhythm). It is also grasped as an index for
図2の指標算定部44は、入力音VIN(音響信号SIN)の零交差数に応じた指標値D2を単位区間TU毎に算定する。零交差数(ゼロクロス数)は、音響信号SINの強度の符号が反転する回数(音響信号SINの強度がゼロを跨いで変化する回数)である。指標算定部44は、例えば、単位区間TU内の零交差数の合計値や単位区間TU内の所定の時間毎の零交差数の平均値を指標値D2として算定する。したがって、音響信号SINの零交差数が多いほど指標値D2は大きい数値となる。
2 calculates an index value D2 corresponding to the number of zero crossings of the input sound VIN (acoustic signal SIN) for each unit interval TU. The number of zero crossings (the number of zero crossings) is the number of times the sign of the intensity of the acoustic signal SIN is inverted (the number of times the intensity of the acoustic signal SIN changes across zero). The
図2の指標算定部46は、周波数分析部32が特定した周波数スペクトルS0の形状の平坦性に応じた指標値D3を単位区間TU毎に算定する。例えば、指標算定部46は、第1に、単位区間TU内の複数のフレームにわたる平均的な周波数スペクトルS0を複数の周波数帯域に分割し、各周波数帯域内の成分の強度(エネルギの平均値)を算定する。第2に、指標算定部46は、複数の周波数帯域の強度のうちの最大値Emaxと最小値Eminとの相対比を指標値D3(D3=Emax/Emin)として単位区間TU毎に算定する。したがって、周波数スペクトルS0の平坦性が高い(すなわち強度の最大値Emaxと最小値Eminとの相違が小さい)ほど指標値D3は小さい数値となる。なお、各フレームの周波数スペクトルS0における最大値Emaxと最小値Eminとの相対比を単位区間TU内の複数のフレームについて平均することで指標値D3を算定してもよい。
The
図2の判定部50は、指標値D1と指標値D2と指標値D3とに基づいて入力音VINの種類(有声音/無声音/非音声)を判定する。本形態の判定部50は、音声判定部52と無声音判定部54とで構成される。音声判定部52は、各単位区間TUの入力音VINが有声(特に有声音)であるか否かを指標値D1に基づいて判定する。図6は、音声判定部52の具体的な動作を示すフローチャートである。図6の処理は、ひとつの単位区間TUについて指標値D1が算定されるたびに実行される。
The
音声判定部52は、指標値D1が閾値T1Aを下回るか否かを判定する(ステップSA1)。閾値T1Aは、有声音の指標値D1が閾値T1Aを下回るとともに非音声の指標値D1が閾値T1Aを上回るように実験的または統計的に設定される。ステップSA1の結果が否定である場合、音声判定部52は、今回の処理の対象である単位区間TUの入力音VINは有声音でないと判定する(ステップSA2)。一方、ステップSA1の結果が肯定である場合、音声判定部52は、今回の単位区間TUの入力音VINが有声音であると判定する(ステップSA3)。ステップSA3において、音声判定部52は、有声音を指定する識別データdを生成して音処理部60に出力する。
The
ところで、図5に示すように、有声音(部分(A))と無声音(部分(B))とでは変調スペクトルMSの特性が相違する。さらに詳述すると、無声音の変調スペクトルMSは、有声音の変調スペクトルMSと比較して高域側の変調周波数にて強度が極大となる傾向がある。すなわち、無声音については変調スペクトルMSのうち判定対象範囲A内の成分の強度L1が有声音と比較して低いから、無声音の変調スペクトルMSから算定される指標値D1は、有声音の指標値D1と比較して大きい数値となる場合が多い。したがって、図6のステップSA1における指標値D1と閾値T1Aとの比較だけでは、無声音が音声に分類されない。そこで、無声音判定部54は、各単位区間TUの入力音VINが無声音であるか否かを判定する。
Incidentally, as shown in FIG. 5, the characteristics of the modulation spectrum MS are different between voiced sound (part (A)) and unvoiced sound (part (B)). More specifically, the modulation spectrum MS of the unvoiced sound tends to have a maximum intensity at the modulation frequency on the high frequency side as compared with the modulation spectrum MS of the voiced sound. That is, for the unvoiced sound, since the intensity L1 of the component within the determination target range A of the modulation spectrum MS is lower than that of the voiced sound, the index value D1 calculated from the modulation spectrum MS of the unvoiced sound is the index value D1 of the voiced sound. In many cases, it becomes a large numerical value. Therefore, the unvoiced sound is not classified into speech only by comparing the index value D1 and the threshold value T1A in step SA1 in FIG. Therefore, the unvoiced
図7は、音響信号SINの時間波形を示す。図8は、音響信号SINの周波数スペクトルS0を示す。図7および図8の各々における部分(A)は、図5の部分(A)に変調スペクトルMSを図示した有声音の特性である。同様に、図7および図8の各々における部分(B)は無声音(図5の部分(B))の特性である。また、図7および図8の各々における部分(C)は、図5の部分(C)に変調スペクトルMSを図示したホワイトノイズの特性であり、図7および図8の各々における部分(D)は、図5の部分(D)に変調スペクトルMSを例示したプッシュトーンの特性である。 FIG. 7 shows a time waveform of the acoustic signal SIN. FIG. 8 shows the frequency spectrum S0 of the acoustic signal SIN. The part (A) in each of FIGS. 7 and 8 is a characteristic of voiced sound in which the modulation spectrum MS is illustrated in the part (A) of FIG. Similarly, part (B) in each of FIGS. 7 and 8 is a characteristic of unvoiced sound (part (B) in FIG. 5). Further, the part (C) in each of FIGS. 7 and 8 is a characteristic of white noise in which the modulation spectrum MS is illustrated in the part (C) of FIG. 5, and the part (D) in each of FIGS. FIG. 5D shows the characteristics of a push tone whose modulation spectrum MS is illustrated in part (D) of FIG.
図7の部分(A)ないし部分(D)の対比から理解されるように、無声音(部分(B))および非音声(部分(C)および部分(D))は、有声音(部分(A))と比較して単位時間内の零交差数が多い。したがって、無声音または非音声(ホワイトノイズやプッシュトーン)の単位区間TUについて算定される指標値D2は、有声音の単位区間TUの指標値D2と比較して大きい数値となる。 As can be understood from the comparison of part (A) to part (D) in FIG. 7, unvoiced sound (part (B)) and non-speech (part (C) and part (D)) Compared with)), the number of zero crossings per unit time is larger. Therefore, the index value D2 calculated for the unit interval TU of unvoiced sound or non-speech (white noise or push tone) is larger than the index value D2 of the unit interval TU of voiced sound.
また、図8の部分(A)ないし部分(D)の対比から理解されるように、部分(B)の無声音および部分(C)のホワイトノイズは、部分(A)の有声音や部分(D)のプッシュトーンと比較すると、周波数スペクトルS0の形状が平坦である(すなわち強度の相違が少ない)。したがって、無声音またはホワイトノイズの単位区間TUについて算定される指標値D3は、有声音やプッシュトーンの単位区間TUの指標値D3と比較して小さい数値となる。 Further, as understood from the comparison of the parts (A) to (D) in FIG. 8, the unvoiced sound of the part (B) and the white noise of the part (C) are the voiced sound and the part (D ), The shape of the frequency spectrum S0 is flat (that is, there is little difference in intensity). Therefore, the index value D3 calculated for the unvoiced sound or white noise unit interval TU is smaller than the index value D3 of the voiced sound or push tone unit interval TU.
さらに、図5の部分(A)ないし部分(D)の対比から理解されるように、部分(A)の有声音および部分(B)の無声音(すなわち音声)は、部分(C)のホワイトノイズや部分(D)のプッシュトーン(すなわち非音声)と比較すると、変調スペクトルMSのうち判定対象範囲A内の強度が高い。したがって、無声音または有声音の単位区間TUについて算定される指標値D1は、非音声の単位区間TUの指標値D1と比較して小さい数値となる。
Further, as can be understood from the comparison of the parts (A) to (D) in FIG. 5, the voiced sound of the part (A) and the unvoiced sound (ie, the voice) of the part (B) are the white noise of the part (C). Compared with the push tone (that is, non-speech) of the portion (D), the intensity within the determination target range A is high in the modulation spectrum MS. Therefore, the index value D1 calculated for the unvoiced or voiced unit interval TU is smaller than the index value D1 of the non-speech unit interval TU.
各指標値D(D1〜D3)と入力音VINの種類とが以上の関係にあることを考慮し、無声音判定部54は、各単位区間TUの入力音VINが無声音であるか否かを指標値D1ないし指標値D3に基づいて判定する。図9は、無声音判定部54の具体的な動作を示すフローチャートである。図9の処理は、指標値D1ないし指標値D3がひとつの単位区間TUについて算定されるたびに実行される。
In consideration of the relationship between each index value D (D1 to D3) and the type of input sound VIN, the unvoiced
無声音判定部54は、指標算定部44の算定した指標値D2が閾値T2を上回るか否かを判定する(ステップSB1)。閾値T2は、無声音および非音声の指標値D2が閾値T2を上回るとともに有声音の指標値D2が閾値T2を下回るように実験的または統計的に選定される。ステップSB1の結果が否定である場合、無声音判定部54は、今回の単位区間TUの入力音VINを無声音でないと判定する(ステップSB2)。
The unvoiced
ステップSB1の結果が肯定である場合、無声音判定部54は、指標算定部46の算定した指標値D3が閾値T3を下回るか否かを判定する(ステップSB3)。閾値T3は、無声音および暗騒音(ホワイトノイズ)の指標値D3が閾値T3を下回るとともに有声音および環境音(プッシュトーン)の指標値D3が閾値T3を上回るように実験的または統計的に選定される。ステップSB3の結果が否定である場合、無声音判定部54は、今回の単位区間TUの入力音VINは無声音でないと判定する(ステップSB2)。
If the result of step SB1 is affirmative, the unvoiced
ステップSB3の結果が肯定である場合、無声音判定部54は、指標算定部42の算定した指標値D1が閾値T1Bを下回るか否かを判定する(ステップSB4)。閾値T1Bは、無声音および有声音の指標値D1が閾値T1Bを下回るとともに非音声の指標値D1が閾値T1Bを上回るように実験的または統計的に選定される。図5を参照して前述したように、無声音の変調スペクトルMSのうち強度が最大となる変調周波数は有声音の変調スペクトルMSと比較して高域側にある。したがって、無声音および有声音の双方の指標値D1を上回るように設定された閾値T1Bは、音声判定部52が有声音の判別に使用した閾値T1Aと比較して大きい数値となる。
If the result of step SB3 is affirmative, the unvoiced
ステップSB4の結果が肯定である場合、無声音判定部54は、今回の単位区間TUの入力音VINを無声音と判別する(ステップSB5)。ステップSB5において、無声音判定部54は、無声音を指定する識別データdを生成して音処理部60に出力する。一方、ステップSB4の結果が否定である場合、無声音判定部54は、今回の単位区間TUの入力音VINは無声音でないと判定する(ステップSB2)。音声判定部52が有声音でないと判定し(ステップSA2)、かつ、無声音判定部54が無声音でないと判定した(ステップSB2)単位区間TUは非音声に分類される。すなわち、非音声を指定する識別データdが判定部50から音処理部60に出力される。
If the result of step SB4 is affirmative, the unvoiced
図2の音処理部60は、判定部50(音声判定部52および無声音判定部54)が単位区間TUについて判定した結果に応じた処理を当該単位区間TUの音響信号SINに対して実行することで出力信号SOUTを生成する。音処理部60の具体的な処理について以下に詳述する。
The
第1に、音処理部60は、音声判定部52が有声音と判定した単位区間TUの音響信号SINと無声音判定部54が無声音と判定した単位区間TUの音響信号SINとに対して別個の処理を実行する。例えば、音処理部60は、無声音の単位区間TUについては音響信号SINの高域の成分をローパスフィルタ処理で抑制する一方、有声音の単位区間TUについてはフィルタ処理を実行しない。
First, the
第2に、音処理部60は、音声(有声音または無声音)の単位区間TUの音響信号SINと非音声の単位区間TUの音響信号SINとに対して別個の処理を実行する。例えば、音処理部60は、音声判定部52が有声音と判定した単位区間TUと無声音判定部54が無声音と判定した単位区間TUとについては音響信号SINを出力信号SOUTとして出力する一方、非音声と判定された単位区間TUについては音量をゼロに設定した出力信号SOUTを出力する(すなわち音響信号SINを出力しない)。したがって、空間R1および空間R2の各々においては、他方の空間R内の入力音VINのうちの非音声が除去され、利用者が本来的に受聴する必要のある音声のみが音処理装置16を介して放音機器18から放射される。さらに、無声音については高域の成分が抑圧されているから、利用者にとって受聴し易い音声が放音機器18から放射される。
Secondly, the
音声判定部52が有声音と判定した単位区間TUのみを出力信号SOUTとして出力される構成においては、無声音が非音声として処理されるから、出力信号SOUTに応じて放射される音響は無声音の単位区間TUで途切れる。本形態においては、音声判定部52が有声音の単位区間TUを判別するだけでなく、無声音判定部54が指標値D1ないし指標値D3に基づいて無声音の単位区間TUを判別するから、入力音VINの有声音および無声音の双方について出力信号SOUTとして放音することが可能である。したがって、出力信号SOUTから放射される音響のうち入力音VINの無声音に対応する区間の中断が防止されるという利点がある。
In the configuration in which only the unit interval TU determined by the
また、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1(発話のリズムの有無)に基づいて音声(有声音および無声音)と非音声とが区別されるから、入力音VINの周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声と非音声とを判別することが可能である。なお、非音声の音量が大きい場合、変調スペクトルMSの強度は変調周波数の全帯域にわたって高い。したがって、変調スペクトルMSの判定対象範囲A内の強度L1のみに基づいて音声と非音声とを区別する構成においては、音量の大きい非音声が音声と誤判定される可能性がある。本形態においては、判定対象範囲A内の強度L1と変調周波数の全範囲にわたる強度L2との相対比が判定部50による判定に使用されるから、非音声の音量が大きい場合であっても音声と非音声とを正確に判定できるという利点がある。
Further, since the voice (voiced sound and unvoiced sound) and non-voice are distinguished from each other based on the intensity L1 of the component within the determination target range A of the modulation spectrum MS (whether or not there is an utterance rhythm), the frequency spectrum of the input sound VIN It is possible to discriminate between speech and non-speech with high accuracy compared to the technique of Patent Document 1 using When the volume of non-voice is high, the intensity of the modulation spectrum MS is high over the entire band of the modulation frequency. Therefore, in a configuration in which speech and non-speech are distinguished based only on the intensity L1 within the determination target range A of the modulation spectrum MS, non-speech with a high volume may be erroneously determined as speech. In this embodiment, since the relative ratio between the intensity L1 within the determination target range A and the intensity L2 over the entire range of the modulation frequency is used for the determination by the
<変形例>
以上の形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
<Modification>
Various modifications are added to the above embodiment. An example of a specific modification is as follows. Two or more aspects may be arbitrarily selected from the following examples and combined.
(1)変形例1
以上の形態においては変調スペクトルMSに応じた指標値D1と零交差数に応じた指標値D2と周波数スペクトルS0の平坦性に応じた指標値D3とを入力音VINの判別に利用したが、指標値D2および指標値D3の一方と指標値D1とに基づいて入力音VINを判別する構成も採用される。例えば、指標値D1と指標値D2とを利用する態様においては、図2の指標算定部46や図9のステップSB3が省略される。また、指標値D1と指標値D3とを利用する態様においては、図2の指標算定部44や図9のステップSB1が省略される。ただし、図2の構成のように3種類の指標値(D1〜D3)を利用する構成によれば、2種類の指標値Dのみを利用する構成と比較して入力音VINを高精度に判別できるという利点がある。
(1) Modification 1
In the above embodiment, the index value D1 corresponding to the modulation spectrum MS, the index value D2 corresponding to the number of zero crossings, and the index value D3 corresponding to the flatness of the frequency spectrum S0 are used for discrimination of the input sound VIN. A configuration is also adopted in which the input sound VIN is discriminated based on one of the value D2 and the index value D3 and the index value D1. For example, in an aspect in which the index value D1 and the index value D2 are used, the
(2)変形例2
以上の形態においては、有声音の指標値D1を上回るとともに無声音の指標値D1を下回るように閾値T1Aが設定されるから、音声判定部52は、有声音を無声音や非音声から判別する手段として機能する。しかし、有声音および無声音の双方(すなわち音声)の指標値D1を上回るように閾値T1Aを設定することで、音声(有声音および無声音)を非音声から判別する手段として音声判定部52を機能させてもよい。なお、有声音および無声音の双方の指標値D1を上回るように閾値T1Aが設定された場合であっても、無声音の単位区間TUが非音声と誤判定される可能性はあるから、無声音を音声に分類する(すなわち非音声から除外する)ために無声音判定部54は好適に利用される。
(2) Modification 2
In the above embodiment, since the threshold value T1A is set so as to exceed the voiced sound index value D1 and lower than the unvoiced sound index value D1, the
(3)変形例3
以上の形態においては、入力音VINの総ての単位区間TUについて無声音判定部54が図9の処理(無声音の判別)を実行したが、音声判定部52が音声(有声音)でないと判定した単位区間TUについてのみ図9の処理を実行してもよい。本変形例においては、音声判定部52が音声と判定した単位区間TUについて無声音判定部54の処理が省略されるから、判定部50(無声音判定部54)による処理の負荷が削減されるという利点がある。
(3) Modification 3
In the above embodiment, the unvoiced
(4)変形例4
各指標値D(D1,D2,D3)の定義は適宜に変更される。したがって、各指標値D(D1,D2,D3)の大小と入力音VINの種類との関係は任意である。例えば、以上の形態においては、変調スペクトルMSにおける判定対象範囲A内の強度L1が高いほど指標値D1が減少するように指標値D1を定義した構成(すなわち指標値D1が小さいほど入力音VINが音声と判定される可能性が上昇する構成)を例示したが、判定対象範囲A内の強度L1が高いほど指標値D1が増加するように指標値D1を定義した構成(すなわち指標値D1が大きいほど入力音VINが音声と判定される可能性が上昇する構成)も採用される。強度L1が高いほど指標値D1が増加する構成において、音声判定部52は、指標値D1が閾値T1Aを上回る単位区間TUの入力音VINを有声音と判定し(ステップSA1およびステップSA2)、無声音判定部54は、指標値D1が閾値T1Bを上回る単位区間TUの入力音VINを無声音と判定する(ステップSB4およびステップSB5)。閾値T1Aは、閾値T1Bと比較して小さい数値に設定される。
(4)
The definition of each index value D (D1, D2, D3) is changed as appropriate. Therefore, the relationship between the magnitude of each index value D (D1, D2, D3) and the type of the input sound VIN is arbitrary. For example, in the above embodiment, the index value D1 is defined such that the index value D1 decreases as the intensity L1 in the determination target range A in the modulation spectrum MS increases (that is, the input sound VIN decreases as the index value D1 decreases). A configuration in which the possibility of being determined to be speech is exemplified), but a configuration in which the index value D1 is defined such that the index value D1 increases as the intensity L1 in the determination target range A increases (that is, the index value D1 is large). A configuration in which the possibility that the input sound VIN is determined to be a voice is increased. In the configuration in which the index value D1 increases as the intensity L1 increases, the
また、音響信号SINの零交差数が多いほど指標値D2が減少するように指標値D2を定義した構成(例えば零交差数の逆数を指標値D2とした構成)や、周波数スペクトルS0の平坦性が高いほど指標値D3が増加するように指標値D3を定義した構成も好適である。また、周波数スペクトルS0の分散を指標値D3として算定してもよい。すなわち、指標算定部46は、周波数スペクトルS0を区分した各周波数帯域の強度(エネルギ)と全帯域にわたる強度の平均値との差分値の自乗を総ての周波数帯域にわたって平均した数値を指標値D3として算定する。以上の方法で算定された指標値D3は、周波数スペクトルS0の平坦性が高いほど小さい数値となる。
Further, a configuration in which the index value D2 is defined so that the index value D2 decreases as the number of zero crossings of the acoustic signal SIN increases (for example, a configuration in which the reciprocal of the number of zero crossings is the index value D2), or the flatness of the frequency spectrum S0. A configuration in which the index value D3 is defined so that the index value D3 increases as the value of R is higher is also suitable. Alternatively, the variance of the frequency spectrum S0 may be calculated as the index value D3. That is, the
(5)変形例5
以上の形態においては周波数スペクトルS0において周波数帯域ωに属する成分の時間軌跡STに対してフーリエ変換を実行することで変調スペクトルMSを特定したが、音響信号SIN(入力音VIN)のケプストラムの時間軌跡に対してフーリエ変換を実行することで変調スペクトルMSを特定する構成も採用される。さらに詳述すると、変調スペクトル特定部34の成分抽出部342は、音響信号SINの各フレームのケプストラムのうちケフレンシが特定の範囲内にある成分の時間軌跡STを抽出し、周波数分析部344は、ケプストラムの時間軌跡STに対して単位区間TU毎にフーリエ変換を実行することで各単位区間TUの変調スペクトルMSを算定する。
(5) Modification 5
In the above embodiment, the modulation spectrum MS is specified by performing Fourier transform on the time trajectory ST of the component belonging to the frequency band ω in the frequency spectrum S0, but the time trajectory of the cepstrum of the acoustic signal SIN (input sound VIN). A configuration is also adopted in which the modulation spectrum MS is specified by performing a Fourier transform on. More specifically, the
(6)変形例6
以上の形態においては、音声判定部52による判定に指標値D1を利用したが、入力音VINが音声(有声音)か否かを判定する方法には公知の技術が任意に採用される。例えば、音声判定部52が音響信号SINのピッチ(基本周波数)の検出を実行し、明確なピッチが検出された単位区間TUを音声と判定するとともにピッチが検出されない単位区間TUを非音声と判定する構成も好適である。もっとも、図2の構成においては、無声音判定部54で使用される指標値D1が音声判定部52でも使用されるから、指標値D1とは別個の指標値(例えばピッチ)が音声判定部52による判定に使用される構成と比較して指標値の算定の負荷が軽減されるという利点がある。なお、例えば入力音VINから無声音の単位区間TUのみを検出する音処理装置14においては音声判定部52が省略される。
(6) Modification 6
In the above embodiment, the index value D1 is used for the determination by the
(7)変形例7
以上の形態においては、入力音VINを収音した空間R内の音処理装置14にて識別データdおよび出力信号SOUTを生成したが、識別データdを生成する位置(入力音VINを分類する位置)や出力信号SOUTを生成する位置は適宜に変更される。例えば、収音機器12が生成した音響信号SINと判定部50の生成した識別データdとを音処理装置14が出力する構成においては、音響信号SINと識別データdとから出力信号SOUTを生成する音処理部60が受信側の音処理装置16に設置される。また、収音機器12が生成した音響信号SINを音処理装置14が送信する構成においては、受信側の音処理装置16に図2と同様の要素が設置される。もっとも、遠隔会議システム100は本発明の用途の例示に過ぎない。したがって、出力信号SOUTや音響信号SINの送受信は本発明において必須ではない。
(7) Modification 7
In the above embodiment, the identification data d and the output signal SOUT are generated by the
(8)変形例8
以上の形態においては、非音声と判定された単位区間TUの音響信号SINを音処理部60が出力しない(出力信号SOUTの音量をゼロに設定する)構成を例示したが、音処理部60による処理の内容は適宜に変更される。例えば、非音声と判定された単位区間TUについて音響信号SINの音量を低下させた信号を音処理部60が出力信号SOUTとして出力する構成も好適である。また、音声(有声音または無声音)の単位区間TUと非音声の単位区間TUとについて音響信号SINに別個の音響的な効果を付与することで出力信号SOUTを生成する構成や、有声音の単位区間TUと無声音の単位区間TUとについて音響信号SINに別個の音響的な効果を付与する構成も採用される。さらに、出力信号SOUTの出力先(音処理装置16)において話者認識(話者識別または話者認証)や音声認識が実行される構成において、音処理部60は、例えば、有声音または無声音と判定された単位区間TUについては、音声認識や話者認識に使用される特徴量を音響信号SINから抽出して出力信号SOUTとして出力する一方、非音声と判定された単位区間TUについては特徴量の抽出を停止する。
(8) Modification 8
In the above embodiment, the configuration in which the
100……遠隔会議システム、12……収音機器、14……音処理装置、16……音処理装置、18……放音機器、22……制御装置、24……記憶装置、32……周波数分析部、34……変調スペクトル特定部、42……指標算定部、44……指標算定部、46……指標算定部、50……判定部、52……音声判定部、54……無声音判定部、60……音処理部、VIN……入力音、SIN……音響信号、SOUT……出力信号、d……識別データ、MS……変調スペクトル、D1,D2,D3……指標値、TU……単位区間。
100 …… Remote conference system, 12 …… Sound collecting device, 14 …… Sound processing device, 16 …… Sound processing device, 18 …… Sound emitting device, 22 …… Control device, 24 …… Storage device, 32 ……
Claims (8)
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段と、
前記入力音の零交差数に応じた第2指標値を前記各単位区間について算定する第2指標算定手段と、
前記各単位区間の入力音が音声であるか否かを前記第1指標値と第1閾値との大小に基づいて判定する音声判定手段と、
前記各単位区間の入力音が無声音であるか否かを、前記第1閾値とは相違する第2閾値と前記第1指標値との大小と、前記第2指標値とに基づいて判定する無声音判定手段と
を具備する音処理装置。 Modulation spectrum specifying means for specifying the modulation spectrum for each unit section of the input sound;
First index calculating means for calculating a first index value according to the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum;
Second index calculation means for calculating a second index value corresponding to the number of zero crossings of the input sound for each unit section;
Voice determining means for determining whether or not the input sound of each unit section is voice based on the magnitude of the first index value and the first threshold;
An unvoiced sound that determines whether or not the input sound of each unit section is an unvoiced sound based on the magnitude of a second threshold value different from the first threshold value and the first index value and the second index value A sound processing apparatus comprising: a determination unit;
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段と、
前記入力音の周波数スペクトルの平坦性に応じた第3指標値を前記各単位区間について算定する第3指標算定手段と、
前記各単位区間の入力音が音声であるか否かを前記第1指標値と第1閾値との大小に基づいて判定する音声判定手段と、
前記各単位区間の入力音が無声音であるか否かを、前記第1閾値とは相違する第2閾値と前記第1指標値との大小と、前記第3指標値とに基づいて判定する無声音判定手段と
を具備する音処理装置。 Modulation spectrum specifying means for specifying the modulation spectrum for each unit section of the input sound;
First index calculating means for calculating a first index value according to the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum;
Third index calculating means for calculating a third index value corresponding to the flatness of the frequency spectrum of the input sound for each unit section;
Voice determining means for determining whether or not the input sound of each unit section is voice based on the magnitude of the first index value and the first threshold;
An unvoiced sound that determines whether or not the input sound of each unit section is an unvoiced sound based on the magnitude of a second threshold value different from the first threshold value and the first index value and the third index value A sound processing apparatus comprising: a determination unit;
前記音声判定手段は、前記第1指標値が第1閾値を下回る単位区間の入力音を音声と判定し、
前記無声音判定手段は、前記第1閾値よりも大きい第2閾値を前記第1指標値が下回る単位区間の入力音を無声音と判定する
請求項1または請求項2の音処理装置。 The first index calculation means calculates the first index value so that the first index value decreases as the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum is higher,
The voice determination unit determines that the input sound of the unit section in which the first index value is lower than the first threshold is a voice,
The unvoiced sound determination means determines that an input sound of a unit section in which the first index value falls below a second threshold value that is greater than the first threshold value is an unvoiced sound.
The sound processing apparatus according to claim 1 or 2 .
前記音声判定手段は、前記第1指標値が第1閾値を上回る単位区間の入力音を音声と判定し、
前記無声音判定手段は、前記第1閾値よりも小さい第2閾値を前記第1指標値が上回る単位区間の入力音を無声音と判定する
請求項1または請求項2の音処理装置。 The first index calculation means calculates the first index value so that the first index value increases as the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum is higher,
The voice determination unit determines that the input sound of the unit section in which the first index value exceeds the first threshold is a voice,
The unvoiced sound determining means determines an input sound of a unit section in which the first index value exceeds a second threshold value smaller than the first threshold value as an unvoiced sound.
The sound processing apparatus according to claim 1 or 2 .
請求項1から請求項4の何れかの音処理装置。The sound processing apparatus according to any one of claims 1 to 4.
を具備する請求項1から請求項5の何れかの音処理装置。The sound processing apparatus according to claim 1, comprising:
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、
前記入力音の零交差数に応じた第2指標値を前記各単位区間について算定する第2指標算定処理と、
前記各単位区間の入力音が音声であるか否かを前記第1指標値と第1閾値との大小に基づいて判定する音声判定処理と、
前記各単位区間の入力音が無声音であるか否かを、前記第1閾値とは相違する第2閾値と前記第1指標値との大小と、前記第2指標値とに基づいて判定する無声音判定処理と
をコンピュータに実行させるプログラム。 A modulation spectrum specifying process for specifying a modulation spectrum for each unit section of the input sound;
A first index calculation process for calculating a first index value according to the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum;
A second index calculation process for calculating a second index value corresponding to the number of zero crossings of the input sound for each unit section;
A sound determination process for determining whether or not the input sound of each unit section is a sound based on the magnitude of the first index value and the first threshold;
An unvoiced sound that determines whether or not the input sound of each unit section is an unvoiced sound based on the magnitude of a second threshold value different from the first threshold value and the first index value and the second index value A program that causes a computer to execute judgment processing.
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、
前記入力音の周波数スペクトルの平坦性に応じた第3指標値を前記各単位区間について算定する第3指標算定処理と、
前記各単位区間の入力音が音声であるか否かを前記第1指標値と第1閾値との大小に基づいて判定する音声判定処理と、
前記各単位区間の入力音が無声音であるか否かを、前記第1閾値とは相違する第2閾値と前記第1指標値との大小と、前記第3指標値とに基づいて判定する無声音判定処理と
をコンピュータに実行させるプログラム。 A modulation spectrum specifying process for specifying a modulation spectrum for each unit section of the input sound;
A first index calculation process for calculating a first index value according to the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum;
A third index calculation process for calculating a third index value corresponding to the flatness of the frequency spectrum of the input sound for each unit section;
A sound determination process for determining whether or not the input sound of each unit section is a sound based on the magnitude of the first index value and the first threshold;
An unvoiced sound that determines whether or not the input sound of each unit section is an unvoiced sound based on the magnitude of a second threshold value different from the first threshold value and the first index value and the third index value A program that causes a computer to execute judgment processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008041520A JP5169297B2 (en) | 2008-02-22 | 2008-02-22 | Sound processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008041520A JP5169297B2 (en) | 2008-02-22 | 2008-02-22 | Sound processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009198892A JP2009198892A (en) | 2009-09-03 |
JP5169297B2 true JP5169297B2 (en) | 2013-03-27 |
Family
ID=41142421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008041520A Expired - Fee Related JP5169297B2 (en) | 2008-02-22 | 2008-02-22 | Sound processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5169297B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2564821B2 (en) * | 1987-04-20 | 1996-12-18 | 日本電気株式会社 | Voice judgment detector |
JPH04100099A (en) * | 1990-08-20 | 1992-04-02 | Nippon Telegr & Teleph Corp <Ntt> | Voice detector |
JP3394506B2 (en) * | 1993-08-17 | 2003-04-07 | 三菱電機株式会社 | Voice discrimination device and voice discrimination method |
US6711536B2 (en) * | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
-
2008
- 2008-02-22 JP JP2008041520A patent/JP5169297B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009198892A (en) | 2009-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2083417B1 (en) | Sound processing device and program | |
Zhang et al. | Analysis and classification of speech mode: whispered through shouted. | |
JP4568371B2 (en) | Computerized method and computer program for distinguishing between at least two event classes | |
US9959886B2 (en) | Spectral comb voice activity detection | |
US20100274554A1 (en) | Speech analysis system | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
JP5050698B2 (en) | Voice processing apparatus and program | |
US8219390B1 (en) | Pitch-based frequency domain voice removal | |
JP5282523B2 (en) | Basic frequency extraction method, basic frequency extraction device, and program | |
Alonso-Martin et al. | Multidomain voice activity detection during human-robot interaction | |
JP6565548B2 (en) | Acoustic analyzer | |
Bäckström et al. | Voice activity detection | |
JP5157474B2 (en) | Sound processing apparatus and program | |
JP2797861B2 (en) | Voice detection method and voice detection device | |
JP5169297B2 (en) | Sound processing apparatus and program | |
VH et al. | A study on speech recognition technology | |
JP5157475B2 (en) | Sound processing apparatus and program | |
JP2006154212A (en) | Speech evaluation method and evaluation device | |
JP2006010739A (en) | Speech recognition device | |
JP2023539121A (en) | Audio content identification | |
Ishizuka et al. | A feature for voice activity detection derived from speech analysis with the exponential autoregressive model | |
JP6565549B2 (en) | Acoustic analyzer | |
JP4349415B2 (en) | Sound signal processing apparatus and program | |
JP2011158515A (en) | Device and method for recognizing speech | |
JP5272141B2 (en) | Voice processing apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5169297 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |