JP2009175474A - Sound processing device and program - Google Patents

Sound processing device and program Download PDF

Info

Publication number
JP2009175474A
JP2009175474A JP2008014422A JP2008014422A JP2009175474A JP 2009175474 A JP2009175474 A JP 2009175474A JP 2008014422 A JP2008014422 A JP 2008014422A JP 2008014422 A JP2008014422 A JP 2008014422A JP 2009175474 A JP2009175474 A JP 2009175474A
Authority
JP
Japan
Prior art keywords
unit
sound
index value
speech
input sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008014422A
Other languages
Japanese (ja)
Other versions
JP5157475B2 (en
Inventor
Yasuo Yoshioka
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008014422A priority Critical patent/JP5157475B2/en
Priority to EP09000943.2A priority patent/EP2083417B1/en
Priority to US12/358,400 priority patent/US8473282B2/en
Publication of JP2009175474A publication Critical patent/JP2009175474A/en
Application granted granted Critical
Publication of JP5157475B2 publication Critical patent/JP5157475B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound processing device and a program capable of highly accurately determining a speech sound and a non-speech sound. <P>SOLUTION: A modulation spectrum specifying section 32 specifies a modulation spectrum MS of an input sound VIN for each of multiple units TU. An index calculation section 34 calculates an index value D1 according to an intensity degree L1 in which a modulation frequency is 10 Hz or smaller in the modulation spectrum MS. a storage device 24 stores a sound model M which is generated from a sound of a vowel. An index calculation section 54 calculates an index value D2 for indicating the similarity of the input sound VIN and the sound model M for each unit. A determination section 42 determines whether the input sound VIN of each unit TU is the speech sound or the non-speech sound based on the index value D1 and the index value D2 of the unit TU. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、人間の発声音(以下「音声」という)と音声以外の音響(以下「非音声」という)とを区別する技術に関する。   The present invention relates to a technique for discriminating between human voices (hereinafter referred to as “speech”) and sounds other than speech (hereinafter referred to as “non-speech”).

収音機器による収録音などの音響(以下「入力音」という)を音声の区間と非音声の区間とに区別する技術が従来から提案されている。例えば特許文献1には、入力音のうち所定の周波数帯域に属する成分の強度に基づいて音声の有無を判定する技術が開示されている。
特開2000−132177号公報
Conventionally, a technique for distinguishing sound such as recorded sound by a sound collecting device (hereinafter referred to as “input sound”) into a voice section and a non-voice section has been proposed. For example, Patent Document 1 discloses a technique for determining the presence or absence of sound based on the intensity of a component belonging to a predetermined frequency band in an input sound.
JP 2000-132177 A

しかし、雑音の特性(周波数)は多様であり、音声の有無の判定に利用される周波数帯域内に雑音が発生する場合もある。したがって、特許文献1の技術のもとで充分に高い精度で音声の有無を判定することは困難である。以上の事情に鑑みて、本発明は、音声/非音声を高精度に判定することをひとつの目的とする。   However, noise characteristics (frequency) vary, and noise may occur in a frequency band used for determining the presence or absence of speech. Therefore, it is difficult to determine the presence or absence of speech with sufficiently high accuracy under the technique of Patent Document 1. In view of the above circumstances, an object of the present invention is to determine voice / non-voice with high accuracy.

以上の課題を解決するために、本発明の第1の態様に係る音処理装置は、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段(例えば図10の指標算定部34)と、母音の音声から生成された音響モデルを記憶する記憶手段と、前記入力音と前記音響モデルとの類否を示す第2指標値を前記単位区間毎に算定する第2指標算定手段(例えば図10の指標算定部54)と、前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第1指標値と前記第2指標値とに基づいて判定する判定手段とを具備する。以上の態様においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度と母音の音響モデルに対する入力音の類否とに基づいて各単位区間内の入力音が音声か非音声かを判定するから、入力音の周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。   In order to solve the above problems, a sound processing apparatus according to the first aspect of the present invention includes a modulation spectrum specifying unit that specifies a modulation spectrum of an input sound for each of a plurality of unit sections, and a modulation among the modulation spectra. First index calculation means (for example, index calculation unit 34 in FIG. 10) that calculates a first index value corresponding to the intensity of a component whose frequency falls within a predetermined range, and a memory that stores an acoustic model generated from the vowel sound Means, second index calculation means (for example, the index calculation unit 54 in FIG. 10) for calculating, for each unit section, a second index value indicating similarity between the input sound and the acoustic model, Determination means for determining whether the input sound is speech or non-speech based on the first index value and the second index value of the unit section. In the above aspect, whether the input sound in each unit section is speech or non-speech based on the intensity of the component whose modulation frequency falls within a predetermined range in the modulation spectrum and the similarity of the input sound with respect to the acoustic model of the vowel. Therefore, it is possible to identify speech / non-speech with high accuracy compared to the technique of Patent Document 1 using the frequency spectrum of the input sound.

本発明の好適な態様に係る音処理装置は、第1指標値と第2指標値との加重和を第3指標値として算定する第3指標算定手段(例えば図10の指標算定部62)を具備し、判定手段は、各単位区間の入力音が音声か非音声かを当該単位区間の第3指標値に基づいて判定する。以上の態様においては、第1指標値と第2指標値との加重和を適宜に選定することで、第1指標値および第2指標値の何れを音声/非音声の判定に優先させるかを設定することが可能である。   The sound processing apparatus according to a preferred aspect of the present invention includes third index calculation means (for example, the index calculation unit 62 in FIG. 10) that calculates the weighted sum of the first index value and the second index value as the third index value. The determination means determines whether the input sound of each unit section is speech or non-speech based on the third index value of the unit section. In the above aspect, by appropriately selecting the weighted sum of the first index value and the second index value, which of the first index value and the second index value is to be prioritized over voice / non-speech determination. It is possible to set.

第3指標算定手段を具備する構成において、第3指標算定手段が第3指標値の算定に適用する加重値を入力音のSN比に応じて可変に設定する加重値設定手段をさらに設置してもよい。例えば、第1指標値が第2指標値と比較して入力音の雑音の影響を受け易いという傾向を前提とすると、加重値設定手段は、入力音のSN比が低いほど第2指標値の加重値を第1指標値の加重値に対して相対的に増加させる(すなわち第2指標値を優先させる)。以上の態様によれば、入力音の雑音に拘わらず入力音の音声/非音声を高精度に判定することが可能となる。   In the configuration including the third index calculation means, further provided is a weight value setting means for variably setting the weight value applied by the third index calculation means to the calculation of the third index value according to the SN ratio of the input sound. Also good. For example, on the assumption that the first index value is more susceptible to the noise of the input sound as compared to the second index value, the weight value setting means has a lower second index value as the SN ratio of the input sound is lower. The weight value is increased relative to the weight value of the first index value (that is, the second index value is given priority). According to the above aspect, it is possible to determine the voice / non-voice of the input sound with high accuracy regardless of the noise of the input sound.

本発明の第2の態様に係る音処理装置は、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段(例えば図2の指標算定部34)と、各単位区間の入力音が音声か非音声かを第1指標値に基づいて判定する判定手段とを具備する。以上の態様においては、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に基づいて各単位区間内の入力音が音声か非音声かを判定するから、入力音の周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。   The sound processing apparatus according to the second aspect of the present invention includes a modulation spectrum specifying unit that specifies a modulation spectrum of an input sound for each of a plurality of unit sections, and an intensity of a component whose modulation frequency is within a predetermined range of the modulation spectrum. 1st index calculation means (for example, the index calculation unit 34 in FIG. 2) that calculates a first index value according to the above, and determination to determine whether the input sound of each unit section is voice or non-speech based on the first index value Means. In the above aspect, since the input sound in each unit section is determined to be speech or non-speech based on the intensity of the component whose modulation frequency falls within a predetermined range in the modulation spectrum, the frequency spectrum of the input sound is used. Compared with the technique of Patent Document 1, it is possible to identify voice / non-voice with high accuracy.

変調スペクトルのうち第1指標値の算定に使用される範囲は、入力音が音声および非音声の一方である場合に当該範囲内の変調スペクトルの強度が高くなり、入力音が音声および非音声の他方である場合に当該範囲外の変調スペクトルの強度が高くなるように実験的または統計的に設定される。いま、入力音が音声である場合に変調スペクトルのうち変調周波数が所定の境界値(例えば10Hz)を下回る範囲内の強度が高くなり、入力音が非音声である場合に変調スペクトルのうち変調周波数が境界値を上回る範囲内の強度が高くなるという傾向に着目する。変調スペクトルのうち変調周波数が境界値を下回る成分の強度が高いほど増加するように第1指標値が定義される場合、判定手段は、例えば、第1指標値が閾値を上回る場合に入力音を音声と判定し、第1指標値が閾値を下回る場合に入力音を非音声と判定する。また、変調スペクトルのうち変調周波数が境界値を下回る成分の強度が高いほど減少するように第1指標値が定義される場合、判定手段は、例えば、第1指標値が閾値を下回る場合に入力音を音声と判定し、第1指標値が閾値を上回る場合に入力音を非音声と判定する。また、変調スペクトルのうち変調周波数が境界値を上回る成分の強度が高いほど増加するように第1指標値が定義される場合、判定手段は、例えば、第1指標値が閾値を上回る場合に入力音を非音声と判定し、第1指標値が閾値を下回る場合に入力音を音声と判定する。また、変調スペクトルのうち変調周波数が境界値を上回る成分の強度が高いほど減少するように第1指標値が定義される場合、判定手段は、第1指標値が閾値を上回る場合に入力音を音声と判定し、第1指標値が閾値を下回る場合に入力音を非音声と判定する。以上に例示した総ての態様が、第1の態様または第2の態様における「入力音が音声か非音声かを第1指標値に基づいて判定する」という処理の概念に含まれる。   The range used for calculating the first index value in the modulation spectrum is such that when the input sound is one of speech and non-speech, the intensity of the modulation spectrum within the range is high, and the input sound is speech and non-speech. In the other case, it is set experimentally or statistically so that the intensity of the modulation spectrum outside the range becomes high. Now, when the input sound is speech, the intensity within the range in which the modulation frequency falls below a predetermined boundary value (for example, 10 Hz) increases in the modulation spectrum, and when the input sound is non-speech, the modulation frequency of the modulation spectrum. Pay attention to the tendency that the intensity within the range exceeding the boundary value increases. In the case where the first index value is defined so that the intensity of the component of the modulation spectrum whose modulation frequency is lower than the boundary value is higher, the determination means, for example, the input sound when the first index value exceeds a threshold value. When the first index value falls below the threshold, the input sound is determined as non-speech. In addition, when the first index value is defined so that the intensity of the component of the modulation spectrum whose modulation frequency is lower than the boundary value is higher, the determination unit inputs, for example, when the first index value is lower than the threshold value. The sound is determined as sound, and the input sound is determined as non-speech when the first index value exceeds the threshold value. Further, when the first index value is defined so that the intensity of the component whose modulation frequency exceeds the boundary value in the modulation spectrum increases, the determination unit inputs, for example, when the first index value exceeds a threshold value. The sound is determined as non-speech, and the input sound is determined as sound when the first index value falls below the threshold. In addition, when the first index value is defined so that the intensity of the component of the modulation spectrum whose modulation frequency exceeds the boundary value is higher, the determination unit determines the input sound when the first index value exceeds the threshold value. When the first index value falls below the threshold, the input sound is determined as non-speech. All the modes exemplified above are included in the concept of the process of “determining whether the input sound is voice or non-voice based on the first index value” in the first or second aspect.

第1の態様または第2の態様に係る音処理装置において、例えば、第1指標算定手段は、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度と当該所定の範囲を包含する範囲(すなわち所定の範囲を含んで当該範囲よりも広い範囲)に属する成分の強度との相対比に基づいて第1指標値を算定する。以上の態様においては、変調スペクトルのうち所定の範囲内の成分の強度に加えて、当該範囲を包含する範囲(例えば変調周波数の全範囲)の成分の強度も第1指標値の算定に適用される。したがって、例えば変調スペクトルの広範囲にわたる強度が入力音の雑音の影響を受ける場合であっても、所定の範囲内の強度のみに基づいて第1指標値が算定される構成と比較して音声/非音声を高精度に判別することが可能である。   In the sound processing device according to the first aspect or the second aspect, for example, the first index calculation means includes the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum and a range including the predetermined range ( That is, the first index value is calculated based on the relative ratio with the intensity of the component belonging to a range that is wider than the predetermined range including the predetermined range. In the above aspect, in addition to the intensity of the component within the predetermined range in the modulation spectrum, the intensity of the component in the range including the range (for example, the entire range of the modulation frequency) is applied to the calculation of the first index value. The Therefore, for example, even when the intensity over a wide range of the modulation spectrum is affected by the noise of the input sound, compared with the configuration in which the first index value is calculated based only on the intensity within the predetermined range, It is possible to discriminate voice with high accuracy.

第1の態様または第2の態様に係る音処理装置は、例えば、変調スペクトルの強度の最大値を特定する強度特定手段を具備し、判定手段は、第1指標値と強度の最大値とに基づいて入力音が音声か非音声かを判定する。例えば、非音声の変調スペクトルの強度の最大値が音声の変調スペクトルの強度の最大値と比較して低いという傾向を前提とすると、判定手段は、変調スペクトルの強度の最大値が高いほど当該単位区間の入力音を音声と判定する可能性が高くなる(強度の最大値が低いほど入力音を非音声と判定する可能性が高くなる)ように音声/非音声を判定する。さらに具体的には、判定手段は、第1指標値からは音声と判定できる場合であっても、変調スペクトルの強度の最大値が閾値を下回る場合には入力音を非音声と判定する。以上の態様においては、第1指標値に加えて変調スペクトルの強度の最大値も音声/非音声の判定に利用されるから、非音声の変調スペクトルのうち強度が高い変調周波数の範囲と音声の変調スペクトルのうち強度が高い変調周波数の範囲とが近似する場合であっても、音声と非音声とを高精度に区別することが可能である。   The sound processing apparatus according to the first aspect or the second aspect includes, for example, an intensity specifying unit that specifies the maximum value of the intensity of the modulation spectrum, and the determination unit uses the first index value and the maximum value of the intensity. Based on this, it is determined whether the input sound is voice or non-voice. For example, assuming that the maximum value of the intensity of the modulation spectrum of non-speech is lower than the maximum value of the intensity of the modulation spectrum of sound, the determination means determines that the unit increases as the maximum value of the modulation spectrum intensity increases. The voice / non-speech is determined such that the input sound in the section is likely to be determined as speech (the possibility that the input sound is determined as non-speech increases as the maximum intensity value decreases). More specifically, the determination unit determines that the input sound is non-speech when the maximum value of the intensity of the modulation spectrum is lower than the threshold even if it can be determined as sound from the first index value. In the above aspect, since the maximum value of the intensity of the modulation spectrum is also used for voice / non-voice determination in addition to the first index value, the range of the modulation frequency having high intensity in the non-voice modulation spectrum and the voice Even in the case where the modulation frequency range of the modulation spectrum approximates high, it is possible to distinguish between speech and non-speech with high accuracy.

第1の態様または第2の態様に係る音処理装置において、例えば、変調スペクトル特定手段は、入力音の対数スペクトルまたはケプストラムにおける特定の成分の時間軌跡を特定する成分抽出手段と、単位区間を区分した複数の分割区間の各々について時間軌跡をフーリエ変換する周波数分析手段と、単位区間の複数の分割区間の各々についてのフーリエ変換の結果を平均することで当該単位区間の変調スペクトルを特定する平均手段とを具備する。以上の態様においては、単位区間を区分した複数の分割区間の各々について対数スペクトルまたはケプストラムの時間軌跡のフーリエ変換が実行されるから、単位区間の全体にわたる時間軌跡に対してフーリエ変換を一括的に実行する場合と比較して、フーリエ変換の点数が削減される。したがって、変調スペクトル特定手段による処理の負荷や処理に必要な記憶容量が削減されるという利点がある。   In the sound processing apparatus according to the first aspect or the second aspect, for example, the modulation spectrum specifying unit separates the unit interval from the component extraction unit that specifies the logarithmic spectrum of the input sound or the time locus of the specific component in the cepstrum. Frequency analysis means for Fourier transforming the time trajectory for each of the plurality of divided sections, and averaging means for specifying the modulation spectrum of the unit section by averaging the results of the Fourier transform for each of the plurality of divided sections of the unit section It comprises. In the above aspect, the Fourier transform of the logarithmic spectrum or the cepstrum time trajectory is executed for each of the plurality of divided sections into which the unit sections are divided. Compared with the execution, the number of points of the Fourier transform is reduced. Therefore, there is an advantage that the processing load by the modulation spectrum specifying means and the storage capacity necessary for the processing are reduced.

本発明の第3の態様に係る音処理装置は、母音の音声から生成された音響モデルを記憶する記憶手段と、入力音と音響モデルとの類否を示す第2指標値を単位区間毎に算定する第2指標算定手段(例えば図9の指標算定部54)と、各単位区間の入力音が音声か非音声かを当該単位区間の第2指標値に基づいて判定する判定手段とを具備する。以上の態様においては、母音の音声の音響モデルと入力音との類否に基づいて各単位区間内の入力音が音声か非音声かが判定されるから、入力音の周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。   The sound processing apparatus according to the third aspect of the present invention includes a storage unit that stores an acoustic model generated from a vowel sound, and a second index value indicating similarity between the input sound and the acoustic model for each unit section. Second index calculation means for calculating (for example, the index calculation unit 54 in FIG. 9) and determination means for determining whether the input sound of each unit section is speech or non-speech based on the second index value of the unit section To do. In the above aspect, since it is determined whether the input sound in each unit section is speech or non-speech based on the similarity between the acoustic model of the vowel speech and the input sound, a patent that uses the frequency spectrum of the input sound Compared with the technique of Document 1, it is possible to identify speech / non-speech with high accuracy.

第1の態様および第3の態様において、音声と音響モデルとの類似度が非音声と音響モデルとの類似度と比較して高いという傾向を前提とすると、判定手段は、第2指標値が閾値に対して類似側にある場合には入力音を音声と判定し、第2指標値が閾値に対して非類似側にある場合には入力音を非音声と判定する。例えば、入力音と音響モデルとが類似するほど増加するように第2指標値が定義された態様において、判定手段は、第2指標値が閾値を上回る場合に入力音を音声と判定する。また、入力音と音響モデルとが類似するほど減少するように第2指標値が定義された態様において、判定手段は、第2指標値が閾値を下回る場合に入力音を音声と判定する。   In the first aspect and the third aspect, assuming that the similarity between the speech and the acoustic model is higher than the similarity between the non-speech and the acoustic model, the determination unit has the second index value If the input sound is on the similar side with respect to the threshold, the input sound is determined to be speech, and if the second index value is on the dissimilar side with respect to the threshold, the input sound is determined to be non-speech. For example, in the aspect in which the second index value is defined so as to increase as the input sound and the acoustic model are similar, the determination unit determines that the input sound is speech when the second index value exceeds a threshold value. In the aspect in which the second index value is defined so that the input sound and the acoustic model decrease as the input model becomes similar, the determination unit determines that the input sound is speech when the second index value falls below a threshold value.

第1の態様および第3の態様に係る音処理装置の具体例において、記憶手段は、複数種の母音の音声から生成されたひとつの音響モデルを記憶する。以上の態様においては、複数種の母音の音声から統合的に生成されたひとつの音響モデルが使用されるから、母音の種類毎に別個の音響モデルが用意される構成と比較して、記憶手段に必要な容量が削減されるという利点がある。   In the specific example of the sound processing apparatus according to the first aspect and the third aspect, the storage unit stores one acoustic model generated from the sounds of a plurality of types of vowels. In the above aspect, since one acoustic model generated in an integrated manner from a plurality of types of vowel sounds is used, the storage means is compared with a configuration in which a separate acoustic model is prepared for each vowel type. There is an advantage that the capacity required for the system is reduced.

第1ないし第3の態様の各々の具体例に係る音処理装置は、単位区間を区分した複数の区間のうち有声音の区間の割合に応じた有声指標値を算定する有声指標算定手段(例えば図10の指標算定部74)を具備し、判定手段は、有声指標値に基づいて入力音が音声か非音声かを判定する。例えば、音声のうち有声音の時間的な割合が非音声と比較して高いという傾向を前提とすると、判定手段は、有声音の割合が高いほど当該単位区間の入力音を音声と判定する可能性が高くなる(有声音の割合が低いほど非音声と判定する可能性が高くなる)ように音声/非音声を判定する。さらに具体的には、判定手段は、指標算定手段の算定した指標値(第1指標値ないし第3指標値の少なくともひとつ)からは音声と判定できる場合であっても、有声音の区間の割合が多い場合には入力音を非音声と判定する。以上の態様においては、変調スペクトルや音響モデルから算定された指標値に加えて有声指標値も音声/非音声の判定に利用されるから、第1の態様または第3の態様において非音声の変調スペクトルのうち強度が高い変調周波数の範囲と音声の変調スペクトルのうち強度が高い変調周波数の範囲とが近似する場合や、第2の態様または第3の態様において非音声と音声とで母音の音響モデルに対する類否が近似する場合であっても、音声と非音声とを高精度に区別することが可能である。   The sound processing apparatus according to each specific example of the first to third aspects includes a voiced index calculation means (for example, a voiced index calculation unit that calculates a voiced index value according to a ratio of voiced sound sections among a plurality of sections into which unit sections are divided. 10 is provided, and the determination means determines whether the input sound is voice or non-voice based on the voiced index value. For example, on the assumption that the temporal ratio of voiced sound is higher than that of non-speech in the voice, the determination means can determine the input sound of the unit section as voice as the ratio of voiced sound is higher The voice / non-speech is determined so as to increase the likelihood (the possibility of determining non-speech increases as the proportion of voiced sound decreases). More specifically, the determination means is a ratio of the voiced sound section even when the index value calculated by the index calculation means (at least one of the first index value to the third index value) can be determined as speech. If there are many, the input sound is determined as non-speech. In the above aspect, since the voiced index value is also used for voice / non-voice determination in addition to the index value calculated from the modulation spectrum and the acoustic model, the non-voice modulation is performed in the first mode or the third mode. The vowel sound of non-speech and speech in the second mode or the third mode when the range of the modulation frequency with high intensity in the spectrum approximates the range of the modulation frequency with high intensity in the modulation spectrum of speech Even when the similarity to the model is approximate, speech and non-speech can be distinguished with high accuracy.

第1ないし第3の態様の各々の具体例に係る音処理装置は、入力音のSN比に応じて閾値を可変に設定する閾値設定手段を具備し、判定手段は、入力音から算定された指標値(第1指標値,第2指標値,第3指標値,有声指標値,変調スペクトルの強度の最大値の何れか)と閾値との大小に応じて入力音が音声か非音声かを判定する。以上の態様においては、指標値と対比される閾値が入力音のSN比に応じて閾値が可変に制御されるから、SN比の高低に拘わらず音声/非音声の精度を高い水準に維持することが可能である。   The sound processing apparatus according to each specific example of the first to third aspects includes threshold setting means for variably setting a threshold according to the SN ratio of the input sound, and the determination means is calculated from the input sound. Whether the input sound is speech or non-speech depending on the magnitude of the index value (any one of the first index value, the second index value, the third index value, the voiced index value, and the maximum modulation spectrum intensity) and the threshold value judge. In the above aspect, since the threshold value to be compared with the index value is variably controlled according to the SN ratio of the input sound, the accuracy of voice / non-voice is maintained at a high level regardless of the level of the SN ratio. It is possible.

第1ないし第3の態様の各々の具体例に係る音処理装置は、相連続する3個以上の単位区間について判定手段が非音声と判定した場合に、3個以上の単位区間のなかの途中の単位区間の入力音のみを消音する音処理手段を具備する。以上の態様においては、非音声と判定された単位区間が消音されるから、入力音のうちの音声のみを受聴者が明確に知覚することが可能となる。また、非音声と判定された3個以上の単位区間のうち途中の単位区間(すなわち、3個以上の単位区間のうち最初の単位区間と最後の単位区間とを除いた少なくともひとつの単位区間)のみが消音されるから、音声の最初(3個以上のうちの最後の単位区間)と最後(3個以上のうちの最初の単位区間)とが音処理手段処理よって消音される可能性は低減される。   In the sound processing device according to each specific example of the first to third aspects, when the determination unit determines non-speech for three or more consecutive unit sections, the sound processing apparatus is in the middle of the three or more unit sections. Sound processing means for muting only the input sound of the unit interval. In the above aspect, since the unit section determined to be non-speech is muted, the listener can clearly perceive only the sound of the input sound. Further, a unit section in the middle of three or more unit sections determined to be non-speech (that is, at least one unit section excluding the first unit section and the last unit section among three or more unit sections) Since only the sound is muted, the possibility that the beginning (the last unit section of three or more) and the end (the first unit section of three or more) of the sound are muted by the sound processing means processing is reduced. Is done.

以上の総ての態様に係る音処理装置は、入力音の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。第1の態様に係るプログラムは、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、母音の音声から生成された音響モデルと入力音との類否を示す第2指標値を単位区間毎に算定する第2指標算定処理と、各単位区間の入力音が音声か非音声かを当該単位区間の第1指標値と第2指標値とに基づいて判定する判定処理とをコンピュータに実行させる。第2の態様に係るプログラムは、複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、各単位区間の入力音が音声か非音声かを第1指標値に基づいて判定する判定処理とをコンピュータに実行させる。第3の態様に係るプログラムは、母音の音声から生成された音響モデルと入力音との類否を示す第2指標値を単位区間毎に算定する第2指標算定処理と、各単位区間の入力音が音声か非音声かを当該単位区間の第2指標値に基づいて判定する判定処理とをコンピュータに実行させる。本発明のプログラムによれば、以上の各態様に係る音処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。   The sound processing apparatus according to all of the above aspects is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to processing of input sound, or a general purpose such as a CPU (Central Processing Unit). This is also realized by cooperation between the arithmetic processing unit and the program. The program according to the first aspect includes a modulation spectrum specifying process for specifying a modulation spectrum of an input sound for each of a plurality of unit sections, and a first corresponding to the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum. A first index calculation process for calculating an index value, a second index calculation process for calculating a second index value indicating the similarity between an acoustic model generated from a vowel sound and an input sound for each unit section, and each unit The computer is caused to execute a determination process for determining whether the input sound of the section is voice or non-speech based on the first index value and the second index value of the unit section. The program according to the second aspect includes a modulation spectrum specifying process for specifying a modulation spectrum of an input sound for each of a plurality of unit sections, and a first corresponding to the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum. The computer executes a first index calculation process for calculating the index value and a determination process for determining whether the input sound of each unit section is a voice or a non-speech based on the first index value. The program according to the third aspect includes a second index calculation process for calculating, for each unit section, a second index value indicating similarity between an acoustic model generated from a vowel sound and an input sound, and input for each unit section And causing the computer to execute determination processing for determining whether the sound is voice or non-voice based on the second index value of the unit section. According to the program of this invention, the effect | action and effect similar to the sound processing apparatus which concern on each above aspect are show | played. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.

<A:第1実施形態>
図1は、本発明の第1実施形態に係る遠隔会議システムのブロック図である。遠隔会議システム100は、地理的に離間した空間R1と空間R2とで複数の利用者U(会議の参加者)が相互に音声を授受するシステムである。各空間R(R1,R2)には、収音機器12と音処理装置14と音処理装置16と放音機器18とが設置される。
<A: First Embodiment>
FIG. 1 is a block diagram of a remote conference system according to the first embodiment of the present invention. The remote conference system 100 is a system in which a plurality of users U (conference participants) exchange voices with each other in geographically separated spaces R1 and R2. In each space R (R1, R2), a sound collecting device 12, a sound processing device 14, a sound processing device 16, and a sound emitting device 18 are installed.

収音機器12は、空間R内に存在する入力音VINの波形を表す音響信号SINを生成する装置(マイクロホン)である。空間R1および空間R2の各々の音処理装置14は、音響信号SINから出力信号SOUTを生成して空間R1および空間R2の他方の音処理装置16に送信する。音処理装置16は、出力信号SOUTを増幅して放音機器18に出力する。放音機器18は、音処理装置16から供給される増幅後の出力信号SOUTに応じた音波を放射する装置(スピーカ)である。以上の構成により、空間R1内の各利用者Uの発声音が空間R2内の放音機器18から出力され、空間R2内の各利用者Uの発声音が空間R1内の放音機器18から出力される。   The sound collection device 12 is a device (microphone) that generates an acoustic signal SIN representing the waveform of the input sound VIN existing in the space R. Each sound processing device 14 in the space R1 and the space R2 generates an output signal SOUT from the acoustic signal SIN and transmits the output signal SOUT to the other sound processing device 16 in the space R1 and the space R2. The sound processing device 16 amplifies the output signal SOUT and outputs it to the sound emitting device 18. The sound emitting device 18 is a device (speaker) that emits sound waves according to the amplified output signal SOUT supplied from the sound processing device 16. With the above configuration, the utterance sound of each user U in the space R1 is output from the sound emitting device 18 in the space R2, and the utterance sound of each user U in the space R2 is output from the sound emitting device 18 in the space R1. Is output.

図2は、空間R1および空間R2の各々に設置される音処理装置14の構成を示すブロック図である。図2に示すように、音処理装置14は、制御装置22と記憶装置24とを具備する。制御装置22は、プログラムを実行することで図2の各要素として機能する演算処理装置である。なお、図2の各要素はDSPなどの電子回路によっても実現される。記憶装置24は、制御装置22が実行するプログラムや制御装置22が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置24として任意に利用される。   FIG. 2 is a block diagram showing a configuration of the sound processing device 14 installed in each of the space R1 and the space R2. As shown in FIG. 2, the sound processing device 14 includes a control device 22 and a storage device 24. The control device 22 is an arithmetic processing device that functions as each element in FIG. 2 by executing a program. 2 are also realized by an electronic circuit such as a DSP. The storage device 24 stores a program executed by the control device 22 and various data used by the control device 22. A known storage medium such as a semiconductor storage device or a magnetic storage device is arbitrarily used as the storage device 24.

制御装置22は、収音機器12から供給される音響信号SIN(入力音VIN)を時間軸に沿って区分した複数の区間(以下「単位区間」という)の各々について当該入力音VINが音声および非音声の何れに該当するかを判定する機能と、音声/非音声の判定の結果に応じた処理を音響信号SINに対して実行することで出力信号SOUTを生成する機能とを実現する。音声は、人間が発声した発話音である。非音声は、音声以外の音響(例えば空間Rの扉の開閉音や空調設備の動作音や携帯電話機の着信音などの環境音(雑音))である。   The control device 22 determines that the input sound VIN is voice and sound for each of a plurality of sections (hereinafter referred to as “unit sections”) obtained by dividing the acoustic signal SIN (input sound VIN) supplied from the sound collection device 12 along the time axis. The function of determining which of the non-sounds is applicable and the function of generating the output signal SOUT by executing the process corresponding to the result of the determination of the sound / non-speech for the acoustic signal SIN. The voice is an utterance sound uttered by a human. Non-voice is sound other than voice (for example, environmental sounds (noise) such as door opening / closing sound of the space R, operation sound of air conditioning equipment, ringtone of mobile phone).

図2の変調スペクトル特定部32は、音響信号SIN(入力音VIN)の変調スペクトルMSを特定する。変調スペクトルMSは、音響信号SINの対数スペクトル(周波数スペクトル)のうち特定の周波数帯域に属する成分の時間的な変動(以下「時間軌跡」という)についてフーリエ変換を実行した結果である。   The modulation spectrum specifying unit 32 in FIG. 2 specifies the modulation spectrum MS of the acoustic signal SIN (input sound VIN). The modulation spectrum MS is a result of executing a Fourier transform on a temporal variation (hereinafter referred to as “time locus”) of a component belonging to a specific frequency band in the logarithmic spectrum (frequency spectrum) of the acoustic signal SIN.

図3は、変調スペクトル特定部32の機能的な構成を示すブロック図であり、図4は、変調スペクトル特定部32による処理を説明するための概念図である。図3に示すように、変調スペクトル特定部32は、周波数分析部322と成分抽出部324と周波数分析部326とで構成される。周波数分析部322は、フーリエ変換(例えばFFT(Fast Fourier Transform))を含む周波数分析を音響信号SINに対して実行することで、図4の部分(A)に示すように、音響信号SINを時間軸に沿って区分した複数のフレームの各々について対数スペクトルS0を算定する。したがって、対数スペクトルS0を時間軸に沿ってフレーム毎に配列したスペクトログラムSPが生成される。なお、相前後する各フレームは部分的に重複してもよいし相互に重複しないように設定されてもよい。   FIG. 3 is a block diagram illustrating a functional configuration of the modulation spectrum specifying unit 32, and FIG. 4 is a conceptual diagram for explaining processing by the modulation spectrum specifying unit 32. As shown in FIG. 3, the modulation spectrum specifying unit 32 includes a frequency analysis unit 322, a component extraction unit 324, and a frequency analysis unit 326. The frequency analysis unit 322 performs frequency analysis including Fourier transform (for example, FFT (Fast Fourier Transform)) on the acoustic signal SIN, thereby converting the acoustic signal SIN to time as shown in part (A) of FIG. A logarithmic spectrum S0 is calculated for each of a plurality of frames segmented along the axis. Therefore, a spectrogram SP in which the logarithmic spectrum S0 is arranged for each frame along the time axis is generated. Each successive frame may overlap partially or may be set so as not to overlap each other.

図3の成分抽出部324は、図4の部分(A)および部分(B)に示すように、スペクトログラムSPのうち特定の周波数帯域ωに属する成分の強度(エネルギ)の時間軌跡STを抽出する。さらに詳述すると、成分抽出部324は、各フレームの対数スペクトルS0のうち周波数帯域ωに属する成分の強度を算定し、対数スペクトルS0の強度を複数のフレームついて時系列に配列することで時間軌跡STを生成する。周波数帯域ωは、入力音VINが音声である場合の時間軌跡STの周波数特性(変調スペクトルMS)と入力音VINが非音声である場合の時間軌跡STの周波数特性とが顕著に相違するように実験的または統計的に事前に選定される。例えば、周波数帯域ωは、10Hz(さらに好適には50Hz)から800Hzまでの範囲に選定される。なお、各対数スペクトルS0におけるひとつの周波数の成分の強度の時系列を時間軌跡STとして成分抽出部324が抽出する構成も採用される。   The component extraction unit 324 in FIG. 3 extracts the time trajectory ST of the intensity (energy) of the component belonging to the specific frequency band ω in the spectrogram SP as shown in part (A) and part (B) of FIG. . More specifically, the component extraction unit 324 calculates the intensity of the component belonging to the frequency band ω in the logarithmic spectrum S0 of each frame and arranges the intensity of the logarithmic spectrum S0 in time series for a plurality of frames. Generate ST. In the frequency band ω, the frequency characteristic (modulation spectrum MS) of the time trajectory ST when the input sound VIN is speech and the frequency characteristic of the time trajectory ST when the input sound VIN is non-speech are significantly different. Pre-selected experimentally or statistically. For example, the frequency band ω is selected in a range from 10 Hz (more preferably 50 Hz) to 800 Hz. A configuration is also employed in which the component extraction unit 324 extracts the time series of the intensity of one frequency component in each logarithmic spectrum S0 as the time locus ST.

図3の周波数分析部326は、図4の部分(B)および部分(C)に示すように、時間軌跡STに対してフーリエ変換(例えばFFT)を実行することで、時間軌跡STを時間軸に沿って区分した複数の単位区間TUの各々について変調スペクトルMSを算定する。単位区間TUは、複数のフレームで構成される所定の時間長(例えば1秒程度)の期間である。なお、本形態においては各単位区間TUが重複しない構成を便宜的に例示するが、相前後する各単位区間TUが部分的に重複する構成も採用される。   As shown in part (B) and part (C) of FIG. 4, the frequency analysis unit 326 in FIG. 3 performs a Fourier transform (for example, FFT) on the time trajectory ST, thereby converting the time trajectory ST into a time axis. The modulation spectrum MS is calculated for each of a plurality of unit intervals TU divided along the line. The unit section TU is a period of a predetermined time length (for example, about 1 second) composed of a plurality of frames. In the present embodiment, a configuration in which the unit sections TU do not overlap is illustrated for convenience, but a configuration in which the adjacent unit sections TU partially overlap is also employed.

図5は音声(人間の発話音)の代表的な変調スペクトルMSを示し、図6は非音声(収音機器12の先端部を覆う網状の部分を引掻いたときのガリガリ音)の変調スペクトルMSを示す。図5と図6との対比から理解されるように、変調スペクトルMSのうち強度が高い変調周波数の範囲は音声と非音声とで相違するという傾向がある。   FIG. 5 shows a typical modulation spectrum MS of voice (human uttered sound), and FIG. 6 shows a modulation spectrum of non-voice (a crumbling sound when a net-like portion covering the tip of the sound collecting device 12 is scratched). Indicates MS. As understood from the comparison between FIG. 5 and FIG. 6, the range of the modulation frequency having a high intensity in the modulation spectrum MS tends to be different between voice and non-voice.

人間の通常の発話音(すなわち音声)の変調スペクトルMSにおいては、発話中に音節が切替わる周波数に相当する4Hz程度の変調周波数にて強度が極大となる場合が多い。したがって、音声の変調スペクトルMS(図5)においては変調周波数が10Hz以下の低域の範囲で強度が高くなるのに対し、多くの非音声の変調スペクトルMS(図6)においては変調周波数が10Hzを上回る範囲で強度が高くなるという相違がある。以上の相違を考慮して、本形態においては、変調スペクトル特定部32が特定した変調スペクトルMSのうち変調周波数が所定の範囲(以下「判定対象範囲」という)Aに属する成分の強度に応じて入力音VINが音声か非音声かを判定する。本形態においては10Hz以下の範囲(さらに好適には2Hzから8Hzの範囲)を判定対象範囲Aに設定する。   In the modulation spectrum MS of a normal human speech sound (ie, speech), the intensity often becomes maximum at a modulation frequency of about 4 Hz corresponding to the frequency at which the syllable is switched during speech. Therefore, the intensity of the modulation spectrum MS (FIG. 5) is high in a low frequency range of 10 Hz or less, whereas the modulation frequency is 10 Hz in many non-voice modulation spectra MS (FIG. 6). There is a difference that the strength increases in the range exceeding. In consideration of the above differences, in the present embodiment, the modulation frequency of the modulation spectrum MS specified by the modulation spectrum specifying unit 32 depends on the intensity of the component belonging to a predetermined range (hereinafter referred to as “determination target range”) A. It is determined whether the input sound VIN is voice or non-voice. In this embodiment, a range of 10 Hz or less (more preferably, a range of 2 Hz to 8 Hz) is set as the determination target range A.

図2の指標算定部34は、変調スペクトル特定部32が各単位区間TUについて特定した変調スペクトルMSについて、判定対象範囲Aに属する成分の強度(エネルギ)に応じた指標値D1を算定する。さらに詳述すると、指標算定部34は、第1に、変調スペクトルMSのうち変調周波数が判定対象範囲Aに属する成分の強度(例えば判定対象範囲A内の各変調周波数における強度の加算値や平均値)L1と、変調周波数の全範囲にわたる変調スペクトルMSの強度(総ての変調周波数における強度の加算値や平均値)L2とを算定する。第2に、指標算定部34は、強度L1と強度L2との相対比(L1/L2)を含む以下の演算式(A)に基づいて指標値D1を算定する。
D1=1−(L1/L2) ……(A)
演算式(A)の内容から理解されるように、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1が高いほど(すなわち入力音VINが音声である可能性が高いほど)指標値D1は小さい数値となる。したがって、指標値D1は、入力音VINが音声であるか非音声であるかの指標となる。また、判定対象範囲Aには発話時に音節が切替わる周波数が含まれるから、指標値D1は、音声に特有なリズム(発話のリズム)が入力音VINに含まれるか否かの指標としても把握される。
2 calculates an index value D1 corresponding to the intensity (energy) of the component belonging to the determination target range A for the modulation spectrum MS specified by the modulation spectrum specifying unit 32 for each unit section TU. More specifically, the index calculation unit 34 firstly calculates the intensity of the component whose modulation frequency belongs to the determination target range A in the modulation spectrum MS (for example, the added value or average of the intensity at each modulation frequency in the determination target range A). Value) L1 and the intensity of the modulation spectrum MS over the entire range of the modulation frequency (addition value or average value of the intensity at all modulation frequencies) L2. Second, the index calculator 34 calculates the index value D1 based on the following arithmetic expression (A) including the relative ratio (L1 / L2) between the intensity L1 and the intensity L2.
D1 = 1- (L1 / L2) (A)
As understood from the content of the arithmetic expression (A), the index value D1 increases as the intensity L1 of the component in the determination target range A of the modulation spectrum MS increases (that is, the possibility that the input sound VIN is a voice is higher). Is a small number. Therefore, the index value D1 is an index as to whether the input sound VIN is speech or non-speech. Further, since the determination target range A includes the frequency at which the syllable is switched during speech, the index value D1 is also grasped as an index as to whether or not the input sound VIN includes a rhythm peculiar to speech (speech rhythm). Is done.

ただし、変調スペクトルMSにおける判定対象範囲A内の成分の強度が他の範囲と比較して相対的に高い非音声も存在する。図7に示す非音声(電話機のプッシュトーン)の変調スペクトルMSにおいては判定対象範囲Aに含まれる5Hzから8Hz程度の変調周波数にて強度のピークが発生する。しかし、図7のような特性の非音声においては、変調スペクトルMSの強度の最大値Pが音声と比較して低いという傾向がある。以上の傾向を考慮して、本形態においては、指標値D1と変調スペクトルMSの強度の最大値Pとに基づいて入力音VINが音声か非音声かを判定する。図2の強度特定部36は、変調スペクトルMSの強度の最大値Pを単位区間TU毎に特定する。   However, there is also a non-speech in which the intensity of the component in the determination target range A in the modulation spectrum MS is relatively high compared to other ranges. In the modulation spectrum MS of non-voice (phone push tone) shown in FIG. 7, an intensity peak occurs at a modulation frequency of about 5 Hz to 8 Hz included in the determination target range A. However, in the case of non-speech with characteristics as shown in FIG. 7, the maximum value P of the intensity of the modulation spectrum MS tends to be lower than that of speech. Considering the above tendency, in the present embodiment, it is determined whether the input sound VIN is voice or non-voice based on the index value D1 and the maximum value P of the intensity of the modulation spectrum MS. The intensity specifying unit 36 in FIG. 2 specifies the maximum intensity P of the modulation spectrum MS for each unit interval TU.

判定部42は、指標算定部34が算定した指標値D1と強度特定部36が特定した最大値Pとに基づいて各単位区間TUの入力音VINが音声か非音声かを判定し、判定の結果(音声/非音声の区別)を示す識別データdを単位区間TU毎に生成する。図8は、判定部42の具体的な動作を示すフローチャートである。図8の処理は、指標値D1と最大値Pとがひとつの単位区間TUについて特定されるたびに実行される。   The determination unit 42 determines whether the input sound VIN of each unit section TU is speech or non-speech based on the index value D1 calculated by the index calculation unit 34 and the maximum value P specified by the intensity specifying unit 36. Identification data d indicating a result (speech / non-speech distinction) is generated for each unit interval TU. FIG. 8 is a flowchart showing a specific operation of the determination unit 42. The process of FIG. 8 is executed every time the index value D1 and the maximum value P are specified for one unit section TU.

判定部42は、指標値D1が閾値THd1を上回るか否かを判定する(ステップSA1)。閾値THd1は、音声の指標値D1が閾値THd1を下回るとともに非音声の指標値D1が閾値THd1を上回るように実験的または統計的に選定される。ステップSA1の結果が肯定である場合(例えば入力音VINが図6の特性の非音声である場合)、判定部42は、今回の処理の対象である単位区間TUの入力音VINを非音声と判定する(ステップSA2)。すなわち、判定部42は、非音声を示す識別データdを生成する。   The determination unit 42 determines whether or not the index value D1 exceeds the threshold value THd1 (step SA1). The threshold THd1 is selected experimentally or statistically so that the voice index value D1 is lower than the threshold THd1 and the non-voice index value D1 is higher than the threshold THd1. When the result of step SA1 is affirmative (for example, when the input sound VIN is non-speech with the characteristics of FIG. 6), the determination unit 42 determines that the input sound VIN of the unit interval TU that is the object of the current process is non-speech. Judgment is made (step SA2). That is, the determination unit 42 generates identification data d indicating non-voice.

一方、ステップSA1の結果が否定である場合、判定部42は、変調スペクトルMSの強度の最大値Pが閾値THpを下回るか否かを判定する(ステップSA3)。ステップSA3の結果が肯定である場合、判定部42は、処理をステップSA2に移行して非音声を示す識別データdを生成する。すなわち、指標値D1のみを考慮すれば入力音VINを音声と判定できる場合であっても、最大値Pが閾値THpを下回る場合(例えば入力音VINが図7の特性の非音声である場合)には入力音VINは非音声と判定される。   On the other hand, if the result of step SA1 is negative, the determination unit 42 determines whether or not the maximum value P of the intensity of the modulation spectrum MS is below the threshold value THp (step SA3). If the result of step SA3 is affirmative, the determination unit 42 shifts the process to step SA2 to generate identification data d indicating non-voice. That is, even when the input sound VIN can be determined to be a sound if only the index value D1 is considered, the maximum value P is below the threshold value THp (for example, when the input sound VIN is a non-speech sound having the characteristics shown in FIG. 7). The input sound VIN is determined as non-speech.

ステップSA3の結果が否定である場合(例えば入力音VINが図5の特性の音声である場合)、判定部42は、今回の処理の対象である単位区間TUの入力音VINを音声と判定する(ステップSA4)。すなわち、判定部42は、音声を示す識別データdを生成する。以上のように、変調スペクトルMSにおける判定対象範囲A内の強度L1および強度の最大値Pの双方が高い単位区間TUの入力音VINのみが音声と判定される。   When the result of step SA3 is negative (for example, when the input sound VIN is a sound having the characteristics shown in FIG. 5), the determination unit 42 determines that the input sound VIN of the unit section TU that is the target of the current process is a sound. (Step SA4). That is, the determination unit 42 generates identification data d indicating a voice. As described above, only the input sound VIN of the unit section TU in which both the intensity L1 and the maximum intensity value P in the determination target range A in the modulation spectrum MS are high is determined as the sound.

図2の音処理部44は、各単位区間TUの識別データdに応じた処理を当該単位区間TUの音響信号SINに対して実行することで出力信号SOUTを生成する。例えば、音処理部44は、識別データdが音声を示す単位区間TUについては音響信号SINを出力信号SOUTとして出力する一方、識別データdが非音声を示す単位区間TUついては音量をゼロに設定した出力信号SOUTを出力する(すなわち音響信号SINを出力しない)。したがって、空間R1および空間R2の各々においては、他方の空間R内の入力音VINのうちの非音声が除去され、利用者が本来的に受聴する必要のある音声のみが音処理装置16を介して放音機器18から放射される。   The sound processing unit 44 in FIG. 2 generates an output signal SOUT by executing processing corresponding to the identification data d of each unit section TU on the acoustic signal SIN of the unit section TU. For example, the sound processing unit 44 outputs the acoustic signal SIN as the output signal SOUT for the unit interval TU in which the identification data d indicates speech, while setting the volume to zero for the unit interval TU in which the identification data d indicates non-speech. The output signal SOUT is output (that is, the acoustic signal SIN is not output). Therefore, in each of the space R1 and the space R2, the non-speech of the input sound VIN in the other space R is removed, and only the sound that the user originally needs to listen to passes through the sound processing device 16. And emitted from the sound emitting device 18.

以上に説明したように、本形態においては、変調スペクトルMSのうち判定対象範囲A内の成分の強度L1(発話のリズムの有無)に基づいて音声/非音声が判定されるから、入力音VINの周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。また、判定対象範囲A内の成分の強度L1に加えて変調スペクトルMSの強度の最大値Pも判定に使用されるから、判定対象範囲A内の成分の強度L1が他の範囲と比較して高い非音声についても非音声と判定することが可能である。   As described above, in this embodiment, since the voice / non-speech is determined based on the intensity L1 (presence / absence of utterance rhythm) of the component within the determination target range A in the modulation spectrum MS, the input sound VIN It is possible to identify speech / non-speech with high accuracy compared to the technique of Patent Document 1 using the frequency spectrum of In addition to the intensity L1 of the component in the determination target range A, the maximum value P of the intensity of the modulation spectrum MS is also used for the determination. Therefore, the intensity L1 of the component in the determination target range A is compared with other ranges. High non-speech can also be determined as non-speech.

なお、非音声の音量が大きい場合には、変調周波数の全帯域にわたって変調スペクトルMSは高い強度となる。したがって、変調スペクトルMSの判定対象範囲A内の強度L1のみに基づいて入力音VINの音声/非音声を識別する構成においては、音量の大きい非音声が音声と誤判定される可能性が高まる。本形態においては、判定対象範囲A内の強度L1と変調周波数の全範囲にわたる強度L2との相対比に基づいて音声/非音声が判定されるから、非音声の音量が大きい場合であっても音声/非音声を正確に判定できるという利点がある。   When the volume of non-speech is high, the modulation spectrum MS has a high intensity over the entire band of the modulation frequency. Therefore, in the configuration in which the voice / non-speech of the input sound VIN is identified based only on the intensity L1 within the determination target range A of the modulation spectrum MS, there is a high possibility that the non-speech having a large volume is erroneously determined as a voice. In this embodiment, since voice / non-speech is determined based on the relative ratio between the intensity L1 in the determination target range A and the intensity L2 over the entire range of the modulation frequency, even if the volume of non-speech is high. There is an advantage that voice / non-voice can be accurately determined.

<B:第2実施形態>
次に、本発明の第2実施形態について説明する。以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In the following embodiments, elements having the same functions and functions as those of the first embodiment are denoted by the same reference numerals as above, and detailed descriptions thereof are appropriately omitted.

図9は、音処理装置14のブロック図である。本形態の記憶装置24にはひとつの音響モデルMが記憶される。音響モデルMは、多数の話者による複数種の母音の発声音の平均的な音響特性をモデル化した統計モデルである。本形態の音響モデルMは、音声の特徴量(例えばMFCC(Mel-Frequency Cepstrum Coefficient))の分布を確率分布の加重和としてモデル化する。例えば、音声の特徴量を複数の正規分布の加重和としてモデル化するガウス混合モデル(GMM(Gaussian Mixture Model))が音響モデルMとして好適である。   FIG. 9 is a block diagram of the sound processing device 14. One acoustic model M is stored in the storage device 24 of this embodiment. The acoustic model M is a statistical model that models the average acoustic characteristics of a plurality of types of vowels produced by many speakers. The acoustic model M of the present embodiment models the distribution of speech feature values (for example, MFCC (Mel-Frequency Cepstrum Coefficient)) as a weighted sum of probability distributions. For example, a Gaussian mixture model (GMM (Gaussian Mixture Model)) that models a feature amount of speech as a weighted sum of a plurality of normal distributions is suitable as the acoustic model M.

音響モデルMは、例えば制御装置22が以下の処理を実行することで作成される。第1に、制御装置22は、多数の話者が様々な文章を発話したときの音声を採取して各々を音韻毎に区分し、複数種の母音(a,i,u,e,o)に相当する部分の波形のみを抽出する。第2に、制御装置22は、母音に相当する各部分の波形を時間軸に沿って区分した複数のフレームの各々について音響的な特徴量(特徴ベクトル)を抽出する。各フレームの時間長は例えば20ミリ秒であり、相前後する各フレームの時間差は10ミリ秒程度である。第3に、制御装置22は、多数の音声から抽出された特徴量を複数種の母音について統合的に処理することで音響モデルMを生成する。音響モデルMの生成には、例えばEM(Expectation-Maximization)アルゴリズムなど公知の技術が任意に採用される。なお、母音の特徴量は直前の音韻(子音)に影響されるから、以上の手順で生成された音響モデルMは純粋に母音の特性のみをモデル化した統計モデルではない。すなわち、音響モデルMは、複数の母音を中心として作成された統計モデル(あるいは音声の有声音の統計モデル)と言える。   The acoustic model M is created, for example, when the control device 22 executes the following process. First, the control device 22 collects voices when a large number of speakers utter various sentences, classifies each voice into phonemes, and a plurality of types of vowels (a, i, u, e, o). Only the waveform corresponding to is extracted. Secondly, the control device 22 extracts an acoustic feature amount (feature vector) for each of a plurality of frames obtained by dividing the waveform of each portion corresponding to a vowel along the time axis. The time length of each frame is, for example, 20 milliseconds, and the time difference between successive frames is about 10 milliseconds. Thirdly, the control device 22 generates the acoustic model M by integrally processing the feature quantities extracted from a large number of sounds with respect to a plurality of types of vowels. For the generation of the acoustic model M, a known technique such as an EM (Expectation-Maximization) algorithm is arbitrarily employed. Note that since the vowel feature quantity is affected by the immediately preceding phoneme (consonant), the acoustic model M generated by the above procedure is not a statistical model purely modeling only the vowel characteristics. That is, the acoustic model M can be said to be a statistical model (or a statistical model of voiced voices) created with a plurality of vowels as a center.

図9に示すように、音処理装置14は、図2の変調スペクトル特定部32と指標算定部34と強度特定部36とに代えて特徴抽出部52と指標算定部54とを具備する。特徴抽出部52は、音響モデルMの生成に利用された特徴量と同種の特徴量(例えばMFCC)Xを音響信号SINの各フレームについて抽出する。特徴抽出部52による特徴量Xの抽出には公知の技術が任意に採用される。   As shown in FIG. 9, the sound processing device 14 includes a feature extraction unit 52 and an index calculation unit 54 instead of the modulation spectrum specification unit 32, the index calculation unit 34, and the intensity specification unit 36 of FIG. 2. The feature extraction unit 52 extracts a feature quantity (for example, MFCC) X of the same type as the feature quantity used for generating the acoustic model M for each frame of the acoustic signal SIN. A known technique is arbitrarily employed for extracting the feature amount X by the feature extraction unit 52.

指標算定部54は、音響信号SINが表す入力音VINと音響モデルMとの類否に応じた指標値D2を音響信号SINの各単位区間TUについて算定する。さらに詳述すると、指標値D2は、各フレームの音響信号SINについて抽出された特徴量Xが音響モデルMから発生する尤度(確率)p(X|M)を単位区間TU内の総て(n個)のフレームについて平均化した数値である。すなわち、指標値D2は以下の演算式(B)で算定される。

Figure 2009175474

演算式(B)から理解されるように、音響モデルMと単位区間TU内の入力音VINとで特徴量が類似するほど指標値D2は小さくなる。非音声と比較すると音声は母音の割合が多い(したがって音響モデルMとの音色の類似の程度が高い)という傾向がある。したがって、入力音VINが音声である場合に算定される指標値D2は、入力音VINが非音声である場合に算定される指標値D2と比較して小さい数値となる。すなわち、指標値D2は、入力音VINが音声であるか非音声であるかの指標となる。したがって、音響モデルMは、音声(人間の発話音)の統計モデルとしても把握される。 The index calculation unit 54 calculates an index value D2 corresponding to the similarity between the input sound VIN and the acoustic model M represented by the acoustic signal SIN for each unit section TU of the acoustic signal SIN. More specifically, the index value D2 represents the likelihood (probability) p (X | M) that the feature quantity X extracted from the acoustic signal SIN of each frame is generated from the acoustic model M within the unit interval TU ( (n) frames are averaged values. That is, the index value D2 is calculated by the following arithmetic expression (B).
Figure 2009175474

As can be understood from the arithmetic expression (B), the index value D2 decreases as the feature amount is similar between the acoustic model M and the input sound VIN in the unit interval TU. Compared with non-speech, speech tends to have a higher proportion of vowels (thus, the degree of timbre similarity with the acoustic model M is higher). Therefore, the index value D2 calculated when the input sound VIN is speech is a smaller numerical value than the index value D2 calculated when the input sound VIN is non-speech. That is, the index value D2 is an index as to whether the input sound VIN is voice or non-voice. Therefore, the acoustic model M is also grasped as a statistical model of speech (human speech sound).

図9の判定部42は、指標算定部54が算定した指標値D2に基づいて各単位区間TUの入力音VINが音声か非音声かを判定し、判定の結果を示す識別データdを単位区間TU毎に生成する。指標値D2は、入力音VINと音響モデルMとの音色の類似性を示す数値となる。すなわち、第1実施形態においては入力音VINのリズム(判定対象範囲A内の強度L1)が音声らしいか否かを判定するのに対し、本形態においては入力音VINの音色が音声らしいか否かを判定する。   The determination unit 42 in FIG. 9 determines whether the input sound VIN of each unit section TU is speech or non-speech based on the index value D2 calculated by the index calculation unit 54, and uses the identification data d indicating the determination result as the unit section. Generated for each TU. The index value D2 is a numerical value indicating the timbre similarity between the input sound VIN and the acoustic model M. That is, in the first embodiment, it is determined whether or not the rhythm of the input sound VIN (intensity L1 within the determination target range A) is sound, whereas in the present embodiment, whether or not the timbre of the input sound VIN is sound. Determine whether.

さらに詳述すると、判定部42は、各単位区間TUの指標値D2が所定の閾値THd2を上回るか否かを判定する。閾値THd2は、音声の指標値D2が閾値THd2を下回るとともに非音声の指標値D2が閾値THd2を上回るように実験的または統計的に選定される。判定の結果が肯定である場合(D2>THd2)、判定部42は、当該単位区間TUの入力音VINを非音声と判定して識別データdを生成する。一方、判定の結果が否定である場合(D2<THd2)、判定部42は、当該単位区間TUの入力音VINを音声と判定して識別データdを生成する。識別データdに応じた音処理部44の動作は第1実施形態と同様である。   More specifically, the determination unit 42 determines whether or not the index value D2 of each unit section TU exceeds a predetermined threshold value THd2. The threshold value THd2 is selected experimentally or statistically so that the voice index value D2 is lower than the threshold value THd2 and the non-voice index value D2 is higher than the threshold value THd2. When the result of the determination is affirmative (D2> THd2), the determination unit 42 determines the input sound VIN of the unit section TU as a non-speech and generates identification data d. On the other hand, if the result of the determination is negative (D2 <THd2), the determination unit 42 determines the input sound VIN of the unit section TU as a sound and generates identification data d. The operation of the sound processing unit 44 according to the identification data d is the same as in the first embodiment.

以上に説明したように、本形態においては、母音の音声をモデル化した音響モデルMとの類否に応じて音声/非音声が判定されるから、入力音VINの周波数スペクトルを利用する特許文献1の技術と比較して高精度に音声/非音声を識別することが可能である。また、複数種の母音を統合的にモデル化したひとつの音響モデルMが記憶装置24に格納されるから、複数種の母音の各々について個別の音響モデルが用意される構成と比較して、記憶装置24に必要な容量が低減されるという利点がある。   As described above, in this embodiment, since voice / non-speech is determined according to the similarity with the acoustic model M that models the voice of a vowel, Patent Literature that uses the frequency spectrum of the input sound VIN Compared with the first technique, it is possible to identify speech / non-speech with high accuracy. In addition, since one acoustic model M in which a plurality of types of vowels are modeled in an integrated manner is stored in the storage device 24, it is stored in comparison with a configuration in which individual acoustic models are prepared for each of the plurality of types of vowels. There is an advantage that the capacity required for the device 24 is reduced.

<C:第3実施形態>
図10は、本発明の第3実施形態に係る音処理装置14のブロック図である。第1実施形態と同様に、図10の変調スペクトル特定部32および指標算定部34は入力音VINの単位区間TU毎に指標値D1を算定し、強度特定部36は変調スペクトルMSの強度の最大値Pを特定する。また、特徴抽出部52および指標算定部54は、第2実施形態と同様に、入力音VINの単位区間TU毎に指標値D2を算定する。
<C: Third Embodiment>
FIG. 10 is a block diagram of a sound processing apparatus 14 according to the third embodiment of the present invention. As in the first embodiment, the modulation spectrum specifying unit 32 and the index calculating unit 34 in FIG. 10 calculate the index value D1 for each unit interval TU of the input sound VIN, and the intensity specifying unit 36 is the maximum intensity of the modulation spectrum MS. The value P is specified. Further, the feature extraction unit 52 and the index calculation unit 54 calculate the index value D2 for each unit interval TU of the input sound VIN, as in the second embodiment.

指標算定部62は、指標算定部34が算定した指標値D1と指標算定部54が算定した指標値D2との加重和を指標値D3として算定する。指標値D3は、例えば以下の演算式(C)で算定される。
D3=D1+α・D2 ……(C)
演算式(C)から理解されるように、入力音VINが音声である可能性が高いほど(すなわち、変調スペクトルMSのうち判定対象範囲A内の強度L1が高いほど、または、音響モデルMと単位区間TU内の入力音VINとで特徴量が類似するほど)、指標値D3は小さい数値となる。加重値αは、図10の加重値設定部66が設定した正数(α>0)である。指標算定部62が算定した指標値D3は、判定部42における音声/非音声の判定に利用される。
The index calculation unit 62 calculates the weighted sum of the index value D1 calculated by the index calculation unit 34 and the index value D2 calculated by the index calculation unit 54 as the index value D3. The index value D3 is calculated by, for example, the following arithmetic expression (C).
D3 = D1 + α ・ D2 (C)
As understood from the calculation formula (C), the higher the possibility that the input sound VIN is a voice (that is, the higher the intensity L1 in the determination target range A in the modulation spectrum MS or the acoustic model M). The index value D3 is a small numerical value as the feature amount is similar to the input sound VIN in the unit interval TU. The weight value α is a positive number (α> 0) set by the weight value setting unit 66 of FIG. The index value D3 calculated by the index calculation unit 62 is used for voice / non-voice determination in the determination unit 42.

図10のSN比特定部64は、音信号SIN(入力音VIN)のSN比Rを単位区間TU毎に算定する。加重値設定部66は、各単位区間TUの指標値D3の算定に指標算定部62が適用する加重値αを、当該単位区間TUについてSN比特定部64が算定したSN比Rに基づいて可変に設定する。   The SN ratio specifying unit 64 in FIG. 10 calculates the SN ratio R of the sound signal SIN (input sound VIN) for each unit interval TU. The weight value setting unit 66 varies the weight value α applied by the index calculating unit 62 to calculate the index value D3 of each unit section TU based on the SN ratio R calculated by the SN ratio specifying unit 64 for the unit section TU. Set to.

ここで、変調スペクトルMSから算定される指標値D1は、音響モデルMから算定される指標値D2と比較すると入力音VINの雑音に影響され易いという傾向がある。そこで、加重値設定部66は、SN比Rが低い(雑音が多い)ほど加重値αが増加するように加重値αを可変に制御する。以上の構成によれば、SN比Rが低いほど指標値D3における指標値D2の影響が相対的に増加する(雑音の影響を受け易い指標値D1の影響が低減される)から、入力音VINに雑音が重畳された場合であっても音声/非音声を高精度に判定することが可能である。   Here, the index value D1 calculated from the modulation spectrum MS tends to be easily influenced by noise of the input sound VIN as compared with the index value D2 calculated from the acoustic model M. Therefore, the weight value setting unit 66 variably controls the weight value α so that the weight value α increases as the SN ratio R is lower (the noise is higher). According to the above configuration, as the SN ratio R is lower, the influence of the index value D2 on the index value D3 is relatively increased (the influence of the index value D1 that is easily affected by noise is reduced). Even when noise is superimposed on the voice / non-voice, it is possible to determine voice / non-voice with high accuracy.

図10の有声無声判別部72は、複数のフレームの各々について入力音VINが有声音か無声音かを判定する。有声無声判別部72による判定には公知の技術が任意に採用される。例えば、有声無声判別部72は、入力音VINの各フレームについてピッチ(基本周波数)の検出を実行し、有意なピッチが検出されたフレームを有声音と判定する一方、明確なピッチが検出されなかったフレームを無声音と判定する。   10 determines whether the input sound VIN is a voiced sound or an unvoiced sound for each of a plurality of frames. A known technique is arbitrarily employed for the determination by the voiced / unvoiced discrimination unit 72. For example, the voiced / unvoiced discriminating unit 72 detects the pitch (fundamental frequency) for each frame of the input sound VIN and determines a frame in which a significant pitch is detected as a voiced sound, but a clear pitch is not detected. The frame is determined as an unvoiced sound.

指標算定部74は、音響信号SINの各単位区間TUについて有声指標値DVを算定する。有声指標値DVは、単位区間TU内のn個のフレームのうち有声無声判別部72が有声音と判定したフレームの個数NVの割合(DV=NV/n)である。音声(人間の発話音)は非音声と比較して有声音の割合が高いという傾向がある。したがって、入力音VINが音声である場合に算定される有声指標値DVは、入力音VINが非音声である場合に算定される有声指標値DVと比較して大きい数値となる。   The index calculation unit 74 calculates a voiced index value DV for each unit section TU of the acoustic signal SIN. The voiced index value DV is the ratio (DV = NV / n) of the number of frames NV that the voiced / unvoiced discriminating unit 72 has determined to be voiced out of n frames in the unit interval TU. Voice (human utterance) tends to have a higher proportion of voiced sound than non-voice. Therefore, the voiced index value DV calculated when the input sound VIN is speech is a larger numerical value than the voiced index value DV calculated when the input sound VIN is non-speech.

図10の判定部42は、指標算定部62が算定した指標値D3と強度特定部36が特定した最大値Pと指標算定部74が算定した有声指標値DVとに基づいて各単位区間TUの入力音VINが音声か非音声かを判定し、判定の結果を示す識別データdを単位区間TU毎に生成する。図11は、判定部42の具体的な動作を示すフローチャートである。図11の処理は、指標値D3と最大値Pと有声指標値DVとがひとつの単位区間TUについて特定されるたびに実行される。   The determination unit 42 in FIG. 10 determines each unit interval TU based on the index value D3 calculated by the index calculation unit 62, the maximum value P specified by the strength specifying unit 36, and the voiced index value DV calculated by the index calculation unit 74. It is determined whether the input sound VIN is speech or non-speech, and identification data d indicating the determination result is generated for each unit interval TU. FIG. 11 is a flowchart showing a specific operation of the determination unit 42. The process of FIG. 11 is executed every time the index value D3, the maximum value P, and the voiced index value DV are specified for one unit section TU.

判定部42は、指標値D3が閾値THd3を上回るか否かを判定する(ステップSB1)。閾値THd3は、音声の指標値D3が閾値THd3を下回るとともに非音声の指標値D3が閾値THd3を上回るように実験的または統計的に選定される。ステップSB1の結果が肯定である場合、判定部42は、今回の単位区間TUの入力音VINを非音声と判定して識別データdを生成する(ステップSB2)。   The determination unit 42 determines whether or not the index value D3 exceeds the threshold value THd3 (step SB1). The threshold THd3 is selected experimentally or statistically so that the voice index value D3 is lower than the threshold THd3 and the non-voice index value D3 is higher than the threshold THd3. If the result of step SB1 is affirmative, the determination unit 42 determines that the input sound VIN of the current unit section TU is non-speech and generates identification data d (step SB2).

一方、ステップSB1の結果が否定である場合、判定部42は、図8のステップSA3と同様に、最大値Pが閾値THpを下回るか否かを判定する(ステップSB3)。ステップSB3の結果が肯定である場合、判定部42は、非音声を示す識別データdをステップSB2にて生成する。ステップSB3の結果が否定である場合、判定部42は、有声指標値DVが閾値THdvを下回るか否かを判定する(ステップSB4)。   On the other hand, when the result of step SB1 is negative, the determination unit 42 determines whether or not the maximum value P is lower than the threshold value THp, similarly to step SA3 of FIG. 8 (step SB3). If the result of step SB3 is affirmative, the determination unit 42 generates identification data d indicating non-voice in step SB2. If the result of step SB3 is negative, the determination unit 42 determines whether or not the voiced index value DV is below the threshold value THdv (step SB4).

ステップSB4の結果が肯定である場合(すなわち単位区間TUにおいて有声音のフレームの割合が少ない場合)、判定部42は、非音声を示す識別データdをステップSB2にて生成する。一方、ステップSB4の結果が否定である場合、判定部42は、今回の単位区間TUの入力音VINを音声と判定して識別データdを生成する。識別データdに応じた音処理部44の動作は第1実施形態と同様である。   When the result of step SB4 is affirmative (that is, when the ratio of voiced frames in the unit interval TU is small), the determination unit 42 generates identification data d indicating non-speech in step SB2. On the other hand, if the result of step SB4 is negative, the determination unit 42 determines that the input sound VIN of the current unit section TU is a voice and generates identification data d. The operation of the sound processing unit 44 according to the identification data d is the same as in the first embodiment.

以上に説明したように、本形態においては、入力音VINのリズム(指標値D1)および音色(指標値D2)の双方の観点から音声/非音声が判定されるから、第1実施形態や第2実施形態と比較して入力音VINを高精度に音声と非音声とに区別することが可能である。また、指標値D1および指標値D2に加えて有声指標値DVも音声/非音声の判定に適用されるから、例えばリズムや音色が音声に類似する入力音VINであっても、有声指標値DVが低い場合には非音声と判定することができる。   As described above, in the present embodiment, voice / non-speech is determined from the viewpoints of both the rhythm (index value D1) and timbre (index value D2) of the input sound VIN. Compared with the second embodiment, it is possible to distinguish the input sound VIN into voice and non-voice with high accuracy. In addition to the index value D1 and the index value D2, the voiced index value DV is also applied to the determination of voice / non-speech. For example, even if the input sound VIN has a rhythm or tone similar to the voice, the voiced index value DV If is low, it can be determined as non-voice.

<D:変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
<D: Modification>
Various modifications are added to the above embodiments. An example of a specific modification is as follows. Two or more aspects may be arbitrarily selected from the following examples and combined.

(1)変形例1
変調スペクトル特定部32は図12の構成に変更される。図12の変調スペクトル特定部32は、図3と同様の周波数分析部322と成分抽出部324と周波数分析部326とに加えて平均部328を具備する。成分抽出部324が生成した時間軌跡STは、単位区間TUをさらに分割したm個の区間(以下「分割区間」という)に区分される(mは2以上の自然数)。周波数分析部326は、各分割区間の時間軌跡STに対してフーリエ変換を実行することで分割区間毎に変調スペクトルを算定する。平均部328は、単位区間TUを構成する各分割区間について算定されたm個の変調スペクトルを平均することで当該単位区間TUの変調スペクトルMSを算定する。図12の構成によれば、周波数分析部326が実行するフーリエ変換の点数が第1実施形態と比較して削減されるから、周波数分析部326によるフーリエ変換の負荷(計算量)やフーリエ変換に必要な記憶装置24の容量が削減されるという利点がある。
(1) Modification 1
The modulation spectrum specifying unit 32 is changed to the configuration of FIG. 12 includes an averaging unit 328 in addition to a frequency analysis unit 322, a component extraction unit 324, and a frequency analysis unit 326 similar to those in FIG. The time trajectory ST generated by the component extraction unit 324 is divided into m sections (hereinafter referred to as “divided sections”) obtained by further dividing the unit section TU (m is a natural number of 2 or more). The frequency analysis unit 326 calculates a modulation spectrum for each divided section by performing Fourier transform on the time trajectory ST of each divided section. The averaging unit 328 calculates the modulation spectrum MS of the unit section TU by averaging the m modulation spectra calculated for each divided section constituting the unit section TU. According to the configuration of FIG. 12, since the number of points of Fourier transform executed by the frequency analysis unit 326 is reduced compared to the first embodiment, the load (computation amount) of Fourier transform by the frequency analysis unit 326 and the Fourier transform are reduced. There is an advantage that the capacity of the necessary storage device 24 is reduced.

(2)変形例2
音声/非音声の判定に使用される閾値TH(THd1,THd2,THd3,THp,THdv)が可変に制御される構成も好適である。例えば図13に示すように、第3実施形態の音処理装置14に閾値設定部68が追加される。閾値設定部68は、SN比特定部64が算定したSN比Rに応じて閾値THを可変に制御する。
(2) Modification 2
A configuration in which the threshold value TH (THd1, THd2, THd3, THp, THdv) used for voice / non-voice judgment is variably controlled is also suitable. For example, as shown in FIG. 13, a threshold setting unit 68 is added to the sound processing apparatus 14 of the third embodiment. The threshold setting unit 68 variably controls the threshold TH in accordance with the SN ratio R calculated by the SN ratio specifying unit 64.

入力音VINが実際には音声であっても、SN比Rが低い場合には、判定部42が入力音VINを非音声と誤判定する可能性が高まる。そこで、閾値設定部68は、SN比特定部64の算定したSN比Rが低いほど、入力音VINが音声と判定され易くなる方向に各閾値THを制御する。例えば、SN比Rが低いほど閾値THd3を増加させるとともに閾値THpや閾値THdvを減少させる。以上の構成によれば、実際には音声を含む入力音VINが非音声と誤判定される可能性を低減することができる。なおSN比R以外の数値(例えば入力音VINの音量)に応じて閾値THを可変に制御する構成も採用される。また、図13においては第3実施形態の変形を例示したが、第1実施形態や第2実施形態の音処理装置14についても同様に、SN比特定部64と閾値設定部68とを追加した構成が採用される。   Even if the input sound VIN is actually a voice, if the SN ratio R is low, the determination unit 42 is more likely to erroneously determine the input sound VIN as a non-voice. Therefore, the threshold value setting unit 68 controls each threshold value TH in such a direction that the input sound VIN is more likely to be determined to be a voice as the SN ratio R calculated by the SN ratio specifying unit 64 is lower. For example, as the SN ratio R is lower, the threshold value THd3 is increased and the threshold value THp and the threshold value THdv are decreased. According to the above configuration, it is possible to reduce the possibility that the input sound VIN including sound is erroneously determined as non-speech. A configuration in which the threshold value TH is variably controlled according to a numerical value other than the SN ratio R (for example, the volume of the input sound VIN) is also employed. Moreover, although the modification of 3rd Embodiment was illustrated in FIG. 13, the S / N ratio specific | specification part 64 and the threshold value setting part 68 were similarly added also about the sound processing apparatus 14 of 1st Embodiment or 2nd Embodiment. Configuration is adopted.

(3)変形例3
以上の各形態において、単位区間TUに含まれる音声の割合が少ない場合(例えば単位区間TUのなかの短い区間のみに音声が含まれる場合)には、当該単位区間TUは非音声と判定される可能性がある。したがって、非音声と判定された総ての単位区間TUについて一律に入力音VINを消音する構成においては、音声の開始や終了の部分(特に無声子音の部分)を僅かに含む単位区間TUが非音声と判定されて消音される場合がある。そこで、複数の単位区間TUについての判定部42による判定を考慮して各単位区間TU内の入力音VINの消音を実行する構成が好適である。
(3) Modification 3
In each of the above forms, when the proportion of the voice included in the unit section TU is small (for example, when the voice is included only in a short section of the unit section TU), the unit section TU is determined as non-speech. there is a possibility. Therefore, in the configuration in which the input sound VIN is muted uniformly for all the unit intervals TU determined to be non-speech, the unit interval TU slightly including the start and end portions (particularly the unvoiced consonant portion) of the sound is not included. In some cases, the sound is judged to be sound and muted. Therefore, it is preferable that the input sound VIN is silenced in each unit section TU in consideration of determination by the determination unit 42 for a plurality of unit sections TU.

例えば、ひとつの単位区間TUが非音声と判定された段階では音処理部44は当該単位区間TUの消音を実行せず、図14に示すように、相連続するk個(kは3以上の自然数)の単位区間TUについて入力音VINが非音声と判定された場合に、音処理部44は、k個の単位区間TUのうち最初(第1番目)と最後(第k番目)の単位区間TUを除外した各単位区間TU(すなわちk個の集合のなかの途中の単位区間TU)の入力音VINを消音する。第1番目と第k番目の単位区間TUについては入力音VINは消音されない。例えば、非音声と判定された3個(k=3)の単位区間TUのうち第2番目の単位区間TUの入力音VINのみが消音される。以上の構成によれば、始点の直後のみに音声を含む単位区間TU(例えば図14のk個の単位区間TUのうち第1番目の単位区間TU)や終点の直前に音声を含む単位区間TU(例えば図14の第k番目の単位区間TU)について消音が実行されないから、音声の欠落が防止されるという利点がある。   For example, when one unit section TU is determined to be non-speech, the sound processing unit 44 does not mute the unit section TU and, as shown in FIG. When the input sound VIN is determined to be non-speech with respect to the unit interval TU of (natural number), the sound processing unit 44 first (first) and last (kth) unit interval among the k unit intervals TU. The input sound VIN of each unit section TU excluding TU (that is, the unit section TU in the middle of the k sets) is muted. The input sound VIN is not muted for the first and kth unit intervals TU. For example, only the input sound VIN of the second unit section TU among the three (k = 3) unit sections TU determined as non-voice is muted. According to the above configuration, the unit section TU including speech only immediately after the start point (for example, the first unit section TU among the k unit sections TU in FIG. 14) or the unit section TU including speech immediately before the end point. Since mute is not executed for (for example, the k-th unit interval TU in FIG. 14), there is an advantage that voice loss is prevented.

(4)変形例4
各指標値D(D1,D2,D3)の定義は適宜に変更される。したがって、各指標値D(D1,D2,D3)の大小と音声/非音声との関係は任意である。例えば、第1実施形態においては指標値D1が小さいほど入力音VINが音声と判定される可能性が高くなるように指標値D1を定義したが、例えば強度L2に対する強度L1の相対比を指標値D1(D1=L1/L2)と定義すれば、指標値D1が大きいほど音声と判定される可能性が高くなる。また、ひとつの加重値αを使用して指標値D3を定義したが、指標値D1と指標値D2とで独立に設定した加重値(β,γ)を適用して指標値D3(D3=β・D1+γ・D2)を算定する構成も好適である。また、指標値D3の算定に使用される加重値(α,β,γ)は固定値であってもよい。
(4) Modification 4
The definition of each index value D (D1, D2, D3) is changed as appropriate. Therefore, the relationship between the magnitude of each index value D (D1, D2, D3) and voice / non-voice is arbitrary. For example, in the first embodiment, the index value D1 is defined such that the smaller the index value D1 is, the higher the possibility that the input sound VIN is determined to be speech. For example, the relative ratio of the intensity L1 to the intensity L2 is defined as the index value. If it is defined as D1 (D1 = L1 / L2), the greater the index value D1, the higher the possibility of being determined to be speech. Further, the index value D3 is defined using one weight value α, but the index value D3 (D3 = β) is applied by applying the weight values (β, γ) set independently for the index value D1 and the index value D2. A configuration for calculating D1 + γ · D2) is also suitable. Also, the weight values (α, β, γ) used for calculating the index value D3 may be fixed values.

(5)変形例5
第1実施形態および第3実施形態においては対数スペクトルS0において周波数帯域ωに属する成分の時間軌跡STに対してフーリエ変換を実行することで変調スペクトルMSを特定したが、音響信号SIN(入力音VIN)のケプストラムの時間軌跡に対してフーリエ変換を実行することで変調スペクトルMSを特定する構成も採用される。さらに詳述すると、変調スペクトル特定部32の周波数分析部322は、音響信号SINの各フレームについてケプストラムを算定し、成分抽出部324は、各フレームのケプストラムのうちケフレンシが特定の範囲内にある成分の時間軌跡STを抽出し、周波数分析部326は、ケプストラムの時間軌跡STに対して単位区間TU毎(または変形例1のように分割期間毎)にフーリエ変換を実行することで各単位区間TUの変調スペクトルMSを算定する。
(5) Modification 5
In the first embodiment and the third embodiment, the modulation spectrum MS is specified by performing Fourier transform on the time trajectory ST of the component belonging to the frequency band ω in the logarithmic spectrum S0, but the acoustic signal SIN (input sound VIN) is specified. A configuration is also adopted in which the modulation spectrum MS is specified by performing Fourier transformation on the time trajectory of the cepstrum. More specifically, the frequency analyzing unit 322 of the modulation spectrum specifying unit 32 calculates a cepstrum for each frame of the acoustic signal SIN, and the component extracting unit 324 is a component having a quefrency within a specific range in the cepstrum of each frame. The frequency analysis unit 326 performs a Fourier transform for each unit section TU (or for each divided period as in Modification 1) with respect to the time path ST of the cepstrum, so that each unit section TU is extracted. The modulation spectrum MS is calculated.

(6)変形例6
音声/非音声の判定に使用される変数は適宜に変更される。例えば、第1実施形態や第3実施形態においては最大値Pに応じた判定(図8のステップSA3や図11のステップSB3)を省略してもよいし、第3実施形態においては有声指標値DVに応じた判定(図11のステップSB4)を省略してもよい。また、第1実施形態や第2実施形態に有声無声判定部72および指標算定部74を追加した構成も好適である。
(6) Modification 6
Variables used for voice / non-voice determination are changed as appropriate. For example, the determination according to the maximum value P (step SA3 in FIG. 8 or step SB3 in FIG. 11) may be omitted in the first embodiment or the third embodiment, and the voiced index value in the third embodiment. The determination according to DV (step SB4 in FIG. 11) may be omitted. Moreover, the structure which added the voiced unvoiced determination part 72 and the parameter | index calculation part 74 to 1st Embodiment or 2nd Embodiment is also suitable.

(7)変形例7
以上の各形態においては、入力音VINを収音した空間R内の音処理装置14にて識別データdおよび出力信号SOUTを生成したが、識別データdを生成する位置や出力信号SOUTを生成する位置は適宜に変更される。例えば、収音機器12が生成した音響信号SINと判定部42の生成した識別データdとを音処理装置14が出力する構成においては、音響信号SINと識別データdとから出力信号SOUTを生成する音処理部44が受信側の音処理装置16に配置される。また、収音機器12が生成した音響信号SINを音処理装置14が送信する構成においては、受信側の音処理装置16に図2と同様の要素が設置される。もっとも、遠隔会議システム100は本発明の用途の例示に過ぎない。したがって、出力信号SOUTや音響信号SINの送受信は本発明において必須ではない。
(7) Modification 7
In each of the above embodiments, the identification data d and the output signal SOUT are generated by the sound processing device 14 in the space R that picks up the input sound VIN, but the position for generating the identification data d and the output signal SOUT are generated. The position is changed as appropriate. For example, in the configuration in which the sound processing device 14 outputs the acoustic signal SIN generated by the sound collection device 12 and the identification data d generated by the determination unit 42, the output signal SOUT is generated from the acoustic signal SIN and the identification data d. A sound processing unit 44 is arranged in the sound processing device 16 on the receiving side. Further, in the configuration in which the sound processing device 14 transmits the acoustic signal SIN generated by the sound collecting device 12, the same elements as those in FIG. 2 are installed in the sound processing device 16 on the receiving side. However, the remote conference system 100 is merely an example of the application of the present invention. Therefore, transmission / reception of the output signal SOUT and the acoustic signal SIN is not essential in the present invention.

(8)変形例8
以上の各形態においては、非音声と判定された単位区間TUの音響信号SINを音処理部44が出力しない(出力信号SOUTの音量をゼロに設定する)構成を例示したが、音処理部44による処理の内容は適宜に変更される。例えば、非音声と判定された単位区間TUについて音響信号SINの音量を低下させた信号を音処理部44が出力信号SOUTとして出力する構成や、音声と判定された単位区間TUと非音声と判定された単位区間TUとで別個の音響的な効果を音響信号SINに付与した信号を音処理部44が出力信号SOUTとして出力する構成も好適である。また、出力信号SOUTの出力先(音処理装置16)において音声認識や話者認識(話者識別または話者認証)が実行される構成において、音処理部44は、例えば、音声と判定された単位区間TUについては、音声認識や話者認識に使用される特徴量を音響信号SINから抽出して出力信号SOUTとして出力する一方、非音声と判定された単位区間TUについては特徴量の抽出を停止する。
(8) Modification 8
In each of the above embodiments, the sound processing unit 44 does not output the acoustic signal SIN of the unit section TU determined to be non-speech (sets the volume of the output signal SOUT to zero), but the sound processing unit 44 is exemplified. The content of the processing by is changed as appropriate. For example, a configuration in which the sound processing unit 44 outputs as the output signal SOUT a signal in which the volume of the acoustic signal SIN is reduced for the unit interval TU determined to be non-speech, or the unit interval TU determined to be speech and non-speech A configuration in which the sound processing unit 44 outputs a signal obtained by adding a separate acoustic effect to the acoustic signal SIN in the unit interval TU as the output signal SOUT is also preferable. Further, in a configuration in which speech recognition or speaker recognition (speaker identification or speaker authentication) is performed at the output destination of the output signal SOUT (sound processing device 16), the sound processing unit 44 is determined to be, for example, speech. For the unit section TU, the feature quantity used for speech recognition and speaker recognition is extracted from the acoustic signal SIN and output as the output signal SOUT, while the feature quantity is extracted for the unit section TU determined to be non-speech. Stop.

本発明の第1実施形態に係る遠隔会議システムのブロック図である。1 is a block diagram of a remote conference system according to a first embodiment of the present invention. 図1の音処理装置のブロック図である。It is a block diagram of the sound processing apparatus of FIG. 図2の変調スペクトル特定部のブロック図である。It is a block diagram of the modulation spectrum specific | specification part of FIG. 図2の変調スペクトル特定部による処理の手順を示す概念図である。It is a conceptual diagram which shows the procedure of the process by the modulation spectrum specific | specification part of FIG. 音声の変調スペクトルである。This is the modulation spectrum of speech. 非音声の変調スペクトルである。This is a non-voice modulation spectrum. 非音声の変調スペクトルである。This is a non-voice modulation spectrum. 図2の判定部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the determination part of FIG. 本発明の第2実施形態に係る音処理装置のブロック図である。It is a block diagram of the sound processing apparatus which concerns on 2nd Embodiment of this invention. 本発明の第3実施形態に係る音処理装置のブロック図である。It is a block diagram of the sound processing apparatus which concerns on 3rd Embodiment of this invention. 図10の判定部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the determination part of FIG. 変形例に係る変調スペクトル特定部のブロック図である。It is a block diagram of the modulation spectrum specific | specification part which concerns on a modification. 変形例に係る音処理装置のブロック図である。It is a block diagram of the sound processing apparatus which concerns on a modification. 変形例に係る音処理部の動作を示す概念図である。It is a conceptual diagram which shows operation | movement of the sound processing part which concerns on a modification.

符号の説明Explanation of symbols

100……遠隔会議システム、12……収音機器、14……音処理装置、16……音処理装置、18……放音機器、22……制御装置、24……記憶装置、32……変調スペクトル特定部、322……周波数分析部、324……成分抽出部、326……周波数分析部、328……平均部、34,54,62,74……指標算定部、36……強度特定部、42……判定部、44……音処理部、52……特徴抽出部、64……SN比特定部、66……加重値設定部、68……閾値設定部、72……有声無声判別部、VIN……入力音、SIN……音響信号、SOUT……出力信号、d……識別データ、MS……変調スペクトル、M……音響モデル、D1,D2,D3……指標値、P……変調スペクトルの強度の最大値、R……SN比、TU……単位区間。 100 …… Remote conference system, 12 …… Sound collecting device, 14 …… Sound processing device, 16 …… Sound processing device, 18 …… Sound emitting device, 22 …… Control device, 24 …… Storage device, 32 …… Modulation spectrum identification unit, 322... Frequency analysis unit, 324... Component extraction unit, 326... Frequency analysis unit, 328... Average unit, 34, 54, 62, 74. , 42... Determination unit, 44... Sound processing unit, 52... Feature extraction unit, 64... SN ratio specifying unit, 66... Weight setting unit, 68. Discriminating unit, VIN …… input sound, SIN …… acoustic signal, SOUT …… output signal, d …… identification data, MS …… modulation spectrum, M …… acoustic model, D1, D2, D3 …… index value, P …… Maximum value of intensity of modulation spectrum, R …… SNR, TU …… Unit interval.

Claims (7)

複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定手段と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定手段と、
母音の音声から生成された音響モデルを記憶する記憶手段と、
前記入力音と前記音響モデルとの類否を示す第2指標値を前記単位区間毎に算定する第2指標算定手段と、
前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第1指標値と前記第2指標値とに基づいて判定する判定手段と
を具備する音処理装置。
Modulation spectrum specifying means for specifying the modulation spectrum of the input sound for each of a plurality of unit sections;
First index calculating means for calculating a first index value according to the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum;
Storage means for storing an acoustic model generated from vowel sounds;
Second index calculation means for calculating a second index value indicating similarity between the input sound and the acoustic model for each unit section;
A sound processing apparatus comprising: a determination unit that determines whether the input sound of each unit section is speech or non-speech based on the first index value and the second index value of the unit section.
前記記憶手段は、複数種の母音の音声から生成されたひとつの前記音響モデルを記憶する
請求項1の音処理装置。
The sound processing apparatus according to claim 1, wherein the storage unit stores one acoustic model generated from a plurality of types of vowel sounds.
前記第1指標値と前記第2指標値との加重和を第3指標値として算定する第3指標算定手段を具備し、
前記判定手段は、前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第3指標値に基づいて判定する
請求項1または請求項2の音処理装置。
Comprising a third index calculation means for calculating a weighted sum of the first index value and the second index value as a third index value;
The sound processing device according to claim 1, wherein the determination unit determines whether the input sound of each unit section is voice or non-speech based on the third index value of the unit section.
前記第3指標算定手段が第3指標値の算定に適用する加重値を前記入力音のSN比に応じて可変に設定する加重値設定手段
を具備する請求項3の音処理装置。
The sound processing apparatus according to claim 3, further comprising weight value setting means for variably setting a weight value applied to the calculation of the third index value by the third index calculation means according to the SN ratio of the input sound.
前記単位区間を区分した複数の区間のうち有声音の区間の割合に応じた有声指標値を算定する有声指標算定手段を具備し、
前記判定手段は、前記第1指標値と前記第2指標値と前記有声指標値とに基づいて前記入力音が音声か非音声かを判定する
請求項1から請求項4の何れかの音処理装置。
Comprising a voiced index calculating means for calculating a voiced index value according to a ratio of a voiced sound section among a plurality of sections into which the unit sections are divided;
5. The sound processing according to claim 1, wherein the determination unit determines whether the input sound is voice or non-voice based on the first index value, the second index value, and the voiced index value. apparatus.
相連続する3個以上の単位区間について前記判定手段が非音声と判定した場合に、前記3個以上の単位区間のなかの途中の単位区間の入力音のみを消音する音処理手段
を具備する請求項1から請求項5の何れかの音処理装置。
And a sound processing unit that silences only an input sound in a unit section in the middle of the three or more unit sections when the determination unit determines non-speech for three or more consecutive unit sections. The sound processing device according to any one of claims 1 to 5.
複数の単位区間の各々について入力音の変調スペクトルを特定する変調スペクトル特定処理と、
前記変調スペクトルのうち変調周波数が所定の範囲に属する成分の強度に応じた第1指標値を算定する第1指標算定処理と、
母音の音声から生成された音響モデルと前記入力音との類否を示す第2指標値を前記単位区間毎に算定する第2指標算定処理と、
前記各単位区間の入力音が音声か非音声かを当該単位区間の前記第1指標値と前記第2指標値とに基づいて判定する判定処理と
をコンピュータに実行させるプログラム。
A modulation spectrum specifying process for specifying the modulation spectrum of the input sound for each of the plurality of unit sections;
A first index calculation process for calculating a first index value according to the intensity of a component whose modulation frequency belongs to a predetermined range in the modulation spectrum;
A second index calculation process for calculating, for each unit section, a second index value indicating the similarity between the acoustic model generated from the vowel sound and the input sound;
A program for causing a computer to execute determination processing for determining whether the input sound of each unit section is speech or non-speech based on the first index value and the second index value of the unit section.
JP2008014422A 2008-01-25 2008-01-25 Sound processing apparatus and program Expired - Fee Related JP5157475B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008014422A JP5157475B2 (en) 2008-01-25 2008-01-25 Sound processing apparatus and program
EP09000943.2A EP2083417B1 (en) 2008-01-25 2009-01-23 Sound processing device and program
US12/358,400 US8473282B2 (en) 2008-01-25 2009-01-23 Sound processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008014422A JP5157475B2 (en) 2008-01-25 2008-01-25 Sound processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2009175474A true JP2009175474A (en) 2009-08-06
JP5157475B2 JP5157475B2 (en) 2013-03-06

Family

ID=41030625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008014422A Expired - Fee Related JP5157475B2 (en) 2008-01-25 2008-01-25 Sound processing apparatus and program

Country Status (1)

Country Link
JP (1) JP5157475B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091465A (en) * 2018-12-05 2020-06-11 ヤマハ・ユニファイド・コミュニケーションズ Sound class identification using neural network

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6481997A (en) * 1987-09-24 1989-03-28 Nec Corp Voice detection system
JPH06110492A (en) * 1992-08-13 1994-04-22 Fujitsu Ltd Speech recognition device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6481997A (en) * 1987-09-24 1989-03-28 Nec Corp Voice detection system
JPH06110492A (en) * 1992-08-13 1994-04-22 Fujitsu Ltd Speech recognition device

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
CSNG200600147006; 和田直哉 他: '"重み付け変調スペクトルを用いた耐雑音音声認識"' 電子情報通信学会技術研究報告 Vol.105,No.426, 20051117, p.25-30, 社団法人電子情報通信学会 The Institute of Electro *
CSNG200600845116; 中山雅人 他: '"GMMによる母音/子音区間の自動検出と適応形ビームフォーマを用いた母音/子音平均スペクトルに基づく雑音' 日本音響学会2003年秋季研究発表会講演論文集-I- , 20030917, p.507-508 *
CSNG200600928030; 天野明雄: '"耐環境騒音音声認識のための音声/非音声識別の高精度化に関する検討"' 日本音響学会2005年春季研究発表会講演論文集-I- , 20050308, p.77-78 *
CSNG200700578006; 藤田匡彦 他: '"耐雑音音声認識における変調ケプストラム操作の効果に関する一考察"' 電子情報通信学会技術研究報告 Vol.106,No.576, 20070302, p.29-33 *
CSNG200701148008; 高橋亘 他: '"RSFを用いた雑音ロバスト音声区間検出の一考察"' 電子情報通信学会技術研究報告 Vol.107,No.238, 20070920, p.59-64 *
CSNJ201010078542; 大淵康成 他: '"音声・非音声判別のための家庭環境音響データベース作成"' 日本音響学会2007年秋季研究発表会講演論文集CD-ROM , 20070912, p.269-270 *
JPN6012006515; 高橋亘 他: '"RSFを用いた雑音ロバスト音声区間検出の一考察"' 電子情報通信学会技術研究報告 Vol.107,No.238, 20070920, p.59-64 *
JPN6012006516; 和田直哉 他: '"重み付け変調スペクトルを用いた耐雑音音声認識"' 電子情報通信学会技術研究報告 Vol.105,No.426, 20051117, p.25-30, 社団法人電子情報通信学会 The Institute of Electro *
JPN6012006518; 藤田匡彦 他: '"耐雑音音声認識における変調ケプストラム操作の効果に関する一考察"' 電子情報通信学会技術研究報告 Vol.106,No.576, 20070302, p.29-33 *
JPN6012006520; 大淵康成 他: '"音声・非音声判別のための家庭環境音響データベース作成"' 日本音響学会2007年秋季研究発表会講演論文集CD-ROM , 20070912, p.269-270 *
JPN6012006522; 天野明雄: '"耐環境騒音音声認識のための音声/非音声識別の高精度化に関する検討"' 日本音響学会2005年春季研究発表会講演論文集-I- , 20050308, p.77-78 *
JPN6012006525; 中山雅人 他: '"GMMによる母音/子音区間の自動検出と適応形ビームフォーマを用いた母音/子音平均スペクトルに基づく雑音' 日本音響学会2003年秋季研究発表会講演論文集-I- , 20030917, p.507-508 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091465A (en) * 2018-12-05 2020-06-11 ヤマハ・ユニファイド・コミュニケーションズ Sound class identification using neural network

Also Published As

Publication number Publication date
JP5157475B2 (en) 2013-03-06

Similar Documents

Publication Publication Date Title
EP2083417B1 (en) Sound processing device and program
JP4568371B2 (en) Computerized method and computer program for distinguishing between at least two event classes
Goto et al. A real-time filled pause detection system for spontaneous speech recognition
JP6024180B2 (en) Speech recognition apparatus, speech recognition method, and program
JP5961950B2 (en) Audio processing device
JP5088050B2 (en) Voice processing apparatus and program
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
JP2015068897A (en) Evaluation method and device for utterance and computer program for evaluating utterance
JP5050698B2 (en) Voice processing apparatus and program
JP2007017620A (en) Utterance section detecting device, and computer program and recording medium therefor
JP5282523B2 (en) Basic frequency extraction method, basic frequency extraction device, and program
Alonso-Martin et al. Multidomain voice activity detection during human-robot interaction
JP5157474B2 (en) Sound processing apparatus and program
JP2797861B2 (en) Voice detection method and voice detection device
JP5157475B2 (en) Sound processing apparatus and program
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
JP2011118290A (en) Speech recognition device
JPS60114900A (en) Voice/voiceless discrimination
Kasap et al. A unified approach to speech enhancement and voice activity detection
JP2006154212A (en) Speech evaluation method and evaluation device
JP3046029B2 (en) Apparatus and method for selectively adding noise to a template used in a speech recognition system
JP2006010739A (en) Speech recognition device
JP5169297B2 (en) Sound processing apparatus and program
JP4349415B2 (en) Sound signal processing apparatus and program
JP5272141B2 (en) Voice processing apparatus and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

R150 Certificate of patent or registration of utility model

Ref document number: 5157475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees