JP3375655B2 - Sound / silence determination method and device - Google Patents
Sound / silence determination method and deviceInfo
- Publication number
- JP3375655B2 JP3375655B2 JP02488992A JP2488992A JP3375655B2 JP 3375655 B2 JP3375655 B2 JP 3375655B2 JP 02488992 A JP02488992 A JP 02488992A JP 2488992 A JP2488992 A JP 2488992A JP 3375655 B2 JP3375655 B2 JP 3375655B2
- Authority
- JP
- Japan
- Prior art keywords
- determination
- unit
- voiced
- value
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、ディジタル音声通信等
に使用する音声の有音無音判定方法およびその装置に関
するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for determining the presence / absence of voice for use in digital voice communication and the like, and a device therefor.
【0002】[0002]
【従来の技術】近年、自動車電話、携帯電話等の移動体
通信では低消費電力化を図るため、音声の無音区間では
送信を中断する方法が必要とされており、精度の高い有
音無音判定方法の開発が望まれている。2. Description of the Related Art In recent years, in mobile communication such as car phones and mobile phones, a method of interrupting the transmission in a silent section of a voice is required in order to reduce power consumption. Development of methods is desired.
【0003】以下、従来の有音無音判定方法について説
明する。図9は従来の有音無音判定装置を示す図であ
る。図9において、9はパラメータ抽出部、10、11
は第1、第2の2値論理判定部、12は第3の2値論理
判定部、13はハングオーバ発生部、14、15は1フ
レーム遅延部である。A conventional method for determining whether or not a sound is present will be described below. FIG. 9 is a diagram showing a conventional sound / soundlessness determination device. In FIG. 9, 9 is a parameter extraction unit, 10, 11
Is a first and second binary logic decision unit, 12 is a third binary logic decision unit, 13 is a hangover occurrence unit, and 14 and 15 are 1-frame delay units.
【0004】以上のような構成により、まずパラメータ
抽出部9によって、フレームに分割された入力音声から
パワー、ゼロクロス数などの有音無音判定に有用である
いくつかの特徴パラメータを抽出する。次に、第1、第
2の2値論理判定部10、11それぞれの判定規則によ
り、しきい値を用いて有音無音の2値判定を行なう。例
えば、第1の2値論理判定部10ではパワーの大きさに
よる2値判定を行ない、第2の2値論理判定部11では
ゼロクロス数による2値判定を行なう。第3の2値論理
判定部12では、第1、第2の2値論理判定部10、1
1それぞれの判定結果と、1フレーム遅延部14、15
より出力された前フレームの判定結果とをもとにして、
2値論理演算を使用して有音無音の判定を行なう。ハン
グオーバ発生部13では、第3の2値論理判定部12に
よる無音判定が数フレーム連続したときに最終判定を有
音から無音に遷移させる。なお、1フレーム遅延部1
4、15による判定のフィードバックは必要により使用
される。With the above-mentioned configuration, first, the parameter extraction unit 9 extracts some characteristic parameters such as power and the number of zero crosses, which are useful for determining the presence / absence of voice, from the input voice divided into frames. Next, according to the determination rule of each of the first and second binary logic determination units 10 and 11, binary determination of voiced / unvoiced is performed using a threshold value. For example, the first binary logic determination unit 10 performs binary determination based on the magnitude of power, and the second binary logic determination unit 11 performs binary determination based on the number of zero crosses. In the third binary logic determination unit 12, the first and second binary logic determination units 10, 1
1 determination result and 1 frame delay units 14 and 15
Based on the determination result of the previous frame output from
The presence or absence of voice is determined using a binary logic operation. In the hangover generation unit 13, when the silence determination by the third binary logic determination unit 12 continues for several frames, the final determination is transitioned from voiced to silence. The 1-frame delay unit 1
The feedback of judgment by 4 and 15 is used if necessary.
【0005】[0005]
【発明が解決しようとする課題】しかしながら上記従来
の有音無音判定方法では、精度の高いパラメータ抽出方
法および精度の高い判定規則が存在しないので、判定し
きい値が明確な2値論理による判定では、判定規則の判
定に誤りが生じやすく、最終的な有音無音の判定にも誤
りを生じるという問題があった。However, in the above-described conventional voiced / soundless determination method, since there is no highly accurate parameter extraction method and highly accurate determination rule, it is not possible to perform determination by binary logic with a clear determination threshold value. However, there is a problem that an error is likely to occur in the determination of the determination rule, and an error is also caused in the final determination of voiced / unvoiced sound.
【0006】本発明は上記従来の問題を解決するもので
あり、音声のパワー、ゼロクロス数等、精度の高くない
特徴パラメータと判定規則を使用した場合であっても、
最終的な判定にはより確からしい判定結果を得ることが
できる優れた有音無音判定方法を提供することを目的と
するものである。The present invention solves the above-mentioned problems of the related art. Even when a feature parameter and a determination rule that are not accurate, such as the power of voice and the number of zero crosses, are used,
It is an object of the present invention to provide an excellent voiced / unvoiced determination method capable of obtaining a more reliable determination result in the final determination.
【0007】[0007]
【課題を解決するための手段】本発明は上記目的を達成
するために、途中の判定過程においては、0〜1の範囲
内の連続値を持つ多値論理を使用し、例えば、0が「無
音」、0.5が「判定不能」、1が「有音」と意味づけ
された値の最大値と最小値とを用いて推論を行うように
し、最終段階において有音か無音かの2値判定を行うよ
うにしたものである。In order to achieve the above object, the present invention uses multi-valued logic having continuous values in the range of 0 to 1 in the judgment process on the way, for example, 0 is " Inference is performed using the maximum value and the minimum value of the values meaning "silent", 0.5 is "undecidable", and 1 is "voiced". The value judgment is performed.
【0008】また、それぞれの判定においては、判定特
性が非線形の場合にも少ない処理量で多値論理出力が得
られるよう、入出力関係を記録したデータテーブルを備
えたものである。Further, in each judgment, a data table recording the input / output relationship is provided so that a multivalued logic output can be obtained with a small processing amount even when the judgment characteristic is non-linear.
【0009】また、確からしくない無音判定に対して
は、長いハングオーバ時間を発生するようにして、有音
を無音と判定する誤りを減少させるものである。Further, for the uncertain silence determination, a long hangover time is generated to reduce the error of determining the sound as silence.
【0010】[0010]
【作用】本発明は上記構成により、それぞれの判定規則
では明確なしきい値処理を行わず、判定の確からしさに
応じた値を出力し、最終的な判定において上記確からし
さに応じた処理を行う。つまり、複数の規則を用いてそ
のなかで最も確からしい判定出力を使うことで、より確
からしい判定結果を得る。With the above construction, the present invention does not perform clear threshold value processing in each judgment rule, outputs a value according to the certainty of the judgment, and performs processing according to the certainty in the final judgment. . That is, a more probable determination result is obtained by using a plurality of rules and using the most probable determination output among them.
【0011】また、入出力関係を記録したデータテーブ
ルを備えたデータテーブルを備えたことで、パラメータ
と判定出力が非線形な特性の場合にも少ない処理量で処
理ができる。Further, since the data table having the data table recording the input / output relation is provided, the processing can be performed with a small processing amount even when the parameter and the determination output have a non-linear characteristic.
【0012】また、確からしさの低い無音判定では、ハ
ングオーバ時間を長く発生させて最終的な有音判定から
無音判定へ遷移させる時間を遅らせることにより、有音
を無音に誤判定させる率を減少させる。Further, in the silent determination with low certainty, the hangover time is lengthened to delay the transition time from the final voice determination to the silent determination, thereby reducing the rate of false determination of voice. .
【0013】[0013]
【実施例】以下本発明の一実施例について図面を参照し
ながら説明する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.
【0014】図1は本発明の有音無音判定方法を実現す
る構成を示す図である。図1において、1はフレームに
分割された音声データから有音無音判定に有効な1つも
しくは複数の特徴パラメータを抽出するパラメータ抽出
部である。2、3はそれぞれの判定規則により有音無音
判定を行い、0〜1の範囲内の連続値による多値論理に
よる判定結果を出力する第1、第2の多値論理判定部で
ある。4は複数の判定結果からより確かな結果を推論す
る多値論理による推論部である。5は判定結果の確から
しさにより可変のハングオーバ時間を発生する可変ハン
グオーバ発生部である。6は最終的に有音無音の2値判
定を行う2値判定部である。7は判定結果を1フレーム
遅延して推論部4へのフィードバックを行う判定結果フ
ィードバック部である。FIG. 1 is a diagram showing a configuration for realizing the voiced / unvoiced determination method of the present invention. In FIG. 1, reference numeral 1 is a parameter extraction unit that extracts one or a plurality of characteristic parameters effective for determining whether a sound is present or not from voice data divided into frames. Reference numerals 2 and 3 are first and second multi-valued logic determination units that perform voiced / non-voiced determination according to their respective determination rules and output a determination result by multi-valued logic based on continuous values within the range of 0 to 1. Reference numeral 4 is an inference unit based on multivalued logic that infers a more reliable result from a plurality of determination results. A variable hangover generation unit 5 generates a variable hangover time according to the certainty of the determination result. Reference numeral 6 is a binary determination unit that finally performs a binary determination of whether there is sound or no sound. Reference numeral 7 denotes a determination result feedback unit that delays the determination result by one frame and feeds it back to the inference unit 4.
【0015】以上のような構成において、有音無音判定
を行う場合について説明する。本実施例の各過程におい
ては下式を用いる。A case will be described in which the presence / absence of a sound is determined in the above configuration. The following equation is used in each step of this embodiment.
【0016】
If パワーが大きい then 有音 ……規則
If パワーが小さい then 無音 ……規則
If (ゼロクロス数が小さい and 前フレームが
有音) then有音 ……規則
まず、パラメータ抽出部1において、フレーム長がnの
第jフレームの音声(Xj(i);0≦i≦n−1)よ
り特徴パラメータとして、パワーPjとゼロクロス数Zj
を求め、その結果、図2に示すPj、Zjを得たとする。If power is large then voice ... rule If power is low then silence ... rule If (small zero cross number and previous frame is voice) then voice ... rule First, in the parameter extraction unit 1, the frame is extracted. From the voice of the j-th frame having a length of n (X j (i); 0 ≦ i ≦ n−1), the power P j and the number of zero crosses Z j are set as the characteristic parameters.
Is obtained, and as a result, P j and Z j shown in FIG. 2 are obtained.
【0017】図3(a)は第1の多値論理判定部2の内
部構成を示す図であり、2aは入力されたパワーP
jと、出力である有音無音判定値d1jとの関係を定義す
るデータテーブルである。2bは入力されたパワーPj
にしたがって、データテーブルから対応する有音無音判
定値d1jを読み出すデータテーブル読み出し部である。
図3(b)はデータテーブル2aにおけるパワーPjと
有音無音判定値d1jとの関係を図示したものである。こ
の第1の多値論理判定部2では、規則、による判定
を、データテーブル読み出し部2bにより、入力された
パワーPjに応じてデータテーブル2aの読み出しを行
い、図2に示す有音無音判定値d1jを得て、推論部4に
対して出力する。FIG. 3 (a) is a diagram showing the internal structure of the first multi-valued logic decision section 2, 2a being the input power P.
6 is a data table that defines the relationship between j and the output voiced / unvoiced determination value d 1j . 2b is the input power P j
The data table reading unit reads out the corresponding voiced / unvoiced determination value d 1j from the data table in accordance with the above.
FIG. 3B shows the relationship between the power P j and the voiced / unvoiced judgment value d 1j in the data table 2a. In the first multi-level logic determination unit 2, rules, a decision by, the data table reading section 2b, reads the data table 2a in accordance with the input power P j, voice activity detection shown in FIG. 2 The value d 1j is obtained and output to the inference unit 4.
【0018】図4(a)は第2の多値論理判定部3の内
部構成を示す図であり、3aは入力されたゼロクロス数
Zjと、出力である有音無音判定値d20jとの関係を定義
するデータテーブルである。3bは入力されたゼロクロ
ス数Zjにしたがって、データテーブル3aから対応す
る有音無音判定値d20jを読み出すデータテーブル読み
出し部である。図4(b)はデータテーブル3aにおけ
るゼロクロス数Zjと有音無音判定値d20jとの関係を図
示したものである。この第2の多値論理判定部3では、
規則の「ゼロクロス数が小さい」の判定を、データテ
ーブル読み出し部3bにより、入力されたゼロクロス数
Zjに応じてデータテーブル3aの読み出しを行い、図
2に示す有音無音判定値d20jを得て、推論部4に対し
て出力する。FIG. 4 (a) is a diagram showing the internal structure of the second multi-valued logic judgment section 3, and 3a shows the number of input zero crosses Z j and the output sound / sound judgment value d 20j . It is a data table which defines a relationship. Reference numeral 3b is a data table reading unit for reading the corresponding sound / non-sound determination value d 20j from the data table 3a according to the input zero-cross number Z j . FIG. 4B illustrates the relationship between the number of zero crosses Z j and the voiced / unvoiced judgment value d 20j in the data table 3a. In the second multi-valued logic determination unit 3,
For the determination of "the number of zero crosses is small" in the rule, the data table reading unit 3b reads the data table 3a according to the input number of zero crosses Z j , and obtains the voiced / unvoiced determination value d 20j shown in FIG. And outputs it to the inference unit 4.
【0019】図5(a)は判定結果フィードバック部7
の内部構成を示す図であり、7aは推論部4の出力dj
をもとに1フレーム遅延部7cを通じて得られる前フレ
ームにおける推論部4の出力dj-1と、出力である有音
無音判定値@21jとの関係を定義するデータテーブルで
ある。7bは入力された1フレーム遅延部7cの出力d
j-1にしたがって、データテーブル7aから対応する有
音無音判定値@21jを読み出すデータテーブル読み出し
部である。この判定結果フィードバック部7では、規則
の「前フレームが有音」の判定を、データテーブル7
bにより、前フレームの推論部4の出力dj-1に応じて
データテーブル7aの読み出しを行い、図2に示す有音
無音判定値@21jを得て、推論部4に出力する。FIG. 5A shows the judgment result feedback section 7
7a is a diagram showing the internal configuration of the output of the inference unit 4 dj
The 1-frame delay unit 7c based on
Output d of the inference unit 4 in the gamej-1And the sound that is output
Silence judgment value @21jIn the data table that defines the relationship with
is there. 7b is the input output d of the 1-frame delay unit 7c
j-1According to the data table 7a
Sound silence judgment value @21jRead Data Table Read
It is a department. In this judgment result feedback unit 7, the rule
Data table 7
The output d of the inference unit 4 of the previous frame according to bj-1In response to the
The data table 7a is read, and the sound
Silence judgment value @21jIs obtained and output to the inference unit 4.
【0020】図6は推論部4の内部構成を示す図であ
る。図6において、4aは第2の多値論理判定部3の出
力d20jと、判定結果フィードバック部7の出力@21jを
もとにして下式の計算を行う前置演算部である。4b
は第1の多値論理判定部2の出力d1j、前置演算部4a
の出力d2jおよび0.5のうち最大値を出力する最大値
検出部、4cは第1の多値論理判定部2の出力d1j、前
置演算部4aの出力d2jおよび0.5のうち最小値を出
力する最小値検出部である。FIG. 6 shows the internal structure of the inference unit 4. In FIG. 6, reference numeral 4a denotes a pre-calculation unit that calculates the following equation based on the output d 20j of the second multi-valued logic judgment unit 3 and the output @ 21j of the judgment result feedback unit 7. 4b
Is the output d 1j of the first multi-valued logic decision unit 2 and the pre-calculation unit 4a
Of the outputs d 2j and 0.5 of the maximum value detector 4c, the maximum value detector 4c outputs the output d 1j of the first multi-valued logic decision unit 2 and the outputs d 2j and 0.5 of the pre-calculator 4a. It is a minimum value detection unit that outputs the minimum value.
【0021】上記の構成を持つ推論部4では、最初のス
テップとして規則の「and」を下式により実行
し、規則による判定結果として図2に示す有音無音判
定値d 2jを得る。In the inference unit 4 having the above structure, the first scan
The rule "and" is executed as the step by the following formula
As a result of the rule, the voiced and silent judgment shown in FIG.
Constant value d 2jTo get
【0022】
d2j=@21j×(d20j−0.5)+0.5 ……
推論部4における次のステップでは、d1j、d2j、およ
び0.5をいずれも最大値検出部4b、最小値検出部4
cに与え、それぞれの出力値を加える。この値から0.
5を減算して有音無音判定値djを得る。ここでの最大
値検出部4b、最小値検出部4cはそれぞれ最も確から
しい有音判定値と無音判定値とを求める機能を果たして
いる。D 2j = @ 21j × (d 20j −0.5) +0.5 In the next step of the inference unit 4, all of d 1j , d 2j , and 0.5 are detected by the maximum value detection unit 4 b. Minimum value detector 4
It is given to c, and each output value is added. From this value 0.
5 is subtracted to obtain a voiced / unvoiced judgment value d j . The maximum value detection unit 4b and the minimum value detection unit 4c here have a function of obtaining the most probable sound determination value and silence determination value, respectively.
【0023】図7は可変ハングオーバ発生部5の内部構
成を示す図である。図7において、7aは推論部4の出
力dj=xと、可変ハングオーバ発生部5の出力sの前
フレームにおける値s'とを用いて下式、により、
出力sを発生する演算部である。7bは、前フレームの
演算部7aの出力(=可変ハングオーバ発生部5の出力
s)を演算部7aに対して出力する1フレーム遅延部で
ある。下式、における処理では、例えば、時定数A
m=0.1、Ap=0.9の場合、可変ハングオーバ発生
部5の出力s=f(x,s')は図8(a)に示す通り
になる。図8(a)中の値は、出力sを示す。FIG. 7 is a diagram showing the internal structure of the variable hangover generation unit 5. In FIG. 7, 7a is given by the following equation using the output d j = x of the inference unit 4 and the value s ′ of the output s of the variable hangover generation unit 5 in the previous frame.
It is a calculation unit that generates an output s. Reference numeral 7b is a one-frame delay unit that outputs the output of the calculation unit 7a of the previous frame (= the output s of the variable hangover generation unit 5) to the calculation unit 7a. In the processing in the following equation, for example, the time constant A
When m = 0.1 and A p = 0.9, the output s = f (x, s ′ ) of the variable hangover generator 5 is as shown in FIG. 8 (a). The value in FIG. 8A indicates the output s.
【0024】s=f(x,s')=s'+Am×(1−
x)×(x−s') (ただし、x≦s ') ……
s=f(x,s')=s'+Ap×x×(x−s') (た
だし、x>s') ……
、式によれば、無音のフレームが連続していても有
音らしきフレームが現れた場合には有音へと移行しやす
いが、逆に有音から無音へとは移行しにくくなってい
る。これは、実際に音声通信を行っている場合には、無
音を有音と判断することよりも、語間、語尾等の有音を
無音と判断して音声が途切れてしまうことのほうが影響
が大きいからである。S = f (x, s') = S'+ Am× (1-
x) × (x−s') (However, x ≦ s ') ……
s = f (x, s') = S'+ ApXxx (x-s') (Ta
But x> s') ……
According to the formula, even if there are consecutive silent frames,
When a sound-like frame appears, it is easy to move to voice
However, on the contrary, it is difficult to shift from voice to silence.
It This is not available when voice communication is actually performed.
Rather than judging a sound as a sound
It is more affected by the sound being interrupted when it is judged as silence
Is large.
【0025】また、xに無音判定を表す一定値(x<
0.5)を与え、s'に有音判定を表す初期値(s'>
0.5)を与えた場合の出力sが有音無音判定の境界値
に近い0.55に減少するまでの繰り返し回数は図8
(b)に示すようになり、ハングオーバ時間を可変する
ことになる。なお、図8(b)中の数字は、何フレーム
無音状態が続いたときに有音であるとの情報(s≧0.
5)を出力するかという値である。In addition, x is a constant value (x <
0.5), and an initial value (s ' > which represents a voiced judgment is given to s '.
The number of repetitions until the output s when 0.5) is reduced to 0.55 which is close to the boundary value of the voiced / unvoiced determination is shown in FIG.
As shown in (b), the hangover time is variable. Note that the numbers in FIG. 8B indicate the number of frames of silence when there is a sound (s ≧ 0.
5) is a value indicating whether to output.
【0026】したがって、この可変オーバハング発生部
5では、有音と判定するフレームの後、推論部4の出力
のうち無音と判定されたフレーム(x<0.5)が何フ
レーム続いた場合に最終結果として無音と判定するかと
いう基準回数を可変するというものである。したがっ
て、図8(b)からも明らかなように、前フレームの出
力値s'が1.00に近い(かぎりなく有音という確か
らしさがある)場合、s'が0.5に近い場合に比べ
て、無音と判断するためのフレーム数が大きい。したが
って、有音のフレームが連続した後、ノイズ等の影響を
受けて、無音らしきフレームがほんの数回続いた場合、
本来有音であるにもかかわらず、これを無音と判断する
危険性が減少する。なお、xが0.5の時には有音無音
判定の境界値である0.5には限り無く近づくが0.5
にはならない。Therefore, in the variable overhang generating section 5, when the number of frames (x <0.5) determined to be silent in the output of the inference section 4 continues after the frame determined to be voiced, the final As a result, the reference number of times to determine whether or not there is silence is changed. Therefore, as is clear from FIG. 8B, when the output value s ′ of the previous frame is close to 1.00 (there is a certainty that there is an infinite sound), s ′ is close to 0.5. In comparison, the number of frames for determining silence is large. Therefore, if there is a silence-like frame only a few times after being affected by noise after a series of voiced frames,
Although it is originally voiced, the risk of judging it as silence is reduced. It should be noted that when x is 0.5, it approaches the boundary value of the voiced / unvoiced judgment of 0.5 infinitely, but 0.5
It doesn't.
【0027】次に、2値判定部6において、可変オーバ
ハング発生部5の出力sに対し、0.5をしきい値とし
て、以下の通り最終的な有音無音判定を行う。Then, in the binary decision section 6, the output s of the variable overhang generation section 5 is subjected to the final decision as to whether there is sound or not, with 0.5 as a threshold value.
【0028】s≧0.5の場合は有音
s<0.5の場合は無音
以上のようにして各フレームについて有音無音判定を行
うことにより、パワー、ゼロクロス数といった精度の高
くない特徴パラメータを用いても、第1、第2の多値論
理判定部では有音無音の確からしさに応じた判定にとど
め、推論部においてこれらの判定結果と前フレームの判
定結果を考慮した推論を行うことにより、最終的により
確からしい判定を下すことができる。When s ≧ 0.5, voice is present when s <0.5, and voice is not performed for each frame as described above. Even if the above is used, the first and second multi-valued logic judgment units make only judgments according to the certainty of voiced and unvoiced sounds, and the inference unit makes an inference considering these judgment results and the judgment result of the previous frame. This makes it possible to finally make a more reliable decision.
【0029】なお、本実施例では、分割された音声の中
から各フレームにおけるパワー及びゼロクロス数をパラ
メータとして用いたが、この他、前フレームと現フレー
ムとのパワーの比、あるいは各フレーム毎のスペクトル
の変化等を用いてもよい。さらに、3つ以上のパラメー
タをあらかじめ多値論理判定してもよいものである。In the present embodiment, the power and the number of zero crossings in each frame out of the divided voices are used as parameters, but in addition to this, the ratio of the power between the previous frame and the current frame, or each frame is used. You may use the change of a spectrum etc. Furthermore, multi-valued logic determination may be performed on three or more parameters in advance.
【0030】また、本実施例では前フレームの推論部4
の出力をフィードバックする構成をとっているが、この
他に前フレームの可変ハングオーバ発生部5の出力を推
論部4の入力としてフィードバックしてもよいものであ
る。Further, in this embodiment, the inference unit 4 of the previous frame is used.
In addition to this, the output of the variable hangover generating unit 5 of the previous frame may be fed back as the input of the inference unit 4.
【0031】[0031]
【発明の効果】本発明は上記実施例から明らかなよう
に、音声から抽出したパラメータをもとにした判定値を
0〜1の範囲内の連続値で多値論理化し、判定制度に応
じた値を出力し、複数の判定結果の最大値と最小値をも
とに推論を行うことにより、精度の低い判定規則を用い
ても、最終的に精度の高い判定を行うことが出来る。As is apparent from the above embodiment, the present invention multi-values the judgment value based on the parameter extracted from the voice with a continuous value within the range of 0 to 1, according to the judgment system. By outputting a value and performing inference based on the maximum value and the minimum value of a plurality of judgment results , even if a judgment rule with low accuracy is used, a judgment with high accuracy can be finally made.
【0032】また、パラメータからの判定においては、
データテーブルを備えて、これを読み出して判定を行う
ことにより、パラメータと判定出力とが非線形関係にあ
る場合でも簡単な処理で判定結果を多値論理化できる。Further, in the judgment from the parameters,
By providing a data table and reading the data table to make a judgment, the judgment result can be multivalued logically by a simple process even when the parameter and the judgment output have a non-linear relationship.
【0033】また、疑わしい無音判定の場合、ハングオ
ーバ時間を長くできるので、語間、語尾を無音に判定す
る割合を減少させることができる。Further, in the case of suspicious silence determination, the hangover time can be lengthened, so that it is possible to reduce the rate of determining silence between words and endings.
【図1】本発明の一実施例における有音無音判定装置の
構成を示すブロック図FIG. 1 is a block diagram showing the configuration of a sound / sound determination device according to an embodiment of the present invention.
【図2】本実施例における各ブロックの出力を示す図FIG. 2 is a diagram showing the output of each block in this embodiment.
【図3】(a)は本実施例における第1の多値論理判定
部の内部構成を示すブロック図
(b)は第1の多値論理判定部のデータテーブルの内容
を示す図FIG. 3A is a block diagram showing an internal configuration of a first multi-valued logic judgment unit in the present embodiment, and FIG. 3B is a diagram showing contents of a data table of the first multi-valued logic judgment unit.
【図4】(a)は本実施例における第2の多値論理判定
部の内部構成を示すブロック図
(b)は第2の多値論理判定部のデータテーブルの内容
を示す図FIG. 4A is a block diagram showing an internal configuration of a second multi-valued logic judgment unit in the present embodiment, and FIG. 4B is a diagram showing contents of a data table of the second multi-valued logic judgment unit.
【図5】(a)は本実施例における判定結果フィードバ
ック部の内部構成を示すブロック図
(b)は判定結果フィードバック部のデータテーブルの
内容を示す図5A is a block diagram showing an internal configuration of a determination result feedback unit in the present embodiment, and FIG. 5B is a diagram showing contents of a data table of the determination result feedback unit.
【図6】本実施例における推論部の内部構成を示すブロ
ック図FIG. 6 is a block diagram showing an internal configuration of an inference unit in this embodiment.
【図7】本実施例における可変ハングオーバ発生部の内
部構成を示すブロック図FIG. 7 is a block diagram showing an internal configuration of a variable hangover generation unit in this embodiment.
【図8】(a)は本実施例における可変オーバハング発
生部の入出力関係を示す図
(b)は同可変オーバハング発生部における入力値とハ
ングオーバとの関係を示す図FIG. 8A is a diagram showing an input / output relationship of a variable overhang generating unit in the present embodiment, and FIG. 8B is a diagram showing a relationship between an input value and a hangover in the variable overhang generating unit.
【図9】従来の有音無音判定装置を示すブロック図FIG. 9 is a block diagram showing a conventional sound / sound determination device.
1 パラメータ抽出部 2 第1の多値論理判定部 3 第2の多値論理判定部 4 推論部 5 可変オーバハング発生部 6 2値判定部 7 判定結果フィードバック部 1 Parameter extractor 2 First multi-valued logic judgment unit 3 Second multi-valued logic judgment unit 4 Reasoning Department 5 Variable overhang generator 6 Binary judgment section 7 Judgment result feedback section
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−203397(JP,A) 特開 平2−204799(JP,A) 特開 平3−236100(JP,A) 特開 平4−42299(JP,A) 特開 昭60−209799(JP,A) 特公 昭63−13200(JP,B2) ─────────────────────────────────────────────────── ─── Continued front page (56) Reference JP-A-2-203397 (JP, A) JP-A-2-204799 (JP, A) JP-A-3-236100 (JP, A) Japanese Patent Laid-Open No. 4-42299 (JP, A) JP-A-60-209799 (JP, A) Japanese Patent Publication Sho 63-13200 (JP, B2)
Claims (7)
メータそれぞれを用いて有音無音を0〜1の範囲内の連
続値による多値論理により判定し、これら複数の判定結
果の最大値と最小値をもとにして多値論理により有音無
音を推論することを特徴とする有音無音判定方法。1. A multi-valued logic with continuous values in the range of 0 to 1 is used to determine the presence or absence of voice using each of a plurality of parameters extracted from the input voice, and the maximum and minimum values of these plurality of determination results are determined. A voiced / unvoiced determination method which infers voiced / unvoiced by multivalued logic based on values .
果と、前フレームにおける推論結果との最大値と最小値
をもとにして、多値論理により有音無音を推論すること
を特徴とする請求項1記載の有音無音判定方法。2. The maximum value and the minimum value of the multivalued logic judgment result by a plurality of parameters and the inference result in the previous frame.
The voiced / unvoiced determination method according to claim 1, wherein voiced / unvoiced is inferred by multivalued logic based on the above.
定値を定義したデータテーブルを用いて多値論理判定を
行うことを特徴とする請求項1記載の有音無音判定方
法。3. The voiced / soundless determination method according to claim 1, wherein the multivalued logical determination is performed by using a data table defining a determination value for a parameter extracted from voice.
バ時間を可変することを特徴とする請求項1記載の有音
無音判定方法。4. The voiced / unvoiced determination method according to claim 1, wherein the hangover time is varied according to the inference result of the multivalued logic.
複数のパラメータを抽出するパラメータ抽出部と、抽出
された複数のパラメータそれぞれをもとにして0〜1の
範囲内の連続値による多値論理により有音無音を判定す
る複数の多値論理判定部と、上記複数の多値論理判定部
の出力をもとにして多値論理により有音無音を推論する
推論部と、上記推論部の出力に応じてハングオーバを可
変する可変ハングオーバ発生部と、この可変ハングオー
バ発生部の出力に対して2値判定を行う2値判定部とを
備え、 前記推論部は、複数の多値論理判定値の最大値と最小値
を加算した値を出力する、 ことを特徴とする有音無音判定装置。5. A parameter extraction unit for extracting a plurality of parameters from audio data divided for each frame, and a multivalued logic with continuous values in the range of 0 to 1 based on each of the extracted plurality of parameters. A plurality of multi-valued logic judgment units for judging presence / absence of sound, an inference unit for inferring presence / absence of sound with a multi-valued logic based on outputs of the plurality of multi-valued logic judgment units, and an output of the inference unit. maximum variable hangover generator for varying the hangover, and a binary determination unit for performing binary determination on the output of the variable hangover generator, the inference unit includes a plurality of multi-valued logic determination value according to Value and minimum value
A sound / silence determination device , which outputs a value obtained by adding .
部に入力する判定結果フィードバック部を備え、複数の
パラメータ抽出部の出力と上記判定結果フィードバック
部の出力との最大値と最小値から推論を行うことを特徴
とする請求項5記載の有音無音判定装置。6. An inference unit is provided with a decision result feedback unit for inputting the output of the inference unit in the previous frame to the inference unit, and inference is performed from the maximum value and the minimum value of the outputs of the plurality of parameter extraction units and the output of the determination result feedback unit. The voiced / unvoiced determination device according to claim 5, which is performed.
る出力値を定義したデータテーブルを備えた請求項5記
載の有音無音判定装置。7. The sound / sound determination device according to claim 5, wherein the multi-valued logic determination unit includes a data table defining output values for the parameters.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02488992A JP3375655B2 (en) | 1992-02-12 | 1992-02-12 | Sound / silence determination method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02488992A JP3375655B2 (en) | 1992-02-12 | 1992-02-12 | Sound / silence determination method and device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05224686A JPH05224686A (en) | 1993-09-03 |
JP3375655B2 true JP3375655B2 (en) | 2003-02-10 |
Family
ID=12150758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02488992A Expired - Fee Related JP3375655B2 (en) | 1992-02-12 | 1992-02-12 | Sound / silence determination method and device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3375655B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005122357A (en) * | 2003-10-15 | 2005-05-12 | Matsushita Electric Ind Co Ltd | Animation generation device and animation generation method |
JP4587160B2 (en) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | Signal processing apparatus and method |
US20100106490A1 (en) * | 2007-03-29 | 2010-04-29 | Jonas Svedberg | Method and Speech Encoder with Length Adjustment of DTX Hangover Period |
-
1992
- 1992-02-12 JP JP02488992A patent/JP3375655B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH05224686A (en) | 1993-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Beritelli et al. | A robust voice activity detector for wireless communications using soft computing | |
JP3363336B2 (en) | Frame speech determination method and apparatus | |
CN101399039B (en) | Method and device for determining non-noise audio signal classification | |
JPH10274991A (en) | Method and device for detecting voice action | |
FR2743238A1 (en) | TELECOMMUNICATION DEVICE RESPONDING TO VOICE ORDERS AND METHOD OF USING THE SAME | |
JPH0990974A (en) | Signal processor | |
CN114338623B (en) | Audio processing method, device, equipment and medium | |
US7346497B2 (en) | High-order entropy error functions for neural classifiers | |
KR101862982B1 (en) | Voiced/Unvoiced Decision Method Using Deep Neural Network for Linear Predictive Coding-10e Vocoder | |
JP2020034683A (en) | Voice recognition device, voice recognition program and voice recognition method | |
EP1426926B1 (en) | Apparatus and method for changing the playback rate of recorded speech | |
CN115410550B (en) | Fine granularity prosody controllable emotion voice synthesis method, system and storage medium | |
JPH0644195B2 (en) | Speech analysis and synthesis system having energy normalization and unvoiced frame suppression function and method thereof | |
JP3375655B2 (en) | Sound / silence determination method and device | |
JP3555490B2 (en) | Voice conversion system | |
JPH0756598A (en) | Voice sound/voiceless sound discriminating device | |
US7219061B1 (en) | Method for detecting the time sequences of a fundamental frequency of an audio response unit to be synthesized | |
Krishnakumar et al. | A comparison of boosted deep neural networks for voice activity detection | |
Zheng et al. | Mlnet: An adaptive multiple receptive-field attention neural network for voice activity detection | |
JP2014209182A (en) | Sound emphasizing device and method | |
CN113689886B (en) | Voice data emotion detection method and device, electronic equipment and storage medium | |
JPH117292A (en) | Speech recognition device | |
JPH06110488A (en) | Method and device for speech detection | |
JPH11133997A (en) | Equipment for determining presence or absence of sound | |
JP3394506B2 (en) | Voice discrimination device and voice discrimination method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071129 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081129 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091129 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091129 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101129 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111129 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |