JPH05224686A - 有音無音判定方法およびその装置 - Google Patents
有音無音判定方法およびその装置Info
- Publication number
- JPH05224686A JPH05224686A JP4024889A JP2488992A JPH05224686A JP H05224686 A JPH05224686 A JP H05224686A JP 4024889 A JP4024889 A JP 4024889A JP 2488992 A JP2488992 A JP 2488992A JP H05224686 A JPH05224686 A JP H05224686A
- Authority
- JP
- Japan
- Prior art keywords
- determination
- voiced
- unit
- sound
- inference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
音無音判定の精度を向上させる。 【構成】 フレーム分割された音声信号から抽出した特
徴パラメータに対して第1、第2の多値論理判定部2、
3でその確からしさに応じた判定を行う。推論部4で
は、上記第1、第2の多値論理判定部2、3および判定
結果フィードバック部7の出力をもとにして有音か無音
であるかを推論する。推論部4の結果をもとにして、可
変ハングオーバ発生部5ではハングオーバ時間を可変さ
せ、最終的に2値判定部6にて有音無音の判定を行う。
Description
に使用する音声の有音無音判定方法およびその装置に関
するものである。
通信では低消費電力化を図るため、音声の無音区間では
送信を中断する方法が必要とされており、精度の高い有
音無音判定方法の開発が望まれている。
明する。図9は従来の有音無音判定装置を示す図であ
る。図9において、9はパラメータ抽出部、10、11
は第1、第2の2値論理判定部、12は第3の2値論理
判定部、13はハングオーバ発生部、14、15は1フ
レーム遅延部である。
抽出部9によって、フレームに分割された入力音声から
パワー、ゼロクロス数などの有音無音判定に有用である
いくつかの特徴パラメータを抽出する。次に、第1、第
2の2値論理判定部10、11それぞれの判定規則によ
り、しきい値を用いて有音無音の2値判定を行なう。例
えば、第1の2値論理判定部10ではパワーの大きさに
よる2値判定を行ない、第2の2値論理判定部11では
ゼロクロス数による2値判定を行なう。第3の2値論理
判定部12では、第1、第2の2値論理判定部10、1
1それぞれの判定結果と、1フレーム遅延部14、15
より出力された前フレームの判定結果とをもとにして、
2値論理演算を使用して有音無音の判定を行なう。ハン
グオーバ発生部13では、第3の2値論理判定部12に
よる無音判定が数フレーム連続したときに最終判定を有
音から無音に遷移させる。なお、1フレーム遅延部1
4、15による判定のフィードバックは必要により使用
される。
の有音無音判定方法では、精度の高いパラメータ抽出方
法および精度の高い判定規則が存在しないので、判定し
きい値が明確な2値論理による判定では、判定規則の判
定に誤りが生じやすく、最終的な有音無音の判定にも誤
りを生じるという問題があった。
あり、音声のパワー、ゼロクロス数等、精度の高くない
特徴パラメータと判定規則を使用した場合であっても、
最終的な判定にはより確からしい判定結果を得ることが
できる優れた有音無音判定方法を提供することを目的と
するものである。
するために、途中の判定過程においては、0〜1の範囲
内の値を持つ多値論理を使用し、0が「無音」、0.5
が「判定不能」、1が「有音」と意味づけされた値を用
いて推論を行うようにし、最終段階において有音か無音
かの2値判定を行うようにしたものである。
性が非線形の場合にも少ない処理量で多値論理出力が得
られるよう、入出力関係を記録したデータテーブルを備
えたものである。
は、長いハングオーバ時間を発生するようにして、有音
を無音と判定する誤りを減少させるものである。
では明確なしきい値処理を行わず、判定の確からしさに
応じた値を出力し、最終的な判定において上記確からし
さに応じた処理を行う。つまり、複数の規則を用いてそ
のなかで最も確からしい判定出力を使うことで、より確
からしい判定結果を得る。
ルを備えたデータテーブルを備えたことで、パラメータ
と判定出力が非線形な特性の場合にも少ない処理量で処
理ができる。
ングオーバ時間を長く発生させて最終的な有音判定から
無音判定へ遷移させる時間を遅らせることにより、有音
を無音に誤判定させる率を減少させる。
ながら説明する。
る構成を示す図である。図1において、1はフレームに
分割された音声データから有音無音判定に有効な1つも
しくは複数の特徴パラメータを抽出するパラメータ抽出
部である。2、3はそれぞれの判定規則により有音無音
判定を行い、0〜1の範囲内の連続値による多値論理に
よる判定結果を出力する第1、第2の多値論理判定部で
ある。4は複数の判定結果からより確かな結果を推論す
る多値論理による推論部である。5は判定結果の確から
しさにより可変のハングオーバ時間を発生する可変ハン
グオーバ発生部である。6は最終的に有音無音の2値判
定を行う2値判定部である。7は判定結果を1フレーム
遅延して推論部4へのフィードバックを行う判定結果フ
ィードバック部である。
を行う場合について説明する。本実施例の各過程におい
ては下式を用いる。
有音) then有音 ……規則 まず、パラメータ抽出部1において、フレーム長がnの
第jフレームの音声(Xj(i);0≦i≦n−1)よ
り特徴パラメータとして、パワーPjとゼロクロス数Zj
を求め、その結果、図2に示すPj、Zjを得たとする。
部構成を示す図であり、2aは入力されたパワーP
jと、出力である有音無音判定値d1jとの関係を定義す
るデータテーブルである。2bは入力されたパワーPj
にしたがって、データテーブルから対応する有音無音判
定値d1jを読み出すデータテーブル読み出し部である。
図3(b)はデータテーブル2aにおけるパワーPjと
有音無音判定値d1jとの関係を図示したものである。こ
の第1の多値論理判定部2では、規則、による判定
を、データテーブル読み出し部2bにより、入力された
パワーPjに応じてデータテーブル2aの読み出しを行
い、図2に示す有音無音判定値d1jを得て、推論部4に
対して出力する。
部構成を示す図であり、3aは入力されたゼロクロス数
Zjと、出力である有音無音判定値d20jとの関係を定義
するデータテーブルである。3bは入力されたゼロクロ
ス数Zjにしたがって、データテーブル3aから対応す
る有音無音判定値d20jを読み出すデータテーブル読み
出し部である。図4(b)はデータテーブル3aにおけ
るゼロクロス数Zjと有音無音判定値d20jとの関係を図
示したものである。この第2の多値論理判定部3では、
規則の「ゼロクロス数が小さい」の判定を、データテ
ーブル読み出し部3bにより、入力されたゼロクロス数
Zjに応じてデータテーブル3aの読み出しを行い、図
2に示す有音無音判定値d20jを得て、推論部4に対し
て出力する。
の内部構成を示す図であり、7aは推論部4の出力dj
をもとに1フレーム遅延部7cを通じて得られる前フレ
ームにおける推論部4の出力dj-1と、出力である有音
無音判定値@21jとの関係を定義するデータテーブルで
ある。7bは入力された1フレーム遅延部7cの出力d
j-1にしたがって、データテーブル7aから対応する有
音無音判定値@21jを読み出すデータテーブル読み出し
部である。この判定結果フィードバック部7では、規則
の「前フレームが有音」の判定を、データテーブル7
bにより、前フレームの推論部4の出力dj-1に応じて
データテーブル7aの読み出しを行い、図2に示す有音
無音判定値@21jを得て、推論部4に出力する。
る。図6において、4aは第2の多値論理判定部3の出
力d20jと、判定結果フィードバック部7の出力@21jを
もとにして下式の計算を行う前置演算部である。4b
は第1の多値論理判定部2の出力d1j、前置演算部4a
の出力d2jおよび0.5のうち最大値を出力する最大値
検出部、4cは第1の多値論理判定部2の出力d1j、前
置演算部4aの出力d2jおよび0.5のうち最小値を出
力する最小値検出部である。
テップとして規則の「and」を下式により実行
し、規則による判定結果として図2に示す有音無音判
定値d 2jを得る。
び0.5をいずれも最大値検出部4b、最小値検出部4
cに与え、それぞれの出力値を加える。この値から0.
5を減算して有音無音判定値djを得る。ここでの最大
値検出部4b、最小値検出部4cはそれぞれ最も確から
しい有音判定値と無音判定値とを求める機能を果たして
いる。
成を示す図である。図7において、7aは推論部4の出
力dj=xと、可変ハングオーバ発生部5の出力sの前
フレームにおける値s'とを用いて下式、により、
出力sを発生する演算部である。7bは、前フレームの
演算部7aの出力(=可変ハングオーバ発生部5の出力
s)を演算部7aに対して出力する1フレーム遅延部で
ある。下式、における処理では、例えば、時定数A
m=0.1、Ap=0.9の場合、可変ハングオーバ発生
部5の出力s=f(x,s')は図8(a)に示す通り
になる。図8(a)中の値は、出力sを示す。
x)×(x−s') (ただし、x≦s ') …… s=f(x,s')=s'+Ap×x×(x−s') (た
だし、x>s') …… 、式によれば、無音のフレームが連続していても有
音らしきフレームが現れた場合には有音へと移行しやす
いが、逆に有音から無音へとは移行しにくくなってい
る。これは、実際に音声通信を行っている場合には、無
音を有音と判断することよりも、語間、語尾等の有音を
無音と判断して音声が途切れてしまうことのほうが影響
が大きいからである。
0.5)を与え、s'に有音判定を表す初期値(s'>
0.5)を与えた場合の出力sが有音無音判定の境界値
に近い0.55に減少するまでの繰り返し回数は図8
(b)に示すようになり、ハングオーバ時間を可変する
ことになる。なお、図8(b)中の数字は、何フレーム
無音状態が続いたときに有音であるとの情報(s≧0.
5)を出力するかという値である。
5では、有音と判定するフレームの後、推論部4の出力
のうち無音と判定されたフレーム(x<0.5)が何フ
レーム続いた場合に最終結果として無音と判定するかと
いう基準回数を可変するというものである。したがっ
て、図8(b)からも明らかなように、前フレームの出
力値s'が1.00に近い(かぎりなく有音という確か
らしさがある)場合、s'が0.5に近い場合に比べ
て、無音と判断するためのフレーム数が大きい。したが
って、有音のフレームが連続した後、ノイズ等の影響を
受けて、無音らしきフレームがほんの数回続いた場合、
本来有音であるにもかかわらず、これを無音と判断する
危険性が減少する。なお、xが0.5の時には有音無音
判定の境界値である0.5には限り無く近づくが0.5
にはならない。
ハング発生部5の出力sに対し、0.5をしきい値とし
て、以下の通り最終的な有音無音判定を行う。
うことにより、パワー、ゼロクロス数といった精度の高
くない特徴パラメータを用いても、第1、第2の多値論
理判定部では有音無音の確からしさに応じた判定にとど
め、推論部においてこれらの判定結果と前フレームの判
定結果を考慮した推論を行うことにより、最終的により
確からしい判定を下すことができる。
から各フレームにおけるパワー及びゼロクロス数をパラ
メータとして用いたが、この他、前フレームと現フレー
ムとのパワーの比、あるいは各フレーム毎のスペクトル
の変化等を用いてもよい。さらに、3つ以上のパラメー
タをあらかじめ多値論理判定してもよいものである。
の出力をフィードバックする構成をとっているが、この
他に前フレームの可変ハングオーバ発生部5の出力を推
論部4の入力としてフィードバックしてもよいものであ
る。
に、音声から抽出したパラメータをもとにした判定値を
多値論理化し、判定精度に応じた値を出力し、複数の判
定結果をもとに推論を行うことにより、精度の低い判定
規則を用いても、最終的に精度の高い判定を行うことが
できる。
データテーブルを備えて、これを読み出して判定を行う
ことにより、パラメータと判定出力とが非線形関係にあ
る場合でも簡単な処理で判定結果を多値論理化できる。
ーバ時間を長くできるので、語間、語尾を無音に判定す
る割合を減少させることができる。
構成を示すブロック図
部の内部構成を示すブロック図 (b)は第1の多値論理判定部のデータテーブルの内容
を示す図
部の内部構成を示すブロック図 (b)は第2の多値論理判定部のデータテーブルの内容
を示す図
ック部の内部構成を示すブロック図 (b)は判定結果フィードバック部のデータテーブルの
内容を示す図
ック図
部構成を示すブロック図
生部の入出力関係を示す図 (b)は同可変オーバハング発生部における入力値とハ
ングオーバとの関係を示す図
Claims (7)
- 【請求項1】 入力された音声から抽出した複数のパラ
メータそれぞれを用いて有音無音を多値論理判定し、こ
れら複数の判定結果をもとにして多値論理により有音無
音を推論することを特徴とする有音無音判定方法。 - 【請求項2】 複数のパラメータによる多値論理判定結
果と、前フレームにおける推論結果とをもとにして多値
論理により有音無音を推論することを特徴とする請求項
1記載の有音無音判定方法。 - 【請求項3】 音声から抽出したパラメータに対する判
定値を定義したデータテーブルを用いて多値論理判定を
行うことを特徴とする請求項1記載の有音無音判定方
法。 - 【請求項4】 推論結果に応じてハングオーバ時間を可
変することを特徴とする請求項1記載の有音無音判定方
法。 - 【請求項5】 フレーム毎に分割された音声データから
複数のパラメータを抽出するパラメータ抽出部と、抽出
された複数のパラメータそれぞれをもとにして多値論理
により有音無音を判定する複数の多値論理判定部と、上
記複数の多値論理判定部の出力をもとにして有音無音を
推論する推論部と、上記推論部の出力に応じてオーバハ
ングを可変する可変オーバハング発生部と、この可変オ
ーバハング発生部の出力に対して2値判定を行う2値判
定部とを備えた有音無音判定装置。 - 【請求項6】 前フレームにおける推論部の出力を推論
部に入力する判定結果フィードバック部を備え、複数の
パラメータ抽出部の出力と上記判定結果フィードバック
部の出力とから推論を行うことを特徴とする請求項5記
載の有音無音判定装置。 - 【請求項7】 多値論理判定部には、パラメータに対す
る出力値を定義したデータテーブルを備えた請求項5記
載の有音無音判定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02488992A JP3375655B2 (ja) | 1992-02-12 | 1992-02-12 | 有音無音判定方法およびその装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02488992A JP3375655B2 (ja) | 1992-02-12 | 1992-02-12 | 有音無音判定方法およびその装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05224686A true JPH05224686A (ja) | 1993-09-03 |
JP3375655B2 JP3375655B2 (ja) | 2003-02-10 |
Family
ID=12150758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02488992A Expired - Fee Related JP3375655B2 (ja) | 1992-02-12 | 1992-02-12 | 有音無音判定方法およびその装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3375655B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005038722A1 (ja) * | 2003-10-15 | 2005-04-28 | Matsushita Electric Industrial Co., Ltd. | アニメーション作成装置及びアニメーション作成方法 |
JP2005283634A (ja) * | 2004-03-26 | 2005-10-13 | Canon Inc | 信号処理装置および方法 |
JP2010525376A (ja) * | 2007-03-29 | 2010-07-22 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置 |
-
1992
- 1992-02-12 JP JP02488992A patent/JP3375655B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005038722A1 (ja) * | 2003-10-15 | 2005-04-28 | Matsushita Electric Industrial Co., Ltd. | アニメーション作成装置及びアニメーション作成方法 |
JP2005283634A (ja) * | 2004-03-26 | 2005-10-13 | Canon Inc | 信号処理装置および方法 |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
JP2010525376A (ja) * | 2007-03-29 | 2010-07-22 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3375655B2 (ja) | 2003-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Beritelli et al. | A robust voice activity detector for wireless communications using soft computing | |
JP3363336B2 (ja) | フレーム音声決定方法および装置 | |
US7272561B2 (en) | Speech recognition device and speech recognition method | |
US7664650B2 (en) | Speech speed converting device and speech speed converting method | |
CN101399039B (zh) | 一种确定非噪声音频信号类别的方法及装置 | |
KR20140147587A (ko) | Wfst를 이용한 음성 끝점 검출 장치 및 방법 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
US7346497B2 (en) | High-order entropy error functions for neural classifiers | |
CN115410550B (zh) | 一种细粒度韵律可控的情感语音合成方法、系统及存储介质 | |
EP1426926B1 (en) | Apparatus and method for changing the playback rate of recorded speech | |
KR101862982B1 (ko) | LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법 | |
JPH11265200A (ja) | 符号化音声再生装置および符号化音声再生方法 | |
KR100421648B1 (ko) | 음성코딩을 위한 적응성 표준 | |
JP2021039219A (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP3297156B2 (ja) | 音声判別装置 | |
CN1113586A (zh) | 从基于celp的语音编码器中去除回旋噪声的系统和方法 | |
JP3375655B2 (ja) | 有音無音判定方法およびその装置 | |
JP3555490B2 (ja) | 声質変換システム | |
Krishnakumar et al. | A comparison of boosted deep neural networks for voice activity detection | |
CN115762491A (zh) | 一种音色转换方法、装置、电子设备及存储介质 | |
WO2004112256A1 (ja) | 音声符号化装置 | |
JPH117292A (ja) | 音声認識装置 | |
JPH11133997A (ja) | 有音無音判定装置 | |
Beritelli | A modified CS-ACELP algorithm for variable-rate speech coding robust in noisy environments | |
JP3394506B2 (ja) | 音声判別装置及び音声判別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071129 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081129 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091129 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091129 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101129 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111129 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |