JPS5870299A - 音声信号の判定法及び解析装置 - Google Patents

音声信号の判定法及び解析装置

Info

Publication number
JPS5870299A
JPS5870299A JP57165153A JP16515382A JPS5870299A JP S5870299 A JPS5870299 A JP S5870299A JP 57165153 A JP57165153 A JP 57165153A JP 16515382 A JP16515382 A JP 16515382A JP S5870299 A JPS5870299 A JP S5870299A
Authority
JP
Japan
Prior art keywords
threshold
audio
energy
speech
criterion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57165153A
Other languages
English (en)
Inventor
ステフアン・ホルフア−ス
ユン・シヤイン・ブ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gretag AG
Original Assignee
Gretag AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gretag AG filed Critical Gretag AG
Publication of JPS5870299A publication Critical patent/JPS5870299A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、音声のディジタル処理の冗長さを減らす線形
予測法及びその対応装置に関す。ことに本発明は、音声
信号を解析しモデル音声フィルタ、ピッチ及び音量に係
わるパラメータを定めるよう(ニした音声処理装置に関
する。
この種の音声処理装置いわゆるLPGボコーダは音声信
号のディジタル伝送の冗長さの実質的な低減ができる。
これ等の処理装置は、次次によく知られて来ており多く
の刊行物の主題(ニなっている。
これ等の刊行物の代表例には次のものがある。
1971年刊行の音響学会議事録j・50号+637な
いし655頁のピー拳ニス・アタール(B、 S、 A
tal )及びニス・エル・ハノーア(S、L、Han
auer )の論文 1975年刊行のIEEE会報矛63巻3・4号才・6
62ないし667頁のアー・ダプリュ・ンエイファー<
R。
W、 5chafer )及びエル・アー・ラビナー(
L、R。
Rabiner ) (7)論文 1976年刊行の音響、音声及び信号会報矛24巻’A
’ 5 号3’ 399ないし418頁のエル・アー・
ラビナー等の論文 1977年刊行のIEEE、 、j−65巻牙12号オ
l636ないし1658貞のピー・ゴールド(B、Go
ld )の論文1979年ワシントンで刊行されたxg
Em 、 、 ICASSP会報N769ないし72頁
のエイ・フレマツ(A、Ku−rematsu )等の
論文 1978年ベルン市で刊行された評論集「ウォー・イン
・ジ・エーサー(War in the Ether 
)J 矛17巻のニス・ホーワス(S、HOrWath
)の論文r LPC−ボコーダ、開発及び見通しの状態
」 米国特許N’ 3 、624 、302号、同士3,3
61,520号、同士3 、909 、533号及び同
士4,230,905の各明細書現在知られ利用できる
LPGボコーダは十分満足が得られるようには動作しな
い。解析後に合成する音声は多くの場合に比較約分りや
すくても、この音声はゆがみ不自然に響く。この状態の
主な原因はとくに有声音又は無声音の音声セクションの
いずれが存在するかを適当な確度で判定するのがむずか
しいことである。別の原因としてピッチ周期の不適当な
決定と音響生成フィルタパラメータの不正確な決定とが
ある。
本発明は主としてこれ等の障害の3・1のものに係わり
、本発明の目的は、正確かつ確実な有声き/無声音の判
定が得られるように前記したようなディジタル音声の合
成法及び合成装置の改良従って合成音声の品質の改良を
行おうとするにある。
有声音/無声音の類別には1連の判定基準を使い個個に
又は部分的に組合わせて適用する。普通の基準にはたと
えば、音声信号のエネルギーと、与えられた時限内の信
号の零遷移の数と、標準化した見逃がし誤りエネルギー
すなわち予測誤り信号のエネルギーの音声信号のエネル
ギーに対する比率と、音声信号又は予測誤り信号の自動
相関関数のオ・2の最大値の大きさとがある。又1つ又
は複数の隣接音声セクションに対し横の比較を行うのが
普通である。最も重要な類別の基準及び方法のはつきり
した比較できる表示はたとえばエル・アー・ラビナー等
による前記した引用論文(二認められる。
全部のこれ等の公知の方法及び基準の共通の特長は、関
連基準を満足するがどぅかに従って一方又は他方の実現
性により音声セクションを絶えず必ず如別するようにつ
ねに両面の判定を行うことである。′このようにして判
定基準の適当な選定又は組合わせにより比較的高い精度
が得られるが、実際上なお誤った判定が比較的高い頻度
で起り又このような判定により合成音声の品質dかなり
の影響を及ぼしている。この誤りに対する主な原因は、
音声信号が一般に全部の冗長さに関係なく変化する文字
であり、従って両方向で確実な文を作るように基準判定
しきい値を設定することが簡単にはできないことである
。この場合成る程!Wの不確実さが残りこれを認めなけ
ればならない。
このために本発明は、従来もっばら使われている両面判
定の原理から離れ、代りに戦iを適用し実際上絶対的に
確実な一方的な判定だけを行うようにする。すなわち若
干の基準を満足しさえすれば音声セクションを有声音又
は無声音として明白に類別する。しかし基準が満足され
なければ音声セクションは、有声音又は無声音として決
定評価ができなくて他の類別基準に対し評価する。この
場合タ一方向における確実な判定は、基準が満足される
ときだけ行われ、さもなければ判定を行う手順が同様に
して継続する。これは安全な類別ができるまで続く。広
い調査により、基準の適当な選択及び順序によって通常
6ないし7の判定ステップの最高値を必要とすることが
分った。
一般の判定基準の゛しきい値の値は個個の判定の安全度
を定める。これ等の判定しきい値が高くなるほど、基準
が一層選択的になり判定が一層確実になる。しかし個個
の基準の選択性の増大に伴い又最大数の必′紛な判定操
、作が生ずる。実際上絶対的な(一方向な)判定の確実
性が前記した手段以上に基準又は判定操作の全数を増さ
ないで得られるようにしきい値を設定することは実際上
容易にできる。
以下本発明による判定法及び解析装置の実施例を添付図
面について詳細に説明する。
解析のために源たとえばマイクロホン(1)で生ずる。
アナログ音声信号は、フィルタ(2)で帯域制限されに
山皮換器(3)で走査し又は標本化しディジタル化する
。走査率は、約6ないし16kHzで約8 KH2が好
適である。分解前iは約8ないし12ビツトである0フ
イルタ(2)の通過帯域は通常、いわゆる広帯域音声モ
ードで約80Hzがら約3.1ないし3 、4 kHz
まで延び又電話音声の場合には約300Hzから3.1
ないし3.4に、Hzまで延びている。
引続く解析又は冗長を減らす処理のためシニ、ディジタ
ル音声信号Snをフレームと称する次次のなるべくは重
複する音声セクションに分割する。各音声セクションの
長さは約10ないし30m5ecでなるべくは約20 
m secである。フレーム速度すなわち毎秒当たりの
フレーム数は約30ないし100なるべくは45ないし
70である。高い分解能従って良品質の音声のため(=
はできるだけ短いセクションとこれに対応する高いフレ
ーム速度とが望ましい。
しかしこの考え方は、使用する計算機の能力の制限によ
り又低いビット伝送速度の要求C二よりリアルタイム処
理では相殺される。所要のビット数を減らすことにより
これに対応してフレーム速度を増す処理i米国特許願矛
    号明a書(書類番号9−13565)に記載し
である。
音声信号の解析は、たとえば前記した引用例に記載しで
あるような線形予測の原理も:より行う。
線形予測の基本は音声の生成のノ(ラメ−タモデルであ
る。゛時間離散形全極ディジタルフィルタはのど及び口
の管状部(音声管)C:よる音の生成を模す。有声音の
場合にはこのフィルタの励起は周期的パルス順序である
。このパルス順序の周波数いわゆるピッチ周波数は音声
コードにより同門的励起を理想化する。無声陛の場合に
励起は白色雑音でありのど内の空気の乱れに対し理想化
されるが音声コードは励起されない。゛増幅率(:より
音量を制御する。このモデルを基本(ニして音声信号は
次のパラメータにより十分定められる。
′ 1音声しようとする音が有声音か無声音かの情報 2有声音の場合のピッチ周期(又はピッチ周波数)(無
声音の場合にはピッチ周期は定義によりOに等しい) 3、使用する全極ディジタルフィルタ(音声管モデル)
の係数 4、増幅率 解析は実質的に2つの主な手順に分割する。これ等の手
順はill増幅率又は音量パラメータと基本的音声管モ
デルフィルタの係数又はフイルタノ(ラメータと1.(
II)有声音の場合のピッチ周期の有声音無声音の判定
及びピッチ周期の決定とである。
フィルタ係数は、予測誤りのエネルギーすなわち実際の
走査値と考えている音声セクションにおけるモデル仮定
を基にして係数の関数として評価した走査値との間の差
のエネルギーをり少にすることにより設定する方程式を
解くことにより、・;ラメータ計算機(4)で得られる
。これ等の方程式の解はなるべくはダービン(Durb
in )により開発された算法で自動相関法(二より行
う〔たとえば米国ニュージャジー州イングルウッド、・
クリツクのプレンティス−ホール(Prentice 
−Hall )社から1978年刊行のエル・ビー・ラ
ピナー及びアー・グジ°リュ・シエイファーを著者とす
る論文[音声信号のディジタル処理」第411ないし4
13頁参照〕この方法ではいわゆる反射係a(kDはフ
イ。ルタ係数又はパラメータ(aj )のほか(二得ら
れる。これ等の反射係数は、フィルタ係数(aj)の変
形であり量子化に感じにくい。安定フィルタの場合C:
は反射係数は大きさがつねじ1より小さく、又これ等Q
〕反射係数は順序数の増加C二伴って減小する。これ等
の利点によって反射係数(kj )はフィルタ係数(a
j)の代りに伝送するのがよい。音量パラメータGはこ
の算法から副生物として得られる。
ピッチ周期p(音声帯域基準周波数の周期)を−見付け
るにはディジタル音声信号Snは、フィルタパラメータ
(aj)を計算するまでバッファメモリー(5)に一時
的に記憶する。次で信号はパラメータ(aj)に対し調
節した逆フィルタ(6)を通過する。このフィルタは音
声管モデルフイjルタの伝送関数の逆関数である伝送関
数を持つ。この逆ろ波作用によって増幅率G″を乗じた
励起信号Xnと同様な予測誤り信号e。である。この予
測誤り信号enは広帯域音声の場合(二低域フィルタ(
7)を経て自動相関段(8)に送る。電話音声の場合に
予測誤り信号はスイッチ(10)を経て自動相関段に直
接進む。
誤り信号から自動相関段(8)は零次の自動相関最高値
に対し標準化した自動相関関数AKFを形成する。自動
相関関数AKFは、なるべくは適応シーキング法を使っ
て、ピッチ周期pを第1の最高値(零次)からのオ・2
自動相関最高値PXXの距離としてピッチ抽出段(9)
でよく知られているよう(ユして定め′る。
有声音又は無声音として考えている音声セクションの類
別は、エネルギー決定段(121と零遷移決定段(13
1とにより支えた判定段(1υで行う。無声きの場合に
はピッチパラメータpは零に等しくなるようにセットす
る。
パラメータ計算機(4)は音声セクション当たり1組の
フィルタパラメータを定める。もちろんフィルタパラメ
ータは若干の方式でたとえば適応逆ろ波作用又はその他
の任意の公知の処理(二より連続的に定めて各フィルタ
パラメータを各走査サイクルで連続的に調節しフレーム
速度により定まるときだけ別の処理又は伝送のために供
給する。本発明はこの点に関して何畳拘束されない。各
音声セクションに対し1組のフィルタパラメータを定め
ることが必要な、だ、けである。
パラメータ(kj)、G及びpはコード化段ttaに導
く。コード化段(14)でこれ等のパラメータは伝送に
適当な形に変換する。
これ等のパラメータからの音声信号の復号又は−合成は
、パルス雑音発生器+16’l、増幅器0η及び音声管
モデルフィルタ081に接続したデコーダ(1ωにより
よく知られているようにして行う。モデルフィルタ賭の
出力信号はD/A変換器によりアナログ形に変換し次で
フィルタ(201の通過後に再生装置たとえば拡声器(
21)で可聴にする。パルス雑音発生器α6)は音声管
モデルフィルタは(二対し、増幅器面により増幅する励
起信号xnを生ずる。無声音の場合にはこの信号は白色
雑音(p=0)から成り有声音(p\0)の場合にはこ
の信号はピッチ周期pにより定まる周波数の周間的パル
ス順序になる・音量パラメータGは増幅器0ηの増幅率
を制御する。
フィルタパラメータ(kj)は音響生成フィルタ又は音
声管モデルフィルタ08+の伝送関数を定める。
前記した所では本発明による音声処理装置の一般的構造
及び動作を分りやすいように各別の機能段を備えるもの
として述べた。しかし当業者には明らかなように解析側
のA/D変換器(3)と合成側の゛D/A変換器変換器
間でディジタル信号を処理する機能又は機能段のすべて
は実際上適当にプログラムした計算機、マイクロプロセ
ッサ又は類似物を備える。ソフトウェアに関してたとえ
ばパラメータ計算機、互に異るディジタルフィルタ、自
動相関等のような何個の機能段の実施例は、データ処理
業界の当業者に対するルーチンタスクを表わし技術論文
〔たとえばI EEEディジタル信号処理委員会、ディ
ジタル信号処理のプログラム、IEEEプレス・ブック
(Press Book ) 1980年刊行参照〕に
記載しである。
リアルタイム応用にはとくに高い走査割合と短い音声セ
クションとの場合に、極めて短い時限に多数の演算を行
うために極めて高い能力の計算機が必要である。このよ
うな目的に対しタスクを適当に分割した多重プロセッサ
装置を使うのが有利である。このような装置の例は矛2
図のブロック図で示しである。多重プロセッサ装置は4
個の機能単位すなわち主プロセツサ(50)、2個の2
次プロセッサ(60)、(70)及び入出力単位(80
)を必要な要素として含んでいる。この多重プロセッサ
装置は解析及び合成を共に行う。
入出力単位(80)は、増幅器、フィルタ及び自動増幅
制御装置のようなアナログ信号処理段(81)と共に、
A/D変換器及びD/A変換器を備えている。
主プロセツサ(50)は、フィルタパラメータ及び音量
パラメータの決定〔パラメータ計算機(4)〕と音声信
号のエネルギー及び零遷移の決定〔段0211、(1■
〕と、有声音/無声音の判定〔膜種)〕と、ピッチ周期
の決定〔段(9)〕とを含む音声自体の解析及び合成を
行う。合成側でプロセッサ(5o)は、出力信号〔段(
1e〕とその音量変化〔段o7)〕と音声モデルフィル
タのる波作用〔フィルタ囲〕とを生ずる。
主プロセツサ(50)は2次プロセッサ(6o)により
支えである。2次プロセッサ(6o)は中間記憶〔バツ
ファーメきり−(5) ) ’と逆ろ波〔段(6)〕と
低域ろ波〔段(力〕と自動相関〔段(8)〕とを備えて
いる。
2次プロセッサ(7o)はたとえばモデム(90)xは
類似物によりインターフェース(71)を介する音声パ
ラメータのコード化及び復号とデータトラフィックとだ
けに係わる。
以下有声音/無声音判定処理を詳細に述べる。
初めに有声音/無声音判定とピッチ周期の決定とは、フ
ィルタ係数の決定により比較的長い解析時限に基づくの
がよい。フィルタ係数に対して解析時限は考えている音
声セクションに等しいが、ピッチ抽出に対しては解析時
限は音声セクションの両側で隣接音声セクション内にた
とえば各セクションの約半分まで延びている。一層信頼
性の高い一層不連続でないピッチ抽出はこのようにして
行う。さらに信号のエネルギーを以下に述べるときは、
この信号エネルギーはA/D変換器(3)の動的容積で
標準化した解析時限内の信号の相対エネルギーを表わそ
うとするものである。
□□□ 前記したように本発明による有声音ン無声音判定の基本
原理は確実な判定だけを行うことである〇「確実な」と
いう用語はこの場合少くとも97チの精度なるべくは実
質的に高い絶対的でもある精度を持ちこれに対応する統
計的誤り比は低い。
第3図及びす4図には本発明を実施するとくに適当な2
つの判定手順の流れ図を示しである。牙3図は広帯域音
声に対する変型を示し、1・4図は電話音声に対する変
型を、示す。
才3図に示すようにエネルギー試験は1・1の判定基準
として行う。この場合音声信号Snの(相対的、標準化
した)エネルギーE8は最小エネルギーしきい値ELと
比較する。この最小エネルギーしきい値ELは、エネル
ギーE8がしきい値ELを越えなげれば音声セクション
を無声音として安全に指示できるように十分低く設定す
る。この最小エネルギーしきい値EL(7)実際値ハ1
.1 x IQ−’なイL1.4X10−4なるべくは
約1.2 x 10−’である。
これ等の値は、全部のディジタル走査信号を単位フォー
マット(±1の範囲)で表わす。他の信号フォーマット
の場合にはこれ等の値(二対応する率を乗じなければな
らない。
音声信号のエネルギーE8がこのしきい値を越えると、
はっきりした判定を行うことができなくて、次の基準と
して零遷移試験を行う。この場合解析時限内のディジタ
ル音声信号7の零遷移zCの数を定め最高数ZCU、と
比較する。零遷移数がこの最高数・より高いと、音声セ
クションは無声音であるとはっきり定められる。さもな
ければ別の判定基準を使ち。実際上適当で確実な判定の
ためには最高数ZCUは256走査値の解析長さに対し
約105ないし120なるべくは110の零遷移になる
前記した順序のエネルギー試験及び零遷移試験は実際上
十分に行った。しがしこの順序を逆にすると、判定しき
い値を修正しなければならない。
−次の判定基準として低域ろ波した予測誤り信号e、の
標準化自動相関関数AKFを使う。この場合零次最高値
から指標IPにより示した距離に位置する標準化自動相
関最高値RXXをしきい値RUと比較しこのしきい値を
越えると有声音として評価する。
されなければ次の基準に進む。しきい値の実際の好まし
い値は0.55ないし0.75なるべくは約0.6であ
る。
次に低域ろ波予測誤り信号enのエネルギー、なお正確
にはこの信号の音声信号゛エネルギーE8に対する比V
。を調べる。エネルギー比V。が矛1の低い方のしきい
値孔より小さいと、音声セクションを有声音として評価
する。さもなければ矛2の高い方の比のしきい値■との
別の比較を行う。この比較ではエネルギー比V。がこの
高い方のしきい値■を越えると無声音の判定になる。こ
の3・2の月較は若干の条件のもとではなくしてもよい
・両方の比のし°きい値VL、■に対する適当な値はそ
れぞれ帆005ないし0.15及び。、6ないし0.7
5なるべくは約0.1及び0.7である。
見逃し誤りエネルギーのこの調査で明らかな結果が得ら
れなければ低い方の判定しきり値又は最高数ZCLによ
りさらに零遷移試験を行う。この試験では、この最高数
を越えると無声音の判定になる。この低い方の最高数Z
CLの適当な値は256の走査値に対し7oないし9o
なるべくは約80である。
疑わしい場合には次の判定基準として別のエネルギー試
験を行う。この場合音声信号のエネルギーE8がしきい
値EUを越えると有声音の判定になる。この最高エネル
ギーしきい値EUの実際値は1.3xlOないLl、8
xtO’なるべくは約1.5×10−5である。
この場合にも明らかな判定ができなければ先ず自動相関
最高値を3・2の低い方のしきい@雨と比・較する。こ
のしきい値を越えると、有声音の判定になる。さもなけ
れば最後の基準として1つ又は2つのすぐ先行する音声
セクションとの横の比較を行う。この場合2つ(又は1
つ)の先行音声セクションも又無声音9ときだけこの音
声セクションを無声音として評価する。さもなければ最
終的に有声音の判定をする。しきい値調の適当な値は0
.35ないし0.45なるべくは約0.42である。
前記したように予測誤り信号enは広帯域音声の場合に
低域ろ波する。この低域ろ波により無声及び有声の各音
声セクション間の自動相関最高値の周波数分布の分割を
生ずることによって、判定しきい値の決定を容易にし、
これと同時に誤り周波数を減らす。さらに又ピッチ抽出
を向上しすなわちピッチ周期を定めることができる。し
かし本質的な条件は、約150ないし180 db/オ
クターブの極めて急な面傾斜で行う。使用するディジタ
ルフィルタはだ日時性を持たなければならない。たとえ
ば制限周波数は700ないし1200Hzなるべくは8
o。
ないし900Hzの範囲内でなければならない。
広帯域音声に比べて300Hz以下の周波数範囲を欠く
電話音声の場合には、低域ろ波は利点を生じないでむし
ろ不利である。従って低域ろ波は電話音声の場合は省く
。このことは、単にスイッチ(10)を閉じることによ
り又はソフトウェア手段により(プログラムの関連部分
を゛実行しないことにより)できる。
2・4図に示した電話音声の判定実施処理は広帯域音声
の場合と広範囲にわたり一致する。1・2エネルギー試
験及が3・2零遷移試験の順序は、必ずしも必要ではな
いが交換するだけである。さらに自動相関最高値RXX
の′A−2の試験は、電話音声の場合には成績を生じな
いので省く、何個の判定しきい値が広帯域音声C二関し
て電話音声の差で保持する際に互に異る。実際土星も好
ましい値は次の表による。
判定しきい値    範         囲   代
表値EL     1.4xlO−1,6xlo ’ 
   1.5xlO’ZCU     120〜140
(256の走査に対し)130RU      O,2
〜0.4                0.25V
L       O,05〜0.15        
       0 、1VU      O,5〜0.
7                0.6EU   
  1.3x 10 ’〜1.8 x 10−51.5
 x 10−’ZCL’1(1)〜200 (256の
走査に対し)    110前記した2つの判定処理で
は極めて低い誤り率でイ丁声ざ/無声音判定が得られる
。基準の順序及び基準自体は互に異るのは明らかである
。原則として各基準の場合に確実な判定だけを行うこと
が必要なだけである。
以上本発明をその実施例について詳細に説明したが本発
明はなおその精神を逸脱しないで神種の変化変型を行う
ことができるのはもちろんである。
【図面の簡単な説明】
(・1図は本発明音声解析合成装置の1実施例の簡略化
したブロック図、オ・2図は2・1図の装置の多重プロ
セッサ装置のブロック図である。1・3図及び1・4図
は本発明による有声音/無声音判定の互に異る処理構成
の流れ図である。 1・・・マイクロホン、2・・・フィlレタ、3・・・
メ変換器、4・・・パラメータ言1σ機、6・・・逆フ
ィルり、8・・・自動相関段、11・・・判定段、14
・・・コード化段、15・・・テコーダ、18・・・音
声管モデルフィルタ、19・・・D/A変換器、50・
・・主プロセツサ、60.7o・・・2次プロセッサ、
80・・・入出力単位 式1い、中島宣珍

Claims (1)

  1. 【特許請求の範囲】 (1)  ディジタル化音声信号を谷セクションに分割
    し、これ等の各セクションを解析して音声モデルフィル
    タのパラメータと音数パラメータとピッチパラメータと
    を定める線形音声処理装置を[吏い、音声信号が有声音
    声を表わすか又は無声雑音を表わすかを判定し前記ピッ
    チパラメータを定めることができるようにする判定法(
    二おいて、基準満址時に音声信号が有声音声又は無声雑
    音の一方を少くとも97%の確率で表わす明らかな判定
    ゛の得られるようなしきい値を持つ第1しきい値基準に
    対して前記音声信号を評価し、基準満址時(二音声信号
    が有声音声又は無声雑音の一方を少くとも97%の確率
    で表わす明らかな判定の得られるようなしきい値を持つ
    壓2の叉るしきい値基準に対し前記第1基準を満足しな
    いときに前記音声信号を評価し、前記矛2基準を満足し
    ないときに別の異る基準に対して音声信号を評価するこ
    と力′・ら成る判定法。 (2)3・1の基準をエネルギー試験とし、音声信号の
    相対エネルギーを定めこのエネルギーが最小のエネルギ
    ーしきい値を越えない場合に音声セクションを無声音と
    して評価する特許請求の範囲才(1)項記載の判定法。 (3)3・1の基準を零遷移試験とし、音声信号の零遷
    移の・数を確定し、この数が最高数を越えると音声セク
    ションを無声音として評価する特許請求の範囲1)項記
    載の判定法。 +4i  g・2の基準を零遷移試験とし、音声信号の
    零遷移の数を確定し、この数が最高数を越えると音声セ
    クションを無声音として評価する特許請求の範囲木(2
    )項記載の判定法。 (5)別の基準を、逆フィルタによりデジタル化した音
    声信号から生成した予測誤り信号の音声モデルフィルタ
    C二進比例する伝達関数に対する自動相関により得られ
    る標準化した自動相関関数のしきい値試験とし、前記標
    準化自動相関関数の1・2の最高値がしきい値を越える
    とセクションを有声音として評価するようにする特許請
    求[有]範囲j・(1)項、N−(2)項又は木(3)
    項記載の判定法。 (6)別の基準を見逃し誤りエネルギー試験とし、予測
    誤り信号を音声モデルフィルタに逆比例する伝達関数を
    持つ逆フィルタによりディジタル音声信号から生成し、
    この予測誤り13号の工゛ネルギーを音声信号のエネル
    ギーと共に定め、前記予測誤す信号のエネルギーの音声
    セクションのエネルギーに対する比を定め低い方の比の
    しきい値と比較し、この低い方の比のしきい値より前記
    エネルギー比が低い場合に音声セクションを有声音とし
    て評価する特許請求の範囲才(1)項、H2)項又は才
    (3)項記載の判定法。 (7)エネルギー比を付加的に上部比しきい値と比較し
    、この上部しきい値より前記エネルギー比が大きい場合
    に音声セクションを無声音として評価する特許請求の範
    囲す(6)項記載の判定法。 (8)  、l’l・2の別の判定基準をエネルギー試
    験とし、音声信号のエネルギーを矛2の高い方の最小エ
    ネルギーしきい値と比較し、この高い方の最小エネルギ
    ーしきい値を前記・エネルギー比越えると音声±り/ヨ
    ンを有声音として評価する特許請求の範囲、′A・(5
    )項記載の判定法。 (9)  付加的な別の判定基準を矛2の零遷移試験と
    し、音声信号の零遷移の数を矛2の低い方の最高数と比
    較し、この3・2最高数を前記零遷移数が越えると音声
    セクションを無声音として評価する特許請求の範囲矛(
    5)項記載の判定法。 (10)付加的な別の判定基準を標準化した自動相関関
    数の別のしきい値試験として、前記標準化自動相関関数
    の3!2最高値が172の低い方のしきい値を越えると
    セクションを有声音として評価する特許請求の範囲31
    ’ (51項記載の判定法。 (11)  別の判定−基準を考えている音声セクショ
    ンにすぐ先行する少くとも2つの音声セクションとの横
    の比較とし、比較する全部の先行音声セクションが又無
    声きでさえあれば音声セクションを無声音として評価す
    る特許請求の範囲一4’(1)項、1(2)項ヌは月・
    (3)項記載の判定法。 (121音声信号を逆フィルタに送り予測誤り信りを生
    成し、予測誤り信号を自動相関に先だって低域ろ波する
    特許請求の範囲剥5)項記載の判定法。 (I3)  別の基準として、自動相関関数の矛1のし
    きい値試験と少くとも1つの見逃がし誤り試験と1・2
    の零遷移試験と口中11相関関数の1・2シきい値試験
    と先行音声セクションとの横の比較とを含む複数の基準
    を使う特許請求の範囲才(4)項記載の判定−4法0 (14)  見逃し予測誤りの低域ろ波を700ないし
    1200Hzの範囲の制限周波数で行う特許請求の範囲
    3・(1力項記載の判定法。 (15)低域ろ波をだ日時性と少くとも150 db/
    オクターブの面傾斜とを持つ急な面傾斜のディジタルフ
    ィルタで行う特許請求の範囲1・(121項記載の所定
    法・ (16)標準化した自動相関しきい値を零次の自動相関
    最高値に対し帆55ないし帆75の範囲(ニする特許請
    求の範囲3・(5)項記載の判定法。 0η 下方しきい値を零次の自動相関最高値に対し0.
    35ないし0.45の範囲にする特許請求の範囲3′(
    10)項記載の判定法。 (I8I  最小エネルギーしきい値を1.I XIO
    ’ないし1.4 X 10−’の範囲にする特許請求の
    範囲オ(2)項記載の判定法。 (1!1  上方最小エネルギーしきい値を1.3xl
    Oないし1.8 X 10−3の範囲にする特許請求の
    範囲オ(8)項記載の判定法。 c2■ 最大数を256走査値の音声セクション長さに
    対し105ないし120の範囲に選定する特許請求の範
    囲卆(3)項記載の判定法。 (21)下方最大数を256走査値の音声セクション長
    さに対し70ないし90の範囲内にする特許請求の範囲
    矛(9)項記載の判定法。 (a)上方比しきい値を0.6ないし0.75の範囲内
    にする特許請求の範囲才(6)項記載の判定法。 (23)下方比しきい値を0.05ないし0.15の範
    囲内にする特許請求の範囲J−(7)項記載の判定法。 −標準化した自動相関関数しきい値を零次の自動相関最
    高値(二対し帆2ないし帆4の範囲内にする特許請求の
    範囲オ!(5)項記載の判定法。 両 最小エネルギーしきい値を1.4 X 10−5な
    いし1.6xlO’−5の範囲内にする特許請求の範囲
    31− (21項記載の判定法。 126)高い方の最小エネルギーしきい値を1.3 X
     丁3ないしl 、8 X 10−’の範囲内にする特
    許請求の範囲3・(8)項記載の判定法。 僻)最大数を256走査値の音声セクション長さに対し
    120ないし140の範囲内に選歪する特許請求の範囲
    士(3)項記載の判定法。 I28)下方最大数を256走査値の音声セクション長
    さに対し100ないし120の範囲内にする特許請求の
    範囲才(9)項記載の判定!。 (渕 上方比しきい値を帆5ないし帆7の範囲内にする
    特許請求の範囲翠(6)項記載の判定法。 (列 下方比しきい値を0605ないし帆15の範囲内
    にする特許請求の範囲矛(17)項記載の判定法0(8
    1)有声き/無声音判定を、この判定が望ましい音声セ
    クションと考えている音声セクションに隣接する2つの
    音声セクションの少くとも一部とに対して行う特許請求
    の範囲矛(1)項記載の判定法。 182)音声信号をディジタル化する装置と、音声信号
    のエネルギーレベルに基ツくモデル音声フィルタの係数
    とディジタル化信号の個個のセクションの音量パラメー
    タとを定めるパラメータ計算機と、信号の成るセクショ
    ンの音声情報が有声音であるか又は無声音であるかを定
    めるピッチ判定段とを備え、このピッチ判定段を、基準
    満足時(二有声音条件及び無声音条件の一方に関して明
    らかな判定のできるしきい値を持つ3・1の基準(二対
    して音声信号を評価する評価装置と、基準満足時に有声
    音条件及び無声音条件の一方に関して明らかな判定ので
    きるしきい値を持つ才2の基準じ対して音声信号を評価
    する評価装置と、前記のオ・1及び矛2の基準のいずれ
    も満足しないときに少くとも1つの別の基準に対して音
    声信号を評価する評価装置とにより構成し、有声音声信
    号のピッチを定めるピッチ計算段と、定めたフィルタ係
    数、音量パラメータ及びピッチをコード化するエンコー
    ダとを設けて成る、線形予測法を使い音声信号を解析す
    る解析装置。 +331  パラメータ計算機、ピッチ判定段及びピッ
    チ計算段の機能を果す主プロセツサとエンコーダを備え
    た一方の2次プロセッサと音声信号を一時的に記憶する
    別の2次プロセッサとを持ち、音声信号をフィルタ係数
    に従って逆ろ波し予測誤り信号を生じ、この誤り信号を
    自動相関させ自動相関関数を生ずる多重プロセッサ装置
    を備え、前記自動相関関数を前記主プロセツサで使いピ
    ッチを定めるようにした特許請求の範囲i 93211
    項記載の解析装置。
JP57165153A 1981-09-24 1982-09-24 音声信号の判定法及び解析装置 Pending JPS5870299A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CH6167/811 1981-09-24
CH616781 1981-09-24

Publications (1)

Publication Number Publication Date
JPS5870299A true JPS5870299A (ja) 1983-04-26

Family

ID=4305323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57165153A Pending JPS5870299A (ja) 1981-09-24 1982-09-24 音声信号の判定法及び解析装置

Country Status (6)

Country Link
US (1) US4589131A (ja)
EP (1) EP0076233B1 (ja)
JP (1) JPS5870299A (ja)
AT (1) ATE15563T1 (ja)
CA (1) CA1184657A (ja)
DE (1) DE3266204D1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US5208861A (en) * 1988-06-16 1993-05-04 Yamaha Corporation Pitch extraction apparatus for an acoustic signal waveform
US4972474A (en) * 1989-05-01 1990-11-20 Cylink Corporation Integer encryptor
IT1229725B (it) * 1989-05-15 1991-09-07 Face Standard Ind Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5280525A (en) * 1991-09-27 1994-01-18 At&T Bell Laboratories Adaptive frequency dependent compensation for telecommunications channels
US5361379A (en) * 1991-10-03 1994-11-01 Rockwell International Corporation Soft-decision classifier
FR2684226B1 (fr) * 1991-11-22 1993-12-24 Thomson Csf Procede et dispositif de decision de voisement pour vocodeur a tres faible debit.
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
GB2357683A (en) * 1999-12-24 2001-06-27 Nokia Mobile Phones Ltd Voiced/unvoiced determination for speech coding
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
DE102008042579B4 (de) * 2008-10-02 2020-07-23 Robert Bosch Gmbh Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
CN101859568B (zh) * 2009-04-10 2012-05-30 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
US9454976B2 (en) 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
CN112885380A (zh) * 2021-01-26 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2908761A (en) * 1954-10-20 1959-10-13 Bell Telephone Labor Inc Voice pitch determination
US3102928A (en) * 1960-12-23 1963-09-03 Bell Telephone Labor Inc Vocoder excitation generator
US3083266A (en) * 1961-02-28 1963-03-26 Bell Telephone Labor Inc Vocoder apparatus
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier

Also Published As

Publication number Publication date
CA1184657A (en) 1985-03-26
ATE15563T1 (de) 1985-09-15
EP0076233B1 (de) 1985-09-11
US4589131A (en) 1986-05-13
EP0076233A1 (de) 1983-04-06
DE3266204D1 (en) 1985-10-17

Similar Documents

Publication Publication Date Title
JPS5870299A (ja) 音声信号の判定法及び解析装置
RU2507609C2 (ru) Способ и дискриминатор для классификации различных сегментов сигнала
US5305421A (en) Low bit rate speech coding system and compression
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
Rabiner et al. Voiced-unvoiced-silence detection using the Itakura LPC distance measure
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
US4879748A (en) Parallel processing pitch detector
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
CN1300049A (zh) 汉语普通话话音识别的方法和设备
CN101149924A (zh) 一种实现开环基音搜索的方法和装置
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
JP3523382B2 (ja) 音声認識装置及び音声認識方法
Das Some experiments in discrete utterance recognition
Schroeder Parameter estimation in speech: a lesson in unorthodoxy
JPH0774960B2 (ja) テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
CN113436649B (zh) 一种语音情感标定辅助方法及系统
JPH07295588A (ja) 発話速度推定方法
CN110827859B (zh) 一种颤音识别的方法与装置
JPH034918B2 (ja)
JP2664136B2 (ja) 音声認識装置
JP3032215B2 (ja) 有音検出装置及びその方法
Holmes Towards a unified model for low bit-rate speech coding using a recognition-synthesis approach.
JPH05303391A (ja) 音声認識装置