JPH01502853A - 有声判定装置および有声判定方法 - Google Patents

有声判定装置および有声判定方法

Info

Publication number
JPH01502853A
JPH01502853A JP63501560A JP50156088A JPH01502853A JP H01502853 A JPH01502853 A JP H01502853A JP 63501560 A JP63501560 A JP 63501560A JP 50156088 A JP50156088 A JP 50156088A JP H01502853 A JPH01502853 A JP H01502853A
Authority
JP
Japan
Prior art keywords
value
voiced
calculating
frame
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63501560A
Other languages
English (en)
Other versions
JPH0795238B2 (ja
Inventor
トムソン,デビッド リン
Original Assignee
アメリカン テレフォン アンド テレグラフ カムパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アメリカン テレフォン アンド テレグラフ カムパニー filed Critical アメリカン テレフォン アンド テレグラフ カムパニー
Publication of JPH01502853A publication Critical patent/JPH01502853A/ja
Publication of JPH0795238B2 publication Critical patent/JPH0795238B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 多重検出器系の距離尺度制御 [技術分野] 本発明は音声が基本周波数の存在を有するか否かの判定に関する。これは音声判 別とも呼ばれる。さらにとくには本発明は、音声判別を行うために音声サンプル を同時に処理する複数の有声音検出器の1つの選択であって、距離尺度計算に基 づいて行われる選択に関する。
[背景技術および問題点] 低ビット速度音声コーダにおいてはしばしば、不正確な音声判別のために音声品 質の低下が生ずる。これらの音声判別を正確に行う際の困難な点は、単一の音声 パラメータすなわち類別子(C1assifier)では有声音音声と無声音音 声との識別に信頼性がないという事実にある。音声が有声音であるかまたは無声 音であるかの判定のために多重有声音検出器を使用することおよびこれらの検出 器の1つを選択することは、シー・ピー・キャンベル(C,P。
Cambell)他の論文「音声の有声音/無声音類別の米国政府LPG−10 Eアルゴリズムへの適用J IEEE音響・音成および信号処理国際会議資料、 1986年、東京、第9.11.4巻、473−476ページ(Voiced/ Unvoiced C1assif’1cation of 5peech w ith Applicatlon to the U、S、Governmen t LPC−10E Algorithm ’ 、IEEE Internat ional Conrerence on Acoustics、 5peec h and Signal Processing、 198B、Tokyo  、 Vol、9.11.4. pp、473−476)に開示されている。この 論文は、各音声フレームに対し同じ音声類別子を処理するために各々異なる重み としきい値とを利用する多重線形識別有声音検出器の使用を開示している。各検 出器に対する重みおよびしきい値は学習データを使用することにより決定される 。各検出器に対し、学習データに異なるレベルの白色雑音が加えられる。
実際の音声の処理中にSN比(信号対雑音比、5NR)を調べることにより音声 判別を行うべき検出器が決定される。SN比がもつことができる可能値の範囲( レンジ)は、各々が検出器の1つに割当てられる副範囲(サブレンジ)に分割さ れる。各フレームに対C8N比が計算され、副範囲が決定され、音声判別を行う ためにこの副範囲に付属する検出器が選択される。
この方法に伴う問題点は、音声の特徴自身が変えられてしまうような音声環境に 関してはそれは良好に実行しないことである。
さらにキャンベルにより用いられた方法は白色雑音にのみ適応され色雑音には調 節が可能ではない。したがって、変化する音声環境において検出を可能とする複 数の有声音検出器間の選択方法に対する需要が存在してくる。
[解決法] 上記の問題点は、有声音検出器の各々により発生された分離値またはメリット値 を比較して複数の有声音検出器の中から選択される有声音検出装置により解決さ れかつ技術的進歩が達成される。
分離値はまた距離尺度とも呼ばれる。
この装置は各々が分離値を発生する識別検出器または統計的検出器のような異な る形式の有声音検出器を含む。この装置内の比較器は、音声が有声音であるかま たは無声音であるかを判別するために、最大分離値を発生している有声音検出器 を選択する。分離値は統計的−膜化距離であることが好ましい。
すべての有声音検出器はフレームが有声音であるかまたは無声の各々に対する識 別変数を決定する。変数を決定した後、各検出器は以前および現在のフレームの 有声音および無声音の両方のものに対する平均値を決定する。各検出器は以前お よび現在のフレーム有声音および無声音のものに対する分散値を決定する。平均 および分散を計算した後に、各検出器は有声音フレームに対する平均値および分 散値と無声音フレームに対する平均値および分放せることにより行われるのが好 ましい。各無声音フレームの平均値が各有声音フレームの平均値から差引かれる 。各フレームに対してこの差引かれた値が二乗され、分散値の重みつき和が請求 められた二乗された差引値で割られる。重みつき和を形成する前に、各検出器は 有声音フレームに対する分散値に有声音フレームの発生確率を乗じ、無声音フレ ームに対する分散値に無声音フレームの発生確率を乗することが好ましい。さら に二乗された差引値を重みつき和で割る前に、二乗された差引値に有声音フレー ムの発生確率および無声音フレームの発生確率が掛けられる。
この方法は、識別検出器により有声音および無声音フレーム間の分離を定義する 第1のメリット値を計算するステップ、前記統計的有声音検出器により有声音お よび無声音フレーム間の分離を定義する第2のメリット値を計算するステップ、 およびフレームが有声音であるかまたは無声音であるかを指示するために最良メ リット値を計算した検出器を選択するステップ、とを含む。
[図面の簡単な説明コ 本発明は図面を参照にしながら以下の詳細な説明を読めば容易に理解されよう。
ここで: 第1図は本発明を用いた装置のブロック図;第2図は本発明をブロック図の形で 表わした図;第3図および第4図は第2図の統計的有声音検出器103により実 行される機能をさらに詳細に表わした図;第5図は第4図のブロック340で実 行される機能をさらに詳細に表わした図である。
[詳細な説明] 第1図は2つの有声音検出器の間で1つを選択することにより無声音/有声音判 別動作を実行するための装置を示す。第1図において2つより多い有声音検出器 を使用することは当業者にとって明らかであろう。検出器102および103の 間の選択は、各検出器により発生されて距離比較器104に伝送される距離尺度 に基づいて行われる。発生される各距離尺度は発生検出器の音声判別の正確さを 指示するメリット値を表わす。距離比較器104は2つの距離尺度値を比較し、 無声音/有声音判別を行うために最大距離尺度値を発声する検出器が選択される ようにマルチプレクサ105を制御する。しかしながら、他の尺度タイプに対し ては、最小メリット値が検出器に最も正確な音声判別を行うように指示するであ ろう。距離尺度はマハラノビス距離であることが好ましい。検出器102は識別 検出器であり、検出器103は統計的検出器であることが好ましい。しかしなが ら、検出器はすべて同じタイプであってもよく、また系内に2つを超える検出器 が存在してもよいことは当業者には明らかであろう。
ここで第1図に示す装置の全体的動作を考えてみる。類別子発生器101は各音 声フレームに応答して、音声エネルギーの対数(log) 、LPG (線形予 測分析)ゲインの対数、第1反射係数の対数面積比、および1ピッチ周期だけオ フセットされている1フレーム長の2つの音声セグメントの二乗相関係数である ことが好ましい類別子(classifier)を発生する。これらの類別子の 計算は、アナログ音声をディジタルにサンプリングすること、ディジタルサンプ ルのフレームを形成すること、およびこれらのフレームを処理すること、とを含 み、これは当業者には周知である。発生器101は通路106を介して類別子を 検出器102および103に伝送する。
検出器102および103は通路106を介して受取られた類別子に応答して無 声音/有声音判別を行い、通路107および110の各々を介してこれらの判別 をマルチプレクサ105に伝達する。さらにこれらの検出器は有声音フレームと 無声音フレームとの間の距離尺度を決定し、通路108および109を介してこ れらの距離を比較器104に伝送する。これらの距離はマハラノビス(Maha ranobis)距離または他の一般化距離であることが好ましい。比較器10 4は通路108および109を介して受取られた距離に応答してマルチプレクサ 105を制御し、この結果後者のマルチプレクサは最大距離を発生している検出 器出力を選別する。
第2図は統計的有声音検出器103をさらに詳細に示す。各音声フレームに対し て、通路10Bを介して類別子発生器101から類別子のベクトルとも呼ばれる 1組の類別子が受取られる。沈黙検出器201はこれらの類別子に応答してこの フレーム内に音声が存在するか否かを判別する。もし音声が存在すれば、検出器 201は通路210を介して信号を伝送する。もしフレーム内に音声が存在しな ければ(沈黙)、このときのみ減算器207およびU/V (無声音/有声音) 判別器205がその特定のフレームのために作動する。
音声が存在するか否かに関しては、判別器205により各フレームごとに無声音 /有声音判別が行われる。
類別子平均器202は検出器201からの信号に応答して、現フレームに対する 類別子内でそれ以前のフレームに対する類別子と平均することにより、通路10 6を介して受取られた個々の類別子の平均を維持する。フレーム内にもし音声( 沈黙でない)が存在すれば、沈黙検出器201は通路210を介して統計的計算 器203、発生器206、および平均器202とに信号を送る。
統計的計算器203は有声音フレームおよび無声音フレームに対する統計的分布 を計算する。とくに計算器203は通路210を介して受取られた信号に応答し て、あるフレームが無声音である総合確率およびあるフレームが有声音である確 率とを計算する。さらに統計的計算器203は、そのフレームが無声音であった 場合に各類別子が有するであろう統計値およびそのフレームが有声音であった場 合に各類別子が有するであろう統計値とを計算する。さらに計算器203は類別 子の共分散マトリックスを計算する。この統計値は平均値であることが好ましい 。計算器203により行われる計算は、現フレームに基づくのみでなくそれ以前 のフレームにも基づいている。統計的計算器203は、これらの計算を、通路1 06を介して受取られる現フレームに対する類別子および通路211を介して受 取られる類別子の平均に基づくのみでなく、各類別子のための重みおよびフレー ムが無声音であるかまたは有声音であるかを判別するところの、通路213を介 して重み計算器204から受取られたしきい値とに基づいている。
重み計算器204は、計算器203により発生された通路212を介して受取ら れた現フレームに対する類別子の確率、共分散マトリックス、および統計値に応 答して、各類別子に対する重みベクトルa1および現フレームに対するしきい値 b1とを再計算する。
次にこれらの新しいaおよびbの値は通路213を介して統計的計算器203に 逆伝送される。
重み計算器204はまた無声音と有声音との両方の領域内における類別子のため の重みおよび統計値を通路214を介して判別器2゜5に伝送しかつ通路208 を介して発生器206に伝送する。後者の発生器はこの情報に応答して距離尺度 を計算し、この距離尺度は次に第1図に示すように通路109を介して比較器1 04に伝送される。
U/V (無声音/有声音)判別器205は通路214および215を介して伝 送された情報に応答してこのフレームが無声音であるかまたは有声音であるかを 判別し、この判別器110を介して第1図のマルチプレクサ105に伝送する。
ここで第2図に示し、ここではベクトルおよびマトリックス数学で与えられる各 ブロックの動作をさらに詳細に説明する。平均器202、統計的計算器203、 および重み計算器204とは、エヌ・イー・ディ(N、E、Dey)著の「混合 正規分布の成分の推定」 (“Estimating the Compone nts or a Mixture of’ Normal Distribu ti。
n−、ビオメトリカ[Biometrika]誌、第56巻、第3号、463− 474ページ、1969)という題名の論文に記載されたものに類似の改良EM アルゴリズムを実行する。くずし平均(decaying average)の 概念を用いて、類別子平均器202は次式1.2および3を計算することにより 、現フレームおよびそれ以前のフレームに対する類別子の平均を計算する。
n=o+1ifn<2α℃(1) z = 1/11 (2) ”n = (1−zP;1” Zxn (3)X は現フレームのための類別子 を示すベクトルであり、nは2000までの処理フレーム数である。2はくずし 平均係数を示し、X 現フレームおよび過去のフレームの全部の類別子の平均を 示す。統計的計算器20は3 zSx およびX 情報の受領に応答しn n て、次のようにまず二乗および積の和のマトリックスQ を計算することにより 共分散マトリックスTを計算する。
Q が計算されると、次のようにTが計算される。
T;ヘーXfiX′ゎ、(5) 類別子から次のように平均値が差引かれる。
X!1=xn−Xn (8) 次に計算器203は以下に示すように式(7)を解くことにより、現ベクトルX  により表わされるフレームが無声音である確率を決定するが、ここでベクトル aの成分は、音声エネルギーの対数に対応する成分は、0J91860Bに、L PCゲインの対数に対応する成分は−0,0520902に、第1反射係数の対 数面積比に対応する成分は0.5637082に、および二乗相関係数に対応す る成分は1.361249に等しく初期化し、またbは最初−8,36454に 等しく初期化することが好ましい。
(7)式を解いた後に計算器203は次式を解くことにより、類別子が有声音フ レームを表わす確率を決定する。
P(v l匂= 1−P(u Ixfl) (8)次に計算器203はp をめ る式(9)を解くことにより、あるフレームが無声音であろうと総合確率を決定 する。
Pn =(1−z) P祠” zP(”X11) 、(9)フレームが無声音で あろうとという確率を決定した後に、次に計算器203は無声音型および有声音 型の両方のフレームに対する各類別子の平均値を与える2つのベクトルUおよび ■を決定する。
ベクトルUおよびVはそれぞれ無声音フレームおよび有声音フレームに対する統 計的平均である。統計的平均無声音ベクトルであるベクトルUは、もしフレーム が無声音であるならば各類別子の平均値を含み二また統計的平均有声音ベクトル であるベクトルVは、もしフレームが有声音であるならば各類別子に対する平均 値を与える。以下に示すように、現フレームに対するベクトルUは式(10)を 計算することにより解かれ、現フレームに対するベクトルVは式(11)を計算 することにより決定される。
u+、= (1−z) ”r+−1+ Z X!I P(u”II)/P!l− ”n (10)vn = (1−1) v、l+ zXlI P(■IX!+) /(19n) −”n (11)ユニで計算器203は、通路212を介してベ トクルUおよびv1マトリックスT1および確率pを重み計算器204に伝送す る。
重み計算器204はこの情報に応答してベクトルaおよびスカラーbに対する新 しい値を計算する。次にこれらの新しい値は通路213を介して統計的計算器2 03に逆伝送される。これにより検出器103は変化する環境に迅速に適応可能 である。ベクトルaおよびスカラーbに対する新しい値が統計的計算器203に 逆伝送されなくても、ベクトルVおよびUが最新の値とされているので検出器1 03は変化する環境に適応し続けるであろう。明らかなように、判別器205は ベクトルUおよび■ならびにベクトルaおよびスカラーbを用いて音声判別を行 う。nが好ましくは99より大きくなると、ベクトルaおよびスカラーbは次式 のように計算される。
ベクトルaは次式を解くことにより決定される。
スカラーbは次式を解くことにより決定される。
b = 7 a’(un+%’n) + ]og[(1−p、)/p、 ) 、  (13)式(12)および(13)を計算した後に、重み計算器204は通路 214を介してベクトルaSU、およびVをu / v判別器205に伝送する 。
もしフレームが沈黙を含んだ場合は式(6)のみが計算される。
判別器205はこの伝送された情報に応答して現フレームが有声音であるかまた は無声音であるかを判別する。もし出力に対応するベクトル(V −U )の成 分が正であれば、このときは、もn n し次式が真であるならばフレームは有声音であると宣言される。
a′−一直u、+v、)/2 > O; (14>またもし出力に対応するベク トル(v −u )の成分が負であn n れば、このときは、もし次式が真であるならばフレームは有声音であると宣言さ れる。
a’x、 −a’(u、+v、)/2 < O、(15)式(14)はまた次式 のようにも書替えられる。
a’ x +b −1Bg [(1−p )/p 3 >Qn n 0 式(15)はまた次式のようにも書き替えられる。
a’ x +b−1og [(1−p )/p コ く On n n もし前記の条件が満たされないならば、判別器205は、フレームが無声音であ ると宣言する。式(14)および(15)は音声判別を行うための判別領域を表 わす。式(14)および(15)の書替え形式のlogの項は性能を少し変えれ ば省略可能である。本実施例においては、出力に対応する成分は音声エネルギー のlogであるのが好ましい。
発生器206は通路214を介して計算器204から受取られた情報に応答して 次のように距離尺度Aを計算する。まず最初に、次のよう式(1B)により識別 変数dが計算される。
d = a’x、 + b −]og[(1−P、、)/P、] (1B )次 の諸式で用いるためのdに類似の値を発生するために、種々のタイプの音声検出 器を用いることは好ましく、これは当業者には明らかであろう。このような検出 器の1つが自己相関検出器であろう。もしフレームが有声音であれば、式(17 )ないしく20)は次のように解かれる。
m1= (1−z) ml” ” ・(17)sl= (1−z) S1+zd ” (lli)kl =5.−fn? (19) ここでm は有声音フレームに対する平均であり、klは有声音フレームに対す る分散である。
フレームが無声音であると判別器205が宣言するであろう確率P、は次式で計 算される。
Pd= (1−z) Pa ・(20)Pdは最初0.5に設定されるのが好ま しい。
もしフレームが無声音ならば、式(21)ないしく24)は次のように解かれる 。
5O−(1−z)sO+zd” (22)均=句−m3・ (23) フレームが無声音であると判別器205が宣言するであろう確率P、は次式で計 算される。
Pd= (1−Z) pd+ Z 、 (24)式(1B)ないしく22)を計 算した後に距離尺度すなわちメリット値が次のように計算される。
式(25)はホテリング(Hotel l ing)の2サンプルT2統計を用 いて距離尺度を計算する。式(25)に対して、メリット値が大きくなればなる ほど分離は大きくなる。しかしながら他のメリット値は、メノット値が小さくな ればなるほど分離が大きくなるところに存在する。好ましくは距離尺度は次式で 与えられるマノ1ラノビス距離であってよい。
好ましくは第3の方法は次式で与えられる。
好ましくは距離尺度を計算するための第4の方法は次式で示される。
A −a(v、l−”r+) (2g )識別検出器102は、もしa’ x+ b>oならば有声音フレームを指示する情報を通路107を介してマルチプレク サ105に伝送することにより無声音/有声音判別を行う。もしこの条件が真で なければ、このときは検出器102は無声音フレームを指示する。検出器102 により使用されるベクトルaおよびスカラーbに対する値は好ましいことに統計 的有声音検出器103に対するaおよびbの初期値と同一である。
検出器102は、式(1B)ないしく28)に与えられるものと類似の計算を実 行することにより発生器206に類似の方法で距離尺度を決定する。
第3図および第4図は第2図の統計的有声音検出器103により実施される操作 を流れ図の形式でさらに詳細に示す。ブロック302および300はそれぞれ第 2図のブロック202および201を実行する。ブロック304ないし318は 統計的計算器203を実行する。
ブロック320および322は重み計算器204を実行し、ブロック32θない し338は第2図のブロック205を実行する。第2図の発生器206はブロッ ク340により実行される。減算器207はブロック308またはブロック32 4により実行される。
ブロック302は現フレームとそれ以前の全てのフレームとに対する類別子の平 均を示すベクトルを計算する。ブロック300は現フレーム内には音声が存在す るか否かまたは沈黙が存在するかを判別する。そしてもし現フーム内に沈黙が存 在すれば、制御が判別ブロック326に引渡される前にブロック324により各 類別子から各類別子に対する平均が差引かれる。しかしながらもし現フレーム内 に音声が存在すれば、このときはブロック304ないし322により統計的計算 および重み計算が実行される。まず第1番目にブロック302において平均ベク トルがめられる。第2番目にブロック304において二乗および積の和のマトリ ックスが計算される。次にブロック306において、現フレームおよび過去のフ レームに対する類別子の平均を示すベクトルXと共に後者のマトリックスが使用 されて共分散マトリックスTを計算する。次にブロック308において類別子ベ クトルX からXが差引かれる。
次にブロック310は、現在の重みベクトルa、現在のしきい値すおよび現フレ ームに対する類別子ベクトルX とを利用することにより、現フレームが無声音 である確率を計算する。現フレームが無声音であるという確率を計算した後に、 ブロック312により現フレームが有声音である確率が計算される。次にブロッ ク314によりあるフレームが無声音であろうという総合確率p が計算される 。
ブロック316及び318は2つのベクトルU及びVを計算する。
ベクトルUの中に含まれる値は、もしそのフレームが無声音であったならば各類 別子がもつであろう統計的平均値を表わす。一方ベクトルVは、もしそのフレー ムが有声音であったならば各類別子がもつであろう統計的平均値を表わす値を含 む。現フレームおよびそれ以前のフレームに対する類別子の実際の値はベクトル UまたはベクトルVのまわりにクラスタ(集団化)される。もしこれらのフレー ムが無声音であることがわかると、それ以前のフレームおよび現フレームに対す る類別子を表わすベクトルはベクトルUのまわりにクラスタされ;そうでなけれ ばそれ以前の類別子ベクトルはベクトルVの回りにクラスタされる。
ブロック316および318を実施した後に制御は判別ブロック320に引渡さ れる。もしNが99より大であれば制御はブロック322に引渡され:そうでな ければ制御はブロック326に引渡される。
制御を受取ると、ブロック322は次に新しい重みベクトルaおよび新しいしき い値すを計算する。ベクトルaおよび値すは次に続くフレーム内で第3図内のそ れに先行するブロックにより使用される。好ましくは、もしNが無限大より大で あることが要求されるならば、ベクトルaおよびスカラーbは決して変えられな いで、検出器103はブロック326ないし338内に示すようにベクトルVお よびUにのみ応答して適応するであろう。
ブロック326ないし338は第2図のu / v判別器205を実行する。ブ ロック32Bは現フレームのベクトル■のパワー項(power term)が ベクトルUのパワー項以上か否かを判別する。
もしこの条件が真であれば、このときは判別ブロック328が実行される。後者 の判別ブロックは、テストにより有声音かまたは無声音かを判別する。もしブロ ック328の判別においてフレームが有声音であることがわかると、このときフ レームはブロック330により有声音として表示され、そうでなければフレーム はブロック332により無声音として表示される。もしベクトル■のパワー項が 現フレームに対するベクトルUの出力項より小であるならば、ブロック334な いし338の機能が実行され同様に機能する。最後にブロック340が距離尺度 を計算する。
第5図は第4図のブロック340により実行される動作を流れ図の形でさらに詳 細に示す。判別ブロック501は、ブロック330.332.33Bまたは33 8の結果を調べることによりフレームが無声音と指示されたかまたは有声音と指 示されたかを判別する。もしフレームが有声音と指定されたならば通路507が 選択される。ブロック510は確率P、を計算し、ブロック502は有声音フレ ームに対する平均m1を再計算し、およびブロック503は有声音フレームに対 する分散に1を再計算する。もしフレームが無声音と判別されたならば判別ブロ ック501は通路508を選択する。ブロック509は確率P、を再計算し、お よびブロック504は無声音フレームに対する平均m。を再計算し、およびブロ ック505は無声音フレームに対する分散koを再計算する。最後にブロック5 06は指示された計算を実行することにより距離尺度を計算する。
FIG、3 FIo、4 FIG、5 国際調査報告

Claims (23)

    【特許請求の範囲】
  1. (1)フレーム内の基本周波数を検出するための複数個の手段を有して音声フレ ーム内における基本周波数の存在を判定するための装置において: 前記検出手段の各々が、前記音声フレームの有声音のものと無声音のものとの間 の分離を定義するメリット値を計算するための手段を有し; 前記検出手段の選択されたものが前記検出手段のいずれか他のものが計算したメ リット値より良いメリット値を計算したとき前記基本周波数の存在を指示するた めに、前記検出手段の1つを選択するための手段; を含む装置。
  2. (2)前記検出手段の各々が前記計算手段が前記メリット値を決定するために統 計的計算を実行することを特徴とする請求項1に記載の装置。
  3. (3)前記統計的計算が距離尺度の計算であることを特徴とする請求項2に記載 の装置。
  4. (4)前記検出手段の前記1つが: 前記基本周波数が検出したときにフレームが有声音であると指示し前記基本周波 数が存在しないときにフレームは無声音であると指示するための手段を含み; 前記検出手段の前記1つのための前記計算手段がさらに以前および現在のフレー ムの各々に対する識別変数を決定するための手段; 前記以前および現在のフレームの有声音のものに対する平均値を決定するための 手段; 前記以前および現在のフレームの前記有声音のものの分散値を決定するための手 段; 前記以前および現在のフレームの前記無声音のものの平均値を決定するための手 段; 前記以前および現在のフレームの前記無声音のものの分散値を決定するための手 段;および 決定された有声音の平均値および分散値ならびに決定された無声音の平均値およ び分散値から前記検出手段の前記1つのメリット値を決定するための手段; を含むことを特徴とする請求項2に記載の装置。
  5. (5)前記検出手段の前記1つのためのメリット値を決定するための前記手段が : 前記分散値の和を求めるための手段; 前記分散値の重みつき和を計算するための手段;前記有声音フレームの前記平均 値から前記無声音のフレームの平均値を差引くための手段; 差引かれた値を二乗するための手段;および前記重みつき和を前記二乗された値 で除し、これにより前記検出手段の前記1つのための前記メリット値を発生する ための手段;を含むことを特徴とする請求項4に記載の装置。
  6. (6)前記重みつき和を計算するための前記手段が;前記検出手段の前記1つが 前記現フレーム内における前記基本の存在を指示する第1の確率を計算するため の手段;前記検出手段の前記1つが前記現フレーム内における前記基本の不在を 指示する第2の確率を計算するための手段;前記以前および現在のフレームの前 記有声音のものの前記分散に前記第1の確率を乗じ、前記以前および現在のフレ ーム前記無声音のものの前記分散に前記第2の確率を乗ずるための手段;および 前記乗算の結果から前記重みつき和を形成するための手段;を含むことを特徴と する請求項5に記載の装置。
  7. (7)前記除するための手段が、前記検出手段の前記1つの前記メリット値を発 生するために、前記重みつき和を前記二乗された値の和で除した結果に前記第1 および第2の確率を乗ずるための手段を含むことを特徴とする請求項6に記載の 装置。
  8. (8)前記フレームが有声音であることおよび無声音であることを指示するため の前記手段が: 前記現音声フレームの音声属性を定義する1組の類別子に応答して1組の統計的 パラメータを計算するための手段;計算された1組のパラメータに応答して各々 前記類別子の1つの付属する1組の重みを計算するための手段;および計算され た1組の重みおよび類別子および前記1組のパラメータに応答して前記音声フレ ーム内における基本周波数の存在を判定するための手段; を含むことを特徴とする請求項7に記載の装置。
  9. (9)前記1組の重みを計算するための前記手段が:前記1組の前記パラメータ に応答してしきい値を計算するための手段; 前記1組の重みおよび前記しきい値とを、前記音声フレームの他の1つに対する 他の1組のパラメータを計算するのに使用されるように前記1組の統計的パラメ ータを計算するために前記手段に連絡するための手段;および 連絡された1組の重みおよび前記他のフレームの前記音声属性を定義する他の1 組の類別子にさらに応答して他の1組の統計的パラメータを計算するための手段 ; を含むことを特徴とする請求項8に記載の装置。
  10. (10)前記音声フレームの1つ内における基本周波数の存在を指示する第1の 信号を発生するための第1の手段;前記音声フレームの前記1つ内における基本 周波数の存在を指示する第2の信号を発生するための第2の手段;前記第1の手 段で決定されるように有声音フレームと無声音フレームとの間の分離の程度を表 わす第1の一般化距離値を計算するための手段を含む前記第1の手段; 前記第2の手段で決定されるように有声音フレームと無声音フレームとの間の分 離の程度を表わす第2の一般化距離値を計算するための手段を含む前記第2の手 段;および前記第1の一般化値が前記第2の一般化値より良いときに前記基本周 波数の存在を指示するために前記第1の信号を選択し、前記第2の一般化値が前 記第1の一般化値より良いときに前記基本周波数の存在を指示するために前記第 2の信号を選択するための手段; を含む音声フレーム内における基本周波数の存在を判定するための装置。
  11. (11)前記一般化距離がマハラノビス距離値であることを特徴とする請求項1 0に記載の装置。
  12. (12)前記第1の手段が: 1つの音声フレームの音声属性を定義する1組の類別子に応答して1組の統計的 パラメータを計算するための手段;計算された1組のパラメータに応答して各々 前記類別子の1つに付属する1組の重みを計算するための手段;および計算され た1組の重みおよび類別子とおよび前記1組のパラメータとに応答して前記音声 フレーム内における基本周波数の存在を判定するための手段; をさらに含むことを特徴とする請求項11に記載の装置。
  13. (13)前記第1の一般化距離値を計算するための前記手段が、前記計算された 1組のパラメータおよび前記計算された1組の重みとに応答して前記一般化距離 値を決定するための手段を含むことを特徴とする請求項12に記載の装置。
  14. (14)前記第2の手段が識別有声音検出器であることを特徴とする請求項13 に記載の装置。
  15. (15)前記第2の一般化距離値を計算するための手段が:前記以前および現在 のフレームの有声音のものに対する平均値を決定するための手段; 前記以前および現在のフレームの前記無声音のものの平均値を決定するための手 段; 前記以前および現在のフレームの前記無声音のものの分散値を決定するための手 段;および 決定された有声音の平均値および分散値ならびに決定された無声音の平均値およ び分散値から前記第2の距離尺度値を決定するための手段; を含むことを特徴とする請求項14に記載の装置。
  16. (16)前記第2の距離尺度値を決定するための前記手段が:前記分散値の重み つき和を計算するための手段;前記有声音のフレームの前記平均値から前記無声 音のフレームの平均値を差引くための手段; 差引かれた値を二乗するための手段;および前記分散値の前記重みつき和を前記 二乗された値で除し、これにより前記第2の距離尺度値を発生するための手段; を含むことを特徴とする請求項15に記載の装置。
  17. (17)フレーム内の基本周波数を検出するための第1および第2の検出器を有 して音声フレーム内における基本周波数の存在を判定するための方法において: 前記音声フレームの有声音のものと無声音のものとの間の分離を定義する第1の メリット値を前記第1の有声音検出器により計算するステップ; 前記有声音フレームの前記ものと前記無声音フレームの前記ものとの間の分離を 定義する第2のメリット値を前記第2の有声音検出器により計算するステップ; および前記第1のメリット値が前記第2のメリット値より良いとき前記基本周波 数の存在を指示するために前記第1の有声音検出器を選択し、前記第2のメリッ ト値が前記第1のメリット値より良いとき前記基本周波数の存在を指示するため に第2の有声音検出器を選択するステップ; を含む方法。
  18. (18)前記第1および第2の値を計算する前記ステップが各々前記第1および 第2の値をそれぞれ決定するために統計的計算を実行するステップを含むことを 特徴とする請求項17に記載の方法。
  19. (19)前記統計的計算が距離尺度の計算であることを特徴とする請求項18に 記載の方法。
  20. (20)前記方法が: 前記基本周波数を検出したときにフレームは有声音であると指示し前記基本周波 数が前記第1の有声音検出器により不在として検出されたときにフレームは無声 音であると指示するためのステップを含み; 前記第1の値を計算するステップがさらに:以前および現在のフレームの各々の ための識別変数を決定するステップ; 前記以前および現在のフレームの有声音のものの平均値を決定するステップ; 前記以前および現在のフレームの前記有声音のものの分散値を決定するステップ ; 前記以前および現在のフレームの前記無声音のものの平均値を決定するステップ ; 前記以前および現在のフレームの前記無声音のものの分散値を決定するステップ ;および 決定された有声音の平均値および分散値ならびに決定された無声音の平均値およ び分散値から前記第1の値を決定するステップ;をさらに含むことを特徴とする 請求項18に記載の方法。
  21. (21)前記第1の値を決定する前記ステップが:前記分散値の和を求めるステ ップ; 前記分散値の重みつき和を計算するステップ;前記有声音フレームの前記平均値 から前記無声音のフレームの平均値を差引くステップ; 差引かれた値を二乗するステップ;および前記分散値の重みつき和を前記二乗さ れた値で除し、これにより前記統計値を発生するステップ; を含むことを特徴とする請求項20に記載の方法。
  22. (22)前記重みつき和を計算する前記ステップが:前記第1の値を決定する前 記ステップが前記現フレーム内における前記基本の存在を指示する第1の確率を 計算するステップ;前記第1の値を決定する前記ステップが前記現フレーム内に おける前記基本の不在を指示する第2の確率を計算するステップ;前記以前およ び現在のフレームの前記有声音のものの前記分散に前記第1の確率を乗じ、前記 以前および現在のフレームの前記無声音のものの前記分散に前記第2の確率を乗 ずるステップ;および 前足乗算の結果から前記重みつき和を形成するステップ;を含むことを特徴とす る請求項21に記載の方法。
  23. (23)前記除するステップが、前記第1の値を発生するために、前記重みつき 和を前記二乗された値の和で除した結果に前記第1および第2の確率を乗ずるス テップを含むことを特徴とする請求項22に記載の方法。
JP63501560A 1987-04-03 1988-01-11 有声判定装置および有声判定方法 Expired - Fee Related JPH0795238B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3429787A 1987-04-03 1987-04-03
US34,297 1987-04-03
PCT/US1988/000123 WO1988007740A1 (en) 1987-04-03 1988-01-11 Distance measurement control of a multiple detector system

Publications (2)

Publication Number Publication Date
JPH01502853A true JPH01502853A (ja) 1989-09-28
JPH0795238B2 JPH0795238B2 (ja) 1995-10-11

Family

ID=21875527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63501560A Expired - Fee Related JPH0795238B2 (ja) 1987-04-03 1988-01-11 有声判定装置および有声判定方法

Country Status (8)

Country Link
EP (1) EP0310636B1 (ja)
JP (1) JPH0795238B2 (ja)
AT (1) ATE80488T1 (ja)
CA (1) CA1336212C (ja)
DE (1) DE3874471T2 (ja)
HK (1) HK108993A (ja)
SG (1) SG59693G (ja)
WO (1) WO1988007740A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021091A1 (fr) * 2000-09-06 2002-03-14 Matsushita Communication Industrial Co., Ltd. Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit
WO2006106946A1 (ja) * 2005-04-01 2006-10-12 National Institute Of Advanced Industrial Science And Technology 音高推定方法及び装置並びに音高推定用プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60114900A (ja) * 1983-11-25 1985-06-21 松下電器産業株式会社 有音・無音判定法
JPS60200300A (ja) * 1984-03-23 1985-10-09 松下電器産業株式会社 音声の始端・終端検出装置
JPS6148898A (ja) * 1984-08-16 1986-03-10 松下電器産業株式会社 音声の有声無声判定装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60114900A (ja) * 1983-11-25 1985-06-21 松下電器産業株式会社 有音・無音判定法
JPS60200300A (ja) * 1984-03-23 1985-10-09 松下電器産業株式会社 音声の始端・終端検出装置
JPS6148898A (ja) * 1984-08-16 1986-03-10 松下電器産業株式会社 音声の有声無声判定装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002021091A1 (fr) * 2000-09-06 2002-03-14 Matsushita Communication Industrial Co., Ltd. Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit
US6934650B2 (en) 2000-09-06 2005-08-23 Panasonic Mobile Communications Co., Ltd. Noise signal analysis apparatus, noise signal synthesis apparatus, noise signal analysis method and noise signal synthesis method
WO2006106946A1 (ja) * 2005-04-01 2006-10-12 National Institute Of Advanced Industrial Science And Technology 音高推定方法及び装置並びに音高推定用プログラム

Also Published As

Publication number Publication date
DE3874471D1 (de) 1992-10-15
HK108993A (en) 1993-10-22
AU602957B2 (en) 1990-11-01
ATE80488T1 (de) 1992-09-15
CA1336212C (en) 1995-07-04
SG59693G (en) 1993-07-09
JPH0795238B2 (ja) 1995-10-11
EP0310636A1 (en) 1989-04-12
AU1242988A (en) 1988-11-02
DE3874471T2 (de) 1993-02-25
WO1988007740A1 (en) 1988-10-06
EP0310636B1 (en) 1992-09-09

Similar Documents

Publication Publication Date Title
EP1083542B1 (en) A method and apparatus for speech detection
US5715372A (en) Method and apparatus for characterizing an input signal
US4074069A (en) Method and apparatus for judging voiced and unvoiced conditions of speech signal
JPH0844386A (ja) 単語認識のための始点、終点の検出方法
US20150066500A1 (en) Speech processing device, speech processing method, and speech processing program
US10002623B2 (en) Speech-processing apparatus and speech-processing method
JP7377387B1 (ja) 異常検出システム、装置、方法及びプログラム
US5046100A (en) Adaptive multivariate estimating apparatus
FI117953B (fi) Äänisignaalin käsittelylaite
US5007093A (en) Adaptive threshold voiced detector
US4972490A (en) Distance measurement control of a multiple detector system
JPH01502853A (ja) 有声判定装置および有声判定方法
Ravuri et al. Uncertainty as a predictor: Leveraging self-supervised learning for zero-shot mos prediction
CA1337708C (en) Adaptive multivariate estimating apparatus
JP2797861B2 (ja) 音声検出方法および音声検出装置
US7292981B2 (en) Signal variation feature based confidence measure
EP0309561B1 (en) An adaptive threshold voiced detector
JP3075250B2 (ja) 話者認識方法及び装置
US20220068270A1 (en) Speech section detection method
KR100349656B1 (ko) 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
JP3032215B2 (ja) 有音検出装置及びその方法
Heizmann Estimation of Music Recording Quality to Predict Automatic Music Transcription Performance
JP3026855B2 (ja) 音声認識装置
JPH03290700A (ja) 有音検出装置
JPH08248991A (ja) 音声合成装置のためのフレーズ境界検出装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees