JPH08263097A - 音声のワードを認識する方法及び音声のワードを識別するシステム - Google Patents

音声のワードを認識する方法及び音声のワードを識別するシステム

Info

Publication number
JPH08263097A
JPH08263097A JP8040181A JP4018196A JPH08263097A JP H08263097 A JPH08263097 A JP H08263097A JP 8040181 A JP8040181 A JP 8040181A JP 4018196 A JP4018196 A JP 4018196A JP H08263097 A JPH08263097 A JP H08263097A
Authority
JP
Japan
Prior art keywords
syllable
toneme
tone
pitch
preme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8040181A
Other languages
English (en)
Other versions
JP3162994B2 (ja
Inventor
Chengjun Julian Chen
チェンジュン・ジュリアン・チェン
Ramesh Ambat Gopinath
ラメシュ・アムバト・ゴピナス
Michael Daniel Monkowski
マイケル・ダニエル・モンコウスキー
A Picheny Michael
マイケル・アラン・ピチニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH08263097A publication Critical patent/JPH08263097A/ja
Application granted granted Critical
Publication of JP3162994B2 publication Critical patent/JP3162994B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

(57)【要約】 【課題】 音調付き音素システムを用いる音声認識の方
法及び装置の提供。 【解決手段】音声認識の音響信号処理の方法及び装置。
この方法は下記により構成される。(1) 各音節を同等の
長さ及び複雑さの2つの音素に分解する。第1の音素は
プレメであり、そして第2の音素はトネメである。(2)
各トネメに高、昇、低、降及び無音調が割当てられる。
(3) 音調値はプレメには割当てられない。 (4) ピッチ
が連続的に検出され、そして隠れマルコフモデルでエネ
ルギ及びケプストラと同じ方法で処理され、トネメの音
調を予測する。(5) 音節の音調はその構成トネメの音調
として与えられる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声処理、特に音色
成分を有する音声の認識に関する。
【0002】
【従来の技術】中国語テキストをコンピュータに入力す
ることは非常に困難な問題である。数十年の集中的な研
究及び数百の異なる方法の存在にもかかわらず、テキス
ト入力は依然として中国でのコンピュータ使用の主要な
障害である。
【0003】莫大な数の中国語文字のため、キーボード
はテキスト入力インタフェースとして満足できないこと
が分かっている。キーボードに代わるものとして、中国
語音声認識が20年以上にわたり研究されている。最
近、英語及び他のヨーロッパの言語の口述(dictatio
n)システムが実現されている。しかし、キーボードが
英語及び他のヨーロッパの言語について都合よく且つ有
効であるので、これらの言語の音声認識の要求は、適切
に話すことであり、キーボードを押すことではない。し
かしながら、中国語ユーザの場合、入力方法として音声
認識に代わるものは、それが妥当な正確さ、速度、及び
価格により実現できる場合、コンピュータ使用を根本か
ら変えるであろう。事実、20年以上にわたり、中国及
び台湾は音声認識を研究する仕事に多大の投資をしてい
る。しかしながら、このような強力な研究にもかかわら
ず、汎用の口述マシンとして機能する適度に良好な認識
精度を有する製品はない。
【0004】英語の音声認識システムを中国語に適応さ
せることを考えるのは合理的である。しかしながら、中
国語はヨーロッパの言語とは類似しないそれ自身の独特
の特徴を有する。中国語では音節構造は簡単であるけれ
ども、各音節はそれに関連した音調 (ピッチ曲線) を有
する。同じ子音及び母音を有するが、異なる音調を有す
る音節は、完全に異なる意味を有する種々の形態素(mo
rphemes)を表わす。従って、ピッチ検出能力のない中
国語音声認識システムは制御又は情報検索システムの限
られた語彙入力にしか使用できない。その結果、 (中国
及び台湾で開発された) 全ての適度に汎用性のある中国
語音声認識システムはピッチ検出に基づいた音調認識構
成装置を備える。前記構成装置は一般に専用のエキスパ
ートシステム即ち音調のみの別個の統計的モデルを有す
る。
【0005】よって、従来技術の中国語認識システムは
ヨーロッパ言語認識システムとは大きく異なることが分
かる。英語及び他のヨーロッパ言語に関して既に累積さ
れた強力且つ正確な方法はまだ十分に利用されてはいな
い。
【0006】ここで、北京語(標準中国語)の音声体系に
ついて簡単に説明する。周知の音声体系はしばしば文字
どおり音声認識の基礎とみなされる。この言語は比較的
少数の音節を有する。音調を含めると、それは全部で40
8 の異なる音節を有する。しかしながら、音節のピッチ
曲線は408 の音節を更に1400の抑揚音節に分割する。各
音節は、音節によっては先頭部の子音がなく、代わりに
末尾部 (即ち、母音又は鼻音末尾を有する母音) のみか
ら成ることもあるが、 (21の異なる子音の) 先頭部及び
(38の異なる子音の) 末尾部を含む。各音節は5つの異
なる音調の1つを与えるピッチ曲線を有する。北京語の
5つの音調は: 高(yinping)、 昇(yangping)、低(shan
g)、 降(gu)及び無抑揚又は縮退(ging)である。以降:
【0007】先頭部の子音は単一の子音: 有声音; 無
音; 又は帯気音である。無音及び帯気音の子音にはピッ
チがない。末尾部はもっと複雑である。これには下記に
示す8つの異なるタイプがある。以下、本明細書でu'
及びe'はそれぞれ母音u及びeのアクセント付き記号
を表す: (1) 8つの単母音: a, e, i, o, u, u', I, e' (2) 9つの二重母音: ai, ei, ao, ou, ia, ie, ua, u
o, u'e (3) 4つの三重母音: iao, iou, uai, uei (4) 前鼻音末尾を有する4つの母音: an, en, in, u'n (5) 後鼻音末尾を有する4つの母音: ang, eng, ong, i
ng (6) 前鼻音末尾を有する4つの二重母音: ian, uan, ue
n, u'an (7) 後鼻音末尾を有する4つの二重母音: iang, iong,
uang, ueng (8) r 末尾を有する1つの母音: er
【0008】中国語音声の認識で音調情報を用いる種々
の方法が提案されている。米国特許第5,220,639 号明細
書に記述されている1つの前記既存の中国語音声認識シ
ステムでは、音響処理は2つのチャンネルで並行して行
われる。第1のチャンネルは、従来のログFFT 又はログ
FFT ケプストラの方法を用いて、音調を有しない音節
(先頭部及び末尾部) を識別する。この方法は、他の方
法と同様に、先頭部を個々の音素単位として処理する。
下記の2つの方法の1つが末尾部の識別に用いられる: (1) 末尾部の各々を1つの音素として処理する。この場
合、各音節は (音調なしに) 2つの音素として (又は、
もし先頭部がなければ1つの音素として) 表わされる。
この方法の欠点は末尾部の複雑さが1つの母音から三重
母音まで、又は鼻音末尾を有する二重母音まで大幅に変
化することである。それゆえ、多くの混乱が報告されて
いる。また、先頭部のない場合、及びb、d及びgのよ
うなアクセントのない幾つかの先頭部は混乱が起きやす
い。 (2) 末尾部の1つの母音及び鼻音の子音の各々を個々の
音素として処理する。この場合、末尾部は1つ、2つ又
は3つの音素で表示される。よって、音節は1つ、2
つ、3つ又は4つの音素で表示できる。単独の音節認識
の場合、この方法は深刻な問題を生じないが、連続音声
認識では、複雑な音節が間違って2つの簡単な音節と識
別され、又はその逆の間違った識別がなされる高い確率
がある。
【0009】前記並列システムでは、音調は個々のチャ
ンネルを介して識別される。音調を決めるピッチ曲線は
入力音声の記録から取出される。そして、 (音調を識別
する基準を設定する) エキスパートシステム、又は特に
音調認識用に設計された独立した隠れマルコフモデルが
用いられる。そして、どちらかの方法を用いて検出され
た音調値はありのままの音節と組合わせられ、音調付き
音節を予報する。
【0010】
【発明が解決しようとする課題】分離した音節識別で報
告されたの最良の結果では、識別誤り率は5%である。
音調識別の誤り率も5%である。2つのチャンネルは独
立しているので、組合せ誤り率は10%に達することが
ある。
【0011】別個に音声を認識する状況ではいくらか満
足されるが、音節及び音調の別個の検出を連続中国語音
声認識に用いることは困難である。多くの先頭部分は無
声音又は帯気音であり、そしてピッチを有しないので、
既知のアルゴリズムは複雑であるがロバストではない。
【0012】
【課題を解決するための手段】本発明はヨーロッパ言語
の音声認識に関する強力な基礎的方法を中国語音声の認
識に移植することを可能にする。これは新規の音素シス
テムの導入により達成される。このシステムでは、音調
は最も初期の音素レベルから包含され、そしてピッチデ
ータは従来の音声変数と同じように、即ち、ケプストラ
及びエネルギに関して、処理される。この新規の方式に
より高い認識精度が示されている。
【0013】
【発明の実施の形態】音調識別の部分を従来の隠れマル
コフモデル(HMM) の方法と一体化する、中国語音声認識
の新しい音響信号処理方法を説明する。この方法は下記
の特徴を有する: (1) 各音節は、第1及び第2の音素がそれぞれプレメ及
びトネメと呼ばれる同等の長さ及び複雑さの2つの音素
に分解される。 (2) 全てのプレメ及びトネメは、隠れマルコフモデルで
同数 (例えば、3) の状態で表示できる。 (3) 各トネメは下記の音調値: 高、昇、低、降又は無音
調のうちの1つを指定される。換言すれば、正確に同じ
(複数の) 母音及び子音末尾を有するが、音調の異なる
トネメは、異なる音素である。 (4) 音調はプレメとは関連しない。 (5) 音節の音調値はそのトネメの音調によってのみ決め
られる。 (6) ピッチは連続的に検出され、そしてエネルギ及びケ
プストラと同じように処理される、即ち、その瞬時値及
びその導関数 (及び2次導関数) は独立したパラメータ
として処理される。 (7) 音響データからピッチが決定されない、即ち決定で
きないとき、その公称値が継続アルゴリズムにより補わ
れる。
【0014】[音調付き音素システム]音調付き音素シ
ステムの概念は、標準中国語音声に関する本発明の下記
の観察に基づいて理解される: (1) 音節が4つの単音を有する場合、主音 (即ち、最大
のエネルギを有する音)は、常に母音である第3の単音
に位置する。 (2) 音節が3つの単音を有する場合、 (最大のエネルギ
を有する) 主音は、常に母音である第2又は第3の単音
のどちらかに位置する。 (3) 主母音のピッチ及び(時間に関する)その導関数は全
音節の音調を決定するのに十分な情報を有する。
【0015】よって、各音節を2つの部分に分割するこ
とができる。この場合、第2の部分は常に主母音を含む
ので、全音節の音調を決定するのに十分な情報を有す
る。音調は音節の特性であり、ピッチは測定可能な量で
あり、そして時間とともに変化する。音調はピッチ曲線
により決定される。このような分割では、音節の第2の
部分は1つ又は2つの単音のみを含みうる。詳しくは、
音節の第2の部分の内容には下記の3つの可能性があ
る: (1) "xia" の場合のような、単母音 (2) "xiao"の場合のような、二重母音 (3) "xian"の場合のような、鼻音末尾を有する単母音
【0016】アメリカ英語の音声認識の場合には、二重
母音及び鼻音末尾を有する単母音は単音素とみなされ、
そして隠れマルコフモデルで3つの状態のセットによ
り、単母音の場合と全く同じように処理される。よっ
て、上記3の標準中国語の場合の各々で、音節の第2の
部分は単音素として処理できる。
【0017】本発明の方法では、同じ (複数の) 母音及
び (任意の) 鼻音末尾を有し且つ異なる音調を有する基
本母音音素 (主母音を有する音素) は異なる音素として
定義される。従って、母音音素のどれにも、5つの可能
な音調付き音素がある。例えば、音素 "a" は、高、
昇、低、降及び無音調バージョンを有する母音 "a" を
それぞれ表わす、5つの音調付き音素: a1,a2,a3,a4 及
び a5 を有する。本明細書では、音調を有する母音音素
は、その音調内容を強調するために "トネメ" と呼ばれ
る。
【0018】各基本母音音素は5つのトネメに対応し、
トネメの数を管理可能にするので、基本母音音素の数を
減らして最小にすることが有利である。ピンイン方式の
先頭部及び末尾部の直接使用は非常に多数の音素(38 x
5 + 21 = 211) を生ずる。先頭部分との "わたり"(gli
de)を分類し、そして主母音を第2の部分に残すことに
より、音素の数を減らすことができる。これは子音の状
況従属を弱めるので、識別精度を高めることができる。
下記のテーブル1及びテーブル2は弱められた音素体系
の例を示す。これらは23のトネメ及び51のプレメを含
む。音素の全数は、114 のトネメ及び51のプレメの合
計、即ち165 である。テーブル1は標準中国語に存在す
る全トネメのリストである。
【表1】
【0019】上記テーブルの記号はできるだけピンイン
方式に近い綴りで示されている。唯一の相違はトネメIH
である。ピンイン方式では、Z, C, S, R, ZH, CH 及び
SHの省略時の母音は "i"として書かれる。事実、その音
響特性は非常に異なる。
【0020】トネメからの分離により残された、音節の
第1の部分は単一の子音か、又は弱い母音、いわゆる "
わたり"、"i", "u" 又は "u'."が後に続く子音のどち
らかである。これらのわたりの存在は先行の子音をその
全くの開始時間から変えることが実験的に観察されてい
る。よって、このような組合せを単一の音素として処理
することは論理的である。母音で始まる音節の前には常
に声門閉鎖音があることも観察されている。母音 "i"
及び "u"の場合、ピンイン方式では、声門閉鎖音を有
する母音はそれぞれ "y"及び "w"で示される。"u'"
の場合、声門閉鎖音を有する母音はしばしば "yu" と書
かれる。母音 "a", "e" 及び "o" の場合にも、声門
閉鎖音は存在する。よって、母音で始まる音節では、本
発明の方法は声門閉鎖音を有する部分を音節の第1の音
素として切離す。そして、このような構成により、各音
節はほぼ等しい長さ及び複雑さの2つの音素に再分割さ
れ、そして各々は隠れマルコフモデルで同じ番号の状態
で表示できる。これらの開始音素及び従来の概念の "先
頭部分" の間の目立った相違を示すために、それらは"
プレメ" と呼ばれる。プレメ及び先頭部分の間の目立っ
た相違は、プレメが単一の子音、声門閉鎖音、わたりを
有する子音、又はわたりを有する声門閉鎖音を含みうる
ことである。プレメの全数はおよそ50である。本発明に
より、プレメに関連したピッチ情報は無視される。テー
ブル2は表示中国語のプレメを全てリストする。
【表2】
【0021】下記の観察に基づいて、プレメ音調を無視
できることが判明した。無音の子音のみを含むプレメに
は、ピッチ情報がない。有声音の子音又はわたりを含む
プレメでは、ピッチ情報は存在し、そしてピッチ値は音
節の音調に従属しない。トネメのピッチ値は音節全体の
音調の決定に十分な情報を含むので、プレメのピッチ値
は冗長 (且つしばしば不適切な決定) である。よって、
練習プロセス及び復号プロセスでは、プレメのピッチデ
ータは、たとえ使用できても、無視される。
【0022】[練習及び復号プロセスでのピッチデータ
の処理]英語及び他のヨーロッパ言語の典型的な音響プ
ロセスは次の通りである: (1) ディジタル音声データ(PCM) は10 ms 毎に高速フー
リェ変換(FFT) される。FFT の絶対値は24の周波数帯に
わたって累積され、そして対数の余弦変換の結果生じる
ベクトル (ケプストラと呼ばれる) がパラメータとして
選択される。 (2) PCM データの瞬時エネルギは13番目のパラメータと
して選択される。 (3) 13のパラメータの瞬時値及び1次及び2次導関数が
音声を記述する独立変数として選択される。従って、フ
レーム (即ち、10 ms の音声サンプル) 毎に39の変数が
ある。
【0023】上記通常の処理は参照文献1乃至3に記述
されている。(Robust Methods forUsing Context-Depen
dent Features and Models in a Continuous Speech Re
cognizer, L.R. Bahl, P.V. de souza, P.S. Gopalakri
shnam D. Nahamoo, M.A. Picheny, ICASSP-94, I-533;
Towards Large Vocabulary Mandarin Chinese Speech R
ecognition, H-W. Hon, B. Yuan, Y-L. Chow, S. Naray
an and K-F. Lee, ICASSP-94, I-545; and U.S. Patent
5,220,635: Mandarin Speech Input Methodfor Chines
e computers and a Mandarin Speech Recognition Mach
ine, L.S. Lee, (June 15, 1993) を参照されたい。)
【0024】20年にわたり音声認識のピッチ検出には多
くの関心があり、そして多数のピッチ検出の方法が報告
されている。最も広範に用いられた3つの方法は自己相
関、低調波合計及びリアル・ケプストラ方法である。こ
れらの3つの方法はどれもピッチ値の取出しに使用でき
る。典型的な結果が図1に示される。図1には、低 10
2、昇 104、降 106及び高 108の音調をそれぞれ有する
4つの音節がある。図1のグラフの生成のために測定さ
れた音声は連続的な音声であるけれども、最後の3つの
子音 (h, x及びx) に関連付けられたピッチ値はな
い。なぜなら、これらは無声音の子音であり、ピッチが
ない。従って、図1に表示されたピッチ曲線は不連続で
ある。この生データが文字どおりパラメータとして選択
された場合、コンピュータに混乱を招くことが実験によ
り示されている。練習プロセスを簡単にするために、こ
れらの不連続は偽りの信号によりマスクされる。即ち、
本発明の良好な実施例では、データは音調のない音節の
部分についてシミュレートされた音調値を生成するため
に連続アルゴリズムを通過する。このシミュレーション
プロセスは下記のステップを含む: (1) ピッチ値が存在する場合、ピッチの瞬時値の対数を
とるステップ; (2) 意味のあるデータ (即ち、ピッチ値があれば、その
値) の連続平均を計算するステップ; (3) 沈黙があるとき音声データの始めに無作為の信号を
付加するステップ; (4) 有声音の部分が終了してピッチが未決定になると
き、連続平均に向かって指数関数的な減衰を決定し、そ
して (雑音をシミュレートするために) 無作為信号を付
加することにより、データストリームのピッチ不在領域
についてシミュレートされたピッチ値を外挿するステッ
プ。
【0025】図2は前述の手順を図1のデータに用いた
ときの結果を示す。垂直の破線は図1に示された実際の
ピッチ測定の時間境界を示す。そして、外挿されたピッ
チ値を含むピッチデータのストリームは、典型的な音素
の12のケプストラパラメータ及びエネルギと同じよう
に、練習及び復号に用いられる。換言すれば、瞬時値及
びその1次及び2次導関数はそれぞれ独立した変数とみ
なされる。よって、これにピッチを付加すると、入力信
号を記述するパラメータは全部で14になる。これらのパ
ラメータの各々の1次及び2次導関数と合わせて、42の
変数がある。
【0026】われわれの実験は分散0の発生を避けるた
めに指数関数的な信号及び無作為の信号による外挿プロ
セスが必要であることを示している。
【0027】図3は、任意の1000の音節から平均した、
所与の時点のピッチ値pと最初のピッチ値poとの比率の
対数の平均値、及び異なる音調 (高、昇、低、降、無音
調)のピッチの対数の導関数のプロットを示す。各軌線
を決める3つの座標はHMM の3つの状態を表わす。図示
のように、高音調 (音調1) のピッチ値は平均ピッチの
およそ1.5 倍である。すなわち、平均値では、log(p/p
o) は0、即ちx軸である。この比率はその対数により
決定される。音節の終り、点13で、ピッチは実際に平均
ピッチのおよそ1.3 倍に落ちる。これが妥当であるの
は、全ての他の音調が低いピッチを有するからである。
円滑な移行は、高いピッチの音節の終りに向かって、ピ
ッチ値が時間とともに下降することを必要とする。換言
すれば、後に続く音節に連続的に移行するには、高い音
調の平均ピッチはその終りで低下して移行を容易にすべ
きである。上昇する音調 (音調2) のピッチ値は実際に
上昇しており、そしてそのピッチの導関数は実際に常に
正であることが分かる。しかしながら、連続音声の平均
ピッチ値は、分離された音節の発声のように常に高いの
ではなく、平均値の回りを上下する。低い音調 (音調
3) のピッチ値は平均ピッチのおよそ0.75であることが
期待されていることもよく知られている。導関数は点31
の負から点33の正に伸びる。2次導関数が正且つ大であ
るべきことも期待されている。しかしながら、平均末尾
ピッチは連続音声では、分離された音節発声の場合に高
いのと対照的に、なお非常に低い。下降する音調 (音調
4) では、期待されたように、ピッチ値は点41から点43
に急速に落下する。導関数が負且つ大であることも期待
されている。縮退音調 (音調5) の平均ピッチは全ての
意味のあるピッチデータの連続平均に近く、そして始め
から終り (点51から53) までの導関数は負且つ小であ
る。4つの音調のおもしろい特性は、各平均の軌線は反
時計方向に弧を描くことである。無音調の音節の軌線は
リングの中心の近くに現われる。これは音調識別に役立
つ。なぜなら、全ての5つの音調の第1のトネメ (例え
ば、11,21 等) の位置はよく分離されており、そして全
ての音調の第2のトネメ (例えば、12,22 等) 及び第3
のトネメ (例えば、13,23 等) についても同じである。
【0028】図4は本発明に従って処理される (音素及
び音調データを含む) 音節の隠れマルコフモデル(HMM)
表示の概要を示す。また、この図のどちらの端にも前後
のデータが示される。関心のある部分が "1つの音節"
として図4に示される。音節は、先行又は後続する音節
から、 "SIL"として示された沈黙の期間により分離され
る。この概要図は時間の経過とともに左から右に移動す
る。
【0029】図から明らかなように、音節は6つのマル
コフモデル状態で示され、最初の3つはプレメ、即ち音
節の最初の半分を表わし、残りの3つはトネメ、即ち音
節の残りの半分を表わす。前述のように、プレメの後に
はトネメが続くのに対し、トネメの後には沈黙又はプレ
メが続くことができる。本発明に従って、プレメ及びト
ネメは常に同数の状態で表示される。図4はプレメ及び
トネメの1つの可能な組合せのみを示す。図5はHMM の
構造を更に詳細に示す。
【0030】図5は本発明の良好な実施例で用いられた
HMM の一部分の詳細を示す。HMM は左側で、音節の分離
を示す沈黙で始まり、識別すべき音節のプレメが続き、
更に音節のトネメが続く。
【0031】図5は、簡略化のために、プレメ原型ベク
トルXI1,XI2 及び XI3ならびにXU1,XU2 及び XU3の状態
のみを示す。同様に、HMM のトネメ部分は全ての可能な
トネメの下位セットのみを示す。
【0032】前述のように、同じ母音を有するが音調
(ピッチ曲線) が異なるトネメは、異なる音素を表わ
す。図5で、移行が存在しないものもあることにも注目
されたい。例えば、XI3 からA31 への移行は起こりえな
い。これは、前に観察されたデータに基づいて、その言
語には前記移行が存在しないためである。
【0033】本発明によるシステムの良好な実施例を図
6により説明する。このシステムに備えられるマイクロ
ホンは、スピーカーから音声入力を受信し、そしてこれ
らの入力をアナログ電気信号に変換する。アナログ信号
の振幅 (dB表示) は増幅器602 で増幅され、そしてアナ
ログ/ディジタル(A/D) 変換器604 により、およそ10〜
20 kHzのサンプリング速度でディジタル化される。そし
て、ディジタル化された信号が (詳細は以下に記述す
る) 3つの異なる構成装置に入力される: (a) 25 ms にわたるPCM データの自乗平均の計算のよう
な瞬時エネルギ決定手段606; (b) 高速フーリェ変換(FFT) 手段 608、FFT 608 の出力
の絶対値の対数をとるlog 回路 610、及び余弦変換手段
612; (c) 連続平均検出手段616 ならびに指数関数的な遅延の
外挿及び無作為信号の導入のための手段618 に出力を供
給するピッチ取出し手段614。
【0034】手段606 で決定された瞬時エネルギは所与
の時間にわたる信号振幅の自乗平均である。本発明の良
好な実施例では、使用された時間は10 ms のサンプリン
グ期間である。即ち、所与の時点の瞬時エネルギは、関
心のある時点を中心として10ms の期間にわたる振幅値
の自乗平均の計算により決定される。もう1つの適切な
時間は25 ms でもよい。しかしながら、選択された特定
の時間は設計上の選択の問題に過ぎない。
【0035】ピッチ取出し手段614 は多目的コンピュー
タで走行し、A/D 変換器604 から出力されたディジタル
化音声信号の基本的な期間を決定するように機能するソ
フトウェアでもよい。信号の基本周波数はフレームのピ
ッチを決定する。既に説明したように、沈黙及び無声音
の子音には関連ピッチはない。所与のフレームに関連ピ
ッチがない場合には、ピッチ取出し手段614 及び連続平
均検出手段616 からのピッチ情報を用いて外挿手段618
が生成した外挿信号は、ピッチの不在から生じるディジ
タル化音声信号内の間隙に挿入される。ピッチ間隙に導
入されたこれらの外挿信号は分析には用いられない。む
しろ、これらの信号は単に信号分散が0として計算され
るのを防ぐために用いられる。従って、本発明により、
外挿信号の導入は、分析される音節の音調を識別する手
順を大幅に簡略化する。
【0036】外挿手段618 の出力は "拡張されたピッ
チ" 信号、即ち、 (例えば、図1に示されたような) 音
声の最初のピッチ曲線に外挿信号を加えたものである。
拡張されたピッチ信号の例は図2に示されている。
【0037】瞬時エネルギ決定手段606 の出力、余弦変
換手段612 からのケプストラ出力及び外挿手段618 から
の拡張されたピッチ出力は、これらの信号の1次及び2
次導関数と一緒に、特性ベクトルとしてアレイ620 に記
憶される。良好な実施例では、1つの前記アレイが音声
情報の25 ms フレーム毎に記憶される。
【0038】図6のピッチ取出し、連続平均及び外挿機
能を実現するための良好なアルゴリズムの詳細は図7に
示される。ブロック702 で、ディジタル化された音声信
号が入力される。ブロック704 で、現在のフレームの
(前記手段606 で計算された)エネルギがしきい値よりも
大きいかどうかが判定される。もし信号エネルギがしき
い値よりも小さければ、それはピッチの不在及び外挿の
必要性を示す。もし信号エネルギがしきい値よりも大き
ければ、ブロック706 でピッチ取出しが行われる。ピッ
チ取出しはフレームの瞬時周波数の決定により行われ
る。ブロック708で、もしピッチ値が妥当な範囲内、例
えば、50 Hz 及び500 Hzの間 (これは、男性及び女性を
含む、人間の音声の範囲である) にあれば、ディジタル
化音声信号は、信号雑音を除去するために、ブロック71
0 で低域フィルタを通過する。そしてピッチ値がブロッ
ク712 で出力される。
【0039】図7のアルゴリズムへのもう1つの入力
は、ブロック714 に示す初期平均ピッチ値である。そし
てブロック716 でピッチの連続平均が下記の式により計
算される。この式で、Po は連続平均ピッチ値であり、
po は初期ピッチ値、yは平均をとる時間を決定する少
数である。詳しくは、それはその時間のフレームの数の
逆数である。そして連続平均はピッチ信号の外挿のため
に用いられる。
【数1】Po=po (1-y) + Pny, 0 < y << 1
【0040】ブロック704 でディジタル化音声信号のエ
ネルギがしきい値よりも低い場合、又はブロック708 で
ディジタル化音声信号のピッチ値が妥当な範囲内にない
場合、ブロック718 でピッチ値が外挿される。どちらの
場合にも、外挿ピッチ信号は下記の式により計算され
る。この式で、Pn は外挿ピッチ信号の時間nの瞬時値
であり、Pn-1 は直前の時間のピッチであり、そしてx
は外挿の時間目盛りを決定する別の少数である。詳しく
は、それは指数関数的な外挿時間の間のフレーム数の逆
数である。ブロック720 で、雑音成分が雑音発生装置で
生成される。
【数2】 Pn=(Pn-1 − po)(1-x) + Pox + 雑音,0 < x << 1
【0041】外挿信号が計算された後、外挿信号及び最
初のディジタル化信号が合計され、そしてブロック710
で低域フィルタを通過した後、アレイ618 に出力され
る。
【0042】[実験結果]本発明の方法は男性話者が読
んだ1188の練習文を用いて試験された。試験データは同
じ話者による別の100 の文であった。全ての音声は通常
の話し速度による連続モードであった。本発明の方法を
用いて、音調識別の誤りは1.7 %であった。音響誤りに
属する誤りは7.6 %であり、そして同音異義語の誤りは
2.5 %であった。
【0043】本発明は、それが連続音声モードで実行さ
れたとき、連続音声モードの中国語口述システムを開発
する機会をもたらす。本発明の方法は他のシナ・チベッ
ト語系の言語の方言に、又は音調が欠くことのできない
要素である他のどの言語にも等しく使用できる。もちろ
ん、本発明の方法は分離されたワードの音声認識にも有
用である。
【0044】まとめとして、本発明の構成に関して以下
の事項を開示する。 (1) 音調内容を有する少なくとも1つの音素を含む音
声のワードを認識する方法であって、各音節をプレメ及
びトネメに分解するステップと、各音節のプレメ及びト
ネメに基づいて音声のワードを識別するステップとを含
む方法。 (2) 音節のプレメ及びトネメの持続時間はほぼ等し
い、上記(1)に記載の方法。 (3) 音節のプレメはその音節の最初の部分を表わす音
素である、上記(1)に記載の方法。 (4) 音節のトネメはその音節の終りの部分の音素に音
調を加えたものである、上記(3)に記載の方法。 (5) 識別される入力音声のピッチを連続的に検出する
ステップと、前記入力音声の連続的なトネメの瞬時エネ
ルギ値を決定するステップと、各フレームの複数のケプ
ストラを取出すステップと、もし前記フレームの1つの
エネルギがしきい値よりも小さければ: そのフレーム
を、外挿されたフレームに置き換えるステップと、前記
トネメの音調を予測するために、ケプストラ、瞬時エネ
ルギ及び瞬時ピッチをパラメータとして含む特性ベクト
ル空間を構築するステップとを更に含む、上記(4)に記
載の方法。 (6) 前記音節の音調値が前記トネメの音調として与え
られる、上記(1)に記載の方法。 (7) 前記音節の音調値を割当てるために前記音節のプ
レメの音調内容がどれも無視される、上記(5)に記載の
方法。 (8) 前記音節の音調をそのトネメの音調を用いて予測
するステップを更に含む、上記(1)に記載の方法。 (9) 前記トネメの音調の可能な値は高、昇、低、降及
び無音調を含む、上記(1)に記載の方法。 (10) 音調内容を有する少なくとも1つの音節を含む
音声のワードを識別するシステムであって、各音節をプ
レメ及びトネメに分解する手段と、前記各音節のプレメ
及びトネメに基づいて音声のワードを識別する手段とを
備えるシステム。 (11) 音声を電気信号に変換する手段を更に備え、そ
して前記音節の各々をプレメ及びトネメに分解する手段
は:前記変換する手段の出力に接続されたA/D変換器と、
音節の先頭及び末尾を検出する手段と、音節の第1の部
分をプレメとして指定し、そして前記音節の第2の部分
をトネメとして指定する手段とを備え、前記プレメ及び
トネメは同等の持続期間を有する、上記(10)に記載の
システム。 (12) 前記音素及びワードを予測する手段として隠れ
マルコフモデルを更に備える、上記(11)に記載のシス
テム。
【図面の簡単な説明】
【図1】4つの異なる音調: 低、昇、降及び高の音節の
連続的な音声ピッチ曲線を示す図である。
【図2】図1に示された音節のピッチ曲線と図1に示さ
れたピッチのない部分に付加された間違った信号の曲線
とを示す図である。
【図3】5つの音調: 高、昇、降、低及び無音調のピッ
チ/ピッチ導関数の軌線を示す図である。
【図4】標準中国語音節の隠れマルコフモデルの概要図
である。
【図5】本発明によるプレメ及びトネメを示す隠れマル
コフモデルの詳細図である。
【図6】本発明によるシステムのブロック図である。
【図7】本発明のピッチ外挿の詳細を示す流れ図であ
る。
【符号の説明】
602 増幅器 604 A/D変換器 606 瞬時エネルギ決定手段 608 FFT手段 610 log回路 612 余弦変換手段 614 ピッチ取出し手段 616 連続平均検出手段 618 外挿手段 620 アレイ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ラメシュ・アムバト・ゴピナス アメリカ合衆国ニューヨーク州、ホワイ ト・プレインズ、ビルトン・ロード 21 (72)発明者 マイケル・ダニエル・モンコウスキー アメリカ合衆国ニューヨーク州、ニュー・ ウィンザー、ヒルトップ・ドライブ 17 (72)発明者 マイケル・アラン・ピチニー アメリカ合衆国ニューヨーク州、ホワイ ト・プレインズ、ラルフ・ストリート 118

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】音調内容を有する少なくとも1つの音素を
    含む音声のワードを認識する方法であって、 各音節をプレメ及びトネメに分解するステップと、 各音節のプレメ及びトネメに基づいて音声のワードを識
    別するステップとを含む方法。
  2. 【請求項2】音節のプレメ及びトネメの持続時間はほぼ
    等しい、請求項1に記載の方法。
  3. 【請求項3】音節のプレメはその音節の最初の部分を表
    わす音素である、請求項1に記載の方法。
  4. 【請求項4】音節のトネメはその音節の終りの部分の音
    素に音調を加えたものである、請求項3に記載の方法。
  5. 【請求項5】識別される入力音声のピッチを連続的に検
    出するステップと、 前記入力音声の連続的なトネメの瞬時エネルギ値を決定
    するステップと、 各フレームの複数のケプストラを取出すステップと、 もし前記フレームの1つのエネルギがしきい値よりも小
    さければ:そのフレームを、外挿されたフレームに置き
    換えるステップと、 前記トネメの音調を予測するために、ケプストラ、瞬時
    エネルギ及び瞬時ピッチをパラメータとして含む特性ベ
    クトル空間を構築するステップとを更に含む、請求項4
    に記載の方法。
  6. 【請求項6】前記音節の音調値が前記トネメの音調とし
    て与えられる、請求項1に記載の方法。
  7. 【請求項7】前記音節の音調値を割当てるために前記音
    節のプレメの音調内容がどれも無視される、請求項5に
    記載の方法。
  8. 【請求項8】前記音節の音調をそのトネメの音調を用い
    て予測するステップを更に含む、請求項1に記載の方
    法。
  9. 【請求項9】前記トネメの音調の可能な値は高、昇、
    低、降及び無音調を含む、請求項1に記載の方法。
  10. 【請求項10】音調内容を有する少なくとも1つの音節
    を含む音声のワードを識別するシステムであって、 各音節をプレメ及びトネメに分解する手段と、 前記各音節のプレメ及びトネメに基づいて音声のワード
    を識別する手段とを備えるシステム。
  11. 【請求項11】音声を電気信号に変換する手段を更に備
    え、そして前記音節の各々をプレメ及びトネメに分解す
    る手段は:前記変換する手段の出力に接続されたA/D 変
    換器と、 音節の先頭及び末尾を検出する手段と、 音節の第1の部分をプレメとして指定し、そして前記音
    節の第2の部分をトネメとして指定する手段とを備え、
    前記プレメ及びトネメは同等の持続期間を有する、請求
    項10に記載のシステム。
  12. 【請求項12】前記音素及びワードを予測する手段とし
    て隠れマルコフモデルを更に備える、請求項11に記載
    のシステム。
JP04018196A 1995-03-15 1996-02-27 音声のワードを認識する方法及び音声のワードを識別するシステム Expired - Fee Related JP3162994B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/404,786 US5751905A (en) 1995-03-15 1995-03-15 Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
US404786 1995-03-15

Publications (2)

Publication Number Publication Date
JPH08263097A true JPH08263097A (ja) 1996-10-11
JP3162994B2 JP3162994B2 (ja) 2001-05-08

Family

ID=23601028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04018196A Expired - Fee Related JP3162994B2 (ja) 1995-03-15 1996-02-27 音声のワードを認識する方法及び音声のワードを識別するシステム

Country Status (4)

Country Link
US (2) US5751905A (ja)
JP (1) JP3162994B2 (ja)
CN (1) CN1133974C (ja)
TW (1) TW369639B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100435578B1 (ko) * 2001-08-28 2004-06-10 컬쳐콤. 테크놀로지(마카오) 리미티드 음성 인식 방법 및 시스템
JP2005265955A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 中国語の声調分類装置及び中国語のf0生成装置

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US5995932A (en) * 1997-12-31 1999-11-30 Scientific Learning Corporation Feedback modification for accent reduction
US6766288B1 (en) * 1998-10-29 2004-07-20 Paul Reed Smith Guitars Fast find fundamental method
WO2001035389A1 (en) * 1999-11-11 2001-05-17 Koninklijke Philips Electronics N.V. Tone features for speech recognition
US6553342B1 (en) 2000-02-02 2003-04-22 Motorola, Inc. Tone based speech recognition
US20020133332A1 (en) * 2000-07-13 2002-09-19 Linkai Bu Phonetic feature based speech recognition apparatus and method
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information
US6856958B2 (en) * 2000-09-05 2005-02-15 Lucent Technologies Inc. Methods and apparatus for text to speech processing using language independent prosody markup
CN1187693C (zh) * 2000-09-30 2005-02-02 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别系统中的方法和系统
US7089184B2 (en) * 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
DE60204827T2 (de) * 2001-08-08 2006-04-27 Nippon Telegraph And Telephone Corp. Anhebungsdetektion zur automatischen Sprachzusammenfassung
EP1286329B1 (en) * 2001-08-23 2006-03-29 Culturecom Technology (Macau) Ltd. Method and system for phonetic recognition
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
KR100760666B1 (ko) * 2002-03-27 2007-09-20 노키아 코포레이션 패턴 인식
US7353173B2 (en) * 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
WO2004011667A2 (en) 2002-07-31 2004-02-05 Washington State University Research Foundation Geranyl diphosphate synthase molecules, and nucleic acid molecules encoding same
US7353172B2 (en) * 2003-03-24 2008-04-01 Sony Corporation System and method for cantonese speech recognition using an optimized phone set
US7181396B2 (en) * 2003-03-24 2007-02-20 Sony Corporation System and method for speech recognition utilizing a merged dictionary
CA2475283A1 (en) * 2003-07-17 2005-01-17 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre Method for recovery of lost speech data
US8886538B2 (en) * 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
US7684987B2 (en) * 2004-01-21 2010-03-23 Microsoft Corporation Segmental tonal modeling for tonal languages
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
JP4428093B2 (ja) * 2004-03-05 2010-03-10 ヤマハ株式会社 ピッチパターン生成装置、ピッチパターン生成方法及びピッチパターン生成プログラム
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
TWI244638B (en) * 2005-01-28 2005-12-01 Delta Electronics Inc Method and apparatus for constructing Chinese new words by the input voice
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
KR100717401B1 (ko) 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US20080120108A1 (en) * 2006-11-16 2008-05-22 Frank Kao-Ping Soong Multi-space distribution for pattern recognition based on mixed continuous and discrete observations
TW200828961A (en) * 2006-12-29 2008-07-01 Inventec Appliances Corp Method of transmitting data through mobile communication equipment
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
TW200926140A (en) * 2007-12-11 2009-06-16 Inst Information Industry Method and system of generating and detecting confusion phones of pronunciation
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム
EP2211335A1 (en) 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8949128B2 (en) * 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
US8571870B2 (en) * 2010-02-12 2013-10-29 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8447610B2 (en) * 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8831933B2 (en) 2010-07-30 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US8645128B1 (en) * 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
MX352092B (es) 2013-06-21 2017-11-08 Fraunhofer Ges Forschung Aparato y método para mejorar el ocultamiento del libro de códigos adaptativo en la ocultación similar a acelp empleando una resincronización de pulsos mejorada.
BR112015031824B1 (pt) * 2013-06-21 2021-12-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho e método para uma ocultação melhorada do livro do código adaptativo na ocultação tipo acelp utilizando uma estimativa melhorada de atraso de pitch
WO2015026690A1 (en) * 2013-08-19 2015-02-26 Med-El Elektromedizinische Geraete Gmbh Auditory prosthesis stimulation rate as a multiple of intrinsic oscillation
CN103839546A (zh) * 2014-03-26 2014-06-04 合肥新涛信息科技有限公司 一种基于江淮语系的语音识别系统
CN104143324B (zh) * 2014-07-14 2018-01-12 电子科技大学 一种乐音音符识别方法
CN104217713A (zh) * 2014-07-15 2014-12-17 西北师范大学 汉藏双语语音合成方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3069507A (en) * 1960-08-09 1962-12-18 Bell Telephone Labor Inc Autocorrelation vocoder
ATE9415T1 (de) * 1980-12-09 1984-09-15 The Secretary Of State For Industry In Her Britannic Majesty's Government Of The United Kingdom Of Great Britain And Spracherkennungssystem.
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
US4980917A (en) * 1987-11-18 1990-12-25 Emerson & Stern Associates, Inc. Method and apparatus for determining articulatory parameters from speech data
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5353372A (en) * 1992-01-27 1994-10-04 The Board Of Trustees Of The Leland Stanford Junior University Accurate pitch measurement and tracking system and method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100435578B1 (ko) * 2001-08-28 2004-06-10 컬쳐콤. 테크놀로지(마카오) 리미티드 음성 인식 방법 및 시스템
JP2005265955A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 中国語の声調分類装置及び中国語のf0生成装置
JP4617092B2 (ja) * 2004-03-16 2011-01-19 株式会社国際電気通信基礎技術研究所 中国語の声調分類装置及び中国語のf0生成装置

Also Published As

Publication number Publication date
CN1133974C (zh) 2004-01-07
US6035271A (en) 2000-03-07
CN1145511A (zh) 1997-03-19
US5751905A (en) 1998-05-12
TW369639B (en) 1999-09-11
JP3162994B2 (ja) 2001-05-08

Similar Documents

Publication Publication Date Title
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
US6553342B1 (en) Tone based speech recognition
JPS6147440B2 (ja)
JP2815579B2 (ja) 音声認識における単語候補削減装置
JP2980438B2 (ja) 人間の音声を認識するための方法及び装置
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Rong et al. Acoustic features extraction for emotion recognition
US7627468B2 (en) Apparatus and method for extracting syllabic nuclei
Maia et al. Towards the development of a brazilian portuguese text-to-speech system based on HMM.
JPS6138479B2 (ja)
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP3560590B2 (ja) 韻律生成装置および韻律生成方法並びにプログラム
JPH07191696A (ja) 音声認識装置
Rapp Automatic labelling of German prosody.
Reetz Underspecified phonological features for lexical access
Reddy et al. Neutral to joyous happy emotion conversion
JP3299170B2 (ja) 音声登録認識装置
JP2760096B2 (ja) 音声認識方式
JP3049711B2 (ja) 音声処理装置
Waardenburg et al. The automatic recognition of stop consonants using hidden Markov models
JP4213608B2 (ja) 音声波形情報分析装置及びその前処理装置
Kayte et al. Artificially Generatedof Concatenative Syllable based Text to Speech Synthesis System for Marathi
Tymchenko et al. Research of Speech Signals Backgrounds of the Ukrainian Language Using the Wavelet Transform.
Razak et al. A preliminary speech analysis for recognizing emotion

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees