JPS5827200A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS5827200A
JPS5827200A JP57135070A JP13507082A JPS5827200A JP S5827200 A JPS5827200 A JP S5827200A JP 57135070 A JP57135070 A JP 57135070A JP 13507082 A JP13507082 A JP 13507082A JP S5827200 A JPS5827200 A JP S5827200A
Authority
JP
Japan
Prior art keywords
phoneme
signal
allophone
analog audio
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57135070A
Other languages
English (en)
Other versions
JPH0576040B2 (ja
Inventor
グランビル・イ−・オツト
クン−シヤン・リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US06/289,604 external-priority patent/US4661915A/en
Priority claimed from US06/289,603 external-priority patent/US4424415A/en
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPS5827200A publication Critical patent/JPS5827200A/ja
Publication of JPH0576040B2 publication Critical patent/JPH0576040B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、一般的には音声に関するものであり、更に詳
細には、音声認識、圧縮、送信に関するものである。
アナログ的な音声信号が数多くの冗長な音を含んでおり
、そのため効率よいデータ送信には適していないという
ことは古くから知られている。直接的な人間の会話にお
いては、このような効率の悪さは許容できるものである
。しかし、この非能率的な音声を処理するための技術的
要求は、必要とされる費用、時間、記憶容量の点で実現
不可能なものであった。
アナログ的音声信号をとらえて、それを゛送信、記憶の
後に再構成できるようなデジタル的な形態のものへ変換
することのできるシステムに対する要求は存在する。こ
のような型の装置は一般的に「ボコーダ」と呼ばれる。
ボコーダはリチャードシュワルッ(RlchardSc
hwartz )等によって、米国コロラド洲デンバー
市で1980年の4月9日から11日に開催された米国
電子通信学会(工KF;Ft )の[音響、音声及び信
号処理に関する国際会議(International
Conference on Accoustics、
 5peech and SignalProcess
ing (工0ASSP 80 ) ) Jにおいて発
表された「ダイホーン モデルに基づく音声ボコーダの
基本的設計(A Preliminary Desig
n of aPhonic Vocoder Ba5e
4 on a Diphone Moael ) Jと
題する彼らの論文(この会議の論文集工0ASSI)8
0第1巻第32−35頁)の中で論じられた。
シュワルツらのダイホーンモデルはI D Ob/sで
動作する音声ボコーダに関するものであった。音声の各
音素(Phoneme )は時間間隔と単一ピッチ値と
を発生する。ダイホーンテンプレートの表が音素列を合
成するために用いられる。更に、ダイホーンテンプレー
トは、アナログ的音声の中でどの音宰が送信されている
か決定するために最初に利用される。ダイホーンはその
構造と、列をなす性質のために、1つの音素の中ごろか
ら次の音素の中ごろ才でに存在し、それを用いて音声合
成を行うことは一般的に非常にやっかいで非能率的であ
る。
ダイホーン合成の場合、理解しやすい音声をつくりだす
ためには、音響を音へ対応づける労多いアルゴリズムを
用いる必要がある。この広義の音響対置アルゴリズムを
有効なものとするためには、時間及びハードウェアを大
量に必要とする。
アナログ音声を認識する時に常に行われることは、アナ
ログ音声をそれの構成要素に分解し、それらを辞書を照
合して同定するという方法論である。人間の音声を近似
しそれをモデル化するために数多い方法及び装置が開発
されてきている。それらのモデル化法の中にはボコーダ
やデータ、線型予測フィルタ(1inear pred
ictive filters )その他の装置が含ま
れる。
アナログ的音声を分析する、そのような1つの方法は、
ジエームズ L、フラナガン(James L。
Flanagan )  によって、ここに引用する米
国音響学会誌(J、Accoust Soc、Am、 
)の1956年1月号第28巻第110−118頁の[
連続音声のホ、+1/ 77トの自動抽出(Autom
atic Extractionof Formant
 for Continuous 5peech ) 
Jと題する論文中で論じられている。
その論文の中で、フラナガンは、連続音声から最初の6
つのホルマント周波数を自動的に抽出する2つの電子装
置を提案している。それらの装置は、音声のホルマント
周波数を表わす振幅が時間の関数であるような、連続的
な直流出力電圧を発生する。ホルマント周波数はアナロ
グ的な形で表わされているが、アナログ/デジタル(A
D)変換器を用いることによって、これらのポルマント
周波数を電子的処理に用いるのにより適したデジタル形
に変換することは容易である。
別の方法は、Hoに、ダニy (H,K、 Dunn 
) Kよって、ここに引用する米国音響学会誌(J、A
CσouatBoa Am ) 1961年12月号第
66巻第1737−1746頁の[母音ホルマント帯域
幅測定法(Methods of Measuring
VowelFormant Banawi −dths
 ) Jと題する論文中で論じられている。この論文中
で、ダンは実際の音声のスペクトルの使用と、−例にお
いて人工喉頭の使用とについて述べている。
これらから明らかなように、アナログ的音声信号を近似
デジタル形へ変換するための効率的な方法及び装置は存
在していない。ホルマントの単なる認識、あるいは検知
された音声の合成のためにダイホーンを用いることは不
正確であり、もともとの音声信号を表わすデータの良質
な記録、送信を可能とはしない。
本実施例ではアナログ的音声信号を音素部分に分割する
ための装置が用いられている。比較装置が音素テンプレ
ートとの一致をとる。テンプレートを表わす参照符号が
適当な装置によって選択される。本発明で得られるデー
タ速度は1秒当り80ビツト以下である。この速度で受
信ししかも良質の音声を合成する方法は、音素から異音
(allophone )への変換を行うことによるも
のである。入力データはその速度、ピッチ、その他の因
子に関して正規化され、それは、テンプレート組あるい
はテンプレート登録表のうちの音素テンプレート組と比
較される。最適一致がとられる。
入カビツチ及び変数値は異音列の形で記録保持され、回
答もしくは送信のために用いられる。
人間の耳はフィルタ機能を有しており、また話される言
語固有の冗長度のために、最適音素一致の選択の時に起
こるあやまりは非常にすくなくなる。例えば、音素認識
器が「We Will be takinga cru
ise On the 5hip J  という文章中
の発音された音素[5)jJをまちがえて音素「CH」
ととらえたと仮定しよう。そうすると、文章は「We 
willbe taking a cruise on
 the chip J  となる。送信された音素順
列は完全な一致を与えないが、文章全体は、それでも聴
き手に理解できる。それは人間の耳及び思考過程におい
てこのあやまった音素を除去してしまうからである。人
間の耳及び思考過程は長い期間かかつて発音の変化や用
語のあやまった使われ方を修正することに慣れてきてい
る。
この装置を用いるいくつかの応用は、デジタル口述記録
装置、記録・再生電話、音のメモ、多重チャネル音声通
信、音声記録式試験等々である。
口述記録装置の場合には、音声合成の場合よりも1 音素のまちがった一致はより明らかとなる。しかし、こ
れは大まかな草稿であり、後に編集するための一次的な
文章化である。
本発明の実施例では、利用者からの初期設定を受けつけ
られるようになっており、それによってピッチ及び時間
パラメータの正規化を行う。更にまた、これによって、
実際の利用者の音素構造をより正確に近似する音素テン
プレートの登録集をつくることが可能となる。
3 Q b/sの圧縮率であれば、信号はより低価格の
ものとなり、送信に要する時間も効率よいものとなり、
記録のためのハードウェア的仕様も効率よいものとなる
本発明は音素から異音への対応づけアルゴリズムを使用
しており、異音は人間の発声をより正確にとらえている
ため、合成音声の質は大幅に向上する。
このボコーダは入力のアナログ的音声を受けとり、それ
を音素テンプレートの組と照合する。各音素は音素符号
を含んでおり、それが音素符号の2 順列へ圧縮されチャネルを通して通信される。このチャ
ネルは、正確な送信を行うために、可能なかぎり雑音の
ないものとすべきである。音素の列は受信されて、近似
異音列に翻訳され、既知の電子式合成装置によって合成
される。
そのような一つの装置は、ここに引用する1980年6
月24日付のウイインズJr 、(WigginsJr
、)  らによる米国特許第4,209.836号に述
べられている。その音声合成集積回路装置は、合成音声
発生部に線形予測フィルタを用いている。
合成装置の中でのデータの制御は当業者にはよく知られ
ている。デジタル音声データを通信し、データを記録す
るためのメモリの制御を行うだめのそのような一つの方
法は、ここに引用する1980年11月18日付のウイ
ヤンズJr。
(Wiggjns Jr、 )らによる米国特許第4,
234.761号に述べられている。
その発明の中で、音素認識装置は、自動利得制御器(A
GO)、ホルマントトラッカ(Formanttrac
kqr ) 、音素のテンプレート、認識アルゴリズム
を含んでいる。音素認識器は音声入力を受信し、音声の
利得を自動制御し、分析及びホルマント抽出のためにホ
ルマントトラッカへ信号を送る。
アルゴリズムは発声のホルマント及び特徴に作用して音
声の中での音素の境界を検出させる。検出された音素は
音素テンプレートの登録集の中の音素と照合される。各
音素テンプレートは対応する識別符号を有している。選
ばれた識別符号は順次送信チャネルを通して受傭機へ送
出される。
送信チャネルは有線であっても無線通信回線であっても
よい。理想的には、送信チャネルは、エラーを減らすた
めに可能なかぎり雑音のないものである。
音素対異音合成器がチャネルからの音素符号を受信する
。アルゴリズムがこの音素列を近似異音列へ変換し、そ
れによって良質の音声をつくりだす。音素対異音合成器
において、制御装置が異音特性の登録表を順次音声合成
器と通信するように制御する。
能率的なホルマントトラッカを用いることば有利である
。ホルマントは音声スペクトルの中で大きな振幅エネル
ギーをもつ周波数成分である。それはピッチの共振周波
数と発声音をも含む。この共振周波数は基本周波数の倍
数である。最初のホルマントは200ないし850ヘル
ツ(Hz)に発生し、第2のホルマントは850ないし
2.5001(Zに、第6のホ/l/ 7 :/ トは
2,500なイL 3,500H2に発生する。本発明
のホルマントトラッカは各周波数帯中で強いエネルギー
成分を選びだす。
本発明は、対象とする音声信号のスペクトルと、基本周
波数の整数倍の周波数をもつ正弦波とのたたみこみ(C
onvolution )を得る方法を用いている。正
弦波信号の周波数を変化させ、たたみこみの振幅を検出
することによって、選ばれた周波数帯におけるホルマン
トを見つけることができる。
成されており、付加回路を用いて正弦波発振の決定、選
ばれたスペクトル周波数における2つの関数のたたみこ
み、を行うようになっている。
1組の整数が発生されて、各々を基本周波数に乗するこ
とで、積の値が対象とするホルマント域にくるようにす
る。それら6つの゛整数の組は、それぞれが各ホルマン
ト周波数帯に対応しており、それらは十分型なりをもっ
て、ホルマントの中央が十分決定されるようになってい
る。各整数組の整数値は、基本周波数との積で正弦波信
号を発生させるために用いられる。正弦波信号とアナロ
グ音声信号とは短かい時間間隔すなわちフレームにわた
り積分される。数学的には、この2つの時間信−号の積
分はそれらスペクトルのただみこみを与゛ える。各整
数に対して積分を行うことによって、最大すなわち最も
大きな振幅が明らかKなり、それに対応する最適整数が
ホルマントを決める。選ばれたホルマント中心は最適整
数値を基本周波数に乗することによって決定される。各
ホルマントはそれに付随して帯域を有しており、それが
受信されたアナログ音声データの別の指標となる。
この指標は、他の指標例えばポーズ(pause)の有
無、有声・無声の別、信号の傾斜、その他デー5 り値を発生させるための任意の選ばれたデータと組合せ
られ、音素の登録テンプレートとの照合に用いられる。
ホルトマンを符号化する1つの方法は、各ホルマント間
の距離を決定し、それによって選ばれたホルマントを指
定するために必要なビット数を減らすことである。
音声中のホルマント分析については、シャファーとレイ
ビナ(5chaffer and Rabiner )
  によって、ここに引用する、米国音響学会誌(J、
Accoust。
Soc、 Am )  の1970年2月号第47巻第
664−648頁に記載された彼らの論文「音声の自動
ホ/l/ ? 7ト分析システム(System Fo
r AutomatlcFormant Analys
is of Voj−cea 5peech ) Jの
中で述べられている。シャファーとレイ♂すは時間と共
に変化して出力強度を制御する利得制御を用いている。
声帯−音源スペクトルと放射負荷スペクトルの組合せを
近似するためにカスケード回路網が用いられている。こ
の分析システムは時間の関数として、低い方の6つのホ
ルマント、ピッチ族6 期、利得を決定する。
一度指標が決定されると、アルゴリズムはそれを特定の
近似音素と照合する。好適実施例においては、木構造ア
ルゴリズムが用いられ、照合のために必要な計算総数を
減らすために不可能な場合を排除することを行う。この
アルゴリズムにおいては、木構造であるため、決定木構
造でのサイクルは厳密に禁止される。決定木構造でのサ
イクルは、決定が到達されない場合無限サイクルにおち
いるおそれがある。
検知された音素を音素テンプレートと照合するためのア
ルゴリズムは、最適な近似の得られるものであれば任意
のものでよい。これには、各音素テンプレートの受信音
素に対する比較値を発生し、その後に最適比較値を選ぶ
というアルゴリズムも含まれる。
一度最適音素が符号と合致すると、その符号が記憶装置
、印刷装置、あるいは合成器へ送信される。合成の前に
、その音素列はその成分異音組にマツピングされ、音声
の合成に用いられる。この音素を異音組ヘマツピングす
る方法は、クン−シャン リン、ジーン A、フランツ
、キャシイダンディ(Kun−8han bin、 G
ene A、Frantz。
Kathy Gonaie )  によって、ここに引
用する米国雑誌「エレクトロニクス(Electron
ics ) Jの1981年2月10日号の第122−
125頁に掲載された彼らの論文[ソフトウェア法則は
パーソナルコンぎユータに真のワードパワーを与える(
 Software Ru1es Give Pers
onal ComputerReal VlordPo
wer ) Jの中で論じられている。この論文は、テ
キストを分析し、それの成分要素を決定し、その後それ
らを音声合成チップ上で発音するために、ソフトウェア
を利用する方法について述べている。
その他のアルゴリズムは、クン−シャン リン、キャシ
イ グーディ、 ゾーン フランツ、ジョージ ゾラン
デイガA (Kun−8han Lin、 Kathy
Goudie、 Gone Frant)s、 Geo
rge Branclingham )によって、ここ
に引用する米国電子通信学会(工EKJ)?lHt者エ
レクトロニクス論文誌(Transactions9 on Consumer Filectronics 
)の1981年5月号第aE27巻第144−152頁
に掲載された彼らの論文[LPO異音列を用いたテキス
ト−音声変p4 (Text−to−8peech U
sing LPOAllophoneStringin
g ) Jの中で論じられている。この論文は、任意の
英文テキストをテキスト−音声変換するための応答シス
テムについて述べている。そのシステムはLP’O合成
チップとマイクロプロセッサを用いている。そのシステ
ムは入力のABCエエ文字をそれらの合成法によって英
字符号へ変換する。
異音な用いることは非常に有力な手法である。
それは、任意の話された音声を、言語や固定された登録
情報にとられれることなく再生できるからである。異音
及び音素合致アルゴリズムの広がる範囲はボコーダの能
力の唯一の制限因子である。
好適実施例は音素−異音マツピングを用いたが、音素−
タイホーン等の他のマツピング手法も才だ適用できる。
本発明は、それらの特定の実施例とその発展と共に、以
下に図面を参照しながらより詳細に説明0 する。
第1図は本発明の実施例の特長を示すブロック図である
アナログ音声101はマイクロホーン102でとらえら
れ、アナログ形で1、アナログ−デジタル(A/D )
変換器103へ送信される。信号がデジタル形へ変換さ
れると、それは変換装置、104によって検知音素へ変
換される。各棟・印音素は比較器105へ送られ、登録
集106中のテンプレートと照合され、一致が得られる
。一致した音素が決定されると、それへの符号がバス1
07を通して、音素シーケンサ(5equencer 
) l Q f3あるいは記憶装置109、あるいは送
信機110へ送出される。
音素列と合致する符号列がアナログ音声101を全体的
に同定する。この符号列はデジタル形であるためもとの
アナログ音声101よりも、圧縮したり記憶したりする
のにより適している。
音素シーケンサ108はバス107を通って送られてき
た符号を用いて、登録表106から適当な音素を得る。
この登録表106からの音素には、合成器114へ送ら
れるべき一組の異音素性が付随している。合成器114
はアナログ信号なスピーカ115へ送出し、音声116
を発生させる。
音素シーケンサ108による登録表106を用いた音素
−異音変換を行うことによって、より理解しやすい高級
な音声116が発生できる。この変換法によれば、音素
ペースのデータの符号化ができ、それによってより低い
値のピット送信速度を容易にし、必要な時間が短くなり
、もともとのアナログ音声101の記録のための記憶媒
体も容易になる。
別の方法として、音素符号を記憶装置10日にだくわえ
ておき、後で検索するというのもある。
この後での検索には、音素シーケンサ108、合成器1
14、及びスピーカ115の順で用いられ、異音形での
音素列を合成し音声116を発生させる。付加的に、記
憶装置109は音素符号を音素−英字変換器111へ送
り、そこで音素はそれに等価な英数字部分に変換される
。音素がASOI工符号のような形で英数字部分に変換
されると、それらをもともとのアナログ音声101のコ
ピー113を得るための印刷機112へ送ることは容易
である。
この動作部門、記憶装置109、音素−英字変換器11
1、印刷機112は、本発明に従って音声を印刷物とす
ることを可能としており、自動口述記録装置を実現する
もう一つの動作は、バス107からの音素符号を送信機
110へ送ることである。送信機は音素符号を表わす信
号117を発生し、それはリモート装置120の受信機
118に検知される。
リモート装置120は送信装置121と同じ能力を有し
ている。このため音素符号は受信機118からバス11
9を通って送られることもできる。
ここでも、音素符号がバス119を通って送られると、
それはリモート記憶装置109′あるいはリモートシー
ケンサ108′で処理することができる。本発明の他の
実施例においては、バス119を通って送られた音素符
号はまた図示されていな6 いリモート送信機へ送られることもできる。
リモート装置120はローカル装置121と同じように
音素符号を利用する。音素符号はリモートシーケンサ1
08′によってリモート登録表106′中のデータと共
に用いられて、リモート合成器114′へ送られる近似
異音列を発生させる。リモート合成器114′はリモー
トスピーカ115′を制御して音声116′を発生させ
る。
リモート装置もまた、後にリモートシーケンサ108′
あるいは音素−英字変換器111′において利用するた
めに、リモート記憶装置109′へ音素符号を記憶して
おく機能を有している。音素−英字変換器111′は音
素符号をそれに近似本発明のこの実施例から−らかなよ
うに、アナログ音声は、データ列として記憶や処理のし
ゃすい音素符号の形に変換される。音素符号は、記憶、
送信、印刷コピー作成が容易であり、更に、近似の異音
列へ変換することによって、音声合成する4 ことも容易である。
第2a図は、アナログ音声入力を受信し、音声出力を与
える、本発明の実施例のブロック図である。
第2a図の実施例において、もとのアナログ音声人力2
01は音素認識装置202へ送られ、そこで通信チャネ
ル204を通る音素列203に変換される。音素205
0列は音素−異音合成器206へ送られ、そこで音素列
はそれに近似した異音列に変換され、それによって音声
出力207が発生される。注意すべきことは、音素認識
装置202と音素−異音合成器206とは同じ装置の中
にあってもよいし、互に離れた装置の中にあってもよい
。この文中において、通信チャネル204はバスや電話
線のような有線装置であってもよいし、ラジオ送受信機
のような無線でもよい。
第2bj図は、第2a図に示した音素認識装置202の
実施例を示す。
アナログ音声人力201は自動利得制御(AGO)20
8へ送られ、音声信号は、特定の望みの平衡状態へ制御
される。ホルマントトラッカ209はアナログ信号をそ
のホルマント成分へ分割し、それらはランダムアクセス
メモリ(RAM) 210へ記憶される。本実施例でR
AM 210を使用しているように示しであるが、任意
の記憶装置でもかまわない。RAM 210に記憶され
たホルマントは音素境界検出装置211へ送られ、それ
によって、ホルマントを検知された音素成分へグループ
分けする。各検知された音素は認識アルゴリズム212
へ送られる。認識アルゴリズム212は既知の音素を含
む登録表213からの音素テンプレートを用いる。認識
アルテリズム212によって、音素境界検出装置211
からの検知された音素と音素テンプレート登録表213
中で見出されたテンプレートとの間で最もよい一致が求
められ、それによって認識された音素214が得られる
既に指摘したように、人間の耳の自然のフィルタ作用と
聴き手の思考過程でのあやまり修正のために、完全な認
識でなくても、最もよい一致をとることで、認識アルゴ
リズム212によって発生するあや才りは最小のものと
なる。認識アルゴリズム212は連続した音素コードの
列を発生し、列の中には空白や認識されない音素は存在
しない。
非認識決定による空白は本発明においては雑音の増大を
もたらすだけである。
第2C図は、音素−異音シンセサイザ206の実施例で
ある。
音素符号2050列は制御装置215へ送られる。制御
装置215はそれら符号と読み出し専用メモIJ (R
OM) 217を用いて近似異音列を表わす適切なビッ
ト列を音声合成器216へ送信する。
ROM 217から音声合成器216へ送られたデータ
はスピーカ218を変調して合成音声を発生するために
必要なパラメータを決定する。
音声合成器は、線形予測フィルタを用いたものを含む多
様な種類の音声合成器の中から選ばれる。
第6図は、アナログ音声を表わす指標を発生するための
、本発明の実施例のブロック図である。
この指標は、検知された音素を表わし、登録表中のテン
プレートとの間で最適の一致を得る時に7 用いられる。自動利得制御装置(AGO) 301はア
ナログ音声信号をピッチトラッカ302と積分器304
.314.324へ送る。ピッチトラッカ302は基本
周波数F[]を発生する。
各々のホルマントデターミネータ(determina
tor)308.318.328に対して、各々整数組
が決定され、それらを基本周波数に乗するとその周波数
がホルマント帯域内に含まれる。各々の整数値の組は広
げられて、その組の中で重なりをもつようにし、それに
よって全ホルマントが規定できるようにする。例えば、
基本周波数FOが200Hzとすると、最初のホルマン
トに対する整数値の組はおそら<(0,1,2,6,4
)を含み、第2のホルマント整数の組は(4,5,6,
7)を含み、第6のホルマント整数の組は(7,8,9
)を含む。
ホルマントデターミネータ308は基本周波数FQを受
けとり、それを整数値組からの整数値nと共に正弦波発
振器303中で用いる。正弦波発振器303は正弦波発
振器(1)  を発生する。その8 信号はnと基本周波数の積を中央値としている。
この正弦波信号は積分器304へ送られ、そこでホルマ
ントの選ばれた周波数にわたって、正弦波信号θ(1)
  とアナログ音声信号f(t)  との積が積分され
る。この積分器304によるこの積分はアナログ音声信
号f(りのたたみこみを与える。
このような正弦波信号の発生303と積分304との操
作は、積分器306によって整数値組内でのすべての整
数値に対してつづけられる。積分器304から最大振幅
を発生させるnの値がデターミネータ305によって選
びだされる。この最適値N′は’ 1=N’ XFDで
規定される第1のホルマン)Flを発生するために用い
られる。この積は第1のホルマントの帯域幅BW1を付
加的に決定し、そのFlとBWiの対がチャネル307
へ送られる。
同様にして、ホルマントデターミネータ318と328
は、各々正弦波発振器313と323を通して正弦波信
号を発生し、その後積分器314と3゛24とによる積
分によって各々最適値M’315゛とに’ 325を得
る。
指標BW1、Fl、EW2、F2、BY、5、F3及ヒ
FOはAGO3Q lからのアナログ音声からの検知さ
れた音素指標を表わしている。この検知された指標は、
検知された指標と登録表中の音素テンプレートとの間で
最もよい一致を得るために用いられる。
第4図は、帯域幅と最適ホルマントとの間の関係を示す
最適整数値N′が求まると、そのまわりの整数値に対し
てその振幅がプロットされる。独立軸402は、整数値
と基本周波数との積で与えられる周波数を含む。従属軸
403はたたみごみのアナログ音声信号との積により得
られる振幅を含んでいる。図に示したように、最適値N
′は振幅404を与える。まわりのデータ点405,4
06.407.408を用いると、適当な最適値N′に
対して帯域幅BWiが決定できる。
この帯域幅を使用すると検知された音素と登録表中の音
素テンプレートとの関係を決定するもう一つの指標が得
られる。同様の分析が各ポルマントに対して行われる。
第5図は最適ホルマント位置を決めるための、一つの実
施例の流れ図を示している。
アルゴリズムは501でスタートし、基本周波数FO5
02が決められる。この基本周波数はNの最適化503
に用いられる。Nの最適化503のためにはN値の初期
設定504とその後のNとFOの積に基づく正弦波発振
505とを必要とする。周波数コンボルバ506はホル
マントの選ばれた周波数上での基本周波数F’Qと入力
のアナログ音声信号とのただみこみを与える。このたた
みこみは507で最適化される。そこでは、もし最適値
でなければ、N′値を増分し508、同じ処理をくりか
えし、最適N値を決定するようになされる。Nの最適値
において、アルゴリズムは次にすすみ、Mの値の最適化
513を行い、その後にの値の最適化523を行う。N
の最適化503、Mの最適化513、Kの最適化523
は構成及び操作の点で同一である。
本実施例において、人間の言語を規定するために6つの
ホルマント周波数領域をとりあげた。61 つの領域で人間の音声が正確に記述できることは知られ
ている。しかしながら、このやり方は設計者の意志で拡
張したり、縮小したりすることができる。このアルゴリ
ズムを単一ホルマントの場合あるいは6個以上のホルマ
ントの場合に適用できるよう拡張しても一般に伺の損失
もない。
第6図は、アナログ音声信号をホルマントへ符号化する
ための別の方法を図示している。
アナログ音声信号608を周波数軸601に対してプロ
ットしである。従属軸602は振幅である。第1のホル
マントロ03において、周波数範囲は200ないし70
 Q Hzに存在する。第2のホルマントは850ない
し2500 H2の周波数範囲にあり、第6のホルマン
ト605は270oないし3500 H2の周波数にわ
たる。第3図及び第5図で述べたのと似た方法によって
、ホルマント領域内での最大振幅の位置が決定される。
これらの最大値はそれぞれ最大値606と607の間の
距離を与える。この最適ホルマントの間の距離d0は、
検知された音素を音素テンプレートへ−2 致させる場合に検知された音素を特徴づけるために用い
ることができる。この方法では、6つの整数値を使用す
る場合(第1、第2、第6ホルマントに対して)を記述
するために2つの整数値d1とd2を用いる。
表1は、音素テンプレートへの一致のための「語」を確
立するだめの符号化方式の一実施例である。
本実施例においてそのデータ語701は8ビツト語であ
るが、検知された音素を適切に記述することができる任
意の長さの語を用いることができる。本実施例において
、8ビツトは4個の基本成分702.703.704.
705に分割される。
第1の成分702はポーズ(Pauθθ)の有無を表わ
す。もしboが値1に設定されていると、ポーズが検知
され、適切な処理が行われる。もしす。
が0であればポーズ無しである。b□703にも同様な
関係が存在する。これは有声無声音素の区別をする。B
2−B5704はアナログ音声信号の形を表わす。その
値は水平勾配、正の傾斜、負の勾配を示す。
B4B7705は、相対エネルギー、相対ピッチ第1距
離、第2距離の組合せを示す。B、 −B12O3は、
それらの値が検知された音素のホルマント距離に関する
特性を示すように符号化されている。ビットb、 −b
、は第6図に示された各ホルマント内における最大値間
の距離を送信するよう符号化されている。表706から
ビットb4−1)。
の範囲内における各値は、2つの距離の絶対値を規定す
る。
第7図は、音素符号列を、それに対応する異音列へある
いはそれに対応する英数字へ変換するようすを示してい
る。
音素列801は、802のようなそれの音素符号へ分割
される。音素符号802は、特定の音素807を明白に
意味する。この音素807は、それをまわりの音素符号
803.804と共にとりあげることによって、ABC
エエ英数字で印刷されるか805、あるいはそれの近似
異音列へ変換される。
この異音列806は、目的の音素807をそのまわりの
音素と関連づけて知った場合によって、発生される。本
説明において、先行する音素803、あとにつづく音素
804、それと目的の音素802は記憶装置中に保持さ
れて、適切な異音列806を発生する。
第8図は、検知された音素の合致において、音素テンプ
レートの最良近似を決定する決定木構造の実施例の特徴
を示す。
この決定木構造は複数のステージ901.902、等に
分割される。この本構造の各ステージは検知された音素
を可能と不可能な組合せに区分けする。
検知された音素が更に可能と不可能の状態へ区分けされ
てゆくと、不可能な状態が吸収してゆき、可能な状態は
減少して、最後には1つだけ音素テンプレートが唯一可
能な選択として残る。このように、本構造の最後のステ
ージはテンプレートと同数の節を含んでいるべきである
最初の決定903は、第1ビツトb。が設定されている
かに関してなされる。第1♂ツトが設定さ5 れていれば、節905へうつり、節904B工以降の節
は無視される。このboレベルに対する決定は、節90
4のあとにつながる音素テンプレートを不可能な組と判
定し、節B2905以後にあるものを可能な組と判定す
ることである。同様な判断が指標の各成分に対してなさ
れる。この例において、次の分離がblに対して行なわ
れ、次にb2−b3の値に対してなされる。この節に関
する分離はつづけられ、最後の節に到達し、そこで音素
テンプレートの一つが選び出されることになる。
線907を通して節Fi1908から]1li2909
へ移動するような、横方向での移動は、それによってサ
イクルが作られないかぎり許容される。本説明において
、線910はDlと01の間のサイクルを示している。
例えば、0i−Dl−Oi −Di−Oiを含む順列は
それがサイクルを構成しているので許容されない。この
順列は終りのないサイクルをつくりだし、それは決定が
決して得られないという結果をもたらす。本実施例に示
された木構造の1つの条件は、最後には決定がなされな
け6 ればならないということである。
第8図に示されたアルゴリズムは、検知された音素と音
素テンプレートとの間での最良の合致を判定するための
1つの実施例である。別の方法は、検知音素に対して各
音素テンプレートの比較値を発生し、次にそれに従って
最適の比較値を選びだすという方法である。この方法で
は、その操作のためにより多数回の計算とより長時間を
要する。
表11と光量は、音素−異音変換を示しており、そこで
は音素はそれの近似の異音列に変換されている。
表■において、異音な規定する規則が示されている。示
されたように、II)Jloolは空白あるいは飴の境
界を示す。示された異なる記号は音素へ加えられる異な
る異音素性を示す。音節はピリオド[・J1002で区
切られている。これらの異音規則は音素と組合されて、
適当な異音列発生が行われる。
表量は、音素fGHJ1003がどのようにして適切な
異音列へ変換されるかを示している。先行する音素及び
後につづく音素に依って、音素[OHJは[chain
 J  におけるように1bOHJ1004となるか、
あるいは(−bewitching Jにおけるように
rOHJ1005で表わされ語中に存在する。
各音素は唯一の異音列へ変換される。この異音列は、音
素列中で先行する音素とあとにつづく音素を知ることに
よって決定される。
本発明は、ここに述べたように、アナログ音声信号を、
より圧縮、記憶、送信、あるいは音声合成のための近似
異音列への変換が容易にできる音素列へ変換する音声認
識システムの用途について詳しく述べている。音素検知
によって無制限の語いを使用可能にし、最適の一致を行
うことを可能としている。人間の耳はフィルタ機能を有
しており、人間の脳はランダム雑音を無視し合成音声を
フィルタにかけることができるので、最適一致方式が許
容されるものとなる。合成された音声は、音素列から近
似異音列への変換を通して劇的に強調される。記憶され
た音素列は、英数字列へあるいはラジオ帯あるいは電話
線を通しての送信のために変換されることは容易にでき
る。
本発明は、音声からテキストへの直接的な口述記録装置
を可能とし、更に才だ高度に効率的なデータ送信速度を
可能とする。
表1は、指標のための符号化方式を示す。
表■及び表鵬は、音素−異音変換の規則及び変換の仕方
を示す。
0ン ] ρj          央 養ぐ        恢則藺 トト ノ qコ ロ 0 悶渫
【図面の簡単な説明】
第1図は、本発明の実施例のブロック図であって、本発
明のデータ圧縮及び送信の能力を示している。 第2a図は、本発明の通信関係を示すブロック図である
。 第2b図及び第2c図は、第2a図に示した実施例の認
識側と合成側とをそれぞれ示す。 第6図は、本発明の実施例であって、アナログ音声信号
を表わす指標を発生するために用いられる。 第4図は、特定のホルマントに付随する帯域幅の決定の
仕方を示している。 第5図は、アナログ音声のホルマントを決定スるための
実施例の流れ図である。 第6図は、アナログ音声の特定のホルマント構造を規定
するための指標を決定する方法を示している。 第7図は、音素を異音列もしくは英数字へ変換する操作
を示している。 1 第8図は、表■に示されたような符号化された指標に作
用する決定木構造の例である。 (参照番号) 101 アナログ音声 102 マイクロホン 103  A/D変換器 104 変換装置 105 比較器 106 登録表 101 バス 108 音素シーケンサ 109 記憶装置 110  送信機   111  音素−英字変換器1
12 印刷機  113 コピー 114 合成器 115 スピーカ 116 音声 117 音素符号信号 118 受信機 119 バス 120 リモート装置 121 ローカル装置 201 アナログ音声人力 202 音素認識装置 203 音素列 204 通信チャネル 205  音素列 206 音素−異音合成器 207 音声出力 208’AG0 209 ホルマント トラッカ 21ORAM 211 音素境界検出装置 212 認識アルゴリズム 213 登録表 214 認識された音素 215 制御装置 216 音声合成器 21?  ROM 218 スピーカ 301  AGO 302ピッチ トラッカ 303 正弦波発振器 304 積分器 305 デターミネータ 306 積分器 307 チャネル 308 ホルマント デターミネータ 313 正弦波発振器 314 積分器 318 ホルマント デターミネータ 324 積分器 328 ホルマント デターミネータ 402 横軸 403 縦軸 404 振幅 405〜408 データ点 4 601 横軸 602 縦軸 603 第1ホルマント 604 第2ホルマント 605 第6ポルマント 606 最大値 07 701 データ語 702〜705 基本成分 801 音素列 802 音素符号 803〜804 音素符号 805 印刷英数字 806 異音列 807 目的音素 901〜902 ステージ 904〜905節 6 5 908〜909節 1001 空白 1002 ピリオド 1003 音素「OH」 1004  [1) OHJ l 005  「OHJ 代理人 浅 村   皓 外4名 −593− N dlトし

Claims (1)

  1. 【特許請求の範囲】 (1)  アナログ音声信号を受信するための認識シス
    テムであって、 a)装置であって 1)上記アナログ信号を人間の音声成分へ分割するため
    、及び 2)上記人間の音声成分の各々を表わす検知された指標
    を発生するため、の装置、 b)各々の人間の音声成分に対して、上記検知された指
    標に基づいて、参照データ組の中から参照データを選び
    出すための装置、 を含むような、認識システム。 (2、特許請求の範囲第1項の認識システムであって、
    更に、 1)上記アナログ音声信号を受信する装置、2)上記ア
    ナログ音声信号を上記分割装置へ送信するための装置、 を含むような認識システム。 (3)%許請求の範囲第1項の認識システムであって、
    上記参照データが、上記検知された指標を近似する参照
    指標を有するような、WX a&’l’システム。 (4)アナログ音声データを等価なデジタルデータへ圧
    縮するための装置であって、 a)上記アナログ音声データを電気信号へ変換するため
    の装置、 b)上記電気信号を、成分となる人間の音声の列へ分割
    するための装置、 C)上記成分となる人間の音声へ、それを表わす指標を
    付与するための装置、 d)上記表示指標の各々に対して、人間の音声の参照組
    の中から選ばれた人間の音声を決定するための装置であ
    って、上記選ばれた人間の音声が、上記人間の音声の参
    照組の中で上記表示指標に最もよく似ている指標を有し
    ているような、装置、 θ)上記選ばれた人間の音声の各々をデジタル形で記憶
    するための装置、 を含むような、圧縮装置。 (5)  ボコーダシステムであって、a)装置であっ
    て 1)アナログ音声信号を受信するための、2)上記アナ
    ログ音声信号の異音部分を同定するための、 6)異音部分の各々に対して、それを表わす指標を決定
    するための、装置、 1])装置であって、 1)各指標に対して、最適比較値を決定するためのもの
    であって、各最適比較値が、上記表示指標と参照指標の
    登録集中の参照指標との間に一致が得られていることを
    表わしているような、及び 2)各最適比較値に対して付随した異音符号を決めるた
    めの、装置、 C)装置であって、 1)上記付随した異音符号の異音列を発生するための、 2)上記異音列から可聴信号を合成するための、装置、 を含むような、ボコーダシステム。 (6)アナログ信号を受信するためのホルマントトラッ
    カであって、 a)上記アナログ信号に付随するピッチを追跡し、それ
    から基本周波数をとりだすための装置、 b)−組の選ばれた周波数領域内での各々の選ばれた周
    波数領域に対してくりかえし、1)選ばれた周波数領域
    に付随する整数値の組、 2)上記整数値組から上記周波数領域に対する最適整数
    値、 3)上記最適整数値に付随する帯域幅を決定するための
    装置、 を含むようなホルマントトラッカ。 (力 特許請求の範囲第6項のホルマントトラッカであ
    って、上記最適整数値を決定するための装置が、 a)上記整数値組内の各整数値に対してくりかえし 1)選ばれた中央点まわりの正弦波信号2)上記周波数
    領域上で上記正弦波と上記アナログ信号のたたみこみで
    あるようなたたみこみ値、 を発生するための装置、 b)上記たたみこみ値に基づいて最適整数値を選びだす
    ための装置、 を含むような、ホルマントトラッカ。 (8)アナログ音声信号を受信するためのボコーダ回路
    網であって、 a)上記アナログ音声信号内の音素列を認識するための
    装置、 b)装置であって、 1)上記音素列を近似の異音列へ変換するための、及び 2)上記異音列を合成して可聴信号を得るための、装置
    、 を含むようなボコーダ回路網。
JP57135070A 1981-08-03 1982-08-02 音声認識装置 Granted JPS5827200A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US28969081A 1981-08-03 1981-08-03
US06/289,604 US4661915A (en) 1981-08-03 1981-08-03 Allophone vocoder
US289604 1981-08-03
US289690 1981-08-03
US06/289,603 US4424415A (en) 1981-08-03 1981-08-03 Formant tracker
US289603 1994-08-11

Publications (2)

Publication Number Publication Date
JPS5827200A true JPS5827200A (ja) 1983-02-17
JPH0576040B2 JPH0576040B2 (ja) 1993-10-21

Family

ID=27403910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57135070A Granted JPS5827200A (ja) 1981-08-03 1982-08-02 音声認識装置

Country Status (3)

Country Link
EP (1) EP0071716B1 (ja)
JP (1) JPS5827200A (ja)
DE (1) DE3277095D1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59225635A (ja) * 1983-05-02 1984-12-18 モトロ−ラ・インコ−ポレ−テツド 極狭帯域通信システム
JPS62231300A (ja) * 1986-03-31 1987-10-09 郵政省通信総合研究所長 音声の処理単位への自動区分と処理の方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2547146B1 (fr) * 1983-06-02 1987-03-20 Texas Instruments France Procede et dispositif pour l'audition de messages parles synthetises et pour la visualisation de messages graphiques correspondants
DE3513243A1 (de) * 1985-04-13 1986-10-16 Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt Verfahren zur sprachuebertragung und sprachspeicherung
FR2642882B1 (fr) * 1989-02-07 1991-08-02 Ripoll Jean Louis Appareil de traitement de la parole
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
EP0706172A1 (en) * 1994-10-04 1996-04-10 Hughes Aircraft Company Low bit rate speech encoder and decoder
US5680512A (en) * 1994-12-21 1997-10-21 Hughes Aircraft Company Personalized low bit rate audio encoder and decoder using special libraries
WO1999040568A1 (de) 1998-02-03 1999-08-12 Siemens Aktiengesellschaft Verfahren zum übermitteln von sprachdaten
US7353173B2 (en) * 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
US7353172B2 (en) * 2003-03-24 2008-04-01 Sony Corporation System and method for cantonese speech recognition using an optimized phone set
US7353174B2 (en) * 2003-03-31 2008-04-01 Sony Corporation System and method for effectively implementing a Mandarin Chinese speech recognition dictionary
CN111147444B (zh) * 2019-11-20 2021-08-06 维沃移动通信有限公司 一种交互方法及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5326761A (en) * 1976-08-26 1978-03-13 Babcock Hitachi Kk Injecting device for reducing agent for nox

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5326761A (en) * 1976-08-26 1978-03-13 Babcock Hitachi Kk Injecting device for reducing agent for nox

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59225635A (ja) * 1983-05-02 1984-12-18 モトロ−ラ・インコ−ポレ−テツド 極狭帯域通信システム
JPS62231300A (ja) * 1986-03-31 1987-10-09 郵政省通信総合研究所長 音声の処理単位への自動区分と処理の方法

Also Published As

Publication number Publication date
EP0071716B1 (en) 1987-08-26
EP0071716A3 (en) 1983-05-11
EP0071716A2 (en) 1983-02-16
JPH0576040B2 (ja) 1993-10-21
DE3277095D1 (en) 1987-10-01

Similar Documents

Publication Publication Date Title
US4661915A (en) Allophone vocoder
EP1704558B1 (en) Corpus-based speech synthesis based on segment recombination
EP0140777B1 (en) Process for encoding speech and an apparatus for carrying out the process
US4424415A (en) Formant tracker
CA2351988C (en) Method and system for preselection of suitable units for concatenative speech
AU639394B2 (en) Speech synthesis using perceptual linear prediction parameters
JP3680380B2 (ja) 音声符号化方法及び装置
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
US20070106513A1 (en) Method for facilitating text to speech synthesis using a differential vocoder
CN101578659A (zh) 音质转换装置及音质转换方法
JP3446764B2 (ja) 音声合成システム及び音声合成サーバ
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
JPH031200A (ja) 規則型音声合成装置
JPS5827200A (ja) 音声認識装置
US6502073B1 (en) Low data transmission rate and intelligible speech communication
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JPH0215080B2 (ja)
Ramasubramanian et al. Ultra low bit-rate speech coding
CN114220414A (zh) 语音合成方法以及相关装置、设备
KR100451539B1 (ko) 유닛 접합식 tts 음성 합성 방법
Pagarkar et al. Language Independent Speech Compression using Devanagari Phonetics
JPH0258640B2 (ja)
Langi Code-excited linear predictive coding for high-quality and low bit-rate speech
JPH03288898A (ja) 音声合成装置