JPH0576040B2 - - Google Patents

Info

Publication number
JPH0576040B2
JPH0576040B2 JP13507082A JP13507082A JPH0576040B2 JP H0576040 B2 JPH0576040 B2 JP H0576040B2 JP 13507082 A JP13507082 A JP 13507082A JP 13507082 A JP13507082 A JP 13507082A JP H0576040 B2 JPH0576040 B2 JP H0576040B2
Authority
JP
Japan
Prior art keywords
phoneme
allophone
analog
audio signal
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP13507082A
Other languages
English (en)
Other versions
JPS5827200A (ja
Inventor
Ii Otsuto Guranbiru
Rin Kunnshan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US06/289,603 external-priority patent/US4424415A/en
Priority claimed from US06/289,604 external-priority patent/US4661915A/en
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPS5827200A publication Critical patent/JPS5827200A/ja
Publication of JPH0576040B2 publication Critical patent/JPH0576040B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
本発明は、一般的には音声に関するものであ
り、更に詳細には、音声認識、圧縮、送信に関す
るものである。 アナログ的な音声信号が数多くの冗長な音を含
んでおり、そのため効率よいデータ送信には適し
ていないということは古くから知られている。直
接的な人間の会話においては、このような効率の
悪さは許容できるものである。しかし、この非能
率的な音声を処理するための技術的要求は、必要
とされる費用、時間、記憶容量の点で実現不可能
なものであつた。 アナログ的音声信号をとらえて、それを送信、
記憶の後に再構成できるようなデジタル的な形態
のものへ変換することのできるシステムに対する
要求は存在する。このような型の装置は一般的に
「ボコーダ」と呼ばれる。 ボコーダはリチヤードシユワルツ(Richard
Schwartz)等によつて、米国コロラド洲デンバ
ー市で1980年の4月9日から11日に開催された米
国電子通信学会(IEEE)の「音響、音声及び信
号処理に関する国際会議(International
Conference on Accoustics,Speech and
Signal Processing (ICASSP 80))」において
発表された「ダイホーン モデルに基づく音声ボ
コーダの基本的設計(A Preliminary Design
of a Phonic Vocoder Based on a
Diphone Model)」と題する彼らの論文(この会
議の論文集ICASSP80第1巻第32−35頁)の中で
論じられた。シユワルツらのダイホーンモデルは
100b/sで動作する音声ボコーダに関するもの
であつた。音声の各音素(Phoneme)は時間間
隔と単一ピツチ値とを発生する。ダイホーンテン
プレートの表が音素列を合成するために用いられ
る。更に、ダイホーンテンプレートは、アナログ
的音声の中でどの音素が送信されているか決定す
るために最初に利用される。ダイホーンはその構
造と、列をなす性質のために、1つの音素の中ご
ろから次の音素の中ごろまでに存在し、それを用
いて音声合成を行うことは一般的に非常にやつか
いで非能率的である。 ダイホーン合成の場合、理解しやすい音声をつ
くりだすためには、音響を音へ対応づける労多い
アルゴリズムを用いる必要がある。この広義の音
響対音アルゴリズムを有効なものとするために
は、時間及びハードウエアを大量に必要とする。 アナログ音声を認識する時に常に行われること
は、アナログ音声をそれの構成要素に分解し、そ
れらを辞書を照合して同定するという方法論であ
る。人間の音声を近似しそれをモデル化するため
に数多い方法及び装置が開発されてきている。そ
れらのモデル化法の中にはボコーダやボーダ、線
型予測フイルタ(linear predictive filters)そ
の他の装置が含まれる。 アナログ的音声を分析する、そのような1つの
方法は、ジエームズ L.フラナガン(James L.
Flanagan)によつて、ここに引用する米国音響
学会誌(J.Accoust Soc.Am.)の1956年1月号第
28巻第110−118頁の「連続音声のホルマントの自
動抽出(Automatic Extraction of Formant
for Continuous Speech)」と題する論文中で論
じられている。 その論文の中で、フラナガンは、連続音声から
最初の3つのホルマント周波数を自動的に抽出す
る2つの電子装置を提案している。それらの装置
は、音声のホルマント周波数を表わす振幅が時間
の関数であるような、連続的な直流出力電圧を発
生する。ホルマント周波数はアナログ的な形で表
わされているが、アナログ/デジタル(AD)変
換器を用いることによつて、これらのホルマント
周波数を電子的処理に用いるのにより適したデジ
タル形に変換することは容易である。 別の方法は、H.K.ダン(H.K.Dunn)によつ
て、ここに引用する米国音響学会誌(J.Accoust
Soc Am)1961年12月号第33巻第1737−1746頁の
「母音ホルマント帯域幅測定法(Methods of
Measuring Vowel Formant Bandwidths)」と
題する論文中で論じられている。この論文中で、
ダンは実際の音声のスペクトルの使用と、一例に
おいて人工喉頭の使用とについて述べている。 これらから明らかなように、アナログ的音声信
号を近似デジタル形へ変換するための効率的な方
法及び装置は存在していない。ホルマントの単な
る認識、あるいは検知された音声の合成のために
ダイホーンを用いることは不正確であり、もとも
との音声信号を表わすデータの良質な記録、送信
を可能とはしない。 本実施例ではアナログ的音声信号を音素部分に
分割するための装置が用いられている。比較装置
が音素テンプレートとの一致をとる。テンプレー
トを表わす参照符号が適当な装置によつて選択さ
れる。本発明で得られるデータ速度は1秒当り80
ビツト以下である。この速度で受信ししかも良質
の音声を合成する方法は、音素から異音
(allophone)への変換を行うことによるものであ
る。入力データはその速度、ピツチ、その他の因
子に関して正規化され、それは、テンプレート組
あるいはテンプレート登録表のうちの音素テンプ
レート組と比較される。最適一致がとられる。入
力ピツチ及び変数値は異音列の形で記録保持さ
れ、回答もしくは送信のために用いられる。 人間の耳はフイルタ機能を有しており、また話
される言語固有の冗長度のために、最適音素一致
の選択の時に起こるあやまりは非常にすくなくな
る。例えば、音素認識器が「We will be taking
a cruise on the ship」という文章中の発音さ
れた音素「SH」をまちがえて音素「CH」とと
らえたと仮定しよう。そうすると、文章は「We
will be taking a cruise on the chip」とな
る。送信された音素順列は完全な一致を与えない
が、文章全体は、それでも聴き手に理解できる。
それは人間の耳及び思考過程においてこのあやま
つた音素を除去してしまうからである。人間の耳
及び思考過程は長い期間かかつて発音の変化や用
語のあやまつた使われ方を修正することに慣れて
きている。 この装置を用いるいくつかの応用は、デジタル
口述記録装置、記録・再生電話、音のメモ、多重
チヤネル音声通信、音声記録式試験等々である。
口述記録装置の場合には、音声合成の場合よりも
音素のまちがつた一致はより明らかとなる。しか
し、これは大まかな草稿であり、後に編集するた
めの一次的な文章化である。 本発明の実施例では、利用者からの初期設定を
受けつけられるようになつており、それによつて
ピツチ及び時間パラメータの正規化を行う。更に
また、これによつて、実際の利用者の音素構造を
より正確に近似する音素テンプレートの登録集を
つくることが可能となる。 80b/sの圧縮率であれば、信号はより低価格
のものとなり、送信に要する時間も効率よいもの
となり、記録のためのハードウエア的仕様も効率
よいものとなる。 本発明は音素から異音への対応づけアルゴリズ
ムを使用しており、異音は人間の発声をより正確
にとらえているため、合成音声の質は大幅に向上
する。 このボコーダは入力のアナログ的音声を受けと
り、それを音素テンプレートの組と照合する。各
音素は音素符号を含んでおり、それが音素符号の
順列へ圧縮されチヤネルを通して通信される。こ
のチヤネルは、正確な送信を行うために、可能な
かぎり雑音のないものとすべきである。音素の列
は受信されて、近似異音列に翻訳され、既知の電
子式合成装置によつて合成される。 そのような一つの装置は、ここに引用する1980
年6月24日付のウイギンズJr.(Wiggins Jr.)ら
による米国特許第4209836号に述べられている。
その音声合成集積回路装置は、合成音声発生部に
線形予測フイルタを用いている。 合成装置の中でのデータの制御は当業者にはよ
く知られている。デジタル音声データを通信し、
データを記録するためのメモリの制御を行うため
のそのような一つの方法は、ここに引用する1980
年11月18日付のウイギンズJr.(Wiggins Jr.)ら
による米国特許第4234761号に述べられている。 その発明の中で、音素認識装置は、自動利得制
御器(AGC)、ホルマントトラツカ(Formant
tracker)、音素のテンプレート、認識アルゴリズ
ムを含んでいる。音素認識器は音声入力を受信
し、音声の利得を自動制御し、分析及びホルマン
ト抽出のためにホルマントトラツカへ信号を送
る。アルゴリズムは発声のホルマント及び特徴に
作用して音声の中での音素の境界を検出させる。
検出された音素は音素テンプレートの登録集の中
の音素と照合される。各音素テンプレートは対応
する識別符号を有している。選ばれた識別符号は
順次送信チヤネルを通して受信機へ送出される。 送信チヤネルは有線であつても無線通信回線で
あつてもよい。理想的には、送信チヤネルは、エ
ラーを減らすために可能なかぎり雑音のないもの
である。 音素対異音合成器がチヤネルからの音素符号を
受信する。アルゴリズムがこの音素列を近似異音
列へ変換し、それによつて良質の音声をつくりだ
す。音素対異音合成器において、制御装置が異音
特性の登録表を順次音声合成器と通信するように
制御する。 能率的なホルマントトラツカを用いることは有
利である。ホルマントは音声スペクトルの中で大
きな振幅エネルギーをもつ周波数成分である。そ
れはピツチの共振周波数と発声音をも含む。この
共振周波数は基本周波数の倍数である。最初のホ
ルマントは200ないし850ヘルツ(Hz)に発生し、
第2のホルマントは850ないし2500Hzに、第3の
ホルマントは2500ないし3500Hzに発生する。本発
明のホルマントトラツカは各周波数帯中で強いエ
ネルギー成分を選びだす。 本発明は、対象とする音声信号のスペクトル
と、基本周波数の整数倍の周波数をもつ正弦波と
のたたみこみ(Convolution)を得る方法を用い
ている。正弦波信号の周波数を変化させ、たたみ
こみの振幅を検出することによつて、選ばれた周
波数帯におけるホルマントを見つけることができ
る。 ホルマントトラツカの一例においては、周辺の
付加的論理回路も含めたピツチトラツカを用いて
構成されており、付加回路を用いて正弦波発振の
決定、選ばれたスペクトル周波数における2つの
関数のたたみこみ、を行うようになつている。 1組の整数が発生されて、各々を基本周波数に
乗ずることで、積の値が対象とするホルマント域
にくるようにする。それら3つの整数の組は、そ
れぞれが各ホルマント周波数帯に対応しており、
それらは十分重なりをもつて、ホルマントの中央
が十分決定されるようになつている。各整数組の
整数値は、基本周波数との積で正弦波信号を発生
させるために用いられる。正弦波信号とアナログ
音声信号とは短かい時間間隔すなわちフレームに
わたり積分される。数学的には、この2つの時間
信号の積分はそれらスペクトルのたたみこみを与
える。各整数に対して積分を行うことによつて、
最大すなわち最も大きな振幅が明らかになり、そ
れに対応する最適整数がホルマントを決める。選
ばれたホルマント中心は最適整数値を基本周波数
に乗ずることによつて決定される。各ホルマント
はそれに付随して帯域を有しており、それが受信
されたアナログ音声データの別の指標となる。 この指標は、他の指標例えばポーズ(pause)
の有無、有声・無声の別、信号の傾斜、その他デ
ータ値を発生させるための任意の選ばれたデータ
と組合せられ、音素の登録テンプレートとの照合
に用いられる。 ホルマントを符号化する1つの方法は、各ホル
マント間の距離を決定し、それによつて選ばれた
ホルマントを指定するために必要なビツト数を減
らすことである。 音声中のホルマント分析については、シヤフア
ーとレイビナ(Schaffer and Rabiner)によつ
て、ここに引用する、米国音響学会誌(J.
Accoust.Soc.Am)の1970年2月号第47巻第634
−648頁に記載された彼らの論文「音声の自動ホ
ルマント分析システム(System For
Automatic Formant Analysis of Voiced
Speech)」の中で述べられている。シヤフアーと
レイビナは時間と共に変化して出力強度を制御す
る利得制御を用いている。声帯−音源スペクトル
と放射負荷スペクトルの組合せを近似するために
カスケード回路網が用いられている。この分析シ
ステムは時間の関数として、低い方の3つのホル
マント、ピツチ周期、利得を決定する。 一度指標が決定されると、アルゴリズムはそれ
を特定の近似音素と照合する。好適実施例におい
ては、木構造アルゴリズムが用いられ、照合のた
めに必要な計算総数を減らすために不可能な場合
を排除することを行う。このアルゴリズムにおい
ては、木構造であるため、決定木構造でのサイク
ルは厳密に禁止される。決定木構造でのサイクル
は、決定が到達されない場合無限サイクルにおち
いるおそれがある。 検知された音素を音素テンプレートと照合する
ためのアルゴリズムは、最適な近似の得られるも
のであれば任意のものでよい。これには、各音素
テンプレートの受信音素に対する比較値を発生
し、その後に最適比較値を選ぶというアルゴリズ
ムも含まれる。 一度最適音素が符号と合致すると、その符号が
記憶装置、印刷装置、あるいは合成器へ送信され
る。合成の前に、その音素列はその成分異音組に
マツピングされ、音声の合成に用いられる。この
音素を異音組へマツピングする方法は、クン−シ
ヤン リン、ジーン A.フランツ、キヤシイ
グンデイ(Kun−Shan Lin,Gene A.Frantz,
Kathy Gondie)によつて、ここに引用する米国
雑誌「エレクトロニクス(Electronics)」の1981
年2月10日号の第122−125頁に掲載された彼らの
論文「ソフトウエア法則はパーソナルコンピユー
タに真のワードパワーを与える(Software
Rules Give Personal Computer Real Word
Power)」の中で論じられている。この論文は、
テキストを分析し、それの成分要素を決定し、そ
の後それらを音声合成チツプ上で発音するため
に、ソフトウエアを利用する方法について述べて
いる。 その他のアルゴリズムは、クン−シヤン リ
ン、キヤシイ グーデイ、ジーン フランツ、ジ
ヨージ ブランデイガム(Kun−Shan Lin,
Kathy Goudie,Gene Frantz,George
Brandingham)によつて、ここに引用する米国
電子通信学会(IEEE)消費者エレクトロニクス
論文誌(Transactions on Consumer
Electronics)の1981年5月号第CE27巻第144−
152頁に掲載された彼らの論文「LPC異音列を用
いたテキスト−音声変換(Text−to−Speech
Using LPC Allophone Stringing)」の中で論じ
られている。この論文は、任意の英文テキストを
テキスト−音声変換するための応答システムにつ
いて述べている。そのシステムはLPC合成チツ
プとマイクロプロセツサを用いている。そのシス
テムは入力のASCII文字をそれらの合成法によつ
て英字符号へ変換する。 異音を用いることは非常に有力な手法である。
それは、任意の話された音声を、言語や固定され
た登録情報にとらわれることなく再生できるから
である。異音及び音素合致アルゴリズムの広がる
範囲はボコーダの能力の唯一の制限因子である。 好適実施例は音素−異音マツピングを用いた
が、音素−ダイホーン等の他のマツピング手法も
また適用できる。 本発明は、それらの特定の実施例とその発展と
共に、以下に図面を参照しながらより詳細に説明
する。 第1図は本発明の実施例の特長を示すブロツク
図である。 アナログ音声101はマイクロホーン102で
とらえられ、アナログ形で、アナログ−デジタル
(A/D)変換器103へ送信される。信号がデ
ジタル形へ変換されると、それは変換装置104
によつて検知音素へ変換される。各検知音素は比
較器105へ送られ、登録集106中のテンプレ
ートと照合され、一致が得られる。一致した音素
が決定されると、それの符号がバス107を通し
て、音素シーケンサ(sequencer)108あるい
は記憶装置109、あるいは送信機110へ送出
される。 音素列と合致する符号列がアナログ音声101
を全体的に同定する。この符号列はデジタル形で
あるためもとのアナログ音声101よりも、圧縮
したり記憶したりするのにより適している。 音素シーケンサ108はバス107を通つて送
られてきた符号を用いて、登録表106から適当
な音素を得る。この登録表106からの音素に
は、合成器114へ送られるべき一組の異音素性
が付随している。合成器114はアナログ信号を
スピーカ115へ送出し、音声116を発生させ
る。音素シーケンサ108による登録表106を
用いた音素−異音変換を行うことによつて、より
理解しやすい高級な音声116が発生できる。こ
の変換法によれば、音素ベースのデータの符号化
ができ、それによつてより低い値のビツト送信速
度を容易にし、必要な時間が短くなり、もともと
のアナログ音声101の記録のための記憶媒体も
容易になる。 別の方法として、音素符号を記憶装置109に
たくわえておき、後で検索するというのもある。
この後での検索には、音素シーケンサ108、合
成器114、及びスピーカ115の順で用いら
れ、異音形での音素列を合成し音声116を発生
させる。付加的に、記憶装置109は音素符号を
音素−英字変換器111へ送り、そこで音素はそ
れに等価な英数字部分に変換される。音素が
ASCII符号のような形で英数字部分に変換される
と、それらをもともとのアナログ音声101のコ
ピー113を得るための印刷機112へ送ること
は容易である。 この動作部門、記憶装置109、音素−英字変
換器111、印刷機112は、本発明に従つて音
声を印刷物とすることを可能としており、自動口
述記録装置を実現する。 もう一つの動作は、バス107からの音素符号
を送信機110へ送ることである。送信機は音素
符号を表わす信号117を発生し、それはリモー
ト装置120の受信機118に検知される。 リモート装置120は送信装置121と同じ能
力を有している。このため音素符号は受信機11
8からバス119を通つて送られることもでき
る。ここでも、音素符号がバス119を通つて送
られると、それはリモート記憶装置109′ある
いはリモートシーケンサ108′で処理すること
ができる。本発明の他の実施例においては、バス
119を通つて送られた音素符号はまた図示され
ていないリモート送信機へ送られることもでき
る。 リモート装置120はローカル装置121と同
じように音素符号を利用する。音素符号はリモー
トシーケンサ108′によつてリモート登録表1
06′中のデータと共に用いられて、リモート合
成器114′へ送られる近似異音列を発生させる。
リモート合成器114′はリモートスピーカ11
5′を制御して音声116′を発生させる。リモー
ト装置もまた、後にリモートシーケンサ108′
あるいは音素−英字変換器111′において利用
するために、リモート記憶装置109′へ音素符
号を記憶しておく機能を有している。音素−英字
変換器111′は音素符号をそれに近似した英数
字記号へ変換し、それは印刷機112′へ送られ
て紙の上にコピー113′が打出される。 本発明のこの実施例から明らかなように、アナ
ログ音声は、データ列として記憶や処理のしやす
い音素符号の形に変換される。音素符号は、記
憶、送信、印刷コピー作成が容易であり、更に、
近似の異音列へ変換することによつて、音声合成
することも容易である。 第2a図は、アナログ音声入力を受信し、音声
出力を与える、本発明の実施例のブロツク図であ
る。 第2a図の実施例において、もとのアナログ音
声入力201は音素認識装置202へ送られ、そ
こで通信チヤネル204を通る音素列203に変
換される。音素205の列は音素−異音合成器2
06へ送られ、そこで音素列はそれに近似した異
音列に変換され、それによつて音声出力207が
発生される。注意すべきことは、音素認識装置2
02と音素−異音合成器206とは同じ装置の中
にあつてもよいし、互に離れた装置の中にあつて
もよい。この文中において、通信チヤネル204
はバスや電話線のような有線装置であつてもよい
し、ラジオ送受信機のような無線でもよい。 第2b図は、第2a図に示した音素認識装置2
02の実施例を示す。 アナログ音声入力201は自動利得制御
(AGC)208へ送られ、音声信号は、特定の望
みの平衡状態へ制御される。ホルマントトラツカ
209はアナログ信号をそのホルマント成分へ分
割し、それらはランダムアクセスメモリ
(RAM)210へ記憶される。本実施例でRAM
210を使用しているように示してあるが、任意
の記憶装置でもかまわない。RAM210に記憶
されたホルマントは音素境界検出装置211へ送
られ、それによつて、ホルマントを検知された音
素成分へグループ分けする。各検知された音素は
認識アルゴリズム212へ送られる。認識アルゴ
リズム212は既知の音素を含む登録表213か
らの音素テンプレートを用いる。認識アルゴリズ
ム212によつて、音素境界検出装置211から
の検知された音素と音素テンプレート登録表21
3中で見出されたテンプレートとの間で最もよい
一致が求められ、それによつて認識された音素2
14が得られる。 既に指摘したように、人間の耳の自然のフイル
タ作用と聴き手の思考過程でのあやまり修正のた
めに、完全な認識でなくても、最もよい一致をと
ることで、認識アルゴリズム212によつて発生
するあやまりは最小のものとなる。認識アルゴリ
ズム212は連続した音素コードの列を発生し、
列の中には空白や認識されない音素は存在しな
い。非認識決定による空白は本発明においては雑
音の増大をもたらすだけである。 第2c図は、音素−異音シンセサイザ206の
実施例である。 音素符号205の列は制御装置215へ送られ
る。制御装置215はそれら符号と読み出し専用
メモリ(ROM)217を用いて近似異音列を表
わす適切なビツト列を音声合成器216へ送信す
る。ROM217から音声合成器216へ送られ
たデータはスピーカ218を変調して合成音声を
発生するために必要なパラメータを決定する。 音声合成器は、線形予測フイルタを用いたもの
を含む多様な種類の音声合成器の中から選ばれ
る。 第3図は、アナログ音声を表わす指標を発生す
るための、本発明の実施例のブロツク図である。 この指標は、検知された音素を表わし、登録表
中のテンプレートとの間で最適の一致を得る時に
用いられる。自動利得制御装置(AGC)301
はアナログ音声信号をピツチトラツカ302と積
分器304,314,324へ送る。ピツチトラ
ツカ302は基本周波数F0を発生する。 各々のホルマントデターミネータ
(determinator)308,318,328に対し
て、各々整数組が決定され、それらを基本周波数
に乗ずるとその周波数がホルマント帯域内に含ま
れる。各々の整数値の組は広げられて、その組の
中で重なりをもつようにし、それによつて全ホル
マントが規定できるようにする。例えば、基本周
波数F0が200Hzとすると、最初のホルマントに対
する整数値の組はおそらく(0,1,2,3,
4)を含み、第2のホルマント整数の組は(4,
5,6,7)を含み、第3のホルマント整数の組
は(7,8,9)を含む。 ホルマントデターミネータ308は基本周波数
F0を受けとり、それを整数値組からの整数値n
と共に正弦波発振器303中で用いる。正弦波発
振器303は正弦波信号s(t)を発生する。そ
の信号はnと基本周波数の積を中央値としてい
る。この正弦波信号は積分器304へ送られ、そ
こでホルマントの選ばれた周波数にわたつて、正
弦波信号s(t)とアナログ音声信号f(t)との
積が積分される。この積分器304によるこの積
分はアナログ音声信号f(t)のたたみこみを与
える。 このような正弦波信号の発生303と積分30
4との操作は、積分器306によつて整数値組内
でのすべての整数値に対してつづけられる。積分
器304から最大振幅を発生させるnの値がデタ
ーミネータ305によつて選びだされる。この最
適値N′はF1=N′×F0で規定される第1のホルマ
ントF1を発生するために用いられる。この積は
第1のホルマントの帯域幅BW1を付加的に決定
し、そのF1とBW1の対がチヤネル307へ送ら
れる。 同様にして、ホルマントデターミネータ318
と328は、各々正弦波発振器313と323を
通して正弦波信号を発生し、その後積分器314
と324とによる積分によつて各々最適値M′3
15とK′325を得る。 指標BW1,F1,BW2,F2,BW3,F3及びF0
はAGC301からのアナログ音声からの検知さ
れた音素指標を表わしている。この検知された指
標は、検知された指標と登録表中の音素テンプレ
ートとの間で最もよい一致を得るために用いられ
る。 第4図は、帯域幅と最適ホルマントとの間の関
係を示す。 最適整数値N′が求まると、そのまわりの整数
値に対してその振幅がプロツトされる。独立軸4
02は、整数値と基本周波数との積で与えられる
周波数を含む。従属軸403はたたみこみのアナ
ログ音声信号との積により得られる振幅を含んで
いる。図に示したように、最適値N′は振幅40
4を与える。まわりのデータ点405,406,
407,408を用いると、適当な最適値N′に
対して帯域幅BW1が決定できる。 この帯域幅を使用すると検知された音素と登録
表中の音素テンプレートとの関係を決定するもう
一つの指標が得られる。同様の分析が各ホルマン
トに対して行われる。 第5図は最適ホルマント位置を決めるための、
一つの実施例の流れ図を示している。 アルゴリズムは501でスタートし、基本周波
数F0502が決められる。この基本周波数はN
の最適化503に用いられる。Nの最適化503
のためにはN値の初期設定504とその後のNと
F0の積に基づく正弦波発振505とを必要とす
る。周波数コンボルバ506はホルマントの選ば
れた周波数上での基本周波数F0と入力のアナロ
グ音声信号とのたたみこみを与える。このたたみ
こみは507で最適化される。そこでは、もし最
適値でなければ、N値を増分し508、同じ処理
をくりかえし、最適N値を決定するようになされ
る。Nの最適値において、アルゴリズムは次にす
すみ、Mの値の最適化513を行い、その後Kの
値の最適化523を行う。Nの最適化503、M
の最適化513、Kの最適化523は構成及び操
作の点で同一である。 本実施例において、人間の言語を規定するため
に3つのホルマント周波数領域をとりあげた。3
つの領域で人間の音声が正確に記述できることは
知られている。しかしながら、このやり方は設計
者の意志で拡張したり、縮小したりすることがで
きる。このアルゴリズムを単一ホルマントの場合
あるいは3個以上のホルマントの場合に適用でき
るよう拡張しても一般に何の損失もない。 第6図は、アナログ音声信号をホルマントへ符
号化するための別の方法を図示している。 アナログ音声信号608を周波数軸601に対
してプロツトしてある。従属軸602は振幅であ
る。第1のホルマント603において、周波数範
囲は200ないし700Hzに存在する。第2のホルマン
トは850ないし2500Hzの周波数範囲にあり、第3
のホルマント605は2700ないし3500Hzの周波数
にわたる。第3図及び第5図で述べたのと似た方
法によつて、ホルマント領域内での最大振幅の位
置が決定される。これらの最大値はそれぞれ最大
値606と607の間の距離を与える。この最適
ホルマントの間の距離d1は、検知された音素を音
素テンプレートへ一致させる場合に検知された音
素を特徴づけるために用いることができる。この
方法では、3つの整数値を使用する場合(第1、
第2、第3ホルマントに対して)を記述するため
に2つの整数値d1とd2を用いる。 表は、音素テンプレートへの一致のための
「語」を確立するための符号化方式の一実施例で
ある。 本実施例においてそのデータ語701は8ビツ
ト語であるが、検知された音素を適切に記述する
ことができる任意の長さの語を用いることができ
る。本実施例において、8ビツトは4個の基本成
分702,703,704,705に分割され
る。 第1の成分702はポーズ(Pause)の有無を
表わす。もしb0が値1に設定されていると、ポー
ズが検知され、適切な処理が行われる。もしb0
0であればポーズ無しである。b1703にも同様
な関係が存在する。これは有声無声音素の区別を
する。B2−B3704はアナログ音声信号の形を
表わす。その値は水平勾配、正の傾斜、負の勾配
を示す。 B4−B7705は、相対エネルギー、相対ピツ
チ第1距離、第2距離の組合せを示す。B4−B7
705は、それらの値が検知された音素のホルマ
ント距離に関する特性を示すように符号化されて
いる。ビツトb4−b7は第6図に示された各ホルマ
ント内における最大値間の距離を送信するよう符
号化されている。表706からビツトb4−b7の範
囲内における各値は、2つの距離の絶対値を規定
する。 第7図は、音素符号列を、それに対応する異音
列へあるいはそれに対応する英数字へ変換するよ
うすを示している。 音素列801は、802のようなそれの音素符
号へ分割される。音素符号802は、特定の音素
807を明白に意味する。この音素807は、そ
れをまわりの音素符号803,804と共にとり
あげることによつて、ASCII英数字で印刷される
か805、あるいはそれの近似異音列へ変換され
る。 この異音列806は、目的の音素807をその
まわりの音素と関連づけて知つた場合によつて、
発生される。本説明において、先行する音素80
3、あとにつづく音素804、それと目的の音素
802は記憶装置中に保持されて、適切な異音列
806を発生する。 第8図は、検知された音素の合致において、音
素テンプレートの最良近似を決定する決定木構造
の実施例の特徴を示す。 この決定木構造は複数のステージ901,90
2、等に分割される。この木構造の各ステージは
検知された音素を可能と不可能な組合せに区分け
する。検知された音素が更に可能と不可能の状態
へ区分けされてゆくと、不可能な状態が吸収して
ゆき、可能な状態は減少して、最後には1つだけ
音素テンプレートが唯一可能な選択として残る。
このように、木構造の最後のステージはテンプレ
ートと同数の節を含んでいるべきである。 最初の決定903は、第1ビツトb0が設定され
ているかに関してなされる。第1ビツトが設定さ
れていれば、節905へうつり、節904B1
降の節は無視される。このb0レベルに対する決定
は、節904のあとにつながる音素テンプレート
を不可能な組と判定し、節B2905以後にある
ものを可能な組と判定することである。同様な判
断が指標の各成分に対してなされる。この例にお
いて、次の分離がb1に対して行なわれ、次にb2
b3の値に対してなされる。この節に関する分離は
つづけられ、最後の節に到達し、そこで音素テン
プレートの一つが選び出されることになる。 線907を通して節E1908からE2909へ
移動するような、横方向での移動は、それによつ
てサイクルが作られないかぎり許容される。本説
明において、線910はD1とC1の間のサイクル
を示している。例えば、C1−D1−C1−D1−C1
を含む順列はそれがサイクルを構成しているので
許容されない。この順列は終りのないサイクルを
つくりだし、それは決定が決して得られないとい
う結果をもたらす。本実施例に示された木構造の
1つの条件は、最後には決定がなされなければな
らないということである。 第8図に示されたアルゴリズムは、検知された
音素と音素テンプレートとの間での最良の合致を
判定するための1つの実施例である。別の方法
は、検知音素に対して各音素テンプレートの比較
値を発生し、次にそれに従つて最適の比較値を選
びだすという方法である。この方法では、その操
作のためにより多数回の計算とより長時間を要す
る。 表と表は、音素−異音変換を示しており、
そこでは音素はそれの近似の異音列に変換されて
いる。 表において、異音を規定する規則が示されて
いる。示されたように、「b」1001は空白あ
るいは語の境界を示す。示された異なる記号は音
素へ加えられる異なる異音素性を示す。音節はピ
リオド「・」1002で区切られている。これら
の異音規則は音素と組合されて、適当な異音列発
生が行われる。 表は、音素「CH」1003がどのようにし
て適切な異音列へ変換されるかを示している。先
行する音素及び後につづく音素に依つて、音素
「CH」は「chain」におけるように「bCH」10
04となるか、あるいは「bewitching」におけ
るように「CH」1005で表わされ語中に存在
する。 各音素は唯一の異音列へ変換される。この異音
列は、音素列中で先行する音素とあとにつづく音
素を知ることによつて決定される。 本発明は、ここに述べたように、アナログ音声
信号を、より圧縮、記憶、送信、あるいは音声合
成のための近似異音列への変換が容易にできる音
素列へ変換する音声認識システムの用途について
詳しく述べている。音素検知によつて無制限の語
いを使用可能にし、最適の一致を行うことを可能
としている。人間の耳はフイルタ機能を有してお
り、人間の脳はランダム雑音を無視し合成音声を
フイルタにかけることができるので、最適一致方
式が許容されるものとなる。合成された音声は、
音素列から近似異音列への変換を通して劇的に強
調される。記憶された音素列は、英数字列へある
いはラジオ帯あるいは電話線を通しての送信のた
めに変換されることは容易にできる。 本発明は、音声からテキストへの直接的な口述
記録装置を可能とし、更にまた高度に効率的なデ
ータ送信速度を可能とする。 表は、指標のための符号化方式を示す。 表及び表は、音素−異音変換の規則及び変
換の仕方を示す。
【表】 〓

Claims (1)

  1. 【特許請求の範囲】 1 アナログ音声信号を表わすデジタル音声デー
    タを分析し、上記デジタル音声データの音素成分
    を認識する手段と、 与えられた発声言語中の総ての認識された音素
    からなる複数の基準音素を表わす音素コードの形
    態でコード化されたデジタル音声データを含むデ
    ジタル音声データを記憶する登録手段であつて、
    上記複数の基準音素の各々は、これに対応して関
    連した1組の異音特性をもち、この異音特性もデ
    ジタル音声データとして上記登録手段に記憶さ
    れ、 上記分析手段及び上記登録手段に結合され、コ
    ード化されたデジタル音声データとして上記登録
    手段に記憶されている上記複数の基準音素から上
    記デジタル音声データの上記音素成分に最もマツ
    チしたものを取り出し、上記分析手段によつて認
    識された上記デジタル音声データの上記音素成分
    の各々の少なくとも近似した音素コードを発生す
    る比較手段と、 上記登録手段に記憶され上記アナログ音声信号
    を表わす上記デジタル音声データの上記音素成分
    に最もマツチした基準音素にそれぞれ対応した複
    数の音素コードの連結された音素コード列を形成
    する手段と、 上記登録手段は、上記音素コード列に応答して
    音素−異音変換を行い、異音を表わすデジタル音
    声データを上記音素コード列形成手段へ送り、 上記音声コード列発生手段の出力に接続され供
    給された異音を表わすデジタル音声データを処理
    し、アナログ音声信号を発生する音声合成手段
    と、 上記音声合成手段に結合され発生された上記ア
    ナログ音声信号を元のアナログ音声信号に対応す
    る可聴の合成された音声に変換する可聴手段とを
    含む、ボコーダ装置。 2 アナログ音声信号を供給し、 上記アナログ音声信号の音素成分部分を認識
    し、 上記アナログ音声信号から認識された音素成分
    部分の各々を与えられた発声言語中の総ての認識
    された音素からなる複数の基準音素と比較し、 上記複数の基準音素から上記アナログ音声信号
    の認識された音素成分部分の各々に最もマツチし
    たものを取り出し、上記認識された音素成分部分
    の各々に少なくとも近似するそれぞれの音素コー
    ドを発生し、 上記アナログ音声信号の認識された音素成分部
    分に最もマツチした基準音素により決定される複
    数の音素コードの連結した音素コード列を形成
    し、 上記形成された音素コード列を類似した異音列
    に変換し、 上記異音列から合成された音声を表わすアナロ
    グ信号を発生し、 上記合成された音声を表わすアナログ信号から
    元のアナログ音声信号に対応する可聴の合成され
    た音声を発生する、音声信号を分析して可聴合成
    音声を発生するボコーダ方法。
JP57135070A 1981-08-03 1982-08-02 音声認識装置 Granted JPS5827200A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US28969081A 1981-08-03 1981-08-03
US06/289,603 US4424415A (en) 1981-08-03 1981-08-03 Formant tracker
US06/289,604 US4661915A (en) 1981-08-03 1981-08-03 Allophone vocoder
US289690 1981-08-03
US289604 1981-08-03
US289603 1994-08-11

Publications (2)

Publication Number Publication Date
JPS5827200A JPS5827200A (ja) 1983-02-17
JPH0576040B2 true JPH0576040B2 (ja) 1993-10-21

Family

ID=27403910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57135070A Granted JPS5827200A (ja) 1981-08-03 1982-08-02 音声認識装置

Country Status (3)

Country Link
EP (1) EP0071716B1 (ja)
JP (1) JPS5827200A (ja)
DE (1) DE3277095D1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4707858A (en) * 1983-05-02 1987-11-17 Motorola, Inc. Utilizing word-to-digital conversion
FR2547146B1 (fr) * 1983-06-02 1987-03-20 Texas Instruments France Procede et dispositif pour l'audition de messages parles synthetises et pour la visualisation de messages graphiques correspondants
DE3513243A1 (de) * 1985-04-13 1986-10-16 Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt Verfahren zur sprachuebertragung und sprachspeicherung
JPS62231300A (ja) * 1986-03-31 1987-10-09 郵政省通信総合研究所長 音声の処理単位への自動区分と処理の方法
FR2642882B1 (fr) * 1989-02-07 1991-08-02 Ripoll Jean Louis Appareil de traitement de la parole
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
EP0706172A1 (en) * 1994-10-04 1996-04-10 Hughes Aircraft Company Low bit rate speech encoder and decoder
US5680512A (en) * 1994-12-21 1997-10-21 Hughes Aircraft Company Personalized low bit rate audio encoder and decoder using special libraries
CN1120469C (zh) 1998-02-03 2003-09-03 西门子公司 传输语音数据的方法
US7353173B2 (en) * 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
US7353172B2 (en) * 2003-03-24 2008-04-01 Sony Corporation System and method for cantonese speech recognition using an optimized phone set
US7353174B2 (en) * 2003-03-31 2008-04-01 Sony Corporation System and method for effectively implementing a Mandarin Chinese speech recognition dictionary
CN111147444B (zh) * 2019-11-20 2021-08-06 维沃移动通信有限公司 一种交互方法及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5326761A (en) * 1976-08-26 1978-03-13 Babcock Hitachi Kk Injecting device for reducing agent for nox

Also Published As

Publication number Publication date
DE3277095D1 (en) 1987-10-01
EP0071716B1 (en) 1987-08-26
JPS5827200A (ja) 1983-02-17
EP0071716A2 (en) 1983-02-16
EP0071716A3 (en) 1983-05-11

Similar Documents

Publication Publication Date Title
US4661915A (en) Allophone vocoder
US4424415A (en) Formant tracker
EP1704558B1 (en) Corpus-based speech synthesis based on segment recombination
US4975957A (en) Character voice communication system
US6161091A (en) Speech recognition-synthesis based encoding/decoding method, and speech encoding/decoding system
EP0140777B1 (en) Process for encoding speech and an apparatus for carrying out the process
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
AU639394B2 (en) Speech synthesis using perceptual linear prediction parameters
WO1998035340A2 (en) Voice conversion system and methodology
JPH0576040B2 (ja)
WO2000058949A1 (en) Low data transmission rate and intelligible speech communication
EP0191531B1 (en) A method and an arrangement for the segmentation of speech
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JPH0215080B2 (ja)
CN114220414A (zh) 语音合成方法以及相关装置、设备
Wang et al. An experimental analysis on integrating multi-stream spectro-temporal, cepstral and pitch information for mandarin speech recognition
JPH01202798A (ja) 音声認識方法
CN111199747A (zh) 人工智能通信系统及通信方法
KR102457822B1 (ko) 자동 통역 장치 및 그 방법
CN111696530B (zh) 一种目标声学模型获取方法及装置
JPH01211799A (ja) 多言語を扱う音声の規則合成装置
JPH10161690A (ja) 音声通信システム及び音声合成装置及びデータ送信装置
Pagarkar et al. Language Independent Speech Compression using Devanagari Phonetics
CN117877486A (zh) 一种基于语音识别的电子设备及其控制方法
JPH1185196A (ja) 音声符号化/復号化方式