JPS5827200A

JPS5827200A - 音声認識装置

Info

Publication number: JPS5827200A
Application number: JP57135070A
Authority: JP
Inventors: グランビル・イ−・オツト; クン−シヤン・リン
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1981-08-03
Filing date: 1982-08-02
Publication date: 1983-02-17
Also published as: EP0071716B1; EP0071716A3; EP0071716A2; JPH0576040B2; DE3277095D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は、一般的には音声に関するものであり、更に詳
細には、音声認識、圧縮、送信に関するものである。

アナログ的な音声信号が数多くの冗長な音を含んでおり
、そのため効率よいデータ送信には適していないという
ことは古くから知られている。直接的な人間の会話にお
いては、このような効率の悪さは許容できるものである
。しかし、この非能率的な音声を処理するための技術的
要求は、必要とされる費用、時間、記憶容量の点で実現
不可能なものであった。

アナログ的音声信号をとらえて、それを゛送信、記憶の
後に再構成できるようなデジタル的な形態のものへ変換
することのできるシステムに対する要求は存在する。こ
のような型の装置は一般的に「ボコーダ」と呼ばれる。

ボコーダはリチャードシュワルッ（ＲｌｃｈａｒｄＳｃ
ｈｗａｒｔｚ　）等によって、米国コロラド洲デンバー
市で１９８０年の４月９日から１１日に開催された米国
電子通信学会（工ＫＦ；Ｆｔ　）の［音響、音声及び信
号処理に関する国際会議（Ｉｎｔｅｒｎａｔｉｏｎａｌ
Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ａｃｃｏｕｓｔｉｃｓ、
　５ｐｅｅｃｈ　ａｎｄ　ＳｉｇｎａｌＰｒｏｃｅｓｓ
ｉｎｇ　（工０ＡＳＳＰ　８０　）　）　Ｊにおいて発
表された「ダイホーン　モデルに基づく音声ボコーダの
基本的設計（Ａ　Ｐｒｅｌｉｍｉｎａｒｙ　Ｄｅｓｉｇ
ｎ　ｏｆ　ａＰｈｏｎｉｃ　Ｖｏｃｏｄｅｒ　Ｂａ５ｅ
４　ｏｎ　ａ　Ｄｉｐｈｏｎｅ　Ｍｏａｅｌ　）　Ｊと
題する彼らの論文（この会議の論文集工０ＡＳＳＩ）８
０第１巻第３２−３５頁）の中で論じられた。

シュワルツらのダイホーンモデルはＩ　Ｄ　Ｏｂ／ｓで
動作する音声ボコーダに関するものであった。音声の各
音素（Ｐｈｏｎｅｍｅ　）は時間間隔と単一ピッチ値と
を発生する。ダイホーンテンプレートの表が音素列を合
成するために用いられる。更に、ダイホーンテンプレー
トは、アナログ的音声の中でどの音宰が送信されている
か決定するために最初に利用される。ダイホーンはその
構造と、列をなす性質のために、１つの音素の中ごろか
ら次の音素の中ごろ才でに存在し、それを用いて音声合
成を行うことは一般的に非常にやっかいで非能率的であ
る。

ダイホーン合成の場合、理解しやすい音声をつくりだす
ためには、音響を音へ対応づける労多いアルゴリズムを
用いる必要がある。この広義の音響対置アルゴリズムを
有効なものとするためには、時間及びハードウェアを大
量に必要とする。

アナログ音声を認識する時に常に行われることは、アナ
ログ音声をそれの構成要素に分解し、それらを辞書を照
合して同定するという方法論である。人間の音声を近似
しそれをモデル化するために数多い方法及び装置が開発
されてきている。それらのモデル化法の中にはボコーダ
やデータ、線型予測フィルタ（１ｉｎｅａｒ　ｐｒｅｄ
ｉｃｔｉｖｅ　ｆｉｌｔｅｒｓ　）その他の装置が含ま
れる。

アナログ的音声を分析する、そのような１つの方法は、
ジエームズ　Ｌ、フラナガン（Ｊａｍｅｓ　Ｌ。

Ｆｌａｎａｇａｎ　）　　によって、ここに引用する米
国音響学会誌（Ｊ、Ａｃｃｏｕｓｔ　Ｓｏｃ、Ａｍ、　
）の１９５６年１月号第２８巻第１１０−１１８頁の［
連続音声のホ、＋１／　７７トの自動抽出（Ａｕｔｏｍ
ａｔｉｃ　Ｅｘｔｒａｃｔｉｏｎｏｆ　Ｆｏｒｍａｎｔ
　ｆｏｒ　Ｃｏｎｔｉｎｕｏｕｓ　５ｐｅｅｃｈ　）　
Ｊと題する論文中で論じられている。

その論文の中で、フラナガンは、連続音声から最初の６
つのホルマント周波数を自動的に抽出する２つの電子装
置を提案している。それらの装置は、音声のホルマント
周波数を表わす振幅が時間の関数であるような、連続的
な直流出力電圧を発生する。ホルマント周波数はアナロ
グ的な形で表わされているが、アナログ／デジタル（Ａ
Ｄ）変換器を用いることによって、これらのポルマント
周波数を電子的処理に用いるのにより適したデジタル形
に変換することは容易である。

別の方法は、Ｈｏに、ダニｙ　（Ｈ，Ｋ、　Ｄｕｎｎ　
）　Ｋよって、ここに引用する米国音響学会誌（Ｊ、Ａ
ＣσｏｕａｔＢｏａ　Ａｍ　）　１９６１年１２月号第
６６巻第１７３７−１７４６頁の［母音ホルマント帯域
幅測定法（Ｍｅｔｈｏｄｓ　ｏｆ　Ｍｅａｓｕｒｉｎｇ
ＶｏｗｅｌＦｏｒｍａｎｔ　Ｂａｎａｗｉ　−ｄｔｈｓ
　）　Ｊと題する論文中で論じられている。この論文中
で、ダンは実際の音声のスペクトルの使用と、−例にお
いて人工喉頭の使用とについて述べている。

これらから明らかなように、アナログ的音声信号を近似
デジタル形へ変換するための効率的な方法及び装置は存
在していない。ホルマントの単なる認識、あるいは検知
された音声の合成のためにダイホーンを用いることは不
正確であり、もともとの音声信号を表わすデータの良質
な記録、送信を可能とはしない。

本実施例ではアナログ的音声信号を音素部分に分割する
ための装置が用いられている。比較装置が音素テンプレ
ートとの一致をとる。テンプレートを表わす参照符号が
適当な装置によって選択される。本発明で得られるデー
タ速度は１秒当り８０ビツト以下である。この速度で受
信ししかも良質の音声を合成する方法は、音素から異音
（ａｌｌｏｐｈｏｎｅ　）への変換を行うことによるも
のである。入力データはその速度、ピッチ、その他の因
子に関して正規化され、それは、テンプレート組あるい
はテンプレート登録表のうちの音素テンプレート組と比
較される。最適一致がとられる。

入カビツチ及び変数値は異音列の形で記録保持され、回
答もしくは送信のために用いられる。

人間の耳はフィルタ機能を有しており、また話される言
語固有の冗長度のために、最適音素一致の選択の時に起
こるあやまりは非常にすくなくなる。例えば、音素認識
器が「Ｗｅ　Ｗｉｌｌ　ｂｅ　ｔａｋｉｎｇａ　ｃｒｕ
ｉｓｅ　Ｏｎ　ｔｈｅ　５ｈｉｐ　Ｊ　　という文章中
の発音された音素［５）ｊＪをまちがえて音素「ＣＨ」
ととらえたと仮定しよう。そうすると、文章は「Ｗｅ　
ｗｉｌｌｂｅ　ｔａｋｉｎｇ　ａ　ｃｒｕｉｓｅ　ｏｎ
　ｔｈｅ　ｃｈｉｐ　Ｊ　　となる。送信された音素順
列は完全な一致を与えないが、文章全体は、それでも聴
き手に理解できる。それは人間の耳及び思考過程におい
てこのあやまった音素を除去してしまうからである。人
間の耳及び思考過程は長い期間かかつて発音の変化や用
語のあやまった使われ方を修正することに慣れてきてい
る。

この装置を用いるいくつかの応用は、デジタル口述記録
装置、記録・再生電話、音のメモ、多重チャネル音声通
信、音声記録式試験等々である。

口述記録装置の場合には、音声合成の場合よりも１音素のまちがった一致はより明らかとなる。しかし、こ
れは大まかな草稿であり、後に編集するための一次的な
文章化である。

本発明の実施例では、利用者からの初期設定を受けつけ
られるようになっており、それによってピッチ及び時間
パラメータの正規化を行う。更にまた、これによって、
実際の利用者の音素構造をより正確に近似する音素テン
プレートの登録集をつくることが可能となる。

３　Ｑ　ｂ／ｓの圧縮率であれば、信号はより低価格の
ものとなり、送信に要する時間も効率よいものとなり、
記録のためのハードウェア的仕様も効率よいものとなる
。

本発明は音素から異音への対応づけアルゴリズムを使用
しており、異音は人間の発声をより正確にとらえている
ため、合成音声の質は大幅に向上する。

このボコーダは入力のアナログ的音声を受けとり、それ
を音素テンプレートの組と照合する。各音素は音素符号
を含んでおり、それが音素符号の２順列へ圧縮されチャネルを通して通信される。このチャ
ネルは、正確な送信を行うために、可能なかぎり雑音の
ないものとすべきである。音素の列は受信されて、近似
異音列に翻訳され、既知の電子式合成装置によって合成
される。

そのような一つの装置は、ここに引用する１９８０年６
月２４日付のウイインズＪｒ　、（ＷｉｇｇｉｎｓＪｒ
、）　　らによる米国特許第４，２０９．８３６号に述
べられている。その音声合成集積回路装置は、合成音声
発生部に線形予測フィルタを用いている。

合成装置の中でのデータの制御は当業者にはよく知られ
ている。デジタル音声データを通信し、データを記録す
るためのメモリの制御を行うだめのそのような一つの方
法は、ここに引用する１９８０年１１月１８日付のウイ
ヤンズＪｒ。

（Ｗｉｇｇｊｎｓ　Ｊｒ、　）らによる米国特許第４，
２３４．７６１号に述べられている。

その発明の中で、音素認識装置は、自動利得制御器（Ａ
ＧＯ）、ホルマントトラッカ（Ｆｏｒｍａｎｔｔｒａｃ
ｋｑｒ　）　、音素のテンプレート、認識アルゴリズム
を含んでいる。音素認識器は音声入力を受信し、音声の
利得を自動制御し、分析及びホルマント抽出のためにホ
ルマントトラッカへ信号を送る。

アルゴリズムは発声のホルマント及び特徴に作用して音
声の中での音素の境界を検出させる。検出された音素は
音素テンプレートの登録集の中の音素と照合される。各
音素テンプレートは対応する識別符号を有している。選
ばれた識別符号は順次送信チャネルを通して受傭機へ送
出される。

送信チャネルは有線であっても無線通信回線であっても
よい。理想的には、送信チャネルは、エラーを減らすた
めに可能なかぎり雑音のないものである。

音素対異音合成器がチャネルからの音素符号を受信する
。アルゴリズムがこの音素列を近似異音列へ変換し、そ
れによって良質の音声をつくりだす。音素対異音合成器
において、制御装置が異音特性の登録表を順次音声合成
器と通信するように制御する。

能率的なホルマントトラッカを用いることば有利である
。ホルマントは音声スペクトルの中で大きな振幅エネル
ギーをもつ周波数成分である。それはピッチの共振周波
数と発声音をも含む。この共振周波数は基本周波数の倍
数である。最初のホルマントは２００ないし８５０ヘル
ツ（Ｈｚ）に発生し、第２のホルマントは８５０ないし
２．５００１（Ｚに、第６のホ／ｌ／　７　：／　トは
２，５００なイＬ　３，５００Ｈ２に発生する。本発明
のホルマントトラッカは各周波数帯中で強いエネルギー
成分を選びだす。

本発明は、対象とする音声信号のスペクトルと、基本周
波数の整数倍の周波数をもつ正弦波とのたたみこみ（Ｃ
ｏｎｖｏｌｕｔｉｏｎ　）を得る方法を用いている。正
弦波信号の周波数を変化させ、たたみこみの振幅を検出
することによって、選ばれた周波数帯におけるホルマン
トを見つけることができる。

成されており、付加回路を用いて正弦波発振の決定、選
ばれたスペクトル周波数における２つの関数のたたみこ
み、を行うようになっている。

１組の整数が発生されて、各々を基本周波数に乗するこ
とで、積の値が対象とするホルマント域にくるようにす
る。それら６つの゛整数の組は、それぞれが各ホルマン
ト周波数帯に対応しており、それらは十分型なりをもっ
て、ホルマントの中央が十分決定されるようになってい
る。各整数組の整数値は、基本周波数との積で正弦波信
号を発生させるために用いられる。正弦波信号とアナロ
グ音声信号とは短かい時間間隔すなわちフレームにわた
り積分される。数学的には、この２つの時間信−号の積
分はそれらスペクトルのただみこみを与゛　える。各整
数に対して積分を行うことによって、最大すなわち最も
大きな振幅が明らかＫなり、それに対応する最適整数が
ホルマントを決める。選ばれたホルマント中心は最適整
数値を基本周波数に乗することによって決定される。各
ホルマントはそれに付随して帯域を有しており、それが
受信されたアナログ音声データの別の指標となる。

この指標は、他の指標例えばポーズ（ｐａｕｓｅ）の有
無、有声・無声の別、信号の傾斜、その他デー５り値を発生させるための任意の選ばれたデータと組合せ
られ、音素の登録テンプレートとの照合に用いられる。

ホルトマンを符号化する１つの方法は、各ホルマント間
の距離を決定し、それによって選ばれたホルマントを指
定するために必要なビット数を減らすことである。

音声中のホルマント分析については、シャファーとレイ
ビナ（５ｃｈａｆｆｅｒ　ａｎｄ　Ｒａｂｉｎｅｒ　）
　　によって、ここに引用する、米国音響学会誌（Ｊ、
Ａｃｃｏｕｓｔ。

Ｓｏｃ、　Ａｍ　）　　の１９７０年２月号第４７巻第
６６４−６４８頁に記載された彼らの論文「音声の自動
ホ／ｌ／　？　７ト分析システム（Ｓｙｓｔｅｍ　Ｆｏ
ｒ　ＡｕｔｏｍａｔｌｃＦｏｒｍａｎｔ　Ａｎａｌｙｓ
ｉｓ　ｏｆ　Ｖｏｊ−ｃｅａ　５ｐｅｅｃｈ　）　Ｊの
中で述べられている。シャファーとレイ♂すは時間と共
に変化して出力強度を制御する利得制御を用いている。

声帯−音源スペクトルと放射負荷スペクトルの組合せを
近似するためにカスケード回路網が用いられている。こ
の分析システムは時間の関数として、低い方の６つのホ
ルマント、ピッチ族６期、利得を決定する。

一度指標が決定されると、アルゴリズムはそれを特定の
近似音素と照合する。好適実施例においては、木構造ア
ルゴリズムが用いられ、照合のために必要な計算総数を
減らすために不可能な場合を排除することを行う。この
アルゴリズムにおいては、木構造であるため、決定木構
造でのサイクルは厳密に禁止される。決定木構造でのサ
イクルは、決定が到達されない場合無限サイクルにおち
いるおそれがある。

検知された音素を音素テンプレートと照合するためのア
ルゴリズムは、最適な近似の得られるものであれば任意
のものでよい。これには、各音素テンプレートの受信音
素に対する比較値を発生し、その後に最適比較値を選ぶ
というアルゴリズムも含まれる。

一度最適音素が符号と合致すると、その符号が記憶装置
、印刷装置、あるいは合成器へ送信される。合成の前に
、その音素列はその成分異音組にマツピングされ、音声
の合成に用いられる。この音素を異音組ヘマツピングす
る方法は、クン−シャン　リン、ジーン　Ａ、フランツ
、キャシイダンディ（Ｋｕｎ−８ｈａｎ　ｂｉｎ、　Ｇ
ｅｎｅ　Ａ、Ｆｒａｎｔｚ。

Ｋａｔｈｙ　Ｇｏｎａｉｅ　）　　によって、ここに引
用する米国雑誌「エレクトロニクス（Ｅｌｅｃｔｒｏｎ
ｉｃｓ　）　Ｊの１９８１年２月１０日号の第１２２−
１２５頁に掲載された彼らの論文［ソフトウェア法則は
パーソナルコンぎユータに真のワードパワーを与える（
　Ｓｏｆｔｗａｒｅ　Ｒｕ１ｅｓ　Ｇｉｖｅ　Ｐｅｒｓ
ｏｎａｌ　ＣｏｍｐｕｔｅｒＲｅａｌ　ＶｌｏｒｄＰｏ
ｗｅｒ　）　Ｊの中で論じられている。この論文は、テ
キストを分析し、それの成分要素を決定し、その後それ
らを音声合成チップ上で発音するために、ソフトウェア
を利用する方法について述べている。

その他のアルゴリズムは、クン−シャン　リン、キャシ
イ　グーディ、　ゾーン　フランツ、ジョージ　ゾラン
デイガＡ　（Ｋｕｎ−８ｈａｎ　Ｌｉｎ、　Ｋａｔｈｙ
Ｇｏｕｄｉｅ、　Ｇｏｎｅ　Ｆｒａｎｔ）ｓ、　Ｇｅｏ
ｒｇｅ　Ｂｒａｎｃｌｉｎｇｈａｍ　）によって、ここ
に引用する米国電子通信学会（工ＥＫＪ）？ｌＨｔ者エ
レクトロニクス論文誌（Ｔｒａｎｓａｃｔｉｏｎｓ９ｏｎ　Ｃｏｎｓｕｍｅｒ　Ｆｉｌｅｃｔｒｏｎｉｃｓ　
）の１９８１年５月号第ａＥ２７巻第１４４−１５２頁
に掲載された彼らの論文［ＬＰＯ異音列を用いたテキス
ト−音声変ｐ４　（Ｔｅｘｔ−ｔｏ−８ｐｅｅｃｈ　Ｕ
ｓｉｎｇ　ＬＰＯＡｌｌｏｐｈｏｎｅＳｔｒｉｎｇｉｎ
ｇ　）　Ｊの中で論じられている。この論文は、任意の
英文テキストをテキスト−音声変換するための応答シス
テムについて述べている。そのシステムはＬＰ’Ｏ合成
チップとマイクロプロセッサを用いている。そのシステ
ムは入力のＡＢＣエエ文字をそれらの合成法によって英
字符号へ変換する。

異音な用いることは非常に有力な手法である。

それは、任意の話された音声を、言語や固定された登録
情報にとられれることなく再生できるからである。異音
及び音素合致アルゴリズムの広がる範囲はボコーダの能
力の唯一の制限因子である。

好適実施例は音素−異音マツピングを用いたが、音素−
タイホーン等の他のマツピング手法も才だ適用できる。

本発明は、それらの特定の実施例とその発展と共に、以
下に図面を参照しながらより詳細に説明０する。

第１図は本発明の実施例の特長を示すブロック図である
。

アナログ音声１０１はマイクロホーン１０２でとらえら
れ、アナログ形で１、アナログ−デジタル（Ａ／Ｄ　）
変換器１０３へ送信される。信号がデジタル形へ変換さ
れると、それは変換装置、１０４によって検知音素へ変
換される。各棟・印音素は比較器１０５へ送られ、登録
集１０６中のテンプレートと照合され、一致が得られる
。一致した音素が決定されると、それへの符号がバス１
０７を通して、音素シーケンサ（５ｅｑｕｅｎｃｅｒ　
）　ｌ　Ｑ　ｆ３あるいは記憶装置１０９、あるいは送
信機１１０へ送出される。

音素列と合致する符号列がアナログ音声１０１を全体的
に同定する。この符号列はデジタル形であるためもとの
アナログ音声１０１よりも、圧縮したり記憶したりする
のにより適している。

音素シーケンサ１０８はバス１０７を通って送られてき
た符号を用いて、登録表１０６から適当な音素を得る。

この登録表１０６からの音素には、合成器１１４へ送ら
れるべき一組の異音素性が付随している。合成器１１４
はアナログ信号なスピーカ１１５へ送出し、音声１１６
を発生させる。

音素シーケンサ１０８による登録表１０６を用いた音素
−異音変換を行うことによって、より理解しやすい高級
な音声１１６が発生できる。この変換法によれば、音素
ペースのデータの符号化ができ、それによってより低い
値のピット送信速度を容易にし、必要な時間が短くなり
、もともとのアナログ音声１０１の記録のための記憶媒
体も容易になる。

別の方法として、音素符号を記憶装置１０日にだくわえ
ておき、後で検索するというのもある。

この後での検索には、音素シーケンサ１０８、合成器１
１４、及びスピーカ１１５の順で用いられ、異音形での
音素列を合成し音声１１６を発生させる。付加的に、記
憶装置１０９は音素符号を音素−英字変換器１１１へ送
り、そこで音素はそれに等価な英数字部分に変換される
。音素がＡＳＯＩ工符号のような形で英数字部分に変換
されると、それらをもともとのアナログ音声１０１のコ
ピー１１３を得るための印刷機１１２へ送ることは容易
である。

この動作部門、記憶装置１０９、音素−英字変換器１１
１、印刷機１１２は、本発明に従って音声を印刷物とす
ることを可能としており、自動口述記録装置を実現する
。

もう一つの動作は、バス１０７からの音素符号を送信機
１１０へ送ることである。送信機は音素符号を表わす信
号１１７を発生し、それはリモート装置１２０の受信機
１１８に検知される。

リモート装置１２０は送信装置１２１と同じ能力を有し
ている。このため音素符号は受信機１１８からバス１１
９を通って送られることもできる。

ここでも、音素符号がバス１１９を通って送られると、
それはリモート記憶装置１０９′あるいはリモートシー
ケンサ１０８′で処理することができる。本発明の他の
実施例においては、バス１１９を通って送られた音素符
号はまた図示されていな６いリモート送信機へ送られることもできる。

リモート装置１２０はローカル装置１２１と同じように
音素符号を利用する。音素符号はリモートシーケンサ１
０８′によってリモート登録表１０６′中のデータと共
に用いられて、リモート合成器１１４′へ送られる近似
異音列を発生させる。リモート合成器１１４′はリモー
トスピーカ１１５′を制御して音声１１６′を発生させ
る。

リモート装置もまた、後にリモートシーケンサ１０８′
あるいは音素−英字変換器１１１′において利用するた
めに、リモート記憶装置１０９′へ音素符号を記憶して
おく機能を有している。音素−英字変換器１１１′は音
素符号をそれに近似本発明のこの実施例から−らかなよ
うに、アナログ音声は、データ列として記憶や処理のし
ゃすい音素符号の形に変換される。音素符号は、記憶、
送信、印刷コピー作成が容易であり、更に、近似の異音
列へ変換することによって、音声合成する４ことも容易である。

第２ａ図は、アナログ音声入力を受信し、音声出力を与
える、本発明の実施例のブロック図である。

第２ａ図の実施例において、もとのアナログ音声人力２
０１は音素認識装置２０２へ送られ、そこで通信チャネ
ル２０４を通る音素列２０３に変換される。音素２０５
０列は音素−異音合成器２０６へ送られ、そこで音素列
はそれに近似した異音列に変換され、それによって音声
出力２０７が発生される。注意すべきことは、音素認識
装置２０２と音素−異音合成器２０６とは同じ装置の中
にあってもよいし、互に離れた装置の中にあってもよい
。この文中において、通信チャネル２０４はバスや電話
線のような有線装置であってもよいし、ラジオ送受信機
のような無線でもよい。

第２ｂｊ図は、第２ａ図に示した音素認識装置２０２の
実施例を示す。

アナログ音声人力２０１は自動利得制御（ＡＧＯ）２０
８へ送られ、音声信号は、特定の望みの平衡状態へ制御
される。ホルマントトラッカ２０９はアナログ信号をそ
のホルマント成分へ分割し、それらはランダムアクセス
メモリ（ＲＡＭ）　２１０へ記憶される。本実施例でＲ
ＡＭ　２１０を使用しているように示しであるが、任意
の記憶装置でもかまわない。ＲＡＭ　２１０に記憶され
たホルマントは音素境界検出装置２１１へ送られ、それ
によって、ホルマントを検知された音素成分へグループ
分けする。各検知された音素は認識アルゴリズム２１２
へ送られる。認識アルゴリズム２１２は既知の音素を含
む登録表２１３からの音素テンプレートを用いる。認識
アルテリズム２１２によって、音素境界検出装置２１１
からの検知された音素と音素テンプレート登録表２１３
中で見出されたテンプレートとの間で最もよい一致が求
められ、それによって認識された音素２１４が得られる
。

既に指摘したように、人間の耳の自然のフィルタ作用と
聴き手の思考過程でのあやまり修正のために、完全な認
識でなくても、最もよい一致をとることで、認識アルゴ
リズム２１２によって発生するあや才りは最小のものと
なる。認識アルゴリズム２１２は連続した音素コードの
列を発生し、列の中には空白や認識されない音素は存在
しない。

非認識決定による空白は本発明においては雑音の増大を
もたらすだけである。

第２Ｃ図は、音素−異音シンセサイザ２０６の実施例で
ある。

音素符号２０５０列は制御装置２１５へ送られる。制御
装置２１５はそれら符号と読み出し専用メモＩＪ　（Ｒ
ＯＭ）　２１７を用いて近似異音列を表わす適切なビッ
ト列を音声合成器２１６へ送信する。

ＲＯＭ　２１７から音声合成器２１６へ送られたデータ
はスピーカ２１８を変調して合成音声を発生するために
必要なパラメータを決定する。

音声合成器は、線形予測フィルタを用いたものを含む多
様な種類の音声合成器の中から選ばれる。

第６図は、アナログ音声を表わす指標を発生するための
、本発明の実施例のブロック図である。

この指標は、検知された音素を表わし、登録表中のテン
プレートとの間で最適の一致を得る時に７用いられる。自動利得制御装置（ＡＧＯ）　３０１はア
ナログ音声信号をピッチトラッカ３０２と積分器３０４
．３１４．３２４へ送る。ピッチトラッカ３０２は基本
周波数Ｆ［］を発生する。

各々のホルマントデターミネータ（ｄｅｔｅｒｍｉｎａ
ｔｏｒ）３０８．３１８．３２８に対して、各々整数組
が決定され、それらを基本周波数に乗するとその周波数
がホルマント帯域内に含まれる。各々の整数値の組は広
げられて、その組の中で重なりをもつようにし、それに
よって全ホルマントが規定できるようにする。例えば、
基本周波数ＦＯが２００Ｈｚとすると、最初のホルマン
トに対する整数値の組はおそら＜（０，１，２，６，４
）を含み、第２のホルマント整数の組は（４，５，６，
７）を含み、第６のホルマント整数の組は（７，８，９
）を含む。

ホルマントデターミネータ３０８は基本周波数ＦＱを受
けとり、それを整数値組からの整数値ｎと共に正弦波発
振器３０３中で用いる。正弦波発振器３０３は正弦波発
振器（１）　　を発生する。その８信号はｎと基本周波数の積を中央値としている。

この正弦波信号は積分器３０４へ送られ、そこでホルマ
ントの選ばれた周波数にわたって、正弦波信号θ（１）
　　とアナログ音声信号ｆ（ｔ）　　との積が積分され
る。この積分器３０４によるこの積分はアナログ音声信
号ｆ（りのたたみこみを与える。

このような正弦波信号の発生３０３と積分３０４との操
作は、積分器３０６によって整数値組内でのすべての整
数値に対してつづけられる。積分器３０４から最大振幅
を発生させるｎの値がデターミネータ３０５によって選
びだされる。この最適値Ｎ′は’　１＝Ｎ’　ＸＦＤで
規定される第１のホルマン）Ｆｌを発生するために用い
られる。この積は第１のホルマントの帯域幅ＢＷ１を付
加的に決定し、そのＦｌとＢＷｉの対がチャネル３０７
へ送られる。

同様にして、ホルマントデターミネータ３１８と３２８
は、各々正弦波発振器３１３と３２３を通して正弦波信
号を発生し、その後積分器３１４と３゛２４とによる積
分によって各々最適値Ｍ’３１５゛とに’　３２５を得
る。

指標ＢＷ１、Ｆｌ、ＥＷ２、Ｆ２、ＢＹ、５、Ｆ３及ヒ
ＦＯはＡＧＯ３Ｑ　ｌからのアナログ音声からの検知さ
れた音素指標を表わしている。この検知された指標は、
検知された指標と登録表中の音素テンプレートとの間で
最もよい一致を得るために用いられる。

第４図は、帯域幅と最適ホルマントとの間の関係を示す
。

最適整数値Ｎ′が求まると、そのまわりの整数値に対し
てその振幅がプロットされる。独立軸４０２は、整数値
と基本周波数との積で与えられる周波数を含む。従属軸
４０３はたたみごみのアナログ音声信号との積により得
られる振幅を含んでいる。図に示したように、最適値Ｎ
′は振幅４０４を与える。まわりのデータ点４０５，４
０６．４０７．４０８を用いると、適当な最適値Ｎ′に
対して帯域幅ＢＷｉが決定できる。

この帯域幅を使用すると検知された音素と登録表中の音
素テンプレートとの関係を決定するもう一つの指標が得
られる。同様の分析が各ポルマントに対して行われる。

第５図は最適ホルマント位置を決めるための、一つの実
施例の流れ図を示している。

アルゴリズムは５０１でスタートし、基本周波数ＦＯ５
０２が決められる。この基本周波数はＮの最適化５０３
に用いられる。Ｎの最適化５０３のためにはＮ値の初期
設定５０４とその後のＮとＦＯの積に基づく正弦波発振
５０５とを必要とする。周波数コンボルバ５０６はホル
マントの選ばれた周波数上での基本周波数Ｆ’Ｑと入力
のアナログ音声信号とのただみこみを与える。このたた
みこみは５０７で最適化される。そこでは、もし最適値
でなければ、Ｎ′値を増分し５０８、同じ処理をくりか
えし、最適Ｎ値を決定するようになされる。Ｎの最適値
において、アルゴリズムは次にすすみ、Ｍの値の最適化
５１３を行い、その後にの値の最適化５２３を行う。Ｎ
の最適化５０３、Ｍの最適化５１３、Ｋの最適化５２３
は構成及び操作の点で同一である。

本実施例において、人間の言語を規定するために６つの
ホルマント周波数領域をとりあげた。６１つの領域で人間の音声が正確に記述できることは知られ
ている。しかしながら、このやり方は設計者の意志で拡
張したり、縮小したりすることができる。このアルゴリ
ズムを単一ホルマントの場合あるいは６個以上のホルマ
ントの場合に適用できるよう拡張しても一般に伺の損失
もない。

第６図は、アナログ音声信号をホルマントへ符号化する
ための別の方法を図示している。

アナログ音声信号６０８を周波数軸６０１に対してプロ
ットしである。従属軸６０２は振幅である。第１のホル
マントロ０３において、周波数範囲は２００ないし７０
　Ｑ　Ｈｚに存在する。第２のホルマントは８５０ない
し２５００　Ｈ２の周波数範囲にあり、第６のホルマン
ト６０５は２７０ｏないし３５００　Ｈ２の周波数にわ
たる。第３図及び第５図で述べたのと似た方法によって
、ホルマント領域内での最大振幅の位置が決定される。

これらの最大値はそれぞれ最大値６０６と６０７の間の
距離を与える。この最適ホルマントの間の距離ｄ０は、
検知された音素を音素テンプレートへ−２致させる場合に検知された音素を特徴づけるために用い
ることができる。この方法では、６つの整数値を使用す
る場合（第１、第２、第６ホルマントに対して）を記述
するために２つの整数値ｄ１とｄ２を用いる。

表１は、音素テンプレートへの一致のための「語」を確
立するだめの符号化方式の一実施例である。

本実施例においてそのデータ語７０１は８ビツト語であ
るが、検知された音素を適切に記述することができる任
意の長さの語を用いることができる。本実施例において
、８ビツトは４個の基本成分７０２．７０３．７０４．
７０５に分割される。

第１の成分７０２はポーズ（Ｐａｕθθ）の有無を表わ
す。もしｂｏが値１に設定されていると、ポーズが検知
され、適切な処理が行われる。もしす。

が０であればポーズ無しである。ｂ□７０３にも同様な
関係が存在する。これは有声無声音素の区別をする。Ｂ
２−Ｂ５７０４はアナログ音声信号の形を表わす。その
値は水平勾配、正の傾斜、負の勾配を示す。

Ｂ４Ｂ７７０５は、相対エネルギー、相対ピッチ第１距
離、第２距離の組合せを示す。Ｂ、　−Ｂ１２Ｏ３は、
それらの値が検知された音素のホルマント距離に関する
特性を示すように符号化されている。ビットｂ、　−ｂ
、は第６図に示された各ホルマント内における最大値間
の距離を送信するよう符号化されている。表７０６から
ビットｂ４−１）。

の範囲内における各値は、２つの距離の絶対値を規定す
る。

第７図は、音素符号列を、それに対応する異音列へある
いはそれに対応する英数字へ変換するようすを示してい
る。

音素列８０１は、８０２のようなそれの音素符号へ分割
される。音素符号８０２は、特定の音素８０７を明白に
意味する。この音素８０７は、それをまわりの音素符号
８０３．８０４と共にとりあげることによって、ＡＢＣ
エエ英数字で印刷されるか８０５、あるいはそれの近似
異音列へ変換される。

この異音列８０６は、目的の音素８０７をそのまわりの
音素と関連づけて知った場合によって、発生される。本
説明において、先行する音素８０３、あとにつづく音素
８０４、それと目的の音素８０２は記憶装置中に保持さ
れて、適切な異音列８０６を発生する。

第８図は、検知された音素の合致において、音素テンプ
レートの最良近似を決定する決定木構造の実施例の特徴
を示す。

この決定木構造は複数のステージ９０１．９０２、等に
分割される。この本構造の各ステージは検知された音素
を可能と不可能な組合せに区分けする。

検知された音素が更に可能と不可能の状態へ区分けされ
てゆくと、不可能な状態が吸収してゆき、可能な状態は
減少して、最後には１つだけ音素テンプレートが唯一可
能な選択として残る。このように、本構造の最後のステ
ージはテンプレートと同数の節を含んでいるべきである
。

最初の決定９０３は、第１ビツトｂ。が設定されている
かに関してなされる。第１♂ツトが設定さ５れていれば、節９０５へうつり、節９０４Ｂ工以降の節
は無視される。このｂｏレベルに対する決定は、節９０
４のあとにつながる音素テンプレートを不可能な組と判
定し、節Ｂ２９０５以後にあるものを可能な組と判定す
ることである。同様な判断が指標の各成分に対してなさ
れる。この例において、次の分離がｂｌに対して行なわ
れ、次にｂ２−ｂ３の値に対してなされる。この節に関
する分離はつづけられ、最後の節に到達し、そこで音素
テンプレートの一つが選び出されることになる。

線９０７を通して節Ｆｉ１９０８から］１ｌｉ２９０９
へ移動するような、横方向での移動は、それによってサ
イクルが作られないかぎり許容される。本説明において
、線９１０はＤｌと０１の間のサイクルを示している。

例えば、０ｉ−Ｄｌ−Ｏｉ　−Ｄｉ−Ｏｉを含む順列は
それがサイクルを構成しているので許容されない。この
順列は終りのないサイクルをつくりだし、それは決定が
決して得られないという結果をもたらす。本実施例に示
された木構造の１つの条件は、最後には決定がなされな
け６ればならないということである。

第８図に示されたアルゴリズムは、検知された音素と音
素テンプレートとの間での最良の合致を判定するための
１つの実施例である。別の方法は、検知音素に対して各
音素テンプレートの比較値を発生し、次にそれに従って
最適の比較値を選びだすという方法である。この方法で
は、その操作のためにより多数回の計算とより長時間を
要する。

表１１と光量は、音素−異音変換を示しており、そこで
は音素はそれの近似の異音列に変換されている。

表■において、異音な規定する規則が示されている。示
されたように、ＩＩ）Ｊｌｏｏｌは空白あるいは飴の境
界を示す。示された異なる記号は音素へ加えられる異な
る異音素性を示す。音節はピリオド［・Ｊ１００２で区
切られている。これらの異音規則は音素と組合されて、
適当な異音列発生が行われる。

表量は、音素ｆＧＨＪ１００３がどのようにして適切な
異音列へ変換されるかを示している。先行する音素及び
後につづく音素に依って、音素［ＯＨＪは［ｃｈａｉｎ
　Ｊ　　におけるように１ｂＯＨＪ１００４となるか、
あるいは（−ｂｅｗｉｔｃｈｉｎｇ　Ｊにおけるように
ｒＯＨＪ１００５で表わされ語中に存在する。

各音素は唯一の異音列へ変換される。この異音列は、音
素列中で先行する音素とあとにつづく音素を知ることに
よって決定される。

本発明は、ここに述べたように、アナログ音声信号を、
より圧縮、記憶、送信、あるいは音声合成のための近似
異音列への変換が容易にできる音素列へ変換する音声認
識システムの用途について詳しく述べている。音素検知
によって無制限の語いを使用可能にし、最適の一致を行
うことを可能としている。人間の耳はフィルタ機能を有
しており、人間の脳はランダム雑音を無視し合成音声を
フィルタにかけることができるので、最適一致方式が許
容されるものとなる。合成された音声は、音素列から近
似異音列への変換を通して劇的に強調される。記憶され
た音素列は、英数字列へあるいはラジオ帯あるいは電話
線を通しての送信のために変換されることは容易にでき
る。

本発明は、音声からテキストへの直接的な口述記録装置
を可能とし、更に才だ高度に効率的なデータ送信速度を
可能とする。

表１は、指標のための符号化方式を示す。

表■及び表鵬は、音素−異音変換の規則及び変換の仕方
を示す。

０ン］ ρｊ　　　　　　　　　　央養ぐ　　　　　　　　恢則藺トトノｑコロ０悶渫

【図面の簡単な説明】

第１図は、本発明の実施例のブロック図であって、本発
明のデータ圧縮及び送信の能力を示している。第２ａ図は、本発明の通信関係を示すブロック図である
。第２ｂ図及び第２ｃ図は、第２ａ図に示した実施例の認
識側と合成側とをそれぞれ示す。第６図は、本発明の実施例であって、アナログ音声信号
を表わす指標を発生するために用いられる。第４図は、特定のホルマントに付随する帯域幅の決定の
仕方を示している。第５図は、アナログ音声のホルマントを決定スるための
実施例の流れ図である。第６図は、アナログ音声の特定のホルマント構造を規定
するための指標を決定する方法を示している。第７図は、音素を異音列もしくは英数字へ変換する操作
を示している。１第８図は、表■に示されたような符号化された指標に作
用する決定木構造の例である。（参照番号）１０１　アナログ音声１０２　マイクロホン１０３　　Ａ／Ｄ変換器１０４　変換装置１０５　比較器１０６　登録表１０１　バス１０８　音素シーケンサ１０９　記憶装置１１０　　送信機　　　１１１　　音素−英字変換器１
１２　印刷機　　１１３　コピー１１４　合成器１１５　スピーカ１１６　音声１１７　音素符号信号１１８　受信機１１９　バス１２０　リモート装置１２１　ローカル装置２０１　アナログ音声人力２０２　音素認識装置２０３　音素列２０４　通信チャネル２０５　　音素列２０６　音素−異音合成器２０７　音声出力２０８’ＡＧ０２０９　ホルマント　トラッカ２１ＯＲＡＭ２１１　音素境界検出装置２１２　認識アルゴリズム２１３　登録表２１４　認識された音素２１５　制御装置２１６　音声合成器２１？　　ＲＯＭ２１８　スピーカ３０１　　ＡＧＯ３０２ピッチ　トラッカ３０３　正弦波発振器３０４　積分器３０５　デターミネータ３０６　積分器３０７　チャネル３０８　ホルマント　デターミネータ３１３　正弦波発振器３１４　積分器３１８　ホルマント　デターミネータ３２４　積分器３２８　ホルマント　デターミネータ４０２　横軸４０３　縦軸４０４　振幅４０５〜４０８　データ点４６０１　横軸６０２　縦軸６０３　第１ホルマント６０４　第２ホルマント６０５　第６ポルマント６０６　最大値０７７０１　データ語７０２〜７０５　基本成分８０１　音素列８０２　音素符号８０３〜８０４　音素符号８０５　印刷英数字８０６　異音列８０７　目的音素９０１〜９０２　ステージ９０４〜９０５節６５９０８〜９０９節１００１　空白１００２　ピリオド１００３　音素「ＯＨ」１００４　　［１）　ＯＨＪｌ　００５　　「ＯＨＪ代理人　浅　村　　　皓外４名 −５９３− Ｎ　ｄｌトし

Claims

【特許請求の範囲】（１）　　アナログ音声信号を受信するための認識シス
テムであって、ａ）装置であって１）上記アナログ信号を人間の音声成分へ分割するため
、及び２）上記人間の音声成分の各々を表わす検知された指標
を発生するため、の装置、ｂ）各々の人間の音声成分に対して、上記検知された指
標に基づいて、参照データ組の中から参照データを選び
出すための装置、を含むような、認識システム。（２、特許請求の範囲第１項の認識システムであって、
更に、１）上記アナログ音声信号を受信する装置、２）上記ア
ナログ音声信号を上記分割装置へ送信するための装置、を含むような認識システム。（３）％許請求の範囲第１項の認識システムであって、
上記参照データが、上記検知された指標を近似する参照
指標を有するような、ＷＸ　ａ＆’ｌ’システム。（４）アナログ音声データを等価なデジタルデータへ圧
縮するための装置であって、ａ）上記アナログ音声データを電気信号へ変換するため
の装置、ｂ）上記電気信号を、成分となる人間の音声の列へ分割
するための装置、Ｃ）上記成分となる人間の音声へ、それを表わす指標を
付与するための装置、ｄ）上記表示指標の各々に対して、人間の音声の参照組
の中から選ばれた人間の音声を決定するための装置であ
って、上記選ばれた人間の音声が、上記人間の音声の参
照組の中で上記表示指標に最もよく似ている指標を有し
ているような、装置、 θ）上記選ばれた人間の音声の各々をデジタル形で記憶
するための装置、を含むような、圧縮装置。（５）　　ボコーダシステムであって、ａ）装置であっ
て１）アナログ音声信号を受信するための、２）上記アナ
ログ音声信号の異音部分を同定するための、６）異音部分の各々に対して、それを表わす指標を決定
するための、装置、１］）装置であって、１）各指標に対して、最適比較値を決定するためのもの
であって、各最適比較値が、上記表示指標と参照指標の
登録集中の参照指標との間に一致が得られていることを
表わしているような、及び２）各最適比較値に対して付随した異音符号を決めるた
めの、装置、Ｃ）装置であって、１）上記付随した異音符号の異音列を発生するための、２）上記異音列から可聴信号を合成するための、装置、を含むような、ボコーダシステム。（６）アナログ信号を受信するためのホルマントトラッ
カであって、ａ）上記アナログ信号に付随するピッチを追跡し、それ
から基本周波数をとりだすための装置、ｂ）−組の選ばれた周波数領域内での各々の選ばれた周
波数領域に対してくりかえし、１）選ばれた周波数領域
に付随する整数値の組、２）上記整数値組から上記周波数領域に対する最適整数
値、３）上記最適整数値に付随する帯域幅を決定するための
装置、を含むようなホルマントトラッカ。（力　特許請求の範囲第６項のホルマントトラッカであ
って、上記最適整数値を決定するための装置が、ａ）上記整数値組内の各整数値に対してくりかえし１）選ばれた中央点まわりの正弦波信号２）上記周波数
領域上で上記正弦波と上記アナログ信号のたたみこみで
あるようなたたみこみ値、を発生するための装置、ｂ）上記たたみこみ値に基づいて最適整数値を選びだす
ための装置、を含むような、ホルマントトラッカ。（８）アナログ音声信号を受信するためのボコーダ回路
網であって、ａ）上記アナログ音声信号内の音素列を認識するための
装置、ｂ）装置であって、１）上記音素列を近似の異音列へ変換するための、及び２）上記異音列を合成して可聴信号を得るための、装置
、を含むようなボコーダ回路網。