JPS59501520A - 調音音声認識のための装置 - Google Patents
調音音声認識のための装置Info
- Publication number
- JPS59501520A JPS59501520A JP57502755A JP50275582A JPS59501520A JP S59501520 A JPS59501520 A JP S59501520A JP 57502755 A JP57502755 A JP 57502755A JP 50275582 A JP50275582 A JP 50275582A JP S59501520 A JPS59501520 A JP S59501520A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- input
- output
- bank
- languages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 105
- 238000012546 transfer Methods 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims description 51
- 230000004044 response Effects 0.000 claims description 47
- 239000003990 capacitor Substances 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 4
- 238000007599 discharging Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 2
- 108091006146 Channels Proteins 0.000 description 90
- 238000000034 method Methods 0.000 description 45
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 230000003321 amplification Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 210000000056 organ Anatomy 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000002459 sustained effect Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000001994 activation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 241001521328 Ruta Species 0.000 description 2
- 235000003976 Ruta Nutrition 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 235000005806 ruta Nutrition 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001230134 Phasis Species 0.000 description 1
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 210000001983 hard palate Anatomy 0.000 description 1
- 201000000615 hard palate cancer Diseases 0.000 description 1
- 210000001847 jaw Anatomy 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000003534 oscillatory effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 210000001584 soft palate Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrophonic Musical Instruments (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は(+)言語の波形を分析することにより声道の音響特性を測定しくト)
言語の波形を声道の転送機能によって分類し各波形のセグメントを所定の調音状
態と関連づけることに関する。
従来技術の説明
母音は通常フォルマントと称されるそれらの共鳴・ぐターンにより大略分類され
ることは長期にわたり知られている。研究者によっては、音声を1. 2. 3
あるいはそれ以上のフォルマントに区別できればと各人各様に痛感してきた。1
940年代には、フォルマントおよび、全ゆる形式の言語の発声の間のそれらの
動きを図示する装置が考案された。フォルマントは母音においてのみならず、は
とんどあるいは全ての音声要素、即ち音素において認められた。全ての音声を表
現するのに発行者により十分と考えられる最初の6種類のフォルマントを網羅し
て、男性、女性、子供の平均的なフォルマント周波数と、その関連の強度につい
て広範なデータが発行された。周知の記憶された基準に対してフォルマントの周
波数と運動とを比較するためにパターンをマツチングする方法が考案された。前
述のような努力は現在まで続けられてきたが成功の範囲は限定されたものであっ
たものの、ある用途には有用であった。
フォルマントパターンを処理するさらに複雑な装置は機械による言語認識を約束
するに至るまでに極めて遅々とした進歩をしてきた。全体的なスはクトルをマツ
チングする方法と平行して、関連したフォルマントをトラッキングする技術が案
出されたが、この技術においてはフォルマントのピークが電子回路あるいはコン
ピュータプログラムによりトラッキングされる。フォルマントの周波数と、ある
場合には振幅とはさらにマツチングならびに分析するため電圧あるいは図形に変
換される。また、前述のような努力と平行して、相互相関として知られる直接的
な波形マツチング、自己相関として知られる間接的な時間、波形マツチングおよ
び、若干述べただけでも音声−非音声、ゼロークロシソング、対称、エンベロツ
ブおよびそのスロープといった時間と波形の特徴を抽出する方法に対する実験が
なされた。
これらの方法は限定された用途においては限定的に成巧したが、実験者が望む、
期待した顕著な成巧には至らなかった。
最近では、研究は線形予測コーディング法に向けられてきている。これらの研究
方向は本質的には電気的ハードウェアで対処し、フォーリアとラップレース(F
ourier and Laplace)による変換方法により分析された作業
の裏返しである。最終的には、モソシャ(Moshier)の米国特許第3.6
10.831号に示す最近の研究の一方向は1つの場合に基本的な反転フィルタ
による認識方法を達成するために、ウェイトをつけ、かつ合算した遅延音声信号
を使用してきた。
調音言語に関する研究と開発は、例えば振幅変調、周波数変調、抑圧した搬送波
、単一側波帯および各種形態のパルス変調のように通信システムの開発において
広範に使用される分析方法と特徴づけの方法を追従してきた。発声は空洞変調と
称しう3
る分類に属するが、通信関係文献にはそれについてはほとんど述べられていない
。
前述の言語認識方法は全体的に、さらに古い通信技術に対して考案された概念を
利用している。その結果、母音は周期的な波形として概括され、言語の音声はそ
の強度あるいは振幅スRクトルによってのみ特定化される。前記の技術はピッチ
の差によって、同一の音素における一方の例から別の例に対して発生しうる多数
の種々の波形を上手く説明し、かつ対処するものではない。波形の変化の重要な
源は声道によって発生する基本波形が移動することにより重複し、音源インノξ
ルスのパターンならびに声道の形態に応じてスはクトル差を発生させる重複発生
作用によるものと考えられる。したがって、音声の強度あるいは振幅ス投りトル
に依存した場合、種々の音声組合せは簡単に分類することができない。
リアルタイムを基準に確実に作動しうる分類装置、即ち音声指令に対して確実、
かつ正確に応答しうる装置において調音速度で分類しうる分類装置に対するニー
ズがある。また、前述のような分類装置は周波帯の幅あるいは時間、またはその
双方に関して限度のあるチャンネルを通して音声を伝達でき、発声の種類が伝達
でき、次いで受信側で言語に変換される。本発明はピッチに関係なく声道のパタ
ーンによって音を分類するので、ピッチによって変化する音声の強度スはクトル
に基いた従来技術より優れており、したがって効果的で実用的な言語認識システ
ムの実現を可能にするものと考えられている。
本発明は複数の声道反転フィルタを並列に使用する。このフィルタのバンクにお
ける各フィルタは、特定の音声に対応する、特定の声道転送機能に相反する複合
ツーオーリア(Fourier)転送機能を有する。(「音声」は典型的には1
0ミリ秒のような短い間隔では不変と考えられる一組の音素部分の中の1個を意
味する)。勿論、これらの音素部分はより長い時間にわたって不変でありうる。
以下に述べるように、時間と共に変る音素については前記音素部分を基準にして
1個づつ概括することにより対処される)。特に、本発明は個々の人の言葉にお
ける所定の音声の調音が1個以上の入力インパルスに応答して、発声時の個人の
声道の状態に応じて特定の線形フィルタの出方とじて概括しうるという理解に基
いている。したがって、本発明における各フィルタは、仮定による声道フィルタ
に対応するよう構成され、理想的にはフィルタの複合フォーリア転送機能が仮定
された声道音声フィルタの複合フォーリア転送機能と相反するよう構成される。
このように、検出すべき形式の非零の音声波形に対して本発明により構成された
完壁なフィルタの応答性は、音源の瞬間における単なるインパルスであって、音
源のない場合は零である。
声は全体的によく似ているので、特定の仮定した声道に対応するよう構成された
声道反転フィルタ分析器は仮定モデルに類似の声道特定を有する等級の音声に対
して作動する。しかしながら、本発明のある局面におけるように、チューニング
を使用し多数のフィルタバンクを設けることにより本発明を全ゆる人声に応用で
きるようにする。
本発明によって確認される言語要素は(典型的には10ミリ秒のような)短時間
の音素部分であることが認められる。前記言語要素は時間に伴って変化しない(
持続性のある)音素の場合においてのみ該音素に対応する。好適実施例において
は、持続性のある音素に対応するよう構成された反転フィルタのバンクはまた、
(正確に)時間と共に変化する(変移)音素と近密にマツチングできるものと想
定される。この想定は、言語が時間に対して不変の声道モデルのバンク内のモデ
ルを連続して活動化することによりモデル化される、発声の個々のモデルと対応
する。しかしながら、本発明は変移音素の測定基準に持続性ある音素の使用に限
定されるものと解釈すべきでない。声道反転フィルタが時間に対して不変の声道
モデルと正確に合致した場合、その出力が調音モデルの記憶されたインパルスに
対応する1個以上の一連のインパルスであるように仮定された。時間に対して不
変の声道モデルの各々に対して声道反転フィルタが設けられている。このように
、摩擦音波形である入力に応答して一連のインパルスを概括する出力を発生させ
るフィルタを周知のフィルタ構成方法を応用して構成することができる。同様に
、鼻音および母音に対するフィルタを容易に構成できる。また、破裂音、(個々
に概括することにより)二重母音、(ある場合には個々に概括することにより)
移行音、半母音、および(個々に概括することにより)破擦音に対して満足に使
える。
このように、前述の言語要素のシーケンスにより多種タイプの音素を検出し、表
示できる。
本発明によって採用されている言語の音声認識モデルは(各々のモデルが所定の
音声に対応する)インパルスにより作動し、時間と共に変化しない線形声道モデ
ル)のバンク中の各モデルを順次作動させることにより、言語が前記モデルから
発生する波形の総和であり、したがって連続した波形を表示する言語を再生する
モデルに関する。重複作用の原理により、直線声道モデルの波形での応答は数個
の入力イン/ξルスによる応答の総和に対応する。言語を合成させるこのモデル
に関しては、それを線形分析するための関連の方法がある。即ち、非零の入力に
応答する場合、特定のチャンネルからの出力はインパルスの間に概ね零の信号を
備えた一連の幅の狭いインーξルスである程度までは、前記チャンネルに対応す
る音声は入力に介在ずみであらねばならない。したがって、本発明によれば、フ
ィルタのバンクにおける各フィルタの入力側は言語の波形入力側に接続されてい
る。そうすれば、各フィルタの出力を検査して、どの出力が絶対値が最小か測定
することができる。一般的に、所定時間においてフィルタチャンネルが最小の出
力を有する場合、その時点でフィルタノルクの入力側に当該フィルタが検出すべ
き音声の波形が通常介在するようにフィルタを構成できる。
選定した音声が実際には入力側に介在する波形の音声であることを確認しやすく
するために、本発明の好適実施例は所定の短い時間にわたり、最大全体時間に対
しいづれのフィルタの出力が絶対値が最小であるか決定し、関連の音声が入力側
に介在する音声として特定される。典型的には、優勢な音声がピックアップされ
る時間は10ミリ秒近辺である。
さらに、本発明の好適実施例は基本的な音声のス投クトル機7
能をプレエンファシスし、低周波数に対して高周波数を増幅する装置を組込んで
いる。したがって、全体の音声スはクトルは基本的に平担化され、そのため分析
に対して特定の範囲が不当に影響を及ぼすことはない。プレエンファシスフィル
タ機能は各声道反転フィルタの一部であって、したがって反転フィルタバンクの
構成においてもそのように対処する必要のあることが理解される。また、調時さ
れた時間にわたり音声の入力信号を一定のピークレベルに保つために、自動レベ
ル制御装置が使用される。
本明細書に開示した、本発明による装置は音声入力のピッチ成分に対しては、概
ね無感応性を備えて機能する。この結果は、本発明が基準としているモデルの結
果を考察すれば明らかである。本発明は(各音声に対して異った線形システムを
使用しているにもかかわらず)所定のスピーチの音声の調音の間声道が線形シス
テムを形成するものと想定している。このように、音声は一連の入力インパルス
に対する線形システムの応答である。
次いで、モデルにしたがいピッチは本質的に、所定音声の調音の間声道に左右さ
れる仮定的な線形フィルタに対する入力である音源インパルスのパターンとして
理解できる。線形フィルタシステムはその反転性と組合せて、[オールパス(a
ll−pass)J特性を有するので、音源のインノξルスの同一パターンは声
道反転フィルタの出力側で回収され、前記フィルタの複合フォーリア変換性が仮
定の線形フィルタシステムに対して相反してマツチングされる。一方のチャンネ
ルの出力側における音源の狭幅のインパルスのパターンが前記インパルスの発生
周波数に無感応の装置により検出される。その結果、本発明により構成された装
置の出力は概ねピッチには左右されない。
本発明ではピッチに左右されず、多数の話者による音声の調音に対して全体的に
類似の装置を使用しているので、前述したように一人の話者に対する本発明は例
えば大人の男性のように広範囲な話者に対しても適用可能である。例えば女性や
子供のようなその他の種類の音声は大人の男性に対して測定したものに対して中
央の周波数が全体に比例するフォーマットを特徴とする。希望に応じて、これら
追加の種類の音声要素は、大人の男性用に構成したフィルタチャンネルと並列の
追加のフィルタチャンネルを含むことにより対応できる。このように、声道反転
フィルタチャンネルのバンクで表示される各発声要素に対して例えば4個のよう
な数個の追加の代替的チャンネルを含むことができる。典型的な声道の寸法の変
化に基く前述の付加的なチャンネルは一般的な人間の種々範囲の話者に対して言
語認識を可能とする手段を提供する。
図面の簡単な説明
第1図は、調音要素を区別するために使用した並列チャンネルと装置を示す、調
音要素を認識し分類するための本発明の好適実施例の概略線図;
第2図は調音要素を反転マツチングするために使用する、第1図に示すフィルタ
バンクにおけるフォルマント反転フィルタの典型的なカスケードゝの概略図;
第6図は第2図に示すフィルタのカスケード8において使用可能なフォルマント
反転フィルタの簡略化した実施例を示す図;第4α図は単一の音声フォルマント
の転送機能を表示する単一の共鳴装置に対する典型的な振幅と位相プロットを示
す図;第4b図はフォルマントの反共鳴フィルタの対応する振幅と位相プロット
を示し、フォルマントの共鳴と反共鳴要素とを組合せることによりオールパス特
性を提供することを示す図;第4C図は第1図に示す本発明による装置の好適実
施例により反共鳴フィルタ要素を構成する上で使用するパラメータを示し、漸近
的ゲインGが1であり、Cxrninが典型的には020Gであることを示す図
;
第5図は第2図に示す反共鳴反転要素のカスケードにおいて使用されるフォルマ
ット反転フィルタの実施例を示す図;第6図は第1図に示す本発明による装置の
好適実施例による絶対値回路として使用される全波整流器の概略図面;第7図は
第8図に示すコン・ξレータエレメントのバンクに対する一定電流源の概略図;
第8図は第1図に示す本発明の装置の好適実施例による几コンパレータエレメン
トのバンクの一要素の概略線図;第9図は、全て第1図に示す本発明の装置の好
適実施例による、狭幅の排出パルスに応答して積分器を放電する装置を含む(典
型的には10ミリ秒の)低周波数のクロック時間にわたり二層の入力信号の全体
作用時間を測定するために使用する積分器の概略図;
第10図は第1図に示す本発明の好適実施例により、積分された信号を幅の狭い
転送パルスに応答してキャパシタに転送しくその転送は積分器の放電作動の開始
前に完了)、記憶された信号の低インピーダンス表示を行う単純な標本および保
持回路の概略図;
第11A図から第11E図までは、第1図に示す最大コンパレータ22へのn個
の波形入力の中の1個を展開し、調時された調音時間にわたり特定の全体累積作
動時間を示す安定した信号レベルを提供するために第1図に示す最小コンパレー
タ18の急速応答二重出力が処理される様子を示す図;第12A図および第12
B図は、第1図に示す本発明の好適実施例において、1つ以上の音声に対して同
じフォルマットが適用される場合ある種のフォルマント反転フィルタを多数個使
用する状態を示す図である。
特定実施例についての説明
各図面を詳細に参照すれば、第1図には言語の調音要素を認識し、かつ分類する
本発明による装置の好適実施例の基本的要素の概略図が示されている。本装置は
、特定の対比しうる声道転送機能を瞬時に認識し、かつ選択する装置と、認識さ
れた転送機能を調時分類かつ選択する装置を含む。
音声を瞬間的に認識することは、集約して参照番号12(1・・・n)で指示す
る複数の声道反転フィルタのバンクにより達成される。声道反転フィルタバンク
は「ル」個の並列の反転フィルタチャンネルから構成でき、各チャンネルは少な
くとも1個の複合及共鳴要素を有するフィルタから構成されている。典型的には
反転フィルタバンク12は10個から100個のフィルタチャンネルから構成さ
れ、前記チャンネルの各々は共通の音声入力に接続されている。各声道反転フィ
ルタチャンネルは、11
所定の音声を話者が調音する場合声道の特定の共鳴状態を複合転送する機能と相
反する転送機能を有する。
各声道反転フィルタチャンネル12(1・・・n)の出力における信号は集約的
に参照番号16で指示し、かつ個別に参照番号160’)()=1・・n)で指
示する全波整流器のバンクの中の1個によりその絶対値を示す信号に瞬時に変換
される。各全波整流器160)、(ノート・n)は同じチャンネルノにおける同
じ番号の声道反転フィルタ120)に対応する。
特定の全波整流器の出力は、(n)個のチャンイ、ル180)(ノート・n)を
有する多数の最小入力電流スイッチコン・ξレータ18により実施される瞬時選
択装置により選択され、その選択はいづれの特定の反転フィルタチャンネルがい
づれがの瞬間における最小の出力振幅を有するかを指示する。コンパレータ18
は入力の音声に現われるにつれて仮定した特定の声道フィルタ機能の振動および
変移特性を最も抑制する反転フィルタを認識する。全てのコンパレータチャンネ
ル180’)(ノート・n)の出力は選択したチャンネルを除き電圧は零である
。選択されたチャンネルにおけるコンパレータ18の出力は零より大きい電圧で
ある。
調音時間に対応する特定の短時間(典型的には10ミリ秒)に対する主要なチャ
ンネルを決定するために、積分器チャンイ、ル200’)()’=1・・・n)
のバンクが設けられている。各積分チャンネル200)は調音時間にわたりコン
パレータ18の所定のチャンネルO)の出力を合算する。調音時間は低周波クロ
ック24により調時される。クロック24からの転送パルスは標本装置21の各
標本保持要素210’)(ノート・・、n)のパルス入力側に到来する。標本保
持要素210)の信号入力側は積分器200)の出力側に接続されている。この
出力が要素210)で記憶された直後、積分器の出力側200)はクロック24
かものリセットパルスにより零にリセットされる。次に、積分器は最小コン・ξ
レータ要素180)からの出力を集積する新しいサイクルな開始する。
一方引続き、最大値のコンパレータ22がいづれの標本保持要素210)が記憶
された最大電圧値を有するか決定する。実際には、最大値コンパレータ22から
の出力(7L)が調音時間にわたり最大の全体時間に対していづれの(n)チャ
ンネルが整流器16の出力側において最小の信号を有するか指示する。このよう
に、これらの出力はその決定が規則的な速度で行われることにおいて、同期調音
測定を含む。
選定されたチャンネルにおいて零以上で、その他の全てのチャンネルにおいては
零である出力電圧により最大値コンパレータ22から決定が指示される。低周波
数クロックの各時間(典型的には10ミリ秒)に対して新規な決定が行われる。
ル個のコン・ξレータ出力の他に、可聴入力において音のない場合応答する調音
チャンネル(n+1)が設けられている。このチャンネルへの入力は「制御」電
圧であって、それは通常自動レベル制御要素28の内部で使用されている。この
電圧は各クロックの時間(典型的には10ミリ秒持続)の範囲内で測定される言
葉の振動ピークに追従する。制御電圧が著しい言語音声レベルに対応するレベル
を上根ると「静寂識別」装置が「高3
い」出力を発生させる。通常この装置は自動レベル制御装置が信号増幅を低下し
始める振幅より丁度上位にセットされている。
また、静寂識別要素により発生する抑止信号により「静寂」状態が介在すると全
てその他の調音信号の発生を抑止するル個の抑止ゲート23が設けられている。
静寂識別出力を含む全ての調音出力からなるル+1個のチャンネルの出力が本発
明による調音測定を行う。
前記の測定を反映する出力は、元の調音声道共鳴パターン、即ち所定の言語の音
声あるいは静寂のパターンを選定したものとして前記出力を理解する装置に対す
る入力として使用できる。
積分器の代りにカウンタで代替しうろことを理解すべきである。
調時された時間を分類するプロセスは通常の言語における最高速の調音速度と対
比しうる速度であるべきで、その速度は典型的には100ヘルツ、即ちそれぞれ
10ミリ秒の間隔に対応することが認められている。
さらに、特定の調音フィルタの機能を正確に認識することを可能とするが、本発
明による調音認識および分類装置の精神と範囲を必ずしも限定するものと考えら
°れないが、言語波形の入力側ろOと、反転フィルタバ;/り12への入力側と
の間にプレエンファシス回路26と自動レベル制御回路28とが使用されている
。前述のように、プレエンファシス回路は低周波数に対してより高波周数を増幅
し、生の言語音声の波の種々の周波数成分を均一化するよう平均化する。平均言
語スRクトルの全体のバランスが得られ、これは声門音インパルスをデルタ関数
を示す狭幅のパルスに変換することにより調音の各種形態を区別しやすくし、そ
のため入力波形の転送機能が音源とは関係なく受動的声道の結果として現われよ
うとする。しかしながら、受動声道の周期的なインパルスの励振により重複作用
は存在し続ける。
最近の技術においてはプレニ/ファシス回路は言語処理への使用において周知の
ものである。プレエンファンスによる出力)ままだ通常のスピーチの波形特性と
似ており、そのような出力は高周波数が異常に強調されるものの、まだ人間の耳
には聞き分けられる。
プレエンファシス回路は2つの増幅段階を有し、各段階は微分回路として作用す
る。第1の微分は電気入力が入ってきたときに行われるが、この第1段は100
0ヘルツまでの低周波数の微分に限定され、この周波数以上の周波数の線形増幅
に戻る。
3000−Xルツ以上の周波数は微分する必要がなく、第2の微分回路はこの点
板上の周波数の線形増幅器となりうる。音声ス投りトルにわたり全ての周波数に
対して対比しうる平均的な強度が得られることは言語の正確な分類に対して重要
な機能である。
自動ゲイン調整はレベル制御回路28によって行われる。自動レベル制御回路2
8は入力スピーチを比較的一定のレベルに保つことにより、広範なグイナミンク
レンジと低ノイズの超精密認識および分類チャンネルの必要性を排除する。レベ
ル制御回路が入力波形に現われる変移および振動特性に干渉しないことが重要で
ある。自動レベル制御回路28は当該!!コ術分野で共通の特定の良質の制御要
素のいづれかでよい。自動レベル制l5
御回路28はピーク振幅を調整し、一方調音入力波形の変移特性を保つようされ
ている。作動時、レベル制御回路28は最高速の通常の調音速度に対応する、調
時された典型的には10ミリ秒の時間にわたり、その絶対−一りとより入力スピ
ーチ波形を分割することができる。したがって、入力波形のピークの絶対値は2
個のクロックパルスの間で測定され、全体のクロック時間の間増幅を決定するた
めに使用される。クロック時間に等しい可聴遅延がピーク測定作様に続き、かつ
信号増幅調整に先立って信号チャンネルに供給できる。したがって、スピーチ波
形の発声速度部分が本質的に一定のピークレベルに対して調整され、一方その特
徴のある変移特性が失われることはない。割り算器は、例えば絶対値回路および
キヤ・ξシタを放電しうる電界効果トオンジスタのような周知の要素と関連して
使用されるAD7513あるいはその均等物のような要素でよい。
第2図は、実際には参照番号40−46で指示するフォルマント反共鳴フィルタ
のカスケードゝである反転フィルタバンク12(1・・・n、)の中の1個の可
能な形態を示す。反転フィルタ12(1・・・rL)は、そのフォーリア変換が
1組の言語音声の調音において有効な声道の相反を概括するよう設計されている
ので実際には声道反転フィルタである。反転フィルタバンク12は自動レベル制
御回路28から言語入力を受取り、言語信号は反転フィルタチャンネル(1,・
・・n)の各々へ入る。各チャンネルはフォルマント反共鳴フィルタの特定の組
合せを有する。フォルマント反共鳴フィルタのカスケード8は、本質的には声道
の’4定の共鳴である特定のフォルマントの振幅と位相とに応答づる。
当該技術においては、認識に対して重要で、それぞれ明確な周波数範囲を有する
4個の主要なフォルマントが知られている。
したがって、フォルマントのパターンは調音共鳴のパターン認識に対する基準を
形成する。言語波により搬送される単一の共鳴は数個の異った反転フィルタに近
密に関係しているが、1個のフィルタのみが言語波の前記全ての振動要素に近密
にマツチングするよう正確に応答するので、音声の調音器官が新しく・音素表示
に向かって動くまでは音源のインパルスの間の出方は最小となる。このように、
各カスケードゝはフォーリア変換機能において、フォルマント共鳴の特定パター
ンに対して相反的に対応するよう構成されている。各チャンネルを4個までの、
あるいはそれ以上のフォルマント反共鳴フィルタで構成してよいが、必要なフィ
ルタの数はマツチングすべき共鳴のパターンによって決まる。
第6図は例えば40のような、単純な形式のフォルマント反共鳴フィルタを示し
、該フィルタはフィルタのカスケードゝを構成するために使用できる。レジスタ
72および74を使用した反転作動増幅器70は入力を受取り、フイービバック
ループ78のバント9パスフイルタ76と関連して作動する。この回路はバント
4パスフィルタ自体が増幅しようとする形式の音声に対する反共鳴回路をつくり
出す。一連の、4個まで、あるいはそれ以上の前記フォルマント反共鳴フィルタ
が、言語波で表示されるにつれて声道の特定の状態とマツチングするよう作動す
る。
第4α図は仮定音声共鳴の振幅および位相特性を示す。これ7
は単一共鳴回路の周知の転送特性に対応し、当該技術分野の専問家には言語フォ
ルマントの共鳴特性を合理的に概括するものと理解されている。
第4h図は音声の反共鳴フィルタ要素の振幅と位相特性を示し、第6図に示す如
き回路の転送特性て対応する。当該技術分野の専問家には2個のフィルタをカス
ケード化することによる優勢な周波数が2個の増幅応答の産物である振幅応答を
発生させ、位相応答は2個の位相応答の総和であることが周知である。
第4C図は当該技術分野の専問家によって、第4b図に示す特性を有し、かつ所
定組の言語調音要素に対応する反共鳴フィルタを構成するために使用される設計
パラメータを示す。
第1表は第2図に示す形態の20個のフィルタチャンイ、ルからなる1組に対す
るフィルタ特性についての、初期の最上モードの一覧表である。この中に含むよ
う選定した音素は、それらが発生した場合、先行あるいは後続の音素とは独立し
て通常の言語内で持続する音素である。対照的に、音素/e/は例えばSayに
含まれておらず、活されると/e/が通常二重母音/ε工l を形成する組合せ
である。 rsayJという言葉において/e/を確認するには/e/に対する
特定のチャンネルを有さない分析器は、/e/の周波数特性に最も近密にマツチ
ングする一連のフィルタチャンネルに応答するものと考えられる。二重母音に対
する分析器の出力は通常/ε工/ と読める。次に/ε工/ のシーケンスが、
/工/が後続するバ/は/e/と確認されるというルールに基いてシーケンス対
音素の辞典入口によりコンピュータプログラム・に変換されうる。音素対言葉の
8
辞書における次のサーチがシーケンス対音素工/をrsayj と(・う言葉と
して確認する。チャンネルの持続時間ならびに辞典と辞書双方を決定するカウン
タは本発明の一部を構成ILiLなし・力1、本発明の重要な局面は言葉や節を
確認するための発声測定出力を処理する上でのコンピュータ操作の簡便性と速度
とにあ私took /u/490 40 1100 60 2500 150
3600 210boot /u/ 350 30 900 60 2500
150 3600 210but /A/600 30 1200 60 25
00 150 3600 210her /a/450 30 1400 60
1700 150 3600 210発声された摩擦子音
yoice/v/350 90 1100 60 2200 150 3600
2101) 第1のフォノがント」岳&を’i、:Yイ上第3のフォルマント
第4の7オノはント注:フオルマント反共鳴フィルタはその中央周波数において
漸近ゲイyG=1.0、Gm1n=0.20を有する。
第5図は第6図と類似であって、前述のフォルマント反共鳴フィルタと同様に作
動する反共鳴フィルタ回路80の好適実施列を示す。741型の集積回路82と
その関連のレジスタ84゜86が入力波形が入ると増幅機能作用を行う。第2の
741集積回路88.その関連のレジスタ90,92.96 および関連のキャ
パシタ98,100が、特定の声道フォルマントとマツチングし、かつ波形及共
鳴機能を提供するよう集積回路82にフィートゝバックするフォルマント ノξ
ントゝ、ノミスフイルり機能を果す。集積回路88とその関連の要素とはマルチ
プルフィートノミントの構造上特定フォルマントの中央周波数と周波帯幅に応じ
て変わる。特定のフィルタの周波数と周波帯幅とはキャパシタ98と100を比
例的に同時に変えることにより変更できる。また反転フィルタ回路は可変の周波
数と周波帯幅を有するよう構成してもよい。レジスタとキャパシタとを予め選定
することにより各種フォルマントの周波数や周波帯幅を初期セットしたり変更す
るには、周知のバーブラウン(Burr Brown)ハンドブックを含む多(
のハンドブックを参照すればよい。
本発明によれば、反転フィルタの各カスケードは、言語信号が一連のデルタ機能
に近づく該当チャンネル上で明確な信号を発生させるよう、ある声道形状から発
生する言語信号と相反的にマツチングするよう組合わされて構成されている。全
てのフォルマント反転フィルタ回路80は、各々の回路のレジスタとキャパシタ
の値が特定組の発声共鳴に対して変化し低効率サイクル音源インパルスの間で最
小の出力を発生させることを除いては概ね類似している。第5図に示すフォルマ
ントフィルタは第2図に示すカスケードの中のほんの1個のフィルタであること
に注意すべきである。
以下の問題は本発明によって反転フィルタバンクを構成する上で考慮すべき領域
を述べる。
A.各フィルタの適正応答性を設定する方法各話者に対してフィルタの適正応答
性を設定するには数種類の過程が必要である。それらは、
1、言語音声ライブラリの選定
1
2 対応するインパルス応答の記録
3 声道転送機能の計算
4 声道反転フィルタの計算
5 反転フィルタの計画
1 言語音声ライブラリの選定
本発明に対する入力は連続した発声過程を個々に概括したモデルから出発する。
前記モデルの声道フィルタは例えば英語の持続性のある音素あるいは前記音素の
部分集合を表示するよう構成される。英語の持続性ある音声は(大略)母音(ハ
/。
摩擦音(/S/./I/.If/./+1/./h/)、発声される摩擦音C/
Z/./V/./6八ハ/)、および鼻音(/m八へn/,/D/)である7前
記の中あるものは、例えば/f/やハ/ および鼻音 /m/./n/,/n/
のように音響−発音レベルにおいて同じ音声として処理しうる。当該技術分野
においては、前記後者のグループ内に入る要素は、隣接する母音に対して、ある
いはそこからの発声上の変移を基準に区別しうる。
2 声道インパルス応答の記り
所定の人が発音する所定の音声の認識基準を設定する基本的な測定方法は声道イ
ンパルス応答で、次にフォーリア変換による声道転送機能である。声道インパル
ス応答は「人工喉頭」を使用することにより、あるいは音源インパルスを声道へ
導入するために声道へ挿入された変換器により所定の人間から確認できる。その
結果としての出力は唇からある距離をおいたマイクロフォンを介して記録できる
。前記方法の重要な要件は(声道がフィルタとして扱われる場合)フィルタ応答
に何らオーバラップがないようにするに十分イン・ξルス速度が遅(されること
であるっフィルタのインパルス応答を定義すれば単一の(理想的な)インパルス
に応答するその出力である。音源の多数のインパルスによりオーバラップが発生
すると、出力はインパルス応答を正確に表示していない。ピッチの低い話者の発
声音は極めてオーバラップの少ない一連のイン、aルス応答として現われるので
、それらは声道転送機能、次に反転フィルタバンクを得るため直接使用しうる。
プレイバックセグメントを選定するために、カーサを備えたデジタル記憶オ/ロ
スコープのような波形記録装置を声道インパルス応答ライブラリを収集するため
使用できる。
前述の方法は声門で励振した母音やその他の音声に特に適しているが、摩擦音の
場合は適用可能でないかもしれない。これらの場合、発行されたデータ、あるい
は出力を聴きかつそれを目標とする音声の記録と対比しながらパラメータを調整
し5る言語モデルの出力によればよい。勿論、この方法は反転フィルタバンクを
構成する上で使用するパラメータを確認する主要な方法として使用しうる。言語
処理技術の専門家であれば、言語合成に使用され、かつ特に「ターミナル アナ
ログ スピーチ合成装置」として周知の装置に使用されてきた前記方法を利甲し
うるであろう。
前述のことから、−人の話者が話す基本言語音声の選定した営業に対応する一組
のイン・ξルス応答が得られる。各音声のインパルス応答は最初は振幅の大きい
振動を有し、徐々に、数ミ23
9秒(10ρ)ら20ミリ秒)で基不的に零まで消滅する。声道イン・eルス応
答を測定する上での重要な配慮は、応答波形が単一の音源イン・ξルスによるこ
とである。近接する音源インパルスからの重複による何もがの影響が記録された
結果において誤差を生ぜしめる。
3 声道転送機能の計算
事実、言語音声のライブラリに対応する前述の組の声道インパルス応答はかなり
複雑な突発性があり、これは時間の関数として電圧により表示され、かつ実際に
は短い(20ミ1,1秒程度)、音声の突発(t=O) から始まり、全ての振
動が本質的に消滅する(t−1h)まで続く音声部分により概括しうる。インパ
ルス応答の組は、ブラウン管上に表示されるインパルス応答から撮った写真のよ
うなグラフ形態で存在するか、あるいはコンピュータ記憶装置に標本化され、か
つコートゝ化された形態で記憶できる。
声道転送機能は声道インパルス応答のフォーリア変換である。
ル番目の言語音声ライブラリに対応するル番目のインパルス応答がgn、(t)
により表わされるとすれば、対応する声道転換機能Gnσ)は下式で表わされる
。
Gn(j)−戸 gn(t)exp(2πjft)dtこれは周波数の複合関数
であって、Gnσ)−Anσ)+7’ByLσ)で書きかえてもよい。当該技術
分野の専問家には、音声共鳴器の特性により、G7Lσ)は有限であって、言語
が占める周波数範囲にわたり、非零であって、従い有限で、かつ言語の周波数範
囲にわたって複合反転性を有することが判る。
4 声道反転フィルタの計算
Gび)−A(7″)l’B(イ)の転送関数を有する所定の音素に対しては、声
道反転フィルタは前記関数の相反形である転送機能を有する。
即ち、
声道転送機能は言語処理技術の専問家によりインパルス応答から簡単に計算でき
る。声道転送機能は図形におけるプロットの対(実際と仮想)として、あるいは
コンピュータ記憶装置において標本、かつ復号したデータの複合アレイとして表
示することかできる。
5、反転フィルタの計画
ネットワーク合成およびフィルタ設計における専問家は前述の複合機能に近密に
対応してフィルタを容易に構成できる。好適実施例においては、反共鳴が声道の
転送機能における共鳴と対応した反共鳴フィルタのカスケードとして設計される
。したがって、実際の作動において、声道転送機能と反共鳴フィルタの特定カス
ケードの間にマツチングが行われ、その結果、1、周波数の平坦スペクトルが支
配的であり、29時間間隔における音源インパルスが支配的となる。フィルタの
カスケードにおける特定の要素は、対応する声道転送機能プロットから測定した
中央周波数と周波帯幅と反転マツチングするよう構成できる。
中央周波数と周波帯幅とが調整可能とされることを除いて声道の周知の特性にし
たがって装置が構成されることによって、5
所定の音声がフィルタの中央周波数と周波帯幅とを試行錯誤式の調整によりつく
り出せるようにする方法が可能である。前述の調整は記録された音素の連続的繰
返し、詳しくはある数の言語音声ライブラリに対する装置と関連して行われる。
合成された音声が記録された例と近似する場合、その・ξラメータ、特に種々共
鳴の周波数と周波帯幅とを測定、かつ書き留めることができる。前記測定目的に
使用する装置は、本質的に端子アナログ言語合成装置であって、その構造は当該
技術分野では周知である。
また、各種反転フィルタのパラメータは調整可能の反転フィルタのカスケードを
含む装置によって確認できる。この方法により、声道インパルス応答、あるいは
声道転送機能のいづれかを得る必要はなくなる。反共鳴の周波数と周波帯幅とは
入力音素がテープループあるいは波形レコーダにより連続的に繰返されている間
に調整される。その出力はオンロスコープにより観察でき、かつオンロスコープ
で観察される、出力の振動特性を最小にするため反共鳴が調整される。前記調整
は試行錯誤により行う、必要がある。前記調整の各々は、全ての振動要素が除去
され、音源の波形のみが残るようになるある組合せが見出されるまで続々と調整
されろ。
B、フィルタバンクの適゛正応答を設定する方法音響音素認識のために反転フィ
ルタバンクを構成する場合の重要な配慮は正規化の方法であって、それにより特
定へ・づれかの出力に対して何ら素地のないことが確実にされる。正規化方法は
本発明に対して入力を提供する調音モデルに対して、ロスレスフィルタの概念を
適用することに基いている。
1、 フィルタバンクの正規化
フィルタのバンクの適正応答を設定するために使用しうる理論的な方法は「ロス
レス・フィルタ」理論に基いている。厳密にいえば、この理論は入力エネルギと
等しい出力エネルギを有するフィルタに適用される。また、この理論はエネルギ
損失が一定の場合、即ち本発明のように全ての声道フィルタ内での損失が零と想
定しうる場合にも適用しうる。
音源イン・ξルスI (t)が狭い場合を検討する。
入力としてロスレスフィルタに適用されると、フィルタの応答R(t)は以下の
通りである。
第1のロスレスフィルタの相反であり、該フィルタとカスケード形態である第2
のロスレスフィルタの場合、工/l)に対するカスケードの応答■o(t)は音
源のインパルスI (t)が再生されるようなものである。即ち、Vo(t)−
R(t)’R(t)−I(t) ※ハ回旋を示しR1(t)は反転フィルタのイ
ン・々ルス応答である。
声道モデルはロスレスフィルタのバンクであって、反転フィルタバンクがロスレ
スフィルタから構成されているので、正確にマツチングされた反転フィルタの出
力における全体的な結果は元のエネルギを備えた音源インパルスを再生している
ことである。このように、このチャンネルにおいては再生したインパルスの間の
波形活動はほとんどない。ここで、実用的な認識装置が機能する状況によって、
唇からマイクロフォンまでの距離27
により音声の減衰と遅延があるが、これは全ての音声に対して一定であって、し
たがって、システムの作動を理解する上で重要でない。
反転フィルタバンクを構成する場合、ロスレスフィルタ理論に一致するよう注意
する必要がある。完全な反転フィルタ(フィルタのカスケードゝでもよい)の各
々の転送機能RN(f)はζRN(1)UN(7%f−一定 という特性を有す
る必要がある。
RN(7′)はRN(7′)の結合である。実際には、これは一定の「ホワイト
ノイズ」入力電圧に応答する一定の出力即ちRms電圧に対応する。各フィルタ
の出力においてゲイン調整が行われ、ホワイトノイズを入力側に供給することに
より最終調整が行われ、がつRmS電圧計において一定の出力に対してフィルタ
が調整される。
当該技術分野の専門家には、ロスレスフィルタ理論に基(前記手法を使用するこ
とによりフィルタバンクが正規化されることが理解される。したがって、このよ
うに確認されたフィルタは、そのために反転フィルタバンクを設けた全ての言語
音声に対して素地をもつことなく応答する。
2 正規化におけるスペクトル平坦化の役目特定の言語の音声に対する何らかの
素地を阻止するために、特にフィルタバンクの正規化において本発明によるモデ
ルを構築し、かつ使用する技術における専門家には反転フィルタとスにクトル平
坦化との関係を理解することが有用なので、本明細書ではスはクトル平坦化の問
題を含めている。
言語認識の技術分野における専門家には、多数の人々に対する平均的な言語スペ
クトルは平担ではな(、そのピークは言語スペクトルの低重近くにあることが理
解される。この周波数特注は唇における放射特注により若干緩和された、声門音
響源の特注によって生じるものと理解されるスペクトル平担化を行うことにより
言語の波があたかもインパルス源によって発生したように現われる。
プレエンファシスあるいはスペクトル平坦化機能は本質的には、各反転フィルタ
の一部であって、声門および摩擦音の音源の波形ならびに唇による音声エネルギ
の放射によるスペクトル作用を補正する。第1図に示すプレエンファシスのブロ
ック図は声門波形および組合わされた放射特注を変換するため反転フィルタを概
括する。声道反転フィルタは全ての反転フィルタチャンネルの前記共通要素を反
映しないようにされている。
スペクトル平坦化を適用すると、スペクトルの全ての部分振幅を音響音素の確認
の重要性と対応させようとする傾向がある。
また平担な長時間の平均的なスペクトルを声道反転フィルタのバンクの入力に概
括化させ、その結果、全体の正規化に対してフィルタチャンネルを調整および(
または)試験する、即ちフィルタバンクに対して平担なスペクトル(ホワイト)
ノイズを適用し、かつ必要に応じてゲインを調整し全てのチャンネルから同じR
MSを得るための実用的な手段を提供する。
3、実用的な実施方法
フィルタバンクの各々がロスレスフィルタであり、あるいは各々が一定のロスを
有するように構成されたフィルタパン9
りは、他の音声に対していづれの音声についても選好性の素地が最小にされてい
るという意味ですでに正規化されている。実際には、適度の正規化に対してフィ
ルタバンクの各要素を試験および(または)調整する手段を提供することが望ま
しい。
プレエンファシスまたは「スにクトル平担化」が作動することによって、声道反
転フィルタのバンクの入力に平担な長時間の平均スペクトルを概括化する。フィ
ルタバンクの正規化のための試験は全体のバンクにわたり(理想的な場合零にお
いて)ロスを均等化する試験と解してよい。ロスの均等化はプレエンファシスお
よび各フィルタ出力におけるRMS電圧の測定の後フィルタバンクにホワイトノ
イズを適用することにより試験できる。全てのRMS出力が等しい場合、フィル
タバンクは適度に正規化され、かつ素地な(、入力言語音声に応答する。
C1発声タイプのマツチング
発声の1タイプ」とは声道の種々の特注および音声情報形成における前記時1の
変化といえる。発声過程における2つの音響的に重要な要素は1)音響源と2)
音響源に作用する声道の形状である。また、発声の「タイプ」は言語方言、アク
セントを含む言語のタイプならびに例えば強調したり、ささやいたり等のより個
人的で、かつ表現上の言語の特性ともいえる。
1、調音モデル
「調音のタイプ」の規定は最も適切には音源の特性あるいはタイプといえるが、
調音の場所や、言語を調音することに関連する生理学的なその他の中味に関して
それ以上細く分割できる。
事項の応用は、音源の存在する調音のモデルと、言語の明確な音声の各々に関連
した声道フィルタに基いている。ある種の音声は調音動作の結果であるが、個々
の概括を経たモデル、即ち一連の適当な音素モデルを活性化することによって対
処される。
当該技術分野の専門家には調音器官を働かすことにより音素の知覚性が持続性の
ある音素からとった一連の短(接続されたセクメントによって模擬しうろことが
理解される。
2、音響の音源タイプ
はとんどの言語の調音に関係する音源は3つのタイプがある。
それは1)声門音2)摩擦音および3)破裂音である。声門音の音源は一連の略
周期的なインパルスを発生し、一方摩擦音は一連のランダムなインパルスを発生
させる。モデルの破裂音の音源は単一のインパルスを発生させる。本発明はピッ
チあるいは音源のパターンに関係なく、一連の声道フィルタを確認する方法であ
る。声門音源によりつくり出される音声の場合、本発明は所定の音声を、デルタ
機能を近似化する狭幅のインパルスである、音源インパルスを最もよ(再生する
反転フィルタチャンネルを選定することにより所定の声道形状によりつくり出さ
れるものとして検出する。好適実施例においては、前記検出は再生されたインパ
ルスの間の最小の波形活動を検出することにより行われる。最良の音源インパル
ス源ス生はそのインノぐロスのパターンに依るのではないため、本発明は種々タ
イプの音響の音源によっつ(り出される種々タイプの調音をマツチングさせるこ
とができる。
3、調音器官
本発明を理解すれば、音声の調音器官は種々の形状を伴って31
運動し、そのため音響源の1つから発生する音響信号に音声上の情報を付与する
ことが判る。摩擦音や破裂音の場合、同じものが音源および調音器官の双方とし
て作用しうる。発生は主として、舌、唇およびあごの運動を介して行われる。舌
は硬口蓋、歯肉の隆起および歯と共に音響空洞を形成する。怪は母音を宮を丸(
して発音する場合歯と共に、かつ歯に対して作用する。
下あごは、ある子音の調音の間上下に運動し、かつまた特徴のある母音の共鳴を
形成する1つの要素である。調音における別の要素は鼻音による子音の形成にお
いて軟口蓋により鼻の空洞を結合させたり離すことである。
本発明は声道の形状およびその変化によっつ(り出される種々タイプの調音をマ
ツチングさせることができる。本発明による声道反転フィルタは各々の明確な持
続性ある音素を直接マツチングできる。当該技術分野の専門家には、調音器官を
動かすことによっつ(り出される言語音声は接続性ある音素の一連の接続された
セグメントにより近密に概括化でき、したがって、反転フィルタのライブラリは
、着実で、かつ運動する調音器官により調音を近密にマツチングできる。
4、言語および方言
反転フィルタバンクは明確な持続性のある音素にマツチングするよう構成されて
〜・るので、特定の言語や方言に対して適正化されていることは勿論である。あ
る場合には、2種類の言語あるいは方言の発声要素が、その双方に対して1個の
みのフィルタバンクで要を足すに十分類似であるかもしれない。その他の場合に
は、特定の言語あるいは方言に対して適正化したフィルタバンクを構成すること
が望ましいかもしれない。
異る方言や言語が調音の1タイプ」と考えられるという観点から、それらは3種
類の方法の中の1つによりマツチングできる。即ち、1)別の言語あるいは方言
を概ねマツチングさせるため1つの言語または方言に適正化したフィルタバンク
を直接的に使用すること、2)別の言語あるいは方言に対して適当に作用するよ
う1つの言語に対して適正化されたフィルタバンクのフィルタエレメントを追加
および(または)代替することにより修正を行うこと、あるいは3)新規の言語
または方言に適正化された新規のフィルタバンクを構成することである。前記3
種類の方法の1つを使用することにより、本発明は異る言語や方言によってもた
らされる種々タイプの調音をマツチングできる。
5、異常形態および表現のタイプ
最も近代的な言語は基本的に同じ全体的な方法により調音されるが、欧州の言語
群内でさえも、調音過程での全体的な特質においてではないものの、ある種の際
立った差異がある。その差異は喉音音声、声門停止音および子音群を使用した場
合に発生する。本発明をこれらの形態に適用した場合何ら困難はない。
しかしながら世界のある地域の隔絶された人々によって使用される、口笛や、ト
ーンおよび擬音語のタイプがある。しかしながら、これらは言語として明確に分
類することは不可能なので、本明細書では調音の「タイプ」として扱わない。
人間はその音声のトーンにより広範囲の感情を表現することができ、かつその声
を種々の音響環境に適合させることができ3
る。これら表現タイプのあるものは1)強調したスピーチ、2)叫び3)がん高
い泣き声4)もぐもぐいうこと等である。はとんどの部分に対してはそれらは南
道内の各種の筋肉を緊張させることにより制御され、そのため声門の波形および
(または)調音の間の口腔の空洞の硬直性や精密性を変える。これら種々の表現
タイプをマツチングさせるため本発明の使用において採られる方法は 1)通常
の調音に本来の構成を合わせる2)種々の表現タイプからの例を用いて作動試験
する3)初期のセツティングにより確実に認識されない調音要素を網羅するため
フィルタチャンネルを修正、および(または)追加することである。1つの特定
の表現タイプに対する性能を最大にするニーズがあるとすれば、該タイプを基準
にフィルタバンクを構成することは可能である。したがって、本発明は感情なら
びに環境から出しる調音の各種タイプをマツチングさせることが可能なることが
判る。
ささやくような調音の場合も同じ基本的方法を採ることができる。もつとも、こ
の場合は通常の調音において声門の振動により励振される音声は声門の抑制部を
通過する空気により励振するが、空洞の配列は双方の場合同じであって、したが
(・調音された言語とささやかれた言語の双方に対して同じフィルタバンクで十
分である。ささやかれた言語に応答する本発明のフィルタバンクの出力は一連の
ランダムインノξルスである。回収されり狭幅の音源インパルスな除いて、最小
の波形活動を有する出力チャンネルは認識された調音種類を指示する。
D0人声タイプのマツチング
本発明は人の声のタイプを3種類の方法の中の1つによりマツチングできる。
1 ある場合には、ある人に対するフィルタバンクが他の人の声のタイプに対し
て十分機能する。
2 ある場合には、ある人の声のタイプに対するフィルタバンクを、他の人の声
のタイプにも十分機能するようフィルタを追加、代替あるいは並列に使用して修
正することができる。
3、ある場合には、著しく異常の声のタイプを網羅するよう全く新規のフィルタ
バンクを構成する必要がある。
人の声の種々のタイプをカバーするための付加的な方法があタバンクがいづれか
の周知の1つの声あるいは声のタイプに対して良好な性能を提供するように構成
された多数のフィルタバンクが提供される。
b、調整可能フィルタバンク認識により、例えば平均的な男性と女性との間に見
出されるように、声道寸法の差を補正するようフィルタバンクの全ての反共鳴性
が同時に調整可能である。
C1個々のパラメータによる方法により、反転フィルタバンクの全ての反共鳴註
に対して均等に、個々のフィルタが調整され、そのため当該活者に対して適度の
性能を達成するため個々の活者に対して)ξラメータが調整できる。
80人の調音スタイルのタイプのマツチング■、 ピッチおよびピッチ抑揚
調音スタイルのこれら要素は、前述した本発明による基本的35
なピツチ不感応性により対処される。
2、調音速度
本発明の調音速度に対して決定した速度は通常の最も速い調音速度に追従するに
十分速いものと想定される。したがって、調音認識装置は調音過程の十分詳細な
画を提供するので、入力とじての調音の全ての意味を抽出し、かつ認識するよう
より高レベルの処理を行うことができる。
3 強調と明確さ
強調された調音は相手に判ってもらうよう意識的な努力の結果として現われ、強
調されていない調音よりさらに明確であると考えられる。本発明は、強調された
、即ち明確な調音に対して構成しうろことは勿論であるが、それらは通常の調音
の変形とも感じられ、したがって通常の調音に対して構成されたシステムによっ
て多分認識可能である。
4、かすれた調音およびささやく調音
かすれた調音は通常の発声の変形と考えられるが、他方ささやかれた調音は、概
ね周期的な声門の音源の代りにノイズ状のランダムインパルス発生源に代替する
。本発明は音源インパルスのパターンに対しては不感応団として示してきたので
、ささやかれた調音に応答することは可能である。
一時第1図を参照すれば、全波整流器16は、その各チャンネルの声道反転フィ
ルタカスケードゝの出力側における修正された言語波形を一方向性の形態に変え
ている。第6図に示すように、第1図の全波整流器16は741型集積回路11
0と、その関連のレジスタ112.114およびダイオード1】6.118によ
り実施できる。全波整流器は、いづれがの瞬間に対してどの反転フィルタカスケ
−Vl 2(jl (j = I −n )が最小の絶対値出力を有するかをコ
ンパレータ18が決定しうるようにする信号を提供する。
(r])個のチャンネルを有する第1図(IC示す、マルチプル入カ電流スイツ
チコンパノータ18はいづれかの瞬間に対して最小の絶対値回路出力を選定、か
つ決定し、それ自体の出力信号によりチャンネルを指示する。いづれかの瞬間に
対して、唯一個の反転フィルタが零に近い最小出方を有し、そのため対応する1
個のコンパレータの出方が絶対値回路を介して可能とされる。
実際には、コンノミレータ18は単に、マルチゾル入力電流スイッチである。
コンパレータ18の目的は、n番目の反転フィルタ信号を表わすn番目のチャン
ネルから、最小の絶対値を有するものを連続的、かつ瞬間に選定することである
。n番目のコンパレータの出力側の信号はバイナリの形態であるが、瞬間作動の
ため狭いスパイクと、種々の長さのパルスを含む。瞬間性のコンノミレータは5
Hz程度の速度で切換えることが可能であるべきである。
参照番号124は番号18の一部であって、一定の電流源として作動するトラン
ジスタである。作動の詳細は第7図参照のこと。「ON」 状態におけるエミッ
タ電圧VBEへのベースは典型的にはシリコンPNP )ランジメタタイプ2N
3906用の一〇、8ボルトである。VBはデバイダレジスタR1およびR2に
よりV+よりさらにマイナスの2から3ボルトに選定される。
7
次に、エミッタの電圧■EはVE、、VB−VBE Kより与えられるので、R
3で展開した一定電流ICは次式から与えられる。
トランジスタタイプ2N3906 の高度のnfeKより、ベース電流1Bは負
荷電施工りよりはるかに小さく、したがってIL、ICは第8図における電流ス
イッチトランジスタ122の全体バンクに対する一定電流供給を行う。
さて第8図を参照すれば、第1図に示すコンノルータ18fjlカ示すれている
。コン/ぐレータエレメントのバンクにおける各トランジスタ122のエミッタ
は第7図に示す一定電流源トランジスタ】24に接続されている。また、電流ス
イッチトランジスタ122は「ON」 状態で、VBE=−0,8ボルトのタイ
プ2N3906 )ランジスタである。トランジスタ122への入力電圧■1の
1つは他のいづれ峡してよりも負であるためVE−騙(Vi ) + 0.8
V
または
mix (Vi ) −VE= −0,8ボルトである。
その地金てのトランジスタのエミッタ電圧に対するベースは下記によって得られ
る。
Vl−VE)−0,8ポル)、Vif騙(Vi)K対して。
これは、前記トランジスタにおいて電流を遮断する方向であり、したがって、全
体電流は一定なのでmm(Vi)を有するトランジスタにおいてさらに電流は増
える。入力としてM(vl)を有するトランジスタは一定電流源トランジスタ1
8により供給される電流のほとんどを導く傾向があり、その他のトランジスタは
その特注曲線の曲がりにより全体の一定電流Icの中のはるかに小さい比率を占
める。
入力として111111(VL)を有するものを除いて第8図に示す全てのトラ
ンジスタ122は遮断されるか、その方向に行く傾向がある。遮断されるトラン
ジスタはそのコレクタにおいて本質的KV−であり、これがNPN トランジス
タタイプ2N3904 である対応するエレメント1260ベースに供給される
。また前記トランジスタのエミッタ1(v−が現われ、VBEχ 0であって、
それらは接触しない。最も激しく導電しているトランジスタ122は対応するト
ランジスタ1260ベースによす少ない負の電圧を供給して該トランジスタを導
電し、前記一方のトランジスタのコレクタに負の電位差を提供する。トランジス
タ122の入力側に正のフィードバックが供給され、そのため作動ポイントがわ
づかに移動することを犠牲にしてより堅実な決定が行われる。本質的には、前記
線図におけるフィートゝバックレジスタはオーム値が太き((典型的には150
にΩ)、後続するレベル検出回路に著しい影響を与えない。また、オーム直の小
さいレジスタ(典型的には100Ω)のエレメント120は正のフィードバック
ネットワークの一部として使用され、全ゆる瞬間において最小入力の明瞭な決定
を保証するよう入力信号のバランスな極わづかに変える。
いづれかのエレメント126が非導電性のとき、タイプLM311、またはタイ
プM399の1/4でよい集積回路コンパレータ127の(−)入力側にレジス
タを介して電圧入力】32にお39
いて正の電圧が供給される。(−)入力に供給される正の電圧は、対応するエレ
メント126が非導電のとき(ト)入力に供給されろ基準電位差よりも大きい(
より正である)必要があり、その結果ニレメン目27からの出力は零となる。
エレメント126が導電しているとき、そのコレクタは負となり本質的には■−
までとなり、その結果、入力132から電圧の効果は零となり、負の電位差がエ
レメント127の(−)入力側へ送られ、その出力を完全に正とさせる。ダイオ
−)128は(−)入力側を過度に負の電圧から保護する。
第1図に示す積分器のバンク20は、その中の1個を第9図に示す(n1個のチ
ャンネルを有する。
第9図に示す各積分器エレメントは、対応する最小のコン、2レータエレメント
から出力を受取る入力側を有し、積分器エレメントは、フィードバックループ′
142にお号・ては、反転入力側て対して直列のレジスタ141とキャパシタ1
44を備えた、高インピーダンスの入力作動増幅器140を含む。この回路を言
クロックされた時間コンパレータチャンネルの作動を、全体時間の中のクロック
された時間の終りに指示する線形積分器である。積分器バンク20の各要素は、
電界効果トランジスタの入力で作動する増幅器タイプLF13741 (参照番
号140)であって、フィードバックループにおけるキヤノ々シタ(参照番号1
44)と、第1図に示すクロック24からのクロックリセットパルスに応答して
キャパシタを放電するようキャノξシタを横切ってAD7513の捧の二重アナ
ログスイッチから構成されるアナログスイッチとを備えている。反転入力は充電
レジスタに対して事実上アースとして現われるので、積分は線形である。集積出
力レベルは、入力パルスが常に正あるいは零であるのでエレメント1400反転
により掌に負となる。調音速度をクロックした時間の終りと、アナログスイッチ
146により積分器をリセットする前に、最大値コンパレータ22の入力側にお
ける積分レベルは第10図に示す標本保持回路((より第10図に示すキャノ々
シタ150へ転送される。前記キャ/々シタは次のクロックされた時間の間前記
レベルン保持する。先行する最小コンパレータ18のONの状態での積分値はク
ロック時間全体にわたりその全体値でキャノξシタ150において保持され、最
大値コンパレータが各調音時間に対して、最高即ち最大の積分信号を選定できる
ようにし、そのため1つのクロック時間における支配的な反転フィルタチャンネ
ルを確認し、次のクロック時間の間その結果を表示する。高入力インピーダンス
で作動する増幅器152はキャパシタを著しく放電することなく、該キャノξシ
タ150に記憶された電圧に対応する出力を発生させ、該出力は対応する最大値
コンパレータエレメントに接続されている。
キャノgシタ150にわたって通る電圧は、第1図に示すクロック24からの転
送パルスによりアナログスイッチ148が瞬間に閉鎖するとぎ新しい値が提供さ
れるまで変らない。
第11A図は最小値コン−3レータ18のエレメントの二層出力の典型である波
形を示す。前記波形は5KHz!であり、かつそれを土建る周波数で発生する。
aルスを有する。第11B図と第1.’I 0図とは、それぞれ転送パルスとリ
セットパルスとから構成され(典型的には1oOHzである)調音速度における
1
狭幅のクロックパルスである。これらは、クロック時間の間最小コンパレータの
チャンネルの全体作動時間の決定において、積分器20と共に使用される。第1
1D図は積分器2oの出力波形を示す。この積分器は前述の狭幅のリセットパル
スにより零にリセットされ、次に第11A図の波形を積分する。転送パルスの到
来時、積分レベル1、丁アナログ電流スイッチエレメント148を介して第10
図のキャパシタ150へ転送さaる。第10図に示す電圧フォロワ152はFE
T高入力インピーダンスタイプLF13741 であって、そのためキャパシタ
150の積分レベルは第11E図に示すように、次のクロック時間の間その出力
側で現われる。
上に示した波形分析は最小コンパレータチャン汗ルの作動時間を測定し、最大コ
ンパレータに入力を提供する方法を提供する。積分器をリセットすることによる
「不動時間」は、調音時間と比較して極短い時間内に転送リセットが完了する限
りは影響はほとんどない。即ち、最大および最小コンパレータに同一の回路を使
用できる。電圧フォロワ152の最大負の出力が最大コンノ′2レークの出力を
決定し、前述のように、最小コンパレータが絶対値エレメント16の出力の中最
小の正の値を得る。
コンパレータ回路は正および負の双方の範囲で作動しりるので、双方のコンパレ
ータに対して同一の回路を使用しうる。
コンパレータ18と22は声道に最も近密にマツチングする反転フィルタを選択
するため調音入力に応答して作動する。最小コンパレータ18は、全ゆる瞬間に
お0て最もよ(マツチングした反転フィルタを支配する、整流されたフィルり出
力に対して瞬時に応答する。最大コンパレータ22は調音速度で作動し、マツチ
ングした支配的な反転フィルタと応答し、そのため入力信号がその中から発生し
た仮定/声道を表わし、かつ確認する出力を提供する。
最小コンパレータの認識基準は1つである。該コンパレータは反転フィルタと減
衰チャンオ・ルの出力の中から最小の絶対値信号を有する1つのチャンネルを瞬
時に選択する必要がある。
フィルタバンクの出力側に供給される計算ずみウェイトの形態の正規化は、本発
明の基盤となっている言語認識モデルによるシステムC(おいては必要でない。
これが正しいということは以下簡単に示しうる。
単一の声道音源インパルスは該当時間1(t)および該当周波数I(f)として
表わすことができる。H(→により提供される言語発声モデルの声道フィルタと
、言語認識モデルのマツチングした反転フィルタHI(f)とが組み合わされて
オールノξスフィルタを形成する。したがって、
I (f) 、 H(fl 、 HI (fl = I (f)で反転フォーリ
ア変換はF”−’ CI(fll = i(t、)により提供さrる。
これは1(t)が理想的モデルにおいて元の振幅で再生されるという意味で正規
化を意味する。
実際の調音に基いて作動する実゛用システムにおいては、口からマイクロフォン
までの距離によって減衰を表わす常数Kが加えられ、認識装置の入口側に導入さ
れる増幅を含むことができる。また、唇からマイクロフォノまでの伝播時間のた
め、遅れrも生じる。その結果、再生されたイン・パルスはi’ftl=Ki4
3
(t−r) としてより正確に表わされる。n個の介ンネルの間で瞬間的に比較
を行うためには、Kとrとは全てのチャンネルに対して同じ効果を有し、したが
って反転フィルタの決定に影響を与えず、最小の瞬間的な絶対値を提供する。
最小コンパレ−タ18の作動は、最小の゛電圧レベルを有するチャンネルな、絶
対値回路16のn個の出方の中から瞬間的に選択するものとして観察できる。こ
れは、n個の反転フィルタリング・ルの中から最小の絶対瞬間信号レベルを有す
る1個のチャンネルを選定することに相等する。
最大コンパレータ22と標本保持回路21の作動は、調音を表示するに適した調
時時間内で最小コンパレータ18の積分器りの中から最大値のものを比較し、選
定し、かつ確認することを含む。より詳しくは、コンパレータ22はn個の積分
器信号の中から前記時間の終りに存在する最大のものを選択する。
ここに開示した調音言語認識装置はより高いレベルの処理に入力を提供するため
に使用する意図のものである。その出力は、調時されたセグメント内で波形活動
に関するカテゴリ別の決定の形態である。最大の決定回路要素22は、この波形
の活動のみに基き、時間外に行われたいづれの決定とも無関係に一連の前記の決
定を行う。前記決定とはそれらが調音・特ak確認するが、いづれかの隣接する
要素に及ぶいづれかの波形データあるいは決定情報を考慮に入れないという意味
で調音に関するものである。この種の性格の作業は本発明によるシステムの出力
側に供給しうるが、本発明の請求の範囲には含まれていない。
最大コンパレータの入力信号は、本質的に、第10図に示すキャパシタ150に
対する充電の形態で調音時間にわたって一定に保持され、前記充電は(これも第
10図に示し)狭幅の転送パルスによって作動するアナログスイッチ要素148
を介して更新され、そのため次の調音間隔を開始するよう積分器がリセットされ
る前に全体の積分器出力をキャパシタ15(1転送する。キャパシタ150を通
る電圧は電圧フォロワ152の出力側で低インピーダンス の形態で現われる。
転送パルスの間で全ての入力は着実であるので、コンパレータ22の出力は転送
パルスの間を除いて変化しない。従い、決定出力は後の転送や、より高位での処
理や認識における利用に対して十分な時間一定状態に留る。
本発明による決定回路は反転フィルタのバンクからいづれのフィルタが声道に対
して(反転という視点で)最もよくマツチングしているかを決定、かつ確認する
ためのもので、あって、そのような決定は調音を表示するに適当な時間について
行われる。
最良のマツチングは有効声道ならびにその反転フィルタがオールパスフィルタに
対応するので、音源インパルスが最良に再生されることを基準にして行われる。
関連の回路と共にコンパレータ18および22によって表示される2つのレベル
の決定は、音源インパルスの最良再生を概括する「時間優先(タイムドミナンス
)」法を含む。音源インパルスの最良再生は再生された狭幅のインパルスの間の
波形活動のないことt検出し、かつ再生されたインパルス自体の近傍での応答を
最小にすることにより示される。
前記決定方法は再生された音源インパルスの短い持続時間と5
高いピークを有効利用している。時間優先は、まづ瞬間的に比較を行い、したが
って全体的な強度と決定プロセスからの時間に半つ強度の変化の双方を排除する
ことにより確実にされる。
再生されたインパルスの近傍での決定は名目的には調音決定のみに貢献し、その
貢献は時間のみに対して比例するのであって、絶対値回路出力の直接的積分と最
小値決定回路への適用によって実施されるように強度と時間を合せた産物には比
例しない。
絶対値回路16、最小値コン−ξレータ18、積分器20および最大値コンパレ
ータ22を前述のように実施する他に、アナログ対デジタル変換およびデジタル
処理を利用した均等の方法がある。これら代替的方法の要素を以下の通り開示す
る。
アナログからデジタルへの変換は反転フィルタ12あるいは絶対値回路16の出
力側へ供給しうる。前者の場合、周知のデジタル法により絶対値がデジタル的に
取り出される。アナログからデジタルへの変換プロセスにおいては、周知のサン
プリング理論により指示されるように低パスのフィルタリングが適用される。そ
のため、アナログからデジタルへの変換プロセスはサンプリング速度の半分以下
に限定される。典型的には、5KHz以上の発声の周波数が抑制され、10 K
Hzのサンプリング速度を使用しうる。
各チャンネルに対して、1個のアナログからデジタルへの変換器モジュールを使
用でき、あるいは1個以上のチャンネルをデジタル形態に単一のA/Dモジュー
ルが変換するマルチプレキシングを使用してもよい。事実、全ての反転フィルタ
チャンネルをデジタル形態に変換するために単一の高速作動のA/D変換をマル
チプレキンングできる。残りの説明は各チャンネルに対して1個のA/DK基い
て行うが、マルチゾレキシングしたシステムとの均等物も考慮に入れるべきであ
る。
アナログ、あるいはデジタルのいづれかでの実行に必要な主要操作が2つある。
即ち(a)典型的には10KHz の速度での最小絶対値信号を有するチャンネ
ルを瞬間的に決定することとfb) 典型的には100Hzの速度で、発声を表
わす時間内で最小となることが最も頻繁なチャンネルを選定することである。
最小値チャンネルを瞬間的に決定することは、高速デジタル処理方法により実施
できる。(典型的には100ミリ秒である)サンプリング信号の1回の間隔の範
囲内で、全てのチャンネルのデジタル表示が最小の信号を見出すよう走査され、
そのチャンネルが確認され、かつ指定される。前記プロセスは各サンプリング間
隔に対して繰返され、そのため各サンプリング間隔に対して最小のチャンネルが
確認される。
前記のチャンネル確認データは、調音を表わす間隔、典型的には10ミリ秒(典
型的には100回のサンプリング間隔)内で最も頻繁に最小となるチャンネル選
定のための別のデジタル処理装置に対する入力として使用される。選定プロセス
は、各反転フィルタチャンネルに対して1個のカウンタのバンクとして理解され
、各チャンネルにおける最小チャンネル確認の全体数が(典型的には10ミリ秒
即ち100回のサンプリング間隔の)規定されたクロック間隔にわたって確認さ
れる。調音間隔の終りにおいて、1個のカウンタが最大カウン)V含み、そのた
め特定の調音カテゴリーを指定する。
47
第12A図、第12B図は反転フィルタのバンクを構成する上で全体コストと複
雑さを低減する方法を示す。言語音声のある対は共通のフォルマントを有し、か
つある場合には1個のフォルマント反転フィルタは双方のカスケードの一要素と
して作用しうる。第12A図においては、5個の独立したフィルタカスケードの
バンクが示されている。しかしながら、第12図においては、ある反転フィルタ
が等しい場合、即ちA=E=IおよびB=Fの場合に対する均等のバンクが示さ
れている。複雑さにおいである低減を行うには、可能なところであるフォルトマ
ントフィルタを多目的使用することである。
本発明は、音声ピッチの差による言語音声の多数の異った波形表示に対処でき、
かつ事実上音声ピッチと独立して作動しうるので、言語認識技術における著しい
進歩を考えられる。音声要素の連続した流れを認識する上で、前記要素のあるも
ののみが各フィルタチャンネルに関連する持続性ある音素であることが注目され
る。叙述されたモートゝがそれぞれ10ミリ秒間隔においていづれかの組の周波
数に対して、ある1個のフィルタチャンネルを選定するので、本発明は、シーケ
ンスのみならず選定したチャンネルの持続時間に関して、子音や母音の移行と関
連する特徴のある音声の姿勢を確認する感応性を備えている。
したがって、本発明による装置は実験的に決定されたチャンネルのシーケンスと
チャンネルの持続時間とを、持続性ある音素以外の言語音声の要素に関連づける
ピッチとは独立した変換論理を発生させるよう利用できる。本発明は言語認識周
波帯幅の圧縮およびそれらの応用に対して実用的システムの実現に貢献48 特
表昭59−501520 (15)するものと考えられる。
前述した実施例は以下の請求の範囲の精神と範囲とから逸脱することなく構成し
うる多数の潜在的実施例を単に例示するものと理解すべきである。
第3図
第5図
第6図
第8図
第9図
第11C図 種々11リセ、ト
第+2A図
Claims (1)
- 【特許請求の範囲】 1、一連の調音状態により、かつ概ね音声のピッチとは独立して言語の分類を行 う装置において、電子フィルタのバンクを含み、前記バンクにおいて、 各フィルタの入力側が分類すべき言語を表示する電子信号に接続するための共通 入力側に接続されており;各電子フィルタが声道の1つの調音状態の複合転送機 能の反転を概括する転送機能を有するように構成され、そのため前記フィルタへ の、特定の調音状態を表示する非零の信号の入力によって、前記フィルタから一 連の1個以上の音源インパルスを概括し、かつ前記インパルスの間の零出力を概 括する出力を発生させ; 1つのみの調音状態の介在を表示する言語信号に対してフィルタが応答するのに 十分短い時間である一連の持続時間にわたって音声イン7ぐルスを最良再生する フィルタを繰返し決定するコンル−タが設けられ、該コンノミレータは言語信号 入力に応答して最小の絶対値を有するフィルタを瞬間的に決定する装置を含み、 最小の絶対値出力を有するフィルタを瞬間的に決定する前記装置は増幅装置のバ ンクを含み;前記増幅装置(例えばトランジスタ)の各々は、(例えばベースの ような)入力要素と、(例えばエミッタのような)入力と出力に共通の要素と、 (例えばコレクタのような)出力要素とを含み、前記出力要素を通る電流は共通 の要素に関して入力要素の電圧の関数であり: バンク状とされた増幅装置の全ての共通要素は一定の電流源に接続され; 入力要素の各々は比較すべきフィルタチャンネルの出力信号に接続され; そのため出力要素が所定の増幅装置が導電しているか、したがって比較されつつ ある信号の最小のものtその入力要素で受取っているかを指示する信号を含むこ とを特徴とする言語の分類を行う装置。 2、請求の範囲第1項に記載の装置において、正のフィートゝバックを提供する よう各増幅装置と関連し、かつ接続された第2の増幅装置をさらに含む言語を分 類する装置。 3、請求の範囲第1項に記載の装置において、コンル−タが各入力の絶対値を決 定するよう該コンパレータへの各入力側と関連した整流回路をさらに含む言語を 分類する装置。 4、言語の一連の調音状態により、かつそのピンチとは概ね独立して言語を分類 する装置において、 電子フィルタのバンクと、最大の全体時間に対して最小の絶対値出力を有するフ ィルタを所定のクロック間隔にわたり繰返し決定する装置とを含み:前記電子フ ィルタのバンクが、各フィルタの入力が、分類すべき言語を表示する電気信号に 接続される共通入力に接続され; 各電子フィルタが声道の1つの調音状態の複合転送機能の反転を概括する転送機 能を有するよう構成され、そのため前記フィルタへの、特定の調音状態を表示す る非零の信号の入力が、前記フィルタからの、1個以上の一連の音源インパルス を概略し、かつ前記イン・tルスの間の零出力を概括する出力を発生さ51 せ; 1つのみの調音状態の介在を表示する言語信号にフィルタが応答するに十分短い 一連の持続時間にわたり音源インパルス火最良再生するフィルタを繰返し決定す るコンパレータが設けられ、前記コンノルータ1↓言語信号入方に応答する最小 の絶対値出力の有するフィルタを瞬間的に決定する装置を含み;前記フィルタを 繰返し決定する装置が;キャパシタのバンクと; チャンネルが作動可能のとき一定の充電電流を各キャパシタに供給し、そうでな い場合電流を零とする装置と;所定のクロック間隔の終りにおいて各キャパシタ を横切って電圧を一時的に記憶する装置と; 電圧が記憶された後各クロック間隔の終りにおいてキャパシタを放電する装置と ;および 各クロック間隔の終りにおいて最大の電圧を有するキャパシタを決定する装置と を含むことを特徴とする言語を分類する装置。 5、請求の範囲第5項に記載の装置において、クロック間隔が約10ミリ秒であ る言語を分類する装置。 6 請求の範囲第4項に記載の装置において、各クロック間隔の終りにおいて最 大の電圧を有するキャパシタを決定する装置が増幅装置のバンクを含み; 各増幅装置(例えばトランジスタ)が(例えばベースのような)入力要素と、( 例えばエミッタのような)入力と出力に対して共通の要素と、(例えばコレクタ のような)出力要素とを含み、前記出力要素を通る電流が共通要素に対して入力 要素への電圧の関数であり; バンク状の増幅装置の全ての共通要素が一定の電流源に接続されており; 各入力要素が比較すべき記憶された信号と接続されており;そのため、出力要素 はいづれの増幅装置が導電しているか、したがって比較されつつあるキャパシタ 電圧の最大のものをその入力要素において受取っているかを指示する信号を含む ことを特徴とする言語を分類する装置。 7、請求の範囲第1項または第4項に記載の装置において。 音声入力の介在を検出する装置と; 前記音声入力検出装置により何ら音声入力が検出されない場合全てのフィルタチ ャンネルの出方を使用禁止にする装置と;前記音声入力検出装置により何ら音声 入力が検出されないいづれの瞬間において出力信号を発生させる装置をさらに含 む言語を分類する装置。 8 請求の範囲第1項に記載の装置において、フィルタのバンクに入力を提供す る前に言語信号のレイルを自動的に制御する装置をさらに含む言語を分類する装 置。 9、請求の範囲第1項に記載の装置において、各フィルタが少な(とも1個の7 オルマント反共鳴フィルタのカスケードを含む言語を分類する装置。 10、請求の範囲第1項に記載の装置において、電子フィルタのバンクが、フォ ルマント反共鳴フィルタと、所定カテゴリの活者の声道特注に一致するよう同じ 比率で前記フォルマント反3 共鳴フィルタの全てのフォルマント周波数と周波帯幅とを同時に調整する装置と を含む言語を分類する装置。 11、MP?、の範囲第9項に記載の装置において、フィルタバンクの1個以上 のフィルタチャンネルに関連して所定の7オルマント反共鳴フィルタが使用され る言語を分類する装置。 12、特許請求の範囲第4項に記載の装置において、最小の絶対値の出力を有す るフィルタを瞬間的に決定する装置が増幅装置のバンクを含み; (トランジスタのような)各増幅装置が(例えばベースのような)入力要素と、 (例えばエミッタのような)入力と出力に共通の要素と、(例えばコレクタのよ うな)出力要素とを含み、前記出力要素を通る電流が共通要素に関して入力要素 の電圧の関数であり; バンク状の増幅装置の全ての共通要素が一定の電流源に接続され: 各入力要素が比較すべきフィルタチャンネルの出力信号に接続され、 そのため出力要素が、所定の増幅装置が導電しており、したがって比較されつつ ある信号の最小のものをその入力要素において受取っているかを指示する信号を 含む言語を分類する装置。 工3 請求の範囲第12項に記載の装置にお(・て、各クロック間隔の終りにお いて最大の電圧を有するキャノξシタを決定する装置が増幅装置のバンクを含み 、 (例えばトランジスタのような)各増幅装置が(ベースのような)入力要素と、 (例えばエミッタのような)入力と出力に共通の要素と、(例えばコレクタのよ うな)出力要素とを含み、前記出力要素を通る電流が共通要素に関して入力要素 の電圧の関数であり; バンク状の増幅装置の全ての共通の要素が一定の電流源に接続されており; 各入力要素が比較すべき記憶された信号に接続され;そのため、出力要素は所定 の増幅装置が導電しており、したがってその入力要素において比較されつつある キャパシタの電圧の最大のものを受取っているかを指示する信号を含む言語を分 類する装置。 14、請求の範囲第13項に記載の装置において、コンパレータが各入力の絶対 値を測定するようコンパレータへの各入力側と関連した整流器回路をさらに含む 言語を分類する装置。 15 請求の範囲第14項に記載の装置において、正のフィードバンクを提供す るよう各増幅装置に関連し、かつ接続された第2の増幅装置をさらに含む言語を 分類する装置。 16、請求の範囲第15項に記載の装置において、音声入力の介在を検出する装 置と; 前記音声入力検出装置により何ら音声入力が検出されないいづれの瞬間において も出力信号を発生させる装置とをさらに含む言語を分類する装置。 17、請求の範囲第16項に記載の装置において、フィルタのバンクへの入力の 前に言語信号のレベルを自動制御する装置をさらに含む言語を分類する装置。 18、請求の範囲第17項に記載の装置において、クロック間55 隔が約10ミリ秒である言語を分類する装置。 19 言語の一連の調音状態に応じて、かつそのピッチに実質的に独立して言語 を分類する装置において、各フィルタの入力が分類すべき言語を表示する電気信 号に接続される共通入力側に接続され; 各電子フィルタが声道の1つの調音状態の複合転送機能の反転を概括する転送機 能を有することによって、前記フィルタへの、特定の調音状態を表示する非零の 入力が、前記フィルタから一連の1個以上の音源インパルスを概括し、かつ前記 インパルス間の零出力を概括する出力を発生させる電子フィルタのバンクと; 1つのみの調音状態の介在を表示する言語信号にフィルタが応答するに十分短い 一連の持続時間にわたり音源イン、(ルスを最良に再生するフィルタを繰返し決 定し、言語信号入力に応答して最小の絶対値出力を有するフィルタケ瞬間的に決 定する装置を含むコンパレータと; 所定のクロック間隔にわたり、最大の全体時間に対して最小の絶対値出力を有す るフィルタを繰返し決定する装置とを含むことを特徴とする言語を分類する装置 。 2、特許請求の範囲第19項に記載の装置において、クロック間隔が約10ミリ 秒である言語を分類する装置。 21、言語の一連の調音状態により、そのピッチと概ね独立して言語を分類する 装置において、 各フィルタの入力が分類すべき言語を表示する電気信号へ接続する共通入力側に 接続され、各電子フィルタが声道の1つの調音状態の複合転送機能の反転を概括 するよう構成されており、そのため前記フィルタへの、規定の調音状態を表示す る非零の信号の入力が、前記フィルタからの、一連の1個以上の音源インパルス を概括し、前記インパルスの間の零出力を概括する出力を発生させる電子フィル タのバンクと;1つのみの調音状態の介在を表わす言語信号に前記フィルタが応 答するようにするに十分短い一連の持続時間にわたって音源インパルスを最良に 再生するフィルタを繰返し決定するコンパレータとを含むことを特徴とする言語 を分類する装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US1982/001057 WO1984000634A1 (en) | 1982-08-04 | 1982-08-04 | Apparatus and method for articulatory speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59501520A true JPS59501520A (ja) | 1984-08-23 |
JPH0475520B2 JPH0475520B2 (ja) | 1992-12-01 |
Family
ID=22168125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57502755A Granted JPS59501520A (ja) | 1982-08-04 | 1982-08-04 | 調音音声認識のための装置 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP0114814B1 (ja) |
JP (1) | JPS59501520A (ja) |
AT (1) | ATE41544T1 (ja) |
DE (1) | DE3279549D1 (ja) |
WO (1) | WO1984000634A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
WO2013188562A2 (en) * | 2012-06-12 | 2013-12-19 | Audience, Inc. | Bandwidth extension via constrained synthesis |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
WO2016123560A1 (en) | 2015-01-30 | 2016-08-04 | Knowles Electronics, Llc | Contextual switching of microphones |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS52127008A (en) * | 1976-04-16 | 1977-10-25 | Hitachi Ltd | Voice recognition device |
JPS58105294A (ja) * | 1981-12-18 | 1983-06-23 | 飯島 泰蔵 | 信号波形認識方式 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3155840A (en) * | 1960-09-23 | 1964-11-03 | Burroughs Corp | Signal comparison device utilizing transistors |
US3456127A (en) * | 1965-06-18 | 1969-07-15 | Sylvania Electric Prod | Amplitude comparator |
US3610831A (en) * | 1969-05-26 | 1971-10-05 | Listening Inc | Speech recognition apparatus |
FR2114484A5 (ja) * | 1971-11-09 | 1972-06-30 | Camion Jean | |
US3870817A (en) * | 1971-12-20 | 1975-03-11 | Meguer V Kalfaian | Phonetic sound recognizer for all voices |
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
FR2294505A1 (fr) * | 1974-12-13 | 1976-07-09 | Gueguen Claude | Dispositif de reconnaissance phonemique dans la parole continue |
US3919481A (en) * | 1975-01-03 | 1975-11-11 | Meguer V Kalfaian | Phonetic sound recognizer |
JPS5710199A (en) * | 1980-06-21 | 1982-01-19 | Tokyo Shibaura Electric Co | Voice information extractor |
-
1982
- 1982-08-04 JP JP57502755A patent/JPS59501520A/ja active Granted
- 1982-08-04 DE DE8282902772T patent/DE3279549D1/de not_active Expired
- 1982-08-04 AT AT82902772T patent/ATE41544T1/de not_active IP Right Cessation
- 1982-08-04 WO PCT/US1982/001057 patent/WO1984000634A1/en active IP Right Grant
- 1982-08-04 EP EP82902772A patent/EP0114814B1/en not_active Expired
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS52127008A (en) * | 1976-04-16 | 1977-10-25 | Hitachi Ltd | Voice recognition device |
JPS58105294A (ja) * | 1981-12-18 | 1983-06-23 | 飯島 泰蔵 | 信号波形認識方式 |
Also Published As
Publication number | Publication date |
---|---|
DE3279549D1 (en) | 1989-04-20 |
EP0114814A4 (en) | 1985-06-26 |
WO1984000634A1 (en) | 1984-02-16 |
EP0114814B1 (en) | 1989-03-15 |
EP0114814A1 (en) | 1984-08-08 |
ATE41544T1 (de) | 1989-04-15 |
JPH0475520B2 (ja) | 1992-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4343969A (en) | Apparatus and method for articulatory speech recognition | |
US5729694A (en) | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves | |
Syrdal et al. | Applied speech technology | |
Keller | The analysis of voice quality in speech processing | |
Holambe et al. | Advances in non-linear modeling for speech processing | |
JP3701671B2 (ja) | 冗長性の減少された試験信号を使用する通信装置の試験方法および装置 | |
Rahman et al. | Amplitude variation of bone-conducted speech compared with air-conducted speech | |
JPS59501520A (ja) | 調音音声認識のための装置 | |
US5890104A (en) | Method and apparatus for testing telecommunications equipment using a reduced redundancy test signal | |
Hawkins | Arguments for a nonsegmental view of speech perception | |
Nandwana et al. | A new front-end for classification of non-speech sounds: a study on human whistle | |
Holmberg et al. | Individual variation in measures of voice | |
JPH05307395A (ja) | 音声合成装置 | |
Greenberg et al. | The analysis and representation of speech | |
Kelbesa | An Intelligent Text Independent Speaker Identification using VQ-GMM model based Multiple Classifier System | |
WO2015019835A1 (ja) | 電気式人工喉頭装置 | |
Gable | Speaker verification using acoustic and glottal electromagnetic micropower sensor (GEMS) data | |
Inbanila et al. | Investigation of Speech Synthesis, Speech Processing Techniques and Challenges for Enhancements | |
Deshpande et al. | Ingressiveness on Glottal Closure Instants: An Empirical Study | |
Rouf et al. | Madurese Speech Synthesis using HMM | |
AU552816B2 (en) | Apparatus and method for articulatory speech recognition | |
KR100322704B1 (ko) | 음성신호의지속시간변경방법 | |
Iliev | Emotion Recognition Using Glottal and Prosodic Features | |
Sharma et al. | Effect of Voice Part on the Quality of Children Speech in Dogri Language | |
Moriarty | The Acoustics of Emotion: Creation and Characterization of an Emotional Speech Database |