JPS5926799A - 音声分析装置及びその操作方法 - Google Patents

音声分析装置及びその操作方法

Info

Publication number
JPS5926799A
JPS5926799A JP58083472A JP8347283A JPS5926799A JP S5926799 A JPS5926799 A JP S5926799A JP 58083472 A JP58083472 A JP 58083472A JP 8347283 A JP8347283 A JP 8347283A JP S5926799 A JPS5926799 A JP S5926799A
Authority
JP
Japan
Prior art keywords
operator
signal
input
analog
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58083472A
Other languages
English (en)
Inventor
ジ−ン・アラン・フランツ
ポ−ル・シドニ−・ブリ−ドラブ
バ−バラ・ジエイ・トンプソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPS5926799A publication Critical patent/JPS5926799A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は一般に分析回路に関し、さらに詳しくは、積を
求めるM1算が必要な分析回路に関する。
技術の世界における開発が進み、人間と機械とのインタ
ーフェースの数が増えるのに従い、音声に」、る入力又
は音声分析の必要性は重要課題になっている。人間であ
る操作者が機械に働きか1ノる手段が不充分eあったり
欠Cノでいる場合には、技術的に訓練されIJ操作者が
技術を発展させる上での妨げとなりあまり熟Fsli 
することかできず慣れることができない。
本当に親しみや゛りくする為には人間と機械の間のイン
ターフェースには人間から与えられる音声命令を分析で
きる能力を機械側が備える必要がある。この分析によっ
て話し手の認識又は命令の内容の認識のいずれかに使用
される指標が作り出される。
音声応答システムの例は「バイト」の1981年2月号
第36−43頁に掲載されるジェームス、C,アンダー
ソンによる論文[非常に低コストな]ンビュータ音声応
答システム」に説明されている。しかしアンダーソンに
よる研究方法は8にバイトのメモリ内に記憶される16
単語に開型が限られている。このように詔悄に制限があ
ると装置はあらゆる応用に対応できる語菓のレバー1−
リ−を持つことができなくなるのでこのことは非常に重
大である。
音声の分析どいつしよに行われる伯の研究方法は、音声
の発声と関連するピッチの分析である。
ジョゼフ マクシムは、IEEEトランスアクションオ
ンオーディオエレクトロニクス1973年6月AU−2
1巻3号に掲載される彼の論文[音声波形の適応予測に
よるリアルタイムのピッチ抽出」に83いて非定常エラ
ー処理によるピッチ周期抽出の可能性を示している。マ
クシムの方法で示されている計粋では、ピッチが適当に
抽出されるまでに多数の加算及び乗算を必要とする。乗
算及び加算の数が増加するにつれ計粋に必要な時間も急
激に増加することは明白である。
音声分析に対する他の研究方法は、ジエームL・フラナ
ガンによって米国音響学会年報1956年1月第28巻
の110−118頁に掲載される彼の論文「連続する音
声からのポルマント周波数の自動抽出」において説明さ
れている。
この方法では音声から最初の3つの小ルマントを抽出す
る。時間との関数であるこれらの小ルマン1への振幅は
、話し手である操作者に対する分析の基礎として動く。
ホルマン1〜周波数は話し手の識別を示づには有効であ
るが話した命令の内容を認識づる上では役にたたず不適
当である。
音声合成又は分析に関り−る方法で最も認められている
ものは、線形予測符号化法(LPG)と呼ばれている。
L P C1,L、音声の合成の為に、ラティス(はし
ご状に回路を構成する)又は等価フィルタを利用してい
る。同様の形式でLPCによる分析では、分析データの
泪算には逆ラティスフィルタを利用する。分析にL P
 Cを応用する研究を示す論文は米国音1i11学会年
報50巻5号第2部637−655頁に掲載されるB、
S、アタル及びスザンメ バーノー−によって論文「音
声波形の線形予測による音声分析及び合成1において書
かれている。アタルの論文では時間と共に変化するパラ
メータによって音声波形を符号化する方法が示されてい
る。アタルの論文で示されている線形予?Il!l符号
化法は、合計及び積をだす為に多数の演算操作を必要と
する。この4絆には、非常に大量な時間を要するので装
置のオペレーションをひどく遅らせることになる。
発声された音声を分析する為の有効な方法が存在しない
ことは前述から明らかである。構造的な制約によって従
来の技術は最終的な指標の絹が作られるまでに長い乗算
及び加締を行わなくてはならない。このようなデータ処
理の有効性における問題が分析の多方向に応用する土で
の妨げとなった。
本発明では、アナログ信号は電気信号に翻訳される。こ
の信号はもとの電気信号の対数関数である一連のデジタ
ルデータに翻訳される。一連のデジタルデータが選択的
に合J1される。合計はアナログ等lll1i値に変換
され、選択的に累算される。累算の結果は、もどのアナ
ログ信号を示すデジタルデータとして伝達される。
本発明の実施例は、単−又は2つの半導体チップに容易
に実装される。本発明は、一般に、アナログで発声され
た音声を受けとってそれを示づデータを作っている。こ
の音声を示すデータは少くどし一部の(1r1を乗G中
1−ることによって抽出される。
本発明IJ、このような積を求める為に必要な時間を対
数アナログ/デジタル変換(IOgA/D)装置を使用
して最小にしている。同様にしてアブログ信号はデジタ
ル信号に変換されるのでこれは、対数等価値に翻訳され
る。このような形式では対数等1+tli値は容易に他
の対数デジタル信号に加紳されるので1m甲な加締を行
うことによって有効な乗081篩を行うことができる。
Ohlされた対数信、7号はそれぞれ各自を示す線形等
価値に翻訳される。
線形等価値は、累算されるか又は、これと同様の処理が
行われ分析データが発生される。
好ましい実施例において、アナログ信号は、マイクロボ
ン又はこの他の同様の手段を用いて収集されアナログ信
号からアナログ的な電気信号に変換される。自動利得制
御回路がある限界内にアナログ信号を維持している。こ
の信号はローパスフィルタを通ってから対数A/D変換
器によってデジタル変換される前にプレエンファシス回
路(pre−emphasis circuit)を通
過する。選択されたデジタル対数値の間の合計がだされ
、この合計はそれぞれ線形等価値に変換される。累綽器
は、このような線形等価値を次々と合計してゆき、これ
によって自己相関の項が作りだされる。従来技術でよく
知られるル0−・グーゲン (l eroux−G ueguen)等式が好ましく
は用いられ自己相関項は、反射係数に翻訳される。反射
係数は次の工程で使用する為に符号化されフォーマラミ
ー化される。ルロー・グーゲン等式は、システムE、N
、S、T、の論理のrjl究に記載されるジエイ・ルロ
ー及びシー・グーゲンによる[線形予測法にお(プる部
分相関係数の固定の点にお拳プる計算」と表題のついた
論文に完全に説明されている。
本発明は本発明の実施例及びその様々な応用例を示す以
下の説明によって説明される。
発明の概要 一般にアナログ又は発声された音声の認識には発声され
た信号を電気信号に翻訳することを要する。これは、マ
イクロホン又はこれと同様の信号受1ノ入れ装置を使っ
て行われる。この電気信号は、処理され後で使用できる
ように適当なフォーマツI〜にあてはめられる。フォー
マツ1〜化された信号は分析され、そこから適当なデー
タが作りだされる。この分析データはもとのアナログ入
力でいずれの511又は旬が話されたかを決定又は認識
する為に使用される。九乞識された詔又は旬はこの詔ま
たは旬と関連する識別の為の指標を有していて、これら
は、記憶しておく為、後で参照する為又は、装置を制御
する為に使用される。
これに関連してオペレーションの選択又は変更は指標を
操作者に伝達する工程と同じ位簡単であって又は、何か
他の電気装置を制御するのと同じ程度の難易度の工程を
必要とづる。
ここで使用される小児出しこれを読む人がわかりやすい
ようにつけたものであって本発明の限定や拘束を目的ど
するものではない。一般に各々の小見出しの中で示した
内容は他の小見出しの内容にも容易に利用できる。
フォーマット化 マイクロホン又は他の同様な受【プ入れ手段からの電気
信号は処理が行われて整流されるか、乗算が行われるか
又は分析に適当な形式になるように変換される。この電
気信号のフォーマット化がオペレーション全体のスピー
ドをかなり向−1させる。
回路を減らすことができるので信号の整流処理は特に重
要である。整流処理の好ましい実施例では、入力されて
くる信号は複数の容量素子に転送される。接地と接続す
る検知手段か容量素子のノードを導通可能にする為スイ
ッチを入れる。容量素子は、入力してくる信号を整流す
る。
選択的に、直列に(故に信号は乗算が行われる)又は並
列に(信号は割算が行われる)容量素子を接続するとと
によって同じ回路の乗算の形式が変わる。このスイッチ
操作によって信号は、2つの境界値の間に保たれ、信号
操作を容易にしている。
上記回路は、金属酸化物シリコン(MOS)装。
置のような半導体装置の上に容易に形成することができ
る。
分析: 好ましい分析操作では、フォーマット化された電気信号
は、自動利得制御I(AGC)の中を通ってからローパ
スフィルタを通過づる。これに関連してこの操作には5
00ヘルツのローパスフィルタが適当であることがわか
っている。自動利得制御211fffi(八GC)は、
マイクロホンから入力されるアナログ13号とのインタ
ーフェース回路之して使用される。八GCは、ローパス
フィルタ及びその他その後に接続される構成部を駆動す
る為に充分な振幅を持つより高い又はより低い値に安定
したピークを持つ出力レベルを提供する。
これに関連して全電圧の80%より小さく、全電圧の4
0%より大きいピーク信号レベルを持つA G Cは、
充分な結果を得ることができることがわかっている。更
に、利得の減少が全体で54デシベル(dB)であって
全体の利得が80dBより増加づる場合も好ましい。
ローパスフィルタは、信号の高周波数成分をロールオフ
する為に使用される。フィルタでは好ましくは信号を非
エイリアシングで扱うので゛信号の高周波数成分が好ま
しくは8 K l−I Zであるシステムの1ナンプル
レートを越え妨害となる信号を発生することはなくなる
。好ましくは切りすて周波数は3.4Kl−17である
ローパスフィルタから送られている信号は、プレエンフ
ァシス回路に伝達されこれは音声に含まれる声門の波形
及び唇からの111 射をとり除くのに役立っている。
音声の声門波形及び唇からの放射成分は、線形予測符号
化(LPC)分析を使用する時に声道の概算をだす上で
かなりじゃまになることがわかっている。−これに関連
して、式5(n)−US’(n−1)で示すプレエンフ
ァシス変換がわかっている。ここでS(’II)は時間
Nに於1ノる(Jンブルで好ましくは0.9.1.0が
適当に実行する。
この等式は好ましくは、アナログの1ナンプルデータの
区域で実行される。
LPC分析にお(〕る自己相関項の計粋には、多数の乗
算及び加算を行う必要がある。このようなh1締に要す
る時間を短縮する為に対数関数アナログからデジタルへ
の変換器(loqA/D)が利用されている。この対数
A/D変換器はプレエンファシス回路からくる、アナロ
グ信号をそれに対応づる対数デジタル等価値に変換する
。これによって一連の対数デジタル等価値を選択的に他
の対数デジタル等価値に加え有効に「対数乗算処理」を
行うことができる。対数乗粋の積はこの後で線形的等価
値に変形され、選択的に他の線形的等価値と累算される
。このような形式でデジタル値においては、加算オペレ
ーションのみが必要となるので乗算オペレーションの必
要性はまったくなくなる。このように乗算オペレーショ
ンを省くことによって処理工程全体はかなり速度が向上
し、リアルタイムでのオペレーションが可能となる。
積を選択的に累韓スることによって自己相関の項が作ら
れる。これは、ルロー・グーゲンの等式の中で使われL
 P G合成装置内で使用される反射係数が引算される
。反射係数はフォーマツミル化され適当に符号化されて
から後でひきだすためにメ七り内に記憶される。
反射係数は認識及び/又は合成の為には特によく適して
いることは重要であり覚えておかなくてはならない。反
射係数は既に合成に適した形にフォーマット化されてい
るので詔、旬、文、音韻又は音質を判断する為のテンプ
レートデータとのマツチングにすぐに使用することがで
きる。
マツチング ブN声された音声から抽出された反射係数とテンブレー
i・データとのマツチングを行う為の好ましい装置には
、ダイナミック(動的)プログラミングが含まれる。動
的プログラミングでは入力の時間軸を規正化しくタイム
ワープ)テンプレートデータにあわせている。他の人が
話す場合だけでなく同じ人によって話される場合でも同
一の単語を話す為に要する時間は変化するので時間軸の
規正化(タイムワープ)を行う必要がある。時間軸の規
正化によって入力の1フレームをテンプレートの参照フ
レーム内に含まれる様々な時間量と対応させることがで
きる。
例えばN個のテンプレートがあると仮定する。
即ちN個の単語又は旬を独立して認識することができる
ものとする。テンプレートJがそれに関連覆る50のフ
レームを持ち各々のフレームが25ミリ秒である場合、
7°5フレームを持つ音声入力を必ずしも無視Jる必要
はない。入力の中の特定のフレームはテンブレー1・中
の数の異るフレームに対応される。
4篩を行う場合、特定のテンブレー1〜の目標フレーム
に対する最小積分路が決定される。この装置では、過去
の最小距離又はパスを示す4列のみが保持される。りf
ましい実施例では、LPG−4(4次のフィルタを持つ
線形予測法)を使用する。
入力のフレームとテンプレートの各々の目標フレームと
の間のコークリッド的距離がif Nされる。
これによって時間【における距離を示す行が作られる。
この行は時間[−1、t−2、t−3及びt−4に於け
る最小値行列に動的に対応される。
距離列内の各々の値と最小値行列内の過去の最小値の間
の距離で最小の値が導きだされる。これによって最小値
列が作られる。最小値列は最小値行列内の一番過去の列
ととりかえられる。
一般に、この技術では、特定の入力のフレームに対する
最小積分路をそのテンプレート内の目標ターゲットと結
びつけて対応させている。
操作者の入力によって又は音声の振幅を検知することに
よって単語の最後が判断される時は、全てのテンプレー
トの最小値を持つ現在量も高い(「1が選択される。そ
れと関連するテンプレートは、話した単語に対し[最も
よく」マツチングするものである。基礎となる前提は、
最]内なマツチングによって一連の入力フレームのどれ
とテンプレートが最もよく整合層るかを判断するという
ことである。1フレームの幅は規正化されることによっ
て入力における1フレームは、目標フレームの半分、1
フレーム又は2フレーム、3フレームにも結びつけるこ
とができる。
このようにして、発声された詔又は旬との間での最適な
整合を探すことができる。最小値の計算は連続して行わ
れ、語又は旬の最後が検知されたU)のみ、発声された
語を判断するテンプレートの最小値が19られる。
認識 好ましい認識装置では、制御手段どいつしょに既に説明
したLPG分析装置を持つマイクロホンを使用している
。制御手段は分析回路によって導き出された反射係数を
受けとって、これらとテンプレートデータとの比較を行
っている。認識されたテンブレー1〜の指標はそれど関
連するRRを伝達覆る為に伝達される。
故に2つの半導体ユニツ]・之えあれば認識装置を作る
ことができる。最も好ましくは、リードオンリメモリ(
ROM>又はこの他の同様なメモリを語菓のレパートリ
−を拡大する為に使用づる。
まIζ、テンブレー1へライブラリの拡大の為にROM
をつけ加える。
必要とされるのは2つの半導体ユニットだ(ブであるの
で携帯型のハンドベルト装置として認識装置を作ること
も実現しうる。電池による電力、太陽エネルギー又はそ
の他携帯用の電力供給に適した同様の手段によって装置
は個人的に使用する為又は特定の応用の為離れた場所に
容易に移動することができる。
このようなりi置では、話す音声だけでなく手による入
力データを受けとることができる。
発音指導装置(P ronunciation  T 
utor)好ましい発音指導装置では、ライブラリから
単語を選択し操作者に伝達している。ここで意味する伝
達とは、単語を画面で見せる表示装置と音声合成による
単語の発声の両方を含む。無作為又は所定の方法で単語
の選択が行われ特定の分野のテストが行われる。ある実
施例では操作者がキーボード入力によって単語を選択す
るような構成となっている。
操作者が選択された詔の発音を試みると分析回路及び制
御回路がその発音が持つパラメータを判断する。入力さ
れてくるパラメータを選択されている詔のパラメータと
比較することによって得点がつけられる。スコアは、閾
値レベルと比較され発音の質が充分なものであるかが判
断される。人間の発音の質が不適当である場合、訂正を
知らせるメツセージが操作者に与えられ再度2回めの排
戦を行うことができる。訂正メツセージは選択的にその
ままの1q点を表示リ−るか又は/及び操作者の入力に
続いて(合成手段によって)選択された甲ム1(をもう
1瓜発音する。上記で説明した分析でだされたパラメー
タは、すぐに合成に使用できる古式に直された反q1係
数であるので操作者の入力を合成することは簡単である
操作者の発声の質が満足ゆくものであれば、はめたり、
正しいことを示すメツセージが操作者に与えられ、他の
飴が選択される。オペレーションは自動的に反復される
発音指導回路のある実施例では操作者にもっと難しい課
題を課することができるように閾値レベルを変えること
ができる。この閾値レベルの変更は閾値を自動的に再構
成することによって又は、閾値を操作者が選択的に限定
することによって行われる。この方法によって操作者の
意欲を刺激し不可能な課題ととりくむことなく着実に発
音を向上させてゆくことができる。
発音指導回路の第2の実施例では、選択しうる詔のレパ
ートリ−を拡大し増加する為にプラグインモデコール又
はこの他の同様な取りはずし可能なメモリをつり加える
ことができる。これによって発音指導装置は、学生の成
長に合わけて高度にしてゆくことができ外国語のような
仙の目的に使うこともできる。
ある実施例では読解と発音の能力を同時にテストできる
ように表示は、目で見れるように伝達される。この実施
例では、発音能力だけでなく目で見て理解づる力も発達
させるので初歩の学習に特に役立つ。
前述の記載から操作者が発声すべき語は既に装置によっ
て選択されているので認識の機能をほとんどまったく省
くことかできることは明白である。
それをそのまま評価した得点のみが必要とされる。  
  :いつでも機械は、入力されてくるべき語はどれか
又は、それに関連するパラメータはどれかわかっている
文の認識回路 文の認識回路の実施例では、各々の語が操作者によって
発声されると前述の方法のうち1つを用いて識別が行わ
れ、指標又は/及び反射係数のいずれかが記憶される。
文の最後にゆきあたると、これらの指標及び/又は反則
係数が呼びだされこれらの得点が個別に判断される。
前に説明した方法と同様・にこの得点が判断される。再
度合8114点がある限界レベルと比較され良、い発音
の文が伝達されてきた場合、(限界レベルより下)「よ
くできました」といったような正解であることを知らU
、自信を持たせるようなメツセージが操作者に与えられ
る。もし発音の質がよくない場合、好ましくは、合計得
点といっしょに訂正を知らせるメツセージと共に生徒か
ら与えられた発音に関連して適正な発音が伝えられる。
この様にして、生徒には、正しい発音と彼自身の発音の
両方が示されるので別個に比較することができる。
ある実施例では、装置が一連の語の中の特定の詔を識別
できない場合操作者にもう一度発音を促すメツセージを
伝えるので操作者は選択的に単語をもう一度発音するか
又は正しい認識ができたかどうかをたずねることができ
る。この形式では、装置は生徒に[そのことばは1rc
atjですか]とたずねる。これによって単語がもれる
ことがなくなるので生徒が話した単語は連続して記録覆
ることができる。
前述の発音指導回路とは反対に、この装置では認識可能
な単品、句、異音、数字及びこれらと同様のもののライ
ブラリ又はレパートリ−に比較し生徒が話した単語を判
断し、認識している。本発明では操作者の文の発音能力
をテストしている。
学生に伝達される得点は個々の単語の得点の全部の合計
又は個々の単語の相関関係を示すものであって好ましく
は、単語間のタイミング、イントネーション及びその他
発音の質を向上さゼる所定の要素に対する得点を含んで
いる。これらの要素は従来技術でよく知られており容易
にテスト可能である。
イン1〜ネーシヨンは当分野の技術で知られるビツヂ探
知器を使って検査することができる。
翻訳回路 翻訳回路の実施例は、主たる(ホスト)吉浦をその他の
くノンホス1−)言語に翻訳する機能を持つ。」−記で
示した通り分析回路を解して個々の単語は、制御回路に
伝達され、制御回路は入力されてくる自己相関の項をホ
スト言語のうちライブラリにある単語と関連覆る特定の
自己相関項の組とマツチングさせる。この単語の指標は
旬又は文の最後にであうまで記憶される。一旦句又は文
の最後にであうと、一連の単語がひきだされる。
それから認識された単語が正しい意味を持つように一連
の単語には文法的な調整が行われる。このような調整は
音は似ているが識別可能な違いのあり異る意味を持つ単
語と本当の同音異義語とを混乱しないようにできるので
この場合には特に重要である。故に単語fJ toJ 
(’ too J及び[twoJは文法的に異るのでそ
れぞれ他とは、区別されて符号化される。3つの音の変
化は同じ音を伴っているので3つの音は変化していても
テンプレートにマツチングすることは不可能である。変
化をつける為の唯一の方法は、これらを文脈的に分析す
ることである。
文脈的な調整を行う他の例は同じスペルで複数の意味を
持つ単語に対するものである。例えば、単Hr wat
ch Jは、旬[目 is  tile  midni
ghtwatc、h Jと1my watch nee
ds a  battery Jとでは、文脈的に異る
文法的な調整には、同音異義語だけでなく音の似ている
単語も含む。発声された単語とは最適にマツチングする
必要はない。例えば、単語[5tate Jと「5ta
ke Jは1つ単語だ(〕を認識する場合は混乱しやす
いが文の中にあれば混乱がおこることはない。
一度文脈的に意味を維持して、分析が行われてから、一
連の単語は、適当なノンホスト言語に翻訳される。ここ
でのノンホスト言語とは外国の人間の言語だけでなく機
械語も両方を意図して使われている。
外国の人間の原語に応用16例は、携帯用の原詔翻訳器
を提供づる。この翻訳器では、操作者が装置に話しかけ
装置がそれを外国語に翻訳し、相手にそれを伝える。こ
の伝達は、好ましくは、音声合成によって行われ、選択
的に画面による表示RIMによって行われる。旬の文脈
−Fの本来の意味が相持されるのでこの文脈上の意味が
外国語にも反映される。
例えば、英ム71に於()る単晶「to」はスペイン語
の[dosJには翻訳されずむしろスペイン語の1’a
lに111訳される。
同様の形式で奢幾械詔の翻訳によって文法上の性質がそ
のままで機械語にされる。例えば機械語で制御される電
気機器が電動タイプライタ−であると仮定すると口頭で
単B [two  dogSJをタイプするように命令
すると、まちがってJtoo  dogs Jをタイプ
することはない。
ある命令を音声で入力する為には文脈上の意味を保持し
ておくことが必ず必要であることは明白である。本発明
の実施例では声によって制御されるタイプライタ−を作
っている。
声による装置の作動 操作者が声によって命令を入力し、操作者が話した命令
から抽出した指標と正しい入力とのマツチングを行いそ
れに応答して装置を作動させることによっである実施例
では電気装置を動作させることが可能となる。命令が正
しい入力とマツチングする場合これに従って電気装置は
、作動され、るか又は作動が切られる。これによって遠
隔操縦装置の音声による制御が可能となる。
Aペレーション上は、認識装置は、連続的に音声入力を
監視する監視装置である。音声入力を認識覆ると、音声
命令又は入力を示す指標を使って作動すること/作動を
切ることが望まれているか又は許されているかどうかが
判断される。ここでは、入力は閉鎖型(特定の人のみ使
用できる)装置として働いているので正しい入力がこな
い場合の電気装置に対するアクヒスを防いでいる。一連
の入力は、「明りをつけろ」といったような標準的な言
いまわしでもよいが同様の装置の作動に特別に作った特
定の者しか知らないコードを言う必弱があるようにして
もよシ1゜故に電気装置はドアを電気的にロックするよ
う制御されていれば装置にアクLスサベき人のみ電気ロ
ックに命令が出せるにうむ秘密の一連の入力を操作者が
選ぶことができる。
2つ以上の単ムj1を入力どして使えば室内での関係の
ない会話の中のことばによって意に反して明りがついた
り消えたりすることがないので入力としては、2つ以上
の甲−〇を組合せることが望ましい。
ある実施例ではランダムアクはスメモリ(RAM)のよ
うなメモリ装置が使用される。このメモリ装置は、好ま
しくはある装置から他の装置に取りはずしてっけがえる
ことができるように一定の電源を持つものである。この
型式では、操作者には制御の為の主要装置として動くプ
ラグ−インRAMが提供される。
音声によるスイッチ切り換え装置は、認識された指標と
一連の正しい単語とがマツチングされ、装置に対するア
クセスが訂されているかを判断する。アクセスが許され
ている場合電気装置は、それに従って電源が入ったり切
れたりする。アクセスが排除される場合は操作者には彼
が音声によって入力した単語の組合せは受は入れられな
かったことを示すまちがいを示す信号又はブザーが鳴ら
される。
電話応答装置 電話応答装置の実施例ではローカル(111れた場所に
いる)通話者に選択的に接続し、ローカル通話者によっ
て後で選択的にひきだJことができるJzうにフラッグ
をつけることができるようにしてかかつてくる通話の優
先処理が可能になる。
ある実施例では、この優先処理には、つながっていない
通話者と応答装置とを(ローカル通話者に接続しておく
必要のある)所定の時間の間接続しておく操作が含まれ
る。
緊急事態又は、それと同様の場合でなければ、ローカル
通話者に割込みの警告を出さない事を示すメツセルがつ
ながっていない転送装置に伝達される。所定時間の間接
続されたまま維持されてから、つ41がっていない転送
装置がローカル通話器に接続されローカルの受話器はベ
ル又はその他の手段によって電話がかかつていることを
操作者に知らUるようになる。
他の実施例では、つながっていない転送装置の操作者(
よ、゛緊急°′といったような特別に規定する中浦を口
で言うことがで゛きるように構成される。
この単品は、前)ホで既に詳しく述べた音声認識装置に
よって認識されることによって応答装置はローカル受話
器との接続が可能となりこれによってベルが成る。
また他の実施例では、入力されてくる音声信号を単語認
識づることにJ、って単語を入力しその単語を選択され
た指標と比較することができる。これによってローカル
操作者は、ある単語をキーワードとして選択りることが
できるようになる。ローカル受話器の所へもどってきた
時又は入力されたメツセージをアドレスする時間のある
時にローカル操作者はキーボード又は音声のいずれかに
よって錠となる指標を入力しその指標に関連する単語を
用いたメツセージを受【プとることができる。
例エバ操作者は、[widoetJ r X Y ZC
orporations J  r I R8audi
t J’といった様な選択された指標を入力することが
できる。入力されてくるメツレージは受けとられ、認識
され、記憶され、所定の単語のいずれかが使われている
場合にはフラグがつけられる。ローカル受話器の操作者
は、自分の好きな時に[I R8audit Jに関す
る情報を再生することのできるメツセージを持っている
。それから操作者が[widgets Jに対する指標
を持つメツセージを選択し、これらメツセージを1旨定
する。それからrXYZCorporationJの指
標を持つメツセージを操作者が指定する。最後に操作者
は典型的に指定された3つのクラスのメツレージよりだ
いぶ低い優先性を持つ残りのメツセージの指定を選択す
る。
操作者が選択された表示にアクセスする為に入力する方
法は少くとも2つある。第1の方法では操作者は、ロー
カル受話器のキーボードによって東京する指標を示す数
又、は同様の一連の単語等を入力する。選択を行う為の
別の形式としてはローカル操作者は、口頭で応答装置が
認識可能な単語を言ってこれによって対応するメツレー
ジを選択的にひきだす為のマツチングが行われる。
この応答装置Nの実施例では、これによってかけられて
くる通話を優先処理し、選択的につないだり又は選択的
に後からひきだしたりできるので応答装置を使用するこ
とによって操゛作者はより有効に時間が使えるようにな
る。この方法では、割込みの数を減らずことができ、操
作者が知るべきより高い優先性を持つ特定のメツセージ
を指定でき゛る為操作者の時間に関する効率をより向上
させることができる。
スペリング学習器 スペリング学習器では、操作者は、操作者に適した単語
のレパートリ−及びそれに相当するスペリングを選択す
ることができる。操作者は、音声で発生されたその単語
の発音を聞きとり典型的にはキーボードを介して音声で
発生された単語のスペル又はそれに関連する特徴を入力
することができる。これら2つの成分は組となってメモ
リ内に記憶される。複数のこれらの組が同様に記憶され
る。装置は操作者の能力に従って操作者にテストを行う
為にこれらの組から1つずつ選択してゆく。
テス1へを行うオペレーションでは好ましくは、単語は
もともと操作者が話した単lRから作った合成制御デー
タを用いて音声が作られる。次に操作者は、合成された
単語をスペルしようとする。操作者の答えは前もって入
力され、データの組からひきだされたスペリング又は他
の特徴に関連して採点が行われる。
スペリング練習に応用する時は操作者が答えたスペルが
前に操作者によって入力された正解のスペルと一致する
場合には、正解を知らせてほめるメツセージが操作者に
与えられる。一致しなければ誤っていることを知らせる
メツセージが与えられる。好ましい実施例では、操作者
に正しいスペルが知らされるまでに操作者は正しいスペ
ルを綴ろうと2回まで挑戦することができる。
これに関して、スペルの入力にはキーボードがt)Tま
しく、既に入力したスペルを目で見れるようにして容易
に見直しできるようにする為映像による表示装置が使用
される。実に映像による表示装置は操作者がデータの組
を入力しようとする為にも役立つ。
前に説明した他の応用例とは反対に、スペリング学閥器
は、操作者の音声による入力を「認識する」必要はない
。即ち、音声入力は単に合成制御データを作るために分
析される。この実施例ではスペルの練習を行う単語の正
確な発音を操作者が入力することは問題ではない。操作
者の音声によって入力した単語を聞いて操作者が目的の
単語のスペルを綴ろうとづることのみが問題となる。例
えば単語r DneLIma[ICJを綴らせる為には
、操作者は単語r pneumatic Jのスペルを
練習したい時にpnellmaticという単語を言う
ことは問題でなく、むしろ単u Dneumat ic
を識別できる発音又はその他何か手がかりとなるもとを
操作者が言うことが一大切なのである。
即ち、操作者は口頭でrair pressureJと
言って入力してもこれに対し単fJI [pneunl
at ic Jのスペルを入力することもできる。[a
ir pressureJという旬を操作者が聞いた時
は彼のもともと持つ知識ではそれをpneumatic
と理解する場合には、[pneumatic Jをスペ
ルしようと覆る。
この実施例では、操作者は定義、同音異義語類似音の語
及び同様の情報を入力することができる。
これでは装置がこれらの入力を使って問題として操作者
に質問をだす。好ましくは、操作者はスペルを綴った単
品を音声によっても入力する。
スペリング学習器に関する本実施例は、数字、外国の記
号、異音記号、その他これらと同様の記号に使用する為
に応用することができる。単語のスペリングのみに使わ
れる必要はない。操作者によって入力された「記号」は
上に示したものを全て含む。
この後で示す図面及、びこれに関しいっしょに示す説明
及び検討によって本発明及び本発明の実施例及びその詳
細は、さらに詳細に説明される。
第1図は、認識オペレーションの実施例のブロック図で
ある。操作者から与えられたアナログ入力105は、信
号収集手段107によって受けとられる。信号収集手段
107は、アナログ信号をアブログ電気信号101に翻
訳しこれは信号処理手段108に伝達される。信号処理
手段101はアナログ電気信号101を、分析手段10
9ですぐに使用できる形態に構成しなおす。この、処理
には、整流、乗算、フィルタ処理及びこれらと同様の処
理が含まれる。
分析手段はデータ及び構成しなおした信号102に関連
してデータ及び伯の指標を作りだし、もとのアナログ入
力105を示す「指紋」のような指標が形成される。分
析手段109はこの分析データ103を認識手段110
に伝達する。認識手段110は、分析データをテンプレ
ートデータ(図示せず)と比較する。この比較に基づい
て、指標、104はオペレーション変更手段111に伝
達されこれに従って制御命令106が発生される。
この形式では、アナログ入力は翻訳され、適当なテンプ
レートデータとのマツチングが行われ、これによって本
発明の装置又は何か他の装置のオペレーションの変更が
行われる。この構成の装置では、音声による命令で有効
に装置を制御することができる。
第2図は、整流/乗算装置の、概略図である。入力して
くる信号201は選択的に容量素子202に伝達される
。この実施例では、2つの容量素子202a及び202
bが使用されている。これらは容量の蓄積能力がマツチ
ングしているように構成される。他に選択しうる実施例
としては、多重容量素子が使用されこれらの関連しあう
容量自体は選択的に変えることができ、信号を処理する
上でより柔軟性を持った対応を行うことができる。
信号が人力ざるとスイッチ装置204a及び204fが
その間を接続するので入力されてくる信号は容量素子2
02a及び202bの両方に並列で伝達される。適当な
りロックパルスが与えられるど、容量索子202a及び
202bは直列配線に切り換わり、もとの入力されてく
る信号201は二倍になる。スイッチ回路205a−2
05dを使用し、この中を信号を通過させることによっ
て信号は特定の極を持つように整流される。
この回路は特に半導体装置上に作るのに適している。更
に、この構造によって従来技術にお1ノる、クリッピン
グ及びその他の好ましくない原因に基づき起こる損失を
発生ぜずに簡単に乗算や整流操作を行うことができる。
第3図は、分析回路の実施例のブロック図である。マイ
クロホン301が音声によるアナログ信号を受【プとり
、これを自動利得制御装置(AGC)302に伝達して
いる。
八〇C302はマイクロホン301の為のアナログイン
ターフェース装置として使用されている。
AGC302は、ローパスフィルタ303、プレエンフ
ァシス回路304、対数アナログ・デジタル10(IA
/D変換回路305を駆動させる為に充分な振幅を持つ
比較的一定【)たピークの出力レベルを維持するように
調整を行っている。このようなピーク出力レベルを提供
するAGC302によって低いレベルの入力信号を有効
に利用することができ故にクリッピングの発生を減らず
ことができる。
この機能において電圧波形の80%のより小ざく電圧波
形の40%より大きいピーク信号を提供するAGCが適
当であることがわかっている。更に、6 dBの段階で
利得を増加させると適当であることがわかっている。
AGC302からの信号は、ローパスフィルタ303に
伝達され、これは信号の高周波数成分をとり除く為に使
用される。ローパスフィルタ303も信号の非エイリア
シングを与えているので信号の高周波数成分が好ましく
は8 K Hzであるシステムのサンプルレートの能力
を上回ることはない。これによって、通常、音声の中に
存在する妨害となる信号はかなり低減される。
ローパスフィルタ303からの信号は、アレエンフエシ
ス回路304に伝達される。プレエンフエシス304は
音声の中の声門波形及び唇h〜らの放射ににる成分をと
り除く為に使用される。これらの成分は典型的に声道の
予想81韓を行う上での妨害となり故にもつと竺密な線
形予測符号1ヒ(L P C)分析に使用される。プレ
エンフエシス回路304は簡単な単一の極微分フィルタ
を使って変動づる周波数成分をとり除いている。これに
関連して、プレエンフエシス回路は以下に示す関数で規
定されることがわかっている。
出力=、S (n ) −LJS (n −1)式中、
S (n )は時間(n)で収集された法ンプルを示す
。プレエンフエシス304からくる信号304は、対数
A/D305変換器に伝達され、これによってこれ以前
のアナログ信号はその対数デジタル等価値に翻訳される
。対数関数の形式に翻訳することによって対数成分はこ
れらを加算することによって有効に乗算の結果を求める
ことができるので乗算の実行を省くことができる。
対数へ/D305変換器の信号はクロス積手段(Cro
ss  product means ) 306に伝
えられ、相互積手段が対数A/D305変換器から送ら
れてくる成分を選択して合計している。これらの選択さ
れた成分の合計は、これらに相当する線形等価値307
に翻訳されてから、次に選択的tこ累算される。この工
程では累算器308がルローφグーゲンの式309で使
用される反射係数を作りだしこれから自己相関項が作り
出される。
自己相関項は好ましくは音声合成装置で使用でるように
フォーマット化/符号化される。このようにフォーマツ
1〜化された自己相関項は、ファースl−ス1−インフ
ァーストアウト(F−IFO)のIII頁序1メモリ3
11内に記憶され、これら番よ312の要求に従って再
びとり出される。
このようにして、入力している信号は、制御され、操作
者のまねた単飴を認識し又は/及び合成する為に使用さ
れる分析データを作りだして0る。
第4図は最初に第3図に示した自動利得制御回路である
。第4図のΔGC302は、入力401を受けとり、回
路的に構成された処理装置内を通過させ前に既に説明し
たよな特徴を持つ出力402を発生している。
第5a図及び第5b図は第3図のローパスフィルタ30
3で使用できる選択しつる実施例を示している。どちら
の場合でも、ローパスフィルタ303.303a及び3
03bはそれぞれ信号501a  (501b)及び5
02a  (502b )が入力されてきて出力信号5
03a  (503b )を発生ずる為に回・路によっ
て示される通りこれらの信号を使用し−ている。成分の
値を選択することによってローパスフィルタは、特定の
回路の必要性や要求にあうように調整可能であることは
明らかである。
第6a図は、第6b図から第6j図の回路図内における
相n関係を示すブロック図である。
第6b図から第6j図で示す対数A/D制御回路は、一
連の方法によって第8b図から第81図のスイッチの操
作を制御しそれだけではなく第7b図から第7j図の回
路の為の入力信号も提供している。
第6b図及び第6c図は、対数A/D変換器を操作する
為に一連のタイミングの相互関係を調整するクロック信
号の発生器を示している。これらのクロック信号は対数
A/D変換器のサンプル周期ごとに反復して発生される
。第6d図では変動成分をラッチする為の解読回路が示
されている。
この変動ラッチ信号は、対数A/D変換器がアナログナ
ンプル信号の解読を完了した時に発生される。次にこの
信号が8C図及び第8h図から第8j図のデジタル解読
論理を駆動する。
第6e図、第6r図、第61図及び第6j図は、論理発
生用の容量スイッチ回路を示している。この論理は、電
圧供給線上に電力スパイクを起こすオーバーラツプ駆動
信号の発生も防いでいる。
第6g図は、対数A/D符号解読論理及び対数指数解読
の為のサンプル論理を示す。
第6h図は、指数解読論理の残り部分を示す。
第7a図は、第7b図から第71図の相互の関係を示す
ブロック図である。一連の第7図は、音声分析システム
の為の自己相関回路を含んでいる。
この区域は、対数Δ/D変換器から送られてくるデジタ
ル化された音声信号において自己相関関数を実行してい
る。第7b図及び第7C図は、自己相関区域及びシステ
ムの他の区域の為のクロックタイミングを示している。
この論理によって自己相関関数の実行を制御する為に必
要な一連のタイミングが提供される。
第7Q図では、クロス積、又は対数積関数をだず前の対
数△/Dの値を記憶しているメモリ回路が示されている
。この区域から送られてくる出力信号が第7h図のクロ
ス積加算器を駆動する。この加算器が△/Dの値を対数
的に加算してゆくのでこれらの値の積を有効に求めるこ
とができる。
第71図は、対数を線形的な値に変える部分を示してい
てこの区域は第7j図及び第7f図に示す回路といっし
ょにクロス積の対数から線形値への変換を実行している
。この関数では、算出されたクロス積を代数加算するこ
とができ与えられた期間の時間に計算された全てのクロ
ス積が累算される。
累算器回路は第7d図及び第7e図に示ず。累算器は線
形的な変換が行われたクロス積関数を対数から指数への
変換部からとりだしてお互いにこれらを加算し、自己相
関関数を求める。
第7d図は、各々の累算の結束を記憶する自己相関メモ
リを示している。好ましい実施例では、メモリ内には1
1の累算を行った値がありこれらの値はそれぞれ対数関
数値である。第7e図は、加算器、補数回路及び累算器
の為の制御論理である。
第8a図(ま、第8b図から第81図の相互の関係を示
すブロック図である。
一連の第8図は、プレエンフェシス回路の部分、対数A
/D回路、第6図で示されていない任意の追加の対数A
/DIIIII御論理及び最葎に対数関数デジタル値を
二進数値に符号化する対数A/D解読論理を含んでいる
。第6図と共にこの図は、好ましい例であるが対数A/
D回路の構成に使用できる唯一の方法というわ番)では
ない。
第8b図は、アナログプレエンファシス機能がら構成さ
れる。この機能は、入力してくるアブーログ昌声信号が
対数A/D変換器によって解読される前にこれらの音声
信号のフィルタ処理を実行している。プレエンファシス
機能回路はアナログ信号の高周波数成分を強調している
ので音声信号の中にもともと存在する不要な低周波数成
分をいくらかとり除く十で役立っている。
第8d図、第8h図及び第8に図は、第8e図から第8
Q図に示すレジスタの列に対するレジスタ切り換え手段
を制御する回路を図示している。
この回路は、レジスタの列の中で発生されたレジスタ電
圧を第8e図から第8g図に示す容量素子の一方の電極
板に切り換える為に適当なタイミング及び論理を提供し
ている。この84理は、対数A/Dの端数、決定部分も
制御している。
第8e図から第8g図は、加重容量素子、レジスタ分割
素子の列及び制御スイッチを示している。
この回路の目的は、プレエンファシス区域からアナログ
リンプル信号をとりだしこれをアナログ信号を示ず不連
続な値に分解しもともとのアナログ値の対数関数等価値
であるデジタル値を求めることである。
第8C図及び第8e図から第8g図の回路によってださ
たアナログ電圧の分断された不連続な値を二進コードに
符号化する為に必要な回路である。
更に、第8c図は、対数A/Dのメモリ出力部分を示す
。このメモリ出力部は、処理の結果、量子化された対数
潤数値を自己相関関数がこの値を処理できるようになる
まで保持しておく、。このメモリ出力部は、並列−に伝
達されたA/Dコードを直列にして、これらのコードを
相関関数機能を行う部分で使用しやすい状態にする。
第8j図は、第8c図の為のクロック解読区域を示し、
発光ダイオード又はその他の適当な表示装置を光らせる
ことによって対数コードを表示させるようにする表示駆
動部分も示している。
第9図は、好ましいテンプレートデータとのマツチング
を行う為の時間軸の規正化(タイムヮーピング)特徴を
示す図である。複数のテンプレー1〜は、メモリ手段の
中に記憶されている。これらのテンプレートデー夕80
1.902.・・・903は、操作者が話した単重、句
又は音がどれであるかを判断する為に前に説明した分析
データとのマツチングに使用される。
認識操作を行う上での問題点の1つは、特定の甲thを
発音する為に要する時間が話す人によってまた同じ人に
よって話されるにしてもその時ごとに変わるということ
である。このような時間の違いは典型的に話し手自身の
文化的違い、地理的な近い及び身体的な違いから生まれ
るものである。
好ましい実施例では25ミリ秒のフレームレートを使用
づ−る。入力の特定フレームは、特定のテンプレートに
属づる前もって記憶されているフレームのいずれかに対
応している。
テンプレートN、901で示す通り、これを行う目的は
、入力してくるデータのフレームとテンプレート101
内の目標となるフレームとをマツチングさせる最小積分
路を求めることである。これに関連して最適な積分路は
、時間[におけるX(t )、904の変化又は位置を
マツピングを行うテンプレートの全ての存在する他のタ
イムフレームと対応させて考慮し求められる。即ちx(
t )において入力フレームは全てのこれより前の入力
フレームとの最適なマツチングが行われる。(即ち、全
てのこれより以前の一連のフレームが考慮される。) 例えば、入力してきたフレーム904は、テンプレート
N901の中の4番目のフレームである目標フレーム9
09に対してマツピングされる。
入力フレーム904は、(より高い階層のフレームに相
当する)過去の時間において発生したどのフレームに対
してもマツピングを行うことはできない。即ち、フレー
ム904はx(t−1>、910の時間の5番目のフレ
ーム又はX(t−2)、911の位置の4番目のフレー
ムには、これらのフレームは、不適当な積分路である為
マツピンされない。
入力フレーム904は、全ての過去のN層及びFIIN
iJフレーム(時間:t−1、t−2・・・、階層:フ
レーム3、フレーム2、フレーム1)に対し、存在しう
るあらゆる規律によって対応さけることができる。
計算を実行する為に過度に長い時間を使わずに操作可能
なシステムを作る為には、(この例のフレーム912に
関しては)その前の階層のフレームだ(プを選択された
過去の時間においてのみ考慮すれば充分であることがわ
かっている。
x(t−1)、(t−2>及び(t−4)のみが考慮さ
れる。故に、904における入力フレームはフレーム9
08、フレーム907及びフレーム905にマツピング
される。
これらの目標フレーム(この例では905.907及び
908)の各々への最小のパスを求める連続的計算はこ
れらの点に対づる最小のパスをだ1゜フレーム904に
対するパスを考えると、これらの目標フレームからのパ
スで存在しつる最小のパスがだされるので、フレーム9
04に対する最小のV<スが求められる。次の計算では
、フレーム904に関し導きだされた最小のパスがX(
t+l)及びそれ以降の時間のフレームの計×(t)に
おいて発生したフレームは、全ての目標フレームに対し
マツピングさせてみなくてはならないことに注意しなく
てはならない。この全ての目標フレームには、各々のテ
ンプレート内に属する可能なフレームの各々が含まれる
。このタスクを行う為に必要とされる簡単な31算の実
際の数は過度に長い時間を必要としない装置を作るよう
にできる限り効率よく計算を行えるようにおさえる必要
がある。
第10a図、第10b図及び第10c図は、第9図で説
明した動的時間軸の規正化(ダイナミックタイムワービ
ング)の削算を行う為のメモリ内の配置を示している。
本実施例では、L P C−4(4次のフィルタを持つ
ラティスフィルタ)を使用している。x(t )、10
01における入力フレームは、レパートリ−の中の各々
のテンプレートと比較する為に使用される。この例では
、テンプレートj、1002は入力フレーム1001と
比較対照し検討される。テンブレーt−j 1002は
、この例では、5フレームのLPG−4データを有して
いる。故に、この単語を音声にする為には25×5ミリ
秒−125m、秒を要する。データの各々のフレームを
人力フレーム1001と比較対照することによって距離
の値の列から成る行列1003が作られる。この比較を
行う為にはいずれの関数も[史うことかできるが、コー
クリッド的距離を用いることが好ましい。
、列距離行列を使用してx(t −1) 、1004に
於ける最小値行列と比較される。最小値行列1004は
(問題となる5フレームに対応する)5行と(過去4つ
の時間に対応する)4列を有している。最小値行列10
04は、X(t−1)までにだされた最小の積分路を示
す。ここで説明する装置は、連続的に操作され、時おり
又は選択的に操作されるものではないことに注意して欲
しい。
即ち、最小行列1004は今までに示した通り工程によ
って連続して更新され続ける。
例えば、距離行列1003の(フレーム3に相当する)
距離を示す値1008は、X(t−1)、X(t−2>
及びx(t−4)(1012,101L 1009にそ
れぞれ対応)におけるフレーム2に対する最小のパスと
いつしJ:に利用される。問題にしている時間(t−1
、t −2及びt−4)に関し、フレーム2から目標フ
レームであるフレーム3に対する最小の値を求めると、
x(t)のフレーム3に存在しうる最小の積分路が求め
られる。この場合、最小積分路は、時間(t−2)’(
2の値をもつ)からの1011であるので、列1005
内の最小値1013がだされる。最小値列1005の上
の方の値1007は時間[までのテンプレートとのマツ
チングが行われた一連のフレームの入力に対する得点を
示している。この値1007は他のテンブレー1〜内の
対応する値と比較されこれによって認識された単語を選
択づることができる。最小値列1005は、最小値行列
内の一番古い最小値列に代わって行列の中に組みこまれ
る。この例では、最小値列1005は、以前は【−4を
示していた列と入れかわっている。
このような配列では、各々のテンプレートに対し、4列
のデータのみをとっておく必要がある。
このデータは、各々の時間フレームごとに更新される。
この構成的な配列によって一連の入力の認識に必要なh
i算の数及び複雑度は、著しく減らされる。
第11図は、前に示したダイナミックタイムワープ(動
的時間軸の?E規化)を行う為の構成上の配置を示す。
この構成上の配置は、単一のテンブレー1・に対し必要
な全ての値の81紳を行っていることを知っていてほし
い。入力フレーム1011は、局所的距離計算器段11
09に伝達される。
局所的距III泪算手段1109は入力フレーム110
1と選択されたテンプレートのフレーム11102を使
ってこれらの値の間のユークリッド的距離を計算する。
このユークリッド的距離は、合計器1110に伝達され
、更にメモリへと伝達される。
(ここではランダムアクセスメモリとして示される)メ
モリ1106は、過去4つの誤差又は局所的な距m i
t算器1109でだした距離を記憶している。最下位の
フィルター装置においてのみこのメモリ110日が必要
とされる。メモリ1106は、(x(t−1>、(t−
2)及び(t−4)に相当する)3つの関連する過去の
値を過去の誤差メモリに1107に伝達している。
過去の誤差メモリ1107は、これらの関連する誤差又
は、距離を最小値選択手段1108に伝達し、最小値手
段はこの3つの値の最小値を選択している。3つの値の
うちの最小値と坦在の局所的距離は1110において合
計され次のラティスフィルタ又はフィルタメモリ手段1
107(この場合は1107a)に伝達される。
それ以降は、計算を行う各々のラティス又はフィルタは
まったく同様に実行する。即ち、メモリ1107内の過
去の誤差をうけとり、それを最小値手段1108に伝達
し局所的距離計算器1109aによってこの最小値とテ
ンプレートのその目標フレームから入力フレーム110
1までのユークリッド的距離との合計をだしている。出
力は、次の時間の191間Cの泪綽に使用される次に高
次のラティスへと伝達される。最後のフィルタ1111
の出力は、このテンプレートJとの比較を行った今まで
の一連入ノノフレームのマツチングの整合度を示づ゛指
標どして使用される。この出力1111は、他のテンプ
レートと比較する為に使用され最もよくマツチングする
ものが選ばれる。
第12a図及び第12b図は、前に説明したダイブミッ
クタイムワープ(動的な時間軸の正規化)を実行する構
成的な配置図である。第1’ 28図で1よ、各々のフ
レームが最小値を求める操作を実行する為の専用ハード
ウェア装置を有している。全てのフレームに対づる装置
はフレーム1を除き全て同一である。
フレーム11201では、サンプル1206゜1207
.1208及び120日から得たLPG−4データはそ
れぞれそれ専用の微分手段(それぞれ1202.120
3.1204及び1205)に伝達される。微分手段は
サンプルであるユークリッド的距離の決定においてテン
プレートフレームデータ1210.1211,1212
゜1213を利用する。各々の微分手段は求めた4ビツ
トの解を加算器に伝達しユークリッド的距離が計算され
る。加算器から出力される結果は、次のフレーム120
2に伝達される。
フレーム2からフレームnまでの構造的な配置は、第1
2b図で説明されている。前のフレーム1−215から
伝達されてきた4ビツトデータは、4つの異るビットス
タック1216,1217゜1218及び1219内に
記憶される。故に4ビットの一連のデータABCDにお
いては、最上位ビットAは1216に記憶され、ビット
Bは1217に記憶され、ビットCは1218内に記憶
され、最下位ビットDは1219内に記憶される。12
16のようなメモリスタックは、ファーストインファー
ストアウト(F I FO)の順序で配置され、各々の
クロック周期毎にスタックの内容は下と移動してゆく。
x(t−1)、(t−2)及び(t−4)に相当するス
タックによって記憶されているメモリ内の内容は、12
20で示すような最小値手段に伝達される。最小値手段
1220は、最小値が決定できる場合は3つの単一ピッ
1〜に従って最小値を決める。この最小値が決定川面で
あれば最小値が2ビツト線’+ 227を介し他の最小
化手段に伝達される。同様に、最小値を決定づることか
できない場合は、このことが2ビツト線1227を介し
伝達される。4つの最小1+Tj比較回路1220.1
221等が3つの時間期間に存在しうる値の中から最小
値を決定する。
この最小値は加算器1222に伝達される。
例えば、比較される4ビツトのストリングがA=OO0
1,B=0101、C=1001.及びD=1111で
あると仮定する。最小値手段1220は、A及びBの最
初のビットがOであるので、A及びBのみをさらに考慮
すべきであると判断覆る。この最小値手段は“′O″を
加算器1222に送り、制御信号を最小化手段1221
に送る。
制御信号は、最小値手段1221にA及びBのみを考慮
するように指示する。最小値手段1221は、判定でき
る場合はいずれを選択するか判断する。(AとBでは)
Aの2番目のビットはOであり、1(Bは1)ではない
ので、Δが小さいと判断される。最小値手段1221は
、0を加算器1222に送り制御信号を最小化手段12
29に伝えている。
最小値手段122日に対しては1つの選択(A)しか存
在しないので、O(Aの第3のどツ1〜の内容)が加算
器1222に伝達され、制御信号が最小値手段1230
に伝達される。
この様にして、最小値は、加算器1222で使用する為
に伝達されてくる。
この処理を行っている間、テンブレー]・のデータをサ
ンプルデータと比較したユークリッド的距離がスケーラ
−/加算器1228に接続する微分手段1223.12
24.1225及び1226によって割算される。計算
の結果を定数因数又はその他の減少回数で割り算するス
ケーラ−を使甲することによって加算工程での桁あぶれ
の発生を防ぐことができる。
スケーラ−/ JJII &1器1228から出力され
る結果は、加算器1222に伝達され、4ビツトの数が
そこから発生される。この4ビツトの数は、次のフレー
ムの為の構成へ伝達される。
最後に出力1205 (第12a図)が発生される。こ
の出力は、テンプレートとの比較が行われた現在までの
一連の1ノンプルデータに対する得点を示1ものである
第13図は、単♂71認識装置のブロック図である。
操作者が発生した入力1301は、マイクロホン130
2に伝達され、マイクロホンでこの入力は電気信号に翻
訳される。
L P G分析装置1303の詳細は前述で説明した。
IPc分析装置1303は、反射係数を作りだし反射係
数はこの図面ではVMS7000として示されている1
304制御装置に伝達される。
制御[11304は、発生されたデータとテンブレー1
〜を比較対照し、もとの入力1301である単語として
認識されたものを選択する。
ROMのようなメモリ手段1306は、認識可能な単語
のレパートリ−を増やす為に制御装置1304に接続す
ることができる。このようにして、装置のレパートリ−
は、適当なROMをつけたりはずしたりすることによっ
て簡単に変えることができる。
第14図は、話し手の話した入力と最適にマツチングす
る適当なテンプレートを判断する方法を示す流れ図であ
る。
開始1401の後で音声が発生され、装置1402によ
って受けとられる。自己相関項がこのデータから作り出
される。1403 次に、特定のテンブレー1〜に対するユークリッド的距
離を決定し、最小距離があるかどうかを判断してゆくこ
とによって、Nのテンブレー1へ全てを通した比較が行
われる。最小距離が見つかった場合、最小距離を示す指
標が記憶される1407゜最小値がない場合、ループが
1404までもどって次のテンプレートが考慮される。
全てのテンプレートの調査が完了すると、記憶されてい
る指標は、これに従ってオペレーションを変える140
7為に使用される。
第15a 、 15b 、15a図は、例としてあげら
れている5つのデンプレートの各々で入力との1−クリ
ッド的距離を求めるバl鐸を図で示している。わかりや
すいように図では、各々の単語には、5フレームを要し
、LP(>1(フレームごとに1つの値のみ持つ)が用
いられると仮定する。この中の説明は、多重フィルタ及
び多数のテンブレー1〜に簡単に拡張して応用すること
ができる。
各々の単Kn 1501は5フレームから成るデータ1
502,1503,1504.15.05及び1506
を有している。入力1507は、各々の用語の各フレー
ムと比較され、これらの間の距離の絶対値が決定される
。例えば、3番目の単語1508に対して距離は第1の
フレームでは「3」1509、rl、11510、NJ
1511、ro、5J 1512及びr2.5J 15
13である。故に3番目の単語に対するユークリッド距
離は全部で合計である3+1+1+0.5+2.5−8
.0となる。ユークリッド的距離を判断することによっ
て最良のマツチングを探すことができる。
第1681第16b、第16c及び第16d図は、最小
の計算T程数で最小ユークリッド距離の値を持つ単語が
どれかを決定する方法を図示している。第16a図に示
す第1の工程では、各々の第1フレームのユークリッド
的距離が比較される。
その中の値が最小である単語が選択される。この場合「
O」という値を持つ単語番号2である。この単語は、次
の距離が加算されその合計がそれまでの値のいずれかを
越えるまでは、加算を続行する。この例では、単語番号
2は値rIJ1609を持つ第2フレームについて続行
される。この値は、前の値ro、5J 1609を越え
る。それからは、現在量も低い値を持つ単語1が保持さ
れ、その合ff+1604が以前に分析された最小値を
越えるまで続く。
このように合計値の中に存在する最小値のみを考慮する
方法では、最適な値1608を決定する為に実行しなく
てはならない合計を求める計算の数は最小ですむ。これ
によって実行しなくてはならない演算オペレーションを
多数省くことができ、更に入力を認識する上で最適で最
良のマツチングを導きだ1ことができる。
第17図は、携帯型の音声認識装置を絵で示した図であ
る。この装置では、音声認識は、計算機能のオペレーシ
ョンの為に用いられる。マイクロホン1702は、操作
者が話した命令を受けとりこれらを携帯用計算器170
5を操作する為の制御信号に翻訳している。
更に、携帯用計算器1705は、スピーカー1703を
介し操作者と対話している。スピーカー1703は、合
成手段(図示せず)を必要とする。携帯用計算器170
1では、操作者に情報を伝える為に可視的表示装置17
01が含まれている。キーボード1704によって操作
者は口頭でデータを音声で入力すると同様に手によって
もデータを入力づ°ることかできる。
この応用例では、操作者は、口頭で携帯用計算器に命令
を伝え、これによって計算器の操作を制御することがで
きる。オペレーションが一旦完了するとスピーカー17
03を介し操作者に返事を返してくる。この返事は典型
的には演算操作による最終的な結渠を示している。
第18図は、発音指導装置の実施例を示す流れ図である
。一旦、開始されると1801メモリから単語が選びだ
される1802゜ この選択された単語は画面による表示装置、合成された
メツセージ又はこれと同様の装置のいずれかを通して操
作者に知らされる1803゜操作者は選択された語を発
音しようとする。1804装置は、分析装置によって音
声入力と関連するパラメータを決定する1805(これ
については即に細かく説明した)これらのパラメータは
、閾値レベルとの比較が行われ1806選択された単語
に対し発音を比較して得点を示す値を発生する。
もし発音が(閾値レベルより下の)充分良好な発音であ
れば1807はめてあげるメツセージ1808が得点と
いっしょに操作者に与えられる。
発音があまりよくない得点(閾値レベルより上)である
場合、操作者の話した発音に欠けている点及び得点その
他適切な情報に関する事項を含む訂itメツセージ18
09が与えられる。
本発明のある実施例では、もとの単語が合成され、操作
者の発I4に似せたもの又は操作者によって試みられた
発音も合成される。これによって操作者は、自分が発音
した単語を正確な発音と考えられている発音に比較して
分析することができる。
もしこれが第1回「1の発音である場合1810操作者
にはもう一度この単語を発音する機会が与えられ、装置
はこの単ム11をもう1度操作壱に伝える1803゜も
し第2回目の発音である場合、操作者にはもう1度挑戦
する機会は与えられず、新しい単語が選択される。この
形式では、操作者にとって特に問題のある単語について
は、操作者がいらいらしたりあぎてしまうことのないよ
うにくり返して練習させられることはない。
この構造によって装置は、発音する単語を選択し操作者
にまねさける為にこの単語を知らせる。
操作者は、自分のまねた発音の質を判定するだけでなく
発音の質が充分でない時に操作者が次はうまく発音でき
るように得点が知らされる。プラグインモデュールを使
用することによって単語のレパートリ−は、学生/操作
者の特定の要求とあうように拡張づることかできる。発
音指導装置では、モデュールは外国語又は学生が覚えよ
うとする非常に特殊な単語を含んでいる。
第19図は、文の得点装置の実施例の流れ図である・。
一旦開始されると19OL操作者は単語を入力すること
ができる。1902゜これによって既に説明した分析及
び識別回路を介し最初の識別信号が発生される。190
3 最初の識別信号は、識別信号の闇値レベルと合致するか
どうかのチェックをする。入力がまちがっている場合、
もう1度やり直す為のメツセージ1905が操作者に伝
えられるので、操作者は入力しなおすことができる19
02゜その単語を示す適当な識別信号が与えられた場合
は1904、記憶される。190にの工程は、一連の単
語の終わりが決定されるまで続(プられる。終わりが決
定されると1へりカーが発生し装置は文全体の識別スト
リング1907を再び呼びだす。
907−a 文全体のマツチングを行った」二での得点190Bがだ
される。この得点は好ましくは操作者の発音のタイミン
グ及びストレスに関するものも含んでいる。発音がよけ
れば1909それをほめるメツセージと得点が操作者に
伝えられる1910、一方、発音が悲【)れば訂正のメ
ツセージ1911といっしょに正確な発音が操作者に伝
えられる。1912 この形式では、操作者は操作者が作った文を声で入力す
ることができ、これを装置で分析し、採点してもらうこ
とができる。操作者が思った通り入力を変えたい時、こ
の機能は特に有効である。
前述の説明から他の選択できる方法も明らかとなる。こ
の方法では操作者は連続して単語を発音して句又は文を
作り、句又は文全体を評価及び採点させることができる
。これによって操作者は標準的な旬を口で言って彼の発
音能力に基づきこれを採点させることができる。
第20a図は、ポスト(主たる言語の)音声入力をノン
ホスト(それ以外の言語の)音声出力に翻訳づる為のブ
ロック図である。異音認識回路2025によってうけと
られたもとのホスト音声2024は、一連の異音からつ
くられた異音テンプレート2026を利用している。こ
の一連の異音は、異音辞!!2028といっしょに単語
構成オペレーション2027で使用される。
各々の個々の単語を構成する上で単語構成工程2027
は、単語を示ず異音の組のマツピングを有する辞120
2Bを使用している。この方法では、一連の異音はもと
の音声内の単語を構成する構成成分に分(プられる。こ
のように単語が一旦分けられると、これらを順番に並べ
ることによって文が作られる。
この文はもとの音声の持つ本来の意味を持つことができ
るように文脈調整工程2029に送られる。同音異義語
及び音の類似する語も正確なスペルを判断することによ
ってこの本来の意味を保つことができる。前に示したよ
うに、このオペレーションはもともとざt生された音声
の意味を維持しておくためのオペレーションであるので
内容は変わらない。
ホスト言語の単語は、単語検索表2030に伝えられる
。単語対単語の検索表は、ホスト言語からノンホストM
Iに対゛するマツピングを行いノンホスト言語である一
連の単語を発生ずる。この一連の単語はホスト言語にお
ける本来の意味をなるべく維持できるように文脈的な調
整が行われなくてはならない。2031この分脈的な調
整2031は、文を変えたり又はホスト言語からノンホ
スト言語に変えて自分本来の言いたいことを維持するこ
とができる。このようにして[y(+urpullin
gmy tegJ  (私をバカにしたな)といったよ
うな熟詔旬は単語を外国の単語におきかえても外国の人
間にわかる文には翻訳されない。即ち外国語の中の熟語
的な句を選択的に用いなくてはならない。
明らかにこの調整はホスト言語が機械的に制御される場
合には必要とされない。
ノンホスト言語の一連の単語は、異音ストリング回路に
伝えられ2032、ここでは異音ライブラリ2033を
使って、異音スト・リングを作りだしている。この異音
ストリングは合成回路2034に伝達されノンホスト8
 BRで音声2035が発生される。
この特定な実施例では特に構成上、単語対単語検索表2
030の前に文脈上のメツセージ2036を受けどる工
程を加えると適当である。
これを加えることによって適当にノンホスト言語での調
整が行われた後は、文脈調整の資料2037が引き出さ
れる。このようにして、操作者は、特定の文でタイプし
これを適当な外国を台に翻訳させた後で印刷させること
ができる。
上記から、翻訳器における本発明の実施例は、音声又は
キーボードによるいずれかの入力によって簡単に入力す
ることが可能でこの入力はすぐにノンホスト言語に翻訳
されることは明らかである。
第20b図は、翻訳器の実施例の流れ図である。
一旦開始されると2001操作者は一連の単語を口で言
うことができる。各々の単語が入力され2002、ホス
[−言語とのマツチングが行われる2003゜ここでは
1ホスト言語」という旬は、操作者がもともと単品を発
生した言語を示す為に使用される。前に説明した方法の
いずれかを使ってホスト言語のマツチングが行われる。
マツチングを示す指標が記憶され2004、旬又は−文
のR後が決定される。2005旬の最後でなかった場合
は、次に入力している単語が前述のように分析されマツ
チングが行われる。さもなければ、文章全体が記憶部分
により埋め合わされる2006゜ 認識された一連の単語は、文脈的に調整される。
2007文脈上の調整を行うことによって音は類似する
が違った意味を持つ単語は、異る単語にマツピングされ
るようにすることができる。単語[blueJ  (青
)は、rblewj  (吹く)と同じ単語として認識
されるが同じ意味は持っていない。一連の単語内の文脈
上の相互の関係が形容詞(blue)又は動詞(ble
d)のいずれが適当であるかを示す。
この文脈上の調整2007は、一連の単語の本当の意味
を保つという点刃特に重要である。
一旦、一連の単語が文脈的に調整されると、これは、ノ
ンホスト又は、外国の言語に翻訳される。
2008外国の言語又はノンホスト言語には、人間の外
国の言語又は、機械操作−Lの言語が含まれる。これに
関連して翻訳される外国語は、外国語で出力され200
9、翻訳装置は再び操作者が話した新たな一連の単語を
聞きとる時点まで回帰する。
故に操作者は一連の特定の単語を入力し、それを外国語
に翻訳させることが可能であることは明らかである。よ
って操作者は、[Ωo t、o h似+se J(家に
行く)と言うとこれは「va a Ia casaJ(
スペイン語)と正確に翻訳され誤訳されることはないの
で単語「[0」は正確に翻訳される。
外国語の他にノンホスト言語は、操作的な命令も含んで
いる。この命令は、例えば装置を制御する為に電気機構
装置に伝達される。この操作によって操作者は声によっ
てデータを入力することができる。データは例えばタイ
プライタ制御信号のようなノンホスト言語に翻訳される
。制御信号は、電気的機械装置に適当な操作を実行させ
る。故に操作者はrao to house 、I  
(家に行く)を口で言って「go to house 
Jという旬を頁の十にタイプさせることができる。
第20c図は、各々の単語に対し存在しうる複数のテン
プレートが記憶され次に一連の単語とあうように文脈的
に調整される。開始された2010後で特定の単n11
が受けとられ2011ライブラリ内の第1のテンプレー
トと比較される。
012 前に説明した距離の測定は、調査されるテンプレートと
比較して行われる2013.距離が閾値レベルであれば
2014それは、侵の分析の為に2015記憶される。
レベル内にない場合は記憶されない。その後、全てのテ
ンプレートに対して考慮されたか2016及びそのテン
プレートをさらに考慮して再び入力とのマツチングを行
う必要があるかどうかの判断が行われる。
一旦、全てのテンプレートが特定の単語に対し考察され
ると旬又は文の終わりであるかどうかが判断される20
18゜文の終わりでない場合、装置は新しい単語を受け
とる段階2011まで回帰する。終わりであれば記憶さ
れていた一連の情報はメモリから外に出される2019
゜メモリ内に記憶された一連のデータは、さらに文脈的
に調整され2020これによって特定の単語に対し複数
の単8Bが選択され文脈的に正しい一連の単語を判断す
る手間が省ける。
一旦調整された後で一連の単語はノンホスト言語に翻訳
され2021ノンポスト言語で出力される2022゜こ
の後オペレーションは完了する。
023 このオペレーションでは、操作者は、一連の単語典型的
には文を口で言ってたとえ操作者の発音が望みのテンプ
レートより特定のテンプレートに近くてもそれを文脈的
に調整することによって装置は、望みのテンプレートを
無視せずむしろ文脈上の一連の単語全体をとりあげるよ
うにすることが保証される。これによって操作者が[t
urnOnthe 1ioht j  (明りをつけろ
)ということばを入力する時、l ightという単語
の発音をたとえ少し位まちがえても[tun on t
he blight Jという一連の甲託と混乱をおこ
すようなことはなくなる。
第21図は、翻訳装置のブロック図である。操作者は、
マイクロホン2101に向って話すことができマイクロ
ホンは前に説明した形式のいずれかで符号化を行う。2
102 制御装置2103は、メモリ2104から接続する信号
を使って文の本来の意味を維持している。
メモリ2104は、個々の単語に代わってそれを示して
いるメモリテンブレー1−2105と文の中の文脈上の
意味を維持する為に使用されるメモリ文法ルール210
6からなる2つの部分から構成される。
文脈上の意味が保たれている限り一連の単語が装置を制
御できる可能性をまったく失うことはない。この様にし
て、文脈上の意味は維持された文又は句は、合成装置2
107を制御する為に使用でき、スピーカー2108を
介しアナログ出力210Bが発生される。使用者はノン
ホスト言語に翻訳し音声を入力したすぐ後でそれを相手
に合成して間かUることができる。
更にノンホスト言語は、電気機械装@2110と対話し
、タイプを打たせる機能も含む。他の電気機械装置は8
声による制御可能なエレベータ又はその他の同様な装置
等を提供する。
前述から明らかな通り、翻訳装置は、単語の文脈的な意
味は分析及びマツチングで失われることはないので完全
な機械とのインターフェースを提供することができる。
第22図は、音声によるスイッチ装置の実施例の流れ図
である。開始2201の後で音声入力2202を装置が
受けとる。この入力が雑音であるか又は本当の音声入力
であるかどうかの判断が   □行われる2203゜雑
音であれば装置は他の入力2202を探す工程にもどる
。雑音でなければ入力は、テンプレートとのマツチング
が行われ2204、これによって正しい確実な認識とマ
ツチングするか否かが判断される2205゜有効なマツ
チングがなかった場合、誤りを示すフラグ2208が後
で参照する為にセットされる。
有効なマツチングがあれば入力の最後に到達したかとい
う判断がbねれる2207゜入力及び一連の入力が完了
していなかった場合、入力2202まで回帰する。一方
、完了している場合には確定的な組合Uが完了する。
一連の入力が完了すると、誤りを示すフラグの状態22
09に基づき判断が行われる。この誤りを示Jフラグが
レットされていればまちがっていることを示タメッセー
ジ2210が操作者に伝えられる。この誤りを示ずメツ
セージはブザー、または、まちがいを知らヒる合成され
た音声メツセージを含む。
誤りを示すフラグがセットされていない場合2209こ
のことは入力が受は入れられ電気装置に対するアクセス
が許されたことを示す。この場合許可メツセージ221
1が操作者に与えられ、正しい入力であったことが知ら
され電気装置の状本発明のこの実施例では、この時点で
オペレーションは全て終ってしまう2213゜しかし仙
の選択可能な実施例では、入力を探す点2212まで戻
るループが存在し同様にしてこれより更に連続してオペ
レーションが続行する。
このオペレーションによって一連の命令を入力し安全に
認識を行うことができる。この安全Ia構装置は、電気
装置にアクセスする為に必要な複数の単語を使用する。
第23図では単一の単語による装置アクセスの実施例の
流れ図が示されている。開始されると2301音声入力
が受けとられる2302゜入力が雑音であれば2303
ループはもどってさらに他の入力が検索される2302
゜雑音でなければ、入力は用意されたテンプレートのう
ち最適なものとマツチングされる。このテンプレートが
閾値レベルの内部にない場合(認識していない者がアク
セスしようとしていることを示す)ループは入力230
2までもどる。闇値レベル内であれば電気装置の状態が
変わる2306゜のらほど、ループはさらに入力のある
場合に備えもとに戻される。
このようにして、装置は、音声入力の監視を続けていて
これに従って動作している。
この実施例では、離れた装置を音声で制御したり、音声
命令だけでその時の状態を変えたりすることができる。
閾値レベルと比較することによって入力音声を入れた者
を装置が判断することができ権限を持たない者が入力し
ても認識し動作することがないようにすることができる
このオペレーションは単一の音声入力者又は所定集団内
の音声入力者以外は装置とアクセスできないようにする
ので相手のいる型のゲーム装置と対話できないようにす
る安全装置などに特によく適している。
第24a図及び第24b図には、話すことによってスイ
ッチを作動する装置が描かれている。
第24a図では、2人の競技者の間で電気ゲームによる
遊びが行われている。競技者は戦闘状況でそれぞれのタ
ンクに指示を与えている。各々の競技者は音声命令によ
って自分のタンクのみを支配できる。この形式では、「
もどれ」といっている話し手2401は、タンク240
2に対して言っているのであってタンク2403に対し
てではない。話し手2404は、タンク2403のみに
指示を与えることができる。競技者ば声によってそれぞ
れ自分の装置を支配することができる。装置は他の競技
者からの命令と混乱をおこすことはな−い。
第24b図では、遠隔スイッチ作動装置が図で示されて
いる。この実施例では、操作者2406は、音声にして
命令「明りをつけろ」ということができ認識装@(図示
せず)によって明りは、スイッチが入り点灯される。認
識装置は音声命令を受けとる為にマイクロホン2408
を使っている。
電灯2407はここでは壁のコンセントとして示しであ
る外部電源から電力が供給される。
この形式では、操作者はまつくらのへやでも人力は可能
で電灯や手動スイッチの位置を知らなくても電灯をつG
プることができる。
第25図を参照すると、遠隔電話2509がインターフ
ェース2501に伝達する電話応答装置の実施例のブロ
ック図が示されている。インターフェースはマイクロプ
ロセッサ2502に連絡する。マイクロブ[−1L?ツ
リ“は装置の制御手段として動いている。マイクロプロ
セッサ2502は、バス2506を介し応答装置内の他
の構成部と接続する。
本実施例では、マイクロプロセッサ2502は、インタ
ーフェース2501を介しメツセージを遠隔電話250
9まで返す伝達を行う為に合成装置2503に必要な制
御信号を与えている。同様の形式で分析装置2504は
、インターフェース2501を介し、遠隔電話2509
からメツセージが入力してくると分析を実行する。分析
装置2504は、このオペレーションの中でメモリRA
Mを使用している。分析装置2504は、バス2506
を介しマイクロプロセッサ2502に接続している。
他の場所の(ローカル)電話と接続させる場合、インタ
ーフェース2507がマイクロプロセッサ2502によ
って作動される。キーボード2508によって操作者は
選択した命令を入力することができる。これらの命令に
は、キーワード又はその他の表示手段に基づきRAM2
505内に記憶されたメツセージを選択的にひきたりこ
とが含まれる。この構成での配置では、メツセージを受
けとり、それを分析し、それに基づきオペレーションが
行われている。ローカル電話への接続には、ある種の基
準とメッセ′−ジがあった時と条件がつ()られている
。更に、入力してくるメツレージは適当な分析が行われ
た後でRAM内に記憶される。操作者は、キーボードか
らの入力に従ってRAM内のいずれかのメツセージを選
択的に引ぎだすことができる。
ギーボードによってでなく、電話の通常のマイクロホン
を通しての音声入力によってRAMを番地指定すること
ができる。
第26a図及び第26b図は、電話応答装置の選択的に
接続を行う機能の2つの実施例の流れ図である。第26
a図では、開始2601によって鮒れている転送者から
の割込み2202が可能になる。メツセージ2603は
離れている転送者に伝達される。1単位の時間が時if
され2604遠隔地にいる転送者がまだ応答装置と接続
されているか否かの判断2605が行われる。接続され
たままであれば、ローカル電話のブザーが鳴ってその事
を知らせ2606IIllすれている転送者は、ローカ
ル電話にでている人と接続される。その後、オペレーシ
ョンが止まる。2607゜ 離れている通話者が、一定の期間、接続を切ると、同様
にオペレーションが中止する。2607選択的に接続を
行う第2の実施例が第26b図に示されている。開始2
608の後で割込みが判断され2509、次にメツセー
ジが離れた電話に伝えられる2610゜入力2611を
離れた電話から受けとり、入力の分析2612が行われ
る。
入力が所定の単語「緊急Jに相当する場合2613、ロ
ーカル電話のブザーが鳴って2614応答装置と離れて
いる電話が接続きれる。
所定の単語に相当しない場合、メツセージは記憶され2
615他の場所の電話をとっている操作者によって後で
ひきだされる。この後オペレーションは終了する261
6゜ この構造によってつながっていない通話者からのメツセ
ージを入力することができ、選択的に緊急状態が存在す
る場合にはこれらの通話を接続することができる。
当分野に通常の知識を有する者であれば、本実施例によ
って緊急事態以外の他の原因による割込みも可能である
ことは明らかである。
第27a図、第27b図及び27c図はキーワードに基
づきメツセージを選択的にひきだす電話応答装置のオペ
レーションの流れ図である。
第27a図では、開始2701によって場所の離れたオ
ペレータがキーワードを入力する2702ことができる
。各々のキーワードは記憶され2703、操作者はキー
ワードがさらに要求されているかどうか試すことかでき
る。27046つとたくさんのキーワードが入力される
場合、操作者はキーワードの入力までもどる。そうでな
GJれば第27a図に示す入力オペレーションは終了づ
る2705゜ オペレーションにa3いて、第27b図では開始され2
706、つながっていない電話からの割込み2707が
受けとられる。メツセージ2708は、つながっていな
い電話と伝達されつながっていない電話からの聴覚的な
2、メツセージが続いて入力されてくる。分析27LO
が入力してくるメツセージに基づき、実行され、分析に
よってだされた標識は記憶される。2711メツセージ
の最後であるか2712が判断される。最後でない場合
には、新しい単品を受けとる工程2709までループが
もどる。最後である場合には、メツセージに含まれる標
識は、第27a図で示したとおり前もって記憶されてい
るキーワードライブラリ2713とのヂエツクが行われ
る。メツセージを示す一連の標識及びメツセージに関連
する(その中のキーワードを示す)フラグは記憶される
2714その後でオペレーションは中止する。
第27C図は、各々の一連のメツレージからつくり出し
たフラグに基づき選択的に引ぎ出し行う■稈を示す。開
始2716の後、離れた受話器をとる操作者は所望のキ
ーワードを入力する2717所定のキーワード2718
を持つメツセージがメモリからひきだされ、離れた場所
の操作者271日に伝達される。
メツセージの伝達は好ましくは、メツセージから導きだ
した標識に基づいてメツセージを合成する方法による。
故にオペレーションは中止する。
720 第27a 、27b 、27C図からその中で示したオ
ペレーションでは操作者はキーワードを選択してメツセ
ージを入ノ〕するとこれらの4−一ワードに従ってメツ
セージにフラグをつ【ツキ−ワードに関連するメツセー
ジを入力した操作者を選択的にひきだすことができる。
このオペレーションによってファーストインファースト
アウトの順序でなく高い優先性のメツセージを1番に指
定することができるようになる。
第28図は、スペル学習器の実施例のブロック図である
。操作者は、マイクロホン2804を介し口で言った音
声を入力し、マイクロホンが電気信号を音声分析装置2
805に伝達している。音声分析装置2805は、合成
制御データを作りだづ。合成制御データはバス2806
を介しRAM2807内に記憶される。キーボード28
02を介し入力が行われ制御装置2803に伝達される
ことによって各々のデータの組の第2部分が作られる。
キーボード2802からの入力はRAM2807内の適
当な位置に記憶され、113の合成制dllデータとい
っしょに働く。複数の合成制御データ及びキーボード入
力データは、RAM2807内に記憶される。
表示装置2801は、操作者に入力をもう1度見せて更
に制tit+ a百2803によって操作者に注意をう
ながさせる。
テストを行うモードでは、制御装置2803が合成制御
信号の選択された1つ及びそれに関連する特性がひきだ
される。この情報は、バス2808を介し制御装@28
03に伝達される。
制御装置は、合成制御信号を音声合成装置2810によ
って利用しスピーカー駆動装置2811を制御していて
、スピーカー2811を介し音声出力を発生している。
これによって単語又は音が発音される。
ROM2809は更に制御装置で使うプログラム命令又
はメツセージを記憶していてこれらは操作者との対話を
行う為に使用される。
この形式では、制御装置2803は、操作者がマイクロ
ホン2804介し入力したもとの入力に基づぎ単語を合
成している。操作者はキーボード2802を介し単語を
正しく綴ろうと試みる。入力したスペルはRAM280
7内に記憶されている正しいスペルと比較されそれに基
づき得点がだされる。得点がよければ合っていたことを
示す気持を抑揚するようなメツセージが与えられる。
悪い場合は、まちがっていたことを示すメツ1=−ジが
与えられ、操作者は、好ましくは、もう1度i「シいス
ペルを綴ろうとすることができる。好ましくは、操作者
が2回目に試した時にもスペルをまらがえた場合には、
装置が画面表示装置によって単重のスペルを教え、合成
装置2810を介し声にJ:ってやる気をおこさせ°る
ようなメツセージがりえられる。
この装置では特定の操作者/学生の要求にあわせるとい
う、レバー]へり一に関する問題がもちあがる。
第29図はスペル学習器のオペレーションの流れ図であ
る。開始2901の後で操作者が選択したオペレーショ
ンが入力される2902゜オペレーションの選択に関づ
る判断2903が行われる。
選択された。オペレーションがデータの入力である場合
、操作者は音声にした単語を入力する2904゜この入
力は分析が行われて2905、合成制御データを作り出
す。この合成制御データは記憶される2906゜操作者
は音声で入力した単語に対する正確なスペルを入力する
2907゜正確なスペルは音声入力から作りだしたパラ
メータといっしょに記憶される2908゜ 他の単語が要求される場合、判断が行われる。
これよりさらにレパートリ−の幅を広げる為もつと単語
を入力しておく場合、操作者が他の単8hを話して入力
できるよう回帰する。単語を入力する必要がない場合、
操作者は、テストモードの入力を望むか否かの判断が行
われる2911゜操作者がテストモードの入力を望まな
い場合は、装置はオペレーションを終了する2811゜
テストモードを望む場合、装置はメモリから単品を選7
S;工程2912まで回帰する。どちらのオペレーショ
ンを操作者が要求しているか否かの判断2903を最初
に開始した後でメモリからの単語のひきだしも開始され
る。
一旦単語の組がメモリから選択されると2912、装置
が単語を話しだし、操作者は実行を促される2913.
操作者は単語を綴ろうと試みる2914゜この入力は、
正しく記憶されていたスペルと比較対照を行う為に使用
される2915゜ここでスペルが正確であるか判断され
る2916゜スペルが正確であれば正解を示すメツセー
ジ2920が与えられる。正解のメツセージを送った後
で操作者はテストモードでの実行を続行したいか否かが
判断される2921゜テストモードを続行する場合、メ
七りから他の単語をひき出t2912必曹がある。操作
者がテストモードを望まない場合オペレーションは終了
する。
911 しかしながら、操作者の綴ったスペルがまちがっている
場合、判断され2916、誤りを示すメツセージ291
7が操作者に与えられる。誤りを示すメツセージは、「
単語○○○に関して、不正確でした」といったような、
内容を含む。この中のおいている部分には、選択された
正解の単語が入って話される。
操作者にとって選択された単語に対する1回めの挑戦で
あるか否かの判断が行われる2918゜第1回目の挑戦
であれば操作者は、音声入力2913によって単語のス
ペルを口で言って再度試ずことができる2913゜2回
めであれば正解のスペルが操作者に知らされる2919
.正解のスペルが知らされた後で、操作者がテストモー
ドの続行を望むか否かの判断が行われる2921゜前に
示した通り、テストモードを続行する時にはメモリから
また1つ単語を選択する必要がある2912゜続行しな
い場合はオペレーションが終了する2811゜ 以上の記述から、操作者は、自分が解きたい問題をレパ
ートリ−に入力し装置にその問題の中から1つを選ばせ
て自分で解くようにすることができる。この応用例によ
って操作者/学生の特定の必要性及び要望に学習器をあ
わせることが可能となる。
【図面の簡単な説明】
第1図は認識装置のブロック図である。 第2図はレクテイファイア/マルテイプライアの電気回
路図である。 第3図は分析装置の好ましい実施例を示ずブロック図で
ある。 第4図は第3図の自動利得制御回路の電気回路図である
。 第5a図と第51)図は第3図の分析回路に択一的に用
いられる低域通過フィルタの回路図である。 第6a図から第6j図は第3図に示された分析回路の月
数アナログデジタ・小制御回路の実施例を示す回路図で
ある。 第7a図から第7j図は第3図の分析回路に於て説明さ
れた自己相関項を発生する装置の回路図である。 第8a図から第81図は第3図に記述された対数アナロ
グデジタル発生の為の装置の回路図である。 第9図はダイナミック・タイム・ワービングの動作を示
すグラフ表示である。 第10a図、第10b図、第100図はダイナミック・
タイム・ワービングの好ましい実施例に於るメモリマニ
ピユレーションを示す図である。 第11図はダイナミック・タイム・ワービングを画定す
る為の構造図である。 第12a図と第121)図はダイナミック・タイム・ワ
ービングを発生する為の択一的構造の図である。 第13図は発音指導装置の実施例のブロック図である。 第14図は発音指導装置の動作のフローチャートである
。 第15a図、第15b図、第15C図は発音指導装置に
使用し得るテンプレート・マツチング・アルゴリズムを
示す図である。 第16a図、第16b図、第16C図、第16d図はテ
ンプレートを入力に最適に適合させるアルゴリズムを示
す図である。 第17図は電子計算器形式の機能をも有する音声認識装
置の外観図である。 第18図は発音指導装置の動作を示すフローチャートで
ある。 第19図は文章の発音を評価する装置のフローチャート
である。 第20a図は主言語を非主言語へ翻訳を行う実施例のブ
ロック図である。 第20b図、第20C図は2種の翻訳装置のフローチャ
ートである。 第21図は翻訳と共に伝達の能力をも備えた装置の部品
及びそれらの相互接続を示すブロック図である。 第22図は盲声発生装置の動作を示すフローチャートで
ある。 第23図は状態変更動作のフローチャートである。  
 − 第24a図、第24b図は音声発生及び音声制御装置の
外観図である。 第25図は応答装置の実施例を示すブロック図である。 第26a図、第26b図は電話応答装置の動作を示すフ
ローチャー1〜である。 第27a図、第27b図、第27C図は電話応答装置に
用いられる入力内容の選択的フラッグ操作とそめ検索の
動作を示すフローチャートである。 第28図は綴り字学習器の実施例を示すブロック図であ
る。 第29図は綴り字学習器の実施例の動作を示すフローチ
ャートである。 代理人 浅 村   皓 四面カi¥’Ji(内容に変針なし) Fig、6σ 1衰  五 階 1基  〜 〜 〇  −屍 ψ  co       r FIG、7+ v: FIG、7fへ Ft夕n Fig 8g Fig、flh 畝)−め Fig、// Ih //2θ5 F/に /2σ /215 1g12b +      1.5     3.0    2.0
    3.0    4.OFig 15a 4    1.0    0.5    0.5   
 0.5     05    3.0     2.
0     +、5     .1.5     1.
0ig15c 3      30 4     10 5      3.0 3    30 4     10 5     30 5     3.0 2    0     1.0     +、5   
 3.5/8θ/ Fig26b Fl″’g 27a 手続補正書(方式) 昭和58年 2月i日 特許庁長官殿 1、事件の表示 昭和 58年特許願顎部 83472   号3、補正
をする者 7]J件との関係 持11′)出願人 4、代理人 5、補正命令の日イ」

Claims (11)

    【特許請求の範囲】
  1. (1) アナログ信号を受けとりそこからそれを示1デ
    ジタルデータを発生ずる電子装置であって:a、 上記
    アナログ信号を電気的アナログ信号に変換する手段と; わ、上記電気信号を上記電気信号の対数関数である一連
    のデジタル値に翻訳する手段と;C1上記一連のデジタ
    ル値の中の選択された値の合h1をだす手段と; d、上記白目をそれと等しい線形的等価値に変換する手
    段と; e、 上記線形的等価値を累算する手段と;[、上記累
    算の結果をデジタルデータとして選択的伝達する手段と
    を有する上記電子装置。
  2. (2) 上記アナログ信号変換装置が閾値と上限値の間
    に上記電気信号を制限する手段を有する特許請求の範囲
    第1項の電子装置。
  3. (3) 上記制限手段がローパスフィルタを含む特許請
    求の範囲第2項の電子装置。
  4. (4) 上記制限手段が連続する電気的アナログ信号を
    比較する手段を含む特許請求の範囲第2項の電子装置。
  5. (5) 上記制限手段が連続する電気的アナログ信号を
    微分する手段を有する特許請求の範囲第4項の電子装置
  6. (6) 上記電子装置が更に−L記選択的な伝達手段の
    前に上記累算値を符号化する手段を有する特許請求の範
    囲第2項の電子装置。
  7. (7) アナログ音声信号を受(プとり、そこからアナ
    ログ電気信号を発生する音の収集手段と;上記電気信号
    を閾値と上限値の間に制限づる信号調゛整手段と; 上記制限された電気信号から自己相関項の組を作りだす
    計算手段とを有し、上記h1算手段は:a、上記制限さ
    れた電気信号を一連のデジタル対数値に翻訳する手段と
    : b、 上記一連のデジタル対数値の中の選択された値の
    金目をIこり手段ど; C1上記合計をそれと等しい線形的等価値に変換層る手
    段と; d、 自己相関項として上記線形的等価値を累算ブーる
    f:段とを有し; さらに上記自己相関項を符号化フォーマツi〜・にあて
    はめる符号化手段と; 十記符号化自己相関項を記憶づるメモリ手段とを右づる
    音声分析装置。
  8. (8) 上記音の収集手段がマイクロホンを含む特許請
    求の範囲第7項の音声分析装置。
  9. (9) 上記音声分析装置が更に上記アナログ音声信号
    の終了を示す指標であって上記自己相関項の形成手段に
    伝達される指標を発生する手段を有づる特許請求の範囲
    第8項の音声分析装置。
  10. (10) 上記指標発生手段が操作者による制御可能な
    スイッチ手段を有づる特許請求の範囲第9項の音声分析
    装置。
  11. (11) アナログ音声信号から自己相関項を作る方法
    であって: 上記アナログ音声信号からアナログ電気信号を作り; 上記電気信号を閾値と上限値の間に制限し;a、 上記
    制限された電気信号を一連のデジタル対数値に翻訳し; b、上記一連のデジタル対数値の中の選択された値の合
    計を求めて; C1上記合h1を線形的等価値に変換し;d、上記線形
    的等価値の、選択された一連の値を自己相関項どして累
    算することによって、上記制限された電気信号から上記
    自己相関項の組を作り; 上記自己相関項を符号化フォーマットにあてはめ: 上記符号化フォーマット自己相関項を記憶する工程から
    成る上記自己相関項を作る方法。
JP58083472A 1982-05-13 1983-05-12 音声分析装置及びその操作方法 Pending JPS5926799A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US37773082A 1982-05-13 1982-05-13
US378030 1982-05-13
US377730 1995-01-25

Publications (1)

Publication Number Publication Date
JPS5926799A true JPS5926799A (ja) 1984-02-13

Family

ID=23490295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58083472A Pending JPS5926799A (ja) 1982-05-13 1983-05-12 音声分析装置及びその操作方法

Country Status (1)

Country Link
JP (1) JPS5926799A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6371600A (ja) * 1986-09-11 1988-03-31 Kubota Ltd 揚砂装置の制御方法
JP2017530425A (ja) * 2014-08-15 2017-10-12 アイキュー−ハブ・プライベイト・リミテッドIq−Hub Pte. Ltd. 指定言語でのユーザの発話の改善を支援するための方法およびシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6371600A (ja) * 1986-09-11 1988-03-31 Kubota Ltd 揚砂装置の制御方法
JP2017530425A (ja) * 2014-08-15 2017-10-12 アイキュー−ハブ・プライベイト・リミテッドIq−Hub Pte. Ltd. 指定言語でのユーザの発話の改善を支援するための方法およびシステム

Similar Documents

Publication Publication Date Title
US4507750A (en) Electronic apparatus from a host language
US4749353A (en) Talking electronic learning aid for improvement of spelling with operator-controlled word list
US4488005A (en) Telephone answering apparatus with call-screening capabilities
JP3102866B2 (ja) 音声言語翻訳機
CA2239691C (en) Method and apparatus for combined information from speech signals for adaptive interaction in teaching and testing
US5487671A (en) Computerized system for teaching speech
US5562453A (en) Adaptive biofeedback speech tutor toy
US6157913A (en) Method and apparatus for estimating fitness to perform tasks based on linguistic and other aspects of spoken responses in constrained interactions
Pisoni et al. Perceptual evaluation of MITalk: The MIT unrestricted text-to-speech system
EP1028410A1 (en) Speech recognition enrolment system
US20060057545A1 (en) Pronunciation training method and apparatus
KR19990008459A (ko) 개선된 신뢰도의 단어 인식방법 및 단어 인식기
CN101266792A (zh) 语音识别系统和语音识别方法
Schuppler et al. GRASS: the Graz corpus of Read And Spontaneous Speech.
CN101414412A (zh) 互动式声控儿童教育学习装置
EP1398758B1 (en) Method and apparatus for generating decision tree questions for speech processing
EP0094502A1 (en) Electronic learning aid for assistance in speech pronunciation
Kalikow et al. Experiments with computer-controlled displays in second-language learning
Adams et al. IBM products for persons with disabilities
JPS5926799A (ja) 音声分析装置及びその操作方法
US7752045B2 (en) Systems and methods for comparing speech elements
KR102274766B1 (ko) 외국어 초보 학습자를 위한 발음 예측 및 평가시스템
JP2001051587A (ja) 外国語学習装置、外国語学習方法、及び外国語学習用プログラムを記録したコンピュータ読み取り可能な記録媒体
Rai et al. An efficient online examination system using speech recognition
JP2005241767A (ja) 音声認識装置