JPS58209799A

JPS58209799A - 音声メツセ−ジ識別方式

Info

Publication number: JPS58209799A
Application number: JP9353982A
Authority: JP
Inventors: 湯浅　啓義; 大村　晧一
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 1982-05-31
Filing date: 1982-05-31
Publication date: 1983-12-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は電子機器を音声メツセージによって操作するた
めの音声メツセージ識別方式に関するものである。

第１図は従来の一般的な音声メツセージ識別装置の概略
構成を示すものである。％１図の構成において、入力音
声にマイク（１すにより電気信号に変換され、プリアン
プ（２＋ｆ：経てフィルタＦｚ−Ｆｓにより各同波数成
分に分解される。各フィルタＦ１〜Ｆ８ｔＩｉ８チャン
ネル分のバシドへスフィルタと整流口。

路および平均化回路で構成されており、１００　Ｈ２乃
至ＩＱＫＨｚの周波数領域を対数目−盛上で略８等分し
た各帯域ＦＢ１〜ＦＢ８の平均化された出力ｆ１〜ｆ８
が得られるようになっている。各出力ｆ］〜ｆｓＨマル
チラレクサ（３１とサンプルホールド回路（４）とを介
して順次Ａ／Ｄコシコンタ（６）により８ピツトのデジ
タル値に変換され、■」ホード（６）とマイコシパス（
７）とを通ってＣＰＵ　（８）に読み込まれる。音声の
分析フームは約１０ｒｎｓｅｃであり、各分析フレーム
毎に８チｔ’：／ネル分のフィルタ出力ｆ１〜ｆ８がＡ
／Ｄ変換されるので、１フレームあたり６４ピツトの情
報量になる。し１こがって例えば１秒間の音声人力に対
応する情報量ば６４００ヒ・リドＩでなり、この情報は
入カバターンＲＡＭ　（９１に格納されるものである。

（１０）は音声メ・ソセージの始端と終端とを検知する
始端終端検知回路である。また（１１）は標準パターｙ
Ｒ）Ｍであり、入力バターシと照合するための噸準パタ
ーシが予め複数個登録されているものである。（Ｉ２）
は入カバターンを複数個の標準パターンと照合して入カ
バターンに最も近い啜ｊ！凡ターンを判定するための頃
合演算回路である。照合演算回路政により入カバターン
がどの柴準バターｙｌで一致するかが判定されると、そ
の標準ハターンに対応する制御命令がＩ１０ボート（６
）全弁して被制御機器（Ｉ３）に送出さするようになっ
ている１つなお（１４１はプログラムＲＱζ（Ｉ５）は
り−＋−，Ｉり腑、詞は操作パネルである。

とＣろでかかる従来例１　（ｒ（おいては、入力され１
こ音声が母音である場合にも子音である場合にも全く同
し条件で入カバターンを作成している。しかしながら、
−役に母音の周波数灰分は音声信号の中音域に多く分布
し、反対に子音のり波数成分けるものである。したがっ
て音声信号の母音の部分では中音域の特徴を誇張し、反
対に子音の部分では低音域および高音域の特性を誇張し
た入カバターン全作成すれば音声メ・ソセージの認識率
が高まるはずである。本発明はこのような点に鑑みて為
されたものであり、母音と子音との周波数特性の差を有
効に利用して、音声メ・υセージの認識率を向上させた
音声メツセージ識別方式全提供することを目的とするも
のである。

第２図は本発明の一実施例の全体構成を示すものであり
、第３図は１同上の要部ブロック図を示している。入力
音声はマイク１１）により電気信号に変換さね、づリア
ルづ（２）全組てフィルタＦ１〜Ｆｇ［入力される０フ
イルタＦ１〜Ｆ８はそれぞれ通過周波数帯域の異なるバ
ンドパスフィルタと整流回路および平均化回路によって
構成されており、各周波数帯域毎の平均化された出力ｆ
ｘ　−ｆｓが得られるようになっている。各フィルタＦ
ｌ−Ｆｓに含すれるパントノ＜スフイルタの通過周波数
帯域の半値幅は、フイＩＬ、　夕ＦＩ　ＶＣツイテｈ　
１５８　Ｈｚから２５１　Ｈｚまで、フィルタＦ２につ
いて９１２５１　Ｈｚから８９８　Ｈ２まで、フィルタ
Ｆ３　ｖＣツイテｉｊ　３９８　Ｈｚから６３１　Ｈ２
まで、フイＪＬりＦ４　Ｋ　ツイテｆｄ　６８１　Ｈｚ
かう１０００　Ｈｚまで、フイＪＬりＦｓ　ＩＣツイテ
ｔａ　１０００　Ｈｚから１５８５　Ｈｚまで、フィル
タＦ６ＹＣツイテ０１１５８５　Ｈ２から２５１２　Ｈ
ｚまで、フイｌｌｚりＦ７　Ｋ　ツイテｉ　２５１２　
Ｈｚから８９８１　Ｈｚまで、そしテ’）イ１１．　タ
Ｆｓ　ＶＣツイテｈ　８９８１　Ｈｌから６８１０　Ｈ
ｚまでとなるよ′うに設計されている。各フィルタＦ１
〜Ｆ８の出力はマルチづレクサ（３（を介して対数変換
器（１７１）に入力さするものである。対数変換器（１
７１）ＨフィルタＦｌ−Ｆｓの出力を人間の耳の特性に
合致した対数特性に変換するものである。

次に加算器（１９）ｌｄ各フィルタＦｌ−Ｆａの出力を
すべて加算して入力音声の全体的なパワー全検出するも
のであり、この加算器α９）の出力は対数変換４（１７
２）によって人間の耳の特性に合致した対数出力に変換
されて、始端終端検知回路（ｌＯ）とａ／Ｌ倹知回路の
１）および差動増！蝙ｆｉ（国に入力される。始端終端
検知回路１１０）　ｕ第３図に示すように一対のＲ８Ｔ
フリッづフロ１ソづ（２Ｑｘ）（２０２）と、クロック
パルス発生用の発振器１２υと、この発１１ｖから出力
されるクロワクパルスをカラシトするオシカウンタ（２
２１）およびオシカウンタ（２２２）と、人力信号しベ
ルを所定の基準値と比較するコンパレータ（２３１と、
その他の論理ゲートとにはって構成されている。対数変
換器（１７２）から出力される入力音声の対数値パワー
はコニ７Ｊ’ｌレータ１２３）　ＶＣ入力されて所定の
基準値と比較される。そして＠４図（ａ）に示すように
入力音声の対数値パワーが所定の基準値よりも大きい場
合に汀、第４図（ｂ）に示すはうにコニ／パレータ尚の
出力がＨレベルとなり、音声矛ン信号がＩ１０小−）　
（６１に入力される。しかしてコシパレータ（２３ｉの
出力がＨレベルになると、アシトゲ−）　（２４１）を
介して発振器（２すのクロックパルスかオシカウンタ（
２２１）［入力さｊる。一定時間経過してオシカウンタ
（２２１）かカラシトアップすると、オシ用のフリッづ
フロツｊ（２０１）がセ・ントさする。これによってオ
アゲート（２５１）を介してオシカウンタ（２２０がリ
セットされるから１／１０ポート（６）には第４図（Ｃ
１に示すような心（転）増号が入力される。ま１こオシ
カウンタ（２２１）の出力ｔｇ−よってオフ用のフリッ
づフロラづ（２０２）かリセ・シトされるので、フリッ
づフロップ（２０２）からオアゲート（２５２）に入力
される信号はＬレベルになる。次に入力音声が小さくな
ると、コンパレータ１オ）の出力はＬレベルになる。こ
ｔ′１によってオアゲート（２５２）の両入力は共にＬ
レベルになるから、オシカウンタ（２２２）のリセット
は解除されてカラシト動作を開始し得る状態となる。ま
ｆここのときイシバータ漫の出力はＨしベルＶＣｆｘる
ので、アントゲート（２４２）ｋ介してオシカウンタ（
２２２）に発振器１２υからのクロ゛ツクへルスが入力
さする。一定時間経過してオフカウンタ（２２２）がカ
ラシトアップすると、オフ用フリッづフロラづ（２０２
）がセットさね、る。これによってオフカウンタ（２２
２）はオアゲート（２５２）　全弁してフリッづフロラ
づ（２ｏｚ）の出力によってリセ・シトされるから、Ｉ
１０ボート＋６１！／ｒは第４図（切に示すような終端
信号が入力さするものである。またオシカウンタ（２２
２）の出力ＶＣ，ｒつてオン用フリップフＱツブ２ｏ１
）がリセットされるから、再びオシカウンタ（２２１）
がカラシト可能な状態となる。以下同様の納作を繰り返
して、音声メツセージが入力される度毎に始端信号と終
端信号がＩ１０ホード（６）に入力されるようになって
いるものである。

次にＨ／Ｌ検知回路ｔ３ｔｌは音声入力のパワーの大小
を検出するものであり、コンパレータ（８２１Ｘ３２２
　）とアンドゲート（至）およびインバータ（３３）な
どから構成されている。各コンパレータ（８２１Ｘ３２
２　）の−万の入力には対数変換器（１７２）から出力
される音声入力の対数値パワーが入力されており、他方
の入力には基準値設定用電源μｓからそれぞれ相異なる
基準端ｖＨおよびＶＬが入力されている。ただし４！、
準値ＶＨ７ｄ基準値Ｖｔ、よりも大きく設定されている
。し刀・して音声入力の対数値パワーが基準値ＶＨより
も傷い場合にはコンパレータ（３２１）の出力がＨレベ
ルになる。このときインバータ鰻の出力はＬレベルにな
るので、アクトゲート（圓の出力はＬレベルになる。次
に音声入力の対数値パワーが基準値ＶＬよりも高く、か
つ基準値ＶＨよりも低い場合には、コシＪ＼し−９（３
２１）の出力灯Ｌレベル、］−Ｊパレータ（８２２）の
出力はＨレベル（ｙなり、アシドゲート（財）の出力は
Ｒレベルとなる。さらに音声入力の対数値パワーが基準
直ＶＬよりも低い場合に汀、コンパレータ（８２１）（
３２２）の出力は共にＬレベルになり、アンドゲート（
圓の出力ばＬレベルとなる。しかしてコシパレータ（３
２１）の出力およびアシドゲート（財）の出力にそれぞ
れＨ１号およびＬ信号としてＩ１０ボート（６）に入力
さねる。

次［ｔ２７）に加算器であり１対数変換器（１７１）に
よって得らするフィルタＦ１〜Ｆ８の出力の対数値に、
所定のバイアス１゛頁ヲ加算するものである。このバイ
アス値はＤ／Ａ　ＤンｔＳ−夕（２））から出力さｊる
ようになっテＢ　ｌ’）、Ｄ／Ａ　］−）バータｃＪｌ
ｖｃｔｉ′１ｔ１０ホード（６）からバイアス値がデジ
タルデータとして入力さねている。那算器幻の出力は差
ｗＪ増幅器瞥に入力されて、対数変換器（１７２）の出
力を減算される。っしたがって差動増幅器（１８）から
出力さする信号灯フィルタＦ１〜Ｆ８の出力ｆ１〜ｆ８
のデジタル値から音声入力のパワーのヂシベ１し値を減
算して振幅成分を規格化し１こ信号に所定のバイアス値
を加算した信号となる。この信号はサンプルホールド回
路（４）とＡ、／Ｄ　Ｄンバータ（５１ｆ：介してデジ
タルデータに変換され、■ルホート６１に入力される。

かかるデジタルデータは各フィルタＦｒ−Ｆｓの出力に
ついてそれぞれ８ピツトで表現さね、このため１フレー
ム当たりの情報量は６４ヒツトとなる。したがって例え
ば１秒間の音声入力に対応する情報量は１フレ一ム’１
１０ｍ５ｅｃとすれば、６４００ヒツトとなる。かかる
デジタルデータよりなる入力情報に入カバターンＲＡＭ
（９１に格納されるものである。

ところで入力される音声のうち、／１’、／／、／ｌ／
のような破裂音や、／Ｓ／のような摩擦音、あるいＩｒ
Ｖｒ／のような流者のパワーは、対数値で母音のＡ近く
に下かり、なおかつスペクトルの主要部は低音域と傷音
域とに現われるという性質がある。また母音はスペクト
ルの主要部が中音域ＶＣ集中し、かつパワーも大きいと
いう性質がある。しＴこかつて、音声パワーの谷の部分
、すなわち子音の部分では低音域および高音域を強調し
た照合処理を行ない、反対に音声ノ＼ワーの山の部分、
すなわち母音の部分では中音域を強肩しに照合処理を行
なうようにすね、ば、入力音声の認識精変金向上させ得
るものである。Ｈ／Ｌ　倹（８）回路町）および加算器
（＠にかかる照合処理の部分的な強調を行なうｒコめに
設けられたもノテあルｏ　＠　５６１ａｌ　（ｂｌ　ｎ
　”Ｌ’Ｊ知回路（３１）の創作を示すものであり、ま
ず第５図（ａ）　ｉｄ音声テータ「５ｅｎａｋａｏｓａ
ｓｕｒｅ　ｊにおける対数値パワーの時間変化を示して
いる。第５図（ａｌの対数値パワーのうち、上述のＨ／
Ｌ検出回路（３Ｉ）の辛準電圧ＶＨよりも高いけ６分を
山部とし、基準′螺圧ＶＬよりも高く基準厘王ＶＨより
も低い部分を谷部とすれば、第５図（ｂｌに示すように
子音部分と母音部分とからなる各音節Ｓｙｒ〜Ｓｙｓ　
／１いずれも「谷部十山部」の組合せで形成されている
ごとがわかる。したがってＩ（／Ｌ検出回路！３１）か
らＩ１０ホード（６）に入力されるＨ信号およびＬ信号
ＶＣ応じてバイアス値を切り変えれば、母音と子音との
固波数特性の差に応じた照合処理を行なうことができる
ものである。

第６喝はかかるバイアス値の切換動作を示すフしてＨ信
号およびＬ信号ｆ：読みとり、Ｈ信号が入力されている
ときには母音部分であると判定し、マルチプレクサ（３
１がフィルタＦ２〜Ｆ６に棲婿されているときにけＤ／
Ａ　：ｌ−１バータ（列に供給するＪＳイアス値を大き
くし、反対にフィルタＦＬ、Ｆ７、あるいにＦＢに椿続
されているときにばＬＩ／ＡコシＪＳ−夕１１匁に供給
するバイアス値？小さくするものである。

またＬ信号が入力されているときＶＣ汀子音部分である
と判定し、マルチづレフ＋ｊ１３）がフィルタＦ１％Ｆ
２、あるいはＦ７．　ＦＢに接続されているとき／１（
ｌｑＤ／Ａコシバーコン桐に供給するＪＳイアス値を大
きくするものであり、反対にフィルタＦ３〜Ｆｅ１７ｉ
′：接況さねているときにはＤ／Ａ　：ｌ−）バータ＠
１ノに供給されるバイアス値を小さくするものである。

このようにすわば母音部分については中音域が強調され
、子音部分【ついては低音域と高音域ｊが強調された入
カッ＼ターンが得られるものである。そしてこのように
ＪＳイアス値によって部分的に強調された入カバターン
と照合される標準ノ＼り、−ンば、入カハターシの場合
と１イ儂にバイアス値に裏ってん・公的に強調されｆこ
ハ゛ターンとしておくものである。このような嘩準ハタ
ーシは噸準的に発声した場合における入力バター−Ｊを
標準パターンＲＡＭ　（Ｉｌｌに成像することにより容
易に作成することができるものである。

ところで入カバターンは入力さ旧、る音声メツセージが
短いときにはサシプル数が少なくなり、反対に入力され
る音声メツセージが長いときに汀サンプル数が多くなる
。例えば音声入力が「ウニ」「ジ、り」のよう例継続時
間が０．５秒程ザの比較的短いものである場合ｖｃは、
入力ハターシは５ｏサシプル程度の短いものとなり、反
対（Ｃ音声入力が「セナカヲサスレＪや「カタヲ芒メ」
のまうｆｃ継続時間が１．５秒程度の比較的長いもので
ある場合に汀、入カバターンに１５０サシプル程准り）
長いものとなる。１こだし１サンプルは８子’ｆ’ｙネ
ル×８ピツト＝６４ピツトである。しかして本実施例に
おいては、短い音声メツセージに対する標準バターシの
サシづル数１／ｌｊ：　８２サシづルに統一し、長い音
声メ・リセージに対する噌準バターシのサシづル敗は１
２８サンプルに統一している。そ（−でサシプル数の少
ない入カパターシは３２サンプルの標準パターシと照合
し、サシプル数の多い入力バター：／は１２８サンプル
の標準ハターンと照合するようにしている。第７図は入
カバターンのサンつル数ヲ規格化する動作を示すフロー
チセートであり、まず入力パターンのサシプル数Ｓが６
４サンプルまりも多いときには、入力パターシのサンプ
ル＠ｒが１２８サンプルになるように規格化を行ない、
反対に入カバターンのサシプル数Ｓか６４サシプル以下
であるときＶＣは、入カバターンのサンプル数が３２サ
ンラル゛でなるように規格化を行なうものである。そし
てこのようにして３２サンプルまたは１２８サンフルに
規格化された入力へターシ全、サシプル数の等しい標準
バターシと照合するものである。

入カバターンと標準バターシとを照合する方法ごしては
、従来から広く用いられているＤＰマ・ソチ：／グ法や
相互相関係数を計算する方法のほか、任意の方法を用い
ることができるが、ここでは両バターフの相互羽辺係数
？計唾する方法について簡ｆｉｆｆ説明しておく。例１
えば入カバターンの１子セシネル分のサンづル・面金ｘ
１〜Ｘ３２とし、同じチセンネルｆおける象伽パターン
のサンプル！ｉ１！全７１〜７３２とすると、両パター
ンの１千１７シネル分の相互相輸係教Ｒは第８同に示す
ようなアルゴリズムで簡単に計算することができる。す
なわち、まずｘｉおよびＹｉ／ｆの各平均値ｘｍおよび
ｙｍヲ求めて、各ｘｉおよびｙｉと平均値ｘｍおよびｙ
ｍとの差の積（ｘｉ　−ｘｍ　）（ｙｉ−ｙｍ）の総和
を求める。そしてこの襦和ｆ　ｘｍおよびｙｍの夫々の
幾何平均で割ること例より相互相四係数Ｒ’ｋ　’ｌ出
することができるものである。

この計課手１１伯中、サンプルｇ！１Ｂ２１．でよる除
算はレジスタ上の２進デ一タ全５回右シフトすることに
より容易に行なうことができる。しかしてか刀する相互
相関係数Ｒｉ各チ′ｐ、：／ネル（Ｃついて大々計算し
て、その総和が最大である標準パターンが入カバターン
に最も近いパターンであると判定されるものである１、
このようｌてして入力パターンに一番近い標準パターン
が判定されると、その標準パターンに対応する制御命令
がＩ１０ホートロ）２介して破割ａ機＠瞥に送出される
ようになっている。１こだし、入カバターンに１番近い
標準パターンにつＬｌでの頓似闇が所定の基準値を下回
っている場合や、人カッ＼ターンに２：を目に近い標準
パターンにつＬ）での類似度との差がきわめて小さシ）
場合には被制御機器（１３）に制御命令を送出せずに、
音声の再入力を促すものである。

本発明は以上のように構成されており、通過周波数帯域
の異なる複数個のフィルタにより、音声入力の周波数成
分に応じた入力バターニアを作我し、複数種の音声メツ
セー、；を標準的に発声したときに生じる各入カバター
ン全標準パターンとしてメモリに予め記憶し、入カバタ
ーンと各標準パターンと全照合して入カバターンとの類
似度が最大となる標準パターンを入力メツセージとして
識別する方式において、音声入力の大きさを検出する手
段を投けて、音声入力の小さい子音部分では音声入力の
うち低音域および高音域全検出するフィルタの出力を強
調し、音声入力の大きい母音部分で汀音声人力１′）う
ち中音域全検出するフィルタの出力？、、ψ週して入カ
ッ＼ターン全作成するようにしγこものでちるから、音
声入力のうち母音の部分ヲ、識別する際′（は母音の周
波′ａ成分が多く分布している中音域の、特徴が強調し
て識別され、反対に子音の部分を識別する際には子音の
周波数成分が多く分布している高音域および低音域の特
徴が強調して域別されるものであり、したがって音声メ
ツセージの認識率が向上するという利点を何するもので
ある。

【図面の簡単な説明】

第１図は従来例のブロック閃、第２１’Ｊは本発明の一
実施例のづロック図、第３１図は向上の要部ブロック回
路−１、第４　’ａ　（ａｌ　−（ｄｌおよび＠５図ｆ
ａｉ　（ｂｌ　ｉｊ同上の忙作悦明図、％６図乃至第８
川に同上の動作２示すフロー千セートである。Ｆ１〜Ｆ８はフィルタ、ｔ９）　ｉ１人カバターごメモ
リ、１１］は標準パターンメ七り、（２７；は加算器、
（４））」／Ａ〕ンバータ、４３１１けＨ／Ｌ検珊回路
である。代理人　弁理士　　石　１）長　七１６図１ｉ１７図手続補正書（自発）昭和５８年５月１を日特許庁長官殿２、発　明の名称音声メツセージ識別方式３、補正をする者事件との関係　　　　　　特許出願人件　　所　　大阪府門真市大字門真１０４８番地名　称
　（５８３）松下電工株式会社代表者小　林　　郁４゜代理人電話大阪（０６）　３４５−７７７７　（代表）５、補
正命令の日付自　　　　発訂　　　　　正　　　　　書出願番号　　特許１１８５７−９３５３９Ｊｙ９１、　
不顧明細Ｍ第１はの特許請求の範囲金欠のように訂正致
します。［・ｌ）　通過周波帯域の異なる複数個のフィルタによ
り、音声入力の周波ｆｆ１ｆｆ１分に応じ九人カバター
ンを作成し、複奴種の音声メツセージ全標準的に発声し
たときに生じる各入カバターンを標準パターンとしてメ
七りに予め記慣し、入カバターンと各標準ＪＳターンと
ｋｍ合して入カバターンとの類似度か最大となる標準パ
ターンを人力メツセージとして識別する方式において、
音声入力の子音部分では音声入力のうち低音域および高
音域を検出するフイ′ルタの出力ヲ強禰し、音声入力の
母音部分では音声入力のうち中音域を検出するフィルタ
の出力？強調して入カバターン？作成することを特徴と
する音声メツセージ！　ＷＩＪ刀式。」２、　同上第１
５貞第１５行目の１できる。」の後に次の文を挿入式し
ま丁。ｉｌ＋［また木実施例にあっては、各サンプルｉ＋ｆａｘｉ１
．ｌは対奴変換されているので、積の代わりにΣ 和？とって・（ｘｉ＋ｙｉ）によって相互相関係奴Ｒ’
ｚ略式計算することも０Ｔ能であり、この揚台には平均
値ｘｒｎｔ釆める手数か１略できるものである。」３、　同上第１６貞第１７行目乃至第１８行目の［大き
さを・・・・・・・小さい、Ｊ’ｔｒｆｇｌＪ除炊し１
丁。４、同上第１６頁第２０行目の「大きい」を剛途致しま
す。代理人　弁理士　　ろ　１）長　七

Claims

【特許請求の範囲】

（１１通過周波数帯域の異なる複数個のフィルタにより
、音声入力の周波数成分に応じた入力バター：／全作成
し、複を種の音声メツセージを標準的に発声したときに
生じる各入力パターンを標準パターンとしてメモリに予
め記憶し、入カハターシと各標準パターンとを照合して
入カバターンとの類似便が最大となる標準パターンを入
力メツセージとして識別する方式において、音声入力の
大きさを検出する手段を設けて、音声入力の小さい子音
部分では音声入力のうち低音域および高音域を検出する
フィルタの出力を強調し、音声入力の大きい母音部分で
は音声入力のうち中音域全演出するフィルタの出力を強
調して入カバターンを作成することを特徴とする音声メ
ツセージ識別方式。