JPH0369996A

JPH0369996A - 音声認識装置

Info

Publication number: JPH0369996A
Application number: JP1204804A
Authority: JP
Inventors: Shinji Takahashi; 伸治高橋; Koji Kawashima; 河島　浩二
Original assignee: Ibiden Co Ltd
Current assignee: Ibiden Co Ltd
Priority date: 1989-08-09
Filing date: 1989-08-09
Publication date: 1991-03-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］この発明は音声認識装置に関するものであり、特に、階
層構造に接続された複数個のＣＰＵによって所要のデー
タ処理部を１戒し、対象の入力音声信号に関する前処理
を下位階層をなすＣＰＵ群で実行するとともに、音声認
識のためのパターン・マッチング処理を上位階層をなす
ＣＰＵ群で分担して実行することにより、音声の認識処
理が迅速かつ的確に行われるようにされた音声認識装置
に関するものである。

［従来の技術］第４図は、パワー・パターン・マッチング手法に基づく
、−殻内な音声認識装置を原理的に示す概略ｔＲ戒図で
ある。この第４図において、音声入力部（４０）は適当
なマイクロホン（４０＾〉およびマイク・アンプ（４０
Ｂ）からなるものである、そして、これに続けて、特徴
抽出部（４１）およびｚ２識処理部（４２）が順次接続
されており、この認識処理部（４２）の後段には、登録
パターン・メモリ（４３）と認識パターン・メモリ（４
４）とが並列に接続されている。

なお、認識処理部（４２）、登録（標準）パターン・メ
モリ（４３）および認識パターン・メモリ（４４）は、
ある所要のデータ処理機能を備えたデジタル・コンピユ
ータ・システムとして具体化されている。

そして、この−殻内な音声認識装置の動作についてみる
と、Ａ）認識すべき音声を単語単位で登録する登録モー
ド、および、Ｂ）入力された音声を認識する認識モード
の双方のモードで動作するものである。

Ａ）登録モード：マイクロホン（４０＾）およびマイク・アンプ（４０Ｂ
）を備えた音声入力部（４０）からの音声信号は、その
特徴が特徴抽出部（４１）において抽出されて、時系列
パターンとして登録（標準）パターン・メモリ（４３）
に登録・格納される。

Ｂ）認識モード：マイクロホン（４０＾）およびマイク・アンプ（４０Ｂ
）を備えた音声入力部（４０）からの音声信号の特徴が
特徴抽出部（４１）において抽出されるまでは、前記登
録モードの場合と同様であるが、この認識モードの場合
には前記の特徴が認識パターン・メモリ（４４）に格納
される０次いで、この認識パターン・メモリ（４４）に
現に格納されている内容と登録（標準）パターン・メモ
リ（４３〉に登録・格納されている幾つかの登録パター
ンとの間の類似度が、認識処理部（４２）における所定
の演算処理によって算出される。そして、最大の類似度
のものが対応の認識パターンとして得られることになる
。

第５図は、例えば特開昭５６−１２２０９８号に開示さ
れているような、従来の音声認識装置を示す概略構成図
である。この第５図において、音声入力部（５０）を構
成するものは、マイクロホン（５０１）、マイク・アン
プ（５０２）、および、入力音声信号のレベルを入力音
声の強弱にかかわらずほぼ一定に保持するＡＧＣ回路（
５０３）である。

また、このＡＧＣ回路（５０３）の後段におけるＭ個の
帯域通過フィルタ（以下ＢＰＦと略記）（５１１−１）
、（５１１−２）、・・・（５１１−Ｍ）は、それぞれ
に、対応の低域フィルタ（以下ＬＰＦと略記）（５１２
−１）、（５１２−２）、・　・・（５１２−Ｍ）と接
続されて、所要の特徴抽出部（５１）の主要部がｉｅ、
されている。

次に、ＬＰＦ　　（５１２−１）、（５１２〜２）、・
・・（５１２−Ｍ）は、マルチプレクサ（５１３）の入
力部に並列に接続されていて、それぞれのフィルタ成分
がある所定の時間間隔をもって直列に加゛えられ、所要
のサンプリングがなされる。そして、このようにサンプ
リングされたアナログ信号は、次段のＡ−Ｄ変換器（５
１４）に加えられて、対応のデジタル信号にされる。音
声検出回路（５１５）は、ＡＧＣ回路（５０３）と後述
されるＩ１０ボート（５２６）との間に接続されていて
、入力音声信号の始端および終端を、当該入力音声信号
のレベル、周波数分布、ゼロ交差数等の所要のデータに
基づいて規定するようにされる。全域Ｌ　Ｐ　Ｆ　（５
１６）は、ＡＧＣ回路（５０３）とマルチプレクサ（５
１３）との間のバイパス路を形式するようにされていて
、音声入力部（５０〉がらの全音域音声信号の信号振幅
エンベロープを検出するようにされる。また、ピーク検
出回路（５１７）は、ＡＤ変換器（５１４）と工／○ボ
ート（５２６）との間に接続されていて、対象の音声信
号の極大値を検出するようにされる。即ち、前記特徴抽
出部（５１）の全体的なｍ戒は、これら各種の手段によ
りなされるものである。

また、デジタル・コンピュータ・システム（５２）は以
下の諸手段によって構成されている。即ち、ＣＰ　Ｕ　
（５２１）、バッファ・メモリ（５２２）、ＲＯＭ（５
２３）、登録（標準〉パターン・メモリ（５２４）、お
よび、認識パターン・メモリ（５２５）であって、これ
らの手段は、前段の特徴抽出部（５１）の所要部位と接
続された■／○ボート（５２６）との間で、適当なデー
タ・バス（５２７）を介して相互に接続されている。な
お、所要の入力制御部（５２８）がＩ１０ボー）　（５
２６）に接続されており、また、一種のワーキング・メ
モリである認識処理用メモリ（５２９）がデータ・バス
（５２７）を介して前記の諸手段と相互に接続されてい
る。

以下、上記された従来例の動作について説明する。

いま、マイクロホン（５０１）により、ある音声信号が
入力されたとすると、マイク・アンプ（５０２）および
ＡＧＣ回路（５０３）を介して、Ｂ　Ｐ　Ｆ　（５１１
−１）、（５１１−２）、・・・（５１１−Ｍ）に加え
られ、ここで所定の周波数成分からなる信号に分解され
る。

このように分解された成分信号は、それぞれに対応のＬ
ＰＦ　（５１２−１）、（５１２−２）　、　　・・・
（５１２−Ｍ）に加えられて、所要の特徴抽出がなされ
る。

このように、所要の特徴抽出がなされた結果としての各
ＬＰＦ毎のアナログ信号は、マルチプレクサ（５１３）
を介して、Ａ−Ｄ変換器（５１３）により対応のデジタ
ル信号に変換される。

そして、このようにして得られたデジタル信号はデータ
・バス（５２７）を介してバッファ・メモリ（５２２）
に取り込まれる。なお、前記デジタル信号がピーク検出
回路（５１７）を通される場合には、所定のピーク信号
が取り込まれることになる。

次いで、前記バッファ・メモリ（５２２）に取り込まれ
たデジタル信号について、これがサンプリングされて認
識パターン・メモリ（５２５）に記憶されている対応の
データが、ＣＰ　Ｕ　（５２１）の動作により、登録（
標準）パターン・メモリ（５２４）に登録されている標
準的なデータとの間でのパターン・マッチングが収られ
て、入力された音声信号の認識が行われる。

このような従来例においては、規格化等の所要の演算処
理が単一のＣＰＵによって行われているために、所要の
作業を連続して行うことが困難であり、また、専用ハー
ドウェアによるときには、入力条件のいかん等によりフ
ィードバック動作が容易ではなくなる。また、処理すべ
き単語数が多くなると、所望の高速処理が極めて困難に
なる。

［発明が解決しようとする課題］上記されたように、従来の音声認識装置においては、規
格化等の所要の演算処理が単一のＣＰＵによって行われ
ており、所要の作業を連続して行うことが困難であるこ
と、専用ハードウェアによるときには、入力条件のいか
ん等によりフィードバック動作が容易ではなくなること
、処理すべき単語数が多くなると、所望の高速処理が極
めて困難になること等の問題点があった。

この発明は、上記の問題点を解決するためになされたも
のであって、階層構造に接続された複数個のＣＰＵによ
って所要のデータ処理部を構成し、対象の入力音声信号
に関する前処理を下位階層をなすＣＰＵ群で実行すると
ともに、音声認識のためのパターン・マッチング処理を
上位階層をなすＣＰＵ群で分担して実行することにより
、音声の認識処理が迅速かつ的確に行われるようにされ
た音声認識装置を提供することをＢ的とするものである
。

［課題を解決するための手段］この発明に係る音声認識装置は、入力音声信号を対応の電気信号に変換する音声入力部；前記入力音声信号の波形における特徴部分を抽出する特
徴抽出部：および、階層構造をなして接続された複数個のＣＰＵからなるデ
ータ処理部；を含んでなるものである。

［作用］この発明によれば、入力音声信号に間するノイズ除去の
ような前処理を下位階層をなすＣＰＵ群で実行するとと
もに、音声認識のためのパターン・マッチング処理を上
位階層をなすＣＰＵ群で分担して実行するようにされる
。

［実施例］第１図は、この発明の第１実施例に係る音声認識装置を
示す概略楕或図である。この第１図において、音声入力
部（１０）は適当なマイクロホン（ＩＯＡ＞およびマイ
ク・アンプ（１０Ｂ）からなるものである。

そして、これに続けて、所要個数（この例においては４
個）の帯域通過フィルタ（以下ＢＰＦと略記）（１１−
１）、　（１１−２）、（１１−３）、（１１−４）は
、所定の接点構成部（１２）を介して、適宜に対応する
４個のマルチプレクサ（以下ＭＰと略記）（１３−１）
、　（１３−２）、（１３−３）、（１３−４）に接続
されている。そして、これらのＭ　Ｐ　（１３−１）、
（１３−２）、（１３−３＞、（１３−４）の後段には
、それぞれに対応するＡ／Ｄ変換器（１４〜１）、（１
４−２）、（１４−３）、（１４−４＞が接続されてい
る。更に、これらのＡ／Ｄ変換器（１４−１）、（１４
−２）、（１４−３）、（１４−４＞に続けて、＃１階
層コンピュータを構成するＣ　Ｐ　Ｕ　（１５−１）、
（１５−２）、（１５−３）、（１５−４＞がそれぞれ
に接続されている。そして、ＣＰ　Ｕ　（１５−１＞お
よび（１５−２）の後段にはＣＰ　Ｕ　（１６−１）が
接続され、ＣＰ　Ｕ　（１５−３）および（１５−４）
の後段にはＣＰＵ（１６−２＞が接続されていて、これ
らのＣＰ　Ｕ　（１６−１）および（１６−２＞により
＃２階層コンピュータが構成されている。更に、これら
のＣＰ　Ｕ　（１６−１＞および（１６−２）の後段に
は、＃３ｔｌｌＪＩコンピュータを構成するＣ　Ｐ　Ｕ
　（１７）が接続されている。また、上位コンピュータ
としてのホスト・コンピュータ（１８）がＣＰ　Ｕ　（
１７）の後段に接続されている。

第２図は、この発明の第２実施例に係る音声認識装置を
示す概略ｔｌＩ戒図である。この第２図において、音声
入力部（２０）は適当なマイクロホン（２０＾）および
マイク・アンプ（２０Ｂ）からなるものである。

そして、これに続けて、所要個数（この例においては５
個）の帯域通過フィルタ（以下ＢＰＦと略記）（２１−
１）、（２１−２）、・・・（２１−５）には、それぞ
れに対応するＡ／Ｄ変換器（２２−１）、　（２２−２
）、・（２２−５）が接続されている０次いで、これら
のＡ／Ｄ変換器（２２−１）、（２２−２）、・・・（
２２−５）の後段には、それぞれに対応するＣ　Ｐ　Ｕ
　（２３−１）、（２３−２）、・・・（２３−５）が
接続されて、入力音声信号に関するノイズ処理を行うた
めの＃１階層コンピュータを構成している。そして、こ
の＃１階層コンピュータの後段には、音声データ・バス
（２４）を介して所要個数（この例においては８個）の
ＣＰＵＣＰＵ（２５−１）、（２５−２）、・・・（２
５−８）が接続されていて、これらにより＃２階層コン
ピュータが構成されている。次いで、ＣＰ　Ｕ　（２５
−１）および（２５−２）の後段にはＣＰ　Ｕ　（２６
−１）が接続され、ＣＰ　Ｕ　（２５−３）および（２
５−４）の後段にはＣＰ　Ｕ　（２６−２）が接続され
、ＣＰ　Ｕ　（２５−５）および（２５−６）の後段に
はＣＰＵ（２６−３）が接続され、また、ＣＰ　Ｕ　（
２５−７）および（２５−８）の後段にはＣＰ　Ｕ　（
２Ｂ−４）が接続されていて、これらのＣＰ　Ｕ　（２
６−１）、（２６−２）、（２６−３）、（２６−４）
により＃３階層コンピュータが構成されている。

また、ＣＰ　Ｕ　（２６−１）および（２６−２）の後
段にはｃｐＵ　（２７−１）が接続され、ＣＰ　Ｕ　（
２６−３）および（２６−４）の後段にはＣＰ　ｔＪ　
（２７−２＞が接続されていて、これらのＣＰ　Ｕ　（
２７−１）、（２７−２）により＃４階層コンピュータ
が構成されている。更に、これらのＣＰＵ（２７−１）
および（２７−２）の後段には、＃５階層コンピュータ
を構成するＣ　Ｐ　Ｕ　（２８）が接続されている。ま
た、上位コンピュータとしてのホスト・コンピュータ（
２９）がＣＰ　Ｕ　（２８）の後段に接続されている。

第３図は、この発明の第３実施例に係る音声認識装置を
示す概略横戊図である。この第３図において、音声入力
部〈３０〉は適当なマイクロホン（３０＾〉およびマイ
ク・アンプ（３０Ｂ）からなるものである。

そして、これに続けて、所要個数（この例においては４
個）の帯域通過フィルタ（以下ＢＰＦと略記）（３１−
１＞、　（３１−２）、＜３ｌ−３）、（３１−４）に
は、それぞれに、対応するＡ／Ｄ変換器（３２−１）、
（３２−２）、（３２−３）、（３２−４）が接続され
ている１次いで、これらのＡ／Ｄ変換器（３２−１）、
（３２−２）、（３２−３＞、＜３２−４）の後段には
、それぞれに対応するＣＰＵ（３３−１）、（３３−２
＞、（３３−３）、（３３−４）が接続されていて、こ
れらにより＃１階層コンピュータが構成されている。そ
して、ＣＰ　Ｕ　（３３−１）および（３３−２）の後
段にはＣＰ　Ｕ　（３４−１）が接続され、ＣＰＵ（３
３−３）および（３３−４）の後段にはＣＰ　Ｕ　（３
４−２＞が接続されていて、これらのＣＰ　Ｕ　（３４
−１）、（３４−２）により＃２１１１Ｊ！ｌコンピュ
ータが構成されている。

更に、これらのＣＰ　Ｕ　（３４−１）および（３４−
２）の後段には、＃３階層コンピュータを構成するＣＰ
ｔＪ（３５）が接続されている。また、上位コンピュー
タとしてのホスト・コンピュータ（３６〉がＣＰ　Ｕ　
（３５）の後段に接続されている。

この第３実施例においては、次のような認識アルゴリズ
ムが実行される。

（イ）デジタル化された単語音声の登録ＢＰＦ　（３１
−１）、（３１−２）、（３１−３）、　（３１−４）
には、それぞれに、互いに異なる特定の中心周波数を有
する帯域が個別に割り当てられている。そして、この特
定の中心周波数に帯域化された単語音声波形を、対応の
単語音声のエネルギを表わす直流電圧波形に整形する。

そして、これを対応のＡ／Ｄ変換器（３２−１）、（３
２−２）、（３２−３）、（３２−４＞を介して、＃Ｉ
Ｎ層コンピュータを構成するＣＰＵ（３３−１）、（３
３−２）、（３３−３）、（３３−４）のメモリ部（図
示されない）に記憶させる。このようにして記憶された
単語音声データは、＃２階層コンピュータをｉ戒する　
ＣＰ　Ｕ　（３４−１）、　（３４−２）、および、＃
３階層コンピュータをｉ戒するＣ　Ｐ　Ｕ　（３５）を
経由してホスト・コンピュータ（３６）に送られて、そ
のデイスプレィ部にグラフィック表示される。そして、
正確な登録がなされたか否かがここで確認される。例え
ば、ノイズ等が誤って登録されたとしても、ここでの確
認作業により直ちに変更または取り消しをすることがで
きる。

（ロ）　＃１階層コンピュータによる認識＃１階層コン
ピュータを構成するＣＰＵ（３３−１）、（３３−２）
、（３３−３）、（３３−４）においては、複数個の単
語音声の登録を行ってから、新たに入力される音声波形
について、既に登録しである全ての単語音声の波形との
相関を求め、その結果を＃２階層コンピュータを構成す
る　ＣＰ　Ｕ　（３４−１＞、（３４−２）・に送る。

（ハ）　＃２、＃３階層コンピュータによる認識＃２、
＃３１１ｉｔ層コンピュータにおいては、それぞれに、
下位の２台のＣＰＵから送られた各単語との相関係数に
基づいて、新たに相間係数を総合した値の算出を行い、
これをより上位のＣＰＵに送る。ここで、＃３階層コン
ピュータを構成するＣ　Ｐ　Ｕ　（３５）は全ての周波
数から得られる相関係数の総合値を求めたことになる。

（ニ）ホスト・コンピュータによる動作ホスト・コンピ
ュータ（３６）は、＃３階層コンピュータをｍ成するＣ
　Ｐ　Ｕ　（３５）から送られてきた各登録単語との相
関係数の総合値の最も大きなものを、発声単語と認識し
て適当に表示を行う。

［発明の効果〕以上説明されたように、この発明に係る音声認識装置は
、入力音声信号を対応の電気信号に変換する音声入力部；前記入力音声信号の波形における特徴部分を抽出する特
徴抽出部；および、階層構造をなして接続された複数個のＣＰＣＩからなる
データ処理部；を含んで構成されており、入力音声信号に間するノイズ除去のような前処理を下位
階層をなすＣＰＵ群で実行するとともに、音声認識のた
めのパターン・マッチング処理を上位階層をなすＣＰＵ
群で分担して実行するようにされていることから、音声
の認識処理が迅速かつ的確に行われるという効果が奏せ
られるものである。

【図面の簡単な説明】

第１図は、この発明の第１実施例に係る音声認識装置を
示す概略構成図、第２図は、この発明の第２実施例に係
る音声認識装置を示す概略構成図、第３図は、この発明
の第３実施例に係る音声認識装置を示す概略構成図、第
４図は、−殻内な音声認識装置を原理的に示す概略構成
図、第５図は、従来の音声認識装置を示す概略構成図で
ある。（１０）は音声入力部、（１０＾）はマイクロホン、（ＩＯＢ）はマイク・アンプ、（１１−１）、・・・（１１−４）は帯域通過フィルタ
（ＢＰＦ）、（１２）は接点ｔＩＩ或部、（１３−１）、　　・・・（１３−４）はマルチプレク
サ（ＭＰ）、（１４−１）、・・・（１４−４）はＡ／
Ｄ変換器、（１５−１＞、・・・（１５−４）は＃１コ
ンピュータを構成するＣＰＵ、（１６−１＞、（１６−２）は＃２コンピュータを構成
するＣＰＵ。（１７）は＃３コンピュータを構成するＣＰＵ、（１８
）はホスト・コンピュータ。

Claims

【特許請求の範囲】

（１）入力音声信号を対応の電気信号に変換する音声入
力部；前記入力音声信号の波形における特徴部分を抽出する特徴抽出部；および階層構造をなして接続された複数個のＣＰＵからなるデータ処理部；を含んでなる音声認識装置であって；前記入力音声信号に関する前処理を下位階層をなすＣＰＵ群で実行するとともに、音声認識のた
めのパターン・マッチング処理を上位階層をなすＣＰＵ
群で分担して実行するようにしたことを特徴とする音声
認識装置。