JP3363660B2

JP3363660B2 - 音声認識方法及び音声認識装置

Info

Publication number: JP3363660B2
Application number: JP12284395A
Authority: JP
Inventors: 義博青井; 俊幸渡辺; 明石田
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1995-05-22
Filing date: 1995-05-22
Publication date: 2003-01-08
Anticipated expiration: 2018-01-08
Also published as: JPH08314500A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識方法及びその装
置に関し、特に、話者が逐次的に発声した数字列の各数
字を個別に音声認識するために好適な音声認識方法及び
その装置に関する。

【０００２】

【従来の技術】ビデオテープレコーダの録画予約の操作
は機械操作が苦手な人達、特に老人にとっては難しいと
されており、それを容易にする技術としてＧコードと称
される数字列を利用したビデオテープレコーダの録画予
約のための手法が近年普及している。このＧコードは、
一般的には２桁乃至８桁程度の数字列を専用の装置に入
力すると、その数字列がデコードされてビデオテープレ
コーダの録画予約に必要な諸データ、即ちチャネル番
号，録画開始日時，録画時間等がビデオテープレコーダ
に設定されるものである。換言すれば、上述の諸データ
を所定の法則に従ってエンコードすることによりＧコー
ドが生成される。このようにして生成されたＧコードは
新聞等に掲載されている。従って、ユーザは新聞等に掲
載されているＧコードを見つつ専用の装置に数字列を入
力すればよいので、機械操作が苦手な人達でも容易にビ
デオテープレコーダの録画予約を行なうことが可能であ
る。

【０００３】しかし現実には、未知の数字列の各数字を
逐次的にキー操作により入力することは意外に面倒であ
って、途中で間違って最初から再入力する必要が生じる
ことが多い。これは、たとえば自身が記憶している電話
番号を入力するのであれば、ユーザはキーのみに視線を
置いてキー操作が可能であるが、Ｇコードのような未知
の数字列を入力する場合には、ユーザは新聞等に掲載さ
れている数字列と装置のキーとの間で視線を往復させつ
つキー操作を行なう必要があるためである。

【０００４】このような事情から、Ｇコードを音声入力
することが考えられる。その場合には、ユーザは新聞等
に掲載されているＧコードの数字列上に視線を固定した
状態で各数字を順に読み上げるのみでよいため、途中で
再入力しなければならないという状態に陥る虞は少なく
なる。

【０００５】一方近年、所謂移動電話機と称される無線
式の電話機が普及している。移動電話機には大きく分け
て主として自動車に装備される自動車電話機と、利用者
が持ち運ぶ携帯電話機とがあり、両者に兼用可能なタイ
プもある。自動車電話機では、安全性の観点から運転者
が手を触れずに操作可能な所謂ハンズフリータイプであ
ることが望ましい。ハンズフリータイプの電話機は、通
常の電話機においても回線が接続された後の状態として
は既に実用化されているが、ダイヤルの操作に関しては
ユーザ自身の手で操作する必要がある。しかし特に自動
車電話機の場合、ユーザが運転中にダイヤルボタンを操
作する際には手と視線がそちらにとられるために非常に
危険な状態になる。従って、最初にメインスイッチをオ
ンするのみにて、電話番号を音声入力し、それによって
回線が接続した後はそのままハンズフリーで通話可能で
あることが望ましい。

【０００６】

【発明が解決しようとする課題】ところで現状の音声認
識の技術では、万人のあらゆる言葉を音声認識すること
は困難であり、一般的には予め登録した人の音声による
ある限定された範囲の言葉のみを主としてパターンマッ
チング等の手法により認識する場合が多い。しかし、異
なる読みを含めても15種類程度の言葉で表される数字の
みに認識対象を限定すれば、万人の音声を認識すること
も可能である。従って、上述のようなＧコードの入力装
置、あるいは電話番号の入力装置等のような数字のみを
対象とする用途には万人を対象とした音声認識の技術は
充分に実用可能である。

【０００７】しかし、上述のＧコードあるいは電話番号
等は通常は単独の数字ではなく、ある程度の桁数の数字
列である。このため、話者が発声する個々の数字を個別
に音声認識し、それらの認識結果を順次的に蓄積してお
き、話者から指示があった時点で、あるいは予め定めら
れた桁数に達した時点で数字列のデータとして本来それ
が入力されるべき装置へ一括して転送するような手法が
必要になる。

【０００８】そのような手法では、認識対象の数字列を
構成する各数字の入力音声を確実に認識する必要がある
が、個々の数字は一音節または二音節であるため、通常
の単語あるいは文章を音声認識する際に一般的に利用さ
れている手法、即ち予め登録されている音声パターンと
のパターンマッチングの手法よりはニューラルネットワ
ークの利用が好ましい。しかし、この場合には、認識対
象のデータ、具体的には音声のパワー（音圧）の切り出
し手法、具体的には切り出し閾値の設定が重要になる。

【０００９】ところで、ニューラルネットワークを利用
して音声認識を行なう場合、ニューラルネットワークの
入力層に与えられるデータの時間軸方向のズレが認識率
を大きく左右する。即ち、ニューラルネットワークの入
力層に与えられるデータの切り出し閾値を甘くした場合
には実際の音声区間以前及び以後の無意味な部分が多く
含まれ、逆に厳しくした場合には実際の音声区間が切り
捨てられる虞が大きくなるため、認識率を左右する大き
な要因となっている。

【００１０】このような事情から、たとえばWaibelらに
よるTDNN(Time Delay Neural Network) と称される手法
が提案されている (甘利俊一他「音声、聴覚と神経回
路網モデル」オーム社刊、久間和生他「ニューロコン
ピュータ工学」工業調査会刊等) 。このTDNNでは、時間
軸方向のズレを吸収するために、ニューラルネットワー
クは入力層，第１中間層，第２中間層，出力層の４層に
構成されており、更に出力層以外の各層はニューロンが
マトリクス状に配置されている。このような構成によ
り、かなり高い認識率が得られることが報告されている
が、実際の民生器具として実用化するにはニューラルネ
ットワークの構成が複雑でコスト面等の問題がある。

【００１１】本発明はこのような事情に鑑みてなされた
ものであり、ニューラルネットワークを利用して音声認
識、特に複数桁の数字列を構成する個々の数字を音声認
識する場合の、ニューラルネットワークの入力層に与え
るべきデータの切り出しを工夫することにより、一般的
な３層のニューラルネットワークを利用しても実用上充
分な認識率が得られる音声認識方法及び音声認識装置の
提供を目的とする。

【００１２】

【課題を解決するための手段】本発明は、認識対象とし
て発声された音声信号を分析して得られたデータの内の
第１の閾値以上である部分を取り込む一次切り出しを行
なうことにより音声信号の時系列推移のデータを求め、
一次切り出しにより求められたデータの内の第２の閾値
以上である部分を認識処理の対象として取り込む二次切
り出しを行ない、二次切り出しにより得られたデータを
対象として音声認識処理を行なう音声認識方法であっ
て、二次切り出しを行なうための第２の閾値を、一次切
り出しにより得られたデータの最大値に応じて複数設定
し、設定された複数の第２の閾値それぞれによる二次切
り出しにより得られたデータを対象としてニューラルネ
ットワークによる音声認識処理を行ない、複数のデータ
を対象として得られた複数の音声認識処理の結果に基づ
いて最終的な音声認識結果を判定することを特徴とす
る。

【００１３】また本発明は、認識対象として発声された
音声信号を複数の周波数帯域それぞれに分割して分析し
て得られたデータの内の総和（又は平均値) が第１の閾
値以上である部分を取り込む一次切り出しを行なうこと
により音声信号の各周波数帯域それぞれの時系列推移の
データを求め、一次切り出しにより求められた各周波数
帯域のデータの総和（又は平均値) の内の第２の閾値以
上である部分を認識処理の対象として取り込む二次切り
出しを行ない、二次切り出しにより得られた各周波数帯
域のデータを対象として音声認識処理を行なう音声認識
方法であって、二次切り出しを行なうための第２の閾値
を、一次切り出しにより得られた音声信号の各周波数帯
域のデータの総和（又は平均値) の最大値に応じて複数
設定し、設定された複数の第２の閾値それぞれによる二
次切り出しにより得られたデータを対象としてニューラ
ルネットワークによる音声認識処理を行ない、複数のデ
ータを対象として得られた複数の音声認識処理の結果に
基づいて最終的な音声認識結果を判定することを特徴と
する。

【００１４】更に本発明は、認識対象として発声された
音声信号を分析する音声分析部と、音声分析部により得
られたデータの内の第１の閾値以上である部分を取り込
む一次切り出しを行なうことにより音声信号の時系列推
移のデータを求め、一次切り出しにより求められたデー
タの内の第２の閾値以上である部分を認識処理の対象と
して取り込む二次切り出しを行なう音声区間検出部と、
音声区間検出部が二次切り出しにより得たデータを対象
として音声認識処理を行なう音声認識部とを備えた音声
認識装置であって、音声区間検出部は、一次切り出しに
より得られたデータの最大値を求める手段と、この手段
により求められた最大値に応じて第２の閾値を複数設定
する手段とを備え、音声認識部は、音声区間検出部によ
り設定された複数の第２の閾値それぞれによる二次切り
出しにより得られたデータを対象として音声認識処理を
行なうニューラルネットワークと、このニューラルネッ
トワークにより複数のデータを対象として得られた複数
の音声認識処理の結果に基づいて最終的な音声認識結果
を判定する手段とを備えたことを特徴とする。

【００１５】また更に本発明は、認識対象として発声さ
れた音声信号を複数の周波数帯域それぞれに分割して分
析する音声分析部と、音声分析部により得られたデータ
の内の総和（又は平均値) が第１の閾値以上である部分
を取り込む一次切り出しを行なうことにより音声信号の
各周波数帯域それぞれの時系列推移のデータを求め、一
次切り出しにより求められた各周波数帯域のデータの総
和（又は平均値) の内の第２の閾値以上である部分を認
識処理の対象として取り込む二次切り出しを行なう音声
区間検出部と、音声区間検出部が二次切り出しにより得
た各周波数帯域のデータを対象として音声認識処理を行
なう音声認識部とを備えた音声認識装置であって、音声
区間検出部は、一次切り出しにより得られた音声信号の
各周波数帯域のデータの総和（又は平均値) の最大値を
求める手段と、この手段により求められた最大値に応じ
て第２の閾値を複数設定する手段とを備え、音声認識部
は、音声区間検出部により設定された複数の第２の閾値
それぞれによる二次切り出しにより得られたデータを対
象として音声認識処理を行なうニューラルネットワーク
と、このニューラルネットワークにより複数のデータを
対象として得られた複数の音声認識処理の結果に基づい
て最終的な音声認識結果を判定する手段とを備えたこと
を特徴とする。

【００１６】

【作用】本発明に係る音声認識方法では、認識対象とし
て発声された音声信号を分析して得られたデータの内の
第１の閾値以上である部分を取り込む一次切り出しによ
り音声信号の時系列推移のデータが求められ、この一次
切り出しにより得られたデータの最大値に応じて第２の
閾値が複数設定され、一次切り出しにより求められたデ
ータの内の複数の第２の閾値以上であるそれぞれの部分
が認識処理の対象として二次切り出しにより取り込ま
れ、この二次切り出しにより得られた複数のデータを対
象としてニューラルネットワークにより音声認識処理が
行なわれ、これらの複数のデータを対象として行なわれ
た認識処理の結果に基づいて最終的な音声認識結果が判
定される。

【００１７】また本発明に係る音声認識方法では、認識
対象として発声された音声信号を複数の周波数帯域それ
ぞれに分割して分析して得られたデータの内の総和（又
は平均値) が第１の閾値以上である部分を取り込む一次
切り出しにより音声信号の各周波数帯域それぞれの時系
列推移のデータが求められ、この一次切り出しにより得
られた音声信号の各周波数帯域のデータの総和（又は平
均値) の最大値に応じて第２の閾値が複数設定され、一
次切り出しにより求められた各周波数帯域のデータの総
和（又は平均値) の内の複数の第２の閾値以上であるそ
れぞれの部分が認識処理の対象として取り込む二次切り
出しにより取り込まれ、この二次切り出しにより得られ
た各周波数帯域のデータを対象としてニューラルネット
ワークにより音声認識処理が行なわれ、これらの複数の
データを対象として行なわれた音声認識処理の結果に基
づいて最終的な音声認識結果が判定される。

【００１８】更に本発明に係る音声認識装置では、認識
対象として発声された音声信号を音声分析部が分析し、
音声区間検出部が音声分析部により得られたデータの内
の第１の閾値以上である部分を取り込む一次切り出しを
行なうことにより音声信号の時系列推移のデータを求
め、一次切り出しにより得られたデータの最大値に応じ
て第２の閾値を複数設定し、一次切り出しにより求めら
れたデータの内の複数の第２の閾値以上であるそれぞれ
の部分を認識処理の対象として取り込む二次切り出しを
行ない、音声区間検出部が二次切り出しにより得たデー
タを対象として音声認識部がニューラルネットワークに
より音声認識処理を行ない、これらの複数のデータを対
象として得られた複数の音声認識処理の結果に基づいて
最終的な音声認識結果を判定する。

【００１９】また更に本発明に係る音声認識装置では、
認識対象として発声された音声信号を複数の周波数帯域
それぞれに分割して音声分析部が分析し、音声区間検出
部が音声分析部により得られたデータの内の総和（又は
平均値) が第１の閾値以上である部分を取り込む一次切
り出しを行なうことにより音声信号の各周波数帯域それ
ぞれの時系列推移のデータを求め、一次切り出しにより
得られた音声信号の各周波数帯域のデータの総和（又は
平均値) の最大値に応じて第２の閾値を複数設定し、一
次切り出しにより求められた各周波数帯域のデータの総
和（又は平均値) の内の複数の第２の閾値以上であるそ
れぞれの部分を認識処理の対象として取り込む二次切り
出しを行ない、音声区間検出部が二次切り出しにより得
た各周波数帯域のデータを対象として音声認識部がニュ
ーラルネットワークにより音声認識処理を行ない、これ
らの複数のデータを対象として得られた音声認識処理の
結果に基づいて最終的な音声認識結果を判定する。

【００２０】

【実施例】以下、本発明をその実施例を示す図面に基づ
いて詳述する。なお、以下に説明する各実施例では、本
発明の音声認識方法及びその装置を個々の数字を単語単
位で音声認識する場合、たとえばビデオテープレコーダ
のＧコードの入力装置あるいは電話番号の入力装置等に
適用した例である。

【００２１】図２は本発明に係る音声認識方法を実現す
るための装置のハードウェアの構成例を示すブロック図
である。この装置は大きくは、参照符号10にて示されて
いる本発明の音声認識装置としてのDSP(Digital Signal
Processor) 部と、参照符号20にて示されているマイク
ロコンピュータ部とに分かれる。

【００２２】DSP部10は主として、マイクロフォン11,A/
D変換器12,DSP13,D/A変換器14, スピーカ15, PROM16,
マイクロコンピュータ部20とのI/F(インタフェイス)17,
RAM18, ROM19 等にて構成されている。

【００２３】話者が発声した音声はマイクロフォン11か
ら入力し、マイクアンプ11A を介して A/D変換器12によ
りパルス符号変調(PCM:Pulse Code Modulation) された
ディジタル信号として取り込まれ、 DSP13により処理さ
れる。 DSP13には、PROM16,RAM18, ROM19等の記憶装置
が接続されている。

【００２４】ROM19には、スピーカ15から合成音声とし
て出力すべき種々の音声の符号化データ、音声認識のた
めのニューラルネットワークのウェイトデータ等が予め
格納されている。 RAM18には、 DSP13による処理に必要
な種々の変数の値、及び処理途中, 処理結果のデータ等
が一時的に記憶される。PROM16には、 DSP13による処理
に必要なプログラムが格納されている。

【００２５】DSP13は、PROM16に格納されているプログ
ラムに従って所定の音声認識処理を行ない、必要に応じ
てマイクロコンピュータ部20から与えられるコマンドに
応答して ROM19に格納されている符号化データを読み出
して復調し、 D/A変換器14を介してスピーカアンプ15A
へ出力することにより、スピーカ15から合成音声を発声
させる。また、 DSP13は必要に応じて、またはマイクロ
コンピュータ部20から与えられるコマンドに応答してマ
イクロコンピュータ部20との間でコマンド，データ等の
送受を行なう。 I/F17はそのために使用される。

【００２６】マイクロコンピュータ部20は主として、マ
イクロコンピュータ21, 転送ボタン22, Ｇコードボタン
23, I/F24, LCD25, 送信器26等で構成されている。

【００２７】マイクロコンピュータ21には転送ボタン2
2, Ｇコードボタン23からそれらがオン（プッシュ）さ
れている場合にオン信号が継続的に与えられる。送信器
26は、認識済みの数字列をＧコードとしてデコードした
結果を外部へ送信するために使用される。また、 LCD25
は、 I/F24を介してマイクロコンピュータ21により制御
されることにより、認識結果の数字列の表示、あるいは
その他の種々の表示に使用される。

【００２８】なお、図２には示されていないが、マイク
ロコンピュータ21には、CPU, ROM,RAM 等が内蔵されて
おり、内部バスにより相互に接続されている。なお、こ
の内部バスは、 DSP部10の I/F17, 転送ボタン22, Ｇコ
ードボタン23, I/F24,送信器26等とも相互に信号の送受
を行なう。

【００２９】マイクロコンピュータ21の内蔵ROM には、
マイクロコンピュータ21による処理に必要なプログラ
ム、あるいは任意の数字列をＧコードとしてデコードす
るためのプログラム (またはテーブル) 等が格納されて
いる。また、内蔵RAM はマイクロコンピュータ21による
プログラム実行中に種々のデータを記憶すると共に、認
識結果の各数字を順次的に格納して数字列を保持する。
CPU は、上述の内蔵ROMに格納されている処理プログラ
ムに従って、 DSP13による音声認識の処理結果を所定の
基準に従って判定することにより、リジェクトするか、
あるいは認識結果として決定する。

【００３０】図３は上述のＧコードリモコンの外観を示
す模式図である。図３において、参照符号30はケーシン
グであり、上述の図２に示されている構成要素が格納さ
れている。なお、マイクロフォン11, スピーカ15, 転送
ボタン22, Ｇコードボタン23及び LCD25はそれぞれの機
能を有効に発揮させるためにケーシング30の表面に一部
が露出している。

【００３１】次に、本発明の音声認識方法について、即
ち上述のＧコードリモコンの特に本発明の音声認識装置
としての DSP13により実行される音声認識の手法につい
て説明する。図１は DSP13の内部構成を機能的に示した
機能ブロック図、図４は DSP部10により行なわれる音声
認識の処理手順を示すフローチャートである。

【００３２】図１において、参照符号13は DSPを、18は
RAMを、19は ROMを、17は I/Fをそれぞれ示しているこ
とは前述の図２と同様である。なお、 DSP13には ROM1
9, RAM18 の他に DSP13のプログラムを格納したPROM16
が接続されているが、この図１では省略してある。ま
た、前述の如く DSP13は I/F17を介してマイクロコンピ
ュータ部20と接続されている。

【００３３】図４のフローチャートに示されているよう
に、 DSP13は A/D変換器12から取り込んだディジタル音
声信号の音声分析 (ステップS1) をまず行なうが、これ
は音声分析部130 により行なわれる。

【００３４】マイクロフォン11から入力されたアナログ
の音声信号は A/D変換器12においてサンプリング周波数
12kHz でパルス符号変調(PCM:Pulse Code Modulation)
されてディジタルの音声信号（以下、 PCM音声信号と言
う) として出力されている。DSP13は、後述する如く I/
F17を介してマイクロコンピュータ21から音声取り込み
コマンドが与えられると、ステップS1, S2の処理を行な
う。まず、 DSP13は A/D変換器12から出力されている P
CM音声信号を音声分析部130 に取り込む。

【００３５】音声分析部130 は、図５のブロック図に示
されているように、入力された PCM音声信号を16の周波
数帯域に分割して周波数分析を行なうために16チャネル
の回路を並列接続して構成されている。第１チャネル
(第２〜第16チャネル) は、バンドパスフィルタ(BPF)13
01-1(1301-2〜1301-16)と、絶対値演算を行なうための
整流回路1302-1(1302-2 〜1302-16)と、緩やかな短時間
スペクトルを求めるためのローパスフィルタ(LPF)1303-
1(1303-2〜1303-16)とを直列に接続して構成されてい
る。

【００３６】この音声分析部130 では、周波数分析の有
効帯域を124.5Hz 〜5738Hzとし、各チャネルの周波数帯
域は所謂 melスケールで分割されており、第１チャネル
から第16チャネルまで順に、124.1Hz 〜257.3Hz, 258.0
Hz〜406.6Hz, 406.9Hz〜573.2Hz, 573.4Hz〜759.7Hz, 7
59.5Hz〜967.6Hz, 967.8Hz〜1200.7Hz, 1200.6Hz〜146
1.1Hz, 1461.6Hz〜1752.6Hz, 1752.8Hz〜2078.4Hz, 207
8.6Hz〜2443.3Hz, 2442.7Hz〜2850.5Hz, 2850.7Hz〜330
6.6Hz, 3307.1Hz〜3816.4Hz, 3816.8Hz〜4386.6Hz, 438
6.9Hz〜5024.7Hz, 5027.8Hz〜5738.0Hzが割り当てられ
ている。

【００３７】ここで melとは、聴覚の主観実験により得
られた尺度であり、1kHzを1000melとし、下記式にて近
似される。なお、mel は対数尺度に比して、低域でやや
粗く、高域で細かくなる。

【００３８】mel ＝ (1000×log(f/1000＋1))/log2

【００３９】従って、音声分析部130 は、12kHz でサン
プリングを行なう A/D変換器12からの割り込みに同期し
て、83.3μs 間隔で16チャネル分の分析を行なう。この
音声分析部130 による分析結果は200Hz でリサンプリン
グされる。従って、１フレームの期間は５msになる。以
下、このリサンプリングされた結果を１フレームの分析
結果と言う。

【００４０】なお、一回の分析は本実施例では 256フレ
ーム分、即ち1.28秒分の音声信号に対して行なわれる。
これは、後述するリングバッファ131 の容量により規定
されている。また、各フレームのデータとしては音声信
号のパワー (音圧) 、即ち16チャネルの各周波数帯域の
音圧の変化の状態が得られる。

【００４１】このようにして得られた各チャネルの各フ
レームのデータは順次的にリングバッファ131 に書き込
まれると共に各チャネルの同一のフレームのパワー (音
圧)の総和（又は平均値) が音声区間検出部132 により
所定の閾値と比較されることにより、実時間的な音声区
間の粗い切り出し、即ち音声の仮始端及び仮終端の切り
出しが行なわれる (ステップS2) 。具体的には、音声区
間検出部132 は音声分析部130 から出力される各チャネ
ルの同一のフレームのパワーの総和（又は平均値) を所
定の閾値と比較し、16チャネルのパワーの総和（又は平
均値) が所定の閾値以上になるフレームが所定数連続し
た時点を音声区間の仮始端と見做し、その後に16チャネ
ルのパワーの総和（又は平均値) が所定の閾値以下にな
るフレームが所定数連続した時点を音声区間の仮終端と
見做すと共に、この時点で DSP13は A/D変換器12からの
PCM音声信号の取り込みを停止する。

【００４２】たとえば、図６のグラフに示されているよ
うな音声分析の結果が音声分析部130 により得られたと
する。この場合、フレームFsからｎ個のフレームにおい
て各チャネルのパワーの総和（又は平均値) が連続して
所定の閾値th０を越えたとすると、音声分析部130 はフ
レームFsを音声区間の仮始端と見做す。そして、その後
のフレームFeからｎ個のフレームにおいて各チャネルの
パワーの総和（又は平均値) が連続して所定の閾値th０
に達しなかったとすると、音声分析部130 はフレームFe
を音声区間の仮終端と見做す。従って、これらのフレー
ムFsである仮始端とフレームFeである仮終端との間が仮
の音声区間として検出され、その間にリングバッファ13
1 に取り込まれた各チャネルの 256フレーム分、即ち1.
28秒分の音声信号が RAM18に格納される。この時点で D
SP13は音声取り込み終了応答をマイクロコンピュータ21
へ送信する。

【００４３】ここで、図４のフローチャートにステップ
S3で示されているように、 DSP13はRAM18に格納されて
いる16チャネルの各フレームのパワーの総和（又は平均
値)の最大値（最大パワーPmax) を算出する。

【００４４】次に、図４のフローチャートにステップS4
で示されているように、 DSP13は変数ｉに初期値とし
て”５”を設定する。これは、後述する如く、本実施例
では一つの仮の音声区間のデータに対して５通りの異な
る条件でより精細な再切り出しを行なって分析するよう
にしているからであり、変数ｉはその際の制御に使用さ
れる。

【００４５】次に、マイクロコンピュータ21から認識コ
マンドが与えられると、 DSP13は、ステップS5乃至S13
の処理を行なう。まず DSP13は閾値thi を設定し (ステ
ップS5) 、 RAM18に格納されている16チャネル分のデー
タを対象として、具体的には16チャネルの各フレームの
データの総和（又は平均値) に基づいて音声区間の精細
な切り出し、即ち音声の本始端及び本終端の再切り出し
を音声区間検出部132に行なわせる (ステップS6) 。こ
のステップS6での処理は、 RAM18に格納されている16チ
ャネルの各フレームのパワーの総和（又は平均値) の最
大値に対応して予め定められる閾値により行なわれる。

【００４６】具体的には、PROM16には最大パワーに対応
して本実施例では５段階の閾値が図７のグラフに示され
ているような関数、またはテーブルとして予め設定され
ており、ステップS3での処理により得られたデータの最
大パワーPmaxに対応して５段階の閾値th1, th2, th3, t
h4, th5 が決定される。そして、まず変数ｉ(=5)に対応
して閾値th5 が設定されることにより、図６のグラフに
示されているように、音声区間検出部132 は RAM18に格
納されている各チャネルのデータに対する音声区間の再
切り出しを行なう。このようにして切り出された音声区
間の16チャネルの各フレームのデータに対しては、音声
パターン作成部133 により以下の手順でレベル方向，時
間方向の正規化及びベクトル化が行なわれる。

【００４７】まず、各フレームのデータに対して、”20
log(X)＋1 ”の処理を行なうことにより対数変換を行な
い (ステップS7) 、過大なレベルを抑制する。これは主
としてマイクロフォン11のゲインを調整するための処理
である。その後に時間方向が８フレームになるように各
フレームのチャネルのデータの平均値を求めることによ
り線形圧縮を行なう (ステップS8) 。これは主として発
声時間の個人差を均一化するための処理である。以上に
より、周波数方向に16チャネル、時間方向に８フレーム
の計128 データが一つの PCM音声信号に対して得られ
る。更に、それらの平均値を求めて各データから減算す
ることにより、オフセットを除去してレベル正規化を行
なう (ステップS9) 。これは主として発声レベルの個人
差を均一化するための処理である。

【００４８】このようにして音声パターン作成部133 に
より得られた 128個のデータは音声認識部としてのニュ
ーロ演算部134 に与えられてニューラルネット演算が行
なわれる (ステップS10)。図８はニューロ演算部134 の
ニューラルネットの構成を示す模式図であり、一般的な
３層のBP(Back Propagation)モデルとして構成されてい
る。

【００４９】本実施例では、前述の如く、一つの数字の
入力音声に対して五回の認識処理で行なわれ、その各一
回の処理に16×８、即ち128 個のデータが得られるの
で、入力層のニューロンは基本的には 128個であり、出
力層のニューロンは認識結果として得られるべき”０”
乃至”９”の10個の数字に対する計15通りの読み (ゼ
ロ, サン, ニ, レイ, ナナ, ヨン, ゴ, マル, シ, ロ
ク, ク, ハチ, シチ, キュウ, イチ) に対応している。
中間層は基本的には50個であるが、これは便宜的なもの
であって限定されるものではない。

【００５０】なお、中間層及び出力層の各ニューロンは
下層の全てのニューロンと接続している。これらのニュ
ーロンの出力は下層のニューロンの出力にウェイトデー
タを乗じた値の総和に閾値処理関数（シグモイド関数）
を通した値として得られる。また、入力層及び中間層に
はそれぞれ閾値処理時のオフセット制御のためのニュー
ロン (◎で表されている) が１個ずつ付加されている。
これらのニューロンは中間層，出力層の各ニューロンと
のみ結合している。

【００５１】図８に示されているニューロネットワーク
のウェイトデータ（結合係数）は予め学習により求めら
れており、 ROM19に書き込まれている。このウェイトデ
ータの数、換言すれば ROM19に格納されているウェイト
データのワード数は、３層相互間の結合数と等しい。即
ち、本実施例では (128＋1)×50＋ (50＋1)×15＝7215 となる。

【００５２】また、シグモイド関数sig(x)は下記式にて
与えられる。 sig(x)＝1.0/(1.0＋exp(-x)) なお、sig(0)＝0.5, sig(+∞) ＝1.0, sig(-∞) ＝0.0
となる。

【００５３】以上のようなステップ一連の処理により、
ニューロ演算部134 において、ニューロネットワークの
出力層の各ニューロンから得られる出力信号が認識スコ
アとして対応する認識候補と関連付けて RAM18に格納さ
れる。

【００５４】以上により、閾値th5 により切り出された
音声区間を対象とする一回目の認識処理が終了し、前述
の15個の認識候補それぞれについて認識スコアが得られ
るので、それらの結果は RAM18に一旦格納される。そし
て、ステップS11 において変数ｉが”１”デクリメント
されて”４”になり、変数ｉの値が”０”になったか否
かが調べられる (ステップS12)。変数ｉの値が”０”に
なっている場合には認識処理は終了するが、そうでなけ
ればステップS5へ戻って変数ｉに対応した新たな閾値th
i が設定された上で、換言すれば音声区間の本始端及び
本終端の切り出し条件を変更した上で再度上述同様の認
識処理が反復される。即ち、この場合は変数ｉは”４”
になっているので、閾値th4 が音声区間検出部132 に与
えられて二回目の認識処理、即ち音声区間の切り出し
(ステップS6) 、対数変換 (ステップS7) 、線形圧縮
(ステップS8) 、レベル正規化 (ステップS9) 、ニュー
ラルネット演算 (ステップS10)の各処理が実行される。

【００５５】このように、ステップS5乃至S10 及びS11,
S12からステップS5へ戻るループ処理がステップS5での
音声区間の切り出しの閾値を変数ｉの値に応じて順次変
更して行なわれることにより、図６のグラフに示されて
いるような５段階の閾値で、換言すればそれぞれ異なる
５種類の条件に従って音声区間検出部132 が音声区間の
切り出しを行ない、それぞれの結果を音声パターン作成
部133 が処理し、それぞれの処理結果からニューロ演算
部134 が前述の15個の認識候補それぞれについて認識ス
コアを求める。従って、最終的には15個の認識候補それ
ぞれについて５通りの認識スコアが得られ、総計では75
通りの認識スコアが得られる。

【００５６】本実施例では上述のようにステップS6, S
7, S8, S9, S10 の処理が音声区間の切り出し条件を異
ならせて５回反復されるので、各認識候補について５通
りの認識スコアが得られる。 DSP13は RAM18に格納され
ている各認識候補に対する５通りの認識スコアを集計し
(ステップS13)、それらの内の最も高い認識スコアを最
終的に第１位の認識スコアとして決定し、マイクロコン
ピュータ部20へ送る。

【００５７】このようにして DSP13から送られてくる第
１位の認識スコアを受け取ると、マイクロコンピュータ
21はそれをリジェクトするか否かの処理、即ちリジェク
ト処理を予め定められている基準に従って行なう。

【００５８】なお、第１位の認識スコアとは異なる認識
候補の認識スコアの内で次点を第２位の認識スコアとし
て決定し、これらの第１位及び第２位の認識スコアをマ
イクロコンピュータ部20へ送り、両者の差、あるいは比
率等に応じてマイクロコンピュータ21が第１位の認識ス
コアをリジェクトするか否かの処理、即ちリジェクト処
理を行なうようにしてもよいことはいうまでもない。

【００５９】

【発明の効果】以上に詳述したように本発明に係る音声
認識方法及びその装置によれば、認識対象として発声さ
れた音声信号を分析して得られたデータの内の第１の閾
値以上である部分を取り込む一次切り出しにより音声信
号の時系列推移のデータを求め、この一次切り出しによ
り得られたデータの最大値に応じて第２の閾値を複数設
定し、一次切り出しにより求められたデータの内の第２
の閾値以上であるそれぞれの部分を認識処理の対象とし
て二次切り出しにより取り込み、この二次切り出しによ
り得られた複数のデータを対象としてニューラルネット
ワークにより音声認識処理を行ない、これらの複数のデ
ータを対象とした認識処理の結果に基づいて最終的な音
声認識結果を判定するようにしている。このため、ニュ
ーラルネットワークの認識率を大きく左右する要因であ
る入力層に与えられるデータの時間軸方向のズレが小さ
くなるので、一般的な３層のニューラルネットワークを
利用しても実用上充分な認識率が得られる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置としての DSPの内部
構成を機能的に示した機能ブロック図である。

【図２】本発明に係る音声認識方法を実現するための装
置のハードウェアの構成例を示すブロック図である。

【図３】本発明に係る音声認識方法を実現するための装
置としてのＧコードリモコンの外観を示す模式図であ
る。

【図４】本発明の音声認識の処理手順を示すフローチャ
ートである。

【図５】本発明に係る音声認識装置としての DSPの音声
分析部による、入力された PCM音声信号の周波数分析を
行なうための16チャネルの回路を示すブロック図であ
る。

【図６】本発明に係る音声認識装置としての DSPにより
得られた音声分析の結果の一例を示すグラフである。

【図７】本発明に係る音声認識装置としての DSPのPROM
に予め設定されている最大パワーに対応した５段階の閾
値を示すグラフである。

【図８】本発明に係る音声認識装置としての DSPのニュ
ーロ演算部の一般的な３層のBP(Back Propagation)モデ
ルとして構成されているニューラルネットの構成を示す
模式図である。

【符号の説明】

10 DSP部 13 DSP 20 マイクロコンピュータ部 21 マイクロコンピュータ 130 音声分析部 132 音声区間検出部 133 音声パターン作成部 134 ニューロ演算部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭59−36300（ＪＰ，Ａ) 特開昭61−223796（ＪＰ，Ａ) 特開平３−116099（ＪＰ，Ａ) 特開平７−92989（ＪＰ，Ａ) 村尾浩也，大倉計美，大西宏樹，飯田正幸，ニューラルネットによる、音声切り出し誤りを考慮した不特定話者単語音声認識について検討，日本音響学会平成７年度春季研究発表会講演論文集，日本，1995年３月14日，１−５−６，ｐ. 11−12 (58)調査した分野(Int.Cl.⁷，ＤＢ名) C10L 11/02 C10L 15/16 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】認識対象として発声された音声信号を分
析して得られたデータの内の第１の閾値以上である部分
を取り込む一次切り出しを行なうことにより音声信号の
時系列推移のデータを求め、前記一次切り出しにより求められたデータの内の第２の
閾値以上である部分を認識処理の対象として取り込む二
次切り出しを行ない、前記二次切り出しにより得られたデータを対象として音
声認識処理を行なう音声認識方法において、前記二次切り出しを行なうための第２の閾値を、前記一
次切り出しにより得られたデータの最大値に応じて複数
設定し、設定された複数の第２の閾値それぞれによる二次切り出
しにより得られたデータを対象としてニューラルネット
ワークによる音声認識処理を行ない、複数のデータを対象として得られた複数の音声認識処理
の結果に基づいて最終的な音声認識結果を判定すること
を特徴とする音声認識方法。
【請求項２】認識対象として発声された音声信号を複
数の周波数帯域それぞれに分割して分析して得られたデ
ータの内の総和（又は平均値) が第１の閾値以上である
部分を取り込む一次切り出しを行なうことにより音声信
号の各周波数帯域それぞれの時系列推移のデータを求
め、前記一次切り出しにより求められた各周波数帯域のデー
タの総和（又は平均値) の内の第２の閾値以上である部
分を認識処理の対象として取り込む二次切り出しを行な
い、前記二次切り出しにより得られた各周波数帯域のデータ
を対象として音声認識処理を行なう音声認識方法におい
て、前記二次切り出しを行なうための第２の閾値を、前記一
次切り出しにより得られた音声信号の各周波数帯域のデ
ータの総和（又は平均値) の最大値に応じて複数設定
し、設定された複数の第２の閾値それぞれによる二次切り出
しにより得られたデータを対象としてニューラルネット
ワークによる音声認識処理を行ない、複数のデータを対象として得られた複数の音声認識処理
の結果に基づいて最終的な音声認識結果を判定すること
を特徴とする音声認識方法。
【請求項３】認識対象として発声された音声信号を分
析する音声分析部と、前記音声分析部により得られたデータの内の第１の閾値
以上である部分を取り込む一次切り出しを行なうことに
より音声信号の時系列推移のデータを求め、前記一次切
り出しにより求められたデータの内の第２の閾値以上で
ある部分を認識処理の対象として取り込む二次切り出し
を行なう音声区間検出部と、前記音声区間検出部が二次切り出しにより得たデータを
対象として音声認識処理を行なう音声認識部とを備えた
音声認識装置において、前記音声区間検出部は、前記一次切り出しにより得られ
たデータの最大値を求める手段と、該手段により求めら
れた最大値に応じて第２の閾値を複数設定する手段とを
備え、前記音声認識部は、前記音声区間検出部により設定され
た複数の第２の閾値それぞれによる二次切り出しにより
得られたデータを対象として音声認識処理を行なうニュ
ーラルネットワークと、該ニューラルネットワークによ
り複数のデータを対象として得られた複数の音声認識処
理の結果に基づいて最終的な音声認識結果を判定する手
段とを備えたことを特徴とする音声認識装置。
【請求項４】認識対象として発声された音声信号を複
数の周波数帯域それぞれに分割して分析する音声分析部
と、前記音声分析部により得られたデータの内の総和（又は
平均値) が第１の閾値以上である部分を取り込む一次切
り出しを行なうことにより音声信号の各周波数帯域それ
ぞれの時系列推移のデータを求め、前記一次切り出しに
より求められた各周波数帯域のデータの総和（又は平均
値) の内の第２の閾値以上である部分を認識処理の対象
として取り込む二次切り出しを行なう音声区間検出部
と、前記音声区間検出部が二次切り出しにより得た各周波数
帯域のデータを対象として音声認識処理を行なう音声認
識部とを備えた音声認識装置において、前記音声区間検出部は、前記一次切り出しにより得られ
た音声信号の各周波数帯域のデータの総和（又は平均
値) の最大値を求める手段と、該手段により求められた
最大値に応じて第２の閾値を複数設定する手段とを備
え、前記音声認識部は、前記音声区間検出部により設定され
た複数の第２の閾値それぞれによる二次切り出しにより
得られたデータを対象として音声認識処理を行なうニュ
ーラルネットワークと、該ニューラルネットワークによ
り複数のデータを対象として得られた複数の音声認識処
理の結果に基づいて最終的な音声認識結果を判定する手
段とを備えたことを特徴とする音声認識装置。