JP3322536B2 - ニューラルネットワークの学習方法および音声認識装置 - Google Patents

ニューラルネットワークの学習方法および音声認識装置

Info

Publication number
JP3322536B2
JP3322536B2 JP23577195A JP23577195A JP3322536B2 JP 3322536 B2 JP3322536 B2 JP 3322536B2 JP 23577195 A JP23577195 A JP 23577195A JP 23577195 A JP23577195 A JP 23577195A JP 3322536 B2 JP3322536 B2 JP 3322536B2
Authority
JP
Japan
Prior art keywords
voice
learning
pattern
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23577195A
Other languages
English (en)
Other versions
JPH0981190A (ja
Inventor
浩也 村尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP23577195A priority Critical patent/JP3322536B2/ja
Publication of JPH0981190A publication Critical patent/JPH0981190A/ja
Application granted granted Critical
Publication of JP3322536B2 publication Critical patent/JP3322536B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ニューラルネッ
トワークの学習方法および音声認識装置に関する。
【0002】
【従来の技術】従来から、ニューラルネットワークを用
いて音声を認識する音声認識装置が知られている。この
ような音声認識装置は、たとえば、録画番組の予約が音
声入力によって行われる録画装置等に利用される。
【0003】図7は、従来の音声認識装置の構成を示し
ている。
【0004】音声分析部101は、入力音声の音声パワ
ー信号と、入力音声に対する音声スペクトルとを生成す
る。入力音声の音声パワー信号は、音声区間検出部10
2に送られる。入力音声に対する音声スペクトルは、音
声パターン作成部103に送られる。
【0005】音声区間検出部102は、音声検出部11
1および音声区間切出し部112とを備えている。音声
検出部111は、図8に示すように、音声検出用しきい
値αを用いて、音声パワー信号中の音声部分を検出す
る。
【0006】音声区間切出し部112は、図8に示すよ
うに、切出し用しきい値βを用いて、音声認識に有効な
音声区間Lを求める。切出し用しきい値βは、音声検出
部111によって検出された音声部分より所定時間前の
雑音パワーに基づいて決定される。
【0007】音声パターン作成部103は、音声区間切
出し部112によって求められた音声区間Lに対する音
声スペクトルに基づいて、音声パターンを作成する。作
成された音声パターンは、学習済のニューラルネットワ
ーク104に入力される。
【0008】このニューラルネットワーク104の学習
は、次のように行なわれる。まず、各認識対象音声に対
する標準音声パターンを、予め収集した音声を用いてそ
れぞれ求める。各認識対象音声の標準音声パターンは、
各認識対象音声ごとに好適な1つの音声区間に基づいて
作成される。そして、各標準音声パターンを入力パター
ンとし、各入力パターンに対応する音声を表す音声識別
データを教師データとして、ニューラルネットワーク1
04を学習させる。
【0009】学習済のニューラルネットワーク104
に、音声パターンが入力されることにより、入力された
音声パターンに対応する出力パターンが得られる。この
出力パターンは、認識結果判定部105に送られる。認
識結果判定部105は、送られてきた出力パターンに基
づいて当該音声検出部分の音声を認識し、その認識結果
を出力する。
【0010】
【発明が解決しようとする課題】このような音声認識装
置では、音声認識に有効な音声区間を設定するための切
出し用しきい値βは1つであるため、雑音が音声区間に
含まれることによって誤認識が発生したり、音声パワー
の小さい語尾等が音声区間から脱落することによって誤
認識が発生したりする可能性が高い。
【0011】そこで、本出願人は、次のような音声認識
方法を開発した。つまり、図6に示すように、複数のし
きい値β1、β2、β3およびβ4を用いて、複数の音
声区間L1、L2、L3およびL4を設定する。各音声
区間L1〜L4それぞれに対して、音声パターンを作成
する。ニューラルネットワークに各音声パターンを入力
して、各音声パターンごとに出力パターンを得る。そし
て、得られたこれらの複数の出力パターンに基づいて、
音声を認識する。
【0012】各認識対象音声を表す音声識別データは、
ニューラルネットワークの出力層の各ユニットに対応し
た数のデータから構成されているものとする。そして、
その1つのみが”1”で他が全て”0”のデータで構成
され、データ”1”の位置が各音声識別データごとに異
なっているものとする。
【0013】このような音声認識方法では、図6の各音
声区間L1〜L4の認識結果は、たとえば、次のように
なることがある。すなわち、音声区間L1での認識結果
は”しち”で、出力最大値(ニューラルネットワークの
出力層のユニットの出力のうちの最大値)が0.90で
ある。音声区間L2での認識結果は”に”で、出力最大
値が0.85である。音声区間L3での認識結果は”
に”で、出力最大値が0.91である。音声区間L4で
の認識結果は”に”で、出力最大値が0.88である。
【0014】このような場合には、最終認識結果として
は、出力最大値が”1”に最も近い音声区間L3での認
識結果”に”が、入力音声の認識結果として選択され、
本来”しち”と認識されるべきところが、”に”と誤認
識されてしまう。このような誤認識は、図6の各音声区
間L1〜L4の中に、好適な音声区間とは異なる区間が
存在し、それらの区間に基づく音声パターンはニューラ
ルネットワークの学習に用いられていないことに起因し
て生じる。
【0015】この発明は、認識精度の向上が図れるニュ
ーラルネットワークの学習方法および音声認識装置を提
供することを目的とする。
【0016】
【課題を解決するための手段】この発明によるニューラ
ルネットワークの学習方法は、複数の学習用入力パター
ンとそれに対する教師データとを用いてニューラルネッ
トワークを学習させた後、学習の妨げになる学習用入力
パターンを選択し、選択された学習用入力パターンにつ
いてはそれらに対する教師データを変更し、選択されな
かった学習用入力パターンについてはそれに対する本来
の教師データを用いて、追加学習を行なうことを特徴と
する。
【0017】この発明によるニューラルネットワークの
学習方法によれば、より多くの学習用入力パターンにつ
いて、学習が進むようになるので、この方法で学習され
たニューラルネットワークを用いて文字認識、音声認識
等の認識処理を行なった場合には、認識性能が向上す
る。
【0018】学習の妨げになる学習用入力パターンは、
たとえば、学習後のニューラルネットワークに学習用入
力パターンを入力することによって得られる出力と、当
該学習用入力パターンに対する本来の教師データとの誤
差に基づいて、選択される。追加学習においては、たと
えば、選択された学習の妨げになる学習用入力パターン
についてはそれらに対する教師データが反教師データに
変更される。
【0019】反教師データは、各教師データがニューラ
ルネットワークの出力層の各ユニットに対応した数のデ
ータから構成されており、その1つのみが”1”で他が
全て”0”のデータで構成され、データ”1”の位置が
各教師データごとに異なっている場合には、全て”0”
のデータから構成される。
【0020】各教師データがニューラルネットワークの
出力層の各ユニットに対応した数のデータから構成され
ており、その1つのみが”0”で他が全て”1”のデー
タで構成され、データ”0”の位置が各教師データごと
に異なっている場合には、反教師データは、全て”1”
のデータから構成される。
【0021】この発明による第1の音声認識装置は、入
力音声に対して音声区間を設定する音声区間設定手段、
音声区間の特徴に基づいて、音声区間の音声パターンを
作成する音声パターン作成手段、および音声パターンが
入力されるニューラルネットワークを有しかつニューラ
ルネットワークの出力に基づいて入力音声を認識する音
声認識手段を備えており、各認識対象音声ごとに、好適
な音声区間に基づく学習用基準音声パターンと、好適な
音声区間とは異なる音声区間に基づく学習用追加音声パ
ターンとが作成され、各学習用基準音声パターンと各学
習用追加音声パターンとをそれぞれ入力パターンとし、
各入力パターンに対応する音声を表す音声識別データを
教師データとして、ニューラルネットワークが初期学習
され、学習用追加音声パターンのうち、初期学習済のニ
ューラルネットワークにそれが入力されて音声認識が行
なわれた結果、認識誤差が所定値より大きいものが学習
の妨げになる学習用追加音声パターンとして選択され、
選択された学習用追加音声パターン以外の学習用追加音
声パターンと学習用基準音声パターンとについては、そ
れぞれの音声パターンを入力パターンとし、各入力パタ
ーンに対応する音声を表す音声識別データを教師データ
として用い、選択された学習用追加音声パターンについ
ては、その音声パターンを入力パターンとし、教師デー
タとして反教師データを用いて、ニューラルネットワー
クが追加学習されていることを特徴とする。上記音声区
間の特徴としては、たとえば、音声スペクトルが挙げら
れる。
【0022】反教師データは、各音声識別データがニュ
ーラルネットワークの出力層の各ユニットに対応した数
のデータから構成されており、その1つのみが”1”で
他が全て”0”のデータで構成され、データ”1”の位
置が各音声識別データごとに異なっている場合には、全
て”0”のデータから構成される。
【0023】各音声識別データがニューラルネットワー
クの出力層の各ユニットに対応した数のデータから構成
されており、その1つのみが”0”で他が全て”1”の
データで構成され、データ”0”の位置が各音声識別デ
ータごとに異なっている場合には、反教師データは、全
て”1”のデータから構成される。
【0024】この発明による第1の音声認識装置では、
入力音声に対して、音声区間が設定される。音声区間の
特徴に基づいて、音声区間の音声パターンが作成され
る。音声パターンがニューラルネットワークに入力され
る。そして、ニューラルネットワークの出力に基づいて
入力音声が認識される。
【0025】この発明による第1の音声認識装置のニュ
ーラルネットワークの学習は、次のように行なわれてい
る。
【0026】各認識対象音声ごとに、好適な音声区間に
基づく学習用基準音声パターンと、好適な音声区間とは
異なる音声区間に基づく学習用追加音声パターンとが作
成される。
【0027】各学習用基準音声パターンと各学習用追加
音声パターンとをそれぞれ入力パターンとし、各入力パ
ターンに対応する音声を表す音声識別データを教師デー
タとして、ニューラルネットワークが初期学習される。
【0028】学習用追加音声パターンのうち、初期学習
済のニューラルネットワークにそれが入力されて音声認
識が行なわれた結果、認識誤差が所定値より大きいもの
が学習の妨げになる学習用追加音声パターンとして選択
される。
【0029】そして、選択された学習用追加音声パター
ン以外の学習用追加音声パターンと学習用基準音声パタ
ーンとについては、それぞれの音声パターンを入力パタ
ーンとし、各入力パターンに対応する音声を表す音声識
別データを教師データとして用い、選択された学習用追
加音声パターンについては、その音声パターンを入力パ
ターンとし、教師データとして反教師データを用いて、
ニューラルネットワークが追加学習される。
【0030】この発明による第1の音声認識装置では、
ニューラルネットワークの学習においては、切り出し誤
りによって生じる学習用追加音声パターンのうち、他の
認識対象音声に対する学習用追加音声パターンと競合し
ないものについては、その音声パターンに対応する音声
識別データを教師データとして学習が行なわれ、競合す
るものについては反教師データを用いて学習が行なわれ
ているので、広い範囲の切り出し位置を許容でき、認識
性能が向上する。
【0031】この発明による第2の音声認識装置は、入
力音声に対して複数の音声区間を設定する音声区間設定
手段、各音声区間の特徴に基づいて、各音声区間ごとの
音声パターンをそれぞれ作成する音声パターン作成手
段、および各音声区間ごとの音声パターンがそれぞれ入
力されるニューラルネットワークを有しかつ各音声区間
ごとの音声パターンに対するニューラルネットワークの
出力に基づいて入力音声を認識する音声認識手段を備え
ており、各認識対象音声ごとに、好適な音声区間に基づ
く学習用基準音声パターンと、好適な音声区間とは異な
る音声区間に基づく学習用追加音声パターンとが作成さ
れ、各学習用基準音声パターンと各学習用追加音声パタ
ーンとをそれぞれ入力パターンとし、各入力パターンに
対応する音声を表す音声識別データを教師データとし
て、ニューラルネットワークが初期学習され、学習用追
加音声パターンのうち、初期学習済のニューラルネット
ワークにそれが入力されて音声認識が行なわれた結果、
認識誤差が所定値より大きいものが学習の妨げになる学
習用追加音声パターンとして選択され、選択された学習
用追加音声パターン以外の学習用追加音声パターンと学
習用基準音声パターンとについては、それぞれの音声パ
ターンを入力パターンとし、各入力パターンに対応する
音声を表す音声識別データを教師データとして用い、選
択された学習用追加音声パターンについては、その音声
パターンを入力パターンとし、教師データとして反教師
データを用いて、ニューラルネットワークが追加学習さ
れていることを特徴とする。上記音声区間の特徴として
は、たとえば、音声スペクトルが挙げられる。
【0032】この発明による第2の音声認識装置では、
入力音声に対して、複数の音声区間が設定される。各音
声区間の特徴に基づいて、各音声区間ごとの音声パター
ンがそれぞれ作成される。各音声区間ごとの音声パター
ンがニューラルネットワークにそれぞれ入力される。各
音声区間ごとの音声パターンに対するニューラルネット
ワークの出力に基づいて入力音声が認識される。
【0033】この発明による第2の音声認識装置におけ
るニューラルネットワークの学習方法は、上記第1の音
声認識装置のニューラルネットワークの学習方法と同じ
である。
【0034】この発明による第2の音声認識装置では、
ニューラルネットワークの学習においては、切り出し誤
りによって生じる学習用追加音声パターンのうち、他の
認識対象音声に対する学習用追加音声パターンと競合し
ないものについては、その音声パターンに対応する音声
識別データを教師データとして学習が行なわれ、競合す
るものについては反教師データを用いて学習が行なわれ
ているので、広い範囲の切り出し位置を許容でき、認識
性能が向上する。
【0035】また、この発明による第2の音声認識装置
では、1つの入力音声に対して、複数の音声区間が設定
されている。そして、各音声区間の特徴に基づいて、当
該入力音声が認識されているので、雑音が音声区間に含
まれることによって誤認識が発生したり、音声パワーの
小さい語尾等が音声区間から脱落することによって誤認
識が発生したりするといったことが防止される。この結
果、音声認識精度が向上する。
【0036】
【発明の実施の形態】以下、図1〜図6を参照して、こ
の発明の実施の形態について説明する。
【0037】図1は、音声認識装置の構成を示してい
る。
【0038】音声認識装置は、音声分析部1、音声区間
検出部2、音声パターン作成部3、ニューラルネットワ
ーク演算部4、認識結果記憶部5および認識結果判定部
6を備えている。音声区間検出部2は、音声検出部2
1、音声区間切出し部22および切出し位置記憶部23
を備えている。
【0039】図2は、ニューラルネットワーク演算部4
に設けられているニューラルネットワークの構造の一例
を示している。
【0040】このニューラルネットワークは、入力層4
1、中間層42および出力層43からなる。入力層41
は、たとえば、128個(16channel ×8frame ) の
入力ユニットから構成されている。中間層42は、入力
層41の各入力ユニットと相互に結合された、たとえ
ば、50個の中間ユニットから構成されている。出力層
43は、中間層42の各中間ユニットと相互に結合され
た、たとえば、15個の出力ユニットから構成されてい
る。
【0041】ここでは、認識対象音声は15個あるもの
とする。各認識対象音声を表す音声識別データは、出力
ユニット数に対応した15個のデータからなり、その1
つのみが”1”で他が全て”0”のデータで構成されて
いるものとする。そして、データ”1”の位置が、各音
声識別データごとに異なっている。
【0042】図3は、ニューラルネットワークの学習方
法を示している。
【0043】(1)まず、各認識対象音声ごとに、複数
の学習用音声パターンが作成される(ステップ1)。
【0044】つまり、各認識対象音声ごとに、次の3種
の切り出し条件によって、複数の学習用音声パターンが
作成される。
【0045】(a)目視によって切り出された学習用基
準音声パターン たとえば、図4に示すように、所定の音声、たとえば
「しち」の標準音声信号に対する音声パワー信号を生成
する。そして、目視によって好適な音声区間R0を決定
する。そして、この区間R0のパターンを切り出すこと
により、学習用基準音声パターンを作成する。
【0046】(b)複数レベルのパワーしきい値によ
り、自動的に切り出された1または複数個の学習用追加
音声パターン 図4に示すように、予め定めた好適なしきい値δ1に、
所定値を加えていくことにより、複数のしきい値δ2、
δ3、δ4を設定して、音声区間R1、R2、R3、R
4を決定する。そして、各区間R1、R2、R3、R4
のパターンをそれぞれ切り出すことにより、複数の学習
用追加音声パターンを作成する。
【0047】(c)切り出し位置を、目視によって決定
された切り出し位置から単語の外側に切り出し位置を移
動させて作成した1または複数個の学習用追加音声パタ
ーン 図5に示すように、目視による好適な音声区間R0の始
端および後端の一方または両方を、音声区間R0の外側
に移動させて複数の音声区間R5、R6、R7、R8、
R9、R10、R11、R12を設定する。そして、各
区間R5〜R12のパターンをそれぞれ切り出すことに
より、複数の学習用追加音声パターンを作成する。
【0048】各学習用音声パターンとしては、対応する
音声区間を8等分した各区間それぞれの平均スペクトル
が用いられている。また、各区間の音声スペクトルは、
予め定められた16の周波数帯域に対する音声スペクト
ルから構成されている。
【0049】(2) このようにして、全ての認識対象
音声に対する学習用音声パターン(学習用基準音声パタ
ーンと複数個の学習用追加音声パターン)が作成される
と、初期学習が行なわれる(ステップ2)。
【0050】つまり、各認識対象音声に対する各学習用
音声パターン(学習用基準音声パターンと学習用追加音
声パターン)を入力パターンとし、各入力パターンに対
応する音声を表す音声識別データを教師データとして、
バックプロパゲーション法により、ニューラルネットワ
ークが学習せしめられる。
【0051】(3) 学習がある程度進んだ後、学習用
追加音声パターンに対する認識検査が行なわれる(ステ
ップ3)。
【0052】この認識検査は、各学習用追加音声パター
ンごとに行なわれる。つまり、学習用追加音声パターン
が、初期学習済のニューラルネットワークに入力され
る。そして、その出力および次の数式1を用いて、学習
用追加音声パターンの出力誤差平均Eが求められる。
【0053】
【数1】
【0054】上記数式1において、Nは、認識対象音声
の数、すなわち出力層のユニット数(この例では15)
である。また、tn (n=0、1…(N−1))は、学
習用追加音声パターンに対応する音声を表す音声識別デ
ータ(教師データ)である。また、On (n=0、1…
(N−1))は、出力層の各ユニットの出力である。
【0055】そして、求められた出力誤差平均Eが、予
め定められた正の定数θより大きいか(E>θ)否かが
判別される。求められた出力誤差平均Eが、予め定めら
れた正の定数θより大きい場合には、当該学習用追加音
声パターンは、0学習用音声パターンとして選択され
る。0学習用音声パターンを、上記出力誤差平均E以外
の学習用追加音声パターンの出力誤差に関する値、たと
えば、(1/N)・Σ(tn −On 2 等に基づいて、
選択するようにしてもよい。
【0056】(4) このようにして、全ての学習用追
加音声パターンについて、認識検査が行なわれると、追
加学習が行なわれる(ステップ4)。
【0057】この追加学習においては、0学習用音声パ
ターンとして選択された学習用追加音声パターン以外の
学習用追加音声パターンと学習用基準音声パターンにつ
いては、それらをそれぞれ入力パターンとし、各入力パ
ターンに対応する音声を表す音声識別データを教師デー
タとして、バックプロパゲーション法により、ニューラ
ルネットワークが学習せしめられる。0学習用音声パタ
ーンとして選択された学習用追加音声パターンについて
は、それらをそれぞれ入力パターンとし、出力層の全ユ
ニットに”0”の教師データ(反教師データ)を与え
て、バックプロパゲーション法により、ニューラルネッ
トワークが学習せしめられる。
【0058】(5) 以下、θの値を徐々に小さくしな
がら、上記ステップ3とステップ4との処理を所要回繰
り返した後(ステップ5)、ニューラルネットワークの
学習を終了する。
【0059】上記のような学習方法で学習が行なわれた
ニューラルネットワークを用いて音声認識を行なった場
合の利点について説明する。
【0060】学習用音声パターンの中には、切り出し位
置によって、異なる認識対象音声から作成されているに
もかかわらず、互いに似たパターンが存在する場合が考
えられる。例えば数字の「いち」という音声を比較的高
いしきい値で切り出すと、それぞれの音声から「ち」と
いう音に類似したのような音声パターンが得られること
が推測される。また、「し」という音声の始端を目視に
よる切り出し位置から外側に移動させていくと、「い
ち」や「しち」などで語頭の「い」や「し」の発生が小
さいものと似たパターンが得られることが考えられる。
【0061】このように異なる認識対象音声から作成さ
れているにもかかわらず類似した学習用音声パターンが
存在した場合、これらの類似した学習用音声パターンに
対して互いに異なる教師データを与えているため、その
部分は局所的に学習が進まず、出力誤差が大きいままで
あると考えられる。
【0062】そこで、初期学習がある程度進んだ時点
で、学習用追加音声パターンを初期学習済のニューラル
ネットワークに入力し、学習用追加音声パターンのう
ち、ニューラルネットワークの出力誤差平均Eが一定値
θより大きいパターンを選択し、それらについては教師
データを0にした追加学習を行なっている。
【0063】このような処理を何度か繰り返すと、各認
識対象音声の学習音声パターンには、切り出しを誤った
パターンのうち、他の認識対象音声の学習音声パターン
と競合しないものだけが、残っていくため、それらを学
習したニューラルネットワークは広い範囲の切り出し誤
りを許容することととなり、結果的に認識性能が向上す
る。
【0064】図1の音声認識装置の動作について説明す
る。
【0065】音声分析部1は、入力音声の音声パワー信
号と、入力音声に対する音声スペクトルとを生成する。
入力音声の音声パワー信号は、音声区間検出部2に送ら
れる。入力音声に対する音声スペクトルは、音声パター
ン作成部3に送られる。
【0066】音声検出部21は、図6に示すように、音
声検出用しきい値αを用いて、入力された音声パワー信
号中の音声部分を検出する。
【0067】音声区間切出し部22は、図6に示すよう
に、複数の切出し用しきい値β1、β2、β3、β4を
用いて、複数の音声区間を設定する。この例では、第1
から第4の音声区間L1、L2、L3、L4を設定す
る。そして、設定した各音声区間L1〜L4の開始点と
終了点とを、各音声区間L1〜L4に対応させて、切出
し位置記憶部23に格納する。
【0068】各切出し用しきい値β1、β2、β3、β
4は、たとえば、次のようにして設定される。まず、最
小の切出し用しきい値β1が、音声検出部21によって
検出された音声部分の開始位置より所定時間前の雑音パ
ワーに基づいて決定される。そして、決定された最小の
切出し用しきい値β1に、定数γが加算されることによ
りしきい値β2が求められ、しきい値β2に定数γが加
算されることによりしきい値β3が求められ、しきい値
β3に定数γが加算されることによりしきい値β4が求
められる。
【0069】音声パターン作成部3は、音声区間切出し
部22によって求められた各音声区間L1〜L4に対す
る音声スペクトルに基づいて、各音声区間L1〜L4ご
とに音声パターンを作成して、ニューラルネットワーク
演算部4に入力させる。
【0070】つまり、切出し位置記憶部23に格納され
ている第1の音声区間L1の開始点と終了点とに基づい
て、当該音声区間L1に対する音声パターン(P1)を
作成する。この音声パターンとしては、当該音声区間を
8等分した各区間それぞれの平均スペクトルが用いられ
ている。そして、各区間の音声スペクトルパターンは、
予め定められた16の周波数帯域に対する音声スペクト
ルから構成されている。作成された第1の音声パターン
(P1)は、学習済のニューラルネットワークに入力さ
れる。
【0071】学習済のニューラルネットワークに、第1
の音声パターン(P1)が入力されることにより、第1
の音声パターン(P1)に対応する出力パターンが得ら
れる。そして、得られた出力パターンに基づいて、認識
結果と出力最大値(15個の出力のうちの最大値)と
が、第1認識結果として認識結果記憶部5に記憶され
る。
【0072】次に、切出し位置記憶部13に格納されて
いる第2の音声区間L2の開始点と終了点とに基づい
て、当該音声区間L2に対する音声パターン(P2)が
作成され、作成された第2の音声パターン(P2)が学
習済のニューラルネットワークに入力される。これによ
り、第2の音声パターン(P2)に対応する出力パター
ンが得られる。得られた出力パターンに基づいて、認識
結果と出力最大値が、第2認識結果として認識結果記憶
部5に記憶される。
【0073】次に、第3の音声区間L3の開始点と終了
点とに基づいて、当該音声区間L3に対する音声パター
ン(P3)が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第3の音声パターン
(P3)に対応する出力パターンが得られる。得られた
出力パターンに基づいて、認識結果と出力最大値が、第
3認識結果として認識結果記憶部5に記憶される。
【0074】次に、第4の音声区間L4の開始点と終了
点とに基づいて、当該音声区間L4に対する音声パター
ン(P4)が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第4の音声パターン
(P4)に対応する出力パターンが得られる。得られた
出力パターンに基づいて、認識結果と出力最大値が、第
4認識結果として認識結果記憶部5に記憶される。
【0075】このようにして、第1〜第4の音声パター
ン(P1〜P4)に対する第1〜第4の認識結果が得ら
れると、認識結果判定部6は、出力パターン記憶部5に
記憶されている第1〜第4の認識結果のうち、出力最大
値が”1”に最も近い音声認識結果を、当該検出音声部
分の音声認識結果として選択して出力する。つまり、音
声識別データ(教師データ)に類似度が最も高い出力パ
ターンに基づいて、入力音声が認識される。
【0076】上記実施の形態では、1つの音声検出部分
に対して、複数の切出し用しきい値β1〜β4によって
得られた複数の音声区間L1〜L4が設定されている。
そして、各音声区間ごとの音声パターンに基づいて、当
該音声検出部分の音声が認識されているので、雑音が音
声区間に含まれることによって誤認識が発生したり、音
声パワーの小さい語尾等が音声区間から脱落することに
よって誤認識が発生したりするといったことが防止され
る。この結果、音声認識精度が向上する。
【0077】また、上記実施の形態では、ニューラルネ
ットワークの学習においては、切り出し誤りによって生
じる音声パターンのうち、他の認識対象音声に対する学
習用追加音声パターンと競合しないものについては、そ
の音声パターンに対応する音声識別データを教師データ
として学習が行なわれ、競合するものについては”0”
の教師データ(反教師データ)を用いて学習が行なわれ
ているので、広い範囲の切り出し位置を許容でき、認識
性能が向上する。
【0078】上記実施の形態では、入力音声に対して複
数のしきい値β1〜β4によって複数の音声区間が設定
されているが、入力音声に対して1つのしきい値によっ
て1の音声区間のみ設定するようにしてもよい。
【0079】上記実施の形態では、音声区間は、入力音
声の音声パワーと、切出し用しきい値とに基づいて設定
されているが、音声パワー以外の音声区間判定用のパラ
メータと、そのパラメータに応じたしきい値とに基づい
て音声区間を設定してもよい。音声区間判定用のパラメ
ータとしては、音声パワー以外に、パワーの傾き、広域
パワー、低域パワー等がある。
【0080】また、各音声区間ごとの音声パターンをそ
れぞれ作成するための、音声区間の特徴としては、音声
スペクトルの他、音声スペクトルの傾き、音声パワー等
を用いてもよい。
【0081】
【発明の効果】この発明によれば、ニューラルネットワ
ークを用いて認識処理を行なう場合に、認識精度の向上
が図れる。
【図面の簡単な説明】
【図1】音声認識装置の構成を示すブロック図である。
【図2】図1のニューラルネットワーク演算部に設けら
れているニューラルネットワークの構造を示す模式図で
ある。
【図3】ニューラルネットワークの学習方法を説明する
ためのフローチャートである。
【図4】ニューラルネットワークの学習用基準音声パタ
ーンと、学習用追加音声パターンとを作成する方法を説
明するためのタイムチャートである。
【図5】ニューラルネットワークの他の学習用追加音声
パターンを作成する方法を説明するためのタイムチャー
トである。
【図6】図1の音声認識装置において、複数の切出し用
しきい値に基づいて複数の音声区間が設定されることを
示すタイムチャートである。
【図7】従来の音声認識装置の構成を示すブロック図で
ある。
【図8】図7の音声認識装置において、1つの切出し用
しきい値に基づいて1つの音声区間が設定されることを
示すタイムチャートである。
【符号の説明】
1 音声分析部 2 音声区間検出部 3 音声パターン作成部 4 ニューラルネットワーク演算部 5 認識結果記憶部 6 認識結果判定部 21 音声検出部 22 音声区間切出し部 23 切出し位置記憶部
フロントページの続き (56)参考文献 特開 平2−170265(JP,A) 特開 平5−165801(JP,A) 特開 平3−116099(JP,A) 特開 平5−334276(JP,A) 特開 平5−342188(JP,A) 特開 平6−289899(JP,A) 特開 平5−250347(JP,A) 特開 平6−274197(JP,A) 特開 昭59−174900(JP,A) 特開 平8−146996(JP,A) 特開 平8−146986(JP,A) 特許2543603(JP,B2) 村尾、大倉、大西、飯田,ニューラル ネットによる、音声切り出し誤りを考慮 した不特定話者単語音声認識についての 検討,日本音響学会1995年春季研究発表 会講演論文集,日本,1995年3月,1− 5−6,11−12 村尾、大倉、飯田,音声切り出し誤り を考慮したニューラルネットの耐雑音性 能評価,日本音響学会1995年秋季研究発 表会講演論文集,日本,1995年9月,3 −2−4,113−114 山田、田中,教師信号と出力との差が 増大する学習方式,1991年電子情報通信 学会秋季大会講演論文集,日本,社団法 人電子情報通信学会,1991年9月5日, 分冊6、D−12,6−12 (58)調査した分野(Int.Cl.7,DB名) G10L 15/16 G06F 15/18 520 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数の学習用入力パターンとそれに対す
    る教師データとを用いてニューラルネットワークを学習
    させた後、学習の妨げになる学習用入力パターンを選択
    し、選択された学習用入力パターンについてはそれらに
    対する教師データを変更し、選択されなかった学習用入
    力パターンについてはそれに対する本来の教師データを
    用いて、追加学習を行なうニューラルネットワークの学
    習方法。
  2. 【請求項2】 学習の妨げになる学習用入力パターン
    は、学習後のニューラルネットワークに学習用入力パタ
    ーンを入力することによって得られる出力と、当該学習
    用入力パターンに対する本来の教師データとの誤差に基
    づいて、選択される請求項1に記載のニューラルネット
    ワークの学習方法。
  3. 【請求項3】 追加学習においては、選択された学習の
    妨げになる学習用入力パターンについてはそれらに対す
    る教師データが反教師データに変更される請求項1およ
    び2のいずれかに記載のニューラルネットワークの学習
    方法。
  4. 【請求項4】 入力音声に対して音声区間を設定する音
    声区間設定手段、音声区間の特徴に基づいて、音声区間
    の音声パターンを作成する音声パターン作成手段、およ
    び音声パターンが入力されるニューラルネットワークを
    有しかつニューラルネットワークの出力に基づいて入力
    音声を認識する音声認識手段を備えており、 各認識対象音声ごとに、好適な音声区間に基づく学習用
    基準音声パターンと、好適な音声区間とは異なる音声区
    間に基づく学習用追加音声パターンとが作成され、各学
    習用基準音声パターンと各学習用追加音声パターンとを
    それぞれ入力パターンとし、各入力パターンに対応する
    音声を表す音声識別データを教師データとして、ニュー
    ラルネットワークが初期学習され、学習用追加音声パタ
    ーンのうち、初期学習済のニューラルネットワークにそ
    れが入力されて音声認識が行なわれた結果、認識誤差が
    所定値より大きいものが学習の妨げになる学習用追加音
    声パターンとして選択され、選択された学習用追加音声
    パターン以外の学習用追加音声パターンと学習用基準音
    声パターンとについては、それぞれの音声パターンを入
    力パターンとし、各入力パターンに対応する音声を表す
    音声識別データを教師データとして用い、選択された学
    習用追加音声パターンについては、その音声パターンを
    入力パターンとし、教師データとして反教師データを用
    いて、ニューラルネットワークが追加学習されている音
    声認識装置。
  5. 【請求項5】 入力音声に対して複数の音声区間を設定
    する音声区間設定手段、各音声区間の特徴に基づいて、
    各音声区間ごとの音声パターンをそれぞれ作成する音声
    パターン作成手段、および各音声区間ごとの音声パター
    ンがそれぞれ入力されるニューラルネットワークを有し
    かつ各音声区間ごとの音声パターンに対するニューラル
    ネットワークの出力に基づいて入力音声を認識する音声
    認識手段を備えており、 各認識対象音声ごとに、好適な音声区間に基づく学習用
    基準音声パターンと、好適な音声区間とは異なる音声区
    間に基づく学習用追加音声パターンとが作成され、各学
    習用基準音声パターンと各学習用追加音声パターンとを
    それぞれ入力パターンとし、各入力パターンに対応する
    音声を表す音声識別データを教師データとして、ニュー
    ラルネットワークが初期学習され、学習用追加音声パタ
    ーンのうち、初期学習済のニューラルネットワークにそ
    れが入力されて音声認識が行なわれた結果、認識誤差が
    所定値より大きいものが学習の妨げになる学習用追加音
    声パターンとして選択され、選択された学習用追加音声
    パターン以外の学習用追加音声パターンと学習用基準音
    声パターンとについては、それぞれの音声パターンを入
    力パターンとし、各入力パターンに対応する音声を表す
    音声識別データを教師データとして用い、選択された学
    習用追加音声パターンについては、その音声パターンを
    入力パターンとし、教師データとして反教師データを用
    いて、ニューラルネットワークが追加学習されている音
    声認識装置。
  6. 【請求項6】 音声区間の特徴が音声スペクトルである
    請求項4および5のいずれかに記載の音声認識装置。
JP23577195A 1995-09-13 1995-09-13 ニューラルネットワークの学習方法および音声認識装置 Expired - Fee Related JP3322536B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23577195A JP3322536B2 (ja) 1995-09-13 1995-09-13 ニューラルネットワークの学習方法および音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23577195A JP3322536B2 (ja) 1995-09-13 1995-09-13 ニューラルネットワークの学習方法および音声認識装置

Publications (2)

Publication Number Publication Date
JPH0981190A JPH0981190A (ja) 1997-03-28
JP3322536B2 true JP3322536B2 (ja) 2002-09-09

Family

ID=16991002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23577195A Expired - Fee Related JP3322536B2 (ja) 1995-09-13 1995-09-13 ニューラルネットワークの学習方法および音声認識装置

Country Status (1)

Country Link
JP (1) JP3322536B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6306528B2 (ja) * 2015-03-03 2018-04-04 株式会社日立製作所 音響モデル学習支援装置、音響モデル学習支援方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
山田、田中,教師信号と出力との差が増大する学習方式,1991年電子情報通信学会秋季大会講演論文集,日本,社団法人電子情報通信学会,1991年9月5日,分冊6、D−12,6−12
村尾、大倉、大西、飯田,ニューラルネットによる、音声切り出し誤りを考慮した不特定話者単語音声認識についての検討,日本音響学会1995年春季研究発表会講演論文集,日本,1995年3月,1−5−6,11−12
村尾、大倉、飯田,音声切り出し誤りを考慮したニューラルネットの耐雑音性能評価,日本音響学会1995年秋季研究発表会講演論文集,日本,1995年9月,3−2−4,113−114

Also Published As

Publication number Publication date
JPH0981190A (ja) 1997-03-28

Similar Documents

Publication Publication Date Title
JP6800946B2 (ja) 音声区間の認識方法、装置及び機器
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
EP2486562B1 (en) Method for the detection of speech segments
US20060155537A1 (en) Method and apparatus for discriminating between voice and non-voice using sound model
JP2002533789A (ja) 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略
CN101548313A (zh) 话音活动检测系统和方法
CN110797032B (zh) 一种声纹数据库建立方法及声纹识别方法
CN113112992B (zh) 一种语音识别方法、装置、存储介质和服务器
JP3428058B2 (ja) 音声認識装置
JP3322536B2 (ja) ニューラルネットワークの学習方法および音声認識装置
Abdullah et al. Attacks as defenses: Designing robust audio captchas using attacks on automatic speech recognition systems
JP3322491B2 (ja) 音声認識装置
Nosek et al. Synthesized speech detection based on spectrogram and convolutional neural networks
JPH06266386A (ja) ワードスポッティング方法
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
EP1488410B1 (en) Distortion measure determination in speech recognition
JP2853418B2 (ja) 音声認識方法
JP2002372992A (ja) 話者識別方法
Suh et al. Acoustic hole filling for sparse enrollment data using a cohort universal corpus for speaker recognition
US20240144934A1 (en) Voice Data Generation Method, Voice Data Generation Apparatus And Computer-Readable Recording Medium
JP2757356B2 (ja) 単語音声認識方法および装置
JP3474949B2 (ja) 音声認識装置
US6298325B1 (en) Speech recognition system for sequence data
CN117037843A (zh) 一种语音对抗样本生成方法、装置、终端设备及介质
CN117831506A (zh) 语音识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees