JPH08227410A - ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置 - Google Patents

ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置

Info

Publication number
JPH08227410A
JPH08227410A JP7236061A JP23606195A JPH08227410A JP H08227410 A JPH08227410 A JP H08227410A JP 7236061 A JP7236061 A JP 7236061A JP 23606195 A JP23606195 A JP 23606195A JP H08227410 A JPH08227410 A JP H08227410A
Authority
JP
Japan
Prior art keywords
layer
input
output
data
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7236061A
Other languages
English (en)
Inventor
Hideto Tomabechi
英人 苫米地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP7236061A priority Critical patent/JPH08227410A/ja
Priority to US08/576,585 priority patent/US6026358A/en
Publication of JPH08227410A publication Critical patent/JPH08227410A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 ニューラルネットワークを利用して、連続音
声を音素または単語単位で認識することができる音声認
識装置を提供する。 【解決手段】 ニューロン素子網22は、音声入力層3
2、環境層33、中間層34、音声出力層37、仮説出
力層38を備える。学習する音素を、FFT装置21で
スペクトル解析し、時間tの音声ベクトル列を音声入力
層32に入力、中間層34の時間t−1でのベクトル状
態を環境層33に入力、教師信号として時間t+1のベ
クトル列を音声出力層37に入力、音素を仮説する符号
列を仮説出力層38に入力することで、ベクトル列の時
系列的関係と、その関係を有する音素(符号列)が仮説
的に学習される。音声認識時にはスペクトル、ケプスト
ラム、自己連想型NNの中間層出力による音声ベクトル
列が音声入力層32に入力され、時系列的な関係も考慮
した符号列が仮説出力層38から出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ニューラルネット
ワークの学習方法、ニューラルネットワークおよびニュ
ーラルネットワークを利用した音声認識装置に関する。
【0002】
【従来の技術】人間の脳神経系の仕組みを工学的に実現
し、情報処理を行おうとするニューラルネットワークが
注目されている。このニューラルネットワークは、デー
タの伝搬を行う複数のニューロン素子から成るニューロ
ン素子網とその学習を制御する学習制御部から構成され
ている。このニューロン素子網は、一般に、データが入
力される入力層と、入力されたデータに対してデータが
出力される出力層、およびこの両層間に配置された1ま
たは複数の中間層から構成されている。そして、ニュー
ロン素子網の各層間におけるニューロン素子は、他のニ
ューロン素子に対して所定の強さ(結合重み)で結合さ
れており、この結合重みの値の違いにより出力信号が変
化するようになっている。
【0003】このような階層構造に構成された従来のニ
ューラルネットワークでは、各ニューロン素子相互間の
結合重みを学習制御部により変化させることによって
「学習」という処理が行われる。学習は、入力層と出力
層の入出力数に対応して与えられるアナログまたは2値
のデータ(パターン)によって行われる。いま、データ
としてg1〜g6が与えられ、この内、g1〜g3を入
力層から学習パターンとして入力した場合に、出力層か
らある出力信号p1〜p3が出力されたものとする。こ
の入力信号に対する出力信号の正解がg4〜g6である
場合、これらg4〜g6を一般に教師信号と呼んでい
る。そして、出力信号p1〜p3と教師信号g4〜g6
との誤差が最小になるように、または一致するように各
ニューロン素子の結合重みを修正する処理を、複数の学
習パターンに対して実行することによって学習が行われ
る。
【0004】このような、教師信号に出力信号が一致す
るように、ニューロン素子網における各ニューロン素子
間の結合重みを修正する具体的方法として、従来から誤
差逆伝播法(以下、BP法という。)がよく用いられて
いる。BP法は、出力層での出力値と教師信号との誤差
を最小にするために、このニューラルネットワークを構
成する全ての層間における各ニューロン素子相互間の結
合重みを修正するものである。すなわち、出力層におけ
る誤差は、各中間層のニューロン素子で生じる個々の誤
差が積算されたものであると判断し、単に出力層からの
誤差だけでなく、その原因となっている各中間層のニュ
ーロン素子の誤差も最小となるように結合重みを修正す
る。そのために出力層、各中間層のニューロン素子毎の
全ての誤差を計算処理する。
【0005】この計算処理は、出力層のニューロン素子
の個々の誤差値を初期条件として与えて、n番目の中間
層の各ニューロン素子の誤差値、(n−1)番目の中間
層の誤差、……、といったように、逆の方向に計算処理
を行う。このようにして求めた各ニューロン素子の持つ
誤差値と、その時点での結合重みを用いて、結合重みの
修正値を算出する。以上の、学習処理を教師信号との誤
差が一定値以下となるまで、または所定回数だけ、全て
の学習パターンについて繰り返すことにより、学習が終
了する。このようなニューラルネットワークを使用し
て、各種データの文字や図形等のパターン認識、音声の
分析や合成処理、運動の時系列パターン発生の予測等を
行うことが研究されている。
【0006】
【発明が解決しようとする課題】しかし、従来のニュー
ラルネットワークでは、音声認識や文字認識、形状認識
等を行う場合について、必ずしも学習が有効に行われる
形式でニューロン素子網の各層を利用していなかった。
このため、例えば、音声認識装置に従来のニューラルネ
ットワークを利用した場合、入力スペクトルのサイズを
ニューラルネットワークのサイズにあらかじめセグメン
トしてあわせておく必要があり、発話速度と個々の音韻
の長さが自由に変化する連続音声認識に応用することが
困難であった。現在は、音韻をニューラルネットワーク
のサイズにセグメント加工した後、音韻毎に単独で音声
認識が行われているのみである。
【0007】また、音声認識用ニューラルネットワーク
の最初の位置にあらかじめ入力スペクトルを適合させて
おく必要がある。従って既存の手法では、音韻の開始タ
イミングが自由に変化する連続音声認識に対応すること
ができない。さらに、従来のニューラルネットワークに
対する音声認識では、音韻のスペクトルはそれぞれ単独
で与えられている。しかしながら、連続音声認識時にお
ける各音素の状態はそれぞれの前に現れる音素の状態に
より影響を受けているため、音素毎の単独の認識をおこ
なう既存のニューラルネットワークによる認識では、前
に提示された音素情報を利用することができず連続音声
認識には適当ではなかった。
【0008】そこで、本発明は、複数のベクトル列Fn
の集合が特定の意味Aを表すデータを処理するニューラ
ルネットワークの新しい学習方法を提供することを第1
の目的とする。また本発明は、複数のベクトル列Fnの
集合が特定の意味Aを表すデータを処理する新しい形式
のニューラルネットワークを提供することを第2の目的
とする。さらに本発明は、連続音声を音素または単語単
位で認識することができる音声認識装置を提供すること
を第3の目的とする。
【0009】
【課題を解決するための手段】請求項1記載の発明で
は、複数のベクトル列Fn(n=1、2、3、…)の集
合が特定の意味Aを表すデータについて、ベクトル列F
nをデータ入力層に入力し、ベクトル列Fn+1を第1
教師信号として第1出力層に入力し、特定の意味Aを第
2教師信号として第2出力層に入力して、学習を行うこ
とで前記第1の目的を達成する。請求項2記載の発明で
は、複数のベクトル列Fn(n=1、2、3、…)の集
合が特定の意味Aを表すデータについて、中間層と結合
し、この中間層または第1出力層とニューロン素子数が
同一である環帰入力層に、ベクトル列Fn−1に対する
中間層または第1出力層の出力ベクトル値を入力し、ベ
クトル列Fnをデータ入力層に入力し、ベクトル列Fn
+1を第1教師信号として第1出力層に入力し、特定の
意味Aを第2教師信号として第2出力層に入力して、学
習を行うことで前記第1の目的を達成する。請求項3記
載の発明では、請求項1または請求項2記載のニューラ
ルネットワークの学習方法において、バックプロパゲー
ション則により学習することで、前記第1の目的を達成
する。請求項4記載の発明では、請求項1から請求項3
のいずれか1の請求項に記載のニューラルネットワーク
の学習方法において、前記特定の意味Aが音声を構成す
る音素であり、複数のベクトル列Fnが、時系列的に解
析された特定の意味Aについての特徴量を表すベクトル
列である、ことで前記第1の目的を達成する。請求項5
記載の発明では、請求項4に記載のニューラルネットワ
ークの学習方法において、前記特定の意味Aについての
特徴量を表すベクトルとして、音声のスペクトルデー
タ、ケプストラムデータ、または自己連想型ニューラル
ネットワークの中間層の出力値データを使用する、こと
で前記第1の目的を達成する。請求項6記載の発明で
は、データ入力層と、このデータ入力層と結合した中間
層と、この中間層と結合し第1出力層と第2出力層から
なる出力層とを有するニューロン素子網と、複数のベク
トル列Fn(n=1、2、3、…)の集合が特定の意味
Aを表すデータについて、ベクトル列Fnをデータ入力
層に入力し、ベクトル列Fn+1を第1教師信号として
第1出力層に入力し、特定の意味Aを第2教師信号とし
て第2出力層に入力して、前記ニューロン素子網の学習
を行う学習手段と、ベクトル列を前記学習手段で学習さ
れた前記ニューロン素子網のデータ入力層に入力する入
力手段と、この入力手段によるベクトル列の入力によ
る、第2出力層の出力信号を出力する出力手段とをニュ
ーラルネットワークに具備させて、前記第2の目的を達
成する。請求項7記載の発明では、請求項6記載のニュ
ーラルネットワークにおいて、少なくとも特定の意味A
の数だけ中間層を有し、データ入力層と出力層とが結合
し、前記各中間層は、ベクトル列Fn−1に対する出力
ベクトル値に応じた値が、フィードバック入力する、こ
とで、前記第2の目的を達成する。請求項8記載の発明
では、データ入力層と環帰入力層からなる入力層と、こ
の入力層と結合した中間層と、この中間層と結合し第1
出力層と第2出力層からなる出力層とを有し、前記環帰
入力層は、前記中間層または第1出力層とニューロン素
子数が同一であるニューロン素子網と、複数のベクトル
列Fnの集合が特定の意味Aを表すデータについて、ベ
クトル列Fn−1に対する中間層または第1出力層の出
力ベクトル値を環帰入力層に入力し、ベクトル列Fnを
入力層のデータ入力層に入力し、ベクトル列Fn+1を
第1教師信号として第1出力層に入力し、特定の意味A
を第2教師信号として第2出力層に入力して、前記ニュ
ーロン素子網の学習を行う学習手段と、ベクトル列を前
記学習手段で学習された前記ニューロン素子網のデータ
入力層に入力する入力手段と、この入力手段によるベク
トル列の入力による、第2出力層の出力信号を出力する
出力手段とをニューラルネットワークに具備させて、前
記第2の目的を達成する。請求項9記載の発明では、請
求項1から請求項4のうちのいずれか1つの請求項に記
載された方法により学習した各ニューロン素子間の結合
重みを有する、データ入力層と、中間層と、第2出力層
を少なくともニューラルネットワークに具備させて、前
記第2の目的を達成する。請求項10記載の発明では、
請求項6から請求項9のうちのいずれか1の請求項に記
載されたニューラルネットワークと、音声を入力する音
声入力手段と、この入力手段から入力された音声の特徴
量を表すベクトル列を時系列的に解析する解析手段と、
この解析手段で解析されたベクトル列をデータ入力層に
順次入力するベクトル列入力手段と、このベクトル列入
力手段がベクトル列をデータ入力層に順次入力すること
で得られる第2出力層の出力から、音素を特定する音素
特定手段、とを音声認識装置に具備させて前記第3の目
的を達成する。請求項11に記載の発明では、請求項1
0に記載の音声認識装置において、前記解析手段は、音
声の特徴量を表すベクトル列として、音声のスペクトル
データ、ケプストラムデータ、または自己連想型ニュー
ラルネットワークの中間層の出力値データを使用する、
ことで前記第3の目的を達成する。
【0010】
【発明の実施の形態】以下、本発明のニューラルネット
ワークの学習方法、ニューラルネットワークおよびニュ
ーラルネットワークを利用した音声認識装置について、
一実施形態を図1ないし図8を参照して詳細に説明す
る。図1はニューラルネットワークを利用した音声認識
装置のシステム構成を表したものである。この音声認識
装置は、ニューロン素子網に対する学習のためのベクト
ル列の入力と出力層への教師信号(ベクトル列)の入
力、学習による各ニューロン素子間の結合重みの変更、
およびニューロン素子網からの出力信号に基づく音声認
識等の各種処理および制御を行うCPU11を備えてい
る。このCPU11は、データバス等のバスライン12
を介して、ROM13、RAM14、通信制御装置1
5、プリンタ16、表示装置17、キーボード18、F
FT(高速フーリエ変換)装置21、ニューロン素子網
22、および図形読取装置24が接続されている。
【0011】ROM13は、CPU11が音声認識やニ
ューロン素子網の学習等の処理や制御を行うための各種
プログラムやデータが格納されているリード・オンリー
・メモリである。このROM13には、例えば、ニュー
ロン素子網の学習としてバックプロパゲーション則によ
る学習を行うためのプログラムや、音声認識を行うため
の80種類の音素についての符号列が格納されている。
この音素についての符号列が第2教師信号として使用さ
れると共に、ニューロン素子網の出力信号から音素を認
識する場合に使用される。またROM13には、認識し
た音素から音声を認識すると共に、認識した音声を文字
による文章に変換する日本語変換システムのプログラム
も格納されている。
【0012】RAM14は、ROM13に格納された所
定のプログラムがダウンロードされ格納されると共に、
CPU11のワーキングメモリとして使用されるランダ
ム・アクセス・メモリである。RAM14には、FFT
装置21で解析された音声信号について、各時間と各周
波数におけるパワーを一時格納するためのベクトル列格
納エリアが確保されている。なお、この各周波数におけ
るパワーの値が、ニューロン素子網の第1入力部に入力
されるベクトル列になる。また、RAM14には、文字
や図形等をニューラルネットワークで認識する場合に
は、図形読取装置24で読み取られた画像データが格納
されるようになっている。
【0013】通信制御装置15は、認識した音声データ
等の各種データについて、電話回線網、LAN、パーソ
ナルコンピュータ通信網等の各種の通信網2を介して他
の通信制御装置との間でデータ送受信を行う。プリンタ
16は、レーザプリンタやドットプリンタ等を備えてお
り、入力データや認識した音声の内容等を印刷するよう
になっている。表示装置17は、CRTディスプレイや
液晶ディスプレイ等の画像表示部と表示制御部とを備え
ており、入力データや認識した音声の内容、および、音
声認識に必要な操作の指示を画面表示するようになって
いる。キーボード18は、FFT装置21のパラメータ
の変更や設定条件等を入力したり、文章の入力処理等を
行うための入力装置であり、数字を入力するテンキー、
文字を入力する文字キー、各種の機能を実現するための
機能キー等が配置されている。このキーボード18に
は、ポインティングデバイスとしてのマウス19が接続
されている。
【0014】FFT装置21には、マイク等の音声入力
装置23が接続されている。このFFT装置21は、音
声入力装置23から入力されたアナログの音声データ
を、ディジタルに変換すると共に、離散的フーリエ変換
によりスペクトル解析を行う。このFFT装置21によ
るスペクトル解析により、各周波数毎のパワーによるベ
クトル列が、各時間毎に出力され、この各時間毎のベク
トル列はRAM14のベクトル列格納エリアに格納され
るようになっている。図形読取装置24は、CCD(Ch
arge Coupled Device )等の素子を備えており、用紙等
に記録された文字や図形等の画像を読み取るための装置
であり、この画像読取装置24で読み取られた画像デー
タは、RAM14に格納されるようになっている。
【0015】図2は、ニューロン素子網22の構成を表
したものである。この図2に示すように、ニューロン素
子網22は、3群5層からなるニューロン素子網で構成
されている。すなわち、第1群は入力層31で、データ
入力層として機能する音声入力層32と、環帰入力層と
して機能する環境層(Context 層)33を有している。
第2群は中間層(Hidden層)34を有している。第3群
は出力層36で、第1出力層として機能する音声出力層
37と、第2出力層として機能する仮説出力層(Hypoth
esis層)38を有している。ニューロン素子網22は、
入力層31、中間層34および出力層36を構成する各
ニューロン素子の値を格納するための図示しないメモリ
を備えている。
【0016】この実施形態の音声認識装置において、音
声入力層32は、In1〜In30の30個のニューロ
ン素子を備えている。また、中間層34はHi1〜Hi
200の200個、環境層33は中間層34と同数でC
o1〜Co200の200個、音声出力層37は音声入
力層32と同数でOp1〜Op30の30個、仮説出力
層38はHy1〜Hy8の8個のニューロン素子をそれ
ぞれ備えている。仮説出力層38は、認識対象となる8
0個の音素に対応する符号化が可能な数として8個のニ
ューロン素子を有しているが、認識対象となる音声が日
本語以外の外国語の場合には、その言語に応じた音素数
と、その音素数の符号化に必要な数のニューロン素子が
使用される。また、日本語の音素として必ずしも80に
限定する必要はなく、他の分類による音素数およびニュ
ーロン素子数を使用してもよい。また、音素数と同一の
ニューロン素子を仮説出力層58に具備させてもよい。
すなわち、音素数が80個の場合、ニューロン素子も各
音素に対応してHy1〜Hy80の80個を仮説出力層
38に具備させる。そして、第2教師信号として、音素
「a」の場合「10000…0」、音素「i」の場合
「01000…0」というように、各音素に対応するビ
ット(ニューロン素子)のみを“1”とし他のビットを
“0”とする。こうすることで、学習処理の負担は増加
するが、学習後の音声認識において、他の音素との区別
を容易に行うことができるようになる。
【0017】入力層31、中間層34および出力層36
は、順伝播活性ならびに逆伝播学習可能なニューロン素
子網である。入力層31と中間層34、および中間層3
4と出力層36は、完全結合している。すなわち、入力
層31の全ニューロン素子は中間層34の全ニューロン
素子と結合しており、中間層34の全ニューロン素子は
出力層56の全ニューロン素子と結合している。そし
て、このニューロン素子網の学習時において、FFT装
置21でスペクトル解析された時間tにおける音声のベ
クトル列が順次音声入力層32に入力される。環境層3
3には、1つ前の時間t−1に対する学習が終了した後
の中間層5401〜5480のベクトル状態が、時間t
において入力される。そして、次に音声入力層32に与
えられることになる時間t+1のベクトル列が音声出力
層37に第1教師信号として入力される。仮説出力層3
8には、時間tにおける前後の時間間隔で音声入力層3
2に入力されるベクトル列が表す特定の意味A(例えば
認識されるべき音素)を仮説する符号列が第2教師信号
として入力される。
【0018】このように、本実施形態では、音声入力層
32に現在(時間t)のベクトル列を入力し、中間層3
4における過去(時間t−1)のベクトル値を環境層3
3に入力すると共に、音声出力層37に未来(時間t+
1)のベクトル列を入力している。このため、各音素に
ついてスペクトル解析された各パワーP(tn)による
ベクトル列についての時系列的な関係が学習されること
になる。すなわち、入力層31、中間層34、および音
声出力層37の各結合重みは、過去、現在、未来にわた
る時系列的な関係を含めた値に学習される。また、同一
の音素についての各パワーP(tn)が音声入力層31
に入力されて学習を行う際、仮説出力層38には常時同
一の第2教師信号を入力して学習を行っている。これに
よって、入力されるベクトル列の時系列的な関係と共
に、そ関係を有する音素(符号列)が仮説的に学習され
る。このため、音声認識を行う場合に、スペクトル解析
された音声についてのベクトル列が音声入力層32に入
力されると、そのベクトル列の時系列的な関係をも考慮
されたベクトル列が仮説出力層38から出力されること
になる。
【0019】図3は、第2教師信号テーブルの内容を表
したものである。この図3に示すように、第2教師信号
は、80個の各音素に対応して、音素「a」が「100
0000」、音素「i」が「01000000」、音素
「u」が「00100000」、…、というように、各
8ビットの符号列で規定されている。この第2教師信号
が表す符号の各ビットは、仮説出力層38の各ニューロ
ン素子Hy1〜Hy8に供給される。この各音素に対す
る第2教師信号は、ROM13に格納されている。な
お、図3に示した第2教師信号の各符号列は、本実施形
態における例示であり、他の符号列を使用してもよい。
また、音素数に応じて仮説出力層38のニューロン素子
数が決定されるが、そのニューロン素子数に応じたビッ
ト数で表現するようにしてもよい。
【0020】図4は、このようなニューロン素子網22
の各ニューロン素子間の結合重みを格納する結合重みテ
ーブルを表したものである。ニューロン素子網22は、
この結合重みを格納する図示しないメモリを備えてい
る。そして、図2に表したニューロン素子網についての
学習は、CPU11が所定のバックプロパゲーション則
に従って、このテーブルの結合重みを変更することで行
われる。
【0021】次に、このように構成された実施形態の動
作について説明する。 ニューラルネットワークの学習 まずニューラルネットワークについての学習を行う場
合、ユーザは、最初にキーボード18を操作することに
より、または表示装置17に表示された所定キーをマウ
スにより操作することにより、学習モードを指定する。
学習モードを指定した後、ユーザは、予め決められた8
0の音素に対応する文字を順次キーボード18から入力
した後に、その音素についての音声を音声入力装置23
に入力する。なお、入力すべき音素を表示装置17に表
示することで、発声すべき音素を順次知らせるようにし
てもよい。音声入力装置23では、例えば音素「a」に
ついて、図5(a)に示すようなアナログ信号が入力さ
れると、これをFFT装置21に供給する。FFT装置
21では、供給されたアナログ音声データを22KHz
でサンプリングし、16ビットのPCMデータにA/D
変換し、図示しない記憶部に格納する。
【0022】次いでFFT装置21では、方形窓、ハミ
ング(Hamming)窓、ハニング(Hannig)
窓等の時間窓の形や、ポイント数等のパラメータに従っ
て、各時間tn(n=1、2、…)毎に、高速フーリエ
変換(FFT)処理によりディジタル音声データ「a」
についてのスペクトル解析を行う。すなわち、FFT装
置21は、図5(b)に示すように、各時間tn毎にお
ける音声データの、各周波数(F1〜F30)に対する
パワーP(tn)を算出する。この各周波数のパワーP
(tn)によるベクトル列は、図6に示すように、各時
間毎に、RAM14のベクトル列格納エリアに格納され
る。
【0023】入力された音素について、FFT装置21
によるスペクトル解析が終了すると、CPU11は、R
AM14に格納したベクトル列に従ってニューロン素子
網22の学習を行う。いま、音素「a」の時間tnにお
ける学習について説明する。この場合、CPU11は、
まず、時間tnについての学習開始前の中間層34のニ
ューロン素子Hi1〜Hi200の状態、すなわち、t
n−1についての学習が終了した時点での中間層34に
おけるベクトル列を、環境層33のニューロン素子Co
1〜Co200に入力する。そしてCPU11は、音素
「a」についての時間tnにおけるベクトル列P(t
n)をRAM14から読み出し、音声入力層31の各ニ
ューロン素子In1〜In30に入力する。また、時間
tnの次の時間tn+1につてのベクトル列P(tn+
1)を第1教師信号として音声出力層37のニューロン
素子Ou1〜Ou30に入力すると共に、入力された音
素「a」について、図3に示す符号列「1000000
0」を第2教師信号として仮説出力層38の各ニューロ
ン素子Hy1〜Hy8に入力する。
【0024】入力層31へのベクトル列の入力および出
力層への教師信号の入力が済むと、CPU11は、図4
に示した、入力層31、中間層34および出力層36の
各ニューロン素子間の結合重みを用いて、学習を行い、
各結合重みを学習後の値に更新する。なお、本実施形態
において、行われる学習はバックプロパゲーション則に
よる学習が行われる。学習式は、Δw(t)=〔S
(t)/〔S(t−1)−S(t)〕〕×Δw(t−
1)であり、式の詳細および学習アルゴリズム(The
Quickprop Algorithm)は、カー
ネギーメロン大学1988年9月発行、S.Fahlm
an著の技術レポート♯CMU−CS−88−162の
“An Empirical Study of Le
arning Speed in Back−Prop
agation Networks”に記載されてい
る。また、エルマン(J.L.Elman)による、F
inding structure in time,
Cognitive science,14,pp.1
79−211(1990)に記載されている、離散時間
のリカレントネットワークに、フィードフォワードネッ
トワークのバックプロパゲーション則を準用した学習で
もよい。また、学習については以上の方法に限定され
ず、他の学習方法によってもよい。
【0025】時間tについての音素「a」の学習が終了
すると、次に時間t+1についての学習を行う。この場
合、時間tnのときと同様にして、tnについての学習
が終了した時点での中間層34のベクトル列を環境層3
3に入力し、時間tn+1のベクトル列P(tn+1)
をRAM14から読み出して音声入力層31に入力す
る。また、時刻tn+2のベクトル列P(tn+2)を
第1教師信号として音声出力層37に入力する。一方、
仮説出力層38には、入力された音素「a」についての
学習が行われている間、「a」についての同一の符号
「10000000」が継続的に第2教師信号として入
力される。この時刻t+1についての学習が終了し、図
4に示す結合重みの値が更新されると、以後同様にし
て、スペクトル解析された全てのベクトル列についての
学習を行うことで、音素「a」についての学習を終了す
る。その後、同様にして「i」、「u」、「e」、
「o」等の全ての音素についての学習を行う。
【0026】入力音声の認識 以上の学習が終了した後、音声入力装置23から、例え
ば音声「まえ」が入力されたものとする。すると、FF
T装置21で入力音声についてのスペクトル解析が行わ
れる。そして、CPU11は、時間tn−1にける中間
層34のベクトル列を環境層33に入力した後、現在の
時間tnにおける各周波数のパワーから成るベクトル列
P(tn)を音声入力層32に入力する。CPU11
は、入力層31と中間層34との各結合重み(図4)を
ニューロン素子網22のメモリから読み出し、各結合重
みと入力層31の各入力値とから、中間層34の各ニュ
ーロン素子Hi〜Hi200の出力値を算出し、ニュー
ロン素子網22の図示しないメモリに格納される。この
中間層34のベクトル値は、次の時間tnにおけるベク
トル列P(tn+1)が入力される前に環境層33に入
力される。
【0027】次に、CPU11は、ニューロン素子網2
2の図示しないメモリから、格納した中間層34の出力
値と、中間層と仮説出力層38との結合重みとを読み出
し、両者の値から、仮説出力層38の各ニューロン素子
Hy1〜Hy8の出力値を求める。そして、各ニューロ
ン素子Hy1〜Hy8の出力値と、ROM13に格納さ
れている第2教師信号テーブルの各符号列と照合するこ
とで、該当する音素を特定し、特定した音素をRAM1
4に格納する。
【0028】この特定した音素は、時系列的に音声入力
装置32にベクトル列P(tn)が入力される毎に特定
されるため、複数の音素列となる。例えば、音声「い
ろ」が入力された場合には、「iiiiirrrooo
oo」となる。そこで、CPU11は、このRAM14
に格納された音素列から、入力された音声を「iro」
と認識する。そしてCPU11は、キーボード18から
の入力指示がある場合には、認識した音声を日本語変換
システムに従って、文字による文章に変換する。変換し
た文章は、表示装置17に表示されると共にRAM14
に格納される。また、キーボード18からの指示に応じ
て、通信制御装置5および通信網2を介して、パーソナ
ルコンピュータやワードプロセッサ等の各種通信制御装
置にデータ伝送を行う。
【0029】図7は、音声「まえ」についての各音素の
特定結果を表したものである。なお、学習段階におい
て、第2教師信号として仮説出力層38に入力する各音
素の符号として図7のベクトル列を採用したものとす
る。また、各ニューロン素子Hy1〜Hy8の出力は、
所定の閾値を越えた場合に出力され、閾値以下の場合に
は出力されず図7では、記号「−」で示されている。こ
の図7の最右欄に示すように、各時間tnにおけるベク
トル列の入力に対応して音素「m」、「a」、「e」を
特定することができる。この音素から入力された音声が
「まえ」であると認識することができる。
【0030】この図7に示したように、各時間tnにお
けるニューロン素子Hy1〜H8の出力によって特定さ
れた各音素列から、音声を特定する場合、同一の音素が
複数個以上、例えば4個以上連続的に特定されている場
合に、その音素を有効と見なして、音声認識を行う。例
えば、図7において、時間t1で特定された音素「m」
と時間t35で特定された音素「e」は、4個以上連続
していないため、音声認識を行う対象から除外される。
なお、4子以上連続的に特定された場合だけでなく、他
に、2個、3個、5個、10個等の他の数だけ連続的に
特定された場合にその音素が有効であると判断するよう
にしてよもい。更に、音素が有効であると判断するため
の個数を、利用者の選択により、キーボードから指定す
ることができるようにしてもよい。
【0031】なお、図7の最右欄の「?」で示すよう
に、音声を認識する場合、スペクトル分析されたベクト
ル列が入力された当初と、各音素から音素に変化する場
合において、音素を特定できない場合があるが、その後
継続的に特定される音素によって容易に音声を認識する
ことができる。スペクトル分析されたベクトル列が入力
された当初に音素を特定できない場合があるのは、学習
段階において、過去、現在、未来による時系列的な関係
を含めて学習しているのに対して、入力当初は過去の時
系列的関係を含む情報が充分でない為であると考えられ
る。また、各音素の変化時において音素を特定できない
のは、学習段階において、個々の音素単位での学習を行
っており、各音素同士の時系列的関係については学習の
対象になっていないためであると考えられる。
【0032】本実施形態によれば、各音素のスペクトル
の時系列的な関係について学習されているため、学習の
ための音素を発声する者と異なる者の音声も正確に認識
することができた。従って、不特定話者認識を行うこと
ができる。
【0033】また、音素単位での音声認識を行う場合に
従来から認識すべき音素の開始点をどのようにして正確
に決定するかが問題であったが、本実施形態によれば、
音素の開始点を特定する必要がない。また、音素単位に
よる連続音声認識を行う場合に、各個人差が大きい各音
素の発声時間に関係なく、音声を認識することができ
る。例えば、音声として「はーる」というように、音声
「は」をのばして発声した場合であっても、「hhhh
h…aaaaaaaaaaaaaa…rrrr…uuu
uu…」というように、音素「a」が多く特定されるだ
けで、容易に音声「はる」と認識することができる。
【0034】また、本実施形態では、各音素に対し複数
の時間tnにおける複数のベクトル列P(tn)が入力
され、各時間毎に音素を特定している。このため、連続
音声認識において、各音素状態が前に現れる音素の状態
により影響を受けていても、各音素から音素に変化する
場合に音素の特定ができない状態、すなわち、図7の最
右欄の「?」が多少増えるだけである。そして、その後
に同一の音素が継続的に特定されるため、連続音声認識
であっても容易に音声を認識することができる。
【0035】以上説明した実施形態では、リカレント型
のニューラルネットワークとするため、中間層34のベ
クトル値を環境層33にフィードバックさせる構成とし
たが、本発明では、この構成に限定されるものではな
く、例えば、音声出力層37のベクトル値を環境層33
にフィードバックするようにしてもよい。この場合、環
境層33のニューロン素子Coの数は、音声出力層37
のニューロン素子Ouと同一数とする必要がある。な
お、環境層34にフィードバックするベクトル値は、図
7に示す閾値を超えた値ではなく、音声出力層37の各
ニューロン素子Ouの出力値を使用する。
【0036】また、以上説明した実施形態では、リカレ
ント型のニューラルネットワークとしたが、本発明で
は、環境層のないニューロン素子網としてもよい。この
場合、時間tのベクトル列を音声入力層31に入力し、
次の時間t+1のベクトル列を第1教師信号として音声
出力層37に入力し、時間tnの集合が表す特定の意味
Aを第2教師信号として仮説出力層38に入力する。環
境層がない場合、過去(時間t−1)の情報に基づく時
系列的な関係までは学習されない。しかし、局所的では
あるが、現在(時間t)と未来(t+1)による時系列
的関係を学習しているため充分に音声を認識することが
できる。環境層がない場合には、学習および音声認識の
処理が軽減され、処理速度を早くすることが可能にな
る。
【0037】さらに、本実施形態では、入力されるベク
トル列の時系列的な関係と共に、その関係を有する音素
(符号列)を仮説的に学習することで、音声を認識する
ようにしたが、本発明では、時系列的関係を有する音声
に限定されるものではなく、互いに所定の関係を有する
複数のベクトル列Fn(n=1、2、3、…)の集合が
表す特定の意味についての学習とその認識や予測につい
て利用することができる。例えば、音声認識以外に、運
動の時系列パターン発生の学習とその予測を行うように
してもよい。また、時系列的な場合だけでなく、空間的
関係や、周波数的関係を有する複数のベクトル列の集合
が特定の意味を有する場合の、学習と認識を行うように
してもよい。例えば、文字が有する空間的関係について
学習することで、文字認識を行うようにしてもよい。
【0038】さらに、本実施形態では、音素単位の音声
認識について説明したが、単語単位で音声認識するよう
にしてもよい。この場合、ベクトル列が表す特定の意味
としてその単語を表す符号列が第2教師信号として使用
される。
【0039】また、本実施形態では、ROM13に格納
した学習プログラムに従ってCPU11でニューロン素
子網22の学習を行い、学習後のニューロン素子網22
による音声認識を行うようにしたが、不特定話者の連続
音声認識を高い認識率で行うことが可能であるので、再
学習の必要が少ない。従って、音声認識装置としては、
必ずしも学習機能を有する必要がなく、他の装置の学習
で求めた結合重みを有する、環境層33、中間層34、
仮説出力層38からなるニューロン素子網を使用するよ
うにしてもよい。この場合、ニューロン素子網を、学習
済みの結合重みを有するハードウェアで構成してもよ
い。
【0040】また、以上説明した実施形態では、FFT
装置における高速フーリエ変換によって、学習時の各音
素と音声認識時の音声についてのスペクトル解析を行っ
たが、他のアルゴリズムによりスペクトル解析を行うよ
うにしてもよい。例えば、DCT(離散コサイン変換)
等によるスペクトル解析を行ってもよい。
【0041】更に、以上説明した実施形態では、各音素
を学習する場合に、例えば母音である音素「a」につい
て1種類の学習を行う場合について説明したが、本発明
では、複数種類について学習するようにしてもよ。例え
ば、音素「a」について、母音の「a」の他に、「m
a」、「na」、「ka」等の各音声から音素「a」の
部分を切り出して音素「a」の学習を行うようにしても
よい。また、子音の場合も同様に、音素「m」であれ
ば、「ma」、「mi」、「mu」等の各音声から音素
「m」を切り出し、それぞれについて学習を行う。これ
により、他の色々な音素と接続された場合について学習
が行われ、認識率が向上する。
【0042】図8は、他の実施形態におけるニューロン
素子網の構成を表したものである。この図8に示すよう
に、この実施形態では、ニューロン素子網をリンカレン
トカスケード型のニューラルネットワークにより構成し
たものである。このリカレントカスケード型のニューロ
ン素子網は、図8に示すように、音声入力層52と、音
声出力層57と仮説出力層とを有する出力層56を備え
ている。音声入力層52と、出力層56とは完全結合さ
れている。
【0043】また、ニューロン素子網は、全音素のそれ
ぞれに対応した80個の中間層5401〜5480から
なるカスケード中間層54と、このカスケード中間層5
4の各中間層5401〜5480のそれぞれに対応した
80個の環境層5301〜5380からなるカスケード
環境層53とを備えている。各中間層5401〜548
0は、対応する音素によって、それぞれ異なる数のニュ
ーロン素子を備えている。各環境層5301〜5380
は、対応する中間層5401〜5480と同数のニュー
ロン素子を備えている。なお、音声入力層52と音声出
力層57は共に30個のニューロン素子を備え、仮説出
力層58は8個のニューロン素子を備えているが、図2
に示した実施形態と同様に、音声入力層52と音声出力
層57のニューロン素子数が同一であれば、他の数でも
よい。
【0044】カスケード中間層54とカスケード環境層
53との結合は完全結合ではなく、各中間層5401〜
5480と、対応するカスケード環境層5301〜53
80とが完全結合している。すなわち、中間層5401
は、対応する環境層5301と完全結合しているが、他
の環境層5302〜5380とは結合していず、完全に
切り離されている。同様に、他の中間装置5402〜5
480は、対応している環境層とのみ完全結合してい
る。また、カスケード中間層54は、音声入力層52と
完全結合していると共に、出力層56とも完全結合して
いる。なお、本実施形態において、各中間層5401〜
5480を構成するニューロン素子は、互いに独立して
いる。但し、互いに隣あったニューロン素子同志を結合
させ、一方のニューロン素子の出力を他方のニューロン
素子に入力するようにしてもよい。
【0045】このように構成されたニューロン素子網に
おいて、音声入力層52には、学習時にFFT装置21
でスペクトル解析された時間tの音声のベクトル列が順
次入力される。1つ前の時間t−1に対する学習が終了
した後の中間層5401〜5480のベクトル状態が対
応する各環境層5301〜5380に入力される。そし
て、次に音声入力層52に与えられることになる時間t
+1のベクトル列が音声出力層57に第1教師信号とし
て入力される。仮説出力層58には、時間tにおける前
後の時間間隔で音声入力層52に入力されるベクトル列
が表す音素を仮説する符号列が第2教師信号として入力
される。
【0046】そして、例えば音素「a」の学習を行う場
合、中間層5401と、出力層56、中間層5401と
環境層5301、中間層5401と音声入力層52、お
よび、音声入力層52と出力層56、間の結合重みのみ
変更することで学習を行う。すなわち、中間層5402
〜5480と、音声入力層52、環境層5302〜53
80、および出力層56との結合重みは変更しない。そ
して、次の音素「i」を学習する場合、音素「a」で学
習した中間層5401と各層との結合重みを固定する。
そして、音素「i」の学習において、音素「i」に対応
する中間層5402からの出力の他に、結合重みを固定
した中間層5401からの出力も出力層56に入力され
る。これらの入力に対する出力層56の出力値が、教師
信号の値と比較され学習される。このように、結合重み
を固定した中間層5401の出力は音素「i」の学習に
おいて雑音となるが、この雑音を次の音素「i」の学習
で使用することで、雑音をマイナスすることも含めた中
間層5402の結合重みが学習される。同様に、次の音
素として「u」を学習する場合には、決定した音素
「a」と「i」の中間層5401、5402の結合重み
をそれぞれ固定した状態での出力を出力層56に入力す
る。
【0047】このように構成された、リカレントカスケ
ード型のニューロン素子網では、1対の中間層と環境層
が各音素毎に設けられ、他の中間層や環境層と完全に切
り離されているため、各音素に対応する学習を高速に行
うことができる。
【0048】なお、本実施形態の変形例として、各音素
に対応する1対の中間層と環境層毎の学習を別々のコン
ピュータシステム等を使用して別個独立に行い、各学習
終了後に、中間層と環境層の対を組み合わせて、カスケ
ード中間層およびカスケード環境層を構成するようにし
てもよい。この場合、各中間層は対応する音素について
だけ独立して学習しているため、他の音素に対する中間
層による雑音をマイナスすることも含めた学習が行われ
ていない。そこで、各音素の雑音をマイナスするような
信号が出力層56に入力されるような、別個の中間層を
付加する必要がある。そして、既に学習した各中間層5
401〜5480の結合重みを固定した状態で、全ての
音声について再度学習を行う。この場合、付加した中間
層からの出力は、雑音をマイナスする値となる。例え
ば、音素「a」を再学習する場合、結合重みを固定した
中間層5402〜5480からの出力の合計がプラスマ
イナスゼロとなるような値が、付加した中間層から出力
されるように、付加中間層の結合重みが学習される。
【0049】なお、図8に示したニューロン素子網では
カスケード環境層53を設けたが、このカスケード環境
層53がないニューロン素子網としてもよい。この場
合、カスケード中間層54の各中間層5401〜548
0を構成する各ニューロン素子は、自己の値をフィード
バックして入力するように構成する。すなわち、時間t
における入力を処理する場合、各中間層のニューロン素
子には、音声入力層52からの時間tに対する入力の他
に、時間t−1における自己の値もフィードバックして
入力される。この実施形態によれば、時間t−1におけ
る過去の情報も考慮しつつ、カスケード環境層53とカ
スケード中間層54間の結合重みの計算が不要となるの
で、処理を早くすることができる。
【0050】以上説明した、図2、図8のニューロン素
子網およびその変形例において、各層間の結合状態とし
て完全結合している場合について説明したが、本発明で
はこれに限定されるものではない。例えば、各層のニュ
ーロン素子数や、学習能力に応じて結合状態を決定する
ようにしてもよい。
【0051】次に第2実施形態ついて説明する。前記し
た第1実施形態では、音声認識においてFFT21で解
析されたスペクトルデータを音声入力層に入力するデー
タとしたのに対して、この第2実施形態では、ケプスト
ラムデータを音声入力層に入力することで音声認識を行
うようにしたものである。図9は、第2実施形態におけ
るニューラルネットワークのシステム構成を表したもの
である。この図に示すように、ニューラルネットワーク
では、図1に示した第1実施形態のシステムに、更にケ
プストラム装置26を備えている。なお、その他の部分
については第1実施形態と同様なので、同一の番号を付
してその説明を省略する。また、ニューロン素子網22
については、第1実施形態の図2において説明したニュ
ーロン素子網22だけでなく、さらに第1実施形態の変
形例として説明した各種のニューロン素子網22の、い
ずれのニューロン素子網22を適用することも可能であ
る。また、第2実施形態および第3実施形態の説明にお
いて、ニューロン素子網22の各部を指定して説明する
場合には、説明の都合から、図2に示したニューロン素
子網22で使用した符号を用いるものとする。例えば、
音声入力層32とした場合、図2のニューロン素子網2
2における音声入力層32と、図8のニューロン素子網
22における音声入力層52の双方を指すものとする。
ケプストラム装置26は、FFT装置21におけるスペ
クトル解析された波形の短時間振幅スペクトルの対数を
逆フーリエ変換することで、ケプストラムデータを得る
ものである。このケプストラム装置26により、スペク
トル包絡と微細構造とを近似的に分離して抽出すること
ができる。
【0052】ここで、ケプストラムの原理について説明
する。いま、音源と音道のインパルス応答のフーリエ変
換をそれぞれ、G(ω)H(ω)で表すと、線型分離透
過回路モデルにより、 X(ω)=G(ω)H(ω) の関係が得られる。この式の両辺の対数をとると、次の
数式(1)となる。 log|X(ω)|=log|G(ω)+log|H(ω)|…(1) さらに、この数式(1)の両辺の逆フーリエ変換をとる
と次の数式(2)になり、これがケプストラムである。 c(τ)=F-1log|X(ω)| =F-1log|G(ω)+F-1log|H(ω)|…(2) ここでτの次元は、周波数領域からの逆変換であるから
時間になり、ケフレンシーとよばれる。
【0053】次に基本周期と包絡線の抽出について説明
する。数式(1)の右辺第1項はスペクトル上の微細構
造であり、第2項はスペクトル包絡線である。両者の逆
フーリエ変換には大きな違いがあり、第1項は高ケフレ
ンシーのピークとなり、第2項は0から2〜4ms程度
の低ケフレンシー部に集中する。高ケフレンシー部を用
いてフーリエ変換することによって対数スペクトル包絡
線が求まり、更に、それを指数変換すればスペクトル包
絡線が求まる。求まるスペクトル包絡線の平滑さの度合
いは、低ケフレンシー部のどれだけの成分を用いるかに
よって変化する。ケフレンシー成分を分離する操作をリ
フタリングと呼ぶ。
【0054】図10は、ケプストラム装置26の構成を
表したものである。このケプストラム装置26は、対数
変換部261と、逆FFT部262と、ケプストラム窓
263と、ピーク抽出部264と、FFT部265とを
備えている。なお、ケプストラム窓263、ピーク抽出
部264と、FFT部265は、ニューロン素子網22
の音声入力層32に供給するデータとして、逆FFT部
262で求めたケプストラムデータを使用する場合には
不要であり、スペクトル包絡をニューロン素子網22の
入力データとして使用する場合に必要となる。また、F
FT部265については、必ずしも必要ではなく、FF
T装置21を使用するようにしてもよい。
【0055】対数変換部261は、FFT21から供給
されるスペクトルデータX(ω)から、数式(1)に従
って対数変換を行い、log|X(ω)|を求め、逆F
FT部262に供給する。逆FFT部262では、供給
された値について、更に逆FFTをとり、c(τ)を算
出することで、ケプストラムデータを求める。逆FFT
部262では、求めたケプストラムデータを、音声デー
タについての学習または音声認識を行う入力データIn
として、第1実施形態で説明したニューロン素子網22
の音声入力層32に供給するようになっている。ニュー
ロン素子網22に入力する入力データInの数について
は、音声認識に併せて任意に選択された音声入力層32
のニューロン素子数と同数が選択される。すなわち、図
2に示したニューロン素子網22の場合、音声入力層3
2のニューロン素子が30あるので、ケフレンシー
(τ)軸を30分割し、各ケフレンシー毎のパワーの値
をニューロン素子In1〜In30の入力データとし
て、音声入力層32に供給する。この逆FFT部262
で求めたケプストラムデータを音声入力層32に供給す
るのが、第2実施形態における第1例である。
【0056】次に、第2実施形態における第2例につい
て説明する。この第2例では、ケプストラム窓263に
おいて求めたケプストラムデータに対してリフタリング
を行うことで、ケフレンシー成分を高ケフレンシー部と
低ケフレンシー部に分離する。分離された低ケフレンシ
ー部は、FFT部265において、フーリエ変換するこ
とによって対数スペクトル包絡線が求められ、更に、指
数変換することでスペクトル包絡線が求められる。この
スペクトル包絡データから、周波数軸軸をニューロン素
子の数に対応して分割し、各周波数毎のパワーの値を音
声入力層32に供給する。
【0057】なお、ケプストラム窓263で分離され
た、低ケフレンシー部のケプストラムデータを入力デー
タとして音声入力層32に供給するようにしてよもい。
また、分離された高ケフレンシー部のケプストラムデー
タから、ピーク抽出部264で基本周期を抽出し、これ
を、FFT部265で求めたスペクトル包絡のデータと
共に入力データの1つとして使用してもよい。こ場合、
音声入力層32のニューロン素子数がN個とすると、ス
ペクトル包絡のデータから(N−1)の入力データIn
1〜In(N−1)を音声入力層32に入力し、基本周
期のデータから入力データInNを音声入力層32に入
力する。
【0058】以上説明したように、第2実施形態によれ
ば、音声データについてのケプストラムデータを使用す
ることで、パワースペクトルよりも一層音声の特徴を捕
らえたデータを認識対象とするので、認識率が向上す
る。なお、第2実施形態では音声認識について説明した
が、画像データのケプストラムデータを使用して画像認
識を行うようにしてもよい。この場合の画像データは、
図形読取装置24で読み取られた画像データ、および、
通信制御装置15で受信した画像データのいずれを用い
てもよい。
【0059】次に第3実施形態について説明する。第2
実施形態では、ニューロン素子網22の音声入力層32
への入力データとしてケプストラムデータ用いたが、こ
の第3実施形態では、入力データとして、自己連想(オ
ートアソシエーション)型ニューラルネットワークにお
ける中間層のデータを用いるものである。
【0060】図11は、第3実施形態における自己連想
型NN(ニューラルネットワーク)を用いたニューラル
ネットワークのシステム構成を表したものである。この
図に示すように、ニューラルネットワークでは、第1実
施形態のシステムに更に、自己連想型NN27を備えて
いる。第3実施形態におけるRAM14は、ニューロン
素子網22用の入力データを格納するベクトル列格納エ
リアの外に、さらに自己連想NN用ベクトル列格納エリ
アが確保されている。なお、その他の部分については第
1実施形態と同様なので、同一の番号を付してその説明
を省略する。また、ニューロン素子網22については、
第1実施形態で説明したニューロン素子網22だけでな
く、さらに第1実施形態の変形例として説明したニュー
ロン素子網22の、いずれのニューロン素子網22を適
用することも可能である。この第3の実施形態のニュー
ロン素子網22における音声入力層32のニューロン素
子In数は、自己連想型NNの中間層AHのニューロン
素子の数と同数となる。
【0061】図12は、自己連想型NNの構成を表した
ものである。この図12に示すように、自己連想型NN
は、入力層AIと中間層AHおよび出力層AOの3層を
備えている。入力層AIは、音声認識や、図形認識等の
各種処理に対応して任意に選択される入力データ数pに
応じた数p個のニューロン素子AI1〜AIpを備えて
いる。中間層AHは、入力層AHのニューロン素子の数
p個よりも少ない数p個のニューロン素子AH1〜AH
q(q<p)を備えている。出力層AOは、入力層AH
と同数p個のニューロン素子AO1〜AOpを備えてい
る。
【0062】中間層AHの各ニューロン素子AH1〜A
Hqは、入力層AIの全ニューロン素子との間で、学習
時に変更可能な結合重みAW11〜AWpqで完全結合
している。また中間層AHの各ニューロン素子AH1〜
AHqは、それぞれ学習段階で変更可能な閾値を備えて
いる。中間層AHの各ニューロン素子AH1〜AHq
は、入力層AIに入力された入力データと、結合重みA
Wと、閾値に基づいて、順伝播活性による出力値を出力
するようになっている。このAH1〜AHqの出力値
は、ニューロン素子網22の音声入力層32に入力する
入力データStとして出力されるようになっている。ま
た、出力層AOの各ニューロン素子AO1〜AOpは、
中間層AHの全ニューロン素子AH1〜AHqとの間
で、学習時に可変な結合重みAw11〜Awqpで完全
結合している。そして、各ニューロン素子AO1〜AO
pは、中間層AHの出力値Stと結合重みAwとから、
自己連想型NNの出力値を出力するようになっている。
【0063】自己連想型NN27は、図示しないメモリ
を備えており、このメモリに入力層AIと中間層AHと
の結合重みAW、閾値、および中間層AHと出力層AO
との結合重みを格納するようになっている。
【0064】次に、自己連想型NN27による、ニュー
ロン素子網22に入力する入力データStの生成につい
て、音声認識の場合を例に説明する。いま音声認識の対
象となる各音素のうち、音素“あ”についての学習を行
う場合につてい説明する。学習対象となる音素「a」に
ついては、言葉の最初に発声場合の音素を“あ”で表
し、言葉の最後に発声される場合の音素を“ア”で表
し、言葉の途中に発声される場合の音素を“A”で表す
ものとする。例えば、“あ”は、aki(秋)からと
り、“ア”はdenwa(電話)からとり、“A”はt
omari(泊まり)からとる。なお、以下の説明にお
いては、音素「あ」について、“あ”、“ア”、“A”
の3パターンによる音素「a」の学習を例に説明する
が、各音素について3〜30パターン、好ましくは10
0パターン程度による学習が行われる。
【0065】図13は、これら3種類の“あ”、
“ア”、“A”について、FFT装置21で各時間t
(t=1、2、…)毎に、FFT処理によりスペクトル
解析したデータを表したものである。FFT装置21
は、各音素“あ”、“ア”、“A”について、それぞれ
図13(a)、(b)、(c)に示すように、各時間t
毎に音声データの、各周波数(周波数の分割数は、入力
層AIのニューロン素子の数pに対応して、F1〜Fp
のp個である)に対するパワー(P)の値を算出する。
そして、各周波数のパワーP(t)によるベクトル列
は、第1実施形態について図6で説明したと同様に、各
時間毎に、RAM14の自己連想NN用ベクトル列格納
エリアに格納される。
【0066】いま、図13(a)に示されるように、音
素“あ”についてスペクトル解析された、時刻t=1に
おけるパワーP(1)のベクトル列をあ1とし、時刻t
=2におけるパワーP(2)のベクトル列をあ2とし、
同様に、図示しないが、時刻t=nのベクトル列をあn
とする。また、図13(b)に示されるように、音素
“ア”についてスペクトル解析された、時刻t=1にお
けるパワーP(1)のベクトル列をア1とし、時刻t=
2におけるパワーP(2)のベクトル列をア2とし、同
様に、図示しないが、時刻t=nのベクトル列をあnと
する。また、図13(c)に示されるように、音素
“A”についてスペクトル解析された、時刻t=1にお
けるパワーP(1)のベクトル列をA1とし、時刻t=
2におけるパワーP(2)のベクトル列をA2とし、同
様に、図示しないが、時刻t=nのベクトル列をAnと
する。
【0067】これらの各音素についてスペクトル解析さ
れたパワーP(t)の各時刻毎に、自己連想型NN27
の学習と、ニューロン素子網22にの入力層INに供給
する入力データの生成が行われる。すなわち、同一時
刻、例えばt=1における各音素のベクトル列あ1、ア
1、A、を自己連想型NN27の入力層AIの入力デー
タとする共に、出力層AOの教師信号として使用するこ
とで、各時刻tのベクトル列毎に学習を行なう。そし
て、時刻tについての学習が終了した時点での中間層A
Hからの一方の出力値Stを入力層INの入力データと
する。なお、自己連想型NN27における学習は、例え
ばバックプロパゲーション則等による各種学習が適用さ
れる。
【0068】図14は、自己連想型N27の学習におけ
る入力データと教師信号、学習終了後の出力値Stにつ
いて表したものである。この図14では、図13に示し
た各音素に対するパワーのベクトル列に基づいて学習す
る場合を例に示している。この図14に示されるよう
に、各時刻t(t=1、2、…n)を単位として学習が
行われ、入力データStが生成される。例えば、時刻t
1の場合であれば、教師信号をあ1として入力データあ
1とア1とA1について学習を行い、次に、教師信号を
ア1として、入力データあ1とア1とA1について学習
を行い、更に、教師信号をA1として、入力データあ1
とア1とA1について学習を行う。これら、全組み合わ
せについての学習が終了した後に、あ1、ア1、A1の
いずれかのデータを入力層AIに入力し、このときの中
間層AHの出力値から、時刻t=1におけるニューロン
素子網22の音声入力層32への入力データS1が生成
される。同様にして、あ2、ア2、A2による入力デー
タと教師信号の全組み合わせによる学習から、時刻t=
2における音声入力層32への入力データS2が生成さ
れ、さらに、S3、S4、…、Snも同様にして生成さ
れる。
【0069】自己連想型NN27によって生成された入
力データSt(t=1、2、…、n)に従って、ニュー
ロン素子網22による学習が行われる。第1実施形態の
ニューロン素子網22の場合、この入力データStが、
音声入力層32と音声出力層Ouに入力される。すなわ
ち、時刻t=iのスペクトルデータについて学習を行う
場合、入力データSiのベクトル列が音声入力層32に
入力され、入力データS(i+1)のベクトル列が教師
信号として音声出力層Ouに入力される。なお、仮説出
力層38への教師信号(入力データSt生成のための音
素を示す符号列)の入力につては、第1実施形態で説明
したと同様に行われる。
【0070】このようにして、自己連想型NN27およ
びニューロン素子網22の学習が終了すると、次のよう
にして、実際の音声認識が行われる。まず、認識対象と
なる音声が音声入力装置23から入力されると、FFT
装置21でスペクトル解析が行われ、各時間t毎の、各
周波数に対するパワーP(t)のベクトル列が順次求ま
る。このベクトル列は、各時間毎に、RAM14の自己
連想NN用ベクトル列格納エリアに格納される。
【0071】CPU11は、FFT装置21による音声
のスペクトル解析が終了した後のベクトル列P(t)
を、順次自己連想型NN27の入力層AIに入力する。
自己連想型NN27では、入力されたベクトル列P
(t)に対する中間層AHの出力ベクトルを、その時刻
tにおける入力データStとしてニューロン素子網22
に出力する。この各時刻t(t=1、2、…n)毎の入
力データS(t)が、第1実施形態のニューロン素子網
22の場合には音声入力層32に、それぞれ順次入力さ
れる。そして、入力データに対応する出力値が、第1実
施形態のニューロン素子網22では仮説出力層38のニ
ューロン素子から出力される。そして、各ニューロン素
子からの出力値と、ROM13に格納されている第2教
師信号の各符号列とを照合することで、CPU11は該
当音素を特定し、RAM14に格納する。
【0072】この音素は、第1実施形態でも説明したよ
うに、各音素について複数のベクトル列P(tn)に解
析され、時系列的に音声入力層32に入力されて特定さ
れるため、複数の音素列となる。すなわち、音声「い
ろ」が入力された場合には、例えば「iiiiirrr
ooooo」となる。そこで、CPU11は、このRA
M14に格納された音素列から、入力された音声を「i
ro」と認識する。そしてCPU11は、キーボード1
8からの入力指示に応じて、認識した音声を日本語変換
システムに従って文字による文章に変換し、また通信制
御装置5および通信網2を介して、パーソナルコンピュ
ータやワードプロセッサ等の各種通信制御装置にデータ
伝送を行う。
【0073】以上説明したように、第3実施形態による
自己連想型NN27を使用することによって、ニューロ
ン素子網22に入力するベクトル列が小さくなり、音声
入力層32のニューロン素子数を少なくすることができ
る。従って、ニューロン素子網22の構成を小さくする
ことができる。
【0074】以上説明した第3実施形態では、自己連想
型NN27の学習において、音素の各パターンについて
の入力データと教師信号の全組み合わせを学習対象とし
ているため、中間層AHは、その音素についての一般化
されたベクトル列St(t=1〜n)を生成することが
できる。なお、全音素の各パターンについての組み合わ
せでなくても、入力層AIの入力データおよび出力層A
Oの教師信号として、同一のパターンを使用するように
してもよい。
【0075】なお、以上説明した第3実施形態では、学
習および認識の際に自己連想型NN27の入力層AIに
入力するデータとして、FFT装置21でスペクトル解
析されたデータを用いた。これに対して、第2実施形態
で説明した、ケプストラムデータを自己連想型NN27
の入力層AIに入力することで、ニューロン素子網22
の入力データStを生成するようにしてよもい。
【0076】以上説明した第3実施形態では、音声認識
を行う際に、FFT装置21でスペクトル解析されたベ
クトル列P(t)を順次自己連想型NN27の入力層A
Iに入力し、中間層AHの出力ベクトルを時刻tにおけ
る入力データStとして直ちにニューロン素子網22に
出力するようにした。これに対して、自己連想型NN2
7を、不特定話者用に学習したニューロン素子網22に
よって、ある特定話者による音声の認識が可能か否かを
判定するフィルタとして使用することができる。すなわ
ち、ニューロン素子網22の学習で使用された不特定話
者用のデータを使用した特定のキーワードについて、予
め自己連想型NN27の不特定話者認識用の学習を行っ
ておく。そして、特定話者は、音声認識を行う際に、キ
ーワードを発声し音声入力装置23に入力する。入力さ
れたキーワードは、FFT装置21でスペクトル解析さ
れて自己連想型NN27の入力層AIに入力され、中間
層AHの出力値から、入力データStが生成される。こ
の特定話者の入力データStを、不特定話者用に学習し
た際のStとを比較し、両者が大きく異なっている場合
には、その特定話者の音声を不特定話者用の入力ニュー
ロン素子網22で認識することが困難であると判断する
ことができる。なお、不特定話者音声について学習済の
自己連想型NN27に、特定話者による任意音声のスペ
クトルデータを入力し、出力層AOからの出力データ
と、入力データとを比較し、自己連想が略できているか
否かを判断することで、その特定話者の音声についての
認識が可能か否かを判断するようにしてもよい。
【0077】
【発明の効果】請求項1から請求項4に記載したニュー
ラルネットワークの学習方法によれば、複数のベクトル
列Fnの集合が特定の意味Aを表すデータデータについ
ての学習を行うことができる。請求項5から請求項8に
記載のニューラルネットワークによれば、複数のベクト
ル列Fnの集合が特定の意味Aを表すデータデータを処
理することができる。請求項9記載の音声認識装置によ
れば、連続音声を音素または単語単位で認識することが
できる。
【図面の簡単な説明】
【図1】本発明の一実施形態におけるニューラルネット
ワークを利用した音声認識装置のシステム構成図であ
る。
【図2】同上、音声認識装置のニューロン素子網の構成
図である。
【図3】同上、ニューロン素子網に対する第2教師信号
テーブルの内容を示す説明図である。
【図4】同上、ニューロン素子網22の各ニューロン素
子間の結合重みを格納する結合重みテーブルを示す説明
図である。
【図5】同上、音声認識装置による音声のスペクトル解
析の状態を説明する説明図である。
【図6】同上、音声認識装置のFFT装置によりスペク
トル解析された音声についてのベクトル列を表す説明図
である。
【図7】同上、音声認識装置により特定した音声「ま
え」についての各音素の分布を示す説明図である。
【図8】同上、音声認識装置における他のニューロン素
子網の構成図である。
【図9】本発明の第2実施形態におけるニューラルネッ
トワークのシステム構成図である。
【図10】第2実施形態におけるケプストラム装置の構
成図である。
【図11】本発明の、第3実施形態における自己連想型
NNを用いたニューラルネットワークのシステム構成図
である。
【図12】第3実施形態における自己連想型NNの構成
図である。
【図13】第3実施形態において、3種類の“あ”、
“ア”、“A”のスペクトル解析したデータを示す説明
図である。
【図14】第3実施形態における自己連想型N27の学
習時の入力データと教師信号、入力データStの関係を
表す説明図である。
【符号の説明】
11 CPU 12 バスライン 13 ROM 14 RAM 15 通信制御装置 16 プリンタ 17 表示装置 18 キーボード 21 FFT装置 22 ニューロン素子網 23 音声入力装置 24 図形読取装置 26 ケプストラム装置 31 入力層 32、52 音声入力層 33 環境層 34 中間層 36、56 出力層 37、57 音声出力層 38、58 仮説出力層 53 カスケード環境層 54 カスケード中間層

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 複数のベクトル列Fn(n=1、2、
    3、…)の集合が特定の意味Aを表すデータについて、 ベクトル列Fnをデータ入力層に入力し、 ベクトル列Fn+1を第1教師信号として第1出力層に
    入力し、 特定の意味Aを第2教師信号として第2出力層に入力し
    て、学習を行うことを特徴とするニューラルネットワー
    クの学習方法。
  2. 【請求項2】 複数のベクトル列Fn(n=1、2、
    3、…)の集合が特定の意味Aを表すデータについて、 中間層と結合し、この中間層または第1出力層とニュー
    ロン素子数が同一である環帰入力層に、ベクトル列Fn
    −1に対する中間層または第1出力層の出力ベクトル値
    を入力し、 ベクトル列Fnをデータ入力層に入力し、 ベクトル列Fn+1を第1教師信号として第1出力層に
    入力し、 特定の意味Aを第2教師信号として第2出力層に入力し
    て、学習を行うことを特徴とするニューラルネットワー
    クの学習方法。
  3. 【請求項3】 バックプロパゲーション則により学習す
    ることを特徴とする請求項1または請求項2記載のニュ
    ーラルネットワークの学習方法。
  4. 【請求項4】 前記特定の意味Aが音声を構成する音素
    であり、複数のベクトル列Fnが、時系列的に解析され
    た特定の意味Aについての特徴量を表すベクトル列であ
    ることを特徴とする請求項1から請求項3のいずれか1
    の請求項に記載のニューラルネットワークの学習方法。
  5. 【請求項5】 前記特定の意味Aについての特徴量を表
    すベクトルとして、音声のスペクトルデータ、ケプスト
    ラムデータ、または自己連想型ニューラルネットワーク
    の中間層の出力値データを使用することを特徴とする請
    求項4に記載のニューラルネットワークの学習方法。
  6. 【請求項6】 データ入力層と、このデータ入力層と結
    合した中間層と、この中間層と結合し第1出力層と第2
    出力層からなる出力層とを有するニューロン素子網と、 複数のベクトル列Fn(n=1、2、3、…)の集合が
    特定の意味Aを表すデータについて、ベクトル列Fnを
    データ入力層に入力し、ベクトル列Fn+1を第1教師
    信号として第1出力層に入力し、特定の意味Aを第2教
    師信号として第2出力層に入力して、前記ニューロン素
    子網の学習を行う学習手段と、 ベクトル列を前記学習手段で学習された前記ニューロン
    素子網のデータ入力層に入力する入力手段と、 この入力手段によるベクトル列の入力による、第2出力
    層の出力信号を出力する出力手段とを具備することを特
    徴とするニューラルネットワーク。
  7. 【請求項7】 少なくとも特定の意味Aの数だけ中間層
    を有し、 データ入力層と出力層とが結合し、 前記各中間層は、ベクトル列Fn−1に対する出力ベク
    トル値に応じた値が、フィードバック入力することを特
    徴とする請求項6記載のニューラルネットワーク。
  8. 【請求項8】データ入力層と環帰入力層からなる入力層
    と、この入力層と結合した中間層と、この中間層と結合
    し第1出力層と第2出力層からなる出力層とを有し、前
    記環帰入力層は、前記中間層または第1出力層とニュー
    ロン素子数が同一であるニューロン素子網と、 複数のベクトル列Fnの集合が特定の意味Aを表すデー
    タについて、ベクトル列Fn−1に対する中間層または
    第1出力層の出力ベクトル値を環帰入力層に入力し、ベ
    クトル列Fnを入力層のデータ入力層に入力し、ベクト
    ル列Fn+1を第1教師信号として第1出力層に入力
    し、特定の意味Aを第2教師信号として第2出力層に入
    力して、前記ニューロン素子網の学習を行う学習手段
    と、 ベクトル列を前記学習手段で学習された前記ニューロン
    素子網のデータ入力層に入力する入力手段と、 この入力手段によるベクトル列の入力による、第2出力
    層の出力信号を出力する出力手段とを具備することを特
    徴とするニューラルネットワーク。
  9. 【請求項9】 請求項1から請求項4のうちのいずれか
    1つの請求項に記載された方法により学習した各ニュー
    ロン素子間の結合重みを有する、データ入力層と、環帰
    入力層と、中間層と、第2出力層を少なくとも有するこ
    とを特徴とするニューラルネットワーク。
  10. 【請求項10】 請求項6から請求項9のうちのいずれ
    か1の請求項に記載されたニューラルネットワークと、 音声を入力する音声入力手段と、 この入力手段から入力された音声の特徴量を表すベクト
    ル列を時系列的に解析する解析手段と、 この解析手段で解析されたベクトル列をデータ入力層に
    順次入力するベクトル列入力手段と、 このベクトル列入力手段がベクトル列をデータ入力層に
    順次入力することで得られる第2出力層の出力から、音
    素を特定する音素特定手段、とを具備することを特徴と
    するニューラルネットワークを利用した音声認識装置。
  11. 【請求項11】 前記解析手段は、音声の特徴量を表す
    ベクトル列として、音声のスペクトルデータ、ケプスト
    ラムデータ、または自己連想型ニューラルネットワーク
    の中間層の出力値データを使用することを特徴とする請
    求項10に記載のニューラルネットワーク。
JP7236061A 1994-12-22 1995-08-22 ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置 Pending JPH08227410A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7236061A JPH08227410A (ja) 1994-12-22 1995-08-22 ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置
US08/576,585 US6026358A (en) 1994-12-22 1995-12-21 Neural network, a method of learning of a neural network and phoneme recognition apparatus utilizing a neural network

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP6-336135 1994-12-22
JP33613594 1994-12-22
JP7236061A JPH08227410A (ja) 1994-12-22 1995-08-22 ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置

Publications (1)

Publication Number Publication Date
JPH08227410A true JPH08227410A (ja) 1996-09-03

Family

ID=26532478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7236061A Pending JPH08227410A (ja) 1994-12-22 1995-08-22 ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置

Country Status (2)

Country Link
US (1) US6026358A (ja)
JP (1) JPH08227410A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146306A (ja) * 2011-01-12 2012-08-02 Fujitsu Ltd プロセッサ・ノード、人工ニューラル・ネットワーク及び人工ニューラル・ネットワークの動作方法
JP2016085704A (ja) * 2014-10-29 2016-05-19 株式会社リコー 情報処理システム、情報処理装置、情報処理方法、及びプログラム
JP2020027569A (ja) * 2018-08-17 2020-02-20 国立大学法人滋賀医科大学 生体音診断装置

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6954657B2 (en) * 2000-06-30 2005-10-11 Texas Instruments Incorporated Wireless communication device having intelligent alerting system
DE50113110D1 (de) * 2000-09-26 2007-11-22 Nokia Siemens Networks Gmbh Verfahren zur Leistungsvergebührung in einem Kommunikationsnetz und entsprechende Applikations-Software
US7398259B2 (en) 2002-03-12 2008-07-08 Knowmtech, Llc Training of a physical neural network
US7392230B2 (en) * 2002-03-12 2008-06-24 Knowmtech, Llc Physical neural network liquid state machine utilizing nanotechnology
US7412428B2 (en) * 2002-03-12 2008-08-12 Knowmtech, Llc. Application of hebbian and anti-hebbian learning to nanotechnology-based physical neural networks
US9269043B2 (en) 2002-03-12 2016-02-23 Knowm Tech, Llc Memristive neural processor utilizing anti-hebbian and hebbian technology
US20040039717A1 (en) * 2002-08-22 2004-02-26 Alex Nugent High-density synapse chip using nanoparticles
US8156057B2 (en) * 2003-03-27 2012-04-10 Knowm Tech, Llc Adaptive neural network utilizing nanotechnology-based components
US6889216B2 (en) * 2002-03-12 2005-05-03 Knowm Tech, Llc Physical neural network design incorporating nanotechnology
US7752151B2 (en) * 2002-06-05 2010-07-06 Knowmtech, Llc Multilayer training in a physical neural network formed utilizing nanotechnology
US7827131B2 (en) * 2002-08-22 2010-11-02 Knowm Tech, Llc High density synapse chip using nanoparticles
US7426501B2 (en) * 2003-07-18 2008-09-16 Knowntech, Llc Nanotechnology neural network methods and systems
US7502769B2 (en) * 2005-01-31 2009-03-10 Knowmtech, Llc Fractal memory and computational methods and systems based on nanotechnology
US7409375B2 (en) * 2005-05-23 2008-08-05 Knowmtech, Llc Plasticity-induced self organizing nanotechnology for the extraction of independent components from a data stream
US8126710B2 (en) * 2005-06-01 2012-02-28 Loquendo S.P.A. Conservative training method for adapting a neural network of an automatic speech recognition device
US7420396B2 (en) * 2005-06-17 2008-09-02 Knowmtech, Llc Universal logic gate utilizing nanotechnology
US7599895B2 (en) 2005-07-07 2009-10-06 Knowm Tech, Llc Methodology for the configuration and repair of unreliable switching elements
US20070055522A1 (en) * 2005-08-26 2007-03-08 Sbc Knowledge Ventures, L.P. Self-learning multi-source speech data reconstruction
US9471333B2 (en) * 2006-11-03 2016-10-18 Conceptual Speech, Llc Contextual speech-recognition user-interface driven system and method
KR100908121B1 (ko) * 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
US7930257B2 (en) 2007-01-05 2011-04-19 Knowm Tech, Llc Hierarchical temporal memory utilizing nanotechnology
EP2221805B1 (en) * 2009-02-20 2014-06-25 Nuance Communications, Inc. Method for automated training of a plurality of artificial neural networks
US9031844B2 (en) * 2010-09-21 2015-05-12 Microsoft Technology Licensing, Llc Full-sequence training of deep structures for speech recognition
WO2014002391A1 (ja) * 2012-06-29 2014-01-03 テルモ株式会社 情報処理装置および情報処理方法
US9202464B1 (en) * 2012-10-18 2015-12-01 Google Inc. Curriculum learning for speech recognition
US9613619B2 (en) * 2013-10-30 2017-04-04 Genesys Telecommunications Laboratories, Inc. Predicting recognition quality of a phrase in automatic speech recognition systems
US10127901B2 (en) 2014-06-13 2018-11-13 Microsoft Technology Licensing, Llc Hyper-structure recurrent neural networks for text-to-speech
US10147442B1 (en) * 2015-09-29 2018-12-04 Amazon Technologies, Inc. Robust neural network acoustic model with side task prediction of reference signals
KR102507383B1 (ko) * 2016-11-08 2023-03-08 한국전자통신연구원 직사각형 윈도우를 이용한 스테레오 정합 방법 및 스테레오 정합 시스템
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
US10769428B2 (en) * 2018-08-13 2020-09-08 Google Llc On-device image recognition
CN110827806B (zh) * 2019-10-17 2022-01-28 清华大学深圳国际研究生院 一种语音关键词检测方法及系统
CN111986653A (zh) * 2020-08-06 2020-11-24 杭州海康威视数字技术股份有限公司 一种语音意图识别方法、装置及设备
CN112862100B (zh) * 2021-01-29 2022-02-08 网易有道信息技术(北京)有限公司 用于优化神经网络模型推理的方法及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175793A (en) * 1989-02-01 1992-12-29 Sharp Kabushiki Kaisha Recognition apparatus using articulation positions for recognizing a voice
US5214743A (en) * 1989-10-25 1993-05-25 Hitachi, Ltd. Information processing apparatus
JP3003276B2 (ja) * 1991-06-19 2000-01-24 松下電器産業株式会社 信号解析装置
JPH0589247A (ja) * 1991-09-26 1993-04-09 Just Syst Corp パターン空間からの特定パターンの分離方法およびその分離装置
JP3168779B2 (ja) * 1992-08-06 2001-05-21 セイコーエプソン株式会社 音声認識装置及び方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146306A (ja) * 2011-01-12 2012-08-02 Fujitsu Ltd プロセッサ・ノード、人工ニューラル・ネットワーク及び人工ニューラル・ネットワークの動作方法
JP2016085704A (ja) * 2014-10-29 2016-05-19 株式会社リコー 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US10284583B2 (en) 2014-10-29 2019-05-07 Ricoh Company, Ltd. Information processing system, information processing apparatus, and information processing method
JP2020027569A (ja) * 2018-08-17 2020-02-20 国立大学法人滋賀医科大学 生体音診断装置

Also Published As

Publication number Publication date
US6026358A (en) 2000-02-15

Similar Documents

Publication Publication Date Title
JPH08227410A (ja) ニューラルネットワークの学習方法、ニューラルネットワークおよびニューラルネットワークを利用した音声認識装置
US20210295858A1 (en) Synthesizing speech from text using neural networks
Sejnowski et al. Parallel networks that learn to pronounce English text
Schuster et al. Bidirectional recurrent neural networks
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
WO1996013829A1 (en) Method and system for continuous speech recognition using voting techniques
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
Boulanger-Lewandowski et al. Exploiting long-term temporal dependencies in NMF using recurrent neural networks with application to source separation
CN113450761A (zh) 一种基于变分自编码器的并行语音合成方法和装置
Al Anazi et al. A machine learning model for the identification of the holy quran reciter utilizing k-nearest neighbor and artificial neural networks
CN115881164A (zh) 一种语音情感识别方法及系统
CN1312656C (zh) 说话人标准化方法及用该方法的语音识别装置
JPH0540497A (ja) 話者適応音声認識装置
Rani et al. Speech recognition using neural network
EP4177882B1 (en) Methods and systems for synthesising speech from text
Venkateswarlu et al. Speech recognition by using recurrent neural networks
JPH0962644A (ja) ニューラルネットワーク
JPH09212197A (ja) ニューラルネットワーク
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
JPH0667698A (ja) 音声認識装置
Jasim et al. Speech synthesis using neural network
Wu et al. Statistical voice conversion with quasi-periodic wavenet vocoder
Luo et al. Speech prosody conversion using sequence generative adversarial nets with continuous wavelet transform F0 features
Brocki et al. Recognizing connected digit strings using neural networks
Elmisery et al. A neural network based on sequence learning for speech recognition