JPH02304496A - 単語認識方式 - Google Patents
単語認識方式Info
- Publication number
- JPH02304496A JPH02304496A JP1126314A JP12631489A JPH02304496A JP H02304496 A JPH02304496 A JP H02304496A JP 1126314 A JP1126314 A JP 1126314A JP 12631489 A JP12631489 A JP 12631489A JP H02304496 A JPH02304496 A JP H02304496A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- input
- linear prediction
- word
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 6
- 238000012935 Averaging Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、電気錠、ICカード等のオンライン端末等で
入力音声からその単語を認識するに好適な単語認識方式
に関する。
入力音声からその単語を認識するに好適な単語認識方式
に関する。
[従来の技術]
従来の単語認識方式は1例えば特公昭63−4200号
公報、特開昭62−220998号公報に記載される如
く、以下の手順による。
公報、特開昭62−220998号公報に記載される如
く、以下の手順による。
■入力音声に含まれる単語に間する特徴量を抽出する。
■予め上記■と同様にして抽出しておいた標準パターン
と上記■で抽出した特徴量との距離を計算する。
と上記■で抽出した特徴量との距離を計算する。
■計算結果より、上記距離が最小の標準パターンの単語
を入力音声の単語と判定する。
を入力音声の単語と判定する。
[発明が解決しようとする課題]
然しなから、上記従来の単語認識方式では、以下の問題
点がある。
点がある。
実時間処理が困難である。即ち、従来の単語認識方式に
おいて一定以上の認識率を確保するためには複雑な特徴
量を用いる必要があるが、複雑な特徴量を抽出するには
複雑な処理装置が必要であり、処理時間も多大となる。
おいて一定以上の認識率を確保するためには複雑な特徴
量を用いる必要があるが、複雑な特徴量を抽出するには
複雑な処理装置が必要であり、処理時間も多大となる。
本発明は、高い認識率、を確保し、かつ容易に実時間処
理できる単語認識方式を得ることを目的とする。
理できる単語認識方式を得ることを目的とする。
[課題を解決するための手段]
請求項・1に記載の本発明は、ニューラルネットワーク
を用いて入力音声からその単語を認識する単語認識方式
であって、ニューラルネットワークへの入力として、音
声の平均的な線形予測係数の時間的変化を用いるように
したものである。
を用いて入力音声からその単語を認識する単語認識方式
であって、ニューラルネットワークへの入力として、音
声の平均的な線形予測係数の時間的変化を用いるように
したものである。
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、音声の一定時間内における平均的な
線形予測係数の時間的変化を用いるようにしたものであ
る。
クへの入力として、音声の一定時間内における平均的な
線形予測係数の時間的変化を用いるようにしたものであ
る。
請求項3に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。
クが階層的なニューラルネットワークであるようにした
ものである。
尚、線形予測係数(LPG係数)は以下の如く定義され
る。即ち、音声波形のサンプル値(χ、)の間には、−
mに高い近接相関があることが知られている。そこで次
のような線形予測が可能であると仮定する。
る。即ち、音声波形のサンプル値(χ、)の間には、−
mに高い近接相関があることが知られている。そこで次
のような線形予測が可能であると仮定する。
線形予測値 χ(=−Σα、χt−1 ・・・(1
)線形予測誤差 εL=χt−χ、 ・・・(2)こ
こて、χ、:時刻tにおける音声波形のサンブルイ直、
(α五)(i=1.・・・、p): (9次の)線形予
測係数 さて、本発明の実施においては、線形子Jll 3fl
差ε、の2乗平均値が最小となるように線形予測係数(
α、)を求める。
)線形予測誤差 εL=χt−χ、 ・・・(2)こ
こて、χ、:時刻tにおける音声波形のサンブルイ直、
(α五)(i=1.・・・、p): (9次の)線形予
測係数 さて、本発明の実施においては、線形子Jll 3fl
差ε、の2乗平均値が最小となるように線形予測係数(
α、)を求める。
具体的には (ε、)2を求め、その時間平均を(εt
)”と表わして、a (εt)2/a a (=O,i
=1.2.・・・、pとおくことによって、次の式から
(αl)が求められる。
)”と表わして、a (εt)2/a a (=O,i
=1.2.・・・、pとおくことによって、次の式から
(αl)が求められる。
Σ2αLVI五−jl=0+J=1+2+・・・、p・
・・(3)[作用] 請求項1に記載の本発明によれば以下の■〜■の作用効
果がある。
・・(3)[作用] 請求項1に記載の本発明によれば以下の■〜■の作用効
果がある。
■ニューラルネットワークへの入力として、「音声の平
均的な線形予測係数」を用いたから、入力を得るための
前処理が、従来の複雑な特徴量抽出に比して、単純とな
り、この前処理に要する時間が短くて足りる。
均的な線形予測係数」を用いたから、入力を得るための
前処理が、従来の複雑な特徴量抽出に比して、単純とな
り、この前処理に要する時間が短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純且つ迅速である。
全体の演算処理が単純且つ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
■上記■〜■により、単語認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。 ゛ 又、請求項2に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
よることなく容易に実時間処理できる。 ゛ 又、請求項2に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
■ニューラルネットワークへの入力として、「音声の一
定時間内における平均的な線形予測係数の時間的変化」
を用いたから、ニューラルネットワークにおける処理が
単純ζなり、この処理に要する時間がより短くて足りる
。
定時間内における平均的な線形予測係数の時間的変化」
を用いたから、ニューラルネットワークにおける処理が
単純ζなり、この処理に要する時間がより短くて足りる
。
又、請求項3に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
効果に加えて、以下の■の作用効果がある。
■階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(パックプロパ
ゲーション)が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。
後述する如くの簡単な学習アルゴリズム(パックプロパ
ゲーション)が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。
[実施例]
第1図は本発明が適用された単語認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。
示す模式図、第2図は入力音声を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。
トワークの構成、学習アルゴリズムについて説明する。
(1)ニューラルネットワークは、その構造から、第3
図(A)に示す階層的ネットワークと第3図(B)に示
す相互結合ネットワークの2種に大別できる。本発明は
、両ネットワークのいずれを用い−で構成するものであ
っても良いが、階層的ネットワークは後述する如くの簡
単な学習アルゴリズムか確立されているためより有用で
ある。
図(A)に示す階層的ネットワークと第3図(B)に示
す相互結合ネットワークの2種に大別できる。本発明は
、両ネットワークのいずれを用い−で構成するものであ
っても良いが、階層的ネットワークは後述する如くの簡
単な学習アルゴリズムか確立されているためより有用で
ある。
(2)ネットワークの構造
階層的ネットワークは、第4図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。
間層、出力層からなる階層構造をとる。
各層は1以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合だけで、各層内
での結合はない。
層→中間層→出力層という前向きの結合だけで、各層内
での結合はない。
(3)ユニットの構造
ユニットは第5図に示す如く脳のニューロンのモデル化
てあり構造は簡単である。他のユニ・シトから入力を受
け、その総和をとり一定の規則(変換関数)で変換し、
結果を出力する。他のユニ・シトとの結合には、それぞ
れ結合の強さを表わす可変の重みを付ける。
てあり構造は簡単である。他のユニ・シトから入力を受
け、その総和をとり一定の規則(変換関数)で変換し、
結果を出力する。他のユニ・シトとの結合には、それぞ
れ結合の強さを表わす可変の重みを付ける。
(4)学習(パックプロパゲーション)゛ネットワーク
の学習とは、実際の出力を目標値(望ましい出力)に近
づけることであり、一般的には第5図に示した各ユニッ
トの変換関数及び重みを変化させて学習を行なう。
の学習とは、実際の出力を目標値(望ましい出力)に近
づけることであり、一般的には第5図に示した各ユニッ
トの変換関数及び重みを変化させて学習を行なう。
又、学習のアルゴリズムとしては、例えば、Rumel
hart、 D、E、、McCleLland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBUTED
PROGESSING、 the MIT Press
、 1988.に記載されているパックプロパゲーショ
ンを用いることができる。
hart、 D、E、、McCleLland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBUTED
PROGESSING、 the MIT Press
、 1988.に記載されているパックプロパゲーショ
ンを用いることができる。
以下、本発明の具体的な実施例について説明する。尚、
この実施例の認識システム1は、LPC分析部10、平
均化回路IS、ニューラルネ・シトワーク20、判定回
路30の結合にて構成される(第1図参照)。
この実施例の認識システム1は、LPC分析部10、平
均化回路IS、ニューラルネ・シトワーク20、判定回
路30の結合にて構成される(第1図参照)。
(A)学習単語を「ショウメイ」、「エアコン」、「カ
ーテン」、「テレビ」、「ドア」の5単語とし、入力単
語を「ショウメイ」、「エアコン」、「カーテン」、「
テレビ」、「ドア」の5単語とした。
ーテン」、「テレビ」、「ドア」の5単語とし、入力単
語を「ショウメイ」、「エアコン」、「カーテン」、「
テレビ」、「ドア」の5単語とした。
(B)前処理
■入力音声(5単語のそれぞれ)を、第2図に示す如く
、4つのブロックに時間的に等分割する。
、4つのブロックに時間的に等分割する。
■音声波形を、第1図に示す如く、LPG分析部10に
通し、複数(9個)(この実施例ではρ=12)の標本
値のそれぞれにおける、各ブロック即ち各一定時間毎に
線形予測分析し、各ブロック毎の平均的な線形予測係数
を算出する。
通し、複数(9個)(この実施例ではρ=12)の標本
値のそれぞれにおける、各ブロック即ち各一定時間毎に
線形予測分析し、各ブロック毎の平均的な線形予測係数
を算出する。
この時、LPC分析部10の算出結果である9次の線形
予測係数は、各ブロック毎に平均化回路15で平均化さ
れる。
予測係数は、各ブロック毎に平均化回路15で平均化さ
れる。
(C)ニューラルネットワークによる処理及び判定
■前処理の結果(ブロック毎のLPG分析部10、平均
化回路15の出力)を、第1図に示す如く、3層の階層
的なニューラルネットワーク20に入力する。入力N2
1は、前処理の4ブロツク、9個に対応する、4Xpユ
ニツト(この実施例ではρ=12.48ユニツト)にて
構成される。出力層22は、5単語のそれぞれについて
登録単語とその他の単語とに対応する2ユニツトを設け
、全体を10ユニツトにて構成される。
化回路15の出力)を、第1図に示す如く、3層の階層
的なニューラルネットワーク20に入力する。入力N2
1は、前処理の4ブロツク、9個に対応する、4Xpユ
ニツト(この実施例ではρ=12.48ユニツト)にて
構成される。出力層22は、5単語のそれぞれについて
登録単語とその他の単語とに対応する2ユニツトを設け
、全体を10ユニツトにて構成される。
■ニューラルネットワーク20の出力を判定回路30に
入力し、今回入力音声の単語を認識する。但し、本発明
°の実施において、ニューラルネットワーク20の出力
は判定回路30の如くにて機械的に判定処理されず、ニ
ューラルネットワーク20の出力を得た人間の知力にて
判定処理されるものであっても良い。
入力し、今回入力音声の単語を認識する。但し、本発明
°の実施において、ニューラルネットワーク20の出力
は判定回路30の如くにて機械的に判定処理されず、ニ
ューラルネットワーク20の出力を得た人間の知力にて
判定処理されるものであっても良い。
■前述した学習アルゴリズムのパックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで 1,000回学習させ、一定認識率を保証し
得るネットワークを構築する。尚、出力としては、各登
録単語に対応したユニットが「1」、その他の単語に対
応したユニットが「0」となるように学習した。
により、入力に対する出力のエラーが一定レベルに収束
するまで 1,000回学習させ、一定認識率を保証し
得るネットワークを構築する。尚、出力としては、各登
録単語に対応したユニットが「1」、その他の単語に対
応したユニットが「0」となるように学習した。
(D)実験
上記認識システム1を用いて、単語認識を実験した。
入力音声は、パックプロパゲーションにより学習した5
単語(「ショウメイ」、「エアコン」、「カーテン」、
「テレビ」、「ドア」)とした。
単語(「ショウメイ」、「エアコン」、「カーテン」、
「テレビ」、「ドア」)とした。
(a)認識率
結果、認識率は 100%であることが認められた。
(b)処理速度
又、処理速度(1単語の発声に対する認識に要した時間
)は1秒以内であり、極めて迅速処理てきることが認め
られた。
)は1秒以内であり、極めて迅速処理てきることが認め
られた。
即ち、上記認識システム1にあっては、上記(a)の結
果が示すように認識率が極めて高い。
果が示すように認識率が極めて高い。
又、上記認識システム1にあっては、上記 (b)の結
果が示すように単語認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。
果が示すように単語認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。
尚、本発明の実施において、ニューラルネット30・・
・判定回路。
・判定回路。
ワークへの入力として、線形予測係数の時間的変化を用
いるものでなく、単に、「音声の平均的な線形予測係数
」を用いるものであっても良い。
いるものでなく、単に、「音声の平均的な線形予測係数
」を用いるものであっても良い。
[発明の効果コ
以上のように本発明によれば、高い認識率を確保し、か
つ容易に実時間処理できる単語認識方式%式%
つ容易に実時間処理できる単語認識方式%式%
第1図は本発明が適用された単語認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。 1・・・認識システム、 10・・・LPG分析部、 15・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層 22・・・出力層、 特許出願人 積水化学工業株式会社 代表者 廣1)馨 時間 第3図 #I44図 ↑ 入カバターン 第5図 ユニット
示す模式図、第2図は入力音声を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。 1・・・認識システム、 10・・・LPG分析部、 15・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層 22・・・出力層、 特許出願人 積水化学工業株式会社 代表者 廣1)馨 時間 第3図 #I44図 ↑ 入カバターン 第5図 ユニット
Claims (3)
- (1)ニューラルネットワークを用いて入力音声からそ
の単語を認識する単語認識方式であって、ニューラルネ
ットワークへの入力として、音声の平均的な線形予測係
数の時間的変化を用いる単語認識方式。 - (2)前記ニューラルネットワークへの入力として、音
声の一定時間内における平均的な線形予測係数の時間的
変化を用いる請求項1記載の単語認識方式。 - (3)前記ニューラルネットワークが階層的なニューラ
ルネットワークである請求項1又は2記載の単語認識方
式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1126314A JPH02304496A (ja) | 1989-05-18 | 1989-05-18 | 単語認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1126314A JPH02304496A (ja) | 1989-05-18 | 1989-05-18 | 単語認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02304496A true JPH02304496A (ja) | 1990-12-18 |
Family
ID=14932118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1126314A Pending JPH02304496A (ja) | 1989-05-18 | 1989-05-18 | 単語認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02304496A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497448A (en) * | 1992-04-30 | 1996-03-05 | Matsushita Electric Industrial Co., Ltd. | Learning type waveform recognizer |
-
1989
- 1989-05-18 JP JP1126314A patent/JPH02304496A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497448A (en) * | 1992-04-30 | 1996-03-05 | Matsushita Electric Industrial Co., Ltd. | Learning type waveform recognizer |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675860A (zh) | 基于改进注意力机制并结合语义的语音信息识别方法及系统 | |
CN112581979A (zh) | 一种基于语谱图的语音情绪识别方法 | |
Sunny et al. | Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms | |
CN111785284A (zh) | 基于音素辅助的文本无关声纹识别方法、装置以及设备 | |
CN116013276A (zh) | 一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法 | |
Juszkiewicz | Improving noise robustness of speech emotion recognition system | |
JPH02304496A (ja) | 単語認識方式 | |
Sidiropoulos et al. | Measuring engagement level in child-robot interaction using machine learning based data analysis | |
Eltanashi et al. | Proposed speaker recognition model using optimized feed forward neural network and hybrid time-mel speech feature | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
CN114267361A (zh) | 一种高识别度的说话人识别系统 | |
Sunny et al. | Development of a speech recognition system for speaker independent isolated Malayalam words | |
JPH02304499A (ja) | 単語認識方式 | |
Li et al. | Research on voiceprint recognition technology based on deep neural network | |
Liu et al. | Hypemasality detection in cleft palate speech based on natural computation | |
Nurdiyanto | Human Voice Recognition Using Artificial Neural Networks | |
JPH02304497A (ja) | 単語認識方式 | |
CN115862636B (zh) | 一种基于语音识别技术的互联网人机验证方法 | |
JPH02273797A (ja) | 話者認識方式 | |
Agrawal et al. | Speaker verification using mel-frequency cepstrum coefficient and linear prediction coding | |
JP2564200B2 (ja) | 話者認識方法 | |
CN112000837B (zh) | 一种飞行员听觉注意反应时测量及预测方法 | |
JPH02275996A (ja) | 単語認識方式 | |
JPH02273796A (ja) | 話者認識方式 | |
Nijhawan et al. | A comparative study of two different neural models for speaker recognition systems |