JPH02304496A - 単語認識方式 - Google Patents

単語認識方式

Info

Publication number
JPH02304496A
JPH02304496A JP1126314A JP12631489A JPH02304496A JP H02304496 A JPH02304496 A JP H02304496A JP 1126314 A JP1126314 A JP 1126314A JP 12631489 A JP12631489 A JP 12631489A JP H02304496 A JPH02304496 A JP H02304496A
Authority
JP
Japan
Prior art keywords
neural network
input
linear prediction
word
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1126314A
Other languages
English (en)
Inventor
Kazuhiko Okashita
和彦 岡下
Shingo Nishimura
新吾 西村
Masayuki Unno
海野 雅幸
Masashi Miyagawa
宮川 正志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP1126314A priority Critical patent/JPH02304496A/ja
Publication of JPH02304496A publication Critical patent/JPH02304496A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、電気錠、ICカード等のオンライン端末等で
入力音声からその単語を認識するに好適な単語認識方式
に関する。
[従来の技術] 従来の単語認識方式は1例えば特公昭63−4200号
公報、特開昭62−220998号公報に記載される如
く、以下の手順による。
■入力音声に含まれる単語に間する特徴量を抽出する。
■予め上記■と同様にして抽出しておいた標準パターン
と上記■で抽出した特徴量との距離を計算する。
■計算結果より、上記距離が最小の標準パターンの単語
を入力音声の単語と判定する。
[発明が解決しようとする課題] 然しなから、上記従来の単語認識方式では、以下の問題
点がある。
実時間処理が困難である。即ち、従来の単語認識方式に
おいて一定以上の認識率を確保するためには複雑な特徴
量を用いる必要があるが、複雑な特徴量を抽出するには
複雑な処理装置が必要であり、処理時間も多大となる。
本発明は、高い認識率、を確保し、かつ容易に実時間処
理できる単語認識方式を得ることを目的とする。
[課題を解決するための手段] 請求項・1に記載の本発明は、ニューラルネットワーク
を用いて入力音声からその単語を認識する単語認識方式
であって、ニューラルネットワークへの入力として、音
声の平均的な線形予測係数の時間的変化を用いるように
したものである。
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、音声の一定時間内における平均的な
線形予測係数の時間的変化を用いるようにしたものであ
る。
請求項3に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。
尚、線形予測係数(LPG係数)は以下の如く定義され
る。即ち、音声波形のサンプル値(χ、)の間には、−
mに高い近接相関があることが知られている。そこで次
のような線形予測が可能であると仮定する。
線形予測値  χ(=−Σα、χt−1  ・・・(1
)線形予測誤差 εL=χt−χ、  ・・・(2)こ
こて、χ、:時刻tにおける音声波形のサンブルイ直、
(α五)(i=1.・・・、p): (9次の)線形予
測係数 さて、本発明の実施においては、線形子Jll 3fl
差ε、の2乗平均値が最小となるように線形予測係数(
α、)を求める。
具体的には (ε、)2を求め、その時間平均を(εt
)”と表わして、a (εt)2/a a (=O,i
=1.2.・・・、pとおくことによって、次の式から
(αl)が求められる。
Σ2αLVI五−jl=0+J=1+2+・・・、p・
・・(3)[作用] 請求項1に記載の本発明によれば以下の■〜■の作用効
果がある。
■ニューラルネットワークへの入力として、「音声の平
均的な線形予測係数」を用いたから、入力を得るための
前処理が、従来の複雑な特徴量抽出に比して、単純とな
り、この前処理に要する時間が短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純且つ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理が可能である。従って、演算処理が迅速である。
■上記■〜■により、単語認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。     ゛ 又、請求項2に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
■ニューラルネットワークへの入力として、「音声の一
定時間内における平均的な線形予測係数の時間的変化」
を用いたから、ニューラルネットワークにおける処理が
単純ζなり、この処理に要する時間がより短くて足りる
又、請求項3に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
■階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(パックプロパ
ゲーション)が確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。
[実施例] 第1図は本発明が適用された単語認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。
(1)ニューラルネットワークは、その構造から、第3
図(A)に示す階層的ネットワークと第3図(B)に示
す相互結合ネットワークの2種に大別できる。本発明は
、両ネットワークのいずれを用い−で構成するものであ
っても良いが、階層的ネットワークは後述する如くの簡
単な学習アルゴリズムか確立されているためより有用で
ある。
(2)ネットワークの構造 階層的ネットワークは、第4図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。
各層は1以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合だけで、各層内
での結合はない。
(3)ユニットの構造 ユニットは第5図に示す如く脳のニューロンのモデル化
てあり構造は簡単である。他のユニ・シトから入力を受
け、その総和をとり一定の規則(変換関数)で変換し、
結果を出力する。他のユニ・シトとの結合には、それぞ
れ結合の強さを表わす可変の重みを付ける。
(4)学習(パックプロパゲーション)゛ネットワーク
の学習とは、実際の出力を目標値(望ましい出力)に近
づけることであり、一般的には第5図に示した各ユニッ
トの変換関数及び重みを変化させて学習を行なう。
又、学習のアルゴリズムとしては、例えば、Rumel
hart、 D、E、、McCleLland、 J、
L、 and thePDP Re5earch Gr
oup、 PARALLEL DISTRIBUTED
PROGESSING、 the MIT Press
、 1988.に記載されているパックプロパゲーショ
ンを用いることができる。
以下、本発明の具体的な実施例について説明する。尚、
この実施例の認識システム1は、LPC分析部10、平
均化回路IS、ニューラルネ・シトワーク20、判定回
路30の結合にて構成される(第1図参照)。
(A)学習単語を「ショウメイ」、「エアコン」、「カ
ーテン」、「テレビ」、「ドア」の5単語とし、入力単
語を「ショウメイ」、「エアコン」、「カーテン」、「
テレビ」、「ドア」の5単語とした。
(B)前処理 ■入力音声(5単語のそれぞれ)を、第2図に示す如く
、4つのブロックに時間的に等分割する。
■音声波形を、第1図に示す如く、LPG分析部10に
通し、複数(9個)(この実施例ではρ=12)の標本
値のそれぞれにおける、各ブロック即ち各一定時間毎に
線形予測分析し、各ブロック毎の平均的な線形予測係数
を算出する。
この時、LPC分析部10の算出結果である9次の線形
予測係数は、各ブロック毎に平均化回路15で平均化さ
れる。
(C)ニューラルネットワークによる処理及び判定 ■前処理の結果(ブロック毎のLPG分析部10、平均
化回路15の出力)を、第1図に示す如く、3層の階層
的なニューラルネットワーク20に入力する。入力N2
1は、前処理の4ブロツク、9個に対応する、4Xpユ
ニツト(この実施例ではρ=12.48ユニツト)にて
構成される。出力層22は、5単語のそれぞれについて
登録単語とその他の単語とに対応する2ユニツトを設け
、全体を10ユニツトにて構成される。
■ニューラルネットワーク20の出力を判定回路30に
入力し、今回入力音声の単語を認識する。但し、本発明
°の実施において、ニューラルネットワーク20の出力
は判定回路30の如くにて機械的に判定処理されず、ニ
ューラルネットワーク20の出力を得た人間の知力にて
判定処理されるものであっても良い。
■前述した学習アルゴリズムのパックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで 1,000回学習させ、一定認識率を保証し
得るネットワークを構築する。尚、出力としては、各登
録単語に対応したユニットが「1」、その他の単語に対
応したユニットが「0」となるように学習した。
(D)実験 上記認識システム1を用いて、単語認識を実験した。
入力音声は、パックプロパゲーションにより学習した5
単語(「ショウメイ」、「エアコン」、「カーテン」、
「テレビ」、「ドア」)とした。
(a)認識率 結果、認識率は 100%であることが認められた。
(b)処理速度 又、処理速度(1単語の発声に対する認識に要した時間
)は1秒以内であり、極めて迅速処理てきることが認め
られた。
即ち、上記認識システム1にあっては、上記(a)の結
果が示すように認識率が極めて高い。
又、上記認識システム1にあっては、上記 (b)の結
果が示すように単語認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。
尚、本発明の実施において、ニューラルネット30・・
・判定回路。
ワークへの入力として、線形予測係数の時間的変化を用
いるものでなく、単に、「音声の平均的な線形予測係数
」を用いるものであっても良い。
[発明の効果コ 以上のように本発明によれば、高い認識率を確保し、か
つ容易に実時間処理できる単語認識方式%式%
【図面の簡単な説明】
第1図は本発明が適用された単語認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
ニューラルネットワークを示す模式図、第4図は階層的
なニューラルネットワークを示す模式図、第5図はユニ
ットの構造を示す模式図である。 1・・・認識システム、 10・・・LPG分析部、 15・・・平均化回路、 20・・・ニューラルネットワーク、 21・・・入力層 22・・・出力層、 特許出願人 積水化学工業株式会社 代表者  廣1)馨 時間 第3図 #I44図 ↑ 入カバターン 第5図 ユニット

Claims (3)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いて入力音声からそ
    の単語を認識する単語認識方式であって、ニューラルネ
    ットワークへの入力として、音声の平均的な線形予測係
    数の時間的変化を用いる単語認識方式。
  2. (2)前記ニューラルネットワークへの入力として、音
    声の一定時間内における平均的な線形予測係数の時間的
    変化を用いる請求項1記載の単語認識方式。
  3. (3)前記ニューラルネットワークが階層的なニューラ
    ルネットワークである請求項1又は2記載の単語認識方
    式。
JP1126314A 1989-05-18 1989-05-18 単語認識方式 Pending JPH02304496A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1126314A JPH02304496A (ja) 1989-05-18 1989-05-18 単語認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1126314A JPH02304496A (ja) 1989-05-18 1989-05-18 単語認識方式

Publications (1)

Publication Number Publication Date
JPH02304496A true JPH02304496A (ja) 1990-12-18

Family

ID=14932118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1126314A Pending JPH02304496A (ja) 1989-05-18 1989-05-18 単語認識方式

Country Status (1)

Country Link
JP (1) JPH02304496A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497448A (en) * 1992-04-30 1996-03-05 Matsushita Electric Industrial Co., Ltd. Learning type waveform recognizer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497448A (en) * 1992-04-30 1996-03-05 Matsushita Electric Industrial Co., Ltd. Learning type waveform recognizer

Similar Documents

Publication Publication Date Title
CN110675860A (zh) 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN112581979A (zh) 一种基于语谱图的语音情绪识别方法
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
CN111785284A (zh) 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN116013276A (zh) 一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法
Juszkiewicz Improving noise robustness of speech emotion recognition system
JPH02304496A (ja) 単語認識方式
Sidiropoulos et al. Measuring engagement level in child-robot interaction using machine learning based data analysis
Eltanashi et al. Proposed speaker recognition model using optimized feed forward neural network and hybrid time-mel speech feature
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
CN114267361A (zh) 一种高识别度的说话人识别系统
Sunny et al. Development of a speech recognition system for speaker independent isolated Malayalam words
JPH02304499A (ja) 単語認識方式
Li et al. Research on voiceprint recognition technology based on deep neural network
Liu et al. Hypemasality detection in cleft palate speech based on natural computation
Nurdiyanto Human Voice Recognition Using Artificial Neural Networks
JPH02304497A (ja) 単語認識方式
CN115862636B (zh) 一种基于语音识别技术的互联网人机验证方法
JPH02273797A (ja) 話者認識方式
Agrawal et al. Speaker verification using mel-frequency cepstrum coefficient and linear prediction coding
JP2564200B2 (ja) 話者認識方法
CN112000837B (zh) 一种飞行员听觉注意反应时测量及预测方法
JPH02275996A (ja) 単語認識方式
JPH02273796A (ja) 話者認識方式
Nijhawan et al. A comparative study of two different neural models for speaker recognition systems