JPH04294445A - パターン認識方式 - Google Patents

パターン認識方式

Info

Publication number
JPH04294445A
JPH04294445A JP3059085A JP5908591A JPH04294445A JP H04294445 A JPH04294445 A JP H04294445A JP 3059085 A JP3059085 A JP 3059085A JP 5908591 A JP5908591 A JP 5908591A JP H04294445 A JPH04294445 A JP H04294445A
Authority
JP
Japan
Prior art keywords
pattern
inner product
input
neural network
pattern recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3059085A
Other languages
English (en)
Inventor
Yasuyuki Masai
康之 正井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3059085A priority Critical patent/JPH04294445A/ja
Publication of JPH04294445A publication Critical patent/JPH04294445A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声や文字、図形など
の入力パターンを高精度に認識することのできるパター
ン認識方式に関する。
【0002】
【従来の技術】近時、音声や文字、図形などに対するパ
ターン認識処理に関する研究が種々進められ、自然性に
優れたマン・マシン・インターフェイスを実現する上で
の重要な技術として注目されている。
【0003】この種のパターン認識処理を実行するパタ
ーン認識装置は、基本的には図4に示すように、特徴抽
出部1にて入力パターンを分析してその特徴パターンを
求め、あらかじめ認識対象とするパターンのカテゴリご
とに求められた標準パターンを辞書として格納した標準
パターン記憶部2を参照して、たとえば各標準パターン
辞書と上記特徴パターンとの類似度や距離をパターンマ
ッチング部3にて計算し、その照合結果(類似度値や距
離値)を判定部4にて判定して、入力パターンに対する
認識結果を得るごとく構成される。
【0004】なお、判定部4は、一般的には入力パター
ンとの間で最も高い類似度値(最も小さい距離値)を得
た標準パターンのカテゴリ名を判定し、それを上記入力
パターンに対する認識結果、あるいは認識候補として出
力するように構成される。
【0005】ここで、入力が例えば音声信号である場合
には、特徴抽出部1は、たとえば入力される音声信号を
BPF(バンドパス・フィルタ)分析やLPC(リニア
・プレディクティブ・コーディング)分析した後、音声
区間を検出して該音声区間の音響分析データを入力パタ
ーンとして求めるよう構成される。
【0006】また、入力が例えば文字画像である場合に
は、特徴抽出部1は、たとえば入力される文字画像を量
子化した後、文字部分の検出切出しを行なって、文字パ
ターンの特徴データを入力パターンとして求めるように
構成される。
【0007】ところで、この種のパターン認識処理にお
ける優れた手法の1つに部分空間パターン認識方式があ
る。この部分空間法は、各カテゴリの標準パターン辞書
として、あらかじめカテゴリごとにKL展開などによっ
て直交化した辞書{φ(K,m);Kはカテゴリ名、m
は直交軸の番号;m=1,2,…,M}を直交化辞書セ
ットとして構築しておき、入力パターン(X)との間で
数1にしたがって、その類似度S(K) を計算してパ
ターンマッチング処理を行なうようにしたものである。
【0008】
【数1】 ただし、上式において(・)は内積を示し、また、‖ 
 ‖はノルムを示している。
【0009】このような部分空間法によるパターンマッ
チングの手法は、比較的簡単に精度の高い認識結果を得
ることができるものとしてパターン認識に広く用いられ
ている。
【0010】ところが、部分空間法を用いた従来のパタ
ーン認識処理手続きでは、数1に示されるように、入力
パターン(X)と直交化辞書セットの各直交軸(φ(K
,m) )との内積値を単に累積し、この累積値を持っ
て入力パターンの全体的な特徴を評価しているにすぎな
い。 換言すれば、入力パターンと各直交軸との間で求められ
る内積値を個々に利用することなく、その累積値という
全体的な観点に立脚してパターン認識処理を行なってい
るにすぎない。
【0011】このため、たとえばノイズなどに起因して
ある直交軸に対する内積値が本来の正しいパターンでは
取り得ない大きな値を取ったような場合、その内積値の
累積結果が正しいパターンに対する内積値の累積結果よ
りも大きな値となることがある。そのため、この種の部
分空間法を用いてパターンマッチング処理を行なう場合
には、認識対象外のカテゴリや種々のノイズに起因する
誤判定(誤認識)が生じ易いという問題があった。
【0012】これに対して、最近では、多層のニューラ
ルネットワークを用いてパターンマッチング処理を行な
うことが注目されている。このニューラルネットワーク
は、情報を担うニューロンを順次伝達するネットワーク
により非線形分離関数を実現して、入力パターンの特徴
抽出などを行なうものである。
【0013】この種のニューラルネットワークにあって
は、下位層からの出力をどのようにして結合していくか
を規定する係数を如何にして設定するかという課題があ
る。この係数を求めるためのアルゴリズムとして、たと
えば「NATURE  Vol.323  9,PP.
553−536  (1986.Oct)  Lear
ning  representations  by
  back−propagation  error
s」なる文献に紹介されるバックプロパゲーション・ア
ルゴリズム(以下BPアルゴリズムと称す)があり、こ
れを適用することでパターンマッチング処理を高精度に
実行することが種々報告されている。
【0014】しかしながら、ニューラルネットワークを
用いる場合、多層構造をなす各層での係数をそれぞれ算
出するための膨大な演算を行なう必要があり、その演算
処理に要する負担が非常に大きいという不具合があった
。そのため、ニューラルネットワークを簡易に用いてパ
ターン認識処理を進めることができないという不具合が
あった。
【0015】また、前述の部分空間法とニューラルネッ
トワークの問題を解決する手段として、カテゴリごとの
直交化辞書セットをニューラルネットワークの第1層の
重み係数に使用し、カテゴリごとにニューラルネットワ
ークを構成する手法(たとえば特願昭63−32114
1号参照)が提案されているが、ニューラルネットワー
クがカテゴリごとに構成され、カテゴリ間で競合学習が
行なわれていないために、類似カテゴリに対する識別能
力の点で不具合があった。
【0016】
【発明が解決しようとする課題】このように、部分空間
法やニューラルネットワークを用いた従来のパターン認
識方式にあっては、それぞれ一長一短があり、種々のノ
イズなどに左右されることなく、簡易に、かつ高精度に
入力パターンを認識するには問題があった。
【0017】そこで、本発明は、パターン認識の正解率
を高めるとともに、認識対象外のカテゴリや種々のノイ
ズに対する拒否能力を高めることができ、高精度のパタ
ーン認識が可能となるパターン認識方式を提供すること
を目的とする。
【0018】
【課題を解決するための手段】本発明のパターン認識方
式は、カテゴリが未知なる入力パターンと、少なくとも
2種以上のカテゴリの標準パターンを構成する直交化辞
書セットとの内積をそれぞれ計算する内積計算手段と、
この内積計算手段により求められる内積値を非線形関数
により非線形変換する非線形変換手段と、この非線形変
換手段の出力値と、あらかじめ設定される係数とに基づ
いて所定の演算を行なうニューラルネットワーク部と、
このニューラルネットワーク部の演算により得られる値
を相互に比較することにより前記入力パターンが属する
カテゴリを判定する判定手段とを具備している。
【0019】
【作用】このような構成によれば、入力パターンとの複
数の直交化辞書セットとの内積値を非線形変換した上で
、あらかじめ定められている係数を用いて所定の演算処
理を施すので、簡単な演算処理により入力パターンの変
動を効果的に吸収し、かつ、類似カテゴリの識別能力に
優れ、入力パターンを高精度に認識することが可能とな
る。
【0020】
【実施例】以下、本発明の一実施例について図面を参照
して説明する。
【0021】図1は、本発明に係るパターン認識方式が
適用される、たとえばニューラルネットワークを用いた
音声認識装置の構成を概略的に示すものである。すなわ
ち、特徴抽出部11は、入力される音声信号を例えば1
2kHzでサンプリングして、12ビットのディジタル
データにA/D変換し、そのパワーとLPC分析パラメ
ータを計算する。この計算処理は、たとえば窓長を24
msec、フレーム周期を8msec、分析次数16次
、LPCメルケプストラムの項数を16項として行なわ
れる。その後、特徴抽出部11では、入力音声区間を検
出して、その区間におけるパワーとLPC分析パラメー
タを音声特徴(入力パターン)として抽出し、複数の内
積計算部121 〜12N にそれぞれ入力する。
【0022】内積計算部121 〜12N は、上述し
た如く求められる入力パターンと、あらかじめ認識対象
とするカテゴリごとに用意されて直交化辞書131 〜
13N に格納されている直交化辞書セットとの間で、
逐次内積演算を実行する。そして、これらの内積計算部
121 〜12N で求められた入力パターンと直交化
辞書セットとの間での内積値は、それぞれ非線形変換部
14に入力される。
【0023】非線形変換部14は、図2に示すような非
線形関数により、入力内積値を非線形変換するものであ
り、この非線形変換した値をニューラルネットワーク部
15に入力する。
【0024】ニューラルネットワーク部15は、たとえ
ば5つの母音(a,i,u,e,o)を識別する場合に
は、図3のように構成される。すなわち、ニューラルネ
ットワーク部15は、前述したように全てのカテゴリの
直交化辞書セットと入力パターンとの内積値を非線形変
換した値Xij(iはカテゴリ番号、jは直交軸の軸番
号)を入力として、前述したBPアルゴリズムを用いて
、あらかじめ学習データから求められた係数との積和を
図3に示す結線にしたがって計算し、ノードごとに統合
した後、たとえば下記式のようなシグモイド関数による
非線形変換を経て信号Yk (kはノード番号)を得る
。 f(x) =1/(1+e×p(−x))
【0025】
次に、同様の手続きで、これらの信号Yk と係数との
積和を計算し、同様にして非線形変換を経て、各カテゴ
リの出力値Zi(iはカテゴリ番号)を得る。判定部1
6は、このようにして求められる全てのカテゴリの出力
値Ziを相互に比較することにより、出力値Ziの中で
最も大きな出力を与えるカテゴリを判定し、それを認識
結果とすることで入力パターンが認識される。
【0026】なお、ニューラルネットワーク部15の層
数、ノード数、非線形関数の種類などについては、本発
明の範囲内で種々変形して設定すればよいことはいうま
でもないことである。
【0027】このようにして、入力パターンと直交化辞
書セットとの間で内積計算し、その内積値を非線形変換
してニューラルネットワーク部に与えてパターン認識処
理を実行する本パターン認識方式によれば、上述した内
積計算と非線形変換とによってニューラルネットワーク
部における初段の複雑な係数演算を行なうことなしに、
高精度な認識処理を実現することができる。この結果、
部分空間法が持つ種々のノイズに対する不具合を効果的
に解消した上で、係数演算の簡易化を図ったニューラル
ネットワーク部を用いて簡易に、かつ、効果的に入力パ
ターンを精度よく認識することが可能となる。
【0028】なお、本発明は、前記実施例に限定される
ものではない。たとえば、内積計算に用いる直交化辞書
の軸数や、認識対象とするカテゴリの数、内積計算部の
数、直交化辞書の数などは、パターン認識に対する仕様
に応じて定めればよいものである。また、本発明は、そ
の要旨を逸脱しない範囲で種々変形して実施することが
できる。
【0029】
【発明の効果】以上詳述したように本発明によれば、音
声や文字、図形などのパターン認識における誤判定を少
なくできるほか、ノイズや不用意な発声、認識対象外の
単語に対する拒否能力を高めることができ、その認識正
解率を高めて高精度のパターン認識を実現することがで
きるなど、実用上多大なる効果が得られるパターン認識
方式を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施例に係るパターン認識方式が適
用される音声認識装置の構成を概略的に示すブロック図
【図2】非線形変換部で用いられる非線形関数の例を示
す図。
【図3】ニューラルネットワーク部の構成例を示す図。
【図4】従来の一般的なパターン認識装置の構成を概略
的に示すブロック図。
【符号の説明】
11……特徴抽出部、121 〜12N ……内積計算
部、131 〜13N ……直交化辞書、14……非線
形変換部、15……ニューラルネットワーク部、16…
…判定部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  カテゴリが未知なる入力パターンと、
    少なくとも2種以上のカテゴリの標準パターンを構成す
    る直交化辞書セットとの内積をそれぞれ計算する内積計
    算手段と、この内積計算手段により求められる内積値を
    非線形関数により非線形変換する非線形変換手段と、こ
    の非線形変換手段の出力値と、あらかじめ設定される係
    数とに基づいて所定の演算を行なうニューラルネットワ
    ーク部と、このニューラルネットワーク部の演算により
    得られる値を相互に比較することにより前記入力パター
    ンが属するカテゴリを判定する判定手段とを具備したこ
    とを特徴とするパターン認識方式。
JP3059085A 1991-03-22 1991-03-22 パターン認識方式 Pending JPH04294445A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3059085A JPH04294445A (ja) 1991-03-22 1991-03-22 パターン認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3059085A JPH04294445A (ja) 1991-03-22 1991-03-22 パターン認識方式

Publications (1)

Publication Number Publication Date
JPH04294445A true JPH04294445A (ja) 1992-10-19

Family

ID=13103153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3059085A Pending JPH04294445A (ja) 1991-03-22 1991-03-22 パターン認識方式

Country Status (1)

Country Link
JP (1) JPH04294445A (ja)

Similar Documents

Publication Publication Date Title
Qi et al. Voiced-unvoiced-silence classifications of speech using hybrid features and a network classifier
Daqrouq et al. Speaker identification using vowels features through a combined method of formants, wavelets, and neural network classifiers
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5255342A (en) Pattern recognition system and method using neural network
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
El Choubassi et al. Arabic speech recognition using recurrent neural networks
US5794190A (en) Speech pattern recognition using pattern recognizers and classifiers
CN116011457A (zh) 一种基于数据增强及跨模态特征融合的情绪智能识别方法
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
Renjith et al. Speech based emotion recognition in Tamil and Telugu using LPCC and hurst parameters—A comparitive study using KNN and ANN classifiers
Venkateswarlu et al. Speech recognition using radial basis function neural network
CN117672268A (zh) 基于相对熵对齐融合的多模态语音情感识别方法
JPH02165388A (ja) パターン認識方式
Mitra et al. Speech emotion: Investigating model representations, multi-task learning and knowledge distillation
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
JPH0540497A (ja) 話者適応音声認識装置
Dhakal et al. Detection and identification of background sounds to improvise voice interface in critical environments
Masood et al. Isolated word recognition using neural network
Aggarwal et al. Application of genetically optimized neural networks for hindi speech recognition system
JPH04294445A (ja) パターン認識方式
JPH01204099A (ja) 音声認識装置
Hadjadji et al. Enhancement of the interlocutor emotion recognition rate from non-professionals speakers in Arabic database
Revathy et al. Effective technique for noise removal and emotion recognition in speech signals using cat swarm optimized spiking neural networks
Poddar et al. Data capturing and modeling by speech recognition: roles demonstrated by artificial intelligence, A survey