JPH04121799A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH04121799A
JPH04121799A JP2243411A JP24341190A JPH04121799A JP H04121799 A JPH04121799 A JP H04121799A JP 2243411 A JP2243411 A JP 2243411A JP 24341190 A JP24341190 A JP 24341190A JP H04121799 A JPH04121799 A JP H04121799A
Authority
JP
Japan
Prior art keywords
speech
frame
input
neural network
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2243411A
Other languages
English (en)
Inventor
Kazuhiko Okashita
和彦 岡下
Shingo Nishimura
新吾 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP2243411A priority Critical patent/JPH04121799A/ja
Publication of JPH04121799A publication Critical patent/JPH04121799A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、電気錠、ICカート等のオンライン端末等て
入力音声からその単語を認識するに好適な音声i!識左
方法関する。
[従来の技術〕 本出願人は、容易に実時間処理てきる音声認識方法とし
て、特願平1−9111376号により、ニューラルネ
ットワークを用いて入力音声からその単語を認識するも
のを提案している。この音声認識方法にあっては、ニュ
ーラルネ・ントワークへの入力として、入力音声の周波
数特性を算出し、各帯域のそれぞれにおいて時間的に等
分割した音声区間のそれぞれを1つのブロックとして、
各ブロックの中で周波数特性の平均を算出し、それらの
平均を単語のパワー全体で正規化したものを用いること
としている。
[発明か解決しようとする課題] 然しなから、上述の従来技術による場合には、ニューラ
ルネットワークを構築するために標準入カバターン(学
習入カバターン)を作製する時と、構築されたニューラ
ルネットワークを使用して音声認識するために評価入カ
バターンを作製する時との間で、定常雑音の混入や回線
等の入力系の相違等によってそ、れらの作製条件か異な
ると、認識率の低下か見られることとなる。
この認識率の低下は、以下に解析する如く、単語のパワ
ー全体て正規化するために、スペクトル歪を消去できな
いことによる。即ち、iをブロック番号、kを帯域番号
、Akをに帯域の周波数伝送特性、S■ikを学習段階
てのに帯域iブロックの音声信号、S tikを評価段
階て電話回線を通した後における如く、定常的な周波数
伝送特性Akの影響によりスペクトルか歪んだ、k帯域
iブロックの音声信号とする時、 5tik =Ak−5@i である。そして、評価段階ての各音声信号S tikを
単語のパワー全体で正規化したものは、S tik  
    A k S mikてあって、右辺の周波数伝
送特性Akを消去てきない、即ち、スペクトル歪を消去
てきないのである。
本発明は、容易に実時間処理てき、かつ高い認識率を確
保てきる音声認識方法を提供することを目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、ニューラルネットワークを
用いて入力音声からその単語を認識する単語認識方法て
あって、入力音声の特徴パラメータを所定長のフレーム
単位て算出し、各フレームのパワーの実効値が任意のし
きい値より小なるとき、当該フレームの特徴パラメータ
を除外し、除外した後の音声区間を時間的に等分割し、
等分割した音声区間のそれぞれを1つのブロックとして
、各ブロックの中で周波数特性の平均を算出し、それら
の平均を対応する帯域毎に正規化したものを、ニューラ
ルネットワークへの入力として用いるようにしたもので
ある。
請求項2に記載の本発明は、ニューラルネットワークを
用いて入力音声からその単語を認識する単語認識方法で
あって、入力音声の特徴パラメータを所定長のフレーム
単位て算出し、各フレームのパワーの実効値が任意のし
きい値より小なるとき、当該フレームの特徴パラメータ
の影響が少なくなるように当該特徴パラメータに重み付
けを行ない、重み付けの後の音声区間を時間的に等分割
し、等分割した音声区間のそれぞれを1つのブロックと
して、各ブロックの中で周波数特性の平均を算出し、そ
れらの平均を対応する帯域毎に正規化したものを、ニュ
ーラルネットワークへの入力として用いるようにしたも
のである。
[作用] 本発明によれば、下記■〜■の作用効果がある。
■ニューラルネットワークへ入力する特徴パラメータと
して「周波数特性」を用いたから、入力を得るための前
処理が、LPG相関やLPCケプストラムの如くの複雑
な特徴量抽出に比して単純で並列的に周波数分析てき、
その前処理に要する時間が短くて足りる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純かつ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットか独立に動作しており、並列的な演算
処理が可能である。従ワて、演算処理が迅速である。
■上記■〜■により、音声認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。
■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、以下に解析する如く、入力音声の各ブロッ
クでの周波数特性の平均を同一帯域内で正規化するもの
であるため、スペクトル歪を消去てきることによる。即
ち、前述の如く、iをブロック番号、kを帯域番号、A
kをに帯域の周波数伝送特性、S■ikを学習段階ての
に帯域iブロックの音声信号、S tikを評価段階で
電話回線を通した後における如く、定常的な周波数伝送
特性Akの影響によりスペクトルか歪んだ、k帯域iブ
ロックの音声信号とする時、 5tik =Ak−8jlik         ・・
・(1)である。そして、評価段階ての各音声信号S 
tikを帯域毎に正規化したものは、 Σ 5tik    Ak  Σ S aik    
Σ S層jkてあって、周波数伝送特性Akを消去てき
る、即ち、スペクトル歪を消去てきるのである。
■入力音声の特徴パラメータを用いて音声認識するに際
し、パワーの小さいフレームの特徴パラメータを除外、
またはその影響か少なくなるように重み付けを行なうも
のであるから、伝送路自体の雑音の影響を除去して音声
認識でき、高い認識率を確保できる。
[実施例] 第1図は本発明の一実施例に係る音声認識システムを示
す模式図である。
音声認識システム10は、音声入力部11、バンドパス
フィルタ12、パワー判定部13.ブロック分割部14
、平均化回路15、正規化回路16、ニューラルネット
ワーク17、判定部18を有して構成される。
以下、音声認識システム10を用いた学習手順、認識手
順について説明する。
(Al音声入力部11にて、音声試料を取入れる。
このとき、認識単語を47都道府県名、特定話者を1名
とした。
(B)学習 (B−11入力作成 ■各fj!厳単語の既知入力音声波形を16チヤンネル
のバンドパスフィルタ12に通し、1フレーム(12,
8m5ec)毎に周波数特性を算出する。
■パワー判定部13において、実験的に決めたしきい値
θと各フレームの周波数特性のパワーの実効値を比較し
、パワーの実効値かしきい値θ以下になるフレームの特
徴パラメータを除外する。
■上記■の結果、しきい値θ以下になるフレームの特徴
パラメータを除外した音声波形をブロック分割部14に
おいて時間的に8等分割する。
■上記■の結果、時間的に8等分割した音声区間のそれ
ぞれを1つのブロックとして、平均化回路15により、
各ブロックの中で、上記■で求めた周波数特性の平均を
算出する。この学習段階における音声信号のに帯域iブ
ロワつての周波数特性の平均を、S mikとする。
■正規化回路16において、上記■で各帯域にて求めた
各ブロックの周波数特性の平均を、対応する帯域の全ブ
ロックのレベルの和ΣS mikで除算し、対応する帯
域毎に、Σ S mik として正規化する。
■上記■て求めた値をニューラルネットワーク17への
入力とする。入力個数は16チヤンネル×8ブロック=
128個となる。
(B−21学習 ■47個の出カニニットを持つニューラルネットワーク
17を用いる。
■47単語に番号付けし、47個の出カニニットと対応
させ、上記■で求めた入力に対し、その単語に対応した
出カニニットか1、その他の出カニニットが0という値
(目標値)になるように、パックプロパゲーションによ
り5000回学習する。
(C)  認識 (C−1)入力作成 ■各認識単語の未知入力音声波形を16チヤンネルのバ
ントパスフィルタ12に通し、1フレーム(12,8m
5ec)毎に周波数特性を算出する。
■パワー判定部13において、実験的に決めたしきい値
θと各フレームの周波数特性のパワーの実効値を比較し
、パワーの実効値がしきい値θ以下になるフレームの特
徴パラメータを除外する。
■上記■の結果、しきい値θ以下になるフレームの特徴
パラメータを除外した音声波形をブロック分割部14に
おいて時間的に8等分割する。
■上記■において、時間的に8等分割した音声区間のそ
れぞれを1つのブロックとして、平均化回路15により
、各ブロックの中で、上記■て求めた周波数特性の平均
を算出する。この評価段階における音声信号のに帯域i
ブロワつての周波数特性の平均を、S tikとする。
■上記■て各帯域にて求めた各ブロックの周波数特性の
平均を、対応する帯域の全ブロックのレベルの和ΣS 
tikて除算し、対応する帯域毎に、 Σ S  tik として正規化する。
(C−2)認識 ■上記fB)にて学習したニューラルネットワーク17
に上記■て求めた特徴パラメータを入力する。
■判定部18において、ニューラルネットワーク17の
出力層の値から入力単語を判定する。
然るに、従来方式と上記音声認識システム10による本
発明方式の実験結果について説明する。
(従来方式) 実験:周波数特性の平均を算出し単語のパワー全体て正
規化したものをニューラルネットワークの入力にしたと
き。
尚、特定話者を1名、認識単語を47都道府県名とした
結果:認識率は57.0%であった。
(本発明方式) 実験:パワーの小さいフレームの特徴パラメータを除外
することを考慮した後、ブロック内での特徴パラメータ
の平均を帯域毎に正規化したものを入力とし、認識手法
としてニューラルネットワークを用いたとき。
尚、特定話者を1名、認識単語を47都道府県とした。
結果:認識率は96.6%であった。
尚、本発明の実施においては、学習段階、及び認識段階
の入力作成時(上述の(B−11の■、■の段階、及び
(C−1)の■、■の段階)に、パワーの小さいフレー
ムの特徴パラメータを除外することなく、該特徴パラメ
ータの影響か少なくなるように該特徴パラメータに重み
付けを行ない、重み付は後の音声区間を時間的に等分割
するものであっても良い。
上記音声認識システム10によれば、下記■〜■の作用
がある。
■ニューラルネットワーク17へ入力する特徴パラメー
タとして「周波数特性」を用いたから、入力を得るため
の前処理か、LPC相関やLPCケプストラムの如くの
複雑な特徴量抽出に比して単純で並列的に周波数分析て
き、その前処理に要する時間か短くて足りる。
■ニューラルネットワーク17は、原理的に、ネットワ
ーク全体の演算処理か単純かつ迅速である。
■ニューラルネットワーク17は、原理的に、それを構
成している各ユニットか独立に動作しており、並列的な
演算処理が可能である。従って、演算処理か迅速である
■上記■〜■により、音声認識処理を複雑な処理装置に
よることなく容易に実時間処理てきる。
■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、[作用コの■にて前述の如く、評価段階て
正規化された(4)式の如くの値か、(2)式にて解析
された如くに周波数伝送特性Akを消去されて、学習段
階て正規化された(3)式の如くの値と同等となり、雑
音の影響や回線等の入力系の相違に起因するスペクトル
歪を消去できるからである。
■入力音声の特徴パラメータを用いて音声認識するに際
し、パワーの小さいフレームの特徴パラメータを除外、
またはその影響か少なくなるように重み付けを行なうも
のであるから、伝送路自体の雑音の影響を除去して音声
認識でき、高い認識率を確保てきる。
[発明の効果] 以上のように本発明によれば、容易に実時間処理でき、
かつ高い認識率を確保できる音声認識方法を得ることが
できる。
【図面の簡単な説明】
第1図は本発明の一実施例に係る音声認識システムを示
す模式図である。 10・・・音声認識システム、 11・・・音声入力部、 12・・・バントパスフィルタ、 13・・・パワー判定部、 14・・・ブロック分割部、 15・・・平均化回路、 16・・・正規化回路、 17・・・ニューラルネットワーク、 18・・・判定部。 特許出願人 積水化学工業株式会社 代表者 廣 1) 馨

Claims (2)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いて入力音声からそ
    の単語を認識する単語認識方法であって、入力音声の特
    徴パラメータを所定長のフレーム単位で算出し、各フレ
    ームのパワーの実効値が任意のしきい値より小なるとき
    、当該フレームの特徴パラメータを除外し、除外した後
    の音声区間を時間的に等分割し、等分割した音声区間の
    それぞれを1つのブロックとして、各ブロックの中で周
    波数特性の平均を算出し、それらの平均を対応する帯域
    毎に正規化したものを、ニューラルネットワークへの入
    力として用いる音声認識方法。
  2. (2)ニューラルネットワークを用いて入力音声からそ
    の単語を認識する単語認識方法であって、入力音声の特
    徴パラメータを所定長のフレーム単位て算出し、各フレ
    ームのパワーの実効値が任意のしきい値より小なるとき
    、当該フレームの特徴パラメータの影響が少なくなるよ
    うに当該特徴パラメータに重み付けを行ない、重み付け
    の後の音声区間を時間的に等分割し、等分割した音声区
    間のそれぞれを1つのブロックとして、各ブロックの中
    で周波数特性の平均を算出し、それらの平均を対応する
    帯域毎に正規化したものを、ニューラルネットワークへ
    の入力として用いる音声認識方法。
JP2243411A 1990-09-12 1990-09-12 音声認識方法 Pending JPH04121799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2243411A JPH04121799A (ja) 1990-09-12 1990-09-12 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2243411A JPH04121799A (ja) 1990-09-12 1990-09-12 音声認識方法

Publications (1)

Publication Number Publication Date
JPH04121799A true JPH04121799A (ja) 1992-04-22

Family

ID=17103466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2243411A Pending JPH04121799A (ja) 1990-09-12 1990-09-12 音声認識方法

Country Status (1)

Country Link
JP (1) JPH04121799A (ja)

Similar Documents

Publication Publication Date Title
Al-Kaltakchi et al. Comparisons of extreme learning machine and backpropagation-based i-vector approach for speaker identification
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
Al-Ali et al. Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions
CN108492821B (zh) 一种减弱语音识别中说话人影响的方法
JPH04121799A (ja) 音声認識方法
Close et al. Non intrusive intelligibility predictor for hearing impaired individuals using self supervised speech representations
Sailor et al. Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection.
Trysnyuk et al. A method for user authenticating to critical infrastructure objects based on voice message identification
Muhsina et al. Signal enhancement of source separation techniques
JPH04163600A (ja) 話者認識方法
JPH04163599A (ja) 話者認識方法
JPH03230200A (ja) 音声認識方法
Gang et al. Towards automated single channel source separation using neural networks
Chen et al. TSEGAN: Target speech extraction algorithm based on generative adversarial networks
Lakra et al. Selective noise filtering of speech signals using an adaptive neuro-fuzzy inference system as a frequency pre-classifier
RU2789689C1 (ru) Способ аутентификации диктора по голосу
JPH04121794A (ja) 音声認識方法
JPH03230255A (ja) 音声認識方法
Shokouhi et al. Co-channel speech detection via spectral analysis of frequency modulated sub-bands.
JPH03230256A (ja) 音声認識方法
JPH02273798A (ja) 話者認識方式
Jose et al. Speech Enhancement using LQE and Optimization Techniques
Mehta Optimization Based Speech Authentication System to Web Content for Disabled Users
Sfeclis et al. Investigating Imaginary Mask Estimation in Complex Masking for Speech Enhancement
JPH02135500A (ja) 話者認識方式