JP3015477B2 - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JP3015477B2
JP3015477B2 JP3025799A JP2579991A JP3015477B2 JP 3015477 B2 JP3015477 B2 JP 3015477B2 JP 3025799 A JP3025799 A JP 3025799A JP 2579991 A JP2579991 A JP 2579991A JP 3015477 B2 JP3015477 B2 JP 3015477B2
Authority
JP
Japan
Prior art keywords
speech
feature
parameter
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3025799A
Other languages
English (en)
Other versions
JPH04264498A (ja
Inventor
康之 正井
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3025799A priority Critical patent/JP3015477B2/ja
Publication of JPH04264498A publication Critical patent/JPH04264498A/ja
Application granted granted Critical
Publication of JP3015477B2 publication Critical patent/JP3015477B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
[発明の目的]
【0001】
【産業上の利用分野】本発明は、騒音に埋もれた音声パ
ターンから音声パターンを抽出し高い認識性能を得るの
できる音声認識方法に関する。
【0002】
【従来の技術】音声認識技術は、優れたマンマシン・イ
ンターフェースを実現する上での重要な役割を担ってい
る。この音声認識技術を実用化するにおいて、その認識
精度を高める上での重要な前処理として雑音除去があ
り、従来より種々研究・開発されている。
【0003】この雑音除去の方式としては、音響分析を
行うバンド・パス・フィルタの各チャネルごとにオート
・ゲイン・コントローラを設けて、各チャネルに含まれ
る雑音成分の大きさに応じて、そのチャネルの増幅率を
変化させる方式が実用化されている。ところが、このよ
うな雑音除去方式では、各チャネル間の相対的な信号の
大きさを見ていないため、認識に必要な音声パターンの
特徴が消えてしまう等の問題がある。また、神経回路網
モデルを用いた雑音除去装置(例えば、特開平2−15
718公報参照)が提案されているが、前記雑音除去装
置では神経回路網の学習に使用した雑音と同じ雑音に対
しては効果的に除去することができるが、学習していな
い雑音が入力音声に混入した場合には除去効果は少な
い。さらに、複数のマイクを使用し適応フィルタにより
雑音を除去する方法も提案されているが、実用時にはマ
イクの配置位置の制約が問題となる。前記3種類の方式
はいずれもその構成が複雑であり、安価な音声認識装置
の前処理として使用するのは困難である。
【0004】
【発明が解決しようとする課題】このように従来にあっ
てはある条件を満たした環境下では高い雑音除去効果が
得られるが、条件が満たされない場合には雑音除去効果
が極端に低下し、また、構成が複雑であるという点で問
題が残されている。
【0005】本発明は、このような事情を考慮してなさ
れたもので、その目的とするところは、雑音に埋もれた
入力音声から音声特徴を効果的に抽出し、騒音下で発生
された音声を信頼性良く認識することのできる音声認識
方法を提供することにある。
【0006】
【課題を解決するための手段】本発明の音声認識方法
は、周波数分析により入力音声の特徴パラメータを求
め、この入力音声の特徴パラメータと予め収集された認
識対象単語の学習音声の特徴パラメータとの類似度を計
算して入力音声を認識する音声認識方法において、学習
音声の特徴パラメータを各要素毎に微分処理し、この微
分処理した特徴パラメータの定数倍を微分処理を施す前
の学習音声の特徴パラメータから引き去ることにより標
準パターンを求め、入力音声の特徴パラメータを各要素
毎に微分処理し、この微分処理した特徴パラメータの定
数倍を微分処理を施す前の特徴パラメータから引き去る
ことにより入力音声についてのピーク強調パラメータを
求め、このピーク強調パラメータと標準パターンとを用
いて類似度を計算する。
【0007】
【作用】本発明によれば、ピーク強調パラメータを求め
ることにより、雑音に埋もれた入力音声から音声特徴を
効果的に抽出し、騒音下で発声された音声に対しても高
い認識性能を得ることができる。
【0008】
【実施例】以下、図面を参照して本発明に係る音声認識
装置の一実施例について説明する。図1は、実施例装置
の要部概略構成図であり、1は入力音声を音響分析して
その特徴パラメータを求める音響分析部である。この音
響分析部1は標準パターンとの照合に用いるための特徴
量として、例えば周波数分析したバンド・パス・フィル
タ群出力を求める。
【0009】ピーク強調フィルタ部2は、上記音響分析
部1で求められた入力音声の特徴パラメータに対して微
分処理を施した特徴パラメータの定数倍を微分処理を施
す前の特徴パラメータから引き去った特徴パラメータを
出力する。尚、ここではピーク強調フィルタ部2に入力
される音声の特徴パラメータとしては、例えば、16チ
ャネルのバンド・パス・フィルタの出力x(i,j)
[j=0,1,…,15]とする。ここで、iはフレー
ム番号、jはチャネル番号を示す。しかして、前記ピー
ク強調フィルタ部2は、特徴パラメータx(i,j)か
らピーク強調後の特徴パラメータy(i,j)を 1<=j<=14のとき y(i,j)= (−x(i,j−1)+8*x(i,j)−x(i,j+1))/8 j=0のとき y(i,j)= (−x(i,j)+8*x(i,j)−x(i,j+1))/8 j=15のとき y(i,j)=(−x(i,j−1)+8*x(i,j)−x(i,j))/8 として求める。 また、y(i,j)はさらに一般的に y(i,j)=α*x(i,j)−β*(x(i,j−1)−2*x(i,j) +x(i,j+1))として求めてもよい。(ただし、α、βは定数) また、周波数方向と時間方向にラプラス演算を行った特
徴パラメータの定数倍を元のパラメータから引き去った
場合の特徴パラメータy(i,j)は y(i,j)=α*x(i,j)−β*(x(i,j−
1)−4*x(i,j)−x(i,j+1)−x(i−
1,j)−x(i+1,j))として求める。(ただ
し、α、βは定数)
【0010】標準パターンとして音声を登録した人の音
声を認識対象とする特定話者音声認識装置においては、
標準パターン作成部3は前記ピーク強調フィルタ部2で
ピーク強調された特徴パラメータをその認識対象単語に
ついての標準パターンとし、そのカテゴリ名を付して標
準パターン辞書4に登録する。また、不特定多数の話者
の音声を認識対象とする不特定話者音声認識装置におい
ては、標準パターン作成部3を本実施例の音声認識装置
とは別に用意し、前記ピーク強調フィルタ部2と同じ手
段でピーク強調した特徴パラメータを用いて標準パター
ンを作成し、そのカテゴリ名を付して前記標準パターン
辞書4に登録する。類似度演算部5は、ピーク強調フィ
ルタ部2でピーク強調された入力音声の特徴パラメータ
と前記標準パターン辞書4に登録されている標準パター
ンとの間で類似度を計算し、その計算結果を判定部6に
て判定して、例えば類似度値の最も高い標準パターンの
カテゴリ名を前記入力音声に対する認識結果として求め
るものとなっている。
【0011】次に、図2を用いて、ピーク強調フィルタ
部2の構成例を説明する。音響分析部1で得られた特徴
パラメータ(例えばバンドパスフィルタの出力値)はフ
レームごとに、周波数の低い順に(高い順に)シフトレ
ジスタ11に入力され、順次シフトレジスタ12,13
へとシフトされる。シフトレジスタ11,12,13の
3つのシフトレジスタに値が設定されると、シフトレジ
スタ11と13の出力は、それぞれ符号反転器14と1
5に入力され符号が反転される。また、シフトレジスタ
12の出力は左3ビットシフター16に入力され、左に
3ビットシフトされる。符号反転器14、15の出力と
左3ビットシフター16の出力は加算器17に入力され
加算される。加算器17の出力は右3ビットシフター1
8で右に3ビットシフトされ、ピーク強調後の特徴パラ
メータとして出力される。
【0012】なお、本発明は上述した実施例に限定され
るものではない。ここでは、特徴パラメータを微分した
ものの定数倍を元の特徴パラメータから引き去ってピー
ク強調を施すフィルタの場合について述べたが、雑音レ
ベルに応じて引き去る大きさを適応的に変更しても良
い。その他、本発明はその要旨を逸脱しない範囲で種々
変形して実施することができる。
【0013】
【発明の効果】以上説明したように本発明によれば、
ーク強調パラメータと標準パターンにより類似度を求め
ることにより、雑音に埋もれた音声パターンから音声成
分を強調して抽出することができるので騒音下で発声さ
れた音声に対しても高い認識性能を得ることができる等
の実用上多大な効果が奏せられる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る音声認識装置の概略構
成図である。
【図2】本発明のピーク強調フィルタ部の構成図であ
る。 [符号の説明] 1…音響分析部 2…ピーク強調フィルタ部 3…標準ハターン作成部 4…標準パターン辞書 5…類似度演算部 6…判定部
フロントページの続き (56)参考文献 特開 昭58−190999(JP,A) 特開 平4−227338(JP,A) 特開 平2−302799(JP,A) 特開 平2−285707(JP,A) 特開 平3−36672(JP,A) 特開 平2−242386(JP,A) 特開 平2−176876(JP,A) 特開 平1−125681(JP,A) 特許2594028(JP,B2) 特許2514984(JP,B2) 特許2514983(JP,B2) 特許2514985(JP,B2) 特許2514986(JP,B2) 特許2856429(JP,B2) 特公 昭62−29798(JP,B2) 特公 昭63−13560(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/20 G10L 15/02 G10L 21/02

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 周波数分析により入力音声の特徴パラメ
    ータを求め、この入力音声の特徴パラメータと予め収集
    された認識対象単語の学習音声の特徴パラメータとの
    似度を計算して上記入力音声を認識する音声認識方法
    おいて、前記学習音声の特徴パラメータを各要素毎に微分処理
    し、この微分処理した特徴パラメータの定数倍を前記微
    分処理を施す前の学習音声の特徴パラメータから引き去
    ることにより標準パターンを求め、 前記入力音声の特徴パラメータを各要素毎に微分処理
    し、この微分処理した特徴パラメータの定数倍を前記微
    分処理を施す前の特徴パラメータから引き去ることによ
    り入力音声についてのピーク強調パラメータを求め、 このピーク強調パラメータと前記標準パターンとを用い
    類似度を計算することを特徴とする音声認識方法
  2. 【請求項2】 前記学習音声および前記入力音声の特徴
    パラメータの微分処理は、周波数方向および時間方向に
    各要素毎に行われることを特徴とする特許請求の範囲第
    1項記載の音声認識方法。
  3. 【請求項3】 前記学習音声および前記入力音声の特徴
    パラメータの微分処理は、周波数方向に各要素毎にラプ
    ラス変換することにより行われることを特徴とする特許
    請求の範囲第1項記載の音声認識方法。
  4. 【請求項4】 前記学習音声および前記入力音声の特徴
    パラメータの微分処理は、時間方向に各要素毎にラプラ
    ス変換することにより行われることを特徴とする特許請
    求の範囲第1項記載の音声認識方法。
JP3025799A 1991-02-20 1991-02-20 音声認識方法 Expired - Lifetime JP3015477B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3025799A JP3015477B2 (ja) 1991-02-20 1991-02-20 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3025799A JP3015477B2 (ja) 1991-02-20 1991-02-20 音声認識方法

Publications (2)

Publication Number Publication Date
JPH04264498A JPH04264498A (ja) 1992-09-21
JP3015477B2 true JP3015477B2 (ja) 2000-03-06

Family

ID=12175900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3025799A Expired - Lifetime JP3015477B2 (ja) 1991-02-20 1991-02-20 音声認識方法

Country Status (1)

Country Link
JP (1) JP3015477B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2514983B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2514985B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2514986B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2514984B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2594028B2 (ja) 1984-07-20 1997-03-26 三洋電機株式会社 音声認識装置
JP2856429B2 (ja) 1989-05-17 1999-02-10 株式会社東芝 音声認識方式

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2594028B2 (ja) 1984-07-20 1997-03-26 三洋電機株式会社 音声認識装置
JP2514983B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2514985B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2514986B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2514984B2 (ja) 1987-10-06 1996-07-10 株式会社東芝 音声認識方式
JP2856429B2 (ja) 1989-05-17 1999-02-10 株式会社東芝 音声認識方式

Also Published As

Publication number Publication date
JPH04264498A (ja) 1992-09-21

Similar Documents

Publication Publication Date Title
CN102792374B (zh) 多通道音频中语音相关通道的缩放回避的方法和系统
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
CN112599152B (zh) 语音数据标注方法、系统、电子设备及存储介质
EP0473664B1 (en) Analysis of waveforms
KR100446626B1 (ko) 음성신호에서 잡음을 제거하는 방법 및 장치
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
JP3015477B2 (ja) 音声認識方法
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
CN113948088A (zh) 基于波形模拟的语音识别方法及装置
CN114996489A (zh) 新闻数据的违规检测方法、装置、设备及存储介质
JP2871120B2 (ja) 自動採譜装置
JP3346200B2 (ja) 音声認識装置
CN112581939A (zh) 一种应用于电力调度规范性评价的智能语音分析方法
JP2863214B2 (ja) 雑音除去装置及び該装置を用いた音声認識装置
CN111883154A (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
KR20000032269A (ko) 음향 기기의 음성인식장치
CN116229987B (zh) 一种校园语音识别的方法、装置及存储介质
Sofianos et al. Singing voice separation based on non-vocal independent component subtraction and amplitude discrimination
JP2658426B2 (ja) 音声認識方法
JPH0461359B2 (ja)
JP2613108B2 (ja) 音声認識方法
CN116935835A (zh) 齿音识别、消除方法、系统、介质及设备
JPH0782355B2 (ja) 雑音除去と話者適応の機能を有する音声認識装置
CN117334211A (zh) 一种应用于沉浸式视频会议系统中的语音分离方法及系统
Verma et al. Non-linear filtering for feature enhancement of reverberant speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050608

A521 Written amendment

Effective date: 20050803

Free format text: JAPANESE INTERMEDIATE CODE: A523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051130