JP2745535B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2745535B2
JP2745535B2 JP63127825A JP12782588A JP2745535B2 JP 2745535 B2 JP2745535 B2 JP 2745535B2 JP 63127825 A JP63127825 A JP 63127825A JP 12782588 A JP12782588 A JP 12782588A JP 2745535 B2 JP2745535 B2 JP 2745535B2
Authority
JP
Japan
Prior art keywords
band
low
standard pattern
feature vector
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63127825A
Other languages
English (en)
Other versions
JPH01296299A (ja
Inventor
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63127825A priority Critical patent/JP2745535B2/ja
Priority to US07/356,049 priority patent/US4937871A/en
Publication of JPH01296299A publication Critical patent/JPH01296299A/ja
Application granted granted Critical
Publication of JP2745535B2 publication Critical patent/JP2745535B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は高雑音下で発生された音声を認識する音声認
識装置の改良に関する。
(従来の技術) 従来、単語認識方式としては迫江、千葉、「動的計画
法を利用した音声の時間正規化に基づく連続単語認
識」、音響学会誌、27、9、pp483−500(1971),(以
下、「文献1」)に示されるようなDPマッチングを用い
た方式が知られている。この方式を第2図を用いて説明
する。
端子201には音声が入力されるものとする。
分析部202は入力音声を分析し、特徴ベクトルの時系
列に変換する。求められた特徴ベクトル時系列を、 A={a(1),a(2),a(3),…,a(i),…,a
(I)} と表すことにする。ここで、a(i)はiフレームの特
徴ベクトルである。特徴ベクトルを求めるための分析法
としては、例えば古井、「ディジタル音声処理」、東海
大学出版会(以下、「文献2」)に示されるような帯域
フィルタ群による分析、FFT分析、ケプストラム分析な
どがある。
記憶部203にはあらかじめ登録されたM個の単語の標
準パターンが記憶されている。単語m、1≦m≦Mの標
準パターンを、 B(m)={b(m,1),b(m,2),b(m,3),…,b(m,j),…,b(m,Jm)} と表すことにする。
距離計算部204は入力パターンのiフレームa(i)
と標準パターンのjフレームb(m,j)とのフレーム間
距離d(m,i,j)を全てのフレームに対して計算する。
フレーム間距離d(m,i,j)は例えば、 ユークリッド距離 d(m,i,j)=‖a(i)−b(m,j)‖ (1) を用いる。
マッチング部205は距離計算部204からフレーム間距離
d(m,i,j)を受け取り、以下の漸化式に従って評価関
数g(m,i,j)を最小とするように、入力パターンと標
準パターンの時間対応づけを行う。
g(m,i,j)=d(m,i,j)+min g(m,i−1,j) g(m,i−1,j−1) (2) g(m,i−1,j−2) マッチング部は全ての標準パターンB(m)に対する
距離 dist(m)=g(m,I,Jm)、1≦m≦M を計算する。
決定部206はマッチング部205からdist(m)を受け取
り、最小値を与えるmを認識結果として端子207へ出力
する。
このような方式を用いて雑音下で発生された音声を認
識する場合には、低雑音下における場合よりも認識率が
低下するという問題点があった。雑音下で発生された音
声の認識が困難であるのは、音声が付加雑音によりマス
クされるだけでなく、発声自身のスペクトルが変形する
ためである。この変形は雑音により、発声者が自分の発
声を聞き取り辛くなるために、より大きく、より明瞭に
発声しようとするために生じる。同一男性話者が静かな
環境と高雑音下において発声した母音/a/のスペクトル
の例を第3図に示す。第3図において実線は静かな環境
において発生された音声のスペクトルであり、点線は高
雑音下において発声された音声のスペクトルである。第
3図に示すように高雑音下において発声された場合は全
体のエネルギーの上昇だけでなく、そのスペクトルの概
形やホルマントの位置および帯域幅も変化している。こ
のような変形は例に示した母音以外でも一般に生じる。
このように、背景雑音レベルが異なる場合の発生は、同
じ母音であってもスペクトル形状が大きく異なったもの
となるため、母音パターン間距離が大きくなり認識誤り
の原因となっている。
雑音下の音声を認識する方法はいくつか考えられる。
例えば、雑音下音声を認識する場合、認識時と登録時の
環境が近いほど認識率はよいことがC.H.Lee、K.Ganesan
によって“Speech Recognition Under Additive Nois
e″,ICASSP1984,35,7,(1984.3)(以下、「文献
3」)、に示されている。そこで、あらかじめ多数の環
境下で発声した標準パターンを登録する方法(以下、
「方法1」)が考えられる。
また、梅崎、板倉、「重みつきFFTケプストラム係数
と平滑化群遅延スペクトル係数による距離尺度の比較と
評価」、日本音響学会講演論文集1−5−11、昭和62年
10月(以下、「文献4」)に、重みつきケプストラム距
離を距離尺度とする方法(以下、「方法2」)が雑音下
音声の認識に有効であることが報告されている。
また、第3図によれば2.5kHz以上の周波数領域でのス
ペクトルの変形は大きいが、それ以下の周波数領域での
スペクトルでの変形は少ないことがわかる。この傾向は
他の母音に関しても同様である。そこで、2.5kHz以下の
低域のスペクトルの特徴のみを用いて音声認識を行う方
法(「方法3」)も考えられよう。
(発明が解決しようとする問題点) 雑音下で発声した音声のスペクトル変動に「方法1」
で対処する場合には、登録時の手間や記憶量、処理量が
膨大になるという問題点がある。また、方法2の重みつ
きケプストラム距離はホルマントピークへの比重が高い
距離尺度であって、加法性の白色雑音等に対しては効果
がある。しかし、この方法はホルマントの位置、帯域幅
の変動の影響を受け易いため、上記のようなスペクトル
変動には対処できない。また、方法3の低域の情報のみ
を用いて認識を行う場合は、高域に特徴を持つ摩擦音や
破裂音等の子音を識別することは困難であり、認識率は
かえって低下するおそれがある。
本発明は、登録時の手間や記憶量、処理量を増大させ
ることなく、高雑音下における発声を高精度で認識する
音声認識装置を提供するものである。
(発明の構成) 本発明は、入力された音声の全帯域の情報を表す全帯
域特徴ベクトルを求める全帯域分析部と、入力された音
声の低域の情報を表す低域特徴ベクトルを求める低域分
析部と、あらかじめ用意された標準パターンの全帯域特
徴ベクトルを記憶する全帯域標準パターン記憶部と、あ
らかじめ用意された標準パターンの低域特徴ベクトルを
記憶する低域標準パターン記憶部と、あらかじめ用意さ
れた重み係数を記憶する係数記憶部と、前記入力音声の
全帯域特徴ベクトルと前記標準パターンの全帯域特徴ベ
クトルとの間の全帯域距離を求める全帯域距離計算部
と、前記入力音声の低域特徴ベクトルと前記標準パター
ンの低域特徴ベクトルとの間の低域距離を求める低域距
離計算部と、前記重み係数により前記全帯域距離と前記
低域距離に重み付けを行い入力パターンと標準パターン
のフレーム間距離を求める距離計算部と、前記フレーム
間距離を用いて入力音声と標準パターンとの間のパター
ン間距離を求め、入力された音声の認識を行う認識部
と、から構成されることを特徴とする。あるいは、前記
係数記憶部に変えて、入力音声から前記重み係数を計算
する係数計算部と、をから構成されることを特徴とす
る。
またあるいは、前記係数記憶部に変えて、入力音声か
ら母音らしさを表す母音性特徴量を求める母音性抽出部
と、あらかじめ用意された標準パターンの母音性特徴量
を記憶する母音性特徴量記憶部と、前記入力音声の母音
性特徴量と前記標準パターンの母音性特徴量から前記重
み係数を計算する係数計算部、から構成されることを特
徴とする。
(作用) 本発明は音声の母音らしい部分ではスペクトル変動の
少ない低域の情報を用い、そうでない部分では全帯域の
情報を用いて識別を行うことにより、高精度の音声認識
装置を実現するものである。以下に本発明の作用を説明
する。
入力音声の全帯域の情報は全帯域特徴ベクトル時系列
Aall、 Aall={aall(1),aall(2),…,aall(i),…aall(I)} と表せる。全帯域特徴ベクトルとしては文献2に示され
ているフィルタバンクによる分析やFFT分析、ケプスト
ラム分析等を利用し求めることが出来る。
また、低域の情報は低域特徴ベクトル時系列Alow、 Alow={alow(1),alow(2),…,alow(i),…,alow(I)} と表せる。低域特徴ベクトルは、例えば、第1、第2ホ
ルマントを含むような2.5kHz以下の帯域を用いて分析す
ることにより求めることができる。
単語mの標準パターンの全帯域特徴ベクトル時系列を
Ball(m)、 Ball(m)={ball(m,1),ball(m,2),…,ball(m,j),…,ball(m,Jm)} 低域特徴ベクトル時系列をBlow(m) Blow(m)={blow(m,1),blow(m,2),…,blow(m,j),…,blow(m,Jm)} あらかじめ用意された重み付け係数をW(m) W(m)={w(m,1),w(m,2),…w(m,j),…w(m,Jm)} とする。w(m,j)は単語mの標準パターンの第jフレ
ームが母音らしい場合には1に近い値を、そうでない場
合には0に近い値を取るように定められているものとす
る。
次に入力パターンのiフレームと単語mの標準パター
ンのjフレームとの全帯域距離dall(m,i,j)、低域特
徴ベクトル間距離dlow(m,i,j)を求める。dall(m,i,
j)、dlow(m,i,j)としては、例えば(1)式に示すユ
ークリッド距離を利用して求めることができる。
フレーム間距離d(m,i,j)はw(m,j)によりd
all(m,i,j)、dlow(m,i,j)に重み付けを行って求め
られる。例えば、 d(m,i,j)=(1−w(m,j))×dall(m,i,j)+w(m,j)×dlow(m,i,j) (3) の様に求められる。
このように求められるフレーム間距離を用いて、例え
ば文献1に示されているようなDPマッチングを行うこと
により入力音声を認識する。認識方法としてはこのDPマ
ッチング以外にも、ベクトル間距離に基づく認識方法と
して、線形マッチング等を用いることもできる。
上記の音声認識装置において、重み係数W(m,j)を
記憶しておく代わりに入力音声から重み係数を求めるこ
とができる。入力音声から重み係数を求める方式は、認
識時の処理量は増加するが、入力音声の母音の無声化や
消失に対処できる利点がある。
はじめに入力音声から音声の母音らしさを表す母音性
特徴量α α={α(1),α(2),…,α(i),…,α(I)} を求める。母音性特徴量αを求める方法としては、例え
ば第1の方法として、α(i)=第iフレームの第1ホ
ルマントを含む帯域エネルギー (4) の様に求められる。第2の方法としては、第iフレーム
の全帯域エネルギーEall(i)と低域エネルギーE
low(i)との比、 の様に求められる。
あるいは第3の方法として、ピッチ抽出を行い、 の様に求められる。ピッチ抽出に関しては、例えば文献
2に示されるような自己相関方法を用いることができ
る。
このようにして求められた母音性特徴量から重み係数
W W={w(1),w(2),…,w(i),…w(I)} を計算する。w(i)としては例えば の様に計算される。ここでαmaxはα(i)の最大値、t
hは別に定められた閾値である。フレーム間距離d(m,
i,j)はw(i)によりdall(m,i,j)、dlow(m,i,j)
に重み付けを行って求める。例えば、 d(m,i,j)=(1-w(i)×dall(m,i,j)+w(i)×dlow(m,i,j) (8) の様な式により求められる。
また上記の音声認識装置において、入力音声のみから
重み係数を求める代わりに、入力音声の母音性特徴量と
標準パターンの母音性特徴量から重み係数を計算する方
法が考えられる。この方式は認識時の処理量と標準パタ
ーンの記憶量は増加するが、母音の無声化や消失に対処
できる上、入力パターンと標準パターンの両方の情報を
用いるので適した重み付けが可能になる。
入力音声から音声の母音らしさを表す母音性特徴量を
求める方法としては上記の(4)(5)(6)式に示し
た方法を用いることができる。
求められた入力音声の母音性特徴量α(i)とあらか
じめ用意された単語mの標準パターンの母音性特徴量β
(m)、 β(m)={β(m,1),β(m,2),…β(m,j),…β(m,Jm),} 1≦m≦M から重み係数W(m)、 W(m)={w(m,i,J)},1≦m≦M,1≦i≦I,1≦j≦Jm を計算する。W(m,i,j)としては例えば の様に計算される。ここでαmaxはα(i)の最大値、
βmax(m)はβ(m,j),1≦j≦Jmの最大値、thは別に
定められる閾値である。ベクトル間距離d(m,i,j)はd
all(m,i,j)、dlow(m,i,j)にW(m,i,j)により重み
付けを行って求める。例えば、 d(m,i,J)= (1−w(m,i,j)×dall(m,i,j)+w(m,i,j)×dlow(m,i,j)
(10) の様に求めることができる。
上に述べた方法において、ケプストラム分析のよう
に、特徴ベクトルを求める際に周波数分析を行う方法を
用いる場合には、全帯域特徴ベクトルを求めた時の周波
数分析結果を低域特徴ベクトルや母音性特徴量を求める
際に利用することができる。
(実施例) 本発明による実施例について図面をもとに説明する。
第4図に示すのは本発明の一実施例を示す構成図であ
る。
全帯域分析部402は端子401に入力された音声を信号線
421より受取り、全帯域の情報を用いてケプストラム係
数を求め、全帯域特徴ベクトル時系列Aallとする。
低域分析部403は入力音声を信号線422より受取り、2.
5kHz以下の情報を用いてケプストラム係数を求め、低域
特徴ベクトル時系列Alowとする。
全帯域標準パターン記憶部404にはM個の単語の全帯
域特徴ベクトルBall(m)、1≦m≦Mが蓄えられてい
る。
低域標準パターン記憶部406にはM個の単語の低域特
徴ベクトルBlow(m)、1≦m≦Mが蓄えられている。
係数記憶部408にはM個の単語の重み付け係数W
(m)、1≦m≦Mが蓄えられている。
全帯域距離計算部405は信号線423から入力音声の全帯
域特徴ベクトル時系列Aallを、信号線424から単語mの
全帯域特徴ベクトル時系列Ball(m)を受取り、全帯域
距離dall(m,i,j)を(1)式により計算する。
低域距離計算部407は信号線425から入力音声の低域特
徴ベクトル時系列Alowを、信号線426から単語mの低域
特徴ベクトル時系列Blow(m)を受取り、低域距離dlow
(m,i,j)を(1)式により計算する。
フレーム間距離計算部409は信号線427から全帯域距離
dall(m,i,j)を、信号線428から低域距離dlow(m,i,
j)を、信号線429から重み係数α(m)を受取り、入力
パターンのiフレームと標準パターンのjフレームとの
フレーム間距離d(m,i,j)を(3)式により計算す
る。
認識部410は信号線430からフレーム間距離d(m,i,
j)を受取り、DPマッチングを行い、認識結果を端子411
に出力する。DPマッチングによる認識方法については文
献1に述べられている。
また、第5図に示すのは本発明の別の実施例を示す構
成図である。
全帯域分析部502は端子501に入力された音声を信号線
521より受取り、全帯域の情報を用いてケプストラム係
数を求め、全帯域特徴ベクトル時系列Aallとする。
低域分析部503は入力音声を信号線522より受取り、2.
5kHz以下の情報を用いてケプストラム係数を求め、低域
特徴ベクトル時系列Alowとする。
全帯域標準パターン記憶部504にはM個の単語の全帯
域特徴ベクトルBall(m)、1≦m≦Mが蓄えられてい
る。
低域標準パターン記憶部506にはM個の単語の低域特
徴ベクトルBlow(m)、1≦m≦Mが蓄えられている。
係数計算部508は入力音声を信号線501より受取り、
(4)式により入力音声の母音性特徴量αを求め、αか
ら(7)式により重み付け係数Wを計算する。
全帯域距離計算部505は信号線523から入力音声の全帯
域特徴ベクトル時系列Aallを、信号線524から単語mの
全帯域特徴ベクトル時系列Ball(m)を受取り、全帯域
距離dall(m,i,j)を(1)式により計算する。
低域距離計算部507は信号線525から入力音声の低域特
徴ベクトル時系列Alowを、信号線526から単語mの低域
特徴ベクトル時系列Blow(m)を受取り、低域距離dlow
(m,i,j)を(1)式により計算する。
フレーム間距離計算部509は信号線527から全帯域距離
dall(m,i,j)を、信号線528から低域距離dlow(m,i,
j)を、信号線532から重み係数Wを受取り、入力パター
ンのiフレームと標準パターンのjフレームとのフレー
ム間距離d(m,i,j)を(8)式により計算する。
認識部510は信号線529からフレーム間距離d(m,i,
j)を受取り、DPマッチングを行い、認識結果を端子411
に出力する。DPマッチングによる認識方法については文
献1に述べられている。
また、第1図に示すのは本発明の別の実施例を示す構
成図である。
周波数分析部102は端子101に入力された音声を信号線
121より受け取り、FFT分析を行った後、対数を取ること
により対数スペクトルを求める。
全帯域分析部103は信号線122より全帯域の対数スペク
トルを受取り、ケプストラム係数を求め、全帯域特徴ベ
クトル時系列Aallとする。
低域分析部104は信号線123より2.5kHz以下の低域の対
数スペクトルを受取り、ケプストラム係数を求め、低域
特徴ベクトル時系列Alowとする。
母音性抽出部105は信号線124より第1ホルマントを含
むような200〜800Hzの帯域の対数スペクトルを受取り、
エネルギーを求め(4)式により母音性特徴量αを計算
する。
全帯域標準パターン記憶部106にはM個の単語の全帯
域特徴ベクトルBall(m)、1≦m≦Mが蓄えられてい
る。
低域標準パターン記憶部107にはM個の単語の低域特
徴ベクトルBlow(m)、1≦m≦Mが蓄えられている。
母音性特徴量記憶部108にはM個の単語の母音性特徴
量β(m)、1≦m≦Mが蓄えられている。
全帯域距離計算部109は信号線125から入力音声の全帯
域特徴ベクトル時系列Aallを、信号線126から単語mの
全帯域特徴ベクトル時系列Ball(m)を受取り、全帯域
距離dall(m,i,j)を(1)式により計算する。
低域距離計算部110は信号線127から入力音声の低域特
徴ベクトル時系列Alowを、信号線128から単語mの低域
特徴ベクトル時系列Blow(m)を受取り、低域距離dlow
(m,i,j)を(1)式により計算する。
係数計算部111は信号線129から入力音声の母音性特徴
量αを、信号線130から単語mの母音性特徴量β(m)
を受け取り、重み係数W(m)を(9)式により計算す
る。
フレーム間距離計算部112は信号線131から全帯域類似
度dall(m,i,j)を,信号線132から低域距離dlow(m,i,
j)を、信号線133から重み係数W(m)を受取り、入力
パターンのiフレームと標準パターンのjフレームとの
フレーム間距離d(m,i,j)を(10)式により計算す
る。
認識部113は信号線134からフレーム間距離d(m,i,
j)を受取り、DPマッチングを行い、認識結果を端子114
に出力する。DPマッチングによる認識方法については文
献1に述べられている。
(発明の効果) 以上のように本発明によれば、高雑音下で発声した音
声を高精度に認識することのできる音声認識装置を実現
できる。
【図面の簡単な説明】
第1図、第4図、第5図は本発明の一実施例である。第
2図、第3図は従来法の説明図である。図において、10
1は入力端子、102は周波数分析部、103は全帯域分析
部、104は低域分析部、105は母音性抽出部、106は全帯
域標準パターン記憶部、107は低域標準パターン記憶
部、108は母音性特徴量記憶部、109は全帯域距離計算
部、110は低域距離計算部、111は係数計算部、112はフ
レーム間距離計算部、113は認識部、114は出力端子、20
1は入力端子、202は分析部、203は記憶部、204は距離計
算部、205はマッチング部、206は決定部、207は出力端
子、401は入力端子、402は全帯域分析部、403は低域分
析部、404は全帯域標準パターン記憶部、405は全帯域距
離計算部、406は低域標準パターン記憶部、407は低域距
離計算部、408は係数記憶部、409はフレーム間距離計算
部、410は認識部、411は出力端子、501は入力端子、502
は全帯域分析部、503は低域分析部、504は全帯域標準パ
ターン記憶部、505は全帯域距離計算部、506は低域標準
パターン記憶部、507は低域距離計算部、508は係数計算
部、509はフレーム間距離計算部、510は認識部、511は
出力端子、である。

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された音声の全帯域の情報を表す全帯
    域特徴ベクトルを求める全帯域分析部と、入力された音
    声の低域の情報を表す低域特徴ベクトルを求める低域分
    析部と、あらかじめ用意された標準パターンの全帯域特
    徴ベクトルを記憶する全帯域標準パターン記憶部と、あ
    らかじめ用意された標準パターンの低域特徴ベクトルを
    記憶する低域標準パターン記憶部と、前記標準パターン
    に対応させてあらかじめ用意された重み係数を記憶する
    係数記憶部と、前記入力音声の全帯域特徴ベクトルと前
    記標準パターンの全帯域特徴ベクトルとの間の全帯域距
    離を求める全帯域距離計算部と、前記入力音声の低域特
    徴ベクトルと前記標準パターンの低域特徴ベクトルとの
    間の低域距離を求める低域距離計算部と、前記全帯域距
    離と前記低域距離に、前記重み係数により重み付けを行
    って入力パターンと標準パターンのフレーム間距離を求
    める距離計算部と、前記フレーム間距離を用いて入力さ
    れた音声の認識を行う認識部と、から構成されることを
    特徴とする音声認識装置。
  2. 【請求項2】請求項1記載の音声認識装置において、前
    記係数記憶部に変えて、入力音声から前記重み係数を計
    算する係数計算部を備えたことを特徴とする音声認識装
    置。
  3. 【請求項3】請求項1記載の音声認識装置において、前
    記係数記憶部に変えて、入力音声から母音らしさを表す
    母音性特徴量を求める母音性抽出部と、あらかじめ用意
    された標準パターンの母音性特徴量を記憶する母音性特
    徴量記憶部と、前記入力音声の母音性特徴量と前記標準
    パターンの母音性特徴量から前記重み係数を計算する係
    数計算部と、を備えたことを特徴とする音声認識装置。
JP63127825A 1988-05-24 1988-05-24 音声認識装置 Expired - Lifetime JP2745535B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP63127825A JP2745535B2 (ja) 1988-05-24 1988-05-24 音声認識装置
US07/356,049 US4937871A (en) 1988-05-24 1989-05-24 Speech recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63127825A JP2745535B2 (ja) 1988-05-24 1988-05-24 音声認識装置

Publications (2)

Publication Number Publication Date
JPH01296299A JPH01296299A (ja) 1989-11-29
JP2745535B2 true JP2745535B2 (ja) 1998-04-28

Family

ID=14969602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63127825A Expired - Lifetime JP2745535B2 (ja) 1988-05-24 1988-05-24 音声認識装置

Country Status (2)

Country Link
US (1) US4937871A (ja)
JP (1) JP2745535B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2019628B3 (es) * 1986-02-15 1991-07-01 Smiths Ind Public Ltd Company Procesador de textos hablados y metodo..
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置
US5745873A (en) * 1992-05-01 1998-04-28 Massachusetts Institute Of Technology Speech recognition using final decision based on tentative decisions
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5832440A (en) * 1996-06-10 1998-11-03 Dace Technology Trolling motor with remote-control system having both voice--command and manual modes
US5825898A (en) * 1996-06-27 1998-10-20 Lamar Signal Processing Ltd. System and method for adaptive interference cancelling
US6178248B1 (en) 1997-04-14 2001-01-23 Andrea Electronics Corporation Dual-processing interference cancelling system and method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6363345B1 (en) 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
SE521465C2 (sv) * 1999-06-07 2003-11-04 Ericsson Telefon Ab L M Mobiltelefon med taligenkänningssystem innehållande en beräkningsenhet för spektralavstånd.
US6594367B1 (en) 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
JP2006337667A (ja) * 2005-06-01 2006-12-14 Ntt Communications Kk 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
GB2552723A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552722A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS5972496A (ja) * 1982-10-19 1984-04-24 株式会社東芝 単音識別装置
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch

Also Published As

Publication number Publication date
JPH01296299A (ja) 1989-11-29
US4937871A (en) 1990-06-26

Similar Documents

Publication Publication Date Title
JP2745535B2 (ja) 音声認識装置
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
EP0625774B1 (en) A method and an apparatus for speech detection
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US5459815A (en) Speech recognition method using time-frequency masking mechanism
CA2020242C (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
Hunt Spectral signal processing for ASR
JP2000507714A (ja) 言語処理
Seman et al. An evaluation of endpoint detection measures for malay speech recognition of an isolated words
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
JP2797861B2 (ja) 音声検出方法および音声検出装置
Dumpala et al. Robust Vowel Landmark Detection Using Epoch-Based Features.
JPH0449952B2 (ja)
Ouzounov Cepstral features and text-dependent speaker identification–A comparative study
Deng et al. Speech Recognition
JP2879989B2 (ja) 音声認識方法
Jing et al. Auditory-modeling inspired methods of feature extraction for robust automatic speech recognition
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
Seyedin et al. A new subband-weighted MVDR-based front-end for robust speech recognition
WO1991011696A1 (en) Method and apparatus for recognizing command words in noisy environments
JPH07271392A (ja) 話者認識用類似度正規化方法及びこの方法を用いた話者認識装置
De Mori et al. Augmenting standard speech recognition features with energy gravity centres
JP2658426B2 (ja) 音声認識方法
Mut et al. Improved Weighted Matching for Speaker Recognition.
JPH09160585A (ja) 音声認識装置および音声認識方法