JPH10307596A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH10307596A
JPH10307596A JP9117831A JP11783197A JPH10307596A JP H10307596 A JPH10307596 A JP H10307596A JP 9117831 A JP9117831 A JP 9117831A JP 11783197 A JP11783197 A JP 11783197A JP H10307596 A JPH10307596 A JP H10307596A
Authority
JP
Japan
Prior art keywords
feature vector
time series
standard pattern
average
subword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9117831A
Other languages
English (en)
Inventor
Takeo Oono
剛男 大野
Hiroyasu Kuwano
裕康 桑野
Masakatsu Hoshimi
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9117831A priority Critical patent/JPH10307596A/ja
Publication of JPH10307596A publication Critical patent/JPH10307596A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力音声と標準パタンとの間の伝送系のスペ
クトル歪みに関する環境条件を素早く適合させ、応答性
を損なうことなく高い認識性能を得ることを目的とす
る。 【解決手段】 入力音声は特徴ベクトル時系列に変換す
る音響分析部101と、標準パタン格納部103に格納
された標準パタン特徴ベクトル時系列とを予備マッチン
グする予備マッチング部102と、平均ベクトル算出部
105で算出された平均入力音声特徴ベクトルと、予備
マッチングの結果得られた認識候補に基づき、平均標準
パタン特徴ベクトル格納部104からの認識候補に対応
した平均標準パタン特徴ベクトルとから、平均入力音声
特徴ベクトルと平均標準パタン特徴ベクトルの差に基づ
き、入力音声特徴ベクトル時系列を補正する補正部10
6と、マッチング部107にて再度マッチングを行い最
終的な認識結果として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、適応化機能を有す
る音声認識装置に関する。
【0002】
【従来の技術】音声認識装置は、標準パタン音声の発声
環境と異なる環境において使用した場合、その認識性能
が低下することが知られている。こうした環境のうち、
認識性能を著しく低下させる要因の一つとして、音声入
力に用いるマイクロフォンの周波数特性、音声信号が伝
達される電話回線、音声認識装置内の伝達系の回線歪
み、および認識装置が置かれた周囲の壁面による音響的
反射などスペクトル上で乗法的に作用するスペクトル歪
みがある。
【0003】標準パタン音声の発声環境と音声認識装置
が使用される環境とが異なる場合の対処方法としては、
音声認識装置が使用される環境が既知の場合には、音声
認識装置が使用される環境と同一の回線特性を標準パタ
ン作成用音声に付加し、標準パタンを作成する方法がと
られる。また、音声認識装置が使用される環境が未知、
あるいは環境が時間変化し特定できない場合には、認識
時の入力音声を用いて、認識装置の置かれた環境と標準
パタン音声が発声された環境の違いを学習し、入力音声
あるいは標準パタンを適応する方法がとられる。
【0004】従来、認識時の入力音声を用いて、認識装
置の使用環境と標準パタン音声が発声された環境の違い
を学習し、入力音声あるいは標準パタンを適応すること
で、スペクトル歪みによる認識性能の低下を防ぐ手法と
しては、特開平07−0191689号公報が知られて
いる。こうした認識時の入力音声を用いてスペクトル歪
みに対処する従来法の一例の構成を、図3に示す。
【0005】従来法において入力音声は、音響分析部3
01において特徴ベクトルの時系列、入力音声特徴ベク
トル時系列に変換され、予備マッチング部302に送ら
れる。標準パタン格納部303に格納された標準パタン
特徴ベクトル時系列と入力音声特徴ベクトル時系列とを
予備マッチング部302にて、例えばDPマッチング、
HMM(Hidden Markov Model)などの時間軸を正規化
して類似度を計算する手法を用いてマッチングし、入力
音声が標準パタン中のどのパタンに類似しているか示す
1つあるいは複数の候補からなる認識候補結果と入力音
声特徴ベクトル時系列と標準パタン特徴ベクトル時系列
の時間軸対応付け結果を得る。
【0006】平均ベクトル算出部305において、予備
マッチング部302における時間軸対応付け結果から入
力音声特徴ベクトル時系列を時間平均し、平均入力音声
特徴ベクトルを算出する。さらに、平均ベクトル算出部
305において、予備マッチング部302における認識
候補結果から入力音声に類似した標準パタンの標準パタ
ン特徴ベクトル時系列を時間平均することにより、平均
標準パタン特徴ベクトルを算出する。補正部306にお
いて、平均入力音声特徴ベクトルと平均標準パタン特徴
ベクトルの差を用いて、入力音声特徴ベクトル時系列を
補正し、マッチング部307において再度マッチングを
行うことにより最終的な認識結果を得るものである。
【0007】
【発明が解決しようとする課題】しかしながら、平均ベ
クトル算出部において、入力音声特徴ベクトル時系列、
ならびに標準パタン特徴ベクトル時系列を時間平均する
ことにより、平均入力音声ベクトルと平均標準パタンベ
クトルを算出し、これら平均ベクトルの差から発声環境
の違いを補正する従来の方法では、標準パタン特徴ベク
トル時系列に関する時間平均を行う必要があり、予備マ
ッチング部において選び出される認識候補数が多くなる
と標準パタン特徴ベクトル時系列の時間平均計算に時間
がかかってしまうという問題点があった。
【0008】また、音声認識装置が認識対象の言語単位
の特徴ベクトル時系列そのものを標準パタンとして記憶
するのではなく、認識対象言語単位よりも小さな言語単
位であるサブワードパタンを記憶し、このサブワードパ
タンの接続によって標準パタンを構成する場合、サブワ
ードパタンの接続により一度認識対象言語単位の標準パ
タンを作成した後に平均標準パタン特徴ベクトルを求
め、改めて時間平均を行う必要がある。この場合、認識
対象言語単位の標準パタンを構成するサブワードパタン
数が多くなると、平均標準パタン特徴ベクトルを計算す
るための時間がかかってしまうという問題点があった。
【0009】本発明は、上述の問題を解決するものであ
り、予備マッチング部において選択される認識候補数が
多い場合にも、あるいは標準パタン格納部に認識対象言
語単位よりも小さな言語単位であるサブワードパタンが
格納されている場合においても、少ない計算量でスペク
トル歪みに関する環境の補正を可能とし、応答性を損な
うことのない高性能な音声認識装置を提供することを目
的とする。
【0010】
【課題を解決するための手段】この課題を解決するため
の本発明は、第1に、入力音声の特徴ベクトルの時系列
である入力音声特徴ベクトル時系列を算出する音響分析
部と、標準パタン特徴ベクトル時系列を格納する標準パ
タン格納部と、標準パタンを構成する特徴ベクトルを、
各カテゴリーごとにあらかじめ時間平均することによっ
て得られる平均標準パタン特徴ベクトルを格納する平均
標準パタン特徴ベクトル格納部と、入力音声特徴ベクト
ル時系列と前記標準パタン特徴ベクトル時系列との時間
軸対応付けを行い、1つあるいは複数の認識候補と、時
間軸対応付け結果を出力する予備マッチング部と、前記
時間軸対応付け結果をもとに、入力音声特徴ベクトル時
系列を時間平均して平均入力音声特徴ベクトルを算出す
る平均ベクトル算出部と、前記予備マッチング部からの
認識候補結果にもとづき、前記平均入力音声特徴ベクト
ルと平均標準パタン特徴ベクトルの差を用いて入力音声
特徴ベクトル時系列に対して補正を行う補正部と、補正
部において補正された入力音声特徴ベクトル時系列と標
準パタン特徴ベクトル時系列との間で再度マッチングを
行い最終的な認識結果を出力するマッチング部とで構成
したものである。
【0011】本発明による第2は、入力音声の特徴ベク
トルの時系列である入力音声特徴ベクトル時系列を算出
する音響分析部と、サブワードパタン特徴ベクトル時系
列を格納するサブワードパタン格納部と、サブワードパ
タンを構成するサブワードパタン特徴ベクトル時系列を
各カテゴリーごとにあらかじめ時間累積することによっ
て得られる累積サブワードパタン特徴ベクトルと、各サ
ブワードの時間長であるサブワード時間長を格納する累
積サブワードパタン情報格納部と、入力音声特徴ベクト
ル時系列と、前記サブワードパタン特徴ベクトル時系列
の接続によって構成される標準パタン特徴ベクトル時系
列との時間軸対応付けを行い、1つあるいは複数の認識
候補と、時間軸対応付け結果を出力する予備マッチング
部と、前記時間軸対応付け結果をもとに入力音声特徴ベ
クトル時系列を時間平均して平均入力特徴ベクトルを算
出する平均ベクトル算出部と、前記予備マッチング部か
らの認識候補結果にもとづき前記平均入力音声特徴ベク
トルと、累積サブワードパタン特徴ベクトルとサブワー
ド時間長から算出された平均標準パタンベクトルとの差
を用いて、入力音声特徴ベクトル時系列に対して補正を
行う補正部と、補正部において補正された入力音声特徴
ベクトル時系列と標準パタン特徴ベクトル時系列との間
で再度マッチングを行い最終的な認識結果を出力するマ
ッチング部とで構成したものである。
【0012】
【発明の実施の形態】本発明の請求項1に記載の発明
は、認識時の入力音声を用いて、認識装置の置かれた環
境と、標準パタン音声が発声された環境の違いを適応す
る音声認識装置において、予備マッチング部において選
択される認識候補数が多い場合にも、平均標準パタン特
徴ベクトルをあらかじめ算出しておくことにより少ない
計算量でスペクトル歪みに関する環境の補正を可能にす
るという作用を有する。
【0013】本発明の請求項2に記載の発明は、認識時
の入力音声を用いて、認識装置の置かれた環境と、標準
パタン音声が発声された環境の違いを適応する音声認識
装置において、標準パタンが認識対象言語単位よりも小
さな言語単位であるサブワードパタンの接続によって構
成される場合、累積サブワードパタン特徴ベクトルとサ
ブワードパタン時間長をあらかじめ算出しておくことに
より少ない計算量でスペクトル歪みに関する環境の補正
を可能にするという作用を有する。
【0014】以下、図面を参照しながら本発明の実施例
について具体的に説明する。 (実施の形態1)図1は、本発明の実施の形態1におけ
る音声認識装置のブロック図である。図1において、1
01は入力音声の特徴ベクトルの時系列である入力音声
特徴ベクトル時系列を算出する音響分析部、102は入
力音声特徴ベクトル時系列と標準パタン特徴ベクトル時
系列との時間軸対応付けを行い、1つあるいは複数の認
識候補と時間軸対応付け結果を出力する予備マッチング
部、103は標準パタン特徴ベクトル時系列を格納する
標準パタン格納部、104は標準パタン特徴ベクトル時
系列を各カテゴリーごとにあらかじめ時間平均すること
によって得られる平均標準パタン特徴ベクトルを格納す
る平均標準パタン特徴ベクトル格納部、105は時間軸
対応付け結果をもとに、入力音声特徴ベクトル時系列を
時間平均して平均入力特徴ベクトルを算出する平均ベク
トル算出部、106は予備マッチング部からの認識候補
結果にもとづき、平均入力特徴ベクトルと平均標準パタ
ン特徴ベクトルとの差を用いて、入力音声特徴ベクトル
時系列に対して補正を行う補正部、107は補正部10
6において補正された入力音声特徴ベクトル時系列と標
準パタン特徴ベクトル時系列との間で再度マッチングを
行い最終的な認識結果を出力するマッチング部である。
【0015】以下に本発明の実施の形態1における音声
認識装置の動作について説明する。音響分析部101
は、スペクトル歪みを受けた入力音声を入力音声特徴ベ
クトル時系列(数1)に変換する。(tは離散的な時
刻)
【0016】
【数1】
【0017】ここで、認識対象としては、例えば単語な
どが考えられる。また、特徴ベクトルとしては、例えば
中川著「確立モデルによる音声認識」、電子情報通信学
会(1988年発行)にあげられている、LPCケプス
トラム係数、LPCメルケプストラム係数などが利用可
能である。
【0018】予備マッチング部102は、音響分析部1
01で得られた入力音声特徴ベクトル時系列(数1)を
標準パタン格納部103に格納されているj番目の標準
パタン特徴ベクトル時系列(数2)との間で時間軸正規
化マッチングを行い、その類似度を計算する。予備マッ
チング部102では、例えばDPマッチング、HMM
(Hidden Markov Model)などの時間軸を正規化して類
似度を計算する手法を用いてマッチングする。このマッ
チング操作を標準パタン格納部の全ての標準パタンに対
して行うことにより、入力音声が標準パタン中いずれに
類似したかを示す1つあるいは複数の候補からなる認識
候補結果と入力音声の中の音声区間つまり音声の始終端
を特定する時間軸対応付け結果が得られる。
【0019】
【数2】
【0020】平均ベクトル算出部105は、音響分析部
101で得られた入力音声特徴ベクトル時系列(数1)
を予備マッチング部102において特定された音声区間
情報とともにその時間平均ベクトル、平均入力音声特徴
ベクトル(数3)が(数4)により
【0021】
【数3】
【0022】
【数4】
【0023】
【数5】
【0024】計算される。ここで、(数5)は音声の始
端時間を表し、Nは入力音声の音声区間の長さを表す。
【0025】補正部106は、予備マッチング部102
で得られた認識候補結果にもとづき、平均標準パタンベ
クトル格納部104の認識候補に対応した平均標準パタ
ン特徴ベクトルと平均ベクトル算出部105からの平均
入力音声特徴ベクトル(数3)の差を用いて
【0026】
【数6】
【0027】
【数7】
【0028】と補正値(数7)を計算する。ここでΩ
は、予備マッチング部で選択された認識候補のうち、補
正値算出に用いる標準パタンの集合で、(数8)はこの
集合に含まれる標準パタンの個数である。
【0029】
【数8】
【0030】さらに、この補正値(数7)を用いて
【0031】
【数9】
【0032】により、補正後の入力音声特徴ベクトル時
系列(数10)が計算される。
【0033】
【数10】
【0034】マッチング部107は、補正部106から
の補正後の入力音声特徴ベクトル時系列と標準パタン特
徴ベクトル時系列との間で再度マッチングを行い、その
類似度を計算する。このマッチングの結果、最も類似度
が高いと選択された候補が最終的な認識結果として出力
される。
【0035】(実施の形態2)図2は、本発明の実施の
形態2の音声認識装置のブロック図である。図2におい
て、201は入力音声の特徴ベクトルの時系列である入
力音声特徴ベクトル時系列を算出する音響分析部、20
2は入力音声特徴ベクトル時系列とサブワードパタン特
徴ベクトル時系列の接続によって構成される標準パタン
特徴ベクトル時系列との時間軸対応付けを行い、1つあ
るいは複数の認識候補と時間軸対応付け結果を出力する
予備マッチング部、203はサブワードパタン特徴ベク
トル時系列を格納するサブワードパタン格納部、204
サブワードパタンを構成するサブワードパタン特徴ベク
トル時系列を各カテゴリーごとに時間累積することによ
って得られる累積サブワードパタン特徴ベクトルと、各
サブワードの時間長であるサブワード時間長を格納する
累積サブワードパタン情報格納部、205は時間軸対応
付け結果をもとに、前記入力音声特徴ベクトル時系列を
時間平均して平均入力音声特徴ベクトルを算出する平均
ベクトル算出部、206は平均入力音声特徴ベクトルと
累積サブワードパタン特徴ベクトルとサブワード時間長
から算出される平均標準パタン特徴ベクトルとの差を用
いて、入力音声特徴ベクトル時系列に対して補正を行う
補正部、207は補正部206において補正された入力
音声特徴ベクトル時系列と標準パタン特徴ベクトル時系
列との間で再度マッチングを行い最終的な認識結果を出
力するマッチング部、208は単語辞書情報を格納する
単語辞書格納部である。
【0036】以下に本発明の実施の形態2における音声
認識装置の動作について説明する。音響分析部201
は、スペクトル歪みを受けた入力音声を入力音声特徴ベ
クトル時系列(数1)に変換する。(tは離散的な時
刻) ここで、認識対象としては、例えば単語などが考えられ
る。特徴ベクトルとしては、LPCケプストラム係数、
LPCメルケプストラム係数などが考えられる。
【0037】サブワードパタン格納部203には、標準
パタン特徴ベクトル時系列の構成に必要な、より言語的
に小さな言語単位であるサブワードの標準的的なパター
ンであるサブワードパターンが格納されている。ここ
で、単語を構成するサブワードパタンとしては、例え
ば、音素/a/、/i/、/u/、/e/、/o/、/k/などに対応した特徴
ベクトル時系列の標準パタンが考えられる。単語辞書格
納部208には、各単語がいずれのサブワードから構成
されるかを示す単語辞書情報が格納されている。例え
ば、認識対象単語”あさひ”に対応する標準パタン特徴
ベクトル時系列を構成するためには、/a//s//a//h///i/
に対応するサブワードパタンを接続すればよいという情
報が記憶されている。
【0038】予備マッチング部202は、単語辞書格納
部208に格納される単語辞書情報に基づきサブワード
パタン格納部203に格納されるサブワードを接続し、
j番目の標準パタン特徴ベクトル時系列(数2)を構成
し、標準パターン特徴ベクトル時系列と音響分析部20
1からの入力音声特徴ベクトル時系列(数1)との間で
時間軸正規化マッチングを行い、その類似度を計算す
る。このマッチング操作を単語辞書に対応した全ての標
準パタンに対して行うことにより、入力音声が標準パタ
ン中いずれに類似したかを示す認識候補結果と、入力音
声の中の音声区間つまり音声の始終端を特定する時間軸
対応付け結果が得られる。
【0039】平均ベクトル算出部205は、音響分析部
201で得られた入力音声特徴ベクトル時系列(数1)
を予備マッチング部202において特定された音声区間
情報とともにその時間平均ベクトル、平均入力音声特徴
ベクトル(数3)が(数4)により計算される。ここ
で、(数5)は音声の始端時間を表し、Nは入力音声の
音声区間の長さを表す。
【0040】補正部206には、単語辞書格納部208
に格納されている単語辞書情報と予備マッチング部20
2で得られた認識候補結果にもとづき累積サブワードパ
タン情報格納部204から認識候補を構成するサブワー
ドに対応した累積サブワードパタン特徴ベクトルとサブ
ワード時間長が入力され、認識候補に対応した平均標準
パタン特徴ベクトルが、
【0041】
【数11】
【0042】で計算される。ここで、
【0043】
【数12】
【0044】は、j番目の標準パタンを構成するサブワ
ードパタンの集合で、
【0045】
【数13】
【0046】はi番目のサブワードのサブワードパタン
特徴ベクトル時系列を時間累積した累積サブワードパタ
ン特徴ベクトル、
【0047】
【数14】
【0048】はi番目のサブワードのサブワード時間長
である。さらに、補正部206においては、平均入力音
声特徴ベクトルと平均標準パタン特徴ベクトルから(数
6)と補正値(数7)を計算する。ここでΩは、予備マ
ッチング部202で選択された認識候補のうち、補正値
算出に用いる標準パタンの集合で、(数8)はこの集合
に含まれる標準パタンの個数である。この補正値(数
7)を用いて、(数9)により、補正後の入力音声特徴
ベクトル時系列(数10)が計算される。
【0049】マッチング部207は、補正部206から
の補正後の入力音声特徴ベクトル時系列と標準パタン特
徴ベクトル時系列との間で再度マッチングを行い、その
類似度を計算する。このマッチングの結果、最も類似度
が高いと選択された候補が、最終的な認識結果として出
力される。
【0050】なお、本実施の形態においては、認識対象
言語単位を単語、サブワードを音素としたが、サブワー
ドを複数の音素にまたがった音声片とすることもでき
る。
【0051】また、認識対象を連続発声文章とし、サブ
ワードを単語とすることもでき、本発明は、さまざまな
認識対象の言語単位、ならびに、認識対象を構成すさま
ざま々なサブワード単位に対し利用可能である。
【0052】
【発明の効果】本発明によれば、認識時の入力音声を用
いて、認識装置の置かれた環境と、標準パタン音声が発
声された環境の違いを適応する音声認識装置において、
予備マッチング部において選択される認識候補数が多い
場合にも、あるいは、標準パタンが認識対象言語単位よ
りも小さな言語単位であるサブワードパタンの接続によ
って構成される場合においても、平均標準パタン特徴ベ
クトル、あるいは、累積サブワードパタン特徴ベクトル
とサブワードパタン時間長を、あらかじめ算出しておく
ことにより、少ない計算量でスペクトル歪みに関する環
境の補正を可能とし、高性能な音声認識装置を提供でき
るという効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1の音声認識装置のブロッ
ク図
【図2】本発明の実施の形態2の音声認識装置のブロッ
ク図
【図3】従来技術の音声認識装置のブロック図
【符号の説明】
101、201、301 音響分析部 102、202、302 予備マッチング部 103、203、303 標準パタン格納部 104 平均標準パタン特徴ベクトル格納部 204 累積サブワードパタン情報格納部 105、205、305 平均ベクトル算出部 106、206、306 補正部 107、207、307 マッチング部 208 単語辞書格納部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力音声の特徴ベクトルの時系列である
    入力音声特徴ベクトル時系列を算出する音響分析部と、
    標準パタン特徴ベクトル時系列を格納する標準パタン格
    納部と、前記標準パタン特徴ベクトル時系列を各カテゴ
    リーごとにあらかじめ時間平均することによって得られ
    る平均標準パタン特徴ベクトルを格納する平均標準パタ
    ン特徴ベクトル格納部と、前記入力音声特徴ベクトル時
    系列と前記標準パタン特徴ベクトル時系列との時間軸対
    応付けを行い、1つあるいは複数の認識候補と時間軸対
    応付け結果を出力する予備マッチング部と、前記時間軸
    対応付け結果をもとに、前記入力音声特徴ベクトル時系
    列を時間平均して平均入力特徴ベクトルを算出する平均
    ベクトル算出部と、前記予備マッチング部からの認識候
    補結果にもとづき、前記平均入力特徴ベクトルと平均標
    準パタン特徴ベクトルとの差を用いて、入力音声特徴ベ
    クトル時系列に対して補正を行う補正部と、前記補正部
    において補正された入力音声特徴ベクトル時系列と前記
    標準パタン特徴ベクトル時系列との間で再度マッチング
    を行い最終的な認識結果を出力するマッチング部とを備
    えた音声認識装置。
  2. 【請求項2】 入力音声の特徴ベクトルの時系列であ
    る、入力音声特徴ベクトル時系列を算出する音響分析部
    と、サブワードパタン特徴ベクトル時系列を格納するサ
    ブワードパタン格納部と、前記サブワードパタンを構成
    するサブワードパタン特徴ベクトル時系列を各カテゴリ
    ーごとに時間累積することによって得られる累積サブワ
    ードパタン特徴ベクトルと、各サブワードの時間長であ
    るサブワード時間長を格納する累積サブワードパタン情
    報格納部と、前記入力音声特徴ベクトル時系列と前記サ
    ブワードパタン特徴ベクトル時系列の接続によって構成
    される標準パタン特徴ベクトル時系列との時間軸対応付
    けを行い、1つあるいは複数の認識候補と時間軸対応付
    け結果を出力する予備マッチング部と、前記時間軸対応
    付け結果をもとに、前記入力音声特徴ベクトル時系列を
    時間平均して平均入力音声特徴ベクトルを算出する平均
    ベクトル算出部と、前記予備マッチング部からの認識候
    補結果にもとづき、前記平均入力音声特徴ベクトルと前
    記累積サブワードパタン特徴ベクトルとサブワード時間
    長から算出される平均標準パタン特徴ベクトルとの差を
    用いて、前記入力音声特徴ベクトル時系列に対して補正
    を行う補正部と、前記補正部において補正された入力音
    声特徴ベクトル時系列と標準パタン特徴ベクトル時系列
    との間で再度マッチングを行い最終的な認識結果を出力
    するマッチング部とを備えた音声認識装置。
  3. 【請求項3】 特徴ベクトルとして、LPCケプストラ
    ム係数あるいはLPCメルケプストラム係数であること
    を特徴とする請求項1または請求項2に記載の音声認識
    装置。
  4. 【請求項4】 サブワードとして音素であることを特徴
    とする請求項2に記載の音声認識装置。
JP9117831A 1997-05-08 1997-05-08 音声認識装置 Pending JPH10307596A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9117831A JPH10307596A (ja) 1997-05-08 1997-05-08 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9117831A JPH10307596A (ja) 1997-05-08 1997-05-08 音声認識装置

Publications (1)

Publication Number Publication Date
JPH10307596A true JPH10307596A (ja) 1998-11-17

Family

ID=14721339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9117831A Pending JPH10307596A (ja) 1997-05-08 1997-05-08 音声認識装置

Country Status (1)

Country Link
JP (1) JPH10307596A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
CN113782033A (zh) * 2021-09-26 2021-12-10 广东电网有限责任公司 一种声纹识别方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法
CN113782033A (zh) * 2021-09-26 2021-12-10 广东电网有限责任公司 一种声纹识别方法、装置、设备及存储介质
CN113782033B (zh) * 2021-09-26 2023-11-24 广东电网有限责任公司 一种声纹识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US5983177A (en) Method and apparatus for obtaining transcriptions from multiple training utterances
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
EP1357541A2 (en) Speaker adaptation for speech recognition
EP0866442A2 (en) Combining frequency warping and spectral shaping in HMM based speech recognition
JP2001517816A (ja) 連続および分離音声を認識するための音声認識システム
JPH0636156B2 (ja) 音声認識装置
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JPH075892A (ja) 音声認識方法
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
US5706397A (en) Speech recognition system with multi-level pruning for acoustic matching
JPH08202385A (ja) 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
JP2000099087A (ja) 言語音声モデルを適応させる方法及び音声認識システム
JP3535292B2 (ja) 音声認識システム
US20050192806A1 (en) Probability density function compensation method for hidden markov model and speech recognition method and apparatus using the same
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2003330484A (ja) 音声認識装置及び音声認識方法
JPH10307596A (ja) 音声認識装置
JP4391179B2 (ja) 話者認識システム及び方法
JP3868798B2 (ja) 音声認識装置
JP2976795B2 (ja) 話者適応化方式
JPH0786758B2 (ja) 音声認識装置
KR100560916B1 (ko) 인식 후 거리를 이용한 음성인식 방법
JP2002082691A (ja) 発声内に含まれる会社名の自動認識方法
JP2000039899A (ja) 音声認識装置