JP2000206984A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000206984A
JP2000206984A JP11011457A JP1145799A JP2000206984A JP 2000206984 A JP2000206984 A JP 2000206984A JP 11011457 A JP11011457 A JP 11011457A JP 1145799 A JP1145799 A JP 1145799A JP 2000206984 A JP2000206984 A JP 2000206984A
Authority
JP
Japan
Prior art keywords
feature
static
dynamic
feature amount
static feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11011457A
Other languages
English (en)
Inventor
Tomohiro Narita
知宏 成田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP11011457A priority Critical patent/JP2000206984A/ja
Publication of JP2000206984A publication Critical patent/JP2000206984A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 フレーム周期を長く取り演算量を減らしなが
ら、動的特徴量精度の劣化を防ぎ、認識率低下を防止す
る。 【解決手段】 フレームごとに入力音声を演算した静的
特徴量と、該フレームに隣接する2つのフレーム間に位
置する疑似フレームの静的特徴量を静的特徴量補間手段
により、補間して得た補間静的特徴量を用いて動的特徴
量を演算し、該動的特徴量と上記静的特徴量から特徴ベ
クトルを作成し、特徴ベクトルの時系列に対する認識結
果を照合手段で出力する

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、フレームにおける
音声データの特徴量を表す静的特徴量と、動的特徴量を
統合し、特徴ベクトルとして用いる音声認識装置に関す
るものである。
【0002】
【従来の技術】音声認識においては、フレームと呼ばれ
る所定長の音声データの特徴量を表す静的特徴量と、静
的特徴量の時間的変化成分を表す動的特徴量を統合した
特徴ベクトルを用いて行われる場合が多い。ここではそ
の一例として、北村正・片柳恵一共著、電子情報通信学
会論文誌(A)「2次元メルケプストラムの静的特徴、
動的特徴を用いる数字音声認識」(J-72A,4;pp.640-64
7,1989)に記載されている従来の音声認識装置の説明を
行う。図4は従来の音声認識装置の構成を示す図であ
る。
【0003】図において、101は入力音声データの特
徴量を演算する静的特徴量演算手段、103は静的特徴
量の時間変化成分を演算する動的特徴量演算手段、10
4は静的特徴量と動的特徴量から特徴ベクトルを作成す
る特徴ベクトル作成手段、105は特徴ベクトルの時系
列に対する標準パターンとの照合により認識結果を出力
する照合手段である。以下従来の音声認識装置の動作に
ついて説明する。
【0004】静的特徴量演算手段101では入力した音
声データに対しフレームと呼ばれる一定区間ごとの静的
特徴量を演算する。分析手段としては様々な方法が存在
するが、ここでは一例としてLPC分析を用いて説明を行
う。図5はLPCフロントエンド処理系のブロック図であ
る。以下この図を用いてLPC分析についての簡単な説明
を加える。
【0005】音声データs(n)(nは音声データのサンプ
ル番号)を取得しデジタルフィルタにより高域強調を加
える(ST1001)。この動作はプリエンファシスと
呼ばれ次式で表される。
【0006】
【0007】aはプリエンファシスの係数であり、通常
0.9〜1.0の値が用いられる。
【0008】次にプリエンファシスされた音声データs'
(n)をNサンプルからなるフレームと呼ばれる単位にブロ
ック化する(ST1002)。l番目の音声フレームをx
l(n)と表し、フレーム間のサンプル間隔がM、音声デー
タ全体でLフレームあるとすれば、次式のように書け
る。
【0009】
【0010】次にフレームごとの始めと終りの部分での
不連続性を最小にするために、フレーム内の音声データ
に窓によって傾きをかける(ST1003)。窓をとす
ると音声データに窓を掛けた結果は次式のようになる。
【0011】
【0012】また次式は音声認識装置で最も広く用いら
れているハミング窓である。
【0013】
【0014】次に窓掛けされたフレームごとに次式から
フレームlにおける自己相関係数rl(m)を計算する(ST
1004)。
【0015】
【0016】次にフレームl におけるLPC係数a1(l),a
2(l),…,ap(l)を求める(ST1005)。pはLPC分析
の次数である。LPC係数の導出法には様々なものが提案
されているが、自己相関係数からDurbin法により再帰的
に計算する方法が一般的に用いられている。
【0017】次にフレームl におけるLPCケプストラム
係数ci(l)(1≦i≦I)を、フレームlにおけるLPC係数から
次式に従い再帰的に求める(ST1006)。IはLPCケ
プストラム係数の次元数である。
【0018】
【0019】一般的な音声認識装置では人間の聴覚特性
に合わせるためにLPCケプストラムに非線形伸縮をかけ
たフレームlにおけるLPCメルケプストラムmci(1≦i≦I)
を求め、これをフレームlにおける静的特徴量として用
いている(ST1007)。
【0020】次に動的特徴量演算手段の説明を行う。動
的特徴量演算手段103は、静的特徴量演算手段101
が演算した静的特徴量であるLPCメルケプストラムの時
系列から動的特徴量を演算する。一般的に動的特徴量を
求める際には、分析するフレームから前後TD間内のフ
レームの静的特徴量を用いる。よって、フレーム間の時
間間隔であるフレーム周期をTとすると、動的特徴量演
算に用いる分析フレームの前後のフレーム数Dには、D
=TD/Tの関係がある。動的特徴量としてはΔケプス
トラム、2次元ケプストラムなどが一般的に用いられて
いるが、ここでは2次元ケプストラムを用いた方法を一
例として説明を行う。フレームlにおける2次元メルケ
プストラムmc'i(l)(1≦i≦I)は以下の式から計算す
る。
【0021】
【0022】特徴ベクトル作成手段104は静的特徴量
演算手段101が演算した静的特徴量及び、動的特徴量
演算手段103が演算した動的特徴量からフレームlに
おける特徴ベクトルを作成する。一般的な音声認識装置
ではI次のLPCメルケプストラムとそれに対応するI次のL
PCメルケプストラムの動的特徴量を統合してK=2I次の特
徴ベクトルを作成する。
【0023】照合手段105は特徴ベクトル作成手段が
出力した特徴ベクトルの時系列に対する標準パターンと
の照合により認識結果を出力する。
【0024】
【発明が解決しようとする課題】一般的な音声認識装置
における演算量は隣り合う2つのフレーム間の時間間隔
であるフレーム周期に依存する。フレーム周期が短いほ
ど、より詳細な照合をすることができるが、処理しなけ
ればならないフレーム数が増加するため、より多くの演
算量が要求される。
【0025】演算性能の小さなCPUを用いる場合、フレ
ーム周期を長く取り演算量を減らすことが必要である
が、音声の特徴ベクトルのうち、動的特徴量の精度が劣
化してしまうという問題があり認識率低下の原因になっ
ていた。これを図6及び図7を用いて説明する。動的特
徴量を求める際には分析フレームから前後一定時間内の
フレームの特徴量を用いるが、フレーム周期が長くなれ
ばなるほど動的特徴量導出のために用いるフレーム数が
少なくなる。図6では計7フレーム分の静的特徴量を演
算に用いることができるのに対して、図6に対してフレ
ーム周期を3倍にした図7ではたった3フレーム分の静
的特徴量しか演算に用いることしかできない。このた
め、フレーム周期を長くした場合の動的特徴量は、フレ
ーム周期が短い場合の動的特徴量に比べて精度が下がっ
てしまうという問題があった。
【0026】
【課題を解決するための手段】本発明は、入力された音
声を所定周期(フレーム)ごとに分析し静的特徴量を演
算する静的特徴量演算手段と、上記静的特徴量演算手段
が演算した隣接する2つのフレーム間に位置する疑似フ
レームの静的特徴量を補間して獲得する静的特徴量補間
手段と、上記静的特徴量演算手段が演算した静的特徴量
と、静的特徴量補間手段が補間した静的特徴量を用い動
的特徴量を演算する動的特徴量演算手段と、上記静的特
徴量演算手段が演算した静的特徴量と上記動的特徴量演
算手段が演算した動的特徴量から特徴ベクトルを作成す
る、特徴ベクトル作成手段と、上記特徴ベクトル作成手
段が出力した特徴ベクトルの時系列に対する標準パター
ンとの照合により認識結果を出力する照合手段とを備え
たものである。
【0027】
【発明の実施の形態】実施の形態1 本実施の形態1では従来例と同じく静的特徴量演算手段
としてLPC分析を用い、動的特徴量演算手段として2次
元ケプストラムを用い、静的特徴量補間手段として線形
補間を用いる方法を一例として説明を行う。図1は本発
明の実施の形態1を示したものである。図において、1
01は入力音声データの特徴量を演算する静的特徴量演
算手段、102は隣接する2つのフレーム間に位置する
疑似フレームの静的特徴量を補間して獲得する静的特徴
量補間手段、103は静的特徴量の時間変化成分を演算
する動的特徴量演算手段、104は静的特徴量と動的特
徴量から特徴ベクトルを作成する特徴ベクトル作成手
段、105は特徴ベクトルの時系列に対する標準パター
ンとの照合により認識結果を出力する照合手段である。
以下実施例の動作について説明する。
【0028】静的特徴量演算手段101では入力した音
声データに対しフレームlにおける静的特徴量であるI次
のLPCメルケプストラムmci(1≦i≦I)を演算する。分析
手段としてはLPC分析を用いる。この静的特徴量演算手
段101の動作は従来例の静的特徴量演算手段の動作と
同様のためここでは説明を省略する。
【0029】静的特徴量補間手段102では、静的特徴
量演算手段101が演算した隣接する2つのフレームl,
l+1に対するLPCメルケプストラムmci(l)(1≦i≦I)及びm
ci(l+1)(1≦i≦I)から、フレームlとl+1の間に位置する
Q個の疑似フレームl1,l2,…,lQのLPCメルケプストラム
を次式に従い補間する。
【0030】
【0031】図2はQ=2の場合にLPCメルケプストラムの
ある次元が上式に従って線形補間された例を示したもの
である。動的特徴量を前後Dフレームから演算する場
合、補間された疑似フレーム及び補間に用いられたフレ
ームに対して、図2に示すように分析フレームlがs0
なるようにラベル付けが行われる。図2はD=3の場合の
例であり、s-3,s-2,…,s3のラベルが付与されている。
【0032】動的特徴量演算手段103は、静的特徴量
演算手段103が演算したLPCメルケプストラム及び、
静的特徴量補間手段102が補間したLPCメルケプスト
ラムを用い次式に従ってフレームlにおけるLPCメルケプ
ストラムの動的特徴量mc'i(l)(1≦i≦I)を演算する。
【0033】
【0034】特徴ベクトル作成手段104は、静的特徴
量演算手段102が演算した静的特徴量及び、動的特徴
量演算手段103が演算した動的特徴量からフレームl
における特徴ベクトルを作成する。
【0035】照合手段105は特徴ベクトル作成手段が
出力した特徴ベクトルの時系列に対する標準パターンと
の照合により認識結果を出力する。
【0036】本発明では静的特徴量補間手段102が補
間したLPCメルケプストラムを用いることで動的特徴量
導出のために用いるフレーム数が増加し、単純にフレー
ム周期を長くした場合よりも精度の高い動的特徴量を求
めることができる。図3は図7と同じフレーム周期を用
いており、破線のフレームは静的特徴量を補間した疑似
フレームである。図3では図6と同じように計7フレー
ム分の静的特徴量を動的特徴量の演算に用いることがで
きる。
【0037】本実施例では静的特徴量演算手段101を
LPC分析として、特徴パラメータをLPCメルケプストラム
としているが、その他の分析方式、特徴パラメータを用
いた場合も本特許の範疇とみなす。
【0038】また本実施例では静的特徴量補間手段10
2を線形補間としているが、補間対象となる疑似フレー
ムの前後複数フレームからなる静的特徴量の時系列から
導かれる線形回帰されたN次元多項式で補間すること
や、静的特徴量の時系列をフーリエ変換して得られる系
列にゼロデータを加えて逆フーリエ変換することで補間
することもでき、本特許の範疇とみなす。
【0039】
【発明の効果】本発明では静的特徴量補間手段が補間し
た静的特徴量を用いることで、動的特徴量導出のために
用いるフレーム数が増加し、単純にフレーム周期を長く
した場合よりも精度の高い動的特徴量を求めることがで
きる。即ち、フレーム周期を長く取り演算量を減らしな
がら、動的特徴量精度の劣化を防ぎ、認識率低下を防止
する。
【図面の簡単な説明】
【図1】 本発明の実施の形態1を示すブロック図であ
る。
【図2】 実施の形態1の静的特徴量補間手段により線
形補間例の説明図である。
【図3】 実施の形態1による静的特徴量から動的特徴
量を演算するときの説明図である。
【図4】 従来の装置を示すブロック図である。
【図5】 従来の装置によるフロントエンド処理系のブ
ロック図である。
【図6】 静的特徴量から動的特徴量を演算するときの
説明図である。
【図7】 異なるフレーム周期による静的特徴量から動
的特徴量を演算するときの説明図である。
【符号の説明】
101:静的特徴量演算手段、102:静的特徴量補間
手段、103:動的特徴量演算手段、104:特徴ベク
トル作成手段、105:照合手段。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 フレームと呼ばれる所定長の音声データ
    の特徴量を表す静的特徴量と、この静的特徴量の時間的
    変化成分を表す動的特徴量とを統合して特徴ベクトルと
    して用いる音声認識装置において、 入力された音声を一定周期ごとに分析し静的特徴量を演
    算する静的特徴量演算手段と、 上記静的特徴量演算手段が演算した隣接する2つのフレ
    ーム間に位置する疑似フレームの静的特徴量を補間して
    獲得する静的特徴量補間手段と、 上記静的特徴量演算手段が演算した静的特徴量と、静的
    特徴量補間手段が補間した静的特徴量とを用い動的特徴
    量を演算する動的特徴量演算手段と、 上記静的特徴量演算手段が演算した静的特徴量と上記動
    的特徴量演算手段が演算した動的特徴量から特徴ベクト
    ルを作成する、特徴ベクトル作成手段と、 上記特徴ベクトル作成手段が出力した特徴ベクトルの時
    系列に対する標準パターンとの照合により認識結果を出
    力する照合手段とを備えたことを特徴とする音声認識装
    置。
JP11011457A 1999-01-20 1999-01-20 音声認識装置 Pending JP2000206984A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11011457A JP2000206984A (ja) 1999-01-20 1999-01-20 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11011457A JP2000206984A (ja) 1999-01-20 1999-01-20 音声認識装置

Publications (1)

Publication Number Publication Date
JP2000206984A true JP2000206984A (ja) 2000-07-28

Family

ID=11778636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11011457A Pending JP2000206984A (ja) 1999-01-20 1999-01-20 音声認識装置

Country Status (1)

Country Link
JP (1) JP2000206984A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930180B2 (en) 2005-01-17 2011-04-19 Nec Corporation Speech recognition system, method and program that generates a recognition result in parallel with a distance value
CN111938649A (zh) * 2019-05-16 2020-11-17 医疗财团法人徐元智先生医药基金会亚东纪念医院 利用神经网络从鼾声来预测睡眠呼吸中止的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930180B2 (en) 2005-01-17 2011-04-19 Nec Corporation Speech recognition system, method and program that generates a recognition result in parallel with a distance value
CN111938649A (zh) * 2019-05-16 2020-11-17 医疗财团法人徐元智先生医药基金会亚东纪念医院 利用神经网络从鼾声来预测睡眠呼吸中止的方法
JP2020185390A (ja) * 2019-05-16 2020-11-19 醫療財團法人徐元智先生醫藥基金會亞東紀念醫院 睡眠時無呼吸予測方法

Similar Documents

Publication Publication Date Title
US8977551B2 (en) Parametric speech synthesis method and system
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
EP0706171A1 (en) Speech recognition method and apparatus
US9113265B2 (en) Providing a confidence measure for speaker diarization
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
JP4602307B2 (ja) 時間長予測モデルをトレーニングする方法及び装置、時間長予測方法及び装置並びに音声合成方法及び装置
US6421641B1 (en) Methods and apparatus for fast adaptation of a band-quantized speech decoding system
US7505950B2 (en) Soft alignment based on a probability of time alignment
US11183180B2 (en) Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise
CN111862944A (zh) 语音识别装置、方法、电子设备和计算机可读存储介质
EP1693826A1 (en) Vocal tract resonance tracking using a nonlinear predictor and a target-guided temporal constraint
JP2000172295A (ja) 低複雑性スピ―チ認識器の区分ベ―スの類似性方法
JPH10105187A (ja) クラスタ構成をベースとする信号セグメント化方法
JPH08179795A (ja) 音声のピッチラグ符号化方法および装置
Wu et al. A novel two-level method for the computation of the LSP frequencies using a decimation-in-degree algorithm
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
JP2000206984A (ja) 音声認識装置
CN111613204B (zh) 一种快速响应的神经语音合成系统及其方法
JP3252802B2 (ja) 音声認識装置
US6590946B1 (en) Method and apparatus for time-warping a digitized waveform to have an approximately fixed period
Xu et al. A new approach to merging gaussian densities in large vocabulary continuous speech recognition
JP2715437B2 (ja) マルチパルス符号化装置
JP3112462B2 (ja) 音声符号化装置
Prasanna Kumar et al. A hybrid model for unsupervised single channel speech separation