JP3023135B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3023135B2
JP3023135B2 JP2072132A JP7213290A JP3023135B2 JP 3023135 B2 JP3023135 B2 JP 3023135B2 JP 2072132 A JP2072132 A JP 2072132A JP 7213290 A JP7213290 A JP 7213290A JP 3023135 B2 JP3023135 B2 JP 3023135B2
Authority
JP
Japan
Prior art keywords
speech
feature vector
voice
recognition
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2072132A
Other languages
English (en)
Other versions
JPH03273299A (ja
Inventor
博史 金澤
洋一 竹林
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2072132A priority Critical patent/JP3023135B2/ja
Publication of JPH03273299A publication Critical patent/JPH03273299A/ja
Application granted granted Critical
Publication of JP3023135B2 publication Critical patent/JP3023135B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) 本発明は、単語音声等に対する認識性能を効果的に高
めることのできる音声認識装置に関する。
(従来の技術) 従来より、単語や文節等を対象とした音声認識では、
その入力音声の終始端を求めるのに、入力された音声の
パワーに対して閾値を設ける等して入力音声のレベル変
動に対処している。
しかし乍ら、この手法は、入力音声の終始端を求める
ためになされるもので、認識辞書とのパターン照合に供
される音声特徴ベクトルに対してなされるものではなか
った。
一方、パターン照合において、認識辞書と音声特徴ベ
クトルとの類似度(または距離)を求める際に音声特徴
ベクトルに対して、前処理として正規化処理がなされる
のが一般的である。この例としてベクトルのノルムの大
きさをかえずに、平均値を0にするようベクトルの各要
素をシフトしたり(正準化)、ベクトルのノルムで各ベ
クトル要素を割算することにより、ベクトルの大きさを
1にする等の処理があげられる。しかし、これらの処理
は、得られる類似度値を例えば0.0から1.0までの範囲に
するために行なわれるもので、音声特徴ベクトルは、単
に線形変換が施されたにすぎない。実際には音声を入力
する場合、周辺の環境や個人差に伴う声の大小とA/D変
換器の有効ビット数との関係で入力音声に対して(非線
形の)打ち切りが生ずるため、入力音声のダイナミック
レンジに対する考慮が必要となる。
しかし、上記のパターン照合におけるレベル変動に対
する処理は、音声のダイナミックレンジについて考慮し
ておらず、このことが認識性能の劣化の原因となってい
た。
また、雑音の重畳した音声を認識する際の前処理法と
して、音声の始端が検出されるまでの背景雑音の周波数
スペクトルのうちの最小値を、入力音声の周波数スペク
トルの時系列より差し引き負の値となった場合は零とす
ることにより雑音を除去し、雑音の認識に及ぼす影響を
少なくする手法(ノイズサブトラクション法)が提案さ
れている。これは、雑音を除去するための非線形な処理
を導入しているが、上記の入力音声のレベル変動に対し
ては、何の対策も講じておらず、かつ上記のダイナミッ
クレンジの問題についても、考慮していないため、音声
のレベル変動に起因する認識性能の劣化は否めなかっ
た。
(発明が解決しようとする課題) このように従来の音声認識装置にあっては、音声の終
始端検出の際に音声のレベル変動に対処したり、あるい
は、パターン照合においては、類似度演算のために音声
特徴ベクトルに対して線形のパターン正規化を施した
り、音声のレベル変動及びダイナミックレンジを考慮し
ていないノイズトラクション法等により、音声特徴ベク
トルを求めているだけなので、実際の音声認識の場面で
は、音声のレベル変動の影響をうけて、認識性能が劣化
するという不具合があった。
本発明はこのような事情を考慮してなされたもので、
その目的とするところは、入力音声のレベル変動に対し
てロバストな音声認識装置を提供することにある。
〔発明の構成〕
(課題を解決するための手段) 本発明は、入力された音声データを周波数分析して音
声特徴パラメータを求める音声分析手段と、この音声特
徴パラメータから音声特徴ベクトルを抽出する音声特徴
ベクトル抽出手段と、抽出された音程特徴ベクトルと音
声認識辞書とを照合して認識結果を出力する認識手段と
を備えた音声認識装置において、音声特徴ベクトルの大
きさを示す情報に従って所定の音声のダイナミックレン
ジを確保するよう定められた打ち切りレベルを用いて音
声特徴ベクトルのレベル変動に対する正規化処理を行な
う音声特徴ベクトルレベル正規化手段を備え、前記認識
手段は正規化された音声特徴ベクトルと音声認識辞書と
を照合して認識結果を出力することを特徴とする。
また、こうして求められる音声特徴ベクトルを用いる
ことで、入力音声のレベル変動に対してロバストな認識
が可能となるようにしたことを特徴とするものである。
(作用) 本発明によれば、認識に供される音声特徴ベクトル
を、入力音声のレベルを基に求められた閾値で打ち切っ
た音声特徴パラメータの時系列から抽出することによ
り、入力音声のレベル変動を吸収した音声特徴ベクトル
を抽出することが可能となり、認識性能の向上を図るこ
とが可能となる。
(実施例) 以下、図面を参照して本発明の一実施例に係る音声認
識装置について説明する。
第1図は実施例装置の基本的な概略構成を示すブロッ
ク図である。
音声入力部1は、例えばマイクロフォン等を介して入
力される音声データの5.4KHz以上の高周波成分を除去す
るローパスフィルタ(LPF)と、このLPFを介した入力音
声を標本化周波数12KHz,量子化ビット数16ビットでディ
ジタル信号に変換するA/D変換器を備えて構成される。
上述した入力音声のディジタル化処理については例えば
8KHzの標本化周波数にて、量子化ビット数が12ビットの
ディジタル信号を求めるようにしても良く、その仕様は
入力音声に対して要求される認識性能に応じて定められ
る。
この音声入力部1にてディジタル信号変換されて取り
込まれた入力音声データは、音声分析部2に入力され、
例えば256点のDFT(離散的フーリエ変換)分析により、
8msec毎に、128点の周波数スペクトルが求められ、その
スペクトルのパワーを周波数方向に平滑化し、周波数方
向を8個または16個に分割した8チャンネルまたは16チ
ャンネルのフィルタバンク出力Zi(i=1,…,8またはi
=1,…,16)を求め、これらのフィルタバンク出力を対
数化することにより Gi=10log10Zi (i=1,…,8またはi=1,…,16) 8次元または16次元の音声特徴パラメータGiが求められ
る。
終始端検出部3では、例えば入力音声データのエネル
ギー変化等からその始端点と終端点が検出される。その
検出アルゴリズムは従来より種々提唱されている手法を
適宜採用可能であり、ここでは本発明の主旨とは直接的
な係わりがないことから、その具体的な説明については
省略する。
前記音声特徴パラメータの時系列と、終始端検出部に
おいて求められた終始端情報を入力する音声特徴ベクト
ル抽出部5は、終始端点間で示される音声区間の特徴パ
ラメータの時系列を時間方向に例えば12点にリサンプル
処理し、周波数方向16次元,時間方向12次元の計192次
元の音声特徴ベクトルを抽出する。
音声特徴ベクトルレベル正規化部6では、前記音声特
徴ベクトル抽出部5において抽出された音声特徴ベクト
ルのレベル変動に対する正規化処理を行なう。
第2図に音声特徴ベクトルのレベル正規化の一処理例
の手続きの流れを示す。
音声特徴ベクトルレベル正規化部6に入力された音声
特徴ベクトルSi(例えばi=1,…,192)は、まず、192
のベクトルの要素の中から最大値Smaxが検出される。こ
れは、音声特徴ベクトルのレベルを示す情報を求めるた
めの処理であり、上記のとおり本処理例では、音声特徴
ベクトルのレベルを示す情報としてベクトルの要素中の
最大値を用いている。
次に求められた最大値Smaxと、所定の音声のダイナミ
ックレンジDにより、音声特徴ベクトル対する打ち切り
レベルTを以下のとおり設定する。
T=Smax−D 前記打ち切りレベルTを用いて音声特徴ベクトル$
(=Si(i=1,…,192))に対して以下の処理を行う。
Si′=Si−T(i=1,…,192) ここでSi′が負の値となった場合は、Si′の値を0と
する。
こうして新たに求められた音声特徴ベクトル$′がパ
ターン照合部7へ送られる。上記の処理は、第3図に示
すように抽出された音声特徴ベクトルの最大値から定め
たダイナミックレンジを確保し、最大値からダイナミッ
クレンジ分をさしひいた値以下の部分を全ベクトル要素
から除去することで音声のレベルの正規化を計ってい
る。
この処理により、入力音声のレベル変動が低くおさえ
ることが可能となるとともに、ダイナミックレンジを考
慮することによりパターン照合の際に用いられる音声パ
ターン(音声特徴ベクトル)の音響的特徴を効果的に表
現できるので、大幅な認識性能の向上が可能となる。
また、上記音声特徴ベクトルのレベル正規化の際に、
レベルを示す情報として、音声特徴ベクトルの最大値を
用いたが、それに変って音声特徴ベクトルの平均エネル
ギーを用いることも可能である。
第4図に、音声特徴ベクトルのレベルを示す情報とし
て上記音声特徴ベクトルの平均エネルギーを用いた場合
の処理手続きの流れを示す。ここで音声特徴ベクトル$
は、例えば周波数軸方向成分Giが16次元のフィルタバン
ク出力Ziを以下のように対数化したパラメータで Gi=10log10Zi(i=1,…,16) であり、時間軸方向は12点にリサンプル処理された192
次元のベクトルであるとする。
まず、前記音声特徴ベクトル$の平均エネルギーを
求めるために、ベクトルの各要素のエネルギーEi(i=
1,…,192)を以下の式で求める。
これより平均エネルギーは以下のように求められる 次に、特徴ベクトルの平均エネルギーがあらかじめ定
め平均エネルギーとなるように打ち切りレベルTを
設定する。それで、前記音声特徴ベクトル$の平均エネ
ルギーとあらかじめ定めた平均エネルギーE0の差をと
り、その差を対数化して打ち切りレベルTとする。
の時 T=10log10(−) <の時 T=−10log10−) ここで、前記音声特徴ベクトルの平均エネルギーE
が、所定の平均エネルギーよりも小さい、すなわ
ち、音声のレベルが小さくて、所定のレベルに達してい
ない場合は、上式のように打ち切りレベルの負の値とす
ることで人工的にレベルの上昇を計る。(第5図参照) こうして求められた打ち切りレベルTを用いて音声特
徴ベクトル$のレベル正規化を以下のように行ない音声
特徴ベクトル$を求める。
Si′=Si−T(i=1,…,192) (但しSi′が負の場合には、Si′=0とする) また認識処理においてはあらかじめ終始端検出を行う
ことなしに音声の終始端非固定のまま、連続的に認識辞
書との間でパターン照合を行うようにすることも可能で
ある。
第6図に連続パターン照合を行う音声認識装置の概略
構成図を示す。
ここで終始端点設定部15では入力音声の特徴パラメー
タ系列から、その特徴パラメータを求めた各分析フレー
ムを仮に設定される音声の終端点とし、その終端点を基
準として或る音声継続時間条件を満たす複数の始端点を
仮定する。(第7図参照) 音声特徴ベクトル抽出部16は、上記の仮定された始終
端点間で示される仮の音声区間の特徴パラメータの時系
列を時間方向にリサンプル処理し、例えば周波数方向16
次元、時間方向12次元の192次元の音声特徴ベクトルを
抽出する。
このようにして終端点を基準として仮定された始端点
すべてについて音声特徴ベクトルを抽出し、後の処理に
供する。さらに、前記終端点は、時間軸方向にシフトさ
れ、それに伴い、前記音声特徴ベクトルが時間軸方向に
連続的に抽出される。
なお、この音声特徴ベクトルと認識辞書19との類似度
を求めるパターン照合部18と認識結果出力部14は従来よ
り種々提唱されている手法を適宜採用可能なものであ
り、ここでは本発明の主旨とは直接的な係わりがないこ
とから具体的な説明については省略する。
ちなみに、本発明者等の実験によれば次のような結果
が得られた。この実験は成人弾性87名、女性43名につい
て13都市名をそれぞれ1回発生した音声データを収集
し、その中の弾性67名、女性23名分を認識辞書の作成
(学習)に使用し、残りの評価用とした。
音声データについては、アナログ音声信号を標本化周
波数12KHzでサンプリングし、これをディジタル化した
後、フレーム周期8msec,フレーム長24msecでDFT分析
し、第6図に示す始終端非固定の連続パターン照合によ
り、〔16チャンネル×12フレーム:192次元〕の時間周波
数スペクトル音声特徴ベクトルとして、複合類似度を用
いて認識処理を行なった。
なお、前記音声データに駅構内で収集した雑音データ
を人工的に付加し、S/N(信号対雑音比)を変えて、実
験に使用した。学習用にはS/N∞20,15,10,5dBのすべて
の音声データを用い、評価用のS/Nをそれぞれ∞,20,15,
10,5dBとかえて認識率を調べた。
次に示す表がその認識率を示す実験結果である。
この実験結果に示されるように、音声のレベル正規化
を施し、複合類似度により音声認識処理を行う本装置に
よれば、その認識性能を高め得ることが確認された。
なお、本発明は上述した実施例に限定されるものでは
ない。例えば、音声特徴ベクトルの次元数を幾つに設定
するかについては、その仕様に応じて決定すれば良い。
また、実施例では、時間周波数スペクトルを音声特徴
ベクトルとして抽出しているが、時間軸方向を1フレー
ムとした周波数スペクトルを音声特徴ベクトルとしてあ
らわすことも可能である。
また、雑音の重畳した音声に対しては、前記ノイズサ
ブトラクション法により、雑音レベルを除いた後に、上
記音声レベル正規化処理を行うようにすることも可能で
ある。
更に分析手法についてもDFT分析により、音声特徴パ
ラメータの時系列を求めるものとして説明したが、バン
ドパスフィルタ出力を用いることも可能である。その他
本発明はその要旨を逸脱しない範囲で種々変形して実施
することができる。
〔発明の効果〕
以上説明したように本発明によれば、入力音声に対し
て所定のダイナミックレンジを確保して打ち切りを行う
ことにより得られた音声特徴ベクトルを認識処理に供す
るので、音声のレベル変動を低くおさえ、かつダイナミ
ックレンジを設定することで、音声の特徴を効果的に表
現し得る音声特徴ベクトルを抽出することが可能とな
り、認識性能の向上が可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例の概略構成図、第2図は音声
特徴ベクトルのレベル正規化の処理図、第3図は第2図
に示す処理を具体的に表わした模式図、第4図は音声特
徴ベクトルのエネルギーを用いたレベル正規化の処理
図、第5図は第4図に示す処理を具体的に表わした模式
図、第6図は本発明の他の実施例として連続パターン照
合を行なう場合の概略構成図、第7図は第6図に示す実
施例で始終端点設定の様子を示す図である。 1……音声入力部、2……音声分析部、3……始終端検
出部、4……認識処理部、5……音声特徴ベクトル抽出
部、6……音声特徴ベクトルレベル正規化部、7……パ
ターン照合部、8……認識辞書、9……認識結果出力
部。
フロントページの続き (56)参考文献 特開 平3−82079(JP,A) 特開 平3−198413(JP,A) 特開 昭61−170137(JP,A) 特公 平3−47773(JP,B2) 特公 昭63−20049(JP,B2) 実公 昭64−1803(JP,Y2) (58)調査した分野(Int.Cl.7,DB名) G10L 21/02 G10L 15/20 H03H 17/02

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された音声データを周波数分析して音
    声特徴パラメータを求める音声分析手段と、この音声特
    徴パラメータから音声特徴ベクトルを抽出する音声特徴
    ベクトル抽出手段と、抽出された音程特徴ベクトルと音
    声認識辞書とを照合して認識結果を出力する認識手段と
    を備えた音声認識装置において、音声特徴ベクトルの大
    きさを示す情報に従って所定の音声のダイナミックレン
    ジを確保するよう定められた打ち切りレベルを用いて音
    声特徴ベクトルのレベル変動に対する正規化処理を行な
    う音声特徴ベクトルレベル正規化手段を備え、前記認識
    手段は正規化された音声特徴ベクトルと音声認識辞書と
    を照合して認識結果を出力することを特徴とする音声認
    識装置。
  2. 【請求項2】前記音声分析手段は、所定時間毎に区切ら
    れた入力音声データを周波数スペクトル情報に変換する
    ことにより音声特徴パラメータを求めることを特徴とす
    る請求項1記載の音声認識装置。
  3. 【請求項3】前記音声特徴ベクトル抽出手段は、抽出さ
    れた音声特徴ベクトルの要素の最大値または平均エネル
    ギーから求められた打ち切りレベルを用いて音声特徴ベ
    クトルのレベル変動に対する正規化処理を行なうことを
    特徴とする請求項1記載の音声認識装置。
JP2072132A 1990-03-23 1990-03-23 音声認識装置 Expired - Fee Related JP3023135B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2072132A JP3023135B2 (ja) 1990-03-23 1990-03-23 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2072132A JP3023135B2 (ja) 1990-03-23 1990-03-23 音声認識装置

Publications (2)

Publication Number Publication Date
JPH03273299A JPH03273299A (ja) 1991-12-04
JP3023135B2 true JP3023135B2 (ja) 2000-03-21

Family

ID=13480465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2072132A Expired - Fee Related JP3023135B2 (ja) 1990-03-23 1990-03-23 音声認識装置

Country Status (1)

Country Link
JP (1) JP3023135B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5302092B2 (ja) * 2009-05-12 2013-10-02 株式会社レイトロン 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置
JP2012168477A (ja) * 2011-02-16 2012-09-06 Nikon Corp ノイズ推定装置、信号処理装置、撮像装置、及びプログラム

Also Published As

Publication number Publication date
JPH03273299A (ja) 1991-12-04

Similar Documents

Publication Publication Date Title
EP0219712B1 (en) Method of and system for speech recognition
CN106935248B (zh) 一种语音相似度检测方法及装置
JP4177755B2 (ja) 発話特徴抽出システム
KR100930060B1 (ko) 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN105989836B (zh) 一种语音采集方法、装置及终端设备
US4866777A (en) Apparatus for extracting features from a speech signal
CN112017658A (zh) 一种基于智能人机交互的操作控制系统
KR100930061B1 (ko) 신호 검출 방법 및 장치
US20060178881A1 (en) Method and apparatus for detecting voice region
EP0474496B1 (en) Speech recognition apparatus
JPS6366600A (ja) 話者の音声を前処理して次の処理のための正規化された信号を得る方法および装置
JP3023135B2 (ja) 音声認識装置
Goyal et al. Issues and challenges of voice recognition in pervasive environment
CN113948088A (zh) 基于波形模拟的语音识别方法及装置
JPS6229799B2 (ja)
KR100790110B1 (ko) 모폴로지 기반의 음성 신호 코덱 방법 및 장치
KR100381372B1 (ko) 음성특징 추출장치
JPS625298A (ja) 音声認識装置
JPH0556520B2 (ja)
JPH0646359B2 (ja) 単語音声認識装置
JPS62159195A (ja) 音声パタン作成方法
CN113611288A (zh) 一种音频特征提取方法、装置及系统
JP2668877B2 (ja) 音源正規化方法
JPS6334477B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees