JP2006171750A - 音声認識のための特徴ベクトル抽出方法 - Google Patents

音声認識のための特徴ベクトル抽出方法 Download PDF

Info

Publication number
JP2006171750A
JP2006171750A JP2005358661A JP2005358661A JP2006171750A JP 2006171750 A JP2006171750 A JP 2006171750A JP 2005358661 A JP2005358661 A JP 2005358661A JP 2005358661 A JP2005358661 A JP 2005358661A JP 2006171750 A JP2006171750 A JP 2006171750A
Authority
JP
Japan
Prior art keywords
speech recognition
feature vector
voiced
extraction method
vector extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005358661A
Other languages
English (en)
Inventor
Chan-Woo Kim
燦佑 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2006171750A publication Critical patent/JP2006171750A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

【課題】音声の最も特徴的な情報の1つである有声音/無声音情報をさらにパラメータ化して、学習過程及び認識過程に用いることにより、音声認識率を向上し得る音声認識のための特徴ベクトル抽出方法を提供する。
【解決手段】音声認識のための特徴ベクトル抽出方法は、入力された音声信号から音声の全体的なスペクトルの形状に関連した特徴ベクトルを抽出する過程と、有声音/無声音の決定の結果をパラメータ化して特徴ベクトルを抽出する過程とを含む。
【選択図】図1

Description

本発明は、音声認識に関し、特に、認識率の高い音声認識のための特徴ベクトル抽出方法に関する。
一般に、音声認識方法は、隠れマルコフモデル(Hidden Markov Model;HMM)に基づく方式と、動的時間伸縮法(Dynamic Time Warping;DTW)に基づく方式とに大別される。
HMMに基づく音声認識方法は、音声データベースの学習(training)過程でHMMパラメータを得て、実際に音声が入力されると、マルコフプロセッサにより、最尤法(Maximum Likelihood method;ML法)に基づいて認識率の最も高いモデルを検索する方法であって、音声の把握に必要な特徴ベクトルを抽出し、該抽出された特徴ベクトルを用いて学習及び音声認識を行う。前記学習過程においては、HMMパラメータを求めるために、期待値−最大化アルゴリズム(Expectation-Maximization algorithm;E−Mアルゴリズム)、又はBaum−Welch再推定(Baum-Welch re-estimation)などのアルゴリズムが用いられ、前記音声認識過程においては、ビタビアルゴリズム(Viterbi algorithm)などが用いられる。
また、認識率をより高めるために、前処理過程として、ウィナーフィルタリング(Wiener Filtering)などを行うこともあり、後処理過程として、言語モデルを利用して文法を考慮する技法を用いることもある。
HMMに基づく音声認識方法は、連続音声認識(Continuous Speech Recognition;CSR)に適用することができ、大語彙認識に適し、高い認識率を有するため、最近、その使用範囲が広くなっている。
DTWに基づく音声認識方法は、基準パターンと与えられた入力パターンとを比較して相互間の類似性を判別する方法である。同じ単語を発声する場合にも話者、感情、周辺環境によって異なる持続時間を有するため、このような持続時間の不一致を非線形最適化する方法であって、部分最適化に基づいて全体最適化を行う特性を有する。
DTWに基づく音声認識方法は、認識対象語彙が少ない孤立単語の認識に主に用いられ、基準パターンを容易に作成することができるため、音声認識システムの業務内容を容易に変更し得るという利点がある。
しかしながら、従来のHMMに基づく音声認識方法及びDTWに基づく音声認識方法は、人間の発音の把握において音声の全体的なスペクトルの形状に関連した特徴ベクトルが重要であると判断して、音声の全体的なスペクトルの形状に関連した特徴ベクトルのみを抽出して用いるだけで、音声の最も特徴的な情報の1つである有声音/無声音(voiced/unvoiced)情報を全く活用していなかったため、認識率の向上に限界があるという問題があった。
本発明は、このような従来技術の問題を解決するためになされたもので、認識率の高い音声認識のための特徴ベクトル抽出方法を提供することを目的とする。
このような目的を達成するために、本発明に係る音声認識のための特徴ベクトル抽出方法は、入力された音声信号から音声の全体的なスペクトルの形状に関連した特徴ベクトルを抽出する過程と、有声音/無声音の決定の結果をパラメータ化して特徴ベクトルを抽出する過程と、を含むことを特徴とする。
その有声音/無声音の決定は、数式1から求めたr [0]とmaxr [n]との比(η=maxr [n]/r [0])を用いることを特徴とする。数式1において、kは1〜3のいずれか1つの整数であり、k=2のとき、自己相関関数を用いる。
Figure 2006171750
また、r [0]とmaxr [n]との比が閾値以上であると、該当音声区間が有声音であると判別し、r [0]とmaxr [n]との比が閾値未満であると、該当音声区間が無声音であると判別することを特徴とする。
本発明に係る音声認識のための特徴ベクトル抽出方法は、音声認識において、音声の最も特徴的な情報の1つである有声音/無声音情報をさらにパラメータ化して、学習過程及び認識過程に用いることにより、音声認識率を向上し得るという効果がある。
本発明は、有声音/無声音の決定の結果をパラメータ化して、既存の音声の全体的なスペクトルの形状に関連した特徴ベクトルと共に、学習過程のモデルパラメータとして用い、認識過程にも適用する。
全ての音声は、有声音又は無声音に区分されるが、このような有声音/無声音情報は、音声の生成時における声帯の振動有無によって決定される。即ち、音声の生成時に声帯が振動すると該当音声は有声音であり、音声の生成時に声帯が振動しないと該当音声は無声音である。例えば、全ての母音(vowel)、及び破裂音(plosive sound)中の[b]、[d]、[g]などは有声音であり、破裂音中の[k]、[p]、[t]、及び摩擦音(fricative sound)中の[f]、[th]、[s]、[sh]などは無声音である。そのうち[p]と[b]、及び[d]と[t]のような音声は、発音時の口形状が類似しているが、有声音か無声音かによって全く異なる単語となる。従って、有声音/無声音情報は、音を大きく2つのカテゴリに分ける重要な基準となる。
以下、添付した図面を参照して本発明の好ましい実施形態について説明する。
図1は本発明に係る音声認識のための特徴ベクトル抽出方法を示すフローチャートである。
図1に示すように、本発明に係る音声認識のための特徴ベクトル抽出方法は、まず、入力された音声信号から音声の全体的なスペクトルの形状に関連した特徴ベクトルを抽出する(S110)。音声の全体的なスペクトルの形状に関連した特徴ベクトルは、線形予測係数(Linear Prediction Coefficient;LPC)、線形予測ケプストラム係数(Linear Prediction Cepstral Coefficient;LPCC)、メル周波数ケプストラム係数(Mel-Frequency Cepstral Coefficient;MFCC)、知覚線形予測係数(Perceptual Linear Prediction Coefficient;PLPC)などである。
その後、有声音/無声音の決定に関連したパラメータを抽出し、該抽出したパラメータに、実験により求めた適切なゲイン値Gの加重値を適用することにより、有声音/無声音の決定に関連した特徴ベクトルを抽出する(S120)。この有声音/無声音の決定には様々な方法があるが、最も容易な方法は数式2を用いるものである。
Figure 2006171750
式中、Nは有声音/無声音の決定が行われるフレームの長さである。数式2は、k=1であると、既知の平均振幅差関数(Average Magnitude Difference Function;AMDF)となり、k=2であると、既知の自己相関関数を二乗した値と類似する。当該kの値は、1〜3のいずれか1つの整数を用いることができるが、実験によると、k=2の場合に最も高い性能を示し、また、k=1の場合は、累乗計算を必要としないという利点があるため、k=1、2の両方ともピッチ抽出(pitch extraction)に多く用いられる。本発明においては、kの値として1〜3のいずれか1つの整数を用いることができるが、一実施形態として、k=2の場合と類似した結果を示す自己相関関数を用いる場合を図2に基づいて説明する。自己相関関数は、数式3に示すとおりである。
Figure 2006171750
図2及び図3は有声音/無声音の波形を示すグラフであり、図2のA)及びB)は有声音の場合、図3のA)及びB)は無声音の場合で、各図B)はそれぞれ自己相関関数を示す。
図2のA)及びB)に示すように、有声音の場合は、波形の変化が大きくて類似した形状が繰り返されるが、図3のA)及びB)に示すように、無声音の場合は、波形の変化が大きくなくて形状に一貫性がない。また、ピッチが存在し得る範囲において、図2のB)の場合は、r [0]とmaxr [n]の値に差が少ないが、図3のB)の場合は差が大きい。
前記r [0]とmaxr [n]との比(η)はη=maxr [n]/r [0]のように表される。この式中、可能なピッチ範囲を50〜500Hzと仮定すると、8KHzサンプリングレートにおけるnの範囲は数式4の通りになる。
Figure 2006171750
η=maxr [n]/r [0]で数式4の範囲とすると、図2のB)の場合は、ηの値が0.75程度であり、図3のB)の場合は、ηの値が0.25程度である。
すなわち、ηの値が大きいと有声音の可能性が高くて、ηの値が小さいと無声音の可能性が高いことが分かる。従って、この提案に係るηの値をパラメータとして用いて、該ηの値が閾値以上であると該当音声を有声音と判別し、該ηの値が閾値未満であると無声音と判別することができる。
nの範囲は、サンプリングレートによって異なる。
有声音/無声音情報を以上のようなパラメータとして用いることなく、その結果だけ1ビットで表示することもできるが、有声音/無声音の決定の結果が正確でない場合、認識性能の低下をもたらし得るため、以上のようにパラメータとして用いることが好ましい。
その後、上記抽出された各特徴ベクトルを学習過程及び認識過程などに活用する(S130)。抽出された特徴ベクトルは、HMM又はDTWに基づく音声認識方法において認識率を高めるためにパラメータを追加して用いることができ、ニューラルネットワークによる音声認識方法にも適用することができる。
また、性能を向上させるために、選択的に、微分係数(differential coefficient)や加速度係数(acceleration coefficient)などの特徴ベクトルを追加することもできる。
本発明に係る音声認識のための特徴ベクトル抽出方法を示すフローチャートである。 有声音の波形例を示すグラフである。 無声音の波形例を示すグラフである。

Claims (17)

  1. 有声音/無声音の決定に関連したパラメータを用いて特徴ベクトルとして活用することを特徴とする音声認識のための特徴ベクトル抽出方法。
  2. 前記有声音/無声音の決定が、数式1から求めたr [0]とmaxr [n]との比(η=maxr [n]/r [0])を用いることを特徴とする請求項1に記載の音声認識のための特徴ベクトル抽出方法。
    Figure 2006171750
  3. 前記kが1、2、3のいずれか1つであることを特徴とする請求項2に記載の音声認識のための特徴ベクトル抽出方法。
  4. 前記r [0]とmaxr [n]との比(η)が閾値以上であると、該当音声が有声音と判別されることを特徴とする請求項2に記載の音声認識のための特徴ベクトル抽出方法。
  5. 前記r [0]とmaxr [n]との比(η)が閾値未満であると、該当音声が無声音と判別されることを特徴とする請求項2に記載の音声認識のための特徴ベクトル抽出方法。
  6. 音声認識が、隠れマルコフモデルに基づく音声認識であることを特徴とする請求項1に記載の音声認識のための特徴ベクトル抽出方法。
  7. 音声認識が、動的時間伸縮法に基づく音声認識であることを特徴とする請求項1に記載の音声認識のための特徴ベクトル抽出方法。
  8. 音声認識が、ニューラルネットワークに基づく音声認識であることを特徴とする請求項1に記載の音声認識のための特徴ベクトル抽出方法。
  9. 前記有声音/無声音の決定に関連したパラメータの代りに、有声音/無声音情報の結果だけ1ビットで表示して用いることを特徴とする請求項1に記載の音声認識のための特徴ベクトル抽出方法。
  10. 前記有声音/無声音の決定に関連したパラメータに微分係数及び加速度係数を追加して共に用いることを特徴とする請求項1に記載の音声認識のための特徴ベクトル抽出方法。
  11. 入力された音声信号から音声の全体的なスペクトルの形状に関連した特徴ベクトルを抽出する過程と、
    有声音/無声音の決定の結果をパラメータ化して特徴ベクトルを抽出する過程と、
    を含むことを特徴とする音声認識のための特徴ベクトル抽出方法。
  12. 前記有声音/無声音の決定が、自己相関関数の数式2から求めたr [0]と可能なピッチ範囲内でのmaxr [n]との比(η=maxr [n]/r [0])を用いることを特徴とする請求項11に記載の音声認識のための特徴ベクトル抽出方法。
    Figure 2006171750
  13. 前記r [0]と可能なピッチ範囲内でのmaxr [n]との比(η=maxr [n]/r [0])が閾値以上であると、該当音声が有声音と判別されることを特徴とする請求項12に記載の音声認識のための特徴ベクトル抽出方法。
  14. 前記r [0]と可能なピッチ範囲内でのmaxr [n]との比(η=maxr [n]/r [0])が閾値未満であると、該当音声が無声音と判別されることを特徴とする請求項12に記載の音声認識のための特徴ベクトル抽出方法。
  15. 隠れマルコフモデル、動的時間伸縮法、及びニューラルネットワークのいずれか1つの方法に基づく音声認識に適用されることを特徴とする請求項11に記載の音声認識のための特徴ベクトル抽出方法。
  16. 前記有声音/無声音の決定の結果をパラメータ化する代わりに、有声音/無声音情報の結果だけ1ビットで表示して用いることを特徴とする請求項11に記載の音声認識のための特徴ベクトル抽出方法。
  17. 前記有声音/無声音の決定に関連したパラメータに微分係数及び加速度係数を追加して共に用いることを特徴とする請求項11に記載の音声認識のための特徴ベクトル抽出方法。
JP2005358661A 2004-12-13 2005-12-13 音声認識のための特徴ベクトル抽出方法 Pending JP2006171750A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040105110A KR20060066483A (ko) 2004-12-13 2004-12-13 음성 인식을 위한 특징 벡터 추출 방법

Publications (1)

Publication Number Publication Date
JP2006171750A true JP2006171750A (ja) 2006-06-29

Family

ID=36228759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005358661A Pending JP2006171750A (ja) 2004-12-13 2005-12-13 音声認識のための特徴ベクトル抽出方法

Country Status (5)

Country Link
US (1) US20060129392A1 (ja)
EP (1) EP1675102A3 (ja)
JP (1) JP2006171750A (ja)
KR (1) KR20060066483A (ja)
CN (1) CN1819017A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101094763B1 (ko) 2010-01-29 2011-12-16 숭실대학교산학협력단 사용자 인증을 위한 특징벡터 추출장치 및 방법
KR101576148B1 (ko) 2008-03-26 2015-12-09 마이크로칩 테크놀로지 저머니 Ⅱ 게엠베하 운트 콤파니 카게 다차원 제스처 평가 시스템 및 방법

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
CN103258531B (zh) * 2013-05-29 2015-11-11 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
CN106792048B (zh) * 2016-12-20 2020-08-14 Tcl科技集团股份有限公司 一种识别智能电视用户语音命令的方法和装置
US10062378B1 (en) * 2017-02-24 2018-08-28 International Business Machines Corporation Sound identification utilizing periodic indications
CN108417204A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息安全处理方法
CN108388942A (zh) * 2018-02-27 2018-08-10 四川云淞源科技有限公司 基于大数据的信息智能处理方法
CN108417206A (zh) * 2018-02-27 2018-08-17 四川云淞源科技有限公司 基于大数据的信息高速处理方法
CN111798871B (zh) * 2020-09-08 2020-12-29 共道网络科技有限公司 会话环节识别方法、装置及设备、存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114468B2 (ja) * 1993-11-25 2000-12-04 松下電器産業株式会社 音声認識方法
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
WO1997037345A1 (en) * 1996-03-29 1997-10-09 British Telecommunications Public Limited Company Speech processing
JP3575967B2 (ja) * 1996-12-02 2004-10-13 沖電気工業株式会社 音声通信システムおよび音声通信方法
US6163765A (en) * 1998-03-30 2000-12-19 Motorola, Inc. Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
US8880402B2 (en) * 2006-10-28 2014-11-04 General Motors Llc Automatically adapting user guidance in automated speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101576148B1 (ko) 2008-03-26 2015-12-09 마이크로칩 테크놀로지 저머니 Ⅱ 게엠베하 운트 콤파니 카게 다차원 제스처 평가 시스템 및 방법
KR101094763B1 (ko) 2010-01-29 2011-12-16 숭실대학교산학협력단 사용자 인증을 위한 특징벡터 추출장치 및 방법

Also Published As

Publication number Publication date
EP1675102A3 (en) 2006-07-26
KR20060066483A (ko) 2006-06-16
CN1819017A (zh) 2006-08-16
EP1675102A2 (en) 2006-06-28
US20060129392A1 (en) 2006-06-15

Similar Documents

Publication Publication Date Title
JP2006171750A (ja) 音声認識のための特徴ベクトル抽出方法
Hansen et al. Speech under stress: Analysis, modeling and recognition
JP4274962B2 (ja) 音声認識システム
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
Masuko et al. Imposture using synthetic speech against speaker verification based on spectrum and pitch.
Shahnawazuddin et al. Effect of prosody modification on children's ASR
JPH10133693A (ja) 音声認識装置
Nanavare et al. Recognition of human emotions from speech processing
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Sultana et al. A survey on Bengali speech-to-text recognition techniques
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
Cahyaningtyas et al. HMM-based indonesian speech synthesis system with declarative and question sentences intonation
JP4576612B2 (ja) 音声認識方法および音声認識装置
Shafie et al. Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR
Bhardwaj et al. A Study of Methods Involved In Voice Emotion Recognition
Mengistu et al. Text independent Amharic language dialect recognition: A hybrid approach of VQ and GMM
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
Khalifa et al. Statistical modeling for speech recognition
JP2011180308A (ja) 音声認識装置及び記録媒体
Huckvale 14 An Introduction to Phonetic Technology

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091104