JP2004139049A5 - - Google Patents

Download PDF

Info

Publication number
JP2004139049A5
JP2004139049A5 JP2003321374A JP2003321374A JP2004139049A5 JP 2004139049 A5 JP2004139049 A5 JP 2004139049A5 JP 2003321374 A JP2003321374 A JP 2003321374A JP 2003321374 A JP2003321374 A JP 2003321374A JP 2004139049 A5 JP2004139049 A5 JP 2004139049A5
Authority
JP
Japan
Prior art keywords
frequency conversion
frequency
frame
standard
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003321374A
Other languages
English (en)
Other versions
JP4449380B2 (ja
JP2004139049A (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2003321374A priority Critical patent/JP4449380B2/ja
Priority claimed from JP2003321374A external-priority patent/JP4449380B2/ja
Publication of JP2004139049A publication Critical patent/JP2004139049A/ja
Publication of JP2004139049A5 publication Critical patent/JP2004139049A5/ja
Application granted granted Critical
Publication of JP4449380B2 publication Critical patent/JP4449380B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Claims (8)

  1. フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、
    前記音響特徴量を記憶する特徴量記憶部と、
    複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、
    前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、
    前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、
    単語モデルを用いて音声認識する音声認識処理部と、を備え、
    前記周波数変換部は、前記周波数変換条件決定部によって決定された周波数変換条件を用いて前記特徴量記憶部に記憶された前記音響特徴量を周波数変換し、
    前記音声認識処理部は、前記周波数変換条件を用いて周波数変換された前記音響特徴量と前記単語モデルを用いて音声認識をする、音声認識装置。
  2. 前記周波数変換条件決定部は、前記算出された複数の類似度又は距離から標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数とをフレーム毎に選定し、当該選定された結果を用いて最尤となる標準音韻および当該標準音韻に対応する周波数変換係数の組み合わせを前記フレーム毎に選定し、前記周波数変換係数の出現頻度を複数フレームに渡って周波数変換係数毎に累積し、前記出現頻度の最も多い周波数変換係数を全フレームに渡る周波数変換係数とする、請求項1に記載の音声認識装置。
  3. 前記周波数変換条件決定部は、
    前記算出された複数の類似度又は距離から標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数とをフレーム毎に選定し、前記最も類似度の高い周波数変換係数の出現頻度を複数フレームに渡って標準音韻毎に累積し、前記出現頻度が最も多い周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数とし、
    かつ、フレーム毎にフレームを代表する代表標準音韻を決定し、
    前記周波数変換部は、
    前記決定された代表標準音韻を用いて前記全フレームに渡る標準音韻に対応する周波数変換係数をフレーム毎に選択し、当該選択された周波数変換を用いて前記音響特徴量をフレーム毎に周波数変換する、
    請求項1に記載の音声認識装置。
  4. 前記周波数変換条件決定部は、
    前記算出された複数の類似度又は距離から標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数とをフレーム毎に選定し、前記最も類似度の高い周波数変換係数の出現頻度を複数フレームに渡って標準音韻毎に累積し、前記出現頻度が最も多い周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数とし、
    かつ、前記算出された複数の類似度又は距離から標準音韻毎に重みを各フレームで算出し、
    前記周波数変換部は、
    前記全フレームに渡る標準音韻に対応する周波数変換係数と標準音韻毎の重みを用いて前記音響特徴量をフレーム毎に周波数変換する、
    請求項1に記載の音声認識装置。
  5. 前記標準音韻は母音である請求項1から4までのいずれか一つに記載の音声認識装置。
  6. 前記標準音韻は母音のみである請求項1から4までのいずれか一つに記載の音声認識装置。
  7. 前記入力音声を取り込むマイクロフォンと、前記入力音声が入力される請求項1から6までのいずれかに一つに記載の音声認識装置と、前記音声認識装置からの認識結果である操作対象装置に対して操作信号を発信する信号発生装置とを有する、音声リモコン装置。
  8. 特徴量抽出部が、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出ステップと、
    前記音響特徴量を特徴量記憶部に記憶する特徴量記憶ステップと、
    周波数変換が、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換ステップと、
    類似度乃至距離算出部が、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出ステップと、
    周波数変換条件決定部が、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定ステップと、
    音声認識処理部が単語モデルを用いて音声認識する音声認識処理ステップと、を含み、
    前記周波数変換ステップは、前記周波数変換条件決定ステップによって決定された周波数変換条件を用いて前記特徴量記憶部に記憶された前記音響特徴量を周波数変換し、
    前記音声認識処理ステップは、前記周波数変換条件を用いて周波数変換された前記音響特徴量と前記単語モデルを用いて音声認識をする、音声認識方法。
JP2003321374A 2002-09-24 2003-09-12 話者正規化方法及びそれを用いた音声認識装置 Expired - Fee Related JP4449380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003321374A JP4449380B2 (ja) 2002-09-24 2003-09-12 話者正規化方法及びそれを用いた音声認識装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002277022 2002-09-24
JP2003321374A JP4449380B2 (ja) 2002-09-24 2003-09-12 話者正規化方法及びそれを用いた音声認識装置

Publications (3)

Publication Number Publication Date
JP2004139049A JP2004139049A (ja) 2004-05-13
JP2004139049A5 true JP2004139049A5 (ja) 2006-08-17
JP4449380B2 JP4449380B2 (ja) 2010-04-14

Family

ID=32473041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003321374A Expired - Fee Related JP4449380B2 (ja) 2002-09-24 2003-09-12 話者正規化方法及びそれを用いた音声認識装置

Country Status (1)

Country Link
JP (1) JP4449380B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401844B2 (en) 2006-06-02 2013-03-19 Nec Corporation Gain control system, gain control method, and gain control program
JP2019040123A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 変換モデルの学習方法および変換モデルの学習装置
WO2019176986A1 (ja) * 2018-03-15 2019-09-19 日本電気株式会社 信号処理システム、信号処理装置、信号処理方法、および記録媒体

Similar Documents

Publication Publication Date Title
CN105118501B (zh) 语音识别的方法及系统
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
Kuamr et al. Continuous Hindi speech recognition using Gaussian mixture HMM
WO2007034478A3 (en) System and method for correcting speech
EP1471501A3 (en) Speech recognition apparatus, speech recognition method, and recording medium on which speech recognition program is computer-readable recorded
CN1343352A (zh) 说话者识别
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
US20050010406A1 (en) Speech recognition apparatus, method and computer program product
JP2004139049A5 (ja)
Rao et al. Glottal excitation feature based gender identification system using ergodic HMM
JP6791816B2 (ja) 音声区間検出装置、音声区間検出方法、およびプログラム
JP4829912B2 (ja) 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体
Nguyen et al. Vietnamese voice recognition for home automation using MFCC and DTW techniques
JP2012255867A (ja) 音声認識装置
Ding Enhancement of speech recognition using a variable-length frame overlapping method
JP4749990B2 (ja) 音声認識装置
JP2004341340A (ja) 話者認識装置
JP2001188783A (ja) 情報処理装置および方法、並びに記録媒体
Ibiyemi et al. Automatic speech recognition for telephone voice dialling in yorùbá
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
JPS61137199A (ja) 単語音声の認識方法
KR100486307B1 (ko) 은닉 마코프 모델 알고리즘의 관측 확률 연산 장치
JPS60501180A (ja) スピ−チ認識方法および装置