JP4291728B2 - 音声認識方法およびこの方法を実施する装置 - Google Patents
音声認識方法およびこの方法を実施する装置 Download PDFInfo
- Publication number
- JP4291728B2 JP4291728B2 JP2004119931A JP2004119931A JP4291728B2 JP 4291728 B2 JP4291728 B2 JP 4291728B2 JP 2004119931 A JP2004119931 A JP 2004119931A JP 2004119931 A JP2004119931 A JP 2004119931A JP 4291728 B2 JP4291728 B2 JP 4291728B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- model
- speech model
- recognition
- transfer characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1はHMMを用いた音声認識装置を説明する図である。音声信号入力端子11から入力された音声信号は、A/D変換部12においてディジタル信号に変換される。そのディジタル信号から特徴パラメータ抽出部13において音声特徴パラメータを抽出する。予め、ある音声単位毎に作成したHMMをモデルパラメータメモリ14から読み出し、モデル照合尤度計算部15において、入力音声信号に対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果として認識結果出力部16より出力する。
中川聖一:"確率モデルによる音声認識"電子情報通信学会編。
を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法
において、基準信号に対して、話者の口とマイクの間の伝達特性を畳み込んだ信号から
得られた長時間平均特徴パラメータと、前記伝達特性を畳み込まない長時間平均特徴パラ
メータとの間の差分を計算し、前記伝達特性が無い環境で構築された音声モデルに対して
計算した差分を前記音声モデルのパラメータに加算することによって、前記伝達特性を含
んだ音声モデルを合成し、合成した音声モデルによって音声認識を行う音声認識方法を構
成した。
また、請求項3:請求項1および請求項2の内の何れかに記載される音声認識方法において、前記伝達特性を含んだ音声モデルを合成した後、雑音モデルを用いて雑音適応をすることにより前記伝達特性に加え、雑音にも適応したモデルを合成した音声モデルによって音声認識を行う音声認識方法を構成した。
の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認
識装置において、基準信号に対して、話者の口とマイクの間の伝達特性を畳み込んだ信号
から得られた長時間平均特徴パラメータと前記伝達特性を畳み込まない長時間平均特徴パ
ラメータとの間の差分を計算する特徴量差分計算部26と、前記伝達特性が無い環境で構
築された音声モデルに対して計算した差分を前記音声モデルのパラメータに加算すること
により前記伝達特性を含んだ音声モデルを更新する音声モデル更新部27とを有する音声
モデル合成部20を具備し、合成した音声モデルによって音声認識を行う音声認識部を有
する音声認識装置を構成した。
また、請求項6:請求項4および請求項5の内の何れかに記載される音声認識装置において、雑音モデルを用いて雑音適応をする雑音適応部42を音声モデル更新部27の後段に配置し、前記伝達特性に加え、雑音にも適応したモデルを合成した音声モデルによって音声認識を行う音声認識装置を構成した。
図2を参照するに、20は音声モデル合成部であり、入力された伝達特性(インパルス応答)の畳み込み演算によって基準信号の長時間平均特徴パラメータの移動する量を計算し、この移動量に基づいて伝達特性を含まない元の音声モデルを更新する部位である。ここで、基準信号としては、一例として、或る話者が50文程度を発声して得られた音声信号を使用することができる。音声モデル合成部20により合成した音声モデルは、図1を参照して説明されたHMMを用いた音声認識装置におけるモデルパラメータメモリ14に格納して使用される。その後は、図1を参照して説明した処理と同様の処理が行われる。以下、具体的に説明する。
(ステップS31) 基準信号を読み込む。
(ステップS32) 畳み込むインパルス応答(伝達特性)を読み込む。
(ステップS33) 読み込んだ基準信号に対して、読み込んだインパルス応答を畳み込む演算を行う。
(ステップS34) 畳み込み演算処理後の基準信号に対して、特徴パラメータを抽出し、長時間平均の特徴パラメータを得る。
(ステップS36) ステップS34とステップS35で抽出した長時間平均特徴パラメータの差分を計算する。
(ステップS37) 伝達特性の影響の少ない環境の元で作成された音声モデルを読み込む。
(ステップS38) 元音声モデルのモデルパラメータを、ステップS36で計算された長時間平均特徴量パラメータ差分を用いて更新する。
(ステップS39) 最後に、ステップS38で更新された音声モデルを伝達特性合成モデルとして出力する。
図2を参照して請求項1に記載される発明の実施例を説明する。音声信号入力端子11から入力された入力音声信号からA/D変換部12、特徴パラメータ抽出部13を介して計算した特徴パラメータ系列に対して、各認識結果侯補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、インパルス応答入力端子21から入力したインパルス応答を、畳み込み演算部22において基準信号メモリ24から供給される基準信号に畳み込み、長時間平均特徴パラメータ抽出部23において畳み込み済み基準信号から特徴パラメータを抽出し、この畳み込み済み基準信号から抽出した特徴パラメータと、非畳み込み基準信号長時間平均特徴パラメータ抽出部25から抽出した特徴パラメータの差分から、伝達特性(インパルス応答)の影響による特徴パラメータの移動量を算出し、伝達特性がかかっていない環境で収録された音声から作成された音声モデルに対して、得られた特徴パラメータの移動量に基づくモデルパラメータの変換を行うことにより、畳み込み処理後の音声からモデルを再学習することなく、畳み込み処理後の音声から学習したモデルを、簡易的に合成することができる。
図5を参照して請求項3および請求項6に記載される発明の実施例を説明する。これは、音声モデル更新部27で更新された伝達特性を合成した音声モデルに対して、雑音適応処理を施す雑音適応部42を加えた実施例である。請求項3に記載される発明の実施例は、入力音声信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、請求項1および請求項2に記載される方法により、伝達特性を考慮した音声モデルを合成し、更に、背景雑音のデータから作成した雑音モデルと合成することにより、伝達特性と雑音の両方に適応したモデルを合成する。
13 特徴パラメータ抽出部 14 モデルパラメータメモリ
15 モデル照合尤度計算部 16 認識結果出力部
20 音声モデル合成部 21 インパルス応答入力端子
22 畳み込み演算部 23 長時間平均特徴パラメータ抽出部
25 非畳み込み基準信号長時間平均特徴パラメータ抽出部
24 基準信号メモリ 26 特徴量差分計算部
27 音声モデル更新部 28 元音声モデルメモリ
29 音声モデル出力部 41 分析フレーム外混入反射波レベル判定部
42 雑音適応部
Claims (6)
- 入力信号から計算した特徴パラメータ系列に対して、各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識方法において、
基準信号に対して、話者の口とマイクの間の伝達特性を畳み込んだ信号から得られた長時間平均特徴パラメータと、前記伝達特性を畳み込まない長時間平均特徴パラメータとの間の差分を計算し、前記伝達特性が無い環境で構築された音声モデルに対して計算した差分を前記音声モデルのパラメータに加算することによって、前記伝達特性を含んだ音声モデルを合成し、合成した音声モデルによって音声認識を行うことを特徴とする音声認識方法。 - 請求項1に記載される音声認識方法において、
基準信号に対して前記伝達特性を畳み込んだ信号から得られた長時間平均特徴パラメータと、前記伝達特性を畳み込まない長時間平均特徴パラメータとの間の差分を計算し、前記伝達特性が無い環境で構築された音声モデルに対して計算した差分を前記音声モデルのパラメータに加算することにより前記伝達特性を含んだ音声モデルを合成するか否かの判定処理を、前記伝達特性を分析して音声認識の分析フレーム外の時刻における反射波レベルの大きさに基づいてし、
否と判定すると、前記伝達特性が畳み込まれた学習用音声データから伝達特性を含んだ音声モデルを再学習することを特徴とする音声認識方法。 - 請求項1および請求項2の内の何れかに記載される音声認識方法において、
前記伝達特性を含んだ音声モデルを合成した後、雑音モデルを用いて雑音適応をすることにより前記伝達特性に加え、雑音にも適応したモデルを合成した音声モデルによって音声認識を行うことを特徴とする音声認識方法。 - 入力信号から計算した特徴パラメータ系列に対して各認識結果候補の特徴を表現した確率モデルを用いて計算した類似の尤度から認識結果を出力する音声認識装置において、
基準信号に対して、話者の口とマイクの間の伝達特性を畳み込んだ信号から得られた長時間平均特徴パラメータと前記伝達特性を畳み込まない長時間平均特徴パラメータとの間の差分を計算する特徴量差分計算部26と、前記伝達特性が無い環境で構築された音声モデルに対して計算した差分を前記音声モデルのパラメータに加算することにより前記伝達特性を含んだ音声モデルを更新する音声モデル更新部27とを有する音声モデル合成部20を具備し、合成した音声モデルによって音声認識を行う音声認識部を有することを特徴とする音声認識装置。 - 請求項4に記載される音声認識装置において、
前記伝達特性を分析し、音声認識の分析フレーム外の時刻における反射波レベルの大きさを判定して、音声モデル合成部20を用いるか否かを判定する分析フレーム外混入反射波レベル判定部41を音声モデル合成部20の前段に配置し、
否と判定すると、前記伝達特性が畳み込まれた学習用音声データから伝達特性を含んだ音声モデルを再学習することを特徴とする音声認識装置。 - 請求項4および請求項5の内の何れかに記載される音声認識装置において、
雑音モデルを用いて雑音適応をする雑音適応部42を音声モデル更新部27の後段に配置し、前記伝達特性に加え、雑音にも適応したモデルを合成した音声モデルによって音声認識を行うことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004119931A JP4291728B2 (ja) | 2004-04-15 | 2004-04-15 | 音声認識方法およびこの方法を実施する装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004119931A JP4291728B2 (ja) | 2004-04-15 | 2004-04-15 | 音声認識方法およびこの方法を実施する装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005301097A JP2005301097A (ja) | 2005-10-27 |
JP4291728B2 true JP4291728B2 (ja) | 2009-07-08 |
Family
ID=35332679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004119931A Expired - Fee Related JP4291728B2 (ja) | 2004-04-15 | 2004-04-15 | 音声認識方法およびこの方法を実施する装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4291728B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4353202B2 (ja) | 2006-05-25 | 2009-10-28 | ソニー株式会社 | 韻律識別装置及び方法、並びに音声認識装置及び方法 |
KR102413616B1 (ko) | 2019-07-09 | 2022-06-27 | 구글 엘엘씨 | 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성 |
JP2021128297A (ja) * | 2020-02-17 | 2021-09-02 | ヤマハ株式会社 | 推定モデル構築方法、演奏解析方法、推定モデル構築装置、演奏解析装置、およびプログラム |
JP7395446B2 (ja) | 2020-09-08 | 2023-12-11 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
-
2004
- 2004-04-15 JP JP2004119931A patent/JP4291728B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005301097A (ja) | 2005-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5326892B2 (ja) | 情報処理装置、プログラム、および音響モデルを生成する方法 | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP4246792B2 (ja) | 声質変換装置および声質変換方法 | |
Hirsch et al. | A new approach for the adaptation of HMMs to reverberation and background noise | |
CN106531150B (zh) | 一种基于深度神经网络模型的情感合成方法 | |
Boril et al. | Unsupervised equalization of Lombard effect for speech recognition in noisy adverse environments | |
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JPH11327592A (ja) | 話者正規化処理装置及び音声認識装置 | |
US20100198577A1 (en) | State mapping for cross-language speaker adaptation | |
JPH11126090A (ja) | 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体 | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
JPH075892A (ja) | 音声認識方法 | |
JPH09160584A (ja) | 音声適応化装置および音声認識装置 | |
Stouten et al. | Model-based feature enhancement with uncertainty decoding for noise robust ASR | |
Nanavare et al. | Recognition of human emotions from speech processing | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
Grewal et al. | Isolated word recognition system for English language | |
JP4291728B2 (ja) | 音声認識方法およびこの方法を実施する装置 | |
Liu | Environmental adaptation for robust speech recognition | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090324 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090403 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120410 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130410 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140410 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |