JP2006106775A - 多言語話者適応方法、装置、プログラム - Google Patents
多言語話者適応方法、装置、プログラム Download PDFInfo
- Publication number
- JP2006106775A JP2006106775A JP2005339917A JP2005339917A JP2006106775A JP 2006106775 A JP2006106775 A JP 2006106775A JP 2005339917 A JP2005339917 A JP 2005339917A JP 2005339917 A JP2005339917 A JP 2005339917A JP 2006106775 A JP2006106775 A JP 2006106775A
- Authority
- JP
- Japan
- Prior art keywords
- language
- speaker
- adaptation
- pronunciation
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声分析部701と、言語判定部711と、言語判定部711による判定結果言語の発音辞書702と、発音付与部708と、n個の言語の音響モデル703−1〜703−nと、話者適応部709を備え、この多言語話者適応装置における話者適応部709から出力されるn個の言語の特定話者音響モデルを多言語音声認識装置におけるn個の言語の音響モデルとして用いる。
【選択図】図7
Description
図16において、入力音声は音声認識装置1606の音声分析部1601に入力され、ここにおいて特徴パラメータに変換される。この変換された特徴パラメータは探索部1605に入力される。この探索部1605においては、音響モデル1603を用い、認識用文法1604で表現される単語列と入力音声の間の照合が行われ、照合スコアの最も高い単語列が認識結果として出力される。認識用文法1604は、発音辞書1602に登録されている単語を用いて作成される。
音響モデル1603としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model、略してHMM )が汎用される。通常、HMMは音素毎に音素モデルが作成されるが、現在は、或る音素のHMMを作成するに際して、その前後に接続する音素も音素環境として考慮する triphone HMMが主流となっている。なお、音素環境を考慮しないHMMはmonophone HMMと呼ばれている。
上述した音声認識装置の従来例は、或る特定の認識対象言語の発声に対してのみ動作する構成とされている。例えば、英語音声認識装置の場合、図16における発音辞書1602としては、例えば、図17に示されるが如き英語発音辞書1702が準備される。認識用文法1604は、図17の英語発音辞書1702に登録される英単語を用いて、例えば図18のように作成される。発音辞書、認識用文法ともに、その形式には様々なものが考えられ、図17および図18に示す形式はその一例に過ぎない。音響モデル1603として、英語を母国語とする不特定多数の話者の大量の英語発声から学習された英語音響モデルが準備される。以下においては、この不特定多数の話者の大量の発声から学習された音響モデルのことを、不特定話者音響モデル或いは単に音響モデルと呼ぶ。
図20において、適応対象話者により発声された入力音声は音声分析部2001において特徴パラメータに変換される。この特徴パラメータは、次いで、発音付与部2008に入力されるが、発音辞書2002を用い、話者の発声内容に基づいて発音ラベル、即ち、発音記号列が付与される。その後、話者適応部2009において、不特定話者音響モデル2003に対して、当該特徴パラメータと発音ラベルを用いて話者適応処理が行われ、適応対象話者の音声に適応した特定話者音響モデルが出力される。
話者適応部2009における話者適応方法としてよく用いられるものとして、MAP(Maximum A Posteriori)適応、MLLR(Maximum Likelihood Linear Regression)適応がある。MAP適応の詳細については文献に開示されている(例えば、非特許文献3参照。)。MLLR適応の詳細については、文献に開示されている(例えば、非特許文献4参照。)。
また、直前に記載される多言語音声認識方法において、話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび言語A以外の任意の複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与することにより、言語Aおよび言語A以外の任意の複数の言語の音響モデルをそれぞれ話者の音声に適応した音響モデル103−1〜103−nを用いる多言語音声認識方法を構成した。
更に、適応対象話者の入力音声から特徴パラメータを抽出する音声分析部701を具備し、適応対象話者の入力音声から適応対象話者の発声言語を特定する言語判定部711を具備し、言語判定部711による判定結果言語の発音記号を記憶媒体に記憶した発音辞書702を具備し、認識対象の複数の言語に対応する音響モデル103−1〜103−nを具備し、音声分析部701で得られた特徴パラメータを入力し、発声内容を表す単語列に対して判定結果言語の発音辞書702を用いて発音ラベルを付与する発音付与部708を具備し、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、認識対象言語の音響モデル703−1〜703−nに対して話者適応処理を行い、認識対象言語の特定話者音響モデルL1〜Lnを出力する話者適応部709を具備する多言語話者適応装置を構成した。
更にこの発明によれば、適応対象話者の母国語が分かる場合、発音ラベルで使用する発音記号の言語を、適応対象話者の発声言語および適応対象話者の母国語の言語に限定することで、例えば、図10に示される如く、適応対象話者が英語を母国語とする場合は、英語の発音記号のみを用いた発音ラベルが付与され、英語音響モデルのみが適応される。
更にこの発明によれば、発音ラベル付与は、話者適応時に適応対象話者の発声に対して最も照合スコアの高い発音ラベルを用いる。これにより、第1および第2の実施例における話者適応処理を更に高精度に実施することができる。また、適応対象話者の1つの発声に対して付与される発音ラベルの数が少なくなるので、話者適応処理の計算量も削減することができる。
この発明の更に他の多言語話者適応装置は、上記多言語話者適応装置を更に高精度化するものであり、適応対象話者の言語Aの発声に対して付与される複数の発音ラベルの内の適応対象話者の言語Aの発声との照合スコアの最も高いものを選択して用いる。
図1を参照して本発明と共に提案する多言語音声認識装置の構成を説明する。
図1に示す多言語音声認識装置は、認識対象のn個の言語の発音辞書102−1〜102−nおよびそれらに対応する音響モデル103−1〜103−nと、認識対象のn個の言語の発音辞書102−1〜102−nで定義される単語を用いて作成された1つの多言語化された認識用文法104と、言語に独立な1つの音声分析部101および探索部105を備えている。ここで、発音辞書、音響モデル、認識用文法は、何れも、記憶媒体に記憶されている。
図2に示す多言語音声認識装置は、英語および日本語の発音辞書202−e,202−jおよびそれらに対応する音響モデル203−e,203−jと、英語および日本語の発音辞書202−e,202−jで定義される単語を用いて作成された1つの多言語化された認識用文法204と、言語に独立な1つの音声分析部201および探索部205を備えている。
図8に示す多言語話者適応装置は、図7の多言語話者適応装置において、認識対象の言語の数nを2とし、その言語を英語および日本語としたものに相当する。図8は、図2に示す多言語音声認識装置に対応する多言語話者適応装置を示す図である。以下、簡単のために、図8を参照して説明する。
図8に示す多言語話者適応装置は、音声分析部801、言語判定部811、言語判定部811による判定結果言語(英語または日本語)の発音辞書802、英語および日本語の音響モデル803−e,803−jを備え、更に、発音付与部808と話者適応部809を備えている。
f03 音響モデル f04 認識用文法
f05 探索部 f06 音声認識装置
f07 認識結果比較部 f08 発音付与部
f09 話者適応部 f10 話者適応装置
f11 言語判定部 f 対応図番
Claims (4)
- 音声分析部において、適応対象話者による発声から特徴パラメータを抽出し、
言語判定部において、先の適応対象話者による発声の言語を特定し、
発音付与部において、言語判定部の判定結果言語である言語Aの発音辞書で言語Aの単語の発音を言語Aの発音記号および認識対象の複数の言語の内の先の言語A以外の任意の複数の言語の発音記号で併記して登録した発音辞書を用いて、先の特徴パラメータに対して言語Aの発音辞書に登録される言語Aおよび言語A以外の任意の複数の言語の発音記号の組み合わせで表現される複数の発音ラベルを付与し、
話者適応部において、先の特徴パラメータと発音ラベルを用いて、言語Aおよび言語A以外の任意の複数の言語の音響モデルをそれぞれ適応対象話者の音声に適応することを特徴とする多言語話者適応方法。 - 請求項1に記載される多言語話者適応方法において、
適応対象話者の言語Aの発声に対して、言語Aの発音辞書に登録される言語Aおよび適応対象話者の母国語Bの2つの言語の発音記号のみの組み合わせで表現される複数の発音ラベルを付与することを特徴とする多言語話者適応方法。 - 適応対象話者の入力音声から特徴パラメータを抽出する音声分析部を具備し、
適応対象話者の入力音声から適応対象話者の発声言語を特定する言語判定部を具備し、
言語判定部による判定結果言語の発音記号を記憶媒体に記憶した発音辞書を具備し、
認識対象の複数の言語に対応する音響モデルを具備し、
音声分析部で得られた特徴パラメータを入力し、発声内容を表す単語列に対して判定結果言語の発音辞書を用いて発音ラベルを付与する発音付与部を具備し、
発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、認識対象言語の音響モデルに対して話者適応処理を行い、認識対象言語の特定話者音響モデルを出力する話者適応部を具備することを特徴とする多言語話者適応装置。 - 音声分析部に対して適応対象話者の入力音声から特徴パラメータを抽出し、
言語判定部に対して、適応対象話者の入力音声から適応対象話者の発声言語を特定し、
発音付与部に対して、特徴パラメータを入力し発声内容を表す単語列に対して判定結果言語の発音辞書を用いて発音ラベルを付与し、
話者適応部に対して、発音ラベルおよび適応対象話者の発声の特徴パラメータを入力し、認識対象言語の音響モデルに対して話者適応処理を行い、認識対象言語の特定話者音響モデルを出力する指令をコンピュータに実行させる多言語話者適応プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005339917A JP4163207B2 (ja) | 2005-11-25 | 2005-11-25 | 多言語話者適応方法、装置、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005339917A JP4163207B2 (ja) | 2005-11-25 | 2005-11-25 | 多言語話者適応方法、装置、プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002261672A Division JP3776391B2 (ja) | 2002-09-06 | 2002-09-06 | 多言語音声認識方法、装置、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006106775A true JP2006106775A (ja) | 2006-04-20 |
JP4163207B2 JP4163207B2 (ja) | 2008-10-08 |
Family
ID=36376491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005339917A Expired - Lifetime JP4163207B2 (ja) | 2005-11-25 | 2005-11-25 | 多言語話者適応方法、装置、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4163207B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011096015A1 (ja) * | 2010-02-05 | 2011-08-11 | 三菱電機株式会社 | 認識辞書作成装置及び音声認識装置 |
JP2013117683A (ja) * | 2011-12-05 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り傾向学習方法、及びプログラム |
-
2005
- 2005-11-25 JP JP2005339917A patent/JP4163207B2/ja not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011096015A1 (ja) * | 2010-02-05 | 2011-08-11 | 三菱電機株式会社 | 認識辞書作成装置及び音声認識装置 |
CN102725790A (zh) * | 2010-02-05 | 2012-10-10 | 三菱电机株式会社 | 识别词典制作装置及声音识别装置 |
US8868431B2 (en) | 2010-02-05 | 2014-10-21 | Mitsubishi Electric Corporation | Recognition dictionary creation device and voice recognition device |
JP2013117683A (ja) * | 2011-12-05 | 2013-06-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り傾向学習方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4163207B2 (ja) | 2008-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102265972B1 (ko) | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 | |
US10249294B2 (en) | Speech recognition system and method | |
Ghai et al. | Literature review on automatic speech recognition | |
US8275621B2 (en) | Determining text to speech pronunciation based on an utterance from a user | |
US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
JP2002520664A (ja) | 言語に依存しない音声認識 | |
US11450320B2 (en) | Dialogue system, dialogue processing method and electronic apparatus | |
KR20060050361A (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
KR102094935B1 (ko) | 음성 인식 시스템 및 방법 | |
Kumar et al. | A comprehensive view of automatic speech recognition system-a systematic literature review | |
US12087291B2 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP2019012095A (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
Kumar et al. | Automatic spontaneous speech recognition for Punjabi language interview speech corpus | |
US20240119942A1 (en) | Self-learning end-to-end automatic speech recognition | |
JP4163207B2 (ja) | 多言語話者適応方法、装置、プログラム | |
Vancha et al. | Word-level speech dataset creation for sourashtra and recognition system using kaldi | |
Nursetyo | LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API | |
Rebai et al. | Linto platform: A smart open voice assistant for business environments | |
JP4962962B2 (ja) | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 | |
Bouselmi et al. | Multilingual recognition of non-native speech using acoustic model transformation and pronunciation modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080715 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080723 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110801 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4163207 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120801 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130801 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |