JP4962962B2 - 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 - Google Patents
音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 Download PDFInfo
- Publication number
- JP4962962B2 JP4962962B2 JP2007235343A JP2007235343A JP4962962B2 JP 4962962 B2 JP4962962 B2 JP 4962962B2 JP 2007235343 A JP2007235343 A JP 2007235343A JP 2007235343 A JP2007235343 A JP 2007235343A JP 4962962 B2 JP4962962 B2 JP 4962962B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- unit
- acoustic model
- chinese
- dictionary information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims description 80
- 238000000034 method Methods 0.000 title claims description 24
- 238000012545 processing Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 19
- 230000005236 sound signal Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 239000000470 constituent Substances 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、上記状況に応じてなされたものであり、中国語の音声認識のスピードを向上させることができる音声認識装置等を提供することを目的とする。
このような構成により、言語モデルをも用いて音声認識を行うことができ、音声認識の精度を向上させることができる。
このような構成により、発話から生成された音声信号から特徴量を抽出して、その特徴量を用いた音声認識を行うことができる。
本発明の実施の形態1による音声認識装置について、図面を参照しながら説明する。本実地の形態による音声認識装置は、30の音素からなる音素セットを用いて中国語の音声認識を行うものである。
(ステップS101)受付部14は、音声信号を受け付けたかどうか判断する。そして、受け付けた場合には、ステップS102に進み、そうでない場合には、ステップS104に進む。
(ステップS103)特徴量抽出部15は、抽出した特徴量を図示しない記録媒体において一時的に記憶する。そして、ステップS101に戻る。なお、ここでは、特徴量抽出部15が、特徴量を図示しない記録媒体において一時的に記憶するとしたが、これは一例であって、他の構成要素が特徴量を図示しない記録媒体(例えば、音声認識部16の有する図示しない記録媒体)において一時的に記憶してもよい。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
音響モデルの訓練音声データは、北京、上海、広州、台湾やその他の北西地方の地方語分布を持つ1600人の話者の510時間の音声を含んでいる。訓練テキストコーパスは、旅行分野のATR多言語対訳テキストコーパスにおける500000の中国語文から構成されている。評価データは、多くが華北出身の20人の話者による旅行分野における510文からなるBTEC(Basic Travel Expression Corpus)のデータである。
aI(without Tone3) a
a(without Tone3) a
aI(Tone3) a3
a(Tone3) a3
Ie e
eI e
eN e
e e
er e+r
Ci i
CHi i
Bi i
oU o
o o
u u
yv v
本発明の実施の形態2による自動翻訳装置について、図面を参照しながら説明する。本実地の形態による自動翻訳装置は、実施の形態1による音声認識装置を備えたものである。
(ステップS203)機械翻訳結果出力部22は、機械翻訳部21が機械翻訳した結果である機械翻訳結果を出力する。そして、ステップS101に戻る。
また、本実施の形態による自動翻訳装置2の実験例については、機械翻訳以外、実施の形態1と同様であり、その説明を省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
2 自動翻訳装置
11 音響モデル記憶部
12 辞書情報記憶部
13 言語モデル記憶部
14 受付部
15 特徴量抽出部
16 音声認識部
17 出力部
21 機械翻訳部
22 機械翻訳結果出力部
Claims (8)
- 中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部と、
前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部と、
発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデル記憶部で記憶されている音響モデルと、前記辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、
前記音声認識部による認識結果である漢字の並びを出力する出力部と、を備えた音声認識装置。 - 中国語の言語モデルが記憶される言語モデル記憶部をさらに備え、
前記音声認識部は、前記音響モデルと、前記辞書情報と、前記言語モデル記憶部で記憶されている言語モデルとを用いて、前記特徴量から漢字の並びを取得する、請求項1記載の音声認識装置。 - 発話から生成された音声信号を受け付ける受付部と、
前記受付部が受け付けた音声信号から特徴量を抽出して前記音声認識部に渡す特徴量抽出部と、をさらに備えた、請求項1または請求項2記載の音声認識装置。 - 請求項1から請求項3のいずれか記載の音声認識装置と、
前記音声認識装置の出力結果に対して機械翻訳を行う機械翻訳部と、
機械翻訳結果を出力する機械翻訳結果出力部と、を備えた自動翻訳装置。 - 中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部と、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部と、音声認識部と、出力部とを用いて処理される音声認識方法であって、
前記音声認識部が、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデル記憶部で記憶されている音響モデルと、前記辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識ステップと、
前記出力部が、前記音声認識ステップでの認識結果である漢字の並びを出力する出力ステップと、を備えた音声認識方法。 - コンピュータを、
発話から生成された音声信号から抽出された特徴量を受け付け、中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」とを音素セットとして学習した文脈依存の音響モデルが記憶される音響モデル記憶部で記憶されている音響モデルと、前記音響モデルの学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報が記憶される辞書情報記憶部で記憶されている辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得する音声認識部と、
前記音声認識部による認識結果である漢字の並びを出力する出力部として機能させるためのプログラム。 - 音声認識部と出力部とを備えた音声認識装置が音声認識の処理を行う際に用いられる音響モデルを含むデータ構造であって、
当該データ構造は、
中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」との各音素と、音声信号の特徴量とを対応付けて有する情報を少なくとも含む、前記23個の子音及び前記7個の母音を音素セットとして学習した文脈依存の音響モデルを含み、
前記音声認識部に、発話から生成された音声信号から抽出された特徴量を受け付け、前記音響モデルと、前記学習で用いられたのと同じ音素セットの示す音素の並びと漢字とを対応付けて有する情報である辞書情報とを少なくとも用いて、前記特徴量から漢字の並びを取得させ、
前記出力部に、前記音声認識部による認識結果である漢字の並びを出力させる、データ構造。 - 音声認識部と出力部とを備えた音声認識装置が音声認識の処理を行う際に用いられる辞書情報を含むデータ構造であって、
当該データ構造は、
中国語の23個の子音「b,p,m,f,d,t,n,l,z,c,s,zh,ch,sh,r,j,q,x,g,k,h,ng,無始音音節(null initial)」と、中国語の7個の母音「a,a3,i,u,e,o,v」との1以上の音素の並びと、漢字を対応付けて有する情報である辞書情報を少なくとも含み、
前記音声認識部に、発話から生成された音声信号から抽出された特徴量を受け付け、前記23個の子音と、前記7個の母音とを音素セットとして学習した文脈依存の音響モデルと、前記辞書情報のデータ構造とを少なくとも用いて、前記特徴量から漢字の並びを取得させ、
前記出力部に、前記音声認識部による認識結果である漢字の並びを出力させる、データ構造。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007235343A JP4962962B2 (ja) | 2007-09-11 | 2007-09-11 | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007235343A JP4962962B2 (ja) | 2007-09-11 | 2007-09-11 | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009069276A JP2009069276A (ja) | 2009-04-02 |
JP4962962B2 true JP4962962B2 (ja) | 2012-06-27 |
Family
ID=40605637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007235343A Active JP4962962B2 (ja) | 2007-09-11 | 2007-09-11 | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4962962B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881615B2 (en) | 2015-08-20 | 2018-01-30 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
CN107731228A (zh) * | 2017-09-20 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 英文语音信息的文本转换方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102016805B1 (ko) * | 2017-10-30 | 2019-08-30 | 신부용 | 평면 배열 기반 중국어 사전 제공 방법 및 그 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6352264A (ja) * | 1986-08-21 | 1988-03-05 | Nec Corp | 中国語翻訳システム |
JP2001166789A (ja) * | 1999-12-10 | 2001-06-22 | Matsushita Electric Ind Co Ltd | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 |
JP2002229590A (ja) * | 2001-02-01 | 2002-08-16 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識システム |
US7684987B2 (en) * | 2004-01-21 | 2010-03-23 | Microsoft Corporation | Segmental tonal modeling for tonal languages |
JP4631076B2 (ja) * | 2004-11-01 | 2011-02-16 | 株式会社国際電気通信基礎技術研究所 | 音素単位セットを最適化する方法及びシステム |
-
2007
- 2007-09-11 JP JP2007235343A patent/JP4962962B2/ja active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881615B2 (en) | 2015-08-20 | 2018-01-30 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
US10388284B2 (en) | 2015-08-20 | 2019-08-20 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
CN107731228A (zh) * | 2017-09-20 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 英文语音信息的文本转换方法和装置 |
US10755701B2 (en) | 2017-09-20 | 2020-08-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for converting English speech information into text |
Also Published As
Publication number | Publication date |
---|---|
JP2009069276A (ja) | 2009-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zissman et al. | Automatic language identification | |
US6154722A (en) | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability | |
US8214213B1 (en) | Speech recognition based on pronunciation modeling | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
JP3126985B2 (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
US8321218B2 (en) | Searching in audio speech | |
JP5660441B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP2001101187A (ja) | 翻訳装置および翻訳方法、並びに記録媒体 | |
CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
JPH07219578A (ja) | 音声認識方法 | |
CN107093422B (zh) | 一种语音识别方法和语音识别系统 | |
Kumar et al. | A comprehensive view of automatic speech recognition system-a systematic literature review | |
US20220180864A1 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JPH08505957A (ja) | 音声認識システム | |
JP4962962B2 (ja) | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
Zhang et al. | Mandarin-English bilingual speech recognition for real world music retrieval | |
AbuZeina et al. | Cross-word modeling for Arabic speech recognition | |
Mabokela et al. | An integrated language identification for code-switched speech using decoded-phonemes and support vector machine | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
Vancha et al. | Word-level speech dataset creation for sourashtra and recognition system using kaldi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120313 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4962962 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |