JP2015041055A - 音声認識装置、音声認識方法、およびプログラム - Google Patents
音声認識装置、音声認識方法、およびプログラム Download PDFInfo
- Publication number
- JP2015041055A JP2015041055A JP2013173272A JP2013173272A JP2015041055A JP 2015041055 A JP2015041055 A JP 2015041055A JP 2013173272 A JP2013173272 A JP 2013173272A JP 2013173272 A JP2013173272 A JP 2013173272A JP 2015041055 A JP2015041055 A JP 2015041055A
- Authority
- JP
- Japan
- Prior art keywords
- wfst
- external
- transition
- phoneme symbol
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 58
- 230000007704 transition Effects 0.000 claims abstract description 272
- 230000008569 process Effects 0.000 claims description 32
- 230000005236 sound signal Effects 0.000 claims description 21
- 230000001419 dependent effect Effects 0.000 claims description 13
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 28
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】文脈に依存した音素記号に対応する入力を有する遷移を有するWFSTである外部WFSTが格納される外部WFST格納手段101と、外部WFSTを識別する情報である特殊音素記号を有する遷移を含むWFSTである主WFSTが格納される主WFST格納手段102と、音声信号を受け付ける音声信号受付手段107と、音声信号に応じて、主WFSTをたどりながら、特殊音素記号が識別する外部WFSTを、遷移に対応付けられた音素記号とその遷移の先の情報とに応じて展開することによって音声認識を行う音声認識手段108と、音声認識の結果を出力する出力手段109とを具備する音声認識装置1により、デコードの際に、必要な遷移だけを作成して、特殊音素記号に対応する外部WFSTに接続でき、処理量とデータ量を削減できる。
【選択図】図1
Description
本実施の形態において、文脈に依存したWFSTを用いた音声認識のデコード時に、外部に格納されているWFSTを、必要な分だけ動的に展開することで音声認識を行う音声認識装置1について説明する。
その状態(M10)から出発する遷移に特殊音素記号「X」が含まれるため、音声認識手段108は、その特殊音素記号「X」に対応する外部WFSTを外部WFST格納手段101から取得する。そして、その外部WFSTを展開するための領域を確保する。確保される領域は、「展開された外部WFSTの状態ID」、「主WFSTの遷移先状態ID」、「外部WFSTの状態ID」、「中心の音素記号」、「直後の音素記号」、および「主WFST上の直後の音素記号」を格納する領域である。そして、音声認識手段108は、その外部WFST上の起点の状態から出発する全遷移の持つ中心の音素記号「m」と「o」とを取得する。次に、音声認識手段108は、主WFST上での遷移(b−c+X)の直後の音素記号である特殊音素記号「X」を、取得した1個目の音素記号「m」に置換した遷移(b−c+m)を作成する。そして、音声認識手段108は、外部WFSTにおける起点の状態(S20)に対応する状態であって、作成した遷移の行き先の状態(T10)を作成する。音声認識手段108は、このようにして展開された外部WFSTの状態ID「T10」を、図4の1番目のレコードに蓄積する。また、主WFSTにおける、その作成した遷移の行き先は状態(M14)であるため、音声認識手段108は、主WFSTの遷移先状態ID「M14」を、図4の1番目のレコードに蓄積する。また、外部WFSTにおける、その作成した遷移の行き先は状態(S20)であるため、音声認識手段108は、外部WFSTの状態ID「S20」を、図4の1番目のレコードに蓄積する。また、その作成した遷移の中心の音素記号は「c」であり、直後の音素記号は「m」であるため、音声認識手段108は、それらの音素記号を、図4の1番目のレコードに蓄積する。また、主WFSTにおいて、中心の音素記号「c」の直後の音素記号は「X」であるため、音声認識手段108は、主WFST上の直後の音素記号「X」を、図4の1番目のレコードに蓄積する。
その後、音声認識手段108は、外部WFSTを参照して、図4の1番目のレコードでの直後の音素記号「m」を中心の音素記号に有する、状態(T10)の次の遷移(c−m+n)を作成する。そして、外部WFSTにおける、その作成した遷移に対応する行き先が状態(S21)であることから、作成した遷移の行き先の状態(T11)を作成する。音声認識手段108は、このようにして展開された外部WFSTの状態ID「T11」を、図4の2番目のレコードに蓄積する。また、主WFSTにおける、その作成した遷移の行き先は状態(M13)であるため、音声認識手段108は、主WFSTの遷移先状態ID「M13」を、図4の2番目のレコードに蓄積する。また、外部WFSTにおける、その作成した遷移の行き先は状態(S21)であるため、音声認識手段108は、外部WFSTの状態ID「S21」を、図4の2番目のレコードに蓄積する。また、その遷移の中心の音素記号は、図4の1番目のレコードでの直後の音素記号「m」であり、直後の音素記号は「n」である。また、主WFST上の直後の音素記号は、図4の1番目のレコードでの主WFST上の直後の音素記号「X」の次の音素記号「g」である。音声認識手段108は、上記それぞれの値を図4の1番目のレコードの場合と同様に、図4の2番目のレコードに蓄積する。なお、このように主WFST上の直後の音素記号に、特殊音素記号「X」の次の音素記号「g」が格納された場合は、その主WFST上の直後の音素記号「g」は、外部WFSTの状態IDが終端に対応する状態になる直前まで変化しない。なお、外部WFSTの状態IDが終端に対応する状態になった場合には、主WFST上の直後の音素記号は、特殊音素記号「X」の次の音素記号ではなくなるため、例えば、図4の3番目のレコードで示されるように、主WFST上の直後の音素記号は蓄積されなくてもよい。音声認識手段108は、同様の処理を繰り返し、外部WFSTの状態IDが外部WFSTの終端になるまで状態と遷移とを作成する。音声認識手段108は、取得した1番目の音素記号「m」に関する状態遷移の作成が終了すると、取得した2番目の音素記号「o」についても同様に状態遷移を作成する(ステップS214)。その結果、図4で示されるように展開が行われる。図4において、展開された外部WFSTの状態IDが「T20」、「T21」、「T22」であるレコードが、その音素記号「o」に対応して蓄積されたものである。外部WFSTの展開が終了すると、音声認識手段108は、引き続き展開された外部WFSTを含む主WFSTをたどる。音声認識手段108は、外部WFSTの終端の状態IDと対応する展開された状態(例えばT12やT22)にたどり着いた場合に、その外部WFSTの状態IDに対応する主WFSTの遷移先状態IDに移行するようにして音声認識を続ける。
101 外部WFST格納手段
102 主WFST格納手段
103 固有情報受付手段
104 外部WFST作成手段
105 外部WFST受付手段
106 外部WFST蓄積手段
107 音声信号受付手段
108 音声認識手段
109 出力手段
Claims (7)
- 音声信号をテキスト情報に変換するために用いられるWFST(重みつき有限状態トランスデューサ)であり、文脈に依存した音素記号に対応する入力を有する遷移と、遷移によって接続される状態とを有するWFSTである外部WFSTが1以上格納される外部WFST格納手段と、
当該外部WFSTを識別する情報である特殊音素記号を有する遷移を含むWFSTである主WFSTが格納される主WFST格納手段と、
発話された音声を示す音声信号を受け付ける音声信号受付手段と、
前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該特殊音素記号が識別する外部WFSTを、当該特殊音素記号に対応する入力を有する遷移の遷移先に関する情報と、当該遷移が有する入力に対応付けられた音素記号とに応じて展開することによって音声認識を行う音声認識手段と、
前記音声認識手段が音声認識した結果を出力する出力手段とを具備する音声認識装置。 - 前記音声認識手段は、
前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該遷移に含まれる入力に対応付けられた特殊音素記号以外の音素記号を用いて、当該主WFSTから当該特殊音素記号で識別される外部WFSTへの遷移と、当該外部WFSTから当該主WFSTに含まれる当該特殊音素記号以後の状態への遷移とを、当該主WFSTに追加することによって展開する、請求項1記載の音声認識装置。 - 前記音声認識手段は、
前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該特殊音素記号に対応する入力を有する遷移の遷移先に関する情報であって、当該特殊音素記号が識別する外部WFSTの終端から遷移する主WFSTに関する情報を一時的に蓄積する、請求項1または請求項2記載の音声認識装置。 - ユーザ固有の情報である固有情報を受け付ける固有情報受付手段と、
前記固有情報と対応する音声信号を認識するための外部WFSTを作成する外部WFST作成手段と、
前記外部WFST作成手段が作成した外部WFSTを、特殊音素記号に対応付けて前記外部WFST格納手段に蓄積する外部WFST蓄積手段とをさらに具備する、請求項1から請求項2のいずれか一項記載の音声認識装置。 - 外部WFSTを受け付ける外部WFST受付手段と、
前記外部WFST受付手段が受け付けた外部WFSTを、特殊音素記号に対応付けて前記外部WFST格納手段に蓄積する外部WFST蓄積手段とをさらに具備する、請求項1または請求項2記載の音声認識装置。 - 音声信号をテキスト情報に変換するために用いられるWFST(重みつき有限状態トランスデューサ)であり、文脈に依存した音素記号に対応する入力を有する遷移と、遷移によって接続される状態とを有するWFSTである外部WFSTが1以上格納される外部WFST格納手段と、当該外部WFSTを識別する情報である特殊音素記号を有する遷移を含むWFSTである主WFSTが格納される主WFST格納手段と、音声信号受付手段と、音声認識手段と、出力手段とを用いて処理される音声認識方法であって、
前記音声信号受付手段が、
発話された音声を示す音声信号を受け付ける音声信号受付ステップと、
前記音声認識手段が、
前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該特殊音素記号が識別する外部WFSTを、当該特殊音素記号に対応する入力を有する遷移の遷移先に関する情報と、当該遷移が有する入力に対応付けられた音素記号とに応じて展開することによって音声認識を行う音声認識ステップと、
前記出力手段が、
前記音声認識ステップで音声認識した結果を出力する出力ステップとを具備する音声認識方法。 - 音声信号をテキスト情報に変換するために用いられるWFST(重みつき有限状態トランスデューサ)であり、文脈に依存した2以上の音素記号に対応する入力を有する遷移と、遷移によって接続される状態とを有するWFSTである外部WFSTが1以上格納される外部WFST格納手段と、当該外部WFSTを識別する情報である特殊音素記号を有する遷移を含むWFSTである主WFSTが格納される主WFST格納手段とにアクセス可能なコンピュータを、
発話された音声を示す音声信号を受け付ける音声信号受付手段、
前記音声信号に応じて、前記主WFSTをたどりながら行われる音声認識処理に用いられる遷移に含まれる入力に対応する音素記号が特殊音素記号である場合に、当該特殊音素記号が識別する外部WFSTを、当該特殊音素記号に対応する入力を有する遷移の遷移先に関する情報と、当該遷移が有する入力に対応付けられた音素記号とに応じて展開することによって音声認識を行う音声認識手段、
前記音声認識手段が音声認識した結果を出力する出力手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013173272A JP5701348B2 (ja) | 2013-08-23 | 2013-08-23 | 音声認識装置、音声認識方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013173272A JP5701348B2 (ja) | 2013-08-23 | 2013-08-23 | 音声認識装置、音声認識方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015041055A true JP2015041055A (ja) | 2015-03-02 |
JP5701348B2 JP5701348B2 (ja) | 2015-04-15 |
Family
ID=52695234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013173272A Active JP5701348B2 (ja) | 2013-08-23 | 2013-08-23 | 音声認識装置、音声認識方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5701348B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
WO2020179193A1 (ja) * | 2019-03-04 | 2020-09-10 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009335A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Speech recognition with dynamic grammars |
JP2011113043A (ja) * | 2009-11-30 | 2011-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム |
-
2013
- 2013-08-23 JP JP2013173272A patent/JP5701348B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009335A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Speech recognition with dynamic grammars |
JP2011113043A (ja) * | 2009-11-30 | 2011-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
JPN6015001183; 堀貴明,塚田元: '音声情報処理技術の最先端:3.重み付き有限状態トランスデューサによる音声認識' 情報処理学会誌 45巻10号, 200410, pp. 1020-1026, 社団法人 情報処理学会 * |
JPN6015001185; P.R. Dixon, C. Hori, H. Kashioka: 'Efficient Online Vocabulary Expansion in WFST based Speech Recognition' 日本音響学会講演論文集 , 20120919, pp. 57-58, 一般社団法人 日本音響学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
JP2018536905A (ja) * | 2015-11-06 | 2018-12-13 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 発話認識方法及び装置 |
US10741170B2 (en) | 2015-11-06 | 2020-08-11 | Alibaba Group Holding Limited | Speech recognition method and apparatus |
US11664020B2 (en) | 2015-11-06 | 2023-05-30 | Alibaba Group Holding Limited | Speech recognition method and apparatus |
WO2020179193A1 (ja) * | 2019-03-04 | 2020-09-10 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5701348B2 (ja) | 2015-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2455936B1 (en) | Speech translation system, dictionary server, and program | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JPWO2011033834A1 (ja) | 音声翻訳システム、音声翻訳方法および記録媒体 | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
JP5068225B2 (ja) | 音声ファイルの検索システム、方法及びプログラム | |
JP5701348B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP4859125B2 (ja) | 発音評定装置、およびプログラム | |
WO2006118683A1 (en) | Speech dialog method and system | |
JP3059398B2 (ja) | 自動通訳装置 | |
JP2017198790A (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
JP6179884B2 (ja) | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム | |
JP2008293098A (ja) | 応答スコア情報生成装置、対話処理装置 | |
JP5877823B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP5976255B2 (ja) | 情報提供装置および情報提供方法 | |
JP2015099290A (ja) | 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム | |
JP5881157B2 (ja) | 情報処理装置、およびプログラム | |
JP2013088488A (ja) | 音声検索装置、音声検索方法及びプログラム | |
JPWO2009041220A1 (ja) | 略語生成装置およびプログラム、並びに、略語生成方法 | |
JP2005283646A (ja) | 音声認識率推定装置 | |
JP2004294577A (ja) | 文字情報音声変換方法 | |
JP6003127B2 (ja) | 言語モデル作成プログラム及び言語モデル作成装置 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
JP2004139530A (ja) | 読み修正プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5701348 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |