JP6179884B2 - Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム - Google Patents
Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム Download PDFInfo
- Publication number
- JP6179884B2 JP6179884B2 JP2012257341A JP2012257341A JP6179884B2 JP 6179884 B2 JP6179884 B2 JP 6179884B2 JP 2012257341 A JP2012257341 A JP 2012257341A JP 2012257341 A JP2012257341 A JP 2012257341A JP 6179884 B2 JP6179884 B2 JP 6179884B2
- Authority
- JP
- Japan
- Prior art keywords
- wfst
- word
- string
- storage unit
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 64
- 238000013519 translation Methods 0.000 title claims description 49
- 230000007704 transition Effects 0.000 claims description 136
- 238000009825 accumulation Methods 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 34
- 230000001419 dependent effect Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 description 42
- 238000010586 diagram Methods 0.000 description 11
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
Description
本実施の形態において、音素環境依存WFST(C)と単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したWFSTであるCLのWFST、および単語と重みとを有する言語モデルのWFST(G)であるGのWFSTとを有する環境において、新規単語の登録指示を受け付けた場合、CLのWFST内に、新規単語を登録するWFST作成装置1について説明する。
まず、ユーザは、単語の単音素列「t o d e ng a r a k a w a s e ng」と、単語の文字列「都電荒川線」とをWFST作成装置1に入力する。
具体例2は、クラス言語モデルWFSTへ、単語を受け付ける状態遷移が追加される場合である。つまり、ここでは、新規単語蓄積部14は、受付部13が受け付けた単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列をCLのWFSTから取得し、当該単語列を入力とし、単語の文字列を出力とする状態遷移を構成し、受付部13が受け付けたクラスに対応するGのWFSTに追加する。
本実施の形態において、WFST作成装置1を用いて作成したWFSTを用いた音声認識装置2について、図11を用いて説明する。
本実施の形態において、機械翻訳のために使用するWFSTを作成するWFST作成装置3について、図12を用いて説明する。
具体例1は、単語列を入力とし、新規登録する単語の文字列を出力とする状態遷移を構成し、当該状態遷移をPのWFSTに追加する場合である。
具体例2は、受付部36が受け付けた原言語の文字列を入力とし、2以上の目的言語のフレーズを出力とする状態遷移をTのWFSTに追加する場合である。
具体例3は、2以上の目的言語の単語の列からなるフレーズを入力とし、2以上の目的言語の単語の列を出力とする状態遷移をRのWFSTに追加する場合である。
本実施の形態において、音声認識装置2を用いた音声翻訳装置4について、図18を用いて説明する。図18は、本実施の形態における音声翻訳装置4のブロック図である。音声翻訳装置4は、PTRGWFST格納部41、音声認識装置2、機械翻訳部42、翻訳結果出力部43を備える。
2 音声認識装置
4 音声翻訳装置
11 CLWFST格納部
12 GWFST格納部
13、36 受付部
14、37 新規単語蓄積部
23 音声受付部
24 音声認識部
25 出力部
32 PWFST格納部
33 TWFST格納部
34 RWFST格納部
35 第二GWFST格納部
41 PTRGWFST格納部
42 機械翻訳部
43 翻訳結果出力部
Claims (12)
- トライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ(WFST)である音素環境依存WFST(C)と、単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したCLのWFSTを格納し得るCLWFST格納部と、
単語と重みとを有する言語モデルのWFST(G)であるGのWFSTを格納し得るGWFST格納部と、
単語の単音素列と当該単語の文字列とを受け付ける受付部と、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する新規単語蓄積部とを具備するWFST作成装置。 - 前記新規単語蓄積部は、
さらに、前記受付部が受け付けた単語の単音素列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する請求項1記載のWFST作成装置。 - 前記新規単語蓄積部は、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する単語列が2以上存在する場合、当該単語列を構成する単語の数が最少である単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する請求項1または請求項2記載のWFST作成装置。 - 前記GのWFSTは、
単語と当該単語が属するクラスと重みを有するクラス言語モデルのWFSTであり、
前記受付部は、
単語の単音素列と当該単語の文字列と当該単語のクラスとを受け付け、
前記新規単語蓄積部は、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記受付部が受け付けたクラスに対応するGのWFSTに追加する請求項1から請求項3いずれか一項に記載のWFST作成装置。 - 原言語のトライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ(WFST)である音素環境依存WFST(C)と、原言語の単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したCLのWFSTを格納し得るCLWFST格納部と、
原言語の単語列から原言語のフレーズ列を取得するためのWFSTであるPのWFSTを格納し得るPWFST格納部と、
原言語のフレーズ列から目的言語のフレーズ列を取得するためのWFSTであるTのWFSTを格納し得るTWFST格納部と、
目的言語のフレーズ列から1以上の単語の並びである単語列を取得するためのWFSTであるRのWFSTを格納し得るRWFST格納部と、
目的言語の単語と重みとを有する言語モデルのWFST(G')であるG'のWFSTを格納し得る第二GWFST格納部と、
原言語の単語の単音素列と当該単語の文字列とを受け付ける受付部と、
前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記PのWFSTに追加する新規単語蓄積部とを具備するWFST作成装置。 - 前記新規単語蓄積部は、
前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を構成する2以上の各単語に対応する目的言語の単語を、前記TのWFSTから取得し、前記受付部が受け付けた原言語の文字列を入力とし、前記2以上の目的言語の単語の列を出力とする状態遷移を構成し、当該状態遷移を前記TのWFSTに追加する請求項5記載のWFST作成装置。 - 前記新規単語蓄積部は、
前記2以上の目的言語の単語の列からなるフレーズを入力とし、前記2以上の目的言語の単語の列を出力とする状態遷移を構成し、当該状態遷移を前記RのWFSTに追加する請求項6記載のWFST作成装置。 - 前記G'のWFSTは、
目的言語の単語と当該単語が属するクラスと重みを有するクラス言語モデルのWFSTであり、
前記受付部は、
原言語の単語の単音素列と当該単語の文字列と当該単語のクラスとを受け付け、
前記新規単語蓄積部は、
前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を構成する2以上の各単語に対応する目的言語の単語を、前記TのWFSTから取得し、前記2以上の目的言語の単語の列を前記G'のWFSTに追加する請求項7記載のWFST作成装置。 - 請求項1から請求項4いずれか一項に記載のWFST作成装置が具備するCLWFST格納部と、
請求項1から請求項4いずれか一項に記載のWFST作成装置が具備するGWFST格納部と、
音声を受け付ける音声受付部と、
前記CLWFST格納部に格納されているCLのWFST、および前記GWFST格納部に格納されているGのWFSTを用いて、前記音声に対して音声認識処理を行い、文字列を取得する音声認識部と、
前記音声認識部が取得した文字列を出力する出力部とを具備する音声認識装置。 - 請求項5から請求項8いずれか一項に記載のWFST作成装置が具備するPWFST格納部に格納されているPのWFSTと、請求項5から請求項8いずれか一項に記載のWFST作成装置が具備するTWFST格納部に格納されているTのWFSTと、請求項5から請求項8いずれか一項に記載のWFST作成装置が具備するRWFST格納部に格納されているRのWFSTと、
請求項5から請求項8いずれか一項に記載のWFST作成装置が具備する第二GWFST格納部に格納されているG'のWFSTとを合成したPTRG'のWFSTを格納し得るWFSTPTRG格納部と、
請求項5記載の音声認識装置と、
前記音声認識装置が出力した原言語の文字列を、前記PTRG'のWFSTを用いて機械翻訳し、目的言語の文字列を取得する機械翻訳部と、
前記目的言語の文字列を出力する翻訳結果出力部とを具備する音声翻訳装置。 - 記録媒体は、
トライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ(WFST)である音素環境依存WFST(C)と、単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したCLのWFSTを格納し得るCLWFST格納部と、
単語と重みとを有する言語モデルのWFST(G)であるGのWFSTを格納し得るGWFST格納部とを具備し、
受付部と新規単語蓄積部とにより実現されるWFST作成方法であって、
前記受付部は、単語の単音素列と当該単語の文字列とを受け付ける受付ステップと、
前記新規単語蓄積部は、前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する新規単語蓄積ステップとを具備するWFST作成方法。 - コンピュータがアクセス可能な記録媒体は、
トライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ(WFST)である音素環境依存WFST(C)と、単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したCLのWFSTを格納し得るCLWFST格納部と、
単語と重みとを有する言語モデルのWFST(G)であるGのWFSTを格納し得るGWFST格納部とを具備し、
コンピュータを、
単語の単音素列と当該単語の文字列とを受け付ける受付部と、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する新規単語蓄積部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012257341A JP6179884B2 (ja) | 2012-11-26 | 2012-11-26 | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012257341A JP6179884B2 (ja) | 2012-11-26 | 2012-11-26 | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014106272A JP2014106272A (ja) | 2014-06-09 |
JP6179884B2 true JP6179884B2 (ja) | 2017-08-16 |
Family
ID=51027847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012257341A Active JP6179884B2 (ja) | 2012-11-26 | 2012-11-26 | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6179884B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6095588B2 (ja) * | 2013-06-03 | 2017-03-15 | 日本電信電話株式会社 | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム |
JP6453631B2 (ja) * | 2014-11-28 | 2019-01-16 | 株式会社東芝 | 認識システム、認識方法およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248980A (ja) * | 1995-03-06 | 1996-09-27 | Fuji Xerox Co Ltd | 音声認識装置 |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
JP2007257134A (ja) * | 2006-03-22 | 2007-10-04 | Mitsubishi Electric Corp | 音声検索装置、音声検索方法および音声検索プログラム |
JP5199985B2 (ja) * | 2009-11-30 | 2013-05-15 | 日本電信電話株式会社 | 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム |
-
2012
- 2012-11-26 JP JP2012257341A patent/JP6179884B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014106272A (ja) | 2014-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6434948B2 (ja) | 名前発音システム及び方法 | |
US11450313B2 (en) | Determining phonetic relationships | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
US11908448B2 (en) | Parallel tacotron non-autoregressive and controllable TTS | |
US20060069566A1 (en) | Segment set creating method and apparatus | |
CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
JP6095588B2 (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
CN112037755B (zh) | 一种基于音色克隆的语音合成方法、装置及电子设备 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
JP2015169698A (ja) | 音声検索装置、音声検索方法及びプログラム | |
KR102056400B1 (ko) | 심화 신경망을 이용한 다화자 음성 합성 방법 및 시스템 | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
ES2330669T3 (es) | Procedimiento y sistema de dialogo de voz. | |
JP6179884B2 (ja) | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム | |
JP5701348B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
CN114121010A (zh) | 模型训练、语音生成、语音交互方法、设备以及存储介质 | |
JP5881157B2 (ja) | 情報処理装置、およびプログラム | |
JP5877823B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP7012935B1 (ja) | プログラム、情報処理装置、方法 | |
JP3821131B2 (ja) | 音声合成装置および音声合成方法 | |
JP2024082673A (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
JP2005215411A (ja) | 音声合成装置および音声合成方法 | |
JP2005215288A (ja) | 音声合成装置および音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151022 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6179884 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |