JP2014106272A - Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム - Google Patents
Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム Download PDFInfo
- Publication number
- JP2014106272A JP2014106272A JP2012257341A JP2012257341A JP2014106272A JP 2014106272 A JP2014106272 A JP 2014106272A JP 2012257341 A JP2012257341 A JP 2012257341A JP 2012257341 A JP2012257341 A JP 2012257341A JP 2014106272 A JP2014106272 A JP 2014106272A
- Authority
- JP
- Japan
- Prior art keywords
- wfst
- word
- string
- storage unit
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】トライフォン音素列を単音素列に変換するためのWFSTである音素環境依存WFST(C)と、単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したWFSTであるCLのWFSTを格納し得るCLWFST格納部11と、単語と重みとを有する言語モデルのWFST(G)であるGのWFSTを格納し得るGWFST格納部12と、単語の単音素列と単語の文字列とを受け付ける受付部13と、単語の単音素列を入力とし、単語の文字列を出力とする状態遷移を構成し、GWFST格納部12に蓄積する新規単語蓄積部14を具備するWFST作成装置1により、WFSTに新しい単語を簡単に追加できる。
【選択図】図1
Description
本実施の形態において、音素環境依存WFST(C)と単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したWFSTであるCLのWFST、および単語と重みとを有する言語モデルのWFST(G)であるGのWFSTとを有する環境において、新規単語の登録指示を受け付けた場合、CLのWFST内に、新規単語を登録するWFST作成装置1について説明する。
まず、ユーザは、単語の単音素列「t o d e ng a r a k a w a s e ng」と、単語の文字列「都電荒川線」とをWFST作成装置1に入力する。
具体例2は、クラス言語モデルWFSTへ、単語を受け付ける状態遷移が追加される場合である。つまり、ここでは、新規単語蓄積部14は、受付部13が受け付けた単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列をCLのWFSTから取得し、当該単語列を入力とし、単語の文字列を出力とする状態遷移を構成し、受付部13が受け付けたクラスに対応するGのWFSTに追加する。
本実施の形態において、WFST作成装置1を用いて作成したWFSTを用いた音声認識装置2について、図11を用いて説明する。
本実施の形態において、機械翻訳のために使用するWFSTを作成するWFST作成装置3について、図12を用いて説明する。
具体例1は、単語列を入力とし、新規登録する単語の文字列を出力とする状態遷移を構成し、当該状態遷移をPのWFSTに追加する場合である。
具体例2は、受付部36が受け付けた原言語の文字列を入力とし、2以上の目的言語のフレーズを出力とする状態遷移をTのWFSTに追加する場合である。
具体例3は、2以上の目的言語の単語の列からなるフレーズを入力とし、2以上の目的言語の単語の列を出力とする状態遷移をRのWFSTに追加する場合である。
本実施の形態において、音声認識装置2を用いた音声翻訳装置4について、図18を用いて説明する。図18は、本実施の形態における音声翻訳装置4のブロック図である。音声翻訳装置4は、PTRGWFST格納部41、音声認識装置2、機械翻訳部42、翻訳結果出力部43を備える。
2 音声認識装置
4 音声翻訳装置
11 CLWFST格納部
12 GWFST格納部
13、36 受付部
14、37 新規単語蓄積部
23 音声受付部
24 音声認識部
25 出力部
32 PWFST格納部
33 TWFST格納部
34 RWFST格納部
35 第二GWFST格納部
41 PTRGWFST格納部
42 機械翻訳部
43 翻訳結果出力部
Claims (12)
- トライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ(WFST)である音素環境依存WFST(C)と、単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したCLのWFSTを格納し得るCLWFST格納部と、
単語と重みとを有する言語モデルのWFST(G)であるGのWFSTを格納し得るGWFST格納部と、
単語の単音素列と当該単語の文字列とを受け付ける受付部と、
前記単語の単音素列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する新規単語蓄積部とを具備するWFST作成装置。 - 前記新規単語蓄積部は、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する請求項1記載のWFST作成装置。 - 前記新規単語蓄積部は、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する単語列が2以上存在する場合、当該単語列を構成する単語の数が最少である単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する請求項2記載のWFST作成装置。 - 前記GのWFSTは、
単語と当該単語が属するクラスと重みを有するクラス言語モデルのWFSTであり、
前記受付部は、
単語の単音素列と当該単語の文字列と当該単語のクラスとを受け付け、
前記新規単語蓄積部は、
前記受付部が受け付けた単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記受付部が受け付けたクラスに対応するGのWFSTに追加する請求項2または請求項3記載のWFST作成装置。 - 原言語のトライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ(WFST)である音素環境依存WFST(C)と、原言語の単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したCLのWFSTを格納し得るCLWFST格納部と、
原言語の単語列から原言語のフレーズ列を取得するためのWFSTであるPのWFSTを格納し得るPWFST格納部と、
原言語のフレーズ列から目的言語のフレーズ列を取得するためのWFSTであるTのWFSTを格納し得るTWFST格納部と、
目的言語のフレーズ列から1以上の単語の並びである単語列を取得するためのWFSTであるRのWFSTを格納し得るRWFST格納部と、
目的言語の単語と重みとを有する言語モデルのWFST(G')であるG'のWFSTを格納し得る第二GWFST格納部と、
原言語の単語の単音素列と当該単語の文字列とを受け付ける受付部と、
前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記PのWFSTに追加する新規単語蓄積部とを具備するWFST作成装置。 - 前記新規単語蓄積部は、
前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を構成する2以上の各単語に対応する目的言語の単語を、前記TのWFSTから取得し、前記受付部が受け付けた原言語の文字列を入力とし、前記2以上の目的言語の単語の列を出力とする状態遷移を構成し、当該状態遷移を前記TのWFSTに追加する請求項5記載のWFST作成装置。 - 前記新規単語蓄積部は、
前記2以上の目的言語の単語の列からなるフレーズを入力とし、前記2以上の目的言語の単語の列を出力とする状態遷移を構成し、当該状態遷移を前記RのWFSTに追加する請求項6記載のWFST作成装置。 - 前記G'のWFSTは、
目的言語の単語と当該単語が属するクラスと重みを有するクラス言語モデルのWFSTであり、
前記受付部は、
原言語の単語の単音素列と当該単語の文字列と当該単語のクラスとを受け付け、
前記新規単語蓄積部は、
前記受付部が受け付けた原言語の単語の単音素列と同一の単音素列を構成する2以上の単語からなる単語列を前記CLのWFSTから取得し、当該単語列を構成する2以上の各単語に対応する目的言語の単語を、前記TのWFSTから取得し、前記2以上の目的言語の単語の列を前記G'のWFSTに追加する請求項7記載のWFST作成装置。 - 請求項1から請求項4いずれか一項に記載のWFST作成装置が具備するCLWFST格納部と、
請求項1から請求項4いずれか一項に記載のWFST作成装置が具備するGWFST格納部と、
音声を受け付ける音声受付部と、
前記CLWFST格納部に格納されているCLのWFST、および前記GWFST格納部に格納されているGのWFSTを用いて、前記音声に対して音声認識処理を行い、文字列を取得する音声認識部と、
前記音声認識部が取得した文字列を出力する出力部とを具備する音声認識装置。 - 請求項5から請求項8いずれか一項に記載のWFST作成装置が具備するPWFST格納部に格納されているPのWFSTと、請求項5から請求項8いずれか一項に記載のWFST作成装置が具備するTWFST格納部に格納されているTのWFSTと、請求項5から請求項8いずれか一項に記載のWFST作成装置が具備するRWFST格納部に格納されているRのWFSTと、
請求項5から請求項8いずれか一項に記載のWFST作成装置が具備する第二GWFST格納部に格納されているG'のWFSTとを合成したPTRG'のWFSTを格納し得るWFSTPTRG格納部と、
請求項5記載の音声認識装置と、
前記音声認識装置が出力した原言語の文字列を、前記PTRG'のWFSTを用いて機械翻訳し、目的言語の文字列を取得する機械翻訳部と、
前記目的言語の文字列を出力する翻訳結果出力部とを具備する音声翻訳装置。 - 記録媒体に、
トライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ(WFST)である音素環境依存WFST(C)と、単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したCLのWFSTを格納し得るCLWFST格納部と、
単語と重みとを有する言語モデルのWFST(G)であるGのWFSTを格納し得るGWFST格納部とを具備し、
受付部と新規単語蓄積部とにより実現されるWFST作成方法であって、
前記受付部は、単語の単音素列と当該単語の文字列とを受け付ける受付ステップと、
前記新規単語蓄積部は、前記単語の単音素列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する新規単語蓄積ステップとを具備するWFST作成方法。 - 記録媒体に、
トライフォン音素列を単音素列に変換するための重み付き有限状態トランスデューサ(WFST)である音素環境依存WFST(C)と、単音素列を単語列に変換するためのWFSTである単語辞書WFST(L)とを合成したCLのWFSTを格納し得るCLWFST格納部と、
単語と重みとを有する言語モデルのWFST(G)であるGのWFSTを格納し得るGWFST格納部とを具備し、
コンピュータを、
単語の単音素列と当該単語の文字列とを受け付ける受付部と、
前記単語の単音素列を入力とし、前記単語の文字列を出力とする状態遷移を構成し、当該状態遷移を前記GのWFSTに追加する新規単語蓄積部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012257341A JP6179884B2 (ja) | 2012-11-26 | 2012-11-26 | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012257341A JP6179884B2 (ja) | 2012-11-26 | 2012-11-26 | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014106272A true JP2014106272A (ja) | 2014-06-09 |
JP6179884B2 JP6179884B2 (ja) | 2017-08-16 |
Family
ID=51027847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012257341A Active JP6179884B2 (ja) | 2012-11-26 | 2012-11-26 | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6179884B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015014774A (ja) * | 2013-06-03 | 2015-01-22 | 日本電信電話株式会社 | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム |
JP2016102947A (ja) * | 2014-11-28 | 2016-06-02 | 株式会社東芝 | 生成装置、認識装置、生成方法およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248980A (ja) * | 1995-03-06 | 1996-09-27 | Fuji Xerox Co Ltd | 音声認識装置 |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
JP2007257134A (ja) * | 2006-03-22 | 2007-10-04 | Mitsubishi Electric Corp | 音声検索装置、音声検索方法および音声検索プログラム |
JP2011113043A (ja) * | 2009-11-30 | 2011-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム |
-
2012
- 2012-11-26 JP JP2012257341A patent/JP6179884B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248980A (ja) * | 1995-03-06 | 1996-09-27 | Fuji Xerox Co Ltd | 音声認識装置 |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
JP2007257134A (ja) * | 2006-03-22 | 2007-10-04 | Mitsubishi Electric Corp | 音声検索装置、音声検索方法および音声検索プログラム |
JP2011113043A (ja) * | 2009-11-30 | 2011-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
堀 貴明 TAKAAKI HORI: "音声情報処理技術の最先端 State-of-the-art Technology of Speech Information Processing", 情報処理 第45巻 第10号 IPSJ MAGAZINE, vol. 第45巻, JPN6016044652, 15 October 2004 (2004-10-15), JP, pages 1020 - 1026, ISSN: 0003444086 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015014774A (ja) * | 2013-06-03 | 2015-01-22 | 日本電信電話株式会社 | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム |
JP2016102947A (ja) * | 2014-11-28 | 2016-06-02 | 株式会社東芝 | 生成装置、認識装置、生成方法およびプログラム |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
JP6179884B2 (ja) | 2017-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6434948B2 (ja) | 名前発音システム及び方法 | |
US11450313B2 (en) | Determining phonetic relationships | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
US11908448B2 (en) | Parallel tacotron non-autoregressive and controllable TTS | |
WO2022203699A1 (en) | Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech | |
JP6095588B2 (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
CN112102811B (zh) | 一种合成语音的优化方法、装置及电子设备 | |
JP2015169698A (ja) | 音声検索装置、音声検索方法及びプログラム | |
CN112037755B (zh) | 一种基于音色克隆的语音合成方法、装置及电子设备 | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
ES2330669T3 (es) | Procedimiento y sistema de dialogo de voz. | |
KR102056400B1 (ko) | 심화 신경망을 이용한 다화자 음성 합성 방법 및 시스템 | |
JP6179884B2 (ja) | Wfst作成装置、音声認識装置、音声翻訳装置、wfst作成方法、およびプログラム | |
JP2022133447A (ja) | 音声処理方法、装置、電子機器及び記憶媒体 | |
JP5701348B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
CN114121010A (zh) | 模型训练、语音生成、语音交互方法、设备以及存储介质 | |
JP5881157B2 (ja) | 情報処理装置、およびプログラム | |
JP2011242470A (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP5877823B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JPWO2014061230A1 (ja) | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム | |
JP7012935B1 (ja) | プログラム、情報処理装置、方法 | |
JP3821131B2 (ja) | 音声合成装置および音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151022 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170616 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6179884 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |