JP6325789B2 - 翻訳装置及び翻訳プログラム - Google Patents
翻訳装置及び翻訳プログラム Download PDFInfo
- Publication number
- JP6325789B2 JP6325789B2 JP2013202405A JP2013202405A JP6325789B2 JP 6325789 B2 JP6325789 B2 JP 6325789B2 JP 2013202405 A JP2013202405 A JP 2013202405A JP 2013202405 A JP2013202405 A JP 2013202405A JP 6325789 B2 JP6325789 B2 JP 6325789B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- word
- character
- language
- sign language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本実施形態では、例えば翻訳対象言語(例えば、日本語)と手話との翻訳手法を提供する。本実施形態では、例えば日本語(元言語)から手話(目的言語)への翻訳でもよく、手話(元言語)から日本語(目的言語)への翻訳でもよい。この場合、翻訳対象言語である日本語は、元言語にも目的言語にも成り得る。以下では、一例として日本語を元言語とし、その日本語に対応する手話(日本手話)を目的言語として翻訳する手法について説明する。
漢字手話とは、例えば固有名詞を文字毎に分割し、各文字に対応する手話で置き換えた場合の翻訳を意味する。例えば、日本語の漢字「福」に対応する漢字手話は、意味的に近い手話単語である{幸せ}である。これを使って、「福島」であれば、「福」と「島」に分けて、「福」に対応する漢字手話{幸せ}と、「島」を表す漢字手話{島}の2単語で表現される。なお、これらの単語は、後述する「(2)指文字」より簡潔に表現できることが多く、例えば固定訳がない場合に多く用いられる。
指文字とは、例えば固有名詞の読み仮名を指文字で表した場合の翻訳を意味する。手話では、日本語の仮名文字50音が全て指文字として定義されている。指文字は、表現力は高いが、1単語を表すのに時間がかかるという問題があるため、日本語の翻訳ではあまり使われない。しかしながら、指文字は、漢字手話での翻訳がしづらい場合や外国の地名、カタカナ語等にはよく用いられる。
漢字手話+指文字は、例えば上述した「(1)漢字手話」と「(2)指文字」とを組み合わせた翻訳手法を意味する。例えば「長野」であれば、「長」は手話単語の{長い}を使った漢字手話で表し、「野」は指文字の{ノ}で表す。例えば、「野」のように、読み仮名の短い漢字に対しては指文字が使われることも多い。
固定訳は、例えばある固有名詞に対応する手話単語がすでに決まっている場合を表す。例えば、「広島」であれば、手話では厳島神社の鳥居の形を手指動作で表現することで表す。固定訳では、非常に特徴的な表現であることが多く、意味を確実に伝えることができ、かつ簡潔に表現できるため、固定訳がある場合は、優先して使われることが多い。
図1は、翻訳装置の機能構成の一例を示す図である。図1における翻訳装置10は、翻訳モデル学習手段11と、単語入力手段12と、固定訳翻訳手段13と、入力文字分割手段14と、翻訳手段15と、指文字変換手段16と、翻訳結果出力手段17とを有するよう構成されている。
ここで、上述した翻訳モデル学習手段11における機能構成例について具体的に説明する。図1の例に示すように、翻訳モデル学習手段11は、例えば学習データ格納手段(センテンスペア)31と、文分割手段32と、学習データ格納手段(フレーズペア)33と、文字単位分割手段34と、置き換えモデル学習手段35と、言語モデル学習手段36と、翻訳モデル格納手段37とを有するよう構成されている。なお、学習データ格納手段(センテンスペア)31と、学習データ格納手段(フレーズペア)33とは、1つの学習データ格納手段として構成されていてもよい。
ここで、上述した本実施形態における指文字変換手段16は、例えば翻訳の際に翻訳モデルにない入力文字があった場合や、翻訳の結果として「エン(指文字)」等が得られた場合等に、その文字に対応する読みを使った指文字を取得する。この指文字変換は、例えば予め設定された指文字変換辞書等を用いて変換されるが、漢字と読みを対応付ける必要がある。そのため、翻訳装置10は、指文字変換手段16に入力される単語文字列に対して読みを対応付ける機能を設けて機能を拡張してもよい。
次に、本実施形態における翻訳モデル学習処理の一例について、フローチャートを用いて説明する。図3は、翻訳モデル学習処理の一例を示すフローチャートである。図3の例において、翻訳モデル学習手段11は、予め格納された学習データに含まれる元言語(日本語)と目的言語(日本手話)とのセンテンスペアを文分割し、フレーズペアを生成して格納する(S01)。
次に、本実施形態における翻訳処理の一例について、フローチャートを用いて説明する。図4は、翻訳処理の一例を示すフローチャートである。図4の例において、翻訳装置10は、単語入力手段12等により翻訳対象の単語(文字列等を含む)の入力を受け付ける(S11)。
次に、本実施形態で用いられる各種データ例について、図を用いて説明する。
図5は、置き換えモデルの一例を示す図である。置き換えモデルは、置き換えモデル学習手段35で学習されるデータである。図5の例において、置き換えモデルの項目としては、例えば「日本語(元言語)表記」、「手話(目的言語)表記」、「各種確率」、「(置き換えモデル内で)同じ手話表現を持つ行数」、「(置き換えモデル内で)同じ日本語表現を持つ行数」等があるが、これに限定されるものではない。
図6は、言語モデルの一例を示す図である。言語モデルは、言語モデル学習手段36で学習されるデータである。図6の例に示す言語モデルの項目としては、例えば「単語が並ぶ確率(の対数尤度)」、「単語の並び」、「バックオフ確率」等があるが、これに限定されるものではない。本実施形態における翻訳処理で使用している項目は、「単語が並ぶ確率(の対数尤度)」、「単語の並び」であるため、「バックオフ確率」は、言語モデルに含まれていなくてもよい。
次に、本実施形態における翻訳モデルの学習と翻訳の具体例について説明する。例えば、学習データ格納手段(センテンスペア)31に格納されているセンテンスペアの例として、
「日本語:長野/は/朝/から/晴れる/でしょ/う」
「手話:{長い}/{ノ[指文字]}/{朝}/{から}/{晴れ}/{夢}」
があるとする。なお、上述した「/」は、ここでは分割された単語の区切りを示すラベルである。
1.「日本語:長野/は」、「手話:{長い}/{ノ[指文字]}」
2.「日本語:朝/から」、「手話:{朝}/{から}」
3.「日本語:晴れる/でしょ/う」、「手話:{晴れ}/{夢}」
と、3つのフレーズペアが生成できる。本実施形態では、このフレーズペアの日本語を文字単位に分けた上で、上述した置き換えモデルの学習を行う。
翻訳装置10は、例えば入力単語として「加藤」が入力された場合、固定訳辞書21を用いた翻訳を行い、固定訳辞書21に「加藤→{加藤}」が存在する場合には、{加藤}という翻訳結果を出力する。
翻訳装置10は、例えば入力単語として「福島」が入力された場合に、まず固定訳辞書21を用いた翻訳を行い、固定訳辞書21に入力単語が含まれていないため、翻訳モデル格納手段37に格納された翻訳モデルから、「福→{幸せ}」、「島→{島}」の翻訳規則を用いて翻訳を行い、{幸せ}{島}という翻訳結果を出力する。
翻訳装置10は、例えば入力単語として「園田」が入力された場合、まず固定訳辞書21を用いた翻訳を行い、固定訳辞書21に入力単語が含まれていないため、文字毎に翻訳して「園→{エン(指文字)}」「田→{田}」が得られる。
翻訳装置10は、例えば入力単語として「釜石」が入力された場合、まず固定訳辞書21を用いた翻訳を行い、固定訳辞書21に「石→{石}」があるが、「釜」については辞書に含まれていないため、翻訳モデル格納手段37に格納された翻訳モデルを用いて翻訳を行うが、「釜」の字が未学習の場合であり翻訳規則がない。
つまり、本実施形態における翻訳手法は、例えば固有名詞等の単語が入力された場合に、まず固有名詞を文字毎に分割し、それぞれの文字に対応する手話単語を置き換えモデルから取得する。その結果、それぞれの文字毎に複数の翻訳候補を取得できるため、次にそれらを全てのパターンで組み合わせる。
福→{幸せ}:尤度0.6
福→{フク[指文字]}:尤度0.5
島→{島}:尤度0.7
島→{岸}{島}:尤度0.2
等の候補が得られたとする。
{幸せ}{島}:尤度0.6
{フク[指文字]}{島}:尤度0.3
{幸せ}{岸}{島}:尤度0.2
{フク[指文字]}{岸}{島}:尤度0.1
等となる。これらの結果から、
P({幸せ}{島})=0.6*0.7*0.6=0.252
P({フク[指文字]}{島})=0.5*0.7*0.3=0.105
P({幸せ}{岸}{島})=0.6*0.2*0.2=0.024
P({フク[指文字]}{岸}{島})=0.5*0.2*0.1=0.01
等となり、{幸せ}{島}が最大のスコア(0.252)となるため、これが最終的な翻訳結果として出力される。
次に、本実施形態と従来手法との翻訳結果の比較例について説明する。図7は、従来手法との比較例を示す図である。比較例では、単語のアライメントと翻訳モデルの生成に、「GIZA++」と「grow−diag−final−and」を用いた。デコーダには「Moses」を用い、言語モデルの学習には「SRILM」を用いた。
ここで、上述した翻訳装置10は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置(格納装置)、ROM(Read Only Memory)等の不揮発性の記憶装置(格納装置)、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
11 翻訳モデル学習手段
12 単語入力手段
13 固定訳翻訳手段
14 入力文字分割手段
15 翻訳手段
16 指文字変換手段
17 翻訳結果出力手段
21 固定訳辞書
31 学習データ格納手段(センテンスペア)
32 文分割手段
33 学習データ格納手段(フレーズペア)
34 文字単位分割手段
35 置き換えモデル学習手段
36 言語モデル学習手段
37 翻訳モデル格納手段
41 単語読み入力手段
42 単語−読み対応付け手段
Claims (3)
- 日本語の固有名詞の単語文字列である入力データに対する手話翻訳を行う翻訳装置において、
前記入力データを前記固有名詞の単語文字列の文字毎に分割する入力文字分割手段と、
前記入力データに対して予め前記日本語の固有名詞に対応する手話単語が設定された固定訳辞書を用いて前記入力データに対する手話翻訳を行う固定訳翻訳手段と、
前記入力文字分割手段により分割された文字に対して、予め翻訳対象言語と手話との学習データの組み合わせを前記入力文字分割手段により文字単位に分割されたフレーズ単位で学習した翻訳モデルを用いて翻訳を行う翻訳手段と、
前記翻訳手段により翻訳された翻訳結果を出力する翻訳結果出力手段と、
予め設定された学習データに含まれる前記翻訳対象言語と前記手話とのセンテンス毎の学習データをフレーズ単位の文に分割して得られるフレーズペアの学習データを文字単位に分割し、分割されたフレーズと、前記センテンス毎の学習データに対応する言語モデルとを用いて前記翻訳モデルを学習する翻訳モデル学習手段と、を有し、
前記翻訳手段は、前記入力データのうち、前記固定訳翻訳手段により翻訳できなかった単語に対して前記翻訳モデルを用いた翻訳を行うことを特徴とする翻訳装置。 - 前記入力データのうち、前記固定訳翻訳手段及び前記翻訳手段で翻訳できなかった単語がある場合に、前記単語を指文字の手話に変換する指文字変換手段を有することを特徴とする請求項1に記載の翻訳装置。
- コンピュータを、請求項1または2に記載の翻訳装置が有する各手段として機能させるための翻訳プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013202405A JP6325789B2 (ja) | 2013-09-27 | 2013-09-27 | 翻訳装置及び翻訳プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013202405A JP6325789B2 (ja) | 2013-09-27 | 2013-09-27 | 翻訳装置及び翻訳プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015069359A JP2015069359A (ja) | 2015-04-13 |
JP6325789B2 true JP6325789B2 (ja) | 2018-05-16 |
Family
ID=52835973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013202405A Active JP6325789B2 (ja) | 2013-09-27 | 2013-09-27 | 翻訳装置及び翻訳プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6325789B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7515297B2 (ja) | 2020-05-08 | 2024-07-12 | 日本放送協会 | 翻訳装置、手話映像生成装置、およびプログラム |
CN111611811B (zh) * | 2020-05-25 | 2023-01-13 | 腾讯科技(深圳)有限公司 | 翻译方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050033578A1 (en) * | 2003-08-07 | 2005-02-10 | Mara Zuckerman | Text-to-video sign language translator |
US20090012788A1 (en) * | 2007-07-03 | 2009-01-08 | Jason Andre Gilbert | Sign language translation system |
JP6144458B2 (ja) * | 2012-03-06 | 2017-06-07 | 日本放送協会 | 手話翻訳装置及び手話翻訳プログラム |
-
2013
- 2013-09-27 JP JP2013202405A patent/JP6325789B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015069359A (ja) | 2015-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7529656B2 (en) | Translating method, translated sentence outputting method, recording medium, program, and computer device | |
Patel et al. | ES2ISL: an advancement in speech to sign language translation using 3D avatar animator | |
Pennell et al. | Normalization of text messages for text-to-speech | |
US20210233510A1 (en) | Language-agnostic Multilingual Modeling Using Effective Script Normalization | |
JP7400112B2 (ja) | 自動音声認識のための英数字列のバイアス付加 | |
Abbas et al. | Punjabi to ISO 15919 and Roman transliteration with phonetic rectification | |
JP6325789B2 (ja) | 翻訳装置及び翻訳プログラム | |
Monga et al. | Speech to Indian Sign Language Translator | |
JP2019215660A (ja) | 処理プログラム、処理方法および情報処理装置 | |
Jamro | Sindhi language processing: A survey | |
JP4018668B2 (ja) | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム | |
Ahmed et al. | Discovering lexical similarity using articulatory feature-based phonetic edit distance | |
Koanantakool et al. | Computers and the thai language | |
JP7247460B2 (ja) | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム | |
JP6144458B2 (ja) | 手話翻訳装置及び手話翻訳プログラム | |
CN111814433B (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP2009157888A (ja) | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム | |
JP2019095603A (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
Nanayakkara et al. | Context aware back-transliteration from english to sinhala | |
JP2014021180A (ja) | 手話翻訳装置及び手話翻訳プログラム | |
JP3961858B2 (ja) | 翻字装置及びそのプログラム | |
JP2019087058A (ja) | 文章中の省略を特定する人工知能装置 | |
JP2002123281A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160801 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170808 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6325789 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |