JP6325789B2

JP6325789B2 - 翻訳装置及び翻訳プログラム

Info

Publication number: JP6325789B2
Application number: JP2013202405A
Authority: JP
Inventors: 太郎宮▲崎▼; 加藤　直人; 直人加藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2013-09-27
Filing date: 2013-09-27
Publication date: 2018-05-16
Anticipated expiration: 2033-09-27
Also published as: JP2015069359A

Description

本願は、翻訳装置及び翻訳プログラムに係り、特に、固有名詞の高精度な手話翻訳を実現するための翻訳装置及び翻訳プログラムに関する。

元言語から目的の用途に対応させて様々な目的言語に翻訳する手法が存在する。例えば、固有名詞の翻訳の場合には、その固有名詞の読みが用いられる。例えば、「福島」を英語に翻訳する場合には、その読みをローマ字表記した「Ｆｕｋｕｓｈｉｍａ」となる。従来では、上述したように固有名詞等の読みに基づいた翻訳手法が存在する（例えば、特許文献１及び特許文献２参照）。

また、近年では、目的言語の一つとして手話への翻訳が注目されている。手話は、聴覚障害者にとって重要なコミュニケーション手段である。特に、先天的或いは幼少期に聴覚を失った人等にとって、手話は第一言語であり、日本語よりも理解しやすい。そのため、日本語の文字より手話での情報を提示した方が好ましいとされている。なお、手話は、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）等の映像を用いて提示することができる。そのため、元言語から手話に翻訳する際には、最初に元言語から手話単語列を変換し、変換した手話単語列から各単語に対応するＣＧを抽出し、抽出したＣＧを連結して手話映像を生成する。

特開２００５−９２６８２号公報特表２００５−５２０２５１号公報

ところで、手話における固有名詞等の多くは、文字毎に翻訳される。例えば、「松江」であれば、「松」の文字が手話単語の｛松｝に翻訳され、「江」の文字が指文字の｛エ｝に翻訳される（上述の｛｝に囲まれた部分は、手話の１単語を表し、以下の説明でも同様とする）。

したがって、手話による固有名詞の翻訳では、固有名詞の読みを使う場合が少ないため、従来の翻訳手法をそのまま適用することができない。

１つの側面では、本発明は、高精度な手話翻訳を実現するための翻訳装置及び翻訳プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

一態様における翻訳装置は、日本語の固有名詞の単語文字列である入力データに対する手話翻訳を行う翻訳装置において、前記入力データを前記固有名詞の単語文字列の文字毎に分割する入力文字分割手段と、前記入力データに対して予め前記日本語の固有名詞に対応する手話単語が設定された固定訳辞書を用いて前記入力データに対する手話翻訳を行う固定訳翻訳手段と、前記入力文字分割手段により分割された文字に対して、予め翻訳対象言語と手話との学習データの組み合わせを前記入力文字分割手段により文字単位に分割されたフレーズ単位で学習した翻訳モデルを用いて翻訳を行う翻訳手段と、前記翻訳手段により翻訳された翻訳結果を出力する翻訳結果出力手段と、予め設定された学習データに含まれる前記翻訳対象言語と前記手話とのセンテンス毎の学習データをフレーズ単位の文に分割して得られるフレーズペアの学習データを文字単位に分割し、分割されたフレーズと、前記センテンス毎の学習データに対応する言語モデルとを用いて前記翻訳モデルを学習する翻訳モデル学習手段と、を有し、前記翻訳手段は、前記入力データのうち、前記固定訳翻訳手段により翻訳できなかった単語に対して前記翻訳モデルを用いた翻訳を行う。

一態様における翻訳プログラムは、コンピュータを、上述した翻訳装置が有する各手段として機能させるための翻訳プログラムである。

手話翻訳において、特に固有名詞の高精度な翻訳を実現することができる。

翻訳装置の機能構成の一例を示す図である。指文字変換のための機能拡張例を示す図である。翻訳モデル学習処理の一例を示すフローチャートである。翻訳処理の一例を示すフローチャートである。置き換えモデルの一例を示す図である。言語モデルの一例を示す図である。従来手法との比較例を示す図である。

＜本実施形態について＞
本実施形態では、例えば翻訳対象言語（例えば、日本語）と手話との翻訳手法を提供する。本実施形態では、例えば日本語（元言語）から手話（目的言語）への翻訳でもよく、手話（元言語）から日本語（目的言語）への翻訳でもよい。この場合、翻訳対象言語である日本語は、元言語にも目的言語にも成り得る。以下では、一例として日本語を元言語とし、その日本語に対応する手話（日本手話）を目的言語として翻訳する手法について説明する。

ここで、一般に手話での固有名詞表現には、（１）漢字手話、（２）指文字、（３）漢字手話＋指文字、（４）固定訳の４つの手法が用いられる。

（１）漢字手話
漢字手話とは、例えば固有名詞を文字毎に分割し、各文字に対応する手話で置き換えた場合の翻訳を意味する。例えば、日本語の漢字「福」に対応する漢字手話は、意味的に近い手話単語である｛幸せ｝である。これを使って、「福島」であれば、「福」と「島」に分けて、「福」に対応する漢字手話｛幸せ｝と、「島」を表す漢字手話｛島｝の２単語で表現される。なお、これらの単語は、後述する「（２）指文字」より簡潔に表現できることが多く、例えば固定訳がない場合に多く用いられる。

（２）指文字
指文字とは、例えば固有名詞の読み仮名を指文字で表した場合の翻訳を意味する。手話では、日本語の仮名文字５０音が全て指文字として定義されている。指文字は、表現力は高いが、１単語を表すのに時間がかかるという問題があるため、日本語の翻訳ではあまり使われない。しかしながら、指文字は、漢字手話での翻訳がしづらい場合や外国の地名、カタカナ語等にはよく用いられる。

（３）漢字手話＋指文字
漢字手話＋指文字は、例えば上述した「（１）漢字手話」と「（２）指文字」とを組み合わせた翻訳手法を意味する。例えば「長野」であれば、「長」は手話単語の｛長い｝を使った漢字手話で表し、「野」は指文字の｛ノ｝で表す。例えば、「野」のように、読み仮名の短い漢字に対しては指文字が使われることも多い。

（４）固定訳
固定訳は、例えばある固有名詞に対応する手話単語がすでに決まっている場合を表す。例えば、「広島」であれば、手話では厳島神社の鳥居の形を手指動作で表現することで表す。固定訳では、非常に特徴的な表現であることが多く、意味を確実に伝えることができ、かつ簡潔に表現できるため、固定訳がある場合は、優先して使われることが多い。

このように、手話においては固定訳がある特殊な場合を除き、固有名詞の翻訳は、固有名詞を文字毎に分割し、文字毎に対応する手話単語か指文字に置き換えることで実現されている。

日本語から日本手話への固有名詞の翻訳においては、日本語の固有名詞に含まれる漢字を手話単語又は指文字に置き換えて表現する。そのため、固有名詞を文字毎に分割し、その文字がどの手話単語又は指文字に対応するかを１文字毎に決定するのが好ましい。

そこで、本実施形態では、機械翻訳の手法を用いて文字毎に対応する手話単語や指文字を学習する。なお、日本語の文字と手話単語の対応付けの部分の機械学習は、精度があまり高くならない。その原因としては、一文あたりに出現する日本語の文字数と手話の単語数との差が大きいことや、日本語の文字の異なり数と手話単語の異なり数の差が大きいことが挙げられる。

そこで、本実施形態では、学習に用いる文対（例えば、日本語と手話とで対応するセンテンスペア等）を予めフレーズ単位に分割して学習文対を短くすることで、適切な対応付けが容易になるようにする。

以下に、翻訳装置及び翻訳プログラムを好適に実施した形態について、図面を用いて詳細に説明する。

＜翻訳装置の機能構成例＞
図１は、翻訳装置の機能構成の一例を示す図である。図１における翻訳装置１０は、翻訳モデル学習手段１１と、単語入力手段１２と、固定訳翻訳手段１３と、入力文字分割手段１４と、翻訳手段１５と、指文字変換手段１６と、翻訳結果出力手段１７とを有するよう構成されている。

翻訳モデル学習手段１１は、事前に翻訳モデルを学習し、翻訳手段１５で使用する翻訳モデルを格納する。例えば、翻訳モデル学習手段１１は、学習に用いる文対（例えば、日本語と手話とで対応するセンテンスペア等）を予めフレーズ単位に分割して翻訳モデルを学習する。これにより、元言語（日本語）と目的言語（日本手話）との対応付けを適切に行って翻訳モデルを学習することができる。

単語入力手段１２は、入力データの一例として、翻訳対象の文字例（１単語又は複数単語からなる文字列（文章））の入力を受け付ける。単語入力手段１２における入力単語は、固定訳翻訳手段１３及び入力文字分割手段１４に出力される。単語入力手段１２は、例えばキーボードやタッチパネル上の操作ボタンを用いた文字入力、マイク等を用いた音声入力の各種入力手段により単語文字列を入力することができるが、これに限定されるものではない。例えば、単語入力手段１２は、ニュース原稿データや映画やドラマ等の台本データ等を入力してもよい。

固定訳翻訳手段１３は、予め設定された手話翻訳用の固定訳辞書２１を用いて、単語入力手段１２により入力された単語列のうち、固定訳辞書２１に含まれている単語があれば、その単語に対応する固定訳の手話に翻訳する。なお、固定訳辞書２１には、例えば「神戸→｛神戸｝」、「東京→｛東京｝」、「横浜→｛横浜｝」等のように、地名や人名等の固有名詞の単語とその単語に対する日本手話とが対応付けられて格納されている。固定訳翻訳手段１３により翻訳された結果は、入力文字分割手段１４に出力する。

入力文字分割手段１４は、単語入力手段１２により入力された単語文字列のうち、固定訳翻訳手段１３により翻訳された文字以外の単語を文字単位で分割する。入力文字分割手段１４は、分割した文字を翻訳手段１５に出力する。

翻訳手段１５は、分割した文字列を翻訳モデル学習手段１１で学習した翻訳モデルを用いて翻訳を行う。翻訳手段１５は、翻訳結果を指文字変換手段１６に出力する。この翻訳手段１５における翻訳には、例えば「ｍｏｓｅｓ」等の公知の統計的翻訳ツールキットが利用可能であるが、これに限定されるものではない。

指文字変換手段１６は、翻訳手段１５の結果から、単語入力手段１２により入力された単語文字列のうち、固定訳翻訳手段１３や翻訳手段１５でも、翻訳できていない残りの文字を指文字に変換する。指文字変換手段１６は、指文字変換結果を翻訳結果出力手段１７に出力する。

翻訳結果出力手段１７は、固定訳翻訳手段１３の翻訳結果と、翻訳手段１５の翻訳結果と、指文字変換手段１６による出力結果とを統合して単語入力手段１２により入力された単語文字列に対応する翻訳結果を出力する。

例えば、翻訳結果出力手段１７は、翻訳結果を予め設定されたＣＧキャラクタによる手話ＣＧに変換して画面等に出力することができるが、これに限定されるものではなく、例えば翻訳結果の文字列（例えば、「釜石→｛カマ（指文字）｝｛石｝」）等を出力してもよい。

＜翻訳モデル学習手段１１の機能構成例＞
ここで、上述した翻訳モデル学習手段１１における機能構成例について具体的に説明する。図１の例に示すように、翻訳モデル学習手段１１は、例えば学習データ格納手段（センテンスペア）３１と、文分割手段３２と、学習データ格納手段（フレーズペア）３３と、文字単位分割手段３４と、置き換えモデル学習手段３５と、言語モデル学習手段３６と、翻訳モデル格納手段３７とを有するよう構成されている。なお、学習データ格納手段（センテンスペア）３１と、学習データ格納手段（フレーズペア）３３とは、１つの学習データ格納手段として構成されていてもよい。

学習データ格納手段（センテンスペア）３１は、例えば所定の単語単位で区切られた元言語及び目的言語の文対を格納する。本実施形態では、学習データ格納手段（センテンスペア）３１は、例えば日本語と日本手話とのセンテンス（文節）毎のペアの学習データを格納する。

文分割手段３２は、学習データ格納手段（センテンスペア）３１に格納された文対ペア（センテンスペア）を入力して、ワードアライメント（例えば、単語の並びや単語同士の対応付け等）の結果を用いて、より短いフレーズペアに分割する。また、文分割手段３２は、各文のフレーズ単位に学習データ格納手段（フレーズペア）３３に格納する。ワードアライメントの取得には、例えば「ＧＩＺＡ＋＋」等の公知のツールキットが利用可能であるが、これに限定されるものではない。例えば「ＧＩＺＡ＋＋」は、統計翻訳に用いるための単語の確率値の計算を行うツールであり、単語の対応関係の確率値を計算することができる。そのため、文分割手段３２は、「ＧＩＺＡ＋＋」で計算を行い、その結果を用いてフレーズペア毎に分割して学習データ格納手段（フレーズペア）３３に格納することができる。

文字単位分割手段３４は、学習データ格納手段（フレーズペア）３３に格納される各フレーズペアのうち、日本語（元言語）について文字単位に分割する。この文字単位に分割された日本語と、その日本語に対応する手話の単語列とからなるフレーズペアを置き換えモデル学習手段３５に出力する。

置き換えモデル学習手段３５は、文字単位分割手段３４により文字単位に分割されたフレーズペアに対して、置き換えモデルの学習を行う。置き換えモデルは、日本語の複数文字と手話の複数単語との間での翻訳確率を計算してまとめたものである。置き換えモデルの具体例については、後述する。

言語モデル学習手段３６は、学習データ格納手段（センテンスペア）３１の内容に基づいて、その内容を言語モデルとして学習する。言語モデルは、学習データ格納手段（センテンスペア）３１のデータから言語モデルを生成する。この言語モデル学習手段３６における言語モデルの生成には、例えば「ＳＲＩＬＭ」等の公知の統計的言語モデル作成ツールキット等が利用可能であるが、これに限定されるものではない。

翻訳モデル格納手段３７は、置き換えモデル学習手段３５から得られる置き換えモデルの内容と、言語モデル学習手段３６から得られる言語モデルとを翻訳モデルとして格納する。

上述したように、翻訳モデル学習手段１１は、学習に用いる文対を予めフレーズ単位に分割することで、学習文対を短くし、翻訳対象の単語文字列との対応付けを適切かつ容易に行うことができ、高精度な翻訳を可能にする。

＜指文字変換のための機能拡張例（単語−読み対応付け）＞
ここで、上述した本実施形態における指文字変換手段１６は、例えば翻訳の際に翻訳モデルにない入力文字があった場合や、翻訳の結果として「エン（指文字）」等が得られた場合等に、その文字に対応する読みを使った指文字を取得する。この指文字変換は、例えば予め設定された指文字変換辞書等を用いて変換されるが、漢字と読みを対応付ける必要がある。そのため、翻訳装置１０は、指文字変換手段１６に入力される単語文字列に対して読みを対応付ける機能を設けて機能を拡張してもよい。

図２は、指文字変換のための機能拡張例を示す図である。なお、図２の例では、上述した翻訳装置１０の構成のうち、指文字変換手段１６への入出力に関する部分のみを示しており、翻訳装置の他の実施形態である。

図２の例では、単語入力手段１２と、単語読み入力手段４１と、単語−読み対応付け手段４２と、指文字変換手段１６とを有する。

単語読み入力手段４１は、上述した単語入力手段１２が入力した単語（例えば、固有名詞の漢字表記等）に対応する読みを入力する。単語−読み対応付け手段４２は、例えば単語入力手段１２からの固有名詞の漢字表記の入力と、単語読み入力手段４１からの固有名詞の読みとを用いて漢字と読みの対応付けを行う。

なお、単語−読み対応付け手段４２は、固有名詞の対応付けに限定されるものではなく、他の単語に対する読みの対応付けを行ってもよい。また、単語読み入力手段４１は、読みを手入力してもよく、漢字表記から辞書等を用いて自動で取得してもよい。例えば、単語−読み対応付け手段４２は、「園田（ソノダ）」が入力された場合、「園（ソノ）田（ダ）」のように、どの文字にどの読みが対応するかを出力する。

指文字変換手段１６は、上述した処理結果を用いて、例えば翻訳手段１５から、「園」の翻訳結果として「エン（指文字）」が得られていた場合に、この場合の「園」の読みが「ソノ」であることを利用し、「ソノ（指文字）」に変換することができる。

＜翻訳モデル学習処理の一例＞
次に、本実施形態における翻訳モデル学習処理の一例について、フローチャートを用いて説明する。図３は、翻訳モデル学習処理の一例を示すフローチャートである。図３の例において、翻訳モデル学習手段１１は、予め格納された学習データに含まれる元言語（日本語）と目的言語（日本手話）とのセンテンスペアを文分割し、フレーズペアを生成して格納する（Ｓ０１）。

次に、翻訳モデル学習手段１１は、上述したフレーズペアの日本語を文字単位で分割する（Ｓ０２）。次に、翻訳モデル学習手段１１は、分割した文字を用いてフレーズペアから置き換えモデルを学習する（Ｓ０３）。

次に、翻訳モデル学習手段１１は、学習データに含まれるセンテンスペアから言語モデルを学習する（Ｓ０４）。なお、Ｓ０４の処理のタイミングはこれに限定されるものではなく、例えば上述したＳ０１の処理の前に行ってもよい。

次に、翻訳モデル学習手段１１は、Ｓ０３の処理で得られた置き換えモデルと、Ｓ０４の処理で得られた言語モデルとを格納する（Ｓ０５）。なお、上述した翻訳モデル学習処理は、後述する翻訳処理の前に行う。

＜翻訳処理の一例＞
次に、本実施形態における翻訳処理の一例について、フローチャートを用いて説明する。図４は、翻訳処理の一例を示すフローチャートである。図４の例において、翻訳装置１０は、単語入力手段１２等により翻訳対象の単語（文字列等を含む）の入力を受け付ける（Ｓ１１）。

次に、翻訳装置１０は、Ｓ１１の処理で入力された単語に対して、予め設定された手話翻訳用の固定訳辞書２１等を用いて固定訳の手話に翻訳する（Ｓ１２）。次に、翻訳装置１０は、Ｓ１１の処理で入力された単語に対して、固定訳辞書２１を用いて翻訳できない部分（例えば、新しい表現の単語や新しい固有名詞等）を文字単位で分割する（Ｓ１３）。次に、翻訳装置１０は、翻訳モデル格納手段３７に格納された翻訳モデルを用いて文字単位で手話に翻訳する（Ｓ１４）。

次に、翻訳装置１０は、Ｓ１４までの処理の後でも翻訳できなかった文字があれば、その文字を指文字変換し（Ｓ１５）、上述した処理により得られた翻訳結果（Ｓ１１の処理で入力した単語に対する最終的な翻訳結果）を出力する（Ｓ１６）。

ここで、翻訳装置１０は、他の単語等の翻訳を続けるか否かを判断し（Ｓ１７）、翻訳を続ける場合（Ｓ１７において、ＹＥＳ）、Ｓ１１の処理に戻る。また、翻訳装置１０は、翻訳を続けない場合（Ｓ１７において、ＮＯ）、翻訳処理を終了する。上述した処理により、日本語から手話への適切な翻訳を実現することができる。

＜各種データ例＞
次に、本実施形態で用いられる各種データ例について、図を用いて説明する。

＜置き換えモデルの一例＞
図５は、置き換えモデルの一例を示す図である。置き換えモデルは、置き換えモデル学習手段３５で学習されるデータである。図５の例において、置き換えモデルの項目としては、例えば「日本語（元言語）表記」、「手話（目的言語）表記」、「各種確率」、「（置き換えモデル内で）同じ手話表現を持つ行数」、「（置き換えモデル内で）同じ日本語表現を持つ行数」等があるが、これに限定されるものではない。

置き換えモデルでは、学習データであるフレーズペアを用いて、日本語（元言語）と日本手話（目的言語）との組み合わせと、各種確率の値として「手話単語→日本語の翻訳確率（尤度）」、「手話単語→日本語の場合の日本語の単語毎の共起確率の積」、「日本語単語→手話単語の翻訳確率（尤度）」、「日本語単語→手話単語の場合の手話の単語毎の共起確率の積」、「一律に与えた数値（ｅ）」の学習を行う。

なお、図５に示す「手話表記」の｛ｐｔ｝は、例えばＣＧキャラクタ等の手話話者の指差し動作を示し、｛ｐｔ３｝は自分や相手以外のものや人への指差し動作を示す。また、「手話表記」の｛Ｎ｝は、手話を行うＣＧキャラクタ等の手話話者のうなずきを表す。本実施形態において、うなずきは固有名詞中では使われないため、無視して翻訳を行うことができる。

本実施形態では、日本語単語から手話単語への翻訳に用いる翻訳モデルを生成するため、図５の例における「日本語単語→手話単語の翻訳確率（尤度）」のデータがあればよく、その他の確率は置き換えモデルに含まれていなくてもよい。これらの各種確率値等のパラメータは、例えば「同じ手話表現を持つ行数」、「同じ日本語表現を持つ行数」等の各種データから、機械学習により得られる。なお、「一律に与えた数値（ｅ）」は、翻訳の際に数値の調整に用いられる値であり、図５の例に限定されるものではなく、置き換えモデルに含まれていなくてもよい。

ここで、本実施形態における翻訳モデルを用いた翻訳は、例えば１字毎の翻訳も可能であるが、これに限定されるものではなく複数の文字やフレーズをまとめた翻訳も可能である。例えば、学習データに「福島」が含まれているため、図５に示す置き換えモデルにも「福島」も現れており、翻訳の際にはこの情報も参照している。したがって、本実施形態における翻訳処理では、学習データにその通りの順番に現れない文字列、例えば「島福」等を翻訳した場合に１文字ずつ翻訳されることになる。

＜言語モデルの一例＞
図６は、言語モデルの一例を示す図である。言語モデルは、言語モデル学習手段３６で学習されるデータである。図６の例に示す言語モデルの項目としては、例えば「単語が並ぶ確率（の対数尤度）」、「単語の並び」、「バックオフ確率」等があるが、これに限定されるものではない。本実施形態における翻訳処理で使用している項目は、「単語が並ぶ確率（の対数尤度）」、「単語の並び」であるため、「バックオフ確率」は、言語モデルに含まれていなくてもよい。

「バックオフ確率」とは、例えば３単語の並びまで考慮する「３−ｇｒａｍ」を学習した際に、その３単語の並びでは出てこなかった単語列の確率を計算するためのものである。

図６の例において、例えば｛幸せ｝の場合のバックオフ確率の数値が−０．１８５６６９７となっているのは、学習データに｛幸せ｝に続く３単語の単語列の中で、学習データに現れなかったものが現れる確率を表している。例えば、学習データに現れない３単語の並びの場合、３単語の並びのモデルは使えないため、２単語の並びのモデル、１単語の並びのモデル等のように、より短いモデルを使って確率値を表す。このように、より低次なモデルを使う際に乗算等の演算で使用する係数の一例としてバックオフ確率が用いられる。

＜翻訳モデルの学習と翻訳の具体例＞
次に、本実施形態における翻訳モデルの学習と翻訳の具体例について説明する。例えば、学習データ格納手段（センテンスペア）３１に格納されているセンテンスペアの例として、
「日本語：長野／は／朝／から／晴れる／でしょ／う」
「手話：｛長い｝／｛ノ［指文字］｝／｛朝｝／｛から｝／｛晴れ｝／｛夢｝」
があるとする。なお、上述した「／」は、ここでは分割された単語の区切りを示すラベルである。

このデータから、例えば「ＧＩＺＡ＋＋」等で単語間の対応付けを獲得し、それを基にフレーズペアを作成すると、
１．「日本語：長野／は」、「手話：｛長い｝／｛ノ［指文字］｝」
２．「日本語：朝／から」、「手話：｛朝｝／｛から｝」
３．「日本語：晴れる／でしょ／う」、「手話：｛晴れ｝／｛夢｝」
と、３つのフレーズペアが生成できる。本実施形態では、このフレーズペアの日本語を文字単位に分けた上で、上述した置き換えモデルの学習を行う。

学習されるフレーズペアの例として、「長→｛長い｝」、「野→｛ノ［指文字］｝」、「は→（対応する手話単語なし）」、「朝→｛朝｝」、「か／ら→｛から｝」、「晴／れ／る→｛晴れ｝」、「で／し／ょ／う→｛夢｝」等と学習できる。ここでの「／」は、分割された文字の区切りを示すラベルである。

本実施形態では、上述した学習結果（翻訳モデル）を用いて翻訳を行うことで、例えば手話の固有名詞の表現方法を生かした適切な翻訳を実現することができる。

次に、本実施形態における翻訳処理の各実施例について説明する。

＜実施例１＞
翻訳装置１０は、例えば入力単語として「加藤」が入力された場合、固定訳辞書２１を用いた翻訳を行い、固定訳辞書２１に「加藤→｛加藤｝」が存在する場合には、｛加藤｝という翻訳結果を出力する。

なお、実施例１の場合、翻訳装置１０は、固定訳辞書２１に入力単語の全ての文字に対応する翻訳手話が存在しているため、翻訳手段１５による翻訳及び指文字変換手段１６による指文字変換は行わない。

＜実施例２＞
翻訳装置１０は、例えば入力単語として「福島」が入力された場合に、まず固定訳辞書２１を用いた翻訳を行い、固定訳辞書２１に入力単語が含まれていないため、翻訳モデル格納手段３７に格納された翻訳モデルから、「福→｛幸せ｝」、「島→｛島｝」の翻訳規則を用いて翻訳を行い、｛幸せ｝｛島｝という翻訳結果を出力する。

なお、実施例２の場合、翻訳装置１０は、翻訳モデル格納手段３７に格納された翻訳モデルに入力単語の全てに対応する翻訳手話が存在していたため、指文字変換手段１６による指文字変換は行わない。

＜実施例３＞
翻訳装置１０は、例えば入力単語として「園田」が入力された場合、まず固定訳辞書２１を用いた翻訳を行い、固定訳辞書２１に入力単語が含まれていないため、文字毎に翻訳して「園→｛エン（指文字）｝」「田→｛田｝」が得られる。

また、翻訳装置１０は、「園→｛エン（指文字）｝」の部分については、指文字に変換する指示があるため、指文字変換手段１６で指文字の処理を行う。

ここで、実施例３では、上述した単語−読み対応付け手段４２により、「園田（ソノダ）」は「園（ソノ）田（ダ）」という対応付けが得られる。そのため、翻訳装置１０は、「園」の翻訳を｛ソノ（指文字）｝に変換し、最終的に｛ソノ（指文字）｝｛田｝という翻訳結果が得られる。

＜実施例４＞
翻訳装置１０は、例えば入力単語として「釜石」が入力された場合、まず固定訳辞書２１を用いた翻訳を行い、固定訳辞書２１に「石→｛石｝」があるが、「釜」については辞書に含まれていないため、翻訳モデル格納手段３７に格納された翻訳モデルを用いて翻訳を行うが、「釜」の字が未学習の場合であり翻訳規則がない。

そこで、翻訳装置１０は、指文字変換手段１６を用いて「釜」を指文字に変換する。したがって、指文字変換手段１６への入力として、「釜→（指文字）」、「石→｛石｝」が得られる。

なお、「釜」については、「釜石」全体の読みが「カマイシ」であることから、例えば公知のモノルビ付与手法等を用いることで、「釜（カマ）」を得ることができる。なお、「釜」については、上述した単語−読み対応付け手段４２により「釜（カマ）」を対応付けてもよい。

したがって、「釜→（指文字）」は、「釜→カマ（指文字）」となる。これにより、指文字変換手段１６により「釜」が指文字変換され、最終的に｛カマ（指文字）｝｛石｝という翻訳結果が得られる。

上述した実施例１〜４に示す翻訳結果は、例えばＣＧキャラクタによるＣＧ手話として出力することができる。また、上述した実施例１〜４は、単語のみであったが、複数の単語を含む文字列（文章）であっても同様の処理を行うことができる。

＜翻訳の手順＞
つまり、本実施形態における翻訳手法は、例えば固有名詞等の単語が入力された場合に、まず固有名詞を文字毎に分割し、それぞれの文字に対応する手話単語を置き換えモデルから取得する。その結果、それぞれの文字毎に複数の翻訳候補を取得できるため、次にそれらを全てのパターンで組み合わせる。

例えば、上述した置き換えモデルから得た「文字を変換する部分のスコア（翻訳確率）」と、言語モデルから得た「翻訳結果の単語の並びの確からしさ（単語の並ぶ確率）」とから、「Ｐ（Ｓ）・Ｐ（Ｔ｜Ｓ）」を計算し、これが最大のものを翻訳結果として出力する。ここで、Ｐ（Ｓ）は言語モデルから得られる尤度を示し、Ｐ（Ｔ｜Ｓ）は置き換えモデルから得られる尤度を示す。また、Ｐ（Ｓ）は「出力される文の尤もらしさ」を意味し、Ｐ（Ｔ｜Ｓ）は「翻訳結果のＳという文を入れた時に元の文が入力された文Ｔである確率」を意味する。

例えば「福島」の例で考えると、まず置き換えモデルからそれぞれの文字毎の翻訳候補とスコア（翻訳確率）を算出すると、日本語→手話とその尤度との関係として、
福→｛幸せ｝：尤度０．６
福→｛フク［指文字］｝：尤度０．５
島→｛島｝：尤度０．７
島→｛岸｝｛島｝：尤度０．２
等の候補が得られたとする。

次に、それぞれを組み合わせた場合の尤度を言語モデルから得ると、
｛幸せ｝｛島｝：尤度０．６
｛フク［指文字］｝｛島｝：尤度０．３
｛幸せ｝｛岸｝｛島｝：尤度０．２
｛フク［指文字］｝｛岸｝｛島｝：尤度０．１
等となる。これらの結果から、
Ｐ（｛幸せ｝｛島｝）＝０．６＊０．７＊０．６＝０．２５２
Ｐ（｛フク［指文字］｝｛島｝）＝０．５＊０．７＊０．３＝０．１０５
Ｐ（｛幸せ｝｛岸｝｛島｝）＝０．６＊０．２＊０．２＝０．０２４
Ｐ（｛フク［指文字］｝｛岸｝｛島｝）＝０．５＊０．２＊０．１＝０．０１
等となり、｛幸せ｝｛島｝が最大のスコア（０．２５２）となるため、これが最終的な翻訳結果として出力される。

＜比較例＞
次に、本実施形態と従来手法との翻訳結果の比較例について説明する。図７は、従来手法との比較例を示す図である。比較例では、単語のアライメントと翻訳モデルの生成に、「ＧＩＺＡ＋＋」と「ｇｒｏｗ−ｄｉａｇ−ｆｉｎａｌ−ａｎｄ」を用いた。デコーダには「Ｍｏｓｅｓ」を用い、言語モデルの学習には「ＳＲＩＬＭ」を用いた。

日本語の固有名詞は、数文字程度の文字列であることから、言語モデルには、３−ｇｒａｍを採用し、学習データには、例えば既存の手話ニュースコーパスの２１９９５文対を用いた。また、固有名詞には、人名と地名とを用いた。

まず、日本の苗字データベースからランダムに抽出した１００の人名と日本の市名からランダムに抽出した１００の地名の合計２００の固有名詞を、３人のネイティブの手話話者に翻訳してもらい、手話話者２人以上の表現が一致した９６の人名と８２の地名とを比較データとして採用した。

その結果、図７に示すように、従来手法（フレーズ単位に分割せずに、センテンスペアから直接学習した翻訳モデル（Ｂａｓｅｌｉｎｅｍｅｔｈｏｄ））では、人名の単語が９６個中７４個（正解率７７．１％）、地名の単語が８２個中５２個（正解率６３．４％）で正解であったのに対し、本実施形態（本手法）では、人名の単語が９６個中７９個（正解率８２．３％）、地名の単語が８２個中５６個（正解率６８．３％）で正解であった。

つまり、翻訳精度は、本手法は、人名では５．２ポイント向上し、地名では４．９ポイント向上し、固有名詞全体（合計）でも５．０ポイント向上した。したがって、上述したように本実施形態によれば、高精度な手話翻訳を実現することができる。

＜実行プログラム＞
ここで、上述した翻訳装置１０は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性の記憶装置（格納装置）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性の記憶装置（格納装置）、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。

したがって、翻訳装置１０が有する上述した各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して頒布することもできる。

つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム（翻訳プログラム）を生成し、例えば汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、上述した翻訳モデル学習処理や翻訳処理を実現することができる。なお、本実施形態における実行プログラムによる処理については、これに限定されるものではない。

上述したように本実施形態によれば、手話翻訳において、固有名詞等の高精度な翻訳を実現することができる。例えば、元言語の一例としての日本語単語と、目的言語の一例としての手話単語との対応付けを行い、その結果に基づいて文をフレーズ単位に分割し、分割した結果に基づいて日本語文字と手話単語との対応付けを機械学習することで、学習データ対の中の文字数、手話単語数が少なくなり、対応付けの学習精度が向上する。したがって、上述した学習手法により得られた翻訳モデルを用いることで、より高精度な手話翻訳を実現することができる。

なお、例えば日本語単語と手話単語の間での対応付けは、同じ意味を表す文中での単語の出現数もある程度似ているため、対応付けがしやすい。また、本実施形態では、学習データの分割の際に、明らかに日本語と日本手話の間で単語数に差がある場合は、その分割結果が誤っているとして除去してもよい。例えば、今回は単語数がどちらかの２倍以上かつ５個以上の差がある場合に誤りとして除去することで、より適切な翻訳を可能とする。

また、本実施形態では、手話に限らず、文を分割してから翻訳モデルを学習することで、翻訳の性能が向上する可能性がある。例えば、学習データが完全な「直訳コーパス」ではない場合に有効である。

なお、従来では、例えば一部の番組等で手話での放送を行っているが、手話通訳者の確保が困難であり、夜間等の突発的な災害等には、手話での情報提示が行えない場合があったが、上述した本実施形態の技術を適用することにより、翻訳精度を向上させた手話映像を提供することができる。

なお、上述した本実施形態では、日本語（元言語）から日本手話（目的言語）への翻訳例を示したが、これに限定されるものではなく、例えば英語等の他言語から日本手話や他言語手話といった翻訳に適用することもでき、また日本手話から日本語に翻訳する手法に適用することもできる。

以上、本発明の好ましい実施形態について詳述したが、開示の技術は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。また、上述した各実施例の構成要素の全部又は一部を組み合わせることも可能である。

１０翻訳装置
１１翻訳モデル学習手段
１２単語入力手段
１３固定訳翻訳手段
１４入力文字分割手段
１５翻訳手段
１６指文字変換手段
１７翻訳結果出力手段
２１固定訳辞書
３１学習データ格納手段（センテンスペア）
３２文分割手段
３３学習データ格納手段（フレーズペア）
３４文字単位分割手段
３５置き換えモデル学習手段
３６言語モデル学習手段
３７翻訳モデル格納手段
４１単語読み入力手段
４２単語−読み対応付け手段

Claims

日本語の固有名詞の単語文字列である入力データに対する手話翻訳を行う翻訳装置において、
前記入力データを前記固有名詞の単語文字列の文字毎に分割する入力文字分割手段と、
前記入力データに対して予め前記日本語の固有名詞に対応する手話単語が設定された固定訳辞書を用いて前記入力データに対する手話翻訳を行う固定訳翻訳手段と、
前記入力文字分割手段により分割された文字に対して、予め翻訳対象言語と手話との学習データの組み合わせを前記入力文字分割手段により文字単位に分割されたフレーズ単位で学習した翻訳モデルを用いて翻訳を行う翻訳手段と、
前記翻訳手段により翻訳された翻訳結果を出力する翻訳結果出力手段と、
予め設定された学習データに含まれる前記翻訳対象言語と前記手話とのセンテンス毎の学習データをフレーズ単位の文に分割して得られるフレーズペアの学習データを文字単位に分割し、分割されたフレーズと、前記センテンス毎の学習データに対応する言語モデルとを用いて前記翻訳モデルを学習する翻訳モデル学習手段と、を有し、
前記翻訳手段は、前記入力データのうち、前記固定訳翻訳手段により翻訳できなかった単語に対して前記翻訳モデルを用いた翻訳を行うことを特徴とする翻訳装置。
前記入力データのうち、前記固定訳翻訳手段及び前記翻訳手段で翻訳できなかった単語がある場合に、前記単語を指文字の手話に変換する指文字変換手段を有することを特徴とする請求項１に記載の翻訳装置。
コンピュータを、請求項１または２に記載の翻訳装置が有する各手段として機能させるための翻訳プログラム。