JP2020126493A

JP2020126493A - 対訳処理方法および対訳処理プログラム

Info

Publication number: JP2020126493A
Application number: JP2019019167A
Authority: JP
Inventors: 育昌鄭; Yuchang Cheng
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-05
Filing date: 2019-02-05
Publication date: 2020-08-20
Anticipated expiration: 2039-02-05
Also published as: US11645475B2; US20200250383A1; JP7251181B2

Abstract

【課題】対訳語句の生成精度を向上させることを課題とする。【解決手段】対訳処理装置は、第一の言語で記述された第一の文書に含まれる各第一の形態素から、第一の文書と同等の内容が第二の言語で記述された第二の文書に含まれる各第二の形態素への第一の対訳確率、および、各第二の形態素から各第一の形態素への第二の対訳確率を算出する。対訳処理装置は、第一の対訳確率および第二の対訳確率が閾値以上である、第一の言語と第二の言語との組である形態素対を抽出する。対訳処理装置は、抽出された形態素対に基づき、第一の文書と第二の文書とにおける対訳語句を生成する。【選択図】図１０

Description

本発明は、対訳処理方法および対訳処理プログラムに関する。

グローバル企業などでは、業務文書に社内用語が含まれることから、社内文書の多言語化において、社内用語の意味を正確に訳す対訳辞書の整備が行われている。また、対訳辞書の整備対象データとしては、整備コストが高く行単位で対応する第１の多言語文書対（parallel corpus）と、容易に整備でき、内容の主旨が対応する第２の多言語文書対（comparable corpus）とが用いられる。

なお、「parallel corpus」は、意味の過不足なく、文単位で完全に対応した文書対であり、例えば各国が正式に発表する議事録や公文書などである。「comparable corpus」は、ページ毎に情報の粒度が異なる文書対であり、企業のプレスリリースや観光地などの各種情報を提示するＷｅｂページなどである。

近年では、整備コストが少ない第２の多言語文書対（comparable corpus）から対訳語句を抽出することが行われている。例えば、単語意味分類技術（topic model）で文書群の単語を意味分類毎にグルーピングしてから、単語対応確率の計算（word alignment）で対訳語句を抽出する手法が知られている。

対訳語句の抽出では、複数単語から構成される専門用語（以下、複合語と記載する場合がある）を一語としてまとめることが要求される。例えば、第２の多言語文書対（comparable corpus）に該当する日本語の文書と英語の文書とから、対訳語句を抽出する例を考える。一例として、日本語文書の形態素解析の結果として「電子／加速／装置」が抽出され、英語文書の形態素解析の結果として「the／electronic／acceleration／device」が抽出されたとする。

この場合に、専門用語を一単語として識別しない場合は、対訳語句として［電子：electronic］、［加速：acceleration］、［装置：device］が生成される。一方、複合語技術により専門用語を一単語として識別する場合は、対訳語句として[電子加速装置：electronic acceleration device]が生成される。

このように、単語をどのように区切るかにより対訳語句の内容が異なることから、内容が対応する多言語文書群に対し、複数単語から構成される専門用語（複合語）の対訳語を正確に抽出する技術が要求されている。例えば、言語依存の複合語抽出ルールにより、複合語候補を抽出し、複数の統計的な手法で複合語候補の適切性を判定し、複合語と判定されるものを一単語とし、その後に一般的な単語の対訳確率を計算して、複合語の対訳抽出を行う技術が知られている。

特開２０１３−２４２６５４号公報特開２００４−３１０１７０号公報特開２００５−９２２５３号公報

しかしながら、上記技術では、相手言語に対応語句がない単語にも間違って高い対訳確率が付与される場合があるので、正確に複合語の対訳語句群を識別できない場合があり、対訳語句の生成精度が低下する。

上述した例と同様、日本語の文書と英語の文書とから、対訳語句を抽出する例を考える。一例として、日本語文書の形態素解析の結果として「我々／は／先日／電子／加速／装置／で／実験／を／・・・」が抽出され、英語文書の形態素解析の結果として「We／used／the／electronic／acceleration／device／to／experiment／・・・」が抽出されたとする。この場合に、［先日］と［electronic］などの用語との共起確率が高い場合、［先日電子加速装置］が［electronic／acceleration／device］の対訳語句であると誤判定される可能性が高い。

一つの側面では、対訳語句の生成精度を向上させることができる対訳処理方法および対訳処理プログラムを提供することを目的とする。

第１の案では、対訳処理方法は、コンピュータが、第一の言語で記述された第一の文書に含まれる各第一の形態素から、前記第一の文書と同等の内容が第二の言語で記述された第二の文書に含まれる各第二の形態素への第一の対訳確率、および、前記各第二の形態素から前記各第一の形態素への第二の対訳確率を算出する処理を実行する。対訳処理方法は、コンピュータが、前記第一の対訳確率および前記第二の対訳確率が閾値以上である、前記第一の言語と前記第二の言語との組である形態素対を抽出する処理を実行する。対訳処理方法は、コンピュータが、抽出された前記形態素対に基づき、前記第一の文書と前記第二の文書とにおける対訳語句を生成する処理を実行する。

一実施形態によれば、対訳語句の生成精度を向上させることができる。

図１は、実施例１にかかる対訳語句の抽出を説明する図である。図２は、実施例１にかかる対訳処理装置の機能構成を示す機能ブロック図である。図３は、形態素解析の結果の例を示す図である。図４は、対訳確率の算出結果の例を示す図である。図５は、統計結果の例を示す図である。図６は、複合語の境界の特定を説明する図である。図７は、補正を説明する図である。図８は、学習データの置換を説明する図である。図９は、複合語候補の評価を説明する図である。図１０は、実施例１にかかる処理の流れを示すフローチャートである。図１１は、実施例２にかかる品詞ルールに基づく複合語の境界を特定する図である。図１２は、実施例２にかかる既知の対訳語句に基づく複合語の境界を特定する図である。図１３は、実施例２にかかる構文構造に基づく複合語の境界を特定する図である。図１４は、実施例３にかかる新規の多言語文書対の生成を説明する図である。図１５は、実施例３にかかる対訳処理装置の機能構成を示す機能ブロック図である。図１６は、段落分割の結果を説明する図である。図１７は、段落意味ベクトルの算出例を説明する図である。図１８は、削除可能な段落の検出手法を説明する図である。図１９は、意味ベクトル空間を説明する図である。図２０は、新規の多言語文書対の生成を説明する図である。図２１は、実施例３にかかる生成処理の流れを示すフローチャートである。図２２は、実施例３にかかる生成処理の詳細な流れを示すフローチャートである。図２３は、実施例４にかかる文書情報に基づく削除可否の判定を説明する図である。図２４は、実施例４にかかる既知の対訳語句に基づく削除可否の判定を説明する図である。図２５は、実施例５にかかる対訳語句の抽出例１を説明する図である。図２６は、実施例５にかかる対訳語句の抽出例２を説明する図である。図２７は、利用形態の一例を説明する図である。図２８は、ハードウェア構成例を説明する図である。

以下に、本願の開示する対訳処理方法および対訳処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾がない範囲内で適宜組み合わせることができる。

［対訳処理装置１０の説明］
実施例１にかかる対訳処理装置１０は、容易に整備でき、内容の主旨が対応する第２の多言語文書対（comparable corpus）から、対訳語句を抽出し、対訳辞書を生成するコンピュータ装置の一例である。

図１は、実施例１にかかる対訳語句の抽出を説明する図である。図１に示すように、対訳処理装置１０は、comparable corpusである多言語文書群として、日本語文書１−英語文書１、日本語文書２−英語文書２、日本語文書３−英語文書３を保持する。ここで、日本語文書１−英語文書１、日本語文書２−英語文書２、日本語文書３−英語文書３のそれぞれは、同じ内容が記載されている文書であり、ページ毎に情報の粒度が異なる文書対である。なお、実施例においては、日本語文書を第１言語の文書、英語文書を第２言語の文書などと記載する場合がある。

そして、対訳処理装置１０は、日本語文書を構成する単語に対する英語文書を構成する単語との共起確率が予め設定された条件を満たし、かつ、英語文書を構成する単語に対する日本語文書を構成する単語との共起確率が予め設定された条件を満たすとともに、単語列の範囲を示す複数の未知語の候補を抽出する。そして、対訳処理装置１０は、抽出した複数の未知語の候補の中で、文書対のいずれかの文書での共起確率が予め設定された条件を満たす単語列の範囲を未知語として対応づける。

例えば、対訳処理装置１０は、内容の主旨が対応する多言語文書対から、対訳確率の高い単語対群を抽出する。続いて、対訳処理装置１０は、単語対の最大境界を求め、境界内の単語列を１単語とみなして、対訳確率を再度算出する。そして、対訳処理装置１０は、みなし単語対の再算出後の対訳確率が境界内の各単語対より高い場合、みなし単語対が複合語対と判定する。

このようにして、対訳処理装置１０は、専門用語などの複合語および未登録語を正確に切り出して対訳関係を抽出できるので、対訳語句の生成精度を向上させることができる。

［機能構成］
図２は、実施例１にかかる対訳処理装置１０の機能構成を示す機能ブロック図である。図２に示すように、対訳処理装置１０は、通信部１１、記憶部１２、制御部２０を有する。

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部１１は、管理者等が利用する管理装置から処理開始指示を受信し、管理装置に処理結果を送信する。また、通信部１１は、各種データベースサーバなどから文書情報を取得する。

記憶部１２は、データや制御部２０が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１２は、文書ＤＢ１３と対訳辞書ＤＢ１４を記憶する。

文書ＤＢ１３は、対訳語句の抽出元である、comparable corpusの関係である多言語の文書対を記憶するデータベースである。例えば、文書ＤＢ１３は、日本語で記述された日本語文書と、当該日本語と同じ内容が英語で記述された英語文書とを対応付けて記憶する。

ここで記憶される文書対は、文書の主旨が対応した多言語の文書集合である。例えば、インターネット百科事典などの条目は、各言語に独自のページがあり、詳細な内容が異なるが、ページ自体の主旨（条目）は同じであるため、同一条目の異なる言語のページが内容の主旨が対応する多言語文書である。なお、文書の形式は、テキストデータであってもよく、それ以外の形式であってもよい。

対訳辞書ＤＢ１４は、対訳語句を記憶するデータベースである。具体的には、対訳辞書ＤＢ１４は、既知である対訳語句や対訳処理装置１０によって新たに生成された対訳語句などを記憶する。例えば、対訳辞書ＤＢ１４は、対訳語句［日本度：英語］として［富士通：Fujitsu］などを記憶する。

制御部２０は、対訳処理装置１０全体を司る処理部であり、例えばプロセッサなどである。制御部２０は、形態素解析部２１、確率計算部２２、統計情報取得部２３、検出処理部２４を有する。

形態素解析部２１は、文書ＤＢ１３に記憶される文書対である各文書に対して形態素解析を実行する処理部である。具体的には、形態素解析部２１は、日本語文書である第１言語の文書と、英語文書である第２言語の文書とのそれぞれに対して、文字列（テキスト）を抽出して形態素解析を行い、文字列を形態素列に変換する。このようにして、形態素解析部２１は、各文書から形態素（単語）を抽出して、確率計算部２２に出力する。

図３は、形態素解析の結果の例を示す図である。図３に示すように、第１言語の文書からは「先日／の／会見／で／富士通／タブレット／株式／会社／が／発表／した／・・・」が抽出される。同様に、第２言語の文書からは「Fujitsu Tablet／limited／announced／・・・」が抽出される。なお、形態素解析には、オープンソースソフトウェアなどの各種手法を用いることができる。

確率計算部２２は、単語単位で分割済みのテキストデータに対し、単語の対訳確率を推定する処理部である。具体的には、確率計算部２２は、形態素解析部２１の解析結果に対して、言語間における両方向の単語の対訳確率を計算する。なお、単語の両方向の対訳確率とは、第１言語から第２言語への対訳確率と、第２言語から第１言語への対訳確率とを示す。対訳確率は、言語間の単語の共起統計情報を元に、公知の翻訳モデルなどを用いることができる。

そして、確率計算部２２は、算出結果を記憶部１２に一時的に保存したり、統計情報取得部２３に出力したりする。図４は、対訳確率の算出結果の例を示す図である。図４に示すように、確率計算部２２は、「元言語、対訳言語、対訳確率」を含む算出結果を生成する。図４の例では、第１言語の文書から抽出された「富士通」から、第２言語の文書から抽出された「Fujitsu Tablet」への対訳確率が「0.68」であることを示す。

統計情報取得部２３は、確率計算部２２の出力に対し、各単語の出現頻度、言語モデル、相手言語の全単語との共起頻度などの統計情報を取得する処理部である。例えば、統計情報取得部２３は、第１言語から第２言語への対訳確率、第２言語から第１言語への対訳確率を参照して、閾値（例えば0.3）以上か否かを集計し、集計結果を検出処理部２４に出力する。

図５は、統計結果の例を示す図である。図５に示すように、統計情報取得部２３は、各言語から抽出された各単語について、対訳確率が閾値以上である場合には「〇」を設定し、対訳確率が閾値未満である場合には「×」を設定した統計結果を生成する。例を挙げると、統計情報取得部２３は、日本語「富士通」から英語「Fujitsu Tablet」への対訳確率が「0.68」であることから「〇」を設定し、英語「Fujitsu Tablet」から日本語「富士通」への対訳確率が「0.65」であることから「〇」を設定する。図５の例では、日本語「先日」から英語「Fujitsu Tablet」への対訳確率が閾値未満かつ英語「Fujitsu Tablet」から日本語「先日」への対訳確率が閾値未満であることがわかる。

また、統計情報取得部２３は、各単語（形態素）に対して、1−gram言語モデルなどの公知の言語モデルを用いて、言語モデルの評価値（以下では、言語モデル値と記載する場合がある）を算出する。そして、統計情報取得部２３は、統計結果の各単語に対応付けて、各単語の言語モデル値を保持する。

検出処理部２４は、境界同定部２５、学習データ置換部２６、候補評価部２７を有し、統計結果に基づいて、対訳語句を抽出して、対訳辞書を生成する処理部である。すなわち、検出処理部２４は、語句としては未知である未知語を検出し、当該未知語の対訳語句を特定する。

境界同定部２５は、形態素解析部２１の出力と統計情報取得部２３の統計情報から、多言語文書対における条件が成立する単語例対の最大境界を求める処理部である。ここで、条件とは、以下の条件１と条件２である。

条件１：ある単語対｛Ａ１，Ｂ１｝の第１言語単語（Ａ１）の前後近傍の他の単語（Ａ２，Ａ３，・・・）が単語対の第２言語単語（Ｂ１）との両方向（第１言語から第２言語と第２言語から第１言語への双方）の対訳確率が高いこと
条件２：条件１の単語対｛Ａ１，Ｂ１｝の第２言語単語（Ｂ１）の近傍単語（Ｂ２，Ｂ３・・・）も条件１の条件が成立、かつ、隣接単語（Ａ１Ａ２，Ａ２Ａ３，Ｂ１Ｂ２，Ｂ２Ｂ３・・・）の言語モデルの評価値が高いこと

例えば、複合語の対訳が存在する場合、複合語の構成単語と相手言語の複合語の構成単語との共起が多いので、単語間の両方向の対訳確率が高いことが多い。図５の例では、｛富士通：Fujitsu Tablet｝、｛タブレット：Fujitsu Tablet｝などは両方向で高い対訳確率を有する。

また、複合語の構成単語は、相手言語の複合語の全構成単語との両方向の対訳確率も高い。図５の例では、「富士通」が「Fujitsu Tablet」および「limited」と、「Fujitsu Tablet」が「会社」、「富士通」、「タブレット」と両方向で高い対訳確率を有する。すなわち、日本語側に文字列「富士通」が出現する場合、英語側に「Fujitsu Tablet」と「limited」が出現することが多く、逆方向も成立する。

また、両方向の対訳確率が高い組み合わせの境界は複合語の境界である。図５の例では、「富士通」と「announced」は片方向のみ高い対訳確率を持つため、「announced」は複合語の境界外となる。日本語側に文字列「富士通」が出現する場合、英語側に「announced」が出現することが多少考えられるが、逆方向の英語側に「announced」が出現する場合、日本語側には「富士通」の共起が少ないので、「富士通」と「announced」の対訳が複合語の関係ではないと判定できる。

同様に、「先日」のような相手言語に対応単語がないものは、両方向の対訳確率が共に高い場合がなく、複合語の境界内になることが少ないので、「先日」が複合語の一部である誤判定が軽減できる。また、例えば「が」、「に」などの日本語の助詞が出現する場合、英語側の「ｉｎ」や「ｏｎ」以外の特定の単語との共起頻度が高くなることが少ないので、助詞が複合語に含まれることがない。

ここで、上述した条件１および条件２を考慮して、境界を同定し、単語を補正する具体例を説明する。図６は、複合語の境界の特定を説明する図である。図７は、補正を説明する図である。

図５の場合、境界同定部２５は、両方向の対訳確率が閾値以上である形態素の組として、「富士通：Fujitsu Tablet」、「タブレット：Fujitsu Tablet」、「会社：Fujitsu Tablet」を特定する。同様に、境界同定部２５は、「富士通：limited」、「株式：limited」、「会社：limited」を特定する。なお、ここで特定された各形態素の言語モデル値は閾値以上とする。

次に、図６に示すように、境界同定部２５は、言語モデル値が閾値以上かつ対訳確率が両方向で閾値以上である組として、「富士通」と「Fujitsu Tablet」および「limited」を特定し、同様に、「会社」と「Fujitsu Tablet」および「limited」を特定する。そして、境界同定部２５は、両方向の対訳確率が閾値以上である形態素に囲まれる範囲の境界であることから、これらを複合語の境界に決定する。

さらに、境界同定部２５は、境界に特定された日本語の「富士通」と「会社」の間にある「タブレット」と「株式」について、両方向の対訳確率が閾値以上である組を特定する。すなわち、境界同定部２５は、「タブレット：Fujitsu Tablet」を特定し、「株式：limited」を特定する。

そして、境界同定部２５は、境界よりも内側にある単語に対して、補正を行う。図７に示すように、境界同定部２５は、境界である「富士通」と「会社」の間にある「タブレット」および「株式」を特定する。続いて、境界同定部２５は、特定した「タブレット」に対して、境界である「富士通」および「会社」では対訳確率が高く、「タブレット」では対訳確率が低い「limited」を補正（補間）する。同様に、境界同定部２５は、特定した「株式」に対して、境界である「富士通」および「会社」では対訳確率が高く、「株式」では対訳確率が低い「Fujitsu Tablet」を補正（補間）する。なお、補正対象の単語の言語モデル値が閾値未満の場合は、補正を抑制することもできる。

このようにして、境界同定部２５は、言語モデル値が高いある形態素はその前後の形態素との共起率が高いと考えられるので、形態素の前後関係を考慮して、単語の補正を行う。この結果、境界同定部２５は、形態素解析の段階では未知であった未知語の検出を実行する。そして、境界同定部２５は、補正後の情報を学習データ置換部２６に出力する。

図２に戻り、学習データ置換部２６は、形態素解析部２１の結果に対し、境界同定部２５により検出された複合語のみなし単語対候補に相当する形態素列をみなし複合語で置換し、新しい形態素解析結果を生成する。

上記例で説明すると、学習データ置換部２６は、図７に示す補正結果から、複合語を生成する。例えば、第１言語である日本語に対して、学習データ置換部２６は、「富士通」、「タブレット」、「株式」、「会社」のそれぞれの両方向の対訳確率が閾値以上になったと判定し、これらをまとめた「富士通タブレット株式会社」を１つの複合語とみなす。

同様に、第２言語である英語に対して、学習データ置換部２６は、「Fujitsu Tablet」、「limited」のそれぞれの両方向の対訳確率が閾値以上になったと判定し、これらをまとめた「Fujitsu Tablet limited」を１つの複合語とみなす。

そして、学習データ置換部２６は、図３に示した形態素解析の結果を、１つの複合語とみなしたみなし複合語で置換する。図８は、学習データの置換を説明する図である。図８に示すように、学習データ置換部２６は、第１言語の形態素解析結果「先日／の／会見／で／富士通／タブレット／株式／会社／が／発表／した／・・・」を、みなし複合語「富士通タブレット株式会社」が１つの形態素となるように、「先日／の／会見／で／富士通タブレット株式会社／が／発表／した／・・・」と置換する。

同様に、学習データ置換部２６は、第２言語の形態素解析結果「Fujitsu Tablet／limited／announced／・・・」を、みなし複合語「Fujitsu Tablet limited」が１つの形態素となるように、「Fujitsu Tablet limited／announced／・・・」と置換する。そして、学習データ置換部２６は、置換後の学習データを候補評価部２７に出力する。

候補評価部２７は、学習データ置換部２６により新たに生成された学習データに対し、確率計算部２２で全単語対の両方向の対訳確率を再算出し、境界同定部２５で検出したみなし複合語の対が正確な複合語の対であるかどうかを判定する処理部である。例えば、候補評価部２７は、学習データ置換部２６から取得した置換後のデータを、確率計算部２２に出力して、置換後のデータに対する単語の対訳確率の計算を要求する。

その後、候補評価部２７は、確率計算部２２から、置換後のデータに対する単語の対訳確率の計算結果を取得する。そして、候補評価部２７は、置換前のデータよりも対訳確率が上昇している場合、置換対象であるみなし複合語の対を正確な複合語の対と判定し、対訳辞書ＤＢ１４に登録する。一方、候補評価部２７は、置換前のデータよりも対訳確率が上昇していない場合、置換対象であるみなし複合語の対を正確な複合語の対と判定せず、対訳辞書ＤＢ１４への登録も行わない。

図９は、複合語候補の評価を説明する図である。候補評価部２７は、置換後のデータである第１言語「先日／の／会見／で／富士通タブレット株式会社／が／発表／した／・・・」と第２言語「Fujitsu Tablet limited／announced／・・・」を確率計算部２２に出力する。

そして、候補評価部２７は、「富士通タブレット」から「Fujitsu Tablet limited」への対訳確率「0.80」と、「Fujitsu Tablet limited」から「富士通タブレット」への対訳確率「0.79」とを含む、再計算された対訳確率の一覧を取得する。

ここで、候補評価部２７は、置換後の対訳確率と、図６において複合語の境界と判定された置換前の単語の対訳確率とを比較する。例えば、候補評価部２７は、図４と図６を参照し、「富士通」から「Fujitsu Tablet」への対訳確率「0.68」とその逆方向である「Fujitsu Tablet」から「富士通」への対訳確率「0.65」とを取得する。同様に、候補評価部２７は、「富士通」から「limited」への対訳確率「0.67」とその逆方向の対訳確率「0.56」とを取得する。

このようにして、候補評価部２７は、「富士通」と「Fujitsu Tablet」の両方向の対訳確率、「富士通」と「limited」の両方向の対訳確率、「タブレット」と「Fujitsu Tablet」の両方向の対訳確率、「タブレット」と「limited」の両方向の対訳確率、「株式」と「Fujitsu Tablet」の両方向の対訳確率、「株式」と「limited」の両方向の対訳確率、「会社」と「Fujitsu Tablet」の両方向の対訳確率、「会社」と「limited」の両方向の対訳確率を取得する。

そして、候補評価部２７は、置換後の対訳確率が、上記置換前の対訳確率のいずれよりも高い場合に、置換後の複合語対を正しい対訳語句と判定する。この例では、候補評価部２７は、置換後の「富士通タブレット：Fujitsu Tablet limited」の対訳確率「0.80」および「0.79」が、置換前の対訳確率のいずれよりも高いので、正しい対訳と判定する。

つまり、「富士通タブレット株式会社」と「Fujitsu Tablet limited」が１単語として、両方向の対訳確率を再計算すると、両文字列は同時に出現することが多いことから、両方向の対訳確率が個別単語（富士通、Fujitsu Tabletなど）の対訳確率より向上する。そして、候補評価部２７は、「富士通タブレット：Fujitsu Tablet limited」を新たな対訳語句として、対訳辞書ＤＢ１４に登録する。

なお、置換後の複合語対が正しい対訳語句か否かを判定する基準は、置換前の対訳確率のいずれよりも高い場合に限らず、置換前の対訳確率の平均値より高いなど任意に設定変更することができる。

［処理の流れ］
図１０は、実施例１にかかる処理の流れを示すフローチャートである。図１０に示すように、管理者等により処理開始が指示されると（Ｓ１０１：Ｙｅｓ）、形態素解析部２１は、文書ＤＢ１３から多言語文書対を読み込み（Ｓ１０２）、各多言語文書に対して形態素解析を実行して、各単語（形態素）を抽出する（Ｓ１０３）。

続いて、確率計算部２２は、各単語や単語の組み合わせの出現頻度などを集計し（Ｓ１０４）、各単語の対訳確率を算出する（Ｓ１０５）。その後、境界同定部２５は、統計情報取得部２３による対訳確率の集計結果を用いて、最大単語列の境界を同定する（Ｓ１０６）。

そして、学習データ置換部２６は、みなし複合語の対を特定し、みなし複合語の対で学習データの置換を実行する（Ｓ１０７）。その後、確率計算部２２が置換後の学習データを用いて、単語の対訳確率を再算出する（Ｓ１０８）。

そして、候補評価部２７は、対訳確率が向上した場合（Ｓ１０９：Ｙｅｓ）、みなし複合語の対を対訳関係と判定し、新たな対訳語句として、対訳辞書ＤＢ１４に登録する（Ｓ１１０）。一方、候補評価部２７は、対訳確率が向上しない場合（Ｓ１０９：Ｎｏ）、そのまま処理を終了する。

［効果］
上述したように、対訳処理装置１０は、対訳確率が高い単語対に、「ある単語対の第１言語単語の前後近傍の他の単語が単語対の第２言語単語とは両方向の対訳確率が高い」の条件が成立する最大境界の単語例対を複合語対の候補とする。そして、対訳処理装置１０は、複合語対の候補を用いて、単語の対訳確率を再算出し、対訳確率が向上した場合に、新たな対訳語句として登録する。したがって、対訳処理装置１０は、専門用語などの複合語および未登録語を正確に切り出して対訳関係を抽出できるので、対訳語句の生成精度を向上させることができる。

また、対訳処理装置１０は、１つの処理で、複数のみなし複合語を特定した場合、一つずつ順次評価することもでき、まとめて評価することもできる。また、対訳処理装置１０は、みなし複合語が新たな対訳語句と判定された場合、新たな対訳語句で形態素解析結果を変換した上で、対訳確率の計算やみなし複合語の探索を繰り返すこともできる。

ところで、複合語の境界判定は、予め設定した外部情報を用いて判定することもできる。そこで、実施例２では、実施例１による手法に加えて、外部情報を用いて複合語の境界判定を実行する例を説明する。

［品詞ルール］
図１１は、実施例２にかかる品詞ルールに基づく複合語の境界を特定する図である。ここでは、対訳処理装置１０は、外部情報として、「助詞＋名詞」すなわち助詞と名詞の組み合わせの場合、境界判定の対象外とする品詞ルールを保持する。

例えば、図１１に示すように、対訳処理装置１０は、第１言語の文書から抽出された「が」から、第２言語の文書から抽出された「Fujitsu Tablet」への対訳確率が「0.59」であり、対訳確率が閾値（0.3）以上であることから、通常であれば、統計情報として「〇」を設定する。しかし、対訳処理装置１０は、「が＋Fujitsu Tablet」が品詞ルールの「助詞＋名詞」に該当することから、統計情報としては「〇」ではなく「×」を設定し、境界判定の対象外とする。このように、対訳処理装置１０は、各言語の品詞連続ルールを利用することで、不適切な境界判定を回避することができる。なお、品詞ルールに設定する情報は、任意に設定変更することができる。

［既知の対訳語句］
図１２は、実施例２にかかる既知の対訳語句に基づく複合語の境界を特定する図である。ここでは、対訳処理装置１０は、外部情報として事前に整備した対訳辞書を保持し、対訳辞書に登録される既知の対訳語句については、両方向の対訳確率が閾値を越えたとみなして処理を実行する。

図１２に示すように、対訳処理装置１０は、既知の対訳語句として［株式会社：Limited］を保持する。そして、対訳処理装置１０は、第１言語の「株式会社」から第２言語の「Limited」への対訳確率が「0.21」であり、逆方向の対訳確率が「0.1」であり、両方向の対訳確率が閾値（0.3）未満と判定する。

この場合、対訳処理装置１０は、通常であれば、「株式会社」から「Limited」の統計情報および「Limited」から「株式会社」の統計情報として「×」を設定する。しかし、対訳処理装置１０は、既知の対訳語句として［株式会社：Limited］が登録されていることから、対訳確率の算出結果に関係なく、「株式会社」から「Limited」の統計情報および「Limited」から「株式会社」の統計情報として「〇」を設定する。このように、対訳処理装置１０は、不適切な境界判定を回避することができる。なお、既知の対訳語句は、あくまで例示であり、任意に設定変更することができる。

［構文構造］
図１３は、実施例２にかかる構文構造に基づく複合語の境界を特定する図である。ここでは、対訳処理装置１０は、外部情報として、単語間の関係性を示す構文構造を保持し、構文構造に基づいて複合語の対象を判定する。

図１３に示すように、対訳処理装置１０は、構文構造として、「発表、会見、先日」の関係性と、「発表、会社、株式、タブレット、富士通」の関係性とを保持する。そして、対訳処理装置１０は、第１言語の「会見」と第２言語の「Fujitsu Tablet」との両方の対訳確率が閾値以上であることから、「会見」と「Fujitsu Tablet」との組も、複合語の候補として抽出する。

しかし、対訳処理装置１０は、構文構造を参照すると、「会見」と「会見」の次に候補として抽出される「富士通」との関係性が直接的ではないことが特定できる。このため、対訳処理装置１０は、両方向の対訳確率が閾値以上である「会見」を、複合語の候補から除外する。この結果、対訳処理装置１０は、境界の検出精度を向上させることができる。

ところで、対訳語句の抽出元である「comparable corpus」な多言語文書対は、内容の主旨が対応しているものの、情報量がアンバランスであることから、文単位完全対応する「parallel corpus」な多言語文書対と比較して対訳語句の抽出効率が低い。このため、「comparable corpus」な多言語文書対から対訳語句の抽出する際に、ノイズを低減させて、精度を向上させる技術が求められている。

そこで、実施例３では、「parallel corpus」な多言語文書対から、対訳語句抽出用の学習データとなる新たな多言語文書対を生成して、対訳語句の抽出精度を向上させる例を説明する。

［対訳処理装置５０の説明］
図１４は、実施例３にかかる新規の多言語文書対の生成を説明する図である。図１４に示すように、実施例１と同様、対訳処理装置５０は、comparable corpusである多言語文書群として、日本語文書Ａ−英語文書Ｂを保持する。ここで、日本語文書Ａ−英語文書Ｂは、同じ内容が記載されている文書であり、ページ毎に情報の粒度が異なる文書対である。

そして、対訳処理装置５０は、各多言語文書対に対して、文書中の意味が変わらない段落を検出して削除することで、新たな多言語文書対を生成する。例えば、対訳処理装置５０は、日本語文書Ａ−英語文書Ｂから日本語文書Ａ´−英語文書Ｂ´を生成する。

つまり、文書全体の意味とかけ離れている段落は、削除されても文書の意味が大きく変化しない。このことから、意味の変わらない段落を削除して生成した新しい多言語文書対も内容が対応する関係を持ち、対訳辞書抽出の学習対象になる。このようにして、対訳処理装置５０は、新たな多言語文書対を生成することができ、学習対象データを増やすこともできる。

［機能構成］
図１５は、実施例３にかかる対訳処理装置５０の機能構成を示す機能ブロック図である。図１５に示すように、対訳処理装置５０は、通信部５１、記憶部５２、制御部６０を有する。

通信部５１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部５１は、管理者等が利用する管理装置から処理開始指示を受信し、管理装置に処理結果を送信する。また、通信部５１は、各種データベースサーバなどから文書情報を取得する。

記憶部５２は、データや制御部６０が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部５２は、文書ＤＢ５３と新規文書ＤＢ５４を記憶する。

文書ＤＢ５３は、対訳語句の抽出元である、comparable corpusである多言語の文書対を記憶するデータベースである。例えば、文書ＤＢ５３は、日本語で記述された日本語文書Ａ（以下では文書Ａと記載する場合がある）と、当該日本語と同じ内容が英語で記述された英語文書（以下では文書Ｂと記載する場合がある）とを対応付けて記憶する。ここで記憶される文書対の情報は、実施例１と同様なので、詳細な説明を省略する。

新規文書ＤＢ５４は、対訳処理装置１０により新たに生成された多言語文書対を記憶するデータベースである。例えば、新規文書ＤＢ５４は、文書Ａと文書Ｂとの多言語文書対から生成された、日本語文書Ａ´（以下では文書Ａ´と記載する場合がある）と英語文書Ｂ´（以下では文書Ｂ´と記載する場合がある）との多言語文書対を記憶する。

制御部６０は、対訳処理装置５０全体を司る処理部であり、例えばプロセッサなどである。制御部６０は、文書意味算出部６１、段落分割部６２、生成処理部６３を有する。

文書意味算出部６１は、文書ＤＢ５３に記憶される多言語文書対に対し、各文書自体の意味を高次元ベクトルで表現する処理部である。例えば、文書意味算出部６１は、文書Ａと文書Ｂとのそれぞれについて、「topic models」や「Doc2Vec」などの公知の手法を用いて、文書の意味をベクトルに変換する。そして、文書意味算出部６１は、得られた文書の意味ベクトルを生成処理部６３等に出力する。

段落分割部６２は、文書ＤＢ５３に記憶される多言語文書対に対し、段落単位に各文書を分割する処理部である。例えば、段落分割部６２は、文書Ａと文書Ｂとのそれぞれについて、htmlタグ、改行、文字下げ、行間距離などのレイアウト情報を基に、段落を識別して各段落に分割する。

図１６は、段落分割の結果を説明する図である。図１６に示すように、段落分割部６２は、文書Ａを段落１，２，３，４に分割し、文書Ｂを段落ａ，ｂ，ｃに分割する。そして、段落分割部６２は、分割した情報を記憶部５２に保持したり、生成処理部６３に出力したりする。

生成処理部６３は、段落意味算出部６４、評価部６５、生成部６６を有し、多言語文書対の各文書から、削除前後で意味の変わらない段落の検出と削除を実行して、新たな多言語文書対を生成する処理部である。

段落意味算出部６４は、段落分割部６２により分割された各文書について、各段落の情報を基に、文書の一部の段落と残りの段落とに分割したときの段落の意味を示すベクトルを算出する処理部である。具体的には、段落意味算出部６４は、１文書を２分割する段落の組み合わせを抽出し、２分割した文書の段落を独立な文書とみなして、文書意味算出部６１と同様の手法により各段落の文書意味ベクトルを算出する。

図１７は、段落意味ベクトルの算出例を説明する図である。図１７に示すように、段落意味算出部６４は、段落１、２、３、４を有する文書Ａに対して、文書Ａを２分割できる組み合わせとして、「（１）段落１と（２）段落２〜４」、「（３）段落２と（４）段落１，３〜４」、「（５）段落３と（６）段落１，２，４」、「（７）段落１，２と（８）段落３，４」などの組み合わせを生成する。そして、段落意味算出部６４は、（１）から（８）の各意味ベクトルを算出する。その後、段落意味算出部６４は、算出結果を評価部６５に出力する。

評価部６５は、各文書の各段落を評価し、削除可能な段落を検出する処理部である。具体的には、評価部６５は、段落意味算出部６４により算出された段落の組み合わせの文書意味ベクトル、および、文書意味算出部６１により算出された文書意味ベクトルを用いて、多言語文書対に対して、２分割段落及び文書全体の意味ベクトル同士の距離を算出する。そして、評価部６５は、算出結果を用いて、削除可能な分割段落を検出して、生成部６６に出力する。

図１８は、削除可能な段落の検出手法を説明する図である。図１８に示すように、評価部６５は、段落分割済みの文書Ａが有するすべての段落ｎ（ｎは自然数）に対して、（１）文書Ａの意味ベクトルと、（２）段落ｎの意味ベクトルと、（３）文書Ａから文書ｎを削除した残りの段落（Ａ−ｎ）の意味ベクトルとの各間の意味ベクトルの距離を算出する。そして、評価部６５は、（１）と（３）の距離が閾値未満、かつ、（１）と（２）の距離および（２）と（３）の距離が閾値以上の段落ｎを削除可能と判定する。

つまり、評価部６５は、段落の意味ベクトルが元文書の意味ベクトルとの類似度が低く、かつ、残りの文書内容の意味ベクトルが元文書の意味ベクトルとの類似度が高い場合、その段落を削除可能と判定する。これは、「段落」の内容が文書全体の意味（トピック、主旨）とかけ離れている場合、その段落の意味ベクトルが文書全体の意味ベクトルとの類似度が低くなることに着目している。したがって、文書全体の意味とかけ離れている段落を削除しても、残りの段落集合で文書の意味を表すことができる。

ここで、意味ベクトルの詳細について説明する。図１９は、意味ベクトル空間を説明する図である。ここでは、段落数がｍの文書Ａを例にして説明する。例えば、文書意味算出部６１は、多言語文書｛Ｄ_１，Ｄ_２｝に対して、意味ベクトル｛ＰＤ_１，ＰＤ_２｝を算出する。また、段落意味算出部６４は、［ｎ］段落とその残りの［ｍ＝１−ｎ］段落を分割し、組み合わせ｛Ｄ_１ ^ｎ，Ｄ_１ ^ｍ，Ｄ_２ ^ｎ，Ｄ_２ ^ｍ｝の段落群を生成し、その意味ベクトル｛ＰＤ_１ ^ｎ，ＰＤ_１ ^ｍ，ＰＤ_２ ^ｎ，ＰＤ_２ ^ｍ｝を算出する。

この状態で、評価部６５は、ＰＤ_１とＰＤ_１ ^ｎの類似度Ｓ_ｐ（ＰＤ_１とＰＤ_１ ^ｎ）、ＰＤ_１とＰＤ_１ ^ｍの類似度Ｓ_ｐ（ＰＤ_１とＰＤ_１ ^ｍ）、ＰＤ_２とＰＤ_２ ^ｎの類似度Ｓ_ｐ（ＰＤ_２とＰＤ_２ ^ｎ）、ＰＤ_２とＰＤ_２ ^ｍの類似度Ｓ_ｐ（ＰＤ_２とＰＤ_２ ^ｍ）を算出する。そして、評価部６５は、式（１）および式（２）が成り立つ場合、多言語文書対｛Ｄ_１，Ｄ_２｝から段落｛Ｄ_１ ^ｎ，Ｄ_２ ^ｎ｝を削除可能と判定する。

なお、式１および式２におけるＳ_ａおよびＳ_ｂは、閾値である。例えば、閾値Ｓ_ａは、削除候補の段落ｎが文書全体との意味ベクトル距離の制約や閾値を超える場合、段落ｎの意味が文書全体の意味とは異なることを判定する。閾値Ｓ_ｂは、残り段落ｍが文書全体との意味ベクトル距離の制約や閾値を超える場合、段落ｍの意味が文書全体の意味とは異なることを判定する。

また、Ｓ_ａおよびＳ_ｂは、予め設定される。例えば、利用者等の経験により設定することができる。また、事前に多言語文書群の一部に対し、人手で削除可能な段落にタグを付け、対訳処理装置５０で意味ベクトルの類似度Ｓ_ｐ（ＰＤ_１とＰＤ_１ ^ｎ）、Ｓ_ｐ（ＰＤ_１とＰＤ_１ ^ｍ）、Ｓ_ｐ（ＰＤ_２とＰＤ_２ ^ｎ）、Ｓ_ｐ（ＰＤ_２とＰＤ_２ ^ｍ）のそれぞれを計算し、既知の削除可能な段落を検出できるように閾値を自動設定することもできる。また、Ｓ_ａおよびＳ_ｂは、言語別で設定することもできる。

図１５に戻り、生成部６６は、多言語文書対の各文書について、評価部６５によって削除可能と判定された段落を削除して、新たな多言語文書対を生成する処理部である。具体的には、生成部６６は、文書ＤＢ５３に記憶される元の多言語対応文書対に対し、評価部６５で検出された削除可能な段落を削除し、残りの段落で新規の内容が対応する多言語文書対を生成して、新規文書ＤＢ５４に格納する。

図２０は、新規の多言語文書対の生成を説明する図である。図２０に示すように、評価部６５によって、comparable corpusである文書Ａ（段落１，２，３，４）および文書Ｂ（段落ａ，ｂ，ｃ）から、段落３と段落ｃが削除可能と判定されたとする。この場合、生成部６６は、文書Ａ（段落１，２，３，４）から段落３を削除した文書Ａ´と、文書Ｂ（ａ，ｂ，ｃ）から段落ｃを削除した文書Ｂ´とを生成する。

そして、生成部６６は、文書Ａ´（段落１，２，４）と文書Ｂ´（段落ａ，ｂ）を新たな多言語文書対として、新規文書ＤＢ５４に格納する。段落削除後、元文書との意味は大きく変更しないので、元文書対のcomparable関係は新文書対が継承する。

［全体的な処理の流れ］
図２１は、実施例３にかかる生成処理の流れを示すフローチャートである。図２１に示すように、処理開始が指示されると（Ｓ２０１：Ｙｅｓ）、文書意味算出部６１は、多言語文書対の各文書の意味ベクトルを算出する（Ｓ２０２）。続いて、段落分割部６２は、各文書を段落に分割する（Ｓ２０３）。

そして、生成処理部６３は、特定段落の意味ベクトルとそれ以外の段落の意味ベクトルとを算出し（Ｓ２０４）、段落間の意味ベクトルの距離を用いて、削除可能な段落を検出する（Ｓ２０５）。その後、生成処理部６３は、削除可能な段落を削除した新規の多言語文書対を生成する（Ｓ２０６）。

［詳細な処理の流れ］
図２２は、実施例３にかかる生成処理の詳細な流れを示すフローチャートである。この処理は、図２１のＳ２０４からＳ２０６に該当する。

図２２に示すように、生成処理部６３は、多言語文書対に対して、Ｓ３０１からＳ３１０のループ処理を実行する。具体的には、生成処理部６３は、多言語文書対に対して任意の段落とその残りの段落を分割した段落との組み合わせを生成する（Ｓ３０２）。続いて、生成処理部６３は、多言語文書対に対して、その意味ベクトルを算出する（Ｓ３０３）。

その後、生成処理部６３は、段落を分割した組み合わせに対してＳ３０４からＳ３０９のループ処理を実行する。具体的には、生成処理部６３は、Ｓ３０３で生成された部分段落それぞれの意味ベクトルを算出し（Ｓ３０５）、算出した各部分段落の意味ベクトル間の類似度を算出する（Ｓ３０６）。

そして、生成処理部６３は、意味ベクトル間の類似度が条件（上記式（１）および式（２））を満たす場合（Ｓ３０７：Ｙｅｓ）、該当段落を削除した新規の多言語文書対を生成する（Ｓ３０８）。一方、生成処理部６３は、意味ベクトル間の類似度が条件を満たさない場合（Ｓ３０７：Ｎｏ）、Ｓ３０４以降を繰り返す。

ところで、段落の削除可否の判定は、各文書のメタデータや外部情報などを用いて判定することもできる。そこで、実施例４では、実施例１による手法に加えて、外部情報等を用いて、段落の削除可否を判定する例を説明する。

［文書情報］
図２３は、実施例４にかかる文書情報に基づく削除可否の判定を説明する図である。ここでは、対訳処理装置５０は、文書情報として、文書及び段落の文字数、文書及び段落に出現した用語の全体出現頻度などを記憶する。

具体的には、図２３に示すように、対訳処理装置５０は、実施例３の手法により、文書Ａの段落３と文書Ｂの段落ｃとが削除対象と判定した場合、各文書の文書情報を参照し、除外条件に該当する段落３については削除対象から除外する。

例えば、対訳処理装置５０の評価部６５は、多言語文書｛Ｄ_１，Ｄ_２｝の文書Ｄ_１のサイズ（文字数：ＷＤ_１）と文書Ｄ_２のサイズ（文字数：ＷＤ_２）との差異（ＷＤ_１／ＷＤ_２）を算出し、文書Ｄ_１が閾値よりも短い文書であれば、段落の削除を行わない。なお、差異は、「ＷＤ_２−ＷＤ_１」であってもよい。

また、評価部６５は、段落Ｄ_１ ^ｎの文字数が文書Ｄ_１における割合（ＷＤ_１ ^ｎ／ＷＤ_１）を算出し、割合が閾値以上である場合、段落の削除を行わない。また、評価部６５は、段落Ｄ_１ ^ｎの語句Ｄ_１ ^ｎ，ｉに対して全文書群におけるＴＦＩＤＦ（Term Frequency Inverse Document Frequency）を算出し、段落Ｄ_１ ^ｎの全語句のＴＦＩＤＦが閾値以上であれば、段落の削除を行わない。なお、ＴＦＩＤＦは、重要度の一例である。

このように、対訳処理装置５０は、元々が短い文書の場合、元々の文書の段落数が少ない場合、削除対象である段落内の語句の出現率が高い場合、各段落が文書自体の意味に与える影響も大きく、段落の削除によって文書が極端に短くなって、対訳語句を抽出するための学習データとしては適さないことから、段落の削除を抑制する。

［既知の対訳語句］
図２４は、実施例４にかかる既知の対訳語句に基づく削除可否の判定を説明する図である。ここでは、対訳処理装置５０は、文書情報として、事前に整備した対訳辞書を保持する。

具体的には、図２４に示すように、対訳処理装置５０は、実施例３の手法により、文書Ａの段落３と文書Ｂの段落ｃとが削除対象と判定した場合、既知の対訳語句を参照し、条件に該当する段落３については削除対象から除外する。

例えば、対訳処理装置５０の評価部６５は、多言語文書｛Ｄ_１，Ｄ_２｝に対して、削除候補の段落Ｄ_１ ^ｎの語句Ｄ_１ ^ｎ，ｉの対訳語句Ｄ_２ ^ｎ，ｊとした場合に、語数ＴＤ_１ ^ｎ，ｉが文書Ｄ_１における割合「ＴＤ_１ ^ｎ，ｉ／文字数（ＷＤ_１）」を算出し、閾値以上である場合には削除を行わない。すなわち、対訳処理装置５０は、ＴＤ_１ ^ｎ，ｉが大きく占める場合は、該当段落に対訳語句が多く登場することから、削除しない。

ところで、実施例３や実施例４で生成した新たな多言語文書対を用いて、対訳語句を算出する手法としては、実施例１や実施例２を採用することができるが、それ以外の手法を採用することもできる。そこで、実施例５では、新たな多言語文書対から対訳語句を算出手法の例を説明する。

（具体例１）
図２５は、実施例５にかかる対訳語句の抽出例１を説明する図である。図２５に示すように、対訳処理装置５０は、元の多言語文書対のみ、新たな多言語文書対のみ、元の多言語文書対および新たな多言語文書対の両方を、学習データとして、対訳語句を抽出することができる。

例えば、対訳処理装置５０は、元の多言語文書対と新たな多言語文書対とのファイル数を比較し、ファイル数が多い方を選択することができる。また、対訳処理装置５０は、ファイル数が基準（閾値）を満たす方を選択することもできる。また、対訳処理装置５０は、元の多言語文書対と新たな多言語文書対とのそれぞれの文字数を算出し、ファイル数が多くかつ文字数が多い方を選択することもできる。

（具体例２）
図２６は、実施例５にかかる対訳語句の抽出例２を説明する図である。図２６に示すように、対訳処理装置５０は、元の多言語文書対または新たな多言語文書対を学習データとして、半教師あり学習により対訳語句の抽出および対訳辞書の生成を実行することができる。

例えば、対訳処理装置５０は、内容が対応する多言語文書対から対訳語句を抽出する特開２０１８−１０５１４の手法を用いた半教師あり学習を実行する。詳細には、対訳処理装置５０は、特開２０１８−１０５１４の手法により計算されたスコアを元に、上位数位までの対訳語句、または、スコア値が閾値以上の対訳語句を登録する。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［利用形態］
上述した実施例１−４の対訳処理装置は、特定のコミュニティのユーザが利用することができる。図２７は、利用形態の一例を説明する図である。図２７に示すように、実施例１−４の対訳処理装置は、インターネットや社内ネットワークなどのネットワーク上に設置され、部門や会社などの特定コミュニティのユーザが日々作成、更新した多言語文書群を蓄積した部門文書ＤＢから部門の専門用語対訳辞書を作成して、翻訳サーバに搭載する。このようにすることで、ユーザは、翻訳サーバに格納される対訳辞書を用いて、各文書の翻訳や内容の把握を行うことができる。

［データや数値等］
上記実施例で用いた数値、データ例、文書の数、段落数等は、あくまで一例であり、任意に変更することができる。また、上記実施例では、内容の主旨が対応する第２の多言語文書対（comparable corpus）を対象とした例で説明したが、行単位で対応する第１の多言語文書対（parallel corpus）を対象とすることもできる。また、多言語文書対の言語も日本語と英語に限らず、フランス語や中国語など他の言語を用いることができる。

［段落の削除可否］
例えば、上記実施例で説明した判定手法以外の手法を用いることができる。例えば、対訳処理装置５０は、第一の文書において削除対象と判定された段落ｃに含まれる語句と対応付けられる既知の対訳語句が、第二の文書内に所定数以上含まれる場合は、段落ｃを削除対象から除外することもできる。また、多言語文書対の両方から段落を削除する例を説明したが、これに限定されず、片方の文書のみから段落を削除することもできる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、実施例１−２の対訳処理装置１０と実施例３−４の対訳処理装置５０とを別々のサーバで実現することもでき、同じサーバで実現することもできる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
また、上記対訳処理装置１０と対訳処理装置５０とは同様のハードウェア構成を有するので、ここでは、対訳処理装置１００として説明する。図２８は、ハードウェア構成例を説明する図である。図２８に示すように、対訳処理装置１００は、通信装置１００ａ、ＨＤＤ（Hard Disk Drive）１００ｂ、メモリ１００ｃ、プロセッサ１００ｄを有する。また、図２８に示した各部は、バス等で相互に接続される。

通信装置１００ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１００ｂは、図２や図１６に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１００ｄは、図２に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１００ｃに展開することで、図２等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、対訳処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１００ｄは、形態素解析部２１、確率計算部２２、統計情報取得部２３、検出処理部２４等と同様の機能を有するプログラムをＨＤＤ１００ｂ等から読み出す。そして、プロセッサ１００ｄは、形態素解析部２１、確率計算部２２、統計情報取得部２３、検出処理部２４等と同様の処理を実行するプロセスを実行する。なお、図１６についても同様である。

このように対訳処理装置１０は、プログラムを読み出して実行することで対訳処理方法を実行する情報処理装置として動作する。また、対訳処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、対訳処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

１０対訳処理装置
１１通信部
１２記憶部
１３文書ＤＢ
１４対訳辞書ＤＢ
２０制御部
２１形態素解析部
２２確率計算部
２３統計情報取得部
２４検出処理部
２５境界同定部
２６学習データ置換部
２７候補評価部
５０対訳処理装置
５１通信部
５２記憶部
５３文書ＤＢ
５４新規文書ＤＢ
６０制御部
６１文書意味算出部
６２段落分割部
６３生成処理部
６４段落意味算出部
６５評価部
６６生成部

Claims

コンピュータが、
第一の言語で記述された第一の文書に含まれる各第一の形態素から、前記第一の文書と同等の内容が第二の言語で記述された第二の文書に含まれる各第二の形態素への第一の対訳確率、および、前記各第二の形態素から前記各第一の形態素への第二の対訳確率を算出し、
前記第一の対訳確率および前記第二の対訳確率が閾値以上である、前記第一の言語と前記第二の言語との組である形態素対を抽出し、
抽出された前記形態素対に基づき、前記第一の文書と前記第二の文書とにおける対訳語句を生成する
処理を実行することを特徴とする対訳処理方法。
前記抽出する処理は、前記第一の対訳確率と前記第二の対訳確率との両方向の対訳確率が閾値以上である複数の形態素対を特定し、
前記生成する処理は、前記複数の形態素対を１つの単語として前記対訳語句を生成することを特徴とする請求項１に記載の対訳処理方法。
前記複数の形態素対を１つの単語とみなしたみなし複合語を生成し、
前記みなし複合語を１つの形態素として、前記第一の対訳確率および前記第二の対訳確率を算出し、
前記みなし複合語に対する前記第一の対訳確率および前記第二の対訳確率が、前記みなし複合語を構成する各形態素の前記第一の対訳確率および前記第二の対訳確率よりも高い場合に、前記みなし複合語を１つの単語とする前記対訳語句を生成する、処理を前記コンピュータが実行することを特徴とする請求項２に記載の対訳処理方法。
前記抽出する処理は、隣接する第一の形態素の前記両方向の対訳確率、および、隣接する第二の形態素の前記両方向の対訳確率を用いて、前記みなし複合語とみなす最大の範囲を決定することを特徴とする請求項３に記載の対訳処理方法。
前記抽出する処理は、算出された各対訳確率に関わらず、予め指定した助詞に該当する形態素については、前記第一の対訳確率または前記第二の対訳確率が前記閾値未満として扱って、または、既知の対訳語句に該当する形態素については、前記第一の対訳確率または前記第二の対訳確率が前記閾値以上として扱って、前記形態素対を抽出することを特徴とする請求項１に記載の対訳処理方法。
コンピュータに、
第一の言語で記述された第一の文書に含まれる各第一の形態素から、前記第一の文書と同等の内容が第二の言語で記述された第二の文書に含まれる各第二の形態素への第一の対訳確率、および、前記各第二の形態素から前記各第一の形態素への第二の対訳確率を算出し、
前記第一の対訳確率および前記第二の対訳確率が閾値以上である、前記第一の言語と前記第二の言語との組である形態素対を抽出し、
抽出された前記形態素対に基づき、前記第一の文書と前記第二の文書とにおける対訳語句を生成する
処理を実行させることを特徴とする対訳処理プログラム。
コンピュータが、
第一の言語で記述された第一の文書と前記第一の文書と同等の内容が第二の言語で記述された第二の文書とが対応付けられた文書対に対して、前記第一の文書に含まれる各段落を特定し、
前記各段落が前記第一の文書の意味に与える影響を推定し、
推定された前記影響に基づいて、削除対象の段落を特定し、
前記削除対象の段落を前記第一の文書から削除した更新後の第一の文書と、前記第二の文書とが対応付けられた文書対を生成する
処理を実行することを特徴する対訳処理方法。
前記第二の文書に含まれる各段落を特定し、
前記各段落が前記第二の文書の意味に与える影響を推定し、
推定された前記影響に基づいて、削除対象の段落を特定し、
前記削除対象の段落を前記第二の文書から削除した更新後の第二の文書と、前記更新後の第一の文書とが対応付けられた文書対を生成する、処理を前記コンピュータが実行することを特徴とする請求項７に記載の対訳処理方法。
前記推定する処理は、前記第一の文書の意味を高次元ベクトルで表現した第一の意味ベクトル、ある段落に対応する第二の意味ベクトル、前記ある段落を除く残りの段落に対応する第三の意味ベクトルを算出し、
前記特定する処理は、前記第一の意味ベクトルと前記第三の意味ベクトルとの距離が閾値未満、かつ、前記第一の意味ベクトルと前記第二の意味ベクトルとの距離が閾値以上および前記第二の意味ベクトルと前記第三の意味ベクトルとの距離が閾値以上である場合に、前記ある段落を削除可能と判定することを特徴とする請求項７に記載の対訳処理方法。
前記特定する処理は、ある段落の文字数が前記第一の文書全体に占める割合が閾値以上の場合、または、前記第一の文書全体におけるある段落の全語句の重要度の平均が閾値以上の場合、前記ある段落を削除対象から除外することを特徴とする請求項７に記載の対訳処理方法。
前記特定する処理は、前記第一の文書の文字数と前記第二の文書の文字数の差異が閾値以上の場合、前記第一の文書から段落を削除することを抑制することを特徴とする請求項８に記載の対訳処理方法。
前記特定する処理は、前記第一の文書において削除対象と判定されたある段落に含まれる語句に対応付けられる既知の対訳語句が、前記第二の文書内に所定数以上含まれる場合は、前記ある段落を削除対象から除外することを特徴とする請求項８に記載の対訳処理方法。
コンピュータに、
第一の言語で記述された第一の文書と前記第一の文書と同等の内容が第二の言語で記述された第二の文書とが対応付けられた文書対に対して、前記第一の文書に含まれる各段落を特定し、
前記各段落が前記第一の文書の意味に与える影響を推定し、
推定された前記影響に基づいて、削除対象の段落を特定し、
前記削除対象の段落を前記第一の文書から削除した更新後の第一の文書と、前記第二の文書とが対応付けられた文書対を生成する
処理を実行させることを特徴する対訳処理プログラム。