JP2018081495A

JP2018081495A - 対訳文対出力装置

Info

Publication number: JP2018081495A
Application number: JP2016223353A
Authority: JP
Inventors: 隆哉小野; Takaya Ono; 佳徳礒田; Keitoku Isoda
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2018-05-24

Abstract

【課題】対訳文対のデータの収集を効率化させること。【解決手段】対訳文対出力装置１００において、選択した第１の言語ファイルから第１の言語の単語を抽出する第１言語抽出部１０７と、第１の言語の単語を第２の言語の単語に変換する単語変換部１０８と、第２の言語の単語ごとの第１の出現頻度を計数する第１頻度計数部１０９と、選択した第２の言語ファイルから第２の言語の単語を抽出する第２言語抽出部１１０と、第２の言語の単語ごとの第２の出現頻度を計数する第２頻度計数部１１１と、第１及び第２の言語ファイル中の第２の言語の単語の第１及び第２の出現率をそれぞれ算出し、第１の及び第２の出現率を基に、第１の言語ファイルと第２の言語ファイルとの間の類似度を計算する類似度計算部１１２と、類似度を基にファイル対を特定し、ファイル対の特定結果を出力する出力部１０５とを備える。【選択図】図１

Description

本発明は、対訳文対を出力する対訳文対出力装置に関する。

下記特許文献１に記載されているように、翻訳元の言語の文と翻訳先の言語の文とを含む対訳文のペア（以下、対訳文対という。）を予め複数格納しておいて、適切な訳文を検索する技術が考案されている。また、従来の機械翻訳システムにおいては、翻訳の精度を向上させるために、多くの対訳文対のデータを用いて学習させる必要がある。

特開２０００−２０５２４号公報

しかしながら、従来は、適切な訳文を得るためには、予め多くの対訳文対を収集しておいてそれらを検索装置又は機械翻訳システム等に入力する必要がある。これらの対訳文対は、様々な目的で管理されたマニュアル、プレスリリース、レポート等の各種の文書データから収集する必要があり、対訳文対のデータの収集が煩雑であった。

そこで、本発明は、かかる課題に鑑みて為されたものであり、対訳文対のデータの収集を効率化させることが可能な対訳文対出力装置を提供することを目的とする。

上述の課題を解決するために、本発明の一側面にかかる対訳文対出力装置は、入力された複数のデータファイルのうちから選択した第１のデータファイルに含まれるテキストデータから第１の言語の単語を抽出する第１単語抽出部と、第１単語抽出部で抽出した第１の言語の単語を、辞書データを用いて第２の言語の単語に変換する単語変換部と、第１のデータファイル中の第１の言語の単語から変換された第２の言語の単語ごとの第１の出現頻度を計数する第１頻度計数部と、複数のデータファイルのうちから選択した第２のデータファイルに含まれるテキストデータから第２の言語の単語を抽出する第２単語抽出部と、第２のデータファイル中の第２の言語の単語ごとの第２の出現頻度を計数する第２頻度計数部と、第１の出現頻度を基に第１のデータファイル中の第１の言語の単語から変換された第２の言語の単語ごとの第１の出現率を算出し、第２の出現頻度を基に第２のデータファイル中の第２の言語の単語ごとの第２の出現率を算出し、第１の出現率及び第２の出現率を基に、第１のデータファイルと第２のデータファイルとの間の類似度を計算する類似度計算部と、類似度計算部によって計算された類似度を基に、複数のデータファイルのうちから対となるファイル対を特定し、ファイル対の特定結果を出力する出力部と、を備える。

上記一側面によれば、入力された複数のデータファイルから選択された第１及び第２のデータファイルの間の類似度が、第１のデータファイル中における第１の言語の単語から変換された第２の言語の単語に関する第１の出現率と、第２のデータファイル中における第２の言語の単語に関する第２の出現率とを基に算出され、その類似度を基に対となるファイル対が特定されて、その特定結果が出力される。これにより、複数のデータファイルの中から対訳文対を含む２つのデータファイルを精度よく自動的に特定することができる。その結果、２つのデータファイルを用いた対訳文対のデータの収集を効率化することができる。

本発明によれば、対訳文対のデータの収集を効率化させることができる。

本発明の好適な一実施形態にかかる対訳文対出力装置１００の構成を示すブロック図である。図１の第１言語抽出部１０７によって抽出されたテキストデータの一例を示す図である。対訳文対出力装置１００の内部に保持される辞書データのデータ構成の一例を示す図である。図１の単語変換部１０８による変換結果のデータの一例を示す図である。図１の第２言語抽出部１１０によって抽出されたテキストデータの一例を示す図である。図１の第２言語抽出部１１０によって抽出された単語のデータの一例を示す図である。図１の第１頻度計数部１０９及び第２頻度計数部１１１によって生成された第１及び第２の出現頻度のデータの例を示す図である。図１の出力部１０５によって作成された対訳文対のデータの例を示す図である。本実施形態の対訳文対出力装置１００による対訳文対出力処理の動作手順を示すフローチャートである。図９のステップＳ０１の処理の詳細を示すフローチャートである。図９のステップＳ０２の処理の詳細を示すフローチャートである。図９のステップＳ０４の処理の詳細を示すフローチャートである。本実施形態に係る対訳文対出力装置１００のハードウェア構成の一例を示す図である。

添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

図１は、本発明の好適な一実施形態にかかる対訳文対出力装置１００の構成を示すブロック図である。図１に示されているとおり、この対訳文対出力装置１００は、入力された複数のデータファイルを用いて対訳文対のデータを生成して出力する情報処理システムである。対訳文対出力装置１００は、外部のサーバ装置、端末装置等の外部装置２００との間で、移動体通信ネットワーク等の通信ネットワークを介してデータの送受信が可能なように構成されている。対訳文対出力装置１００は、通信ネットワークを介して外部装置２００から処理対象のデータファイルの入力を受ける。その他、対訳文対出力装置１００には、メモリカード、補助記憶装置等の記録媒体を用いてオフラインでデータファイルが入力されてもよい。

図１に示すように、対訳文対出力装置１００は、機能的な構成要素として、入力データ記憶部１０１、データファイル抽出部１０２、言語判定部１０３、ファイルマッチング部１０４、出力部１０５、及び出力データ記憶部１０６を含んで構成されている。ファイルマッチング部１０４は、第１言語抽出部（第１単語抽出部）１０７、単語変換部１０８、第１頻度計数部１０９、第２言語抽出部（第２単語抽出部）１１０、第２頻度計数部１１１、類似度計算部１１２、及びペア特定部（出力部）１１３によって構成される。以下、各構成要素について説明する。

入力データ記憶部１０１は、外部装置２００等の外部から入力された複数のデータファイルを記憶する。これらのデータファイルは、既定の拡張子“pdf”、“doc”等を含む“aaa.pdf”、“aaa.doc”等のファイル名称によって識別され、所定のデータフォーマットに従ったテキストデータを含むものである。具体的には、複数のデータファイルは、それぞれ、日本語、英語、フランス語、中国語等の所定の言語で記述されたテキストデータを含んでいる。また、複数のデータファイルは、所定の言語で記述されたテキストを画像データとして含んでいてもよい。入力データ記憶部１０１には、複数のデータファイルが、それらのデータファイルの外部装置２００のデータ記憶装置等の格納先に関する情報と共に記憶される。このような格納先に関する情報としてはデータ記憶装置上の格納先アドレスであるディレクトリ（ファイルパスともいう）の情報が挙げられる。

データファイル抽出部１０２は、外部からの指示入力により対訳文対出力処理が起動されたタイミングで、入力データ記憶部１０１から、処理対象の複数のデータファイルを読み出し言語判定部１０３に引き渡す。

言語判定部１０３は、データファイル抽出部１０２から渡された複数のデータファイルのそれぞれについて、それらに含まれるテキストの言語を判定する。言語判定部１０３は、データファイルにテキストデータが含まれる場合には、テキストデータを抽出して様々な言語の辞書データを参照しながら言語を判定する。また、言語判定部１０３は、データファイルにテキストの画像が含まれる場合には、画像の文字認識を実行しながらテキストデータを抽出した後に、そのテキストデータに含まれる言語を様々な言語の辞書データを参照しながら判定する。そして、言語判定部１０３は、複数のデータファイルのうち、含まれるテキストデータの言語が第１の言語（例えば、英語）及び第２の言語（例えば、日本語）と判定されたもののファイル名称（ファイル識別情報）を、ファイルマッチング部１０４に引き渡す。

ファイルマッチング部１０４は、言語判定部１０３によってテキストデータの言語が第１及び第２の言語と判定されて選択された複数のデータファイルを対象にして、対訳文対の作成元となるファイル対を特定する。次に、ファイルマッチング部１０４を構成する各部の機能について詳述する。

第１言語抽出部１０７は、テキストデータが第１の言語と判定されたデータファイル（以下、第１の言語ファイルともいう。）のそれぞれから、テキストデータを抽出した後、テキストデータの中から第１の言語の単語を抽出する。詳細には、第１言語抽出部１０７は、第１の言語ファイルにテキストデータが含まれる場合にはそのテキストデータを抽出し、第１の言語ファイルにテキストの画像データが含まれる場合には、画像の文字認識処理によってテキストデータを抽出する。図２には、第１言語抽出部１０７によって、１つの第１の言語ファイルから抽出されたテキストデータの例を示す。このように、第１言語抽出部１０７により、“The new ABCSTAR II Mobile satellite Communications service ...”の第１の言語のテキストデータが抽出される。さらに、第１言語抽出部１０７は、抽出した第１の言語のテキストデータから第１の言語の単語を全て抽出する。第１言語抽出部１０７は、抽出した全ての第１の言語の単語を、第１の言語ファイルごとにテキストデータ中の出現順で単語変換部１０８に引き渡す。

単語変換部１０８は、第１言語抽出部１０７によって抽出された第１の言語ファイルごとの全ての第１の言語の単語を、内部の辞書データを用いて第２の言語（例えば、日本語）の単語に変換する。図３には、対訳文対出力装置１００の内部に保持される辞書データのデータ構成の一例を示し、図４には、単語変換部１０８による第１の言語ファイルごとの変換結果のデータの一例を示している。図３に示すように、辞書データには、変換元の第１の言語の単語である対象単語“redeny”と、変換先の第２の言語の単語である訳出単語“再”、“再び”、“否定”、“否認”とが対応付けて保持されている。なお、辞書データには、“poorly done”等の複数の単語からなる句も、変換先の単語“不出来”に対応付けて保持されている。図４に示すように、単語変換部１０８は、“new”等の変換元の単語毎に、“あたらしい”、“ない”、“オリジナル”等の変換先の複数の単語を生成する。また、単語変換部１０８は、連続する複数の単語からなる“poorly done”等の句を、“不出来”等の変換先の単語に変換することも行う。そして、単語変換部１０８は、第１の言語ファイルごとに生成した複数の第２の言語の単語のデータを、第１頻度計数部１０９に引き渡す。ここで、文書の種類（ＩＴ文書、特許文書、医療文書、一般文書等）毎に複数の辞書データを保持させておいて、単語変換部１０８が、それらの辞書データのうちの１つの辞書データを、格納先情報等から判定される第１の言語ファイルの種類に応じて選択して用いてもよい。

第１頻度計数部１０９は、第１の言語ファイルごとに、単語変換部１０８によって変換された第２の言語の単語ごとの第１の出現頻度をカウント（計数）する。このとき、第１頻度計数部１０９は、第１の言語の単語が複数の第２の言語の単語に変換されている場合は、複数の第２の言語の単語ごとに１カウント分加算し、各単語の出現数をデータファイル全体でカウントする。第１頻度計数部１０９は、カウントした第１の言語ファイルごとの第１の出現頻度のデータを類似度計算部１１２に引き渡す。

第２言語抽出部１１０は、言語判定部１０３によってテキストデータが第２の言語と判定されたデータファイル（以下、第２の言語ファイルともいう。）のそれぞれから、テキストデータを抽出した後、テキストデータの中から第２の言語の単語を抽出する。詳細には、第２言語抽出部１１０は、第２の言語ファイルにテキストデータが含まれる場合にはそのテキストデータを抽出し、第２の言語ファイルにテキストの画像データが含まれる場合には、画像の文字認識処理によってテキストデータを抽出する。図５には、第２言語抽出部１１０によって、１つの第２の言語ファイルから抽出されたテキストデータの例を示す。このように、第２言語抽出部１１０により、“高速化に対応した新しい衛星移動通信サービス「ABCスターII」...”の第２の言語のテキストデータが抽出される。さらに、第２言語抽出部１１０は、抽出した第２の言語のテキストデータから第２の言語の単語を全て抽出する。このとき、第２言語抽出部１１０は、テキストデータを形態素解析することにより、テキストデータ中の助詞あるいは助動詞等の特徴的でない単語を除去しながら第２の言語の単語を抽出する。図６には、第２言語抽出部１１０によって１つの第２の言語ファイルから抽出された単語のデータの例を示す。このように、第２言語抽出部１１０は、１つの第２の言語ファイルに含まれる“高速”、“化”等の複数の単語のデータを生成する。第２言語抽出部１１０は、生成した全ての第２の言語の単語のデータを、第２の言語ファイルごとにテキストデータ中の出現順で第２頻度計数部１１１に引き渡す。

第２頻度計数部１１１は、第２の言語ファイルごとに、第２言語抽出部１１０によって抽出された第２の言語の単語ごとの第２の出現頻度をカウント（計数）する。第２頻度計数部１１１は、カウントした第２の言語ファイルごとの第２の出現頻度のデータを類似度計算部１１２に引き渡す。

図７には、（ａ）部に第１頻度計数部１０９によって生成された第１の出現頻度のデータの例を示し、（ｂ）部に第２頻度計数部１１１によって生成された第２の出現頻度のデータの例を示している。図７の（ａ）部に示すように、第１の言語のテキストデータを含む１つの第１の言語ファイルを基に抽出された“ソリューション”、“ＧＧＳＮ”等の第２の言語の単語ごとに、それらの出現頻度（第１の出現頻度）を示す数値（“1”、“3”等）が対応付けて生成される。同様に、図７の（ｂ）部に示すように、第２の言語のテキストデータを含む１つの第２の言語ファイルを基に抽出された“ソリューション”、“ＧＧＳＮ”等の第２の言語の単語ごとに、それらの出現頻度（第２の出現頻度）を示す数値（“0”、“3”等）が対応付けて生成される。

類似度計算部１１２は、第１頻度計数部１０９によって生成された第１の言語ファイルごとの第１の出現頻度のデータと、第２頻度計数部１１１によって生成された第２の言語ファイルごとの第２の出現頻度のデータとを基に、第１の言語ファイルと第２の言語ファイルとの間、言い換えれば、第１の言語のテキストファイルによって表現された文書と第２の言語のテキストファイルによって表現された文書との間の類似度を計算する。

すなわち、類似度計算部１１２は、まず、ＴＦ−ＩＤＦ（Term Frequency-Inverse Document Frequency）の計算手法を用いて第１の出現頻度のデータをベクトル化することによって、第１の言語ファイルにおける第２の言語の単語毎の出現率（第１の出現率）を要素として持つ第１の出現率ベクトルを生成する。詳細には、類似度計算部１１２は、１つの第１の言語ファイルを対象にカウントされた第２の言語の単語の出現頻度の二乗和を計算し、その二乗和の逆数の平方根である係数ａを求める。そして、類似度計算部１１２は、それぞれの第２の言語の単語の出現頻度に係数ａを乗じた値を要素として持つ第１の出現率ベクトルを、第１の言語ファイルごとに算出する。例えば、図７の（ａ）部に示した第１の出現頻度のデータを対象にした場合は、類似度計算部１１２は、係数ａを下記式；
a={1/(1^2+3^2+1^2+2^2+3^2+ …)}^(1/2) =0.00487
によって計算し、その結果を基に第１の出現率ベクトルV1を、下記式；
V1=(1*0.00487,3*0.00487,…)= (0.00487,0.01461, …)
によって算出する。同様に、類似度計算部１１２は、第２の出現頻度のデータをベクトル化することによって、第２の言語ファイルにおける第２の言語の単語毎の出現率（第２の出現率）を要素として持つ第２の出現率ベクトルを生成する。例えば、図７の（ｂ）部に示した第２の出現頻度のデータを対象にした場合は、類似度計算部１１２は、係数ａを下記式；
a={1/(0^2+3^2+0^2+0^2+3^2+ …)}^(1/2) =0.000759
によって計算し、その結果を基に第２の出現率ベクトルV2を、下記式；
V2=(0*0.000759,3*0.000759,…)= (0,0.002277, …)
によって算出する。これらの第１及び第２の出現率ベクトルの各要素は、第２の言語の単語毎のデータファイル中の出現率を示し、類似度計算部１１２は、第１及び第２の出現率ベクトルを、それぞれの対応する同一配列の要素が同一の第２の言語の単語（例えば、図７の（ａ）部と（ｂ）部とに示した「ソリューション」等）の出現率を示すように生成する。

さらに、類似度計算部１１２は、第１の言語ファイル毎に算出された第１の出現率ベクトルV1と、第２の言語ファイル毎に算出された第２の出現率ベクトルV2とを基に、第１の言語ファイルと第２の言語ファイルとの間の類似度を算出する。すなわち、類似度計算部１１２は、cosine類似度計算の手法を用いて、第１の出現率ベクトルV1と第２の出現率ベクトルV2の内積計算を実行することにより類似度を計算する。例えば、類似度計算部１１２は、図７に示した第１及び第２の出現頻度のデータを対象にした場合には、類似度X0を下記式；
X0=0.00487*0+0.01461*0.002277+ …=0.0762
によって計算する。

加えて、類似度計算部１１２は、第１の言語ファイルの格納先アドレスであるファイルパスの情報と、第２の言語ファイルの格納先アドレスであるファイルパスの情報とを取得し、それらのファイルパスの情報の類似度を算出する。詳細には、類似度計算部１１２は、第１の言語ファイルのファイルパスの情報と第２の言語ファイルのファイルパスとを、レーベンシュタイン距離を測定することによって比較することにより類似度を算出する。例えば、第１の言語ファイルのファイルパスが
“Users/Document/Translation_Data/eng/document1_1010.docx”
であり、第２の言語ファイルのファイルパスが
“Users/Document/Translation_Data/jpn/document1_1019.docx”
である場合には、両者の文字列の間で一方の文字列を他方の文字列に変形するのに必要な１文字単位の編集回数が“4”となっており、レーベンシュタイン距離が“4”となる。類似度計算部１１２は、レーベンシュタイン距離の逆数を２つのファイルパスの情報の類似度X1として算出する。この類似度X1は、２つのファイルパスのレーベンシュタイン距離が小さいほど高い値となる。

また、類似度計算部１１２は、第１の言語ファイルに含まれるテキストデータの文字数と第２の言語ファイルに含まれるテキストデータの文字数とをカウント（計数）し、両者の間の文字数比を求める。その文字数比を基に第１の言語ファイルと第２の言語ファイルとの類似度をも算出する。具体的には、類似度計算部１１２は、予め対訳関係にあると判明している全ての第１の言語ファイルと第２の言語ファイルの組み合わせに関して文字数比を計算し、文字数比の平均値及び標準偏差を計算しておく。そして、類似度計算部１１２は、平均値及び標準偏差を用いて、それぞれの第１の言語ファイルと第２の言語ファイルとの間の文字数比を対象に、正規化された平均値との差分値を計算し、その差分値の逆数を第１の言語ファイルと第２の言語ファイルとの間の類似度X2として算出する。例えば、第１の言語ファイルの文字数が“13,583”であり、第２の言語ファイルの文字数が“6,811”である場合は、文字数比が
13,583/6811=1.994
と計算される。さらに、文字数比の平均値が“1.7”、文字数比の標準偏差が“0.4”と計算された場合は、正規化された文字数比の差分値が
(1.994-1.7)/0.4=0.735
と計算され、類似度X2がその逆数“1.361”として算出される。この類似度X2は、文字数比の平均値に近いほど高い値となる。

さらに、類似度計算部１１２は、第１の言語ファイルと第２の言語ファイルとの間の最終的な類似度X3として、３つの類似度X0,X1,X2を加味した値を算出する。すなわち、類似度計算部１１２は、類似度X3として３つの類似度X0,X1,X2を重み付け加算した値を算出する。例えば、類似度X0の重みを“10”、類似度X1,X2のそれぞれの重みを“1”と設定し、類似度X3を下記式；
X3=10*X0+1*X1+1*X2=10*0.0762+1*0.25+1*1.361=9.231
により算出する。類似度計算部１１２は、全ての第１及び第２の言語ファイルの組み合わせを対象に類似度X3を算出しペア特定部１１３に引き渡す。

ペア特定部１１３は、類似度計算部１１２によって算出された類似度X3を基に、全てのデータファイルの中から対訳文対の作成元となる第１の言語ファイルと第２の言語ファイルのファイルペア（ファイル対）を特定する。具体的には、ペア特定部１１３は、それぞれの第１の言語ファイルに対して類似度X3が最も高い第２の言語ファイルを特定し、それらの第１言語ファイルと第２言語ファイルとのペアをファイルペアとする。ペア特定部１１３は、ファイルペアとなる２つのデータファイルのファイル名称の組み合わせの情報を、全てのファイルペアの分だけ出力部１０５に引き渡す。

出力部１０５は、ファイルマッチング部１０４によって特定された第１の言語ファイルと第２の言語ファイルとからなるファイルペアを基に文アライメント処理を実行することにより、ファイルペアの特定結果として、複数の対訳文対のデータを作成し出力データ記憶部１０６に格納（出力）する。文アライメント処理としては、「情報通信研究機構季報 Vol.53，No.3，2007年，P.23-28」に記載のパラレルコーパスの自動生成技術（AutomaticConstruction Technology for Parallel Corpora）を採用することができる。この技術によれば、対訳文対を構成する文の対応付けの抽出を、文対応の類似度SntScoreを評価することにより行うことができる。出力データ記憶部１０６に格納された対訳文対のデータは、通信ネットワークを介して外部装置２００等の外部装置に出力されてもよいし、メモリカード、補助記憶装置等の記録媒体を用いてオフラインで外部に出力されてもよい。図８には、出力部１０５によって作成された対訳文対のデータの一例を示している。このように、対応文対を構成する第２の言語の文と第１の言語の文とのペア“高速化に対応した・・・”，“The new ABCSTAR II ・・・”が、第２の言語の文と第１の言語の文との文数の対応を示す情報“1-1”、及び、その文のペアの類似度SntScoreの評価値“0.25431259”と共に出力される。ここで、出力部１０５は、文アライメント処理を実行した結果生成された対訳文対のうち、対応する第１の言語の文の数と第２の言語の文の数とが１対１であって、かつ、類似度SntScoreが規定値以上（例えば、0.1以上）のものを抽出して出力する。これにより、精度の高い対訳文対を出力することができ、それを利用して構築された機械翻訳システムの翻訳の精度を向上させることができる。

次に、上述した構成の対訳文対出力装置１００の処理について説明する。図９は、対訳文対出力装置１００による対訳文対出力処理の動作手順を示すフローチャートであり、図１０は、図９のステップＳ０１の処理の詳細を示すフローチャート、図１１は、図９のステップＳ０２の処理の詳細を示すフローチャート、図１２は、図９のステップＳ０４の処理の詳細を示すフローチャートである。

図９に示すように、まず、外部からの指示入力により対訳文対出力処理が起動されると、対訳文対出力装置１００により、データファイルから選択された第１の言語ファイル毎に、第１の出現頻度のデータが生成される（ステップＳ０１）。次に、対訳文対出力装置１００により、データファイルから選択された第２の言語ファイル毎に、第２の出現頻度のデータが生成される（ステップＳ０２）。その後、対訳文対出力装置１００により、選択された全てのデータファイルを対象に第１の出現率ベクトルV1あるいは第２の出現率ベクトルV2が生成される（ステップＳ０３）。さらに、対訳文対出力装置１００により、第１の言語ファイルと第２の言語ファイルとの間の類似度が計算され、その類似度を基に第１の言語ファイルと第２の言語ファイルとの間のデータファイルのマッチング処理が実行される（ステップＳ０４）。最後に、対訳文対出力装置１００により、マッチングされた第１及び第２の言語ファイルのファイルペアを対象に文アライメント処理が実行されることにより、対訳文対のデータが生成および出力される（ステップＳ０５）。

図１０に示すように、上記ステップＳ０１においては、言語判定部１０３により、処理対象の複数のデータファイルの中から、第１の言語のテキストデータを含む第１の言語ファイルが選択される（ステップＳ１１）。次に、第１言語抽出部１０７によって、第１の言語ファイルからテキストデータが抽出された後、そのテキストデータから第１の言語の単語が抽出される（ステップＳ１２）。その後、単語変換部１０８によって、第１の言語ファイルを基に抽出された第１の言語の単語の全てが第２の言語の単語に変換される（ステップＳ１３）。さらに、第１頻度計数部１０９により、１つの第１の言語ファイルにおける第２の言語の単語の出現頻度が計数されて第１の出現頻度のデータが生成される（ステップＳ１４）。このステップＳ１１〜Ｓ１４の処理は、選択した全ての第１の言語ファイルを対象に繰り返される（ステップＳ１５）。

図１１に示すように、上記ステップＳ０２においては、言語判定部１０３により、処理対象の複数のデータファイルの中から、第２の言語のテキストデータを含む第２の言語ファイルが選択される（ステップＳ２１）。次に、第２言語抽出部１１０によって、第２の言語ファイルからテキストデータが抽出された後、そのテキストデータから第２の言語の単語が抽出される（ステップＳ２２）。その後、第２頻度計数部１１１により、１つの第２の言語ファイルにおける第２の言語の単語の出現頻度が計数されて第２の出現頻度のデータが生成される（ステップＳ２３）。このステップＳ２１〜Ｓ２３の処理は、選択した全ての第２の言語ファイルを対象に繰り返される（ステップＳ２４）。

図１２に示すように、上記ステップＳ０４においては、類似度計算部１１２により、選択された複数の第１の言語ファイルの中から１つのデータファイルが選択される（ステップＳ４１）。次に、類似度計算部１１２により、選択された第１の言語ファイルと全ての第２の言語ファイルとの間のcosine類似度である類似度X0が算出される（ステップＳ４２）。その後、類似度計算部１１２により、選択された第１の言語ファイルと全ての第２の言語ファイルとの間のファイルパス情報の類似度X1、及び選択された第１の言語ファイルと全ての第２の言語ファイルとの間の文字数比を基にした類似度X2が算出される（ステップＳ４３）。さらに、類似度計算部１１２により、選択された第１の言語ファイルと全ての第２の言語ファイルとの間の最終的な類似度X3が、３つの類似度X0,X1,X2の重み付け加算により決定される（ステップＳ４４）。そして、ペア特定部１１３により、最終的な類似度X3が最も高い第１の言語ファイルと第２の言語ファイルとのペアが、対訳文対の元となるファイルペアとしてペアリングされる（ステップＳ４５）。このステップＳ４１〜Ｓ４５の処理は、選択された第１の言語ファイルの全てを対象に繰り返され、全ての第１の言語ファイルを対象にマッチング処理が実行される（ステップＳ４６）。

つぎに、本実施形態の対訳文対出力装置１００の作用効果について説明する。この対訳文対出力装置１００において、入力された複数のデータファイルから選択された第１及び第２の言語ファイルの間の類似度が、第１の言語ファイル中における第１の言語の単語から変換された第２の言語の単語に関する第１の出現率と、第２の言語ファイル中における第２の言語の単語に関する第２の出現率とを基に算出され、その類似度を基に対となるファイル対が特定されて、その特定結果が出力される。これにより、複数のデータファイルの中から対訳文対を含む２つのデータファイルを精度よく自動的に特定することができる。その結果、２つのデータファイルを用いた対訳文対のデータの収集を効率化することができる。

また、上記実施形態では、類似度計算部１１２は、第２の言語の単語の出現率をベクトル化し、ベクトル化した出現率の内積計算を実行することにより類似度を計算する。こうすれば、複数のデータファイルの中から対応する訳文を含むファイル対を、効率的に特定することができる。

さらに、類似度計算部１１２は、データファイルの格納先情報を比較した結果を加味して類似度を計算する。この場合、複数のデータファイルの中から対応する訳文を含むファイル対を、より精度よく特定することができる。

またさらに、類似度計算部１１２は、第１及び第２の言語ファイルに含まれるテキストデータの文字数の比を加味して類似度を計算する。かかる構成を採れば、複数のデータファイルの中から対応する訳文を含むファイル対を、より精度よく特定することができる。

また、上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に(例えば、有線及び／又は無線)で接続し、これら複数の装置により実現されてもよい。

例えば、本発明の一実施の形態における対訳文対出力装置１００などは、本実施形態の対訳文対出力装置１００の処理を行うコンピュータとして機能してもよい。図１３は、本実施形態に係る対訳文対出力装置１００のハードウェア構成の一例を示す図である。上述の対訳文対出力装置１００は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

なお、本明細書における説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。対訳文対出力装置１００のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

対訳文対出力装置１００における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成されてもよい。例えば、データファイル抽出部１０２、言語判定部１０３、ファイルマッチング部１０４、出力部１０５などは、プロセッサ１００１で実現されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、対訳文対出力装置１００のデータファイル抽出部１０２は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１で実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施の形態に係る対訳文対出力処理を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ−ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ−ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及び／又はストレージ１００３を含むデータベース、サーバその他の適切な媒体であってもよい。例えば、入力データ記憶部１０１、出力データ記憶部１０６などは、ストレージ１００３で実現されてもよい。

通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

入力装置１００５は、外部からの入力を受け付ける入力デバイスであり、出力装置１００６は、外部への出力を実施する出力デバイスである。入力装置１００５及び出力装置１００６は、両者が一体となったタッチパネルディスプレイで実現されてもよい。

また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、対訳文対出力装置１００は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ−Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ−Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ−ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ−Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本明細書で説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

上述したパラメータに使用する名称はいかなる点においても限定的なものではない。

本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)（例えば、テーブル、データベースまたは別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

「含む（include）」、「含んでいる（comprising）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。

本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。

１００…対訳文対出力装置、１０４…ファイルマッチング部、１０５…出力部、１０７…第１言語抽出部（第１単語抽出部）、１０８…単語変換部、１０９…第１頻度計数部、１１０…第２言語抽出部（第２単語抽出部）、１１１…第２頻度計数部、１１２…類似度計算部、１１３…ペア特定部（出力部）。

Claims

入力された複数のデータファイルのうちから選択した第１のデータファイルに含まれるテキストデータから第１の言語の単語を抽出する第１単語抽出部と、
前記第１単語抽出部で抽出した前記第１の言語の単語を、辞書データを用いて第２の言語の単語に変換する単語変換部と、
前記第１のデータファイル中の前記第１の言語の単語から変換された前記第２の言語の単語ごとの第１の出現頻度を計数する第１頻度計数部と、
前記複数のデータファイルのうちから選択した第２のデータファイルに含まれるテキストデータから第２の言語の単語を抽出する第２単語抽出部と、
前記第２のデータファイル中の前記第２の言語の単語ごとの第２の出現頻度を計数する第２頻度計数部と、
前記第１の出現頻度を基に前記第１のデータファイル中の前記第１の言語の単語から変換された前記第２の言語の単語ごとの第１の出現率を算出し、前記第２の出現頻度を基に前記第２のデータファイル中の前記第２の言語の単語ごとの第２の出現率を算出し、前記第１の出現率及び前記第２の出現率を基に、前記第１のデータファイルと前記第２のデータファイルとの間の類似度を計算する類似度計算部と、
前記類似度計算部によって計算された前記類似度を基に、前記複数のデータファイルのうちから対となるファイル対を特定し、前記ファイル対の特定結果を出力する出力部と、
を備える
対訳文対出力装置。
前記類似度計算部は、
それぞれの前記第２の言語の単語の第１及び第２の出現率をベクトル化し、ベクトル化した第１及び第２の出現率の内積計算を実行することにより、前記類似度を計算する、
請求項１記載の対訳文対出力装置。
前記類似度計算部は、
前記第１のデータファイルの格納先に関する第１の格納先情報と、前記第２のデータファイルの格納先に関する第２の格納先情報とを取得し、前記第１の格納先情報と第２の格納先情報とを比較した結果を加味して前記類似度を計算する、
請求項１又は２に記載の対訳文対出力装置。
前記類似度計算部は、
前記第１及び第２のデータファイルに含まれるテキストデータのそれぞれから文字数を計数し、前記第１及び第２のデータファイルの前記文字数の比を加味して前記類似度を計算する
請求項１〜３のいずれか１項に記載の対訳文対出力装置。