JP2018081495A - 対訳文対出力装置 - Google Patents
対訳文対出力装置 Download PDFInfo
- Publication number
- JP2018081495A JP2018081495A JP2016223353A JP2016223353A JP2018081495A JP 2018081495 A JP2018081495 A JP 2018081495A JP 2016223353 A JP2016223353 A JP 2016223353A JP 2016223353 A JP2016223353 A JP 2016223353A JP 2018081495 A JP2018081495 A JP 2018081495A
- Authority
- JP
- Japan
- Prior art keywords
- language
- file
- data
- similarity
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】対訳文対のデータの収集を効率化させること。【解決手段】 対訳文対出力装置100において、選択した第1の言語ファイルから第1の言語の単語を抽出する第1言語抽出部107と、第1の言語の単語を第2の言語の単語に変換する単語変換部108と、第2の言語の単語ごとの第1の出現頻度を計数する第1頻度計数部109と、選択した第2の言語ファイルから第2の言語の単語を抽出する第2言語抽出部110と、第2の言語の単語ごとの第2の出現頻度を計数する第2頻度計数部111と、第1及び第2の言語ファイル中の第2の言語の単語の第1及び第2の出現率をそれぞれ算出し、第1の及び第2の出現率を基に、第1の言語ファイルと第2の言語ファイルとの間の類似度を計算する類似度計算部112と、類似度を基にファイル対を特定し、ファイル対の特定結果を出力する出力部105とを備える。【選択図】 図1
Description
本発明は、対訳文対を出力する対訳文対出力装置に関する。
下記特許文献1に記載されているように、翻訳元の言語の文と翻訳先の言語の文とを含む対訳文のペア(以下、対訳文対という。)を予め複数格納しておいて、適切な訳文を検索する技術が考案されている。また、従来の機械翻訳システムにおいては、翻訳の精度を向上させるために、多くの対訳文対のデータを用いて学習させる必要がある。
しかしながら、従来は、適切な訳文を得るためには、予め多くの対訳文対を収集しておいてそれらを検索装置又は機械翻訳システム等に入力する必要がある。これらの対訳文対は、様々な目的で管理されたマニュアル、プレスリリース、レポート等の各種の文書データから収集する必要があり、対訳文対のデータの収集が煩雑であった。
そこで、本発明は、かかる課題に鑑みて為されたものであり、対訳文対のデータの収集を効率化させることが可能な対訳文対出力装置を提供することを目的とする。
上述の課題を解決するために、本発明の一側面にかかる対訳文対出力装置は、入力された複数のデータファイルのうちから選択した第1のデータファイルに含まれるテキストデータから第1の言語の単語を抽出する第1単語抽出部と、第1単語抽出部で抽出した第1の言語の単語を、辞書データを用いて第2の言語の単語に変換する単語変換部と、第1のデータファイル中の第1の言語の単語から変換された第2の言語の単語ごとの第1の出現頻度を計数する第1頻度計数部と、複数のデータファイルのうちから選択した第2のデータファイルに含まれるテキストデータから第2の言語の単語を抽出する第2単語抽出部と、第2のデータファイル中の第2の言語の単語ごとの第2の出現頻度を計数する第2頻度計数部と、第1の出現頻度を基に第1のデータファイル中の第1の言語の単語から変換された第2の言語の単語ごとの第1の出現率を算出し、第2の出現頻度を基に第2のデータファイル中の第2の言語の単語ごとの第2の出現率を算出し、第1の出現率及び第2の出現率を基に、第1のデータファイルと第2のデータファイルとの間の類似度を計算する類似度計算部と、類似度計算部によって計算された類似度を基に、複数のデータファイルのうちから対となるファイル対を特定し、ファイル対の特定結果を出力する出力部と、を備える。
上記一側面によれば、入力された複数のデータファイルから選択された第1及び第2のデータファイルの間の類似度が、第1のデータファイル中における第1の言語の単語から変換された第2の言語の単語に関する第1の出現率と、第2のデータファイル中における第2の言語の単語に関する第2の出現率とを基に算出され、その類似度を基に対となるファイル対が特定されて、その特定結果が出力される。これにより、複数のデータファイルの中から対訳文対を含む2つのデータファイルを精度よく自動的に特定することができる。その結果、2つのデータファイルを用いた対訳文対のデータの収集を効率化することができる。
本発明によれば、対訳文対のデータの収集を効率化させることができる。
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
図1は、本発明の好適な一実施形態にかかる対訳文対出力装置100の構成を示すブロック図である。図1に示されているとおり、この対訳文対出力装置100は、入力された複数のデータファイルを用いて対訳文対のデータを生成して出力する情報処理システムである。対訳文対出力装置100は、外部のサーバ装置、端末装置等の外部装置200との間で、移動体通信ネットワーク等の通信ネットワークを介してデータの送受信が可能なように構成されている。対訳文対出力装置100は、通信ネットワークを介して外部装置200から処理対象のデータファイルの入力を受ける。その他、対訳文対出力装置100には、メモリカード、補助記憶装置等の記録媒体を用いてオフラインでデータファイルが入力されてもよい。
図1に示すように、対訳文対出力装置100は、機能的な構成要素として、入力データ記憶部101、データファイル抽出部102、言語判定部103、ファイルマッチング部104、出力部105、及び出力データ記憶部106を含んで構成されている。ファイルマッチング部104は、第1言語抽出部(第1単語抽出部)107、単語変換部108、第1頻度計数部109、第2言語抽出部(第2単語抽出部)110、第2頻度計数部111、類似度計算部112、及びペア特定部(出力部)113によって構成される。以下、各構成要素について説明する。
入力データ記憶部101は、外部装置200等の外部から入力された複数のデータファイルを記憶する。これらのデータファイルは、既定の拡張子“pdf”、“doc”等を含む“aaa.pdf”、“aaa.doc”等のファイル名称によって識別され、所定のデータフォーマットに従ったテキストデータを含むものである。具体的には、複数のデータファイルは、それぞれ、日本語、英語、フランス語、中国語等の所定の言語で記述されたテキストデータを含んでいる。また、複数のデータファイルは、所定の言語で記述されたテキストを画像データとして含んでいてもよい。入力データ記憶部101には、複数のデータファイルが、それらのデータファイルの外部装置200のデータ記憶装置等の格納先に関する情報と共に記憶される。このような格納先に関する情報としてはデータ記憶装置上の格納先アドレスであるディレクトリ(ファイルパスともいう)の情報が挙げられる。
データファイル抽出部102は、外部からの指示入力により対訳文対出力処理が起動されたタイミングで、入力データ記憶部101から、処理対象の複数のデータファイルを読み出し言語判定部103に引き渡す。
言語判定部103は、データファイル抽出部102から渡された複数のデータファイルのそれぞれについて、それらに含まれるテキストの言語を判定する。言語判定部103は、データファイルにテキストデータが含まれる場合には、テキストデータを抽出して様々な言語の辞書データを参照しながら言語を判定する。また、言語判定部103は、データファイルにテキストの画像が含まれる場合には、画像の文字認識を実行しながらテキストデータを抽出した後に、そのテキストデータに含まれる言語を様々な言語の辞書データを参照しながら判定する。そして、言語判定部103は、複数のデータファイルのうち、含まれるテキストデータの言語が第1の言語(例えば、英語)及び第2の言語(例えば、日本語)と判定されたもののファイル名称(ファイル識別情報)を、ファイルマッチング部104に引き渡す。
ファイルマッチング部104は、言語判定部103によってテキストデータの言語が第1及び第2の言語と判定されて選択された複数のデータファイルを対象にして、対訳文対の作成元となるファイル対を特定する。次に、ファイルマッチング部104を構成する各部の機能について詳述する。
第1言語抽出部107は、テキストデータが第1の言語と判定されたデータファイル(以下、第1の言語ファイルともいう。)のそれぞれから、テキストデータを抽出した後、テキストデータの中から第1の言語の単語を抽出する。詳細には、第1言語抽出部107は、第1の言語ファイルにテキストデータが含まれる場合にはそのテキストデータを抽出し、第1の言語ファイルにテキストの画像データが含まれる場合には、画像の文字認識処理によってテキストデータを抽出する。図2には、第1言語抽出部107によって、1つの第1の言語ファイルから抽出されたテキストデータの例を示す。このように、第1言語抽出部107により、“The new ABCSTAR II Mobile satellite Communications service ...”の第1の言語のテキストデータが抽出される。さらに、第1言語抽出部107は、抽出した第1の言語のテキストデータから第1の言語の単語を全て抽出する。第1言語抽出部107は、抽出した全ての第1の言語の単語を、第1の言語ファイルごとにテキストデータ中の出現順で単語変換部108に引き渡す。
単語変換部108は、第1言語抽出部107によって抽出された第1の言語ファイルごとの全ての第1の言語の単語を、内部の辞書データを用いて第2の言語(例えば、日本語)の単語に変換する。図3には、対訳文対出力装置100の内部に保持される辞書データのデータ構成の一例を示し、図4には、単語変換部108による第1の言語ファイルごとの変換結果のデータの一例を示している。図3に示すように、辞書データには、変換元の第1の言語の単語である対象単語“redeny”と、変換先の第2の言語の単語である訳出単語“再”、“再び”、“否定”、“否認”とが対応付けて保持されている。なお、辞書データには、“poorly done”等の複数の単語からなる句も、変換先の単語“不出来”に対応付けて保持されている。図4に示すように、単語変換部108は、“new”等の変換元の単語毎に、“あたらしい”、“ない”、“オリジナル”等の変換先の複数の単語を生成する。また、単語変換部108は、連続する複数の単語からなる“poorly done”等の句を、“不出来”等の変換先の単語に変換することも行う。そして、単語変換部108は、第1の言語ファイルごとに生成した複数の第2の言語の単語のデータを、第1頻度計数部109に引き渡す。ここで、文書の種類(IT文書、特許文書、医療文書、一般文書等)毎に複数の辞書データを保持させておいて、単語変換部108が、それらの辞書データのうちの1つの辞書データを、格納先情報等から判定される第1の言語ファイルの種類に応じて選択して用いてもよい。
第1頻度計数部109は、第1の言語ファイルごとに、単語変換部108によって変換された第2の言語の単語ごとの第1の出現頻度をカウント(計数)する。このとき、第1頻度計数部109は、第1の言語の単語が複数の第2の言語の単語に変換されている場合は、複数の第2の言語の単語ごとに1カウント分加算し、各単語の出現数をデータファイル全体でカウントする。第1頻度計数部109は、カウントした第1の言語ファイルごとの第1の出現頻度のデータを類似度計算部112に引き渡す。
第2言語抽出部110は、言語判定部103によってテキストデータが第2の言語と判定されたデータファイル(以下、第2の言語ファイルともいう。)のそれぞれから、テキストデータを抽出した後、テキストデータの中から第2の言語の単語を抽出する。詳細には、第2言語抽出部110は、第2の言語ファイルにテキストデータが含まれる場合にはそのテキストデータを抽出し、第2の言語ファイルにテキストの画像データが含まれる場合には、画像の文字認識処理によってテキストデータを抽出する。図5には、第2言語抽出部110によって、1つの第2の言語ファイルから抽出されたテキストデータの例を示す。このように、第2言語抽出部110により、“高速化に対応した新しい衛星移動通信サービス「ABCスターII」...”の第2の言語のテキストデータが抽出される。さらに、第2言語抽出部110は、抽出した第2の言語のテキストデータから第2の言語の単語を全て抽出する。このとき、第2言語抽出部110は、テキストデータを形態素解析することにより、テキストデータ中の助詞あるいは助動詞等の特徴的でない単語を除去しながら第2の言語の単語を抽出する。図6には、第2言語抽出部110によって1つの第2の言語ファイルから抽出された単語のデータの例を示す。このように、第2言語抽出部110は、1つの第2の言語ファイルに含まれる“高速”、“化”等の複数の単語のデータを生成する。第2言語抽出部110は、生成した全ての第2の言語の単語のデータを、第2の言語ファイルごとにテキストデータ中の出現順で第2頻度計数部111に引き渡す。
第2頻度計数部111は、第2の言語ファイルごとに、第2言語抽出部110によって抽出された第2の言語の単語ごとの第2の出現頻度をカウント(計数)する。第2頻度計数部111は、カウントした第2の言語ファイルごとの第2の出現頻度のデータを類似度計算部112に引き渡す。
図7には、(a)部に第1頻度計数部109によって生成された第1の出現頻度のデータの例を示し、(b)部に第2頻度計数部111によって生成された第2の出現頻度のデータの例を示している。図7の(a)部に示すように、第1の言語のテキストデータを含む1つの第1の言語ファイルを基に抽出された“ソリューション”、“GGSN”等の第2の言語の単語ごとに、それらの出現頻度(第1の出現頻度)を示す数値(“1”、“3”等)が対応付けて生成される。同様に、図7の(b)部に示すように、第2の言語のテキストデータを含む1つの第2の言語ファイルを基に抽出された“ソリューション”、“GGSN”等の第2の言語の単語ごとに、それらの出現頻度(第2の出現頻度)を示す数値(“0”、“3”等)が対応付けて生成される。
類似度計算部112は、第1頻度計数部109によって生成された第1の言語ファイルごとの第1の出現頻度のデータと、第2頻度計数部111によって生成された第2の言語ファイルごとの第2の出現頻度のデータとを基に、第1の言語ファイルと第2の言語ファイルとの間、言い換えれば、第1の言語のテキストファイルによって表現された文書と第2の言語のテキストファイルによって表現された文書との間の類似度を計算する。
すなわち、類似度計算部112は、まず、TF−IDF(Term Frequency-Inverse Document Frequency)の計算手法を用いて第1の出現頻度のデータをベクトル化することによって、第1の言語ファイルにおける第2の言語の単語毎の出現率(第1の出現率)を要素として持つ第1の出現率ベクトルを生成する。詳細には、類似度計算部112は、1つの第1の言語ファイルを対象にカウントされた第2の言語の単語の出現頻度の二乗和を計算し、その二乗和の逆数の平方根である係数aを求める。そして、類似度計算部112は、それぞれの第2の言語の単語の出現頻度に係数aを乗じた値を要素として持つ第1の出現率ベクトルを、第1の言語ファイルごとに算出する。例えば、図7の(a)部に示した第1の出現頻度のデータを対象にした場合は、類似度計算部112は、係数aを下記式;
a={1/(1^2+3^2+1^2+2^2+3^2+ …)}^(1/2) =0.00487
によって計算し、その結果を基に第1の出現率ベクトルV1を、下記式;
V1=(1*0.00487,3*0.00487,…)= (0.00487,0.01461, …)
によって算出する。同様に、類似度計算部112は、第2の出現頻度のデータをベクトル化することによって、第2の言語ファイルにおける第2の言語の単語毎の出現率(第2の出現率)を要素として持つ第2の出現率ベクトルを生成する。例えば、図7の(b)部に示した第2の出現頻度のデータを対象にした場合は、類似度計算部112は、係数aを下記式;
a={1/(0^2+3^2+0^2+0^2+3^2+ …)}^(1/2) =0.000759
によって計算し、その結果を基に第2の出現率ベクトルV2を、下記式;
V2=(0*0.000759,3*0.000759,…)= (0,0.002277, …)
によって算出する。これらの第1及び第2の出現率ベクトルの各要素は、第2の言語の単語毎のデータファイル中の出現率を示し、類似度計算部112は、第1及び第2の出現率ベクトルを、それぞれの対応する同一配列の要素が同一の第2の言語の単語(例えば、図7の(a)部と(b)部とに示した「ソリューション」等)の出現率を示すように生成する。
a={1/(1^2+3^2+1^2+2^2+3^2+ …)}^(1/2) =0.00487
によって計算し、その結果を基に第1の出現率ベクトルV1を、下記式;
V1=(1*0.00487,3*0.00487,…)= (0.00487,0.01461, …)
によって算出する。同様に、類似度計算部112は、第2の出現頻度のデータをベクトル化することによって、第2の言語ファイルにおける第2の言語の単語毎の出現率(第2の出現率)を要素として持つ第2の出現率ベクトルを生成する。例えば、図7の(b)部に示した第2の出現頻度のデータを対象にした場合は、類似度計算部112は、係数aを下記式;
a={1/(0^2+3^2+0^2+0^2+3^2+ …)}^(1/2) =0.000759
によって計算し、その結果を基に第2の出現率ベクトルV2を、下記式;
V2=(0*0.000759,3*0.000759,…)= (0,0.002277, …)
によって算出する。これらの第1及び第2の出現率ベクトルの各要素は、第2の言語の単語毎のデータファイル中の出現率を示し、類似度計算部112は、第1及び第2の出現率ベクトルを、それぞれの対応する同一配列の要素が同一の第2の言語の単語(例えば、図7の(a)部と(b)部とに示した「ソリューション」等)の出現率を示すように生成する。
さらに、類似度計算部112は、第1の言語ファイル毎に算出された第1の出現率ベクトルV1と、第2の言語ファイル毎に算出された第2の出現率ベクトルV2とを基に、第1の言語ファイルと第2の言語ファイルとの間の類似度を算出する。すなわち、類似度計算部112は、cosine類似度計算の手法を用いて、第1の出現率ベクトルV1と第2の出現率ベクトルV2の内積計算を実行することにより類似度を計算する。例えば、類似度計算部112は、図7に示した第1及び第2の出現頻度のデータを対象にした場合には、類似度X0を下記式;
X0=0.00487*0+0.01461*0.002277+ …=0.0762
によって計算する。
X0=0.00487*0+0.01461*0.002277+ …=0.0762
によって計算する。
加えて、類似度計算部112は、第1の言語ファイルの格納先アドレスであるファイルパスの情報と、第2の言語ファイルの格納先アドレスであるファイルパスの情報とを取得し、それらのファイルパスの情報の類似度を算出する。詳細には、類似度計算部112は、第1の言語ファイルのファイルパスの情報と第2の言語ファイルのファイルパスとを、レーベンシュタイン距離を測定することによって比較することにより類似度を算出する。例えば、第1の言語ファイルのファイルパスが
“Users/Document/Translation_Data/eng/document1_1010.docx”
であり、第2の言語ファイルのファイルパスが
“Users/Document/Translation_Data/jpn/document1_1019.docx”
である場合には、両者の文字列の間で一方の文字列を他方の文字列に変形するのに必要な1文字単位の編集回数が“4”となっており、レーベンシュタイン距離が“4”となる。類似度計算部112は、レーベンシュタイン距離の逆数を2つのファイルパスの情報の類似度X1として算出する。この類似度X1は、2つのファイルパスのレーベンシュタイン距離が小さいほど高い値となる。
“Users/Document/Translation_Data/eng/document1_1010.docx”
であり、第2の言語ファイルのファイルパスが
“Users/Document/Translation_Data/jpn/document1_1019.docx”
である場合には、両者の文字列の間で一方の文字列を他方の文字列に変形するのに必要な1文字単位の編集回数が“4”となっており、レーベンシュタイン距離が“4”となる。類似度計算部112は、レーベンシュタイン距離の逆数を2つのファイルパスの情報の類似度X1として算出する。この類似度X1は、2つのファイルパスのレーベンシュタイン距離が小さいほど高い値となる。
また、類似度計算部112は、第1の言語ファイルに含まれるテキストデータの文字数と第2の言語ファイルに含まれるテキストデータの文字数とをカウント(計数)し、両者の間の文字数比を求める。その文字数比を基に第1の言語ファイルと第2の言語ファイルとの類似度をも算出する。具体的には、類似度計算部112は、予め対訳関係にあると判明している全ての第1の言語ファイルと第2の言語ファイルの組み合わせに関して文字数比を計算し、文字数比の平均値及び標準偏差を計算しておく。そして、類似度計算部112は、平均値及び標準偏差を用いて、それぞれの第1の言語ファイルと第2の言語ファイルとの間の文字数比を対象に、正規化された平均値との差分値を計算し、その差分値の逆数を第1の言語ファイルと第2の言語ファイルとの間の類似度X2として算出する。例えば、第1の言語ファイルの文字数が“13,583”であり、第2の言語ファイルの文字数が“6,811”である場合は、文字数比が
13,583/6811=1.994
と計算される。さらに、文字数比の平均値が“1.7”、文字数比の標準偏差が“0.4”と計算された場合は、正規化された文字数比の差分値が
(1.994-1.7)/0.4=0.735
と計算され、類似度X2がその逆数“1.361”として算出される。この類似度X2は、文字数比の平均値に近いほど高い値となる。
13,583/6811=1.994
と計算される。さらに、文字数比の平均値が“1.7”、文字数比の標準偏差が“0.4”と計算された場合は、正規化された文字数比の差分値が
(1.994-1.7)/0.4=0.735
と計算され、類似度X2がその逆数“1.361”として算出される。この類似度X2は、文字数比の平均値に近いほど高い値となる。
さらに、類似度計算部112は、第1の言語ファイルと第2の言語ファイルとの間の最終的な類似度X3として、3つの類似度X0,X1,X2を加味した値を算出する。すなわち、類似度計算部112は、類似度X3として3つの類似度X0,X1,X2を重み付け加算した値を算出する。例えば、類似度X0の重みを“10”、類似度X1,X2のそれぞれの重みを“1”と設定し、類似度X3を下記式;
X3=10*X0+1*X1+1*X2=10*0.0762+1*0.25+1*1.361=9.231
により算出する。類似度計算部112は、全ての第1及び第2の言語ファイルの組み合わせを対象に類似度X3を算出しペア特定部113に引き渡す。
X3=10*X0+1*X1+1*X2=10*0.0762+1*0.25+1*1.361=9.231
により算出する。類似度計算部112は、全ての第1及び第2の言語ファイルの組み合わせを対象に類似度X3を算出しペア特定部113に引き渡す。
ペア特定部113は、類似度計算部112によって算出された類似度X3を基に、全てのデータファイルの中から対訳文対の作成元となる第1の言語ファイルと第2の言語ファイルのファイルペア(ファイル対)を特定する。具体的には、ペア特定部113は、それぞれの第1の言語ファイルに対して類似度X3が最も高い第2の言語ファイルを特定し、それらの第1言語ファイルと第2言語ファイルとのペアをファイルペアとする。ペア特定部113は、ファイルペアとなる2つのデータファイルのファイル名称の組み合わせの情報を、全てのファイルペアの分だけ出力部105に引き渡す。
出力部105は、ファイルマッチング部104によって特定された第1の言語ファイルと第2の言語ファイルとからなるファイルペアを基に文アライメント処理を実行することにより、ファイルペアの特定結果として、複数の対訳文対のデータを作成し出力データ記憶部106に格納(出力)する。文アライメント処理としては、「情報通信研究機構季報 Vol.53,No.3,2007年,P.23-28」に記載のパラレルコーパスの自動生成技術(AutomaticConstruction Technology for Parallel Corpora)を採用することができる。この技術によれば、対訳文対を構成する文の対応付けの抽出を、文対応の類似度SntScoreを評価することにより行うことができる。出力データ記憶部106に格納された対訳文対のデータは、通信ネットワークを介して外部装置200等の外部装置に出力されてもよいし、メモリカード、補助記憶装置等の記録媒体を用いてオフラインで外部に出力されてもよい。図8には、出力部105によって作成された対訳文対のデータの一例を示している。このように、対応文対を構成する第2の言語の文と第1の言語の文とのペア“高速化に対応した・・・”,“The new ABCSTAR II ・・・”が、第2の言語の文と第1の言語の文との文数の対応を示す情報“1-1”、及び、その文のペアの類似度SntScoreの評価値“0.25431259”と共に出力される。ここで、出力部105は、文アライメント処理を実行した結果生成された対訳文対のうち、対応する第1の言語の文の数と第2の言語の文の数とが1対1であって、かつ、類似度SntScoreが規定値以上(例えば、0.1以上)のものを抽出して出力する。これにより、精度の高い対訳文対を出力することができ、それを利用して構築された機械翻訳システムの翻訳の精度を向上させることができる。
次に、上述した構成の対訳文対出力装置100の処理について説明する。図9は、対訳文対出力装置100による対訳文対出力処理の動作手順を示すフローチャートであり、図10は、図9のステップS01の処理の詳細を示すフローチャート、図11は、図9のステップS02の処理の詳細を示すフローチャート、図12は、図9のステップS04の処理の詳細を示すフローチャートである。
図9に示すように、まず、外部からの指示入力により対訳文対出力処理が起動されると、対訳文対出力装置100により、データファイルから選択された第1の言語ファイル毎に、第1の出現頻度のデータが生成される(ステップS01)。次に、対訳文対出力装置100により、データファイルから選択された第2の言語ファイル毎に、第2の出現頻度のデータが生成される(ステップS02)。その後、対訳文対出力装置100により、選択された全てのデータファイルを対象に第1の出現率ベクトルV1あるいは第2の出現率ベクトルV2が生成される(ステップS03)。さらに、対訳文対出力装置100により、第1の言語ファイルと第2の言語ファイルとの間の類似度が計算され、その類似度を基に第1の言語ファイルと第2の言語ファイルとの間のデータファイルのマッチング処理が実行される(ステップS04)。最後に、対訳文対出力装置100により、マッチングされた第1及び第2の言語ファイルのファイルペアを対象に文アライメント処理が実行されることにより、対訳文対のデータが生成および出力される(ステップS05)。
図10に示すように、上記ステップS01においては、言語判定部103により、処理対象の複数のデータファイルの中から、第1の言語のテキストデータを含む第1の言語ファイルが選択される(ステップS11)。次に、第1言語抽出部107によって、第1の言語ファイルからテキストデータが抽出された後、そのテキストデータから第1の言語の単語が抽出される(ステップS12)。その後、単語変換部108によって、第1の言語ファイルを基に抽出された第1の言語の単語の全てが第2の言語の単語に変換される(ステップS13)。さらに、第1頻度計数部109により、1つの第1の言語ファイルにおける第2の言語の単語の出現頻度が計数されて第1の出現頻度のデータが生成される(ステップS14)。このステップS11〜S14の処理は、選択した全ての第1の言語ファイルを対象に繰り返される(ステップS15)。
図11に示すように、上記ステップS02においては、言語判定部103により、処理対象の複数のデータファイルの中から、第2の言語のテキストデータを含む第2の言語ファイルが選択される(ステップS21)。次に、第2言語抽出部110によって、第2の言語ファイルからテキストデータが抽出された後、そのテキストデータから第2の言語の単語が抽出される(ステップS22)。その後、第2頻度計数部111により、1つの第2の言語ファイルにおける第2の言語の単語の出現頻度が計数されて第2の出現頻度のデータが生成される(ステップS23)。このステップS21〜S23の処理は、選択した全ての第2の言語ファイルを対象に繰り返される(ステップS24)。
図12に示すように、上記ステップS04においては、類似度計算部112により、選択された複数の第1の言語ファイルの中から1つのデータファイルが選択される(ステップS41)。次に、類似度計算部112により、選択された第1の言語ファイルと全ての第2の言語ファイルとの間のcosine類似度である類似度X0が算出される(ステップS42)。その後、類似度計算部112により、選択された第1の言語ファイルと全ての第2の言語ファイルとの間のファイルパス情報の類似度X1、及び選択された第1の言語ファイルと全ての第2の言語ファイルとの間の文字数比を基にした類似度X2が算出される(ステップS43)。さらに、類似度計算部112により、選択された第1の言語ファイルと全ての第2の言語ファイルとの間の最終的な類似度X3が、3つの類似度X0,X1,X2の重み付け加算により決定される(ステップS44)。そして、ペア特定部113により、最終的な類似度X3が最も高い第1の言語ファイルと第2の言語ファイルとのペアが、対訳文対の元となるファイルペアとしてペアリングされる(ステップS45)。このステップS41〜S45の処理は、選択された第1の言語ファイルの全てを対象に繰り返され、全ての第1の言語ファイルを対象にマッチング処理が実行される(ステップS46)。
つぎに、本実施形態の対訳文対出力装置100の作用効果について説明する。この対訳文対出力装置100において、入力された複数のデータファイルから選択された第1及び第2の言語ファイルの間の類似度が、第1の言語ファイル中における第1の言語の単語から変換された第2の言語の単語に関する第1の出現率と、第2の言語ファイル中における第2の言語の単語に関する第2の出現率とを基に算出され、その類似度を基に対となるファイル対が特定されて、その特定結果が出力される。これにより、複数のデータファイルの中から対訳文対を含む2つのデータファイルを精度よく自動的に特定することができる。その結果、2つのデータファイルを用いた対訳文対のデータの収集を効率化することができる。
また、上記実施形態では、類似度計算部112は、第2の言語の単語の出現率をベクトル化し、ベクトル化した出現率の内積計算を実行することにより類似度を計算する。こうすれば、複数のデータファイルの中から対応する訳文を含むファイル対を、効率的に特定することができる。
さらに、類似度計算部112は、データファイルの格納先情報を比較した結果を加味して類似度を計算する。この場合、複数のデータファイルの中から対応する訳文を含むファイル対を、より精度よく特定することができる。
またさらに、類似度計算部112は、第1及び第2の言語ファイルに含まれるテキストデータの文字数の比を加味して類似度を計算する。かかる構成を採れば、複数のデータファイルの中から対応する訳文を含むファイル対を、より精度よく特定することができる。
また、上記実施の形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
例えば、本発明の一実施の形態における対訳文対出力装置100などは、本実施形態の対訳文対出力装置100の処理を行うコンピュータとして機能してもよい。図13は、本実施形態に係る対訳文対出力装置100のハードウェア構成の一例を示す図である。上述の対訳文対出力装置100は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、本明細書における説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。対訳文対出力装置100のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
対訳文対出力装置100における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、データファイル抽出部102、言語判定部103、ファイルマッチング部104、出力部105などは、プロセッサ1001で実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、対訳文対出力装置100のデータファイル抽出部102は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る対訳文対出力処理を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。例えば、入力データ記憶部101、出力データ記憶部106などは、ストレージ1003で実現されてもよい。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
入力装置1005は、外部からの入力を受け付ける入力デバイスであり、出力装置1006は、外部への出力を実施する出力デバイスである。入力装置1005及び出力装置1006は、両者が一体となったタッチパネルディスプレイで実現されてもよい。
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
また、対訳文対出力装置100は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
上述したパラメータに使用する名称はいかなる点においても限定的なものではない。
本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
「含む(include)」、「含んでいる(comprising)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
100…対訳文対出力装置、104…ファイルマッチング部、105…出力部、107…第1言語抽出部(第1単語抽出部)、108…単語変換部、109…第1頻度計数部、110…第2言語抽出部(第2単語抽出部)、111…第2頻度計数部、112…類似度計算部、113…ペア特定部(出力部)。
Claims (4)
- 入力された複数のデータファイルのうちから選択した第1のデータファイルに含まれるテキストデータから第1の言語の単語を抽出する第1単語抽出部と、
前記第1単語抽出部で抽出した前記第1の言語の単語を、辞書データを用いて第2の言語の単語に変換する単語変換部と、
前記第1のデータファイル中の前記第1の言語の単語から変換された前記第2の言語の単語ごとの第1の出現頻度を計数する第1頻度計数部と、
前記複数のデータファイルのうちから選択した第2のデータファイルに含まれるテキストデータから第2の言語の単語を抽出する第2単語抽出部と、
前記第2のデータファイル中の前記第2の言語の単語ごとの第2の出現頻度を計数する第2頻度計数部と、
前記第1の出現頻度を基に前記第1のデータファイル中の前記第1の言語の単語から変換された前記第2の言語の単語ごとの第1の出現率を算出し、前記第2の出現頻度を基に前記第2のデータファイル中の前記第2の言語の単語ごとの第2の出現率を算出し、前記第1の出現率及び前記第2の出現率を基に、前記第1のデータファイルと前記第2のデータファイルとの間の類似度を計算する類似度計算部と、
前記類似度計算部によって計算された前記類似度を基に、前記複数のデータファイルのうちから対となるファイル対を特定し、前記ファイル対の特定結果を出力する出力部と、
を備える
対訳文対出力装置。 - 前記類似度計算部は、
それぞれの前記第2の言語の単語の第1及び第2の出現率をベクトル化し、ベクトル化した第1及び第2の出現率の内積計算を実行することにより、前記類似度を計算する、
請求項1記載の対訳文対出力装置。 - 前記類似度計算部は、
前記第1のデータファイルの格納先に関する第1の格納先情報と、前記第2のデータファイルの格納先に関する第2の格納先情報とを取得し、前記第1の格納先情報と第2の格納先情報とを比較した結果を加味して前記類似度を計算する、
請求項1又は2に記載の対訳文対出力装置。 - 前記類似度計算部は、
前記第1及び第2のデータファイルに含まれるテキストデータのそれぞれから文字数を計数し、前記第1及び第2のデータファイルの前記文字数の比を加味して前記類似度を計算する
請求項1〜3のいずれか1項に記載の対訳文対出力装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016223353A JP2018081495A (ja) | 2016-11-16 | 2016-11-16 | 対訳文対出力装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016223353A JP2018081495A (ja) | 2016-11-16 | 2016-11-16 | 対訳文対出力装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018081495A true JP2018081495A (ja) | 2018-05-24 |
Family
ID=62198220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016223353A Pending JP2018081495A (ja) | 2016-11-16 | 2016-11-16 | 対訳文対出力装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018081495A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245118A (zh) * | 2019-06-27 | 2019-09-17 | 重庆市筑智建信息技术有限公司 | 一种bim资料信息三维网格化检索归档方法及其归档系统 |
CN113627150A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于语言相似性的迁移学习平行句对抽取方法及装置 |
CN113792125A (zh) * | 2021-08-25 | 2021-12-14 | 北京库睿科技有限公司 | 基于文本相关性和用户意图的智能检索排序方法和装置 |
-
2016
- 2016-11-16 JP JP2016223353A patent/JP2018081495A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245118A (zh) * | 2019-06-27 | 2019-09-17 | 重庆市筑智建信息技术有限公司 | 一种bim资料信息三维网格化检索归档方法及其归档系统 |
CN113627150A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于语言相似性的迁移学习平行句对抽取方法及装置 |
CN113627150B (zh) * | 2021-07-01 | 2022-12-20 | 昆明理工大学 | 基于语言相似性的迁移学习平行句对抽取方法及装置 |
CN113792125A (zh) * | 2021-08-25 | 2021-12-14 | 北京库睿科技有限公司 | 基于文本相关性和用户意图的智能检索排序方法和装置 |
CN113792125B (zh) * | 2021-08-25 | 2024-04-02 | 北京库睿科技有限公司 | 基于文本相关性和用户意图的智能检索排序方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816078B2 (en) | Automatic entity resolution with rules detection and generation system | |
EP4141733A1 (en) | Model training method and apparatus, electronic device, and storage medium | |
CN110019794B (zh) | 文本资源的分类方法、装置、存储介质及电子装置 | |
US20180025121A1 (en) | Systems and methods for finer-grained medical entity extraction | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN111209409B (zh) | 数据匹配方法及装置、存储介质及电子终端 | |
US20220027575A1 (en) | Method of predicting emotional style of dialogue, electronic device, and storage medium | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
WO2023116561A1 (zh) | 一种实体提取方法、装置、电子设备及存储介质 | |
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
JP2018081495A (ja) | 対訳文対出力装置 | |
US20190258615A1 (en) | Data normalization system | |
CN110008807B (zh) | 一种合同内容识别模型的训练方法、装置及设备 | |
US9886498B2 (en) | Title standardization | |
CN110929499B (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
JP7066844B2 (ja) | エンティティ特定システム | |
WO2020166125A1 (ja) | 翻訳用データ生成システム | |
JP2019139629A (ja) | 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
JP2015225662A (ja) | 人名ユニット辞書の拡張方法、人名言語の認識方法及び人名言語の認識装置 | |
WO2021107006A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112307235B (zh) | 前端页面元素的命名方法、装置及电子设备 | |
CN111339776B (zh) | 简历解析方法、装置、电子设备和计算机可读存储介质 | |
CN113821601A (zh) | 文本对比方法、装置、设备和介质 | |
JP2014059674A (ja) | 文字列検索システム、文字列検索方法及びプログラム |