JP2014010634A - 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム - Google Patents
対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム Download PDFInfo
- Publication number
- JP2014010634A JP2014010634A JP2012146970A JP2012146970A JP2014010634A JP 2014010634 A JP2014010634 A JP 2014010634A JP 2012146970 A JP2012146970 A JP 2012146970A JP 2012146970 A JP2012146970 A JP 2012146970A JP 2014010634 A JP2014010634 A JP 2014010634A
- Authority
- JP
- Japan
- Prior art keywords
- language
- word
- words
- seed
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】翻訳対抽出装置160は、第1の言語の文書集合170及び第2の言語の文書集合172の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し単語間の直接的な関連性を、単語の共起頻度に基づいて計算し単語間の関連グラフを作成する関連グラフ作成部200と、単語の各々について、関連グラフ作成部200により計算された単語間の直接的な関連性を用い、複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算して文脈ベクトルを生成するシード情報伝播部204と、第1の言語の単語及び第2の言語の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを対訳表現として選択する関連性類似度計算部180及び単語対抽出部182とを含む。
【選択図】図3
Description
本発明の第3の局面に係るコンピュータプログラムは、第1の言語と第2の言語との対訳辞書を用い、第1の言語の文書集合及び第2の言語の文書集合から、第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出装置としてコンピュータを機能させる、対訳表現抽出のためのコンピュータプログラムである。対訳辞書は、複数の翻訳対を含む。当該複数の翻訳対の各々は、第1の言語の第1のシード単語と、第2の言語の第2のシード単語とを含む。このコンピュータプログラムは、第1の言語の文書集合、第2の言語の文書集合、及び、対訳辞書を記憶するための記憶手段と、記憶手段に記憶された第1の言語の文書集合、及び、第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成するための単語抽出手段と、第1の単語集合及び第2の単語集合の各々について、単語間の直接的な関連性を、第1の言語の文書集合及び第2の言語の文書集合中における単語の共起頻度に基づいて計算するための直接的関連性計算手段と、第1の単語集合及び第2の単語集合に含まれる単語の各々について、直接的関連性計算手段により計算された単語間の直接的な関連性を用い、複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための文脈ベクトル生成手段と、第1の単語集合の単語及び第2の単語集合の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを、第1の言語と第2の言語との対訳表現として選択し出力するための対訳表現選択手段としてコンピュータを機能させる。
以下の説明では、同じ部品又は処理には同じ参照符号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。なお、以下の説明では、「文脈」とは、文書内の文又はフレーズ等、文書を構成するある単位のことをいうものとする。この文脈は、何らかのアルゴリズムで自動的に得られることが望ましい。例えば句読点等の区切り文字で分けてもよいし、接続詞により文を分割するようにしてもよい。
〈基本的考え方〉
従来の技術では、各単語の文脈ベクトルを生成する際に、その単語と直接リンクしているシードとの関連度のみを用いている。しかしその結果、ある単語と間接的に共起しているシードとの関連度を無視しているという問題があった。ここで、「単語とシードとが間接的に共起している」とは、以下のような場合をいう。
以下、この実施の形態に係る翻訳対抽出装置160の構成について説明する。なお、以下の説明では、言語の対については一般的に第1の言語と第2の言語を例として説明する。
図4に示す処理230の詳細について図6を参照して説明する。この処理では、まず、第1の言語の文書集合170の各文書の各文について形態素解析を行ない、処理対象の単語を抽出する(ステップ270)。続いて、文書集合から得られた単語の集合Vに属する各単語viに対して、第1の言語の文書集合170内で単語viが出現した文脈の数xi、文脈単語vjと共起した文脈の数yij、及び第1の言語の文書集合170内にある文脈数Cをカウントする(ステップ272)。最後に、全文脈数C、単語viが出現した文脈数xi、及び単語viが文脈単語vjと共起した文脈の数yijを用い、単語viとその文脈単語vjとの、同一文脈での共起度合いwijを算出する(ステップ274)。この共起度合いwijが、2つの単語vi及びvjの関連性を示し、日本語共起グラフ100におけるこれら単語に対応するノード間のエッジに割当てられる。ステップ274が完了すると関連グラフ244(図5に示す日本語共起グラフ100)が得られる。第2の言語についても同様である。なお、共起度合いwijとしては例えば以下の式に示す相互情報量を使用できる。
図9を参照して、図4の処理236及び238では、それぞれ、第1の言語の関連グラフと第2の言語の関連グラフとについて、非シードのあるノード(例えばノード130)と直接の関連を持たないシードのノードであって、間接的な関連を持つノード(例えばノード130に対して、ノード132を介して間接的に関連するシードのノード110)のシード情報を、間に介在するノード(例えばノード132)を介して伝播する。この際、シード情報はノードを連結するエッジに割当てられた関連度を乗じることで、関連度に応じて弱められた形で伝播される。また、図9には示されていないが、2つのノードの間に間接的な関連が複数ある場合にはそれら関連を全て通じて伝播されるシード情報の和が結果的に伝播される。この結果、シードでないノードの各々について、間接的な関連性も含めた総合的な関連度が、シードとの間で計算される。
図14を参照して、上記した処理236及び238が完了すると、日本語共起グラフ100及び英語共起グラフ102の双方において、非シードのノードの各々について、シードとの間接的な関連まで含めた総合的な関連度を要素とする文脈ベクトルが算出されることになる。図14に示す例では、これらノードの文脈ベクトルにおいて、直接的にこれらノードと連結されているシードのノードだけではなく、他のノードを介して間接的にこれらノードと関連しているシード(例えばノード130に対するノード110、及びノード134に対するノード112)についても、要素となっている。その結果、図14に示す例では、ノード130とノード134との文脈ベクトルの類似度が高くなる一方、ノード130とノード138との文脈ベクトルの類似度は、ノード138とノード112との間接的な関連度が低いため低くなる。したがってノード130とノード134を翻訳対として正しく抽出することが可能になり、ノード130とノード138とを誤って抽出する可能性が低くなる。なお、文脈ベクトルの間の類似度としては、例えばコサイン類似度を用いることができる。
図4の処理242での単語対の抽出は、上のように計算した類似度が所定のしきい値より高い対応関係を選択する、又は類似度が高いものから順番に所定個数の対応関係を選択することにより行なわれる。
〈全体の動作順序〉
図4を参照して、本実施の形態の処理は、第1の言語の文書集合170、第2の言語の文書集合172、及びシード翻訳対174の準備、処理230及び処理232の実行、処理234の実行、処理236及び処理238の実行、処理240の実行、並びに処理242の実行、という順序で行なわれる。これらの内、処理230、処理232及び処理234は互いに独立な処理なので、同時並行的に行なうこともできるし、順次的に行なうこともできる。処理236及び処理238も同様である。これらの処理を異なるコンピュータ上で実行してもよい。
図3及び図4を参照して、第1の言語の文書集合170と第2の言語の文書集合172、及びシード翻訳対174を準備しておく。第1の言語の文書集合170及び第2の言語の文書集合172は、対訳関係になくてもよい。しかしできれば同じ分野に属する文書の集合であることが望ましい。シード翻訳対174としては、従来のものと同様のものを使用できる。
図6に示す処理を第1の言語の文書集合170と第2の言語の文書集合172との双方について実行することにより関連グラフ244及び246が作成できる。具体的には、第1の言語の文書集合170の場合を例にとると、図6のステップ270において第1の言語の文書集合170の各文書を形態素解析する。ステップ272(詳細は図7)において、第1の言語の文書集合170から抽出した処理対象の全単語viに対し、その単語viが出現した文脈数xi(図7のステップ320)、単語viが文脈単語vjと共起した文脈の数yij(図7のステップ332)、及び第1の言語の文書集合170内にある全文脈数C(図7のステップ310)をカウントする。ステップ274で、これら全文脈数C、文脈数xi、及び単語viが文脈単語vjと共起した文脈の数yijを用い、単語viとその文脈単語vjとの同一文脈での共起度合いwijを計算する。これにより、第1の言語の文書集合170について、(単語vi、単語vj、共起度合いwij)のリストとして関連グラフ244が得られる。
図4の処理234において、図8に示すように、第1の言語及び第2の言語の双方のシード単語集L1及びL2を求め、さらにこれらシード単語集L1内のシードとシード単語集L2内のシードとの対応関係Aを求める。図8に示すいずれの方法を用いてもよい。
図4の処理236及び処理238により、第1の言語の文書集合170から得られた関連グラフ244、及び第2の言語の文書集合172から得られた関連グラフ246において、各単語のシード分布を、非シードのノードとシードとの間接的関連を含めて伝播する処理を行なう。具体的には、例えば関連グラフ244に対する処理を考えると、図10を参照して、シード単語集L1と、関連グラフ244を表す3つ組(単語vi、単語vj、共起度合いwij)のリストとを用い、シード分布の状態を表す行列Qを初期化する(ステップ352)。その詳細は図11に示したとおりである。要するに、全単語の集合V内の各単語viについて、それがシード単語かどうかを判定し、シード単語であればその単語viの文脈ベクトルの内、そのシード単語に相当する要素の値を1、シード単語に相当しない要素を0にする。単語viがシード単語でなければ、その単語viの文脈ベクトルの各要素の値を1/N(Nは全単語の数)とする。
図4の処理240では、シード情報伝播部204で第1の言語の各ノードについて得られた文脈ベクトルと、シード情報伝播部214で第2の言語の各ノードについて得られた文脈ベクトルとのコサイン類似度を計算する。続いて処理242において、コサイン類似度が所定のしきい値より大きな文脈ベクトルのペアに対応するノード対を翻訳対として抽出する。
上記第1の実施の形態では、図13に示す処理451を所定回数(n回)繰返した時点で繰返しを終了している。しかし本発明はそのような実施の形態には限定されない。例えば、各繰返しにおいて、各ノードの文脈ベクトルが、直前の繰返し時と比較してどの程度変化しているかを調べ、この変化量があるしきい値以下となった時点で繰返しを終了しても良い。この第2の実施の形態は、そのような実施の形態である。
第2の実施の形態に係る装置は、第1の実施の形態の装置と比較して、図10のステップ354及びステップ356の部分のみが異なる。それらに対応する処理を実現するプログラムの制御構造を図15に示す。
この実施の形態に係る装置は、第1の実施の形態の装置とほぼ同様に動作する。異なるのは、図3のシード情報伝播部204及びシード情報伝播部214、すなわち図4の処理236及び処理238の処理の終了条件が異なる点だけである。すなわちこの実施の形態では、所定回数だけ伝播処理を行なったときに処理を終了するのではなく、図15の処理534を行なうごとに、行列Qの各要素の差分の最大値を変数maxに保存し変数maxの値がしきい値θ以下となったときに処理を終わる。その他の点では、この装置は第1の実施の形態の装置と同じ動作をする。
第1及び第2の実施の形態では、共起グラフを関連グラフとして用いている。しかし本発明は、そのような実施の形態には限定されない。共起グラフのように単語viと文脈単語vjとの共起度合いそのものではなく、単語viと文脈単語vjとの文脈類似度を用いたグラフ(意味グラフと呼ぶ)を関連グラフとして用いても良い。ここで、文脈類似度は共起度合いを用いて算出されるもので、以下の手順で得られるもののことをいう。
なお、第1及び第2の実施の形態において、共起度合いwijとしては相互情報量以外にも、対数尤度比、ダイス係数、χ二乗値、z値等、共起度を測る統計指標、及び、tf・idf値等、単語viの文脈における文脈単語vjの特徴度を測る指標等も用いることができる。また、図6のステップ274で得られた共起度合いwijについて、その値が所定のしきい値より小さい場合に、その共起度合いwijを削除してもよい。また、各単語viに対して共起度合いwijの上位の所定個数のみを使用し、他は削除するようにしてもよい。第3の実施の形態における図16のステップ612におけるωijでも同様である。
(1)第1の言語の各単語に対して類似度が上位1位の第2の言語の単語からなるペアを出力
(2)第1の言語の各単語と、当該単語に対して類似度が上位N位までの第2の言語の単語からなるペアを出力(Nは人手で予め設定する。)
(3)第1及び第2の言語の単語のペアの内、類似度が予め定めたしきい値以上のものを出力
(4)上記(1)又は(2)と(3)との組合せ
上記実施の形態では、第1の言語の文書集合170と第2の言語の文書集合172とが与えられ、両者から翻訳対を抽出している。しかし、本発明はそのような実施の形態のみに適用可能な訳ではない。他の方式で翻訳対を求める場合にも適用できる。例えば、第1の言語のある単語が与えられた場合、その単語に対する翻訳を求める場合も、第1〜第3の実施の形態の方法をほぼそのまま転用できる。第1〜第3の実施の形態において、第1の言語の単語中で、入力された特定の単語のみを処理の対象とすればよい。この場合にも、出力として、入力された単語に対し類似度が最上位の1個の第2の言語の単語を出力するようにしてもよいし、予め指定された複数個の単語を出力するようにしてもよい。さらに、類似度が予め定めたしきい値以上の単語のみを出力するようにしてもよい。この場合には、入力された単語に対する訳語が存在しないという場合もあり得る。
上記実施の形態に係る対訳表現抽出装置及びこの装置により実行される対訳表現抽出方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図18はこのコンピュータシステム730の外観を示し、図19はコンピュータシステム730の内部構成を示す。
52 英語文書集合
54 既存辞書
60、62 関連度リスト
66、68 文脈ベクトル
100 日本語共起グラフ
102 英語共起グラフ
110,112,114,116,118,120 シードのノード
130,132,134,136,138 シード以外のノード
170 第1の言語の文書集合
172 第2の言語の文書集合
176 第1の文脈ベクトル生成部
178 第2の文脈ベクトル生成部
180 関連性類似度計算部
182 単語対抽出部
184 単語対
Claims (6)
- 第1の言語と第2の言語との対訳辞書を用い、前記第1の言語の文書集合及び前記第2の言語の文書集合から、前記第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出装置であって、
前記対訳辞書は、複数の翻訳対を含み、
当該複数の翻訳対の各々は、前記第1の言語の第1のシード単語と、前記第2の言語の第2のシード単語とを含み、
前記第1の言語の文書集合、及び、前記第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成するための単語抽出手段と、
前記第1の単語集合及び前記第2の単語集合の各々について、単語間の直接的な関連性を、前記第1の言語の文書集合及び前記第2の言語の文書集合中における単語の共起頻度に基づいて計算するための直接的関連性計算手段と、
前記第1の単語集合及び前記第2の単語集合に含まれる単語の各々について、前記直接的関連性計算手段により計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための文脈ベクトル生成手段と、
前記第1の単語集合の単語及び前記第2の単語集合の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを、前記第1の言語と前記第2の言語との対訳表現として選択するための対訳表現選択手段とを含む、対訳表現抽出装置。 - 前記文脈ベクトル生成手段は、
前記第1の単語集合に含まれる単語の各々について、前記直接的関連性計算手段により計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々のうちの前記第1のシード単語との間の前記総合的関連性を計算することにより、前記複数の翻訳対の各々との前記総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための第1の言語の文脈ベクトル生成手段と、
前記第2の単語集合に含まれる単語の各々について、前記直接的関連性計算手段により計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々のうちの前記第2のシード単語との間の前記総合的関連性を計算することにより、前記複数の翻訳対の各々との前記総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための第2の言語の文脈ベクトル生成手段とを含む、請求項1に記載の対訳表現抽出装置。 - 前記直接的関連性計算手段は、
前記第1の単語集合及び前記第2の単語集合の各々について、単語間の直接的な関連性を、前記第1の言語の文書集合及び前記第2の言語の文書集合中における単語の、互いに直接の共起関係にある頻度に基づいて単語同士の間で計算するための計算手段と、
前記第1の単語集合及び前記第2の単語集合の各々について、単語をノード、単語間の直接的な共起関係をエッジとする関連グラフを構築し、各エッジには当該エッジに対応する共起関係について前記計算手段により計算された直接的な関連性を割当てるための関連グラフ構築手段とを含む、請求項2に記載の対訳表現抽出装置。 - 前記第1の言語の関連性計算手段は、
前記第1の言語について構築された前記関連グラフにおいて、各ノードに対応する単語について前記文脈ベクトル生成手段により生成された文脈ベクトルを、各エッジを介して隣接するノードに伝播させるための伝播手段と、
前記伝播を、所定の終了条件が成立するまで繰返し実行するように前記伝播手段を制御するための繰返し制御手段とを含み、
前記伝播手段は、前記分布の伝播において、当該エッジに割当てられた直接的な関連度を前記文脈ベクトルの各要素に乗じる、請求項3に記載の対訳表現抽出装置。 - 第1の言語と第2の言語との対訳辞書を用い、前記第1の言語の文書集合及び前記第2の言語の文書集合から、前記第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出方法であって、
前記対訳辞書は、複数の翻訳対を含み、
当該複数の翻訳対の各々は、前記第1の言語の第1のシード単語と、前記第2の言語の第2のシード単語とを含み、
前記第1の言語の文書集合、及び、前記第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成する単語抽出ステップと、
前記第1の単語集合及び前記第2の単語集合の各々について、単語間の直接的な関連を、前記第1の言語の文書集合及び前記第2の言語の文書集合中における単語の共起頻度に基づいて計算する直接的関連性計算ステップと、
前記第1の単語集合及び前記第2の単語集合に含まれる単語の各々について、前記直接的関連性計算ステップにおいて計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成する文脈ベクトル生成ステップと、
前記第1の単語集合の単語及び前記第2の単語集合の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを、前記第1の言語と前記第2の言語との対訳表現として選択する対訳表現選択ステップとを含む、対訳表現抽出方法。 - 第1の言語と第2の言語との対訳辞書を用い、前記第1の言語の文書集合及び前記第2の言語の文書集合から、前記第1の言語と第2の言語との対訳表現を抽出する対訳表現抽出装置としてコンピュータを機能させる、対訳表現抽出のためのコンピュータプログラムであって、
前記対訳辞書は、複数の翻訳対を含み、
当該複数の翻訳対の各々は、前記第1の言語の第1のシード単語と、前記第2の言語の第2のシード単語とを含み、
前記コンピュータプログラムは、前記コンピュータを、
前記第1の言語の文書集合、前記第2の言語の文書集合、及び、前記対訳辞書を記憶するための記憶手段と、
前記第1の言語の文書集合、及び、前記第2の言語の文書集合の各々から、対訳表現の抽出対象となる単語をそれぞれ抽出し、第1の単語集合及び第2の単語集合を形成するための単語抽出手段と、
前記第1の単語集合及び前記第2の単語集合の各々について、単語間の直接的な関連性を、前記第1の言語の文書集合及び前記第2の言語の文書集合中における単語の共起頻度に基づいて計算するための直接的関連性計算手段と、
前記第1の単語集合及び前記第2の単語集合に含まれる単語の各々について、前記直接的関連性計算手段により計算された単語間の直接的な関連性を用い、前記複数の翻訳対の各々との間の、間接的な関連性を含めた総合的関連性を計算し、当該総合的関連性を要素とする文脈ベクトルを生成するための文脈ベクトル生成手段と、
前記第1の単語集合の単語及び前記第2の単語集合の単語の組合せのうち、対応する文脈ベクトルの類似度が基準値以上となる組合せを、前記第1の言語と前記第2の言語との対訳表現として選択し出力するための対訳表現選択手段として機能させる、対訳表現抽出のためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012146970A JP6112536B2 (ja) | 2012-06-29 | 2012-06-29 | 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012146970A JP6112536B2 (ja) | 2012-06-29 | 2012-06-29 | 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014010634A true JP2014010634A (ja) | 2014-01-20 |
JP6112536B2 JP6112536B2 (ja) | 2017-04-12 |
Family
ID=50107300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012146970A Expired - Fee Related JP6112536B2 (ja) | 2012-06-29 | 2012-06-29 | 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6112536B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018010514A (ja) * | 2016-07-14 | 2018-01-18 | 富士通株式会社 | 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム |
US10216726B2 (en) | 2015-07-31 | 2019-02-26 | Samsung Electronics Co., Ltd. | Apparatus and method for determining translation word |
JP2019159118A (ja) * | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 出力プログラム、情報処理装置及び出力制御方法 |
CN112580916A (zh) * | 2019-09-30 | 2021-03-30 | 深圳无域科技技术有限公司 | 数据评估方法、装置、计算机设备和存储介质 |
WO2022264232A1 (ja) * | 2021-06-14 | 2022-12-22 | 日本電信電話株式会社 | 学習装置、対訳文出力装置、学習方法、対訳文出力方法およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248596A (ja) * | 2010-05-26 | 2011-12-08 | Hitachi Ltd | 画像入り文書の検索システム及び検索方法 |
-
2012
- 2012-06-29 JP JP2012146970A patent/JP6112536B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248596A (ja) * | 2010-05-26 | 2011-12-08 | Hitachi Ltd | 画像入り文書の検索システム及び検索方法 |
Non-Patent Citations (8)
Title |
---|
下畑 さより 外1名: "日英特許コーパスからの専門用語対訳辞書の自動獲得", 自然言語処理, vol. 第14巻第4号, JPN6016024453, 10 July 2007 (2007-07-10), JP, pages 23 - 41, ISSN: 0003345286 * |
安川 美智子 外1名: "Web検索エンジンを用いた用語検索履歴からのシソーラス自動構築", 日本データベース学会LETTERS, vol. 第3巻第1号, JPN6016024459, 15 June 2004 (2004-06-15), JP, pages 105 - 108, ISSN: 0003345292 * |
梶 博行 外1名: "共起語集合の類似度に基づく対訳コーパスからの対訳語抽出", 情報処理学会論文誌, vol. 第42巻第9号, JPN6016024456, 15 September 2001 (2001-09-15), JP, pages 2248 - 2258, ISSN: 0003345289 * |
植野 研 外2名: "ウェブ文書資源からの中日対訳推定における文脈窓幅の役割", 情報処理学会研究報告, vol. 第2005巻第1号, JPN6016024457, 12 January 2005 (2005-01-12), JP, pages 79 - 84, ISSN: 0003345290 * |
榊原 徹也 外2名: "コンパラブルコーパスを用いたWordNetの自動翻訳", 言語処理学会第18回年次大会発表論文集 チュートリアル 本会議 [CD−ROM], JPN6016024460, 31 March 2012 (2012-03-31), JP, pages 681 - 684, ISSN: 0003345293 * |
相澤 彰子 外1名: "著者キーワード中での共起に基づく専門用語間の関連度計算法", 電子情報通信学会論文誌 (J83−D−I), vol. 第J83-D-I巻第11号, JPN6016024458, 25 November 2000 (2000-11-25), JP, pages 1154 - 1162, ISSN: 0003345291 * |
菊井 玄一郎: "ターム間の意味的関連性に基づくタームリストの翻訳多義解消", 自然言語処理, vol. 第7巻第3号, JPN6016024455, 10 July 2000 (2000-07-10), JP, pages 79 - 96, ISSN: 0003345288 * |
萩原 正人 外2名: "類義語自動獲得における間接依存関係の有効性", 言語処理学会第13回年次大会ワークショップ「言語的オントロジーの構築・連携・利用」論文集, JPN6016024454, 19 March 2007 (2007-03-19), JP, pages 43 - 46, ISSN: 0003345287 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10216726B2 (en) | 2015-07-31 | 2019-02-26 | Samsung Electronics Co., Ltd. | Apparatus and method for determining translation word |
JP2018010514A (ja) * | 2016-07-14 | 2018-01-18 | 富士通株式会社 | 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム |
JP2019159118A (ja) * | 2018-03-13 | 2019-09-19 | 富士通株式会社 | 出力プログラム、情報処理装置及び出力制御方法 |
JP7124358B2 (ja) | 2018-03-13 | 2022-08-24 | 富士通株式会社 | 出力プログラム、情報処理装置及び出力制御方法 |
CN112580916A (zh) * | 2019-09-30 | 2021-03-30 | 深圳无域科技技术有限公司 | 数据评估方法、装置、计算机设备和存储介质 |
CN112580916B (zh) * | 2019-09-30 | 2024-05-28 | 深圳无域科技技术有限公司 | 数据评估方法、装置、计算机设备和存储介质 |
WO2022264232A1 (ja) * | 2021-06-14 | 2022-12-22 | 日本電信電話株式会社 | 学習装置、対訳文出力装置、学習方法、対訳文出力方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6112536B2 (ja) | 2017-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
CN110378409B (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
Campos et al. | Biomedical named entity recognition: a survey of machine-learning tools | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
WO2017130434A1 (ja) | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム | |
EP1855211A2 (en) | Machine translation using elastic chunks | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN108681557A (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
JP6705318B2 (ja) | 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム | |
JP6112536B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム | |
Zvonarev et al. | A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data. | |
Castillo | A WordNet-based semantic approach to textual entailment and cross-lingual textual entailment | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
JP6077727B1 (ja) | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム | |
CN114021573B (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
US9286289B2 (en) | Ordering a lexicon network for automatic disambiguation | |
Gao et al. | Chinese-Naxi machine translation method based on Naxi dependency language model | |
KR102299001B1 (ko) | 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치 | |
CN113297854A (zh) | 文本到知识图谱实体的映射方法、装置、设备及存储介质 | |
Ak et al. | Unsupervised morphological analysis using tries | |
Dave et al. | A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages | |
Brychcín | Distributional semantics in language modeling | |
JP2013156815A (ja) | ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150430 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160819 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6112536 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |