JP6019538B2 - 文対応付け決定装置、方法、及びプログラム - Google Patents
文対応付け決定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6019538B2 JP6019538B2 JP2014044351A JP2014044351A JP6019538B2 JP 6019538 B2 JP6019538 B2 JP 6019538B2 JP 2014044351 A JP2014044351 A JP 2014044351A JP 2014044351 A JP2014044351 A JP 2014044351A JP 6019538 B2 JP6019538 B2 JP 6019538B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- pair
- partial
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 38
- 230000006870 function Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 11
- 238000013519 translation Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 2
- 241000257465 Echinoidea Species 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、本発明の原理について説明する。本発明は、二つの異なる文書が与えられたときに、それらの間に含まれる文の間の対応関係を求めるものである。文同士の対応関係を求めることは、統計的機械翻訳において必要とされる対訳データを生成するために不可欠な処理である。また、そのほかにも、ある文書の違法なコピーを発見する問題なども、文の対応関係を求めることによって解くことができる。日本語と英語との文書の対応付けの例を図1に示す。図1は5文の英文からなる文書Aと、4文の日本語の文からなる文書Bとの文対応付けの例である。線で結ばれた文同士が対応付けられている。
次に、本発明の実施の形態に係る文対応付け装置の構成について説明する。図2に示すように、本発明の実施の形態に係る文対応付け決定装置100は、CPUと、RAMと、後述する文対応付け決定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この文対応付け決定装置100は、機能的には図2に示すように入力部10と、演算部20と、対応付け結果出力部50とを備えている。
2.選ばれなかった文からなる集合(e1,…,ei−1,f1,…,fk−1)、(ej+1,…,e|E|,fl+1,…,f|F|)のそれぞれについてSmith−Watermanアルゴリズムを実行して、それぞれについて被約費用を最大とする文のまとまりを得る。
3.被約費用を最大とする文のまとまりを取り除いた文の集合について、上記2の手順を繰り返し実行する。
次に、本発明の実施の形態に係る文対応付け決定装置100の作用について説明する。入力部10において、対応付けを行う対象である英語の文書、及び当該英語を翻訳した日本語の文書と、英語の文書及び日本語の文書に含まれる各文の各々に与えられる文スコアと、英語の文書に含まれる文と日本語の文書に含まれる文との対の各々に与えられる対スコアとを受け付けると、文対応付け決定装置100は、図3に示す文対応付け決定処理ルーチンを実行する。
20 演算部
32 第1文対応付け決定部
34 選択部
36 反復判定部
38 第2文対応付け決定部
50 対応付け結果出力部
100 文対応付け決定装置
200 整数線形計画問題処理装置
Claims (5)
- 複数の文を含む第1文書と、複数の文を含む第2文書との間で、文の対応付けを決定する文対応付け決定装置であって、
前記第1文書の複数の文の各々についての前記文が対応付けに利用されない度合いを表す文スコア、前記第2文書の複数の文の各々についての前記文が対応付けに利用されない度合いを表す文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対が対応付けられる度合いを表す対スコアに基づいて、前記第1文書のうちの連続するi番目からj番目までの文からなる第1部分文書と、前記第2文書のうちの連続するk番目からl番目までの文からなる第2部分文書とのペアを表す変数xijklの集合XLに含まれる各変数xijklが表す前記第1部分文書と前記第2部分文書とのペアのうちの少なくとも1つのペアの各々について、前記ペアの前記第1部分文書と前記第2部分文書との間で文の対応付けに応じて計算される対応付けスコアを最適化するように文の対応付けを決定し、前記第1文書と前記第2文書との間での文の対応付けとする第1文対応付け決定部と、
前記第1文対応付け決定部によって決定された前記第1文書と前記第2文書との間での文の対応付けに基づいて、前記第1部分文書と前記第2部分文書とのペアを表す変数xijklのうち、前記集合XLに含まれない変数xijklの何れか1つを選択する選択部と、
予め定められた反復終了条件を満たすまで、前記選択部によって選択された前記変数xijklの前記集合XLへの追加、前記第1文対応付け決定部による決定、及び前記選択部による選択を繰り返す反復判定部と、
前記第1文書の複数の文の各々についての前記文スコア、前記第2文書の複数の文の各々についての前記文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対スコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算される前記対応付けスコアを用いて求められる目的関数が最大となるように、前記集合XLに含まれる変数xijklが表す前記第1部分文書と前記第2部分文書とのペアの各々から、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、対応付けられた前記第1部分文書と前記第2部分文書とのペアの各々について前記対応付けスコアを最適化するように決定した文の対応付けを、前記第1文書と前記第2文書との間での文の対応付けとして決定する第2文対応付け決定部と、
を含む文対応付け決定装置。 - 前記選択部は、前記第1文対応付け決定部によって決定された前記第1文書と前記第2文書との間での文の対応付けに基づいて、前記第1部分文書と前記第2部分文書とのペアを表す変数xijklのうち、前記集合XLに含まれない変数xijklであって、前記変数xijklが表すペアについて最適化するように計算される前記対応付けスコアに基づいて計算される被約費用を最大とする変数xijklを1つ選択し、
前記反復判定部は、前記選択部によって選択された変数xijklの前記被約費用が負の値であるか否かを判定し、変数xijklの被約費用が負の値でない場合には、前記選択部によって選択された前記変数xijklを前記集合XLへ追加して、前記第1文対応付け決定部による決定、及び前記選択部による選択を繰り返し、
前記変数xijklの被約費用が負の値である場合には、貪欲法に従って、前記第1文書の複数の文の各々についての前記文スコア、前記第2文書の複数の文の各々についての前記文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対スコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算される前記対応付けスコアを用いて求められる前記目的関数が最大となるように、前記第1部分文書と前記第2部分文書とのペアの各々から、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、
前記対応付けられる前記第1部分文書と前記第2部分文書とのペアを決定したときの前記目的関数の値と、前記第1文対応付け決定部において得られた前記ペアの各々について最適な対応付けスコアを用いて求められる前記目的関数の値との差分が、前記選択部によって選択された変数xijklの前記被約費用より大きい場合には、前記第1文対応付け決定部による決定、及び前記選択部による選択の繰り返しを終了し、前記差分が、前記選択部によって選択された変数xijklの前記被約費用以下である場合には、前記選択部によって選択された前記変数xijklを前記集合XLへ追加して、前記第1文対応付け決定部による決定、及び前記選択部による選択を繰り返す請求項1記載の文対応付け決定装置。 - 前記選択部は、前記第1文対応付け決定部によって決定された前記第1文書と前記第2文書との間での文の対応付けに基づいて得られる、前記第1部分文書の各文に対応する変数の値及び前記第2部分文書の各文に対応する変数の値と、前記第1文書の複数の文の各々についての前記文スコアと、前記第2文書の複数の文の各々についての前記文スコアと、前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対スコアとに基づいて、動的計画法に従って、前記第1文書の複数の文と前記第2文書の複数の文との各ペアについて、最適化するように前記ペアに対する編集操作スコアを算出し、各ペアについて前記編集操作スコアを算出した結果をバックトラッキングすることにより、前記第1部分文書と前記第2部分文書とのペアを表す変数xijklのうち、前記集合XLに含まれない変数xijklであって、前記被約費用が最大となる変数xijklを1つ選択する請求項2記載の文対応付け決定装置。
- 第1文対応付け決定部と、選択部と、反復判定部と、第2文対応付け決定部と、を含む、複数の文を含む第1文書と、複数の文を含む第2文書との間で、文の対応付けを決定する文対応付け決定装置における、文対応付け決定方法であって、
前記第1文対応付け決定部が、前記第1文書の複数の文の各々についての前記文が対応付けに利用されない度合いを表す文スコア、前記第2文書の複数の文の各々についての前記文が対応付けに利用されない度合いを表す文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対が対応付けられる度合いを表す対スコアに基づいて、前記第1文書のうちの連続するi番目からj番目までの文からなる第1部分文書と、前記第2文書のうちの連続するk番目からl番目までの文からなる第2部分文書とのペアを表す変数xijklの集合XLに含まれる各変数xijklが表す前記第1部分文書と前記第2部分文書とのペアのうちの少なくとも1つのペアの各々について、前記ペアの前記第1部分文書と前記第2部分文書との間で文の対応付けに応じて計算される対応付けスコアを最適化するように文の対応付けを決定し、前記第1文書と前記第2文書との間での文の対応付けし、
前記選択部が、前記第1文対応付け決定部によって決定された前記第1文書と前記第2文書との間での文の対応付けに基づいて、前記第1部分文書と前記第2部分文書とのペアを表す変数xijklのうち、前記集合XLに含まれない変数xijklの何れか1つを選択し、
前記第2文対応付け決定部が、前記反復判定部が、予め定められた反復終了条件を満たすまで、前記選択部によって選択された前記変数xijklの前記集合XLへの追加、前記第1文対応付け決定部による決定、及び前記選択部による選択を繰り返し、
前記第1文書の複数の文の各々についての前記文スコア、前記第2文書の複数の文の各々についての前記文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対スコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算される前記対応付けスコアを用いて求められる目的関数が最大となるように、前記集合XLに含まれる変数xijklが表す前記第1部分文書と前記第2部分文書とのペアの各々から、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、対応付けられた前記第1部分文書と前記第2部分文書とのペアの各々について前記対応付けスコアを最適化するように決定した文の対応付けを、前記第1文書と前記第2文書との間での文の対応付けとして決定する
文対応付け決定方法。 - コンピュータを、請求項1〜3の何れか1項記載の文対応付け決定装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014044351A JP6019538B2 (ja) | 2014-03-06 | 2014-03-06 | 文対応付け決定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014044351A JP6019538B2 (ja) | 2014-03-06 | 2014-03-06 | 文対応付け決定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015170131A JP2015170131A (ja) | 2015-09-28 |
JP6019538B2 true JP6019538B2 (ja) | 2016-11-02 |
Family
ID=54202819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014044351A Active JP6019538B2 (ja) | 2014-03-06 | 2014-03-06 | 文対応付け決定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6019538B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6838353B2 (ja) * | 2016-10-31 | 2021-03-03 | 日本製鉄株式会社 | 鋼材の山分け計画作成装置、鋼材の山分け計画作成方法、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3778705B2 (ja) * | 1998-09-24 | 2006-05-24 | 沖電気工業株式会社 | 対訳文書対応付けシステム |
US7054803B2 (en) * | 2000-12-19 | 2006-05-30 | Xerox Corporation | Extracting sentence translations from translated documents |
JP2006127405A (ja) * | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム |
JP5964764B2 (ja) * | 2013-02-13 | 2016-08-03 | 日本電信電話株式会社 | 文対応付け決定装置、方法、及びプログラム |
-
2014
- 2014-03-06 JP JP2014044351A patent/JP6019538B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015170131A (ja) | 2015-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11106714B2 (en) | Summary generating apparatus, summary generating method and computer program | |
CN106844368B (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
JP5661813B2 (ja) | セマンティックオブジェクトの特徴付けおよび検索 | |
KR101939209B1 (ko) | 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2007226729A (ja) | 訳語情報出力処理プログラム,処理方法および処理装置 | |
KR20150070171A (ko) | 스트링 변환의 귀납적 합성을 위한 랭킹 기법 | |
Chen et al. | Facebook AI's WMT20 News Translation Task Submission | |
JP2010044637A (ja) | データ処理装置、方法、及びプログラム | |
JP6447161B2 (ja) | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 | |
CN107305543B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
JP2018088101A (ja) | 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム | |
WO2015145981A1 (ja) | 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、記憶媒体 | |
JP5980520B2 (ja) | 効率的にクエリを処理する方法及び装置 | |
JP6019538B2 (ja) | 文対応付け決定装置、方法、及びプログラム | |
WO2018097022A1 (ja) | 自動翻訳パターン学習装置、自動翻訳の前処理装置、及びコンピュータプログラム | |
JP5439776B2 (ja) | 単語アライメント装置及び単語アライメントプログラム | |
JP6495124B2 (ja) | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム | |
JP5022252B2 (ja) | 表現テンプレート生成装置、その方法およびそのプログラム | |
CN114429144B (zh) | 一种运用辅助记忆的多样性机器翻译方法 | |
JP2005025474A (ja) | 機械翻訳装置、コンピュータプログラム及びコンピュータ | |
JP2011191834A (ja) | 文書分類方法、文書分類装置、およびプログラム | |
JP6368633B2 (ja) | 用語意味学習装置、用語意味判定装置、方法、及びプログラム | |
JP2017041207A (ja) | 構造解析装置、方法、及びプログラム | |
JP2010033213A (ja) | 規則学習方法、プログラム及び装置 | |
JP5964764B2 (ja) | 文対応付け決定装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20151126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160916 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6019538 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |