JP2015170131A - 文対応付け決定装置、方法、及びプログラム - Google Patents
文対応付け決定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2015170131A JP2015170131A JP2014044351A JP2014044351A JP2015170131A JP 2015170131 A JP2015170131 A JP 2015170131A JP 2014044351 A JP2014044351 A JP 2014044351A JP 2014044351 A JP2014044351 A JP 2014044351A JP 2015170131 A JP2015170131 A JP 2015170131A
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- pair
- partial
- partial document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】第1文対応付け決定部32により、第1部分文書と第2部分文書との間で計算される対応付けスコアを最適化するように文の対応付けを決定し、第1文書と第2文書との間での文の対応付けし、選択部34により、集合XLに含まれない変数xijklを選択し、反復判定部36により、反復終了条件を満たすまで、選択された変数の集合への追加、決定、及び選択を繰り返し、第2対応付け決定部38が、対応付けスコアを用いて求められる目的関数が最大となるように、集合XLに含まれる変数xijklが表す第1部分文書と第2部分文書とのペアの各々について、対応付けられた第1部分文書と第2部分文書とのペアについて対応付けスコアを最適化するように決定した文の対応付けを、第1文書と第2文書との間での文の対応付けとして決定する。
【選択図】図2
Description
まず、本発明の原理について説明する。本発明は、二つの異なる文書が与えられたときに、それらの間に含まれる文の間の対応関係を求めるものである。文同士の対応関係を求めることは、統計的機械翻訳において必要とされる対訳データを生成するために不可欠な処理である。また、そのほかにも、ある文書の違法なコピーを発見する問題なども、文の対応関係を求めることによって解くことができる。日本語と英語との文書の対応付けの例を図1に示す。図1は5文の英文からなる文書Aと、4文の日本語の文からなる文書Bとの文対応付けの例である。線で結ばれた文同士が対応付けられている。
次に、本発明の実施の形態に係る文対応付け装置の構成について説明する。図2に示すように、本発明の実施の形態に係る文対応付け決定装置100は、CPUと、RAMと、後述する文対応付け決定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この文対応付け決定装置100は、機能的には図2に示すように入力部10と、演算部20と、対応付け結果出力部50とを備えている。
2.選ばれなかった文からなる集合(e1,…,ei−1,f1,…,fk−1)、(ej+1,…,e|E|,fl+1,…,f|F|)のそれぞれについてSmith−Watermanアルゴリズムを実行して、それぞれについて被約費用を最大とする文のまとまりを得る。
3.被約費用を最大とする文のまとまりを取り除いた文の集合について、上記2の手順を繰り返し実行する。
次に、本発明の実施の形態に係る文対応付け決定装置100の作用について説明する。入力部10において、対応付けを行う対象である英語の文書、及び当該英語を翻訳した日本語の文書と、英語の文書及び日本語の文書に含まれる各文の各々に与えられる文スコアと、英語の文書に含まれる文と日本語の文書に含まれる文との対の各々に与えられる対スコアとを受け付けると、文対応付け決定装置100は、図3に示す文対応付け決定処理ルーチンを実行する。
20 演算部
32 第1文対応付け決定部
34 選択部
36 反復判定部
38 第2文対応付け決定部
50 対応付け結果出力部
100 文対応付け決定装置
200 整数線形計画問題処理装置
Claims (5)
- 複数の文を含む第1文書と、複数の文を含む第2文書との間で、文の対応付けを決定する文対応付け決定装置であって、
前記第1文書の複数の文の各々についての前記文が対応付けに利用されない度合いを表す文スコア、前記第2文書の複数の文の各々についての前記文が対応付けに利用されない度合いを表す文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対が対応付けられる度合いを表す対スコアに基づいて、前記第1文書のうちの連続するi番目からj番目までの文からなる第1部分文書と、前記第2文書のうちの連続するk番目からl番目までの文からなる第2部分文書とのペアを表す変数xijklの集合XLに含まれる各変数xijklが表す前記第1部分文書と前記第2部分文書とのペアのうちの少なくとも1つのペアの各々について、前記ペアの前記第1部分文書と前記第2部分文書との間で文の対応付けに応じて計算される対応付けスコアを最適化するように文の対応付けを決定し、前記第1文書と前記第2文書との間での文の対応付けとする第1文対応付け決定部と、
前記第1文対応付け決定部によって決定された前記第1文書と前記第2文書との間での文の対応付けに基づいて、前記第1部分文書と前記第2部分文書とのペアを表す変数xijklのうち、前記集合XLに含まれない変数xijklの何れか1つを選択する選択部と、
予め定められた反復終了条件を満たすまで、前記選択部によって選択された前記変数xijklの前記集合XLへの追加、前記第1文対応付け決定部による決定、及び前記選択部による選択を繰り返す反復判定部と、
前記第1文書の複数の文の各々についての前記文スコア、前記第2文書の複数の文の各々についての前記文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対スコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算される前記対応付けスコアを用いて求められる目的関数が最大となるように、前記集合XLに含まれる変数xijklが表す前記第1部分文書と前記第2部分文書とのペアの各々から、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、対応付けられた前記第1部分文書と前記第2部分文書とのペアの各々について前記対応付けスコアを最適化するように決定した文の対応付けを、前記第1文書と前記第2文書との間での文の対応付けとして決定する第2文対応付け決定部と、
を含む文対応付け決定装置。 - 前記選択部は、前記第1文対応付け決定部によって決定された前記第1文書と前記第2文書との間での文の対応付けに基づいて、前記第1部分文書と前記第2部分文書とのペアを表す変数xijklのうち、前記集合XLに含まれない変数xijklであって、前記変数xijklが表すペアについて最適化するように計算される前記対応付けスコアに基づいて計算される被約費用を最大とする変数xijklを1つ選択し、
前記反復判定部は、前記選択部によって選択された変数xijklの前記被約費用が負の値であるか否かを判定し、変数xijklの被約費用が負の値でない場合には、前記選択部によって選択された前記変数xijklを前記集合XLへ追加して、前記第1文対応付け決定部による決定、及び前記選択部による選択を繰り返し、
前記変数xijklの被約費用が負の値である場合には、貪欲法に従って、前記第1文書の複数の文の各々についての前記文スコア、前記第2文書の複数の文の各々についての前記文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対スコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算される前記対応付けスコアを用いて求められる前記目的関数が最大となるように、前記第1部分文書と前記第2部分文書とのペアの各々から、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、
前記対応付けられる前記第1部分文書と前記第2部分文書とのペアを決定したときの前記目的関数の値と、前記第1文対応付け決定部において得られた前記ペアの各々について最適な対応付けスコアを用いて求められる前記目的関数の値との差分が、前記選択部によって選択された変数xijklの前記被約費用より大きい場合には、前記第1文対応付け決定部による決定、及び前記選択部による選択の繰り返しを終了し、前記差分が、前記選択部によって選択された変数xijklの前記被約費用以下である場合には、前記選択部によって選択された前記変数xijklを前記集合XLへ追加して、前記第1文対応付け決定部による決定、及び前記選択部による選択を繰り返す請求項1記載の文対応付け決定装置。 - 前記選択部は、前記第1文対応付け決定部によって決定された前記第1文書と前記第2文書との間での文の対応付けに基づいて得られる、前記第1部分文書の各文に対応する変数の値及び前記第2部分文書の各文に対応する変数の値と、前記第1文書の複数の文の各々についての前記文スコアと、前記第2文書の複数の文の各々についての前記文スコアと、前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対スコアとに基づいて、動的計画法に従って、前記第1文書の複数の文と前記第2文書の複数の文との各ペアについて、最適化するように前記ペアに対する編集操作スコアを算出し、各ペアについて前記編集操作スコアを算出した結果をバックトラッキングすることにより、前記第1部分文書と前記第2部分文書とのペアを表す変数xijklのうち、前記集合XLに含まれない変数xijklであって、前記被約費用が最大となる変数xijklを1つ選択する請求項2記載の文対応付け決定装置。
- 第1文対応付け決定部と、選択部と、反復判定部と、第2文対応付け決定部と、を含む、複数の文を含む第1文書と、複数の文を含む第2文書との間で、文の対応付けを決定する文対応付け決定装置における、文対応付け決定方法であって、
前記第1文対応付け決定部が、前記第1文書の複数の文の各々についての前記文が対応付けに利用されない度合いを表す文スコア、前記第2文書の複数の文の各々についての前記文が対応付けに利用されない度合いを表す文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対が対応付けられる度合いを表す対スコアに基づいて、前記第1文書のうちの連続するi番目からj番目までの文からなる第1部分文書と、前記第2文書のうちの連続するk番目からl番目までの文からなる第2部分文書とのペアを表す変数xijklの集合XLに含まれる各変数xijklが表す前記第1部分文書と前記第2部分文書とのペアのうちの少なくとも1つのペアの各々について、前記ペアの前記第1部分文書と前記第2部分文書との間で文の対応付けに応じて計算される対応付けスコアを最適化するように文の対応付けを決定し、前記第1文書と前記第2文書との間での文の対応付けし、
前記選択部が、前記第1文対応付け決定部によって決定された前記第1文書と前記第2文書との間での文の対応付けに基づいて、前記第1部分文書と前記第2部分文書とのペアを表す変数xijklのうち、前記集合XLに含まれない変数xijklの何れか1つを選択し、
前記第2文対応付け決定部が、前記反復判定部が、予め定められた反復終了条件を満たすまで、前記選択部によって選択された前記変数xijklの前記集合XLへの追加、前記第1文対応付け決定部による決定、及び前記選択部による選択を繰り返し、
前記第1文書の複数の文の各々についての前記文スコア、前記第2文書の複数の文の各々についての前記文スコア、及び前記第1文書の複数の文と前記第2文書の複数の文との対の各々についての前記対スコアに基づいて、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第1部分文書が、他のペアの前記第1部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの前記第2部分文書が、他のペアの前記第2部分文書と重複せず、かつ、対応付けられる前記第1部分文書と前記第2部分文書とのペアの各々について最適化するように計算される前記対応付けスコアを用いて求められる目的関数が最大となるように、前記集合XLに含まれる変数xijklが表す前記第1部分文書と前記第2部分文書とのペアの各々から、対応付けられる前記第1部分文書と前記第2部分文書とのペアを少なくとも1つ決定し、対応付けられた前記第1部分文書と前記第2部分文書とのペアの各々について前記対応付けスコアを最適化するように決定した文の対応付けを、前記第1文書と前記第2文書との間での文の対応付けとして決定する
文対応付け決定方法。 - コンピュータを、請求項1〜3の何れか1項記載の文対応付け決定装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014044351A JP6019538B2 (ja) | 2014-03-06 | 2014-03-06 | 文対応付け決定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014044351A JP6019538B2 (ja) | 2014-03-06 | 2014-03-06 | 文対応付け決定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015170131A true JP2015170131A (ja) | 2015-09-28 |
JP6019538B2 JP6019538B2 (ja) | 2016-11-02 |
Family
ID=54202819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014044351A Active JP6019538B2 (ja) | 2014-03-06 | 2014-03-06 | 文対応付け決定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6019538B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018073171A (ja) * | 2016-10-31 | 2018-05-10 | 新日鐵住金株式会社 | 鋼材の山分け計画作成装置、鋼材の山分け計画作成方法、およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099511A (ja) * | 1998-09-24 | 2000-04-07 | Oki Electric Ind Co Ltd | 対訳文書対応付けシステム |
JP2002215619A (ja) * | 2000-12-19 | 2002-08-02 | Xerox Corp | 翻訳文書からの翻訳文抽出方法 |
JP2006127405A (ja) * | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム |
JP2014154102A (ja) * | 2013-02-13 | 2014-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 文対応付け決定装置、方法、及びプログラム |
-
2014
- 2014-03-06 JP JP2014044351A patent/JP6019538B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099511A (ja) * | 1998-09-24 | 2000-04-07 | Oki Electric Ind Co Ltd | 対訳文書対応付けシステム |
JP2002215619A (ja) * | 2000-12-19 | 2002-08-02 | Xerox Corp | 翻訳文書からの翻訳文抽出方法 |
JP2006127405A (ja) * | 2004-11-01 | 2006-05-18 | Advanced Telecommunication Research Institute International | バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム |
JP2014154102A (ja) * | 2013-02-13 | 2014-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 文対応付け決定装置、方法、及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018073171A (ja) * | 2016-10-31 | 2018-05-10 | 新日鐵住金株式会社 | 鋼材の山分け計画作成装置、鋼材の山分け計画作成方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6019538B2 (ja) | 2016-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11106714B2 (en) | Summary generating apparatus, summary generating method and computer program | |
JP5661813B2 (ja) | セマンティックオブジェクトの特徴付けおよび検索 | |
JP5239307B2 (ja) | 翻訳装置及び翻訳プログラム | |
KR101939209B1 (ko) | 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN110046348B (zh) | 一种基于规则和词典的地铁设计规范中主体识别方法 | |
Khan et al. | RNN-LSTM-GRU based language transformation | |
JP2010044637A (ja) | データ処理装置、方法、及びプログラム | |
Chen et al. | Facebook AI's WMT20 News Translation Task Submission | |
JP2016134037A (ja) | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 | |
Gupta et al. | Unsupervised self-training for sentiment analysis of code-switched data | |
WO2015145981A1 (ja) | 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、記憶媒体 | |
Zahabi et al. | Using context vectors in improving a machine translation system with bridge language | |
JP6019538B2 (ja) | 文対応付け決定装置、方法、及びプログラム | |
JP4945015B2 (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
JP6698061B2 (ja) | 単語ベクトル変換装置、方法、及びプログラム | |
Sofianopoulos et al. | Implementing a language-independent MT methodology | |
CN114429144B (zh) | 一种运用辅助记忆的多样性机器翻译方法 | |
JP2005025474A (ja) | 機械翻訳装置、コンピュータプログラム及びコンピュータ | |
JP2011191834A (ja) | 文書分類方法、文書分類装置、およびプログラム | |
KR20220054753A (ko) | 음성 검색 방법 및 장치, 전자 기기, 컴퓨터 판독 가능 한 저장 매체 및 컴퓨터 프로그램 | |
JP6590723B2 (ja) | 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム | |
JP2009181301A (ja) | 表現テンプレート生成装置、その方法およびそのプログラム | |
JPWO2018012413A1 (ja) | 類似データ検索装置、類似データ検索方法および記録媒体 | |
CN110866088B (zh) | 一种语料库之间的快速全文检索方法及系统 | |
JP6368633B2 (ja) | 用語意味学習装置、用語意味判定装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20151126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160916 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6019538 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |