JP6656894B2 - 対訳辞書作成装置、対訳辞書作成方法およびプログラム - Google Patents
対訳辞書作成装置、対訳辞書作成方法およびプログラム Download PDFInfo
- Publication number
- JP6656894B2 JP6656894B2 JP2015223478A JP2015223478A JP6656894B2 JP 6656894 B2 JP6656894 B2 JP 6656894B2 JP 2015223478 A JP2015223478 A JP 2015223478A JP 2015223478 A JP2015223478 A JP 2015223478A JP 6656894 B2 JP6656894 B2 JP 6656894B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- term
- order
- term pair
- bilingual dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000000605 extraction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 241000220225 Malus Species 0.000 description 23
- 235000021016 apples Nutrition 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 13
- 241000234295 Musa Species 0.000 description 11
- 235000021015 bananas Nutrition 0.000 description 11
- 235000006040 Prunus persica var persica Nutrition 0.000 description 10
- 241000219095 Vitis Species 0.000 description 10
- 235000009754 Vitis X bourquina Nutrition 0.000 description 10
- 235000012333 Vitis X labruscana Nutrition 0.000 description 10
- 235000014787 Vitis vinifera Nutrition 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 240000008790 Musa x paradisiaca Species 0.000 description 6
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 6
- 241000219094 Vitaceae Species 0.000 description 6
- 235000021021 grapes Nutrition 0.000 description 6
- 244000144730 Amygdalus persica Species 0.000 description 5
- 240000005809 Prunus persica Species 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Description
次に、図1に示した対訳辞書作成装置30のハードウエア構成例について、図2を参照して説明する。図2は、対訳辞書作成装置30の構成例を示す図である。
次に、対訳辞書作成装置30によって実現される対訳辞書作成の概要について、図1〜図3を参照して説明する。図3は、対訳辞書作成時における異なる言語文のマッチング処理の概略を説明するための図であって、(a)は日本語文と英語文との対応関係、(b)はマッチング処理時に文の順序を変更したときの日本語文と英語文との対応関係と、を示している。なお、図3(a)および図3(b)は、マッチング処理を例示的に示しているに過ぎない。
次に、対訳辞書作成装置30の機能構成について図4を参照して説明する。図4は、図2に示したハードウエア構成上で実現される対訳辞書作成装置30の機能構成の一例を示す図である。
以下、この対訳辞書作成を実現するために実行される対訳辞書作成装置30の処理について、図1〜図6を参照して説明する。
30 対訳辞書作成装置
40 対訳コーパス
301 対応文取得部
302 用語抽出部
303 用語選定部
304 用語ペア候補取得部
305 対訳辞書出力部
306 用語ペア登録部
401 用語ペア記憶部
402 用語ペア候補記憶部
Claims (5)
- コンピュータが対訳辞書を作成する対訳辞書作成方法であって、
前記コンピュータは、第1言語文と第2言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部を備えており、
対訳コーパスから前記複数の対応文を第1の文順にしたがって読み込むステップと、
前記複数の対応文に含まれる前記第1言語文と前記第2言語文とを構成する用語を抽出するステップと、
前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定するステップと、
前記対訳コーパスから前記第1の文順にしたがって読み込まれた前記複数の対応文の読み込み順序に従って各対応文を構成する前記第1言語文と前記第2言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得するステップであって、前記マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得することは、前記第1の文順における第1の読み込み順序の対応文のマッチング結果と、前記第1の文順における第2の読み込み順序の対応文のマッチング結果とを比較することにより実行され、前記第1の文順における前記第1の読み込み順序は、前記第1の文順における前記第2の読み込み順序よりも上位の順序である、ステップと、
前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力するステップと、を含み、
前記用語ペア候補の取得が終了していないことを条件として、前記取得するステップでは、前記複数の対応文の読み込み順序を第2の文順に変更した前記複数の対応文に対して前記マッチングを行い、前記第2の文順における第1の読み込み順序の対応文のマッチング結果と、前記第2の文順における第2の読み込み順序の対応文のマッチング結果とを比較することにより、前記新規な用語のペアを用語ペア候補として取得し、前記第2の文順における第1の読み込み順序は、前記第2の文順における第2の読み込み順序よりも上位の順序である、
ことを特徴とする対訳辞書作成方法。 - 前記用語ペア記憶部に、前記抽出された用語ペアを登録するステップをさらに含むことを特徴とする請求項1に記載の対訳辞書作成方法。
- 前記新規な用語ペアは、前記マッチング結果において、前記選定された新規な用語と一対の用語が抽出された場合にのみ取得されることを特徴とする請求項1または2に記載の対訳辞書作成方法。
- 第1言語文と第2言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部と、
対訳コーパスから前記複数の対応文を第1の文順にしたがって読み込む対応文読込部と、
前記複数の対応文に含まれる前記第1言語文と前記第2言語文とを構成する用語を抽出する用語抽出部と、
前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定する用語選定部と、
前記対訳コーパスから前記第1の文順にしたがって読み込まれた前記複数の対応文の読み込み順序に従って各対応文を構成する前記第1言語文と前記第2言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得する用語ペア候補取得部であって、前記マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得することは、前記第1の文順における第1の読み込み順序の対応文のマッチング結果と、前記第1の文順における第2の読み込み順序の対応文のマッチング結果とを比較することにより実行され、前記第1の文順における前記第1の読み込み順序は、前記第1の文順における前記第2の読み込み順序よりも上位の順序である、用語ペア候補取得部と、
前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力する対訳辞書出力部と、を含み、
前記用語ペア候補取得部は、前記用語ペア候補の取得が終了していないことを条件として、前記複数の対応文の読み込み順序を第2の文順に変更した前記複数の対応文に対して前記マッチングを行い、前記第2の文順における第1の読み込み順序の対応文のマッチング結果と、前記第2の文順における第2の読み込み順序の対応文のマッチング結果とを比較することにより、前記新規な用語のペアを用語ペア候補として取得し、
前記第2の文順における第1の読み込み順序は、前記第2の文順における第2の読み込み順序よりも上位の順序である、
ことを特徴とする対訳辞書作成装置。 - 請求項1ないし3のいずれか1項に記載の対訳辞書作成方法をコンピュータに実行させるための対訳辞書作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015223478A JP6656894B2 (ja) | 2015-11-13 | 2015-11-13 | 対訳辞書作成装置、対訳辞書作成方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015223478A JP6656894B2 (ja) | 2015-11-13 | 2015-11-13 | 対訳辞書作成装置、対訳辞書作成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017091382A JP2017091382A (ja) | 2017-05-25 |
JP6656894B2 true JP6656894B2 (ja) | 2020-03-04 |
Family
ID=58768675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015223478A Active JP6656894B2 (ja) | 2015-11-13 | 2015-11-13 | 対訳辞書作成装置、対訳辞書作成方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6656894B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291559B (zh) * | 2020-01-22 | 2023-04-11 | 中国民航信息网络股份有限公司 | 姓名文本处理方法及装置、存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3305953B2 (ja) * | 1996-06-19 | 2002-07-24 | 沖電気工業株式会社 | 翻訳パターン作成方法および装置 |
JP2007249606A (ja) * | 2006-03-16 | 2007-09-27 | Oki Electric Ind Co Ltd | 対訳辞書作成装置,対訳辞書作成方法およびコンピュータプログラム |
-
2015
- 2015-11-13 JP JP2015223478A patent/JP6656894B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017091382A (ja) | 2017-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
US9940410B2 (en) | Method of searching for relevant node, and computer therefor and computer program | |
US10891322B2 (en) | Automatic conversation creator for news | |
JP6515624B2 (ja) | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
US11030400B2 (en) | System and method for identifying and replacing slots with variable slots | |
US20210074278A1 (en) | System and method for rule based modifications to variable slots based on context | |
JP7312799B2 (ja) | 情報抽出方法、抽出モデル訓練方法、装置及び電子機器 | |
US20200372088A1 (en) | Recommending web api's and associated endpoints | |
US9753905B2 (en) | Generating a document structure using historical versions of a document | |
US20160117405A1 (en) | Information Processing Method and Apparatus | |
US9766868B2 (en) | Dynamic source code generation | |
US20230076387A1 (en) | Systems and methods for providing a comment-centered news reader | |
US10176165B2 (en) | Disambiguation in mention detection | |
JP2008198132A (ja) | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 | |
US20180173694A1 (en) | Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion | |
CN105608069A (zh) | 信息提取支持设备和方法 | |
KR20220054753A (ko) | 음성 검색 방법 및 장치, 전자 기기, 컴퓨터 판독 가능 한 저장 매체 및 컴퓨터 프로그램 | |
US11494167B2 (en) | Method for identifying project component, and reusability detection system therefor | |
WO2016191912A1 (en) | Comment-centered news reader | |
JP6656894B2 (ja) | 対訳辞書作成装置、対訳辞書作成方法およびプログラム | |
US20180225364A1 (en) | Information output method and information output apparatus | |
CN111309288B (zh) | 适用于银行业务的软件需求规格文件的分析方法及装置 | |
JP2018163586A (ja) | 学習プログラム、学習方法および学習装置 | |
CN113901302A (zh) | 数据处理方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181023 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6656894 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |