JP6590723B2 - 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム - Google Patents
単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP6590723B2 JP6590723B2 JP2016025253A JP2016025253A JP6590723B2 JP 6590723 B2 JP6590723 B2 JP 6590723B2 JP 2016025253 A JP2016025253 A JP 2016025253A JP 2016025253 A JP2016025253 A JP 2016025253A JP 6590723 B2 JP6590723 B2 JP 6590723B2
- Authority
- JP
- Japan
- Prior art keywords
- language sentence
- source language
- word
- rearrangement
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
本発明の実施の形態では、原言語の構文木に基づく事前並べ替えの学習データのための最適な並べ替えの決定を効率的に行うことを目的とする。具体的には、本実施の形態では、上記非特許文献2と同様の構文木上での事前並べ替えの学習を行うための最適な並べ替えの決定を、原言語側の二単語の順序入れ替えによる単語対応の交差数増減によって定義する。そして、交差数増減によって定義された要素の順序関係を利用したトポロジカルソートを行う。これにより、並べ替えの対象となる要素の数Nに対してO(N!)であった計算量を、O(N2)の計算量で実現する。
次に、本発明の実施の形態に係る単語並べ替え学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る単語並べ替え学習装置100は、CPUと、RAMと、後述する単語並べ替え学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語並べ替え学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
・「昨日」は「で」「を」「見た」よりも順位が低い
・「で」は「を」「見た」よりも順位が低い
・同順となっているノード群のみを取り除いて学習データとする。
・当該部分構造全体を学習データから除外する。
次に、本発明の実施の形態に係る単語並べ替え装置の構成について説明する。図3に示すように、本発明の実施の形態に係る単語並べ替え装置200は、CPUと、RAMと、後述する単語並べ替え処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この単語並べ替え装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部230とを備えている。
次に、本発明の実施の形態に係る機械翻訳学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係る機械翻訳学習装置300は、CPUと、RAMと、後述する機械翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この機械翻訳学習装置300は、機能的には図4に示すように入力部310と、演算部320と、出力部390とを備えている。
[非特許文献8]: Graham Neubig他, ”An Unsupervised Model for Joint Phrase Alignment and Extraction,” Proc. ACL, pp. 632-641, 2011.
次に、本発明の実施の形態に係る機械翻訳装置の構成について説明する。図5に示すように、本発明の実施の形態に係る機械翻訳装置400は、CPUと、RAMと、後述する機械翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この機械翻訳装置400は、機能的には図5に示すように入力部410と、演算部420と、出力部490とを備えている。
次に、本発明の実施の形態に係る単語並べ替え学習装置100の作用について説明する。まず、入力部10により、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付け、原言語文の集合が、原言語文データベース22に記憶され、目的言語文の集合が、目的言語文データベース24に記憶される。そして、単語並べ替え学習装置100のROMに記憶されたプログラムを、CPUが実行することにより、図6に示す単語並べ替え学習処理ルーチンが実行される。
次に、本発明の実施の形態に係る単語並べ替え装置200の作用について説明する。まず、入力部210により、機械翻訳学習装置300又は機械翻訳装置400に入力するための、単語並べ替え対象の原言語文を受け付けると、単語並べ替え装置200のROMに記憶されたプログラムを、CPUが実行することにより、図7に示す単語並べ替え処理ルーチンが実行される。
次に、本発明の実施の形態に係る機械翻訳学習装置300の作用について説明する。まず、入力部310により、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付け、原言語文の集合が、対訳原言語文データベース322に記憶され、目的言語文の集合が、対訳目的言語文データベース324に記憶される。ただし、入力される原言語文の各々は、単語並べ替え装置200によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。
次に、本発明の実施の形態に係る機械翻訳装置400の作用について説明する。まず、入力部410により、機械翻訳対象の原言語文を受け付けると、機械翻訳装置400のROMに記憶されたプログラムを、CPUが実行することにより、図9に示す機械翻訳処理ルーチンが実行される。ただし、機械翻訳対象の原言語文は、単語並べ替え装置200によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。
20, 220, 320, 420 演算部
22 原言語文データベース
24 目的言語文データベース
26, 222 統語解析部
28, 326 単語対応付け部
30 並べ替え正解決定部
32 二項順序決定部
34 トポロジカルソート部
36, 224 特徴量抽出部
38 並べ替えモデル学習部
40, 226 並べ替えモデル
50, 230, 390, 490 出力部
100 単語並べ替え学習装置
200 単語並べ替え装置
228 並べ替え決定部
300 機械翻訳学習装置
322 対訳原言語文データベース
324 対訳目的言語文データベース
328 翻訳モデル学習部
330 目的言語文データベース
332 言語モデル学習部
334, 422 翻訳モデル
336, 424 言語モデル
338 重み調整用対訳文データベース
340 重み調整部
342, 426 モデル重み記憶部
400 機械翻訳装置
428 翻訳実行部
Claims (8)
- 統語解析部、単語対応付け部、及び並べ替え正解決定部を含む単語並べ替え学習装置における単語並べ替え学習方法であって、
前記統語解析部が、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、
前記単語対応付け部が、前記原言語文及び前記目的言語文の間における単語の対応付けを行うステップと、
前記並べ替え正解決定部が、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定するステップと、
を含み、
前記並べ替え正解決定部が前記原言語文の並び替えの正解として決定するステップは、
前記原言語文の構文木におけるノードの二個組の各々について、
前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第1の順位相関係数を算出し、
前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第2の順位相関係数を算出し、
前記第1の順位相関係数と前記第2の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
単語並べ替え学習方法。 - 前記並べ替え正解決定部が前記原言語文の並び替えの正解として決定するステップは、前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、前記原言語文の構文木における前記ノードの順序関係が循環する場合に、前記原言語文と前記目的言語文のペアを、前記学習データから除外する
請求項1に記載の単語並べ替え学習方法。 - 特徴量抽出部が、前記並べ替え正解決定部によって並べ替えの正解が決定された、前記原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、
並べ替えモデル学習部が、前記並べ替え正解決定部によって決定された、前記原言語文の並び替えの正解と、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習するステップとを更に含む
請求項1又は請求項2に記載の単語並べ替え学習方法。 - 統語解析部、単語対応付け部、並べ替え正解決定部、特徴量抽出部、並べ替えモデル学習部、及び単語並べ替え決定部を含む単語並べ替え装置における単語並べ替え方法であって、
前記統語解析部が、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、
前記単語対応付け部が、前記原言語文及び前記目的言語文の間における単語の対応付けを行うステップと、
前記並べ替え正解決定部が、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定するステップと、
前記特徴量抽出部が、前記並べ替え正解決定部によって並べ替えの正解が決定された、前記原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、
前記並べ替えモデル学習部が、前記並べ替え正解決定部によって決定された、前記原言語文の並び替えの正解と、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習するステップと、
前記統語解析部が、入力された原言語文である入力原言語文に基づいて、原言語の統語解析を行って、前記入力原言語文の構文木を生成するステップと、
前記特徴量抽出部が、前記入力原言語文の構文木の各ノードについて、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、
前記単語並べ替え決定部が、前記特徴量抽出部によって抽出された、前記入力原言語文の構文木の各ノードについての特徴量と、学習された前記並べ替えモデルとに基づいて、前記入力原言語文の構文木のノードの順序を反転させるか否かを決定し、前記決定の結果に基づいて、前記入力原言語文の単語の並べ替えを行うステップと、
を含み、
前記並べ替え正解決定部が前記原言語文の並び替えの正解として決定するステップは、
前記原言語文の構文木におけるノードの二個組の各々について、
前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第1の順位相関係数を算出し、
前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第2の順位相関係数を算出し、
前記第1の順位相関係数と前記第2の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
単語並べ替え方法。 - 対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成する統語解析部と、
前記原言語文及び前記目的言語文の間における単語の対応付けを行う単語対応付け部と、
前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定する並べ替え正解決定部とを含み、
前記並べ替え正解決定部は、
前記原言語文の構文木におけるノードの二個組の各々について、
前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第1の順位相関係数を算出し、
前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第2の順位相関係数を算出し、
前記第1の順位相関係数と前記第2の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
単語並べ替え学習装置。 - 対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成すると共に、入力された原言語文である入力原言語文に基づいて、原言語の統語解析を行って、前記入力原言語文の構文木を生成する統語解析部と、
前記原言語文及び前記目的言語文の間における単語の対応付けを行う単語対応付け部と、
前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定する並べ替え正解決定部と、
前記並べ替え正解決定部によって並べ替えの正解が決定された、前記原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出すると共に、前記入力原言語文の構文木の各ノードについて、並べ替えを行うか否かの判定のための特徴量を抽出する特徴量抽出部と、
前記並べ替え正解決定部によって決定された、前記原言語文の並び替えの正解と、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習する並べ替えモデル学習部と、
前記特徴量抽出部によって抽出された、前記入力原言語文の構文木の各ノードについての特徴量と、学習された前記並べ替えモデルとに基づいて、前記入力原言語文の構文木のノードの順序を反転させるか否かを決定し、前記決定の結果に基づいて、前記入力原言語文の単語の並べ替えを行う単語並べ替え決定部と、
を含み、
前記並べ替え正解決定部は、
前記原言語文の構文木におけるノードの二個組の各々について、
前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第1の順位相関係数を算出し、
前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第2の順位相関係数を算出し、
前記第1の順位相関係数と前記第2の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
を含む単語並べ替え装置。 - 請求項1〜請求項3の何れか1項記載の単語並べ替え学習方法を構成する各ステップをコンピュータに実行させるためのプログラム。
- 請求項4記載の単語並べ替え方法を構成する各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016025253A JP6590723B2 (ja) | 2016-02-12 | 2016-02-12 | 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016025253A JP6590723B2 (ja) | 2016-02-12 | 2016-02-12 | 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017142758A JP2017142758A (ja) | 2017-08-17 |
JP6590723B2 true JP6590723B2 (ja) | 2019-10-16 |
Family
ID=59627263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016025253A Active JP6590723B2 (ja) | 2016-02-12 | 2016-02-12 | 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6590723B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489763B (zh) * | 2019-07-18 | 2023-03-10 | 深圳市轱辘车联数据技术有限公司 | 一种视频翻译方法及装置 |
WO2022264404A1 (ja) * | 2021-06-18 | 2022-12-22 | 富士通株式会社 | 翻訳方法、翻訳プログラム及び情報処理装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5734917B2 (ja) * | 2012-05-30 | 2015-06-17 | 日本電信電話株式会社 | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム |
JP6103573B2 (ja) * | 2012-06-11 | 2017-03-29 | 国立研究開発法人情報通信研究機構 | 翻訳装置、翻訳方法、およびプログラム |
JP5843117B2 (ja) * | 2013-12-04 | 2016-01-13 | 国立研究開発法人情報通信研究機構 | 学習装置、翻訳装置、学習方法、翻訳方法、およびプログラム |
-
2016
- 2016-02-12 JP JP2016025253A patent/JP6590723B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017142758A (ja) | 2017-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
JP5774751B2 (ja) | ツリーレット翻訳対の抽出 | |
US8046211B2 (en) | Technologies for statistical machine translation based on generated reordering knowledge | |
CN109670191B (zh) | 机器翻译的校准优化方法、装置与电子设备 | |
CN100527125C (zh) | 一种统计机器翻译中的在线翻译模型选择方法和系统 | |
JP5586817B2 (ja) | ツリーレット翻訳対の抽出 | |
CN107391495B (zh) | 一种双语平行语料的句对齐方法 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN111353306B (zh) | 基于实体关系和依存Tree-LSTM的联合事件抽取的方法 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN110442880B (zh) | 一种机器翻译译文的翻译方法、装置及存储介质 | |
CN109033085B (zh) | 中文分词系统及中文文本的分词方法 | |
JP6590723B2 (ja) | 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム | |
Wax | Automated grammar engineering for verbal morphology | |
JP6535607B2 (ja) | 前処理モデル学習装置、方法、及びプログラム | |
CN110991193A (zh) | 一种基于OpenKiWi的翻译矩阵模型选择系统 | |
JP2013054607A (ja) | 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
JP5391867B2 (ja) | 翻訳装置及び翻訳プログラム | |
JP5734917B2 (ja) | 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム | |
İnce | Spell checking and error correcting application for Turkish | |
JP5780670B2 (ja) | 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
JP6613666B2 (ja) | 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム | |
JP5544518B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラム | |
Kondo et al. | Hidden markov tree model for word alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190409 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190917 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6590723 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |