JP6884945B2 - 訓練用データ生成装置、最適パラメータ取得装置、訓練用データ生成方法、および最適パラメータ取得方法 - Google Patents
訓練用データ生成装置、最適パラメータ取得装置、訓練用データ生成方法、および最適パラメータ取得方法 Download PDFInfo
- Publication number
- JP6884945B2 JP6884945B2 JP2016173329A JP2016173329A JP6884945B2 JP 6884945 B2 JP6884945 B2 JP 6884945B2 JP 2016173329 A JP2016173329 A JP 2016173329A JP 2016173329 A JP2016173329 A JP 2016173329A JP 6884945 B2 JP6884945 B2 JP 6884945B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- parameter
- machine translation
- text data
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 70
- 238000012549 training Methods 0.000 title description 118
- 238000013519 translation Methods 0.000 claims description 243
- 230000006870 function Effects 0.000 claims description 103
- 238000004364 calculation method Methods 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 39
- 238000010606 normalization Methods 0.000 claims description 30
- 230000014616 translation Effects 0.000 description 222
- 238000013500 data storage Methods 0.000 description 35
- 238000005457 optimization Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 5
- 101100084404 Mus musculus Prodh gene Proteins 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000984945 Simona Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
原文x:あなた/は/22/時/まで/に/チェックイン/する/必要/が/あり/ます/。
MT訳y:You/should/check/in/by/twenty/two/o’clock/.
語の正否(タグ)の系列t:OK/BAD/OK/OK/OK/BAD/BAD/BAD/OK
なお、上記の各例における「/」は語の境界を表す。このような訓練用データは、MT訳yの個々の語に対して「OK」または「BAD」を人手で付与する方法(非特許文献9)、あるいはMT訳yを人手で編集して正しい訳(修正訳p)を作成した後に、編集された語を自動的に特定してそれらを「BAD」、それ以外の語を「OK」とする方法(非特許文献10)によって得られる。
タグ系列取得部は、対訳データと機械翻訳文データとに基づいて機械翻訳文データの語レベルの適否を示すタグ系列データを取得する。
(1)原文データxから機械翻訳文データyを生成するMTシステムであってMTシステム用パラメータθ1により特性が決定されるMTシステムを最適化するとともに、(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステムであってWQEシステム用パラメータθ2により特性が決定されるWQEシステムを最適化する最適パラメータ取得装置である。最適パラメータ取得装置は、最適パラメータ取得部を備える。
原文データxに対応する対訳データrとを組み合わせたデータを収納するコーパスをコーパスD2とし、目的関数f0(D1,D2)を
<x,y,t>∈D1
<x,r>∈D2
とすると、目的関数f0(D1,D2)が最適化されるときのパラメータθ1、θ2の組データ<θ1_o,θ2_o>を取得する。
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム、
の2つを最適化する処理を行うことができる。したがってこの最適パラメータ取得装置により取得したパラメータにより構築されたWQEシステムを用いて、入力データ(<原文データx、機械翻訳文データy>)を処理することで、精度の高いタグ系列データtを取得することができる。
なお、「原文データxに対応する対訳データrと機械翻訳文データyとに基づいて取得された機械翻訳文データyの語レベルの適否を示すタグ系列データt」とは、例えば、機械翻訳文データyと対訳データrとを比較し異なる語を特定し、異なる語に異なる語であることを示す第1のタグを付し、それ以外の語には異なる語ではないことを示す第2のタグを付すことで取得されるタグ系列データを含む概念である。
Δθ1_opt,n(xk):MTシステムのパラメータをθ1_optとしたときの原文データxkに対する翻訳文データyのうち最適解からn番目に良い解までのn個(n:自然数)の翻訳文データの集合
に設定し、目的関数f1(D1,θ1_opt,n)の値を最適値とするWQEシステム用パラメータθ2を最適第2パラメータθ2_optとして取得する。
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム、
の2つを最適化する処理を行うことができる。したがって、この最適パラメータ取得装置により取得したパラメータにより構築されたWQEシステムを用いて、入力データ(<原文データx、機械翻訳文データy>)を処理することで、精度の高いタグ系列データtを取得することができる。
(1)原文データxから機械翻訳文データyを生成するMTシステムであってMTシステム用パラメータθ1により特性が決定されるMTシステムを最適化するとともに、(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステムであってWQEシステム用パラメータθ2により特性が決定されるWQEシステムを最適化する最適パラメータ取得方法である。最適パラメータ取得方法は、最適パラメータ取得ステップを備える。
原文データxに対応する対訳データrとを組み合わせたデータを収納するコーパスをコーパスD2とし、目的関数f0(D1,D2)を
<x,y,t>∈D1
<x,r>∈D2
とすると、目的関数f0(D1,D2)が最適化されるときのパラメータθ1、θ2の組データ<θ1_o,θ2_o>を取得する。
第1実施形態について、図面を参照しながら、以下説明する。
図1は、第1実施形態に係る語レベル信頼度推定システム1000の概略構成図である。
以上のように構成された語レベル信頼度推定システム1000の動作について、図面を参照しながら以下説明する。以下では語レベル信頼度推定システム1000の動作について、訓練用データ生成装置1の動作と語レベル信頼度推定装置2の動作に分けて説明する。
まず、訓練用データ生成装置1の動作について説明する。
次に、語レベル信頼度推定装置2の動作について説明する。
語レベル信頼度推定装置2で実行される語レベル信頼度推定方法について説明する。
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム
の2つを、最大マージン尤度推定(Maximum Marginal Likelihood Estimation(M2LE))によって最適化する処理を行う。
上記に基づく語レベル信頼度推定装置2の具体的動作について、以下説明する。
<x,y,t>∈D1
と表記する。
<x,r>∈D2
と表記する。
≪x1に対するM1個の翻訳文データyおよびタグ系列データt≫
<x1,y1,1,t1,1>
<x1,y1,2,t1,2>
<x1,y1,3,t1,3>
・・・
<x1,y1,M1,t1,M1>
≪x2に対するM2個の翻訳文データyおよびタグ系列データt≫
<x2,y2,1,t2,1>
<x2,y2,2,t2,2>
<x2,y2,3,t2,3>
・・・
<x2,y2,M2,t2,M2>
≪xkに対するMk個の翻訳文データyおよびタグ系列データt≫
<xk,yk,1,tk,1>
<xk,yk,2,tk,2>
<xk,yk,3,tk,3>
・・・
<xk,yk,Mk,tk,Mk>
≪xNに対するMN個の翻訳文データyおよびタグ系列データt≫
<xN,yN,1,tN,1>
<xN,yN,2,tN,2>
<xN,yN,3,tN,3>
・・・
<xN,yN,MN,tN,MN>
(M1、M2、Mk、MN:自然数)
(B)データ<x,r>(∈D2)
≪x1に対するP1個の対訳データr≫
<x1,r1,1>
<x1,r1,2>
<x1,r1,3>
・・・
<x1,r1,P1>
≪x2に対するP2個の対訳データr≫
<x2,r2,1>
<x2,r2,2>
<x2,r2,3>
・・・
<x2,r2,P2>
≪xkに対するPk個の対訳データr≫
<xk,rk,1>
<xk,rk,2>
<xk,rk,3>
・・・
<xk,rk,Pk>
≪xNに対するPN個の対訳データr≫
<xN,rN,1>
<xN,rN,2>
<xN,rN,3>
・・・
<xN,rN,PN>
(P1、P2、Pk、PN:自然数)
目的関数算出部214は、以下の数式で表される関数f0(D1,D2)(<x,y,t>∈D1、<x,r>∈D2)を最適化の目的関数に設定する。
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム
の2つを最適化する処理を行う。
次に第2実施形態について説明する。
図5は、第2実施形態に係る語レベル信頼度推定システム2000の概略構成図である。
以上のように構成された語レベル信頼度推定システム2000の動作について、図面を参照しながら以下説明する。語レベル信頼度推定システム2000において、訓練用データ生成装置1の動作は、第1実施形態と同じであるので、詳細な説明を省略する。以下では、語レベル信頼度推定装置2Aの動作について説明する。
語レベル信頼度推定装置2Aで実行される語レベル信頼度推定方法について説明する。
さらにnベストの翻訳文データの扱い方として、上式のように翻訳の尤度P(yk,j|xk;θ1_opt)を直接参照する方法の他に、nベスト(n個)のykをサンプリングし、nベスト(n個)のykについての対数確率密度関数logP(tk,j|xk,yk,j;θ2)の総和をとることも考えられる。この場合、n個のサンプルの出現比率がP(yk,j|xk;θ1_opt)を近似するので、目的関数は、上式をさらに単純化して次式のように表される。
上記に基づく語レベル信頼度推定装置2Aの具体的動作について、以下説明する。
(1)第1目的関数算出部215は、Ω(θ1)のみを用いて、Ω(θ1)の値を最適にするMTモデルのパラメータθ1を求め、MTシステムの最適パラメータθ1_optとして取得する。
(2)(数式14)において、Δ(xk)のうちのn個(n:自然数)を対象として、(数式14)の目的関数の値を最適値とするMTモデルのパラメータθ1を求め、MTシステムの最適パラメータθ1_optとして取得する。
(1)第2目的関数算出部216は、次の数式を目的関数(第2目的関数)に設定する。
第2目的関数算出部216は、上式が最適値となるときのWQEシステムのパラメータθ2を最適第2パラメータθ2_optとして取得する。
(2)第2目的関数算出部216は、次の数式を目的関数(第2目的関数)に設定する。
第2目的関数算出部216は、上式が最適値となるときのWQEシステムのパラメータθ2を最適第2パラメータθ2_optとして取得する。
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム
の2つを最適化する処理を行う。
上記実施形態の語レベル信頼度推定システム1000、2000、訓練用データ生成装置1、語レベル信頼度推定装置2、2Aを構成する各機能部は、例えばネットワークを介して接続されるものであってもよい。
1 訓練用データ生成装置
2 語レベル信頼度推定装置
DB1 訓練用データ格納部
11 データ入力部
12 機械翻訳部
13 タグ系列取得部
14 訓練用データ取得部
21 最適パラメータ取得部(最適パラメータ取得装置)
212 正規化項取得部
213 第1目的関数算出部
215 第2目的関数算出部
22 タグ系列推定部
Claims (4)
- 原文データxと、前記原文データxに対して機械翻訳処理することで取得された機械翻訳文データyと、前記原文データxに対応する対訳データrと前記機械翻訳文データyとに基づいて取得された前記機械翻訳文データyの語レベルの適否を示すタグ系列データtとに基づいて、
(1)前記原文データxから前記機械翻訳文データyを生成するMTシステムであってMTシステム用パラメータθ1により特性が決定される前記MTシステムを最適化するとともに、(2)前記原文データxと前記機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステムであってWQEシステム用パラメータθ2により特性が決定される前記WQEシステムを最適化する最適パラメータ取得装置であって、
前記原文データxと、前記機械翻訳文データyと、前記タグ系列データtとを組み合わせたデータを収納するコーパスをコーパスD1とし、
前記原文データxに対応する対訳データrとを組み合わせたデータを収納するコーパスをコーパスD2とし、目的関数f0(D1,D2)を
<x,y,t>∈D1
<x,r>∈D2
x k :コーパスD1中のk番目の原文データ
Δ(x k ):原文データxについての翻訳候補の集合
y k,j :原文データx k に対するj番目の機械翻訳文データ
t k,j :原文データx k に対する対訳データr k と、原文データx k に対するj番目の機械翻訳文データをy k,j とから取得されるタグ系列データ
とすると、前記目的関数f0(D1,D2)が最適化されるときのパラメータθ1、θ2の組データ<θ1_o,θ2_o>を取得する最適パラメータ取得部
を備える最適パラメータ取得装置。 - 前記最適パラメータ取得部は、
正規化項Ω(θ1)を取得する正規化項取得部と、
前記正規化項Ω(θ1)を最適化するMTシステム用パラメータθ1を最適第1パラメータθ1_optとして取得する第1目的関数算出部と、
を備える請求項1に記載の最適パラメータ取得装置。 - 最適パラメータ取得部を含む語レベル信頼度推定装置を用いて実行される最適パラメータ取得方法であり、
原文データxと、前記原文データxに対して機械翻訳処理することで取得された機械翻訳文データyと、前記原文データxに対応する対訳データrと前記機械翻訳文データyとに基づいて取得された前記機械翻訳文データyの語レベルの適否を示すタグ系列データtとに基づいて、
(1)前記原文データxから前記機械翻訳文データyを生成するMTシステムであってMTシステム用パラメータθ1により特性が決定される前記MTシステムを最適化するとともに、(2)前記原文データxと前記機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステムであってWQEシステム用パラメータθ2により特性が決定される前記WQEシステムを最適化する最適パラメータ取得方法であって、
前記原文データxと、前記機械翻訳文データyと、前記タグ系列データtとを組み合わせたデータを収納するコーパスをコーパスD1とし、
前記原文データxに対応する対訳データrとを組み合わせたデータを収納するコーパスをコーパスD2とし、目的関数f0(D1,D2)を
<x,y,t>∈D1
<x,r>∈D2
x k :コーパスD1中のk番目の原文データ
Δ(x k ):原文データxについての翻訳候補の集合
y k,j :原文データx k に対するj番目の機械翻訳文データ
t k,j :原文データx k に対する対訳データr k と、原文データx k に対するj番目の機械翻訳文データをy k,j とから取得されるタグ系列データ
とすると、前記目的関数f0(D1,D2)が最適化されるときのパラメータθ1、θ2の組データ<θ1_o,θ2_o>を、前記最適パラメータ取得部が取得する最適パラメータ取得ステップ
を備える最適パラメータ取得方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016173329A JP6884945B2 (ja) | 2016-09-06 | 2016-09-06 | 訓練用データ生成装置、最適パラメータ取得装置、訓練用データ生成方法、および最適パラメータ取得方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016173329A JP6884945B2 (ja) | 2016-09-06 | 2016-09-06 | 訓練用データ生成装置、最適パラメータ取得装置、訓練用データ生成方法、および最適パラメータ取得方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018041184A JP2018041184A (ja) | 2018-03-15 |
JP6884945B2 true JP6884945B2 (ja) | 2021-06-09 |
Family
ID=61626139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016173329A Active JP6884945B2 (ja) | 2016-09-06 | 2016-09-06 | 訓練用データ生成装置、最適パラメータ取得装置、訓練用データ生成方法、および最適パラメータ取得方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6884945B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7422566B2 (ja) | 2020-03-05 | 2024-01-26 | 日本放送協会 | 翻訳装置、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3326646B2 (ja) * | 1994-03-04 | 2002-09-24 | 日本電信電話株式会社 | 機械翻訳システム用辞書・ルール学習装置 |
JP3353647B2 (ja) * | 1997-05-26 | 2002-12-03 | 日本電信電話株式会社 | 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体 |
JP5985344B2 (ja) * | 2012-10-10 | 2016-09-06 | 日本電信電話株式会社 | システムパラメータ最適化装置、方法、及びプログラム |
JP6265923B2 (ja) * | 2015-01-16 | 2018-01-24 | 日本電信電話株式会社 | 翻訳学習装置、方法、及びプログラム |
-
2016
- 2016-09-06 JP JP2016173329A patent/JP6884945B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018041184A (ja) | 2018-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
US20190354810A1 (en) | Active learning to reduce noise in labels | |
US9928040B2 (en) | Source code generation, completion, checking, correction | |
KR102219346B1 (ko) | 베이지안 최적화를 수행하기 위한 시스템 및 방법 | |
JPWO2018051841A1 (ja) | モデル学習装置、その方法、及びプログラム | |
RU2638634C2 (ru) | Автоматическое обучение программы синтаксического и семантического анализа с использованием генетического алгоритма | |
CN110797101B (zh) | 医学数据处理方法、装置、可读存储介质和计算机设备 | |
JP2012058972A (ja) | 評価予測装置、評価予測方法、及びプログラム | |
CN110874536B (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
US20210286831A1 (en) | Query expansion in information retrieval systems | |
US20220351634A1 (en) | Question answering systems | |
CN110490304B (zh) | 一种数据处理方法及设备 | |
CN112347781A (zh) | 生成或修改表示输入数据内的关系的本体 | |
Xue et al. | Automatic generation and recommendation for API mashups | |
US11615294B2 (en) | Method and apparatus based on position relation-based skip-gram model and storage medium | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN110991193A (zh) | 一种基于OpenKiWi的翻译矩阵模型选择系统 | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe | |
JP6884945B2 (ja) | 訓練用データ生成装置、最適パラメータ取得装置、訓練用データ生成方法、および最適パラメータ取得方法 | |
WO2021147405A1 (zh) | 客服语句质检方法及相关设备 | |
US11922279B2 (en) | Standard error of prediction of performance in artificial intelligence model | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
Tezcan et al. | UGENT-LT3 SCATE system for machine translation quality estimation | |
Sinnott et al. | Omnibus risk assessment via accelerated failure time kernel machine modeling | |
JP2017538226A (ja) | スケーラブルなウェブデータの抽出 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200806 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210316 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210413 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6884945 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |