JP7194759B2 - 翻訳用データ生成システム - Google Patents
翻訳用データ生成システム Download PDFInfo
- Publication number
- JP7194759B2 JP7194759B2 JP2020572078A JP2020572078A JP7194759B2 JP 7194759 B2 JP7194759 B2 JP 7194759B2 JP 2020572078 A JP2020572078 A JP 2020572078A JP 2020572078 A JP2020572078 A JP 2020572078A JP 7194759 B2 JP7194759 B2 JP 7194759B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- language text
- source language
- label
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims description 116
- 238000009826 distribution Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 15
- 239000000945 filler Substances 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
lt~exp(ht/τ)・・・(1)
上記(1)式において、ltはノイズラベルの推定結果、htはノイズモデルの出力ベクトル、τは温度パラメータである。出力ベクトルhtは、3種類のラベルタイプ(<F>,<D>,0)についての3次元ベクトルで示される。温度パラメータτは、ノイズラベルのバリエーションの強弱を操作するためのパラメータである。温度パラメータτの値を大きく(τ→∞)するとノイズラベルの確率分布は一様分布に近づき、小さく(τ→0)すると最も高い確率のノイズラベルが選択されるようになる。
wt´~V<F>・・・(2)
上記(2)式において、V<F>はノイズラベル<F>の語彙集合、wt´はタイムステップtに挿入されるフィラー(ノイズ)を表す単語である。以上によって、原言語テキストの形態素系列w=(w0,w1,…,wn)からノイズを表す単語を含む系列w´=(w0,w1,w1´,w2,w2´,…,wn)を得る。
Claims (6)
- 原言語テキストにノイズを付与してノイズ付与原言語テキストを得るノイズ付与部と、
前記ノイズ付与原言語テキストと、該ノイズ付与原言語テキストのノイズ付与前の原言語テキストに対応する目的言語テキストとを対応付けた疑似対訳コーパスを構築するコーパス構築部と、
ノイズを含んだ原言語テキスト群である訓練データを用いて、原言語テキストの各単語の次にノイズが入る場合に各単語に対してノイズのタイプを示すノイズラベルを予測するように学習されたノイズモデルを学習するノイズモデル学習部と、を備え、
前記ノイズ付与部は、
前記ノイズモデルを用いて、原言語テキストの各単語の特徴に応じて、ノイズのタイプを示すノイズラベルを付与し、該ノイズラベルを該ノイズラベルに対応する単語へ置き換えることにより、原言語テキストにノイズを付与し、
前記ノイズラベルの付与について、原言語テキストの各単語の特徴を入力として前記ノイズモデルから出力される各ノイズラベルのスコアに基づく各ノイズラベルの確率分布に従ってノイズラベルをサンプリングし、原言語テキストに付与するノイズラベルを決定する、翻訳用データ生成システム。 - 前記疑似対訳コーパスを用いて翻訳モデルを学習する翻訳モデル学習部を更に備える、請求項1記載の翻訳用データ生成システム。
- 前記ノイズ付与部は、1つの前記ノイズラベルに対して置き換える単語を複数パターン導出し、1つの原言語テキストから複数パターンの前記ノイズ付与原言語テキストを得る、請求項1又は2記載の翻訳用データ生成システム。
- 前記ノイズ付与部は、前記ノイズモデルを用いて、各単語に対応する前記ノイズラベルを複数パターン導出し、1つの原言語テキストから複数パターンの前記ノイズ付与原言語テキストを得る、請求項1~3のいずれか一項記載の翻訳用データ生成システム。
- 前記ノイズ付与部は、前記ノイズモデルを用いて、原言語テキストの各単語の特徴である、形態素、品詞、及び単語の読みの少なくとも一つに応じて、前記ノイズラベルを付与する、請求項4記載の翻訳用データ生成システム。
- 前記ノイズモデルは、条件付き確率場又はニューラルネットワークを用いた手法により構築されている、請求項1~5のいずれか一項記載の翻訳用データ生成システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019022411 | 2019-02-12 | ||
JP2019022411 | 2019-02-12 | ||
PCT/JP2019/039337 WO2020166125A1 (ja) | 2019-02-12 | 2019-10-04 | 翻訳用データ生成システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020166125A1 JPWO2020166125A1 (ja) | 2021-10-21 |
JP7194759B2 true JP7194759B2 (ja) | 2022-12-22 |
Family
ID=72043903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020572078A Active JP7194759B2 (ja) | 2019-02-12 | 2019-10-04 | 翻訳用データ生成システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7194759B2 (ja) |
WO (1) | WO2020166125A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378586B (zh) * | 2021-07-15 | 2023-03-28 | 北京有竹居网络技术有限公司 | 语音翻译方法、翻译模型训练方法、装置、介质及设备 |
CN114742076A (zh) * | 2022-04-11 | 2022-07-12 | 网易有道信息技术(北京)有限公司 | 用于生成训练数据的方法、训练方法、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018055671A (ja) | 2016-09-21 | 2018-04-05 | パナソニックIpマネジメント株式会社 | 換言文識別方法、換言文識別装置及び換言文識別プログラム |
-
2019
- 2019-10-04 JP JP2020572078A patent/JP7194759B2/ja active Active
- 2019-10-04 WO PCT/JP2019/039337 patent/WO2020166125A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018055671A (ja) | 2016-09-21 | 2018-04-05 | パナソニックIpマネジメント株式会社 | 換言文識別方法、換言文識別装置及び換言文識別プログラム |
Non-Patent Citations (4)
Title |
---|
今出 昌宏 外2名,ューラルネット機械翻訳における自動コーパス生成適用,一般社団法人 人工知能学会 第31回全国大会論文集DVD [DVD-ROM],一般社団法人人工知能学会,2017年05月26日,pp.1-4 |
増村 亮 外2名,Web上の言語資源を利用した大規模話し言葉データからの言語モデル作成,日本音響学会 2011年 春季研究発表会講演論文集CD-ROM [CD-ROM],社団法人日本音響学会,2011年03月02日,pp.75-78 |
太田 健吾 外2名,フィラーの書き起こしのないコーパスからのフィラー付き言語モデルの構築,情報処理学会研究報告,日本,社団法人情報処理学会,2007年07月20日,第2007巻 第75号,pp.1-6 |
玉井 孝幸 外2名,音声対話システムにおける発話予測を利用した音声認識,情報処理学会研究報告,日本,社団法人情報処理学会,2002年10月25日,第2002巻 第98号,pp.1-6 |
Also Published As
Publication number | Publication date |
---|---|
WO2020166125A1 (ja) | 2020-08-20 |
JPWO2020166125A1 (ja) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11157698B2 (en) | Method of training a descriptive text generating model, and method and apparatus for generating descriptive text | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN108091328B (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
US9824085B2 (en) | Personal language model for input method editor | |
CN109783490B (zh) | 数据融合方法、装置、计算机设备及存储介质 | |
CN111309915A (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US8949111B2 (en) | System and method for identifying phrases in text | |
US11941361B2 (en) | Automatically identifying multi-word expressions | |
US11227116B2 (en) | Translation device, translation method, and program | |
CN111079432A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
JP7194759B2 (ja) | 翻訳用データ生成システム | |
CN109670040B (zh) | 写作辅助方法、装置及存储介质、计算机设备 | |
KR101985900B1 (ko) | 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
WO2021200200A1 (ja) | 情報処理装置及び情報処理方法 | |
CN116579327B (zh) | 文本纠错模型训练方法、文本纠错方法、设备及存储介质 | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
KR20230069872A (ko) | 학습용 웹페이지를 이용하여 사용자의 어휘 수준에 적합한 외국어 번역 및 학습 서비스 제공 장치, 방법 및 프로그램 | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN113066510B (zh) | 一种元音弱读检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7194759 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |