CN112528680A - 语料扩充方法及系统 - Google Patents

语料扩充方法及系统 Download PDF

Info

Publication number
CN112528680A
CN112528680A CN201910808605.6A CN201910808605A CN112528680A CN 112528680 A CN112528680 A CN 112528680A CN 201910808605 A CN201910808605 A CN 201910808605A CN 112528680 A CN112528680 A CN 112528680A
Authority
CN
China
Prior art keywords
chinese
english
model
translation
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910808605.6A
Other languages
English (en)
Other versions
CN112528680B (zh
Inventor
王驹冬
李霞
丁庆
李小华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhuofan Information Technology Co ltd
Original Assignee
Shanghai Zhuofan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhuofan Information Technology Co ltd filed Critical Shanghai Zhuofan Information Technology Co ltd
Priority to CN201910808605.6A priority Critical patent/CN112528680B/zh
Publication of CN112528680A publication Critical patent/CN112528680A/zh
Application granted granted Critical
Publication of CN112528680B publication Critical patent/CN112528680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明一种语料扩充方法及系统,包括:搜集中文语料和对应的英文语料,对中文语料进行分词处理,对英文语料和分词后的中文语料进行文本量化;构建包括英译汉模型和汉译英模型的翻译模型;将量化后的中文语料和英文语料分别作为汉译英模型的输入和输出训练模型,将量化后的英文语料和中文语料分别作为英译汉模型的输入和输出训练模型;搜集中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出英文翻译结果;将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果;将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,从而达到语料扩充的目的。

Description

语料扩充方法及系统
技术领域
本发明涉及语料扩充技术领域,特别是涉及一种语料扩充方法及系统。
背景技术
在人机对话系统中,面对复杂的用户场景,为了提高检索式问答系统的泛化性,提高用户体验,语料的扩充显得尤为重要。传统的方法是人为扩充语料,而人为的方法成本较高,并且扩充的数量有限。随着神经网络的快速发展,利用神经网络的办法进行语料库扩充取得了较好的效果。
发明内容
本发明针对现有技术存在的问题和不足,提供一种新型的语料扩充方法及系统。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种语料扩充方法,其特点在于,其包括以下步骤:
S1、搜集用于中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;
S2、构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;
S3、将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;
S4、搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;
S5、将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;
S6、将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。
较佳地,对抗生成网络采用LeakGAN。
本发明还提供一种语料扩充系统,其特点在于,其包括量化模块、构建模块、训练模块、第一翻译模块、扩充模块和第二翻译模块;
所述量化模块用于搜集供中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;
所述构建模块用于构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;
所述训练模块用于将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;
所述第一翻译模块用于搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;
所述扩充模块用于将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;
所述第二翻译模块用于将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。
较佳地,对抗生成网络采用LeakGAN。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明利用有限的样本,通过深度学习的方法扩充语料,提高人机对话系统的泛化性,提高用户体验。
附图说明
图1为本发明较佳实施例的语料扩充方法的流程图。
图2为本发明较佳实施例的语料扩充系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供一种语料扩充方法,其包括以下步骤:
步骤101、搜集用于中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化。
步骤102、构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型。
步骤103、将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练。
步骤104、搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果。
步骤105、将英文翻译结果作为对抗生成网络LeakGAN的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果。
步骤106、将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。
如图2所示,本实施例还提供一种语料扩充系统,其包括量化模块1、构建模块2、训练模块3、第一翻译模块4、扩充模块5和第二翻译模块6。
所述量化模块1用于搜集供中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化。
所述构建模块2用于构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型。
所述训练模块3用于将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练。
所述第一翻译模块4用于搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果。
所述扩充模块5用于将英文翻译结果作为对抗生成网络LeakGAN的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果。
所述第二翻译模块6用于将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。
本发明利用有限的样本,通过深度学习的方法扩充语料,提高人机对话系统的泛化性,提高用户体验。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (4)

1.一种语料扩充方法,其特征在于,其包括以下步骤:
S1、搜集用于中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;
S2、构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;
S3、将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;
S4、搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;
S5、将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;
S6、将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。
2.如权利要求1所述的语料扩充方法,其特征在于,对抗生成网络采用LeakGAN。
3.一种语料扩充系统,其特征在于,其包括量化模块、构建模块、训练模块、第一翻译模块、扩充模块和第二翻译模块;
所述量化模块用于搜集供中英文翻译的中文语料和对应的英文语料,对中文语料进行分词预处理操作,对英文语料和分词后的中文语料进行文本量化;
所述构建模块用于构建基于Transformer的翻译模型,翻译模型包括英译汉模型和汉译英模型;
所述训练模块用于将文本量化后的中文语料和英文语料分别作为汉译英模型的输入和输出进行模型训练,将文本量化后的英文语料和中文语料分别作为英译汉模型的输入和输出进行模型训练;
所述第一翻译模块用于搜集应用场景中的中文用户问话,将中文用户问话作为训练好的汉译英模型的输入以输出中文用户问话的英文翻译结果,搜集应用场景中的英文用户问话,将英文用户问话作为训练好的英译汉模型的输入以输出英文用户问话的中文翻译结果;
所述扩充模块用于将英文翻译结果作为对抗生成网络的输入以输出扩充英文生成结果,将中文翻译结果作为对抗生成网络的输入以输出扩充中文生成结果;
所述第二翻译模块用于将扩充英文生成结果作为训练好的英译汉模型的输入以输出扩充中文翻译结果,将扩充中文生成结果作为训练好的汉译英模型的输入以输出扩充英文翻译结果,从而达到语料扩充的目的。
4.如权利要求3所述的语料扩充系统,其特征在于,对抗生成网络采用LeakGAN。
CN201910808605.6A 2019-08-29 2019-08-29 语料扩充方法及系统 Active CN112528680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910808605.6A CN112528680B (zh) 2019-08-29 2019-08-29 语料扩充方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910808605.6A CN112528680B (zh) 2019-08-29 2019-08-29 语料扩充方法及系统

Publications (2)

Publication Number Publication Date
CN112528680A true CN112528680A (zh) 2021-03-19
CN112528680B CN112528680B (zh) 2024-04-05

Family

ID=74973994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910808605.6A Active CN112528680B (zh) 2019-08-29 2019-08-29 语料扩充方法及系统

Country Status (1)

Country Link
CN (1) CN112528680B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070643A (zh) * 2023-04-03 2023-05-05 武昌理工学院 一种古文到英文的固定风格翻译方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170123487A1 (en) * 2015-10-30 2017-05-04 Ostendo Technologies, Inc. System and methods for on-body gestural interfaces and projection displays
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
US20180225548A1 (en) * 2017-01-19 2018-08-09 Hrl Laboratories, Llc Multi-view embedding with soft-max based compatibility function for zero-shot learning
CN109190131A (zh) * 2018-09-18 2019-01-11 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN109857845A (zh) * 2019-01-03 2019-06-07 北京奇艺世纪科技有限公司 模型训练及数据检索方法、装置、终端及计算机可读存储介质
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110175335A (zh) * 2019-05-08 2019-08-27 北京百度网讯科技有限公司 翻译模型的训练方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170123487A1 (en) * 2015-10-30 2017-05-04 Ostendo Technologies, Inc. System and methods for on-body gestural interfaces and projection displays
US20180225548A1 (en) * 2017-01-19 2018-08-09 Hrl Laboratories, Llc Multi-view embedding with soft-max based compatibility function for zero-shot learning
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
CN109190131A (zh) * 2018-09-18 2019-01-11 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN109857845A (zh) * 2019-01-03 2019-06-07 北京奇艺世纪科技有限公司 模型训练及数据检索方法、装置、终端及计算机可读存储介质
CN110110337A (zh) * 2019-05-08 2019-08-09 网易有道信息技术(北京)有限公司 翻译模型训练方法、介质、装置和计算设备
CN110175335A (zh) * 2019-05-08 2019-08-27 北京百度网讯科技有限公司 翻译模型的训练方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JAVIER MENDOZA-VIZCAINO: "Integral approach to energy planning and electric grid assessment in a renewable energy technology integration for a 50/50 target applied to a small island", 《APPLIED ENERGY》, vol. 234, no. 1, 31 January 2019 (2019-01-31), pages 524 - 543 *
张明辉: "情感分析在商品评论中的应用", 《现代信息科技》, vol. 3, no. 10, 25 May 2019 (2019-05-25), pages 187 - 190 *
计茜 等: "基于GAN的中英翻译算法", 《指挥信息系统与技术》, vol. 10, no. 3, 30 June 2019 (2019-06-30), pages 89 - 94 *
韩冬 等: "融合单词翻译的神经机器翻译", 《中文信息学报》, vol. 33, no. 07, 31 July 2019 (2019-07-31), pages 40 - 45 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070643A (zh) * 2023-04-03 2023-05-05 武昌理工学院 一种古文到英文的固定风格翻译方法及系统
CN116070643B (zh) * 2023-04-03 2023-08-15 武昌理工学院 一种古文到英文的固定风格翻译方法及系统

Also Published As

Publication number Publication date
CN112528680B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
WO2021217935A1 (zh) 问题生成模型的训练方法、问题生成方法及其相关设备
WO2022095345A1 (zh) 一种多模态模型训练方法、装置、设备及存储介质
CN110428820B (zh) 一种中英文混合语音识别方法及装置
WO2021051516A1 (zh) 基于人工智能的古诗词生成方法、装置、设备及存储介质
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN108287820B (zh) 一种文本表示的生成方法及装置
CN104391842A (zh) 一种翻译模型构建方法和系统
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110134968A (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN107679225B (zh) 一种基于关键词的回复生成方法
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN107766319B (zh) 序列转换方法及装置
CN111241789A (zh) 一种文本生成的方法及装置
CN110019749B (zh) 生成vqa训练数据的方法、装置、设备和计算机可读介质
CN106649294B (zh) 一种分类模型的训练及其从句识别方法和装置
KR20210158815A (ko) 트리플 샘플 생성 방법, 장치, 전자 기기 및 기록 매체
CN109145946B (zh) 一种智能图像识别和描述方法
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN112949293B (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
CN106502988A (zh) 一种目标属性抽取的方法和设备
CN109934347B (zh) 扩展问答知识库的装置
CN112528680A (zh) 语料扩充方法及系统
CN115438678B (zh) 机器翻译方法、装置、电子设备及存储介质
Fan et al. Long-term recurrent merge network model for image captioning
CN113591493B (zh) 翻译模型的训练方法及翻译模型的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant