CN110046332A - 一种相似文本数据集生成方法及装置 - Google Patents

一种相似文本数据集生成方法及装置 Download PDF

Info

Publication number
CN110046332A
CN110046332A CN201910270585.1A CN201910270585A CN110046332A CN 110046332 A CN110046332 A CN 110046332A CN 201910270585 A CN201910270585 A CN 201910270585A CN 110046332 A CN110046332 A CN 110046332A
Authority
CN
China
Prior art keywords
text
transformation model
original
translation
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910270585.1A
Other languages
English (en)
Other versions
CN110046332B (zh
Inventor
薛闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Yuanguang Mobile Interconnection Technology Co ltd
Yuanguang Software Co Ltd
Original Assignee
Zhuhai Yuanguang Mobile Interconnection Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Yuanguang Mobile Interconnection Technology Co Ltd filed Critical Zhuhai Yuanguang Mobile Interconnection Technology Co Ltd
Priority to CN201910270585.1A priority Critical patent/CN110046332B/zh
Publication of CN110046332A publication Critical patent/CN110046332A/zh
Application granted granted Critical
Publication of CN110046332B publication Critical patent/CN110046332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种相似文本数据集生成方法及装置,属于自然语言文本智能分析技术领域,解决了现有相似文本数据集生成方法存在的生成效率低、相似度差等问题。包括如下步骤:利用第一转换模型,将原文本转换为与所述原文本相关的第一文本集;利用第二转换模型,将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集;从所述第二文本集中选择与原文本相似的文本,将所述选择结果作为原文本的相似文本数据集;所述第一转换模型与所述第二转换模型采用不同的转换方式。实现了相似文本数据集的快速生成,且生成的相似文本数据集中的各文本与原文本相似度较高。

Description

一种相似文本数据集生成方法及装置
技术领域
本发明涉及自然语言文本智能分析技术领域,尤其涉及一种相似文本数据集生成方法及装置。
背景技术
目前,获得高质量的相似文本数据主要还是依靠人力筛选,想获得大量的数据就要使用大量的人力,因此会消耗大量的人力以及财力。而且,不同的人因为认知的不同,标记存在主观意识,可能两句话一个人觉得相似,另一个人觉得不相似,尤其是在专业领域,很多文本的含义需要大量思考和专业知识。
因此,现有技术中的相似文本数据集生成方法,普遍存在生成效率低、相似度较差等问题。
发明内容
鉴于上述的分析,本发明旨在提供一种相似文本数据集生成方法及装置,用以解决现有相似文本数据集生成方法存在的生成效率低、相似度差等问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,提供了一种相似文本数据集生成方法,包括如下步骤:
利用第一转换模型,将原文本转换为与所述原文本相关的第一文本集;
利用第二转换模型,将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集;
从所述第二文本集中选择与原文本相似的文本,将所述选择结果作为原文本的相似文本数据集;
所述第一转换模型与所述第二转换模型采用不同的转换方式。
在上述方案的基础上,本发明还做了如下改进:
进一步,所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括多个翻译子模型,不同的翻译子模型翻译侧重的方向不同;利用所述多个翻译子模型分别将原文本由原语言转换为侧重方向不同、同一中介语言表示的文本,得到由同一中介语言表述的第一文本集;
所述第二转换模型,用于将所述第一文本集中的每一文本,由中介语言转换为原语言,得到由原语言表述的第二文本集。
进一步,所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括N个翻译子模型,不同的翻译子模型分别用于将原文本由原语言转化为不同的中介语言,得到由多种中介语言表述的第一文本集;
所述第二转换模型也包括N个翻译子模型,分别与第一转换模型中的N个翻译子模型对应设置,不同的翻译子模型分别用于将所述第一文本集中的每一文本由中介语言转换为原语言,得到由原语言表述的第二文本集。
进一步,利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型;
利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型;
利用所述中介语言与所述语言对应的第二平行数据训练所述第二转换模型;
其中,所述第一平行数据与第二平行数据为不同数据。
进一步,执行以下操作,获取所述第二文本集中与原文本相似的文本,得到原文本的相似文本数据集:
对所述第二文本集中的各文本、原文本分别进行分词,得到第二文本集中的各文本向量与原文本的文本向量;
分别计算所述第二文本集中的各文本向量与原文本的文本向量的余弦相似度,提取所述余弦相似度满足余弦相似度阈值范围的第二文本集中的文本,作为原文本的相似文本数据集。
另一方面,提供了一种相似文本数据集生成装置,包括:
第一文本集生成模块,用于利用第一转换模型,将原文本转换为与所述原文本相关的第一文本集;
第二文本集生成模块,用于利用第二转换模型,将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集;
相似文本数据集生成模块,用于从所述第二文本集中选择与原文本相似的文本,将所述选择结果作为原文本的相似文本数据集;
其中,所述第一转换模型与所述第二转换模型采用不同的转换方式。
在上述方案的基础上,本发明还做了如下改进:
进一步,所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括多个翻译子模型,不同的翻译子模型翻译侧重的方向不同;利用所述多个翻译子模型分别将原文本由原语言转换为侧重方向不同、同一中介语言表示的文本,得到由同一中介语言表述的第一文本集;
所述第二转换模型,用于将所述第一文本集中的每一文本,由中介语言转换为原语言,得到由原语言表述的第二文本集。
进一步,所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括N个翻译子模型,不同的翻译子模型分别用于将原文本由原语言转化为不同的中介语言,得到由多种中介语言表述的第一文本集;
所述第二转换模型也包括N个翻译子模型,分别与第一转换模型中的N个翻译子模型对应设置,不同的翻译子模型分别用于将所述第一文本集中的每一文本由中介语言转换为原语言,得到由原语言表述的第二文本集。
进一步,利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型;
利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型;
利用所述中介语言与所述语言对应的第二平行数据训练所述第二转换模型;
其中,所述第一平行数据与第二平行数据为不同数据。
进一步,所述相似文本数据集生成模块包括:
文本向量生成模块,用于对所述第二文本集中的各文本、原文本分别进行分词,得到第二文本集中的各文本向量与原文本的文本向量;
相似文本数据集获取模块,用于分别计算所述第二文本集中的各文本向量与原文本的文本向量的余弦相似度,提取所述余弦相似度满足余弦相似度阈值范围的第二文本集中的文本,作为原文本的相似文本数据集。
本发明有益效果如下:本实施例提供的相似文本数据集生成方法及装置,通过利用第一转换模型、第二转换模型的文本转换功能实现对原文本表述方式的转换,得到与原文本相似的文本集,该方法能够有效提升相似文本数据集生成效率,得到相似度较高的文本集,起到扩充语料的作用。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书、权利要求书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明第1实施例中的相似文本数据集生成方法流程图;
图2为本发明第2实施例中的第一转换模型、第二转换模型关系示意图;
图3为本发明第3实施例中的另一种第一转换模型、第二转换模型关系示意图;
图4为本发明第4实施例中的相似文本数据集生成装置示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
在本发明的第1实施例中,提供了一种相似文本数据集生成方法,流程图如图1所示,该方法包括如下步骤:
步骤S1:利用第一转换模型,将原文本转换为与所述原文本相关的第一文本集;
步骤S2:利用第二转换模型,将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集;
步骤S3:从所述第二文本集中选择与原文本相似的文本,将所述选择结果作为原文本的相似文本数据集;
所述第一转换模型与所述第二转换模型采用不同的转换方式。
与现有技术相比,本实施例提供的相似文本数据集生成方法,通过利用第一转换模型、第二转换模型的文本转换功能实现对原文本表述方式的转换,得到与原文本相似的文本集,该方法能够有效提升相似文本数据集生成效率,得到相似度较高的文本集,起到扩充语料的作用。
优选地,利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型;
对于第一转换模型、所述第二转换模型的训练过程,与上述优选实施方式的第一转换模型、第二转换模型的功能相对应。
同时,第一转换模型与第二转换模型的损失函数不同,第一转换模型的损失函数更加注重生成的中介语言的准确度,loss随着中介语言的准确度下降。而第二转换模型的损失函数加入了融合惩罚机制。第二模型不仅要关注准确度,还要根据生成的第二文本集与第一文本集的重合程度进行一定程度的惩罚,致使随着loss的下降不会使第二文本集与第一文本集趋于重合。
此外,本领域的技术人员也可以根据不同的需求对第一转换模型、第二转换模型进行差异化设置,只要能实现其语言转换功能即可。
优选地,在步骤S3中,有多种方式可以得到与原文本相似的文本集,本实施例给出了一种利用余弦相似度得到相似文本数据集的方法,具体包括以下步骤:
对所述第二文本集中的各文本、原文本分别进行分词,得到第二文本集中的各文本向量与原文本的文本向量;
分别计算所述第二文本集中的各文本向量与原文本的文本向量的余弦相似度,提取所述余弦相似度满足余弦相似度阈值范围的第二文本集中的文本,作为原文本的相似文本数据集。
优选地,余弦相似度阈值范围的选取可根据不同的要求相应设置,当对相似文本的要求较高时,可适当提升余弦相似度阈值范围的下限;当对相似文本的要求较低时,可适当降低余弦相似度阈值范围的下限;同时,为保证生成的相似文本与原文本仍存在一定区别,所述余弦相似度阈值范围的上限一般小于1。
上述获取相似文本数据集的方式,借助于现有技术即可实现,该部分不是本发明的重点,因此,获取相似文本数据集的具体实现过程,此处不在赘述。
在本发明的第2实施例中,提供了另一种相似文本数据集生成方法,对第一转换模型、第二转换模型进行了如下限定:
所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括多个翻译子模型,不同的翻译子模型翻译侧重的方向不同;利用所述多个翻译子模型分别将原文本由原语言转换为侧重方向不同、同一中介语言表示的文本,得到由同一中介语言表述的第一文本集;
所述第二转换模型,用于将所述第一文本集中的每一文本,由中介语言转换为原语言,得到由原语言表述的第二文本集。相应示意图如图2所示。
在上述优选方式中,第一转换模型中的多个翻译子模型翻译侧重方向不同,可分别设置侧重于正式、口语、商务、旅游等多方面的翻译子模型,以保证经过不同翻译子模型输出的文本在文本表述方式上有一定区别。经过不同翻译子模型输出的文本,在经过第二转换模型转换后,表述方式也存在一定区别,由此得到由多个不同文本组成的第二文本集。
优选地,利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型;具体地:
由于第一转换模型包括侧重方向不同的多个翻译子模型,针对具体的翻译子模型,可分别采用相应侧重方向的原语言-中介语言平行数据对其进行训练;例如,针对侧重于正式方面的翻译子模型,采用正式化的原语言及相应的正式化的中介语言对该翻译子模型进行训练,以保证该翻译子模型的翻译结果结果更正式化;针对侧重于商务化的翻译子模型,则采用更加商务化的原语言及相应的商务化的中介语言对该翻译子模型进行训练,以保证该翻译子模型的翻译结果结果更加商务化。
优选地,利用所述中介语言与所述语言对应的第二平行数据训练所述第二转换模型;
其中,所述第一平行数据与第二平行数据为不同数据。
在本发明的第3实施例中,提供了另一种相似文本数据集生成方法,对第一转换模型、第二转换模型进行了如下限定:
所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括N个翻译子模型,不同的翻译子模型分别用于将原文本由原语言转化为不同的中介语言,得到由多种中介语言表述的第一文本集;具体地,
第一转换模型包括用于将原文本由原语言转化为不同中介语言的N个翻译子模型,如果原文本为中文,可设置包括中英翻译、中法翻译、中日翻译、中韩翻译等多种翻译子模型,以保证经过不同翻译子模型输出的文本为不同的翻译结果。
所述第二转换模型也包括N个翻译子模型,分别与第一转换模型中的N个翻译子模型对应设置,不同的翻译子模型分别用于将所述第一文本集中的每一文本由中介语言转换为原语言,得到由原语言表述的第二文本集。
第二转换模型中的N个翻译子模型与第一转换模型中的N个翻译子模型相应设置:
若第一转换模型中的翻译子模型为中英翻译,则第二转换模型中的相应翻译子模型为英中翻译,以保证经过第二转换模型后,得到的是采用原语言表达的文本。
相应示意图如图3所示。
优选地,利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型;
利用所述中介语言与所述语言对应的第二平行数据训练所述第二转换模型;
其中,所述第一平行数据与第二平行数据为不同数据。
当第一转换模型为由原语言转化为不同中介语言的翻译子模型时,可采用相应的原语言-中介语言平行数据对其进行训练;且在这种方式下,对于第二转换模型中的相应翻译子模型,选用不同的数据其进行训练,比如第一转换模型的训练数据侧重使用新闻数据集,第二转换模型训练数据就侧重使用对话数据集。在此基础上,再在第二转换模型的数据集中包含少部分第一模型数据集的数据,用于第一点中所提到的对重合程度的惩罚。通过以上设置,以保证经过第二转换模型输出的文本与原文本存在一定区别。
经过不同翻译子模型输出的文本,在经过第二转换模型中对应设置的翻译子模型的转换后,仍转换为原文本对应的语言,但在表述方式存在一定区别,由此得到由多个不同文本组成的第二文本集。
在本发明的第4实施例中,提供了一种与上述相似文本数据集生成方法对应设置的相似文本数据集生成装置,装置示意图如图4所示,包括:
第一文本集生成模块,用于利用第一转换模型,将原文本转换为与所述原文本相关的第一文本集;
第二文本集生成模块,用于利用第二转换模型,将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集;
相似文本数据集生成模块,用于从所述第二文本集中选择与原文本相似的文本,将所述选择结果作为原文本的相似文本数据集;
其中,所述第一转换模型与所述第二转换模型采用不同的转换方式。
优选地,所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括多个翻译子模型,不同的翻译子模型翻译侧重的方向不同;利用所述多个翻译子模型分别将原文本由原语言转换为侧重方向不同、同一中介语言表示的文本,得到由同一中介语言表述的第一文本集;
所述第二转换模型,用于将所述第一文本集中的每一文本,由中介语言转换为原语言,得到由原语言表述的第二文本集。
优选地,所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括N个翻译子模型,不同的翻译子模型分别用于将原文本由原语言转化为不同的中介语言,得到由多种中介语言表述的第一文本集;
所述第二转换模型也包括N个翻译子模型,分别与第一转换模型中的N个翻译子模型对应设置,不同的翻译子模型分别用于将所述第一文本集中的每一文本由中介语言转换为原语言,得到由原语言表述的第二文本集。
优选地,利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型;
利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型;
利用所述中介语言与所述语言对应的第二平行数据训练所述第二转换模型;
其中,所述第一平行数据与第二平行数据为不同数据。
优选地,所述相似文本数据集生成模块包括:
文本向量生成模块,用于对所述第二文本集中的各文本、原文本分别进行分词,得到第二文本集中的各文本向量与原文本的文本向量;
相似文本数据集获取模块,用于分别计算所述第二文本集中的各文本向量与原文本的文本向量的余弦相似度,提取所述余弦相似度满足余弦相似度阈值范围的第二文本集中的文本,作为原文本的相似文本数据集。
上述方法实施例和装置实施例,基于相同的原理,其相关之处可相互借鉴,且能达到相同的技术效果。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种相似文本数据集生成方法,其特征在于,包括如下步骤:
利用第一转换模型,将原文本转换为与所述原文本相关的第一文本集;
利用第二转换模型,将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集;
从所述第二文本集中选择与原文本相似的文本,将所述选择结果作为原文本的相似文本数据集;
所述第一转换模型与所述第二转换模型采用不同的转换方式。
2.根据权利要求1所述的方法,其特征在于:所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括多个翻译子模型,不同的翻译子模型翻译侧重的方向不同;利用所述多个翻译子模型分别将原文本由原语言转换为侧重方向不同、同一中介语言表示的文本,得到由同一中介语言表述的第一文本集;
所述第二转换模型,用于将所述第一文本集中的每一文本,由中介语言转换为原语言,得到由原语言表述的第二文本集。
3.根据权利要求1所述的方法,其特征在于:所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括N个翻译子模型,不同的翻译子模型分别用于将原文本由原语言转化为不同的中介语言,得到由多种中介语言表述的第一文本集;
所述第二转换模型也包括N个翻译子模型,分别与第一转换模型中的N个翻译子模型对应设置,不同的翻译子模型分别用于将所述第一文本集中的每一文本由中介语言转换为原语言,得到由原语言表述的第二文本集。
4.根据权利要求2或3所述的方法,其特征在于,利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型;
利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型;
利用所述中介语言与所述语言对应的第二平行数据训练所述第二转换模型;
其中,所述第一平行数据与第二平行数据为不同数据。
5.根据权利要求4所述的方法,其特征在于,执行以下操作,获取所述第二文本集中与原文本相似的文本,得到原文本的相似文本数据集:
对所述第二文本集中的各文本、原文本分别进行分词,得到第二文本集中的各文本向量与原文本的文本向量;
分别计算所述第二文本集中的各文本向量与原文本的文本向量的余弦相似度,提取所述余弦相似度满足余弦相似度阈值范围的第二文本集中的文本,作为原文本的相似文本数据集。
6.一种相似文本数据集生成装置,其特征在于,包括:
第一文本集生成模块,用于利用第一转换模型,将原文本转换为与所述原文本相关的第一文本集;
第二文本集生成模块,用于利用第二转换模型,将得到的所述第一文本集中的每一文本分别转换为与所述每一文本相关的第二文本集;
相似文本数据集生成模块,用于从所述第二文本集中选择与原文本相似的文本,将所述选择结果作为原文本的相似文本数据集;
其中,所述第一转换模型与所述第二转换模型采用不同的转换方式。
7.根据权利要求6所述的装置,其特征在于:所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括多个翻译子模型,不同的翻译子模型翻译侧重的方向不同;利用所述多个翻译子模型分别将原文本由原语言转换为侧重方向不同、同一中介语言表示的文本,得到由同一中介语言表述的第一文本集;
所述第二转换模型,用于将所述第一文本集中的每一文本,由中介语言转换为原语言,得到由原语言表述的第二文本集。
8.根据权利要求6所述的装置,其特征在于:所述第一转换模型、第二转换模型分别为翻译方式不同的翻译模型:
所述第一转换模型包括N个翻译子模型,不同的翻译子模型分别用于将原文本由原语言转化为不同的中介语言,得到由多种中介语言表述的第一文本集;
所述第二转换模型也包括N个翻译子模型,分别与第一转换模型中的N个翻译子模型对应设置,不同的翻译子模型分别用于将所述第一文本集中的每一文本由中介语言转换为原语言,得到由原语言表述的第二文本集。
9.根据权利要求7或8所述的装置,其特征在于,利用不同的损失函数及惩罚机制训练所述第一转换模型、所述第二转换模型;
利用所述原语言与所述中介语言对应的第一平行数据训练所述第一转换模型;
利用所述中介语言与所述语言对应的第二平行数据训练所述第二转换模型;
其中,所述第一平行数据与第二平行数据为不同数据。
10.根据权利要求9所述的装置,其特征在于,所述相似文本数据集生成模块包括:
文本向量生成模块,用于对所述第二文本集中的各文本、原文本分别进行分词,得到第二文本集中的各文本向量与原文本的文本向量;
相似文本数据集获取模块,用于分别计算所述第二文本集中的各文本向量与原文本的文本向量的余弦相似度,提取所述余弦相似度满足余弦相似度阈值范围的第二文本集中的文本,作为原文本的相似文本数据集。
CN201910270585.1A 2019-04-04 2019-04-04 一种相似文本数据集生成方法及装置 Active CN110046332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910270585.1A CN110046332B (zh) 2019-04-04 2019-04-04 一种相似文本数据集生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910270585.1A CN110046332B (zh) 2019-04-04 2019-04-04 一种相似文本数据集生成方法及装置

Publications (2)

Publication Number Publication Date
CN110046332A true CN110046332A (zh) 2019-07-23
CN110046332B CN110046332B (zh) 2024-01-23

Family

ID=67276242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910270585.1A Active CN110046332B (zh) 2019-04-04 2019-04-04 一种相似文本数据集生成方法及装置

Country Status (1)

Country Link
CN (1) CN110046332B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN102968463A (zh) * 2012-11-06 2013-03-13 清华大学 译文检索方法及装置
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
US20140207439A1 (en) * 2013-01-21 2014-07-24 Xerox Corporation Machine translation-driven authoring system and method
US20150179170A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Discriminative Policy Training for Dialog Systems
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN108491398A (zh) * 2018-03-26 2018-09-04 深圳市元征科技股份有限公司 一种对更新的软件文本进行翻译的方法及电子设备
CN109033091A (zh) * 2017-06-08 2018-12-18 松下知识产权经营株式会社 翻译信息提供方法、程序以及装置
CN109408834A (zh) * 2018-12-17 2019-03-01 北京百度网讯科技有限公司 辅助机器翻译方法、装置、设备及存储介质
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN102968463A (zh) * 2012-11-06 2013-03-13 清华大学 译文检索方法及装置
US20140207439A1 (en) * 2013-01-21 2014-07-24 Xerox Corporation Machine translation-driven authoring system and method
US20150179170A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Discriminative Policy Training for Dialog Systems
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN109033091A (zh) * 2017-06-08 2018-12-18 松下知识产权经营株式会社 翻译信息提供方法、程序以及装置
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN108491398A (zh) * 2018-03-26 2018-09-04 深圳市元征科技股份有限公司 一种对更新的软件文本进行翻译的方法及电子设备
CN109492764A (zh) * 2018-10-24 2019-03-19 平安科技(深圳)有限公司 生成式对抗网络的训练方法、相关设备及介质
CN109408834A (zh) * 2018-12-17 2019-03-01 北京百度网讯科技有限公司 辅助机器翻译方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHEN YANG 等: "Generative adversarial training for neural machine translation", 《NEUROCOMPUTING》, vol. 321, pages 146 - 155 *
刘辉军 等: "基于开源框架及容器技术的微服务架构研究", 《电力信息与通信技术》, vol. 16, no. 06, pages 90 - 94 *
华却才让 等: "基于判别式的藏语依存句法分析", 《计算机工程》, vol. 39, no. 04, pages 300 - 304 *
赵会群 等: "基于贝叶斯网络的复杂事件大数据处理系统测试数据生成方法研究", 《计算机应用研究》, vol. 35, no. 08, pages 2389 - 2392 *

Also Published As

Publication number Publication date
CN110046332B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
WO2021088400A1 (zh) 一种文档审核方法、装置、系统、设备及存储介质
Schäler Localization and translation
US20070043553A1 (en) Machine translation models incorporating filtered training data
JP6601470B2 (ja) 自然言語の生成方法、自然言語の生成装置及び電子機器
US20100074527A1 (en) Editing 2d structures using natural input
US11003680B2 (en) Method for providing e-book service and computer program therefor
TWI585681B (zh) 從既存之單一語言程序建立多重語言程序
Jungblut et al. And now for something completely different? Re-examining hybrid steering approaches in higher education
US20160078865A1 (en) Information Processing Method And Electronic Device
CN107273363B (zh) 一种语言文本翻译方法及系统
CN109408834A (zh) 辅助机器翻译方法、装置、设备及存储介质
CN113140023A (zh) 一种基于空间注意力的文本到图像生成方法及系统
Nyoni et al. Renewable energy: economic growth nexus in South Africa: linear, nonlinear or non-existent?
CN109960547A (zh) 软件多国语言翻译方法及系统
Vaezi Joze et al. Ms-asl: A large-scale data set and benchmark for understanding american sign language
CN102650988A (zh) 一种基于目标语言复述资源的机器翻译方法及装置
CN110046332A (zh) 一种相似文本数据集生成方法及装置
CN109346060A (zh) 语音识别方法、装置、设备及存储介质
CN105718441B (zh) 一种查找不同平台间功能相似ui组件的方法和装置
Tian Application and analysis of artificial intelligence graphic element algorithm in digital media art design
CN116561325A (zh) 一种多语言融媒体文本情感分析方法
Li et al. MiSS: An assistant for multi-style simultaneous translation
CN112528680B (zh) 语料扩充方法及系统
KR20220092044A (ko) Bim을 이용한 cfd 모델 설계 시스템 및 방법
CN106547553A (zh) 一种建立待开发对象的软件开发环境方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210729

Address after: 519000 Guangdong Zhuhai science and technology innovation coastal high beam Software Park

Applicant after: YGSOFT Inc.

Applicant after: Zhuhai Yuanguang Mobile Interconnection Technology Co.,Ltd.

Address before: 519000 room 105-4675, No. 6, Baohua Road, Hengqin new area, Zhuhai, Guangdong

Applicant before: Zhuhai Yuanguang Mobile Interconnection Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant