CN113535969B - 语料扩充方法、装置、计算机设备及存储介质 - Google Patents

语料扩充方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113535969B
CN113535969B CN202010313425.3A CN202010313425A CN113535969B CN 113535969 B CN113535969 B CN 113535969B CN 202010313425 A CN202010313425 A CN 202010313425A CN 113535969 B CN113535969 B CN 113535969B
Authority
CN
China
Prior art keywords
text
corpus
texts
parallel
selection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010313425.3A
Other languages
English (en)
Other versions
CN113535969A (zh
Inventor
黄书剑
蒋庆男
何亮
张建兵
陈家骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010313425.3A priority Critical patent/CN113535969B/zh
Publication of CN113535969A publication Critical patent/CN113535969A/zh
Application granted granted Critical
Publication of CN113535969B publication Critical patent/CN113535969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及计算机技术领域,尤其涉及一种语料扩充方法、装置、计算机设备及存储介质。所述方法包括:获取平行种子集、第一语料库和第二语料库,根据平行种子集、第一语料库和第二语料库,训练选择模型,对于第一语料库中的每个第一文本,通过训练完成的选择模型从第二语料库中确定匹配的第二文本;根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对;对多组伪平行文本对进行筛选,将筛选后的多组伪平行文本对添加至平行种子集中。本公开实施例通过使用选择模型学习多个第一文本和多个第二文本之间的映射关系,避免了相关技术中因无法做到内容风格完全解耦而导致的风格转换失败的问题,保证了后续的语料生成效果。

Description

语料扩充方法、装置、计算机设备及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种语料扩充方法、装置、计算机设备及存储介质。
背景技术
文本风格迁移是一种自动化地转换文本表达风格同时保存文本内容不变的技术。
相关技术中,由于缺乏大量内容相似而风格不同的平行语料,文本风格迁移主流的技术是以无监督学习的方式进行的。通常,在训练阶段学习一个风格无关的内容表示向量,结合原句子的风格表示重构输入的句子。在推断阶段,基于风格无关的内容表示向量和目标风格表示生成具有目标风格和指定内容的句子。在训练时,生成对抗网络经常被用于引导生成器生成具有指定风格的句子。
但是在上述方法中,无监督学习无法学到完全解耦的风格和内容表示,即内容表示中总是会包含部分风格信息,导致生成器有时无法生成具有指定风格的句子,导致句子生成效果不佳。
发明内容
有鉴于此,本公开提出了一种语料扩充方法、装置、计算机设备及存储介质。所述技术方案如下:
根据本公开的一方面,提供了一种语料扩充方法,所述方法包括:
获取平行种子集、第一语料库和第二语料库,所述平行种子集包括预先标注的多组平行文本对,所述第一语料库用于存储具有第一文本风格的多个第一文本,所述第二语料库用于存储具有第二文本风格的多个第二文本;
根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型,所述选择模型用于指示多个所述第一文本和多个所述第二文本之间的映射关系;
对于所述第一语料库中的每个所述第一文本,通过训练完成的所述选择模型从所述第二语料库中确定匹配的第二文本;
根据所述第一语料库中的多个所述第一文本和各自匹配的所述第二文本,构成多组伪平行文本对;
对所述多组伪平行文本对进行筛选,将筛选后的所述多组伪平行文本对添加至所述平行种子集中。
在一种可能的实现方式中,所述根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型,包括:
对于所述第一语料库中的每个所述第一文本,从所述第二语料库中确定所述第一文本对应的候选集,所述候选集包括所述第二语料库中与所述第一文本的语义相似度从高到低的前k个所述第二文本,所述k为正整数;
根据所述平行种子集和多个所述第一文本各自对应的所述候选集,训练所述选择模型。
在另一种可能的实现方式中,所述选择模型为包括生成器和判别器的生成对抗网络,所述对于所述第一语料库中的每个所述第一文本,通过训练完成的所述选择模型从所述第二语料库中确定匹配的第二文本,包括:
对于所述第一语料库中的每个所述第一文本,通过所述生成器将与所述第一文本相似度最高的所述第二文本确定为匹配的所述第二文本。
在另一种可能的实现方式中,所述方法还包括:
对于所述第一语料库中的每一个所述第一文本,通过所述判别器计算与所述第一文本匹配的所述第二文本对应的匹配概率,所述匹配概率为所述第一文本和所述第二文本构成所述伪平行文本对的概率。
在另一种可能的实现方式中,所述对所述多组伪平行文本对进行筛选,将筛选后的所述多组伪平行文本对添加至所述平行种子集中之后,还包括:
根据所述平行种子集训练得到转换模型,所述转换模型用于将所述第一文本风格的文本转换为所述第二文本风格的文本;
在预先设置的验证集上评估所述转换模型得到目标评价指标,所述目标评价指标用于指示所述转换模型的风格迁移性能;
根据所述目标评价指标确定是否进行下一轮迭代,所述下一轮迭代用于指示继续执行根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型的步骤。
在另一种可能的实现方式中,所述验证集包括多组验证文本对,所述验证文本对包括源文本和预先标注的与所述源文本匹配的目标文本,所述源文本具有所述第一文本风格,所述目标文本具有所述第二文本风格;所述根据所述目标评价指标确定是否进行下一轮迭代,包括:
当第i+1轮的所述目标评价指标大于第i轮的所述目标评价指标时,开始下一轮迭代,所述i为正整数;
当第i+1轮的所述目标评价指标小于或者等于第i轮的所述目标评价指标时,结束迭代。
根据本公开的另一方面,提供了一种语料扩充装置,所述装置包括:
获取模块,用于获取平行种子集、第一语料库和第二语料库,所述平行种子集包括预先标注的多组平行文本对,所述第一语料库用于存储具有第一文本风格的多个第一文本,所述第二语料库用于存储具有第二文本风格的多个第二文本;
训练模块,用于根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型,所述选择模型用于指示多个所述第一文本和多个所述第二文本之间的映射关系;
确定模块,用于对于所述第一语料库中的每个所述第一文本,通过训练完成的所述选择模型从所述第二语料库中确定匹配的第二文本;
构成模块,用于根据所述第一语料库中的多个所述第一文本和各自匹配的所述第二文本,构成多组伪平行文本对;
添加模块,用于对所述多组伪平行文本对进行筛选,将筛选后的所述多组伪平行文本对添加至所述平行种子集中。
在一种可能的实现方式中,所述训练模块,还用于:
对于所述第一语料库中的每个所述第一文本,从所述第二语料库中确定所述第一文本对应的候选集,所述候选集包括所述第二语料库中与所述第一文本的语义相似度从高到低的前k个所述第二文本,所述k为正整数;
根据所述平行种子集和多个所述第一文本各自对应的所述候选集,训练所述选择模型。
在另一种可能的实现方式中,所述选择模型为包括生成器和判别器的生成对抗网络,所述确定模块,还用于:
对于所述第一语料库中的每个所述第一文本,通过所述生成器将与所述第一文本相似度最高的所述第二文本确定为匹配的所述第二文本。
在另一种可能的实现方式中,所述装置还包括:计算模块;所述计算模块,用于对于所述第一语料库中的每一个所述第一文本,通过所述判别器计算与所述第一文本匹配的所述第二文本对应的匹配概率,所述匹配概率为所述第一文本和所述第二文本构成所述伪平行文本对的概率。
在另一种可能的实现方式中,所述装置,还包括:评估模块;所述评估模块,用于:
根据所述平行种子集训练得到转换模型,所述转换模型用于将所述第一文本风格的文本转换为所述第二文本风格的文本;
在预先设置的验证集上评估所述转换模型得到目标评价指标,所述目标评价指标用于指示所述转换模型的风格迁移性能;
根据所述目标评价指标确定是否进行下一轮迭代,所述下一轮迭代用于指示继续执行根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型的步骤。
在另一种可能的实现方式中,所述验证集包括多组验证文本对,所述验证文本对包括源文本和预先标注的与所述源文本匹配的目标文本,所述源文本具有所述第一文本风格,所述目标文本具有所述第二文本风格;所述评估模块,还用于:
当第i+1轮的所述目标评价指标大于第i轮的所述目标评价指标时,开始下一轮迭代,所述i为正整数;
当第i+1轮的所述目标评价指标小于或者等于第i轮的所述目标评价指标时,结束迭代。
根据本公开的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取平行种子集、第一语料库和第二语料库,所述平行种子集包括预先标注的多组平行文本对,所述第一语料库用于存储具有第一文本风格的多个第一文本,所述第二语料库用于存储具有第二文本风格的多个第二文本;
根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型,所述选择模型用于指示多个所述第一文本和多个所述第二文本之间的映射关系;
对于所述第一语料库中的每个所述第一文本,通过训练完成的所述选择模型从所述第二语料库中确定匹配的第二文本;
根据所述第一语料库中的多个所述第一文本和各自匹配的所述第二文本,构成多组伪平行文本对;
对所述多组伪平行文本对进行筛选,将筛选后的所述多组伪平行文本对添加至所述平行种子集中。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的方法。
本公开实施例通过获取平行种子集、第一语料库和第二语料库,根据平行种子集、第一语料库和第二语料库,训练选择模型,对于第一语料库中的每个第一文本,通过训练完成的选择模型从第二语料库中确定匹配的第二文本;根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对;对多组伪平行文本对进行筛选,将筛选后的多组伪平行文本对添加至平行种子集中;即根据平行种子集、第一语料库和第二语料库,使用选择模型学习多个第一文本和多个第二文本之间的映射关系,避免了相关技术中因无法做到内容风格完全解耦而导致的风格转换失败的问题,保证了后续的语料生成效果。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出了本公开实施例涉及的语料扩充系统的示意图;
图2示出了本公开一个示例性实施例提供的语料扩充方法的流程图;
图3示出了本公开一个示例性实施例提供的语料扩充方法涉及的原理示意图;
图4示出了本公开另一个示例性实施例提供的语料扩充方法的流程图;
图5示出了本公开另一个示例性实施例提供的语料扩充方法涉及的原理示意图;
图6示出了本公开一个示例性实施例提供的语料扩充装置的结构示意图;
图7是根据一示例性实施例示出的用于执行语料扩充方法的装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
相关技术中,无监督学习无法学到完全解耦的风格和内容表示,即内容表示中总是会包含部分风格信息,导致生成器有时无法生成具有指定风格的句子,导致句子生成效果不佳。使用生成对抗网络引导生成具有指定风格的句子经常会导致内容保存不佳和训练不稳定的情形发生。同时,生成的句子通常是只修改了几个表征风格的词,不具有多样性。
为此,本公开提供了一种语料扩充方法、装置、终端及存储介质,以解决上述相关技术中存在的问题。本公开提供的技术方案中,本公开实施例通过根据伪平行文本风格迁移数据,使用选择模型学习多个第一文本和多个第二文本之间的映射关系之间的映射关系,避免了相关技术中训练不稳定和生成的文本不具有多样性的问题,同时也可以避免因无法做到内容风格完全解耦而导致的风格转换失败的问题,保证了后续的语料生成效果。
在对本公开实施例进行解释说明之前,先对本公开实施例的应用场景进行说明。请参考图1,其示出了本公开实施例涉及的语料扩充系统的示意图。该语料扩充系统包括终端12和服务器14。
终端12可以是手机、平板电脑、电子书阅读器、MP3(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
可选的,终端12与服务器14之间通过通信网络相连。通信网络是有线网络或无线网络。
服务器14是一台服务器,或者由若干台服务器,或者是一个虚拟化平台,或者是一个云计算服务中心。
本公开实施例提供的语料扩充方法可以由计算机设备执行,比如,该方法可由图1所示系统中的终端12执行,或者,该方法可由图1所示系统中的服务器14执行,或者,该方法也可以由图1所示系统中的终端12和服务器14共同执行,本实施例对此不加以限定。
请参考图2,其示出了本公开一个示例性实施例提供的语料扩充方法的流程图,该语料扩充方法可以由计算机设备执行。如图2所示,该语料扩充方法可以包括如下步骤:
步骤201,获取平行种子集、第一语料库和第二语料库,平行种子集包括预先标注的多组平行文本对,第一语料库用于存储具有第一文本风格的多个第一文本,第二语料库用于存储具有第二文本风格的多个第二文本。
计算机设备获取平行种子集、第一语料库和第二语料库。
其中,平行种子集包括预先标注的多组平行文本对,平行文本对为源文本和与源文本匹配的转换文本的文本对,源文本为具有第一文本风格的文本,转换文本为具有第二文本风格的文本。
第一语料库用于存储具有第一文本风格的多个第一文本,第二语料库用于存储具有第二文本风格的多个第二文本,第一文本风格不同于第二文本风格。
步骤202,根据平行种子集、第一语料库和第二语料库,训练得到选择模型,选择模型用于指示多个第一文本和多个第二文本之间的映射关系。
计算机设备根据平行种子集、第一语料库和第二语料库,训练得到选择模型。
可选地,原始模型为神经网络模型。选择模型是采用平行种子集、第一语料库和第二语料库训练得到的神经网络模型。比如,选择模型为序列到序列模型。
选择模型用于指示多个第一文本和多个第二文本之间的映射关系。
步骤203,对于第一语料库中的每个第一文本,通过训练完成的选择模型从第二语料库中确定匹配的第二文本。
对于第一语料库中的每个第一文本,计算机设备通过训练完成的选择模型从第二语料库中确定匹配的一个第二文本。
第一文本和匹配的第二文本为两个风格不同但内容相似度高于相似阈值的文本。
需要说明的是,本公开实施例中的文本可以是句子,即第一文本为具有第一文本风格的句子,第二文本为具有第二文本风格的句子。本实施例对此不加以限定。
步骤204,根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对。
计算机设备根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对。其中,伪平行文本对为第一文本和与第一文本匹配的第二文本的文本对。
伪平行文本对为从第一语料库和第二语料库中挖掘出的文本对,该伪平行文本对包括两个风格不同但内容相似度高于相似阈值的文本。
步骤205,对多组伪平行文本对进行筛选,将筛选后的多组伪平行文本对添加至平行种子集中。
计算机设备采用预设的筛选策略对多组伪平行文本对进行筛选得到筛选后的多组伪平行文本对。计算机设备将筛选后的多组伪平行文本对添加至平行种子集中。本公开实施例对筛选策略的设置方式不加以限定。
在一个示意性的例子中,如图3所示,计算机设备根据平行种子集31、第一语料库32和第二语料库33,基于训练得到的选择模型34从第一语料库32和第二语料库33中挖掘出多组伪平行文本对35,将挖掘出的多组伪平行文本对35添加至平行种子集31中。
综上所述,本公开实施例通过获取平行种子集、第一语料库和第二语料库,根据平行种子集、第一语料库和第二语料库,训练选择模型,对于第一语料库中的每个第一文本,通过训练完成的选择模型从第二语料库中确定匹配的第二文本;根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对;对多组伪平行文本对进行筛选,将筛选后的多组伪平行文本对添加至平行种子集中;即根据平行种子集、第一语料库和第二语料库,使用选择模型学习多个第一文本和多个第二文本之间的映射关系,避免了相关技术中因无法做到内容风格完全解耦而导致的风格转换失败的问题,保证了后续的语料生成效果。
本公开实施例使用少量平行种子集隐式地指定风格不同但内容相似的句子对应具有的特征,避免硬编码规则,以将同一种方法适用于多种不同类型或不同领域的数据集中。在只依赖少量平行种子集的情况下,结合第一语料库和第二语料库即大量非平行数据,为每个数据集学习一个特定的度量准则,来判别两个来自不同风格语料库的文本是否是内容相似的,避免了相关技术中通过回译方法需要较大种子集以及基于迭代匹配和转换的方法针对不同数据集使用同一种度量准则的缺点。
请参考图4,其示出了本公开一个示例性实施例提供的语料扩充方法的流程图。本公开实施例以该语料扩充方法应用于图1所示出的计算机设备中来举例说明。该语料扩充方法包括:
步骤401,获取平行种子集、第一语料库和第二语料库。
其中,平行种子集包括预先标注的多组平行文本对,第一语料库用于存储具有第一文本风格的多个第一文本,第二语料库用于存储具有第二文本风格的多个第二文本。
需要说明的是,计算机设备获取平行种子集、第一语料库和第二语料库的过程可参考上述实施例中的相关细节,在此不再赘述。
步骤402,对于第一语料库中的每个第一文本,从第二语料库中确定第一文本对应的候选集,候选集包括第二语料库中与第一文本的语义相似度从高到低的前k个第二文本,k为正整数。
计算机设备计算第一语料库中每个第一文本的向量表示和第二语料库中每个第二文本的向量表示。
计算机设备训练一个自编码器,该自编码器包括一个编码器和一个解码器。计算机设备调用自编码器中的编码器计算每个第一文本和每个第二文本的向量表示。
在计算机设备计算得到每个第一文本和每个第二文本的向量表示之后,对于第一语料库中的每个第一文本,计算机设备从第二语料库中筛选出k个第二文本,将这k个第二文本作为该第一文本对应的候选集。
其中,k个第二文本为第二语料库中与第一文本的语义相似度从高到低的前k个第二文本。语义相似度用于指示两个文本之间的相似程度。
步骤403,根据平行种子集和多个第一文本各自对应的候选集,训练得到选择模型。
可选的,选择模型为包括生成器和判别器的生成对抗网络。对于第一语料库中的每个第一文本,计算机设备通过生成器将与第一文本相似度最高的第二文本确定为匹配的第二文本。对于第一语料库中的每一个第一文本,计算机设备通过判别器计算与第一文本匹配的第二文本对应的匹配概率,匹配概率为第一文本和第二文本构成伪平行文本对的概率。
计算机设备通过生成器从候选集中选择一条与第一文本匹配的第二文本。计算机设备通过判别器判别输入的第一文本和选择出的与该第一文本匹配的第二文本是否是相似的。我们迭代地优化以下最小最大博弈目标函数minG maxD V(D,G)。
其中,G为生成器,D为编码器,x为第一文本,y为第二文本,D(x,y)为第一文本x和第二文本y构成伪平行文本对的概率即匹配概率,Ex,y~pseed(x,y)log D(x,y)为训练判别器的损失,为训练生成器的损失。
计算机设备通过生成器选择对判别器而言最难以判断的文本对,通过判别器区分一个文本对是生成器生成的还是当前的平行种子集中的。计算机设备采用如下形式的判别器,该判别器中包括两个编码器,即第一编码器和第二编码器,对于一个第一文本和一个第二文本构成的文本对,计算机设备通过第一编码器将第一文本编码成一个语义向量,通过第二编码器将第二文本编码成另一个语义向量,将这两个语义向量拼接起来经过一个线性层得到该文本对对应的对数几率,计算机设备调用sigmoid函数进行激活得到匹配概率。
其中第一编码器和第二编码器是两个长短期记忆网络(Long Short-TermMemory,LSTM)。
D(x,y)=sigmoid(W[DE1(x);DE2(y)]+b)
其中,D(x,y)为第一文本x和第二文本y构成伪平行文本对的概率即匹配概率,DE1和DE2为判别器中的两个编码器,x为第一文本,y为第二文本,b为向量参数,W[DE1(x);DE2(y)]为行向量W与列向量[DE1(x);DE2(y)]的乘积。
计算机设备采用如下形式的生成器,该生成器中包括两个编码器,即第三编码器和第四编码器。对于一个第一文本和一个第二文本(该第二文本为第一文本对应的候选集中的任意一个第二文本)构成的文本对,计算机设备通过第三编码器将第一文本编码成一个语义向量,通过第四编码器将第二文本编码成另一个语义向量,计算机设备计算这两个语义向量的内积得到该第二文本被选中的对数几率之后,在该第一文本对应的候选集上调用归一化指数函数得到候选集中的第二文本yi对应的选中概率G(x,yi),选中概率用于指示第一文本x与第二文本yi的相似度。
G(x,yi)=softmaxi(GE1(x).GE2(yi))
其中,GE1和GE2为生成器中的两个编码器,x为第一文本,yi为第一文本x对应的候选集中的任意一个第二文本,softmaxi()为归一化指数函数。
需要说明的是,本公开实施例对归一化指数函数的计算方式不加以限可选地,由于选择是不可微分的离散操作,计算机设备采用策略梯度(英文:Policy Gradient)的方式对生成器进行优化。
可选地,在用编码器(第一编码器或第二编码器或第三编码器或第四编码器)编码文本(第一文本或第二文本)时,将文本表示成词的序列x={x1,x2,…,xn},并使用词嵌入表E将每个词转换为对应的向量表示wi=E(xi)。然后,使用LSTM通过如下公式将词向量的序列进行编码:
hi,ci=LSTM(hi-1,ci-1,wi)
其中,hi为第i个状态向量,ci为第i个状态向量对应的上下文向量表示,wi为第i个状态向量对应的矩阵参数,i的取值范围为1至n。
需要说明的是,本公开实施例对LSTM的计算方式不加以限定。
计算机设备将文本编码得到的最后一个状态向量hn确定为该文本对应的语义向量。其中,w、b、E以及LSTM中的参数均为待优化的参数。
步骤404,对于第一语料库中的每个第一文本,通过训练完成的选择模型从第二语料库中确定匹配的第二文本。
对于第一语料库中的每个第一文本,计算机设备通过训练完成的选择模型从第二语料库中确定匹配的第二文本。
步骤405,根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对。
计算机设备根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对。
步骤406,对多组伪平行文本对进行筛选,将筛选后的多组伪平行文本对添加至平行种子集中。
计算机设备对选择模型中的编码器参数进行更新,对多组伪平行文本对进行筛选,将筛选后的多组伪平行文本对添加至平行种子集中。
可选的,编码器参数包括编码函数的参数。
步骤407,根据平行种子集训练得到转换模型,转换模型用于将第一文本风格的文本转换为第二文本风格的文本。
计算机设备根据上述得到的平行种子集,训练转换模型,训练完成的转化模型用于将第一文本风格的文本转换为第二文本风格的文本。
步骤408,在预先设置的验证集上评估转换模型得到目标评价指标,目标评价指标用于指示转换模型的风格迁移性能。
计算机设备在预先设置的验证集上评估转换模型得到目标评价指标。
其中,验证集包括多组验证文本对,验证文本对包括源文本和预先标注的与源文本匹配的目标文本,源文本具有第一文本风格,目标文本具有第二文本风格。
目标评价指标用于指示转换模型的风格迁移性能。可选的,该目标评价指标用于指示风格迁移的成功率和/或训练结果与目标文本之间的BLEU分数。
示意性的,目标评价指标为G,其中,Acc为风格迁移的成功率,BLEU为训练结果与目标文本之间的BLEU分数。比如,Acc=T/N,其中N为验证集中的样本总数,T是风格转换成功的样本数量。本实施例对Acc算法、BLEU算法、目标评价指标的计算方式不加以限定。
步骤409,根据目标评价指标确定是否进行下一轮迭代,下一轮迭代用于指示继续执行根据平行种子集、第一语料库和第二语料库,训练选择模型的步骤。
计算机设备根据目标评价指标确定是否进行下一轮迭代,即根据目标评价指标确定是否继续执行根据平行种子集、第一语料库和第二语料库,训练选择模型的步骤。在第一轮迭代得到第一轮的目标评价指标后,开始第二轮迭代。从第二轮迭代开始,计算机设备判断本轮的目标评价指标是否大于上一轮的目标评价指标,当本轮的目标评价指标大于上一轮的目标评价指标表示目标评价指标提升时,开始下一轮迭代。
即当第i+1轮的目标评价指标大于第i轮的目标评价指标时,开始下一轮迭代,i为正整数;当第i+1轮的目标评价指标小于或者等于第i轮的目标评价指标时,结束迭代。
计算机设备判断第i+1轮的目标评价指标是否大于第i轮的目标评价指标,当第i+1轮的目标评价指标大于第i轮的目标评价指标时,开始下一轮迭代,继续执行训练选择模型的步骤即步骤403。使得计算机设备通过迭代地扩充平行种子集,学习更优的判别准则和检索更多的平行数据,从而逐步扩充原始的平行种子集,达到扩充文本风格迁移平行数据的目的。
从第二轮迭代开始,当本轮的目标评价指标小于或者等于上一轮的目标评价指标表示目标评价指标不再提升时,结束迭代。
可选地,在迭代结束后,计算机设备得到扩充后的平行种子集,将扩充后的平行种子集作为回译方法的输入,训练得到转换模型。
在一个示意性的例子中,本公开实施例提出了一种基于对抗检索和迭代匹配的文本风格迁移成对语料扩充方法。如图5所示,计算机设备获取平行种子集51、第一语料库52和第二语料库53,对于第一语料库52中的每个第一文本,根据向量表示相似度从第二语料库53中确定第一文本对应的候选集54。计算机设备根据平行种子集51和多个第一文本各自对应的候选集54,训练得到选择模型55,该选择模型55包括生成器56和判别器57,对于第一语料库52中的每个第一文本,计算机设备通过生成器56选择与第一文本相似度最高的第二文本为匹配的第二文本,通过判别器57计算第一文本与选择的与之匹配的第二文本之间的匹配概率。计算机设备根据第一语料库52中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对58,对构成的多组伪平行文本58进行筛选,将筛选后的多组伪平行文本58添加至伪平行数据集59中,将伪平行数据集59添加至平行种子集51中。
综上所述,本公开实施例提供的语料扩充方法,从技术层面来说,还达到了如下效果:1、可以适用于多种不同类型和领域的数据集(第一语料库和第二语料库);2、使用更小的平行种子集;3、能够保证合成的伪平行文本对是风格不同且流畅的;4、本方法可以和其他方法结合使用;5、生成的伪平行文本对具有多样性,能够在对第一文本做大范围的重述而不是仅修改个别词。从应用层面来说,还达到了如下技术效果:1、可以不加改动地直接用在多种不同的数据集上,减少适配成本;2、使用更小的平行种子集,减少人力标注成本;3、由于确定出的与第一文本匹配的第二文本是从第二语料库中检索到的,保证了第二文本是流畅的。以第一文本和匹配的第二文本训练出的转化模型可以生成流畅且通顺的文本;4、由于合成的伪平行文本对中两个文本分别来自不同风格的语料库,保证了合成的伪平行文本对的文本风格是不同的。以此训练得到的转化模型可以达到转换句子风格的目的;5、本公开实施例提供的方法可以与相关技术中的回译方法无缝衔接,在不需要对回译方法和本公开实施例提供的方法做任何改动的情况下,直接将本公开实施例提供的方法的输出作为回译方法的输入,即可提升回译方法的效果。
以下为本公开实施例的装置实施例,对于装置实施例中未详细阐述的部分,可以参考上述方法实施例中公开的技术细节。
请参考图6,其示出了本公开一个示例性实施例提供的语料扩充装置的结构示意图。该语料扩充装置可以通过软件、硬件以及两者的组合实现成为计算机设备的全部或一部分。该语料扩充装置包括:获取模块610、训练模块620、确定模块630、构成模块640和添加模块650;
获取模块610,用于获取平行种子集、第一语料库和第二语料库,平行种子集包括预先标注的多组平行文本对,第一语料库用于存储具有第一文本风格的多个第一文本,第二语料库用于存储具有第二文本风格的多个第二文本;
训练模块620,用于根据平行种子集、第一语料库和第二语料库,训练选择模型,选择模型用于指示多个第一文本和多个第二文本之间的映射关系;
确定模块630,用于对于第一语料库中的每个第一文本,通过训练完成的选择模型从第二语料库中确定匹配的第二文本;
构成模块640,用于根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对;
添加模块650,用于对多组伪平行文本对进行筛选,将筛选后的多组伪平行文本对添加至平行种子集中。
在一种可能的实现方式中,训练模块620,还用于:
对于第一语料库中的每个第一文本,从第二语料库中确定第一文本对应的候选集,候选集包括第二语料库中与第一文本的语义相似度从高到低的前k个第二文本,k为正整数;
根据平行种子集和多个第一文本各自对应的候选集,训练选择模型。
在另一种可能的实现方式中,选择模型为包括生成器和判别器的生成对抗网络,确定模块,还用于:
对于第一语料库中的每个第一文本,通过生成器将与第一文本相似度最高的第二文本确定为匹配的第二文本。
在另一种可能的实现方式中,该装置还包括:计算模块;计算模块,用于对于第一语料库中的每一个第一文本,通过判别器计算与第一文本匹配的第二文本对应的匹配概率,匹配概率为第一文本和第二文本构成伪平行文本对的概率。
在另一种可能的实现方式中,该装置,还包括:评估模块;评估模块,用于:
根据平行种子集训练得到转换模型,转换模型用于将第一文本风格的文本转换为第二文本风格的文本;
在预先设置的验证集上评估转换模型得到目标评价指标,目标评价指标用于指示转换模型的风格迁移性能;
根据目标评价指标确定是否进行下一轮迭代,下一轮迭代用于指示继续执行根据平行种子集、第一语料库和第二语料库,训练选择模型的步骤。
在另一种可能的实现方式中,验证集包括多组验证文本对,验证文本对包括源文本和预先标注的与源文本匹配的目标文本,源文本具有第一文本风格,目标文本具有第二文本风格;评估模块,还用于:
当第i+1轮的目标评价指标大于第i轮的目标评价指标时,开始下一轮迭代,i为正整数;
当第i+1轮的目标评价指标小于或者等于第i轮的目标评价指标时,结束迭代。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各个功能模块的划分进行举例说明,实际应用中,可以根据实际需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供了一种计算机设备,计算机设备包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为实现上述各个方法实施例中由计算机设备执行的步骤。
可选地,计算机设备为终端或者服务器。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述各个方法实施例中由计算机设备执行的步骤。
图7是根据一示例性实施例示出的用于执行语料扩充方法的装置的框图。装置700可以是终端、移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件707,音频组件710,输入/输出(I/O)的接口712,传感器组件714,以及通信组件716。
处理组件702通常控制装置700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理组件702可以包括多媒体模块,以方便多媒体组件707和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为装置700生成、管理和分配电力相关联的组件。
多媒体组件707包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件707包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当装置700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为装置700提供各个方面的状态评估。例如,传感器组件714可以检测到装置700的打开/关闭状态,组件的相对定位,例如所述组件为装置700的显示器和小键盘,传感器组件714还可以检测装置700或装置700一个组件的位置改变,用户与装置700接触的存在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器704,上述计算机程序指令可由装置700的处理器720执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (8)

1.一种语料扩充方法,其特征在于,所述方法包括:
获取平行种子集、第一语料库和第二语料库,所述平行种子集包括预先标注的多组平行文本对,所述第一语料库用于存储具有第一文本风格的多个第一文本,所述第二语料库用于存储具有第二文本风格的多个第二文本;
根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型,所述选择模型用于指示多个所述第一文本和多个所述第二文本之间的映射关系;
对于所述第一语料库中的每个所述第一文本,通过训练完成的所述选择模型从所述第二语料库中确定匹配的第二文本;
根据所述第一语料库中的多个所述第一文本和各自匹配的所述第二文本,构成多组伪平行文本对;
对所述多组伪平行文本对进行筛选,将筛选后的所述多组伪平行文本对添加至所述平行种子集中;
所述根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型,包括:
对于所述第一语料库中的每个所述第一文本,从所述第二语料库中确定所述第一文本对应的候选集,所述候选集包括所述第二语料库中与所述第一文本的语义相似度从高到低的前k个所述第二文本,所述k为正整数;
根据所述平行种子集和多个所述第一文本各自对应的所述候选集,训练所述选择模型。
2.根据权利要求1所述的方法,其特征在于,所述选择模型为包括生成器和判别器的生成对抗网络,所述对于所述第一语料库中的每个所述第一文本,通过训练完成的所述选择模型从所述第二语料库中确定匹配的第二文本,包括:
对于所述第一语料库中的每个所述第一文本,通过所述生成器将与所述第一文本相似度最高的所述第二文本确定为匹配的所述第二文本。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对于所述第一语料库中的每一个所述第一文本,通过所述判别器计算与所述第一文本匹配的所述第二文本对应的匹配概率,所述匹配概率为所述第一文本和所述第二文本构成所述伪平行文本对的概率。
4.根据权利要求1所述的方法,其特征在于,所述对所述多组伪平行文本对进行筛选,将筛选后的所述多组伪平行文本对添加至所述平行种子集中之后,还包括:
根据所述平行种子集训练得到转换模型,所述转换模型用于将所述第一文本风格的文本转换为所述第二文本风格的文本;
在预先设置的验证集上评估所述转换模型得到目标评价指标,所述目标评价指标用于指示所述转换模型的风格迁移性能;
根据所述目标评价指标确定是否进行下一轮迭代,所述下一轮迭代用于指示继续执行根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型的步骤。
5.根据权利要求4所述的方法,其特征在于,所述验证集包括多组验证文本对,所述验证文本对包括源文本和预先标注的与所述源文本匹配的目标文本,所述源文本具有所述第一文本风格,所述目标文本具有所述第二文本风格;所述根据所述目标评价指标确定是否进行下一轮迭代,包括:
当第i+1轮的所述目标评价指标大于第i轮的所述目标评价指标时,开始下一轮迭代,所述i为正整数;
当第i+1轮的所述目标评价指标小于或者等于第i轮的所述目标评价指标时,结束迭代。
6.一种语料扩充装置,其特征在于,所述装置包括:
获取模块,用于获取平行种子集、第一语料库和第二语料库,所述平行种子集包括预先标注的多组平行文本对,所述第一语料库用于存储具有第一文本风格的多个第一文本,所述第二语料库用于存储具有第二文本风格的多个第二文本;
训练模块,用于根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型,所述选择模型用于指示多个所述第一文本和多个所述第二文本之间的映射关系;
确定模块,用于对于所述第一语料库中的每个所述第一文本,通过训练完成的所述选择模型从所述第二语料库中确定匹配的第二文本;
构成模块,用于根据所述第一语料库中的多个所述第一文本和各自匹配的所述第二文本,构成多组伪平行文本对;
添加模块,用于对所述多组伪平行文本对进行筛选,将筛选后的所述多组伪平行文本对添加至所述平行种子集中;
所述训练模块,还用于:
对于所述第一语料库中的每个所述第一文本,从所述第二语料库中确定所述第一文本对应的候选集,所述候选集包括所述第二语料库中与所述第一文本的语义相似度从高到低的前k个所述第二文本,所述k为正整数;
根据所述平行种子集和多个所述第一文本各自对应的所述候选集,训练所述选择模型。
7.一种计算机设备,其特征在于,所述计算机设备包括:处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取平行种子集、第一语料库和第二语料库,所述平行种子集包括预先标注的多组平行文本对,所述第一语料库用于存储具有第一文本风格的多个第一文本,所述第二语料库用于存储具有第二文本风格的多个第二文本;
根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型,所述选择模型用于指示多个所述第一文本和多个所述第二文本之间的映射关系;
对于所述第一语料库中的每个所述第一文本,通过训练完成的所述选择模型从所述第二语料库中确定匹配的第二文本;
根据所述第一语料库中的多个所述第一文本和各自匹配的所述第二文本,构成多组伪平行文本对;
对所述多组伪平行文本对进行筛选,将筛选后的所述多组伪平行文本对添加至所述平行种子集中;
所述根据所述平行种子集、所述第一语料库和所述第二语料库,训练选择模型,包括:
对于所述第一语料库中的每个所述第一文本,从所述第二语料库中确定所述第一文本对应的候选集,所述候选集包括所述第二语料库中与所述第一文本的语义相似度从高到低的前k个所述第二文本,所述k为正整数;
根据所述平行种子集和多个所述第一文本各自对应的所述候选集,训练所述选择模型。
8.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。
CN202010313425.3A 2020-04-20 2020-04-20 语料扩充方法、装置、计算机设备及存储介质 Active CN113535969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010313425.3A CN113535969B (zh) 2020-04-20 2020-04-20 语料扩充方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010313425.3A CN113535969B (zh) 2020-04-20 2020-04-20 语料扩充方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113535969A CN113535969A (zh) 2021-10-22
CN113535969B true CN113535969B (zh) 2023-11-03

Family

ID=78093748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010313425.3A Active CN113535969B (zh) 2020-04-20 2020-04-20 语料扩充方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113535969B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093715B (zh) * 2023-10-18 2023-12-29 湖南财信数字科技有限公司 词库扩充方法、系统、计算机设备及存储介质
CN118378612B (zh) * 2024-06-21 2024-09-27 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于解耦模块挖掘的文本风格迁移方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140132114A (ko) * 2013-05-07 2014-11-17 숙명여자대학교산학협력단 수식 콘텐츠의 한글 독음 변환 시스템 및 방법
CN109635253A (zh) * 2018-11-13 2019-04-16 平安科技(深圳)有限公司 文本风格转换方法、装置及存储介质、计算机设备
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110738057A (zh) * 2019-09-05 2020-01-31 中山大学 一种基于语法约束和语言模型的文本风格迁移方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170243107A1 (en) * 2016-02-19 2017-08-24 Jack Mobile Inc. Interactive search engine

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140132114A (ko) * 2013-05-07 2014-11-17 숙명여자대학교산학협력단 수식 콘텐츠의 한글 독음 변환 시스템 및 방법
CN109635253A (zh) * 2018-11-13 2019-04-16 平安科技(深圳)有限公司 文本风格转换方法、装置及存储介质、计算机设备
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110738057A (zh) * 2019-09-05 2020-01-31 中山大学 一种基于语法约束和语言模型的文本风格迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Utilizing Non-Parallel Text for Style Transfer by Making Partial Compari;Di Yin 等;《Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence (IJCAI-19)》;第5379-5380页 *
基于交叉对齐方法的中文文本风格转换;王苗;《中国优秀硕士学位论文全文数据库 信息科技辑》(第12期);第I138-730页 *

Also Published As

Publication number Publication date
CN113535969A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
US11593556B2 (en) Methods and systems for generating domain-specific text summarizations
CN110826344B (zh) 神经网络模型压缩方法、语料翻译方法及其装置
CN107291690B (zh) 标点添加方法和装置、用于标点添加的装置
US12045578B2 (en) Method for determining text similarity, storage medium and electronic device
CN107564526B (zh) 处理方法、装置和机器可读介质
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN111612070A (zh) 基于场景图的图像描述生成方法及装置
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN108628813B (zh) 处理方法和装置、用于处理的装置
CN113535969B (zh) 语料扩充方法、装置、计算机设备及存储介质
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
CN112036195A (zh) 机器翻译方法、装置及存储介质
CN112528671A (zh) 语义分析方法、装置以及存储介质
CN113673261A (zh) 数据生成方法、装置及可读存储介质
CN111079422B (zh) 关键词提取方法、装置及存储介质
CN112559673A (zh) 语言处理模型的训练方法及装置、电子设备及存储介质
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN112035651B (zh) 语句补全方法、装置及计算机可读存储介质
CN109460458B (zh) 查询改写意图的预测方法及装置
CN111984765B (zh) 知识库问答过程关系检测方法及装置
CN113919372A (zh) 机器翻译质量评估方法、装置及存储介质
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置
CN110659625A (zh) 物体识别网络的训练方法及装置、电子设备和存储介质
CN113901832A (zh) 人机对话方法、装置、存储介质及电子设备
CN113923517A (zh) 一种背景音乐生成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant