CN111353282B - 模型训练、文本改写方法、装置和存储介质 - Google Patents

模型训练、文本改写方法、装置和存储介质 Download PDF

Info

Publication number
CN111353282B
CN111353282B CN202010158722.5A CN202010158722A CN111353282B CN 111353282 B CN111353282 B CN 111353282B CN 202010158722 A CN202010158722 A CN 202010158722A CN 111353282 B CN111353282 B CN 111353282B
Authority
CN
China
Prior art keywords
text
word
original
optimized
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010158722.5A
Other languages
English (en)
Other versions
CN111353282A (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010158722.5A priority Critical patent/CN111353282B/zh
Publication of CN111353282A publication Critical patent/CN111353282A/zh
Application granted granted Critical
Publication of CN111353282B publication Critical patent/CN111353282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种用于进行文本改写的模型训练方法、装置、计算机设备和存储介质。该方法包括:获取包括正样本和负样本的原始样本集合;所述负样本具有编辑操作标签;根据所述编辑操作标签的标签出现次数,确定各个所述负样本对应的采样权重;按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:基于所述高频负样本和所述正样本组成的优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;所述优化文本改写模型用于对原始文本进行改写以生成改写后文本。本方法涉及人工智能技术领域,采用本方案能够提高文本改写过程的处理效率。

Description

模型训练、文本改写方法、装置和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种模型训练、文本改写方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用。而自然语言处理(Nature Language processing,NLP)是人工智能技术中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术常常被应用于文章自动摘要、文本自动纠错、机器阅读理解、文本优化等文本处理领域。
在传统的文本处理方案中,通常是将原始文本输入至序列到序列(seq2seq)模型,然后逐词输出一个全新的对应于原始文本的目标文本。然而,由于自然语言词表词量庞大,即便去除了一些罕见词,剩下的词表词量依然是百万、千万级别的,这提高了现有技术在对原始文本进行改写时的数据处理量和处理难度,使得在进行文本改写的过程中效率不高。
因此,目前的自然语言处理技术在进行文本改写时存在效率不高的问题。
发明内容
基于此,有必要针对目前的自然语言处理技术在进行文本改写时存在效率不高的问题,提供一种能够提高的文本改写效率的模型训练、文本改写方法、装置、计算机设备和存储介质。
一种用于进行文本改写的模型训练方法,所述方法包括:
获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
根据所述标签出现次数,确定各个所述负样本对应的采样权重;
按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;其中,所述优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作;所述文本分词对应的编辑操作用于对所述原始文本进行改写以生成改写后文本。
一种文本改写方法,所述方法包括:
获取原始样本集合;所述原始样本集合包括正样本和负样本;每个样本具有与所述样本相对应的编辑操作标签;所述编辑操作标签为用于表征对应所述样本为正样本还是负样本;
根据各个所述负样本对应的编辑操作标签的重复次数,确定各个所述负样本对应的采样权重;
按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到负样本集合;所述负样本集合包括至少两个的高频负样本:
将所述原始样本集合中的正样本加入至所述负样本集合,得到优化样本集合;
基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;
获取原始文本,并将所述原始文本输入至所述优化文本改写模型;
通过所述优化文本改写模型,生成所述原始文本中的各个文本分词对应的编辑操作;
根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。
一种用于进行文本改写的模型训练装置,其特征在于,包括:
样本获取模块,用于获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
统计模块,用于生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
权重确定模块,用于根据所述标签出现次数,确定各个所述负样本对应的采样权重;
采样模块,用于按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
训练模块,用于将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;其中,所述优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作;所述文本分词对应的编辑操作用于对所述原始文本进行改写以生成改写后文本。
一种文本改写装置,其特征在于,包括:
样本获取模块,用于获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
统计模块,用于生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
权重确定模块,用于根据所述标签出现次数,确定各个所述负样本对应的采样权重;
采样模块,用于按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
训练模块,用于将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;原始文本获取模块,用于获取原始文本,并将所述原始文本输入至所述优化文本改写模型;
生成模块,用于通过所述优化文本改写模型,生成所述原始文本中的各个文本分词对应的编辑操作;
改写模块,用于根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
根据所述标签出现次数,确定各个所述负样本对应的采样权重;
按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;其中,所述优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作;所述文本分词对应的编辑操作用于对所述原始文本进行改写以生成改写后文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
根据所述标签出现次数,确定各个所述负样本对应的采样权重;
按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;
获取原始文本,并将所述原始文本输入至所述优化文本改写模型;
通过所述优化文本改写模型,生成所述原始文本中的各个文本分词对应的编辑操作;
根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
根据所述标签出现次数,确定各个所述负样本对应的采样权重;
按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;其中,所述优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作;所述文本分词对应的编辑操作用于对所述原始文本进行改写以生成改写后文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
根据所述标签出现次数,确定各个所述负样本对应的采样权重;
按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;
获取原始文本,并将所述原始文本输入至所述优化文本改写模型;
通过所述优化文本改写模型,生成所述原始文本中的各个文本分词对应的编辑操作;
根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。
上述用于进行文本改写的模型训练方法、装置、计算机设备和存储介质,通过获取包括正样本和负样本的原始样本集合;其中,负样本具有编辑操作标签;然后,统计出具有相同编辑操作标签的负样本的数量,确定编辑操作标签的标签出现次数,以用于确定各个负样本对应的采样权重;再然后,按照各个负样本对应的采样权重,对原始样本集合中的负样本进行带权重的负样本采样以得到高频负样本:由此,通过基于由高频负样本和正样本组成优化样本集合,对初始文本改写模型进行训练,可以在减少对初始文本改写模型进行训练的样本使用量和训练过程中的数据处理量以提高训练速度的同时,保障了训练后得到优化文本改写模型对输入文本的改写效果,以提高文本处理过程中的文本改写效率。
附图说明
图1为一个实施例中一种模型训练方法的应用环境图;
图2为一个实施例中一种用于进行文本改写的模型训练方法的流程示意图;
图3为一个实施例中一种模型训练方法的训练步骤的流程示意图;
图4为另一个实施例中一种模型训练方法的流程示意图;
图5为一个实施例中一种文本改写方法的流程示意图;
图6为一个实施例中一种文本处理方法的场景示意图;
图7为一个实施例中一种文本改写系统的应用环境图;
图8A为一个实施例中一种应用于摘要提取场景的交互界面示意图;
图8B为一个实施例中一种应用于文本纠错场景的交互界面示意图;
图9为另一个实施例中一种文本改写方法的流程示意图;
图10为一个实施例中另一种文本改写方法的流程示意图;
图11为一个实施例中一种优化文本改写模型的网络结构示意图;
图12为一个实施例中一种用于进行文本改写的模型训练装置的框图;
图13为一个实施例中一种文本改写装置的框图;
图14为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的一种用于进行文本改写的模型训练方法,可以应用于如图1所示的应用环境中。其中,服务器110获取原始样本集合;原始样本集合包括正样本和负样本;负样本具有编辑操作标签;然后,服务器110生成编辑操作标签的标签出现次数:标签出现次数为具有相同编辑操作标签的负样本的数量;再然后,服务器110根据标签出现次数,确定各个负样本对应的采样权重;再然后,服务器110按照各个负样本对应的采样权重,对原始样本集合中的负样本进行采样,得到高频负样本:最后,服务器110将高频负样本和正样本组成优化样本集合;并基于优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;其中,优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作;文本分词对应的编辑操作用于对原始文本进行改写以生成改写后文本。实际应用中,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种用于进行文本改写的模型训练方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S202,获取原始样本集合;原始样本集合包括正样本和负样本;负样本具有编辑操作标签。
其中,原始样本集合可以是指由多个样本组成的集合。
其中,原始样本集合包括正样本和负样本。
其中,编辑操作可以是指在对原始文本进行改写时对原始文本中的文本分词进行编辑的操作过程。
例如,在对某个输入文本“它我们相信小华”改写为“我们都相信他”的过程中,输入文本中的“它”这个文本分词需要被删除,则“它”这个文本分词对应的编辑操作就是删除操作,可以标记为{d};输入文本中的“我们”这个文本分词需要被保留,则“我们”这个文本分词对应的编辑操作就是保留操作,可以标记为{k};输入文本中的“相信”这个文本分词的前面要插入“都”,则“相信”这个文本分词对应的编辑操作就是在文本分词的前面插入“都”,可以标记为{i_都};输入文本中的“小华”这个文本分词的需要替换为“他”,则“小华”这个文本分词对应的编辑操作就是将“小华”这个文本分词替换为“他”,可以标记为{s_他}。
具体实现中,服务器110获取原始样本集合的过程中,服务器110可以获取原始样本文本和对应的目标样本文本,然后,服务器110计算出原始样本文本被改写为目标样本文本时,原始样本文本中的每个文本分词对应的编辑操作,并将每个文本分词对应的编辑操作作为训练样本,构建原始样本集合。
实际应用中,每个样本具有对应的编辑操作标签。例如,对于“它”这个文本分词,原始样本集合可以包括编辑操作标签为{s_猫}的样本、编辑操作标签{s_狗}的样本、编辑操作标签{s_动物}的样本和编辑操作标签{s_床}的样本等等。
步骤S204,生成编辑操作标签的标签出现次数:标签出现次数为具有相同编辑操作标签的负样本的数量。
其中,标签出现次数为具有相同编辑操作标签的负样本的数量。
具体实现中,服务器110对原始样本集合进行统计,统计出编辑操作标签的标签出现次数即具有相同编辑操作标签的负样本的数量。
例如,假设原始样本文本被改写为目标样本文本的过程中,“它”这个词被替换了“猫”这个词的次数有6次,“它”这个词被替换了“狗”这个词的次数有5次,“它”这个词被替换了“动物”这个词的次数有2次。那么,在当服务器110对原始样本集合进行统计,统计出编辑操作标签的标签出现次数即具有相同编辑操作标签的负样本的数量后,可以得到,编辑操作标签为{s_猫}的负样本的数量为6,编辑操作标签为{s_狗}的负样本的数量为5和编辑操作标签为{s_动物}的负样本的数量为2。
步骤S206,根据标签出现次数,确定各个负样本对应的采样权重。
具体实现中,在服务器110对原始样本集合进行统计,统计出编辑操作标签的标签出现次数之后,服务器110可以根据标签出现次数为各个负样本分配对应的采样权重。实际应用中,负样本的编辑操作标签的标签出现次数越高,则该负样本对应的采样权重越大。
步骤S208,按照各个负样本对应的采样权重,对原始样本集合中的负样本进行采样,得到高频负样本。
其中,高频负样本可以指在原始样本集合中出现频率高的负样本。
具体实现中,服务器110在确定各个负样本对应的采样权重后,服务器110可以按照各个负样本对应的采样权重,对原始样本集合中的负样本进行采样,得到高频负样本。更具体地,服务器110可以在原始样本集合中,将采样权重大于预设权重阈值的负样本标记为高频负样本。
例如,假设已知对于“它”这个词,编辑操作标签为{s_猫}的负样本的采样权重为6,编辑操作标签为{s_狗}的负样本的采样权重为5、编辑操作标签为{s_动物}的负样本的采样权重为2,预设权重阈值可以为4,服务器110各个负样本对应的采样权重,对原始样本集合中的负样本进行采样,得到高频负样本为编辑操作标签为{s_猫}的负样本,编辑操作标签为{s_狗}的负样本。
步骤S210,将高频负样本和正样本组成优化样本集合;并基于优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;其中,优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作;各个文本分词对应的编辑操作用于对原始文本进行改写以生成改写后文本。
其中,优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作。
其中,原始文本可以是指未经过基于人工智能的文本处理的文本。
其中,原始文本包括至少两个的词语。例如,原始文本可以是一句话、由多句话组成的一段话、由多段话组成的一篇文章等。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
实际应用中,原始文本可以是需要进行翻译的文本、需要进行提炼摘要的文本、需要进行文本纠错的文本和需要进行机器阅读理解的文本等。
具体实现中,服务器110可以将原始样本集合中携带真实编辑操作标签的样本标记为正样本,然后,服务器110将高频负样本和正样本组成优化样本集合;并基于优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型。
具体来说,对于“它”这个词,服务器110将原始样本集合中携带真实编辑操作标签为{s_拉布拉多}的样本标记为正样本,然后,服务器110将编辑操作标签为{s_猫}的负样本,编辑操作标签为{s_狗}的负样本和编辑操作标签{s_拉布拉多}的正样本组成优化样本集合,并基于该优化样本集合,对初始文本改写模型进行训练,以使得到的优化文本改写模型,而优化文本改写模型的训练任务就是预测出针对上述各个样本的编辑操作标签的概率分布且编辑操作标签{s_拉布拉多}对应的概率为最大值。
上述的用于进行文本改写的模型训练方法,通过获取包括正样本和负样本的原始样本集合;其中,负样本具有编辑操作标签;然后,统计出具有相同编辑操作标签的负样本的数量,确定编辑操作标签的标签出现次数,以用于确定各个负样本对应的采样权重;再然后,按照各个负样本对应的采样权重,对原始样本集合中的负样本进行带权重的负样本采样以得到高频负样本:由此,通过基于由高频负样本和正样本组成优化样本集合,对初始文本改写模型进行训练,可以在减少对初始文本改写模型进行训练的样本使用量和训练过程中的数据处理量以提高训练速度的同时,保障了训练后得到优化文本改写模型对输入文本的改写效果,以提高文本处理过程中的文本改写效率。
另外,基于正样本和按照权重采样的高频负样本对初始文本改写模型进行训练,无需基于词量庞大的自然语言词表来预测出各个文本分词对应的编辑操作,可以有效地降低优化文本改写模型在生成原始文本中的各个文本分词对应的编辑操作过程中的数据计算量和数据计算难度,减少处理资源的占用,提高了文本改写模型在进行文本改写过程中的效率。
在一个实施例中,基于优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型,具体包括以下包括:构建初始文本改写模型;将优化样本集合输入至初始文本改写模型;根据初始文本改写模型输出的预测结果,对初始文本改写模型进行优化直至满足预设训练条件,得到优化文本改写模型。
其中,初始文本改写模型可以是指未经过训练的神经网络模型。
具体实现中,在服务器110基于优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型的过程中,具体包括如下步骤:首先,服务器110构建初始文本改写模型;然后,服务器110将优化样本集合输入至初始文本改写模型;最后,服务器110根据初始文本改写模型输出的预测结果,对初始文本改写模型进行优化直至满足预设训练条件,得到优化文本改写模型。具体来说,服务器110可以将优化样本集合中的正样本和多个负样本,依次输入至初始文本改写模型中,进而供初始文本改写模型针对各个样本输出对应的预测结果;然后,服务器110再通过根据各个样本对应的预测结果和各个样本对应的编辑操作标签之间的差异,对初始文本改写模型的模型参数进行调整,从而实现对初始文本改写模型进行优化,直至满足预设训练条件,得到优化文本改写模型。
具体来说,服务器110在对初始文本改写模型进行迭代优化的过程中,服务器110可以获取初始文本改写模型的损失参数,以及,获取上一次迭代训练过程中确定的初始文本改写模型的损失参数;然后,服务器110计算出初始文本改写模型的损失参数与上一次迭代训练过程中确定的初始文本改写模型的损失参数之间出参数差值;当服务器110确定差值小于预设差值阈值时,说明训练后的初始文本改写模型收敛,此时服务器110判定该训练后的初始文本改写满足预设训练条件,模型训练完成,将训练后的初始文本改写模型,作为上述的优化文本改写模型。
另外,服务器110还可以获取对初始文本改写模型进行训练过程中的模型训练迭代次数,当模型训练迭代次数大于预设的训练次数阈值时,此时服务器110判定该训练后的初始文本改写满足预设训练条件,模型训练完成,将训练后的初始文本改写模型,作为上述的优化文本改写模型。
本实施例提供的技术方案,通过在基于优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型的过程中,通过将优化样本集合输入至初始文本改写模型,并根据初始文本改写模型输出的预测结果,对初始文本改写模型对进行不断地优化,使得得到的优化文本改写模型可以准确地生成原始文本中的各个文本分词对应的编辑操作,进而根据各个文本分词对应的编辑操作准确地对原始文本进行改写。
在一个实施例中,如图3所示,根据初始文本改写模型输出的预测结果,对始文本改写模型进行优化,具体包括以下步骤:步骤S302,根据初始文本改写模型输出的预测结果,确定初始文本改写模型的损失参数;步骤S304,根据损失参数,对初始文本改写模型的模型参数进行求偏导,得到针对模型参数的偏导数;步骤S306,根据模型参数的偏导数,更新初始文本改写模型的模型参数,以优化初始文本改写模型。
具体实现中,在服务器110根据初始文本改写模型输出的预测结果,对始文本改写模型进行优化的过程中,具体包括如下步骤:服务器110根据初始文本改写模型输出的预测结果,确定初始文本改写模型的损失参数。具体来说,服务器110可以将优化样本集合中的正样本和多个负样本,依次输入至初始文本改写模型中,进而供初始文本改写模型针对各个样本输出对应的预测结果;然后,服务器110再通过每个样本对应的预测结果和每个样本对应的编辑操作标签之间的误差,作为初始文本改写模型的损失参数。
然后,服务器110基于神经网络的链式法则,根据初始文本改写模型的损失参数,对初始文本改写模型的模型参数进行求偏导,得到针对模型参数的偏导数;最后,服务器110采用随机梯度下降法,根据模型参数的偏导数,更新初始文本改写模型的模型参数。
本实施例提供的技术方案,在根据初始文本改写模型输出的预测结果,对始文本改写模型进行优化的过程中,通过根据初始文本改写模型输出的预测结果,确定初始文本改写模型的损失参数,并根据该损失参数,对初始文本改写模型的模型参数进行求偏导,得到针对模型参数的偏导数;进而使用该模型参数的偏导数对初始文本改写模型的模型参数进行准确地更新,使得生成的优化文本改写模型可以准确地生成原始文本中的各个文本分词对应的编辑操作。
如图4所示,在另一个实施例中,提供了一种用于进行文本改写的模型训练方法。参照图4,该文本改写方法具体包括如下步骤;步骤S402,获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签。步骤S404,生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量。步骤S406,根据所述标签出现次数,确定各个所述负样本对应的采样权重。步骤S408,在所述原始样本集合中,将所述采样权重大于预设权重阈值的负样本标记为所述高频负样本。步骤S410,将所述原始样本集合中携带真实编辑操作标签的样本标记为所述正样本:并将所述高频负样本和所述正样本组成优化样本集合。步骤S412,构建所述初始文本改写模型,并将所述优化样本集合输入至所述初始文本改写模型。步骤S414,根据所述初始文本改写模型输出的预测结果,确定所述初始文本改写模型的损失参数。步骤S416,根据所述损失参数,对所述初始文本改写模型的模型参数进行求偏导,得到针对所述模型参数的偏导数。步骤S418,根据所述模型参数的偏导数,更新所述初始文本改写模型的模型参数,以优化所述初始文本改写模型直至确定所述初始文本改写模型的损失参数与上一次迭代训练过程中确定的初始文本改写模型的损失参数之间的差值小于预设差值阈值,得到优化文本改写模型。上述步骤的具体限定可以参见上文对一种用于进行文本改写的模型训练方法的具体限定,在此不再赘述。
本申请还提供的一种文本改写方法,也可以应用于如图1所示的应用环境中。其中,服务器110获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;然后,服务器110生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;再然后,服务器110根据所述标签出现次数,确定各个所述负样本对应的采样权重;再然后,服务器110按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:再然后,服务器110将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;再然后,服务器110获取原始文本,并将所述原始文本输入至所述优化文本改写模型;通过所述优化文本改写模型,生成所述原始文本中的各个文本分词对应的编辑操作;最后,服务器110根据所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。
在一个实施例中,如图5所示,提供了一种文本改写方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:步骤S502,获取原始样本集合;原始样本集合包括正样本和负样本;负样本具有编辑操作标签。步骤S504,生成编辑操作标签的标签出现次数:标签出现次数为具有相同编辑操作标签的负样本的数量。步骤S506,根据标签出现次数,确定各个负样本对应的采样权重。步骤S508,按照各个负样本对应的采样权重,对原始样本集合中的负样本进行采样,得到高频负样本。步骤S510,将高频负样本和正样本组成优化样本集合;并基于优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型。上述步骤的具体限定可以参见上文对一种用于进行文本改写的模型训练方法的具体限定,在此不再赘述。
步骤S512,获取原始文本,并将原始文本输入至优化文本改写模型。
具体实现中,当用户需要对原始文本进行文本处理(例如需要对原始文本进行提炼摘要)时,用户可以将原始文本录入至服务器110中,以使服务器110获取原始文本。当服务器110获取原始文本后,服务器110可以将原始文本中的各个文本分词对应的词向量输入至优化文本改写模型,以使优化文本改写模型对各个文本分词对应的词向量进行处理。
步骤S514,通过优化文本改写模型,生成原始文本中的各个文本分词对应的编辑操作。
具体实现中,服务器110通过优化文本改写模型,获取各个文本分词在原始文本中的上下文信息,然后,再根据各个文本分词在原始文本中的上下文信息,确定各个文本分词对应的编辑操作。
例如,服务器110将原始文本“主人公Jack是一名二十多岁的男性”输入至优化文本改写模型后,通过优化文本改写模型的数据处理,确定各个文本分词对应的编辑操作即文本分词“主人公”对应的编辑操作为删除;文本分词“是”对应的编辑操作为保留;文本分词“一名”对应的编辑操作为替换为“一位”;文本分词“二十多岁的”对应的编辑操作为删除;文本分词“男性”对应的编辑标记为在文本分词“男性”的前面插入“青年”。
步骤S516,根据各个文本分词对应的编辑操作,对原始文本进行改写,得到改写后文本。
其中,在根据各个文本分词对应的编辑操作,对原始文本进行改写,得到改写后文本的过程中,具体包括:根据各个文本分词对应的编辑操作,确定各个文本分词对应的目标文本分词;在原始文本中,将文本分词替换为文本分词对应的目标文本分词。
具体实现中,当服务器110确定文本分词对应的编辑操作后,服务器110可以对原始文本进行改写,得到改写后文本。具体来说,服务器110根据各个文本分词对应的编辑操作,确定各个文本分词对应的目标文本分词;在原始文本中,将文本分词替换为文本分词对应的目标文本分词。
再接上例,服务器110在原始文本“主人公Jack是一名二十多岁的男性”的基础上,将文本分词“主人公”“二十多岁的”对应的编辑操作为删除操作,则文本分词“主人公”“二十多岁的”对应的目标文本分词均为空词null。将文本分词“Jack”“是”进行保留,则文本分词“Jack”“是”对应的目标文本分词分别为“Jack”“是”即保持不变。文本分词“一名”对应的编辑操作为替换操作,则文本分词“一名”对应的目标文本分词为“一位”;文本分词“青年”对应的编辑操作为插入操作,则文本分词“男性”对应的目标文本分词为“青年男性”。然后,服务器110在原始文本中,将文本分词替换为文本分词对应的目标文本分词,得到改写后文本“Jack是一位青年男性”。
上述的一种文本改写方法,通过获取包括正样本和负样本的原始样本集合;其中,负样本具有编辑操作标签;然后,统计出具有相同编辑操作标签的负样本的数量,确定编辑操作标签的标签出现次数,以用于确定各个负样本对应的采样权重;再然后,按照各个负样本对应的采样权重,对原始样本集合中的负样本进行带权重的负样本采样以得到高频负样本:由此,通过基于由高频负样本和正样本组成优化样本集合,对初始文本改写模型进行训练,可以在减少对初始文本改写模型进行训练的样本使用量和训练过程中的数据处理量以提高训练速度的同时,保障了训练后得到优化文本改写模型对输入文本的改写效果,以提高文本处理过程中的文本改写效率。
另外,基于正样本和按照权重采样的高频负样本对初始文本改写模型进行训练,还可以有效地降低优化文本改写模型在生成原始文本中的各个文本分词对应的编辑操作过程中的计算数据量,降低优化文本改写模型的预测难度,从而可以准确地生成原始文本中的各个文本分词对应的编辑操作以对原始文本进行改写,提高了文本改写模型在进行文本处理过程中的效率。
图7还提供一种文本改写系统,其中,该文本改写系统包括用户终端710和文本改写服务器720;其中,用户终端710可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,文本改写服务器720可以用独立的服务器或者是多个服务器组成的服务器集群来实现。实际应用中,当用户需要获取原始文本对应的改写后文本时,用户可以在用户终端710向文本改写服务器720发送原始文本;当文本改写服务器720接收到原始文本后,文本改写服务器720将原始文本输入至优化文本改写模型;其中,优化文本改写模型是基于高频负样本和正样本组成的优化样本集合训练得到的;高频负样本是按照各个负样本对应的采样权重对原始样本集合中的负样本进行采样得到的;各个负样本对应的采样权重是根据原始样本集合中具有相同编辑操作标签的负样本的数量得到的;然后,文本改写服务器720通过优化文本改写模型,生成原始文本中的各个文本分词对应的编辑操作;文本改写服务器720根据各个文本分词对应的编辑操作,对原始文本进行改写,得到改写后文本,并将改写后文本发送至用户终端710,以供用户终端710进行接收。
上述的文本改写方法可以应用于摘要提取场景,为了便于本领域技术人员的理解,图8A提供了一种应用于摘要提取场景的交互界面示意图;其中,810为原始文本输入框,820为摘要提取确认控件,830为摘要文本框。实际应用中,当用户原始文本“主人公Jack是一名二十多岁的男性”对应的摘要时,用户可以通过用户终端710将原始文本“主人公Jack是一名二十多岁的男性”录入至交互界面中的原始文本输入框810中,然后,用户对交互界面中的摘要提取确认控件820进行触发操作,例如,点击摘要提取确认控件等。用户终端710响应用户针对摘要提取确认控件的触发操作,将原始文本发送至文本改写服务器720,以供文本改写服务器720进行接收,当文本改写服务器720接收到原始文本后,文本改写服务器720通过优化文本改写模型,生成原始文本中的各个文本分词对应的编辑操作,对原始文本进行改写,得到改写后文本即原始文本对应的摘要“Jack是一位青年男性”;并将改写后文本发送至用户终端710,以供用户终端710进行接收。在用户终端710接收到改写后文本后,用户终端710根据改写后文本生成并在交互界面中的展示摘要文本框830。其中,摘要文本框830包括改写后文本对应的文本内容即“Jack是一位青年男性”。
上述的文本改写方法还可以应用于文本纠错场景,为了便于本领域技术人员的理解,图8B提供了一种应用于文本纠错场景的交互界面示意图;其中,840为原始文本输入框,850为文本纠错确认控件,860为纠错后文本框。实际应用中,当用户待纠错文本即原始文本“这位是刘先生,他它是我们的同是”进行纠错时,用户可以通过用户终端710将原始文本“这位是刘先生,他它是我们的同是”录入至交互界面中的原始文本输入框840中,然后,用户对交互界面中的文本纠错确认控件850进行触发操作,例如,点击文本纠错确认控件等。用户终端710响应用户针对文本纠错确认控件的触发操作,将原始文本发送至文本改写服务器720,以供文本改写服务器720进行接收,当文本改写服务器720接收到原始文本后,文本改写服务器720通过优化文本改写模型,生成原始文本中的各个文本分词对应的编辑操作,对原始文本进行改写,得到改写后文本即原始文本对应的纠错后文本“这位是刘先生,他是我们的同事”;并将改写后文本发送至用户终端710,以供用户终端710进行接收。在用户终端710接收到改写后文本后,用户终端710根据改写后文本生成并在交互界面中的展示纠错后文本框860;其中,纠错后文本框860包括改写后文本对应的文本内容即“这位是刘先生,他是我们的同事”。
在一个实施例中,通过优化文本改写模型,生成原始文本中的各个文本分词对应的编辑操作,包括:通过优化文本改写模型的编码层,获取各个文本分词在原始文本中各自对应的上下文信息;通过优化文本改写模型的分类层,根据各个文本分词的上下文信息,生成各个文本分词对应的编辑操作。
其中,上下文信息可以是指文本分词在原始文本中语意对应的信息。
具体实现中,服务器110在通过优化文本改写模型,生成原始文本中的各个文本分词对应的编辑操作的过程中,具体包括如下步骤:服务器110将原始文本输入至至优化文本改写模型的编码层,通过优化文本改写模型的编码层,提取出各个文本分词在原始文本中各自对应的上下文信息。实际应用中,优化文本改写模型的编码层可以采用CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)、bert(Bidirectional Encoder Representations from Transformers,一种自然语言处理模型)、GPT(一种自然语言处理模型)等。
再然后,服务器110再将各个文本分词在原始文本中各自对应的上下文信息输入至,优化文本改写模型的分类层;通过优化文本改写模型的分类层,根据各个文本分词的上下文信息,对各个文本分词进行分类操作,确定各个文本分词对应的编辑操作。
本实施例的技术方案,在通过优化文本改写模型,生成原始文本中的各个文本分词对应的编辑操作的过程中,通过优化文本改写模型的编码层,使得可以对原始文本中的各个文本分词之间的表示进行充分融合,从而准确地提取出各个文本分词在原始文本中各自对应的上下文信息,进而可以通过优化文本改写模型的分类层,对各个文本分词的上下文信息进行分类,准确地确定各个文本分词对应的编辑操作。
在一个实施例中,通过优化文本改写模型的编码层,获取各个文本分词在原始文本中各自对应的上下文信息,包括:获取原始文本中各个文本分词对应的词向量;将各个文本分词对应的词向量,按序输入至优化文本改写模型的编码层;通过优化文本改写模型的编码层,依次对各个文本分词对应的词向量进行编码操作,得到各个文本分词对应的文本编码向量;文本编码向量包括对应文本分词在原始文本中的上下文信息。
具体实现中,服务器110在通过优化文本改写模型的编码层,获取各个文本分词在原始文本中各自对应的上下文信息的过程中,具体包括如下步骤:服务器110获取原始文本中各个文本分词对应的词向量;然后,服务器110将每个文本分词对应的词向量按照其在原始文本中的文本分词顺序,输入至优化文本改写模型的编码层。最后,服务器110通过优化文本改写模型中的解码层,依次对每个文本分词对应的词向量进行解码,得到每个文本分词对应的文本解码向量。
本实施例的技术方案,在通过优化文本改写模型的编码层获取各个文本分词在原始文本中各自对应的上下文信息的过程中,通过使用优化文本改写模型的编码层,依次对各个文本分词对应的词向量进行编码操作,使得可以对原始文本中的各个文本分词之间的表示进行充分融合,使得优化文本改写模型的编码层输出的每个文本分词对应的文本解码向量可以准确地表达出各个文本分词在原始文本中的上下文信息。
在一个实施例中,通过优化文本改写模型的分类层,根据各个文本分词的上下文信息,生成各个文本分词对应的编辑操作,包括:将各个文本分词对应的文本编码向量,输入至优化文本改写模型的分类层;通过优化文本改写模型的分类层,对每个文本分词对应的文本解码向量进行分类,得到每个文本分词对应的分类结果;根据每个文本分词对应的分类结果,生成每个文本分词对应的编辑操作;编辑操作包括文本分词对应的目标编辑方式和文本分词对应的目标文本分词中的至少一种。
具体实现中,服务器110在通过优化文本改写模型的分类层,根据各个文本分词的上下文信息,生成各个文本分词对应的编辑操作的过程中,具体包括如下步骤:服务器110首先将优化文本改写模型的编码层输出的各个文本分词对应的文本编码向量,输入至优化文本改写模型的分类层;通过优化文本改写模型的分类层,对每个文本分词对应的文本解码向量进行分类,得到每个文本分词对应的分类结果;最后,服务器110再根据每个文本分词对应的分类结果,生成每个文本分词对应的编辑标记。
具体来说,服务器110优化文本改写模型的分类层,对每个文本分词对应的第一文本解码向量进行四分类操作,确定出每个文本分词的各个候选编辑操作对应的概率值即每个文本分词对应的分类结果;最后,计算机设备110再根据每个文本分词对应的分类结果,将概率值最高的候选编辑操作,标记为对应文本分词的编辑操作。
本实施例的技术方案,在通过优化文本改写模型的分类层,根据各个文本分词的上下文信息,生成各个文本分词对应的编辑操作的过程中,通过使用优化文本改写模型的分类层对表达出各个文本分词在原始文本中的上下文信息的文本解码向量进行准确地进行分类操作,进而准确地预测出每个文本分词对应的编辑操作,便于后续对原始文本进行改写操作,生成改写后文本。
如图9所示,在另一个实施例中,提供了一种文本改写方法。参照图9,该文本改写方法具体包括如下步骤;步骤S902,获取原始文本,并将所述原始文本输入至所述优化文本改写模型。步骤S904,获取所述原始文本中各个文本分词对应的词向量。步骤S906,将各个所述文本分词对应的词向量,按序输入至所述优化文本改写模型的编码层。步骤S908,通过所述优化文本改写模型的编码层,依次对各个所述文本分词对应的词向量进行编码操作,得到各个所述文本分词对应的文本编码向量;所述文本编码向量包括对应所述文本分词在所述原始文本中的上下文信息。步骤S910,将各个所述文本分词对应的文本编码向量,输入至所述优化文本改写模型的分类层。步骤S912,通过所述优化文本改写模型的分类层,对每个所述文本分词对应的文本解码向量进行分类,得到每个所述文本分词对应的分类结果。步骤S914,根据每个所述文本分词对应的分类结果,生成每个所述文本分词对应的编辑操作。步骤S916,根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。上述步骤的具体限定可以参见上文对一种文本改写方法的具体限定,在此不再赘述。
在一个实施例中,所述获取所述原始文本中各个所述文本分词对应的词向量,包括:对所述原始文本的文本内容进行分词处理,得到文本分词结果;通过预训练的词向量生成模型,对所述文本分词结果中的各个分词进行向量化处理,确定每个所述文本分词对应的词向量。
其中,文本分词结果包括各个文本分词。
具体实现中,服务器110在获取每个文本分词对应的词向量的过程中,具体包括如下步骤:服务器110对原始文本的文本内容进行分词处理,得到文本分词结果;最后,服务器110对文本分词结果中的各个文本分词进行向量化处理,确定每个文本分词对应的词向量。具体地,服务器110可以文本分词结果中的各个文本分词输入至预训练的词向量生成模型,通过该词向量生成模型,对每个文本分词进行向量化处理,输出每个文本分词对应的词向量。
实际应用中,词向量生成模型可以是基于上亿次query(一种机器训练方法)预训练得到的word2vec模型(一群用来产生词向量的相关模型)。如此,word2vec模型可以在保留原始文本中每个文本分词的含义的同时将原始文本中每个文本分词转化为对应的词向量。
本实施例的技术方案,在获取每个文本分词对应的词向量的过程中,通过对原始文本的文本内容进行分词处理,得到文本分词结果;并对文本分词结果中的各个文本分词进行向量化处理,从而可以在保留原始文本中每个文本分词的含义的同时将每个文本分词转化为对应的词向量,便于后续的数据处理,提高了文本处理过程中的处理效率。
如图10所示,在一个实施例中,提供了另一种文本改写方法。参照图10,该文本改写方法具体包括如下步骤;步骤S1002,获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签。步骤S1004,生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量,并根据所述标签出现次数,确定各个所述负样本对应的采样权重。步骤S1006,按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本。步骤S1008,将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型。步骤S1010,获取原始文本,并将所述原始文本输入至所述优化文本改写模型。步骤S1012,对所述原始文本的文本内容进行分词处理,得到文本分词结果。步骤S1014,通过预训练的词向量生成模型,对所述文本分词结果中的各个分词进行向量化处理,确定每个所述文本分词对应的词向量。步骤S1016,将各个所述文本分词对应的词向量,按序输入至所述优化文本改写模型的编码层。步骤S1018,通过所述优化文本改写模型的编码层,依次对各个所述文本分词对应的词向量进行编码操作,得到各个所述文本分词对应的文本编码向量;所述文本编码向量包括对应所述文本分词在所述原始文本中的上下文信息。步骤S1020,根据各个所述文本分词的上下文信息,生成各个所述文本分词对应的编辑操作。步骤S1022,根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。上述步骤的具体限定可以参见上文对一种文本改写方法的具体限定,在此不再赘述。
应该理解的是,虽然图2、图3、图4、图5、图9和图10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图3、图4、图5、图9和图10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
为了便于本领域技术人员的理解,图11提供了一种优化文本改写模型的网络结构示意图;其中,优化文本改写模型包括编码层和分类层,xi为原始文本中的第i个文本分词,yi为原始文本中的第i个文本分词对应的编辑操作。实际应用中,计算机设备110将原始文本中的每个文本分词x对应的词向量按序输入至优化文本改写模型;通过优化文本改写模型的解码层,依次对每个文本分词x对应的词向量进行解码,得到每个文本分词x对应的文本解码向量;然后,将每个文本分词x对应的文本解码向量输入至优化文本改写模型的分类层;通过优化文本改写模型的分类层,对每个文本分词x对应的文本解码向量进行分类,得到每个文本分词x对应的编辑操作y。
在一个实施例中,如图12所示,提供了一种用于进行文本改写的模型训练装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:样本获取模块1210、统计模块1220、权重确定模块1230、采样模块1240、训练模块1250,其中:
样本获取模块1210,用于获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
统计模块1220,用于生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
权重确定模块1230,用于根据所述标签出现次数,确定各个所述负样本对应的采样权重;
采样模块1240,用于按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
训练模块1250,用于将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;其中,所述优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作;所述文本分词对应的编辑操作用于对所述原始文本进行改写以生成改写后文本。
上述的用于进行文本改写的模型训练装置,通过获取包括正样本和负样本的原始样本集合;其中,负样本具有编辑操作标签;然后,统计出具有相同编辑操作标签的负样本的数量,确定编辑操作标签的标签出现次数,以用于确定各个负样本对应的采样权重;再然后,按照各个负样本对应的采样权重,对原始样本集合中的负样本进行带权重的负样本采样以得到高频负样本:由此,通过基于由高频负样本和正样本组成优化样本集合,对初始文本改写模型进行训练,可以在减少对初始文本改写模型进行训练的样本使用量和训练过程中的数据处理量以提高训练速度的同时,保障了训练后得到优化文本改写模型对输入文本的改写效果,以提高文本处理过程中的文本改写效率。
在其中一个实施例中,上述的采样模块1230,具体用于在所述原始样本集合中,将所述采样权重大于预设权重阈值的负样本标记为所述高频负样本。
在其中一个实施例中,上述的样本获取模块1210,具体用于将所述原始样本集合中携带真实编辑操作标签的样本标记为所述正样本。
在其中一个实施例中,上述的训练模块1250,具体用于构建所述初始文本改写模型;将所述优化样本集合输入至所述初始文本改写模型;根据所述初始文本改写模型输出的预测结果,对所述初始文本改写模型进行优化直至满足预设训练条件,得到所述优化文本改写模型。
在其中一个实施例中,上述的训练模块1250,具体用于根据所述初始文本改写模型输出的预测结果,确定所述初始文本改写模型的损失参数;根据所述损失参数,对所述初始文本改写模型的模型参数进行求偏导,得到针对所述模型参数的偏导数;根据所述模型参数的偏导数,更新所述初始文本改写模型的模型参数,以优化所述初始文本改写模型。
在其中一个实施例中,上述的训练模块1250,具体用于当确定所述初始文本改写模型的损失参数与上一次迭代训练过程中确定的初始文本改写模型的损失参数之间的差值小于预设差值阈值时,判定迭代训练满足所述预设训练条件。
在其中一个实施例中,上述的用于进行文本改写的模型训练装置,还包括:
文本获取模块,用于获取原始文本,并将所述原始文本输入至所述优化文本改写模型;
生成模块,用于通过所述优化文本改写模型,生成所述原始文本中的各个文本分词对应的编辑操作;
改写模块,用于根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。
在其中一个实施例中,上述的改写模块,具体用于根据各个所述文本分词对应的编辑操作,确定各个所述文本分词对应的目标文本分词;在所述原始文本中,将所述文本分词替换为所述文本分词对应的目标文本分词。
在其中一个实施例中,上述的生成模块,具体用于通过所述优化文本改写模型的编码层,获取各个所述文本分词在所述原始文本中各自对应的上下文信息;通过所述优化文本改写模型的分类层,根据各个所述文本分词的上下文信息,生成各个所述文本分词对应的编辑操作。
在其中一个实施例中,上述的生成模块,具体用于获取所述原始文本中各个所述文本分词对应的词向量;将各个所述文本分词对应的词向量,按序输入至所述优化文本改写模型的编码层;通过所述优化文本改写模型的编码层,依次对各个所述文本分词对应的词向量进行编码操作,得到各个所述文本分词对应的文本编码向量;所述文本编码向量包括对应所述文本分词在所述原始文本中的上下文信息。
在其中一个实施例中,上述的生成模块,具体用于将各个所述文本分词对应的文本编码向量,输入至所述优化文本改写模型的分类层;通过所述优化文本改写模型的分类层,对每个所述文本分词对应的文本解码向量进行分类,得到每个所述文本分词对应的分类结果;根据每个所述文本分词对应的分类结果,生成每个所述文本分词对应的编辑操作。
在其中一个实施例中,上述的生成模块,具体用于对所述原始文本的文本内容进行分词处理,得到文本分词结果;通过预训练的词向量生成模型,对所述文本分词结果中的各个分词进行向量化处理,确定每个所述文本分词对应的词向量。
关于用于进行文本改写的模型训练装置的具体限定可以参见上文中对于用于进行文本改写的模型训练方法的限定,在此不再赘述。上述用于进行文本改写的模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图13所示,提供了一种文本改写装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:样本获取模块1310、统计模块1320、权重确定模块1330、采样模块1340、训练模块1350、原始文本获取模块1360、生成模块1370和改写模块1380,其中:
样本获取模块1310,用于获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
统计模块1320,用于生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
权重确定模块1330,用于根据所述标签出现次数,确定各个所述负样本对应的采样权重;
采样模块1340,用于按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
训练模块1350,用于将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;
原始文本获取模块1360,用于获取原始文本,并将所述原始文本输入至所述优化文本改写模型;
生成模块1370,用于通过所述优化文本改写模型,生成所述原始文本中的各个文本分词对应的编辑操作;
改写模块1380,用于根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。
上述的一种文本改写装置,通过获取包括正样本和负样本的原始样本集合;其中,负样本具有编辑操作标签;然后,统计出具有相同编辑操作标签的负样本的数量,确定编辑操作标签的标签出现次数,以用于确定各个负样本对应的采样权重;再然后,按照各个负样本对应的采样权重,对原始样本集合中的负样本进行带权重的负样本采样以得到高频负样本:由此,通过基于由高频负样本和正样本组成优化样本集合,对初始文本改写模型进行训练,可以在减少对初始文本改写模型进行训练的样本使用量和训练过程中的数据处理量以提高训练速度的同时,保障了训练后得到优化文本改写模型对输入文本的改写效果,以提高文本处理过程中的文本改写效率。
另外,基于正样本和按照权重采样的高频负样本对初始文本改写模型进行训练,无需基于词量庞大的自然语言词表来预测出各个文本分词对应的编辑操作,可以有效地降低优化文本改写模型在生成原始文本中的各个文本分词对应的编辑操作过程中的数据计算量和数据计算难度,减少处理资源的占用,提高了文本改写模型在进行文本改写过程中的效率。
在其中一个实施例中,生成模块1370,具体用于通过所述优化文本改写模型的编码层,获取各个所述文本分词在所述原始文本中各自对应的上下文信息;通过所述优化文本改写模型的分类层,根据各个所述文本分词的上下文信息,生成各个所述文本分词对应的编辑操作。
在其中一个实施例中,生成模块1370,具体用于获取所述原始文本中各个所述文本分词对应的词向量;将各个所述文本分词对应的词向量,按序输入至所述优化文本改写模型的编码层;通过所述优化文本改写模型的编码层,依次对各个所述文本分词对应的词向量进行编码操作,得到各个所述文本分词对应的文本编码向量;所述文本编码向量包括对应所述文本分词在所述原始文本中的上下文信息。
在其中一个实施例中,生成模块1370,具体用于将各个所述文本分词对应的文本编码向量,输入至所述优化文本改写模型的分类层;通过所述优化文本改写模型的分类层,对每个所述文本分词对应的文本解码向量进行分类,得到每个所述文本分词对应的分类结果;根据每个所述文本分词对应的分类结果,生成每个所述文本分词对应的编辑操作。
在其中一个实施例中,生成模块1370,具体用于对所述原始文本的文本内容进行分词处理,得到文本分词结果;通过预训练的词向量生成模型,对所述文本分词结果中的各个分词进行向量化处理,确定每个所述文本分词对应的词向量。
关于文本改写装置的具体限定可以参见上文中对于用于进行文本改写的模型训练方法的限定,在此不再赘述。上述文本改写装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用于进行文本改写的模型训练方数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于进行文本改写的模型训练方法和文本改写方法。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种用于进行文本改写的模型训练方法,所述方法包括:
获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
根据所述标签出现次数,确定各个所述负样本对应的采样权重;
按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;其中,所述优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作;所述文本分词对应的编辑操作用于对所述原始文本进行改写以生成改写后文本。
2.根据权利要求1所述的方法,其特征在于,所述按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本,包括:
在所述原始样本集合中,将所述采样权重大于预设权重阈值的负样本标记为所述高频负样本。
3.根据权利要求1所述的方法,其特征在于,所述获取原始样本集合,包括:
将所述原始样本集合中携带真实编辑操作标签的样本标记为所述正样本。
4.根据权利要求1所述的方法,其特征在于,所述基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型,包括:
构建所述初始文本改写模型;
将所述优化样本集合输入至所述初始文本改写模型;
根据所述初始文本改写模型输出的预测结果,对所述初始文本改写模型进行优化直至满足预设训练条件,得到所述优化文本改写模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述初始文本改写模型输出的预测结果,对所述始文本改写模型进行优化,包括:
根据所述初始文本改写模型输出的预测结果,确定所述初始文本改写模型的损失参数;
根据所述损失参数,对所述初始文本改写模型的模型参数进行求偏导,得到针对所述模型参数的偏导数;
根据所述模型参数的偏导数,更新所述初始文本改写模型的模型参数,以优化所述初始文本改写模型。
6.根据权利要求4所述的方法,其特征在于,还包括:
当确定所述初始文本改写模型的损失参数与上一次迭代训练过程中确定的初始文本改写模型的损失参数之间的差值小于预设差值阈值时,判定迭代训练满足所述预设训练条件。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取原始文本,并将所述原始文本输入至所述优化文本改写模型;
通过所述优化文本改写模型,生成所述原始文本中的各个文本分词对应的编辑操作;
根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本。
8.根据权利要求7所述的方法,其特征在于,所述根据各个所述文本分词对应的编辑操作,对所述原始文本进行改写,得到改写后文本,包括:
根据各个所述文本分词对应的编辑操作,确定各个所述文本分词对应的目标文本分词;
在所述原始文本中,将所述文本分词替换为所述文本分词对应的目标文本分词。
9.根据权利要求7所述的方法,其特征在于,所述通过所述优化文本改写模型,生成所述原始文本中的各个文本分词对应的编辑操作,包括:
通过所述优化文本改写模型的编码层,获取各个所述文本分词在所述原始文本中各自对应的上下文信息;
通过所述优化文本改写模型的分类层,根据各个所述文本分词的上下文信息,生成各个所述文本分词对应的编辑操作。
10.根据权利要求8所述的方法,其特征在于,所述通过所述优化文本改写模型的编码层,获取各个所述文本分词在所述原始文本中各自对应的上下文信息,包括:
获取所述原始文本中各个所述文本分词对应的词向量;
将各个所述文本分词对应的词向量,按序输入至所述优化文本改写模型的编码层;
通过所述优化文本改写模型的编码层,依次对各个所述文本分词对应的词向量进行编码操作,得到各个所述文本分词对应的文本编码向量;所述文本编码向量包括对应所述文本分词在所述原始文本中的上下文信息。
11.根据权利要求9所述的方法,其特征在于,所述通过所述优化文本改写模型的分类层,根据各个所述文本分词的上下文信息,生成各个所述文本分词对应的编辑操作,包括:
将各个所述文本分词对应的文本编码向量,输入至所述优化文本改写模型的分类层;
通过所述优化文本改写模型的分类层,对每个所述文本分词对应的文本解码向量进行分类,得到每个所述文本分词对应的分类结果;
根据每个所述文本分词对应的分类结果,生成每个所述文本分词对应的编辑操作。
12.一种用于进行文本改写的模型训练装置,其特征在于,包括:
样本获取模块,用于获取原始样本集合;所述原始样本集合包括正样本和负样本;所述负样本具有编辑操作标签;
统计模块,用于生成所述编辑操作标签的标签出现次数:所述标签出现次数为具有相同所述编辑操作标签的负样本的数量;
权重确定模块,用于根据所述标签出现次数,确定各个所述负样本对应的采样权重;
采样模块,用于按照各个所述负样本对应的采样权重,对所述原始样本集合中的负样本进行采样,得到高频负样本:
训练模块,用于将所述高频负样本和所述正样本组成优化样本集合;并基于所述优化样本集合,对初始文本改写模型进行训练,得到优化文本改写模型;其中,所述优化文本改写模型用于生成原始文本中的各个文本分词对应的编辑操作;所述文本分词对应的编辑操作用于对所述原始文本进行改写以生成改写后文本。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述方法的步骤。
14.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202010158722.5A 2020-03-09 2020-03-09 模型训练、文本改写方法、装置和存储介质 Active CN111353282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010158722.5A CN111353282B (zh) 2020-03-09 2020-03-09 模型训练、文本改写方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010158722.5A CN111353282B (zh) 2020-03-09 2020-03-09 模型训练、文本改写方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN111353282A CN111353282A (zh) 2020-06-30
CN111353282B true CN111353282B (zh) 2023-08-22

Family

ID=71192646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010158722.5A Active CN111353282B (zh) 2020-03-09 2020-03-09 模型训练、文本改写方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN111353282B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
CN108733647A (zh) * 2018-04-13 2018-11-02 中山大学 一种基于高斯分布的词向量生成方法
WO2019127924A1 (zh) * 2017-12-29 2019-07-04 深圳云天励飞技术有限公司 样本权重分配方法、模型训练方法、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
WO2019127924A1 (zh) * 2017-12-29 2019-07-04 深圳云天励飞技术有限公司 样本权重分配方法、模型训练方法、电子设备及存储介质
CN108733647A (zh) * 2018-04-13 2018-11-02 中山大学 一种基于高斯分布的词向量生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔萌 等.基于不同语料的词向量对比分析.兰州理工大学学报.2017,第43卷(第3期),第112-116页. *

Also Published As

Publication number Publication date
CN111353282A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN107608970B (zh) 词性标注模型生成方法和装置
CN110990273B (zh) 克隆代码检测方法及装置
CN112214604A (zh) 文本分类模型的训练方法、文本分类方法、装置及设备
CN108920461B (zh) 一种多类型且含复杂关系的实体抽取方法及装置
CN111222317A (zh) 序列标注方法、系统和计算机设备
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111062215A (zh) 基于半监督学习训练的命名实体识别方法和装置
CN113678149B (zh) 用于对注释和编辑关系进行建模的架构
CN112766319B (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
JP7457125B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN107451106A (zh) 文本纠正方法及装置、电子设备
CN113487028A (zh) 知识蒸馏方法、装置、终端设备及介质
CN112259247A (zh) 对抗网络训练、医疗数据补充方法、装置、设备及介质
CN111737974A (zh) 一种语句的语义抽象化表示方法及装置
CN112052329A (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
CN113569061A (zh) 一种提高知识图谱补全精度的方法与系统
CN115934147A (zh) 软件自动修复方法、系统、电子设备及存储介质
CN111368531B (zh) 翻译文本处理方法、装置、计算机设备和存储介质
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN111353282B (zh) 模型训练、文本改写方法、装置和存储介质
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN111401032B (zh) 文本处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024097

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant