CN109614492A - 基于人工智能的文本数据增强方法、装置、设备及存储介质 - Google Patents

基于人工智能的文本数据增强方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109614492A
CN109614492A CN201811641967.2A CN201811641967A CN109614492A CN 109614492 A CN109614492 A CN 109614492A CN 201811641967 A CN201811641967 A CN 201811641967A CN 109614492 A CN109614492 A CN 109614492A
Authority
CN
China
Prior art keywords
text
fluency
word order
output
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811641967.2A
Other languages
English (en)
Other versions
CN109614492B (zh
Inventor
金戈
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811641967.2A priority Critical patent/CN109614492B/zh
Publication of CN109614492A publication Critical patent/CN109614492A/zh
Priority to PCT/CN2019/103684 priority patent/WO2020134154A1/zh
Application granted granted Critical
Publication of CN109614492B publication Critical patent/CN109614492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请属于人工智能技术领域,涉及基于人工智能的文本数据增强方法、装置、设备及存储介质。该方法包括:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;计算所述第一输出文本的语序流畅度;将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。其增加了文本生成模型训练的数据量。

Description

基于人工智能的文本数据增强方法、装置、设备及存储介质
技术领域
本申请属于人工智能技术领域,涉及基于人工智能的文本数据增强方法、装置、设备及存储介质。
背景技术
目前,文本生成模型能够将一条或一条以上的输入文本转化成一条或一条以上的输出文本。为了让所述文本生成模型能够生成语病少、语义更准确的输出文本,需要给所述文本生成模型提供大量的输入文本,使得所述文本生成模型能够收敛。
现有的技术条件下,要获得符合要求的大量的输入文本是非常困难的,使得对于所述文本生成模型进行的训练很难达到理想的效果,也即所述文本生成模型不易实现收敛。此外,现有技术中难以对所述文本生成模型转化获得的输出文本进行语病检查,因此制约了所述文本生成模型的实际应用。
发明内容
本申请实施例公开了基于人工智能的文本数据增强方法、装置、设备及存储介质,旨在增加输入文本的数据量。
本申请的一些实施例公开了一种基于人工智能的文本数据增强方法。所述基于人工智能的文本数据增强方法包括:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;计算所述第一输出文本的语序流畅度;将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述计算所述第一输出文本的语序流畅包括:
其中,
f(x)表示所述语序流畅度;P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。
在本申请的一些实施例中,所述语言模型概率通过语言模型计算获得,所述语言模型包括n-gram语言模型和神经概率语言模型。
在本申请的一些实施例中,所述将所述第一输出文本作为第二输入文本提供给所述文本生成模型的步骤包括:将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。
在本申请的一些实施例中,所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述文本生成模型包括RNN(Recurrent NeuralNetwork,神经网络)结构模型和seq2seq模型。
在本申请的一些实施例中,当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。
在本申请的一些实施例中,所述基于人工智能的文本数据增强方法还包括:当所述文本生成模型收敛时,停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。
本申请的一实施例公开了一种基于人工智能的文本数据增强装置。所述基于人工智能的文本数据增强装置包括:文本训练模块,用于将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;语序流畅度计算模块,用于计算所述第一输出文本的语序流畅度;语序流畅度比较模块,用于将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;输入文本增量模块,用于当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述语序流畅度计算模块通过以下公式计算所述第一输出文本的语序流畅度,以f(x)表示所述语序流畅度;
其中,
P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。
在本申请的一些实施例中,所述语序流畅度计算模块通过语言模型计算获得所述语言模型概率,所述语言模型包括n-gram语言模型和神经概率语言模型。
在本申请的一些实施例中,所述文本训练模块将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。
在本申请的一些实施例中,所述文本训练模块通过所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,输入文本增量模块还用于当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。
在本申请的一些实施例中,当所述文本生成模型收敛时,所述文本训练模块停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。
本申请的一些实施例公开了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一种基于人工智能的文本数据增强方法的步骤。
本申请的一些实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种基于人工智能的文本数据增强方法的步骤。
与现有技术相比,本申请公开的技术方案主要有以下有益效果:
在本申请的实施例中,通过将语序流畅度大于或者等于所述正确文本的所述第一输出文本作为所述第二输入文本提供给所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本。所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。通过以语序流畅度大于或者等于所述正确文本的所述第二输入文本输入所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本,因此进一步增加了用于给所述文本生成模型训练的数据量,有利于减少节省所述文本生成模型的训练时间,使得所述文本生成模型能够在更短的时间内实现收敛,有利于克服给所述文本生成模型训练的数据量不足的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请的一实施例中所述基于人工智能的文本数据增强方法的示意图;
图2为本申请的一实施例中所述基于人工智能的文本数据增强方法的另一示意图;
图3为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的示意图;
图4为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的另一示意图;
图5为本申请的一实施例中所述基于人工智能的文本数据增强装置的示意图;
图6为本申请的一实施例中计算机设备100基本结构框图。
附图标记说明:
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本申请的一实施例公开一种基于人工智能的文本数据增强方法。
参考图1和图2,其中图1为本申请的一实施例中所述基于人工智能的文本数据增强方法的示意图,图2为本申请的一实施例中所述基于人工智能的文本数据增强方法的另一示意图。
如图1中所示意的,所述基于人工智能的文本数据增强方法包括:
S1:将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本。
S2:计算所述第一输出文本的语序流畅度。
S3:将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较。
S4a:当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。所述预设条件包括所述文本生成模型实现收敛。
在本申请实施例的S4a中,将语序流畅度大于或者等于所述正确文本的所述第一输出文本作为所述第二输入文本提供给所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本。所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。所述“错误训练”可以理解成是将语序流畅度大于或者等于所述正确文本的所述第一输出文本作为所述第二输入文本提供给所述文本生成模型进行训练,得到语序流畅度小于所述正确文本的所述第二输出文本。
由于所述文本生成模型能够将所述第二输入文本的语素进行重新组合,通常不会组合出所述第二输入文本本身。因此如果是将语序流畅度大于或者等于所述正确文本的所述第二输入文本输入所述文本生成模型,则会组合得出语序流畅度小于所述正确文本的的至少一条所述第二输出文本。在本申请的实施例中,通过以语序流畅度大于或者等于所述正确文本的所述第二输入文本输入所述文本生成模型,并由所述文本生成模型将所述第二输入文本转化成至少一条所述第二输出文本,因此进一步增加了用于给所述文本生成模型训练的数据量,有利于减少节省所述文本生成模型的训练时间,使得所述文本生成模型能够在更短的时间内实现收敛。
S1、S2、S3、S4a可以反复进行,直至所述文本生成模型收敛时,停止给所述文本生成模型提供所述第二输入文本。
如图2中所示意的,为了进一步增加输入文本的数据量,在S3后所述基于人工智能的文本数据增强方法还包括:
S4b:当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。
在本申请的实施例中,通过将所述文本生成模型转化成的语序流畅度小于所述正确文本的的所述第一输出文本重新提供给所述文本生成模型,因此能够增加所述文本数据库数据量,有利于克服所述文本数据库的数据量不足的问题,降低了获取符合要求的所述第一输入文本的困难,提高了所述文本生成模型的训练效率。
S1、S2、S3以及S4b可以反复进行,直至所述文本生成模型收敛时,停止给所述文本生成模型提供所述第一输入文本。
需要说明的是,图1中示意的各步骤与图2中示意的各步骤可以同时执行。此外,S4a和S4b的执行顺序并无先后之分。
在本申请的一些实施例中,所述计算所述第一输出文本的语序流畅度包括:
其中,
f(x)表示所述语序流畅度;P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。
进一步地,在本申请的实施例中,所述语言模型概率通过语言模型计算获得,所述语言模型包括n-gram语言模型和神经概率语言模型。
在本申请的实施例中,所述“上文”和所述“下文”可以作如下的理解:
“上文”为所述第一输出文本的主语时,“下文”为所述第一输出文本的谓语。例如,所述第一输出文本为:我喜欢。其中,“我”为上文,则“喜欢”为下文。
“上文”为所述第一输出文本的主语和谓语时,“下文”为所述第一输出文本的宾语。例如,所述第一输出文本为:我喜欢苹果。其中,“我喜欢”为上文,则“苹果”为下文。
总而言之,所述“上文”可以理解成是已经给出的且确定的词句,所述“下文”可以理解成是在语言模型中出现在“上文”后面的词句。
“语言模型概率”指的是在给定上文时,某一种下文出现的概率。出现在同一上文后面的不同下文的语言模型概率是不一样的。在结合上文的基础上,通常语序流畅度大于或者等于所述正确文本的下文具有相对较大的语言模型概率。例如,给定上文“我喜欢”时,下文为“吃苹果”的语言模型概率要大于下文为“不喜欢”的语言模型概率。
在本申请的实施例中,H(x)可以理解成信息熵,所述信息熵越大表明下文出现某一词句的不确定性越大。
下面将举例说明所述第一输出文本的语序流畅度与对应的所述正确文本的语序流畅度比较。
假定所述正确文本的语序流畅度为1.6。所述第一输入文本输入所述文本生成模型后,所述文本生成模型转化出5条所述第一输出文本。5条所述第一输出文本的语序流畅度分别为0.7、0.9、1.2、1.8、1.4。假定认为语序流畅度为1.8的所述第一输出文本没有语病,而流程度为0.7、0.9、1.2、1.4的所述第一输出文本则认为有语病。将有语病的4条所述第一输出文本存入所述文本数据库中,然后提供给所述文本生成模型进行训练。而将没有语病的1条所述第一输出文本则直接提供所述文本生成模型进行错误训练,将所述文本生成模型进行错误训练获得的语序流畅度小于所述正确文本的所述第二输出文本提供给所述文本生成模型进行训练,增用于给所述文本生成模型训练的数据量。
在本申请的一些实施例中,所述将所述第一输出文本作为第二输入文本提供给所述文本生成模型的步骤包括:将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。所述第一输出文本对应唯一一条所述正确文本。
由于所述第一输出文本需要与对应的所述正确文本比较语序流畅度,因此将所述第一输出文本与对应的所述正确文本组成一个所述文本数据对有利于快速确定与所述第一输出文本进行语序流畅度比较的所述正确文本。
在本申请的一些实施例中,所述文本生成模型包括:RNN(Recurrent NeuralNetwork,神经网络)结构模型和seq2seq模型。将所述第一输入文本和所述第二输入文本提供给所述文本生成模型的目的在于使所述文本生成模型收敛,因此当所述文本生成模型收敛时,停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。
下面将以智能客服机器人的seq2seq模型进行文本生成训练为例进一步阐述上述实施例中文本数据增强的方法的具体应用。
参考图3,为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的示意图。
如图3中所示意的,用于文本生成训练的所述第一输入文本和所述正确文本组成所述文本数据对并存储在所述文本数据库中。对所述智能客服机器人的seq2seq模型进行文本生成训练时,调取所述文本数据库中的所述文本数据对,并将所述文本数据对中的所述第一输出文本提供给所述seq2seq模型。
所述seq2seq模型将所述第一输出文本转化成多条所述第一输出文本。由所述seq2seq模型转化获得的所有所述第一输出文本组成输出文本集合。然后计算每一条所述第一输出文本的语序流畅度。将每一条所述第一输出文本的语序流畅度与对应的所述正确文本的语序流畅度比较。
判断所述seq2seq模型是否收敛。当所述seq2seq模型没有收敛时,将语序流畅度小于所述正确文本的所述第一输出文本与所述正确文本组成新的文本数据对,并存储至所述文本数据库中。
需要说明的是,判断所述seq2seq模型是否收敛的步骤并不限定图3中示意的位置。例如,在所述seq2seq模型将所述第一输入文本转化成多条所述第一输出文本后就可以判断所述seq2seq模型是否收敛。在判断得出所述seq2seq模型没有收敛时,计算每一条所述第一输出文本的语序流畅度,然后将每一条所述第一输出文本的语序流畅度与对应的所述正确文本的语序流畅度比较。
上述将语序流畅度小于所述正确文本的所述第一输出文本提供给所述seq2seq模型进行文本生成训练的过程循环进行,直至判断得出所述seq2seq模型收敛。在所述seq2seq模型收敛后将结束循环,停止给所述seq2seq模型提供所述第一输入文本。
参考图4,为本申请的一实施例中智能客服机器人的seq2seq模型进行文本生成训练的另一示意图。
如图4中所示意的,用于文本生成训练的所述第一输入文本和所述正确文本组成文本数据对并存储在文本数据库中。对所述智能客服机器人的seq2seq模型进行文本生成训练时,调取所述文本数据库中的文本数据对,并将文本数据对中的所述第一输出文本提供给seq2seq模型。
所述seq2seq模型将所述第一输入文本转化成多条所述第一输出文本。由所述seq2seq模型转化获得的所有所述第一输出文本组成输出文本集合。然后计算每一条所述第一输出文本的语序流畅度。将每一条所述第一输出文本的语序流畅度与对应的所述正确文本的语序流畅度比较。
判断所述seq2seq模型是否收敛。当所述seq2seq模型没有收敛时,将所述输出文本集合中语序流畅度大于或者等于所述正确文本的所述第一输出文本作为所述第二输入文本提供给所述seq2seq模型,然后由所述seq2seq模型将所述第二输入文本转化成多条语序流畅度小于所述正确文本的所述第二输出文本。所述多条语序流畅度小于所述正确文本的所述第二输出文本组成新的输出文本集合。将每一条所述第二输出文本与所述正确文本组成新的文本数据对,并存储至所述文本数据库中。将语序流畅度大于或者等于所述正确文本的所述第二输入文本转换成多条语序流畅度小于所述正确文本的所述第二输出文本,并提供给所述seq2seq模型进行文本生成训练的过程循环进行,直至判断得出所述seq2seq模型收敛。在所述seq2seq模型收敛后将结束循环,停止给所述seq2seq模型提供所述第二输入文本。
下面将列举出实例说明本申请实施例中的技术方案。
表格1
请参考表格1,在表格1中提供给所述智能客服机器人的seq2seq模型的第一输入文本为“升起从东边太阳”,对应的所述正确文本为“太阳从东边升起”。所述智能客服机器人的seq2seq模型将第一输入文本“升起从东边太阳”转化成多条第一输出文本。表格1中只是展示了若干可能的第一输出文本,并不是第一输入文本“升起从东边太阳”在经seq2seq模型转化后所有可能的第一输出文本。
假定所述正确文本“太阳从东边升起”的语序流畅度为1。表格1中所展示的各第一输出文本的语序流畅度都小于1,因此均存在一定的语病。表格1中所展示的各第一输出文本的语序流畅度小于1。将表格1中展示的所有第一输出文本分别与所述正确文本组成文本数据对,并存储在文本数据库中。此时,表格1中展示的所有第一输出文本转化成第一输入文本,并提供给所述智能客服机器人的seq2seq模型进行下一轮的文本生成训练。
当表格1中的输入文本一栏拥有更多的第一输入文本时,将会获得更多的第一输出文本。在所述智能客服机器人的seq2seq模型的下一轮的文本生成训练中,文本数据库将能够向所述智能客服机器人的seq2seq模型提供数倍的第一输入文本。因此所述智能客服机器人的seq2seq模型在训练过程中将能够自动增加第一输入文本,使得文本数据得到增强,有利于克服输入文本数据量不足的问题,降低了获取符合要求的第一输入文本的困难。
表格2
请参考表格2,在表格2中提供给所述智能客服机器人的seq2seq模型的第一输入文本为“国祖我你爱”,对应的所述正确文本为“祖国我爱你”。所述智能客服机器人的seq2seq模型将第一输入文本“国祖我你爱”转化成多条第一输出文本。表格2中只是展示了若干可能的第一输出文本,并不是第一输入文本“国祖我你爱”在经seq2seq模型转化后所有可能的第一输出文本。
假定所述正确文本“祖国我爱你”的语序流畅度为1。在表格2中部分的第一输出文本的语序流畅度小于1,说明这部分第一输出文本存在语病。此外在表格2中,第一输出文本“我爱你祖国”的语序流畅度大于1,因此该条第一输出文本不存在语病。将第一输出文本“我爱你祖国”作为所述第二输入文本提供给所述智能客服机器人的seq2seq模型。所述智能客服机器人的seq2seq模型将会对第二输入文本“我爱你祖国”进行错误训练,转化成若干条语序流畅度小于1的第二输出文本。然后将错误训练获得的若干条语序流畅度小于1的第二输出文本与所述正确文本组成文本数据对存入文本数据库中。在所述智能客服机器人的seq2seq模型的下一轮的文本生成训练中,从所述文本数据库中调取错误训练获得的若干条语序流畅度小于1的第二输出文本,并提供给所述智能客服机器人的seq2seq模型进行训练。上述对第二输入文本进行错误训练获得若干条语序流畅度小于1的第二输出文本的方法同样能够自动增加文本数据量,起到增强文本数据的作用,并且有利于进一步克服输入文本数据量不足的问题,降低了获取符合要求的第一输入文本的困难。
需要说明的是,虽然表格1和表格2中语序流畅度的值为正,但是在本申请的一些可能的实施例中,所述语序流畅度的值也可以是负值。
本申请的一实施例公开了一种基于人工智能的文本数据增强装置。
参考图5,为本申请的一实施例中所述基于人工智能的文本数据增强装置的示意图。
如图5中所示意的,所述基于人工智能的文本数据增强装置包括:
文本训练模块10,用于将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;
语序流畅度计算模块20,用于计算所述第一输出文本的语序流畅度;
语序流畅度比较模块30,用于将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;
输入文本增量模块40,用于当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述语序流畅度计算模块20通过以下公式计算所述第一输出文本的语序流畅度:
其中,
f(x)表示所述语序流畅度;P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。
在本申请的一些实施例中,所述语序流畅度计算模块20通过语言模型计算获得所述语言模型概率,所述语言模型包括n-gram语言模型和神经概率语言模型。
在本申请的一些实施例中,所述文本训练模块10将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。
在本申请的一些实施例中,所述文本训练模块10通过所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
在本申请的一些实施例中,所述输入文本增量模块40还用于当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。
在本申请的一些实施例中,当所述文本生成模型收敛时,所述文本训练模块10停止给所述文本生成模型提供所述第一输入文本和所述第二输入文本。
本申请的一实施例公开了一种计算机设备。具体请参考图6,为本申请的一实施例中计算机设备100基本结构框图。
如图6中所示意的,所述计算机设备100包括通过系统总线相互通信连接存储器101、处理器102、网络接口103。需要指出的是,图6中仅示出了具有组件101-103的计算机设备100,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。本技术领域技术人员应当理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器101至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器101可以是所述计算机设备100的内部存储单元,例如该计算机设备100的硬盘或内存。在另一些实施例中,所述存储器101也可以是所述计算机设备100的外部存储设备,例如该计算机设备100上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器101还可以既包括所述计算机设备100的内部存储单元也包括其外部存储设备。本实施例中,所述存储器101通常用于存储安装于所述计算机设备100的操作系统和各类应用软件,例如上述基于人工智能的文本数据增强方法的程序代码等。此外,所述存储器101还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器102在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器102通常用于控制所述计算机设备100的总体操作。本实施例中,所述处理器102用于运行所述存储器101中存储的程序代码或者处理数据,例如运行上述基于人工智能的文本数据增强方法的程序代码。
所述网络接口103可包括无线网络接口或有线网络接口,该网络接口103通常用于在所述计算机设备100与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有单据信息录入程序,所述单据信息录入程序可被至少一个处理器执行,以使所述至少一个处理器执行上述任意一种基于人工智能的文本数据增强方法的步骤。
最后应说明的是,显然以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于人工智能的文本数据增强方法,其特征在于,包括:
将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;
计算所述第一输出文本的语序流畅度;
将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;
当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
2.根据权利要求1所述基于人工智能的文本数据增强方法,其特征在于,计算所述第一输出文本的语序流畅度包括:
其中,
f(x)表示所述语序流畅度;P(xi|x<i)指的是给定所述第一输出文本的上文,所述第一输出文本的下文P(xi)的语言模型概率。
3.根据权利要求2所述基于人工智能的文本数据增强方法,其特征在于,所述语言模型概率通过语言模型计算获得,所述语言模型包括n-gram语言模型和神经概率语言模型。
4.根据权利要求1所述基于人工智能的文本数据增强方法,其特征在于,所述将所述第一输出文本作为第二输入文本提供给所述文本生成模型的步骤包括:将所述第一输出文本与所述正确文本组成一个文本数据对,将所述文本数据对中的所述第一输出文本为所述第二输入文本提供给所述文本生成模型。
5.根据权利要求1所述的基于人工智能的文本数据增强方法,其特征在于,所述文本生成模型对所述第二输入文本进行错误训练,使得所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
6.根据权利要求1所述的基于人工智能的文本数据增强方法,其特征在于,所述文本生成模型包括RNN结构模型和seq2seq模型。
7.根据权利要求1所述基于人工智能的文本数据增强方法,其特征在于,还包括:当所述第一输出文本的语序流畅度小于所述正确文本的语序流畅度时,将所述第一输出文本提供给所述文本生成模型。
8.一种基于人工智能的文本数据增强装置,其特征在于,包括:
文本训练模块,用于将文本数据库中的第一输入文本提供给文本生成模型,并由所述文本生成模型将所述第一输入文本转化成至少一条第一输出文本;
语序流畅度计算模块,用于计算所述第一输出文本的语序流畅度;
语序流畅度比较模块,用于将所述第一输出文本的语序流畅度与正确文本的语序流畅度比较;
输入文本增量模块,用于当所述第一输出文本的语序流畅度大于或者等于所述正确文本的语序流畅度时,将所述第一输出文本作为第二输入文本提供给所述文本生成模型,以使得所述文本生成模型将所述第二输入文本转化成至少一条第二输出文本,直至所述文本生成模型满足预设条件,所述第二输出文本的语序流畅度小于所述正确文本的语序流畅度。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述基于人工智能的文本数据增强方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项基于人工智能的文本数据增强方法的步骤。
CN201811641967.2A 2018-12-29 2018-12-29 基于人工智能的文本数据增强方法、装置、设备及存储介质 Active CN109614492B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811641967.2A CN109614492B (zh) 2018-12-29 2018-12-29 基于人工智能的文本数据增强方法、装置、设备及存储介质
PCT/CN2019/103684 WO2020134154A1 (zh) 2018-12-29 2019-08-30 基于人工智能的文本数据增强方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811641967.2A CN109614492B (zh) 2018-12-29 2018-12-29 基于人工智能的文本数据增强方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109614492A true CN109614492A (zh) 2019-04-12
CN109614492B CN109614492B (zh) 2024-06-18

Family

ID=66017355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811641967.2A Active CN109614492B (zh) 2018-12-29 2018-12-29 基于人工智能的文本数据增强方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN109614492B (zh)
WO (1) WO2020134154A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
WO2020134154A1 (zh) * 2018-12-29 2020-07-02 平安科技(深圳)有限公司 基于人工智能的文本数据增强方法、装置、设备及存储介质
CN112818082A (zh) * 2019-11-15 2021-05-18 北京沃东天骏信息技术有限公司 评价文本推送方法和装置
CN113570046A (zh) * 2021-09-22 2021-10-29 苏州浪潮智能科技有限公司 一种数据增强方法、系统、装置及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012115593A1 (en) * 2011-02-21 2012-08-30 National University Of Singapore Apparatus, system, and method for annotation of media files with sensor data
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN103810999A (zh) * 2014-02-27 2014-05-21 清华大学 基于分布式神经网络的语言模型训练方法及其系统
US20160171974A1 (en) * 2014-12-15 2016-06-16 Baidu Usa Llc Systems and methods for speech transcription
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN107274903A (zh) * 2017-05-26 2017-10-20 北京搜狗科技发展有限公司 文本处理方法和装置、用于文本处理的装置
CN108647207A (zh) * 2018-05-08 2018-10-12 上海携程国际旅行社有限公司 自然语言修正方法、系统、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273503B (zh) * 2017-06-19 2020-07-10 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置
CN107832310A (zh) * 2017-11-27 2018-03-23 首都师范大学 基于seq2seq模型的结构化论点生成方法及系统
CN108427665A (zh) * 2018-03-15 2018-08-21 广州大学 一种基于lstm型rnn模型的文本自动生成方法
CN109062937B (zh) * 2018-06-15 2019-11-26 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN109614492B (zh) * 2018-12-29 2024-06-18 平安科技(深圳)有限公司 基于人工智能的文本数据增强方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012115593A1 (en) * 2011-02-21 2012-08-30 National University Of Singapore Apparatus, system, and method for annotation of media files with sensor data
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN103810999A (zh) * 2014-02-27 2014-05-21 清华大学 基于分布式神经网络的语言模型训练方法及其系统
US20160171974A1 (en) * 2014-12-15 2016-06-16 Baidu Usa Llc Systems and methods for speech transcription
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN107274903A (zh) * 2017-05-26 2017-10-20 北京搜狗科技发展有限公司 文本处理方法和装置、用于文本处理的装置
CN108647207A (zh) * 2018-05-08 2018-10-12 上海携程国际旅行社有限公司 自然语言修正方法、系统、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020134154A1 (zh) * 2018-12-29 2020-07-02 平安科技(深圳)有限公司 基于人工智能的文本数据增强方法、装置、设备及存储介质
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
US11507882B2 (en) 2019-09-12 2022-11-22 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for optimizing training set for text classification and storage medium
CN112818082A (zh) * 2019-11-15 2021-05-18 北京沃东天骏信息技术有限公司 评价文本推送方法和装置
CN113570046A (zh) * 2021-09-22 2021-10-29 苏州浪潮智能科技有限公司 一种数据增强方法、系统、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN109614492B (zh) 2024-06-18
WO2020134154A1 (zh) 2020-07-02

Similar Documents

Publication Publication Date Title
CN109614492A (zh) 基于人工智能的文本数据增强方法、装置、设备及存储介质
US9128991B2 (en) Techniques to perform in-database computational programming
US8682876B2 (en) Techniques to perform in-database computational programming
CN104123171B (zh) 基于numa架构的虚拟机迁移方法及系统
CN104216888A (zh) 数据处理任务关系设置方法及系统
CN104572895A (zh) MPP数据库与Hadoop集群数据互通方法、工具及实现方法
US11188498B2 (en) Method and system for processing engineering objects in an industrial automation environment
US11321370B2 (en) Method for generating question answering robot and computer device
CN113409823B (zh) 语音情绪识别方法、装置、电子设备及存储介质
CN113641830B (zh) 模型预训练方法、装置、电子设备和存储介质
CN104899369A (zh) 一种利用perl脚本的仿真器多线程运行方法
CN105095255A (zh) 一种数据索引创建方法及装置
CN110489765A (zh) 机器翻译方法、装置及计算机可读存储介质
CN106502770A (zh) 一种基于有限状态机的hmi状态迁移方法
CN112487036A (zh) 数据处理方法及装置
US10852800B1 (en) Multi-modal power control
CN104778071A (zh) 智能规则多语言类型解释系统及其创建方法
Ma et al. Biomedical event extraction using a new error detection learning approach based on neural network
CN117009038A (zh) 一种基于云原生技术的图计算平台
CN115879450B (zh) 一种逐步文本生成方法、系统、计算机设备及存储介质
CN111274667A (zh) 一种跨尺度材料计算软件集成计算系统及方法
Olar et al. Software ontology subject domain intelligence diagnostics of computer means
CN106844242B (zh) 一种数据交换方法和系统
CN108038312B (zh) 集成电路半定制后端设计时序预算方法
Sasak-Okoń Speculative query execution in Relational databases with Graph Modelling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant