CN110852084B - 文本生成方法、装置及设备 - Google Patents
文本生成方法、装置及设备 Download PDFInfo
- Publication number
- CN110852084B CN110852084B CN201810846953.8A CN201810846953A CN110852084B CN 110852084 B CN110852084 B CN 110852084B CN 201810846953 A CN201810846953 A CN 201810846953A CN 110852084 B CN110852084 B CN 110852084B
- Authority
- CN
- China
- Prior art keywords
- text
- module
- generated
- information
- effective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供的一种文本生成方法、装置及设备,通过针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本。针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量。针对每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,排列每个有效文本中的各分词,得到第一待生成文本。按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到待生成文本。从而得到符合自然语言表述结构的待生成文本。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种文本生成方法、装置及设备。
背景技术
自然语言是人们日常使用的语言,自然语言处理技术可以实现人机之间的自然语言通信,自然语言处理技术被广泛用于生成具有固定写作格式和指定需求信息的、以自然语言表述的文本,例如,针对待生成文本的固定写作格式中的每个模块,利用自然语言处理技术从资料库中确定符合模块的文本需求信息的有效文本,再将确定的有效文本直接填充至各模块中,按固定写作格式将已填充有效文本的各模块排列,从而得到待生成文本。
固定写作格式中各模块的文本通常包括:文字或句子的表述结构固定的结构化文本,和/或,句子表述结构不固定的非结构化文本。例如,某一热点新闻的固定写作格式中各模块分别为“标题”模块、“发布日期”模块以及“正文”模块,其中,“标题”和“发布日期”模块的文本为结构化文本,“正文”模块的文本为非结构化文本。
在上述自然语言处理技术中,由于将有效文本直接填充至模块,而没有考虑有效文本填充后的表述结构,对于存在非结构化文本的模块,很有可能造成模块的文本是多个有效文本的机械式组合,模块的文本不符合自然语言表述结构,进而导致利用已填充文本的模块得到的待生成文本也存在不符合自然语言表述结构的问题。以上述某一热点新闻的“正文”模块为例,“正文”模块的文本需求信息是“2018年世界杯”。针对“正文”模块,从资料库中确定的符合文本需求信息的有效文本包括:“世界杯首次在俄罗斯境内举行”、“2018年世界杯在俄罗斯境内11座城市中的12座球场内举行”以及“比赛将于2018年6月14日至7月15日举行”。由于“正文”模块的文本是表述结构不固定的非结构化文本,直接将有效文本填充至模块,生成的正文文本可能是“比赛将于2018年6月14日至7月15日举行,2018年世界杯在俄罗斯境内11座城市中的12座球场内举行,世界杯首次在俄罗斯境内举行”。而符合自然语言表述结构的文本可以是“2018年世界杯比赛将于2018年6月14日至7月15日,在俄罗斯境内11座城市中的12座球场内举行,这是世界杯首次在俄罗斯境内举行”。可见,对于存在非结构化文本的模块而言,将有效内容直接填充至模块,用以生成待生成文本时,所生成的待生成文本将存在文本结构不符合自然语言表述结构的问题。
发明内容
本发明实施例的目的在于提供一种文本生成方法、装置及设备,以实现生成符合自然语言表述结构的文本的目的。具体技术方案如下:
第一方面,本发明实施例提供了一种文本生成方法,该方法包括:
针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件;
针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的;
针对每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中的第一样本文本的文本结构相同,第一样本文本为符合自然语言表述结构、且符合指定需求信息的文本,记忆网络为以多个预先收集的第一样本文本进行训练得到的;
按照第一位置信息,排列每个有效文本中的各分词,得到第一待生成文本;
按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到所述待生成文本。
第二方面,本发明实施例提供了一种文本生成装置,该装置包括:
文本获取模块,用于针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件;
特征提取模块,用于针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的;
位置信息确定模块,用于针对每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中的第一样本文本的文本结构相同,第一样本文本为符合自然语言表述结构、且符合指定需求信息的文本,记忆网络为以多个预先收集的第一样本文本进行训练得到的;
文本生成模块,用于按照第一位置信息,排列每个有效文本中的各分词,得到第一待生成文本;按照待生成文本的固定写作格式,排列每个模块的所述第一待生成文本,得到待生成文本。
第三方面,本发明实施例提供了一种计算机设备,该设备包括:
处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现上述第一方面提供的文本生成方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面提供的文本生成方法的步骤。
本发明实施例提供的一种文本生成方法、装置及设备,通过针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,其中需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件。针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,第一循环神经网络为以多个预先收集的符合自然语言表述结构、且符合该模块的需求信息的样本有效文本进行训练得到的。针对每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中的第一样本文本的文本结构相同,第一样本文本为符合自然语言表述结构、且符合该模块的需求信息的文本,记忆网络为以多个预先收集的第一样本文本进行训练得到的。按照第一位置信息,排列每个有效文本中的各分词,得到第一待生成文本。按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到待生成文本。由于针对每个模块,记忆网络是利用多个预先收集的第一样本文本训练得到的,而第一样本文本是符合自然语言内容结构、且符合该模块需求信息的样本。因此,利用记忆网络得到的有效文本中的各分词在第一待生成文本中的第一位置信息,与第一样本文本中各分词的位置信息相同。在此基础上,按照第一位置信息排列有效文本中的各分词,得到的第一待生成文本的文本结构与第一样本文本的文本结构相同,也就符合自然语言表述结构。从而按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到的待生成文本也是符合自然语言表述结构的文本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明一实施例的文本生成方法的流程示意图;
图2为本发明一实施例中循环神经网络的结构示意图;
图3为本发明一实施例中记忆网络的结构示意图;
图4为本发明另一实施例中记忆网络的结构示意图;
图5为本发明再一实施例的文本生成方法的流程示意图;
图6为本发明再一实施例中卷积神经网络的结构示意图;
图7为本发明再一实施例中序列标注模型的结构示意图;
图8为本发明一实施例的文本生成装置的结构示意图;
图9为本发明另一实施例的文本生成装置的结构示意图;
图10为本发明一实施例的计算机设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面首先对本发明一实施例的文本生成方法进行介绍。
本发明实施例提供的文本生成方法,可以应用于能够进行文本生成的计算机设备,该设备包括台式计算机、便携式计算机、互联网电视,智能移动终端、可穿戴式智能终端、服务器等,在此不作限定,任何可以实现本发明实施例的计算机设备,均属于本发明实施例的保护范围。
如图1所示,本发明一实施例的文本生成方法的流程,该方法可以包括:
S101,针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件。
由于对于同一个待生成文本而言,各模块的文本用于描述同一事件,如报道2018世界杯开赛的新闻稿中的“标题”模块、“正文”模块均描述2018世界杯开赛,因此,对于一待生成文本的每个模块,每个模块的需求信息在表明自身对应的文本的同时,还表明了该模块所属待生成文本要描述的同一事件。
从预设资料库中获取符合该模块的需求信息的多个有效文本的方式,可以是以进行关键字匹配的方式,从预设资料库中获取包含该模块的需求信息的文本,还可以是将需求信息作为待回答文本,利用阅读理解技术从预设资料库中获取与待回答文本匹配的答案的位置,将该位置处的答案作为有效文本。任何用于获取有效文本的方法均可用于本发明,本实施例对此不作限制。
S102,针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的。
其中,指定需求信息对应的文本所描述的事件与该模块的需求信息所描述的事件存在相同特征,指定需求信息可以是与该模块的需求信息相同的信息,也可以与该模块的需求信息存在差异,具体可以根据实际应用进行设置。例如,需求信息为“2018年世界杯”时,指定需求信息可以为“2018年世界杯”,也可以为“2008年奥运会”,还可以为“2018年NBA”等。需求信息为“春日游戏”时,指定需求信息可以为“春日游戏”,也可以为“冬天游戏”,还可以为“室内游戏”等。
其中,RNN(Recurrent Neural Networks,循环神经网络)具体可以是如图2所示的结构,隐藏层中神经元202的当前输入可以包括输入层201的输出2010和上一时刻该神经元202的输出2020,使循环神经网络记忆并利用上一时刻的输出确定当前时刻的输出,进而得到输出层203输出的特征向量。考虑到文本中的各分词并不是孤立的,可以利用当前分词和前一个分词预测出下一个分词,例如,当前分词是“撞”,前一个分词是“开车”,则下一个分词很可能是“伤”。因此,在提取有效文本的特征向量时,为了使提取的特征不仅包含单个分词的特征,还能反映出文本中各分词之间的关系,可以使用循环神经网络提取有效文本的特征向量,通过循环神经网络能够记忆并利用上一时刻的输出确定当前时刻的输出的特点,使提取出的特征向量能够反映有效文本各分词的特征以及各分词之间关系的特征。在此基础上,以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的上述S102中的第一循环神经网络,建立了有效文本和特征向量的映射关系,因此,得到的第一特征向量能够反映有效文本整体的语义特征,而不仅仅是文本中单个分词本身的特征。
此外,可以理解的是,本发明任一实施例中的循环神经网络与上述S102中的第一循环神经网络类似,区别在于为了实现对不同输入文本的特征向量的提取,用于训练不同循环神经网络的样本不同。
S103,针对每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中的第一样本文本的文本结构相同,第一样本文本为符合自然语言表述结构、且符合该模块的需求信息的文本,记忆网络为以多个预先收集的第一样本文本进行训练得到的。
考虑到待生成文本的固定写作格式的特点是,各模块之间的排列仅与待生成文本的固定格式有关,而不涉及待生成文本中文字的表述结构,如“标题”模块排列在“正文”模块的后面,但这两个模块中的文本符合自然语言表述结构时,得到的待生成文本仅是固定格式异常,而不会产生文本不符合自然语言表述结构的问题。因此,要使待生成文本符合自然语言表述结构,需要保证每个模块对应的第一待生成文本符合自然语言表述结构。
为此,预先利用多个预先收集的第一样本文本训练得到记忆网络,而第一样本文本是符合自然语言内容结构、且符合该模块需求信息的样本。因此,利用记忆网络得到的有效文本中的各分词在第一待生成文本中的第一位置信息,与第一样本文本中各分词的位置信息相同。
其中,本实施例中的记忆网络具体可以是如图3所示的结构:
输入层301为与上述图2所示的循环神经网络结构相同的第一循环神经网络,用于得到第一特征向量,并将第一特征向量输入隐藏层,在此不再赘述,详见上述图2所示实施例的描述。
隐藏层302具体可以包括神经元3020、神经元3021以及神经元3022,考虑到在确定文本中各分词的位置时,文本中各分词之间的上下文关系会影响到分词的位置,因此,同样可以采用循环神经网络的结构。同时,各分词的位置与文本整体的特征相关,因此,还需要保存各神经元的历史状态信息3023作为各神经元的输入,例如神经元3021的输入可以包含所有3020神经元的输出和状态信息3023。由此,可以根据记忆网络保存的历史状态信息,对输入进行特征提取,以提取与历史状态信息关联的特征。例如上述S103中,利用多个预先收集的第一样本文本训练得到记忆网络,则训练好的记忆网络中保存了第一样本文本的符合自然语言内容结构、且符合该模块需求信息的历史状态信息,后续使用训练好的记忆网络确定有效文本中的各分词在第一待生成文本中的第一位置信息时,可以根据各神经元保存的用于表明符合自然语言内容结构的历史状态信息,确定输入的有效文本的特征中各分词的起始位置303和截止位置304。
为了便于理解,本发明实施例中将采用分词作为有效文本进行示例性描述,在实际应用中,有效文本不限于分词,还可以包括句子、段落等。
以符合需求信息“春日游戏”的第一样本文本“小红踢毽子”为例,第一样本文本中分词“小红”在第1位置,“踢”在第2位置,“毽子”在第3位置,则利用第一样本训练得到的记忆网络可以将输入该网络的特征向量中与“小红”具有相同特征的分词“小明”的位置确定为第1位置,将与“踢”具有相同特征的分词“放”的位置确定为第2位置,将与“毽子”具有相同特征的分词“风筝”的位置确定为第3位置。
S104,按照第一位置信息,排列每个有效文本中的各分词,得到第一待生成文本。
在上述确定第一位置信息方式的基础上,按照第一位置信息排列有效文本中的各分词,得到的第一待生成文本的文本结构与第一样本文本的文本结构相同,也就符合自然语言表述结构。例如,由上述第一特征向量对应的有效文本“小明”、“放”以及“风筝”的第一位置信息,得到第一待生成文本“小明放风筝”。通过第一位置信息的确定,实现了生成符合自然语言表述结构的第一待生成文本,避免了直接将有效文本填充至模块时,得到如“放风筝小明”或者“风筝放小明”等不符合自然语言表述习惯的第一待生成文本。
S105,按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到待生成文本。
其中,待生成文本的固定写作格式可以通过每个模块的排列方式体现,同时以每个模块的标识信息为依据,区分各模块。进而将模块的标识信息用于排列每个模块的第一待生成文本。
本发明实施例提供的一种文本生成方法,通过针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,其中需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件。针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,第一循环神经网络为以多个预先收集的符合自然语言表述结构、且符合该模块的需求信息的样本有效文本进行训练得到的。针对每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中的第一样本文本的文本结构相同,第一样本文本为符合自然语言表述结构、且符合该模块的需求信息的文本,记忆网络为以多个预先收集的第一样本文本进行训练得到的。按照第一位置信息,排列每个有效文本中的各分词,得到第一待生成文本。按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到待生成文本。由于针对每个模块,记忆网络是利用多个预先收集的第一样本文本训练得到的,而第一样本文本是符合自然语言内容结构、且符合该模块需求信息的样本。因此,利用记忆网络得到的有效文本中的各分词在第一待生成文本中的第一位置信息,与第一样本文本中各分词的位置信息相同。在此基础上,按照第一位置信息排列有效文本中的各分词,得到的第一待生成文本的文本结构与第一样本文本的文本结构相同,也就符合自然语言表述结构。从而按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到的待生成文本也是符合自然语言表述结构的文本。
可选的,在上述本发明图1所示实施例的步骤S101之后,本发明实施例提供的文本生成方法还可以包括:
针对每个模块,为该模块的每个有效文本标注该模块的第一标识信息。
其中,第一标识信息为预设的用于表明每个模块唯一性的信息。
相应的,上述本发明图1所示实施例的步骤S105,具体可以包括:
针对每个模块,按照预设的第一标识信息与模块位置的对应关系,确定该模块的第一待生成文本在待生成文本中的第六位置信息,预设的第一标识信息与模块位置的对应关系用于表示待生成文本的固定写作格式。
按照第六位置信息排列每个第一待生成文本,得到待生成文本。
为了得到待生成文本,还需要将每个模块的第一待生成文本按照模块所属的待生成文本的固定写作格式进行排列。具体的,可以预先将待生成文本的固定写作格式表示为第一标识信息与模块位置的对应关系表或者对应映射(例如键-值),由此,按照第一标识信息与模块位置的对应关系,就可以确定每个第一待生成文本在待生成文本中的第六位置信息,从而按照第六位置信息排列每个第一待生成文本,得到的待生成文本就是符合待生成文本的固定写作格式的文本。
例如,一待生成热点新闻的固定写作格式包括【“标题”模块,“发布时间”模块,“正文”模块】。为“标题”模块的第一待生成文本“2018世界杯开赛”标注第一标识信息a1,为“发布时间”模块的第一待生成文本“2018年6月14日”标注第一标识信息a2,位置02,为“正文”模块的第一待生成文本“2018年世界杯比赛于2018年6月14日开赛,将持续至7月15日,在俄罗斯境内11座城市中的12座球场内举行,这是世界杯首次在俄罗斯境内举行”标注第一标识信息a3,位置03。按照预设的第一标识信息与模块位置的对应关系【a1对应位置01,a2对应位置02,a3对应位置03】,确定“标题”模块的第一待生成文本在待生成文本中的第六位置信息是位置01,“发布时间”模块的第一待生成文本在待生成文本中的第六位置信息是位置02,“正文”模块的第一待生成文本在待生成文本中的第六位置信息是位置03。按照第六位置信息排列每个第一待生成文本,得到待生成文本【标题:2018世界杯开赛;发布时间:2018年6月14日;正文:2018年世界杯比赛于2018年6月14日开赛,将持续至7月15日,在俄罗斯境内11座城市中的12座球场内举行,这是世界杯首次在俄罗斯境内举行】。
在获取符合需求信息的文本时,为了避免将需求信息作为关键字、进而以关键字匹配的方式获取的文本内容不够准确以及不够丰富的问题,可以将需求信息作为待回答文本,将符合需求信息的文本作为待回答文本对应的答案,从需求信息的语义层面获取有效文本,从而避免仅从文字层面匹配造成的所获取文本不准确以及不够丰富的问题。
由此,可选的,上述本发明图1所示实施例的步骤S101,具体可以包括:
针对待生成文本的固定写作格式中的每个模块,将预设资料库中描述同一事件的多个完整文本作为该模块的备用文本,同一事件与每个模块的需求信息对应。
由于对于同一个待生成文本而言,各模块的文本用于描述同一事件,如报道2018世界杯开赛的新闻稿中的“标题”模块、“正文”模块均描述2018世界杯开赛,因此,对于一待生成文本的每个模块,每个模块的需求信息在表明自身对应的文本的同时,还表明了该模块所属待生成文本要描述的同一事件。
在此基础上,为了保证获取的有效文本描述同一事件,且能够获取丰富的有效文本,可以将预设资料库中描述同一事件的多个完整文本作为每个模块的备用文本。当然,虽然每个模块使用了相同的完整文本,但不同模块具有不同的需求信息,因此不同需求信息对应的有效文本是完整文本中不同的文本,因此,不会造成内容重复的问题。例如,对于待生成民事起诉书,“当事人自然情况”模块对应的是案件资料中的当事人信息文本,“案由”模块对应的是案件资料中的诉讼请求文本。
针对每个模块,将该模块的各备用文本分别输入预先训练得到的第二循环神经网络,得到每个备用文本的第二特征向量,第二循环神经网络为以多个预先收集的样本备用文本进行训练得到的。
针对每个模块,将该模块的需求信息输入预先训练得到的第三循环神经网络,得到需求信息的第三特征向量,第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的。
考虑到需求信息作为待回答文本,将符合需求信息的文本作为待回答文本对应的答案时,相当于将备用文本和需求信息进行特征匹配度计算,因此,需要针对每个模块,获取该模块的每个备用文本的各第二特征向量,以及该模块的需求信息的第三特征向量。
针对每个模块的每个备用文本,将该模块的该备用文本的第二特征向量和第三特征向量输入预先训练得到的第四循环神经网络,得到符合该模块的需求信息的文本在备用文本中的第二位置信息,第四循环神经网络为以多个预先收集的标注了第三位置信息、且描述该模块的需求信息对应的同一事件的样本完整文本进行训练得到的,第三位置信息为符合该模块的需求信息的文本在样本完整文本中的位置信息。
为了便于理解,在此以一个备用文本和一个样本完整文本为例进行说明。标注了第三位置信息、且描述一模块的需求信息对应的同一事件“春日游戏”的样本完整文本为“春天来了,小朋友可以外出玩耍了,小红去踢毽子”。该样本完整文本中标注了需求信息“适合春天的游戏”对应的第三位置信息包括:“春天”所在的起始位置信息第1位置,“踢毽子”所在的终止位置信息第10位置。则利用该样本完整文本训练得到的第四循环神经网络,可以将备用文本“春天的时候,小朋友可以外出玩耍了,小明喜欢放风筝”的第二特征向量、以及需求信息“春日游戏”的第三特征向量输入第四循环神经网络,从而得到符合该模块的需求信息“春日游戏”的文本在备用文本中的第二位置信息包括:“春天”所在的起始位置信息第1位置,“放风筝”所在的终止位置信息第10位置。
针对每个模块的每个备用文本,从该备用文本中抽取第二位置信息处的文本,作为符合该模块的需求信息的有效文本。
在上述确定的第二位置信息的基础上,按照第二位置信息:“春天”所在的起始位置信息第1位置,“放风筝”所在的终止位置信息第10位置,抽取第二位置信息处的文本“春天放风筝”,作为符合该模块的需求信息“春日游戏”的有效文本。
实际应用中,还可能存在同一模块有多个需求信息的情况,此时需要针对该模块的每个需求信息获取有效文本。
由此,可选的,针对待生成文本的固定写作格式中的每个模块,当该模块的需求信息为多个时:
上述本发明图1所示实施例中的S101,具体可以包括:
针对待生成文本的固定写作格式中的每个模块的每个需求信息,从预设资料库中获取符合该模块的该需求信息的多个有效文本。
例如,一待生成热点新闻的固定写作格式中,“正文”模块的需求信息包括:需求信息Q1“2018年世界杯举行时间”、需求信息Q2“2018年世界杯举行地点”以及需求信息Q3“2018年世界杯特殊信息”。则从预设资料库中获取的符合“正文”模块的每个需求信息的多个有效文本包括:需求信息Q1的有效文本
A1“2018年世界杯比赛于2018年6月14日开赛”以及A2“2018年世界杯比赛将持续至7月15日”,需求信息Q2的有效文本A3“在俄罗斯境内”以及A4“11座城市中的12座球场内举行”,需求信息Q3的有效文本A5“世界杯首次在俄罗斯境内举行”。
相应的,上述本发明图1所示实施例中的S102,具体可以包括:
针对每个模块的每个需求信息,将该模块的该需求信息的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量。
与图1所示实施例中的S102获取同一模块的以需求信息对应的多个有效文本不同的是,本步骤获取的是同一模块的多个需求信息对应的多个有效文本。
相应的,在上述本发明图1所示实施例中的S103之前,本发明实施例提供的文本生成方法还可以包括:
针对每个模块的每个需求信息,将该模块的该需求信息输入预先训练得到的第三循环神经网络,得到该模块的该需求信息的第三特征向量,第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的。
考虑到在实际应用中,如果同一模块存在多个需求信息,则多个需求信息对应的有效文本需要按照需求信息进行排列。因此,需要获取同一模块的每个需求信息的特征向量,以用于后续确定该模块的多个有效文本的位置信息。
相应的,上述本发明图1所示实施例中的S103,具体可以包括:
针对每个模块的每个需求信息,将该需求信息对应的每个有效文本的第一特征向量分别和该需求信息的第三特征向量输入预先训练得到的记忆网络,得到该需求信息的每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中标注了第四位置信息的第一样本文本的文本结构相同,第四位置信息为符合指定需求信息的每个文本在第一样本文本中的位置信息。
由于第一样本文本中标注了符合指定需求信息的每个文本在第一样本文本中的第四位置信息,因此,针对每个模块的每个需求信息,利用第一样本训练得到的记忆网络,可以基于输入该网络的每个第一特征向量和该需求信息的第三特征向量,得到该需求信息的每个有效文本中的各分词在第一第一待生成文本中的第一位置信息。基于此,后续按照第一位置信息排列每个有效文本中的各分词,得到的第一待生成文本,与第一样本文本的结构相同,而第一样本文本又是符合自然语言描述习惯的,因此,第一待生成文本也是符合自然语言描述习惯的。在上述将有效文本的第一特征向量输入记忆网络的基础上,本实施例还将有效文本对应的需求信息的第三特征向量输入记忆网络,同时对用于训练记忆网络的第一样本文本进行了第四位置标注,从而实现确定的有效文本中各分词的第四位置信息能够按照需求信息进行排列。
其中,本实施例中的记忆网络具体可以是如图4所示的结构:
本实施例的记忆网络是与上述图3所示实施例中的记忆网络类似的结构,区别在于,为了应对存在多个需求信息的情况,增加了输入层401,用于针对每个模块的每个需求信息,得到该模块的该需求信息的第三特征向量,并将第三特征向量输入隐藏层。对于循环神经网络在此不再赘述,详见上述图2所示实施例的描述。加入用于提取需求信息特征的输入层401、神经元406以及该神经元对应的历史状态信息4033后,将输入层401的输出作为神经元4030的输入,以获取文本中与每个需求信息对应的分词的位置信息。同时,将神经元406的输出加入到神经元4032的输出中,以便确定输出的各分词的起始位置404和截止位置405是属于不同需求信息的概率,从而基于该概率,使确定出的有效文本中各分词的位置是对应于需求信息进行排列的。
此外,输入层402、隐藏层403、神经元4030、神经元4031、神经元4032、历史状态信息4033、各分词的起始位置404以及截止位置405,与本发明图3所示实施例中的记忆网络中的输入层301、隐藏层302、神经元3020、神经元3021、神经元3022、历史状态信息3023、各分词的起始位置303以及截止位置304相同,在此不再赘述,详见图3所示实施例的描述。
为了便于理解,在此以符合指定需求信息Q11“2008年奥运会举行时间”,Q12“2008年奥运会举行地点”,以及Q13“2008年奥运会特殊信息”、且标注了第四位置信息的一个第一样本文本为“2008年奥运会于2008年8月8日至8月24日,在中国境内6座城市举行,这是奥运会第一次在中国举行”为例,进行说明。该第一样本文本中标注的第四位置信息包括:符合指定需求信息Q11的“2008年8月8日”以及“8月24日”所在的位置信息第4位置和第6位置,符合指定需求信息Q12的“中国境内”以及“6座城市”所在的位置信息第8位置和第9位置,符合指定需求信息Q13的“奥运会第一次在中国举行”所在的位置信息第12位置。将上述获取的有效文本A1至A5,以及“正文”模块的需求信息Q1至Q3输入记忆网络,确定各需求信息的有效文本在第一待生成文本中的第四位置信息,从而将各第四位置信息用于后续得到与第一样本文本结构相同、且符合自然语言的第一待生成文本“2018年世界杯比赛将于2018年6月14日至7月15日,在俄罗斯境内11座城市中的12座球场内举行,这是世界杯首次在俄罗斯境内举行”。
实际应用中,很多具有固定写作格式的待生成文本中,同时存在对应文本为结构化类型文本的模块和对应文本为非结构化类型文本的模块。由于结构化类型文本具有固定表述结构,与非结构化类型文本相比,需要通过神经网络确定的信息较少,而通常情况下神经网络会占用大量的运算资源。因此,为了减少运算资源占用,提高文本生成效率,可以对所对应的文本类型不同的模块进行有针对性的、不同的文本生成。
由此,如图5所示,本发明再一实施例的文本生成方法的流程,该方法可以包括:
S501,针对每个模块,将该模块的需求信息输入预设分类算法,得到该模块对应的第一待生成文本的文本类型,文本类型包括结构化类型和非结构化类型。当该模块的第一待生成文本的文本类型为非结构化类型时,执行S502至S505,当该模块的第一待生成文本的文本类型为结构化类型时,执行S506至S508。
其中,预设分类算法具体可以为支持向量机算法、逻辑回归算法,或者利用预先收集的多个对应于结构化类型文本和非结构化类型文本的样本需求信息,预先训练得到的卷积神经网络。还可以是判断需求信息是否为文本类型对应的预设信息,例如,对于待生成民事起诉书,结构化类型对应的预设信息为“当事人自然情况”、“受诉法院”“落款”以及“附件说明”,非结构化类型对应的预设信息为“诉讼请求”以及“事实与理由”。任何能够基于模型的需求信息确定模型对应的文本类型的分类算法,均可用于本发明,本实施例对此不作限制。
其中,卷积神经网络用于确定第一待生成文本的文本类型时,具体可以为如图6所示的结构。本实施例的神经网络的隐藏层具有两个特征提取通道,将需求信息通过输入层601输入后,利用通道602提取局部特征变量,利用通道603提取全局特征变量,以保证提取的特征不仅反映需求信息中各分词的特征,还能够反映各分词整体的语义。综合局部特征变量和全局特征变量,得到输出层604输出的需求信息分别属于不同文本类型的概率。从而基于输出的概率,确定输入的需求信息对应的第一待生成文本的文本类型。
结构化类型文本包括文字或句子的表述结构固定的文本,非结构化类型文本包括文字或句子的表述结构不固定的文本。例如,某一热点新闻的固定写作格式中各模块分别为“标题”模块、“发布日期”模块以及“正文”模块,其中,“标题”和“发布日期”模块的文本为结构化类型文本,“正文”模块的文本为非结构化文本。
S502,针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件。
S503,针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的。
S504,针对每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中的第一样本文本的文本结构相同,第一样本文本为符合自然语言表述结构、且符合该模块的需求信息的文本,记忆网络为以多个预先收集的第一样本文本进行训练得到的。
S505,按照第一位置信息,排列每个有效文本中的各分词,得到第一待生成文本。
S502至S505为与本发明图1所示实施例中的S101至S104相同的步骤,在此不再赘述,详见本发明图1所示实施例的描述。
S506,将该模块的多个有效文本输入预先训练得到的序列标注模型,得到每个有效文本中的各分词的第二标识信息,序列标注模型为以多个预先收集的预先标注了第二标识信息、且符合该模块的需求信息的第二样本有效文本训练得到的。
其中,第二标识信息用于表示有效文本中的各分词的唯一性。序列标注模型用于对输入的有效文本标注第二标识信息,以用于后续确定各分词在第二待生成文本中的位置信息。本实施例中序列标注模型具体可以为图7所示的结构。以字符串的形式将有效文本通过输入层701输入到序列标注模型中,经过隐藏层702的特征提取,确定每个分词对应的第二标识信息,从而在输出层703标注每个分词的第二标识信息。考虑到文本中各分词之间存在关联关系,某一分词的上下文会影响该分词的语义,因此,本实施例序列标注模型的隐藏层中各神经元为LSTM网络(Long Short Term Memory,一种具有特殊结构的RNN网络),该网络作为神经元时各神经元之间进行信息交互,以提取能够反映有效文本整体语义的特征,从而基于该特征,为有效文本的各分词标注第二标识信息。
S507,根据第二标识信息,利用预设的标识与分词位置信息的对应关系,确定每个有效文本中的各分词在第二待生成文本中的第五位置信息,第二待生成文本为该模块对应的文本。
其中,预设的标识与分词位置信息的对应关系可以是标识与分词位置信息的对应关系表,还可以是对应关系映射(例如键-值)。
S508,根据有效文本中的各分词按照所述第五位置信息,排列每个有效文本中的各分词,得到第二待生成文本。
例如,一待生成热点新闻的固定写作格式中的“标题”模块对应的第二待生成文本为结构化类型文本,将有效文本“2018年世界杯于6月14日在俄罗斯开赛”输入预设序列标注模型,得到分词“2018年”的第二标识信息g1,分词“世界杯”的第二标识信息g2,以及分词“开赛”的第二标识信息g3。利用预设的标识与分词位置信息的对应关系【“g1-位置1”,“g2-位置2”,“g3-位置3”】,确定分词“2018年”的第五位置信息为位置1,分词“世界杯”的第五位置信息为位置2,分词“开赛”的第五位置信息为位置3。按照各分词的第五位置信息,排列每个有效文本中的各分词,得到第二待生成文本“2018年世界杯开赛”。
S509,按照待生成文本的固定写作格式,排列每个模块的第一待生成文本和每个模块的第二待生成文本,得到待生成文本。
其中,待生成文本的固定写作格式可以通过每个模块的排列方式体现,同时以每个模块的标识信息为依据,区分各模块。进而将模块的标识信息用于排列每个模块的第一待生成文本。
相应于上述方法实施例,本发明一实施例还提供了文本生成装置。
如图8所示,本发明一实施例的文本生成装置的结构,该装置可以包括:
文本获取模块801,用于针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件;
特征提取模块802,用于针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的;
位置信息确定模块803,用于针对所述每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中的第一样本文本的文本结构相同,所述第一样本文本为符合自然语言表述结构、且符合指定需求信息的文本,记忆网络为以多个预先收集的所述第一样本文本进行训练得到的;
文本生成模块804,用于按照第一位置信息,排列每个有效文本中的各分词,得到第一待生成文本。按照待生成文本的固定写作格式,排列每个模块的所述第一待生成文本,得到所述待生成文本。
本发明实施例提供的一种文本生成装置,由于针对每个模块,所使用的记忆网络是利用多个预先收集的第一样本文本训练得到的,而第一样本文本是符合自然语言内容结构、且符合该模块需求信息的样本。因此,利用第一记忆网络得到的有效文本中的各分词在第一待生成文本中的第一位置信息,与第一样本文本中各分词的位置信息相同。在此基础上,按照第一位置信息排列有效文本中的各分词,得到的第一待生成文本的文本结构与第一样本文本的文本结构相同,也就符合自然语言表述结构。从而按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到的待生成文本也是符合自然语言表述结构的文本。
可选的,文本生成模块804,具体用于:
针对每个模块,为该模块的每个有效文本标注该模块的第一标识信息;
针对每个模块,按照预设的第一标识信息与模块位置的对应关系,确定该模块的第一待生成文本在待生成文本中的第六位置信息,所述预设的第一标识信息与模块位置的对应关系用于表示待生成文本的固定写作格式;
按照第六位置信息排列每个第一待生成文本,得到待生成文本。
可选的,文本获取模块801,具体用于:
针对待生成文本的固定写作格式中的每个模块,将预设资料库中描述同一事件的多个完整文本作为该模块的备用文本,同一事件与所述每个模块的需求信息对应;
相应的,特征提取模块802,还用于针对每个模块,将该模块的各备用文本分别输入预先训练得到的第二循环神经网络,得到每个备用文本的第二特征向量,第二循环神经网络为以多个预先收集的样本备用文本进行训练得到的。将该模块的需求信息输入预先训练得到的第三循环神经网络,得到需求信息的第三特征向量,第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;
相应的,位置信息确定模块803,还用于针对每个模块的每个备用文本,将该模块的该备用文本的第二特征向量和第三特征向量输入预先训练得到的第四循环神经网络,得到符合该模块的需求信息的文本在备用文本中的第二位置信息,第四循环神经网络为以多个预先收集的标注了第三位置信息、且描述指定需求信息对应的同一事件的样本完整文本进行训练得到的,第三位置信息为符合该模块的需求信息的文本在所述样本完整文本中的位置信息;
相应的,文本获取模块801,具体用于针对每个模块的每个备用文本,从该备用文本中抽取第二位置信息处的文本,作为符合该模块的需求信息的有效文本。
可选的,针对待生成文本的固定写作格式中的每个模块,该模块的需求信息为多个:
相应的,文本获取模块801,具体用于:
针对待生成文本的固定写作格式中的每个模块的每个需求信息,从预设资料库中获取符合该模块的该需求信息的多个有效文本;
相应的,特征提取模块802,还用于:
针对每个模块的每个需求信息,将该模块的该需求信息的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量;
针对每个模块的每个需求信息,将该模块的该需求信息输入预先训练得到的第三循环神经网络,得到该模块的该需求信息的第三特征向量,第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;
相应的,位置信息确定模块803,具体用于:
针对每个模块的每个需求信息,将该需求信息对应的每个有效文本的每个第一特征向量分别和该需求信息的第三特征向量输入预先训练得到的记忆网络,得到该需求信息的每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中标注了第四位置信息的第一样本文本的文本结构相同,第四位置信息为符合该需求信息的每个文本在所述第一样本文本中的位置信息。
如图9所示,本发明另一实施例的文本生成装置的结构,该装置可以包括:
文本分类模块901,用于针对所述每个模块,将该模块的需求信息输入预设分类算法,得到该模块对应的第一待生成文本的文本类型,所述文本类型包括结构化类型和非结构化类型;
文本获取模块902,用于针对待生成文本的固定写作格式中的每个模块,当该模块的第一待生成文本的文本类型为非结构化类型时,从预设资料库中获取符合该模块的需求信息的多个有效文本;
特征提取模块903,用于针对每个模块,当该模块的第一待生成文本的文本类型为非结构化类型时,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量;
位置信息确定模块904,用于针对每个模块,当该模块的第一待生成文本的文本类型为非结构化类型时,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息;
文本获取模块902,还用于针对待生成文本的固定写作格式中的每个模块,当该模块的第二待生成文本的文本类型为结构化类型时,将该模块的所述多个有效文本输入预先训练得到的序列标注模型,得到每个有效文本中的各分词的第二标识信息,所述序列标注模型为以多个预先收集的预先标注了所述第二标识信息、且符合该模块的需求信息的第二样本有效文本训练得到的;
位置信息确定模块904,还用于根据第二标识信息,利用预设的标识与分词位置信息的对应关系,确定每个有效文本中的各分词在第二待生成文本中的第五位置信息,第二待生成文本为该模块对应的文本;
文本生成模块905,还用于根据有效文本中的各分词按照第五位置信息,排列每个有效文本中的各分词,得到第二待生成文本;按照待生成文本的固定写作格式,排列每个模块的所述第一待生成文本和每个模块的所述第二待生成文本,得到待生成文本。
相应于上述实施例,本发明实施例还提供了一种计算机设备,如图10所示,可以包括:
处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器通1003过通信总线1004完成相互间的通信;
存储器1003,用于存放计算机程序;
处理器1001,用于执行上述存储器1003上所存放的计算机程序时,实现上述任一实施例中文本生成方法的步骤。
本发明实施例提供的一种计算机设备,由于针对每个模块,所使用的记忆网络是利用多个预先收集的第一样本文本训练得到的,而第一样本文本是符合自然语言内容结构、且符合该模块需求信息的样本。因此,利用第一记忆网络得到的有效文本中的各分词在第一待生成文本中的第一位置信息,与第一样本文本中各分词的位置信息相同。在此基础上,按照第一位置信息排列有效文本中的各分词,得到的第一待生成文本的文本结构与第一样本文本的文本结构相同,也就符合自然语言表述结构。从而按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到的待生成文本也是符合自然语言表述结构的文本。
上述存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离于上述处理器的存储装置。
上述处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明一实施例提供的计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中文本生成方法的步骤。
本发明实施例提供的一种计算机可读存储介质,该计算机程序被处理器执行时,由于针对每个模块,所使用的记忆网络是利用多个预先收集的第一样本文本训练得到的,而第一样本文本是符合自然语言内容结构、且符合该模块需求信息的样本。因此,利用第一记忆网络得到的有效文本中的各分词在第一待生成文本中的第一位置信息,与第一样本文本中各分词的位置信息相同。在此基础上,按照第一位置信息排列有效文本中的各分词,得到的第一待生成文本的文本结构与第一样本文本的文本结构相同,也就符合自然语言表述结构。从而按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到的待生成文本也是符合自然语言表述结构的文本。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施例中文本生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line,数字用户线)或无线(例如:红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如:DVD(Digital Versatile Disc,数字通用光盘))、或者半导体介质(例如:SSD(Solid StateDisk,固态硬盘))等。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和计算机设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (14)
1.一种文本生成方法,其特征在于,所述方法包括:
针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,所述需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件;
针对所述每个模块,将该模块的所述多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,所述第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的;
针对所述每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,所述第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与所述记忆网络中的第一样本文本的文本结构相同,所述第一样本文本为符合自然语言表述结构、且符合指定需求信息的文本,所述记忆网络为以多个预先收集的所述第一样本文本进行训练得到的;
按照所述第一位置信息,排列每个有效文本中的各分词,得到所述第一待生成文本;
按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本,得到所述待生成文本。
2.根据权利要求1所述的方法,其特征在于,所述针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,包括:
针对待生成文本的固定写作格式中的每个模块,将预设资料库中描述同一事件的多个完整文本作为该模块的备用文本,所述同一事件与所述每个模块的需求信息对应;
针对所述每个模块,将该模块的各备用文本分别输入预先训练得到的第二循环神经网络,得到每个备用文本的第二特征向量,所述第二循环神经网络为以多个预先收集的样本备用文本进行训练得到的;
针对所述每个模块,将该模块的需求信息输入预先训练得到的第三循环神经网络,得到所述需求信息的第三特征向量,所述第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;
针对每个模块的每个备用文本,将该模块的该备用文本的第二特征向量和所述第三特征向量输入预先训练得到的第四循环神经网络,得到符合该模块的需求信息的文本在所述备用文本中的第二位置信息,所述第四循环神经网络为以多个预先收集的标注了第三位置信息、且描述指定需求信息对应的同一事件的样本完整文本进行训练得到的,所述第三位置信息为符合该模块的需求信息的文本在所述样本完整文本中的位置信息;
针对每个模块的每个备用文本,从该备用文本中抽取所述第二位置信息处的文本,作为符合该模块的需求信息的有效文本。
3.根据权利要求1所述的方法,其特征在于,所述该模块的需求信息为多个:
所述针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,包括:
针对待生成文本的固定写作格式中的每个模块的每个需求信息,从预设资料库中获取符合该模块的该需求信息的多个有效文本;
所述针对所述每个模块,将该模块的所述多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,包括:
针对所述每个模块的每个需求信息,将该模块的该需求信息的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量;
在所述针对所述每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息之前,所述方法还包括:
针对所述每个模块的每个需求信息,将该模块的该需求信息输入预先训练得到的第三循环神经网络,得到该模块的该需求信息的第三特征向量,所述第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;
所述针对所述每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,包括:
针对所述每个模块的每个需求信息,将该需求信息对应的每个有效文本的每个第一特征向量分别和该需求信息的第三特征向量输入预先训练得到的记忆网络,得到该需求信息的每个有效文本中的各分词在第一待生成文本中的第一位置信息,所述第一待生成文本为该模块对应的文本,且所述第一待生成文本的文本结构与所述记忆网络中标注了第四位置信息的第一样本文本的文本结构相同,所述第四位置信息为符合该需求信息的每个文本在所述第一样本文本中的位置信息。
4.根据权利要求1所述的方法,其特征在于,在所述针对所述每个模块,将该模块的所述多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量之前,所述方法还包括:
针对所述每个模块,将该模块的需求信息输入预设分类算法,得到该模块对应的第一待生成文本的文本类型,所述文本类型包括结构化类型和非结构化类型;
针对所述每个模块,当该模块的第一待生成文本的文本类型为所述非结构化类型时,执行所述将该模块的所述多个有效文本输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
针对所述每个模块,当该模块的第一待生成文本的文本类型为所述结构化类型时,执行以下步骤:
将该模块的所述多个有效文本输入预先训练得到的序列标注模型,得到每个有效文本中的各分词的第二标识信息,所述序列标注模型为以多个预先收集的预先标注了所述第二标识信息、且符合该模块的需求信息的第二样本有效文本训练得到的;
根据所述第二标识信息,利用预设的标识与分词位置信息的对应关系,确定每个有效文本中的各分词在第二待生成文本中的第五位置信息,所述第二待生成文本为该模块对应的文本;
根据所述有效文本中的各分词按照所述第五位置信息,排列每个有效文本中的各分词,得到所述第二待生成文本;
按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本和每个模块的所述第二待生成文本,得到所述待生成文本。
6.根据权利要求1所述的方法,其特征在于,在所述针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本之后,所述方法还包括:
针对所述每个模块,为该模块的每个有效文本标注该模块的第一标识信息;
所述按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本,得到所述待生成文本,包括:
针对所述每个模块,按照预设的第一标识信息与模块位置的对应关系,确定该模块的所述第一待生成文本在待生成文本中的第六位置信息,所述预设的第一标识信息与模块位置的对应关系用于表示所述待生成文本的固定写作格式;
按照所述第六位置信息排列每个第一待生成文本,得到所述待生成文本。
7.一种文本生成装置,其特征在于,所述装置包括:
文本获取模块,用于针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,所述需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件;
特征提取模块,用于针对所述每个模块,将该模块的所述多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,所述第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的;
位置信息确定模块,用于针对所述每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,所述第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与所述记忆网络中的第一样本文本的文本结构相同,所述第一样本文本为符合自然语言表述结构、且符合指定需求信息的文本,所述记忆网络为以多个预先收集的所述第一样本文本进行训练得到的;
文本生成模块,用于按照所述第一位置信息,排列每个有效文本中的各分词,得到所述第一待生成文本;按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本,得到所述待生成文本。
8.根据权利要求7所述的装置,其特征在于,所述文本获取模块,具体用于:
针对待生成文本的固定写作格式中的每个模块,将预设资料库中描述同一事件的多个完整文本作为该模块的备用文本,所述同一事件与所述每个模块的需求信息对应;
所述特征提取模块,还用于针对所述每个模块,将该模块的各备用文本分别输入预先训练得到的第二循环神经网络,得到每个备用文本的第二特征向量,所述第二循环神经网络为以多个预先收集的样本备用文本进行训练得到的;将该模块的需求信息输入预先训练得到的第三循环神经网络,得到所述需求信息的第三特征向量,所述第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;
所述位置信息确定模块,还用于针对每个模块的每个备用文本,将该模块的该备用文本的第二特征向量和所述第三特征向量输入预先训练得到的第四循环神经网络,得到符合该模块的需求信息的文本在所述备用文本中的第二位置信息,所述第四循环神经网络为以多个预先收集的标注了第三位置信息、且描述指定需求信息对应的同一事件的样本完整文本进行训练得到的,所述第三位置信息为符合该模块的需求信息的文本在所述样本完整文本中的位置信息;
所述文本获取模块,具体用于针对每个模块的每个备用文本,从该备用文本中抽取所述第二位置信息处的文本,作为符合该模块的需求信息的有效文本。
9.根据权利要求7所述的装置,其特征在于,所述该模块的需求信息为多个:
所述文本获取模块,具体用于:
针对待生成文本的固定写作格式中的每个模块的每个需求信息,从预设资料库中获取符合该模块的该需求信息的多个有效文本;
所述特征提取模块,还用于:
针对所述每个模块的每个需求信息,将该模块的该需求信息的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量;
针对所述每个模块的每个需求信息,将该模块的该需求信息输入预先训练得到的第三循环神经网络,得到该模块的该需求信息的第三特征向量,所述第三循环神经网络为以多个预先收集的该模块的样本需求信息进行训练得到的;
所述位置信息确定模块,具体用于:
针对所述每个模块的每个需求信息,将该需求信息对应的每个有效文本的每个第一特征向量分别和该需求信息的第三特征向量输入预先训练得到的记忆网络,得到该需求信息的每个有效文本中的各分词在第一待生成文本中的第一位置信息,所述第一待生成文本为该模块对应的文本,且所述第一待生成文本的文本结构与所述记忆网络中标注了第四位置信息的第一样本文本的文本结构相同,所述第四位置信息为符合该需求信息的每个文本在所述第一样本文本中的位置信息。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
文本分类模块,用于针对所述每个模块,将该模块的需求信息输入预设分类算法,得到该模块对应的第一待生成文本的文本类型,所述文本类型包括结构化类型和非结构化类型;
针对所述每个模块,当该模块的第一待生成文本的文本类型为所述非结构化类型时,所述文本获取模块,用于将该模块的所述多个有效文本输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量。
11.根据权利要求10所述的装置,其特征在于,针对所述每个模块,当该模块的第一待生成文本的文本类型为所述结构化类型时,所述文本获取模块,用于:
将该模块的所述多个有效文本输入预先训练得到的序列标注模型,得到每个有效文本中的各分词的第二标识信息,所述序列标注模型为以多个预先收集的预先标注了所述第二标识信息、且符合该模块的需求信息的第二样本有效文本训练得到的;
所述位置信息确定模块,还用于根据所述第二标识信息,利用预设的标识与分词位置信息的对应关系,确定每个有效文本中的各分词在第二待生成文本中的第五位置信息,所述第二待生成文本为该模块对应的文本;
所述文本生成模块,还用于根据所述有效文本中的各分词按照所述第五位置信息,排列每个有效文本中的各分词,得到所述第二待生成文本;按照所述待生成文本的固定写作格式,排列每个模块的所述第一待生成文本和每个模块的所述第二待生成文本,得到所述待生成文本。
12.根据权利要求7所述的装置,其特征在于,所述文本生成模块,具体用于:
针对所述每个模块,为该模块的每个有效文本标注该模块的第一标识信息;
针对所述每个模块,按照预设的第一标识信息与模块位置的对应关系,确定该模块的所述第一待生成文本在待生成文本中的第六位置信息,所述预设的第一标识信息与模块位置的对应关系用于表示所述待生成文本的固定写作格式;
按照所述第六位置信息排列每个第一待生成文本,得到所述待生成文本。
13.一种计算机设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现如权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一所述的方法步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810846953.8A CN110852084B (zh) | 2018-07-27 | 2018-07-27 | 文本生成方法、装置及设备 |
PCT/CN2019/096894 WO2020020084A1 (zh) | 2018-07-27 | 2019-07-19 | 文本生成方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810846953.8A CN110852084B (zh) | 2018-07-27 | 2018-07-27 | 文本生成方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852084A CN110852084A (zh) | 2020-02-28 |
CN110852084B true CN110852084B (zh) | 2021-04-02 |
Family
ID=69181212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810846953.8A Active CN110852084B (zh) | 2018-07-27 | 2018-07-27 | 文本生成方法、装置及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110852084B (zh) |
WO (1) | WO2020020084A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199805A (zh) * | 2014-09-11 | 2014-12-10 | 清华大学 | 文本拼接方法及装置 |
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN107193792A (zh) * | 2017-05-18 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的生成文章的方法和装置 |
CN107832310A (zh) * | 2017-11-27 | 2018-03-23 | 首都师范大学 | 基于seq2seq模型的结构化论点生成方法及系统 |
US20180107658A1 (en) * | 2015-09-23 | 2018-04-19 | Google Llc | Automatic translation of digital graphic novels |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6810580B2 (ja) * | 2016-11-22 | 2021-01-06 | 日本放送協会 | 言語モデル学習装置およびそのプログラム |
CN108197294B (zh) * | 2018-01-22 | 2021-10-22 | 桂林电子科技大学 | 一种基于深度学习的文本自动生成方法 |
-
2018
- 2018-07-27 CN CN201810846953.8A patent/CN110852084B/zh active Active
-
2019
- 2019-07-19 WO PCT/CN2019/096894 patent/WO2020020084A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199805A (zh) * | 2014-09-11 | 2014-12-10 | 清华大学 | 文本拼接方法及装置 |
US20180107658A1 (en) * | 2015-09-23 | 2018-04-19 | Google Llc | Automatic translation of digital graphic novels |
CN106919646A (zh) * | 2017-01-18 | 2017-07-04 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN107193792A (zh) * | 2017-05-18 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的生成文章的方法和装置 |
CN107832310A (zh) * | 2017-11-27 | 2018-03-23 | 首都师范大学 | 基于seq2seq模型的结构化论点生成方法及系统 |
Non-Patent Citations (2)
Title |
---|
Turkish Meaningful Text Generation with Class Based N-Gram Model;Mehmet Ali KUTLUGUN et al.;《2018 26th Signal Processing and Communications Applications Conference》;20180502;第1-4页 * |
机器人写稿的技术原理及实现方法;申屠晓明 等;《传媒评论》;20170930(第9期);第15-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110852084A (zh) | 2020-02-28 |
WO2020020084A1 (zh) | 2020-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504010B2 (en) | Systems and methods for fast novel visual concept learning from sentence descriptions of images | |
US20200301954A1 (en) | Reply information obtaining method and apparatus | |
US10303731B2 (en) | Social-based spelling correction for online social networks | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
US10671679B2 (en) | Method and system for enhanced content recommendation | |
CN109408622B (zh) | 语句处理方法及其装置、设备和存储介质 | |
CN108388559B (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
US20180285700A1 (en) | Training Image-Recognition Systems Using a Joint Embedding Model on Online Social Networks | |
WO2017024884A1 (zh) | 一种搜索意图识别方法及装置 | |
CN109213844B (zh) | 一种文本处理方法、装置以及相关设备 | |
CN109189959B (zh) | 一种构建图像数据库的方法及装置 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN108304373B (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN109582847B (zh) | 一种信息处理方法及装置、存储介质 | |
CN110209781B (zh) | 一种文本处理方法、装置以及相关设备 | |
CN106462564A (zh) | 在文档内提供实际建议 | |
CN112559869A (zh) | 一种评论信息的显示方法、装置、电子设备及存储介质 | |
CN113821592B (zh) | 一种数据处理方法、装置、设备以及存储介质 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
CN103955480B (zh) | 一种用于确定用户所对应的目标对象信息的方法与设备 | |
CN109145261B (zh) | 一种生成标签的方法和装置 | |
CN110852084B (zh) | 文本生成方法、装置及设备 | |
CN111858860A (zh) | 搜索信息处理方法及系统、服务器、计算机可读介质 | |
CN112667779B (zh) | 一种信息查询方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |