CN114970467A - 基于人工智能的作文初稿生成方法、装置、设备及介质 - Google Patents

基于人工智能的作文初稿生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN114970467A
CN114970467A CN202210602731.8A CN202210602731A CN114970467A CN 114970467 A CN114970467 A CN 114970467A CN 202210602731 A CN202210602731 A CN 202210602731A CN 114970467 A CN114970467 A CN 114970467A
Authority
CN
China
Prior art keywords
word
expansion
outline
subject
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210602731.8A
Other languages
English (en)
Other versions
CN114970467B (zh
Inventor
瞿晓阳
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210602731.8A priority Critical patent/CN114970467B/zh
Publication of CN114970467A publication Critical patent/CN114970467A/zh
Application granted granted Critical
Publication of CN114970467B publication Critical patent/CN114970467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用于文字信息处理技术领域,尤其涉及基于人工智能的作文初稿生成方法、装置、设备及介质。本发明根据预设的M个主题词,确定M个主题词的N个扩展词集合和K个相似文章,并从K个相似文章中确定与N个扩展词集合对应的N个观点句,然后根据N个观点句得到初级引导大纲,通过将初级引导大纲输入到预训练好的大纲优化模型中,输出优化引导大纲,并确定优化引导大纲的拓展句,最后利用优化引导大纲和拓展句生成作文初稿,通过对初级引导大纲的结构性进行优化,大大提高了生成的作文初稿的结构性,提高了生成的作文初稿的质量。

Description

基于人工智能的作文初稿生成方法、装置、设备及介质
技术领域
本发明适用于文字信息处理技术领域,尤其涉及基于人工智能的作文初稿生成方法、装置、设备及介质。
背景技术
自然语言生成是在特定的交互目标下,根据给定的输入信息生成人类可读的语言文本的自动化过程,在诗歌创作、对对联、小说续写、辅助写作等写作创作领域有着诸多运用。
现有的作文初稿生成方法是依靠主题词进行主题词扩充和句子抽取后生成作文大纲,并根据作文大纲直接生成一篇完整作文以供参考,但是这种方法对作文大纲的可控性较低,在作文大纲的生成过程中无法对其结构进行判断和调整,使得作文大纲的结构性较差,根据作文大纲生成的完整作文的结构性也较差,大大降低了作文的生成质量。
因此,如何提高生成的作文初稿的质量,成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了基于人工智能的作文初稿生成方法、装置、设备及介质,以解决现有技术中生成的作文初稿的结构性较差导致质量较低的问题。
第一方面,本发明实施例提供一种作文初稿生成方法,所述作文初稿生成方法包括:
获取预设的M个主题词,根据所述M个主题词,确定所述M个主题词的N个扩展词集合和K个相似文章,其中,M≥1,N≥1,K≥1;
从所述K个相似文章中确定与所述N个扩展词集合对应的N个观点句;
根据所述N个观点句得到初级引导大纲,将所述初级引导大纲输入到预训练好的大纲优化模型中,输出优化引导大纲;
确定所述优化引导大纲的拓展句;
利用所述优化引导大纲和所述拓展句,生成作文初稿。
第二方面,本发明实施例提供一种作文初稿生成装置,所述作文初稿生成装置包括:
素材确定模块,用于获取预设的M个主题词,根据所述M个主题词,确定所述M个主题词的N个扩展词集合和K个相似文章,其中,M≥1,N≥1,K≥1;
观点句筛选模块,用于从所述K个相似文章中确定与所述N个扩展词集合对应的N个观点句;
引导大纲优化模块,用于根据所述N个观点句得到初级引导大纲,将所述初级引导大纲输入到预训练好的大纲优化模型中,输出优化引导大纲;
拓展句确定模块,用于确定所述优化引导大纲的拓展句;
作文初稿生成模块,用于利用所述优化引导大纲和所述拓展句,生成作文初稿。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的作文初稿生成方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的作文初稿生成方法。
本发明实施例与现有技术相比存在的有益效果是:根据预设的M个主题词,确定M个主题词的N个扩展词集合和K个相似文章,并从K个相似文章中确定与N个扩展词集合对应的N个观点句,然后根据N个观点句得到初级引导大纲,通过将初级引导大纲输入到预训练好的大纲优化模型中,输出优化引导大纲,并确定优化引导大纲的拓展句,最后利用优化引导大纲和拓展句生成作文初稿,通过对初级引导大纲的结构性进行优化,大大提高了生成的作文初稿的结构性,提高了生成的作文初稿的质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种作文初稿生成方法的一应用环境示意图;
图2是本发明实施例一提供的一种作文初稿生成方法的流程示意图;
图3是本发明一实施例提供的一种作文初稿生成装置的结构示意图;
图4是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明实施例一提供的一种作文初稿生成方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、云端计算机设备、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
参见图2,是本发明一实施例提供的一种作文初稿生成方法的流程示意图,上述作文初稿生成方法可以应用于图1中的客户端,该作文初稿生成方法可以包括以下步骤:
步骤S201,获取预设的M个主题词,根据M个主题词,确定M个主题词的N个扩展词集合和K个相似文章,其中,M≥1,N≥1,K≥1。
其中,M个主题词是预先给出的待生成作文的主题词,预设的素材库中包括预设候选词和预设文章这两类预设素材,由于需要根据给定的M个主题词来生成一篇完整的作文初稿,因此,预设的M个主题词所提供的内容信息远远不够,本实施例根据主题词进行词语和句子的扩展,来提高内容信息的丰富性,为后续作文初稿的生成提供生成素材。其中,M≥1。
具体的,根据预设的M个主题词,在预设的素材库中筛选出与预设的M个主题词语义相似的若干个扩展词和若干个文章,完成主题词在词语和句子两个方面的扩展,从而获得对应的N个扩展词集合和K个相似文章,作为后续作文初稿生成的素材基础。其中,N≥1,K≥1。
可选的是,根据M个主题词,确定M个主题词的N个扩展词集合和K个相似文章,包括:
计算M个主题词和各预设候选词之间的第一语义相似度,确定各主题词的扩展词;
根据聚类算法将所有主题词的扩展词聚类为N个扩展词集合;
计算M个主题词和各预设文章之间的第二语义相似度,确定M个主题词的K个相似文章。
其中,在进行主题词的词语扩展时,首先获得预设素材库中的若干个预设候选词,然后根据词向量技术确定M个主题词的词向量和各预设候选词的词向量,并计算各主题词的词向量和各预设候选词的词向量之间的第一语义相似度,本实施例采用余弦相似度来计算各主题词的词向量和各预设候选词的词向量之间的第一语义相似度,且第一语义相似度越大,说明预设候选词与对应主题词之间的语义越相近,因此,当该预设候选词与对应主题词之间的第一语义相似度大于预设第一阈值时,该预设候选词即可作为对应主题词的扩展词,从而通过计算并比较各主题词的词向量和各预设候选词的词向量之间的第一语义相似度与预设第一阈值的大小,得到各主题词的若干个扩展词。其中,词向量技术,例如,独热编码(One-hot Encoding)技术和词向量模型(Word2Vec)技术。其中,预设第一阈值可以根据实际情况进行设定。
当不同主题词的语义较为相似时,不同主题词的扩展词之间可能存在相互重复的情况,将所有主题词的所有扩展词均作为作文初稿生成的素材时,会造成素材内容的冗余,降低生成的长篇作文的效率和质量。因此,在得到各主题词的若干个扩展词的基础上,再根据聚类算法对所有主题词的扩展词进行聚类,获得N个扩展词集合。其中,聚类算法,例如,k均值聚类(k-means clustering algorithm,k-means)算法、基于噪声应用的空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法和用于识别聚类结构的排序点(Ordering points to identify the clustering structure,OPTICS)算法。
在进行主题词的句子扩展时,首先获得预设素材库中的若干个预设文章,然后根据关键词提取算法提取各预设文章的标题的关键词,作为各预设文章的标题关键词,然后根据词向量技术获得各文章的标题关键词的标题向量,并计算各主题词的词向量和各文章的标题向量之间的第二语义相似度,本实施例同样采用余弦相似度来计算各主题词的词向量和各文章的标题向量之间的第二语义相似度,且第二语义相似度越大,说明预设文章与对应主题词之间的语义越相近,因此,当该预设文章与对应主题词之间的第二语义相似度大于预设第二阈值时,该预设文章即可作为对应主题词的相似文章,从而通过计算并比较各主题词的词向量和各文章的标题向量之间的第二语义相似度与预设第二阈值的大小,得到各主题词的若干个相似文章,最终确定M个主题词的K个相似文章。其中,关键词提取算法,例如词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法和文本排名(TextRank)算法,其中,预设第二阈值可以根据实际情况进行设定。
举例说明,首先获得预设素材库中的H个预设候选词,然后根据Word2Vec技术确定M个主题词和H个预设候选词的词向量,并将第i(i=1,2,...,M)个主题词的词向量记为
Figure BDA0003670267770000071
将第j(j=1,2,...,H)个预设候选词的词向量记为
Figure BDA0003670267770000072
然后计算第i个主题词的词向量
Figure BDA0003670267770000073
和第j个预设候选词的词向量
Figure BDA0003670267770000074
之间的余弦相似度,作为第i个主题词的词向量
Figure BDA0003670267770000075
和第j个预设候选词的词向量
Figure BDA0003670267770000076
之间的第一语义相似度
Figure BDA0003670267770000077
Figure BDA0003670267770000078
式中,
Figure BDA0003670267770000079
是第i个主题词的词向量,
Figure BDA00036702677700000710
是第j个预设候选词的词向量。
则可获得第1,2,...,H个预设候选词的词向量与第i个主题词的词向量之间的第一语义相似度
Figure BDA00036702677700000711
并与预设第一阈值Y1作比较,当
Figure BDA0003670267770000081
时,即可将该第j个预设候选词作为第i个主题词的扩展词,从而得到第i个主题词的Zi个扩展词。
因此,通过计算各预设候选词的词向量与各主题词的词向量之间的第一语义相似度,并与预设第一阈值Y1作比较,可获得第1,2,...,M个主题词的Z1,Z2,...,ZM个扩展词,最终获得M个主题词的Z个扩展词。其中,所有扩展词的数量Z为:
Figure BDA0003670267770000082
式中,M是预设的主题词的数量,Zi是第i个主题词的扩展词数量。
然后,根据k均值聚类算法对M个主题词的Z个扩展词进行聚类,获得N个聚类集合,然后根据每个聚类集合中的扩展词得到N个扩展词集合。
然后,获得预设素材库中的W个预设文章,然后根据TF-IDF算法确定每个预设文章的标题关键词,并根据Word2Vec技术确定每个预设文章的标题关键词的标题向量,将第w(k=1,2,...,W)个文章的标题向量记为
Figure BDA0003670267770000083
然后计算第i个主题词的词向量
Figure BDA0003670267770000084
和第w个预设文章的标题向量
Figure BDA0003670267770000085
之间的余弦相似度,作为第i个主题词的词向量
Figure BDA0003670267770000086
和第w个预设文章的标题向量
Figure BDA0003670267770000087
之间的第二语义相似度
Figure BDA0003670267770000088
Figure BDA0003670267770000089
式中,
Figure BDA00036702677700000810
是第i个主题词的词向量,
Figure BDA00036702677700000811
是第w个预设文章的标题向量。
则可获得第1,2,...,W个预设文章的标题向量与第i个主题词的词向量之间的第二语义相似度
Figure BDA00036702677700000812
并与预设第二阈值Y2作比较,当
Figure BDA00036702677700000813
时,即可将该第w个预设文章作为第i个主题词的相似文章,从而得到第i个主题词的Kw个相似文章。
因此,通过计算各预设文章的标题向量与各主题词的词向量之间的第二语义相似度,并与预设第二阈值Y2作比较,可获得第1,2,...,M个主题词的K1,K2,...,KM个相似文章,最终获得M个主题词的K个相似文章。
其中,所有相似文章的数量K为:
Figure BDA0003670267770000091
式中,M是预设的主题词的数量,Ki是第i个主题词的相似文章数量。
其中,本实施例根据实际情况设定预设第一阈值Y1=0.8,设定预设第二阈值Y2=0.8。
步骤S202,从K个相似文章中确定与N个扩展词集合对应的N个观点句。
其中,扩展词集合是由与M个主题词语义相近的扩展词聚类得到的,不同的扩展词集合对应不同的主题词,表示不同的语义信息,因此对应不同的观点。在进行主题词的句子扩展时,根据各主题词的词向量和各文章的标题向量之间的第二语义相似度与预设第二阈值的大小比较,确定了M个主题词的K个相似文章,然后,在M个主题词的N个扩展词集合和K个相似文章的基础上,根据词向量技术确定各句子的词向量,然后分别计算各扩展词集合中各扩展词的词向量和各相似文章中各句子的词向量之间的第三语义相似度,且第三语义相似度越大,说明各句子与对应扩展词之间的语义越相近,因此,对于各扩展词集合,计算各扩展词集合中所有扩展词和任一句子之间的第三语义相似度之和,获得各扩展词集合和任一句子之间的第三语义相似度之和,并将各扩展词集合的最大第三语义相似度之和对应的句子,作为各扩展词集合的观点句,完成N个不同观点的扩展词集合的观点句筛选,最终得到N个观点句。
举例说明,将K个相似文章中的句子数量记为S,将第n个扩展词集合中的扩展词数量记为Tn,则根据Word2Vec技术确定每个句子和每个扩展词的词向量,并将第s(s=1,2,...,S)个句子的词向量记为
Figure BDA0003670267770000092
将第n(n=1,2,...,N)个扩展词集合中的第t(t=1,2,...,Tn)个扩展词的词向量记为
Figure BDA0003670267770000101
然后计算第n个扩展词集合中的第t个扩展词的词向量
Figure BDA0003670267770000102
和第s个句子的词向量
Figure BDA0003670267770000103
之间的余弦相似度,作为第n个扩展词集合中的第t个扩展词的词向量
Figure BDA0003670267770000104
和第s个句子的词向量
Figure BDA0003670267770000105
之间的第三语义相似度
Figure BDA0003670267770000106
Figure BDA0003670267770000107
式中,
Figure BDA0003670267770000108
是第n个扩展词集合中的第t个扩展词的词向量,
Figure BDA0003670267770000109
是第s个句子的词向量。
则对于第n个扩展词集合,可获得第n个扩展词集合中第1,2,...,Tn个扩展词的词向量和第s个句子的词向量之间的第三语义相似度
Figure BDA00036702677700001010
则可计算第n个扩展词集合与第s个句子之间的第三语义相似度之和
Figure BDA00036702677700001011
Figure BDA00036702677700001012
式中,Tn是第n个扩展词集合中的扩展词数量,
Figure BDA00036702677700001013
是第n个扩展词集合中的第t个扩展词的词向量和第s个句子的词向量之间的第三语义相似度。
则可获得第n个扩展词集合与第1,2,...,S个句子之间的第三语义相似度之和
Figure BDA00036702677700001014
比较获得第n个扩展词集合的最大第三语义相似度之和,将该最大第三语义相似度之和对应的句子作为第n个扩展词集合的观点句,从而获得N个扩展词集合的观点句,最终得到N个观点句。
步骤S203,根据N个观点句得到初级引导大纲,将初级引导大纲输入到预训练好的大纲优化模型中,输出优化引导大纲。
其中,初级引导大纲中包含N个扩展词集合对应的N个观点句,由N个观点句按照随机顺序分布得到,初级引导大纲的结构性较差,根据初级引导大纲进行拓展得到的完整作文的质量较差。因此,在根据N个观点句随机顺序分布得到初级引导大纲后,将初级引导大纲输入到预训练好的大纲优化模型中对初级引导大纲进行优化,得到包含同样的N个观点句,但观点句分布结构不同的优化引导大纲。并将结构优化后的优化引导大纲作为拓展基础获得对应的拓展句,以获得质量较高的完整作文初稿。
可选的是,大纲优化模型包括结构分类子模型和对抗生成子模型:
结构分类子模型包括编码器和解码器,编码器用于输入初级引导大纲,编码器的输出端连接解码器的输入端,解码器用于输出初级引导大纲的结构类别,结构类别包括总分结构、分总结构和总分总结构;
根据初级引导大纲的结构类别,将初级引导大纲输入到对应的对抗生成子模型中,对抗生成子模型包括总分结构对抗生成子模型、分总结构对抗生成子模型和总分总结构对抗生成子模型;
对抗生成子模型用于输入对应结构类别的初级引导大纲,输出优化引导大纲。
其中,结构分类子模型的训练过程如下:
获取大量的初级引导大纲样本,设置样本标签为总分结构、分总结构或总分总结构的结构类别,将初级引导大纲样本输入到结构分类子模型的编码器中,经过编码器的编码和解码器的解码后,输出初级引导大纲样本的结构类别,并在训练过程中采用交叉熵损失函数进行模型参数的优化。
对抗生成子模型的训练过程如下:
获取大量的初级引导大纲样本,设置样本标签为优化后的引导大纲,将初级引导大纲样本输入到对抗生成子模型的生成器中,生成优化引导大纲,将生成的优化引导大纲输入到对抗生成子模型的辨别器中,辨别优化引导大纲是否为初级引导大纲优化后的引导大纲,当辨别概率为0.5时,停止训练,并在训练过程中采用优化引导大纲和对应初级引导大纲优化后的引导大纲之间的差别作为损失函数,进行模型参数的优化。
对抗生成子模型包括总分结构对抗生成子模型、分总结构对抗生成子模型和总分总结构对抗生成子模型,分别对应结构分类子模型中初级引导大纲的总分结构、分总结构和总分总结构的三类结构类别。三类对抗生成子模型的训练过程一致,训练时采用的样本不同,其中,总分结构对抗生成子模型的样本是大量优化后的引导大纲是总分结构的初级引导大纲样本,分总结构对抗生成子模型的样本是大量优化后的引导大纲是分总结构的初级引导大纲样本,总分总结构对抗生成子模型的样本是大量优化后的引导大纲是总分总结构的初级引导大纲样本。分别根据对应的样本和样本标签完成三类对抗生成子模型的训练,获得训练好的总分结构对抗生成子模型、分总结构对抗生成子模型和总分总结构对抗生成子模型。
具体的,首先将由N个观点句按照随机顺序分布得到的初级引导大纲输入到结构分类子模型中,输出该初级引导大纲的结构类别,然后将该初级引导大纲输出到与结构类别一致的对抗生成子模型中,输出优化引导大纲,大大提高初级引导大纲的结构性,并将优化引导大纲用于后续拓展句的获得,以提高生成的长篇作文初稿的结构性。
举例说明,首先由N个观点句按照随机顺序分布得到初级引导大纲,将该初级引导大纲输入到结构分类子模型中,输出该初级引导大纲的结构类别为总分结构,然后将将该初级引导大纲输出到总分结构对抗生成子模型中,输出优化引导大纲,用于后续拓展句的获得和完整作文初稿的生成。
步骤S204,确定优化引导大纲的拓展句。
其中,优化引导大纲是由N个观点句按照对应结构类别分布得到的,将优化引导大纲作为拓展句的筛选基础,从M个主题词的K个相似文章中进行拓展句的筛选,从而获得生成完整作文初稿的所有句子。
具体的,将优化引导大纲和K个相似文章中各句子均输入到预训练好的主题模型中,输出优化引导大纲的目标主题,以及K个相似文章中各句子的主题,然后将K个相似文章中各句子的主题与引导大纲的目标主题进行比较,当句子的主题与引导大纲的目标主题一致时,即可将该句子作为优化引导大纲的拓展句,获得优化引导大纲的所有拓展句,以完成预设的M个主题词在句子方面的拓展,并将优化引导大纲和所有的拓展句共同作为长篇作文初稿的生成基础。其中,主题模型,例如潜在狄利克雷分配(Latent DirichletAllocation,LDA)模型。
步骤S205,利用优化引导大纲和拓展句,生成作文初稿。
其中,优化引导大纲是由N个观点句按照文章的结构类别排序得到的作文大纲,优化引导大纲中的N个观点句和所有拓展句组成一篇完整的作文初稿。具体的,在保持优化引导大纲中各观点句的原始排列顺序不变的情况下,根据句子排序算法对优化引导大纲和对应拓展句进行排序,将各拓展句有序地插入到优化引导大纲的各观点句之间,来确定优化引导大纲和各拓展句在完整作文初稿中的位置,最终获得完整的作文初稿。其中,句子排序算法,例如,单点法(Pointwise Approach)、配对法(Pairwise Approach)和列表法(Listwise Approach)。
本发明实施例根据预设的M个主题词,确定M个主题词的N个扩展词集合和K个相似文章,并从K个相似文章中确定与N个扩展词集合对应的N个观点句,然后根据N个观点句得到初级引导大纲,通过将初级引导大纲输入到预训练好的大纲优化模型中,输出优化引导大纲,并确定优化引导大纲的拓展句,最后利用优化引导大纲和拓展句生成作文初稿,通过对初级引导大纲的结构性进行优化,大大提高了生成的作文初稿的结构性,提高了生成的作文初稿的质量。
对应于上文实施例的作文初稿生成方法,图3给出了本发明一实施例提供的作文初稿生成装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参见图3,该作文初稿生成装置包括:
素材确定模块31,用于获取预设的M个主题词,根据M个主题词,确定M个主题词的N个扩展词集合和K个相似文章,其中,M≥1,N≥1,K≥1;
观点句筛选模块32,用于从K个相似文章中确定与N个扩展词集合对应的N个观点句;
引导大纲优化模块33,用于根据N个观点句得到初级引导大纲,将初级引导大纲输入到预训练好的大纲优化模型中,输出优化引导大纲;
拓展句确定模块34,用于确定优化引导大纲的拓展句;
作文初稿生成模块35,用于利用优化引导大纲和拓展句,生成作文初稿。
可选的是,上述素材确定模块31包括:
扩展词确定子模块,用于计算M个主题词和各预设候选词之间的第一语义相似度,确定各主题词的扩展词;
扩展词集合确定子模块,用于根据聚类算法将所有主题词的扩展词聚类为N个扩展词集合;
相似文章确定子模块,用于计算M个主题词和各预设文章之间的第二语义相似度,确定M个主题词的K个相似文章。
可选的是,上述扩展词确定子模块包括:
第一向量确定单元,用于根据词向量技术确定M个主题词的词向量和各预设候选词的词向量;
扩展词确定单元,用于计算各主题词的词向量和各预设候选词的词向量之间的第一语义相似度,将第一语义相似度大于预设第一阈值的预设候选词作为对应主题词的扩展词,得到各主题词的扩展词。
可选的是,上述相似文章确定子模块包括:
第二向量确定单元,用于根据关键词提取算法确定各预设文章的标题关键词,根据词向量技术确定标题关键词的标题向量;
相似文章确定单元,用于计算各主题词的词向量和各预设文章的标题向量之间的第二语义相似度,将第二语义相似度大于预设第二阈值的标题向量对应的文章作为相似文章,确定M个主题词的K个相似文章。
可选的是,上述观点句筛选模块32包括:
相似度计算子模块,用于计算各扩展词集合中各扩展词和K个相似文章中各句子之间的第三语义相似度;
观点句筛选子模块,用于分别计算各扩展词集合中所有扩展词和各句子之间的第三语义相似度之和,将筛选出的最大第三语义相似度之和所对应的句子,作为各扩展词集合的观点句。
可选的是,上述拓展句确定模块34包括:
主题确定子模块,用于将优化引导大纲和K个相似文章中各句子输入到预训练好的主题模型中,输出优化引导大纲的目标主题,以及K个相似文章中各句子的主题;
拓展句确定子模块,用于将K个相似文章中各句子的主题与引导大纲的目标主题进行比较,将比较结果一致的各句子作为优化引导大纲的拓展句。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图4为本发明一实施例提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个作文初稿生成方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储记忆单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能记忆单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能记忆单元、模块完成,即将装置的内部结构划分成不同的功能记忆单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能记忆单元、模块可以集成在一个处理记忆单元中,也可以是各个记忆单元单独物理存在,也可以两个或两个以上记忆单元集成在一个记忆单元中,上述集成的记忆单元既可以采用硬件的形式实现,也可以采用软件功能记忆单元的形式实现。另外,各功能记忆单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中记忆单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的记忆单元如果以软件功能记忆单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的记忆单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或记忆单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个记忆单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或记忆单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的记忆单元可以是或者也可以不是物理上分开的,作为记忆单元显示的部件可以是或者也可以不是物理记忆单元,即可以位于一个地方,或者也可以分布到多个网络记忆单元上。可以根据实际的需要选择其中的部分或者全部记忆单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种作文初稿生成方法,其特征在于,所述作文初稿生成方法包括:
获取预设的M个主题词,根据所述M个主题词,确定所述M个主题词的N个扩展词集合和K个相似文章,其中,M≥1,N≥1,K≥1;
从所述K个相似文章中确定与所述N个扩展词集合对应的N个观点句;
根据所述N个观点句得到初级引导大纲,将所述初级引导大纲输入到预训练好的大纲优化模型中,输出优化引导大纲;
确定所述优化引导大纲的拓展句;
利用所述优化引导大纲和所述拓展句,生成作文初稿。
2.根据权利要求1所述的作文初稿生成方法,其特征在于,所述大纲优化模型包括结构分类子模型和对抗生成子模型:
所述结构分类子模型包括编码器和解码器,所述编码器用于输入所述初级引导大纲,所述编码器的输出端连接所述解码器的输入端,所述解码器用于输出所述初级引导大纲的结构类别,所述结构类别包括总分结构、分总结构和总分总结构;
根据所述初级引导大纲的结构类别,将所述初级引导大纲输入到对应的对抗生成子模型中,所述对抗生成子模型包括总分结构对抗生成子模型、分总结构对抗生成子模型和总分总结构对抗生成子模型;
所述对抗生成子模型用于输入对应结构类别的所述初级引导大纲,输出优化引导大纲。
3.根据权利要求1所述的作文初稿生成方法,其特征在于,根据所述M个主题词,确定所述M个主题词的N个扩展词集合和K个相似文章,包括:
计算所述M个主题词和各预设候选词之间的第一语义相似度,确定各主题词的扩展词;
根据聚类算法将所有主题词的扩展词聚类为N个扩展词集合;
计算所述M个主题词和各预设文章之间的第二语义相似度,确定所述M个主题词的K个相似文章。
4.根据权利要求3所述的作文初稿生成方法,其特征在于,计算所述M个主题词和各预设候选词之间的第一语义相似度,确定各主题词的扩展词,包括:
根据词向量技术确定所述M个主题词的词向量和各预设候选词的词向量;
计算各主题词的词向量和各预设候选词的词向量之间的第一语义相似度,将所述第一语义相似度大于预设第一阈值的预设候选词作为对应主题词的扩展词,得到各主题词的扩展词。
5.根据权利要求3所述的作文初稿生成方法,其特征在于,计算所述M个主题词和各预设文章之间的第二语义相似度,确定所述M个主题词的K个相似文章,包括:
根据关键词提取算法确定各预设文章的标题关键词,根据词向量技术确定所述标题关键词的标题向量;
计算各主题词的词向量和各预设文章的标题向量之间的第二语义相似度,将所述第二语义相似度大于预设第二阈值的标题向量对应的文章作为相似文章,确定所述M个主题词的K个相似文章。
6.根据权利要求1所述的作文初稿生成方法,其特征在于,从所述K个相似文章中确定与所述N个扩展词集合对应的N个观点句,包括:
计算各所述扩展词集合中各扩展词和所述K个相似文章中各句子之间的第三语义相似度;
分别计算各所述扩展词集合中所有扩展词和各句子之间的第三语义相似度之和,将筛选出的最大第三语义相似度之和所对应的句子,作为各所述扩展词集合的观点句。
7.根据权利要求1所述的作文初稿生成方法,其特征在于,确定所述优化引导大纲的拓展句,包括:
将所述优化引导大纲和所述K个相似文章中各句子输入到预训练好的主题预测模型中,输出所述优化引导大纲的目标主题,以及所述K个相似文章中各句子的主题;
将所述K个相似文章中各句子的主题与所述引导大纲的目标主题进行比较,将比较结果一致的各所述句子作为所述优化引导大纲的拓展句。
8.一种作文初稿生成装置,其特征在于,所述作文初稿生成装置包括:
素材确定模块,用于获取预设的M个主题词,根据所述M个主题词,确定所述M个主题词的N个扩展词集合和K个相似文章,其中,M≥1,N≥1,K≥1;
观点句筛选模块,用于从所述K个相似文章中确定与所述N个扩展词集合对应的N个观点句;
引导大纲优化模块,用于根据所述N个观点句得到初级引导大纲,将所述初级引导大纲输入到预训练好的大纲优化模型中,输出优化引导大纲;
拓展句确定模块,用于确定所述优化引导大纲的拓展句;
作文初稿生成模块,用于利用所述优化引导大纲和所述拓展句,生成作文初稿。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的作文初稿生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的作文初稿生成方法。
CN202210602731.8A 2022-05-30 2022-05-30 基于人工智能的作文初稿生成方法、装置、设备及介质 Active CN114970467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210602731.8A CN114970467B (zh) 2022-05-30 2022-05-30 基于人工智能的作文初稿生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210602731.8A CN114970467B (zh) 2022-05-30 2022-05-30 基于人工智能的作文初稿生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN114970467A true CN114970467A (zh) 2022-08-30
CN114970467B CN114970467B (zh) 2023-09-01

Family

ID=82958122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210602731.8A Active CN114970467B (zh) 2022-05-30 2022-05-30 基于人工智能的作文初稿生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114970467B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270738A (zh) * 2022-09-30 2022-11-01 北京澜舟科技有限公司 一种研报生成方法、系统及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970898A (zh) * 2017-03-31 2017-07-21 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置
US20200279554A1 (en) * 2019-02-28 2020-09-03 Marc Aaron Canter System and methods for performing semantical analysis, generating contextually relevant, and topic based conversational storytelling
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970898A (zh) * 2017-03-31 2017-07-21 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置
US20200279554A1 (en) * 2019-02-28 2020-09-03 Marc Aaron Canter System and methods for performing semantical analysis, generating contextually relevant, and topic based conversational storytelling
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270738A (zh) * 2022-09-30 2022-11-01 北京澜舟科技有限公司 一种研报生成方法、系统及计算机存储介质
CN115270738B (zh) * 2022-09-30 2023-02-03 北京澜舟科技有限公司 一种研报生成方法、系统及计算机存储介质

Also Published As

Publication number Publication date
CN114970467B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
JP7193252B2 (ja) 画像の領域のキャプション付加
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN108804421B (zh) 文本相似性分析方法、装置、电子设备及计算机存储介质
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN109325146B (zh) 一种视频推荐方法、装置、存储介质和服务器
CN111738016A (zh) 多意图识别方法及相关设备
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN110188158B (zh) 关键词及话题标签生成方法、装置、介质及电子设备
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN113656660B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
Çakır et al. Multi-task regularization based on infrequent classes for audio captioning
Patel et al. Dynamic lexicon generation for natural scene images
JP6420268B2 (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN115344699A (zh) 文本分类模型的训练方法、装置、计算机设备及介质
He et al. Deep learning in natural language generation from images
CN114970467A (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant