CN109190095B - 一种文章的生成方法及装置 - Google Patents
一种文章的生成方法及装置 Download PDFInfo
- Publication number
- CN109190095B CN109190095B CN201810331686.0A CN201810331686A CN109190095B CN 109190095 B CN109190095 B CN 109190095B CN 201810331686 A CN201810331686 A CN 201810331686A CN 109190095 B CN109190095 B CN 109190095B
- Authority
- CN
- China
- Prior art keywords
- basic
- basic corpus
- target
- screened
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 74
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 14
- KLFKZIQAIPDJCW-GPOMZPHUSA-N 1,2-dihexadecanoyl-sn-glycero-3-phosphoserine Chemical compound CCCCCCCCCCCCCCCC(=O)OC[C@H](COP(O)(=O)OC[C@H](N)C(O)=O)OC(=O)CCCCCCCCCCCCCCC KLFKZIQAIPDJCW-GPOMZPHUSA-N 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000001932 seasonal effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文章的生成方法及装置,其特征在于,包括:获取基础语料集合;利用学习排序LTR算法对基础语料集合中的基础语料进行依次排序,得到待筛选基础语料集合;利用集合抽样DDPS算法筛选待筛选基础语料集合中的基础语料,得到目标基础语料集合;根据目标基础语料集合生成文章。本申请通过将获取到的基于目标产品的基础语料集合利用LTR算法进行排序,并将排序后的基础语料集合利用DDPS算法进行筛选得到目标基础语料集合,进而根据目标基础语料集合生成文章。本申请的技术方案不仅可以根据相关算法快速的生成基于目标产品的推送文章。还可以精准的匹配与目标产品相契合的推送文章以避免出现由于推送文章的质量低下所导致的用户浏览体验较差的问题。
Description
技术领域
本申请涉及互联网领域,尤其涉及一种文章的生成方法及装置。
背景技术
随着通信时代与社会的发展,将涵盖自身产品介绍的文章推送给用户已经成为了商家必不可少的一种营销手段。
其中,生成一个优秀的,真正满足用户需求的推送文章并通过有效的渠道送达到用户,可以极大的引起用户兴趣,从而提高了自身产品的潜在购买量。以旅游产品为例,由于各旅游景点的分散,导致用户只能通过网上浏览相关的旅游景点的文章来判断该旅游景点是否对自身具有吸引力。
然而,现有技术中,经常会出现一种问题,即当营销者利用文章生成系统生成匹配其产品的推送文章时,由于现有的文章生成系统只能根据固定的预设语句生成一些简单的推送文章,进而导致该文章使得用户的浏览体验较差。因此,如何设计出一种可以精准匹配产品的文章推送给用户,成为了本领域技术人员迫待解决的难题。
发明内容
本申请实施例所要解决的一个技术问题是:提供一种文章的生成方法及装置。可以解决现有技术中由于产品的推送文章质量较低所导致的用户体验较差的问题。
根据本申请实施例的一个方面,提供的一种文章的生成方法,包括:
获取基础语料集合,所述基础语料集合为从基于目标产品的文本集合中获取的基础语料的集合,所述基础语料用于生成文章;
利用学习排序LTR算法对所述基础语料集合中的基础语料进行依次排序,得到待筛选基础语料集合,所述待筛选基础语料集合为在所述基础语料集合中排序顺序在预定范围内的基础语料的集合;
利用集合抽样DDPS算法筛选所述待筛选基础语料集合中的基础语料,得到目标基础语料集合;
根据所述目标基础语料集合生成文章。
可选地,在基于本申请上述方法的另一个实施例中,所述获取基础语料集合,包括:
通过神经网络算法对所述文本集合进行分类,得到目标文本集合;
利用关键词提取TF-I DF技术对所述目标文本集合进行语料提取,得到所述基础语料集合。
可选地,在基于本申请上述方法的另一个实施例中,所述通过神经网络算法对所述文本集合进行分类,得到目标文本集合,包括:
通过目标神经网络语义分割模型对所述文本集合进行分类,得到所述目标文本集合。
可选地,在基于本申请上述方法的另一个实施例中,在所述通过目标神经网络语义分割模型对所述文本集合进行分类,得到目标文本集合之前,还包括:
获取样本文本,其中,所述样本文本包括至少一个标注的文本类别特征;
利用所述包括至少一个标注的文本类别特征的样本文本对预设的神经网络语义分割模型进行训练,得到所述目标神经网络语义分割模型。
可选地,在基于本申请上述方法的另一个实施例中,所述利用学习排序 LTR算法对所述基础语料集合进行依次排序,包括:
根据预设特征以及LTR算法模型,对所述基础语料集合进行依次排序,所述LTR算法模型为基于随机森林算法生成的算法模型。
可选地,在基于本申请上述方法的另一个实施例中,所述利用集合抽样 DDPS算法筛选所述待筛选基础语料集合中的基础语料,得到目标基础语料集合,包括:
根据所述待筛选基础语料集合中各待筛选基础语料之间的权重比,得到第一待筛选基础语料组;
利用所述DPPS算法计算所述第一待筛选基础语料组中基础语料的第一平均权重值以及第一平均余弦相似度值;
当所述第一平均权重值达到第一预设数值以及所述第一平均余弦相似度值达到第二预设数值时,将所述第一待筛选基础语料组设置为所述目标基础语料集合。
可选地,在基于本申请上述方法的另一个实施例中,在所述计算所述第一待筛选基础语料组中基础语料的平均权重值以及平均余弦值相似度之后,还包括:
当所述第一平均权重值未达到第一预设数值以及所述第一平均余弦相似度值未达到第二预设数值时,根据所述待筛选基础语料集合中各待筛选基础语料之间的权重比和余弦相似度,得到第二待筛选基础语料组;
利用所述DPPS算法计算所述第二待筛选基础语料组中基础语料的第二平均权重值以及第二平均余弦相似度值;
当所述第二平均权值重达到第三预设数值以及所述第二平均余弦相似度值达到第四预设数值时,将所述第二待筛选基础语料组设置为所述目标基础语料集合。
可选地,在基于本申请上述方法的另一个实施例中,所述根据所述目标基础语料集合生成文章,包括:
根据所述目标基础语料集合生成关于旅游景区的文章。
可选地,在基于本申请上述方法的另一个实施例中,在所述根据所述目标基础语料集合生成关于旅游景区的文章之后,还包括:
通过智能推荐系统将所述关于旅游景区的文章发送给第一用户组。
可选地,在基于本申请上述方法的另一个实施例中,还包括一种电子装置,其特征在于,包括:
存储器,用于存储可执行指令;以及
处理器,用于与所述存储器通信以执行所述可执行指令从而完成以上任一所述文章的生成方法的操作。
本申请提供的一种文章的生成方法,通过将获取到的基于目标产品的基础语料集合利用LTR算法进行排序,并将排序后的基础语料集合利用DDPS算法进行筛选得到目标基础语料集合,进而根据目标基础语料集合生成文章。本申请的技术方案不仅可以根据相关算法快速的生成基于目标产品的推送文章。还可以精准的匹配与目标产品相契合的推送文章以避免出现由于推送文章的质量低下所导致的用户浏览体验较差的问题。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请提出的一种文章的生成方法一个实施例的流程图。
图2为本申请提出的一种文章的生成方法另一个实施例的流程图。
图3为本申请提出的一种文章的生成方法又一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
下面结合图1至图3来描述根据本申请示例性实施方式的用于进行文章的生成方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。本申请应用于集群用户设备,如后台服务器,推荐服务器等。
图1示意性地示出了根据本发明实施方式的一种文章的生成方法的流程示意图。如图1所示,该方法包括:
S101,获取基础语料集合,基础语料集合为从文本集合中获取的基础语料的集合,基础语料用于生成文章。
可选的,在本发明实施例中,基础语料为用于生成文章的语言材料。本申请中不对基础语料做具体限定,即基础语料可以是句式的语言材料,基础语料也可以是段落式的语言材料。基础语料的具体变化并不会影响本申请的保护范围。另外,本申请中同样不对基础语料集合中基础语料的数量做具体限定,即基础语料集合中基础语料的数量可以为100个,也可以为1000个。基础语料集合中基础语料的数量变化同样不会影响本申请的保护范围。
进一步可选的,在为某一产品生成对应的文章时,首先需要从文本集合中获取基础语料集合。具体的,本申请中的文本集合可以为所有关于该产品的资料文章以及与该产品同类型的产品的相关文章的集合。需要说明的是,本申请中不对产品的具体类型做限定,即本申请的技术方案可以适用于任意产品。本申请中对文本集合的获取方式也不做具体限定,在一种较优的实施方式中,本申请获取文本集合的方式可以通过从预先建立的产品知识库中获取。其中,以产品为旅游景区为例,产品知识库即为景区知识库。进一步的,可以通过互联网、微信、各大旅游网站等途径获取各个旅游景区的所有文本资料并进行编辑。具体的,景区知识库可以由以下几部分所构成:
1、景区基础数据:包含景区名称、景区别称(简称)、占地面积、具体经纬度、开放时间、景区类型、景区气候、海拔高度、景点评级、门票价格。
2、景区详细数据:包含景区介绍、景区主题、景区由来、景区节日、主要景点的详细描述。
3、景区点评数据:包含景区整体点评数据以及各个具体景点的具体点评数据。
4、景区相关文章数据:包含景区介绍的文章,新闻,游记以及软文。
5、景区相关图片:包含景区各个季节的图片以及各个景点的图片。
当构建好景区知识库后,在为某一景区生成文章时,即可从该景区知识库中获取针对该景区的所有文本,进而得到文本集合。以使从该文本集合中获取针对该景区的基础语料集合。
S102,利用学习排序LTR算法对基础语料集合中的基础语料进行依次排序,得到待筛选基础语料集合,待筛选基础语料集合为在基础语料集合中排序顺序在预定范围内的基础语料的集合。
本申请中,学习排序算法(Learning to Rank,LTR)是一种基于机器学习方法的排序算法。本申请中利用LTR算法对基础语料集合中的所有基础语料进行依次排序。例如,当基础语料集合中存在有1000个基础语料时,本申请将利用LTR算法对上述1000个基础语料按照重要性由高到低的顺序进行依次排序。
其中,本申请不对预定范围做具体限定,即本申请的预定范围可以是基础语料集合中的基础语料排序顺序在1-100之间的范围。预定范围也可以是基础语料集合中的基础语料排序顺序在1-200之间的范围。预定范围的具体变化并不会影响本申请的保护范围。
S103,利用集合抽样DDPS算法筛选待筛选基础语料集合中的基础语料,得到目标基础语料集合。
本申请中,集合抽样算法(Determi nanta l poi nt processes)是一种基于各个项目特征的子集抽样算法,其核心思想是通过对候选集合进行抽样并通过样本的权重和余弦相似度,用以判断抽取的样本能否最大程度的涵盖候选集合的特征和重点内容。
S104,根据目标基础语料集合生成文章。
本申请提供的一种文章的生成方法,通过将获取到的基于目标产品的基础语料集合利用LTR算法进行排序,并将排序后的基础语料集合利用DDPS算法进行筛选得到目标基础语料集合,进而根据目标基础语料集合生成文章。本申请的技术方案不仅可以根据相关算法快速的生成基于目标产品的推送文章。还可以精准的匹配与目标产品相契合的推送文章以避免出现由于推送文章的质量低下所导致的用户浏览体验较差的问题。
在本申请中,获取基础语料集合的方式可以为通过神经网络算法对文本集合进行分类,得到目标文本集合。具体的,首先需要获取样本文本,其中,样本文本包括至少一个标注的文本类别特征,进一步的,利用包括至少一个标注的文本类别特征的样本文本对预设的神经网络语义分割模型进行训练,得到目标神经网络语义分割模型。更进一步的,通过目标神经网络语义分割模型对文本集合进行分类,得到目标文本集合。
进一步可选的,本申请利用关键词提取TF-IDF技术对目标文本集合进行语料提取,得到基础语料集合。
其中,关键词提取TF-IDF(term frequency–inverse document frequency) 是一种用于信息检索与数据挖掘的关键词提取技术。本申请基于TF-IDF算法从目标文本集合中提取按照权重高低排列的预设数量的关键词,并将该预设数量的关键词分别分类以作为本次文章生成的不同主题。以产品为旅游景点产品为例,本申请可以根据TF-IDF算法从目标旅游景点文本集合中提取权重最高的10个关键词,并将该10个关键词按照季节性关键词、节日类关键词、主题活动类关键词、描述类关键词、干扰关键词等类别进行分类。进一步的,当本次主题为季节性主题时,从目标文本集合中获取季节性对应文本中的基础语料集合。当本次主题为节日类主题时,从目标文本集合中获取节日类对应文本中的基础语料集合。
更进一步的,根据预设特征以及LTR算法模型,对基础语料集合进行依次排序,LTR算法模型为基于随机森林算法生成的算法模型。
需要说明的是,本申请采用LTR算法的使用场景为文档列表排序。其中,本申请不对预设特征做具体限定,例如,预设特征可以为产品的基本特征,预设特征也可以为产品的类别特征。以产品为旅游景点为例,预设特征具体可以为以下三种:
1.基本特征:包括基础语料的所含字数的长度,基础语料在其所在文本中所处的位置,基础语料包含关键词的数量,基础语料与上下文之间的相关性描述。
2.任务相关特征:包括景区专有名词的数量、包含景区中景点的数量。
3.其他特征:节日关键词数量、景区所在地区数量、其他景区出现的次数、非该景区专属景点名称出现次数,单位时间内浏览次数。
进一步的,本申请根据上述预设特征以及基于随机森林算法生成的LTR 算法模型,对基础语料集合进行依次排序。例如,当预设特征为节日关键词特征时,本申请中利用LTR算法对基础语料集合中的所有基础语料按照包含节日关键词的数量和/或权重比进行依次排序。具体举例来说,当基础语料集合中存在有1000个基础语料,且这1000个基础语料只存在有包含节日关键词的基础语料100个。本申请将利用LTR算法对上述1000个基础语料按照包含节日关键词的数量和/或权重比进行依次排序,将包含节日关键词的100个基础语料排序在1-100的范围内,进而将剩余的900个基础语料根据其他特征在101-1000 的范围内进行排序。
进一步的,本申请将排序顺序在预定范围内的基础语料设置为待筛选基础语料集合。即本申请可以将排序后的基础语料集合中的基础语料排序顺序在1-100之间的所有基础语料设置为待筛选基础语料集合。本申请也可以将排序后的基础语料集合中的基础语料排序顺序在1-200之间的所有基础语料设置为待筛选基础语料集合。
更进一步的,在得到待筛选基础语料集合后,本申请可以根据待筛选基础语料集合中各待筛选基础语料之间的权重比,得到第一待筛选基础语料组,并根据DPPS算法计算第一待筛选基础语料组中基础语料的第一平均权重值以及第一平均余弦相似度值。
具体的,在得到待筛选基础语料集合后,本申请可以首先判断此次筛选是否是针对待筛选基础语料集合中的第一次筛选,如果是,则选择待筛选基础语料集合中各待筛选基础语料中权重比最高的预设数量个基础语料作为第一待筛选基础语料组,进一步的,本申请根据DPPS算法计算第一待筛选基础语料组中基础语料的第一平均权重值以及第一平均余弦相似度值。
进一步可选的,当第一待筛选基础语料组中基础语料的第一平均权重值达到达到第一预设数值时,且当第一待筛选基础语料组中基础语料的第一平均余弦相似度值达到第二预设数值时,将上述的第一待筛选基础语料组设置为目标基础语料集合。需要注意的是,本申请不对第一预设数值以及第二预设数值做具体限定,第一预设数值以及第二预设数值的数值具体变化也并不会影响本申请的保护范围。
更进一步可选的,当第一平均权重值未达到第一预设数值以及第一平均余弦相似度值未达到第二预设数值时,根据待筛选基础语料集合中各待筛选基础语料之间的权重比和余弦相似度,得到第二待筛选基础语料组。
具体的,当第一平均权重值未达到第一预设数值以及第一平均余弦相似度值未达到第二预设数值时,本申请将综合选择待筛选基础语料集合中各待筛选基础语料中权重比最高以及余弦相似度最高的预设数量个基础语料作为第二待筛选基础语料组。进一步的,本申请根据DPPS算法计算第二待筛选基础语料组中基础语料的第二平均权重值以及第二平均余弦相似度值。
当第二平均权值重达到第三预设数值以及第二平均余弦相似度值达到第四预设数值时,将第二待筛选基础语料组设置为目标基础语料集合。
进一步可选的,当第二待筛选基础语料组中基础语料的第二平均权重值达到达到第三预设数值时,且当第二待筛选基础语料组中基础语料的第二平均余弦相似度值达到第四预设数值时,将上述的第二待筛选基础语料组设置为目标基础语料集合。需要注意的是,本申请不对第三预设数值以及第四预设数值做具体限定,即第三预设数值可以与第一预设数值相等,第三预设数值可以与第一预设数值不相等。同样的,第四预设数值可以与第二预设数值相等,第四预设数值可以与第二预设数值不相等。第三预设数值以及第四预设数值的数值具体变化也并不会影响本申请的保护范围。
作为示例,本申请还包括一种文章的生成方法,如图2所示,所述方法还包括:
S201,获取基础语料集合,基础语料集合为从文本集合中获取的基础语料的集合,基础语料用于生成文章。
S202,利用学习排序LTR算法对基础语料集合中的基础语料进行依次排序,得到待筛选基础语料集合,待筛选基础语料集合为在基础语料集合中排序顺序在预定范围内的基础语料的集合。
S203,利用集合抽样DDPS算法筛选待筛选基础语料集合中的基础语料,得到目标基础语料集合。
S204,根据目标基础语料集合生成关于旅游景区的文章。
S205,通过智能推荐系统将关于旅游景区的文章发送给第一用户组。
本申请中,智能推荐系统可以采用基于用户的协同过滤推荐系统。协同过滤推荐系统采用统计计算方式搜索目标用户的相似用户,并根据相似用户对产品的打分来预测目标用户对指定产品的评分,最后得出可能的预测评分比较高的若干个产品,并推荐给用户。
进一步的,本申请可以根据用户的信息浏览,用户个人数据,交易数据以及其他因素采用协同过滤算法得到对应的第一用户组,并将旅游景区的文章发送给第一用户组以作为产品的推送文章。
进一步可选的,本申请也可以将同样有特定定制需求的用户作为第一用户组,并将旅游景区的文章发送给第一用户组以作为产品的推送文章。
本申请提供的一种文章的生成方法,通过将获取到的基于目标产品的基础语料集合利用LTR算法进行排序,并将排序后的基础语料集合利用DDPS算法进行筛选得到目标基础语料集合,进而根据目标基础语料集合生成文章。本申请的技术方案不仅可以根据相关算法快速的生成基于目标产品的推送文章。还可以精准的匹配与目标产品相契合的推送文章以避免出现由于推送文章的质量低下所导致的用户浏览体验较差的问题。
作为示例,本申请还提供一种文章的生成装置,如图3所示,该装置包括:获取模块301,排序模块302,筛选模块303,生成模块304。
获取模块301,用于获取基础语料集合,基础语料集合为从基于目标产品的文本集合中获取的基础语料的集合,基础语料用于生成文章。
排序模块302,用于利用学习排序LTR算法对基础语料集合中的基础语料进行依次排序,得到待筛选基础语料集合,待筛选基础语料集合为在基础语料集合中排序顺序在预定范围内的基础语料的集合。
筛选模块303,用于利用集合抽样DDPS算法筛选待筛选基础语料集合中的基础语料,得到目标基础语料集合。
生成模块304,用于根据目标基础语料集合生成文章。
在本申请的另一种实现方式中,文章的生成装置还包括:获取模块301还用于:
通过神经网络算法对文本集合进行分类,得到目标文本集合。以及,
利用关键词提取TF-IDF技术对目标文本集合进行语料提取,得到基础语料集合。以及,
通过目标神经网络语义分割模型对文本集合进行分类,得到目标文本集合。以及,
获取样本文本,其中,样本文本包括至少一个标注的文本类别特征。以及,
利用包括至少一个标注的文本类别特征的样本文本对预设的神经网络语义分割模型进行训练,得到目标神经网络语义分割模型。
在本申请的另一种实现方式中,文章的生成装置还包括:排序模块302还用于:
根据预设特征以及LTR算法模型,对基础语料集合进行依次排序,LTR算法模型为基于随机森林算法生成的算法模型。
在本申请的另一种实现方式中,文章的生成装置还包括:计算模块305,用于:
根据待筛选基础语料集合中各待筛选基础语料之间的权重比,得到第一待筛选基础语料组之后,利用DPPS算法计算第一待筛选基础语料组中基础语料的第一平均权重值以及第一平均余弦相似度值。以及,
当第一平均权重值未达到第一预设数值以及第一平均余弦相似度值未达到第二预设数值时,根据待筛选基础语料集合中各待筛选基础语料之间的权重比和余弦相似度,得到第二待筛选基础语料组之后,利用DPPS算法计算第二待筛选基础语料组中基础语料的第二平均权重值以及第二平均余弦相似度值。
在本申请的另一种实现方式中,文章的生成装置还包括:生成模块304,还用于:
根据目标基础语料集合生成关于旅游景区的文章。
在本申请的另一种实现方式中,文章的生成装置还包括:发送模块306,用于:
通过智能推荐系统将关于旅游景区的文章发送给第一用户组。
本申请通过将获取到的基于目标产品的基础语料集合利用LTR算法进行排序,并将排序后的基础语料集合利用DDPS算法进行筛选得到目标基础语料集合,进而根据目标基础语料集合生成文章。本申请的技术方案不仅可以根据相关算法快速的生成基于目标产品的推送文章。还可以精准的匹配与目标产品相契合的推送文章以避免出现由于推送文章的质量低下所导致的用户浏览体验较差的问题。
作为示例,本申请还提供一种文章的生成装置,该装置包括:存储器,
用于存储可执行指令;以及,
处理器,用于与所述存储器通信以执行所述可执行指令从而完成以上任一所述文章的生成方法的操作。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本申请的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
本申请的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用,并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。
Claims (5)
1.一种文章的生成方法,其特征在于,包括:
获取基础语料集合,所述基础语料集合为从基于目标产品的文本集合中获取的基础语料的集合,所述基础语料用于生成文章;其中,所述获取基础语料集合包括通过神经网络算法对所述文本集合进行分类,得到目标文本集合;利用关键词提取TF-IDF技术对所述目标文本集合进行语料提取,得到所述基础语料集合;所述通过神经网络算法对所述文本集合进行分类,得到目标文本集合包括通过目标神经网络语义分割模型对所述文本集合进行分类,得到所述目标文本集合;在所述通过目标神经网络语义分割模型对所述文本集合进行分类,得到目标文本集合之前还包括获取样本文本,所述样本文本包括至少一个标注的文本类别特征;利用所述包括至少一个标注的文本类别特征的样本文本对预设的神经网络语义分割模型进行训练,得到所述目标神经网络语义分割模型;
利用学习排序LTR算法对所述基础语料集合中的基础语料进行依次排序,得到待筛选基础语料集合,所述待筛选基础语料集合为在所述基础语料集合中排序顺序在预定范围内的基础语料的集合;其中,所述利用学习排序LTR算法对所述基础语料集合进行依次排序包括根据预设特征以及LTR算法模型,对所述基础语料集合进行依次排序,所述LTR算法模型为基于随机森林算法生成的算法模型;
利用集合抽样DPPS算法筛选所述待筛选基础语料集合中的基础语料,得到目标基础语料集合;其中,所述利用集合抽样DPPS算法筛选所述待筛选基础语料集合中的基础语料,得到目标基础语料集合包括根据所述待筛选基础语料集合中各待筛选基础语料之间的权重比,得到第一待筛选基础语料组;利用所述DPPS算法计算所述第一待筛选基础语料组中基础语料的第一平均权重值以及第一平均余弦相似度值;当所述第一平均权重值达到第一预设数值以及所述第一平均余弦相似度值达到第二预设数值时,将所述第一待筛选基础语料组设置为所述目标基础语料集合;
根据所述目标基础语料集合生成文章。
2.如权利要求1所述的方法,其特征在于,在所述计算所述第一待筛选基础语料组中基础语料的平均权重值以及平均余弦值相似度之后,还包括:
当所述第一平均权重值未达到第一预设数值以及所述第一平均余弦相似度值未达到第二预设数值时,根据所述待筛选基础语料集合中各待筛选基础语料之间的权重比和余弦相似度,得到第二待筛选基础语料组;
利用所述DPPS算法计算所述第二待筛选基础语料组中基础语料的第二平均权重值以及第二平均余弦相似度值;
当所述第二平均权重值达到第三预设数值以及所述第二平均余弦相似度值达到第四预设数值时,将所述第二待筛选基础语料组设置为所述目标基础语料集合。
3.如权利要求1-2中任一项所述的方法,其特征在于,所述根据所述目标基础语料集合生成文章,包括:
根据所述目标基础语料集合生成关于旅游景区的文章。
4.如权利要求3中所述的方法,其特征在于,在所述根据所述目标基础语料集合生成关于旅游景区的文章之后,还包括:
通过智能推荐系统将所述关于旅游景区的文章发送给第一用户组。
5.一种电子装置,其特征在于,包括:
存储器,用于存储可执行指令;
以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成权利要求1-4任一所述文章的生成方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810331686.0A CN109190095B (zh) | 2018-04-13 | 2018-04-13 | 一种文章的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810331686.0A CN109190095B (zh) | 2018-04-13 | 2018-04-13 | 一种文章的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190095A CN109190095A (zh) | 2019-01-11 |
CN109190095B true CN109190095B (zh) | 2023-07-18 |
Family
ID=64948472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810331686.0A Active CN109190095B (zh) | 2018-04-13 | 2018-04-13 | 一种文章的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190095B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222028B (zh) * | 2020-01-10 | 2023-05-12 | 四川日报社 | 一种数据智能爬取方法 |
CN113076013A (zh) * | 2021-04-28 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 一种信息生成方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9754041B2 (en) * | 2014-03-06 | 2017-09-05 | Webfire, Llc | Method of automatically constructing content for web sites |
CN104915426B (zh) * | 2015-06-12 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 信息排序方法、用于生成信息排序模型的方法及装置 |
CN106407168A (zh) * | 2016-09-06 | 2017-02-15 | 首都师范大学 | 一种应用文自动生成方法 |
CN106951494B (zh) * | 2017-03-14 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
CN107644085B (zh) * | 2017-09-22 | 2020-12-11 | 百度在线网络技术(北京)有限公司 | 体育赛事新闻的生成方法和装置 |
-
2018
- 2018-04-13 CN CN201810331686.0A patent/CN109190095B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109190095A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9449271B2 (en) | Classifying resources using a deep network | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US9514405B2 (en) | Scoring concept terms using a deep network | |
Bennett et al. | Inferring and using location metadata to personalize web search | |
CN105005564B (zh) | 一种基于问答平台的数据处理方法和装置 | |
CN104794145B (zh) | 基于内容和关系距离来连接人们 | |
CN106708940B (zh) | 用于处理图片的方法和装置 | |
WO2017013667A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
CN110888990A (zh) | 文本推荐方法、装置、设备及介质 | |
CN106354856B (zh) | 基于人工智能的深度神经网络强化搜索方法和装置 | |
CN108133058B (zh) | 一种视频检索方法 | |
CN111125566A (zh) | 信息获取方法和装置、电子设备和存储介质 | |
CN109190095B (zh) | 一种文章的生成方法及装置 | |
WO2019139727A1 (en) | Accuracy determination for media | |
CN110008396B (zh) | 对象信息推送方法、装置、设备及计算机可读存储介质 | |
KR101752474B1 (ko) | 지식 공유 서비스 제공 장치, 방법 및 컴퓨터 프로그램 | |
CN109902152B (zh) | 用于检索信息的方法和装置 | |
Xu et al. | Functionality-based mobile app recommendation by identifying aspects from user reviews | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
Cingiz et al. | Content mining of microblogs | |
Dokoohaki et al. | Mining divergent opinion trust networks through latent dirichlet allocation | |
CN110147488B (zh) | 页面内容的处理方法、处理装置、计算设备及存储介质 | |
CN113704462A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
Hoxha et al. | Towards a modular recommender system for research papers written in albanian | |
Garrido et al. | KGNR: A knowledge-based geographical news recommender |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 050000 1501, Block A, Zhongchu Plaza, No. 198, Zhonghua North Street, Shijiazhuang City, Hebei Province Patentee after: Beijing Yunxiaojing Intelligent Technology Co.,Ltd. Country or region after: China Address before: 050000 1501, Block A, Zhongchu Plaza, No. 198, Zhonghua North Street, Shijiazhuang City, Hebei Province Patentee before: BEIJING AIQUNYOU NETWORK INFORMATION TECHNOLOGY Co.,Ltd. Country or region before: China |