CN111274799A - 一种文章标题生成方法、装置及存储介质 - Google Patents

一种文章标题生成方法、装置及存储介质 Download PDF

Info

Publication number
CN111274799A
CN111274799A CN202010021095.0A CN202010021095A CN111274799A CN 111274799 A CN111274799 A CN 111274799A CN 202010021095 A CN202010021095 A CN 202010021095A CN 111274799 A CN111274799 A CN 111274799A
Authority
CN
China
Prior art keywords
entity
title
content
article
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010021095.0A
Other languages
English (en)
Other versions
CN111274799B (zh
Inventor
陈泽龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Chezhijia Data Information Technology Co ltd
Original Assignee
Tianjin Chezhijia Data Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Chezhijia Data Information Technology Co ltd filed Critical Tianjin Chezhijia Data Information Technology Co ltd
Priority to CN202010021095.0A priority Critical patent/CN111274799B/zh
Publication of CN111274799A publication Critical patent/CN111274799A/zh
Application granted granted Critical
Publication of CN111274799B publication Critical patent/CN111274799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了文章标题生成方法,该方法在计算设备中执行,计算设备与数据存储装置连接,数据存储装置中存储有多个标题模板,标题模板具有一个或多个占位符,所述占位符具有关联的实体类型,该方法包括步骤:对目标文章进行实体识别,得到目标文章对应的包括一个或多个实体的实体集,实体包括实体内容和关联的实体类型;遍历多个标题模板,对于遍历到的标题模板,从实体集中获取实体内容对标题模板中的占位符进行替换,其中,所获取的实体内容的实体类型与所替换的占位符的实体类型相同;当标题模板中的所有占位符替换完成时,得到目标文章对应的文章标题。本发明还公开了相应的装置及存储介质。

Description

一种文章标题生成方法、装置及存储介质
技术领域
本发明涉及互联网信息技术领域,特别涉及文章标题生成方法、装置及存储介质。
背景技术
文本标题生成是自然语言处理领域中的核心问题之一。对一篇文章根据其内容自动生成对应的有吸引力的标题,不仅可以吸引读者阅读该文章,还可以减轻文章撰写者的工作量。
目前,文本标题生成的实现方式可分为两种:一种是生成式的标题生成方法,另一种是从文章中抽取关键句。其中,生成式的标题生成方法基于深度学习技术,利用海量的文章及其标题数据,学习从文章中自动生成标题的模型,当有一篇没有标题的文章时,将该文章输入模型,可以根据模型学习的结果自动生成标题。而从文章中抽取关键句的方式,该关键句在一定程度上不仅可以概括文章内容,而且需要不受上下文的影响,能够独立成句。
通过深度学习自动生成标题的方法可以根据文章内容生成出多样性较强且和文章内容且和紧密的标题,但是该方法稳定性不强,不能预知生成标题的形式,因此不能确保生成的标题是否正确可用。
而关键句抽取的方式由于标题的特殊性,不仅需要能够概括文章内容,而且还需要可以独立成句,可能会存在语意不通的情况,因此不能确保是否从文章中抽取出来的句子是否可以直接作为标题使用。
发明内容
为此,本发明提供了文章标题生成方法、装置及存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供一种文章标题生成方法,该方法在计算设备中执行,计算设备与数据存储装置连接,该数据存储装置中存储有多个标题模板,标题模板具有一个或多个占位符,且占位符具有关联的实体类型,该方法包括步骤:对目标文章进行实体识别,得到目标文章对应的实体集,实体集包括一个或多个实体,实体包括实体内容和关联的实体类型;遍历多个标题模板,对于遍历到的标题模板,从实体集中获取实体内容对标题模板中的占位符进行替换,其中,所获取的实体内容的实体类型与所替换的占位符的实体类型相同;以及当标题模板中的所有占位符替换完成时,得到目标文章对应的文章标题。
可选地,在根据本发明的文章标题生成方法中,其中,在遍历多个标题模板的步骤之前,还包括:根据预设的转换规则对实体集中的实体进行处理,以生成一个或多个新实体,并将生成的新实体添加到实体集中。
可选地,在根据本发明的文章标题生成方法中,根据预设的转换规则对实体集中的实体进行处理,包括步骤:获取实体集中被关联次数最多的实体类型,根据被关联次数最多的实体类型生成新实体,其中,新实体的实体类型不同于被关联次数最多的实体类型,新实体的实体内容为被关联次数最多的实体类型。
可选地,在根据本发明的文章标题生成方法中,根据预设的转换规则对实体集中的实体进行处理,还包括步骤:获取实体集中的预定实体类型的实体,将该实体的实体类型转换为转换规则中设置的与该实体类型对应的新实体类型,并根据该转换规则设置的内容转换逻辑,将该实体的实体内容转换成新的实体内容,从而生成新实体。
可选地,在根据本发明的文章标题生成方法中,根据该转换规则设置的内容转换逻辑,将该实体的实体内容转换成新的实体内容包括步骤:将该实体的实体内容和新的实体内容按内容转换逻辑包含的映射关系一一对应,且新的实体内容不同于该实体的实体内容。
可选地,在根据本发明的文章标题生成方法中,根据该转换规则设置的内容转换逻辑,将该实体的实体内容转换成新的实体内容还包括步骤:将该实体的实体内容的值位于的阈值区间和新的实体内容按内容转换逻辑包含的映射关系一一对应,且新的实体内容不同于该实体的实体内容。
可选地,在根据本发明的文章标题生成方法中,其中,若根据从实体集中获取实体内容对标题模板中的占位符进行替换,当得到多个目标文章对应的文章标题时还包括步骤:利用训练好的点击率预估模型对多个待定文章标题进行评分,根据评分获取目标文章对应的最终的文章标题。
可选地,在根据本发明的文章标题生成方法中,若根据从实体集中获取实体内容对标题模板中的占位符进行替换,当标题模板中存在占位符未被替换时,丢弃该标题模板。
可选地,在根据本发明的文章标题生成方法中,对目标文章进行实体识别,得到目标文章对应的实体集包括步骤:根据已定义的实体类型构建正则表达式,根据正则表达式从目标文章中识别与实体类型对应的实体内容,得到目标文章对应的实体集。
可选地,在根据本发明的文章标题生成方法中,实体类型包括:车辆型号、配置、款式、车系、用途、适用人群、价格、性价比、卖点。
根据本发明的又一个方面,提供了一种文章标题生成装置,包括:实体识别模块,用于对目标文章进行实体识别,得到目标文章对应的实体集,该实体集包括一个或多个实体,实体包括实体内容和关联的实体类型;标题生成模块,用于遍历多个标题模板,对于遍历到的标题模板,从实体集中获取实体内容对标题模板中的占位符进行替换,其中,所获取的实体内容的实体类型与所替换的占位符的实体类型相同,以及当标题模板中的所有占位符替换完成时,得到目标文章对应的文章标题。
根据本发明的一个方面,提供了一种标题模板生成方法,方法在计算设备中执行,该计算设备与数据存储装置连接,数据存储装置中存储有多个标题,该方法包括步骤:遍历多个标题,对于遍历到的标题,对标题进行实体识别,得到一个或多个实体,实体包括实体内容和关联的实体类型;从标题中获取实体内容,将实体内容替换为占位符,其中,占位符关联的实体类型和被替换的实体内容关联的实体类型相同;当标题中的所有实体替换完成后,得到待定标题模板,利用训练好的神经网络模型判断待定标题模板的正误;若待定标题模板为正确模板,确定待定标题模板为标题模板。
可选地,在根据本发明的标题模板生成方法中,利用训练好的神经网络模型判断待定标题模板的正误后还包括步骤:若待定标题模板为错误模板,丢弃待定标题模板。
可选地,在根据本发明的标题模板生成方法中,对标题进行实体识别,得到一个或多个实体包括步骤:根据已定义的实体类型构建正则表达式,根据正则表达式从标题中识别与实体类型对应的实体内容,得到一个或多个实体,实体包括实体内容和关联的实体类型。
可选地,在根据本发明的标题模板生成方法中,神经网络模型为二分类模型。
可选地,在根据本发明的标题模板生成方法中,实体类型包括:车辆型号、配置、款式、车系、用途、适用人群、价格、性价比、卖点。
根据本发明的又一个方面,提供了一种标题模板生成装置,包括:实体识别模块,用于遍历标题,对于遍历到的标题,对标题进行实体识别,得到一个或多个实体,实体包括实体内容和关联的实体类型;模板生成模块,用于从标题中获取实体内容,将实体内容替换为占位符,其中,占位符关联的实体类型和被替换的实体内容关联的实体类型相同,当标题中的所有实体替换完成后,得到待定标题模板,利用训练好的神经网络模型判断待定标题模板的正误,若待定标题模板为正确模板,确定该待定标题模板为标题模板。
根据本发明的又一个方面,提供了一种计算设备,包括至少一个处理器;以及存储器,存储有程序指令,其中程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行根据本发明的文章标题生成方法。
根据本发明的又一个方面,提供了一种存储有程序指令的可读存储介质,当该程序指令被客户端读取并执行时,使得客户端执行本发明的文章标题生成方法。
根据本发明的又一个方面,提供了一种计算设备,包括至少一个处理器;以及存储器,存储有程序指令,其中程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行根据本发明的标题模板生成方法。
根据本发明的又一个方面,提供了一种存储有程序指令的可读存储介质,当该程序指令被客户端读取并执行时,使得客户端执行本发明的标题模板生成方法。
根据本发明的技术方案,对标题进行实体识别和内容抽取的方式构造多个标题模板,然后根据需要生成标题的文章获取实体集,将标题模板中的占位符替换为与其实体类型相同的实体内容,当标题模板中的所有占位符替换完成时,得到目标文章对应的文章标题。通过该方式得到的文章标题,因为替换进标题模板的实体内容从目标文章中识别得到,确保了文章标题与文章的相关性,并且替换进标题模板的实体内容和被替换的占位符对应的实体类型相同,形式可控,保证了生成的文章标题的可用性。
进一步地,对目标文章进行实体识别获取的实体集还经过了进一步的加工,根据实体集中被关联次数最多的实体类型生成新实体,或者根据实体集中的预定实体类型的实体和转换规则设置的内容转换逻辑,进行实体类型和实体内容的转换以生成新实体,通过对文章的实体内容抽象加工,扩充了文章实体内容的表达形式,保证了生成的文章标题的丰富性。有效地避免了对标题模板进行替换时,若只从直接对文章进行实体识别获取的实体集获取实体内容,标题模板中可能有一些实体类型对应的占位符不能被替换,从而无法生成文章标题的情况。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的计算设备100的构造示意图;
图2示出了根据本发明的一个实施例的文章标题生成方法200的流程图;
图3示出了根据本发明的一个实施例的标题模板生成方法300的流程图;
图4示出了根据本发明的一个实施例的文章标题生成装置400的示意图;
图5示出了根据本发明的一个实施例的标题模板生成装置500的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理器,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中,计算设备100被配置为执行文章标题生成方法或者标题模板生成方法,程序数据124中就包含了用于执行所述方法的指令。根据本发明的一个实施例,执行文章标题生成方法时,所述计算设备100还与数据存储装置(图中未示出)连接,数据存储装置中存储有多个标题模板,标题模板具有一个或多个占位符,占位符具有关联的实体类型。根据本发明的又一个实施例,执行标题模板生成方法时,所述与计算设备100连接的数据存储装置(图中未示出)存储有多个标题。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。在本方案中,可以通过键盘之类的数据输入设备获取待生成标题的文章,当然,也可以通过通信设备146获取待生成标题的文章。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中,计算机可读介质中存储一个或多个程序,这一个或多个程序中包括执行某些方法的指令,如根据本发明的实施例,计算设备100通过所述指令来执行基于本发明的文章标题生成方法或标题模板生成方法。
计算设备200上安装有支持网络文件传输和存储的客户端应用,包括原生应用或者诸如包括IE、Chrome和Firefox等浏览器,并且本地存储有各种文件,如照片、音频、视频、文档(如Word、PDF等格式的文档)。应用客户端可以运行在诸如Windows、MacOS等操作系统上。计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
在根据本发明的计算设备100中,应用122包括文章标题生成装置400和标题模板生成装置500,文章标题生成装置400和标题模板生成装置500留驻在计算设备100中,以便计算设备100通过执行文章标题生成方法200来进行文章标题生成,或者执行标题模板生成方法300来进行标题模板生成。
图2示出了根据本发明的一个实施例的文章标题生成方法200的流程图。方法200适于在计算设备(例如前述计算设备100)中执行,计算设备与数据存储装置连接,数据存储装置中存储有多个标题模板,标题模板具有一个或多个占位符,占位符具有关联的实体类型。如图2所示,文章标题生成方法始于步骤210。
在步骤S210中,对目标文章进行实体识别,得到目标文章对应的实体集。该实体集包括一个或多个实体,实体包括实体内容和关联的实体类型。
命名实体(简称实体),是文本中具有特别意义或者指代性较强的以名称为标识的实体,实体包括实体值(本发明中称为实体内容)和该实体值对应的实体类型。例如,命名实体包括人名、地名、歌曲名等实体类型。另外,在不同的领域,还有该领域的命名实体类型,例如,在汽车领域,则有车辆型号、配置、款式、车系、用途、适用人群、价格、性价比、卖点等命名实体类型。进行实体识别的方式包括三类:基于规则的方法,利用手工编写的规则,将文本与规则进行匹配来识别出命名实体;基于特征模板的方法,统计机器学习方法将NER视作序列标注任务,利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注;基于神经网络的方法,将token从离散one-hot表示映射到低维空间中成为稠密的embedding,随后将句子的embedding序列输入到RNN中,用神经网络自动提取特征,Softmax来预测每个token的标签。本发明对进行实体识别的方式不做限制,以能识别出目标文章对应的包括实体内容和关联的实体类型的实体为准。
根据本发明的一个实施例,根据已定义的实体类型构建正则表达式,根据正则表达式从目标文章中识别与实体类型对应的实体内容,得到目标文章对应的实体集。正则表达式是基于规则进行实体抽取的方法,比如,抽取文本中物品价格,如果文本中所有商品价格都是“数字+元”的形式,则可以通过正则表达式”\d*\.?\d+元”进行识别,例如若识别到1800元,即为实体内容,其对应的实体类型即为价格。具体地,在汽车领域中,实体类型包括:车辆型号、配置、款式、车系、用途、适用人群、价格、性价比、卖点。其他领域的文章的实体类型和数目可以自己设定,也可以根据神经网络进行识别,本发明不做限制。在本发明中,示出一个示例的实体集:{{配置:马力197},{价格:最低6.8万},{型号:SUV},{性价比:高性价比},……}。
利用正则表达式对标题进行识别还包括修正,下面结合利用实体类型性价比识别对应的实体内容的步骤进行说明。根据正则表达式“(性价比)[^,,。!!、\s\d来看将替代与是和且同样不]{0,4}?(非?常?很?超?高|有吸引力|突显|突出|出众|不要太高|之王)”,识别到“性价比真的超高”,副词可以忽略,因此对上述描述表示为:性价比超高。
根据本发明的又一个实施例,其中,在遍历多个标题模板的步骤之前,还包括:根据预设的转换规则对实体集中的实体进行处理,以生成一个或多个新实体,并将生成的新实体添加到实体集中。
具体地,预设的转换规则至少包括以下两类之一:一类是获取实体集中被关联次数最多的实体类型,根据被关联次数最多的实体类型生成新实体,其中,新实体的实体类型不同于被关联次数最多的实体类型,新实体的实体内容为所述被关联次数最多的实体类型;另一类是获取实体集中的预定实体类型的实体,将该实体的实体类型转换为转换规则中设置的与该实体类型对应的新实体类型,并根据该转换规则设置的内容转换逻辑,将该实体的实体内容转换成新的实体内容,从而生成新实体。
进一步地,根据该转换规则设置的内容转换逻辑,将该实体的实体内容转换成新的实体内容包含以下两种方式:将该实体的实体内容和新的实体内容按内容转换逻辑包含的映射关系一一对应,且新的实体内容不同于该实体的实体内容;或者将该实体的实体内容的值位于的阈值区间和新的实体内容按内容转换逻辑包含的映射关系一一对应,且新的实体内容不同于该实体的实体内容。
以下结合汽车领域中一个根据被关联次数最多的实体类型生成新实体的具体过程,对根据被关联次数最多的实体类型来更新实体集来进行说明。若规则为针对文章所提取出该车系的各个方面的数量,如果提取的关于某个实体类型的实体内容点数量最多,则判断此实体类型为关键类型并生成新的实体加入实体集中,新实体的实体类型为卖点,新实体的实体内容为此实体类型。对目标文章进行实体识别后得到的实体集中实体类型被关联次数如表1所示:
表1
车辆型号 用途 适用人群 价格 性价比
1次 3次 2次 1次 6次
则实体类型性价比的被关联次数最多,则判断性价比为这篇文章中车辆的卖点,在实体集中新增卖点这一实体类型,其对应的实体内容为被关联次数最多的实体类型即性价比,将被关联次数最多的实体类型生成新的实体并加入目标文章对应的实体集,更新后的实体集中实体类型被关联次数如表2所示,其中,卖点的实体内容为性价比:
表2
车辆型号 用途 适用人群 价格 性价比 卖点
1次 3次 2次 1次 6次 1次
另外,如果实体集中被关联次数最多的为适用人群,则判断该车辆卖点为适用人群,以此类推。
因为根据该转换规则设置的内容转换逻辑,将该实体的实体内容转换成新的实体内容包含两种方式。以下分别以这两种方式结合具体过程进行说明。
在将实体的实体内容和新的实体内容按内容转换逻辑包含的映射关系一一对应的方式中,若规则为:如果实体集中车辆型号为紧凑型,则级别对应A级车;实体集中车辆型号为中型车,则级别对应B级车;如果实体集中车辆型号为大中型车/中大型车,则级别对应C级车。若对目标文章进行实体识别后得到的实体集中实体类型对应的实体内容如表3所示:
表3
性价比 高性价比
型号 中型车
款式 新款
则处理后的实体集如表4所示:
表4
性价比 高性价比
型号 中型车
款式 新款
级别 B级车
在将实体的实体内容的值位于的阈值区间和新的实体内容按内容转换逻辑包含的映射关系一一对应的方式中,若规则为:当实体的实体内容为价格低于15万,则判断该车用途为“上班代步”、“买菜用”等等;如果当实体的实体内容为价格高于40万,则判断该车用途为“商务出行”、“商用”等等。若对目标文章进行实体识别后得到的实体集中实体类型对应的实体内容如表5所示:
表5
价格 13万
型号 中型车
款式 新款
处理后的实体集实体类型对应的实体内容如表6所示:
表6
价格 13万
型号 中型车
款式 新款
用途 上班代步、买菜用
另外,若按内容转换逻辑还包含了其他的映射关系,则继续根据映射关系进行转换。根据实体集中的实体和内容转换逻辑生成新的实体并加入目标文章对应的实体集,通过对文章的实体内容抽象加工,扩充了文章实体内容的表达形式,保证了生成的文章标题的丰富性。
随后,在步骤S220中,遍历多个标题模板,对于遍历到的标题模板,从实体集中获取实体内容对标题模板中的占位符进行替换。其中,所获取的实体内容的实体类型与所替换的占位符的实体类型相同。
根据本发明的一个实施例,其中一个标题模板的格式如下:
{价格}!{配置}!这款{性价比}的{车辆型号}怎么选?
从实体集中获取实体内容对标题模板中的占位符进行替换,填充后的结果如下:
最低6.8万!马力197!这款性价比极其有吸引力的紧凑型SUV怎么选?
最后在步骤S230中,当标题模板中的所有占位符替换完成时,得到目标文章对应的文章标题。
此时可能存在的情况是,若实体集中和标题模板中的占位符的实体类型相同的实体有多个,结合本发明的一个实施例,对于标题模板:{卖点}又一{性价比}{型号}!{配置}、{配置}、{配置}都有。实体集中实体类型为配置的实体内容有全景大天窗、矩阵式LED大灯、安全气囊、电动座椅、座椅通风功能、远程启动。依次从实体集中获取实体内容对标题模板中的占位符进行替换,其中,所获取的实体内容的实体类型与所替换的占位符的实体类型相同。当标题模板中的所有占位符替换完成时,生成多个待定文章标题。
利用训练好的点击率预估模型对所述多个待定文章标题进行评分,根据评分获取目标文章对应的文章标题。点击率预估模型是用来预测用户对某一物品的点击概率,需要两方面的数据,一方面是物品的数据,另一方面是用户的数据,常见的点击率预估模型有逻辑回归、通过利用非线性模型GBDT来进行特征选择、在损失函数中分别用Group Lasso去正则化用户特征和广告特征等,此处不再赘述。在本发明的一个实施例中,选取评分最高的待定文章标题为目标文章对应的文章标题。例如,通过点击率预估模型发现当{配置}占位符依次替换为全景大天窗、安全气囊、电动座椅所生成的标题更能够吸引读者点击,因此对于{配置}占位符选择全景大天窗、安全气囊、电动座椅依次进行替换,得到一个目标文章对应的文章标题。当若根据从实体集中获取实体内容对标题模板中的占位符进行替换,当以其他方式得到多个目标文章对应的文章标题时,也可以根据上述步骤获取目标文章对应的最终的文章标题。
另外,还有对于遍历到的标题模板,从实体集中获取实体内容对标题模板中的占位符进行替换包括步骤:从实体集中获取实体内容对所述标题模板中的占位符进行替换,其中,所获取的实体内容的实体类型与所替换的占位符的实体类型相同,当标题模板中存在占位符未被替换时,即从目标文章中得到的实体集包含的实体类型并不能填充完该标题模板,丢弃该标题模板。而之前的步骤中目标文章进行实体识别获取的实体集经过了进一步的加工,通过对文章的实体内容抽象加工,扩充了文章实体内容的表达形式,有效地避免了对标题模板进行替换时,若只从直接对文章进行实体识别获取的实体集获取实体内容,标题模板中可能有一些实体类型对应的占位符不能被替换,造成该标题模板被丢弃的情况。
当对数据存储装置中的存储的多个标题模板遍历完成后,每个标题模板都有生成一个与目标文章对应的文章标题的可能,也有因为标题模板中占位符关联的实体类型不在于实体集而被丢弃的可能,最后会生成多个与目标文章对应的文章标题。其中,与目标文章对应的文章标题的数目小于已存储的标题模板的数目。此时,可以将多个与目标文章对应的文章标题展示给用户供用户选择,也可以利用训练好的点击率预估模型对所述多个文章标题进行评分,根据评分选取一个文章标题作为最终的目标文章的标题。
在根据本发明的文章标题生成方法中,根据需要生成标题的文章获取实体集,将标题模板中的占位符替换为与其实体类型相同的实体内容,当标题模板中的所有占位符替换完成时,得到目标文章对应的文章标题。通过该方式得到的文章标题,因为替换进标题模板的实体内容从目标文章中识别得到,确保了文章标题与文章的相关性,并且替换进标题模板的实体内容和被替换的占位符对应的实体类型相同,形式可控,保证了生成的文章标题的可用性。
进一步地,对目标文章进行实体识别获取的实体集还经过了进一步的加工,根据实体集中被关联次数最多的实体类型生成新实体,或者根据实体集中的预定实体类型的实体和转换规则设置的内容转换逻辑,进行实体类型和实体内容的转换以生成新实体,通过对文章的实体内容抽象加工,扩充了文章实体内容的表达形式,保证了生成的文章标题的丰富性。有效地避免了对标题模板进行替换时,若只从直接对文章进行实体识别获取的实体集获取实体内容,标题模板中可能有一些实体类型对应的占位符不能被替换,从而该标题模板可能被丢弃,无法生成文章标题的情况。
相应地,在对根据需要生成标题的文章获取实体集,将标题模板中的占位符替换为与其实体类型相同的实体内容以生成目标文章的标题前,本发明还提供了一种标题模板生成方法。图3示出了根据本发明的一个实施例的标题模板生成方法300的流程图,方法300适于在计算设备(例如前述计算设备100)中执行,计算设备与数据存储装置连接,数据存储装置中存储有多个标题。如图3所示,模板生成方法始于步骤S310。
在步骤S310中,遍历多个标题,对于遍历到的标题,对标题进行实体识别,得到一个或多个实体。其中,实体包括实体内容和关联的实体类型。
根据本发明的一个实施例,根据已定义的实体类型构建正则表达式,根据正则表达式从标题中识别与实体类型对应的实体内容,得到一个或多个实体,实体包括实体内容和关联的实体类型。本发明对进行实体识别的方式不做限制,以能识别出目标文章对应的包括实体内容和关联的实体类型的实体为准。具体地,在汽车领域中,实体类型包括:型号、配置、款式、车系、用途、适用人群、价格、性价比、卖点。其他领域的文章的实体类型和数目可以自己设定,也可以根据神经网络进行识别,本发明不做限制。
例如关于实体类型性价比的正则表达式:(性价比)[^,,。!!、\s\d来看将替代与是和且同样不]{0,4}?(非?常?很?超?高|有吸引力|突显|突出|出众|不要太高|之王)。通过上述正则表达式,可以提取出标题中关于商品的性价比属性即实体内容,比方说:性价比极其有吸引力。
随后在步骤S320中,从标题中获取实体内容,将实体内容替换为占位符,其中,占位符关联的实体类型和被替换的实体内容关联的实体类型相同。
例如原标题:宽敞舒适!轴距超2.6米自主家用车推荐。
替换后的待定标题模板:{卖点}!{配置}{用途}车推荐。
最后在步骤S330中,当标题中的所有实体替换完成后,得到待定标题模板,利用训练好的神经网络模型判断待定标题模板的正误。
若待定标题模板为正确模板,确定所述待定标题模板为标题模板。
根据本发明的一个实施例,神经网络模型是二分类模型。常用的二分类模型有支持向量机,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。通过标注正确模板和错误模板,通过BILSTM训练二分类模型,实现正误模板的判断功能。将生成的待定标题模板输入到训练好的二分类模型进行模板校验:如果模型判断该模板错误,则丢弃该模板;如果模型判断该模板正确,则保留该模板。例如待定标题模板:因排放法规严格,现款{型号}面临停产。因为此模板不能适用于所有标题进行使用,所以认为它是一个错误的模板。当对数据存储装置中的存储的多个标题遍历完成后,会得到多个正确的标题模板。
在根据本发明的标题模板生成方法中,对标题进行实体识别和内容抽取的方式构造多个标题模板,并利用深度学习方法,通过学习标题正误判断的二分类模型,便可以实现快速的对大规模的标题模板进行正误判断,大大减轻了人工审核的工作量,得到了大量的标题模板。且与通过深度学习自动生成标题的方法相比,不需要海量的文章及其对应的标题,仅需要相对少量的标题,则可以生成数以万计的标题模板,可以保证生成标题模板的多样性。且这些标题模板在文章标题生成方法中页起到了关键的作用,生成的标题形式由标题模板所决定,因此生成标题的形式可控,确保标题可独立成句,保证了标题的可用性。
图4示出了根据本发明的一个实施例的文章标题生成装置400的示意图,文章标题生成装置包括实体识别模块410和标题生成模块420。
实体识别模块410用于对目标文章进行实体识别,得到目标文章对应的实体集,实体集包括一个或多个实体,实体包括实体内容和关联的实体类型;
标题生成模块420用于遍历多个标题模板,对于遍历到的标题模板,从实体集中获取实体内容对所述标题模板中的占位符进行替换,其中,所获取的实体内容的实体类型与所替换的占位符的实体类型相同,以及当标题模板中的所有占位符替换完成时,得到目标文章对应的文章标题
图5示出了根据本发明的一个实施例的标题模板生成装置500的示意图,标题生成装置包括实体识别模块510和模板生成模块520。
实体识别模块510用于遍历标题,对于遍历到的标题,对标题进行实体识别,得到一个或多个实体,实体包括实体内容和关联的实体类型;
模板生成模块520用于从标题中获取实体内容,将实体内容替换为占位符,其中,占位符关联的实体类型和被替换的实体内容关联的实体类型相同,当标题中的所有实体替换完成后,得到待定标题模板,利用训练好的神经网络模型判断待定标题模板的正误,若待定标题模板为正确模板,确定待定标题模板为标题模板。
A8、如A1-A7中任一项所述的方法,若根据从实体集中获取实体内容对所述标题模板中的占位符进行替换,当所述标题模板中存在占位符未被替换时,丢弃所述标题模板。
A9、如A1-A8中任一项所述的方法,所述对目标文章进行实体识别,得到所述目标文章对应的实体集包括步骤:
根据已定义的实体类型构建正则表达式,根据正则表达式从目标文章中识别与所述实体类型对应的实体内容,得到所述目标文章对应的实体集。
A10、如A1-A9中任一项所述的方法,所述实体类型包括:车辆型号、配置、款式、车系、用途、适用人群、价格、性价比、卖点。
A12、一种标题模板生成方法,所述方法在计算设备中执行,所述计算设备与数据存储装置连接,所述数据存储装置中存储有多个标题,所述方法包括步骤:
遍历所述标题,对于遍历到的标题,对所述标题进行实体识别,得到一个或多个实体,所述实体包括实体内容和关联的实体类型;
从所述标题中获取实体内容,将所述实体内容替换为占位符,其中,所述占位符关联的实体类型和被替换的实体内容关联的实体类型相同;
当所述标题中的所有实体替换完成后,得到待定标题模板,利用训练好的神经网络模型判断待定标题模板的正误;
若所述待定标题模板为正确模板,确定所述待定标题模板为标题模板。
A13、如A12所述的方法,所述利用训练好的神经网络模型判断待定标题模板的正误后还包括步骤:
若所述待定标题模板为错误模板,丢弃所述待定标题模板。
A14、如A12或A13所述的方法,所述对所述标题进行实体识别,得到一个或多个实体包括步骤:
根据已定义的实体类型构建正则表达式,根据正则表达式从所述标题中识别与所述实体类型对应的实体内容,得到一个或多个实体,所述实体包括实体内容和关联的实体类型。
A15、如A12-A14中任一项所述的方法,所述神经网络模型为二分类模型。
A16、如A12-A15中任一项所述的方法,所述实体类型包括:车辆型号、配置、款式、车系、用途、适用人群、价格、性价比、卖点。
A17、一种标题模板生成装置,所述装置包括:
实体识别模块,用于遍历所述标题,对于遍历到的标题,对所述标题进行实体识别,得到一个或多个实体,所述实体包括实体内容和关联的实体类型;
模板生成模块,用于从所述标题中获取实体内容,将所述实体内容替换为占位符,其中,所述占位符关联的实体类型和被替换的实体内容关联的实体类型相同,当所述标题中的所有实体替换完成后,得到待定标题模板,利用训练好的神经网络模型判断待定标题模板的正误,若所述待定标题模板为正确模板,确定所述待定标题模板为标题模板。
A20、一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如A12-A16中任一项所述的标题模板生成方法的指令。
A21、一种存储有程序指令的可读存储介质,当所述程序指令被客户端读取并执行时,使得所述客户端执行如A12-A16中任一项所述方法。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种文章标题生成方法,所述方法在计算设备中执行,所述计算设备与数据存储装置连接,所述数据存储装置中存储有多个标题模板,所述标题模板具有一个或多个占位符,所述占位符具有关联的实体类型,所述方法包括步骤:
对目标文章进行实体识别,得到所述目标文章对应的实体集,所述实体集包括一个或多个实体,所述实体包括实体内容和关联的实体类型;
遍历所述多个标题模板,对于遍历到的标题模板,从所述实体集中获取实体内容对所述标题模板中的占位符进行替换,其中,所获取的实体内容的实体类型与所替换的占位符的实体类型相同;以及
当所述标题模板中的所有占位符替换完成时,得到所述目标文章对应的文章标题。
2.如权利要求1所述的方法,其中,在遍历所述多个标题模板的步骤之前,还包括:
根据预设的转换规则对所述实体集中的实体进行处理,以生成一个或多个新实体,并将生成的新实体添加到所述实体集中。
3.如权利要求2所述的方法,所述根据预设的转换规则对所述实体集中的实体进行处理,包括步骤:
获取所述实体集中被关联次数最多的实体类型,根据所述被关联次数最多的实体类型生成新实体,其中,所述新实体的实体类型不同于所述被关联次数最多的实体类型,所述新实体的实体内容为所述被关联次数最多的实体类型。
4.如权利要求2或3所述的方法,所述根据预设的转换规则对所述实体集中的实体进行处理,还包括步骤:
获取所述实体集中的预定实体类型的实体,将该实体的实体类型转换为转换规则中设置的与该实体类型对应的新实体类型,并根据该转换规则设置的内容转换逻辑,将该实体的实体内容转换成新的实体内容,从而生成新实体。
5.如权利要求4所述的方法,所述根据该转换规则设置的内容转换逻辑,将该实体的实体内容转换成新的实体内容包括步骤:
将该实体的实体内容和新的实体内容按内容转换逻辑包含的映射关系一一对应,且新的实体内容不同于该实体的实体内容。
6.如权利要求4或5所述的方法,所述根据该转换规则设置的内容转换逻辑,将该实体的实体内容转换成新的实体内容还包括步骤:
将该实体的实体内容的值位于的阈值区间和新的实体内容按内容转换逻辑包含的映射关系一一对应,且新的实体内容不同于该实体的实体内容。
7.如权利要求1-6中任一项所述的方法,其中,若根据从实体集中获取实体内容对所述标题模板中的占位符进行替换,当得到多个所述目标文章对应的文章标题时还包括步骤:
利用训练好的点击率预估模型对所述多个待定文章标题进行评分,根据评分获取所述目标文章对应的最终的文章标题。
8.一种文章标题生成装置,所述装置包括:
实体识别模块,用于对目标文章进行实体识别,得到所述目标文章对应的实体集,所述实体集包括一个或多个实体,所述实体包括实体内容和关联的实体类型;
标题生成模块,用于遍历所述多个标题模板,对于遍历到的标题模板,从所述实体集中获取实体内容对所述标题模板中的占位符进行替换,其中,所获取的实体内容的实体类型与所替换的占位符的实体类型相同,以及当所述标题模板中的所有占位符替换完成时,得到所述目标文章对应的文章标题。
9.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-7中任一项所述的文章标题生成方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被客户端读取并执行时,使得所述客户端执行如权利要求1-7中任一项所述方法。
CN202010021095.0A 2020-01-09 2020-01-09 一种文章标题生成方法、装置及存储介质 Active CN111274799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010021095.0A CN111274799B (zh) 2020-01-09 2020-01-09 一种文章标题生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010021095.0A CN111274799B (zh) 2020-01-09 2020-01-09 一种文章标题生成方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111274799A true CN111274799A (zh) 2020-06-12
CN111274799B CN111274799B (zh) 2023-06-23

Family

ID=71001605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010021095.0A Active CN111274799B (zh) 2020-01-09 2020-01-09 一种文章标题生成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111274799B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667871A (zh) * 2020-12-30 2021-04-16 新奥数能科技有限公司 数据标识方法、装置、计算机可读存储介质及电子设备
CN112699656A (zh) * 2020-12-31 2021-04-23 北京有竹居网络技术有限公司 一种广告标题重写方法、装置、设备及储存介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976235A (zh) * 2010-09-21 2011-02-16 天津神舟通用数据技术有限公司 基于动态网页的可扩展的Word报告自动生成方法
CN103150632A (zh) * 2013-03-13 2013-06-12 河海大学 基于水利云平台的防汛防旱简报生成系统的构建方法
CN105824786A (zh) * 2015-01-05 2016-08-03 珠海金山办公软件有限公司 一种电子文档生成方法及装置
CN106021392A (zh) * 2016-05-12 2016-10-12 中国互联网络信息中心 一种新闻关键信息的提取方法及系统
CN106407344A (zh) * 2016-09-06 2017-02-15 努比亚技术有限公司 一种生成搜索引擎优化标签的方法和系统
CN106933808A (zh) * 2017-03-20 2017-07-07 百度在线网络技术(北京)有限公司 基于人工智能的文章标题生成方法、装置、设备及介质
CN107924387A (zh) * 2015-06-18 2018-04-17 缇洛公司 用于生成电子页面的系统和方法
CN108932220A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 文章生成方法和装置
CN109359284A (zh) * 2018-09-25 2019-02-19 深圳市稳大网络技术有限公司 一种报告处理方法、装置及终端设备
CN109657215A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 基于模板的文档生成方法、设备、存储介质及装置
CN109657043A (zh) * 2018-12-14 2019-04-19 北京百度网讯科技有限公司 自动生成文章的方法、装置、设备及存储介质
CN110134931A (zh) * 2019-05-14 2019-08-16 北京字节跳动网络技术有限公司 媒介标题生成方法、装置、电子设备及可读介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976235A (zh) * 2010-09-21 2011-02-16 天津神舟通用数据技术有限公司 基于动态网页的可扩展的Word报告自动生成方法
CN103150632A (zh) * 2013-03-13 2013-06-12 河海大学 基于水利云平台的防汛防旱简报生成系统的构建方法
CN105824786A (zh) * 2015-01-05 2016-08-03 珠海金山办公软件有限公司 一种电子文档生成方法及装置
CN107924387A (zh) * 2015-06-18 2018-04-17 缇洛公司 用于生成电子页面的系统和方法
CN106021392A (zh) * 2016-05-12 2016-10-12 中国互联网络信息中心 一种新闻关键信息的提取方法及系统
CN106407344A (zh) * 2016-09-06 2017-02-15 努比亚技术有限公司 一种生成搜索引擎优化标签的方法和系统
CN106933808A (zh) * 2017-03-20 2017-07-07 百度在线网络技术(北京)有限公司 基于人工智能的文章标题生成方法、装置、设备及介质
CN108932220A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 文章生成方法和装置
CN109359284A (zh) * 2018-09-25 2019-02-19 深圳市稳大网络技术有限公司 一种报告处理方法、装置及终端设备
CN109657215A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 基于模板的文档生成方法、设备、存储介质及装置
CN109657043A (zh) * 2018-12-14 2019-04-19 北京百度网讯科技有限公司 自动生成文章的方法、装置、设备及存储介质
CN110134931A (zh) * 2019-05-14 2019-08-16 北京字节跳动网络技术有限公司 媒介标题生成方法、装置、电子设备及可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667871A (zh) * 2020-12-30 2021-04-16 新奥数能科技有限公司 数据标识方法、装置、计算机可读存储介质及电子设备
CN112699656A (zh) * 2020-12-31 2021-04-23 北京有竹居网络技术有限公司 一种广告标题重写方法、装置、设备及储存介质

Also Published As

Publication number Publication date
CN111274799B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US11314969B2 (en) Semantic page segmentation of vector graphics documents
US10055391B2 (en) Method and apparatus for forming a structured document from unstructured information
US11106716B2 (en) Automatic hierarchical classification and metadata identification of document using machine learning and fuzzy matching
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
US10963692B1 (en) Deep learning based document image embeddings for layout classification and retrieval
US8156119B2 (en) Smart attribute classification (SAC) for online reviews
CN111581375B (zh) 对话意图类型识别方法、多轮对话方法、装置及计算设备
CN109784676B (zh) 数据分析的学习和使用方法、装置及计算机可读存储介质
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
US11367116B1 (en) System and method for automatic product matching
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
CN111291158B (zh) 一种信息查询方法、装置、电子设备及存储介质
CN111274799B (zh) 一种文章标题生成方法、装置及存储介质
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN110705304A (zh) 一种属性词提取方法
CN115563982A (zh) 广告文本优化方法及其装置、设备、介质、产品
CN111753535A (zh) 一种专利申请文本的生成方法和装置
US10963687B1 (en) Automatic correlation of items and adaptation of item attributes using object recognition
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质
CN114022891A (zh) 扫描文本的关键信息提取方法、装置、设备及存储介质
CN112115892A (zh) 一种关键要素抽取方法、装置、设备及存储介质
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
CN114238597A (zh) 一种信息抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant