CN112231468A - 信息生成方法、装置、电子设备及存储介质 - Google Patents
信息生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112231468A CN112231468A CN202011105926.9A CN202011105926A CN112231468A CN 112231468 A CN112231468 A CN 112231468A CN 202011105926 A CN202011105926 A CN 202011105926A CN 112231468 A CN112231468 A CN 112231468A
- Authority
- CN
- China
- Prior art keywords
- title
- target
- determining
- information
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 52
- 238000004422 calculation algorithm Methods 0.000 claims description 51
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000000153 supplemental effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract 1
- 230000018109 developmental process Effects 0.000 description 18
- 238000011161 development Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及数据处理技术领域,应用于智慧政务场景中,从而推动智慧城市的建设。本申请提供一种信息生成方法、装置、电子设备及存储介质,方法包括:获取目标文章;确定所述目标文章具有层级结构,提取所述目标文章的层级标题以及关键信息;根据预设权重以及第一预设字数阈值,从所述层级标题中确定目标标题以及从所述关键信息中确定目标信息;从所述目标标题中确定内容空洞标题;从所述内容空洞标题中确定待补充内容标题;根据所述待补充内容标题,确定补充信息;根据所述目标标题、所述目标信息以及所述补充信息,生成所述目标文章的摘要信息。本发明能生成全面的摘要信息。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种信息生成方法、装置、电子设备及存储介质。
背景技术
目前,可以通过计算机技术自动生成文章的摘要,但在实践中发现,在政务场景中,公文一般都具有层级结构,即具有分点阐述的特点,利用传统无监督的摘要提取方法,比如文本排名(textrank)算法,提取的公文摘要存在内容不够全面的问题。
因此,如何生成全面的摘要信息是一个需要解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种信息生成方法、装置、电子设备及存储介质,能够生成全面的摘要信息。
本发明的第一方面提供一种信息生成方法,所述信息生成方法包括:
获取目标文章;
确定所述目标文章具有层级结构,提取所述目标文章的层级标题以及关键信息;
根据预设权重以及第一预设字数阈值,从所述层级标题中确定目标标题以及从所述关键信息中确定目标信息;
从所述目标标题中确定内容空洞标题;
从所述内容空洞标题中确定待补充内容标题;
根据所述待补充内容标题,确定补充信息;
根据所述目标标题、所述目标信息以及所述补充信息,生成所述目标文章的摘要信息。
在一种可能的实现方式中,所述从所述目标标题中确定内容空洞标题包括:
针对每个所述目标标题,判断所述目标标题的字数是否小于第二预设字数阈值;
若所述目标标题的字数小于第二预设字数阈值,确定所述目标标题为所述内容空洞标题。
在一种可能的实现方式中,所述针对每个所述目标标题,判断所述目标标题的字数是否小于第二预设字数阈值之后,所述信息生成方法还包括:
若所述目标标题的字数大于或等于第二预设字数阈值,对所述目标标题进行分词,获得多个目标词语;
判断所述多个目标词语的词性是否均为名词;
若所述多个目标词语的词性均为名词,确定所述目标标题为内容空洞标题。
在一种可能的实现方式中,所述从所述内容空洞标题中确定待补充内容标题包括:
根据所述目标标题在所述目标文章中的位置以及所述目标信息在所述目标文章中的位置,对所述目标标题以及所述目标信息进行排序,获得目标队列;
针对每个所述内容空洞标题,判断所述目标队列中与所述内容空洞标题相邻的下一个位置的队列元素是否为第一同级标题,其中,所述第一同级标题是与所述内容空洞标题具有相同的所述预设权重的标题,所述预设权重是预先为不同类型的标题设置的表示重要程度的数值;
若所述目标队列中与所述目标标题相邻的下一个位置的队列元素为第一同级标题,确定所述内容空洞标题为待补充内容标题。
在一种可能的实现方式中,所述根据所述待补充内容标题,确定补充信息包括:
从所述目标标题中确定与所述待补充内容标题对应的第二同级标题,其中,所述第二同级标题为所述待补充内容标题在所述目标文章中的位置后面的第一个与所述待补充内容标题具有相同权重的标题;
将所述目标文章中位于所述待补充内容标题与所述第二同级标题之间的句子确定为待选择句子;
根据所述目标文章的文章类型,确定预设的句子选择策略,其中,所述句子选择策略为基于全文的文本排名算法策略或基于所述待选择句子的文本排名算法策略或相似度算法策略;
根据所述句子选择策略,从所述待选择句子中确定目标句子;
将所述目标句子确定为所述补充信息。
在一种可能的实现方式中,所述句子选择策略为相似度算法,所述根据所述句子选择策略,从所述待选择句子中确定目标句子包括:
对所述待补充内容标题进行分词,获得第一词语,以及对所述待选择句子进行分词,获得第二词语;
根据所述第一词语,生成第一词向量,以及根据所述第二词语,生成第二词向量;
根据所述第一词向量,确定所述待补充内容标题对应的标题向量,以及根据所述第二词语,确定所述待选择句子对应的句子向量;
根据所述相似度算法策略,确定每个所述句子向量与所述标题向量的相似度;
将与所述标题向量的相似度最大的句子向量对应的待选择句子确定为所述目标句子。
在一种可能的实现方式中,所述获取目标文章之后,所述信息生成方法还包括:
确定所述目标文章不具有层级结构,通过文本排名算法对所述目标文章的所有句子进行评分,获得第一分数,以及通过最大边界相关算法对所述目标文章的所有句子进行评分,获得第二分数;
根据所述第一分数以及所述第二分数,从所述目标文章中确定摘要句子;
根据所述摘要句子,生成所述目标文章的摘要信息。
本发明的第二方面提供一种信息生成装置,所述信息生成装置包括:
获取模块,用于获取目标文章;
提取模块,用于确定所述目标文章具有层级结构,提取所述目标文章的层级标题以及关键信息;
确定模块,用于根据预设权重以及第一预设字数阈值,从所述层级标题中确定目标标题以及从所述关键信息中确定目标信息;
所述确定模块,还用于从所述目标标题中确定内容空洞标题;
所述确定模块,还用于从所述内容空洞标题中确定待补充内容标题;
所述确定模块,还用于根据所述待补充内容标题,确定补充信息;
生成模块,用于根据所述目标标题、所述目标信息以及所述补充信息,生成所述目标文章的摘要信息。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的信息生成方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的信息生成方法。
由以上技术方案可知,本发明能够对具有层级结构的文章进行标题以及关键信息的提取,并从提取的标题中确定内容空洞标题,进而从内容空洞标题中确定待补充内容标题,然后根据所述待补充内容标题来确定补充信息,使得最后生成的摘要信息更加全面,本发明能够生成全面的摘要信息。
附图说明
图1是本发明公开的一种信息生成方法的一实施例的流程图。
图2是本发明公开的一种信息生成方法的另一实施例的流程图。
图3是本发明公开的一种信息生成装置的一实施例的功能模块图。
图4是本发明实现信息生成方法的一实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例的信息生成方法应用在电子设备中,也可以应用在电子设备和通过网络与所述电子设备进行连接的服务器所构成的硬件环境中,由服务器和电子设备共同执行。网络包括但不限于:广域网、城域网或局域网。
其中,服务器可以是指能对网络中其它设备(如电子设备)提供服务的计算机系统。如果一个个人电脑能够对外提供文件传输协议(File Transfer Protocol,简称FTP)服务,也可以叫服务器。从狭义范围上讲,服务器专指某些高性能计算机,能通过网络,对外提供服务,其相对于普通的个人电脑来说,稳定性、安全性、性能等方面都要求更高,因此在CPU、芯片组、内存、磁盘系统、网络等硬件和普通的个人电脑有所不同。
所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络设备、多个网络设备组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络设备构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
请参见图1,图1是本发明公开的一种信息生成方法的一实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。其中,所述信息生成方法的执行主体可以是电子设备。
S11、获取目标文章。
其中,所述目标文章可以是在政务场景中的公文。
S12、确定所述目标文章具有层级结构,提取所述目标文章的层级标题以及关键信息。
其中,所述层级结构可以是指所述目标文章中具有多个标题。
本发明实施例中,可以利用正则匹配来提取所述目标文章的层级标题以及关键信息,可以提取以中文数字为标号开头的一级标题句子,比如“一、***”或“一***”等,然后再提取以中括号为标识的二级标题句子,比如“(一)、***”或“(一)***”等,最后提取以阿拉伯数字开头的,比如“1、***”、“1.***”或提取文本中存在“一是”、“二是”等词的三级标题的句子,获得所述层级标题,同时,可以利用正则匹配提取公文重点阐述和包含关键信息的句子,即所述关键信息,比如加粗的句子,文章包含金额的最末的句子、提出建议的最末的句子、包含时间要求的句子,如“**日/月前”等。其中,所述正则匹配可以是指使用正则表达式(Regular Expression,RE)去匹配含有某个字串的字符串,可以筛选出符合预设匹配规则的内容。
S13、根据预设权重以及第一预设字数阈值,从所述层级标题中确定目标标题以及从所述关键信息中确定目标信息。
本发明实施例中,其中,可以预先为所述目标文章中不同类型的标题设置表示重要程度的数值,即权重,所述层级标题以及所述关键信息均可看作句子,不同的层级标题以及所述关键信息设置有不同的权重,其中,层级高的层级标题的权重大于层级低的层级标题,比如包含有中文数字“一”、“二”等的层级标题的权重为0.5,包含有阿拉伯数字“1”、“2”等的层级标题的权重为0.3,所述关键信息的句子的权重为0.2。在第一预设字数阈值内,按照权重从大到小的顺序依次选取层级标题作为目标标题、选取关键信息作为目标信息,比如:层级标题为“一、经济发展的作用”、“二、如何发展经济”,所述关键信息为“经济发展是中心”、“吸引外资是重点”。层级标题的权重都为0.5,关键信息的句子的权重都为0.2,若第一预设字数阈值为30,则按照权重从高到低依次获取到“一、经济发展的作用”、“二、如何发展经济”作为所述目标标题,获取到“经济发展是中心”作为所述目标信息,当前的字数为24,若继续获取“吸引外资是重点”会超出第一预设字数阈值,最终获取到的所述目标标题为“一、经济发展的作用”、以及“二、如何发展经济”,最终获取到的所述目标信息为“经济发展是中心”。
S14、从所述目标标题中确定内容空洞标题。
其中,所述内容空洞标题可以是指内容较少或者缺乏执行动作等词语的目标标题。
具体的,所述从所述目标标题中确定内容空洞标题包括:
针对每个所述目标标题,判断所述目标标题的字数是否小于第二预设字数阈值;
若所述目标标题的字数小于第二预设字数阈值,确定所述目标标题为所述内容空洞标题。
在该可选的实施方式中,可以根据标题的字数从所述目标标题中确定所述内容空洞标题,可通过设置第二预设字数阈值,以第二预设字数阈值作为与目标标题的字数的对比参量,根据目标标题的字数与第二预设字数阈值的比对结果确定该目标标题是否为内容空洞标题;本实施例中,若目标标题的字数小于第二预设字数阈值,确定所述目标标题为所述内容空洞标题。比如,将第二预设字数阈值为6,则将字数小于6的目标标题确定为所述内容空洞标题。
作为一种可选的实施方式,所述针对每个所述目标标题,判断所述目标标题的字数是否小于第二预设字数阈值之后,所述方法还包括:
若所述目标标题的字数大于或等于第二预设字数阈值,对所述目标标题进行分词,获得多个目标词语;
判断所述多个目标词语的词性是否均为名词;
若所述多个目标词语的词性均为名词,确定所述目标标题为内容空洞标题。
在该可选的实施方式中,可以对所述目标标题进行分词,获得多个目标词语,比如对“一、经济发展的作用”进行分词,可以得到的目标词语为“一”、“经济”、“发展”、“的”、“作用”。
S15、从所述内容空洞标题中确定待补充内容标题;
其中,所述待补充内容标题可以是指需要在标题后面增加句子作为补充的标题。
具体的,所述从所述内容空洞标题中确定待补充内容标题包括:
根据所述目标标题在所述目标文章中的位置以及所述目标信息在所述目标文章中的位置,对所述目标标题以及所述目标信息进行排序,获得目标队列;
针对每个所述内容空洞标题,判断所述目标队列中与所述内容空洞标题相邻的下一个位置的队列元素是否为第一同级标题,其中,所述第一同级标题是与所述内容空洞标题具有相同的预设权重的标题,所述预设权重是预先为不同类型的标题设置的表示重要程度的数值;
若所述目标队列中与所述目标标题相邻的下一个位置的队列元素为第一同级标题,确定所述内容空洞标题为待补充内容标题。
在该可选的实施方式中,若所述目标队列中与所述目标标题相邻的下一个位置的队列元素为第一同级标题,确定所述目标标题后面缺乏实质内容,需要增加句子进行补充说明,若所述目标队列中与所述目标标题相邻的下一个位置的队列元素不为第一同级标题,确定所述目标标题后面具有相关的句子说明,不需要额外增加句子进行补充说明。
S16、根据所述待补充内容标题,确定补充信息。
其中,所述补充信息可以是增加在所述待补充内容标题后面作为内容说明的句子。
具体的,所述根据所述待补充内容标题,确定补充信息包括:
从所述目标标题中确定与所述待补充内容标题对应的第二同级标题,其中,所述第二同级标题为所述待补充内容标题在所述目标文章中的位置后面的第一个与所述待补充内容标题具有相同权重的标题;
将所述目标文章中位于所述待补充内容标题与所述第二同级标题之间的句子确定为待选择句子;
根据所述目标文章的文章类型,确定预设的句子选择策略,其中,所述句子选择策略为基于全文的文本排名算法策略或基于所述待选择句子的文本排名算法策略或相似度算法策略;
根据所述句子选择策略,从所述待选择句子中确定目标句子;
将所述目标句子确定为所述补充信息。
在该可选的实施方式中,可以通过多次的实验尝试,在特定场景下观察并比较相同文章类型选取不同的句子选择策略来提取句子的效果,最终确定一种文章类型对应的效果最好的句子选择策略。
可选的,所述基于全文的文本排名算法策略指可以以所述目标文章的全文作为分析对象,利用文本排名算法计算所述目标文章全文所有句子的得分,然后从所述待选择句子中将得分最高的句子确定为所述目标句子。
可选的,所述待选择句子的文本排名算法策略指可以利用文本排名算法计算每个所述待选择句子在所有所述待选择句子中的得分,然后将得分最高的所述待选择句子确定为所述目标句子。
具体的,所述句子选择策略为相似度算法策略,所述根据所述句子选择策略,从所述待选择句子中确定目标句子包括:
对所述待补充内容标题进行分词,获得第一词语,以及对所述待选择句子进行分词,获得第二词语;
根据所述第一词语,生成第一词向量,以及根据所述第二词语,生成第二词向量;
根据所述第一词向量,确定所述待补充内容标题对应的标题向量,以及根据所述第二词语,确定所述待选择句子对应的句子向量;
根据所述相似度算法策略,确定每个所述句子向量与所述标题向量的相似度;
将与所述标题向量的相似度最大的句子向量对应的待选择句子确定为所述目标句子。
在该可选的实施方式中,词向量的获取可使用开源的中文词向量矩阵或者使用词向量模型,然后将每个句子中词的词向量求平均,获得所述标题向量和所述句子向量,可以计算出每个所述句子向量与所述标题向量的余弦距离作为所述相似度。
S17、根据所述目标标题、所述目标信息以及所述补充信息,生成所述目标文章的摘要信息。
本发明实施例中,可以将所述目标标题、所述目标信息以及所述补充信息按照各自在所述目标文章中的位置顺序进行拼接,生成所述目标文章的摘要信息。
在图1所描述的方法流程中,能够对具有层级结构的文章进行标题以及关键信息的提取,并从提取的标题中确定内容空洞标题,进而从内容空洞标题中确定待补充内容标题,然后根据所述待补充内容标题来确定补充信息,使得最后生成的摘要信息更加全面,本发明能够生成全面的摘要信息。
请参见图2,图2是本发明公开的一种信息生成方法的另一种实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。其中,所述信息生成方法的执行主体可以是电子设备。
S21、获取目标文章。
S22、确定所述目标文章不具有层级结构,通过文本排名算法对所述目标文章的所有句子进行评分,获得第一分数,以及通过最大边界相关算法对所述目标文章的所有句子进行评分,获得第二分数。
其中,所述文本排名(textrank)算法是一种用于文本的基于图的排序算法,基于谷歌的PageRank算法,通过把文本分割成若干组成单元(比如单词、句子),利用投票机制对文本中的重要成分进行排序,实现关键词的提取、文摘的生成。
其中,所述最大边界相关算法(Maximal Marginal Relevance,MMR)是一种用于计算某个句子在全文中的相似度或者重要性的算法。
S23、根据所述第一分数以及所述第二分数,从所述目标文章中确定摘要句子。
本发明实施例中,计算出每个句子的第一分数以及第二分数后,根据第一分数和第二分数的平均分的高低可以对句子进行排序,从而得到每个句子在整篇文章中的排名,比如利用文本排名算法得出第一个句子的第一分数为20分,而所述最大边界相关算法得出的第一个句子的第二分数为30分,则这个句子的第一分数与第二分数的平均分为25分,按照句子的平均分从高到低的排列顺序,依次将排在前面的句子确定为摘要句子,所有摘要句子的总字数不能超过规定的字数。
S24、根据所述摘要句子,生成所述目标文章的摘要信息。
本发明实施例中,将摘要句子按照其在所述目标文章的位置进行拼接,生成所述目标文章的摘要信息。
图3是本发明公开的一种信息生成装置的一实施例的功能模块图。
请参见图3,所述信息生成装置20可运行于电子设备中。所述信息生成装置20可以包括多个由程序代码段所组成的功能模块。所述信息生成装置20中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1及/或图2所描述的信息生成方法中的部分或全部步骤。
本实施例中,所述信息生成装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、提取模块202、确定模块203、及生成模块204。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
获取模块201,用于获取目标文章。
其中,所述目标文章可以是在政务场景中的公文。
提取模块202,用于确定所述目标文章具有层级结构,提取所述目标文章的层级标题以及关键信息。
其中,所述层级结构可以是指所述目标文章中具有多个标题。
本发明实施例中,可以利用正则匹配来提取所述目标文章的层级标题以及关键信息,可以提取以中文数字为标号开头的一级标题句子,比如“一、***”或“一***”等,然后再提取以中括号为标识的二级标题句子,比如“(一)、***”或“(一)***”等,最后提取以阿拉伯数字开头的,比如“1、***”、“1.***”或提取文本中存在“一是”、“二是”等词的三级标题的句子,获得所述层级标题,同时,可以利用正则匹配提取公文重点阐述和包含关键信息的句子,即所述关键信息,比如加粗的句子,文章包含金额的最末的句子、提出建议的最末的句子、包含时间要求的句子,如“**日/月前”等。其中,所述正则匹配可以是指使用正则表达式(Regular Expression,RE)去匹配含有某个字串的字符串,可以筛选出符合预设匹配规则的内容。
确定模块203,用于根据预设权重以及第一预设字数阈值,从所述层级标题中确定目标标题以及从所述关键信息中确定目标信息。
本发明实施例中,其中,可以预先为所述目标文章中不同类型的标题设置表示重要程度的数值,即权重,所述层级标题以及所述关键信息均可看作句子,不同的层级标题以及所述关键信息设置有不同的权重,其中,层级高的层级标题的权重大于层级低的层级标题,比如包含有中文数字“一”、“二”等的层级标题的权重为0.5,包含有阿拉伯数字“1”、“2”等的层级标题的权重为0.3,所述关键信息的句子的权重为0.2,在第一预设字数阈值内,按照权重从大到小的顺序依次选取层级标题作为目标标题、选取关键信息作为目标信息,比如:层级标题为“一、经济发展的作用”、“二、如何发展经济”,所述关键信息为“经济发展是中心”、“吸引外资是重点”,层级标题的权重都为0.5,关键信息的句子的权重都为0.2,若第一预设字数阈值为30,则按照权重从高到低依次获取到“一、经济发展的作用”、“二、如何发展经济”作为所述目标标题,获取到“经济发展是中心”作为所述目标信息,当前的字数为24,若继续获取“吸引外资是重点”会超出第一预设字数阈值,最终获取到的所述目标标题为“一、经济发展的作用”、以及“二、如何发展经济”,最终获取到的所述目标信息为“经济发展是中心”。
所述确定模块203,还用于从所述目标标题中确定内容空洞标题。
其中,所述内容空洞标题可以是指内容较少或者缺乏执行动作等词语的目标标题。
所述确定模块203,还用于从所述内容空洞标题中确定待补充内容标题。
其中,所述待补充内容标题可以是指需要在标题后面增加句子作为补充的标题。
所述确定模块203,还用于根据所述待补充内容标题,确定补充信息。
其中,所述补充信息可以是增加在所述待补充内容标题后面作为内容说明的句子。
生成模块204,用于根据所述目标标题、所述目标信息以及所述补充信息,生成所述目标文章的摘要信息。
本发明实施例中,可以将所述目标标题、所述目标信息以及所述补充信息按照各自在所述目标文章中的位置顺序进行拼接,生成所述目标文章的摘要信息。
作为一种可选的实施方式,所述确定模块203从所述目标标题中确定内容空洞标题的方式具体为:
针对每个所述目标标题,判断所述目标标题的字数是否小于第二预设字数阈值;
若所述目标标题的字数小于第二预设字数阈值,确定所述目标标题为所述内容空洞标题。
在该可选的实施方式中,可以根据标题的字数从所述目标标题中确定所述内容空洞标题,比如将字数小于6的目标标题确定为所述内容空洞标题。
作为一种可选的实施方式,所述信息生成装置20还包括:
分词模块,用于所述确定模块203针对每个所述目标标题,判断所述目标标题的字数是否小于第二预设字数阈值之后,若所述目标标题的字数大于或等于第二预设字数阈值,对所述目标标题进行分词,获得多个目标词语;
判断模块,用于判断所述多个目标词语的词性是否均为名词;
所述确定模块203,还用于若所述多个目标词语的词性均为名词,确定所述目标标题为内容空洞标题。
在该可选的实施方式中,可以对所述目标标题进行分词,获得多个目标词语,比如对“一、经济发展的作用”进行分词,可以得到的目标词语为“一”、“经济”、“发展”、“的”、“作用”。
作为一种可选的实施方式,所述确定模块203从所述内容空洞标题中确定待补充内容标题的方式具体为:
根据所述目标标题在所述目标文章中的位置以及所述目标信息在所述目标文章中的位置,对所述目标标题以及所述目标信息进行排序,获得目标队列;
针对每个所述内容空洞标题,判断所述目标队列中与所述内容空洞标题相邻的下一个位置的队列元素是否为第一同级标题,其中,所述第一同级标题是与所述内容空洞标题具有相同的权重的标题,所述预设权重是预先为不同类型的标题设置的表示重要程度的数值;
若所述目标队列中与所述目标标题相邻的下一个位置的队列元素为第一同级标题,确定所述内容空洞标题为待补充内容标题。
在该可选的实施方式中,若所述目标队列中与所述目标标题相邻的下一个位置的队列元素为第一同级标题,确定所述目标标题后面缺乏实质内容,需要增加句子进行补充说明,若所述目标队列中与所述目标标题相邻的下一个位置的队列元素不为第一同级标题,确定所述目标标题后面具有相关的句子说明,不需要额外增加句子进行补充说明。
作为一种可选的实施方式,所述确定模块203根据所述待补充内容标题,确定补充信息的方式具体为:
从所述目标标题中确定与所述待补充内容标题对应的第二同级标题,其中,所述第二同级标题为所述待补充内容标题在所述目标文章中的位置后面的第一个与所述待补充内容标题具有相同权重的标题;
将所述目标文章中位于所述待补充内容标题与所述第二同级标题之间的句子确定为待选择句子;
根据所述目标文章的文章类型,确定预设的句子选择策略,其中,所述句子选择策略为基于全文的文本排名算法策略或基于所述待选择句子的文本排名算法策略或相似度算法策略;
根据所述句子选择策略,从所述待选择句子中确定目标句子;
将所述目标句子确定为所述补充信息。
在该可选的实施方式中,可以通过多次的实验尝试,在特定场景下观察并比较相同文章类型选取不同的句子选择策略来提取句子的效果,最终确定一种文章类型对应的效果最好的句子选择策略。
可选的,所述基于全文的文本排名算法策略指可以以所述目标文章的全文作为分析对象,利用文本排名算法计算所述目标文章全文所有句子的得分,然后从所述待选择句子中将得分最高的句子确定为所述目标句子。
可选的,所述待选择句子的文本排名算法策略指可以利用文本排名算法计算每个所述待选择句子在所有所述待选择句子中的得分,然后将得分最高的所述待选择句子确定为所述目标句子。
作为一种可选的实施方式,所述句子选择策略为相似度算法,所述确定模块203根据所述句子选择策略,从所述待选择句子中确定目标句子的方式具体为:
对所述待补充内容标题进行分词,获得第一词语,以及对所述待选择句子进行分词,获得第二词语;
根据所述第一词语,生成第一词向量,以及根据所述第二词语,生成第二词向量;
根据所述第一词向量,确定所述待补充内容标题对应的标题向量,以及根据所述第二词语,确定所述待选择句子对应的句子向量;
根据所述相似度算法策略,确定每个所述句子向量与所述标题向量的相似度;
将与所述标题向量的相似度最大的句子向量对应的待选择句子确定为所述目标句子。
在该可选的实施方式中,词向量的获取可使用开源的中文词向量矩阵或者使用词向量模型,然后将每个句子中词的词向量求平均,获得所述标题向量和所述句子向量,可以计算出每个所述句子向量与所述标题向量的余弦距离作为所述相似度。
作为一种可选的实施方式,所述信息生成装置20还包括:
评分模块,用于所述获取模块201获取目标文章之后,确定所述目标文章不具有层级结构,通过文本排名算法对所述目标文章的所有句子进行评分,获得第一分数,以及通过最大边界相关算法对所述目标文章的所有句子进行评分,获得第二分数;
所述确定模块203,还用于根据所述第一分数以及所述第二分数,从所述目标文章中确定摘要句子;
所述生成模块204,还用于根据所述摘要句子,生成所述目标文章的摘要信息。
其中,所述文本排名(textrank)算法是一种用于文本的基于图的排序算法,基于谷歌的PageRank算法,通过把文本分割成若干组成单元(比如单词、句子),利用投票机制对文本中的重要成分进行排序,实现关键词的提取、文摘的生成。
其中,所述最大边界相关算法(Maximal Marginal Relevance,MMR)是一种用于计算某个句子在全文中的相似度或者重要性的算法。
在该可选的实施方式中,确定所述目标文章不具有层级结构,通过文本排名算法对所述目标文章的所有句子进行评分,获得第一分数,以及通过最大边界相关算法对所述目标文章的所有句子进行评分,获得第二分数,根据所述第一分数以及所述第二分数,从所述目标文章中确定摘要句子,根据所述摘要句子,生成所述目标文章的摘要信息,计算出每个句子的分数后,根据分数的高低可以对句子进行排序,从而得到每个句子在整篇文章中的排名,比如利用文本排名算法得出第一个句子排在第5位,而所述最大边界相关算法得出的第一个句子排名在第3位,则这个句子的最终排名是取这两个排名的平均,即第4位,可以在预设的字数范围内,按照句子排名从高到低或者按照句子的所述第一分数与所述第二分数的平均分数从高到低,依次将句子组成所述目标文章的摘要信息。
在图3所描述的信息生成装置20中,能够对具有层级结构的文章进行标题以及关键信息的提取,并从提取的标题中确定内容空洞标题,进而从内容空洞标题中确定待补充内容标题,然后根据所述待补充内容标题来确定补充信息,使得最后生成的摘要信息更加全面,本发明能够生成全面的摘要信息。
如图4所示,图4是本发明实现信息生成方法的一实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。
本领域技术人员可以理解,图4所示的示意图仅仅是所述电子设备3的示例,并不构成对所述电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备等。
所述电子设备3还包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(InternetProtocol Television,IPTV)、智能式穿戴式设备等。所述电子设备3所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据等。此外,存储器31可以包括易失性和非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件等。
结合图1,所述电子设备3中的所述存储器31存储多个指令以实现一种信息生成方法,所述处理器32可执行所述多个指令从而实现:
获取目标文章;
确定所述目标文章具有层级结构,提取所述目标文章的层级标题以及关键信息;
根据预设权重以及第一预设字数阈值,从所述层级标题中确定目标标题以及从所述关键信息中确定目标信息;
从所述目标标题中确定内容空洞标题;
从所述内容空洞标题中确定待补充内容标题;
根据所述待补充内容标题,确定补充信息;
根据所述目标标题、所述目标信息以及所述补充信息,生成所述目标文章的摘要信息。
具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图4所描述的电子设备3中,能够对具有层级结构的文章进行标题以及关键信息的提取,并从提取的标题中确定内容空洞标题,进而从内容空洞标题中确定待补充内容标题,然后根据所述待补充内容标题来确定补充信息,使得最后生成的摘要信息更加全面,本发明能够生成全面的摘要信息。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存储器(RAM,Random Access Memory)等。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种信息生成方法,其特征在于,所述信息生成方法包括:
获取目标文章;
确定所述目标文章具有层级结构,提取所述目标文章的层级标题以及关键信息;
根据预设权重以及第一预设字数阈值,从所述层级标题中确定目标标题以及从所述关键信息中确定目标信息;
从所述目标标题中确定内容空洞标题;
从所述内容空洞标题中确定待补充内容标题;
根据所述待补充内容标题,确定补充信息;
根据所述目标标题、所述目标信息以及所述补充信息,生成所述目标文章的摘要信息。
2.根据权利要求1所述的信息生成方法,其特征在于,所述从所述目标标题中确定内容空洞标题包括:
针对每个所述目标标题,判断所述目标标题的字数是否小于第二预设字数阈值;
若所述目标标题的字数小于第二预设字数阈值,确定所述目标标题为所述内容空洞标题。
3.根据权利要求2所述的信息生成方法,其特征在于,所述针对每个所述目标标题,判断所述目标标题的字数是否小于第二预设字数阈值之后,所述信息生成方法还包括:
若所述目标标题的字数大于或等于第二预设字数阈值,对所述目标标题进行分词,获得多个目标词语;
判断所述多个目标词语的词性是否均为名词;
若所述多个目标词语的词性均为名词,确定所述目标标题为内容空洞标题。
4.根据权利要求1所述的信息生成方法,其特征在于,所述从所述内容空洞标题中确定待补充内容标题包括:
根据所述目标标题在所述目标文章中的位置以及所述目标信息在所述目标文章中的位置,对所述目标标题以及所述目标信息进行排序,获得目标队列;
针对每个所述内容空洞标题,判断所述目标队列中与所述内容空洞标题相邻的下一个位置的队列元素是否为第一同级标题,其中,所述第一同级标题是与所述内容空洞标题具有相同的所述预设权重的标题,所述预设权重是预先为不同类型的标题设置的表示重要程度的数值;
若所述目标队列中与所述目标标题相邻的下一个位置的队列元素为第一同级标题,确定所述内容空洞标题为待补充内容标题。
5.根据权利要求1至4中任一项所述的信息生成方法,其特征在于,所述根据所述待补充内容标题,确定补充信息包括:
从所述目标标题中确定与所述待补充内容标题对应的第二同级标题,其中,所述第二同级标题为所述待补充内容标题在所述目标文章中的位置后面的第一个与所述待补充内容标题具有相同权重的标题;
将所述目标文章中位于所述待补充内容标题与所述第二同级标题之间的句子确定为待选择句子;
根据所述目标文章的文章类型,确定预设的句子选择策略,其中,所述句子选择策略为基于全文的文本排名算法策略或基于所述待选择句子的文本排名算法策略或相似度算法策略;
根据所述句子选择策略,从所述待选择句子中确定目标句子;
将所述目标句子确定为所述补充信息。
6.根据权利要求5所述的信息生成方法,其特征在于,所述句子选择策略为相似度算法,所述根据所述句子选择策略,从所述待选择句子中确定目标句子包括:
对所述待补充内容标题进行分词,获得第一词语,以及对所述待选择句子进行分词,获得第二词语;
根据所述第一词语,生成第一词向量,以及根据所述第二词语,生成第二词向量;
根据所述第一词向量,确定所述待补充内容标题对应的标题向量,以及根据所述第二词语,确定所述待选择句子对应的句子向量;
根据所述相似度算法策略,确定每个所述句子向量与所述标题向量的相似度;
将与所述标题向量的相似度最大的句子向量对应的待选择句子确定为所述目标句子。
7.根据权利要求1至4中任一项所述的信息生成方法,其特征在于,所述获取目标文章之后,所述信息生成方法还包括:
确定所述目标文章不具有层级结构,通过文本排名算法对所述目标文章的所有句子进行评分,获得第一分数,以及通过最大边界相关算法对所述目标文章的所有句子进行评分,获得第二分数;
根据所述第一分数以及所述第二分数,从所述目标文章中确定摘要句子;
根据所述摘要句子,生成所述目标文章的摘要信息。
8.一种信息生成装置,其特征在于,所述信息生成装置包括:
获取模块,用于获取目标文章;
提取模块,用于确定所述目标文章具有层级结构,提取所述目标文章的层级标题以及关键信息;
确定模块,用于根据预设权重以及第一预设字数阈值,从所述层级标题中确定目标标题以及从所述关键信息中确定目标信息;
所述确定模块,还用于从所述目标标题中确定内容空洞标题;
所述确定模块,还用于从所述内容空洞标题中确定待补充内容标题;
所述确定模块,还用于根据所述待补充内容标题,确定补充信息;
生成模块,用于根据所述目标标题、所述目标信息以及所述补充信息,生成所述目标文章的摘要信息。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的信息生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的信息生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011105926.9A CN112231468B (zh) | 2020-10-15 | 2020-10-15 | 信息生成方法、装置、电子设备及存储介质 |
PCT/CN2020/131957 WO2021174924A1 (zh) | 2020-10-15 | 2020-11-26 | 信息生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011105926.9A CN112231468B (zh) | 2020-10-15 | 2020-10-15 | 信息生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231468A true CN112231468A (zh) | 2021-01-15 |
CN112231468B CN112231468B (zh) | 2024-09-06 |
Family
ID=74117661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011105926.9A Active CN112231468B (zh) | 2020-10-15 | 2020-10-15 | 信息生成方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112231468B (zh) |
WO (1) | WO2021174924A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118069833A (zh) * | 2024-04-17 | 2024-05-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 层次化摘要的生成方法、装置、设备及可读存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112231468B (zh) * | 2020-10-15 | 2024-09-06 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN115438654B (zh) * | 2022-11-07 | 2023-03-24 | 华东交通大学 | 文章标题生成方法、装置、存储介质及电子设备 |
CN118520504B (zh) * | 2024-07-19 | 2024-10-15 | 泰安市东信智联信息科技有限公司 | 一种面向智慧办公系统的文档脱敏存储方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963830B1 (en) * | 1999-07-19 | 2005-11-08 | Fujitsu Limited | Apparatus and method for generating a summary according to hierarchical structure of topic |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN106484660A (zh) * | 2016-10-21 | 2017-03-08 | 合网络技术(北京)有限公司 | 标题处理方法和装置 |
CN106933808A (zh) * | 2017-03-20 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章标题生成方法、装置、设备及介质 |
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
CN111401044A (zh) * | 2018-12-27 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 一种标题生成方法、装置、终端设备及存储介质 |
CN111460131A (zh) * | 2020-02-18 | 2020-07-28 | 平安科技(深圳)有限公司 | 公文摘要提取方法、装置、设备及计算机可读存储介质 |
WO2021174924A1 (zh) * | 2020-10-15 | 2021-09-10 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133213B (zh) * | 2017-05-06 | 2020-09-25 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN111125348A (zh) * | 2019-11-25 | 2020-05-08 | 北京明略软件系统有限公司 | 一种文本摘要的提取方法及装置 |
CN111125349A (zh) * | 2019-12-17 | 2020-05-08 | 辽宁大学 | 基于词频和语义的图模型文本摘要生成方法 |
-
2020
- 2020-10-15 CN CN202011105926.9A patent/CN112231468B/zh active Active
- 2020-11-26 WO PCT/CN2020/131957 patent/WO2021174924A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963830B1 (en) * | 1999-07-19 | 2005-11-08 | Fujitsu Limited | Apparatus and method for generating a summary according to hierarchical structure of topic |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN106484660A (zh) * | 2016-10-21 | 2017-03-08 | 合网络技术(北京)有限公司 | 标题处理方法和装置 |
CN106933808A (zh) * | 2017-03-20 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章标题生成方法、装置、设备及介质 |
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
CN111401044A (zh) * | 2018-12-27 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 一种标题生成方法、装置、终端设备及存储介质 |
CN111460131A (zh) * | 2020-02-18 | 2020-07-28 | 平安科技(深圳)有限公司 | 公文摘要提取方法、装置、设备及计算机可读存储介质 |
WO2021174924A1 (zh) * | 2020-10-15 | 2021-09-10 | 平安科技(深圳)有限公司 | 信息生成方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118069833A (zh) * | 2024-04-17 | 2024-05-24 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 层次化摘要的生成方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021174924A9 (zh) | 2022-09-15 |
CN112231468B (zh) | 2024-09-06 |
WO2021174924A1 (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN111177569B (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN112231468A (zh) | 信息生成方法、装置、电子设备及存储介质 | |
Vu et al. | An experiment in integrating sentiment features for tech stock prediction in twitter | |
US10102191B2 (en) | Propagation of changes in master content to variant content | |
JP5924666B2 (ja) | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム | |
CN109657053B (zh) | 多文本摘要生成方法、装置、服务器及存储介质 | |
CN110929145A (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
WO2019041520A1 (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
US20190151758A1 (en) | Unique virtual entity creation based on real world data sources | |
CN110472043B (zh) | 一种针对评论文本的聚类方法及装置 | |
US8606779B2 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
CN110457672A (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN110321561B (zh) | 一种关键词提取方法和装置 | |
CN108287875B (zh) | 人物共现关系确定方法、专家推荐方法、装置及设备 | |
CN108415897A (zh) | 基于人工智能的类别判别方法、装置及存储介质 | |
CN109271641A (zh) | 一种文本相似度计算方法、装置及电子设备 | |
CN111538828A (zh) | 文本情感分析方法、装置、计算机装置及可读存储介质 | |
CN112686026B (zh) | 基于信息熵的关键词提取方法、装置、设备及介质 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN112989208A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN109952571A (zh) | 基于上下文的图像搜索结果 | |
WO2021012958A1 (zh) | 原创文本甄别方法、装置、设备与计算机可读存储介质 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |