CN110489543A - 一种新闻摘要的提取方法及装置 - Google Patents

一种新闻摘要的提取方法及装置 Download PDF

Info

Publication number
CN110489543A
CN110489543A CN201910749815.2A CN201910749815A CN110489543A CN 110489543 A CN110489543 A CN 110489543A CN 201910749815 A CN201910749815 A CN 201910749815A CN 110489543 A CN110489543 A CN 110489543A
Authority
CN
China
Prior art keywords
news
brief
object type
search object
main search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910749815.2A
Other languages
English (en)
Other versions
CN110489543B (zh
Inventor
王飞
柳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dike Technology Co Ltd
Original Assignee
Beijing Dike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dike Technology Co Ltd filed Critical Beijing Dike Technology Co Ltd
Priority to CN201910749815.2A priority Critical patent/CN110489543B/zh
Publication of CN110489543A publication Critical patent/CN110489543A/zh
Application granted granted Critical
Publication of CN110489543B publication Critical patent/CN110489543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新闻摘要的提取方法及装置,所述方法包括:确定用户输入的多个过滤关键词,以及根据所述多个过滤关键词确定新闻正文;根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型,以及所述主搜索对象类型在所述新闻正文的位置;根据至少一个所述主搜索对象类型在所述新闻正文的位置、所述多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点;根据所述摘要截取基准点和所述预设的新闻摘要字数,确定新闻摘要的起始点和终止点,并生成所述新闻摘要。从而提高新闻摘要与搜索关键词的相关度,提高用户体验。

Description

一种新闻摘要的提取方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种新闻摘要的提取方法及装置。
背景技术
为了对企业信息查询平台和平台专业版新闻舆情维度进行优化以及舆情子站的搭建,扩展新闻来源并提高新闻时效性,需要对新闻舆情维度进行全面改造。在展示新闻列表时,不仅需要展示新闻题目,同时需要显示新闻摘要作为该新闻正文的简介,方便用户对该新闻正文的大致浏览。
一般地,直接截取正文的一部分作为摘要显示,例如新闻正文的第一段内容作为新闻摘要显示给用户。可见,现有新闻摘要中,仅仅采用截取新闻正文前几百字的方式进行显示,导致新闻摘要与搜索关键词的相关度不够高,展示效果不好。
发明内容
本发明提供一种新闻摘要的提取方法及装置,用以解决现有技术中新闻摘要与搜索关键词相关度不高,导致新闻展示效果较差的问题。
第一方面,本发明实施例提供一种新闻摘要的提取方法,包括:
确定用户输入的多个过滤关键词,以及根据所述多个过滤关键词确定新闻正文;
根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型,以及所述主搜索对象类型在所述新闻正文的位置;
根据至少一个所述主搜索对象类型在所述新闻正文的位置、所述多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点;
根据所述摘要截取基准点和所述预设的新闻摘要字数,确定新闻摘要的起始点和终止点,并生成所述新闻摘要。
第二方面,本发明还提供了一种新闻摘要的提取装置,包括:
新闻正文确定单元,用于确定用户输入的多个过滤关键词,以及根据所述多个过滤关键词确定新闻正文;
主搜索对象类型确定单元,用于根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型,以及所述主搜索对象类型在所述新闻正文的位置;
摘要截取基准点确定单元,用于根据至少一个所述主搜索对象类型在所述新闻正文的位置、所述多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点;
摘要生成单元,用于根据所述摘要截取基准点和所述预设的新闻摘要字数,确定新闻摘要的起始点和终止点,并生成所述新闻摘要。
第三方面,本发明还提供了一种新闻摘要的提取装置,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行如第一方面提供的任一种的新闻摘要的提取方法。
第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面提供的任一种的新闻摘要的提取方法。
本发明有益效果如下:
本发明提供的新闻摘要的提取方法中,首先确定用户输入的多个过滤关键词,以及根据多个过滤关键词确定的新闻正文;然后根据该新闻正文,确定该新闻正文所对应的至少一个主搜索对象类型,以及每一主搜索对象类型在新闻正文的位置;然后根据至少一个主搜索对象类型在新闻正文的位置、多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点;最后根据摘要截取基准点和预设的新闻摘要字数,确定新闻摘要的起始点和终止点,并生成新闻摘要。可见,本发明中提供的新闻摘要的提取方法中,主要通过过滤关键词和主搜索对象类型确定摘要截取基准点,以及根据该截取基准点对摘要进行截取,使得新闻摘要的内容与过滤关键词和主搜索对象类型高度相关,提高新闻展示效果;另外,本发明中生成的新闻摘要与当前过滤关键词高度相关,使得同一新闻正文可以根据过滤关键词的不同截取出不同的新闻摘要内容,提高新闻摘要显示的灵活性,提高用户体验。
附图说明
图1为本发明实施例提供的一种新闻摘要的提取方法的流程示意图;
图2为本发明实施例提供的一种新闻摘要的提取装置的结构示意图;
图3为本发明实施例提供的另一种新闻摘要的提取装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供一种新闻摘要的提取方法及装置,用以解决现有技术中新闻摘要与搜索关键词相关度不高,导致新闻展示效果较差的问题。
本发明实施例中,新闻摘要的提取方法可以适用于任一信息查询平台上。
参见图1,本发明实施例提供的一种新闻摘要的提取方法,包括:
S101、确定用户输入的多个过滤关键词,以及根据多个过滤关键词确定新闻正文;
本发明实施例中,过滤关键词包括公司名称、组织名称或人员名称中的任一种,或者任几种;或者,过滤关键词还可以为其他,如重大事件或网络新闻等,在此不做具体限定。本发明实施例中多个过滤关键词包括两个或者两个以上。本实施例仅以但不限于过滤关键词包括公司名称、组织名称以及人员名称进行解释说明。
具体地,用户输入多个过滤关键词,则可以对应显示至少一篇新闻正文,此处显示的新闻正文是需要提取新闻摘要的新闻。当然,可以多篇新闻正文进行摘要显示,但是需要对每一新闻正文根据本发明实施例提供的新闻摘要的提取方法进行提取。
需要说明的是,确定新闻正文后,可以根据新闻正文内容搜索过滤关键词,并确定每个过滤关键词的位置。具体地,在确定过滤关键词的名称后,新闻正文可能包括多个该过滤关键词,则通过搜索正文所有内容,确定所有包括过滤关键词的位置。例如,获取每一名称在正文中的下标,从而确定该名称的位置,如采用[start,end]的格式存储该名称的位置。若过滤关键词为“京东”,则搜索到在正文部分出现3个“京东”,其中,第一次“京东”对应的位置为[3,4]则确定京东位于正文的第4位和第5位的位置;第二次“京东”对应的位置为[15,16],则确定京东位于正文的第16位和第17位;第三次“京东”对应的位置为[100,101],则确定京东位于正文的第101位和第102位,其中,正文的第一位的下标为0。另外,也可以在存储器中预先存储了过滤关键词的名称,以及该名称在新闻正文的所有位置,使得当确定新闻正文后,则可以从存储器中获取每一过滤关键词的名称以及对应的所有位置。
可选地,在存储器中预先存储了过滤关键词的名称,以及该名称在新闻正文的所有位置时,可以采用标识的方式进行存储,如每一过滤关键词用不同的标识进行标记,且该标识下存储有该过滤关键词的名称以及对应的所有位置。因此,在确定新闻正文后,可以根据过滤关键词的标识,确定该标识所对应的所有位置。
S102、根据新闻正文,确定新闻正文所对应的至少一个主搜索对象类型,以及主搜索对象类型在新闻正文的位置;
本发明实施例中,主搜索对象类型为新闻正文挂载的标签的名称。如,若一则新闻正文挂载在百度名称下,则该新闻正文所对应的主搜索对象类型的名称为百度,若百度在新闻正文中的名称为多个,则主搜索对象类型为多个,如百度网讯或者北京百度网讯科技有限公司等。因此,主搜索对象类型在新闻正文的位置,可以包括所有“百度”在新闻正文的位置;“百度网讯”在新闻正文的位置;以及,“北京百度网讯科技有限公司”在新闻正文的位置。
具体地,可以在存储器中预先存储了每一主搜索对象类型的名称,以及该名称在新闻正文的位置,使得当确定新闻正文后,则可以从存储器中获取每一主搜索对象类型的名称以及对应的位置;或者,直接根据新闻正文,进行筛选,从新闻正文中筛选出每一主搜索对象类型的名称,并确定该名称在新闻正文的位置,并存储在存储器中,方便后期的使用。具体地,在确定主搜索对象类型的名称后,可以获取该名称在正文中的下标,从而确定该名称的位置,如采用[start,end]的格式存储该名称的位置。例如,若百度对应的[9,10]则确定百度位于正文的第10位和第11位的位置。
可选地,在存储器中预先存储了每一主搜索对象类型的名称,以及该名称在新闻正文的位置时,可以采用标识的方式进行存储,如不同的主搜索对象类型用不同的标识进行标记,且该标识下存储有该主搜索对象类型的名称以及对应的位置。因此,在确定新闻正文所对应的至少一个主搜索对象类型,以及在新闻正文的位置时,可以根据标识,确定该标识对应的主搜索对象类型的名称以及该名称所对应的位置。
需要说明的是,本发明实施例中主搜索对象类型在新闻正文的位置,可以理解为该主搜索对象类型在新闻正文所在的起点和终点。过滤关键词在新闻正文出现的位置,可以理解为该过滤关键词在新闻正文的所有位置。确定新闻正文后,可以先确定每一过滤关键词的所有位置,或者可以先确定主搜索对象类型的名称和位置,在此不做具体限定。
S103、根据至少一个主搜索对象类型在新闻正文的位置、多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点;
本发明实施例中,预设的新闻摘要字数可以根据实际情况进行设定。例如,摘要为100字或者150字。在此不做具体限定。摘要截取基准点为预计要截取摘要的起始点。
S104、根据摘要截取基准点和预设的新闻摘要字数,确定新闻摘要的起始点和终止点,并生成新闻摘要。
本发明实施例提供的新闻摘要的提取方法中,主要通过多个过滤关键词和主搜索对象类型确定摘要截取基准点,以及根据该截取基准点对摘要进行截取,使得新闻摘要的内容与过滤关键词和主搜索对象类型高度相关,提高新闻展示效果;另外,本发明中生成的新闻摘要与当前过滤关键词高度相关,使得同一新闻正文可以根据过滤关键词的不同截取出不同的新闻摘要内容,提高新闻摘要显示的灵活性,提高用户体验。
在一些可选的实施例中,本发明中提供的上述新闻摘要的提取方法中,步骤S101之后,步骤S102之前,该方法还包括:对新闻正文进行去超级文本标记语言(HTML)处理,形成纯文本的新闻。
一般地,新闻正文中会自带一些HTML标签,如果直接对带有HTML标签的新闻正文进行截取形成摘要,可能会截到标签的中间,使得由于半个标签的存在导致大段文本被作为标签内文字而不显示。因此,本发明实施例中在截取新闻正文前,需要对新闻正文进行去HTML标签处理,从而使得新闻正文形成纯文本,有利于对正文的截取。可选地,对新闻正文进行去HTML标签处理的方式有多种,可以采用现有技术中的任一种去标签处理方式,如采用Jsoup方式进行处理,在此不做赘述。
在一些可选的实施例中,本发明中提供的上述新闻摘要的提取方法中,S102中根据新闻正文,确定新闻正文所对应的至少一个主搜索对象类型,以及主搜索对象类型在新闻正文的位置,包括:根据新闻正文,确定新闻正文所对应的至少一个主搜索对象类型的标识信息;根据至少一个标识信息,确定每一标识信息对应的主搜索对象类型的名称;根据每一主搜索对象类型的名称,确定主搜索对象类型的名称在新闻正文的位置。
其中,存储器中预先存储了该新闻正文中所有主搜对象类型的名称和该名称在新闻正文的具体位置,并对应在不用的标识信息中进行存储。例如,主搜对象为百度,则主搜索对象类型的名称包括:百度、百度网讯以及北京百度网讯科技有限公司。其中,百度对应的标识信息包括:百度在新闻正文中的出现过的次数,以及每一次的位置;百度网讯对应的标识信息包括:百度网讯在新闻正文中出现过的次数,以及每一次的位置;北京百度网讯科技有限公司对应的标识信息包括:北京百度网讯科技有限公司在新闻正文中出现过的次数,以及每一次的位置。
需要强调的是,根据新闻正文,确定新闻正文所对应的至少一个主搜索对象类型,以及主搜索对象类型在新闻正文的位置时,也可以直接对新闻正文的内容进行搜索,从而查找出主搜索对象的所有类型,以及确定该类型的名称和位置。
在一些可选的实施例中,本发明中提供的上述新闻摘要的提取方法中,S103根据至少一个主搜索对象类型在新闻正文的位置、多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点,包括:针对每一主搜索对象类型:以主搜索对应类型在新闻中的位置为起始点,起始点位置与预设的新闻摘要字数之和的位置为终止点,确定起始点和终止点之间包括过滤关键词的个数;确定将包括过滤关键词的个数最多的主搜索对象类型在新闻中的位置作为摘要截取基准点。
具体地,对于每一主搜索对象类型,确定以该主搜索对象类型名称的起点位置作为新闻摘要的第一个字,然后计算新闻摘要字数要求范围内可以包括多少个过滤关键词,将包括过滤关键词个数最多的主搜索对象类型的起点作为新闻摘要截取基准点。从而使得新闻摘要内可以包括尽量多的过滤关键词,更方便用户了解该则新闻中与过滤关键词密切相关的具体内容,提高了用户体验。
例如,预设的新闻摘要字数为60个字,主搜索对象类型包括百度、百度网讯,过滤关键词包括京东、刘强东。若新闻正文内包括百度的位置为第3位和第4位,百度网讯的位置为第60位和第63位;京东的位置为第50位和第51位,第101位和第102位,第66位和第67位,刘强东的位置为第78-80位,第108-110位。则以第3位为起点,第63位为终点截取的片段中包括一个过滤关键词“京东”;若以第60位起点,第120位为终点截取的片段中包括3个过滤关键词。因此,较佳地,将百度网讯对应的位置第60位为摘要截取基准点。
需要说明的是,截取片段中包括过滤关键词个数,可以为同一过滤关键词的多个,或者包括多个不同的过滤关键词;若两个不同位置的截取片段中包括相同个数的过滤关键词,可以优先将包括不同过滤关键词的片段的起点作为摘要截取基准点。
在一些可选的实施例中,本发明中提供的上述新闻摘要的提取方法中,S104中根据摘要截取基准点和预设的新闻摘要字数,确定新闻摘要的起始点和终止点,包括:判断摘要截取基准点在新闻正文的位置是否大于预设的新闻摘要字数的一半,若是,则确定该摘要截取基准点为新闻摘要的起始点;否则,确定新闻正文的起始点为新闻摘要的起始点;判断摘要截取基准点的位置与预设的新闻摘要字数之和所对对应的位置,是否小于或等于新闻正文结尾的位置,若是,则确定将摘要截取基准点的位置与预设的新闻摘要字数之和所对应的位置作为新闻摘要的终止点,否则,确定新闻正文的结尾作为新闻摘要的终止点。
具体地,为了以摘要基准点为起点截取的新闻摘要,可以根据摘要截取基准点和预设新闻摘要字数确定新闻摘要的终止点。首先确定摘要截取基准点的下标起始点,若该下标起始点大于预设新闻摘要字数的一半,则确定截取基准点的下标起始点为新闻摘要的起始点,否则将新闻正文的起点作为新闻摘要的起始点;为了避免从新闻摘要的起始点开始进行截取,截取后的片段不够新闻摘要的字数,或者截取的新闻摘要字数太多,当摘要截取基准点的下标起始点加上摘要字数的长度小于或等于新闻正文结尾的长度,则将新闻摘要的终止点为新闻摘要的起始点加上摘要字数所对应的位置,否则,将新闻正文的结尾作为新闻摘要的终止点。
需要说明的是,在确定新闻摘要的起始点和终止点时,还可以采用其他方式,如以摘要截取基准点为起始点,按预设新闻摘要的字数的结束点为终止点进行截取。
在一些可选的实施例中,为了避免新闻摘要中出现不完整的句子或者句子中间被截断的现象,本发明中提供的上述新闻摘要的提取方法中,确定新闻摘要的起始点和终止点之后,生成新闻摘要之前,该方法还包括:对起始点和终止点之间的新闻进行截断处理。从而避免新闻摘要中出现残句,提高了用户阅读体验。
其中,对摘要片段进行截断处理的方式可以为多种,例如按照标点符号,或者按照句子意思进行截取,在此不做具体限定。
可选地,本发明中提供的上述新闻摘要的提取方法中,对起始点和终止点之间的新闻进行截断处理,包括:确定起始点和终止点之间的新闻包含的预设的截断符号的个数和位置;当确定所述截断符号个数超过两个,且位于第一个截断符号和最后一个截断符号之间的新闻中包含至少一个主搜索对象类型时,去除位于第一截断符号之前以及最后一个截断符号之后的新闻内容。
具体地,可以预先设置截断符号,如可以设置截断符号为逗号、句号或者感叹号等,具体截断符号可以根据片段实际情况进行设定。当然也可以设置为引号,避免截取片段中仅仅包含半个引号的现象。在完成截断处理时,首先对截取片段中的字符进行匹配,确定片段中包括的所有截断符号个数和位置;然后判断是否要进行截取操作,若截断片段中包括三个或者三个以上的截断符号,则当确定第一个截断符号和最后一个截断符号之间的片段中包括主搜索对象类型和过滤关键词时,将第一截断符号和最后一个截断符号之后的片段进行删除,从而完成该摘要片段的截取。
需要强调的是,在进行截断处理时,也可根据实际情况确定截断的部分,但是需要根据主搜索对象类型和过滤关键词的位置进行截断,确保避免将主搜索对象类型和过滤关键词删除。
在一些可选的实施例中,为了提示用户摘要中主搜索对象类型以及过滤关键词的位置,体现出新闻摘要与过滤关键词和主搜索对象类型的相关度,以及提高用户的体验,本发明中提供的上述新闻摘要的提取方法中,该方法还包括:标识新闻摘要中的过滤关键词和主搜索对象类型。
例如,将过滤关键词和主搜索对象类型的字体采用标红高亮的方式进行显示;或者将字体放大和/或字体加粗的方式显示。在此不做具体限定。
综上所述,本发明实施例提供的新闻摘要的提取方法,具有以下有益效果:
通过过滤关键词和主搜索对象类型确定摘要截取片段,从而提高了摘要内容与主搜索对象类型和过滤关键词的相关度,提高用户体验;另外,新闻摘要的形成与过滤关键词相关,使得形成的摘要片段为动态截取,保证了摘要的展示基于实时搜索的过滤关键词以及当前所在的主搜索对象类型高度相关;其次,通过对过滤关键词和主搜索对象类型进行标记显示,方便用户对过滤关键词和主搜索对象类型的关注,提高了用户阅读体验;对新闻正文的去标签处理,从而避免摘要显示异常的现象。
基于同一发明思想,参见图2,本发明实施例还提供了一种新闻摘要的提取装置,包括:
新闻正文确定单元21,用于确定用户输入的多个过滤关键词,以及根据所述多个过滤关键词确定新闻正文;
主搜索对象类型确定单元22,用于根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型,以及所述主搜索对象类型在所述新闻正文的位置;
摘要截取基准点确定单元23,用于根据至少一个所述主搜索对象类型在所述新闻正文的位置、所述多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点;
摘要生成单元24,用于根据所述摘要截取基准点和所述预设的新闻摘要字数,确定新闻摘要的起始点和终止点,并生成所述新闻摘要。
可选地,新闻正文确定单元21根据所述多个过滤关键词确定新闻正文之后,还用于:对所述新闻正文进行去超级文本标记语言HTML处理,形成纯文本的新闻。
可选地,主搜索对象类型确定单元22根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型,以及所述主搜索对象类型在所述新闻正文的位置,具体用于:根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型的标识信息;根据至少一个所述标识信息,确定每一所述标识信息对应的主搜索对象类型的名称;根据每一所述主搜索对象类型的名称,确定所述主搜索对象类型的名称在所述新闻正文的位置。
可选地,摘要截取基准点确定单元23根据至少一个所述主搜索对象类型在所述新闻正文的位置、所述多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点,具体用于:针对每一所述主搜索对象类型:以所述主搜索对应类型在所述新闻中的位置为起始点,所述起始点位置与所述预设的新闻摘要字数之和的位置为终止点,确定所述起始点和终止点之间包括所述过滤关键词的个数;确定将包括所述过滤关键词的个数最多的主搜索对象类型在所述新闻中的位置作为所述摘要截取基准点。
可选地,摘要生成单元24根据所述摘要截取基准点和所述预设的新闻摘要字数,确定所述新闻摘要的起始点和终止点,具体用于:判断所述摘要截取基准点在所述新闻正文的位置是否大于预设的新闻摘要字数的一半,若是,则确定该摘要截取基准点为所述新闻摘要的起始点;否则,确定所述新闻正文的起始点为所述新闻摘要的起始点;判断所述摘要截取基准点的位置与所述预设的新闻摘要字数之和所对应的位置,是否小于或等于所述新闻正文结尾的位置,若是,则确定将摘要截取基准点的位置与所述预设的新闻摘要字数之和所对应的位置作为所述新闻摘要的终止点,否则,确定所述新闻正文的结尾作为所述新闻摘要的终止点。
可选地,摘要生成单元24确定所述新闻摘要的起始点和终止点之后,生成所述新闻摘要之前,还用于:对所述起始点和终止点之间的新闻进行截断处理。
可选地,摘要生成单元24中对所述起始点和终止点之间的新闻进行截断处理,具体用于:确定所述起始点和终止点之间的新闻包含的预设的截断符号的个数和位置;当确定所述截断符号个数超过两个,且位于第一个截断符号和最后一个截断符号之间的新闻中包含至少一个所述主搜索对象类型时,去除位于所述第一截断符号之前以及最后一个截断符号之后的新闻内容。
可选地,该提取装置还包括:标识单元,具体用于:标识所述新闻摘要中的过滤关键词和所述主搜索对象类型。
可选地,本发明中提供的上述新闻摘要的提取装置中,所述过滤关键词包括:公司名称、组织名称以及人员名称中的至少两种。
本发明实施例提供的新闻摘要的提取装置解决问题的原理与上述新闻摘要的提取方法的原理相似,因此该装置的实施可以参见系统的实施,重复之处不再赘述。
基于同一发明思想,参见图3,本发明实施例还提供了一种新闻摘要的提取装置,包括:存储器300、处理器310及存储在存储器300上并可在处理器上运行的计算机程序,其中,处理器310执行步骤包括:
确定用户输入的多个过滤关键词,以及根据所述多个过滤关键词确定新闻正文;
根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型,以及所述主搜索对象类型在所述新闻正文的位置;
根据至少一个所述主搜索对象类型在所述新闻正文的位置、所述多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点;
根据所述摘要截取基准点和所述预设的新闻摘要字数,确定新闻摘要的起始点和终止点,并生成所述新闻摘要。
可选地,处理器310还用于:根据所述多个过滤关键词确定新闻正文之后,对所述新闻正文进行去超级文本标记语言HTML处理,形成纯文本的新闻。
可选地,处理器310具体用于:根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型的标识信息;根据至少一个所述标识信息,确定每一所述标识信息对应的主搜索对象类型的名称;根据每一所述主搜索对象类型的名称,确定所述主搜索对象类型的名称在所述新闻正文的位置。
可选地,处理器310具体用于:针对每一所述主搜索对象类型:以所述主搜索对应类型在所述新闻中的位置为起始点,所述起始点位置与所述预设的新闻摘要字数之和的位置为终止点,确定所述起始点和终止点之间包括所述过滤关键词的个数;确定将包括所述过滤关键词的个数最多的主搜索对象类型在所述新闻中的位置作为所述摘要截取基准点。
可选地,处理器310具体用于:判断所述摘要截取基准点在所述新闻正文的位置是否大于预设的新闻摘要字数的一半,若是,则确定该摘要截取基准点为所述新闻摘要的起始点;否则,确定所述新闻正文的起始点为所述新闻摘要的起始点;判断所述摘要截取基准点的位置与所述预设的新闻摘要字数之和所对应的位置,是否小于或等于所述新闻正文结尾的位置,若是,则确定将摘要截取基准点的位置与所述预设的新闻摘要字数之和所对应的位置作为所述新闻摘要的终止点,否则,确定所述新闻正文的结尾作为所述新闻摘要的终止点。
可选地,处理器310具体用于:确定所述新闻摘要的起始点和终止点之后,生成所述新闻摘要之前,对所述起始点和终止点之间的新闻进行截断处理。
可选地,处理器310具体用于:确定所述起始点和终止点之间的新闻包含的预设的截断符号的个数和位置;当确定所述截断符号个数超过两个,且位于第一个截断符号和最后一个截断符号之间的新闻中包含至少一个所述主搜索对象类型时,去除位于所述第一截断符号之前以及最后一个截断符号之后的新闻内容。
可选地,处理器310还用于:标识所述新闻摘要中的过滤关键词和所述主搜索对象类型。
可选地,所述过滤关键词包括:公司名称、组织名称以及人员名称中的至少两种。
本发明实施例提供的新闻摘要的提取装置解决问题的原理与上述新闻摘要的提取方法的原理相似,因此该装置的实施可以参见系统的实施,重复之处不再赘述。
基于同一发明思想,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提供的任一种的新闻摘要的提取方法。相同之处在此不做具体赘述。
以上参照示出根据本申请实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解,可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置,以产生机器,使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。
相应地,还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地,本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式,其具有在介质中实现的计算机可使用或计算机可读程序代码,以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中,计算机可使用或计算机可读介质可以是任意介质,其可以包含、存储、通信、传输、或传送程序,以由指令执行系统、装置或设备使用,或结合指令执行系统、装置或设备使用。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种新闻摘要的提取方法,其特征在于,该方法包括:
确定用户输入的多个过滤关键词,以及根据所述多个过滤关键词确定新闻正文;
根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型,以及所述主搜索对象类型在所述新闻正文的位置;
根据至少一个所述主搜索对象类型在所述新闻正文的位置、所述多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点;
根据所述摘要截取基准点和所述预设的新闻摘要字数,确定新闻摘要的起始点和终止点,并生成所述新闻摘要。
2.根据权利要求1所述的方法,其特征在于,根据所述多个过滤关键词确定新闻正文之后,根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型之前,该方法还包括:
对所述新闻正文进行去超级文本标记语言HTML处理,形成纯文本的新闻。
3.根据权利要求1所述的方法,其特征在于,根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型,以及所述主搜索对象类型在所述新闻正文的位置,包括:
根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型的标识信息;
根据至少一个所述标识信息,确定每一所述标识信息对应的主搜索对象类型的名称;
根据每一所述主搜索对象类型的名称,确定所述主搜索对象类型的名称在所述新闻正文的位置。
4.根据权利要求1所述的方法,其特征在于,根据至少一个所述主搜索对象类型在所述新闻正文的位置、所述多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点,包括:
针对每一所述主搜索对象类型:以所述主搜索对应类型在所述新闻中的位置为起始点,所述起始点位置与所述预设的新闻摘要字数之和的位置为终止点,确定所述起始点和终止点之间包括所述过滤关键词的个数;
确定将包括所述过滤关键词的个数最多的主搜索对象类型在所述新闻中的位置作为所述摘要截取基准点。
5.根据权利要求1所述的方法,其特征在于,根据所述摘要截取基准点和所述预设的新闻摘要字数,确定所述新闻摘要的起始点和终止点,包括:
判断所述摘要截取基准点在所述新闻正文的位置是否大于预设的新闻摘要字数的一半,若是,则确定该摘要截取基准点为所述新闻摘要的起始点;否则,确定所述新闻正文的起始点为所述新闻摘要的起始点;
判断所述摘要截取基准点的位置与所述预设的新闻摘要字数之和所对应的位置,是否小于或等于所述新闻正文结尾的位置,若是,则确定将摘要截取基准点的位置与所述预设的新闻摘要字数之和所对应的位置作为所述新闻摘要的终止点,否则,确定所述新闻正文的结尾作为所述新闻摘要的终止点。
6.根据权利要求1所述的方法,其特征在于,确定所述新闻摘要的起始点和终止点之后,生成所述新闻摘要之前,该方法还包括:
对所述起始点和终止点之间的新闻进行截断处理。
7.根据权利要求6所述的方法,其特征在于,对所述起始点和终止点之间的新闻进行截断处理,包括:
确定所述起始点和终止点之间的新闻包含的预设的截断符号的个数和位置;
当确定所述截断符号个数超过两个,且位于第一个截断符号和最后一个截断符号之间的新闻中包含至少一个所述主搜索对象类型时,去除位于所述第一截断符号之前以及最后一个截断符号之后的新闻内容。
8.根据权利要求1所述的方法,其特征在于,该方法还包括:
标识所述新闻摘要中的过滤关键词和所述主搜索对象类型。
9.根据权利要求1-8任一权项所述的方法,其特征在于,所述过滤关键词包括:公司名称、组织名称以及人员名称中的至少两种。
10.一种新闻摘要的提取装置,其特征在于,包括:
新闻正文确定单元,用于确定用户输入的多个过滤关键词,以及根据所述多个过滤关键词确定新闻正文;
主搜索对象类型确定单元,用于根据所述新闻正文,确定所述新闻正文所对应的至少一个主搜索对象类型,以及所述主搜索对象类型在所述新闻正文的位置;
摘要截取基准点确定单元,用于根据至少一个所述主搜索对象类型在所述新闻正文的位置、所述多个过滤关键词以及预设的新闻摘要字数,确定摘要截取基准点;
摘要生成单元,用于根据所述摘要截取基准点和所述预设的新闻摘要字数,确定新闻摘要的起始点和终止点,并生成所述新闻摘要。
11.一种新闻摘要的提取装置,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行权利要求1-9任一权项所述的新闻摘要的提取方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,
该程序被处理器执行时实现如权利要求1-9中任一项所述的新闻摘要的提取方法。
CN201910749815.2A 2019-08-14 2019-08-14 一种新闻摘要的提取方法及装置 Active CN110489543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910749815.2A CN110489543B (zh) 2019-08-14 2019-08-14 一种新闻摘要的提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910749815.2A CN110489543B (zh) 2019-08-14 2019-08-14 一种新闻摘要的提取方法及装置

Publications (2)

Publication Number Publication Date
CN110489543A true CN110489543A (zh) 2019-11-22
CN110489543B CN110489543B (zh) 2020-09-15

Family

ID=68551021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910749815.2A Active CN110489543B (zh) 2019-08-14 2019-08-14 一种新闻摘要的提取方法及装置

Country Status (1)

Country Link
CN (1) CN110489543B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881339A (zh) * 2020-06-05 2020-11-03 百度在线网络技术(北京)有限公司 资源信息的推送、通知方法、装置、电子设备及存储介质
CN112416963A (zh) * 2020-11-11 2021-02-26 北京字跳网络技术有限公司 搜索内容的匹配方法、装置、电子设备及存储介质
CN114281981A (zh) * 2021-12-22 2022-04-05 北京百度网讯科技有限公司 新闻简报的生成方法、装置和电子设备
WO2022156446A1 (zh) * 2021-01-19 2022-07-28 华为技术有限公司 搜索结果的摘要确定方法、装置及电子设备
CN116894089A (zh) * 2023-08-11 2023-10-17 腾讯科技(深圳)有限公司 摘要生成方法、装置、设备、存储介质及产品

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458718A (zh) * 2009-01-05 2009-06-17 北京大学 一种搜索引擎动态摘要提取方法
CN102004802A (zh) * 2010-12-30 2011-04-06 北京大学 Xml关键词检索的摘要生成方法
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN102929882A (zh) * 2011-08-09 2013-02-13 阿里巴巴集团控股有限公司 一种网页标题的抽取方法与装置
CN103389972A (zh) * 2013-07-26 2013-11-13 Tcl集团股份有限公司 一种基于简易信息聚合获取正文的方法及装置
CN104965929A (zh) * 2015-07-24 2015-10-07 网易传媒科技(北京)有限公司 一种数据处理方法及装置
CN105786841A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种对新闻类的网页智能摘要的生成方法与系统
US20160210352A1 (en) * 2009-09-23 2016-07-21 Alibaba Group Holding Limited Information search method and system
CN105808562A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于权值提取网页摘要的方法和装置
CN107526841A (zh) * 2017-09-19 2017-12-29 中央民族大学 一种基于Web的藏文文本自动摘要生成方法
CN109684642A (zh) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN109992661A (zh) * 2019-03-05 2019-07-09 广发证券股份有限公司 一种面向证券行业的智能舆情监控方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458718A (zh) * 2009-01-05 2009-06-17 北京大学 一种搜索引擎动态摘要提取方法
US20160210352A1 (en) * 2009-09-23 2016-07-21 Alibaba Group Holding Limited Information search method and system
CN102004802A (zh) * 2010-12-30 2011-04-06 北京大学 Xml关键词检索的摘要生成方法
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN102929882A (zh) * 2011-08-09 2013-02-13 阿里巴巴集团控股有限公司 一种网页标题的抽取方法与装置
CN103389972A (zh) * 2013-07-26 2013-11-13 Tcl集团股份有限公司 一种基于简易信息聚合获取正文的方法及装置
CN105786841A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种对新闻类的网页智能摘要的生成方法与系统
CN105808562A (zh) * 2014-12-30 2016-07-27 北京奇虎科技有限公司 一种基于权值提取网页摘要的方法和装置
CN104965929A (zh) * 2015-07-24 2015-10-07 网易传媒科技(北京)有限公司 一种数据处理方法及装置
CN107526841A (zh) * 2017-09-19 2017-12-29 中央民族大学 一种基于Web的藏文文本自动摘要生成方法
CN109684642A (zh) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN109992661A (zh) * 2019-03-05 2019-07-09 广发证券股份有限公司 一种面向证券行业的智能舆情监控方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881339A (zh) * 2020-06-05 2020-11-03 百度在线网络技术(北京)有限公司 资源信息的推送、通知方法、装置、电子设备及存储介质
CN111881339B (zh) * 2020-06-05 2024-03-22 百度在线网络技术(北京)有限公司 资源信息的推送、通知方法、装置、电子设备及存储介质
CN112416963A (zh) * 2020-11-11 2021-02-26 北京字跳网络技术有限公司 搜索内容的匹配方法、装置、电子设备及存储介质
WO2022156446A1 (zh) * 2021-01-19 2022-07-28 华为技术有限公司 搜索结果的摘要确定方法、装置及电子设备
CN114281981A (zh) * 2021-12-22 2022-04-05 北京百度网讯科技有限公司 新闻简报的生成方法、装置和电子设备
CN116894089A (zh) * 2023-08-11 2023-10-17 腾讯科技(深圳)有限公司 摘要生成方法、装置、设备、存储介质及产品
CN116894089B (zh) * 2023-08-11 2023-12-15 腾讯科技(深圳)有限公司 摘要生成方法、装置、设备、存储介质及产品

Also Published As

Publication number Publication date
CN110489543B (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN110489543A (zh) 一种新闻摘要的提取方法及装置
CN108829858B (zh) 数据查询方法、装置及计算机可读存储介质
US10423649B2 (en) Natural question generation from query data using natural language processing system
WO2019237540A1 (zh) 财政数据的获取方法、装置、终端设备及介质
CN107358208B (zh) 一种pdf文档结构化信息提取方法及装置
KR20110081194A (ko) 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
US9449114B2 (en) Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection
CN106960058A (zh) 一种网页结构变更检测方法及系统
CN111353065A (zh) 语音档案存储方法、装置、设备以及计算机可读存储介质
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN117473512B (zh) 基于网络测绘的漏洞风险评估方法
JP2013501995A (ja) 画像要素検索
WO2019015133A1 (zh) 一种输入法的词库管理方法及装置
CN113326413A (zh) 一种网页信息提取方法、系统、服务器及存储介质
JP2010224984A (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
US7698632B2 (en) System and method for dynamically updating web page displays
US10747794B2 (en) Smart search for annotations and inking
CN109885583A (zh) 基于区块链的数据查询方法、装置、设备及存储介质
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
US20170139897A1 (en) Method, system, and computer program product for dividing a term with appropriate granularity
CN111460119A (zh) 经济知识智能问答方法、系统及智能设备
CN107256227B (zh) 面向知识内容的语义概念扩展生成方法与装置
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant