CN106897267A - 文章缩略文意生成方法、装置及服务器 - Google Patents

文章缩略文意生成方法、装置及服务器 Download PDF

Info

Publication number
CN106897267A
CN106897267A CN201710109424.5A CN201710109424A CN106897267A CN 106897267 A CN106897267 A CN 106897267A CN 201710109424 A CN201710109424 A CN 201710109424A CN 106897267 A CN106897267 A CN 106897267A
Authority
CN
China
Prior art keywords
article
keyword
breviary
sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710109424.5A
Other languages
English (en)
Other versions
CN106897267B (zh
Inventor
赵明斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Alibaba Literature Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Alibaba Literature Information Technology Co Ltd filed Critical Guangzhou Alibaba Literature Information Technology Co Ltd
Priority to CN201710109424.5A priority Critical patent/CN106897267B/zh
Publication of CN106897267A publication Critical patent/CN106897267A/zh
Application granted granted Critical
Publication of CN106897267B publication Critical patent/CN106897267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种文章缩略文意生成方法、装置及服务器,涉及互联网阅读领域。通过获取关键词以及与每个所述关键词对应的权重值。根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值。依据每个所述语句的权重值按照预设条件筛选出重要语句。根据文章的标题及所述重要语句生成所述文章的缩略文意。生成文章的缩略文意可以帮助用户快速了解文章的主题大意,节约阅读时间。同时,也省去人工撰写文章缩略文意耗费的大量人力成本以及时间成本。

Description

文章缩略文意生成方法、装置及服务器
技术领域
本发明涉及互联网阅读领域,具体而言,涉及一种文章缩略文意生成方法、装置及服务器。
背景技术
互联网阅读是当下主流的阅读方式。但随着互联网获取信息的速度越来越快,用户接收到的信息也越来越多。如何快速的了解信息的本质,节省阅读时间是用户最迫切的需要。特别是当被阅读的文章篇幅很长字数较多时,通过阅读文章缩略文意可以有效的节省用户的阅读时间,解决用户最迫切的需求。但在信息爆炸时代,网络文章泛滥,采用人工撰写文章概略大意的方式会耗费巨大的人力物力,造成人力成本以及时间成本的浪费。
发明内容
为了解决上述问题,本发明实施例采用的技术方案如下:
本发明实施例提供一种文章缩略文意生成方法,所述方法包括获取关键词以及与每个所述关键词对应的权重值;根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值;依据每个所述语句的权重值按照预设条件筛选出重要语句;根据文章的标题及所述重要语句生成所述文章的缩略文意。
本发明实施例还提供一种文章缩略文意生成装置,所述装置包括:获取模块,用于获取关键词以及与每个所述关键词对应的权重值;计算模块,用于根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值;筛选模块,用于依据每个所述语句的权重值按照预设条件筛选出重要语句;生成模块,用于根据文章的标题及所述重要语句生成所述文章的缩略文意。
本发明实施例还提供一种服务器,所述服务器包括:第一存储器;第一处理器;以及文章缩略文意生成装置,所述文章缩略文意生成装置安装于所述第一存储器中并包括一个或多个由所述第一处理器执行的软件功能模组,所述文章缩略文意生成装置包括:获取模块,用于获取关键词以及与每个所述关键词对应的权重值;计算模块,用于根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值;筛选模块,用于依据每个所述语句的权重值按照预设条件筛选出重要语句;生成模块,用于根据文章的标题及所述重要语句生成所述文章的缩略文意。
与现有技术相比,本发明提供的一种文章缩略文意生成方法、装置及服务器。通过获取关键词以及与每个所述关键词对应的权重值。根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值。依据每个所述语句的权重值按照预设条件筛选出重要语句。根据文章的标题及所述重要语句生成所述文章的缩略文意。生成所述文章的缩略文意可以帮助用户快速了解文章的主题大意,节约阅读时间。同时,也省去人工撰写文章缩略文意耗费的人力成本以及时间成本。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例提供的应用了文章缩略文意生成方法的服务器的方框示意图。
图2示出了本发明实施例提供的文章缩略文意生成方法流程图。
图3为图2示出的获取关键词以及与每个所述关键词对应的权重值的子步骤流程图。
图4为图2示出的计算得到文章的正文中每个语句的权重值的子步骤流程图。
图5为图2示出的筛选出重要语句的子步骤流程图。
图6为图2示出的生成所述文章的缩略文意的子步骤流程图。
图7示出了本发明实施例提供的文章缩略文意生成装置的功能模块示意图。
图8为图7示出的获得模块的功能子模块示意图。
图9为图7示出的计算模块的功能子模块示意图。
图10为图7示出的筛选模块的功能子模块示意图。
图11为图7示出的生成模块的功能子模块示意图。
图标:100-服务器;111-存储器;112-处理器;113-通信单元;200-文章缩略文意生成装置;201-获取模块;2011-分词子模块;2012-获得子模块;202-计算模块;2021-提取子模块;2022-计算子模块;203-筛选模块;2031-排序子模块;2032-筛选子模块;204-生成模块;2041-整合子模块;2042-生成子模块;205-预设置模块;206-检测模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,是服务器100的方框示意图。所述服务器100包括文章缩略文意生成装置200、存储器111、处理器112及通信单元113。
所述存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述文章缩略文意生成装置200包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器111中或固化在所述服务器100的操作系统(Operating System,OS)中的软件功能模块。所述处理器112用于执行所述存储器111中存储的可执行模块,例如所述文章缩略文意生成装置200所包括的软件功能模块及计算机程序等。
其中,所述存储器111可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器111用于存储程序或者数据。所述通信单元113用于通过所述网络建立所述服务器100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为服务器100的结构示意图,所述服务器100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
第一实施例
请参考图2,图2为本发明较佳实施例提供的一种文章缩略文意生成方法的流程图。文章缩略文意生成方法包括以下步骤:
步骤S101,获取关键词以及与每个所述关键词对应的权重值。
在本实施例中,关键词可以是,但不限于是,与表达文章主题大意有关的词汇。在本实施例中,关键词可以通过从文章中获取的词汇及响应用户操作生成的词汇。所述操作可以是服务器100接收到的,也可以通过与服务器100通信连接的其它通信终端接收到并传送至服务器100的操作。
所述关键词对应的权重值代表关键词对文章主题内容的相关程度,每一个关键词均有一个对应的权重值。
请参照图3,在本实施例中,步骤S101可以包括以下子步骤。
子步骤S1011,对所述文章进行分词处理得到所述关键词。
分词处理是将连续的字序列按照一定规范重新组合成词序列的过程。所述重新组合成词序列可以采用基于字典的分词规则进行。在本实施例中,可以选用双向匹配分词法进行分词。
在本实施例中,通过对所述文章的正文及标题进行分词处理得到各个分词。再对得到的各个分词进行处理从而得到关键词。
具体地,对各个分词进行处理从而得到关键词的方式可以是,将各个分词与预设的非表意词进行比对,并将分词处理得到的各个分词中的非表意词进行剔除,将剔除后的剩余的分词作为关键词。其中,所述非表意词是指没有实际意义的词语,所述非表意词可以包括副词及感叹词等。例如,“的”“了”“地”等均属于非表意词。
子步骤S1012,根据预设规则得到每个所述关键词对应的权重值。
在本实施例中,权重值的设置满足以下关系,权重值越高的关键词与文章表达的主题大意越相关。
在本实施例中,预设规则可以为在步骤S101之前根据文章的不同属性对应设置不同的预设规则。需要说明的是,文章的属性包括文章的类型或文章的字数。预设规则可以预先存储于服务器100。同时在执行步骤S101之前,服务器100会先检测待缩略文意文章的文章属性,并匹配出与所述文章属性对应的预设规则。具体地,所述预设规则可以是按照预设排序规则对所述关键词进行排序,对排序后的所述关键词按权重值由大到小依次赋值,得到每个所述关键词对应的权重值。
需要说明的是,预设排序规则可以是,但不限于是,通过判断关键词的获得方式进行排序。具体为,判断所述关键词是否为响应用户操作生成的,若所述关键词为响应用户操作生成的,将响应用户操作生成的关键词排在其它所有所述关键词之前;判断所述关键词是否为对所述文章的标题进行分词处理得到的关键词,如果是对所述标题进行分词处理得到的所述关键词,将对所述标题进行分词处理得到的所述关键词排在响应用户操作生成的关键词之后;判断所述关键词是否为对所述文章的正文进行分词处理得到的所述关键词,如果是对所述正文进行分词处理得到的所述关键词,统计所述关键词在正文中出现的次数,并根据出现次数以降序的方式排在对所述文章的标题进行分词处理得到的关键词之后。
步骤S102,根据所述关键词及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值。
如图4所示,本实施例中,步骤S102包括以下子步骤:
子步骤S1021,获取所述文章的正文中每个语句包含的所述关键词。
在本实施例中,每个语句的含义由构成语句的词语表达。因此语句中出现的关键词所对应的权重值可以反映语句与文章的主题大意之间关联程度。
子步骤S1022,根据每个语句包含的所述关键词所对应的权重值计算得到每个所述语句的权重值从而获得每个语句的权重值。
具体地,可以通过叠加语句中出现的关键词的权重值获得语句的权重值。例如,语句中出现了两个关键词,且两个关键词对应的权重值分别为4和6,则该语句的权重值为10。
步骤S103,依据每个所述语句的权重值按照预设条件筛选出重要语句。
在本实施例中,重要语句是文章缩略文意的主要组成部分。文章缩略文意的特点是简短同时又能准确、完整的表达文章主题大意的段落。为了使获得的文章缩略文意在简短的情况下又能准确、完整的表达出来文章的主题大意,可以通过预设条件来限制控制重要语句的条数。其中,所述预设条件可以是通过不同的文章属性进行相应的设置,并根据待缩略文意文章的属性匹配出的与所述文章属性相对应的预设条件。
以自然科学类文章为例,由于自然科学类文章多为论证某一观点的文章,因此这类文章的主题大意相对其它类型的文章更加明确,一般而言可以采用较少数量(比如,数量为6或7)的句子就能完整、准确的展现文章的主题大意。再如人文类文章,由于人文类文章重在叙事,文章主题大意相比其他文章来说比较分散,一般而言采用较多数量(比如,数量为20条左右)的句子才能完整、准确的展现文章主题大意。
在本实施例中,如图5所示,步骤S103包括以下子步骤:
子步骤S1031,根据所述每个所述语句的权重值以降序的方式对所述每个语句进行排序。
子步骤S1032,将排序在预设名次之前的语句作为重要语句。例如,预设名次可以为7,则取排序后的语句的前6条为重要语句。
步骤S104,根据文章的标题及所述重要语句生成所述文章的缩略文意。文章标题可以点明文章中心,因此,依据文章的标题以及所述重要语句生成的所述文章的缩略文意可以使文章的主体大意更加直观。
在本实施例中,如图6所示,步骤S104包括以下子步骤:
子步骤S1041,按照所述重要语句在所述文章中出现的先后顺序,对所述重要语句进行整合以形成文章的缩略文意的正文。将在文章中较先出现的所述重要语句排在比该重要语句后出现的重要语句之前。以保证文意的通顺。
子步骤S1042,将所述文章的标题放置于所述缩略文意的正文之前,形成文章的缩略文意。一般而言,文章标题可以点明文章中心。将文章标题放置于缩略文意的正文之前,可以使阅读过程中快速地初步获取文章主题大意。
第二实施例
请参照图7,图7为本发明实施例提供的文章缩略文意生成装置200的功能模块示意图。所述文章缩略文意生成装置200包括:获取模块201、计算模块202、筛选模块203及生成模块204。
获取模块201,用于获取关键词以及与每个所述关键词对应的权重值。
在本实施例中,关键词可以是,但不限于是,与文章主题大意相关的词汇。在本实施例中,关键词可以是通过从文章中获取的词汇及响应用户操作生成的词汇。所述操作可以是服务器100接收到的,也可以通过与服务器100通信连接的其它通信终端接收到并传送至服务器100的操作。所述关键词对应的权重值代表关键词对文章主题内容的表达的重要程度,每一个关键词均有一个对应的权重值。
在本发明实施例中,所述步骤S101可以由获取模块201执行。
需要说明的是,文章缩略文意生成装置200还包括预设置模块205及检测模块206。预设置模块205用于在获取模块201执行步骤S101之前,执行根据不同属性的文章对应设置不同的预设规则。其中,所述文章的属性包括文章的类型或文章的字数。检测模块206,用于在获取模块201执行步骤S101之前,执行检测待缩略文意文章的文章属性,并匹配出与所述文章属性对应预设规则。
请参考图8,获取模块201包括分词子模块2011及获得子模块2012。
分词子模块2011,用于对所述文章进行分词处理得到所述关键词。
在本发明实施例中,所述步骤S1011可以由分词子模块2011执行。
分词处理是将连续的字序列按照一定规范重新组合成词序列的过程。所述重新组合成词序列的规范可以是,但不仅限于是可以采用基于字典的分词规则进行。优选在本实施例中,分词处理方法可以选用双向匹配分词法进行分词。
在本实施例中,通过对所述文章的正文及标题进行分词处理得到各个分词。再对得到的各个分词进行处理从而得到关键词。
具体地,对各个分词进行处理从而得到关键词的方式可以是,将各个分词。例如,与预设的非表意词进行比对,并剔除将分词处理得到的各个分词中的非表意词进行剔除,将剔除后的剩余的分词作为关键词。需要说明的是,其中,所述非表意词为是指没有实际意义的词语。,具体地,所述非表意词可以包括副词及以及感叹词等。例如,“的”“了”“地”等均属于非表意词。
获得子模块2012,用于根据预设规则得到每个所述关键词对应的权重值。在本实施例中,权重值的设置满足以下关系,权重值越高的关键词与表达文章的主题大意越相关。
在本发明实施例中,所述步骤S1012可以由获得子模块2012执行。优选实施例中,预设规则可以是按照预设排序规则对所述关键词进行排序,对排序后的所述关键词按权重值由大到小依次赋值,得到每个所述关键词对应的权重值。
需要说明的是,预设排序规则可以是,但不限于是,通过判断关键词的获得方式进行排序。具体为,判断所述关键词是否为响应用户操作生成的,若所述关键词为响应用户操作生成的,将响应用户操作生成的关键词排在其它所有所述关键词之前;判断所述关键词是否为对所述文章的标题进行分词处理得到的关键词,如果是对所述标题进行分词处理得到的所述关键词,将对所述标题进行分词处理得到的所述关键词排在响应用户操作生成的关键词之后;判断所述关键词是否为对所述文章的正文进行分词处理得到的所述关键词,如果是对所述正文进行分词处理得到的所述关键词,统计所述关键词在正文中出现的次数,并根据出现次数以降序的方式排在对所述文章的标题进行分词处理得到的关键词之后。
计算模块202,根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值。
在本发明实施例中,所述步骤S102可以由计算模块202执行。如图9所示,计算模块202包括提取子模块2021及计算子模块2022。
提取子模块2021,用于获取所述文章的正文中每个语句包含的所述关键词。
在本发明实施例中,所述步骤S1021可以由提取子模块2021执行。每个语句的含义由构成语句的词语表达。因此语句中出现的关键词所对应的权重值也就可以反应了反映该语句与文章的主题大意的之间关联程度。
计算子模块2022,用于根据每个语句包含的所述关键词所对应的权重值计算得到每个所述语句的权重值。具体地,可以通过叠加语句中出现的关键词的权重值获得语句的权重值。例如,语句中出现了两个关键词,且两个关键词对应的权重值分别为4和6,则该语句的权重值为10。
在本发明实施例中,所述步骤S1022可以由计算子模块2022执行。
筛选模块203,用于依据每个所述语句的权重值按照预设条件筛选出重要语句。
在本发明实施例中,所述步骤S103可以由筛选模块203执行。需要说明的是,预设条件可以是预设置模块205在获取模块201执行步骤S101之前,执行根据所述文章的不同属性对应设置的不同的预设条件。并由检测模块206在获取模块201执行步骤S101之前,执行检测待缩略文意文章的文章属性,并匹配出来的与所述文章属性对应的预设条件。例如,当待缩略文意文章的总字数较多(比如,文章总字数超过1万字),一般而言,总字数较多的文章内容比较丰富,需要用较多数量(例如,数量为30条)的重要语句才能完整、准确的展现文章的主题大意。因此对应的预设条件可以筛选出的重要语句条数要多。当检测模块206,检测出待缩略文意文章的总字数较多时,将对应匹配出可以筛选出的重要语句条数要多的预设条件。如图10所示,筛选模块203包括排序子模块2031及筛选子模块2032。
排序子模块2031,用于根据所述每个所述语句的权重值以降序的方式对所述每个语句进行排序。
在本发明实施例中,所述步骤S1031可以由排序子模块2031执行。
筛选子模块2032,用于将排序在预设名次之前的语句作为重要语句。
在本发明实施例中,所述步骤S1032可以由筛选子模块2032执行。
生成模块204,用于根据文章的标题及所述重要语句生成所述文章的缩略文意。文章标题可以点明文章中心,因此,依据文章的标题以及所述重要语句生成的所述文章的缩略文意可以使文章的主体大意更加直观。
在本发明实施例中,所述步骤S104可以由排序子模块2031执行。如图11所示,生成模块204包括整合子模块2041及生成子模块2042。
整合子模块2041,用于按照所述重要语句在所述文章中出现的先后顺序,对所述重要语句进行整合以形成文章的缩略文意的正文。将在文章中较先出现的所述重要语句排在比该重要语句后出现的重要语句之前。以保证文意的通顺。
在本发明实施例中,所述步骤S1041可以由整合子模块2041执行。
生成子模块2042,用于将所述文章的标题放置于所述缩略文意的正文之前,形成文章的缩略文意。一般而言,文章标题可以点明文章中心。将文章标题放置于缩略文意的正文之前,可以使阅读过程中快速地初步获取文章主题大意。
在本发明实施例中,所述步骤S1042可以由生成子模块2042执行。
综上所述,本发明提供的一种文章缩略文意生成方法及装置。通过获取关键词以及与每个所述关键词对应的权重值。根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值。依据每个所述语句的权重值按照预设条件筛选出重要语句。根据文章的标题及所述重要语句生成所述文章的缩略文意。生成的文章缩略文意可以帮助用户快速了解文章的主题大意,节约阅读时间。同时,也省去人工撰写文章缩略文意耗费的人力成本以及时间成本。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (23)

1.一种文章缩略文意生成方法,其特征在于,所述方法包括:
获取关键词以及与每个所述关键词对应的权重值;
根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值;
依据每个所述语句的权重值按照预设条件筛选出重要语句;
根据文章的标题及所述重要语句生成所述文章的缩略文意。
2.如权利要求1所述的文章缩略文意生成方法,其特征在于,所述获取关键词以及与每个所述关键词对应的权重值的步骤包括:
对所述文章进行分词处理得到所述关键词;
根据预设规则得到每个所述关键词对应的权重值。
3.如权利要求2所述的文章缩略文意生成方法,其特征在于,所述对所述文章进行分词得到所述关键词的步骤包括:
对所述文章的正文及标题进行分词处理得到各个分词;
对各个所述分词进行处理得到关键词。
4.如权利要求3所述的文章缩略文意生成方法,其特征在于,所述对各个所述分词进行处理得到关键词的步骤包括:
剔除分词处理得到的各个分词中的非表意词,将剔除后的剩余的分词作为关键词。
5.如权利要求2所述的文章缩略文意生成方法,其特征在于,所述根据预设规则得到每个所述关键词对应的权重值的步骤包括:
按照预设排序规则对所述关键词进行排序,对排序后的所述关键词按权重值由大到小依次赋值,得到每个所述关键词对应的权重值。
6.如权利要求5所述的文章缩略文意生成方法,其特征在于,所述按照预设排序规则对所述关键词进行排序的步骤包括:
判断所述关键词是否为响应用户操作生成的,若所述关键词为响应用户操作生成的,将响应用户操作生成的关键词排在其它所有所述关键词之前;
判断所述关键词是否为对所述文章的标题进行分词处理得到的关键词,如果是对所述标题进行分词处理得到的所述关键词,将对所述标题进行分词处理得到的所述关键词排在响应用户操作生成的关键词之后;
判断所述关键词是否为对所述文章的正文进行分词处理得到的所述关键词,如果是对所述正文进行分词处理得到的所述关键词,统计所述关键词在正文中出现的次数,并根据出现次数以降序的方式排在对所述文章的标题进行分词处理得到的关键词之后。
7.如权利要求1-6任一项所述的文章缩略文意生成方法,其特征在于,所述根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值的步骤包括:
获取所述文章的正文中每个语句包含的所述关键词;
根据每个语句包含的所述关键词所对应的权重值计算得到每个所述语句的权重值。
8.如权利要求1-6任一项所述的文章缩略文意生成方法,其特征在于,所述依据每个所述语句的权重值按照预设条件筛选出重要语句的步骤包括:
根据所述每个所述语句的权重值以降序的方式对所述每个语句进行排序;
将排序在预设名次之前的语句作为重要语句。
9.如权利要求8所述的文章缩略文意生成方法,其特征在于,所述根据文章的标题及所述重要语句生成所述文章的缩略文意的步骤包括:
按照所述重要语句在所述文章中出现的先后顺序,对所述重要语句进行整合以形成文章的缩略文意的正文;
将所述文章的标题放置于所述缩略文意的正文之前,形成文章的缩略文意。
10.如权利要求2或5任意一项所述的文章缩略文意生成方法,其特征在于,所述方法还包括:
根据文章的不同属性对应设置不同的所述预设条件及所述预设规则,所述文章的属性包括文章的类型或文章的字数。
11.如权利要求10所述的文章缩略文意生成方法,其特征在于,在所述获取关键词以及与每个所述关键词对应的权重值的步骤之前,所述方法还包括:
检测所述文章的文章属性,并匹配出与所述文章属性对应的所述预设条件及所述预设规则。
12.一种文章缩略文意生成装置,其特征在于,所述装置包括:
获取模块,用于获取关键词以及与每个所述关键词对应的权重值;
计算模块,用于根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值;
筛选模块,用于依据每个所述语句的权重值按照预设条件筛选出重要语句;
生成模块,用于根据文章的标题及所述重要语句生成所述文章的缩略文意。
13.如权利要求12所述的文章缩略文意生成装置,其特征在于,所述获取模块包括:
分词子模块,用于对所述文章进行分词处理得到所述关键词;
获得子模块,用于根据预设规则得到每个所述关键词对应的权重值。
14.如权利要求13所述的文章缩略文意生成装置,其特征在于,所述分词子模块对所述文章进行分词处理得到所述关键词的方式包括:
对所述文章的正文及标题进行分词处理得到各个分词;
对各个所述分词进行处理得到关键词。
15.如权利要求14所述的文章缩略文意生成装置,其特征在于,所述分词子模块对各个所述分词进行处理得到关键词的方式包括:
剔除分词处理得到的各个分词中的非表意词,将剔除后的剩余的分词作为关键词。
16.如权利要求13所述的文章缩略文意生成装置,其特征在于,所述获得子模块根据预设规则得到每个所述关键词对应的权重值的方式包括:
按照预设排序规则对所述关键词进行排序,对排序后的所述关键词按权重值由大到小依次赋值,得到每个所述关键词对应的权重值。
17.如权利要求16所述的文章缩略文意生成装置,其特征在于,所述获得子模块按照预设排序规则对所述关键词进行排序的方式包括:
判断所述关键词是否为响应用户操作生成的,若所述关键词为响应用户操作生成的,将响应用户操作生成的所述关键词排在其它所有所述关键词之前;
判断所述关键词是否为对所述文章的标题进行分词处理得到的所述关键词,如果是对所述标题进行分词处理得到的所述关键词,将对所述标题进行分词处理得到的所述关键词排在响应用户操作生成的所述关键词之后;
判断所述关键词是否为对所述文章的正文进行分词处理得到的所述关键词,如果是对所述正文进行分词处理得到的所述关键词,统计所述关键词在正文中出现的次数,并根据出现次数以降序的方式排在对所述文章的标题进行分词处理得到的所述关键词之后。
18.如权利要求12-17任一项所述的文章缩略文意生成装置,其特征在于,所述计算模块包括:
提取子模块,用于获取所述文章的正文中每个语句包含的所述关键词;
计算子模块,用于根据每个语句包含的所述关键词所对应的权重值计算得到每个所述语句的权重值。
19.如权利要求12-17任一项所述的文章缩略文意生成装置,其特征在于,所述筛选模块包括:
排序子模块,用于根据所述每个所述语句的权重值以降序的方式对所述每个语句进行排序;
筛选子模块,用于将排序在预设名次之前的语句作为重要语句。
20.如权利要求12所述的文章缩略文意生成装置,其特征在于,所述生成模块包括:
整合子模块,用于按照所述重要语句在所述文章中出现的先后顺序,对所述重要语句进行整合以形成文章的缩略文意的正文;
生成子模块,用于将所述文章的标题放置于所述缩略文意的正文之前,形成文章的缩略文意。
21.如权利要求13或16任意一项所述的文章缩略文意生成装置,其特征在于,所述装置还包括:
预设置模块,用于根据文章的不同属性对应设置不同的所述预设条件及所述预设规则,所述文章的属性包括文章的类型或文章的字数。
22.如权利要求21所述的文章缩略文意生成装置,其特征在于,所述装置还包括:
检测模块,用于检测所述文章的文章属性,并匹配出与所述文章属性对应的所述预设条件及所述预设规则。
23.一种服务器,其特征在于,所述服务器包括:
第一存储器;
第一处理器;以及
文章缩略文意生成装置,所述文章缩略文意生成装置安装于所述第一存储器中并包括一个或多个由所述第一处理器执行的软件功能模组,所述文章缩略文意生成装置包括:
获取模块,用于获取关键词以及与每个所述关键词对应的权重值;
计算模块,用于根据所述关键词以及所述关键词对应的权重值计算得到所述文章的正文中每个语句的权重值;
筛选模块,用于依据每个所述语句的权重值按照预设条件筛选出重要语句;
生成模块,用于根据文章的标题及所述重要语句生成所述文章的缩略文意。
CN201710109424.5A 2017-02-27 2017-02-27 文章缩略文意生成方法、装置及服务器 Active CN106897267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710109424.5A CN106897267B (zh) 2017-02-27 2017-02-27 文章缩略文意生成方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710109424.5A CN106897267B (zh) 2017-02-27 2017-02-27 文章缩略文意生成方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN106897267A true CN106897267A (zh) 2017-06-27
CN106897267B CN106897267B (zh) 2020-06-02

Family

ID=59184290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710109424.5A Active CN106897267B (zh) 2017-02-27 2017-02-27 文章缩略文意生成方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN106897267B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508448A (zh) * 2018-07-17 2019-03-22 网易传媒科技(北京)有限公司 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN110287280A (zh) * 2019-06-24 2019-09-27 腾讯科技(深圳)有限公司 一种分析文章中词的方法和装置、存储介质以及电子设备
CN110580332A (zh) * 2018-06-07 2019-12-17 北京京东尚科信息技术有限公司 自动写作产品信息的方法、系统、电子设备及存储介质
CN110704608A (zh) * 2019-08-29 2020-01-17 中国平安人寿保险股份有限公司 文本主题生成方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156452A (zh) * 2014-08-18 2014-11-19 中国人民解放军国防科学技术大学 一种网页文本摘要生成方法和装置
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN104881428A (zh) * 2015-04-02 2015-09-02 广州神马移动信息科技有限公司 一种信息图网页的信息图提取、检索方法和装置
CN106021226A (zh) * 2016-05-16 2016-10-12 中国建设银行股份有限公司 一种文本摘要生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156452A (zh) * 2014-08-18 2014-11-19 中国人民解放军国防科学技术大学 一种网页文本摘要生成方法和装置
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN104881428A (zh) * 2015-04-02 2015-09-02 广州神马移动信息科技有限公司 一种信息图网页的信息图提取、检索方法和装置
CN106021226A (zh) * 2016-05-16 2016-10-12 中国建设银行股份有限公司 一种文本摘要生成方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580332A (zh) * 2018-06-07 2019-12-17 北京京东尚科信息技术有限公司 自动写作产品信息的方法、系统、电子设备及存储介质
CN109508448A (zh) * 2018-07-17 2019-03-22 网易传媒科技(北京)有限公司 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN110287280A (zh) * 2019-06-24 2019-09-27 腾讯科技(深圳)有限公司 一种分析文章中词的方法和装置、存储介质以及电子设备
CN110287280B (zh) * 2019-06-24 2023-09-29 腾讯科技(深圳)有限公司 一种分析文章中词的方法和装置、存储介质以及电子设备
CN110704608A (zh) * 2019-08-29 2020-01-17 中国平安人寿保险股份有限公司 文本主题生成方法、装置和计算机设备

Also Published As

Publication number Publication date
CN106897267B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN106485562B (zh) 一种基于用户历史行为的商品信息推荐方法及系统
CN106897267A (zh) 文章缩略文意生成方法、装置及服务器
CN107862022B (zh) 文化资源推荐系统
CN110874530B (zh) 关键词提取方法、装置、终端设备及存储介质
CN109271512A (zh) 舆情评论信息的情感分析方法、装置及存储介质
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
CN106056407A (zh) 基于用户行为分析的网银用户画像方法及设备
CN108427669A (zh) 异常行为监控方法和系统
CN104966031A (zh) 安卓应用程序中非权限相关隐私数据的识别方法
CN107040397A (zh) 一种业务参数获取方法及装置
CN103812961A (zh) 识别指定类别ip地址的方法及设备、防御方法及系统
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN110019660A (zh) 一种相似文本检测方法及装置
CN105630931A (zh) 一种文档分类的方法及装置
CN106446070A (zh) 一种基于专利群的信息处理装置及方法
CN108491388A (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN108021651A (zh) 一种网络舆情风险评估方法及装置
CN103324758B (zh) 一种新闻分类方法和系统
CN106649334A (zh) 关联词语集合的处理方法及装置
CN106445906A (zh) 领域词典中中长词词组的生成方法及装置
CN109977225A (zh) 舆情分析方法及装置
CN103425680A (zh) 页面展示广告的选取方法和系统
CN114327983A (zh) 一种基于日志的故障确定方法、装置、设备和介质
CN106844330B (zh) 文章情感的分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200522

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510000 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 03

Patentee before: GUANGZHOU ALIBABA LITERATURE INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right