CN112329422A - 基于TextRank的摘要获取方法、装置、计算机设备及存储介质 - Google Patents

基于TextRank的摘要获取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112329422A
CN112329422A CN202011212545.0A CN202011212545A CN112329422A CN 112329422 A CN112329422 A CN 112329422A CN 202011212545 A CN202011212545 A CN 202011212545A CN 112329422 A CN112329422 A CN 112329422A
Authority
CN
China
Prior art keywords
field
textrank
score
abstract
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011212545.0A
Other languages
English (en)
Inventor
马跃
曾增烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011212545.0A priority Critical patent/CN112329422A/zh
Publication of CN112329422A publication Critical patent/CN112329422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本申请实施例属于人工智能领域,可应用于医疗科技领域,涉及一种基于TextRank的摘要获取方法、装置、计算机设备及存储介质,此外,本申请还涉及区块链技术,用户的文本数据可存储于区块链中。该基于TextRank的摘要获取方法通过将文本数据进行拆分,计算拆分后的各个字段的相似度,并基于TextRank获取各个字段的重要性得分,最后基于重要性得分对各个字段进行拼接操作,得到与本文数据关联度最大、质量最优的文本摘要,这个方法在实际应用中,可以增加摘要内容和标题之间的相关性,提高文本摘要的质量。

Description

基于TextRank的摘要获取方法、装置、计算机设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于TextRank的摘要获取方法、装置、计算机设备及存储介质。
背景技术
文本摘要是自然语言处理领域的一个重要方向,对人类来说,阅读理解和归纳能力是一种基本要求,而对于人工智能和自然语言处理来说,则代表着最高的语言理解水平。在信息爆炸的时代,特别是个性化推荐横行的时代,用户的时间都被各式各样碎片化的信息、文章打散,因此更需要一种技术来对冗长的文章进行浓缩,以摘要的形式呈现,既方便用户在繁杂的信息流中快速了解核心的信息,也方便用户过滤到自己感兴趣的内容。因此,文本摘要在现有的信息背景下有很大的应用,能够有效提高用户的满意度。
现有一种文本摘要获取方法,即通过TextRank对每个句子的重要性进行打分,并基于分数进行筛选,最终获取文本摘要。
然而,传统的文本摘要获取方法普遍不智能,通过TextRank对每个句子的重要性进行打分只能获取每个句子的分值特性,并未充分考虑文章的主题、中文文章的组织结构,导致传统的文本摘要获取方法获取到的摘要相关性较低。
发明内容
本申请实施例的目的在于提出一种基于TextRank的摘要获取方法、装置、计算机设备及存储介质,以解决传统的文本摘要获取方法获取到的摘要相关性较低的问题。
为了解决上述技术问题,本申请实施例提供一种基于TextRank的摘要获取方法,采用了如下所述的技术方案:
接收请求终端发送的携带有文本数据的摘要获取请求;
响应所述摘要获取请求,对所述文本数据进行预处理操作,得到预处理字段;
对所述预处理字段进行相似度计算操作,得到相似度评分矩阵;
将所述相似度评分矩阵输入至TextRank进行迭代操作,得到字段评分;
基于所述字段评分对所述预处理字段进行拼接操作,得到摘要文本数据;
向所述请求终端发送所述摘要文本数据。
为了解决上述技术问题,本申请实施例还提供一种基于TextRank的摘要获取装置,采用了如下所述的技术方案:
接收模块,用于接收请求终端发送的携带有文本数据的摘要获取请求;
预处理模块,用于响应所述摘要获取请求,对所述文本数据进行预处理操作,得到预处理字段;
相似度计算模块,用于对所述预处理字段进行相似度计算操作,得到相似度评分矩阵;
迭代模块,用于将所述相似度评分矩阵输入至TextRank进行迭代操作,得到字段评分;
拼接模块,用于基于所述字段评分对所述预处理字段进行拼接操作,得到摘要文本数据;
输出模块,用于向所述请求终端发送所述摘要文本数据。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于TextRank的摘要获取方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于TextRank的摘要获取方法的步骤。
与现有技术相比,本申请实施例提供的基于TextRank的摘要获取方法、装置、计算机设备及存储介质主要有以下有益效果:
通过将文本数据进行拆分,计算拆分后的各个字段的相似度,并基于 TextRank获取各个字段的重要性得分,最后基于重要性得分对各个字段进行拼接操作,得到与本文数据关联度最大、质量最优的文本摘要,这个方法在实际应用中,可以增加摘要内容和标题之间的相关性,提高文本摘要的质量。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的基于TextRank的摘要获取方法的实现流程图;
图2是图1中步骤S102的一种实现方式的流程图;
图3是图1中步骤S102的另一种实现方式的流程图;
图4是图1中步骤S103的一种实现方式的流程图
图5是本申请实施例一提供的获取字段评分的实现流程图;
图6是本申请实施例一提供的收敛判定方法的实现流程图;
图7是本申请实施例一提供的基于TextRank的摘要获取装置的结构示意图;
图8是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
实施例一
参阅图1,示出了本申请实施例一提供的基于TextRank的摘要获取方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在步骤S101中,接收请求终端发送的携带有文本数据的摘要获取请求。
在本申请实施例中,请求终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对请求终端的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,文本数据至少包括正文内容部分,对文本数据的标题不作任何限定。
在步骤S102中,响应摘要获取请求,对文本数据进行预处理操作,得到预处理字段。
在本申请实施例中,预处理操作主要用于将文本数据以句子的形式进行拆分,并删除关联度较弱的句子或者文段,得到上述预处理字段。
其中,标题不需要进行预处理,现代汉语中文章的标题为突出文章内容的高度梗概,一般为短语片段或者一句话,因此不需要进行其他预处理操作。
其中,由于标题都会居中展示,通过判断第一个句子是否采用居中的格式,即可确定该第一个句子是否为标题,若第一个句子为居中格式,则为标题;若第一个句子不为居中格式,则标题为空。
在步骤S103中,对预处理字段进行相似度计算操作,得到相似度评分矩阵。
在本申请实施例中,假设通过上述操作后,得到的一系列句子可以表示为[s1,s2,…,sn],包括一共n个句子,第一个句子为标题,当标题为空时,该句子为空;第i个句子为[wi1,wi2,…,wim],假设句子中有m个词。对n个句子两两计算相似度,可以得到一个n*n的相似度得分矩阵P。该得分矩阵的第 i行第j列Pij表示第i个句子和第j个句子的相似度得分。相似度的计算方法可以使用传统的计算两个句子间重叠的词数,也可以使用词向量(word2vec) 进行加权平均得到句子向量,进行余弦相似度计算的结果作为相似度得分。然后将所有Pii置为0,因为和本身计算相似度没有意义。
在本申请实施例中,由于标题都会居中展示,通过判断第一个句子是否采用居中的格式,即可确定该第一个句子是否为标题,若第一个句子为居中格式,则为标题;若第一个句子不为居中格式,则标题为空。
在本申请实施例中,可以使用传统的计算两个句子间重叠的词数表示句子,也可以使用词向量(word2vec)进行加权平均得到句子向量表示。
在本申请实施例中,相似度计算操作是基于余弦相似度进行计算。这样一共就会得到n*n的斜对称矩阵P,因为A句子与B句子的相似度=B句子与A 句子的相似度,所以他是对称的。其中Pij表示第i个句子和第j个句子的相似度。
在步骤S104中,将相似度评分矩阵输入至TextRank(文本排序算法)进行迭代操作,得到字段评分。
在本申请实施例中,将上述步骤的得分矩阵作为TextRank的输入进行迭代,TextRank具体迭代为:
Figure RE-GDA0002816763410000061
在步骤S105中,基于字段评分对预处理字段进行拼接操作,得到摘要文本数据。
在本申请实施例中,计算得到结果为[v1,v2,…,vn],分别为n个句子对应的重要性得分。将v1去除(对应着标题),然后从大到小排列剩下的得分。按照从高到低的顺序取其对应的句子作为摘要进行拼接,直到达到目标长度L,作为示例,该目标长度L可以是200。
在步骤S106中,向请求终端发送摘要文本数据。
在本申请实施例中,提供了一种基于TextRank的摘要获取方法,包括:接收请求终端发送的携带有文本数据的摘要获取请求;响应摘要获取请求,对文本数据进行预处理操作,得到预处理字段;对预处理字段进行相似度计算操作,得到相似度评分矩阵;将相似度评分矩阵输入至TextRank进行迭代操作,得到字段评分;基于字段评分对预处理字段进行拼接操作,得到摘要文本数据;向请求终端发送摘要文本数据。通过将文本数据进行拆分,计算拆分后的各个字段的相似度,并基于TextRank获取各个字段的重要性得分,最后基于重要性得分对各个字段进行拼接操作,得到与本文数据关联度最大、质量最优的文本摘要,这个方法在实际应用中,可以增加摘要内容和标题之间的相关性,提高文本摘要的质量。
继续参阅图2,示出了图1中步骤S102的一种实现方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本申请实施例一的一些可选的实现方式中,上述步骤S102具体包括:步骤S201以及步骤S202。
在步骤S201中,获取正文文本的标点符号。
在本申请实施例中,上述文本数据至少包括正文文本。该正文文本指的是除了标题文本以外的文本内容。
在本申请实施例中,标点符号指的是一系列中文句末标点符号,具体的,该标点符号包括“。”、“!”、“?”等,应当理解,此处对标点符号的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,获取标点符号的方式可以是通过提前设定的一系列中文句末标点符号,基于正则表达式等方式识别正文本文的标点符号。
在步骤S202中,基于标点符号对正文文本进行拆分操作,得到预处理字段。
一共有n-1句,记标题为s1,则有s1,s2,…,sn个字段。
继续参阅图3,示出了图1中步骤S102的另一种实现方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本申请实施例一的一些可选的实现方式中,上述步骤S102具体包括:步骤S301。
在步骤S301中,对正文文本进行去噪操作,得到预处理字段。
在本申请实施例中,去噪操作主要是用于取出无关句子或者或者无关字段。具体的,去掉无关句子指:去掉和文章内容无关的句子,例如新闻的开始一般都包含有电头,例如“新华社xx月xx日电”,“新浪网xx月xx如讯”,使用正则表达式对这类句式进行匹配将他们去除;去掉无关片段指:去掉句子中可能包含的无关成分,如“(记者张三)”、“(责编:李四)”。通过使用正则表达式,对这些片段进行删减。
继续参阅图4,示出了图1中步骤S103的一种实现方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本申请实施例一的一些可选的实现方式中,上述步骤S103具体包括:步骤S401以及步骤S402。
在步骤S401中,分别获各个预处理字段之间的重叠词组数量。
在步骤S402中,将重叠词组数量作为所述相似度评分矩阵。
在本申请实施例一的一些可选的实现方式中,上述TextRank的迭代表示为:
Figure RE-GDA0002816763410000081
其中,W(i)表示字段i的字段评分;Pij表示字段i与字段j之间的相似度评分;Pjk表示字段j与字段k之间的边的权重。
继续参阅图5,示出了本申请实施例一提供的获取字段评分的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本申请实施例一的一些可选的实现方式中,上述步骤S104之前还包括:步骤S501,上述步骤S104具体包括:步骤S502。
在步骤S501中,对正文文本的首个预处理字段进行加权操作,得到首句字段评分。
在本申请实施例中,会对正文的第一句话(s2)进行加权,假设增加权重α,则对P中的第二行中,除了P22以外,均加上α。作为示例,该增加权重α可取值为0.1。
在步骤S502中,将首句字段评分输入至TextRank进行首句迭代操作,得到字段评分,TextRank的迭代表示为:
Figure RE-GDA0002816763410000082
其中,α为加权值;W(i)表示字段i的字段评分;Pij表示字段i与字段j 之间的相似度评分;Pjk表示字段j与字段k之间的边的权重。
继续参阅图6,示出了本申请实施例一提供的收敛判定方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
在本申请实施例一的一些可选的实现方式中,上述步骤S104具体包括:步骤S601以及步骤S602。
在步骤S601中,针对所述文本数据中的每一预处理字段,将本次计算得到的当前字段评分与上一次计算得到的上轮字段评分的差值的绝对值,作为该预处理字段对应的当前得分差值。
在本申请实施例中,在每次迭代计算之后,电子设备可以获取每一预处理字段当前的得分。针对每一预处理字段,电子设备可以获取该预处理字段本次计算的得分与上一次计算的得分的差值的绝对值,作为该预处理字段对应的得分差值,进而,在每次迭代计算之后,电子设备可以获取所有预处理字段对应的得分差值。
在步骤S602中,如果所述各预处理字段对应的当前得分差值的平均值小于预设数值,则判定满足预设收敛条件。
在本申请实施例中,预设数值可以由技术人员根据预处理字段的经验进行设置,作为示例,例如,预设数值可以为0.0001,预设数值也可以为0.00001,应当理解,此处对预设数值的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,在每次迭代计算之后,如果各预处理字段对应的得分差值的平均值小于预设数值,电子设备可以判定当前满足预设收敛条件,进而,电子设备可以停止迭代计算,获得各预处理字段的最终得分。
需要强调的是,为进一步保证上述文本数据信息的私密和安全性,上述文本数据信息还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可以应用于医疗科技领域,用于提取医疗新闻、疫情信息和/或病历信息等的摘要。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图7,作为上述图1所示方法的实现,本申请提供了一种基于 TextRank的摘要获取装置,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本申请实施例二提供的基于TextRank的摘要获取装置100 包括:接收模块110、预处理模块120、相似度计算模块130、迭代模块140、拼接模块150以及输出模块160。其中:
接收模块110,用于接收请求终端发送的携带有文本数据的摘要获取请求;
预处理模块120,用于响应所述摘要获取请求,对所述文本数据进行预处理操作,得到预处理字段;
相似度计算模块130,用于对所述预处理字段进行相似度计算操作,得到相似度评分矩阵;
迭代模块140,用于将所述相似度评分矩阵输入至TextRank进行迭代操作,得到字段评分;
拼接模块150,用于基于所述字段评分对所述预处理字段进行拼接操作,得到摘要文本数据;
输出模块160,用于向所述请求终端发送所述摘要文本数据。
在本申请实施例中,请求终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对请求终端的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,文本数据至少包括正文内容部分,对文本数据的标题不作任何限定。
在本申请实施例中,预处理操作主要用于将文本数据以句子的形式进行拆分,并删除关联度较弱的句子或者文段,得到上述预处理字段。
其中,标题不需要进行预处理,现代汉语中文章的标题为突出文章内容的高度梗概,一般为短语片段或者一句话,因此不需要进行其他预处理操作。
其中,由于标题都会居中展示,通过判断第一个句子是否采用居中的格式,即可确定该第一个句子是否为标题,若第一个句子为居中格式,则为标题;若第一个句子不为居中格式,则标题为空。
在本申请实施例中,假设通过上述操作后,得到的一系列句子可以表示为[s1,s2,…,sn],包括一共n个句子,第一个句子为标题,当标题为空时,该句子为空;第i个句子为[wi1,wi2,…,wim],假设句子中有m个词。对n个句子两两计算相似度,可以得到一个n*n的相似度得分矩阵P。该得分矩阵的第i行第j列Pij表示第i个句子和第j个句子的相似度得分。相似度的计算方法可以使用传统的计算两个句子间重叠的词数,也可以使用词向量(word2vec) 进行加权平均得到句子向量,进行余弦相似度计算的结果作为相似度得分。然后将所有Pii置为0,因为和本身计算相似度没有意义。
在本申请实施例中,由于标题都会居中展示,通过判断第一个句子是否采用居中的格式,即可确定该第一个句子是否为标题,若第一个句子为居中格式,则为标题;若第一个句子不为居中格式,则标题为空。
在本申请实施例中,可以使用传统的计算两个句子间重叠的词数表示句子,也可以使用词向量(word2vec)进行加权平均得到句子向量表示。
在本申请实施例中,相似度计算操作是基于余弦相似度进行计算。这样一共就会得到n*n的斜对称矩阵P,因为A句子与B句子的相似度=B句子与A 句子的相似度,所以他是对称的。其中Pij表示第i个句子和第j个句子的相似度。
在本申请实施例中,将上述步骤的得分矩阵作为TextRank的输入进行迭代,TextRank具体迭代为:
Figure RE-GDA0002816763410000121
在本申请实施例中,计算得到结果为[v1,v2,…,vn],分别为n个句子对应的重要性得分。将v1去除(对应着标题),然后从大到小排列剩下的得分。按照从高到低的顺序取其对应的句子作为摘要进行拼接,直到达到目标长度L,作为示例,该目标长度L可以是200。
在本申请实施例中,提供了一种基于TextRank的摘要获取装置,通过将文本数据进行拆分,计算拆分后的各个字段的相似度,并基于TextRank获取各个字段的重要性得分,最后基于重要性得分对各个字段进行拼接操作,得到与本文数据关联度最大、质量最优的文本摘要,这个方法在实际应用中,可以增加摘要内容和标题之间的相关性,提高文本摘要的质量。
在本申请实施例二的一些可选的实现方式中,上述预处理模块120具体包括:标点符号获取子模块以及
标点符号获取子模块,用于获取正文文本的标点符号;
拆分操作子模块,用于基于标点符号对正文文本进行拆分操作,得到预处理字段。
在本申请实施例中,上述文本数据至少包括正文文本。该正文文本指的是除了标题文本以外的文本内容。
在本申请实施例中,标点符号指的是一系列中文句末标点符号,具体的,该标点符号包括“。”、“!”、“?”等,应当理解,此处对标点符号的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,获取标点符号的方式可以是通过提前设定的一系列中文句末标点符号,基于正则表达式等方式识别正文本文的标点符号。
一共有n-1句,记标题为s1,则有s1,s2,…,sn个字段。
在本申请实施例二的一些可选的实现方式中,上述预处理模块120具体还包括:去噪操作子模块。其中:
去噪操作子模块,用于对正文文本进行去噪操作,得到预处理字段。
在步骤S301中,对正文文本进行去噪操作,得到预处理字段。
在本申请实施例中,去噪操作主要是用于取出无关句子或者或者无关字段。具体的,去掉无关句子指:去掉和文章内容无关的句子,例如新闻的开始一般都包含有电头,例如“新华社xx月xx日电”,“新浪网xx月xx如讯”,使用正则表达式对这类句式进行匹配将他们去除;去掉无关片段指:去掉句子中可能包含的无关成分,如“(记者张三)”、“(责编:李四)”。通过使用正则表达式,对这些片段进行删减。
在本申请实施例二的一些可选的实现方式中,上述相似度计算模块130 具体包括:重叠数量获取子模块以及评分确认子模块。其中:
重叠数量获取子模块,用于分别获各个预处理字段之间的重叠词组数量;
评分确认子模块,用于将重叠词组数量作为所述相似度评分矩阵。
在本申请实施例二的一些可选的实现方式中,上述TextRank的迭代表示为:
Figure RE-GDA0002816763410000141
其中,W(i)表示字段i的字段评分;Pij表示字段i与字段j之间的相似度评分;Pjk表示字段j与字段k之间的边的权重。
在本申请实施例二的一些可选的实现方式中,基于TextRank的摘要获取装置100还包括:模块;上述迭代模块140具体包括:子模块。其中:
加权操作模块,用于对所述正文文本的首个预处理字段进行加权操作,得到首句字段评分;
迭代操作子模块,用于将所述首句字段评分输入至所述TextRank进行首句迭代操作,得到所述字段评分,所述TextRank的迭代表示为:
Figure RE-GDA0002816763410000142
其中,α为加权值;W(i)表示字段i的字段评分;Pij表示字段i与字段j 之间的相似度评分;Pjk表示字段j与字段k之间的边的权重。
在本申请实施例中,会对正文的第一句话(s2)进行加权,假设增加权重α,则对P中的第二行中,除了P22以外,均加上α。作为示例,该增加权重α可取值为0.1。
在本申请实施例二的一些可选的实现方式中,迭代模块140还包括:得分差值获取子模块以及收敛确认子模块。其中:
得分差值获取子模块,用于针对所述文本数据中的每一预处理字段,将本次计算得到的当前字段评分与上一次计算得到的上轮字段评分的差值的绝对值,作为该预处理字段对应的当前得分差值;
收敛确认子模块,用于如果所述各预处理字段对应的当前得分差值的平均值小于预设数值,则判定满足预设收敛条件。
在本申请实施例中,在每次迭代计算之后,电子设备可以获取每一预处理字段当前的得分。针对每一预处理字段,电子设备可以获取该预处理字段本次计算的得分与上一次计算的得分的差值的绝对值,作为该预处理字段对应的得分差值,进而,在每次迭代计算之后,电子设备可以获取所有预处理字段对应的得分差值。
在本申请实施例中,预设数值可以由技术人员根据预处理字段的经验进行设置,作为示例,例如,预设数值可以为0.0001,预设数值也可以为0.00001,应当理解,此处对预设数值的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,在每次迭代计算之后,如果各预处理字段对应的得分差值的平均值小于预设数值,电子设备可以判定当前满足预设收敛条件,进而,电子设备可以停止迭代计算,获得各预处理字段的最终得分。
综上所述,本申请实施例提供了一种基于TextRank的摘要获取方法和装置,通过将文本数据进行拆分,计算拆分后的各个字段的相似度,并基于 TextRank获取各个字段的重要性得分,最后基于重要性得分对各个字段进行拼接操作,得到与本文数据关联度最大、质量最优的文本摘要,这个方法在实际应用中,可以增加摘要内容和标题之间的相关性,提高文本摘要的质量。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器 220、网络接口230。需要指出的是,图中仅示出了具有组件210-230的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器210至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器210可以是所述计算机设备200 的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器210也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如基于TextRank的摘要获取方法的计算机可读指令等。此外,所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据,例如运行所述基于TextRank的摘要获取方法的计算机可读指令。
所述网络接口230可包括无线网络接口或有线网络接口,该网络接口230 通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
将文本数据进行拆分,计算拆分后的各个字段的相似度,并基于TextRank 获取各个字段的重要性得分,最后基于重要性得分对各个字段进行拼接操作,得到与本文数据关联度最大、质量最优的文本摘要,这个方法在实际应用中,可以增加摘要内容和标题之间的相关性,提高文本摘要的质量。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于TextRank的摘要获取方法的步骤。
将文本数据进行拆分,计算拆分后的各个字段的相似度,并基于TextRank 获取各个字段的重要性得分,最后基于重要性得分对各个字段进行拼接操作,得到与本文数据关联度最大、质量最优的文本摘要,这个方法在实际应用中,可以增加摘要内容和标题之间的相关性,提高文本摘要的质量。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于TextRank的摘要获取方法,其特征在于,包括下述步骤:
接收请求终端发送的携带有文本数据的摘要获取请求;
响应所述摘要获取请求,对所述文本数据进行预处理操作,得到预处理字段;
对所述预处理字段进行相似度计算操作,得到相似度评分矩阵;
将所述相似度评分矩阵输入至TextRank进行迭代操作,得到字段评分;
基于所述字段评分对所述预处理字段进行拼接操作,得到摘要文本数据;
向所述请求终端发送所述摘要文本数据。
2.根据权利要求1所述的基于TextRank的摘要获取方法,其特征在于,所述对所述预处理字段进行相似度计算操作,得到相似度评分矩阵的步骤,具体包括:
分别获各个所述预处理字段之间的重叠词组数量;
将所述重叠词组数量作为所述相似度评分矩阵。
3.根据权利要求1所述的基于TextRank的摘要获取方法,其特征在于,所述TextRank的迭代表示为:
Figure FDA0002759297740000011
其中,W(i)表示字段i的字段评分;Pij表示字段i与字段j之间的相似度评分;Pjk表示字段j与字段k之间的边的权重。
4.根据权利要求1所述的基于TextRank的摘要获取方法,其特征在于,在所述将所述相似度评分矩阵输入至TextRank进行迭代操作,得到字段评分的步骤之前,还包括下述步骤:
对所述正文文本的首个预处理字段进行加权操作,得到首句字段评分;
所述将所述相似度评分矩阵输入至TextRank进行迭代操作,得到字段评分的步骤,具体包括下述步骤:
将所述首句字段评分输入至所述TextRank进行首句迭代操作,得到所述字段评分,所述TextRank的迭代表示为:
Figure FDA0002759297740000021
其中,α为加权值;W(i)表示字段i的字段评分;Pij表示字段i与字段j之间的相似度评分;Pjk表示字段j与字段k之间的边的权重。
5.根据权利要求1所述的基于TextRank的摘要获取方法,其特征在于,所述将所述相似度评分矩阵输入至TextRank进行迭代操作,得到字段评分的步骤,具体包括下述步骤:
针对所述文本数据中的每一预处理字段,将本次计算得到的当前字段评分与上一次计算得到的上轮字段评分的差值的绝对值,作为该预处理字段对应的当前得分差值;
如果所述各预处理字段对应的当前得分差值的平均值小于预设数值,则判定满足预设收敛条件。
6.根据权利要求1所述的基于TextRank的摘要获取方法,其特征在于,在所述接收请求终端发送的携带有文本数据的摘要获取请求的步骤之后,还包括:
将所述文本数据存储至区块链中。
7.一种基于TextRank的摘要获取装置,其特征在于,包括:
接收模块,用于接收请求终端发送的携带有文本数据的摘要获取请求;
预处理模块,用于响应所述摘要获取请求,对所述文本数据进行预处理操作,得到预处理字段;
相似度计算模块,用于对所述预处理字段进行相似度计算操作,得到相似度评分矩阵;
迭代模块,用于将所述相似度评分矩阵输入至TextRank进行迭代操作,得到字段评分;
拼接模块,用于基于所述字段评分对所述预处理字段进行拼接操作,得到摘要文本数据;
输出模块,用于向所述请求终端发送所述摘要文本数据。
8.根据权利要求1所述的基于TextRank的摘要获取装置,其特征在于,所述相似度计算模块包括:
重叠数量获取子模块,用于分别获各个预处理字段之间的重叠词组数量;
评分确认子模块,用于将重叠词组数量作为所述相似度评分矩阵。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于TextRank的摘要获取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于TextRank的摘要获取方法的步骤。
CN202011212545.0A 2020-11-03 2020-11-03 基于TextRank的摘要获取方法、装置、计算机设备及存储介质 Pending CN112329422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011212545.0A CN112329422A (zh) 2020-11-03 2020-11-03 基于TextRank的摘要获取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011212545.0A CN112329422A (zh) 2020-11-03 2020-11-03 基于TextRank的摘要获取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112329422A true CN112329422A (zh) 2021-02-05

Family

ID=74323339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011212545.0A Pending CN112329422A (zh) 2020-11-03 2020-11-03 基于TextRank的摘要获取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112329422A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284357A (zh) * 2018-08-29 2019-01-29 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质
CN109325235A (zh) * 2018-10-17 2019-02-12 武汉斗鱼网络科技有限公司 一种基于词权的文本摘要提取方法及计算装置
CN109739973A (zh) * 2018-12-20 2019-05-10 北京奇安信科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN111125348A (zh) * 2019-11-25 2020-05-08 北京明略软件系统有限公司 一种文本摘要的提取方法及装置
CN111767394A (zh) * 2020-06-24 2020-10-13 中国工商银行股份有限公司 一种基于人工智能专家系统的摘要提取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284357A (zh) * 2018-08-29 2019-01-29 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质
CN109325235A (zh) * 2018-10-17 2019-02-12 武汉斗鱼网络科技有限公司 一种基于词权的文本摘要提取方法及计算装置
CN109739973A (zh) * 2018-12-20 2019-05-10 北京奇安信科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN111125348A (zh) * 2019-11-25 2020-05-08 北京明略软件系统有限公司 一种文本摘要的提取方法及装置
CN111767394A (zh) * 2020-06-24 2020-10-13 中国工商银行股份有限公司 一种基于人工智能专家系统的摘要提取方法及装置

Similar Documents

Publication Publication Date Title
CN107729300B (zh) 文本相似度的处理方法、装置、设备和计算机存储介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN108959559B (zh) 问答对生成方法和装置
CN112395420A (zh) 视频内容检索方法、装置、计算机设备及存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
WO2022174491A1 (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN111353311A (zh) 一种命名实体识别方法、装置、计算机设备及存储介质
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN112084779B (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN112632139A (zh) 基于pmis系统的信息推送方法、装置、计算机设备和介质
CN112468658B (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN113505601A (zh) 一种正负样本对构造方法、装置、计算机设备及存储介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN112671985A (zh) 基于深度学习的坐席质检方法、装置、设备及存储介质
CN112085091A (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN110222144B (zh) 文本内容提取方法、装置、电子设备及存储介质
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN113420161A (zh) 一种节点文本融合方法、装置、计算机设备及存储介质
CN110263083B (zh) 知识图谱的处理方法、装置、设备和介质
CN114742058B (zh) 一种命名实体抽取方法、装置、计算机设备及存储介质
CN112329422A (zh) 基于TextRank的摘要获取方法、装置、计算机设备及存储介质
CN113032519A (zh) 一种句子相似度判断方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination