CN113962221A - 一种文本摘要的提取方法、装置、终端设备和存储介质 - Google Patents
一种文本摘要的提取方法、装置、终端设备和存储介质 Download PDFInfo
- Publication number
- CN113962221A CN113962221A CN202111258362.7A CN202111258362A CN113962221A CN 113962221 A CN113962221 A CN 113962221A CN 202111258362 A CN202111258362 A CN 202111258362A CN 113962221 A CN113962221 A CN 113962221A
- Authority
- CN
- China
- Prior art keywords
- sentence
- similarity
- vector
- text
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于人工智能技术领域,提供一种文本摘要的提取方法、装置、终端设备和存储介质。该方法包括:获取待处理文本;分别提取所述待处理文本包含的各个句子的句向量和词向量;采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,其中,所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得;根据所述任意两两句子之间的相似度构建有向带权图;基于目标迭代公式以及所述有向带权图,计算得到每个所述句子的排名值;将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。采用该方法能够提高文本摘要提取的准确率。
Description
技术领域
本申请涉及人工智能技术领域,提供一种文本摘要的提取方法、装置、终端设备和存储介质。
背景技术
文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要,目前通常采用TextRank算法进行文本摘要的提取。TextRank是一种用于文本的基于图的排序算法,通过把文本分割成若干组成句子,构建有向带权图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。然而,采用TextRank算法提取文本摘要时仅仅采用字符的相似度来计算句子的相似度,却忽略了句子中的语义信息以及句子中每个词在全局中的重要程度信息,因此计算得到的句子的相似度是不准确的,进而导致在循环迭代时提取到的文本摘要的准确率较低。
发明内容
有鉴于此,本申请提出一种文本摘要的提取方法、装置、终端设备和存储介质,能够提高文本摘要提取的准确率。
第一方面,本申请实施例提供了一种文本摘要的提取方法,包括:
获取待处理文本;
分别提取所述待处理文本包含的各个句子的句向量和词向量;
采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,其中,所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得;
根据所述任意两两句子之间的相似度构建有向带权图;
基于目标迭代公式以及所述有向带权图,计算得到每个所述句子的排名值;
将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。
本申请实施例在现有的采用TextRank算法提取文本摘要的基础上进行了改进,在计算句子相似度时同时考虑句子的词向量和句向量,将句子的语义特征以及句子中每个词的特征进行融合计算,能够提高计算得到的句子相似度的准确率,从而提高后续采用算法循环迭代提取文本摘要的准确率。
在本申请的一个实施例中,所述采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,可以包括:
根据第一句子的词向量和第二句子的词向量,计算得到第一句向量相似度,其中,所述第一句子和所述第二句子为所述各个句子中的任意两个句子;
根据所述第一句子的句向量和所述第二句子的句向量,计算得到第二句向量相似度;
根据所述第一句向量相似度和所述第二句向量相似度,计算得到所述第一句子和所述第二句子之间的相似度。
进一步的,所述根据第一句子的词向量和第二句子的词向量,计算得到第一句向量相似度,可以包括:
分别计算所述第一句子包含的每个词语的TF-IDF值,以及所述第二句子包含的每个词语的TF-IDF值;
以对应的TF-IDF值作为权重,对所述第一句子的词向量进行加权求和操作,得到所述第一句子的目标句向量;
以对应的TF-IDF值作为权重,对所述第二句子的词向量进行加权求和操作,得到所述第二句子的目标句向量;
计算所述第一句子的目标句向量和所述第二句子的目标句向量之间的余弦距离,并基于所述余弦距离确定所述第一句向量相似度。
进一步的,所述根据所述第一句向量相似度和所述第二句向量相似度,计算得到所述第一句子和所述第二句子之间的相似度,可以包括:
使用以下公式计算得到所述第一句子和所述第二句子之间的相似度:
Similarity12=a*Similarity1+b*Similarity2
其中,Similarity12表示所述第一句子和所述第二句子之间的相似度,Similarity1表示所述第一句向量相似度,Similarity2表示所述第二句向量相似度,a和b为超参数。
更进一步的,所述超参数a和b可以通过以下方式确定:
采用遍历的方式计算所述第一句子包含的各个词向量中两两词向量之间的相似度,以及计算所述第二句子包含的各个词向量中两两词向量之间的相似度;
对所述第一句子包含的各个词向量中两两词向量之间的相似度进行求和,得到第一词向量相似度,以及对所述第二句子包含的各个词向量中两两词向量之间的相似度进行求和,得到第二词向量相似度;
根据所述第一词向量相似度和所述第二词向量相似度确定所述超参数a和b。
在本申请的一个实施例中,所述有向带权图的节点表示句子,所述有向带权图的边表示句子之间的相似度,在根据所述任意两两句子之间的相似度构建有向带权图之后,还可以包括:
删除所述有向带权图中对应的句子相似度小于设定阈值的边。
在本申请的一个实施例中,所述分别提取所述待处理文本包含的各个句子的句向量和词向量,可以包括:
对所述待处理文本执行预处理操作;
将预处理操作后的所述待处理文本输入预先训练的Bert模型进行处理,通过所述Bert模型输出所述待处理文本包含的各个句子的句向量和词向量。
第二方面,本申请实施例提供了一种文本摘要的提取装置,包括:
文本获取模块,用于获取待处理文本;
向量提取模块,用于分别提取所述待处理文本包含的各个句子的句向量和词向量;
句子相似度计算模块,用于采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,其中,所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得;
有向带权图构建模块,用于根据所述任意两两句子之间的相似度构建有向带权图;
句子排名值计算模块,用于基于目标迭代公式以及所述有向带权图,计算得到每个所述句子的排名值;
文本摘要确定模块,用于将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例第一方面提出的文本摘要的提取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请实施例第一方面提出的文本摘要的提取方法。
第五方面,本申请实施例提供了一种计算机程序产品,当该计算机程序产品在终端设备上运行时,使得该终端设备执行如本申请实施例第一方面提出的文本摘要的提取方法。
上述第二方面至第五方面所能实现的有益效果,可以参照上述第一方面的相关说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本摘要的提取方法的一个实施例的流程图;
图2是本申请实施例提供的一种有向带权图的示意图;
图3是对图2进行调整后的有向带权图的示意图;
图4是本申请实施例提供的一种文本摘要的提取装置的一个实施例的结构图;
图5是本申请实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
传统的基于TextRank算法进行文本摘要提取时,仅仅采用字符的相似度去计算句子的相似度,却忽略了句子中的语义信息以及句子中每个词在全局中的重要程度信息,导致句子的相似度计算不准确,进而在后续更新迭代时影响整体文本摘要提取的效果。有鉴于此,本申请提出一种文本摘要的提取方法,能够提高文本摘要提取的准确率。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应当理解,本申请实施例提供的文本摘要的提取方法的执行主体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、大屏电视等终端设备或者服务器,本申请实施例对该终端设备和服务器的具体类型不作任何限制。这里的服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,本申请实施例中一种文本摘要的提取方法的第一个实施例包括:
101、获取待处理文本;
首先,获取待处理文本。待处理文本是需要提取文本摘要的文本,在实际操作中,可以获取一篇中文或者外文的文章作为待处理文本。该待处理文本包含多个句子,采用本申请的文本摘要提取方法可以从待处理文本中提取出一定数量的句子,作为对应的文本摘要。
102、分别提取所述待处理文本包含的各个句子的句向量和词向量;
在获取待处理文本之后,提取该待处理文本中每个句子的句向量以及词向量(即每个句子包含的词语的词向量)。在实际操作中,可以采用各种不同的方式提取句子的句向量和词向量,例如针对词向量,可以使用word2vec或者其它词向量提取模型,针对句向量,可以采用词嵌入的方式取加权平均或者其它句向量提取模型。
采用词嵌入方式取加权平均的方法生成句向量的方式存在以下问题:无法理解上下文的语义,同一个词在不同的语境意思可能不一样,但是却会被表示成同样的词嵌入。在基于深度神经网络的自然语言处理中,文本中的字/词通常都用一维向量来表示(一般称之为“词向量”);在此基础上,神经网络会将文本中各个字或词的一维原始的词向量作为输入,该向量既可以随机初始化,也可以利用word2vec等算法进行预训练以作为每个词语的语义表示,我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近。
在本申请实施例的一种实现方式中,可以采用bert模型来实现句向量和词向量的提取,bert生成的词向量可以解决一词多义的问题,而bert生成句向量的优点在于可理解句意,步骤102具体可以包括:
1021、对所述待处理文本进行预处理操作;
1022、将预处理操作后的所述待处理文本输入已训练的bert模型,通过所述bert模型输出所述待处理文本包含的每个句子的句向量和词向量。
在获取待处理文本之后,首先可以对待处理文本执行分词和去停用词等预处理操作,从而将待处理文本由文本集转换为词语集,然后将该词语集输入已训练的bert模型中进行处理,通过该bert模型输出待处理文本包含的每个句子的句向量和词向量。具体的,每个词语的初始向量可以使用三个向量表示,分别为token embedding、segment embedding以及position embedding,在每个句子前增加一个特殊标识cls作为整个句子的句向量,使用bert模型中的mask机制以及next sentence predict机制进行自训练,训练完成后便可以得到每个词语的词向量以及句子的句向量(cls标识表示的向量)。
例如,假设待处理文本包含的某个句子为:我喜欢可爱的动物。那么,通过分词和去停用词等预处理后,将得到{我,喜欢,可爱,动物}的词语集,在该词语集中添加特殊标识cls,得到{cls,我,喜欢,可爱,动物}的词语集,然后将{cls,我,喜欢,可爱,动物}的词语集输入bert模型进行处理,得到词语集中每个词语的词向量,其中词语“cls”得到的词向量可作为整个句子的句向量,“我,喜欢,可爱,动物”4个词语得到的词向量即为整个句子包含的各个词向量。bert模型在句子前插入一个“cls”符号,并将该符号对应的输出向量作为整个句子的语义表示,用于文本分类,可以理解为:与文本中已有的其它字/词相比,这个无明显语义信息的符号会更“公平”地融合句子中各个字/词的语义信息,因此“cls”对应的词向量可以用于表示整个句子的句向量。
总的来说,bert模型通过向量初始化将每个词语转换为一维向量,作为模型输入,模型输出则是各个词语的语义词向量表示以及整个句子的句向量。Bert模型可以包括12层的transformer结构或者24层的transformer结构,本申请实施例可以使用官方提供的12层transformer结构的中文模型,每一层transformer结构的输出值理论上来说都可以作为词向量,但是最佳的词向量为倒数第二层transformer结构的表征。将待处理文本的某个句子S输入给bert模型后,能够输出该句子S的句向量以及该句子S包含的每个词语的词向量,生成的句向量和词向量都可以是指定维度(例如768维)的向量。
103、采用遍历的方式计算所述各个句子中任意两两句子之间的相似度;
在获得待处理文本中各个句子的句向量和词向量之后,可以遍历计算各个句子中任意两两句子之间的相似度,其中,所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得。例如,若待处理文本有3个句子:S1,S2和S3,则分别计算S1和S2之间的相似度,S1和S3之间的相似度,以及S2和S3之间的相似度。
在本申请实施例的一种实现方式中,所述采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,可以包括:
(1)根据第一句子的词向量和第二句子的词向量,计算得到第一句向量相似度,其中,所述第一句子和所述第二句子为所述各个句子中的任意两个句子;
(2)根据所述第一句子的句向量和所述第二句子的句向量,计算得到第二句向量相似度;
(3)根据所述第一句向量相似度和所述第二句向量相似度,计算得到所述第一句子和所述第二句子之间的相似度。
假设第一句子为S1,第二句子为S2,S1和S2为所述各个句子中任意的两个句子。对于上述步骤(1),根据S1包含的各个词语的词向量,以及S2包含的各个词语的词向量,可以计算得到S1和S2之间的第一句向量相似度。具体的,步骤(1)可以包括:
(1.1)分别计算所述第一句子包含的每个词语的TF-IDF值,以及所述第二句子包含的每个词语的TF-IDF值;
(1.2)以对应的TF-IDF值作为权重,对所述第一句子的词向量进行加权求和操作,得到所述第一句子的目标句向量;
(1.3)以对应的TF-IDF值作为权重,对所述第二句子的词向量进行加权求和操作,得到所述第二句子的目标句向量;
(1.4)计算所述第一句子的目标句向量和所述第二句子的目标句向量之间的余弦距离,并基于所述余弦距离确定所述第一句向量相似度。
TF表示词频,IDF表示逆文件概率,某个词语的TF-IDF值是词频和逆文件概率的乘积,关于词频和逆文件概率的定义可以参照现有技术。
假设第一句子S1包含的各个词向量(词向量列表)为[d1,d2,…,dn],其中包含n个指定维度(如768维)的词向量;第二句子S2包含的各个词向量(词向量列表)为[f1,f2,…,fn],其中同样包含n个指定维度(如768维)的词向量,则S1的目标句向量R1以及S2的目标句向量R2可以通过以下公式计算:
其中,dn和fn表示每个词语分别对应的词向量,而wn表示词语的TF-IDF值。
然后,计算目标句向量R1以及目标句向量R2之间的余弦距离,从而得到第一句向量相似度Similarity1。一般来说,两个句子越相似,则在词向量的维度上夹角越小,其余弦距离就越大。
对于上述步骤(2),可以直接通过计算两个句向量的余弦距离来得到第二句向量相似度Similarity2,这里的两个句向量可以分别是bert模型输出的第一句子S1的句向量D1以及bert模型输出的第二句子S2的句向量D2。
对于上述步骤(3),可以采用对两个句向量相似度执行加权求和等方式,得到第一句子和第二句子之间的相似度,例如,可以使用以下公式计算:
Similarity12=a*Similarity1+b*Similarity2
其中,Similarity12表示所述第一句子和所述第二句子之间的相似度,Similarity1表示所述第一句向量相似度,Similarity2表示所述第二句向量相似度,a和b为超参数,一般情况下,a+b=1,例如可以设置为a=b=0.5。
进一步的,所述超参数a和b可以通过以下方式确定:
(1)采用遍历的方式计算所述第一句子包含的各个词向量中两两词向量之间的相似度,以及计算所述第二句子包含的各个词向量中两两词向量之间的相似度;
(2)对所述第一句子包含的各个词向量中两两词向量之间的相似度进行求和,得到第一词向量相似度,以及对所述第二句子包含的各个词向量中两两词向量之间的相似度进行求和,得到第二词向量相似度;
(3)根据所述第一词向量相似度和所述第二词向量相似度确定所述超参数a和b。
假设第一句子包含m个词向量,可以采用计算余弦距离的方式计算得到两两词向量之间的相似度,共个相似度,对这个相似度进行求和,得到第一词向量相似度;假设第二句子包含n个词向量,可以采用计算余弦距离的方式计算得到两两词向量之间的相似度,共个相似度,对这个相似度进行求和,得到第二词向量相似度;然后,可以根据第一词向量相似度和第二词向量相似度设置超参数a和b的数值。
具体的,若第一词向量相似度和第二词向量相似度较高,则表示第一句子和第二句子中包含的各个词语之间的相似度较高,此时采用对词向量加权求和的方式计算得到的目标句向量的准确度可能较低,故优先考虑通过bert模型输出句向量的方式确定第一句子和第二句子的句向量,因此可以设置a的数值较小,b的数值较大,即计算第一句子和第二句子的相似度时着重考虑第二句向量相似度Similarity2。反之,若第一词向量相似度和第二词向量相似度较低,则表示第一句子和第二句子中包含的各个词语之间的相似度较低,则可以设置a的数值较大,b的数值较小,即计算第一句子和第二句子的相似度时着重考虑第一句向量相似度Similarity1。
采用上述相同的方式可以计算得到待处理文本包含的各个句子中任意两两句子之间的相似度,这些相似度可以存储于相似度矩阵中。例如,假设有3个句子:S1,S2和S3,则相似度矩阵为一个3*3的矩阵,如以下表1所示:
表1
S<sub>1</sub> | S<sub>2</sub> | S<sub>3</sub> | |
S<sub>1</sub> | … | … | … |
S<sub>2</sub> | … | K(i,j) | … |
S<sub>3</sub> | … | … | … |
其中,K(i,j)表示句子Si和Sj之间的相似度。
104、根据所述任意两两句子之间的相似度构建有向带权图;
基于待处理文本包含的各个句子中任意两两句子之间的相似度,可以构建得到对应的有向带权图。有向带权图的节点表示句子,边表示两个句子之间的相似度。如图2所示,为一个有向带权图的示意图,图2包含4个节点,分别表示4个句子S1,S2,S3和S4,各个节点之间的边分别表示对应两两句子之间的相似度。
在本申请实施例的一种实现方式中,在根据所述任意两两句子之间的相似度构建有向带权图之后,还可以包括:
删除所述有向带权图中对应的句子相似度小于设定阈值的边。
例如,可以将有向带权图中对应的句子相似度小于0.8的边删除。这样处理的效果在于:后续执行TextRank迭代的目的是找到与当前节点(句子)相关的节点(句子),不去掉的话构建的图是全连接的,进行迭代的时候信息会分摊给其他不相关的节点上,导致迭代效果不好,而且减少边的连接还可以减少计算量。
针对图2所示的有向带权图,将其对应的句子相似度小于0.8的边删除之后,将获得如图3所示的有向带权图。
105、基于目标迭代公式以及所述有向带权图,计算得到每个所述句子的排名值;
接下来,可以使用目标迭代公式(例如可以是TextRank迭代公式)进行迭代,基于该有向带权图计算得到每个所述句子的排名值(例如TextRank值)。关于使用TextRank迭代公式和有向带权图计算句子排名值的具体方法可以参照现有技术,在此不再赘述。
106、将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。
最后,将各个句子中排名值小于指定数值的目标句子确定为待处理文本的摘要,例如可以取排名值前5位(即排名值小于6)的句子作为文本摘要。
本申请实施例在现有的采用TextRank算法提取文本摘要的基础上进行了改进,在计算句子相似度时同时考虑句子的词向量和句向量,将句子的语义特征以及句子中每个词的特征进行融合计算,能够提高计算得到的句子相似度的准确率,从而提高后续采用算法循环迭代提取文本摘要的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的文本摘要的提取方法,图4示出了本申请实施例提供的一种文本摘要的提取装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图4,该装置包括:
文本获取模块401,用于获取待处理文本;
向量提取模块402,用于分别提取所述待处理文本包含的各个句子的句向量和词向量;
句子相似度计算模块403,用于采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,其中,所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得;
有向带权图构建模块404,用于根据所述任意两两句子之间的相似度构建有向带权图;
句子排名值计算模块405,用于基于目标迭代公式以及所述有向带权图,计算得到每个所述句子的排名值;
文本摘要确定模块406,用于将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。
在本申请实施例的一种实现方式中,所述句子相似度计算模块可以包括:
第一句向量相似度计算单元,用于根据第一句子的词向量和第二句子的词向量,计算得到第一句向量相似度,其中,所述第一句子和所述第二句子为所述各个句子中的任意两个句子;
第二句向量相似度计算单元,用于根据所述第一句子的句向量和所述第二句子的句向量,计算得到第二句向量相似度;
句子相似度计算单元,用于根据所述第一句向量相似度和所述第二句向量相似度,计算得到所述第一句子和所述第二句子之间的相似度。
进一步的,所述第一句向量相似度计算单元可以包括:
TF-IDF值计算子单元,用于分别计算所述第一句子包含的每个词语的TF-IDF值,以及所述第二句子包含的每个词语的TF-IDF值;
第一目标句向量计算子单元,用于以对应的TF-IDF值作为权重,对所述第一句子的词向量进行加权求和操作,得到所述第一句子的目标句向量;
第二目标句向量计算子单元,用于以对应的TF-IDF值作为权重,对所述第二句子的词向量进行加权求和操作,得到所述第二句子的目标句向量;
第一句向量相似度确定子单元,用于计算所述第一句子的目标句向量和所述第二句子的目标句向量之间的余弦距离,并基于所述余弦距离确定所述第一句向量相似度。
进一步的,所述句子相似度计算单元具体可以用于:
使用以下公式计算得到所述第一句子和所述第二句子之间的相似度:
Similarity12=a*Similarity1+b*Similarity2
其中,Similarity12表示所述第一句子和所述第二句子之间的相似度,Similarity1表示所述第一句向量相似度,Similarity2表示所述第二句向量相似度,a和b为超参数。
更进一步的,所述句子相似度计算单元可以包括:
第一词向量相似度计算子单元,用于采用遍历的方式计算所述第一句子包含的各个词向量中两两词向量之间的相似度,以及计算所述第二句子包含的各个词向量中两两词向量之间的相似度;
第二词向量相似度计算子单元,用于对所述第一句子包含的各个词向量中两两词向量之间的相似度进行求和,得到第一词向量相似度,以及对所述第二句子包含的各个词向量中两两词向量之间的相似度进行求和,得到第二词向量相似度;
超参数确定子单元,用于根据所述第一词向量相似度和所述第二词向量相似度确定所述超参数a和b。
在本申请实施例的一种实现方式中,所述有向带权图的节点表示句子,所述有向带权图的边表示句子之间的相似度,所述文本摘要的提取装置还可以包括:
有向带权图调整模块,用于删除所述有向带权图中对应的句子相似度小于设定阈值的边。
在本申请实施例的一种实现方式中,所述向量提取模块可以包括:
预处理单元,用于对所述待处理文本执行预处理操作;
Bert模型处理单元,用于将预处理操作后的所述待处理文本输入预先训练的Bert模型进行处理,通过所述Bert模型输出所述待处理文本包含的各个句子的句向量和词向量。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1表示的任意一种文本摘要的提取方法。
本申请实施例还提供一种计算机程序产品,当该计算机程序产品在服务器上运行时,使得服务器执行实现如图1表示的任意一种文本摘要的提取方法。
图5是本申请一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个文本摘要的提取方法实施例中的步骤,例如图1所示的步骤101至106。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至406的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。
所述终端设备5可以是智能手机、笔记本、掌上电脑及云端终端设备等计算设备。所述终端设备5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备5还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(AppLication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieLd-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本摘要的提取方法,其特征在于,包括:
获取待处理文本;
分别提取所述待处理文本包含的各个句子的句向量和词向量;
采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,其中,所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得;
根据所述任意两两句子之间的相似度构建有向带权图;
基于目标迭代公式以及所述有向带权图,计算得到每个所述句子的排名值;
将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。
2.如权利要求1所述的方法,其特征在于,所述采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,包括:
根据第一句子的词向量和第二句子的词向量,计算得到第一句向量相似度,其中,所述第一句子和所述第二句子为所述各个句子中的任意两个句子;
根据所述第一句子的句向量和所述第二句子的句向量,计算得到第二句向量相似度;
根据所述第一句向量相似度和所述第二句向量相似度,计算得到所述第一句子和所述第二句子之间的相似度。
3.如权利要求2所述的方法,其特征在于,所述根据第一句子的词向量和第二句子的词向量,计算得到第一句向量相似度,包括:
分别计算所述第一句子包含的每个词语的TF-IDF值,以及所述第二句子包含的每个词语的TF-IDF值;
以对应的TF-IDF值作为权重,对所述第一句子的词向量进行加权求和操作,得到所述第一句子的目标句向量;
以对应的TF-IDF值作为权重,对所述第二句子的词向量进行加权求和操作,得到所述第二句子的目标句向量;
计算所述第一句子的目标句向量和所述第二句子的目标句向量之间的余弦距离,并基于所述余弦距离确定所述第一句向量相似度。
4.如权利要求2所述的方法,其特征在于,所述根据所述第一句向量相似度和所述第二句向量相似度,计算得到所述第一句子和所述第二句子之间的相似度,包括:
使用以下公式计算得到所述第一句子和所述第二句子之间的相似度:
Similarity12=a*Similarity1+b*Similarity2
其中,Similarity12表示所述第一句子和所述第二句子之间的相似度,Similarity1表示所述第一句向量相似度,Similarity2表示所述第二句向量相似度,a和b为超参数。
5.如权利要求4所述的方法,其特征在于,所述超参数a和b通过以下方式确定:
采用遍历的方式计算所述第一句子包含的各个词向量中两两词向量之间的相似度,以及计算所述第二句子包含的各个词向量中两两词向量之间的相似度;
对所述第一句子包含的各个词向量中两两词向量之间的相似度进行求和,得到第一词向量相似度,以及对所述第二句子包含的各个词向量中两两词向量之间的相似度进行求和,得到第二词向量相似度;
根据所述第一词向量相似度和所述第二词向量相似度确定所述超参数a和b。
6.如权利要求1所述的方法,其特征在于,所述有向带权图的节点表示句子,所述有向带权图的边表示句子之间的相似度,在根据所述任意两两句子之间的相似度构建有向带权图之后,还包括:
删除所述有向带权图中对应的句子相似度小于设定阈值的边。
7.如权利要求1至6中任一项所述的方法,其特征在于,所述分别提取所述待处理文本包含的各个句子的句向量和词向量,包括:
对所述待处理文本执行预处理操作;
将预处理操作后的所述待处理文本输入预先训练的Bert模型进行处理,通过所述Bert模型输出所述待处理文本包含的各个句子的句向量和词向量。
8.一种文本摘要的提取装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;
向量提取模块,用于分别提取所述待处理文本包含的各个句子的句向量和词向量;
句子相似度计算模块,用于采用遍历的方式计算所述各个句子中任意两两句子之间的相似度,其中,所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得;
有向带权图构建模块,用于根据所述任意两两句子之间的相似度构建有向带权图;
句子排名值计算模块,用于基于目标迭代公式以及所述有向带权图,计算得到每个所述句子的排名值;
文本摘要确定模块,用于将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文本摘要的提取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本摘要的提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111258362.7A CN113962221A (zh) | 2021-10-27 | 2021-10-27 | 一种文本摘要的提取方法、装置、终端设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111258362.7A CN113962221A (zh) | 2021-10-27 | 2021-10-27 | 一种文本摘要的提取方法、装置、终端设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113962221A true CN113962221A (zh) | 2022-01-21 |
Family
ID=79467664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111258362.7A Pending CN113962221A (zh) | 2021-10-27 | 2021-10-27 | 一种文本摘要的提取方法、装置、终端设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113962221A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108831A (zh) * | 2023-04-11 | 2023-05-12 | 宁波深擎信息科技有限公司 | 基于领域词提取文本摘要的方法、装置、设备及介质 |
-
2021
- 2021-10-27 CN CN202111258362.7A patent/CN113962221A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108831A (zh) * | 2023-04-11 | 2023-05-12 | 宁波深擎信息科技有限公司 | 基于领域词提取文本摘要的方法、装置、设备及介质 |
CN116108831B (zh) * | 2023-04-11 | 2023-06-23 | 宁波深擎信息科技有限公司 | 基于领域词提取文本摘要的方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN109918560B (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN107085581B (zh) | 短文本分类方法和装置 | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
CN110705294A (zh) | 命名实体识别模型训练方法、命名实体识别方法及装置 | |
US11550996B2 (en) | Method and system for detecting duplicate document using vector quantization | |
KR102695381B1 (ko) | 엔티티-속성 관계 식별 | |
CN109492217B (zh) | 一种基于机器学习的分词方法及终端设备 | |
CN113159013B (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN113626704A (zh) | 基于word2vec模型的推荐信息方法、装置及设备 | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN113761124A (zh) | 文本编码模型的训练方法、信息检索方法及设备 | |
CN115456043A (zh) | 分类模型处理、意图识别方法、装置和计算机设备 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN114387656B (zh) | 基于人工智能的换脸方法、装置、设备及存储介质 | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN109885831B (zh) | 关键术语抽取方法、装置、设备及计算机可读存储介质 | |
CN111191036A (zh) | 短文本主题聚类方法、装置、设备及介质 | |
CN113962221A (zh) | 一种文本摘要的提取方法、装置、终端设备和存储介质 | |
CN115495636A (zh) | 网页搜索方法、装置及存储介质 | |
CN108846142A (zh) | 一种文本聚类方法、装置、设备及可读存储介质 | |
CN112307738A (zh) | 用于处理文本的方法和装置 | |
CN112417845A (zh) | 一种文本评价方法、装置、电子设备及存储介质 | |
CN112579774B (zh) | 模型训练方法、模型训练装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220921 Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000 Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |