CN113342968A - 文本摘要提取方法及装置 - Google Patents

文本摘要提取方法及装置 Download PDF

Info

Publication number
CN113342968A
CN113342968A CN202110561021.0A CN202110561021A CN113342968A CN 113342968 A CN113342968 A CN 113342968A CN 202110561021 A CN202110561021 A CN 202110561021A CN 113342968 A CN113342968 A CN 113342968A
Authority
CN
China
Prior art keywords
vector
similarity
text
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110561021.0A
Other languages
English (en)
Other versions
CN113342968B (zh
Inventor
申端明
李青
孙健
李楠梓
周思诗
温乾
崔玉芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Petrochina Co Ltd
Original Assignee
Petrochina Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Petrochina Co Ltd filed Critical Petrochina Co Ltd
Priority to CN202110561021.0A priority Critical patent/CN113342968B/zh
Publication of CN113342968A publication Critical patent/CN113342968A/zh
Application granted granted Critical
Publication of CN113342968B publication Critical patent/CN113342968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本摘要提取方法及装置,涉及自然语言处理技术领域,该方法包括:获取文本信息和文本语料词向量集合信息;对文本信息进行分词处理,根据分词处理结果和文本语料词向量集合信息确定分词处理结果中每个词语的词向量;根据词向量生成文本信息的句向量、文向量和标题向量;根据句向量、文向量和标题向量生成相似度评分;根据相似度评分确定文本信息的摘要信息。本发明利用句向量、文向量和标题向量生成相似度评分,可以提高抽取出的摘要句和原文的语义相关度,从而找出与原文中心思想非常贴近的句子,进而提升文本摘要质量。

Description

文本摘要提取方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种文本摘要提取方法及装置。
背景技术
自动文本摘要,简单来说,就是输入一段长文字,输出对这段长文字的一个总结概要。自动文本摘要在新闻、语音播报、文档信息提取、公司报表、上市公司分析等领域具有很多的应用场景。
随着互联网的迅速发展,信息爆炸带来的信息过载问题给人们带来了很大困扰。大量文本内容的产生,使人们需要想办法让计算机自动提取文本摘要,帮助判断文本主旨,以节省阅读时间。
以神经网络深度学习为代表的生成式文本摘要方法,虽然生成摘要的过程符合自然人抽取摘要时的思维,但是对于长文本内容生成的摘要效果并不好;而抽取式文本摘要则不受文本长度的限制,目前已有的抽取式文本摘要方法虽然结合了词频和词句的位置信息,但其得到的文本摘要质量仍有待提高。
发明内容
本发明提供了一种文本摘要提取方法及装置,可以基于原文中的句子和原文语义相关度提取摘要信息,提高文本摘要的提取的准确度。
第一方面,本发明实施例提供了一种文本摘要提取方法,该方法包括:获取文本信息和文本语料词向量集合信息;对所述文本信息进行分词处理,根据分词处理结果和所述文本语料词向量集合信息确定所述分词处理结果中每个词语的词向量;根据所述词向量生成所述文本信息的句向量、文向量和标题向量;根据所述句向量、所述文向量和所述标题向量生成相似度评分;根据所述相似度评分确定所述文本信息的摘要信息。
第二方面,本发明实施例还提供一种文本摘要提取装置,该装置包括:获取模块,用于获取文本信息和文本语料词向量集合信息;向量模块,用于对所述文本信息进行分词处理,根据分词处理结果和所述文本语料词向量集合信息确定所述分词处理结果中每个词语的词向量;计算模块,用于根据所述词向量生成所述文本信息的句向量、文向量和标题向量;语义模块,用于根据所述句向量、所述文向量和所述标题向量生成相似度评分;排序模块,用于根据所述相似度评分确定所述文本信息的摘要信息。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本摘要提取方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述文本摘要提取方法的计算机程序。
本发明实施例带来了以下有益效果:本发明实施例提供了一种文本摘要提取方案,该方案包括:获取文本信息和文本语料词向量集合信息;对文本信息进行分词处理,根据分词处理结果和文本语料词向量集合信息确定分词处理结果中每个词语的词向量;根据词向量生成文本信息的句向量、文向量和标题向量;根据句向量、文向量和标题向量生成相似度评分;根据相似度评分确定文本信息的摘要信息。本发明实施例利用句向量、文向量和标题向量生成相似度评分,可以提高抽取出的摘要句和原文的语义相关度,从而找出与原文中心思想非常贴近的句子,进而提升文本摘要质量。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本摘要提取方法流程图;
图2为本发明实施例提供的词向量训练方法的示意图;
图3为本发明实施例提供的基于SIF句向量的文本摘要抽取方法的具体实施示意图;
图4为本发明实施例提供的基于SIF句向量的文本摘要抽取方法的效果图;
图5为本发明实施例提供的一种文本摘要提取装置结构框图;
图6为本发明实施例提供的另一种文本摘要提取装置结构框图;
图7为本发明实施例提供的电子设备的系统组成结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,自动文本摘要主要分为生成式文本摘要和抽取式文本摘要。生成式文本摘要是在理解文章语义的基础上,生成精炼简洁的摘要;主要采用神经网络思想,由编码端对文章的语义信息进行编码,然后由解码端对编码后的语义信息进行解码生成简单的文字摘要。抽取式文本摘要是从原文中抽取出最重要的句子作为文本摘要;抽取式文本摘要主要有基于特征的方法和基于图排序的方法,基于特征的方法包括词频-逆文本频率指数方法(Term Frequency–Inverse Document Frequency,TF-IDF),基于图排序方法包括TextRank方法。
基于此,本发明实施例提供的一种文本摘要提取方法及装置,保证了摘要句的语义连贯性,提高了文本摘要的易读性。并且,具有占用资源少、计算效率高、运算速度快、可用性强的特点。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种文本摘要提取方法进行详细介绍。
本发明实施例提供了一种文本摘要提取方法,参见图1所示的一种文本摘要提取方法流程图,该方法包括以下步骤:
步骤S102,获取文本信息和文本语料词向量集合信息。
在本发明实施例中,文本信息是预先准备的文字数据,本方案要对该文本信息进行摘要提取。参见图4所示的基于SIF句向量的文本摘要抽取方法的效果图,文本信息中可以包括标题信息和正文信息。
文本语料词向量集合是预先准备的词向量集合,是预先对大量高质量的文本语料进行处理得到的。需要说明的是,文本语料词向量集合中包括多个词语和每个词语对应的词向量信息,根据给定的词语,可以通过查找文本语料词向量集合找到对应的词向量。
步骤S104,对文本信息进行分词处理,根据分词处理结果和文本语料词向量集合信息确定分词处理结果中每个词语的词向量。
在本发明实施例中,可以利用分词工具对文本信息进行分词处理,分词处理结果中包括多个词语,该多个词语是对文本信息中的句子进行拆分得到的。
根据分词处理结果在语料词向量集合中进行查找,以确定分词处理结果中每个词语的词向量。
步骤S106,根据词向量生成文本信息的句向量、文向量和标题向量。
在本发明实施例中,在得到词向量信息之后,可以对词向量进行计算,得到文本信息的句向量、文向量和标题向量。
需要说明的是,一个句向量对应文本信息中的一个句子,文向量对应文本信息的正文全文信息,标题向量对应文本信息的标题信息。
步骤S108,根据句向量、文向量和标题向量生成相似度评分。
在本发明实施例中,在得到句向量、文向量和标题向量之后,通过计算句向量、文向量和标题向量之间的相互关系,得到相似度评分。相似度评分可以用于衡量每个句向量与文向量、标题向量的相似度。
步骤S110,根据相似度评分确定文本信息的摘要信息。
在本发明实施例中,在确定了多个相似度评分之后,对多个相似度评分进行排序,挑选出前N个句子作为文章的摘要句。
参见图4,图中显示的“输出”部分对应的文字即为对文本信息进行摘要提取的提取结果。
本发明实施例提供了一种文本摘要提取方案,该方案包括:获取文本信息和文本语料词向量集合信息;对文本信息进行分词处理,根据分词处理结果和文本语料词向量集合信息确定分词处理结果中每个词语的词向量;根据词向量生成文本信息的句向量、文向量和标题向量;根据句向量、文向量和标题向量生成相似度评分;根据相似度评分确定文本信息的摘要信息。本发明实施例利用句向量、文向量和标题向量生成相似度评分,可以提高抽取出的摘要句和原文的语义相关度,从而找出与原文中心思想非常贴近的句子,进而提升文本摘要质量。
在一个实施例中,获取文本信息和文本语料词向量集合信息之前,还可以执行如下步骤:
获取文本语料信息;利用停用词表对文本语料信息进行清洗处理;根据清洗结果生成文本语料词向量集合信息。
在一个实施例中,还包括:利用神经网络模型根据清洗结果生成文本语料词向量集合信息。
在本发明实施例中,参见图2所示的词向量训练方法的示意图,可以收集和清洗大量高质量的中文文本语料,然后对文本语料进行分词处理,再利用神经网络模型训练文本语料得到词向量。
在一个实施例中,利用平滑倒词频方法根据词向量生成文本信息的句向量、文向量和标题向量。
在本发明实施例中,参见图3所示的基于SIF句向量的文本摘要抽取方法的具体实施示意图,对输入的文章正文进行分句处理,得到n个句子;对分句后的每个句子分别执行如下操作:通过分词处理将句子拆分为若干个词语,查询出每个词语的词向量;利用SIF(smooth inverse frequency,平滑倒词频)句向量方法将词向量组合在一起构建出句向量,得到n个句向量。对输入的文章正文直接进行分词处理,然后利用SIF句向量方法将整篇文章的词向量组合在一起构建出文向量;将输入的文章标题分词处理后,利用SIF句向量方法将文章标题的词向量组合在一起构建出标题向量。
需要说明的是,在本发明实施例中,可以基于词向量构建句向量,再基于句向量构建文向量,也可以直接基于词向量构建文向量,具体执行时,可以根据实际需求进行选择,本发明实施例对此不作具体限定。
在一个实施例中,利用平滑倒词频方法根据词向量按照如下公式生成文本信息的句向量:
Figure BDA0003077422920000051
其中,s表示句子,|s|表示句子s中词向量的个数,w表示词语,vs表示句向量,vw表示词向量,a表示平滑参数,p(w)表示词语在文本语料词向量集合中的词频。
在本发明实施例中,平滑参数的值可以根据实际需求进行设置,本发明实施例对此不作具体限定。
在一个实施例中,根据句向量、文向量和标题向量生成相似度评分,可以按照如下步骤执行:
计算句向量与文向量的第一相似度;计算句向量与标题向量的第二相似度;根据第一相似度和第二相似度计算加权相似度;根据加权相似度生成相似度评分。
在本发明实施例中,分别计算每个句向量与文向量、标题向量的相似度,加权平均后得到每个句向量的加权相似度,为了保持语义连贯性,利用KNN方法将每个句子的加权相似度与周围句子的加权相似度再进行加权平均后的得分作为最后的句子相似度评分。
在一个实施例中,包括:利用如下公式计算句向量与文向量的第一相似度:
Sc=similarity(vs,vc)
其中,Sc表示第一相似度,vs表示句向量,vc表示文向量,similarity表示相似度计算函数;
利用如下公式计算句向量与标题向量的第二相似度:
St=similarity(vs,vt)
其中,St表示第二相似度,vs表示句向量,vt表示标题向量,similarity表示相似度计算函数。
在一个实施例中,利用如下公式根据第一相似度和所述第二相似度计算加权相似度:
Si=w1·St+w2·Sc
其中,Si表示加权相似度,Sc表示第一相似度,St表示第二相似度,w1表示第一权值,w2表示第二权值。
在本发明实施例中,第一权值和第二权值可以根据实际需求进行设置,本发明实施例对此不作具体限定。
在一个实施例中,利用如下公式根据加权相似度生成相似度评分:
S目标=w1·Si-m+w2·Si-m+1+w3·Si-m+2+…+wk·Si+n
其中,S目标表示相似度评分,Si-m,Si-m+1,Si-m+2,…Si+n表示加权相似度,w1,w2,w3,…wk表示权值,k=m+1+n。
在本发明实施例中,在一段文本信息中,Si表示计算出的某句子的加权相似度,则Si-m可以代表在该句子的左边第m个句子的加权相似度,Si+n可以代表在该句子的右边第n个句子的加权相似度。需要说明的是,在本发明实施例中,权值可以根据实际需求进行设置,本发明实施例对此不作具体限定。
在一个实施例中,利用曼哈顿距离、欧式距离、无穷范数和余弦相似度中的任一种计算第一相似度或第二相似度。
在本发明实施例中,可以利用曼哈顿距离、欧式距离、无穷范数和余弦相似度中的任一种计算方法第一相似度或第二相似度,具体采用哪种方法计算,可以根据实际需求进行选择,本发明实施例对此不作具体限定。
下面以一个具体实施例对该方法的实施过程进行说明。本发明可分为词向量训练方法和基于SIF句向量的文本摘要抽取方法两大部分。
一、词向量训练方法
(1)收集大量高质量的中文文本语料(例如百度百科、微博文本、门户网站新闻);
(2)利用停用词表清洗中文文本语料,去除停用词和标点符号,然后使用分词工具(例如jieba)对清洗后的中文文本语料进行分词处理;
(3)使用神经网络模型(例如word2vec、fastText、glove)训练分词后的中文文本语料,得到中文文本语料词向量集合。
二、基于SIF句向量的文本摘要抽取方法
(1)利用句号“。”、问好“?”、感叹号“!”等标点符号对文章正文进行分句处理后,将正文分隔为n个句子;
(2)利用分词工具(例如jieba)对每个句子进行分词处理,将每个句子拆分为若干词语,并在文本语料词向量集合中查询出每个词语对应的词向量;
(3)利用SIF句向量方法对n个分句构建句向量,得到n个句向量,如公式(1)所示;其中s表示句子,w表示词语,vs表示句向量,vw表示词向量,a表示平滑参数,p(w)表示词语在语料库中的词频,词频越高对句向量的贡献越小;
Figure BDA0003077422920000071
(4)直接对文章正文做分词处理,利用SIF句向量方法构建出文向量vc
(5)将文章标题做分词处理后,利用SIF句向量方法构建出标题向量vt
(6)对于每个句子向量vs,分别计算它与文向量vc和标题向量vt的相似度,如公式(2)、(3)所示;其中的similarity相似度函数作为超参,可以选4种,分别是L1范数(曼哈顿距离),L2范数(欧氏距离),无穷范数,以及余弦相似度;
St=similarity(vs,vt) (2)
Sc=similarity(vs,vc) (3)
(7)每个句子的相似度得分,是它与文向量相似度得分和标题向量相似度得分的加权平均:如公式(4)所示,其中w1和w2是可以调整的超参;
Si=w1·St+w2·Sc (4)
(8)为保证抽取出摘要句的语义连贯性,避免出现语义不通的“孤零零”几句话,使用KNN方法,将某个句子与其周围句子加权求和后的相似度作为其真实的相似度;如公式(5)所示,其中,m代表左边取几个,n代表右边取几个,wi代表每个的权重,k=m+1+n。
S目标=w1·Si-m+w2·Si-m+1+w3·Si-m+2+…+wk·Si+n (5)
(9)最后对所有句子按照相似度得分从高到低排序,挑选出前N个句子作为文章的摘要句。
本发明实施例通过神经网络模型训练大量的中文文本语料得到词向量,词向量有效捕捉到单词之间的语义关系,与传统方法相比,本发明提出的基于SIF句向量的文本摘要抽取方法具有以下有益效果:
1.摘要句的抽取充分考虑了文本语义信息,而非简单的通过词频和词语位置进行关键词抽取;
2.该方法的词向量是预训练好的,基于SIF的句向量方法简单高效,整个方法占用资源少、计算效率高、运算速度快、可用性强。
3.利用KNN方法进行平滑处理,保证了摘要句的语义连贯性,提高了文本摘要的易读性。
本发明实施例中还提供了一种文本摘要提取装置,如下面的实施例所述。由于该装置解决问题的原理与文本摘要提取方法相似,因此该装置的实施可以参见文本摘要提取方法的实施,重复之处不再赘述。参见图5所示的一种文本摘要提取装置结构框图,该装置包括:
获取模块51,用于获取文本信息和文本语料词向量集合信息;向量模块52,用于对文本信息进行分词处理,根据分词处理结果和文本语料词向量集合信息确定分词处理结果中每个词语的词向量;计算模块53,用于根据词向量生成文本信息的句向量、文向量和标题向量;语义模块54,用于根据句向量、文向量和标题向量生成相似度评分;排序模块55,用于根据相似度评分确定文本信息的摘要信息。
参见图6所示的另一种文本摘要提取装置结构框图,在一个实施例中,该装置还包括语料模块56,用于:获取文本语料信息;利用停用词表对文本语料信息进行清洗处理;根据清洗结果生成文本语料词向量集合信息。
在一个实施例中,语料模块,具体用于:利用神经网络模型根据清洗结果生成文本语料词向量集合信息。
在一个实施例中,计算模块,具体用于:利用平滑倒词频方法根据词向量生成文本信息的句向量、文向量和标题向量。
在一个实施例中,计算模块,具体用于利用平滑倒词频方法根据词向量按照如下公式生成文本信息的句向量:
Figure BDA0003077422920000091
其中,s表示句子,|s|表示句子s中词向量的个数,w表示词语,vs表示句向量,vw表示词向量,a表示平滑参数,p(w)表示词语在文本语料词向量集合中的词频。
在一个实施例中,语义模块,包括:第一计算单元,用于计算所述句向量与所述文向量的第一相似度;第二计算单元,用于计算所述句向量与所述标题向量的第二相似度;加权单元,用于根据所述第一相似度和所述第二相似度计算加权相似度;目标单元,用于根据所述加权相似度生成相似度评分。
在一个实施例中,第一计算单元,具体用于:利用如下公式计算句向量与文向量的第一相似度:
Sc=similarity(vs,vc)
其中,Sc表示第一相似度,vs表示句向量,vc表示文向量,similarity表示相似度计算函数;
第二计算单元,具体用于:利用如下公式计算句向量与标题向量的第二相似度:
St=similarity(vs,vt)
其中,St表示第二相似度,vs表示句向量,vt表示标题向量,similarity表示相似度计算函数。
在一个实施例中,加权单元,具体用于:利用如下公式根据第一相似度和第二相似度计算加权相似度:
Si=w1·St+w2·Sc
其中,Si表示加权相似度,Sc表示第一相似度,St表示第二相似度,w1表示第一权值,w2表示第二权值。
在一个实施例中,目标单元,具体用于:利用如下公式根据加权相似度生成相似度评分:
S目标=w1·Si-m+w2·Si-m+1+w3·Si-m+2+…+wk·Si+n
其中,S目标表示相似度评分,Si-m,Si-m+1,Si-m+2,…Si+n表示加权相似度,w1,w2,w3,…wk表示权值,k=m+1+n。
在一个实施例中,第一计算单元,具体用于:利用曼哈顿距离、欧式距离、无穷范数和余弦相似度中的任一种计算第一相似度。第二计算单元,具体用于:利用曼哈顿距离、欧式距离、无穷范数和余弦相似度中的任一种计算第二相似度。
基于同一发明构思,本发明实施例中还提供了一种用于实现上述文本摘要提取方法中的全部或部分内容的电子设备实施例。该电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现上述文本摘要提取方法的实施例及用于实现上述文本摘要提取装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图7为本发明实施例中提供的一种电子设备的系统组成结构示意图。如图7所示,该电子设备70可以包括处理器701和存储器702;存储器702耦合到处理器701。值得注意的是,该图7是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一个实施例中,文本摘要提取方法实现的功能可以被集成到处理器701中。其中,处理器701可以被配置为进行如下控制:
获取文本信息和文本语料词向量集合信息;对文本信息进行分词处理,根据分词处理结果和文本语料词向量集合信息确定分词处理结果中每个词语的词向量;根据词向量生成文本信息的句向量、文向量和标题向量;根据句向量、文向量和标题向量生成相似度评分;根据相似度评分确定文本信息的摘要信息。
由上可知,本发明的实施例中提供的电子设备,利用句向量、文向量和标题向量生成相似度评分,可以提高抽取出的摘要句和原文的语义相关度,从而找出与原文中心思想非常贴近的句子,进而提升文本摘要质量。
在另一个实施例中,文本摘要提取装置可以与处理器701分开配置,例如可以将文本摘要提取装置配置为与处理器701连接的芯片,通过处理器的控制来实现文本摘要提取方法的功能。
如图7所示,该电子设备70还可以包括:通信模块703、输入单元704、音频处理单元705、显示器706、电源707。值得注意的是,电子设备70也并不是必须要包括图7中所示的所有部件;此外,电子设备70还可以包括图7中没有示出的部件,可以参考现有技术。
如图7所示,处理器701有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器701接收输入并控制电子设备70的各个部件的操作。
其中,存储器702,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且处理器701可执行该存储器702存储的该程序,以实现信息存储或处理等。
输入单元704向处理器701提供输入。该输入单元704例如为按键或触摸输入装置。电源707用于向电子设备70提供电力。显示器706用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器702可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器702还可以是某种其它类型的装置。存储器702包括缓冲存储器7021(有时被称为缓冲器)。存储器702可以包括应用/功能存储部7022,该应用/功能存储部7022用于存储应用程序和功能程序或用于通过处理器701执行电子设备70的操作的流程。
存储器702还可以包括数据存储部7023,该数据存储部7023用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器702的驱动程序存储部7024可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块703即为经由天线708发送和接收信号的发送机/接收机。通信模块(发送机/接收机)703耦合到处理器701,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块703,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)703还经由音频处理单元705耦合到扬声器709和麦克风710,以经由扬声器709提供音频输出,并接收来自麦克风710的音频输入,从而实现通常的电信功能。音频处理单元705可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理单元705还耦合到处理器701,从而使得可以通过麦克风710能够在本机上录音,且使得可以通过扬声器709来播放本机上存储的声音。
本发明的实施例中还提供了一种用于实现上述实施例中文本摘要提取方法中全部步骤的一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的文本摘要提取方法的全部步骤,例如,该处理器执行该计算机程序时实现下述步骤:
获取文本信息和文本语料词向量集合信息;对文本信息进行分词处理,根据分词处理结果和文本语料词向量集合信息确定分词处理结果中每个词语的词向量;根据词向量生成文本信息的句向量、文向量和标题向量;根据句向量、文向量和标题向量生成相似度评分;根据相似度评分确定文本信息的摘要信息。
由上可知,本发明的实施例中提供的计算机可读存储介质,利用句向量、文向量和标题向量生成相似度评分,可以提高抽取出的摘要句和原文的语义相关度,从而找出与原文中心思想非常贴近的句子,进而提升文本摘要质量。
虽然本发明提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。可单独使用本发明的每个方面和/或实施例,或者与一个或更多其他方面和/或其他实施例结合使用。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (22)

1.一种文本摘要提取方法,其特征在于,包括:
获取文本信息和文本语料词向量集合信息;
对所述文本信息进行分词处理,根据分词处理结果和所述文本语料词向量集合信息确定所述分词处理结果中每个词语的词向量;
根据所述词向量生成所述文本信息的句向量、文向量和标题向量;
根据所述句向量、所述文向量和所述标题向量生成相似度评分;
根据所述相似度评分确定所述文本信息的摘要信息。
2.根据权利要求1所述的方法,其特征在于,获取文本信息和文本语料词向量集合信息之前,还包括:
获取文本语料信息;
利用停用词表对所述文本语料信息进行清洗处理;
根据清洗结果生成文本语料词向量集合信息。
3.根据权利要求2所述的方法,其特征在于,包括:利用神经网络模型根据清洗结果生成文本语料词向量集合信息。
4.根据权利要求1所述的方法,其特征在于,包括:
利用平滑倒词频方法根据所述词向量生成所述文本信息的句向量、文向量和标题向量。
5.根据权利要求4所述的方法,其特征在于,包括利用平滑倒词频方法根据所述词向量按照如下公式生成所述文本信息的句向量:
Figure FDA0003077422910000011
其中,s表示句子,|s|表示句子s中词向量的个数,w表示词语,vs表示句向量,vw表示词向量,a表示平滑参数,p(w)表示词语在文本语料词向量集合中的词频。
6.根据权利要求1所述的方法,其特征在于,根据所述句向量、所述文向量和所述标题向量生成相似度评分,包括:
计算所述句向量与所述文向量的第一相似度;
计算所述句向量与所述标题向量的第二相似度;
根据所述第一相似度和所述第二相似度计算加权相似度;
根据所述加权相似度生成相似度评分。
7.根据权利要求6所述的方法,其特征在于,包括:
利用如下公式计算所述句向量与所述文向量的第一相似度:
Sc=similarity(vs,vc)
其中,Sc表示第一相似度,vs表示句向量,vc表示文向量,similarity表示相似度计算函数;
利用如下公式计算所述句向量与所述标题向量的第二相似度:
St=similarity(vs,vt)
其中,St表示第二相似度,vs表示句向量,vt表示标题向量,similarity表示相似度计算函数。
8.根据权利要求6所述的方法,其特征在于,包括:利用如下公式根据所述第一相似度和所述第二相似度计算加权相似度:
Si=w1·St+w2·Sc
其中,Si表示加权相似度,Sc表示第一相似度,St表示第二相似度,w1表示第一权值,w2表示第二权值。
9.根据权利要求6所述的方法,其特征在于,利用如下公式根据所述加权相似度生成相似度评分:
S目标=w1·Si-m+w2·Si-m+1+w3·Si-m+2+…+wk·Si+n
其中,S目标表示相似度评分,Si-m,Si-m+1,Si-m+2,…Si+n表示加权相似度,w1,w2,w3,…wk表示权值,k=m+1+n。
10.根据权利要求7所述的方法,其特征在于,利用曼哈顿距离、欧式距离、无穷范数和余弦相似度中的任一种计算第一相似度或第二相似度。
11.一种文本摘要提取装置,其特征在于,包括:
获取模块,用于获取文本信息和文本语料词向量集合信息;
向量模块,用于对所述文本信息进行分词处理,根据分词处理结果和所述文本语料词向量集合信息确定所述分词处理结果中每个词语的词向量;
计算模块,用于根据所述词向量生成所述文本信息的句向量、文向量和标题向量;
语义模块,用于根据所述句向量、所述文向量和所述标题向量生成相似度评分;
排序模块,用于根据所述相似度评分确定所述文本信息的摘要信息。
12.根据权利要求11所述的装置,其特征在于,还包括语料模块,用于:
获取文本语料信息;
利用停用词表对所述文本语料信息进行清洗处理;
根据清洗结果生成文本语料词向量集合信息。
13.根据权利要求12所述的装置,其特征在于,所述语料模块,具体用于:
利用神经网络模型根据清洗结果生成文本语料词向量集合信息。
14.根据权利要求11所述的装置,其特征在于,所述计算模块,具体用于:利用平滑倒词频方法根据所述词向量生成所述文本信息的句向量、文向量和标题向量。
15.根据权利要求14所述的装置,其特征在于,所述计算模块,具体用于利用平滑倒词频方法根据所述词向量按照如下公式生成所述文本信息的句向量:
Figure FDA0003077422910000031
其中,s表示句子,|s|表示句子s中词向量的个数,w表示词语,vs表示句向量,vw表示词向量,a表示平滑参数,p(w)表示词语在文本语料词向量集合中的词频。
16.根据权利要求11所述的装置,其特征在于,所述语义模块,包括:
第一计算单元,用于计算所述句向量与所述文向量的第一相似度;
第二计算单元,用于计算所述句向量与所述标题向量的第二相似度;
加权单元,用于根据所述第一相似度和所述第二相似度计算加权相似度;
目标单元,用于根据所述加权相似度生成相似度评分。
17.根据权利要求16所述的装置,其特征在于,
所述第一计算单元,具体用于:
利用如下公式计算所述句向量与所述文向量的第一相似度:
Sc=similarity(vs,vc)
其中,Sc表示第一相似度,vs表示句向量,vc表示文向量,similarity表示相似度计算函数;
所述第二计算单元,具体用于:
利用如下公式计算所述句向量与所述标题向量的第二相似度:
St=similarity(vs,vt)
其中,St表示第二相似度,vs表示句向量,vt表示标题向量,similarity表示相似度计算函数。
18.根据权利要求16所述的装置,其特征在于,所述加权单元,具体用于:
利用如下公式根据所述第一相似度和所述第二相似度计算加权相似度:
Si=w1·St+w2·Sc
其中,Si表示加权相似度,Sc表示第一相似度,St表示第二相似度,w1表示第一权值,w2表示第二权值。
19.根据权利要求16所述的装置,其特征在于,所述目标单元,具体用于:
利用如下公式根据所述加权相似度生成相似度评分:
S目标=w1·Si-m+w2·Si-m+1+w3·Si-m+2+…+wk·Si+n
其中,S目标表示相似度评分,Si-m,Si-m+1,Si-m+2,…Si+n表示加权相似度,w1,w2,w3,…wk表示权值,k=m+1+n。
20.根据权利要求17所述的装置,其特征在于,
所述第一计算单元,具体用于:利用曼哈顿距离、欧式距离、无穷范数和余弦相似度中的任一种计算第一相似度;
所述第二计算单元,具体用于:利用曼哈顿距离、欧式距离、无穷范数和余弦相似度中的任一种计算第二相似度。
21.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任一所述文本摘要提取方法。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至10任一所述文本摘要提取方法的计算机程序。
CN202110561021.0A 2021-05-21 2021-05-21 文本摘要提取方法及装置 Active CN113342968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110561021.0A CN113342968B (zh) 2021-05-21 2021-05-21 文本摘要提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110561021.0A CN113342968B (zh) 2021-05-21 2021-05-21 文本摘要提取方法及装置

Publications (2)

Publication Number Publication Date
CN113342968A true CN113342968A (zh) 2021-09-03
CN113342968B CN113342968B (zh) 2024-07-30

Family

ID=77470809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110561021.0A Active CN113342968B (zh) 2021-05-21 2021-05-21 文本摘要提取方法及装置

Country Status (1)

Country Link
CN (1) CN113342968B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201600A (zh) * 2021-12-10 2022-03-18 北京金堤科技有限公司 舆情文本的摘要抽取方法、装置、设备及计算机存储介质
CN114218923A (zh) * 2021-12-20 2022-03-22 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN114817523A (zh) * 2022-04-11 2022-07-29 平安科技(深圳)有限公司 摘要生成方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN109783795A (zh) * 2017-11-14 2019-05-21 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN110084440A (zh) * 2019-05-15 2019-08-02 中国民航大学 基于联合相似度的民航旅客不文明等级预测方法及系统
CN110825859A (zh) * 2019-10-21 2020-02-21 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN111881666A (zh) * 2020-07-09 2020-11-03 腾讯科技(深圳)有限公司 一种信息处理方法、装置、设备及存储介质
CN111984763A (zh) * 2020-08-28 2020-11-24 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN109783795A (zh) * 2017-11-14 2019-05-21 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN110084440A (zh) * 2019-05-15 2019-08-02 中国民航大学 基于联合相似度的民航旅客不文明等级预测方法及系统
CN110825859A (zh) * 2019-10-21 2020-02-21 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN111881666A (zh) * 2020-07-09 2020-11-03 腾讯科技(深圳)有限公司 一种信息处理方法、装置、设备及存储介质
CN111984763A (zh) * 2020-08-28 2020-11-24 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
安毫亿: "《面向法律案例模拟系统评价的句子匹配实现方法研究》", 《人文社会科学类专辑 社会科学Ⅰ辑》, 15 February 2020 (2020-02-15), pages 120 - 421 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114201600A (zh) * 2021-12-10 2022-03-18 北京金堤科技有限公司 舆情文本的摘要抽取方法、装置、设备及计算机存储介质
CN114218923A (zh) * 2021-12-20 2022-03-22 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质
CN114218923B (zh) * 2021-12-20 2022-08-30 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN114817523A (zh) * 2022-04-11 2022-07-29 平安科技(深圳)有限公司 摘要生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113342968B (zh) 2024-07-30

Similar Documents

Publication Publication Date Title
CN111625635B (zh) 问答处理方法、装置、设备及存储介质
CN113342968A (zh) 文本摘要提取方法及装置
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和系统
US20120323554A1 (en) Systems and methods for tuning parameters in statistical machine translation
CN110321537B (zh) 一种文案生成方法和装置
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN110895656B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN109377985B (zh) 一种领域词的语音识别增强方法和装置
CN113051368B (zh) 双塔模型训练方法、检索方法、装置及电子设备
US11929100B2 (en) Video generation method, apparatus, electronic device, storage medium and program product
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN116932730B (zh) 基于多叉树和大规模语言模型的文档问答方法及相关设备
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN113342948A (zh) 一种智能问答方法及装置
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN111091001B (zh) 一种词语的词向量的生成方法、装置及设备
CN111259180A (zh) 图像推送方法、装置、电子设备和存储介质
CN113887724A (zh) 一种基于深度学习的文本训练增强方法与系统
CN114048742A (zh) 文本信息的知识实体和关系抽取方法及文本质量评估方法
CN114722267A (zh) 信息推送方法、装置及服务器
CN114625922A (zh) 一种构建词库的方法、装置、电子设备及存储介质
CN111782762A (zh) 问答应用中相似问题确定方法、装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant