CN114218923A - 文本摘要抽取方法、装置、设备及存储介质 - Google Patents
文本摘要抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114218923A CN114218923A CN202111564484.9A CN202111564484A CN114218923A CN 114218923 A CN114218923 A CN 114218923A CN 202111564484 A CN202111564484 A CN 202111564484A CN 114218923 A CN114218923 A CN 114218923A
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- score
- determining
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例涉及一种文本摘要抽取方法、装置、设备及存储介质。本公开实施例通过对文本进行分句处理,获得文本中的语句和标题;提取语句中的实体,确定语句中的实体占文本中的实体的比例;基于该比例,确定语句的第一得分;基于语句与标题之间的语义相似度,确定语句的第二得分;基于第一得分和第二得分,确定用于形成摘要的语句。本公开实施例通过建模文本语句实体与文本实体,文本语句与文本标题的相关性,减少了文本摘要的冗余性,提高了文本摘要表达文本信息的准确性,提高了用户的阅读体验。
Description
技术领域
本公开实施例涉及自然语言处理领域,尤其涉及一种文本摘要抽取方法、装置、设备及存储介质。
背景技术
文本摘要是将文本或文本集合转换为包含关键信息的简短摘要,能够帮助人类理解概括自然语言文本,并更加快速、准确、全面地获取重要信息。
近几年,将神经网络模型应用在文本摘要上取得很大发展,目前基于神经网络的摘要抽取问题,往往被建模为序列标注和句子排序两类任务,这种方式生成的摘要不够准确,也没有考虑到摘要的冗余性和多样性,生成的摘要无法全面表达文本信息。因此,亟需一种文本摘要抽取方法来同时满足摘要抽取的准确性、全面性要求,提高用户的阅读体验。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种文本摘要抽取方法、装置、设备及存储介质。
本公开实施例的第一方面提供了一种文本摘要抽取方法,该方法包括:
对文本进行分句处理,获得文本中的语句和标题;
提取语句中的实体,确定语句中的实体占文本中的实体的比例;
基于该比例,确定语句的第一得分;
基于语句与标题之间的语义相似度,确定语句的第二得分;
基于第一得分和第二得分,确定用于形成摘要的语句。
本公开实施例的第二方面提供了一种文本摘要抽取装置,该装置包括:
获取模块,用于对文本进行分句处理,获得文本的语句和标题;
提取模块,用于提取语句中的实体,确定语句中的实体占文本中的实体的比例;
第一确定模块,用于基于该比例,确定语句的第一得分;
第二确定模块,用于基于语句与标题之间的语义相似度,确定语句的第二得分;
第三确定模块,用于基于第一得分和第二得分,确定用于形成摘要的语句。
本公开实施例的第三方面提供了一种计算设备,该设备包括存储器和处理器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,可以实现上述第一方面的方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例,通过对文本进行分句处理,获得文本中的语句和标题;提取语句中的实体,确定语句中的实体占文本中的实体的比例;基于该比例,确定语句的第一得分;基于语句与标题之间的语义相似度,确定语句的第二得分;基于第一得分和第二得分,确定用于形成摘要的语句。本公开实施例通过建模文本语句实体与文本实体,文本语句与文本标题的相关性,减少了文本摘要的冗余性,提高了文本摘要表达文本信息的准确性,提高了用户的阅读体验。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种文本摘要抽取模型训练方法的流程图;
图2是本公开实施例提供的一种文本摘要抽取方法的流程图;
图3是本公开实施例提供的另一种文本摘要抽取方法的流程图;
图4是本公开实施例提供的一种文本摘要抽取装置的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1是本公开实施例提供的一种文本摘要抽取模型训练方法的流程图,该方法可以由一种计算设备来执行,该计算设备可以理解为任意一种具有计算功能和处理能力的设备。如图1所示,本实施例提供的文本摘要抽取模型训练方法包括如下步骤:
步骤101、将文本和文本对应的摘要标签输入文本摘要抽取模型中,对文本进行分句处理,获得文本中的语句和标题。
本公开实施例所称摘要标签可以通过对每个文本进行摘要标注,得到每个文本的摘要标签,进而得到多个训练样本,每个训练样本包括一个文本样本和该文本样本的摘要标签。
在本公开实施例中,将多个训练样本按照预设的比例划分为训练集、验证集以及测试集,基于训练集训练该文本摘要抽取模型,在验证集上验证该模型的准确性。
本公开实施例所称的对文本进行分句处理,可以理解为将文本的标题和正文划分开,并将正文语句划分为多个单独的语句,获得文本中的语句和标题。
在本公开的实施例中,在对文本进行分句处理之前,为了减少不应该出现在摘要中的一些信息,降低文本噪声,还可以对文本进行预处理,预处理的方式包括删除文本中的特殊符号信息,和/或删除符合预设正则表达式的内容。例如,删除文本中类似于“【据XXX网站XX年XX月XX日报道】”特殊符号的信息,因为该信息不应该出现在摘要句中。例如,对于文本中出现的作者、来源、发布时间等信息,可以通过正则表达式去除。其中,正则表达式为现有成熟技术,这里不再赘述。
步骤102、对标题和语句进行编码处理,得到标题的标题向量和语句中每个字符的字符向量以及语句的第一向量。
本公开实施例中,可以采用基于摘要转换器的双向编码表征(BidirectionalEncoder Representations from Transformers Summary,BertSum)模型对文本语句进行编码处理。该模型可以通过在大规模语料上运行自监督学习的方法,学习到大量语言、句法、语义信息,可以通过双向表示输出融合上下文语义的文本的特征向量。该模型在基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)模型的基础上对结构做了更改,让其更适合文本摘要的任务。
具体的,BertSum模型对输入层进行了修改,以便于对多条句子进行编码,在每个句子开头加一个[CLS]标记,在末尾加一个[SEP]标记,使用[CLS]表示每一个句子对应的语义表示。其中,CLS(classification)表示分类,[CLS]位于输入文本句子的首位,表示可以进行后续的分类任务,SEP(separator)表示分隔,[SEP]位于输入文本的中间或末尾,用于分开两个输入句子。
BertSum模型对段嵌入层(Segment Embedding)进行了修改,用来区分不同的语句。具体的,对于语句sen t,t表示语句的顺序,如果t是奇数,那么段嵌入层表示为EA,当t为偶数,段嵌入层则表示EB,以此来区分不同的语句,对于语句集[sen1,sen2,sen3,sen4,sen5],其对应的段嵌入层表示为[EA,EB,EA,EB,EA]。可以理解,这里仅是对BertSum模型段嵌入层表示语句的示例性说明,而不是唯一说明。
BertSum模型的其余嵌入层和原生BERT模型保持一致,BERT模型为现有技术,这里不再赘述。
将文本的语句输入BertSum模型,经过BertSum模型的处理,获得语句中每个字符的字符向量,并且将每个语句对应的[CLS]位置的向量作为该语句的第一向量。
本公开实施例中,可以将文本标题输入BERT模型中,获得标题的标题向量。
步骤103、提取语句中的实体,确定语句中的实体占文本中的实体的比例,基于该比例,确定语句的第一得分。
本公开实施例所称的实体可以理解为有实际意义的名词,比如,代表地点,组织等的名词。模型训练时的实体可以通过人为定义。
在本公开实施例中,提取语句中的实体,可以在BertSum模型的基础上,引入实体识别任务,将整个文本的每个字符的字符向量输入到归一化指数函数Softmax层中进行序列分类,得到代表实体的字符向量,根据字符向量的实体类别抽取该字符向量所在语句中对应的字符并组合为实体,确定文本中每个语句中的实体占文本中的实体的比例,这里的归一化指数函数Softmax为现有分类的相关技术,这里不再赘述。例如,某一文本表达的主题为武器装备,某一语句中的武器装备实体占文本中的武器装备实体的比例可以理解为该语句包含的武器装备实体数量/该文本总的武器装备实体数量。这里仅是对实体比例计算的示例性说明,而不是唯一说明。
在本公开实施例中,将语句中的实体占文本中的实体的比例确定为该语句的第一得分。
步骤104、分别计算每个字符向量与标题向量之间的第一相似度,确定语句的第二向量,基于语句的第二向量确定语句的第二得分。
在本公开实施例中,将每个语句的字符向量与标题向量输入注意力(Attention)模型中的归一化指数函数Softmax中,计算每个语句的字符向量与标题向量之间的第一相似度,基于第一相似度确定语句中每个字符的权重,即:
其中,i表示标题向量,j表示语句中第j个字符向量,k表示语句中第k个字符向量;
eij表示语句中第j个字符向量与标题向量i之间的第一相似度,eik表示语句中第k个字符向量与标题向量i之间的第一相似度,第一相似度越大,则该字符与标题的语义越相关;
Tx表示语句的字符长度;
aij表示语句中第j个字符的权重。
对语句中包含的字符的权重与该字符向量进行加权求和处理,将每个语句的所有字符向量和标题向量经过注意力模型后融合得到语句的第二向量Att_cls:
其中,Ct表示第t个语句的第二向量Att_cls;
f(xj)表示对字符向量xj的编码;
aij表示语句中第j个字符的权重。
将每个语句的第二向量Att_cls与每个语句获取的CLS位置处的向量进行相加取平均操作后,获得语句的融合向量,将每个语句的融合向量依次输入到激活函数Sigmoid中,由激活函数Sigmoid基于各个语句的融合向量计算各个语句可以作为摘要语句的概率值,概率值越大,该语句作为摘要语句的可能性越大,因此,可以用各个语句可以作为摘要语句的概率值来评价各个语句在文本中的重要性,将输出的概率值作为每个语句对应的第二得分。
本公开实施例所称的激活函数Sigmoid为现有相关技术,该函数的输出范围是0到1,可以对每个神经元的输出进行归一化,可以用于将预测概率作为输出的模型。
本公开实施例中的注意力模型可以理解为一种模仿人类注意力而提出的一种解决问题的模型,该模型可以从大量信息中快速筛选出高价值信息,主要用于解决循环神经网络模型输入序列较长时难以获得最终合理的向量表示的问题。
步骤105、对语句的第一得分和第二得分进行加权求和处理,得到语句的第三得分,将第三得分大于预设阈值的语句,确定为用于形成摘要的语句。
在本公开实施例的一种实施方式中,对语句的第一得分和第二得分进行加权求和处理,具体加权求和方法可以为:
fina_scoret=0.8*scoret+0.2*entity_scoret
其中,fina_scoret表示文本第t个语句的第三得分;
scoret表示文本第t个语句的第二得分,0.8为第二得分的权重值;
entity_scoret表示文本第t个语句的第一得分,0.2为第一得分的权重值。
上述公式的权重值为人工总结的经验值,在另一些实施方式中,权重值还可以随意定义,这里不作限制。
在本公开的另一些实施例中,可以将第三得分大于预设阈值的语句按照得分由大到小进行排序,按照得分由大到小选择预设摘要语句数量的语句作为用于形成摘要的语句。
步骤106、基于训练集对文本摘要抽取模型进行训练,基于验证集对文本摘要抽取模型进行验证,计算模型在验证集上的损失值,直到模型在验证集上的损失值小于或等于第一预设阈值,停止训练,确定该文本摘要抽取模型的最终参数。
在本公开实施例中,可以采用常见的损失函数计算模型的损失值,这里不作限制。损失值的第一预设阈值可以设置为损失函数的最小值,即损失函数的值达到最小,可以理解为损失值收敛保持不变或不再下降,即模型的准确率达到最高,说明模型得到的文本摘要能够准确表达文本信息,此时得到的摘要即为最接近该文本信息的摘要。
本公开的另一些实施例中,损失值的第一预设阈值可以由用户根据实际需求进行设置,也可以由计算设备默认设置,对此不作限定。
基于训练集对文本摘要抽取模型进行训练,基于验证集对文本摘要抽取模型进行验证,计算模型在验证集上的损失值,若损失值大于第一预设阈值,则继续对模型进行训练;若损失值小于或等于第一预设阈值,则停止训练,将此时损失值小于或等于第一预设阈值的文本摘要抽取模型的参数确定为模型的最终参数。
在本公开的另一些实施例中,基于验证集对文本摘要抽取模型进行验证,还可以在预设的周期次数内进行验证,在每一个预设周期计算模型在验证集上的损失值,当模型在预设的周期次数内验证集的损失值没有进一步下降,则停止训练,将上周期迭代结果中的参数确定为模型的最终参数。
在本公开的另一些实施例中,可以将训练好的文本摘要抽取模型应用到测试集上,计算在测试集上的自动文摘评测(Recall-Oriented Understudy for GistingEvaluation,ROUGE-N)模型得分,来测试模型的泛化能力。
本公开实施例所称的泛化能力可以理解为机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律,对具有同一规律的数据集以外的数据,经过训练的模型也能给出合适的输出的能力。
本公开实施例所称的自动文摘评测模型可以对文本摘要抽取模型在测试集上获得的摘要的准确性进行打分,当得分大于或等于预设阈值时,可以认为该文本摘要抽取模型学习到了文本摘要抽取的方法,具有很好的泛化能力;当得分小于预设阈值时,可以认为该文本摘要抽取模型学习到的文本摘要抽取方法不够准确,泛化能力不够,需要再次进行模型训练。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例,通过将文本和文本对应的摘要标签输入文本摘要抽取模型中,对文本进行分句处理,获得文本中的语句和标题;对标题和语句进行编码处理,得到标题的标题向量和语句中每个字符的字符向量以及语句的第一向量;提取语句中的实体,确定语句中的实体占文本中的实体的比例,基于该比例,确定语句的第一得分;分别计算每个字符向量与标题向量之间的第一相似度,确定语句的第二向量,基于语句的第二向量确定语句的第二得分;对语句的第一得分和第二得分进行加权求和处理,得到语句的第三得分,将第三得分大于预设阈值的语句,确定为用于形成摘要的语句;基于训练集对文本摘要抽取模型进行训练,基于验证集对文本摘要抽取模型进行验证,计算模型在验证集上的损失值,直到模型在验证集上的损失值小于或等于第一预设阈值,停止训练,确定该文本摘要抽取模型的最终参数。本公开实施例通过训练得到文本摘要抽取模型,应用于文本摘要抽取,可以建模文本语句实体与文本实体,文本语句与文本标题的相关性,减少了文本摘要的准确性,提高了文本摘要表达文本信息的准确性,提高了用户的阅读体验。
图2是本公开实施例提供的一种文本摘要抽取方法的流程图,该方法可以由一种计算设备来执行。该计算设备可以理解为任意一种具有计算功能和处理能力的设备。如图2所示,本实施例提供的文本摘要抽取方法包括如下步骤:
步骤201、对文本进行分句处理,获得文本中的语句和标题。
在本公开实施例中,可以将文本输入上述图1训练好的文本摘要抽取模型,对文本进行分句处理,可以将文本的标题和正文划分开,并将正文语句划分为多个单独的语句,获得文本中的语句和标题。
在本公开的实施例中,在对文本进行分句处理之前,为了减少不应该出现在摘要中的一些信息,降低文本噪声,还可以对文本进行预处理,预处理的方式包括删除文本中的特殊符号信息,和/或删除符合预设正则表达式的内容,具体在上述图1中步骤101已有描述,这里不再赘述。
步骤202、提取语句中的实体,确定语句中的实体占文本中的实体的比例。
本公开实施例所称的实体可以理解为有实际意义的名词,比如,代表地点,组织等的名词。
在本公开实施例中,可以通过上述图1训练好的文本摘要抽取模型进行文本实体识别并提取文本所有语句中的实体,确定文本中每个语句中的实体占文本中的实体的比例。
步骤203、基于语句中的实体占文本中的实体的比例,确定语句的第一得分。
在本公开实施例中,可以通过上述图1训练好的文本摘要抽取模型,基于语句中的实体占文本中的实体的比例,确定该语句的第一得分。
步骤204、基于语句与标题之间的语义相似度,确定语句的第二得分。
在本公开实施例中,基于语句与标题之间的语义相似度,可以通过上述图1训练好的文本摘要抽取模型确定语句的第二得分,具体包括如下步骤S11-S14:
步骤S11、对标题和语句进行编码处理,得到标题的标题向量和语句中每个字符的字符向量以及语句的第一向量。
在本公开实施例中,可以通过上述图1中的文本摘要抽取模型中的BERT模型对标题进行编码处理,得到标题的标题向量;可以通过上述图1中的文本摘要抽取模型中的BertSum模型对文本语句进行编码处理,获得语句中每个字符的字符向量以及语句的第一向量。
步骤S12、分别计算每个字符向量与标题向量之间的第一相似度。
在本公开实施例中,可以通过上述图1中的文本摘要抽取模型中的注意力模型,分别计算每个字符向量与所述标题向量之间的第一相似度。
步骤S13、基于语句中包含的字符的第一相似度,确定语句的第二向量。
在本公开实施例中,基于语句中包含的字符的第一相似度,确定语句的第二向量,可以包括如下步骤S1301-S1302:
步骤S1301、基于语句中包含的字符的第一相似度,确定语句中的字符的权重。
在本公开实施例中,可以通过上述图1中的文本摘要抽取模型中的注意力模型,将语句中包含的字符的第一相似度输入归一化指数函数Softmax中,确定语句中的字符的权重。
步骤S1302、对语句中包含的字符的权重与字符的字符向量进行加权求和处理,得到语句的第二向量。
在本公开实施例中,可以通过图1中的文本摘要抽取模型中的注意力模型,对语句中包含的字符的权重与字符的字符向量进行加权求和处理,得到语句的第二向量。
步骤S14、基于语句的第二向量,确定语句的第二得分。
在本公开实施例中,可以通过图1中的文本摘要抽取模型中的激活函数Sigmoid,基于语句的第二向量,计算各个语句可以作为摘要语句的概率值,概率值越大,该语句作为摘要语句的可能性越大,将输出的概率值确定为语句的第二得分。
步骤205、基于第一得分和第二得分,确定用于形成摘要的语句。
在本公开实施例中,基于第一得分和第二得分,确定用于形成摘要的语句的步骤,具体包括步骤S21-S22:
步骤S21、针对文本中的每个语句,对语句的第一得分和第二得分进行加权求和处理,得到语句的第三得分。
步骤S22、将文本中第三得分大于预设阈值的语句,确定为用于形成摘要的语句。
在本公开实施例中,可以通过图1中的文本摘要抽取模型中的加权求和方法对语句的第一得分和第二得分进行加权求和处理,得到语句的第三得分,并将第三得分大于预设阈值的语句,确定为用于形成摘要的语句。相关描述参考图1的步骤105,这里不再赘述。
在本公开的另一些实施例中,可以将第三得分大于预设阈值的语句按照得分由大到小进行排序,按照得分由大到小选择预设摘要语句数量的语句作为用于形成摘要的语句。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例,通过对文本进行分句处理,获得文本中的语句和标题;提取语句中的实体,确定语句中的实体占文本中的实体的比例;基于该比例,确定语句的第一得分;基于语句与标题之间的语义相似度,确定语句的第二得分;基于第一得分和第二得分,确定用于形成摘要的语句。本公开实施例通过建模文本语句实体与文本实体,文本语句与文本标题的相关性,减少了文本摘要的冗余性,提高了文本摘要表达文本信息的准确性,提高了用户的阅读体验。
图3是本公开实施例提供的另一种文本摘要抽取方法的流程图,该方法可以由一种计算设备来执行。该计算设备可以理解为任意一种具有计算功能和处理能力的设备。如图3所示,本实施例提供的另一种文本摘要抽取方法包括如下步骤:
步骤301、对文本进行分句处理,获得文本中的语句和标题。
步骤302、提取语句中的实体,确定语句中的实体占文本中的实体的比例。
步骤303、基于语句中的实体占文本中的实体的比例,确定语句的第一得分。
步骤304、基于语句与标题之间的语义相似度,确定语句的第二得分。
步骤305、针对文本中的每个语句,对语句的第一得分和第二得分进行加权求和处理,得到语句的第三得分,将第三得分最高的语句作为摘要的首句。
在本公开实施例中,通过上述图2的步骤获得语句的第三得分后,选择第三得分最高的语句作为摘要的首句。
步骤306、针对剩余语句中的每个语句,计算语句的第一向量与首句第一向量之间的第二相似度。
在本公开实施例中,可以通过图1的文本摘要抽取模型的BertSum模型对文本语句进行编码处理,获得文本语句的第一向量。
步骤307、对语句的第三得分和第二相似度进行加权求和处理,得到第一求和结果。
步骤308、基于剩余语句的第一求和结果的排序,确定剩余语句在摘要中的位置。
本公开实施例所称的剩余语句可以理解为用于形成摘要的语句中除摘要首句之外的语句。
在本公开实施例中,可以采用最大边界相关算法(Maximal Marginal Releuance,MMR)算法对语句的第三得分和第二相似度进行加权求和处理,得到第一求和结果,基于第一求和结果的排序,确定剩余语句在摘要中的位置。MMR算法可以理解为用来计算查询Query语句与被搜索文本之间的相似度,从而对文本进行排序rank的算法,其优化公式如下:
其中,Q表示查询Query;
C表示所有文本的集合;
R表示已得到的一个以相关度为基础的初始集合;
Argmaxy[*]表示给出集合中y个最大元素的索引。
将上述MMR算法用于文本摘要抽取时,可以将Query看做整篇文本,对该算法修改后获得如下公式:
max[λ*score(t)-(1-λ)*max[similarity(t,h)]];
其中,sim(Q,di)被替换为score(t),表示文本第t个语句的第三得分;
similarity(t,h)表示文本第t个语句与已成为摘要首句的语句h的向量的第二相似度;
λ表示权重,可以根据需要进行调整。
可以给定权重λ,对语句的第三得分和第二相似度进行加权求和处理,得到第一求和结果。
基于剩余语句的第一求和结果进行排序,按照第一求和结果由大到小确定剩余语句在摘要中的位置。
在本公开的另一些实施例中,可以预先设定摘要的语句数量,基于剩余语句的第一求和结果由大到小对剩余语句进行排序,选择预设摘要语句数量的语句作为剩余摘要的语句。
需要说明的是,本公开实施例中的MMR算法通过最小化剩余语句与摘要首句之间的相似性,使得生成的摘要具有多样性;可以通过调节λ参数来控制文本摘要在准确性和多样性之间的平衡:当λ变大时,可以提高摘要抽取的准确性,当λ变小时,可以提高摘要抽取的多样性。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例,通过对文本进行分句处理,获得文本中的语句和标题;提取语句中的实体,确定语句中的实体占文本中的实体的比例;基于语句中的实体占文本中的实体的比例,确定语句的第一得分;基于语句与标题之间的语义相似度,确定语句的第二得分;针对文本中的每个语句,对语句的第一得分和第二得分进行加权求和处理,得到语句的第三得分,将第三得分最高的语句作为摘要的首句;针对剩余语句中的每个语句,计算语句与摘要首句之间的向量的第二相似度;对语句的第三得分和第二相似度进行加权求和处理,得到第一求和结果;基于剩余语句的第一求和结果的排序,确定剩余语句在摘要中的位置。本公开实施例通过采用最大边界相关算法保证了文本摘要抽取的多样性,减少了文本摘要的冗余性,能够同时满足抽取的文本摘要的准确性和多样性,提高了用户的阅读体验。
图4是本公开实施例提供的一种文本摘要抽取装置的结构示意图,该装置可以被理解为上述计算设备或者上述计算设备中的部分功能模块。如图4所示,该文本摘要抽取装置400包括:
获取模块410,用于对文本进行分句处理,获得文本的语句和标题;
提取模块420,用于提取语句中的实体,确定语句中的实体占文本中的实体的比例;
第一确定模块430,用于基于语句中的实体占文本中的实体的比例,确定语句的第一得分;
第二确定模块440,用于基于语句与标题之间的语义相似度,确定语句的第二得分;
第三确定模块450,用于基于第一得分和第二得分,确定用于形成摘要的语句。
可选的,上述第一确定模块430包括:
第一确定子模块,用于将语句中的实体占文本中的实体的比例作为语句的第一得分。
可选的,上述第二确定模块440包括:
编码子模块,用于对标题和语句进行编码处理,得到标题的标题向量和语句中每个字符的字符向量以及语句的第一向量;
第一计算子模块,用于分别计算每个字符向量与标题向量之间的第一相似度;
第二确定子模块,用于基于语句中包含的字符的第一相似度,确定语句的第二向量;
第三确定子模块,用于基于语句的第二向量,确定语句的第二得分。
可选的,上述第二确定子模块还用于基于语句中包含的字符的第一相似度,确定语句中的字符的权重;
对语句中包含的字符的权重与字符的字符向量进行加权求和处理,得到语句的第二向量。
可选的,上述第三确定模块450包括:
第二计算子模块,用于针对文本中的每个语句,对语句的第一得分和第二得分进行加权求和处理,得到语句的第三得分;
第四确定子模块,用于将文本中第三得分大于预设阈值的语句,确定为用于形成摘要的语句。
可选的,上述文本摘要抽取装置400还包括:
第四确定模块,用于将第三得分最高的语句作为摘要的首句;
第一计算模块,用于针对剩余语句中的每个语句,计算语句的第一向量与首句第一向量之间的第二相似度;
第二计算模块,用于对语句的第三得分和第二相似度进行加权求和处理,得到第一求和结果;
第五确定模块,用于基于剩余语句的第一求和结果的排序,确定剩余语句在摘要中的位置;
其中剩余语句是指用于形成摘要的语句中除首句之外的语句。
本实施例提供的文本摘要抽取装置能够执行上述图2-图3中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
本公开实施例还提供一种计算设备,该计算设备包括处理器和存储器,其中,存储器中存储有计算机程序,当该计算机程序被该处理器执行时可以实现上述图2-图3中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
本公开实施例提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述图2-图3中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
上述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
上述计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (14)
1.一种文本摘要抽取方法,其特征在于,所述方法包括:
对文本进行分句处理,获得所述文本中的语句和标题;
提取所述语句中的实体,确定所述语句中的实体占所述文本中的实体的比例;
基于所述比例,确定所述语句的第一得分;
基于所述语句与所述标题之间的语义相似度,确定所述语句的第二得分;
基于所述第一得分和所述第二得分,确定用于形成摘要的语句。
2.根据权利要求1所述的方法,其特征在于,基于所述比例,确定所述语句的第一得分,包括:
将所述比例作为所述语句的第一得分。
3.根据权利要求1所述的方法,其特征在于,所述基于所述语句与所述标题之间的语义相似度,确定所述语句的第二得分,包括:
对所述标题和所述语句进行编码处理,得到所述标题的标题向量和所述语句中每个字符的字符向量以及所述语句的第一向量;
分别计算每个字符向量与所述标题向量之间的第一相似度;
基于所述语句中包含的字符的所述第一相似度,确定所述语句的第二向量;
基于所述第二向量,确定所述语句的第二得分。
4.根据权利要求3所述的方法,其特征在于,所述基于所述语句中包含的字符的所述第一相似度,确定所述语句的第二向量,包括:
基于所述语句中包含的字符的第一相似度,确定所述语句中的字符的权重;
对所述语句中包含的字符的权重与所述字符的字符向量进行加权求和处理,得到所述语句的第二向量。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述第一得分和所述第二得分,确定用于形成摘要的语句,包括:
针对所述文本中的每个语句,对所述语句的第一得分和第二得分进行加权求和处理,得到所述语句的第三得分;
将所述文本中第三得分大于预设阈值的语句,确定为用于形成摘要的语句。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一得分和所述第二得分,确定用于形成摘要的语句之后,所述方法包括:
将所述第三得分最高的语句作为摘要的首句;
针对剩余语句中的每个语句,计算所述语句的第一向量与所述首句第一向量之间的第二相似度;
对所述语句的第三得分和所述第二相似度进行加权求和处理,得到第一求和结果;
基于所述剩余语句的所述第一求和结果的排序,确定所述剩余语句在所述摘要中的位置;
其中剩余语句是指所述用于形成摘要的语句中除所述首句之外的语句。
7.一种文本摘要抽取装置,其特征在于,所述装置包括:
获取模块,用于对文本进行分句处理,获得所述文本的语句和标题;
提取模块,用于提取所述语句中的实体,确定所述语句中的实体占所述文本中的实体的比例;
第一确定模块,用于基于所述比例,确定所述语句的第一得分;
第二确定模块,用于基于所述语句与所述标题之间的语义相似度,确定所述语句的第二得分;
第三确定模块,用于基于所述第一得分和所述第二得分,确定用于形成摘要的语句。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
第一确定子模块,用于将所述比例作为所述语句的第一得分。
9.根据权利要求7所述的装置,其特征在于,所述第二确定模块包括:
编码子模块,用于对所述标题和所述语句进行编码处理,得到所述标题的标题向量和所述语句中每个字符的字符向量以及所述语句的第一向量;
第一计算子模块,用于分别计算每个字符向量与所述标题向量之间的第一相似度;
第二确定子模块,用于基于所述语句中包含的字符的所述第一相似度,确定所述语句的第二向量;
第三确定子模块,用于基于所述第二向量,确定所述语句的第二得分。
10.根据权利要求9所述的装置,其特征在于,所述第二确定子模块还用于:
基于所述语句中包含的字符的第一相似度,确定所述语句中的字符的权重;
对所述语句中包含的字符的权重与所述字符的字符向量进行加权求和处理,得到所述语句的第二向量。
11.根据权利要求7-10中任一项所述的装置,其特征在于,所述第三确定模块包括:
第二计算子模块,用于针对所述文本中的每个语句,对所述语句的第一得分和第二得分进行加权求和处理,得到所述语句的第三得分;
第四确定子模块,用于将所述文本中第三得分大于预设阈值的语句,确定为用于形成摘要的语句。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第四确定模块,用于将所述第三得分最高的语句作为摘要的首句;
第一计算模块,用于针对剩余语句中的每个语句,计算所述语句的第一向量与所述首句第一向量之间的第二相似度;
第二计算模块,用于对所述语句的第三得分和所述第二相似度进行加权求和处理,得到第一求和结果;
第五确定模块,用于基于所述剩余语句的所述第一求和结果的排序,确定所述剩余语句在所述摘要中的位置;
其中剩余语句是指所述用于形成摘要的语句中除所述首句之外的语句。
13.一种计算设备,其特征在于,包括:
存储器和处理器,其中,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1-6中任一项所述的文本摘要抽取方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-6中任一项所述的文本摘要抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564484.9A CN114218923B (zh) | 2021-12-20 | 2021-12-20 | 文本摘要抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564484.9A CN114218923B (zh) | 2021-12-20 | 2021-12-20 | 文本摘要抽取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114218923A true CN114218923A (zh) | 2022-03-22 |
CN114218923B CN114218923B (zh) | 2022-08-30 |
Family
ID=80704406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111564484.9A Active CN114218923B (zh) | 2021-12-20 | 2021-12-20 | 文本摘要抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114218923B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101377114B1 (ko) * | 2012-10-11 | 2014-03-24 | 한양대학교 에리카산학협력단 | 뉴스 요약문 생성 시스템 및 방법 |
CN108717637A (zh) * | 2018-03-22 | 2018-10-30 | 浙江大学 | 一种电商安全相关实体的自动挖掘方法及系统 |
CN110287309A (zh) * | 2019-06-21 | 2019-09-27 | 深圳大学 | 快速提取文本摘要的方法 |
CN110674286A (zh) * | 2019-09-29 | 2020-01-10 | 出门问问信息科技有限公司 | 一种文本摘要抽取方法、装置及存储设备 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN111581341A (zh) * | 2020-04-21 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种获取文本摘要的方法及语言模型生成方法 |
CN112052308A (zh) * | 2020-08-21 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种摘要文本提取方法、装置、存储介质和电子设备 |
CN112214996A (zh) * | 2020-10-13 | 2021-01-12 | 华中科技大学 | 一种面向科技信息文本的文本摘要生成方法及系统 |
CN112347241A (zh) * | 2020-11-10 | 2021-02-09 | 华夏幸福产业投资有限公司 | 一种摘要提取方法、装置、设备及存储介质 |
CN112347240A (zh) * | 2020-10-16 | 2021-02-09 | 小牛思拓(北京)科技有限公司 | 文本摘要的抽取方法、装置、可读存储介质及电子设备 |
CN113342968A (zh) * | 2021-05-21 | 2021-09-03 | 中国石油天然气股份有限公司 | 文本摘要提取方法及装置 |
CN113626583A (zh) * | 2021-07-14 | 2021-11-09 | 北京海泰方圆科技股份有限公司 | 文本摘要标注方法、装置、电子设备和存储介质 |
-
2021
- 2021-12-20 CN CN202111564484.9A patent/CN114218923B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101377114B1 (ko) * | 2012-10-11 | 2014-03-24 | 한양대학교 에리카산학협력단 | 뉴스 요약문 생성 시스템 및 방법 |
CN108717637A (zh) * | 2018-03-22 | 2018-10-30 | 浙江大学 | 一种电商安全相关实体的自动挖掘方法及系统 |
CN110287309A (zh) * | 2019-06-21 | 2019-09-27 | 深圳大学 | 快速提取文本摘要的方法 |
CN110674286A (zh) * | 2019-09-29 | 2020-01-10 | 出门问问信息科技有限公司 | 一种文本摘要抽取方法、装置及存储设备 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN111581341A (zh) * | 2020-04-21 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种获取文本摘要的方法及语言模型生成方法 |
CN112052308A (zh) * | 2020-08-21 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种摘要文本提取方法、装置、存储介质和电子设备 |
CN112214996A (zh) * | 2020-10-13 | 2021-01-12 | 华中科技大学 | 一种面向科技信息文本的文本摘要生成方法及系统 |
CN112347240A (zh) * | 2020-10-16 | 2021-02-09 | 小牛思拓(北京)科技有限公司 | 文本摘要的抽取方法、装置、可读存储介质及电子设备 |
CN112347241A (zh) * | 2020-11-10 | 2021-02-09 | 华夏幸福产业投资有限公司 | 一种摘要提取方法、装置、设备及存储介质 |
CN113342968A (zh) * | 2021-05-21 | 2021-09-03 | 中国石油天然气股份有限公司 | 文本摘要提取方法及装置 |
CN113626583A (zh) * | 2021-07-14 | 2021-11-09 | 北京海泰方圆科技股份有限公司 | 文本摘要标注方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
孙金杨 等: "TAGAN:一种融合细粒度语义特征的学术论文对抗推荐算法", 《电信科学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114218923B (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN109800434B (zh) | 基于眼动注意力的抽象文本标题生成方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN114661872B (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN113282711A (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
CN114117041B (zh) | 一种基于特定属性词上下文建模的属性级情感分析方法 | |
CN113836269B (zh) | 一种基于问答式系统的篇章级核心事件抽取方法 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
Artene et al. | Using BERT for multi-label multi-language web page classification | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN116910251A (zh) | 基于bert模型的文本分类方法、装置、设备及介质 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN114218923B (zh) | 文本摘要抽取方法、装置、设备及存储介质 | |
CN113220825B (zh) | 面向个人推文的话题情感倾向性预测模型的建模方法及系统 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |