CN112732899A - 摘要语句提取方法、装置、服务器及计算机可读存储介质 - Google Patents

摘要语句提取方法、装置、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN112732899A
CN112732899A CN202011640996.4A CN202011640996A CN112732899A CN 112732899 A CN112732899 A CN 112732899A CN 202011640996 A CN202011640996 A CN 202011640996A CN 112732899 A CN112732899 A CN 112732899A
Authority
CN
China
Prior art keywords
target
semantic vector
semantic
abstract
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011640996.4A
Other languages
English (en)
Inventor
梁子敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011640996.4A priority Critical patent/CN112732899A/zh
Publication of CN112732899A publication Critical patent/CN112732899A/zh
Priority to PCT/CN2021/097421 priority patent/WO2022142121A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种摘要语句提取方法、装置、服务器及计算机可读存储介质,该方法包括:获取目标文本,并将目标文本拆分为多个目标语句;调用语义识别模型对每个目标语句进行处理,得到每个目标语句的第一语义向量;调用语义融合模型对每个第一语义向量进行处理,得到目标文本的语义向量矩阵;对语义向量矩阵进行线性变换,得到目标语义向量矩阵;调用语句分类模型对目标语义向量矩阵进行处理,得到分类标签序列;根据分类标签序列和用于指示目标语句为摘要语句的第一标签,从多个目标语句中确定目标文本的摘要语句。该方法提高了摘要语句的提取准确性。本申请还涉及区块链领域,上述计算机可读存储介质可存储根据区块链节点的使用所创建的数据。

Description

摘要语句提取方法、装置、服务器及计算机可读存储介质
技术领域
本申请涉及语义解析的技术领域,尤其涉及一种摘要语句提取方法、装置、服务器及计算机可读存储介质。
背景技术
目前,文本摘要的确定方式主要包括抽取式和生成式,抽取式是指抽取文本中的重要语句作为摘要语句,基于这些摘要语句组成摘要,而生成式是指基于自然语言处理的方法,通过转述、同义替换和句子缩写等技术,生成文本摘要。而常用的抽取文本中的重要语句的算法主要是是TextRank算法,但是原始TextRank方法只是基于语句与文本的相似度抽取重要句子,且抽取出的语句存在冗余性,准确性较低。因此,如何提高文本中的摘要语句的提取准确性是目前亟待解决的问题。
发明内容
本申请实施例提供一种摘要语句提取方法、装置、服务器及计算机可读存储介质,旨在提高文本中的摘要语句的提取准确性。
第一方面,本申请实施例提供一种摘要语句提取方法,应用于服务器,所述服务器存储有摘要语句提取模型,所述摘要语句提取模型包括语义识别模型、语义融合模型和语句分类模型,所述方法包括:
获取待提取摘要的目标文本,并将所述目标文本拆分为多个目标语句;
调用所述语义识别模型对每个所述目标语句进行处理,得到每个所述目标语句的第一语义向量;
调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵;
对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵;
调用所述语句分类模型对所述目标语义向量矩阵进行处理,得到分类标签序列,所述分类标签序列包括每个所述目标语句的分类标签;
根据所述分类标签序列和用于指示目标语句为摘要语句的第一标签,从所述多个目标语句中确定所述目标文本的摘要语句。
第二方面,本申请实施例还提供一种摘要语句提取装置,应用于服务器,所述服务器存储有摘要语句提取模型,所述摘要语句提取模型包括语义识别模型、语义融合模型和语句分类模型,所述摘要语句提取装置包括:
获取模块,用于获取待提取摘要的目标文本;
文本拆分模块,用于将所述目标文本拆分为多个目标语句;
控制模块,用于调用所述语义识别模型对每个所述目标语句进行处理,得到每个所述目标语句的第一语义向量;
所述控制模块,还用于调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵;
所述控制模块,还用于对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵;
所述控制模块,还用于调用所述语句分类模型对所述目标语义向量矩阵进行处理,得到分类标签序列,所述分类标签序列包括每个所述目标语句的分类标签;
语句确定模块,用于根据所述分类标签序列和用于指示目标语句为摘要语句的第一标签,从所述多个目标语句中确定所述目标文本的摘要语句。
第三方面,本申请实施例还提供一种服务器,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的摘要语句提取方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的摘要语句提取方法的步骤。
本申请实施例提供一种摘要语句提取方法、装置、服务器及计算机可读存储介质,通过将目标文本拆分为多个目标语句,并通过语义识别模型对每个目标语句进行处理,可以得到句子级别的语义理解的语义向量,然后再通过语义融合模型对句子级别的语义理解的语义向量进行处理,可以得到文本级别的语义理解的语义向量矩阵,并对该语义向量矩阵进行线性变换,得到目标语义向量矩阵,最后通过语句分类模型对文本级别的语义理解的目标语义向量矩阵进行处理,可以得到分类标签序列,并基于分类标签序列和用于指示目标语句为摘要语句的第一标签,从多个目标语句中确定目标文本的摘要语句,极大的提高了文本中的摘要语句的提取准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种摘要语句提取方法的流程示意图;
图2是本申请实施例中的摘要语句提取模型的一结构示意图;
图3是本申请实施例中的摘要语句提取模型的另一结构示意图;
图4是本申请实施例提供的一种摘要语句提取装置的示意性框图;
图5是图4中的摘要语句提取装置的子模块的示意性框图;
图6是本申请实施例提供的一种服务器的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参阅附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
目前,文本摘要的确定方式主要包括抽取式和生成式,抽取式是指抽取文本中的重要语句作为摘要语句,基于这些摘要语句组成摘要,而生成式是指基于自然语言处理的方法,通过转述、同义替换和句子缩写等技术,生成文本摘要。而常用的抽取文本中的重要语句的算法主要是是TextRank算法,但是原始TextRank方法只是基于语句与文本的相似度抽取重要句子,且抽取出的语句存在冗余性,准确性较低。因此,如何提高文本中的摘要语句的提取准确性是目前亟待解决的问题。
为解决上述问题,本申请实施例提供一种摘要语句提取方法、装置、服务器及计算机可读存储介质。通过将目标文本拆分为多个目标语句,并通过语义识别模型对每个目标语句进行处理,可以得到句子级别的语义理解的语义向量,然后再通过语义融合模型对句子级别的语义理解的语义向量进行处理,可以得到文本级别的语义理解的语义向量矩阵,并对该语义向量矩阵进行线性变换,得到目标语义向量矩阵,最后通过语句分类模型对文本级别的语义理解的目标语义向量矩阵进行处理,可以得到分类标签序列,并基于分类标签序列和用于指示目标语句为摘要语句的第一标签,从多个目标语句中确定目标文本的摘要语句,极大的提高了文本中的重要句子的提取准确性。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种摘要语句提取方法的流程示意图。该摘要语句提取方法可应用于服务器,该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群,本申请实施例对此不做具体限定。
如图1所示,该摘要语句提取方法包括步骤S101至步骤S106。
步骤S101、获取待提取摘要的目标文本,并将所述目标文本拆分为多个目标语句。
服务器可以从数据库中获取待提取摘要的目标文本,也可以从外部存储设备中获取待提取摘要的目标文本,还可以从终端设备发送的摘要提取请求中获取待提取摘要的目标文本。其中,数据库包括本地数据库和云端数据库,外部设备包括插接式硬盘,安全数字卡,闪存卡等。该目标文本可以包括服务器能够直接读取的文本和不能够直接读取的文本,该直接读取的文本包括word格式、txt格式和wps格式等的文本,不能够直接读取的文本包括pdf格式、tif格式和图片格式等的文本。
在一实施例中,将所述目标文本拆分为多个目标语句的方式可以为:根据所述目标文本中的断句标识符,将该目标文本拆分为多个初始语句;确定每个初始语句的字符数,并根据每个初始语句的字符数对每个初始语句进行预处理,得到多个目标语句,每个目标语句的字符数等于预设字符数。其中预设字符数可基于实际情况进行设置,本申请实施例对此不做具体限定。例如,预设字符数为256或512,该断句标识符为语法中表示语句结束的符号,断句标识符包括但不限于句号、分号、问号、感叹号和隔行符号。
在一实施例中,根据每个初始语句的字符数对每个初始语句进行预处理,得到多个目标语句的方式可以为:若初始语句的字符数小于预设字符数,则确定该初始语句的字符个数与预设字符数的差值的绝对值,得到第一字符个数,并在该初始语句的尾部填充该第一字符个数的预设字符,得到目标语句;若初始语句的字符数大于预设字符数,则确定该初始语句的字符个数与预设字符数的差值的绝对值,得到第二字符个数,并按照该初始语句中的字符的倒序,去除该第二字符个数的字符,得到目标语句;若初始语句的字符数等于预设字符数,则不做处理。
步骤S102、调用所述语义识别模型对每个所述目标语句进行处理,得到每个所述目标语句的第一语义向量。
服务器存储有摘要语句提取模型,如图2所示,该摘要提取模型包括语义识别模型、语义融合模型和语句分类模型,语义识别模型与语义融合模型连接,语义融合模型与语句分类模型连接,所述语义识别模型为预先训练好的Bert模型,所述语义融合模型为预先训练好的长短期记忆人工神经网络(Long Short-Term Memory,LSTM)模型或者GRU模型,所述语句分类模型为预先训练好的二分类模型,通过对Bert模型、LSTM模型和二分类模型一起进行迭代训练,可以得到摘要语句提取模型。
示例性的,对Bert模型、LSTM模型(也可以替换为GRU模型)和二分类模型一起进行迭代训练的方式可以为:获取样本数据集,其中,所述样本数据集包括多个样本数据,所述样本数据包括样本文本、标注的分类标签序列、标注的语义向量、标注的语义向量矩阵;选取样本数据集中的一个样本数据,并将该样本数据中的样本文本拆分为字符个数为预设字符个数的多个样本语句;将多个样本语句输入Bert模型,得到每个样本语句的语义向量;将每个样本语句的语义向量输入LSTM模型,得到样本文本的语义向量矩阵;基于设置的权重系数矩阵和偏置项矩阵对该语义向量矩阵进行线性变换,得到目标语义向量矩阵;将目标语义向量矩阵输入二分类模型,输出分类标签序列;然后基于输出的分类标签序列和标注的分类标签序列更新二分类模型的模型参数,更新权重系数矩阵和偏置项矩阵,基于输出的语义向量矩阵和标注的语义向量矩阵,更新LSTM模型的模型参数,基于输出的样本语句的语义向量和标注的语义向量,更新Bert模型的模型参数,从而更新整个摘要语句提取模型的模型参数;在更新模型参数后,继续对Bert模型、LSTM模型和二分类模型一起进行迭代训练,直到Bert模型、LSTM模型和二分类模型均收敛,得到摘要语句提取模型。
在将目标文本拆分为多个目标语句后,调用语义识别模型对每个目标语句进行处理,可以得到每个目标语句的句子级别的语义向量。其中,该语义向量用于描述目标语句的语义信息,即目标语句想要表达的意思。
步骤S103、调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵。
示例性的,摘要语句提取模型还可以包括dropout层,如图3所示,语义识别模型与dropout层连接,dropout层与语义融合模型连接,语义融合模型与语句分类模型连接。通过对Bert模型、dropout层、LSTM模型(也可以替换为GRU模型)和二分类模型一起进行迭代训练,可以得到摘要语句提取模型。通过dropout层可以防止模型的过拟合,提高模型效果。
在一实施例中,在得到目标语句的第一语义向量后,将每个目标语句的第一语义向量输入dropout层,得到语义向量序列;对语义向量序列进行预处理,得到目标语义向量序列,其中,目标语义向量序列的长度等于预设长度;调用语义融合模型对目标语义向量序列进行处理,得到目标文本的语义向量矩阵。所述目标文本的语义向量矩阵包括每个目标语句的第二语义向量,所述第二语义向量用于描述目标语句在目标文本内的语义信息,即综合考虑了语句本身想表达的意思,也考虑了语句间想表达的意思。
示例性的,对语义向量序列进行预处理,得到目标语义向量序列的方式可以为:若语义向量序列的长度小于预设长度,则在语义向量序列中填充零向量,得到目标语义向量序列;若语义向量序列的长度大于预设长度,则对语义向量序列进行截取,即截取语义向量序列中的靠前的预设长度的语义向量,得到目标语义向量序列。其中,零向量的填充个数是根据预设长度与第一语义向量序列的长度的差值确定的。
示例性的,对Bert模型、dropout层、LSTM模型(也可以替换为GRU模型)和二分类模型一起进行迭代训练的方式可以为:获取样本数据集,其中,所述样本数据集包括多个样本数据,所述样本数据包括样本文本、标注的分类标签序列、标注的语义向量、标注的语义向量序列、标注的语义向量矩阵;选取样本数据集中的一个样本数据,并将该样本数据中的样本文本拆分为字符个数为预设字符个数的多个样本语句;将多个样本语句输入Bert模型,得到每个样本语句的语义向量;将每个样本语句的语义向量输入dropout层,得到语义向量序列,对语义向量序列进行预处理,得到目标语义向量序列;将目标语义向量序列输入LSTM模型,得到样本文本的语义向量矩阵;基于设置的权重系数矩阵和偏置项矩阵对该语义向量矩阵进行线性变换,得到目标语义向量矩阵;将目标语义向量矩阵输入二分类模型,输出分类标签序列;
基于输出的分类标签序列和标注的分类标签序列更新二分类模型的模型参数,更新权重系数矩阵和偏置项矩阵,基于输出的语义向量矩阵和标注的语义向量矩阵,更新LSTM模型的模型参数,基于输出的语义向量序列和标注的语义向量序列,更新dropout层的模型参数,基于输出的样本语句的语义向量和标注的语义向量,更新Bert模型的模型参数,从而更新整个摘要语句提取模型的模型参数;在更新模型参数后,继续对Bert模型、dropout层、LSTM模型和二分类模型一起进行迭代训练,直到Bert模型、dropout层、LSTM模型和二分类模型均收敛,得到摘要语句提取模型。
步骤S104、对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵。
示例性的,获取预设权重系数矩阵和预设偏置项矩阵;根据预设权重系数矩阵和预设偏置项矩阵,对语义向量矩阵进行线性变换,得到目标语义向量矩阵。其中,预设权重系数矩阵和预设偏置项矩阵是在对Bert模型、LSTM模型(也可以替换为GRU模型)和二分类模型一起进行迭代训练的过程中,模型收敛时确定的,或者,预设权重系数矩阵和预设偏置项矩阵是在对Bert模型、dropout层、LSTM模型和二分类模型一起进行迭代训练的过程中,模型收敛时确定的。例如,语义向量矩阵为h,目标语义向量矩阵为H,预设权重系数矩阵为W和预设偏置项矩阵为B,则对语义向量矩阵语义向量矩阵h进行线性变换,得到的目标语义向量矩阵H=W*h+B。
步骤S105、调用所述语句分类模型对所述目标语义向量矩阵进行处理,得到分类标签序列,所述分类标签序列包括每个所述目标语句的分类标签。
其中,分类标签序列中的分类标签的数量是根据目标语句的数量确定的,且分类标签序列中的分类标签与目标语句一一对应,分类标签可以为第一标签,也可以为第二标签,第一标签用于指示对应的目标语句为摘要语句,第二标签用于指示对应的目标语句不为摘要语句。例如,目标文本包括N个目标语句,则分类标签序列包括N个分类标签。其中,第一标签和第二标签可基于实际情况进行设置,例如,第一标签为1,第二标签为0,或者,第一标签为1,第二标签为-1。
步骤S106、根据所述分类标签序列和用于指示目标语句为摘要语句的第一标签,从所述多个目标语句中确定所述目标文本的摘要语句。
示例性的,确定第一标签在该分类标签序列中的排序编号,并从多个目标语句中选择与该排序编号对应的目标语句作为目标文本的摘要语句。其中,摘要语句的数量可以为一个,也可以为多个,本申请实施例对此不做具体限定。例如,分类标签序列包括100个分类标签序列,且排序编号为20、50、75和90的分类标签为第一标签,则可以确定排序编号为20、50、75和90的分类标签对应的目标语句为目标文本的摘要语句。
其中,分类标签序列中的分类标签的排序编号是根据对应的目标语句在目标文本中的位置确定的,例如,目标文本包括N个目标语句,按照目标语句在目标文本中的位置,可以确定目标文本的第一个目标语句的位置编号为1,因此,第一个目标语句的分类标签在分类标签序列中的排序编号也为1,类似的,最后一个目标语句的位置编号为N,因此,最后一个目标语句的分类标签在分类标签序列中的排序编号也为N。
上述实施例提供的摘要语句提取方法,通过将目标文本拆分为多个目标语句,并通过语义识别模型对每个目标语句进行处理,可以得到句子级别的语义理解的语义向量,然后再通过语义融合模型对句子级别的语义理解的语义向量进行处理,可以得到文本级别的语义理解的语义向量矩阵,并对该语义向量矩阵进行线性变换,得到目标语义向量矩阵,最后通过语句分类模型对文本级别的语义理解的目标语义向量矩阵进行处理,可以得到分类标签序列,并基于分类标签序列和用于指示目标语句为摘要语句的第一标签,从多个目标语句中确定目标文本的摘要语句,极大的提高了文本中的重要句子的提取准确性。
请参阅图4,图4是本申请实施例提供的一种摘要语句提取装置的示意性框图。
该摘要语句提取装置应用于服务器,服务器存储有摘要语句提取模型,该摘要语句提取模型包括语义识别模型、语义融合模型和语句分类模型,如图4所示,该摘要语句提取装置200包括:获取模块210、文本拆分模块220、控制模块230和语句确定模块240,其中:
所述获取模块210,用于获取待提取摘要的目标文本;
所述文本拆分模块220,用于将所述目标文本拆分为多个目标语句;
所述控制模块230,用于调用所述语义识别模型对每个所述目标语句进行处理,得到每个所述目标语句的第一语义向量;
所述控制模块230,还用于调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵;
所述控制模块230,还用于对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵;
所述控制模块230,还用于调用所述语句分类模型对所述目标语义向量矩阵进行处理,得到分类标签序列,所述分类标签序列包括每个所述目标语句的分类标签;
所述语句确定模块240,用于根据所述分类标签序列和用于指示目标语句为摘要语句的第一标签,从所述多个目标语句中确定所述目标文本的摘要语句。
在一实施例中,所述语义识别模型为预先训练好的Bert模型,所述语义融合模型为预先训练好的LSTM模型或者GRU模型,所述语句分类模型为预先训练好的二分类模型。
在一实施例中,每个所述目标语句的字符个数等于预设字符个数。
在一实施例中,所述摘要语句提取模型还包括dropout层,所述控制模块230还用于:
将每个所述目标语句的第一语义向量输入所述dropout层,得到语义向量序列;
对所述语义向量序列进行预处理,得到目标语义向量序列,其中,所述目标语义向量序列的长度等于预设长度;
调用所述语义融合模型对所述目标语义向量序列进行处理,得到所述目标文本的语义向量矩阵。
在一实施例中,所述控制模块230还用于:
若所述语义向量序列的长度小于所述预设长度,则在所述语义向量序列中填充零向量,得到目标语义向量序列;
若所述语义向量序列的长度大于所述预设长度,则对所述语义向量序列进行截取,得到目标语义向量序列。
在一实施例中,所述控制模块230还用于:
获取预设权重系数矩阵和预设偏置项矩阵;
根据预设权重系数矩阵和预设偏置项矩阵,对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵。
在一实施例中,如图5所示,所述语句确定模块240包括:
确定子模块241,用于确定所述第一标签在所述分类标签序列中的排序编号;
语句选择子模块242,用于从所述多个目标语句中选择与所述排序编号对应的目标语句作为所述目标文本的摘要语句。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述摘要语句提取方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的服务器上运行。
请参阅图6,图6是本申请实施例提供的一种服务器的结构示意性框图。
如图6所示,该服务器包括通过系统总线连接的处理器、存储器和网络接口,所述存储器存储有摘要语句提取模型,所述摘要语句提取模型包括语义识别模型、语义融合模型和语句分类模型,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种摘要语句提取方法。
处理器用于提供计算和控制能力,支撑整个服务器的运行。
内存储器为存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种摘要语句提取方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待提取摘要的目标文本,并将所述目标文本拆分为多个目标语句;
调用所述语义识别模型对每个所述目标语句进行处理,得到每个所述目标语句的第一语义向量;
调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵;
对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵;
调用所述语句分类模型对所述目标语义向量矩阵进行处理,得到分类标签序列,所述分类标签序列包括每个所述目标语句的分类标签;
根据所述分类标签序列和用于指示目标语句为摘要语句的第一标签,从所述多个目标语句中确定所述目标文本的摘要语句。
在一实施例中,所述语义识别模型为预先训练好的Bert模型,所述语义融合模型为预先训练好的LSTM模型或者GRU模型,所述语句分类模型为预先训练好的二分类模型。
在一实施例中,每个所述目标语句的字符个数等于预设字符个数。
在一实施例中,所述摘要语句提取模型还包括dropout层,所述处理器在实现调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵之前,还用于实现:
将每个所述目标语句的第一语义向量输入所述dropout层,得到语义向量序列;
对所述语义向量序列进行预处理,得到目标语义向量序列,其中,所述目标语义向量序列的长度等于预设长度;
调用所述语义融合模型对所述目标语义向量序列进行处理,得到所述目标文本的语义向量矩阵。
在一实施例中,所述处理器在实现对所述语义向量序列进行预处理,得到目标语义向量序列时,用于实现:
若所述语义向量序列的长度小于所述预设长度,则在所述语义向量序列中填充零向量,得到目标语义向量序列;
若所述语义向量序列的长度大于所述预设长度,则对所述语义向量序列进行截取,得到目标语义向量序列。
在一实施例中,所述处理器在实现对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵时,用于实现:
获取预设权重系数矩阵和预设偏置项矩阵;
根据预设权重系数矩阵和预设偏置项矩阵,对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵。
在一实施例中,所述处理器在实现根据所述分类标签序列和用于指示目标语句为摘要语句的第一标签,从所述多个目标语句中确定所述目标文本的摘要语句时,用于实现:
确定所述第一标签在所述分类标签序列中的排序编号;
从所述多个目标语句中选择与所述排序编号对应的目标语句作为所述目标文本的摘要语句。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的服务器的具体工作过程,可以参考前述摘要语句提取方法实施例中的对应过程,在此不再赘述。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台服务器(可以是个人计算机,服务器,或者网络服务器等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参阅本申请摘要语句提取方法的各个实施例。
其中,所述计算机可读存储介质可以是易失性的,也可以是非易失性的。所述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元,例如所述服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种摘要语句提取方法,其特征在于,应用于服务器,所述服务器存储有摘要语句提取模型,所述摘要语句提取模型包括语义识别模型、语义融合模型和语句分类模型,所述方法包括:
获取待提取摘要的目标文本,并将所述目标文本拆分为多个目标语句;
调用所述语义识别模型对每个所述目标语句进行处理,得到每个所述目标语句的第一语义向量;
调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵;
对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵;
调用所述语句分类模型对所述目标语义向量矩阵进行处理,得到分类标签序列,所述分类标签序列包括每个所述目标语句的分类标签;
根据所述分类标签序列和用于指示目标语句为摘要语句的第一标签,从所述多个目标语句中确定所述目标文本的摘要语句。
2.根据权利要求1所述的摘要语句提取方法,其特征在于,所述语义识别模型为预先训练好的Bert模型,所述语义融合模型为预先训练好的LSTM模型或者GRU模型,所述语句分类模型为预先训练好的二分类模型。
3.根据权利要求1所述的摘要语句提取方法,其特征在于,每个所述目标语句的字符个数等于预设字符个数。
4.根据权利要求1所述的摘要语句提取方法,其特征在于,所述摘要语句提取模型还包括dropout层,所述调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵之前,还包括:
将每个所述目标语句的第一语义向量输入所述dropout层,得到语义向量序列;
对所述语义向量序列进行预处理,得到目标语义向量序列,其中,所述目标语义向量序列的长度等于预设长度;
所述调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵,包括:
调用所述语义融合模型对所述目标语义向量序列进行处理,得到所述目标文本的语义向量矩阵。
5.根据权利要求4所述的摘要语句提取方法,其特征在于,所述对所述语义向量序列进行预处理,得到目标语义向量序列,包括:
若所述语义向量序列的长度小于所述预设长度,则在所述语义向量序列中填充零向量,得到目标语义向量序列;
若所述语义向量序列的长度大于所述预设长度,则对所述语义向量序列进行截取,得到目标语义向量序列。
6.根据权利要求1-5中任一项所述的摘要语句提取方法,其特征在于,所述对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵,包括:
获取预设权重系数矩阵和预设偏置项矩阵;
根据预设权重系数矩阵和预设偏置项矩阵,对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵。
7.根据权利要求1-5中任一项所述的摘要语句提取方法,其特征在于,所述根据所述分类标签序列和用于指示目标语句为摘要语句的第一标签,从所述多个目标语句中确定所述目标文本的摘要语句,包括:
确定所述第一标签在所述分类标签序列中的排序编号;
从所述多个目标语句中选择与所述排序编号对应的目标语句作为所述目标文本的摘要语句。
8.一种摘要语句提取装置,其特征在于,应用于服务器,所述服务器存储有摘要语句提取模型,所述摘要语句提取模型包括语义识别模型、语义融合模型和语句分类模型,所述摘要语句提取装置包括:
获取模块,用于获取待提取摘要的目标文本;
文本拆分模块,用于将所述目标文本拆分为多个目标语句;
控制模块,用于调用所述语义识别模型对每个所述目标语句进行处理,得到每个所述目标语句的第一语义向量;
所述控制模块,还用于调用所述语义融合模型对每个所述目标语句的第一语义向量进行处理,得到所述目标文本的语义向量矩阵;
所述控制模块,还用于对所述语义向量矩阵进行线性变换,得到目标语义向量矩阵;
所述控制模块,还用于调用所述语句分类模型对所述目标语义向量矩阵进行处理,得到分类标签序列,所述分类标签序列包括每个所述目标语句的分类标签;
语句确定模块,用于根据所述分类标签序列和用于指示目标语句为摘要语句的第一标签,从所述多个目标语句中确定所述目标文本的摘要语句。
9.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的摘要语句提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的摘要语句提取方法的步骤。
CN202011640996.4A 2020-12-31 2020-12-31 摘要语句提取方法、装置、服务器及计算机可读存储介质 Pending CN112732899A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011640996.4A CN112732899A (zh) 2020-12-31 2020-12-31 摘要语句提取方法、装置、服务器及计算机可读存储介质
PCT/CN2021/097421 WO2022142121A1 (zh) 2020-12-31 2021-05-31 摘要语句提取方法、装置、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011640996.4A CN112732899A (zh) 2020-12-31 2020-12-31 摘要语句提取方法、装置、服务器及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112732899A true CN112732899A (zh) 2021-04-30

Family

ID=75609094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011640996.4A Pending CN112732899A (zh) 2020-12-31 2020-12-31 摘要语句提取方法、装置、服务器及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN112732899A (zh)
WO (1) WO2022142121A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906385A (zh) * 2021-05-06 2021-06-04 平安科技(深圳)有限公司 文本摘要生成方法、计算机设备及存储介质
CN113239668A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 关键词智能提取方法、装置、计算机设备及存储介质
CN114386390A (zh) * 2021-11-25 2022-04-22 马上消费金融股份有限公司 一种数据处理方法、装置、计算机设备及存储介质
WO2022142121A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN114741499A (zh) * 2022-06-08 2022-07-12 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和系统
CN114860873A (zh) * 2022-04-22 2022-08-05 北京北大软件工程股份有限公司 一种生成文本摘要的方法、装置及存储介质
CN114969313A (zh) * 2022-06-07 2022-08-30 四川大学 摘要抽取方法、装置、计算机设备及计算机可读存储介质
CN115098619A (zh) * 2022-06-24 2022-09-23 平安银行股份有限公司 资讯去重方法、装置、电子设备及计算机可读取存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701625B (zh) * 2023-05-29 2024-05-10 中国南方电网有限责任公司 电力调度语句处理方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111639174A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 文本摘要生成系统、方法、装置及计算机可读存储介质
US20200372066A1 (en) * 2019-05-22 2020-11-26 SalesTing, Inc. Content summarization leveraging systems and processes for key moment identification and extraction

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213130A1 (en) * 2016-01-21 2017-07-27 Ebay Inc. Snippet extractor: recurrent neural networks for text summarization at industry scale
CN110348016B (zh) * 2019-07-15 2022-06-14 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
CN110532554B (zh) * 2019-08-26 2023-05-05 南京信息职业技术学院 一种中文摘要生成方法、系统及存储介质
CN111581374A (zh) * 2020-05-09 2020-08-25 联想(北京)有限公司 文本的摘要获取方法、装置及电子设备
CN112732899A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372066A1 (en) * 2019-05-22 2020-11-26 SalesTing, Inc. Content summarization leveraging systems and processes for key moment identification and extraction
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN111639174A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 文本摘要生成系统、方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QICAIWANG ET AL: "A Text Abstraction Summary Model Based on BERT Word Embedding and Reinforcement Learning", 《APPLIED SCIENCES》, pages 1 - 19 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022142121A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN112906385B (zh) * 2021-05-06 2021-08-13 平安科技(深圳)有限公司 文本摘要生成方法、计算机设备及存储介质
CN112906385A (zh) * 2021-05-06 2021-06-04 平安科技(深圳)有限公司 文本摘要生成方法、计算机设备及存储介质
CN113239668A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 关键词智能提取方法、装置、计算机设备及存储介质
CN113239668B (zh) * 2021-05-31 2023-06-23 平安科技(深圳)有限公司 关键词智能提取方法、装置、计算机设备及存储介质
CN114386390B (zh) * 2021-11-25 2022-12-06 马上消费金融股份有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN114386390A (zh) * 2021-11-25 2022-04-22 马上消费金融股份有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN114860873A (zh) * 2022-04-22 2022-08-05 北京北大软件工程股份有限公司 一种生成文本摘要的方法、装置及存储介质
CN114969313A (zh) * 2022-06-07 2022-08-30 四川大学 摘要抽取方法、装置、计算机设备及计算机可读存储介质
CN114969313B (zh) * 2022-06-07 2023-05-09 四川大学 摘要抽取方法、装置、计算机设备及计算机可读存储介质
CN114741499B (zh) * 2022-06-08 2022-09-06 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和系统
CN114741499A (zh) * 2022-06-08 2022-07-12 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和系统
CN115098619A (zh) * 2022-06-24 2022-09-23 平安银行股份有限公司 资讯去重方法、装置、电子设备及计算机可读取存储介质

Also Published As

Publication number Publication date
WO2022142121A1 (zh) 2022-07-07

Similar Documents

Publication Publication Date Title
CN112732899A (zh) 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
EP3851998A1 (en) Method and apparatus for verifying medical fact
CN107239450B (zh) 基于交互上下文处理自然语言方法
CN107291775B (zh) 错误样本的修复语料生成方法和装置
CN109948160B (zh) 短文本分类方法及装置
CN112686049A (zh) 文本审核方法、装置、设备及存储介质
CN113268560A (zh) 用于文本匹配的方法和装置
CN112860919A (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN112732741A (zh) Sql语句生成方法、装置、服务器及计算机可读存储介质
CN111831920A (zh) 用户需求分析方法、装置、计算机设备及存储介质
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN116821299A (zh) 智能问答方法、智能问答装置、设备及存储介质
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN112084769A (zh) 依存句法模型优化方法、装置、设备及可读存储介质
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN110717333A (zh) 文章摘要自动生成方法、装置及计算机可读存储介质
CN112395880B (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN111241843A (zh) 基于复合神经网络的语义关系推断系统和方法
CN112988964A (zh) 文本韵律边界预测的方法、装置、设备及存储介质
CN115859121B (zh) 文本处理模型训练方法及装置
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40041542

Country of ref document: HK