CN116450813B - 文本关键信息提取方法、装置、设备以及计算机存储介质 - Google Patents
文本关键信息提取方法、装置、设备以及计算机存储介质 Download PDFInfo
- Publication number
- CN116450813B CN116450813B CN202310726896.0A CN202310726896A CN116450813B CN 116450813 B CN116450813 B CN 116450813B CN 202310726896 A CN202310726896 A CN 202310726896A CN 116450813 B CN116450813 B CN 116450813B
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- sentence
- target
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 77
- 239000013598 vector Substances 0.000 claims abstract description 243
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000012216 screening Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 55
- 238000004891 communication Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012916 structural analysis Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 101100285518 Drosophila melanogaster how gene Proteins 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例涉及自然语言处理技术领域,公开了一种文本关键信息提取,该方法包括:分别确定目标文本中的各个目标句子对应的目标句子向量,得到目标文本对应的目标句子向量序列;将目标句子向量序列输入预设的预测模型,得到各个目标句子属于目标文本的关键信息的预测概率;预测模型根据预设的文本样本进行训练得到;文本样本包括样本句子向量序列、样本句子向量序列中各个样本句子向量对应的句子类型标签以及文本样本的文本类型标签;句子类型标签用于表征样本句子向量对应的样本句子是否属于文本样本的关键信息;根据预测概率对各个目标句子进行筛选,得到目标文本的关键信息。通过上述方式,本发明实施例实现了更准确的文本关键信息提取。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,具体涉及一种文本关键信息提取方法、装置、设备以及计算机存储介质。
背景技术
为了提升文本的阅读效率以及体验,通常可以对文本进行关键信息提取,提取后集中展示给用户,其中,文本可以是法律裁判文书、新闻报道或科学文献等。
现有的文本信息的关键信息的提取方式一般是通过自然语言处理领域现有的预训练语言模型,如ELMO(Embedding from Language Model,基于语言模型的词向量),GPT(Generative Pre-Trained Transformer,生成式预训练Transformer模型),BERT(Bidirectional Encoder Representation from Transformer,来自 Transformer的双向编码器表征)等完成。
发明人发现:现有的预训练语言模型在进行训练优化时,一般仅根据关键信息的分类标签信息判断分类损失,其评价维度较为单一,从而导致关键信息提取准确率较低。
发明内容
鉴于上述问题,本发明实施例提供了一种文本关键信息提取方法,用于解决现有技术中存在的文本关键信息的抽取的准确率较低的问题。
根据本发明实施例的一个方面,提供了一种文本关键信息提取方法,所述方法包括:
分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;
将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签;所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;
根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。
在一种可选的方式中,所述方法还包括:
将所述样本句子向量序列输入初始模型,得到所述样本句子向量序列对应的样本预测概率;
根据所述样本预测概率以及所述句子类型标签确定所述预测模型的句子分类损失;
根据所述样本预测概率以及所述样本句子向量序列对所述文本样本进行文本类型预测,得到所述文本样本对应的样本预测文本类型;
根据所述样本预测文本类型以及所述文本类型标签确定所述预测模型的文本分类损失;
根据所述句子分类损失以及所述文本分类损失对所述初始模型进行迭代式优化,得到所述预测模型。
在一种可选的方式中,所述方法还包括:
将所述句子概率序列与所述样本句子向量序列进行特征融合,得到样本预测文本向量;
根据所述样本预测文本向量确定所述样本预测文本类型。
在一种可选的方式中,所述方法还包括:
根据所述句子概率序列对所述样本句子向量序列进行加权处理,得到加权后样本句子向量序列;
对所述加权后样本句子向量序列进行池化处理,得到所述样本预测文本向量。
在一种可选的方式中,所述方法还包括:
依次将各个所述目标句子输入预设的预处理语言模型,得到各个所述目标句子分别对应的初始句子向量;
对所述目标文本进行文本分析,得到各个所述目标句子的文本内位置特征;
将各个所述目标句子的文本内位置特征以及所述初始句子向量进行特征融合,得到各个所述目标句子对应的所述目标句子向量;
将所述目标句子向量按照所述句子在所述目标文本中的出现顺序进行组合,得到所述目标文本对应的目标句子向量序列。
在一种可选的方式中,所述文本内位置特征包括文本内相对位置特征、所属段落语义特征;所述方法还包括:
对所述目标文本进行结构分析,分别得到各个所述目标句子在所述目标文本内的出现位置信息、所属段落;
根据所述出现位置信息确定各个目标句子的所述文本内相对位置特征;
对各个所述目标句子的所属段落包含的文本进行语义分析,得到所属段落语义特征。
在一种可选的方式中,所述预测模型包括特征提取模块以及全连接模块;所述特征提取模块用于基于注意力机制对所述目标句子向量序列进行深度特征提取,得到所述目标句子对应的句子深度特征序列;所述全连接模块用于对所述句子深度特征序列对各个所述目标句子进行分类,得到所述预测概率。
根据本发明实施例的另一方面,提供了一种文本关键信息提取装置,包括:
确定模块,用于分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;
预测模块,用于将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签;所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;
筛选模块,用于根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。
根据本发明实施例的另一方面,提供了一种文本关键信息提取设备,包括:
处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如所述的文本关键信息提取方法实施例的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使文本关键信息提取设备执行如所述的文本关键信息提取方法实施例的操作。
本发明实施例通过分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;其中,所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签。其中,所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;文本类型标签用于表征文本样本的文本内容特征的类型,其中,内容特征可以是语义特征。最后,根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。从而区别于现有只从样本句子本身的分类(即是否属于关键信息)是否准确来构造损失函数,其考虑的维度较为单一,存在无法保障预测准确率的问题,本发明实施例考虑到当针对目标文本的关键信息提取得较为准确时,那么仅根据提取出的关键信息组合得到的摘要文本的文本分类结果,与根据目标文本的文本类型识别结果应该是一致的或偏差较小,也就是说,准确率高的关键信息中应该包含了所有或大部分将目标文本与其他文本分化开来的差异性特征,由此用户仅通过阅读关键信息就能获取到原始文本中的所有重要信息。因此,本发明实施例在对预测模型进行训练时,在采用句子类型标签计算句子分类损失的基础上,还进一步地根据文本类型标签计算文本分类损失,即通过对预测模型的损失函数进行改写,根据句子分类损失和文本分类分类损失多维度地衡量句子是否为关键信息的预测损失,能够提高文本关键信息提取的准确率,从而在提升用户阅读效率的同时,避免遗漏重要信息。
更加地,在本发明再一实施例中,还依次将各个所述目标句子输入预设的预处理语言模型,得到各个所述目标句子分别对应的初始句子向量;对所述目标文本进行文本分析,得到各个所述目标句子的文本内位置特征。其中,文本内位置特征包括句子的文本内位置信息、所属段落信息等。将各个所述目标句子的文本内位置特征以及所述初始句子向量进行特征融合,得到各个所述目标句子对应的所述目标句子向量。由此区别于现有仅仅根据单一维度的句子的特征信息生成句子向量,本发明实施例在生成目标句子向量时融合了目标句子在目标文本中的多维度信息,如句子的特征向量、文本内位置信息、长度信息、所属段落的位置信息以及段落语义信息等维度,由此提升文本关键信息提取的准确率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的文本关键信息提取方法的流程示意图;
图2示出了本发明再一实施例提供的文本关键信息提取方法中的目标句子向量序列生成的流程示意图;
图3示出了本发明再一实施例提供的文本关键信息提取方法中的预测模型的结构示意图;
图4示出了本发明再一实施例提供的文本关键信息提取方法中的预测模型的训练过程示意图;
图5示出了本发明实施例提供的文本关键信息提取装置的结构示意图;
图6示出了本发明实施例提供的文本关键信息提取设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
对本发明实施例的相关名词进行说明:
语言模型 :对于任意的词序列,能够计算出这个序列是一句话的概率的模型。给定一个短语(一个词组或一句话),语言模型可以生成(预测)接下来的一个词。
预训练语言模型:指将训练好的语言模型应用到其他自然语言处理任务上。其中,预训练模型(pre-training model)是先通过一批语料进行模型训练,然后在这个初步训练好的模型基础上,再继续训练或者另作他用。预训练模型的训练和使用分别对应两个阶段:预训练阶段(pre-training)和微调(fune-tuning)阶段。预训练阶段一般会在超大规模的语料上,采用无监督(unsupervised)或者弱监督(weak-supervised)的方式训练模型,期望模型能够获得语言相关的知识,比如句法,语法知识等。微调阶段是利用预训练好的模型,去定制化地训练某些任务,使得预训练模型”更懂”这个任务。例如,利用预训练好的模型继续训练文本分类任务,将会获得比较好的一个分类结果,这是因为预训练模型已经懂得了语言的知识,在这些知识基础上去学习文本分类任务将会事半功倍。利用预训练模型去微调的一些任务(例如前述文本分类)被称为下游任务(down-stream)。例如,词嵌入技术(Word Embedding)是最早的预训练技术,不需要大规模的标注数据集,可以无监督的学习词语之间的语义相似性。随着预训练语言模型的不断发展和改进出现了ELMO、GPT以及BERT等预训练语言模型,这些模型都有着共同的特点就是通过大量预训练, 以及模型中的强大的提取信息的能力,能够得到很好的文本表示,将其应用到下游的自然语言处理任务中可以得到事半功倍的效果。
抽取式摘要生成:指通过文本的统计特征,例如词频,逆文档频率等来计算句子的重要性,从而选择出最重要的句子,作为关键信息添加到文本对应的摘要中。抽取式摘要生成可以看作是一种句子分类任务,分类得分高的成为摘要,反之则为非摘要句。
图1示出了本发明实施例提供的文本关键信息提取方法的流程图,该方法由计算机处理设备执行。该计算机处理设备可以包括手机、笔记本电脑等。如图1所示,该方法包括以下步骤:
步骤10:分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列。
其中,目标文本可以是待生成摘要的文本,摘要的生成方式可以是抽取式,目标文本可以包括法律文书、新闻报道、文献书籍等。将目标文本中包括的所有句子分别确定为目标句子,目标句子向量用于表征目标句子的句子特征信息,其中,句子特征信息可以包括目标句子的句子内容、出现位置、句子长度等多个维度的信息。需要说明的是,在出现位置这一维度下,句子特征信息可以包括目标句子在目标文本中出现的顺序先后,如在目标文本中100个句子中第5个出现,还可以包括目标句子在目标文本中所属的段落内容类型,如目标句子属于目标文本中的“背景技术”或“结论”这一内容类型下的段落中的。
具体地,目标句子向量可以通过预设的句子向量生成模型的生成,句子向量生成模型包括依次连接的预训练语言模型以及平均池化层,其中,预训练语言模型用于接收目标句子,输入目标句子内的每个词元分别对应的词向量,平均池化层用于对预训练语言模型输出的目标句子对应的词向量进行聚合,得到目标句子向量。最后将各个目标句子向量按照其对应的目标句子在目标文本中的顺序进行组合,得到目标句子向量序列。
需要说明的是,基于预训练语言模型的关键信息抽取一般会限制输入模型的文本长度,如不超过512个词元长度,对超出长度部分一般会采取截断处理的方案,这样就会导致文本信息的丢失,影响文本关键信息提取的准确率。而为了避免长度限制,对文本分段式关键信息提取处理,则又会导致无法利用完整的文本信息,因此,现有直接基于预训练语言模型进行文本关键信息提取存在因对输入文本长度限制丢失文本原始信息从而导致预测准确率较低的问题,基于这一问题,本发明实施例中不将整个目标文本直接输入预训练语言模型中来完成句子的分类,而是仅仅利用预训练语言模型来生成目标句子向量,并且在输入时,分别将各个目标句子而不是目标文本或文本段输入句子向量模型,得到各个目标句子分别对应的目标句子向量,便于后续通过预设的预测模型基于目标句子向量进行预测,由此有效地处理超长文本的摘要任务,不受预训练语言模型的输入长度限制,对超长文本摘要时可以利用完整的文本信息,而无需预训练语言模型截断文本,造成信息的丢失。
进一步地,考虑到现有仅仅根据句子的内容以及句子上下文的内容生成句子向量,其考虑到维度较为单一,忽略了在进行文本关键信息抽取时,特别是一般会存在标准模板的结构性较强的文本,如法律裁判文书、专利申请、新闻报道等,除了句子的内容外,句子的长度、出现位置等对于该句子属于关键信息的影响程度也是较大的,如就法律裁判文书这类目标文本而言,出现在“裁判结果”对应的段落中的目标句子对于用户的阅读权重,即属于关键信息的概率一般是大于出现在“基本信息”或“审判人员信息”对应的段落中的目标句子的,因此,在本发明再一个实施例中,综合考虑目标句子的内容特征、长度特征、位置特征等多维度的特征信息来融合得到目标句子向量,由此提高后续根据目标句子向量进行句子是否属于关键信息的预测的准确率。因此,步骤10还包括:
步骤101:依次将各个所述目标句子输入预设的预处理语言模型,得到各个所述目标句子分别对应的初始句子向量。
其中,预处理语言模型可以是BERT模型、ELMO模型或GPT模型等现有的具有句子向量生成功能的语言模型。
步骤102:对所述目标文本进行文本分析,得到各个所述目标句子的文本内位置特征。
其中,所述文本内位置特征用于表征句子由于其出现位置而具有的特征,其不受句子的具体内容影响,如因出现在目标文本的前30%中或因出现在目标文本的“判决结果”这一段落中而具有的特征。文本内位置特征具体可以包括文本内相对位置特征以及所属段落语义特征,其中,文本内相对位置特征用于表征目标句子在目标文本中的出现位置相对其他句子而言的特征,如相对其他句子而言,目标句子的文本内相对位置特征包括其在所有目标句子中的出现顺序,如是100个目标句子中的第10个出现中。而目标文本一般会先验地划分为多个段落,各个段落在语义逻辑上是相互关联的,因此,可以用所属段落语义特征来表征句子所出现于的段落在目标文本中的语义功能,即其所描述的内容的类型,具体地,语义功能可以用段落的标题来标识,如“判决结果”或“案情描述”等。
进一步地,为了分别得到文本内相对位置特征以及所属段落语义特征,可以对目标文本进行文本语义分析以及组成结构分析,来得到目标文本各个段落的语义功能以及各个目标句子的位置信息,因此,步骤102还包括:
步骤1021:对所述目标文本进行结构分析,分别得到各个所述目标句子在所述目标文本内的出现位置信息、所属段落。
举例说明,出现位置信息可以是目标文本共包括2045句话,而目标句子为2045句中的第534句,所属段落可以是目标句子出现在目标文本中的第二章第三小节的第二段,即“基本事实”这一标题下的段落中。
步骤1022:根据所述出现位置信息确定各个目标句子的所述文本内相对位置特征。
其中,统计所有目标句子的总数,通过目标句子的出现位置占总数的比例,得到文本内相对位置特征,如出现在目标文本的前20%或中间或后30%等。
步骤1023:对各个所述目标句子的所属段落包含的文本进行语义分析,得到所属段落语义特征。
其中,段落语义特征具体可以包括段落对应的段落标题信息等能够表征段落结构特征的信息,由于段落标题一般是对于段落内容的提炼和总结,因此,通过提取目标句子所在的段落的段落标题,得到目标句子的所属段落语义特征。举例说明,针对法律裁判文书这类目标文本,段落标题信息可以为标题、基本信息、当事人信息、基本事实、案情描述、裁判分析过程、裁判结果以及审判人员中的一项。
步骤103:将各个所述目标句子的文本内位置特征以及所述初始句子向量进行特征融合,得到各个所述目标句子对应的所述目标句子向量。
其中,可以将各个所述目标句子的文本内位置特征以及所述初始句子向量进行求和,得到各个所述目标句子对应的所述目标句子向量。需要说明的是,可选地,考虑到目标句子的长度对该目标句子是否为关键信息的概率也存在一定影响,如一般而言,长度越长的目标句子,其包括和揭示的信息也就越多,因此其为目标文本的关键信息的概率也越大。因此,还可以进一步将目标句子的长度特征与文本内位置特征以及所述初始句子向量一起进行特征融合,得到目标句子对应的目标句子向量。
步骤104:将所述目标句子向量按照所述句子在所述目标文本中的出现顺序进行组合,得到所述目标文本对应的目标句子向量序列。
步骤20:将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签;所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息。
具体地,文本类型标签用于表征文本样本的语义内容所属的类型,区别于现有的只从样本句子内容的分类(即是否属于关键信息)是否准确来构造预测模型的损失函数,其考虑的维度较为单一,存在无法保障预测准确率的问题。本发明实施例提出:当针对目标文本的关键信息提取得较为准确时,那么仅根据提取出的关键信息组合得到的摘要文本的文本分类结果,与根据目标文本的文本类型识别结果应该是一致的或偏差较小,也就是说,准确率高的关键信息中应该包含了所有或大部分将目标文本与其他文本分化开来的差异性特征,由此用户仅通过阅读关键信息就能获取到原始文本中的所有重要信息这一损失函数构造原理。即在对预测模型进行训练时,在采用句子类型标签计算句子分类损失的基础上,还进一步地根据文本类型标签计算文本分类损失,其中,文本分类损失可以是在根据预测模型针对样本句子向量序列输出的样本预测概率对该样本句子向量序列进行加权处理后,得到的样本预测文本与文本类型标签之间的距离计算得到。通过对预测模型的损失函数进行改写,根据句子分类损失和文本分类分类损失多维度地衡量句子是否为关键信息的预测损失,能够提高文本关键信息提取的准确率,从而在提升用户阅读效率的同时,避免遗漏重要信息。
具体地,所述预测模型包括特征提取模块以及全连接模块;所述特征提取模块用于基于注意力机制对所述目标句子向量序列进行深度特征提取,得到所述目标句子对应的句子深度特征序列;所述全连接模块用于对所述句子深度特征序列对各个所述目标句子进行分类,得到所述预测概率。
其中,注意力机制可以为单向注意力机制或多头注意力机制。为了在句子分类时能够同时参考该句子的上下文信息,从而提升句子分类的准确性,区别于LSTM(LongShort-Term Memory,长短期记忆人工网络)模型等采取的单向注意力机制,本发明实施例优选多头注意力机制,如特征提取模块可以采用Transformer(编码器)模型。具体地,本发明实施例中的特征提取模块可以由多个Transformer模型堆叠得到,考虑到模型的复杂度和性能,Transformer模型的数量可以为4个。全连接模块具体可以是全连接层,全连接层用于将目标句子对应的句子深度特征序列中的所有句子深度特征进行聚合,根据聚合的特征对目标句子属于关键信息的概率进行打分,得到各个目标句子的预测概率。
为了同时从句子分类准确性以及基于抽取到的关键信息反向进行文本类型预测的准确性这两个方面,多任务地对模型进行训练,在步骤20之前,针对模型进行训练的过程至少包括:
步骤201:将所述样本句子向量序列输入初始模型,得到所述样本句子向量序列对应的样本预测概率。
其中,初始模型可以为预设的机器学习模型,如RNN(Recurrent Neural Network,循环神经网络)模型等神经网络模型。样本预测概率用于表征样本句子向量序列中的各个样本句子向量对应的样本句子属于文本样本的关键信息的概率。
步骤202:根据所述样本预测概率以及所述句子类型标签确定所述预测模型的句子分类损失。
其中,计算各个样本句子向量对应的样本预测概率以及所述句子类型标签之间的第一距离,对所有样本句子向量对应的第一距离进行求和,得到预测模型的句子分类损失。
步骤203:根据所述样本预测概率以及所述样本句子向量序列对所述文本样本进行文本类型预测,得到所述文本样本对应的样本预测文本类型。
容易理解的是,在对文本样本进行抽取式摘要生成时,是对文本样本对应的关键信息进行组合得到摘要,而样本预测概率可以视作目标句子作为关键信息保留到摘要中的概率,因此,根据样本预测概率对原始输入预测模型的样本句子向量序列进行加权处理,可以得到按照样本预测概率筛选后生成的样本摘要,举例说明,当样本预测概率取值限定为0或1时,直接将样本预测概率与样本句子向量序列相乘就可以得到样本摘要。而该样本摘要的文本类型即为文本样本对应的样本预测文本类型。从而实现根据加权处理得到的样本摘要来反向预测文本样本的类型,若该文本类型预测得准确,则说明样本摘要中涵盖了使得文本样本与其他类型文本区分开来的差异化特征,该样本摘要是准确的,即样本预测概率是准确的。
因此,进一步地,步骤203还可以包括:
步骤2031:将所述句子概率序列与所述样本句子向量序列进行特征融合,得到样本预测文本向量。
其中,将句子概率序列作为权重,对样本句子向量序列进行加权融合,得到样本预测文本向量。
具体地,步骤2031还包括:
步骤310:根据所述句子概率序列对所述样本句子向量序列进行加权处理,得到加权后样本句子向量序列。
具体地,将句子概率序列与所述样本句子向量序列相乘,得到加权后样本句子向量序列。
步骤311:对所述加权后样本句子向量序列进行池化处理,得到所述样本预测文本向量。
具体地,对所述加权后样本句子向量序列进行求平均处理,得到样本预测文本向量。
步骤2032:根据所述样本预测文本向量确定所述样本预测文本类型。
其中,可以根据预设的文本分类模型对所述样本预测文本向量进行分类,得到样本预测文本类型。文本分类模型可以是全连接层。
步骤204:根据所述样本预测文本类型以及所述文本类型标签确定所述预测模型的文本分类损失。
其中,计算样本预测文本类型与文本类型标签之间的第二距离,作为预测模型的文本分类损失。
步骤205:根据所述句子分类损失以及所述文本分类损失对所述初始模型进行迭代式优化,得到所述预测模型。
其中,预测模型的优化目标可以是句子分类损失与文本分类损失的和最小,具体可以采用反向传播的方式以该优化目标为方向对初始模型进行迭代式优化,当确定模型满足预设的终止条件时,判定训练完成,得到预测模型。需要说明的是,在计算句子分类损失与文本分类损失的和时,可以根据实际需要为句子分类损失以及文本分类损失分配相应的权重,根据权重对前述第一距离和第二距离进行加权求和,得到预测模型的损失函数的值。
步骤30:根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。
其中,将预测概率大于预设概率阈值的目标句子筛选出来,添加到目标文本的关键信息中。可选地,为了进一步提升用户对于文本关键信息的阅读体验和效率,可以在目标文本中对关键信息进行高亮处理,或者将关键信息中的目标句子按照在目标文本中的出现位置顺序进行排序组合,得到目标文本对应的摘要文本进行集中展示。
在本发明的再一个实施例中,结合图2-图4对目标文本进行关键信息提取的过程整体进行说明:
首先,目标句子向量序列的生成过程可以参考图2。图2示出了本发明再一实施例提供的文本关键信息提取方法中的目标句子向量序列生成的流程示意图。
如图2所示,目标文本中包括m个目标句子,目标句子i包含n个词元(Token),将目标句子i对应的词元序列[Toki,1,Toki,2,...,Toki,n]输入预设的预训练语言模型,预训练语言模型对词元序列[Toki,1,Toki,2,...,Toki,n]对应的词向量嵌入[Ei,1,Ei,2,...,Ei,n]进行转化,得到目标句子i对应的词向量序列[Ti,1,Ti,2,...,Ti,n]输出,再对词向量序列[Ti,1,Ti,2,...,Ti,n]进行平均池化操作生成目标句子i对应的初始句子向量Veci,由此得到目标文本对应的初始句子向量序列[Vec1,Vec2,...,Vecm]。
随后,各个目标句子对应的预测概率的确定过程可以参考图3。图3示出了本发明再一实施例提供的文本关键信息提取方法中的预测模型的结构示意图。
如图3所示,预测模型包括4层Transformer编码器以及全连接层。首先,针对编码器的输入数据进行构造:将初始句子向量序列 [Vec1,Vec2,...,Vecm]与各个目标句子分别对应的位置信息、长度信息、所属段落的位置信息以及所属段落的语义信息进行求和,得到目标句子向量序列[Input1,Input2,...,Inputm]作为预测模型的输入数据。
[Input1,Input2,...,Inputm]=[Vec1,Vec2,...,Vecm]+[Pos1,Pos2,...,Posm]+[Len1,Len2,...,Lenm]+[Para1,Para2,...,Param]+[Stru1,Stru2,...,Strum]。
其中,Veci表示目标句子i的句子向量,Posi表示目标句子i的位置嵌入,根据目标句子的位置信息计算得到,Leni表示目标句子i的长度嵌入,根据目标句子i的长度信息计算得到。Parai表示目标句子i所属的段落的位置信息。Strui表示目标句子i所属段落的段落语义信息。特别地,当目标文本为法律裁判文书时,语义信息可以为标题、基本信息、当事人信息、基本事实、案情描述、裁判分析过程、裁判结果以及审判人员中的一项。对句子长度进行归一化处理如下:句子长度嵌入长度嵌入的计算公式为:Leni=len(sent)/10,其中,10表示区间大小,位于相同长度区间的句子共享同一个长度嵌入,len(sent)表示目标句子的句子长度。
在完成[Input1,Input2,...,Inputm]这一输入数据的构造之后,如图3所示,预测模型包括深度特征提取模块以及全连接层,其中,将4个基于多头注意力机制的Transformer模型堆叠得到深度特征提取模块,通过深度特征提取模块对[Input1,Input2,...,Inputm]进行深度特征提取,得到句子深度特征序列,将句子深度特征序列输入全连接层,得到预测概率序列[p1,p2,...,pm],其中,pi表示目标句子i属于目标文本的关键信息的预测概率,范围可以是[0,1]。
进一步地,针对图3对应的预测模型的训练过程可以参考图4所示。图4示出了本发明再一实施例提供的文本关键信息提取方法中的预测模型的训练过程示意图。如图4所示,预测模型的训练过程中包含两个优化任务,分别对应两个损失函数,其中,句子分类任务用于在得到样本预测概率之后,根据样本预测概率以及所述句子类型标签之间的第一距离,确定所述预测模型的句子分类损失L1,L1=[y1,y2,...,ym],其中,yi为样本句子i对应的句子分类损失。
文本分类任务用于在得到样本预测概率之后,将样本预测概率与样本句子向量序列相乘(即M1操作)得到加权后样本句子向量序列[Input1’,Input2’,...,Inputm’]。再对该加权后样本句子向量序列[Input1’,Input2’,...,Inputm’]进行平均池化处理,得到样本预测文本向量[q1,q2,...,qm],最后使用全连接层对样本预测文本向量进行分类得到样本预测文本类型,再根据文本标签与样本预测文本类型之间的第二距离计算文本分类损失L2,L2=[c1,c2,...,cm],其中,ci为目标句子i对应的分文分类损失。总损失L根据句子分类损失与文本分类损失求和操作(即M2操作)得到,即L=L1+L2;最后根据L的值反向传播更新模型参数,得到训练完成的预测模型。
本发明实施例提供的文本关键信息提取方法通过分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;其中,所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签。其中,所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;文本类型标签用于表征文本样本的文本内容特征的类型,其中,内容特征可以是语义特征。最后,根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。从而区别于现有只从样本句子本身的分类(即是否属于关键信息)是否准确来构造损失函数,其考虑的维度较为单一,存在无法保障预测准确率的问题,本发明实施例考虑到当针对目标文本的关键信息提取得较为准确时,那么仅根据提取出的关键信息组合得到的摘要文本的文本分类结果,与根据目标文本的文本类型识别结果应该是一致的或偏差较小,也就是说,准确率高的关键信息中应该包含了所有或大部分将目标文本与其他文本分化开来的差异性特征,由此用户仅通过阅读关键信息就能获取到原始文本中的所有重要信息。因此,本发明实施例在对预测模型进行训练时,在采用句子类型标签计算句子分类损失的基础上,还进一步地根据文本类型标签计算文本分类损失,其中,文本分类损失可以是在根据预测模型针对样本句子向量序列输出的样本预测概率对该样本句子向量序列进行加权处理后,得到的样本预测文本与文本类型标签之间的距离计算得到。本发明实施例通过对预测模型的损失函数进行改写,根据句子分类损失和文本分类分类损失多维度地衡量句子是否为关键信息的预测损失,能够提高文本关键信息提取的准确率,从而在提升用户阅读效率的同时,避免遗漏重要信息。
图5示出了本发明实施例提供的文本关键信息提取装置的结构示意图。如图5所示,该装置40包括:确定模块401、预测模块402和筛选模块403。
其中,确定模块401,用于分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;
预测模块402,用于将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签;所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;
筛选模块403,用于根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。
本发明实施例提供的文本关键信息提取装置的操作过程与前述方法实施例大致相同,不再赘述。
本发明实施例提供的文本关键信息提取装置通过分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;其中,所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签。其中,所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;文本类型标签用于表征文本样本的文本内容特征的类型,其中,内容特征可以是语义特征。最后,根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。从而区别于现有只从样本句子本身的分类(即是否属于关键信息)是否准确来构造损失函数,其考虑的维度较为单一,存在无法保障预测准确率的问题,本发明实施例考虑到当针对目标文本的关键信息提取得较为准确时,那么仅根据提取出的关键信息组合得到的摘要文本的文本分类结果,与根据目标文本的文本类型识别结果应该是一致的或偏差较小,也就是说,准确率高的关键信息中应该包含了所有或大部分将目标文本与其他文本分化开来的差异性特征,由此用户仅通过阅读关键信息就能获取到原始文本中的所有重要信息。因此,本发明实施例在对预测模型进行训练时,在采用句子类型标签计算句子分类损失的基础上,还进一步地根据文本类型标签计算文本分类损失,其中,文本分类损失可以是在根据预测模型针对样本句子向量序列输出的样本预测概率对该样本句子向量序列进行加权处理后,得到的样本预测文本与文本类型标签之间的距离计算得到。本发明实施例通过对预测模型的损失函数进行改写,根据句子分类损失和文本分类分类损失多维度地衡量句子是否为关键信息的预测损失,能够提高文本关键信息提取的准确率,从而在提升用户阅读效率的同时,避免遗漏重要信息。
图6示出了本发明实施例提供的文本关键信息提取设备的结构示意图,本发明具体实施例并不对文本关键信息提取设备的具体实现做限定。
如图6所示,该文本关键信息提取设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述用于文本关键信息提取方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机可执行指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。文本关键信息提取设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以被处理器502调用使文本关键信息提取设备执行以下操作:
分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;
将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签;所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;
根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。
本发明实施例提供的文本关键信息提取设备的操作过程与前述方法实施例大致相同,不再赘述。
本发明实施例提供的文本关键信息提取设备通过分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;其中,所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签。其中,所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;文本类型标签用于表征文本样本的文本内容特征的类型,其中,内容特征可以是语义特征。最后,根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。从而区别于现有只从样本句子本身的分类(即是否属于关键信息)是否准确来构造损失函数,其考虑的维度较为单一,存在无法保障预测准确率的问题,本发明实施例考虑到当针对目标文本的关键信息提取得较为准确时,那么仅根据提取出的关键信息组合得到的摘要文本的文本分类结果,与根据目标文本的文本类型识别结果应该是一致的或偏差较小,也就是说,准确率高的关键信息中应该包含了所有或大部分将目标文本与其他文本分化开来的差异性特征,由此用户仅通过阅读关键信息就能获取到原始文本中的所有重要信息。因此,本发明实施例在对预测模型进行训练时,在采用句子类型标签计算句子分类损失的基础上,还进一步地根据文本类型标签计算文本分类损失,其中,文本分类损失可以是在根据预测模型针对样本句子向量序列输出的样本预测概率对该样本句子向量序列进行加权处理后,得到的样本预测文本与文本类型标签之间的距离计算得到。本发明实施例通过对预测模型的损失函数进行改写,根据句子分类损失和文本分类分类损失多维度地衡量句子是否为关键信息的预测损失,能够提高文本关键信息提取的准确率,从而在提升用户阅读效率的同时,避免遗漏重要信息。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在文本关键信息提取设备上运行时,使得所述文本关键信息提取设备执行上述任意方法实施例中的文本关键信息提取方法。
可执行指令具体可以用于使得文本关键信息提取设备执行以下操作:
分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;
将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签;所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;
根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。
本发明实施例提供的计算机可读存储介质存储的可执行指令的操作过程与前述方法实施例大致相同,不再赘述。
本发明实施例提供的计算机可读存储介质存储的可执行指令通过分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;其中,所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签。其中,所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;文本类型标签用于表征文本样本的文本内容特征的类型,其中,内容特征可以是语义特征。最后,根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。从而区别于现有只从样本句子本身的分类(即是否属于关键信息)是否准确来构造损失函数,其考虑的维度较为单一,存在无法保障预测准确率的问题,本发明实施例考虑到当针对目标文本的关键信息提取得较为准确时,那么仅根据提取出的关键信息组合得到的摘要文本的文本分类结果,与根据目标文本的文本类型识别结果应该是一致的或偏差较小,也就是说,准确率高的关键信息中应该包含了所有或大部分将目标文本与其他文本分化开来的差异性特征,由此用户仅通过阅读关键信息就能获取到原始文本中的所有重要信息。因此,本发明实施例在对预测模型进行训练时,在采用句子类型标签计算句子分类损失的基础上,还进一步地根据文本类型标签计算文本分类损失,其中,文本分类损失可以是在根据预测模型针对样本句子向量序列输出的样本预测概率对该样本句子向量序列进行加权处理后,得到的样本预测文本与文本类型标签之间的距离计算得到。本发明实施例通过对预测模型的损失函数进行改写,根据句子分类损失和文本分类分类损失多维度地衡量句子是否为关键信息的预测损失,能够提高文本关键信息提取的准确率,从而在提升用户阅读效率的同时,避免遗漏重要信息。
本发明实施例提供一种文本关键信息提取装置,用于执行上述文本关键信息提取方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使文本关键信息提取设备执行上述任意方法实施例中的文本关键信息提取方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的文本关键信息提取方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (7)
1.一种文本关键信息提取方法,其特征在于,所述方法包括:
分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;其中,将初始句子向量序列 与各个所述目标句子分别对应的位置信息、长度信息、所属段落的位置信息以及所属段落的语义信息进行求和,得到所述目标句子向量序列;
将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签;所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;
根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息;
在所述将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率之前,包括:
将所述样本句子向量序列输入初始模型,得到所述样本句子向量序列对应的样本预测概率;
根据所述样本预测概率以及所述句子类型标签确定所述预测模型的句子分类损失;其中,计算各个样本句子向量对应的样本预测概率以及所述句子类型标签之间的第一距离,对所有样本句子向量对应的第一距离进行求和,得到预测模型的句子分类损失;
根据所述样本预测概率以及所述样本句子向量序列对所述文本样本进行文本类型预测,得到所述文本样本对应的样本预测文本类型;其中,所述根据所述样本预测概率以及所述样本句子向量序列对所述文本样本进行文本类型预测,得到所述文本样本对应的样本预测文本类型,包括:
将句子概率序列与所述样本句子向量序列进行特征融合,得到样本预测文本向量;其中,所述将所述句子概率序列与所述样本句子向量序列进行特征融合,得到样本预测文本向量,包括:根据所述句子概率序列对所述样本句子向量序列进行加权处理,得到加权后样本句子向量序列;其中,将句子概率序列与所述样本句子向量序列相乘,得到加权后样本句子向量序列;对所述加权后样本句子向量序列进行池化处理,得到所述样本预测文本向量;
根据所述样本预测文本向量确定所述样本预测文本类型;
根据所述样本预测文本类型以及所述文本类型标签确定所述预测模型的文本分类损失;
根据所述句子分类损失以及所述文本分类损失对所述初始模型进行迭代式优化,得到所述预测模型;在对所述文本样本进行抽取式摘要生成时,是对所述文本样本对应的关键信息进行组合得到摘要,样本预测概率为目标句子作为关键信息保留到摘要中的概率,根据样本预测概率对原始输入预测模型的样本句子向量序列进行加权处理,得到按照样本预测概率筛选后生成的样本摘要;样本摘要的文本类型为文本样本对应的样本预测文本类型,以实现根据加权处理得到的样本摘要来反向预测文本样本的类型,若所述文本类型预测得准确,则说明样本摘要中涵盖了使得文本样本与其他类型文本区分开来的差异化特征。
2.根据权利要求1所述的方法,其特征在于,所述分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列,包括:
依次将各个所述目标句子输入预设的预处理语言模型,得到各个所述目标句子分别对应的初始句子向量;
对所述目标文本进行文本分析,得到各个所述目标句子的文本内位置特征;
将各个所述目标句子的文本内位置特征以及所述初始句子向量进行特征融合,得到各个所述目标句子对应的所述目标句子向量;
将所述目标句子向量按照所述句子在所述目标文本中的出现顺序进行组合,得到所述目标文本对应的目标句子向量序列。
3.根据权利要求2所述的方法,其特征在于,所述文本内位置特征包括文本内相对位置特征、所属段落语义特征;所述对所述目标文本进行文本分析,得到各个所述目标句子的文本内位置特征,包括:
对所述目标文本进行结构分析,分别得到各个所述目标句子在所述目标文本内的出现位置信息、所属段落;
根据所述出现位置信息确定各个目标句子的所述文本内相对位置特征;
对各个所述目标句子的所属段落包含的文本进行语义分析,得到所属段落语义特征。
4.根据权利要求1所述的方法,其特征在于,所述预测模型包括特征提取模块以及全连接模块;所述特征提取模块用于基于注意力机制对所述目标句子向量序列进行深度特征提取,得到所述目标句子对应的句子深度特征序列;所述全连接模块用于对所述句子深度特征序列对各个所述目标句子进行分类,得到所述预测概率。
5.一种文本关键信息提取装置,其特征在于,所述装置包括:
确定模块,用于分别确定目标文本中的各个目标句子对应的目标句子向量,得到所述目标文本对应的目标句子向量序列;其中,将初始句子向量序列与各个所述目标句子分别对应的位置信息、长度信息、所属段落的位置信息以及所属段落的语义信息进行求和,得到所述目标句子向量序列;
预测模块,用于将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率;所述预测模型根据预设的文本样本进行训练得到;所述文本样本包括样本句子向量序列、所述样本句子向量序列中各个样本句子向量对应的句子类型标签以及所述文本样本的文本类型标签;所述句子类型标签用于表征所述样本句子向量对应的样本句子是否属于所述文本样本的关键信息;在所述将所述目标句子向量序列输入预设的预测模型,得到各个所述目标句子属于所述目标文本的关键信息的预测概率之前,包括:将所述样本句子向量序列输入初始模型,得到所述样本句子向量序列对应的样本预测概率;根据所述样本预测概率以及所述句子类型标签确定所述预测模型的句子分类损失;其中,计算各个样本句子向量对应的样本预测概率以及所述句子类型标签之间的第一距离,对所有样本句子向量对应的第一距离进行求和,得到预测模型的句子分类损失;根据所述样本预测概率以及所述样本句子向量序列对所述文本样本进行文本类型预测,得到所述文本样本对应的样本预测文本类型;其中,所述根据所述样本预测概率以及所述样本句子向量序列对所述文本样本进行文本类型预测,得到所述文本样本对应的样本预测文本类型,包括:将句子概率序列与所述样本句子向量序列进行特征融合,得到样本预测文本向量;其中,所述将所述句子概率序列与所述样本句子向量序列进行特征融合,得到样本预测文本向量,包括:根据所述句子概率序列对所述样本句子向量序列进行加权处理,得到加权后样本句子向量序列;其中,将句子概率序列与所述样本句子向量序列相乘,得到加权后样本句子向量序列;对所述加权后样本句子向量序列进行池化处理,得到所述样本预测文本向量;根据所述样本预测文本向量确定所述样本预测文本类型;根据所述样本预测文本类型以及所述文本类型标签确定所述预测模型的文本分类损失;根据所述句子分类损失以及所述文本分类损失对所述初始模型进行迭代式优化,得到所述预测模型;在对所述文本样本进行抽取式摘要生成时,是对所述文本样本对应的关键信息进行组合得到摘要,样本预测概率为目标句子作为关键信息保留到摘要中的概率,根据样本预测概率对原始输入预测模型的样本句子向量序列进行加权处理,得到按照样本预测概率筛选后生成的样本摘要;样本摘要的文本类型为文本样本对应的样本预测文本类型,以实现根据加权处理得到的样本摘要来反向预测文本样本的类型,若所述文本类型预测得准确,则说明样本摘要中涵盖了使得文本样本与其他类型文本区分开来的差异化特征;
筛选模块,用于根据所述预测概率对各个所述目标句子进行筛选,得到所述目标文本的关键信息。
6.一种文本关键信息提取设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-4任意一项所述的文本关键信息提取方法的操作。
7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在文本关键信息提取设备上运行时,使得文本关键信息提取设备执行如权利要求1-4任意一项所述的文本关键信息提取方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310726896.0A CN116450813B (zh) | 2023-06-19 | 2023-06-19 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310726896.0A CN116450813B (zh) | 2023-06-19 | 2023-06-19 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116450813A CN116450813A (zh) | 2023-07-18 |
CN116450813B true CN116450813B (zh) | 2023-09-19 |
Family
ID=87132484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310726896.0A Active CN116450813B (zh) | 2023-06-19 | 2023-06-19 | 文本关键信息提取方法、装置、设备以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450813B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894089B (zh) * | 2023-08-11 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置、设备、存储介质及产品 |
CN117421595B (zh) * | 2023-10-25 | 2024-08-27 | 广东技术师范大学 | 一种基于深度学习技术的系统日志异常检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880611A (zh) * | 2011-07-14 | 2013-01-16 | 腾讯科技(深圳)有限公司 | 一种语言建模方法及语言建模装置 |
CN110781276A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN111339751A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种文本关键词处理方法、装置及设备 |
CN113064964A (zh) * | 2021-03-22 | 2021-07-02 | 广东博智林机器人有限公司 | 文本分类方法、模型训练方法、装置、设备以及存储介质 |
CN114385806A (zh) * | 2021-11-30 | 2022-04-22 | 航天信息股份有限公司 | 一种基于深度学习的文本摘要方法及系统 |
WO2022241913A1 (zh) * | 2021-05-17 | 2022-11-24 | 同济大学 | 基于异质图的文本摘要方法及装置、存储介质和终端 |
CN115587173A (zh) * | 2022-11-07 | 2023-01-10 | 上海销氪信息科技有限公司 | 一种对话文本预测方法、装置、设备、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328916A (zh) * | 2021-12-21 | 2022-04-12 | 科大讯飞股份有限公司 | 事件抽取、及其模型的训练方法,及其装置、设备和介质 |
-
2023
- 2023-06-19 CN CN202310726896.0A patent/CN116450813B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880611A (zh) * | 2011-07-14 | 2013-01-16 | 腾讯科技(深圳)有限公司 | 一种语言建模方法及语言建模装置 |
CN110781276A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN111339751A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种文本关键词处理方法、装置及设备 |
CN113064964A (zh) * | 2021-03-22 | 2021-07-02 | 广东博智林机器人有限公司 | 文本分类方法、模型训练方法、装置、设备以及存储介质 |
WO2022241913A1 (zh) * | 2021-05-17 | 2022-11-24 | 同济大学 | 基于异质图的文本摘要方法及装置、存储介质和终端 |
CN114385806A (zh) * | 2021-11-30 | 2022-04-22 | 航天信息股份有限公司 | 一种基于深度学习的文本摘要方法及系统 |
CN115587173A (zh) * | 2022-11-07 | 2023-01-10 | 上海销氪信息科技有限公司 | 一种对话文本预测方法、装置、设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116450813A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824815B2 (en) | Document classification using attention networks | |
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
WO2020114429A1 (zh) | 关键词提取模型训练方法、关键词提取方法及计算机设备 | |
CN116450813B (zh) | 文本关键信息提取方法、装置、设备以及计算机存储介质 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN112183994B (zh) | 一种设备状态的评估方法、装置、计算机设备和存储介质 | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN112084334B (zh) | 语料的标签分类方法、装置、计算机设备及存储介质 | |
CN114780727A (zh) | 基于强化学习的文本分类方法、装置、计算机设备及介质 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN113609284A (zh) | 一种融合多元语义的文本摘要自动生成方法及装置 | |
CN116822651A (zh) | 基于增量学习的大模型参数微调方法、装置、设备及介质 | |
CN115455171A (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN111259147A (zh) | 基于自适应注意力机制的句子级情感预测方法及系统 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN112417890B (zh) | 一种基于多样化语义注意力模型的细粒度实体分类方法 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN111930944B (zh) | 文件标签分类方法及装置 | |
CN114022192A (zh) | 一种基于智能营销场景的数据建模方法及系统 | |
CN116975400B (zh) | 一种数据分类分级方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |