CN117034948A

CN117034948A - 基于多特征自适应融合的段落识别方法、系统及存储介质

Info

Publication number: CN117034948A
Application number: CN202310970091.0A
Authority: CN
Inventors: 冯卫强; 张友豪; 吴彦儒; 徐旺
Original assignee: Hefei Da Zhi Cai Hui Data Technology Co ltd
Current assignee: Hefei Da Zhi Cai Hui Data Technology Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-11-10
Anticipated expiration: 2043-08-03
Also published as: CN117034948B

Abstract

本发明涉及文本处理技术领域，公开了基于多特征自适应融合的段落识别方法、系统及存储介质。该段落识别方法首先构建段落识别数据集合，然后分别获取文本语义特征和文本规则特征，再通过注意力机制自适应融合语义与规则特征，最后利用融合后的全局特征进行段落识别。本发明在处理段落识别任务时，将其转化为判断相邻文本片段是否连续的二元分类问题，简化了任务的复杂度，提高段落识别效率。结合了局部语义连贯性以及额外的规则特征。在综合利用语义与规则特征的前提下，引入自适应融合机制，从而获得有效的数据特征表示，进而提高识别精度。

Description

基于多特征自适应融合的段落识别方法、系统及存储介质

技术领域

本发明涉及文本处理技术领域，特别是涉及一种基于多特征自适应融合的段落识别方法，还涉及应用该段落识别方法的段落识别系统和计算机可读存储介质。

背景技术

上市公司每年都会公开大量的文档来向公众说明企业的经营状况。对这些文档进行关键信息抽取，可以更加全面地了解上市企业的现状与发展前景，从而帮助用户进行投资决策。在这些文档中，包含大量的PDF以及扫描件文档，这些文档本身不包含任何的结构信息，对后续的文档处理带来了极大的困扰。在所有的文档结构信息中，段落信息显得尤为重要。段落是对文本语义的划分，一方面可以使得文章行文更有条理，方便读者进行阅读理解；另一方面可以形成不同的语义簇，帮助用户据此缩小文本解析范围，提高信息抽取效率。如何获取PDF等文档的段落信息，是一个亟需解决的问题。

针对这一问题，现有的方法大多从规则层面出发，通过一系列的规则特征，例如是否缩进、字体大小等进行段落识别。但由于PDF文档格式繁杂，且文档质量良莠不齐，只通过规则信息无法对段落进行准确划分。此外，有部分人员通过句子级的序列标注方法，舍弃了质量不定的规则信息，利用文本的语义信息进行段落识别。但该方法仍然存在缺陷。一方面，不能因为规则信息存在质量问题而舍弃，这仍然是划分段落的重要特征；另一方面，句子级别的序列标注方法会显著地增加模型的资源占用，同时也延长了模型的推理时间。少数方法虽然提出了综合利用语义与规则特征，但并没有形成统一的框架，分阶段式的策略严重损害了模型的精度。因此，如何进行准确的段落识别，仍然是一个需要研究的问题。

发明内容

为了克服现有技术中段落识别的效率和精度有待提高的技术问题，本发明提出了一种基于多特征自适应融合的段落识别方法、系统及存储介质。

为实现上述目的，本发明公开一种基于多特征自适应融合的段落识别方法，包括如下步骤：

S1.将相邻的一对文本片段作为一个样本，分别获取每个样本即每个文本片段对的文本信息、规则信息和标签信息，由此构建段落识别数据集合。

S2.获取文本信息的文本语义特征。

S3.获取规则信息的总体规则特征，总体规则特征由符号特征、字号特征、位置特征、起始字符特征和字符数特征构成。

S4.采用注意力机制自适应融合文本语义特征和总体规则特征，得到全局特征。

S5.根据融合后的全局特征训练得到最优识别模型，并利用最优识别模型对所有相邻文本片段的连续性进行判断，得到段落识别结果。

作为上述方案的进一步改进，S1包括以下步骤：

S11.构建段落识别数据的文本信息集合T，T表示为：

T＝{t₁,t₂,···,t_k,···,t_K}

其中，t_k表示第k个样本的文本信息，K为样本总数。文本信息t_k由一对文本片段组成，记为文段片段/>包含的单词记为/> 表示文本信息t_k中的文本片段/>中的第n个文本词，N表示文本信息的最大词汇长度。

S12.构建段落识别数据的的规则信息集合R，R表示为：

R＝{U₁,U₂,···,U_k,···,U_K}

其中，U_k表示第k个样本的规则信息。规则信息U_k由一对规则描述组成，记为对应于文本片段对/>按照规则类型，规则描述/>划分为符号、字号、位置、起始字符以及字符数五种特征，记为/> 和/>分别表示/>中的符号信息、字号信息、位置信息、起始字符信息和字符数信息。

S13.构建段落识别数据的标签信息集合Λ，Λ表示为：

Λ＝{Λ₁,Λ₂,···,Λ_k,···,Λ_K}

其中，Λ_k∈{0,1}表示第k个样本的标签信息，当Λ_k＝0时表示文本片段对不连续，当Λ_k＝1时表示文本片段对/>连续。

S14.由文本信息集合T、则信息集合R和标签信息集合Λ构建段落识别数据集合A＝{T,R,Λ}。

作为上述方案的进一步改进，S2包括以下步骤：

S21.将每个样本的文本信息所包含的文本片段对进行拼接，同时添加开始字符、间隔字符以及结束字符，进而得到文本序列。其中，添加字符的方法为：将间隔字符添加在相邻的两个文本片段之间，将开始字符和结束字符分别添加在相邻的两个文本片段前后。

S22.采用预训练语言模型对文本序列进行语义特征提取，得到相应样本的文本语义特征。

作为上述方案的进一步改进，S3包括以下步骤：

依次获取每个样本的符号特征、字号特征、位置特征、起始字符特征、字符数特征。

利用深度神经网络融合每个样本的所有规则特征，从而得到每个样本的总体规则特征v_R,k。

作为上述方案的进一步改进，步骤S3中，

在获取符号特征时，将二元指示变量作为第k个样本中第i个文本片段的符号信息/>的特征表示，记为/>其中，/>表示第i个文本片段是否以符号结尾，/>表示第i个文本片段是否以含有结束语义的符号结尾。第k个样本的符号特征表示为/>

在获取字号特征时，将数值变量作为第k个样本中第i个文本片段的字号信息/>的特征表示，记为/>其中，/>表示第i个文本片段中所有字符的平均宽度，/>表示第i个文本片段中所有字符的平均高度。

第k个样本的字号特征表示为

在获取位置特征时，将文本页面坐标化，以坐标变量作为第k个样本中第i个文本片段的位置信息/>的特征表示，记为其中，/>表示第i个文本片段左上角的位置坐标，/>表示第i个文本片段右上角的位置坐标，/>表示第i个文本片段左下角的位置坐标，/>表示第i个文本片段右下角的位置坐标。第k个样本的位置特征可表示为/>

在获取起始字符数特征时，取所有文本片段前三个字符构建起始字符集合C，同时建立索引字典。将数值变量作为第k个样本中第i个文本片段的起始字符信息/>的特征表示，记为/>其中，/> 分别表示第i个文本片段中前一、二、三个字符的索引值。即第k个样本的起始字符特征可表示为

在获取字符数特征时，将数值变量作为第k个样本中第i个文本片段的字符数信息/>的特征表示，记为/>其中，/>表示第i个文本片段中的字符总数。第k个样本的字符数特征表示为/>

作为上述方案的进一步改进，在得到总体规则特征之前，还利用以下公式得到神经网络中第j层输出的中间特征v_j,R,k，公式为：

v_j,R,k＝GeLU(W_j·v_j-1,R,k+b_j)

式中，GeLU表示高斯误差线性单元激活函数。W_j表示中间特征v_j,R,k的权重矩阵。b_j表示中间特征v_j,R,k的偏置向量。j＝1,2,…,J，J表示深度神经网络的层数。当j＝1时，v_0,R,k为一个由第k个样本的符号特征、字号特征、位置特征、起始字符特征、字符数特征拼接得到的初始特征。

作为上述方案的进一步改进，S4中，注意力机制的公式如下：

式中，v_s,k∈S＝{v_T,k,v_R,k}表示文本语义特征或总体规则特征。为v_s,k的隐特征表示。W_s为/>的权重矩阵。b_s为/>的偏置向量。α_s,k为v_s,k的注意力得分。W_α为α_s,k的权重矩阵。/>为全局特征。

作为上述方案的进一步改进，S5包括以下步骤：

S51.将全局特征输入到一个由分类器构成的预测层，从而得到相邻文本片段是否连续的概率分布。分类器的表达公式为：

式中，为概率分布。W_p1和W_p2为分类器的权重矩阵。b_p表示偏差向量。/>为全局特征。

S52.采用如下公式所示的交叉熵函数作为目标函数J：

式中，N表示段落识别数据集合中作为训练集的数据条数，表示训练集中第n条数据的实际标签λ所对应的预测概率，λ∈{0,1}。

S53.设置最大迭代次数，利用反向传播和梯度下降法对目标函数J进行训练。当迭代次数达到最大迭代次数时停止训练，使得目标函数J达到最小，从而得到最优识别模型。

S54.将所有文本片段按照顺序组成文本片段对输入最优识别模型，对所有相邻文本片段进行连续性判断，从而获取段落识别结果。

本发明还公开一种基于多特征自适应融合的段落识别系统，其应用上述基于多特征自适应融合的段落识别方法。段落识别系统包括：数据获取模块、特征提取模块以及段落判断模块。

数据获取模块用于构建段落识别数据集合，段落识别数据集合包括文本信息集合和规则信息集合。

特征提取模块用于获取文本信息的文本语义特征，以及规则信息的总体规则特征。总体规则特征由符号特征、字号特征、位置特征、起始字符特征和字符数特征构成。

段落判断模块用于根据融合后的全局特征训练得到最优识别模型，并利用最优识别模型对所有相邻文本片段的连续性进行判断，得到段落识别结果。

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，其特征在于，程序被处理器执行时，实现上述基于多特征自适应融合的段落识别方法的步骤。

与现有技术相比，本发明的有益效果在于：

(1)、该段落识别方法通过将段落识别问题转化为判断相邻文本片段是否连续的二元分类问题，极大地简化了任务的复杂度，提高段落识别效率。同时，综合考虑语义与规则信息，以局部语义连贯性为主，辅以额外的规则特征，显著丰富了模型所利用的信息范围。在此基础上，本发明提出了一个端到端的段落识别框架，有效提取并融合语义与规则特征，从而提高了段落识别任务的精度，因此在实际应用中更方便、更有价值。

(2)、该段落识别方法采用预训练语言模型来提取文本语义特征，利用NSP任务形式使得文本语义提取任务在形式上与预训练任务对齐，从而更好地使用预训练模型中丰富的先验知识，对文本进行更加准确的语义表征，同时兼具文本片段间的连续性信息，加强语义特征的准确性。

(3)、该段落识别方法效提取并融合多种规则特征，通过识别并提取多种与段落识别任务强相关的规则信息，利用深度神经网络建模不同规则特征的交互融合，将多种规则信息映射到同一特征空间中，得到每条数据的规则特征表示。相比于传统的加权和与内积的融合方式，该方法能够更深层次地融合不同规则信息，从而得到更加全面有效的规则特征表示。

(4)、本发明提出的基于注意力机制的自适应融合机制，可以根据特定样本的不同语义与规则特征，自动对二者赋予相应的权重，进而获得较为精准的全局表示。有效处理了可能存在的语义特征学习不明或者规则特征错误的情况。

(5)、该段落识别方法通过提取文本片段的符号特征、字号特征、位置特征、起始字符数特征、总字符数特征，从而分别为判别文本描述是否结束、是否属于标题等特定文本、是否属于新段落或起始处、是否为单独段落等提供有效的依据，达到综合提升段落识别精度的效果。

(6)、该段落识别系统以及计算机可读存储介质可应用上述段落识别方法，其产生的有益效果与上述段落识别方法的有益效果相同，在此不再赘述。

附图说明

图1为本发明实施例1中基于多特征自适应融合的段落识别方法的流程图；

图2为本发明实施例1中基于多特征自适应融合的段落识别方法的框架图；

图3为本发明实施例1中利用全局特征进行段落识别的子步骤的流程图；

图4为本发明实施例2中基于多特征自适应融合的段落识别系统的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1和图2，本实施例提供一种基于多特征自适应融合的段落识别方法，包括步骤S1～S5。

S1.构建段落识别数据集合A，段落识别数据集合A包括文本信息集合和规则信息集合，还可以包括标签信息集合。具体地，步骤S1可包括以下步骤，即S11～S14。

S11.构建段落识别数据的文本信息集合T，表示为：

T＝{t₁,t₂,···,t_k,···,t_K}

其中，t_k表示第k个样本的文本信息，K为样本总数；文本信息t_k由一对文本片段组成，记为文段片段/>包含的单词记为/> 表示文本信息t_k中的文本片段/>中的第n个文本词，N表示文本信息的最大词汇长度。

本实施例中，采用PDF文档作为数据来源，可通过PDFbox等开源PDF文件解析框架，获取PDF文件中的文本信息，并以每一行数据作为一个文本片段，同时按照行数据在文档中的顺序，依次将相邻的文本行组成文本片段对。当然，在其他一些实施例中，也可直接采用Word文档，或其他格式的文档。需要说明的是，单个文本片段指的是连续且同属于一个段落的文本序列，在本实施例中即指PDF文件中的每一行数据。在其他实施例中，也可以由多个连续的句子组成文本片段，还可以是已确定同属于一个段落的多行数据组成一个文本片段。

S12.构建段落识别数据的的规则信息集合R，表示为：

R＝{U₁,U₂,···,U_k,···,U_K}

其中，U_k表示第k个样本的规则信息；规则信息U_k由一对规则描述组成，记为对应于文本片段对/>按照规则类型，规则描述/>划分为符号、字号、位置、起始字符以及字符数五种特征，记为/> 和/>分别表示/>中的符号信息、字号信息、位置信息、起始字符信息和字符数信息。

在本实施例中，字号、位置规则信息可通过PDFbox等开源框架获取，符号、起始字符、字符数规则信息通过对相应的文本片段进行规则抽取而获得。

S13.构建段落识别数据的标签信息集合Λ，表示为：

Λ＝{Λ₁,Λ₂,···,Λ_k,···,Λ_K}

本实施例中，标签信息可通过人工标注获得。

在本实施例中，由于上述文本片段对的构造方法以及文档撰写的默认规则问题，导致实际数据集合A中存在的正样本数远大于负样本数(正样本为连续，负样本为非连续)，造成数据不平衡，极易使得模型偏向于正类样本，做出错误推断；为缓解该问题，本实施例通过对数据集合中的文本片段对进行随机打乱组合方法来构建相应负例；同时由于在实际应用过程中，PDF文件的质量无法保证，可能由于撰写人员的不同而在规则信息的表达上存在差异，甚至出现错误的规则描述，导致规则信息的质量参差不齐，为了缓解该问题，同时让模型适应该种情况，本实施例同样构造了一定比例的无规则、错规则信息数据。

S2.获取文本信息的文本语义特征。具体地，S2可包括步骤S21～S22。

S21.对第k个样本中的文本信息t_k所包含的文本片段进行拼接，同时添加开始字符[CLS]、间隔字符[SEP]以及结束字符[EOS],得到文本序列

S22.采用预训练语言模型对文本序列X_k进行语义特征提取，得到该样本的文本特征表示v_T,k。

本实施例中，由于该部分的任务形式及目标与预训练任务NSP(Next SentencePrediction)高度相似，故而采用具有NSP预训练任务的预训练语言模型能够更好地进行语义表征，同时兼具文本片段间的语义连贯性判断；出于此方面考虑，本实施例采用NSP-Bert预训练模型来进行处理，值得注意的是，该预训练模型的权重在训练过程中同样会进行迭代优化，从而更加适应段落识别数据集合。

S3.获取规则信息的总体规则特征，总体规则特征由符号特征、字号特征、位置特征、起始字符特征和字符数特征构成。具体地，S3可包括以下步骤，即S31～S36。

S31.获取符号特征表示：

将二元指示变量作为第k个样本中第i个文本片段的符号信息/>的特征表示，记为/>其中，/>表示第i个文本片段是否以符号结尾，/>表示第i个文本片段是否以含有结束语义的符号结尾；由于每个样本包含一对文本片段，因此第k个样本的符号特征可表示为/>

当文本片段结尾处不为符号时，很大程度上说明该片段的文本描述并没有结束，下一个文本片段仍然属于同一个段落；当文本片段结尾处为“。”、“？”等表示结束语义的符号时，很大程度上说明该片段的文本描述已经终止，下一个文本片段与该片段不属于同一个段落。

S32.获取字号特征表示：

将数值变量作为第k个样本中第i个文本片段的字号信息/>的特征表示，记为/>其中，/>表示第i个文本片段中所有字符的平均宽度，/>表示第i个文本片段中所有字符的平均高度；由于每个样本包含一对文本片段，因此第k个样本的字号特征可表示为/>

当某一文本片段中的字符宽度、高度与相邻文本片段不相同时，说明其中一个文本片段的字号要大于另一个文本片段，而通常字号大小可以反映该文本是否属于标题等特定文本，与正文描述显然不属于同一段落。

S33.获取位置特征表示：

将文本页面坐标化，以坐标变量作为第k个样本中第i个文本片段的位置信息/>的特征表示，记为/>其中，/>表示第i个文本片段左上角的位置坐标，/>表示第i个文本片段右上角的位置坐标，/>表示第i个文本片段左下角的位置坐标，/>表示第i个文本片段右下角的位置坐标；由于每个样本包含一对文本片段，因此第k个样本的位置特征可表示为/>

文本片段的位置信息对段落识别任务尤其重要，首先，左上角的位置坐标可以反映该文本片段是否缩进，通常缩进表示该文本片段为新段落的开始；其次，右下角的位置坐标可以反映该文本片段是否满行，通常不满行表示该文本片段为段落的结束；另外，坐标信息中隐含了相邻两个文本片段间的坐标差数据，据此可以表明段落间的行间距大小，该指标同样可以有效判断两个片段是否同属于一个段落。

S34.获取起始字符数特征表示：

取所有文本片段前三个字符构建起始字符集合C，同时建立索引字典；将数值变量作为第k个样本中第i个文本片段的起始字符信息/>的特征表示，记为其中，/>分别表示第i个文本片段中前一、二、三个字符的索引值；由于每个样本包含一对文本片段，因此第k个样本的起始字符特征可表示为

通常，文本片段的起始字符具有一定的规则属性，例如“第一章”、“第一节”等描述词一般对应于段落的开始位置，引入该信息可以辅助模型判断。

S35.获取字符数特征表示：

将数值变量作为第k个样本中第i个文本片段的字符数信息/>的特征表示，记为/>其中，/>表示第i个文本片段中的字符总数；由于每个样本包含一对文本片段，因此第k个样本的字符数特征可表示为/>

通常，文本片段的字符总数小于一定值时，表明该片段为一单独的段落。

S36.深度融合所有规则特征

如上所述的每类规则信息都是对文本规则的部分描述，只有对它们进行有效的交互融合，才能全面反映文本片段的规则特征，本发明采用如下公式深度建模不同规则特征的融合过程：

利用下式得到深度神经网络中第j层输出的中间特征v_j,R,k，从而得到深度神经网络输出的总体规则特征v_R,k。

v_j,R,k＝GeLU(W_j·v_j-1,R,k+b_j)

式中，GeLU表示高斯误差线性单元激活函数。W_j表示中间特征v_j,R,k的权重矩阵。b_j表示中间特征v_j,R,k的偏置向量。j＝1,2,…,J，J表示深度神经网络的层数。当j＝1时，由符号特征f_1,k、字号特征f_2,k、位置特征f_3,k、起始字符特征f_4,k以及字符数特征f_5,k进行拼接得到初始特征v_0,R,k。

本发明中，对于不同的样本，语义与规则特征在判断文本是否连续时的重要程度可能存在差异，此外由于可能存在的规则信息错误，导致不可靠的规则特征问题，本发明提出一种基于注意力机制的自适应融合机制，可以根据不同的语义与规则特征，自动对二者赋予相应的权重，进而获得较为精准的全局表示。

引入如下三个公式所示的注意力机制，从而得到自适应融合的全局特征表示

式中，v_s,k∈S＝{v_T,k,v_R,k}表示文本语义特征或总体规则特征。为v_s,k的隐特征表示。W_s为/>的权重矩阵。b_s为/>的偏置向量。α_s,k为v_s,k的注意力得分。W_α为α_s,k的权重矩阵。

S5.利用融合后的全局特征进行段落识别。具体地，请参阅图3，S5包括以下步骤，即S51～S54。

S51.将全局特征输入分类器。本实施例中，分类器由一个非线性全连接层以及一个softmax激活函数构成，模型最终输出维度为2，分别对应连续与不连续，以此讲特征向量映射成相应的概率值，从而得到文本片段/>与文本片段/>是否连续的概率分布/>

式中，W_p1和W_p2为分类器的权重矩阵。b_p表示偏差向量。

S52.采用如下公式所示的交叉熵函数作为目标函数J：

式中，N表示段落识别数据集合中作为训练集的数据条数，本实施例中，将段落识别数据集合按照8:1:1划分为训练集、验证集、测试集。表示训练集中第n条数据的实际标签λ所对应的预测概率，λ∈{0,1}。

S53.设置最大迭代次数epoch_number＝30，利用反向传播和梯度下降法对所述目标函数J进行训练，本实施例中，梯度下降法采用学习率η＝2e-5，指数衰减率β₁＝0.9,β₂＝0.999的Adam优化算法，当迭代次数达到epoch_number时，停止训练，使得J达到最小，从而得到最优识别模型，最优识别模型的输入为文本信息集合T、规则信息集合R，输出为是否连续的概率分布从而判断文本片段/>与文本片段/>是否属于同一段落。

S54.基于文本片段与文本片段/>是否连续的概率判断，在进行文本段落识别时，将所有文本片段按照顺序组成文本片段对输入已训练好的模型，对所有相邻文本片段进行连续性判断，然后将获得的序列结果进行解码，从而获取段落识别结果。

实施例2

请参阅图4，本发明还公开一种基于多特征自适应融合的段落识别系统100，其可应用实施例1中的基于多特征自适应融合的段落识别方法。该段落识别系统100可以配置于服务器或终端中。

段落识别系统100包括：数据获取模块101、特征提取模块102以及段落判断模块103。

数据获取模块101用于构建段落识别数据集合，段落识别数据集合包括文本信息集合和规则信息集合。

特征提取模块102用于获取文本信息的文本语义特征，以及规则信息的总体规则特征。总体规则特征由符号特征、字号特征、位置特征、起始字符特征和字符数特征构成。

段落判断模块103用于根据融合后的全局特征训练得到最优识别模型，并利用最优识别模型对所有相邻文本片段的连续性进行判断，得到段落识别结果。

需要说明的是，上述系统及各模块的具体工作过程，可以参考实施例1中对应的步骤，在此不再赘述。

实施例3

本发明还公开一种计算机终端，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。

该计算机终端可以是能够执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。

处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据。处理器执行程序时可实现实施例1中基于多特征自适应融合的段落识别方法的步骤，进而完成段落识别任务。

实施例4

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时，可实现实施例1中基于多特征自适应融合的段落识别方法的步骤。

该计算机可读存储介质可以包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储介质也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

当然，对于本领域技术人员而言，本发明不限于上述示范性实施例的细节，而还包括在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现的相同或类似结构。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种基于多特征自适应融合的段落识别方法，其特征在于，包括如下步骤：

S1.将相邻的一对文本片段作为一个样本，分别获取每个样本即每个文本片段对的文本信息、规则信息和标签信息，由此构建段落识别数据集合；

S2.获取文本信息的文本语义特征；

S3.获取规则信息的总体规则特征，所述总体规则特征由符号特征、字号特征、位置特征、起始字符特征和字符数特征构成；

S4.采用注意力机制自适应融合所述文本语义特征和所述总体规则特征，得到全局特征；

S5.根据融合后的全局特征训练得到最优识别模型，并利用所述最优识别模型对所有相邻文本片段的连续性进行判断，得到段落识别结果。

2.根据权利要求1所述的一种基于多特征自适应融合的段落识别方法，其特征在于，S1包括以下步骤：

S11.构建段落识别数据的文本信息集合T，T表示为：

T＝{t₁,t₂,···,t_k,···,t_K}

其中，t_k表示第k个样本的文本信息，K为样本总数；文本信息t_k由一对文本片段组成，记为文段片段/>包含的单词记为/> 表示文本信息t_k中的文本片段/>中的第n个文本词，N表示文本信息的最大词汇长度；

S12.构建段落识别数据的的规则信息集合R，R表示为：

R＝{U₁,U₂,···,U_k,···,U_K}

其中，U_k表示第k个样本的规则信息；规则信息U_k由一对规则描述组成，记为对应于文本片段对/>按照规则类型，规则描述/>划分为符号、字号、位置、起始字符以及字符数五种特征，记为/> 和/>分别表示/>中的符号信息、字号信息、位置信息、起始字符信息和字符数信息；

S13.构建段落识别数据的标签信息集合Λ，Λ表示为：

Λ＝{Λ₁,Λ₂,···,Λ_k,···,Λ_K}

其中，Λ_k∈{0,1}表示第k个样本的标签信息，当Λ_k＝0时表示文本片段对不连续，当Λ_k＝1时表示文本片段对/>连续；

3.根据权利要求2所述的一种基于多特征自适应融合的段落识别方法，其特征在于，S2包括以下步骤：

S21.将每个样本的文本信息所包含的文本片段对进行拼接，同时添加开始字符、间隔字符以及结束字符，进而得到文本序列；其中，添加字符的方法为：将所述间隔字符添加在相邻的两个文本片段之间，将所述开始字符和所述结束字符分别添加在相邻的两个文本片段前后；

S22.采用预训练语言模型对所述文本序列进行语义特征提取，得到相应样本的文本语义特征。

4.根据权利要求3所述的一种基于多特征自适应融合的段落识别方法，其特征在于，S3包括以下步骤：

依次获取每个样本的符号特征、字号特征、位置特征、起始字符特征、字符数特征；

5.根据权利要求4所述的一种基于多特征自适应融合的段落识别方法，其特征在于，步骤S3中，

在获取所述符号特征时，将二元指示变量作为第k个样本中第i个文本片段的符号信息/>的特征表示，记为/>其中，/>表示第i个文本片段是否以符号结尾，/>表示第i个文本片段是否以含有结束语义的符号结尾；第k个样本的符号特征表示为/>

在获取所述字号特征时，将数值变量作为第k个样本中第i个文本片段的字号信息/>的特征表示，记为/>其中，/>表示第i个文本片段中所有字符的平均宽度，/>表示第i个文本片段中所有字符的平均高度；第k个样本的字号特征表示为/>

在获取所述位置特征时，将文本页面坐标化，以坐标变量作为第k个样本中第i个文本片段的位置信息/>的特征表示，记为/>其中，/>表示第i个文本片段左上角的位置坐标，/>表示第i个文本片段右上角的位置坐标，/>表示第i个文本片段左下角的位置坐标，/>表示第i个文本片段右下角的位置坐标；第k个样本的位置特征可表示为/>

在获取所述起始字符数特征时，取所有文本片段前三个字符构建起始字符集合C，同时建立索引字典；将数值变量作为第k个样本中第i个文本片段的起始字符信息/>的特征表示，记为/>其中，/>分别表示第i个文本片段中前一、二、三个字符的索引值；即第k个样本的起始字符特征可表示为

在获取所述字符数特征时，将数值变量作为第k个样本中第i个文本片段的字符数信息/>的特征表示，记为/>其中，/>表示第i个文本片段中的字符总数；第k个样本的字符数特征表示为/>

6.根据权利要求5所述的一种基于多特征自适应融合的段落识别方法，其特征在于，在得到所述总体规则特征之前，还利用以下公式得到神经网络中第j层输出的中间特征v_j,R,k，公式为：

v_j,R,k＝GeLU(W_j·v_j-1,R,k+b_j)

式中，GeLU表示高斯误差线性单元激活函数；W_j表示中间特征v_j,R,k的权重矩阵；b_j表示中间特征v_j,R,k的偏置向量；j＝1,2,…,J，J表示深度神经网络的层数；当j＝1时，v_0,R,k为一个由第k个样本的符号特征、字号特征、位置特征、起始字符特征、字符数特征拼接得到的初始特征。

7.根据权利要求6所述的一种基于多特征自适应融合的段落识别方法，其特征在于，S4中，所述注意力机制的公式如下：

式中，v_s,k∈S＝{v_T,k,v_R,k}表示所述文本语义特征或所述总体规则特征；为v_s,k的隐特征表示；W_s为/>的权重矩阵；b_s为/>的偏置向量；α_s,k为v_s,k的注意力得分；W_α为α_s,k的权重矩阵；/>为所述全局特征。

8.根据权利要求1所述的一种基于多特征自适应融合的段落识别方法，其特征在于，S5包括以下步骤：

S51.将所述全局特征输入到一个由分类器构成的预测层，从而得到相邻文本片段是否连续的概率分布；所述分类器的表达公式为：

式中，为所述概率分布；W_p1和W_p2为分类器的权重矩阵；b_p表示偏差向量；/>为所述全局特征；

S52.采用如下公式所示的交叉熵函数作为目标函数J：

式中，N表示所述段落识别数据集合中作为训练集的数据条数，表示训练集中第n条数据的实际标签λ所对应的预测概率，λ∈{0,1}；

S53.设置最大迭代次数，利用反向传播和梯度下降法对所述目标函数J进行训练；当迭代次数达到所述最大迭代次数时停止训练，使得所述目标函数J达到最小，从而得到最优识别模型；

S54.将所有文本片段按照顺序组成文本片段对输入所述最优识别模型，对所有相邻文本片段进行连续性判断，从而获取段落识别结果。

9.一种基于多特征自适应融合的段落识别系统，其特征在于，其应用如权利要求1至8中任意一项所述的基于多特征自适应融合的段落识别方法；所述段落识别系统包括：

数据获取模块，其用于构建段落识别数据集合，所述段落识别数据集合包括文本信息集合和规则信息集合；

特征提取模块，其用于获取文本信息的文本语义特征，以及规则信息的总体规则特征；所述总体规则特征由符号特征、字号特征、位置特征、起始字符特征和字符数特征构成；以及

段落判断模块，其用于根据融合后的全局特征训练得到最优识别模型，并利用所述最优识别模型对所有相邻文本片段的连续性进行判断，得到段落识别结果。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时，实现如权利要求1至8中任意一项所述的基于多特征自适应融合的段落识别方法的步骤。