CN115186649A

CN115186649A - 一种基于关系模型的超长文本的切分方法及系统

Info

Publication number: CN115186649A
Application number: CN202211051608.8A
Authority: CN
Inventors: 于伟; 靳雯; 赵洲洋; 石江枫; 王全修; 吴凡
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-10-14
Anticipated expiration: 2042-08-30
Also published as: CN115186649B

Abstract

本发明涉及人工智能技术领域，具体涉及一种基于关系模型的超长文本的切分方法及系统，该方法通过将原文本切割为多个子句，然后按照原文本的顺序多个子句进行重组得到多个重组子句，任意相邻的两个重组子句之间具有第一重叠长度的重叠文本，其中第一重叠长度通过预设的重叠长度以及在前重组子句中最后一个子句的长度来确定，在实体被切断时，通过预设重叠长度、切分位置、被切断的实体位置以及实体的最大长度阈值来重新调整最终的切分位置，该方法最终得到的相邻重组子句之间均存在重叠文本，减少信息的损失，使关系模型预测的结果相对于等长度直接切割来说更加准确，同时能够保证实体不被切断，进一步的减少了信息损失。

Description

一种基于关系模型的超长文本的切分方法及系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于关系模型的超长文本的切分方法及系统。

背景技术

基于BERT预训练模型，使用序列标注方式解决关系抽取的方案，都存在一个难点，那就是文本超长问题。

目前通常的做法是根据模型能够输入的最大文本长度将原文切割成相同长度的几个子句，并基于子句独立的预测结果，在预测完成之后，根据句子长度计算预测结果在原文中的位置，即可解决文本超长的问题。但是在关系模型中一个句子中的实体往往与上下文中的其他实体之间存在着关系，该切割方法会将关系切断，导致信息损失，BERT预训练模型在预测时很可能会导致抽取的关系不正确。

发明内容

为了解决上述技术问题，本发明的目的在于提供的一种基于关系模型的超长文本的切分方法及系统，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种基于关系模型的超长文本的切分方法，所述切分方法包括：

S100，根据标点符号对原文本进行分割，得到N个子句P={P₁,P₂,…,P_N}，其中N为正整数；

S200，将P中的子句按照原文本顺序重组得到M个重组子句{R₁, R₂，…，R_M}，每个重组子句均为关系模型的一个输入；其中，第i个重组子句R_i与第i-1个重组子句R_i-1之间具有重叠文本SP_k，SP_k为R_i-1中最后一个子句P_k中的文本；其中R_i的获取步骤包括：

S210，根据P_k的文本长度L_k和预设重叠长度OL₀计算SL_k=min(OL₀,L_k)，其中，min(OL₀,L_k)为取OL₀和L_k的最小值作为SP_k的重叠长度SL_k；

S220，根据SL_k获取切分位置SD_k，当SD_k未将第g个实体a_g切断时，由切分位置SD_k开始累积P_k中的字符得到SP_k；当SD_k将第g个实体a_g切断时，根据实体a_g中首字符的位置调整SD_k并更新SL_k，根据调整后的切分位置SD_k开始累积P_k中的字符得到SP_k；

S230，按照原文本的顺序从P_k+1开始增加子句并累积文本长度，当SL_k+∑^e _j=1L_k+j≤S₀且SL_k+∑^e+1 _j=1L_k+j＞S₀时，确定结束子句为第k+e个子句P_k+e，其中 L_k+j为P_k+j的文本长度，S₀为输入关系模型的最大文本长度；

S240，根据P_k+1与P_k+e确定目标子句{P_k+1,P_k+2…,P_k+e}，将重叠文本SP_k和目标子句{P_k+1,P_k+2…,P_k+e}拼接为R_i。

第二方面，本发明另一个实施例提供了基于关系模型的超长文本的切分系统，其特征在于，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述切分方法。

本发明具有如下有益效果：

该方法根据切割位置和实体的位置确定最终得到的相邻重组子句之间的重叠文本，能够保证被切割的子句之间的关系相互关联，减少信息的损失，使关系模型预测的结果相对于等长度直接切割来说更加准确，解决了目前等长度切割时将关系切断的问题，同时能够保证实体不被切断，进一步的减少信息的损失，使关系模型能够更加准确的提取到相应的关系。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的关系模型输入文本的切分方法流程图；

图2为本发明一个实施例所提供的R_i的获取步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于关系模型的超长文本的切分方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于关系模型的超长文本的切分方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于关系模型的超长文本的切分方法流程图，该方法包括以下步骤：

S100，根据标点符号对原文本进行分割，得到N个子句P={P₁,P₂,…,P_N}，其中N为正整数。

可选的，标点符号为句号、感叹号和问号。利用标点符号切分子句能够防止将子句的语义切断，保留更多更完整的语义信息。

S200，将P中的子句按照原文本顺序重组得到M个重组子句{R₁, R₂，…，R_M}，每个重组子句均为关系模型的一个输入；其中，第i个重组子句R_i与第i-1个重组子句R_i-1之间具有重叠文本SP_k，SP_k为R_i-1中最后一个子句P_k中的文本。其中i的取值范围为1到M，k的取值范围为1到N。

具体的，按照子句P中的顺序依次重组得到预设长度的子句，并且任意两个相邻的重组子句之间存在重叠文本，得到M个重组子句{R₁,R₂,…,R_i-1,R_i…,R_M}，每个重组子句均为关系模型的一个输入。重叠文本SP_k为R_i-1中最后一个子句P_k的文本或者根据预设重叠长度OL₀获取的P_k中的一部分文本。任意两个相邻的重组子句之间都具有一定重叠长度的重叠文本，前后重组子句之间形成连续的重叠关系，能够保证被切割的子句之间的关系相互关联，能够保留实体与上下文之间的关系，减少信息的损失，使关系模型预测的结果相对于等长度直接切割来说更加准确，解决了目前等长度切割时将关系切断的问题。

可选的，关系模型为BERT模型。

请参阅图2，其中R_i的获取步骤包括：

S210，根据P_k的文本长度L_k和预设重叠长度OL₀计算SL_k=min(OL₀,L_k)，其中，min(OL₀,L_k)为取OL₀和L_k的最小值作为SP_k的重叠长度SL_k。

可选的，OL₀=S₀/T，其中T为重叠文本占关系模型的最大文本长度S₀的比例。进一步，T的取值为4。

可选的，S₀的取值为512，也即输入BERT模型的最大文本长度为S₀=512个字符。

需要说明的是，P_k的文本长度L_k和重叠长度SL_k不同，P_k的文本长度L_k为P_k这个子句中所包含的字符的数量，也即为P_k整体的文本长度。而重叠长度SL_k为P_k中有多少个连续的字符是R_i与R_i-1的重叠字符。例如，P_k为“张三的父亲是王五”，重叠的文本为“是王五”，其中重叠长度SL_k=3，文本长度L_k=8。

S220，根据SL_k获取切分位置SD_k，当SD_k未将第g个实体a_g切断时，由切分位置SD_k开始累积P_k中的字符得到SP_k；当SD_k将第g个实体a_g切断时，根据实体a_g中首字符的位置调整SD_k并更新SL_k，根据调整后的切分位置SD_k开始累积P_k中的字符得到SP_k。

具体的，当SL_k=L_k时，是以R_i-1中的最后一句P_k为重叠长度，此时实体不会被切断，因此，此时的切分位置SD_k即为P_k的句首，且SP_k=L_k，重叠文本SP_k为P_k中的所有文本。

当SL_k=OL₀，是以预设重叠长度作为重叠长度的，根据OL₀确定的切分位置SD_k可能会将实体切断，因此需要判断切分位置SD_k是否将实体切断，若没有将实体切断，则从切分位置SD_k开始累积字符，获取相应的重叠文本。其中切分位置SD_k为重叠长度为SL_k的位置，例如“张三的母亲是王五”且OL₀=3，得到切分位置为“是”之间，切分得到两部分“张三的母亲”和“是王五”，此时未将实体切断，则累积得到的重叠文本为“是王五”。

其中，实体的获取步骤包括：将P中的子句输入命名实体识别模型识别P中的实体，得到G个实体a={a₁,a₂,…,a_g,…a_G}，g的取值范围为1到G。其中，命名实体识别模型的训练集中包括R个训练样本w={w₁,w₂,…,w_R}，其中第r个训练样本w_r中包括至少一个实体标签，实体标签的首字符标注为“B-姓名”，实体中其他字符为“I-姓名”，将非命名实体的文本均标注为“O”，该命名实体识别模型的损失函数为交叉熵损失函数，在损失函数收敛时训练完成。

其中，实体a_g被切断是指，SD_k位置实体a_g的中间位置，例如实体为“张三”，而切分位置刚好位于“张三”的中间位置，将实体“张三”切分为“张”和“三”。

为了使实体不被切断，利用实体a_g中首字符的位置调整SD_k。

优选的，SL_k的更新条件满足：SL_k=min(OL' 0,L_k)且OL' 0=OL₀-(SW+SD_k-D(a_g))，式中，SW为相对于实体a_g中首字符的向后的偏移量，D(a_g)为a_g中首个实体字符的位置。可选的，SW=10。

例如，在子句中的每一个字符都有自己的位置编号，该位置编号代表了该字符的位置，对于“…我叫王五，家住在北京市，公司在…”，该子句对应的位置为v={…v_c-130,v_c-129,v_c-128,v_c-127,v_c-126,v_c-125,v_c-124,v_c-123,v_c-122,v_c-121,v_c-120,v_c-119,v_c-118,v_c-117,v_c-116,…”}，其中c为该句的最大长度，由于该子句的长度大于OL₀=128，因此以128为重叠长度切分子句，但切分位置位于实体“王五”的中间，且“王五”的位置分别为v_c-128和v_c-127，切分位置SD_k为v_c-127，D(a_g)为v_c-128，SW取值为10，因此公式更新OL' 0=128-(10+128-127)=117，得到更新后的长度为117，则新的切分位置为v_c-118，由v_c-118这个位置切断。能够保证实体不被切断，尽量的保留子句的语义信息不被切断，使最终提取的关系更加准确。

优选的，SL_k的更新条件满足：SL_k=min(OL' 0,L_k)且OL' 0=OL₀+(QW+(SD_k-D(a_g)))，式中，QW为相对于实体a_g中首字符的向前的偏移量，D(a_g)为a_g中首个实体字符的位置。可选的，QW=10。

例如，对于“…张三住在北京市，他的母亲是王五…”，该子句对应的位置为v={…v_c-141,v_c-140,v_c-139,v_c-138,v_c-137,v_c-136,v_c-135,v_c-134,v_c-133,v_c-132,v_c-131,v_c-130,v_c-129,v_c-128,v_c-127,…”}，其中c为该句的最大长度，由于该子句的长度大于OL₀=128，因此以128为重叠长度切分子句，但切分位置位于实体“王五”的中间，且“王五”的位置分别为v_c-128和v_c-127，切分位置SD_k为v_c-127，D(a_g)为v_c-128，QW取值为10，因此公式更新OL' 0=128+(10+128-127)=139，得到更新后的长度为139，则新的切分位置为v_c-138，在切分时，由v_c-138这个位置切断。向前偏移能够将被切断的实体调整为重叠文本的一部分，进一步的增加了重叠文本中的实体，使相邻重组子句之间的实体之间的关系更加紧密，也进一步的增加了抽取关系所需要的上下文，使最终抽取的关系更加准确。

S230，按照原文本的顺序从P_k+1开始增加子句并累积文本长度，当SL_k+∑^e _j=1L_k+j≤S₀且SL_k+∑^e+1 _j=1L_k+j＞S₀时，确定结束子句为第k+e个子句P_k+e，其中 L_k+j为P_k+j的文本长度，S₀为输入关系模型的最大文本长度。

具体的，获取子句P中每个子句的长度，得到对应的N个子句长度{L₁,L₂,…,L_N}；其中子句的长度为子句中包含的字符的数量。当SL_k+∑^e _j=1L_k+j≤S₀且SL_k+∑^e+1 _j=1L_k+j＞S₀时，得到的文本长度是接近于S₀，由于在切割子句时时按照标点符号进行切割的，因此在重组子句时按照子句的数量进行重组，保留更多的语义信息，而不是在达到S₀直接截断，相对于直接截断的方式保留了更多的语义信息。

需要说明的是，在关系模型训练的过程中，可以将多个R_i放到一个batch中，将batch输入关系模型中进行训练。

综上所述，本发明实施例提供了一种基于关系模型的超长文本的切分方法及系统，该方法通过将原文本切割为多个子句，然后按照原文本的顺序多个子句进行重组得到多个重组子句，获取相邻的两个重组子句R_i-1和R_i之间的重叠文本SP_k及其重叠长度SL_k，其中重叠长度SL_k通过预设重叠长度OL₀以及R_i-1中最后一个子句P_k的长度L_k来确定，在实体被切断时，根据实体a_g中首字符的位置调整SD_k并更新SL_k，该方法最终得到的相邻重组子句之间均存在重叠文本，能够保证被切割的子句之间的关系相互关联，减少信息的损失，使关系模型预测的结果相对于等长度直接切割来说更加准确，解决了目前等长度切割时将关系切断的问题，同时能够保证实体不被切断，进一步的减少信息的损失，使关系模型能够更加准确的提取到相应的关系。

优选的，关系模型的训练集包括T个训练样本b={b₁,b₂,…,b_T}，其中第t个训练样本b_t为无主语实体的训练样本且在隐含主语实体的位置添加第一标记符号。利用T个训练样本b对命名实体模型进行训练得到隐含主语实体，能够解决在进行子句切割时，将文本中原有的主语实体与关系切分到不同子句，导致切分后的子句中无主语实体，进而导致无主语实体的子句无法提取关系的问题。可选的，第一标记符号为“<S>#<T>”。例如，原文本为“张三是北京人……。工作单位是北京钢铁厂……。家住在北京市海淀区人民路。”，在进行子句切分时切分为：“张三是北京人……。”“工作单位是北京钢铁厂……。”“家住在北京市海淀区人民路。”，这样切分会导致后面两句没有主语实体，在抽取关系时，由于后面两句没有主句，因此无法抽取子句中的关系，但是实际上句子中是包含相应关系的，因此，为了解决该问题，在原本中隐含主语实体的位置添加第一标记符号，得到“张三是北京人……。<S>#<T>工作单位是北京钢铁厂……。<S>#<T>家住在北京市海淀区人民路。”，这样便能够成功的提取子句中所包含的关系：{#，工作单位，北京钢铁厂}，{#，居住地，北京市海淀区人民路}。在实际测试的过程中，对于切割的重组子句，在重组子句中无主语实体时，在隐含主语的位置添加第一标记符号，将添加了第一标记符号的重组子句输入相应的关系模型预测关系。

基于与上述方法相同的发明构思，本发明实施例还提供了一种基于关系模型的超长文本的切分系统，该系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所提供的切分方法，其中切分方法已经在详细说明，不再赘述。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关系模型的超长文本的切分方法，其特征在于，所述切分方法包括：

2.根据权利要求1所述的方法，其特征在于，所述S220中SL_k的更新条件满足：SL_k=min(OL' 0,L_k)且OL' 0=OL₀-(SW+SD_k-D(a_g))，式中，SW为相对于实体a_g中首字符的向后的偏移量，D(a_g)为a_g中首个实体字符的位置。

3.根据权利要求1所述的方法，其特征在于，所述S220中SL_k的更新条件满足：SL_k=min(OL' 0,L_k)且OL' 0=OL₀+(QW+(SD_k-D(a_g)))，式中，QW为相对于实体a_g中首字符的向前的偏移量，D(a_g)为a_g中首个实体字符的位置。

4.根据权利要求1所述的方法，其特征在于，所述S210中OL₀=S₀/T，T为重叠文本占S₀的比例。

5.根据权利要求1所述的方法，其特征在于，所述S220中a_g的获取步骤包括：

将P中的子句输入命名实体识别模型识别P中的实体，得到G个实体a={a₁,a₂,…,a_g,…a_G}，g的取值范围为1到G。

6.根据权利要求1所述的方法，其特征在于，所述关系模型的训练集中包括T个训练样本{b₁,b₂,…,b_T}，其中第t个训练样本b_t为无主语实体的训练样本且在隐含主语实体的位置添加第一标记符号。

7.根据权利要求1所述的方法，其特征在于，所述标点符号为句号、感叹号和问号。

8.根据权利要求1所述的方法，其特征在于，将多个重组子句放入一个batch中，将batch输入关系模型进行训练。

9.一种基于关系模型的超长文本的切分系统，其特征在于，所述系统包括处理器和非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项所述的切分方法。