CN111797634B

CN111797634B - 文档分割方法及装置

Info

Publication number: CN111797634B
Application number: CN202010501242.4A
Authority: CN
Inventors: 毛红保
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-09-08
Anticipated expiration: 2040-06-04
Also published as: CN111797634A

Abstract

本发明实施例提供了一种文档分割方法及装置，所述方法首先获取待分割文档；然后以所述待分割文档作为个体，所述待分割文档中的分割点作为所述个体的基因，基于遗传算法，对所述待分割文档进行分割，确定所述待分割文档中的分割点位置。通过分割点的长度均匀性参数和语义关联性参数确定每个个体的每个基因的质量，同时考虑了分割点的长度均匀性以及语义关联性，使得分割点两侧的片段长度均匀且分割点两侧的片段之间的语义关联性小。解决了现有技术中的分割方法无法保证分割得到的片段的长度均匀的技术问题，为任务的平均分配提供了极有利的理论基础。

Description

文档分割方法及装置

技术领域

本发明涉及文档处理技术领域，更具体地，涉及文档分割方法及装置。

背景技术

目前，将一篇长文档分割为连续的文档片段，在一些业务场景中有明确的需求。例如，在语言服务行业，需要将一篇长文档分割后交由多个译员同时翻译，以快速完成翻译任务。

将文档进行分割通常隐含如下的约束：(1)分割的片段数量N是指定的，并且分界点在段落的结尾处，以保证不破坏段落的完整性；(2)分割的各片段的长度相对均匀，使得对于翻译任务而言，各译员工作量均衡；(3)各片段语义内容上尽量连贯、完整，即分割片段在语义上高内聚、低耦合；(4)实现程序自动分割，一方面可提高效率；另一方面，对于翻译任务，任务分配者可能缺乏专业知识导致无法进行合理的人工分割。

基于此，现有技术中提供了一种基于词向量的文档分割方法，将词向量作为文档分割的标准，但该方法主要考虑的是语义这一个维度，无法保证分割得到的各片段的长度的均匀性。

发明内容

为克服上述问题或者至少部分地解决上述问题，本发明实施例提供了一种文档分割方法及装置。

第一方面，本发明实施例提供了一种文档分割方法，包括：

S1，获取待分割文档；

S2，以包含有指定个数的分割点的所述待分割文档作为个体，所述待分割文档中的分割点作为所述个体的基因，基于遗传算法，对所述待分割文档进行分割，确定所述待分割文档中的分割点位置；

其中，所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定，所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异，所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度。

优选地，所述基于遗传算法，对所述待分割文档进行分割，具体包括：

S21，确定初始个体；

S22，计算每个基因的质量；

S23，基于每个基因的质量，执行遗传操作，得到当前一代的多个新个体；

S24，基于每个新个体的每个基因的质量，计算每个新个体的个体适应度，并基于所述个体适应度确定当前一代的最优个体，将所述当前一代的最优个体返回至S22继续执行，直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值；

S25，基于当前一代的最优个体中各基因的位置，确定所述待分割文档中的分割点位置。

优选地，所述S21具体包括：

S211，以所述待分割文档的起始段落为起点，确定包含有若干个连续段落的片段的长度；

S212，若判断获知所述片段的长度小于等于预设长度，且在所述片段中增加一个邻近的后续段落后，得到的新片段的长度大于所述预设长度，则所述片段中最后一个段落的结尾处或者所述后续段落的结尾处存在一个分割点；

S213，以所述分割点为起点，确定包含有若干个连续段落的片段的长度，并返回至S212继续执行，直至确定出所述指定个数的分割点，得到所述遗传算法中的初始个体。

优选地，所述遗传操作包括基因调整和基因变异，所述基因调整用于调整所述初始个体中基因质量满足第一预设条件的基因的位置，所述基因变异用于调整所述初始个体中基因质量满足第二预设条件的基因的位置。

优选地，所述S23中基于每个新个体的每个基因的质量，计算每个新个体的个体适应度，具体包括：

对于每个新个体，基于所述新个体的每个基因的质量，计算所述新个体中所有基因的质量之和，并将所有质量之和作为所述新个体的个体适应度。

优选地，所述长度均匀性参数具体通过如下方法确定：

对于所述个体的每一分割点，计算所述分割点左右两侧的片段之间的长度差值；

对所述长度差值进行归一化处理，得到所述分割点的长度均匀性参数。

优选地，所述个体的每个基因的质量具体通过如下方法确定：

计算1与每个分割点的长度均匀性参数的差值；

计算所述差值和语义关联性参数的乘积，将所述乘积作为每个分割点对应的基因的质量得分。

第二方面，本发明实施例提供了一种文档分割装置，包括：获取模块和分割模块。其中，

获取模块用于获取待分割文档；

分割模块用于以包含有指定个数的分割点的所述待分割文档作为个体，所述待分割文档中的分割点作为所述个体的基因，基于遗传算法，对所述待分割文档进行分割，确定所述待分割文档中的分割点位置；

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的文档分割方法的步骤。

第四方面，本发明实施例提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的文档分割方法的步骤。

本发明实施例提供的一种文档分割方法及装置，所述方法首先获取待分割文档；然后以所述待分割文档作为个体，所述待分割文档中的分割点作为所述个体的基因，基于遗传算法，对所述待分割文档进行分割，确定所述待分割文档中的分割点位置。通过分割点的长度均匀性参数和语义关联性参数确定每个个体的每个基因的质量，同时考虑了分割点的长度均匀性以及语义关联性，使得分割点两侧的片段长度均匀且分割点两侧的片段之间的语义关联性小。解决了现有技术中的分割方法无法保证分割得到的片段的长度均匀的技术问题，为任务的平均分配提供了极有利的理论基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文档分割方法的流程示意图；

图2为本发明实施例提供的一种文档分割方法的分割过程示意图；

图3为本发明实施例提供的一种文档分割方法中遗传算法的具体流程示意图；

图4为本发明实施例提供的一种文档分割装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种文档分割方法，包括：

S1，获取待分割文档；

具体地，本发明实施例中提供的文档分割方法，其执行主体为处理器，用以实现对待分割文档的分割动作，实现对待分割文档的分割，即是确定待分割文档中的分割点位置。其中，处理器具体可以是本地处理器，例如计算机、平板电脑以及智能手机等，也可以是云端处理器，本发明实施例中对此不作具体限定。

首先，执行步骤S1。其中，待分割文档是指需要进行分割的文档，通常是长篇幅的文档。

然后，执行步骤S2。本发明实施例中，将遗传算法应用于文档分割，即是通过遗传算法确定待分割文档中的分割点位置。遗传算法中的个体是指包含有指定个数的分割点的待分割文档，即待分割文档的分割方案。指定个数可以根据需要进行设定，本发明实施例中对此不作具体限定。个体的基因与待分割文档中的分割点一一对应。个体的每个基因的质量用于表征对应的分割点的分割性能，还用于指导遗传操作的具体动作，每个基因的质量具体可以通过质量得分表示，质量得分越高，质量越高，对应的分割点的分割性能越好。

本发明实施例中根据考虑分割点的长度均匀性以及语义关联性，根据每个基因对应的分割点的长度均匀性参数以及语义关联性参数确定个体的每个基因的质量。每个分割点的长度均匀性参数用于表征该分割点左右两侧的片段之间的长度差异，长度均匀性参数越大，长度差异越大。语义关联性参数用于表征该分割点左右两侧的片段之间的语义关联程度，语义关联性参数越大，语义关联性越小，语义关联程度越小。

本发明实施例中提供的文档分割方法，首先获取待分割文档；然后以所述待分割文档作为个体，所述待分割文档中的分割点作为所述个体的基因，基于遗传算法，对所述待分割文档进行分割，确定所述待分割文档中的分割点位置。通过分割点的长度均匀性参数和语义关联性参数确定每个个体的每个基因的质量，同时考虑了分割点的长度均匀性以及语义关联性，使得分割点两侧的片段长度均匀且分割点两侧的片段之间的语义关联性小。解决了现有技术中的分割方法无法保证分割得到的片段的长度均匀的技术问题，为任务的平均分配提供了极有利的理论基础。

图2为本发明实施例中提供的文档分割方法的分割过程示意图，如图2所示，在上述实施例的基础上，本发明实施例中提供的文档分割方法，所述基于遗传算法，对所述待分割文档进行分割，具体包括：

S21，确定初始个体；

S22，计算每个基因的质量；

具体地，本发明实施例中，在根据遗传算法对待分割文档进行分割时，个体包括初始个体和除初始个体外的其他个体，区别在于包含的分割点的位置及其确定方法不同，初始个体中的分割点的位置预先确定，其他个体中的分割点的位置基于初始个体经遗传操作后确定。

首先执行步骤S21。其中，初始个体为待分割文档的初始分割方案，确定初始个体的过程就是确定初始分割方案中各分割点的初始位置的过程。

然后执行步骤S22，计算初始个体中每个基因的质量，具体可以是根据分割点的长度均匀性参数和语义关联性参数计算得到。

然后执行步骤S23。其中，遗传操作是指以初始个体中的基因作为对象执行的动作，具体可以包括基因调整和基因变异，二者均是改变基因的位置，即改变初始分割方案中分割点的位置，区别仅仅在于针对的基因不同。基因调整针对的基因相比于基因变异针对的基因，其质量更低。执行遗传操作后，得到当前一代的多个新个体。这是因为，在执行遗传操作的过程中，每个基因在执行一次基因调整或基因变异的动作后均会产生当前一代的一个新个体。

然后执行步骤S24。其中，基于每个新个体的每个基因的质量，计算每个新个体的个体适应度，每个新个体的个体适应度用于表征该新个体的总体基因质量，具体可以是所有基因的质量之和。根据所有新个体的个体适应度确定当前一代的最优个体，具体可以是选择个体适应度最大的新个体作为当前一代的最优个体。将当前一代的最优个体返回至步骤S22继续执行，以用于下一代新个体的生成。此时，步骤S22计算的是当前一代的最优个体中每个基因的质量。

重复执行步骤S22至步骤S24，直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值，结束该重复执行动作，执行步骤25。其中，预设阈值具体可以根据需要进行设定，本发明实施例中对此不作具体限定。

最后执行步骤S25。根据当前一代的最优个体中各基因的位置，确定待分割文档中的分割点位置。具体可以是直接将当前一代的最优个体作为待分割文档的最终分割方案，也即将当前一代的最优个体中各基因的位置分别作为待分割文档中的分割点位置。

在上述实施例的基础上，本发明实施例中提供的文档分割方法，步骤S21具体包括：

具体地，本发明实施例中，在获得初始分割方案时，考虑分割点的长度均匀性这一个维度。从待分割文档的起始段落开始，逐个段落计算待分割文档中起始段落至第i(1≤i≤N-1，N为待分割文档中的段落总数，N-1为待分割文档中包含的分割点，即指定个数)个段落构成的片段的长度∑L_i，以及在构成的片段中增加一个邻近的后续段落，即第i+1个段落后，得到的新片段的长度∑L_i+1，并判断∑L_i与预设长度L_N之间的大小关系，若∑L_i≤L_N且∑L_i+1＞L_N，则说明第i个段落或第i+1个段落的结尾处可存在一个分割点。选择的方法是，判断∑L_i或∑L_i+1中的哪个值与L_N最接近，若∑L_i与L_N最接近，则确定第i个段落的结尾处存在一个分割点，若∑L_i+1与L_N最接近，则确定第i个段落的结尾处存在一个分割点。

确定第一个分割点后，将其视为文档起始点按同样的方法确定下一个分割点，直至确定出全部N-1个分割点，此时即得到所述遗传算法中的初始个体。

在上述实施例的基础上，本发明实施例中的预设长度L_N具体可以如下公式确定：

L_N＝L/N

其中，L为待分割文档的总长度。

通过设置预设长度，得到的初始个体通常会满足分割的每个片段的最大长度和最小长度约束，即分割点具有长度均匀性。

在上述实施例的基础上，本发明实施例中提供的文档分割方法，所述遗传操作包括基因调整和基因变异，所述基因调整用于调整所述初始个体中基因质量满足第一预设条件的基因的位置，所述基因变异用于调整所述初始个体中基因质量满足第二预设条件的基因的位置。

具体地，本发明实施例中的遗传操作的具体动作可以包括基因调整和基因变异。其中，基因调整针对的基因是基因质量满足第一预设条件的基因，例如将初始个体中所有基因按照基因质量由低至高的顺序进行排序，然后选取排序中前20％的基因，均是属于基因质量满足第一预设条件的基因。基因变异针对的基因是基因质量满足第二预设条件的基因，例如选取排序中后80％的基因，然后从后80％的基因中随机选择5％的基因，这5％的基因即为基因质量满足第二预设条件的基因。

在对基因i进行基因调整时，基因i的位置的可调整范围是第i-1个分割点和第i+1个分割点之间所有段落的结尾位置，依次计算基因i的位置在可调整范围内每个位置处的质量得分，同时判断基因i两侧的片段是否满足长度约束，在满足长度约束的情况下，取质量得分最大的位置作为基因i调整后的位置。基因i的位置调整后，需要更新基因i-1和基于i+1的质量得分，从而得到当前一代的一个新个体。

如图3所示，为本发明实施例中提供的文档分割方法中遗传算法的具体流程示意图。1)产生初始个体，图3中示出的初始个体中包括6个基因。2)计算初始个体中各基因的质量，基因的质量越高，对应的圆圈越小。3)执行遗传操作，生成新种群，新种群由当前一代的多个新个体构成。遗传操作的具体动作包括基因调整和基因变异，图3中对于圆圈较大的基因进行基因调整动作，对于圆圈较小的基因进行基因变异动作。4)计算当前一代的每个新个体的个体适应度，从中当前一代的多个新个体中选择当前一代的最优个体。将当前一代的最优个体作为初始个体，迭代执行2)。直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值，迭代结束。

在上述实施例的基础上，所述长度均匀性参数具体通过如下方法确定：

具体地，本发明实施例中，在确定某一分割点的长度均匀性参数时，首先计算该分割点左右两侧的片段之间的长度差值，例如分割点i左右两侧的片段分别为S_i和S_i+1，则分割点i左右两侧的片段之间的长度差值通过如下公式计算：

其中，为分割点i左右两侧的片段之间的长度差值，即分割点i左右两侧的片段之间的长度之差的绝对值，len(S_i+1)为分割点i右侧的片段的长度，len(S_i)为分割点i左侧的片段的长度。

然后，对长度差值进行归一化处理，具体可以确定所有分割点对应的长度差值之和，计算分割点i对应的长度差值与所有分割点对应的长度差值之和的比值，即得到分割点i的长度均匀性参数p_i。

在上述实施例的基础上，所述语义关联性参数与分割点左右两侧的片段的词向量有关，具体可以通过现有技术中存在的方法进行确定。例如，可以通过内容向量分割(Content Vector Segmentation，CVS)算法确定，语义关联性参数越大，表示分割点在语义维度的分割性能越好。

在上述实施例的基础上，所述个体的每个基因的质量具体通过如下方法确定：

计算1与每个分割点的长度均匀性参数的差值；

具体地，设分割点i的长度均匀性参数为p_i，则计算1与分割点i的长度均匀性参数的差值得到1-p_i。

设分割点i的语义关联性参数为Semantic(i)，则有：

Score(i)＝Semantic(i)*(1-p_i)；

其中，Score(i)为分割点i对应的基因的质量得分。

如图4所示在上述实施例的基础上，本发明实施例中提供了一种文档分割装置，包括：获取模块41和分割模块42。其中，

获取模块41用于获取待分割文档；

分割模块42用于以所述待分割文档作为个体，所述待分割文档中的分割点作为所述个体的基因，基于遗传算法，对所述待分割文档进行分割，确定所述待分割文档中的分割点位置；

具体地，本发明实施例中提供的文档分割装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图5所示，在上述实施例的基础上，本发明实施例中提供了一种电子设备，包括：处理器(processor)501、存储器(memory)502、通信接口(Communications Interface)503和通信总线504；其中，

所述处理器501、存储器502、通信接口503通过通信总线504完成相互间的通信。所述存储器502存储有可被所述处理器501执行的程序指令，处理器501用于调用存储器502中的程序指令，以执行上述各方法实施例所提供的文档分割方法。

需要说明的是，本实施例中的电子设备在具体实现时可以为服务器，也可以为PC机，还可以为其他设备，只要其结构中包括如图5所示的处理器501、通信接口503、存储器502和通信总线504，其中处理器501、通信接口503和存储器502通过通信总线504完成相互间的通信，且处理器501可以调用存储器502中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

存储器502中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的文档分割方法。

在上述实施例的基础上，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的文档分割方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文档分割方法，其特征在于，包括：

S1，获取待分割文档；

其中，所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定，所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异，所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度；

所述基于遗传算法，对所述待分割文档进行分割，具体包括：

S21，确定初始个体；

S22，计算每个基因的质量；

2.根据权利要求1所述的文档分割方法，其特征在于，所述S21具体包括：

3.根据权利要求1所述的文档分割方法，其特征在于，所述遗传操作包括基因调整和基因变异，所述基因调整用于调整所述初始个体中基因质量满足第一预设条件的基因的位置，所述基因变异用于调整所述初始个体中基因质量满足第二预设条件的基因的位置。

4.根据权利要求1所述的文档分割方法，其特征在于，所述S23中基于每个新个体的每个基因的质量，计算每个新个体的个体适应度，具体包括：

5.根据权利要求1-4中任一项所述的文档分割方法，其特征在于，所述长度均匀性参数具体通过如下方法确定：

6.根据权利要求5所述的文档分割方法，其特征在于，所述个体的每个基因的质量具体通过如下方法确定：

计算1与每个分割点的长度均匀性参数的差值；

7.一种文档分割装置，其特征在于，包括：

获取模块，用于获取待分割文档；

分割模块，用于以包含有指定个数的分割点的所述待分割文档作为个体，所述待分割文档中的分割点作为所述个体的基因，基于遗传算法，对所述待分割文档进行分割，确定所述待分割文档中的分割点位置；

所述分割模块，具体用于：

S21，确定初始个体；

S22，计算每个基因的质量；

8.一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的文档分割方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的文档分割方法的步骤。