CN111797634B - 文档分割方法及装置 - Google Patents

文档分割方法及装置 Download PDF

Info

Publication number
CN111797634B
CN111797634B CN202010501242.4A CN202010501242A CN111797634B CN 111797634 B CN111797634 B CN 111797634B CN 202010501242 A CN202010501242 A CN 202010501242A CN 111797634 B CN111797634 B CN 111797634B
Authority
CN
China
Prior art keywords
individual
document
segmentation
gene
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010501242.4A
Other languages
English (en)
Other versions
CN111797634A (zh
Inventor
毛红保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN202010501242.4A priority Critical patent/CN111797634B/zh
Publication of CN111797634A publication Critical patent/CN111797634A/zh
Application granted granted Critical
Publication of CN111797634B publication Critical patent/CN111797634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种文档分割方法及装置,所述方法首先获取待分割文档;然后以所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置。通过分割点的长度均匀性参数和语义关联性参数确定每个个体的每个基因的质量,同时考虑了分割点的长度均匀性以及语义关联性,使得分割点两侧的片段长度均匀且分割点两侧的片段之间的语义关联性小。解决了现有技术中的分割方法无法保证分割得到的片段的长度均匀的技术问题,为任务的平均分配提供了极有利的理论基础。

Description

文档分割方法及装置
技术领域
本发明涉及文档处理技术领域,更具体地,涉及文档分割方法及装置。
背景技术
目前,将一篇长文档分割为连续的文档片段,在一些业务场景中有明确的需求。例如,在语言服务行业,需要将一篇长文档分割后交由多个译员同时翻译,以快速完成翻译任务。
将文档进行分割通常隐含如下的约束:(1)分割的片段数量N是指定的,并且分界点在段落的结尾处,以保证不破坏段落的完整性;(2)分割的各片段的长度相对均匀,使得对于翻译任务而言,各译员工作量均衡;(3)各片段语义内容上尽量连贯、完整,即分割片段在语义上高内聚、低耦合;(4)实现程序自动分割,一方面可提高效率;另一方面,对于翻译任务,任务分配者可能缺乏专业知识导致无法进行合理的人工分割。
基于此,现有技术中提供了一种基于词向量的文档分割方法,将词向量作为文档分割的标准,但该方法主要考虑的是语义这一个维度,无法保证分割得到的各片段的长度的均匀性。
发明内容
为克服上述问题或者至少部分地解决上述问题,本发明实施例提供了一种文档分割方法及装置。
第一方面,本发明实施例提供了一种文档分割方法,包括:
S1,获取待分割文档;
S2,以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;
其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度。
优选地,所述基于遗传算法,对所述待分割文档进行分割,具体包括:
S21,确定初始个体;
S22,计算每个基因的质量;
S23,基于每个基因的质量,执行遗传操作,得到当前一代的多个新个体;
S24,基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,并基于所述个体适应度确定当前一代的最优个体,将所述当前一代的最优个体返回至S22继续执行,直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值;
S25,基于当前一代的最优个体中各基因的位置,确定所述待分割文档中的分割点位置。
优选地,所述S21具体包括:
S211,以所述待分割文档的起始段落为起点,确定包含有若干个连续段落的片段的长度;
S212,若判断获知所述片段的长度小于等于预设长度,且在所述片段中增加一个邻近的后续段落后,得到的新片段的长度大于所述预设长度,则所述片段中最后一个段落的结尾处或者所述后续段落的结尾处存在一个分割点;
S213,以所述分割点为起点,确定包含有若干个连续段落的片段的长度,并返回至S212继续执行,直至确定出所述指定个数的分割点,得到所述遗传算法中的初始个体。
优选地,所述遗传操作包括基因调整和基因变异,所述基因调整用于调整所述初始个体中基因质量满足第一预设条件的基因的位置,所述基因变异用于调整所述初始个体中基因质量满足第二预设条件的基因的位置。
优选地,所述S23中基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,具体包括:
对于每个新个体,基于所述新个体的每个基因的质量,计算所述新个体中所有基因的质量之和,并将所有质量之和作为所述新个体的个体适应度。
优选地,所述长度均匀性参数具体通过如下方法确定:
对于所述个体的每一分割点,计算所述分割点左右两侧的片段之间的长度差值;
对所述长度差值进行归一化处理,得到所述分割点的长度均匀性参数。
优选地,所述个体的每个基因的质量具体通过如下方法确定:
计算1与每个分割点的长度均匀性参数的差值;
计算所述差值和语义关联性参数的乘积,将所述乘积作为每个分割点对应的基因的质量得分。
第二方面,本发明实施例提供了一种文档分割装置,包括:获取模块和分割模块。其中,
获取模块用于获取待分割文档;
分割模块用于以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;
其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度。
第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的文档分割方法的步骤。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的文档分割方法的步骤。
本发明实施例提供的一种文档分割方法及装置,所述方法首先获取待分割文档;然后以所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置。通过分割点的长度均匀性参数和语义关联性参数确定每个个体的每个基因的质量,同时考虑了分割点的长度均匀性以及语义关联性,使得分割点两侧的片段长度均匀且分割点两侧的片段之间的语义关联性小。解决了现有技术中的分割方法无法保证分割得到的片段的长度均匀的技术问题,为任务的平均分配提供了极有利的理论基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文档分割方法的流程示意图;
图2为本发明实施例提供的一种文档分割方法的分割过程示意图;
图3为本发明实施例提供的一种文档分割方法中遗传算法的具体流程示意图;
图4为本发明实施例提供的一种文档分割装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种文档分割方法,包括:
S1,获取待分割文档;
S2,以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;
其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度。
具体地,本发明实施例中提供的文档分割方法,其执行主体为处理器,用以实现对待分割文档的分割动作,实现对待分割文档的分割,即是确定待分割文档中的分割点位置。其中,处理器具体可以是本地处理器,例如计算机、平板电脑以及智能手机等,也可以是云端处理器,本发明实施例中对此不作具体限定。
首先,执行步骤S1。其中,待分割文档是指需要进行分割的文档,通常是长篇幅的文档。
然后,执行步骤S2。本发明实施例中,将遗传算法应用于文档分割,即是通过遗传算法确定待分割文档中的分割点位置。遗传算法中的个体是指包含有指定个数的分割点的待分割文档,即待分割文档的分割方案。指定个数可以根据需要进行设定,本发明实施例中对此不作具体限定。个体的基因与待分割文档中的分割点一一对应。个体的每个基因的质量用于表征对应的分割点的分割性能,还用于指导遗传操作的具体动作,每个基因的质量具体可以通过质量得分表示,质量得分越高,质量越高,对应的分割点的分割性能越好。
本发明实施例中根据考虑分割点的长度均匀性以及语义关联性,根据每个基因对应的分割点的长度均匀性参数以及语义关联性参数确定个体的每个基因的质量。每个分割点的长度均匀性参数用于表征该分割点左右两侧的片段之间的长度差异,长度均匀性参数越大,长度差异越大。语义关联性参数用于表征该分割点左右两侧的片段之间的语义关联程度,语义关联性参数越大,语义关联性越小,语义关联程度越小。
本发明实施例中提供的文档分割方法,首先获取待分割文档;然后以所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置。通过分割点的长度均匀性参数和语义关联性参数确定每个个体的每个基因的质量,同时考虑了分割点的长度均匀性以及语义关联性,使得分割点两侧的片段长度均匀且分割点两侧的片段之间的语义关联性小。解决了现有技术中的分割方法无法保证分割得到的片段的长度均匀的技术问题,为任务的平均分配提供了极有利的理论基础。
图2为本发明实施例中提供的文档分割方法的分割过程示意图,如图2所示,在上述实施例的基础上,本发明实施例中提供的文档分割方法,所述基于遗传算法,对所述待分割文档进行分割,具体包括:
S21,确定初始个体;
S22,计算每个基因的质量;
S23,基于每个基因的质量,执行遗传操作,得到当前一代的多个新个体;
S24,基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,并基于所述个体适应度确定当前一代的最优个体,将所述当前一代的最优个体返回至S22继续执行,直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值;
S25,基于当前一代的最优个体中各基因的位置,确定所述待分割文档中的分割点位置。
具体地,本发明实施例中,在根据遗传算法对待分割文档进行分割时,个体包括初始个体和除初始个体外的其他个体,区别在于包含的分割点的位置及其确定方法不同,初始个体中的分割点的位置预先确定,其他个体中的分割点的位置基于初始个体经遗传操作后确定。
首先执行步骤S21。其中,初始个体为待分割文档的初始分割方案,确定初始个体的过程就是确定初始分割方案中各分割点的初始位置的过程。
然后执行步骤S22,计算初始个体中每个基因的质量,具体可以是根据分割点的长度均匀性参数和语义关联性参数计算得到。
然后执行步骤S23。其中,遗传操作是指以初始个体中的基因作为对象执行的动作,具体可以包括基因调整和基因变异,二者均是改变基因的位置,即改变初始分割方案中分割点的位置,区别仅仅在于针对的基因不同。基因调整针对的基因相比于基因变异针对的基因,其质量更低。执行遗传操作后,得到当前一代的多个新个体。这是因为,在执行遗传操作的过程中,每个基因在执行一次基因调整或基因变异的动作后均会产生当前一代的一个新个体。
然后执行步骤S24。其中,基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,每个新个体的个体适应度用于表征该新个体的总体基因质量,具体可以是所有基因的质量之和。根据所有新个体的个体适应度确定当前一代的最优个体,具体可以是选择个体适应度最大的新个体作为当前一代的最优个体。将当前一代的最优个体返回至步骤S22继续执行,以用于下一代新个体的生成。此时,步骤S22计算的是当前一代的最优个体中每个基因的质量。
重复执行步骤S22至步骤S24,直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值,结束该重复执行动作,执行步骤25。其中,预设阈值具体可以根据需要进行设定,本发明实施例中对此不作具体限定。
最后执行步骤S25。根据当前一代的最优个体中各基因的位置,确定待分割文档中的分割点位置。具体可以是直接将当前一代的最优个体作为待分割文档的最终分割方案,也即将当前一代的最优个体中各基因的位置分别作为待分割文档中的分割点位置。
在上述实施例的基础上,本发明实施例中提供的文档分割方法,步骤S21具体包括:
S211,以所述待分割文档的起始段落为起点,确定包含有若干个连续段落的片段的长度;
S212,若判断获知所述片段的长度小于等于预设长度,且在所述片段中增加一个邻近的后续段落后,得到的新片段的长度大于所述预设长度,则所述片段中最后一个段落的结尾处或者所述后续段落的结尾处存在一个分割点;
S213,以所述分割点为起点,确定包含有若干个连续段落的片段的长度,并返回至S212继续执行,直至确定出所述指定个数的分割点,得到所述遗传算法中的初始个体。
具体地,本发明实施例中,在获得初始分割方案时,考虑分割点的长度均匀性这一个维度。从待分割文档的起始段落开始,逐个段落计算待分割文档中起始段落至第i(1≤i≤N-1,N为待分割文档中的段落总数,N-1为待分割文档中包含的分割点,即指定个数)个段落构成的片段的长度∑Li,以及在构成的片段中增加一个邻近的后续段落,即第i+1个段落后,得到的新片段的长度∑Li+1,并判断∑Li与预设长度LN之间的大小关系,若∑Li≤LN且∑Li+1>LN,则说明第i个段落或第i+1个段落的结尾处可存在一个分割点。选择的方法是,判断∑Li或∑Li+1中的哪个值与LN最接近,若∑Li与LN最接近,则确定第i个段落的结尾处存在一个分割点,若∑Li+1与LN最接近,则确定第i个段落的结尾处存在一个分割点。
确定第一个分割点后,将其视为文档起始点按同样的方法确定下一个分割点,直至确定出全部N-1个分割点,此时即得到所述遗传算法中的初始个体。
在上述实施例的基础上,本发明实施例中的预设长度LN具体可以如下公式确定:
LN=L/N
其中,L为待分割文档的总长度。
通过设置预设长度,得到的初始个体通常会满足分割的每个片段的最大长度和最小长度约束,即分割点具有长度均匀性。
在上述实施例的基础上,本发明实施例中提供的文档分割方法,所述遗传操作包括基因调整和基因变异,所述基因调整用于调整所述初始个体中基因质量满足第一预设条件的基因的位置,所述基因变异用于调整所述初始个体中基因质量满足第二预设条件的基因的位置。
具体地,本发明实施例中的遗传操作的具体动作可以包括基因调整和基因变异。其中,基因调整针对的基因是基因质量满足第一预设条件的基因,例如将初始个体中所有基因按照基因质量由低至高的顺序进行排序,然后选取排序中前20%的基因,均是属于基因质量满足第一预设条件的基因。基因变异针对的基因是基因质量满足第二预设条件的基因,例如选取排序中后80%的基因,然后从后80%的基因中随机选择5%的基因,这5%的基因即为基因质量满足第二预设条件的基因。
在对基因i进行基因调整时,基因i的位置的可调整范围是第i-1个分割点和第i+1个分割点之间所有段落的结尾位置,依次计算基因i的位置在可调整范围内每个位置处的质量得分,同时判断基因i两侧的片段是否满足长度约束,在满足长度约束的情况下,取质量得分最大的位置作为基因i调整后的位置。基因i的位置调整后,需要更新基因i-1和基于i+1的质量得分,从而得到当前一代的一个新个体。
如图3所示,为本发明实施例中提供的文档分割方法中遗传算法的具体流程示意图。1)产生初始个体,图3中示出的初始个体中包括6个基因。2)计算初始个体中各基因的质量,基因的质量越高,对应的圆圈越小。3)执行遗传操作,生成新种群,新种群由当前一代的多个新个体构成。遗传操作的具体动作包括基因调整和基因变异,图3中对于圆圈较大的基因进行基因调整动作,对于圆圈较小的基因进行基因变异动作。4)计算当前一代的每个新个体的个体适应度,从中当前一代的多个新个体中选择当前一代的最优个体。将当前一代的最优个体作为初始个体,迭代执行2)。直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值,迭代结束。
在上述实施例的基础上,所述长度均匀性参数具体通过如下方法确定:
对于所述个体的每一分割点,计算所述分割点左右两侧的片段之间的长度差值;
对所述长度差值进行归一化处理,得到所述分割点的长度均匀性参数。
具体地,本发明实施例中,在确定某一分割点的长度均匀性参数时,首先计算该分割点左右两侧的片段之间的长度差值,例如分割点i左右两侧的片段分别为Si和Si+1,则分割点i左右两侧的片段之间的长度差值通过如下公式计算:
其中,为分割点i左右两侧的片段之间的长度差值,即分割点i左右两侧的片段之间的长度之差的绝对值,len(Si+1)为分割点i右侧的片段的长度,len(Si)为分割点i左侧的片段的长度。
然后,对长度差值进行归一化处理,具体可以确定所有分割点对应的长度差值之和,计算分割点i对应的长度差值与所有分割点对应的长度差值之和的比值,即得到分割点i的长度均匀性参数pi
在上述实施例的基础上,所述语义关联性参数与分割点左右两侧的片段的词向量有关,具体可以通过现有技术中存在的方法进行确定。例如,可以通过内容向量分割(Content Vector Segmentation,CVS)算法确定,语义关联性参数越大,表示分割点在语义维度的分割性能越好。
在上述实施例的基础上,所述个体的每个基因的质量具体通过如下方法确定:
计算1与每个分割点的长度均匀性参数的差值;
计算所述差值和语义关联性参数的乘积,将所述乘积作为每个分割点对应的基因的质量得分。
具体地,设分割点i的长度均匀性参数为pi,则计算1与分割点i的长度均匀性参数的差值得到1-pi
设分割点i的语义关联性参数为Semantic(i),则有:
Score(i)=Semantic(i)*(1-pi);
其中,Score(i)为分割点i对应的基因的质量得分。
如图4所示在上述实施例的基础上,本发明实施例中提供了一种文档分割装置,包括:获取模块41和分割模块42。其中,
获取模块41用于获取待分割文档;
分割模块42用于以所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;
其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度。
具体地,本发明实施例中提供的文档分割装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
图5所示,在上述实施例的基础上,本发明实施例中提供了一种电子设备,包括:处理器(processor)501、存储器(memory)502、通信接口(Communications Interface)503和通信总线504;其中,
所述处理器501、存储器502、通信接口503通过通信总线504完成相互间的通信。所述存储器502存储有可被所述处理器501执行的程序指令,处理器501用于调用存储器502中的程序指令,以执行上述各方法实施例所提供的文档分割方法。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图5所示的处理器501、通信接口503、存储器502和通信总线504,其中处理器501、通信接口503和存储器502通过通信总线504完成相互间的通信,且处理器501可以调用存储器502中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
存储器502中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的文档分割方法。
在上述实施例的基础上,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的文档分割方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种文档分割方法,其特征在于,包括:
S1,获取待分割文档;
S2,以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;
其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度;
所述基于遗传算法,对所述待分割文档进行分割,具体包括:
S21,确定初始个体;
S22,计算每个基因的质量;
S23,基于每个基因的质量,执行遗传操作,得到当前一代的多个新个体;
S24,基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,并基于所述个体适应度确定当前一代的最优个体,将所述当前一代的最优个体返回至S22继续执行,直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值;
S25,基于当前一代的最优个体中各基因的位置,确定所述待分割文档中的分割点位置。
2.根据权利要求1所述的文档分割方法,其特征在于,所述S21具体包括:
S211,以所述待分割文档的起始段落为起点,确定包含有若干个连续段落的片段的长度;
S212,若判断获知所述片段的长度小于等于预设长度,且在所述片段中增加一个邻近的后续段落后,得到的新片段的长度大于所述预设长度,则所述片段中最后一个段落的结尾处或者所述后续段落的结尾处存在一个分割点;
S213,以所述分割点为起点,确定包含有若干个连续段落的片段的长度,并返回至S212继续执行,直至确定出所述指定个数的分割点,得到所述遗传算法中的初始个体。
3.根据权利要求1所述的文档分割方法,其特征在于,所述遗传操作包括基因调整和基因变异,所述基因调整用于调整所述初始个体中基因质量满足第一预设条件的基因的位置,所述基因变异用于调整所述初始个体中基因质量满足第二预设条件的基因的位置。
4.根据权利要求1所述的文档分割方法,其特征在于,所述S23中基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,具体包括:
对于每个新个体,基于所述新个体的每个基因的质量,计算所述新个体中所有基因的质量之和,并将所有质量之和作为所述新个体的个体适应度。
5.根据权利要求1-4中任一项所述的文档分割方法,其特征在于,所述长度均匀性参数具体通过如下方法确定:
对于所述个体的每一分割点,计算所述分割点左右两侧的片段之间的长度差值;
对所述长度差值进行归一化处理,得到所述分割点的长度均匀性参数。
6.根据权利要求5所述的文档分割方法,其特征在于,所述个体的每个基因的质量具体通过如下方法确定:
计算1与每个分割点的长度均匀性参数的差值;
计算所述差值和语义关联性参数的乘积,将所述乘积作为每个分割点对应的基因的质量得分。
7.一种文档分割装置,其特征在于,包括:
获取模块,用于获取待分割文档;
分割模块,用于以包含有指定个数的分割点的所述待分割文档作为个体,所述待分割文档中的分割点作为所述个体的基因,基于遗传算法,对所述待分割文档进行分割,确定所述待分割文档中的分割点位置;
其中,所述个体的每个基因的质量基于分割点的长度均匀性参数和语义关联性参数确定,所述长度均匀性参数用于表征分割点左右两侧的片段之间的长度差异,所述语义关联性参数用于表征分割点左右两侧的片段之间的语义关联程度;
所述分割模块,具体用于:
S21,确定初始个体;
S22,计算每个基因的质量;
S23,基于每个基因的质量,执行遗传操作,得到当前一代的多个新个体;
S24,基于每个新个体的每个基因的质量,计算每个新个体的个体适应度,并基于所述个体适应度确定当前一代的最优个体,将所述当前一代的最优个体返回至S22继续执行,直至当前一代的最优个体与前一代的最优个体的个体适应度之差小于预设阈值;
S25,基于当前一代的最优个体中各基因的位置,确定所述待分割文档中的分割点位置。
8.一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的文档分割方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的文档分割方法的步骤。
CN202010501242.4A 2020-06-04 2020-06-04 文档分割方法及装置 Active CN111797634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010501242.4A CN111797634B (zh) 2020-06-04 2020-06-04 文档分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010501242.4A CN111797634B (zh) 2020-06-04 2020-06-04 文档分割方法及装置

Publications (2)

Publication Number Publication Date
CN111797634A CN111797634A (zh) 2020-10-20
CN111797634B true CN111797634B (zh) 2023-09-08

Family

ID=72803016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010501242.4A Active CN111797634B (zh) 2020-06-04 2020-06-04 文档分割方法及装置

Country Status (1)

Country Link
CN (1) CN111797634B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002117019A (ja) * 2000-10-02 2002-04-19 Hewlett Packard Co <Hp> 意味的まとまりに基づいて文書を分割する装置および方法
US6819795B1 (en) * 2000-07-07 2004-11-16 Fuji Xerox Co., Ltd. Genetic segmentation method for data, such as image data streams
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN103678273A (zh) * 2012-09-14 2014-03-26 安徽华贞信息科技有限公司 互联网段落级话题识别系统
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及系统
CN104317786A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种文本段落切片方法及系统
US8949242B1 (en) * 2010-01-21 2015-02-03 Google Inc. Semantic document analysis
KR101534141B1 (ko) * 2014-08-05 2015-07-07 성균관대학교산학협력단 유전 알고리즘을 이용한 감정근거 추출 방법 및 장치, 및 상기 감정근거를 이용한 감성 분류 방법 및 장치
CN105787088A (zh) * 2016-03-14 2016-07-20 南京理工大学 一种基于分段编码遗传算法的文本信息分类方法
CN106155799A (zh) * 2016-08-03 2016-11-23 上海理工大学 基于遗传算法的Codelet调度方法
CN106570518A (zh) * 2016-10-14 2017-04-19 上海新同惠自动化系统有限公司 一种中日文手写文本的识别方法
CN109902289A (zh) * 2019-01-23 2019-06-18 汕头大学 一种面向模糊文本挖掘的新闻视频主题分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451140B2 (en) * 2005-01-11 2008-11-11 Xerox Corporation System and method for proofing individual documents of variable information document runs using document quality measurements

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6819795B1 (en) * 2000-07-07 2004-11-16 Fuji Xerox Co., Ltd. Genetic segmentation method for data, such as image data streams
JP2002117019A (ja) * 2000-10-02 2002-04-19 Hewlett Packard Co <Hp> 意味的まとまりに基づいて文書を分割する装置および方法
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
US8949242B1 (en) * 2010-01-21 2015-02-03 Google Inc. Semantic document analysis
CN103678273A (zh) * 2012-09-14 2014-03-26 安徽华贞信息科技有限公司 互联网段落级话题识别系统
CN103678277A (zh) * 2013-12-04 2014-03-26 东软集团股份有限公司 基于文档分段的构建主题-词汇分布的方法及系统
KR101534141B1 (ko) * 2014-08-05 2015-07-07 성균관대학교산학협력단 유전 알고리즘을 이용한 감정근거 추출 방법 및 장치, 및 상기 감정근거를 이용한 감성 분류 방법 및 장치
CN104317786A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种文本段落切片方法及系统
CN105787088A (zh) * 2016-03-14 2016-07-20 南京理工大学 一种基于分段编码遗传算法的文本信息分类方法
CN106155799A (zh) * 2016-08-03 2016-11-23 上海理工大学 基于遗传算法的Codelet调度方法
CN106570518A (zh) * 2016-10-14 2017-04-19 上海新同惠自动化系统有限公司 一种中日文手写文本的识别方法
CN109902289A (zh) * 2019-01-23 2019-06-18 汕头大学 一种面向模糊文本挖掘的新闻视频主题分割方法

Also Published As

Publication number Publication date
CN111797634A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
US11531926B2 (en) Method and apparatus for generating machine learning model by using distributed computing framework
KR20200110400A (ko) 학습 데이터 증강 정책
CN106445915B (zh) 一种新词发现方法及装置
JP7430820B2 (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
CN109960650B (zh) 基于大数据的应用程序评估方法、装置、介质及电子设备
CN111797634B (zh) 文档分割方法及装置
CN114742035B (zh) 基于注意力机制优化的文本处理方法、网络模型训练方法
CN112598078B (zh) 混合精度训练方法、装置、电子设备及存储介质
US11410036B2 (en) Arithmetic processing apparatus, control method, and non-transitory computer-readable recording medium having stored therein control program
WO2021244203A1 (zh) 参数优化的方法、电子设备和存储介质
CN113807397A (zh) 语义表示模型的训练方法、装置、设备和存储介质
CN111859917A (zh) 主题模型构建方法、设备及计算机可读存储介质
CN112069455A (zh) 一种log-softmax函数硬件加速计算方法
CN117910536B (zh) 文本生成方法及其模型梯度剪枝方法、装置、设备、介质
CN113963433B (zh) 运动搜索方法、装置、电子设备及存储介质
CN109542601B (zh) 策略编译方法、装置、电子设备及计算机存储介质
CN116932713B (zh) 奖励模型训练和奖励值生成方法、装置、设备和介质
CN116909177B (zh) 扫频参数控制系统、方法及电子设备
CN116151215B (zh) 文本处理方法、深度学习模型训练方法、装置以及设备
CN116880404B (zh) 一种基于恒定模型的生产控制方法、装置、设备及介质
JP7260739B2 (ja) 情報処理装置、無線アクセスポイントの配置演算方法、および無線アクセスポイントの配置演算プログラム
CN118094236A (zh) 一种基于动量对比的文本处理方法和系统
CN117786737A (zh) 一种问答数据生成方法、装置、电子设备及介质
CN118260546A (zh) 虚拟资源的分配方法、装置及设备
CN110659670A (zh) 一种在线流处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant