CN115455950B

CN115455950B - 一种获取文本的数据处理系统

Info

Publication number: CN115455950B
Application number: CN202211180627.0A
Authority: CN
Inventors: 刘羽; 张正义; 傅晓航; 李�一
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-06-16
Anticipated expiration: 2042-09-27
Also published as: CN115455950A

Abstract

本发明提供了一种获取文本的数据处理系统，通过将原始文本标题中最大共享字符串与任一原始文本标题字符串进行比较，获取第一文本列表，因此，可以选择出原始文本列表中标题相近且发布时间点相差相近的第一文本，通过遍历第一文本列表，获取第一文本列表中子文本数最少的第一文本作为第二文本，并对第二文本进行文本段落分句处理，获取与第二子文本之间的相似度大于第一预设相似度阈值的第一子文本作为第三子文本集，因此，通过获取子文本数最少的第一文本作为第二文本，并根据第二文本进行后续处理，提高了后续处理的效率，节省后续处理的程序，进而节省了时间资源，提高用户体验感。

Description

一种获取文本的数据处理系统

技术领域

本发明涉及信息提取技术领域，特别是涉及一种获取文本的数据处理系统。

背景技术

现有技术中，当提取标题相同文本中的内容时，往往是通过爬虫技术针对一个文本进行处理，当前爬虫技术对文本进行处理时，可以去除和文本内容差异较大的内容，例如，广告和其他不相关文本内容的推荐，保留文本本身内容并且也会保留与文本本身内容相关的推荐。

现有技术中存在的问题：只针对一个文本进行处理会导致得到的文本内容不够准确，可能会出现误将文本本身内容删除的情况，且通过爬虫技术进行处理会导致与文本本身内容相关的内容留在文本内容中导致文本内容不够简洁，并且消除不了文本内容中的附图说明，使文本内容不精简，导致用户体验差。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种获取文本的数据处理系统，包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：原始文本列表A＝{A₁，……，A_i，……，A_m}，A_i为第i个原始文本，i的取值为1到m，m为原始文本的数量，当处理器被计算机程序执行时，实现如下步骤：

S100、根据A，获取第一文本列表B＝{B₁，……，B_j，……，B_n}，B_j＝{B_j1，……，B_jx，……，B_jqx}，B_jx为B_j对应的第x个第一子文本，x的取值为1到qj，qj为B_j对应的第一子文本数量，j的取值为1到n，n为第一文本的数量。

S200、遍历B，获取B_min＝{B¹ _min，……，B^y _min，……，B^p _min}，B^y _min＝{B^y1 _min，……，B^ya _min，……，

B^ycy _min}，B^ya _min为B^y _min对应的第a个第二子文本语句，a的取值为1到cy，cy为B^y _min对应的第二子文本语句的数量，y的取值为1到p，p为B_min对应的第二子文本的数量，B_min为子文本数量最小的第一文本。

S300、基于B_jx与B^y _min之间的相似度，获取第三子文本集D＝{D₁，……，D_y，……，D_p}，D_y＝{D_y1，……，D_yt，……，D_yky}，D_yt为D_y对应的第t个第三子文本，t的取值为1到ky，ky为D_y对应的第三子文本的数量，第三子文本为与第二子文本之间的相似度大于第一预设相似度阈值D⁰¹的第一子文本。

S400、根据D，获取第四子文本集F＝{F₁,……，F_e，……，F_h}，F_e＝{F_e1，……，F_er，……，F_ese}，F_er＝{F_er1，……，F_erb，……，F_erv}，F_erb为F_er对应的第b个第四子文本语句，b的取值为1到vr，vr为F_er对应的第四子文本语句的数量，r的取值为1到se，se为F_e对应的第四子文本的数量，e的取值为1到h，h为第四子文本的数量，第四子文本列表为ky不小于k⁰的第三子文本列表，k⁰为预设子文本数量阈值。

S500、基于F_erb与B^ye _min之间的相似度，获取第五子文本集W＝{W₁，……，W_e，……，W_h}，W_e＝{W_e1，……，W_ef，……，W_ede}，W_ef为W_e对应的第f个第五子文本语句信息，f的取值为1到de，de为W_e对应的第五子文本语句信息的数量，其中，第五子文本语句信息包括：第五子文本语句和第五子文本语句对应的数量，SW_ef为第五子文本语句的数量，第五子文本语句为与第二子文本语句之间的相似度大于第二预设相似度阈值D⁰²的第四子文本语句。

S600、根据W，获取第六子文本集Z并将Z作为最终文本Z⁰，其中,Z＝{Z₁，……，Z_e，……，Z_h}，Z_e＝{Z_e1，……，Z_eu，……，Z_ewe}，Z_eu为Z_e对应的第u个第六子文本语句，u的取值为1到we，we为Z_e对应的第六子文本语句的数量，第六子文本语句为SW⁰ _ef＞p⁰的W_ef中的任一第五子文本语句，p⁰为预设子文本语句数量阈值。

本发明至少具有以下有益效果：

(1)通过将原始文本标题中最大共享字符串与任一原始文本标题字符串进行比较，获取目标文本列表，再获取到目标文本列表中发布时间点最早的目标文本，并将目标文本列表中任一目标文本对应的发布日期与目标文本最早发布时间点进行比较，获取关键文本列表，再通过计算任一关键文本之间的相似度，获取第一文本列表，因此，可以选择出原始文本列表中标题相近且发布时间点相差相近的第一文本，提高了后续处理的效率，节省后续处理的程序，进而节省了时间资源。

(2)通过遍历第一文本列表，获取第一文本列表中子文本数最少的第一文本作为第二文本，并对第二文本进行文本段落分句处理，再计算B_jx与B^y _min之间的相似度，并获取与第二子文本之间的相似度大于第一预设相似度阈值的第一子文本作为第三子文本集，因此，通过获取子文本数最少的第一文本作为第二文本，并根据第二文本进行后续处理，提高了后续处理的效率，节省后续处理的程序，进而节省了时间资源。

(3)通过获取第六子文本集中第六子文本语句对应的字体格式，并对第六子文本语句进行筛选，以排除第六子文本中包含的附图形容句，使最终文本更加精简，内容更加准确，提高了用户的阅读效率，提高了用户体验感。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种获取文本的数据处理系统执行计算机程序的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种获取文本的数据处理系统，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：原始文本列表A＝{A₁，……，A_i，……，A_m}，A_i为第i个原始文本，i的取值为1到m，m为原始文本的数量，当处理器被计算机程序执行时，如图1所示，实现如下步骤：

S100、根据A，获取第一文本列表B＝{B₁，……，B_j，……，B_n}，B_j＝{B_j1，……，B_jx，……，B_jqx}，B_jx为B_j对应的第x个第一子文本，x的取值为1到qj，qj为B_j对应的第一子文本数量，j的取值为1到n，n为第一文本的数量，所述第一文本为满足预设文本条件的原始文本。

具体地，将第一文本进行文本分段处理获取第一子文本，本领域技术人员知晓，任意一种对第一文本进行文本分段处理的方法均落入本发明保护范围内，在此不再赘述。

进一步地，子文本的分解为首行缩进x个字符，本领域技术人员可根据实际需要设置首行缩进字符值，在此不再赘述。

进一步地，所述第一文本为满足预设文本条件的原始文本。

进一步地，所述预设文本条件包括第一文本条件和第二文本条件。

进一步地，所述第一文本条件为原始文本标题中最大共享字符串与对应的原始文本标题字符串之间的比值大于预设字符串阈值，所述第二文本条件为满足第一条件的原始文本最早发布时间节点小于预设发布时间节点。

进一步地，在S100前还包括如下步骤获取B：

S101、根据A，获取目标文本列表C＝{C₁，……，C_g，……，C_z}，C_g＝(C⁰ _g，DT⁰ _g)，C⁰ _g为第g个目标文本对应的标题名称，DT⁰ _g为第g个目标文本对应的时间节点，g的取值为1到z，z为目标文本的数量，所述目标文本为满足第一文本条件的原始文本；

S103、遍历C，选取C中时间节点最大值对应的目标文本作为指定文本C_max；

S105、根据C_max，获取关键文本列表C′＝{C′₁，……，C′_ε，……，C′_λ}，C′_ε为ε个关键文本，ε的取值为1到λ，λ为关键文本的数量，所述关键文本为满足第二文本条件的目标文本；

S107、基于B_j之间的相似度，获取第一文本列表B。

具体地，使用语义相似度(Doc Embedding)计算方法计算任一B_j间相似度。

上述，S101-S107通过将原始文本标题中最大共享字符串与任一原始文本标题字符串进行比较，获取目标文本列表，再获取到目标文本列表中发布时间点最早的目标文本，并将目标文本列表中任一目标文本对应的发布日期与目标文本最早发布时间点进行比较，获取关键文本列表，再通过计算任一关键文本之间的相似度，获取第一文本列表，因此，可以选择出原始文本列表中标题相近且发布日期相差相近的第一文本，提高了后续处理的效率，节省后续处理的程序，进而节省了时间资源。

具体地，将第二子文本进行子文本分句处理获取到第二子文本语句，本领域技术人员知晓，任意一种对第二子文本进行分句处理获取第二子文本语句的方法均落入本发明保护范围内，在此不再赘述。

S300、基于B_jx与B^y _min之间的相似度，获取第三子文本集D＝{D₁，……，D_y，……，D_p}，D_y＝{D_y1，……，D_yt，……，D_yky}，D_yt为D_y对应的第t个第三子文本，t的取值为1到ky，ky为D_y对应的第三子文本的数量，所述第三子文本为与第二子文本之间的相似度大于第一预设相似度阈值D⁰¹的第一子文本。

具体地，本领域技术人员知晓，任意一种计算子文本之间相似度的方法均落入本发明保护范围内，在此不再赘述。

进一步地，本领域技术人员可根据实际需求设置所述第一相似度阈值，在此不再赘述。

上述，S100-S300通过遍历第一文本列表，获取第一文本列表中子文本数最少的第一文本作为第二文本，并对第二文本进行文本段落分句处理，再计算B_jx与B^y _min之间的相似度，并获取与第二子文本之间的相似度大于第一预设相似度阈值的第一子文本作为第三子文本集，因此，通过获取子文本数最少的第一文本作为第二文本，并根据第二文本进行后续处理，提高了后续处理的效率，节省后续处理的程序，进而节省了时间资源。

S400、根据D，获取第四子文本集F＝{F₁,……，F_e，……，F_h}，F_e＝{F_e1，……，F_er，……，F_ese}，F_er＝{F_er1，……，F_erb，……，F_erv}，F_erb为F_er对应的第b个第四子文本语句，b的取值为1到vr，vr为F_er对应的第四子文本语句的数量，r的取值为1到se，se为F_e对应的第四子文本的数量，e的取值为1到h，h为第四子文本的数量，所述第四子文本列表为ky不小于k⁰的第三子文本列表，k⁰为预设子文本数量阈值。

具体地，本领域技术人员可根据实际需求设置预设子文本数量阈值，在此不再赘述。

上述，通过对第三子文本列表设置预设子文本数量阈值，进行筛选，以排除跟第三文本内容无关的子文本。

S500、基于F_erb与B^ye _min之间的相似度，获取第五子文本集W＝{W₁，……，W_e，……，W_h}，W_e＝{W_e1，……，W_ef，……，W_ede}，W_ef为W_e对应的第f个第五子文本语句信息，f的取值为1到de，de为W_e对应的第五子文本语句信息的数量，其中，第五子文本语句信息包括：第五子文本语句和第五子文本语句对应的数量，SW_ef为第五子文本语句的数量，所述第五子文本语句为与第二子文本语句之间的相似度大于第二预设相似度阈值D⁰²的第四子文本语句。

具体地，本领域技术人员知晓，任意一种计算子文本之间语句相似度的方法均落入本发明保护范围内，例如：编辑距离计算法、杰卡德系数计算法、TF计算法、TF-IDF计算法以及Word2Vec计算法等，在此不再赘述。

进一步地，D⁰¹＝D⁰²。

S600、根据W，获取第六子文本集Z并将Z作为最终文本Z⁰，其中,Z＝{Z₁，……，Z_e，……，Z_h}，Z_e＝{Z_e1，……，Z_eu，……，Z_ewe}，Z_eu为Z_e对应的第u个第六子文本语句，u的取值为1到we，we为Z_e对应的第六子文本语句的数量，所述第六子文本语句为SW⁰ _ef＞p⁰的W_ef中的任一第五子文本语句，p⁰为预设子文本语句数量阈值。

具体地，p⁰＝k⁰。

上述，通过对第五子文本语句设置预设子语句数量阈值，进行筛选，以排除跟第五文本内容无关的语句，再排除与第五文本内容无关的语句进行选择，以获取最终文本。

进一步地，在S600后，还可包括如下步骤：

S610、对Z进行处理，获取第一中间子文本集Z′＝{Z′₁，……，Z′_e，……，Z′_h}，Z′_e＝{Z′_e1，……，Z′_eu，……，Z′_ewe}，Z′_eu为Z′_e对应的第一中间子文本语句信息，其中，第一中间语句信息包括：第一中间语句和第一中间语句对应的字体格式，GZ′_eu为Z′_eu对应的字体格式；

S630、获取第二中间子文本集Z″并将Z″作为Z⁰,其中，Z″＝{Z″₁，……，Z″_e，……，Z″_h}，Z″_e＝{Z″_e，……，Z″_eβ，……，Z″_eδ}，Z″_eβ为Z″_e对应的第β个第二中间子文本语句，β的取值为1到δ，δ为Z″_e对应的第二中间子文本语句的数量，所述第二中间子文本语句为字体格式在第一中间文本中总字体格式的数量大于预设字体格式数量阈值G⁰的第一中间子文本语句。

具体地，G⁰＝5，

上述，S610-S630通过获取第六子文本集中第六子文本语句对应的字体格式，并对第六子文本语句进行筛选，以排除第六子文本中包含的附图形容句，使最终文本更加精简，内容更加准确，提高了用户的阅读效率。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和计算机设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种获取文本的数据处理系统，其特征在于，所述系统包括：数据库、处理器和存储有计算机程序的存储器，其中，所述数据库包括：原始文本列表A＝{A₁，……，A_i，……，A_m}，A_i为第i个原始文本，i的取值为1到m，m为原始文本的数量，当计算机程序被处理器执行时，实现如下步骤：

S100、根据A，获取第一文本列表B＝{B₁，……，B_j，……，B_n}，B_j＝{B_j1，……，B_jx，……，B_jqx}，B_jx为B_j对应的第x个第一子文本，x的取值为1到qx，qx为B_j对应的第一子文本数量，j的取值为1到n，n为第一文本的数量，将第一文本进行文本分段处理获取第一子文本；

B^ycy _min}，B^ya _min为B^y _min对应的第a个第二子文本语句，a的取值为1到cy，cy为B^y _min对应的第二子文本语句的数量，y的取值为1到p，p为B_min对应的第二子文本的数量，B_min为子文本数量最小的第一文本；

S300、基于B_jx与B^y _min之间的相似度，获取第三子文本列表集D＝{D₁，……，D_y，……，D_p}，D_y＝{D_y1，……，D_yt，……，D_yky}，D_yt为D_y对应的第t个第三子文本，t的取值为1到ky，ky为D_y对应的第三子文本的数量，所述第三子文本为与第二子文本之间的相似度大于第一预设相似度阈值D⁰¹的第一子文本；

S400、根据D，获取第四子文本列表集F＝{F₁,……，F_e，……，F_h}，F_e＝{F_e1，……，F_er，……，F_ese}，F_er＝{F_er1，……，F_erb，……，F_erv}，F_erb为F_er对应的第b个第四子文本语句，b的取值为1到v，v为F_er对应的第四子文本语句的数量，r的取值为1到se，se为F_e对应的第四子文本的数量，e的取值为1到h，h为第四子文本列表的数量，F_e为ky不小于k⁰的任意D_y，k⁰为预设子文本数量阈值；

S500、基于F_erb与B^ye _min之间的相似度，获取第五子文本集W＝{W₁，……，W_e，……，W_h}，W_e＝{W_e1，……，W_ef，……，W_ede}，W_ef为W_e对应的第f个第五子文本语句信息，f的取值为1到de，de为W_e对应的第五子文本语句信息的数量，其中，第五子文本语句信息包括：第五子文本语句和第五子文本语句对应的数量，SW_ef为第五子文本语句的数量，所述第五子文本语句为与第二子文本语句之间的相似度大于第二预设相似度阈值D⁰²的第四子文本语句；

S600、根据W，获取第六子文本集Z并将Z作为最终文本Z⁰，其中,Z＝{Z₁，……，Z_e，……，Z_h}，Z_e＝{Z_e1，……，Z_eu，……，Z_ewe}，Z_eu为Z_e对应的第u个第六子文本语句，u的取值为1到we，we为Z_e对应的第六子文本语句的数量，所述第六子文本语句为SW_ef＞p⁰的W_ef中的任一第五子文本语句，p⁰为预设子文本语句数量阈值；

在S100前还包括如下步骤：

S105、根据C_max，获取关键文本列表C′＝{C′₁，……，C′_ε，……，C′_λ}，C′_ε为第ε个关键文本，ε的取值为1到λ，λ为关键文本的数量，所述关键文本为满足第二文本条件的目标文本；

S107、基于C′_ε之间的相似度，获取第一文本列表B；

所述第一文本条件为原始文本标题中最大共享字符串与对应的原始文本标题字符串之间的比值大于预设字符串阈值，所述第二文本条件为满足第一文本条件的原始文本最早发布时间节点小于预设发布时间节点。

2.根据权利要求1所述的系统，其特征在于，在S600后，还可包括如下步骤：

S610、对Z进行处理，获取第一中间子文本集Z′＝{Z′₁，……，Z′_e，……，Z′_h}，Z′_e＝{Z′_e1，……，Z′_eu，……，Z′_ewe}，Z′_eu为Z′_e对应的第一中间子文本语句信息，其中，第一中间子文本语句信息包括：第一中间子文本语句和第一中间子文本语句对应的字体格式，GZ′_eu为Z′_eu对应的字体格式；

S630、获取第二中间子文本集Z″并将Z″作为Z⁰,其中，Z″＝{Z″₁，……，Z″_e，……，Z″_h}，Z″_e＝{Z″_e1，……，Z″_eβ，……，Z″_eδ}，Z″_eβ为Z″_e对应的第β个第二中间子文本语句，β的取值为1到δ，δ为Z″_e对应的第二中间子文本语句的数量，所述第二中间子文本语句为相同字体格式在第一中间子文本中的数量大于预设字体格式数量阈值G⁰的第一中间子文本语句。

3.根据权利要求2所述的系统，其特征在于，G⁰≥5。

4.根据权利要求1所述的系统，其特征在于，使用语义相似度计算方法计算C′_ε间相似度。

5.根据权利要求1所述的系统，其特征在于，D⁰¹＝D⁰²。

6.根据权利要求1所述的系统，其特征在于，k⁰＝p⁰。

7.根据权利要求1所述的系统，其特征在于，子文本的分解为首行缩进x⁰个字符。