CN116881437A

CN116881437A - 一种获取文本集的数据处理系统

Info

Publication number: CN116881437A
Application number: CN202311155178.9A
Authority: CN
Inventors: 于伟; 王全修; 石江枫; 赵洲洋; 靳雯; 王林
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-10-13
Anticipated expiration: 2043-09-08
Also published as: CN116881437B

Abstract

本申请涉及文本处理技术领域，特别是涉及一种获取文本集的数据处理系统，所述系统包括：若干个初始文本、处理器和存储有计算机程序的存储器，计算机程序被处理器执行时，实现以下步骤：获取关键词向量集，根据任一关键词向量，获取任一初始文本中的目标词向量集，获取目标词向量集对应的目标权重集，根据目标词向量集和目标权重集，获取所述任一初始文本对应的优先值，根据任一优先值，获取到关键词向量集对应的排序文本集。可知，本发明首先根据相似度获取若干个目标词向量，使搜索到的排序文本集更符合用户的需求；还能够根据不同的权重对不同的目标词和目标字符标示出不同深浅程度的颜色，便于用户在对文本进行进一步分析。

Description

一种获取文本集的数据处理系统

技术领域

本发明涉及文本处理技术领域，特别是涉及一种获取文本集的数据处理系统。

背景技术

随着大数据和信息处理设备的发展，搜索工具层出不穷，用户通过在搜索工具的搜索框内输入相关的关键词，会从文本存储库中获取到与关键词相关的若干个文本。目前获取文本的方式通常是，根据用户输入的关键词，从文本数据库中的若干个文本中查找与关键词一致的词，并计算该词占文本的权重，根据权重的大小来确定与关键词相关的文本，但是，这种方式还存在以下问题：

一方面，若用户对所需要的关键词的信息了解不全面，例如在警情系统中查找警情文本时，不清楚目标人的全名，将关键词输入后，这时只查找与关键词一致的词，不能获取到更全面的文本。

另一方面，现有技术中根据用户输入的多个关键词，仅在搜索的文本中对与关键词一致的字符添加统一颜色，不能得知该字符在文本中的重要程度，不利于用户对文本的分析。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种获取文本集的数据处理系统，所述系统包括：若干个初始文本、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：

S100，获取关键词向量集A={A₁，……，A_i，……，A_m}，A_i为第i个关键词向量，i=1……m，m为关键词向量的数量；所述关键词向量是通过词向量构建模型对关键用户输入的关键词进行处理后得到的向量。

S200，根据任一A_i，获取任一初始文本中的目标词向量集B={B₁，……，B_j，……，B_n}，其中，B_j为第j个目标词向量，j=1……n，n为目标词向量的数量。

S300，获取B对应的目标权重集B⁰={B⁰ ₁，……，B⁰ _j，……，B⁰ _n}，其中，B⁰ _j为B_j对应的目标权重，其中，B⁰ _j符合如下条件：

B⁰ _j=L_Tj，d/∑^R _λ=1L_λ，d×log（D/（1+θ_Tj）），

其中，T_j为B_j对应的目标词，d为T_j对应的初始文本，L_Tj，d为T_j在d中出现的次数，R为d中的不同词条的总数，L_λ，d为第λ个词条在d中出现的总次数，D为所述初始文本的总数，θ_Tj为包含有T_j的初始文本的数目。

S400，根据B和B⁰，获取所述任一初始文本对应的优先值S。

S500，根据任一S，获取到A对应的排序文本集。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的一种获取文本集的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明提供了一种获取文本集的数据处理系统，所述系统包括：若干个初始文本、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：获取关键词向量集，根据关键词向量集中的任一关键词向量，获取任一初始文本中的目标词向量集，进而获取目标词向量集对应的目标权重集，根据目标词向量集和目标权重集，获取所述任一初始文本对应的优先值，根据每个初始文本的优先值，对若干个初始文本进行排序，最终获取到关键词向量集对应的排序文本集。本发明提供了一种新的获取文本集的数据处理系统，一方面，通过查找与关键词向量的相似度大于相似度阈值的目标词向量，使查找的与关键词相关的目标词更加全面，并根据若干个目标词向量的加权和获得所需的排序文本集，使搜索到的排序文本集更符合用户的需求；另一方面，通过获取若干个目标词向量对应的目标权重和目标字符向量所对应的最终权重，能够根据不同的权重对不同的目标词和目标字符标示出不同深浅程度的颜色，使用户能够快速得知不同目标词的重要程度，并快速定位到所需要的文本，便于用户在该文本中根据不同目标词的不同字体颜色对文本进行进一步分析。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种获取文本集的数据处理系统执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提供了一种获取文本集的数据处理系统，所述系统包括：若干个初始文本、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：

S100，获取关键词向量集A={A₁，……，A_i，……，A_m}，A_i为第i个关键词向量，i=1……m，m为关键词向量的数量。

具体的，所述关键词向量是通过词向量构建模型对关键用户输入的关键词进行处理后得到的向量。

具体的，所述词向量构建模型可以是Word2Vec模型，本领域技术人员知晓所述Word2Vec模型的具体实施过程，在此不再赘述。

上述，通过词向量构建模型将每个关键词映射到一个固定长度的实数向量，便于根据词语之间的语义和语法关系来确定初始文本中的每个词语，便于根据关键词锁定初始文本中的对应词，以实现若干个目标词的获取。

在一个具体的实施例中，在S200中通过如下步骤获取B_j：

S201，从所述初始文本中获取初始词集E={E₁，……，E_p，……，E_q}，E_p为第p个初始词，p=1……q，q为初始词的数量；本领域技术人员可以知晓现有技术中任意一种从文本中获取词的方法均落入到本发明的保护范围，在此不再赘述。

S202，根据任一A_i和任一E_p，获取A_i和E⁰ _p的相似度K。

具体的，K符合如下条件：

K=(A_i·E⁰ _p)/(||A_i||×||E⁰ _p||)，其中，E⁰ _p为E_p对应的初始词向量。

具体的，所述初始词向量的获取方式与所述关键词向量的获取方式一致。

S203，若K＞K₀，将E⁰ _p确定为B_j，其中，K₀为相似度阈值。

具体的，所述相似度阈值为本领域技术人员根据实际需求设置的值，例如：80%、85%等。

上述，根据计算的初始文本中的每个初始词向量和关键词向量的相似度，能够得知K越大时，对应的初始词向量和关键词向量的相似度越大，进而得到与关键词向量的相似度大于相似度阈值的若干个目标词向量。

S300，获取B对应的目标权重集B⁰={B⁰ ₁，……，B⁰ _j，……，B⁰ _n}，其中，B⁰ _j为B_j对应的目标权重。

具体的，B⁰ _j符合如下条件：

B⁰ _j=L_Tj，d/∑^R _λ=1L_λ，d×log（D/（1+θ_Tj））。

其中，T_j为B_j对应的目标词，d为T_j对应的初始文本，L_Tj，d为T_j在d中出现的次数，R为d中的不同词条的总数，L_λ，d为第λ个词条在d中出现的总次数，可以理解为：在统计R时，相同的词条记为一个词条；D为所述初始文本的总数，θ_Tj为包含有T_j的初始文本的数目。

上述，在计算每个目标词向量在某一初始文本中的目标权重时，首先统计该目标词向量所对应的目标词在该初始文本中出现的频率，再对含有该目标词的初始文本的个数进行统计，使得最终计算到的目标词向量的目标权重更加准确。

S400，根据B和B⁰，获取所述任一初始文本对应的优先值S。

具体的，S符合如下条件：

S=∑ⁿ _j=1B_j×B⁰ _j。

上述，通过将关键词向量与每个初始文本对应的若干个目标词向量进行加权和，能够得到每个初始文本关于关键词的优先值，从而得到每个初始文本与关键词的相关程度，使搜索到的文本更加准确。

S500，根据任一S，获取到A对应的排序文本集。

具体的，所述排序文本集是根据若干个初始文本分别对应的S按照从大到小的顺序，对若干个初始文本进行排序后得到文本集。

上述，通过根据每个初始文本的优先值，对所以的初始文本进行排序，能够将优先值越高的初始文本排在越前边，便于用户快速找到与所输入的关键词相关的初始文本，提高了用户的使用效率，同时提高了搜索的准确度。

在一个具体的实施例中，在S500中还通过如下步骤获取排序文本集：

S501，根据B和B对应的n个目标词，获取中间词向量集C={C₁，……，C_e，……，C_f}，C_e为第e个中间词向量，g=1……h，h为中间词向量的数量。

在一个具体的实施例中，在S501中通过如下步骤获取C_e：

S5011，根据任一目标词，若其他n-1个目标词中存在有与该目标词相同的字符，将该目标词作为中间词；可以理解为：中间词既是目标词，又是其他目标词中的单个或多个字符。例如，目标词有：李、李小江，则中间词为：李。

S5012，根据B，获取所述中间词对应的中间词向量C_e。

上述，通过获取中间词，便于后续对中间词进行处理，以使用户对若干个初始文本中出现的中间词和目标词进行区别，有利于用户了解到与输入的关键词相关的词语信息。

S502，根据B⁰，获取目标字符向量的最终权重W，其中，W符合如下条件：

W=W₁+W₂，其中，W₁为从B⁰中获取的任一C_e对应的第一中间权重，W₂为从B⁰中获取的中间目标词向量对应的第二中间权重。

具体的，所述目标字符向量为目标字符对应的向量。

具体的，所述目标字符为目标词中与中间词相同的单个或多个字符；可以理解为：若中间词为单个字符，所述目标词中包含有与中间词相同的字符，若中间词为多个字符，所述目标词中包含有与中间词相同的多个字符。

上述，通过在获取目标词向量的权重的基础上，再次获取中间词向量的权重，以对目标字符向量进行权重计算，从而能够表示出重叠词的权重区别。

在一个具体的实施例中，在S502中通过如下步骤获取所述中间目标词向量：

S5021，获取任一C_e对应的中间词。

S5022，从B对应的n个目标词中获取包含中间词的若干个中间目标词；任一所述中间目标词与所述中间词不一致；可以理解为：所述中间目标词为将从所述目标词集获取的若干个中间目标词中去除与中间词一致的词后得到的任一目标词。

S5023，根据B，获取所述中间目标词对应的中间目标词向量。

具体的，所述中间目标词向量为根据中间目标词对应的目标词，从B中查找到的该目标词对应的向量。

S503，根据B⁰和W，分别对若干个目标词和目标字符向量对应的目标字符添加对应的字体颜色。

在一个具体的实施例中，在S503中还包括如下步骤：

S5031，根据B⁰和若干个目标字符向量分别对应的最终权重W，获取任一目标词和任一目标字符分别对应的RGB值。

具体的，RGB₁=（W_max-W_min）/256×W⁰，其中，RGB₁为任一目标词对应的RGB值，W_max为B⁰和若干个目标字符向量分别对应的最终权重W中的最大值，W_min为B⁰和若干个目标字符向量分别对应的最终权重W中的最小值，W⁰为从B⁰中获取的任一目标词向量对应的目标权重。

具体的，RGB₂=（W_max-W_min）/256×W，其中，RGB₂为任一目标字符对应的RGB值。

S5032，根据每个目标词和目标字符对应的RGB值，分别对若干个目标词和目标字符添加对应的字体颜色；可以理解为：若目标词中包含有目标字符，则目标字符的颜色是以目标字符对应的RGB值为标准添加的颜色。

上述，通过根据不同词的权重添加不同的字体颜色，能够根据用户输入的关键词将若干个初始文本中与关键词相关的词表示出不同的重要程度，使初始文本中的目标词一目了然，从而使得用户能够根据不同的字体颜色快速定位到所需要的文本。

S504，根据添加的字体颜色和若干个初始文本分别对应的优先值，获取所述排序文本集对应的最终文本集；可以理解为：所述最终文本集是在排序文本集的基础上，对若干个排序文本中的目标词分别添加对应的字体颜色后得到的若干个最终文本所组成的集合。

上述，通过根据初始文本的优先值进行排序，并在排序的基础上对初始文本的目标词添加了不同颜色，能够为用户优先推荐与搜索的关键词相关度高的文本，并便于用户在该文本中根据不同目标词的不同字体颜色对文本进行进一步分析。

综上，本发明提供了一种获取文本集的数据处理系统，所述系统包括：若干个初始文本、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：获取关键词向量集，根据关键词向量集中的任一关键词向量，获取任一初始文本中的目标词向量集，进而获取目标词向量集对应的目标权重集，根据目标词向量集和目标权重集，获取所述任一初始文本对应的优先值，根据每个初始文本的优先值，对若干个初始文本进行排序，最终获取到关键词向量集对应的排序文本集。本发明提供了一种新的获取文本集的数据处理系统，一方面，通过查找与关键词向量的相似度大于相似度阈值的目标词向量，使查找的与关键词相关的目标词更加全面，并根据若干个目标词向量的加权和获得所需的排序文本集，使搜索到的排序文本集更符合用户的需求；另一方面，通过获取若干个目标词向量对应的目标权重和目标字符向量所对应的最终权重，能够根据不同的权重对不同的目标词和目标字符标示出不同深浅程度的颜色，使用户能够快速得知不同目标词的重要程度，并快速定位到所需要的文本，便于用户在该文本中根据不同目标词的不同字体颜色对文本进行进一步分析。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种获取文本集的数据处理系统，其特征在于，所述系统包括：若干个初始文本、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：

S100，获取关键词向量集A={A₁，……，A_i，……，A_m}，A_i为第i个关键词向量，i=1……m，m为关键词向量的数量；所述关键词向量是通过词向量构建模型对关键用户输入的关键词进行处理后得到的向量；

S200，根据任一A_i，获取任一初始文本中的目标词向量集B={B₁，……，B_j，……，B_n}，其中，B_j为第j个目标词向量，j=1……n，n为目标词向量的数量；

B⁰ _j=L_Tj，d/∑^R _λ=1L_λ，d×log（D/（1+θ_Tj）），

其中，T_j为B_j对应的目标词，d为T_j对应的初始文本，L_Tj，d为T_j在d中出现的次数，R为d中的不同词条的总数，L_λ，d为第λ个词条在d中出现的总次数，D为所述初始文本的总数，θ_Tj为包含有T_j的初始文本的数目；

S400，根据B和B⁰，获取所述任一初始文本对应的优先值S；

S500，根据任一S，获取到A对应的排序文本集。

2.根据权利要求1所述的获取文本集的数据处理系统，其特征在于，在S200中通过如下步骤获取B_j：

S201，从所述初始文本中获取初始词集E={E₁，……，E_p，……，E_q}，E_p为第p个初始词，p=1……q，q为初始词的数量；

S202，根据任一A_i和任一E_p，获取A_i和E⁰ _p的相似度K，其中，K符合如下条件：

K=(A_i·E⁰ _p)/(||A_i||×||E⁰ _p||)，其中，E⁰ _p为E_p对应的初始词向量；

3.根据权利要求2所述的获取文本集的数据处理系统，其特征在于，所述初始词向量的获取方式与所述关键词向量的获取方式一致。

4.根据权利要求1所述的获取文本集的数据处理系统，其特征在于，在S400中，S符合如下条件：

S=∑ⁿ _j=1B_j×B⁰ _j。

5.根据权利要求1所述的获取文本集的数据处理系统，其特征在于，在S500中还通过如下步骤获取排序文本集：

S501，根据B和B对应的n个目标词，获取中间词向量集C={C₁，……，C_e，……，C_f}，C_e为第e个中间词向量，g=1……h，h为中间词向量的数量；

W=W₁+W₂，其中，W₁为从B⁰中获取的任一C_e对应的第一中间权重，W₂为从B⁰中获取的中间目标词向量对应的第二中间权重；

S503，根据B⁰和W，分别对若干个目标词和目标字符向量对应的目标字符添加对应的字体颜色；

S504，根据添加的字体颜色和若干个初始文本分别对应的优先值，获取所述排序文本集对应的最终文本集。

6.根据权利要求5所述的获取文本集的数据处理系统，其特征在于，在S501中通过如下步骤获取C_e：

S5011，根据任一目标词，若其他n-1个目标词中存在有与该目标词相同的字符，将该目标词作为中间词；

S5012，根据B，获取所述中间词对应的中间词向量C_e。

7.根据权利要求5所述的获取文本集的数据处理系统，其特征在于，在S502中通过如下步骤获取所述中间目标词向量：

S5021，获取任一C_e对应的中间词；

S5022，从B对应的n个目标词中获取包含中间词的若干个中间目标词；任一所述中间目标词与所述中间词不一致；

S5023，根据B，获取所述中间目标词对应的中间目标词向量。

8.根据权利要求5所述的获取文本集的数据处理系统，其特征在于，在S503中还包括如下步骤：

S5031，根据B⁰和若干个目标字符向量分别对应的最终权重W，获取任一目标词和任一目标字符分别对应的RGB值；

其中，RGB₁=（W_max-W_min）/256×W⁰，RGB₁为任一目标词对应的RGB值，W_max为B⁰和若干个目标字符向量分别对应的最终权重W中的最大值，W_min为B⁰和若干个目标字符向量分别对应的最终权重W中的最小值，W⁰为从B⁰中获取的任一目标词向量对应的目标权重；

RGB₂=（W_max-W_min）/256×W，其中，RGB₂为任一目标字符对应的RGB值；

S5032，根据每个目标词和目标字符对应的RGB值，分别对若干个目标词和目标字符添加对应的字体颜色。