CN115454356B

CN115454356B - 基于识别和聚合算法的数据文件处理方法、装置和设备

Info

Publication number: CN115454356B
Application number: CN202211320722.6A
Authority: CN
Inventors: 滕济可; 刘亚猛
Original assignee: Internet Moment Beijing Information Technology Co ltd
Current assignee: Internet Moment Beijing Information Technology Co ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-24
Anticipated expiration: 2042-10-26
Also published as: CN115454356A

Abstract

本发明公开了基于识别和聚合算法的数据文件处理方法、装置和设备，方法包括：获取目标数据项集合，并基于简码索引规则建立目标数据项集合的多个存储区块；将待处理的数据文件进行分块，并对每一数据块的数据项进行初步识别；基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，将该数据项收录至对应的数据子集中；对每一数据子集中的数据项进行排序，将所有数据子集进行聚合。本发明能够极大减少数据项的重复比对，进而减少了资源浪费。

Description

基于识别和聚合算法的数据文件处理方法、装置和设备

技术领域

本发明属于数据处理技术领域，具体涉及基于识别和聚合算法的数据文件处理方法、装置和设备。

背景技术

现有技术中，从数据文件内识别出指定数据项的处理方法，通常有两种处理方法，一种是根据要识别的数据项在数据文件中进行逐个全文扫描，这种方式要求识别每一数据项均需要对数据文件进行一次全文扫描；另一种是将数据文件划分为多个数据块，同样需要对待识别的数据项进行逐个识别处理。可见，上述两种方式均存在大量的重复比对操作，由此导致了大量的算力和存储空间的浪费，进而造成了大量的资源耗费。

发明内容

本发明的目的是提供基于识别和聚合算法的数据文件处理方法、装置和设备，用以解决现有技术中存在大量的重复比对操作，由此导致了大量的算力和存储空间的浪费，进而造成了大量的资源耗费的技术问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面提供一种基于识别和聚合算法的数据文件处理方法，包括：

获取目标数据项集合，并基于简码索引规则建立所述目标数据项集合的多个存储区块，其中，每一简码索引对应一个存储区块；

将待处理的数据文件进行分块，并对每一数据块的数据项进行初步识别；

基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，当匹配成功时，将该数据项收录至对应的数据子集中；

基于简码排序规则对每一数据子集中的数据项进行排序，并基于聚合算法将所有数据子集进行聚合，形成所述数据文件的目标数据项识别结果。

在一种可能的设计中，基于简码索引规则建立所述目标数据项集合的多个存储区块，包括：

按照0-9的数字简码索引规则和/或A-Z的字母简码索引规则建立与简码索引数量对应的多个存储区块；

根据目标数据项集合中每一目标数据项的首字符所对应的简码索引，将每一目标数据项存储至对应的存储区块中，其中，所述首字符包括首数字和首字母。

在一种可能的设计中，将待处理的数据文件进行分块，包括：

根据计算机设备的CPU核数m，将待处理的数据文件分为m个数据块。

在一种可能的设计中，对每一数据块的数据项进行初步识别，包括：

对每一数据块中的标识符进行识别，并基于标识符将每一数据块分割为多个数据项。

在一种可能的设计中，所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则，其中，0-9的数字排序规则表示当数据项的首字符是数字时，按照0-9的顺序进行排序，当两数据项的首数字相同，则按照第二个数字排序，依次递归；A-Z的字母排序规则表示当数据项的首字符是字母时，按照A-Z的顺序进行排序，当两数据项的首字母相同，则按照第二个字母排序，依次递归。

在一种可能的设计中，在对每一数据块的数据项进行初步识别之后，所述方法还包括：

基于简码排序规则对每一数据块中的数据项进行排序，得到对应的数据项序列。

在一种可能的设计中，基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，包括：

基于k(n)识别算法将每一数据项序列中的数据项逐项与A编码或0编码做取模计算，并根据余数值定位每一数据项所对应的存储区块，其中，n表示识别算法的输入参数；

基于k(n)识别算法将每一数据项与对应存储区块中的目标数据项的字符串或数字进行匹配，若一致，则匹配成功。

在一种可能的设计中，基于聚合算法将所有数据子集进行聚合，包括：

基于聚合算法

将所有数据子集进行聚合，聚合公式如下：

；

其中，m表示数据子集的数量，

表示排序后的数据子集，

表示第j个数据子集。

第二方面提供一种基于识别和聚合算法的数据文件处理装置，包括：

存储区块建立模块，用于获取目标数据项集合，并基于简码索引规则建立所述目标数据项集合的多个存储区块，其中，每一简码索引对应一个存储区块；

初步识别模块，用于将待处理的数据文件进行分块，并对每一数据块的数据项进行初步识别；

识别匹配模块，用于基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，当匹配成功时，将该数据项收录至对应的数据子集中；

排序聚合模块，用于基于简码排序规则对每一数据子集中的数据项进行排序，并基于聚合算法将所有数据子集进行聚合，形成所述数据文件的目标数据项识别结果。

在一种可能的设计中，在基于简码索引规则建立所述目标数据项集合的多个存储区块时，存储区块建立模块具体用于：

在一种可能的设计中，在将待处理的数据文件进行分块时，初步识别模块具体用于：

在一种可能的设计中，在对每一数据块的数据项进行初步识别时，初步识别模块具体用于：

在一种可能的设计中，所述初步识别模块还用于：

在一种可能的设计中，在基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配时，识别匹配模块具体用于：

在一种可能的设计中，在基于聚合算法将所有数据子集进行聚合时，排序聚合模块具体用于：

基于聚合算法

将所有数据子集进行聚合，聚合公式如下：

；

其中，m表示数据子集的数量，

表示排序后的数据子集，

表示第j个数据子集。

第三方面，本发明提供一种计算机设备，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面任意一种可能的设计中所述的基于识别和聚合算法的数据文件处理方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面任意一种可能的设计中所述的基于识别和聚合算法的数据文件处理方法。

第五方面，本发明提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面任意一种可能的设计中所述的基于识别和聚合算法的数据文件处理方法。

本申请相较于现有技术的有益效果为：

本发明通过将目标数据项集合按照简码索引存储在对应的存储区块中，将数据文件进行分块，对数据块进行初步识别得到多个数据项，然后基于识别算法将数据块中每一数据项对应的存储区块进行定位和匹配；通过简码排序规则对每一数据子集中的数据项进行排序，并基于聚合算法将所有数据子集进行聚合，形成所述数据文件的目标数据项识别结果，从而将每一数据项的匹配区域缩小至一个存储区块，即仅在某一存储区块中去识别该数据项是否是待识别的目标数据项，当识别为是时，则收录在数据子集中，最后将各数据子集进行聚合，能够得到数据文件中目标数据项的识别结果，能够极大减少重复的比对操作，进而减少了资源浪费。

附图说明

图1为本发明实施例中的基于识别和聚合算法的数据文件处理方法的流程图；

图2为本发明实施例中的基于识别和聚合算法的数据文件处理方法的工作原理图；

图3为本发明实施例中数据项识别匹配的原理图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

实施例

为了解决现有技术中存在大量的重复比对操作，由此导致了大量的算力和存储空间的浪费，进而造成了大量的资源耗费的技术问题。本申请实施例提供了一种基于识别和聚合算法的数据文件处理方法，该方法通过将每一数据项的匹配区域缩小至一个存储区块，即仅在某一存储区块中去识别该数据项是否是待识别的目标数据项，当识别为是时，则收录在数据子集中，最后将各数据子集进行聚合，能够得到数据文件中目标数据项的识别结果，能够极大减少重复的比对操作，进而减少了资源浪费。

下面将对本申请实施例提供的基于识别和聚合算法的数据文件处理方法进行详细说明。

其中，需要说明的是，本申请实施例提供的基于识别和聚合算法的数据文件处理方法可应用于任意使用操作系统的终端设备来实现数据文件的目标数据项识别，其中，终端设备包括但不限于个人电脑、工业计算机、智能ipad、智能手机等等，为便于描述，除特别说明外，本申请实施例均以个人电脑为执行主体进行说明。可以理解，所述执行主体并不构成对本申请实施例的限定，在其他的一些实施例中可以采用终端设备作为执行主体。

如图1-图3所示，是本申请实施例提供的基于识别和聚合算法的数据文件处理方法的流程图，所述方法包括但不限于由步骤S1~S4实现：

步骤S1.获取目标数据项集合，并基于简码索引规则建立所述目标数据项集合的多个存储区块，其中，每一简码索引对应一个存储区块；

其中，需要说明的是，本申请实施例供的目标数据项可以根据实际的使用场景进行灵活定义，具体不做限定。例如：某业务场景下，要求各个数据文件不得出现“XX加油站”的数据项，因此，基于已有的各个加油站名称，例如中石化加油站、中石油加油站、中海油加油站等，构建得到目标数据项集合，以作为后续各数据文件中数据项识别的目标识别对象。

如图3所示，在步骤S1中，基于简码索引规则建立所述目标数据项集合的多个存储区块，包括：

步骤S11.按照0-9的数字简码索引规则和/或A-Z的字母简码索引规则建立与简码索引数量对应的多个存储区块；

具体的，当按照0-9的数字简码索引规则建立存储区块时，则有索引0对应的存储区1、索引1对应的存储区2，依此类推，直至索引9对应的存储区10；同理，当A-Z的字母简码索引规则建立存储区块时，则有索引A对应的存储区11、索引B对应的存储区12，依此类推，直至索引Z对应的存储区36。

步骤S12.根据目标数据项集合中每一目标数据项的首字符所对应的简码索引，将每一目标数据项存储至对应的存储区块中，其中，所述首字符包括首数字和首字母。

例如：若数据项的首字符为数字，则根据数字编号存入对应存储区块，例如首数字为0，则将该数据项存储在存储区1；同理，若数据项的首字符为汉字或英文字母，则根据汉字的拼音首字母或英文首字母将该数据项存入对应存储区，例如首字母为A，则存入存储区11。

步骤S2.将待处理的数据文件进行分块，并对每一数据块的数据项进行初步识别；

优选的，在步骤S2中，将待处理的数据文件进行分块，包括：

例如：若当前处理本实施例的方法所采用的计算机设备采用8核CPU，则将该数据文件分为8个数据块，优选的，可均等地分为8个数据块，从而使得CPU上有8个线程同时工作，对数据文件中的数据项识别进行并发处理，从而提高数据处理的效率。

在步骤S2中，对每一数据块的数据项进行初步识别，包括：

其中，需要说明的是，该标识符可以是标点符号，例如逗号、句号、分号和省略号等等，基于上述标点符号，可以初步对数据块进行拆分，得到多个数据项。

在一种具体的实施方式，在对每一数据块的数据项进行初步识别之后，所述方法还包括：

基于简码排序规则对每一数据块中的数据项进行排序，得到对应的数据项序列，从而使得每一数据块中的数据项能够有序地进行排列，便于后续的逐项数据比对。

其中，需要说明的是，所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则，其中，0-9的数字排序规则表示当数据项的首字符是数字时，按照0-9的顺序进行排序，当两数据项的首数字相同，则按照第二个数字排序，依次递归；A-Z的字母排序规则表示当数据项的首字符是字母时，按照A-Z的顺序进行排序，当两数据项的首字母相同，则按照第二个字母排序，依次递归。

步骤S3.基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，当匹配成功时，将该数据项收录至对应的数据子集中；

在步骤S3，基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，包括：

步骤S31.基于k(n)识别算法将每一数据项序列中的数据项逐项与A编码或0编码做取模计算，并根据余数值定位每一数据项所对应的存储区块，其中，n表示识别算法的输入参数，计算公式如下：

其中，

表示数据文件，

表示数据项序列中的第i项，x表示数据项序列中的第x项，A表示A编码，0表示0编码，%表示取模计算。

具体的，假设数据文件拆分的某个数据块（或数据项序列）内有x个数据项，从序列内取出第i项Q(i)，首先拿Q(i)和十进制0做模运算，如果Q(i)%0结果大于9，则说明该字符不是数字，则用Q(i)和A做模运算，如果Q(i)%A结果大于26则说明该待识别指标项不在数据项集合内，如果第一步小于9和第二步小于26则该位置为数据项集合中可能存在的存储区块。

例如：在数据项序列中读取到某个数据项“光电模组”，该数据项首个汉字的首个拼音字母为G，则G与A编码做取模计算如下：G mod A=71%65=6 （其中，大写字母A的十进制编码为65，大写字母G的十进制编码为71），余数为6，则对应于目标数据项集合的存储区块为第6个存储区块，则在第6个存储区块内对该数据项做匹配计算即可，从而大量减少了数据项之间的重复比对。

步骤S32.基于k(n)识别算法将每一数据项与对应存储区块中的目标数据项的字符串或数字进行匹配，若一致，则匹配成功。

其中，需要说明的是，当某数据项与某存储区块中的数据项相同时，说明数据文件中存在目标数据项，例如，当数据文件中存在中石化加油站这一数据项，则对应在简码索引为Z的存储区块内进行匹配计算，若匹配成功，则认为该中石化加油站是敏感数据项，需从数据文件中剔除。

步骤S4.基于简码排序规则对每一数据子集中的数据项进行排序，并基于聚合算法将所有数据子集进行聚合，形成所述数据文件的目标数据项识别结果。

具体的，基于简码排序规则对每一数据子集中的数据项进行排序，包括：取数据子集中某数据项首个字符并按照0->9 A->Z的规则排序，若第一个字符相同在第一个字母相同数据项内按第二个字母排序，依次递归。数据项所取字为汉字取汉字的拼音的首个字母，所取字为英文则取单子第一个字母，所取字为数字则取首个数字。

在步骤S4中，由于识别得到的各个数据子集中可能有重复的目标数据项，因此，优选的，需对各个数据子集进行聚合，以消除相同数据项，那么，基于聚合算法将所有数据子集进行聚合，包括：

基于聚合算法

将所有数据子集进行聚合，聚合公式如下：

其中，m表示数据子集的数量，

表示排序后的数据子集，

表示第j个数据子集。

具体的，经过识别算法k(n)处理后的数据集为R={R(j)|j=1，2，...，m}，分别将各数据子集R(j)内数据项按照0->9 A->Z 的简码索引规则分别使用排序算法order(m)完成排序，然后合并各子数据集形成大数据文件的识别数据集合R(D)记入识别数据集合Data内。

基于上述公开的内容，本申请实施例通过将目标数据项集合按照简码索引存储在对应的存储区块中，将数据文件进行分块，对数据块进行初步识别得到多个数据项，然后基于识别算法将数据块中每一数据项对应的存储区块进行定位和匹配；通过简码排序规则对每一数据子集中的数据项进行排序，并基于聚合算法将所有数据子集进行聚合，形成所述数据文件的目标数据项识别结果，从而将每一数据项的匹配区域缩小至一个存储区块，即仅在某一存储区块中去识别该数据项是否是待识别的目标数据项，当识别为是时，则收录在数据子集中，最后将各数据子集进行聚合，能够得到数据文件中目标数据项的识别结果，能够极大减少重复的比对操作，进而减少了资源浪费。

在一种可能的设计中，所述初步识别模块还用于：

基于聚合算法

将所有数据子集进行聚合，聚合公式如下：

其中，m表示数据子集的数量，

表示排序后的数据子集，

表示第j个数据子集。

本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果，可以参见如上第一方面或第一方面中任意一种可能设计所述的方法，于此不再赘述。

具体举例的，所述存储器可以但不限于包括随机存取存储器（Random-AccessMemory，RAM）、只读存储器（Read-Only Memory，ROM）、闪存（Flash Memory）、先进先出存储器（First Input First Output，FIFO）和/或先进后出存储器（First Input Last Output，FILO）等等；所述处理器可以不限于采用型号为STM32F105系列的微处理器；所述收发器可以但不限于为WiFi（无线保真）无线收发器、蓝牙无线收发器、GPRS（General Packet RadioService，通用分组无线服务技术）无线收发器和/或ZigBee（紫蜂协议，基于IEEE802 .15.4标准的低功耗局域网协议）无线收发器等。此外，所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果，可以参见如上第一方面或第一方面中任意一种可能设计所述的方法，于此不再赘述。

本实施例第五方面提供的前述包含指令的计算机程序产品的工作过程、工作细节和技术效果，可以参见如上第一方面或第一方面中任意一种可能设计所述的方法，于此不再赘述。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于识别和聚合算法的数据文件处理方法，其特征在于，包括：

基于简码排序规则对每一数据子集中的数据项进行排序，并基于聚合算法将所有数据子集进行聚合，形成所述数据文件的目标数据项识别结果；

所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则，其中，0-9的数字排序规则表示当数据项的首字符是数字时，按照0-9的顺序进行排序，当两数据项的首数字相同，则按照第二个数字排序，依次递归；A-Z的字母排序规则表示当数据项的首字符是字母时，按照A-Z的顺序进行排序，当两数据项的首字母相同，则按照第二个字母排序，依次递归；

在对每一数据块的数据项进行初步识别之后，所述方法还包括：

基于简码排序规则对每一数据块中的数据项进行排序，得到对应的数据项序列；

基于识别算法对数据块中每一数据项所对应的存储区块进行定位，并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配，包括：

2.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法，其特征在于，基于简码索引规则建立所述目标数据项集合的多个存储区块，包括：

3.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法，其特征在于，将待处理的数据文件进行分块，包括：

4.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法，其特征在于，对每一数据块的数据项进行初步识别，包括：

5.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法，其特征在于，基于聚合算法将所有数据子集进行聚合，包括：

基于聚合算法