CN115454356B - 基于识别和聚合算法的数据文件处理方法、装置和设备 - Google Patents
基于识别和聚合算法的数据文件处理方法、装置和设备 Download PDFInfo
- Publication number
- CN115454356B CN115454356B CN202211320722.6A CN202211320722A CN115454356B CN 115454356 B CN115454356 B CN 115454356B CN 202211320722 A CN202211320722 A CN 202211320722A CN 115454356 B CN115454356 B CN 115454356B
- Authority
- CN
- China
- Prior art keywords
- data
- item
- data item
- sorting
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/0643—Management of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/0644—Management of space entities, e.g. partitions, extents, pools
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于识别和聚合算法的数据文件处理方法、装置和设备,方法包括:获取目标数据项集合,并基于简码索引规则建立目标数据项集合的多个存储区块;将待处理的数据文件进行分块,并对每一数据块的数据项进行初步识别;基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,将该数据项收录至对应的数据子集中;对每一数据子集中的数据项进行排序,将所有数据子集进行聚合。本发明能够极大减少数据项的重复比对,进而减少了资源浪费。
Description
技术领域
本发明属于数据处理技术领域,具体涉及基于识别和聚合算法的数据文件处理方法、装置和设备。
背景技术
现有技术中,从数据文件内识别出指定数据项的处理方法,通常有两种处理方法,一种是根据要识别的数据项在数据文件中进行逐个全文扫描,这种方式要求识别每一数据项均需要对数据文件进行一次全文扫描;另一种是将数据文件划分为多个数据块,同样需要对待识别的数据项进行逐个识别处理。可见,上述两种方式均存在大量的重复比对操作,由此导致了大量的算力和存储空间的浪费,进而造成了大量的资源耗费。
发明内容
本发明的目的是提供基于识别和聚合算法的数据文件处理方法、装置和设备,用以解决现有技术中存在大量的重复比对操作,由此导致了大量的算力和存储空间的浪费,进而造成了大量的资源耗费的技术问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面提供一种基于识别和聚合算法的数据文件处理方法,包括:
获取目标数据项集合,并基于简码索引规则建立所述目标数据项集合的多个存储区块,其中,每一简码索引对应一个存储区块;
将待处理的数据文件进行分块,并对每一数据块的数据项进行初步识别;
基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,当匹配成功时,将该数据项收录至对应的数据子集中;
基于简码排序规则对每一数据子集中的数据项进行排序,并基于聚合算法将所有数据子集进行聚合,形成所述数据文件的目标数据项识别结果。
在一种可能的设计中,基于简码索引规则建立所述目标数据项集合的多个存储区块,包括:
按照0-9的数字简码索引规则和/或A-Z的字母简码索引规则建立与简码索引数量对应的多个存储区块;
根据目标数据项集合中每一目标数据项的首字符所对应的简码索引,将每一目标数据项存储至对应的存储区块中,其中,所述首字符包括首数字和首字母。
在一种可能的设计中,将待处理的数据文件进行分块,包括:
根据计算机设备的CPU核数m,将待处理的数据文件分为m个数据块。
在一种可能的设计中,对每一数据块的数据项进行初步识别,包括:
对每一数据块中的标识符进行识别,并基于标识符将每一数据块分割为多个数据项。
在一种可能的设计中,所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则,其中,0-9的数字排序规则表示当数据项的首字符是数字时,按照0-9的顺序进行排序,当两数据项的首数字相同,则按照第二个数字排序,依次递归;A-Z的字母排序规则表示当数据项的首字符是字母时,按照A-Z的顺序进行排序,当两数据项的首字母相同,则按照第二个字母排序,依次递归。
在一种可能的设计中,在对每一数据块的数据项进行初步识别之后,所述方法还包括:
基于简码排序规则对每一数据块中的数据项进行排序,得到对应的数据项序列。
在一种可能的设计中,基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,包括:
基于k(n)识别算法将每一数据项序列中的数据项逐项与A编码或0编码做取模计算,并根据余数值定位每一数据项所对应的存储区块,其中,n表示识别算法的输入参数;
基于k(n)识别算法将每一数据项与对应存储区块中的目标数据项的字符串或数字进行匹配,若一致,则匹配成功。
在一种可能的设计中,基于聚合算法将所有数据子集进行聚合,包括:
第二方面提供一种基于识别和聚合算法的数据文件处理装置,包括:
存储区块建立模块,用于获取目标数据项集合,并基于简码索引规则建立所述目标数据项集合的多个存储区块,其中,每一简码索引对应一个存储区块;
初步识别模块,用于将待处理的数据文件进行分块,并对每一数据块的数据项进行初步识别;
识别匹配模块,用于基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,当匹配成功时,将该数据项收录至对应的数据子集中;
排序聚合模块,用于基于简码排序规则对每一数据子集中的数据项进行排序,并基于聚合算法将所有数据子集进行聚合,形成所述数据文件的目标数据项识别结果。
在一种可能的设计中,在基于简码索引规则建立所述目标数据项集合的多个存储区块时,存储区块建立模块具体用于:
按照0-9的数字简码索引规则和/或A-Z的字母简码索引规则建立与简码索引数量对应的多个存储区块;
根据目标数据项集合中每一目标数据项的首字符所对应的简码索引,将每一目标数据项存储至对应的存储区块中,其中,所述首字符包括首数字和首字母。
在一种可能的设计中,在将待处理的数据文件进行分块时,初步识别模块具体用于:
根据计算机设备的CPU核数m,将待处理的数据文件分为m个数据块。
在一种可能的设计中,在对每一数据块的数据项进行初步识别时,初步识别模块具体用于:
对每一数据块中的标识符进行识别,并基于标识符将每一数据块分割为多个数据项。
在一种可能的设计中,所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则,其中,0-9的数字排序规则表示当数据项的首字符是数字时,按照0-9的顺序进行排序,当两数据项的首数字相同,则按照第二个数字排序,依次递归;A-Z的字母排序规则表示当数据项的首字符是字母时,按照A-Z的顺序进行排序,当两数据项的首字母相同,则按照第二个字母排序,依次递归。
在一种可能的设计中,所述初步识别模块还用于:
基于简码排序规则对每一数据块中的数据项进行排序,得到对应的数据项序列。
在一种可能的设计中,在基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配时,识别匹配模块具体用于:
基于k(n)识别算法将每一数据项序列中的数据项逐项与A编码或0编码做取模计算,并根据余数值定位每一数据项所对应的存储区块,其中,n表示识别算法的输入参数;
基于k(n)识别算法将每一数据项与对应存储区块中的目标数据项的字符串或数字进行匹配,若一致,则匹配成功。
在一种可能的设计中,在基于聚合算法将所有数据子集进行聚合时,排序聚合模块具体用于:
第三方面,本发明提供一种计算机设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面任意一种可能的设计中所述的基于识别和聚合算法的数据文件处理方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面任意一种可能的设计中所述的基于识别和聚合算法的数据文件处理方法。
第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面任意一种可能的设计中所述的基于识别和聚合算法的数据文件处理方法。
本申请相较于现有技术的有益效果为:
本发明通过将目标数据项集合按照简码索引存储在对应的存储区块中,将数据文件进行分块,对数据块进行初步识别得到多个数据项,然后基于识别算法将数据块中每一数据项对应的存储区块进行定位和匹配;通过简码排序规则对每一数据子集中的数据项进行排序,并基于聚合算法将所有数据子集进行聚合,形成所述数据文件的目标数据项识别结果,从而将每一数据项的匹配区域缩小至一个存储区块,即仅在某一存储区块中去识别该数据项是否是待识别的目标数据项,当识别为是时,则收录在数据子集中,最后将各数据子集进行聚合,能够得到数据文件中目标数据项的识别结果,能够极大减少重复的比对操作,进而减少了资源浪费。
附图说明
图1为本发明实施例中的基于识别和聚合算法的数据文件处理方法的流程图;
图2为本发明实施例中的基于识别和聚合算法的数据文件处理方法的工作原理图;
图3为本发明实施例中数据项识别匹配的原理图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍,显而易见地,下面关于附图结构的描述仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
实施例
为了解决现有技术中存在大量的重复比对操作,由此导致了大量的算力和存储空间的浪费,进而造成了大量的资源耗费的技术问题。本申请实施例提供了一种基于识别和聚合算法的数据文件处理方法,该方法通过将每一数据项的匹配区域缩小至一个存储区块,即仅在某一存储区块中去识别该数据项是否是待识别的目标数据项,当识别为是时,则收录在数据子集中,最后将各数据子集进行聚合,能够得到数据文件中目标数据项的识别结果,能够极大减少重复的比对操作,进而减少了资源浪费。
下面将对本申请实施例提供的基于识别和聚合算法的数据文件处理方法进行详细说明。
其中,需要说明的是,本申请实施例提供的基于识别和聚合算法的数据文件处理方法可应用于任意使用操作系统的终端设备来实现数据文件的目标数据项识别,其中,终端设备包括但不限于个人电脑、工业计算机、智能ipad、智能手机等等,为便于描述,除特别说明外,本申请实施例均以个人电脑为执行主体进行说明。可以理解,所述执行主体并不构成对本申请实施例的限定,在其他的一些实施例中可以采用终端设备作为执行主体。
如图1-图3所示,是本申请实施例提供的基于识别和聚合算法的数据文件处理方法的流程图,所述方法包括但不限于由步骤S1~S4实现:
步骤S1.获取目标数据项集合,并基于简码索引规则建立所述目标数据项集合的多个存储区块,其中,每一简码索引对应一个存储区块;
其中,需要说明的是,本申请实施例供的目标数据项可以根据实际的使用场景进行灵活定义,具体不做限定。例如:某业务场景下,要求各个数据文件不得出现“XX加油站”的数据项,因此,基于已有的各个加油站名称,例如中石化加油站、中石油加油站、中海油加油站等,构建得到目标数据项集合,以作为后续各数据文件中数据项识别的目标识别对象。
如图3所示,在步骤S1中,基于简码索引规则建立所述目标数据项集合的多个存储区块,包括:
步骤S11.按照0-9的数字简码索引规则和/或A-Z的字母简码索引规则建立与简码索引数量对应的多个存储区块;
具体的,当按照0-9的数字简码索引规则建立存储区块时,则有索引0对应的存储区1、索引1对应的存储区2,依此类推,直至索引9对应的存储区10;同理,当A-Z的字母简码索引规则建立存储区块时,则有索引A对应的存储区11、索引B对应的存储区12,依此类推,直至索引Z对应的存储区36。
步骤S12.根据目标数据项集合中每一目标数据项的首字符所对应的简码索引,将每一目标数据项存储至对应的存储区块中,其中,所述首字符包括首数字和首字母。
例如:若数据项的首字符为数字,则根据数字编号存入对应存储区块,例如首数字为0,则将该数据项存储在存储区1;同理,若数据项的首字符为汉字或英文字母,则根据汉字的拼音首字母或英文首字母将该数据项存入对应存储区,例如首字母为A,则存入存储区11。
步骤S2.将待处理的数据文件进行分块,并对每一数据块的数据项进行初步识别;
优选的,在步骤S2中,将待处理的数据文件进行分块,包括:
根据计算机设备的CPU核数m,将待处理的数据文件分为m个数据块。
例如:若当前处理本实施例的方法所采用的计算机设备采用8核CPU,则将该数据文件分为8个数据块,优选的,可均等地分为8个数据块,从而使得CPU上有8个线程同时工作,对数据文件中的数据项识别进行并发处理,从而提高数据处理的效率。
在步骤S2中,对每一数据块的数据项进行初步识别,包括:
对每一数据块中的标识符进行识别,并基于标识符将每一数据块分割为多个数据项。
其中,需要说明的是,该标识符可以是标点符号,例如逗号、句号、分号和省略号等等,基于上述标点符号,可以初步对数据块进行拆分,得到多个数据项。
在一种具体的实施方式,在对每一数据块的数据项进行初步识别之后,所述方法还包括:
基于简码排序规则对每一数据块中的数据项进行排序,得到对应的数据项序列,从而使得每一数据块中的数据项能够有序地进行排列,便于后续的逐项数据比对。
其中,需要说明的是,所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则,其中,0-9的数字排序规则表示当数据项的首字符是数字时,按照0-9的顺序进行排序,当两数据项的首数字相同,则按照第二个数字排序,依次递归;A-Z的字母排序规则表示当数据项的首字符是字母时,按照A-Z的顺序进行排序,当两数据项的首字母相同,则按照第二个字母排序,依次递归。
步骤S3.基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,当匹配成功时,将该数据项收录至对应的数据子集中;
在步骤S3,基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,包括:
步骤S31.基于k(n)识别算法将每一数据项序列中的数据项逐项与A编码或0编码做取模计算,并根据余数值定位每一数据项所对应的存储区块,其中,n表示识别算法的输入参数,计算公式如下:
具体的,假设数据文件拆分的某个数据块(或数据项序列)内有x个数据项,从序列内取出第i项Q(i),首先拿Q(i)和十进制0做模运算,如果Q(i)%0结果大于9,则说明该字符不是数字,则用Q(i)和A做模运算,如果Q(i)%A结果大于26则说明该待识别指标项不在数据项集合内,如果第一步小于9和第二步小于26则该位置为数据项集合中可能存在的存储区块。
例如:在数据项序列中读取到某个数据项“光电模组”,该数据项首个汉字的首个拼音字母为G,则G与A编码做取模计算如下:G mod A=71%65=6 (其中,大写字母A的十进制编码为65,大写字母G的十进制编码为71),余数为6,则对应于目标数据项集合的存储区块为第6个存储区块,则在第6个存储区块内对该数据项做匹配计算即可,从而大量减少了数据项之间的重复比对。
步骤S32.基于k(n)识别算法将每一数据项与对应存储区块中的目标数据项的字符串或数字进行匹配,若一致,则匹配成功。
其中,需要说明的是,当某数据项与某存储区块中的数据项相同时,说明数据文件中存在目标数据项,例如,当数据文件中存在中石化加油站这一数据项,则对应在简码索引为Z的存储区块内进行匹配计算,若匹配成功,则认为该中石化加油站是敏感数据项,需从数据文件中剔除。
步骤S4.基于简码排序规则对每一数据子集中的数据项进行排序,并基于聚合算法将所有数据子集进行聚合,形成所述数据文件的目标数据项识别结果。
具体的,基于简码排序规则对每一数据子集中的数据项进行排序,包括:取数据子集中某数据项首个字符并按照0->9 A->Z的规则排序,若第一个字符相同在第一个字母相同数据项内按第二个字母排序,依次递归。数据项所取字为汉字取汉字的拼音的首个字母,所取字为英文则取单子第一个字母,所取字为数字则取首个数字。
在步骤S4中,由于识别得到的各个数据子集中可能有重复的目标数据项,因此,优选的,需对各个数据子集进行聚合,以消除相同数据项,那么,基于聚合算法将所有数据子集进行聚合,包括:
具体的,经过识别算法k(n)处理后的数据集为R={R(j)|j=1,2,...,m},分别将各数据子集R(j)内数据项按照0->9 A->Z 的简码索引规则分别使用排序算法order(m)完成排序,然后合并各子数据集形成大数据文件的识别数据集合R(D)记入识别数据集合Data内。
基于上述公开的内容,本申请实施例通过将目标数据项集合按照简码索引存储在对应的存储区块中,将数据文件进行分块,对数据块进行初步识别得到多个数据项,然后基于识别算法将数据块中每一数据项对应的存储区块进行定位和匹配;通过简码排序规则对每一数据子集中的数据项进行排序,并基于聚合算法将所有数据子集进行聚合,形成所述数据文件的目标数据项识别结果,从而将每一数据项的匹配区域缩小至一个存储区块,即仅在某一存储区块中去识别该数据项是否是待识别的目标数据项,当识别为是时,则收录在数据子集中,最后将各数据子集进行聚合,能够得到数据文件中目标数据项的识别结果,能够极大减少重复的比对操作,进而减少了资源浪费。
第二方面提供一种基于识别和聚合算法的数据文件处理装置,包括:
存储区块建立模块,用于获取目标数据项集合,并基于简码索引规则建立所述目标数据项集合的多个存储区块,其中,每一简码索引对应一个存储区块;
初步识别模块,用于将待处理的数据文件进行分块,并对每一数据块的数据项进行初步识别;
识别匹配模块,用于基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,当匹配成功时,将该数据项收录至对应的数据子集中;
排序聚合模块,用于基于简码排序规则对每一数据子集中的数据项进行排序,并基于聚合算法将所有数据子集进行聚合,形成所述数据文件的目标数据项识别结果。
在一种可能的设计中,在基于简码索引规则建立所述目标数据项集合的多个存储区块时,存储区块建立模块具体用于:
按照0-9的数字简码索引规则和/或A-Z的字母简码索引规则建立与简码索引数量对应的多个存储区块;
根据目标数据项集合中每一目标数据项的首字符所对应的简码索引,将每一目标数据项存储至对应的存储区块中,其中,所述首字符包括首数字和首字母。
在一种可能的设计中,在将待处理的数据文件进行分块时,初步识别模块具体用于:
根据计算机设备的CPU核数m,将待处理的数据文件分为m个数据块。
在一种可能的设计中,在对每一数据块的数据项进行初步识别时,初步识别模块具体用于:
对每一数据块中的标识符进行识别,并基于标识符将每一数据块分割为多个数据项。
在一种可能的设计中,所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则,其中,0-9的数字排序规则表示当数据项的首字符是数字时,按照0-9的顺序进行排序,当两数据项的首数字相同,则按照第二个数字排序,依次递归;A-Z的字母排序规则表示当数据项的首字符是字母时,按照A-Z的顺序进行排序,当两数据项的首字母相同,则按照第二个字母排序,依次递归。
在一种可能的设计中,所述初步识别模块还用于:
基于简码排序规则对每一数据块中的数据项进行排序,得到对应的数据项序列。
在一种可能的设计中,在基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配时,识别匹配模块具体用于:
基于k(n)识别算法将每一数据项序列中的数据项逐项与A编码或0编码做取模计算,并根据余数值定位每一数据项所对应的存储区块,其中,n表示识别算法的输入参数;
基于k(n)识别算法将每一数据项与对应存储区块中的目标数据项的字符串或数字进行匹配,若一致,则匹配成功。
在一种可能的设计中,在基于聚合算法将所有数据子集进行聚合时,排序聚合模块具体用于:
本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果,可以参见如上第一方面或第一方面中任意一种可能设计所述的方法,于此不再赘述。
第三方面,本发明提供一种计算机设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面任意一种可能的设计中所述的基于识别和聚合算法的数据文件处理方法。
具体举例的,所述存储器可以但不限于包括随机存取存储器(Random-AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output,FIFO)和/或先进后出存储器(First Input Last Output,FILO)等等;所述处理器可以不限于采用型号为STM32F105系列的微处理器;所述收发器可以但不限于为WiFi(无线保真)无线收发器、蓝牙无线收发器、GPRS(General Packet RadioService,通用分组无线服务技术)无线收发器和/或ZigBee(紫蜂协议,基于IEEE802 .15.4标准的低功耗局域网协议)无线收发器等。此外,所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。
本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果,可以参见如上第一方面或第一方面中任意一种可能设计所述的方法,于此不再赘述。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面任意一种可能的设计中所述的基于识别和聚合算法的数据文件处理方法。
其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果,可以参见如上第一方面或第一方面中任意一种可能设计所述的方法,于此不再赘述。
第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面任意一种可能的设计中所述的基于识别和聚合算法的数据文件处理方法。
本实施例第五方面提供的前述包含指令的计算机程序产品的工作过程、工作细节和技术效果,可以参见如上第一方面或第一方面中任意一种可能设计所述的方法,于此不再赘述。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于识别和聚合算法的数据文件处理方法,其特征在于,包括:
获取目标数据项集合,并基于简码索引规则建立所述目标数据项集合的多个存储区块,其中,每一简码索引对应一个存储区块;
将待处理的数据文件进行分块,并对每一数据块的数据项进行初步识别;
基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,当匹配成功时,将该数据项收录至对应的数据子集中;
基于简码排序规则对每一数据子集中的数据项进行排序,并基于聚合算法将所有数据子集进行聚合,形成所述数据文件的目标数据项识别结果;
所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则,其中,0-9的数字排序规则表示当数据项的首字符是数字时,按照0-9的顺序进行排序,当两数据项的首数字相同,则按照第二个数字排序,依次递归;A-Z的字母排序规则表示当数据项的首字符是字母时,按照A-Z的顺序进行排序,当两数据项的首字母相同,则按照第二个字母排序,依次递归;
在对每一数据块的数据项进行初步识别之后,所述方法还包括:
基于简码排序规则对每一数据块中的数据项进行排序,得到对应的数据项序列;
基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,包括:
基于k(n)识别算法将每一数据项序列中的数据项逐项与A编码或0编码做取模计算,并根据余数值定位每一数据项所对应的存储区块,其中,n表示识别算法的输入参数;
基于k(n)识别算法将每一数据项与对应存储区块中的目标数据项的字符串或数字进行匹配,若一致,则匹配成功。
2.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法,其特征在于,基于简码索引规则建立所述目标数据项集合的多个存储区块,包括:
按照0-9的数字简码索引规则和/或A-Z的字母简码索引规则建立与简码索引数量对应的多个存储区块;
根据目标数据项集合中每一目标数据项的首字符所对应的简码索引,将每一目标数据项存储至对应的存储区块中,其中,所述首字符包括首数字和首字母。
3.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法,其特征在于,将待处理的数据文件进行分块,包括:
根据计算机设备的CPU核数m,将待处理的数据文件分为m个数据块。
4.根据权利要求1所述的基于识别和聚合算法的数据文件处理方法,其特征在于,对每一数据块的数据项进行初步识别,包括:
对每一数据块中的标识符进行识别,并基于标识符将每一数据块分割为多个数据项。
6.一种基于识别和聚合算法的数据文件处理装置,其特征在于,包括:
存储区块建立模块,用于获取目标数据项集合,并基于简码索引规则建立所述目标数据项集合的多个存储区块,其中,每一简码索引对应一个存储区块;
初步识别模块,用于将待处理的数据文件进行分块,并对每一数据块的数据项进行初步识别;
识别匹配模块,用于基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,当匹配成功时,将该数据项收录至对应的数据子集中;
排序聚合模块,用于基于简码排序规则对每一数据子集中的数据项进行排序,并基于聚合算法将所有数据子集进行聚合,形成所述数据文件的目标数据项识别结果;
所述简码排序规则包括0-9的数字排序规则和/或A-Z的字母排序规则,其中,0-9的数字排序规则表示当数据项的首字符是数字时,按照0-9的顺序进行排序,当两数据项的首数字相同,则按照第二个数字排序,依次递归;A-Z的字母排序规则表示当数据项的首字符是字母时,按照A-Z的顺序进行排序,当两数据项的首字母相同,则按照第二个字母排序,依次递归;
在对每一数据块的数据项进行初步识别之后,还包括:
基于简码排序规则对每一数据块中的数据项进行排序,得到对应的数据项序列;
基于识别算法对数据块中每一数据项所对应的存储区块进行定位,并将每一数据项与对应存储区块中的目标数据项进行逐项识别匹配,包括:
基于k(n)识别算法将每一数据项序列中的数据项逐项与A编码或0编码做取模计算,并根据余数值定位每一数据项所对应的存储区块,其中,n表示识别算法的输入参数;
基于k(n)识别算法将每一数据项与对应存储区块中的目标数据项的字符串或数字进行匹配,若一致,则匹配成功。
7.一种存储介质,其特征在于,所述存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~5任意一项所述的基于识别和聚合算法的数据文件处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211320722.6A CN115454356B (zh) | 2022-10-26 | 2022-10-26 | 基于识别和聚合算法的数据文件处理方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211320722.6A CN115454356B (zh) | 2022-10-26 | 2022-10-26 | 基于识别和聚合算法的数据文件处理方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115454356A CN115454356A (zh) | 2022-12-09 |
CN115454356B true CN115454356B (zh) | 2023-01-24 |
Family
ID=84310448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211320722.6A Active CN115454356B (zh) | 2022-10-26 | 2022-10-26 | 基于识别和聚合算法的数据文件处理方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115454356B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100070466A1 (en) * | 2008-09-15 | 2010-03-18 | Anand Prahlad | Data transfer techniques within data storage devices, such as network attached storage performing data migration |
AU2010200866B1 (en) * | 2010-03-08 | 2010-09-23 | Quantum Corporation | Data reduction indexing |
JP5844554B2 (ja) * | 2011-06-08 | 2016-01-20 | Jfeシステムズ株式会社 | データ管理保存システム |
US20130262400A1 (en) * | 2012-03-30 | 2013-10-03 | Huawei Technologies Co., Ltd. | Data index query method, apparatus and system |
CN103365883A (zh) * | 2012-03-30 | 2013-10-23 | 华为技术有限公司 | 数据的索引查询方法、装置及系统 |
CN105719105A (zh) * | 2014-12-03 | 2016-06-29 | 镇江雅迅软件有限责任公司 | 一种基于关键字的库存快速查找方法 |
US10365974B2 (en) * | 2016-09-16 | 2019-07-30 | Hewlett Packard Enterprise Development Lp | Acquisition of object names for portion index objects |
CN110634170B (zh) * | 2019-08-30 | 2022-09-13 | 福建帝视信息科技有限公司 | 一种基于语义内容和快速图像检索的照片级图像生成方法 |
-
2022
- 2022-10-26 CN CN202211320722.6A patent/CN115454356B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115454356A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684290B (zh) | 日志存储方法、装置、设备及计算机可读存储介质 | |
CN103279478A (zh) | 一种基于分布式互信息文档特征提取方法 | |
CN101976259A (zh) | 一种推荐系列文档的方法和装置 | |
CN107590291A (zh) | 一种图片的搜索方法、终端设备及存储介质 | |
CN106778079A (zh) | 一种基于MapReduce的DNA序列k‑mer频次统计方法 | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN112150023A (zh) | 任务分配方法、装置及存储介质 | |
CN109962711A (zh) | 一种数据压缩方法、电子设备及存储介质 | |
CN110019649A (zh) | 一种建立、搜索索引树的方法及装置 | |
CN112650743A (zh) | 一种漏斗数据分析方法、系统、电子设备及存储介质 | |
CN113505273B (zh) | 基于重复数据筛选的数据排序方法、装置、设备及介质 | |
CN110245155A (zh) | 数据处理方法、装置、计算机可读存储介质及终端设备 | |
CN115454356B (zh) | 基于识别和聚合算法的数据文件处理方法、装置和设备 | |
CN111353289B (zh) | 文档比对方法、装置、存储介质、电子设备 | |
CN112632264A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
WO2015116762A1 (en) | Optimized data condenser and method | |
CN117093619A (zh) | 一种规则引擎处理方法、装置、电子设备及存储介质 | |
CN113468866B (zh) | 非标准json串的解析方法及装置 | |
CN112883704B (zh) | 一种大数据相似文本去重预处理方法、装置及终端设备 | |
CN115130455A (zh) | 文章处理方法、装置、电子设备以及存储介质 | |
CN114039698A (zh) | 基于多频率的数据发送和接收方法、装置和设备 | |
CN102567420B (zh) | 文档检索方法和装置 | |
CN110889035A (zh) | 敏感信息过滤方法、装置及计算机可读存储介质 | |
CN106372071A (zh) | 数据仓库的信息获取方法和装置 | |
CN111460088A (zh) | 相似文本的检索方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |