CN103077232A - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN103077232A
CN103077232A CN2013100044518A CN201310004451A CN103077232A CN 103077232 A CN103077232 A CN 103077232A CN 2013100044518 A CN2013100044518 A CN 2013100044518A CN 201310004451 A CN201310004451 A CN 201310004451A CN 103077232 A CN103077232 A CN 103077232A
Authority
CN
China
Prior art keywords
line number
file
target
file destination
described target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100044518A
Other languages
English (en)
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING IZP TECHNOLOGIES Co Ltd
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN2013100044518A priority Critical patent/CN103077232A/zh
Publication of CN103077232A publication Critical patent/CN103077232A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据处理方法和装置,以解决多次遍历多种不同的文件导致处理时间比较长,效率较低的问题。所述的方法包括:获取n种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息;对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的n-1种目标文件;将所述目标和对应各类型的描述信息进行关联,构成总目标文件。

Description

一种数据处理方法和装置
技术领域
本发明涉及数据处理技术,特别是涉及一种数据处理方法和装置。
背景技术
一个目标可能含有多种不同类型的描述信息,而在对目标的数据进行处理时,由于不同类型的描述信息是由不同的处理方法得到的,因此会对各类型的描述信息分别进行存储。
上述的处理方法就使得同一目标的描述信息存储于多个不同的文件中,因而当要对该目标进行处理时,就需要分别从不同的文件中获取该目标的描述信息。在这个过程中,需要分别遍历每一个文件的数据,以查找所述目标的描述信息。
例如,针对网络中不同网站的浏览数据,则所述网站的浏览数据可以包括访问量、点击率、用户的平均访问时间等,若将网站作为目标,由于对于不同的浏览数据会采用不同的处理方法,因而上述浏览数据经过处理后会保存于不同的文件中。
当要对网站的浏览数据进行综合分析时,就需要分别获取每个网站的浏览数据,即针对每一个网站,要分别遍历每一个文件,查找到所述目标再获取对应的数据。
但是,采用上述这种方法获取数据时,由于要多次遍历多种不同的文件,因此处理时间比较长,效率较低。
发明内容
本发明提供了一种数据处理方法和装置,以解决现有技术多次遍历多种不同的文件,导致处理时间比较长,效率较低的问题。
为了解决上述问题,本发明公开了一种数据处理方法,包括:
获取n种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息,n为正整数;
对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;
按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的n-1种目标文件;
将所述目标和对应各类型的描述信息进行关联,构成总目标文件。
可选的,所述获取n种目标文件之后,还包括:获取每种目标文件的总行数,并将其他目标文件的总行数,以第一种目标文件的总行数为基准进行归一化处理,获取其他目标文件相对应第一种目标文件的行数比。
可选的,当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比。
可选的,所述重新计算所述行数比,包括:将第一种目标文件的总行数减去所述目标在第一种目标文件中的行数,获取对应的第一行数;获取所述目标在各其他目标文件中的各相应行数,并将各其他目标文件的总行数减去对应各相应行数,获取在各其他目标文件中对应的第二行数;将所述在各其他目标文件中对应的第二行数,以所述第一行数为基准进行归一化处理,获取重新计算的其他目标文件相对应第一种目标文件的行数比。
可选的,所述按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,包括:按照在第一种目标文件中的行数和对应的行数比,计算所述目标在其他目标文件的相应行数。
可选的,所述在其他目标文件的相应行数查找所述目标,包括:查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标;若所述相应行数上存储的不是所述目标,则在所述相应行数的相邻行数上查找所述目标,直到查找到所述目标为止。
可选的,所述目标文件中存储有各目标的标识信息,所述标识信息用于唯一标识一个目标;所述查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标,包括:查找其他目标文件的相应行数,并获取所述相应行数上存储的目标的标识信息;检测所述相应行数上存储的目标的标识信息,与所述目标的标识信息是否匹配;若匹配,则所述相应行数上存储的是所述目标;若不匹配,则所述相应行数上存储的不是所述目标。
可选的,所述在所述相应行数的相邻行数上查找所述目标,包括:检测所述相应行数上存储的目标的标识信息,是否大于所述目标的标识信息;若大于所述目标的标识信息,则在其他目标文件中所述相应行数之前的行数上查找所述目标;若小于所述目标的标识信息,则在其他目标文件中所述相应行数之后的行数上查找所述目标。
相应的,本发明实施例还提供了一种数据处理装置,包括:
获取模块,用于获取n种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息,n为正整数;
遍历并获取模块,用于对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;
查找并获取模块,用于按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的n-1种目标文件;
组成模块,用于将所述目标和对应各类型的描述信息进行关联,构成总目标文件。
可选的,所述的装置还包括:行数比计算模块,用于获取每种目标文件的总行数,并将其他目标文件的总行数,以第一种目标文件的总行数为基准进行归一化处理,获取其他目标文件相对应第一种目标文件的行数比。
与现有技术相比,本发明包括以下优点:
首先,可以在遍历第一种目标文件以获取目标和对应类型的描述信息时,获取目标在第一种目标文件中的行数,从而确定所述目标在其他目标文件的相应行数,所述相应行数可以用于快速的确定目标在其他目标文件中的位置。再依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,从而将所述目标和n种类型的描述信息构成总目标文件。因此本发明实施例所提供的方法可以快速的查找到各目标文件中目标的描述信息,方法简单并且效率较高。
其次,本发明实施例可以预先依据每种目标文件的总行数,计算出其他目标文件相对应第一种目标文件的行数比,从而依据所述行数比计算相应行数,进而可以快速的定位目标在其他文件中的位置,有利于提高查找的效率。
再次,本发明实施例还在查找过程中调整行数比,即当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比,从而提高对目标在其他目标文件中的位置的定位精度,进一步提高查找的效率。
再次,本发明实施例依据相应行数查找到其他目标文件上的目标后,还可以依据目标的标识信息确定其是否是所述目标,若不是所述目标,在依据对标识信息的比较,可以定位所述目标在所述相应行数的上或下的位置上,从而可以快速的查找到所述目标,提高查找的效率。
附图说明
图1是本发明实施例所述一种数据处理方法流程图;
图2是本发明实施例所述重新计算所述行数比的方法流程图;
图3是本发明实施例所述其他目标文件中目标的查找方法流程图;
图4是本发明实施例所述数据处理装置结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
一个目标可能含有多种不同类型的描述信息,而由于不同类型的描述信息是由不同的处理方法得到的,因此会对各类型的描述信息分别进行存储,即存储于不同的目标文件中。
例如,目标为网站,通过网络中各网站的浏览数据进行统计、分析等处理操作,确定网站的n种描述信息构成n种目标文件。其中,一种目标文件存储一种类型的描述信息,而每种目标文件中都存有各网站(目标)的描述信息。
所述描述信息可以包括:点击率(Page View,PV)/独立用户(UniqueVisitor,UV),访问时间和访问数据等。其中,PV/UV,访问时间和访问数据等分别代表一种类型的描述信息。
其中,PV是页面浏览量,或点击量,是评价网站流量最常用的指标之一。
UV是指访问某个站点或点击某条新闻的不同IP地址的人数。
所述访问时间是指用户访问网站时停留的时间,例如用户停留的平均时长。
所述访问数据指的是用户浏览网站的相关数据,如用户浏览了网站中的那些网页等,或者网站中各网页被浏览的百分比等。
现有技术中要对上述网站的浏览数据进行综合分析时,就需要分别从每一种目标文件中获取网站的对应类型的描述信息。具体的,需要遍历第一种目标文件,获取查找的网站(目标)的对应类型的描述信息,在依次遍历其他种目标文件,直到获取该目标的各类型的描述信息。然后再针对下一个目标执行上述遍历过程,直到查找到各目标的各类型的描述信息为止。
上述的方法非常的繁琐、效率非常低,假设有3种目标文件,每一种目标文件中存储有1000个目标,即有1000行数据,则遍历3中目标文件,获取各目标的各类型的描述信息就需要遍历:
1000*900*700=630000000=6.3*108次。
目标文件中存储的目标越多,遍历的次数也就越多,因此上述方法的效率非常低。
本发明实施例提供一种数据处理方法,可以在第一种目标文件进行遍历时,确定目标在第一种目标文件中的行数,从而按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,从而依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息。因此本发明实施例所提供的方法可以快速的查找到各目标文件中目标的描述信息,方法简单并且效率较高。
参照图1,给出了本发明实施例所述一种数据处理方法流程图。
步骤101,获取n种目标文件。
目标的各类描述信息存储于对应的目标文件中,假设目标有n种类型的描述信息,本发明实施例中可以采用目标文件存储各个目标的描述信息,则一种目标文件存储一种类型的描述信息,因此总共可以有n种目标文件。所述目标的一种存储形式如表1所示:                        表1
目标 描述信息
A XX............
因此可以获取所述n种目标文件。
步骤102,对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;
可以对n种目标文件进行排列从而确定第一种目标文件,其中,所述排列可以是随机排列,也可以按照一定的规则进行排序,本发明实施例对此不做限定。
实际处理中,可能不是每一种目标文件中都存储了相同个数的目标,因此一种排序方法是,按照目标文件中存储目标的个数由大到小进行排列,从而第一种目标文件中存储了最多的目标。
在目标文件中采用一行存储一个目标,则目标文件中的行数与存储的目标的个数相同,因此按照存储目标的个数排序,也就是将目标文件中存储目标的行数按照由大到小的顺序进行排列。
因此可以对第一种目标文件进行遍历,所述遍历是按照一定的顺序一次对文件中的数据进行访问。则本发明实施例中可以按照目标文件中存储目标的行由前到后(即行的序号由小到大)的顺序对目标进行访问。
在对所述第一种目标文件中的每一个目标进行访问时,可以获取所述目标;获取对应类型的描述信息,即所述目标在所述第一种目标文件中对应的描述信息;并且,获取所述目标在第一种目标文件中的行数。
如上述以网站为目标的例子中,假设第一种目标文件为文件1,用于存储PV/UV,第二种目标文件为文件2,用于存储访问时间,第三种目标文件为文件3,用于存储访问数据。
则可以对文件1进行访问,获取所述目标,此时所述目标可以包括:网站的名称、网站的地址等,如网站A,并且获取所述网站A的PV/UV,以及在文件1中的行数如10。
步骤103,按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息。
通常目标都是按照一定的规则存储于目标文件中,则目标文件中存储的目标通常是具有一定的顺序的,因此,虽然各目标文件中存储的目标可能不完全相同,但是其存储的上下顺序是一定的。因此,在第一种目标文件中获取一个目标后,可以通过所述目标在第一种目标文件中的行数,确定所述目标在其他目标文件的相应行数,其中,所述其他目标文件是除第一种目标文件以外的n-1种目标文件。
然后,到所述其他目标文件的相应行数上查找所述目标,并获取所述目标在所述其他目标文件中的描述数据。其中,所述相应行数仅由于快速定位目标在其他目标文件中的位置,目标可能存储在所述相应行数上,也可能未存储在所述相应行数上,但可以理解的是所述目标存储于相应行数的附近行上,即相应行数向上的若干行,或相应行数向下若干行。
如上例中目标在文件1中的行数为10行,进一步确定所述目标在文件2中的行数为8,在文件3中的行数为5。则可以到文件2的第8行左右查找所述目标,在文件3的第5行左右查找所述目标。可能在文件2的第8行查找到所述目标,获取所述目标在文件2中的描述信息,即访问时间;而在文件3的第4行找到了所述目标,获取所述目标在文件3中的描述信息,即访问数据。
步骤104,将所述目标和对应各类型的描述信息进行关联,构成总目标文件。
上述从n种目标文件中获取的目标和对应类型的描述信息后,可以将目标和其对应的n种类型的描述信息关联,从而构成总目标文件。则所述总目标文件的一种存储形式可以如表2所示:                表2
目标 描述信息1 描述信息2 描述信息3......
A XX1 XX2 XX3....................................
则总目标文件中存储了目标的n种类型的描述数据。
如上述以网站为目标的例子中,此时描述信息1为PV/UV,描述信息2为访问时间,描述信息3为访问数据。
综上所述,可以在遍历第一种目标文件以获取目标和对应类型的描述信息时,获取目标在第一种目标文件中的行数,从而确定所述目标在其他目标文件的相应行数,所述相应行数可以用于快速的确定目标在其他目标文件中的位置。再依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,从而将所述目标和n种类型的描述信息构成总目标文件。因此本发明实施例所提供的方法可以快速的查找到各目标文件中目标的描述信息,方法简单并且效率较高。
本发明实施例中,所述获取n种目标文件之后,还包括:
获取每种目标文件的总行数,并将其他目标文件的总行数,以第一种目标文件的总行数为基准进行归一化处理,获取其他目标文件相对应第一种目标文件的行数比。
本发明实施例中,为了快速的按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,提高查找速度,可以在获取n种目标文件之后,确定每种目标文件的总行数。
然后,以第一种目标文件的总行数为基准,将其他目标文件的总行数对所述第一种目标文件的总行数进行归一化处理,即分别计算每一种其他目标文件的总行数除以第一种目标文件的总行数的比值,从而可以确定他目标文件相对应第一种目标文件的行数比。
如文件1中有1000行,文件2中有900行,文件3中有700行,以第一种目标文件的总行数为基准进行归一化处理。
则文件2对应文件1的行数比为900/1000=0.9;
则文件3对应文件1的行数比为700/1000=0.7。
综上所述,本发明实施例可以预先依据每种目标文件的总行数,计算出其他目标文件相对应第一种目标文件的行数比,从而依据所述行数比计算相应行数,进而可以快速的定位目标在其他文件中的位置,有利于提高查找的效率。
本发明实施例中,还包括:
当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比。
本发明实施例中,为了保证在其他目标文件中查找目标的速度和准确性,还要在查找过程中重新对所述行数比进行计算,从而可以在查找过程中调整所述行数比,以快速的确定目标。
其中,所述预设条件是重新计算行数比的条件之一,如所述预设条件可以配置为所述目标在第一种目标文件中的行数为某一系列定值中的任一个,如50、200、470……中的任一值;或配置为所述目标在第一种目标文件中的行数达到某一定值的倍数,如100的倍数。
因此,可以检测所述目标在第一种目标文件中的行数是否达到预设条件,若是,即所述目标在第一种目标文件中的行数了达到预设条件,则可以重新计算所述行数比;若否,所述目标在第一种目标文件中的行数未达到预设条件,则继续以所述行数比确定在其他目标文件中的相应行数。
参照图2,给出了本发明实施例所述重新计算所述行数比的方法流程图。
本发明实施例中,所述重新计算所述行数比,包括:
步骤201,将第一种目标文件的总行数减去所述目标在第一种目标文件中的行数,获取对应的第一行数;
所述目标在第一种目标文件中的行数了达到预设条件时,可以采用第一种目标文件的总行数减去所述目标在第一种目标文件中的行数,获取对应的第一行数,即获取所述目标后,第一目标文件中的剩余行数。
步骤202,获取所述目标在各其他目标文件中的各相应行数,并将各其他目标文件的总行数减去对应各相应行数,获取在各其他目标文件中对应的第二行数;
依次获取所述目标在各种其他目标文件中的相应行数,针对每一种其他目标文件,采用所述其他目标文件的总行数减去对应的相应行数,在各其他目标文件中对应的第二行数,其确定获取所述目标后,其他目标文件中的剩余行数。
步骤203,将所述在各其他目标文件中对应的第二行数,以所述第一行数为基准进行归一化处理,获取重新计算的其他目标文件相对应第一种目标文件的行数比。
然后将所述在各其他目标文件中对应的第二行数,以所述第一行数为基准进行归一化处理,即计算所述第二行数除以第一行数的比值,从而获取重新计算的其他目标文件相对应第一种目标文件的行数比。
综上所述,本发明实施例还在查找过程中调整行数比,即当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比,从而提高对目标在其他目标文件中的位置的定位精度,进一步提高查找的效率。
本发明实施例中,所述步骤101中按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,包括:
按照在第一种目标文件中的行数和对应的行数比,计算所述目标在其他目标文件的相应行数。
获取目标在第一种目标文件中的行数后,每一种其他目标文件都具备一个行数比,采用所述行数乘以所述行数比,就可以计算出所述目标在各种其他目标文件的相应行数。
本发明实施例中,所述在其他目标文件的相应行数查找所述目标,包括:
查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标;若所述相应行数上存储的不是所述目标,则在所述相应行数的相邻行数上查找所述目标,直到查找到所述目标为止。
然后可以查找所述其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标,若是所述目标,在获取所述目标的描述信息,若所述相应行数上存储的不是所述目标,则在所述相应行数的相邻行数上查找所述目标,即相应行数向上的若干行,或相应行数向下若干行,直到查找到所述目标为止。
本发明实施例中,所述目标文件中存储有各目标的标识信息,所述标识信息用于唯一标识一个目标。
所述标识信息可以是目标的名称,也可以是目标的存入各目标文件中的编号等,本发明实施例对此不做限定。
参照图3,给出了本发明实施例所述其他目标文件中目标的查找方法流程图。
所述查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标,包括:
步骤301,查找其他目标文件的相应行数,并获取所述相应行数上存储的目标的标识信息。
步骤302,检测所述相应行数上存储的目标的标识信息,与所述目标的标识信息是否匹配。
即判断所述相应行数上存储的目标的标识信息与所述目标的标识信息是否相同。
步骤303,所述相应行数上存储的是所述目标。
若是,即所述相应行数上存储的目标的标识信息与所述目标的标识信息匹配,则说明所述相应行数上存储的目标的标识信息与所述目标的标识信息相同,即所述相应行数上存储的是所述目标。
后续可以获取所述目标在其他目标文件中的描述信息。
步骤304,所述相应行数上存储的不是所述目标。
若否,即所述相应行数上存储的目标的标识信息与所述目标的标识信息不匹配,则说明所述相应行数上存储的目标的标识信息与所述目标的标识信息不相同,即所述相应行数上存储的不是所述目标。
本发明实施例中,若所述相应行数上存储的不是所述目标,则需要所述在所述相应行数的相邻行数上查找所述目标,具体包括:
步骤305,检测所述相应行数上存储的目标的标识信息是否大于所述目标的标识信息。
步骤306,在其他目标文件中所述相应行数之前的行数上查找所述目标。
若是,即所述相应行数上存储的目标的标识信息大于所述目标的标识信息,则说明在其他目标文件的相应行数上存储的目标是排列在所述目标之后的,因此可以在其他目标文件中所述相应行数之前的行数上查找所述目标。
步骤307,在其他目标文件中所述相应行数之后的行数上查找所述目标。
若否,即所述相应行数上存储的目标的标识信息小于所述目标的标识信息,则说明在其他目标文件的相应行数上存储的目标是排列在所述目标之前的,需要在其他目标文件中所述相应行数之后的行数上查找所述目标。
则针对文件1中1000个目标即有1000行数据;文件1中900个目标即有900行数据;文件1中700个目标即有700行数据的情况。
本发明实施例中最快的查找次数是1000+900+700=2600次;
平均查找次数是1000+(2~3)*900+(2~3)*700=4200~5800次。
查找次数远小于现有技术中比例的次数6.3*108次,因此本发明实施例提供的方法效率非常的高,特别是针对海量数据的处理情况下,处理中的效率优势非常高,非常的节省时间。
综上所述,本发明实施例依据相应行数查找到其他目标文件上的目标后,还可以依据目标的标识信息确定其是否是所述目标,若不是所述目标,在依据对标识信息的比较,可以定位所述目标在所述相应行数的上或下的位置上,从而可以快速的查找到所述目标,提高查找的效率。
参照图4,给出了本发明实施例所述数据处理装置结构图。
相应的,本发明实施例还提供了一种数据处理装置,包括:获取模块11、遍历并获取模块13、查找并获取模块14和组成模块15。
获取模块11,用于获取n种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息,n为正整数;
遍历并获取模块13,用于对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;
查找并获取模块14,用于按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的n-1种目标文件;
组成模块15,用于将所述目标和对应各类型的描述信息进行关联,构成总目标文件。
本发明实施例中,所述的装置还包括:
行数比计算模块12,用于获取每种目标文件的总行数,并将其他目标文件的总行数,以第一种目标文件的总行数为基准进行归一化处理,获取其他目标文件相对应第一种目标文件的行数比。
本发明实施例中,所述行数比计算模块12,还用于当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比。
本发明实施例中,所述行数比计算模块12,具体用于将第一种目标文件的总行数减去所述目标在第一种目标文件中的行数,获取对应的第一行数;获取所述目标在各其他目标文件中的各相应行数,并将各其他目标文件的总行数减去对应各相应行数,获取在各其他目标文件中对应的第二行数;将所述在各其他目标文件中对应的第二行数,以所述第一行数为基准进行归一化处理,获取重新计算的其他目标文件相对应第一种目标文件的行数比。
本发明实施例中,所述查找并获取模块14,具体用于按照在第一种目标文件中的行数和对应的行数比,计算所述目标在其他目标文件的相应行数。
本发明实施例中,所述查找并获取模块14,具体用于查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标;若所述相应行数上存储的不是所述目标,则在所述相应行数的相邻行数上查找所述目标,直到查找到所述目标为止。
本发明实施例中,所述目标文件中存储有各目标的标识信息,所述标识信息用于唯一标识一个目标;
所述查找并获取模块14,具体用于查找其他目标文件的相应行数,并获取所述相应行数上存储的目标的标识信息;检测所述相应行数上存储的目标的标识信息,与所述目标的标识信息是否匹配;若匹配,则所述相应行数上存储的是所述目标;若不匹配,则所述相应行数上存储的不是所述目标。
本发明实施例中,所述查找并获取模块14,具体用于检测所述相应行数上存储的目标的标识信息,是否大于所述目标的标识信息;若大于所述目标的标识信息,则在其他目标文件中所述相应行数之前的行数上查找所述目标;若小于所述目标的标识信息,则在其他目标文件中所述相应行数之后的行数上查找所述目标。
综上所述,可以在遍历第一种目标文件以获取目标和对应类型的描述信息时,获取目标在第一种目标文件中的行数,从而确定所述目标在其他目标文件的相应行数,所述相应行数可以用于快速的确定目标在其他目标文件中的位置。再依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,从而将所述目标和n种类型的描述信息构成总目标文件。因此本发明实施例所提供的方法可以快速的查找到各目标文件中目标的描述信息,方法简单并且效率较高。
其次,本发明实施例可以预先依据每种目标文件的总行数,计算出其他目标文件相对应第一种目标文件的行数比,从而依据所述行数比计算相应行数,进而可以快速的定位目标在其他文件中的位置,有利于提高查找的效率。
再次,本发明实施例还在查找过程中调整行数比,即当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比,从而提高对目标在其他目标文件中的位置的定位精度,进一步提高查找的效率。
再次,本发明实施例依据相应行数查找到其他目标文件上的目标后,还可以依据目标的标识信息确定其是否是所述目标,若不是所述目标,在依据对标识信息的比较,可以定位所述目标在所述相应行数的上或下的位置上,从而可以快速的查找到所述目标,提高查找的效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种数据处理方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取n种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息,n为正整数;
对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;
按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的n-1种目标文件;
将所述目标和对应各类型的描述信息进行关联,构成总目标文件。
2.根据权利要求1所述的方法,其特征在于,所述获取n种目标文件之后,还包括:
获取每种目标文件的总行数,并将其他目标文件的总行数,以第一种目标文件的总行数为基准进行归一化处理,获取其他目标文件相对应第一种目标文件的行数比。
3.根据权利要求2所述的方法,其特征在于,还包括:
当所述目标在第一种目标文件中的行数达到预设条件时,重新计算所述行数比。
4.根据权利要求3所述的方法,其特征在于,所述重新计算所述行数比,包括:
将第一种目标文件的总行数减去所述目标在第一种目标文件中的行数,获取对应的第一行数;
获取所述目标在各其他目标文件中的各相应行数,并将各其他目标文件的总行数减去对应各相应行数,获取在各其他目标文件中对应的第二行数;
将所述在各其他目标文件中对应的第二行数,以所述第一行数为基准进行归一化处理,获取重新计算的其他目标文件相对应第一种目标文件的行数比。
5.根据权利要求2或4任一所述的方法,其特征在于,所述按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,包括:
按照在第一种目标文件中的行数和对应的行数比,计算所述目标在其他目标文件的相应行数。
6.根据权利要求5所述的方法,其特征在于,所述在其他目标文件的相应行数查找所述目标,包括:
查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标;
若所述相应行数上存储的不是所述目标,则在所述相应行数的相邻行数上查找所述目标,直到查找到所述目标为止。
7.根据权利要求6所述的方法,其特征在于,所述目标文件中存储有各目标的标识信息,所述标识信息用于唯一标识一个目标;
所述查找其他目标文件的相应行数,检测所述相应行数上存储的是否是所述目标,包括:
查找其他目标文件的相应行数,并获取所述相应行数上存储的目标的标识信息;
检测所述相应行数上存储的目标的标识信息,与所述目标的标识信息是否匹配;
若匹配,则所述相应行数上存储的是所述目标;
若不匹配,则所述相应行数上存储的不是所述目标。
8.根据权利要求7所述的方法,其特征在于,所述在所述相应行数的相邻行数上查找所述目标,包括:
检测所述相应行数上存储的目标的标识信息,是否大于所述目标的标识信息;
若大于所述目标的标识信息,则在其他目标文件中所述相应行数之前的行数上查找所述目标;
若小于所述目标的标识信息,则在其他目标文件中所述相应行数之后的行数上查找所述目标。
9.一种数据处理装置,其特征在于,包括:
获取模块,用于获取n种目标文件,其中,所述目标文件用于存储各个目标的描述信息,一种目标文件存储一种类型的描述信息,n为正整数;
遍历并获取模块,用于对第一种目标文件进行遍历,并依次获取所述第一种目标文件中的目标,对应类型的描述信息,以及所述目标在第一种目标文件中的行数;
查找并获取模块,用于按照在第一种目标文件中的行数确定所述目标在其他目标文件的相应行数,并依次在其他目标文件的相应行数查找所述目标,并获取对应类型的描述信息,其中,所述其他目标文件是除第一种目标文件以外的n-1种目标文件;
组成模块,用于将所述目标和对应各类型的描述信息进行关联,构成总目标文件。
10.根据权利要求9所述的装置,其特征在于,还包括:
行数比计算模块,用于获取每种目标文件的总行数,并将其他目标文件的总行数,以第一种目标文件的总行数为基准进行归一化处理,获取其他目标文件相对应第一种目标文件的行数比。
CN2013100044518A 2013-01-07 2013-01-07 一种数据处理方法和装置 Pending CN103077232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100044518A CN103077232A (zh) 2013-01-07 2013-01-07 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100044518A CN103077232A (zh) 2013-01-07 2013-01-07 一种数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN103077232A true CN103077232A (zh) 2013-05-01

Family

ID=48153762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100044518A Pending CN103077232A (zh) 2013-01-07 2013-01-07 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN103077232A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080293A1 (en) * 2004-10-13 2006-04-13 Infinancials Procedure and mechanism for searching for information in databases
CN101394451A (zh) * 2008-11-06 2009-03-25 北京中创信测科技股份有限公司 呼叫详细记录数据的存储方法、显示方法及系统
CN101916275A (zh) * 2010-08-13 2010-12-15 中国石油天然气集团公司 一种多数据源测井数据访问方法及系统
CN101968795A (zh) * 2010-09-03 2011-02-09 清华大学 一种数据块长度可变的文件系统缓存方法
CN102043795A (zh) * 2009-10-13 2011-05-04 上海新华控制技术(集团)有限公司 过程控制历史数据文件结构的建立方法和数据读写方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080293A1 (en) * 2004-10-13 2006-04-13 Infinancials Procedure and mechanism for searching for information in databases
CN101394451A (zh) * 2008-11-06 2009-03-25 北京中创信测科技股份有限公司 呼叫详细记录数据的存储方法、显示方法及系统
CN102043795A (zh) * 2009-10-13 2011-05-04 上海新华控制技术(集团)有限公司 过程控制历史数据文件结构的建立方法和数据读写方法
CN101916275A (zh) * 2010-08-13 2010-12-15 中国石油天然气集团公司 一种多数据源测井数据访问方法及系统
CN101968795A (zh) * 2010-09-03 2011-02-09 清华大学 一种数据块长度可变的文件系统缓存方法

Similar Documents

Publication Publication Date Title
CN104679778B (zh) 一种搜索结果的生成方法及装置
CN103049575B (zh) 一种主题自适应的学术会议搜索系统
CN107844565B (zh) 商品搜索方法和装置
CN104620241B (zh) 多语言文档聚类
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN103577418B (zh) 海量文档分布式检索排重系统和方法
CN104281664B (zh) 分布式图计算系统数据切分方法和系统
CN102298650B (zh) 一种海量数字信息的分布式推荐方法
CN104123366A (zh) 一种搜索方法及搜索服务器
CN105512143A (zh) 一种网页分类方法及装置
CN102737123B (zh) 一种多维数据分布方法
KR20140091591A (ko) 광고 캠페인 생성
CN103218443A (zh) 一种面向博客网页的网页检索系统及方法
CN104834736A (zh) 构建索引库的方法、装置及检索的方法、装置和系统
CN102411617A (zh) 一种对海量url进行存储和查询方法
CN103559258A (zh) 基于云计算的网页排序方法
CN103226609A (zh) 一种web聚焦搜索系统的搜索方法
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN103365961A (zh) 一种面向精准搜索的网站结构化标注方法和系统
CN104899201A (zh) 文本提取方法、敏感词判定方法、装置和服务器
CN103455491A (zh) 对查询词分类的方法及装置
US9916348B1 (en) Answer facts from structured content
Chuang et al. Effective web crawling for chinese addresses and associated information
Ajoudanian et al. Deep web content mining
CN104021192A (zh) 一种数据库更新方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20170329

AD01 Patent right deemed abandoned