CN110019162B - 实现属性归一的方法和装置 - Google Patents

实现属性归一的方法和装置 Download PDF

Info

Publication number
CN110019162B
CN110019162B CN201711260832.7A CN201711260832A CN110019162B CN 110019162 B CN110019162 B CN 110019162B CN 201711260832 A CN201711260832 A CN 201711260832A CN 110019162 B CN110019162 B CN 110019162B
Authority
CN
China
Prior art keywords
data
word
normalization
normalized
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711260832.7A
Other languages
English (en)
Other versions
CN110019162A (zh
Inventor
赵墨农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711260832.7A priority Critical patent/CN110019162B/zh
Publication of CN110019162A publication Critical patent/CN110019162A/zh
Application granted granted Critical
Publication of CN110019162B publication Critical patent/CN110019162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明公开了实现属性归一的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:以待归一数据的单词为KEY、待归一数据为VALUE得到第一数据;将具有相同KEY的第一数据聚合为第一数据组,第一数据组中每条第一数据的VALUE聚合成第二数据,从第一数据组的所有词中选举一个作为第二数据的归一词;以第二数据中每个原词为KEY、第二数据为VALUE得到第三数据;将具有相同KEY的第三数据聚合为第二数据组,将第二数据组中每条第三数据的VALUE聚合成第四数据,从第二数据组的所有归一词中选举一个作为第四数据的归一词并加入拓展词集合形成结果数据;依据结果数据确定归一后的属性值。该实施方式无需人工维护即可实现属性归一,准确性高,实时性好,节省人力。

Description

实现属性归一的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种实现属性归一的方法和装置。
背景技术
各种数据挖掘算法的基础是数据的特征。然而在现今的互联网中,为了增加在各种搜索引擎中的曝光率,使用者往往会把同一个属性的各种写法尽量多的体现在文本中。即,一条数据的某个属性值,往往是由多个能代表同一含义的冗余词拼接表示的。采用不同写法编写同一属性的属性值,会给数据处理带来诸多麻烦。以电商领域为例,若某品牌A的写法有A1、A2、A3、A4四种,这四种写法都代表品牌A,然而不同商家在写品牌名称的时候,采用的写法、每种写法的数量、前后顺序等都不一定一样。若“A1 A2 A3”是某一条数据的品牌字段的原词,“A2 A3 A4”是另一条数据的品牌字段的原词,这两种写法都代表品牌A。由于采用的写法、每种写法的数量、前后顺序等不同,计算机很难在海量数据中通过品牌字段,将这两条数据分类为同一品牌。因此,如何将海量数据中不同写法、数量、顺序等、但是代表同一含义的原词进行归一,成为了数据挖掘中一个普遍存在的问题。
现有的做法是,人工维护一张对应表格,将同一属性的原词的各种写法,都对应一个该属性的“唯一标识”。在做后续数据处理算法之前,用待处理数据关联这个对应表,找出每一条数据对应的“唯一标识”,然后再进行后续处理。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1)耗费人力:维护对应表需要耗费持续的人力,因为同一属性的原词不论何时出现不同的写法,都要人工维护加到这张对应表中。
2)准确性和实时性低:在海量数据中,要人工准确、全面、快速的找到某一个属性新出现的不同写法的原词,是很难做到的,从而出现某个属性由于对应表更新不及时、不准确等造成的分类错误,或者根本对应不上的情况。
发明内容
有鉴于此,本发明实施例提供一种实现属性归一的方法和装置,无需人工维护即可实现属性归一,准确性高,实时性好,节省人力。
为实现上述目的,根据本发明实施例的一个方面,提供了一种实现属性归一的方法,包括如下步骤:
对于源数据中的每条待归一数据:以所述待归一数据的一个单词为KEY、以所述待归一数据为VALUE,得到第一数据;
将具有相同KEY的第一数据聚合为第一数据组,对于每个第一数据组:将第一数据组中每条第一数据的VALUE聚合形成第二数据,从第一数据组的所有词中选举一个词作为第二数据的归一词和拓展词;以第二数据中的每个原词为KEY、第二数据为VALUE,得到第三数据;
将具有相同KEY的第三数据聚合为第二数据组,对于每个第二数据组:将第二数据组中每条第三数据的VALUE聚合形成第四数据,从第二数据组的所有归一词中选举一个归一词作为第四数据的归一词并加入拓展词集合形成结果数据;
依据所述结果数据确定归一后的属性值。
可选地,所述形成结果数据之后还包括:
对于源数据中每条待归一数据对应的结果数据,判断所述结果数据是否满足如下条件:所述结果数据的原词与对应的所述待归一数据的原词相同、且所述结果数据的归一词与对应的所述待归一数据的归一词相同;
若所述结果数据满足所述条件,则所述依据所述结果数据确定归一后的属性值包括:以所述结果数据的归一词作为归一后的属性值。
可选地,若所述结果数据不满足所述条件,则以所述结果数据作为所述源数据进行循环迭代,直至形成的结果数据满足所述条件。
可选地,每个归一词满足如下条件:
对于同一个属性,每条所述待归一数据对应的归一词全局唯一;
对于不同的属性,任意两条所述待归一数据对应的归一词不同;
任意两条所述待归一数据对应的归一词之间具有大小可比性。
可选地,所述归一词是采用哈希算法或MD5算法选举的。
根据本发明实施例的再一个方面,提供了一种实现属性归一的装置,包括:
解析模块,用于:对于源数据中的每条待归一数据:以所述待归一数据的一个单词为KEY、以所述待归一数据为VALUE,得到第一数据;
触手模块,用于:将具有相同KEY的第一数据聚合为第一数据组,对于每个第一数据组:将第一数据组中每条第一数据的VALUE聚合形成第二数据,从第一数据组的所有词中选举一个词作为第二数据的归一词;以第二数据中的每个原词为KEY、第二数据为VALUE,得到第三数据;
选举模块:用于:将具有相同KEY的第三数据作为第二数据组,对于每个第二数据组:将第二数据组中每条第三数据的VALUE聚合形成第四数据,从第二数据组的所有归一词中选举一个归一词作为第四数据的归一词并加入拓展词集合形成结果数据;
确定模块,用于:依据所述结果数据确定归一后的属性值。
可选地,本发明实施例的装置还包括:判断模块,用于:
形成结果数据之后,对于源数据中每条待归一数据对应的结果数据,判断所述结果数据是否满足如下条件:所述结果数据的原词与对应的所述待归一数据的原词相同、且所述结果数据的归一词与对应的所述待归一数据的归一词相同;
若所述结果数据满足所述条件,则所述确定模块以所述结果数据的归一词作为归一后的属性值。
可选地,若所述结果数据不满足所述条件,则以所述结果数据作为所述源数据,所述解析模块、所述触手模块、所述选举模块和确定模块循环迭代,直至形成的结果数据满足所述条件。
可选地,每个归一词满足如下条件:
对于同一个属性,每条所述待归一数据对应的归一词全局唯一;
对于不同的属性,任意两条所述待归一数据对应的归一词不同;
任意两条所述待归一数据对应的归一词之间具有大小可比性。
可选地,所述归一词是采用哈希算法或MD5算法选举的。
根据本发明实施例的另一个方面,提供了一种实现属性归一的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的实现属性归一的方法。
根据本发明实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的实现属性归一的方法。
上述发明中的一个实施例具有如下优点或有益效果:
1)剔除了人工干预,不需要人工维护,既省了人力,又排除了人为错误所带来的干扰;
2)准确性高、实时性好,不存在因人工维护不及时造成对应表版本和数据版本不同的情况;
3)应用广泛,能在很多大数据载体上通用,例如spark和MapReduce;能应用于不同属性,例如地名、国家、股票、公司等属性都可以用这种方式对网络冗余数据进行归一操作。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的实现属性归一的方法的主要流程的示意图;
图2是根据本发明实施例的源数据中任意一条待归一数据的数据结构示意图;
图3a至3e是根据本发明可选实施例的实现属性归一的方法的示意图;
图4是根据本发明实施例的实现属性归一的方法的主要步骤的示意图;
图5是根据本发明实施例的实现属性归一的装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的实现属性归一的方法的主要流程的示意图,如图1所示,一种实现属性归一的方法,包括如下步骤:
步骤S101、对于源数据中的每条待归一数据:以所述待归一数据的一个单词为触手(记作KEY)、以所述待归一数据为数据信息(记作VALUE),得到第一数据。
本发明实施例中,待归一数据包括:待归一的原词、对所述原词进行分词得到的单词集合、归一词、以及以每个归一词作为拓展词形成的拓展词集合。
原词代表要进行属性归一的某一属性的一条未经处理的数据。由于原词的写法、不同写法的数量以及前后顺序等不同,具有同一含义的待归一数据可能分别具有不同的原词。在业务层面上,原词代表同一个属性值在一条数据中几个不同写法的合集。在一条数据中,几个不同写法的合集。
原词进行分词处理后,分出的每一个词叫做一个单词。在业务层面上,它代表一个属性值的一种写法。分词处理的方法可以根据原词的实际情况进行设定,例如,若某以原词中,代表同一含义但是写法不同的各个单词之间是采用空格分割的,则进行分词处理时,可以用空格对原词进行拆分。本发明实施例对分词处理的方法不做具体限定。
归一词是对能表达同一含义但是不同写法的原词,给出的一个标识。也就是说,具有相同“归一词”的原词,将其认定为代表同一含义,只是写法不同。
每次循环迭代寻找的结果数据的归一词命名为拓展词,将历次寻找到的拓展词放在一个集合里,形成拓展词集合。
图2是根据本发明实施例的源数据中任意一条待归一数据的数据结构示意图,其中,“A1 A2 A3”代表该待归一数据中待归一的原词,“单词集合”代表由原词“A1 A2 A3”进行分词处理后得到的各个单词的集合;“B2”代表该待归一数据的第一归一词,“B1 B2”代表该待归一数据的拓展词集合。应当说明的是,上述实施例示出的数据结构示意图中,原词所包含的单词的数量、单词集合中单词的数量、以及拓展词集合中拓展词的数量仅用于示意性说明,并不是对待归一数据中原词所包含的单词的数量、单词集合中单词的数量、以及拓展词集合中拓展词的数量进行限制。
应当理解的是,本发明实施例中,当首次对待归一的源数据进行循环迭代时,源数据中的每条待归一数据的归一词和拓展词集合为空(NULL),如图2所示。当多次循环迭代时,源数据中每条待归一数据的单词集合中除了包括由该条数据中原词经分词处理得到的各个单词以外,还有可能包括其他前次迭代过程中由其他原词经分次处理得到的单词。例如,图3e是本发明可选实施例中首次循环迭代得到的结果数据,若以该结果数据作为源数据进行循环迭代,则组1中原词为“A1 A2 A3 A4”,但是其对应的单词集合中包括“A1 A2A3”,即包括由其他原词经分次处理得到的单词“A4”;组2中原词为“A2 A4”,但是其对应的单词集合中包括“A1 A2 A3 A4”,即包括由其他原词经分次处理得到的单词“A1”和“A3”。关于图3e中结果数据以及循环迭代,将在下文进行详细说明。
对于源数据中的每条待归一数据:在步骤S101中,首先以待归一数据的单词为KEY、以待归一数据为VALUE,得到第一数据。通过此步骤,使得源数据中的每条待归一数据变为多条。
以源数据包括如下两条待归一数据为例:一条待归一数据的原词为“A1 A2 A3”,单词集合为该原词经分次处理得到的单词的集合,第一归一词和拓展词集合为NULL;另一条待归一数据的原词为“A2 A4”,单词集合为该原词经分次处理得到的单词的集合,归一词和拓展词集合为NULL。图3a示出了经步骤S101之后,每条待归一数据分别得到的多条第一数据。
步骤S102、将具有相同KEY的第一数据作为第一数据组,对于每个第一数据组:将第一数据组中每条第一数据的VALUE聚合形成第二数据,从第一数据组的所有词中选举一个词作为第二数据的归一词和拓展词;以第二数据中的每个原词为KEY、第二数据为VALUE,得到第三数据。
每条第一数据中的KEY代表待归一的属性的一种写法。通过将每条待归一数据变为多条第一数据,可以使每条第一数据中的KEY作为触手延伸出去,每个触手都带着这条待归一数据的完整信息。在整个数据集(即同一条源数据对应的多条第一数据)中,将具有相同KEY的第一数据聚合为第一数据组,以KEY作为触手,相互搭桥寻找相同触手的其他第一数据,将这些数据的所有信息进行比较,选举出一个归一词,即第二数据的归一词。
以图3a中的示例为例,通过将具有相同KEY的第一数据聚合为第一数据组,图3a中每条待归一数据分别得到的多条第一数据被划分为4组,如图3b所示。其中,组1中包括一条第一数据,其KEY为“A1”;组2中包括两条第一数据,其KEY为“A2”;组3中包括一条第一数据,其KEY为“A3”;组1中包括一条第一数据,其KEY为“A4”。
将第一数据组中每条第一数据的VALUE聚合形成第二数据,是指:将第一数据组中所有第一数据的单词集合和拓展词集合合并,以合并后的单词集合和拓展词集合替换第一数据的单词集合和拓展词集合,形成与该第一数据对应的第二数据。进一步地,合并之后可以进一步包括去重处理。具体地,若合并之后的单词集合中包含重复的单词,则将该重复的单词从合并后的单词集合中去除;若合并之后的拓展词集合中包含重复的拓展词,则将该重复的拓展词从合并后的拓展词集合中去除。通过去重处理,能够降低后续步骤的计算量,提高本发明实施例实现属性归一的效率。
将第一数据组中的所有信息进行比较,从第一数据组的所有词中选举一个词,即第二数据的归一词。此处提及的所有词,包括:第一数据的单词集合中的每个单词、归一词、拓展词集合中的每个拓展词。例如,图3b的示例中,从组1中选举得到的归一词为A3,从组2中选举得到的归一词为A4,从组3中选举得到的归一词为A3,从组4中选举得到的归一词为A4。可选地,从第一数据组的所有词中选举一个词之前,可以进一步包括去重处理。具体地,若第一数据组的所有词中包含重复的词,则将该重复的词去除,从去除之后剩余的词中选举一个词作为第二数据的归一词。通过去重处理,能够降低选举步骤的计算量,提高本发明实施例实现属性归一的效率。
将第一数据组中每条第一数据的VALUE聚合形成第二数据,以选举出的词作为第二数据的归一词。以图3b中的示例为例,若从组1中选举得到的归一词为A3,则第二数据的归一词为A3;若从组2中选举得到的归一词为A4,则第二数据的归一词为A4;若从组3中选举得到的归一词为A3,则第二数据的归一词为A3;若从组4中选举得到的归一词为A4,则第二数据的归一词为A4。
以第二数据中的每个原词为KEY、第二数据为VALUE,得到第三数据。以图3b中的示例为例,经过本步骤后,图3b中组1得到的第三数据如图3c中的组1,图3b中组2中两条第二数据得到的第三数据分别为如图3c中的组2中的两条更新后的第二数据;图3b中组3得到的第三数据如图3c中的组3;图3b中组4得到的第三数据如图3c中的组4。通过本步骤,使得每个触手延伸出去后获取的数据都被沾到对应的触手上。
步骤S103、将具有相同KEY的第三数据聚合为第二数据组,对于每个第二数据组:将第二数据组中每条第三数据的VALUE聚合形成第四数据,从第二数据组的所有归一词中选举一个归一词作为第四数据的归一词并加入拓展词集合形成结果数据。
将具有相同KEY的第三数据聚合为第二数据组。以图3d中的示例为例,通过将具有相同KEY的第三数据聚合为第二数据组,图3d中每条待归一数据分别得到的多条第一数据被划分为2组,如图3d所示。其中,组1中包括三条第三数据,其KEY为“A1 A2 A3”;组2中包括两条第三数据,其KEY为“A2 A4”。
将第二数据组中每条第三数据的VALUE聚合形成第四数据,是指:将第二数据组中所有第三数据的单词集合和拓展词集合合并,以合并后的单词集合和拓展词集合替换第三数据的单词集合和拓展词集合,形成与该第三数据对应的第四数据。进一步地,合并之后可以进一步包括去重处理。具体地,若合并之后的单词集合中包含重复的单词,则将该重复的单词从合并后的单词集合中去除;若合并之后的拓展词集合中包含重复的拓展词,则将该重复的拓展词从合并后的拓展词集合中去除。通过去重处理,能够降低后续步骤的计算量,提高本发明实施例实现属性归一的效率。
划分第二数据组后,将每个触手带回来的“归一词”放到一起,对第二数据组中的所有信息进行比较,再进行选举,从第二数据组的所有归一词中选举出一个归一词,即第四数据的归一词。例如,图3d的示例中,从组1中每条第三数据的第一归一词分别为A3、A4和A4,选举得到的第三归一词为A4,从组2中每条第三数据的第一归一词分别为A4和A4,选举得到的第二归一词为A4。可选地,从第二数据组的所有归一词中选举一个归一词之前,可以进一步包括去重处理。具体地,若第二数据组的所有归一词中包含重复的归一词,则将该重复的归一词去除,从去除之后剩余的归一词中选举一个归一词作为第四数据的归一词。通过去重处理,能够降低选举步骤的计算量,提高本发明实施例实现属性归一的效率。
将第二数据组中每条第三数据的VALUE聚合形成第四数据,从第二数据组的所有归一词中选举一个归一词作为第四数据的归一词并加入拓展词集合形成结果数据。以图3d中的示例为例,经过本步骤后得到的结果数据如图3e所示,具体地:若从组1中选举得到的归一词为A4,则形成的结果数据的归一词为A4,单词集合包含单词A1、A2、A3和A4,拓展词集合中包含拓展词A4;若从组2中选举得到的归一词为A4,则形成的结果数据的归一词为A4,单词集合包含单词A1、A2、A3和A4,拓展词集合中包含拓展词A4。
步骤S104、依据所述结果数据确定归一后的属性值。
可选地,所述形成结果数据之后还包括:
对于源数据中每条待归一数据对应的结果数据,判断所述结果数据是否满足如下条件:所述结果数据的原词与对应的所述待归一数据的原词相同、且所述结果数据的归一词与对应的所述待归一数据的归一词相同;
若所述结果数据满足所述条件,则所述依据所述结果数据确定归一后的属性值包括:以所述结果数据的归一词作为归一后的属性值。
可选地,若所述结果数据不满足所述条件,则以所述结果数据作为所述源数据进行循环迭代,直至形成的结果数据满足所述条件。每一次循环迭代相当于一次伸出触手进行触探选举、再收回触手、重新选举的整体过程。只是每次循环迭代有可能增加一个不同的拓展词,于是每一条待归一数据都有可能增加一个触手。下一次伸出触手就能触探到更多的信息。
可选地,每个归一词满足如下条件:
对于同一个属性,每条所述待归一数据对应的归一词全局唯一;
对于不同的属性,任意两条所述待归一数据对应的归一词不同;
任意两条所述待归一数据对应的归一词之间具有大小可比性。
本发明实施例中,归一词仅仅是不同写法的原词的一个标识,本领域技术人员可以根据实际情况选择合适的方法选举归一词,只要有且只有相同含义的原词选举出的归一词是同一个词即可,本发明对选举归一词的方法不做具体限定。可选地,归一词可以采用哈希算法或MD5算法选举的。例如,在选举归一词时,采用哈希算法计算每个词的哈希值,然后选择哈希值最大或最小的词作为选举得到的归一词。需要说明的是,为了保证选举出的归一词能够有效标识原词,如果选哈希值最大的词作为归一词,则每次选举归一词时都应当选择哈希值最大的词,如果选哈希值最小的词作为归一词,则每次选举归一词时都应当选择哈希值最小的词。
图4是根据本发明实施例的实现属性归一的方法的主要步骤的示意图。其中,首次对待归一的源数据进行循环迭代时,源数据经过本发明实施例的步骤S101、S102和S103之后得到结果数据,以该结果数据作为第二次循环迭代的源数据进行第二次循环迭代。循环迭代是指重复执行本发明实施例的步骤S101、S102和S103。第二次循环迭代结束后,判断结果数据是否满足条件,若满足,则跳出循环迭代,依据结果数据确定归一后的属性值,若不满足,则以此次循环迭代的结果数据作为源数据,继续进行循环迭代,直至得到的结果数据满足前述条件。
本发明实施例中,各个数据的VALUE的结构均与待归一的源数据的结构系统,即都包括:待归一的原词、对所述原词进行分词得到的单词集合、归一词、以及以每个归一词作为拓展词形成的拓展词集合。每次循环迭代得到的结果数据的原词与对应的源数据的原词相同,结果数据的单词集合与对应的源数据的单词集合也相同。但是,每次循环迭代的结果数据的归一词和拓展词集合与对应的源数据的归一词和拓展词集合有可能发生变化。
应当理解的是,本发明实施例中,当首次对待归一的源数据进行循环迭代时,源数据中的每条待归一数据的归一词和拓展词集合为空(NULL),因此,首次循环迭代得到的结果数据不满足上述条件,不需要进行前述的判断过程。但是从第二次循环迭代开始,每一次循环迭代生成的结果数据都要和本次循环迭代的源数据进行前述的判断过程,以决定这个结果数据是否为最终的结果数据。
当某次循环迭代得到的结果数据满足前述条件时,不管再进行多少次循环迭代,得到的结果数据都满足前述条件。因此,可以直接以该某次迭代得到的结果数据作为最终的结果数据。
本发明实施例中,以源数据中每条待归一数据的每个单词作为触手KEY,可以相互搭桥寻找相同触手的其他第一数据,将这些数据的所有信息进行比较处理得到第二数据;以第二数据中的每个原词为触手KEY,能将以各个单词作为触手时获得的信息收回,更新当前数据形成结果数据。本发明实施例无需人工维护即可实现属性归一,准确性高,实时性好,节省人力。
根据本发明实施例的再一个方面,提供了一种实现属性归一的装置。如图5所示,实现属性归一的装置500包括:
解析模块501,用于:对于源数据中的每条待归一数据:以所述待归一数据的一个单词为KEY、以所述待归一数据为VALUE,得到第一数据;
触手模块502,用于:将具有相同KEY的第一数据作为第一数据组,对于每个第一数据组:将第一数据组中每条第一数据的VALUE聚合形成第二数据,从第一数据组的所有词中选举一个词作为第二数据的归一词;以第二数据中的每个原词为KEY、第二数据为VALUE,得到第三数据;
选举模块503,用于:将具有相同KEY的第三数据作为第二数据组,对于每个第二数据组:将第二数据组中每条第三数据的VALUE聚合形成第四数据,从第二数据组的所有归一词中选举一个归一词作为第四数据的第一归一词并加入拓展词集合形成结果数据;
确定模块505,用于:依据所述结果数据确定归一后的属性值;
其中,所述所有词包括:第一数据的单词集合中的每个单词、归一词、拓展词集合中的每个拓展词;
所述待归一数据包括:待归一的原词、对所述原词进行分词得到的单词集合、归一词、以及以每个归一词作为拓展词形成的拓展词集合。
可选地,本发明实施例的装置还包括:判断模块504,用于:
形成结果数据之后,对于源数据中每条待归一数据对应的结果数据,判断所述结果数据是否满足如下条件:所述结果数据的原词与对应的所述待归一数据的原词相同、且所述结果数据的归一词与对应的所述待归一数据的归一词相同;
若所述结果数据满足所述条件,则所述确定模块以所述结果数据的归一词作为归一后的属性值。
可选地,若所述结果数据不满足所述条件,则以所述结果数据作为所述源数据,所述解析模块、所述触手模块、所述选举模块和确定模块循环迭代,直至形成的结果数据满足所述条件。
可选地,每个归一词满足如下条件:
对于同一个属性,每条所述待归一数据对应的归一词全局唯一;
对于不同的属性,任意两条所述待归一数据对应的归一词不同;
任意两条所述待归一数据对应的归一词之间具有大小可比性。
可选地,所述归一词是采用哈希算法或MD5算法选举的。
本发明实施例的实现属性归一的方法和装置能在很多大数据载体上通用,通用性好。例如spark(Spark是专为大规模数据处理而设计的快速通用的计算引擎,是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架)和MapReduce(MapReduce是一种编程模型,用于大规模数据集的并行运算)。本发明实施例的实现属性归一的方法和装置能应用于不同属性,适用范围广。例如地名、国家、股票、公司等属性都可以用这种本发明实施例的方法和装置对网络冗余数据进行归一操作。本发明实施例的实现属性归一的过程可以在分布式集群上实现,由多台服务器共同完成,效率高。
根据本发明实施例的另一个方面,提供了一种实现属性归一的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的实现属性归一的方法。
根据本发明实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的实现属性归一的方法。
图6示出了可以应用本发明实施例的实现属性归一的方法或实现属性归一的装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的实现属性归一的方法一般由服务器605执行,相应地,实现属性归一的装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:实现属性归一的装置包括:解析模块、触手模块、选举模块、判断模块和确模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,判断模块还可以被描述为“依据所述结果数据确定归一后的属性值”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
对于源数据中的每条待归一数据:以所述待归一数据的一个单词为KEY、以所述待归一数据为VALUE,得到第一数据;
将具有相同KEY的第一数据作为第一数据组,对于每个第一数据组:将第一数据组中每条第一数据的VALUE聚合形成第二数据,从第一数据组的所有词中选举一个词作为第二数据的归一词;以第二数据中的每个原词为KEY、第二数据为VALUE,得到第三数据;
将具有相同KEY的第三数据作为第二数据组,对于每个第二数据组:将第二数据组中每条第三数据的VALUE聚合形成第四数据,从第二数据组的所有归一词中选举一个归一词作为第四数据的归一词并加入拓展词集合形成结果数据;
依据所述结果数据确定归一后的属性值。
上述发明中的一个实施例具有如下优点或有益效果:
1)剔除了人工干预,不需要人工维护,既省了人力,又排除了人为错误所带来的干扰;
2)准确性高、实时性好,不存在因人工维护不及时造成对应表版本和数据版本不同的情况;
3)应用广泛,能在很多大数据载体上通用,例如spark和MapReduce;能应用于不同属性,例如地名、国家、股票、公司等属性都可以用这种方式对网络冗余数据进行归一操作。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种实现属性归一的方法,其特征在于,包括如下步骤:
对于源数据中的每条待归一数据:以所述待归一数据的一个单词为KEY、以所述待归一数据为VALUE,得到第一数据;
将具有相同KEY的第一数据聚合为第一数据组,对于每个第一数据组:将第一数据组中每条第一数据的VALUE聚合形成第二数据,从第一数据组的所有词中选举一个词作为第二数据的归一词;以第二数据中的每个原词为KEY、第二数据为VALUE,得到第三数据;
将具有相同KEY的第三数据聚合为第二数据组,对于每个第二数据组:将第二数据组中每条第三数据的VALUE聚合形成第四数据,从第二数据组的所有归一词中选举一个归一词作为第四数据的归一词并加入拓展词集合形成结果数据;
依据所述结果数据确定归一后的属性值;
其中,所述VALUE聚合包括:将所述VALUE包括的单词集合和拓展词集合合并,以合并后的单词集合和拓展词集合替换所述VALUE包括的单词集合和拓展词集合;
依据所述结果数据确定归一后的属性值,包括:如果所述结果数据的原词与对应的所述待归一数据的原词相同、且所述结果数据的归一词与对应的所述待归一数据的归一词相同,以所述结果数据的归一词作为归一后的属性值。
2.如权利要求1所述的方法,其特征在于,所述形成结果数据之后还包括:
对于源数据中每条待归一数据对应的结果数据,判断所述结果数据是否满足如下条件:所述结果数据的原词与对应的所述待归一数据的原词相同、且所述结果数据的归一词与对应的所述待归一数据的归一词相同;
若所述结果数据满足所述条件,则所述依据所述结果数据确定归一后的属性值包括:以所述结果数据的归一词作为归一后的属性值。
3.如权利要求2所述的方法,其特征在于,若所述结果数据不满足所述条件,则以所述结果数据作为所述源数据进行循环迭代,直至形成的结果数据满足所述条件。
4.如权利要求1-3任一所述的方法,其特征在于,每个归一词满足如下条件:
对于同一个属性,每条所述待归一数据对应的归一词全局唯一;
对于不同的属性,任意两条所述待归一数据对应的归一词不同;
任意两条所述待归一数据对应的归一词之间具有大小可比性。
5.如权利要求4所述的方法,其特征在于,所述归一词是采用哈希算法或MD5算法选举的。
6.一种实现属性归一的装置,其特征在于,包括:
解析模块,用于:对于源数据中的每条待归一数据:以所述待归一数据的一个单词为KEY、以所述待归一数据为VALUE,得到第一数据;
触手模块,用于:将具有相同KEY的第一数据聚合为第一数据组,对于每个第一数据组:将第一数据组中每条第一数据的VALUE聚合形成第二数据,从第一数据组的所有词中选举一个词作为第二数据的归一词和拓展词;以第二数据中的每个原词为KEY、第二数据为VALUE,得到第三数据;
选举模块,用于:将具有相同KEY的第三数据聚合为第二数据组,对于每个第二数据组:将第二数据组中每条第三数据的VALUE聚合形成第四数据,从第二数据组的所有归一词中选举一个归一词作为第四数据的归一词并加入拓展词集合形成结果数据;
确定模块,用于:依据所述结果数据确定归一后的属性值;
其中,所述VALUE聚合包括:将所述VALUE包括的单词集合和拓展词集合合并,以合并后的单词集合和拓展词集合替换所述VALUE包括的单词集合和拓展词集合;
依据所述结果数据确定归一后的属性值,包括:如果所述结果数据的原词与对应的所述待归一数据的原词相同、且所述结果数据的归一词与对应的所述待归一数据的归一词相同,以所述结果数据的归一词作为归一后的属性值。
7.如权利要求6所述的装置,其特征在于,还包括:判断模块,用于:
形成结果数据之后,对于源数据中每条待归一数据对应的结果数据,判断所述结果数据是否满足如下条件:所述结果数据的原词与对应的所述待归一数据的原词相同、且所述结果数据的归一词与对应的所述待归一数据的归一词相同;
若所述结果数据满足所述条件,则所述确定模块以所述结果数据的归一词作为归一后的属性值。
8.如权利要求7所述的装置,其特征在于,若所述结果数据不满足所述条件,则以所述结果数据作为所述源数据,所述解析模块、所述触手模块、所述选举模块和确定模块循环迭代,直至形成的结果数据满足所述条件。
9.如权利要求6-8任一所述的装置,其特征在于,每个归一词满足如下条件:
对于同一个属性,每条所述待归一数据对应的归一词全局唯一;
对于不同的属性,任意两条所述待归一数据对应的归一词不同;
任意两条所述待归一数据对应的归一词之间具有大小可比性。
10.如权利要求9所述的装置,其特征在于,所述归一词是采用哈希算法或MD5算法选举的。
11.一种实现属性归一的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201711260832.7A 2017-12-04 2017-12-04 实现属性归一的方法和装置 Active CN110019162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711260832.7A CN110019162B (zh) 2017-12-04 2017-12-04 实现属性归一的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711260832.7A CN110019162B (zh) 2017-12-04 2017-12-04 实现属性归一的方法和装置

Publications (2)

Publication Number Publication Date
CN110019162A CN110019162A (zh) 2019-07-16
CN110019162B true CN110019162B (zh) 2021-07-06

Family

ID=67185943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711260832.7A Active CN110019162B (zh) 2017-12-04 2017-12-04 实现属性归一的方法和装置

Country Status (1)

Country Link
CN (1) CN110019162B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087659A (zh) * 2009-12-07 2011-06-08 索尼公司 信息处理装置、预测变换方法以及程序
CN105183733A (zh) * 2014-06-05 2015-12-23 阿里巴巴集团控股有限公司 一种文本信息的匹配、业务对象的推送方法和装置
CN106599039A (zh) * 2016-11-07 2017-04-26 深圳市睿捷软件技术有限公司 一种支持关系数据库数据自由组合嵌套的统计表述方法
CN107229718A (zh) * 2017-05-31 2017-10-03 北京京东尚科信息技术有限公司 处理报表数据的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423546B2 (en) * 2010-12-03 2013-04-16 Microsoft Corporation Identifying key phrases within documents
CN106599091B (zh) * 2016-11-24 2020-07-14 上海交通大学 基于键值存储的rdf图结构存储和索引方法
CN107169033B (zh) * 2017-04-17 2020-03-31 东北大学 基于数据模式转换和并行框架的关系数据查询优化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087659A (zh) * 2009-12-07 2011-06-08 索尼公司 信息处理装置、预测变换方法以及程序
CN105183733A (zh) * 2014-06-05 2015-12-23 阿里巴巴集团控股有限公司 一种文本信息的匹配、业务对象的推送方法和装置
CN106599039A (zh) * 2016-11-07 2017-04-26 深圳市睿捷软件技术有限公司 一种支持关系数据库数据自由组合嵌套的统计表述方法
CN107229718A (zh) * 2017-05-31 2017-10-03 北京京东尚科信息技术有限公司 处理报表数据的方法和装置

Also Published As

Publication number Publication date
CN110019162A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN107729399B (zh) 数据处理的方法和装置
CN107704202B (zh) 一种数据快速读写的方法和装置
US20140358845A1 (en) Data warehouse compatibility
US10614087B2 (en) Data analytics on distributed databases
CN109871311B (zh) 一种推荐测试用例的方法和装置
CN112214505A (zh) 数据同步方法、装置、计算机可读存储介质及电子设备
CN111753019A (zh) 一种应用于数据仓库的数据分区方法和装置
CN112148841A (zh) 一种对象分类以及分类模型构建方法和装置
CN111444148A (zh) 基于MapReduce的数据传输方法和装置
CN111723063A (zh) 一种离线日志数据处理的方法和装置
CN110019162B (zh) 实现属性归一的方法和装置
US9286348B2 (en) Dynamic search system
CN110858199A (zh) 一种单据数据分布式计算的方法和装置
CN110543520B (zh) 一种数据迁移的方法和装置
CN112783980A (zh) 数据同步处理方法、装置、电子设备以及计算机可读介质
CN107665241B (zh) 一种实时数据多维度去重方法和装置
CN112579673A (zh) 一种多源数据处理方法及装置
CN113742321A (zh) 一种数据更新的方法和装置
CN112862554A (zh) 一种订单数据的处理方法和装置
CN113760600A (zh) 一种数据库备份方法、数据库还原方法和相关装置
CN113535673A (zh) 生成配置文件及数据处理的方法和装置
CN113515504B (zh) 数据管理方法、装置、电子设备以及存储介质
CN113495891A (zh) 一种数据处理方法和装置
CN111694801A (zh) 一种应用于故障恢复的数据去重方法和装置
CN111290927A (zh) 一种数据监控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant