CN106294517A - 信息处理装置及方法 - Google Patents

信息处理装置及方法 Download PDF

Info

Publication number
CN106294517A
CN106294517A CN201510325172.0A CN201510325172A CN106294517A CN 106294517 A CN106294517 A CN 106294517A CN 201510325172 A CN201510325172 A CN 201510325172A CN 106294517 A CN106294517 A CN 106294517A
Authority
CN
China
Prior art keywords
data
unit
candidate
abnormal
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510325172.0A
Other languages
English (en)
Inventor
皮冰锋
钟朝亮
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201510325172.0A priority Critical patent/CN106294517A/zh
Publication of CN106294517A publication Critical patent/CN106294517A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof

Abstract

本发明提供了一种信息处理装置及方法。信息处理装置包括:确定单元,确定来自数据源的数据中的异常数据元;以及异常处理单元,异常处理单元包括:获取模块,用于获取与异常数据元相关的多个候选数据项;以及第一排序模块,用于根据与异常数据元相关联的主数据区域的数据元和多个候选数据项共同出现的概率对多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。根据本发明信息处理装置及方法,通过计算用于修正异常数据元的多个候选数据项与相关联的主数据区域的数据元的共现概率,来对这些候选数据项排序,可以更加有效地处理各种异常信息。

Description

信息处理装置及方法
技术领域
本发明涉及一种信息处理装置及方法,更具体地,涉及一种处理信息整合过程中的异常信息的装置及方法。
背景技术
随着信息技术的发展,必定会产生很多与特定的对象,例如企业相关的数据信息,但这些信息都是分散在各数据源中的,例如,包含在多个数据表中。每个独立的数据源都只展示了对象的一部分信息。想要更好的了解数据的全貌,最好能提供一个整合的对象信息的视图,信息整合技术刚好满足了这种需求。但在整合过程中,对于同一对象来说,在各数据源中存储的信息可能会存在一些异常信息,比如数据冲突、数据失配或数据缺失。
为了解决这些异常信息,一种已有的方法是引入本体的理论,将所有独立的数据源都映射到一个统一的本体上。本体的理论在解决语义及语法的不一致时非常有效,但无法解决数据基本的冲突。此外,几乎没有涉及到数据失配及数据缺失的有效解决的现有技术。
发明内容
鉴于现有技术的上述状况,本发明的目的之一在于提供一种信息处理装置。
根据本发明的一个方面,提供了一种信息处理装置,包括:确定单元,确定来自数据源的数据中的异常数据元;以及异常处理单元,异常处理单元包括:获取模块,用于获取与异常数据元相关的多个候选数据项;以及第一排序模块,用于根据与异常数据元相关联的主数据区域的数据元和多个候选数据项共同出现的概率对多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。
根据本发明的另一个方面,提供了一种信息处理方法,包括:确定来自数据源的数据中的异常数据元;获取与异常数据元相关的多个候选数据项;根据与异常数据元相关联的主数据区域的数据元和多个候选数据项共同出现的概率对多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。
依据本发明的其它方面,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
根据本发明实施例的方法和装置,通过计算用于修正异常数据元的多个候选数据项与相关联的主数据区域的数据元的共现概率,来对这些候选数据项排序,可以更加有效地处理各种异常信息。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其它优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件,其中
图1示意性地示出了信息整合过程中出现的异常信息;
图2是根据本发明一个实施例的信息处理装置的示意图;
图3是根据本发明另一个实施例的信息处理装置的示意图;
图4是根据本发明又一实施例的信息处理装置的示意图;
图5示意性地示出了信息整合时基于异常数据元所属的数据区域的类型获取的各异常数据元的候选数据项的列表;
图6是根据本发明再一个实施例的信息处理装置的示意图;
图7示意性地示出了根据本发明的一个实施例的信息处理方法的流程图;以及
图8是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。
具体实施例
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施例中描述的元素和特征可以与一个或更多个其它附图或实施例中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
本领域技术人员可以理解,本发明中的“第一”、“第二”等术语仅用于区别不同单元、模块或步骤等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序和重要性程度。
图1示意性地示出了信息整合过程中出现的异常信息,以下首先结合图1介绍信息处理中异常信息的概念及分类。
通常,原始的数据是分散于不同的数据源的数据,例如,不同的数据库、Excel表格、CSV纯文本数据等。在数据源中包括多项数据,每一项数据在下文中被称为数据元。具有相同类型和/或类似信息的多项数据元组成的数据元组在本文中被称为数据区域。此外,待整合信息也可以是来自同一数据源的、具有不同内容和/或形式的信息。例如,来自同一Excel文件的不同工作表。
例如,在图1中,以企业信息为例,表a、b、c分别表示从多个数据源获取的待整合信息的片段,分别表示企业信息的不同方面。应理解,在本实施例中仅示例性的示出了从三个不同的数据源获取的待整合信息,而在实际中,可以从更多个数据源获取待整合信息。
表中的每一列,诸如企业名称、组织机构代码等,即为数据区域,表示企业信息的一个属性。在表a中包括“企业名称”、“组织机构代码”和“所在区域”三个数据区域,在表b中包括“人才姓名”、“毕业院校”和“创办企业”三个数据区域,在表c中包括“企业名称”、“组织结构代码”、“自主知识产权数”三个数据区域。
表a中的“企业名称”这一数据区域包括多个企业名称的数据,例如“天平科技”,每一个企业名称对应一个数据元。而记录在表(从数据源获取)中的每一条信息通常由相关联的不同数据区域的数据元构成,例如,在表a中,企业名称“天平科技”、组织机构代码“751421981”以及所在地区“高新区”这三个相关联的数据元构成一条企业信息。
在信息整合过程中,由于记录错误或人为变更等因素,记载在各个分散的数据源中的数据必定会存在一些异常信息。在对待整合信息进行了预处理后,异常信息通常分为三类:数据缺失、数据冲突和数据失配。异常信息在本发明中的有些地方也称为异常数据元。
数据缺失是指某一数据元中并不存在相应的数据,如图1中表c所示,在与“天平科技”有关的信息中,属于数据区域“自主知识产权数”的数据元并不存在相应的数据,因此该数据元存在数据缺失。
数据冲突是指在一个或更多个待整合信息中描述同一对象的数据元的信息不一致。如图1中表a和表c所示,在表a中,与组织机构代码“552530122”对应的企业名称为“华微电子”,而在表c中,与同一组织机构代码“552530122”对应的企业名称则为“华微科技”。也就是说,在表a中“华微电子”对应的数据元与表c中“华微科技”对应的数据元存在数据冲突。
数据失配则是指数据元的数据与所属数据区域的其它数据元的数据的不匹配。这种不匹配既可以是类型上的,也可以是形式或内容上的。如图1所示,在表a中,数据区域“所在地区”中的各个数据元均应为地区名称,而数据元“创业中心”则不属于地区名称,即数据元“创业中心”与该数据区域的其它数据元在内容上不匹配。因此,数据元“创业中心”属于数据失配。在表b中,数据区域“毕业院校”中的数据元均应为大学名称,而数据元“北大”不是完整的大学名称,其只是“北京大学”的缩写,即数据元“北大”与该数据区域的其它数据元在形式上不匹配。因此,数据元“北大”属于数据失配。在表c中,数据区域“自主知识产权数”中的数据元均应是数值型数据,而数据元“销售管理系统”则不是数值型数据,即数据元“销售管理系统”与该数据区域的其它数据元在类型上不匹配。因此,数据元“销售管理系统”属于数据失配。应理解,数据失配的形式并不局限于以上描述的情形。
图2是根据本发明一个实施例的信息处理装置1000的示意图。信息处理装置1000包括:确定单元1100,用于确定来自数据源的数据中的异常数据元;以及异常处理单元1200,包括:获取模块1210,用于获取与异常数据元相关的多个候选数据项;以及,第一排序模块1221,用于根据与异常数据元相关联的主数据区域的数据元和多个候选数据项共同出现的概率对多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。
确定单元1100用于确定异常数据元。异常处理单元1200根据确定的异常数据元,获取与异常数据元相关的候选数据项,并对获取到的候选数据项进行排序,以便基于排序结果减少异常数据元。其中,候选数据项是在信息整合时对异常数据元进行修正时用户有可能使用的数据。
异常处理单元1200包括获取模块1210以及第一排序模块1221。获取模块1210根据确定单元1100确定的异常数据元,获取与异常数据元相关的多个候选数据项。针对不同的异常数据元,获取模块1210通过诸如计算字符串之间的相似度、获取同义词和扩展缩略语、以及获取在数据区域中出现频率较高的数据元等方式确定候选数据项。将在下文更具体地描述获取候选数据项的具体示例。
在获取模块1210获取到与异常数据元相关的多个候选数据项后,第一排序模块1221根据与异常数据元相关联的主数据区域的数据元和多个候选数据项的每一个共同出现的概率对多个候选数据项进行排序。如上所述,在本实施例中相关联是指主数据区域的数据元与异常数据元属于同一条信息。然而,取决于待整合信息不同的数据结构,相关联还可能是与异常数据元位置相邻的主数据区域的数据元。最终,呈现经排序的候选数据项的列表以供用户信息整合时参考,例如可以基于排序结果减少信息整合中的异常数据元。
通常,在待整合信息之间具有一定的关联,例如,某些数据区域在多个待整合信息中重复出现,基于这些关联可以将分散于多个待整合信息的数据整合在一起。由于这些数据区域一般都具有内容互不相同的数据元,在本实施例中,可以利用这些在多个待整合信息中重复出现的数据区域的内容互不相同的数据元与异常数据元之间的关系来对候选数据项进行排序。在下文中,这些数据区域被称为主数据区域。
应理解,在本实施例中选择了在多个待整合信息中重复出现的数据区域作为主数据区域,然而也可以选择那些仅具有互不相同的内容的数据元而并未在多个待整合信息中重复出现的数据区域作为主数据区域。将在下文更具体地描述这样的主数据区域的示例。
例如,在图1中的表a和c中具有数据区域“企业名称”,在表b中具有数据区域“创办企业”。在信息整合过程中可以将数据区域“创办企业”识别为“企业名称”,其中识别的方法是本领域公知的,在此不再赘述。因此实际上,在三个数据源中均包括数据区域“企业名称”,数据区域“企业名称”即为主数据区域。
第一排序模块1221分别地将多个候选数据项中的每一个和与异常数据元相关联的主数据区域的数据元作为搜索引擎的查询词,在待整合信息中搜索,并计算每一个候选数据项与该主数据区域的相应的数据元共同出现的概率,即共现概率,然后,根据计算出的共现概率对多个候选数据项进行排序。具体方法参见下面公式(1):
w 1 ( C k ) = C o _ occurrence ( C k , Pr i m a r y F i e l d s ) Σ i = 1 N C o _ occurrence ( C i , Pr i m a r y F i e l d s ) + 1 公式(1)
其中,w1(Ck)表示根据第k个候选数据项的共现概率计算出的排序因子,表示第k个候选数据项与主数据区域的相应的数据元共同出现的次数,表示所有N个的候选数据项与主数据区域的相应的数据元共同出现的次数的总和。
例如,在对图1示出的示例数据进行信息整合时,考虑到数据区域“企业名称”在来自多个数据源的待整合信息,即表a、b、c中均出现,此外,数据区域“企业名称”的数据元的内容也是互不相同的,因此,选取“企业名称”作为主数据区域。针对表b中的异常数据元“北大”,相应地,与该异常数据元“北大”相关联的主数据区域的数据元为“海陆重工”。假设通过上文的描述的方法获取到该异常数据元的候选数据项包括“北京大学”、“多伦多大学”和“北大”,则可以通过上面的公式(1)分别地计算每一个候选数据项与相应的主数据区域的数据元“海陆重工”的共现概率。
具体地,针对候选数据项“北京大学”,以“北京大学海陆重工”作为搜索引擎的查询词在待整合信息中进行搜索;针对候选数据项“多伦多大学”,以“多伦多大学海陆重工”作为搜索引擎的查询词在待整合信息中进行搜索;针对候选数据项“北大”,以“北大海陆重工”作为搜索引擎的查询词在待整合信息中进行搜索。假设根据搜索到的结果,“北京大学海陆重工”在待整合信息中出现的次数最多,“北大海陆重工”其次,而“多伦多大学海陆重工”在待整合信息中出现的次数最少,则在排序时,各候选数据项的顺序可以是北京大学,北大、多伦多大学。也就是说,共同出现的概率大的候选数据项排序在前。应理解,当更多个数据源存在待整合信息时,可以以这些查询词在来自这些数据源的待整合信息中进行搜索。
此外,存在一些具有互不相同内容的数据元的数据区域,诸如表b中“人才姓名”,虽然这样的数据区域未在每个待整合信息中均重复出现,但在一些情况下,第一排序模块1221也可以利用这些区域来辅助排序。在下文中,这些数据区域被称为辅助的主数据区域。
具体地,第一排序模块1221还可以通过计算每一个候选数据项与相应的主数据区域的数据元以及辅助的主数据区域的数据元的共现概率来排序。例如,在以上针对图1描述的示例中,针对候选数据项“北京大学”,以“北京大学海陆重工陈立国”作为搜索引擎的查询词在待整合信息中进行搜索;针对候选数据项“多伦多大学”,以“多伦多大学海陆重工陈立国”作为搜索引擎的查询词在待整合信息中进行搜索;针对候选数据项“北大”,以“北大海陆重工陈立国”作为搜索引擎的查询词在待整合信息中进行搜索。通过引入辅助的主数据区域,可以得到更准确的共现概率结果。
此外,在异常数据元是主数据区域的数据元的情况下,第一排序模块1221还可以将辅助的数据区域作为主数据区域来计算共现概率。具体地,在以上针对图1描述的示例中,如果异常数据元是“海陆重工”,则可以将“陈立国”作为相关联的主数据区域的数据元,然后分别以“海陆重工”的各个候选数据项和“陈立国”一起作为查询词在多个待整合信息中进行搜索,从而对“海陆重工”的各个候选数据项进行排序。
根据上述本发明实施例的信息处理装置,在信息整合过程中,通过计算多个候选数据项与相应的主数据区域的数据元的共现概率,来对候选数据项进行排序,并将排序的结果提供给用户,从而可以更加有效地处理各种异常信息。
图3是本发明另一实施例的信息处理装置1000的示意图。如图3所示,异常处理单元1200还可以包括第二排序模块1222。通常,如果一个候选数据项的更新时间晚于其它候选数据项的更新时间,表明该数据候选项是在进行异常数据元处理时具有更大的参考价值的数据项,则在排序时,该候选数据项可以排位在其它候选数据项之前。因此,第二排序模块1222可以获取异常数据元的不同的候选数据项的更新时间,并根据下面的公式(2)来对多个候选数据项进行排序:
w 2 ( C k ) = Date n o w Date n o w - Date C k - - - ( 2 )
其中,w2(Ck)表示根据第k个候选数据项的更新时间计算出的排序因子,Datenow表示当前时间,表示第k个候选数据项的更新时间。
例如,在以上针对图1描述的示例中,针对数据元“华微科技”和数据元“华微电子”之间的数据冲突,“华微科技”和“华微电子”都可以作为修正数据冲突的候选数据项。如果在表a中的候选数据项“华微电子”的更新时间晚于表c中的候选数据项“华微科技”的更新时间,则在排序时,可以将候选数据项“华微电子”排位在候选数据项“华微科技”之前。
图4是本发明又一实施例的信息处理装置1000的示意图。如图4所示,信息处理装置1000还可以包括第三排序模块1223。通常,如果一个候选数据项在各个待整合信息中的出现次数高于其他候选数据项,表明该数据候选项是在进行异常数据元处理时具有更大的参考价值的数据项,则在排序时,该候选数据项可以排位在其它候选数据项之前。因此,第三排序模块1223可以获取异常数据元的不同的候选数据项的出现的次数,并根据下面的公式(3)对多个候选数据项进行排序。
w 3 ( C k ) = Occ C k Σ i = 1 N Occ C i - - - ( 3 )
其中,w3(Ck)表示根据第k个候选数据项在待整合信息中的出现次数计算出的排序因子,Ck代表第k个候选数据项,代表第k个候选数据项的出现次数,表示所有N个候选数据项出现次数的总和。
例如,在以上针对图1描述的示例中,针对数据元“华微科技”和数据元“华微电子”之间的数据冲突,“华微科技”和“华微电子”都可以作为修正数据冲突的候选数据项。如果在表a中候选数据项“华微电子”在各个待整合信息中出现的次数大于候选数据项“华微科技”在待整合信息中出现的次数,则在排序时,可以将候选数据项“华微电子”排位在候选数据项“华微科技”之前。
在一个可能的示例中,如图4中第二排序模块1222和第三排序模块1223的虚框所示,异常处理单元1200可以仅具有第二排序模块1222或第三排序模块1223,也可能同时具有第二排序模块1222和第三排序模块1223两者。
应理解,第二、第三排序模块所采用的排序算法不限于上文描述的算法。此外,在异常处理单元1200中还可以包括其他的排序模块。
在一种可能的示例中,异常处理单元1200可以对第一、第二和第三排序模块1221、1222、1223的排序结果进行加权组合,并根据加权组合的结果确定多个候选数据项最终的排位。也即,将根据上述公式(1)-(3)计算出的三个排序因子w1(Ck)、w2(Ck)和w3(Ck)进行加权相加得到综合排序因子,然后根据综合排序因子进行排序。当然,也可以使用除了加权相加之外的其他方式,例如加权相乘等方式来对这些排序因子进行加权组合。可以根据实际情形或通过经验值来确定各个排序因子的权重,在此不再赘述。
在一种可能的示例中,异常处理单元1200可以根据待整合信息的性质设定不同的排序模块的权重并基于异常数据元的修正结果来调整这些权重,使得异常处理单元1200可以提供更加准确的排序结果。
据此,通过基于多种排序算法对候选数据项进行排序,可以基于待整合信息的不同特性,获取更加准确的排序结果。例如,在处理更新较为频繁的待整合信息时,通过增大排序因子w2(Ck)的权重,可以获取更加准确的排序结果。
在一个可能的实施例中,确定单元1100还被配置成确定异常数据元的异常类型。如上所述,异常类型通常包括:数据缺失、数据冲突以及数据失配。其中,数据缺失和数据冲突可以通过各种现有方法很容易地被检测到,在此不再赘述。针对数据失配,在本实施例中,可以采用统计的方法识别。具体地,确定单元1100首先确定异常数据元所属数据区域的类型。通常,数据区域的数据类型包括数值型、布尔值型、字符串型以及枚举型。在确定了数据区域的类型后,确定单元1100根据以下条件至少之一来确定异常数据元的异常类型为数据失配:1)数据元的数据类型不符合该数据元所属的数据区域对应的数据类型;2)数据元的数据特征不符合该数据元所属的数据区域对应的数据特征;3)在枚举型的数据区域中,数据元的内容超出枚举范围。
具体地,针对特定数据类型的数据区域,一般来说,该数据区域所包含的数据元的类型应当是一致的并且所包含的数据元应该具有本数据区域的一些特征。例如,针对数值型的数据区域,它的数据元应该是数值型的。针对布尔型的数据区域,它的数据元应该是布尔值型的。针对枚举型的数据区域,它的数据元应该在枚举范围之内。而针对字符串型的数据区域,它的数据元通常具有特定的形式,例如,数据的前缀或后缀具有一定的特征。例如,在图1的表b中,针对数据区域“毕业院校”,通常,它的数据元均具有“大学”这一后缀,同样,针对数据区域“企业名称”或“创办企业”,通常,它的数据元均具有“公司”或“企业”这一后缀。
图5示意性地示出了信息整合时基于异常数据元所属的数据区域的类型获取的各异常数据元的候选数据项的列表。在一个可能的实施例中,如图5所示,获取模块1210还被配置成根据异常数据元的异常类型来获取与异常数据元相关的多个候选数据项。
具体地,当确定的异常类型是数据冲突时,获取模块1210可以将所有冲突数据元都作为候选数据项。
例如,如图5所示,针对异常类型是数据冲突的异常数据元“华微电子”,获取模块1210将冲突的数据元“华微电子”和“华微科技”都作为候选数据项。
当确定的异常类型是数据缺失时,获取模块1210可以进一步基于该异常数据元所属的数据区域的类型获取候选数据项。具体地,针对数值型的数据区域,获取模块1210可以将该数据区域的所有数据元的平均值作为候选数据项。针对布尔值的数据区域,获取模块1210可以将“是”和“否”(1或0)作为候选数据项。针对枚举型的数据区域,获取模块1210可以将所有枚举选项作为候选数据项,即使某些枚举选项并未出现在该数据区域中。例如,针对图1中的表a的异常数据元“创业中心”,“创业中心”所属数据区域“所在地区”属于枚举型数据区域,其仅包括“高新区”、“姑苏区”等若干个可能的选项(苏州包含的城区),则无论这些选项是否出现在该数据区域的任何一个数据元中(假设“相城区”并未在该数据区域中的任何一个数据元中体现),都将所有的枚举选项(包括“相城区”)作为候选数据项。针对字符串型的数据区域,获取模块1210可以将在该数据区域中出现频率最高的J个数据元作为所有可能的候选数据项,在此J为自然数。
例如,如图5所示,针对异常类型是数据缺失的异常数据元,在异常数据元所属数据区域的类型是数值型的情况下,获取模块1210将该数据区域的平均值(具体数值根据该数据区域的实际数据计算)作为候选数据项。
当确定的异常类型是数据失配时,获取模块1210可以基于该异常数据元的异常类型以及该异常数据元所属的数据区域的类型获取候选数据项。具体地,针对数值型的数据区域,如果检测到的异常数据元的数据包含诸如“没有”、“无”、“不”和“否”等单词,获取模块1210可以将“0”作为候选数据项,否则,获取模块1210可以将“1”或该数据区域的所有数据元的平均值作为候选数据项。针对布尔值的数据区域,如果检测到的异常数据元的数据包含具有否定意义的单词,获取模块1210可以将“否”(或“0”)作为候选数据项,否则,获取模块1210可以将“是”(或“1”)作为候选数据项。针对枚举型的数据区域,获取模块1210可以将所有枚举选项以及异常数据元的数据作为候选数据项。针对字符串型的数据区域,获取模块1210可以将异常数据元的数据、其同义词以及所属的数据区域中出现频率最高的前M个数据元的数据作为候选数据项,在此M为自然数。
例如,针对异常类型是数据失配的异常数据元,在异常数据元所属数据区域的类型是枚举型的情况下,如图5中的异常数据元“创业中心”,获取模块1210将所有枚举选项“高新区”、“姑苏区”(苏州城区)以及异常数据元的数据“创业中心”都作为候选数据项;在异常数据元所属数据区域的类型是字符串型的情况下,如图5中的异常数据元“北大”,获取模块1210将出现频率最高的M个数据元的数据“北京大学”、“多伦多大学”作为候选数据项;而在异常数据元所属数据区域的类型是数值型的情况下,如图5中的异常数据元“销售管理系统”,获取模块1210将“1”作为候选数据项。
在一个可能的实施例中,可以在获取模块1210中建立零值数据库,诸如“没有”、“无”、“不”和“否”等具有特殊意义的单词存储在该零值数据库中。针对数值型数据区域或布尔值型数据区域,如果检测到的异常数据元包括存储在零值数据库中的单词,则获取模块1210可以将“0”或“否”作为该异常数据元的候选数据项。
在一个可能的实施例中,可以在获取模块1210中建立同义词数据库,针对字符串型的数据区域,如果检测到的异常数据元包括存储在同义数据库中的单词,则获取模块1210可以将对应的同义词词组作为该异常数据元的候选数据项。
图6是根据本发明再一个实施例的信息处理装置1000的示意图。异常处理单元1200还可以包括选择记录模块1230,选择记录模块1230用于记录用户对异常数据元的修正结果。其中,异常数据元的修正结果是基于所述排序结果、将排序在预定范围内的候选数据项代替异常数据元的内容而得到的数据元,或者是用排序结果以外的数据来代替异常数据元的内容而得到的数据元。
例如,如图5所示,针对数据缺失的异常数据元所提供的候选数据项列表中包括候选数据项该数据区域的平均值(具体数值根据该数据区域的实际数据计算)。但在用户对该异常数据元进行修正时,如果用户已经知晓天平的自主知识产权数的实际数量,则用户可以根据知晓的自主知识产权的实际数量对该异常数据元进行修正。
异常处理单元1200可以基于修正结果来调整各个排序模块的排序因子在最终排序时的权重。此外,当修正结果不在所提供的候选数据项的范围之内时,选择记录模块1230可以将本次的修正结果提供给获取模块1210,以便作为以后再次处理相同异常数据元时的候选数据项。
虽然图6示出了信息处理装置1000在包括第一排序模块1221的情况下包括选择记录模块1230,但是本领域技术人员应理解,也可以在信息处理装置1000包括第二排序模块1222和/或第三排序模块1223的情况下包括选择记录模块1230。
据此,通过基于不同的异常信息的类型以及数据区域的类型确定信息整合时的候选数据项,可以在排序时针对不同的异常信息的情形,全面、有效地处理信息整合过程中的各种异常信息。
以上结合附图描述了根据本发明的信息处理装置的实施例,在此过程中事实上也描述了一种信息处理方法。下面结合图7对该方法予以简要描述,其中的细节可参见前文对信息处理装置的描述。
图7示出了根据本发明的一个实施例的一种信息处理方法700,该方法开始于步骤S710,包括如下步骤:在步骤S720处,确定来自数据源的数据中的异常数据元;在步骤S730处,获取与异常数据元相关的多个候选数据项;在步骤S740处,根据与异常数据元相关联的主数据区域的数据元和多个候选数据项共同出现的概率对多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。
在一个可能的实施例中,在步骤S720处,还包括进一步确定数据源中的异常数据元的异常类型。具体地,例如可以通过确定单元1100执行的过程来实现,具体细节在此不再赘述。
在步骤S730处,可以采用各种方式获取与异常数据元相关的多个候选数据项。例如,计算字符串之间的相似度、获取同义词和扩展缩略语、以及获取在数据区域中出现频率较高的数据元等方式。在一个可能的实施例中,可以基于异常数据元的异常类型以及异常数据元所属数据区域的数据类型获取候选数据项。具体地,例如可以通过结合图5描述的获取模块1210执行的过程来实现,具体细节在此不再赘述。
在一个可能的实施例中,在步骤S740处,还可以采用其他的排序方法对候选数据项进行排序。其他的排序方法包括但不限于:根据异常数据元的不同的候选数据项的更新时间和/或根据异常数据元的不同的候选数据项的出现的次数。当采用多种排序方法同时对候选数据项进行排序时,可以对不同的排序方法设定不同的权重。具体地,例如可以通过结合图3、4描述的第二排序模块1222、第三排序模块1223执行的过程来实现,具体细节在此不再赘述。
在一个可能的实施例中,可选地,信息处理方法700还可以包括记录用户对异常数据元的修正结果的步骤S750,如图7中的虚线框所示。可以基于对异常数据元的修正结果调整各种排序方法的排序结果在最终排序时的权重。具体地,例如可以通过结合图6描述的选择记录模块1230执行的过程来实现,具体细节在此不再赘述。
以上实施例中的相关细节已经在对信息处理装置的描述中详细给出,在此不再赘述。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图8所示的通用计算机800安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中,也根据需要存储当CPU 801执行各种处理等等时所需的数据。CPU 801、ROM 802和RAM 803经由总线804彼此链路。输入/输出接口805也链路到总线804。
下述部件链路到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡比如LAN卡、调制解调器等)。通信部分809经由网络比如因特网执行通信处理。根据需要,驱动器810也可链路到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器810上,使得从中读出的计算机程序根据需要被安装到存储部分808中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于此。
附记1.一种信息处理装置,包括:
确定单元,用于确定来自数据源的数据中的异常数据元;以及
异常处理单元,所述异常处理单元包括:
获取模块,用于获取与所述异常数据元相关的多个候选数据项;以及
第一排序模块,用于根据与所述异常数据元相关联的主数据区域的数据元和所述多个候选数据项共同出现的概率对所述多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中所述主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。
附记2.根据附记1所述的信息处理装置,其中,所述异常处理单元还包括:
第二排序模块,用于根据所述多个候选数据项中的每一个在所述数据源中的出现次数对所述多个候选数据项进行排序。
附记3.根据附记1或2所述的信息处理装置,其中,所述异常处理单元还包括:
第三排序模块,用于根据所述异常数据元的更新时间对所述多个候选数据项进行排序。
附记4.根据附记3所述的信息处理装置,其中,所述异常处理单元被配置成可以对第一、第二和第三排序模块的排序结果进行加权组合。
附记5.根据附记1-3其中之一所述的信息处理装置,其中,所述确定单元还被配置成确定所述异常数据元的异常类型。
附记6.根据附记5所述的信息处理装置,其中,所述确定单元被配置成根据下述条件至少之一来确定所述异常数据元的异常类型为数据失配:
数据元的数据类型不符合所述数据元所属的数据区域对应的数据类型;
数据元的数据特征不符合所述数据元所属的数据区域对应的数据特征;以及
在枚举型的数据区域中,数据元的内容超出枚举范围。
附记7.根据附记5所述的信息处理装置,其中,所述获取模块还被配置成至少根据所述异常数据元的异常类型来获取与所述异常数据元相关的所述多个候选数据项。
附记8.根据附记7所述的信息处理装置,其中,所述获取模块被配置成根据所述异常数据元的异常类型以及所述异常数据元所属的数据区域的类型来获取与所述异常数据元相关的所述多个候选数据项。
附记9.根据附记8所述的信息处理装置,其中,针对所述异常类型为数据失配的所述异常数据元,所述获取模块被配置成根据下述方式至少之一来获取与所述异常数据元相关的所述多个候选数据项:
针对数值型数据区域,将所述异常数据元转换为相应的数值,特别是平均值,作为所述多个候选数据项;
针对布尔值型数据区域,将所述异常数据元转换为预定的布尔值作为所述多个候选数据项;
针对字符串型数据区域,将所述异常数据元的内容、所述异常数据元的内容的同义词以及所属的数据区域中出现频率最高的前M个数据元的内容作为所述多个候选数据项,其中,M为大于1的正整数;以及
针对枚举型数据区域,将所述异常数据元的内容和所属的数据区域中所有枚举项作为所述多个候选数据项。
附记10.根据附记9所述的信息处理装置,其中,所述获取模块包括零值词库。
附记11.根据附记9所述的信息处理装置,其中,所述获取模块包括同义词词库。
附记12.根据附记1所述的信息处理装置,其中,所述异常处理单元还包括选择记录模块,用于记录异常数据元的修正结果,并在所述修正结果不同于所述获取模块获取的所述多个候选数据项时,将所述修正结果提供给所述获取模块。
附记13.一种信息处理方法,包括:
确定来自数据源的数据中的异常数据元;
获取与所述异常数据元相关的多个候选数据项;
根据与所述异常数据元相关联的主数据区域的数据元和所述多个候选数据项共同出现的概率对所述多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中所述主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。
附记14.根据附记13所述的信息处理方法,所述方法还包括:根据所述多个候选数据项中的每一个在所述数据源中的出现次数对所述多个候选数据项进行排序。
附记15.根据附记13或14所述的信息处理方法,所述方法还包括:根据所述异常数据元的更新时间对所述多个候选数据项进行排序。
附记16.根据附记13-15其中之一所述的信息处理方法,其中,确定数据源中的异常数据元还包括:确定所述异常数据元的异常类型。
附记17.根据附记16所述的信息处理方法,其中,根据下述条件至少之一来确定所述异常数据元的异常类型为数据失配:
数据元的数据类型不符合所述数据元所属的数据区域对应的数据类型;
数据元的数据特征不符合所述数据元所属的数据区域对应的数据特征;以及
在枚举型的数据区域中,数据元的内容超出枚举范围。
附记18.根据附记16所述的信息处理方法,其中,至少根据所述异常数据元的异常类型来获取与所述异常数据元相关的所述多个候选数据项。
附记19.根据附记18所述的信息处理方法,其中,根据所述异常数据元的异常类型以及所述异常数据元所属的数据区域的类型来获取与所述异常数据元相关的所述多个候选数据项。
附记20.根据附记19所述的信息处理方法,其中,针对所述异常类型为数据失配的所述异常数据元,根据下述方式至少之一来获取与所述异常数据元相关的所述多个候选数据项:
针对数值型数据区域,将所述异常数据元转换为相应的数值,特别是平均值,作为所述多个候选数据项;
针对布尔值型数据区域,将所述异常数据元转换为预定的布尔值作为所述多个候选数据项;
针对字符串型数据区域,将所述异常数据元的内容、所述异常数据元的内容的同义词以及所属的数据区域中出现频率最高的前M个数据元的内容作为所述多个候选数据项,其中,M为大于1的正整数;以及
针对枚举型数据区域,将所述异常数据元的内容和所属的数据区域中所有枚举项作为所述多个候选数据项。
以上实施例仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种信息处理装置,包括:
确定单元,用于确定来自数据源的数据中的异常数据元;以及
异常处理单元,所述异常处理单元包括:
获取模块,用于获取与所述异常数据元相关的多个候选数据项;以及
第一排序模块,用于根据与所述异常数据元相关联的主数据区域的数据元和所述多个候选数据项共同出现的概率对所述多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中所述主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。
2.根据权利要求1所述的信息处理装置,其中,所述异常处理单元还包括:
第二排序模块,用于根据所述多个候选数据项中的每一个在所述数据源中的出现次数对所述多个候选数据项进行排序。
3.根据权利要求1或2所述的信息处理装置,其中,所述异常处理单元还包括:
第三排序模块,用于根据所述异常数据元的更新时间对所述多个候选数据项进行排序。
4.根据权利要求1-3其中之一所述的信息处理装置,其中,所述确定单元还被配置成确定所述异常数据元的异常类型。
5.根据权利要求4所述的信息处理装置,其中,所述获取模块还被配置成至少根据所述异常数据元的异常类型来获取与所述异常数据元相关的所述多个候选数据项。
6.根据权利要求5所述的信息处理装置,其中,所述获取模块被配置成根据所述异常数据元的异常类型以及所述异常数据元所属的数据区域的类型来获取与所述异常数据元相关的所述多个候选数据项。
7.根据权利要求6所述的信息处理装置,其中,针对所述异常类型为数据失配的所述异常数据元,所述获取模块被配置成根据下述方式至少之一来获取与所述异常数据元相关的所述多个候选数据项:
针对数值型数据区域,将所述异常数据元转换为相应的数值,特别是平均值,作为所述多个候选数据项;
针对布尔值型数据区域,将所述异常数据元转换为预定的布尔值作为所述多个候选数据项;
针对字符串型数据区域,将所述异常数据元的内容、所述异常数据元的内容的同义词以及所属的数据区域中出现频率最高的前M个数据元的内容作为所述多个候选数据项,其中,M为大于1的正整数;以及
针对枚举型数据区域,将所述异常数据元的内容和所属的数据区域中所有枚举项作为所述多个候选数据项。
8.根据权利要求4所述的信息处理装置,其中,所述确定单元被配置成根据下述条件至少之一来确定所述异常数据元的异常类型为数据失配:
数据元的数据类型不符合所述数据元所属的数据区域对应的数据类型;
数据元的数据特征不符合所述数据元所属的数据区域对应的数据特征;以及
在枚举型的数据区域中,数据元的内容超出枚举范围。
9.根据权利要求1所述的信息处理装置,其中,所述异常处理单元还包括选择记录模块,用于记录异常数据元的修正结果,并在所述修正结果不同于所述获取模块获取的所述多个候选数据项时,将所述修正结果提供给所述获取模块。
10.一种信息处理方法,包括:
确定来自数据源的数据中的异常数据元;
获取与所述异常数据元相关的多个候选数据项;
根据与所述异常数据元相关联的主数据区域的数据元和所述多个候选数据项共同出现的概率对所述多个候选数据项进行排序,以便基于排序结果减少异常数据元,其中所述主数据区域是在该主数据区域中每个数据元的内容互不相同的数据区域。
CN201510325172.0A 2015-06-12 2015-06-12 信息处理装置及方法 Pending CN106294517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510325172.0A CN106294517A (zh) 2015-06-12 2015-06-12 信息处理装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510325172.0A CN106294517A (zh) 2015-06-12 2015-06-12 信息处理装置及方法

Publications (1)

Publication Number Publication Date
CN106294517A true CN106294517A (zh) 2017-01-04

Family

ID=57650745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510325172.0A Pending CN106294517A (zh) 2015-06-12 2015-06-12 信息处理装置及方法

Country Status (1)

Country Link
CN (1) CN106294517A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341202A (zh) * 2017-06-21 2017-11-10 平安科技(深圳)有限公司 业务数据表修正危险度的评估方法、装置及存储介质
CN109740630A (zh) * 2018-12-06 2019-05-10 中科恒运股份有限公司 异常数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及系统
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN102236692A (zh) * 2010-04-21 2011-11-09 索尼公司 信息处理设备、信息处理方法及程序
CN104346379A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于逻辑和统计技术的数据元识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131706A (zh) * 2007-09-28 2008-02-27 北京金山软件有限公司 一种查询修正方法及系统
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN102236692A (zh) * 2010-04-21 2011-11-09 索尼公司 信息处理设备、信息处理方法及程序
CN104346379A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于逻辑和统计技术的数据元识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341202A (zh) * 2017-06-21 2017-11-10 平安科技(深圳)有限公司 业务数据表修正危险度的评估方法、装置及存储介质
CN107341202B (zh) * 2017-06-21 2018-06-08 平安科技(深圳)有限公司 业务数据表修正危险度的评估方法、装置及存储介质
CN109740630A (zh) * 2018-12-06 2019-05-10 中科恒运股份有限公司 异常数据处理方法及装置

Similar Documents

Publication Publication Date Title
Wang et al. Crowder: Crowdsourcing entity resolution
Masmoudi et al. A hybrid genetic algorithm for the heterogeneous dial-a-ride problem
CN106055549B (zh) 利用加速器的概念分析操作的方法和系统
Chen et al. Alchemy: A quantum chemistry dataset for benchmarking ai models
Liu et al. Supervised rank aggregation
Yao et al. Text classification model based on fasttext
CN102023984B (zh) 甄别重复实体数据的方法和装置
Feng et al. Enhanced moth search algorithm for the set-union knapsack problems
CN107291895B (zh) 一种快速的层次化文档查询方法
CN105929690A (zh) 一种基于分解多目标进化算法的柔性车间鲁棒调度方法
Henzinger et al. ILP-based local search for graph partitioning
Kermani et al. Global Filter–Wrapper method based on class-dependent correlation for text classification
Prat-Pérez et al. Towards a property graph generator for benchmarking
CN106294517A (zh) 信息处理装置及方法
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
Bukhari A Hierarchical Evolutionary Algorithmic Design (HEAD) system for generating and evolving building design models
CN107423423A (zh) 数据排序方法、人工智能、图像处理、大数据库、互联网搜索、通讯、云系统
Janusz et al. JRS’2012 data mining competition: Topical classification of biomedical research papers
Ahmed et al. Software architecture of a learning apprentice system in medical billing
Anongnart Building Fexpert: System for searching experts in research university using K-MEANS algorithms
O'Neill et al. Creating powerful and interpretable models with regression networks
Regalado Fernandez et al. The agnostid trilobite assemblage from San José de Gracia, Sonora, México, and the implications of phylogenetics in stratigraphic calibration
Wu et al. Some Practice for Improving the Search Results of E-commerce
Guillén et al. A machine learning approach for identifying subtypes of autism
Ma et al. Improvement and design of genetic algorithm in personalized test paper composition system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170104