CN111444189A - 数据处理方法、装置、介质和电子设备 - Google Patents

数据处理方法、装置、介质和电子设备 Download PDF

Info

Publication number
CN111444189A
CN111444189A CN202010304051.9A CN202010304051A CN111444189A CN 111444189 A CN111444189 A CN 111444189A CN 202010304051 A CN202010304051 A CN 202010304051A CN 111444189 A CN111444189 A CN 111444189A
Authority
CN
China
Prior art keywords
data
processed
node
content
present disclosure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010304051.9A
Other languages
English (en)
Other versions
CN111444189B (zh
Inventor
李嘉晨
郭凯
刘洋
胡磊
刘雷
付东东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fangjianghu Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN202010304051.9A priority Critical patent/CN111444189B/zh
Publication of CN111444189A publication Critical patent/CN111444189A/zh
Application granted granted Critical
Publication of CN111444189B publication Critical patent/CN111444189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种数据处理方法、装置、介质以及电子设备。其中的方法包括:获取待处理对象;根据所述待处理对象,获取来自不同数据源的所述待处理对象的多个数据内容;根据所述多个数据源各自的权值,针对所述多个数据内容进行投票处理;将根据所述投票处理的结果确定出的数据内容作为数据资产存储。本公开提供的技术方案在有利于使数据处理效率得到保证的同时,有利于提高数据资产的质量。

Description

数据处理方法、装置、介质和电子设备
技术领域
本公开涉及计算机技术,尤其是涉及一种数据处理方法、数据处理装置、存储介质以及电子设备。
背景技术
目前,数据已经成为企业的一项资产,且数据资产已经成为企业的核心竞争力之一。企业的数据资产通常包括体内数据资产以及体外数据资产。体内数据资产通常是指企业自身生产的数据。体外数据资产通常是指非企业自身生产的数据。体外数据资产是企业的数据资产的一重要组成部分。
体外数据资产的数据源通常有多个,如果定向的从一个数据源处获取数据,往往无法保证获得的数据的可靠性。如果从多个数据源处获取数据,从不同数据源处获得的数据有时会存在矛盾。如何实现数据处理,以提升数据资产的质量,是一个值得关注的技术问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种数据处理方法、数据处理装置、存储介质以及电子设备。
根据本公开实施例的一个方面,提供一种数据处理方法,该方法包括:获取待处理对象;根据所述待处理对象,获取来自不同数据源的所述待处理对象的多个数据内容;根据所述多个数据源各自的权值,针对所述多个数据内容进行投票处理;将根据所述投票处理的结果确定出的数据内容作为数据资产存储。
在本公开一实施方式中,所述获取待处理对象包括:根据数据异常检测获得的异常数据,确定待处理对象;和/或,根据预设拓展深度,确定节点关系图中的一节点的所有关联节点,并根据所述所有关联节点中的未获取数据内容的关联节点,确定待处理对象。
在本公开又一实施方式中,所述根据数据异常检测获得的异常数据,确定待处理对象包括:对增量数据进行数据异常检测,并根据检测出的异常增量数据,确定待处理对象;和/或,对存量数据进行数据异常检测,并根据检测出的存量数据中的异常数据,确定待处理对象。
在本公开再一实施方式中,所述对增量数据进行数据异常检测包括:根据预先针对增量数据中的至少一字段分别设置的字段规则,对当前获得的增量数据中的相应字段的字段内容进行异常检测。
在本公开再一实施方式中,所述对存量数据进行数据异常检测,包括:针对存量数据中的任一数据,确定该数据分别与存量数据中的多个数据的距离;确定距离小于预定距离的数据的数量;根据所述数量,确定所述任一数据是否为异常数据。
在本公开再一实施方式中,所述方法还包括:根据所述待处理对象,在所述节点关系图中添加节点;和/或,根据所述确定出的数据内容,将相应的未获取数据内容的关联节点变更为已获取数据内容的关联节点。
在本公开再一实施方式中,所述根据所述待处理对象,获取来自不同数据源的所述待处理对象的多个数据内容,包括:在所述待处理对象的数据处理次数不超过预定次数,且所述待处理对象的数据处理次数为第一次时,从多个预设第一数据源处,获取所述待处理对象的多个数据内容;或者,在所述待处理对象的数据处理次数不超过预定次数,且所述待处理对象的数据处理次数为第N次时,从历史数据内容集合中获取来自至少一数据源的所述待处理对象的数据内容,并从至少一个预设第N数据源处,获取所述待处理对象的至少一数据内容;其中,所述N为大于1的整数。
在本公开再一实施方式中,所述根据所述多个数据源各自的权值,针对所述多个数据内容进行投票处理,包括:确定所述多个数据内容中的存在差异的字段;根据所述多个数据源各自的权值,对每一个存在差异的字段分别进行投票处理,以确定每一个存在差异的字段的字段内容。
在本公开再一实施方式中,所述方法还包括:在一数据内容中的一字段的字段内容与所述投票处理确定出的字段内容相同时,增大该数据内容对应的数据源的权值,否则,减小该数据内容对应的数据源的权值。
在本公开再一实施方式中,所述多个数据源中的最高权值不超过其他至少两个权值之和。
根据本公开实施例的另一个方面,提供了一种数据处理装置,包括:第一获取模块,用于获取待处理对象;第二获取模块,用于根据所述第一获取模块获取到的待处理对象,获取来自不同数据源的所述待处理对象的多个数据内容;投票模块,用于根据所述多个数据源各自的权值,针对所述第二获取模块获取到的多个数据内容进行投票处理;数据资产模块,用于将根据所述投票模块的投票处理的结果确定出的数据内容作为数据资产存储。
在本公开一实施方式中,所述第一获取模块包括:第一子模块,用于根据数据异常检测获得的异常数据,确定待处理对象;和/或,第二子模块,用于根据预设拓展深度,确定节点关系图中的一节点的所有关联节点,并根据所述所有关联节点中的未获取数据内容的关联节点,确定待处理对象。
在本公开又一实施方式中,所述第一子模块包括:增量异常检测单元,用于对增量数据进行数据异常检测,并根据检测出的异常增量数据,确定待处理对象;和/或,存量异常检测单元,用于对存量数据进行数据异常检测,并根据检测出的存量数据中的异常数据,确定待处理对象。
在本公开再一实施方式中,所述增量异常检测单元具体用于:根据预先针对增量数据中的至少一字段分别设置的字段规则,对当前获得的增量数据中的相应字段的字段内容进行异常检测。
在本公开再一实施方式中,所述存量异常检测单元具体用于:针对存量数据中的任一数据,确定该数据分别与存量数据中的多个数据的距离;确定距离小于预定距离的数据的数量;根据所述数量,确定所述任一数据是否为异常数据。
在本公开再一实施方式中,所述装置还包括:第一维护模块,用于根据所述待处理对象,在所述节点关系图中添加节点;和/或,第二维护模块,根据所述确定出的数据内容,将相应的未获取数据内容的关联节点变更为已获取数据内容的关联节点。
在本公开再一实施方式中,所述第二获取模块包括:第三子模块,用于在所述待处理对象的数据处理次数不超过预定次数,且所述待处理对象的数据处理次数为第一次时,从多个预设第一数据源处,获取所述待处理对象的多个数据内容;或者,第四子模块,用于在所述待处理对象的数据处理次数不超过预定次数,且所述待处理对象的数据处理次数为第N次时,从历史数据内容集合中获取来自至少一数据源的所述待处理对象的数据内容,并从至少一个预设第N数据源处,获取所述待处理对象的至少一数据内容;其中,所述N为大于1的整数。
在本公开再一实施方式中,所述投票模块包括:第五子模块,用于确定所述多个数据内容中的存在差异的字段;第六子模块,用于根据所述多个数据源各自的权值,对每一个存在差异的字段分别进行投票处理,以确定每一个存在差异的字段的字段内容。
在本公开再一实施方式中,所述装置还包括:权值调整模块,用于在一数据内容中的一字段的字段内容与所述投票处理确定出的字段内容相同时,增大该数据内容对应的数据源的权值,否则,减小该数据内容对应的数据源的权值。
在本公开再一实施方式中,所述多个数据源中的最高权值不超过其他至少两个权值之和。
根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述数据处理方法。
根据本公开实施例的又一方面,提供一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述数据处理方法。
基于本公开上述实施例提供的一种数据处理方法和装置,通过利用待处理对象从不同数据源处获取数据内容,并利用各数据源各自的权值对多个数据内容进行投票处理,例如,对多个数据内容中的存在差异的部分进行投票处理,不但有利于避免数据源单一对数据内容的可靠性的影响,而且还可以较为快捷准确的确定出待处理对象的最终数据内容。由此可知,本公开提供的技术方案在有利于使数据处理效率得到保证的同时,有利于提高数据资产的质量。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的适用场景的一个实施例的示意图;
图2为本公开的数据处理方法一个实施例的流程图;
图3为本公开的表征样本的密度的一实施例的示意图;
图4为本公开的节点关系图的部分区域的示意图;
图5为本公开的数据处理装置一个实施例的结构示意图;
图6为本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,从多个数据源处获取的数据往往会存在差异,例如,来自不同数据源的数据可能会存在相互矛盾的情况。如果通过人工对存在差异的数据进行逐条审核,则往往会存在数据处理的人工成本较高,且数据处理效率较低等问题。
示例性概述
本公开提供的数据处理技术的应用场景的一个例子,如图1所示。
图1中,假设存在n个数据源,即第一个数据源、第二个数据源、……、第n-1个数据源、以及第n个数据源。上述n个数据源均不属于执行数据处理的企业,即这n个数据源均为体外数据源。
假设上述n个数据源的当前权值分别为q1、q2、……、qn-1和qn,且q1、q2、……、qn-1以及qn均为大于0的正数。另外,q1、q2、……、qn-1以及qn之和可以不为1。例如,q1、q2、……、qn-1以及qn之和可以大于1。
假设待处理对象为*****(如公司名称或者个人姓名等),本公开利用待处理对象获得的数据内容1来自第一个数据源,数据内容2来自第二个数据源,……以此类推,数据内容n-1来自第n-1个数据源,数据内容n来自第n个数据源。
在一个例子中,本公开可以将*****作为第一个数据源提供的搜索框中的搜索内容,从而获得数据内容1,将*****作为第二个数据源提供的搜索框中的搜索内容,从而获得数据内容2,……,以此类推,将*****作为第n-1个数据源提供的搜索框中的搜索内容,从而获得数据内容n-1,将*****作为第n个数据源提供的搜索框中的搜索内容,从而获得数据内容n。
假设数据内容1、数据内容2、……、数据内容n-1以及数据内容n分别包括:字段a1、字段a2、……以及字段am,且数据内容1、数据内容2、……、数据内容n-1和数据内容n3的各字段的字段内容如下表1所示:
表1
字段a1 字段a2 …… 字段am
数据内容1 ***** b1 c1 d1
数据内容2 ***** b2 c2 d1
…… *****
数据内容n-1 ***** b2 c2 d2
数据内容n ***** b1 c2 d2
在上述假设的情况下,本公开可以利用第一个数据源、第二个数据源、……、第n-1个数据源以及第n个数据源的权值q1、q2、……、qn-1、以及qn,对字段a1、字段a2、……、以及字段am分别进行投票处理,最终获得的待处理对象对应的数据内容可以为b1、c2、……、以及d1。
本公开可以将*****、b1、c2、……、以及d1作为数据资产存储。
另外,本公开可以根据本次投票处理的结果调整n个数据源的当前权值,调整后的各数据源的权值分别为q1’、q2’、……、qn-1’以及qn’,q1’、q2’、……、qn-1’以及qn’仍然均为大于0的正数,且q1’、q2’、……、qn-1’以及qn’之和仍然可以不为1。例如,q1’、q2’、……、qn-1’以及qn’之和仍然可以大于1。
示例性方法
图2为本公开的数据处理方法一个实施例的流程图。图2所示的实施例的方法包括步骤:S200、S201、S202以及S203。下面对各步骤分别进行说明。
S200、获取待处理对象。
本公开中的待处理对象可以是指数据内容中的主体字段或者关键字索引字段等。待处理对象可以为公司名称或者个人姓名或者城市名称或者商品名称等。本公开可以通过多种方式获得待处理对象。本公开不限制待处理对象的具体表现形式以及待处理对象的获取方式。
S201、根据待处理对象,获取来自不同数据源的待处理对象的多个数据内容。
本公开中的数据源通常是指体外数据源,例如,在一企业进行体外数据资产积累的过程中,本公开中的所有数据源可以均为不属于该企业的其他企业(即其他单位)提供的数据源。
在一个例子中,本公开根据待处理对象从任意两个不同的数据源获得的数据内容可能完全相同,也可能完全不相同。在另一个例子中,本公开根据待处理对象从任意两个不同的数据源获得的数据内容可能一部分相同,另一部分不相同。
本公开从一个数据源获得的待处理对象的一个数据内容通常包括多个字段的字段内容,且字段可以根据数据资产需求方的具体需求设置。本公开可以利用爬虫等方式从相应数据源处获得待处理对象的数据内容。在一个例子中,本公开将待处理对象作为每一个数据源各自提供的搜索框中的搜索内容(如调用数据源提供的相应接口函数,并将待处理对象作为该接口函数的参数),并根据每一个数据源返回的搜索结果(如相应接口函数返回的结果),获得来自所有数据源的待处理对象的数据内容。
在来自一个数据源的搜索结果不仅包含有待处理对象的数据内容,还包含有除了待处理对象的数据内容之外的其他数据的情况下,本公开可以通过字段匹配等方式,对搜索结果进行筛选,从而获得相应字段的字段内容,所有字段内容形成待处理对象的数据内容。
S202、根据多个数据源各自的权值,针对多个数据内容进行投票处理。
本公开中的针对多个数据内容进行投票处理可以包括:针对多个数据内容中的存在差异的部分,进行投票处理。当然,本公开也可以以数据内容为单位进行投票处理。
在针对多个数据内容进行投票处理的过程中,本公开考虑了每一个数据源的权值,且本公开中的任意两个数据源可能具有不同的权值。本公开中的任一数据源的权值可以反映出该数据源的可靠程度。本公开中的数据源的权值通常应属于预定权值取值区间。例如,数据源的权值属于(0.5,1]或者(0.5,2]等。
在针对多个数据内容进行投票处理的过程中,如果一个数据内容所属的数据源的权值较小,则该数据内容中的与其他数据内容存在差异的部分,对决定最终的数据内容所起到的作用也相应较小。相应的,如果一个数据内容所属的数据源的权值较大,则该数据内容中的与其他数据内容存在差异的部分,对决定最终的数据内容所起到的作用也相应较大。另外,如果存在差异的部分包括多项(如多个字段),则本公开可以针对每一项分别进行投票处理。
本公开中的所有数据源可以分别设置有初始权值,且各数据源的初始权值可以相同。本公开中的所有数据源各自的权值可以在数据处理过程中动态调整。例如,本公开可以根据上一轮的投票处理结果,更新各数据源各自的权值。
S203、将根据投票处理结果确定出的数据内容作为数据资产存储。
本公开根据投票处理结果确定出的数据内容,可以称为待处理对象的最终数据内容。最终数据内容可以包括:多个数据内容中的不存在差异的部分、以及存在差异的部分在经过投票处理后选举出的内容。本公开中的数据资产可以是指被作为一个企业的资产的数据。例如,数据资产可以为体外数据资产等。
本公开通过从不同数据源处获得待处理对象的数据内容,并利用各数据源各自的权值,针对多个数据内容进行投票处理,例如,针对多个数据内容中的存在差异的部分进行投票处理,不但有利于避免数据源单一对数据内容的可靠性的影响,还可以较为快捷准确的确定出待处理对象的最终数据内容。由此可知,本公开提供的技术方案在有利于使数据处理效率得到保证的同时,有利于提高数据资产的质量。
在一个可选示例中,本公开可以利用数据异常检测获取到待处理对象。具体的,本公开可以通过执行数据异常检测(例如,针对当前增量数据的数据异常检测;再例如,针对当前存量数据的数据异常检测),获得异常数据,之后,本公开可以根据异常数据,确定待处理对象。例如,本公开可以将异常数据中的主体字段作为待处理对象等。本公开通过基于数据异常检测,获取待处理数据,有利于避免数据资产中包含有异常数据,从而有利于提高数据资产的质量。
可选的,本公开基于数据异常检测获得待处理对象的两个例子,如下所述:
第一个例子,对增量数据进行数据异常检测,并根据检测出的异常增量数据确定待处理对象。本公开中的增量数据可以是指在最近一个更新时间点之后新增加的数据。本公开通过基于增量数据异常检测,获取待处理数据,有利于避免异常当前增量数据被作为数据资产的现象,从而有利于提高数据资产的质量。
可选的,本公开中的增量数据在不同领域可以体现为不同的形式,例如,在销售领域中,增量数据可以为在某一时间之后(如当天),获得的所有订单信息等;再例如,在生产领域中,增量数据可以为在某一时间之后(如当天),获得的所有产品信息等;再例如,在互联网领域中,增量数据可以为在某一时间之后(如当天),获得的所有搜索信息等。本公开可以在每获得一增量数据时(如通过爬虫获取一增量数据时),即对该增量数据进行数据异常检测。
可选的,本公开可以利用预先设置的规则,对当前获得的增量数据进行数据异常检测。例如,本公开可以预先针对增量数据中的一个字段或者多个字段分别设置的字段规则,之后,在每次获得一增量数据时,均利用相应的字段规则对增量数据中的相应字段的字段内容进行检测,如果该增量数据中的对应有字段规则的所有字段的字段内容均符合相应的字段规则,则认为该增量数据为非异常增量数据;而如果该增量数据中的对应有字段规则的某一字段的字段内容不符合相应的字段规则,则认为该增量数据为异常增量数据。本公开中的字段规则可以根据字段的具体情况设置,例如,字段规则可以具体为针对电话号码字段的规则、针对URL(Uniform Resource Locator,统一资源定位符)字段的规则、针对公司名称字段的规则、或者针对个人姓名字段的规定等。
针对电话号码字段的规则可以包括:固定/移动电话号码的位数是否正常、固定电话号码的区号是否正常、以及移动电话号码的前3位是否正常等等。
针对URL字段的规则可以包括:字段内容的起始多个字母是否正常、字段内容的结尾多个字母是否正常、以及字段内容是否包含预定符号等。
针对公司名称字段的规则可以包括:字段内容是否包含预定文字、以及名称长度是否超过预定长度等。
针对个人姓名字段的规则可以包括:姓氏是否属于百家姓、以及名字长度是否超过预定长度等。
由于本公开中的字段规则可以根据字段的实际情况进行设置,因此,本公开可以有针对性且灵活便捷的实现增量数据的异常检测,进一步有利于避免异常增量数据被作为数据资产的现象,从而进一步有利于提高数据资产的质量。
第二个例子,对存量数据进行数据异常检测,并根据检测出的存量数据中的异常数据,确定待处理对象。本公开中的存量数据可以是指在最近一个更新时间点之前存储的所有数据。存量数据有时也可以称为全量数据。存量数据中的每一条数据可以认为是一条数据记录。本公开通过基于存量数据异常检测获取待处理数据,有利于消除存量数据中的异常数据,从而有利于提高数据资产的质量。
可选的,本公开中的存量数据在不同领域可以体现为不同的形式,例如,在销售领域中,存量数据可以为截止到某一时间(如前一天)为止,获得的所有历史订单信息等;再例如,在生产领域中,存量数据可以为截止到某一时间(如前一天)为止,获得的所有历史产品信息等;再例如,在互联网领域中,存量数据可以为截止到某一时间(如前一天)为止,获得的所有历史搜索信息等。本公开可以在预先设定的时间,对当前所有存量数据进行数据异常检测。例如,在每天的凌晨,对当前所有存量数据进行数据异常检测。
可选的,本公开可以利用基于密度的异常度量方式,对当前所有存量数据进行数据异常检测。具体而言,如果将存量数量中的每一条数据分别作为一个样本的话,那么基于趋同性的先验价值,可以认为当存量数据中的样本数量足够多(如样本数量超过一预定数量)时,对于存量数据中的任一样本,存储量数据中通常会存在与该样本相似的样本,因此,在大量样本的环境中,如果存量数据中的一个样本属于孤立样本,那么该样本是异常样本的可能性较大。本公开利用基于密度的异常度量方式,可以较为有效的识别出存量数据中的异常数据。
可选的,本公开中的密度可以使用与一样本的距离在预定距离内的样本的数量来表示。
第一个具体例子,针对存量数据中的任一样本而言,本公开可以先确定出该样本分别与存量数据中的其他各样本的距离,然后,筛选出距离满足预定距离要求(如距离小于预定距离,其中的预定距离可以认为是距离临阈)的样本,并统计这样的样本的数量,之后,本公开可以基于统计出的样本的数量,确定出该样本是否为异常样本。
第二个具体例子,针对存量数据中的任一样本而言,本公开可以确定出该样本分别与存量数据中的所有样本的距离,然后,筛选出距离满足预定距离要求的样本(如距离小于预定距离,其中的预定距离可以认为是距离临阈),并统计这样的样本的数量,之后,本公开可以基于统计出的样本的数量,确定出该样本是否为异常样本。
在上述第一个具体例子和第二个具体例子中,如果统计出的距离满足预定距离要求的样本的数量未达到一预定数量,则可以认为该样本为异常样本,如果统计出的距离满足预定距离要求的样本的数量达到一预定数量,则可以认为该样本不为异常样本。
在上述第二个具体例子中,如果统计出的距离满足预定距离要求的样本的数量的倒数达到一预定分数值,则可以认为该样本为异常样本,如果统计出的距离满足预定距离要求的样本的数量的倒数未达到一预定分数值,则可以认为该样本不为异常样本。其中的距离满足预定距离要求的样本的数量的倒数可以认为是样本异常度。其中的预定分数值可以认为是异常度阈值。
一个更具体的例子如图3所示。在图3的最左侧图中,对于存量数据中的样本A而言,在存量数据中,如果样本A与样本A的距离小于预定距离,样本A1与样本A的距离小于预定距离,样本A2与样本A的距离小于预定距离,且样本A3与样本A的距离小于预定距离,那么,样本A的样本异常度可以为1/4。在图3的中间图中,对于存量数据中的样本A而言,在存量数据中,如果样本A与样本A的距离小于预定距离,且样本A1与样本A的距离小于预定距离,那么样本A的样本异常度可以为1/2。在图3的最右侧图中,对于存量数据中的样本A而言,在存量数据中,如果只有样本A与样本A的距离小于预定距离,那么样本A的样本异常度可以为1。如果异常度阈值为1/2,则在出现图3的中间图中的情况或者图3的最右侧图中的情况时,可以认为样本A为异常样本。
在一个可选示例中,本公开可以利用节点关系图,获取到待处理对象。具体的,本公开可以预先设置有节点关系图和预设拓展深度,其中的节点关系图可以是指基于多个节点以及节点之间的连接关系形成的图。本公开中的预设拓展深度用于在节点关系图中确定出与一节点相关联的其他所有节点,且预设拓展深度可以表示出一节点的关联节点的区域范围,也就是说,预设拓展深度可以表示出节点与其关联节点的连接关系。例如,在预设拓展深度为1时,表示一节点的关联节点为:与该节点直接连接的节点。再例如,在预设拓展深度为i,且i为大于1的整数时,表示一节点的关联节点为:与该节点之间最多可以通过i-1个节点连接的节点,即如果两个节点直接相连或者两个节点需要通过其他节点才能够连接,且其他节点的数量不超过i-1,则这两个节点相互为关联节点。本公开可以先根据预设拓展深度,在节点关系图中确定出一节点的所有关联节点,然后,本公开再根据所有关联节点中的未获取数据内容的关联节点,确定待处理对象。例如,本公开可以将未获取数据内容的关联节点所对应的主体字段(如公司名称等)作为待处理对象。本公开通过基于节点关系图获取待处理数据,有利于快捷的获得更多的数据内容,从而有利于丰富数据资产。
可选的,本公开中的节点关系图通常会在数据处理过程中,不断的被拓展更新。这里的拓展更新包括:在节点关系图中添加新的节点、以及改变节点的状态等。一个节点的状态可以为:未获取数据内容状态或者已获取数据内容状态。初始节点关系图可以为空。
可选的,本公开可以根据待处理对象,在节点关系图中添加一个或者多个新节点。添加的新节点可以包括:待处理对象对应的节点、以及待处理对象对应的节点的关联节点中的至少一个。待处理对象对应的节点可以认为是待处理对象的数据内容中的相应字段对应的节点。在根据待处理对象,在节点关系图中添加多个新节点的情况下,这多个节点通常互为关联节点。
可选的,本公开中的节点关系图的部分区域的一个例子如图4所示。
图4中,节点关系图的部分区域包括:节点A、节点B、节点C、节点D以及节点F。在拓展深度为1的情况下,节点A的关联节点包括:节点B、节点C以及节点D。而在拓展深度为2的情况下,节点A的关联节点包括:节点B、节点C、节点D以及节点F。
可选的,图4所示的节点关系图可以在数据处理过程中被拓展。例如,在数据处理过程中,可以在节点关系图中添加节点A的新关联节点,如节点E,且节点E和节点A直接连接。此时,在拓展深度为1的情况下,节点A的关联节点包括:节点B、节点C、节点D以及节点E。
可选的,图4所示的节点关系图中的节点A可以为一公司名称,节点B可以为该公司的法定代表人的姓名,节点C可以为该公司的投资公司的名称,节点D可以为该公司的子公司的名称,节点F可以为该法定代表人的其他公司的名称。
可选的,在获得一个待处理对象以及该待处理对象的数据内容时,本公开可以查看该待处理对象对应的节点是否已存在于当前的节点关系图中、以及该待处理对象的数据内容中的相应字段对应的节点是否已经存在于当前的节点关系图中。查看该待处理对象的数据内容中的相应字段对应的节点是否已经存在于当前的节点关系图中,这一操作可以认为是遍历待处理对象的数据内容的操作。
如果该待处理对象对应的节点已存在于当前的节点关系图中,且该待处理对象的数据内容中的各字段对应的节点已经均存在于当前的节点关系图中,则可以将该待处理对象对应的节点的状态设置为已获取数据内容状态,并查看该待处理对象的数据内容中的相应字段各自对应的节点的状态是否均为已获取数据内容状态,如果均为已获取数据内容状态,则本次数据处理过程结束,如果存在状态为未获取数据内容状态,则可以基于未获取数据内容状态的节点获得新的待处理对象。
如果该待处理对象对应的节点已存在于当前的节点关系图中,且该待处理对象的数据内容中的各字段对应的节点部分存在于当前的节点关系图中,则可以将该待处理对象对应的节点的状态设置为已获取数据内容状态,将未存在于当前的节点关系图中节点添加在节点关系图中,并建立新添加的节点和节点关系图中的已有的相应节点之间的连接关系;另外,可以查看该待处理对象的数据内容的各相应字段对应的节点的状态是否均为已获取数据内容状态,如果均为已获取数据内容状态,则本次数据处理过程结束,如果存在状态为未获取数据内容状态,则可以基于未获取数据内容状态的节点获得新的待处理对象。
如果该待处理对象对应的节点未存在于当前的节点关系图中,且该待处理对象的数据内容的各字段对应的节点均存在于当前的节点关系图中,则在节点关系图中添加待处理对象对应的节点,且待处理对象对应的节点的位置被确定,即可以建立新添加的待处理对象对应的节点和节点关系图中的已有的相应节点间的连接关系,并将该待处理对象对应的节点的状态设置为已获取数据内容状态;另外,可以查看该待处理对象的数据内容的各相应字段对应的节点的状态是否均为已获取数据内容状态,如果均为已获取数据内容状态,则本次数据处理过程结束,如果存在状态为未获取数据内容状态,则可以基于未获取数据内容状态的节点获得新的待处理对象。
如果该待处理对象对应的节点未存在于当前的节点关系图中,且该待处理对象的数据内容的各相应字段对应的节点部分存在于当前的节点关系图中,则在节点关系图中添加待处理对象对应的节点以及部分未存在于当前的节点关系图中的节点,且新添加的节点的位置被确定,即可以建立新添加的节点和节点关系图中的已有的相应节点之间的连接关系,并将该待处理对象对应的节点的状态设置为已获取数据内容状态;另外,可以查看该待处理对象的数据内容中的各相应字段对应的节点的状态是否均为已获取数据内容状态,如果均为已获取数据内容状态,则本次数据处理过程结束,如果存在状态为未获取数据内容状态,则可以基于未获取数据内容状态的节点获得新的待处理对象。
如果该待处理对象对应的节点未存在于当前的节点关系图中,且该待处理对象的数据内容的各相应字段对应的节点均未存在于当前的节点关系图中,则在节点关系图中添加待处理对象对应的节点以及该节点的所有关联节点,即新添加的节点与节点关系图中的所有已有的节点之间不存在连接关系,本公开可以将该待处理对象对应的节点的状态设置为已获取数据内容状态;另外,可以查看该待处理对象的数据内容的各相应字段对应的节点的状态是否均为已获取数据内容状态,如果均为已获取数据内容状态,则本次数据处理过程结束,如果存在状态为未获取数据内容状态,则可以基于未获取数据内容状态的节点获得新的待处理对象。
可选的,本公开可以在检测出一异常增量数据时,在节点关系图中查找该异常增量数据对应的节点,例如,本公开可以利用异常增量数据中的主体字段在节点关系图中查找该异常增量数据对应的节点。在查找到该异常增量数据对应的节点后,本公开可以根据预设拓展深度,在节点关系图中确定出该节点的所有关联节点,并针对每一个关联节点分别判断:该关联节点是否获取了数据内容,如果一关联节点没有获取数据内容,则将该关联节点作为待处理对象,本公开可以将待处理对象添加在一用于获取数据内容的任务队列(该任务队列可以简称为定向获取任务队列或者待获取任务队列等)中,本公开可以按照该任务队列中的待处理对象的排列顺序,依次获得每一个待处理对象的数据内容。如果一关联节点已经获取了数据内容,则本公开不会将该关联节点作为待处理对象。
可选的,本公开可以在检测出存量数据中的一异常样本时,在节点关系图中查找该异常样本对应的节点,例如,本公开可以利用异常样本中的主体字段在节点关系图中查找该异常样本对应的节点。在查找到异常样本对应的节点后,本公开可以根据预设拓展深度,在节点关系图中确定出该节点的所有关联节点,并针对每一个关联节点分别判断:该关联节点是否获取了数据内容,如果一关联节点没有获取数据内容,则将该关联节点作为待处理对象,本公开可以将待处理对象添加在一用于获取数据内容的任务队列(即上述定向获取任务队列或者待获取任务队列)中,本公开可以按照该任务队列中的待处理对象的排列顺序,依次获得每一个待处理对象的数据内容。如果一关联节点已经获取了数据内容,则本公开不会将该关联节点作为待处理对象。
可选的,本公开可以在检测出一异常增量数据时,除了执行获取该异常增量数据的来自多个数据源的数据内容的操作之外,还可以将异常增量数据中的主体字段添加在一用于在节点关系图中探查关联节点的任务队列中。本公开也可以在检测出存量数量中的一异常样本时,除了执行获取该异常样本中的主体字段的来自多个数据源的数据内容的操作之外,还可以将异常样本中的主体字段添加在用于在节点关系图中探查关联节点的任务队列中。本公开可以将用于在节点关系图中探查关联节点的任务队列简称为数据探查队列。
可选的,本公开可以从数据探查队列中,依次获取主体字段,并利用获取到的主体字段在节点关系图中查找该主体字段对应的节点,从而可以根据预设拓展深度,从节点关系图中获得该节点的所有关联节点。进一步的,本公开可以针对每一个关联节点分别判断:该关联节点是否获取了数据内容,如果一关联节点没有获取数据内容,则将该关联节点作为待处理对象,本公开可以将待处理对象添加在一用于获取数据内容的任务队列(即上述定向获取任务队列或者待获取任务队列)中,本公开可以按照该任务队列中的待处理对象的排列顺序,依次获得每一个待处理对象的数据内容。如果一关联节点已经获取了数据内容,则本公开不会将该关联节点作为待处理对象。
在一个可选示例中,本公开不但可以记录节点关系图中的每一个节点是否获取了数据内容,还可以记录每一个节点的数据处理次数。另外,本公开还可以预先设置节点的数据处理次数所对应的数据源。当然,本公开也可以记录一个节点已经从哪些数据源处获得了数据内容,且本公开可以存储已经从数据源处获取到的历史数据内容以及各历史数据内容各自对应的数据源。
可选的,在根据待处理对象,获取来自不同数据源的待处理对象的多个数据内容的过程中,可以先判断待处理对象的数据处理次数是否超过预定次数(如2次或者3次或者更多次等),如果判断结果为待处理对象的数据处理次数不超过预定次数,且待处理对象的数据处理次数为第一次时,本公开可以从多个预设第一数据源处(如数据源1、数据源2以及数据源3等),获取待处理对象的多个数据内容;如果判断结果为待处理对象的数据处理次数不超过预定次数,且待处理对象的数据处理次数为第N次(N为大于1的整数)时,本公开从历史数据内容集合中获取来自至少一数据源的待处理对象的数据内容(如来自数据源1的待处理对象的数据内容、来自数据源2的待处理对象的数据内容以及来自数据源3的待处理对象的数据内容等),并从至少一个预设第N数据源(如数据源4、以及数据源5等)处,获取待处理对象的一个数据内容或者多个数据内容。如果判断结果为待处理对象的数据处理次数超过预定次数,则本次数据处理过程结束。
可选的,在本公开获得了待处理对象的数据内容,且该数据内容成为了增量数据之后,本公开有可能会通过针对增量数据的异常检测,将该数据内容中的相应字段的字段内容作为待处理对象,此时,该待处理对象的数据处理次数不是第一次。
可选的,在本公开获得了待处理对象的数据内容,且该数据内容成为了存量数据之后,本公开有可能会通过针对存量数据的异常检测,将该数据内容中的相应字段的字段内容作为待处理对象,此时,该待处理对象的数据处理次数不是第一次。
本公开在针对一个待处理对象进行多次数据处理时,由于不同数据处理对应的数据源不相同,因此,随着针对待处理对象所执行的数据处理次数的增加,本公开可以从更多数据源处获得待处理对象的数据内容,从而有利于丰富投票处理的基础数据,进而有利于提高投票处理的结果的准确性。本公开通过针对数据处理次数设置预定次数,可以避免一些不必要的数据处理对计算资源的消耗。
在一个可选示例中,本公开针对获取到的待处理对象的多个数据内容进行投票处理的具体过程可以包括下述两个步骤:
步骤1、确定多个数据内容中的存在差异的字段。
例如,假设待处理对象为“XX科技”,且本次数据处理从数据源C1、数据源C2和数据源C3获得的该待处理对象的数据内容如下述表2所示:
表2
数据源 公司名称 末次数据更新时间 是否有涉诉
C1 XX科技 20190301 无涉诉
C2 XX科技 20190301 有涉诉
C3 XX科技 20190301 有涉诉
表2中,“XX科技”可以认为是各条数据内容的主体字段。来自于三个数据源的数据内容中的存在差异的字段包括“是否有涉诉”。本公开需要确定“是否有涉诉”这一字段的字段内容。
再例如,假设待处理对象为“XX科技”,且本次数据处理从数据源C1、数据源C2和数据源C3获得的该待处理对象的数据内容如下述表3所示:
表3
数据源 公司名称 末次数据更新时间 是否正常营业
C1 XX科技 20190301
C2 XX科技 20190301
C3 XX科技 20190301
表3中,“XX科技”可以认为是各条数据内容的主体字段。来自于三个数据源的数据内容中的存在差异的字段包括“是否正常营业”。本公开需要确定“是否正常营业”这一字段的字段内容。
步骤2、根据多个数据源各自的权值,对每一个存在差异的字段分别进行投票处理,以确定每一个存在差异的字段的字段内容。
可选的,在本公开的投票处理过程中,不同数据源对于决定最终字段内容所起到的作用,可能并不相同,且不同数据源对于决定最终字段内容所起到的作用的大小由数据源的权值大小决定。即权值大的数据源,对于决定最终字段内容所起到的作用较大,而权值小的数据源,对于决定最终字段内容所起到的作用较小。也就是说,本公开中的投票处理可以认为是基于加权的投票处理。
例如,对于上述表2所示的例子,假设数据源C1的权值为Q1,数据源C2的权值为Q2,数据源C3的权值为Q3,则针对“是否有涉诉”这一字段的字段内容进行投票处理的结果为:
“无涉诉”的票数为:Q1×1;
“有涉诉”的票数为:Q2×1+Q3×1;
如果“无涉诉”的票数大于“有涉诉”的票数,则“是否有涉诉”这一字段的最终字段内容为“无涉诉”;
如果“无涉诉”的票数小于“有涉诉”的票数,则“是否有涉诉”这一字段的最终字段内容为“有涉诉”。
再例如,对于上述表3所示的例子,假设数据源C1的权值为Q1,数据源C2的权值为Q2,数据源C3的权值为Q3,则针对“是否正常营业”这一字段的字段内容进行投票处理的结果为:
“否”的票数为:Q1×1+Q3×1;
“是”的票数为:Q2×1;
如果“否”的票数大于“是”的票数,则“是否正常营业”这一字段的最终字段内容为“否”;
如果“否”的票数小于“是”的票数,则“是否正常营业”这一字段的最终字段内容为“是”。
可选的,本公开中的所有数据源的权值中的最高权值通常低于其他权值之和,例如,在所有数据源的当前权值的最大值为1的情况下,其中任一数据源的权值可以均不低于0.5。一个更为具体的例子,在所有数据源的数量为3,且各数据源的当前权值Q1、Q2和Q3中的最大值为1的情况下,Q1、Q2和Q3中的任意两个之和大于1。
本公开通过使最高权值低于其他权值之和,可以避免某一数据源由于权值过高,而使来自其他数据源的字段内容总是无法胜出的现象,从而有利于提高投票处理获得的字段内容的准确性。
在一个可选示例中,本公开可以根据投票处理的结果,更新相应数据源的权值,例如,在一数据内容中的字段的字段内容与所述投票处理结果相同时,增大该数据内容对应的数据源的权值,否则,减小与该数据内容对应的数据源的权值。
可选的,续前述上述表2所示的例子,如果针对“是否有涉诉”这一字段的字段内容进行投票处理,而最终确定出的字段内容为“有涉诉”,则可以增大数据源C2和数据源C3的权值(例如,数据源C2的权值由0.5调整为0.51,数据源C3的权值由0.6调整为0.612),并降低数据源C1的权值(例如,数据源C3的权值由0.533调整为0.531)。另外,数据源C2和数据源C3的权值增大的部分可以不超过数据源C1的权值降低的部分,也可以超过数据源C1的权值。
可选的,续前述上述表3所示的例子,如果针对“是否正常营业”这一字段的字段内容进行投票处理,而最终确定出的字段内容为“否”,则可以增大数据源C1和数据源C3的权值,并降低数据源C2的权值,且数据源C1和数据源C3的权值增大的部分,通常不超过(如等于)数据源C2的权值降低的部分。
可选的,在一次更新数据源的权值过程中,不同数据源的权值调整幅度可能并不相同。另外,每次调整数据源的权值的幅度可以不相同,例如,本公开可以利用下述公式(1)计算出任一数据源调整权值的幅度:
W×|W-0.5| 公式(1)
在上述公式(1)中,W表示数据源的当前权值。
由上述公式(1)可知,在一数据源的权值越接近0.5的时候,该数据源的权值的调整幅度越小,且数据源的权值可以无限接近0.5,但是通常不会达到0.5。
本公开通过根据投票处理结果调整相应数据源的权值,可以实现自动学习获得数据源的可靠性(即数据源的质量),从而有利于使数据源在投票处理过程中所起的作用,与其可靠性相关联,从而在数据源提供的数据内容存在冲突的应用场景中,有利于提高投票处理获得的字段内容的准确性。
示例性装置
图5为本公开的数据处理装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。
如图5所示,本实施例的装置可以包括:第一获取模块500、第二获取模块501、投票模块502以及数据资产模块503。可选的,该装置还可以包括:第一维护模块504、第二维护模块505以及权值调整模块506中的至少一个。
第一获取模块500用于获取待处理对象。
可选的,上述第一获取模块500可以包括:第一子模块5001和第二子模块5002中的至少一个。其中的第一子模块5001用于根据数据异常检测获得的异常数据,确定待处理对象;其中的第二子模块5002用于根据预设拓展深度,确定节点关系图中的一节点的所有关联节点,并根据所有关联节点中的未获取数据内容的关联节点,确定待处理对象。
可选的,第一子模块5001可以包括:增量异常检测单元50011和存量异常检测单元50012中的至少一个。其中的增量异常检测单元50011用于对增量数据进行数据异常检测,并根据检测出的异常增量数据,确定待处理对象。例如,增量异常检测单元50011可以具体用于根据预先针对增量数据中的至少一字段分别设置的字段规则,对当前获得的增量数据中的相应字段的字段内容进行异常检测。其中的存量异常检测单元50012用于对存量数据进行数据异常检测,并根据检测出的存量数据中的异常数据,确定待处理对象。例如,存量异常检测单元50012具体用于针对存量数据中的任一数据,确定该数据分别与存量数据中的多个数据的距离,并确定距离小于预定距离的数据的数量,存量异常检测单元50012根据上述数量,确定上述任一数据是否为异常数据。
第二获取模块501用于根据第一获取模块500获取到的待处理对象,获取来自不同数据源的所述待处理对象的多个数据内容。
可选的,第二获取模块501可以包括:第三子模块5011和第四子模块5012。其中的第三子模块5011用于在待处理对象的数据处理次数不超过预定次数,且待处理对象的数据处理次数为第一次时,从多个预设第一数据源处,获取待处理对象的多个数据内容。其中的第四子模块5012用于在待处理对象的数据处理次数不超过预定次数,且待处理对象的数据处理次数为第N次时,从历史数据内容集合中获取来自至少一数据源的所述待处理对象的数据内容,并从至少一个预设第N数据源处,获取待处理对象的至少一数据内容。其中的N为大于1的整数。
投票模块502用于根据多个数据源各自的权值,针对第二获取模块501获取到的多个数据内容进行投票处理。其中,多个数据源中的最高权值通常不超过其他至少两个权值之和。
可选的,投票模块502可以包括:第五子模块5021和第六子模块5022。其中的第五子模块5021用于确定多个数据内容中的存在差异的字段。其中的第六子模块5022用于根据多个数据源各自的权值,对每一个存在差异的字段分别进行投票处理,以确定每一个存在差异的字段的字段内容。
数据资产模块503用于将根据投票模块502的投票处理的结果确定出的数据内容作为数据资产存储。
第一维护模块504用于根据所述待处理对象,在所述节点关系图中添加节点。
第二维护模块505,根据所述确定出的数据内容,将相应的未获取数据内容的关联节点变更为已获取数据内容的关联节点。
权值调整模块506用于在一数据内容中的一字段的字段内容与投票处理确定出的字段内容相同时,增大该数据内容对应的数据源的权值,否则,减小该数据内容对应的数据源的权值。
上述各模块及其包括的子模块和单元具体执行的操作可以参见上述方法实施例中针对图2-图4的描述,在此不再详细说明。
示例性电子设备
下面参考图6来描述根据本公开实施例的电子设备。图6示出了根据本公开实施例的电子设备的框图。如图6所示,电子设备61包括一个或多个处理器611和存储器612。
处理器611可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备61中的其他组件以执行期望的功能。
存储器612可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器611可以运行所述程序指令,以实现上文所述的本公开的各个实施例的数据处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备61还可以包括:输入装置613以及输出装置614等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备613还可以包括例如键盘、鼠标等等。该输出装置614可以向外部输出各种信息。该输出设备614可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备61中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备61还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据处理方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据处理方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种数据处理方法,包括:
获取待处理对象;
根据所述待处理对象,获取来自不同数据源的所述待处理对象的多个数据内容;
根据所述多个数据源各自的权值,针对所述多个数据内容进行投票处理;
将根据所述投票处理的结果确定出的数据内容作为数据资产存储。
2.根据权利要求1所述的方法,其中,所述获取待处理对象包括:
根据数据异常检测获得的异常数据,确定待处理对象;和/或
根据预设拓展深度,确定节点关系图中的一节点的所有关联节点,并根据所述所有关联节点中的未获取数据内容的关联节点,确定待处理对象。
3.根据权利要求2所述的方法,其中,所述根据数据异常检测获得的异常数据,确定待处理对象包括:
对增量数据进行数据异常检测,并根据检测出的异常增量数据,确定待处理对象;和/或
对存量数据进行数据异常检测,并根据检测出的存量数据中的异常数据,确定待处理对象。
4.根据权利要求3所述的方法,其中,所述对增量数据进行数据异常检测包括:
根据预先针对增量数据中的至少一字段分别设置的字段规则,对当前获得的增量数据中的相应字段的字段内容进行异常检测。
5.根据权利要求3或4所述的方法,其中,所述对存量数据进行数据异常检测,包括:
针对存量数据中的任一数据,确定该数据分别与存量数据中的多个数据的距离;
确定距离小于预定距离的数据的数量;
根据所述数量,确定所述任一数据是否为异常数据。
6.根据权利要求2至5中任一项所述的方法,其中,所述方法还包括:
根据所述待处理对象,在所述节点关系图中添加节点;和/或
根据所述确定出的数据内容,将相应的未获取数据内容的关联节点变更为已获取数据内容的关联节点。
7.根据权利要求1至6中任一项所述的方法,其中,所述根据所述待处理对象,获取来自不同数据源的所述待处理对象的多个数据内容,包括:
在所述待处理对象的数据处理次数不超过预定次数,且所述待处理对象的数据处理次数为第一次时,从多个预设第一数据源处,获取所述待处理对象的多个数据内容;或者
在所述待处理对象的数据处理次数不超过预定次数,且所述待处理对象的数据处理次数为第N次时,从历史数据内容集合中获取来自至少一数据源的所述待处理对象的数据内容,并从至少一个预设第N数据源处,获取所述待处理对象的至少一数据内容;
其中,所述N为大于1的整数。
8.一种数据处理装置,其中,所述装置包括:
第一获取模块,用于获取待处理对象;
第二获取模块,用于根据所述第一获取模块获取到的待处理对象,获取来自不同数据源的所述待处理对象的多个数据内容;
投票模块,用于根据所述多个数据源各自的权值,针对所述第二获取模块获取到的多个数据内容进行投票处理;
数据资产模块,用于将根据所述投票模块的投票处理的结果确定出的数据内容作为数据资产存储。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7中任一项所述的方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7中任一项所述的方法。
CN202010304051.9A 2020-04-17 2020-04-17 数据处理方法、装置、介质和电子设备 Active CN111444189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010304051.9A CN111444189B (zh) 2020-04-17 2020-04-17 数据处理方法、装置、介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010304051.9A CN111444189B (zh) 2020-04-17 2020-04-17 数据处理方法、装置、介质和电子设备

Publications (2)

Publication Number Publication Date
CN111444189A true CN111444189A (zh) 2020-07-24
CN111444189B CN111444189B (zh) 2021-04-16

Family

ID=71654126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010304051.9A Active CN111444189B (zh) 2020-04-17 2020-04-17 数据处理方法、装置、介质和电子设备

Country Status (1)

Country Link
CN (1) CN111444189B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574098A (zh) * 2015-12-11 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置
CN106372185A (zh) * 2016-08-31 2017-02-01 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
CN107943973A (zh) * 2017-11-28 2018-04-20 上海云信留客信息科技有限公司 一种大数据智能清洗系统及云机器人智能清洗服务平台
WO2018104073A1 (en) * 2016-12-09 2018-06-14 Asml Netherlands B.V. Method and apparatus for controlling a computing process
CN108256699A (zh) * 2018-04-10 2018-07-06 张永新 基于高校学生立体数据的毕业去向预测方法及系统
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置
CN110119340A (zh) * 2019-05-17 2019-08-13 北京字节跳动网络技术有限公司 异常监测方法、装置、电子设备和存储介质
CN110134833A (zh) * 2019-05-09 2019-08-16 南京邮电大学 面向电网拓扑管理的图数据建模系统及方法
CN110275894A (zh) * 2019-06-24 2019-09-24 恒生电子股份有限公司 一种知识图谱的更新方法、装置、电子设备及存储介质
US20190378021A1 (en) * 2012-10-12 2019-12-12 International Business Machines Corporation Text-based inference chaining
CN110781246A (zh) * 2019-09-18 2020-02-11 上海生腾数据科技有限公司 一种企业关联关系构建方法及系统
CN110909811A (zh) * 2019-11-28 2020-03-24 国网湖南省电力有限公司 一种基于ocsvm的电网异常行为检测、分析方法与系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190378021A1 (en) * 2012-10-12 2019-12-12 International Business Machines Corporation Text-based inference chaining
CN105574098A (zh) * 2015-12-11 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置
CN106372185A (zh) * 2016-08-31 2017-02-01 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
WO2018104073A1 (en) * 2016-12-09 2018-06-14 Asml Netherlands B.V. Method and apparatus for controlling a computing process
CN107943973A (zh) * 2017-11-28 2018-04-20 上海云信留客信息科技有限公司 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN108256699A (zh) * 2018-04-10 2018-07-06 张永新 基于高校学生立体数据的毕业去向预测方法及系统
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置
CN110134833A (zh) * 2019-05-09 2019-08-16 南京邮电大学 面向电网拓扑管理的图数据建模系统及方法
CN110119340A (zh) * 2019-05-17 2019-08-13 北京字节跳动网络技术有限公司 异常监测方法、装置、电子设备和存储介质
CN110275894A (zh) * 2019-06-24 2019-09-24 恒生电子股份有限公司 一种知识图谱的更新方法、装置、电子设备及存储介质
CN110781246A (zh) * 2019-09-18 2020-02-11 上海生腾数据科技有限公司 一种企业关联关系构建方法及系统
CN110909811A (zh) * 2019-11-28 2020-03-24 国网湖南省电力有限公司 一种基于ocsvm的电网异常行为检测、分析方法与系统

Also Published As

Publication number Publication date
CN111444189B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN109241101B (zh) 一种数据库查询优化方法、装置、及计算机设备
US9959502B2 (en) Utilizing a dynamic data source to affect business rule management
US11275768B2 (en) Differential support for frequent pattern analysis
US8745690B2 (en) Deriving service provider constraints from service consumer context
US8560506B2 (en) Automatic selection of blocking column for de-duplication
US10585875B2 (en) Data warehouse model validation
US10937073B2 (en) Predicting delay in a process
Zhu et al. Local influence analysis for Poisson autoregression with an application to stock transaction data
CN112214505A (zh) 数据同步方法、装置、计算机可读存储介质及电子设备
US20170004188A1 (en) Apparatus and Method for Graphically Displaying Transaction Logs
CN111046052B (zh) 一种数据库中的操作记录存储方法、装置及设备
US10055422B1 (en) De-duplicating results of queries of multiple data repositories
CN111444189B (zh) 数据处理方法、装置、介质和电子设备
CN111125579A (zh) 网页信息处理方法和装置、存储介质和电子设备
CN107369093B (zh) 一种业务确定方法和装置
CN110991992A (zh) 业务流程信息的处理方法和装置、存储介质和电子设备
Lagarias et al. Higher correlations and the alternative hypothesis
CN115221936A (zh) 数据库系统中的记录匹配
CN111125322A (zh) 信息搜索方法和装置、电子设备和存储介质
CN111752847A (zh) 接口比对方法和微服务器、计算机可读存储介质、电子设备
JP2021092957A (ja) 情報処理装置及びプログラム
US20190272512A1 (en) Systems and methods for providing an electronic line-of-business gateway
US10037347B2 (en) Methods for reconciling transactions and devices thereof
CN112016081B (zh) 标识映射的实现方法、装置、介质和电子设备
CN110189234B (zh) Ota平台酒店信息调整方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200902

Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: 300 457 days Unit 5, Room 1, 112, Room 1, Office Building C, Nangang Industrial Zone, Binhai New Area Economic and Technological Development Zone, Tianjin

Applicant before: BEIKE TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210325

Address after: 101300 room 24, 62 Farm Road, Erjie village, Yangzhen Town, Shunyi District, Beijing

Applicant after: Beijing fangjianghu Technology Co.,Ltd.

Address before: 100085 Floor 101 102-1, No. 35 Building, No. 2 Hospital, Xierqi West Road, Haidian District, Beijing

Applicant before: Seashell Housing (Beijing) Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant