CN113742391B - 数据处理系统 - Google Patents
数据处理系统 Download PDFInfo
- Publication number
- CN113742391B CN113742391B CN202111042846.8A CN202111042846A CN113742391B CN 113742391 B CN113742391 B CN 113742391B CN 202111042846 A CN202111042846 A CN 202111042846A CN 113742391 B CN113742391 B CN 113742391B
- Authority
- CN
- China
- Prior art keywords
- record
- time
- target
- attribute
- pmk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
Abstract
本发明提供了一种数据处理系统,包括:数据库和处理器,数据库中存储有原始数据表、元数据表和目标值查询表,原始数据表用于存储多条记录,包括每条记录对应的对象的唯一标识OID、数据源唯一标识SID、上报时间、OID对应的n个与时间相关的属性,以及n个属性对应的n位异常标志;元数据表中存储有与原始数据表中的n个属性对应的更新时间间隔;处理器与多个数据源通信连接,用于在接收到任一记录时,确定该记录是否为不可信数据,在确定为不可信数据时,确定该记录中的目标属性的目标值。本发明能够使得统计结果尽可能的准确。
Description
技术领域
本发明涉及一种数据处理系统,尤其涉及一种能够对不可信数据进行处理的数据处理系统。
背景技术
随着网络技术的迅速发展和普及,数据库成为了存储数据的最主要手段。为确保数据统计结果的准确性,数据库会根据接收的数据源定时进行更新。然而,数据源提供的数据可能会存在不可信的统计数据,例如,提供的关于爱好、技能提升参与情况等的统计数据,如果将这些不可信的统计数据直接作为统计结果,将会导致统计结果不够准确。因此,亟待需要提供一种能够对数据源中的不可信数据进行处理以使得统计结果尽可能准确的技术方案。
发明内容
鉴于上述技术问题,本发明实施例提供一种数据处理系统,用于对不可信的统计数据进行处理,以使得统计结果尽可能的准确。
本发明采用的技术方案为:
本发明实施例提供一种数据处理系统,包括:数据库和处理器,所述数据库中存储有原始数据表、元数据表和目标值查询表,所述原始数据表用于存储多条记录,包括每条记录对应的对象的唯一标识OID、数据源唯一标识SID、上报时间、OID对应的n个与时间相关的属性P=(P1、P2、…、Pi、…、Pn),以及n个属性对应的n位异常标志,i的取值为1到n,异常标志的第i位为属性Pi的标识值;所述元数据表中存储有与所述原始数据表中的n个属性对应的更新时间间隔T=(T1、T2、…、Ti、…、Tn);
所述处理器与多个数据源通信连接,用于在接收到任一记录j时,执行计算机程序,以实现如下步骤:
S100,获取记录j对应的OIDj以及目标属性PM=(PM1,PM2、…、PMk、…、PMm),PM∈P,1≤k≤m≤n;
S110,利用获取的OIDj在所述原始数据表中进行检索,如果没有检索到对应的记录,执行S120;如果检索到对应的记录R=(R1、R2、…、RN),N≥1,执行S130;
S120,将记录j存储到所述原始数据表的对应位置处,并设置记录j的所有属性对应的异常标志的对应位的标识值为正常标识值;
S130,对于任一目标属性PMk,如果检索到的记录R中存在与目标属性PMk相同的属性并且该检索到的记录的上报时间和记录j的上报时间之间的间隔T0小于目标属性PMk对应的更新时间间隔T,则执行S140;
S140,将记录j存储到所述原始数据表的对应位置处,并设置记录j的目标属性PMk对应的异常标志的对应位的标识值为异常标识值;执行S150;
S150,如果N>1,通过得到记录j的目标属性PMk的目标值,并存储到目标值查询表中;Tj为记录j的上报时间,TN为记录RN的上报时间,ON为记录RN的目标属性PMk对应的目标值,Tk为目标属性PMk的更新时间间隔。
本发明实施例提供的数据处理系统,在接收到不可信数据时,能够根据记录的上报时间和记录中的目标属性对应的更新时间间隔确定目标属性的目标值,这样,在进行统计工作时,可将目标值作为对应属性的统计值,从而使得统计结果尽可能地准确。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合具体实施例进行详细描述。
本发明实施例提供一种数据处理系统,包括:数据库和处理器,所述数据库中存储有原始数据表、元数据表和目标值查询表,所述原始数据表用于存储多条记录,包括每条记录对应的对象的唯一标识OID、数据源唯一标识SID、上报时间、OID对应的n个与时间相关的属性P=(P1、P2、…、Pi、…、Pn),以及n个属性对应的n位异常标志,i的取值为1到n,异常标志的第i位为属性Pi的标识值;所述元数据表中存储有与所述原始数据表中的n个属性对应的更新时间间隔T=(T1、T2、…、Ti、…、Tn),Pi为OID的第i个属性字段,Ti为Pi的更新时间间隔,如果在更新时间间隔Ti接收到一个Pi,则表示记录是可信的,否则,则为不可信。在本发明实施例中,数据源包括可信数据源TID和非可信数据源NID,自然,数据源唯一标识SID必然为可信数据源TID或非可信数据源NID中的一个。每条记录的上报时间为该条记录被对应的数据源上传到处理器的时间,或者该条记录被对应的数据源获取的时间。
在本发明实施例中,原始数据表的结构可如下表1所示:
表1:原始数据表结构
异常标志 | OID | SID | 上报时间 | 属性1 | 属性2 | 属性… |
在本发明实施例中,异常标志可由0和1bit组成,bit的位数与属性的个数相同。在一个示例中,异常标志的第i位设置为1,表示对应的第i个属性异常。当然,也可以异常标志的第i位设置为0,表示对应的第i个属性异常。本发明实施例中,采用异常标志的第i位设置为1,表示对应的第i个属性异常。
在一个示意性实施例中,存储有记录的原始数据表可如下表2所示:
表2:原始数据表示例
在本发明实施例中,所述处理器与多个数据源通信连接,从多个数据源接收记录,用于在接收到任一记录时,确定该记录是否为不可信数据,在确定为不可信数据时,确定该记录中的目标属性的目标值。具体地,处理器用于在接收到任一记录j时,执行计算机程序,以实现如下步骤:
S100,获取记录j对应的OIDj以及目标属性PM=(PM1,PM2、…、PMk、…、PMm),PM∈P,1≤k≤m≤n;
S110,利用获取的OIDj在所述原始数据表中进行检索,如果没有检索到对应的记录,执行S120;如果检索到对应的记录R=(R1、R2、…、RN),N≥1,执行S130;
S120,将记录j存储到所述原始数据表的对应位置处,并设置记录j的所有属性对应的异常标志的对应位的标识值为正常标识值;
S130,对于任一目标属性PMk,如果检索到的记录R中存在与目标属性PMk相同的属性并且该检索到的记录的上报时间和记录j的上报时间之间的间隔T0小于目标属性PMk对应的更新时间间隔T,如下表3示出的情况,则执行S140;
表3:
S140,将记录j存储到所述原始数据表的对应位置处,并设置记录j的目标属性PMk对应的异常标志的对应位的标识值为异常标识值,如上表3所示;执行S150;
S150,如果N>1,如下表4所示,可通过得到记录j的目标属性PMk的目标值,并存储到目标值查询表中;Tj为记录j的上报时间,TN为记录RN的上报时间,ON为记录RN的目标属性PMk对应的目标值,Tk为目标属性PMk的更新时间间隔。在具体应用时,上报时间之间的间隔可采用天数或者月数,优选,采用天数,以使得得到的目标值更加准确。
在实际应用中,可采用MD5()函数来得到目标属性的目标值。以表4中的属性1为例,根据MD5()函数得到记录j的目标属性PMk对应的目标值,如下表5所示:
在另一个实施例中,上述步骤S150可被替换为:
在该实施例中,以表4中的属性1为例,根据MD5()函数得到各个记录的目标属性PMk对应的目标值,如下表6所示:
表6:
进一步地,在本发明实施例中,所述处理器还用于实现如下步骤:
在该实施例中,以表3中的属性1为例,根据MD5()函数得到两个记录的目标属性PMk对应的目标值,如下表7所示:
表7:
通过上述步骤S100~S170,能够得到具有异常标识值的每个目标属性的目标值,从而可使得统计结果尽可能的准确。
进一步地,在本发明实施例中,所述处理器还用于实现如下步骤:
S200,从所述原始数据表中获取所有存在异常标识值的异常标志对应的记录。
S210,获取步骤S200中得到的记录对应的通信ID,并向获得的通信ID发送确认对应的记录是否为真实事件的询问信息。在一个实施例中,可获取记录对应的邮箱地址和电话号码,可向获取的邮箱地址群发邮件,或者,向每个电话号码拨打电话确认对应的记录是否为真实事件。以
S220,基于接收到的询问信息的响应信息,更新步骤S200中得到的记录。
进一步地,步骤S220可进一步包括:
S222,如果接收到的响应信息指示对应的记录为真实事件,则将对应的异常标志设置为正常标识值,并将对应的SID修改为发送询问信息的移动终端对应的ID。
S224,如果接收到的响应信息指示对应的记录为非真实事件,则将对应的记录删除,同时将对应的目标值查询表中的信息删除。
例如,以表3为例,可以获取表3中的JG2004的邮箱和电话号码,可以给JG2004发邮件或者打电话,询问是否参加了安全教育培训,确认后就可以更新表3中的两条记录。打电话的人会从网页上输入确认的内容,那么这个人或者这个网页的输入就是可信数据源。对于确认的信息,进行修改(正确的,修改SID)和删除(不正确的,删除),并存储到日志中。仍以表3为例,第一条记录如果是正确的,就该异常标志为000,SID也修改为TID-张三,因为是张三打的电话。第二条记录是不正确的,JG2004否认去参与了培训,就删除,如下表8所示:
表8:
同时,更新对应的目标值查询表,将该记录对应的目标查询表中除表头之外的所有内容删除掉,并记录到日志中。
通过上述步骤S200~S224,可以使得原始数据表的记录更加准确,从而能够提高统计结果的准确性。
进一步地,在本发明实施例中,所述数据库中还存储有缓存表、可信时间序列和不可信时间序列。其中,所述缓存表存储有对象的唯一标识OID、对象的唯一标识OID对应的上一条记录的SID的类型以及对应的上一条记录的上报时间;可信时间序列和不可信时间序列的初始化值为Null。在一个示例中,缓存表的结构可如下表9所示:
表9:
OID | OID上一条的SID的类型 | OID上一条的上报时间 |
JG2004 | 0=NID | 2020年5月30日 |
SD1876 | 0=NID | 2017年7月30日 |
HN0544 | 1=TID | 2012年8月3日 |
在本发明实施例中,所述处理器还用于,遍历所述原始数据表,对于遍历的任何一条记录K,进行以下处理:
S300,如果记录K中的属性Pi为对应的预设属性P1i,执行S310;否则,设置i=i+1,并执行步骤S300,直到i=n,执行S310;i=1,2,…,n;预设属性P1i可根据实际需要进行设置,例如,表3中的属性1为学员等。
S310,获取记录K中的OID(例如JG2004),SID类型和上报时间;
S320,如果记录K中的SID类型“与运算”缓存表中的OID对应的SID(例如20210730)类型为1,即记录K中的SID类型为TID,且缓存表中的OID对应的SID类型也是TID,则在不可信时间序列上添加时间段。时间段可为记录K的上报时间和缓存表中的OID对应的上报时间的差值,例如,20210730-20200530。
S330,如果记录K中的SID类型“与运算”缓存表中的OID对应的SID类型为0,则在不可信时间序列上添加时间段;时间段可为记录K的上报时间和缓存表中的OID对应的上报时间的差值,例如,20210730-20200530。
S340,经过步骤S300~S330可形成可信时间序列U=(U1,U2,...,Uh,...,Ux),不可信时间序列V=(V1,V2,...,Vs,...,Vy),Uh为可信时间序列中的第h个时间段,h的取值为1到x;Vs为不可信时间序列中的第s个时间段,s的取值为1到y,x和y分别为可信时间序列和不可信时间序列的时间段的数量。
进一步地,在本发明实施例中,优选的,可排序添加时间段,这样,U1≥U2≥......≥Ux;V1≥V2≥......≥Vy。
进一步地,处理器还用于继续执行以下步骤:
S350,如果Ux≥V1,即最短的可信时间大于最长的不可信时间,则将属性Pi的更新时间间隔Ti设置为(Ux+V1)/2;否则,如果Ux<V1,则执行S360;
S360,获取t,使得Ux-t≥V1+t,如果t≤a*min(x,y),则将属性Pi的更新时间间隔Ti设置为(Ux-j+V1+j)/2,a为预设系数,优选,a>0.9,例如,a=0.95;否则,如果t>a*min(x,y),则将属性Pi的更新时间间隔Ti设置为预设固定值。系数a用于过滤噪声。预设固定值可为用户自定义设置的值。
这样,通过步骤S300~S360,可对更新时间间隔进行动态更新,使得记录更加准确,进而能够确保统计结果尽可能地准确。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据处理系统,其特征在于,包括:数据库和处理器,所述数据库中存储有原始数据表、元数据表和目标值查询表,所述原始数据表用于存储多条记录,包括每条记录对应的对象的唯一标识OID、数据源唯一标识SID、上报时间、OID对应的n个与时间相关的属性P=(P1、P2、…、Pi、…、Pn),以及n个属性对应的n位异常标志,i的取值为1到n,异常标志的第i位为属性Pi的标识值;所述元数据表中存储有与所述原始数据表中的n个属性对应的更新时间间隔T=(T1、T2、…、Ti、…、Tn);
所述处理器与多个数据源通信连接,用于在接收到任一记录j时,执行计算机程序,以实现如下步骤:
S100,获取记录j对应的OIDj以及目标属性PM=(PM1,PM2、…、PMk、…、PMm),PM∈P,1≤k≤m≤n;
S110,利用获取的OIDj在所述原始数据表中进行检索,如果没有检索到对应的记录,执行S120;如果检索到对应的记录R=(R1、R2、…、RN),N≥1,执行S130;
S120,将记录j存储到所述原始数据表的对应位置处,并设置记录j的所有属性对应的异常标志的对应位的标识值为正常标识值;
S130,对于任一目标属性PMk,如果检索到的记录R中存在与目标属性PMk相同的属性并且该检索到的记录的上报时间和记录j的上报时间之间的间隔T0小于目标属性PMk对应的更新时间间隔T,则执行S140;
S140,将记录j存储到所述原始数据表的对应位置处,并设置记录j的目标属性PMk对应的异常标志的对应位的标识值为异常标识值;执行S150;
4.根据权利要求1所述的数据处理系统,其特征在于,所述处理器还用于实现如下步骤:
S200,从所述原始数据表中获取所有存在异常标识值的异常标志对应的记录;
S210,获取步骤S200中得到的记录对应的通信ID,并向获得的通信ID发送确认对应的记录是否为真实事件的询问信息;
S220,基于接收到的询问信息的响应信息,更新步骤S200中得到的记录。
5.根据权利要求4所述的数据处理系统,其特征在于,步骤S220进一步包括:
S222,如果接收到的响应信息指示对应的记录为真实事件,则将对应的异常标志设置为正常标识值,并将对应的SID修改为发送询问信息的移动终端对应的ID;
S224,如果接收到的响应信息指示对应的记录为非真实事件,则将对应的记录删除,同时将对应的目标值查询表中的信息删除。
6.根据权利要求1所述的数据处理系统,其特征在于,所述数据库中还存储有缓存表、可信时间序列和不可信时间序列,所述缓存表存储有对象的唯一标识OID、对象的唯一标识OID对应的上一条记录的SID的类型以及对应的上一条记录的上报时间;可信时间序列和不可信时间序列的初始化值为Null;
所述处理器还用于,遍历所述原始数据表,对于遍历的任何一条记录K,进行以下处理:
S300,如果记录K中的属性Pi为对应的预设属性Pi,执行S310;否则,设置i=i+1,并执行步骤S300,直到i=n,执行S310;i=1,2,…,n;
S310,获取记录K中的OID,SID类型和上报时间;
S320,如果记录K中的SID类型“与运算”缓存表中的OID对应的SID类型为1,则在不可信时间序列上添加时间段;
S330,如果记录K中的SID类型“与运算”缓存表中的OID对应的SID类型为0,则在不可信时间序列上添加时间段;
S340,形成可信时间序列U=(U1,U2,...,Uh,...,Ux),不可信时间序列V=(V1,V2,...,Vs,...,Vy),Uh为可信时间序列中的第h个时间段,h的取值为1到x;Vs为不可信时间序列中的第s个时间段,s的取值为1到y,x和y分别为可信时间序列和不可信时间序列的时间段的数量。
7.根据权利要求6所述的数据处理系统,其特征在于,U1≥U2≥......≥Ux;V1≥V2≥......≥Vy。
8.根据权利要求7所述的数据处理系统,其特征在于,还包括:
S350,如果Ux≥V1,则将属性Pi的更新时间间隔Ti设置为(Ux+V1)/2;否则,如果Ux<V1,则执行S360;
S360,获取t,使得Ux-t≥V1+t,如果t≤a*min(x,y),则将属性Pi的更新时间间隔Ti设置为(Ux-j+V1+j)/2,a为预设系数;否则,如果t>a*min(x,y),则将属性Pi的更新时间间隔Ti设置为预设固定值。
9.根据权利要求1所述的数据处理系统,其特征在于,每条记录的上报时间为该条记录被对应的数据源上传到处理器的时间,或者该条记录被对应的数据源获取的时间。
10.根据权利要求1所述的数据处理系统,其特征在于,所述异常标志由0和1bit组成,bit的位数为n。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042846.8A CN113742391B (zh) | 2021-09-07 | 2021-09-07 | 数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111042846.8A CN113742391B (zh) | 2021-09-07 | 2021-09-07 | 数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742391A CN113742391A (zh) | 2021-12-03 |
CN113742391B true CN113742391B (zh) | 2022-11-25 |
Family
ID=78736416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111042846.8A Active CN113742391B (zh) | 2021-09-07 | 2021-09-07 | 数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742391B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114154027A (zh) * | 2021-12-06 | 2022-03-08 | 深圳市大数据资源管理中心 | 非同源不一致数据处理方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2671298B2 (ja) * | 1986-12-26 | 1997-10-29 | 株式会社リコー | ファイル管理方法 |
CN100343846C (zh) * | 2003-09-28 | 2007-10-17 | 华为技术有限公司 | 一种数据间差异性的分析比较方法 |
US10192072B1 (en) * | 2016-09-21 | 2019-01-29 | Wells Fargo Bank, N.A. | Protecting sensitive data |
CN108280157B (zh) * | 2018-01-15 | 2020-10-09 | 国网信息通信产业集团有限公司 | 数据信息集成系统 |
CN108399459B (zh) * | 2018-01-19 | 2020-05-26 | 国网福建省电力有限公司 | 设备更新预报系统 |
-
2021
- 2021-09-07 CN CN202111042846.8A patent/CN113742391B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113742391A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11138546B2 (en) | Tracking objects using a trusted ledger | |
US8332366B2 (en) | System and method for automatic weight generation for probabilistic matching | |
Winkler | Record linkage software and methods for merging administrative lists | |
CN110113393B (zh) | 一种消息推送方法、装置、电子设备及介质 | |
CN104732154A (zh) | 将数据匿名化的方法和系统 | |
US20080243885A1 (en) | Method and System for Managing Entities | |
CN113742391B (zh) | 数据处理系统 | |
US10776345B2 (en) | Efficiently updating a secondary index associated with a log-structured merge-tree database | |
CN109918386B (zh) | 一种数据恢复方法和装置、计算机可读存储介质 | |
CN110197214A (zh) | 一种基于多字段相似度计算的患者身份匹配方法 | |
CN111984640A (zh) | 基于多元异构数据的画像构建方法 | |
KR101171551B1 (ko) | 이벤트 이력 기억 장치, 이벤트 이력 추적 장치, 이벤트 이력 기억 방법, 이벤트 이력 기억 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 데이터 구조를 기록한 컴퓨터 판독 가능한 기록 매체 | |
CN110727895B (zh) | 一种敏感词发送方法、装置、电子设备及存储介质 | |
Parisi et al. | On repairing and querying inconsistent probabilistic spatio-temporal databases | |
CN110163577B (zh) | 一种基于权限管理的表单动态管理方法及系统 | |
CN109408479B (zh) | 日志数据添加方法、系统、计算机设备和存储介质 | |
EP1591916A1 (en) | Method, computer program and device for deleting data sets contained in a table system | |
CN115168891A (zh) | 基于猫鼬优化的动态多维医疗隐私数据保护方法及系统 | |
CN108280157B (zh) | 数据信息集成系统 | |
US11405276B2 (en) | Device configuration management apparatus, system, and program | |
CN112541780A (zh) | 一种积分数据记录系统、记录方法、存储介质及终端 | |
CN111898961A (zh) | 一种适用于同类电力设备台账数据相同字段的查错方法 | |
CN112507968B (zh) | 基于特征关联的公文文本识别方法和装置 | |
CN110046167A (zh) | 数据更新方法和系统 | |
US20220335717A1 (en) | Information processing device and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |