CN111427875B - 一种数据质量检测的抽样方法、系统及存储介质 - Google Patents

一种数据质量检测的抽样方法、系统及存储介质 Download PDF

Info

Publication number
CN111427875B
CN111427875B CN202010197296.6A CN202010197296A CN111427875B CN 111427875 B CN111427875 B CN 111427875B CN 202010197296 A CN202010197296 A CN 202010197296A CN 111427875 B CN111427875 B CN 111427875B
Authority
CN
China
Prior art keywords
data
sampling
sample
capacity
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010197296.6A
Other languages
English (en)
Other versions
CN111427875A (zh
Inventor
赵淦森
赵淑娴
列海权
徐岗
纪求华
陈冰川
庄序填
蔡斯凯
林成创
邓水凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Sword Data Big Data Technology Co ltd
Original Assignee
Guangdong Sword Data Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Sword Data Big Data Technology Co ltd filed Critical Guangdong Sword Data Big Data Technology Co ltd
Priority to CN202010197296.6A priority Critical patent/CN111427875B/zh
Publication of CN111427875A publication Critical patent/CN111427875A/zh
Application granted granted Critical
Publication of CN111427875B publication Critical patent/CN111427875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据质量检测的抽样方法。该方法包括以下步骤:获取原始数据并生成资源数据集;获取抽样配置信息,根据所述抽样配置信息设置样本容量和循环次数上限;根据所述样本容量和循环次数上限从所述资源数据集中抽取数据;将抽取的数据汇总形成样本集;所述抽样配置信息包括抽样密度、样本容量最大值和时间范围。本技术方案在获取原始数据并集成资源数据集,再通过抽样密度、样本容量上限、时间范围等多种维度的配置信息确定样本容量和循环次数上限,通过灵活地调整配置信息满足随机或全采样不同密度的抽样需求,对应地完成抽样并得到样本集,降低了对计算资源的调度和占用,可广泛应用于数据处理领域。

Description

一种数据质量检测的抽样方法、系统及存储介质
技术领域
本发明涉及数据处理领域,尤其是一种数据质量检测的抽样方法、系统及存储介质。
背景技术
伴随着信息技术的飞速发展,无论是生活还是工作中,数据、信息均呈现爆炸性地增长,这也就导致了网络技术和数据处理等领域的蓬勃发展。具体到数据处理领域,各个行业都通过各种方式或渠道累积了海量数据,而这些数据中都潜藏着无限的商业价值等待被发掘。而数据抽样则是作为数据(预)处理中的关键一环,在收集数据过程中,在可支配资源有限的情况下,并不能一概而论地采取普查的方式获取总体中所有样本的数据信息,而需要以各类抽样方法抽取其中若干代表性样本来进行后续的分析操作。
但目前的现有技术更主要的还是从各自业务系统的各个数据仓库中通过遍历(普查)的方式采集数据,然后再对采集的数据进行全量的质量检测,在面对庞大的数据量时,不仅无法保证数据采集的效率,同时也需耗费较大的计算资源。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一,为此,本发明实施例的一个目的在于提供一种高效、灵活且占用计算资源较少的数据质量检测的抽样方法,以及可用于实施其方法的系统和存取该方法逻辑功能的存储介质。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
第一方面,本发明实施例提供了一种数据质量检测的抽样方法,包括以下步骤:
获取原始数据并生成资源数据集;
获取抽样配置信息,根据抽样配置信息设置样本容量和循环次数上限;
根据样本容量和循环次数上限从资源数据集中抽取数据;
将抽取的数据汇总形成样本集;
其中,抽样配置信息包括抽样密度、样本容量最大值和时间范围。
另外,根据本发明上述实施例的一种数据质量检测的抽样方法,还可以具有以下附加的技术特征:
进一步的,本发明实施例的方法中,获取原始数据并生成资源数据集这一步骤,其具体包括:汇总原始数据;根据时间范围从汇总后的原始数据中筛选得到资源数据集。
进一步的,本发明实施例的方法中,获取原始数据并生成资源数据集这一步骤,还包括:对原始数据进行去噪和差值填补;将完成去噪和差值填补的原始数据进行标准化。
进一步的,本发明实施例的方法中,根据样本容量和循环次数上限从资源数据集中抽取数据这一步骤,其具体包括:当样本集的长度不大于预设样本容量,继续从资源数据集中顺序读取数据生成样本集;当样本集的长度大于预设样本容量,从样本集中移除数据。
进一步的,本发明实施例的方法中,根据样本容量和循环次数上限从资源数据集中抽取数据这一步骤,还包括:当抽样的当前循环次数小于循环次数上限,继续从资源数据集中顺序读取数据生成样本集;当抽样的当前循环次数不小于循环次数上限,结束抽样。
进一步的,本发明实施例的方法中,根据抽样信息设置样本容量这一步骤,其具体包括:根据资源数据集的容量与抽样密度得到临时变量;当临时变量大于样本容量,保持原样本容量不变;当临时变量不大于样本容量,将临时变量设置为新的样本容量。
进一步的,本发明实施例的方法中,资源数据集的数目至少为1。
第二方面,本发明实施例提供了一种数据质量检测的抽样系统,可以对应实现上述实施例的方法,其包括:
数据获取单元,用于获取原始数据并生成资源数据集;
参数配置单元,用于获取抽样配置信息,根据抽样配置信息设置样本容量和循环次数上限;
循环抽样单元,用于根据样本容量和循环次数上限从资源数据集中抽取数据,并将抽取的数据汇总形成样本集。
第三方面,本发明实施例还提供了一种数据质量检测的抽样系统,包括至少一个处理器;至少一个存储器,用于存储至少一个程序;当至少一个程序被至少一个处理器执行时,使得至少一个处理器实现一种数据质量检测的抽样方法。
第四方面,本发明实施例提供了一种存储介质,其中存储有处理器可执行的指令,处理器可执行的指令在由处理器执行时用于实现一种数据质量检测的抽样方法。
本发明的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本发明的具体实施方式了解得到:
本发明实施例所提供的技术方案首先获取原始数据并集成资源数据集,再通过抽样密度、样本容量上限、时间范围等多种维度的配置信息确定样本容量和循环次数上限,通过灵活地调整配置信息满足随机或全采样不同密度的抽样需求,对应地完成抽样并得到样本集,降低了对计算资源的调度和占用,并且可以根据时间属性灵活对不同时期的数据进行抽样检测,效率也大有提升。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明实施例一种数据质量检测的抽样方法的步骤流程图;
图2为本发明实施例一种数据质量检测的抽样系统的单元模块框架图;
图3为本发明实施例一种数据质量检测的抽样系统的硬件装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
下面参照附图详细描述根据本发明实施例提出的一种数据质量检测的抽样方法、系统、装置及存储介质,首先将参照附图描述根据本发明实施例提出的一种数据质量检测的抽样方法。
参照图1,本实施例中的一种数据质量检测的抽样方法主要包括以下步骤:
S1、获取原始数据并生成资源数据集;具体的,在本实施例中,将从各种渠道或各种方式获取的业务数据(原始数据)进行汇聚,并进行去噪、差值填补等必要操作进行数据清洗,光滑噪声数据,删除离群点和异常数据,以及通过均值完成差值的填补;再通过标准化过程使原始数据进行格式以及属性上的统一,例如:通过min-max标准化将数值较大的数据属性内容标准化映射到区间[0,1]中。
完成对原始数据的预处理以及标准化之后,根据抽样配置信息中的时间范围和原始数据中的时间字段进行数据集成,对应得到多个资源数据集,并将每个数据集的数据总量计作Ki(i=1,2,3…n),在抽样的过程中则选取对应时间范围的资源数据集进行抽样;若抽样配置信息中未设置时间范围约束,则原始数据不按照时间字段属性的数据集成,直接将标准化后的原始数据汇聚成资源数据集,并将数据总量计作K。在本技术方案的其他可实施方式中,其时间属性可任意替换成其他原始数据中所具备的数据字段。
S2、获取抽样配置信息,根据抽样配置信息设置样本容量和循环次数上限;具体的,在本实施例中,抽样配置信息包括抽样密度、样本容量最大值和时间范围。在进行抽样前,配置抽样密度ρ、样本容量最大值Max、以及可选设置抽样数据的时间范围,即通过选择时间字段及时间区间指定抽样数据集的范围,即在S1步骤对应条件生成的资源数据集。
S3、根据样本容量和循环次数上限从资源数据集中抽取数据;具体的,首先,在实施例中,根据抽样配置信息中的抽样密度ρ,以及在S1步骤中的资源数据总量K或Ki,通过:
temp=K×ρ(1)
计算得到临时变量temp,根据最终目标样本库中的容量最大值MAX,判断temp是否大于最大值MAX,若是,则样本容量L为MAX,否则,则样本容量L为临时变量temp。
进一步,可确定抽样循环次数T,预设抽样的每次抽取数据数量为P,通过一个中间量m:
m=K%P(2)
当m>1,则抽样循环次数T=K/P+1,否则T=K/P。确定抽样循环次数T后,当前抽样次数t小于总次数T,循环从汇聚资源数据集中取出P个数据id放入样本集L1中,判断样本集L1的长度len是否大于或等于样本容量L,当长度len大于或等于样本容量L时,从样本集L1中随机移除len-L个数据id;继续循环从汇聚资源数据集中取出P个数据id放入样本集L1中,直至循环结束,即完成抽样,例如:假设存在一张用户信息表有1000万行数据,其中最近3个月更新的数据20万(update_date),已设置抽样密度ρ=0.6,样本库最大容量Max=15万;设置抽样字段及时间范围分别为:update_date、最近3个月;则可计算样本库容量L=200000×0.6=120000。
S4、将抽取的数据汇总形成样本集。
作为本实施例的另一种可选的实施方式,资源数据集的数目至少为1个;具体的,当有多表需要进行抽样,可对不同通的数据表进行密度的配置,即可修改每一个抽样表的抽样密度;例如从同一个部门的业务数据中分别按抽取密度为0.2、0.5和1进行样本抽取,样本库密度的修改不会改实施例的实现过程,只会影响样本库的抽取量。比如抽样密度为1时即全表抽取符合抽样字段时间范围的数据作为样本;当密度为0.5时,则抽取符合条件的总量的一半。
其次,参照附图描述根据本发明实施例提出的用于实现方法实施例的系统实施例。
参照图2,为本发明的另一个实施例:一种数据质量检测的抽样系统,包括:
数据获取单元,用于获取原始数据并生成资源数据集;
参数配置单元,用于获取抽样配置信息,根据抽样配置信息设置样本容量和循环次数上限;
循环抽样单元,用于根据样本容量和循环次数上限从资源数据集中抽取数据,并将抽取的数据汇总形成样本集。参照图3,本发明实施例提供了一种数据质量检测的抽样系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个程序被至少一个处理器执行时,使得至少一个处理器实现的一种数据质量检测的抽样方法。例如,假设存在一张用户信息表有1000万行数据,其中最近3个月更新的数据20万(update_date),已设置抽样密度ρ=0.6,样本库最大容量Max=15万;设置抽样字段及时间范围分别为:update_date、最近3个月;则可计算样本库容量L=200000×0.6=120000;
由此算法程序将会如下执行:
1)按照抽样字段(update_date)筛选最近三个月的数据,共20万行;
2)对20万进行分段处理,批次=200000/100,每次从中取100×0.6=60条数据放入list中;
3)将list的中数据打乱顺序,判断是否超出样本容量L,没有则重复步骤2);有则删掉list.length-L条数据,然后继续重复步骤2);直至20万中每一段都数据都进行抽样即可停止;
当样本密度修改为0.5时,样本容量L=200000×0.5=100000;其余步骤与步骤1)、2)和3)相同。
上述实施例的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务端,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
综上所述,本发明技术方案相较于现有技术,具有以下优点:
(1)简单:本实施例过程中仅需完成抽样密度、样本容量上限、抽样范围三个参数的设定,便可完成从庞大的数据中抽样得到目标样本集。
(2)易用:本实施例结合设计精巧的算法进行数据抽样,从而降低对服务器的内存需求,并且可以灵活对不同时期的数据进行抽样检测。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1.一种数据质量检测的抽样方法,其特征在于,包括以下步骤:
获取原始数据并生成资源数据集;
获取抽样配置信息,根据所述抽样配置信息设置样本容量和循环次数上限;
根据所述样本容量和循环次数上限从所述资源数据集中抽取数据;
将抽取的数据汇总形成样本集;
所述抽样配置信息包括抽样密度、样本容量最大值和时间范围;
所述根据所述抽样配置信息设置样本容量这一步骤,其具体包括:
根据所述资源数据集的容量与抽样密度得到临时变量;
当所述临时变量大于所述样本容量,保持原样本容量不变;
当所述临时变量不大于所述样本容量,将所述临时变量设置为新的样本容量;
所述根据所述资源数据集的容量与抽样密度得到临时变量,具体为:计算所述资源数据集的容量与抽样密度的乘积作为临时变量;
所述根据所述样本容量和循环次数上限从所述资源数据集中抽取数据,具体为当所述样本集的长度小于预设样本容量,继续从所述资源数据集中顺序读取数据生成样本集;当所述样本集的长度不小于预设样本容量,从所述样本集中随机移除所述样本集的长度与预设样本容量之差个数据。
2.根据权利要求1所述的一种数据质量检测的抽样方法,其特征在于,所述获取原始数据并生成资源数据集这一步骤,其具体包括:
汇总所述原始数据;
根据所述时间范围从汇总后的原始数据中筛选得到资源数据集。
3.根据权利要求2所述的一种数据质量检测的抽样方法,其特征在于,所述获取原始数据并生成资源数据集这一步骤,还包括:
对所述原始数据进行去噪和差值填补;
将完成去噪和差值填补的原始数据进行标准化。
4.根据权利要求1所述的一种数据质量检测的抽样方法,其特征在于,所述根据所述样本容量和循环次数上限从所述资源数据集中抽取数据这一步骤,还包括:
当抽样的当前循环次数小于所述循环次数上限,继续从所述资源数据集中顺序读取数据生成样本集;
当抽样的当前循环次数不小于所述循环次数上限,结束抽样。
5.根据权利要求1-4任一项所述一种数据质量检测的抽样方法,其特征在于,所述资源数据集的数目至少为1。
6.一种数据质量检测的抽样系统,其特征在于,包括:
数据获取单元,用于获取原始数据并生成资源数据集;
参数配置单元,用于获取抽样配置信息,根据所述抽样配置信息设置样本容量和循环次数上限;所述根据所述抽样配置信息设置样本容量这一步骤,其具体包括:
根据所述资源数据集的容量与抽样密度得到临时变量;
当所述临时变量大于所述样本容量,保持原样本容量不变;
当所述临时变量不大于所述样本容量,将所述临时变量设置为新的样本容量;
所述根据所述资源数据集的容量与抽样密度得到临时变量,具体为:计算所述资源数据集的容量与抽样密度的乘积作为临时变量;
循环抽样单元,用于根据所述样本容量和循环次数上限从所述资源数据集中抽取数据,并将抽取的数据汇总形成样本集;所述根据所述样本容量和循环次数上限从所述资源数据集中抽取数据,具体为当所述样本集的长度小于预设样本容量,继续从所述资源数据集中顺序读取数据生成样本集;当所述样本集的长度不小于预设样本容量,从所述样本集中随机移除所述样本集的长度与预设样本容量之差个数据。
7.一种数据质量检测的抽样系统,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5中任一项所述的一种数据质量检测的抽样方法。
8.一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-5中任一项所述的一种数据质量检测的抽样方法。
CN202010197296.6A 2020-03-19 2020-03-19 一种数据质量检测的抽样方法、系统及存储介质 Active CN111427875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010197296.6A CN111427875B (zh) 2020-03-19 2020-03-19 一种数据质量检测的抽样方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010197296.6A CN111427875B (zh) 2020-03-19 2020-03-19 一种数据质量检测的抽样方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111427875A CN111427875A (zh) 2020-07-17
CN111427875B true CN111427875B (zh) 2023-09-12

Family

ID=71553495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010197296.6A Active CN111427875B (zh) 2020-03-19 2020-03-19 一种数据质量检测的抽样方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111427875B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065031A (zh) * 2021-03-17 2021-07-02 上海数喆数据科技有限公司 一种用于社会调查的复杂抽样方法
CN116150175A (zh) * 2023-04-18 2023-05-23 云账户技术(天津)有限公司 一种面向异构数据源的数据一致性校验方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110618986A (zh) * 2019-09-04 2019-12-27 水晶球教育信息技术有限公司 一种大数据统计抽样方法、装置、服务器及存储介质
CN110807130A (zh) * 2019-10-16 2020-02-18 腾讯科技(深圳)有限公司 确定网络中群组的向量表示的方法、装置和计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11341111B2 (en) * 2016-10-26 2022-05-24 Denso Corporation Data processor and data processing method
EP3340107B9 (en) * 2016-12-23 2021-07-21 Cytognos, S.L. Method of digital information classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110618986A (zh) * 2019-09-04 2019-12-27 水晶球教育信息技术有限公司 一种大数据统计抽样方法、装置、服务器及存储介质
CN110807130A (zh) * 2019-10-16 2020-02-18 腾讯科技(深圳)有限公司 确定网络中群组的向量表示的方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
部分估计中用方差修正法确定的样本容量问题;袁菲;重庆工商大学学报(自然科学版)(第06期);第541-543页 *

Also Published As

Publication number Publication date
CN111427875A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
JP4885842B2 (ja) コンテンツ、特に2つのコンピュータファイルに共通する抽出部分の検索方法
CN110826648B (zh) 一种利用时序聚类算法实现故障检测的方法
CN105378714B (zh) 时间序列的快速分组
CN111427875B (zh) 一种数据质量检测的抽样方法、系统及存储介质
CN112383644B (zh) 一种启发式IPv6地址扫描目标生成方法及相关设备
CN113254255B (zh) 一种云平台日志的分析方法、系统、设备及介质
CN112001409A (zh) 一种基于K-means聚类算法的配电网线损异常诊断方法和系统
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN113391973B (zh) 一种物联网云容器日志收集方法及装置
CN111652661B (zh) 一种手机客户端用户流失预警处理方法
CN1783092A (zh) 数据分析装置和数据分析方法
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN114328981B (zh) 基于模式映射的知识图谱建立和数据获取方法、装置
CN114780485A (zh) 一种电子档案管理方法、系统、可读存储介质及设备
CN110569406B (zh) 可配置化的热点数据自动分析方法、装置、系统及介质
CN116561230B (zh) 一种基于云计算的分布式存储与检索系统
CN110781211B (zh) 一种数据的解析方法及装置
CN107430633A (zh) 与数据存储系统相关联的经相关优化的代表性内容
CN111368864A (zh) 识别方法、可用性评估方法及装置、电子设备、存储介质
CN114330720A (zh) 用于云计算的知识图谱构建方法、设备及存储介质
CN110019771B (zh) 文本处理的方法及装置
WO2020101478A1 (en) System and method for managing duplicate entities based on a relationship cardinality in production knowledge base repository
CN114338442B (zh) 一种基于特征数据和深度学习的网络流量识别方法及系统
CN115529475B (zh) 视频流量内容检测与风控的方法和系统
CN107092668B (zh) 一种数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant