CN111177146B - 数据分析的方法、装置及设备 - Google Patents

数据分析的方法、装置及设备 Download PDF

Info

Publication number
CN111177146B
CN111177146B CN201911093033.4A CN201911093033A CN111177146B CN 111177146 B CN111177146 B CN 111177146B CN 201911093033 A CN201911093033 A CN 201911093033A CN 111177146 B CN111177146 B CN 111177146B
Authority
CN
China
Prior art keywords
attribute
data
credibility
analyzed
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911093033.4A
Other languages
English (en)
Other versions
CN111177146A (zh
Inventor
司徒健聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911093033.4A priority Critical patent/CN111177146B/zh
Publication of CN111177146A publication Critical patent/CN111177146A/zh
Application granted granted Critical
Publication of CN111177146B publication Critical patent/CN111177146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据分析方法、装置及设备,该数据分析方法通过获取待分析数据,该待分析数据包括N个对象和N个对象的所有属性,一个对象的一个属性包括至少一个属性值;确定出待分析数据中的每个对象的每个属性的所有属性值,根据属性对应的算法,计算出每个对象的每个属性的所有属性值中每个属性值的可信度;根据每个对象的每个属性的所有属性值中每个属性值的可信度输出待分析数据的分析结果。上述方法基于待分析数据中的大数据,自动评估各个属性值的可信度,从而提高评估数据的可信度的效率以及分析结果的可靠性。

Description

数据分析的方法、装置及设备
技术领域
本申请实施例涉及互联网技术领域,特别涉及一种数据分析的方法、装置及设备。
背景技术
随着互联网技术的不断发展,涌入互联网的行业不断增多,存在于互联网上的数据信息也不断壮大。数据信息的来源有可能是原始采集得到的,也有可能是经过复制、转换或传播而来,这些四面八方的数据信息往往使人们难以评判其可信度。
目前,对数据的可信度的评估方法主要依赖数据处理人员来进行判别。由于不同人进行主观判断时依赖的准则往往有偏差,所以经常导致数据可信度的判断结果仍然难以可信;其次,在进行大量数据可信度评估的时候,依赖数据处理人员进行人工评估数据信息的可信度的效率低下。因此,如何提高判读数据可信度的结果的可靠性以及如何提高评估数据可信度的效率成为我们目前亟待解决的问题。
发明内容
本发明实施例公开了一种数据分析的方法、装置及设备,解决现有技术在对数据的可信度评估时主要依赖人工判别所导致的评估结果可靠性低以及评估效率低的问题。
第一方面,本申请实施例提供了一种数据分析的方法,包括:
获取待分析数据,所述待分析数据包括N个对象和所述N个对象中每一个对象的至少一个属性,一个对象的一个属性包括至少一个属性值;
根据所述待分析数据中第一对象的第一属性包括的M个属性值,确定所述M个属性值中每一个属性值的可信度,所述第一对象为所述N个对象中一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述待分析数据包括的所有属性值中每一个属性值的可信度,输出所述待分析数据的分析结果。
作为一种可能的实施方式,所述根据所述待分析数据中第一对象的第一属性包括的M个属性值,确定所述M个属性值中每一个属性值的可信度,包括:
根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度。
作为一种可能的实施方式,若所述第一属性对应的算法为权威法,所述根据属性和算法的对应关系,通过第一属性对应的算法确定M个属性值中每一个属性值的可信度,包括:
从所述M个属性值中确定所述第一对象的所述第一属性的权威属性值,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中每一个属性值的一个属性;
根据所述M个属性值分别与所述权威属性值的相似度确定所述M个属性值中每一个属性值的可信度。
作为一种可能的实施方式,若所述第一属性对应的算法为时效法,所述根据属性和算法的对应关系,通过第一属性对应的算法确定M个属性值的中每一个属性值可信度,包括:
获取所述M个属性值中每一个属性值对应的时间信息,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性,所述第一对象的所述第一属性包括的第一属性值对应的第一时间信息用于指示所述第一属性值的生成时间;
根据所述M个属性值中每一个属性值对应的时间信息确定所述M个属性值中每一个属性值的可信度,其中,与距离当前时间越近的时间信息对应的属性值的可信度越高。
作为一种可能的实施方式,若所述第一属性对应的算法为投票法,所述根据属性和算法的对应关系,通过第一属性对应的算法确定M个属性值中每一个属性值的可信度,包括:
统计所述M个属性值中每一个属性值的出现次数,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值中每一个属性值的出现次数确定所述M个属性值中每一个属性值的可信度,其中,出现次数越多的属性值对应的属性值的可信度越高。
作为一种可能的实施方式,所述分析结果,包括:
所述第一对象的所述第一属性的所有属性值中可信度最高的属性值;或,
按照可信度高低排列的所述第一对象的所述第一属性的所有属性值。
作为一种可能的实施方式,所述待分析数据来源于至少一个数据表,所述根据所述待分析数据包括的所有属性值中每一个属性值的可信度,输出所述待分析数据的分析结果之前,所述方法还包括:
根据所述待分析数据包括的所有属性值中每一个属性值的可信度判断所述待分析数据包括的所有属性值中每一个属性值是否正确;
统计第一数据表中属性值的正确率,所述第一数据表为所述至少一个数据表中的一个数据表;
所述分析结果包括:所述第一数据表中属性值的正确率。
第二方面,本申请实施例提供了一种数据分析的装置,该数据分析的装置包括:
获取单元,用于获取待分析数据,所述待分析数据包括N个对象和所述N个对象中每一个对象的至少一个属性,一个对象的一个属性包括至少一个属性值;
确定单元,用于根据所述待分析数据中第一对象的第一属性包括的M个属性值,确定所述M个属性值中每一个属性值的可信度,所述第一对象为所述N个对象中一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
输出单元,用于根据所述待分析数据包括的所有属性值中每一个属性值的可信度,输出所述待分析数据的分析结果。
作为一种可能的实施方式,所述确定单元具体用于:
根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度。
作为一种可能的实施方式,若所述第一属性对应的算法为权威法,所述确定单元具体用于:
从所述M个属性值中确定所述第一对象的所述第一属性的权威属性值,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值分别与所述权威属性值的相似度确定所述M个属性值中每一个属性值的可信度。
作为一种可能的实施方式,若所述第一属性对应的算法为时效法,所述确定单元具体用于:
获取所述M个属性值中每一个属性值对应的时间信息,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性,所述第一对象的所述第一属性包括的第一属性值对应的第一时间信息用于指示所述第一属性值的生成时间;
根据所述M个属性值中每一个属性值对应的时间信息确定所述M个属性值中每一个属性值的可信度,其中,与距离当前时间越近的时间信息对应的属性值的可信度越高。
作为一种可能的实施方式,若所述第一属性对应的算法为投票法,所述确定单元具体用于:
统计所述M个属性值中每一个属性值的出现次数,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值中每一个属性值的出现次数确定所述M个属性值中每一个属性值的可信度,其中,出现次数越多的属性值对应的属性值的可信度越高。
作为一种可能的实施方式,所述分析结果包括:
所述第一对象的所述第一属性的所有属性值中可信度最高的属性值;或,
按照可信度高低排列的所述第一对象的所述第一属性的所有属性值。
作为一种可能的实施方式,所述待分析数据来源于至少一个数据表,所述输出单元在输出所述待分析数据的分析结果之前,所述装置还包括:
判断单元,用于根据所述待分析数据包括的所有属性值中每一个属性值的可信度判断所述待分析数据包括的所有属性值中每一个属性值是否正确;
统计单元,用于统计第一数据表中属性值的正确率,所述第一数据表为所述至少一个数据表中的一个数据表;
所述输出单元输出的分析结果还包括:所述第一数据表中属性值的正确率。
第三方面,本申请实施例提供了一种数据分析装置,该数据分析装置包括处理器和存储器,所述处理器和存储器耦合,其中,所述存储器用于存储计算机指令,所述处理器用于执行所述计算机指令,调用所述程序代码,以实现如第一方面的实施例所公开的数据分析方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,当所述计算机程序被计算机设备运行时,实现如第一方面的实施例所公开的数据分析方法。
本发明实施例中,获取待分析数据,待分析数据包括N个对象和N个对象的所有属性,一个对象的一个属性包括至少一个属性值;根据待分析数据中第一对象的第一属性包括的M个属性值,确定该M个属性值中每一个属性值的可信度,第一对象为所述N个对象中任意一个对象,第一属性为第一对象的所有属性中的任意一个属性;根据待分析数据包括的所有属性值中每一个属性值的可信度,输出待分析数据的分析结果。本发明实施例基于待分析数据中的大数据,自动评估各个属性值的可信度,从而提高评估数据的可信度的效率以及分析结果的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种数据分析的系统架构示例图;
图2为本发明实施例公开的一种数据分析的方法的流程示意图;
图3示例性的给出了一种用于实现用户输入方案基础信息的用户界面;
图4为本发明实施例公开的一种根据权威法确定第一对象的第一属性的所有属性值的可信度的方法的流程图;
图5示例性的给出了一种通过权威法确定权威属性值的用户界面的示例图;
图6示例性的给出了一种通过权威法确定进行可信度评估的属性(参评字段)的用户界面示意;
图7示例性给出了根据身份证字段统计权威字段和参评字段的部分统计结果;
图8为本发明实施例公开的一种根据时效法确定第一对象的第一属性的所有属性值的可信度的方法的流程图;
图9示例性的给出了一种通过时效法确定进行可信度评估的属性(参评字段)的用户界面示意;
图10a示例性给出了根据身份证字段统计第一属性的部分统计结果;
图10b示例性给出了以时间信息的先后顺序排序的各个数据表中第一对象的电话;
图11是本发明实施例公开的一种根据投票法确定第一对象的第一属性的所有属性值的可信度的方法的流程图;
图12示例性的给出了一种通过投票法确定进行可信度评估的属性(参评字段)的用户界面示意;
图13a示例性给出了根据身份证字段统计第一属性的部分统计结果;
图13b示例性给出了以地址出现的次数排序的各个数据表中第一对象的地址;
图14示例性的给出了部分待分析数据的可信度的部分分析结果;
图15示例性的给出了一种用于实现已创建任务查询的用户界面;
图16是本发明实施例提供的一种数据分析装置的结构示意图;
图17是本发明实施例提供的又一种数据分析装置1700的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中使用的术语是仅仅处于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
首先对本申请实施例中涉及的概念、术语进行简单介绍。
(1)结构化数据
结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体(本申请实施例中也称为一个对象)的信息,每一行数据包括至少一个字段(也称为对象的一个属性),每一行数据中的各个字段用于描述一个对象的各个属性。
结构化数据的表现形式可以是数据表,该数据表中每一行数据包括至少一个字段,描述一个对象的各个属性,该数据表中,每一列数据同属于同一字段(或属性)。
(2)对象
本申请实施例中,对象可以是具体的人、事、物体等实体。例如,一个人可以作为一个对象,该人具有的特性可以作为该对象的属性从而将该对象映射到计算机的数据表中。本申请实施例中,通过结构化数据中的特定字段(本申请中称为核心字段)来描述对象的标识,对象的标识用于唯一确定对象,例如,人的核心字段可以是身份证号码、车的核心字段可以是车牌号等。
(3)权威法
在通过权威法来识别一个信息的可信度时,首先,确定该被识别的信息的权威信息;进而,根据被识别的信息与所述权威信息的相似度确定该被识别的信息的可信度。例如,若需要识别一个数据表中某个人的姓名的可信度,可以将该人的户口簿中的姓名作为权威信息,若数据表中该人的姓名与该人的户口簿中的姓名一致,则认为数据表中该人的姓名的可信度高,反之,则认为该数据表中该人的姓名的可信度低。
(4)时效法
在通过时效法来识别一个信息的可信度时,首先,确定该被识别的信息的时间信息,该时间信息可以是被识别的信息的填表时间、生效时间等;进而,根据被识别的信息对应的时间信息确定该被识别的信息的可信度,被识别信息对应的时间信息与当前时间越近则该被识别信息的可信度越高。例如,某个人的电话号码1对应的时间信息为:2016/02/03,电话号码2对应的时间信息为:2019/05/05,则,电话号码2的可信度比电话号码1的可信度高。
(5)投票法
在通过投票法来识别一个信息(例如,对象A的属性b)的可信度时,首先,统计被识别的信息出现的次数,该被统计的信息出现的次数是指针对对象A的同一属性b的所有属性值中该被识别的信息出现的次数;进而,根据被识别的信息出现的次数确定该被识别的信息的可信度,被识别的信息出现的次数越高则该被识别的信息的可信度越高。例如,经过统计得到来自至少一个数据表的某个人的地址信息中,地址“广东省深圳市南山区”出现3次,地址“重庆市南岸区”出现2次,那么就该人而言,地址“广东省深圳市南山区”的可信度更高,更可能是该人的常住地址。
请参阅图1,图1是本发明实施例公开的一种数据分析的系统架构示例图。如图1所示,该系统架构图可以包括至少一个终端101、至少一个数据库102和至少一个服务器103。
数据库102中的数据为结构化数据。数据库102中包括至少一个数据表,至少一个数据表可以分别来源于不同的数据系统,每个数据表包括至少一个对象,每个对象包括至少一个属性。
在一种场景中,至少一个数据表可以分别来源于不同的数据系统,例如,在对司机信息的真实性进行核查的时候,可以调用来自户政部门的数据系统提供的户政信息表,还可以调用来自车辆管理所的数据系统提供的司机基础信息表和车辆信息表。户政信息表可以是描述户政基础信息,例如,姓名、身份证号码、地址信息等;司机基础信息表可以是描述司机的基本信息,例如,姓名,身份证号码,获取驾照的时间等;车辆基础信息表可以是描述车辆的基本信息,例如,车牌号码,开始使用时间等。
在第一种系统架构中,系统可以包括终端101和数据库102。终端101可以安装单机程序,通过运行单机程序来实现本申请中的各个功能,以对待分析数据的可信度进行分析,此时,待分析数据、分析结果等可以保存在终端101中,数据库102也可以是终端101存储的数据。在一种实现中,待分析数据可以是用户输入的数据,此时,终端101也可以获取用户输入或者接收其他设备发送的待分析数据。该待分析数据可以包括N个对象和N个对象中每一个对象的至少一个属性,其中,一个对象的一个属性包括至少一个属性值,N为正整数。终端101可以为电脑、手机、平板,也可以为其他能够获取该待分析数据的智能设备,此处不做限定。
例如,终端101接收用户输入的核心字段,根据该核心字段从数据库102中筛选出包含核心字段的所有数据表,每一个数据表可以包括多个用于描述对象的字段(或属性),该筛选出来的所有数据表可以为待分析数据,其中,该核心字段是指能够唯一标识数据表中的对象的字段,例如,对象“人”的身份证号码;再例如,对象“车辆”的车牌号码。
终端101获取到待分析数据之后,可以根据属性与算法的对应关系,对获取到的待分析数据中每个对象的每个属性运用相应的算法,从而根据每个对象的每个属性对应的算法确定出每个对象的每个属性的所有属性值的可信度。其中,终端可以存储属性与算法的对应关系,例如,属性“电话号码”与时效法相对应,在评估一个人的电话号码的可信度时,其属性“电话号码”的可信度可以通过时效法来确定。在另一种实现方式中,终端也可以接收用户针对属性a输入的算法的标识,进而,在评估一个对象的属性a的可信度时,可以采用该输入的算法来确定。
终端101还可以根据每个对象的每个属性的所有属性值的可信度得到该待分析数据的分析结果。该分析结果可以包括每一个对象的每一个属性的所有属性值的可信度排序,也可以包括每一个对象的每一个属性的所有属性值中可信度最高的属性值。终端101还可以输出该待分析数据的分析结果,例如,通过终端101的显示屏向用户显示该待分析数据的分析结果。
在第二种系统架构中,系统可以包括终端101、服务器103和数据库102。此时,终端101可以安装并运行客户端的应用程序与服务器103进行数据交互来实现本申请中的各个功能;或者,终端101通过其浏览器访问服务器103,来使用本申请中的各个功能,以对待分析数据的可信度进行分析。服务器103可以是云服务器,此时,待分析数据、分析结果等可以保存在云服务器中,数据库102也可以是云服务器中用于存储数据的数据存储中心。该客户端可以是移动终端上的应用程序(APP)或其他可实现与服务器103交互的程序,此处不做限定。在一些应用场景中,终端101可以基于客户端接收输入的待分析数据,将该待分析数据发送至服务器103。在另一些应用场景中,待分析数据可以存储于服务器103中。在又一些应用场景中,待分析数据包括由终端101发送的待分析数据表和服务器103存储的数据表,例如,用户通过终端101提交给服务器103待分析数据表,以使服务器103对该待分析数据表的可信度进行评估,服务器102在接收到待分析数据表后,可以基于存储的数据表和待分析数据表来评估该待分析数据表中各个对象的属性的可信度。
终端101可以接收用户输入的核心字段,将该核心字段发送至服务器103,服务器103根据该核心字段从数据库102中筛选出包含核心字段的所有数据表,每一个数据表可以包括多个用于描述对象的字段(或属性),该筛选出来的所有数据表可以为待分析数据。
服务器103可以存储属性与算法的对应关系,例如属性a与算法a相对应,针对待分析数据中属性a可以应用算法a,确定出每个对象的属性a的所有属性值中每一个属性值的可信度。在另一种实现中,服务器103可以接收终端101针对属性a发送的算法a,进而,可以应用算法a来评估待分析数据中属性a的每一个属性的可信度。
可选地,服务器103还可以根据每个对象的每个属性的所有属性值的可信度得到该待分析数据的分析结果,该分析结果可以是每一个对象的每一个属性的所有属性值的可信度排序,也可以是每一个对象的每一个属性的所有属性值中可信度最高的属性值。然后,服务器103将该待分析数据的分析结果发送至终端101,以使终端101向用户输出该待分析数据的分析结果。
可选的,数据库102可以位于终端101中,也可以位于服务器103中,也可以单独存在。
不限于图1所示的数据分析系统架构图,本申请实施例提供的数据分析系统还可以包括其他设备,此处不作限定。
请参阅图2,图2是本发明实施例公开的一种数据的分析方法的流程示意图。如图2所示,该数据的分析方法可以由上述图1所示的数据分析系统来实现,也可以由终端101或服务器103单独来实现,本申请实施例以图1所示的系统为例来说明,该数据的分析方法的实现可以包括但不限于如下步骤。
S102、服务器获取待分析数据,该待分析数据包括N个对象和N个对象中每一个对象的至少一个属性,一个对象的一个属性包括至少一个属性值。
服务器获取待分析数据可以是:终端可以基于客户端接收输入的待分析数据,将该待分析数据发送至服务器。终端可以接收用户输入的核心字段,将该核心字段发送至服务器,服务器根据该核心字段从数据库中筛选出包含核心字段的所有数据表,每一个数据表可以包括多个用于描述对象的字段(或属性),该筛选出来的所有数据表可以为待分析数据。在一种具体实现场景中,服务器获取待分析数据可以包括是:
请参阅图3,图3示例性的给出了一种用于实现用户输入方案基础信息的用户界面。如图3所示,该用户界面图包括方案名称输入区域301,核心字段选择区域302,评分方法选择区域303,执行频率选择区域304,执行时间输入区域305,执行服务器选择区域306,方案描述区域307,数据库选择区域308,保存控件309和下一步控件310等。其中,方案名称输入区域301用于实现用户输入该任务的名称,例如,该任务可以是评估属性a的属性值的可信度,又例如,任务为评估各个司机的各个属性值的可信度;核心字段选择区域302用于实现用户选择核心字段,例如,核心字段为“身份证号码”;评分方法选择区域303用于执行该任务所使用的算法,该算法可以是默认算法,可以是用户输入的算法;执行频率选择区域304用于选择执行该任务的频率,可以以小时为单位,或者以天为单位,或者其他根据需求设定的频率形式;执行时间输入区域305用于设定执行该任务的时间,例如,如图3所示,开始执行该任务的时间为15:36;执行服务器选择区域306用于选择执行该任务的服务器,例如,可选的服务器可以包括本地服务器、其他地方的服务器或云服务器等,此处不做限定。方案描述区域307用于描述该任务的功能;数据库选择区域308用于选择数据库,以从被选择的数据库中获取待分析数据,例如,任务为评估各个司机的各个属性值的可信度,此时,可以选择数据库中的户政信息、车辆管理所的车辆信息和车主信息、网约车平台(如应用程序“滴滴出行”的服务器)中的车主信息等;保存控件309用于在终端检测到针对该保存控件309的用户操作后,保存本页面输入的信息并向服务器发送指令,该指令可以包括上述针对各个区域或控件输入的信息,以使服务器根据核心字段从被选择的数据库中筛选出包含该核心字段的所有数据表;下一页控件310用于在终端检测到针对该下一页控件310的用户操作后,并向服务器发送指令,以使服务器根据核心字段从被选择的数据库中筛选出包含该核心字段的所有数据表,并跳转到下一个用户界面。其中,包含该核心字段的所有数据表即为待分析数据。具体实现中,服务器根据评分方法选择区域303中选定的不同算法跳转到不同用户界面,如下述图5、图9或图12所示的用户界面。
可选的,不限于图3所示的用户界面,其中,执行频率选择区域304,执行时间输入区域305,执行服务器选择区域306和方案描述区域307也可以是不必须的,用户界面还可以包括更少或更多的控件。
S104、根据待分析数据中第一对象的第一属性包括的M个属性值,确定该第一对象的该第一属性包括的所有属性值中每一个属性值的可信度,该第一对象为N个对象中任意一个对象,该第一属性为该第一对象的所有属性中的任意一个属性。
其中,上述M个属性值可以是待分析数据中第一对象的第一属性包括的所有属性值,也可以是待分析数据中第一对象的第一属性包括的所有属性值中的部分属性值,对此不作限定。确定可信度的方法可以是权威法、时效法或投票法等中的至少一种。
在本申请实施例的一种实现中,服务器可以通过不同的算法来评估不同对象的不同的属性包括的属性值的可信度。也就是说,服务器确定第一对象的第一属性包括的M个属性值中每一个属性值的可信度的方法可以是:服务器可以首先确定第一属性对应的算法,例如,第一属性对应的算法可以是属性与算法的对应关系中第一属性对应的算法,或者是由终端在上述图3所示的用户界面中输入的算法;进而,根据第一属性对应的算法来计算第一对象的第一属性的所有属性值中每一个属性值的可信度。
其中,根据属性与算法的对应关系,通过第一属性对应的算法确定第一对象的第一属性包括的M个属性值中每一个属性值的可信度可以包括如下三种实现方式。
需要说明的是,在实现方式(一)、实现方式(二)和实现方式(三)中,第一属性对应的字段在每个数据表中的字段名称可以不相同。例如,若第一属性为姓名,在数据表中的字段名称可以为姓名、名字、称号等;核心字段在每个数据表中的字段名称可以不相同,例如,核心字段为身份证号码,在数据表中的名称可以为ID、身份证号、身份证。可以通过计算第一属性对应的字段与数据表中每个字段的相似度从而确定出与第一属性相似的字段;可以通过核心字段与数据表中每个字段的相似度从而确定出核心字段。
实现方式(一):
若第一属性对应的算法为权威法,可以通过权威法来确定各个对象的第一属性包括的属性值的可信度。如图4所示,图4是根据权威法确定第一对象的第一属性的所有属性值的可信度的方法的流程图。该方法可以包括如下步骤。
S402、从第一对象的第一属性包括的M个属性值中确定该第一对象的该第一属性的权威属性值,第一对象为N个对象中的一个对象,第一属性为第一对象的所有属性中的一个属性。
在一种实现中,服务器可以从筛选出来的包含核心字段的所有数据表中筛选出第一对象的第一属性的所有属性值。服务器可以从筛选出来的包含核心字段的所有数据表中确定出包含第一属性的一个数据表作为权威表,从权威表中确定第一对象的第一属性对应的属性值作为第一对象的第一属性的权威属性值。
S404、根据第一对象的第一属性包括的M个属性值分别与权威属性值的相似度确定该M个属性值中每一个属性值的可信度。
在S404的一种实现中,服务器可以通过余弦相似度来计算第一对象的第一属性的所有属性值中每一个属性值分别与权威属性值的相似度,也可以通过其他用于计算相似度的算法来计算第一对象的第一属性的所有属性值中每一个属性值分别与权威属性值的相似度,此处不做限定。进而,服务器可以根据计算得到的第一对象的第一属性的所有属性值中每一个属性值分别与权威属性值的相似度确定该属性值的可信度。相似度越高的属性值其可信度越高,相似度越低的属性值其可信度越低。
在一些实施例中,服务器可以通过与终端的交互来确定权威属性值,请参阅图5,图5示例性的给出了一种通过权威法确定权威属性值的用户界面的示例图。该用户界面可以是上述图3所示的用户界面的下一个用户界面。如图5所示,该用户界面包括第一容器501,第二容器502,上一步控件503,保存控件504,下一步控件505等。其中,该第一容器501用于显示数据表列表,该数据表列表可以是服务器根据核心字段从被选择的数据库中筛选出包含该核心字段的所有数据表。如图5所示,第一容器501可以显示各个数据表的属性,例如表英文名,表中文名和对数据表的文字介绍。第一容器501还可以包括第一输入控件5011、第一查询控件5012和第一重置控件5013等,终端接收针对第一输入控件5011输入的关键字,在终端检测到针对第一查询控件5012输入的用户操作后,终端可以向服务器发送针对第一输入控件5011输入的关键字的搜索请求,以使服务器在数据表列表中搜索包括输入的关键字的数据表,终端可以在第一容器501中显示搜索得到的数据表。终端在检测到针对第一重置控件5013输入的用户操作后,可以删除第一输入控件5011中输入的关键字。用户可以选择数据表列表中的一个数据表作为权威表,进而,终端在第二容器502显示字段列表,该字段列表包括权威表中字段的属性,如各个字段的字段英文名,字段中文名,字段类型和字段长度。用户可以选中字段列表中的一个字段,进而将该权威表中选中的字段对应的属性的所有属性值作为权威属性值。为快速找到用户需要的字段,第二容器502还可以包括第二输入控件5021、第二查询控件5022和第二重置控件5023等。终端接收针对第二输入控件5021输入的关键字,在终端检测到针对第二查询控件5022输入的用户操作后,终端可以向服务器发送针对第二输入控件5021输入的关键字的搜索请求,以使服务器在字段列表中搜索包括输入关键字的字段,终端可以在第二容器502中显示搜索得到的字段和该字段的属性。终端在检测到针对第二重置控件5023输入的用户操作后,可以删除第二输入控件5021中输入的关键字。上一步控件503用于返回到上一用户界面,例如,图3所示的用户界面;保存控件504用于保存本页面中显示的数据表列表和确定的权威表并返回到上一用户界面,如图3所示的用户界面;下一步控件505用于保存本页面中数据表列表和确定的权威表,以使终端或服务器根据权威表中的权威属性值确定第一对象的第一属性的所有属性值中每一个属性值的可信度。如图5所示,例如,第一属性为“姓名”时,可以将数据列表中户政信息表作为权威表,户政信息表中的姓名字段对应的属性值即为权威属性值。
在一些实施例中,第一属性可以是待分析数据中任意一个属性,也可以是待分析数据中被用户选中的属性,请参阅图6所示的用户界面示例图,通过该用户界面可以选择对象的哪些属性(即数据表中的那些字段)的属性值需要进行可信度的评估。本申请实施例中,需要进行可信度的评估的属性也称为参评字段。
请参阅图6,图6示例性的给出了一种通过权威法确定进行可信度评估的属性(参评字段)的用户界面示意。该用户界面可以是上述图5所示的用户界面的下一个用户界面。如图6所示,该用户界面包括第一容器601,第二容器602,第三容器603,上一步控件604和保存控件605。其中,该第一容器601与是上述图5中第一容器501相似,第一容器601包括第一输入控件6011、第一查询控件6012和第一重置控件6013等;第二容器602与上述图5中第二容器502相似,第二容器602包括第二输入控件6021、第二查询控件6022和第二重置控件6023等,此处之外,第二容器602还包括操作区域6024。操作区域6024用于实现参评字段的设定;添加区域6025包括参评字段的输入控件和添加控件,在检测到针对操作区域的“作为参评字段”的用户操作时,终端将该“作为参评字段”对应的字段和该字段所在的数据表形成一条记录添加至第三容器603中;第三容器603用于保存操作区域6024添加的记录,该记录的格式为“表中文名-字段中文名-身份证字段中文名”,该记录用于服务器根据该记录查找该记录对应的数据表和数据表中对应的字段。上一步控件604用于返回到上一用户界面,例如,如图5所示的用户界面;保存控件605用于保存本页面中第三容器603中已添加的记录并返回到上一用户界面,如图5所示的用户界面。例如,选中第一容器601中的“司机基础信息表”,第二容器602显示该“司机基础信息表”的各个字段,在操作区域6024的操作中,若第一属性为“姓名”,则在“司机基础信息表”中选择与“姓名”相似的字段,例如,“司机基础信息表”中与“姓名”相似的字段为“名字”,则在“名字”对应的操作区域6024中执行操作“作为参评字段”,则记录名为“司机基础信息表-名字”添加至第三容器603中。通过上述方式可以添加第一容器601显示的数据表列表中与第一属性“姓名”相似的字段以及该字段所在数据表的相关记录至第三容器603中。在执行保存控件605之后,服务器根据第三容器603中保存的所有记录中的每一条记录查找到对应的数据表中第一属性(此处为姓名)对应的属性值,根据核心字段(此处为身份证号码)统计不同数据表中不同核心字段对应的对象的第一属性的所有属性值。请参阅图7,图7示例性给出了根据“身份证号码”统计“姓名”的部分统计结果。以身份证号码为“50023Z199X0327376Y”作为第一对象举例,可以得到第一对象的所有姓名:秦小莫、秦模、李莫、秦莫,从权威表的权威字段获取的权威属性值为“秦莫”。通过计算权威属性值“秦莫”分别与第一对象的第一属性“姓名”对应的所有属性值的相似度,可以根据相似度得到第一对象的第一属性的可信度由高到低分别为:秦莫、秦小莫、秦模、李莫。
实现方式(二):
若第一属性对应的算法为时效法,可以通过时效法来确定各个对象的第一属性包括的属性值的可信度。如图8所示,图8是根据时效法确定第一对象的第一属性的所有属性值的可信度的方法的流程图。该方法可以包括如下步骤。
S802、获取第一对象的第一属性包括的M个属性值中每一个属性值对应的时间信息,第一属性值是该M个属性值中任意一个属性值,第一属性值对应的第一时间信息用于指示第一属性值的生成时间、填表时间、登记时间等。
在一种实现中,服务器可以从待分析数据(例如,筛选出来的包含核心字段的所有数据表)中筛选出第一对象的第一属性的所有属性值以及该筛选出的属性值分别对应的时间信息。其中,第一属性的属性值对应的时间信息可以作为一个字段记录在上述筛选出的数据表中。S804、根据第一对象的第一属性包括的M个属性值中每一个属性值对应的时间信息确定该M个属性值中每一个属性值的可信度,其中,与距离当前时间越近的时间信息对应的属性值的可信度越高。
以时间信息的先后顺序对筛选出的属性值进行排序。距离当前时间越近的时间信息对应的属性值排名越靠前,反之,距离当前时间越远的时间信息对应的属性值排名越靠后。此时,排名越靠前的属性值的可信度越高,而,排名越靠后的属性值的可信度越低。
在一些实施例中,第一属性可以是待分析数据中任意一个属性,也可以是待分析数据中被用户选中的属性,请参阅图9所示的用户界面示例图,通过该用户界面可以选择对象的那些属性(即数据表中的那些字段)的属性值需要进行可信度的评估。
请参阅图9,图9示例性的给出了一种通过时效法确定进行可信度评估的属性(参评字段)的用户界面示意。该用户界面可以是上述图3所示的用户界面的下一个用户界面。如图9所示,该用户界面包括第一容器901,第二容器902,第三容器903,上一步控件904和保存控件905。其中,该第一容器901与是上述图5中第一容器501相似,第一容器901包括第一输入控件9011、第一查询控件9012和第一重置控件9013等;第二容器902与上述图5中第二容器502相似,第二容器902包括第二输入控件9021、第二查询控件9022和第二重置控件9023等,此处之外,第二容器902还包括操作区域9024和添加区域9025。操作区域9024用于选择数据表中的一个字段作为参评字段;添加区域9025包括参评字段区域、时间戳区域和添加控件;第三容器603用于保存添加区域9025添加的记录,该记录可以指示数据表中的字段。终端检测到针对操作区域9024输入的用户操作后,保存该操作对应的字段,并将该字段在添加区域9025中相应的字段对应的框中输出;添加区域9025中的添加控件检测到针对该添加控件的操作后,检测添加区域中参评字段与时间戳对应的值是否为空,当检测到参评字段与时间戳对应的值均不为空时,添加一条记录至第三容器903中,该条记录包含当前数据表的表名、添加区域中参评字段对应的值与时间戳对应的值,该记录的格式为“表中文名-字段中文名-时间戳中文名”。上一步控件904用于返回到上一用户界面,例如,如图3所示的用户界面;保存控件905用于保存本页面中第三容器903中已添加的记录并返回到上一用户界面,如图9所示的用户界面。例如,选中第一容器901中的“司机基础信息表”,第二容器902显示该“司机基础信息表”的各个字段,在操作区域9024的操作中,若第一属性为“电话”,则在“司机基础信息表”中选择与“电话”相似的字段,例如,“司机基础信息表”中与“电话”相似的字段为“电话号码”,则在“电话号码”对应的操作区域9024中执行操作“作为参评字段”,则在添加区域9025的参评字段对应的框中显示“DHHM-电话号码”;另外,若“司机基础信息表”中时间信息对应的字段为“入库时间”,则在“入库时间”对应的操作区域9024中执行操作“作为时间戳”,则在添加区域9025的时间戳对应的框中显示“RKSJ-入库时间”。然后,执行添加区域9025中的添加操作,将记录名为“司机基础信息表-电话号码-入库时间”添加至第三容器903中。通过上述方式可以添加第一容器901显示的数据表列表中与第一属性“电话”相似的字段、该字段对应的时间信息以及该字段所在数据表的相关记录至第三容器1203中。在执行保存控件905之后,服务器根据第三容器903中保存的所有记录中的每一条记录,查找到对应的数据表中第一属性(此处为电话)对应的属性值,根据核心字段(此处为身份证号码)统计不同数据表中不同核心字段对应的对象的第一属性的所有属性值。请参阅图10a,图10a示例性给出了根据身份证号码统计电话的部分统计结果。以身份证号码为“50023Z199X0327376Y”作为第一对象举例,可以得到第一对象的所有电话和各个电话分别对应的时间信息。通过电话对应的时间信息对第一对象的电话进行排序,其中,电话对应的时间信息与当前时间越近,该电话的排名越靠前,即可信度越高;反之,电话对应的时间信息与当前时间越远,该电话的排名越靠后,即可信度越低。请参阅图10b,如图10b示例性给出了以电话对应的时间信息的先后顺序排序的各个数据表中第一对象的电话。
实现方式(三):
若第一属性对应的算法为投票法,可以通过投票法来确定各个对象的第一属性包括的属性值的可信度。如图11所示,图11是根据投票法确定第一对象的第一属性的所有属性值的可信度的方法的流程图。该方法可以包括如下步骤。
S1102、统计第一对象的第一属性包括的M个属性值中每一个属性值的出现次数,第一对象为N个对象中的一个对象,第一属性为第一对象的所有属性中的一个属性。
在一种实现中,服务器可以从待分析数据(例如,筛选出来的包含核心字段的所有数据表)中筛选出第一对象的第一属性的所有属性值;进而,统计各个属性值在筛选出的所有属性值中的出现次数。
S1104、根据第一对象的第一属性包括的M个属性值中每一个属性值的出现次数确定该M个属性值中每一个属性值的可信度,其中,出现次数越多的属性值对应的属性值的可信度越高。
服务器可以根据出现次数的多少对筛选出的所有属性值进行排序,出现次数越多的属性值排名越靠前,反之,出现次数越少的属性值排名越靠后。此时,排名越靠前的属性值的可信度越高,而,排名越靠后的属性值的可信度越低。
在一些实施例中,第一属性可以是待分析数据中任意一个属性,也可以是待分析数据中被用户选中的属性,请参阅图12所示的用户界面示例图,通过该用户界面可以选择对象的那些属性(即数据表中的那些字段)的属性值需要进行可信度的评估。
请参阅图12,图12示例性的给出了一种通过投票法确定进行可信度评估的属性(参评字段)的用户界面示意。该用户界面可以是上述图3所示的用户界面的下一个用户界面,该用户界面与上述图6所示的用户界面相似,如图12所示,该用户界面包括第一容器1201,第二容器1202,第三容器1203,上一步控件1204和保存控件1205。其中,该第一容器1201与是上述图6中第一容器601相似,第一容器1201包括第一输入控件12011、第一查询控件12012和第一重置控件12013等;第二容器1202与上述图6中第二容器602相似,第二容器1202包括第二输入控件12021、第二查询控件12022和第二重置控件12023和操作区域12024;第三容器603与上述图6中第三容器603相似。通过操作区域12024添加记录至第三容器的操作与上述图6中的操作相似,此处不再赘述。例如,选中第一容器1201中的“司机基础信息表”,第二容器1202显示该“司机基础信息表”的各个字段,在操作区域12024的操作中,若第一属性为“地址”,则在“司机基础信息表”中选择与“地址”相似的字段,例如,“司机基础信息表”中与“地址”相似的字段为“家庭地址”,则在“家庭地址”对应的操作区域12024中执行操作“作为参评字段”,则记录名为“司机基础信息表-家庭地址”添加至第三容器1203中。通过上述方式可以添加第一容器1201显示的数据表列表中与第一属性“地址”相似的字段以及该字段所在数据表的相关记录至第三容器1203中。在执行保存控件1205之后,服务器根据第三容器1203中保存的所有记录中的每一条记录查找到对应的数据表中第一属性(此处为地址字段)对应的属性值,根据核心字段(此处为身份证号码)统计不同数据表中不同核心字段对应的对象的第一属性的所有属性值。请参阅图13a,图13a示例性给出了根据身份证号码统计地址的部分统计结果。以身份证号码为“50023Z199X0327376Y”作为第一对象举例,可以得到第一对象对应的所有地址和各个地址出现的次数。通过地址出现的次数对第一对象的地址进行排序,其中,地址出现次数越多,该地址的排名越靠前,即可信度越高;反之,地址出现次数越少,该地址的排名越靠后,即可信度越低。请参阅图13b,如图13b示例性给出了以地址出现的次数排序的各个数据表中第一对象的地址。
需要说明的是,上述以第一属性为例来说明,在不同实现场景中,第一属性可以指不同的属性,例如,第一属性可以是姓名、电话、地址等。
在一些实施例中,针对待分析数据中的对象的不同属性可以采样不同的算法(例如,权威法、时效法、投票法)来评估其属性值的可信度,例如,人的姓名的可信度可以采用时效法来评估,电话的可信度可以采用时效法来评估,地址的可信度可以采用投票法来评估等,通过对对象的不同属性采用不同的算法实现对待分析数据的多维度评估,从而提高评估数据的可信度的准确性。
上述方法,通过计算机系统自动筛选待分析数据以及匹配评估可信度的算法从而提高评估数据可信度的效率以及判断结果的可靠性。
S106、根据待分析数据包括的所有属性值中每一个属性值的可信度,输出待分析数据的分析结果。在一些实施例中,服务器还可以根据N个对象的所有属性包括的所有属性值中每一个属性值的可信度,输出该待分析数据的分析结果,例如,将分析结果发送至终端,终端在接收到分析结果后可以显示该分析结果。
可选地,该待分析数据的分析结果可以是第一对象的第一属性的所有属性值中可信度最高的属性值;还可以是按照可信度高低排列的第一对象的第一属性的所有属性值等。
请参阅图14,图14示例性的给出了部分待分析数据的可信度的部分分析结果。如图14所示,以核心字段50023Z199X0327376Y作为第一对象为例,由上述实现方式(一)可以得到其姓名的可信度排序,实现方式(二)可以得到其电话的可信度排序,实现方式(三)可以得到其地址的可性度排序,其中,排在第一的属性值即为可信度最大的属性值,通过对不同属性采用不同的算法实现对象的属性对应的属性值的多维度可信度评估。
在一些实施例中,服务器还可以根据待分析数据中包括的所有属性值中每一个属性值的可信度判断所有属性包括的所有属性值中每一个属性值是否正确。例如,服务器可以根据第一对象的第一属性的第一属性值的可信度确定该第一属性值是否正确,其具体判断方式可以是,在第一属性值的可信度大于第一阈值时,认为第一属性值正确,反之,认为第一属性值错误。又例如,将第一对象的第一属性的所有属性值中可信度最高的属性值判断为正确,其他属性值判断为错误。
可选地,服务器可以统计第一数据表中属性值的正确率,待分析数据来源于至少一个数据表(也即为上述筛选出来的包含核心字段的所有数据表,例如,图5中的数据表列表中的数据表)中第一数据表为至少一个数据表中的一个数据表。其中,正确的属性值在第一数据表中所有的属性值中的占比即为该第一数据表的正确率。也可以基于该第一数据表的正确率确定第一数据表的评分,该第一数据表的评分用于指示所述第一数据表的正确率,也称第一数据表中属性值的正确率。
服务器也可以统计上述至少一个数据表中每一个数据表的正确率,具体实现可以参见上述统计第一数据表的正确率的相关描述,此处不再赘述。分析结果,也可以包括至少一个数据表中每一个数据表的正确率。
可选地,分析结果也可以包括以评分或正确率的排序的至少一个数据表。
可选地,分析结果还可以包括至少一个数据表中各个数据表的基本信息,比如,属性的总个数、被评估的属性的个数、被评估的属性的占比、属性值为空的属性个数、属性值为空的属性的占比、属性值的错误率等。
在一些场景中,上述各个步骤S102-S106,可以由终端单独执行。
在一些场景中,终端可以向服务器发送待分析数据,以使服务器执行上述步骤S102-S106,终端可以显示服务器发送的分析结果。
在一些场景中,用户希望查询待分析数据表中数据的可信度,该待分析数据表包括至少一个对象,各个对象的各个属性。用户的终端可以向服务器发送该待分析数据表,服务器可存储一些数据表,待分析数据表和服务器存储的数据表构成本申请实施例中的待分析数据。
在一些实施例中,终端/服务器还可以记录和查询已经创建或运行的任务和各个任务的配置。
请参阅图15,图15示例性的给出了一种用于实现已创建任务查询的用户界面。如图15所示,该用户界面图包括第一容器1501和第二容器1502。其中,第一容器1501用于输入任务查询信息,第一容器1501包括输入区域15011,查询控件15012和重置控件15013;输入区域15011可以输入:方案名称,核心字段,评分方法,执行状态,执行日期;终端接收到针对输入区域15011输入的查询信息,在终端检测到针对查询控件15012输入的用户操作后,终端可以向服务器发送针对输入区域15011输入的查询信息的搜索请求,以使服务器在已创建的任务中查询符合输入的查询信息的任务,终端在第二容器1502中显示搜索得到的任务。终端在检测到针对重置控件15013输入的用户操作后,可以重置输入区域15011中的查询信息。第二容器1502用于显示通过第一容器1501输入的查询信息查询到的任务。第二容器1502可以包括添加控件15021,复制控件15022,启动控件15023和显示区域15024;其中,显示区域15024用于显示任务列表,包括显示每个任务的方案名称,核心字段,评分方法,执行日期,开始时间,结束时间,运行时间,执行状态和操作等,其中,操作可以包括修改任务、删除任务或查看该任务的运行结果等。终端检测到针对添加控件15021输入的用户操作后,可以新建任务,此时,可以跳转到如图3所示的用户界面,以实现新任务的创建。在任务被选中之后,若终端检测到针对复制控件15022输入的用户操作后,终端可以创建与该被选中的任务相同的任务,上述方法,通过复制在先创建的任务,在在先创建的任务的基础上进行修改,得到新创建的任务,可以提高任务创建效率。在未运行的任务被选中之后,若终端检测到针对启动控件15023输入的用户操作后,终端可以启动该被选中的任务,启动控件15023还可以显示该被选中的任务的运行状态。
下面介绍本申请实施例涉及的装置及设备。
请参见图16,图16是本发明实施例提供的一种数据分析装置的结构示意图。如图16所示,数据分析装置1600可以应用于上述图2对应实施例中的终端或服务器,装置1600可以包括:
获取单元1601,用于获取待分析数据,所述待分析数据包括N个对象和所述N个对象中每一个对象的至少一个属性,一个对象的一个属性包括至少一个属性值;
确定单元1602,用于根据所述待分析数据中第一对象的第一属性包括的M个属性值,确定所述M个属性值中每一个属性值的可信度,所述第一对象为所述N个对象中一个对象,所述第一属性为所述第一对象的所有属性中的一个属性,M为正整数;
输出单元1603,用于根据所述待分析数据包括的所有属性值中每一个属性值的可信度,输出所述待分析数据的分析结果。
在本申请实施例的一种实现中,确定单元1602,具体用于:
根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度。
在本申请实施例的一种实现中,若所述第一属性对应的算法为权威法,确定单元1602,具体用于:
从所述M个属性值中确定所述第一对象的所述第一属性的权威属性值,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值分别与所述权威属性值的相似度确定所述M个属性值中每一个属性值的可信度。
在本申请实施例的一种实现中,若所述第一属性对应的算法为时效法,确定单元1602,具体用于:
获取所述M个属性值中每一个属性值对应的时间信息,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性,所述第一对象的所述第一属性包括的第一属性值对应的第一时间信息用于指示所述第一属性值的生成时间;
根据所述M个属性值中每一个属性值对应的时间信息确定所述M个属性值中每一个属性值的可信度,其中,与距离当前时间越近的时间信息对应的属性值的可信度越高。
在本申请实施例的一种实现中,若所述第一属性对应的算法为投票法,确定单元1602,具体用于:
统计所述M个属性值中每一个属性值的出现次数,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值中每一个属性值的出现次数确定所述M个属性值中每一个属性值的可信度,其中,出现次数越多的属性值对应的属性值的可信度越高。
在本申请实施例的一种实现中,所述分析结果具体包括:
所述第一对象的所述第一属性的所有属性值中可信度最高的属性值;或,
按照可信度高低排列的所述第一对象的所述第一属性的所有属性值。
在本申请实施例的一种实现中,所述待分析数据来源于至少一个数据表,所述输出单元1603在输出所述待分析数据的分析结果之前,所述装置1600还包括:
判断单元1604,用于根据所述待分析数据包括的所有属性值中每一个属性值的可信度判断所述待分析数据包括的所有属性值中每一个属性值是否正确;
统计单元1605,用于统计第一数据表中属性值的正确率,所述第一数据表为所述至少一个数据表中的一个数据表;
所述输出单元1603输出的分析结果还包括:所述第一数据表中属性值的正确率。
应理解,上述各个功能单元的具体功能实现方式可以参见上述图2对应实施例中的相关描述,这里不再进行赘述。
图17是本发明实施例提供的又一种数据分析装置1700的结构示意图。该数据分析装置1700具体可以是图1中的终端101或服务器103,可以包括:处理器1701、总线1702、用户接口1703、网络接口1704和存储器1705。其中,通信总线1702用于实现这些组件之间的连接通信。用户接口1703可选的可以包括显示屏、键盘。网络接口1704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。如图17所示,作为一种计算机可读存储介质的存储器1705中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序,在装置1700运行时,可以将上述操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图17所示数据分析装置1700中,网络接口1704可提供网络通讯功能;而处理器1701可以用于调用存储器1705中存储的设备控制应用程序,以实现:
通过网络接口1704获取待分析数据,所述待分析数据包括N个对象和所述N个对象中每一个对象的至少一个属性,一个对象的一个属性包括至少一个属性值;
根据所述待分析数据中第一对象的第一属性包括的M个属性值,确定所述M个属性值中每一个属性值的可信度,所述第一对象为所述N个对象中一个对象,所述第一属性为所述第一对象的所有属性中的一个属性,M为正整数;
根据所述待分析数据包括的所有属性值中每一个属性值的可信度,输出所述待分析数据的分析结果。
在本申请实施例的一种实现中,在执行根据所述待分析数据中第一对象的第一属性包括的M个属性值,确定所述M个属性值中每一个属性值的可信度时,所述处理器1701还用于执行:
根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度。
在本申请实施例的一种实现中,若所述第一属性对应的算法为权威法,在执行所述根据属性和算法的对应关系,通过第一属性对应的算法确定M个属性值中每一个属性值的可信度,所处理器1701还用于执行:
从所述M个属性值中确定所述第一对象的所述第一属性的权威属性值,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值分别与所述权威属性值的相似度确定所述M个属性值中每一个属性值的可信度。
在本申请实施例的一种实现中,若所述第一属性对应的算法为时效法,在执行根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度时,所处理器1701还用于执行:
获取所述M个属性值中每一个属性值对应的时间信息,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性,所述第一对象的所述第一属性包括的第一属性值对应的第一时间信息用于指示所述第一属性值的生成时间;
根据所述M个属性值中每一个属性值对应的时间信息确定所述M个属性值中每一个属性值的可信度,其中,与距离当前时间越近的时间信息对应的属性值的可信度越高。
在本申请实施例的一种实现中,若所述第一属性对应的算法为投票法,在执行根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度时,所处理器1701还用于执行:
统计所述M个属性值中每一个属性值的出现次数,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值中每一个属性值的出现次数确定所述M个属性值中每一个属性值的可信度,其中,出现次数越多的属性值对应的属性值的可信度越高。
需要说明的是,上述图16中的获取单元1601和输出单元1603可以由图17中网络接口1704来实现,上述图16中的确定单元1602、判断单元1604和统计单元1605可以由图17中处理器1704来实现。
应当理解,本发明实施例中所描述的数据分析装置1700可执行前文图2所对应实施例中对所述数据分析方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的数据分析装置1600或1700所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2所对应实施例中终端或服务器执行的方法,这里将不再进行赘述。
另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (15)

1.一种数据的分析方法,其特征在于,包括:
获取可信度评估的任务的配置,所述配置支持编辑;所述配置包括核心字段;
从数据库中筛选出包含所述核心字段的数据表作为待分析数据,所述待分析数据包括N个对象和所述N个对象中每一个对象的至少一个属性,一个对象的一个属性包括至少一个属性值;其中,属性与算法之间存在对应关系,不同的属性允许对应不同的算法,所述算法包括默认算法或用户输入的算法;
根据所述待分析数据中第一对象的第一属性包括的M个属性值,采用所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度,所述第一对象为所述N个对象中一个对象,所述第一属性为所述第一对象的所有属性中的一个属性,M为正整数;
根据所述待分析数据包括的所有属性值中每一个属性值的可信度,输出所述待分析数据的分析结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待分析数据中第一对象的第一属性包括的M个属性值,确定所述M个属性值中每一个属性值的可信度,包括:
根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度。
3.根据权利要求2所述的方法,其特征在于,若所述第一属性对应的算法为权威法,所述根据属性和算法的对应关系,通过第一属性对应的算法确定所述M个属性值中每一个属性值的可信度,包括:
从所述M个属性值中确定所述第一对象的所述第一属性的权威属性值,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值分别与所述权威属性值的相似度确定所述M个属性值中每一个属性值的可信度。
4.根据权利要求2所述的方法,其特征在于,若所述第一属性对应的算法为时效法,根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度,包括:
获取所述M个属性值中每一个属性值对应的时间信息,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性,所述第一对象的所述第一属性包括的第一属性值对应的第一时间信息用于指示所述第一属性值的生成时间;
根据所述M个属性值中每一个属性值对应的时间信息确定所述M个属性值中每一个属性值的可信度,其中,与距离当前时间越近的时间信息对应的属性值的可信度越高。
5.根据权利要求2所述的方法,其特征在于,若所述第一属性对应的算法为投票法,根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度,包括:
统计所述M个属性值中每一个属性值的出现次数,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值中每一个属性值的出现次数确定所述M个属性值中每一个属性值的可信度,其中,出现次数越多的属性值对应的属性值的可信度越高。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述分析结果,包括:
所述第一对象的所述第一属性的所有属性值中可信度最高的属性值;或,
按照可信度高低排列的所述第一对象的所述第一属性的所有属性值。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述待分析数据来源于至少一个数据表,所述根据所述待分析数据包括的所有属性值中每一个属性值的可信度,输出所述待分析数据的分析结果之前,所述方法还包括:
根据所述待分析数据包括的所有属性值中每一个属性值的可信度判断所述待分析数据包括的所有属性值中每一个属性值是否正确;
统计第一数据表中属性值的正确率,所述第一数据表为所述至少一个数据表中的一个数据表;
所述分析结果包括:所述第一数据表中属性值的正确率。
8.一种数据分析装置,其特征在于,包括:
获取单元,用于获取可信度评估的任务的配置,所述配置支持编辑;所述配置包括核心字段;并从数据库中筛选出包含所述核心字段的数据表作为待分析数据,所述待分析数据包括N个对象和所述N个对象中每一个对象的至少一个属性,一个对象的一个属性包括至少一个属性值;其中,属性与算法之间存在对应关系,不同的属性允许对应不同的算法,所述算法包括默认算法或用户输入的算法;
确定单元,用于根据所述待分析数据中第一对象的第一属性包括的M个属性值,采用所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度,所述第一对象为所述N个对象中一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
输出单元,用于根据所述待分析数据包括的所有属性值中每一个属性值的可信度,输出所述待分析数据的分析结果。
9.根据权利要求8所述的装置,其特征在于,所述确定单元具体用于:
根据属性和算法的对应关系,通过所述第一属性对应的算法确定所述M个属性值中每一个属性值的可信度。
10.根据权利要求9所述的装置,其特征在于,若所述第一属性对应的算法为权威法,所述确定单元具体用于:
从所述M个属性值中确定所述第一对象的所述第一属性的权威属性值,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值分别与所述权威属性值的相似度确定所述M个属性值中每一个属性值的可信度。
11.根据权利要求9所述的装置,其特征在于,若所述第一属性对应的算法为时效法,所述确定单元具体用于:
获取所述M个属性值中每一个属性值对应的时间信息,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性,所述第一对象的所述第一属性包括的第一属性值对应的第一时间信息用于指示所述第一属性值的生成时间;
根据所述M个属性值中每一个属性值对应的时间信息确定所述M个属性值中每一个属性值的可信度,其中,与距离当前时间越近的时间信息对应的属性值的可信度越高。
12.根据权利要求9所述的装置,其特征在于,若所述第一属性对应的算法为投票法,所述确定单元具体用于:
统计所述M个属性值中每一个属性值的出现次数,所述第一对象为所述N个对象中的一个对象,所述第一属性为所述第一对象的所有属性中的一个属性;
根据所述M个属性值中每一个属性值的出现次数确定所述M个属性值中每一个属性值的可信度,其中,出现次数越多的属性值对应的属性值的可信度越高。
13.根据权利要求8-12任一项所述装置,其特征在于,所述分析结果包括:
所述第一对象的所述第一属性的所有属性值中可信度最高的属性值;或,
按照可信度高低排列的所述第一对象的所述第一属性的所有属性值。
14.一种数据分析装置,其特征在于,包括处理器和存储器,所述处理器和存储器耦合,其中,所述存储器用于存储计算机指令,所述处理器用于执行所述计算机指令,以使所述数据分析装置实现如权利要求1-7任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被计算机设备运行时,使得所述计算机设备实现如权利要求1-7任一项所述的方法。
CN201911093033.4A 2019-11-07 2019-11-07 数据分析的方法、装置及设备 Active CN111177146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911093033.4A CN111177146B (zh) 2019-11-07 2019-11-07 数据分析的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911093033.4A CN111177146B (zh) 2019-11-07 2019-11-07 数据分析的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111177146A CN111177146A (zh) 2020-05-19
CN111177146B true CN111177146B (zh) 2023-08-08

Family

ID=70650019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911093033.4A Active CN111177146B (zh) 2019-11-07 2019-11-07 数据分析的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111177146B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104539484A (zh) * 2014-12-31 2015-04-22 深圳先进技术研究院 一种动态评估网络连接可信度的方法及系统
DE102014106310A1 (de) * 2014-05-06 2015-11-12 Bundesdruckerei Gmbh Vertrauensniveauberechnung mit attributspezifischen Funktionen
CN106998264A (zh) * 2017-02-21 2017-08-01 中国科学院信息工程研究所 一种基于动态信任模型的ip定位数据库可信度评估方法
CN109376068A (zh) * 2018-09-03 2019-02-22 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 软件可靠性预测方法、装置、计算机设备和存储介质
CN109472005A (zh) * 2018-11-08 2019-03-15 北京锐安科技有限公司 数据可信度评估方法、装置、设备和存储介质
CN109582906A (zh) * 2018-11-30 2019-04-05 北京锐安科技有限公司 数据可靠度的确定方法、装置、设备和存储介质
CN110309863A (zh) * 2019-06-13 2019-10-08 上海交通大学 一种基于层次分析法和灰色关联分析的身份可信评价方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014106310A1 (de) * 2014-05-06 2015-11-12 Bundesdruckerei Gmbh Vertrauensniveauberechnung mit attributspezifischen Funktionen
CN104539484A (zh) * 2014-12-31 2015-04-22 深圳先进技术研究院 一种动态评估网络连接可信度的方法及系统
CN106998264A (zh) * 2017-02-21 2017-08-01 中国科学院信息工程研究所 一种基于动态信任模型的ip定位数据库可信度评估方法
CN109376068A (zh) * 2018-09-03 2019-02-22 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 软件可靠性预测方法、装置、计算机设备和存储介质
CN109472005A (zh) * 2018-11-08 2019-03-15 北京锐安科技有限公司 数据可信度评估方法、装置、设备和存储介质
CN109582906A (zh) * 2018-11-30 2019-04-05 北京锐安科技有限公司 数据可靠度的确定方法、装置、设备和存储介质
CN110309863A (zh) * 2019-06-13 2019-10-08 上海交通大学 一种基于层次分析法和灰色关联分析的身份可信评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
符湘萍 等.一种基于可信度和属性的RBAC授权模型.《计算机应用研究》.2011,第28卷(第2期),第742-745页. *

Also Published As

Publication number Publication date
CN111177146A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN109508420B (zh) 一种知识图谱属性的清洗方法及装置
CN107885873B (zh) 用于输出信息的方法和装置
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN109918594B (zh) 一种信息显示方法及装置
US20100114854A1 (en) Map-based websites searching method and apparatus therefor
CN105760380A (zh) 数据库查询方法、装置及系统
CN106407360B (zh) 一种数据的处理方法及装置
CN108427701B (zh) 基于操作页面识别帮助信息的方法及应用服务器
JP2010009315A (ja) 推薦店舗提示システム
WO2009031759A1 (en) Method and system for generating search collection of query
CN111913954B (zh) 智能数据标准目录生成方法和装置
US9015142B2 (en) Identifying listings of multi-site entities based on user behavior signals
CN103617241A (zh) 搜索信息处理方法、浏览器终端与服务器
CN111177289A (zh) 众源网络数据空间相关信息提取校验方法与系统
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
WO2013182736A1 (en) Determination of context-aware user preferences
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN111177146B (zh) 数据分析的方法、装置及设备
CN109828984B (zh) 一种分析处理的方法、装置、计算机存储介质及终端
CN116680480A (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113127720A (zh) 一种热搜词确定方法及装置
CN103473290B (zh) 兴趣点的属性数据的处理方法及装置
CN111428117A (zh) 应用程序的数据获取方法和装置
CN104392000B (zh) 确定移动站点抓取配额的方法和装置
CN110245208B (zh) 一种基于大数据存储的检索分析方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant