CN110098961A - 一种数据质量评估方法、装置及存储介质 - Google Patents

一种数据质量评估方法、装置及存储介质 Download PDF

Info

Publication number
CN110098961A
CN110098961A CN201910338954.6A CN201910338954A CN110098961A CN 110098961 A CN110098961 A CN 110098961A CN 201910338954 A CN201910338954 A CN 201910338954A CN 110098961 A CN110098961 A CN 110098961A
Authority
CN
China
Prior art keywords
data
information data
information
history
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910338954.6A
Other languages
English (en)
Other versions
CN110098961B (zh
Inventor
冯鹏举
肖国颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN201910338954.6A priority Critical patent/CN110098961B/zh
Publication of CN110098961A publication Critical patent/CN110098961A/zh
Application granted granted Critical
Publication of CN110098961B publication Critical patent/CN110098961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据质量评估方法、装置及存储介质,方法包括:接收情报数据,解析情报数据包含的各个字段,以确定关键字段;在历史情报数据库中检索是否存在与关键字段相同的历史情报数据;在存在历史情报数据的情况下,将历史情报数据的历史出现次数加1;将情报数据按照预设数据质量评分规则进行数据质量评分;根据数据质量评分和历史出现次数确定情报数据的质量。本发明实施例按照预设数据质量评分规则对情报数据进行数据质量评分,可以根据情报数据关键字段的不同而进行动态评分,再结合该情报数据在历史情报数据库中的出现次数一起确定情报数据的质量,不仅可以增加评估维度,评估结果也较为准确。

Description

一种数据质量评估方法、装置及存储介质
技术领域
本发明涉及数据处理领域,特别涉及一种数据质量评估方法、装置及存储介质。
背景技术
威胁情报数据是基于证据的知识,包括场景、机制、指标、含义和可操作的建议等内容。这些知识是关于现存的、或者是即将出现的针对资产的威胁或危险的,可为主体响应相关威胁或危险提供决策信息。
现有技术中的情报质量评估方法为基于历史的情报质量评估方法,评估一条威胁情报数据的质量,主要依赖多源上报的情况,如数据来源A标识某IP为恶意的,数据来源B、C同样标识某IP为恶意的,评估该IP为恶意数据或者高风险数据。现有方案以数据历史为主要参考依据,通过固定规则,对多源数据进行比较评估。
现有威胁情报数据的评估技术的评估维度较少,并且多采用静态指标,无法根据实际情况动态调整评估模型,导致评估结果存在一定的偏差。
发明内容
有鉴于此,本发明实施例提出了一种数据质量评估方法、装置及存储介质,用以解决现有技术的如下问题:现有威胁情报数据的评估技术的评估维度较少,并且多采用静态指标,无法根据实际情况动态调整评估模型,导致评估结果存在一定的偏差。
一方面,本发明实施例提出了一种数据质量评估方法,包括:接收情报数据,解析所述情报数据包含的各个字段,以确定关键字段;在历史情报数据库中检索是否存在与所述关键字段相同的历史情报数据;在存在所述历史情报数据的情况下,将所述历史情报数据的历史出现次数加1;将所述情报数据按照预设数据质量评分规则进行数据质量评分;根据所述数据质量评分和所述历史出现次数确定所述情报数据的质量。
在一些实施例中,将所述情报数据按照预设数据质量评分规则进行数据质量评分之后,还包括:获取所述情报数据包含的各个字段对应的历史关注度和/或历史命中度,其中,所述关注度为通过预定页面检索某个字段时在所述历史情报数据库中查询到的次数,所述命中度为设备上报的反馈记录为某个字段时在所述历史情报数据库中查询到的次数;则根据所述数据质量评分和所述历史出现次数确定所述情报数据的质量,包括:根据所述数据质量评分和所述历史出现次数,以及所述关注度和/或所述命中度确定所述情报数据的质量。
在一些实施例中,解析所述情报数据包含的各个字段,以确定关键字段之后,还包括:为所述情报数据标注来源信息,并在历史情报记录中检测是否存在所述来源信息的情报数据;在不存在所述来源信息的情况下,将所述情报数据按照所述预设数据质量评分规则进行数据质量评分;检测得到的所述数据质量评分是否大于预设检索阈值;在达到所述预设检索阈值的情况下,在所述历史情报记录中录入所述情报数据大于所述预设检索阈值的检测结果及所述情报数据的来源信息,在所述历史情报数据库中检索是否存在与所述关键字段相同的历史情报数据;在未达到所述预设检索阈值的情况下,在所述历史情报记录中录入所述情报数据小于或等于所述预设检索阈值的检测结果及所述情报数据的来源信息。
在一些实施例中,将所述历史情报数据的历史出现次数加1之后,还包括:检测所述情报数据是否与所述历史情报数据为同一情报数据;在与所述历史情报数据为同一情报数据时,将所述情报数据与所述历史情报数据合并为一个融合情报数据,并确定所述融合情报数据为所述情报数据;在与所述历史情报数据不为同一情报数据时,将发生时间在后的情报数据作为所述情报数据。
在一些实施例中,将所述情报数据按照预设数据质量评分规则进行数据质量评分,包括:根据预定来源可信度字典和历史情报记录确定所述情报数据的来源可信度评分;对所述情报数据的所有字段分别进行数据是否有效的判断,以确定所述情报数据的整体完整度评分;根据预设字段权重字典和对所述情报数据的各个字段的类型确定所述情报数据的整体字段质量评分;根据预设评分项目的权重值、所述来源可信度评分、所述整体完整度评分和所述整体字段质量评分确定所述情报数据的所述数据质量评分。
在一些实施例中,所述历史关注度的生成过程如下:在通过所述预定页面接收到检索数据时,解析所述检索数据包含的各个字段,并在各个字段中确定关键字段;基于所述关键字段在所述历史情报数据库中进行查询,确定是否能够查询到对应的历史情报数据;在能够查询到对应的历史情报数据时,将所述历史情报数据的关注度加1。
在一些实施例中,所述历史命中度的生成过程如下:在设备上报反馈记录时,解析所述反馈记录包含的各个字段,并在各个字段中确定关键字段;基于所述关键字段在所述历史情报数据库中进行查询,确定是否能够查询到对应的历史情报数据;在能够查询到对应的历史情报数据时,将所述历史情报数据的命中度加1。
在一些实施例中,确定是否能够查询到对应的历史情报数据之后,还包括:在未能够查询到对应的历史情报数据时,将所述反馈记录作为输入的情报数据,为所述情报数据标注来源信息,并在历史情报记录中检测是否存在所述来源信息的情报数据。
在一些实施例中,将所述历史情报数据的命中度加1之后,还包括:根据所述反馈记录的来源信息和预定来源可信度字典确定所述来源信息的可信度是否超过预定时间期限;在超过所述预定时间期限的情况下,根据所述关键字段查询历史反馈记录中记载的不同来源信息的反馈记录数量和反馈记录总数量;根据各个来源信息的反馈记录数量和所述反馈记录总数量分别确定每个来源信息的权重值,以得到来源信息权重值集合;根据所述来源信息权重值集合更新所述预定来源可信度字典,以得到新的预定来源可信度字典。
另一方面,本发明实施例提出了一种数据质量评估装置,包括:接收模块,用于接收情报数据,解析所述情报数据包含的各个字段;检索模块,用于在历史情报数据库中分别基于各个字段检索是否存在与所述字段相同的历史情报数据;统计模块,用于在存在所述相同情报数据的情况下,将所述情报数据的历史出现次数加1;评分模块,用于将所述情报数据按照预设数据质量评分规则进行数据质量评分;确定模块,用于根据所述数据质量评分和所述历史出现次数确定所述情报数据的质量。
在一些实施例中,所述装置还包括:获取模块,用于获取所述情报数据包含的各个字段对应的历史关注度和/或历史命中度,其中,所述关注度为通过预定页面检索某个字段时在所述历史情报数据库中查询到的次数,所述命中度为设备上报的反馈记录为某个字段时在所述历史情报数据库中查询到的次数;所述确定模块,还用于根据所述数据质量评分和所述历史出现次数,以及所述关注度和/或所述命中度确定所述情报数据的质量。
另一方面,本发明实施例提出了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例按照预设数据质量评分规则对情报数据进行数据质量评分,该过程可以根据情报数据关键字段的不同而进行动态评分,再结合该情报数据在历史情报数据库中的出现次数一起确定情报数据的质量,不仅可以增加评估维度,还可以根据实际情况动态评估,评估结果较为准确。
附图说明
图1为本发明第一实施例提供的数据质量评估方法的流程图;
图2为本发明第二实施例提供的数据质量评估方法的主评估流程;
图3为本发明第二实施例提供的数据质量评分子流程;
图4为本发明第二实施例提供关注度子流程;
图5为本发明第二实施例提供命中度子流程;
图6为本发明第三实施例提供数据质量评估装置的结构示意图。
具体实施方式
为了使得本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为了保持本发明实施例的以下说明清楚且简明,本发明省略了已知功能和已知部件的详细说明。
本发明第一实施例提供了一种数据质量评估方法,其流程如图1所示,包括步骤S101至S105:
S101,接收情报数据,解析情报数据包含的各个字段,以确定关键字段。
当接收到一个情报数据时,该情报数据的内容较多,通常可以拆分为多个字段,例如,一个情报数据可以包括恶意IP、恶意URL、恶意样本、恶意域名、垃圾邮件、漏洞等数据。
上述情报数据可能为一个从未接收过的新情报数据,因此,在确定关键字段之后,为情报数据标注来源信息,并在历史情报记录中检测是否存在来源信息的情报数据;在不存在来源信息的情况下,将情报数据按照预设数据质量评分规则进行数据质量评分;检测得到的数据质量评分是否大于预设检索阈值;在达到预设检索阈值的情况下,在历史情报记录中录入情报数据大于预设检索阈值的检测结果及情报数据的来源信息,执行后续步骤S102;在未达到预设检索阈值的情况下,仅在历史情报记录中录入情报数据小于或等于预设检索阈值的检测结果及情报数据的来源信息,并不执行后续步骤S102。
S102,在历史情报数据库中检索是否存在与关键字段相同的历史情报数据。
具体实现时,通过情报数据的关键字段来检索曾经是否出现过同一个字段的历史情报数据,能够更为快速的为该情报数据进行质量评估;当然,本领域技术人员如果想更全面的进行质量评估,可以对该情报数据的每个字段都进行检索,其过程与关键字段的检索过程相同,此处不再赘述。
S103,在存在历史情报数据的情况下,将历史情报数据的历史出现次数加1。此处的历史出现次数参与到后续数据质量评估过程。
如果关键字段检索得到的历史情报数据,则其它内容可能相同也可能不同,因此,在将历史情报数据的历史出现次数加1之后,还可以检测情报数据是否与历史情报数据为同一情报数据;在与历史情报数据为同一情报数据时,将情报数据与历史情报数据合并为一个融合情报数据,并确定融合情报数据为情报数据;在与历史情报数据不为同一情报数据时,将发生时间在后的情报数据作为情报数据。通过上述情报数据的归一性操作,参与后续数据质量评分的情报数据一定是有效的情报数据,评估结果更准确。
S104,将情报数据按照预设数据质量评分规则进行数据质量评分。
具体实现时,该数据质量的评分流程如下:根据预定来源可信度字典和历史情报记录确定情报数据的来源可信度评分;对情报数据的所有字段分别进行数据是否有效的判断,以确定情报数据的整体完整度评分;根据预设字段权重字典和对情报数据的各个字段的类型确定情报数据的整体字段质量评分;根据预设评分项目的权重值、来源可信度评分、整体完整度评分和整体字段质量评分确定情报数据的数据质量评分。
S105,根据数据质量评分和历史出现次数确定情报数据的质量。
本发明实施例按照预设数据质量评分规则对情报数据进行数据质量评分,该过程可以根据情报数据关键字段的不同而进行动态评分,再结合该情报数据在历史情报数据库中的出现次数一起确定情报数据的质量,不仅可以增加评估维度,还可以根据实际情况动态评估,评估结果较为准确。
为了进一步增加数据质量评估的准确度,本实施例在S104之后,还可以包括如下过程:获取情报数据包含的各个字段对应的历史关注度和/或历史命中度,其中,关注度为通过预定页面检索某个字段时在历史情报数据库中查询到的次数,命中度为设备上报的反馈记录为某个字段时在历史情报数据库中查询到的次数。
由于要增加质量评估的维度,因此,本发明实施例引入了历史关注度和历史命中度,在本实施例质量评估的过程中只是获取上述两个数值,但每种字段的历史关注度和历史命中度的生成过程并不随着质量评估流程的执行而触发,历史关注度和历史命中度的生成过程都是单独的流程,下面对每个单独的过程进行说明。
关于历史关注度,其生成过程如下:
在通过预定页面接收到检索数据时,解析检索数据包含的各个字段,并在各个字段中确定关键字段;基于关键字段在历史情报数据库中进行查询,确定是否能够查询到对应的历史情报数据;在能够查询到对应的历史情报数据时,将历史情报数据的关注度加1,否则不增加关注度。
关于历史命中度,其生成过程包括如下步骤(1)至(4):
(1)在设备上报反馈记录时,解析反馈记录包含的各个字段,并在各个字段中确定关键字段。
由于威胁情报平台与设备(或系统)的对接主要以平台向安全设备(或系统)下发为主,设备(或系统)反馈信息不上报或只是简单记录,没有依托安全设备(或系统)检测能力形成有效的联动机制,具有一定的局限性。在本方案中设备(或系统)是支持数据反馈机制的设备(或系统)。
(2)基于关键字段在历史情报数据库中进行查询,确定是否能够查询到对应的历史情报数据;
(3)在能够查询到对应的历史情报数据时,将历史情报数据的命中度加1。
(4)在未能够查询到对应的历史情报数据时,将反馈记录作为输入的情报数据,为情报数据标注来源信息,并在历史情报记录中检测是否存在来源信息的情报数据。该过程即是从未上报过相同字段的反馈记录,则需要将上报的反馈记录作为新的情报数据送入到S101的具体流程中进行质量评估。
上述进行数据质量评分的过程中用到了预定来源可信度字典,该预定来源可信度字典也是需要进行更新的。本实施例将该更新过程设置在将历史情报数据的命中度加1之后,具体包括如下过程:根据反馈记录的来源信息和预定来源可信度字典确定来源信息的可信度是否超过预定时间期限;在超过预定时间期限的情况下,根据关键字段查询历史反馈记录中记载的不同来源信息的反馈记录数量和反馈记录总数量;根据各个来源信息的反馈记录数量和反馈记录总数量分别确定每个来源信息的权重值,以得到来源信息权重值集合;根据来源信息权重值集合更新预定来源可信度字典,以得到新的预定来源可信度字典。
由于增加了历史命中度和/或历史关注度,因此S105的评估过程可以对应的调整为:根据数据质量评分和历史出现次数,以及关注度和/或命中度确定情报数据的质量。
最后得到的情报数据的质量可以是以四个维度呈现的数据集,也可以是通过上述四个维度计算得到的一个值来作为最终的质量。
本发明实施例通过多个维度对情报数据进行数据质量评估,该多维度中包括动态的用户检索的数据和设备上报的数据,通过运用本发明实施例,不仅可以增加评估维度,还可以根据实际情况动态评估,评估结果较为准确。
本发明第二实施例为了提高威胁情报数据质量评估的准确性,提供了一种数据质量评估方法,该实施例为上述第一实施例的具体细化过程。本实施例通过与设备/系统联动反馈机制,动态计算评估规则,并将检测数据作为情报数据源,将情报数据的能力应用于情报数据质量评估;增加数据评估参考维度,提高数据质量评估的准确度;定义多维数据评估结果模型,提高数据评估结果可用性。该实施例的主评估流程如图2所示,包括的步骤如下:
步骤1,对新输入情报数据进行来源标注,如O1…On
步骤2,执行数据质量评分流程,输出数据质量评分;详情见步骤10。
步骤3,根据数据质量评分和情报阈值定义中该类型情报的阈值,判定质量是否达标;小于阈值标注为无效、记入情报记录结束本次评估;大于阈值标注有效、记入情报记录,执行步骤4。
步骤4,检索情报判定是否已存在,不存在执行步骤5;存在执行步骤6。
步骤5,检索情报不存在,表示当前情报初次出现,历史出现次数设置为1,输出历史出现次数。
步骤6,检索情报已存在,获取已存在情报的历史出现次数,历史出现次数加1;判定当前情报与已存在情报是否为同一情报,判定方法:已存在情报与当前情报的发生时间相差时间小于设定值,差值范围可自定义。判定结果不是同一情报则执行步骤7,是同一情报则执行步骤8。
步骤7,不是同一情报,已存在情报和当前情报进行选举,选举规则:发生时间靠后的数据选举成功(通过初始阶段数据评估的数据时间都是有效的)。选举成功的数据定义为有效情报,执行步骤9。
步骤8,是同一情报,则执行情报融合。融合规则:以发生时间靠后的数据为基准,遍历字段并获取值,如值为基础数据如:字符、数字,值为空则获取发生时间靠前数据的对应值赋给该值,值不为空则不获取;如值为复杂数据如:集合、字典,则获取时间靠前数据的对应值补充添加到对应字段,单项数据重复则不添加。融合之后的数据定以为有效情报,执行步骤9。
步骤9,针对有效情报重新执行数据质量评分流程,输出数据质量评分;详情见步骤10。
步骤10,数据质量评分流程,即输入情报数据,输出情报质量评分。该过程具体流程如图3所示,步骤如下:
(1)根据来源可信度字典和当前数据来源标识,进行来源可信度评分,输出来源可信度评分,定义为P1。来源可信度字典,初始取值均为1,来源可信度字典的更新流程详情见步骤12的部分过程。
(2)接入数据执行威胁数据分类标注。
(3)完整度评分对各类数据所有字段进行数据是否有效的判定,输出数据整体完整度评分,定义为P2;判定规则:简单数据类型(字符串、数字)不为空,复杂数据(集合、字典)数据不为空或至少一项数据单项不为空,否则是无效字段。完整度评分计算规则,完整度评分=有效字段数/字段总数。
(4)基于字段权重字典,结合数据分类,对字段质量进行评估,输出字段质量评分,定义为P3;不同分类的重要字段不同,如IP地址、URL、邮箱地址等字段属于关键字段,在字段质量评估中占据不同权重,字段权重可根据场景自定义。计算公式:P3=C1*CW1+…+Cn*CWn,Cn代表第n个字段,CWn代表字段Cn的权重。
(5)输出数据质量评分:定义来源可信度评分P1权重为W1,完整度评分P2权重为W2,字段质量评分P3权重为W3。数据质量评分规则如下:质量评分=P1*W1+P2*W2+P3*W3。
步骤11,关注度流程,即输入检索记录,输出关注度。该过程具体流程如图4所示,步骤如下:
(1)接收疑似检索记录,提取数据关键字段数据,如IP地址、URL、邮箱地址等。疑似检索记录一般指系统提供的疑似验证界面(接口)检索记录,区别于常规检索。
(2)根据疑似检索记录中关键字进行检索,判断是否命中;命中则对应关注度加1,输出关注度;如未命中则结束。
步骤12,命中度流程,即输入设备/系统反馈记录(设备/系统为任意可能上报反馈记录的设备/系统),输出历史命中度并计算出来源的权重值。该过程具体流程如图5所示,步骤如下:
(1)接收设备/系统反馈记录,提取数据关键字段数据,如IP地址、URL等。
(2)根据关键字进行情报检索,如命中执行步骤(4),如未命中执行步骤(3)。
(3)如未命中,则对数据进行格式化,作为新增待处理情报数据,执行主评估流程。
(4)如命中,执行命中度加1,输出历史命中度。
(5)为保证可信度处于相对平稳状态,根据数据来源和可信度字典进行可信度过期判断,如超过半年(可自定义)视为过期,执行步骤6;如未过期,结束评估。
(6)根据关键字段,查询得到半年内(可自定义)历史记录集合,遍历记录统计不同数据来源情报的个数,生成Map<On,Cn>,其中On表示数据源n,Cn表示该数据源历史记录中出现次数。
(7)获取历史记录总数SUM,根据Cn和SUM计算每种数据源的来源权重Wn=Cn/SUM,输出来源权重集合Map<On,Wn>。
(8)基于当前来源可信度字典Map<On,Vn1>和权重集合Map<On,Wn>,执行数据源可信度计算Vn2=(Vn1+Wn)/2,输出来源可信度字典Map<On,Vn2>。
步骤13,完成步骤5,6输出历史出现次数,完成步骤9输出数据质量评分,完成步骤11输出关注度,完成步骤12输出历史命中度;得到初步四元模型<历史出现次数、质量评分、关注度、历史命中度>,取值范围分别为:正整数、0—1数字、正整数、正整数。执行步骤14数据综合评分,将正整数类型的历史出现次数、关注度、历史命中度据进行统计转换。
步骤14,以关注度为例,根据当前数据类型(如IP类),按关键字段(如IP地址)分别统计各数据关注度(只统计关注度大于0的数据),统计结果如:Map<Kn,CKn>,Kn代表第n个数据的关键字段,CKn代表第n个数据的关注度。选取关注度最大的数字定义为Max,选取关注度最小的数字定义为Min,计算关注度M=CKn/(Max-Min)。同理,可计算得到历史出现度N、关注度M、命中度W,结合数据质量评分P,重新得到四元数据质量模型<N、P、M、W>,四个维度的取值范围均为0—1。
本实施例通过结合设备反馈数据和用户使用反馈数据,动态影响数据质量评估规则,结合多种因素从多个维度对数据进行整体评估,提升了数据质量评估的准确性。基于历史出现次数、历史命中度、历史关注度、数据质量评分的四元质量评估结果模型为数据研判人员提供更多考量维度,同时也为后续基于机器学习等技术进行价值挖掘提供了更为丰富的数据特征。
本发明第三实施例提供了一种数据质量评估装置,该装置的结构示意如图6所示,包括依次耦合的如下模块:
接收模块10,用于接收情报数据,解析情报数据包含的各个字段;检索模块20,用于在历史情报数据库中分别基于各个字段检索是否存在与字段相同的历史情报数据;统计模块30,用于在存在相同情报数据的情况下,将情报数据的历史出现次数加1;评分模块40,用于将情报数据按照预设数据质量评分规则进行数据质量评分;确定模块50,用于根据数据质量评分、历史出现次数、关注度和命中度确定情报数据的质量。
上述装置还包括:获取模块,与评分模块和确定模块耦合,用于获取情报数据包含的各个字段对应的历史关注度和/或历史命中度,其中,关注度为通过预定页面检索某个字段时在历史情报数据库中查询到的次数,命中度为设备上报的反馈记录为某个字段时在历史情报数据库中查询到的次数;确定模块,还用于根据数据质量评分和历史出现次数,以及关注度和/或命中度确定情报数据的质量。
上述装置还包括:来源录入模块,与接收模块和检索模块耦合,用于为情报数据标注来源信息,并在历史情报记录中检测是否存在来源信息的情报数据;在不存在来源信息的情况下,将情报数据按照预设数据质量评分规则进行数据质量评分;检测得到的数据质量评分是否大于预设检索阈值;在达到预设检索阈值的情况下,在历史情报记录中录入情报数据大于预设检索阈值的检测结果及情报数据的来源信息,触发检索模块20工作;在未达到预设检索阈值的情况下,仅在历史情报记录中录入情报数据小于或等于预设检索阈值的检测结果及情报数据的来源信息。
上述装置还包括:有效情报确定模块,与统计模块和评分模块耦合,用于检测情报数据是否与历史情报数据为同一情报数据;在与历史情报数据为同一情报数据时,将情报数据与历史情报数据合并为一个融合情报数据,并确定融合情报数据为情报数据;在与历史情报数据不为同一情报数据时,将发生时间在后的情报数据作为情报数据。
上述评分模块具体用于:根据预定来源可信度字典和历史情报记录确定情报数据的来源可信度评分;对情报数据的所有字段分别进行数据是否有效的判断,以确定情报数据的整体完整度评分;根据预设字段权重字典和对情报数据的各个字段的类型确定情报数据的整体字段质量评分;根据预设评分项目的权重值、来源可信度评分、整体完整度评分和整体字段质量评分确定情报数据的数据质量评分。
上述装置还包括历史关注度生成模块,用于在通过预定页面接收到检索数据时,解析检索数据包含的各个字段,并在各个字段中确定关键字段;基于关键字段在历史情报数据库中进行查询,确定是否能够查询到对应的历史情报数据;在能够查询到对应的历史情报数据时,将历史情报数据的关注度加1。
上述装置还包括历史命中度生成模块,用于在设备上报反馈记录时,解析反馈记录包含的各个字段,并在各个字段中确定关键字段;基于关键字段在历史情报数据库中进行查询,确定是否能够查询到对应的历史情报数据;在能够查询到对应的历史情报数据时,将历史情报数据的命中度加1;在未能够查询到对应的历史情报数据时,将反馈记录作为输入的情报数据,为情报数据标注来源信息,并在历史情报记录中检测是否存在来源信息的情报数据。
历史命中度生成模块,还用于根据反馈记录的来源信息和预定来源可信度字典确定来源信息的可信度是否超过预定时间期限;在超过预定时间期限的情况下,根据关键字段查询历史反馈记录中记载的不同来源信息的反馈记录数量和反馈记录总数量;根据各个来源信息的反馈记录数量和反馈记录总数量分别确定每个来源信息的权重值,以得到来源信息权重值集合;根据来源信息权重值集合更新预定来源可信度字典,以得到新的预定来源可信度字典。
本发明实施例通过多个维度对情报数据进行数据质量评估,该多维度中包括动态的用户检索的数据和设备上报的数据,通过运用本发明实施例,不仅可以增加评估维度,还可以根据实际情况动态评估,评估结果较为准确。
在另一个实施例中,本发明实施例还提供了一种存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述数据质量评估方法的步骤,此处不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行上述实施例记载的方法步骤。可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本发明的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上对本发明多个实施例进行了详细说明,但本发明不限于这些具体的实施例,本领域技术人员在本发明构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本发明所要求保护的范围之内。

Claims (12)

1.一种数据质量评估方法,其特征在于,包括:
接收情报数据,解析所述情报数据包含的各个字段,以确定关键字段;
在历史情报数据库中检索是否存在与所述关键字段相同的历史情报数据;
在存在所述历史情报数据的情况下,将所述历史情报数据的历史出现次数加1;
将所述情报数据按照预设数据质量评分规则进行数据质量评分;
根据所述数据质量评分和所述历史出现次数确定所述情报数据的质量。
2.如权利要求1所述的方法,其特征在于,将所述情报数据按照预设数据质量评分规则进行数据质量评分之后,还包括:
获取所述情报数据包含的各个字段对应的历史关注度和/或历史命中度,其中,所述关注度为通过预定页面检索某个字段时在所述历史情报数据库中查询到的次数,所述命中度为设备上报的反馈记录为某个字段时在所述历史情报数据库中查询到的次数;
则根据所述数据质量评分和所述历史出现次数确定所述情报数据的质量,包括:根据所述数据质量评分和所述历史出现次数,以及所述关注度和/或所述命中度确定所述情报数据的质量。
3.如权利要求1或2所述的方法,其特征在于,解析所述情报数据包含的各个字段,以确定关键字段之后,还包括:
为所述情报数据标注来源信息,并在历史情报记录中检测是否存在所述来源信息的情报数据;
在不存在所述来源信息的情况下,将所述情报数据按照所述预设数据质量评分规则进行数据质量评分;
检测得到的所述数据质量评分是否大于预设检索阈值;
在达到所述预设检索阈值的情况下,在所述历史情报记录中录入所述情报数据大于所述预设检索阈值的检测结果及所述情报数据的来源信息,在所述历史情报数据库中检索是否存在与所述关键字段相同的历史情报数据;
在未达到所述预设检索阈值的情况下,在所述历史情报记录中录入所述情报数据小于或等于所述预设检索阈值的检测结果及所述情报数据的来源信息。
4.如权利要求1或2所述的方法,其特征在于,将所述历史情报数据的历史出现次数加1之后,还包括:
检测所述情报数据是否与所述历史情报数据为同一情报数据;
在与所述历史情报数据为同一情报数据时,将所述情报数据与所述历史情报数据合并为一个融合情报数据,并确定所述融合情报数据为所述情报数据;
在与所述历史情报数据不为同一情报数据时,将发生时间在后的情报数据作为所述情报数据。
5.如权利要求1或2所述的方法,其特征在于,将所述情报数据按照预设数据质量评分规则进行数据质量评分,包括:
根据预定来源可信度字典和历史情报记录确定所述情报数据的来源可信度评分;
对所述情报数据的所有字段分别进行数据是否有效的判断,以确定所述情报数据的整体完整度评分;
根据预设字段权重字典和对所述情报数据的各个字段的类型确定所述情报数据的整体字段质量评分;
根据预设评分项目的权重值、所述来源可信度评分、所述整体完整度评分和所述整体字段质量评分确定所述情报数据的所述数据质量评分。
6.如权利要求2所述的方法,其特征在于,所述历史关注度的生成过程如下:
在通过所述预定页面接收到检索数据时,解析所述检索数据包含的各个字段,并在各个字段中确定关键字段;
基于所述关键字段在所述历史情报数据库中进行查询,确定是否能够查询到对应的历史情报数据;
在能够查询到对应的历史情报数据时,将所述历史情报数据的关注度加1。
7.如权利要求2所述的方法,其特征在于,所述历史命中度的生成过程如下:
在设备上报反馈记录时,解析所述反馈记录包含的各个字段,并在各个字段中确定关键字段;
基于所述关键字段在所述历史情报数据库中进行查询,确定是否能够查询到对应的历史情报数据;
在能够查询到对应的历史情报数据时,将所述历史情报数据的命中度加1。
8.如权利要求7所述的方法,其特征在于,确定是否能够查询到对应的历史情报数据之后,还包括:
在未能够查询到对应的历史情报数据时,将所述反馈记录作为输入的情报数据,为所述情报数据标注来源信息,并在历史情报记录中检测是否存在所述来源信息的情报数据。
9.如权利要求7所述的方法,其特征在于,将所述历史情报数据的命中度加1之后,还包括:
根据所述反馈记录的来源信息和预定来源可信度字典确定所述来源信息的可信度是否超过预定时间期限;
在超过所述预定时间期限的情况下,根据所述关键字段查询历史反馈记录中记载的不同来源信息的反馈记录数量和反馈记录总数量;
根据各个来源信息的反馈记录数量和所述反馈记录总数量分别确定每个来源信息的权重值,以得到来源信息权重值集合;
根据所述来源信息权重值集合更新所述预定来源可信度字典,以得到新的预定来源可信度字典。
10.一种数据质量评估装置,其特征在于,包括:
接收模块,用于接收情报数据,解析所述情报数据包含的各个字段;
检索模块,用于在历史情报数据库中分别基于各个字段检索是否存在与所述字段相同的历史情报数据;
统计模块,用于在存在所述相同情报数据的情况下,将所述情报数据的历史出现次数加1;
评分模块,用于将所述情报数据按照预设数据质量评分规则进行数据质量评分;
确定模块,用于根据所述数据质量评分和所述历史出现次数确定所述情报数据的质量。
11.如权利要求10所述的装置,其特征在于,还包括:
获取模块,用于获取所述情报数据包含的各个字段对应的历史关注度和/或历史命中度,其中,所述关注度为通过预定页面检索某个字段时在所述历史情报数据库中查询到的次数,所述命中度为设备上报的反馈记录为某个字段时在所述历史情报数据库中查询到的次数;
所述确定模块,还用于根据所述数据质量评分和所述历史出现次数,以及所述关注度和/或所述命中度确定所述情报数据的质量。
12.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述方法的步骤。
CN201910338954.6A 2019-04-25 2019-04-25 一种数据质量评估方法、装置及存储介质 Active CN110098961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910338954.6A CN110098961B (zh) 2019-04-25 2019-04-25 一种数据质量评估方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910338954.6A CN110098961B (zh) 2019-04-25 2019-04-25 一种数据质量评估方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110098961A true CN110098961A (zh) 2019-08-06
CN110098961B CN110098961B (zh) 2022-04-01

Family

ID=67445821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910338954.6A Active CN110098961B (zh) 2019-04-25 2019-04-25 一种数据质量评估方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110098961B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110768955A (zh) * 2019-09-19 2020-02-07 杭州安恒信息技术股份有限公司 基于多源情报主动采集与聚合数据的方法
CN111160749A (zh) * 2019-12-23 2020-05-15 北京神州绿盟信息安全科技股份有限公司 一种情报质量评估和情报融合方法及装置
CN111932427A (zh) * 2020-09-24 2020-11-13 北京泰策科技有限公司 一种基于多模态数据的突发公共安全事件检测方法及系统
CN112087451A (zh) * 2020-09-09 2020-12-15 杭州安恒信息技术股份有限公司 一种网络安全防护方法、装置、设备及可读存储介质
CN113127459A (zh) * 2019-12-31 2021-07-16 贵州医渡云技术有限公司 一种数据治理的实现方法、装置、可读介质及电子设备
CN113392076A (zh) * 2021-07-08 2021-09-14 网银在线(北京)科技有限公司 获取元数据质量信息的方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160104298A1 (en) * 2014-10-14 2016-04-14 Soonchunhyang University Industry Academy Cooperation Foundation Apparatus and method for poomsae recognition and dan promotion test of taekwondo based on skeleton of human body using depth camera
CN107239707A (zh) * 2017-06-06 2017-10-10 国家电投集团河南电力有限公司技术信息中心 一种用于信息系统的威胁数据处理方法
CN107730096A (zh) * 2017-09-29 2018-02-23 北京神州绿盟信息安全科技股份有限公司 一种情报数据源的质量评估方法及装置
CN108243060A (zh) * 2017-01-19 2018-07-03 上海直真君智科技有限公司 一种基于大数据预分类的网络安全告警风险判定方法
CN109299174A (zh) * 2018-09-11 2019-02-01 北京奇安信科技有限公司 一种多源情报数据聚合处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160104298A1 (en) * 2014-10-14 2016-04-14 Soonchunhyang University Industry Academy Cooperation Foundation Apparatus and method for poomsae recognition and dan promotion test of taekwondo based on skeleton of human body using depth camera
CN108243060A (zh) * 2017-01-19 2018-07-03 上海直真君智科技有限公司 一种基于大数据预分类的网络安全告警风险判定方法
CN107239707A (zh) * 2017-06-06 2017-10-10 国家电投集团河南电力有限公司技术信息中心 一种用于信息系统的威胁数据处理方法
CN107730096A (zh) * 2017-09-29 2018-02-23 北京神州绿盟信息安全科技股份有限公司 一种情报数据源的质量评估方法及装置
CN109299174A (zh) * 2018-09-11 2019-02-01 北京奇安信科技有限公司 一种多源情报数据聚合处理方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110768955A (zh) * 2019-09-19 2020-02-07 杭州安恒信息技术股份有限公司 基于多源情报主动采集与聚合数据的方法
CN110768955B (zh) * 2019-09-19 2022-03-18 杭州安恒信息技术股份有限公司 基于多源情报主动采集与聚合数据的方法
CN111160749A (zh) * 2019-12-23 2020-05-15 北京神州绿盟信息安全科技股份有限公司 一种情报质量评估和情报融合方法及装置
CN111160749B (zh) * 2019-12-23 2023-07-21 绿盟科技集团股份有限公司 一种情报质量评估和情报融合方法及装置
CN113127459A (zh) * 2019-12-31 2021-07-16 贵州医渡云技术有限公司 一种数据治理的实现方法、装置、可读介质及电子设备
CN113127459B (zh) * 2019-12-31 2023-08-29 贵州医渡云技术有限公司 一种数据治理的实现方法、装置、可读介质及电子设备
CN112087451A (zh) * 2020-09-09 2020-12-15 杭州安恒信息技术股份有限公司 一种网络安全防护方法、装置、设备及可读存储介质
CN111932427A (zh) * 2020-09-24 2020-11-13 北京泰策科技有限公司 一种基于多模态数据的突发公共安全事件检测方法及系统
CN111932427B (zh) * 2020-09-24 2021-01-26 北京泰策科技有限公司 一种基于多模态数据的突发公共安全事件检测方法及系统
CN113392076A (zh) * 2021-07-08 2021-09-14 网银在线(北京)科技有限公司 获取元数据质量信息的方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN110098961B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN110098961A (zh) 一种数据质量评估方法、装置及存储介质
US11475143B2 (en) Sensitive data classification
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
US20200034689A1 (en) A method for retrieving a recommendation from a knowledge database of a ticketing system
CN106296195A (zh) 一种风险识别方法及装置
CN101408886A (zh) 通过分析文档的段落来选择该文档的标签
CN110377731A (zh) 投诉文本处理方法、装置、计算机设备及存储介质
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN109359302A (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
CN110457595A (zh) 突发事件报警方法、装置、系统、电子设备及存储介质
Shekhawat Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach
CN113139705A (zh) 业务项目的风险识别方法及装置
Loyola et al. UNSL at eRisk 2021: A Comparison of Three Early Alert Policies for Early Risk Detection.
WO2006114328A1 (en) Test mining systems and methods for early detection and warning
Quelle et al. The perils and promises of fact-checking with large language models
Eskandari et al. Predicting best answer using sentiment analysis in community question answering systems
CN105405051A (zh) 金融事件预测方法和装置
CN114969334B (zh) 异常日志检测方法、装置、电子设备及可读存储介质
US11568153B2 (en) Narrative evaluator
JP6589036B1 (ja) 障害予兆検知システムおよびプログラム
CN112396498A (zh) 一种商品推销方法、装置、设备及存储介质
Pranowo et al. Monitoring System of Natural Disaster from Twitter Messages Using Support Vector Machine
CN110147448A (zh) 短信诈骗分类方法及系统
Lin et al. IndiTag: An Online Media Bias Analysis and Annotation System Using Fine-Grained Bias Indicators
CN111222040B (zh) 一种基于培训需求的方案自匹配处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant