CN111353300B - 一种数据集构建和相关信息获取方法及其装置 - Google Patents

一种数据集构建和相关信息获取方法及其装置 Download PDF

Info

Publication number
CN111353300B
CN111353300B CN202010093817.3A CN202010093817A CN111353300B CN 111353300 B CN111353300 B CN 111353300B CN 202010093817 A CN202010093817 A CN 202010093817A CN 111353300 B CN111353300 B CN 111353300B
Authority
CN
China
Prior art keywords
data
sub
initial
tag
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010093817.3A
Other languages
English (en)
Other versions
CN111353300A (zh
Inventor
王立成
刘贺鹏
李欣
赵忠华
付培国
王禄恒
万欣欣
孙立远
张冰
杜漫
余智华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golaxy Data Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Golaxy Data Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golaxy Data Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Golaxy Data Technology Co ltd
Priority to CN202010093817.3A priority Critical patent/CN111353300B/zh
Publication of CN111353300A publication Critical patent/CN111353300A/zh
Application granted granted Critical
Publication of CN111353300B publication Critical patent/CN111353300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据集构建方法及装置,包括步骤:数据采集,获取来自互联网数据源的第一数据,所述第一数据包括自然语言,所述第一数据经过预处理后,生成第二数据;数据特征分析,所述第二数据包括子数据,所述子数据包括第一特征数据,分析所述第一特征数据,得出所述第一特征数据的特征度;数据标签建立,根据所述第一特征数据的特征度确定所述子数据标签;数据分类存储,根据所述子数据标签将所述子数据分类保存,保存为数据集。实时采集互联网中的数据;根据特征数据和特征度提取对应的标签;通过所述子数据标签将所述子数据进行分类提高提取速度,提高工作效率。本发明提供了一种相关信息获取方法及装置,提高准确性,提高工作效率。

Description

一种数据集构建和相关信息获取方法及其装置
技术领域:
本发明涉及自然语言处理的语义分析领域,具体的,涉及一种数据集构建和相关信息获取方法及其装置。
背景技术:
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。当前动态信息获取大多关缺乏对以事件为核心的动态知识的刻画和构建。从应用角度看,由于单纯的实体知识库,不能满足日益复杂的需求和应用领域对知识图谱越来越高的期望,信息会随着事件的发生及演化而导致其中若干实体关系或实体属性的失真,从而间接影响已建实体知识库的精准性,因此正确捕捉事件、正确解析事件有利于及时校准知识库。通过历史相似事件比对,分析时域、地域及用户等多维因素对事件舆情走势的影响,有利于掌握事件的演化趋势。
面向事件的信息不同于普通的知识图谱,在于它在描述事件的过程当中,不可避免地会与实体信息库之间产生互动,包括实体、关系、属性、事件、事件属性、事件参与角色(论元)和事件之间的特殊关联关系等。另外,事件关系抽取则必须要考虑事件对实体、事件对时空属性、事件对事件等多种不同复杂情况。因此,建立事件间的因果、顺承、细分、概括等关联关系的复杂网络,已受到人工智能类技术公司的高度重视。
综上所述,当前实时舆情分析主要还是集中在历史信息上,针对事件的发展,及发展后的结果分析比较差。因此实时分析事件的构成要素和特点是亟待解决的问题。
因此,本领域亟需一种数据集构建和相关信息获取方法及其装置以解决现有技术中的至少一项技术问题。
发明内容:
为解决背景技术中的至少一个技术问题,提出本发明。
具体的,本发明的第一方面,提供了一种数据集构建方法,包括步骤:
数据采集,获取来自互联网数据源的第一数据,所述第一数据包括自然语言,所述第一数据经过预处理后,生成第二数据;
数据特征分析,所述第二数据包括子数据,所述子数据包括第一特征数据,分析所述第一特征数据,得出所述第一特征数据的特征度;
数据标签建立,根据所述第一特征数据的特征度确定所述子数据标签;
数据分类存储,根据所述子数据标签将所述子数据分类保存,保存为数据集。
采用上述技术方案,实时采集互联网中的数据,保证数据的全面性;对于每个子数据分析出所述第一特征数据,并分析出所述第一特征数据对应的特征度,根据特征度提取对应的标签;通过所述子数据标签将所述子数据进行分类,对于同一类的子数据分在同一类别,方便提取子数据,提高提取速度,提高工作效率。
进一步地,所述获取来自互联网数据源的第一数据,通过自动抽取组件获取所述第一数据,所述自动抽取组件包括Prophet、Constor、Mask和Indilator中的至少一种。
优选地,所述数据集构建方法还包括子数据类型排序,所述第一数据每隔第一时间段采集一次,根据所述第一时间段的各所述子数据类型的子数据增量对所述子数据类型排序。
采用上述方案,所述子数据类型排序实时更新,根据实时热度将对应时段热度高的分类置于前列,对于实时热度高的数据有更大的可能被提取,将热度高的分类置于前列可以进一步提高提取效率。
进一步地,所述预处理包括:噪声去除、分句、分词中的至少一种方法。
进一步地,所述第一特征数据的获取步骤包括:
通过将所述子数据进行分词,将所述子数据分成候选文字串,所述候选文字串包括中文候选文字串和非中文候选文字串;
将所述非中文候选文字串直接作为所述第一特征数据;
分析所述中文候选文字串在所述子数据中的出现频率;
接收频率阈值参数;
判断所述中文候选文字串是否大于所述频率阈值参数:
若否,判定不为所述第一特征数据,
若是,判定为所述第一特征数据。
采用上述方案,一方面避免了传统分词方法中容易丢失部分特征数据的问题,另一方面,对于非中文候选文字串具备特殊性,直接作为特征数据,提高特征数据分析效率。
进一步地,所述第一特征数据的特征度根据所述第一特征数据在所述子数据中的出现频率确定。
进一步地,根据所述第一特征数据的特征度确定所述子数据标签的步骤还包括:
分析所述第一特征数据得出第一特征向量,
结合所述第一特征向量和所述第一特征数据的特征度,得出第二特征向量;
判断所述第二特征向量个数是否大于第一数量阈值参数:
若否,输出所述第二特征向量为所述子数据标签;
若是,分析所述第二特征向量,输出子数据标签。
采用上述方案,将所述第一特征数据转化成所述第一特征向量,将所述第一特征数据数字化,便于分析,结合所述第一特征向量和所述第一特征数据的特征度,分析出该第一特征向量的重要程度,快速计算出所述第二特征向量,确定所述子数据标签,提高数据标签确定精确度。
进一步地,所述根据所述子数据标签将所述子数据分类保存包括:将所述子数据标签划分成子标签,所述子数据标签包括第一子标签、第二子标签、第三子标签和第四子标签,将所述第一子标签相同的子数据归为同一类。
优选地,将所述第一子标签、第二子标签、第三子标签和第四子标签顺序组合能组成原所述子数据标签。
采用上述方案,依据第一子标签将所述子数据分类保存,以简便的方式将所述子数据分类,使分类更加清晰,提高分类质量。
本发明另一方面,提供了一种相关信息获取方法,包括步骤:
获取初始信息;
根据所述初始信息确定初始信息标签;
根据所述初始信息标签在上述数据集中提取第一候选数据集,所述第一候选数据集包括第一候选数据;
接收相关度阈值参数,分析所述初始信息与所述第一候选数据,得出数据相关度;
判断所述数据相关度是否大于所述相关度阈值参数;
若是,判定所述大于所述相关度阈值参数的第一候选数据为无关数据;
若否,判定所述小于所述相关度阈值参数的第一候选数据为相关数据,
输出所述相关数据。
采用上述方案,通过相关度判断和类型判断准确判定出相关数据,提高判定相关数据的准确性,不需要人为干预,智能化识别出相关数据,提高工作效率。
进一步地,所述获取初始信息还包括:
读取初始信息地址信息;
根据所述初始信息地址信息确定第一初始信息;
处理所述第一初始信息,得出所述初始信息。
进一步地,所述处理所述第一初始信息包括噪声去除、分句、分词中的至少一种方法。
采用上述方案,通过地址信息获取所述初始信息,能够便捷可靠地获取初始信息,减小缓存压力,提高获取速度。
进一步地,根据所述初始信息确定初始信息标签包括:
所述初始信息包括第一初始特征数据,分析所述第一初始特征数据得出所述第一初始特征数据的特征度;
分析所述第一初始特征数据得出第一初始特征向量,
结合所述第一初始特征向量和所述第一初始特征数据的特征度,得出第二初始特征向量;
判断所述第二初始特征向量数量是否大于第二数量阈值参数:
若否,输出所述第二初始特征向量为所述初始信息数据标签;
若是,分析所述第二初始特征向量,输出所述初始信息数据标签。
采用上述方案,将所述初始信息标签化,通过对标签的比对,方便确定相关信息,避免了文字比对中同字不同意的问题,提高匹配出的相关信息与初始信息的相关性,提高匹配质量。
进一步地,所述根据所述初始信息标签在所述数据集中提取第一候选数据集包括:
将所述初始信息数据标签划分成第一初始子标签、第二初始子标签、第三初始子标签和第四初始子标签,所述第一初始子标签、第二初始子标签、第三初始子标签和第四初始子标签顺序组合能组成原所述初始信息数据标签;
将所述第一初始子标签、第二初始子标签、第三初始子标签和第四初始子标签分别作为第一初始子标签在所述数据集中提取出第一候选数据集。
采用上述方案,提取出数据集中与初始数据有相似的数据,避免数据漏查,既减小了数据查找范围又保证数据全面性。
进一步地,分析所述初始信息与所述第一候选数据,得出数据相关度包括:
接收所述初始信息数据标签和数据集中第一候选数据标签;
比对所述初始信息数据标签和第一候选数据标签;
输出数据标签中不同位的数量为所述数据相关度。
进一步地,所述初始信息数据标签和第一候选数据标签位数相等,所述比对所述初始信息数据标签和第一候选数据标签为同位比对。
采用上述方案,通过标签比对精确确定标签的相关度,通过标签的相关度确定数据信息的相关度,方便快捷。
优选地,所述相关信息获取方法对于同一所述初始信息每隔第二时间段提取一次所述相关数据。
采用上述方案,每隔所述第二时间段提取一次相关信息,可以通过多次提取分析出初始信息事件的发展走向,进而对该事件之后的发展做出有一定根据的预测。
进一步地,所述第二时间段大于所述第一时间段。
本发明另一方面提供了一种数据集获取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明另一方面提供了一种相关信息获取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
综上所述,本发明具有以下有益效果:
1.本发明提供的数据集获取方法,实时采集互联网中的数据,保证数据的全面性;分析出所述第一特征数据对应的特征度,根据特征度提取对应的标签;通过所述子数据标签将所述子数据进行分类,方便提取子数据,提高提取速度,提高工作效率;
2.本发明提供的数据集获取方法,有效的对子数据进行分词,一方面避免了传统分词方法中容易丢失部分特征数据的问题,另一方面,对于非中文候选文字串具备特殊性,直接作为特征数据,提高特征数据分析效率。
3.本发明提供的相关信息获取方法,通过相关度判断和类型判断准确判定出相关数据,提高判定相关数据的准确性,不需要人为干预,智能化识别出相关数据,提高工作效率。
4.本发明提供的相关信息获取方法,每隔所述第二时间段提取一次相关信息,可以通过多次提取分析出初始信息事件的发展走向,进而对该事件之后的发展做出有一定根据的预测,精确可查,多次提取,提高相关信息可信度。
附图说明
图1为本发明一种数据集构建方法一种实施方式的流程图;
图2为所述第一特征数据的获取步骤一种实施方式的流程图;
图3为根据所述第一特征数据的特征度确定所述子数据标签一种实施方式的流程图;
图4为本发明一种相关信息获取方法一种实施方式的流程图。
具体实施方式:
这里将详细地对示例性实施例进行说明,以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
为解决背景技术中的至少一项技术问题,本发明提供了一种数据集构建方法,包括步骤:
数据采集,获取来自互联网数据源的第一数据,所述第一数据包括自然语言,所述第一数据经过预处理后,生成第二数据;
数据特征分析,所述第二数据包括子数据,所述子数据包括第一特征数据,分析所述第一特征数据,得出所述第一特征数据的特征度;
数据标签建立,根据所述第一特征数据的特征度确定所述子数据标签;
数据分类存储,根据所述子数据标签将所述子数据分类保存,保存为数据集。
采用上述技术方案,实时采集互联网中的数据,保证数据的全面性;对于每个子数据分析出所述第一特征数据,并分析出所述第一特征数据对应的特征度,根据特征度提取对应的标签;通过所述子数据标签将所述子数据进行分类,对于同一类的子数据分在同一类别,方便提取子数据,提高提取速度,提高工作效率。
在具体实施过程中,所述互联网数据源包括但不限于微博、微信、知乎和百度贴吧。
在具体实施过程中,所述获取来自互联网数据源的第一数据,通过自动抽取组件获取所述第一数据,所述自动抽取组件包括Prophet、Constor、Mask和Indilator中的至少一种。
在一可选的实施方式中,所述自动抽取组件为Constor自动抽取组件。
采用上述方案,自动化程度高,自动获取网页关键信息,不需要人工对其进行定位,提供了噪音信息标注的功能。
在一可选的实施方式中,所述数据集构建方法还包括子数据类型排序,所述第一数据每隔第一时间段采集一次,根据所述第一时间段的各所述子数据类型的子数据增量对所述各子数据类型排序。
在具体实施过程中,所述子数据类型为A、B、C三种,在所述第一时间段内A增量为1,B增量为2,C增量为3,输出所述子数据类型排序为C,B,A,所述第一时间段可以为5s,10s,30s。
采用上述方案,所述子数据类型排序实时更新,根据实时热度将对应时段热度高的分类置于前列,对于实时热度高的数据有更大的可能被提取,将热度高的分类置于前列可以进一步提高提取效率。
在具体实施过程中,所述预处理包括:噪声去除、分句、分词中的至少一种方法。
在具体实施过程中,所述第一特征数据的获取步骤包括:
通过将所述子数据进行分词,将所述子数据分成候选文字串,所述候选文字串包括中文候选文字串和非中文候选文字串;
将所述非中文候选文字串直接作为所述第一特征数据;
分析所述中文候选文字串在所述子数据中的出现频率;
接收频率阈值参数;
判断所述中文候选文字串是否大于所述频率阈值参数:
若否,判定不为所述第一特征数据,
若是,判定为所述第一特征数据。
采用上述方案,一方面避免了传统分词方法中容易丢失部分特征数据的问题,另一方面,对于非中文候选文字串具备特殊性,直接作为特征数据,提高特征数据分析效率。
在具体实施过程中,所述通过将所述子数据进行分词可以通过jieba分词工具实现。
在具体实施过程中,所述中文候选文字串可以为大腿骨折了、跑步机、曾梦想仗剑走天涯;所述非中文候选文字串可以为nosql数据库、Wiki百科词典、C++#sqlserver2.0、Wi-fi、highperformance。
在具体实施过程中,所述第一特征数据的特征度根据所述第一特征数据在所述子数据中的出现频率确定。
在具体实施过程中,所述频率阈值参数可以是0.5%。
在具体实施过程中,所述第一特征数据的特征度确定所述子数据标签还包括:
分析所述第一特征数据得出第一特征向量,
结合所述第一特征向量和所述第一特征数据的特征度,得出第二特征向量;
判断所述第二特征向量个数是否大于第一数量阈值参数:
若否,输出所述第二特征向量为所述子数据标签;
若是,分析所述第二特征向量,输出子数据标签。
在具体实施过程中,所述第一数量阈值参数可以为1。
在具体实施过程中,所述子数据可以为“冰雪凝固住的一个永恒梦境”,所述第一特征数据为“冰雪凝固住的”和“一个永恒梦境”,所述“冰雪凝固住的”的第一特征向量为“01100011”,特征度为2,结合“01100011”和特征度2,得出第二特征向量“-2,2,2,-2,-2,-2,2,2”;所述“一个永恒梦境”第一特征向量为“10100101”,特征度为3,结合“10100101”和特征度3,得出第二特征向量“3,-3,3,-3,-3,3,-3,3”,第二特征向量数量为2,结合“-2,2,2,-2,-2,-2,2,2”和“3,-3,3,-3,-3,3,-3,3”得出“1,-1,5,-5,-5,1,-1,5”所述“冰雪凝固住的一个永恒梦境”的子数据标签为“10100101”。
采用上述方案,将所述第一特征数据转化成所述第一特征向量,将所述第一特征数据数字化,便于分析,结合所述第一特征向量和所述第一特征数据的特征度,分析出该第一特征向量的重要程度,快速计算出所述第二特征向量,确定所述子数据标签,提高数据标签确定精确度。
在具体实施过程中,所述根据所述子数据标签将所述子数据分类保存包括:将所述子数据标签划分成子标签,所述子数据标签包括第一子标签、第二子标签、第三子标签和第四子标签,将所述第一子标签相同的子数据归为同一类,所述子数据分类包括但不限于地区、时间、主要机构。
在具体实施过程中,所述子数据标签可以为“10100101”,“10100101”的第一子标签为“10”,第二子标签为“10”,第三子标签为“01”,第四子标签为“01”;所述子数据标签可以为“01100101”和“10110101”,所述“10110101”与“10100101”为同一类,“01100101”与“10100101”不为同一类。
具体实施过程中,第一子标签为“10”,第二子标签为“10”,第三子标签为“01”,第四子标签为“01”顺序组合,能组合成“10100101”。
采用上述方案,依据第一子标签将所述子数据分类保存,以简便的方式将所述子数据分类,使分类更加清晰,提高分类质量。
在本发明的另一些实施例中,本发明提供了一种相关信息获取方法,包括步骤:
获取初始信息;
根据所述初始信息确定初始信息标签;
根据所述初始信息标签在所述数据集中提取第一候选数据集,所述第一候选数据集包括第一候选数据;
接收相关度阈值参数,分析所述初始信息与所述第一候选数据,得出数据相关度;
判断所述数据相关度是否大于所述相关度阈值参数;
若是,判定所述大于所述相关度阈值参数的第一候选数据为无关数据;
若否,判定所述小于所述相关度阈值参数的第一候选数据为相关数据,
输出所述相关数据。
采用上述方案,通过相关度判断和类型判断准确判定出相关数据,提高判定相关数据的准确性,不需要人为干预,智能化识别出相关数据,提高工作效率。
在具体实施过程中,所述获取初始信息还包括:
读取初始信息地址信息;
根据所述初始信息地址信息确定第一初始信息;
处理所述第一初始信息,得出所述初始信息。
在具体实施过程中,所述读取初始信息地址信息可以为读取url地址信息,所述url地址信息可以为http://www.mov.gov.cn/zwllm/rsxx/201607/t20160729_5222968.htm,所述第一初始信息可以为http://www.mov.gov.cn/zwllm/rsxx/201607/t20160729_5222968.htm对应信息。
在具体实施过程中,所述处理所述第一初始信息包括噪声去除、分句、分词中的至少一种方法。
采用上述方案,通过地址信息获取所述初始信息,能够便捷可靠地获取初始信息,减小缓存压力,提高获取速度。
在具体实施过程中,根据所述初始信息确定初始信息标签包括:
所述初始信息包括第一初始特征数据,分析所述第一初始特征数据得出所述第一初始特征数据的特征度;
分析所述第一初始特征数据得出第一初始特征向量,
结合所述第一初始特征向量和所述第一初始特征数据的特征度,得出第二初始特征向量;
判断所述第二初始特征向量数量是否大于第二数量阈值参数:
若否,输出所述第二初始特征向量为所述初始信息数据标签;
若是,分析所述第二初始特征向量,输出所述初始信息数据标签。
在具体实施过程中,所述第二数量阈值参数可以为1。
在具体实施过程中,所述第一初始特征数据包括“清晨的一束阳光给天空留下彩色的吻痕”和“像是一条绚丽的彩带在天空延伸”,所述“清晨的一束阳光给天空留下彩色的吻痕”对应第一初始特征向量可以为“1011010101000010”,特征度为2,对应第二初始特征向量为“,2,-2,2,2,-2,2,-2,2,-2,2,-2,-2,-2,-2,2,-2”,所述“像是一条绚丽的彩带在天空延伸”对应第一初始特征向量可以为“1001011101110101”,特征度为3,对应第二初始特征向量为“3,-3,-3,3,-3,3,3,3,-3,3,3,3,-3,3,-3,3”;所述第二初始特征向量数量为2;所述分析所述第二初始特征向量,得出“5,-5,-1,5,-5,5,1,5,-5,5,1,1,-5,1,-1,1”,所述初始信息数据标签为“1001011101110101”。
采用上述方案,将所述初始信息标签化,通过对标签的比对,方便确定相关信息,避免了文字比对中同字不同意的问题,提高匹配出的相关信息与初始信息的相关性,提高匹配质量。
在具体实施过程中,所述根据所述初始信息标签在所述数据集中提取第一候选数据集包括:
将所述初始信息数据标签划分成第一初始子标签、第二初始子标签、第三初始子标签和第四初始子标签,所述第一初始子标签、第二初始子标签、第三初始子标签和第四初始子标签顺序组合能组成原所述初始信息数据标签;
将所述第一初始子标签、第二初始子标签、第三初始子标签和第四初始子标签分别作为第一初始子标签在所述数据集中提取出第一候选数据集。
在具体实施过程中,所述初始信息数据标签可以为“1001011101110101”,所述第一初始子标签为“1001”,第二初始子标签为“0111”,第三初始子标签为“1110”,第四初始子标签为“0101”;在所述数据集分别提取第一初始子标签为“1001”,“0111”,“1110”,“0101”的数据,提取为所述第一候选数据集。
采用上述方案,提取出数据集中与初始数据有相似的数据,避免数据漏查,既减小了数据查找范围又保证数据全面性。
在具体实施过程中,分析所述初始信息与所述第一候选数据,得出数据相关度包括:
接收所述初始信息数据标签和数据集中第一候选数据标签;
比对所述初始信息数据标签和第一候选数据标签;
输出数据标签中不同位的数量为所述数据相关度。
在具体实施过程中,所述初始信息数据标签和第一候选数据标签位数相等,所述比对所述初始信息数据标签和第一候选数据标签为同位比对。
在具体实施过程中,所述初始信息数据标签可以为“1100111001010100”,所述第一候选数据包括“1100111001010101”和“1101001011000110”,所述相关度阈值参数可以为4,“1100111001010100”比对“1100111001010101”得出不同位为1,1<4,相关度为1,“1100111001010100”对应的第一候选数据为相关数据,“1100111001010100”比对“1101001011000110”得出不同位为6,相关度为6,6>4,“1101001011000110”对应的第一候选数据为无关数据。
在一可选实施方式中,所述相关数据的关系包括、层次关系、组成关系、因果关系、跟随关系、并发关系中的至少一种。
采用上述方案,通过标签比对精确确定标签的相关度,通过标签的相关度确定数据信息的相关度,方便快捷。
在一可选的实施方式中,所述相关信息获取方法对于同一所述初始信息每隔第二时间段提取一次所述相关数据,所述第二时间段可以为10s,20s,60s。
采用上述方案,每隔所述第二时间段提取一次相关信息,可以通过多次提取分析出初始信息事件的发展走向,进而对该事件之后的发展做出有一定根据的预测。
在一可选的实施方式中,所述第二时间段大于所述第一时间段。
在本发明的另一些实施例中,本发明提供了一种数据集获取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法,因而具有上述任一实施例中的控制方法的全部有益效果,在此不再赘述。
在本发明的另一些实施例中,本发明提供了一种相关信息获取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法,因而具有上述任一实施例中的控制方法的全部有益效果,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种数据集构建方法,其特征在于,包括步骤:
数据采集,获取来自互联网数据源的第一数据,所述第一数据包括自然语言,所述第一数据经过预处理后,生成第二数据;
数据特征分析,所述第二数据包括子数据,所述子数据包括第一特征数据,分析所述第一特征数据,得出所述第一特征数据的特征度;
数据标签建立,根据所述第一特征数据的特征度确定所述子数据标签;
数据分类存储,根据所述子数据标签将所述子数据分类保存,保存为数据集;
所述第一特征数据的获取步骤包括:通过将所述子数据进行分词,将所述子数据分成候选文字串,所述候选文字串包括中文候选文字串和非中文候选文字串;将所述非中文候选文字串直接作为所述第一特征数据;分析所述中文候选文字串在所述子数据中的出现频率;接收频率阈值参数;判断所述中文候选文字串是否大于所述频率阈值参数:若否,判定不为所述第一特征数据,若是,判定为所述第一特征数据;
所述第一特征数据的特征度确定所述子数据标签还包括:分析所述第一特征数据得出第一特征向量;结合所述第一特征向量和所述第一特征数据的特征度,得出第二特征向量;判断所述第二特征向量个数是否大于第一数量阈值参数:若否,输出所述第二特征向量为所述子数据标签;若是,分析所述第二特征向量,输出子数据标签;
所述根据所述子数据标签将所述子数据分类保存包括:将所述子数据标签划分成子标签,所述子数据标签包括第一子标签、第二子标签、第三子标签和第四子标签,将所述第一子标签相同的子数据归为同一类;
相关信息获取包括步骤:获取初始信息;根据所述初始信息确定初始信息标签;根据所述初始信息标签在所述的数据集中提取第一候选数据集,所述第一候选数据集包括第一候选数据;接收相关度阈值参数,分析所述初始信息与所述第一候选数据,得出数据相关度;判断所述数据相关度是否大于所述相关度阈值参数;若是,判定大于所述相关度阈值参数的第一候选数据为无关数据;若否,判定小于所述相关度阈值参数的第一候选数据为相关数据,输出所述相关数据;
所述相关度获取方法为:依次对比初始信息数据标签和第一候选数据的每位数据,并判断是否相同,不同位的数量记为相关度;
根据所述初始信息确定初始信息标签包括:所述初始信息包括第一初始特征数据,分析所述第一初始特征数据得出所述第一初始特征数据的特征度;分析所述第一初始特征数据得出第一初始特征向量,结合所述第一初始特征向量和所述第一初始特征数据的特征度,得出第二初始特征向量;判断所述第二初始特征向量数量是否大于第二数量阈值参数:若否,输出所述第二初始特征向量为所述初始信息数据标签;若是,分析所述第二初始特征向量,输出所述初始信息数据标签;
将所述初始信息数据标签划分成第一初始子标签、第二初始子标签、第三初始子标签和第四初始子标签,所述第一初始子标签、第二初始子标签、第三初始子标签和第四初始子标签顺序组合能组成原所述初始信息数据标签;将所述第一初始子标签、第二初始子标签、第三初始子标签和第四初始子标签分别作为第一初始子标签在所述数据集中提取出第一候选数据集。
2.根据权利要求1所述的数据集构建方法,其特征在于:所述数据集构建方法还包括子数据类型排序,所述第一数据每隔第一时间段采集一次,根据所述第一时间段的各所述子数据类型的子数据增量对所述各子数据类型排序。
3.一种数据集构建装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-2任一项的方法。
4.一种相关信息获取装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-2任一项的方法。
CN202010093817.3A 2020-02-14 2020-02-14 一种数据集构建和相关信息获取方法及其装置 Active CN111353300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010093817.3A CN111353300B (zh) 2020-02-14 2020-02-14 一种数据集构建和相关信息获取方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010093817.3A CN111353300B (zh) 2020-02-14 2020-02-14 一种数据集构建和相关信息获取方法及其装置

Publications (2)

Publication Number Publication Date
CN111353300A CN111353300A (zh) 2020-06-30
CN111353300B true CN111353300B (zh) 2023-09-01

Family

ID=71195720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010093817.3A Active CN111353300B (zh) 2020-02-14 2020-02-14 一种数据集构建和相关信息获取方法及其装置

Country Status (1)

Country Link
CN (1) CN111353300B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257760B (zh) * 2023-05-11 2023-08-11 浪潮电子信息产业股份有限公司 一种数据划分方法、系统、设备及计算机可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备
US8064722B1 (en) * 2006-03-07 2011-11-22 The United States Of America As Represented By The Secretary Of The Navy Method and system for analyzing signal-vector data for pattern recognition from first order sensors
CN104408033A (zh) * 2014-11-25 2015-03-11 中国人民解放军国防科学技术大学 一种文本信息提取的方法及系统
CN105488077A (zh) * 2014-10-10 2016-04-13 腾讯科技(深圳)有限公司 生成内容标签的方法和装置
WO2016118513A1 (en) * 2015-01-20 2016-07-28 The Broad Institute, Inc. Method and system for analyzing biological networks
CN108140061A (zh) * 2015-06-05 2018-06-08 凯撒斯劳滕工业大学 网络模体的自动确定
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN110059271A (zh) * 2019-06-19 2019-07-26 达而观信息科技(上海)有限公司 运用标签知识网络的搜索方法及装置
CN110348362A (zh) * 2019-07-05 2019-10-18 北京达佳互联信息技术有限公司 标签生成、视频处理方法、装置、电子设备及存储介质
CN110413780A (zh) * 2019-07-16 2019-11-05 合肥工业大学 文本情感分析方法、装置、存储介质及电子设备
CN110414621A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于多示例学习的分类器构建方法及装置
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577111A (zh) * 2022-11-09 2023-01-06 哈尔滨理工大学 基于自注意力机制的文本分类方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8064722B1 (en) * 2006-03-07 2011-11-22 The United States Of America As Represented By The Secretary Of The Navy Method and system for analyzing signal-vector data for pattern recognition from first order sensors
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备
CN105488077A (zh) * 2014-10-10 2016-04-13 腾讯科技(深圳)有限公司 生成内容标签的方法和装置
CN104408033A (zh) * 2014-11-25 2015-03-11 中国人民解放军国防科学技术大学 一种文本信息提取的方法及系统
WO2016118513A1 (en) * 2015-01-20 2016-07-28 The Broad Institute, Inc. Method and system for analyzing biological networks
CN108140061A (zh) * 2015-06-05 2018-06-08 凯撒斯劳滕工业大学 网络模体的自动确定
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN110059271A (zh) * 2019-06-19 2019-07-26 达而观信息科技(上海)有限公司 运用标签知识网络的搜索方法及装置
CN110348362A (zh) * 2019-07-05 2019-10-18 北京达佳互联信息技术有限公司 标签生成、视频处理方法、装置、电子设备及存储介质
CN110413780A (zh) * 2019-07-16 2019-11-05 合肥工业大学 文本情感分析方法、装置、存储介质及电子设备
CN110414621A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于多示例学习的分类器构建方法及装置
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multiclass Data Segmentation Using Diffuse Interface Methods on Graphs;Cristina Garcia-Cardona;《 IEEE Transactions on Pattern Analysis and Machine Intelligence 》;第36卷(第8期);1600 - 1613 *

Also Published As

Publication number Publication date
CN111353300A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
US10402163B2 (en) Intelligent data extraction
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
US9104709B2 (en) Cleansing a database system to improve data quality
US20090192996A1 (en) Method and apparatus for collecting entity aliases
CN104573028A (zh) 实现智能问答的方法和系统
CN108829661B (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN112906375B (zh) 文本数据标注方法、装置、设备及存储介质
WO2012158572A2 (en) Exploiting query click logs for domain detection in spoken language understanding
CN107688563B (zh) 一种同义词的识别方法及识别装置
CN104765882A (zh) 一种基于网页特征字符串的互联网网站统计方法
CN111353300B (zh) 一种数据集构建和相关信息获取方法及其装置
CN112328469B (zh) 一种基于嵌入技术的函数级缺陷定位方法
CN112003884B (zh) 一种网络资产的采集和自然语言检索方法
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
CN114238735B (zh) 一种互联网数据智能采集方法
CN113688240B (zh) 威胁要素提取方法、装置、设备及存储介质
CN115438645A (zh) 一种序列标注任务的文本数据增强方法及系统
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
CN110930189A (zh) 基于用户行为的个性化营销方法
Kienreich et al. Plagiarism detection in large sets of press agency news articles
CN112015888B (zh) 摘要信息提取方法和摘要信息提取系统
CN110990738B (zh) 一种网页正文及要素提取的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant