CN107844548A - 一种数据标签方法和装置 - Google Patents

一种数据标签方法和装置 Download PDF

Info

Publication number
CN107844548A
CN107844548A CN201711033523.6A CN201711033523A CN107844548A CN 107844548 A CN107844548 A CN 107844548A CN 201711033523 A CN201711033523 A CN 201711033523A CN 107844548 A CN107844548 A CN 107844548A
Authority
CN
China
Prior art keywords
label
data
behavioral agent
behavioral
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711033523.6A
Other languages
English (en)
Inventor
谢永恒
童克冬
火莽
火一莽
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201711033523.6A priority Critical patent/CN107844548A/zh
Publication of CN107844548A publication Critical patent/CN107844548A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据标签方法和装置。其中该方法包括:获取海量行为日志数据;从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性;依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合;将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。本发明实现了对海量数据的提炼、整合和标签化处理,可以帮助业务人员通过数字化手段加深对数据的理解、刻画及精准识别。

Description

一种数据标签方法和装置
技术领域
本发明实施例涉及计算机大数据领域,尤其涉及一种数据标签方法和装置。
背景技术
随着大数据逐步走过了探索阶段、市场启动阶段,大数据已经进入从概念到实际应用的关键转折期。大数据在接受度、技术、应用等各个方面趋于成熟,开始步入产业的快速发展阶段。大数据巨大的应用价值带动了大数据行业的迅速发展。
随着各类行业大数据整合的逐步推进,许多问题有待解决,如:如何从海量数据中有效提炼有效信息和整合数据?如何基于已有的数据分析技能自助式地灵活分析和应用知识?如何将自身业务经验数字化,将经验转化为知识?数据分析人员如何基于业务经验积累进行数据创新和迭代优化?数据不等于知识,如果缺乏有效的“知识”提炼和整合,用户将快速淹没在海量数据中。因此,一种可以从海量数据中有效提取和整合数据,并以标签形式为基础构建的管理工具有待提出。
发明内容
本发明实施例提供了一种数据标签方法和装置,以实现对海量数据的提炼和整合和标签化处理。
第一方面,本发明实施例提供了一种数据标签方法,包括:
获取海量行为日志数据;
从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性;
依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合;
将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。
第二方面,本发明实施例还提供了一种数据标签装置,包括:
数据获取模块,用于获取海量行为日志数据;
数据提取模块,用于从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性;
数据整合模块,用于依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合;
数据打标模块,用于将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。
本发明实施例通过获取海量行为日志数据,从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性,并依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合,将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。实现了对海量数据的提炼、整合和标签化处理,可以帮助业务人员通过数字化手段加深对数据的理解、刻画及精准识别。
附图说明
图1为本发明实施例一中的一种数据标签方法的流程图;
图2为本发明实施例一中的一种标签分类组织图;
图3为本发明实施例二中的一种数据标签方法的流程图;
图4为本发明实施例三中的数据处理的完整过程图;
图5为本发明实施例三中的流式环节的初始化过程图;
图6为本发明实施例三中的离线环节的初始化过程图;
图7为本发明实施例三中的数据提取和整合功能组成图;
图8为本发明实施例三中的数据提取过程图;
图9为本发明实施例三中的数据整合过程图;
图10为本发明实施例三中的数据提取和整合的处理流程图;
图11为本发明实施例三中的数据标签计算的功能组成图;
图12为本发明实施例三中的数据标签计算的技术实现图
图13为本发明实施例三中的数据标签计算的处理流程图;
图14为本发明实施例三中的数据入库的功能组成图;
图15为本发明实施例四中的一种数据标签装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的一种数据标签方法的流程图,本实施例可适用于对数据进行标签处理的情况,该方法可以由一种数据标签装置来执行,具体包括如下步骤:
步骤110、获取海量行为日志数据。
具体的,当前大多数网络应用或设备每天都会产生大量的行为日志数据,首先获取这些海量的行为日志数据,为后续的数据处理做准备。
步骤120、从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性。
在本实施例中,行为主体为上述网络应用或设备的使用者,如应用的账户或群号码等。
具体的,各行为主体的标识以及属性可以通过提取策略来实现,所述提取策略为根据不同的数据预先设置的提取规则,可以自行设置。
步骤130、依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合。
具体的,同一行为主体标识的属性的合并可以通过整合策略来实现,形成一个更为完整和序列化的信息集合,所述整合策略为根据不同类型的数据预先设置的整合规则,可以自行设置。
步骤140、将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。
需要说明的,还可以将各行为主体的属性集合和/或行为日志数据与预设的标签规则进行匹配。
在本实施例中,所述标签规则为标签的存储格式,可以包括:标签ID、标签类别、标签名称、规则条件、创建人员、创建时间、使用状态以及备注说明等,所述标签规则可以在知识库中进行设置,且采用普通关系型数据库进行存储管理,例如:mysql、oracle等数据库。
所述知识库主要用于标签规则设置,是用户将业务经验转化为标签的技术手段之一。用户在添加标签规则时,可以引用知识库。本实施例中知识库包括:人员类、物品类(比如:违禁物品、易燃易爆物品等)、地点类(盗窃高发地、易爆高发地)、关键词(黄色关键词)、网站及APP库(黄色网站、翻墙工具)等。
示例性的,一个标签规则的内容组成如表1所示。
表1标签规则的内容组成示例表
具体的,在将各行为主体的属性集合与预设的标签规则进行匹配之前,首先要对标签进行分类,标签的分类组织采用两级分类的管理方式,具体的分类可以自行设置。示例性的,图2为一种标签分类组织图,其中标签先进行第一级分类,分为人员类标签、组织类标签和关系类标签,再对上述各第一级分类进行第二级分类,如人员类标签分为年龄标签、民族标签、职业标签和兴趣标签。
在本实施例中,在将各行为主体的属性集合与预设的标签规则进行匹配之前,还包括标签维护,所述标签维护具体包括上述标签分类和标签规则的增删改查。
具体的,将各行为主体的属性集合与预设的标签规则中的内容一一进行匹配,若与标签规则中的一个内容匹配上,则为相应的行为主体添加此内容的标签。一个行为主体可以添加多个标签规则中的内容标签,一个内容标签下也可以有多个行为主体。
需要说明的是,在为各行为主体添加标签后,还包括数据入库,所述数据入库可以对添加过标签后的各类数据进行存储,通过存储策略来设定数据的存储位置、存储周期、库表名称,存储策略可以自行设置。
需要说明的是,在为各行为主体添加标签后,还包括设置标签魔方,所述标签魔方可以实现通过标签快速筛选和查找对象数据的功能,根据标签信息获取中标对象信息。
本发明实施例通过获取海量行为日志数据,从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性,并依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合,将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。实现了对海量数据的提炼、整合和标签化处理,可以帮助业务人员通过数字化手段加深对数据的理解、刻画及精准识别。
实施例二
图3为本发明实施例二中的一种数据标签方法的流程图,本实施例在上述实施例的基础上,进一步优化了上述数据标签方法。相应的,如图3所示,本实施例的方法具体包括:
步骤210、获取海量行为日志数据。
步骤220、通过清洗策略对获取的行为日志数据进行清洗。
在本实施例中,对获取的行为日志数据进行清洗是对数据的预加工处理,可以通过清洗策略来实现,所述清洗策略为根据不同的数据预先设置的清洗规则,可以自行设置。
步骤230、从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性。
步骤240、依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合。
步骤250、将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。
在本实施例中,对行为主体添加标签的方式包括基于行为主体的基本信息、基于不同行为主体之间的关联关系和基于行为主体的行为信息,当基于不同行为主体之间的关联关系进行标签的添加时,执行步骤251;当基于行为主体的基本信息进行标签的添加时,执行步骤252;当基于行为主体的行为信息进行标签的添加时,执行步骤253。
步骤251、基于不同行为主体之间的关联关系进行标签的添加。
对数据基于不同行为主体之间的关联关系进行标签添加的具体步骤包括:
步骤2511、依据各行为主体的属性集合确定不同行为主体之间的关联关系。
具体的,所述不同行为主体之间的关联关系包括存在关联和不存在关联,存在关联时具体的关联关系类型可以有很多种。
需要说明的是,不同行为主体之间的关联关系还可以直接从行为日志数据中提取。
步骤2512、将不同行为主体之间的关联关系与预设关联关系标签中的关系类型进行匹配,并依据匹配结果确定不同行为主体的关联关系标签。
具体的,当不同行为主体之间存在关联时,将此关联关系与预设的关联关系标签中的关系类型进行匹配,判断是否匹配成功,若与一种关系类型匹配成功,则为相关的行为主体添加此关联关系的标签。
步骤252、基于行为主体的基本信息进行标签的添加。
对数据基于行为主体的基本信息进行标签添加的具体步骤包括:
步骤2521、依据各行为主体的属性集合确定各行为主体的基本信息。
在本实施例中,所述行为主体的基本信息包括行为主体的文本类基本信息和非文本类基本信息,若行为主体的基本信息为文本类基本信息,则执行步骤2522;若行为主体的基本信息为非文本类基本信息,则执行步骤2523。
步骤2522、将各行为主体的文本类基本信息与预设的关键词标签规则中的关键词进行匹配,并依据匹配结果确定各行为主体的关键词标签。
具体的,将各行为主体的文本类基本信息与预设的关键词标签规则中的关键词进行匹配,所述匹配通过关键词匹配算法进行,具体的算法可以自行设置。若与一个关键词匹配成功,则对相应行为主体添加此关键词的标签。
步骤2523、将各行为主体的非文本类基本信息与数据属性标签规则中的字段取值进行匹配,并依据匹配结果确定各行为主体的数据属性标签。
具体的,将各行为主体的非文本类基本信息与数据属性标签规则中的字段取值进行匹配,若行为主体的字段取值符合一种数据属性标签规则条件,则匹配成功,对相应的行为主体添加此数据属性标签。
步骤253、基于行为主体的行为信息进行标签的添加。
对数据基于行为主体的行为信息进行标签添加具体步骤包括:
步骤2531、依据各行为主体的属性集合确定行为主体的行为信息。
在本实施例中,所述行为主体的行为信息反应行为主体的行为规律,首先确定上述行为信息。
步骤2532、将行为主体的行为信息与预设行为规律标签中的行为规律特征进行匹配,并依据匹配结果确定行为主体的规律标签。
具体的,将行为主体的行为信息与预设行为规律标签中的行为规律特征进行匹配,若行为主体的行为信息符合预设的一个规律标签中的行为规律特征,则匹配成功,并对相应的行为主体添加此规律标签。
本发明实施例通过获取海量行为日志数据,并对数据进行清洗,从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性,并依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合,将各行为主体的属性集合与预设的标签规则进行匹配,并基于行为主体的基本信息、基于不同行为主体之间的关联关系和基于行为主体的行为信息的方式为各行为主体添加标签。实现了对海量数据的提炼、整合和不同方式的标签化处理,可以帮助业务人员通过数字化手段加深对数据的理解、刻画及精准识别。
实施例三
上述各实施例的基础上,本实施例提供具体地对数据标签方法基于Spark计算框架进行进一步说明。
Spark计算框架是一个基于内存计算的开源的分布式集群并行计算框架,是一种快速处理大规模数据的通用引擎。Spark将中间数据放到内存中,对于迭代运算效率比较高。Spark生态圈以Spark Core为核心,从Hadoop分布式文件系统(Hadoop DistributedFile System,HDFS)和Hadoop分布式存储系统(Hadoop Database,HBase)等持久层读取数据,以Hadoop另一种资源管理器(Yet Another Resource Negotiator,YARN)为资源管理调度Job完成Spark应用程序的计算,主要包括:Spark Shell/Spark sumbit的批处理、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLib/MLbase的机器学习、GraphX的图处理和SparkR的数学计算等等。
示例性的,图4为本发明实施例三中的数据处理的完整过程图。如图4所示,数据处理的完整过程包括:开始、任务初始化过程、数据提取和整合、数据标签计算、数据入库和结束。
具体的,所述任务初始化过程在流式环节和离线环节有所不同,流式环节从Kafka中读取数据然后逐条处理,离线环节从HDFS中读取数据,然后逐条处理。图5为本发明实施例三中的流式环节的初始化过程图,图6为本发明实施例三中的离线环节的初始化过程图。在本发明实施例中,通过Spark Streaming来完成海量数据的流式环节的处理,通过Sparksumbit来完成海量数据的离线环节的处理。任务初始化完成后,流式环节和离线环节的数据提取和整合、数据标签计算以及数据入库的处理逻辑基本一致。
示例性的,图7为本发明实施例三中的数据提取和整合功能组成图。如图7所示,数据提取和整合包括从Kafka读取数据、数据预加工处理、数据提取、数据整合和数据入库。
具体的,在Kafka集群中缓存着各个前端接入多源异构数据,格式为key+value方式,key为namespace.dataset,value为结构化数据对应的protocol buffer格式数据。这些数据将在spark的各个计算环节中传递和使用,先根据key获取相应的元数据,然后通过元数据来解释和处理protocol buffer中的数据。
具体的,在数据预加工处理即数据清洗过程中,任务启动过程时加载DataClean.xml中的所有数据清洗策略内容到DataCleanHashList,根据从日志数据中得到的key(namespace+dataset)快速在DataCleanHashList中找到相应的清洗策略,根据策略中指定的各个字段进行判断,只有符合条件的数据才会传递到下一步骤进一步处理。
图8为本发明实施例三中的数据提取过程图。如图8所示,在数据提取过程中,任务启动过程时加载ObjectExtract.xml中的所有数据提炼策略内容到ObjectExtractHashList中,根据上一步骤传递过来的key(namespace+dataset)快速在ObjectExtractHashList中找到相应的提取策略,根据策略中指定的源目标数据集及各个字段的提取方式进行提取,得到相应的各行为主体的标识以及各行为主体的属性。
图9为本发明实施例三中的数据整合过程图。如图9所示,在数据整合过程中,任务启动过程时加载ObjectMerge.xml中的所有对象数据归并策略内容到ObjectMergeHashList中,根据上一步骤传递过来的key(namespace+dataset)快速在ObjectExtractHashList中找到相应的整合策略,根据策略对同一类型的数据进行合并。
示例性的,图10为本发明实施例三中的数据提取和整合的处理流程图,反应数据提取和整合的具体处理流程。示例性的,图11为本发明实施例三中的数据标签计算的功能组成图,图12为本发明实施例三中的数据标签计算的技术实现图,图13为本发明实施例三中的数据标签计算的处理流程图。
具体的,在数据入库过程中,在任务启动过程时加载DataStorage.xml中的所有数据存储策略内容到DataStorageHashList中,根据上一环节传递过来的key(namespace+dataset)快速在DataStorageHashList中找到相应的存储策略,根据策略中指定存储位置、存储周期、库表名进行存储。图14为本发明实施例三中的数据入库的功能组成图。
本发明实施例基于Spark计算框架通过数据清洗、数据提取和整合、数据标签计算和数据入库,实现了对海量数据的提取、整合和实时/离线标签化处理,提高了处理速度和效率,可以帮助业务人员通过数字化手段加深对数据的理解、刻画及精准识别。
实施例四
图15为本发明实施例四中的一种数据标签装置的结构示意图。如图15所示,所述装置可以包括:
数据获取模块310,用于获取海量行为日志数据。
数据提取模块320,用于从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性。
数据整合模块330,用于依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合。
数据打标模块340,用于将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。
进一步的,所述数据打标模块340包括:基本信息打标单元,具体用于:
依据各行为主体的属性集合确定各行为主体的基本信息;
将各行为主体的文本类基本信息与预设的关键词标签规则中的关键词进行匹配,并依据匹配结果确定各行为主体的关键词标签;
将各行为主体的非文本类基本信息与数据属性标签规则中的字段取值进行匹配,并依据匹配结果确定各行为主体的数据属性标签。
示例性的,所述数据打标模块340还包括:关联关系打标单元,具体用于:
依据各行为主体的属性集合确定不同行为主体之间的关联关系;
将不同行为主体之间的关联关系与预设关联关系标签中的关系类型进行匹配,并依据匹配结果确定不同行为主体的关联关系标签。
示例性的,所述数据打标模块340还包括:行为信息打标单元,具体用于:
依据各行为主体的属性集合确定行为主体的行为信息;
将行为主体的行为信息与预设行为规律标签中的行为规律特征进行匹配,并依据匹配结果确定行为主体的规律标签。
示例性的,所述数据提取模块320包括:
数据清洗单元,用于从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性之前,通过清洗策略对获取的行为日志数据进行清洗。
本发明实施例所提供的一种数据标签装置可执行本发明任意实施例所提供的数据标签方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据标签方法,其特征在于,包括:
获取海量行为日志数据;
从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性;
依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合;
将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。
2.根据权利要求1所述的方法,其特征在于,将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签包括:
依据各行为主体的属性集合确定各行为主体的基本信息;
将各行为主体的文本类基本信息与预设的关键词标签规则中的关键词进行匹配,并依据匹配结果确定各行为主体的关键词标签;
将各行为主体的非文本类基本信息与数据属性标签规则中的字段取值进行匹配,并依据匹配结果确定各行为主体的数据属性标签。
3.根据权利要求1所述的方法,其特征在于,将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签包括:
依据各行为主体的属性集合确定不同行为主体之间的关联关系;
将不同行为主体之间的关联关系与预设关联关系标签中的关系类型进行匹配,并依据匹配结果确定不同行为主体的关联关系标签。
4.根据权利要求3所述的方法,其特征在于,将不同的行为主体之间的关联与预设关联关系标签中的关系类型进行匹配之前,还包括:
从行为日志数据中提取不同行为主体之间的关联关系。
5.根据权利要求1所述的方法,其特征在于,将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签包括:
依据各行为主体的属性集合确定行为主体的行为信息;
将行为主体的行为信息与预设行为规律标签中的行为规律特征进行匹配,并依据匹配结果确定行为主体的规律标签。
6.根据权利要求1所述的方法,其特征在于,从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性之前,还包括:
通过清洗策略对获取的行为日志数据进行清洗。
7.一种数据标签装置,其特征在于,包括:
数据获取模块,用于获取海量行为日志数据;
数据提取模块,用于从获取的行为日志数据中提取得到各行为主体的标识以及各行为主体的属性;
数据整合模块,用于依据提取得到的各行为主体的标识,将同一行为主体标识的属性进行合并,得到各行为主体的属性集合;
数据打标模块,用于将各行为主体的属性集合与预设的标签规则进行匹配,并依据匹配结果为各行为主体添加标签。
8.根据权利要求7所述的装置,其特征在于,所述数据打标模块包括:
基本信息打标单元,具体用于:
依据各行为主体的属性集合确定各行为主体的基本信息;
将各行为主体的文本类基本信息与预设的关键词标签规则中的关键词进行匹配,并依据匹配结果确定各行为主体的关键词标签;
将各行为主体的非文本类基本信息与数据属性标签规则中的字段取值进行匹配,并依据匹配结果确定各行为主体的数据属性标签。
9.根据权利要求7所述的装置,其特征在于,所述数据打标模块还包括:
关联关系打标单元,具体用于:
依据各行为主体的属性集合确定不同行为主体之间的关联关系;
将不同行为主体之间的关联关系与预设关联关系标签中的关系类型进行匹配,并依据匹配结果确定不同行为主体的关联关系标签。
10.根据权利要求7所述的装置,其特征在于,所述数据打标模块还包括:
行为信息打标单元,具体用于:
依据各行为主体的属性集合确定行为主体的行为信息;
将行为主体的行为信息与预设行为规律标签中的行为规律特征进行匹配,并依据匹配结果确定行为主体的规律标签。
CN201711033523.6A 2017-10-30 2017-10-30 一种数据标签方法和装置 Pending CN107844548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711033523.6A CN107844548A (zh) 2017-10-30 2017-10-30 一种数据标签方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711033523.6A CN107844548A (zh) 2017-10-30 2017-10-30 一种数据标签方法和装置

Publications (1)

Publication Number Publication Date
CN107844548A true CN107844548A (zh) 2018-03-27

Family

ID=61681783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711033523.6A Pending CN107844548A (zh) 2017-10-30 2017-10-30 一种数据标签方法和装置

Country Status (1)

Country Link
CN (1) CN107844548A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874973A (zh) * 2018-06-08 2018-11-23 江苏中威科技软件系统有限公司 基于大数据平台进行数据处理的系统及方法
CN109255000A (zh) * 2018-07-17 2019-01-22 深圳市彬讯科技有限公司 一种标签数据的维度管理方法及装置
CN109684093A (zh) * 2018-12-24 2019-04-26 成都四方伟业软件股份有限公司 数据处理方法及系统
CN110428091A (zh) * 2019-07-10 2019-11-08 平安科技(深圳)有限公司 基于数据分析的风险识别方法及相关设备
CN110598199A (zh) * 2018-06-12 2019-12-20 百度在线网络技术(北京)有限公司 数据流式处理方法、装置、计算机设备和存储介质
CN111127074A (zh) * 2019-11-26 2020-05-08 杭州聚效科技有限公司 一种数据推荐方法
CN113515522A (zh) * 2021-07-19 2021-10-19 南京信息职业技术学院 一种基于数据挖掘技术的标签自动分类方法
CN115564356A (zh) * 2022-10-28 2023-01-03 上海东普信息科技有限公司 亲友物流订单信息实时共享方法及装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995889A (zh) * 2014-06-03 2014-08-20 广东欧珀移动通信有限公司 图片分类方法及装置
CN104090886A (zh) * 2013-12-09 2014-10-08 深圳市腾讯计算机系统有限公司 构建用户实时画像的方法及装置
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
CN105740406A (zh) * 2016-01-28 2016-07-06 北京致远协创软件有限公司 一种信息标引和检索方法
CN105893407A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 个体用户画像方法和系统
CN105893406A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 群体用户画像方法及系统
CN106383887A (zh) * 2016-09-22 2017-02-08 深圳市博安达信息技术股份有限公司 一种环保新闻数据采集和推荐展示的方法及系统
CN106446045A (zh) * 2016-08-31 2017-02-22 上海交通大学 基于对话交互的用户画像的构建方法及系统
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN106599263A (zh) * 2016-12-21 2017-04-26 广州阿里巴巴文学信息技术有限公司 一种内容筛选方法、系统及用户终端
CN106682964A (zh) * 2016-12-29 2017-05-17 努比亚技术有限公司 一种确定应用标签的方法和装置
CN106709754A (zh) * 2016-11-25 2017-05-24 云南电网有限责任公司昆明供电局 一种用基于文本挖掘的电力用户分群方法
CN106940705A (zh) * 2016-12-20 2017-07-11 上海掌门科技有限公司 一种用于构建用户画像的方法与设备
CN107016103A (zh) * 2017-04-12 2017-08-04 北京焦点新干线信息技术有限公司 一种构建用户画像的方法及装置
CN107122367A (zh) * 2016-02-25 2017-09-01 阿里巴巴集团控股有限公司 基于用户浏览行为的用户属性值计算方法和计算装置
CN107133323A (zh) * 2017-05-04 2017-09-05 山东浪潮云服务信息科技有限公司 数据模型构建方法、政务服务业务的实现方法及装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090886A (zh) * 2013-12-09 2014-10-08 深圳市腾讯计算机系统有限公司 构建用户实时画像的方法及装置
CN103995889A (zh) * 2014-06-03 2014-08-20 广东欧珀移动通信有限公司 图片分类方法及装置
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN105893407A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 个体用户画像方法和系统
CN105893406A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 群体用户画像方法及系统
CN105608171A (zh) * 2015-12-22 2016-05-25 青岛海贝易通信息技术有限公司 用户画像构建方法
CN105740406A (zh) * 2016-01-28 2016-07-06 北京致远协创软件有限公司 一种信息标引和检索方法
CN107122367A (zh) * 2016-02-25 2017-09-01 阿里巴巴集团控股有限公司 基于用户浏览行为的用户属性值计算方法和计算装置
CN106446045A (zh) * 2016-08-31 2017-02-22 上海交通大学 基于对话交互的用户画像的构建方法及系统
CN106383887A (zh) * 2016-09-22 2017-02-08 深圳市博安达信息技术股份有限公司 一种环保新闻数据采集和推荐展示的方法及系统
CN106709754A (zh) * 2016-11-25 2017-05-24 云南电网有限责任公司昆明供电局 一种用基于文本挖掘的电力用户分群方法
CN106940705A (zh) * 2016-12-20 2017-07-11 上海掌门科技有限公司 一种用于构建用户画像的方法与设备
CN106599263A (zh) * 2016-12-21 2017-04-26 广州阿里巴巴文学信息技术有限公司 一种内容筛选方法、系统及用户终端
CN106682964A (zh) * 2016-12-29 2017-05-17 努比亚技术有限公司 一种确定应用标签的方法和装置
CN107016103A (zh) * 2017-04-12 2017-08-04 北京焦点新干线信息技术有限公司 一种构建用户画像的方法及装置
CN107133323A (zh) * 2017-05-04 2017-09-05 山东浪潮云服务信息科技有限公司 数据模型构建方法、政务服务业务的实现方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874973A (zh) * 2018-06-08 2018-11-23 江苏中威科技软件系统有限公司 基于大数据平台进行数据处理的系统及方法
CN110598199A (zh) * 2018-06-12 2019-12-20 百度在线网络技术(北京)有限公司 数据流式处理方法、装置、计算机设备和存储介质
CN110598199B (zh) * 2018-06-12 2023-07-25 百度在线网络技术(北京)有限公司 数据流式处理方法、装置、计算机设备和存储介质
CN109255000A (zh) * 2018-07-17 2019-01-22 深圳市彬讯科技有限公司 一种标签数据的维度管理方法及装置
CN109255000B (zh) * 2018-07-17 2022-10-11 土巴兔集团股份有限公司 一种标签数据的维度管理方法及装置
CN109684093A (zh) * 2018-12-24 2019-04-26 成都四方伟业软件股份有限公司 数据处理方法及系统
CN110428091A (zh) * 2019-07-10 2019-11-08 平安科技(深圳)有限公司 基于数据分析的风险识别方法及相关设备
CN110428091B (zh) * 2019-07-10 2022-12-27 平安科技(深圳)有限公司 基于数据分析的风险识别方法及相关设备
CN111127074B (zh) * 2019-11-26 2023-04-25 杭州聚效科技有限公司 一种数据推荐方法
CN111127074A (zh) * 2019-11-26 2020-05-08 杭州聚效科技有限公司 一种数据推荐方法
CN113515522A (zh) * 2021-07-19 2021-10-19 南京信息职业技术学院 一种基于数据挖掘技术的标签自动分类方法
CN113515522B (zh) * 2021-07-19 2024-05-24 南京信息职业技术学院 一种基于数据挖掘技术的标签自动分类方法
CN115564356A (zh) * 2022-10-28 2023-01-03 上海东普信息科技有限公司 亲友物流订单信息实时共享方法及装置
CN115564356B (zh) * 2022-10-28 2024-04-12 上海东普信息科技有限公司 亲友物流订单信息实时共享方法及装置

Similar Documents

Publication Publication Date Title
CN107844548A (zh) 一种数据标签方法和装置
CN109446341A (zh) 知识图谱的构建方法及装置
CN104361127B (zh) 基于领域本体和模板逻辑的多语种问答接口快速构成方法
KR101775883B1 (ko) 정보 스트림의 정보를 처리하는 방법 및 시스템
CN107330785A (zh) 一种基于大数据智能风控的小额贷款系统及方法
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
US8874581B2 (en) Employing topic models for semantic class mining
US9323834B2 (en) Semantic and contextual searching of knowledge repositories
CN111831636A (zh) 一种数据处理方法、装置、计算机系统及可读存储介质
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN112100470B (zh) 基于论文数据分析的专家推荐方法、装置、设备及存储介质
US8700624B1 (en) Collaborative search apps platform for web search
CN103226609A (zh) 一种web聚焦搜索系统的搜索方法
Zhou et al. Survey of knowledge graph approaches and applications
CN109739992A (zh) 一种获取关联信息的方法及终端
CN109542657A (zh) 系统异常的处理方法及服务器
CN107527289A (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
CN112651234B (zh) 一种半开放信息抽取的方法及装置
WO2024131091A1 (zh) 信息关联方法、装置、设备及存储介质
WO2018205391A1 (zh) 信息检索准确性评估方法、系统、装置及计算机可读存储介质
CN101840438A (zh) 面向源文献元关键词的检索系统
CN116049243A (zh) 企业知识产权大数据情报分析系统、方法及存储介质
Ye et al. DataFrame QA: A Universal LLM Framework on DataFrame Question Answering Without Data Exposure
CN113742495A (zh) 基于预测模型的评级特征权重确定方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180327

RJ01 Rejection of invention patent application after publication