CN112287102A - 数据挖掘方法和装置 - Google Patents

数据挖掘方法和装置 Download PDF

Info

Publication number
CN112287102A
CN112287102A CN201910807472.0A CN201910807472A CN112287102A CN 112287102 A CN112287102 A CN 112287102A CN 201910807472 A CN201910807472 A CN 201910807472A CN 112287102 A CN112287102 A CN 112287102A
Authority
CN
China
Prior art keywords
word
feature
data source
subject
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910807472.0A
Other languages
English (en)
Other versions
CN112287102B (zh
Inventor
李一伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910807472.0A priority Critical patent/CN112287102B/zh
Publication of CN112287102A publication Critical patent/CN112287102A/zh
Application granted granted Critical
Publication of CN112287102B publication Critical patent/CN112287102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出一种数据挖掘方法和装置,涉及计算机领域。本公开利用数据源发现当前的热点信息,并采用聚类方法确定热点信息相关的用来描述对象的主题词,该主题词相应的对象即作为目标对象,该目标对象的产生过程比较客观和智能,该客观性在一定程度上使得目标对象的准确性得以提高,该智能性有利于节省人力成本。

Description

数据挖掘方法和装置
技术领域
本公开涉及计算机领域,特别涉及一种数据挖掘方法和装置。
背景技术
在一些相关技术中,用户基于业务经验从对象集合中挑选出一些目标对象进行业务处理。目标对象的产生过程比较主观,也不够智能,且该主观性在一定程度上会影响目标对象的准确性。
发明内容
本公开利用数据源发现当前的热点信息,并采用聚类方法确定热点信息相关的用来描述对象的主题词,该主题词相应的对象即作为目标对象,该目标对象的产生过程比较客观和智能,该客观性在一定程度上使得目标对象的准确性得以提高,该智能性有利于节省人力成本。
根据本公开的一个方面,提出一种数据挖掘方法,包括:
确定对象集合中每个对象对应的主题词集合;
从数据源中确定热点特征词集合;
将主题词集合中的主题词与热点特征词集合中的热点特征词进行聚类得到若干聚类簇;
将聚类簇的质心处的主题词对应的对象确定为目标对象。
在一些实施例中,还包括:推送目标对象的信息。
在一些实施例中,所述确定对象集合中每个对象对应的主题词集合包括:对对象集合中每个对象的描述信息进行分词处理,根据每个对象的描述信息的分词结果确定该对象对应的主题词集合。
在一些实施例中,所述从数据源中确定热点特征词集合包括:
根据数据源的分词结果构建所述数据源的特征词集合;
统计特征词集合中的每个特征词出现的频率;
基于特征词出现的频率从特征词集合中筛选出热点特征词,组成热点特征词集合。
在一些实施例中,所述数据源被划分为不同的类别,所述从数据源中确定热点特征词集合包括:
针对每个类别的数据源:
根据所述类别的数据源的分词结果构建所述类别的数据源的特征词子集合;
统计特征词子集合中的每个特征词出现的频率;
基于特征词出现的频率从特征词子集合中筛选出热点特征词,组成热点特征词子集合;
各个热点特征词子集合组成热点特征词集合。
在一些实施例中,所述聚类包括:针对相同类别的对象和数据源,将对象对应的主题词集合中的主题词与数据源的热点特征词子集合中的热点特征词进行聚类得到若干聚类簇。
在一些实施例中,所述数据源的形成方法包括:
对给定的初始网页与主题词集合中的主题词进行相关性计算;
在相关性高于预设值时,提取初始网页中存在的候选链接;
如果候选链接对应的网页与主题词集合中的主题词的相关性高于预设值,将候选链接加入到所述数据源。
在一些实施例中,根据目标对象的推送力度,推送目标对象的信息,所述目标对象的推送力度根据所述目标对象对应的聚类簇的质心处的主题词的热度信息确定。
本公开的一些实施例提出一种数据挖掘装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任一个实施例的数据挖掘方法。
本公开的一些实施例提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一个实施例的数据挖掘方法。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开数据挖掘方法一些实施例的流程示意图。
图2为本公开数据挖掘方法另一些实施例的流程示意图。
图3为本公开信息推送方法的一些实施例的流程示意图。
图4为本公开数据挖掘装置的一些实施例的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
图1为本公开数据挖掘方法一些实施例的流程示意图。如图1所示,该实施例的数据挖掘方法10包括:
在步骤11,确定对象集合中每个对象对应的主题词集合。
在一些实施例中,对对象集合中每个对象的描述信息进行分词处理,可选地剔除分词结果中的例如助词、语气词等停用词,然后根据每个对象的描述信息的分词结果确定该对象对应的主题词集合,例如,对象的描述信息的各个分词组成该对象对应的主题词集合。
其中,对象可以是信息类型(例如新闻等)的虚拟对象,也可以物品类型(例如商品等)的实体对象。对象的描述信息例如包括但不限于名称、标题、类别、宣传性语句等能够描述对象的信息。
在步骤12,从数据源中确定热点特征词集合,从而利用数据源发现当前的热点信息。
其中,热点特征词例如可以是当前出现频率比较高的词语,能够反映人们当前关注的热点信息。
其中,数据源例如包括媒体、自媒体、即时性通信数据源等,但不限于所举示例。
在一些实施例中,数据源的形成方法包括:对给定的初始网页与主题词集合中的主题词进行相关性计算;在相关性高于预设值时,提取初始网页中存在的候选链接;如果候选链接对应的网页与主题词集合中的主题词的相关性高于预设值,将候选链接加入到数据源。从而,使得用来确定热点信息的数据源与对象更相关,有利于提高所确定的目标对象的准确性。其中,网页与主题词的相关性例如可以根据主题词在网页数据中出现的频率确定,主题词在网页数据中出现的频率与网页与主题词的相关性正相关。
在一些实施例中,从数据源中确定热点特征词集合包括:根据数据源的分词结果构建所述数据源的特征词集合;统计特征词集合中的每个特征词出现的频率;基于特征词出现的频率从特征词集合中筛选出热点特征词,组成热点特征词集合。例如,按照特征词出现的频率由高到低排序,并选取排序在前的预设数量的特征词作为热点特征词;或者,设置频率阈值,将出现频率大于频率阈值的特征词确定为热点特征词。
在步骤13,将主题词集合中的主题词与热点特征词集合中的热点特征词进行聚类得到若干聚类簇。聚类簇内的元素彼此相似,聚类簇间的元素彼此相异。
聚类是一种数据点分组的机器学习技术。给定一组数据点,用聚类算法可以将每个数据点分到特定的组中。词语聚类算法可以参考现有技术,这里不再赘述。
在步骤14,将聚类簇的质心处的主题词对应的对象确定为目标对象,也即,主题词集合中包括聚类簇的质心处的主题词的对象被确定为目标对象。
利用数据源发现当前的热点信息,并采用聚类方法确定热点信息相关的用来描述对象的主题词,该主题词相应的对象即作为目标对象,目标对象能够客观反映当前的热点信息,该目标对象的产生过程比较客观和智能,该客观性在一定程度上使得目标对象的准确性得以提高,该智能性有利于节省人力成本。
图2为本公开数据挖掘方法另一些实施例的流程示意图。如图2所示,该实施例的数据挖掘方法20包括:
在步骤21,确定对象集合中每个对象对应的主题词集合。
如前所述,对象对应的主题词集合例如包括但不限于名称、标题、类别、宣传性语句等对象描述信息的分词。
在步骤22,根据对象的不同类别,数据源被划分为不同的类别。
在步骤23,针对每个类别的数据源,执行步骤23a~23c,以便从每个类别的数据源中确定相应的热点特征词子集合,各个热点特征词子集合组成热点特征词集合。
在步骤23a,根据该类别的数据源的分词结果构建该类别的数据源的特征词子集合;
在步骤23b,统计特征词子集合中的每个特征词出现的频率;
在步骤23c,基于特征词出现的频率从特征词子集合中筛选出热点特征词,组成热点特征词子集合。
在步骤24,针对相同类别的对象和数据源,将对象对应的主题词集合中的主题词与数据源的热点特征词子集合中的热点特征词进行聚类得到若干聚类簇。
例如,针对数码设备类的物品的主题词和数码设备类的媒体数据源的热点特征词进行聚类;针对服饰类的物品的主题词和服饰类的媒体数据源的热点特征词进行聚类。又例如,针对科技类的新闻的主题词和科技类的媒体数据源的热点特征词进行聚类;针对娱乐类的新闻的主题词和娱乐类的媒体数据源的热点特征词进行聚类。
在步骤25,将聚类簇的质心处的主题词对应的对象确定为目标对象,也即,主题词集合中包括聚类簇的质心处的主题词的对象被确定为目标对象。
在图1所示实施例的基础上,基于相同类别的数据源和对象挖掘目标对象,使得挖掘效率和准确性得到提高。
图3为本公开信息推送方法的一些实施例的流程示意图。如图3所示,该实施例的信息推送方法30包括:
在步骤31,利用数据挖掘方法10,20确定目标对象。
在步骤32,推送目标对象的信息。
在一些实施例中,根据目标对象的推送力度,推送目标对象的信息。例如,根据推送力度的不同,将目标对象推送到不同的信息投放区域,或者,将目标对象推送到不同的用户。
其中,目标对象的推送力度根据目标对象对应的聚类簇的质心处的主题词的热度信息确定。聚类簇的质心处的主题词的热度信息例如可以根据聚类簇内的各热点特征词的频率均值信息确定。
如前所述,目标对象以及相应的推送信息能够客观反映当前的热点信息,从而为用户推送更有用的信息,提高了信息推送的精准性。
下面列举一些应用例。基于当前的热点信息从很多物品中筛选出目标物品,目标物品例如可以用来促销。
首先,确定物品集合中每个物品对应的主题词集合。
例如,获取每个物品的名称、品牌、分类、宣传性语句,对这些信息进行分词处理,剔除助词和语气词等分词,剩余的分词作为该物品的主题词集合。该物品的标识信息及其对应的主题词集合存储到服务器。如果物品集合数量级比较大,可以分为多个子集存储到多台服务器。
接着,给定初始网页,利用爬虫技术,爬取与物品的主题词相关的网页数据,并设定结束条件为文档数量达到预设值N,爬取结果集作为数据源,从数据源中确定热点特征词集合。
其中,在爬取相关网页过程中,对采集的网页数据与主题词进行相关性判断;若相关性满足设定的阈值条件,则将网页数据中的候选链接提取出来,若候选链接对应的网页数据与主题词的相关性较高,则候选链接被插入到待爬行队列的前面,以便被优先爬行,反之,则候选链接被插入到待爬行队列的后面或被舍弃;若相关性不满足设定的阈值条件,则舍弃该网页,不必在对网页中存在的候选链接进行提取和优先级计算。
其中,从数据源中确定热点特征词集合包括:对数据源进行分词,剔除助词、语气词等分词,剩余的分词作为特征词形成特征词集合;将各个特征词作为键(key)、特征词出现的频率作为值(value)存储到MultiMap(多映射)中;遍历整个数据源,特征词每出现一次,该特征词对应的value增加1。然后,将MultiMap的键值反转,即将特征词出现的频率作为key,特征词作为value,得到按照key排序的键值对集合,取排序在前的N个特征词作为热点特征词组成热点特征词集合。在数据源的数量级比较大的情况下,可以由多台服务器并行处理。
接着,将主题词集合中的主题词与热点特征词集合中的热点特征词进行聚类得到若干聚类簇,将聚类簇的质心处的主题词对应的物品确定为目标物品。
最后,推送目标物品的信息。如果将目标物品用来进行促销,则还需要推送目标物品的促销力度信息。
其中,目标物品的促销力度信息与目标物品的库存数和目标物品的对应的质心处的主题词热度信息正相关,即库存数越多,主题词热度越高,促销力度越大,反之,库存数越少,主题词热度越低,促销力度越小。
图4为本公开数据挖掘装置的一些实施例的示意图。如图4所示,该实施例的数据挖掘装置40包括:
存储器41;以及
耦接至存储器的处理器42,处理器42被配置为基于存储在存储器中的指令,执行任一个实施例的数据挖掘方法,如10,20等,还可以执行任一个实施例的信息推送方法,如30等。
其中,存储器41例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种数据挖掘方法,其特征在于,包括:
确定对象集合中每个对象对应的主题词集合;
从数据源中确定热点特征词集合;
将主题词集合中的主题词与热点特征词集合中的热点特征词进行聚类得到若干聚类簇;
将聚类簇的质心处的主题词对应的对象确定为目标对象。
2.根据权利要求1所述的方法,其特征在于,还包括:
推送目标对象的信息。
3.根据权利要求1所述的方法,其特征在于,所述确定对象集合中每个对象对应的主题词集合包括:
对对象集合中每个对象的描述信息进行分词处理,根据每个对象的描述信息的分词结果确定该对象对应的主题词集合。
4.根据权利要求1所述的方法,其特征在于,所述从数据源中确定热点特征词集合包括:
根据数据源的分词结果构建所述数据源的特征词集合;
统计特征词集合中的每个特征词出现的频率;
基于特征词出现的频率从特征词集合中筛选出热点特征词,组成热点特征词集合。
5.根据权利要求1所述的方法,其特征在于,所述数据源被划分为不同的类别,所述从数据源中确定热点特征词集合包括:
针对每个类别的数据源:
根据所述类别的数据源的分词结果构建所述类别的数据源的特征词子集合;
统计特征词子集合中的每个特征词出现的频率;
基于特征词出现的频率从特征词子集合中筛选出热点特征词,组成热点特征词子集合;
各个热点特征词子集合组成热点特征词集合。
6.根据权利要求5所述的方法,其特征在于,所述聚类包括:
针对相同类别的对象和数据源,将对象对应的主题词集合中的主题词与数据源的热点特征词子集合中的热点特征词进行聚类得到若干聚类簇。
7.根据权利要求1所述的方法,其特征在于,所述数据源的形成方法包括:
对给定的初始网页与主题词集合中的主题词进行相关性计算;
在相关性高于预设值时,提取初始网页中存在的候选链接;
如果候选链接对应的网页与主题词集合中的主题词的相关性高于预设值,将候选链接加入到所述数据源。
8.根据权利要求2所述的方法,其特征在于,
根据目标对象的推送力度,推送目标对象的信息,
所述目标对象的推送力度根据所述目标对象对应的聚类簇的质心处的主题词的热度信息确定。
9.一种数据挖掘装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-8任一项所述的数据挖掘方法。
10.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8任一项所述的数据挖掘方法。
CN201910807472.0A 2019-08-29 2019-08-29 数据挖掘方法和装置 Active CN112287102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910807472.0A CN112287102B (zh) 2019-08-29 2019-08-29 数据挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910807472.0A CN112287102B (zh) 2019-08-29 2019-08-29 数据挖掘方法和装置

Publications (2)

Publication Number Publication Date
CN112287102A true CN112287102A (zh) 2021-01-29
CN112287102B CN112287102B (zh) 2024-04-16

Family

ID=74418891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910807472.0A Active CN112287102B (zh) 2019-08-29 2019-08-29 数据挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN112287102B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722424A (zh) * 2021-07-20 2021-11-30 山东电力研究院 一种基于新闻事件的科研方向推荐方法及系统
CN115630160A (zh) * 2022-12-08 2023-01-20 四川大学 一种基于半监督共现图模型的争议焦点聚类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902674A (zh) * 2014-03-19 2014-07-02 百度在线网络技术(北京)有限公司 特定主题的评论数据的采集方法和装置
US20150142760A1 (en) * 2012-06-30 2015-05-21 Huawei Technologies Co., Ltd. Method and device for deduplicating web page
CN107682416A (zh) * 2017-09-19 2018-02-09 东南大学 基于播存网络的雾计算架构内容协同分发方法及应用系统
CN109492109A (zh) * 2018-11-22 2019-03-19 北京神州泰岳软件股份有限公司 一种信息热点挖掘方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150142760A1 (en) * 2012-06-30 2015-05-21 Huawei Technologies Co., Ltd. Method and device for deduplicating web page
CN103902674A (zh) * 2014-03-19 2014-07-02 百度在线网络技术(北京)有限公司 特定主题的评论数据的采集方法和装置
CN107682416A (zh) * 2017-09-19 2018-02-09 东南大学 基于播存网络的雾计算架构内容协同分发方法及应用系统
CN109492109A (zh) * 2018-11-22 2019-03-19 北京神州泰岳软件股份有限公司 一种信息热点挖掘方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722424A (zh) * 2021-07-20 2021-11-30 山东电力研究院 一种基于新闻事件的科研方向推荐方法及系统
CN113722424B (zh) * 2021-07-20 2024-02-02 国网山东省电力公司电力科学研究院 一种基于新闻事件的科研方向推荐方法及系统
CN115630160A (zh) * 2022-12-08 2023-01-20 四川大学 一种基于半监督共现图模型的争议焦点聚类方法及系统

Also Published As

Publication number Publication date
CN112287102B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
Hasan et al. Real-time event detection from the Twitter data stream using the TwitterNews+ Framework
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
CN107657048B (zh) 用户识别方法及装置
CN105426426B (zh) 一种基于改进的K-Medoids的KNN文本分类方法
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
US20200097601A1 (en) Identification of an entity representation in unstructured data
Reinanda et al. Mining, ranking and recommending entity aspects
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
Nirkhi et al. Comparative study of authorship identification techniques for cyber forensics analysis
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
KR20070102035A (ko) 문서 분류 시스템 및 그 방법
US10135723B2 (en) System and method for supervised network clustering
CN108334951A (zh) 针对决策树的节点的数据的预统计
CN112287102B (zh) 数据挖掘方法和装置
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
Sara-Meshkizadeh et al. Webpage classification based on compound of using HTML features & URL features and features of sibling pages
Yerva et al. It was easy, when apples and blackberries were only fruits
JP2014146218A (ja) 情報提供装置
CN108388556B (zh) 同类实体的挖掘方法及系统
KR101158750B1 (ko) 문서분류장치 및 그것의 문서분류방법
CN117351334A (zh) 图像审核方法和相关设备
CN112231468A (zh) 信息生成方法、装置、电子设备及存储介质
CN111949838A (zh) 一种数据的传播路径生成方法、装置、设备及存储介质
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
Jain et al. Cawesumm: A contextual and anonymous walk embedding based extractive summarization of legal bills

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant