CN107766553A

CN107766553A - 基于文本挖掘的受重群体画像方法

Info

Publication number: CN107766553A
Application number: CN201711062092.6A
Authority: CN
Inventors: 张钉
Original assignee: Chengdu Jinchuantian Agricultural Machinery Manufacturing Co Ltd
Current assignee: Chengdu Jinchuantian Agricultural Machinery Manufacturing Co Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2018-03-06

Abstract

本发明提供一种基于文本挖掘的受重群体画像方法，包括文本挖掘和公众号画像；利用标签语料库形成公众号画像，可形成每个用户的浏览样本文章属性，分析出喜好类别的权重，从而识别、分析和挖掘用户的用户属性。

Description

基于文本挖掘的受重群体画像方法

技术领域

本发明属于互联网数据挖掘领域，尤其涉及一种基于文本挖掘的受重群体画像方法。

背景技术

中国互联网已经形成规模，互联网应用走向多元化。互联网越来越深刻地改变着人们的学习、工作以及生活方式。在网络数据分析中，能准确知道公众号画像，识别用户属性是精确内容推广或者广告投放的重要前提。目前，在互联网中识别用户属性的现有技术方案都是基于用户文章样本的，需要首先收集用户全量历史样本，整理样本用户的数据，整理样本库，对样本库进行标签语料库分类，比如，某个语料库代表“购物”，“时尚”，“服饰”等内容；然后再根据样本库和互联网用户的样本库进行匹配，来识别用户属性，比如如果一个男性用户喜欢访问“军事”、“理财”内容的样本文章，那么所有访问“军事”，“理财”类样本的用户都是男性的概率较大。即，现有的技术方案基于样本数据，通过机器学习，再配以数据模型进行训练，进行互联网用户属性的判断。

但是存在以下缺陷：现有的技术方案都要求有一个已知的用户样本，然后通过用户样本的行为偏好进行机器学习，分析未知用户的用户属性，对用户属性的分析只能分析样本用户属性中的已知属性，对未知的属性无法识别和挖掘。

发明内容

为了解决上述问题，本发明提供一种基于文本挖掘的受重群体画像方法，可形成每个用户的浏览样本文章属性，分析出喜好类别的权重，从而识别、分析和挖掘用户的用户属性。

本发明一种基于文本挖掘的受重群体画像方法是通过以下技术方案来实现的：

一、文本挖掘步骤如下

1-1：创建标签主语料库

步骤1：抽取文章样本，对样本清洗，清洗掉音频、视频和图片；

步骤2：根据标签类库人工分类；

步骤3：对样本同时做动态聚类和模糊聚类，设置簇参数；

步骤4：依次做语义分析、簇特征分析、修正簇参数和密度降噪处理，得出噪音值M；

步骤5：将噪音值M与阈值a作比较，噪音值M小于阈值a，跳转至步骤6，噪音值M大于等于阈值a跳转至步骤3；

步骤6：再依次做模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理，得出噪音值N；

步骤7：将噪音值N与阈值a作比较，噪音值N小于阈值a，跳转至步骤8，噪音值N大于等于阈值a，做修正标签类库后跳转至步骤6；

步骤8：做模型分类形成主语料库。

1-2：特征语料库

步骤1：对主语料库依次做样本词频分析、语义分析；

步骤2：进行高词频分类；

步骤3：创建特征词与标签类库的映射模型，形成特征语料库。

1-3：语料库更新维护

步骤1：抽取全量已分类文章样本；

步骤2：依次做词频分析、语义分析、密度降噪处理和清洗噪音数据，样本分类更新主语料库或者特征语料库；

步骤3：搜集新增标签，抽取带新增标签文章样本，进入1-1创建标签主语料库流程，清洗噪音数据，样本分类，更新主语料库。

二、公众号画像

步骤1：抽取公众号全量历史文章样本，对样本清洗，清洗掉视频、音频和图片；

步骤2：对样本动态聚类和模糊聚类同步处理，依次词频分析、语义分析、类特征分析、修正类参数和密度降噪处理，得出噪音值A；

步骤3：将噪音值A与阈值a作比较，噪音值A小于阈值a，跳转至步骤4，噪音值A大于等于阈值a跳转至步骤2；

步骤4：再依次模型聚类、语义分析、类特征分析和密度降噪处理，得出噪音值B；

步骤5：将噪音值B与阈值a作比较，噪音值B小于阈值a，跳转至步骤6，噪音值B大于等于阈值a，做修正类参数处理后跳转至步骤4；

步骤6：做模型分类形成公众号画像。

需要说明的是：所述阈值a是0.01。

所述动态聚类是按照限定类别去发现符合类别的样本词汇。

所述模糊聚类是按照样本词汇语义模糊归属类别。

所述模型聚类是先假设一个类别，再去发现符合类别的样本词汇，将给定类别和样本词汇达到最佳拟合。

本发明具有的有益效果：本发明一种基于文本挖掘的受重群体画像方法利用标签语料库给受众群体做画像，不仅分析挖掘用户基本属性，识别用户属性的应用范围大大扩大，还可以分析整个互联网用户的基本属性；并且标签语料库库涵盖了各个行业，可以很有针对性的分析用户的属性，也可以分析用户的偏好，能对用户的全方位画像提供支持。不仅具有广泛的商业应用价值，同时也为互联网用户标签的挖掘算法和知识图谱的应用指明了研究方向。

附图说明

以下结合附图所示实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。

图1是本发明创建主语料库和特征语料库的原理框图。

图2是本发明主语料库更新维护的原理框图。

图3是本发明公众号画像的原理框图。

具体实施方式

一种基于文本挖掘的受重群体画像方法包括一、文本挖掘，二、公众号画像。

一、文本挖掘

1-1：创建标签主语料库，如图1所示，

步骤2：根据标签类库人工分类；

步骤3：对样本同时做动态聚类和模糊聚类，设置簇参数；

步骤8：做模型分类形成主语料库。

1-2：特征语料库，如图1所示

步骤1：对主语料库依次做样本词频分析、语义分析；

步骤2：进行高词频分类；

1-3：语料库更新维护，如图2所示

步骤1：抽取全量已分类文章样本；

二、公众号画像，如图3所示

步骤6：做模型分类形成公众号画像。

需要说明的是：所述阈值a是0.01。

所述动态聚类是按照限定类别去发现符合类别的样本词汇。

所述模糊聚类是按照样本词汇语义模糊归属类别。

本发明一种基于文本挖掘的受重群体画像方法利用标签语料库给受众群体做画像，不仅分析挖掘用户基本属性，识别用户属性的应用范围大大扩大，还可以分析整个互联网用户的基本属性；并且标签语料库库涵盖了各个行业，可以很有针对性的分析用户的属性，也可以分析用户的偏好，能对用户的全方位画像提供支持。不仅具有广泛的商业应用价值，同时也为互联网用户标签的挖掘算法和知识图谱的应用指明了研究方向。

本发明所举实施方式或者实施例对本发明的目的、技术方案和优点进行了进一步详细说明，所应理解的是，以上所举实施方式或者实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于文本挖掘的受重群体画像方法，按照以下步骤进行：

步骤2：对样本依次做聚类组聚类、第一分析组分析、修正类参数和密度降噪处理，得出噪音值A；

步骤4：再依次做聚类、第二分析组分析和密度降噪处理，得出噪音值B；

步骤6：做模型分类形成公众号画像。

2.根据权利要求1所述基于文本挖掘的受重群体画像方法，其特征在于：所述步骤2的聚类组包括动态聚类和模糊聚类，动态聚类和模糊聚类同步处理，动态聚类是按照限定类别去发现符合类别的样本词汇，模糊聚类是按照样本词汇语义模糊归属类别；

所述步骤2的第一分析组包括词频分析、语义分析和类特征分析，先做词频分析再语义分析最后类特征分析，词频分析是分析样本词汇在全量历史样本中出现的频率，语义分析是分析样本词汇代表的概念含义，类特征分析是分析同一类别的样本词汇共有的特性。

3.根据权利要求1所述基于文本挖掘的受重群体画像方法，其特征在于：所述步骤3和步骤5的阈值a是0.01。

4.根据权利要求1所述基于文本挖掘的受重群体画像方法，其特征在于：所述步骤4的聚类为模型聚类，模型聚类是先假设一个类别，再去发现符合类别的样本词汇，将给定类别和样本词汇达到最佳拟合；

所述步骤4的第二分析组包括语义分析和类特征分析，先做语义分析再类特征分析，语义分析是分析样本词汇代表的概念含义，类特征分析是分析同一类别的样本词汇共有的特性。