CN107766553A - 基于文本挖掘的受重群体画像方法 - Google Patents
基于文本挖掘的受重群体画像方法 Download PDFInfo
- Publication number
- CN107766553A CN107766553A CN201711062092.6A CN201711062092A CN107766553A CN 107766553 A CN107766553 A CN 107766553A CN 201711062092 A CN201711062092 A CN 201711062092A CN 107766553 A CN107766553 A CN 107766553A
- Authority
- CN
- China
- Prior art keywords
- analysis
- sample
- noise
- level
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于文本挖掘的受重群体画像方法,包括文本挖掘和公众号画像;利用标签语料库形成公众号画像,可形成每个用户的浏览样本文章属性,分析出喜好类别的权重,从而识别、分析和挖掘用户的用户属性。
Description
技术领域
本发明属于互联网数据挖掘领域,尤其涉及一种基于文本挖掘的受重群体画像方法。
背景技术
中国互联网已经形成规模,互联网应用走向多元化。互联网越来越深刻地改变着人们的学习、工作以及生活方式。在网络数据分析中,能准确知道公众号画像,识别用户属性是精确内容推广或者广告投放的重要前提。目前,在互联网中识别用户属性的现有技术方案都是基于用户文章样本的,需要首先收集用户全量历史样本,整理样本用户的数据,整理样本库,对样本库进行标签语料库分类,比如,某个语料库代表“购物”,“时尚”,“服饰”等内容;然后再根据样本库和互联网用户的样本库进行匹配,来识别用户属性,比如如果一个男性用户喜欢访问“军事”、“理财”内容的样本文章,那么所有访问“军事”,“理财”类样本的用户都是男性的概率较大。即,现有的技术方案基于样本数据,通过机器学习,再配以数据模型进行训练,进行互联网用户属性的判断。
但是存在以下缺陷:现有的技术方案都要求有一个已知的用户样本,然后通过用户样本的行为偏好进行机器学习,分析未知用户的用户属性,对用户属性的分析只能分析样本用户属性中的已知属性,对未知的属性无法识别和挖掘。
发明内容
为了解决上述问题,本发明提供一种基于文本挖掘的受重群体画像方法,可形成每个用户的浏览样本文章属性,分析出喜好类别的权重,从而识别、分析和挖掘用户的用户属性。
本发明一种基于文本挖掘的受重群体画像方法是通过以下技术方案来实现的:
一、文本挖掘步骤如下
1-1:创建标签主语料库
步骤1:抽取文章样本,对样本清洗,清洗掉音频、视频和图片;
步骤2:根据标签类库人工分类;
步骤3:对样本同时做动态聚类和模糊聚类,设置簇参数;
步骤4:依次做语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值M;
步骤5:将噪音值M与阈值a作比较,噪音值M小于阈值a,跳转至步骤6,噪音值M大于等于阈值a跳转至步骤3;
步骤6:再依次做模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值N;
步骤7:将噪音值N与阈值a作比较,噪音值N小于阈值a,跳转至步骤8,噪音值N大于等于阈值a,做修正标签类库后跳转至步骤6;
步骤8:做模型分类形成主语料库。
1-2:特征语料库
步骤1:对主语料库依次做样本词频分析、语义分析;
步骤2:进行高词频分类;
步骤3:创建特征词与标签类库的映射模型,形成特征语料库。
1-3:语料库更新维护
步骤1:抽取全量已分类文章样本;
步骤2:依次做词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类更新主语料库或者特征语料库;
步骤3:搜集新增标签,抽取带新增标签文章样本,进入1-1创建标签主语料库流程,清洗噪音数据,样本分类,更新主语料库。
二、公众号画像
步骤1:抽取公众号全量历史文章样本,对样本清洗,清洗掉视频、音频和图片;
步骤2:对样本动态聚类和模糊聚类同步处理,依次词频分析、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;
步骤3:将噪音值A与阈值a作比较,噪音值A小于阈值a,跳转至步骤4,噪音值A大于等于阈值a跳转至步骤2;
步骤4:再依次模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值B;
步骤5:将噪音值B与阈值a作比较,噪音值B小于阈值a,跳转至步骤6,噪音值B大于等于阈值a,做修正类参数处理后跳转至步骤4;
步骤6:做模型分类形成公众号画像。
需要说明的是:所述阈值a是0.01。
所述动态聚类是按照限定类别去发现符合类别的样本词汇。
所述模糊聚类是按照样本词汇语义模糊归属类别。
所述模型聚类是先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合。
本发明具有的有益效果:本发明一种基于文本挖掘的受重群体画像方法利用标签语料库给受众群体做画像,不仅分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,还可以分析整个互联网用户的基本属性;并且标签语料库库涵盖了各个行业,可以很有针对性的分析用户的属性,也可以分析用户的偏好,能对用户的全方位画像提供支持。不仅具有广泛的商业应用价值,同时也为互联网用户标签的挖掘算法和知识图谱的应用指明了研究方向。
附图说明
以下结合附图所示实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。
图1是本发明创建主语料库和特征语料库的原理框图。
图2是本发明主语料库更新维护的原理框图。
图3是本发明公众号画像的原理框图。
具体实施方式
一种基于文本挖掘的受重群体画像方法包括一、文本挖掘,二、公众号画像。
一、文本挖掘
1-1:创建标签主语料库,如图1所示,
步骤1:抽取文章样本,对样本清洗,清洗掉音频、视频和图片;
步骤2:根据标签类库人工分类;
步骤3:对样本同时做动态聚类和模糊聚类,设置簇参数;
步骤4:依次做语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值M;
步骤5:将噪音值M与阈值a作比较,噪音值M小于阈值a,跳转至步骤6,噪音值M大于等于阈值a跳转至步骤3;
步骤6:再依次做模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值N;
步骤7:将噪音值N与阈值a作比较,噪音值N小于阈值a,跳转至步骤8,噪音值N大于等于阈值a,做修正标签类库后跳转至步骤6;
步骤8:做模型分类形成主语料库。
1-2:特征语料库,如图1所示
步骤1:对主语料库依次做样本词频分析、语义分析;
步骤2:进行高词频分类;
步骤3:创建特征词与标签类库的映射模型,形成特征语料库。
1-3:语料库更新维护,如图2所示
步骤1:抽取全量已分类文章样本;
步骤2:依次做词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类更新主语料库或者特征语料库;
步骤3:搜集新增标签,抽取带新增标签文章样本,进入1-1创建标签主语料库流程,清洗噪音数据,样本分类,更新主语料库。
二、公众号画像,如图3所示
步骤1:抽取公众号全量历史文章样本,对样本清洗,清洗掉视频、音频和图片;
步骤2:对样本动态聚类和模糊聚类同步处理,依次词频分析、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;
步骤3:将噪音值A与阈值a作比较,噪音值A小于阈值a,跳转至步骤4,噪音值A大于等于阈值a跳转至步骤2;
步骤4:再依次模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值B;
步骤5:将噪音值B与阈值a作比较,噪音值B小于阈值a,跳转至步骤6,噪音值B大于等于阈值a,做修正类参数处理后跳转至步骤4;
步骤6:做模型分类形成公众号画像。
需要说明的是:所述阈值a是0.01。
所述动态聚类是按照限定类别去发现符合类别的样本词汇。
所述模糊聚类是按照样本词汇语义模糊归属类别。
所述模型聚类是先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合。
本发明一种基于文本挖掘的受重群体画像方法利用标签语料库给受众群体做画像,不仅分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,还可以分析整个互联网用户的基本属性;并且标签语料库库涵盖了各个行业,可以很有针对性的分析用户的属性,也可以分析用户的偏好,能对用户的全方位画像提供支持。不仅具有广泛的商业应用价值,同时也为互联网用户标签的挖掘算法和知识图谱的应用指明了研究方向。
本发明所举实施方式或者实施例对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所举实施方式或者实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.基于文本挖掘的受重群体画像方法,按照以下步骤进行:
步骤1:抽取公众号全量历史文章样本,对样本清洗,清洗掉视频、音频和图片;
步骤2:对样本依次做聚类组聚类、第一分析组分析、修正类参数和密度降噪处理,得出噪音值A;
步骤3:将噪音值A与阈值a作比较,噪音值A小于阈值a,跳转至步骤4,噪音值A大于等于阈值a跳转至步骤2;
步骤4:再依次做聚类、第二分析组分析和密度降噪处理,得出噪音值B;
步骤5:将噪音值B与阈值a作比较,噪音值B小于阈值a,跳转至步骤6,噪音值B大于等于阈值a,做修正类参数处理后跳转至步骤4;
步骤6:做模型分类形成公众号画像。
2.根据权利要求1所述基于文本挖掘的受重群体画像方法,其特征在于:所述步骤2的聚类组包括动态聚类和模糊聚类,动态聚类和模糊聚类同步处理,动态聚类是按照限定类别去发现符合类别的样本词汇,模糊聚类是按照样本词汇语义模糊归属类别;
所述步骤2的第一分析组包括词频分析、语义分析和类特征分析,先做词频分析再语义分析最后类特征分析,词频分析是分析样本词汇在全量历史样本中出现的频率,语义分析是分析样本词汇代表的概念含义,类特征分析是分析同一类别的样本词汇共有的特性。
3.根据权利要求1所述基于文本挖掘的受重群体画像方法,其特征在于:所述步骤3和步骤5的阈值a是0.01。
4.根据权利要求1所述基于文本挖掘的受重群体画像方法,其特征在于:所述步骤4的聚类为模型聚类,模型聚类是先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合;
所述步骤4的第二分析组包括语义分析和类特征分析,先做语义分析再类特征分析,语义分析是分析样本词汇代表的概念含义,类特征分析是分析同一类别的样本词汇共有的特性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711062092.6A CN107766553A (zh) | 2017-11-02 | 2017-11-02 | 基于文本挖掘的受重群体画像方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711062092.6A CN107766553A (zh) | 2017-11-02 | 2017-11-02 | 基于文本挖掘的受重群体画像方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107766553A true CN107766553A (zh) | 2018-03-06 |
Family
ID=61272030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711062092.6A Pending CN107766553A (zh) | 2017-11-02 | 2017-11-02 | 基于文本挖掘的受重群体画像方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766553A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN204557477U (zh) * | 2015-04-10 | 2015-08-12 | 安徽三联学院 | 基于数据仓库和olap技术的聚类挖掘系统 |
CN104991968A (zh) * | 2015-07-24 | 2015-10-21 | 成都云堆移动信息技术有限公司 | 基于文本挖掘的互联网媒体用户属性分析方法 |
CN105791085A (zh) * | 2016-01-26 | 2016-07-20 | 西安电子科技大学 | 在位置社交网络中基于位置与时间的好友推荐方法 |
US20170124176A1 (en) * | 2015-10-30 | 2017-05-04 | Vladislav Michael Beznos | Universal analytical data mart and data structure for same |
CN106789598A (zh) * | 2017-01-20 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 基于社交关系链的公众号消息推送方法、装置及系统 |
JP2017107391A (ja) * | 2015-12-09 | 2017-06-15 | 東邦瓦斯株式会社 | テキストマイニング方法、及びテキストマイニングプログラム |
-
2017
- 2017-11-02 CN CN201711062092.6A patent/CN107766553A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN204557477U (zh) * | 2015-04-10 | 2015-08-12 | 安徽三联学院 | 基于数据仓库和olap技术的聚类挖掘系统 |
CN104991968A (zh) * | 2015-07-24 | 2015-10-21 | 成都云堆移动信息技术有限公司 | 基于文本挖掘的互联网媒体用户属性分析方法 |
US20170124176A1 (en) * | 2015-10-30 | 2017-05-04 | Vladislav Michael Beznos | Universal analytical data mart and data structure for same |
JP2017107391A (ja) * | 2015-12-09 | 2017-06-15 | 東邦瓦斯株式会社 | テキストマイニング方法、及びテキストマイニングプログラム |
CN105791085A (zh) * | 2016-01-26 | 2016-07-20 | 西安电子科技大学 | 在位置社交网络中基于位置与时间的好友推荐方法 |
CN106789598A (zh) * | 2017-01-20 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 基于社交关系链的公众号消息推送方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104991968B (zh) | 基于文本挖掘的互联网媒体用户属性分析方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN106844723B (zh) | 基于问答系统的医学知识库构建方法 | |
CN106202211B (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
CN107122340B (zh) | 一种基于同义词分析的科技项目申报书的相似度检测方法 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN109508383A (zh) | 知识图谱的构建方法及装置 | |
CN108287843A (zh) | 一种兴趣点信息检索的方法和装置、及导航设备 | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN102289522A (zh) | 一种对于文本智能分类的方法 | |
CN103226576A (zh) | 基于语义相似度的垃圾评论过滤方法 | |
CN109902179A (zh) | 基于自然语言处理的筛选电商垃圾评论的方法 | |
CN105760524A (zh) | 一种科学新闻标题的多层次多分类方法 | |
CN103246655A (zh) | 一种文本分类方法、装置及系统 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN103714120B (zh) | 一种从用户url访问记录中提取用户兴趣话题的系统 | |
CN104331523A (zh) | 一种基于概念对象模型的问句检索方法 | |
CN105956158B (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
CN107741958A (zh) | 一种数据处理方法及系统 | |
CN105068986A (zh) | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 | |
CN106709824B (zh) | 一种基于网络文本语义分析的建筑评价方法 | |
Gunawan et al. | Building automatic customer complaints filtering application based on Twitter in Bahasa Indonesia | |
CN107908749A (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
CN107766553A (zh) | 基于文本挖掘的受重群体画像方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180306 |
|
WD01 | Invention patent application deemed withdrawn after publication |