CN107766553A - 基于文本挖掘的受重群体画像方法 - Google Patents

基于文本挖掘的受重群体画像方法 Download PDF

Info

Publication number
CN107766553A
CN107766553A CN201711062092.6A CN201711062092A CN107766553A CN 107766553 A CN107766553 A CN 107766553A CN 201711062092 A CN201711062092 A CN 201711062092A CN 107766553 A CN107766553 A CN 107766553A
Authority
CN
China
Prior art keywords
analysis
sample
noise
level
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711062092.6A
Other languages
English (en)
Inventor
张钉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Jinchuantian Agricultural Machinery Manufacturing Co Ltd
Original Assignee
Chengdu Jinchuantian Agricultural Machinery Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Jinchuantian Agricultural Machinery Manufacturing Co Ltd filed Critical Chengdu Jinchuantian Agricultural Machinery Manufacturing Co Ltd
Priority to CN201711062092.6A priority Critical patent/CN107766553A/zh
Publication of CN107766553A publication Critical patent/CN107766553A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于文本挖掘的受重群体画像方法,包括文本挖掘和公众号画像;利用标签语料库形成公众号画像,可形成每个用户的浏览样本文章属性,分析出喜好类别的权重,从而识别、分析和挖掘用户的用户属性。

Description

基于文本挖掘的受重群体画像方法
技术领域
本发明属于互联网数据挖掘领域,尤其涉及一种基于文本挖掘的受重群体画像方法。
背景技术
中国互联网已经形成规模,互联网应用走向多元化。互联网越来越深刻地改变着人们的学习、工作以及生活方式。在网络数据分析中,能准确知道公众号画像,识别用户属性是精确内容推广或者广告投放的重要前提。目前,在互联网中识别用户属性的现有技术方案都是基于用户文章样本的,需要首先收集用户全量历史样本,整理样本用户的数据,整理样本库,对样本库进行标签语料库分类,比如,某个语料库代表“购物”,“时尚”,“服饰”等内容;然后再根据样本库和互联网用户的样本库进行匹配,来识别用户属性,比如如果一个男性用户喜欢访问“军事”、“理财”内容的样本文章,那么所有访问“军事”,“理财”类样本的用户都是男性的概率较大。即,现有的技术方案基于样本数据,通过机器学习,再配以数据模型进行训练,进行互联网用户属性的判断。
但是存在以下缺陷:现有的技术方案都要求有一个已知的用户样本,然后通过用户样本的行为偏好进行机器学习,分析未知用户的用户属性,对用户属性的分析只能分析样本用户属性中的已知属性,对未知的属性无法识别和挖掘。
发明内容
为了解决上述问题,本发明提供一种基于文本挖掘的受重群体画像方法,可形成每个用户的浏览样本文章属性,分析出喜好类别的权重,从而识别、分析和挖掘用户的用户属性。
本发明一种基于文本挖掘的受重群体画像方法是通过以下技术方案来实现的:
一、文本挖掘步骤如下
1-1:创建标签主语料库
步骤1:抽取文章样本,对样本清洗,清洗掉音频、视频和图片;
步骤2:根据标签类库人工分类;
步骤3:对样本同时做动态聚类和模糊聚类,设置簇参数;
步骤4:依次做语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值M;
步骤5:将噪音值M与阈值a作比较,噪音值M小于阈值a,跳转至步骤6,噪音值M大于等于阈值a跳转至步骤3;
步骤6:再依次做模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值N;
步骤7:将噪音值N与阈值a作比较,噪音值N小于阈值a,跳转至步骤8,噪音值N大于等于阈值a,做修正标签类库后跳转至步骤6;
步骤8:做模型分类形成主语料库。
1-2:特征语料库
步骤1:对主语料库依次做样本词频分析、语义分析;
步骤2:进行高词频分类;
步骤3:创建特征词与标签类库的映射模型,形成特征语料库。
1-3:语料库更新维护
步骤1:抽取全量已分类文章样本;
步骤2:依次做词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类更新主语料库或者特征语料库;
步骤3:搜集新增标签,抽取带新增标签文章样本,进入1-1创建标签主语料库流程,清洗噪音数据,样本分类,更新主语料库。
二、公众号画像
步骤1:抽取公众号全量历史文章样本,对样本清洗,清洗掉视频、音频和图片;
步骤2:对样本动态聚类和模糊聚类同步处理,依次词频分析、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;
步骤3:将噪音值A与阈值a作比较,噪音值A小于阈值a,跳转至步骤4,噪音值A大于等于阈值a跳转至步骤2;
步骤4:再依次模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值B;
步骤5:将噪音值B与阈值a作比较,噪音值B小于阈值a,跳转至步骤6,噪音值B大于等于阈值a,做修正类参数处理后跳转至步骤4;
步骤6:做模型分类形成公众号画像。
需要说明的是:所述阈值a是0.01。
所述动态聚类是按照限定类别去发现符合类别的样本词汇。
所述模糊聚类是按照样本词汇语义模糊归属类别。
所述模型聚类是先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合。
本发明具有的有益效果:本发明一种基于文本挖掘的受重群体画像方法利用标签语料库给受众群体做画像,不仅分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,还可以分析整个互联网用户的基本属性;并且标签语料库库涵盖了各个行业,可以很有针对性的分析用户的属性,也可以分析用户的偏好,能对用户的全方位画像提供支持。不仅具有广泛的商业应用价值,同时也为互联网用户标签的挖掘算法和知识图谱的应用指明了研究方向。
附图说明
以下结合附图所示实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。
图1是本发明创建主语料库和特征语料库的原理框图。
图2是本发明主语料库更新维护的原理框图。
图3是本发明公众号画像的原理框图。
具体实施方式
一种基于文本挖掘的受重群体画像方法包括一、文本挖掘,二、公众号画像。
一、文本挖掘
1-1:创建标签主语料库,如图1所示,
步骤1:抽取文章样本,对样本清洗,清洗掉音频、视频和图片;
步骤2:根据标签类库人工分类;
步骤3:对样本同时做动态聚类和模糊聚类,设置簇参数;
步骤4:依次做语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值M;
步骤5:将噪音值M与阈值a作比较,噪音值M小于阈值a,跳转至步骤6,噪音值M大于等于阈值a跳转至步骤3;
步骤6:再依次做模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值N;
步骤7:将噪音值N与阈值a作比较,噪音值N小于阈值a,跳转至步骤8,噪音值N大于等于阈值a,做修正标签类库后跳转至步骤6;
步骤8:做模型分类形成主语料库。
1-2:特征语料库,如图1所示
步骤1:对主语料库依次做样本词频分析、语义分析;
步骤2:进行高词频分类;
步骤3:创建特征词与标签类库的映射模型,形成特征语料库。
1-3:语料库更新维护,如图2所示
步骤1:抽取全量已分类文章样本;
步骤2:依次做词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类更新主语料库或者特征语料库;
步骤3:搜集新增标签,抽取带新增标签文章样本,进入1-1创建标签主语料库流程,清洗噪音数据,样本分类,更新主语料库。
二、公众号画像,如图3所示
步骤1:抽取公众号全量历史文章样本,对样本清洗,清洗掉视频、音频和图片;
步骤2:对样本动态聚类和模糊聚类同步处理,依次词频分析、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;
步骤3:将噪音值A与阈值a作比较,噪音值A小于阈值a,跳转至步骤4,噪音值A大于等于阈值a跳转至步骤2;
步骤4:再依次模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值B;
步骤5:将噪音值B与阈值a作比较,噪音值B小于阈值a,跳转至步骤6,噪音值B大于等于阈值a,做修正类参数处理后跳转至步骤4;
步骤6:做模型分类形成公众号画像。
需要说明的是:所述阈值a是0.01。
所述动态聚类是按照限定类别去发现符合类别的样本词汇。
所述模糊聚类是按照样本词汇语义模糊归属类别。
所述模型聚类是先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合。
本发明一种基于文本挖掘的受重群体画像方法利用标签语料库给受众群体做画像,不仅分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,还可以分析整个互联网用户的基本属性;并且标签语料库库涵盖了各个行业,可以很有针对性的分析用户的属性,也可以分析用户的偏好,能对用户的全方位画像提供支持。不仅具有广泛的商业应用价值,同时也为互联网用户标签的挖掘算法和知识图谱的应用指明了研究方向。
本发明所举实施方式或者实施例对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所举实施方式或者实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于文本挖掘的受重群体画像方法,按照以下步骤进行:
步骤1:抽取公众号全量历史文章样本,对样本清洗,清洗掉视频、音频和图片;
步骤2:对样本依次做聚类组聚类、第一分析组分析、修正类参数和密度降噪处理,得出噪音值A;
步骤3:将噪音值A与阈值a作比较,噪音值A小于阈值a,跳转至步骤4,噪音值A大于等于阈值a跳转至步骤2;
步骤4:再依次做聚类、第二分析组分析和密度降噪处理,得出噪音值B;
步骤5:将噪音值B与阈值a作比较,噪音值B小于阈值a,跳转至步骤6,噪音值B大于等于阈值a,做修正类参数处理后跳转至步骤4;
步骤6:做模型分类形成公众号画像。
2.根据权利要求1所述基于文本挖掘的受重群体画像方法,其特征在于:所述步骤2的聚类组包括动态聚类和模糊聚类,动态聚类和模糊聚类同步处理,动态聚类是按照限定类别去发现符合类别的样本词汇,模糊聚类是按照样本词汇语义模糊归属类别;
所述步骤2的第一分析组包括词频分析、语义分析和类特征分析,先做词频分析再语义分析最后类特征分析,词频分析是分析样本词汇在全量历史样本中出现的频率,语义分析是分析样本词汇代表的概念含义,类特征分析是分析同一类别的样本词汇共有的特性。
3.根据权利要求1所述基于文本挖掘的受重群体画像方法,其特征在于:所述步骤3和步骤5的阈值a是0.01。
4.根据权利要求1所述基于文本挖掘的受重群体画像方法,其特征在于:所述步骤4的聚类为模型聚类,模型聚类是先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合;
所述步骤4的第二分析组包括语义分析和类特征分析,先做语义分析再类特征分析,语义分析是分析样本词汇代表的概念含义,类特征分析是分析同一类别的样本词汇共有的特性。
CN201711062092.6A 2017-11-02 2017-11-02 基于文本挖掘的受重群体画像方法 Pending CN107766553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711062092.6A CN107766553A (zh) 2017-11-02 2017-11-02 基于文本挖掘的受重群体画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711062092.6A CN107766553A (zh) 2017-11-02 2017-11-02 基于文本挖掘的受重群体画像方法

Publications (1)

Publication Number Publication Date
CN107766553A true CN107766553A (zh) 2018-03-06

Family

ID=61272030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711062092.6A Pending CN107766553A (zh) 2017-11-02 2017-11-02 基于文本挖掘的受重群体画像方法

Country Status (1)

Country Link
CN (1) CN107766553A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN204557477U (zh) * 2015-04-10 2015-08-12 安徽三联学院 基于数据仓库和olap技术的聚类挖掘系统
CN104991968A (zh) * 2015-07-24 2015-10-21 成都云堆移动信息技术有限公司 基于文本挖掘的互联网媒体用户属性分析方法
CN105791085A (zh) * 2016-01-26 2016-07-20 西安电子科技大学 在位置社交网络中基于位置与时间的好友推荐方法
US20170124176A1 (en) * 2015-10-30 2017-05-04 Vladislav Michael Beznos Universal analytical data mart and data structure for same
CN106789598A (zh) * 2017-01-20 2017-05-31 腾讯科技(深圳)有限公司 基于社交关系链的公众号消息推送方法、装置及系统
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN204557477U (zh) * 2015-04-10 2015-08-12 安徽三联学院 基于数据仓库和olap技术的聚类挖掘系统
CN104991968A (zh) * 2015-07-24 2015-10-21 成都云堆移动信息技术有限公司 基于文本挖掘的互联网媒体用户属性分析方法
US20170124176A1 (en) * 2015-10-30 2017-05-04 Vladislav Michael Beznos Universal analytical data mart and data structure for same
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム
CN105791085A (zh) * 2016-01-26 2016-07-20 西安电子科技大学 在位置社交网络中基于位置与时间的好友推荐方法
CN106789598A (zh) * 2017-01-20 2017-05-31 腾讯科技(深圳)有限公司 基于社交关系链的公众号消息推送方法、装置及系统

Similar Documents

Publication Publication Date Title
CN104991968B (zh) 基于文本挖掘的互联网媒体用户属性分析方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN106844723B (zh) 基于问答系统的医学知识库构建方法
CN106202211B (zh) 一种基于微博类型的集成微博谣言识别方法
CN107122340B (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN109508383A (zh) 知识图谱的构建方法及装置
CN108287843A (zh) 一种兴趣点信息检索的方法和装置、及导航设备
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN112699246A (zh) 基于知识图谱的领域知识推送方法
CN102289522A (zh) 一种对于文本智能分类的方法
CN103226576A (zh) 基于语义相似度的垃圾评论过滤方法
CN109902179A (zh) 基于自然语言处理的筛选电商垃圾评论的方法
CN105760524A (zh) 一种科学新闻标题的多层次多分类方法
CN103246655A (zh) 一种文本分类方法、装置及系统
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN103714120B (zh) 一种从用户url访问记录中提取用户兴趣话题的系统
CN104331523A (zh) 一种基于概念对象模型的问句检索方法
CN105956158B (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN107741958A (zh) 一种数据处理方法及系统
CN105068986A (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN106709824B (zh) 一种基于网络文本语义分析的建筑评价方法
Gunawan et al. Building automatic customer complaints filtering application based on Twitter in Bahasa Indonesia
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法
CN107766553A (zh) 基于文本挖掘的受重群体画像方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180306

WD01 Invention patent application deemed withdrawn after publication