CN104991968A - 基于文本挖掘的互联网媒体用户属性分析方法 - Google Patents

基于文本挖掘的互联网媒体用户属性分析方法 Download PDF

Info

Publication number
CN104991968A
CN104991968A CN201510444180.7A CN201510444180A CN104991968A CN 104991968 A CN104991968 A CN 104991968A CN 201510444180 A CN201510444180 A CN 201510444180A CN 104991968 A CN104991968 A CN 104991968A
Authority
CN
China
Prior art keywords
sample
noise
label
corpus
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510444180.7A
Other languages
English (en)
Other versions
CN104991968B (zh
Inventor
王飞
张国鸿
张何君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Yundui Mobile Information Technology Co Ltd
Original Assignee
Chengdu Yundui Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Yundui Mobile Information Technology Co Ltd filed Critical Chengdu Yundui Mobile Information Technology Co Ltd
Priority to CN201510444180.7A priority Critical patent/CN104991968B/zh
Priority to PCT/CN2015/090747 priority patent/WO2017016059A1/zh
Publication of CN104991968A publication Critical patent/CN104991968A/zh
Priority to US15/782,830 priority patent/US10664539B2/en
Application granted granted Critical
Publication of CN104991968B publication Critical patent/CN104991968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Economics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于文本挖掘的互联网媒体用户属性分析方法,包括如下步骤:(1)文本挖掘:1.1:创建标签主语料库;1.2:创建特征语料库;1.3:语料库更新维护;(2)获取互联媒体网用户属性集合:2.1:抽取互联网媒体用户全量历史文章样本并清洗;2.2:对样本进行处理,得出噪音值;2.3:将噪音值与阈值a作比较,噪音值小于阈值a,则进行模型分类形成互联网媒体用户属性集合。通过本发明不仅能分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,而且还可以分析互联网媒体用户的基本属性,能对互联网媒体用户的全方位属性提供支持,不仅具有广泛的商业应用价值,也为互联网媒体用户标签的挖掘算法和知识图谱的应用指明了研究方向。

Description

基于文本挖掘的互联网媒体用户属性分析方法
技术领域
本发明涉及一种互联网媒体用户属性分析方法,尤其涉及一种基于文本挖掘的互联网媒体用户属性分析方法。
背景技术
目前,全世界互联网已经形成规模,互联网应用走向多元化,互联网越来越深刻地改变着人们的学习、工作以及生活方式。在网络数据分析中,能准确知道互联网用户的习惯、需求等属性是精确内容推广或者广告投放的重要前提。目前,在互联网中识别媒体用户属性的现有技术方案都是基于用户文章样本的,需要首先收集用户全量历史样本,整理样本用户的数据,整理样本库,对样本库进行标签语料库分类,比如,某个语料库代表“购物”、“时尚”、“服饰”等内容;然后再根据样本库和互联网用户的样本库进行匹配,来识别用户属性。比如:如果一个男性用户喜欢访问“军事”、“理财”内容的样本文章,那么所有访问“军事”,“理财”类样本的用户都是男性的概率较大。即,在互联网中识别用户属性的传统方法基于样本数据,通过机器学习,再配以数据模型进行训练,进行互联网用户属性的判断。
上述传统方法存在以下缺陷:都需要有一个已知的用户样本,然后通过用户样本的行为偏好进行机器学习,再分析未知用户的用户属性,所以只能分析样本用户属性中的已知属性,对未知的属性无法识别和挖掘,而且对已知属性进行分析也不够精确。
发明内容
本发明的目的就在于为了解决上述问题而提供一种能对互联网用户的属性进行全方位分析的基于文本挖掘的互联网媒体用户属性分析方法。
本发明通过以下技术方案来实现上述目的:
一种基于文本挖掘的互联网媒体用户属性分析方法,包括以下步骤:
(1)文本挖掘:
1.1:创建标签主语料库:
1.1.1:抽取文章样本,对样本进行清洗,清洗掉音频、视频、图片和残缺文章、乱码、非法字符;
1.1.2:根据标签类库人工分类;
1.1.3:对样本同时进行动态聚类和模糊聚类,设置簇参数;
1.1.4:依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值M;
1.1.5:将噪音值M与阈值a作比较,如果噪音值M小于阈值a,则跳转至步骤1.1.6,如果噪音值M大于或等于阈值a,则跳转至步骤1.1.3;
1.1.6:再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值N;
1.1.7:将噪音值N与阈值a作比较,如果噪音值N小于阈值a,则跳转至步骤1.1.8,如果噪音值N大于或等于阈值a,则进行修正标签类库后跳转至步骤1.1.6;
1.1.8:进行模型分类形成标签主语料库;
1.2:创建特征语料库:
1.2.1:对标签主语料库依次进行样本词频分析、语义分析;
1.2.2:进行高词频分类;
1.2.3:创建特征词与标签类库的映射模型,形成特征语料库;
1.3:语料库更新维护:
1.3.1:抽取全量已分类文章样本;
1.3.2:依次进行词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类,更新标签主语料库或者特征语料库;
1.3.3:搜集新增标签,抽取带新增标签文章样本,进入步骤1.1,清洗噪音数据,样本分类,更新标签主语料库;
(2)获取互联网媒体用户属性集合:
2.1:抽取互联网媒体用户全量历史文章样本,对样本进行清洗,清洗掉视频、音频和图片;
2.2:对样本进行动态聚类和模糊聚类同步处理,再依次进行词频分析、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;
2.3:将噪音值A与阈值a作比较,如果噪音值A小于阈值a,则跳转至步骤2.4,如果噪音值A大于或等于阈值a,则跳转至步骤2.2;
2.4:再依次进行模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值B;
2.5:将噪音值B与阈值a作比较,如果噪音值B小于阈值a,则跳转至步骤2.6,如果噪音值B大于或等于阈值a,则进行修正类参数处理后跳转至步骤2.4;
2.6:进行模型分类形成互联网媒体用户属性集合;
上述步骤中,阈值a根据业务需要进行调整,一般选择0.01;上述步骤中涉及下述词语的定义如下:
标签类库:由一类自定义标签形成的类库,每一个标签均指向同一类属性的事物,不同类标签之间有明显特征区别,遵循高聚类、低耦合的原则;
簇参数:用聚类算法进行聚类时,根据标签类库的标签种类数量及文章的相似度人为设定的一个组类数量,同组类的样本相似度较高,异组类的样本相似度较低,聚类时以此参数作为分组的依据,并通过人工监督的方式不断调整该参数,以达到与标签类库最佳匹配的目的;
语义分析:第一,人工分析:对样本进行聚类后,通过人工抽样的方式,对样本进行人工理解,判断样本之间的相似度的过程,同时作为簇参数的修改依据;第二,机器分析:对样本进行分类时,通过与语料库的匹配算法,对样本进行分类的过程,同时作为语料库修正的依据;
簇特征分析:通过语义分析,利用提取主特征的算法,对已聚类的簇进行特征提取和标识的过程;
修正簇参数:在构建语料库时,对样本进行第一次聚类后,通过人工监督学习的方式,利用簇特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;
密度降噪处理:在簇特征分析过程中,需要对数据进行噪音处理,将主特征散点分布图中距离较远的点去掉,以形成可反应主特征的类别集合,这个去除噪音点的过程,即为密度降噪处理;
类特征分析:经过第一次簇降噪,对降噪后的类别集合进行特征提取和标识的过程;
修正类参数:在构建语料库时,对样本进行第二次聚类后,通过人工监督学习的方式,利用类特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;
修正标签类库:在第二次聚类的过程中,由于已经进行过一次降噪处理,样本分类模型已初步满足高聚类、低耦合的原则,再基于此模型进行第二次降噪处理后,基本可以达到业务要求,此时的分类模型已经确定,需要通过调整标签类库来达到与分类的最佳匹配,此调整过程即为修正标签类库;
基于模型分类:经过两次降噪处理后,形成一个基于样本的分类模型,作为冷启动的修正算法,再对需要分类的样本基于该模型进行分类的过程;
动态聚类:按照限定类别去发现符合类别的样本词汇;
模糊聚类:按照样本词汇语义模糊归属类别;
模型聚类:先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合。
作为优选,所述步骤1.1.4中,M值算法如下:
考虑给定对象集D,对象o的k-距离记为disk k(o),是o与另一个对象p∈D之间的距离dist(o,p),使得:
至少有K个对象o’∈D,使得disk(o,o’)≤dist(o,p),
至少有K-1个对象o’∈D,使得disk(o,o’)≤dist(o,p),
记:
Nk(o)={o’|o’∈D,dist(o,o’)≤distk(o)},
对于两个对象o,o’,如果dist(o,o’)>distk(o),则从o’到o的可达距离是dist(o,o’),否则是distk(o),
即:
reachdist k(o←o’)=max{distk(o),dist(o,o’)},
对象o的局部可达密度为:
l r d k ( o ) = | | N k ( o ) | | Σ o ′ ∈ N k ( o ) r e a c h d i s t k ( o ← o ′ ) ,
则定义o的局部离群点因子为:
L O F k ( o ) Σ o ′ ∈ N k ( o ) l r d k ( o ) l r d k ( o ) | | N k ( o ) | | ,
若LOF k(o)远小于1,则对象o为离群点,LOF k(o)即为M值。
本发明的有益效果在于:
通过本发明可形成每个互联网媒体用户的浏览样本文章属性,分析出喜好类别的权重,从而识别、分析和挖掘用户的用户属性,不仅能分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,而且还可以分析整个互联网媒体用户的基本属性,并且标签语料库库涵盖了各个行业,可以很有针对性地分析用户的属性,也可以分析用户的偏好,能对互联网媒体用户的全方位属性提供支持;本发明不仅具有广泛的商业应用价值,同时也为互联网媒体用户标签的挖掘算法和知识图谱的应用指明了研究方向。
具体实施方式
下面结合实施例对本发明作进一步说明:
实施例:
本发明所述基于文本挖掘的互联网媒体用户属性分析方法,包括以下步骤:
(1)文本挖掘:
1.1:创建标签主语料库:
1.1.1:抽取文章样本,对样本进行清洗,清洗掉音频、视频、图片和残缺文章、乱码、非法字符;
1.1.2:根据标签类库人工分类;
1.1.3:对样本同时进行动态聚类和模糊聚类,设置簇参数;
1.1.4:依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值M;
1.1.5:将噪音值M与阈值a作比较,如果噪音值M小于阈值a,则跳转至步骤1.1.6,如果噪音值M大于或等于阈值a,则跳转至步骤1.1.3;
1.1.6:再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值N;
1.1.7:将噪音值N与阈值a作比较,如果噪音值N小于阈值a,则跳转至步骤1.1.8,如果噪音值N大于或等于阈值a,则进行修正标签类库后跳转至步骤1.1.6;
1.1.8:进行模型分类形成标签主语料库;
1.2:创建特征语料库:
1.2.1:对标签主语料库依次进行样本词频分析、语义分析;
1.2.2:进行高词频分类;
1.2.3:创建特征词与标签类库的映射模型,形成特征语料库;
1.3:语料库更新维护:
1.3.1:抽取全量已分类文章样本;
1.3.2:依次进行词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类,更新标签主语料库或者特征语料库;
1.3.3:搜集新增标签,抽取带新增标签文章样本,进入步骤1.1,清洗噪音数据,样本分类,更新标签主语料库;
(2)获取互联网媒体用户属性集合:
2.1:抽取互联网媒体用户全量历史文章样本,对样本进行清洗,清洗掉视频、音频和图片;
2.2:对样本进行动态聚类和模糊聚类同步处理,再依次进行词频分析、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;
2.3:将噪音值A与阈值a作比较,如果噪音值A小于阈值a,则跳转至步骤2.4,如果噪音值A大于或等于阈值a,则跳转至步骤2.2;
2.4:再依次进行模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值B;
2.5:将噪音值B与阈值a作比较,如果噪音值B小于阈值a,则跳转至步骤2.6,如果噪音值B大于或等于阈值a,则进行修正类参数处理后跳转至步骤2.4;
2.6:进行模型分类形成互联网媒体用户属性集合;
上述步骤中,阈值a根据业务需要进行调整,一般选择0.01;上述步骤中涉及下述词语的定义如下:
标签类库:由一类自定义标签形成的类库,每一个标签均指向同一类属性的事物,不同类标签之间有明显特征区别,遵循高聚类、低耦合的原则;
簇参数:用聚类算法进行聚类时,根据标签类库的标签种类数量及文章的相似度人为设定的一个组类数量,同组类的样本相似度较高,异组类的样本相似度较低,聚类时以此参数作为分组的依据,并通过人工监督的方式不断调整该参数,以达到与标签类库最佳匹配的目的;
语义分析:第一,人工分析:对样本进行聚类后,通过人工抽样的方式,对样本进行人工理解,判断样本之间的相似度的过程,同时作为簇参数的修改依据;第二,机器分析:对样本进行分类时,通过与语料库的匹配算法,对样本进行分类的过程,同时作为语料库修正的依据;
簇特征分析:通过语义分析,利用提取主特征的算法,对已聚类的簇进行特征提取和标识的过程;
修正簇参数:在构建语料库时,对样本进行第一次聚类后,通过人工监督学习的方式,利用簇特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;
密度降噪处理:在簇特征分析过程中,需要对数据进行噪音处理,将主特征散点分布图中距离较远的点去掉,以形成可反应主特征的类别集合,这个去除噪音点的过程,即为密度降噪处理;
类特征分析:经过第一次簇降噪,对降噪后的类别集合进行特征提取和标识的过程;
修正类参数:在构建语料库时,对样本进行第二次聚类后,通过人工监督学习的方式,利用类特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;
修正标签类库:在第二次聚类的过程中,由于已经进行过一次降噪处理,样本分类模型已初步满足高聚类、低耦合的原则,再基于此模型进行第二次降噪处理后,基本可以达到业务要求,此时的分类模型已经确定,需要通过调整标签类库来达到与分类的最佳匹配,此调整过程即为修正标签类库;
基于模型分类:经过两次降噪处理后,形成一个基于样本的分类模型,作为冷启动的修正算法,再对需要分类的样本基于该模型进行分类的过程;
动态聚类:按照限定类别去发现符合类别的样本词汇;
模糊聚类:按照样本词汇语义模糊归属类别;
模型聚类:先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合;
所述步骤1.1.4中,M值算法如下:
考虑给定对象集D,对象o的k-距离记为disk k(o),是o与另一个对象p∈D之间的距离dist(o,p),使得:
至少有K个对象o’∈D,使得disk(o,o’)≤dist(o,p),
至少有K-1个对象o’∈D,使得disk(o,o’)≤dist(o,p),
记:
Nk(o)={o’|o’∈D,dist(o,o’)≤distk(o)},
对于两个对象o,o’,如果dist(o,o’)>distk(o),则从o’到o的可达距离是dist(o,o’),否则是distk(o),
即:
reachdist k(o←o’)=max{distk(o),dist(o,o’)},
对象o的局部可达密度为:
l r d k ( o ) = | | N k ( o ) | | Σ o ′ ∈ N k ( o ) r e a c h d i s t k ( o ← o ′ ) ,
则定义o的局部离群点因子为:
L O F k ( o ) Σ o ′ ∈ N k ( o ) l r d k ( o ) l r d k ( o ) | | N k ( o ) | | ,
若LOF k(o)远小于1,则对象o为离群点,LOF k(o)即为M值。
相比传统的互联网媒体用户属性分析方法,上述方法具有如下特点:
1、建立带标签的语料库,同时语料库带有多重功能,包括主语料库和特征语料库,以及在创建语料库时的多次迭代和噪音值修正,通过多次迭代和噪音值修正,可以在已有模型的基础上,不断修正语料库的精准度;同时在聚类后再根据模型进行噪音处理,可以更加精准的贴合模型,以满足业务的需要;
2、标签主语料库和特征语料库的多级分类,对样本的分类更加准确清晰;
3、语料库的全行业覆盖;
4、获取用户属性集合时的多次迭代聚类,修正噪音值参数,带语义分析和类特征分析的分类模式,通过人工监督和机器学习相结合的方式,达到精准画像的目的。
本发明所举实施例对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于文本挖掘的互联网媒体用户属性分析方法,其特征在于:包括以下步骤:
(1)文本挖掘:
1.1:创建标签主语料库:
1.1.1:抽取文章样本,对样本进行清洗,清洗掉音频、视频、图片和残缺文章、乱码、非法字符;
1.1.2:根据标签类库人工分类;
1.1.3:对样本同时进行动态聚类和模糊聚类,设置簇参数;
1.1.4:依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值M;
1.1.5:将噪音值M与阈值a作比较,如果噪音值M小于阈值a,则跳转至步骤1.1.6,如果噪音值M大于或等于阈值a,则跳转至步骤1.1.3;
1.1.6:再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值N;
1.1.7:将噪音值N与阈值a作比较,如果噪音值N小于阈值a,则跳转至步骤1.1.8,如果噪音值N大于或等于阈值a,则进行修正标签类库后跳转至步骤1.1.6;
1.1.8:进行模型分类形成标签主语料库;
1.2:创建特征语料库:
1.2.1:对标签主语料库依次进行样本词频分析、语义分析;
1.2.2:进行高词频分类;
1.2.3:创建特征词与标签类库的映射模型,形成特征语料库;
1.3:语料库更新维护:
1.3.1:抽取全量已分类文章样本;
1.3.2:依次进行词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类,更新标签主语料库或者特征语料库;
1.3.3:搜集新增标签,抽取带新增标签文章样本,进入步骤1.1,清洗噪音数据,样本分类,更新标签主语料库;
(2)获取互联网媒体用户属性集合:
2.1:抽取互联网媒体用户全量历史文章样本,对样本进行清洗,清洗掉视频、音频和图片;
2.2:对样本进行动态聚类和模糊聚类同步处理,再依次进行词频分析、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;
2.3:将噪音值A与阈值a作比较,如果噪音值A小于阈值a,则跳转至步骤2.4,如果噪音值A大于或等于阈值a,则跳转至步骤2.2;
2.4:再依次进行模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值B;
2.5:将噪音值B与阈值a作比较,如果噪音值B小于阈值a,则跳转至步骤2.6,如果噪音值B大于或等于阈值a,则进行修正类参数处理后跳转至步骤2.4;
2.6:进行模型分类形成互联网媒体用户属性集合;
上述步骤中,阈值a根据业务需要进行调整,一般选择0.01;上述步骤中涉及下述词语的定义如下:
标签类库:由一类自定义标签形成的类库,每一个标签均指向同一类属性的事物,不同类标签之间有明显特征区别,遵循高聚类、低耦合的原则;
簇参数:用聚类算法进行聚类时,根据标签类库的标签种类数量及文章的相似度人为设定的一个组类数量,同组类的样本相似度较高,异组类的样本相似度较低,聚类时以此参数作为分组的依据,并通过人工监督的方式不断调整该参数,以达到与标签类库最佳匹配的目的;
语义分析:第一,人工分析:对样本进行聚类后,通过人工抽样的方式,对样本进行人工理解,判断样本之间的相似度的过程,同时作为簇参数的修改依据;第二,机器分析:对样本进行分类时,通过与语料库的匹配算法,对样本进行分类的过程,同时作为语料库修正的依据;
簇特征分析:通过语义分析,利用提取主特征的算法,对已聚类的簇进行特征提取和标识的过程;
修正簇参数:在构建语料库时,对样本进行第一次聚类后,通过人工监督学习的方式,利用簇特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;
密度降噪处理:在簇特征分析过程中,需要对数据进行噪音处理,将主特征散点分布图中距离较远的点去掉,以形成可反应主特征的类别集合,这个去除噪音点的过程,即为密度降噪处理;
类特征分析:经过第一次簇降噪,对降噪后的类别集合进行特征提取和标识的过程;
修正类参数:在构建语料库时,对样本进行第二次聚类后,通过人工监督学习的方式,利用类特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;
修正标签类库:在第二次聚类的过程中,由于已经进行过一次降噪处理,样本分类模型已初步满足高聚类、低耦合的原则,再基于此模型进行第二次降噪处理后,基本可以达到业务要求,此时的分类模型已经确定,需要通过调整标签类库来达到与分类的最佳匹配,此调整过程即为修正标签类库;
基于模型分类:经过两次降噪处理后,形成一个基于样本的分类模型,作为冷启动的修正算法,再对需要分类的样本基于该模型进行分类的过程;
动态聚类:按照限定类别去发现符合类别的样本词汇;
模糊聚类:按照样本词汇语义模糊归属类别;
模型聚类:先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合。
2.根据权利要求1所述的基于文本挖掘的互联网媒体用户属性分析方法,其特征在于:所述步骤1.1.4中,M值算法如下:
考虑给定对象集D,对象o的k-距离记为disk k(o),是o与另一个对象p∈D之间的距离dist(o,p),使得:
至少有K个对象o’∈D,使得disk(o,o’)≤dist(o,p),
至少有K-1个对象o’∈D,使得disk(o,o’)≤dist(o,p),
记:
Nk(o)={o’|o’∈D,dist(o,o’)≤distk(o)},
对于两个对象o,o’,如果dist(o,o’)>distk(o),则从o’到o的可达距离是dist(o,o’),否则是distk(o),
即:
reachdist k(o←o’)=max{distk(o),dist(o,o’)},
对象o的局部可达密度为:
则定义o的局部离群点因子为:
若LOF k(o)远小于1,则对象o为离群点,LOF k(o)即为M值。
CN201510444180.7A 2015-07-24 2015-07-24 基于文本挖掘的互联网媒体用户属性分析方法 Active CN104991968B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510444180.7A CN104991968B (zh) 2015-07-24 2015-07-24 基于文本挖掘的互联网媒体用户属性分析方法
PCT/CN2015/090747 WO2017016059A1 (zh) 2015-07-24 2015-09-25 基于文本挖掘的互联网媒体用户属性分析方法
US15/782,830 US10664539B2 (en) 2015-07-24 2017-10-12 Text mining-based attribute analysis method for internet media users

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510444180.7A CN104991968B (zh) 2015-07-24 2015-07-24 基于文本挖掘的互联网媒体用户属性分析方法

Publications (2)

Publication Number Publication Date
CN104991968A true CN104991968A (zh) 2015-10-21
CN104991968B CN104991968B (zh) 2018-04-20

Family

ID=54303783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510444180.7A Active CN104991968B (zh) 2015-07-24 2015-07-24 基于文本挖掘的互联网媒体用户属性分析方法

Country Status (3)

Country Link
US (1) US10664539B2 (zh)
CN (1) CN104991968B (zh)
WO (1) WO2017016059A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279266A (zh) * 2015-10-26 2016-01-27 电子科技大学 一种基于移动互联网社交图片预测用户上下文信息的方法
CN105893407A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 个体用户画像方法和系统
CN106339409A (zh) * 2016-08-10 2017-01-18 乐视控股(北京)有限公司 用户语料信息的获取方法及装置
CN107766553A (zh) * 2017-11-02 2018-03-06 成都金川田农机制造有限公司 基于文本挖掘的受重群体画像方法
CN107908707A (zh) * 2017-11-09 2018-04-13 程杰 一种图片素材库的建立方法及其图片查找方法
CN108133393A (zh) * 2017-12-28 2018-06-08 新智数字科技有限公司 数据处理方法及系统
CN108960296A (zh) * 2018-06-14 2018-12-07 厦门大学 一种基于连续潜在语义分析的模型拟合方法
CN109492098A (zh) * 2018-10-24 2019-03-19 北京工业大学 基于主动学习和语义密度的目标语料库构建方法
CN109978575A (zh) * 2017-12-27 2019-07-05 中国移动通信集团广东有限公司 一种挖掘用户流量经营场景的方法及装置
CN110097080A (zh) * 2019-03-29 2019-08-06 广州思德医疗科技有限公司 一种分类标签的构建方法及装置
CN110245684A (zh) * 2019-05-14 2019-09-17 杭州米雅信息科技有限公司 数据处理方法、电子设备和介质
CN110910168A (zh) * 2019-11-05 2020-03-24 北京洪泰文旅科技股份有限公司 一种文旅行业获客方法及设备
CN113837512A (zh) * 2020-06-23 2021-12-24 中国移动通信集团辽宁有限公司 异常用户的识别方法及装置
TWI771284B (zh) * 2017-01-23 2022-07-21 香港商阿里巴巴集團服務有限公司 基於資料驅動預測使用者問題的方法及裝置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10419773B1 (en) * 2018-03-22 2019-09-17 Amazon Technologies, Inc. Hybrid learning for adaptive video grouping and compression
CN109189926B (zh) * 2018-08-28 2022-04-12 中山大学 一种科技论文语料库的构建方法
CN111797076A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据清理方法、装置、存储介质及电子设备
CN110647654A (zh) * 2019-08-19 2020-01-03 广州荔支网络技术有限公司 基于音频内容画像的音频主播评级方法、系统及存储介质
CN111309903B (zh) * 2020-01-20 2023-06-16 北京大米未来科技有限公司 一种数据处理方法、装置、存储介质和电子设备
CN111797291A (zh) * 2020-06-02 2020-10-20 成都方未科技有限公司 一种轨迹数据进行社会功能挖掘的方法、系统及存储介质
CN113222697A (zh) * 2021-05-11 2021-08-06 湖北三赫智能科技有限公司 商品信息推送方法、装置计算机设备及可读存储介质
CN114201973B (zh) * 2022-02-15 2022-06-07 深圳博士创新技术转移有限公司 基于人工智能的资源池对象数据挖掘方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242422A1 (en) * 2005-04-22 2006-10-26 Microsoft Corporation Rights Elevator
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN104615779A (zh) * 2015-02-28 2015-05-13 云南大学 一种Web文本个性化推荐方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099388A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びテキストマイニングシステム
US7577246B2 (en) * 2006-12-20 2009-08-18 Nice Systems Ltd. Method and system for automatic quality evaluation
US9461876B2 (en) * 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
US9047347B2 (en) * 2013-06-10 2015-06-02 Sap Se System and method of merging text analysis results
US10496729B2 (en) * 2014-02-25 2019-12-03 Siemens Healthcare Gmbh Method and system for image-based estimation of multi-physics parameters and their uncertainty for patient-specific simulation of organ function

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242422A1 (en) * 2005-04-22 2006-10-26 Microsoft Corporation Rights Elevator
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN104615779A (zh) * 2015-02-28 2015-05-13 云南大学 一种Web文本个性化推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAOWEN ZHANG等: "Mining Privilege Escalation Paths For Network Vulnerability Analysis", 《FOURTH INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (FSKD 2007)》 *
金燕 等: "虚拟社区用户信息行为研究方法的三维框架", 《图书情报工作》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279266B (zh) * 2015-10-26 2018-07-10 电子科技大学 一种基于移动互联网社交图片预测用户上下文信息的方法
CN105279266A (zh) * 2015-10-26 2016-01-27 电子科技大学 一种基于移动互联网社交图片预测用户上下文信息的方法
CN105893407A (zh) * 2015-11-12 2016-08-24 乐视云计算有限公司 个体用户画像方法和系统
CN106339409A (zh) * 2016-08-10 2017-01-18 乐视控股(北京)有限公司 用户语料信息的获取方法及装置
TWI771284B (zh) * 2017-01-23 2022-07-21 香港商阿里巴巴集團服務有限公司 基於資料驅動預測使用者問題的方法及裝置
CN107766553A (zh) * 2017-11-02 2018-03-06 成都金川田农机制造有限公司 基于文本挖掘的受重群体画像方法
CN107908707A (zh) * 2017-11-09 2018-04-13 程杰 一种图片素材库的建立方法及其图片查找方法
CN109978575A (zh) * 2017-12-27 2019-07-05 中国移动通信集团广东有限公司 一种挖掘用户流量经营场景的方法及装置
CN109978575B (zh) * 2017-12-27 2021-06-04 中国移动通信集团广东有限公司 一种挖掘用户流量经营场景的方法及装置
CN108133393A (zh) * 2017-12-28 2018-06-08 新智数字科技有限公司 数据处理方法及系统
CN108960296A (zh) * 2018-06-14 2018-12-07 厦门大学 一种基于连续潜在语义分析的模型拟合方法
CN108960296B (zh) * 2018-06-14 2022-03-29 厦门大学 一种基于连续潜在语义分析的模型拟合方法
CN109492098A (zh) * 2018-10-24 2019-03-19 北京工业大学 基于主动学习和语义密度的目标语料库构建方法
CN109492098B (zh) * 2018-10-24 2022-05-06 北京工业大学 基于主动学习和语义密度的目标语料库构建方法
CN110097080A (zh) * 2019-03-29 2019-08-06 广州思德医疗科技有限公司 一种分类标签的构建方法及装置
CN110097080B (zh) * 2019-03-29 2021-04-13 广州思德医疗科技有限公司 一种分类标签的构建方法及装置
CN110245684A (zh) * 2019-05-14 2019-09-17 杭州米雅信息科技有限公司 数据处理方法、电子设备和介质
CN110245684B (zh) * 2019-05-14 2023-02-03 杭州米雅信息科技有限公司 数据处理方法、电子设备和介质
CN110910168A (zh) * 2019-11-05 2020-03-24 北京洪泰文旅科技股份有限公司 一种文旅行业获客方法及设备
CN113837512A (zh) * 2020-06-23 2021-12-24 中国移动通信集团辽宁有限公司 异常用户的识别方法及装置

Also Published As

Publication number Publication date
WO2017016059A1 (zh) 2017-02-02
CN104991968B (zh) 2018-04-20
US10664539B2 (en) 2020-05-26
US20180032623A1 (en) 2018-02-01

Similar Documents

Publication Publication Date Title
CN104991968A (zh) 基于文本挖掘的互联网媒体用户属性分析方法
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
WO2017166912A1 (zh) 商品短文本核心词提取方法和装置
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN107748754B (zh) 一种知识图谱完善方法和装置
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
CN106651057B (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN107590224B (zh) 基于大数据的用户偏好分析方法与装置
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN111104466A (zh) 一种海量数据库表快速分类的方法
CN107862322B (zh) 结合图片和文本进行图片属性分类的方法、装置及系统
CN103778555A (zh) 基于用户标签的用户属性挖掘方法和系统
CN109598307B (zh) 数据筛选方法、装置、服务器及存储介质
CN105404674B (zh) 一种知识依赖的网页信息抽取方法
CN108228758A (zh) 一种文本分类方法及装置
CN105760524B (zh) 一种科学新闻标题的多层次多分类方法
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN109766435A (zh) 弹幕类别识别方法、装置、设备及存储介质
CN107665221A (zh) 关键词的分类方法和装置
CN103778206A (zh) 一种网络服务资源的提供方法
CN113298559A (zh) 一种商品适用人群的推荐方法、系统、装置及存储介质
CN104077408B (zh) 大规模跨媒体数据分布式半监督内容识别分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant