CN110209815A - 一种卷积神经网络的新闻用户兴趣挖掘方法 - Google Patents
一种卷积神经网络的新闻用户兴趣挖掘方法 Download PDFInfo
- Publication number
- CN110209815A CN110209815A CN201910435240.7A CN201910435240A CN110209815A CN 110209815 A CN110209815 A CN 110209815A CN 201910435240 A CN201910435240 A CN 201910435240A CN 110209815 A CN110209815 A CN 110209815A
- Authority
- CN
- China
- Prior art keywords
- training
- term vector
- interest
- news
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种卷积神经网络的新闻用户兴趣挖掘方法:步骤一:定义兴趣标签;步骤二:训练数据构造;步骤三、词向量的语料收集与词向量训练;步骤四、构造word到token和token到word的映射,得到映射表;步骤五、在映射表基础上,对原始文本进行转换;步骤六:加载预训练好的词向量文件,构造一个词典词汇数量vocab_size*词向量维度embedding_size大小的矩阵;步骤七:将带有兴趣标签的微博文本数据接入到分类模型训练。本发明实现了一种自动构造新闻用户兴趣标签的方法,通过构建一个结合连续的语义特征CNN卷积神经网络作为兴趣文本分类器,对用户的新闻评论进行兴趣分类,得到用户的兴趣。
Description
技术领域
本发明涉及一种卷积神经网络的新闻用户兴趣挖掘方法,属于自然语言处理技术领域。
背景技术
互联网时代,每天都会不断涌现无法预计的大量新闻信息以及新闻活越用户,用户的兴趣同时反映新闻关注度,对新闻用户的兴趣挖掘对分析新闻舆情有一定的积极作用。在新闻平台中,用户的大部分舆情行为是围绕用户的兴趣展开的,例如在新闻点赞的行为、发评论的行为,都在一定程度反映用户的关注点。
研究用户兴趣对企业平台具有举足轻重的意义,例如电商平台,挖掘用户兴趣,进而挖掘用户潜在感兴趣的商品,可用于商品推荐。而在内容消费平台中,从用户的一系列行为中挖掘用户的兴趣偏好,可以直接应用于内容推送,在新闻舆情分析领域中,发掘用户的兴趣有利于发现舆情走势。但是用户兴趣的研究同时也是一个难点。而现阶段,新闻用户兴趣分类主要面临问题是没有兴趣标签数据,在实现上往往依赖于人工标注与简单的关键词计算,准确率不高难以普适化。此外,在对于新闻用户的兴趣建模方面应用研究较少,迫切需求针对新闻用户的兴趣分类技术。
发明内容
本发明的目的在于提供一种卷积神经网络的新闻用户兴趣挖掘方法,以解决现有技术中新闻用户兴趣分类没有兴趣标签数据,往往依赖于人工标注与简单的关键词计算,准确率不高难以普适化的问题。
一种卷积神经网络的新闻用户兴趣挖掘方法,包括两方面内容:兴趣标签构建与新闻用户兴趣分类模型的训练;具体如下:
首先、基于微博标签的兴趣挖掘标签数据构建
步骤一:定义兴趣标签
采用微博用户兴趣类别的一阶类别,主要分为11大类,兴趣标签类别分别为财经、体育、军事、教育、法律、科技、社会、时政、文学、游戏和娱乐;
步骤二:训练数据构造
S2.1、选择微博大V,尤其是一些官方微博,从兴趣分类任务出发,选择用户领域性强,标签明确的种子用户;
S 2.2、提取这部分种子用户的近三个月的新闻文本作为训练样本;其中,设置有过滤规则,筛掉其中字数小于50字的微博,选取剩余的1000条作为训练数据;
S 2.3、对新闻文本进行预处理,采用正则表达式将任何与新闻上下文无关的噪声文本做移除处理;对新闻文本去除标点、URL链接、社交媒体实体,并将大段的文本分解为句子;
S 2.4、对经步骤S2.3处理后的所有数据按照6:2:2的比例分为训练集、验证集、测试集;准备模型的训练;
其次、分类模型构建与训练
步骤三、词向量的语料收集与词向量训练
词向量的语料收集即词向量语料库构建过程为:收集或者爬取多种来源的新闻语料数据。词向量训练过程为:随机初始化向量,遍历一次词向量训练语料库,调用gensim接口进行词向量训练,最终获得词向量结果。
步骤四、构造word到token的映射和token到word的映射,得到映射表,以备后续模型调用词向量使用。
步骤五、在映射表的基础上,对原始文本进行转换,即将文本转换为机器可识别的编码。其中,文本的长度采取截断处理,以用户微博的平均词数作为截断值,将每篇文本进行截断,对长度不足的文本0向量填充。
步骤六:加载步骤三预训练好的词向量文件,基于训练好的词向量构造一个词典词汇数量vocab_size*词向量维度embedding_size大小的矩阵。
步骤七:完成上述各种预处理后,将带有微博兴趣标签的微博文本数据接入到分类模型进行训练,所述的分类模型采用TextCNN模型。本发明的最优TextCNN模型是4层卷积结构,每层卷积后加一层池化操作,最后一层是全连接层。
本发明一种卷积神经网络的新闻用户兴趣挖掘方法,其优点及功效在于:本发明实现了一种自动构造新闻用户兴趣标签的方法,首先基于微博兴趣标签分类的用户兴趣数据集的构建,通过在微博数据上实现模型的训练后,把模型应用于新闻文本的用户兴趣分类任务中。通过对新闻用户的评论内容进行逐条兴趣分类,从而缓解噪声词对兴趣词的影响,然后通过用户在微博中的兴趣类别标签分布识别新闻用户的兴趣。
其次,本发明采用TextCNN卷积神经网络实现文本分类器。通过构建一个结合连续的语义特征CNN卷积神经网络作为兴趣文本分类器,对用户的新闻评论进行兴趣分类,通过极大似然估计得到用户的兴趣标签类别。
附图说明
图1所示为本发明一种卷积神经网络的新闻用户兴趣挖掘方法流程框图。
图2所示为本发明TextCNN模型网络结构简易图。
具体实施方式
下面结合附图和实施例,对本发明的技术方案做进一步的说明。显然,该描述的实例仅仅是本发明的一部分实施举例而不是全部。基于本发明中的实例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例都属于本发明的保护范围。
本发明一种卷积神经网络的新闻用户兴趣挖掘方法,包括两方面内容:兴趣标签构建与新闻用户兴趣分类模型的训练;具体如下(如图1所示):
首先、基于微博标签的兴趣挖掘标签数据构建
步骤一:定义兴趣标签
采用微博用户兴趣类别的一阶类别,主要分为11大类,兴趣标签类别分别为财经、体育、军事、教育、法律、科技、社会、时政、文学、游戏和娱乐。类别标签的设定主要参考了新浪微博的微博找人模块,根据领域标签可以实现对用户的搜索。在本发明中,通过微博标签把用户兴趣归并为11大类,基本也包含大部分微博用户的兴趣领域。
步骤二:训练数据构造
S2.1、选择微博大V,尤其是一些官方微博,从兴趣分类任务出发,选择微博大V等用户领域性强,标签明确的种子用户;
S 2.2、提取这部分种子用户的近三个月的新闻文本作为训练样本;由于字数太少的文本语义太稀疏,不利于模型训练,本文设置了过滤规则,筛掉其中字数小于50字的微博,选取剩余的1000条作为训练数据;
S 2.3、对新闻文本进行预处理,从开放域爬取得到的新闻的正文往往含有除了表达内容外的其他噪声文字,采用正则表达式将任何与新闻上下文无关的噪声文本做移除处理。对新闻文本去除标点、URL链接、社交媒体实体(开头的报道媒体)等,并将大段的文本分解为句子;
S 2.4、对经步骤S2.3处理后的所有数据按照6:2:2的比例分为训练集、验证集、测试集;准备模型的训练。
其次、分类模型构建与训练
步骤三、词向量的语料收集与词向量训练
因为分类模型的输入是词向量,所以首先需要训练词向量。
词向量语料库构建过程为:收集或者爬取多种来源的新闻语料数据。为了获得比较优质的词向量训练语料数据,本发明的词向量语料来自于五大门户网站(搜狐、新浪、网易等)的新闻语料。
其训练过程为:随机初始化向量,遍历一次词向量训练的语料库,调用gensim接口进行词向量训练。获得词向量结果。
步骤四、构造word到token的映射和token到word的映射,得到映射表,以备后续模型调用词向量使用。
步骤五、在映射表的基础上,对原始文本进行转换,即将文本转换为机器可识别的编码。其中,文本的长度采取截断处理,以用户微博的平均词数作为截断值,将每篇文本进行截断,对长度不足的文本0向量填充。
步骤六:加载步骤三预训练好的词向量文件,基于训练好的词向量构造一个词典的词汇数量vocab_size*词向量的维度embedding_size大小的矩阵。
步骤七:完成上述各种预处理后,将带有微博兴趣标签的微博文本数据接入到分类模型进行训练,所述的分类模型采用TextCNN模型。本发明的最优TextCNN模型是4层卷积结构,每层卷积后加一层池化操作,最后一层是全连接层。
模型网络结构简易图如图2所示。
进一步的,本发明方法在训练好上述模型后,进一步提出针对此模型的接口调用,方便用于新闻用户的兴趣挖掘分析;具体如下:
步骤一:模型接口实现方便兴趣分析调用;
步骤二:输入新闻用户的评论文本数据,因为自然语言处理文本对短文本的语义学习能力的不足,本发明建议输入新闻用户的评论数据文本长度在30个字符以上。
步骤三:调用接口输出兴趣标签。
本发明方法重点提出了一种新闻用户的兴趣挖掘方法,由于新闻数据无用户的标签数据,本发明提出从微博兴趣标签构造兴趣分类模型建模的方法。通过在微博数据上实现模型的训练后,把模型应用于新闻文本的用户兴趣分类任务中。基于TextCNN的方法能够有效抓取文本的局部特征,多层卷积网络对于语义感受野区间较大,模型具备一定鲁棒性和泛化性能。
为了评估本发明中兴趣分类模型上的性能,本发明在兴趣标签的多分类任务中,采用的评价指标是F1值和正确率(Accuracy),其中正确率是衡量分类结果正确性的一个比较直观的评价指标,是分类正确的样本数除以所有样本数。而F1值是对分类器的一个整体评价,受精确率(precision)和召回率(recall)的影响。
在多分类的情况中,对于类别C,分类结果一般都4种情况:
·属于类C的样本被正确分类到类C,记这一类样本数为TP
·不属于类C的样本被错误分类到类C,记这一类样本数为FP
·属于类C的样本被错误分类到除类C的其他类,记这一类样本数为FN
·不属于类C的样本被正确分类到除类C的其他类,记这一类样本数为TN则有,对于类别C的精确率(precision)和召回率(recall)为:
precision=TP/(TP+FP) (1)
recall=TP/(TP+FN) (2)
精确率又叫查准率,计算的是正确分类到类别C的样本数占所有被分类到类别C的比率;而召回率又叫查全率,计算的是正确分类到类别C的样本数占所有属于类别C样本的比率。对于一个分类器来说,既要追求比较高的精确率,同时也要求较高的召回率,而F1值则是用来综合衡量精确率和召回率的统一指标,F1公式如下所示:
由于多分类任务中,类别标签有多个,故将所有类别的F1值计算得到,并且求算术平均值,即为的综合F1值,用于评价整个分类器的效果。
Claims (4)
1.一种卷积神经网络的新闻用户兴趣挖掘方法,其特征在于:该方法包括两方面内容:兴趣标签构建与新闻用户兴趣分类模型的训练;具体如下:
步骤一:定义兴趣标签
采用微博用户兴趣类别的一阶类别,主要分为11大类,兴趣标签类别分别为财经、体育、军事、教育、法律、科技、社会、时政、文学、游戏和娱乐;
步骤二:训练数据构造
步骤三、词向量的语料收集与词向量训练
词向量的语料收集即词向量语料库构建过程为:收集或者爬取多种来源的新闻语料数据;
词向量训练过程为:随机初始化向量,遍历一次词向量训练语料库,调用gensim接口进行词向量训练,最终获得词向量结果;
步骤四、构造word到token的映射和token到word的映射,得到映射表,以备后续模型调用词向量使用;
步骤五、在映射表的基础上,对原始文本进行转换,即将文本转换为机器可识别的编码;
步骤六:加载步骤三预训练好的词向量文件,基于训练好的词向量构造一个词典词汇数量vocab_size*词向量维度embedding_size大小的矩阵;
步骤七:完成上述各种预处理后,将带有微博兴趣标签的微博文本数据接入到分类模型进行训练,所述的分类模型采用TextCNN模型。
2.一种卷积神经网络的新闻用户兴趣挖掘方法,其特征在于:所述步骤二训练数据构造的具体过程如下:
S2.1、选择微博大V,尤其是一些官方微博,从兴趣分类任务出发,选择用户领域性强,标签明确的种子用户;
S2.2、提取这部分种子用户的近三个月的新闻文本作为训练样本;其中,设置有过滤规则,筛掉其中字数小于50字的微博,选取剩余的1000条作为训练数据;
S2.3、对新闻文本进行预处理,采用正则表达式将任何与新闻上下文无关的噪声文本做移除处理;对新闻文本去除标点、URL链接、社交媒体实体,并将大段的文本分解为句子;
S2.4、对经步骤S2.3处理后的所有数据按照6:2:2的比例分为训练集、验证集、测试集;准备模型的训练。
3.一种卷积神经网络的新闻用户兴趣挖掘方法,其特征在于:所述步骤五对原始文本进行转换时,对文本的长度采取截断处理,以用户微博的平均词数作为截断值,将每篇文本进行截断,对长度不足的文本0向量填充。
4.一种卷积神经网络的新闻用户兴趣挖掘方法,其特征在于:所述TextCNN模型是4层卷积结构,每层卷积后加一层池化操作,最后一层是全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910435240.7A CN110209815A (zh) | 2019-05-23 | 2019-05-23 | 一种卷积神经网络的新闻用户兴趣挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910435240.7A CN110209815A (zh) | 2019-05-23 | 2019-05-23 | 一种卷积神经网络的新闻用户兴趣挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110209815A true CN110209815A (zh) | 2019-09-06 |
Family
ID=67788473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910435240.7A Pending CN110209815A (zh) | 2019-05-23 | 2019-05-23 | 一种卷积神经网络的新闻用户兴趣挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209815A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112596712A (zh) * | 2020-12-28 | 2021-04-02 | 上海风秩科技有限公司 | 冷启动接口设计方法、系统、电子设备及存储介质 |
CN112800223A (zh) * | 2021-01-26 | 2021-05-14 | 上海明略人工智能(集团)有限公司 | 基于长文本标签化的内容召回方法及系统 |
CN113792545A (zh) * | 2021-11-16 | 2021-12-14 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN108038205A (zh) * | 2017-12-15 | 2018-05-15 | 福州大学 | 针对中文微博的观点分析原型系统 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109543084A (zh) * | 2018-11-09 | 2019-03-29 | 西安交通大学 | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 |
-
2019
- 2019-05-23 CN CN201910435240.7A patent/CN110209815A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN108038205A (zh) * | 2017-12-15 | 2018-05-15 | 福州大学 | 针对中文微博的观点分析原型系统 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109543084A (zh) * | 2018-11-09 | 2019-03-29 | 西安交通大学 | 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法 |
Non-Patent Citations (3)
Title |
---|
朱凯歌: ""面向个性化服务的用户兴趣挖掘方法研究与实现"", 《万方》 * |
王汝娇: ""基于卷积神经网络与多特征融合的Twitter情感分类方法"", 《计算机工程》 * |
鲍怡: ""基于深度神经网络的文本情感分析"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112596712A (zh) * | 2020-12-28 | 2021-04-02 | 上海风秩科技有限公司 | 冷启动接口设计方法、系统、电子设备及存储介质 |
CN112800223A (zh) * | 2021-01-26 | 2021-05-14 | 上海明略人工智能(集团)有限公司 | 基于长文本标签化的内容召回方法及系统 |
CN113792545A (zh) * | 2021-11-16 | 2021-12-14 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
CN113792545B (zh) * | 2021-11-16 | 2022-03-04 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rodriguez et al. | A computational social science perspective on qualitative data exploration: Using topic models for the descriptive analysis of social media data | |
Bostan et al. | GoodNewsEveryone: A corpus of news headlines annotated with emotions, semantic roles, and reader perception | |
CN108959270B (zh) | 一种基于深度学习的实体链接方法 | |
CN104657496B (zh) | 一种计算信息热度值的方法和设备 | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
Li et al. | Analyzing COVID-19 on online social media: Trends, sentiments and emotions | |
CN110765260A (zh) | 一种基于卷积神经网络与联合注意力机制的信息推荐方法 | |
CN111897908A (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及系统 | |
CN106682192A (zh) | 一种基于搜索关键词训练回答意图分类模型的方法和装置 | |
CN105426514A (zh) | 个性化的移动应用app推荐方法 | |
Kewsuwun et al. | A sentiment analysis model of agritech startup on Facebook comments using naive Bayes classifier. | |
Katz et al. | Natural language processing in the legal domain | |
CN110209815A (zh) | 一种卷积神经网络的新闻用户兴趣挖掘方法 | |
CN104462553A (zh) | 问答页面相关问题推荐方法及装置 | |
CN109543034A (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
CN102663001A (zh) | 基于支持向量机的博客作者兴趣与性格自动识别方法 | |
CN115526590B (zh) | 一种结合专家知识和算法的高效人岗匹配与复推方法 | |
CN110147552B (zh) | 基于自然语言处理的教育资源质量评价挖掘方法及系统 | |
Permana et al. | Perception analysis of the Indonesian society on twitter social media on the increase in BPJS kesehatan contribution in the Covid 19 pandemic era | |
CN116610592B (zh) | 基于自然语言处理技术的可定制软件测试评价方法及系统 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Sundaram et al. | A Systematic Literature Review on Social Media Slang Analytics in Contemporary Discourse | |
CN112380422A (zh) | 一种基于关键词热度的金融新闻推荐装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190906 |