CN105975478A - 一种基于词向量分析的网络文章所属事件的检测方法和装置 - Google Patents

一种基于词向量分析的网络文章所属事件的检测方法和装置 Download PDF

Info

Publication number
CN105975478A
CN105975478A CN201610218382.4A CN201610218382A CN105975478A CN 105975478 A CN105975478 A CN 105975478A CN 201610218382 A CN201610218382 A CN 201610218382A CN 105975478 A CN105975478 A CN 105975478A
Authority
CN
China
Prior art keywords
web documents
text
feature
event
lda
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610218382.4A
Other languages
English (en)
Inventor
郎丛妍
于兆鹏
何伟明
王涛
冯松鹤
杜雪涛
杜刚
张晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
China Mobile Group Design Institute Co Ltd
Original Assignee
Beijing Jiaotong University
China Mobile Group Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University, China Mobile Group Design Institute Co Ltd filed Critical Beijing Jiaotong University
Priority to CN201610218382.4A priority Critical patent/CN105975478A/zh
Publication of CN105975478A publication Critical patent/CN105975478A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于词向量分析的网络文章所属事件的检测方法和装置。该方法主要包括:建立典型训练集;对典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,得到每一条网络文章样本文对应的多维词向量;将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。本发明实施例充分利用了网络文本样本的信息,提高了网络文本样本所属事件分类的准确度。

Description

一种基于词向量分析的网络文章所属事件的检测方法和装置
技术领域
本发明涉及网络文章事件检测技术领域,尤其涉及一种基于词向量分析的网络文章所属事件的检测方法和装置。
背景技术
随着互联网的迅猛发展,尤其是微博的流行与普及,使得我们可以非常方便地,跨地域地分享所知,所听,所见的各种事件。然而,随着生活节奏加快,人们没有太多时间去了解当前的热门事件;以及由于微博信息传播迅速的特点,负面新闻散布过快,当前没有一种有效机制来检测网络负面新闻的出现。因此,一个有效的互联网中事件检测系统对方便人们快速了解网络事件以及及早遏制负面新闻的传播都具有重要的意义。
近年来,微博越来越流行,大量现实中的事件通过微博进行传播。以及为了信息检索,遏制负面新闻的传播等目的使得研发一种互联网中事件检测系统具有重要的必要性。
发明内容
本发明的实施例提供了一种基于词向量分析的网络文章所属事件的检测方法和装置,以实现有效地对网络文章所属事件进行提取。
为了实现上述目的,本发明采取了如下技术方案。
一种基于词向量分析的网络文章所属事件的检测方法,包括:
利用具有事件标签的网络文章样本建立典型训练集;
对所述典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;
将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量;
将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。
进一步地,所述的利用具有事件标签的网络文章样本建立典型训练集,包括:
通过网络爬虫技术从网络中收集建立具有事件标签的网络文章样本,将所有的网络文章样本组成训练集,使用设定数量的用户对每一条网络文章样本进行所属事件标注,如果有超过设定比例的用户对一条网络文章样本所属事件的标注结果不一致,则将该网络文章样本剔出训练集,最终得到优化后的典型训练集。
进一步地,所述的将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,包括:
word2vec算法的Skip-gram模型的计算公式如下:
1 N Σ n = 1 N Σ - c ≤ j ≤ c , j ≠ 0 log p ( w t + j | w t )
其中,w1,w2,w3,...,wN是一条规范化的网络文章样本文本中的词组序列,N是词组序列中词组的总数,c是决定上下文窗口大小的常数;
基本的Skip-garm模型用如下公式定义p(wt+j|wt):
其中,vw和v′w是wn的“输入”和“输出”向量表示,W是word2vec字典中的词语向量的维数;
word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维矩阵,其中N为词组序列中词组的总数,K为每个词组经word2vec映射后的向量维数,然后,对N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本的word2vec特征;
LDA算法的计算公式如下:
p ( D | α , β ) Π d = 1 M ∫ p ( θ d | α ) ( Π n = 1 N d Σ z d n P ( z d n | θ d ) P ( w d n | z d n , β ) ) d θ d
其中,D表示规范化的网络文章样本文本集合,M为网络文章样本文本的数量,D={W1,W2,.....,WM},W={w1,w2,.....,wN},N为一条网络文章样本文本的词组数量,β为T×v矩阵,T为Dirichlet分布的维数,T为常数。βi j=p(wj=1|zi=1),θ~Dirichlet(α),α为T维向量,Z为话题集合,Zn~Multinomial(θ);W1为某一条网络文章样本文本,w1为一条网络文章样本文本中某一个词组,将p(D|α,β)作为网络文章样本文本的LDA特征。
进一步地,所述的将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量,包括:
对一条网络文章样本文本分别进行word2vec特征提取和LDA特征提取之后,将word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量;
所述word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理,使LDA特征的尺度和word2vec特征一致,归一化方法如下:
λ = max l d a max w 2 v
其中,为融合后的特征,为X维词向量,为word2vec算法得到的特征,为Xw2v维,为LDA算法得到的特征,Xlda维, X=Xw2v+Xlda,maxw2v为向量中元素绝对值最大的值,maxlda为向量中元素绝对值最大的值。
进一步地,所述的利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件,包括:
所述事件的分类模型中包括网络文章文本的属性和所属的事件,将待识别的网络文章文本的属性输入到所述事件的分类模型,查询出待识别的网络文章文本所属的事件。
一种基于词向量分析的网络文章所属事件的检测装置,包括:
典型训练集建立模块,用于利用具有事件标签的网络文章样本建立典型训练集;
规范化的网络文章样本文本获取模块,用于对所述典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;
网络文章样本文对应的多维词向量获取模块,用于将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量;
网络文章文本所属事件获取模块,用于将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。
进一步地,所述的典型训练集建立模块,具体用于通过网络爬虫技术从网络中收集建立具有事件标签的网络文章样本,将所有的网络文章样本组成训练集,使用设定数量的用户对每一条网络文章样本进行所属事件标注,如果有超过设定比例的用户对一条网络文章样本所属事件的标注结果不一致,则将该网络文章样本剔出训练集,最终得到优化后的典型训练集。
进一步地,所述的网络文章样本文对应的多维词向量获取模块,具体用于设word2vec算法的Skip-gram模型的计算公式如下:
1 N Σ n = 1 N Σ - c ≤ j ≤ c , j ≠ 0 log p ( w t + j | w t )
其中,w1,w2,w3,...,wN是一条规范化的网络文章样本文本中的词组序列,N是词组序列中词组的总数,c是决定上下文窗口大小的常数;
基本的Skip-garm模型用如下公式定义p(wt+j|wt):
其中,vw和v′w是wn的“输入”和“输出”向量表示,W是word2vec字典中的词语向量的维数;
word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维矩阵,其中N为词组序列中词组的总数,K为每个词组经word2vec映射后的向量维数,然后,对N*K维度矩阵的所有行求和取平均值得到一个K维向 量,该K维向量为网络文章样本文本的word2vec特征;
LDA算法的计算公式如下:
p ( D | α , β ) Π d = 1 M ∫ p ( θ d | α ) ( Π n = 1 N d Σ z d n P ( z d n | θ d ) P ( w d n | z d n , β ) ) d θ d
其中,D表示规范化的网络文章样本文本集合,M为网络文章样本文本的数量,D={W1,W2,.....,WM},W={w1,w2,.....,wN},N为一条网络文章样本文本的词组数量,β为T×v矩阵,T为Dirichlet分布的维数,T为常数。βi j=p(wj=1|zi=1),θ~Dirichlet(α),α为T维向量,Z为话题集合,Zn~Multinomial(θ);W1为某一条网络文章样本文本,w1为一条网络文章样本文本中某一个词组,将p(D|α,β)作为网络文章样本文本的LDA特征。
进一步地,所述的网络文章样本文对应的多维词向量获取模块,具体用于对一条网络文章样本文本分别进行word2vec特征提取和LDA特征提取之后,将word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量;
所述word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理,使LDA特征的尺度和word2vec特征一致,归一化方法如下:
λ = max l d a max w 2 v
其中,为融合后的特征,为X维词向量,为word2vec算法得到的特征,为Xw2v维,为LDA算法得到的特征,Xlda维, X=Xw2v+Xlda,maxw2v为向量中元素绝对值最大的值,maxlda为向量中元素绝对值最大的值。
进一步地,网络文章文本所属事件获取模块,具体用于设所述事件的分 类模型中包括网络文章文本的属性和所属的事件,将待识别的网络文章文本的属性输入到所述事件的分类模型,查询出待识别的网络文章文本所属的事件。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提供的基于词向量分析的网络文章所属事件的检测方法综合了word2vec的深度特征和LDA经典主题模型特征的优点,充分利用了文本样本的信息,提高了分类的准确度。本发明装置的所有模块都是完全自动的,不需要人工干预,因此能够非常容易独立运行或作为一个子模块嵌入到各类Web信息过滤系统中去。具有广泛的应用前景。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供了一种基于词向量分析的网络文章所属事件的检测方法的流程图;
图2为本发明实施例提供的一种基于词向量分析的互联网中事件分类模型的训练流程图;
图3为本发明实施例提供的一种基于词向量分析的互联网中事件分类模型进行所属类别测试的方法流程图;
图4为本发明实施例提供的一种基于词向量分析的网络文章所属事件的检测装置的具体结构图,包括:典型训练集建立模块41,规范化的网络文章样 本文本获取模块42,网络文章样本文对应的多维词向量获取模块43和网络文章文本所属事件获取模块44。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
本发明实施例提供了一种基于词向量分析的网络文章所属事件的检测方法的流程图如图1所示,该方法包括以下步骤:
步骤S110:建立具有事件标签的训练集;
通过网络爬虫技术从网络中收集建立具有事件标签的网络文章样本,将所有的网络文章样本组成训练集,使用设定数量的用户对每一条网络文章样本进行所属事件标注,如果有超过设定比例的用户对一条网络文章样本所属事件的标注结果不一致,则将该网络文章样本剔出训练集,最终得到优化后的典型训练集。训练集中包含的每一个网络文章样本都标注了对应的事件标签。
比如,并使7位用户对每一条网络文章样本进行所属事件进行标注,如果有超过3位用户对所属事件标注结果不一致,则将该网络文章样本剔出训练集,以获得最终的典型训练集。
因为微博等网络文章的字数少,语义中心较为集中,为了便于后期处理,这里每一条网络文章定义为只属于一个事件。事件名称举例如下:“了不起的挑战”,“芈月传”,“亚洲新歌榜”,“2亿人得了腰椎病”等。
步骤S120:利用开源IKAnalyzer分词工具对所述典型训练集中的每一条网络文章样本进行分词,去无用词等预处理,得到规范化的网络文章样本文本;
步骤S130:将每一条规范化的网络文章样本文本分别用word2vec算法和LDA(Linear Discriminant Analysis,线性判别式分析)算法提取特征,并把word2vec特征和LDA特征进行融合,以得到每一条网络文章样本文本的X维词向量表示,其中X为自然数;
word2vec是Google在2013年年中开源的一款将词表征为实数值向量 的高效工具,其利用深度学习的思想,可以通过训练,把对网络文章文本内容的处理简化为K维向量空间中的向量运算。为K维向量空间中的向量运算。在实际应用中,通常取K=200。该工具共有两个模型——CBOW和Skip-gram模型。
其中,word2vec算法的Skip-gram模型核心公式如下:
1 N Σ n = 1 N Σ - c ≤ j ≤ c , j ≠ 0 log p ( w t + j | w t )
其中,w1,w2,w3,...,wN是一条规范化的网络文章样本文本的词组序列,N是词组的总数,c是决定上下文窗口大小的常数,c越大一般会得到更精确的结果,基本的Skip-garm模型用如下公式定义p(wt+j|wt):
其中,vw和v′w是wN的“输入”和“输出”向量表示,W是word2vec字典的大小,即word2vec字典中的词语向量的维数。
word2vec把每个词组映射为K维向量,那么一条网络文章样本文本则为N*K维矩阵,其中N为词组序列中词组的总数,K为每个词组经word2vec映射后的向量维数。然后对N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本的word2vec特征。
LDA算法的核心公式如下:
p ( D | α , β ) Π d = 1 M ∫ p ( θ d | α ) ( Π n = 1 N d Σ z d n P ( z d n | θ d ) P ( w d n | z d n , β ) ) d θ d
其中,D表示规范化的网络文章样本集合,M为网络文章样本集合的数量,D={W1,W2,.....,WM},W={w1,w2,.....,wN},N为一条网络文章样本的词组数量,β为T×v矩阵,T为Dirichlet分布的维数,T为常数。βi j=p(wj=1|zi=1),θ~Dirichlet(α),α为k维向量。Z为话题集合,Zn~Multinomial(θ)。
W1为某一条网络文章样本文本,w1为一条网络文章样本文本中某一个词组,将p(D|α,β)作为网络文章样本文本的LDA特征。
对一条网络文章样本文本提取word2vec特征时,采用Skip-gram模型,词向量维数K=100,上下文窗口大小window=5,其它参数为默认值;提取LDA特征时,事件个数num_topics=250。
对一条网络文章样本文本分别进行word2vec特征提取和LDA特征提取之后,将word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量。
word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理,使其尺度和word2vec一致,归一化方法如下:
λ = max l d a max w 2 v
其中,为融合后的特征,为X维词向量,为word2vec算法得到的特征,为Xw2v维,为LDA算法得到的特征,Xlda维, X=Xw2v+Xlda,maxw2v为向量中元素绝对值最大的值,maxlda为向量中元素绝对值最大的值。
步骤S140:将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型。其中随机森林中 树的个数tree=200。事件的分类模型中包括网络文章文本的属性和所属的事件吗?
利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。是将待识别的网络文章文本的一些属性输入到上述事件的分类模型,查询出待识别的网络文章文本所属的事件吗?
下面结合图2和图3详细给出本发明提供的互联网中事件检测系统的主要运行流程。整个系统可分为训练流程和测试流程。
图2示出了本发明中基于词向量分析的互联网中事件分类模型的训练流程图。如图2所示,对于大量的训练样本文本,首先利用本发明使用的IKAnalyzer分词工具进行分词,去无用词等预处理,得到规范化的样本文本。然后,用word2vec算法和LDA算法提取出特征并进行融合,得到融合后的X维特征。最后将得到的X维特征及其对应的所属类别标签输入到随机森林中,训练得到最优的互联网中事件分类模型。图3示出了本发明中基于词向量分析的互联网中事件分类模型进行所属类别测试的方法流程图。如图4所示,对于输入的测试文本,首先利用本发明使用的IKAnalyzer分词工具进行分词,去无用词等预处理,得到规范化的测试文本。然后,用word2vec算法和LDA算法提取出特征并进行融合,得到测试样本的融合后的X维特征。最后,利用训练好的互联网中事件的随机森林分类模型对待分类的网络文章文本进行分类,以判断待分类的网络文章文本属于哪一个事件。
实施例二
该实施例提供了一种基于词向量分析的网络文章所属事件的检测装置,该装置的具体结构如图4所示,包括:
典型训练集建立模块41,用于利用具有事件标签的网络文章样本建立典型训练集;
规范化的网络文章样本文本获取模块42,用于对所述典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;
网络文章样本文对应的多维词向量获取模块43,用于将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量;
网络文章文本所属事件获取模块44,用于将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。
进一步地,所述的典型训练集建立模块41,具体用于通过网络爬虫技术从网络中收集建立具有事件标签的网络文章样本,将所有的网络文章样本组成训练集,使用设定数量的用户对每一条网络文章样本进行所属事件标注,如果有超过设定比例的用户对一条网络文章样本所属事件的标注结果不一致,则将该网络文章样本剔出训练集,最终得到优化后的典型训练集。
进一步地,所述的网络文章样本文对应的多维词向量获取模块43,具体用于设word2vec算法的Skip-gram模型的计算公式如下:
1 N Σ n = 1 N Σ - c ≤ j ≤ c , j ≠ 0 log p ( w t + j | w t )
其中,w1,w2,w3,...,wN是一条规范化的网络文章样本文本中的词组 序列,N是词组序列中词组的总数,c是决定上下文窗口大小的常数;
基本的Skip-garm模型用如下公式定义p(wt+j|wt):
其中,vw和v′w是wn的“输入”和“输出”向量表示,W是word2vec字典中的词语向量的维数;
word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维矩阵,其中N为词组序列中词组的总数,K为每个词组经word2vec映射后的向量维数,然后,对N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本的word2vec特征;
LDA算法的计算公式如下:
p ( D | α , β ) Π d = 1 M ∫ p ( θ d | α ) ( Π n = 1 N d Σ z d n P ( z d n | θ d ) P ( w d n | z d n , β ) ) d θ d
其中,D表示规范化的网络文章样本文本集合,M为网络文章样本文本的数量,D={W1,W2,.....,WM},W={w1,w2,.....,wN},N为一条网络文章样本文本的词组数量,β为T×v矩阵,T为Dirichlet分布的维数,T为常数。βi j=p(wj=1|zi=1),θ~Dirichlet(α),α为T维向量,Z为话题集合,Zn~Multinomial(θ);W1为某一条网络文章样本文本,w1为一条网络文章样本文本中某一个词组,将p(D|α,β)作为网络文章样本文本的LDA特征。
对一条网络文章样本文本分别进行word2vec特征提取和LDA特征提取之后,将word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量;
所述word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理, 使LDA特征的尺度和word2vec特征一致,归一化方法如下:
λ = max l d a max w 2 v
其中,为融合后的特征,为X维词向量,为word2vec算法得到的特征,为Xw2v维,为LDA算法得到的特征,Xlda维, X=Xw2v+Xlda,maxw2v为向量中元素绝对值最大的值,maxlda为向量中元素绝对值最大的值。
进一步地,网络文章文本所属事件获取模块44,具体用于设所述事件的分类模型中包括网络文章文本的属性和所属的事件,将待识别的网络文章文本的属性输入到所述事件的分类模型,查询出待识别的网络文章文本所属的事件。
用本发明实施例的装置进行基于词向量分析的网络文章所属事件的检测的具体过程与前述方法实施例类似,此处不再赘述。
综上所述,本发明实施例提供的基于词向量分析的网络文章所属事件的检测方法具有如下的优点:
1、本发明提供的word2vec特征和LDA特征融合方法综合了word2vec的深度特征和LDA经典主题模型特征的优点,充分利用了网络文本样本的信息,提高了网络文本样本所属事件分类的准确度。
2、本发明所用的随机森林算法,有实现简单,训练速度快的特点,便于在实际环境下应用。
3、本系统的所有模块都是完全自动的,不需要人工干预,因此能够非常容易独立运行或作为一个子模块嵌入到各类Web信息过滤系统中去。具有广泛的应用前景。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中 的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于词向量分析的网络文章所属事件的检测方法,其特征在于,包括:
利用具有事件标签的网络文章样本建立典型训练集;
对所述典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;
将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量;
将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。
2.根据权利要求1所述的基于词向量分析的网络文章所属事件的检测方法,其特征在于,所述的利用具有事件标签的网络文章样本建立典型训练集,包括:
通过网络爬虫技术从网络中收集建立具有事件标签的网络文章样本,将所有的网络文章样本组成训练集,使用设定数量的用户对每一条网络文章样本进行所属事件标注,如果有超过设定比例的用户对一条网络文章样本所属事件的标注结果不一致,则将该网络文章样本剔出训练集,最终得到优化后的典型训练集。
3.根据权利要求1所述的基于词向量分析的网络文章所属事件的检测方法,其特征在于,所述的将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,包括:
word2vec算法的Skip-gram模型的计算公式如下:
其中,w1,w2,w3,...,wN是一条规范化的网络文章样本文本中的词组序列,N是词组序列中词组的总数,c是决定上下文窗口大小的常数;
基本的Skip-garm模型用如下公式定义p(wt+j|wt):
其中,vw和v′w是wn的“输入”和“输出”向量表示,W是word2vec字典中的词语向量的维数;
word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维矩阵,其中N为词组序列中词组的总数,K为每个词组经word2vec映射后的向量维数,然后,对N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本的word2vec特征;
LDA算法的计算公式如下:
其中,D表示规范化的网络文章样本文本集合,M为网络文章样本文本的数量,D={W1,W2,.....,WM},W={w1,w2,.....,wN},N为一条网络文章样本文本的词组数量,β为T×v矩阵,T为Dirichlet分布的维数,T为常数。βi j=p(wj=1|zi=1),θ~Dirichlet(α),α为T维向量,Z为话题集合,Zn~Multinomial(θ);W1为某一条网络文章样本文本,w1为一条网络文章样本文 本中某一个词组,将p(D|α,β)作为网络文章样本文本的LDA特征。
4.根据权利要求3所述的基于词向量分析的网络文章所属事件的检测方法,其特征在于,所述的将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量,包括:
对一条网络文章样本文本分别进行word2vec特征提取和LDA特征提取之后,将word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量;
所述word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理,使LDA特征的尺度和word2vec特征一致,归一化方法如下:
其中,为融合后的特征,为X维词向量,为word2vec算法得到的特征,为Xw2v维,为LDA算法得到的特征,Xlda维, X=Xw2v+Xlda,maxw2v为向量中元素绝对值最大的值,maxlda为向量中元素绝对值最大的值。
5.根据权利要求4所述的基于词向量分析的网络文章所属事件的检测方法,其特征在于,所述的利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件,包括:
所述事件的分类模型中包括网络文章文本的属性和所属的事件,将待识别的网络文章文本的属性输入到所述事件的分类模型,查询出待识别的网络文章文本所属的事件。
6.一种基于词向量分析的网络文章所属事件的检测装置,其特征在于,包括:
典型训练集建立模块,用于利用具有事件标签的网络文章样本建立典型训练集;
规范化的网络文章样本文本获取模块,用于对所述典型训练集中的每一条网络文章样本进行分词,去无用词预处理,得到规范化的网络文章样本文本;
网络文章样本文对应的多维词向量获取模块,用于将每一条规范化的网络文章样本文本分别用word2vec算法和LDA算法提取特征,将提取出的网络文章样本文本的word2vec特征和LDA特征进行融合,得到每一条网络文章样本文对应的多维词向量;
网络文章文本所属事件获取模块,用于将每一条网络文章样本文本对应的多维词向量和事件标签输入到随机森林算法,该随机森林算法输出事件的分类模型,利用所述事件的分类模型对待识别的网络文章文本进行识别,判断出所述待识别的网络文章文本所属的事件。
7.根据权利要求6所述的基于词向量分析的网络文章所属事件的检测装置,其特征在于:
所述的典型训练集建立模块,具体用于通过网络爬虫技术从网络中收集建立具有事件标签的网络文章样本,将所有的网络文章样本组成训练集,使用设定数量的用户对每一条网络文章样本进行所属事件标注,如果有超过设定比例的用户对一条网络文章样本所属事件的标注结果不一致,则将该网络文章样本剔出训练集,最终得到优化后的典型训练集。
8.根据权利要求7所述的基于词向量分析的网络文章所属事件的检测装置,其特征在于:
所述的网络文章样本文对应的多维词向量获取模块,具体用于设 word2vec算法的Skip-gram模型的计算公式如下:
其中,w1,w2,w3,...,wN是一条规范化的网络文章样本文本中的词组序列,N是词组序列中词组的总数,c是决定上下文窗口大小的常数;
基本的Skip-garm模型用如下公式定义p(wt+j|wt):
其中,vw和v′w是wn的“输入”和“输出”向量表示,W是word2vec字典中的词语向量的维数;
word2vec算法把每个词组映射为K维向量,将一条网络文章样本文本映射为N*K维矩阵,其中N为词组序列中词组的总数,K为每个词组经word2vec映射后的向量维数,然后,对N*K维度矩阵的所有行求和取平均值得到一个K维向量,该K维向量为网络文章样本文本的word2vec特征;
LDA算法的计算公式如下:
其中,D表示规范化的网络文章样本文本集合,M为网络文章样本文本的数量,D={W1,W2,.....,WM},W={w1,w2,.....,wN},N为一条网络文章样本文本的词组数量,β为T×v矩阵,T为Dirichlet分布的维数,T为常数。βi j=p(wj=1|zi=1),θ~Dirichlet(α),α为T维向量,Z为话题集合,Zn~Multinomial(θ);W1为某一条网络文章样本文本,w1为一条网络文章样本文 本中某一个词组,将p(D|α,β)作为网络文章样本文本的LDA特征。
9.根据权利要求8所述的基于词向量分析的网络文章所属事件的检测装置,其特征在于:
所述的网络文章样本文对应的多维词向量获取模块,具体用于对一条网络文章样本文本分别进行word2vec特征提取和LDA特征提取之后,将word2vec特征和LDA特征进行融合,得到一条网络文章样本文本对应的多维词向量;
所述word2vec特征和LDA特征的融合方法是对LDA特征进行归一化处理,使LDA特征的尺度和word2vec特征一致,归一化方法如下:
其中,为融合后的特征,为X维词向量,为word2vec算法得到的特征,为Xw2v维,为LDA算法得到的特征,Xlda维, X=Xw2v+Xlda,maxw2v为向量中元素绝对值最大的值,maxlda为向量中元素绝对值最大的值。
10.根据权利要求9所述的基于词向量分析的网络文章所属事件的检测装置,其特征在于:
网络文章文本所属事件获取模块,具体用于设所述事件的分类模型中包括网络文章文本的属性和所属的事件,将待识别的网络文章文本的属性输入到所述事件的分类模型,查询出待识别的网络文章文本所属的事件。
CN201610218382.4A 2016-04-09 2016-04-09 一种基于词向量分析的网络文章所属事件的检测方法和装置 Pending CN105975478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610218382.4A CN105975478A (zh) 2016-04-09 2016-04-09 一种基于词向量分析的网络文章所属事件的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610218382.4A CN105975478A (zh) 2016-04-09 2016-04-09 一种基于词向量分析的网络文章所属事件的检测方法和装置

Publications (1)

Publication Number Publication Date
CN105975478A true CN105975478A (zh) 2016-09-28

Family

ID=56989579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610218382.4A Pending CN105975478A (zh) 2016-04-09 2016-04-09 一种基于词向量分析的网络文章所属事件的检测方法和装置

Country Status (1)

Country Link
CN (1) CN105975478A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611054A (zh) * 2016-12-26 2017-05-03 电子科技大学 海量文本中企业行为或事件的抽取方法
CN107229753A (zh) * 2017-06-29 2017-10-03 济南浪潮高新科技投资发展有限公司 一种基于word2vec模型的文章地域分类方法
CN107909414A (zh) * 2017-12-13 2018-04-13 北京奇虎科技有限公司 应用程序的反作弊方法及装置
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN108090046A (zh) * 2017-12-29 2018-05-29 武汉大学 一种基于lda和随机森林的微博谣言识别方法
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质
CN108920603A (zh) * 2018-06-28 2018-11-30 厦门快商通信息技术有限公司 一种基于客服机器模型的客服引导方法
CN108920508A (zh) * 2018-05-29 2018-11-30 福建新大陆软件工程有限公司 基于lda算法的文本分类模型训练方法及系统
WO2018218708A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109918641A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 文章主题成分分解方法、装置、设备和存储介质
CN110019776A (zh) * 2017-09-05 2019-07-16 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN110334209A (zh) * 2019-05-23 2019-10-15 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备
CN110750212A (zh) * 2019-09-06 2020-02-04 中国平安财产保险股份有限公司 文章发布方法、装置、计算机设备及存储介质
CN110941713A (zh) * 2018-09-21 2020-03-31 上海仪电(集团)有限公司中央研究院 基于主题模型的自优化金融资讯版块分类方法
CN111104477A (zh) * 2018-10-29 2020-05-05 阿里巴巴集团控股有限公司 事件确认方法、装置及电子设备
CN112417863A (zh) * 2020-11-27 2021-02-26 中国科学院电子学研究所苏州研究院 基于预训练词向量模型与随机森林算法的中文文本分类方法
CN112559747A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510257B2 (en) * 2010-10-19 2013-08-13 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510257B2 (en) * 2010-10-19 2013-08-13 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
江大鹏: "基于词向量的短文本分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611054A (zh) * 2016-12-26 2017-05-03 电子科技大学 海量文本中企业行为或事件的抽取方法
WO2018218708A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于深度学习的舆情热点类别划分方法
CN107229753A (zh) * 2017-06-29 2017-10-03 济南浪潮高新科技投资发展有限公司 一种基于word2vec模型的文章地域分类方法
CN110019776A (zh) * 2017-09-05 2019-07-16 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN110019776B (zh) * 2017-09-05 2023-04-28 腾讯科技(北京)有限公司 文章分类方法及装置、存储介质
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN107943967B (zh) * 2017-11-28 2020-05-22 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法
CN107909414A (zh) * 2017-12-13 2018-04-13 北京奇虎科技有限公司 应用程序的反作弊方法及装置
CN108090046A (zh) * 2017-12-29 2018-05-29 武汉大学 一种基于lda和随机森林的微博谣言识别方法
CN108090046B (zh) * 2017-12-29 2021-05-04 武汉大学 一种基于lda和随机森林的微博谣言识别方法
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108664632B (zh) * 2018-05-15 2021-09-21 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108920508A (zh) * 2018-05-29 2018-11-30 福建新大陆软件工程有限公司 基于lda算法的文本分类模型训练方法及系统
CN108846120A (zh) * 2018-06-27 2018-11-20 合肥工业大学 用于对文本集进行分类的方法、系统及存储介质
CN108920603A (zh) * 2018-06-28 2018-11-30 厦门快商通信息技术有限公司 一种基于客服机器模型的客服引导方法
CN108920603B (zh) * 2018-06-28 2021-12-21 厦门快商通信息技术有限公司 一种基于客服机器模型的客服引导方法
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN110941713A (zh) * 2018-09-21 2020-03-31 上海仪电(集团)有限公司中央研究院 基于主题模型的自优化金融资讯版块分类方法
CN110941713B (zh) * 2018-09-21 2023-12-22 上海仪电(集团)有限公司中央研究院 基于主题模型的自优化金融资讯版块分类方法
CN111104477A (zh) * 2018-10-29 2020-05-05 阿里巴巴集团控股有限公司 事件确认方法、装置及电子设备
CN111104477B (zh) * 2018-10-29 2023-04-14 阿里巴巴集团控股有限公司 事件确认方法、装置及电子设备
CN109918641A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 文章主题成分分解方法、装置、设备和存储介质
CN110334209A (zh) * 2019-05-23 2019-10-15 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备
CN110334209B (zh) * 2019-05-23 2024-05-07 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备
CN110750212A (zh) * 2019-09-06 2020-02-04 中国平安财产保险股份有限公司 文章发布方法、装置、计算机设备及存储介质
CN112417863A (zh) * 2020-11-27 2021-02-26 中国科学院电子学研究所苏州研究院 基于预训练词向量模型与随机森林算法的中文文本分类方法
CN112417863B (zh) * 2020-11-27 2023-11-24 中国科学院电子学研究所苏州研究院 基于预训练词向量模型与随机森林算法的中文文本分类方法
CN112559747A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质
CN112559747B (zh) * 2020-12-15 2024-05-28 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN101079025B (zh) 一种文档相关度计算系统和方法
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN110232149A (zh) 一种热点事件检测方法和系统
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN104484380A (zh) 个性化搜索方法及装置
CN104881458A (zh) 一种网页主题的标注方法和装置
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN104778157A (zh) 一种多文档摘要句的生成方法
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN107451433B (zh) 一种基于文本内容的信息源识别方法与装置
Mahmud et al. Deep learning based sentiment analysis from Bangla text using glove word embedding along with convolutional neural network
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN103823868A (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
Campbell et al. Content+ context networks for user classification in twitter
CN105243095A (zh) 一种基于微博文本的情绪分类方法及系统
Lei et al. Automatically classify chinese judgment documents utilizing machine learning algorithms
CN112101007A (zh) 一种从非结构化文本数据中提取结构化数据的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160928