CN109635111A - 一种基于网络迁移的新闻点击诱饵检测方法 - Google Patents
一种基于网络迁移的新闻点击诱饵检测方法 Download PDFInfo
- Publication number
- CN109635111A CN109635111A CN201811476645.7A CN201811476645A CN109635111A CN 109635111 A CN109635111 A CN 109635111A CN 201811476645 A CN201811476645 A CN 201811476645A CN 109635111 A CN109635111 A CN 109635111A
- Authority
- CN
- China
- Prior art keywords
- news
- model
- bait
- word
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 238000013508 migration Methods 0.000 title claims abstract description 14
- 230000005012 migration Effects 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 230000006978 adaptation Effects 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000004913 activation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000013526 transfer learning Methods 0.000 abstract description 4
- 238000013480 data collection Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于网络迁移的新闻点击诱饵检测方法,具体的实施步骤分解如下:步骤1:当一个句子或者一条新闻到来时,需要对其进行预处理;步骤2:预训练词向量,通过度大量的语料进行表示学习,得到每个单词的词向量表示;步骤3:在源领域进行训练,通过训练卷积神经网络和适配层的参数模型,使得模型在源领域取得最优效果;步骤4:在目标领域进行训练,通过微调适配层,使得模型能够利用源领域的先验知识;步骤5:分类,当一条新闻到来时,经过分词预处理。本发明的迁移学习模型能够以较少的注释在目标语言上达到相似的性能,表明了模型的有效性和鲁棒性,解决了人工标注的点击诱饵数据集既费时又费力的问题。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于网络迁移的新闻点击诱饵检测方法。
背景技术
句子的分类,其目的是把句子分成不同的类别,是自然语言处理中的的基本任务之一。随着万维网的发展,人们更喜欢在互联网上获取最新新闻的知识。因为他们通常更快,比传统的纸质媒体内容更丰富多彩,这也带来了聚合网站聚合不同新闻源,如雅虎新闻和谷歌新闻。通常,大多数新闻源对读者免费,他们的主要收入来自于他们的网页显示广告。因此,点击量对他们来说非常重要。因此,一些新闻媒体来为他们的新闻标题提供非常有吸引力的名字,这通常会让人失望的读者。
点击诱饵的显著特点是它们非常吸引人,而且隐藏了读者的部分事实。点击诱饵是互联网上的一种特殊现象,在不同的语言中臭名远扬。点击诱饵阻止读者获得有用的信息,长此以往会伤害新闻聚合器的影响力和媒体公信力。以前在点击诱饵检测工作主要集中在英语,因为英语是在互联网上使用最广泛的语言。然而,点击诱饵在其他语言中也很普遍,比如汉语。在汉语上检测点击点击的一种自然方法是训练英语模型并将其应用于汉语。然而,以往关于英语的研究利用了汉语和日语等其他语言所不具备的许多词汇和句法特征,它们的语言特异性限制了它们在其他语言上泛化能力。另一种方法是在汉语中标注点击语料库,这既费时又费力。
发明内容
发明的目的在于提供一种基于网络迁移的新闻点击诱饵检测方法,,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于网络迁移的新闻点击诱饵检测方法,从最开始的新闻输入,到最终的点击诱饵与正常新闻的检测,具体的实施步骤分解如下:
步骤1:当一个句子或者一条新闻到来时,需要对其进行预处理,将完整的句子切分为一个个独立的词,将文档中的句子分解成为单独的词以便能够更方便的作为模型的输入进行处理;
步骤2:预训练词向量,模型接收的是数值化的输入,需要将单词进行向量化表示,表示连续而稠密,隐含了词语的语义信息,并且能够更好地与表现能力更强的神经网络进行结合,通过度大量的语料进行表示学习,得到每个单词的词向量表示,从而获得词的语义信息和上下文信息;
步骤3:在源领域进行训练,通过训练卷积神经网络和适配层的参数模型,使得模型在源领域取得最优效果;
步骤4:在目标领域进行训练,通过微调适配层,使得模型能够利用源领域的先验知识,同时通过微调的方法更好地拟合目标领域的数据,通过这种方式,训练得到了一个只利用少量目标领域数据就能够很好地进行分类的神经网络模型;
步骤5:分类,当一条新闻到来时,经过分词预处理,查找对应的词向量等操作,将其转换成为模型能够接受的连续的数值型数据,分类的目标是利用这些特征向量来判断该句子或者新闻表示是正常新闻还是点击诱饵,通过一个逻辑斯蒂回归,得到新闻标题为正常新闻或者点击诱饵的概率,认为概率大于0.5时为点击诱饵,否则为正常新闻。
进一步地,模型的框架由卷积神经网络层和适配层组成,卷积网络层将可变长度的输入映射到向量表示中,从而捕获句子的语义,适配器层使源域的模型适应于目标域。
进一步地,将单词进行向量化表示,社交媒体数据集上预先训练的词向量,通过函数查找L找到对应的给定词的词向量。
进一步地,具有不同滤波器尺寸的多个滤波器的卷积神经网络能够捕获不同级别的特征,给定句子中各个词,s={w1,w2,…,wn},获得它们的词向量用ei:i+n-1表示n个词向量的拼接,对于滤波器w∈Rh×k,其中h表示窗口大小,k表示词向量的维度,特征ci可由如下公式获得:
ci=f(w·ei:i+n-1+b)
其中b是偏置,f是非线性激活函数,采用RELU,通过不断的卷积操作,得到了特征集合c={c1,c2,…,ci-h+1},通过最大池化操作,得到了使用了多个不同大小的窗口。
进一步地,适配层执行以下数学运算:
其中f是一个非线性激活函数。
与现有技术相比,本发明的有益效果是:本发明提出的基于网络迁移的新闻点击诱饵检测方法,本发明使用转移学习来将关于点击饵检测的模型从源语言转移到只有很少注释的其他语言,在英语语料库上训练语源模型,并将其转换成汉语语料库,实验结果表明,本发明的迁移学习模型能够以较少的注释在目标语言上达到相似的性能,表明了模型的有效性和鲁棒性,解决了人工标注的点击诱饵数据集既费时又费力的问题。
附图说明
图1为本发明的流程图;
图2为本发明的步骤1的程序代码图;
图3为本发明的步骤2的程序代码图;
图4为本发明的步骤3的程序代码图;
图5为本发明的步骤4的程序代码图;
图6为本发明的步骤5的程序代码图;
图7为本发明的两种语言在向量空间示意图;
图8为本发明的模型的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于网络迁移的新闻点击诱饵检测方法,流程如图1,从最开始的新闻输入,到最终的点击诱饵与正常新闻的检测,具体的实施步骤分解如下:
步骤1:当一个句子或者一条新闻到来时,需要对其进行预处理,将完整的句子切分为一个个独立的词,将文档中的句子分解成为单独的词以便能够更方便的作为模型的输入进行处理(程序代码如图2);
步骤2:预训练词向量,模型接收的是数值化的输入,需要将单词进行向量化表示,表示连续而稠密,隐含了词语的语义信息,并且能够更好地与表现能力更强的神经网络进行结合,通过度大量的语料进行表示学习,得到每个单词的词向量表示,从而获得词的语义信息和上下文信息(程序代码如图3);
步骤3:在源领域进行训练,由于在目标领域只有少量的数据,为了能更好的迁移源领域的知识到目标领域,需要更充分将模型与源领域的数据相适应。由于神经网络模型包含卷积神经网络层和适配层,卷积神经网络的主要目的是自动地提取特征,而适配层则是获得更高层次的抽象,以适应具体的目标领域。通过训练卷积神经网络和适配层的参数模型,使得模型在源领域取得最优效果(程序代码如图4);
步骤4:在目标领域进行训练,在源领域训练得到卷积神经网络的参数后,固定卷积神经网络层,因为卷积网络的主要作用是抽取通用的特征。要适配目标领域,通过微调适配层,使得模型能够利用源领域的先验知识,同时通过微调的方法更好地拟合目标领域的数据。通过这种方式,训练得到了一个只利用少量目标领域数据就能够很好地进行分类的神经网络模型(程序代码如图5);
步骤5:分类,当一条新闻到来时,经过分词预处理,查找对应的词向量等操作,将其转换成为模型能够接受的连续的数值型数据,分类的目标是利用这些特征向量来判断该句子或者新闻表示是正常新闻还是点击诱饵,通过一个逻辑斯蒂回归,得到新闻标题为正常新闻或者点击诱饵的概率,认为概率大于0.5时为点击诱饵,否则为正常新闻(程序代码如图6)。
点击诱饵在各种语言上都十分普遍,然而,以往的工作主要集中在互联网上使用最广泛的语言,即英语,很少有其他语言。认知科学家和心理学家从认知的角度研究点击诱饵。根据著名的信息缺口理论,点击诱饵制造了一个已经知道的和想知道的缺口。如果没有填补这个空缺,人们会感到焦虑和分心。机器学习界将点击诱饵检测作为一个分类任务,将标题分类为点击诱饵和非点击诱饵。波特斯特等是最早在社交媒体上进行点击检测研究的人之一,主要集中在Twitter平台上。然而,其方法使用了一些英语独有的信息,如大写,复数等,这在其他语言中,如中文和日语,并不常见。比亚尼等利用非正式性的度量,即标题包含多少信息。我们的工作不同于以前的工作。首先,我们的目标是开发一个通用模型,它可以应用于所有语言,所以本发明不使用任何语言特定的特征。其次,本发明利用网络,利用少量人工标注的语料就能达到以往模型相同的性能。
如图7,以英语和法语为例,来自不同语言的具有相似含义的单词(如名词和形容词)在向量空间中很接近。因此,可以将模型从一种语言适应到另一种语言,本发明使用迁移学习将大量英语语料库中训练好的模型迁移到只有很少注释的汉语语料库中,这将,大大降低传输模型到不同语言的成本。在英语中对源模型进行训练,然后将其转换成中文语料库,以适应不同领域的模型。实验结果表明,与具有迁移学习的模型相比,本发明的模型需要更少的注释数据,表明了本发明的模型在不同语言中的有效性和鲁棒性。
模型的框架如图8,模型的框架由卷积神经网络层和适配层组成,卷积网络层将可变长度的输入映射到向量表示中,从而捕获句子的语义,适配器层使源域的模型适应于目标域。
1.词向量表示
作为模型的输入,需要将单词进行向量化表示,相对于传统的稀疏离散的“单热”表示方法,这种表示连续而稠密,隐含了词语的语义信息。并且能够更好地与表现能力更强的神经网络进行结合,社交媒体数据集上预先训练的词向量,通过函数查找L找到对应的给定词的词向量。
2.卷积神经网络
卷积神经网络(CNN)是一种前馈神经网络,它最早应用于计算视觉。最近,它也显示了自然语言处理任务的能力,如情感分析。CNN的内在特性允许在本地多个词之间进行权重共享和全局汇集,这使得它能够捕获本地特征和全局特征,具有不同滤波器尺寸的多个滤波器的卷积神经网络能够捕获不同级别的特征,给定句子中各个词,s={w1,w2,…,wn},获得它们的词向量用ei:i=i+n-1表示n个词向量的拼接,对于滤波器w∈Rh×k,其中h表示窗口大小,k表示词向量的维度,特征ci可由如下公式获得:
ci=f(w·ei:i+n-1+b)
其中b是偏置,f是非线性激活函数,采用RELU,通过不断的卷积操作,得到了特征集合c={c1,c2,…,ci-h+1},通过最大池化操作,得到了使用了多个不同大小的窗口。
3.适配层
适配层是一个完全连接的层,被设计成捕获语言特定的特征。给定卷积神经网络层的输出,适配层执行以下数学运算:
其中f是一个非线性激活函数,使用非线性函数tanh,对于源域中的训练,卷积神经网络层和适配器层都被训练。然而,当将它应用到目标域时,保持卷积神经网络层的参数固定,因为卷积神经网络层捕获不依赖于语言的点击诱饵的共同特征,并更新适配器层的参数。通过这些设计,将模型从源域适应到目标域。
综上所述,本发明提出的基于网络迁移的新闻点击诱饵检测方法,本发明使用转移学习来将关于点击饵检测的模型从源语言转移到只有很少注释的其他语言,在英语语料库上训练语源模型,并将其转换成汉语语料库,实验结果表明,本发明的迁移学习模型能够以较少的注释在目标语言上达到相似的性能,表明了模型的有效性和鲁棒性,解决了人工标注的点击诱饵数据集既费时又费力的问题。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于网络迁移的新闻点击诱饵检测方法,其特征在于,从最开始的新闻输入,到最终的点击诱饵与正常新闻的检测,具体的实施步骤分解如下:
步骤1:当一个句子或者一条新闻到来时,需要对其进行预处理,将完整的句子切分为一个个独立的词,将文档中的句子分解成为单独的词以便能够更方便的作为模型的输入进行处理;
步骤2:预训练词向量,模型接收的是数值化的输入,需要将单词进行向量化表示,表示连续而稠密,隐含了词语的语义信息,并且能够更好地与表现能力更强的神经网络进行结合,通过度大量的语料进行表示学习,得到每个单词的词向量表示,从而获得词的语义信息和上下文信息;
步骤3:在源领域进行训练,通过训练卷积神经网络和适配层的参数模型,使得模型在源领域取得最优效果;
步骤4:在目标领域进行训练,通过微调适配层,使得模型能够利用源领域的先验知识,同时通过微调的方法更好地拟合目标领域的数据,通过这种方式,训练得到了一个只利用少量目标领域数据就能够很好地进行分类的神经网络模型;
步骤5:分类,当一条新闻到来时,经过分词预处理,查找对应的词向量操作,将其转换成为模型能够接受的连续的数值型数据,分类的目标是利用这些特征向量来判断该句子或者新闻表示是正常新闻还是点击诱饵,通过一个逻辑斯蒂回归,得到新闻标题为正常新闻或者点击诱饵的概率,认为概率大于0.5时为点击诱饵,否则为正常新闻。
2.根据权利要求1所述的一种基于网络迁移的新闻点击诱饵检测方法,其特征在于,模型的框架由卷积神经网络层和适配层组成,卷积网络层将可变长度的输入映射到向量表示中,从而捕获句子的语义,适配器层使源域的模型适应于目标域。
3.根据权利要求1所述的一种基于网络迁移的新闻点击诱饵检测方法,其特征在于,将单词进行向量化表示,社交媒体数据集上预先训练的词向量,通过函数查找L找到对应的给定词的词向量。
4.根据权利要求1所述的一种基于网络迁移的新闻点击诱饵检测方法,其特征在于,具有不同滤波器尺寸的多个滤波器的卷积神经网络能够捕获不同级别的特征,给定句子中各个词,s={w1,w2,…,wn},获得它们的词向量用ei:i+n-1表示n个词向量的拼接,对于滤波器w∈Rh×k,其中h表示窗口大小,k表示词向量的维度,特征ci可由如下公式获得:
ci=f(w·ei:i+n-1+b)
其中b是偏置,f是非线性激活函数,采用RELU,通过不断的卷积操作,得到了特征集合c={c1,c2,…ci-h+1},通过最大池化操作,得到了使用了多个不同大小的窗口。
5.根据权利要求1所述的一种基于网络迁移的新闻点击诱饵检测方法,其特征在于,适配层执行以下数学运算:
其中f是一个非线性激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811476645.7A CN109635111A (zh) | 2018-12-04 | 2018-12-04 | 一种基于网络迁移的新闻点击诱饵检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811476645.7A CN109635111A (zh) | 2018-12-04 | 2018-12-04 | 一种基于网络迁移的新闻点击诱饵检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635111A true CN109635111A (zh) | 2019-04-16 |
Family
ID=66071124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811476645.7A Pending CN109635111A (zh) | 2018-12-04 | 2018-12-04 | 一种基于网络迁移的新闻点击诱饵检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635111A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609999A (zh) * | 2019-08-07 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 舆情监控系统的冷启动方法及装置 |
CN111221974A (zh) * | 2020-04-22 | 2020-06-02 | 成都索贝数码科技股份有限公司 | 基于层级结构多标签体系的新闻文本分类模型的构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491436A (zh) * | 2017-08-21 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种标题党识别方法和装置、服务器、存储介质 |
CN108491389A (zh) * | 2018-03-23 | 2018-09-04 | 杭州朗和科技有限公司 | 点击诱饵标题语料识别模型训练方法和装置 |
US20180285468A1 (en) * | 2017-04-04 | 2018-10-04 | Microsoft Technology Licensing, Llc | Identifying and managing trusted sources in online and networked content for professional knowledge exchange |
CN108764462A (zh) * | 2018-05-29 | 2018-11-06 | 成都视观天下科技有限公司 | 一种基于知识蒸馏的卷积神经网络优化方法 |
-
2018
- 2018-12-04 CN CN201811476645.7A patent/CN109635111A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285468A1 (en) * | 2017-04-04 | 2018-10-04 | Microsoft Technology Licensing, Llc | Identifying and managing trusted sources in online and networked content for professional knowledge exchange |
CN107491436A (zh) * | 2017-08-21 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种标题党识别方法和装置、服务器、存储介质 |
CN108491389A (zh) * | 2018-03-23 | 2018-09-04 | 杭州朗和科技有限公司 | 点击诱饵标题语料识别模型训练方法和装置 |
CN108764462A (zh) * | 2018-05-29 | 2018-11-06 | 成都视观天下科技有限公司 | 一种基于知识蒸馏的卷积神经网络优化方法 |
Non-Patent Citations (2)
Title |
---|
ABHIJNAN CHAKRABORTY 等: "Stop Clickbait: Detecting and Preventing Clickbaits in Online News Media", 《2016 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING (ASONAM)》 * |
JUNFENG FU 等: "A Convolutional Neural Network for Clickbait Detection", 《2017 4TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609999A (zh) * | 2019-08-07 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 舆情监控系统的冷启动方法及装置 |
CN110609999B (zh) * | 2019-08-07 | 2023-08-11 | 创新先进技术有限公司 | 舆情监控系统的冷启动方法及装置 |
CN111221974A (zh) * | 2020-04-22 | 2020-06-02 | 成都索贝数码科技股份有限公司 | 基于层级结构多标签体系的新闻文本分类模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197098B (zh) | 一种关键词组合策略的生成及关键词扩展方法、装置和设备 | |
Wu et al. | Modeling method of internet public information data mining based on probabilistic topic model | |
CN109255118B (zh) | 一种关键词提取方法及装置 | |
CN106570148B (zh) | 一种基于卷积神经网络的属性抽取方法 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN106598944B (zh) | 一种民航安保舆情情感分析方法 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
CN106033462B (zh) | 一种新词发现方法及系统 | |
CN107122455A (zh) | 一种基于微博的网络用户增强表示方法 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
CN107704558A (zh) | 一种用户意见抽取方法及系统 | |
CN102411563A (zh) | 一种识别目标词的方法、装置及系统 | |
CN108228758A (zh) | 一种文本分类方法及装置 | |
CN110162626A (zh) | 一种基于双向lstm的舆情情感热度熵的计算方法 | |
CN106021418B (zh) | 新闻事件的聚类方法及装置 | |
CN102708164B (zh) | 电影期望值的计算方法及系统 | |
CN108733675A (zh) | 基于大量样本数据的情感评价方法及装置 | |
CN110879834A (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及系统 | |
Sheshikala et al. | Natural language processing and machine learning classifier used for detecting the author of the sentence | |
CN104794209B (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20230818 |