CN110874397A - 基于注意力机制的水军评论检测系统及方法 - Google Patents
基于注意力机制的水军评论检测系统及方法 Download PDFInfo
- Publication number
- CN110874397A CN110874397A CN201911138610.7A CN201911138610A CN110874397A CN 110874397 A CN110874397 A CN 110874397A CN 201911138610 A CN201911138610 A CN 201911138610A CN 110874397 A CN110874397 A CN 110874397A
- Authority
- CN
- China
- Prior art keywords
- text
- behavior
- features
- information
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0463—Neocognitrons
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于注意力机制的水军评论检测系统及方法。包括文本特征处理模块,用于将文本特征进行向量化处理并提取文本的离散特征进行归一化处理;行为特征提取模块,用于将行为特征进行向量化处理并进行归一化处理;注意力机制权重计算模块,用于计算归一化后的文本特征、行为特征的注意力权重;集成学习模块,将带有权重的行为特征、文本特征作为输入,用分类函数得到评论最终的分类结果。本发明提出的系统及方法能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出分类结果。
Description
技术领域
本发明涉及情感分析和观点挖掘领域,特别是一种基于注意力机制的水军评论检测系统及方法。
背景技术
当前,有很多技术方法可用于水军评论检测。传统的检测方法单纯的从单一特征的角度出发,很难确定获取完整的特征信息。区别于传统的特征提取方法,如何获取完整的特征信息,进行针对水军评论的检测,是水军评论检测的问题关键。传统的研究工作主要是基于文本特征或者用户特征与文本特征简单结合的方法,使用支持向量机(SVM)分类器进行分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效,但是对训练集样本利用不充分,耗时耗力,并且影响效性以及模型的学习能力,故而其性能还有待提升。
当前,随着深度学习的快速发展,基于自注意力机制的表示学习模型在语义表示与情感分析运用方面更具优势。许多研究者们也将这些模型用于水军评论的分类。这类方法首先将文本特征与行为特征分别提取出来,然后构建一个注意力机制模块,定义行为特征,文本特征向量的权重值,将各个带有权重的特征向量进行拼接,最后利用支持向量机对所样本进行训练建模。注意机制可以为每个训练样本学习文本和行为特征的动态权重,大幅度提升了信息的利用率。
当前,水军评论方法未充分利用文本特征与行为特征的密切联系,无法有效地挖掘出潜在的观点信息。近年来,得到了国内外许多学者和研究机构的高度重视,水军评论检测分类利用了文本中不同信息,进行文本分类,能够站在数据使用者的角度进行分析,提供更加细粒度的信息,有效提高水军评论检测的分析结果的准确程度,有助于研判人员更加了解人们对热点话题、组织、产品等各种实体的真实观点和看法,为研判人员提供更加有效而准确的信息。这就对水军评论检测技术提出了一个挑战:如何构建一个有效的水军评论检测系统来满足其需要。
发明内容
本发明的目的在于提供一种基于注意力机制的水军评论检测系统及方法,能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出文本空间特征。
为实现上述目的,本发明的技术方案是:一种基于注意力机制的水军评论检测系统,包括:
文本特征处理模块,用于将文本特征进行向量化处理并提取文本的离散特征进行归一化处理;
行为特征提取模块,用于将行为特征进行向量化处理并进行归一化处理;
注意力机制权重计算模块,用于计算归一化后的文本特征、行为特征的注意力权重;
集成学习模块,将带有权重的行为特征、文本特征作为输入,用分类函数得到评论最终的分类结果。
在本发明一实施例中,所述文本特征处理模块将文本信息利用嵌套LSTM进行特征提取,并对文本的离散特征进行归一化处理,将输入的数据的信息用向量表示。
在本发明一实施例中,所述行为特征提取模块将用户行为信息进行归一化处理,将输入的数据的信息用向量表示。
在本发明一实施例中,所述集成学习模块采用多层分类模型对输入特征进行分类。
本发明还提供了一种基于注意力机制的水军评论检测方法,包括如下步骤:
步骤S1、将输入的数据分为文本信息与行为信息,对文本信息、行为信息进行特征抽取分别获得文本特征、行为特征,并将文本特征、行为特征进行向量化提取;
步骤S2、将得到的文本特征、行为特征进行注意力权重计算,将文本特征和行为特征进行结合,得到一个包含带有权重的文本特征、行为特征的特征向量空间;
步骤S3、将步骤S2中的带有权重的文本特征、行为特征,用分类函数得到最终的分类结果。
在本发明一实施例中,所述步骤S3采用多层分类模型对输入特征进行分类。
相较于现有技术,本发明具有以下有益效果:本发明提出的系统及方法能够自动抽取出有效特征,并对特征进行抽象和组合,最终识别出分类结果。
附图说明
图1为本发明实施例的原理示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本实施例提供了一种基于注意力机制的水军评论检测系统,具体包括:
一个文本特征处理模块,用于将文本特征进行向量化处理并提取文本的离散特征进行归一化处理;
一个行为特征提取模块,用于将行为特征进行归一化处理;
一个注意力机制权重计算模块,用于计算上述特征的注意力权重;
一集成学习模块,将数据的带有权重的行为特征以及文本特征作为输入,用分类函数得到评论最终的分类结果。
在本实施例中,所述文本特征提取模块借助开元的Glove工具事先在大语料里训练得到词向量表,将输入的数据的文本信息用向量表示。
在本实施例中,所述的行为特征处理模块将用户的行为特征进行向量化处理并进行归一化处理。
在本实施例中,所属的注意力机制权重计算模块借助注意力机制学习文本和行为特征的动态权重,并将其拼接。
具体的,将文本数据利用Glove工具对其进行向量化表示以方便输入到神经网络模型中。
具体的,所述注意力机制模块是第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的注意力权重。key和value常常都是同一个,即key=value。
在本实施例中,所述集成学习模块采用多分类器模型对输入进行分类。
具体的,将前面得到的文本特征与行为特征输入所述集成学习模块,集成学习模块构造多分类器模型。在训练阶段,需要将预测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的预测值输出即可。
本实施例还提供了一种基于上文所述的基于注意力机制的水军评论检测系统的基于注意力机制的水军评论检测方法,具体包括以下步骤:
步骤S1:将输入的数据分为文本信息与行为信息,对行为信息进行特征抽取获得行为特征,其中,所述行为信息例如用户之间的评论互相点赞或转发关系,用户评论总数等;将文本信息送入所述文本特征提取模块,得到包含上下文信息的文本特征,其中,文本信息主要指的是具体各个单词出现的前后顺序以及单词在句子中出现的位置,使用标记数据来优化特定任务的上下文表示,已应用于各种NLP任务,包括词义消歧,共指解析与释义检测。通用的词向量,例如word2vec和Glove,是从大规模语料库中学习、捕捉每个单词的语义及句法信息,使用神经网络都可以对文本上下文进行有效的建模。
步骤S2:将文本特征与行为特征输入到注意力机制权重计算模块,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的注意力权重。key和value常常都是同一个,即key=value。
步骤S3:将步骤S2中的特征一起输入至所述集成学习模块中,用分类函数得到评论最终的分类结果。
在本实施例中,所述文本特征提取模块借助开源的Glove工具事先在大语料里训练得到词向量表,将输入的数据的文本信息用向量表示,并利用嵌套LSTM网络将向量表示的文本信息进行文本上下文相关的特征抽取及注意力构建。
在本实施例中,所述集成学习模块采用多分类器模型对输入进行分类。
特别的,在本实施例中,在模型的训练阶段,权重矩阵都是参数,根据信息的前向传播和误差的后向传播将不断地对他们进行调整,逐步优化目标函数。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (6)
1.一种基于注意力机制的水军评论检测系统,其特征在于,包括:
文本特征处理模块,用于将文本特征进行向量化处理并提取文本的离散特征进行归一化处理;
行为特征提取模块,用于将行为特征进行向量化处理并进行归一化处理;
注意力机制权重计算模块,用于计算归一化后的文本特征、行为特征的注意力权重;
集成学习模块,将带有权重的行为特征、文本特征作为输入,用分类函数得到评论最终的分类结果。
2.根据权利要求1所述的基于注意力机制的水军评论检测系统,其特征在于,所述文本特征处理模块将文本信息利用嵌套LSTM进行特征提取,并对文本的离散特征进行归一化处理,将输入的数据的信息用向量表示。
3.根据权利要求1所述的基于注意力机制的水军评论检测系统,其特征在于,所述行为特征提取模块将用户行为信息进行归一化处理,将输入的数据的信息用向量表示。
4.根据权利要求1所述的基于注意力机制的水军评论检测系统,其特征在于,所述集成学习模块采用多层分类模型对输入特征进行分类。
5.一种基于注意力机制的水军评论检测方法,其特征在于,包括如下步骤:
步骤S1、将输入的数据分为文本信息与行为信息,对文本信息、行为信息进行特征抽取分别获得文本特征、行为特征,并将文本特征、行为特征进行向量化提取;
步骤S2、将得到的文本特征、行为特征进行注意力权重计算,将文本特征和行为特征进行结合,得到一个包含带有权重的文本特征、行为特征的特征向量空间;
步骤S3、将步骤S2中的带有权重的文本特征、行为特征,用分类函数得到最终的分类结果。
6.根据权利要求5所述的基于注意力机制的水军评论检测系统,其特征在于,所述步骤S3采用多层分类模型对输入特征进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911138610.7A CN110874397A (zh) | 2019-11-20 | 2019-11-20 | 基于注意力机制的水军评论检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911138610.7A CN110874397A (zh) | 2019-11-20 | 2019-11-20 | 基于注意力机制的水军评论检测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110874397A true CN110874397A (zh) | 2020-03-10 |
Family
ID=69718019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911138610.7A Pending CN110874397A (zh) | 2019-11-20 | 2019-11-20 | 基于注意力机制的水军评论检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110874397A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200638A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于注意力机制与双向gru网络的水军评论检测系统及方法 |
CN112819797A (zh) * | 2021-02-06 | 2021-05-18 | 国药集团基因科技有限公司 | 一种糖尿病性视网膜病变分析方法、装置、系统、以及存储介质 |
CN113094502A (zh) * | 2021-03-22 | 2021-07-09 | 北京工业大学 | 一种多粒度外卖用户评论情感分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160314210A1 (en) * | 2015-04-24 | 2016-10-27 | International Business Machines Corporation | Social content features based on user tracking |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN109710769A (zh) * | 2019-01-23 | 2019-05-03 | 福州大学 | 一种基于胶囊网络的水军评论检测系统及方法 |
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
-
2019
- 2019-11-20 CN CN201911138610.7A patent/CN110874397A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160314210A1 (en) * | 2015-04-24 | 2016-10-27 | International Business Machines Corporation | Social content features based on user tracking |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN109710769A (zh) * | 2019-01-23 | 2019-05-03 | 福州大学 | 一种基于胶囊网络的水军评论检测系统及方法 |
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200638A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于注意力机制与双向gru网络的水军评论检测系统及方法 |
CN112819797A (zh) * | 2021-02-06 | 2021-05-18 | 国药集团基因科技有限公司 | 一种糖尿病性视网膜病变分析方法、装置、系统、以及存储介质 |
CN112819797B (zh) * | 2021-02-06 | 2023-09-19 | 国药集团基因科技有限公司 | 糖尿病性视网膜病变分析方法、装置、系统及存储介质 |
CN113094502A (zh) * | 2021-03-22 | 2021-07-09 | 北京工业大学 | 一种多粒度外卖用户评论情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11507834B2 (en) | Parallel-hierarchical model for machine comprehension on small data | |
Abdullah et al. | SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning | |
US20220147836A1 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
Rida-E-Fatima et al. | A multi-layer dual attention deep learning model with refined word embeddings for aspect-based sentiment analysis | |
CN111325029A (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN110874397A (zh) | 基于注意力机制的水军评论检测系统及方法 | |
CN108280057A (zh) | 一种基于blstm的微博谣言检测方法 | |
Bölücü et al. | Hate Speech and Offensive Content Identification with Graph Convolutional Networks. | |
Liu et al. | Deep bi-directional interaction network for sentence matching | |
Steur et al. | Next-generation neural networks: Capsule networks with routing-by-agreement for text classification | |
Wu et al. | Sentiment analysis of online product reviews based on SenBERT-CNN | |
Anjum et al. | Exploring humor in natural language processing: a comprehensive review of JOKER tasks at CLEF symposium 2023 | |
Zhu et al. | A Semantic Similarity Computing Model based on Siamese Network for Duplicate Questions Identification. | |
Pandey et al. | Various aspects of sentiment analysis: a review | |
SATHVIK | Enhancing Machine Learning Algorithms using GPT Embeddings for Binary Classification | |
Abdulwahab | Deep Learning Models for Paraphrases Identification | |
Bose et al. | Deep one-class fine-tuning for imbalanced short text classification in transfer learning | |
Pal et al. | Semantic representations in text data | |
Wu et al. | Big data management and analytics in scientific programming: A deep learning-based method for aspect category classification of question-answering-style reviews | |
Al Mahmud et al. | A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text | |
Anjum et al. | Sentiment analysis of Twitter tweets for mobile phone brands | |
Jiang et al. | Chinese short text entity disambiguation based on the dual-channel hybrid network | |
Jeyasheeli et al. | Sentence Generation for Indian Sign Language Using NLP. | |
Kumar et al. | Hate Speech Detection using Text and Image Tweets Based On Bi-directional Long Short-Term Memory | |
Sharma et al. | Sarcasm Detection on News Headline Dataset Using Language Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200310 |