CN110825952A - 基于嵌套lstm的水军评论检测方法及系统 - Google Patents
基于嵌套lstm的水军评论检测方法及系统 Download PDFInfo
- Publication number
- CN110825952A CN110825952A CN201911085552.6A CN201911085552A CN110825952A CN 110825952 A CN110825952 A CN 110825952A CN 201911085552 A CN201911085552 A CN 201911085552A CN 110825952 A CN110825952 A CN 110825952A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- lstm
- module
- nested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于嵌套LSTM的水军评论检测方法,包括以下步骤:步骤S1:将输入的数据分为文本信息与行为信息;步骤S2:对行为信息进行特征抽取获得行为特征,并将文本信息送入所述文本特征提取模块,得到包含上下文信息的文本特征;步骤S3:将得到的包含上下文信息的文本特征送入所述嵌套LSTM模块,并提取该文本特征的空间结构信息,得到包含整体与部分关系的文本特征;步骤S4:将包含整体与部分关系的文本特征与行为特征输入至集成学习模块中,得到评论最终的分类结果。本发明能够抽取出有效特征,并对特征进行抽象和组合,最终识别出文本空间特征。
Description
技术领域
本发明涉及情感分析和观点挖掘领域,特别是一种基于嵌套LSTM 的水军评论检测系统及方法。
背景技术
当前,有很多技术方法可用于水军评论检测。传统的检测方法单 纯从文本分类的角度出发,很难确定评论上下文语义的不同。区别于 传统的文本分类方法,如何学习长期的依赖关系,进行针对水军评论 的文本分类,是水军评论检测的问题关键。传统的研究工作主要是基 于传统神经网络的方法,该方法通过不断地提取特征,从局部的特征 到总体的特征,使用支持向量机(SVM)分类器进行分类。这一类基 于特征工程与浅层线性模型的方法虽然取得了一定的成效,但是耗时 较长,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体 现出长期记忆的效果。
当前,随着深度学习的快速发展,基于多层神经网络的表示学习 模型在语义表示与情感分析运用方面更具优势。许多研究者们也将这 些模型用于水军评论的分类。在嵌套LSTM中,LSTM的记忆单元可以 访问内部记忆,使用标准的LSTM门选择性地进行读取、编写。相比 于传统的堆栈LSTM,这一关键特征使得模型能实现更有效的时间层 级。在嵌套LSTM中,(外部)记忆单元可自由选择读取、编写的相 关长期信息到内部单元。相比之下,在堆栈LSTM中,高层级的激活 (类似内部记忆)直接生成输出,因此必须包含所有的与当前预测相关的短期信息。换言之,堆栈LSTM与嵌套LSTM之间的主要不同是, 嵌套LSTM可以选择性地访问内部记忆。这使得内部记忆免于记住、 处理更长时间规模上的事件,即使这些事件与当前事件不相关。
当前,水军评论方法未充分利用文本中的长期时间规模的信息, 无法有效地挖掘出潜在的观点信息。近年来,得到了国内外许多学者 和研究机构的高度重视,水军评论检测分类利用了文本中不同信息, 进行文本分类,能够站在数据使用者的角度进行分析,提供更加细粒 度的信息,有效提高水军评论检测的分析结果的准确程度,有助于研 判人员更加了解人们对热点话题、组织、产品等各种实体的真实观点 和看法,为研判人员提供更加有效而准确的信息。这就对水军评论检 测技术提出了一个挑战:如何构建一个有效的水军评论检测系统来满 足其需要。
发明内容
有鉴于此,本发明的目的在于提供一种基于嵌套LSTM的水军评 论检测方法及系统,能够自动抽取出有效特征,并对特征进行抽象和 组合,最终识别出文本空间特征。
为实现上述目的,本发明采用如下技术方案:
一种基于嵌套LSTM的水军评论检测方法,包括以下步骤:
步骤S1:将输入的数据分为文本信息与行为信息;
步骤S2:对行为信息进行特征抽取获得行为特征,并将文本信息 送入所述文本特征提取模块,得到包含上下文信息的文本特征;
步骤S3:将得到的包含上下文信息的文本特征送入所述嵌套 LSTM模块,并提取该文本特征的空间结构信息,得到包含整体与部 分关系的文本特征;
步骤S4:将包含整体与部分关系的文本特征与行为特征输入至 集成学习模块中,得到评论最终的分类结果。
进一步的,所述文本特征提取模块利用开源的Glove工具事先在 大语料里训练得到词向量表,将输入的数据的文本信息用向量表示。
进一步的,所述嵌套LSTM模块将向量表示的文本特征进行文本 上下文相关的特征抽取及注意力构建。
进一步的,所述集成学习模块采用多层分类模型对输入进行分类。
一种基于嵌套LSTM的水军评论检测系统,包括
一个文本特征提取模块,用于根据输入的数据的文本信息得到包 含上下文信息的文本特征;
一个嵌套LSTM模块,将所述文本特征提取模块的输出作为输入, 提取该文本特征的空间结构信息,得到包含整体与部分关系的文本特 征;
一个集成学习模块,将数据的行为特征以及包含整体与部分关系 的文本特征共同作为输入,用多个分类函数得到评论最终的分类结果。
本发明与现有技术相比具有以下有益效果:
本发明能够自动抽取出有效特征,并对特征进行抽象和组合,最 终识别出文本空间特征。
附图说明
图1是本发明一实施例中方法流程图
图2是本发明一实施例中嵌套LSTM模块。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于嵌套LSTM的水军评论检测方 法,提供一个检测系统包括文本特征提取模块、嵌套LSTM模块和集 成学习模块,
在本实施例中,文本提取模块利用GloVe模型对评论文本进行词 的向量化表示,使得文本特征向量之间尽可能多地蕴含语义和语法的 信息。
参考图2,本实施例中嵌套LSTM模块:
将文本提取模块所获得的向量表示输入到模型中,输入向量经过 Embedding层转化为降维后的词向量分别输入到嵌套LSTM单元中。 NLSTM是通过嵌套的方式增加LSTM的深度,即NLSTM中记忆单元的 值ci是由LSTM单元计算的,其中,LSTM单元具有自身内在的记忆单 元。内部结构图如下所示:
其中,单元状态的更新与门控机制过程为:
it=σi(xtWxt+ht-1Whi+bi)
ft=σf(xtWxf+ht-1Whf+bf)
ct=ft⊙ct-1+it⊙σc(xtWxc+ht-1Whc+bc)
ot=σo(xtWxo+ht-1Who+bo)
ht=ot⊙σh(ct)
NLSTM使用了已学习的状态函数代替LSTM中计算ct的加运算:
ct=mt(ft⊙ct-1,it⊙gt)
其中函数的状态表示m在时间t的内部记忆,调用该函数计算ct和 mt+1,可以使用另一个LSTM单元或者NLSTM来实现这个记忆函数。基 于综上所述的架构特性,NLSTM中记忆函数的输入和隐藏状态:
在NLSTM中,使用LSTM作为记忆函数,而内部LSTM的更新过程 为:
外部LSTM的单位状态更新方式为:
因此,嵌套式LSTM通过门控结构实现了对内部内存的选择性访问。 使得嵌套式LSTM外部记忆单元能自由选择性地将相关的长期信息读 写到内部单元,能够获得更加具有空间结构信息的文本特征向量。
在本实施例中,集成学习模块:将上述所获得的文本特征向量以 及数据的行为特征输入到该模块中,该模块构造了一个多分类模型, 该分类模型由2层组成,第一层由3个基分类器组成,第二层由一个 最终分类器组成。首先将训练集用第一层的3个基分类器进行学习和 拟合,然后预测结果映射成新的数据集,最后利用最终分类器预测。 通过增加基分类器ft,采用贪婪的原则优化目标函数,令其每次增加, 都能使得损失变小。因此,可得到评价当前基分类器性能的目标函数:
l是评价模型的损失函数,用于表示样本x的训练误差。Ω是由yT和L2正则项两项组成。
模型训练总体损失函数采用XGBoost的均方差(MSE)评价标准, MSE指预测数据和原始数据对应点误差的平方和的均值。独立样本只 对应分类器的一个损失函数值,因此总体目标函数为:
在本实施例中,具体方法包括以下步骤:
步骤S1:将输入的数据分为文本信息与行为信息;
步骤S2:对行为信息进行特征抽取获得行为特征,并将文本信息 送入所述文本特征提取模块,得到包含上下文信息的文本特征;
步骤S3:将得到的包含上下文信息的文本特征送入所述嵌套 LSTM模块,并提取该文本特征的空间结构信息,得到包含整体与部 分关系的文本特征;
步骤S4:将包含整体与部分关系的文本特征与行为特征输入至 集成学习模块中,得到评论最终的分类结果。
在本实施例中,所述文本特征提取模块利用开源的Glove工具事 先在大语料里训练得到词向量表,将输入的数据的文本信息用向量表 示。
在本实施例中,所述嵌套LSTM模块将向量表示的文本特征进行 文本上下文相关的特征抽取及注意力构建。所述嵌套LSTM模块是 LSTM模型的一个扩展,它通过嵌套而不是通过堆栈来增加深度。嵌 套LSTM的内部记忆单元形成内部记忆,只有通过外部记忆单元才能 被其他计算元件所访问,从而实现时间层次的形式。
在本实施例中,所述集成学习模块采用多层分类模型对输入进行 分类。将前面得到的文本特征与行为特征输入所述集成学习模块,集 成学习模块构造多分类器模型。在训练阶段,需要将预测值与目标值 求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭 代更新;否则,只需将得到的预测值输出即可。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所 做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.一种基于嵌套LSTM的水军评论检测方法,其特征在于,包括以下步骤:
步骤S1:将输入的数据分为文本信息与行为信息;
步骤S2:对行为信息进行特征抽取获得行为特征,并将文本信息送入所述文本特征提取模块,得到包含上下文信息的文本特征;
步骤S3:将得到的包含上下文信息的文本特征送入所述嵌套LSTM模块,并提取该文本特征的空间结构信息,得到包含整体与部分关系的文本特征;
步骤S4:将包含整体与部分关系的文本特征与行为特征输入至集成学习模块中,得到评论最终的分类结果。
2.根据权利要求1所述的基于嵌套LSTM的水军评论检测方法,其特征在于:所述文本特征提取模块利用开源的Glove工具事先在大语料里训练得到词向量表,将输入的数据的文本信息用向量表示。
3.根据权利要求2所述的基于嵌套LSTM的水军评论检测方法,其特征在于:所述嵌套LSTM模块将向量表示的文本特征进行文本上下文相关的特征抽取及注意力构建。
4.根据权利要求1所述的基于嵌套LSTM的水军评论检测方法,其特征在于:所述集成学习模块采用多层分类模型对输入进行分类。
5.一种基于嵌套LSTM的水军评论检测系统,其特征在于:包括
一个文本特征提取模块,用于根据输入的数据的文本信息得到包含上下文信息的文本特征;
一个嵌套LSTM模块,将所述文本特征提取模块的输出作为输入,提取该文本特征的空间结构信息,得到包含整体与部分关系的文本特征;
一个集成学习模块,将数据的行为特征以及包含整体与部分关系的文本特征共同作为输入,用多个分类函数得到评论最终的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911085552.6A CN110825952A (zh) | 2019-11-08 | 2019-11-08 | 基于嵌套lstm的水军评论检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911085552.6A CN110825952A (zh) | 2019-11-08 | 2019-11-08 | 基于嵌套lstm的水军评论检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825952A true CN110825952A (zh) | 2020-02-21 |
Family
ID=69553461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911085552.6A Pending CN110825952A (zh) | 2019-11-08 | 2019-11-08 | 基于嵌套lstm的水军评论检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825952A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200638A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于注意力机制与双向gru网络的水军评论检测系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410575A (zh) * | 2018-10-29 | 2019-03-01 | 北京航空航天大学 | 一种基于胶囊网络和嵌套式长短时记忆神经网络的路网状态预测方法 |
CN109710769A (zh) * | 2019-01-23 | 2019-05-03 | 福州大学 | 一种基于胶囊网络的水军评论检测系统及方法 |
US20190251355A1 (en) * | 2018-02-09 | 2019-08-15 | Samsung Electronics Co., Ltd. | Method and electronic device for generating text comment about content |
-
2019
- 2019-11-08 CN CN201911085552.6A patent/CN110825952A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190251355A1 (en) * | 2018-02-09 | 2019-08-15 | Samsung Electronics Co., Ltd. | Method and electronic device for generating text comment about content |
CN109410575A (zh) * | 2018-10-29 | 2019-03-01 | 北京航空航天大学 | 一种基于胶囊网络和嵌套式长短时记忆神经网络的路网状态预测方法 |
CN109710769A (zh) * | 2019-01-23 | 2019-05-03 | 福州大学 | 一种基于胶囊网络的水军评论检测系统及方法 |
Non-Patent Citations (1)
Title |
---|
刘旺旺: ""基于深度神经网络的文本情感分类研究"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200638A (zh) * | 2020-10-30 | 2021-01-08 | 福州大学 | 一种基于注意力机制与双向gru网络的水军评论检测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN107832400B (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
Qiu et al. | Dictionary‐based automated information extraction from geological documents using a deep learning algorithm | |
US12086849B2 (en) | Methods and systems for predicting a price of any subtractively manufactured part utilizing artificial intelligence at a computing device | |
CN110377916A (zh) | 词预测方法、装置、计算机设备及存储介质 | |
CN113157886B (zh) | 一种自动问答生成方法、系统、终端及可读存储介质 | |
CN110222347A (zh) | 一种作文离题检测方法 | |
Huang et al. | Siamese network-based supervised topic modeling | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN110348227A (zh) | 一种软件漏洞的分类方法及系统 | |
Kaur et al. | Online news classification using deep learning technique | |
Xu et al. | BERT gated multi-window attention network for relation extraction | |
CN111259147B (zh) | 基于自适应注意力机制的句子级情感预测方法及系统 | |
CN117377950A (zh) | 使用机器学习加速文档归类 | |
Dhankar et al. | A systematic review of techniques, tools and applications of machine learning | |
Wei et al. | GeoBERTSegmenter: Word segmentation of Chinese texts in the geoscience domain using the improved BERT model | |
CN110825952A (zh) | 基于嵌套lstm的水军评论检测方法及系统 | |
CN116629264A (zh) | 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 | |
Shi et al. | Entity relationship extraction based on BLSTM model | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
Hourali et al. | Coreference resolution using neural mcdm and fuzzy weighting technique | |
CN112528015B (zh) | 在消息交互传播中进行谣言判别的方法及装置 | |
Jiang et al. | Sentiment classification based on clause polarity and fusion via convolutional neural network | |
Wang et al. | [Retracted] Construction of a Knowledge Map Based on Text CNN Algorithm for Maritime English Subjects | |
Lobanova et al. | Identifying and visualizing trends in science, technology, and innovation using SciBERT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |