CN111309859A - 一种景区网络口碑情感分析方法及装置 - Google Patents
一种景区网络口碑情感分析方法及装置 Download PDFInfo
- Publication number
- CN111309859A CN111309859A CN202010068891.XA CN202010068891A CN111309859A CN 111309859 A CN111309859 A CN 111309859A CN 202010068891 A CN202010068891 A CN 202010068891A CN 111309859 A CN111309859 A CN 111309859A
- Authority
- CN
- China
- Prior art keywords
- text
- data
- emotion
- scenic spot
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 84
- 238000004458 analytical method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 21
- 230000009193 crawling Effects 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000005065 mining Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 5
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 235000003181 Panax pseudoginseng Nutrition 0.000 claims description 3
- 244000131316 Panax pseudoginseng Species 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013481 data capture Methods 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种景区网络口碑情感分析方法及装置,其在数据爬取阶段,通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率,保证了数据的可靠性和时效性;在文本分类阶段,评论数据本文特征化表示采用word2vector词向量,可以很好表示词与词之间的关系,文本分类器采用的是文本卷积神经网络,可以有效的学习评论文本的上下信息,这两种算法的有效结合,提高了情感分析的准确率;克服景区网络口碑情感分析准确率不高、时效性差、数据可靠性不高的问题,为游客出行提供参考,帮助景区改善服务质量。
Description
技术领域
本发明涉及人工智能在旅游领域的应用,尤其涉及一种实时高效的景区网络口碑情感分析方法及装置。
背景技术
近年来随着移动互联网和在线支付的快速发展,游客出行旅游的购买方式逐渐由线下转移到了线上。旅游本身就属于一种体验式消费,这就促使各大旅游网站变成了游客们交流旅游体检,发表景区评论观点的重要平台,而这些游客发表的景区评论数据便形成了景区网络口碑。景区网络口碑成为了影响潜在游客出行意愿的重要因素之一,同时,也是景区管理者把握景区形象,及时调整景区经营管理方案的重要信息来源。因此,急需一种挖掘景区网络口碑情向分析方法,有效的挖掘景区分析景区网络评论,为景区管理者提供专业、精确、有效的景区口碑监测服务,并根据游客的负面情感倾向,针对性的改进区景区服务,提高景区服务质量。随着大数据时代的到来,目前景区口碑情感分析却在准确度/可靠性上并不理想,主要有以下几方面的原因:第一、由于景区评论数据分散着各个平台,并且实时更新,目前的景区口碑情感分析方法难以实现实时的监测多数据源;第二、景区评论数据多为短文本,目前采用的文本特征表示大部分都是词频表示方式,不能有效的表示词与词之间的关系;第三、在文本分类阶段,目前主流的方法多为一些传统的机器学习方法,不能有效的学习评论文本上下文信息。
发明内容
本发明要解决的主要技术问题是,提供一种景区网络口碑情感分析方法及装置,其可有效提高景区口碑情感分析的准确度。
为解决上述技术问题,本发明提供一种景区网络口碑情感分析方法,包括数据爬取阶段和文本分类阶段。具体的:
在数据爬取阶段:通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率,保证了数据的可靠性和时效性;
在文本分类阶段:评论数据本文特征化表示采用word2vector词向量,可以很好表示词与词之间的关系,文本分类器采用的是文本卷积神经网络,可以有效的学习评论文本的上下信息,这两种算法的有效结合,提高了情感分析的准确率。
所述的一种景区网络口碑情感分析方法,具体包括以下步骤:
步骤a、数据收集:通过网络爬虫技术定时的抓取主流旅游平台上的景区评论数据,通过人工打标签的方式标注数据的正负面情感倾向,然后采用三七原则,随机的分隔训练集和测试集;
步骤b、数据预处理:首先,通过正则校验去除文本中的非中文字符,然后对文本进行分词,分词过程中需要构建停用词表和自定义字典;
步骤c、文本特征表示:通过维基语料库对word2vector模型进行训练,保存最优的word2vector模型,然后通过最优word2vector模型将评论数据表示成文本矩阵;
步骤d、建立文本分类器:文本分类器采用文本卷积神经网络,文本卷积神经网络由卷积层、池化层、softmax层组成;
步骤e、模型优化:通过调节文本长度最大输入长度,dropout、批量大小、循环次数等参数,根据准确率、召回率评价指标,选择最优的模型,并保存最优模型参数;
步骤f、情感预测:通过训练好的模型预测爬取的景区评论数据,并自动为这些评论数据打上情感倾向标签;
步骤g、情情感热词挖掘:采用tf-idf算法,挖掘出景区的情感热词,并为热词赋予热度权重。
在一种实施例中,所述步骤a即数据爬取阶段,管理员根据需求配置评论数据的来源渠道网络链接,同时,还可以配置数据的采集频率以及采集时间。
在一种实施例中,所述步骤b,数据数据预处理包括两个步骤:首先,通过正则表达式去除评论文本数据中的非中文字符,主要包括标点符号,表情符、数字、英文等;然后,通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除评论文本数据中一些无意义的词;自定义词典用于景区特殊词汇;停用词表与自定义字典都需要在后续运行中不断的完善优化。
在一种实施例中,所述步骤c中,文本特征化表示采用word2vector词向量模型,通过维基语料库训练,输出的词向量采用的是300维,文本一个宽度为 300,长度为文本词个数的矩阵表示;对于那些未出现的词用零表示,同时文本情感标签采用one-hot编码实现。
在一种实施例中,所述步骤d中,文本分类器采用的文本卷积神经网络,文本卷积神经网络由卷积层、池化层和softmax层构成;其中卷积层由2*300、 3*300、4*300的卷积核构成,每种卷积和有64个;池化层通过求最大值的方式实现,然后通过池化层得到的文本特征向量最后神经网络的输入,最后通过 softmax对文本进行二分类。
在一种实施例中,所述步骤e中,文本卷积神经网络模型优化过程中,根据准确率、召回率评价指标等相应的指标,选择最优的模型参数并保存,通过大量的实验确定:文本最大长度为3500,drop为0.6,批量大小80,循环参数为 50。
在一种实施例中,所述步骤f中,景区评论数据情感预测,爬虫结束之后,情感预测程序,先对评论数据按照步骤b进行数据预处理,然后按照步骤c对本文进行特征表示,最后通过步骤e训保存的模型预测景区评论数据的情感倾向。
在一种实施例中,所述步骤g,情感热词挖掘分为正面情感热词挖掘与负面情感热词挖掘,在构建停用词表时,需要构建正负两种停用词表,然后在通过 tf-idf挖掘出挖掘正负面情感热词,并赋予情感热词热度权重,每种情感倾向都选取50个权重最高的热词,通过词云的方式展现。
本发明还公开了一种景区网络口碑情感分析装置,其包括数据爬取模块和文本分类模块;
所述数据爬取模块:用于通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率;
所述文本分类模块:用于将评论数据本文特征化表示采用word2vector词向量,及文本分类器采用文本卷积神经网络。
本发明的有益效果是:一种景区网络口碑情感分析方法及装置,其包括数据爬取阶段和文本分类阶段;具体的:在数据爬取阶段,通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率,保证了数据的可靠性和时效性;在文本分类阶段,评论数据本文特征化表示采用word2vector词向量,可以很好表示词与词之间的关系,文本分类器采用的是文本卷积神经网络,可以有效的学习评论文本的上下信息,这两种算法的有效结合,提高了情感分析的准确率;
本发明实现了景区评论数据多渠道的实时抓取,并采用word2vector与文本卷积神经网络相结合的算法模型,克服景区网络口碑情感分析准确率不高、时效性差、数据可靠性不高的问题,为游客出行提供参考,帮助景区改善服务质量。
附图说明
图1为本发明一种实施例景区口碑情感分析流程图;
图2为本发明一种实施例的word2vector结构图;
图3为本发明一种实施例的文本卷积神经网络结构图;
图4为本发明一种实施例的某地景区正面热词词云;
图5为本发明一种实施例的某地景区负面热词词云。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
参照图1、2所示,一种景区网络口碑情感分析方法,通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,采用word2vector词向量矩阵表示评论文本,通过爬取对评论数据对文本卷积神经网络进行训练和测试,并挖掘测试正负面情感热词。包括以下步骤:
a.数据收集:通过网络爬虫技术定时的抓取主流的旅游平台上的景区评论数据,通过人工打标签的方式标注数据的正负面情感倾向,然后采用三七原则,随机的分隔训练集和测试集。(人工智能训练集都是通过人工打标签,训练完模型之后,通过模型自动打标签。)
b.数据预处理:首先,通过正则校验去除文本中的非中文字符,然后对文本进行分词,分词过程中需要构建停用词表和自定义字典。
c.文本特征表示:通过维基语料库对word2vector模型进行训练,保存最优的word2vector模型,然后保存好的word2vector将评论数据表示成文本矩阵。(如图2,图中w(t)表示第t个词词向量)。
d.建立文本分类器:文本分类器采用文本卷积神经网络,文本卷积神经网络由卷积层、池化层、softmax层组成。(如图3所示)
e.模型优化:通过调节文本长度最大输入长度,dropout、批量大小、循环次数等参数,根据准确率、召回率评价指标,选择最优的模型,并保存最优模型参数。
f.情感预测:通过训练好最优模型预测爬取的景区评论数据,并自动为这些评论数据打上情感倾向标签。
g.情感热词挖掘:采用tf-idf算法,挖掘出景区的情感热词,并为热词赋予热度权重。
本发明的核心实现了景区评论数据多渠道的实时抓取,并采用word2vector 与文本卷积神经网络相结合的算法模型。实时抓取多数据源的评论数据保证了情感分析的可靠性与时效性,word2vector个文本卷积神经网络相结合不仅保证了词向量的关联性还能学习文本上下文信息,从而提高了评论数据情感预测的准确性。
实施时,所述的步骤a中,网络爬虫系统采用动态可配置的方式,管理员根据需求配置评论数据来源渠道的网络链接,同时,还可以配置数据的采集频率以及采集时间。本发明情感分析采用的是二分类,在预测前需要对数据打标签,在数据集中选取了60000数据,其中训练集42000条,测试集18000条。
实施时,所述的步骤b中,数据数据预处理包括两个步骤,首先,通过正则表达式去除评论文本数据中的非中文字符,主要包括标点符号,表情符、数字、英文等。然后,通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除评论文本数据中一些无意义的词;自定义词典用于景区的特殊词汇。停用词表与自定义字典都需要在后续运行中不断的完善优化。
实施时,如图2所示,所述的步骤c中,文本特征化表示采用word2vector 词向量模型,通过维基语料库训练,输出的词向量采用的是300维,当达到最优之后保存模型,文本通过最优word2vector词向量模型计算后得到一个宽度为300,长度为文本词个数的矩阵。对于那些未出现的词,用零表示。同时,文本情感标签采用one-hot编码实现。
实施时,如图3所示,所述的步骤d中,文本分类器采用的文本卷积神经网络,文本卷积神经网络由卷积层、池化层和softmax层构成。其中卷积层由2*300、 3*300、4*300的卷积核构成,每种卷积和有64个;池化层通过求最大值的方式实现,然后通过池化层得到的文本特征向量最后神经网络的输入,最后通过 softmax对文本进行二分类。
实施时,所述的步骤e中,文本卷积神经网络模型优化,需要大量的训练调节调节文本长度,dropout、批量大小、循环次数等参数,根据准确率、召回率评价指标等相应的指标,选择最优的模型参数并保存,通过大量的实验确定:文本最大长度为3500,drop为0.6,批量大小80,循环参数为50。
实施时,所述的步骤f中,景区评论数据情感预测,爬虫结束之后,启动情感预测程序,先对评论数据按照步骤b进行数据预处理,然后按照步骤c对本文进行特征表示,最后通过步骤e训保存的模型预测景区评论数据的情感倾向。
实施时,所述的步骤g中,完成步骤e情感预测之后,需要挖掘情感热词,情感热词挖掘分为正面情感热词挖掘与负面情感热词挖掘,在构建停用词表时,需要构建正负两种停用词表,然后在通过tf-idf挖掘出挖掘正负面情感热词,并赋予情感热词热度权重,每种情感倾向都选取50个权重最高的热词,通过词云的方式展现。
某个词的tf-idf的值为,即某一个文件中高频出现的词条,以及该词条在整个语料库文件中低频出现的现象,就可以产生高权重的tf-idf,tf-idf算法的值如公式(5.1)所示,tfx,y词x在文本y中的频率,dfx表示x在语料库中的频率,N表示总的文本数量。
参照前文描述,本发明还公开了一种景区网络口碑情感分析装置,其包括数据爬取模块和文本分类模块;
所述数据爬取模块:用于通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率;
所述文本分类模块:用于将评论数据本文特征化表示采用word2vector词向量,及文本分类器采用文本卷积神经网络。
如图4、图5所示,本发明应用在成功的应用在某景区,图4是该景区正面热词词云,图5是该景区负面热词词云。通过本发明的景区情感分析方法,有效挖掘出景区情感热词,正面可以为游客出行旅游提供参考,负面热词可以为景区管理者提供专业、精确、有效的景区口碑监测服务,并根据游客的负面情感倾向,针对性的改进区景区服务,提高景区服务质量。
依据实际应用及测试,发现本发明的优点和积极效果特别体现在:1、实现了实时抓取多数据源的评论数据,保证了情感分析数据可靠性与时效性。2、并采用word2vector与文本卷积神经网络相结合的算法模型提高了情感预测的准确率。下表是本发明与其他发明的准确率对比图,虽然w2v-lstm的准确率与本发明的差不多,但是训练时间以及情感预测计算量大,运行时间是本发明的3 倍,难以保证预测的时效性。
本发明的景区网络口碑情感分析,保证评论数据的可靠性和实时性,并有效的提高了文本分类的准确率。首先,在数据爬取阶段采用了,爬虫系统采用了动态可配置的管理方式,可以控制数据抓取渠道和抓取频率,保证了数据的可靠性和时效性。其次,在文本分类阶段,评论数据本文特征化表示采用了 word2vector词向量,可以很好表示词与词之间的关系,文本分类器采用的是文本卷积神经网络,可以有效的学习评论文本的上下信息,这两种算法的有效结合,提高了情感分析的准确率。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种景区网络口碑情感分析方法,包括数据爬取阶段和文本分类阶段,其特征在于,
在数据爬取阶段:通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率;
在文本分类阶段:评论数据本文特征化表示采用word2vector词向量,文本分类器采用文本卷积神经网络。
2.如权利要求1所述的景区网络口碑情感分析方法,其特征在于,具体包括以下步骤:
步骤a、数据收集:通过网络爬虫技术定时的抓取主流旅游平台上的景区评论数据,通过人工打标签的方式标注数据的正负面情感倾向,然后采用三七原则,随机的分隔训练集和测试集;
步骤b、数据预处理:首先,通过正则校验去除文本中的非中文字符,然后对文本进行分词,分词过程中需要构建停用词表和自定义字典;
步骤c、文本特征表示:通过维基语料库对word2vector模型进行训练,保存最优的word2vector模型,然后通过最优word2vector模型将评论数据表示成文本矩阵;
步骤d、建立文本分类器:文本分类器采用文本卷积神经网络,文本卷积神经网络由卷积层、池化层、softmax层组成;
步骤e、模型优化:通过调节文本长度最大输入长度,dropout、批量大小、循环次数等参数,根据准确率、召回率评价指标,选择最优的模型,并保存最优模型参数;
步骤f、情感预测:通过训练好的模型预测爬取的景区评论数据,并自动为这些评论数据打上情感倾向标签;
步骤g、情情感热词挖掘:采用tf-idf算法,挖掘出景区的情感热词,并为热词赋予热度权重。
3.如权利要求2所述的景区网络口碑情感分析方法,其特征在于,所述步骤a即数据爬取阶段,根据需求配置评论数据的来源渠道网络链接,同时,还可以配置数据的采集频率以及采集时间。
4.如权利要求2所述的景区网络口碑情感分析方法,其特征在于,所述步骤b,数据数据预处理包括两个步骤:首先,通过正则表达式去除评论文本数据中的非中文字符,主要包括标点符号,表情符、数字、英文等;然后,通过“结巴”分词工具对文本数据分词,在分词的过程中需要构建停用词表和自定义字典,停用词表去除评论文本数据中一些无意义的词;自定义词典用于景区特殊词汇;停用词表与自定义字典都需要在后续运行中不断的完善优化。
5.如权利要求2所述的景区网络口碑情感分析方法,其特征在于,所述步骤c中,文本特征化表示采用word2vector词向量模型,通过维基语料库训练,输出的词向量采用的是300维,文本一个宽度为300,长度为文本词个数的矩阵表示;对于那些未出现的词用零表示,同时文本情感标签采用one-hot编码实现。
6.如权利要求2所述的景区网络口碑情感分析方法,其特征在于,所述步骤d中,文本分类器采用的文本卷积神经网络,文本卷积神经网络由卷积层、池化层和softmax层构成;其中卷积层由2*300、3*300、4*300的卷积核构成,每种卷积和有64个;池化层通过求最大值的方式实现,然后通过池化层得到的文本特征向量最后神经网络的输入,最后通过softmax对文本进行二分类。
7.如权利要求2所述的景区网络口碑情感分析方法,其特征在于,所述步骤e中,文本卷积神经网络模型优化过程中,根据准确率、召回率评价指标等相应的指标,选择最优的模型参数并保存,通过大量的实验确定:文本最大长度为3500,drop为0.6,批量大小80,循环参数为50。
8.如权利要求2所述的景区网络口碑情感分析方法,其特征在于,所述步骤f中,景区评论数据情感预测,爬虫结束之后,情感预测程序,先对评论数据按照步骤b进行数据预处理,然后按照步骤c对本文进行特征表示,最后通过步骤e训保存的模型预测景区评论数据的情感倾向。
9.如权利要求2所述的景区网络口碑情感分析方法,其特征在于,所述步骤g,情感热词挖掘分为正面情感热词挖掘与负面情感热词挖掘,在构建停用词表时,需要构建正负两种停用词表,然后在通过tf-idf挖掘出挖掘正负面情感热词,并赋予情感热词热度权重,每种情感倾向都选取50个权重最高的热词,通过词云的方式展现。
10.一种景区网络口碑情感分析装置,其特征在于,包括数据爬取模块和文本分类模块;
所述数据爬取模块:用于通过网络爬虫技术实时的抓取多个主流旅游平台的评论数据,爬虫系统采用动态可配置的管理方式,可以控制数据抓取渠道和抓取频率;
所述文本分类模块:用于将评论数据本文特征化表示采用word2vector词向量,及文本分类器采用文本卷积神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068891.XA CN111309859B (zh) | 2020-01-21 | 2020-01-21 | 一种景区网络口碑情感分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068891.XA CN111309859B (zh) | 2020-01-21 | 2020-01-21 | 一种景区网络口碑情感分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111309859A true CN111309859A (zh) | 2020-06-19 |
CN111309859B CN111309859B (zh) | 2023-07-07 |
Family
ID=71144912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010068891.XA Active CN111309859B (zh) | 2020-01-21 | 2020-01-21 | 一种景区网络口碑情感分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309859B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115262A (zh) * | 2020-09-07 | 2020-12-22 | 上海晶确科技有限公司 | 网络评论数据收集与分析方法 |
CN112257517A (zh) * | 2020-09-30 | 2021-01-22 | 中国地质大学(武汉) | 一种基于景点聚类和群体情感识别的旅游景点推荐系统 |
CN112650906A (zh) * | 2020-12-22 | 2021-04-13 | 国家电网有限公司客户服务中心 | 基于大数据文本分析的互联网用户评论分析方法及系统 |
CN113591487A (zh) * | 2021-08-03 | 2021-11-02 | 江苏省城市规划设计研究院有限公司 | 基于深度学习的旅游景点评论情感分析方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
CN108153738A (zh) * | 2018-02-10 | 2018-06-12 | 灯塔财经信息有限公司 | 一种基于层次聚类的聊天记录分析方法和装置 |
CN108388544A (zh) * | 2018-02-10 | 2018-08-10 | 桂林电子科技大学 | 一种基于深度学习的图文融合微博情感分析方法 |
CN108614875A (zh) * | 2018-04-26 | 2018-10-02 | 北京邮电大学 | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 |
CN108984523A (zh) * | 2018-06-29 | 2018-12-11 | 重庆邮电大学 | 一种基于深度学习模型的商品评论情感分析方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109829166A (zh) * | 2019-02-15 | 2019-05-31 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
WO2019153522A1 (zh) * | 2018-02-09 | 2019-08-15 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN110321472A (zh) * | 2019-06-12 | 2019-10-11 | 中国电子科技集团公司第二十八研究所 | 基于智能问答技术的舆情监测系统 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
-
2020
- 2020-01-21 CN CN202010068891.XA patent/CN111309859B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
WO2019153522A1 (zh) * | 2018-02-09 | 2019-08-15 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN108153738A (zh) * | 2018-02-10 | 2018-06-12 | 灯塔财经信息有限公司 | 一种基于层次聚类的聊天记录分析方法和装置 |
CN108388544A (zh) * | 2018-02-10 | 2018-08-10 | 桂林电子科技大学 | 一种基于深度学习的图文融合微博情感分析方法 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN108614875A (zh) * | 2018-04-26 | 2018-10-02 | 北京邮电大学 | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 |
CN108984523A (zh) * | 2018-06-29 | 2018-12-11 | 重庆邮电大学 | 一种基于深度学习模型的商品评论情感分析方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109829166A (zh) * | 2019-02-15 | 2019-05-31 | 重庆师范大学 | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN110321472A (zh) * | 2019-06-12 | 2019-10-11 | 中国电子科技集团公司第二十八研究所 | 基于智能问答技术的舆情监测系统 |
Non-Patent Citations (2)
Title |
---|
SISI CHEN等: "Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network", 《2018 IEEE 3RD INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND BIG DATA ANALYSIS (ICCCBDA)》 * |
李杰等: "基于深度学习的短文本评论产品特征提取及情感分类研究", 《情报理论与实践》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115262A (zh) * | 2020-09-07 | 2020-12-22 | 上海晶确科技有限公司 | 网络评论数据收集与分析方法 |
CN112257517A (zh) * | 2020-09-30 | 2021-01-22 | 中国地质大学(武汉) | 一种基于景点聚类和群体情感识别的旅游景点推荐系统 |
CN112257517B (zh) * | 2020-09-30 | 2023-04-21 | 中国地质大学(武汉) | 一种基于景点聚类和群体情感识别的旅游景点推荐系统 |
CN112650906A (zh) * | 2020-12-22 | 2021-04-13 | 国家电网有限公司客户服务中心 | 基于大数据文本分析的互联网用户评论分析方法及系统 |
CN113591487A (zh) * | 2021-08-03 | 2021-11-02 | 江苏省城市规划设计研究院有限公司 | 基于深度学习的旅游景点评论情感分析方法 |
CN113591487B (zh) * | 2021-08-03 | 2024-04-26 | 江苏省城市规划设计研究院有限公司 | 基于深度学习的旅游景点评论情感分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111309859B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309859A (zh) | 一种景区网络口碑情感分析方法及装置 | |
CN110580292B (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN108334605B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN109815339B (zh) | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 | |
CN111339306B (zh) | 分类模型训练方法、分类方法及装置、设备和介质 | |
US10824815B2 (en) | Document classification using attention networks | |
CN111651601B (zh) | 用于电力信息系统的故障分类模型的训练方法及分类方法 | |
CN108304468A (zh) | 一种文本分类方法以及文本分类装置 | |
CN108804512A (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN105740227A (zh) | 一种求解中文分词中新词的遗传模拟退火方法 | |
CN110309967A (zh) | 客服会话评分等级的预测方法、系统、设备和存储介质 | |
CN113435998B (zh) | 贷款逾期预测方法、装置、电子设备及存储介质 | |
CN111078881B (zh) | 细粒度情感分析方法、系统、电子设备和存储介质 | |
CN106445915A (zh) | 一种新词发现方法及装置 | |
CN109685065A (zh) | 试卷内容自动分类的版面分析方法、系统 | |
CN106886576A (zh) | 一种基于预分类的短文本关键词提取方法及系统 | |
CN116049397A (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
Wang et al. | Active Learning for Black-Box Semantic Role Labeling with Neural Factors. | |
CN109299470A (zh) | 文本公告中触发词的抽取方法及系统 | |
CN110377909B (zh) | 一种客户反馈信息的分类方法及装置 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
CN113806538B (zh) | 标签提取模型训练方法、装置、设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |