CN113282704A - 一种对评论有用性进行判断和筛选的方法与装置 - Google Patents
一种对评论有用性进行判断和筛选的方法与装置 Download PDFInfo
- Publication number
- CN113282704A CN113282704A CN202110496262.1A CN202110496262A CN113282704A CN 113282704 A CN113282704 A CN 113282704A CN 202110496262 A CN202110496262 A CN 202110496262A CN 113282704 A CN113282704 A CN 113282704A
- Authority
- CN
- China
- Prior art keywords
- comment
- score
- emotion
- usefulness
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012216 screening Methods 0.000 title claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 97
- 230000008451 emotion Effects 0.000 claims abstract description 75
- 238000012163 sequencing technique Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 65
- 238000004364 calculation method Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 238000012552 review Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对评论有用性进行判断和筛选的方法与装置,该方法包括:获取多条待判断的评论数据,对待判断的评论数据进行预处理;将每条预处理后的评论数据输入情感分析模型,输出评论情感得分;将每条预处理后的评论数据输入主题分析模型,输出词频总权重和评论主题排序;将每条预处理后的评论数据输入可信度分析模型,输出评论者可信度得分;根据评论情感得分、词频总权重、评论者可信度得分及在评论数据中提取的语义特征进行加权求和,得到评论有用性得分;将评论有用性得分与预设阈值相比较,筛选出高效有用评论。该方法与传统方法相比,可充分考虑评论内部、外部特征,进行更深层次的评论语义分析,实现精确地高效有用评论的判别和筛选。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种对评论有用性进行判断和筛选的方法与装置。
背景技术
当前,人们总是追求更高效、更便捷的生活方式,互联网不仅节约了时间成本,也改变着我们的生活方式。电子商务的快速发展使网络购物已经成为消费者购物的一种重要方式,在线评论作为电子口碑的一种重要形式,成为消费者在购买决策过程中参考的重要依据。面对数量众多的在线评论,如何快速发现对消费者有用的评论,成为许多研究的关注点。评论有用性是指产品评论信息的影响程度,能够帮助评论阅读者快速获取有效信息,评论的有用性越高,对阅读者的决策影响越大。
但是,现有评论有用性的预测方法存在局限性。首先,现有在评论有用性特征的研究学习上未充分考虑评论者网络特征和评论对象特征,多数研究仅考虑了评论属性和评论内容;其次,现有评论语义分析方法相对简单,以构建主题词库和情感词典为主,评论可用性得分仅由词频权重和情感值计算得到,没有进行深层次的评论语义分析,然而评论中所包含的情感倾向对评论有用性起到很关键的作用。
因此,在现有评论有用性预测研究的基础上,如何提供一种既能根据评论内容特征和产品属性特征对评论有用性进行判断,又能根据评论者和阅读者网络特征进行判断和筛选有用性评论的方法与装置,成为本领域技术人员亟需解决的问题。
发明内容
鉴于上述问题,本发明提出了一种至少解决上述部分技术问题的一种对评论有用性进行判断和筛选的方法与装置。该方法既可充分考虑评论内容特征、产品属性特征,又可充分考虑评论者和阅读者特征,将评论者网络特征进行量化计算,并改进词频权重和评论情感值的计算方式,实现更精确地高效有用性评论的判别和筛选。
第一方面,本发明实施例提供一种对评论有用性进行判断和筛选的方法,包括:
获取多条待判断的评论数据,对所述待判断的评论数据进行预处理;
将每条所述预处理后的评论数据输入情感分析模型,输出评论情感得分;
将每条所述预处理后的评论数据输入主题分析模型,输出词频总权重和评论主题排序;
将每条所述预处理后的评论数据输入可信度分析模型,输出评论者可信度得分;
根据所述评论情感得分、词频总权重、评论者可信度得分及在所述评论数据中提取的语义特征,进行加权求和,得到评论有用性得分;
将所述评论有用性得分与预设阈值相比较,判断和筛选出高效有用评论。
进一步地,还包括:
根据阅读者的网络特征,并结合所述评论主题排序,输出基于阅读者特征的高效有用评论排序结果。
进一步地,对待判断的评论数据进行预处理,包括:
对所述待判断的评论数据进行清洗;
对清洗后的所述评论数据进行分词处理;
对分词后的所述评论数据进行词性标注和标点符号标注。
进一步地,所述情感分析模型的训练步骤包括:
构建长短时记忆网络;
将情感分析的训练样本数据输入所述长短时记忆网络进行训练;所述情感分析的训练样本数据由word2vec转换为特征向量;所述情感分析的训练样本数据为带有评论情感得分的标识;所述评论情感得分由词情感极性值和标点符号情感极性值,加权求和获得;所述词情感极性值由评论中各个词与领域情感词典进行余弦相似度匹配计算获得;
判断训练得到的模型是否满足第一预设条件;
当训练得到的模型满足第一预设条件时,确定所述训练得到的模型为情感分析模型。
进一步地,所述主题分析模型的训练步骤包括:
构建卷积神经网络;
将主题分析的训练样本数据输入所述卷积神经网络进行训练;所述主题分析的训练样本数据由word2vec转换为特征向量;所述主题分析的训练样本数据为带有词频总权重和评论主题排序的标识;其中,所述词频总权重由主题权重和词频权重进行加权求和获得;所述词频权重由TF-IDF计算获得;所述主题权重和所述评论主题排序,由LDA统计和提取;
判断训练得到的模型是否满足第二预设条件;
当训练得到的模型满足第二预设条件时,确定所述训练得到的模型为主题分析模型。
进一步地,所述可信度分析模型的训练步骤包括:
构建图形卷积神经网络;
将可信度分析的训练样本数据输入所述图形卷积神经网络进行训练;所述可信度分析的训练样本数据由word2vec转换为特征向量;所述可信度分析的训练样本数据为带有评论者可信度得分的标识;所述评论者可信度得分由专业性得分、信誉排名得分和人口学特征得分,加权求和获得;
判断训练得到的模型是否满足第三预设条件;
当训练得到的模型满足第三预设条件时,确定所述训练得到的模型为情感分析模型。
进一步地,所述评论有用性得分还通过以下方式获得:由评论属性得分、所述评论情感得分、词频总权重和评论者可信度得分,进行加权求和。
第二方面,本发明实施例提供一种对评论有用性进行判断和筛选的装置,包括:
获取及预处理模块,用于获取多条待判断的评论数据,对所述待判断的评论数据进行预处理;
情感分析模块,用于将每条所述预处理后的评论数据输入情感分析模型,输出评论情感得分;
主题分析模块,用于将每条所述预处理后的评论数据输入主题分析模型,输出词频权重和评论主题排序;
可信度分析模块,用于将每条所述预处理后的评论数据输入可信度分析模型,输出评论者可信度得分;
计算模块,用于根据所述评论情感得分、词频总权重、评论者可信度得分及在所述评论数据中提取的语义特征,进行加权求和,得到评论有用性得分;
筛选模块,用于将所述评论有用性得分与预设阈值相比较,判断和筛选出高效有用评论;
排序模块,用于根据阅读者的网络特征,并结合所述评论主题排序,输出基于阅读者特征的高效有用评论排序结果。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供一种对评论有用性进行判断和筛选的方法,包括:获取多条待判断的评论数据,对待判断的评论数据进行预处理;将每条预处理后的评论数据输入情感分析模型,输出评论情感得分;将每条预处理后的评论数据输入主题分析模型,输出词频总权重和评论主题排序;将每条预处理后的评论数据输入可信度分析模型,输出评论者可信度得分;根据评论情感得分、词频总权重、评论者可信度得分及在评论数据中提取的语义特征,进行加权求和,得到评论有用性得分;将评论有用性得分与预设阈值相比较,判断和筛选出高效有用评论。该方法与传统方法相比,可充分考虑评论内部特征和评论外部特征,进行更深层次的评论语义分析,实现更精确地高效有用评论的判别和筛选。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的对评论有用性进行判断和筛选的方法流程图;
图2为本发明实施例提供的对评论有用性进行判断和筛选的方法原理流程图;
图3为本发明实施例提供的预处理步骤流程图;
图4为本发明实施例提供的对评论有用性进行判断和筛选的装置框图;
图5为本发明实施例提供的评论有用性影响因素示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种对评论有用性进行判断和筛选的方法,能够帮助评论阅读者快速获取有效信息,增强评论的可信度,进而提高评论的有用性,实现对产品评论的分类、筛选和推荐。
参照图1所示,一种对评论有用性进行判断和筛选的方法,其包括如下步骤:
S1、获取多条待判断的评论数据,对待判断的评论数据进行预处理;
S2、将每条预处理后的评论数据输入情感分析模型,输出评论情感得分;
S3、将每条预处理后的评论数据输入主题分析模型,输出词频总权重和评论主题排序;
S4、将每条预处理后的评论数据输入可信度分析模型,输出评论者可信度得分;
S5、根据评论情感得分、词频总权重、评论者可信度得分及在评论数据中提取的语义特征,进行加权求和,得到评论有用性得分;
S6、将评论有用性得分与预设阈值相比较,判断和筛选出高效有用评论;
S7、根据阅读者的网络特征,并结合评论主题排序,输出基于阅读者特征的高效有用评论排序结果。
可选地,上述步骤S2、S3和S4没有执行顺序的差别,可以同时进行,也可以分别进行,本实施例对其不作限定。
在本实施例中,可以分别根据评论内容特征、产品属性特征和评论者网络特征,生成评论属性得分、评论情感得分、词频总权重和评论者可信度得分,得到评论有用性得分,综合筛选出高效有用评论,最后基于阅读者网络特征,输出基于阅读者特征的高效有用评论排序结果。本实施例提供的对评论有用性进行判断和筛选的方法,可充分考虑评论内部特征和评论外部特征(如:产品性能、产品主题类型、评论者专业性和评论者信誉排名等),进行更深层次的评论语义分析,将评论中所包含的情感倾向纳入对评论有用性进行评判的考量范围内,为阅读者对评论的处理和利用提供了一种更高效的获取方式。
下面通过具体实施例描述上述所涉及到的模型的训练、到使用过程,参照图2所示,包括:
步骤1:获取评论语料,借助python网络爬虫技术,爬取大量电商平台上的评论语料。
步骤2:对评论语料进行预处理,删除出现乱码等现象的无效评论,并对有效评论语料进行去停用词、去重操作,再利用自然语言处理工具,包括分词工具、词性标注工具和标点符号标注工具,实现快速对评论语料进行分词、对评论语料内各词进行词性标注(包括形容词、副词、动词等)、对各标点符号进行标注(感叹号、顿号、句号等),得到可用于模型训练的评论文本数据。
其中,上述步骤2中的预处理步骤,参照图3所示,包括:
S11、对评论语料数据进行清洗;
S12、对清洗后的评论语料数据进行分词处理;
S13、对分词后的评论语料数据进行词性标注和标点符号标注。
步骤3:比如对步骤2中的评论文本数据按照比例3:1,划分成训练集和测试集。
步骤4:利用步骤3中得到的训练集训练基于word2vec和领域情感词典的情感分析模型,和测试集用于优化更新网络内部参数,迭代更新后得到最优的情感分析模型。
具体地,上述步骤4中情感分析模型的训练步骤包括:
S21、构建长短时记忆网络;
S22、将情感分析的训练样本数据输入长短时记忆网络进行训练;情感分析的训练样本数据由word2vec转换为特征向量;情感分析的训练样本数据为带有评论情感得分的标识;
S23、判断训练得到的模型是否满足第一预设条件;
S24、当训练得到的模型满足第一预设条件时,确定训练得到的模型为情感分析模型。
其中,步骤S22中,评论情感得分为由词情感极性值和标点符号情感极性值进行加权求和获得。词情感极性值由评论中各个词与领域情感词典进行余弦相似度匹配计算获得。领域情感词典提供领域相关情感词,为计算情感极性值提供必要支持。评论情感得分计算公式为:每条评论的情感得分=各词的情感极性值求和+各标点符号的情感极性值求和。
具体地,word2vec是用来产生词向量的相关模型,其可以根据给定的情感分析训练样本数据,通过优化后的训练模型快速有效地将情感分析训练样本数据表达成向量形式,即,将自然语言文本转换成矢量数据,为后续的模型训练做准备。
步骤5:利用步骤3中得到的训练集训练基于LDA和TD-IDF的主题分析模型,基于TD-IDF计算每条评论含每个主题的概率,步骤3中的测试集用于优化更新网络内部参数,迭代更新后得到最优的主题分析模型。
具体地,上述步骤5中主题分析模型的训练步骤包括:
S31、构建卷积神经网络;
S32、将主题分析的训练样本数据输入所述卷积神经网络进行训练;所述主题分析的训练样本数据由word2vec转换为特征向量;所述主题分析的训练样本数据为带有词频总权重和评论主题排序的标识;
S33、判断训练得到的模型是否满足第二预设条件;
S34、当训练得到的模型满足第二预设条件时,确定训练得到的模型为主题分析模型。
其中,步骤S32中,由LDA统计和提取评论主题信息,并生成评论主题排序和主题权重;由TF-IDF计算词频权重。词频总权重由主题权重和词频权重进行加权求和获得。
LDA用于统计和提取评论中的产品属性主题词,即统计和提取评论内容中隐含的评论主题信息,包括产品属性特征和评论主题语义特征,并对得到的主题词的重要性进行排序,生成评论主题排序和主题权重。由TF-IDF加权技术计算各词词频权重。
具体地,LDA(Latent DirichletAllocation)是一种文档主题生成模型。LDA是一种非监督机器学习技术,可以用来识别主题分析的训练样本数据中潜藏的评论主题信息。每条主题分析的训练样本数据代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多词所构成的一个概率分布。从而利用LDA模型生成评论主题排序和主题权重。
具体地,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估每个主题词对于一个主题分析的训练样本的重要程度,即计算各词词频权重。
进一步地,由于各个主题词的词频和重要性并不存在相关性,例如:对于网购衣服的评论数据,主题词“美味”和衣服的产品属性主题词相差较大,即便该主题词在评论中词频较高,但对评论有用性的贡献并不大。从而,词频总权重的计算除去考虑各词词频权重,还需考虑到各词重要性权重,即主题权重。可选地,词频总权重计算公式为:词频总权重=词频权重+主题权重。
步骤6:利用步骤3中得到的训练集训练基于GCN的可信度分析模型,和测试集用于优化更新网络内部参数,迭代更新后得到最优的可信度分析模型。
具体地,上述步骤6中可信度分析模型的训练步骤包括:
S41、构建图形卷积神经网络;
S42、将可信度分析的训练样本数据输入所述图形卷积神经网络进行训练;所述可信度分析的训练样本数据由word2vec转换为特征向量;所述可信度分析的训练样本数据带有评论者可信度得分的标识;
S43、判断训练得到的模型是否满足第三预设条件;
S44、当训练得到的模型满足第三预设条件时,确定训练得到的模型为情感分析模型。
其中,步骤S42中,评论者可信度得分由专业性得分、信誉排名得分和人口学特征得分加权求和获得。首先,需提取评论者的网络特征;网络特征包括:专业性、信誉排名和人口学特征;其次,生成专业性得分、信誉排名得分和人口学特征得分;最后,将三者加权求和,输出评论者可信度得分。
评论者的网络特征在一定程度上影响了评论的有用性,例如:评论者的专业性、信誉排名和个人偏好等,因此有必要将评论者的网络特征纳为评价评论有用性的一个重要指标。
具体地,人口学特征包括:年龄、性别、文化、职业、收入、生活环境等。可选地,评论者可信度得分计算公式为:评论者可信度得分=专业性得分+信誉排名得分+人口学特征得分。
可选地,上述情感分析模型基于长短时记忆网络和注意力机制构建;主题分析模型基于LDA融合词频的TF-IDF特征构建;可信度分析模型基于图形卷积神经网络构建(GCN,Graph ConvolutionNetwork)。
可选地,上述第一预设条件、第二预设条件和第三预设条件可以相同,比如均为90%;也可以不同,可以根据具体情况设定不同的阈值;本实施例对其不作限定。
步骤7:除了步骤4、步骤5和步骤6中得到的评论情感得分、词频总权重和评论者可信度得分外,还可以考虑评论属性特征,例如:评论有效长度、评论发表时间和评论投票数等。最终对评论有用性进行打分,其计算公式为:评论有用性得分=评论属性得分+评论情感得分+评论者可信度得分+词总数*词频总权重。为每条评论计算得到一个评论有用性得分,对于评论有用性的强弱判断来说,其分值越高,有用性越强。
步骤8:基于步骤7中已获得的评论有用性得分,首先设定一个用于判断高效有用评论的阈值。若评论的有用性得分分值大于上述预设阈值,则说明该条评论是高效有用评论,且具有高效有用性推荐价值;若评论的有用性得分分值小于或者等于预设阈值,该条评论是低效有用评论,且具有低效有用性推荐价值。
步骤9:对于待判断和筛选的评论数据,分别输入上述各个模型得出相应的结果,并基于步骤5中统计分析得到的评论主题排序结果和步骤8中筛选得到的高效有用评论,再根据输入的评论阅读者网络特征,例如:阅读者个人偏好和人口学特征等,最终输出得到基于阅读者特征的高效有用评论排序结果,用于更高效的有用性评论的用户推荐工作,供阅读者对评论进行处理及利用。
基于同一发明构思,本发明实施例还提供了一种对评论有用性进行判断和筛选的装置,由于该装置所解决问题的原理与前述一种对评论有用性进行判断和筛选的方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
一种对评论有用性进行判断和筛选的装置,参照图4所示,包括:
获取及预处理模块31,用于获取多条待判断的评论数据,对所述待判断的评论数据进行预处理;
情感分析模块32,用于将每条所述预处理后的评论数据输入情感分析模型,输出评论情感得分;
主题分析模块33,用于将每条所述预处理后的评论数据输入主题分析模型,输出词频权重和评论主题排序;
可信度分析模块34,用于将每条所述预处理后的评论数据输入可信度分析模型,输出评论者可信度得分;
计算模块35,用于根据所述评论情感得分、词频总权重、评论者可信度得分及在所述评论数据中提取的语义特征,进行加权求和,得到评论有用性得分;
筛选模块36,用于将所述评论有用性得分与预设阈值相比较,判断和筛选出高效有用评论;
排序模块37,用于根据阅读者的网络特征,并结合所述评论主题排序,输出基于阅读者特征的高效有用评论排序结果。
本实施例提供的一种对评论有用性进行判断和筛选的方法与装置,在现有评论有用性的预测方法之上,做出了创造性改进。参照图5所示,不仅考虑了评论属性和评论内容、词频权重和情感值,即:评论内容特征,还充分考虑了产品的属性特征、评论者的网络特征和阅读者网络特征,进行了更深层次的评论语义分析,改进了词频权重和评论情感值的计算方式,输出了在基于阅读者网络特征的前提下的高效有用评论排序结果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种对评论有用性进行判断和筛选的方法,其特征在于,包括:
获取多条待判断的评论数据,对所述待判断的评论数据进行预处理;
将每条所述预处理后的评论数据输入情感分析模型,输出评论情感得分;
将每条所述预处理后的评论数据输入主题分析模型,输出词频总权重和评论主题排序;
将每条所述预处理后的评论数据输入可信度分析模型,输出评论者可信度得分;
根据所述评论情感得分、词频总权重、评论者可信度得分及在所述评论数据中提取的语义特征,进行加权求和,得到评论有用性得分;
将所述评论有用性得分与预设阈值相比较,判断和筛选出高效有用评论。
2.如权利要求1所述的一种对评论有用性进行判断和筛选的方法,其特征在于,还包括:
根据阅读者的网络特征,并结合所述评论主题排序,输出基于阅读者特征的高效有用评论排序结果。
3.如权利要求1所述的一种对评论有用性进行判断和筛选的方法,其特征在于,对待判断的评论数据进行预处理,包括:
对所述待判断的评论数据进行清洗;
对清洗后的所述评论数据进行分词处理;
对分词后的所述评论数据进行词性标注和标点符号标注。
4.如权利要求1所述的一种对评论有用性进行判断和筛选的方法,其特征在于,所述情感分析模型的训练步骤包括:
构建长短时记忆网络;
将情感分析的训练样本数据输入所述长短时记忆网络进行训练;所述情感分析的训练样本数据由word2vec转换为特征向量;所述情感分析的训练样本数据为带有评论情感得分的标识;所述评论情感得分由词情感极性值和标点符号情感极性值,加权求和获得;所述词情感极性值由评论中各个词与领域情感词典进行余弦相似度匹配计算获得;
判断训练得到的模型是否满足第一预设条件;
当训练得到的模型满足第一预设条件时,确定所述训练得到的模型为情感分析模型。
5.如权利要求1所述的一种对评论有用性进行判断和筛选的方法,其特征在于,所述主题分析模型的训练步骤包括:
构建卷积神经网络;
将主题分析的训练样本数据输入所述卷积神经网络进行训练;所述主题分析的训练样本数据由word2vec转换为特征向量;所述主题分析的训练样本数据为带有词频总权重和评论主题排序的标识;其中,所述词频总权重由主题权重和词频权重进行加权求和获得;所述词频权重由TF-IDF计算获得;所述主题权重和所述评论主题排序,由LDA统计和提取;
判断训练得到的模型是否满足第二预设条件;
当训练得到的模型满足第二预设条件时,确定所述训练得到的模型为主题分析模型。
6.如权利要求1所述的一种对评论有用性进行判断和筛选的方法,其特征在于,所述可信度分析模型的训练步骤包括:
构建图形卷积神经网络;
将可信度分析的训练样本数据输入所述图形卷积神经网络进行训练;所述可信度分析的训练样本数据由word2vec转换为特征向量;所述可信度分析的训练样本数据为带有评论者可信度得分的标识;所述评论者可信度得分由专业性得分、信誉排名得分和人口学特征得分,加权求和获得;
判断训练得到的模型是否满足第三预设条件;
当训练得到的模型满足第三预设条件时,确定所述训练得到的模型为情感分析模型。
7.如权利要求1所述的一种对评论有用性进行判断和筛选的方法,其特征在于,所述评论有用性得分还通过以下方式获得:由评论属性得分、所述评论情感得分、词频总权重和评论者可信度得分,进行加权求和。
8.一种对评论有用性进行判断和筛选的装置,其特征在于,包括:
获取及预处理模块,用于获取多条待判断的评论数据,对所述待判断的评论数据进行预处理;
情感分析模块,用于将每条所述预处理后的评论数据输入情感分析模型,输出评论情感得分;
主题分析模块,用于将每条所述预处理后的评论数据输入主题分析模型,输出词频权重和评论主题排序;
可信度分析模块,用于将每条所述预处理后的评论数据输入可信度分析模型,输出评论者可信度得分;
计算模块,用于根据所述评论情感得分、词频总权重、评论者可信度得分及在所述评论数据中提取的语义特征,进行加权求和,得到评论有用性得分;
筛选模块,用于将所述评论有用性得分与预设阈值相比较,判断和筛选出高效有用评论;
排序模块,用于根据阅读者的网络特征,并结合所述评论主题排序,输出基于阅读者特征的高效有用评论排序结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110496262.1A CN113282704A (zh) | 2021-05-07 | 2021-05-07 | 一种对评论有用性进行判断和筛选的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110496262.1A CN113282704A (zh) | 2021-05-07 | 2021-05-07 | 一种对评论有用性进行判断和筛选的方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113282704A true CN113282704A (zh) | 2021-08-20 |
Family
ID=77278135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110496262.1A Pending CN113282704A (zh) | 2021-05-07 | 2021-05-07 | 一种对评论有用性进行判断和筛选的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282704A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429109A (zh) * | 2022-04-06 | 2022-05-03 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于评论有用性的自动用户评论摘要的方法 |
CN114580981A (zh) * | 2022-05-07 | 2022-06-03 | 广汽埃安新能源汽车有限公司 | 以用户需求驱动的项目调度方法、装置及电子设备 |
CN115081435A (zh) * | 2022-06-27 | 2022-09-20 | 上海海事大学 | 一种基于用户评论的交通出行软件创新机会识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090319342A1 (en) * | 2008-06-19 | 2009-12-24 | Wize, Inc. | System and method for aggregating and summarizing product/topic sentiment |
CN105868178A (zh) * | 2016-03-28 | 2016-08-17 | 浙江大学 | 一种基于短语主题建模的多文档自动摘要生成方法 |
CN108269125A (zh) * | 2018-01-15 | 2018-07-10 | 口碑(上海)信息技术有限公司 | 评论信息质量评估方法及系统、评论信息处理方法及系统 |
CN108550065A (zh) * | 2018-04-10 | 2018-09-18 | 百度在线网络技术(北京)有限公司 | 评论数据处理方法、装置及设备 |
CN110532379A (zh) * | 2019-07-08 | 2019-12-03 | 广东工业大学 | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 |
CN111861546A (zh) * | 2020-06-28 | 2020-10-30 | 浪潮(北京)电子信息产业有限公司 | 一种评论质量的判断方法、装置、设备及存储介质 |
CN111914086A (zh) * | 2020-07-07 | 2020-11-10 | 广西科技大学 | 一种基于lstm神经网络的手机评论分析方法及系统 |
AU2020103523A4 (en) * | 2020-11-18 | 2021-01-28 | Zhejiang University Of Technology | Evaluation Method of Online Consumer Review Quality |
-
2021
- 2021-05-07 CN CN202110496262.1A patent/CN113282704A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090319342A1 (en) * | 2008-06-19 | 2009-12-24 | Wize, Inc. | System and method for aggregating and summarizing product/topic sentiment |
CN105868178A (zh) * | 2016-03-28 | 2016-08-17 | 浙江大学 | 一种基于短语主题建模的多文档自动摘要生成方法 |
CN108269125A (zh) * | 2018-01-15 | 2018-07-10 | 口碑(上海)信息技术有限公司 | 评论信息质量评估方法及系统、评论信息处理方法及系统 |
CN108550065A (zh) * | 2018-04-10 | 2018-09-18 | 百度在线网络技术(北京)有限公司 | 评论数据处理方法、装置及设备 |
CN110532379A (zh) * | 2019-07-08 | 2019-12-03 | 广东工业大学 | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 |
CN111861546A (zh) * | 2020-06-28 | 2020-10-30 | 浪潮(北京)电子信息产业有限公司 | 一种评论质量的判断方法、装置、设备及存储介质 |
CN111914086A (zh) * | 2020-07-07 | 2020-11-10 | 广西科技大学 | 一种基于lstm神经网络的手机评论分析方法及系统 |
AU2020103523A4 (en) * | 2020-11-18 | 2021-01-28 | Zhejiang University Of Technology | Evaluation Method of Online Consumer Review Quality |
Non-Patent Citations (5)
Title |
---|
刘啸剑等: "结合主题分布与统计特征的关键词抽取方法", 《计算机工程》 * |
李志宇: "在线商品评论效用排序模型研究", 《现代图书情报技术》 * |
李舒嫒等: "基于网站层次结构和主题模型 LDA 的网站自动摘要", 《计算机工程》 * |
汤凌燕: "基于深度学习的短文本情感倾向分析综述", 《计算机科学与探索》 * |
王乐乐: "在线评论有用性的影响因素探究——基于TripAdvisor的酒店评论数据", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429109A (zh) * | 2022-04-06 | 2022-05-03 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于评论有用性的自动用户评论摘要的方法 |
CN114429109B (zh) * | 2022-04-06 | 2022-07-19 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于评论有用性的用户评论摘要的方法 |
CN114580981A (zh) * | 2022-05-07 | 2022-06-03 | 广汽埃安新能源汽车有限公司 | 以用户需求驱动的项目调度方法、装置及电子设备 |
CN114580981B (zh) * | 2022-05-07 | 2022-08-02 | 广汽埃安新能源汽车有限公司 | 以用户需求驱动的项目调度方法、装置及电子设备 |
CN115081435A (zh) * | 2022-06-27 | 2022-09-20 | 上海海事大学 | 一种基于用户评论的交通出行软件创新机会识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
Bhuvaneshwari et al. | Spam review detection using self attention based CNN and bi-directional LSTM | |
CN113282704A (zh) | 一种对评论有用性进行判断和筛选的方法与装置 | |
Tyagi et al. | Sentiment analysis using logistic regression and effective word score heuristic | |
CN112991017A (zh) | 基于用户评论解析的标签体系精准推荐方法 | |
CN111353044B (zh) | 一种基于评论的情感分析方法及系统 | |
Liu et al. | Riding the tide of sentiment change: sentiment analysis with evolving online reviews | |
CN112861541A (zh) | 一种基于多特征融合的商品评论情感分析方法 | |
CN111339439A (zh) | 一种融合评论文本与时序效应的协同过滤推荐方法和装置 | |
CN110706028A (zh) | 基于属性特征的商品评价情感分析系统 | |
CN111639258A (zh) | 一种基于神经网络的新闻推荐方法 | |
Lofi et al. | Design patterns for hybrid algorithmic-crowdsourcing workflows | |
Zeng et al. | User review helpfulness assessment based on sentiment analysis | |
CN110633410A (zh) | 信息处理方法及装置、存储介质、电子装置 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN115659961A (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 | |
Gudakahriz et al. | An experimental study on performance of text representation models for sentiment analysis | |
CN112417858A (zh) | 一种实体权重评分方法、系统、电子设备及存储介质 | |
Ben et al. | Detecting sentiment polarities with comparative analysis of machine learning and deep learning algorithms | |
CN111967251A (zh) | 客户声音智慧洞察系统 | |
CN111695334A (zh) | 一种文本相关性识别模型的训练方法及装置 | |
CN117540747B (zh) | 一种基于人工智能的图书出版智慧选题系统 | |
Roshchina et al. | Evaluating the similarity estimator component of the TWIN personality-based recommender system | |
Cubukcu-Cerasi et al. | Embracing Green Choices: Sentiment Analysis of Sustainable Consumption | |
Dahale | A natural language processing approach for musical instruments recommendation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210820 |