CN111488456A - 一种商家用户评价分析方法及系统 - Google Patents
一种商家用户评价分析方法及系统 Download PDFInfo
- Publication number
- CN111488456A CN111488456A CN202010279236.9A CN202010279236A CN111488456A CN 111488456 A CN111488456 A CN 111488456A CN 202010279236 A CN202010279236 A CN 202010279236A CN 111488456 A CN111488456 A CN 111488456A
- Authority
- CN
- China
- Prior art keywords
- merchant user
- corpus
- emotion
- user evaluation
- analysis result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种商家用户评价分析方法及系统,用以解决现有技术中分析结果误差较大,精度较低的问题。本发明提供的商家用户评价分析方法包括:采集商家用户评价语料;对所述商家用户评价语料进行预处理;基于双向编码表示BERT模型和神经网络模型对所述预处理后的商家用户评价语料进行情感倾向分析,得到第一分析结果;基于商家用户评价词库对预处理后的商家用户评价语料进行情感倾向分析,得到第二分析结果;将所述第一分析结果和所述第二分析结果进行组合分析,得到最终的情感倾向分析结果。相应的,本发明还提供了一种商家用户评价分析系统。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种商家用户评价分析方法。
背景技术
目前,越来越多商家通过大数据分析处理技术,分析其用户评价语料所表达的情感,以完善商家提供的服务或商品。现有技术利用半监督学习的方法进行用户评价情感分析,或者建立上下文-情感词向量的文本处理方法进行情感分类,分析结果误差较大,精度较低。
发明内容
本发明实施例提供了一种商家用户评价分析方法及系统,利用基于BERT模型和神经网络模型进行情感倾向的分析,并结合商家用户评价词库进行情感倾向的分析,并将结果进行组合处理,从而提高用户评价语料分析的合理性和精确度。
为解决上述技术问题,本发明的实施例提供如下技术方案:
一种商家用户评价分析方法,包括:
对所述商家用户评价语料进行预处理,所述预处理包括语料清洗、语料划分单句和句子分词;
基于BERT模型和神经网络模型对所述预处理后的商家用户评价语料进行情感倾向分析,得到第一分析结果;
基于商家用户评价词库对预处理后的商家用户评价语料进行情感倾向分析,得到第二分析结果;
将所述第一分析结果和所述第二分析结果进行组合分析,得到最终的情感倾向分析结果。
优选的,采集商家用户评价语料的方法可以包括至少以下之一:
通过爬虫程序采集所述商家用户评价语料;
通过API接口从用户评价平台上获取所述商家用户评价语料;
商家用户直接上传所述商家用户评价语料;
通过文件导入所述商家用户评价语料。
优选的,所述基于双向编码表示BERT模型和神经网络模型对所述预处理后的商家用户评价语料进行情感倾向分析,具体包括:
对预处理后的所述商家用户评价预料处理形成句子单词向量矩阵;
利用所述BERT模型抽取出涵盖商家用户评价语料内句子单词向量矩阵的语义信息特征;
利用卷积神经网络处理所述语义信息特征,抽取出商家用户评价语料内句子的关键局部特征;
将关键局部特征进行二值分类,若所述关键局部特征输出积极正向的情感评定,输出情感判定值为1;若输出消极负向的情感判定,输出情感判定值为-1。
进一步的,作为一种优选方案,在利用所述卷积神经网络处理所述语义信息特征之前,还包括:
基于所述句子单词向量矩阵建立句子单词向量矩阵训练集;
利用所述BERT模型抽取出涵盖所述句子单词向量矩阵训练集的语义信息特征;
对所述句子单词向量矩阵训练集的语义信息特征进行降维处理,抽取出所述句子单词向量矩阵训练集的关键局部特征;
将所述句子单词向量矩阵训练集的关键局部特征进行二值分类;
计算分类误差,根据所述分类误差修正神经网络模型。
进一步的,所述计算分类误差具体包括:
将所述商家用户评价语料内句子单词向量矩阵训练集进行人工标注;
将所述人工标注的结果与所述句子单词向量矩阵训练集的关键局部特征进行二值分类结果进行比较,确定分类误差。
优选的,基于商家用户评价词库对预处理后的商家用户评价语料进行情感倾向分析,具体包括:
将商家用户评价词库导入情感分析器;
情感分析器将预处理后的所述商家用户评价语料产生的各个词语与所述商家用户评价词库进行对比,将所述商家用户评价语料中在所述商家用户评价词库内不存在的词去除;
计算每条语料内每个单句中每个词语的情感判定值;
对每条商家用户评价语料中每个单句计算单句的情感判定值。
进一步的,上述计算每条语料内每个单句中每个词语的情感判定值,具体包括:正向情感词的情感判定值为100,负向情感词的情感判定值为-100,中性词汇的情感判定值为0,转折词的情感判定值为-1.2,否定词的情感判定值为-1。
进一步的,对每条商家用户评价语料中每个单句计算单句的情感判定值,由下列公式确定:
Q2=Q否定*Q转折*(Q正向+Q负向+Q中性)
其中,Q2为单句的情感判定值,Q_否定为单句中否定词的情感判定值,Q_转折为单句中转折词的情感判定值,Q_正向为单句中正向情感词的情感判定值,Q_负向为单句中负向情感词的情感判定值,Q_中性为单句中中性词的情感判定值;
当所述Q2非负数时,所述商家用户评价语料计算情感判定值为1;当所述Q为负数时,所述商家用户评价语料计算情感判定值为-1。
优选的,所述将所述第一分析结果和所述第二分析结果进行组合分析,得到最终的情感倾向分析结果,具体包括:
导入所述第一分析结果和所述第二分析结果;
根据所述第一分析结果的权重系数和所述第二分析结果的权重系数,计算最终的情感倾向分析结果;
最终的情感倾向分析结果由下列公式确定:
FQ=α*FQ1+(1-α)*FQ2
其中,FQ为最终的情感倾向分析结果,FQ1为所述第一分析结果,FQ2为所述第二分析结果,α为所述第一分析结果的权重系数。
进一步的,第一分析结果的权重系数α由以下公式确定:
α=σ2/(σ1+σ2)
其中,σ1为BERT模型和神经网络模型的第一分析误差,σ2为商家用户评价词库的第二分析误差。
进一步的,分析误差的确定方法包括:
选择预定数量的用户评价语料作为误差判定集合;
专业人员对所述误差判定集合的分析得到参考判定结果;
将所述误差判定集合通过BERT模型和神经网络模型的情感倾向分析得到第三分析结果;
将所述误差判定集合通过商家用户评价词库进行情感倾向分析得到第四分析结果;
所述第一分析误差为第三分析结果与所述参考判定结果之间的差;
所述第二分析误差为第四分析结果与所述参考判定结果之间的差。
通过上述方法,利用基于BERT模型和神经网络模型进行情感倾向的分析,并结合商家用户评价词库进行情感倾向的分析,并将结果进行组合处理,从而提高用户评价语料分析的合理性和精确度。
相应的,本发明还提供了一种商家用户评价分析系统,包括:
商家用户评价采集模块,用于采集商家用户评价语料;
双向编码表示BERT模型和卷积神经网络模块,用于对商家用户评价语料进行情感倾向分析;
商家用户评价词库,用于对商家用户评价语料进行情感倾向分析;
情感分类器,用于对商家用户评价语料进行情感二值分类;
组合分析模块,用于根据所述BERT模型和卷积神经网络模块的分析得到的第一分析结果和所述根据商家用户评价词库的分析得到的第二分析结果,确定最终的情感倾向分析结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种商家用户评价分析方法的流程示意图;
图2为本发明提供的利用基于BERT模型和神经网络模型进行情感倾向的分析方法的示意图;
图3为本发明提供的卷积神经网络训练流程示意图;
图4为本发明提供的根据商家用户评价词库对商家评价语料进行分析的流程示意图;
图5为本发明提供的组合分析示意图;
图6为本发明提供的一种商家用户评价系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中,对商家用户评价的分析结果误差较大,精度较低的问题,本发明提供了一种商家用户评价分析方法。
实施例一
如图1所示,本发明提供的一种商家用户评价分析方法的流程示意图。
S101、采集商家用户评价语料;
在对商家用户评价语料进行分析之前,需要将用户的评价收集起来,形成评价系统可以识别或者读取的内容或者文件。每个商家可能在不同的平台有用户及用户的评价,需要从各个平台采集。作为一种优选示例,采集的方法可以为以下方式之一,也可以同时采用多种方式:
1)通过爬虫程序、通过API接口或其他算法技术在各用户评价平台上自动获取语料。该方式语料生成速度较快,效率较高,能快速实现大量的用户评价语料的采集;
2)用户直接主动上传评价语料。用户主动上传评价到指定的地址,该方式生成速度较快;
3)处理用户评价语料的相关专业人员整理批量的结构化的用户语料,然后直接导入语料评价系统。
S102、对所述商家用户评价语料进行预处理。由于原始的评价语料可能存在格式,标点等错误,需要进行预处理。预处理过程包括语料清洗,语料划分单句和句子分词等处理过程。
S103、基于BERT模型和神经网络模型对所述预处理后的商家用户评价语料进行情感倾向分析,得到第一分析结果。
BERT模型即Bidirectional Encoder Representation from Transformers,简称BERT模型,用于对商家评价语料进行分析。神经网络模型用于对评价的结果进行修正处理。需要说明的是,本步骤处理完成后得到的第一分析结果为情感判定值,积极正向的情感评定,输出情感判定值为1,或者输出消极负向的情感判定,输出情感判定值为-1。
为了进一步清楚的描述本步骤的处理,本步骤的分析可包括如下步骤:
S103-1:对预处理后的所述商家用户评价预料处理形成句子单词向量矩阵;
S103-2:利用所述BERT模型抽取出涵盖商家用户评价语料内句子单词向量矩阵的语义信息特征;
S103-3:利用卷积神经网络处理所述语义信息特征,抽取出商家用户评价语料内句子的关键局部特征;
S103-4:将关键局部特征进行二值分类,若所述关键局部特征输出积极正向的情感评定,输出情感判定值为1;若输出消极负向的情感判定,输出情感判定值为-1。
进一步的,作为一种优选的示例,为了提高处理的准确度,在进行上述步骤之前,需要对卷积神经网络进行训练。该训练过程可包括如下步骤:
步骤A:基于所述句子单词向量矩阵建立句子单词向量矩阵训练集,即将经过预处理后的商家用户评价语料处理成可被BERT模型读取的句子单词向量矩阵,利用其中的部分句子单词向量矩阵建立句子单词向量矩阵训练集;
需要说明的是,选取哪些向量矩阵组成所述训练集,可根据需进行调整,可以随机采样N个;可以先根据评价的时间将评价语料划分为M组,然后从每一组中随机抽取L个,组成包含M*L个语料的训练集;可以根据商品的种类划分评价语料,每个商品抽取L1个语料组成训练集。具体的方法本实施例不做限定。
步骤B:利用所述BERT模型抽取出涵盖所述句子单词向量矩阵训练集的语义信息特征。
步骤C:对所述句子单词向量矩阵训练集的语义信息特征进行降维处理,抽取出所述句子单词向量矩阵训练集的关键局部特征。
在通过BERT模型抽取出商家用户评价语料内句子单词向量矩阵训练集的语义信息特征后输入到设定的卷积神经网络中,对商家用户评价语料内句子中大量的语义信息特征进行降维处理,进一步抽取出商家用户评价语料内句子的关键局部特征。
步骤D:将所述句子单词向量矩阵训练集的关键局部特征进行二值分类。将卷积神经网络处理的商家用户评价语料内句子单词向量矩阵训练集的关键局部特征输入情感二值分类器,该情感二值分类器为一种神经网络模型,该神经网络模型将对处理的语料的关键局部特征进行情感判定。作为一种优选示例,规则可以为:积极正向的情感评定,输出情感判定值为1;消极负向的情感判定,输出情感判定值为-1。
需要说明的是,具体的判定值,可根据需要进行调整,本实施例不做限定。
步骤E:计算分类误差,根据所述分类误差修正神经网络模型。
商家用户评价语料内句子单词向量矩阵训练集将通过专业人员进行专业科学的标注,通过对比商家用户评价语料内句子单词向量矩阵训练集的情感二值分类器的结果与专业人员标注的结果进行对比获得误差值,将误差值反向传递给神经网络模型进行模型的优化,从而得到性能良好的,鲁棒性好的神经网络模型。
S104、基于商家用户评价词库对预处理后的商家用户评价语料进行情感倾向分析,得到第二分析结果。对经过预处理后的商家用户评价语料利用商家用户评价词库进行情感倾向的分析,其中商家用户评价词库是收集大量的针对商家用户评价的词语进行情感评判而建立的商家用户评价词库,商家用户评价词库包括商家用户评价语料清洗和分词之后分出的积极正向情感词、消极负向情感词、中性词汇,转折词、否定词等。
作为一种优选实施例,为进一步描述第二分析结果的处理过程,下面给出一种优选的步骤:
S104-1:将商家用户评价词库导入情感分析器;
S104-2:情感分析器将预处理后的所述商家用户评价语料产生的各个词语与所述商家用户评价词库进行对比,将所述商家用户评价语料中在所述商家用户评价词库内不存在的词去除。
情感分析器将预处理后的商家用户评价语料产生的各个词语与商家用户评价词库进行对比,将商家用户评价语料中在商家用户评价词库内不存在的词去除掉,对在商家用户评价词库内存在的语料计算每条语料内每个单句中每个词语的情感判定值。
S104-3:计算每条语料内每个单句中每个词语的情感判定值。作为一种优选示例,每个词的情感判定值规则可以为:积极正向情感词的情感判定值为100,消极负向情感词的情感判定值为-100,中性词汇的情感判定值为0,转折词的情感判定值为-1.2,否定词的情感判定值为-1。在实施本实施例方法时,也可以设定其他判定值,本实施例不做限定。
S104-3:对每条商家用户评价语料中每个单句计算单句的情感判定值。
每个单句的情感判定值,需要考虑单句中单词的情感判定值。优选的,单句包括多种单词的时,可根据如下公式确定单句的情感判定值:
Q2=Q否定*Q转折*(Q正向+Q负向+Q中性)
其中,Q2为单句的情感判定值,Q_否定为单句中否定词的情感判定值,Q_转折为单句中转折词的情感判定值,Q_正向为单句中正向情感词的情感判定值,Q_负向为单句中负向情感词的情感判定值,Q_中性为单句中中性词的情感判定值;
优选的,在计算完成每个单句的情感判定值的基础上,再计算每条商家用户评价语料的情感判定值。每条商家用户评价语料计算情感判定值将会根据每条商家用户评价语料内的所有单句的情感判定值求和后的总值来判定。当总值为非负数时,商家用户评价语料计算情感判定值为1,认为此条商家用户评价语料为积极正向的情感评定;当总值为负数时,商家用户评价语料计算情感判定值为-1,认为此条商家用户评价语料为消极负向的情感评定。
S105,将所述第一分析结果和所述第二分析结果进行组合分析,得到最终的情感倾向分析结果。
在本步骤中,利用组合分析方法处理利用BERT模型和神经网络模型进行情感倾向的分析的结果(即第一分析结果)和利用商家用户评价词库进行情感倾向的分析的结果(即第二分析结果),获得语料最终的情感分析结果。
作为一种优选示例,本步骤的组合分析,可包括以下步骤:
S105-1:导入所述第一分析结果和所述第二分析结果;
S105-2:根据所述第一分析结果的权重系数和所述第二分析结果的权重系数,计算最终的情感倾向分析结果。
作为一种优选实施例,最终的情感倾向分析结果,由下列公式确定:
FQ=α*FQ1+(1-α)*FQ2
其中,FQ为最终的情感倾向分析结果,FQ1为所述第一分析结果,FQ2为所述第二分析结果,α为所述第一分析结果的权重系数。
进一步的,作为一种优选示例,权重系数α最初设定为0.5。然后根据误差值进行修正权重系数。
进一步的,作为一种优选示例,定义σ1为BERT模型和神经网络模型的第一分析误差,σ2为商家用户评价词库的第二分析误差,修正权重系数α的步骤可包括:
步骤AA:选择预定数量的用户评价语料作为误差判定集合;
步骤BB:专业人员对所述误差判定集合的分析得到参考判定结果;
步骤CC:将所述误差判定集合通过BERT模型和神经网络模型的情感倾向分析得到第三分析结果;
步骤DD:将所述误差判定集合通过商家用户评价词库进行情感倾向分析得到第四分析结果;
步骤EE:所述第一分析误差为第三分析结果与所述参考判定结果之间的差,所述第二分析误差为第四分析结果与所述参考判定结果之间的差。
步骤FF:第一分析结果的权重系数α由以下公式确定:
α=σ2/(σ1+σ2)
其中,σ1为BERT模型和神经网络模型的第一分析误差,σ2为商家用户评价词库的第二分析误差。
经过上述步骤,本实施例提供的商家用户评价方法,能够建立针对商家用户评价语料的进行高效精确的情感分析结果并展示情感分析的结果。可选的,本实施例还可以包括展示出组合分析的用户评价所表达的情感倾向的步骤。
实施例二
与实施例一对应,本发明还提供了一种商家用户评价系统,如图6所示,包括:
商家用户评价采集模块601,用于采集商家用户评价语料;
双向编码表示BERT模型和卷积神经网络模块602,用于对商家用户评价语料进行情感倾向分析;
商家用户评价词库603,用于对商家用户评价语料进行情感倾向分析;
情感分类器604,用于对商家用户评价语料进行情感二值分类;
组合分析模块605,用于根据所述BERT模型和卷积神经网络模块的分析得到的第一分析结果和所述根据商家用户评价词库的分析得到的第二分析结果,确定最终的情感倾向分析结果。
其中,所述商家用户评价采集模块601和所述商家用户评价词库603均可以使用情感分类器604,实现分析对象的情感二值分类。
进一步的,所述商家用户评价采集模块601具体用于通过以下方式之一采集商家用户评价语料:
通过爬虫程序采集所述商家用户评价语料;
通过API接口从用户评价平台上获取所述商家用户评价语料;
商家用户直接上传所述商家用户评价语料;
通过文件导入所述商家用户评价语料。
进一步的,所述BERT模型和卷积神经网络模块602具体用于:
对预处理后的所述商家用户评价预料处理形成句子单词向量矩阵;
利用所述BERT模型抽取出涵盖商家用户评价语料内句子单词向量矩阵的语义信息特征;
利用卷积神经网络处理所述语义信息特征,抽取出商家用户评价语料内句子的关键局部特征;
将关键局部特征进行二值分类,若所述关键局部特征输出积极正向的情感评定,输出情感判定值为1;若输出消极负向的情感判定,输出情感判定值为-1。
作为一种优选示例,所述BERT模型和卷积神经网络模块602在利用所述卷积神经网络处理所述语义信息特征之前,还包括:
基于所述句子单词向量矩阵建立句子单词向量矩阵训练集;
利用所述BERT模型抽取出涵盖所述句子单词向量矩阵训练集的语义信息特征;
对所述句子单词向量矩阵训练集的语义信息特征进行降维处理,抽取出所述句子单词向量矩阵训练集的关键局部特征;
将所述句子单词向量矩阵训练集的关键局部特征进行二值分类;
计算分类误差,根据所述分类误差修正神经网络模型。
相应的,作为一种优选示例,本实施例的所述BERT模型和卷积神经网络模块602计算上述分类误差包括:
将所述商家用户评价语料内句子单词向量矩阵训练集进行人工标注;
将所述人工标注的结果与所述句子单词向量矩阵训练集的关键局部特征进行二值分类结果进行比较,确定分类误差。
进一步的,本实施例提供的商家用户评价词库603还用于:
将经过预处理的商家用户评价词库导入情感分析器;
情感分析器将预处理后的所述商家用户评价语料产生的各个词语与所述商家用户评价词库进行对比,将所述商家用户评价语料中在所述商家用户评价词库内不存在的词去除;
计算每条语料内每个单句中每个词语的情感判定值;
对每条商家用户评价语料中每个单句计算单句的情感判定值。
作为一种优选示例,上述商家用户评价词库603还用于依据下列公式计算每条商家用户评价语料中每个单句计算单句的情感判定值:
Q2=Q否定*Q转折*(Q正向+Q负向+Q中性)
其中,Q2为单句的情感判定值,Q_否定为单句中否定词的情感判定值,Q_转折为单句中转折词的情感判定值,Q_正向为单句中正向情感词的情感判定值,Q_负向为单句中负向情感词的情感判定值,Q_中性为单句中中性词的情感判定值;
当所述Q2非负数时,所述商家用户评价语料计算情感判定值为1;当所述Q为负数时,所述商家用户评价语料计算情感判定值为-1。
进一步的,本实施例提供的组合分析模块605还用于:
导入所述第一分析结果和所述第二分析结果;
根据所述第一分析结果的权重系数和所述第二分析结果的权重系数,计算最终的情感倾向分析结果;
最终的情感倾向分析结果由下列公式确定:
FQ=α*FQ1+(1-α)*FQ2
其中,FQ为最终的情感倾向分析结果,FQ1为所述第一分析结果,FQ2为所述第二分析结果,α为所述第一分析结果的权重系数。
相应的,所述第一分析结果的权重系数α由以下公式确定:
α=σ2/(σ1+σ2)
其中,σ1为BERT模型和神经网络模型的第一分析误差,σ2为商家用户评价词库的第二分析误差。
另外,作为一种优选示例,本实施例提供的商家用户评价分析系统,还可以包括情感倾向展示模块,用于展示出组合分析的用户评价所表达的情感倾向。
需要说明的是,本实施例提供的商家用户评价分析系统,与上述商家用户评价方法,属于一个发明构思,能解决相同的技术问题,实现相同的技术效果,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元或模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口。
本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种商家用户评价分析方法,其特征在于,包括:
采集商家用户评价语料;
对所述商家用户评价语料进行预处理,所述预处理包括语料清洗、语料划分单句和句子分词;
基于BERT模型和神经网络模型对所述预处理后的商家用户评价语料进行情感倾向分析,得到第一分析结果;
基于商家用户评价词库对预处理后的商家用户评价语料进行情感倾向分析,得到第二分析结果;
将所述第一分析结果和所述第二分析结果进行组合分析,得到最终的情感倾向分析结果;
所述采集商家用户评价语料具体包括至少以下之一:
通过爬虫程序采集所述商家用户评价语料;
通过API接口从用户评价平台上获取所述商家用户评价语料;
商家用户直接上传所述商家用户评价语料;
通过文件导入所述商家用户评价语料。
2.如权利要求1所述的方法,其特征在于,所述基于BERT模型和神经网络模型对所述预处理后的商家用户评价语料进行情感倾向分析,具体包括:
对预处理后的所述商家用户评价预料处理形成句子单词向量矩阵;
利用所述BERT模型抽取出涵盖商家用户评价语料内句子单词向量矩阵的语义信息特征;
利用卷积神经网络处理所述语义信息特征,抽取出商家用户评价语料内句子的关键局部特征;
将关键局部特征进行二值分类,若所述关键局部特征输出积极正向的情感评定,输出情感判定值为1;若输出消极负向的情感判定,输出情感判定值为-1。
3.如权利要求2所述的方法,其特征在于,在利用所述卷积神经网络处理所述语义信息特征之前,还包括:
基于所述句子单词向量矩阵建立句子单词向量矩阵训练集;
利用所述BERT模型抽取出涵盖所述句子单词向量矩阵训练集的语义信息特征;
对所述句子单词向量矩阵训练集的语义信息特征进行降维处理,抽取出所述句子单词向量矩阵训练集的关键局部特征;
将所述句子单词向量矩阵训练集的关键局部特征进行二值分类;
计算分类误差,根据所述分类误差修正神经网络模型;
所述计算分类误差具体包括:
将所述商家用户评价语料内句子单词向量矩阵训练集进行人工标注;
将所述人工标注的结果与所述句子单词向量矩阵训练集的关键局部特征进行二值分类结果进行比较,确定分类误差。
4.如权利要求1所述的方法,其特征在于,基于商家用户评价词库对预处理后的商家用户评价语料进行情感倾向分析,具体包括:
将商家用户评价词库导入情感分析器;
情感分析器将预处理后的所述商家用户评价语料产生的各个词语与所述商家用户评价词库进行对比,将所述商家用户评价语料中在所述商家用户评价词库内不存在的词去除;
计算每条语料内每个单句中每个词语的情感判定值;
对每条商家用户评价语料中每个单句计算单句的情感判定值;
所述计算每条语料内每个单句中每个词语的情感判定值,具体包括:
正向情感词的情感判定值为100,负向情感词的情感判定值为-100,中性词汇的情感判定值为0,转折词的情感判定值为-1.2,否定词的情感判定值为-1。
5.如权利要求4所述的方法,其特征在于,对每条商家用户评价语料中每个单句计算单句的情感判定值,由下列公式确定:
Q2=Q否定*Q转折*(Q正向+Q负向+Q中性)
其中,Q2为单句的情感判定值,Q_否定为单句中否定词的情感判定值,Q_转折为单句中转折词的情感判定值,Q_正向为单句中正向情感词的情感判定值,Q_负向为单句中负向情感词的情感判定值,Q_中性为单句中中性词的情感判定值;
当所述Q2非负数时,所述商家用户评价语料计算情感判定值为1;当所述Q为负数时,所述商家用户评价语料计算情感判定值为-1。
6.要求1所述的方法,其特征在于,所述将所述第一分析结果和所述第二分析结果进行组合分析,得到最终的情感倾向分析结果,具体包括:
导入所述第一分析结果和所述第二分析结果;
根据所述第一分析结果的权重系数和所述第二分析结果的权重系数,计算最终的情感倾向分析结果;
最终的情感倾向分析结果由下列公式确定:
FQ=α*FQ1+(1-α)*FQ2
其中,FQ为最终的情感倾向分析结果,FQ1为所述第一分析结果,FQ2为所述第二分析结果,α为所述第一分析结果的权重系数;
所述第一分析结果的权重系数α由以下公式确定:
α=σ2/(σ1+σ2)
其中,σ1为BERT模型和神经网络模型的第一分析误差,σ2为商家用户评价词库的第二分析误差。
7.如权利要求6所述的方法,其特征在于,包括:
选择预定数量的用户评价语料作为误差判定集合;
专业人员对所述误差判定集合的分析得到参考判定结果;
将所述误差判定集合通过BERT模型和神经网络模型的情感倾向分析得到第三分析结果;
将所述误差判定集合通过商家用户评价词库进行情感倾向分析得到第四分析结果;
所述第一分析误差为第三分析结果与所述参考判定结果之间的差;
所述第二分析误差为第四分析结果与所述参考判定结果之间的差。
8.一种商家用户评价分析系统,其特征在于,包括:
商家用户评价采集模块,用于采集商家用户评价语料;
双向编码表示BERT模型和卷积神经网络模块,用于对商家用户评价语料进行情感倾向分析;
商家用户评价词库,用于对商家用户评价语料进行情感倾向分析;
情感分类器,用于对商家用户评价语料进行情感二值分类;
组合分析模块,用于根据所述BERT模型和卷积神经网络模块的分析得到的第一分析结果和所述根据商家用户评价词库的分析得到的第二分析结果,确定最终的情感倾向分析结果。
9.如权利要求8所述的系统,其特征在于,所述商家用户评价采集模块具体用于通过以下方式之一采集商家用户评价语料:
通过爬虫程序采集所述商家用户评价语料;
通过API接口从用户评价平台上获取所述商家用户评价语料;
商家用户直接上传所述商家用户评价语料;
通过文件导入所述商家用户评价语料。
10.如权利要求8所述的系统,其特征在于,所述BERT模型和卷积神经网络模块具体用于:
对预处理后的所述商家用户评价预料处理形成句子单词向量矩阵;
利用所述BERT模型抽取出涵盖商家用户评价语料内句子单词向量矩阵的语义信息特征;
利用卷积神经网络处理所述语义信息特征,抽取出商家用户评价语料内句子的关键局部特征;
将关键局部特征进行二值分类,若所述关键局部特征输出积极正向的情感评定,输出情感判定值为1;若输出消极负向的情感判定,输出情感判定值为-1;
所述在利用所述卷积神经网络处理所述语义信息特征之前,还包括:
基于所述句子单词向量矩阵建立句子单词向量矩阵训练集;
利用所述BERT模型抽取出涵盖所述句子单词向量矩阵训练集的语义信息特征;
对所述句子单词向量矩阵训练集的语义信息特征进行降维处理,抽取出所述句子单词向量矩阵训练集的关键局部特征;
将所述句子单词向量矩阵训练集的关键局部特征进行二值分类;
计算分类误差,根据所述分类误差修正神经网络模型;
所述计算分类误差具体包括:
将所述商家用户评价语料内句子单词向量矩阵训练集进行人工标注;
将所述人工标注的结果与所述句子单词向量矩阵训练集的关键局部特征进行二值分类结果进行比较,确定分类误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010279236.9A CN111488456A (zh) | 2020-04-10 | 2020-04-10 | 一种商家用户评价分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010279236.9A CN111488456A (zh) | 2020-04-10 | 2020-04-10 | 一种商家用户评价分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111488456A true CN111488456A (zh) | 2020-08-04 |
Family
ID=71798441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010279236.9A Pending CN111488456A (zh) | 2020-04-10 | 2020-04-10 | 一种商家用户评价分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488456A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966070A (zh) * | 2021-02-03 | 2021-06-15 | 杭州师范大学 | 基于方面情感分析的公司员工评论分析系统与方法 |
CN113378576A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食品安全数据挖掘方法 |
CN115392199A (zh) * | 2022-08-22 | 2022-11-25 | 再惠(上海)网络科技有限公司 | 评价分析和报告生成的方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109767791A (zh) * | 2019-03-21 | 2019-05-17 | 中国—东盟信息港股份有限公司 | 一种针对呼叫中心通话的语音情绪识别及应用系统 |
CN109840328A (zh) * | 2019-02-28 | 2019-06-04 | 上海理工大学 | 深度学习商品评论文本情感倾向分析方法 |
US20190197105A1 (en) * | 2017-12-21 | 2019-06-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
CN110765245A (zh) * | 2019-09-19 | 2020-02-07 | 平安科技(深圳)有限公司 | 基于大数据的情感正负判断方法、装置、设备及存储介质 |
-
2020
- 2020-04-10 CN CN202010279236.9A patent/CN111488456A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190197105A1 (en) * | 2017-12-21 | 2019-06-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
CN109840328A (zh) * | 2019-02-28 | 2019-06-04 | 上海理工大学 | 深度学习商品评论文本情感倾向分析方法 |
CN109767791A (zh) * | 2019-03-21 | 2019-05-17 | 中国—东盟信息港股份有限公司 | 一种针对呼叫中心通话的语音情绪识别及应用系统 |
CN110765245A (zh) * | 2019-09-19 | 2020-02-07 | 平安科技(深圳)有限公司 | 基于大数据的情感正负判断方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966070A (zh) * | 2021-02-03 | 2021-06-15 | 杭州师范大学 | 基于方面情感分析的公司员工评论分析系统与方法 |
CN113378576A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食品安全数据挖掘方法 |
CN115392199A (zh) * | 2022-08-22 | 2022-11-25 | 再惠(上海)网络科技有限公司 | 评价分析和报告生成的方法、装置、电子设备及存储介质 |
CN115392199B (zh) * | 2022-08-22 | 2023-08-04 | 再惠(上海)网络科技有限公司 | 评价分析和报告生成的方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488456A (zh) | 一种商家用户评价分析方法及系统 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN111368086A (zh) | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 | |
CN111382565A (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN111738589B (zh) | 基于内容推荐的大数据项目工作量评估方法、装置及设备 | |
CN112418653A (zh) | 一种基于机器学习算法的携号转网潜客识别系统及方法 | |
Das et al. | Effect of public sentiment on stock market movement prediction during the COVID-19 outbreak | |
CN113268974B (zh) | 多音字发音标注方法、装置、设备及存储介质 | |
CN111259153B (zh) | 一种完全注意力机制的属性级情感分析方法 | |
CN111666761A (zh) | 细粒度情感分析模型训练方法及装置 | |
CN111339292A (zh) | 文本分类网络的训练方法、系统、设备及存储介质 | |
CN112434161B (zh) | 一种采用双向长短期记忆网络的方面级情感分析方法 | |
CN113553831A (zh) | 基于bagcnn模型的方面级别情感分析方法和系统 | |
CN111767714A (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
Imron et al. | Aspect Based Sentiment Analysis Marketplace Product Reviews Using BERT, LSTM, and CNN | |
Nama et al. | Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach | |
Silva et al. | Developing and Assessing a Human-Understandable Metric for Evaluating Local Interpretable Model-Agnostic Explanations. | |
CN116719920A (zh) | 动态采样的对话生成模型训练方法、装置、设备及介质 | |
CN115718889A (zh) | 针对公司简介的行业分类方法及装置 | |
Gumus et al. | Stock market prediction by combining stock price information and sentiment analysis | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN110795537B (zh) | 一种确定目标商品的改进策略的方法、装置、设备和介质 | |
CN114817537A (zh) | 一种基于政策文件数据的分类方法 | |
CN114064873A (zh) | 保险领域faq知识库构建方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |