CN108021548A - 一种情感特征的识别方法及装置 - Google Patents

一种情感特征的识别方法及装置 Download PDF

Info

Publication number
CN108021548A
CN108021548A CN201610972793.2A CN201610972793A CN108021548A CN 108021548 A CN108021548 A CN 108021548A CN 201610972793 A CN201610972793 A CN 201610972793A CN 108021548 A CN108021548 A CN 108021548A
Authority
CN
China
Prior art keywords
sentence
affective characteristics
emotion
word
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610972793.2A
Other languages
English (en)
Inventor
朱波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610972793.2A priority Critical patent/CN108021548A/zh
Publication of CN108021548A publication Critical patent/CN108021548A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种情感特征的识别方法及装置,涉及信息技术领域,解决了现有技术中情感特征识别的效率较低和准确率较低的问题。本发明的主要技术方案为:首先获取目标产品的评论数据,所述产品评论数据包括产品评论文本数据;然后按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;最后将所述多个句子之间包含所述情感词的最长公共子串确定为目标产品的情感特征。本发明适用于情感特征的识别。

Description

一种情感特征的识别方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种情感特征的识别方法及装置。
背景技术
随着信息技术的不断发展,越来越多的用户在网络上购买产品并对购买的产品进行评论。在实际应用中,产品评论直接影响产品营销。近年来,随着产品评论对产品营销的影响越来越大,从产品评论数据中识别出情感特征,然后根据情感特征进行自然语言处理中的情感分析、观点挖掘越来越重要。其中,情感特征是指能够表达正面、负面或者中立的字符串。例如,根据情感特征可以分析有关产品文章中作者对该产品的评价倾向。
目前,在进行情感特征识别时,通常采用人工方式识别产品评论数据中的情感特征。然而,由于产品评论数据中的情感特征的数量庞大,若采用人工方式识别产品评论数据中的情感特征,需要投入大量的人力成本、时间成本且人工识别过程中容易出错,导致情感特征识别的效率较低和准确率较低。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的情感特征的识别方法及装置。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供了一种情感特征的识别方法,所述方法包括:
获取目标产品的评论数据,所述评论数据包括产品评论文本数据;
按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;
将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。
另一方面,本发明提供了一种情感特征的识别装置,所述装置包括:
获取单元,用于获取目标产品的评论数据,所述评论数据包括产品评论文本数据;
处理单元,用于按照预置处理规则对所述获取单元获取的所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;
确定单元,用于将所述处理单元处理得到的所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。
借由上述技术方案,本发明提供的一种情感特征的识别方法及装置。首先获取目标产品的评论数据,所述评论数据包括产品评论文本数据;然后按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;最后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。与目前采用人工方式识别产品评论数据中的情感特征相比,本发明通过按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子,然后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征,实现了自动识别情感特征,避免了投入大量的人力成本、时间成本且能够正确识别情感特征,从而提高了情感特征识别的效率和准确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种情感特征的识别方法流程图;
图2为本发明实施例提供的另一种情感特征的识别方法流程图;
图3为本发明实施例提供的一种情感特征的识别装置结构示意图;
图4为本发明实施例提供的另一种情感特征的识别装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供了一种情感特征的识别方法,如图1所示,所述方法包括:
101、获取目标产品的评论数据。
其中,所述评论数据包括产品评论文本数据。所述目标产品可以为电脑、手机、电视等。需要说明的是,所述产品评论数据可以为从购物类的网站上抓取的,具体可以为通过爬虫程序从购物类的网站上抓取的。
例如,产品评论文本数据为“考虑了很久才购买的,这个是新款,绝对正品。性价比高,值得推荐,期待装机效果。”。
102、按照预置处理规则对产品评论文本数据进行处理,得到包含相同情感词的多个句子。
其中,预置处理规则可以根据用户的需求进行配置,也可以根据系统默认模式进行配置,本发明实施例不做限定。例如,预置处理规则可以为先对产品评论文本数据进行分句处理,然后对分句处理后的句子进行分词处理,最后根据预置情感词典和分词处理得到的词语,从所述分句处理得到的句子中筛选出包含情感词的句子并从包含情感词的句子中获取包含相同情感词的多个句子。
例如,产品评论文本数据为“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”和“很薄很轻便但是很坚固,感觉很耐用。非常值得购买,性价比高,质量非常不错。”。
对产品评论文本数据“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”进行分句处理后得到的句子为:句子1和句子2。其中,句子1为“考虑了很久才购买的,这个是新款正品。”;句子2为“性价比高,值得推荐,期待装机效果。”。对句子1进行分词处理后的词语为:考虑/了/很久/才/购买/的/这个/是/新款/正品。对句子2进行分词处理后的词语为:性价/比/高/值得/推荐/期待/装机/效果。根据预置情感词典可以获知上述词语中“高”为情感词,则包含情感词的句子为句子2。
同样的,对产品评论文本数据“很薄很轻便但是很坚固,感觉很耐用。非常值得购买,性价比高,质量非常不错。”进行分词处理得到的句子为句子3和句子4。其中,句子3为“很薄很轻便但是很坚固,感觉很耐用。”;句子4为“非常值得购买,性价比高,质量非常不错。”。对句子3进行分词处理后的词语为:很/薄/很/轻便/但是/很/坚固感觉/很/耐用。对句子4进行分词处理后的词语为:非常/值得/购买/性价/比/高/质量/非常/不错。根据预置情感词典可以获知上述词语中“高”、“不错”为情感词,则包含情感词的句子为句子4。
经过上述分析可知,包含情感词的句子为句子2、句子4。其中,句子2和句子4包含相同情感词“高”,则最后得到包含相同情感词的句子为句子2和句子4。
103、将包含相同情感词的多个句子之间包含情感词的最长公共子串确定为目标产品的情感特征。
其中,情感特征是指能够表达正面、负面或者中立的字符串。需要说明的,可以通过基于动态规划的最长公共子串算法,来查找多个句子之间包含情感词的最长公共子串,也可以通过基于暴力解法的最长公共子串算法,来查找多个句子之间包含情感词的最长公共子串。在实际应用中,为了简化最长公共子串计算的复杂度,节省系统资源通常通过基于动态规划的最长公共子串算法,来查找多个句子之间包含情感词的最长公共子串。
例如,包含相同情感词的句子有句子2“性价比高,值得推荐,期待装机效果。”和句子4“非常值得购买,性价比高,质量非常不错。”。其中,句子2和句子4包含相同情感词“高”,句子2和句子4之间包含情感词“高”的最长公共子串为“性价比高”,则将“性价比高”确定为情感特征。
本发明实施例提供的一种情感特征的识别方法。首先获取目标产品的评论文本数据;然后按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;最后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。与目前采用人工方式识别产品评论数据中的情感特征相比,本发明通过按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子,然后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征,实现了自动识别情感特征,避免了投入大量的人力成本、时间成本且能够正确识别情感特征,从而提高了情感特征识别的效率和准确率。
本发明实施例提供了另一种情感特征的识别方法,如图2所示,所述方法包括:
201、获取目标产品的评论数据。
其中,所述评论数据包括产品评论文本数据。需要说明的是,产品评论数据的获取方式在步骤101中已进行详细阐述,在此不进行赘述。
202、按照预设分句规则对产品评论文本数据进行分句处理。
其中,预设分句规则可以根据用户需要进行设置,也可以根据系统默认模式进行设置,本发明实施例不做限定。例如,预设分句规则可以为根据标点符号对产品评论文本数据进行分句处理,具体可以根据句号对产品评论文本数据进行分句处理。
例如,预设分句规则为根据句号对产品评论文本数据进行分句处理。产品评论文本数据为“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”。对产品评论文本数据进行分句处理后,得到的句子为“考虑了很久才购买的,这个是新款正品。”和“性价比高,值得推荐,期待装机效果。”
203、按照预设分词规则对分句处理得到的句子进行分词处理。
其中,预设分词规则可以根据用户需要进行设置,也可以根据系统默认模式进行设置,本发明实施例不做限定。例如,预设分词规则为将分句处理得到的句子与预设分词词典中的词语进行匹配,若分句处理得到的句子与预设分词词典中的词语匹配,则提取所述词语作为分词处理得到的词语。
例如,分句处理得到的句子为“性价比高,值得推荐,期待装机效果。”。该句子与预设分词词典中的词语“性价比”、“高”、“值得”、“推荐”、“期待”、“装机”、“效果”分别匹配,则提取“性价比”、“高”、“值得”、“推荐”、“期待”、“装机”、“效果”作为分词处理得到的词语。
204、根据预置情感词典和分词处理得到的词语,从分句处理得到的句子中筛选出包含情感词的句子。
其中,所述预置情感词典中保存有不同的情感词。
对于本发明实施例,步骤204具体可以包括:将所述分词处理得到的词语与预置情感词典中的情感词进行匹配;若所述分词处理得到的词语与预置情感词典中的情感词匹配,则确定分句处理得到的句子为包含情感词的句子。若所述分词处理得到的词语与预置情感词典中的情感词不匹配,则确定分句处理得到的句子并非为包含情感词的句子。
例如,分句处理得到的句子:句子A和句子B,句子A为“非常值得购买,性价比高,质量非常不错。”和句子B为“下次还在这家店铺购买”。对句子A进行分词处理得到的词语为:非常/值得/购买/性价/比/高/质量/非常/不错,词语“高”与预置情感词典中的情感词匹配,则句子A为包含情感词的句子。对句子B进行分词处理得到的词语为:下次/还/在/这家/店铺/购买,句子B中的所有词语都不与预置情感词典中的情感词匹配,则句子B并非为包含情感词的句子。
205、从包含情感词的句子中获取包含相同情感词的多个句子。
206、将多个句子之间包含情感词的最长公共子串确定为目标产品的情感特征。
例如,包含相同情感词“高”的句子有句子A、句子C、句子D,句子A为“非常值得购买,性价比高,质量非常不错。”;句子C为“性价比高,下次还来。”;句子D为“性价比高,值得推荐,期待装机效果。”,句子A、句子C、句子D这三个句子之间包含情感词“高”的最长公共字串为“性价比高”,则将“性价比高”确定为情感特征。
207、查找目标产品的情感特征对应的评价等级。
需要说明的是,所述评论数据还包括所述产品评论文本数据的评价等级,所述步骤207具体可以包括:通过产品评论文本数据对应的评价等级查找目标产品的情感特征对应的评级等级。
例如,目标产品的评论文本数据为“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”,评论文本数据对应的评级为好评,则目标产品的情感特征“性价比高”对应的评级等级为好评。
208、将评价等级与目标产品的情感特征进行关联,得到情感特征对应的情感类别。
其中,所述评价等级可以为好评、中评、也可以为差评,本发明实施例不做限定。所述情感特征对应的情感类别可以为好评类别、中评类别、也可以为差评类别等。
例如,情感特征为“性价比高”,则目标评论文本数据可以为“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”。若目标评价文本数据的评价等级为好评,则将目标评论文本数据的评价等级与目标产品的情感特征“性价比高”进行关联,得到情感特征“性价比高”的情感类别可以为好评类别。
对于本发明实施例,步骤208具体还可以包括:获取所述产品评论文本数据的评价等级对应的评价值;根据所述评价值确定所述多个句子的情感值,并获取所述多个句子包含的词语个数;将所述多个句子的情感值与所述词语个数的商确定为所述情感特征在所述多个句子中的情感值,所述情感特征在所述多个句子中为一个词语;将所述情感特征在所述多个句子中的情感值的平均值确定为所述情感特征的情感值。
对于本发明实施例,所述获取所述产品评论文本数据的评价等级对应的评价值具体可以包括:获取所述产品评论文本数据的星级颗数;根据所述产品评论文本数据的星级颗数以及每颗星级对应的权重值;将所述多个句子的星级颗数与所述权重值的乘积确定为所述获取所述产品评论文本数据的评价等级对应的评价值。
例如,若产品评论文本数据“很薄很轻便但是很坚固,感觉很耐用。非常值得购买,性价比高,质量非常不错。”评价等级为好评,且星级颗数为5,每颗星级的权重值为0.2,则产品评论数据的评价值为1,然后将产品评论数据“很薄很轻便但是很坚固,感觉很耐用。非常值得购买,性价比高,质量非常不错。”的评价值为句子A“非常值得购买,性价比高,质量非常不错。”的情感值。若产品评论文本数据“性价比高,下次还来。”评价等级为好评,且星级颗数为4,则产品评论文本数据“性价比高,下次还来。”的评价值为4*0.2=0.8,将产品评论文本数据“性价比高,下次还来。”的评价值0.8确定为句子C为“性价比高,下次还来。”的情感值。若产品评论文本数据“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”评价等级为好评,且星级颗数为5,则产品评论文本数据“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”的评价值为1,将产品评论文本数据“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”的评价值1确定为句子D“性价比高,值得推荐,期待装机效果。”情感值。
又例如,句子A的情感值为1,包含的词语个数为6,则情感特征“性价比高”在句子A中的情感值为1/7;句子C的情感值为0.8,包含的词语个数为3,则情感特征“性价比高”在句子C中的情感值为0.27;句子D的情感值为1,包含的词语个数为6,则情感特征“性价比高”在句子D中的情感值为1/6。情感特征“性价比高”在句子A、句子C、句子D中的情感值为分别为1/7、0.27、1/6,则情感特征“性价比高”的情感值为(1/7+0.27+1/6)/3=0.19。
对于本发明实施例,所述将所述情感特征在所述多个句子中的情感值的平均值确定为所述情感特征的情感值之后,具体还可以包括:获取情感类别相同的各个情感特征以及所述各个情感特征分别对应的情感值;根据所述各个情感特征分别对应的情感值,统计各个情感类别对应的阈值区间。
需要说明的是,通过统计各个情感类别对应的阈值区间可以确定情感特征接近情感类别的程度。情感特征的情感值越大,情感特征越接近好评类别,情感特征的情感值越小,情感特征越接近差评类别。
本发明实施例提供的另一种情感特征的识别方法。首先获取目标产品的评论数据,所述评论数据包括产品评论文本数据;然后按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;最后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。与目前采用人工方式识别产品评论数据中的情感特征相比,本发明通过按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子,然后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征,实现了自动识别情感特征,避免了投入大量的人力成本、时间成本且能够正确识别情感特征,从而提高了情感特征识别的效率和准确率。
进一步地,本发明实施例提供一种情感特征的识别装置,如图3所示,所述装置包括:获取单元31、处理单元32、确定单元33。
获取单元31,可以用于获取目标产品的评论数据,所述评论数据包括产品评论文本数据。
处理单元32,可以用于按照预置处理规则对所述获取单元31获取的所述产品评论文本数据进行处理,得到包含相同情感词的多个句子。
确定单元33,可以用于将所述处理单元32处理得到的所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。
需要说明的是,本发明实施例提供的一种情感特征的识别装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的一种情感特征的识别装置。首先获取目标产品的评论数据,所述评论数据包括产品评论文本数据;然后按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;最后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。与目前采用人工方式识别产品评论数据中的情感特征相比,本发明通过按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子,然后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征,实现了自动识别情感特征,避免了投入大量的人力成本、时间成本且能够正确识别情感特征,从而提高了情感特征识别的效率和准确率。
进一步地,本发明实施例提供另一种情感特征的识别装置,如图4所示,所述装置包括:获取单元41、处理单元42、确定单元43。
获取单元41,可以用于获取目标产品的评论数据,所述评论数据包括产品评论文本数据。
处理单元42,可以用于按照预置处理规则对所述获取单元41获取的所述产品评论文本数据进行处理,得到包含相同情感词的多个句子。
确定单元43,可以用于将所述处理单元42处理得到的所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。
进一步地,所述处理单元42包括:处理模块4201、筛选模块4202、获取模块4203。
处理模块4201,可以用于按照预设分句规则对所述产品评论文本数据进行分句处理。
所述处理模块4201,还可以用于按照预设分词规则对分句处理得到的句子进行分词处理。
筛选模块4202,可以用于根据预置情感词典和分词处理得到的词语从所述分句处理得到的句子中筛选出包含情感词的句子,所述预置情感词典中保存有不同的情感词。
获取模块4203,可以用于从所述包含情感词的句子中获取包含相同情感词的多个句子。
进一步地,所述装置还包括:查找单元44和关联单元45。
查找单元44,可以用于当所述评论数据还包括所述产品评论文本数据的评价等级时,查找所述目标产品的情感特征对应的评级等级。
关联单元45,可以用于将所述查找单元44查找的所述评价等级与所述目标产品的情感特征进行关联,得到所述情感特征对应的情感类别。
所述获取单元41,还可以用于获取所述产品评论文本数据的评价值。
所述确定单元43,还可以用于根据所述评价值确定所述多个句子的情感值。
所述获取单元41,还可以用于获取所述多个句子包含的词语个数。
所述确定单元43,还可以用于将所述多个句子的情感值与所述词语个数的商确定为所述情感特征在所述多个句子中的情感值,所述情感特征在所述多个句子中为一个词语,并将所述情感特征在所述多个句子中的情感值的平均值确定为所述情感特征的情感值。
进一步地,所述装置还包括:统计单元46。
所述获取单元41,还可以用于获取情感类别相同的各个情感特征以及所述各个情感特征分别对应的情感值。
所述统计单元46,可以用于根据所述各个情感特征分别对应的情感值,统计各个情感类别对应的阈值区间。
需要说明的是,本发明实施例提供的另一种情感特征的识别装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的另一种情感特征的识别装置。首先目标产品的评论数据,所述产品评论数据包括产品评论文本数据;然后按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;最后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。与目前采用人工方式识别产品评论数据中的情感特征相比,本发明通过按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子,然后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征,实现了自动识别情感特征,避免了投入大量的人力成本、时间成本且能够正确识别情感特征,从而提高了情感特征识别的效率和准确率。
所述情感特征的识别装置包括处理器和存储器,上述获取单元、处理单元、确定单元、建立单元和保存单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高情感特征识别的效率和准确率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取目标产品的评论数据,所述评论数据包括产品评论文本数据;按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;将所述多个句子之间包含所述情感词的最长公共子串确定为目标产品的情感特征。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种情感特征的识别方法,其特征在于,包括:
获取目标产品的评论数据,所述评论数据包括产品评论文本数据;
按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;
将所述多个句子之间包含所述情感词的最长公共子串确定为所述目标产品的情感特征。
2.根据权利要求1所述的方法,其特征在于,所述按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子包括:
按照预设分句规则对所述产品评论文本数据进行分句处理;
按照预设分词规则对分句处理得到的句子进行分词处理;
根据预置情感词典和分词处理得到的词语,从所述分句处理得到的句子中筛选出包含情感词的句子,所述预置情感词典中保存有不同的情感词;
从所述包含情感词的句子中获取包含相同情感词的多个句子。
3.根据权利要求1所述的方法,其特征在于,所述评论数据还包括所述产品评论文本数据的评价等级,所述将所述包含情感词的最长公共子串确定为所述目标产品的情感特征之后,所述方法还包括:
查找所述目标产品的情感特征对应的评价等级;
将所述评价等级与所述目标产品的情感特征进行关联,得到所述情感特征对应的情感类别。
4.根据权利要求3所述的方法,其特征在于,所述将所述目标评论文本数据的评价等级与所述目标产品的情感特征进行关联,得到所述情感特征对应的情感类别之后,所述方法还包括:
获取所述产品评论文本数据的评价等级对应的评价值;
根据所述评价值确定所述多个句子的情感值,并获取所述多个句子包含的词语个数;
将所述多个句子的情感值与所述词语个数的商确定为所述情感特征在所述多个句子中的情感值,所述情感特征在所述多个句子中为一个词语;
将所述情感特征在所述多个句子中的情感值的平均值确定为所述情感特征的情感值。
5.根据权利要求4所述的方法,其特征在于,所述将所述情感特征在所述多个句子中的情感值的平均值确定为所述情感特征的情感值之后,所述方法还包括:
获取情感类别相同的各个情感特征以及所述各个情感特征分别对应的情感值;
根据所述各个情感特征分别对应的情感值,统计各个情感类别对应的阈值区间。
6.一种情感特征的识别装置,其特征在于,包括:
获取单元,用于获取目标产品的评论数据,所述评论数据包括产品评论文本数据;
处理单元,用于按照预置处理规则对所述获取单元获取的所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;
确定单元,用于将所述处理单元处理得到的所述多个句子之间包含所述情感词的最长公共子串确定为所述目标产品的情感特征。
7.根据权利要求6所述的装置,其特征在于,所述处理单元包括:
处理模块,用于按照预设分句规则对所述产品评论文本数据进行分句处理;
所述处理模块,还用于按照预设分词规则对分句处理得到的句子进行分词处理;
筛选模块,用于根据预置情感词典和分词处理得到的词语从所述分句处理得到的句子中筛选出包含情感词的句子,所述预置情感词典中保存有不同的情感词;
获取模块,用于从所述包含情感词的句子中获取包含相同情感词的多个句子。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
查找单元,用于当所述评论数据还包括所述产品评论文本数据的评价等级时,查找所述目标产品的情感特征对应的评级等级;
关联单元,用于将所述查找单元查找的所述评价等级与所述目标产品的情感特征进行关联,得到所述情感特征对应的情感类别。
9.根据权利要求8所述的装置,其特征在于,
所述获取单元,还用于获取所述产品评论文本数据的评价值;
所述确定单元,还用于根据所述评价值确定所述多个句子的情感值;
所述获取单元,还用于获取所述多个句子包含的词语个数;
所述确定单元,还用于将所述多个句子的情感值与所述词语个数的商确定为所述情感特征在所述多个句子中的情感值,所述情感特征在所述多个句子中为一个词语,并将所述情感特征在所述多个句子中的情感值的平均值确定为所述情感特征的情感值。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:统计单元,
所述获取单元,还用于获取情感类别相同的各个情感特征以及所述各个情感特征分别对应的情感值;
所述统计单元,用于根据所述各个情感特征分别对应的情感值,统计各个情感类别对应的阈值区间。
CN201610972793.2A 2016-10-28 2016-10-28 一种情感特征的识别方法及装置 Pending CN108021548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610972793.2A CN108021548A (zh) 2016-10-28 2016-10-28 一种情感特征的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610972793.2A CN108021548A (zh) 2016-10-28 2016-10-28 一种情感特征的识别方法及装置

Publications (1)

Publication Number Publication Date
CN108021548A true CN108021548A (zh) 2018-05-11

Family

ID=62083610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610972793.2A Pending CN108021548A (zh) 2016-10-28 2016-10-28 一种情感特征的识别方法及装置

Country Status (1)

Country Link
CN (1) CN108021548A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299463A (zh) * 2018-09-26 2019-02-01 武汉斗鱼网络科技有限公司 一种情感得分的计算方法以及相关设备
CN110275999A (zh) * 2019-05-10 2019-09-24 珠海中科先进技术研究院有限公司 一种电子器械存储智能操作系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102163191A (zh) * 2011-05-11 2011-08-24 北京航空航天大学 一种基于HowNet的短文本情感识别方法
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN104881402A (zh) * 2015-06-02 2015-09-02 北京京东尚科信息技术有限公司 中文网络话题评论文本语义倾向分析的方法及装置
US20160307211A1 (en) * 2015-04-15 2016-10-20 Linkedln Corporation Inferring contributions of content to marketing events

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102163191A (zh) * 2011-05-11 2011-08-24 北京航空航天大学 一种基于HowNet的短文本情感识别方法
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
US20160307211A1 (en) * 2015-04-15 2016-10-20 Linkedln Corporation Inferring contributions of content to marketing events
CN104881402A (zh) * 2015-06-02 2015-09-02 北京京东尚科信息技术有限公司 中文网络话题评论文本语义倾向分析的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299463A (zh) * 2018-09-26 2019-02-01 武汉斗鱼网络科技有限公司 一种情感得分的计算方法以及相关设备
CN110275999A (zh) * 2019-05-10 2019-09-24 珠海中科先进技术研究院有限公司 一种电子器械存储智能操作系统

Similar Documents

Publication Publication Date Title
Yi et al. Machine learning based customer sentiment analysis for recommending shoppers, shops based on customers’ review
Vinodhini et al. A sampling based sentiment mining approach for e-commerce applications
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
CN106776897B (zh) 一种用户画像标签确定方法及装置
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN105975459B (zh) 一种词项的权重标注方法和装置
CN110619044B (zh) 一种情感分析方法、系统、存储介质及设备
CN107609116A (zh) 一种创建跨域迁移深度网络的方法及设备
CN108733675B (zh) 基于大量样本数据的情感评价方法及装置
CN107665221A (zh) 关键词的分类方法和装置
Chamekh et al. Sentiment analysis based on deep learning in e-commerce
CN116109373A (zh) 金融产品的推荐方法、装置、电子设备和介质
US20140272842A1 (en) Assessing cognitive ability
Imron et al. Aspect Based Sentiment Analysis Marketplace Product Reviews Using BERT, LSTM, and CNN
CN108021548A (zh) 一种情感特征的识别方法及装置
Kim et al. Comparing machine learning classifiers for movie WOM opinion mining
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN116882414A (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN105786929B (zh) 一种信息监测方法及装置
Özgür et al. Two-stage feature selection for text classification
Jamalpur et al. Opinion mining on restaurant rating based on aspects
Chaurasia et al. Sentiment Analysis of Twitter Data by Natural Language Processing and Machine Learning
Karim et al. Classification of Google Play Store Application Reviews Using Machine Learning
CN108255880A (zh) 数据处理方法及装置
CN112417858A (zh) 一种实体权重评分方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180511

RJ01 Rejection of invention patent application after publication