CN104346336A - 一种基于机器文本对骂的情感发泄方法及系统 - Google Patents

一种基于机器文本对骂的情感发泄方法及系统 Download PDF

Info

Publication number
CN104346336A
CN104346336A CN201310313599.XA CN201310313599A CN104346336A CN 104346336 A CN104346336 A CN 104346336A CN 201310313599 A CN201310313599 A CN 201310313599A CN 104346336 A CN104346336 A CN 104346336A
Authority
CN
China
Prior art keywords
text
emotion
module
abusing
people
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310313599.XA
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU HUAJIU INFORMATION TECHNOLOGY Co Ltd
Original Assignee
GUANGZHOU HUAJIU INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU HUAJIU INFORMATION TECHNOLOGY Co Ltd filed Critical GUANGZHOU HUAJIU INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310313599.XA priority Critical patent/CN104346336A/zh
Publication of CN104346336A publication Critical patent/CN104346336A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Abstract

本发明公开了一种基于机器文本对骂的情感发泄方法,其特征在于包括步骤;采集用户的骂人文本;文本情感分类,以判断是否健康;若情感是健康的,则推送幽默笑话文本;若情感是不健康的,则利用对骂文本知识库实现对骂文本知识推理,生成合适的对骂文本;推送对骂文本。本发明还公开了一种基于机器文本对骂的情感发泄系统,包括:用户骂人文本采集模块,骂人文本特征向量构造模块,文本情感分类模型学习模块,文本情感分类模块,幽默笑话的文本推送模块,对骂文本知识推理模块,回骂文本推送模块。本发明效果是机器可以说任何难听的文本而不用难为情,而且只对需要发泄情感的人对骂,使得发泄更准确、效果更好,也适用于安静环境。

Description

一种基于机器文本对骂的情感发泄方法及系统
技术领域
本发明涉及一种基于机器文本对骂的情感发泄方法及系统,属于医疗健康、机器学习和移动互联网技术领域。 
背景技术
情感状态体现了心理的健康状态,目前很多人都面临心理压力,或多或少会出现一些心理情感问题,表现为烦躁,焦虑,抑郁,生气等,需要及时引导,但是这些信号,对于心理学知识缺乏的人很难觉察,也找不到合适的发泄方式,因此借助信息技术,自动监测并提供合适的发泄方式有利于恢复心理健康。自然语言包含了丰富的情感信息,是理解和检测情感的重要途径,通过自然语言分析就可以实现人类情感状态判别,进而提供合适的发泄方法。 
骂人似乎不文明,但心理学研究表明骂人是一种很有效的情感发泄方法,只要局限于发泄情绪的人的范围,而不影响他人,那么提供一种可以对骂的环境是合适的。目前有通过人工对骂的方法来发泄情绪,但没有发现机器文本对骂的方法和系统,其支持用户用文本骂人,系统自动理解骂人文本,判断文本情感,然后用对应的文本回骂。 
发明内容
本发明要解决的技术问题是:机器理解骂人文本的情感,并能用相应的文本自动回骂。目前还没有发现通过机器与人对骂的方法和系统来发泄情绪。针对上述问题,本发明提供一种基于机器文本对骂的情感发泄方法及系统。 
一种基于机器文本对骂的情感发泄方法的主要技术步骤包括: 
[1]采集用户的骂人文本 
[2]利用文本情感分类模型完成文本情感分类,以判断用户的情感是否健康 
[3]若文本情感不健康,则利用对骂文本知识库实现对骂文本知识推理,生成合适的对骂文本,否则转[5] 
[4]推送对骂文本给用户 
[5]从幽默笑话文本知识库中选择幽默笑话文本,然后推送选择的幽默笑话文本给用户。 
其中文本情感分类模型的获取过程包含以下步骤: 
(a)采集N个文本及其对应的情感类别 
(b)构造每个人文本的特征向量 
(c)构造训练数据,以文本特征向量为输入,其对应的情感类别为输出,构成训练样本集合 
(d)采用训练样本集合,学习文本情感分类模型 
(e)以M倍交叉验证方式选择文本情感分类模型的合适参数,进而获得对应参数的文本情感分类模型。 
一种基于机器文本对骂的情感发泄系统,其特征在于其使用了本发明所述的方法,所述的系统包括:一个文本情感学习样本库,一个幽默笑话文本知识库,一个对骂文本知识库。系统还包括:骂人文本采集模块;骂人文本特征向量构造模块;文本情感分类模型学习模块;文本情感分类模块;幽默笑话文本推送模块;对骂文本知识推理模块;回骂文本推送模块。其中骂人文本采集模块的输出与骂人文本特征向量构造模块的输入连接;骂人文本特征向量构造模块的输出与文本情感分类模块的输入连接;文本情感分类模型学习模块的输出与文本情感分类模块的输入连接;文本情感分类模块的输出与幽默笑话文本推送模块的输入连接;文本情感分类模块的输出与对骂文本知识推理模块的输入连接;对骂文本知识推理模块的输出与回骂文本推送模块的输入连接。 
有益效果 
与现有技术相比,本发明的一种基于机器文本对骂的情感发泄方法及系统具有以下优点: 
[1]与机器对骂,能骂任何难听的话而不用难为情,这样与用户的对骂更自然,更激烈,用户发泄效果更好。 
[2]机器只对情感不健康的用户对骂,使得对骂更准确,发泄效果更好。 
[3]机器对情感健康的用户不回骂,而是推送幽默笑话,这样情感健康的用户也能使用,应用更广泛。 
[4]因为采用机器实现文本对骂,使得用户能在安静的环境用文本大骂发泄情绪,使用方便。 
附图说明
图1一种基于机器文本对骂的情感发泄方法流程图 
图2骂人文本的情感分类过程结构图 
图3骂人文本的情感训练过程结构图 
图4一种基于机器文本对骂的情感发泄系统结构图 
具体实施方式
本发明提出一种基于机器文本对骂的情感发泄方法及系统,结合附图和实施例说明如下。 
如图1所示,为一种基于机器文本对骂的情感发泄方法的流程图,该方法包括以下步骤: 
第一步:采集用户的骂人文本。 
第二步:提取骂人文本的情感特征,形成一个文本特征向量,然后完成情感分类。这个过程的步骤如图2所示,由于骂人文本属于短文本,短文本的情感分类问题面临短文本的特征稀疏,短文本的相似性难以度量等问题,本发明采用情感词典解决。 
(一)首先预处理骂人文本,包括去除停用词和中文分词。中文分词将一个汉字序列切分成一个一个单独的词,中文分词工具采用中国科学院计算所的ICTCLAS。 
(二)中文分词后采用向量空间模型(VSM)提取特征,将文本转化为原始的特征向量di={(ti1,wi1),(ti2,wi2),...,(tin,win)},其中tin为特征项,它可以是字、词或短语;win为特征项的权重,表示tin在文本中的重要程度。本实施案例采用如下的TFIDF公式计算权重: 
W ( t , b → ) = tf ( t , d → ) × log ( N / n t + 0.01 ) Σ t ∈ d → [ tf ( t , d → ) × ( N / n t + 0.01 ) ] 2
其中,为特征项t在文本中的权重,而为特征项t在文本的频率,N为训练文本的总数,nt为训练文本集中出现t的文本数,分母为归一化因子。该数值越大,特征项t反映的能力越好;该数值越小,特征项t反映的能力越差。 
(三)根据VSM模型特征提取的文本向量的维数太高,本实施案例采用情感词典和互信息方法完成特征选择。情感词典包括各类情感中常出现的一些词、短语、语法结构等。基于情感词典的特征选择过程就是读取切分后的文本中的每个词语,扫描词典,选择具有情感色彩的词语或结构。互信息特征选择用来选择常规的特征,其步骤包括1)初始条件下,特征项集合中包含类别Ci 
中出现的所有特征词2)对于每个词t,计算它与类别Ci的互信息 3)对于类别Ci中的所有特征词,按它们的互信息数值大小进行排序;4)选取一个特征向量维数的阀值,进行向量维数的压缩。最后将选择的两类特征合并得到最后的特征集,从而得到骂人文本的特征向量。 
(四)采用支持向量机作为文本情感分类器,用其分类模型对骂人文本的特征向量分类,判断的情感类别为2类:健康(高兴、惊讶和平静),不健康(愤怒、悲伤、厌恶、恐惧)。本实施案例的支持向量机采用SVM light实现,核函数选择线性核函数。支持向量机文本情感分类器需要训练获取分类模型,训练过程如图3所示,包括步骤:获取大量的情感文本训练集,然后按分类过程中的方法对每个情感文本预处理,完成特征抽取,完成特征选择,形成情感文本集的特征向量空间,最后在此特征向量空间上训练支持向量机分类器,获得分类模型,并以10倍交叉验证方式选择文本情感分类模型的合适参数,进而获得对应参数的文本情感分类模型并保存,在利用支持向量机完成骂人文本的情感分类时使用。 
第三步:若骂人文本的情感类别被分为健康类别,则从幽默笑话文本知识库中选择幽默笑话文本,并推送给骂人用户。 
本实施案例采用的幽默笑话文本知识库的格式如下 
序号 字段名称 字段语义解释
1 splang 文本的语言类别
2 spvector 文本特征向量
3 spwords 文本内容
本实施案例采用简单的方法选择幽默笑话文本,它从幽默笑话文本知识库中随机抽取记录推送给骂人用户。 
第四步:若骂人文本的情感类别分为不健康类别,则利用对骂文本知识库实现对骂文本知识推理,生成合适的对骂文本。对骂文本知识库是根据领域专家的建议预先建立的,建立骂人文本与回骂文本之间的对应关系。 
本实施案例采用的对骂文本知识库格式如下 
序号 字段名称 字段语义解释
1 culang 骂人文本的语言类别
2 cuemotion 骂人文本的情感类别
3 cuwords 骂人文本
4 cuvector 骂人文本的特征向量
5 bclang 回骂文本的语言类别
6 bcemotion 回骂文本的情感类别
7 bcwords 回骂文本
8 bcvector 回骂文本的特征向量
本实施案例采用如下方法实现对骂文本知识推理,具体步骤为: 
[1]计算骂人文本的特征向量X 
[2]采用欧氏距离在对骂文本知识库中搜索K个与X距离最相近的骂人文本特征向量,这里K取5。 
[3]从K个最相近的骂人文本中随机选择一个骂人文本,以增加回骂的多样性。 
[4]读取选择的骂人文本对应的回骂文本,并将其作为对骂文本知识推理的结果,即选择为此次的回骂文本。 
第五步:推送选择的回骂文本给骂人用户。 
如图4所示,为一种基于机器文本对骂的情感发泄系统,其特征在于其使用了本发明所述的方法,所述的系统包括:一个文本情感学习样本库410,一个幽默笑话文本知识库411,一个对骂文本知识库412。系统还包括:骂人文本采集模块400;骂人文本特征向量构造模块401;文本情感分类模型学习模块402;文本情感分类模块403;幽默笑话文本推送模块404;对骂文本知识推理模块405;回骂文本推送模块406,其中骂人文本采集模块400的输出与骂人文本特征向量构造模块401的输入连接;骂人文本特征向量构造模块401的输出与文本情感分类模块403的输入连接;文本情感分类模型学习模块402的输出与文本情感分类模块403的输入连接;文本情感分类模块403的输出与幽默笑话文本推送模块404的输入连接;文本情感分类模块403的输出与对骂文本知识推理模块405的输入连接;对骂文本知识推理模块405的输出与回骂文本推送模块406的输入连接。 
1)骂人文本采集模块400,获取用户提交的骂人文本。 
2)骂人文本特征向量构造模块401,处理采集的骂人文本,包括去除停用词,完成中文分词,抽取特征,选择特征,将骂人文本转化为特征向量表示。 
3)文本情感分类模型学习模块402,以文本情感学习样本库410为训练集,训练支持向量机文本情感分类器,获得支持向量机文本情感分类模型。 
4)文本情感分类模块403,采用支持向量机文本情感分类模型对骂人文本的特征向量进行情感分类,进而判断情感是否健康。 
5)幽默笑话文本推送模块404,在骂人文本的情感判定为健康类别时,从幽默笑话文本知识库411中选择幽默笑话文本,并推送给用户。 
6)对骂文本知识推理模块405,在骂人文本的情感判定为不健康类别时,利用对骂文本知识库412实现对骂文本知识推理,生成合适的对骂文本。 
7)回骂文本推送模块406,将步骤6)生成的对骂文本推送给用户。 
本实施案例采用客户端/服务器结构实现,用户通过客户端与服务对骂。基于机器文本对骂的情感发泄系统运行在服务器平台上并作为服务器与用户对骂。服务器平台的实现采用J2EE和Struts2+Spring+Hibemate框架,用MYSQL数据库实现数据库管理。支持向量机采用SVM light实现,选择线性核函数,并以预测性能为准则,以10倍交叉验证方式选择SVM的合适参数,进而获得对应的支持向量机分类模型。客户端与服务器之间的文本通讯采用开源项目Spark+Smack+Openfire实现,其中Openfire是服务器,Spark是客户端,Smack是XMPP传输协议的实现,本实施案例采用基于插件方式在此开源项目上实现新增功能。 
本领域的普通技术人员应当理解,本发明的技术方案可以进行修改,变形或等同变换,而不脱离本发明技术方案的本质和范围,均覆盖在本发明的权利要求范围之中。 

Claims (6)

1.一种基于机器文本对骂的情感发泄方法,其特征在于包括以下步骤:
[1]采集用户的骂人文本
[2]利用文本情感分类模型完成文本情感分类,以判断用户的情感是否健康
[3]若文本情感不健康,则利用对骂文本知识库实现对骂文本知识推理,生成合适的对骂文本,否则转[5]
[4]推送对骂文本给用户
[5]从幽默笑话文本知识库中选择幽默笑话文本,然后推送选择的幽默笑话文本给用户。
其中文本情感分类模型的获取过程包含以下步骤:
(a)采集N个文本及其对应的情感类别
(b)构造每个人文本的特征向量
(c)构造训练数据,以文本特征向量为输入,其对应的情感类别为输出,构成训练样本集合
(d)采用训练样本集合,学习文本情感分类模型
(e)以M倍交叉验证方式选择文本情感分类模型的合适参数,进而获得对应参数的文本情感分类模型。
2.根据权利要求1所述的一种基于机器文本对骂的情感发泄方法,其特征在于所述的步骤[2]通过文本情感分类,判断用户的情感是否健康。
3.根据权利要求1和2所述的一种基于机器文本对骂的情感发泄方法,其特征在于所述的步骤[2]文本情感分类的方法采用支持向量机。
4.根据权利要求1所述的一种基于机器文本对骂的情感发泄方法,其特征在于所述的步骤[3]对骂人文本表达的情感进行了判断,只对情感不健康的骂人文本,利用对骂文本知识库实现对骂文本知识推理,生成合适的对骂文本。
5.根据权利要求1所述的一种基于机器文本对骂的情感发泄方法,其特征在于所述的步骤[5]对骂人文本的情感进行了判断,对情感健康的骂人文本,从幽默笑话文本知识库中选择幽默笑话,然后推送选择的幽默笑话文本给用户。
6.一种基于机器文本对骂的情感发泄系统,其特征在于其使用了本发明所述的方法,所述的系统包括:一个文本情感学习样本库,一个幽默笑话文本知识库,一个对骂文本知识库。系统还包括:骂人文本采集模块;骂人文本特征向量构造模块;文本情感分类模型学习模块;文本情感分类模块;幽默笑话文本推送模块;对骂文本知识推理模块;回骂文本推送模块。其中骂人文本采集模块的输出与骂人文本特征向量构造模块的输入连接;骂人文本特征向量构造模块的输出与文本情感分类模块的输入连接;文本情感分类模型学习模块的输出与文本情感分类模块的输入连接;文本情感分类模块的输出与幽默笑话文本推送模块的输入连接;文本情感分类模块的输出与对骂文本知识推理模块的输入连接;对骂文本知识推理模块的输出与回骂文本推送模块的输入连接。
CN201310313599.XA 2013-07-23 2013-07-23 一种基于机器文本对骂的情感发泄方法及系统 Pending CN104346336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310313599.XA CN104346336A (zh) 2013-07-23 2013-07-23 一种基于机器文本对骂的情感发泄方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310313599.XA CN104346336A (zh) 2013-07-23 2013-07-23 一种基于机器文本对骂的情感发泄方法及系统

Publications (1)

Publication Number Publication Date
CN104346336A true CN104346336A (zh) 2015-02-11

Family

ID=52501968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310313599.XA Pending CN104346336A (zh) 2013-07-23 2013-07-23 一种基于机器文本对骂的情感发泄方法及系统

Country Status (1)

Country Link
CN (1) CN104346336A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109352666A (zh) * 2018-10-26 2019-02-19 广州华见智能科技有限公司 一种基于机器语音对话的情感发泄方法及系统
CN109376359A (zh) * 2018-10-26 2019-02-22 广州华见智能科技有限公司 一种基于网络流媒体对骂的情感发泄系统及方法
CN110046634A (zh) * 2018-12-04 2019-07-23 阿里巴巴集团控股有限公司 聚类结果的解释方法和装置
CN112214602B (zh) * 2020-10-23 2023-11-10 中国平安人寿保险股份有限公司 基于幽默度的文本分类方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN101799849A (zh) * 2010-03-17 2010-08-11 哈尔滨工业大学 采用计算机实现的非障碍性自动心理咨询方法
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN101799849A (zh) * 2010-03-17 2010-08-11 哈尔滨工业大学 采用计算机实现的非障碍性自动心理咨询方法
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109352666A (zh) * 2018-10-26 2019-02-19 广州华见智能科技有限公司 一种基于机器语音对话的情感发泄方法及系统
CN109376359A (zh) * 2018-10-26 2019-02-22 广州华见智能科技有限公司 一种基于网络流媒体对骂的情感发泄系统及方法
CN110046634A (zh) * 2018-12-04 2019-07-23 阿里巴巴集团控股有限公司 聚类结果的解释方法和装置
CN112214602B (zh) * 2020-10-23 2023-11-10 中国平安人寿保险股份有限公司 基于幽默度的文本分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Ghosh et al. Fracking sarcasm using neural network
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN109460737A (zh) 一种基于增强式残差神经网络的多模态语音情感识别方法
CN110059193A (zh) 基于法律语义件与文书大数据统计分析的法律咨询系统
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN109299268A (zh) 一种基于双通道模型的文本情感分析方法
Liew et al. EmoTweet-28: A fine-grained emotion corpus for sentiment analysis
CN109543034B (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
CN106503049A (zh) 一种基于svm融合多种情感资源的微博情感分类方法
CN111209384A (zh) 基于人工智能的问答数据处理方法、装置及电子设备
CN109543110A (zh) 一种微博情感分析方法及系统
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN104346336A (zh) 一种基于机器文本对骂的情感发泄方法及系统
CN108763211A (zh) 融合蕴含知识的自动文摘方法及系统
CN109977393B (zh) 一种基于内容争议性的流行新闻预测方法和系统
CN110532363A (zh) 一种基于决策树的任务导向型自动对话方法
KR20130083092A (ko) 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법
TW201640383A (zh) 網路事件自動蒐集分析方法及系統
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN110675292A (zh) 一种基于人工智能的儿童语言能力评测方法
CN114416969A (zh) 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统
CN112784878A (zh) 一种中文议论文智能批改方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: GUANGZHOU HUAJIU INFORMATION TECHNOLOGY CO., LTD.

Document name: Notification of Publication and of Entering the Substantive Examination Stage of the Application for Invention

C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 510000 Guangdong city of Guangzhou province Panyu District Xiaoguwei Street Outer Ring Road No. 232 building 820 room engineering Guangzhou University of Chinese Medicine

Applicant after: GUANGZHOU HUAJIU INFORMATION TECHNOLOGY CO., LTD.

Address before: 510000 Guangdong city of Guangzhou province Panyu District Road seven Xiaoguwei Street No. 66 (self building 2 room 503)

Applicant before: GUANGZHOU HUAJIU INFORMATION TECHNOLOGY CO., LTD.

DD01 Delivery of document by public notice

Addressee: GUANGZHOU HUAJIU INFORMATION TECHNOLOGY CO., LTD.

Document name: Notification of Passing Examination on Formalities

RJ01 Rejection of invention patent application after publication

Application publication date: 20150211

RJ01 Rejection of invention patent application after publication