CN106919661A - 一种情感类型识别方法及相关装置 - Google Patents

一种情感类型识别方法及相关装置 Download PDF

Info

Publication number
CN106919661A
CN106919661A CN201710076549.2A CN201710076549A CN106919661A CN 106919661 A CN106919661 A CN 106919661A CN 201710076549 A CN201710076549 A CN 201710076549A CN 106919661 A CN106919661 A CN 106919661A
Authority
CN
China
Prior art keywords
sentence
identified
feature
basic element
affective style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710076549.2A
Other languages
English (en)
Other versions
CN106919661B (zh
Inventor
管鹤鸣
段向阳
张志浩
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710076549.2A priority Critical patent/CN106919661B/zh
Publication of CN106919661A publication Critical patent/CN106919661A/zh
Application granted granted Critical
Publication of CN106919661B publication Critical patent/CN106919661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例中公开了一种情感类型识别方法及相关装置,应用于预先训练的情感类型识别模型,包括:获取待识别语句;确定待识别语句中的特征基本元素;结合待识别语句的上下文语句,确定待识别语句的语境;依据待识别语句的语境,确定待识别语句中的特征基本元素在所述语境中的特征语义;依据待识别语句中的特征基本元素对应的特征语义,对待识别语句进行情感分析,确定待识别语句的情感类型。待识别语句中特征基本元素对应的特征语义是结合待识别语句的语境确定的,能够依据语境识别出特征基本元素在待识别语句中的真实语义,从而依据待识别语句中特征基本元素对应的真实语义,对待识别语句进行情感识别,提高情感类型识别的准确度。

Description

一种情感类型识别方法及相关装置
技术领域
本发明涉及计算机技术领域,具体涉及一种情感类型识别方法及相关装置。
背景技术
随着网络技术的发展,在各种应用软件中为用户提供了相应的信息发布平台以及交流平台,用户通过信息发布平台以及交流平台进行信息的发布以及交流,例如:用户可以在论坛上发布帖子、可以在聊天工具中进行聊天还可以在一些网站上发表评论等,在一些情况下,应用软件中需要对用户发布以及交流的信息内容进行识别统计,例如:出于网络安全性的考虑,打击网络犯罪现象,需要对用户在网络中发布或交流的信息进行一些敏感信息的识别,并根据识别出的敏感信息采取相应的措施,维护正常的网络秩序;再如:在电商平台中,需要针对用户对某产品的评论信息进行识别,从而了解用户对产品的看法和建议,有助于产品的完善以及服务质量的提升。
但是随着网络用户数量的不断增加,网络中产生的信息量也不断增加,现有技术中为了提高信息内容识别的效率,采用关键字结构识别的方式,通过对用户在网络中发布以及交流的信息进行监控,对信息的内容进行关键字结构的匹配,从而识别出关键字中与情感因素相关的内容,即情感类型。
但是现有技术中,有些非法用户为了躲避网络监控,在网络中发布的信息采用与敏感词汇结构不同但语音相同或相似,或结构相似,但语音不同的词汇,这些字通过关键字结构识别的方式是无法将其情感类型识别出来的,因此,现有技术中的关键字识别情感类型的方式存在识别准确度低的问题。
发明内容
有鉴于此,本发明实施例提供一种情感类型识别方法及相关装置,解决现有技术中的关键字结构识别情感类型的方式,存在的识别准确度低的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种情感类型识别方法,所述方法应用于预先训练的情感类型识别模型,所述方法包括:
获取待识别语句;
对组成所述待识别语句的基本元素进行识别,确定所述待识别语句中的特征基本元素;
结合所述待识别语句的上下文语句,确定所述待识别语句的语境;
依据所述待识别语句的语境,确定所述待识别语句中的特征基本元素在所述语境中的特征语义;
依据所述待识别语句中的特征基本元素对应的特征语义,对所述待识别语句进行情感分析,确定所述待识别语句的情感类型。
一种情感类型识别装置,所述装置应用于预先训练的情感类型识别模型,所述装置包括:
待识别语句获取模块,用于获取待识别语句;
特征基本元素确定模块,用于对组成所述待识别语句的基本元素进行识别,确定所述待识别语句中的特征基本元素;
语境确定模块,用于结合所述待识别语句的上下文语句,确定所述待识别语句的语境;
第一特征语义确定模块,用于依据所述待识别语句的语境,确定所述待识别语句中的特征基本元素在所述语境中的特征语义;
情感类型确定模块,用于依据所述待识别语句中的特征基本元素对应的特征语义,对所述待识别语句进行情感分析,确定所述待识别语句的情感类型。
基于上述技术方案,本发明实施例中公开了一种情感类型识别方法及相关装置,所述方法应用于预先训练的情感类型识别模型,所述方法包括:获取待识别语句;对组成所述待识别语句的基本元素进行识别,确定所述待识别语句中的特征基本元素;结合所述待识别语句的上下文语句,确定所述待识别语句的语境;依据所述待识别语句的语境,确定所述待识别语句中的特征基本元素在所述语境中的特征语义;依据所述待识别语句中的特征基本元素对应的特征语义,对所述待识别语句进行情感分析,确定所述待识别语句的情感类型。由此可知,本发明中并不是依据待识别语句中的基本元素进行情感类型的识别,而是依据待识别语句中的特征基本元素对应的特征语义进行情感类型的识别,本发明中的待识别语句中特征基本元素对应的特征语义是结合待识别语句的语境确定的,能够依据语境识别出与敏感词汇结构不同但语音相同或相似,或结构相似,但语音不同的特征基本元素在待识别语句中的真实语义,从而依据待识别语句中特征基本元素对应的真实语义,对待识别语句进行情感识别,提高了情感类型识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种情感类型识别方法的流程图;
图2为本发明实施例提供的一种情感类型识别架构示意图;
图3为本发明实施例提供的一种确定所述待识别语句中的特征基本元素的方法流程图;
图4为本发明实施例提供的一种情感类型识别模型的训练方法流程图;
图5为本发明实施例提供的一种语料库中显示的部分样本语句示意图;
图6为本发明实施例提供的一种实数向量转化示意图;
图7为本发明实施例提供的一种神经网络模型示意图;
图8为本发明实施例提供的一种情感类型识别装置的结构框图;
图9为本发明实施例提供的一种情感类型识别装置的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在各种应用软件中为用户提供了相应的信息发布平台以及交流平台,用户通过信息发布平台以及交流平台进行信息的发布以及交流,随着网络技术的发展,为了给用户营造一个安全的网络环境,并且提供更好的服务,逐渐对用户在网络中发布或交流语句的情感类型的识别提出了需求。
具体的,对语句的情感类型的识别主要涉及到对语句进行褒义、贬义或者中性的判断识别,以便依据识别到的语句的语义,进行网络非法活动的打击,如网络诈骗等,还可以依据识别到的语句的语义进行问题追踪、用户体验追踪等,能够及时发现用户对产品的体验反馈,及时处理用户的投诉需求,便于对产品的改进以及服务的提升。例如通过对用户之间聊天语句的情感类型识别,从而进行用户画像分类,识别用户的身份,针对识别出的用户不同身份,进行干预保护或者实施打击,对于识别出的合法用户可以推送相应的安全提示,对于识别出的非法用户可以进行相应的处罚,如:禁言或者封号等。由此可知,对用户在网络中发布信息的语句情感类型识别,对于净化网络环境,以及提升服务品质等方面具有重要的意义。
目前现有的情感类型识别方法中,通常采用的是对信息的内容进行关键字结构匹配的方式,通过对关键字结构的识别,匹配用户发布的信息中是否存在敏感词汇。但是,有些非法用户为了躲避网络监控,在网络中发布的信息采用与敏感词汇结构不同但语音相同或相似(例如采用与“代购”结构不同但语音相似的词语“带狗”),或结构相似,但语音不同(例如采用与“人”结构相似但语音不同的词语“入”)的词汇,这些字通过关键字结构识别的方式是无法将其情感类型识别出来的,因此,现有技术中的关键字识别情感类型的方式存在识别准确度低的问题。
基于此,本发明实施例中提供一种情感类型识别方法及相关装置,旨在解决现有技术中的关键字结构识别情感类型的方式,存在的识别准确度低的问题。
图1示出了本发明实施例提出的一种情感类型识别方法的流程图,该方法可由服务器实现,具体应用于预先训练的情感类型识别模型,所述情感类型识别模型采用的是监督式训练方式,以由训练资料中学到或建立一个模式,并依此模式推测新的输出结果。参照图1,所述方法可以包括:
步骤S100、获取待识别语句;
需要说明的是,本发明实施例中可以从应用程序的聊天系统、论坛、问题反馈或投诉交易平台等获取待识别语句。
步骤S110、对组成所述待识别语句的基本元素进行识别,确定所述待识别语句中的特征基本元素;
需要说明的是,待识别语句中的基本元素为构成所述待识别语句的基本符号,可以为构成所述待识别语句的字、词或者拼音,其中,待识别语句中的特征基本元素指的是待识别语句中对待识别语句的语义具有影响度的基本元素,所述特征基本元素可以为构成待识别语句的任一基本元素,本发明实施例不做具体限定。
步骤S120、结合所述待识别语句的上下文语句,确定所述待识别语句的语境;
需要说明的是,所述待识别语句的语境为所述待识别语句在上下文中的语义环境,待识别语句中特征基本元素的语义不仅取决于特征基本元素本身的语义,还受到特征基本元素所在的待识别语句的语境的影响,因为语言中,一个字、词或拼音的意思是向各个方向发散的,也就是说,一个字、词或拼音可能具有多种语义,而具体的待识别语句中一个特征基本元素的具体语义是哪个是要由该特征基本元素所在待识别语句的语境决定的。因此,本发明实施例中需要结合所述待识别语句的语境,来确定待识别语句中的特征基本元素对应的特征语义。
可选的,本发明实施例中公开了一种结合所述待识别语句的上下文语句,确定所述待识别语句的语境的过程包括:获取所述待识别语句的上下文语句;对所述待识别语句的上下文语句中的基本元素进行识别;确定所述待识别语句的上下文语句中的基本元素对应的语境特征;依据所述待识别语句的上下文语句中的基本元素对应的语境特征,确定所述待识别语句的语境。
本发明实施例中可以结合待识别语句的上下文语句,确定所述待识别语句的语境特征,还可以单独依据待识别语句,确定所述待识别语句的语境特征,本发明实施例不做具体限定。
步骤S130、依据所述待识别语句的语境,确定所述待识别语句中的特征基本元素在所述语境中的特征语义;
步骤S140、依据所述待识别语句中的特征基本元素对应的特征语义,对所述待识别语句进行情感分析,确定所述待识别语句的情感类型。
本发明实施例中是依据待识别语句中的特征基本元素对应的特征语义,确定所述待识别语句的情感类型的。只有分析出待识别语句中某个字、词或拼音的真实语义后,才能确定该字、词或拼音的情感类型。
具体的,本发明实施例中可以在预先训练的特征基本元素的特征语义与情感类型对照关系中,对所述待识别语句中的特征基本元素的特征语义进行匹配识别,确定所述待识别语句中的特征基本元素的特征语义对应的情感类型,并将其作为所述待识别语句的情感类型。
由此可知,本发明中并不是依据待识别语句中的基本元素进行情感类型的识别,而是依据待识别语句中的特征基本元素对应的特征语义进行情感类型的识别,本发明中的待识别语句中特征基本元素对应的特征语义是结合待识别语句的语境确定的,能够依据语境识别出与敏感词汇结构不同但语音相同或相似,或结构相似,但语音不同的特征基本元素在待识别语句中的真实语义,从而依据待识别语句中特征基本元素对应的真实语义,对待识别语句进行情感识别,提高了情感类型识别的准确度。
下面以具体的应用场景详细说明本发明实施例中公开的上述情感类型识别方法,以下应用场景所采用的情感类型识别架构如图2所示,具体可以从游戏论坛、客服平台或其他平台中收集用户的聊天语句,并将收集到的聊天语句发送到语义识别集群模块中进行语义识别,确定情感类型,语义识别的过程采用的是情感类型识别模型,情感类型识别模型是通过从运营控制台收集的公共语料库和业务语料库中的语料通过机器学习方法训练的。依据情感类型的识别结果确定用户画像,并可以依据确定的用户画像在征信系统中修改用户的信用度,同时,还可以依据情感类型的识别结果对游戏中相应的玩家实施保护干预或者处罚。具体的,不同场景中对情感类型识别过程请参照以下内容:
场景一:
一个玩家在游戏的公共频道中发布“专业带狗30载,优惠力度空前,有需要的私聊可加君羊,要的来”。
针对以上场景,本发明实施例中公开的情感类型识别方法具体可以为:
获取一个玩家在游戏的公共频道中发布的待识别语句:“专业带狗30载,优惠力度空前,有需要的私聊可加君羊,要的来”;
确定所述待识别语句中的特征基本元素为:“带狗”、“加君羊”;
结合所述待识别语句的语境,确定“带狗”的特征语义为“代购”,“加君羊”的特征语义为“加群”;
依据所述待识别语句中的特征基本元素对应的特征语义“代购”以及“加群”,对所述待识别语句进行情感分析,可知该条语句实际为游戏中的一条交易广告;
当识别出该条语句为交易广告的情况下,可以给收到该语句的玩家发送财产安全的提示信息,并可以追溯发送该语句的玩家账号,并根据该玩家账号在征信系统中的评级,给予一定警告提示,也可以将识别出来的敏感词给予特殊符号替换,还可以对发送该语句的玩家账号进行相应的处罚,如:禁言、封号等。避免当有其他目标对象私聊发送该语句的玩家时,该玩家通过各种手段引诱目标对象登录某个钓鱼网站,并盗取目标对象的虚拟财产(帐号、装备、金钱等)现象的发生,提高网络安全性。
场景二:
游戏新发布了一个版本,包含了多种新的玩法特性,玩家会根据对新玩法的体验在游戏中即时吐槽,如吐槽语句:“这本太难了”。
针对以上场景,本发明实施例中公开的情感类型识别方法具体可以为:
获取玩家在游戏中的即时吐槽语句:“这本太男了”;
确定所述待识别语句中的特征基本元素为:“本”“太男”
结合所述待识别语句的语境,确定“本”的特征语义为游戏中的特色玩法“副本”,“太男”的特征语义为“太难”;
依据所述待识别语句中的特征基本元素对应的特征语义“副本”以及“太难”,对所述待识别语句进行情感分析,可知该条语句为一条反馈游戏问题的语句;
当识别出玩家反馈的游戏问题之后,可以进一步促进对游戏进行改进,提高用户体验。
场景三:
玩家在体验游戏的过程中发现异常,去客服或论坛进行留言,留言的内容为:“账号总掉线,之前获得的装备由于服务器回档而消失”
针对以上场景,本发明实施例中公开的情感类型识别方法具体可以为:
获取玩家在客服或论坛中的留言:“账号总吊线,之前获得的装备由于服务器回档而消失”;
确定留言中的特征基本元素为:“吊线”、“服务器回档”;
结合所述待识别语句的语境,确定“吊线”的特征语义为“掉线”,“服务器回档”的特征语义为保存到上次游戏的进度;
依据所述待识别语句中的特征基本元素对应的特征语义“掉线”以及保存到上次游戏的进度,对所述待识别语句进行情感分析,可知该条语句实际为一条游戏中的投诉语句;
当识别出玩家反馈的投诉问题之后,可以进一步促进对游戏进行改进,提高用户体验。
通过上述实施例可知,由于特征基本元素对于待识别语句的语义具有影响度,因此,准确确定所述待识别语句中的特征基本元素,对于待识别语句的情感类型的识别具有重要意义,据此,图3示出了本发明实施例提供的一种确定所述待识别语句中的特征基本元素的方法流程图,该方法可由服务器实现,参照图3,所述方法可以包括:
步骤S200、对组成所述待识别语句的基本元素进行识别,确定所述待识别语句的语句类型;
本发明实施例中依据不同语句中所包含的基本元素的相似度,将基本元素的相似度大于预设相似度阈值的语句划分到同一种语句类型中。
步骤S210、获取预先训练的与所述待识别语句的语句类型对应的特征基本元素集合;
所述特征基本元素集合中包含有预先训练的与所述待识别语句的语句类型对应的特征基本元素。
本发明实施例中通过对不同语句类型的语句中所包含的特征基本元素进行统计分析,确定不同语句类型的语句各自对应的特征基本元素集合。
例如:对于交易广告类型的语句中对应的特征基本元素可以包括:“代购”、“出金”、“卖金”“收金”等。
步骤S220、从所述待识别语句中确定与特征基本元素集合中的特征基本元素相匹配的基本元素,作为所述待识别语句的特征基本元素。
本发明实施例中将从与所述待识别语句的语句类型对应的特征基本元素集合中的特征基本元素相匹配的基本元素,作为所述待识别语句的特征基本元素。
由于本发明实施例中公开的情感类型识别方法是应用于预先训练的情感类型识别模型的,所述情感类型识别模型的训练过程需要预先收集一些已经划分好情感类型的样本语句,采用预先标注有不同情感类型的样本语句进行模型训练,
据此,图4示出了本发明实施例提供的一种情感类型识别模型的训练方法流程图,该方法可由服务器实现,参照图4,所述方法可以包括:
步骤S300、获取标注有不同情感类型的样本语句;
标注有不同情感类型的样本语句可以存储在语料库中,参照图5语料库中显示的部分样本语句,语料库中的样本语句由网络中出现的书面语或口语的样本汇聚而成,用来代表特定网络语言,通过对语料库中标注有不同情感类型的样本语句进行训练学习,能够分析不同网络语言的情感类型。
语料库中标注有不同情感类型的样本语句可以由技术人员通过终端上传到服务器中,并且可以由技术人员定期进行更新,从而提高语料库中标注有不同情感类型的样本语句的精准度,从而提高情感类型识别模型的训练质量。
需要说明的是,由于获取的样本语句的数据量较大,为了减少数据量的冗余,在获取标注有不同情感类型的样本语句之后,可以对样本语句进行预处理,例如:可以进行文本排重、中文分词、去停用词等,本发明实施例不做具体限定。
步骤S310、对每种情感类型的样本语句进行基本元素的划分;
需要说明的是,本发明实施例中可以对每种情感类型的样本语句基于字、词或者拼音进行划分,字、词或者拼音都可以作为构成样本语句的基本元素。
步骤S320、分别获取每种情感类型的样本语句中每个基本元素各自对应的语义集;
因为语言中,一个字、词或拼音的意思是向各个方向发散的,也就是说,一个字、词或拼音可能具有多种语义,例如:“金”字的语义可能为:金色、金子、金钱等,所以,本发明实施例中为了提高情感类型识别模型的训练质量,需要获取每种情感类型的样本语句中每个基本元素各自对应的语义集。
需要说明的是,在情感类型识别模型的训练过程中,为了简化训练方式,每种情感类型的样本语句可以用数字的形式表示出来,每种字、词或拼音在数字对照表中都各自对应唯一一个实数向量。
据此,如图6显示的实数向量转化示意图,本发明实施例中可以将每种情感类型的样本语句采用one-hot、word embedding、sklearn、numpy、pandas、keras、word2vec等方式进行字向量、词向量或者拼音向量的转化,得到每种情感类型的样本语句各自对应的句向量。
由于本发明实施例中的样本语句中每个基本元素各自对应一语义集,每个基本元素对应的不同语义也可以采用唯一的一个实数向量表示,基于此,样本语句中每个基本元素对应的实数向量与每个基本元素的不同语义各自对应的实数向量可以组成一个多维矩阵,本发明实施例中为了减小多维矩阵的复杂度,可以设定多维矩阵的最大维数为100维,本发明实施例中并不做具体限定。
步骤S330、对每种情感类型的样本语句进行统计分析,获取每种情感类型的样本语句中的特征基本元素;
需要说明的是,本发明实施例中可以分别对每种情感类型的样本语句中的基本元素的出现次数进行统计;将每种情感类型的样本语句中出现次数大于预设次数的基本元素,作为该种情感类型的样本语句中的特征基本元素。
具体实现过程中,本发明实施例可以将上述得到的每种情感类型的样本语句对应的多维向量进行统计分析,将每种情感类型的样本语句中各个基本元素对应的实数向量的出现次数进行统计,获取出现次数于预设次数的实数向量对应的基本元素,作为该种情感类型的样本语句中的特征基本元素。
步骤S340、结合每种情感类型的样本语句的语境,从每种情感类型的样本语句中每个基本元素各自对应的语义集中,确定每种情感类型的样本语句中的特征基本元素对应的特征语义;
由于样本语句中特征基本元素的语义不仅取决于特征基本元素本身的语义,还受到特征基本元素所在的待识别语句的语境的影响,因为语言中,一个字、词或拼音的意思是向各个方向发散的,也就是说,一个字、词或拼音可能具有多种语义,而具体的样本语句中一个特征基本元素的具体语义是哪个是要由该特征基本元素所在样本语句的语境决定的。因此,本发明实施例中需要结合所述样本语句的语境,来确定样本语句中的特征基本元素对应的特征语义。
具体的,本发明实施例中可以结合具有同种情感类型的所有样本语句的语境特征,确定该种情感类型的样本语句中的特征基本元素对应的特征语义。
步骤S350、依据每种情感类型的样本语句对应的特征基本元素以及所述特征基本元素的特征语义,进行模型训练,得到情感类型识别模型。
需要说明的是,本发明实施例中在依据每种情感类型的样本语句对应的特征基本元素以及所述特征基本元素的特征语义,进行模型训练的过程中可以采用神经网络算法,具体的,例如:递归神经网络算法、循环神经网络算法或卷积神经网络算法等。结合图7所示的神经网络模型示意图,可以将样本语句对应的多维矩阵输入到神经网络层中,通过神经网络层中的多个神经元进行特征识别,模型训练,从而得到情感类型识别模型,并在输出端得到样本语句的情感类型。
另外,本发明实施例中在情感类型识别模型的训练过程中可以使用gunicorn作为高并发API(Application Programming Interface,应用程序编程)接口,一个masterprocess和多个worker process.master做绑定端口,提供digger的语义分析工作,便于识别过程中进行平行扩展。
下面对本发明实施例提供的情感类型识别装置进行介绍,下文描述的情感类型识别装置,可与上文描述的情感类型识别方法相互对应参照。下文描述的情感类型识别装置,可以认为是服务器为实现本发明实施例提供的情感类型识别方法,所需设置的功能模块架构。
图8为本发明实施例提供的情感类型识别装置的结构框图,该装置可应用于预先训练的情感类型识别模型,参照图8,该装置可以包括:
待识别语句获取模块100,用于获取待识别语句;
特征基本元素确定模块110,用于对组成所述待识别语句的基本元素进行识别,确定所述待识别语句中的特征基本元素;语境确定模块120,用于结合所述待识别语句的上下文语句,确定所述待识别语句的语境;
第一特征语义确定模块130,用于依据所述待识别语句的语境,确定所述待识别语句中的特征基本元素在所述语境中的特征语义;
情感类型确定模块140,用于依据所述待识别语句中的特征基本元素对应的特征语义,对所述待识别语句进行情感分析,确定所述待识别语句的情感类型。
本发明实施例提供的情感类型识别装置还包括:情感类型识别模型训练模块,用于对情感类型识别模型进行训练;
所述情感类型识别模型训练模块的一种可选方式包括:
样本语句统计分析模块,用于将标注有不同情感类型的样本语句,进行统计分析,获取每种情感类型的样本语句对应的特征基本元素以及所述特征基本元素的特征语义;
情感类型识别模型训练子模块,用于依据每种情感类型的样本语句对应的特征基本元素以及所述特征基本元素的特征语义,进行模型训练,得到情感类型识别模型。
所述样本语句统计分析模块的一种可选方式包括:
基本元素划分模块,用于对每种情感类型的样本语句进行基本元素的划分;
语义集获取模块,用于分别获取每种情感类型的样本语句中每个基本元素各自对应的语义集;
特征基本元素获取模块,用于对每种情感类型的样本语句进行统计分析,获取每种情感类型的样本语句中的特征基本元素;
第二特征语义确定模块,用于结合每种情感类型的样本语句的语境,从每种情感类型的样本语句中每个基本元素各自对应的语义集中,确定每种情感类型的样本语句中的特征基本元素对应的特征语义。
所述特征基本元素获取模块的一种可选方式包括:
次数统计模块,用于分别对每种情感类型的样本语句中的基本元素的出现次数进行统计;
特征基本元素获取子模块,用于将每种情感类型的样本语句中出现次数大于预设次数的基本元素,作为该种情感类型的样本语句中的特征基本元素。
所述特征基本元素确定模块包括:
语句类型确定模块,用于对组成所述待识别语句的基本元素进行识别,确定所述待识别语句的语句类型;
特征基本元素集合获取模块,用于获取预先训练的与所述待识别语句的语句类型对应的特征基本元素集合,所述特征基本元素集合中包含有预先训练的与所述待识别语句的语句类型对应的特征基本元素;
特征基本元素确定子模块,用于从所述待识别语句中确定与特征基本元素集合中的特征基本元素相匹配的基本元素,作为所述待识别语句的特征基本元素。
所述语境确定模块的一种可选方式包括:
上下文语句获取模块,用于获取所述待识别语句的上下文语句;
识别模块,用于对所述待识别语句的上下文语句中的基本元素进行识别;
语境特征确定模块,用于确定所述待识别语句的上下文语句中的基本元素对应的语境特征;
语境确定子模块,用于依据所述待识别语句的上下文语句中的基本元素对应的语境特征,确定所述待识别语句的语境。
所述情感类型确定模块的一种可选方式包括:
情感类型确定子模块,用于在预先训练的特征基本元素的特征语义与情感类型对照关系中,对所述待识别语句中的特征基本元素的特征语义进行匹配识别,确定所述待识别语句中的特征基本元素的特征语义对应的情感类型,并将其作为所述待识别语句的情感类型。
本发明实施例还提供一种服务器,该服务器可以包括上述所述的情感类型识别装置。
可选的,图9示出了服务器的硬件结构,参照图9,该服务器可以包括:
处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,处理器1具体用于:
获取待识别语句;
对组成所述待识别语句的基本元素进行识别,确定所述待识别语句中的特征基本元素;
结合所述待识别语句的上下文语句,确定所述待识别语句的语境;
依据所述待识别语句的语境,确定所述待识别语句中的特征基本元素在所述语境中的特征语义;
依据所述待识别语句中的特征基本元素对应的特征语义,对所述待识别语句进行情感分析,确定所述待识别语句的情感类型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种情感类型识别方法,其特征在于,所述方法应用于预先训练的情感类型识别模型,所述方法包括:
获取待识别语句;
对组成所述待识别语句的基本元素进行识别,确定所述待识别语句中的特征基本元素;
结合所述待识别语句的上下文语句,确定所述待识别语句的语境;
依据所述待识别语句的语境,确定所述待识别语句中的特征基本元素在所述语境中的特征语义;
依据所述待识别语句中的特征基本元素对应的特征语义,对所述待识别语句进行情感分析,确定所述待识别语句的情感类型。
2.根据权利要求1所述的方法,其特征在于,所述情感类型识别模型的训练过程包括:
将标注有不同情感类型的样本语句,进行统计分析,获取每种情感类型的样本语句对应的特征基本元素以及所述特征基本元素的特征语义;
依据每种情感类型的样本语句对应的特征基本元素以及所述特征基本元素的特征语义,进行模型训练,得到情感类型识别模型。
3.根据权利要求2所述的方法,其特征在于,所述将标注有不同情感类型的样本语句,进行统计分析,获取每种情感类型的样本语句对应的特征基本元素以及所述特征基本元素的特征语义的过程包括:
对每种情感类型的样本语句进行基本元素的划分;
分别获取每种情感类型的样本语句中每个基本元素各自对应的语义集;
对每种情感类型的样本语句进行统计分析,获取每种情感类型的样本语句中的特征基本元素;
结合每种情感类型的样本语句的语境,从每种情感类型的样本语句中每个基本元素各自对应的语义集中,确定每种情感类型的样本语句中的特征基本元素对应的特征语义。
4.根据权利要求3所述的方法,其特征在于,所述对每种情感类型的样本语句进行统计分析,获取每种情感类型的样本语句中的特征基本元素的过程包括:
分别对每种情感类型的样本语句中的基本元素的出现次数进行统计;
将每种情感类型的样本语句中出现次数大于预设次数的基本元素,作为该种情感类型的样本语句中的特征基本元素。
5.根据权利要求1所述的方法,其特征在于,所述确定所述待识别语句中的特征基本元素的过程包括:
对组成所述待识别语句的基本元素进行识别,确定所述待识别语句的语句类型;
获取预先训练的与所述待识别语句的语句类型对应的特征基本元素集合,所述特征基本元素集合中包含有预先训练的与所述待识别语句的语句类型对应的特征基本元素;
从所述待识别语句中确定与特征基本元素集合中的特征基本元素相匹配的基本元素,作为所述待识别语句的特征基本元素。
6.根据权利要求1所述的方法,其特征在于,所述结合所述待识别语句的上下文语句,确定所述待识别语句的语境的过程包括:
获取所述待识别语句的上下文语句;
对所述待识别语句的上下文语句中的基本元素进行识别;
确定所述待识别语句的上下文语句中的基本元素对应的语境特征;
依据所述待识别语句的上下文语句中的基本元素对应的语境特征,确定所述待识别语句的语境。
7.根据权利要求1所述的方法,其特征在于,所述依据所述待识别语句中的特征基本元素对应的特征语义,对所述待识别语句进行情感分析,确定所述待识别语句的情感类型的过程包括:
在预先训练的特征基本元素的特征语义与情感类型对照关系中,对所述待识别语句中的特征基本元素的特征语义进行匹配识别,确定所述待识别语句中的特征基本元素的特征语义对应的情感类型,并将其作为所述待识别语句的情感类型。
8.一种情感类型识别装置,其特征在于,所述装置应用于预先训练的情感类型识别模型,所述装置包括:
待识别语句获取模块,用于获取待识别语句;
特征基本元素确定模块,用于对组成所述待识别语句的基本元素进行识别,确定所述待识别语句中的特征基本元素;
语境确定模块,用于结合所述待识别语句的上下文语句,确定所述待识别语句的语境;
第一特征语义确定模块,用于依据所述待识别语句的语境,确定所述待识别语句中的特征基本元素在所述语境中的特征语义;
情感类型确定模块,用于依据所述待识别语句中的特征基本元素对应的特征语义,对所述待识别语句进行情感分析,确定所述待识别语句的情感类型。
9.根据权利要求8所述的装置,其特征在于,还包括:情感类型识别模型训练模块,用于对情感类型识别模型进行训练;
所述情感类型识别模型训练模块包括:
样本语句统计分析模块,用于将标注有不同情感类型的样本语句,进行统计分析,获取每种情感类型的样本语句对应的特征基本元素以及所述特征基本元素的特征语义;
情感类型识别模型训练子模块,用于依据每种情感类型的样本语句对应的特征基本元素以及所述特征基本元素的特征语义,进行模型训练,得到情感类型识别模型。
10.根据权利要求9所述的装置,其特征在于,所述样本语句统计分析模块包括:
基本元素划分模块,用于对每种情感类型的样本语句进行基本元素的划分;
语义集获取模块,用于分别获取每种情感类型的样本语句中每个基本元素各自对应的语义集;
特征基本元素获取模块,用于对每种情感类型的样本语句进行统计分析,获取每种情感类型的样本语句中的特征基本元素;
第二特征语义确定模块,用于结合每种情感类型的样本语句的语境,从每种情感类型的样本语句中每个基本元素各自对应的语义集中,确定每种情感类型的样本语句中的特征基本元素对应的特征语义。
11.根据权利要求10所述的装置,其特征在于,所述特征基本元素获取模块包括:
次数统计模块,用于分别对每种情感类型的样本语句中的基本元素的出现次数进行统计;
特征基本元素获取子模块,用于将每种情感类型的样本语句中出现次数大于预设次数的基本元素,作为该种情感类型的样本语句中的特征基本元素。
12.根据权利要求8所述的装置,其特征在于,所述特征基本元素确定模块包括:
语句类型确定模块,用于对组成所述待识别语句的基本元素进行识别,确定所述待识别语句的语句类型;
征基本元素集合获取模块,用于获取预先训练的与所述待识别语句的语句类型对应的特征基本元素集合,所述特征基本元素集合中包含有预先训练的与所述待识别语句的语句类型对应的特征基本元素;
特征基本元素确定子模块,用于从所述待识别语句中确定与特征基本元素集合中的特征基本元素相匹配的基本元素,作为所述待识别语句的特征基本元素。
13.根据权利要求8所述的装置,其特征在于,所述语境确定模块包括:
上下文语句获取模块,用于获取所述待识别语句的上下文语句;
识别模块,用于对所述待识别语句的上下文语句中的基本元素进行识别;
语境特征确定模块,用于确定所述待识别语句的上下文语句中的基本元素对应的语境特征;
语境确定子模块,用于依据所述待识别语句的上下文语句中的基本元素对应的语境特征,确定所述待识别语句的语境。
14.根据权利要求8所述的装置,其特征在于,所述情感类型确定模块包括:
情感类型确定子模块,用于在预先训练的特征基本元素的特征语义与情感类型对照关系中,对所述待识别语句中的特征基本元素的特征语义进行匹配识别,确定所述待识别语句中的特征基本元素的特征语义对应的情感类型,并将其作为所述待识别语句的情感类型。
CN201710076549.2A 2017-02-13 2017-02-13 一种情感类型识别方法及相关装置 Active CN106919661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710076549.2A CN106919661B (zh) 2017-02-13 2017-02-13 一种情感类型识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710076549.2A CN106919661B (zh) 2017-02-13 2017-02-13 一种情感类型识别方法及相关装置

Publications (2)

Publication Number Publication Date
CN106919661A true CN106919661A (zh) 2017-07-04
CN106919661B CN106919661B (zh) 2020-07-24

Family

ID=59453548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710076549.2A Active CN106919661B (zh) 2017-02-13 2017-02-13 一种情感类型识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN106919661B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480136A (zh) * 2017-08-02 2017-12-15 陈雷 一种应用于电影剧本中情感曲线分析的方法
CN107491435A (zh) * 2017-08-14 2017-12-19 深圳狗尾草智能科技有限公司 基于计算机自动识别用户情感的方法及装置
CN107992471A (zh) * 2017-11-10 2018-05-04 北京光年无限科技有限公司 一种人机交互过程中的信息过滤方法及装置
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置
CN109376354A (zh) * 2018-09-26 2019-02-22 出门问问信息科技有限公司 欺诈行为识别方法、装置、电子设备及可读存储介质
CN109492219A (zh) * 2018-10-25 2019-03-19 山东省通信管理局 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN110457424A (zh) * 2019-06-28 2019-11-15 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN111191463A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 情感分析方法、装置、电子设备及存储介质
CN111354361A (zh) * 2018-12-21 2020-06-30 深圳市优必选科技有限公司 一种情感交流的方法、系统及机器人
CN111651652A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 基于人工智能的情感倾向识别方法、装置、设备及介质
CN112487824A (zh) * 2020-11-19 2021-03-12 平安科技(深圳)有限公司 客服语音情感识别方法、装置、设备及存储介质
CN116955590A (zh) * 2023-09-20 2023-10-27 成都明途科技有限公司 训练数据筛选方法、模型训练方法、文本生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261646A (zh) * 2008-04-11 2008-09-10 北京中星微电子有限公司 一种选择图像的方法及装置
CN102411562A (zh) * 2010-09-21 2012-04-11 朱俭 一种基于语义块的情感特征生成算法
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN104346326A (zh) * 2014-10-23 2015-02-11 苏州大学 一种情绪文本的情绪特征确定方法及装置
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261646A (zh) * 2008-04-11 2008-09-10 北京中星微电子有限公司 一种选择图像的方法及装置
CN102411562A (zh) * 2010-09-21 2012-04-11 朱俭 一种基于语义块的情感特征生成算法
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN104346326A (zh) * 2014-10-23 2015-02-11 苏州大学 一种情绪文本的情绪特征确定方法及装置
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480136B (zh) * 2017-08-02 2020-07-03 逄泽沐风 一种应用于电影剧本中情感曲线分析的方法
CN107480136A (zh) * 2017-08-02 2017-12-15 陈雷 一种应用于电影剧本中情感曲线分析的方法
CN107491435B (zh) * 2017-08-14 2021-02-26 苏州狗尾草智能科技有限公司 基于计算机自动识别用户情感的方法及装置
CN107491435A (zh) * 2017-08-14 2017-12-19 深圳狗尾草智能科技有限公司 基于计算机自动识别用户情感的方法及装置
CN108228704B (zh) * 2017-11-03 2021-07-13 创新先进技术有限公司 识别风险内容的方法及装置、设备
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN107992471A (zh) * 2017-11-10 2018-05-04 北京光年无限科技有限公司 一种人机交互过程中的信息过滤方法及装置
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置
CN108897732B (zh) * 2018-06-08 2020-08-25 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置
CN109376354A (zh) * 2018-09-26 2019-02-22 出门问问信息科技有限公司 欺诈行为识别方法、装置、电子设备及可读存储介质
CN109492219A (zh) * 2018-10-25 2019-03-19 山东省通信管理局 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109684634B (zh) * 2018-12-17 2023-07-25 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN111354361A (zh) * 2018-12-21 2020-06-30 深圳市优必选科技有限公司 一种情感交流的方法、系统及机器人
CN110457424A (zh) * 2019-06-28 2019-11-15 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备
CN111191463A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 情感分析方法、装置、电子设备及存储介质
CN111651652A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 基于人工智能的情感倾向识别方法、装置、设备及介质
CN111651652B (zh) * 2020-04-30 2023-11-10 中国平安财产保险股份有限公司 基于人工智能的情感倾向识别方法、装置、设备及介质
CN112487824A (zh) * 2020-11-19 2021-03-12 平安科技(深圳)有限公司 客服语音情感识别方法、装置、设备及存储介质
CN112487824B (zh) * 2020-11-19 2024-05-14 平安科技(深圳)有限公司 客服语音情感识别方法、装置、设备及存储介质
CN116955590A (zh) * 2023-09-20 2023-10-27 成都明途科技有限公司 训练数据筛选方法、模型训练方法、文本生成方法
CN116955590B (zh) * 2023-09-20 2023-12-08 成都明途科技有限公司 训练数据筛选方法、模型训练方法、文本生成方法

Also Published As

Publication number Publication date
CN106919661B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN106919661A (zh) 一种情感类型识别方法及相关装置
Hernandez et al. Natural language descriptions of deep visual features
Nan et al. Improving factual consistency of abstractive summarization via question answering
Cummins et al. Multimodal bag-of-words for cross domains sentiment analysis
CN105095190B (zh) 一种基于中文语义结构和细分词库结合的情感分析方法
CN108897732B (zh) 语句类型识别方法和装置、存储介质及电子装置
CN105095415B (zh) 网络情绪的确定方法和装置
CN108052586A (zh) 舆情分析方法、系统、计算机设备和存储介质
Alberink et al. Fingermark evidence evaluation based on automated fingerprint identification system matching scores: the effect of different types of conditioning on likelihood ratios
CN108345587A (zh) 一种评论的真实性检测方法与系统
Huang et al. Hunting suicide notes in web 2.0-preliminary findings
CN102542063B (zh) 内容过滤的方法、装置及系统
CN104484336B (zh) 一种中文评论分析方法及其系统
CN109948438A (zh) 自动面试评分方法、装置、系统、计算机设备及存储介质
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN107038154A (zh) 一种文本情感识别方法和装置
CN103729474A (zh) 用于识别论坛用户马甲账号的方法和系统
Buchanan et al. The efficacy of utilising Nvivo for interview data from the electronic gaming industry in two jurisdictions
CN110427549A (zh) 一种网络舆论溯源分析方法、装置、终端及存储介质
CN109766419A (zh) 基于语音分析的产品推荐方法、装置、设备及存储介质
CN110119443A (zh) 一种面向推荐服务的情感分析方法
CN107341157B (zh) 一种客服对话聚类方法和装置
CN113434670A (zh) 话术文本生成方法、装置、计算机设备和存储介质
Yigezu et al. Evaluating the effectiveness of hybrid features in fake news detection on social media
Zhou et al. Odsum: New benchmarks for open domain multi-document summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant