CN110377733A - 一种基于文本的情绪识别方法、终端设备及介质 - Google Patents

一种基于文本的情绪识别方法、终端设备及介质 Download PDF

Info

Publication number
CN110377733A
CN110377733A CN201910577822.9A CN201910577822A CN110377733A CN 110377733 A CN110377733 A CN 110377733A CN 201910577822 A CN201910577822 A CN 201910577822A CN 110377733 A CN110377733 A CN 110377733A
Authority
CN
China
Prior art keywords
text
identified
vector
default
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910577822.9A
Other languages
English (en)
Other versions
CN110377733B (zh
Inventor
占小杰
方豪
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910577822.9A priority Critical patent/CN110377733B/zh
Publication of CN110377733A publication Critical patent/CN110377733A/zh
Application granted granted Critical
Publication of CN110377733B publication Critical patent/CN110377733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于人工智能技术领域,提供了一种基于文本的情绪识别方法、终端设备及介质,包括:对待识别文本进行翻译,得到待识别文本的各个预设语种的译文;确定各个预设语种的译文的特征向量,并基于所有预设语种的译文的特征向量确定待识别文本的特征向量;将待识别文本的特征向量输入至预先训练好的文本分类模型,得到待识别文本的类别置信度向量;类别置信度向量中的每个元素的值用于标识待识别文本属于该元素对应的预设情绪类别的概率;将类别置信度向量中值最大的元素对应的预设情绪类别确定为待识别文本所属的预设情绪类别。本发明实施例提供的情绪识别方法能够综合考虑不同语种之间情绪表达的不一致性,提高了文本情绪识别的准确度。

Description

一种基于文本的情绪识别方法、终端设备及介质
技术领域
本发明属于人工智能技术领域,尤其涉及一种基于文本的情绪识别方法、终端设备及计算机可读存储介质。
背景技术
随着互联网技术的快速发展,网络上的电子文本呈几何级数不断增长,而在很多场景下,都需要对电子文本所表达的情绪进行识别,例如,为了获知用户对某件商品或某客服人员的满意程度,就需要对用户在商品评论区或客服意见区发表的文本所表达的情绪进行识别。现有的基于文本的情绪识别方法通常是先对文本进行预处理得到文本的特征向量,再将文本的特征向量导入训练好的情绪识别模型,通过情绪识别模型对文本所表达的情绪进行识别。
然而现有的基于文本的情绪识别方法在对文本进行预处理时,通常直接对文本进行分词处理,并基于分词处理得到的各个词语的词向量确定文本的特征向量,而不会考虑表达文本的语种的多样性。由于不同语种的情绪表达方式不一致,因而,不考虑表达文本的语种的多样性而直接对文本进行预处理会导致文本情绪识别的准确度降低。
发明内容
有鉴于此,本发明实施例提供了一种基于文本的情绪识别方法、终端设备及计算机可读存储介质,以解决现有的基于文本的情绪识别方法存在的文本情绪识别准确度较低的问题。
本发明实施例的第一方面提供了一种基于文本的情绪识别方法,包括:
对待识别文本进行翻译,得到所述待识别文本的各个预设语种的译文;
确定各个所述预设语种的译文的特征向量,并基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量;
将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量;所述类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的预设情绪类别的概率;
将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述待识别文本所属的预设情绪类别。
本发明实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下各步骤:
对待识别文本进行翻译,得到所述待识别文本的各个预设语种的译文;
确定各个所述预设语种的译文的特征向量,并基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量;
将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量;所述类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的预设情绪类别的概率;
将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述待识别文本所属的预设情绪类别。
本发明实施例的第三方面提供了一种终端设备,包括:
翻译单元,用于对待识别文本进行翻译,得到所述待识别文本的各个预设语种的译文;
第一确定单元,用于确定各个所述预设语种的译文的特征向量,并基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量;
概率计算单元,用于将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量;所述类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的预设情绪类别的概率;
第二确定单元,用于将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述待识别文本所属的预设情绪类别。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现以下各步骤:
对待识别文本进行翻译,得到所述待识别文本的各个预设语种的译文;
确定各个所述预设语种的译文的特征向量,并基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量;
将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量;所述类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的预设情绪类别的概率;
将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述待识别文本所属的预设情绪类别。
实施本发明实施例提供的一种基于文本的情绪识别方法、终端设备及计算机可读存储介质具有以下有益效果:
本发明实施例在对文本进行情绪识别时,无论待识别文本通过几种语种表述,均先对待识别文本进行翻译,得到待识别文本的各个预设语种的译文;并根据所有预设语种的译文的特征向量综合确定待识别文本的特征向量;将待识别文本的特征向量输入至预先训练好的文本分类模型,得到待识别文本的类别置信度向量;将类别置信度向量中值最大的元素对应的预设情绪类别确定为待识别文本所属的预设情绪类别。如此可见,无论待识别文本通过几种不同的语种混合表述,本发明实施例提供的情绪识别方法均能够综合考虑不同语种之间情绪表达的不一致性,提高了文本情绪识别的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于文本的情绪识别方法的实现流程图;
图2是本发明实施例提供的一种基于文本的情绪识别方法中S2的具体实现流程图;
图3是本发明实施例提供的一种基于文本的情绪识别方法中S3的具体实现流程图;
图4是本发明实施例提供的一种基于文本的情绪识别方法中S32的具体实现流程图;
图5是本发明实施例提供的一种基于文本的情绪识别方法中S33的具体实现流程图;
图6是本发明实施例提供的一种终端设备的结构框图;
图7是本发明另一实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,图1是本发明实施例提供的一种基于文本的情绪识别方法的实现流程图。本实施例中,基于文本的情绪识别方法的执行主体为终端设备。终端设备包括但不限于智能手机、平板电脑或台式电脑。如图1所示的基于文本的情绪识别方法包括以下步骤:
S1:对待识别文本进行翻译,得到所述待识别文本的各个预设语种的译文。
待识别文本通常是用于表达某种主张、疑问、命令、愿望或感叹等的一条语句或者至少两条语句的组合。示例性的,待识别文本可以是互联网网站或应用软件(application,APP)中发布的社交信息,例如,待识别文本可以是产品销售网站中某产品评论区的评论信息,也可以是社交APP的聊天界面中的聊天信息等,此处不做限制。可以理解的是,由于互联网言论的自由性,因而,在实际应用场景中,待识别文本可以是通过任意一种语种表述的,也可以是通过至少两种不同语种的组合表述的,例如,待识别文本可以是通过纯中文、纯英文或纯日文等表述的,也可以是通过中文和英文的组合表述的,或者还可以是通过中文、英文及日文的组合表述的,此处不做限制。
当需要对文本所表达的情绪进行识别时,可以通过终端设备触发文本情绪识别请求,文本情绪识别请求用于指示终端设备对待识别文本所表达的情绪进行识别。本发明实施例中,对待识别文本所表达的情绪进行识别是指将待识别文本归于预设情绪类别中的某一类或某几类的过程,因此,终端设备接收到文本情绪识别请求时,获取待识别文本,并基于预设翻译工具对待识别文本进行翻译,得到待识别文本的各个预设语种的译文。
其中,预设语种包括至少两种语种,预设语种可以根据实际需求设置。例如,预设语种可以包括但不限于中文、英文、日文、法文及俄文,终端设备获取到待识别文本后,采用预设翻译工具对待识别文本进行翻译,分别得到待识别文本的中文译文、英文译文、日文译文、法文译文及俄文译文。也就是说,无论待识别文本是通过一种语种表述的,还是通过至少两种语种的组合表述的,每一待识别文本经翻译后均可以得到预设数目个译文,该预设数目与预设语种的种类数相等。本发明实施例中,预设翻译工具可以实现任意两种语种之间的相互转换,预设翻译工具可以根据实际需求设置,此处不做限制。
S2:确定各个所述预设语种的译文的特征向量,并基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量。
终端设备得到待识别文本的各个预设语种的译文后,确定待识别文本的各个预设语种的译文的特征向量。其中,待识别文本的预设语种的译文的特征向量是待识别文本的预设语种的译文所表达的含义的数字化向量表示。
具体的,作为本发明一实施例,终端设备可以通过如图2所示的S21~S22确定待识别文本的各个预设语种的译文的特征向量:
S21:对所述预设语种的译文进行预处理,得到所述预设语种的译文的词序列;所述词序列包括至少一个词语。
本实施例中,终端设备得到待识别文本的各个预设语种的译文后,对待识别文本的每一预设语种的译文均进行预处理,进而得到每一预设语种的译文的词序列。需要说明的是,每一预设语种的译文的词序列均包括至少一个词语。
本实施例中,终端设备对待识别文本的预设语种的译文进行预处理具体可以包括:对待识别文本的每一预设语种的译文均进行分词处理,进而将待识别文本的每一预设语种的译文均分为若干个词语,再对分词处理后的每一预设语种的译文所包含的词语进行去停用词处理,将去停用词处理后的每一预设语种的译文中剩余的词语构成的词序列分别作为每一预设语种的译文的词序列。
S22:基于预先为所述预设语种配置的词向量模型,确定所述预设语种的译文的词序列中包含的各个词语的词向量,将所述预设语种的译文的词序列中包含的所有词语的词向量进行拼接,得到所述预设语种的译文的特征向量。
本实施例中,每一预设语种均预先配置有一训练好的词向量模型,每一预设语种的词向量模型均包括该预设语种下的大部分词语的词向量,词语的词向量是词语特征的数字化向量表示,不同词语的词向量不同,词向量的维度可以根据实际需求设置,此处不做限制。在实际应用中,词向量模型可以是基于Word2Vec模型的词向量模型,也可以是其他类型的词向量模型,此处不做限制。
终端设备得到待识别文本的各个预设语种的译文的词序列后,基于预先为每一预设语种配置的词向量模型,确定每一预设语种的译文的词序列中包含的各个词语的词向量,将每一预设语种的译文的词序列中包含的所有词语的词向量进行拼接,进而得到每一预设语种的译文的特征向量。
作为本发明一实施例,终端设备确定了各个预设语种的译文的特征向量后,可以基于如下方式确定待识别文本的特征向量:
基于各个所述预设语种的预设权重,将所有所述预设语种的译文的特征向量进行加权求和,得到所述待识别文本的特征向量。
本实施例中,可以根据各个预设语种相对于情绪分类结果的重要程度预先为各个预设语种配置相应的预设权重,所有预设语种的预设权重之和为1。终端设备确定了各个预设语种的译文的特征向量后,可以获取预先为各个预设语种配置的预设权重,并基于各个预设语种的预设权重,将所有预设语种的译文的特征向量进行加权求和,得到待识别文本的特征向量。
作为本发明另一实施例,终端设备确定了各个预设语种的译文的特征向量后,还可以基于如下方式确定待识别文本的特征向量:
将所有所述预设语种的译文的特征向量进行拼接,得到所述待识别文本的特征向量。
本实施例中,终端设备确定了各个预设语种的译文的特征向量后,将所有预设语种的译文的特征向量进行拼接,进而得到待识别文本的特征向量,需要说明的是,本实施例中,待识别文本的特征向量的维度为所有预设语种的译文的特征向量的维度之和。
S3:将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量;所述类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的预设情绪类别的概率。
本发明实施例中,文本分类模型是基于预设数据集,采用半监督学习算法对预先构建的卷积神经网络模型进行训练得到的。预设数据集由已分类文本数据集及未分类文本数据集构成,已分类文本数据集中的每条数据均由一文本的特征向量及该文本的类别置信度向量构成,未分类文本数据集中的每条数据均由一文本的特征向量构成。其中,类别置信度向量中的每个元素的值用于标识文本属于该元素对应的预设情绪类别的概率。预设情绪类别可根据实际需求进行设置,此处不做限制。示例性的,当需要对文本进行粗分类时,可以设置多个不同的一级情绪类别作为预设情绪类别;当需要对文本进行细分类时,可以在每个一级情绪类别下划分多个不同的二级情绪类别,在每个二级情绪类别下划分多个三级情绪类别,以此类推,将所有一级情绪类别、二级情绪类别及三级情绪类别等均作为预设情绪类别。
在对卷积神经网络模型进行训练时,先将已分类文本数据集中的每条数据包含的文本的特征向量作为卷积神经网络模型的输入,将已分类文本数据集中的每条数据包含的文本的类别置信度向量作为卷积神经网络模型的输出,对卷积神经网络模型进行初级训练,得到初级预测模型;再将未分类文本数据集中的每条数据中包含的文本的特征向量输入至初级预测模型,通过初级预测模型预测未分类文本数据集中的每条数据对应的文本的类别置信度向量;然后将未分类文本数据集中的每条数据包含的文本的特征向量与该条数据对应的文本的类别置信度向量进行关联,得到伪分类文本数据集;最后将已分类文本数据集及伪分类文本数据集中的每条数据包含的文本的特征向量作为初级预测模型的输入,将已分类文本数据集及伪分类文本数据集中的每条数据包含的文本的类别置信度向量作为初级预测模型的输出,对初级预测模型进行终极训练,将完成终极训练的初级预测模型确定为文本分类模型。
需要说明的是,本实施例中,终端设备可以在对文本分类模型的训练过程中学习到绝大多数文本的特征向量对应的类别置信度向量,即学习到绝大多数文本的特征向量与其类别置信度向量之间的对应关系。
本发明实施例中,终端设备确定了待识别文本的特征向量后,将待识别文本的特征向量导入文本分类模型,在文本分类模型中基于待识别文本的特征向量及预先学习到的各个文本的特征向量与类别置信度向量之间的对应关系,确定待识别文本的类别置信度向量。
S4:将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述待识别文本所属的预设情绪类别。
由于待识别文本的类别置信度向量中的每个元素的值用于标识待识别文本属于该元素对应的预设情绪类别的概率,因此,类别置信度向量中某一元素的值越大,表明待识别文本属于该元素对应的预设情绪类别的可能性就越大,因此,终端设备得到待识别文本的类别置信度向量后,可以将类别置信度向量中值最大的元素对应的预设情绪类别确定为待识别文本所属的预设情绪类别。
以上可以看出,本发明实施例提供的一种基于文本的情绪识别方法在对文本进行情绪识别时,无论待识别文本通过几种语种表述,均先对待识别文本进行翻译,得到待识别文本的各个预设语种的译文;并根据所有预设语种的译文的特征向量综合确定待识别文本的特征向量;将待识别文本的特征向量输入至预先训练好的文本分类模型,得到待识别文本的类别置信度向量;将类别置信度向量中值最大的元素对应的预设情绪类别确定为待识别文本所属的预设情绪类别。如此可见,无论待识别文本通过几种不同的语种混合表述,本发明实施例提供的情绪识别方法均能够综合考虑不同语种之间情绪表达的不一致性,提高了文本情绪识别的准确度。
请参阅图3,图3是本发明实施例提供的一种基于文本的情绪识别方法中S3的具体实现流程图。相对于图1对应的实施例,本实施例中的文本分类模型包括N层级联的卷积神经网络;N为大于或等于2的整数;本实施例提供的基于文本的情绪识别方法中的S3可以包括S31~S33,详述如下:
S31:将所述待识别文本的特征向量分别导入N层所述卷积神经网络中。
本实施例中,文本分类模型包括N层级联的卷积神经网络,级联指每层卷积神经网络的输入端与上一层卷积神经网络的输出端连接,或每层卷积神经网络的输出端与下一层卷积神经网络的输入端连接。需要说明的是,下一级卷积神经网络输出的类别置信度向量中的各个元素对应的预设情绪类别是上一级卷积神经网络输出的类别置信度向量中相应元素对应的预设情绪类别的子类别,也就是说,下一级卷积神经网络模型输出的类别置信度向量与上一级卷积神经网络模型输出的类别置信度向量之间存在关联关系。
本实施例中,为了为待识别文本添加多个不同级别的情绪标签,终端设备得到待识别文本的特征向量后,将待识别文本的特征向量分别导入文本分类模型的N层卷积神经网络中。
S32:在第一层所述卷积神经网络中基于所述待识别文本的特征向量确定所述待识别文本的第一级类别置信度向量,并将所述第一级类别置信度向量输入至第二层所述卷积神经网络中;所述第一级类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的第一级预设情绪类别的概率。
终端设备将待识别文本的特征向量导入文本分类模型的N层卷积神经网络中后,在第一层卷积神经网络中基于待识别文本的特征向量确定待识别文本的第一级类别置信度向量。其中,第一类别置信度向量中的每个元素的值用于标识待识别文本属于该元素对应的第一级预设情绪类别的概率。
作为本发明一实施例,终端设备在第一层卷积神经网络中基于待识别文本的特征向量确定待识别文本的第一级类别置信度向量的过程具体可通过如图4所示的S321~S322实现,详述如下:
S321:在第一层所述卷积神经网络中对所述待识别文本的特征向量进行降维处理,并基于第一层所述卷积神经网络对应的预设卷积核对降维处理后的所述特征向量进行卷积处理,得到所述待识别文本的第一级情绪向量。
本实施例中,终端设备在第一层卷积神经网络中先对待识别文本的特征向量进行降维处理。在实际应用中,终端设备可以采用主成分分析(Principal ComponentAnalysis,PCA)算法对待识别文本的特征向量进行降维处理,也可以通过T分布随机邻域嵌入(T-distributed Stochastic Neighbor Embedding,T-SNE)算法对待识别文本的特征向量进行降维处理,具体根据实际需求设置。
需要说明的是,本实施例中,每一层卷积神经网络均预先设置有一预设卷积核,每一层卷积神经网络对应的预设卷积核的参数可由终端设备在对文本分类模型的训练过程中学习得到。
终端设备在第一层卷积神经网络中对待识别文本的特征向量进行降维处理后,基于第一卷积神经网络对应的预设卷积核对降维处理后的待识别文本的特征向量进行卷积处理,得到待识别文本的第一级情绪向量。
需要说明的是,待识别文本的第一级情绪向量所表示的情绪深度大于待识别文本的特征向量所表示的情绪深度。
S322:基于所述待识别文本的第一级情绪向量及预先学习到的各个文本的第一级情绪向量与第一级类别置信度向量之间的对应关系,确定所述待识别文本的第一级类别置信度向量。
本实施例中,在对文本分类模型进行训练时,终端设备还可以在文本分类模型的第一层卷积神经网络中学习到多数文本的第一级情绪向量与第一级类别置信度向量之间的对应关系。终端设备得到待识别文本的第一级情绪向量后,将待识别文本的第一级情绪向量与各个文本的第一级情绪向量进行比较,并将第一级情绪向量与待识别文本的第一级情绪向相同的文本对应的第一级类别置信度向量确定为待识别文本的第一级类别置信度向量。
终端设备得到待识别文本的第一级类别置信度向量后,将待识别文本的第一级类别置信度向量输入至第二层卷积神经网络中,同时,终端设备将第一级类别置信度向量中值最高的元素对应的第一级预设情绪类别确定为待识别文本所属的第一级预设情绪类别。
S33:在第i层所述卷积神经网络中基于所述待识别文本的特征向量及第i-1层所述卷积神经网络输出的第i-1级类别置信度向量,确定所述待识别文本的第i级类别置信度向量;i={2,…,N};所述第i级类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的第i级预设情绪类别的概率。
本实施例中,终端设备会在第i层卷积神经网络中接收到来自第i-1层卷积神经网络输出的待识别文本的第i-1级类别置信度向量,终端设备在第i层卷积神经网络中接收到待识别文本的第i-1级类别置信度向量后,基于待识别文本的特征向量及第i-1级类别置信度向量,确定待识别文本的第i级类别置信度向量。其中,i为大于或等于2且小于或等于N的整数,第i级类别置信度向量中的每个元素的值用于标识待识别文本属于该元素对应的第i级预设情绪类别的概率。需要说明的是,第i级卷积神经网络输出的类别置信度向量中的各个元素对应的预设情绪类别是第i-1级卷积神经网络输出的类别置信度向量中相应元素对应的预设情绪类别的子类别。
作为本发明一实施例,S33具体可通过如图5所示的S331~S333实现,详述如下:
S331:在第i层所述卷积神经网络中对所述待识别文本的特征向量进行降维处理,将降维处理后的所述特征向量与所述待识别文本的第i-1级类别置信度向量进行组合,得到所述待识别文本的第i级组合向量。
本实施例中,终端设备在第i层卷积神经网络中先对待识别文本的特征向量进行降维处理。在实际应用中,终端设备可以采用主成分分析(Principal ComponentAnalysis,PCA)算法对待识别文本的特征向量进行降维处理,也可以通过T分布随机邻域嵌入(T-distributed Stochastic Neighbor Embedding,T-SNE)算法对待识别文本的特征向量进行降维处理,具体根据实际需求设置。
终端设备在第i层卷积神经网络中对待识别文本的特征向量进行降维处理后,将降维处理后的特征向量与待识别文本的第i-1级类别置信度向量进行组合,得到待识别文本的第i级组合向量。其中,待识别文本的特征向量与其第i-1级类别置信度之间的组合方式可根据实际需求设置,组合得到的第i级组合向量的维度是待识别文本的特征向量的维度与第i-1级类别置信度的维度之和。
S332:基于第i层所述卷积神经网络对应的预设卷积核对所述待识别文本的第i级组合向量进行卷积处理,得到所述待识别文本的第i级情绪向量。
终端设备在第i层卷积神经网络中得到待识别文本的第i级组合向量后,基于第i层卷积神经网络对应的预设卷积核对第i级组合向量进行卷积处理,得到待识别文本的第i级情绪向量。待识别文本的第i级情绪向量所表示的情绪深度大于待识别文本的第i级组合向量所表示的情绪深度。
S333:基于所述待识别文本的第i级情绪向量及预先学习到的各个第i级情绪向量与第i级类别置信度向量之间的对应关系,确定所述待识别文本的第i级类别置信度向量。
本实施例中,在对文本分类模型进行训练时,终端设备还可以在文本分类模型的第i层卷积神经网络中学习到多数文本的第i级情绪向量与第i级类别置信度向量之间的对应关系。终端设备得到待识别文本的第i级情绪向量后,将待识别文本的第i级情绪向量与各个文本的第i级情绪向量进行比较,并将第i级情绪向量与待识别文本的第i级情绪向相同的文本对应的第i级类别置信度向量确定为待识别文本的第i级类别置信度向量。
终端设备得到待识别文本的第i级类别置信度向量后,可以将第i级类别置信度向量中值最高的元素对应的第i级预设情绪类别确定为待识别文本所属的第i级预设情绪类别。
以上可以看出,本实施例提供的一种基于文本的情绪识别方法可以为待识别文本添加多个不同层级的情绪标签,使得对文本的情绪识别更加准确。
请参阅图6,图6是本发明实施例提供的一种终端设备的结构框图。本实施例中的终端设备可以是智能手机、平板电脑等终端设备。该终端设备包括的各单元用于执行图1至图5对应的实施例中的各步骤。具体请参阅图1至图5以及图1至图5所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图6,终端设备600包括:翻译单元61、第一确定单元62、概率计算单元63及第二确定单元64。其中:
61翻译单元用于对待识别文本进行翻译,得到所述待识别文本的各个预设语种的译文。
第一确定单元62用于确定各个所述预设语种的译文的特征向量,并基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量。
概率计算单元63用于将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量;所述类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的预设情绪类别的概率。
第二确定单元64用于将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述待识别文本所属的预设情绪类别。
作为本发明一实施例,第一确定单元62具体包括预处理单元及词向量确定单元。其中:
预处理单元用于对所述预设语种的译文进行预处理,得到所述预设语种的译文的词序列;所述词序列包括至少一个词语。
词向量确定单元用于基于预先为所述预设语种配置的词向量模型,确定所述预设语种的译文的词序列中包含的各个词语的词向量,将所述预设语种的译文的词序列中包含的所有词语的词向量进行拼接,得到所述预设语种的译文的特征向量。
作为本发明一实施例,第一确定单元62还包括特征向量计算单元。
特征向量计算单元用于基于各个所述预设语种的预设权重,将所有所述预设语种的译文的特征向量进行加权求和,得到所述待识别文本的特征向量。
作为本发明一实施例,所述文本分类模型包括N层级联的卷积神经网络;N为大于或等于2的整数;概率计算单元63包括:输入单元、第三确定单元及第四确定单元。其中:
输入单元用于将所述待识别文本的特征向量分别导入N层所述卷积神经网络中。
第三确定单元用于在第一层所述卷积神经网络中基于所述待识别文本的特征向量确定所述待识别文本的第一级类别置信度向量,并将所述第一级类别置信度向量输入至第二层所述卷积神经网络中;所述第一级类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的第一级预设情绪类别的概率。
第四确定单元用于在第i层所述卷积神经网络中基于所述待识别文本的特征向量及第i-1层所述卷积神经网络输出的第i-1级类别置信度向量,确定所述待识别文本的第i级类别置信度向量;i={2,…,N};所述第i级类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的第i级预设情绪类别的概率。
作为本发明一实施例,第三确定单元包括:第一卷积单元及第一向量确定单元。其中:
第一卷积单元用于在第一层所述卷积神经网络中对所述待识别文本的特征向量进行降维处理,并基于第一层所述卷积神经网络对应的预设卷积核对降维处理后的所述特征向量进行卷积处理,得到所述待识别文本的第一级情绪向量。
第一向量确定单元用于基于所述待识别文本的第一级情绪向量及预先学习到的各个文本的第一级情绪向量与第一级类别置信度向量之间的对应关系,确定所述待识别文本的第一级类别置信度向量。
作为本发明一实施例,第四确定单元包括:降维组合单元、第二卷积单元及第二向量确定单元。其中:
降维组合单元用于在第i层所述卷积神经网络中对所述待识别文本的特征向量进行降维处理,将降维处理后的所述特征向量与所述待识别文本的第i-1级类别置信度向量进行组合,得到所述待识别文本的第i级组合向量。
第二卷积单元用于基于第i层所述卷积神经网络对应的预设卷积核对所述待识别文本的第i级组合向量进行卷积处理,得到所述待识别文本的第i级情绪向量。
第二向量确定单元用于基于所述待识别文本的第i级情绪向量及预先学习到的各个第i级情绪向量与第i级类别置信度向量之间的对应关系,确定所述待识别文本的第i级类别置信度向量。
以上可以看出,本实施例提供的终端设备在对文本进行情绪识别时,无论待识别文本通过几种语种表述,均先对待识别文本进行翻译,得到待识别文本的各个预设语种的译文;并根据所有预设语种的译文的特征向量综合确定待识别文本的特征向量;将待识别文本的特征向量输入至预先训练好的文本分类模型,得到待识别文本的类别置信度向量;将类别置信度向量中值最大的元素对应的预设情绪类别确定为待识别文本所属的预设情绪类别。如此可见,无论待识别文本通过几种不同的语种混合表述,本发明实施例提供的终端设备均能够综合考虑不同语种之间情绪表达的不一致性,提高了文本情绪识别的准确度。
图7是本发明另一实施例提供的一种终端设备的结构框图。如图7所示,该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如基于文本的情绪识别方法的程序。处理器70执行所述计算机程序72时实现上述各个基于文本的情绪识别方法各实施例中的步骤,例如图1所示的S1至S4。或者,所述处理器70执行所述计算机程序72时实现上述图6对应的实施例中各单元的功能,例如,图6所示的单元61至64的功能,具体请参阅图6对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序72可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。例如,所述计算机程序72可以被分割成翻译单元、第一确定单元、概率计算单元及第二确定单元,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于文本的情绪识别方法,其特征在于,包括:
对待识别文本进行翻译,得到所述待识别文本的各个预设语种的译文;
确定各个所述预设语种的译文的特征向量,并基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量;
将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量;所述类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的预设情绪类别的概率;
将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述待识别文本所属的预设情绪类别。
2.根据权利要求1所述的基于文本的情绪识别方法,其特征在于,所述确定各个所述预设语种的译文的特征向量,包括:
对所述预设语种的译文进行预处理,得到所述预设语种的译文的词序列;所述词序列包括至少一个词语;
基于预先为所述预设语种配置的词向量模型,确定所述预设语种的译文的词序列中包含的各个词语的词向量,将所述预设语种的译文的词序列中包含的所有词语的词向量进行拼接,得到所述预设语种的译文的特征向量。
3.根据权利要求1所述的基于文本的情绪识别方法,其特征在于,所述基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量,包括:
基于各个所述预设语种的预设权重,将所有所述预设语种的译文的特征向量进行加权求和,得到所述待识别文本的特征向量。
4.根据权利要求1至3任一项所述的基于文本的情绪识别方法,其特征在于,所述文本分类模型包括N层级联的卷积神经网络;N为大于或等于2的整数;
所述将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量,包括:
将所述待识别文本的特征向量分别导入N层所述卷积神经网络中;
在第一层所述卷积神经网络中基于所述待识别文本的特征向量确定所述待识别文本的第一级类别置信度向量,并将所述第一级类别置信度向量输入至第二层所述卷积神经网络中;所述第一级类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的第一级预设情绪类别的概率;
在第i层所述卷积神经网络中基于所述待识别文本的特征向量及第i-1层所述卷积神经网络输出的第i-1级类别置信度向量,确定所述待识别文本的第i级类别置信度向量;i={2,…,N};所述第i级类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的第i级预设情绪类别的概率。
5.根据权利要求4所述的基于文本的情绪识别方法,其特征在于,所述在第一层所述卷积神经网络中基于所述待识别文本的特征向量确定所述待识别文本的第一级类别置信度向量,包括:
在第一层所述卷积神经网络中对所述待识别文本的特征向量进行降维处理,并基于第一层所述卷积神经网络对应的预设卷积核对降维处理后的所述特征向量进行卷积处理,得到所述待识别文本的第一级情绪向量;
基于所述待识别文本的第一级情绪向量及预先学习到的各个文本的第一级情绪向量与第一级类别置信度向量之间的对应关系,确定所述待识别文本的第一级类别置信度向量。
6.根据权利要求5所述的基于文本的情绪识别方法,其特征在于,所述在第i层所述卷积神经网络中基于所述待识别文本的特征向量及第i-1层所述卷积神经网络输出的第i-1级类别置信度向量,确定所述待识别文本的第i级类别置信度向量,包括:
在第i层所述卷积神经网络中对所述待识别文本的特征向量进行降维处理,将降维处理后的所述特征向量与所述待识别文本的第i-1级类别置信度向量进行组合,得到所述待识别文本的第i级组合向量;
基于第i层所述卷积神经网络对应的预设卷积核对所述待识别文本的第i级组合向量进行卷积处理,得到所述待识别文本的第i级情绪向量;
基于所述待识别文本的第i级情绪向量及预先学习到的各个第i级情绪向量与第i级类别置信度向量之间的对应关系,确定所述待识别文本的第i级类别置信度向量。
7.一种终端设备,其特征在于,所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
对待识别文本进行翻译,得到所述待识别文本的各个预设语种的译文;
确定各个所述预设语种的译文的特征向量,并基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量;
将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量;所述类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的预设情绪类别的概率;
将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述待识别文本所属的预设情绪类别。
8.根据权利要求7所述的终端设备,其特征在于,所述确定各个所述预设语种的译文的特征向量,包括:
对所述预设语种的译文进行预处理,得到所述预设语种的译文的词序列;所述词序列包括至少一个词语;
基于预先为所述预设语种配置的词向量模型,确定所述预设语种的译文的词序列中包含的各个词语的词向量,将所述预设语种的译文的词序列中包含的所有词语的词向量进行拼接,得到所述预设语种的译文的特征向量。
9.一种终端设备,其特征在于,包括:
翻译单元,用于对待识别文本进行翻译,得到所述待识别文本的各个预设语种的译文;
第一确定单元,用于确定各个所述预设语种的译文的特征向量,并基于所有所述预设语种的译文的特征向量确定所述待识别文本的特征向量;
概率计算单元,用于将所述待识别文本的特征向量输入至预先训练好的文本分类模型,得到所述待识别文本的类别置信度向量;所述类别置信度向量中的每个元素的值用于标识所述待识别文本属于该元素对应的预设情绪类别的概率;
第二确定单元,用于将所述类别置信度向量中值最大的元素对应的预设情绪类别确定为所述待识别文本所属的预设情绪类别。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
CN201910577822.9A 2019-06-28 2019-06-28 一种基于文本的情绪识别方法、终端设备及介质 Active CN110377733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910577822.9A CN110377733B (zh) 2019-06-28 2019-06-28 一种基于文本的情绪识别方法、终端设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910577822.9A CN110377733B (zh) 2019-06-28 2019-06-28 一种基于文本的情绪识别方法、终端设备及介质

Publications (2)

Publication Number Publication Date
CN110377733A true CN110377733A (zh) 2019-10-25
CN110377733B CN110377733B (zh) 2023-11-24

Family

ID=68251308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910577822.9A Active CN110377733B (zh) 2019-06-28 2019-06-28 一种基于文本的情绪识别方法、终端设备及介质

Country Status (1)

Country Link
CN (1) CN110377733B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161703A (zh) * 2019-12-30 2020-05-15 深圳前海达闼云端智能科技有限公司 带语气的语音合成方法、装置、计算设备及存储介质
CN111949763A (zh) * 2020-07-15 2020-11-17 有米科技股份有限公司 基于文本素材的单品类别确定方法及装置
CN111938674A (zh) * 2020-09-07 2020-11-17 南京宇乂科技有限公司 一种对话的情绪识别控制系统
CN112580366A (zh) * 2020-11-30 2021-03-30 科大讯飞股份有限公司 情绪识别方法以及电子设备、存储装置
CN113569584A (zh) * 2021-01-25 2021-10-29 腾讯科技(深圳)有限公司 文本翻译方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536953A (zh) * 2015-01-22 2015-04-22 苏州大学 一种文本情绪极性的识别方法及装置
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536953A (zh) * 2015-01-22 2015-04-22 苏州大学 一种文本情绪极性的识别方法及装置
CN108417217A (zh) * 2018-01-11 2018-08-17 苏州思必驰信息科技有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161703A (zh) * 2019-12-30 2020-05-15 深圳前海达闼云端智能科技有限公司 带语气的语音合成方法、装置、计算设备及存储介质
CN111949763A (zh) * 2020-07-15 2020-11-17 有米科技股份有限公司 基于文本素材的单品类别确定方法及装置
CN111949763B (zh) * 2020-07-15 2024-03-22 有米科技股份有限公司 基于文本素材的单品类别确定方法及装置
CN111938674A (zh) * 2020-09-07 2020-11-17 南京宇乂科技有限公司 一种对话的情绪识别控制系统
CN112580366A (zh) * 2020-11-30 2021-03-30 科大讯飞股份有限公司 情绪识别方法以及电子设备、存储装置
CN112580366B (zh) * 2020-11-30 2024-02-13 科大讯飞股份有限公司 情绪识别方法以及电子设备、存储装置
CN113569584A (zh) * 2021-01-25 2021-10-29 腾讯科技(深圳)有限公司 文本翻译方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110377733B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN110705301A (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
WO2020073533A1 (zh) 自动问答方法及装置
US11934790B2 (en) Neural network training method and apparatus, semantic classification method and apparatus and medium
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
JP2022003544A (ja) 業界テキスト増分方法、関連装置、およびコンピュータプログラム製品
CN113705207A (zh) 语法错误识别方法及装置
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN113704471B (zh) 语句的分类方法、装置、设备和存储介质
CN114676237A (zh) 语句相似度确定方法、装置、计算机设备和存储介质
CN114529191A (zh) 用于风险识别的方法和装置
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN110955755A (zh) 一种确定目标标准信息的方法和系统
Windiatmoko et al. Mi-Botway: A deep learning-based intelligent university enquiries chatbot
CN114328797B (zh) 内容搜索方法、装置、电子设备、存储介质及程序产品
CN116226478B (zh) 信息处理方法、模型训练方法、装置、设备及存储介质
US20240062219A1 (en) Granular taxonomy for customer support augmented with ai
US20240177172A1 (en) System And Method of Using Generative AI for Customer Support
US11989520B2 (en) System and method for morality assessment
Voronin et al. Chatbot of a House Management Company

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant