CN116108859A - 情感倾向确定、样本构建、模型训练方法、装置及设备 - Google Patents

情感倾向确定、样本构建、模型训练方法、装置及设备 Download PDF

Info

Publication number
CN116108859A
CN116108859A CN202310269333.3A CN202310269333A CN116108859A CN 116108859 A CN116108859 A CN 116108859A CN 202310269333 A CN202310269333 A CN 202310269333A CN 116108859 A CN116108859 A CN 116108859A
Authority
CN
China
Prior art keywords
text data
feature vector
text
sample
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310269333.3A
Other languages
English (en)
Inventor
梁礼欣
万睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meiyun Zhishu Technology Co ltd
Original Assignee
Meiyun Zhishu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meiyun Zhishu Technology Co ltd filed Critical Meiyun Zhishu Technology Co ltd
Priority to CN202310269333.3A priority Critical patent/CN116108859A/zh
Publication of CN116108859A publication Critical patent/CN116108859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种情感倾向确定、样本构建、模型训练方法、装置及设备。通过获取采用不同语言但语义相同的第一文本数据与第二文本数据,其中,第二文本数据是通过对第一文本数据进行翻译得到的;并基于第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量进行融合,得到目标文本特征向量;最后,基于目标文本特征向量进行情感倾向的预测,得到第一文本数据对应的情感倾向,提升从第一文本数据中预测情感倾向的准确率。

Description

情感倾向确定、样本构建、模型训练方法、装置及设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种情感倾向确定、样本构建、模型训练方法、装置及设备。
背景技术
随着互联网技术的快速普及,使用不同语言的用户在不同的平台发表的主观评价可以反映用户个体的观点、情感、态度等信息。利用情感分析技术对各语言文本中用户所表达的情感进行确定可以提升平台的体验,因此情感倾向的确定是有必要的。
相关技术中,一般通过常用语言的分析算法来确定其他语言文本数据的情感倾向。
然而,不同语系的语言表达形式差异较大且有些语言语法复杂、语序多变,通过常用语言的分析算法预测其他语言文本数据的情感倾向的准确性有待提升。
发明内容
本说明书实施方式旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本说明书实施方式提出一种情感倾向确定、样本构建、模型训练方法、装置及设备。
本说明书实施方式提供一种情感倾向确定方法,所述方法包括:
获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。
本说明书实施方式提供一种训练样本构建方法,所述方法包括:
获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据;其中,所述第一样本文本数据与所述第二样本文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
对所述第一样本文本数据进行特征提取,得到所述第一样本文本数据的第一样本特征向量;
对所述第二样本文本数据进行特征提取,得到所述第二样本文本数据的第二样本特征向量;
对所述第一样本特征向量与所述第二样本特征向量进行融合,得到样本文本特征向量;
基于所述样本文本特征向量,以及所述第一样本文本数据或者所述第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本。
本说明书实施方式提供一种模型训练方法,所述方法包括:
搭建初始情感倾向预测模型;
利用采用上述实施方式中所构建的训练样本对所述初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型。
本说明书实施方式提供一种情感倾向确定方法,所述方法包括:
获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,所述第一文本数据采用的第一语言不同于所述第二文本数据采用的第二语言;所述第二文本数据是以所述第二语言为目标语言对所述第一文本数据进行翻译得到的;
对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
基于所述目标文本特征向量确定所述第一文本数据对应的情感倾向。
本说明书实施方式提供一种情感倾向确定装置,所述装置包括:
文本特征向量获取模块,用于获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
目标文本特征向量确定模块,用于对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
情感倾向确定模块,用于基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。
本说明书实施方式提供一种训练样本构建装置,所述装置包括:
样本文本数据获取模块,用于获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据;其中,所述第一样本文本数据与所述第二样本文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
第一样本特征向量确定模块,用于对所述第一样本文本数据进行特征提取,得到所述第一样本文本数据的第一样本特征向量;
第二样本特征向量确定模块,用于对所述第二样本文本数据进行特征提取,得到所述第二样本文本数据的第二样本特征向量;
样本文本特征向量确定模块,用于对所述第一样本特征向量与所述第二样本特征向量进行融合,得到样本文本特征向量;
训练样本确定模块,用于基于所述样本文本特征向量,以及所述第一样本文本数据或者所述第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本。
本说明书实施方式提供一种模型训练装置,所述装置包括:
情感倾向预测模型搭建模块,用于搭建初始情感倾向预测模型;
情感倾向预测模型确定模块,用于利用采用上述实施方式中的方式所构建的训练样本对所述初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型。
本说明书实施方式提供一种计算机设备,所述计算机设备包括:存储器,以及与所述存储器通信连接的一个或多个处理器;所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行,以使所述一个或多个处理器实现上述任一项实施方式所述的方法的步骤。
本说明书实施方式提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项实施方式所述的方法的步骤。
本说明书实施方式提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被计算机设备的处理器执行时,使得所述计算机设备能够执行上述任一项实施方式所述的方法的步骤。
上述说明书实施方式中,采用第一语言的第一文本数据与采用第二语言的第二文本数据表达同一语义,且第一语言不同于第二语言,通过获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量,并对第一文本特征向量与第二文本特征向量进行融合,得到目标文本特征向量,最后,基于目标文本特征向量确定第一文本数据或者第二文本数据对应的情感倾向,提升文本情感倾向预测的准确率。
附图说明
图1a为本说明书实施方式提供的应用场景示意图。
图1b为本说明书实施方式提供的情感倾向确定方法的流程示意图。
图2为本说明书实施方式提供的第一文本特征向量的获取方式的流程示意图。
图3为本说明书实施方式提供的第二文本特征向量的获取方式的流程示意图。
图4为本说明书实施方式提供的第一文本数据的获取方式的流程示意图。
图5为本说明书实施方式提供的训练样本构建方法的流程示意图。
图6为本说明书实施方式提供的模型训练方法的流程示意图。
图7为本说明书实施方式提供的情感倾向确定方法的流程示意图。
图8为本说明书实施方式提供的情感倾向确定方法的流程示意图。
图9为本说明书实施方式提供的情感倾向确定装置的示意图。
图10为本说明书实施方式提供的训练样本构建装置的示意图。
图11为本说明书实施方式提供的模型训练装置的示意图。
图12为本说明书实施方式提供的计算机设备的内部结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
相关技术中,一般通过常用语言的分析算法来确定其他语言文本数据的情感倾向。
然而,不同语系的语言表达形式差异较大且有些语言语法复杂、语序多变,通过常用语言的分析算法预测其他语言文本数据的情感倾向的准确性有待提升。
基于此,本说明书实施方式提供一种情感倾向确定方法,采用第一语言的第一文本数据与采用第二语言的第二文本数据表达同一语义,且第一语言不同于第二语言,通过获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量,并对第一文本特征向量与第二文本特征向量进行融合,得到目标文本特征向量,最后,基于目标文本特征向量确定第一文本数据或者第二文本数据对应的情感倾向。
本说明书实施方式提供的方法可以应用于图1a的应用场景中,该情感倾向预测方法应用于情感倾向预测技术处于初级研究阶段的语言的情感判别系统。该情感判别系统包括终端110和服务器120。终端110和服务器120通过网络连接。服务器120可以用于构建用于训练情感倾向预测模型的训练样本,并利用沟通的训练样本对所述初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型。将目标情感倾向预测模型部署在终端110上。终端110可以获取采用德文的第一文本数据,将第一文本数据翻译为英文,得到采用英文的第二文本数据。
终端110对第一文本数据进行提取特征,得到第一文本特征向量,终端110对第二文本数据进行提取特征,得到第二文本特征向量,并对第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量。终端110将目标文本特征向量输入至目标情感倾向预测模型中进行情感倾向的预测,得到所述第一文本数据或者所述第二文本数据对应的情感倾向。
其中,终端110可以是具有网络访问能力的电子设备。具体地,例如,终端110可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、电视机、智能音箱、麦克风等。其中,智能可穿戴设备包括但不限于智能手环、智能手表、智能眼镜、智能头盔、智能项链等。服务器120可以是具有一定运算处理能力的电子设备。其可以具有网络通信模块、处理器和存储器等。服务器可以为分布式服务器,可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者,服务器还可以为若干服务器形成的服务器集群。或者,随着科学技术的发展,服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如,可以是基于量子计算实现的新形态的“服务器”。
本说明书实施方式提供一种情感倾向确定方法,请参阅图1b,该方法可以包括以下步骤:
S110、获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量。
其中,采用第一语言的第一文本数据与采用第二语言的第二文本数据用于表达同一语义,第一语言不同于第二语言。第一文本特征向量是第一文本数据经过处理得到的词向量,第二文本特征向量是第二文本数据经过处理得到的词向量。示例性地,第一语言或第二语言可以是俄语、阿拉伯语、西班牙语等任一个语法复杂、语序多变或情感倾向预测技术处于初级阶段的语言。在第一语言、第二语言中,其中一个可以是上述提到的语法复杂、语序多变或情感倾向预测技术相对处于初级阶段的语言,则另外一个可以是英语、汉语等情感倾向预测技术相对处于成熟阶段的语言。
具体地,利用至少一种词向量模型对第一文本数据进行特征提取,得到第一文本数据的特征向量,将得到的第一文本数据的特征向量作为卷积神经网络模型的输入,从而得到第一文本特征向量;利用至少一种词向量模型对第二文本数据进行特征提取,得到第二文本数据的特征向量,将得到的第二文本数据的特征向量作为卷积神经网络模型的输入,从而得到第二文本特征向量。示例性地,第二文本数据可以是通过翻译第一文本数据得到的文本数据。示例性地,第一文本数据可以是通过翻译第二文本数据得到的文本数据。
需要说明的是,第一文本数据或第二文本数据可以是电影平台的影评,可以是音乐平台关于歌曲的评价,也可以是电商平台评论等评论数据。
S120、对第一文本特征向量与第二文本特征向量进行融合,得到目标文本特征向量。
具体地,将上述得到的第一文本特征向量L1=[gc1,gc2,gc3]、第二文本特征向量L2=[ec1,ec2,ec3]进行融合,可以得到目标文本特征向量。
示例性地,第一文本数据为原文本数据,第二文本数据为翻译第一文本数据得到的文本数据。对于第二文本数据来说,预测得到的情感倾向可能更准确,因此,利用第二文本数据的特征向量与第一文本数据的特征向量进行融合,以使第二文本数据可以辅助第一文本数据的情感倾向预测,从而可以更加准确地确定第一文本数据对应地情感倾向。
S130、基于目标文本特征向量确定第一文本数据或者第二文本数据对应的情感倾向。
其中,情感倾向包括但不限于正面、中立、负面三种结果,也可以为正面或负面两种结果,具体的情感倾向结果还可以结合实际需求自定义。
具体地,将目标文本特征向量作为目标情感倾向预测模型的输入。目标文本特征向量输入到训练好的情感倾向预测模型后,会得到目标文本特征向量对应的第一文本数据或第二文本数据正面、中立、负面每个情感倾向对应的置信度。当正面、中立、负面三者中数值最大的置信度大于预设置信度阈值时,可以将数值最大的置信度所对应的情感倾向确定为第一文本数据或第二文本数据的情感倾向。
示例性地,目标文本特征向量输入到训练好的情感倾向预测模型后,可以得到情感倾向为正面的置信度为0.7、情感倾向为中立的置信度为0.2、情感倾向为负面的置信度为0.1,三者中情感倾向为正面的置信度最大。若情感倾向为正面的置信度大于预设置信度阈值,可以确定第一文本数据或者第二文本数据的情感倾向为正面,则输出的结果为正面。
上述情感倾向确定方法中,采用第一语言的第一文本数据与采用第二语言的第二文本数据表达同一语义,且第一语言不同于第二语言,通过获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量,并对第一文本特征向量与第二文本特征向量进行融合,得到目标文本特征向量,最后,基于目标文本特征向量确定第一文本数据或者第二文本数据对应的情感倾向,提升文本情感倾向预测的准确率。
在一些实施方式中,对第一文本特征向量与第二文本特征向量进行融合,得到目标文本特征向量可以包括:将第一文本特征向量与第二文本特征向量进行拼接,得到目标文本特征向量。
具体地,将上述得到的第一文本特征向量L1=[gc1,gc2,gc3]、第二文本特征向量L2=[ec1,ec2,ec3]进行拼接,可以得到目标文本特征向量L=[L1,L2]。
上述情感倾向确定方法中,将第一文本特征向量与第二文本特征向量进行拼接,得到目标文本特征向量,可以提高情感倾向预测的精确性。
在一些实施方式中,请参阅图2,第一文本特征向量的获取方式可以包括以下步骤:
S210、获取第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个。
其中,获取语义特征向量部分提出了一种多通道特征融合词向量提取方法,多通道语义特征向量提取包括多种不同的特征。
具体地,将第一文本数据输入到训练好的词向量模型中,可以得到局部语义特征向量、全局语义特征向量、上下文语义特征向量中至少一个。
示例性地,词向量模型可以是提取局部语义特征向量的word2vec词向量模型(word to vector)、提取全局语义特征向量的glove词向量模型(Global Vectors)以及提取上下文语义特征向量的bert词向量模型(Bidirectional Encoder Representationfrom Transformers)三者相结合的词向量模型。将第一文本数据输入到训练好的词向量模型中,可以得到第一文本数据的特征向量[g1,g2,g3]。其中,g1可以是基于word2vec词向量模型得到的局部语义特征向量;g2可以是基于glove词向量模型得到的全局语义特征向量;g3可以是基于bert词向量模型得到的上下文语义特征向量。
示例性地,词向量模型可以是word2vec词向量模型,将第一文本数据输入到word2vec词向量模型中,可以得到第一文本数据的局部语义特征向量g1。词向量模型可以是glove词向量模型,将第一文本数据输入到glove词向量模型中,可以得到第一文本数据的全局语义特征向量g2。词向量模型可以是bert词向量模型,将第一文本数据输入到bert词向量模型中,可以得到第一文本数据的上下文语义特征向量g3。
S220、基于第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,生成第一文本特征向量。
具体地,将得到的局部语义特征向量、全局语义特征向量、上下文语义特征向量中至少一个的特征向量输入到卷积神经网络模型中,利用卷积神经网络模型的特性进行提取,卷积神经网络模型输出第一文本特征向量。
示例性地,将得到第一文本数据的特征向量[g1,g2,g3]输入到卷积神经网络模型,卷积神经网络模型输出第一文本特征向量L1=[gc1,gc2,gc3]。其中,g1、g2、g3三种特征向量可以看作卷积神经网络模型中的三通道。gc1可以是卷积神经网络模型对g1进行特征提取得到的特征向量;gc2可以是卷积神经网络模型对g2进行特征提取得到的特征向量;gc3可以是卷积神经网络模型对g3进行特征提取得到的特征向量。
上述情感倾向确定方法中,获取第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,然后基于第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,生成第一文本特征向量。通过丰富的局部语义特征、全局语义特征、上下文语义特征提高特征向量的准确度,可以更好地表达文本信息。
在一些实施方式中,请参阅图3,第二文本特征向量的获取方式可以包括以下步骤:
S310、获取第二文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个。
具体地,将第二文本数据输入到训练好的词向量模型中,可以得到局部语义特征向量、全局语义特征向量、上下文语义特征向量中至少一个。
示例性地,将第二文本数据输入到训练好的词向量模型中,可以得到第二文本数据的特征向量[e1,e2,e3]。其中,e1可以是基于word2vec词向量模型得到的局部语义特征向量;e2可以是基于glove词向量模型得到的语义特征向量;e3可以是基于bert词向量模型得到的上下文语义特征向量。
示例性地,词向量模型可以是word2vec词向量模型,将第二文本数据输入到word2vec词向量模型中,可以得到第二文本数据的局部语义特征向量e1。词向量模型可以是glove词向量模型,将第二文本数据输入到glove词向量模型中,可以得到第二文本数据的全局语义特征向量e2。词向量模型可以是bert词向量模型,将第二文本数据输入到bert词向量模型中,可以得到第二文本数据的上下文语义特征向量e3。
S320、基于第二文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,生成第二文本特征向量。
具体地,将得到的局部语义特征向量、全局语义特征向量、上下文语义特征向量中至少一个的特征向量输入到卷积神经网络模型中,利用卷积神经网络模型的特性进行提取,卷积神经网络模型输出第二文本特征向量。
示例性地,将得到第二文本数据的特征向量[e1,e2,e3]输入到卷积神经网络模型,卷积神经网络模型输出第二文本特征向量L2=[ec1,ec2,ec3]。其中,e1、e2、e3三种特征向量可以看作卷积神经网络模型中的三通道。ec1可以是卷积神经网络模型对e1进行特征提取得到的特征向量;ec2可以是卷积神经网络模型对e2进行特征提取得到的特征向量;ec3可以是卷积神经网络模型对e3进行特征提取得到的特征向量。
上述情感倾向确定方法中,获取第二文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,然后基于第二文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,生成第二文本特征向量。通过丰富的局部语义特征、全局语义特征、上下文语义特征提高特征向量的准确度,可以更好地表达文本信息。
在一些实施方式中,情感倾向是通过情感倾向预测模型对目标文本特征向量进行预测得到的,情感倾向对应有置信度。该方法还可以包括:若情感倾向对应的置信度小于预设置信度阈值,基于第一文本数据或者第二文本数据与情感词典规则库的匹配结果,确定第一文本数据或者第二文本数据对应的情感倾向。若情感倾向对应的置信度不小于预设置信度阈值,可以将情感倾向预测模型输出的情感倾向直接作为第一文本数据或者第二文本数据对应的情感倾向。
其中,置信度越高,说明模型对输出的结果越肯定。若情感倾向对应的置信度不小于预设置信度阈值,表明基于目标文本特征向量确定的情感倾向预测结果是可信的,不需要进一步的修正,可以将情感倾向预测模型输出的情感倾向直接作为第一文本数据或者第二文本数据对应的情感倾向。若情感倾向对应的置信度小于预设置信度阈值,表明基于目标文本特征向量确定的情感倾向预测结果是需要结合情感词典规则库进一步的修正。情感词典规则库中包括情感词库、否定词库、情感搭配词库三种。三种词库可以相互结合进行使用,也可以是独立使用。比如:否定词与下一个内容字关联可以改变情感词的倾向,如正面情感词加个否定词,就变成了负面情感词,反之亦然。情感搭配词库中不同情况的词语搭配所对应的情感倾向也是不同的,比如:A+B的词语搭配对应的情感倾向可以为正面,A+C的词语搭配对应的情感倾向可以为负面。情感词包括正面情感词和负面情感词。预设置信度阈值可以根据实际情况设置。
具体地,若第一文本数据或第二文本数据的情感倾向对应的置信度小于预设置信度阈值,则将第一文本数据或第二文本数据进行分词。根据情感词典规则库对数据处理后的第一文本数据或第二文本数据进行情感词的提取。之后,可以统计各个情感词在第一文本数据或第二文本数据中出现的次数,根据情感词的出现次数和第一文本数据或第二文本数据的词汇总量计算各个情感词在第一文本数据或第二文本数据中所占的比例,情感词出现的次数和所占的比例影响情感倾向的判断。因此,通过第一文本数据或第二文本数据中情感词的出现次数和/或比例,可以确定第一文本数据或第二文本数据所对应的情感倾向。比如:正面情感词出现的次数和/或比例远大于负面情感词出现的次数和/或比例时,第一文本数据或第二文本数据的情感倾向为正面的概率较大。
示例性地,情感倾向预测模型的预设置信度阈值可以是0.7。将第一文本数据或者第二文本数据进行分词。其中,可以是通过jieba、SEO等分词模型来进行分词处理。将处理后的第一文本数据或者第二文本数据输入到情感倾向预测模型中,可以得到情感倾向为正面的置信度为0.6,可以得到情感倾向为中立的置信度为0.3,可以得到情感倾向为负面的置信度为0.1。情感倾向对应的置信度0.6小于预设置信度阈值0.7,则根据情感词典规则库对数据处理后的第一文本数据或者第二文本数据进行情感词的提取。可以得到情感倾向为正面的情感词数量为13,可以得到情感倾向为负面的情感词数量为3。可以得到第一文本数据或者所述第二文本数据的情感倾向为正面。需要说明的是,若将处理后的第一文本数据或者第二文本数据输入到情感倾向预测模型中,可以得到情感倾向为正面的置信度为0.8,可以得到情感倾向为中立的置信度为0.15,可以得到情感倾向为负面的置信度为0.05。可见情感倾向对应的置信度0.8大于预设置信度阈值0.7,则确定对应的情感倾向为正面。
下面示例性地说明预设置信度阈值的确定过程,可以先设置情感倾向预测模型的预设置信度阈值为0.9,得到文本数据的情感倾向,通过人工的方式来验证文本数据和对应的情感倾向,得到对应的准确率。然后将模型的预设置信度阈值设置为0.8,得到文本数据的情感倾向,通过人工的方式来验证文本数据和对应的情感倾向,得到对应的准确率。按照上述方法,可以得到使情感倾向预测模型的准确率达到较高数值的置信度阈值,将该置信度阈值设置为预设置信度阈值。
在一些实施方式中,开发者会对情感词典规则库进行定期的更新,将新出现的情感词、否定词或者情感搭配词添加到情感词典规则库中。用户在使用过程中也会出现未在情感词典规则库中的情感词,开发者可以将这些未在情感词典规则库中出现过的情感词添加到情感词典规则库中。通过以上方法可以丰富情感词典规则库。
上述情感倾向确定方法中,若情感倾向对应的置信度小于预设置信度阈值,基于第一文本数据或者第二文本数据与情感词典规则库的匹配结果,确定第一文本数据或者第二文本数据对应的情感倾向。可以使得到的情感倾向结果灵活可控并更加符合实际情况,满足个性化需求,提升实用性。
在一些实施方式中,第一文本数据包括德文电商评价数据,第二文本数据包括以英文为目标语言对德文电商评价数据进行翻译得到的英文电商评价数据。
其中,随着电商平台的流行,越来越多的人喜欢通过电商平台来购物。在收到产品后,人们喜欢在电商平台上发表自己对产品的观点,由此产生了大量关于产品品质和商家服务态度的评价数据,这些数据对于商家和电商平台来说有很大的潜在价值。对于商家来说,通过评价信息获知用户对产品的评价,可以更好地改善产品来满足用户的需求;对于电商平台来说,根据用户需求,可以更好地提升用户在电商平台上面的购买体验以及指导其他类似的商家如何进行产品的改善。因此,从大量电商评价文本数据中提取出有价值的信息是重要的。德语是语法复杂、语序多变的语言且目前对于德语文本的研究还处于初步阶段,对于德语文本观点抽取的研究更是甚少。英语是大众语言,对英语情感分析的研究相对于其他语言更加成熟。
具体地,第一文本数据可以是德文电商评价数据。通过翻译模型可以将德文电商评价数据翻译成英文电商评价数据。经过翻译得到的英文电商评价数据可以是第二文本数据。需要说明的是,翻译操作可以理解为以第二语言为目标,将采用第一语言的第一文本数据进行语言转换,得到采用第二语言的第二文本数据。比如,以英语为目标语言,对采用德语的电商评价文本进行翻译,得到采用英语的电商评价文本。
上述情感倾向确定方法中,第一文本数据为德文电商评价数据,第二文本数据是对德文电商评价数据进行翻译得到的英文电商评价数据。通过将德文电商评价数据翻译成英文电商评价数据来增加文本语义信息,从而缓解德语本身表达信息不够的问题,可以提高基于德文电商评价数据进行情感倾向判定的准确性。
在一些实施方式中,请参阅图4,第一文本数据和第二文本数据的获取方式可以包括以下步骤:
S410、获取采用第一语言的初始评价文本数据。
S420、以第二语言为目标语言,对初始评价文本数据进行翻译,得到翻译评价文本数据。
S430、对初始评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到第一文本数据。
S440、对翻译评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到第二文本数据。
其中,初始评价文本数据可以是在评价平台获取到的文本数据,也可以是在数据集平台下载已经整理的评价文本数据。文本数据清洗规则可以自定义,无用文本可以是与评价主体本身无关的信息,也可以是默认的评价信息。干扰符号可以是在评价中出现的无用符号,比如:@、¥、★、♀等。停用词可以是无实际含义的功能词,比如:不同语言中的和、这些、一个等。
具体地,获取采用第一语言的评价文本数据,记为初始评价文本数据。以第二语言为目标语言,对初始评价文本数据进行翻译,得到翻译评价文本数据。将初始评价文本数据通过无用文本过滤、干扰符号过滤和停用词处理中的至少一种处理方式来进行清洗处理,可以得到第一文本数据。将翻译评价文本数据通过无用文本过滤、干扰符号过滤和停用词处理中的至少一种处理方式来进行清洗处理,可以得到第二文本数据。需要说明的是,针对不同的语言文本数据,可以采用不同的预处理方法。
另外,将预处理后的第一文本数据可以按预设比例划分为训练集文本和测试集文本,训练集文本用于对第一文本情感倾向预测模型进行训练,测试集文本用于对情感倾向预测模型进行性能测试。数据清洗规则还可以包括还原词汇的处理操作。比如:缩写词还原、词形还原等。
上述情感倾向确定方法中,获取采用第一语言的初始评价文本数据,以第二语言为目标语言,对初始评价文本数据进行翻译,得到翻译评价文本数据;对初始评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到第一文本数据。对翻译评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到第二文本数据。通过对初始评价文本数据和翻译评价文本数据进行数据清洗,可以减少初始评价文本数据中的无用部分,减少初始评价文本数据所占的存储大小,减少了索引量,增加了检索效率。
本说明书实施方式提供一种训练样本构建方法,请参阅图5,该训练样本构建方法可以包括以下步骤:
S510、获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据。
其中,第一样本文本数据与第二样本文本数据用于表达同一语义;第一语言不同于第二语言。
具体地,获取采用第一语言的样本文本数据或者在数据集平台下载已经整理的样本文本数据即初始样本文本数据,将得到的初始样本文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,可以得到第一样本文本数据。以第二语言为目标语言,通过翻译模型可以将初始样本文本数据翻译成采用第二语言的翻译样本文本数据,将得到的翻译样本文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,可以得到第二样本文本数据。
S520、对第一样本文本数据进行特征提取,得到第一样本文本数据的第一样本特征向量。
具体地,收集基于第一语言和第二语言的文本数据。其中,收集到的采用第一语言的文本数据和收集到的采用第二语言的文本数据是相互独立的,不是原文与翻译文本的关系。将收集到的采用第一语言的文本数据和采用第二语言的文本数据分别输入到词向量模型中进行模型训练得到训练好的词向量模型。第一样本文本数据输入到训练好的词向量模型中进行特征提取得到局部语义特征向量、全局语义特征向量、上下文语义特征向量中至少一个。将得到的局部语义特征向量、全局语义特征向量、上下文语义特征向量中至少一个的特征向量输入到卷积神经网络模型中,利用卷积神经网络模型的特性进行提取,卷积神经网络模型输出第一样本特征向量L1=[gc1,gc2,gc3]。
S530、对第二样本文本数据进行特征提取,得到第二样本文本数据的第二样本特征向量。
具体地,第二样本文本数据输入到训练好的词向量模型中进行特征提取得到局部语义特征向量、全局语义特征向量、上下文语义特征向量中至少一个的特征向量。将得到的局部语义特征向量、全局语义特征向量、上下文语义特征向量中至少一个的特征向量输入到卷积神经网络模型中,卷积神经网络模型输出第二样本特征向量L2=[ec1,ec2,ec3]。
S540、对第一样本特征向量与第二样本特征向量进行融合,得到样本文本特征向量。
具体地,将上述得到的第一样本特征向量L1=[gc1,gc2,gc3],第一样本特征向量L2=[ec1,ec2,ec3]进行融合,可以得到样本文本特征向量L。
S550、基于样本文本特征向量,以及第一样本文本数据或者第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本。
其中,情感倾向标签为正面、中立、负面三种。情感倾向标签用于情感倾向的标注。示例性地,不同的语言表征文本的情感倾向的词汇各不相同,因此需要先确定各个情感词的情感倾向。由于情感倾向的标注缺乏统一标注标准,所以前期可以通过人工的方式进行情感词的标注。人工标注是主观的工作方式,因此存在一定的错误率。同样的内容在不同人的标注中情感倾向可能是不同的。因此,为了结果的准确性,可以多人标注同一条数据,然后选择情感倾向类别标签中数值最多的标签作为最终的情感倾向结果。
具体地,情感倾向预测模型的输入为上述得到的样本文本特征向量L,基于第一样本文本数据或者第二样本文本数据对应的情感倾向标签和情感倾向预测模型得到的情感倾向预测结果确定模型损失值。
上述训练样本的构建方法中,首先获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据;其次,对第一样本文本数据进行特征提取,得到第一样本文本数据的第一样本特征向量;然后,对第二样本文本数据进行特征提取,得到第二样本文本数据的第二样本特征向量;进一步地,对第一样本特征向量与第二样本特征向量进行融合,得到样本文本特征向量;最后,基于样本文本特征向量,以及第一样本文本数据或者第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本。从而可以训练得到更加准确的情感倾向预测模型。
本说明书实施方式提供一种模型训练方法,请参阅图6,该模型训练方法可以包括以下步骤:
S610、搭建初始情感倾向预测模型。
S620、基于样本文本特征向量,以及第一样本文本数据或者第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本对初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型。
具体地,初始情感倾向预测模型是基于卷积神经网络模型建立的。将样本文本特征向量作为初始情感倾向预测模型的输入,得到第一样本文本数据或者第二样本文本数据对应的情感倾向。基于得到的情感倾向与第一样本文本数据或者第二样本文本数据对应的情感倾向标签确定模型损失值,基于模型损失值对初始情感倾向预测模型进行更新。以此类推,继续对更新后的初始情感倾向预测模型进行训练,当达到模型训练停止条件时,可以得到目标情感倾向预测模型。其中,模型训练停止条件可以是模型损失值趋于收敛,也可以是训练轮次达到预设的轮次数量。
上述模型训练方法中,搭建初始情感倾向预测模型,基于样本文本特征向量,以及第一样本文本数据或者第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本对初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型。该模型不仅有可以融合多种词向量的表达信息的优点。另外,由于模型架构简单,所以该模型还具有训练时间少和训练效率高的特点。
本说明书实施方式还提供一种情感倾向确定方法,请参阅图7,该情感倾向确定方法可以包括以下步骤:
S710、获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量。
S720、对第一文本特征向量与第二文本特征向量进行融合,得到目标文本特征向量。
S730、基于目标文本特征向量确定第一文本数据对应的情感倾向。
其中,第一文本数据采用的第一语言不同于第二文本数据采用的第二语言;第二文本数据是以第二语言为目标语言对第一文本数据进行翻译得到的。示例性地,第一语言可以是俄语、阿拉伯语、西班牙语、德语等任一个语法复杂、语序多变或情感倾向预测技术相对处于初级阶段的语言。第二语言可以是英语、汉语等情感倾向预测技术相对处于成熟阶段的语言。
在一些情况下,正如前文所述,采用第一语言的第一文本数据的情感倾向预测技术相对处于初级阶段,若直接利用第一文本数据进行情感倾向预测,对应得到的情感倾向的准确性有待提升。而采用第二语言的第二文本数据的的情感倾向预测技术相对处于成熟阶段,所以本实施方式中利用第二文本数据辅助第一文本数据的情感倾向预测。在本实施方式中,将第一文本数据翻译为第二文本数据,基于第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量进行情感倾向预测,以提升第一文本数据情感倾向预测的准确性。
具体地,首先,获取第一文本数据和对第一文本数据进行翻译得到的第二文本数据;其次,对第一文本数据和第二文本数据进行特征提取,可以得到第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;接着,将上述得到的第一文本特征向量、第二文本特征向量进行融合,可以得到目标文本特征向量。最后,根据目标文本特征向量进行情感倾向的预测,得到第一文本数据对应的情感倾向。
上述情感倾向确定方法中,通过获取采用不同语言但语义相同的第一文本数据与第二文本数据,其中,第二文本数据是通过对第一文本数据进行翻译得到的;并基于第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量进行融合,得到目标文本特征向量;最后,基于目标文本特征向量进行情感倾向的预测,得到第一文本数据对应的情感倾向,提升从第一文本数据中预测情感倾向的准确率。
本说明书实施方式还提供一种情感倾向确定方法,采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据表达同一语义;所述第一语言不同于所述第二语言。示例性地,请参阅图8,该情感倾向确定方法可以包括以下步骤:
S802、获取采用第一语言的初始评价文本数据。
其中,第一语言可以是德语,初始评价文本数据可以是初始德文电商评价数据。
S804、以第二语言为目标语言,对初始评价文本数据进行翻译,得到翻译评价文本数据。
其中,第二语言是英语,翻译评价文本数据可以是翻译初始德文电商评价数据得到的英文电商评价数据。
S806、对初始评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到第一文本数据。
可以理解的是,第一文本数据可以是对初始德文电商评价数据进行清洗处理得到德文电商评价数据。
S808、对翻译评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到所述第二文本数据。
可以理解的是,第二文本数据可以是对翻译英文电商评价数据进行清洗处理得到英文电商评价数据。
S810、获取第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个。
S812、基于第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,生成第一文本特征向量。
S814、获取第二文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个。
S816、基于第二文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,生成第二文本特征向量。
S818、将第一文本特征向量与第二文本特征向量进行拼接,得到目标文本特征向量。
S820、基于目标文本特征向量确定初始评价文本数据对应的情感倾向。
其中,情感倾向是通过情感倾向预测模型对所述目标文本特征向量进行预测得到的,所述情感倾向对应有置信度。
S822、若情感倾向对应的置信度小于预设置信度阈值,基于第一文本数据与情感词典规则库的匹配结果,确定初始评价文本数据对应的情感倾向。
可以理解的是,若情感倾向对应的置信度不小于预设置信度阈值,则将情感倾向预测模型预测的情感倾向确定为初始评价文本数据对应的情感倾向。
本说明书实施方式提供一种情感倾向确定装置900,请参阅图9,情感倾向确定装置900包括:文本特征向量获取模块910、目标文本特征向量确定模块920、情感倾向确定模块930。
文本特征向量获取模块910,用于获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
目标文本特征向量确定模块920,用于对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
情感倾向确定模块930,用于基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。
本说明书实施方式提供一种训练样本构建装置1000,请参阅图10,训练样本的构建装置1000包括:样本文本数据获取模块1010、第一样本特征向量确定模块1020、第二样本特征向量确定模块1030、样本文本特征向量确定模块1040、训练样本确定模块1050。
样本文本数据获取模块1010,用于获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据;其中,所述第一样本文本数据与所述第二样本文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
第一样本特征向量确定模块1020,用于对所述第一样本文本数据进行特征提取,得到所述第一样本文本数据的第一样本特征向量;
第二样本特征向量确定模块1030,用于对所述第二样本文本数据进行特征提取,得到所述第二样本文本数据的第二样本特征向量;
样本文本特征向量确定模块1040,用于对所述第一样本特征向量与所述第二样本特征向量进行融合,得到样本文本特征向量;
训练样本确定模块1050,用于基于所述样本文本特征向量,以及所述第一样本文本数据或者所述第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本。
本说明书实施方式提供一种模型训练装置1100,请参阅图11,训练样本的构建装置1100包括:情感倾向预测模型搭建模块1110、情感倾向预测模型确定模块1120。
情感倾向预测模型搭建模块1110,用于搭建初始情感倾向预测模型;
情感倾向预测模型确定模块1120,用于利用采用上述实施方式中所构建的训练样本对所述初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型
关于情感倾向确定装置、训练样本构建装置以及模型训练装置的具体描述,可以参见上文中对情感倾向确定方法、训练样本构建方法以及模型训练方法的描述,在此不再赘述。
在一些实施方式中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种情感倾向确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本说明书所公开方案相关的部分结构的框图,并不构成对本说明书所公开方案所应用于其上的计算机设备的限定,具体地,计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施方式中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述实施方式中的方法步骤。
本说明书实施方式提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项实施方式中的方法的步骤。
本说明书的一个实施方式提供一种计算机程序产品,计算机程序产品中包括指令,指令被计算机设备的处理器执行时,使得计算机设备能够执行上述任一项实施方式的方法的步骤。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。

Claims (14)

1.一种情感倾向确定方法,其特征在于,所述方法包括:
获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量,包括:
将所述第一文本特征向量与所述第二文本特征向量进行拼接,得到所述目标文本特征向量。
3.根据权利要求1所述的方法,其特征在于,所述第二文本特征向量的获取方式与所述第一文本特征向量的获取方式相同;其中,所述第一文本特征向量的获取方式,包括:
获取所述第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个;
基于所述第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,生成所述第一文本特征向量。
4.根据权利要求1所述的方法,其特征在于,所述情感倾向是通过情感倾向预测模型对所述目标文本特征向量进行预测得到的,所述情感倾向对应有置信度;所述方法还包括:
若所述情感倾向对应的置信度小于预设置信度阈值,基于所述第一文本数据或者所述第二文本数据与情感词典规则库的匹配结果,确定所述第一文本数据或者所述第二文本数据对应的情感倾向。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一文本数据包括德文电商评价数据,所述第二文本数据包括以英文为目标语言对所述德文电商评价数据进行翻译得到的英文电商评价数据。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一文本数据和所述第二文本数据的获取方式,包括:
获取采用所述第一语言的初始评价文本数据;
以所述第二语言为目标语言,对所述初始评价文本数据进行翻译,得到翻译评价文本数据;
对所述初始评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到所述第一文本数据;
对所述翻译评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到所述第二文本数据。
7.一种训练样本构建方法,其特征在于,所述方法包括:
获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据;其中,所述第一样本文本数据与所述第二样本文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
对所述第一样本文本数据进行特征提取,得到所述第一样本文本数据的第一样本特征向量;
对所述第二样本文本数据进行特征提取,得到所述第二样本文本数据的第二样本特征向量;
对所述第一样本特征向量与所述第二样本特征向量进行融合,得到样本文本特征向量;
基于所述样本文本特征向量,以及所述第一样本文本数据或者所述第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本。
8.一种模型训练方法,其特征在于,所述方法包括:
搭建初始情感倾向预测模型;
利用采用权利要求7中的方式所构建的训练样本对所述初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型。
9.一种情感倾向确定方法,其特征在于,所述方法包括:
获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,所述第一文本数据采用的第一语言不同于所述第二文本数据采用的第二语言;所述第二文本数据是以所述第二语言为目标语言对所述第一文本数据进行翻译得到的;
对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
基于所述目标文本特征向量确定所述第一文本数据对应的情感倾向。
10.一种情感倾向确定装置,其特征在于,所述装置包括:
文本特征向量获取模块,用于获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
目标文本特征向量确定模块,用于对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
情感倾向确定模块,用于基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。
11.一种训练样本构建装置,其特征在于,所述装置包括:
样本文本数据获取模块,用于获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据;其中,所述第一样本文本数据与所述第二样本文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
第一样本特征向量确定模块,用于对所述第一样本文本数据进行特征提取,得到所述第一样本文本数据的第一样本特征向量;
第二样本特征向量确定模块,用于对所述第二样本文本数据进行特征提取,得到所述第二样本文本数据的第二样本特征向量;
样本文本特征向量确定模块,用于对所述第一样本特征向量与所述第二样本特征向量进行融合,得到样本文本特征向量;
训练样本确定模块,用于基于所述样本文本特征向量,以及所述第一样本文本数据或者所述第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本。
12.一种模型训练装置,其特征在于,所述装置包括:
情感倾向预测模型搭建模块,用于搭建初始情感倾向预测模型;
情感倾向预测模型确定模块,用于利用采用权利要求7中的方式所构建的训练样本对所述初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。
CN202310269333.3A 2023-03-17 2023-03-17 情感倾向确定、样本构建、模型训练方法、装置及设备 Pending CN116108859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310269333.3A CN116108859A (zh) 2023-03-17 2023-03-17 情感倾向确定、样本构建、模型训练方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310269333.3A CN116108859A (zh) 2023-03-17 2023-03-17 情感倾向确定、样本构建、模型训练方法、装置及设备

Publications (1)

Publication Number Publication Date
CN116108859A true CN116108859A (zh) 2023-05-12

Family

ID=86254507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310269333.3A Pending CN116108859A (zh) 2023-03-17 2023-03-17 情感倾向确定、样本构建、模型训练方法、装置及设备

Country Status (1)

Country Link
CN (1) CN116108859A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置
CN110222184A (zh) * 2019-06-13 2019-09-10 广东工业大学 一种文本的情感信息识别方法及相关装置
US20200202075A1 (en) * 2017-09-04 2020-06-25 Huawei Technologies Co., Ltd. Natural Language Processing Method and Apparatus
CN111563381A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 文本处理方法和装置
CN111930940A (zh) * 2020-07-30 2020-11-13 腾讯科技(深圳)有限公司 一种文本情感分类方法、装置、电子设备及存储介质
CN112560503A (zh) * 2021-02-19 2021-03-26 中国科学院自动化研究所 融合深度特征和时序模型的语义情感分析方法
CN112861524A (zh) * 2021-04-07 2021-05-28 中南大学 一种基于深度学习的多层次中文细粒度情感分析方法
CN113204624A (zh) * 2021-06-07 2021-08-03 吉林大学 一种多特征融合的文本情感分析模型及装置
CN113536802A (zh) * 2020-04-21 2021-10-22 北京中科闻歌科技股份有限公司 小语种文本数据的情感判别方法、装置、设备和存储介质
CN113821629A (zh) * 2020-06-18 2021-12-21 新加坡国立大学 一种文本分类方法、评论情感分析方法及装置
CN113886580A (zh) * 2021-09-26 2022-01-04 浙江大华技术股份有限公司 一种情感评分方法、装置及电子设备
CN113901205A (zh) * 2021-09-07 2022-01-07 昆明理工大学 基于情感语义对抗的跨语言情感分类方法
CN115526174A (zh) * 2022-10-12 2022-12-27 电子科技大学 一种针对财经文本情感倾向分类的深度学习模型融合方法
CN115544255A (zh) * 2022-10-12 2022-12-30 天津海量信息技术股份有限公司 微博数据正负面识别方法
CN115757792A (zh) * 2022-11-29 2023-03-07 湖南大学 一种基于深度学习的微博文本情感分类方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200202075A1 (en) * 2017-09-04 2020-06-25 Huawei Technologies Co., Ltd. Natural Language Processing Method and Apparatus
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置
CN111563381A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 文本处理方法和装置
CN110222184A (zh) * 2019-06-13 2019-09-10 广东工业大学 一种文本的情感信息识别方法及相关装置
CN113536802A (zh) * 2020-04-21 2021-10-22 北京中科闻歌科技股份有限公司 小语种文本数据的情感判别方法、装置、设备和存储介质
CN113821629A (zh) * 2020-06-18 2021-12-21 新加坡国立大学 一种文本分类方法、评论情感分析方法及装置
CN111930940A (zh) * 2020-07-30 2020-11-13 腾讯科技(深圳)有限公司 一种文本情感分类方法、装置、电子设备及存储介质
CN112560503A (zh) * 2021-02-19 2021-03-26 中国科学院自动化研究所 融合深度特征和时序模型的语义情感分析方法
CN112861524A (zh) * 2021-04-07 2021-05-28 中南大学 一种基于深度学习的多层次中文细粒度情感分析方法
CN113204624A (zh) * 2021-06-07 2021-08-03 吉林大学 一种多特征融合的文本情感分析模型及装置
CN113901205A (zh) * 2021-09-07 2022-01-07 昆明理工大学 基于情感语义对抗的跨语言情感分类方法
CN113886580A (zh) * 2021-09-26 2022-01-04 浙江大华技术股份有限公司 一种情感评分方法、装置及电子设备
CN115526174A (zh) * 2022-10-12 2022-12-27 电子科技大学 一种针对财经文本情感倾向分类的深度学习模型融合方法
CN115544255A (zh) * 2022-10-12 2022-12-30 天津海量信息技术股份有限公司 微博数据正负面识别方法
CN115757792A (zh) * 2022-11-29 2023-03-07 湖南大学 一种基于深度学习的微博文本情感分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ZHOU X ET AL: "Attention-based LSTM network for cross-lingual sentiment classification", 《PROCEEDINGS OF THE 2016 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》, pages 247 - 256 *
刘娇 等: "基于自联想记忆与卷积神经网络的跨语言情感分类", 《中文信息学报》, vol. 32, no. 12, pages 118 - 124 *
徐月梅 等: "跨语言情感分析研究综述", 《数据分析与知识发现》, vol. 7, no. 1, pages 1 - 21 *
许云峰等: "《大数据技术及行业应用》", 北京邮电大学出版社, pages: 218 *
许珂: "面向自然口语文本的情感分析研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 8, pages 138 - 169 *
陈潇 等: "基于多通道BERT的跨语言属性级情感分类方法", 《中文信息学报》, vol. 36, no. 2, pages 121 - 128 *

Similar Documents

Publication Publication Date Title
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
KR102401942B1 (ko) 번역품질 평가 방법 및 장치
CN108985358B (zh) 情绪识别方法、装置、设备及存储介质
CN111368548A (zh) 语义识别方法及装置、电子设备和计算机可读存储介质
CN110444198A (zh) 检索方法、装置、计算机设备和存储介质
CN112633947B (zh) 文本生成模型生成方法、文本生成方法、装置及设备
CN111191428A (zh) 评论信息处理方法、装置、计算机设备和介质
US20230023789A1 (en) Method for identifying noise samples, electronic device, and storage medium
CN111062217A (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN109034203A (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
CN111739520B (zh) 一种语音识别模型训练方法、语音识别方法、装置
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN116432019A (zh) 一种数据处理方法及相关设备
CN115394321A (zh) 音频情感识别方法、装置、设备、存储介质及产品
CN115640520A (zh) 跨语言跨模态模型的预训练方法、设备和存储介质
CN117436438A (zh) 情感分析方法、大语言模型的训练方法及装置
CN110362734A (zh) 文本识别方法、装置、设备及计算机可读存储介质
CN116108859A (zh) 情感倾向确定、样本构建、模型训练方法、装置及设备
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN110890097A (zh) 语音处理方法及装置、计算机存储介质、电子设备
CN114579740B (zh) 文本分类方法、装置、电子设备及存储介质
CN116719944A (zh) 客服文本分类方法及装置、电子设备和存储介质
CN114491027A (zh) 一种文本意图识别方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination