CN113821629A - 一种文本分类方法、评论情感分析方法及装置 - Google Patents

一种文本分类方法、评论情感分析方法及装置 Download PDF

Info

Publication number
CN113821629A
CN113821629A CN202010561456.0A CN202010561456A CN113821629A CN 113821629 A CN113821629 A CN 113821629A CN 202010561456 A CN202010561456 A CN 202010561456A CN 113821629 A CN113821629 A CN 113821629A
Authority
CN
China
Prior art keywords
text
language
comment
training
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010561456.0A
Other languages
English (en)
Inventor
李俊涛
何瑞丹
叶海
黄伟道
邴立东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
National University of Singapore
Original Assignee
Alibaba Group Holding Ltd
National University of Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd, National University of Singapore filed Critical Alibaba Group Holding Ltd
Priority to CN202010561456.0A priority Critical patent/CN113821629A/zh
Publication of CN113821629A publication Critical patent/CN113821629A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法,包括:获取待分类文本,其中,待分类文本的语言为源语言和目标语言集合中的任意一种,待分类文本所属的领域为源领域和目标领域集合中的任意一种;将待分类文本输入预设的文本分类模型,以便文本分类模型输出待分类文本所属的类别,其中,文本分类模型以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出。本发明一并公开了相应的装置。

Description

一种文本分类方法、评论情感分析方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本分类方法、评论情感分析方法及装置。
背景技术
文本分类技术是自然语言处理技术中的一个重要分支,其可以被应用于情感分析、垃圾邮件过滤、新闻分类、命名实体识别等多个场景中。
随着经济全球化的发展,待分类的文本所涉及到的语言和领域越来越多。例如,在对用户评论进行情感分析的应用场景中,不同国家、地区的用户可能采用不同的语言,对不同领域的产品或服务进行评价。相应地,待分类的文本为这些不同语言、不同领域的用户评论数据,例如汉语的电子产品评价、英语的电影评价、法语的图书评价、日语的音乐评价等。
目前,针对不同语言/领域的文本分类问题,通常采用该语言/领域的已标注的文本数据作为训练样本来训练机器学习模型,然后采用训练好的模型来对相同语言/领域的待分类文本进行分类,确定其所属的类别。针对不同的语言/领域,需要训练不同的机器学习模型。然而,从不同的语言/领域获取大量文本数据并从中标注出足够多的训练样本是很困难的,需要付出昂贵的代价。因此,需要提供一种跨语言、跨领域的文本分类方法,以减轻文本数据的获取和标注工作。
发明内容
为此,本发明提供一种文本分类方法及装置,以力图解决或至少缓解上面存在的问题。
根据本发明的第一个方面,提供一种文本分类方法,包括:获取待分类文本,其中,待分类文本的语言为源语言和目标语言集合中的任意一种,待分类文本所属的领域为源领域和目标领域集合中的任意一种;将待分类文本输入预设的文本分类模型,以便文本分类模型输出待分类文本所属的类别,其中,文本分类模型以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出。
根据本发明的第二个方面,提供一种评论情感分析方法,包括:获取待分析的评论文本,其中,评论文本的语言为源语言和目标语言集合中的任意一种,评论文本所属的领域为源领域和目标领域集合中的任意一种;将评论文本输入预设的情感分析模型,以便情感分析模型输出评论文本的情感极性,其中,情感分析模型以已标注情感极性的源语言、源领域的评论数据和未标注情感极性的源语言、目标领域的评论数据为训练样本训练得出。
根据本发明的第三个方面,提供一种文本分类装置,包括:文本获取模块,适于获取待分类文本,其中,待分类文本的语言为源语言和目标语言集合中的任意一种,待分类文本所属的领域为源领域和目标领域集合中的任意一种;类别确定模块,适于将待分类文本输入预设的文本分类模型,以便文本分类模型输出待分类文本所属的类别,其中,文本分类模型以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出。
根据本发明的第四个方面,提供一种评论情感分析装置,包括:评论获取模块,适于获取待分析的评论文本,其中,评论文本的语言为源语言和目标语言集合中的任意一种,评论文本所属的领域为源领域和目标领域集合中的任意一种情感极性确定模块,适于将评论文本输入预设的情感分析模型,以便情感分析模型输出评论文本的情感极性,其中,情感分析模型以已标注情感极性的源语言、源领域的评论数据和未标注情感极性的源语言、目标领域的评论数据为训练样本训练得出。
根据本发明的第五个方面,提供一种计算设备,包括:至少一个处理器和存储有程序指令的存储器;当程序指令被处理器读取并执行时,使得计算设备执行上述文本分类方法和/或上述评论情感分析方法。
根据本发明的第六个方面,提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行上述文本分类方法和/或上述评论情感分析方法。
根据本发明的文本分类方法,预先训练文本分类模型,然后应用训练好的文本分类模型,对待分类文本进行分类,确定待分类文本所属的类别。
本发明的文本分类模型以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出,训练好的文本分类模型可以迁移适用于目标语言、目标领域,大大减少了文本数据的获取和标注工作。
本发明的文本分类模型包括多语言嵌入模块、无监督特征分解模块和分类模块。多语言嵌入模块适于生成文本数据的跨语言表示向量,跨语言表示向量是跨语言共享的特征,因此采用源语言的文本数据训练出来的文本分类模型同样可以适用于目标语言。
无监督特征分解模块可以仅使用少量未标注的源语言、目标领域的文本数据完成训练,将多语言嵌入模块所输出的跨语言表示向量分解为领域不变特征和领域特定特征。分类模块采用已标注的源语言、源领域的文本数据进行训练,适于根据无监督特征分解模块输出的领域不变特征和领域特定特征来确定待分类文本所属的类别。由于领域不变特征是跨领域不变的特征,因此采用源领域的文本数据所训练出来的分类模块同样可以应用于目标领域。
本发明的文本分类方法可以应用于评论情感分析场景中,即,本发明还提供一种评论情感分析方法。该方法预先训练情感分析模型,情感分析模型与前述分类模型的结构相同,只是采用了评论情感分析场景中的数据(即评论数据)进行训练,具体地,采用已标注情感极性的源语言、源领域的评论数据和未标注情感极性的源语言、目标领域的评论数据进行训练。训练好的情感分析模型同样可以对目标语言、目标领域的评论文本进行分类,确定该评论文本的情感极性(正面或负面)。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标注通常指代相同的部件或元素。
图1示出了本发明一个实施例的计算机系统9100的示意图;
图2示出了根据本发明一个实施例的机器学习模型9120的一种深度神经网络的示意图;
图3示出了根据本发明一个实施例的文本分类模型300的结构图;
图4示出了根据本发明一个实施例的文本分类方法400的流程图;
图5示出了根据本发明一个实施例的评论情感分析方法500的流程图;
图6示出了本发明的文本分类模型(情感分析模型)与其他文本分类模型的分类效果的对比图;
图7示出了根据本发明的文本分类模型的消融实验(Ablation study)的结果图;
图8示出了根据本发明一个实施例的计算设备600的示意图;
图9示出了根据本发明一个实施例的文本分类装置700的示意图;
图10示出了根据本发明一个实施例的评论情感分析装置800的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
针对现有技术中存在的问题,本发明提供一种跨语言、跨领域的文本分类方法,采用已标注的源语言源领域的文本数据和少量未标注的源语言目标领域的文本数据训练文本分类模型,训练好的模型具有较强的适应性,同样能够用于对目标语言目标领域的文本数据进行分类,从而避免了在不同语言、不同领域的应用场景中进行大量的数据获取和标注工作。
本发明的文本分类方法通过训练并应用文本分类模型来实现。图1示出了用于训练以及应用文本分类模型的计算机系统9100的示意图。如图1所示,系统9100包括通过网络9180通信连接的用户计算设备9110、服务器计算系统9130和训练计算系统9150。
用户计算设备9110可以是任何类型的计算设备,包括但不限于例如个人计算设备(例如,膝上型或者桌面型计算机)、移动计算设备(智能电话或平板电脑)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备、边缘计算设备或任何其他类型的计算设备。用户计算设备9110可以作为端智能设备部署在用户现场处,并与用户进行交互而处理用户输入。
用户计算设备9110可以存储或包括一个或多个机器学习模型9120。机器学习模型9120可以被设计用于执行各种任务,诸如图像分类、目标检测、语音识别、机器翻译、内容过滤等等。机器学习模型9120可以是诸如神经网络(例如,深度神经网络)或者包括非线性模型和/或线性模型在内的其他类型的机器学习模型。机器学习模型9120的示例包括但不限于各类深度神经网络(DNN),如前馈神经网络、递归神经网络(RNN,例如,长短期记忆递归神经网络(LSTM)、包括或者不包括注意力机制(attention)的转换器神经网络(Transformer))、卷积神经网络(CNN)或其他形式的神经网络。机器学习模型9120可以包括一个机器学习模型,或者可以是多个机器学习模型的组合。
图2中示出了根据一些实施方式而作为机器学习模型9120的一种神经网络。神经网络具有分层架构,每一网络层具有一个或多个处理节点(称为神经元或滤波器),用于处理。在深度神经网络中,前一层执行处理后的输出是下一层的输入,其中架构中的第一层接收网络输入用于处理,而最后一层的输出被提供为网络输出。如图2所示,机器学习模型9120包括网络层9122、9124、9126等,其中网络层9122接收网络输入,网络层9126提供网络输出。
在深度神经网络中,网络内的主要处理操作是交织的线性和非线性变换。这些处理分布在各个处理节点。图2还示出了模型9120中的一个节点9121的放大视图。节点9121接收多个输入值a1、a2、a3等等,并且基于相应处理参数(诸如权重w1、w2、w3等)对输入值进行处理,以生成输出z。节点9121可以被设计为利用一个激活函数来处理输入,这可以被表示为:
z=σ(wTα+b) (1)
其中α表示节点9121的输入向量(其中包括元素a1、a2、a3等);w表示节点9121所使用的处理参数中的权重向量(其中包括元素w1、w2、w3等),每个权重用于加权相应的输入;b表示节点9121所使用的处理参数中的偏置向量(其中包括元素b1、b2、b3等),每个偏置用于偏置相应的输入和加权的结果;σ()表示节点9121所使用的激活函数,激活函数可以是线性函数、非线性函数。神经网络中常用的激活函数包括sigmoid函数、ReLu函数、tanh函数、maxout函数等等。节点9121的输出也可以被称为激活值。取决于网络设计,每一网络层的输出(即激活值)可以被提供给下一层的一个、多个或全部节点作为输入。
机器学习模型9120中的每个网络层可以包括一个或多个节点9121,当以网络层为单位来查看机器学习模型9120中的处理时,每个网络层的处理也可以被类似表示为公式(1)的形式,此时α表示网络层的输入向量,而w表示网络层的权重。
应当理解,图2示出的机器学习模型的架构以及其中的网络层和处理节点的数目均是示意性的。在不同的应用中,根据需要,机器学习模型可以被设计为具有其他架构。
继续参考图1,在一些实现方式中,用户计算设备9110可以通过网络9180从服务器计算系统130接收机器学习模型9120,存储在用户计算设备的存储器中并由在用户计算设备中的应用来使用或者实现。
在另一些实现方式中,用户计算设备9110可以调用在服务器计算系统9130中存储和实现的机器学习模块9140。例如,机器学习模型9140可以由服务器计算系统9130实现为Web服务的一部分,从而用户计算设备9110可以例如通过网络9180并根据客户端-服务器关系来调用作为Web服务实现的机器学习模型9140。因此,可以在用户计算设备9110处使用的机器学习模型包括在用户计算设备9110处存储和实现的机器学习模型9120和/或在服务器计算系统9130处存储和实现的机器学习模型9140。
用户计算设备9110还可以包括接收用户输入的一个或多个用户输入组件9122。例如,用户输入组件9122可以是对用户输入对象(例如,手指或指示笔)的触摸敏感的触敏组件(例如,触敏显示屏或触摸板)。触敏组件可用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘、摄像头或用户可以通过其提供用户输入的其他设备。
服务器计算系统9130可以包括一个或多个服务器计算设备。在服务器计算系统9130包括多个服务器计算设备的情况下,这些服务器计算设备可以根据顺序计算架构、并行计算架构或其一些组合来操作。
如上所述,服务器计算系统9130可以存储或包括一个或多个机器学习模型9140。类似于机器学习模型9120,机器学习模型9140可以被设计用于执行各种任务,诸如图像分类、目标检测、语音识别、机器翻译、内容过滤等等。模型9140可以包括各种机器学习模型。示例的机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。
用户计算设备9110和/或服务器计算系统9130可以经由与通过网络9180通信地耦接的训练计算系统9150的交互来训练模型9120和/或9140。训练计算系统9150可以与服务器计算系统9130分离,或者可以是服务器计算系统9130的一部分。
类似于服务器计算系统9130,训练计算系统9150可以包括一个或多个服务器计算设备或以其他方式由一个或多个服务器计算设备实现。
训练计算系统9150可以包括模型训练器9160,其使用诸如例如误差的反向传播的各种训练或学习技术训练存储在用户计算设备9110和/或服务器计算系统9130处的机器学习模型9120和/或9140。在一些实现方式中,执行误差的反向传播可以包括执行通过时间截断的反向传播(truncated backpropagation through time)。模型训练器9160可以执行多种泛化技术(例如,权重衰减、丢失等)以改进正在训练的模型的泛化能力。
具体地,模型训练器9160可以基于训练数据9162的集合来训练机器学习模型9120和/或9140。训练数据9162可以包括多个不同的训练数据集合,每个训练数据集合例如分别有助于训练机器学习模型9120和/或9140执行多个不同的任务。例如,训练数据集合包括有助于机器学习模型9120和/或9140执行对象检测、对象识别、对象分割、图像分类和/或其他任务的数据集。
在一些实现方式中,如果用户已经明确同意,则训练示例可以由用户计算设备9110提供。因此,在这样的实现方式中,提供给用户计算设备9110的模型9120可以由训练计算系统9150在从用户计算设备9110接收的特定于用户的数据上训练。在一些情况下,该过程可以被称为个性化模型。
另外,在一些实现方式中,模型训练器9160可以对在服务器计算系统9130中的机器学习模型9140进行修改以获得适于在用户计算设备9110中使用的机器学习模型9120。这些修改例如包括减少模型中的各种参数数量、以更小的精度来存储参数值等,以使得训练后的机器学习模型9120和/或9140适于考虑到服务器计算系统9130和用户计算设备9110的不同处理性能来运行。
模型训练器9160包括用于提供所期望的功能性的计算机逻辑。模型训练器9160可以用控制通用处理器的硬件、固件和/或软件来实现。例如,在一些实现方式中,模型训练器9160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实现方式中,模型训练器9160包括一个或多个计算机可执行指令的集合,其存储在诸如RAM、硬盘或光学或磁性介质的有形计算机可读存储介质中。在一些实现方式中,模型训练器9160可以跨多个不同的设备复制和/或分布。
网络9180可以是任何类型的通信网络,诸如局域网(例如,内联网)、广域网(例如,因特网)或其一些组合,并且可以包括任何数量的有线或无线链路。通常,通过网络9180的通信可以经由任何类型的有线和/或无线连接,使用各种通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML和JSON)和/或保护方案(例如,VPN、HTTPS、SSL)来承载。
在本发明的实施例中,训练计算系统9150可以训练生成本发明的文本分类模型9144。模型9144以文本数据为输入,输出该文本数据所属的类别。训练生成的文本分类模型9144可以部署于服务器计算系统9130中。
模型9144可以由服务器计算系统9130实现为Web服务的一部分,从而用户计算设备9110可以例如通过网络9180并根据客户端-服务器关系来调用作为Web服务实现的文本分类模型9144。具体地,用户可以通过用户计算设备9110向服务器计算系统9130发起文本分类请求,并指定待分类的文本。服务器计算系统9130响应于该请求,调用文本分类模型9144,将待分类文本输入模型9144,模型9144将输出待分类文本的类别标签。随后,服务器计算系统9130可以将待分类文本的类别标签返回给用户计算设备9110。
在本发明的另一些实施例中,训练计算系统9150训练生成的本发明的文本分类模型9144可以经过一定的修改,例如对模型参数值进行量化(即以更小的精度,例如8位整型,来存储参数值),将修改后的模型部署于用户计算设备9110中。如图1所示,将部署于用户计算设备9110中的文本分类模型记为文本分类模型9124。本领域技术人员可以理解,部署于服务器计算系统9130中的文本分类模型9144与部署于用户计算设备9110中的文本分类模型9124具有相同的功能。用户可以在用户计算设备9110中调用文本分类模型9124,将待分类输入该模型,该模型将输出待分类文本所属的类别。
本发明的文本分类模型可以被应用于多种场景中,例如评论情感分析、垃圾邮件过滤、诈骗短信识别、新闻分类、智能客户服务等。本领域技术人员可以理解,不同的应用场景所采用的文本分类模型具有相同的结构,只是训练模型所采用的数据不同。例如,在将文本分类模型应用于评论情感分析场景时,文本分类模型采用已标注情感极性(正面或负面)的用户评论数据进行训练;在将文本分类模型应用于垃圾邮件过滤场景时,文本分类模型采用已标注判别标签(是否是垃圾邮件)的邮件数据进行训练;在将文本分类模型应用于诈骗短信识别场景时,文本分类模型采用已标注判别标签(是否为诈骗短信)的短信数据进行训练;在将文本分类模型应用于新闻分类场景时,文本分类模型采用已标注新闻类别(社会、财经、娱乐等)的新闻数据进行训练;在将文本分类模型应用于智能客户服务场景时,文本分类模型采用已标注问题类型(发货问题、发票问题、售后问题等)的用户提问数据进行训练;等等。
本发明的文本分类模型采用已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据训练得出,训练好的文本分类模型具有良好的迁移性,能够用于对不同的目标语言、目标领域的文本数据进行分类。例如,我们可以采用已标注了情感极性(正面或负面)的英语的电子产品评论数据集,和未标注情感极性的英语的图书、音乐评论数据集来训练文本分类模型,训练好的模型可以用于对德语书评、法语书评、日语乐评等评论数据进行情感极性分类。
图3示出了根据本发明一个实施例的文本分类模型300的结构图。如图3所示,文本分类模型300包括多语言嵌入模块310、无监督特征分解模块320和分类模块330。
多语言嵌入模块310适于对待分类文本进行处理,以生成待分类文本的跨语言表示向量。
多语言嵌入模块310在来自多种语言(例如100多种)的开放域数据集上训练得出,其所提取出的跨语言表示向量是待分类文本数据中的与语言种类无关的、跨语言共享的特征。
应当指出,本发明对多语言嵌入模块310的具体结构不做限制,其可以例如可以实现为包含多个隐藏层的神经网络。根据一种实施例,为了提高文本分类模型300的训练效率,在文本分类模型300的训练过程中,直接使用预训练好的多语言嵌入模块310,而不再对多语言嵌入模块310进行重新训练。预训练的多语言嵌入模块310例如可以是XLM模型,但不限于此(模型结构详见论文Guillaume Lample and Alexis Conneau.Cross-linguallanguage model pretraining.NeurIPS,2019)。
无监督特征分解模块320(Unsupervised Feature Decomposition,UFD)适于从多语言嵌入模块310输出的跨语言表示向量中提取出领域不变特征和领域特定特征。
根据一种实施例,无监督特征分解模块320进一步包括域不变特征提取器322和域特定特征提取器324,其中,域不变特征提取器322适于从跨语言表示向量中提取出领域不变特征,域特定特征提取器324适于从跨语言表示向量中提取出领域特定特征。
领域不变特征是不同领域的文本数据所共享的特征部分,域不变特征提取器322以无监督的方式从跨语言表示向量中提取出领域不变特征。
如图3所示,域不变特征提取器322包括至少两个第一处理单元326(图3中示例性地示出了两个第一处理单元326),每个第一处理单元326包括至少一个前馈处理层(图3每个第一处理单元326中示例性地示出了一个前馈处理层)和一个残差连接层,其中,残差连接层适于将相应第一处理单元中的第一个前馈处理层的输入与最后一个前馈处理层的输出相加,以便更好地保留跨语言表示向量中的领域不变特征。
根据一种实施例,域不变特征提取器322中的每个前馈处理层均采用ReLU激活函数进行激活。
由于多语言嵌入模块310在来自100多种语言的开放域数据集上预训练得出,因此我们认为,由该多语言嵌入模块310生成的跨语言表示向量应该包含某些跨领域的特征信息,并且在域不变特征提取器322所提取出的领域不变特征中,这部分特征信息应该被最大限度地保留。因此,根据一种实施例,可以将最大化域不变特征提取器322的输入和输出之间的互信息作为提取器322的训练目标,这样便可以将跨语言表示向量中的有用信息传递至领域不变特征中。
互信息(Mutual Information,MI)指的是一个随机变量对另一个随机变量的信息量,用于度量随机变量之间的相互依赖程度。互信息越大,两个变量的依赖程度越强。
需要说明的是,在实践中,互信息的计算通常很困难,尤其是在变量连续和高维的情况下。因此,在本发明的实施例中,不是直接按照式(3)来计算互信息,而是采用估计算法对互信息的值进行估计。例如,可以采用Belghazi等人于2018年提出的神经网络梯度下降算法(详见Mohamed Ishmael Belghazi,Aristide Baratin,Sai Rajeshwar,SherjilOzair,Yoshua Bengio,Devon Hjelm,and Aaron Courville.Mutual information neuralestimation.In ICML,pages 530–539,2018)来估算互信息,估算公式如下:
Figure BDA0002546242550000111
其中,I(X;Y)表示变量X和变量Y的互信息,符号:=表示定义为,
Figure BDA0002546242550000112
为X和Y的联合概率分布函数,
Figure BDA0002546242550000113
为X的边缘概率分布函数与Y的边缘概率分布函数的乘积,
Figure BDA0002546242550000114
表示
Figure BDA0002546242550000115
Figure BDA0002546242550000116
的KL散度,
Figure BDA0002546242550000117
为互信息的DV下界,Tω是一个判别器,其实现为一个待训练参数为ω的神经网络,其可以将X*Y空间内的样本(x,y)映射成实数域R中的一个数值Tω(x,y)。
Figure BDA0002546242550000118
表示Tω(x,y)在
Figure BDA0002546242550000119
下的期望,
Figure BDA00025462425500001110
表示Tω(x,y)在
Figure BDA00025462425500001111
下的期望,e为自然常数。通过最大化
Figure BDA00025462425500001112
判别器Tω将被训练成将来自于
Figure BDA00025462425500001114
的样本映射成一个较大值、将来自于
Figure BDA0002546242550000121
的样本映射成一个较小值,从而区分来自于
Figure BDA0002546242550000122
Figure BDA0002546242550000123
的样本。
在本发明的实施例中,域不变特征提取器322的训练目标是使其输入和输出的互信息最大。由于域不变特征提取器322的输出Fs(X)依赖于其输入X(Fs为域不变特征提取器322),因此,本发明在计算域不变特征提取器322的输入和输出的互信息时,可以对上述神经估计法做进一步简化,将其简化为Jensen-Shannon互信息估计器(详见GuillaumeLample and Alexis Conneau.Cross-lingual language model pretraining.NeurIPS,2019),从而加快互信息的计算速度。计算公式如下:
Figure BDA0002546242550000124
其中,
Figure BDA0002546242550000125
表示X和Fs(X)的互信息,x是具有经验概率分布
Figure BDA0002546242550000126
的输入样本,由于Fs(x)由x计算得出,因此(x,Fs(x))可以看作是X和Fs(X)的联合分布中的一个样本。x’是具有经验概率分布
Figure BDA0002546242550000127
的随机样本,其中
Figure BDA0002546242550000128
因此(x’,Fs(x))为边缘概率分布乘积中的一个样本。sp(z)=log(1+ez)为softplus激活函数。
基于上述最大化输入和输出之间的互信息的训练目标,域不变特征提取器322的损失函数Ls可以表示成以下形式:
Figure BDA0002546242550000129
其中,ψs为域不变特征提取器322(Fs)中待训练的参数集,ωs为域不变特征提取器322的互信息估计器中的判别器Tω中的待训练的参数集,训练目标为使上述损失函数Ls的值最小。
领域特定特征是不同领域的文本数据各自特有的特征部分,域特定特征提取器324以无监督的方式从跨语言表示向量中提取出领域特定特征。
如图3所示,域特定特征提取器324包括至少两个第二处理单元328(图3中示例性地示出了两个第二处理单元328),每个第二处理单元328包括至少一个前馈处理层(图3每个第二处理单元328中示例性地示出了一个前馈处理层)。根据一种实施例,域特定特征提取器324中的每个前馈处理层均采用ReLU激活函数进行激活。
根据一种实施例,域不变特征提取器322所包括的第一处理单元326的数量与域特定特征提取器324所包括的第二处理单元328的数量相同,并且,第一处理单元326中所包括的前馈处理层的数量与第二处理单元328中所包括的前馈处理层的数量也相同。也就是说,域不变特征提取器322与域特定特征提取器324在结构上的区别仅在于,域不变特征提取器322在每个第一处理单元326中设置了残差连接层。
考虑到领域特定特征是不同领域的文本数据所特有的特征,其与领域不变特征应当是相互独立且排他的。因此,根据一种实施例,可以将域特定特征提取器324的训练目标设置为,使每一个第二处理单元328的输出与相应的第一处理单元326的输出之间的互信息最小。基于该训练目标,以图3中所示的提取器322、324分别包括两个处理单元的结构为例,域特定特征提取器324的损失函数包括以下两部分:
Figure BDA0002546242550000131
Figure BDA0002546242550000132
其中,Lm为第一对处理单元对应的损失函数,Fs’(X)、Fp’(X)分别表示域不变特征提取器322(即Fs)的第一个处理单元、域特定特征提取器324(即Fp)的第一个处理单元的输出,
Figure BDA0002546242550000133
表示Fs’(X)和Fp’(X)的互信息,ωm为第一对处理单元的互信息估计器中的判别器Tω中的待训练的参数集,ψs、ψp分别为域不变特征提取器322(Fs)、域特定特征提取器324(Fp)中待训练的参数集。
Lp为第二对处理单元对应的损失函数,Fs(X)、Fp(X)分别表示域不变特征提取器322(Fs)的第二个处理单元、域特定特征提取器324(Fp)的第二个处理单元的输出,即Fs的输出和Fp的输出。
Figure BDA0002546242550000134
表示Fs(X)和Fp(X)的互信息,ωp为第二对处理单元的互信息估计器中的判别器Tω中的待训练的参数集。训练目标为使上述损失函数Lm、Lp的值最小。
综合上述公式(4)所示的域不变特征提取器322的损失函数Ls,和上述公式(5)、(6)所示的域特定特征提取器324的损失函数Lm、Lp,整个无监督特征分解模块320的损失函数LUFD可以表示为:
LUFD=αLs+βLm+γLp (7)
其中,α、β、γ分别为Ls、Lm、Lp的权重,其值可以由本领域技术人员自行设置,本发明对此不做限制。在一个实施例中,例如可以将α、β、γ分别设置为1、0.2和1。训练目标为使上述损失函数LUFD的值最小,即,使域不变特征提取器的输入和输出的互信息的相反数与每一对第一处理单元、第二处理单元的输出的互信息的加权和最小。
分类模块330适于根据无监督特征分解模块320输出的领域不变特征和领域特定特征来确定待分类文本所属的类别。
根据一种实施例,分类模块330包括一个线性层和一个Softmax前馈层。在分类模块330中,首先采用线性层,将领域不变特征和领域特定特征的拼接向量映射成一个中间向量。然后,采用一个具有Softmax激活函数的简单前馈层来将中间向量映射成类别标签。
根据一种实施例,分类模块330的训练目标为使交叉熵损失Lt最小。
如上所述,本发明的文本分类模型300包括多语言嵌入模块310、无监督特征分解模块320和分类模块330三个模块,基于这三个模块,采用下述分阶段的方式对文本分类模型300进行训练:
首先,获取预训练的多语言嵌入模块310。多语言嵌入模块310是预先训练好的,其在文本分类模型300的整个训练过程中保持不变。
随后,将未标注类别的源语言、目标领域的文本数据作为训练样本,训练无监督特征分解模块320。将未标注类别的源语言、目标领域的文本数据集记为Ds,t(s代表source,t代表target),以最小化损失函数LUFD为目标,不断优化无监督特征分解模块320中的待训练的参数的值,即调整参数{ωssmpp}的值,将训练得到的最终参数记为
Figure BDA0002546242550000141
当无监督特征分解模块320训练完成后,保持训练好的最终参数值
Figure BDA0002546242550000142
不变,将已标注类别的源语言、源领域的文本数据作为训练样本,训练分类模块330。将已标注类别的源语言、源领域的文本数据集记为Ds,s,以最小化损失函数Lt为目标,不断优化分类模块330中的待训练的参数值,即调整分类模块330的线性层、Softmax层中的节点权重和偏置。
当分类模块330训练完成后,整个文本分类模型300训练完成。
根据一种实施例,在上述训练过程中,无监督特征分解模块320的训练样本的数量小于分类模块330的训练样本的数量。
本发明的文本分类模型通过以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出,训练好的文本分类模型可以迁移适用于目标语言、目标领域,即实现了跨语言、跨领域的模型迁移,大大减少了文本数据的获取和标注工作。
在本发明的实施例中,训练好的文本分类模型300可以用于进行文本分类。图4示出了根据本发明一个实施例的文本分类方法400的流程图。方法400使用训练好的文本分类模型,用于对待分类文本进行分类。方法400例如可以在用户计算设备(例如前述用户计算设备9110)或服务器计算系统(例如前述服务器计算系统9130)中执行。如图4所示,方法400始于步骤S410。
在步骤S410中,获取待分类文本,其中,待分类文本的语言为源语言和目标语言集合中的任意一种,待分类文本所属的领域为源领域和目标领域集合中的任意一种。
应当指出,步骤S410中的源语言、目标语言、源领域、目标领域是相对于文本分类模型的训练过程而言。
具体地,源语言指的是文本分类模型的训练样本所属的语言;目标语言为文本分类模型可以迁移适用的语言,即多语言嵌入模块310的训练样本的语言中除了上述源语言之外的语言。多语言嵌入模块310通常采用多种(有时多达100多种)语言的文本数据训练而成,相应地,目标语言有多种,目标语言集合较为庞大。在一些情况中,可以近似认为文本分类模型可以适用于任意语言的文本分类问题中,即,目标语言可以是除源语言之外的任意语言,相应地,步骤S410中的待分类文本可以是任意语言。
源领域指的是文本分类模型的已标注的训练样本所属的领域;目标领域指的是文本分类模型的未标注的训练样本所属的领域,目标领域可能有多种。
随后,在步骤S420中,将待分类文本输入预设的文本分类模型,以便文本分类模型输出待分类文本所属的类别,其中,文本分类模型以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出。
在步骤S420中,文本分类模型以待分类文本为输入,对待分类文本进行一系列的处理和计算,输出待分类文本的类别标签,从而确定待分类文本所属的类别。文本分类模型的具体结构及训练方法可以参考图3以及相应的文字描述,此处不再赘述。
本发明的文本分类模型可以应用于多种自然语言处理的场景中,例如评论情感分析、垃圾邮件过滤、诈骗短信识别、新闻分类、智能客户服务等。本领域技术人员可以理解,不同的应用场景所采用的文本分类模型具有相同的结构,只是训练模型所采用的数据不同。
根据一种实施例,本发明的文本分类模型可以应用与评论情感分析的场景中,即,本发明还提供一种情感分析模型和评论情感分析方法。
情感分析模型与前述文本分类模型的结构相同,即,情感分析模型包括:多语言嵌入模块,适于对评论文本进行处理,以生成评论文本的跨语言表示向量;无监督特征分解模块,适于从跨语言表示向量中提取出领域不变特征和领域特定特征;分类模块,适于根据领域不变特征和领域特定特征来确定评论文本的情感极性。
情感分析模型按照以下步骤训练:获取预训练的多语言嵌入模块;将未标注情感极性的源语言、目标领域的评论数据作为训练样本,训练无监督特征分解模块;在无监督特征分解模块训练完成后,将已标注情感极性的源语言、源领域的评论数据作为训练样本,训练分类模块。
情感分析模型采用评论情感分析场景中的数据(即评论数据)进行训练,具体地,采用已标注情感极性的源语言、源领域的评论数据和未标注情感极性的源语言、目标领域的评论数据进行训练。训练好的情感分析模型同样可以用于对目标语言、目标领域的评论文本进行分类,确定该评论文本的情感极性(正面或负面)。
情感分析模型在评论数据集上进行训练和测试。评论数据集例如可以是已标注的多语言、多领域的亚马逊(Amazon)评论数据集(详见Peter Prettenhofer and BennoStein.Cross-language text classification using structural correspondencelearning.In ACL,pages 1118–1127,2010),该数据集包括英语、德语、法语和日语四种语言,每种语言包括三个领域,即图书、DVD和音乐。每种语言的每个领域都有一个训练集和一个测试集,他们均包括相同数量的正面评价和负面评价。
根据一种实施例,在情感分析模型的训练过程中,可以把英语作为唯一的源语言,并试图分别适应其他三种语言,即其他三种语言为目标语言。由于每种语言包括三个领域,因此可以在英语和某一种目标语言之间构造3*2个源-目标对,例如,以目标语言为德语为例,英语和德语之间可以构造英语图书-德语DVD、英语图书-德语音乐、英语DVD-德语图书、英语DVD-德语音乐、英语音乐-德语图书、英语音乐-德语DVD六个源-目标对。考虑到有三种目标语言,因此共有18个源-目标对。
未标注的图书、DVD和音乐领域的评论数据可以从2016年发布的未标注数据集中抽取(详见Ruining He and Julian McAuley.Ups and downs:Modeling the visualevolution of fashion trends with one-class collaborative filtering.In WWW,pages 507–517.International World Wide Web Conferences Steering Committee,2016.)。
在情感分析模型的训练阶段,首先采用来自源语言(英语)和目标领域的未标记数据Ds,t来训练无监督特征分解模块。例如,如果想要将英语DVD迁移到德语图书,则使用英语图书中的未标记数据来训练无监督特征分解模块。随后,采用源语言、源领域中的已标注数据Ds,s来训练分类模块。在测试阶段,在目标语言和目标领域的测试集Dt,t上对训练完成的模型进行评估。
基于训练好的情感分析模型,本发明还提供一种评论情感分析方法500。方法500使用训练好的情感分析模型,用于确定待分析的评论文本的情感极性。方法500例如可以在用户计算设备(例如前述用户计算设备9110)或服务器计算系统(例如前述服务器计算系统9130)中执行。如图5所示,方法500始于步骤S510。
在步骤S510中,获取待分析的评论文本,其中,评论文本的语言为源语言和目标语言集合中的任意一种,评论文本所属的领域为源领域和目标领域集合中的任意一种。
随后,在步骤S520中,将评论文本输入预设的情感分析模型,以便情感分析模型输出评论文本的情感极性,其中,情感分析模型以已标注情感极性的源语言、源领域的评论数据和未标注情感极性的源语言、目标领域的评论数据为训练样本训练得出。
在步骤S520中,情感分析模型以待分析的评论文本为输入,对该评论文本进行一系列的处理和计算,输出评论文本的情感极性标签,从而确定待分类文本所属的类别。情感分析模型的具体结构可以参见上文,此处不再赘述。
图6示出了本发明的文本分类模型与其他文本分类模型的分类效果的对比图(均应用于评论情感分析场景)。
图6中的左一列示出了参与对比的模型。其中,XLM-UFD为本发明的文本分类模型,CL-RL、Bi-PV等其他模型为前人所提出的迁移模型。图6中的数字为各模型的分类准确性(即模型的适应性),其中Avg表示平均值。每一个目标语言、目标领域的分类准确性是两个源领域的英语分类准确性的平均值。例如,德文图书(German-Books)下分类准确性是对英语DVD和英语音乐训练出的模型的准确性的平均值。由图6可见,本发明的文本分类模型的迁移分类准确性更高,优于其他所有模型。
另外,为了了解本发明的文本分类模型中的各模块的作用,本发明进行了一次彻底的模型消融实验。如图7所示,我们以XLM模型(多语言嵌入模块)作为基准模型。
首先,检查域不变特征提取器的输入和输出的互信息(MI)最大化(Max)对模型的影响,即Max MI w/o Res(w/o Res表示没有使用(without)残差连接层)。分类准确性表明,仅具有领域不变特征的Max-MI-w/o-Res降低了XLM的性能。
随着域不变特征提取器中每个处理单元的输入输出之间残差连接的增强,Max-MI(含有残差连接层)比Max-MI-w/o-Res有了显著的性能提高,但仍略低于XLM。
通过对域特定特征提取器和最终的最小化MI目标(即Lp)的补充,MaxMin-MI的性能比MaxMI有了显著的提高,并且优于XLM,证明了无监督特征分解能够支持动态的领域特定和领域不变的特征组合,提高分类性能。
通过加入中间最小MI目标(即Lm),MAX-2Min-MI在德语和法语中表现最好,可作为其他比较和消融的主要模型。我们还实验了源语言中不同大小的未标记数据对模型性能的影响。从图7可以看出,2K(即2000个)未标记的原始文本已经使本发明的文本分类模型在XLM上产生了有意义的性能提升。进一步增加未标记的原始文本将不断提高模型性能,当原始数据大小大于10K时,性能改善变得微不足道。
本发明的文本分类方法在计算设备中执行。计算设备例如可以实现为前述用户计算设备9110、服务器计算系统9130。
图8示出了根据本发明一个实施例的计算设备600的示意图。如图8所示,计算设备600包括至少一个处理器610和存储有程序指令的存储器620。其中,存储器620中存储有文本分类装置700和/或评论情感分析装置800。
装置700中包括用于执行本发明的文本分类方法400的程序指令,当该程序指令被处理器610读取并执行时,使得计算设备600执行本发明的文本分类方法400。
装置800中包括用于执行本发明的评论情感分析方法500的程序指令,当该程序指令被处理器610读取并执行时,使得计算设备600执行本发明的评论情感分析方法500。
图9示出了根据本发明一个实施例的文本分类装置700的示意图。如图7所示,装置700包括文本获取模块710和类别确定模块720。
文本获取模块710适于获取待分类文本,其中,待分类文本的语言为源语言和目标语言集合中的任意一种,待分类文本所属的领域为源领域和目标领域集合中的任意一种。文本获取模块710的具体功能和处理逻辑可以参考上文中步骤S410的相关描述,此处不再赘述。
类别确定模块720适于将待分类文本输入预设的文本分类模型,以便文本分类模型输出待分类文本所属的类别,其中,文本分类模型以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出。类别确定模块720的具体功能和处理逻辑可以参考上文中步骤S420的相关描述,此处不再赘述。
图10示出了根据本发明一个实施例的评论情感分析装置800的示意图。如图10所示,评论情感分析装置800包括评论获取模块810和情感极性确定模块820。
评论获取模块810适于获取待分析的评论文本,其中,评论文本的语言为源语言和目标语言集合中的任意一种,评论文本所属的领域为源领域和目标领域集合中的任意一种。评论获取模块810的具体功能和处理逻辑可以参考上文中步骤S510的相关描述,此处不再赘述。
情感极性确定模块820适于将评论文本输入预设的情感分析模型,以便情感分析模型输出评论文本的情感极性,其中,情感分析模型以已标注情感极性的源语言、源领域的评论数据和未标注情感极性的源语言、目标领域的评论数据为训练样本训练得出。情感极性确定模块820的具体功能和处理逻辑可以参考上文中步骤S520的相关描述,此处不再赘述。
本发明还提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行本发明的文本分类方法400和/或评论情感分析方法500。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的文本分类方法或评论情感分析方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的优选实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

Claims (18)

1.一种文本分类方法,包括:
获取待分类文本,其中,所述待分类文本的语言为源语言和目标语言集合中的任意一种,所述待分类文本所属的领域为源领域和目标领域集合中的任意一种;
将所述待分类文本输入预设的文本分类模型,以便所述文本分类模型输出所述待分类文本所属的类别,其中,所述文本分类模型以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出。
2.如权利要求1所述的方法,其中,所述文本分类模型包括:
多语言嵌入模块,适于对待分类文本进行处理,以生成所述待分类文本的跨语言表示向量;
无监督特征分解模块,适于从所述跨语言表示向量中提取出领域不变特征和领域特定特征;
分类模块,适于根据所述领域不变特征和领域特定特征来确定所述待分类文本所属的类别。
3.如权利要求2所述的方法,其中,所述文本分类模型按照以下步骤训练:
获取预训练的多语言嵌入模块;
将未标注类别的源语言、目标领域的文本数据作为训练样本,训练所述无监督特征分解模块;
在所述无监督特征分解模块训练完成后,将已标注类别的源语言、源领域的文本数据作为训练样本,训练所述分类模块。
4.如权利要求3所述的方法,其中,所述无监督特征分解模块的训练样本的数量小于所述分类模块的训练样本的数量。
5.如权利要求2-4中任一项所述的方法,其中,所述无监督特征分解模块包括:
域不变特征提取器,适于从所述跨语言表示向量中提取出领域不变特征;
域特定特征提取器,适于从所述跨语言表示向量中提取出领域特定特征。
6.如权利要求5所述的方法,其中,所述域不变特征提取器包括至少两个第一处理单元,每个第一处理单元包括至少一个前馈处理层和一个残差连接层,其中,
所述残差连接层适于将相应第一处理单元的第一个前馈处理层的输入与最后一个前馈处理层的输出相加。
7.如权利要求5所述的方法,其中,所述域特定特征提取器包括至少两个第二处理单元,每个第二处理单元包括至少一个前馈处理层。
8.如权利要求5-7中任一项所述的方法,其中,所述域不变特征提取器所包括的第一处理单元的数量与所述域特定特征提取器所包括的第二处理单元的数量相同。
9.如权利要求8所述的方法,其中,所述无监督特征分解模块的训练目标是:使所述域不变特征提取器的输入和输出的互信息的相反数与每一对第一处理单元、第二处理单元的输出的互信息的加权和最小。
10.如权利要求2-9中任一项所述的方法,其中,所述分类模块包括一个线性层和一个Softmax前馈层。
11.如权利要求10所述的方法,其中,所述分类模块的训练目标是:使交叉熵损失最小。
12.一种评论情感分析方法,包括:
获取待分析的评论文本,其中,所述评论文本的语言为源语言和目标语言集合中的任意一种,所述评论文本所属的领域为源领域和目标领域集合中的任意一种;
将所述评论文本输入预设的情感分析模型,以便所述情感分析模型输出所述评论文本的情感极性,其中,所述情感分析模型以已标注情感极性的源语言、源领域的评论数据和未标注情感极性的源语言、目标领域的评论数据为训练样本训练得出。
13.如权利要求12所述的方法,其中,所述情感分析模型包括:
多语言嵌入模块,适于对评论文本进行处理,以生成所述评论文本的跨语言表示向量;
无监督特征分解模块,适于从所述跨语言表示向量中提取出领域不变特征和领域特定特征;
分类模块,适于根据所述领域不变特征和领域特定特征来确定所述评论文本的情感极性。
14.如权利要求13所述的方法,其中,所述情感分析模型按照以下步骤训练:
获取预训练的多语言嵌入模块;
将未标注情感极性的源语言、目标领域的评论数据作为训练样本,训练所述无监督特征分解模块;
在所述无监督特征分解模块训练完成后,将已标注情感极性的源语言、源领域的评论数据作为训练样本,训练所述分类模块。
15.一种文本分类装置,包括:
文本获取模块,适于获取待分类文本,其中,所述待分类文本的语言为源语言和目标语言集合中的任意一种,所述待分类文本所属的领域为源领域和目标领域集合中的任意一种;
类别确定模块,适于将所述待分类文本输入预设的文本分类模型,以便所述文本分类模型输出所述待分类文本所属的类别,其中,所述文本分类模型以已标注类别的源语言、源领域的文本数据和未标注类别的源语言、目标领域的文本数据为训练样本训练得出。
16.一种评论情感分析装置,包括:
评论获取模块,适于获取待分析的评论文本,其中,所述评论文本的语言为源语言和目标语言集合中的任意一种,所述评论文本所属的领域为源领域和目标领域集合中的任意一种
情感极性确定模块,适于将所述评论文本输入预设的情感分析模型,以便所述情感分析模型输出所述评论文本的情感极性,其中,所述情感分析模型以已标注情感极性的源语言、源领域的评论数据和未标注情感极性的源语言、目标领域的评论数据为训练样本训练得出。
17.一种计算设备,包括:
至少一个处理器和存储有程序指令的存储器;
当所述程序指令被所述处理器读取并执行时,使得所述计算设备执行如权利要求1-11中任一项所述的文本分类方法和/或如权利要求12-14中任一项所述的评论情感分析方法。
18.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-11中任一项所述的文本分类方法和/或如权利要求12-14中任一项所述的评论情感分析方法。
CN202010561456.0A 2020-06-18 2020-06-18 一种文本分类方法、评论情感分析方法及装置 Pending CN113821629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010561456.0A CN113821629A (zh) 2020-06-18 2020-06-18 一种文本分类方法、评论情感分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010561456.0A CN113821629A (zh) 2020-06-18 2020-06-18 一种文本分类方法、评论情感分析方法及装置

Publications (1)

Publication Number Publication Date
CN113821629A true CN113821629A (zh) 2021-12-21

Family

ID=78911923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010561456.0A Pending CN113821629A (zh) 2020-06-18 2020-06-18 一种文本分类方法、评论情感分析方法及装置

Country Status (1)

Country Link
CN (1) CN113821629A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496916A (zh) * 2022-09-30 2022-12-20 北京百度网讯科技有限公司 图像识别模型的训练方法、图像识别方法以及相关装置
CN116108859A (zh) * 2023-03-17 2023-05-12 美云智数科技有限公司 情感倾向确定、样本构建、模型训练方法、装置及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496916A (zh) * 2022-09-30 2022-12-20 北京百度网讯科技有限公司 图像识别模型的训练方法、图像识别方法以及相关装置
CN115496916B (zh) * 2022-09-30 2023-08-22 北京百度网讯科技有限公司 图像识别模型的训练方法、图像识别方法以及相关装置
CN116108859A (zh) * 2023-03-17 2023-05-12 美云智数科技有限公司 情感倾向确定、样本构建、模型训练方法、装置及设备

Similar Documents

Publication Publication Date Title
Torfi et al. Natural language processing advancements by deep learning: A survey
US10635858B2 (en) Electronic message classification and delivery using a neural network architecture
CN112084327B (zh) 在保留语义的同时对稀疏标注的文本文档的分类
CN110619044B (zh) 一种情感分析方法、系统、存储介质及设备
Kumari et al. Bilingual Cyber-aggression detection on social media using LSTM autoencoder
CN113177700B (zh) 一种风险评估方法、系统、电子设备及存储介质
Ayyar et al. Review of white box methods for explanations of convolutional neural networks in image classification tasks
CN113821629A (zh) 一种文本分类方法、评论情感分析方法及装置
CN113222022A (zh) 一种网页分类识别方法及装置
CN116263785A (zh) 跨领域文本分类模型的训练方法、分类方法和装置
CN113420154B (zh) 基于层次注意的分层多标签文本分类模型的构建方法
CN112149413A (zh) 基于神经网络识别互联网网站所属业态的方法、装置以及计算机可读存储介质
CN114742645B (zh) 基于多阶段时序多任务的用户安全等级识别方法及装置
George et al. Bangla fake news detection based on multichannel combined CNN-LSTM
Ganganwar et al. Employing synthetic data for addressing the class imbalance in aspect-based sentiment classification
Kumar et al. Domain adaptation based technique for image emotion recognition using image captions
CN114282542A (zh) 网络舆情监控方法及设备
Venkatesan et al. Sentimental Analysis of Industry 4.0 Perspectives Using a Graph‐Based Bi‐LSTM CNN Model
Bodini Opinion mining from machine translated Bangla reviews with stacked contractive auto-encoders
Kwon et al. Detecting textual adversarial examples through text modification on text classification systems
Tamrin et al. Simultaneous detection of regular patterns in ancient manuscripts using GAN-Based deep unsupervised segmentation
CN112417858A (zh) 一种实体权重评分方法、系统、电子设备及存储介质
Kang et al. Label definitions augmented interaction model for legal charge prediction
Hashemi Chaleshtori et al. Automation of vulnerability information extraction using transformer-based language models
Paul et al. A context-sensitive multi-tier deep learning framework for multimodal sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination