CN109271627B - 文本分析方法、装置、计算机设备和存储介质 - Google Patents

文本分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109271627B
CN109271627B CN201811021170.2A CN201811021170A CN109271627B CN 109271627 B CN109271627 B CN 109271627B CN 201811021170 A CN201811021170 A CN 201811021170A CN 109271627 B CN109271627 B CN 109271627B
Authority
CN
China
Prior art keywords
text
target
analyzed
training
emotion type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811021170.2A
Other languages
English (en)
Other versions
CN109271627A (zh
Inventor
徐灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Network Information Technology Co Ltd
Original Assignee
Shenzhen Tencent Network Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Network Information Technology Co Ltd filed Critical Shenzhen Tencent Network Information Technology Co Ltd
Priority to CN201811021170.2A priority Critical patent/CN109271627B/zh
Publication of CN109271627A publication Critical patent/CN109271627A/zh
Application granted granted Critical
Publication of CN109271627B publication Critical patent/CN109271627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种文本分析方法、装置、计算机设备和存储介质,所述方法包括:获取待分析文本;将所述待分析文本输入到情感分类模型中,得到所述待分析文本对应的目标情感类型;获取所述待分析文本对应的候选对象集合,所述候选对象集合包括至少一个候选对象;将所述待分析文本输入到文本对象判别模型中,得到从所述候选对象集合中筛选出的所述目标情感类型对应的目标对象;根据所述目标情感类型和对应的目标对象得到所述待分析文本对应的文本分析结果。上述方法可以提高文本分析结果的准确度。

Description

文本分析方法、装置、计算机设备和存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及文本分析方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,网络中产生的信息也不断增加,在很多场景都存在对文本进行分析,识别文本中的情感类型的需求,例如,需要获取评论信息、新闻资讯中对产品的情感倾向,从而了解用户对产品的看法,以提高产品以及服务质量。
目前,在识别文本的情感类型中,通常是根据语句中包含的词的词性是是褒义还是贬义的来判断的,然而,一个语句的语法通常复杂多样,可以包括多种词性的词语,因此文本分析结果准确度不高。
发明内容
基于此,有必要针对上述的问题,提供一种文本分析方法、装置、计算机设备和存储介质,通过采用不同的模型分别判断文本对应的情感类型以及文本中该情感类型对应的对象,以获取文本的分析结果,因此得到的文本的情感类型以及所对应的对象的准确度高,文本分析结果准确度高。
一种文本分析方法,所述方法包括:获取待分析文本;将所述待分析文本输入到情感分类模型中,得到所述待分析文本对应的目标情感类型;获取所述待分析文本对应的候选对象集合,所述候选对象集合包括至少一个候选对象;将所述待分析文本输入到文本对象判别模型中,得到从所述候选对象集合中筛选出的所述目标情感类型对应的目标对象;根据所述目标情感类型和对应的目标对象得到所述待分析文本对应的文本分析结果。
一种文本分析装置,所述装置包括:待分析文本获取模块,用于获取待分析文本;目标情感类型得到模块,用于将所述待分析文本输入到情感分类模型中,得到所述待分析文本对应的目标情感类型;候选对象集合获取模块,用于获取所述待分析文本对应的候选对象集合,所述候选对象集合包括至少一个候选对象;目标对象得到模块,用于将所述待分析文本输入到文本对象判别模型中,得到从所述候选对象集合中筛选出的所述目标情感类型对应的目标对象;分析结果获取模块,用于根据所述目标情感类型和对应的目标对象得到所述待分析文本对应的文本分析结果。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述文本分析方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述文本分析方法的步骤。
上述文本分析方法、装置、计算机设备和存储介质,可通过情感分类模型确定待分析文本的目标情感类型,根据对象在待分析文本的位置对待分析文本中的对象是否为目标情感类型所对应的对象进行判断,得到待分析文本的文本分析结果,由于通过采用不同的模型分别判断文本对应的情感类型以及文本中该情感类型对应的对象,以获取文本的分析结果,因此得到的文本的情感类型以及所对应的对象的准确度高,文本分析结果准确度高。
附图说明
图1为一个实施例中提供的文本分析方法的应用环境图;
图2为一个实施例中文本分析方法的流程图;
图3A为一个实施例中文本分析方法的流程图;
图3B为一个实施例中确认文本分析结果的提示信息的示意图;
图3C为一个实施例中文本分析结果确认界面的示意图;
图3D为一个实施例中负面对象确认界面的示意图;
图3E为一个实施例中发送结果提示信息的示意图;
图4A为一个实施例中将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型的流程图;
图4B为一个实施例中利用特征提取矩阵对目标向量矩阵进行特征提取,得到特征向量的示意图;
图5为一个实施例中采用卷积神经网络模型得到待分析文本的目标情感类型的示意图;
图6为一个实施例中将待分析文本输入到文本对象判别模型中,文本对象判别模型根据候选对象在待分析文本中的位置对待分析文本进行编码,得到候选对象对应的文本编码结果的流程图;
图7为一个实施例中利用文本对象判别模型得到的目标情感类型对应的目标对象的示意图;
图8为一个实施例中文本对象判别模型的训练步骤的流程图;
图9A为一个实施例中文本分析方法的流程图;
图9B为一个实施例中文本分析方法的流程图;
图10为一个实施例中文本分析装置的结构框图;
图11为一个实施例中目标情感类型得到模块的结构框图;
图12为一个实施例中目标对象得到模块的结构框图;
图13为一个实施例中计算机设备的内部结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一训练样本称为第二训练样本,且类似地,可将第二训练样本称为第一训练样本。
图1为一个实施例中提供的文本分析方法的应用环境图,如图1所示,在该应用环境中,包括终端110以及服务器120。当需要获取文本对应的情感类型时,例如当接收到情感分析指令时,服务器120可以获取待分析文本,执行本发明实施例提供的文本分析方法,得到待分析文本对应的文本分析结果,将待分析文本对应的文本分析结果发送到终端110中,终端110可以展示待分析文本对应的文本分析结果。
可以理解,本发明实施例的文本分析方法可以由服务器120来执行,也可以由终端110来执行,还可以是由服务器120和终端110共同执行。其中,终端110执行本发明实施例的文本分析方法也可以是由安装在其上的客户端来执行。
服务器120可以是独立的物理服务,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、等,但并不局限于此。终端110以及计算机设备120可以通过网络等通讯连接方式进行连接,本发明在此不做限制。
如图2所示,在一个实施例中,提出了一种文本分析方法,本实施例主要以该方法应用于上述图1中的服务器120来举例说明。具体可以包括以下步骤:
步骤S202,获取待分析文本。
具体地,待分析文本是需要进行情感分析的文本,待分析文本可以为一个或多个。待分析文本可以是实时获取的,也可以是预先存储的。比如,可以在接收到进行情感分析的指令时实时通过网络爬虫爬取新闻资讯信息、论坛帖子等信息作为待分析文本,也可以预先将待分析文本存储到数据库。
在一个实施例中,可以存储预设对象名称,获取包括预设对象名称的文本作为待分析文本。例如,可以预先存储“A公司”、“B产品”以及“C公司”等对象名称,然后通过网络爬虫技术爬取网络中包括“A公司”、“B产品”以及“C公司”中的一个或多个词语的文本作为待分析文本。
在一个实施例中,待分析文本对应的数据源是预先设置的,例如,例如可以预先设置待分析文本对应的数据来源可以是D网址、E网址等。
在一个实施例中,待分析文本还可以是根据需要分析的文本对应的领域、对应的对象中的一个或多个得到的。例如,如果需要分析某一个游戏的口碑,则可以获取包括该游戏名称的新闻资讯信息、该游戏对应的论坛中的帖子中的一个或多个作为待分析文本。如果要分析某一个行业各个公司的口碑排名,则可以获取该行业对应的媒体类文章,作为待分析文本。
在一个实施例中,待分析文本可以是对文本信息进一步筛选得到的。例如,对于一篇文章,可以将文章的标题、摘要、第一段、最后一段中的一种或多种作为待分析文本。由于标题、摘要、第一段以及最后一段等通常是表明作者观点的,因此可以减少待分析文本的数据量且能够得到准确的文本分析结果。
步骤S204,将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型。
具体地,情感用于描述对事物所持的态度。情感类型可以根据需要设置,目标情感类型是从候选情感类型中筛选得到的,候选情感类型例如可以包括正面类型以及负面类型。在一个实施例中,候选情感类型还可以包括中性类型。正面类型是指对事物的态度是积极的,负面类型指对事物的态度是消极的,中性类型指对事物的态度既不是积极的也不是消极的。例如,如果是对事物进行赞扬,则情感类型是积极的,如果是对事物进行指责,则情感类型是消极的,如果只是简单陈述事务的来源或者组成等性质,则情感类型是中性的。
情感分类模型用于确定情感类型,情感分类模型是预先训练得到,情感分类模型可以是支持向量机(Support Vector Machine,SVM)分类器模型、神经网络(ArtificialNeural Network,ANN)分类器模型、逻辑回归算法(logistic Regression,LR)分类器模型等各种进行分类的模型。在一个实施例中可以是文本卷积神经网络模型(Text-CNN,TextConvolutional Neural Network)。Text-CNN模型通过对代表词语语义的词向量的学习,能够到文本的所表达的意思,有很好的泛化能力,即能够准确对各种文本进行情感类型的判别。将待分析文本输入目标神经网络模型之前,需要通过训练数据对情感分类模型进行模型训练,确定模型的参数,使模型能够建立起从输入的待分析文本到情感类型的映射。在进行模型训练时,可以采用有监督的学习方式,对于任意训练样本,其对应的情感类型都是己知的,可以根据训练样本的情感类型确定训练样本中标签对应的标签值。例如,对于负面的情感类型,对应的标签值为-1,对于非负面的情感类型,对应的标签值为0。以卷积神经网络为例,卷积神经网络可以包括卷积层和对应的池化层,卷积层用于进行特征提取,池化层用于对卷积层输出的特征矩阵进行池化,以减少计算复杂度以及获取明显的特征,输出层对最后得到的结果进行概率运算,得到各个类别的概率,根据类别的概率得到目标情感类型。例如输出层可以利用激活函数如softmax函数得到各个情感类型对应的概率,将概率最大的类型作为目标情感类型。因此,将待分析文本输入到已训练得到的情感分类模型,情感分类模型可以输出对应的目标情感类型。例如,可以将文章的标题“A公司控告B公司抄袭”输入到情感分类模型中,得到对应的目标情感类型为负面情感类型。
步骤S206,获取待分析文本对应的候选对象集合,候选对象集合包括至少一个候选对象。
具体地,对象是指情感所指向的事物,可以是人也可以是物。待分析文本中可以包括一个或多个候选对象,可以从待分析文本中识别得到候选对象,组成候选对象集合。在识别对象之前,可以预先建立对象名称库,当需要识别对象时,将待分析文本中的词语与预先建立的对象名称库的对象名称进行匹配,得到候选对象。
步骤S208,将待分析文本输入到文本对象判别模型中,得到从候选对象集合中筛选出的目标情感类型对应的目标对象。
具体地,文本对象判别模型用于确定文本中情感类型所对应的对象,文本对象判别模型是预先训练得到,文本对象判别模型可以是LSTM(Long Short-Term Memory,长短期记忆单元)模型,可以采用TD-LSTM(target-dependent Long Short-Term Memory)模型。采用TD-LSTM模型,能够建模对象和上下文之间的关系,且根据对象的位置确定编码的方式,从而准确的判断情感对应的对象。文本对象判别模型可以包括输入层、隐层以及输出层。隐层是输入层以及输出层之间的中间层,机器学习模型可通过隐层对输入层传递的数据进行线性或者非线性变换,得到变换结果,根据变换结果从候选对象集合中筛选得到目标对象。
在一个实施例中,可以是将概率大于预设阈值的候选对象作为目标对象。预设阈值可以根据需要进行设置,例如80%。这样,文本对象判别模型得到的结果能够进一步验证情感分类模型的结果,使得得到的文本分析结果更准确。例如,在得到待分析文本为负面情感类型时,根据文本对象判别模型得到A候选对象为负面对象的概率为95%,概率较高,也能够从侧面证明待分析文本对应的情感类型为负面情感类型,故得到的分析结果准确。
在一个实施例中,将待分析文本输入到文本对象判别模型中,得到从候选对象集合中筛选出的目标情感类型对应的目标对象包括:将待分析文本输入到文本对象判别模型中,文本对象判别模型根据候选对象在待分析文本中的位置对待分析文本进行编码,得到候选对象对应的文本编码结果;根据文本编码结果从候选对象集合中筛选得到目标情感类型对应的目标对象。
具体地,编码是指将信息从一种形式转换为另一种形式。在根据文本对象判别模型对待分析文本进行编码时,需要区分候选对象在待分析文本中的位置进行编码,针对不同的位置的候选对象,对文本进行编码的编码方式是不同的。得到文本编码结果后,经过全连接层并利用激活函数进行处理,得到各个候选对象为目标情感类型对应的对象的概率,可以将概率最大的候选对象作为目标对象。激活函数例如可以采用softmax函数。
在一个实施例中,得到候选对象后,可以以候选对象为中心,将待分析文本分为上文语句分以及下文语句,然后分别对上文语句以及下文语句进行编码,将编码得到的结果进行组合,得到文本编码向量。
在一个实施例中,情感分类模型是用于确定待分析文本对应的情感类型是否为预设的情感类型的,可以是当待分析文本对应的目标情感类型为预设的情感类型时,才进行利用文本对象判别模型得到待分析文本中的目标对象的步骤,否则,则过滤待分析文本。例如,情感分类模型用于确定待分析文本对应的情感类型是否为负面情感类型,当待分析文本对应的情感类型为负面情感类型时,才获取待分析文本中负面情感所对应的对象。如果是不是负面情感类型,则不进行获取目标对象的步骤。
步骤S210,根据目标情感类型和对应的目标对象得到待分析文本对应的文本分析结果。
具体地,文本分析结果包括了待分析文本对应的目标情感类型以及对应的目标对象,可以将待分析文本、目标情感类型以及对应的目标对象关联存储。或者,将待分析文本以及对应的目标对象关联存储在目标情感类型对应的数据库中。
在一个实施例中,待分析文本可以是多个,当待分析文本为多个时,可以统计待分析文本对应的各个目标对象的数量,得到各个目标对象对应的目标情感类型。例如,假设需要统计一个行业对应的各个公司的口碑情况,则目标对象为各个公司的名称,故可以统计各个公司为目标对象的文本中,各个目标情感类型的分布数据,得到各个公司对应的文本分析结果。
在一个实施例中,还可以将待分析文本推送到目标对象对应的终端中,使得与目标对象关联的用户可以及时了解到目标对象的情况。例如,将待分析文本推送到对应的微信用户。
本发明实施例中,可通过情感分类模型确定待分析文本的目标情感类型,根据对象在待分析文本的位置对待分析文本中的对象为目标情感类型所对应的对象进行判断,得到目标情感类型对应的对象,由于采用不同的模型判断情感类型以及情感类型对应对象,以获取目标情感类型对应的目标对象,因此得到的文本的情感类型以及所对应的对象的准确度高,能够得到准确的文本分析结果。
进一步地,采用这种多级的模型结构,对于目前文本大多为中性情感类别,含有强烈的感情倾向(如负面)的情感类别的文本比较少的情况,能够首先利用情感分类模型确定待分析文本的目标情感类型,再利用文本对象判别模型判别得到该目标情感类型所对应的对象,相当于在判别对象前,对待分析文本进行了进一步过滤,确定对应情感类型的文本,因此能够快速准确地获取到文本分析结果,也能够解决文本的情感类别不平衡的问题。
在一个实施例中,如图3A所示,文本分析方法还可以包括以下步骤:
步骤S302,当目标情感类型为第一预设情感类型时,根据目标对象获取对应的信息接收方。
具体地,第一预设情感类型可以根据需要设置,例如可以是负面情感类型。预先设置了对象与信息接收方的对应关系,例如可以设置A公司对应的信息接收方为A公司对应的管理人员的社交账号,如微信账号。
对象与信息接收方的对应关系可以是由信息接收方对应的用户设置的。例如,可以接收用户在情感监测公众号对应的界面上发送的对应关系设置请求,设置请求中携带有对象名称以及对应的信息接收方标识,服务器可以存储对象名称与信息接收方标识的对应关系。
步骤S304,将目标对象对应的待分析文本发送至信息接收方。
具体地,得到信息接收方后,将待分析文本发送到信息接收方对应的设备中,例如发送到登录了信息接收方对应的账号的终端中。
在一个实施例中,在将目标对象对应的待分析文本发送至信息接收方之前,还可以包括以下步骤:将待分析文本以及对应的文本分析结果发生到分析结果确认方。
具体地,分析结果确认方为对文本分析结果是否正确进行确认的一方。分析结果确认方可以是预先设置的。例如,可以设置分析结果确认方对应的邮箱,将待分析文本以及对应的文本分析结果发送到邮箱中。也可以设置接收分析结果的微信账号,通过微信公众号的形式将文本分析结果发送给对应的微信账号。可以创建对应的文本分析结果确认界面,文本分析结果确认界面上包括待分析文本对应的内容以及确认操作输入控件。如果接收到确认文本分析结果正确的操作,则确认文本分析结果是正确的,将待分析文本发送至信息接收方。如果未收到确认操作或者接收到确认分析结果错误的操作,则不将待分析文本发送至信息接收方。
在一个实施例中,当分析结果确认方有多个时,可以是当接收到超过预设个数或者预设比例的分析结果确认方输入的确认文本分析结果正确的操作时,确认文本分析结果正确。
在一个实施例中,还可以将待分析文本对应的相关文本推送给信息接收方。例如,如果待分析文本是一篇文章的标题,则可以把整个文章推送到信息接收方。
举例说明,假设根据本发明实施例提供的方法得到新闻标题“A产品上线一周便遭山寨,叹国产游戏之殇”为对A产品的负面新闻,则可以向各个分析结果确认方发送确认文本分析结果的提示信息,如图3B为一个实施例中的提示信息的示意图,其中,带有“_”下划线的新闻标题中嵌入有文本分析结果确认界面对应的链接,当接收到对新闻标题的点击操作时,分析结果确认方对应的终端获取文本分析结果确认界面并展示。如图3C所示,为文本分析结果确认界面的示意图,包括新闻标题对应的文章以及结果确认控件,结果确认控件包括“确认负面”以及“非负面”的控件,当接收到对“非负面”控件的操作时,则不将该文章推送给对应的信息接收方。当接收到对“确认负面”控件的操作时,从新闻标题中提取负面对象“A产品”,将新闻发送给“A产品”对应的信息接收方,例如开发“A产品”的项目组成员。如图3D所示,在得到负面对象后,可以展示负面对象确认界面,当接收到对负面对象进一步确认的“提交”操作后,将新闻发送给对应的信息接收方。如图3E所示,还可以向分析结果确认方发送待分析文本对应的发送结果提示信息,提示已将待分析文本发送至信息接收方。
在一个实施例中,当目标情感类型为第二预设情感类型时,进入获取待分析文本对应的候选对象集合的步骤。将待分析文本输入到文本对象判别模型中包括:将待分析文本输入到第二预设情感类型对应的文本对象判别模型中。
具体地,第二预设情感类型可以根据需要设置,例如可以是负面情感类型。可以对不同的情感类型训练不同的文本对象判别模型,文本对象判别模型不同可以是指训练样本不同、模型参数不同中的一个或多个。训练样本不同可以包括训练的训练文本不同、训练文本对应的标签不同中的一个或多个。例如,在训练负面情感类型对应的文本对象判别模型时,可以将训练文本对应的标签分为负面以及非负面两类,在训练正面情感类型对应的文本对象判别模型时,可以将训练文本对应的标签分为正面以及非正面两类,以提高样本标注的效率。当目标情感类型为第二预设情感类型时,进入获取待分析文本对应的候选对象集合的步骤,否则,则可以不执行步骤S206~S210。
本发明实施例中,对于某一情感类型的文本比较少且只有较少的文本含有对象的情况,能够有效解决模型使用的过程中的类别不平衡问题。例如,本发明的发明人发现,目前,含有负面评价的文章一般占比为10%,在这其中含有对象的文章占比10%,如果直接使用一个模型进行情感类型以及情感对象的识别的话。负面且含有对象的比例仅为1%,存在严重的类别不平衡的问题。而如果采用本发明实施例提供的多级模型结构,先进行负面文章识别,负面文章比例是1:10,识别出负面文章后,再用情感对象识别模型识别出对象,负面对象比例也是1:10,类别不平衡问题就能大大缓解。
在一个实施例中,如图4A所示,步骤S204即将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型包括:
步骤S402,将待分析文本进行分词,得到待分析文本对应的词序列。
具体地,分词是指将一段文本数据切分为多个词语,分词的方法可以根据实际需要进行设置。例如可以采用基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法中的一种或多种方法进行分词。还可以采用结巴分词应用工具或者Hanlp分词应用工具等分词工具对待分析文本进行分词。分词后,得到根据待分析文本的词语排列顺序依次排列的词序列。
步骤S404,获取词序列中的目标词语对应的各个目标词向量,将各个目标词向量进行组合,得到目标向量矩阵。
具体地,词向量用于将词语进行向量化表示。词向量的表示方法可以为稀疏描述方法(One-hot Representation)或者分布式描述方法(Distributed Representation)。矩阵是指按照阵列排列的复数或实数集合。各个目标词语对应的词向量可以是预先设置好的。目标词向量在目标向量矩阵的排序是根据对应的目标词语在待分析文本的排列顺序确定的。可以将一个目标词向量作为目标向量矩阵的一行,并根据对应的目标词语在待分析文本的排列顺序对目标词向量依次排序,得到目标向量矩阵。也可以将一个目标词向量作为目标向量矩阵的一列,并根据对应的目标词语在待分析文本的排列顺序对目标词向量依次排序,得到目标向量矩阵。
在一个实施例中,目标向量矩阵可以是一个n*k的矩阵,其中n代表待分析文本中词语的个数,k代表词向量的维度。例如,待分析文本对应的目标词向量依次为a、b、c、d、e,则可以将每一个词向量作为矩阵的一行,且排序依次为a、b、c、d、e,得到目标向量矩阵。
稀疏描述法将词表示成一个由0和1组成的向量,向量的维度与词表中词语的个数相同,词表由需要进行向量化的词语组成,目标词语对应的目标词向量中,目标词语在词典中的排列顺序所对应的词向量位置的维度值为1,其余维度值为0。例如,一个词表包含100词语,则该词表的所有词语转换成100维的向量。举个实际的例子,“您”在词表的排列顺序为3,则“您”的词向量表示为[0,0,1,0,0……],“赞扬”在词表的排列顺序5,则“赞扬”的词向量表示为[0,0,0,0,1,……]。词语在词表的位置可以是随机设置的,也可以是在预设的文本集合中对词语的词频进行统计,根据词语的词频大小在词表依次排列词语。当得到目标词语后,获取目标词语在词表的排列顺序,根据排列顺序得到目标词向量。分布式描述方法中是一种低维词向量表示方法。例如,一个词表同样包含10个词语时,“赞扬”的词向量可以仅通过五维向量进行表示,例如[0.30,-0.17,-0.37,0.12,-0.54]。分布式描述方法对应的词向量可以利用词向量模型例如word2vector训练得到。可以获取词向量训练的样本,如新闻资讯,利用word2vector进行训练,得到词向量。样本的数量可以根据需要设置,例如可以为30万篇。
步骤S406,根据特征提取矩阵集合对目标向量矩阵进行特征提取,得到各个特征提取矩阵对应的特征向量,其中特征提取矩阵集合包括多种不同尺度的特征提取矩阵。
具体地,特征提取是指将输入的一个或多个特征映射为另外的特征。例如利用卷积核对输入的矩阵进行卷积,卷积核相当于权重矩阵,与目标向量矩阵进行加权求和得到特征向量。特征提取矩阵尺度指的是特征提取窗口的大小,例如卷积核的窗口尺寸。一个卷积核的大小可以表示为m*k,其中,k代表组成目标向量矩阵的词向量的维度,m代表的是卷积核的窗口大小。可以理解,m大于1且小于待分析文本中词语的个数n。特征提取矩阵尺度的种类可以根据需要进行设置,例如为4种,大小分别为3、4、5、6,每种特征提取矩阵可以有多个,例如16个。由于文本中进行分词之后得到的词序列中,词语和词语之间的组合能够产生不同的意义,因此,采用多种不同尺度的特征提取矩阵,在进行特征提取时,能够有多种词语组合方式,挖掘出文本中所包含的语意。例如,假设待分析文本为“A检验局检测到B产品存在很大的瑕疵”,分词结果为“A检验局/检测/到/B产品/存在/很大/的/瑕疵”,在利用卷积神经网络模型进行卷积时,如果每一个词向量作为目标向量矩阵的一行,则利用窗口大小为2的卷积核进行卷积时,对“的”以及“瑕疵”对应的词向量进行卷积得到的特征向量反映的是有瑕疵,而如果在窗口大小为2的卷积核的基础上,采用卷积核窗口大小为3的卷积核进行卷积处理,则能够得到反映瑕疵很大的特征向量。
可以理解,在对目标向量矩阵进行特征提取时,是以词向量为单位进行提取的,以词向量为单位进行提取是指以目标词向量为一个整体进行提取的,即以目标词向量的正整数倍进行特征提取。例如可以是将2个或者3个目标词向量映射为一个特征向量,这样,能够保证词语的完整性,提取到包括词语语义的特征。
在一个实施例中,在进行特征提取时,可以将特征提取矩阵的各个矩阵值与目标向量矩阵对应区域的矩阵值相乘,对相乘得到的乘积进行统计,得到统计结果,根据统计结果得到特征向量对应的各个向量值。其中,特征提取层可以包括一个或多个,每一个特征提取层可以包括多个特征提取矩阵,可以将上一层特征提取层的输出作为当前特征提取层的输入。对于第a层第j个特征向量的提取方法用以下公式表示,其中公式中,f表示激励函数,例如可以是sigmoid函数,K表示特征提取矩阵,b表示训练得到的偏置参数,Mj表示选择的输入到当前特征提取层的向量的集合,“*”表示进行的是卷积运算。
如图4B所示,为利用特征提取矩阵对目标向量矩阵进行特征提取,得到特征向量的示意图,假设目标向量矩阵为5*5的矩阵,特征提取矩阵为3*5的矩阵,则进行特征提取时,首先将特征提取矩阵的矩阵值与目标向量矩阵中第1行至第3行中对应位置的矩阵值相乘,将得到乘积相加,得到的和为4;将特征提取矩阵的矩阵值与目标向量矩阵中第2行至第4行中对应位置的矩阵值相乘,将得到乘积相加,得到的和为2;将特征提取矩阵的矩阵值与目标向量矩阵中第3行至第5行中对应位置的矩阵值相乘,将得到乘积相加,得到的和为2,将特征提取矩阵的矩阵值与目标向量矩阵中第4行至第5行中对应位置的矩阵值相乘,得到的和为2;将特征提取矩阵的矩阵值与目标向量矩阵中第5行中对应位置的矩阵值相乘,得到和为1;然后将得到的各个和组成特征向量。
步骤S408,根据各个特征提取矩阵对应的特征向量得到待分析文本对应的目标情感类型。
具体地,得到各个特征提取矩阵对应的特征向量后,可以对特征向量进行池化,池化后经过情感分类模型中的全连接层以及激活函数层的处理,得到对应的各个候选情感类型的概率,可以将概率最大的候选情感类型作为目标情感类型。
在一个实施例中,根据各个特征提取矩阵对应的特征向量得到待分析文本对应的目标情感类型包括:对各个特征提取矩阵提取得到的特征向量进行下采样处理,得到各个特征向量对应的下采样值;将各个特征向量对应的下采样值进行拼接,得到拼接向量;将拼接向量输入情感分类网络单元,得到待分析文本对应的目标情感类型。
具体地,下采样处理是指对得到的特征向量进行缩小,提取能够表示文本特征的向量值,例如最大池化或者平均池化。最大池化是指将特征向量中的最大值作为下采样后的值,平均池化是指将特征向量中的各个值的平均值作为下采样后的值。情感分类网络单元是用于进行分类得到情感类别的单元,例如可以为卷积神经网络模型中的全连接层以及激活函数层。激活函数层可以采用激活函数例如softmax函数对拼接向量进行降维,得到与候选情感类型的数量相同维度的向量值,作为各个候选情感类型对应的概率值。得到下采样值后,将下采样值进行拼接,得到代表待分析文本的拼接向量。拼接向量经过情感分类网络单元后,可以得到候选情感类型对应的概率值,根据候选情感类型对应的概率值筛选得到待分析文本对应的目标情感类型,例如,将概率最大的候选情感类型作为目标情感类型。
在一个实施例中,情感分类模型可以包括一个或多个特征提取层。经过实验,在情感分类模型只有一个特征提取层,且该特征提取层包括多个不同尺度的特征提取矩阵时,情感分类模型的准确度高。
如图5所示,为一个实施例中采用卷积神经网络模型得到待分析文本的目标情感类型的示意图。假设待分析文本为“A检验局检测到B产品存在很大的瑕疵”,分词结果为“A检验局/检测/到/B产品/存在/很大/的/瑕疵”,将每一个词向量作为目标向量矩阵的一行,得到的目标向量矩阵的大小如图5所示,其中一个方格可以表示一个值。可以采用4个卷积核对目标词向量进行卷积,得到4个特征向量。在图5中,第1个卷积核的卷积窗口大小为3,第4个卷积核的卷积窗口大小为2,由图5可以看出,当利用第1个卷积核对“B产品”、“存在”、“很大”对应的词向量进行卷积时,得到第1个特征向量的第4个特征值。当利用第4个卷积核对“A检验局”、“检测”对应的词向量进行卷积时,得到第4个特征向量的第1个特征值。当利用第4个卷积核对“的”、“瑕疵”对应的词向量进行卷积时,得到第4个特征向量的第7个特征值。得到特征向量后,从各个特征向量中获取到最大的特征值,拼接成拼接向量,拼接向量经过全连接层以及激活函数softmax函数进行处理后,得到2维向量,表示待分析文本为负面情感对应的概率以及非负面情感对应的概率,故可以根据概率得到待分析文本对应的目标情感类型。
在一个实施例中,如图6所示,将待分析文本输入到文本对象判别模型中,文本对象判别模型根据候选对象在待分析文本中的位置对待分析文本进行编码,得到候选对象对应的文本编码结果的步骤具体可以包括以下步骤:
步骤S602,根据候选对象在待分析文本中的位置获取候选对象对应的上文语句以及下文语句。
具体地,得到候选对象在待分析文本中的位置后,以该候选对象的位置为中心,将待分析文本分为上文语句以及下文语句。例如,假设待分析文本为“近日A公司控告B公司不正当竞争”,则A公司以及B公司为候选对象,A公司对应的上文语句以及下文语句分别为“近日”、“控告B公司不正当竞争”。B公司对应的上文语句以及下文语句分别为“近日A公司控告”、“不正当竞争”。候选对象对应的上文语句以及下文语句可以包括也可以不包括该候选对象本身。
在一个实施例中,由于候选对象的名称一般并不会表现出情感倾向,且可能会由于各个名称对应的词向量的不同而对模型的输出结果造成影响,故候选对象对应的上文语句以及下文语句不包括该候选对象本身。
步骤S604,文本对象判别模型根据编码隐层分别对候选对象对应的上文语句以及下文语句进行编码,得到候选对象对应的上文编码向量以及下文编码向量。
具体地,编码隐层为用于对语句进行编码的隐层。在进行编码时,可以对上文语句以及下文语句进行分词,得到上文词序列以及下文词序列。然后获取各个词语对应的词向量,按词向量序列中各词向量的先后顺序,并利用隐层的模型参数对各词向量依次进行运算,得到运算结果,也就是各词向量相应的编码向量。
在一个实施例中,文本对象判别模型可以是循环神经网络模型,如LSTM模型,LSTM模型的隐层包括三个门函数:输入门函数、遗忘门函数以及输出门函数,当前词向量以及上一时刻的编码向量经过隐层的处理得到当前时刻的编码向量。因此,在根据文本对象判别模型对语句进行编码时,当前时刻生成的编码向量是根据当前词向量以及上一时刻生成的编码向量得到的。当前时刻是指生成当前词语对应的编码向量的时刻,上一时刻是指生成上一词语对应的编码向量的时刻。候选对象对应的上文编码向量是上文语句中最后一个时刻生成的编码向量,候选对象对应的下文编码向量是下文语句中最后一个时刻生成的编码向量。当前时刻生成的编码向量是根据当前词向量以及上一时刻生成的编码向量得到的用公式可以表示如下:bj=E(bj-1,xj),其中,bj表示语句中第j个词对应的编码向量,bj-1表示语句中第j-1个词对应的编码向量,xj表示语句中的第j个词的词向量,E表示模型的编码隐层对应的映射函数。其中,对于上文语句,词语的排序是按照待分析文本中词语的排列顺序进行排列的。对于下文语句,词语的排序是按照待分析文本中词语的排列顺序的倒序进行排列的。例如,假设待分析文本为“近日A公司控告B公司不正当竞争”,则A公司以及B公司为候选对象,A公司对应的上文语句以及下文语句分别为“近日”、“控告B公司不正当竞争”。其中对于A公司对应的下文语句,如果分词结果为“控告/B公司/不正当竞争”,那么“不正当竞争”的排序为1,“B公司”为“不正当竞争”的下一个词。而对于B公司对应的上文语句“近日A公司控告”,如果分词结果为“近日/A公司/控告”,那么“近日”的排序为1,“A公司”为“近日”的下一个词。
在一个实施例中,文本对象判别模型根据编码隐层分别对上文语句以及下文语句进行编码,得到候选对象对应的上文编码向量以及下文编码向量包括:获取上文语句以及下文语句中的候选对象,将对象类型对应的词向量作为候选对象对应的词向量,词向量用于进行编码。
具体地,对象类型对应的词向量用于表示该词语为对象。由于对象的数量一般比较庞大,如果采用一个对象对应一个不同的词向量,那可能导致对象的名称对文本对象判别模型的输出结果会有较大的影响,而在文本中,对对象名称的替换一般并不会影响情感所对应的对象在语句中的位置,例如,“近日A公司控告B公司不正当竞争”中,负面情感对应的对象为B公司,如果将待分析文本修改为“近日B公司控告A公司不正当竞争”,那么负面情感对应的对象为A公司,但是在这两个待分析文本中,无论候选对象的名称如何变化,“B公司”在“近日A公司控告B公司不正当竞争”的位置,与“A公司”在“近日B公司控告A公司不正当竞争”的位置是相同的。故可以将B公司以及A公司对应的词向量设置为对象类型对应的词向量,以减少对象名称的改变对文本对象判别模型的输出结果的影响,提高文本对象判别模型的输出结果的准确度。
步骤S606,将候选对象对应的上文编码向量以及下文编码向量进行拼接,得到候选对象对应的文本编码结果。
具体地,得到候选对象对应的上文编码向量以及下文编码向量后,将该上文编码向量以及下文编码向量拼接在一起,得到文本编码结果。例如假设A公司对应的上文编码结果为h1,A公司对应的下文编码结果为h2,则文本编码结果可以为[h1h2]。
在一个实施例中,如果一个待分析文本的同一个候选对象在待分析对象的出现次数为2次以及大于2次,则可以获取该候选对象在各个位置对应的文本编码结果。根据各个位置对应的文本编码结果分别计算该候选对象是否为目标对象。
如图7所示,为一个实施例中利用文本对象判别模型得到的目标情感类型对应的目标对象的示意图。其中,LSTML代表处理上文语句的隐层,LSTMR析代表处理下文语句的隐层,LSTML以及LSTMR可以相同也可以不同。假设待分析文本为“A检验局检测到B产品存在很大的瑕疵”,对应的目标情感类型为负面,分词结果为“A检验局/检测/到/B产品/存在/很大/的/瑕疵”,在处理“B产品”对应的上文语句时,将“A检验局”输入到LSTML中,得到编码向量hl1,将h1以及“检测”对应的词向量输入到LSTML中,得到编码向量hl2,将hl2以及“到”对应的词向量输入到LSTML中,得到编码向量hl3。在处理“B产品”对应的下文语句时,将“瑕疵”输入到LSTMR中,得到编码向量hr1,将hr1以及“的”对应的词向量输入到LSTMR中,得到编码向量hr2,将hr2以及“很大”对应的词向量输入到LSTMR中,得到编码向量hr3,将hr3以及“存在”对应的词向量输入到LSTMR中,得到编码向量hr4,,然后将hl3以及hr4拼接成,经过全连接层以及softmax函数的处理,得到“B产品”是负面情感类型对应的对象的概率,以及不是负面情感类型对应的对象的概率。如果“是”的概率大于预设的阈值,则将“B产品”作为负面情感类型对应的对象。
在一个实施例中,如图8所示,文本对象判别模型的训练步骤具体可以包括以下步骤:
步骤S802,获取情感类型为目标情感类型的训练文本。
具体地,训练文本用于进行模型训练,用于进行模型训练的训练文本的个数可以根据需要设置,例如可以是2万个。训练文本的情感类型可以是人工标注的。可以理解,除了获取目标情感类型的训练样本外,也可以获取情感类型为非目标情感类型的训练样本进行模型训练。
步骤S804,获取训练文本中目标情感类型对应的目标训练对象以及非目标情感类型对应的参考训练对象。
具体地,目标训练对象是指该对象是训练文本中,目标情感类型所指向的对象。参考训练对象是指该对象是训练文本中,不是目标情感类型所指向的对象。训练文本中的目标训练对象以及参考训练对象可以是人工标注的。例如,假设训练文本为“证监局对A公司进行调查”,则A公司为的目标训练对象,证监局为参考训练对象。
步骤S806,根据训练文本、目标训练对象以及参考训练对象在训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型。
具体地,得到目标训练对象以及参考训练对象后,可以以目标训练对象所在的位置为中心,将训练文本分为上文部分以及下文部分,以目标训练对象对应的上文部分、下文部分作为输入,以对应的目标情感类型作为期望的输出进行模型训练。此外,以参考训练对象所在的位置为中心,将训练文本分为上文部分以及下文部分,以参考训练对象对应的上文部分、下文部分作为输入,以对应的非目标情感类型作为期望的输出进行模型训练。这样,通过多次模型训练,得到文本对象判别模型。
在一个实施例中,根据训练文本、目标训练对象以及参考训练对象在训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型包括:根据目标训练对象在训练文本中的位置对训练文本进行拆分,得到目标训练对象对应的目标拆分语句集合,目标拆分语句包括目标拆分上文以及目标拆分下文;根据参考训练对象在训练文本中的位置对训练文本进行拆分,得到参考训练对象对应的参考拆分语句集合,参考拆分语句集合包括参考拆分上文以及参考拆分下文;将目标拆分语句集合以及目标情感类型标签作为第一训练样本,将参考拆分语句集合以及非目标情感类型标签作为第二训练样本;根据第一训练样本以及第二训练样本进行模型训练,得到文本对象判别模型。
具体地,对于目标训练对象,以目标训练对象在训练文本的位置将训练文本拆分为上文以及下文,得到目标拆分上文以及目标拆分下文。同样地,对于参考训练对象,以参考训练对象在训练文本的位置将训练文本拆分为上文以及下文,得到参考拆分上文以及参考拆分下文。由于进行的是有监督的模型训练,因此,对于目标拆分语句集合,对应的样本标签为目标情感类型。而对于参考拆分语句集合,对应的样本标签为非目标情感类型,即不是目标情感类型。例如,假设目标情感类型为负面情感类型,则非目标情感可以表示是非负面情感类型,也可以是正面情感类型、中性情感类型中的一个或两个。得到第一训练样本以及第二训练样本后,进行模型训练,得到文本对象判别模型。可以理解,在进行模型训练时,根据上文语句以及下文语句得到模型对应的输出与图7所示的示例是对应的,本发明在此不再赘述。本发明实施例中,对于同一个训练文本中的对象,可以根据是否为训练文本的情感对应的对象建立对象对应的训练样本,训练样本中目标训练对象对应的标签与参考训练对象对应的标签是不同的,这样,同一个训练文本可以产生多个样本,且这些样本的标签值可以是不同的,故能够使得机器学习模型学习到文本中词语排序以及语法语义对情感所指向的对象的影响,从而使得训练得到的模型更加准确。
在进行模型训练时,可以采用梯度下降方法,通过调整模型参数,以缩小模型对应的损失值,直至满足收敛条件,得到文本对象判别模型。收敛条件可以是训练次数达到第一预设阈值以及损失值小于第二预设阈值中的一个或多个,损失值则可以根据对应训练样本中的标签对应的标签值与根据模型得到的预测值的差异得到。第一预设阈值以及第二预设阈值可以根据需要进行设置,例如第一预设阈值可以为2万次,第二预设阈值可以为0.001。
如图9A以及9B所示,以下以一个具体的实施例对本发明提供的文本关键信息提取方法进行说明,包括以下步骤:
S902、根据情感分类训练样本进行模型训练得到情感分类模型,以及根据训练文本进行模型训练,得到文本对象判别模型。
其中,情感分类训练样本包括文本以及对应的情感类型。情感分类模型采用TensorFlow1.3框架。情感分类训练样本的个数为56000个,在训练完成后利用6000个测试样本对情感分类模型的准确率以及召回率进行测试,得到准确率为90%,召回率为93%。利用现有技术中采用的通过识别文本中的评价词的词性来确定文本的情感类型的方法,利用以上6000个测试样本的准确率以及召回率进行测试,得到准确率为62%,召回率为82%。
在根据训练文本进行模型训练得到文本对象判别模型时,可以根据训练文本中情感类型所对应的目标训练对象以及非情感类型所对应的参考训练对象的位置得到训练样本。其中,目标训练对象对应的训练样本的标签为训练文本对应的情感类型,而参考训练对象对应的训练样本的标签为与训练文本的情感类型不同的情感类型。例如,假设训练文本的情感类型为负面,则参考训练对象对应的训练样本的标签为非负面。
文本对象判别模型的训练样本的个数为16000个,在训练完成后利用1800个测试样本对情感分类模型的准确率以及召回率进行测试,得到准确率为80%,召回率为85%。利用现有技术中采用的通过对象识别的方法得到情感类型的方法对上述1800个测试样本的准确率以及召回率进行测试,得到准确率为50%,召回率为61%。
S904、构建对象词库,对象词库中存储了常见的对象名称或者需要识别情感类型的对象的名称。
S906、爬取新闻资讯,作为待分析文本。
其中,可以每隔预设时长利用爬去网络中的新闻资讯作为待分析文本。假设获取了2个新闻资讯,其中的标题分别为:“D公司无人车首次曝光”以及“A公司控告B公司C产品抄袭”,则可以将新闻标题作为待分析文本。
S908、将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型。
例如,假设“D公司无人车首次曝光”对应的目标情感类型为不是负面,而“A公司控告B公司C产品抄袭”对应的目标情感类型是负面。
S910,判断待分析文本对应的目标情感类型是不是负面情感类型,如果是,则进入步骤S912,如果否,进入步骤918。
例如,图9B中,“A公司控告B公司C产品抄袭”为负面新闻,故输入TD-LSTM模型中进行负面对象识别。“D公司无人车首次曝光”不是负面新闻,结束对“D公司无人车首次曝光”的情感分析流程。
S912、将目标情感类型为负面的待分析文本输入到文本对象判别模型中,得到负面情感类型对应的对象。
例如,对于“A公司控告B公司C产品抄袭”,包括三个候选对象“A公司”、“B公司”以及“C产品”,文本对象判别模型可以根据“A公司”、“B公司”以及“C产品”在文本中的位置对文本进行编码,得到各个“A公司”、“B公司”以及“C产品”分别对应的文本编码结果,文本对象判别模型根据“A公司”、“B公司”以及“C产品”分别对应的文本编码结果,得到“A公司”、“B公司”以及“C产品”对应的为负面对象的概率。根据概率得到负面对象。其中,可以筛选得到“B公司”以及“C产品”为负面对象,即目标对象,“A公司”为非负面对象。
S914、根据目标情感类型和对应的目标对象得到待分析文本对应的文本分析结果。
例如,“A公司控告B公司C产品抄袭”的文本分析结果为负面情感类型,目标对象为“B公司”以及“C产品”。
S916,将负面对象以及对应的待分析文本关联存储到负面情感类型对应的数据库中。
例如,数据库中,B公司与“A公司控告B公司C产品抄袭”对应存储,以及C产品与“A公司控告B公司C产品抄袭”对应存储。
S918,过滤待分析文本。即不对待分析文本执行获取目标情感类型对应的对象的识别步骤。
如图10所示,在一个实施例中,提供了一种文本分析装置,该文本分析装置可以集成于上述的服务器120或者终端110中,具体可以包括待分析文本获取模块1002、目标情感类型得到模块1004、候选对象集合获取模块1006、目标对象得到模块1008以及分析结果获取模块1010。
待分析文本获取模块1002,用于获取待分析文本。
目标情感类型得到模块1004,用于将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型。
候选对象集合获取模块1006,用于获取待分析文本对应的候选对象集合,候选对象集合包括至少一个候选对象。
目标对象得到模块1008,用于将待分析文本输入到文本对象判别模型中,得到从候选对象集合中筛选出的目标情感类型对应的目标对象。
分析结果获取模块1010,用于根据目标情感类型和对应的目标对象得到待分析文本对应的文本分析结果。
在一个实施例中,如图11所示,目标情感类型得到模块1004包括:
分词单元1004A,用于将待分析文本进行分词,得到待分析文本对应的词序列;
组合单元1004B,用于获取词序列中的目标词语对应的各个目标词向量,将各个目标词向量进行组合,得到目标向量矩阵;
特征向量得到单元1004C,用于根据特征提取矩阵集合对目标向量矩阵进行特征提取,得到各个特征提取矩阵对应的特征向量,其中特征提取矩阵集合包括多种不同尺度的特征提取矩阵;
目标情感类型得到单元1004D,用于根据各个特征提取矩阵对应的特征向量得到待分析文本对应的目标情感类型。
在一个实施例中,特征向量得到单元1004用于:对各个特征提取矩阵提取得到的特征向量进行下采样处理,得到各个特征向量对应的下采样值;将各个特征向量对应的下采样值进行拼接,得到拼接向量;将拼接向量输入情感分类网络单元,得到待分析文本对应的目标情感类型。
在一个实施例中,如图12所示,目标对象得到模块1008包括:
编码单元1008A,用于将待分析文本输入到文本对象判别模型中,文本对象判别模型根据候选对象在待分析文本中的位置对待分析文本进行编码,得到候选对象对应的文本编码结果;
筛选单元1008B,用于根据文本编码结果从候选对象集合中筛选得到目标情感类型对应的目标对象。
在一个实施例中,编码单元1008A用于:根据候选对象在待分析文本中的位置获取候选对象对应的上文语句以及下文语句;文本对象判别模型根据编码隐层分别对候选对象对应的上文语句以及下文语句进行编码,得到候选对象对应的上文编码向量以及下文编码向量;将候选对象对应的上文编码向量以及下文编码向量进行拼接,得到候选对象对应的文本编码结果。
在一个实施例中,编码单元1008B用于:获取上文语句以及下文语句中的候选对象,将对象类型对应的词向量作为候选对象对应的词向量,词向量用于进行编码。
在一个实施例中,文本分析装置还包括:训练文本获取模块,用于获取情感类型为目标情感类型的训练文本;训练对象获取模块,用于获取训练文本中目标情感类型对应的目标训练对象以及非目标情感类型对应的参考训练对象;模型训练模块,用于根据训练文本、目标训练对象以及参考训练对象在训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型。
在一个实施例中,模型训练模块用于:根据目标训练对象在训练文本中的位置对训练文本进行拆分,得到目标训练对象对应的目标拆分语句集合,目标拆分语句包括目标拆分上文以及目标拆分下文;根据参考训练对象在训练文本中的位置对训练文本进行拆分,得到参考训练对象对应的参考拆分语句集合,参考拆分语句集合包括参考拆分上文以及参考拆分下文;将目标拆分语句集合以及目标情感类型标签作为第一训练样本,将参考拆分语句集合以及非目标情感类型标签作为第二训练样本;根据第一训练样本以及第二训练样本进行模型训练,得到文本对象判别模型。
在一个实施例中,信息接收方得到模块,用于当目标情感类型为第一预设情感类型时,根据目标对象获取对应的信息接收方;发送模块,用于将目标对象对应的待分析文本发送至信息接收方。
在一个实施例中,文本分析装置还包括:进入模块,用于当目标情感类型为第二预设情感类型时,进入获取待分析文本对应的候选对象集合的步骤;目标对象得到模块用于将待分析文本输入到第二预设情感类型对应的文本对象判别模型中。
图13示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图13所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口以及输入装置。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本分析方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本分析方法。计算机设备的输入装置可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本分析装置可以实现为一种计算机程序的形式,计算机程序可在如图13所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本分析装置的各个程序模块,比如,图10所示的待分析文本获取模块1002、目标情感类型得到模块1004、候选对象集合获取模块1006、目标对象得到模块1008以及分析结果获取模块1010。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本分析方法中的步骤。
例如,图13所示的计算机设备可以通过如图10所示的文本分析装置中的待分析文本获取模块1002获取待分析文本。通过目标情感类型得到模块1004,将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型。通过候选对象集合获取模块1006获取待分析文本对应的候选对象集合,候选对象集合包括至少一个候选对象。通过目标对象得到模块1008,用于将待分析文本输入到文本对象判别模型中,得到从所述候选对象集合中筛选出的所述目标情感类型对应的目标对象。通过分析结果获取模块1010根据目标情感类型和对应的目标对象得到待分析文本对应的文本分析结果。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待分析文本;将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型;获取待分析文本对应的候选对象集合,候选对象集合包括至少一个候选对象;将待分析文本输入到文本对象判别模型中,得到从候选对象集合中筛选出的目标情感类型对应的目标对象;根据目标情感类型和对应的目标对象得到待分析文本对应的文本分析结果。
在一个实施例中,处理器所执行的将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型包括:将待分析文本进行分词,得到待分析文本对应的词序列;获取词序列中的目标词语对应的各个目标词向量,将各个目标词向量进行组合,得到目标向量矩阵;根据特征提取矩阵集合对目标向量矩阵进行特征提取,得到各个特征提取矩阵对应的特征向量,其中特征提取矩阵集合包括多种不同尺度的特征提取矩阵;根据各个特征提取矩阵对应的特征向量得到待分析文本对应的目标情感类型。
在一个实施例中,处理器所执行的根据各个特征提取矩阵对应的特征向量得到待分析文本对应的目标情感类型包括:对各个特征提取矩阵提取得到的特征向量进行下采样处理,得到各个特征向量对应的下采样值;将各个特征向量对应的下采样值进行拼接,得到拼接向量;将拼接向量输入情感分类网络单元,得到待分析文本对应的目标情感类型。
在一个实施例中,处理器所执行的将待分析文本输入到文本对象判别模型中,得到从候选对象集合中筛选出的目标情感类型对应的目标对象包括:将待分析文本输入到文本对象判别模型中,文本对象判别模型根据候选对象在待分析文本中的位置对待分析文本进行编码,得到候选对象对应的文本编码结果;根据文本编码结果从候选对象集合中筛选得到目标情感类型对应的目标对象。
在一个实施例中,处理器所执行的将待分析文本输入到文本对象判别模型中,文本对象判别模型根据候选对象在待分析文本中的位置对待分析文本进行编码,得到候选对象对应的文本编码结果包括:根据候选对象在待分析文本中的位置获取候选对象对应的上文语句以及下文语句;文本对象判别模型根据编码隐层分别对候选对象对应的上文语句以及下文语句进行编码,得到候选对象对应的上文编码向量以及下文编码向量;将候选对象对应的上文编码向量以及下文编码向量进行拼接,得到候选对象对应的文本编码结果。
在一个实施例中,处理器所执行的文本对象判别模型根据编码隐层分别对上文语句以及下文语句进行编码,得到候选对象对应的上文编码向量以及下文编码向量包括:获取上文语句以及下文语句中的候选对象,将对象类型对应的词向量作为候选对象对应的词向量,词向量用于进行编码。
在一个实施例中,计算机程序还使得处理器执行如下步骤:获取情感类型为目标情感类型的训练文本;获取训练文本中目标情感类型对应的目标训练对象以及非目标情感类型对应的参考训练对象;根据训练文本、目标训练对象以及参考训练对象在训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型。
在一个实施例中,处理器所执行的根据训练文本、目标训练对象以及参考训练对象在训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型包括:根据目标训练对象在训练文本中的位置对训练文本进行拆分,得到目标训练对象对应的目标拆分语句集合,目标拆分语句包括目标拆分上文以及目标拆分下文;根据参考训练对象在训练文本中的位置对训练文本进行拆分,得到参考训练对象对应的参考拆分语句集合,参考拆分语句集合包括参考拆分上文以及参考拆分下文;将目标拆分语句集合以及目标情感类型标签作为第一训练样本,将参考拆分语句集合以及非目标情感类型标签作为第二训练样本;根据第一训练样本以及第二训练样本进行模型训练,得到文本对象判别模型。
在一个实施例中,计算机程序还使得处理器执行如下步骤:当目标情感类型为第一预设情感类型时,根据目标对象获取对应的信息接收方;将目标对象对应的待分析文本发送至信息接收方。
在一个实施例中,计算机程序还使得处理器执行如下步骤:当目标情感类型为第二预设情感类型时,进入获取待分析文本对应的候选对象集合的步骤;处理器执行的将待分析文本输入到文本对象判别模型中包括:将待分析文本输入到第二预设情感类型对应的文本对象判别模型中。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待分析文本;将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型;获取待分析文本对应的候选对象集合,候选对象集合包括至少一个候选对象;将待分析文本输入到文本对象判别模型中,得到从候选对象集合中筛选出的目标情感类型对应的目标对象;根据目标情感类型和对应的目标对象得到待分析文本对应的文本分析结果。
在一个实施例中,处理器所执行的将待分析文本输入到情感分类模型中,得到待分析文本对应的目标情感类型包括:将待分析文本进行分词,得到待分析文本对应的词序列;获取词序列中的目标词语对应的各个目标词向量,将各个目标词向量进行组合,得到目标向量矩阵;根据特征提取矩阵集合对目标向量矩阵进行特征提取,得到各个特征提取矩阵对应的特征向量,其中特征提取矩阵集合包括多种不同尺度的特征提取矩阵;根据各个特征提取矩阵对应的特征向量得到待分析文本对应的目标情感类型。
在一个实施例中,处理器所执行的根据各个特征提取矩阵对应的特征向量得到待分析文本对应的目标情感类型包括:对各个特征提取矩阵提取得到的特征向量进行下采样处理,得到各个特征向量对应的下采样值;将各个特征向量对应的下采样值进行拼接,得到拼接向量;将拼接向量输入情感分类网络单元,得到待分析文本对应的目标情感类型。
在一个实施例中,处理器所执行的将待分析文本输入到文本对象判别模型中,得到从候选对象集合中筛选出的目标情感类型对应的目标对象包括:将待分析文本输入到文本对象判别模型中,文本对象判别模型根据候选对象在待分析文本中的位置对待分析文本进行编码,得到候选对象对应的文本编码结果;根据文本编码结果从候选对象集合中筛选得到目标情感类型对应的目标对象。
在一个实施例中,处理器所执行的将待分析文本输入到文本对象判别模型中,文本对象判别模型根据候选对象在待分析文本中的位置对待分析文本进行编码,得到候选对象对应的文本编码结果包括:根据候选对象在待分析文本中的位置获取候选对象对应的上文语句以及下文语句;文本对象判别模型根据编码隐层分别对候选对象对应的上文语句以及下文语句进行编码,得到候选对象对应的上文编码向量以及下文编码向量;将候选对象对应的上文编码向量以及下文编码向量进行拼接,得到候选对象对应的文本编码结果。
在一个实施例中,处理器所执行的文本对象判别模型根据编码隐层分别对上文语句以及下文语句进行编码,得到候选对象对应的上文编码向量以及下文编码向量包括:获取上文语句以及下文语句中的候选对象,将对象类型对应的词向量作为候选对象对应的词向量,词向量用于进行编码。
在一个实施例中,计算机程序还使得处理器执行如下步骤:获取情感类型为目标情感类型的训练文本;获取训练文本中目标情感类型对应的目标训练对象以及非目标情感类型对应的参考训练对象;根据训练文本、目标训练对象以及参考训练对象在训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型。
在一个实施例中,处理器所执行的根据训练文本、目标训练对象以及参考训练对象在训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型包括:根据目标训练对象在训练文本中的位置对训练文本进行拆分,得到目标训练对象对应的目标拆分语句集合,目标拆分语句包括目标拆分上文以及目标拆分下文;根据参考训练对象在训练文本中的位置对训练文本进行拆分,得到参考训练对象对应的参考拆分语句集合,参考拆分语句集合包括参考拆分上文以及参考拆分下文;将目标拆分语句集合以及目标情感类型标签作为第一训练样本,将参考拆分语句集合以及非目标情感类型标签作为第二训练样本;根据第一训练样本以及第二训练样本进行模型训练,得到文本对象判别模型。
在一个实施例中,计算机程序还使得处理器执行如下步骤:当目标情感类型为第一预设情感类型时,根据目标对象获取对应的信息接收方;将目标对象对应的待分析文本发送至信息接收方。
在一个实施例中,计算机程序还使得处理器执行如下步骤:当目标情感类型为第二预设情感类型时,进入获取待分析文本对应的候选对象集合的步骤;处理器执行的将待分析文本输入到文本对象判别模型中包括:将待分析文本输入到第二预设情感类型对应的文本对象判别模型中。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (22)

1.一种文本分析方法,所述方法包括:
获取待分析文本;
将所述待分析文本输入到情感分类模型中,得到所述待分析文本对应的目标情感类型;
获取所述待分析文本对应的候选对象集合,所述候选对象集合包括多个候选对象;
将所述待分析文本输入到文本对象判别模型中,得到从所述候选对象集合中筛选出的所述目标情感类型对应的目标对象,所述目标对象是指所述待分析文本中所述目标情感类型所指向的对象,包括:针对不同的位置的候选对象,以所述各个候选对象为中心,将所述待分析文本分为上文语句分以及下文语句,然后分别对上文语句以及下文语句进行编码,将编码得到的结果进行组合,得到文本编码向量,将文本编码向量经过全连接层并利用激活函数进行处理,得到所述各个候选对象为目标情感类型对应的对象的概率,将概率最大的候选对象作为目标对象;
根据所述目标情感类型和对应的目标对象得到所述待分析文本对应的文本分析结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述待分析文本输入到情感分类模型中,得到所述待分析文本对应的目标情感类型包括:
将所述待分析文本进行分词,得到所述待分析文本对应的词序列;
获取所述词序列中的目标词语对应的各个目标词向量,将所述各个目标词向量进行组合,得到目标向量矩阵;
根据特征提取矩阵集合对所述目标向量矩阵进行特征提取,得到各个特征提取矩阵对应的特征向量,其中所述特征提取矩阵集合包括多种不同尺度的特征提取矩阵;
根据所述各个特征提取矩阵对应的特征向量得到所述待分析文本对应的目标情感类型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各个特征提取矩阵对应的特征向量得到所述待分析文本对应的目标情感类型包括:
对所述各个特征提取矩阵提取得到的特征向量进行下采样处理,得到各个特征向量对应的下采样值;
将所述各个特征向量对应的下采样值进行拼接,得到拼接向量;
将所述拼接向量输入情感分类网络单元,得到所述待分析文本对应的目标情感类型。
4.根据权利要求1所述的方法,其特征在于,所述将所述待分析文本输入到文本对象判别模型中,得到从所述候选对象集合中筛选出的所述目标情感类型对应的目标对象包括:
将所述待分析文本输入到文本对象判别模型中,所述文本对象判别模型根据所述候选对象在所述待分析文本中的位置对所述待分析文本进行编码,得到所述候选对象对应的文本编码结果;
根据所述文本编码结果从所述候选对象集合中筛选得到所述目标情感类型对应的目标对象。
5.根据权利要求4所述的方法,其特征在于,所述将所述待分析文本输入到文本对象判别模型中,所述文本对象判别模型根据所述候选对象在所述待分析文本中的位置对所述待分析文本进行编码,得到所述候选对象对应的文本编码结果包括:
根据所述候选对象在所述待分析文本中的位置获取所述候选对象对应的上文语句以及下文语句;
所述文本对象判别模型根据编码隐层分别对所述候选对象对应的上文语句以及下文语句进行编码,得到所述候选对象对应的上文编码向量以及下文编码向量;
将所述候选对象对应的上文编码向量以及下文编码向量进行拼接,得到所述候选对象对应的文本编码结果。
6.根据权利要求5所述的方法,其特征在于,所述文本对象判别模型根据编码隐层分别对所述上文语句以及下文语句进行编码,得到所述候选对象对应的上文编码向量以及下文编码向量包括:
获取所述上文语句以及下文语句中的候选对象,将对象类型对应的词向量作为所述候选对象对应的词向量,所述词向量用于进行编码。
7.根据权利要求1所述的方法,其特征在于,所述文本对象判别模型的训练步骤包括:
获取情感类型为目标情感类型的训练文本;
获取所述训练文本中目标情感类型对应的目标训练对象以及非目标情感类型对应的参考训练对象;
根据所述训练文本、所述目标训练对象以及所述参考训练对象在所述训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型。
8.根据权利要求7所述的方法,其特征在于,所述根据所述训练文本、所述目标训练对象以及所述参考训练对象在所述训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型包括:
根据所述目标训练对象在所述训练文本中的位置对所述训练文本进行拆分,得到所述目标训练对象对应的目标拆分语句集合,所述目标拆分语句包括目标拆分上文以及目标拆分下文;
根据所述参考训练对象在所述训练文本中的位置对所述训练文本进行拆分,得到所述参考训练对象对应的参考拆分语句集合,所述参考拆分语句集合包括参考拆分上文以及参考拆分下文;
将所述目标拆分语句集合以及目标情感类型标签作为第一训练样本,将所述参考拆分语句集合以及非目标情感类型标签作为第二训练样本;
根据所述第一训练样本以及所述第二训练样本进行模型训练,得到所述文本对象判别模型。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述目标情感类型为第一预设情感类型时,根据所述目标对象获取对应的信息接收方;
将所述目标对象对应的待分析文本发送至所述信息接收方。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述目标情感类型为第二预设情感类型时,进入获取所述待分析文本对应的候选对象集合的步骤;
所述将所述待分析文本输入到文本对象判别模型中包括:
将所述待分析文本输入到所述第二预设情感类型对应的文本对象判别模型中。
11.一种文本分析装置,所述装置包括:
待分析文本获取模块,用于获取待分析文本;
目标情感类型得到模块,用于将所述待分析文本输入到情感分类模型中,得到所述待分析文本对应的目标情感类型;
候选对象集合获取模块,用于获取所述待分析文本对应的候选对象集合,所述候选对象集合包括多个候选对象;
目标对象得到模块,用于将所述待分析文本输入到文本对象判别模型中,得到从所述候选对象集合中筛选出的所述目标情感类型对应的目标对象,所述目标对象是指所述待分析文本中所述目标情感类型所指向的对象,包括:针对不同的位置的候选对象,以所述各个候选对象为中心,将所述待分析文本分为上文语句分以及下文语句,然后分别对上文语句以及下文语句进行编码,将编码得到的结果进行组合,得到文本编码向量,将文本编码向量经过全连接层并利用激活函数进行处理,得到所述各个候选对象为目标情感类型对应的对象的概率,将概率最大的候选对象作为目标对象;
分析结果获取模块,用于根据所述目标情感类型和对应的目标对象得到所述待分析文本对应的文本分析结果。
12.根据权利要求11所述的装置,其特征在于,所述目标情感类型得到模块包括:
分词单元,用于将所述待分析文本进行分词,得到所述待分析文本对应的词序列;
组合单元,用于获取所述词序列中的目标词语对应的各个目标词向量,将所述各个目标词向量进行组合,得到目标向量矩阵;
特征向量得到单元,用于根据特征提取矩阵集合对所述目标向量矩阵进行特征提取,得到各个特征提取矩阵对应的特征向量,其中所述特征提取矩阵集合包括多种不同尺度的特征提取矩阵;
目标情感类型得到单元,用于根据所述各个特征提取矩阵对应的特征向量得到所述待分析文本对应的目标情感类型。
13.根据权利要求12所述的装置,其特征在于,所述特征向量得到单元还用于对所述各个特征提取矩阵提取得到的特征向量进行下采样处理,得到各个特征向量对应的下采样值;将所述各个特征向量对应的下采样值进行拼接,得到拼接向量;将所述拼接向量输入情感分类网络单元,得到所述待分析文本对应的目标情感类型。
14.根据权利要求11所述的装置,其特征在于,所述目标对象得到模块包括:
编码单元,用于将所述待分析文本输入到文本对象判别模型中,所述文本对象判别模型根据所述候选对象在所述待分析文本中的位置对所述待分析文本进行编码,得到所述候选对象对应的文本编码结果;
筛选单元,用于根据所述文本编码结果从所述候选对象集合中筛选得到所述目标情感类型对应的目标对象。
15.根据权利要求14所述的装置,其特征在于,所述编码单元还用于根据所述候选对象在所述待分析文本中的位置获取所述候选对象对应的上文语句以及下文语句;所述文本对象判别模型根据编码隐层分别对所述候选对象对应的上文语句以及下文语句进行编码,得到所述候选对象对应的上文编码向量以及下文编码向量;将所述候选对象对应的上文编码向量以及下文编码向量进行拼接,得到所述候选对象对应的文本编码结果。
16.根据权利要求15所述的装置,其特征在于,所述编码单元还用于获取所述上文语句以及下文语句中的候选对象,将对象类型对应的词向量作为所述候选对象对应的词向量,所述词向量用于进行编码。
17.根据权利要求11所述的装置,其特征在于,所述装置还包括:
训练文本获取模块,用于获取情感类型为目标情感类型的训练文本;
训练对象获取模块,用于获取所述训练文本中目标情感类型对应的目标训练对象以及非目标情感类型对应的参考训练对象;
模型训练模块,用于根据所述训练文本、所述目标训练对象以及所述参考训练对象在所述训练文本中的位置对文本对象判别模型进行训练,得到已训练的文本对象判别模型。
18.根据权利要求17所述的装置,其特征在于,所述模型训练模块还用于根据所述目标训练对象在所述训练文本中的位置对所述训练文本进行拆分,得到所述目标训练对象对应的目标拆分语句集合,所述目标拆分语句包括目标拆分上文以及目标拆分下文;根据所述参考训练对象在所述训练文本中的位置对所述训练文本进行拆分,得到所述参考训练对象对应的参考拆分语句集合,所述参考拆分语句集合包括参考拆分上文以及参考拆分下文;将所述目标拆分语句集合以及目标情感类型标签作为第一训练样本,将所述参考拆分语句集合以及非目标情感类型标签作为第二训练样本;根据所述第一训练样本以及所述第二训练样本进行模型训练,得到所述文本对象判别模型。
19.根据权利要求11所述的装置,其特征在于,所述装置还包括:
信息接收方得到模块,用于当所述目标情感类型为第一预设情感类型时,根据所述目标对象获取对应的信息接收方;将所述目标对象对应的待分析文本发送至所述信息接收方。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
进入模块,用于当所述目标情感类型为第二预设情感类型时,进入获取所述待分析文本对应的候选对象集合的步骤;
所述目标对象得到模块还用于将所述待分析文本输入到所述第二预设情感类型对应的文本对象判别模型中。
21.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至10中任一项权利要求所述文本分析方法的步骤。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至10中任一项权利要求所述文本分析方法的步骤。
CN201811021170.2A 2018-09-03 2018-09-03 文本分析方法、装置、计算机设备和存储介质 Active CN109271627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811021170.2A CN109271627B (zh) 2018-09-03 2018-09-03 文本分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811021170.2A CN109271627B (zh) 2018-09-03 2018-09-03 文本分析方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109271627A CN109271627A (zh) 2019-01-25
CN109271627B true CN109271627B (zh) 2023-09-05

Family

ID=65187155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811021170.2A Active CN109271627B (zh) 2018-09-03 2018-09-03 文本分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109271627B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722726A (zh) * 2019-03-20 2020-09-29 北京搜狗科技发展有限公司 一种颜文字的确定方法和装置
CN111814483B (zh) * 2019-06-12 2024-04-12 北京京东尚科信息技术有限公司 用于分析情感的方法和装置
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110377740B (zh) * 2019-07-22 2022-05-20 腾讯科技(深圳)有限公司 情感极性分析方法、装置、电子设备及存储介质
CN110705300A (zh) * 2019-09-27 2020-01-17 上海烨睿信息科技有限公司 情感分析方法、系统、计算机终端及存储介质
CN110855635B (zh) * 2019-10-25 2022-02-11 新华三信息安全技术有限公司 Url识别方法、装置及数据处理设备
CN111930940B (zh) * 2020-07-30 2024-04-16 腾讯科技(深圳)有限公司 一种文本情感分类方法、装置、电子设备及存储介质
CN112256826A (zh) * 2020-10-19 2021-01-22 网易(杭州)网络有限公司 情感分析方法、评价、情感分析模型的训练方法及装置
CN112307179A (zh) * 2020-10-21 2021-02-02 深圳技术大学 文本匹配方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631961A (zh) * 2013-12-17 2014-03-12 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107515856A (zh) * 2017-08-30 2017-12-26 哈尔滨工业大学 一种基于局部信息表示的细粒度情感元素抽取方法
WO2018045910A1 (zh) * 2016-09-09 2018-03-15 阿里巴巴集团控股有限公司 情感倾向的识别方法、对象分类方法及数据处理系统
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631961A (zh) * 2013-12-17 2014-03-12 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
WO2018045910A1 (zh) * 2016-09-09 2018-03-15 阿里巴巴集团控股有限公司 情感倾向的识别方法、对象分类方法及数据处理系统
CN107807914A (zh) * 2016-09-09 2018-03-16 阿里巴巴集团控股有限公司 情感倾向的识别方法、对象分类方法及数据处理系统
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN108268439A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 文本情感的处理方法及装置
CN107515856A (zh) * 2017-08-30 2017-12-26 哈尔滨工业大学 一种基于局部信息表示的细粒度情感元素抽取方法
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏州园林网络评论意见挖掘研究;包亮 等;《微型机与应用》;第第35卷卷(第第13期期);第86-89页正文部分以及图1-6 *

Also Published As

Publication number Publication date
CN109271627A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271627B (zh) 文本分析方法、装置、计算机设备和存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111639193A (zh) 产品风险评估方法及装置、电子设备、存储介质
CN110276382B (zh) 基于谱聚类的人群分类方法、装置及介质
CN112560504B (zh) 抽取表单文档中信息的方法、电子设备和计算机可读介质
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN111897954A (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN111428513A (zh) 一种基于卷积神经网络的虚假评论分析方法
CN116150367A (zh) 一种基于方面的情感分析方法及系统
Ayyadevara Neural Networks with Keras Cookbook: Over 70 recipes leveraging deep learning techniques across image, text, audio, and game bots
CN114691525A (zh) 测试用例的选择方法及装置
CN114357170A (zh) 模型训练方法、分析方法、装置、设备及介质
CN113590945B (zh) 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN113177644A (zh) 一种基于词嵌入和深度时序模型的自动建模系统
Keerthana et al. Accurate prediction of fake job offers using machine learning
Hamad et al. Sentiment analysis of restaurant reviews in social media using naïve bayes
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN112905713B (zh) 联合罪名预测的涉案新闻重叠实体关系抽取方法
CN115222112A (zh) 一种行为预测方法、行为预测模型的生成方法及电子设备
CN114281991A (zh) 文本分类方法、装置、电子设备及存储介质
Karim et al. Classification of Google Play Store Application Reviews Using Machine Learning
US11809980B1 (en) Automatic classification of data sensitivity through machine learning
CN113704409B (zh) 一种基于级联森林的虚假招聘信息检测方法
CN112861757B (zh) 基于文本语义理解的笔录智能审核方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant