CN108763384A - 用于文本分类的数据处理方法、数据处理装置和电子设备 - Google Patents

用于文本分类的数据处理方法、数据处理装置和电子设备 Download PDF

Info

Publication number
CN108763384A
CN108763384A CN201810483271.5A CN201810483271A CN108763384A CN 108763384 A CN108763384 A CN 108763384A CN 201810483271 A CN201810483271 A CN 201810483271A CN 108763384 A CN108763384 A CN 108763384A
Authority
CN
China
Prior art keywords
text data
data
text
data processing
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810483271.5A
Other languages
English (en)
Inventor
杨鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wisdom Technology Development Co Ltd
Original Assignee
Beijing Wisdom Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wisdom Technology Development Co Ltd filed Critical Beijing Wisdom Technology Development Co Ltd
Priority to CN201810483271.5A priority Critical patent/CN108763384A/zh
Publication of CN108763384A publication Critical patent/CN108763384A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了用于文本分类的数据处理方法、数据处理装置和电子设备。该用于文本分类的数据处理方法包括:获取初始文本数据;对所述初始文本数据中的词汇进行词向量转换以获得以词向量为基础的转换文本数据;通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列;以双层注意力机制获得所述隐状态序列的不同特征向量的权重值并加权求和以获得所述隐状态序列的特征表示;以及,以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。这样,可以以特定的处理架构基于用户的文本数据挖掘出所述文本数据的类别标签,以更为全面和准确地获取用户所要表达的主观信息。

Description

用于文本分类的数据处理方法、数据处理装置和电子设备
技术领域
本发明总的来说涉及数据处理领域,特别是涉及用于文本分类的数据处理方法、数据处理装置和电子设备。
背景技术
随着社交媒体的发展,越来越多的用户使用各类社交平台,向他人传递信息、分享自己对某个事件的观点和评价,以及,发布自己感兴趣的内容等。以微博为例,微博是基于社交关系来进行信息传播的媒体平台,允许用户采用发布、分享、回复、转发等方式传播图片、视频和文本等信息。尽管分享图片和视频在社交网络中很普遍,但用户更倾向于使用文本信息来发表对某一事件或商品的看法和评价。
因此,如何基于用户数据挖掘出用户对于客观事物的感受,即,基于用户数据挖掘出用户对于客观事物的主观意图,以更为全面地获取用户对于特定客观现实,比如事件或商品所要表达的主观信息,已逐渐成为当前自然语言处理领域的研究热点。
所以,需要改进的用于文本分类的数据处理方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了用于文本分类的数据处理方法、数据处理装置和电子设备,其可以以特定的处理架构基于用户的文本数据挖掘出所述文本数据的类别标签,以更为全面和准确地获取用户所要表达的主观信息。
根据本申请的一方面,提供了一种用于文本分类的数据处理方法,包括:获取初始文本数据;对所述初始文本数据中的词汇进行词向量转换以获得以词向量为基础的转换文本数据;通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列;以双层注意力机制获得所述隐状态序列的不同特征向量的权重值并加权求和以获得所述隐状态序列的特征表示;以及,以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。
在上述用于文本分类的数据处理方法中,所述双层注意力机制用于:以参数矩阵对输入特征向量进行非线性转换以获得中间结果;以及,将所述中间结果与转移向量的转置进行矩阵计算并使用softmax函数进行归一化,以得到所述特征向量的权重值的分布。
在上述用于文本分类的数据处理方法中,获取初始文本数据进一步包括以下的至少其中之一:对所述初始文本数据进行去重;对所述初始文本数据进行去噪声;以及,转化用户数据中的非文本数据为文本数据。
在上述用于文本分类的数据处理方法中,所述用于多分类的逻辑回归模型是Softmax分类模型,且所述Softmax分类模型具有可设置的类别标签数量。
在上述用于文本分类的数据处理方法中,以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签包括:基于所述特征表示以Softmax分类模型获得所述初始文本数据中每一句子对应的类别标签的概率分布;以及,选择概率最大的类别标签为所述初始文本数据中该句子的类别标签,以获得所述初始文本数据的类别标签。
在上述用于文本分类的数据处理方法中,所述用户数据为用户微博数据,所述类别标签为情感标签。
在上述用于文本分类的数据处理方法中,所述用户微博数据中的所述非文本数据包括表情图片和表情符号。
根据本申请的另一方面,提供了一种用于文本分类的数据处理装置,包括:文本数据获取单元,用于获取初始文本数据;词向量转换单元,用于对所述初始文本数据中的词汇进行词向量转换以获得以词向量为基础的转换文本数据;隐状态序列获取单元,用于通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列;特征表示获取单元,用于以双层注意力机制获得所述隐状态序列的不同特征向量的权重值并加权求和以获得所述隐状态序列的特征表示;以及,文本类别获取单元,用于以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。
在上述用于文本分类的数据处理装置中,所述双层注意力机制用于:以参数矩阵对输入特征向量进行非线性转换以获得中间结果;以及,将所述中间结果与转移向量的转置进行矩阵计算并使用softmax函数进行归一化,以得到所述特征向量的权重值的分布。
在上述用于文本分类的数据处理装置中,所述文本数据获取单元进一步用于以下的至少其中之一:对所述初始文本数据进行去重;对所述初始文本数据进行去噪声;以及,转化用户数据中的非文本数据为文本数据。
在上述用于文本分类的数据处理装置中,用于多分类的逻辑回归模型是Softmax分类模型,且所述Softmax分类模型具有可设置的类别标签数量。
在上述用于文本分类的数据处理装置中,所述文本类别获取单元用于:基于所述特征表示以Softmax分类模型获得所述初始文本数据中每一句子对应的类别标签的概率分布;以及,选择概率最大的类别标签为所述初始文本数据中该句子的类别标签,以获得所述初始文本数据的类别标签。
在上述用于文本分类的数据处理装置中,所述用户数据为用户微博数据,所述类别标签为情感标签.
在上述用于文本分类的数据处理装置中,所述用户微博数据中的所述非文本数据包括表情图片和表情符号。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的用于文本分类的数据处理方法。
根据本申请的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的用于文本分类的数据处理方法。
本申请提供的用于文本分类的数据处理方法、数据处理装置和电子设备,可以以特定的处理架构基于用户的文本数据挖掘出所述文本数据的类别标签,从而更为全面和准确地获取用户所要表达的主观信息。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:
图1图示了根据本申请实施例的用于文本分类的数据处理方法的流程图。
图2图示了根据本申请实施例的数据处理方法中的双向LSTM层的示意图。
图3图示了根据本申请实施例的数据处理方法用于文本数据情感分析的示意图。
图4图示了根据本申请实施例的数据处理方法的系统架构的示意图。
图5图示了根据本申请实施例的数据处理方法用于提取用户微博数据中的情感标签的测试结果。
图6图示了根据本申请实施例的数据处理装置的框图。
图7图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,随着社交媒体的发展,越来越多的用户利用文本信息在社交平台(例如,微博,推特等)发表对于客观事物,例如某一事件或某一商品的看法和评价。因此,如何基于用户数据挖掘出用户对于客观事物的主观信息,例如情感信息,以更为全面和准确地获取该特定事件或该特定商品的用户主观意图,已逐渐成为当前自然语言处理领域的研究热点。
认知心理学研究表明,情绪是人类对于客观事物是否满足其需要而产生的主观体验。近年来,许多国际会议(AAAI、ACL、WWW、COLING、EMNLP等)以及国内期刊与会议,收录了大量关于情感分析的论文。由于国际通行语言为英文,国外情感分析研究针对的对象为英文文本,而对于中文却鲜有涉猎。中文相较于英文,其语法、句法都存在相应差异。
针对上述技术问题,本申请的基本构思是通过特定的处理架构处理所获取的文本数据以获得所述文本数据对应的类别标签。具体来说,首先将获取的文本数据转换为以词向量为基础的文本数据,再通过双向长短期记忆(Long Short-Term Memory:LSTM)层获取所述转换后的文本数据的隐状态序列,并通过双层注意力机制得到所述隐状态序列的特征表示,然后以用于多分类的逻辑回归模型处理所述特征表示以获得所述文本数据的类别标签。这样,可以全面和准确地获取用于表示用户的主观意图的类别标签。
基于此,本发明提供一种用于文本分类的数据处理方法、数据处理装置和电子设备,其首先获取初始文本数据,对所述初始文本数据中的词汇进行词向量转换以获得以词向量为基础的转换文本数据,通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列,以双层注意力机制获得所述隐状态序列的不同特征向量的权重值并加权求和以获得所述隐状态序列的特征表示,并以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。这样,可以有效地对中文文本数据进行基于标签的分类,从而获取文本数据中的表示用于主观意图的类别标签,从而更为全面和准确地了解用户对于某一特定事件或商品的主观体验。
需要说明的是,本申请的上述基本构思可以应用于处理各种用户的文本数据,而不限于用户微博数据中的文本数据。即,本申请可以应用于各种文本数据的数据处理系统以获得文本数据中的类别标签。同时,本申请的上述基本构思还可以应用于获得各种类型的类别标签,而不限于用于情感的类别标签。也就是说,本申请还可以用于文本数据的其他分类分析,例如主题分析或兴趣分析等。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示意性方法
图1图示了根据本申请实施例的用于文本分类的数据处理方法的流程图。如图1所示,根据本申请实施例的用于文本分类的数据处理方法包括:S110,获取初始文本数据;S120,对所述初始文本数据中的词汇进行词向量转换以获得以词向量为基础的转换文本数据;S130,通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列;S140,以双层注意力机制获得所述隐状态序列的不同特征向量的权重值并加权求和以获得所述隐状态序列的特征表示;以及S150,以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。
在步骤S110,获取用户的初始文本数据。这里,以所述用户的初始文本数据自用户微博数据中获取为示例,说明本申请实施例的用于文本分类的数据处理方法。换言之,在本申请实施例中,所述文本数据为用户微博数据中的文本数据。
在具体实现方面,可通过网络爬虫程序从中文微博平台上爬取用户在一定时间段内的微博数据,尤其是用户发布的关于某个事情或某件商品的评价信息。本领域的技术人员可以理解,一方面,用户微博数据包括文本数据和非文本数据,另一方面,文本数据中包括无效信息(例如,重复词)和噪声等干扰因素。因此,在将用户微博数据输入至所述分类系统之前,需对其进行预处理以消除所述用户微博数据中的干扰因素以及将非文本数据转化为文本数据。这样,可以获得噪声较小,相关度较高的处理后的数据集。
也就是说,在本申请实施例中,对用户微博数据进行预处理的过程包括以下至少其中之一:对用户微博数据中的文本数据进行去重;对用户微博数据中的文本数据进行去噪声;以及,将用户微博数据中的非文本数据转化为文本数据。特别地,用户微博数据中的非文本数据包括表情图片和表情符号等,在进行预处理的过程中,该表情图片和表情符号被转化为对应的文本数据。
在步骤S120,对所述初始文本数据中的词汇进行词向量转换以获得以词向量为基础的转换文本数据。在具体实施中,可采用词向量转化工具对所述初始文本数据进行训练,以得到所述初始文本数据对应的词向量表示。在一个示例中,可以以word2vec工具对分词后的所述初始文本数据进行训练,以得到所述初始文本数据中每个词的对应词向量。或者,在另一示例中,可以以GloVe工具对分词后的所述初始文本数据进行训练,以得到所述初始文本数据中每个词的对应词向量。这里,通过提取所述文本数据对应的词向量表示可有效地提取出蕴含在词与词之间的语义特征,从而为后续类别标签的提取做好铺垫。
在步骤S130中,通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列。
具体地,在数据处理的过程中,所述双向LSTM层用于处理所述文本数据的词向量表示以获得所述文本数据对应的隐状态序列。图2图示了根据本申请实施例的数据处理方法中的双向LSTM层的示意图。如图2所示,所述双向LSTM层包括两个分别独立的单向LSTM层,即,前向LSTM层和后向LSTM层。其中,前向LSTM层可利用文本序列中每个词完整的未来上下文信息,后向LSTM层可利用文本序列中每个词完整的过去上下文信息。换言之,双向LSTM层是采用两个LSTM神经网络模型分别对每一文本序列从前往后和从后往前进行学习,并且在所述双向LSTM层的输出结果中,包括未来的句子信息(yt+1)和过去的句子信息(yt-1)。
并且,在本申请实施例中,前向LSTM层和后向LSTM层的隐含层之间没有信息流,即,前向LSTM层和后向LSTM层的隐含层之间没有数据流动,这保证所述双向LSTM层的展开图是非循环的。同时,本领域技术人员可以理解,LSTM网络可以有效地避免梯度消失和梯度爆炸,从而藉由LSTM网络层可以更好地处理所述文本数据的长依赖问题,也就是说,在本申请实施例中,藉由所述双向LSTM网络可更好地处理所述文本数据的长依赖问题,以进一步地提升所述文本分类的效果。
在步骤S140中,以双层注意力机制获得所述隐状态序列的不同特征向量的权重值并加权求和以获得所述隐状态序列的特征表示。注意力机制在获得所述隐状态序列的特征表示的过程中,能够利用任务信息对所述文本数据中不同的文本片段赋予不同的权重值,其中,权重值越大说明该文本片段在分类任务中所起的作用就越重要。这样处理的原因在于,在现有的分类系统中,特征表示通常为定常特征表示,即,各文本片段被设置统一的权重值。然而,实际上,文本数据在不同的时间片或空间位置的信息明显存有差别,如果采用定常特征表示将造成信息损失。相应地,在本申请实施例中,注意力机制通过任务信息对所述文本数据中不同的文本片段赋予不同的权重值,恰好解决了这个问题。
在根据本申请实施例的用于文本分类的数据处理方法中,双层注意力机制可以以多种方式计算不同特征向量的权重值。在一个示例中,双层注意力机制中的权重计算公式为:
T=tanh(W*X)
α=softmax(wT*T)
其中,W和wT是双层注意力机制的参数,X为文本特征的输入。这里,通过使用矩阵W对输入特征X进行非线性转换,然后使用非线性函数tanh()进行激励转移后的结果,从而生成中间结果T。随后将T与转移向量w的转置进行矩阵计算并使用softmax函数进行归一化,从而得到最终的特征权重值的分布α。
因此,在根据本申请实施例的用于文本分类的数据处理方法中,所述双层注意力机制用于:以参数矩阵对输入特征向量进行非线性转换以获得中间结果;以及,将所述中间结果与转移向量的转置进行矩阵计算并使用softmax函数进行归一化,以得到所述特征向量的权重值的分布。
在步骤S150中,以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。在本申请实施例中,以所述类别标签为情感标签为示例,换言之,在本申请实施例中,所述用于文本分类的数据处理方法可以用于处理用户微博数据以获得用户微博数据中的用户情感信息。
具体地,在步骤S140中,用于多分类的逻辑回归模型可以是Softmax分类模型。这里,Softmax分类模型为逻辑回归模型在分类问题上的推广,其在多分类问题上可设置两个或以上的类别标签数量。换言之,藉由所述Softmax分类模型可获得所述文本数据的多个情感标签。
在具体实施中,可按照所述文本数据中所包含的情绪种类,设置不同的情感标签数量,例如,2类,3类,5类,7类,26类等。具体地,类别标签数量参数集成于所述Softmax分类模型中,从而可依据实际情况和需求修改所述Softmax分类模型的类别标签数量,以进行不同数量情感分类研究。特别地,在本申请的该实施例中,以所述Softmax分类模型的所述类别标签数量为3类为示例,即,通过Softmax分类模型能够获得所述文本数据中所包含的3类情感标签,分别为:Positive(正面),Neutral(中性)和Negative(负面)。
相应地,在所述Softmax分类模型获得所述文本数据的特征表示之后,所述Softmax分类模型处理所述文本数据以获得所述文本数据中每一句子的类别标签概率分布,即,所述文本数据中每一句子的情感标签概率分布。这里,针对每个句子,所述Softmax分类模型对应生成一个情感标签概率分布,进而选择概率最大的情感标签为该句子的情感标签。相应地,逐一对所述文本数据的每一句子按照如上所述的方式进行处理,以获得所述文本数据的3类情感标签。
综上,基于所述处理架构对用户微博数据中的文本数据进行处理以获得所述文本数据中的情感标签以对中文文本进行情感分析过程被阐明。图3示意了基于本发明所提供的处理架构用于文本数据情感分析的流程示意图。如图3所示,首先,通过网络爬虫工具获取微博平台上的用户微博数据,进而利用Glove工具对用户微博数据中的评论文本进行词向量转化,再通过双向LSTM层、双层注意力机制和Softmax分类模型提取所述文本数据中的情感标签,以获得情感分类结果。
这里,应当理解,虽然在上文中,以所述用户文本数据为微博数据中的文本数据为示例,然而,所述用户文本数据还可从其他平台或者来源中获取。对此,本申请不作限制。此外,本申请所提供的数据处理系统还可以应用于获得用户的其他类别标签(例如,主题标签,兴趣标签),而不限于用于的情感类别标签。换言之,本申请还可以用于文本数据的其他分类分析,例如主题分析或兴趣分析等。对此,本申请同样不作限制。
值得一提的是,本申请所提供的分类系统可通过如图4所示的方式进行架构。如图4所示,整个分类系统自顶向下主要分为三个主要层次,其中,顶层是用户界面模块,中间层是数据库接口模块,以及底层为各个算法功能模块。
具体地,用户界面模块主要是为所述分类系统的使用者提供图形化的友好用户操作界面,以方便用户浏览具体的类别标签信息。数据库接口提供了整个系统的数据库读写接口,方便其他各个不同的功能模块进行数据的I/O操作。底层功能模块主要包括如下功能模块:1)爬虫模块:用于从互联网平台上抓取用户评论文本数据;2)词向量训练模块:其预载入词向量训练算法,用于将文本数据进行词向量转化;3)特征学习模块:其预载入特征学习与表示算法,用于从文本数据中学习出有效的特征表示;4)分类模块:其预载入相应的分类算法,用于训练所述分类系统的Softmax分类模型以提取所述用户文本数据中的类别标签。
这里,上述算法和用户界面模块、数据库接口模块等功能模块均能够在Windows操作系统下利用C语言、python语言或Java等语言开发实现。基于上述开发平台,整个所述分类系统的部署运行需要如下几个层次运行环境的支撑。具体地,首先在操作系统层,系统需要在Windows或其兼容的操作系统平台之上运行;同时,还需要程序运行支撑环境,也就是C语言、python语言和Java语言运行支撑环境。只有具备了上述支撑环境,所述分类系统才能正常地运行。
同样值得一提的是,在所述分类系统具体应用之前,需对所述分类系统所包含的各功能模块进行训练,即,通过训练数据对词向量转化工具、双向LSTM网络,双层注意力机制和Softmax分类模型进行训练,以调整各功能模块的参数设置。在训练完成之后,对所述处理架构进行测试。在本申请实施例中,利用测试数据对所述分类系统进行测试,并且采用准确率(Precision)、召回率(Recall)、F1值(F1-Score)和全局正确率(Accuracy)来评价所述分类系统的效果。这里,图5图示了依据本申请实施例的用于文本分类的数据处理方法用于提取用户微博数据中的用户情感标签的测试结果。
可以看到,根据本申请实施例的用于文本分类的数据处理方法通过采用特定处理架构从用户的文本数据中获得表示用户的主观意图的类别标签,对于诸如产品的用户评论之类的文本数据,不需要进行人工分析,便可以获知大众对该产品的情绪倾向,从而节省了处理时间。另外,该方法可以由电商网站,生产厂商或者社交平台使用,分析用户对于产品的总体评价,方便改进产品;也可以由用户和消费者使用,分析自己和他人的情感倾向,以作出购买决策。
另外,根据本申请实施例的用于文本分类的数据处理方法自动和有效地挖掘并利用文本中的语义特征,并且考虑了上下文结构特征对于分类准确度的影响,可以更好地识别出文本中用户的主观意图。
示意性装置
图6图示了根据本申请实施例的用于分类系统的数据处理装置的框图。
如图6所示,根据本申请实施例的用于分类系统的数据处理装置200包括:文本数据获取单元210,用于获取初始文本数据;词向量转换单元220,用于对所述文本数据获取单元210获取的初始文本数据中的词汇进行词向量转换以获得以词向量为基础的转换文本数据;隐状态序列获取单元230,用于通过双向长短期记忆层处理所述词向量转换单元220获得的转换文本数据以获得所述转换文本数据对应的隐状态序列;特征表示获取单元240,用于以双层注意力机制获得所述隐状态序列获取单元230所获取的隐状态序列的不同特征向量的权重值并加权求和以获得所述隐状态序列的特征表示;以及,文本类别获取单元250,用于以用于多分类的逻辑回归模型处理所述特征表示获取单元240获取的特征表示以获得所述初始文本数据的类别标签。
在一个示例中,在上述用于文本分类的数据处理装置200中,所述双层注意力机制用于:以参数矩阵对输入特征向量进行非线性转换以获得中间结果;以及,将所述中间结果与转移向量的转置进行矩阵计算并使用softmax函数进行归一化,以得到所述特征向量的权重值的分布。
在一个示例中,在上述用于文本分类的数据处理装置200中,所述文本数据获取单元210进一步用于以下的至少其中之一:对所述初始文本数据进行去重;对所述初始文本数据进行去噪声;以及,转化用户数据中的非文本数据为文本数据。
在一个示例中,在上述用于文本分类的数据处理装置200中,用于多分类的逻辑回归模型是Softmax分类模型,且所述Softmax分类模型具有可设置的类别标签数量。
在一个示例中,在上述用于文本分类的数据处理装置200中,所述文本类别获取单元250用于:基于所述特征表示以Softmax分类模型获得所述初始文本数据中每一句子对应的类别标签的概率分布;以及,选择概率最大的类别标签为所述初始文本数据中该句子的类别标签,以获得所述初始文本数据的类别标签。
在一个示例中,在上述用于文本分类的数据处理装置200中,所述用户数据为用户微博数据,所述类别标签为情感标签.
在一个示例中,在上述用于文本分类的数据处理装置200中,所述用户微博数据中的所述非文本数据包括表情图片和表情符号。
这里,本领域技术人员可以理解,上述数据处理装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图5描述的用于文本分类的数据处理方法中详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的用于文本分类的数据处理装置可以实现在各种终端设备中,例如用于用户数据挖掘的服务器。在一个示例中,根据本申请实施例的用于文本分类的数据处理装置可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该数据处理装置可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该数据处理装置同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该数据处理装置与该终端设备也可以是分立的终端设备,并且该数据处理装置可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示意性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的用于文本分类的数据处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如用户微博数据等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括用户的情感标签信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示意性计算机程序产品
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于文本分类的数据处理方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“,还语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的用于文本分类的数据处理方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种用于文本分类的数据处理方法,包括:
获取初始文本数据;
对所述初始文本数据中的词汇进行词向量转换以获得以词向量为基础的转换文本数据;
通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列;
以双层注意力机制获得所述隐状态序列的不同特征向量的权重值并加权求和以获得所述隐状态序列的特征表示;以及
以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。
2.如权利要求1所述的用于文本分类的数据处理方法,其中,所述双层注意力机制用于:
以参数矩阵对输入特征向量进行非线性转换以获得中间结果;以及
将所述中间结果与转移向量的转置进行矩阵计算并使用softmax函数进行归一化,以得到所述特征向量的权重值的分布。
3.如权利要求1所述的用于文本分类的数据处理方法,其中,获取初始文本数据进一步包括以下的至少其中之一:
对所述初始文本数据进行去重;
对所述初始文本数据进行去噪声;以及
转化用户数据中的非文本数据为文本数据。
4.如权利要求1所述的用于文本分类的数据处理方法,其中,所述用于多分类的逻辑回归模型是Softmax分类模型,且所述Softmax分类模型具有可设置的类别标签数量。
5.如权利要求4所述的用于文本分类的数据处理方法,其中,以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签包括:
基于所述特征表示以Softmax分类模型获得所述初始文本数据中每一句子对应的类别标签的概率分布;以及
选择概率最大的类别标签为所述初始文本数据中该句子的类别标签,以获得所述初始文本数据的类别标签。
6.如权利要求1至5任意一项所述的用于文本分类的数据处理方法,其中,所述用户数据为用户微博数据,所述类别标签为情感标签。
7.如权利要求6所述的用于文本分类的数据处理方法,其中,所述用户微博数据中的所述非文本数据包括表情图片和表情符号。
8.一种用于文本分类的数据处理装置,包括:
文本数据获取单元,用于获取初始文本数据;
词向量转换单元,用于对所述初始文本数据中的词汇进行词向量转换以获得以词向量为基础的转换文本数据;
隐状态序列获取单元,用于通过双向长短期记忆层处理所述转换文本数据以获得所述转换文本数据对应的隐状态序列;
特征表示获取单元,用于以双层注意力机制获得所述隐状态序列的不同特征向量的权重值并加权求和以获得所述隐状态序列的特征表示;以及
文本类别获取单元,用于以用于多分类的逻辑回归模型处理所述特征表示以获得所述初始文本数据的类别标签。
9.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的用于文本分类的数据处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如权利要求1-7中任一项所述的用于文本分类的数据处理方法。
CN201810483271.5A 2018-05-18 2018-05-18 用于文本分类的数据处理方法、数据处理装置和电子设备 Pending CN108763384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810483271.5A CN108763384A (zh) 2018-05-18 2018-05-18 用于文本分类的数据处理方法、数据处理装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810483271.5A CN108763384A (zh) 2018-05-18 2018-05-18 用于文本分类的数据处理方法、数据处理装置和电子设备

Publications (1)

Publication Number Publication Date
CN108763384A true CN108763384A (zh) 2018-11-06

Family

ID=64007072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810483271.5A Pending CN108763384A (zh) 2018-05-18 2018-05-18 用于文本分类的数据处理方法、数据处理装置和电子设备

Country Status (1)

Country Link
CN (1) CN108763384A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN109543634A (zh) * 2018-11-29 2019-03-29 达闼科技(北京)有限公司 定位过程中的数据处理方法、装置、电子设备和存储介质
CN109582956A (zh) * 2018-11-15 2019-04-05 中国人民解放军国防科技大学 应用于句子嵌入的文本表示方法和装置
CN109726299A (zh) * 2018-12-19 2019-05-07 中国科学院重庆绿色智能技术研究院 一种不完备专利自动标引方法
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110265032A (zh) * 2019-06-05 2019-09-20 平安科技(深圳)有限公司 会议数据分析处理方法、装置、计算机设备和存储介质
CN110555486A (zh) * 2019-09-11 2019-12-10 北京百度网讯科技有限公司 模型结构的延时预测方法、装置以及电子设备
CN110602113A (zh) * 2019-09-19 2019-12-20 中山大学 一种基于深度学习的层次化钓鱼网站检测方法
CN111488452A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN111815053A (zh) * 2020-07-09 2020-10-23 北京中超伟业信息安全技术股份有限公司 一种针对工业时序数据的预测方法及系统
CN111859979A (zh) * 2020-06-16 2020-10-30 中国科学院自动化研究所 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN112269881A (zh) * 2020-11-05 2021-01-26 北京小米松果电子有限公司 多标签文本分类方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160224900A1 (en) * 2015-02-04 2016-08-04 Oracle International Corporation Method and system for latent dirichlet allocation computation using approximate counters
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN107608956A (zh) * 2017-09-05 2018-01-19 广东石油化工学院 一种基于cnn‑grnn的读者情绪分布预测算法
CN107665248A (zh) * 2017-09-22 2018-02-06 齐鲁工业大学 基于深度学习混合模型的文本分类方法和装置
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN108038205A (zh) * 2017-12-15 2018-05-15 福州大学 针对中文微博的观点分析原型系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160224900A1 (en) * 2015-02-04 2016-08-04 Oracle International Corporation Method and system for latent dirichlet allocation computation using approximate counters
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN107608956A (zh) * 2017-09-05 2018-01-19 广东石油化工学院 一种基于cnn‑grnn的读者情绪分布预测算法
CN107665248A (zh) * 2017-09-22 2018-02-06 齐鲁工业大学 基于深度学习混合模型的文本分类方法和装置
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN108038205A (zh) * 2017-12-15 2018-05-15 福州大学 针对中文微博的观点分析原型系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
万圣贤等: "用于文本分类的局部化双向长短时记忆", 《中文信息学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582956A (zh) * 2018-11-15 2019-04-05 中国人民解放军国防科技大学 应用于句子嵌入的文本表示方法和装置
CN109543634A (zh) * 2018-11-29 2019-03-29 达闼科技(北京)有限公司 定位过程中的数据处理方法、装置、电子设备和存储介质
CN109543634B (zh) * 2018-11-29 2021-04-16 达闼科技(北京)有限公司 定位过程中的数据处理方法、装置、电子设备和存储介质
CN109461037A (zh) * 2018-12-17 2019-03-12 北京百度网讯科技有限公司 评论观点聚类方法、装置和终端
CN109726299A (zh) * 2018-12-19 2019-05-07 中国科学院重庆绿色智能技术研究院 一种不完备专利自动标引方法
CN109726299B (zh) * 2018-12-19 2023-03-17 中国科学院重庆绿色智能技术研究院 一种不完备专利自动标引方法
CN111488452A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种网页篡改检测方法、检测系统及相关设备
CN110265032A (zh) * 2019-06-05 2019-09-20 平安科技(深圳)有限公司 会议数据分析处理方法、装置、计算机设备和存储介质
CN110222770A (zh) * 2019-06-10 2019-09-10 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110555486B (zh) * 2019-09-11 2022-04-19 北京百度网讯科技有限公司 模型结构的延时预测方法、装置以及电子设备
CN110555486A (zh) * 2019-09-11 2019-12-10 北京百度网讯科技有限公司 模型结构的延时预测方法、装置以及电子设备
CN110602113A (zh) * 2019-09-19 2019-12-20 中山大学 一种基于深度学习的层次化钓鱼网站检测方法
CN110602113B (zh) * 2019-09-19 2021-05-25 中山大学 一种基于深度学习的层次化钓鱼网站检测方法
CN111859979A (zh) * 2020-06-16 2020-10-30 中国科学院自动化研究所 讽刺文本协同识别方法、装置、设备及计算机可读介质
CN111815053A (zh) * 2020-07-09 2020-10-23 北京中超伟业信息安全技术股份有限公司 一种针对工业时序数据的预测方法及系统
CN111815053B (zh) * 2020-07-09 2021-03-16 北京中超伟业信息安全技术股份有限公司 一种针对工业时序数据的预测方法及系统
CN112269881A (zh) * 2020-11-05 2021-01-26 北京小米松果电子有限公司 多标签文本分类方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN108763384A (zh) 用于文本分类的数据处理方法、数据处理装置和电子设备
CN107679234B (zh) 客服信息提供方法、装置、电子设备、存储介质
CN109101537A (zh) 基于深度学习的多轮对话数据分类方法、装置和电子设备
Sampath et al. Data set creation and empirical analysis for detecting signs of depression from social media postings
US20180197088A1 (en) Discovery, characterization, and analysis of interpersonal relationships extracted from unstructed text data
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN108959482A (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
Bu et al. A hybrid deep learning system of CNN and LRCN to detect cyberbullying from SNS comments
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN108845986A (zh) 一种情感分析方法、设备及系统、计算机可读存储介质
CN108595717A (zh) 用于文本分类的数据处理方法、数据处理装置和电子设备
CN111651571A (zh) 基于人机协同的会话实现方法、装置、设备及存储介质
CN111814487A (zh) 一种语义理解方法、装置、设备及存储介质
CN115309864A (zh) 评论文本的情感智能分类方法、装置、电子设备及介质
CN110782128B (zh) 一种用户职业标签生成方法、装置和电子设备
Khan et al. Comparative analysis on Facebook post interaction using DNN, ELM and LSTM
CN113553431B (zh) 用户标签提取方法、装置、设备及介质
Biswas et al. A new ontology-based multimodal classification system for social media images of personality traits
Huang et al. Optimizing numerical estimation and operational efficiency in the legal domain through large language models
Zheng et al. DJMF: A discriminative joint multi-task framework for multimodal sentiment analysis based on intra-and inter-task dynamics
Wang et al. CA-CD: context-aware clickbait detection using new Chinese clickbait dataset with transfer learning method
Pan et al. Automatically infer human traits and behavior from social media data
Alsini Analysis of Real Time Twitter Sentiments using Deep Learning Models
Mahimaidoss et al. Emotion Identification in Twitter Using Deep Learning Based Methodology
Ojo et al. Graph Neural Network for Smartphone Recommendation System: A Sentiment Analysis Approach for Smartphone Rating

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication