CN109299264A - 文本分类方法、装置、计算机设备及存储介质 - Google Patents
文本分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109299264A CN109299264A CN201811191177.9A CN201811191177A CN109299264A CN 109299264 A CN109299264 A CN 109299264A CN 201811191177 A CN201811191177 A CN 201811191177A CN 109299264 A CN109299264 A CN 109299264A
- Authority
- CN
- China
- Prior art keywords
- word
- term vector
- list
- participle
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本分类方法、装置、计算机设备及存储介质。所述方法包括:对输入文本进行分词以及词性标注处理,得到分词列表,所述分词列表包括对输入文本进行分词得到的单词以及该单词的词性;获取所述分词列表中各单词的词向量以及各单词的词性的词向量;获取所述分词列表中各单词的拼接词向量组成的词向量矩阵,其中,拼接词向量由单词的词向量以及该单词的词性的词向量拼接得到;将所述词向量矩阵输入到Bi‑LSTM中获得所述分词列表中各单词的文本特征向量;根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。通过实施本发明实施例的方法可提高文本分类的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本分类方法、装置、计算机设备及存储介质。
背景技术
目前,常用于文本分类的神经网络模型包括CNN+Word-Embedding、RNN+Word-Embedding、MLP+Word-Embedding等结构。运用该类结构的通常方法是将文本分词后,转化并映射到一个实数空间进而组合成可以被神经网络接受作为输入的浮点矩阵或者向量,之后通过神经网络模型的计算得到分类的概率密度分布,训练时使用梯度下降或者一些改进的训练方法优化模型直至收敛。
目前深度学习中常用的神经网络+Word-Embedding模型在文本分类中主要有如下的一些问题,MLP全链接神经网络在提取文本特征时完全忽略了词向量的先后关系,将整个文本只看作一个词汇的集合,这将导致很多语义表达中的特征无法被获取,进而影响到了分类正确率。
发明内容
本发明实施例提供了一种文本分类方法、装置、计算机设备及存储介质,旨在达到提高文本分类准确率的目的。
第一方面,本发明实施例提供了一种文本分类方法,其包括:
对输入文本进行分词以及词性标注处理,得到分词列表,所述分词列表包括对输入文本进行分词得到的单词以及该单词的词性;
获取所述分词列表中各单词的词向量以及各单词的词性的词向量;
获取所述分词列表中各单词的拼接词向量组成的词向量矩阵,其中,拼接词向量由单词的词向量以及该单词的词性的词向量拼接得到;
将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量;
根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。
第二方面,本发明实施例还提供了一种文本分类装置,所述文本分类装置包括:
分词单元,用于对输入文本进行分词以及词性标注处理,得到分词列表,所述分词列表包括对输入文本进行分词得到的单词以及该单词的词性;
第一获取单元,用于获取所述分词列表中各单词的词向量以及各单词的词性的词向量;
第二获取单元,用于获取所述分词列表中各单词的拼接词向量组成的词向量矩阵,其中,拼接词向量由单词的词向量以及该单词的词性的词向量拼接得到;
输入单元,用于将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量;
分类单元,用于根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
通过应用本实施例的技术方案,在文本词向量构建过程中,提出了使用文本的词典索引和词性索引来构建双词向量矩阵,相比单一的用词典索引来构建词向量,增强了文本中单词的特征表达性,在一定程度上可以提高文本分类的正确性。另一方面,使用Bi-LSTM循环神经网络来对词向量进行进一步的特征提取和过滤,相比传统的分类模型方案能够更好地获得文本的特征,进而可以进一步提升文本分类的正确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本分类方法的流程示意图;
图2为本发明实施例提供的一种文本分类方法的子流程示意图;
图3为本发明实施例提供的一种文本分类方法的子流程示意图;
图4为本发明实施例提供的一种文本分类方法的子流程示意图;
图5为本发明实施例提供的一种文本分类装置的示意性框图;
图6为本发明实施例提供的一种文本分类装置的第一获取单元的示意性框图;
图7为本发明实施例提供的一种文本分类装置的输入单元的示意性框图;
图8为本发明实施例提供的一种文本分类装置的分类单元的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
图1是本发明实施例提供的一种文本分类方法的流程示意图。如图所示,该方法包括以下步骤S1-S5。
S1、对输入文本进行分词以及词性标注处理,得到分词列表。
其中,所述分词列表包括对输入文本进行分词得到的单词以及该单词的词性。
具体实施中,在接收到用户输入的输入文本时,对输入文本进行分词以及词性标注处理,得到输入文本的分词列表。分词列表包括对输入文本进行分词得到的单词以及该单词的词性,具体地,分词列表中的每一个元素是一个单词和该单词所对应的词性的二元组。
S2、获取所述分词列表中各单词的词向量以及各单词的词性的词向量。
具体实施中,获取分词列表中各单词的词向量以及各单词的词性的词向量。在一实施例中,获取分词列表中各单词的Word-Embedding词向量以及各单词的词性的Word-Embedding词向量。需要说明的是,Word-Embedding为一种词向量的表达方式。
在一实施例中,参见图2,以上步骤S2具体包括以下步骤S21-S22。
S21,从预设的单词词典获取所述分词列表中各单词的索引以及从预设的词性词典中获取所述分词列表中各单词的词性的索引。
具体实施中,分别获取所述分词列表中的各单词在单词词典中对应的索引。并且分别获取所述分词列表中的各单词的词性在词性词典中对应的索引。需要说明的是,单词词典以及词性词典均是预先储存在终端中的。
S22,根据所述分词列表中各单词的索引从预设的单词词向量列表中获取所述分词列表中各单词的词向量,以及根据所述分词列表中各单词的词性的索引从预设的词性词向量列表中获取所述分词列表中各单词的词性的词向量。
具体实施中,根据所述分词列表中各单词的索引从预设的单词词向量列表中获取所述分词列表中各单词的词向量。根据所述分词列表中各单词的词性的索引从预设的词性词向量列表中获取所述分词列表中各单词的词性的词向量。
在一实施例中,单词词向量列表为Word-Embedding单词词向量列表;词性词向量列表为Word-Embedding词性词向量列表。
S3、获取所述分词列表中各单词的拼接词向量组成的词向量矩阵。
其中,拼接词向量由单词的词向量以及该单词的词性的词向量拼接得到。
具体实施中,获取所述分词列表中各单词的拼接词向量,需要说明的是,单词的拼接词向量由该单词的词向量以及该单词的词性的词向量拼接得到。
在获得了分词列表中各单词的拼接词向量后,按顺序对分词列表中各单词的拼接词向量进行排列得到词向量矩阵。
S4、将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量。
具体实施中,将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量。Bi-LSTM是指双向的LSTM循环神经网络,其包含两个独立的LSTM。LSTM(LongShort-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
在一实施例中,参见图3,以上步骤S4具体包括以下步骤S41-S43。
S41、将所述词向量矩阵正序输入到Bi-LSTM的第一个LSTM中获得所述分词列表中各单词的正向文本特征向量。
具体实施中,将词向量矩阵按照正序输入到Bi-LSTM的第一个LSTM中获得分词列表中各单词的正向文本特征向量。
S42、将所述词向量矩阵逆序输入到Bi-LSTM的第二个LSTM中获得所述分词列表中各单词的逆向文本特征向量。
具体实施中,将词向量矩阵按照逆序(与正序相反的顺序)输入到Bi-LSTM的第二个LSTM中获得分词列表中各单词的逆向文本特征向量。
S43、将所述分词列表中各单词的正向文本特征向量以及逆向文本特征向量进行拼接获得所述分词列表中各单词的文本特征向量。
具体实施中,将分词列表中各单词的正向文本特征向量以及逆向文本特征向量进行拼接获得分词列表中各单词的文本特征向量。
通过以上方式可使得将词向量矩阵以正序和倒序两种顺序分别输入进两个独立的LSTM模型中并对最终输出的特征向量进行拼接,使得任何一个时刻的序列都拥有其前序和后序的信息,增强其特征表达性。
S5、根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。
具体实施中,根据分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。
具体地,将分词列表中各单词的文本特征向量所构成的矩阵进行Mean-pooling平均值池化操作得到句子向量;将句子向量输入至Softmax全连接层,获取该句子的最终分类。需要说明的是Mean-pooling为一种对矩阵的处理和计算方法。Softmax为一种多分类模型中计算概率分布的常用算法。
在一实施例中,参见图4,以上步骤S5具体包括以下步骤S51-S52。
S51,根据以下公式(1)获取各类别的预测概率P;
S52,根据以下公式(2)获取预测概率最大的类别Ypred;
Ypred=argmaxi(P(y=i|X)) 公式2;
其中,i为类别,BL(X)为所述分词列表中各单词的文本特征向量组成的矩阵,Wi为对应类别i的权重矩阵,bi为对应类别i的偏置向量。
通过应用本实施例的技术方案,在文本词向量构建过程中,提出了使用文本的词典索引和词性索引来构建双词向量矩阵,相比单一的用词典索引来构建词向量,增强了文本中单词的特征表达性,在一定程度上可以提高文本分类的正确性。另一方面,使用Bi-LSTM循环神经网络来对词向量进行进一步的特征提取和过滤,相比传统的分类模型方案能够更好地获得文本的特征,进而可以进一步提升文本分类的正确率。
在一实施例中,提供一种文本分类实例如下:
本实施例中以分类“CNN的全称是什么”为例子,首先将句子进行分词和词性标注得到带有词性的二维分词列表[[CNN,eng],[的,uj],[全称,n],[是,v],[什么,r]],将分词列表根据单词词典和词性词典将分词列表转化成为对应的索引,获得结果为[[0,1],[2,3],[3,5],[6,7],[9,9]],列表元素中的第一维对应单词词典索引,第二维对应该单词的词性在词性词典中的索引。然后将该索引列表进行逆序处理得到第二个索引列表[[9,9],[6,7],[3,5],[2,3],[0,1]],下面根据列表元素中的索引分别从词典Word-Embedding列表和词性Word-Embedding列表中获取对应的词向量并将它们进行各自拼接,得到词向量序列[W0||P1,W2||P3,W3||P5,W6||P7,W9||P9]以及序列[W9||P9,W6||P7,W3||P5,W2||P3,W0||P1],其中Wt表示词典Word-Embedding中的第t个词向量,Pt表示词性Word-Embedding中的第t个词向量,“||”表示词向量拼接。将拼接后的两个词向量序列分别输入至两个不同的LSTM神经网络模型中。输入后分别得到输出序列[h_f0,h_f1,h_f2,h_f3,h_f4]以及[h_r0,h_r1,h_r2,h_r3,h_r4],然后将两个序列进行头尾拼接,得到序列[h_f0||h_r4,h_f1||h_r3,h_f2||h_r2,h_f3||h_r1,h_f4||h_r0]。之后将该序列进行平均池化处理并输入至Softmax获得一个多分类的概率密度向量y,并选择y向量中数值最大的一维作为最终的文本分类结果。
图5是本发明实施例提供的一种文本分类装置50的示意性框图。如图5所示,对应于以上文本分类方法,本发明还提供一种文本分类装置50。该文本分类装置50包括用于执行上述文本分类方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图5,该文本分类装置50包括分词单元51、第一获取单元52、第二获取单元53、输入单元54以及分类单元55。
分词单元51,用于对输入文本进行分词以及词性标注处理,得到分词列表,所述分词列表包括对输入文本进行分词得到的单词以及该单词的词性;
第一获取单元52,用于获取所述分词列表中各单词的词向量以及各单词的词性的词向量;
第二获取单元53,用于获取所述分词列表中各单词的拼接词向量组成的词向量矩阵,其中,拼接词向量由单词的词向量以及该单词的词性的词向量拼接得到;
输入单元54,用于将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量;
分类单元55,用于根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。
在一实施例中,如图6所示,所述第一获取单元52包括第三获取单元521以及第四获取单元522。
第三获取单元521,用于从预设的单词词典获取所述分词列表中各单词的索引以及从预设的词性词典中获取所述分词列表中各单词的词性的索引;
第四获取单元522,用于根据所述分词列表中各单词的索引从预设的单词词向量列表中获取所述分词列表中各单词的词向量,以及根据所述分词列表中各单词的词性的索引从预设的词性词向量列表中获取所述分词列表中各单词的词性的词向量。
在一实施例中,如图7所示,所述输入单元54包括正向输入单元541、逆向输入单元542以及拼接单元543。
正向输入单元541,用于将所述词向量矩阵正序输入到Bi-LSTM的第一个LSTM中获得所述分词列表中各单词的正向文本特征向量;
逆向输入单元542,用于将所述词向量矩阵逆序输入到Bi-LSTM的第二个LSTM中获得所述分词列表中各单词的逆向文本特征向量;
拼接单元543,用于将所述分词列表中各单词的正向文本特征向量以及逆向文本特征向量进行拼接获得所述分词列表中各单词的文本特征向量。
在一实施例中,如图8所示,所述分类单元55包括第五获取单元551以及第六获取单元552。
第五获取单元551,用于根据以下公式(1)获取各类别的预测概率P;
第六获取单元552,用于根据以下公式(2)获取预测概率最大的类别Ypred;
Ypred=argmaxi(P(y=i|X)) 公式2;
其中,i为类别,BL(X)为所述分词列表中各单词的文本特征向量组成的矩阵,Wi为对应类别i的权重矩阵,bi为对应类别i的偏置向量。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述文本分类装置50和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述文本分类装置50可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种文本分类方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种文本分类方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
对输入文本进行分词以及词性标注处理,得到分词列表,所述分词列表包括对输入文本进行分词得到的单词以及该单词的词性;
获取所述分词列表中各单词的词向量以及各单词的词性的词向量;
获取所述分词列表中各单词的拼接词向量组成的词向量矩阵,其中,拼接词向量由单词的词向量以及该单词的词性的词向量拼接得到;
将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量;
根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。
在一实施例中,处理器502在实现所述获取所述分词列表中各单词的词向量以及各单词的词性的词向量步骤时,具体实现如下步骤:
从预设的单词词典获取所述分词列表中各单词的索引以及从预设的词性词典中获取所述分词列表中各单词的词性的索引;
根据所述分词列表中各单词的索引从预设的单词词向量列表中获取所述分词列表中各单词的词向量,以及根据所述分词列表中各单词的词性的索引从预设的词性词向量列表中获取所述分词列表中各单词的词性的词向量。
在一实施例中,处理器502在实现所述将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量步骤时,具体实现如下步骤:
将所述词向量矩阵正序输入到Bi-LSTM的第一个LSTM中获得所述分词列表中各单词的正向文本特征向量;
将所述词向量矩阵逆序输入到Bi-LSTM的第二个LSTM中获得所述分词列表中各单词的逆向文本特征向量;
将所述分词列表中各单词的正向文本特征向量以及逆向文本特征向量进行拼接获得所述分词列表中各单词的文本特征向量。
在一实施例中,处理器502在实现所述将根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果步骤时,具体实现如下步骤:
根据以下公式(1)获取各类别的预测概率P;
根据以下公式(2)获取预测概率最大的类别Ypred;
Ypred=argmaxi(P(y=i|X)) 公式2;
其中,i为类别,BL(X)为所述分词列表中各单词的文本特征向量组成的矩阵,Wi为对应类别i的权重矩阵,bi为对应类别i的偏置向量。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessingUnit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
对输入文本进行分词以及词性标注处理,得到分词列表,所述分词列表包括对输入文本进行分词得到的单词以及该单词的词性;
获取所述分词列表中各单词的词向量以及各单词的词性的词向量;
获取所述分词列表中各单词的拼接词向量组成的词向量矩阵,其中,拼接词向量由单词的词向量以及该单词的词性的词向量拼接得到;
将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量;
根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取所述分词列表中各单词的词向量以及各单词的词性的词向量步骤时,具体实现如下步骤:
从预设的单词词典获取所述分词列表中各单词的索引以及从预设的词性词典中获取所述分词列表中各单词的词性的索引;
根据所述分词列表中各单词的索引从预设的单词词向量列表中获取所述分词列表中各单词的词向量,以及根据所述分词列表中各单词的词性的索引从预设的词性词向量列表中获取所述分词列表中各单词的词性的词向量。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量步骤时,具体实现如下步骤:
将所述词向量矩阵正序输入到Bi-LSTM的第一个LSTM中获得所述分词列表中各单词的正向文本特征向量;
将所述词向量矩阵逆序输入到Bi-LSTM的第二个LSTM中获得所述分词列表中各单词的逆向文本特征向量;
将所述分词列表中各单词的正向文本特征向量以及逆向文本特征向量进行拼接获得所述分词列表中各单词的文本特征向量。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果步骤时,具体实现如下步骤:
根据以下公式(1)获取各类别的预测概率P;
根据以下公式(2)获取预测概率最大的类别Ypred;
Ypred=argmaxi(P(y=i|X)) 公式2;
其中,i为类别,BL(X)为所述分词列表中各单词的文本特征向量组成的矩阵,Wi为对应类别i的权重矩阵,bi为对应类别i的偏置向量。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
对输入文本进行分词以及词性标注处理,得到分词列表,所述分词列表包括对输入文本进行分词得到的单词以及该单词的词性;
获取所述分词列表中各单词的词向量以及各单词的词性的词向量;
获取所述分词列表中各单词的拼接词向量组成的词向量矩阵,其中,拼接词向量由单词的词向量以及该单词的词性的词向量拼接得到;
将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量;
根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取所述分词列表中各单词的词向量以及各单词的词性的词向量,包括:
从预设的单词词典获取所述分词列表中各单词的索引以及从预设的词性词典中获取所述分词列表中各单词的词性的索引;
根据所述分词列表中各单词的索引从预设的单词词向量列表中获取所述分词列表中各单词的词向量,以及根据所述分词列表中各单词的词性的索引从预设的词性词向量列表中获取所述分词列表中各单词的词性的词向量。
3.根据权利要求1所述的文本分类方法,其特征在于,所述将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量,包括:
将所述词向量矩阵正序输入到Bi-LSTM的第一个LSTM中获得所述分词列表中各单词的正向文本特征向量;
将所述词向量矩阵逆序输入到Bi-LSTM的第二个LSTM中获得所述分词列表中各单词的逆向文本特征向量;
将所述分词列表中各单词的正向文本特征向量以及逆向文本特征向量进行拼接获得所述分词列表中各单词的文本特征向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果,包括:
根据以下公式(1)获取各类别的预测概率P;
根据以下公式(2)获取预测概率最大的类别Ypred;
Ypred=argmaxi(P(y=i|X)) 公式(2);
其中,i为类别,BL(X)为所述分词列表中各单词的文本特征向量组成的矩阵,Wi为对应类别i的权重矩阵,bi为对应类别i的偏置向量。
5.根据权利要求1所述的方法,其特征在于,所述分词列表中各单词的词向量以及各单词的词性的词向量均为Word-Embedding词向量。
6.一种文本分类装置,其特征在于,包括:
分词单元,用于对输入文本进行分词以及词性标注处理,得到分词列表,所述分词列表包括对输入文本进行分词得到的单词以及该单词的词性;
第一获取单元,用于获取所述分词列表中各单词的词向量以及各单词的词性的词向量;
第二获取单元,用于获取所述分词列表中各单词的拼接词向量组成的词向量矩阵,其中,拼接词向量由单词的词向量以及该单词的词性的词向量拼接得到;
输入单元,用于将所述词向量矩阵输入到Bi-LSTM中获得所述分词列表中各单词的文本特征向量;
分类单元,用于根据所述分词列表中各单词的文本特征向量获取所述输入文本的文本分类结果。
7.根据权利要求6所述的文本分类装置,其特征在于,所述第一获取单元包括:
第三获取单元,用于从预设的单词词典获取所述分词列表中各单词的索引以及从预设的词性词典中获取所述分词列表中各单词的词性的索引;
第四获取单元,用于根据所述分词列表中各单词的索引从预设的单词词向量列表中获取所述分词列表中各单词的词向量,以及根据所述分词列表中各单词的词性的索引从预设的词性词向量列表中获取所述分词列表中各单词的词性的词向量。
8.根据权利要求6所述的文本分类装置,其特征在于,所述输入单元包括:
正向输入单元,用于将所述词向量矩阵正序输入到Bi-LSTM的第一个LSTM中获得所述分词列表中各单词的正向文本特征向量;
逆向输入单元,用于将所述词向量矩阵逆序输入到Bi-LSTM的第二个LSTM中获得所述分词列表中各单词的逆向文本特征向量;
拼接单元,用于将所述分词列表中各单词的正向文本特征向量以及逆向文本特征向量进行拼接获得所述分词列表中各单词的文本特征向量。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811191177.9A CN109299264A (zh) | 2018-10-12 | 2018-10-12 | 文本分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811191177.9A CN109299264A (zh) | 2018-10-12 | 2018-10-12 | 文本分类方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109299264A true CN109299264A (zh) | 2019-02-01 |
Family
ID=65162502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811191177.9A Withdrawn CN109299264A (zh) | 2018-10-12 | 2018-10-12 | 文本分类方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299264A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020671A (zh) * | 2019-03-08 | 2019-07-16 | 西北大学 | 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法 |
CN110162631A (zh) * | 2019-05-17 | 2019-08-23 | 中山大学 | 面向triz发明原理的中文专利分类方法、系统及储存介质 |
CN110196909A (zh) * | 2019-05-14 | 2019-09-03 | 北京来也网络科技有限公司 | 基于强化学习的文本去噪方法及装置 |
CN110209812A (zh) * | 2019-05-07 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN110489559A (zh) * | 2019-08-28 | 2019-11-22 | 北京达佳互联信息技术有限公司 | 一种文本分类方法、装置及存储介质 |
CN110633577A (zh) * | 2019-08-22 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 文本脱敏方法以及装置 |
CN110765757A (zh) * | 2019-10-16 | 2020-02-07 | 腾讯云计算(北京)有限责任公司 | 文本识别方法、计算机可读存储介质和计算机设备 |
CN111930938A (zh) * | 2020-07-06 | 2020-11-13 | 武汉卓尔数字传媒科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
-
2018
- 2018-10-12 CN CN201811191177.9A patent/CN109299264A/zh not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020671A (zh) * | 2019-03-08 | 2019-07-16 | 西北大学 | 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法 |
CN110209812A (zh) * | 2019-05-07 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN110196909A (zh) * | 2019-05-14 | 2019-09-03 | 北京来也网络科技有限公司 | 基于强化学习的文本去噪方法及装置 |
CN110162631A (zh) * | 2019-05-17 | 2019-08-23 | 中山大学 | 面向triz发明原理的中文专利分类方法、系统及储存介质 |
CN110633577A (zh) * | 2019-08-22 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 文本脱敏方法以及装置 |
CN110633577B (zh) * | 2019-08-22 | 2023-08-29 | 创新先进技术有限公司 | 文本脱敏方法以及装置 |
CN110489559A (zh) * | 2019-08-28 | 2019-11-22 | 北京达佳互联信息技术有限公司 | 一种文本分类方法、装置及存储介质 |
CN110765757A (zh) * | 2019-10-16 | 2020-02-07 | 腾讯云计算(北京)有限责任公司 | 文本识别方法、计算机可读存储介质和计算机设备 |
CN111930938A (zh) * | 2020-07-06 | 2020-11-13 | 武汉卓尔数字传媒科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299264A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
WO2020232861A1 (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN109816092A (zh) | 深度神经网络训练方法、装置、电子设备及存储介质 | |
CN109902307A (zh) | 命名实体识别方法、命名实体识别模型的训练方法及装置 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN108509413A (zh) | 文摘自动提取方法、装置、计算机设备及存储介质 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN113553412B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
EP4131076A1 (en) | Serialized data processing method and device, and text processing method and device | |
CN109948149A (zh) | 一种文本分类方法及装置 | |
CN115438215B (zh) | 图文双向搜索及匹配模型训练方法、装置、设备及介质 | |
CN115455171B (zh) | 文本视频的互检索以及模型训练方法、装置、设备及介质 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN109902284A (zh) | 基于论辩挖掘的一种无监督论点提取方法 | |
CN109359198A (zh) | 一种文本分类方法及装置 | |
CN108090099A (zh) | 一种文本处理方法及装置 | |
CN109299470A (zh) | 文本公告中触发词的抽取方法及系统 | |
CN116680386A (zh) | 基于多轮对话的答案预测方法和装置、设备、存储介质 | |
CN110188798B (zh) | 一种对象分类方法及模型训练方法和装置 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN109033078B (zh) | 语句类别识别方法及装置、存储介质、处理器 | |
CN115048523B (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN115512722A (zh) | 一种多模态情感识别方法、设备及存储介质 | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及系统 | |
CN113342932B (zh) | 目标词向量的确定方法、装置、存储介质和电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190201 |