CN111090748A - 一种文本分类方法、装置、网络及存储介质 - Google Patents
一种文本分类方法、装置、网络及存储介质 Download PDFInfo
- Publication number
- CN111090748A CN111090748A CN201911312726.8A CN201911312726A CN111090748A CN 111090748 A CN111090748 A CN 111090748A CN 201911312726 A CN201911312726 A CN 201911312726A CN 111090748 A CN111090748 A CN 111090748A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- neural network
- code
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 143
- 238000013528 artificial neural network Methods 0.000 claims abstract description 84
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请涉及一种文本分类方法、装置、网络及存储介质,其中,一种文本分类方法包括步骤:获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到、将所述中文字形信息编码为独热编码、通过第一神经网络将所述独热编码转换为五笔字形编码、利用第二神经网络将所述五笔字形编码转换为注意力编码、根据所述注意力编码计算得到所述待分类文本的特征向量、通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。本申请能够对中文类型的待分类文本进行精确分类。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法、装置、网络及存储介质。
背景技术
通常,在自然语言处理领域中,为了实现对文本精确分类,需要考虑到文本中的不同词组的语义对前后文本的影响。目前,现有技术中存在一种模型框架,该模型框架通过“多头自注意力机制”兼顾文本中不同词组对整个文本的影响,进而可实现对文本精确分类。但是,技术人员发现该模型框架难以从中文文本的字形层面对中文文本进行卷积,并获取相关的词向量信息,因此,该模型框架无法适用于对中文文本精确分类。
发明内容
本申请实施例的目的在于公开一种文本分类方法、装置、网络及存储介质,用于解决现有文本分类模型无法对中文类型的待分类文本进行分类这一技术问题,从而实现对中文类型的待分类文本进行精确分类。
本申请第一方面公开一种文本分类方法,该方法包括:
获取待分类文本的中文字形信息,中文字形信息基于五笔输入法字根得到;
将中文字形信息编码为独热编码;
通过第一神经网络将独热编码转换为五笔字形编码;
利用第二神经网络将五笔字形编码转换为注意力编码;
根据注意力编码计算得到待分类文本的特征向量;
通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型。
本申请通过中文与五笔字根的对应关系,将待分类的中文文本转换为五笔字形编码,该五笔字形编码与英文文本相似,进而该五笔字形编码能够被第二神经网络处理生成待分类的中文文本对应的特征向量,最终,使得第三神经网络能够根据特征向量对待分类的中文文本进行分类,与现有技术相比,本申请能够实现精确分类待分类的中文文本。
在一些可选的实施方式中,根据注意力编码计算得到待分类文本的特征向量这一步骤,包括子步骤:
当注意力编码的数量大于等于两个时,拼接所有注意力编码并得到待分类文本的特征向量。
本可选实施方式能够将多个注意力编码拼接成一个注意力编码,这样一来,本申请就能够处理包含多个注意力编码的中文文本,因此,本可选实施方式进一步提高了本申请的文本分类方法的适用范围,与此同时,本可选实施方式可以使得多个第二神经网络同时进行将独热编码转换为注意力编码,其中,每个第二神经网络处理不同的独热编码片段,这样一来就能够提高独热编码转换效率,尤其是在需要对大量的待分析的中文文本进行文本分类这一场景中,本可选实施方式具有有更快的处理速度。
在一些可选的实施方式中,利用第二神经网络将五笔字形编码转换为注意力编码这一步骤,包括子步骤:
将五笔字形编码转换为向量元素;
创建向量元素的查询向量、关键向量、价值向量;
根据查询向量、关键向量计算向量元素的注意力得分;
根据价值向量和对注意力得分进行归一化后的得分,获得注意力编码。
本可选的实施方式通过查询向量、关键向量、价值向量得到五笔字形编码的注意力得分,进而能够根据价值向量和对注意力得分进行归一化后的得分获得注意力编码,这样一来,就能够缩小五笔字形编码转换为注意力编码的误差,提高五笔字形编码的转换精度。
在一些可选的实施方式中,创建向量元素的查询向量、关键向量、价值向量这一步骤,包括子步骤:
将向量元素与预设第一权重相乘获得查询向量;
将向量元素与预设第二权重相乘获得关键向量;
将向量元素与预设第三权重相乘获得价值向量。
本实施例能够预设第一权重、预设第二权重、预设第三权重获取查询向量、关键向量、价值向量。
在一些可选的实施方式中,通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型这一步骤,包括子步骤:
根据特征向量、第三神经网络运算得到待分类文本对应的至少两个预选分类标签及每个预选分类标签对应的概率;
根据每个预选分类标签对应的概率确定待分类文本的标签类型。
在本可选的实施方式中,由于待分类文本的标签类型是基于第三神经网络运算得到的预选分类标签对应的概率确定,其中,预选分类标签对应的概率根据大量的分类训练结果获得,因此,本可选的实施方式能够基于大量的分类训练结果,提高待分类文本的分类准确度。
本申请第二方面公开一种文本分类网络,文本分类网络包括:
第一神经网络,用于将独热编码编码为五笔字形编码;
第二神经网络,用于将五笔字形编码编码为注意力编码;
第三神经网络,用于对特征向量进行运算并根据运算结果确定待分类文本的标签类型。
本申请第二方面公开的文本分类网络能够基于中文对应的五笔字根点对待分类的中文文本分类。
在一些可选的实施方式中,第一神经网络为循环神经网络,其中,循环神经网络包括若干个循环单元。
本申请第三方面公开了一种文本分类装置,该文本分类装置包括:
获取模块,用于获取待分类文本中的中文字形信息,中文字形信息基于待分类文本中的五笔输入法字根得到;
第一编码模块,用于将中文字形信息编码为独热编码;
第二编码模块,用于通过第一神经网络将独热编码转换为五笔字形编码;
第三编码模块,用于利用第二神经网络将五笔字形编码转换为注意力编码;
计算模块,用于根据注意力编码计算得到待分类文本的特征向量;
运算模块,用于通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型。
本申请第三方面的文本分类装置通过执行文本分类方法,能够基于中文对应的五笔字根点对待分类的中文文本分类。
本申请第四方面公开了一种文本分类装置,该文本分类装置包括:
处理器;以及
存储器,配置用于存储机器可读指令,指令在由处理器执行时,使得处理器执行如本申请第一方面的文本分类方法。
本申请第四方面的文本分类装置通过执行文本分类方法,能够基于中文对应的五笔字根点对待分类的中文文本分类。
本申请第五方面公开一种存储介质,计算机存储介质存储有计算机程序,计算机程序被处理器执行本申请第一方面的文本分类方法。
本申请第五方面的存储介质通过执行文本分类方法,能够基于中文对应的五笔字根点对待分类的中文文本分类。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一公开的一种文本分类方法的流程示意图;
图2为本申请实施例提公开的一种五笔字根图;
图3为本申请实施例公开的通过第一神经网络将独热编码转换为五笔字形编码的示意图;
图4为步骤104的子步骤的流程示意图;
图5为步骤1042的子步骤的流程示意图;
图6为步骤106的子步骤的流程示意图;
图7为本申请实施例二公开的一种文本分类网络的结构示意图;
图8为本申请实施例二公开的一种Transformer模型的结构示意图;
图9为本申请实施例三公开的一种文本分类装置的结构示意图;
图10为本申请实施例四公开的一种文本分类装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一
请参阅图1,图1是本申请实施例公开的一种文本分类方法的流程示意图。如图1所示,该文本分类方法包括步骤:
101、获取待分类文本的中文字形信息,中文字形信息基于五笔输入法字根得到;
102、将中文字形信息编码为独热编码;
103、通过第一神经网络将独热编码转换为五笔字形编码;
104、利用第二神经网络将五笔字形编码转换为注意力编码;
105、根据注意力编码计算得到待分类文本的特征向量;
106、通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型。
在本申请实施例中,不失一般性地,本领域技术人员应该理解中文的五笔字输入法的原理是将所有汉字拆分成对应的字根,例如"好"由字根"女"和字根"子"组成。
示例性地,“人工智能”对应的中文字形信息为“WATDCE”,其中,“人工智能”中每个字的五笔字根与键盘上的按键对应关系分别为“W”、“A”、“T”、“D”、“C”、“E”。具体而言,“人工智能”的中文字形信息可以根据如图2所示的五笔字根图得到。
在本申请实施例中,可选地,步骤102,将中文字形信息编码为独热编码包括:
根据字母与ID的关系词典,将中文字形信息转换为数值序列;
将数值序列编码为独热编码。
可选地,字母与ID的关系词典可以是如下关系词典:
{Q:0,W:1,E:2,R:3,T:4,Y:5,U:6,I:7,O:8,P:9,A:10,S:11,D:12,F:13,G:14,H:15,J:16,K:17,L:18,X:19,C:20,V:21,B:22,N:23,M:24}。
示例性地,通过关系词典,中文字形信息“WATDCE”对应的数值序列为"1,10,4,12,20,2"。
再示例性地,基于数值序列为"1,10,4,12,20,2",中文字形信息“WATDCE”对应的独热编码为:
1:[0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0];
10:[0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0];
4:[0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0];
12:[0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0];
20:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0];
2:[0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
请参阅图3,图3是一种通过第一神经网络将独热编码转换为五笔字形编码的示意图,如图3所示,中文字形信息“WATDCE”对应的独热编码经过第一神经网络编码后,被转换五笔字形编码(即维度大小为n的字型编码),其中,如图3所示,第一神经网络包括6个循环神经网络单元,每个循环神经网络单元对应不同的独热编码。
由此可知,本申请通过中文与五笔字根的对应关系,将待分类的中文文本转换为五笔字形编码,该五笔字形编码与英文文本相似,进而该五笔字形编码能够被第二神经网络处理生成待分类的中文文本对应的特征向量,最终,使得第三神经网络能够根据特征向量对待分类的中文文本进行分类,与现有技术相比,本申请能够实现精确分类待分类的中文文本。
具体而言,本申请实施例既能够利用五笔字输入法表示中文文本利于挖掘中文字形中蕴含的语义信息,又能够将五笔字输入法表示的中文文本通过循环神经网络进行全文本的五笔字形编码,进而可为文本分类模型公开更贴近中文语义的数据预处理。
另一方面,本申请实施例公开的“多头自注意力机制”可将中文文本的五笔字形编码转换为注意力编码,该注意力编码不仅包含具有贴近中文语义的信息,而且包含文本序列中当前词汇对前后词汇的重要度信息,进而该注意力编码可融合当前词汇对上下文句意的影响而达到对文本前后语义的精准把控,从而使得文本分类神经网络模型更精准、更细致对中文文本进行分类。
在一些可选的实施方式中,步骤105,根据注意力编码计算得到待分类文本的特征向量,包括子步骤:
当注意力编码的数量为一个时,将注意力编码标记为待分类文本的特征向量;
当注意力编码的数量大于等于两个时,拼接所有注意力编码并得到待分类文本的特征向量。
本可选实施方式能够将多个注意力编码拼接成一个注意力编码,这样一来,本申请就能够处理包含多个注意力编码的中文文本,因此,本可选实施方式进一步提高了本申请的文本分类方法的适用范围,与此同时,本可选实施方式可以使得多个第二神经网络同时进行将独热编码转换为注意力编码,其中,每个第二神经网络处理不同的独热编码片段,这样一来就能够提高独热编码转换效率,尤其是在需要对大量的待分析的中文文本进行文本分类这一场景中,本可选实施方式能够有更优的处理速度。
请参阅图4,图4是步骤104的子步骤流程示意图,在一些可选的实施方式中,如图4所示,步骤104,利用第二神经网络将五笔字形编码转换为注意力编码这一步骤,包括子步骤:
1041、将五笔字形编码转换为向量元素;
1042、创建向量元素的查询向量、关键向量、价值向量;
1043、根据查询向量、关键向量计算向量元素的注意力得分;
1044、根据价值向量和对注意力得分进行归一化后的得分,获得注意力编码。
本可选的实施方式通过查询向量、关键向量、价值向量得到五笔字形编码的注意力得分,进而能够根据价值向量和对注意力得分进行归一化后的得分,获得注意力编码,这样一来,就能够缩小五笔字形编码转换为注意力编码的误差,提高五笔字形编码的转换精度。
请参阅图5,图5是步骤1042的子步骤流程示意图,在一实施方式中,如图5所示,步骤1042,创建向量元素的查询向量、关键向量、价值向量这一步骤,包括子步骤:
10421、将向量元素与预设第一权重相乘获得查询向量;
10422、将向量元素与预设第二权重相乘获得关键向量;
10423、将向量元素与预设第三权重相乘获得价值向量。
本实施例能够预设第一权重、预设第二权重、预设第三权重获取查询向量、关键向量、价值向量。
请参阅图6,图6是步骤106的子步骤流程示意图,在一些可选的实施方式中,如图6所示,步骤106,通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型这一步骤,包括子步骤:
1061、根据特征向量、第三神经网络运算得到待分类文本对应的至少两个预选分类标签及每个预选分类标签对应的概率;
1062、根据每个预选分类标签对应的概率确定待分类文本的标签类型。
在本可选的实施方式中,由于待分类文本的标签类型是基于第三神经网络运算得到的预选分类标签对应的概率确定,其中,预选分类标签对应的概率根据大量的分类训练结果获得,因此,本可选的实施方式能够基于大量的分类训练结果,提高待分类文本的分类准确度。
实施例二
请参阅图7,图7是本申请实施例公开的一种文本分类网络的结构示意图,如图7所示,该文本分类网络包括:
第一神经网络,用于将独热编码编码为五笔字形编码;
第二神经网络,用于将五笔字形编码编码为注意力编码;
第三神经网络,用于对特征向量进行运算并根据运算结果确定待分类文本的标签类型。
在本申请实施例中,请参阅图8,图8是本申请实施例公开的一种Transformer模型的结构示意图,如图8所示,该Transformer模型包括Transformer解码器和编码器,其中第二神经网络为Transformer模型的编码器。
在本申请实施例中,如图7所示,第三神经网络由全连接层和损失层(Softmax)构成,其中,第三神经网络能够根据特征向量(根据注意力编码获得)确定待分类文本的标签类型。
本申请实施例公开的文本分类网络能够基于中文对应的五笔字根点对待分类的中文文本分类。
在一些可选的实施方式中,第一神经网络为循环神经网络,其中,循环神经网络包括若干个循环单元。
实施例三
请参阅图9,图9是本申请实施例公开了一种文本分类装置的结构示意图,如图9所示,该文本分类装置包括:
获取模块301,用于获取待分类文本中的中文字形信息,中文字形信息基于待分类文本中的五笔输入法字根得到;
第一编码模块302,用于将中文字形信息编码为独热编码;
第二编码模块303,用于通过第一神经网络将独热编码转换为五笔字形编码;
第三编码模块304,用于利用第二神经网络将五笔字形编码转换为注意力编码;
计算模块305,用于根据注意力编码计算得到待分类文本的特征向量;
运算模块306,用于通过第三神经网络对特征向量进行运算并根据运算结果确定待分类文本的标签类型。
在本申请实施例中,不失一般性地,本领域技术人员应该理解中文的五笔字输入法的原理是将所有汉字拆分成对应的字根,例如"好"由字根"女"和字根"子"组成。
示例性地,“人工智能”对应的中文字形信息为“WATDCE”,其中,“人工智能”中每个字的五笔字根与键盘上的按键对应关系分别为“W”、“A”、“T”、“D”、“C”、“E”。具体而言,“人工智能”的中文字形信息可根据如图2所示的五笔字根图得到。
在本申请实施例中,可选地,第一编码模块302执行将中文字形信息编码为独热编码的具体方式为:
根据字母与ID的关系词典,将中文字形信息转换为数值序列;
将数值序列编码为独热编码。
可选地,字母与ID的关系词典可以是如下关系词典:
{Q:0,W:1,E:2,R:3,T:4,Y:5,U:6,I:7,O:8,P:9,A:10,S:11,D:12,F:13,G:14,H:15,J:16,K:17,L:18,X:19,C:20,V:21,B:22,N:23,M:24}。
示例性地,通过关系词典,中文字形信息“WATDCE”对应的数值序列为"1,10,4,12,20,2"。
再示例性地,基于数值序列为"1,10,4,12,20,2",中文字形信息“WATDCE”对应的独热编码为:
1:[0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0];
10:[0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0];
4:[0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0];
12:[0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0];
20:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0];
2:[0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
请参阅图3,图3是一种通过第一神经网络将独热编码转换为五笔字形编码的示意图,如图3所示,中文字形信息“WATDCE”对应的独热编码经过第一神经网络编码后,被转换五笔字形编码(即维度大小为n的字型编码),其中,如图3所示,第一神经网络包括6个循环神经网络单元,每个循环神经网络单元对应不同的独热编码。
本申请实施例的文本分类装置通过执行文本分类方法,能够通过中文与五笔字根的对应关系,将待分类的中文文本转换为五笔字形编码,该五笔字形编码与英文文本相似,进而该五笔字形编码能够被第二神经网络处理生成待分类的中文文本对应的特征向量,最终,使得第三神经网络能够根据特征向量对待分类的中文文本行分类,与现有技术相比,本申请能够实现精确分类待分类的中文文本。
具体而言,本申请实施例既能够利用五笔字输入法表示中文文本利于挖掘中文字形中蕴含的语义信息,又能够将五笔字输入法表示的中文文本通过循环神经网络进行全文本的五笔字形编码,进而可为文本分类模型公开更贴近中文语义的数据预处理。
另一方面,本申请实施例公开的“多头自注意力机制”可将中文文本的五笔字形编码转换为注意力编码,该注意力编码不仅包含具有贴近中文语义的信息,而且包含文本序列中当前词汇对前后词汇的重要度信息,进而该注意力编码可融合当前词汇对上下文句意的影响而达到对文本前后语义的精准把控,从而使得文本分类神经网络模型更精准、更细致对中文文本进行分类。
在一些可选的实施方式中,计算模块305执行根据注意力编码计算得到待分类文本的特征向量的具体方式为:
当注意力编码的数量为一个时,将注意力编码标记为待分类文本的特征向量;
当注意力编码的数量大于等于两个时,拼接所有注意力编码并得到待分类文本的特征向量。
本可选实施方式能够将多个注意力编码拼接成一个注意力编码,这样一来,本申请就能够处理包含多个注意力编码的中文文本,因此,本可选实施方式进一步提高了本申请的文本分类方法的适用范围,与此同时,本可选实施方式可以使得多个第二神经网络同时进行将独热编码转换为注意力编码,其中,每个第二神经网络处理不同的独热编码片段,这样一来就能够提高独热编码转换效率,尤其是在需要对大量的待分析的中文文本进行文本分类这一场景中,本可选实施方式能够有更优的处理速度。
在一些可选的实施方式中,第三编码模块304包括转换子模块3041、创建子模块3042、计算子模块3043、获得子模块3044,其中:
转换子模块3041,用于将五笔字形编码转换为向量元素;
创建子模块3042,用于创建向量元素的查询向量、关键向量、价值向量;
计算子模块3043,用于根据查询向量、关键向量计算向量元素的注意力得分;
获得子模块3044,用于根据价值向量和对注意力得分进行归一化后的得分,获得注意力编码。
本可选的实施方式通过查询向量、关键向量、价值向量得到五笔字形编码的注意力得分,进而能够根据价值向量和对注意力得分进行归一化后的得分,获得注意力编码,这样一来,就能够缩小五笔字形编码转换为注意力编码的误差,提高五笔字形编码的转换精度。
在一些可选的实施方式中,创建子模块3042执行创建向量元素的查询向量、关键向量、价值向量的具体方式为:
将向量元素与预设第一权重相乘获得查询向量;
将向量元素与预设第二权重相乘获得关键向量;
将向量元素与预设第三权重相乘获得价值向量。
本实施例能够预设第一权重、预设第二权重、预设第三权重能够获取查询向量、关键向量、价值向量。
在一些可选的实施方式中,运算模块306包括运算子模块3061、确定子模块3062,其中:
运算子模块3061,用于根据特征向量、第三神经网络运算得到待分类文本对应的至少两个预选分类标签及每个预选分类标签对应的概率;
确定子模块3062,用于根据每个预选分类标签对应的概率确定待分类文本的标签类型。
在本可选的实施方式中,由于待分类文本的标签类型是基于第三神经网络运算得到的预选分类标签对应的概率确定,其中,预选分类标签对应的概率根据大量的分类训练结果获得,因此,本可选的实施方式能够基于大量的分类训练结果,提高待分类文本的分类准确度。
实施例四
请参阅图10,图10是本申请实施例公开的一种文本分类装置的结构示意图,如图10所示,该文本分类装置包括:
处理器402;以及
存储器401,配置用于存储机器可读指令,指令在由处理器402执行时,使得处理器402执行如本申请实施例一的文本分类方法。
本申请实施例的文本分类装置通过执行文本分类方法,能够通过中文与五笔字根的对应关系,将待分类的中文文本转换为五笔字形编码,该五笔字形编码与英文文本相似,进而该五笔字形编码能够被第二神经网络处理生成待分类的中文文本对应的特征向量,最终,使得第三神经网络能够根据特征向量对待分类的中文文本进行分类,与现有技术相比,本申请能够实现精确分类待分类的中文文本。
实施例五
本申请实施例公开一种存储介质,计算机存储介质存储有计算机程序,计算机程序被处理器执行本申请实施例一的文本分类方法。
本申请实施例的存储介质通过执行文本分类方法,能够通过中文与五笔字根的对应关系,将待分类的中文文本转换为五笔字形编码,该五笔字形编码与英文文本相似,进而该五笔字形编码能够被第二神经网络处理生成待分类的中文文本对应的特征向量,最终,使得第三神经网络能够根据特征向量对待分类的中文文本进行分类,与现有技术相比,本申请能够实现精确分类待分类的中文文本。
在本申请所公开的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本的中文字形信息,所述中文字形信息基于五笔输入法字根得到;
将所述中文字形信息编码为独热编码;
通过第一神经网络将所述独热编码转换为五笔字形编码;
利用第二神经网络将所述五笔字形编码转换为注意力编码;
根据所述注意力编码计算得到所述待分类文本的特征向量;
通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。
2.如权利要求1所述的文本分类方法,其特征在于,根据所述注意力编码计算得到所述待分类文本的特征向量,包括:
当所述注意力编码的数量大于等于两个时,拼接所有所述注意力编码并得到所述待分类文本的特征向量。
3.如权利要求1所述的文本分类方法,其特征在于,利用第二神经网络将所述五笔字形编码转换为注意力编码,包括:
将所述五笔字形编码转换为向量元素;
创建所述向量元素的查询向量、关键向量、价值向量;
根据所述查询向量、关键向量计算所述向量元素的注意力得分;
根据所述价值向量和对所述注意力得分进行归一化后的得分,获得所述注意力编码。
4.如权利要求3所述的文本分类方法,其特征在于:创建所述向量元素的查询向量、关键向量、价值向量,包括:
将所述向量元素与预设第一权重相乘获得所述查询向量;
将所述向量元素与预设第二权重相乘获得所述关键向量;
将所述向量元素与预设第三权重相乘获得所述价值向量。
5.如权利要求1所述的文本分类方法,其特征在于,通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型,包括:
根据所述特征向量、所述第三神经网络运算得到所述待分类文本对应的至少两个预选分类标签及每个所述预选分类标签对应的概率;
根据每个所述预选分类标签对应的概率确定所述待分类文本的标签类型。
6.一种文本分类网络,其特征在于,所述文本分类网络包括:
第一神经网络,用于将独热编码编码为五笔字形编码;
第二神经网络,用于将所述五笔字形编码编码为注意力编码;
第三神经网络,用于对所述特征向量进行运算并根据运算结果确定待分类文本的标签类型。
7.如权利要求6所述的文本分类网络,其特征在于,所述第一神经网络为循环神经网络,其中,所述循环神经网络包括若干个循环单元。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类文本中的中文字形信息,所述中文字形信息基于待分类文本中的五笔输入法字根得到;
第一编码模块,用于将所述中文字形信息编码为独热编码;
第二编码模块,用于通过第一神经网络将所述独热编码转换为五笔字形编码;
第三编码模块,用于利用第二神经网络将所述五笔字形编码转换为注意力编码;
计算模块,用于根据所述注意力编码计算得到所述待分类文本的特征向量;
运算模块,用于通过第三神经网络对所述特征向量进行运算并根据运算结果确定所述待分类文本的标签类型。
9.一种文本分类装置,所述装置包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述指令在由所述处理器执行时,使得所述处理器执行如权利要求1-5任一项所述的文本分类方法。
10.一种存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行如权利要求1-5任一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911312726.8A CN111090748A (zh) | 2019-12-18 | 2019-12-18 | 一种文本分类方法、装置、网络及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911312726.8A CN111090748A (zh) | 2019-12-18 | 2019-12-18 | 一种文本分类方法、装置、网络及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111090748A true CN111090748A (zh) | 2020-05-01 |
Family
ID=70395934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911312726.8A Pending CN111090748A (zh) | 2019-12-18 | 2019-12-18 | 一种文本分类方法、装置、网络及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090748A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354701A (zh) * | 2016-08-30 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 汉字处理方法和装置 |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN108829823A (zh) * | 2018-06-13 | 2018-11-16 | 北京信息科技大学 | 一种文本分类方法 |
US20190095432A1 (en) * | 2017-09-26 | 2019-03-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for building text classification model, and text classification method and apparatus |
US20190103091A1 (en) * | 2017-09-29 | 2019-04-04 | Baidu Online Network Technology (Beijing) Co., Ltd . | Method and apparatus for training text normalization model, method and apparatus for text normalization |
CN110059192A (zh) * | 2019-05-15 | 2019-07-26 | 北京信息科技大学 | 基于五笔码的字符级文本分类方法 |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
-
2019
- 2019-12-18 CN CN201911312726.8A patent/CN111090748A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354701A (zh) * | 2016-08-30 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 汉字处理方法和装置 |
US20190095432A1 (en) * | 2017-09-26 | 2019-03-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for building text classification model, and text classification method and apparatus |
US20190103091A1 (en) * | 2017-09-29 | 2019-04-04 | Baidu Online Network Technology (Beijing) Co., Ltd . | Method and apparatus for training text normalization model, method and apparatus for text normalization |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN108829823A (zh) * | 2018-06-13 | 2018-11-16 | 北京信息科技大学 | 一种文本分类方法 |
CN110059192A (zh) * | 2019-05-15 | 2019-07-26 | 北京信息科技大学 | 基于五笔码的字符级文本分类方法 |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN111695052A (zh) | 标签分类方法、数据处理设备、可读存储介质 | |
CN112528648A (zh) | 多音字发音的预测方法、装置、设备及存储介质 | |
CN113591457A (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN111858843A (zh) | 一种文本分类方法及装置 | |
CN110991185A (zh) | 一种文章中实体的属性抽取方法及装置 | |
CN111814479A (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN112036189A (zh) | 一种金文语义识别方法和系统 | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 | |
CN115081430A (zh) | 中文拼写检错纠错方法、装置、电子设备及存储介质 | |
CN116991875B (zh) | 一种基于大模型的sql语句生成、别名映射方法及设备 | |
CN113342935A (zh) | 语义识别方法、装置、电子设备及可读存储介质 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN113609857A (zh) | 基于级联模型和数据增强的法律命名实体识别方法及系统 | |
CN113553847A (zh) | 用于对地址文本进行解析的方法、装置、系统和存储介质 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN111090748A (zh) | 一种文本分类方法、装置、网络及存储介质 | |
CN114925175A (zh) | 基于人工智能的摘要生成方法、装置、计算机设备及介质 | |
CN115270792A (zh) | 一种医疗实体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |
|
RJ01 | Rejection of invention patent application after publication |