CN111581377A - 文本分类方法、装置、存储介质及计算机设备 - Google Patents

文本分类方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN111581377A
CN111581377A CN202010328286.1A CN202010328286A CN111581377A CN 111581377 A CN111581377 A CN 111581377A CN 202010328286 A CN202010328286 A CN 202010328286A CN 111581377 A CN111581377 A CN 111581377A
Authority
CN
China
Prior art keywords
text
texts
sample
neural network
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010328286.1A
Other languages
English (en)
Other versions
CN111581377B (zh
Inventor
周玥
胡盼盼
赵茜
佟博
黄仲强
黄聿
张超
张坚琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Bozhilin Robot Co Ltd
Original Assignee
Guangdong Bozhilin Robot Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Bozhilin Robot Co Ltd filed Critical Guangdong Bozhilin Robot Co Ltd
Priority to CN202010328286.1A priority Critical patent/CN111581377B/zh
Publication of CN111581377A publication Critical patent/CN111581377A/zh
Application granted granted Critical
Publication of CN111581377B publication Critical patent/CN111581377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种文本分类方法、装置、存储介质及计算机设备,文本为中文文本,该方法包括获得文本;对文本进行编码得到五笔字形编码;根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系;根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类。通过本发明由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,由此能够在对中文文本进行分类时获得较好的适用性以及中文文本分类效果。

Description

文本分类方法、装置、存储介质及计算机设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本分类方法、装置、存储介质及计算机设备。
背景技术
在自然语言处理技术领域中,通常会执行一些文本分类任务从而辅助如信息检索,新闻主题分类,垃圾邮件分类、情感分析、自动问答系统中的问句分类等。而文本分类通常包括三种分类类型:二分类问题,多分类问题以及多标签问题,比如判断邮件是否为垃圾邮件,属于一个二分类问题;比如判断新闻主题是娱乐、体育、还是社会,属于一个多分类问题;比如基于案件事实描述文本的法条分类,属于多标签分类问题。
相关技术中,通常采用TF-IDF、词嵌入池化,或者是CNN(Convolutional NeuralNetworks,神经卷积网络)模型等对文本进行分类。
这种方式下,并不适用于中文文本的分类,分类效果不佳。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种文本分类方法、装置、存储介质及计算机设备,由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,由此能够在对中文文本进行分类时获得较好的适用性以及中文文本分类效果。
本发明第一方面实施例提出的文本分类方法,所述文本为中文文本,包括:获得文本;对所述文本进行编码得到五笔字形编码;根据所述五笔字形编码,结合所述XLNet模型确定所述文本中各子文本之间的特征信息,所述特征信息用于描述各子文本之间的上下文信息,所述XLNet模型已学习得到多个样本子文本的样本字形编码,以及所述多个样本子文本之间的特征信息的对应关系;根据所述各子文本之间的特征信息,结合第一神经网络模型对所述文本进行分类。
本发明第一方面实施例提出的文本分类方法,通过获得文本,对文本进行编码得到五笔字形编码,并根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系,以及根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类,由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,由此能够在对中文文本进行分类时获得较好的适用性以及中文文本分类效果。
本发明第二方面实施例提出的文本分类装置,所述文本为中文文本,包括:获取模块,用于获得文本;编码模块,用于对所述文本进行编码得到五笔字形编码;识别模块,用于根据所述五笔字形编码,结合所述XLNet模型确定所述文本中各子文本之间的特征信息,所述特征信息用于描述各子文本之间的上下文信息,所述XLNet模型已学习得到多个样本子文本的样本字形编码,以及所述多个样本子文本之间的特征信息的对应关系;分类模块,用于根据所述各子文本之间的特征信息,结合第一神经网络模型对所述文本进行分类。
本发明第二方面实施例提出的文本分类装置,通过获得文本,对文本进行编码得到五笔字形编码,并根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系,以及根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类,由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,由此能够在对中文文本进行分类时获得较好的适用性以及中文文本分类效果。
本发明第三方面实施例提出的计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面实施例提出的文本分类方法。
本发明第三方面实施例提出的计算机可读存储介质,通过获得文本,对文本进行编码得到五笔字形编码,并根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系,以及根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类,由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,由此能够在对中文文本进行分类时获得较好的适用性以及中文文本分类效果。
本发明第四方面实施例提出的计算机设备,包括壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述计算机设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行:获得文本;对所述文本进行编码得到五笔字形编码;根据所述五笔字形编码,结合所述XLNet模型确定所述文本中各子文本之间的特征信息,所述特征信息用于描述各子文本之间的上下文信息,所述XLNet模型已学习得到多个样本子文本的样本字形编码,以及所述多个样本子文本之间的特征信息的对应关系;根据所述各子文本之间的特征信息,结合第一神经网络模型对所述文本进行分类。
本发明第四方面实施例提出的计算机设备,通过获得文本,对文本进行编码得到五笔字形编码,并根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系,以及根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类,由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,由此能够在对中文文本进行分类时获得较好的适用性以及中文文本分类效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的文本分类方法的流程示意图;
图2为本发明实施例中的基于双流自注意力机制的排序XLNet模型的示意图;
图3是本发明另一实施例提出的文本分类方法的流程示意图;
图4为本发明实施例中五笔字根表的示意图;
图5是本发明实施例中确定五笔字形编码的流程示意图;
图6为本发明实施例中文本分类流程示意图;
图7是本发明一实施例提出的文本分类装置的结构示意图;
图8是本发明一实施例提出的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的文本分类方法的流程示意图。
本实施例以该文本分类方法被配置为文本分类装置中来举例说明。
本实施例中文本分类方法可以被配置在文本分类装置中,文本分类装置可以设置在服务器中,或者也可以设置在电子设备中,本发明实施例对此不作限制。
本实施例以文本分类方法被配置在电子设备中为例。
其中,电子设备例如智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。
需要说明的是,本发明实施例的执行主体,在硬件上可以例如为电子设备中的中央处理器(Central Processing Unit,CPU),在软件上可以例如为电子设备中的文本分类的服务,对此不作限制。
参见图1,该方法包括:
S101:获得文本。
其中,该文本为待进行分类的文本,该文本具体为中文文本,该文本中可以包含一个或者多个的子文本,子文本可以例如为文本中的文字、语句、词组中的一种或者多种,该子文本可以辅助后续的文本分类。
S102:对文本进行编码得到五笔字形编码。
其中,五笔字形编码能够描述中文文本的五笔字根之间的特征,五笔字形编码为基于五笔字根表,对文本编码得到的编码。
在具体执行的过程中,可以根据预设的规则,对文本进行拆分,将该文本拆分为一个或者多个的子文本,从而将每个子文本输入到编码模型中,该编码模型已学习得到样本子文本和对应的五笔自行编码之间的对应关系,由此可以根据编码模型的输出确定各子文本对应的五笔字形编码,并将全部子文本的五笔字形编码组合,得到整个文本的五笔字形编码,对此不作限制。
而本发明实施例中,可以根据五笔字根表,确定文本对应的多个字母编码,并根据各字母编码,确定五笔字形编码,能够取得较好的编码效果,使得五笔字型编码能够被高效快速地地识别,提升文本分类的效率。
作为一种示例,根据五笔字根表对文本中的各子文本中的文字进行编码,得到相应的字母编码(由于五笔字根表描述了各文字的字根和对应字母之间的关系,因此,可以基于五笔字根表确定出各子文本中的文字对应的字母,并将各文字对应的字母进行组合,从而可以得到相应的字母编码)。
本发明实施例中,可以直接将字母编码作为五笔字形编码,还可以预先建立字母编码与数值标识的对应关系,根据得到的字母编码确定相应的数值标识,从而将数值标识作为五笔字形编码,例如,预先根据样本的字母编码与对应的数值标识建立字典,或者,也可以对数值标识进行独热编码,将得到的独热编码作为五笔字形编码,或者,也可以将独热编码输入循环神经网络中,从而根据循环神经网络的输出计算得到五笔字形编码,具体可以参见下述示例,对此不作限制。
S103:根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系。
其中,针对基于双流自注意力机制的排序XLNet模型的说明如下:
双流自注意力机制包括:内容流自注意力和查询流自注意力,查询流自注意力用于确定子文本本身的位置信息,内容流自注意力用于确定子文本的信息。
作为一种示例,参见图2,图2为本发明实施例中的基于双流自注意力机制的排序XLNet模型的示意图,文本X中包含子文本x1、x2、x3、x4,其中,子文本x1、x2、x3、x4顺序排列,e(xi)为内容流中初始化的词向量,对应x1、x2、x3、x4有e(x1)、e(x2)、e(x3)、e(x4),“gi n”代表隐状态的查询流,n的取值为1-2,w为查询流中随机初始化的向量,代表双流自注意力机制编码层次,其中不包含预测目标的上下文语境,“hi (m)”代表隐状态的内容流,m取值为1-2,代表双流自注意力机制编码层次,i代表对应序列的词,采用Transformer-XL(Transformer-Extra Large,超长转换)模型作为预训练模型,并集成Transformer-XL模型中的相对位置编码方案和分段递归机制,右侧矩阵中,右上矩阵为内容流矩阵,右下矩阵为查询流矩阵,其中,黑点代表可以看到,为显状态,白点代表遮罩了无法看见,为隐状态,假设预测文本X中x3的子文本,通过对原顺序x1、x2、x3、x4排列的子文本重新排列,选取排列为x4、x2、x1、x3的子文本组合,可以看到x3的上下文子文本,从而提高x3预测的准确性。
本发明实施例中的特征信息可以用于描述各子文本之间的上下文信息,其中的XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系,从而可以将五笔字形编码输入至XLNet模型中,确定出五笔字形编码对应的特征信息并作为文本中各子文本之间的特征信息,该特征信息能够用于描述各子文本之间的上下文关联情况。
上述多个样本子文本的样本字形编码,以及多个样本子文本可以是预先配置的,该多个样本子文本的样本字形编码,以及多个样本子文本用于迭代训练初始的XLNet模型,直至初始的XLNet模型满足收敛条件,获得训练得到的XLNet模型,对此不作限制。
S104:根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类。
第一神经网络模型也可以例如为RNN(Recurrent Neural Networks,循环神经网络)模型,对此不作限制。
当然也可以采用其它任意可能的方式执行根据各子文本之间的特征信息,确定文本对应的多个候选分类,以及与各候选分类对应的概率值的步骤,比如采用工程学的方法,采用数学的方法等,对此不作限制。
上述的候选分类,可以为根据特征信息,结合第一神经网络模型所确定出的与文本最相适配的多个可能的分类,上述在确定出与文本最相适配的多个可能的分类的同时,还可以确定出与各候选分类对应的概率值,从而可以直接根据对应的概率值从多个可能的分类中选取出最相适配的分类。
本实施例中,通过获得文本,对文本进行编码得到五笔字形编码,并根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系,以及根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类,由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,由此能够在对中文文本进行分类时获得较好的适用性以及中文文本分类效果。
图3是本发明另一实施例提出的文本分类方法的流程示意图。
参见图3,方法包括:
S301:获得文本。
其中,该文本为待进行分类的文本,该文本具体为中文文本,该文本中可以包含一个或者多个的子文本,子文本可以例如为文本中的文字、语句、词组中的一种或者多种,该子文本可以辅助后续的文本分类。
S302:根据五笔字根表,确定文本对应的多个字母编码。
参见图4,图4为本发明实施例中五笔字根表的示意图。其中,字根为文字拆解的多个基本的单位,包括文字、文字的偏旁部首以及文字的笔画等。多个字根对应于输入设备键盘上的25个键,其中,25个键可以包括A-Y。
在具体执行过程中,多个字根对应于相应的字母键,在输入文字时,根据文字书写顺序,依次输入相应的字母键,可以得到对应的文字,字母键的排列序列构成字母编码。
作为一种示例,字母键“Y”对应的字根包括:“讠”;字母键“G”对应的字根包括:“五”;字母键“K”对应的字根包括:“口”;对于文字“语”,其对应的字母编码为“YGK”。
作为另一种示例,对于词组,其编码对应于字根表中前两个字母键的组合,例如:“自然语言”,其对应的字母编码为“THQDYGYY”。
在具体执行过程中,可以将获取得到的中文文本进行划词,划出的词包括多个子文本,子文本可以例如为文本中的文字、语句、词组中的一种或者多种,并按照文本的表达顺序,将各子文本分解为相应的字根,根据五笔字根表,得到整个文本对应的字母键的序列,构成字母编码。
S303:确定各字母编码对应的独热编码。
在具体执行过程中,可以具体是根据预设数值表,确定各字母编码对应的独热编码。
其中,预设数值表可以是预先建立的,可以预先根据样本的字母编码与对应的数值标识建立字典从而形成预设数值表,并根据各字母编码结合预设数值表确定对应的数值标识,而后,在根据整个文本的数值标识,确定整个文本对应的独热编码。
其中,预设数值表为{Q:0,W:1,E:2,R:3,T:4,Y:5,U:6,I:7,O:8,P:9,A:10,S:11,D:12,F:13,G:14,H:15,J:16,K:17,L:18,X:19,C:20,V:21,B:22,N:23,M:24}。
各字母编码对应于一个数值标识,建立起数值标识与字母编码的词典,并根据数值标识对应于相应的独热编码,将字母编码转换为独热编码,解决了分类器不好处理属性数据的问题,并在一定程度上也起到了扩充特征的作用。
作为一种示例,词组“自然语言”,对应的字母编码为“THQDYGYY”,其字母编码对应的数值标识为“4,15,0,12,5,14,5,5”,其数值标识对应的独热编码为:
4:[0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
15:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0],
0:[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
12:[0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0],
5:[0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
14:[0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0],
5:[0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
5:[0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
S304:根据各独热编码,结合第二神经网络模型确定对应的向量;其中,第二神经网络模型已学习得到样本的独热编码,以及与样本的独热编码对应的向量之间的对应关系,并根据各独热编码对应的向量确定五笔字形编码。
其中,第二神经网络模型可以例如为RNN(Recurrent Neural Networks,循环神经网络)模型。
当然也可以采用其它任意可能的方式执行根据各独热编码确定五笔字形编码的步骤,比如采用工程学的方法,采用数学的方法等,对此不作限制。
上述样本的独热编码、样本的五笔字形编码可以是预先配置的,该样本的独热编码、样本的五笔字形编码用于迭代训练初始的神经网络模型,直至初始的神经网络模型满足收敛条件,将训练得到的神经网络模型作为第二神经网络模型,对此不作限制。
可选地,第二神经网络模型为循环神经网络,根据各独热编码,结合第二神经网络模型确定对应的向量,包括:将各独热编码输入至循环神经网络;根据循环神经网络的输出得到目标维度的向量,从而确定对应的向量。
本实施例在具体执行过程中,可以将文本的独热编码依次传入循环神经网络模型中,作为循环神经网络模型的输入向量,经过循环神经网络模型的计算,得到相应的五笔字形编码,其五笔字形编码是维度大小为n的向量,n取值1-N,N为大于零的正整数。
作为一种示例,参见图5,图5是本发明实施例中确定五笔字形编码的流程示意图,以文本为“自然语言”进行示例,对此不作限制,该文本“自然语言”对应的字母编码为“THQDYGYY”,其字母编码对应的数值标识为“4,15,0,12,5,14,5,5”,将数值标识对应的独热编码依次传入RNN(Recurrent Neural Networks,循环神经网络)模型中,在接收完所有文本的独热编码后,通过循环神经网络模型运算,将独热编码转换为五笔字形编码。
S305:根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息。
可选地,可以将五笔字形编码作为XLNet模型的输入;获取XLNet模型的输出的与五笔字形编码对应的双流自注意力机制的编码序列;将双流自注意力机制的编码序列作为各子文本之间的特征信息
本发明实施例中的特征信息可以用于描述各子文本之间的上下文信息,其中的XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系,从而可以将五笔字形编码输入至XLNet模型中,确定出五笔字形编码对应的特征信息并作为文本中各子文本之间的特征信息,该特征信息能够用于描述各子文本之间的上下文关联情况。
上述多个样本子文本的样本字形编码,以及多个样本子文本可以是预先配置的,该多个样本子文本的样本字形编码,以及多个样本子文本用于迭代训练初始的XLNet模型,直至初始的XLNet模型满足收敛条件,获得训练得到的XLNet模型,对此不作限制。
S306:根据各子文本之间的特征信息,结合第一神经网络模型确定文本对应的多个候选分类,以及与各候选分类对应的概率值;第一神经网络模型已学习得到各样本的特征信息,与对应的样本候选分类以及对应的样本概率值之间的对应关系。
可选地,根据各子文本之间的特征信息,结合第一神经网络模型确定文本对应的多个候选分类,以及与各候选分类对应的概率值,包括:将双流自注意力机制的编码序列转换为特征向量;将特征向量输入第一神经网络模型的全连接层;根据全连接层的输出,结合softmax算法确定文本对应的多个候选分类,以及与各候选分类对应的概率值。
上述各样本的特征信息,与对应的样本候选分类以及对应的样本概率值可以是预先配置的,该各样本的特征信息,与对应的样本候选分类(该样本候选分类可以是预先标定得到)以及对应的样本概率值(该样本概率值可以是预先采用一定的概率算法计算得到的)用于迭代训练初始的神经网络模型,直至初始的神经网络模型满足收敛条件,将训练得到的神经网络模型作为第一神经网络模型,对此不作限制。
第一神经网络模型也可以例如为RNN(Recurrent Neural Networks,循环神经网络)模型,对此不作限制。
当然也可以采用其它任意可能的方式执行根据各子文本之间的特征信息,确定文本对应的多个候选分类,以及与各候选分类对应的概率值的步骤,比如采用工程学的方法,采用数学的方法等,对此不作限制。
上述的候选分类,可以为根据特征信息,结合第一神经网络模型所确定出的与文本最相适配的多个可能的分类,上述在确定出与文本最相适配的多个可能的分类的同时,还可以确定出与各候选分类对应的概率值,从而可以直接根据对应的概率值从多个可能的分类中选取出最相适配的分类。
S307:确定多个概率值中值最大的概率值对应的候选分类,作为对文本进行分类的结果。
作为一个示例,参见图6,图6为本发明实施例中文本分类流程示意图。待分类的中文文本中的文字采用五笔字形输入方式输入,并根据五笔字形输入方式将中文文本中的文字全部转换为独热编码,转换后的独热编码通过RNN(Recurrent Neural Networks,循环神经网络)运算,从而将独热编码转换为五笔字形编码;并将五笔字形编码作为XLNet模型的输入,通过XLNet模型将五笔字形编码转换为对应的双流自注意力机制编码序列,对双流自注意力机制编码序列进行拼接,并转换为特征向量,作为全连接层的输入,而后,通过Softmax函数(归一化指数函数)运算,得到候选分类的概率值分布,以值最大的概率值所属的候选分类作为分类的结果。
本实施例中,通过获得文本,在根据五笔字根表,确定文本对应的多个字母编码,并确定各字母编码对应的独热编码,以及根据各独热编码,结合第二神经网络模型确定五笔字形编码,能够根据五笔字根表构建五笔字形编码,由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,有效增强了文本分类所输入的信息内容,进而降低了中文文本分类的复杂度。通过根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,在根据各子文本之间的特征信息,结合第一神经网络模型确定文本对应的多个候选分类,以及与各候选分类对应的概率值,以及确定多个概率值中值最大的概率值对应的候选分类,作为对文本进行分类的结果,得到了多个候选分类的概率统计分布情况,并能够结合概率统计分布情况分析得到最相适配的候选分类作为分类的结果,因此,能够有效提升文本分类的准确性,提升分类效果。
图7是本发明一实施例提出的文本分类装置的结构示意图。
参见图7,装置700包括:
获取模块701,用于获得文本。
编码模块702,用于对文本进行编码得到五笔字形编码。
识别模块703,用于根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系。
分类模块704,用于根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类。
需要说明的是,前述图1-图6实施例中对文本分类方法实施例的解释说明也适用于该实施例的文本分类装置700,其实现原理类似,此处不再赘述
本实施例中,通过获得文本,对文本进行编码得到五笔字形编码,并根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系,以及根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类,由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,由此能够在对中文文本进行分类时获得较好的适用性以及中文文本分类效果。
图8是本发明一实施例提出的计算机设备的结构示意图。
参见图8,本实施例的计算机设备80包括:壳体801、处理器802、存储器803、电路板804、电源电路805,电路板804安置在壳体801围成的空间内部,处理器802、存储器803设置在电路板804上;电源电路805,用于为计算机设备80各个电路或器件供电;存储器803用于存储可执行程序代码;其中,处理器802通过读取存储器803中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行:
获得文本;
对文本进行编码得到五笔字形编码;
根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系;
根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类。
需要说明的是,前述图1-图6实施例中对文本分类方法实施例的解释说明也适用于该实施例的计算机设备80,其实现原理类似,此处不再赘述。
本实施例中,通过获得文本,对文本进行编码得到五笔字形编码,并根据五笔字形编码,结合XLNet模型确定文本中各子文本之间的特征信息,特征信息用于描述各子文本之间的上下文信息,XLNet模型已学习得到多个样本子文本的样本字形编码,以及多个样本子文本之间的特征信息的对应关系,以及根据各子文本之间的特征信息,结合第一神经网络模型对文本进行分类,由于在分类的过程中采用五笔字形编码描述中文文本的五笔字根之间的特征,由此能够在对中文文本进行分类时获得较好的适用性以及中文文本分类效果。
为了实现上述实施例,本申请实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例的文本分类方法。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种文本分类方法,其特征在于,所述文本为中文文本,所述方法包括:
获得文本;
对所述文本进行编码得到五笔字形编码;
根据所述五笔字形编码,结合所述XLNet模型确定所述文本中各子文本之间的特征信息,所述特征信息用于描述各子文本之间的上下文信息,所述XLNet模型已学习得到多个样本子文本的样本字形编码,以及所述多个样本子文本之间的特征信息的对应关系;
根据所述各子文本之间的特征信息,结合第一神经网络模型对所述文本进行分类。
2.如权利要求1所述的文本分类方法,其特征在于,所述根据所述各子文本之间的特征信息,结合第一神经网络模型对所述文本进行分类,包括:
根据所述各子文本之间的特征信息,结合第一神经网络模型确定所述文本对应的多个候选分类,以及与各所述候选分类对应的概率值;所述第一神经网络模型已学习得到各样本的特征信息,与对应的样本候选分类以及对应的样本概率值之间的对应关系;
确定多个所述概率值中值最大的概率值对应的候选分类,作为对所述文本进行分类的结果。
3.如权利要求1或2所述的文本分类方法,其特征在于,所述子文本,为所述文本中的文字、语句、词组中的一种或者多种。
4.如权利要求1所述的文本分类方法,其特征在于,所述对所述文本进行编码得到五笔字形编码,包括:
根据五笔字根表,确定所述文本对应的多个字母编码;
根据各所述字母编码,确定所述五笔字形编码。
5.如权利要求4所述的文本分类方法,其特征在于,所述根据各所述字母编码,确定所述五笔字形编码,包括:
确定各所述字母编码对应的独热编码;
根据各所述独热编码,结合第二神经网络模型确定对应的向量;其中,所述第二神经网络模型已学习得到样本的独热编码,以及与所述样本的独热编码对应的向量之间的对应关系;
根据各所述独热编码对应的向量确定所述五笔字形编码。
6.如权利要求5所述的文本分类方法,其特征在于,所述确定各所述字母编码对应的独热编码,包括:
根据预设数值表,确定各所述字母编码对应的独热编码。
7.如权利要求5所述的文本分类方法,其特征在于,所述第二神经网络模型为循环神经网络,所述根据各所述独热编码,结合第二神经网络模型确定对应的向量,包括:
将各所述独热编码输入至所述循环神经网络;
根据所述循环神经网络的输出得到目标维度的向量,从而确定所述对应的向量。
8.如权利要求2所述的文本分类方法,其特征在于,所述根据所述五笔字形编码,结合所述XLNet模型确定所述文本中各子文本之间的特征信息,包括:
将所述五笔字形编码作为所述XLNet模型的输入;
获取所述XLNet模型的输出的与所述五笔字形编码对应的双流自注意力机制的编码序列;
将所述双流自注意力机制的编码序列作为所述各子文本之间的特征信息。
9.如权利要求8所述的文本分类方法,其特征在于,所述根据所述各子文本之间的特征信息,结合第一神经网络模型确定所述文本对应的多个候选分类,以及与各所述候选分类对应的概率值,包括:
将所述双流自注意力机制的编码序列转换为特征向量;
将所述特征向量输入所述第一神经网络模型的全连接层;
根据所述全连接层的输出,结合softmax算法确定所述文本对应的多个候选分类,以及与各所述候选分类对应的概率值。
10.一种文本分类装置,其特征在于,所述文本为中文文本,所述装置包括:
获取模块,用于获得文本;
编码模块,用于对所述文本进行编码得到五笔字形编码;
识别模块,用于根据所述五笔字形编码,结合所述XLNet模型确定所述文本中各子文本之间的特征信息,所述特征信息用于描述各子文本之间的上下文信息,所述XLNet模型已学习得到多个样本子文本的样本字形编码,以及所述多个样本子文本之间的特征信息的对应关系;
分类模块,用于根据所述各子文本之间的特征信息,结合第一神经网络模型对所述文本进行分类。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9任一项所述的文本分类方法。
12.一种计算机设备,包括壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述计算机设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行:
获得文本;
对所述文本进行编码得到五笔字形编码;
根据所述五笔字形编码,结合所述XLNet模型确定所述文本中各子文本之间的特征信息,所述特征信息用于描述各子文本之间的上下文信息,所述XLNet模型已学习得到多个样本子文本的样本字形编码,以及所述多个样本子文本之间的特征信息的对应关系;
根据所述各子文本之间的特征信息,结合第一神经网络模型对所述文本进行分类。
CN202010328286.1A 2020-04-23 2020-04-23 文本分类方法、装置、存储介质及计算机设备 Active CN111581377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010328286.1A CN111581377B (zh) 2020-04-23 2020-04-23 文本分类方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010328286.1A CN111581377B (zh) 2020-04-23 2020-04-23 文本分类方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN111581377A true CN111581377A (zh) 2020-08-25
CN111581377B CN111581377B (zh) 2023-04-07

Family

ID=72114959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010328286.1A Active CN111581377B (zh) 2020-04-23 2020-04-23 文本分类方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN111581377B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307198A (zh) * 2020-11-24 2021-02-02 腾讯科技(深圳)有限公司 一种单文本的摘要确定方法和相关装置
CN112949476A (zh) * 2021-03-01 2021-06-11 苏州美能华智能科技有限公司 基于图卷积神经网络的文本关系检测方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283814A1 (en) * 2015-03-25 2016-09-29 Alibaba Group Holding Limited Method and apparatus for generating text line classifier
CN110059192A (zh) * 2019-05-15 2019-07-26 北京信息科技大学 基于五笔码的字符级文本分类方法
CN110689878A (zh) * 2019-10-11 2020-01-14 浙江百应科技有限公司 一种基于XLNet的智能语音对话意图识别方法
CN110889290A (zh) * 2019-11-13 2020-03-17 北京邮电大学 文本编码方法和设备、文本编码有效性检验方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160283814A1 (en) * 2015-03-25 2016-09-29 Alibaba Group Holding Limited Method and apparatus for generating text line classifier
CN110059192A (zh) * 2019-05-15 2019-07-26 北京信息科技大学 基于五笔码的字符级文本分类方法
CN110689878A (zh) * 2019-10-11 2020-01-14 浙江百应科技有限公司 一种基于XLNet的智能语音对话意图识别方法
CN110889290A (zh) * 2019-11-13 2020-03-17 北京邮电大学 文本编码方法和设备、文本编码有效性检验方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾红雨;王宇涵;丛日晴;林岩;: "结合自注意力机制的神经网络文本分类算法研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307198A (zh) * 2020-11-24 2021-02-02 腾讯科技(深圳)有限公司 一种单文本的摘要确定方法和相关装置
CN112307198B (zh) * 2020-11-24 2024-03-12 腾讯科技(深圳)有限公司 一种单文本的摘要确定方法和相关装置
CN112949476A (zh) * 2021-03-01 2021-06-11 苏州美能华智能科技有限公司 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN112949476B (zh) * 2021-03-01 2023-09-29 苏州美能华智能科技有限公司 基于图卷积神经网络的文本关系检测方法、装置及存储介质

Also Published As

Publication number Publication date
CN111581377B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
WO2022088672A1 (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110941958B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
WO2021208727A1 (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN111581377B (zh) 文本分类方法、装置、存储介质及计算机设备
CN111680161A (zh) 一种文本处理方法、设备以及计算机可读存储介质
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN113987174A (zh) 分类标签的核心语句提取方法、系统、设备及存储介质
CN111737464A (zh) 文本分类方法、装置和电子设备
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN114444476A (zh) 信息处理方法、装置和计算机可读存储介质
CN117171413B (zh) 用于数字藏品管理的数据处理系统及其方法
CN112182337B (zh) 从海量短新闻中识别相似新闻的方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant