CN110851596B - 文本分类方法、装置及计算机可读存储介质 - Google Patents
文本分类方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110851596B CN110851596B CN201910967010.5A CN201910967010A CN110851596B CN 110851596 B CN110851596 B CN 110851596B CN 201910967010 A CN201910967010 A CN 201910967010A CN 110851596 B CN110851596 B CN 110851596B
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- label
- word
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/091—Active learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术,揭露了一种文本分类方法,包括:对原始文本数据进行预处理得到文本向量;对所述文本向量进行标签匹配,得到带有标签的文本向量和不带有标签的文本向量;将所述带有标签的文本向量输入BERT模型获得词向量特征;根据所述词向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量;利用随机森林模型对所述带有标签的文本向量和带有虚拟标签的文本向量进行多标签的分类,得到文本分类结果。本发明还提出一种文本分类装置以及一种计算机可读存储介质。本发明可以实现精准高效的文本分类功能。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种通过深度学习的方法对文本进行标签分类的方法、装置及计算机可读存储介质。
背景技术
目前对于多标签的文本分类来说,常用的方法是选择概率最高的3个或者5个标签进行文本分类,其中标签数量需要提前约定。但实际情况中,某个文本可能不存在任何标签。面对标签数量为零时,传统方法捕捉到的信息层次较低,难以准确进行标签识别及分类,因此分类准确度较低。
发明内容
本发明提供一种文本分类方法、装置及计算机可读存储介质,其主要目的在于提供一种对原始文本数据集进行深度学习从而进行标签分类的方法。
为实现上述目的,本发明提供的一种文本分类方法,包括:
对原始文本数据进行预处理得到文本向量;
对所述文本向量进行标签匹配,得到带有标签的文本向量和不带有标签的文本向量;
将所述带有标签的文本向量输入BERT模型获得字向量特征;
根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量;
利用随机森林模型对所述带有标签的文本向量和带有虚拟标签的文本向量进行多标签的分类,得到文本分类结果。
优选地,所述对原始文本数据进行预处理得到文本向量包括:
对所述原始文本数据进行分词操作得到第二文本数据;对所述第二文本数据进行去停用词操作得到第三文本数据;对所述第三文本数据进行去重操作得到第四文本数据;对所述第四文本数据进行词向量形式转化得到所述文本向量。
优选地,所述BERT模型包括输入层、词向量层、分类层、编码层;以及所述将所述带有标签的文本向量输入BERT模型获得字向量特征包括:
获取带有标签的文本向量的词性,将所述词性转换为词性向量;
将所述带有标签的文本向量对应的所述词性向量输入至BERT模型中进行数据处理,得到所述带有标签的文本向量的词矩阵;
根据所述带有标签的文本向量的词矩阵得到所述带有标签的文本向量的字向量特征。
优选地,所述根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量包括:
将所述不带有标签的文本向量输入所述卷积神经网络模型的卷积层对所述卷积神经网络模型进行训练,得到训练后的卷积神经网络模型;将所述字向量特征输入所述训练后的卷积神经网络模型,得到特征向量;将所述特征向量进行归一化处理得到所述虚拟标签;将所述虚拟标签匹配给所述不带有标签的文本向量,得到带有虚拟标签的文本向量。
优选地,所述得到带有虚拟标签的文本向量之后,该方法还包括:生成所述随机森林模型;
所述生成所述随机森林模型包括:
利用袋装算法的有放回抽样,从所述带有标签的文本向量和带有虚拟标签的文本向量中抽取多个样本子集,并使用所述样本子集训练决策树模型;
采用所述决策树模型作为基分类器,利用分裂规则对所述样本子集进行划分,生成由多棵所述决策树模型组成的随机森林模型。
此外,为实现上述目的,本发明还提供文本分类装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如下步骤:
对原始文本数据进行预处理得到文本向量;
对所述文本向量进行标签匹配,得到带有标签的文本向量和不带有标签的文本向量;
将所述带有标签的文本向量输入BERT模型获得字向量特征;
根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量;
利用随机森林模型对所述带有标签的文本向量和带有虚拟标签的文本向量进行多标签的分类,得到文本分类结果。
优选地,所述对原始文本数据进行预处理得到文本向量包括:
对所述原始文本数据进行分词操作得到第二文本数据;对所述第二文本数据进行去停用词操作得到第三文本数据;对所述第三文本数据进行去重操作得到第四文本数据;对所述第四文本数据进行词向量形式转化得到所述文本向量。
优选地,所述BERT模型包括输入层、词向量层、分类层、编码层;以及所述将所述带有标签的文本向量输入BERT模型获得字向量特征包括:
获取带有标签的文本向量的词性,将所述词性转换为词性向量;
将所述带有标签的文本向量对应的所述词性向量输入至BERT模型中进行数据处理,得到所述带有标签的文本向量的词矩阵;
根据所述带有标签的文本向量的词矩阵得到所述带有标签的文本向量的字向量特征。
优选地,所述根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量包括:
将所述不带有标签的文本向量输入所述卷积神经网络模型的卷积层对所述卷积神经网络模型进行训练,得到训练后的卷积神经网络模型;
将所述字向量特征输入所述训练后的卷积神经网络模型,得到特征向量;
将所述特征向量进行归一化处理得到所述虚拟标签;
将所述虚拟标签匹配给所述不带有标签的文本向量,得到带有虚拟标签的文本向量。
优选地,所述得到带有虚拟标签的文本向量之后,该方法还包括:生成所述随机森林模型;
所述生成所述随机森林模型包括:
利用袋装算法的有放回抽样,从所述带有标签的文本向量和带有虚拟标签的文本向量中抽取多个样本子集,并使用所述样本子集训练决策树模型;
采用所述决策树模型作为基分类器,利用分裂规则对所述样本子集进行划分,生成由多棵所述决策树模型组成的随机森林模型。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序可被一个或者多个处理器执行,以实现如上所述的文本分类方法的步骤。
本发明对所述原始文本数据进行预处理,可以有效提取出可能属于原始文本数据的词语,进一步地,通过词向量化及虚拟标签的匹配,在不损失特征精准的同时,可高效、智能地进行文本分类分析,最后基于预先构建的卷积神经网络模型对文本标签进行训练得到虚拟标签,利用随机森林模型对带有标签的文本向量和带有虚拟标签的文本向量进行多标签的分类得到文本分类结果。因此本发明提出的文本分类方法、装置及计算机可读存储介质,可以实现精准高效且连贯的文本分类。
附图说明
图1为本发明一实施例提供的文本分类方法的流程示意图;
图2为本发明一实施例提供的文本分类装置的内部结构示意图;
图3为本发明一实施例提供文本分类装置中文本分类程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本分类方法。参照图1所示,为本发明一实施例提供的文本分类方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,文本分类方法包括:
S1、接受用户输入的原始文本数据,对所述原始文本数据进行预处理得到文本向量。
较佳地,所述预处理包括对所述原始文本数据进行分词、去停用词、去重、词向量形式转化。
具体地,本发明较佳实施例对所述原始文本数据进行分词操作得到第二文本数据。其中,所述分词是对所述原始文本数据中的每句话进行切分得到单个的词语。
示例的,本发明实施例以用户输入的所述原始文本数据为“北大学生去清华打羽毛球”为例,采用基于统计的分词方法,对所述原始文本数据进行分词操作得到第二文本数据的过程进行说明。
示例的,假设从所述原始文本数据的句首开始“北大学生去清华打羽毛球”中的字符串可能分成的词语的组合为“北大”、“大学生”、“北大学生”、“清华”、“去”、“羽毛球”、“打羽毛球”、“去清华”等。由于在所有的语料中,“北大”出现的频率大于“北大学生”、“大学生”,所以基于统计的分词方法会优先将“北大”作为一个分词结果。之后,由于“打”和“去”无法组词,则将“打”作为一个分词结果、“去”作为一个分词结果。“北大”和“学生”搭配出现的概率大于“北大学”出现的概率,则将“学生”作为一个分词结果、“北大”作为一个分词结果,以及“清华”作为一个分词结果。由于“羽毛球”搭配的出现的概率大于“羽毛”和/或“球”出现的概率,将“羽毛球”作为一个分词结果;最终,基于统计的分词方法,获取的所述原始文本数据“北大学生去清华打羽毛球”的第二分词结果为:“北大”、“学生”、“去”、“清华”、“打”、“羽毛球”。
较佳地,在本发明一种可能的实施方式进一步对所述第二文本数据进行去停用词操作得到第三文本数据。其中,所述去停用词是去除所述原始文本数据中没有实际意义的且对文本的分类没有影响但出现频率高的词。所述停用词一般包括常用的代词、介词等。研究表明,没有实际意义的停用词,会降低文本分类效果,所以,在文本数据预处理过程中非常关键的步骤之一是去停用词。在本发明实施例中,所选取的去停用词的方法为停用词表过滤,所述停用词表过滤是通过已经构建好的停用词表和文本中的词语进行一一匹配,如果匹配成功,那么这个词语就是停用词,需要将该词删除。如:经过分词后的第二文本数据为:在商品经济的环境下,这些企业会根据市场的情况,去制定合格的销售模式,来争取扩大市场的份额,以稳定销售的价格,以及提高产品的竞争能力。因此,需要可行性分析,市场营销模式研究。
对该第二文本数据再进行去停用词得到的第三文本数据为:商品经济环境,企业根据市场情况,制定合格销售模式,争取扩大市场份额,稳定销售价格,提高产品竞争能力。因此,可行性分析,市场营销模式研究。
较佳地,在本发明一种可能的实施方式进一步对所述第三文本数据进行去重操作得到第四文本数据。
具体地,由于所收集的文本数据来源错综复杂,其中可能会存在很多重复的文本数据,大量的重复数据会影响分类精度,因此,在本发明实施例中,在对文本进行分类前首先利用欧式距离方法对文本进行所述去重操作,其公式如下:
式中w1j和w2j分别为2个文本,d为欧式距离。若计算出两个文本的欧式距离越小,说明所述两个文本越相似,则删除欧氏距离小于预设阈值的两个文本数据中的其中一个。
在经过分词、去停用词、去重后,文本由一系列的特征词(关键词)表示,但是这种文本形式的数据不能直接被分类算法所处理,而应该转化为数值形式,因此需要对这些特征词进行权重计算,用来表征该特征词在文本中的重要性。
较佳地,在本发明一种可能的实施方式进一步对所述第四文本数据进行词向量形式转化得到所述文本向量。例如,所述第四文本数据为:我和你。经过词向量转化将文字转化为向量形式得到文本向量[(1,2),(0,2),(3,1)]。
较佳地,所述词向量形式转化是将所述原始文本数据经过分词、去停用词、去重后得到的所述第四文本数据中的任意一个词用一个N维的矩阵向量表示,其中,N是所述第四文本数据中总共包含词的个数,在本案中,使用以下公式对词进行初始向量化:
其中,i表示词的编号,vi表示词i的N维矩阵向量,假设共有s个词,vj是所述N维矩阵向量的第j个元素。
S2、对所述文本向量进行标签匹配,得到带有标签的文本向量和不带有标签的文本向量。
较佳地,对所述文本向量进行标签匹配,得到带有标签的文本向量和不带有标签的文本向量包含以下步骤:
步骤S201、对所述文本向量建立索引。例如,文本向量[(1,2)、(0,2)、(3,1)]包含了三个维度的数据(1,2)、(0,2)和(3,1)。此刻根据该三个维度,分别在各个维度上建立索引,作为所述文本向量在该维度上的标记。
步骤S202、根据所述索引,对所述文本向量进行查询并进行词性标注。例如,根据,索引能够推断出文本向量在某个维度的特性,同维度的特性对应的即为相同的词性。比如,“狗“和”刀”的词性都是名词,则它们在某一维度(假设x维度)的索引是一致的,都指向名词性。相应的,根据索引可以查询到某个特定的文本向量的词性,并对该文本向量进行词性的标注。如,所述第四文本数据为“打”,转化为文本向量后为[(0,2)、(7,2)、(10,1)]。首先,对[(0,2)、(7,2)、(10,1)]建立索引,根据索引查询该维度所对应的词性为动词,并对文本向量[(0,2)、(7,2)、(10,1)]进行词性标注为动词。
步骤S203、依据所述词性标注建立文本的特征语义网络图,统计文本的词频和文本频率,然后对所述词频和文本频率进行加权计算和特征抽取得到所述标签。
具体地,所述文本特征语义网络图是一种利用文本及其语义关系来表达文本特征信息的有向图,以文本向量中包含的标签作为图的节点,两个文本向量之间的语义关系作为图的有向边,文本向量之间的语义关系结合词频信息作为节点的权重,有向边的权重表示文本向量关系在文本中的重要程度。本发明通过文本特征语义网络图可以对文本向量进行特征抽取得到所述标签。
步骤S204、将所述标签匹配给文本向量得到带有标签的文本向量,其中所述文本向量经过标签匹配处理后得到的标签为空的,则确定为不带有标签的文本向量。
在本发明的一种实施方式中,所述标签匹配指的是,所述文本向量经过上述步骤S201、步骤S202、步骤S203后得到的标签与原本的文本向量是相互匹配的。例如,文本向量[(10,2)、(7,8)、(10,4)]经过上述步骤S201、步骤S202、步骤S203后得到的标签为θ(标签的特征可以根据用户的需求进行选择和定义,此处以字母作为指代示例),那么就将θ匹配给文本向量[(10,2)、(7,8)、(10,4)]。同理可知,假设文本向量[(0,0)、(0,0)、(1,4)]过经过上述步骤S201、步骤S202、步骤S203后得到的标签为空时,确定[(0,0)、(0,0)、(1,4)]为不带有标签的文本向量。
进一步地,将所述标签匹配给文本向量得到带有标签的文本向量,其中所述文本向量经过上述处理后得到的标签为空的,确定为不带有标签的文本向量。
S3、将所述带有标签的文本向量输入BERT模型获得字向量特征。
在本发明实施例中,将所述带有标签的文本向量输入BERT模型获得词向量特征包含以下步骤:
步骤S301、建立所述BERT模型。
本发明中所述BERT模型是Bidirectional Encoder Representations fromTransformers(双向编码翻译器表示模型),由双向Transformer(翻译器)组成的一个特征抽取模型。具体的,例如有一个句子x=x1,x2,......,xn,其中x1,x2等为句子中具体的字。所述BERT模型对句子中的每一个字使用Token Embedding、Segment Embedding、PositionEmbedding三个输入层的输入表示进行相加得到输入表征,并使用Masked Language Model和Next Sentence Prediction作为优化目标,对字的三种输入表示进行优化,其中,MaskedLanguage Model和Next Sentence Prediction是BERT模型中的两种典型的算法类型。
步骤S302、将带有标签的文本向量输入至所述BERT模型,对所述BERT模型进行训练获得字向量特征,包括:
使用位置编码给带有标签的文本向量加上位置信息,并使用初始词向量表示添加所述位置信息的带有标签的文本向量;
获取带有标签的文本向量的词性,将所述词性转换为词性向量;
将所述初始词向量与所述词性向量相加,得到所述带有标签的文本向量的词向量;
将使用所述词向量表示的带有标签的文本向量输入至Transformer模型中进行数据处理,得到所述带有标签的文本向量的词矩阵;
使用所述词矩阵,预测所述带有标签的文本向量中两个语句是否为上下句、两个语句中掩盖词和所述掩盖词的词性特征。通过对所述BERT模型进行训练,能够使得输入到所述BERT模型中的文本向量预测出一个相对应的词性特征,对词性特征做归一化处理得到所述字向量特征。
S4、根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量。
优选地,本发明采用如下步骤根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量:
由于字向量特征是将带有标签的文本向量输入至BERT模型,对所述BERT模型进行训练获得的。因此,字向量特征中包含了标签所必要的特征,根据所述字向量特征,利用利用卷积神经网络模型对所述不带有标签的文本向量进行训练,能够将字向量特征的特征抽象出来,让不带有标签的文本向量匹配到适合的特征,进而对其匹配虚拟标签。例如,在先的步骤中,不带有标签的文本向量为[(0,2)、(0,0)、(0,4)],将其输入到所述卷积神经网络模型中进行训练,带有标签的文本向量[(2,2)、(2,2)、(0,4)]经过BERT模型训练得到的字向量特征为A。由于所述卷积神经网络模型识别到不带有标签的文本向量为[(0,2)、(0,0)、(0,4)]与字向量特征A具有关联性。因此根据字向量特征A,找到带有标签的文本向量[(2,2)、(2,2)、(0,4)],并确认其标签为γ。根据标签γ做归一化处理得到所述虚拟标签。所述虚拟标签匹配给所述不带有标签的文本向量,得到带有虚拟标签的文本向量。
在本发明较佳的实施例中,将所述不带有标签的文本经过所述卷积神经网络模型的卷积层处理训练得到训练后的卷积神经网络模型,采用的训练方法为梯度下降算法。
S5、利用随机森林模型对所述带有标签的文本向量和带有虚拟标签的文本向量进行多标签的分类,得到文本分类结果。
具体地,在本发明的一个实施例中,所述随机森林算法是利用装袋算法的有放回抽样算法,从所述带有标签的文本向量和带有虚拟标签的文本向量中抽取多个样本子集,并使用所述样本子集对多个决策树模型训练,在训练过程中使用借鉴了随机特征子空间方法,在词向量集合中抽取部分词向量特征进行决策树的分裂,最后集成多个决策树成为一个集成分类器,这个集成分类器称为随机森林。其算法流程可分为三部分,子样本集的生成,决策树的构建,投票产生结果,其具体流程如下所示:
步骤S501、子样本集的生成。
随机森林是一种集成分类器,对于每个基分类器需要产生一定的样本子集作为基分类器的输入变量。为了兼顾评估模型,样本集的划分有多种方式,在本发明实施例中,使用的是交叉认证的方式对数据集进行划分,所述交叉认证是把需要进行训练的文本根据字数的不同,分成k(k为任意大于零的自然数)个子数据集,在每次训练时,使用其中一个子数据集进行作为测试集,其余子数据集作为训练集,并进行k次轮换步骤。
步骤S502、决策树的构建。
在随机森林中,每个基分类器都是一棵独立的决策树。在决策树的构建过程利用分裂规则试图寻找一个最优的特征对样本进行划分,来提高最终分类的准确性。随机森林的决策树与普通的决策树构建方式基本一致,不同的是随机森林的决策树在进行分裂时选择的特征并不是对整个特征全集进行搜索,而是随机选取k(k为任意大于零的自然数)个特征进行划分。在本发明实施例中,以每个文本向量作为决策树的根,将上述利用卷积神经网络得到的文本向量标签的特征作为决策树的子节点,其下节点为各自再次提取到的特征,据此对每个决策树进行训练。
其中,分裂规则指的是决策树在分裂时涉及到的具体规则。如,选择哪个特征和分裂的条件是什么,同时还要知道何时终止分裂。由于决策树的生成相对比较武断,需要利用分裂规则对其进行调整,才能让它看起来更好。
步骤S503、投票产生结果。随机森林的分类结果是各个基分类器,即决策树,进行投票得出。随机森林对基分类器一视同仁,每个决策树得出一个分类结果,汇集所有决策树的投票结果进行累加求和,票数最高的结果为最终结果。据此,根据每个决策树(需要进行标签分类的文本向量)其每个子节点(标签)的得分情况,若该标签得分超过本发明所设置阈值t,则认为该标签可对该文本向量进行解释,从而获得该文本向量的所有标签。其中阈值t的确认方式为:累加该决策树所有分类器的投票结果*0.3。
进一步地,对所述带有标签的文本向量和带有虚拟标签的文本向量通过随机森林算法得到的投票结果进行权重排序,以权重值最大的投票结果作为类别关键词,利用所述类别关键词之间的语义关系,形成分类结果,即所述文本向量的文本分类结果。
发明还提供一种文本分类装置。参照图2所示,为本发明一实施例提供的文本分类装置的内部结构示意图。
在本实施例中,所述文本分类装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该文文本分类装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是文本分类装置1的内部存储单元,例如该文本分类装置1的硬盘。存储器11在另一些实施例中也可以是文本分类装置1的外部存储设备,例如文本分类装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括文本分类装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于文本分类装置1的应用软件及各类数据,例如文本分类程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文本分类程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在文本分类装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及文本分类程序01的文本分类装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对文本分类装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有文本分类程序01;处理器12执行存储器11中存储的文本分类程序01时实现如下步骤:
步骤一、接受用户输入的原始文本数据,对所述原始文本数据进行预处理得到文本向量。
较佳地,所述预处理包括对所述原始文本数据进行分词、去停用词、去重、词向量形式转化。
具体地,本发明较佳实施例对所述原始文本数据进行分词操作得到第二文本数据。其中,所述分词是对所述原始文本数据中的每句话进行切分得到单个的词语。
示例的,本发明实施例以用户输入的所述原始文本数据为“北大学生去清华打羽毛球”为例,采用基于统计的分词方法,对所述原始文本数据进行分词操作得到第二文本数据的过程进行说明。
示例的,假设从所述原始文本数据的句首开始“北大学生去清华打羽毛球”中的字符串可能分成的词语的组合为“北大”、“大学生”、“北大学生”、“清华”、“去”、“羽毛球”、“打羽毛球”、“去清华”等。由于在所有的语料中,“北大”出现的频率大于“北大学生”、“大学生”,所以基于统计的分词方法会优先将“北大”作为一个分词结果。之后,由于“打”和“去”无法组词,则将“打”作为一个分词结果、“去”作为一个分词结果。“北大”和“学生”搭配出现的概率大于“北大学”出现的概率,则将“学生”作为一个分词结果、“北大”作为一个分词结果,以及“清华”作为一个分词结果。由于“羽毛球”搭配的出现的概率大于“羽毛”和/或“球”出现的概率,将“羽毛球”作为一个分词结果;最终,基于统计的分词方法,获取的所述原始文本数据“北大学生去清华打羽毛球”的第二分词结果为:“北大”、“学生”、“去”、“清华”、“打”、“羽毛球”。
较佳地,在本发明一种可能的实施方式进一步对所述第二文本数据进行去停用词操作得到第三文本数据。其中,所述去停用词是去除所述原始文本数据中没有实际意义的且对文本的分类没有影响但出现频率高的词。所述停用词一般包括常用的代词、介词等。研究表明,没有实际意义的停用词,会降低文本分类效果,所以,在文本数据预处理过程中非常关键的步骤之一是去停用词。在本发明实施例中,所选取的去停用词的方法为停用词表过滤,所述停用词表过滤是通过已经构建好的停用词表和文本中的词语进行一一匹配,如果匹配成功,那么这个词语就是停用词,需要将该词删除。如:经过分词后的第二文本数据为:在商品经济的环境下,这些企业会根据市场的情况,去制定合格的销售模式,来争取扩大市场的份额,以稳定销售的价格,以及提高产品的竞争能力。因此,需要可行性分析,市场营销模式研究。
对该第二文本数据再进行去停用词得到的第三文本数据为:商品经济环境,企业根据市场情况,制定合格销售模式,争取扩大市场份额,稳定销售价格,提高产品竞争能力。因此,可行性分析,市场营销模式研究。
较佳地,在本发明一种可能的实施方式进一步对所述第三文本数据进行去重操作得到第四文本数据。
具体地,由于所收集的文本数据来源错综复杂,其中可能会存在很多重复的文本数据,大量的重复数据会影响分类精度,因此,在本发明实施例中,在对文本进行分类前首先利用欧式距离方法对文本进行所述去重操作,其公式如下:
式中w1j和w2j分别为2个文本,d为欧式距离。若计算出两个文本的欧式距离越小,说明所述两个文本越相似,则删除欧氏距离小于预设阈值的两个文本数据中的其中一个。
在经过分词、去停用词、去重后,文本由一系列的特征词(关键词)表示,但是这种文本形式的数据不能直接被分类算法所处理,而应该转化为数值形式,因此需要对这些特征词进行权重计算,用来表征该特征词在文本中的重要性。
较佳地,在本发明一种可能的实施方式进一步对所述第四文本数据进行词向量形式转化得到所述文本向量。例如,所述第四文本数据为:我和你。经过词向量转化将文字转化为向量形式得到文本向量[(1,2),(0,2),(3,1)]。
较佳地,所述词向量形式转化是将所述原始文本数据经过分词、去停用词、去重后得到的所述第四文本数据中的任意一个词用一个N维的矩阵向量表示,其中,N是所述第四文本数据中总共包含词的个数,在本案中,使用以下公式对词进行初始向量化:
其中,i表示词的编号,vi表示词i的N维矩阵向量,假设共有s个词,vj是所述N维矩阵向量的第j个元素。
步骤二、对所述文本向量进行标签匹配,得到带有标签的文本向量和不带有标签的文本向量。
较佳地,对所述文本向量进行标签匹配,得到带有标签的文本向量和不带有标签的文本向量包含以下步骤:步骤S201、对所述文本向量建立索引。例如,文本向量[(1,2)、(0,2)、(3,1)]包含了三个维度的数据(1,2)、(0,2)和(3,1)。此刻根据该三个维度,分别在各个维度上建立索引,作为所述文本向量在该维度上的标记。
步骤S202、根据所述索引,对所述文本向量进行查询并进行词性标注。例如,根据,索引能够推断出文本向量在某个维度的特性,同维度的特性对应的即为相同的词性。比如,“狗“和”刀”的词性都是名词,那么它们在某一维度(假设x维度)的索引是一致的,都指向名词性。相应的,根据索引就可以查询到某个特定的文本向量的词性,并对该文本向量进行词性的标注。如,所述第四文本数据为“打”,转化为文本向量后为[(0,2)、(7,2)、(10,1)]。首先,对[(0,2)、(7,2)、(10,1)]建立索引,根据索引查询该维度所对应的词性为动词,并对文本向量[(0,2)、(7,2)、(10,1)]进行词性标注为动词。步骤S203、依据所述词性标注建立文本的特征语义网络图,统计文本的词频和文本频率,然后对所述词频和文本频率进行加权计算和特征抽取得到所述标签。
具体地,所述文本特征语义网络图是一种利用文本及其语义关系来表达文本特征信息的有向图,以文本向量中包含的标签作为图的节点,两个文本向量之间的语义关系作为图的有向边,文本向量之间的语义关系结合词频信息作为节点的权重,有向边的权重表示文本向量关系在文本中的重要程度。本发明通过文本特征语义网络图可以对文本向量进行特征抽取得到所述标签。
步骤S204、将所述标签匹配给文本向量得到带有标签的文本向量,其中所述文本向量经过标签匹配处理后得到的标签为空的,则确定为不带有标签的文本向量。
在本发明的一种实施方式中,所述标签匹配指的是,所述文本向量经过上述步骤S201、步骤S202、步骤S203后得到的标签与原本的文本向量是相互匹配的。例如,文本向量[(10,2)、(7,8)、(10,4)]经过上述步骤S201、步骤S202、步骤S203后得到的标签为θ(标签的特征可以根据用户的需求进行选择和定义,此处以字母作为指代示例),那么就将θ匹配给文本向量[(10,2)、(7,8)、(10,4)]。同理可知,假设文本向量[(0,0)、(0,0)、(1,4)]过经过上述步骤S201、步骤S202、步骤S203后得到的标签为空时,确定[(0,0)、(0,0)、(1,4)]为不带有标签的文本向量。
进一步地,将所述标签匹配给文本向量得到带有标签的文本向量,其中所述文本向量经过上述处理后得到的标签为空的,确定为不带有标签的文本向量。
步骤三、将所述带有标签的文本向量输入BERT模型获得字向量特征。
在本发明实施例中,将所述带有标签的文本向量输入BERT模型获得词向量特征包含以下步骤:
步骤S301、建立所述BERT模型。
本发明中BERT模型是Bidirectional Encoder Representations fromTransformers(双向编码翻译器表示模型),由双向Transformer(翻译器)组成的一个特征抽取模型。具体的,例如有一个句子x=x1,x2,......,xn,其中x1,x2等为句子中具体的字。所述BERT模型对句子中的每一个字使用Token Embedding、Segment Embedding、PositionEmbedding三个输入层的输入表示进行相加得到输入表征,并使用Masked Language Model和Next Sentence Prediction作为优化目标,对字的三种输入表示进行优化,其中,MaskedLanguage Model和Next Sentence Prediction是BERT模型中的两种典型的算法类型。
步骤S302、将带有标签的文本向量输入至BERT模型,对所述BERT模型进行训练获得字向量特征,包括:
使用位置编码给带有标签的文本向量加上位置信息,并使用初始词向量表示添加所述位置信息的带有标签的文本向量;
获取带有标签的文本向量的词性,将所述词性转换为词性向量;
将所述初始词向量与所述词性向量相加,得到所述带有标签的文本向量的词向量;
将使用所述词向量表示的带有标签的文本向量输入至Transformer模型中进行数据处理,得到所述带有标签的文本向量的词矩阵;
使用所述词矩阵,预测所述带有标签的文本向量中两个语句是否为上下句、两个语句中掩盖词和所述掩盖词的词性特征。通过对所述BERT模型进行训练,能够使得输入到所述BERT模型中的文本向量预测出一个相对应的词性特征,对词性特征做归一化处理得到所述字向量特征。
步骤四、根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量。
优选地,本发明采用如下步骤根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量:
由于字向量特征是将带有标签的文本向量输入至BERT模型,对所述BERT模型进行训练获得的。因此,字向量特征中包含了标签所必要的特征,根据所述字向量特征,利用利用卷积神经网络模型对所述不带有标签的文本向量进行训练,能够将字向量特征的特征抽象出来,让不带有标签的文本向量匹配到适合的特征,进而对其匹配虚拟标签。例如,在先的步骤中,不带有标签的文本向量为[(0,2)、(0,0)、(0,4)]。将其输入到所述卷积神经网络模型中进行训练,带有标签的文本向量[(2,2)、(2,2)、(0,4)]经过BERT模型训练得到的字向量特征为A。由于所述卷积神经网络模型识别到不带有标签的文本向量为[(0,2)、(0,0)、(0,4)]与字向量特征A具有关联性。因此根据字向量特征A,找到带有标签的文本向量[(2,2)、(2,2)、(0,4)],并确认其标签为γ。根据标签γ做归一化处理得到所述虚拟标签。所述虚拟标签匹配给所述不带有标签的文本向量,得到带有虚拟标签的文本向量。
在本发明较佳的实施例中,将所述不带有标签的文本经过所述卷积神经网络模型的卷积层处理训练得到训练后的卷积神经网络模型,采用的训练方法为梯度下降算法。
步骤五、利用随机森林模型对所述带有标签的文本向量和带有虚拟标签的文本向量进行多标签的分类,得到文本分类结果。
具体地,在本发明的一个实施例中,所述随机森林算法是利用装袋算法的有放回抽样算法,从所述带有标签的文本向量和带有虚拟标签的文本向量中抽取多个样本子集,并使用所述样本子集对多个决策树模型训练,在训练过程中使用借鉴了随机特征子空间方法,在词向量集合中抽取部分词向量特征进行决策树的分裂,最后集成多个决策树成为一个集成分类器,这个集成分类器称为随机森林。其算法流程可分为三部分,子样本集的生成,决策树的构建,投票产生结果,其具体流程如下所示:
步骤S501、子样本集的生成。
随机森林是一种集成分类器,对于每个基分类器需要产生一定的样本子集作为基分类器的输入变量。为了兼顾评估模型,样本集的划分有多种方式,在本发明实施例中,使用的是交叉认证的方式对数据集进行划分,所述交叉认证是把需要进行训练的文本根据字数的不同,分成k(k为任意大于零的自然数)个子数据集,在每次训练时,使用其中一个子数据集进行作为测试集,其余子数据集作为训练集,并进行k次轮换步骤。
步骤S502、决策树的构建。
在随机森林中,每个基分类器都是一棵独立的决策树。在决策树的构建过程利用分裂规则试图寻找一个最优的特征对样本进行划分,来提高最终分类的准确性。随机森林的决策树与普通的决策树构建方式基本一致,不同的是随机森林的决策树在进行分裂时选择的特征并不是对整个特征全集进行搜索,而是随机选取k(k为任意大于零的自然数)个特征进行划分。在本发明实施例中,以每个文本向量作为决策树的根,将上述利用卷积神经网络得到的文本向量标签的特征作为决策树的子节点,其下节点为各自再次提取到的特征,据此对每个决策树进行训练。
其中,分裂规则指的是决策树在分裂时涉及到的具体规则。如,选择哪个特征和分裂的条件是什么,同时还要知道何时终止分裂。由于决策树的生成相对比较武断,需要利用分裂规则对其进行调整,才能让它看起来更好。
步骤S503、投票产生结果。随机森林的分类结果是各个基分类器,即决策树,进行投票得出。随机森林对基分类器一视同仁,每个决策树得出一个分类结果,汇集所有决策树的投票结果进行累加求和,票数最高的结果为最终结果。据此,根据每个决策树(需要进行标签分类的文本向量)其每个子节点(标签)的得分情况,若该标签得分超过本发明所设置阈值t,则认为该标签可对该文本向量进行解释,从而获得该文本向量的所有标签。其中阈值t的确认方式为:累加该决策树所有分类器的投票结果*0.3。
进一步地,对所述带有标签的文本向量和带有虚拟标签的文本向量通过随机森林算法得到的投票结果进行权重排序,以权重值最大的投票结果作为类别关键词,利用所述类别关键词之间的语义关系,形成分类结果,即所述文本向量的文本分类结果。
可选地,在其他实施例中,文本分类程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述文本分类程序在文本分类装置中的执行过程。
例如,参照图3所示,为本发明文本分类装置一实施例中的文本分类程序的程序模块示意图,该实施例中,所述文本分类程序可以被分割为数据接收及处理模块10、词向量转化模块20、模型训练模块30、文本分类输出模块40。示例性地:
所述数据接收及处理模块10用于:接收原始文本数据,并对所述原始文本数据进行包括切词、去停用词的预处理得到第四文本数据。
所述词向量转化模块20用于:将所述第四文本数据进行词向量化得到文本向量。
所述模型训练模块30用于:将文本向量输入至预先构建的卷积神经网络模型模型中训练并得到训练值,若所述训练值小于预设阈值时,所述卷积神经网络模型模型退出训练。
所述文本分类输出模块40用于:接收用户输入的文本,进所述文本进行上述预处理、词向量化后输入至所述文本分类并输出。
上述数据接收及处理模块10、词向量转化模块20、模型训练模块30、文本分类输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序可被一个或多个处理器执行,以实现如下操作:
接收原始文本数据,并对所述原始文本数据进行包括切词、去停用词的预处理得到第四文本数据。
将所述第四文本数据进行词向量化后得到文本向量。
将所述文本向量输入至预先构建的文本分类模型中训练并得到训练值,若所述训练值小于预设阈值时,所述卷积神经网络模型模型退出训练。
接收用户输入的原始文本数据,对原始文本数据进行上述预处理、词向量化及词向量编码后输入至所述卷积神经网络模型生成文本分类结果并输出。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种文本分类方法,其特征在于,包括:
对原始文本数据进行预处理得到文本向量;
对所述文本向量进行标签匹配,得到带有标签的文本向量和不带有标签的文本向量;
将所述带有标签的文本向量输入BERT模型获得字向量特征;
根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量;
利用随机森林模型对所述带有标签的文本向量和带有虚拟标签的文本向量进行多标签的分类,得到文本分类结果;
其中,所述将所述带有标签的文本向量输入BERT模型获得字向量特征,包括:使用位置编码给带有标签的文本向量加上位置信息,并使用初始词向量表示添加所述位置信息的带有标签的文本向量;获取带有标签的文本向量的词性,将所述词性转换为词性向量;将所述初始词向量与所述词性向量相加,得到所述带有标签的文本向量的词向量;将使用所述词向量表示的带有标签的文本向量输入至Transformer模型中进行数据处理,得到所述带有标签的文本向量的词矩阵;使用所述词矩阵,预测所述带有标签的文本向量中两个语句是否为上下句、两个语句中掩盖词和所述掩盖词的词性特征;对词性特征做归一化处理得到所述字向量特征;
所述根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量包括:将所述不带有标签的文本向量输入所述卷积神经网络模型的卷积层对所述卷积神经网络模型进行训练,得到训练后的卷积神经网络模型;将所述字向量特征输入所述训练后的卷积神经网络模型,得到特征向量;将所述特征向量进行归一化处理得到所述虚拟标签;将所述虚拟标签匹配给所述不带有标签的文本向量,得到带有虚拟标签的文本向量。
2.如权利要求1所述的文本分类方法,其特征在于,所述对原始文本数据进行预处理得到文本向量包括:
对所述原始文本数据进行分词操作得到第二文本数据;
对所述第二文本数据进行去停用词操作得到第三文本数据;
对所述第三文本数据进行去重操作得到第四文本数据;
对所述第四文本数据进行词向量形式转化得到所述文本向量。
3.如权利要求1所述的文本分类方法,其特征在于,所述BERT模型包括输入层、词向量层、分类层、编码层。
4.如权利要求1所述的文本分类方法,其特征在于,所述得到带有虚拟标签的文本向量之后,还包括:生成所述随机森林模型;
所述生成所述随机森林模型包括:
利用袋装算法的有放回抽样,从所述带有标签的文本向量和带有虚拟标签的文本向量中抽取多个样本子集,并使用所述样本子集训练决策树模型;
采用所述决策树模型作为基分类器,利用预先设定的分裂规则对所述样本子集进行划分,生成由多棵所述决策树模型组成的随机森林模型。
5.一种文本分类装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如下步骤:
对原始文本数据进行预处理得到文本向量;
对所述文本向量进行标签匹配,得到带有标签的文本向量和不带有标签的文本向量;
将所述带有标签的文本向量输入BERT模型获得字向量特征;
根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量;
利用随机森林模型对所述带有标签的文本向量和带有虚拟标签的文本向量进行多标签的分类,得到文本分类结果;
其中,所述将所述带有标签的文本向量输入BERT模型获得字向量特征,包括:使用位置编码给带有标签的文本向量加上位置信息,并使用初始词向量表示添加所述位置信息的带有标签的文本向量;获取带有标签的文本向量的词性,将所述词性转换为词性向量;将所述初始词向量与所述词性向量相加,得到所述带有标签的文本向量的词向量;将使用所述词向量表示的带有标签的文本向量输入至Transformer模型中进行数据处理,得到所述带有标签的文本向量的词矩阵;使用所述词矩阵,预测所述带有标签的文本向量中两个语句是否为上下句、两个语句中掩盖词和所述掩盖词的词性特征;对词性特征做归一化处理得到所述字向量特征;
所述根据所述字向量特征,利用卷积神经网络模型对所述不带有标签的文本向量进行训练,得到带有虚拟标签的文本向量包括:将所述不带有标签的文本向量输入所述卷积神经网络模型的卷积层对所述卷积神经网络模型进行训练,得到训练后的卷积神经网络模型;将所述字向量特征输入所述训练后的卷积神经网络模型,得到特征向量;将所述特征向量进行归一化处理得到所述虚拟标签;将所述虚拟标签匹配给所述不带有标签的文本向量,得到带有虚拟标签的文本向量。
6.如权利要求5所述的文本分类装置,其特征在于,所述对原始文本数据进行预处理得到文本向量包括:
对所述原始文本数据进行分词操作得到第二文本数据;对所述第二文本数据进行去停用词操作得到第三文本数据;对所述第三文本数据进行去重操作得到第四文本数据;
对所述第四文本数据进行词向量形式转化得到所述文本向量。
7.如权利要求5所述的文本分类装置,其特征在于,所述BERT模型包括输入层、词向量层、分类层、编码层。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序可被一个或者多个处理器执行,以实现如权利要求1至4中任一项所述的文本分类方法的步骤。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910967010.5A CN110851596B (zh) | 2019-10-11 | 2019-10-11 | 文本分类方法、装置及计算机可读存储介质 |
JP2021569247A JP7302022B2 (ja) | 2019-10-11 | 2019-11-13 | テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。 |
SG11202112456YA SG11202112456YA (en) | 2019-10-11 | 2019-11-13 | Text classification method, apparatus and computer-readable storage medium |
US17/613,483 US20230195773A1 (en) | 2019-10-11 | 2019-11-13 | Text classification method, apparatus and computer-readable storage medium |
PCT/CN2019/118010 WO2021068339A1 (zh) | 2019-10-11 | 2019-11-13 | 文本分类方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910967010.5A CN110851596B (zh) | 2019-10-11 | 2019-10-11 | 文本分类方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851596A CN110851596A (zh) | 2020-02-28 |
CN110851596B true CN110851596B (zh) | 2023-06-27 |
Family
ID=69597311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910967010.5A Active CN110851596B (zh) | 2019-10-11 | 2019-10-11 | 文本分类方法、装置及计算机可读存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230195773A1 (zh) |
JP (1) | JP7302022B2 (zh) |
CN (1) | CN110851596B (zh) |
SG (1) | SG11202112456YA (zh) |
WO (1) | WO2021068339A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506696A (zh) * | 2020-03-03 | 2020-08-07 | 平安科技(深圳)有限公司 | 基于少量训练样本的信息抽取方法及装置 |
CN111159415B (zh) * | 2020-04-02 | 2020-07-14 | 成都数联铭品科技有限公司 | 序列标注方法及系统、事件要素抽取方法及系统 |
CN111460162B (zh) * | 2020-04-11 | 2021-11-02 | 科技日报社 | 一种文本分类方法、装置、终端设备及计算机可读存储介质 |
CN111651605B (zh) * | 2020-06-04 | 2022-07-05 | 电子科技大学 | 基于多标签分类的肺癌前沿趋势预测方法 |
CN113342970B (zh) * | 2020-11-24 | 2023-01-03 | 中电万维信息技术有限责任公司 | 一种多标签复杂文本分类方法 |
CN112541055A (zh) * | 2020-12-17 | 2021-03-23 | 中国银联股份有限公司 | 一种确定文本标签的方法及装置 |
CN112632971B (zh) * | 2020-12-18 | 2023-08-25 | 上海明略人工智能(集团)有限公司 | 一种用于实体匹配的词向量训练方法与系统 |
CN113076426B (zh) * | 2021-06-07 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 多标签文本分类及模型训练方法、装置、设备及存储介质 |
CN113342940B (zh) * | 2021-06-24 | 2023-12-08 | 中国平安人寿保险股份有限公司 | 文本匹配分析方法、装置、电子设备及存储介质 |
CN113344125B (zh) * | 2021-06-29 | 2024-04-05 | 中国平安人寿保险股份有限公司 | 长文本匹配识别方法、装置、电子设备及存储介质 |
CN113239689B (zh) * | 2021-07-07 | 2021-10-08 | 北京语言大学 | 面向易混淆词考察的选择题干扰项自动生成方法及装置 |
CN113553848B (zh) * | 2021-07-19 | 2024-02-02 | 北京奇艺世纪科技有限公司 | 长文本分类方法、系统、电子设备、计算机可读存储介质 |
CN113656587B (zh) * | 2021-08-25 | 2023-08-04 | 北京百度网讯科技有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN113610194B (zh) * | 2021-09-09 | 2023-08-11 | 重庆数字城市科技有限公司 | 一种数字档案自动分类方法 |
CN113849655B (zh) * | 2021-12-02 | 2022-02-18 | 江西师范大学 | 一种专利文本多标签分类方法 |
CN114091472B (zh) * | 2022-01-20 | 2022-06-10 | 北京零点远景网络科技有限公司 | 多标签分类模型的训练方法 |
CN114548100A (zh) * | 2022-03-01 | 2022-05-27 | 深圳市医未医疗科技有限公司 | 一种基于大数据技术的临床科研辅助方法与系统 |
CN114817538B (zh) * | 2022-04-26 | 2023-08-08 | 马上消费金融股份有限公司 | 文本分类模型的训练方法、文本分类方法及相关设备 |
CN116932767B (zh) * | 2023-09-18 | 2023-12-12 | 江西农业大学 | 基于知识图谱的文本分类方法、系统、存储介质及计算机 |
CN116992035B (zh) * | 2023-09-27 | 2023-12-08 | 湖南正宇软件技术开发有限公司 | 一种提案智能分类的方法、装置、计算机设备和介质 |
CN117875262A (zh) * | 2024-03-12 | 2024-04-12 | 青岛天一红旗软控科技有限公司 | 基于管理平台的数据处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN109471946A (zh) * | 2018-11-16 | 2019-03-15 | 中国科学技术大学 | 一种中文文本的分类方法及系统 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN110309302A (zh) * | 2019-05-17 | 2019-10-08 | 江苏大学 | 一种结合svm和半监督聚类的不平衡文本分类方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117411B (zh) * | 2009-12-30 | 2015-03-11 | 日电(中国)有限公司 | 用于构建多级别分类模型的方法和系统 |
US20160253597A1 (en) * | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
US11086918B2 (en) * | 2016-12-07 | 2021-08-10 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for multi-label classification |
CN107656990A (zh) * | 2017-09-14 | 2018-02-02 | 中山大学 | 一种基于字和词两个层面特征信息的文本分类方法 |
JP7024515B2 (ja) * | 2018-03-09 | 2022-02-24 | 富士通株式会社 | 学習プログラム、学習方法および学習装置 |
CN108829810A (zh) * | 2018-06-08 | 2018-11-16 | 东莞迪赛软件技术有限公司 | 面向健康舆情的文本分类方法 |
CN109918500A (zh) * | 2019-01-17 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
-
2019
- 2019-10-11 CN CN201910967010.5A patent/CN110851596B/zh active Active
- 2019-11-13 US US17/613,483 patent/US20230195773A1/en active Pending
- 2019-11-13 JP JP2021569247A patent/JP7302022B2/ja active Active
- 2019-11-13 WO PCT/CN2019/118010 patent/WO2021068339A1/zh active Application Filing
- 2019-11-13 SG SG11202112456YA patent/SG11202112456YA/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN109471946A (zh) * | 2018-11-16 | 2019-03-15 | 中国科学技术大学 | 一种中文文本的分类方法及系统 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN110309302A (zh) * | 2019-05-17 | 2019-10-08 | 江苏大学 | 一种结合svm和半监督聚类的不平衡文本分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于 BiLSTM-CRF 的中文生物医学开放式概念关系抽取;王序文 等;《中华医学图书情报杂志》;第27卷卷(第11周期);33-39 * |
Also Published As
Publication number | Publication date |
---|---|
US20230195773A1 (en) | 2023-06-22 |
SG11202112456YA (en) | 2021-12-30 |
CN110851596A (zh) | 2020-02-28 |
JP2022534377A (ja) | 2022-07-29 |
WO2021068339A1 (zh) | 2021-04-15 |
JP7302022B2 (ja) | 2023-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851596B (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN110502621B (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN110222160B (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
US10289952B2 (en) | Semantic frame identification with distributed word representations | |
CN107085581B (zh) | 短文本分类方法和装置 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110781276A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
WO2021051518A1 (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN110688854B (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
CN111914568A (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
CN110442857B (zh) | 情感智能判断方法、装置及计算机可读存储介质 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
EP3483747A1 (en) | Preserving and processing ambiguity in natural language | |
CN111241828A (zh) | 情感智能识别方法、装置及计算机可读存储介质 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN110866098A (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN114492661A (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN114417785A (zh) | 知识点标注方法、模型的训练方法、计算机设备及存储介质 | |
CN113609847A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40018625 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |