CN111090719A - 文本分类方法、装置、计算机设备及存储介质 - Google Patents
文本分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111090719A CN111090719A CN201910963674.4A CN201910963674A CN111090719A CN 111090719 A CN111090719 A CN 111090719A CN 201910963674 A CN201910963674 A CN 201910963674A CN 111090719 A CN111090719 A CN 111090719A
- Authority
- CN
- China
- Prior art keywords
- classification
- text
- word
- category
- specified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000013145 classification model Methods 0.000 claims abstract description 166
- 238000011156 evaluation Methods 0.000 claims abstract description 82
- 238000013528 artificial neural network Methods 0.000 claims abstract description 69
- 230000011218 segmentation Effects 0.000 claims description 113
- 239000013598 vector Substances 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 239000000463 material Substances 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 7
- 230000007547 defect Effects 0.000 description 6
- 238000007619 statistical method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请揭示了文本分类方法、装置、计算机设备及存储介质,文本分类方法包括:获取Bayes分类模型根据第一文本输出的第一分类信息,获取神经网络分类模型根据第一文本输出的第二分类信息;若第一分类信息与第二分类信息不相同,则根据第一文本的数据量,确定Bayes分类模型对应的第一权重,以及神经网络分类模型对应的第二权重;计算Bayes分类模型对第一文本的第一分类评价值,以及神经网络分类模型对第一文本的第二分类评价值;判断第一分类评价值是否大于第二分类评价值;若是,则将第一分类评价值对应的第一类目,作为第一文本对应的分类类目。通过将Bayes分类模型与神经网络分类模型匹配使用,提高对文本分类的精准度,且能够快速调节对新样本的学习能力。
Description
技术领域
本申请涉及到计算机领域,特别是涉及到文本分类方法、装置、计算机设备及存储介质。
背景技术
文本分类是对大量杂乱文档进行类别划分,在文本检索领域具有重要作用。因此,对文本进行分类划分,有助于用户快速选择自己需要的领域内的信息文档。目前,对于样本不均衡的中文多分类任务,如财政领域的政策分类,使用单一分类标准的机器学习方法进行文本分类,无法避免单个分类算法本身的缺陷,难以达到理想的准确分类效果,且数据在不断增长的过程中分类精准度更差,不能满足用户的使用需求。
发明内容
本申请的主要目的为提供文本分类方法,旨在解决现有文本分类基于一种分类方法分类不准确的技术问题。
本申请提出一种文本分类方法,方法包括:
获取Bayes分类模型根据第一文本输出的第一分类信息,获取神经网络分类模型根据所述第一文本输出的第二分类信息;
若所述第一分类信息与所述第二分类信息不相同,则根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重;
计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值;
判断所述第一分类评价值是否大于所述第二分类评价值;
若是,则将所述第一分类评价值对应的所述第一类目,作为所述第一文本对应的分类类目。
优选地,所述获取Bayes分类模型根据第一文本输出的第一分类信息的步骤,包括:
根据公式:获得所述第一文本对应的第一分类信息,其中,P(doc|ci)=x1P(word1|ci)x2P(word2|ci)...xmP(wordm|ci),xi=len(wordi)sim(wordi,wordaj),len(wordi)表示wordi的字符长度,sim(wordi,wordaj)表示wordi,wordaj之间的向量相似度,wordaj表示第a类目下的第j个词。
根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理;
根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率,其中,所述指定类目包含于所有的预设类目中;
根据所述第一分词相对于所述指定类目的归类概率的计算过程,得到所述第一文本相对于所述指定类目的归类概率P(ca)P(doc|ca);
选择归一化值最大的第一类目,作为所述第一文本对应的类目,并将所述所述第一文本对应所述第一类目的归一化值以及所述第一类目作为所述第一分类信息。
优选地,所述根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理的步骤之前,包括:
通过N-Gram计算所述指定文本中所述相邻词组成短语的短语概率;
将所述互信息值与所述短语概率相加,得到所述相邻词构成所述短语的评价分值;
判断所述评价分值是否大于预设阈值;
若是,则判定所述相邻词构成所述短语;
根据所述指定文本中的短语确定过程,获取所述语料库中所有语料文本中的短语;
将所述语料库中所有语料文本中的短语构建成所述短语字典树。
优选地,所述根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率的步骤,包括:
将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值,其中,所述第一分词包含于所述第一文本对应的所有分词中,所述第一关键词包含于所述指定类目对应的标签库中的所有关键词;
根据所述第一字符长度值乘以第三权重得到所述第一分词对应的字符长度相似度,所述第一相似度值乘以第四权重得到所述第一分词对应的词义相似度,其中,所述第三权重和第四权重的加和为1;
根据所述第一分词对应的字符长度相似度以及所述第一分词对应的词义相似度的加和,得到所述第一分词相对于所述第一关键词的相似度;
根据所述第一分词相对于所述第一关键词的相似度的计算过程,获取所述第一分词分别相对于所有关键词的相似度;
将最大相似度作为所述第一分词相对于指定类目的归类概率。
优选地,所述将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值的步骤之前,包括:
在语料库中筛选与各第一指定关键词的余弦距离值,在第一预设阈值内的第二指定关键词,其中,各所述第一指定关键词为所述指定类目预先设定的关键词;
判断所有所述第一指定关键词和所有所述第二指定关键词的总量是否大于预设数量;
若是,则对所述指定类目下的所有关键词进行聚类,形成各聚类中心;
确定与各所述聚类中心的余弦距离值,满足第二预设阈值内的第三指定关键词,其中,所述第三关键词属于所述语料库;
将所述第一指定关键词、第二指定关键词以及所述第三指定关键词,作为所述指定类目对应的标签库。
优选地,所述根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重的步骤,包括:
本申请还提供了一种文本分类装置,装置包括:
获取模块,用于获取Bayes分类模型根据第一文本输出的第一分类信息,获取神经网络分类模型根据所述第一文本输出的第二分类信息;
确定模块,用于若所述第一分类信息与所述第二分类信息不相同,则根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重;
计算模块,用于计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值;
判断模块,用于判断所述第一分类评价值是否大于所述第二分类评价值;
作为模块,用于若是,则将所述第一分类评价值对应的所述第一类目,作为所述第一文本对应的分类类目。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过将Bayes分类模型与神经网络分类模型匹配使用,有效避免各分类模型的分类缺陷,提高对文本分类的精准度,且能够快速调节对新样本的学习能力。且Bayes分类模型与神经网络分类模型的分类权重依据文本数据数量参量进行平衡,使得分类权重的选用,依据文本中的数据量的大小实现动态调整,使最终确定的分类评价值更具有参考价值,分类更精准。上述Bayes分类模型,基于类目标签库以及第一文本中的词语类目标签库中的关键词相似度实现分类判断,使得所分析的关键词均与分类类目相关,相比于传统的tf-idf统计方法,提高了计算有效性以及计算精度,且通过引入词的相似度,增强Bayes分类模型基于词粒度泛化能力不足问题。在对文本进行分词处理时,引入了短语分词,增加短语分词的目的是增加领域专业短语在分类类目下的重要性,相比于传统的直接分词法,提高专业领域分词的精准度。
附图说明
图1本申请一实施例的文本分类方法流程示意图;
图2本申请一实施例的文本分类装置结构示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的文本分类方法,方法包括:
S1:获取Bayes分类模型根据第一文本输出的第一分类信息,获取神经网络分类模型根据所述第一文本输出的第二分类信息,其中,所述第一分类信息中至少包括所述第一文本对应分类的第一类目,以及所述第一文本在所述第一类目下的第一得分,所述第二分类信息中至少包括所述第一文本对应分类的第二类目,以及所述第一文本在所述第二类目下的第二得分;
S2:若所述第一分类信息与所述第二分类信息不相同,则根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重;
S3:计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值;
S4:判断所述第一分类评价值是否大于所述第二分类评价值;
S5:若是,则将所述第一分类评价值对应的所述第一类目,作为所述第一文本对应的分类类目。
本实施例中,Bayes分类模型与神经网络分类模型的分类效果的本质在于对样本数据量的依赖问题,Bayes分类模型的分类依据是基于构建的分类标签库建立分类模型,构建的分类标签库是基于小数量样本统计得到,所以小样本时分类准确。而神经网络分类模型是定义好网络结构基于样本语料自动训练得到分类特征,在一定量级上标注的学习样本越多模型学的分类特征越准确。在样本较少的时候采用bayes,提取分类语料库,能够实现高分类精度,但泛化能力较差。神经网络模型恰恰相反,在样本数据量很大的时候,神经网络能够基于样本进行学习,能够很好的学习到分类特征。本实施例的Bayes分类模型与神经网络分类模型的分类权重依据文本数据的数量参数级别根据sigmoid函数进行平衡,使得分类权重的选用,依据文本中的数据量的大小实现动态调整,使最终确定的分类评价值更具有参考价值,分类更精准。在数据量较小时,使用基于统计的Bayes分类模型对召回数据会有较高的分类准确率,但模型的召回率相对较低,会存在一部分示例分类到其他;当数据量达到一定规模时,采用基于神经网络分类模型有更好的召回能力,且能保证分类准确率。本实施例基于开源网络信息、中国财政政策报告、国家行业标准结合专家知识构建政策手段、政策内容、政策行业三个层级下的分类类目,根据上述文本分类方法实现各层次分别对应的分类类目的归类。Bayes分类模型依据现有的分类标签对输入的语料进行分类,输出对输入的语料对应各类目的分类,得分最高的类目,确定为在Bayes分类模型下对输入的语料的分类。神经网络分类模型依据学习得到的分类特征对输入的语料进行分类,得分最高的分类特征所属的类目,确定为神经网络分类模型下对输入的语料的分类。但两种分类模型下对同一个输入的语料对应分类的类目可能相同,也可能不同,若相同则直接确定输入的语料属于该类目;若不同,则根据两个模型对输入的语料分类时的各类目的最高得分,乘以当前输入的语料所属的文本中语料数量级别对应的权重,确定输入的语料最终所属的类目。上述计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值,具体为根据第一得分乘以第一权重得到Bayes分类模型对第一文本的第一分类评价值,根据第二得分乘以第二权重得到神经网络分类模型对第一文本的第二分类评价值。比如:对同一个输入,Bayes分类模型得到的第一分类信息的得分为0.38,神经网络分类模型得到的第二分类信息的得分为0.56,Bayes分类模型的可靠性经验权重为wb,神经网络分类模型的可靠性经验权重为wn,比较0.38*wb与0.56*wn的大小,选择值更大的类目作为分类结果,权重wb和wn基于数据量的大小动态确定。上述得分是各模型对输入语料的评价,权重是我们对两种模型的评价,最终的评价得分为综合评价。本实施例中,在数据预处理的基础上,通过将Bayes分类模型与神经网络分类模型匹配使用,有效避免各分类模型的分类缺陷,提高对文本分类的精准度,且能够快速调节对新样本的学习能力。
本申请另一实施例中,当所述第一分类信息与所述第二分类信息相同时,则直接将共同的分类作为第一文本所对应的分类,通过同时对第一文本通过不同分类方式进行分类,实现相互印证,提高分类精准性的可信度。
进一步地,所述获取Bayes分类模型根据第一文本输出的第一分类信息的步骤S1,包括:
S11:根据公式:获得所述第一文本对应的第一分类信息,其中P(doc|ci)=x1P(word1|ci)x2P(word2|ci)...xmP(wordm|ci),xi=len(wordi)sim(wordi,wordaj),len(wordi)表示wordi的字符长度,sim(wordi,wordaj)表示wordi,wordaj之间的向量相似度,wordaj表示第a类目下的第j个词。
本实施例中的Bayes分类模型,基于类目标签库以及第一文本中的词语类目标签库中的关键词相似度实现分类判断,使得所分析的关键词均与分类类目相关,相比于传统的tf-idf统计方法,提高了计算有效性以及计算精度,且通过引入词的相似度,增强Bayes分类模型基于词粒度泛化能力不足问题。本实施例在建立类目标签库时,会对语料进行预处理,比如清洗掉语料中与分类类目无关的超高频词和超低频词,比如“的”、“什么”、“关于”、“通知”等;另外通过对每个词进行词性打分,以筛选出与分类类目密切相关的名词、动词或动名词。本实施例的分类过程中兼顾词的字符长度和词的向量距离,使得对文本所属的分类类目的归类更精准。
S111:根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理;
S112:根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率,其中,所述指定类目包含于所有的预设类目中;
S113:根据所述第一分词相对于所述指定类目的归类概率的计算过程,得到所述第一文本相对于所述指定类目的归类概率P(ca)P(doc|ca);
S115:选择归一化值最大的第一类目,作为所述第一文本对应的类目,并将所述所述第一文本对应所述第一类目的归一化值以及所述第一类目作为所述第一分类信息。
本实施例在对文本进行分词处理时,引入了短语分词,增加短语分词的目的是增加领域专业短语在分类类目下的重要性,相比于传统的直接分词法,提高专业领域分词的精准度。比如,在税务领域,“个人所得税”为一个短语,而通过常规分词法分词会分成两个分词“个人”和“所得税”,但“个人所得税”所对应的分类类目,会跟当前领域的分类需求更贴切,也更贴近于当前领域的需求。本实施例通过对在对第一文本进行分词处理时,优先访问预构建的短语字典树,若第一文本中存在与短语字典树中的短语时,优先摘取短语作为一分词,只有当第一文本中不存在与短语字典树中的短语时,通过预设分词器对第一文本进行分词,预设分词器不具有专业领域的区分。然后将第一文本对应的分词与指定类目对应的标签库中的关键词一一进行分析计算,得到分词与各关键词的相似度评分,然后汇总得到第一文本与指定类目的相似度评分,最终根据第一文本与指定类目的相似度评分,得到第一文本是否归类于指定类目。本实施例中各所述预设类目的先验概率以及条件概率的乘积对于同一文本而言为定值常量,通过归一化处理使各分类模型的输出均为映射到0至1之间的实数,且对于预设的各分类类目的总和为1,归一化值最大时对应的额分类类目,即为第一文本对应的分类类目,以方便根据各分类模型的输出直观分析归类信息。
进一步地,所述根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理的步骤S111之前,包括:
S110a:通过依次计算指定文本中相邻词的互信息值,其中x,y为指定文本中相邻两个词,P(X,Y)表示组和出现的概率,P(X)和P(Y)分别表示两个词单独出现的概率,所述指定文本包含于语料库中所有语料文本中;
S110b:通过N-Gram计算所述指定文本中所述相邻词组成短语的短语概率;
S110c:将所述互信息值与所述短语概率相加,得到所述相邻词构成所述短语的评价分值;
S110d:判断所述评价分值是否大于预设阈值;
S110e:若是,则判定所述相邻词构成所述短语;
S110f:根据所述指定文本中的短语确定过程,获取所述语料库中所有语料文本中的短语;
S110g:将所述语料库中所有语料文本中的短语构建成所述短语字典树。
本实施例通过互信息和N-Gram共同提取语料库中的短语,通过互信息统计的方法计算两个相邻词的关联度,即是否可组成短语,并结合N-Gram获得语料库中两个相邻词以短语一起出现的频次,共同判断语料中相邻词组成短语的可能性,比如相邻词构成所述短语的评价分值大于0.6时,则判定相邻词可组合为短语,并将该短语提取出来,映射为本领域的短语字典树。本实施例通过将自定义的短语字典树加入到预设分词器中,并设定自定义的短语字典树的优先级大于预设分词器,以增加领域专业短语在分类下的重要性。
进一步地,所述根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率的步骤S112,包括:
S112a:将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值,其中所述第一分词包含于所述第一文本对应的所有分词中,所述第一关键词包含于所述指定类目对应的标签库中的所有关键词;
S112b:根据所述第一字符长度值乘以第三权重得到所述第一分词对应的字符长度相似度,所述第一相似度值乘以第四权重得到所述第一分词对应的词义相似度,其中所述第三权重和第四权重的加和为1;
S112c:根据所述第一分词对应的字符长度相似度以及所述第一分词对应的词义相似度的加和,得到所述第一分词相对于所述第一关键词的相似度;
S112d:根据所述第一分词相对于所述第一关键词的相似度的计算过程,获取所述第一分词分别相对于所有关键词的相似度;
S112e:将最大相似度作为所述第一分词相对于指定类目的归类概率。
本实施例在考虑第一文本是否可归类于指定类目时,同时以字符长度和词义两个参量作为评价因素,引入字符长度作为词所在分类类目的权重,目的是加强短语对分类的贡献力量。但字符长度和词义两个参量所占的参考权重不同,比如“个税”与“个人所得税”是同一个意思,字符长度不同,但词向量几乎相同,所以,本实施例以词向量为主,字符长度为辅,比如词向量对应的第四权重占比为0.6至0.9,字符长度对应的第三权重占比为0.1至0.4。
进一步地,所述将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值的步骤S112a之前,包括:
S1121:在语料库中筛选与各第一指定关键词的余弦距离值,在第一预设阈值内的第二指定关键词,其中,各所述第一指定关键词为所述指定类目预先设定的关键词;
S1122:判断所有所述第一指定关键词和所有所述第二指定关键词的总量是否大于预设数量;
S1123:若是,则对所述指定类目下的所有关键词进行聚类,形成各聚类中心;
S1124:确定与各所述聚类中心的余弦距离值,满足第二预设阈值内的第三指定关键词,其中,所述第三关键词属于所述语料库;
S1125:将所述第一指定关键词、第二指定关键词以及所述第三指定关键词,作为所述指定类目对应的标签库。
本实施例中指定类目下的关键词,预先由人工进行指定,比如指定两个第一指定关键词,然后依据第一指定关键词,根据词向量的余弦距离在语料库中确定第二指定关键词,当指定类目下的关键词数量达到一定数量时,比如50个,再一一通过关键词的预选距离值进行关键词扩充,会导致计算量大,甚至导致在相同条件下无法继续找到可扩充的关键词。本实施例在关键词数据量较大时,通过先对现有的关键词进行聚类分析,得到不同的聚类中心,聚类中心的词向量为该聚类下所有关键词的词向量的平均值。通过聚类中心再次作为关键词扩充依据,继续在语料库中寻找满足条件的第三关键词,直到余弦距离值不在第二预设阈值内,则判定指定类目下的关键词均已查找完毕,则将指定类目下的关键词作为指定类目的标签库,以便所有的关键词均作用于文本的分类。半自动构建类目语料库的目的是保证每个类目下的关键词都与类目直接相关,传统基于tf-idf统计方法的分类,无法做到所有关键词都与类目相关,且无法处理文本多次出现的与分类无关的高频词。
进一步地,所述根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重的步骤S2,包括:
本实施例中由于两个分类模型的分类效果受样本数据量的影响,参考sigmoid函数实现两个分类模型的权重动态调整,以便更好地平衡更分类模型的分类效果,使对文本的分类结果更精准。本实施例的第一数量A设为500万,第二数量B设为1000万。
参照图2,本申请一实施例的文本分类装置,装置包括:
获取模块1,用于获取Bayes分类模型根据第一文本输出的第一分类信息,获取神经网络分类模型根据所述第一文本输出的第二分类信息,其中,所述第一分类信息中至少包括所述第一文本对应分类的第一类目,以及所述第一文本在所述第一类目下的第一得分,所述第二分类信息中至少包括所述第一文本对应分类的第二类目,以及所述第一文本在所述第二类目下的第二得分;
确定模块2,用于若否,则根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重;
计算模块3,用于计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值;
判断模块4,用于判断所述第一分类评价值是否大于所述第二分类评价值;
作为模块5,用于若是,则将所述第一分类评价值对应的所述第一类目,作为所述第一文本对应的分类类目。
本实施例中,Bayes分类模型与神经网络分类模型的分类效果的本质在于对样本数据量的依赖问题,Bayes分类模型的分类依据是基于构建的分类标签库建立分类模型,构建的分类标签库是基于小数量样本统计得到,所以小样本时分类准确。而神经网络分类模型是定义好网络结构基于样本语料自动训练得到分类特征,在一定量级上标注的学习样本越多模型学的分类特征越准确。在样本较少的时候采用bayes,提取分类语料库,能够实现高分类精度,但泛化能力较差。神经网络模型恰恰相反,在样本数据量很大的时候,神经网络能够基于样本进行学习,能够很好的学习到分类特征。本实施例的Bayes分类模型与神经网络分类模型的分类权重依据文本数据的数量参数级别根据sigmoid函数进行平衡,使得分类权重的选用,依据文本中的数据量的大小实现动态调整,使最终确定的分类评价值更具有参考价值,分类更精准。在数据量较小时,使用基于统计的Bayes分类模型对召回数据会有较高的分类准确率,但模型的召回率相对较低,会存在一部分示例分类到其他;当数据量达到一定规模时,采用基于神经网络分类模型有更好的召回能力,且能保证分类准确率。本实施例基于开源网络信息、中国财政政策报告、国家行业标准结合专家知识构建政策手段、政策内容、政策行业三个层级下的分类类目,根据上述文本分类方法实现各层次分别对应的分类类目的归类。Bayes分类模型依据现有的分类标签对输入的语料进行分类,输出对输入的语料对应各类目的分类,得分最高的类目,确定为在Bayes分类模型下对输入的语料的分类。神经网络分类模型依据学习得到的分类特征对输入的语料进行分类,得分最高的分类特征所属的类目,确定为神经网络分类模型下对输入的语料的分类。但两种分类模型下对同一个输入的语料对应分类的类目可能相同,也可能不同,若相同则直接确定输入的语料属于该类目;若不同,则根据两个模型对输入的语料分类时的各类目的最高得分,乘以当前输入的语料所属的文本中语料数量级别对应的权重,确定输入的语料最终所属的类目。上述计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值,具体为根据第一得分乘以第一权重得到Bayes分类模型对第一文本的第一分类评价值,根据第二得分乘以第二权重得到神经网络分类模型对第一文本的第二分类评价值。比如:对同一个输入,Bayes分类模型得到的第一分类信息的得分为0.38,神经网络分类模型得到的第二分类信息的得分为0.56,Bayes分类模型的可靠性经验权重为wb,神经网络分类模型的可靠性经验权重为wn,比较0.38*wb与0.56*wn的大小,选择值更大的类目作为分类结果,权重wb和wn基于数据量的大小动态确定。上述得分是各模型对输入语料的评价,权重是我们对两种模型的评价,最终的评价得分为综合评价。本实施例中,在数据预处理的基础上,通过将Bayes分类模型与神经网络分类模型匹配使用,有效避免各分类模型的分类缺陷,提高对文本分类的精准度,且能够快速调节对新样本的学习能力。
本申请另一实施例中,当所述第一分类信息与所述第二分类信息相同时,则直接将共同的分类作为第一文本所对应的分类,通过同时对第一文本通过不同分类方式进行分类,实现相互印证,提高分类精准性的可信度。
进一步地,所述获取模块1,包括:
获得子模块,用于根据公式:获得所述第一文本对应的第一分类信息,其中P(doc|ci)=x1P(word1|ci)x2P(word2|ci)...xmP(wordm|ci),xi=len(wordi)sim(wordi,wordaj),len(wordi)表示wordi的字符长度,sim(wordi,wordaj)表示wordi,wordaj之间的向量相似度,wordaj表示第a类目下的第j个词。
本实施例中的Bayes分类模型,基于类目标签库以及第一文本中的词语类目标签库中的关键词相似度实现分类判断,使得所分析的关键词均与分类类目相关,相比于传统的tf-idf统计方法,提高了计算有效性以及计算精度,且通过引入词的相似度,增强Bayes分类模型基于词粒度泛化能力不足问题。本实施例在建立类目标签库时,会对语料进行预处理,比如清洗掉语料中与分类类目无关的超高频词和超低频词,比如“的”、“什么”、“关于”、“通知”等;另外通过对每个词进行词性打分,以筛选出与分类类目密切相关的名词、动词或动名词。本实施例的分类过程中兼顾词的字符长度和词的向量距离,使得对文本所属的分类类目的归类更精准。
进一步地,所述获得子模块,包括:
分词单元,用于根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理;
第一得到单元,用于根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率,其中,所述指定类目包含于所有的预设类目中;
第二得到单元,用于根据所述第一分词相对于所述指定类目的归类概率的计算过程,得到所述第一文本相对于所述指定类目的归类概率P(ca)P(doc|ca);
选择单元,用于选择归一化值最大的第一类目,作为所述第一文本对应的类目,并将所述所述第一文本对应所述第一类目的归一化值以及所述第一类目作为所述第一分类信息。
本实施例在对文本进行分词处理时,引入了短语分词,增加短语分词的目的是增加领域专业短语在分类类目下的重要性,相比于传统的直接分词法,提高专业领域分词的精准度。比如,在税务领域,“个人所得税”为一个短语,而通过常规分词法分词会分成两个分词“个人”和“所得税”,但“个人所得税”所对应的分类类目,会跟当前领域的分类需求更贴切,也更贴近于当前领域的需求。本实施例通过对在对第一文本进行分词处理时,优先访问预构建的短语字典树,若第一文本中存在与短语字典树中的短语时,优先摘取短语作为一分词,只有当第一文本中不存在与短语字典树中的短语时,通过预设分词器对第一文本进行分词,预设分词器不具有专业领域的区分。然后将第一文本对应的分词与指定类目对应的标签库中的关键词一一进行分析计算,得到分词与各关键词的相似度评分,然后汇总得到第一文本与指定类目的相似度评分,最终根据第一文本与指定类目的相似度评分,得到第一文本是否归类于指定类目。本实施例中各所述预设类目的先验概率以及条件概率的乘积对于同一文本而言为定值常量,通过归一化处理使各分类模型的输出均为映射到0至1之间的实数,且对于预设的各分类类目的总和为1,归一化值最大时对应的额分类类目,即为第一文本对应的分类类目,以方便根据各分类模型的输出直观分析归类信息。
进一步地,所述获得子模块,包括:
第一计算单元,用于通过依次计算指定文本中相邻词的互信息值,其中x,y为指定文本中相邻两个词,P(X,Y)表示组和出现的概率,P(X)和P(Y)分别表示两个词单独出现的概率,所述指定文本包含于语料库中所有语料文本中;
第二计算单元,用于通过N-Gram计算所述指定文本中所述相邻词组成短语的短语概率;
得到单元,用于将所述互信息值与所述短语概率相加,得到所述相邻词构成所述短语的评价分值;
判断单元,用于判断所述评价分值是否大于预设阈值;
判定单元,用于若是,则判定所述相邻词构成所述短语;
获取单元,用于根据所述指定文本中的短语确定过程,获取所述语料库中所有语料文本中的短语;
构建单元,用于将所述语料库中所有语料文本中的短语构建成所述短语字典树。
本实施例通过互信息和N-Gram共同提取语料库中的短语,通过互信息统计的方法计算两个相邻词的关联度,即是否可组成短语,并结合N-Gram获得语料库中两个相邻词以短语一起出现的频次,共同判断语料中相邻词组成短语的可能性,比如相邻词构成所述短语的评价分值大于0.6时,则判定相邻词可组合为短语,并将该短语提取出来,映射为本领域的短语字典树。本实施例通过将自定义的短语字典树加入到预设分词器中,并设定自定义的短语字典树的优先级大于预设分词器,以增加领域专业短语在分类下的重要性。
进一步地,第一得到单元,包括:
比较子单元,用于将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值,其中所述第一分词包含于所述第一文本对应的所有分词中,所述第一关键词包含于所述指定类目对应的标签库中的所有关键词;
第一得到子单元,用于根据所述第一字符长度值乘以第三权重得到所述第一分词对应的字符长度相似度,所述第一相似度值乘以第四权重得到所述第一分词对应的词义相似度,其中,所述第三权重和第四权重的加和为1;
第二得到子单元,用于根据所述第一分词对应的字符长度相似度以及所述第一分词对应的词义相似度的加和,得到所述第一分词相对于所述第一关键词的相似度;
获取子单元,用于根据所述第一分词相对于所述第一关键词的相似度的计算过程,获取所述第一分词分别相对于所有关键词的相似度;
第一作为子单元,用于将最大相似度作为所述第一分词相对于指定类目的归类概率。
本实施例在考虑第一文本是否可归类于指定类目时,同时以字符长度和词义两个参量作为评价因素,引入字符长度作为词所在分类类目的权重,目的是加强短语对分类的贡献力量。但字符长度和词义两个参量所占的参考权重不同,比如“个税”与“个人所得税”是同一个意思,字符长度不同,但词向量几乎相同,所以,本实施例以词向量为主,字符长度为辅,比如词向量对应的第四权重占比为0.6至0.9,字符长度对应的第三权重占比为0.1至0.4。
进一步地,第一得到单元,包括:
筛选子单元,用于在语料库中筛选与各第一指定关键词的余弦距离值,在第一预设阈值内的第二指定关键词,其中,各所述第一指定关键词为所述指定类目预先设定的关键词;
判断子单元,用于判断所有所述第一指定关键词和所有所述第二指定关键词的总量是否大于预设数量;
聚类子单元,用于若是,则对所述指定类目下的所有关键词进行聚类,形成各聚类中心;
确定子单元,用于确定与各所述聚类中心的余弦距离值,满足第二预设阈值内的第三指定关键词,其中,所述第三关键词属于所述语料库;
第二作为子单元,用于将所述第一指定关键词、第二指定关键词以及所述第三指定关键词,作为所述指定类目对应的标签库。
本实施例中指定类目下的关键词,预先由人工进行指定,比如指定两个第一指定关键词,然后依据第一指定关键词,根据词向量的余弦距离在语料库中确定第二指定关键词,当指定类目下的关键词数量达到一定数量时,比如50个,再一一通过关键词的预选距离值进行关键词扩充,会导致计算量大,甚至导致在相同条件下无法继续找到可扩充的关键词。本实施例在关键词数据量较大时,通过先对现有的关键词进行聚类分析,得到不同的聚类中心,聚类中心的词向量为该聚类下所有关键词的词向量的平均值。通过聚类中心再次作为关键词扩充依据,继续在语料库中寻找满足条件的第三关键词,直到余弦距离值不在第二预设阈值内,则判定指定类目下的关键词均已查找完毕,则将指定类目下的关键词作为指定类目的标签库,以便所有的关键词均作用于文本的分类。半自动构建类目语料库的目的是保证每个类目下的关键词都与类目直接相关,传统基于tf-idf统计方法的分类,无法做到所有关键词都与类目相关,且无法处理文本多次出现的与分类无关的高频词。
进一步地,确定模块2,包括:
本实施例中由于两个分类模型的分类效果受样本数据量的影响,参考sigmoid函数实现两个分类模型的权重动态调整,以便更好地平衡更分类模型的分类效果,使对文本的分类结果更精准。本实施例的第一数量A设为500万,第二数量B设为1000万。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本分类的过程需要的所有数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现文本分类方法。
上述处理器执行上述文本分类方法,方法包括:获取Bayes分类模型根据第一文本输出的第一分类信息,获取神经网络分类模型根据所述第一文本输出的第二分类信息;若所述第一分类信息与所述第二分类信息不相同,则根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重;计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值;判断所述第一分类评价值是否大于所述第二分类评价值;若是,则将所述第一分类评价值对应的所述第一类目,作为所述第一文本对应的分类类目。
上述计算机设备,通过将Bayes分类模型与神经网络分类模型匹配使用,有效避免各分类模型的分类缺陷,提高对文本分类的精准度,且能够快速调节对新样本的学习能力。且Bayes分类模型与神经网络分类模型的分类权重依据文本数据数量参量进行平衡,使得分类权重的选用,依据文本中的数据量的大小实现动态调整,使最终确定的分类评价值更具有参考价值,分类更精准。上述Bayes分类模型,基于类目标签库以及第一文本中的词语类目标签库中的关键词相似度实现分类判断,使得所分析的关键词均与分类类目相关,相比于传统的tf-idf统计方法,提高了计算有效性以及计算精度,且通过引入词的相似度,增强Bayes分类模型基于词粒度泛化能力不足问题。在对文本进行分词处理时,引入了短语分词,增加短语分词的目的是增加领域专业短语在分类类目下的重要性,相比于传统的直接分词法,提高专业领域分词的精准度。
在一个实施例中,上述处理器获取Bayes分类模型根据第一文本输出的第一分类信息的步骤,包括:根据公式:获得所述第一文本对应的第一分类信息,其中,P(doc|ci)=x1P(word1|ci)x2P(word2|ci)...xmP(wordm|ci),xi=len(wordi)sim(wordi,wordaj),len(wordi)表示wordi的字符长度,sim(wordi,wordaj)表示wordi,wordaj之间的向量相似度,wordaj表示第a类目下的第j个词。
在一个实施例中,上述处理器根据公式:获得所述第一文本对应的第一分类信息的步骤,包括:根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理;根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率,其中,所述指定类目包含于所有的预设类目中;根据所述第一分词相对于所述指定类目的归类概率的计算过程,得到所述第一文本相对于所述指定类目的归类概率P(ca)P(doc|ca);根据各所述预设类目的先验概率以及条件概率的乘积将所述第一文本分别相对于各所述预设类目的概率进行归一化;选择归一化值最大的第一类目,作为所述第一文本对应的类目,并将所述所述第一文本对应所述第一类目的归一化值以及所述第一类目作为所述第一分类信息。
在一个实施例中,上述处理器根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理的步骤之前,包括:通过依次计算指定文本中相邻词的互信息值,其中,x,y为指定文本中相邻两个词,P(X,Y)表示组和出现的概率,P(X)和P(Y)分别表示两个词单独出现的概率,所述指定文本包含于语料库中所有语料文本中;通过N-Gram计算所述指定文本中所述相邻词组成短语的短语概率;将所述互信息值与所述短语概率相加,得到所述相邻词构成所述短语的评价分值;判断所述评价分值是否大于预设阈值;若是,则判定所述相邻词构成所述短语;根据所述指定文本中的短语确定过程,获取所述语料库中所有语料文本中的短语;将所述语料库中所有语料文本中的短语构建成所述短语字典树。
在一个实施例中,上述处理器根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率的步骤,包括:将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值,其中,所述第一分词包含于所述第一文本对应的所有分词中,所述第一关键词包含于所述指定类目对应的标签库中的所有关键词;根据所述第一字符长度值乘以第三权重得到所述第一分词对应的字符长度相似度,所述第一相似度值乘以第四权重得到所述第一分词对应的词义相似度,其中,所述第三权重和第四权重的加和为1;根据所述第一分词对应的字符长度相似度以及所述第一分词对应的词义相似度的加和,得到所述第一分词相对于所述第一关键词的相似度;根据所述第一分词相对于所述第一关键词的相似度的计算过程,获取所述第一分词分别相对于所有关键词的相似度;将最大相似度作为所述第一分词相对于指定类目的归类概率。
在一个实施例中,上述处理器将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值的步骤之前,包括:在语料库中筛选与各第一指定关键词的余弦距离值,在第一预设阈值内的第二指定关键词,其中,各所述第一指定关键词为所述指定类目预先设定的关键词;判断所有所述第一指定关键词和所有所述第二指定关键词的总量是否大于预设数量;若是,则对所述指定类目下的所有关键词进行聚类,形成各聚类中心;确定与各所述聚类中心的余弦距离值,满足第二预设阈值内的第三指定关键词,其中,所述第三关键词属于所述语料库;将所述第一指定关键词、第二指定关键词以及所述第三指定关键词,作为所述指定类目对应的标签库。
在一个实施例中,上述处理器根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重的步骤,包括:根据计算公式分别设置所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重,其中,所述第一权重为1-W,所述第二权重为W,A设为第一数量,B设为第二数量。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现文本分类方法,方法包括:获取Bayes分类模型根据第一文本输出的第一分类信息,获取神经网络分类模型根据所述第一文本输出的第二分类信息;若所述第一分类信息与所述第二分类信息不相同,则根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重;计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值;判断所述第一分类评价值是否大于所述第二分类评价值;若是,则将所述第一分类评价值对应的所述第一类目,作为所述第一文本对应的分类类目。
上述计算机可读存储介质,通过将Bayes分类模型与神经网络分类模型匹配使用,有效避免各分类模型的分类缺陷,提高对文本分类的精准度,且能够快速调节对新样本的学习能力。且Bayes分类模型与神经网络分类模型的分类权重依据文本数据数量参量进行平衡,使得分类权重的选用,依据文本中的数据量的大小实现动态调整,使最终确定的分类评价值更具有参考价值,分类更精准。上述Bayes分类模型,基于类目标签库以及第一文本中的词语类目标签库中的关键词相似度实现分类判断,使得所分析的关键词均与分类类目相关,相比于传统的tf-idf统计方法,提高了计算有效性以及计算精度,且通过引入词的相似度,增强Bayes分类模型基于词粒度泛化能力不足问题。在对文本进行分词处理时,引入了短语分词,增加短语分词的目的是增加领域专业短语在分类类目下的重要性,相比于传统的直接分词法,提高专业领域分词的精准度。
在一个实施例中,上述处理器获取Bayes分类模型根据第一文本输出的第一分类信息的步骤,包括:根据公式:获得所述第一文本对应的第一分类信息,其中,P(doc|ci)=x1P(word1|ci)x2P(word2|ci)...xmP(wordm|ci),xi=len(wordi)sim(wordi,wordaj),len(wordi)表示wordi的字符长度,sim(wordi,wordaj)表示wordi,wordaj之间的向量相似度,wordaj表示第a类目下的第j个词。
在一个实施例中,上述处理器根据公式:获得所述第一文本对应的第一分类信息的步骤,包括:根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理;根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率,其中,所述指定类目包含于所有的预设类目中;根据所述第一分词相对于所述指定类目的归类概率的计算过程,得到所述第一文本相对于所述指定类目的归类概率P(ca)P(doc|ca);根据各所述预设类目的先验概率以及条件概率的乘积将所述第一文本分别相对于各所述预设类目的概率进行归一化;选择归一化值最大的第一类目,作为所述第一文本对应的类目,并将所述所述第一文本对应所述第一类目的归一化值以及所述第一类目作为所述第一分类信息。
在一个实施例中,上述处理器根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理的步骤之前,包括:通过依次计算指定文本中相邻词的互信息值,其中,x,y为指定文本中相邻两个词,P(X,Y)表示组和出现的概率,P(X)和P(Y)分别表示两个词单独出现的概率,所述指定文本包含于语料库中所有语料文本中;通过N-Gram计算所述指定文本中所述相邻词组成短语的短语概率;将所述互信息值与所述短语概率相加,得到所述相邻词构成所述短语的评价分值;判断所述评价分值是否大于预设阈值;若是,则判定所述相邻词构成所述短语;根据所述指定文本中的短语确定过程,获取所述语料库中所有语料文本中的短语;将所述语料库中所有语料文本中的短语构建成所述短语字典树。
在一个实施例中,上述处理器根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率的步骤,包括:将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值,其中,所述第一分词包含于所述第一文本对应的所有分词中,所述第一关键词包含于所述指定类目对应的标签库中的所有关键词;根据所述第一字符长度值乘以第三权重得到所述第一分词对应的字符长度相似度,所述第一相似度值乘以第四权重得到所述第一分词对应的词义相似度,其中,所述第三权重和第四权重的加和为1;根据所述第一分词对应的字符长度相似度以及所述第一分词对应的词义相似度的加和,得到所述第一分词相对于所述第一关键词的相似度;根据所述第一分词相对于所述第一关键词的相似度的计算过程,获取所述第一分词分别相对于所有关键词的相似度;将最大相似度作为所述第一分词相对于指定类目的归类概率。
在一个实施例中,上述处理器将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值的步骤之前,包括:在语料库中筛选与各第一指定关键词的余弦距离值,在第一预设阈值内的第二指定关键词,其中,各所述第一指定关键词为所述指定类目预先设定的关键词;判断所有所述第一指定关键词和所有所述第二指定关键词的总量是否大于预设数量;若是,则对所述指定类目下的所有关键词进行聚类,形成各聚类中心;确定与各所述聚类中心的余弦距离值,满足第二预设阈值内的第三指定关键词,其中,所述第三关键词属于所述语料库;将所述第一指定关键词、第二指定关键词以及所述第三指定关键词,作为所述指定类目对应的标签库。
在一个实施例中,上述处理器根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重的步骤,包括:根据计算公式分别设置所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重,其中,所述第一权重为1-W,所述第二权重为W,A设为第一数量,B设为第二数量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种文本分类方法,其特征在于,方法包括:
获取Bayes分类模型根据第一文本输出的第一分类信息,获取神经网络分类模型根据所述第一文本输出的第二分类信息;
若所述第一分类信息与所述第二分类信息不相同,则根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重;
计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值;
判断所述第一分类评价值是否大于所述第二分类评价值;
若是,则将所述第一分类评价值对应的所述第一类目,作为所述第一文本对应的分类类目。
根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理;
根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率,其中,所述指定类目包含于所有的预设类目中;
根据所述第一分词相对于所述指定类目的归类概率的计算过程,得到所述第一文本相对于所述指定类目的归类概率P(ca)P(doc|ca);
选择归一化值最大的第一类目,作为所述第一文本对应的类目,并将所述第一文本对应所述第一类目的归一化值以及所述第一类目作为所述第一分类信息。
4.根据权利要求3所述的文本分类方法,其特征在于,所述根据预构建的短语字典树以及预设分词器,对所述第一文本进行分词处理的步骤之前,包括:
通过N-Gram计算所述指定文本中所述相邻词组成短语的短语概率;
将所述互信息值与所述短语概率相加,得到所述相邻词构成所述短语的评价分值;
判断所述评价分值是否大于预设阈值;
若是,则判定所述相邻词构成所述短语;
根据所述指定文本中的短语确定过程,获取所述语料库中所有语料文本中的短语;
将所述语料库中所有语料文本中的短语构建成所述短语字典树。
5.根据权利要求3所述的文本分类方法,其特征在于,所述根据第一分词对应的第一字符长度值以及第一词向量,得到所述第一分词相对于指定类目的归类概率的步骤,包括:
将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值,其中,所述第一分词包含于所述第一文本对应的所有分词中,所述第一关键词包含于所述指定类目对应的标签库中的所有关键词;
根据所述第一字符长度值乘以第三权重得到所述第一分词对应的字符长度相似度,所述第一相似度值乘以第四权重得到所述第一分词对应的词义相似度,其中,所述第三权重和第四权重的加和为1;
根据所述第一分词对应的字符长度相似度以及所述第一分词对应的词义相似度的加和,得到所述第一分词相对于所述第一关键词的相似度;
根据所述第一分词相对于所述第一关键词的相似度的计算过程,获取所述第一分词分别相对于所有关键词的相似度;
将最大相似度作为所述第一分词相对于指定类目的归类概率。
6.根据权利要求5所述的文本分类方法,其特征在于,所述将所述第一分词的字符长度与第一关键词相比较,得到所述第一字符长度值,计算所述第一词向量与所述第一关键词对应的词向量的距离值,得到所述第一分词与所述第一关键词的第一相似度值的步骤之前,包括:
在语料库中筛选与各第一指定关键词的余弦距离值,在第一预设阈值内的第二指定关键词,其中,各所述第一指定关键词为所述指定类目预先设定的关键词;
判断所有所述第一指定关键词和所有所述第二指定关键词的总量是否大于预设数量;
若是,则对所述指定类目下的所有关键词进行聚类,形成各聚类中心;
确定与各所述聚类中心的余弦距离值,满足第二预设阈值内的第三指定关键词,其中,所述第三关键词属于所述语料库;
将所述第一指定关键词、第二指定关键词以及所述第三指定关键词,作为所述指定类目对应的标签库。
8.一种文本分类装置,其特征在于,装置包括:
获取模块,用于获取Bayes分类模型根据第一文本输出的第一分类信息,获取神经网络分类模型根据所述第一文本输出的第二分类信息;
确定模块,用于若所述第一分类信息与所述第二分类信息不相同,则根据所述第一文本的数据量,确定所述Bayes分类模型对应的第一权重,以及所述神经网络分类模型对应的第二权重;
计算模块,用于计算所述Bayes分类模型对所述第一文本的第一分类评价值,以及所述神经网络分类模型对所述第一文本的第二分类评价值;
判断模块,用于判断所述第一分类评价值是否大于所述第二分类评价值;
作为模块,用于若是,则将所述第一分类评价值对应的所述第一类目,作为所述第一文本对应的分类类目。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910963674.4A CN111090719B (zh) | 2019-10-11 | 2019-10-11 | 文本分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910963674.4A CN111090719B (zh) | 2019-10-11 | 2019-10-11 | 文本分类方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090719A true CN111090719A (zh) | 2020-05-01 |
CN111090719B CN111090719B (zh) | 2024-05-03 |
Family
ID=70393008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910963674.4A Active CN111090719B (zh) | 2019-10-11 | 2019-10-11 | 文本分类方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090719B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597788A (zh) * | 2020-05-18 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于实体对齐的属性融合方法、装置、设备及存储介质 |
CN111897912A (zh) * | 2020-07-13 | 2020-11-06 | 上海乐言信息科技有限公司 | 一种基于采样频率优化的主动学习短文本分类方法和系统 |
CN112632285A (zh) * | 2020-12-31 | 2021-04-09 | 北京有竹居网络技术有限公司 | 一种文本聚类方法、装置、电子设备及存储介质 |
CN112699945A (zh) * | 2020-12-31 | 2021-04-23 | 青岛海尔科技有限公司 | 数据标注方法及装置、存储介质及电子装置 |
CN113919361A (zh) * | 2021-09-13 | 2022-01-11 | 聚好看科技股份有限公司 | 一种文本分类方法和装置 |
CN114443850A (zh) * | 2022-04-06 | 2022-05-06 | 杭州费尔斯通科技有限公司 | 基于语义相似模型的标签生成方法、系统、装置和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407482A (zh) * | 2016-12-01 | 2017-02-15 | 合肥工业大学 | 一种基于多特征融合的网络学术报告分类方法 |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
EP3460685A1 (en) * | 2017-09-12 | 2019-03-27 | Bricsys NV | Improved semantic classification of an entity in a building information model |
US20190156159A1 (en) * | 2017-11-20 | 2019-05-23 | Kavya Venkata Kota Sai KOPPARAPU | System and method for automatic assessment of cancer |
-
2019
- 2019-10-11 CN CN201910963674.4A patent/CN111090719B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407482A (zh) * | 2016-12-01 | 2017-02-15 | 合肥工业大学 | 一种基于多特征融合的网络学术报告分类方法 |
EP3460685A1 (en) * | 2017-09-12 | 2019-03-27 | Bricsys NV | Improved semantic classification of an entity in a building information model |
US20190156159A1 (en) * | 2017-11-20 | 2019-05-23 | Kavya Venkata Kota Sai KOPPARAPU | System and method for automatic assessment of cancer |
CN108197109A (zh) * | 2017-12-29 | 2018-06-22 | 北京百分点信息科技有限公司 | 一种基于自然语言处理的多语言分析方法和装置 |
CN108874996A (zh) * | 2018-06-13 | 2018-11-23 | 北京知道创宇信息技术有限公司 | 网站分类方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597788A (zh) * | 2020-05-18 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于实体对齐的属性融合方法、装置、设备及存储介质 |
CN111597788B (zh) * | 2020-05-18 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 基于实体对齐的属性融合方法、装置、设备及存储介质 |
CN111897912A (zh) * | 2020-07-13 | 2020-11-06 | 上海乐言信息科技有限公司 | 一种基于采样频率优化的主动学习短文本分类方法和系统 |
CN111897912B (zh) * | 2020-07-13 | 2021-04-06 | 上海乐言科技股份有限公司 | 一种基于采样频率优化的主动学习短文本分类方法和系统 |
CN112632285A (zh) * | 2020-12-31 | 2021-04-09 | 北京有竹居网络技术有限公司 | 一种文本聚类方法、装置、电子设备及存储介质 |
CN112699945A (zh) * | 2020-12-31 | 2021-04-23 | 青岛海尔科技有限公司 | 数据标注方法及装置、存储介质及电子装置 |
CN112699945B (zh) * | 2020-12-31 | 2023-10-27 | 青岛海尔科技有限公司 | 数据标注方法及装置、存储介质及电子装置 |
CN113919361A (zh) * | 2021-09-13 | 2022-01-11 | 聚好看科技股份有限公司 | 一种文本分类方法和装置 |
CN114443850A (zh) * | 2022-04-06 | 2022-05-06 | 杭州费尔斯通科技有限公司 | 基于语义相似模型的标签生成方法、系统、装置和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111090719B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090719B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN109871446B (zh) | 意图识别中的拒识方法、电子装置及存储介质 | |
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
AU2017243270B2 (en) | Method and device for extracting core words from commodity short text | |
Trstenjak et al. | KNN with TF-IDF based framework for text categorization | |
CN109063217B (zh) | 电力营销系统中的工单分类方法、装置及其相关设备 | |
WO2021169111A1 (zh) | 简历筛选方法、装置、计算机设备和存储介质 | |
CN112464638B (zh) | 一种基于改进谱聚类算法的文本聚类方法 | |
CN111898366B (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
WO2017167067A1 (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN109471944B (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
US20180150455A1 (en) | Method and apparatus for processing semantic analysis result based on artificial intelligence | |
US10445623B2 (en) | Label consistency for image analysis | |
CN109471942B (zh) | 基于证据推理规则的中文评论情感分类方法及装置 | |
CN108491406B (zh) | 信息分类方法、装置、计算机设备和存储介质 | |
CN109408743B (zh) | 文本链接嵌入方法 | |
CN111274371B (zh) | 一种基于知识图谱的智能人机对话方法及设备 | |
CN110377558A (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN110287409B (zh) | 一种网页类型识别方法及装置 | |
CN112507711A (zh) | 文本摘要抽取方法及系统 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN110781673B (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN110377618B (zh) | 裁决结果分析方法、装置、计算机设备和存储介质 | |
CN112380346B (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231031 Address after: Room 301-2, No. 206 Kaibin Road, Xuhui District, Shanghai, 200000 Applicant after: Ping An Technology (Shanghai) Co.,Ltd. Address before: 518000 Guangdong, Shenzhen, Futian District Futian street Fu'an community Yitian road 5033, Ping An financial center, 23 floor. Applicant before: PING AN TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |