CN112199501A - 一种科技信息文本分类方法 - Google Patents

一种科技信息文本分类方法 Download PDF

Info

Publication number
CN112199501A
CN112199501A CN202011090173.9A CN202011090173A CN112199501A CN 112199501 A CN112199501 A CN 112199501A CN 202011090173 A CN202011090173 A CN 202011090173A CN 112199501 A CN112199501 A CN 112199501A
Authority
CN
China
Prior art keywords
grained
classification
text
coarse
fine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011090173.9A
Other languages
English (en)
Other versions
CN112199501B (zh
Inventor
李国徽
袁凌
罗忠敬
陈强
潘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202011090173.9A priority Critical patent/CN112199501B/zh
Publication of CN112199501A publication Critical patent/CN112199501A/zh
Application granted granted Critical
Publication of CN112199501B publication Critical patent/CN112199501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于文本分类技术领域,具体涉及一种科技信息文本分类方法,包括:基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本粗粒度强分类,得到粗粒度类别;对文本抽取高层语义信息特征,并采用粗粒度类别辅助粗粒度类别对应的细粒度分类器来基于高层语义信息特征对文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该文本的细粒度类别,细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。本发明基于多粒度组合优化进行文本分类,将分类任务进行分解,通过强化简单的子任务性能,高效地提升文本分类任务的准确率和性能。

Description

一种科技信息文本分类方法
技术领域
本发明属于文本分类技术领域,更具体地,涉及一种科技信息文本分类方法。
背景技术
长期以来,科技信息一直是推动科技发展的重要因素。随着网络技术和信息处理技术的发展,信息的产生形式和获取渠道日益丰富,使得数据呈现指数式增长,科技信息的来源已呈现出多源、异构、多模态的基本特征。当今社会的科技信息来源主要包括科研机构和科技部门进行信息采集整理后经过一定文字化描述和规范化处理后的文字数据,另外还包括互联网中的新闻、论坛中的相关数据。
因此,面对大规模、纷繁复杂、结构多样以及组织混乱的科技信息,如何高准确率及高效对其分类,以能够有效地对数据进行组织与管理,是一个值得关注的问题。此外,面向领域的智能文本分类便于后续对该类文本数据进行进一步地深度挖掘与综合分析,从而为科技发展态势研究奠定基础。然而,已有的文本分类算法如基于知识工程的方法、基于机器学习的方法等还存在着模型学习和分类过程严重依赖于专家等外在因素以及分类准确率取决于样本训练集的质量、分类模型参数的学习与不同损失函数的选择等问题,使得单一采用这些算法造成了分类效果缺乏客观性、精确度难以保证以及泛化能力较差而无法直接应用于海量科技信息的分类任务。
发明内容
本发明提供一种科技信息文本分类方法,用以解决现有科技信息文本分类方法存在的分类准确度不高的技术问题。
本发明解决上述技术问题的技术方案如下:一种科技信息文本分类方法,包括:
基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本进行粗粒度强分类,最终得到该科技信息文本的粗粒度类别;
对该科技信息文本抽取高层语义信息特征,并采用所述粗粒度类别辅助所述粗粒度类别对应的细粒度分类器来基于所述高层语义信息特征对该科技信息文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该科技信息文本的细粒度类别,其中所述细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。
本发明的有益效果是:本发明提出一种基于多粒度组合优化的文本分类方法,将分类任务进行分解,通过不同粒度,结合不同强度的分类器对文本进行分类,由粗到细,在每一个粒度下由弱到强,以逐步地提升文本分类准确率,同时可以通过强化简单的子任务性能,更加高效地提升文本分类任务的准确率和性能。因此,本方法兼顾准确率和效率,能够有效地实现大规模科技信息文本数据的标准化、智能化以及科学管理化。
上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述粗粒度弱分类具体采用基于决策树规则的文本分类方法,所述粗粒度强分类具体采用fastText方法。
本发明的进一步有益效果是:通过基于规则的文本分类方法对具有显著特征的文本进行粗粒度分类,以高效处理易处理数据。通过fastText方法对基于规则的文本分类方法不能处理的文本进行粗粒度分类,能够较为准确获得粗粒度类别,以提升粗粒度分类的准确率。
进一步,在进行所述粗粒度弱分类时,首先对待分类的科技信息文本预处理,并使用预训练的BiLSTM CRF模型对预处理后的文本进行实体抽取,其中,预处理包括去噪、分词和过滤停词;采用预训练的Word2Vec模型将抽取出的每个实体表达为多维向量,并对所有该多维向量取均值,作为文本实体属性集特征表达;基于该文本实体属性集特征表达进行粗粒度弱分类。
进一步,在进行所述粗粒度强分类时,首先对待分类的科技信息文本进行预处理,将预处理后的文本中的词表达为词向量,并结合词与词之间的N-Gram特征进行拼接输入到fastText的隐藏层中处理,最后由softmax分类层进行分类,输出一个粗粒度类别向量,将该粗粒度类别向量中概率最大对应的类别作为粗粒度类别,其中,所述预处理包括去噪、分词和过滤停词。
本发明的进一步有益效果是:对于上一步未能分类的文本,使用基于fastText的分类方法进行类别判定,fastText是一种高效准确的文本分类方法,其考虑了词与词之间的N-Gram特征,避免上下文语义丢失,增强了分类效果。
进一步,所述粗粒度弱分类的分类结果准确与否的判断方法为:
根据所述粗粒度弱分类的分类器所输出的由各粗粒度类别下的概率数值所构成的粗粒度类别向量,确定在粗粒度类别向量中前两大的概率数值之间的差值是否大于阈值,若是,则判断所述粗粒度弱分类的分类结果准确,否则,判断为不准确。
本发明的进一步有益效果是:在实际的类别判定过程中可能会出现某几个类别的概率值非常接近的情形。为了确保文本分类的高置信度,引入一个阈值对分类结果进行判定,筛选出难分类的文本数据。
进一步,所述细粒度弱分类的实现方式为:
对待分类的科技信息文本进行所述预处理,将预处理后的文本输入到TextCNN模型中,经过预训练好的Word2Vec模型将文本表达为词向量矩阵,由TextCNN特征提取层进行特征提取,获得文本特征向量,作为高层语义信息特征;
将所述文本特征向量与由最终得到的粗粒度类别向量经编码所得的向量进行拼接,构成文本融合特征向量并输入到所述粗粒度类别所对应的Softmax分类器进行分类,其输出为一个细粒度类别向量,将该细粒度类别向量中概率最大对应的类别作为细粒度类别。
本发明的进一步有益效果是:通过对粗粒度类别向量进行编码,并与文本特征一起作为细粒度分类的输入,以增强细粒度分类效果。
进一步,所述细粒度弱分类的分类结果准确与否的判断方法为:
根据所述细粒度弱分类的分类器所输出的由各细粒度类别下的概率数值所构成的细粒度类别向量,确定在细粒度类别向量中前两大的概率数值之间的差值是否大于阈值,若是,则判断所述细粒度弱分类的分类结果准确,否则,判断为不准确。
进一步,所述方法还包括:
根据所述判断方法,判断所述细粒度强分类器所得分类结果是否准确,若不准确,确定与所述粗粒度类别的欧式距离在预设范围的相邻多个粗粒度类别;
按照所述欧式距离由近及远的顺序,依次采用相邻的各粗粒度类别对应的所述细粒度强分类器进行细粒度强分类,直至分类结果根据所述判断方法判断为准确,并将该准确的分类结果作为最终的待分类科技信息文本的细粒度类别。
本发明的进一步有益效果是:对于未能由细粒度弱分类器处理的文本,使用微调的模型进行细分类,但仅仅进行这一步操作会存在误判的情况,因为对于分类而言,如果文本所对应类别的语义与另一个类别的语义非常相近,则分类器将难以对文本进行分类,很可能会误判。因此,本方法对细粒度强分类阶段进行增强,充分考虑了类别概念相近导致分类错误的情况。
优选的,所述相邻多个粗粒度类别具体为相邻三个粗粒度类别,则当该三个粗粒度类别对应的分类结果均判断为不准确时,将该三个粗粒度类别对应的分类结果中概率值最大的类别作为最终的待分类科技信息文本的细粒度类别。
本发明的进一步有益效果是:只考虑类别概念最接近的三个类别,提高分类效率。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上所述的一种科技信息文本分类方法。
附图说明
图1为本发明实施例提供的一种科技信息文本分类方法流程框图;
图2为本发明实施例提供的多粒度组合优化模型图;
图3为本发明实施例提供的TextCNN工作流程图;
图4为本发明实施例提供的基于多粒度组合优化的文本分类模型流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例一
一种科技信息文本分类方法100,如图1所示,包括:
S110、基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本进行粗粒度强分类,最终得到该科技信息文本的粗粒度类别;
S120、对该科技信息文本抽取高层语义信息特征,并采用粗粒度类别辅助所述粗粒度类别对应的细粒度分类器来基于高层语义信息特征对该科技信息文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该科技信息文本的细粒度类别,其中细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。
考虑到已有的传统文本分类方法主要存在以下问题:(1)基于知识工程的文本分类方法。但该方法的模型学习和分类过程严重依赖于专家等人为因素,其分类效果缺乏客观性,精确度难以评估;(2)基于机器学习的文本分类方法。其主要包括朴素贝叶斯、决策树、K近邻、支持向量机以及神经网络等方法。基于机器学习的相关分类方法较基于知识工程的文本分类方法在分类准确率和效率上均有较大的提升,但该类方法的分类准确度在很大程度上取决于样本训练集的质量、分类模型参数的学习以及不同损失函数的选择等因素,因而使得这类方法难以直接应用于对准确度、模型健壮性以及泛化能力等要求都较高的大规模多领域和多范围科技信息文本分类任务中。(3)基于深度学习的文本分类方法。近年来,由于基于深度神经网络的深度学习相关技术的快速发展,使得最初应用于图像领域的深度学习方法也逐渐地应用于文本分类领域。基于神经网络的深度学习模型能够更深层次地利用文本中的特征词,从而实现了高效的文本分类,且具有较好鲁棒性,但其同样存在计算量大、复杂度较高等问题。如何应对海量的科技信息,提出更准确、更高效的智能信息分类方法是一项值得研究的重要内容。本实施例提出一种基于多粒度组合优化的文本分类方法,将分类任务进行分解,通过不同粒度,结合不同强度的分类器对文本进行分类,由粗到细,在每一个粒度下由弱到强,以逐步地提升文本分类准确率,同时可以通过强化简单的子任务性能,更加高效地提升文本分类任务的准确率和性能。因此,本方法兼顾准确率和效率,能够有效地实现大规模科技信息文本数据的标准化、智能化以及科学管理化。
其中,需要说明的是,“粗粒度类别对应的细粒度分类器”是指:每一个粗粒度都有一个细粒度分类器,用于将文本分类为这个粗粒度下的细粒度类别,比如有3个粗粒度,A、B、C,粗粒度A下有3个细粒度D、E、F,粗粒度B下有3个细粒度G、H、I,与A对应的分类器就是将文本分类为D、E、F中的一类。
另外,使用科技文本数据来微调已在海量文本数据中训练好的深度神经网络模型,所获得的模型用于文本特征提取。通过微调的预训练深度神经网络模型对少量未能准确分类的文本进行特征提取,并将提取出的更具表达能力的高层语义特征与粗粒度信息融合,进行分类,获取细粒度类别,具体的,对于未能由细粒度弱分类器处理的文本,使用该模型特征提取层进行文本特征提取,所获得的向量即为文本特征向量。然后将该向量与粗粒度输出编码所得的向量进行拼接,构成最终的文本特征向量,输入到粗粒度对应的深度神经网络模型的Softmax分类器进行分类,所获得的概率类别向量中最大值对应的类别即为细分类结果。该方法能够显著提升细粒度分类准确率。
优选的,上述粗粒度弱分类具体采用基于决策树规则的文本分类方法,上述粗粒度强分类具体采用fastText方法。
通过基于规则的文本分类方法对具有显著特征的文本进行粗粒度分类,以高效处理易处理数据。通过fastText方法对基于规则的文本分类方法不能处理的文本进行粗粒度分类,能够较为准确获得粗粒度类别,以提升粗粒度分类的准确率。
优选的,在进行粗粒度弱分类时,首先对待分类的科技信息文本预处理,并使用预训练的BiLSTM CRF模型对预处理后的文本进行实体抽取,其中,预处理包括去噪、分词和过滤停词;采用预训练的Word2Vec模型将抽取出的每个实体表达为多维向量,并对所有该多维向量取均值,作为文本实体属性集特征表达;基于该文本实体属性集特征表达进行粗粒度弱分类。
其中,文本预处理的关键步骤如下:
(1)去噪。科技文本中经常含有一些无意义甚至影响实验分析的噪声数据,需要进行去除。去除无意义符号、http链接等。
(2)分词。对于英文的分词,直接以空格进行切分完成。对于中文,使用jieba分词进行全模式分词。
(3)过滤停词。分词完成的词组数据中会包含一些常用的词,对于表达语义、兴趣没有帮助的词,这些词多对后续分析意义不大,所以需要建立停词表将分词后的数据进行停词过滤。
文本特征提取的关键步骤如下:
使用已训练好的BiLSTM CRF模型对文本进行实体抽取;
对于中文文本,采用在中文科技信息语料库上预训练好的Word2Vec模型将所提取出来的每个实体表达为100维度的向量,并对这些实体向量进行取均值,作为文本实体属性集特征表达;
对于英文文本,采用在英文科技信息语料库上预训练好的Word2Vec模型将所提出出来的每个实体表达为100维度的向量,并对这些实体向量进行取均值,作为文本实体属性集特征表达。
优选的,在进行上述的粗粒度强分类时,首先对待分类的科技信息文本进行预处理,将预处理后的文本中的词表达为词向量,并结合词与词之间的N-Gram特征进行拼接输入到fastText的隐藏层中处理,最后由softmax分类层进行分类,输出一个粗粒度类别向量,将该粗粒度类别向量中概率最大对应的类别作为粗粒度类别,其中,预处理包括上述的去噪、分词和过滤停词。
具体的,对于上一步未能分类的文本,使用基于fastText的分类方法进行类别判定。fastText是一种高效准确的文本分类方法,其考虑了词与词之间的N-Gram特征,避免上下文语义丢失,增强了分类效果。
总结来看,如图2所示,面向粗粒度的文本分类,主要流程可如下:(1)利用基于决策树规则的分类方法对已抽取的多模态文本关键信息进行快速的粗粒度初步类别判定;(2)对于无法判定的文本数据,采用基于fastText的文本分类器进行分类,获得粗粒度类别。首先基于规则的粗粒度文本分类。对于待分类的科技信息文本数据,其可能存在一些明显的特征或属性,因而该类文本依据已有的领域和科技范围的专业数据库能够较容易地判定类别,从而过滤掉具有明确特征的文本数据,以达提高分类效率低目的。将待分类的科技文本信息的实体集特征表达向量输入到在已有的领域和科技范围的专业数据库上训练好的决策树分类器中进行分类,获得初步判定的粗粒度类别。如果该分类结果的置信度大于某一值α,则认为分类成功;反之,则进行下一步。其次基于fastText的粗粒度文本分类。对于上一步未能分类的文本,使用基于fastText的分类方法进行类别判定。fastText是一种高效准确的文本分类方法,其考虑了词与词之间的N-Gram特征,避免上下文语义丢失,增强了分类效果。
优选的,粗粒度弱分类的分类结果准确与否的判断方法为:
根据粗粒度弱分类的分类器所输出的由各粗粒度类别下的概率数值所构成的粗粒度类别向量,确定在粗粒度类别向量中前两大的概率数值之间的差值是否大于阈值,若是,则判断粗粒度弱分类的分类结果准确,否则,判断为不准确。
优选的,如图3所示,细粒度弱分类的实现方式为:对待分类的科技信息文本进行所述预处理,将预处理后的文本输入到TextCNN模型中,经过预训练好的Word2Vec模型将文本表达为词向量矩阵,由TextCNN特征提取层进行特征提取,获得文本特征向量,作为高层语义信息特征;
将文本特征向量与由最终得到的粗粒度类别向量经编码所得的向量进行拼接,构成文本融合特征向量并输入到粗粒度类别所对应的Softmax分类器进行分类,其输出为一个细粒度类别向量,将该细粒度类别向量中概率最大对应的类别作为细粒度类别。
通过textCNN的特征提取层对文本进行特征提取,并将提取出的高层语义特征与粗粒度信息融合,进行细粒度分类,获得细粒度分类类别,能够高效处理大部分文本细粒度分类。
该方法中,通过对粗粒度类别向量进行编码,并与文本特征一起作为细粒度分类的输入,以增强细粒度分类效果。具体分析如下:因为粗粒度向量是关于粗粒度类别的一个向量,也就是说每一个分量都对应一个权重,这个信息的每个分量会与细粒度产生一个关联性,如果你的粗粒度是真正正确的,分量权重会很大,输入对应的细粒度分类器中,这个分量对粗粒度对应的细粒度产生的是正向作用,而其他粗粒度分量由于很小,对细粒度的负影响很小,使得细粒度的最终结果是分类正确对应的细粒度分量较大,也就是置信度更高,如果粗粒度的各个分量差距不大,也就是对应的粗粒度类别分量权重不是很大,输入到细粒度分类器中,由于非对应粗粒度对分类器的影响是负作用,使得细粒度输出向量的分量值不会很大,置信度不高。因此,在文本特征中融入粗粒度信息编码向量信息是为了将来信息辅助细粒度分类,使得分类更准确。
其中,需要说明的是,粗粒度信息可以辅助细粒度分类,以提升分类准确率。而基于决策树和基于fastText的粗粒度文本分类输出向量的维度与细粒度分类模型抽取的高层语义特征维度不一致,故需要对输出进行转换,使两者保持一致。本发明以TextCNN和微调的预训练深度神经网络模型为准,将粗粒度类别向量通过零分量填充到与TextCNN和微调的预训练深度神经网络模型提取到高层语义特征一致的维度。
优选的,细粒度弱分类的分类结果准确与否的判断方法为:根据细粒度弱分类的分类器所输出的由各细粒度类别下的概率数值所构成的细粒度类别向量,确定在细粒度类别向量中前两大的概率数值之间的差值是否大于阈值,若是,则判断细粒度弱分类的分类结果准确,否则,判断为不准确。
在实际的类别判定过程中可能会出现某几个类别的概率值非常接近的情形。为了确保文本分类的高置信度,引入一个阈值对分类结果进行判定,筛选出难分类的文本数据。在所得的类别概率向量(即细粒度类别向量)中,最大的两个分量值之差如果小于阈值α,则认为分类结果不具备高置信度,需要进一步处理。反之,分类成功。
总结来看,如图2所示,面向细粒度的文本分类主要流程可如下:(1)通过粗粒度对应的基于神经网络的弱文本分类器对文本进行细粒度分类,若此分类不能获得高置信度的类别,则进行下一步;(2)通过粗粒度对应的基于深度神经网络的强文本分类器进行分类,获得细粒度类别。
优选的,方法还包括:根据上述判断方法,判断细粒度强分类器所得分类结果是否准确,若不准确,确定与粗粒度类别的欧式距离在预设范围的相邻多个粗粒度类别;按照欧式距离由近及远的顺序,依次采用相邻的各粗粒度类别对应的细粒度强分类器进行细粒度强分类,直至分类结果根据判断方法判断为准确,并将该准确的分类结果作为最终的待分类科技信息文本的细粒度类别。
即对于未能由细粒度弱分类器处理的文本,使用微调的模型进行细分类。但仅仅进行这一步操作会存在误判的情况,如果第一阶段就出错,则将导致第二阶段绝对错误。对于分类而言,如果文本所对应类别的语义与另一个类别的语义非常相近,则分类器将难以对文本进行分类,很可能会误判。因此,优选的,本方法对细粒度强分类阶段进行增强,充分考虑了类别概念相近导致分类错误的情况。这里涉及到分类效率问题,故只考虑类别概念最接近的三个类别。
首先,使用Word2Vec模型对类别进行编码,获得类别对应的词嵌入。然后计算相互之间的欧氏距离,如公式(1)所示(其中X、Y分别为类别词向量),针对每一类别在计算得出的结果中挑选出前二小的类别作为粗粒度候选集。
Figure BDA0002721847690000121
然后,设置一个分类置信度阈值β。如果分类器分类结果的概率小于β,则认为分类失败。将文本特征输入到与粗粒度类别最接近的Softmax分类器进行分类。如果此时的分类结果概率仍然小于β,则再次认为分类失败,使用与粗粒度第二接近的Softmax分类器进行分类。如果还是分类失败,则将三次细分类结果中具有最大概率值的类别作为细分类结果。
因此,通过级联微调的预训练深度神经网络模型进行细粒度分类,以针对以上分类流程无法处理的文本进行最终分类,获取最终细粒度类别,确保细粒度分类的高准确率,总的流程框图如图4所示,其中多模态指的是数据的多种来源或形式,例如视频、图片、语音等,多模态文本特征指的是模型提取文本得到的高层语义特征与模型提取图像的高层语义特征融合而成的特征,BERT全称是Bidirectional Encoder Representation fromTransformers,是谷歌基于海量文本数据训练而得的预训练模型,在多种NLP任务中都取得优异的成绩,常作为多种NLP任务的上游,用于特征提取。
实施例二
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如上实施例一所述的一种科技信息文本分类方法。
相关技术方案同实施例一,在此不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种科技信息文本分类方法,其特征在于,包括:
基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本进行粗粒度强分类,最终得到该科技信息文本的粗粒度类别;
对该科技信息文本抽取高层语义信息特征,采用所述粗粒度类别辅助所述粗粒度类别对应的细粒度分类器来基于所述高层语义信息特征对该科技信息文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该科技信息文本的细粒度类别,其中所述细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。
2.根据权利要求1所述的一种科技信息文本分类方法,其特征在于,所述粗粒度弱分类具体采用基于决策树规则的文本分类方法,所述粗粒度强分类具体采用fastText方法。
3.根据权利要求1所述的一种科技信息文本分类方法,其特征在于,在进行所述粗粒度弱分类时,首先对待分类的科技信息文本预处理,并使用预训练的BiLSTM CRF模型对预处理后的文本进行实体抽取,其中,预处理包括去噪、分词和过滤停词;采用预训练的Word2Vec模型将抽取出的每个实体表达为多维向量,并对所有该多维向量取均值,作为文本实体属性集特征表达;基于该文本实体属性集特征表达进行粗粒度弱分类。
4.根据权利要求1所述的一种科技信息文本分类方法,其特征在于,在进行所述粗粒度强分类时,首先对待分类的科技信息文本进行预处理,将预处理后的文本中的词表达为词向量,并结合词与词之间的N-Gram特征进行拼接输入到fastText的隐藏层中处理,最后由softmax分类层进行分类,输出一个粗粒度类别向量,将该粗粒度类别向量中概率最大对应的类别作为粗粒度类别,其中,所述预处理包括去噪、分词和过滤停词。
5.根据权利要求1至4任一项所述的一种科技信息文本分类方法,其特征在于,所述粗粒度弱分类的分类结果准确与否的判断方法为:
根据所述粗粒度弱分类的分类器所输出的由各粗粒度类别下的概率数值所构成的粗粒度类别向量,确定在粗粒度类别向量中前两大的概率数值之间的差值是否大于阈值,若是,则判断所述粗粒度弱分类的分类结果准确,否则,判断为不准确。
6.根据权利要求1所述的一种科技信息文本分类方法,其特征在于,所述细粒度弱分类的实现方式为:
对待分类的科技信息文本进行所述预处理,将预处理后的文本输入到TextCNN模型中,经过预训练好的Word2Vec模型将文本表达为词向量矩阵,由TextCNN特征提取层进行特征提取,获得文本特征向量,作为高层语义信息特征;
将所述文本特征向量与由最终得到的粗粒度类别向量经编码所得的向量进行拼接,构成文本融合特征向量并输入到所述粗粒度类别所对应的Softmax分类器进行分类,其输出为一个细粒度类别向量,将该细粒度类别向量中概率最大对应的类别作为细粒度类别。
7.根据权利要求1所述的一种科技信息文本分类方法,其特征在于,所述细粒度弱分类的分类结果准确与否的判断方法为:
根据所述细粒度弱分类的分类器所输出的由各细粒度类别下的概率数值所构成的细粒度类别向量,确定在细粒度类别向量中前两大的概率数值之间的差值是否大于阈值,若是,则判断所述细粒度弱分类的分类结果准确,否则,判断为不准确。
8.根据权利要求7所述的一种科技信息文本分类方法,其特征在于,所述方法还包括:
根据所述判断方法,判断所述细粒度强分类器所得分类结果是否准确,若不准确,确定与所述粗粒度类别的欧式距离在预设范围的相邻多个粗粒度类别;
按照所述欧式距离由近及远的顺序,依次采用相邻的各粗粒度类别对应的所述细粒度强分类器进行细粒度强分类,直至分类结果根据所述判断方法判断为准确,并将该准确的分类结果作为最终的待分类科技信息文本的细粒度类别。
9.根据权利要求7所述的一种科技信息文本分类方法,其特征在于,所述相邻多个粗粒度类别具体为相邻三个粗粒度类别,则当该三个粗粒度类别对应的分类结果均判断为不准确时,将该三个粗粒度类别对应的分类结果中概率值最大的类别作为最终的待分类科技信息文本的细粒度类别。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至9任一项所述的一种科技信息文本分类方法。
CN202011090173.9A 2020-10-13 2020-10-13 一种科技信息文本分类方法 Active CN112199501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011090173.9A CN112199501B (zh) 2020-10-13 2020-10-13 一种科技信息文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011090173.9A CN112199501B (zh) 2020-10-13 2020-10-13 一种科技信息文本分类方法

Publications (2)

Publication Number Publication Date
CN112199501A true CN112199501A (zh) 2021-01-08
CN112199501B CN112199501B (zh) 2024-03-19

Family

ID=74010019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011090173.9A Active CN112199501B (zh) 2020-10-13 2020-10-13 一种科技信息文本分类方法

Country Status (1)

Country Link
CN (1) CN112199501B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197295A (zh) * 2018-01-22 2018-06-22 重庆邮电大学 基于多粒度属性树的属性约简在文本分类中的应用方法
CN112818119A (zh) * 2021-01-26 2021-05-18 支付宝(杭州)信息技术有限公司 一种信息的处理方法、装置及设备
CN113139028A (zh) * 2021-04-23 2021-07-20 上海中通吉网络技术有限公司 配送地址的预测方法
CN113254595A (zh) * 2021-06-22 2021-08-13 北京沃丰时代数据科技有限公司 闲聊识别方法、装置、电子设备及存储介质
CN113420559A (zh) * 2021-06-22 2021-09-21 苏州智汇谷科技服务有限公司 一种警情信息分层要素识别方法和计算机
CN115599921A (zh) * 2022-11-28 2023-01-13 腾讯科技(深圳)有限公司(Cn) 文本分类、文本分类模型训练方法、装置和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150134336A1 (en) * 2007-12-27 2015-05-14 Fluential Llc Robust Information Extraction From Utterances
CN109740154A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 一种基于多任务学习的在线评论细粒度情感分析方法
CN110163127A (zh) * 2019-05-07 2019-08-23 国网江西省电力有限公司检修分公司 一种由粗到细的视频目标行为识别方法
CN111046179A (zh) * 2019-12-03 2020-04-21 哈尔滨工程大学 一种面向特定领域开放网络问句的文本分类方法
CN111506728A (zh) * 2020-04-16 2020-08-07 太原科技大学 基于hd-mscnn的层次结构文本自动分类框架
CN111639186A (zh) * 2020-06-05 2020-09-08 同济大学 动态嵌入投影门控的多类别多标签文本分类模型及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150134336A1 (en) * 2007-12-27 2015-05-14 Fluential Llc Robust Information Extraction From Utterances
CN109740154A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 一种基于多任务学习的在线评论细粒度情感分析方法
CN110163127A (zh) * 2019-05-07 2019-08-23 国网江西省电力有限公司检修分公司 一种由粗到细的视频目标行为识别方法
CN111046179A (zh) * 2019-12-03 2020-04-21 哈尔滨工程大学 一种面向特定领域开放网络问句的文本分类方法
CN111506728A (zh) * 2020-04-16 2020-08-07 太原科技大学 基于hd-mscnn的层次结构文本自动分类框架
CN111639186A (zh) * 2020-06-05 2020-09-08 同济大学 动态嵌入投影门控的多类别多标签文本分类模型及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王义 等: "基于细粒度多通道卷积神经网络的文本情感分析", 计算机工程, no. 05, 15 May 2020 (2020-05-15) *
薛家秀 等: "科学论文篇章结构建模与解析研究进展", 图书与情报, 25 April 2019 (2019-04-25) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197295A (zh) * 2018-01-22 2018-06-22 重庆邮电大学 基于多粒度属性树的属性约简在文本分类中的应用方法
CN112818119A (zh) * 2021-01-26 2021-05-18 支付宝(杭州)信息技术有限公司 一种信息的处理方法、装置及设备
CN112818119B (zh) * 2021-01-26 2022-12-02 支付宝(杭州)信息技术有限公司 一种信息的处理方法、装置及设备
CN113139028A (zh) * 2021-04-23 2021-07-20 上海中通吉网络技术有限公司 配送地址的预测方法
CN113254595A (zh) * 2021-06-22 2021-08-13 北京沃丰时代数据科技有限公司 闲聊识别方法、装置、电子设备及存储介质
CN113420559A (zh) * 2021-06-22 2021-09-21 苏州智汇谷科技服务有限公司 一种警情信息分层要素识别方法和计算机
CN115599921A (zh) * 2022-11-28 2023-01-13 腾讯科技(深圳)有限公司(Cn) 文本分类、文本分类模型训练方法、装置和存储介质

Also Published As

Publication number Publication date
CN112199501B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN112199501B (zh) 一种科技信息文本分类方法
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN109815336B (zh) 一种文本聚合方法及系统
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN107168956B (zh) 一种基于管道的中文篇章结构分析方法及系统
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN111428028A (zh) 基于深度学习的信息分类方法及相关设备
CN111782797A (zh) 一种科技项目评审专家自动匹配方法及存储介质
CN109545202B (zh) 一种调整语义逻辑混乱的语料的方法及系统
CN112541337A (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN112860889A (zh) 一种基于bert的多标签分类方法
CN114997288A (zh) 一种设计资源关联方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN112732863B (zh) 电子病历标准化切分方法
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN112528653A (zh) 短文本实体识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant