CN116628195A - 文本分类方法、装置、电子设备及可读存储介质 - Google Patents
文本分类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116628195A CN116628195A CN202310453444.XA CN202310453444A CN116628195A CN 116628195 A CN116628195 A CN 116628195A CN 202310453444 A CN202310453444 A CN 202310453444A CN 116628195 A CN116628195 A CN 116628195A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- classified
- classifier
- stock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 31
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 208000019901 Anxiety disease Diseases 0.000 description 7
- 230000036506 anxiety Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及文本分类和智慧医疗领域,具体涉及一种文本分类方法、装置、电子设备及可读存储介质,其方法包括:对待分类文本进行分词处理,得到待分类词语集合;采用预构建的词库对待分类词语集合进行特征提取,得到词频特征;将词频特征输入文本分类模型,以使词频特征分别进入各分类器进行预测,得到多个预测概率值;根据所述多个预测概率值,确定待分类文本的分类结果。本申请能够充分利用标签之间的关联关系,且可通过场景语料数据构建词库,增加语料特征提取的丰富性,极大程度上提高了文本分类的准确性,相对于现有技术能够预测出更细粒度的标签,更加适用于一些特殊场景,如情感领域、智慧医疗等领域。
Description
技术领域
本申请涉及文本分类和智慧医疗技术领域,具体涉及一种文本分类方法、装置、电子设备及可读存储介质。
背景技术
文本分类技术是自然语言处理技术NLP一个重要的分支,在很多领域都有着广泛的应用,如在情感分类、主题分类、智慧医疗等领域以及技术产品中都已经得到应用。
但是现有的通用文本分类技术的预测结果比较粗糙,对于一些特定场景准确率较低,且泛化能力差。
发明内容
本申请实施例针对上述情况,提出了一种文本分类方法、装置、电子设备及可读存储介质,以克服或者部分克服现有技术的不足之处。
第一方面,本申请实施例提供了一种文本分类方法,所述方法是基于文本分类模型实现的,所述文本分类模型包括多级粒度标签,其中所述多级粒度标签中的各细粒度标签分别对应一个训练好的分类器;
所述方法包括:
对所述待分类文本进行分词处理,得到待分类词语集合;
采用预构建的词库对所述待分类文本进行特征提取,得到词频特征;
将所述词频特征输入所述文本分类模型,以使所述词频特征分别进入各所述分类器进行预测,得到多个预测概率值;
根据所述多个预测概率值,确定所述待分类文本的分类结果。
第二方面,本申请实施例还提供了一种文本分类装置,所述文本分类装置用于实现前述的文本分类方法。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行上述任一的方法。
本申请实施例采用的方法至少能够达到以下有益效果:
本申请提供了一种文本分类方法,该方法基于文本分类模型实现,对于文本分类模型,为其设置多级预测标签,各级预测标签按照粒度粗细划分,为每个最细粒度的设置一个分类器,并对二分类进行训练;且事先预构建一个词库,在词库中包含多个预测过程中关心的关键词。在对文本进行分类预测时,采用预构建的词库对待分类文本进行特征提取,得到一个词频特征,然后将词频特征分别输入文本分类模型中的每一个分类器中进行预测,得到多个预测概率值,最后根据多个预测概率值的相对大小,确定待分类文本的分类结果。本申请能够充分利用标签之间的关联关系,尤其是层次关系,将这些关系应用在分类模型的构建中;且可通过场景语料数据构建词库,增加语料特征提取的丰富性,极大程度上提高了文本分类的准确性,相对于现有技术能够预测出更细粒度的标签,更加适用于一些特殊场景,如情感领域、智慧医疗等领域。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的一个实施例的文本分类方法的流程示意图;
图2示出了根据本申请的一个实施例的文本分类模型中多级粒度标签的示意图;
图3示出了以图2示出的粒度结构为基础构建的文本分类模型的结构示意图;
图4示出了以图2示出的粒度结构为基础构建的另一种文本分类模型的结构示意图;
图5示出了根据本申请的一个实施例的文本分类装置的结构示意图;
图6为本申请实施例中一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
对于一些特殊领域,如心理领域和智慧医疗等领域,以心理领域为例,心理领域文本分类问题往往需要更加细化的分类有利于捕捉心理学语言特征,比如人称代词第一人称、第二人称、第三人称应该归属于不同的分类;在以智慧医疗领域为例,在在线问诊情境中,若一个患者咨询的是焦虑失眠,可以对焦虑做进一步的划分,如划分为工作焦虑以及情感焦虑等,从而更加精确的确定患者的病因。
但是现有技术中的文本分类方法,通常是比较粗糙的,如焦虑为一大类。对此本申请提供了一种文本分类方法,图1示出了根据本申请的一个实施例的文本分类方法的流程示意图,从图1可以看出,本申请的文本分类方法至少包括步骤S110~步骤S140:
步骤S110:对所述待分类文本进行分词处理,得到待分类词语集合;
首先获取待分类文本,对于待分类文本,通常是一段自然语音,在一些实施例中,待分类文本可以直接是一段文字;在另一些实施例中,待分类文本可以从一段语音中获得,具体的,如患者采用一段语音进行病情的咨询,可以对这段语音进行分类预测,以便为医生提供参考性意见,可以采用文本转化技术,将这一段语音转化为文字的形式,形成待分类文本。
本申请的方法可以基于文本分类模型实现的,本申请为文本分类模型设置了多级粒度标签,实际场景中,多级粒度标签为两级粒度标签最为常见,因此,以下实施例中,以多级粒度标签为两级进行说明,图2示出了根据本申请的一个实施例的文本分类模型中多级粒度标签的示意图,从图2可以看出,第一级粒度标签为粗粒度标签,包括A、B和C,第二级粒度标签为细粒度标签,包括A1、A2、A3;B1、B2;C1、C2;其中,A1、A2、A3为A的下级标签,B1、B2为B的下级标签,C1、C2为C的下级标签。
以图2示出的粒度结构为基础,构建文本分类模型,图3示出了以图2示出的粒度结构为基础构建的文本分类模型的结构示意图,从图3可以看出,文本分类模型包括多个并列且互相隔离的分类器,每个细粒度标签对应一个分类器,具体的,A1对应分类器a1、A2对应分类器a2、A3对应分类器a3、B1对应分类器b1、B2对应分类器b2、C1对应分类器c1、C2对应分类器c2,各个分类器是相互隔离且独立训练的。在本申请的一些实施例中,可以对各个分类器通常为二分类器,即预测输入内容为是不是对应的类别,且各个分类器可以采用LGBM方法训练得到。在本申请的一些实施例中,可以在各分类器后连接一个全连接层,用于确定最终的分类结果(即步骤S140),但该全连接层并不是必要,也可以通过对业务逻辑的设置,实现全连接层的作用。
LGBM方法是基于直方图算法的,直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。
使用直方图算法有很多优点,首先,最明显就是内存消耗的降低,直方图算法不仅不需要额外存储预排序的结果,而且可以只保存特征离散化后的值,而这个值一般用8位整型存储就足够了,内存消耗可以降低为原来的1/8。在使用直方图算法之上,LightGBM进行进一步的优化:首先它抛弃了大多数GBDT工具使用的按层生长(level-wise)的决策树生长策略,而使用了带有深度限制的按叶子生长(leaf-wise)算法。Level-wise过一次数据可以同时分裂同一层的叶子,容易进行多线程优化,也好控制模型复杂度,不容易过拟合。但实际上Level-wise是一种低效的算法,因为它不加区分的对待同一层的叶子,带来了很多没必要的开销,因为实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。
为了实现后续的特征提取,对待分类文本进行分词处理,得到待分类词语集合,其中包含多个由待分类文本进行分词得到的词语,对于分词处理可采用现有技术中的任意一种,对此本申请不作限定。
步骤S120:采用预构建的词库对所述待分类词语集合进行特征提取,得到词频特征。
词库是实现预构建的,词库中包含很多关键词,词库可以根据文本分类方法想要应用的场景和领域构建,其可以理解为在预测过程中,所关心的多个特征。举例来讲,一个构建好的词库中包含100个不重复的关键词。
在本申请的一些实施例中,词库可以根据下述方法进行构建:获取多条训练语料,各条所述训练语料具有细粒度的标签;对各条所述训练语料进行分词、低频词去除、以及去重处理,得到各条训练语料的高频词语集合;将得到的多个高频词语集合合并,得到候选词语集合;确定所述候选词语集合中的各词语的重要量度值,并根据所述重要量度值选取所述候选词语集合中的多个词语组成所述词库。
一条训练语料通常为一段自然语言文本,对于每条训练语料具有细粒度的标签,如前述的A1或者A2或者A3等,对于各条训练语料的处理方法是相同的,这里以一条训练语料为例进行说明,首先对训练语料进行分词处理,分词后得到多个词语,然后计算每个词语的词频,可以设定一个词频阈值,如一个词语的词频小于该词频阈值,则将该词语进行剔除,若一个词语的词频大于等于该词频阈值,则保留该词语,然后对词语进行去重处理,即可得到各条训练语料的高频词语集合;在一些实施例中,为了防止高频词语集合中出现的词语为“的”、“了”、“吗”等虚词,可以对虚词进行去除,对此,本申请不做限定,可以根据需要选择。通过对每条训练语料均进行上述的处理,可得到多个高频词语集合。
然后将所有的高频词语集合进行合并,得到候选词语集合,比如每个高频词语集合包含100个词语,一共有10个高频词语集合,则合并得到的候选词语集合包含1000个词语。然后计算候选词语集合包含的1000个词语中,每个词语的重要度量值,然后根据根据各词语的重要量度值选取候选词语集合中的多个词语组成词库。如按照重要量度值的大小,截取候选词语集合中前100(TOP100)的词语,组成词库,则词库中就包含100个关键词。
在本申请的一些实施例中,可以用TF-IDF值作为重要量度值,所述确定所述候选词语集合中各所述词语的重要量度值,并根据所述重要量度值选取所述候选词语集合中的多个词语组成所述词库,包括:确定所述候选词语集合中的各词语的TF-IDF值;按照所述TF-IDF值的大小,对所述候选词语集合中的各词语进行降序排列,得到排列结果;按照预设比例阈值,截取所述排列结果中排序在前的多个词语作为关键词,构成所述词库。
其中TF表示词频(Term Frequency),IDF表示逆向文件频率(Inverse DocumentFrequency),TF-IDF实际上是TF和IDF的乘积,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
计算候选词语集合中的每个词语的TF-IDF值;按照TF-IDF值的大小,对候选词语集合中的所有词语进行降序排列,得到排列结果;按照预设比例阈值,如10%,截取排列结果中排序在前的多个词语作为关键词,构成所述词库,即截取TOP10%的词语作为关键词,组成词库。需要说明的是,由于在TF-IDF值以及进行排序时已经考虑了词语的重复性,该步骤无需进行去重处理。
构建完成的词库中包含的多个关键词就可以理解为在预测过程中关心的特征,可以采用预构建的词库对待分类词语集合进行特征提取,得到词频特征,具体的,根据所述词库中的多个管检测的数量和排序构建初始词频特征向量;将所述待分类词语集合的各词语与所述词库中的多个关键词进行匹配;若所述待分类词语集合中的一个词语存在于所述词库中,则将所述初始词频特征向量中与所述词语的对应位置赋予第一预设值;若所述词语不存在于所述词库中,则将所述初始词频特征向量与所述词语的对应位置赋予第二预设值,得到词频特征向量作为词频特征。
词频特征可以以向量的形式表现,确定词频特征时,首先构建一个词频特征向量,词频特征可以根据词库中的词语数量和在待分类文本中的顺序进行构建,假设词库中的词语数量为100个,分别为词语W1、词语W2、词语W3、词语W4、词语W5、词语W6、词语W7、词语W8、词语W9、......和词语W100,则构建一个初始词频特征向量N=(W1,W2,W3,W4,W5,W6,W7,W8,W9,......W100),其中W1,W2,W3,W4,W5,W6,W7,W8,W9,......W100可以为相应的词语内容,也可以设置为一个区别于第一预设值和第二预设值的数值。对于待分类词语集合中的一个词语,将其与词库中的多个关键词进行匹配,若该词语存在于词库中,则将初始词频特征向量中与该词语的对应位置赋予第一预设值,如1;若该词语不存在于词库中,则将初始词频特征向量中与该词语的对应位置赋予第二预设值,如0。如待分类词语集合中的词语W1存在于词库中,则将初始词频特征向量N与词语W1对应位置的W1赋值为1,同理对各个词语进行处理,得到词频特征向量,作为词频特征,如获得的词频特征N=(1,1,0,0,1,1,0,0,0,......1),即词库中有多少词语,词频特征N中就有多少元素。
步骤S130:将所述词频特征输入所述文本分类模型,以使所述词频特征分别进入各所述分类器进行预测,得到多个预测概率值。
在得到词频特征后,将其输入图3所示的文本分类模型中,词频特征会分别同时进图每一个分类器中,即分别同时进入分类器a1、分类器a2、分类器a3、分类器b1、分类器b2、分类器c1、和分类器c2中,进行预测,以一个分类器为例,分类器输出的为一个预测概率值,该预测概率值表征的是待分类文本属于分类器对应的标签的概率,如分类器a1输出的预测概率值为0.80,则表示待分类文本属于标签A1的概率为80%。
步骤S140:根据所述多个预测概率值,确定所述待分类文本的分类结果。
最后,根据各个分类器输出的预测概率值,确定待分类文本的分类结果。最简单的方法是将预测概率值最大的那一个分类器对应的标签,作为待分类文本的分类结果。
由于本申请的文本分类模型具有多级别粒度标签,因此根据需要可以设定多种形式的输出结果,分类结果为粗粒度标签和/或细粒度标签,具体的,根据所述多个预测概率值,确定所述待分类文本的分类结果包括:确定所述多个预测概率值中的最大值;将与所述最大值对应的细粒度标签,作为所述待分类文本的分类结果;或者,将与所述最大值对应的细粒度标签所属的粗粒度标签,作为所述待分类文本的分类结果;或者,将与所述最大值对应的细粒度标签,以及与所述最大值对应的细粒度标签所属的粗粒度标签,共同作为所述待分类文本的分类结果。
假设分类器a1、分类器a2、分类器a3、分类器b1、分类器b2、分类器c1、和分类器c2输出的预测概率值分别为0.80、0.70、0.75、0.30、0.32、0.2,确定出多个预测概率值中的最大值为0.80,将与最大值0.8对应的细粒度标签A1,作为所述待分类文本的分类结果,即输出待待分类文本的预测结果为A1。
如果根据场景需求,无需特别细粒度的划分,则可以直接输出最大值对应的细粒度标签所属的粗粒度标签,如将与最大值0.8对应的细粒度标签A1所属的粗粒度标签A,作为所述待分类文本的分类结果,即输出待待分类文本的预测结果为A。
在另一些实施例中,也可以同时输出粗和细粒度的标签,如焦虑-工作焦虑,对于上述情景,可同时输出粗粒度标签A和细粒度标签A1。
如图1所示的方法可以看出,本申请提供了一种文本分类方法,该方法基于文本分类模型实现,对于文本分类模型,为其设置多级预测标签,各级预测标签按照粒度粗细划分,为每个最细粒度的设置一个分类器,并对二分类进行训练;且事先预构建一个词库,在词库中包含多个预测过程中关心的关键词。在对文本进行分类预测时,采用预构建的词库对待分类文本进行特征提取,得到一个词频特征,然后将词频特征分别输入文本分类模型中的每一个分类器中进行预测,得到多个预测概率值,最后根据多个预测概率值的相对大小,确定待分类文本的分类结果。本申请能够充分利用标签之间的关联关系,尤其是层次关系,将这些关系应用在分类模型的构建中;且可通过场景语料数据构建词库,增加语料特征提取的丰富性,极大程度上提高了文本分类的准确性,相对于现有技术能够预测出更细粒度的标签,更加适用于一些特殊场景,如情感领域、智慧医疗等领域。
在本申请的一些实施例中,各所述细粒度标签对应的分类器的输出端还分别连接一个训练好的再分类分类器;所述方法还包括:若所述多个预测概率值中的至少两个数值相等,则根据所述多个预测概率值,构建二次预测向量;将所述二次预测向量分别输入各所述细粒度标签对应的再分类分类器中进行预测,得到所述待分类文本的分类结果。
图4示出了以图2示出的粒度结构为基础构建的另一种文本分类模型的结构示意图,具体的,是在每一个细粒度标签的分类器后设置一个再分类分类器,具体如图所示,分别在分类器a1、分类器a2、分类器a3、分类器b1、分类器b2、分类器c1和分类器c2后连接再分类分类器a11、再分类分类器a21、分类器a31、再分类分类器b11、再分类分类器b21、再分类分类器c11、再分类分类器c21,再分类分类器a11、再分类分类器a21、再分类分类器a31、再分类分类器b11、再分类分类器b21、再分类分类器c11、再分类分类器c21作为再分类分类器,这主要是由于本申请中对粒度分割比较细致,在一些情况下,可能会出现两个或者多个预测概率值一样大的情景,如分类器a1、分类器a2输出的预测概率值均为0.8,这种情况下,可以对根据所述多个预测概率值,构建二次预测向量;将所述二次预测向量分别输入各各所述细粒度标签对应的再分类分类器中进行预测,得到所述待分类文本的分类结果。
在训练过程中,将每条训练样本在不同分类器预测得分进行合并组成一个新的向量特征,基于新的向量特征,可以再对每个再分类分类器进行训练,具体可以通过lgbm对再分类分类器进行训练。
预测过程的逻辑与训练过程是一致的,以一条待分类文本为例,将其在各个分类器中得到的预测概率值合并,构建一个二次预测向量,假设分类器a1、分类器a2、分类器a3、分类器b1、分类器b2、分类器c1、和分类器c2输出的预测概率值分别为0.80、0.80、0.75、0.30、0.32、0.2,则构建的二次预测向量M=(0.80,0.80,0.75,0.30,0.32,0.2),将其分别输入再分类分类器a11、再分类分类器a21、再分类分类器a31、再分类分类器b11、再分类分类器b21、再分类分类器c11、再分类分类器c21中,同理可以得到多个预测概率值,可以选取预测概率值最大的再分类分类器对应的细粒度标签和/或粗粒度标签,从而得到待分类文本的分类结果。
同前,所述所述再分类分类器可以为二分类器,且是采用LGBM方法训练的。
图5示出了根据本申请的一个实施例的文本分类装置的结构示意图,文本分类装置部署有文本分类模型,所述文本分类模型包括多级粒度标签,其中所述多级粒度标签中的各细粒度标签分别对应一个训练好的分类器;从图5可以看出,文本分类装置500包括:
分词单元510,用于对所述待分类文本进行分词处理,得到待分类词语集合;
特征提取单元520,用于采用预构建的词库对所述待分类词语集合进行特征提取,得到词频特征;
概率预测单元530,用于将所述词频特征输入所述文本分类模型,以使所述词频特征分别进入各所述分类器进行预测,得到多个预测概率值;
结果确定单元540,用于根据所述多个预测概率值,确定所述待分类文本的分类结果。
在本申请的一些实施例中,在上述装置中,各所述细粒度标签对应的分类器的输出端还分别连接一个训练好的再分类分类器;结果确定单元540,还用于若所述多个预测概率值中的至少两个数值相等,则根据所述多个预测概率值,构建二次预测向量;将所述二次预测向量分别输入各所述细粒度标签对应的再分类分类器中进行预测,得到所述待分类文本的分类结果。
在本申请的一些实施例中,在上述装置中,所述分类器或者所述再分类分类器为二分类器,且是采用LGBM方法训练的。
在本申请的一些实施例中,上述装置还包括:词库构建单元,用于获取多条训练语料,各条所述训练语料具有细粒度的标签;对各条所述训练语料进行分词、低频词去除、以及去重处理,得到各条训练语料的高频词语集合;将得到的多个高频词语集合合并,得到候选词语集合;确定所述候选词语集合中的各词语的重要量度值,并根据所述重要量度值选取所述候选词语集合中的多个词语组成所述词库。
在本申请的一些实施例中,在上述装置中,所述重要量度值为TF-IDF值;词库构建单元,用于确定所述候选词语集合中的各词语的TF-IDF值;按照所述TF-IDF值的大小,对所述候选词语集合中的各词语进行降序排列,得到排列结果;按照预设比例阈值,截取所述排列结果中排序在前的多个词语作为关键词,构成所述词库。
在本申请的一些实施例中,在上述装置中,所述词库包含多个关键词;特征提取单元520,用于根据所述词库中的多个管检测的数量和排序构建初始词频特征向量;将所述待分类词语集合的各词语与所述词库中的多个关键词进行匹配;若所述待分类词语集合中的一个词语存在于所述词库中,则将所述初始词频特征向量中与所述词语的对应位置赋予第一预设值;若所述词语不存在于所述词库中,则将所述初始词频特征向量与所述词语的对应位置赋予第二预设值,得到词频特征向量作为所述词频特征。
在本申请的一些实施例中,在上述装置中,结果确定单元540,用于确定所述多个预测概率值中的最大值;将与所述最大值对应的细粒度标签,作为所述待分类文本的分类结果;或者,将与所述最大值对应的细粒度标签所属的粗粒度标签,作为所述待分类文本的分类结果;或者,将与所述最大值对应的细粒度标签,以及与所述最大值对应的细粒度标签所属的粗粒度标签,共同作为所述待分类文本的分类结果。
需要说明的是,上述的文本分类装置可一一实现前述的文本分类方法,这里不再一一赘述。
图6是本申请的一个实施例电子设备的结构示意图。请参考图6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本分类装置。处理器,执行存储器所存放的程序,并具体用于执行前述方法。
上述如本申请图5所示实施例揭示的文本分类装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的配置信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图5中文本分类装置执行的方法,并实现文本分类装置在图5所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图5所示实施例中文本分类装置执行的方法,并具体用于执行前述方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现配置信息存储。配置信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的配置信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的同一要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法是基于文本分类模型实现的,所述文本分类模型包括多级粒度标签,其中所述多级粒度标签中的各细粒度标签分别对应一个训练好的分类器;
所述方法包括:
对所述待分类文本进行分词处理,得到待分类词语集合;
采用预构建的词库对所述待分类词语集合进行特征提取,得到词频特征;
将所述词频特征输入所述文本分类模型,以使所述词频特征分别进入各所述分类器进行预测,得到多个预测概率值;
根据所述多个预测概率值,确定所述待分类文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,各所述细粒度标签对应的分类器的输出端还分别连接一个训练好的再分类分类器;
所述方法还包括:
若所述多个预测概率值中的至少两个数值相等,则根据所述多个预测概率值,构建二次预测向量;
将所述二次预测向量分别输入各所述细粒度标签对应的再分类分类器中进行预测,得到所述待分类文本的分类结果。
3.根据权利要求1或2所述的方法,其特征在于,所述分类器或者所述再分类分类器为二分类器,且是采用LGBM方法训练的。
4.根据权利要求1所述的方法,其特征在于,所述词库是根据下述方法构建的:
获取多条训练语料,各条所述训练语料具有细粒度的标签;
对各条所述训练语料进行分词、低频词去除、以及去重处理,得到各条训练语料的高频词语集合;
将得到的多个高频词语集合合并,得到候选词语集合;
确定所述候选词语集合中的各词语的重要量度值,并根据所述重要量度值选取所述候选词语集合中的多个词语组成所述词库。
5.根据权利要求4所述的方法,其特征在于,所述重要量度值为TF-IDF值;
所述确定所述候选词语集合中各所述词语的重要量度值,并根据所述重要量度值选取所述候选词语集合中的多个词语组成所述词库,包括:
确定所述候选词语集合中的各词语的TF-IDF值;
按照所述TF-IDF值的大小,对所述候选词语集合中的各词语进行降序排列,得到排列结果;
按照预设比例阈值,截取所述排列结果中排序在前的多个词语作为关键词,构成所述词库。
6.根据权利要求1所述的方法,其特征在于,所述词库包含多个关键词;
所述采用预构建的词库对所述待分类文本进行特征提取,得到词频特征,包括:
根据所述词库中的多个管检测的数量和排序构建初始词频特征向量;
将所述待分类词语集合的各词语与所述词库中的多个关键词进行匹配;若所述待分类词语集合中的一个词语存在于所述词库中,则将所述初始词频特征向量中与所述词语的对应位置赋予第一预设值;
若所述词语不存在于所述词库中,则将所述初始词频特征向量与所述词语的对应位置赋予第二预设值,得到词频特征向量作为所述词频特征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述多个预测概率值,确定所述待分类文本的分类结果,包括:
确定所述多个预测概率值中的最大值;
将与所述最大值对应的细粒度标签,作为所述待分类文本的分类结果;
或者,将与所述最大值对应的细粒度标签所属的粗粒度标签,作为所述待分类文本的分类结果;
或者,将与所述最大值对应的细粒度标签,以及与所述最大值对应的细粒度标签所属的粗粒度标签,共同作为所述待分类文本的分类结果。
8.一种文本分类装置,其特征在于,所述文本分类装置用于实现权利要求1~7中任一项所述的文本分类方法。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~7任一项所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453444.XA CN116628195A (zh) | 2023-04-17 | 2023-04-17 | 文本分类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310453444.XA CN116628195A (zh) | 2023-04-17 | 2023-04-17 | 文本分类方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116628195A true CN116628195A (zh) | 2023-08-22 |
Family
ID=87590988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310453444.XA Pending CN116628195A (zh) | 2023-04-17 | 2023-04-17 | 文本分类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628195A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236329A (zh) * | 2023-11-15 | 2023-12-15 | 阿里巴巴达摩院(北京)科技有限公司 | 文本分类方法、装置及相关设备 |
-
2023
- 2023-04-17 CN CN202310453444.XA patent/CN116628195A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236329A (zh) * | 2023-11-15 | 2023-12-15 | 阿里巴巴达摩院(北京)科技有限公司 | 文本分类方法、装置及相关设备 |
CN117236329B (zh) * | 2023-11-15 | 2024-02-06 | 阿里巴巴达摩院(北京)科技有限公司 | 文本分类方法、装置及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189991B (zh) | 重复视频识别方法、装置、终端及计算机可读存储介质 | |
CN107798136B (zh) | 基于深度学习的实体关系抽取方法、装置及服务器 | |
CN112632980B (zh) | 一种基于大数据深度学习的企业分类方法、系统及电子设备 | |
CN108804421B (zh) | 文本相似性分析方法、装置、电子设备及计算机存储介质 | |
KR100816923B1 (ko) | 문서 분류 시스템 및 그 방법 | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
CN105760526B (zh) | 一种新闻分类的方法和装置 | |
Pinto et al. | Clustering narrow-domain short texts by using the Kullback-Leibler distance | |
JP2004139222A (ja) | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム | |
CN112434167B (zh) | 一种信息识别方法及装置 | |
US20120197936A1 (en) | System and method for using a combination of semantic and statistical processing of input strings or other data content | |
KR102334236B1 (ko) | 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 | |
CN116628195A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN112446405A (zh) | 一种家电客服的用户意图引导方法及智能家电 | |
CN117252183B (zh) | 一种基于语义的多源表格自动匹配方法、装置及存储介质 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN117113174A (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN115496066A (zh) | 文本分析系统、方法、电子设备及存储介质 | |
CN116127068A (zh) | 一种文本分类方法、装置、设备以及存储介质 | |
CN113641766A (zh) | 一种关系识别方法、装置、存储介质及电子设备 | |
KR20180101955A (ko) | 문헌 스코어링 방법 및 문헌 검색 시스템 | |
Cleuziou et al. | Qassit: A pretopological framework for the automatic construction of lexical taxonomies from raw texts | |
US20200125682A1 (en) | Associating documents with application programming interfaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |