CN116955625A - 文本分类方法、装置、电子设备及存储介质 - Google Patents
文本分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116955625A CN116955625A CN202310984816.1A CN202310984816A CN116955625A CN 116955625 A CN116955625 A CN 116955625A CN 202310984816 A CN202310984816 A CN 202310984816A CN 116955625 A CN116955625 A CN 116955625A
- Authority
- CN
- China
- Prior art keywords
- classification
- text
- classified
- keyword
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 86
- 238000013145 classification model Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本分类的方法、装置、电子设备及存储介质,其中方法包括:利用待分类文本的模型分类概率值与模型分类预设阈值的比较结果来调节待分类文本的关键词提取阈值,从而动态控制待分类文本的关键词的提取范围,进而调节待分类文本的关键词分类概率值的精度。然后再根据待分类文本的模型分类概率值和关键词分类概率值与各自预设阈值的比较结果来调节综合概率权重。最后根据模型分类概率值、关键词分类概率值和综合概率权重确定待分类文本的综合分类概率值。本发明综合利用了模型分类结果和关键词分类结果来推导待分类文本的类型,避免了由单一分类方法造成误判和漏判的情况,提高了文本分类的准确率和客观性。
Description
技术领域
本申请涉及文本处理技术领域,尤其涉及一种文本分类的方法、装置、电子设备及存储介质。
背景技术
文本分类是指在给定的分类体系下,根据文本内容自动识别文本类型的过程。文本分类是计算机自然语言处理中比较基础的研究方向,目前也已经有了比较多的研究和成果,较为常见的方式是基于关键词搜索或者机器学习模型等技术来实现文本分类。但是现有技术因为受训练数据质量和文本类型多样性的影响,往往难以保证分类结果的准确性和效率。如何精确、高效地确定文本的类型成为亟待解决的问题。
发明内容
为了解决上述技术问题,本申请实施例提供了一种文本分类方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:
通过分类模型获得待分类文本的模型分类概率值;
根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词;
根据所述待分类文本的关键词以及预设类型的特征词,获得所述待分类文本的关键词分类概率值;
根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重;
根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值;
根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型。
在一实施方式中,所述根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词,包括:
根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值;
通过关键词提取算法和所述关键词提取阈值获取所述待分类文本的关键词。
在一实施方式中,所述根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值,包括:
当所述待分类文本的模型分类概率值大于所述模型分类预设阈值时,获取第一提取阈值为所述关键词提取阈值;
当所述待分类文本的模型分类概率值小于所述模型分类预设阈值时,获取第二提取阈值为所述关键词提取阈值。
在一实施方式中,所述根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重,包括:
根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重。
在一实施方式中,所述根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重,包括:
当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第一概率权重为所述综合概率权重;
当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第二概率权重为所述综合概率权重;
当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第三概率权重为所述综合概率权重;
当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第四概率权重为所述综合概率权重。
在一实施方式中,所述根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值,包括:
获得所述待分类文本的所述模型分类概率值及其综合概率权重的第一乘积,以及所述关键词分类概率值及其综合概率权重的第二乘积;
根据所述第一乘积和所述第二乘积,生成所述待分类文本的综合分类概率值。
在一实施方式中,所述根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型,包括:
将所述待分类文本的所述综合分类概率值中最高概率值对应的预设类型确定为所述待分类文本的类型;
或者,将所述待分类文本的所述综合分类概率值中超过综合分类预设阈值的概率值对应的预设类型确定为所述待分类文本的类型。
第二方面,本发明实施例提供了一种文本分类装置,所述装置包括:
模型分类概率获得模块,用于通过分类模型获得待分类文本的模型分类概率值;
关键词获取模块,用于根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词;
关键词分类概率获得模块,用于根据所述待分类文本的关键词以及预设类型的特征词,获得所述待分类文本的关键词分类概率值;
综合概率权重确定模块,用于根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重;
综合分类概率获得模块,用于根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值;
分类模块,用于根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型。
第三方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的文本分类方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的文本分类方法。
上述本申请提供的文本分类方法、装置、电子设备及存储介质,利用待分类文本的模型分类概率值与模型分类预设阈值的比较结果来调节待分类文本的关键词提取阈值,从而动态控制待分类文本的关键词的提取范围,进而调节待分类文本的关键词分类概率值的精度。然后再根据待分类文本的模型分类概率值和关键词分类概率值与各自预设阈值的比较结果来调节综合概率权重。最后根据模型分类概率值、关键词分类概率值和综合概率权重确定待分类文本的综合分类概率值。本发明综合利用了模型分类结果和关键词分类结果来推导待分类文本的类型,避免了由单一分类方法造成误判和漏判的情况,提高了文本分类的准确率和客观性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例提供的文本分类方法的一流程示意图;
图2示出了本申请实施例提供的文本分类方法中步骤S102的一流程示意图;
图3示出了本申请实施例提供的文本分类装置的一结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
实施例1
本公开实施例提供了一种文本分类方法。
参见图1,文本分类方法包括:
步骤S101,通过分类模型获得待分类文本的模型分类概率值。
具体的,将待分类文本输入到文本分类模型,通过分类模型计算出待分类文本针对每个预设文本类型的分类概率值。上述文本分类模型可以选用常见的基于机器学习技术的分类模型,比如FastText、TextCNN、TextRNN、BiLSTM等。
在本实施例中采用了TextCNN模型生成待分类文本的模型分类概率值。TextCNN模型采用卷积神经网络来解决分类问题,其主要思想是将不同长度的短文本作为矩阵输入,使用多个不同大小的过滤器去提取句子中的关键信息,然后利用这些信息进行分类。相比NLP中传统的RNN/LSTM等模型,TextCNN能更加高效的提取文本中的重要特征,从而更容易的预测文本类型。如上所述,待分类文本为一份汽车买卖合同,预设文本类型包括:买卖合同、租赁合同、服务合同、劳动用工合同共四类。通过TextCNN模型计算出该汽车买卖合同针对这四类预设类型的分类概率值为:
预设类型 | 模型分类概率值 |
买卖合同 | 55% |
租赁合同 | 15% |
服务合同 | 20% |
劳动用工合同 | 10% |
步骤S102,根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词。
具体的,为获取所述待分类文本的关键词,需要先将待分类文本的模型分类概率值与预先设置好的模型分类预设阈值进行比较,根据比较结果确定待分类文本的关键词提取阈值。通常,关键词提取阈值代表根据关键词重要度从待分类文本的候选关键词中选取作为分类预测的关键词的个数。然后利用关键词提取算法对待分类文本进行预处理,包括去除停用词、分词、去除数字和符号等,进而获得待分类文本的候选关键词,同时计算出每个候选关键词对应的重要度。最后根据候选关键词的重要度以及调整过的关键词提取阈值确定待分类文本的关键词。
在一实施方式中,所述根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词,请参阅图2,步骤S102包括:
步骤S1021,根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值;
步骤S1022,通过关键词提取算法和所述关键词提取阈值获取所述待分类文本的关键词。
具体的,将待分类文本的模型分类概率值与预先设置好的模型分类预设阈值进行比较,根据比较结果调整关键词提取阈值的高低,从而控制待分类文本的关键词的提取范围,以起到调节待分类文本的关键词分类概率值的精度的作用。然后利用关键词提取算法对待分类文本进行预处理,包括去除停用词、分词、去除数字和符号等,进而获得待分类文本的候选关键词并计算每个候选关键词对应的重要度。根据候选关键词的重要度以及调节过的关键词提取阈值确定最终的待分类文本的关键词。
例如,待分类文本为一份汽车买卖合同,预设文本类型包括:买卖合同、租赁合同、服务合同、劳动用工合同共四类。通过分类模型计算出该汽车买卖合同针对这四类预设类型的分类概率值分别为:55%、15%、20%、10%。将这些分类概率值与预先设置好的模型分类预设阈值进行比较,在本实施例中,模型分类预设阈值为50%。当发现4个分类概率值中针对买卖合同的分类概率值大于50%,则调整关键词提取阈值为8,代表将选取重要度排名前8的候选关键词作为该汽车买卖合同的分类关键词。
在确定关键词提取阈值之后,开始获取该汽车买卖合同的候选关键词以及候选关键词对应的重要度,具体过程可以包括:
1、对该汽车买卖合同进行预处理,包括去除停用词、分词、去除数字和符号等。其中,停用词是指在文本中频繁出现但没有实际意义的词语,如“的”、“是”、“在”等。分词是将连续的文本切割成有意义的词语。去除数字和符号则是为了减少噪声干扰,保留有实际意义的词语。预处理之后的词语即为候选关键词。经过对该汽车买卖合同预处理之后,总共获得10个候选关键词为“规格、数量、价格、验收、质量、保修、售后、协商、甲方、乙方”
2、根据关键词提取算法计算每个候选关键词的重要度。其中,关键词提取算法可以是TF-IDF算法,也可以是其他常用的关键词提取方法。候选关键词的重要度值越高,说明该候选关键词对于待分类文本的区分度越大,越适合作为待分类文本的分类关键词。在本实施例中,采用TF-IDF算法作为关键词提取算法。TF-IDF算法的计算公式如下:
TF-IDF=TF×IDF
其中,TF(Term Frequency)表示关键词在文本中出现的频率,具体计算公式如下:
其中,ni,j为关键词ti在文本dj中出现的次数,∑knk,j是文本dj中所有关键词的个数。
IDF(Inverse Document Frequency)表示关键词的逆文本频率,通过对关键词的文本频率的倒数取对数得到,具体计算公式如下:
其中,|D|表示合同库中所有合同文本的总数,表示文本中包含关键词ti的数量。为防止该关键词在所有合同文本中不存在,即分母为0,使用/>作为分母。
根据TF-IDF算法计算出该买卖合同的10个候选关键词的重要度分别为:
候选关键词 | 重要度 |
规格 | 0.03 |
数量 | 0.01 |
价格 | 0.01 |
验收 | 0.04 |
质量 | 0.03 |
保修 | 0.04 |
售后 | 0.009 |
协商 | 0.008 |
甲方 | 0.002 |
乙方 | 0.002 |
最后,根据这10个候选关键词的重要度以及调节过的关键词提取阈值8,选取重要度从高到低排名前8的候选关键词作为该汽车买卖合同的关键词,也就是将“规格、数量、价格、验收、质量、保修、售后、协商”这8个词作为该汽车买卖合同的关键词。
在一实施方式中,所述根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值,包括:
当所述待分类文本的模型分类概率值大于所述模型分类预设阈值时,获取第一提取阈值为所述关键词提取阈值;
当所述待分类文本的模型分类概率值小于所述模型分类预设阈值时,获取第二提取阈值为所述关键词提取阈值。
具体的,将分类模型计算出的待分类文本的所有的模型分类概率值逐一与预先设置好的模型分类预设阈值进行比较。如果发现存在有模型分类概率值超过模型分类预设阈值的情况,则获取第一提取阈值作为关键词提取阈值。第一提取阈值可以是预先设置好的值,也可以根据模型分类概率值超过模型分类预设阈值的幅度,或者超过模型分类预设阈值的模型分类概率值的数量与预设类型数量的比例计算得出。其中,模型分类概率值超过模型分类预设阈值的幅度越大,或者超过模型分类预设阈值的模型分类概率值的数量与预设类型数量的比例越高,获取的第一提取阈值就越高。如果发现所有的模型分类概率值都低于模型分类预设阈值,则获取第二提取阈值作为关键词提取阈值。第二提取阈值可以是预先设置好的值,也可以根据模型分类概率值低于模型分类预设阈值的幅度计算得出。其中,模型分类概率值低于模型分类预设阈值的幅度越大,获取的第二提取阈值就越低。最终实现根据待分类文本的模型分类概率值与模型分类预设阈值的关系来调节关键词提取阈值的高低。
例如,待分类文本为汽车买卖合同,通过分类模型计算出该汽车买卖合同针对买卖合同、租赁合同、服务合同、劳动用工合同这四类预设类型的模型分类概率值分别为:55%、15%、20%、10%。且模型分类预设阈值为50%。
预设类型 | 模型分类概率值 | 比较模型分类预设阈值 |
买卖合同 | 55% | 大于 |
租赁合同 | 15% | 小于 |
服务合同 | 20% | 小于 |
劳动用工合同 | 10% | 小于 |
通过逐一比较发现,该汽车买卖合同针对买卖合同类型的模型分类概率值大于模型分类预设阈值,因此获取第一提取阈值作为关键词提取阈值,本实施例中第一提取阈值为预先设置好的值8,代表将选取重要度排名前8的候选关键词作为该汽车买卖合同的关键词,用于计算其关键词分类概率值。
可选的,也可以通过以下公式计算出第一提取阈值:
第一提取阈值=OKN×(K1/(1+e-ECR))
其中,OKN代表待分类文本的候选关键词总数,ECR代表待分类文本的最高的分类概率值超过模型分类预设阈值的幅度,K1为阈值系数1.5。
说明:如果K1/(1+e-ECR)的值大于1,则最终K1/(1+e-ECR)的取值为1。ECR越大,第一提取阈值就越大。
在本实施例中,OKN为10,ECR为5%(55%-50%),因此:
第一提取阈值=10×(1.5/(1+e-0.05))≈8
代表将选取重要度排名前8的候选关键词作为该汽车买卖合同的关键词,用于计算其关键词分类概率值。
类似的,如果该汽车买卖合同针对买卖合同、租赁合同、服务合同、劳动用工合同这四类预设类型的模型分类概率值分别为:45%、20%、20%、15%。且模型分类预设阈值为50%。
预设类型 | 模型分类概率值 | 比较模型分类预设阈值 |
买卖合同 | 45% | 小于 |
租赁合同 | 20% | 小于 |
服务合同 | 20% | 小于 |
劳动用工合同 | 15% | 小于 |
通过逐一比较发现,该汽车买卖合同所有的分类概率值都低于模型分类预设阈值,因此获取第二提取阈值作为关键词提取阈值,本实施例中第二提取阈值为预先设置好的值5,代表将选取重要度排名前5的候选关键词作为该汽车买卖合同的关键词,用于计算其关键词分类概率值。
可选的,也可以通过以下公式计算出第二提取阈值:
第二提取阈值=OKN×(K2×(1-UCR/TC))
其中,OKN代表待分类文本的候选关键词总数,UCR代表待分类文本的最高的分类概率值低于模型分类预设阈值的幅度,TC为模型分类预设阈值,K2为阈值系数0.5。
说明:如果1-UCR/TC的值等于0,则最终1-UCR/TC的取值为0.1。UCR越大,第二提取阈值就越小。
在本实施例中,OKN为10,UCR为5%(50%-45%),TC为50%,因此:
第二提取阈值=10×(0.5×(1-0.05/0.5))≈5
代表将选取重要度排名前5的候选关键词作为该汽车买卖合同的关键词,用于计算其关键词分类概率值。
步骤S103,根据所述待分类文本的关键词以及预设类型的特征词,获得所述待分类文本的关键词分类概率值。
具体的,在确定待分类文本的关键词之后,获取所有预设类型的特征词。预设类型的特征词是预先从每个类型的文本库中提取出来,代表了每类文本的关键特征。然后将待分类文本的关键词逐一与每个预设类型的特征词进行相似度计算,以获得待分类文本与每个预设类型的关键词分类概率值。
例如,待分类文本为汽车买卖合同,其用于分类的关键词为“规格、数量、价格、验收、质量、保修、售后、协商”。预设类型为买卖合同、租赁合同、服务合同、劳动用工合四个类型,每个类型的特征词分别为:
预设类型 | 预设类型特征词 |
买卖合同 | 规格、数量、费用、验收、质量、售后、协商、包装 |
租赁合同 | 出租、租赁、押金、租金、交接、租期、物业、费用 |
服务合同 | 服务、质量、费用、报酬、委托、周期、承接、检验 |
劳动用工合同 | 劳动、派遣、试用期、待遇、报酬、加班、年休假、制度 |
计算待分类文本的关键词向量与每个预设类型的特征词向量的余弦相似度值,进而获得待分类文本相对于每个预设类型的关键词分类概率值。
预设类型 | 关键词分类概率值 |
买卖合同 | 70% |
租赁合同 | 30% |
服务合同 | 40% |
劳动用工合同 | 20% |
步骤S104,根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重。
在一实施方式中,所述根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重,包括:
根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重。
具体的,将待分类文本的模型分类概率值与预先设置好的模型分类预设阈值进行比较,同时将待分类文本的关键词分类概率值与预先设置好的关键词分类预设阈值进行比较,根据模型分类和关键词分类两个分类维度的比较结果,确定综合概率权重。综合概率权重包含模型分类综合概率权重和关键词分类综合概率权重。确定综合概率权重指同时设置模型分类综合概率权重和关键词分类综合概率权重,以便利用模型分类结果和关键词分类结果获取更加客观的综合分类结果。
在一实施方式中,所述根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重,包括:
当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第一概率权重为所述综合概率权重;
当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第二概率权重为所述综合概率权重;
当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第三概率权重为所述综合概率权重;
当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第四概率权重为所述综合概率权重。
具体的,针对每个预设类型,将待分类文本在该预设类型下的模型分类概率值与预先设置好的模型分类预设阈值进行比较,并且将待分类文本在该预设类型下的关键词分类概率值与预先设置好的关键词分类预设阈值进行比较。
如果发现该预设类型对应的模型分类概率值大于模型分类预设阈值,并且关键词分类概率值大于关键词分类预设阈值,则获取第一概率权重为该预设类型的综合概率权重。第一概率权重可以是预先设置好的值,也可以根据模型分类概率值超过模型分类预设阈值的幅度,以及关键词分类概率值超过关键词分类预设阈值的幅度计算得出。
如果发现该预设类型对应的模型分类概率值大于模型分类预设阈值,并且关键词分类概率值小于关键词分类预设阈值,则获取第二概率权重为该预设类型对应的综合概率权重。第二概率权重可以是预先设置好的值,也可以根据模型分类概率值超过模型分类预设阈值的幅度,以及关键词分类概率值低于关键词分类预设阈值的幅度计算得出。
如果发现该预设类型对应的模型分类概率值小于模型分类预设阈值,并且关键词分类概率值大于关键词分类预设阈值,则获取第三概率权重为该预设类型对应的综合概率权重。第三概率权重可以是预先设置好的值,也可以根据模型分类概率值低于模型分类预设阈值的幅度,以及关键词分类概率值超过关键词分类预设阈值的幅度计算得出。
如果发现该预设类型对应的模型分类概率值小于模型分类预设阈值,并且关键词分类概率值小于关键词分类预设阈值,则获取第四概率权重为该预设类型对应的综合概率权重。第四概率权重可以是预先设置好的值,也可以根据模型分类概率值低于模型分类预设阈值的幅度,以及关键词分类概率值低于关键词分类预设阈值的幅度计算得出。
例如,待分类文本为汽车买卖合同,通过分类模型计算出该汽车买卖合同针对买卖合同、租赁合同、服务合同、劳动用工合同这四类预设类型的模型分类概率值分别为:35%、35%、20%、5%。且模型分类预设阈值为30%。
预设类型 | 模型分类概率值 | 比较模型分类预设阈值 |
买卖合同 | 35% | 大于 |
租赁合同 | 35% | 大于 |
服务合同 | 20% | 小于 |
劳动用工合同 | 10% | 小于 |
通过关键词分类算法计算出该汽车买卖合同针对买卖合同、租赁合同、服务合同、劳动用工合同这四类预设类型的关键词分类概率值分别为:60%、30%、55%、20%。且关键词分类预设阈值为50%。
预设类型 | 关键词分类概率值 | 比较关键词分类预设阈值 |
买卖合同 | 60% | 大于 |
租赁合同 | 30% | 小于 |
服务合同 | 55% | 大于 |
劳动用工合同 | 20% | 小于 |
通过逐一比较发现,针对预设类型买卖合同类型,该汽车买卖合同的模型分类概率值大于模型分类预设阈值,同时关键词分类概率值也大于关键词分类预设阈值,因此获取第一概率权重为预设类型买卖合同类型的综合概率权重。本实施例中第一概率权重为预先设置好的值,即模型分类综合概率权重为50%和关键词分类综合概率权重为50%。
针对预设类型租赁合同类型,该汽车买卖合同的模型分类概率值大于模型分类预设阈值,但是关键词分类概率值小于关键词分类预设阈值,因此获取第二概率权重为预设类型租赁合同类型的综合概率权重。本实施例中第二概率权重为预先设置好的值,即模型分类综合概率权重为40%和关键词分类综合概率权重为60%。
针对预设类型服务合同类型,该汽车买卖合同的模型分类概率值小于模型分类预设阈值,但是关键词分类概率值大于关键词分类预设阈值,因此获取第三概率权重为预设类型服务合同类型的综合概率权重。本实施例中第三概率权重为预先设置好的值,即模型分类综合概率权重为60%和关键词分类综合概率权重为40%。
针对预设类型劳动用工合同类型,该汽车买卖合同的模型分类概率值小于模型分类预设阈值,并且关键词分类概率值也小于关键词分类预设阈值,因此获取第四概率权重为预设类型劳动用工合同类型的综合概率权重。本实施例中第四概率权重为预先设置好的值,即模型分类综合概率权重为50%和关键词分类综合概率权重为50%。
可选的,也可以通过以下综合概率权重计算公式得出:
1)当CR>0,KR>0或者CR<0,KR<0时,模型分类综合概率权重=(|CR|/TC)/(|CR|/TC+|KR|/TK)
2)当CR>0,KR<0时,模型分类综合概率权重=0.5-0.5×(1+|KR|)/2
其中,关键词分类概率值低于关键词分类预设阈值的幅度越大,模型分类综合概率权重就越低。
3)当CR<0,KR>0时,模型分类综合概率权重=0.5+0.5×(1-|CR|)/2
其中,模型分类概率值低于模型分类预设阈值的幅度越大,模型分类综合概率权重就越高。
关键词分类综合概率权重=1-模型分类综合概率权重
其中,CR代表待分类文本的模型分类概率值超过或低于模型分类预设阈值的幅度,KR代表待分类文本的关键词分类概率值超过或低于关键词分类预设阈值的幅度,TC为模型分类预设阈值,TK为关键词分类预设阈值。
在本实施例中,针对4个预设类型的CR和KR值分别为:
预设类型 | CR | KR |
买卖合同 | 0.05 | 0.1 |
租赁合同 | 0.05 | -0.2 |
服务合同 | -0.1 | 0.05 |
劳动用工合同 | -0.2 | -0.3 |
根据综合概率权重计算公式得出每个预设类型的综合概率权重:
步骤S105,根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值。
在一实施方式中,所述根据所述待分类文本的所述模型分类概率值和关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值,包括:
获得所述待分类文本的所述模型分类概率值及其综合概率权重的第一乘积,以及所述关键词分类概率值及其综合概率权重的第二乘积;
根据所述第一乘积和所述第二乘积,生成所述待分类文本的综合分类概率值。
具体的,针对每个预设类型,分别获取所述待分类文本在该预设类型下的模型分类概率值及其综合概率权重,以及关键词分类概率值及其综合概率权重。计算所述模型分类概率值与综合概率权重的乘积,以及所述关键词分类概率值与综合概率权重的乘积。再将两个乘积相加,得到所述待分类文本相对于每个预设类型的综合分类概率值。
例如,待分类文本为汽车买卖合同,分别获取该汽车买卖合同在买卖合同、租赁合同、服务合同、劳动用工合同这四类预设类型下的模型分类概率值及其综合概率权重,以及关键词分类概率值及其综合概率权重。
根据公式:综合分类概率值=模型分类概率值×模型分类综合概率权重+关键词分类概率值×关键词分类综合概率权重,分别计算汽车买卖合同在这四类预设类型下的综合分类概率值。
预设类型 | 综合分类概率值 |
买卖合同 | 49% |
租赁合同 | 31% |
服务合同 | 31% |
劳动用工合同 | 15% |
步骤S106,根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型。
在一实施方式中,所述根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型,包括:
将所述待分类文本的所述综合分类概率值中最高概率值对应的预设类型确定为所述待分类文本的类型;
或者,将所述待分类文本的所述综合分类概率值中超过综合分类预设阈值的概率值对应的预设类型确定为所述待分类文本的类型。
具体的,针对多分类单标签场景,将待分类文本的所有综合分类概率值相互比较,选取最高的综合分类概率值对应的预设类型作为所述待分类文本的类型。针对多分类多标签场景,将待分类文本的所有综合分类概率值逐一与综合分类预设阈值的概率值进行比较,选取超过综合分类预设阈值的综合分类概率值对应的预设类型作为所述待分类文本的类型。
例如,通过比较发现,汽车买卖合同在预设类型为买卖合同下的综合分类概率值最大,则确定汽车买卖合同的文本类型为买卖合同。
预设类型 | 综合分类概率值 |
买卖合同 | 49% |
租赁合同 | 31% |
服务合同 | 31% |
劳动用工合同 | 15% |
本实施例提供的文本分类方法,利用待分类文本的模型分类概率值与模型分类预设阈值的比较结果来调节待分类文本的关键词提取阈值,从而动态控制待分类文本的关键词的提取范围,进而调节待分类文本的关键词分类概率值的精度。然后再根据待分类文本的模型分类概率值和关键词分类概率值与各自预设阈值的比较结果来调节综合概率权重。最后根据模型分类概率值、关键词分类概率值和综合概率权重确定待分类文本的综合分类概率值。本发明综合利用了模型分类结果和关键词分类结果来推导待分类文本的类型,避免了由单一分类方法造成误判和漏判的情况,提高了文本分类的准确率和客观性。
实施例2
此外,本公开实施例提供了一种文本分类装置。
具体的,如图3所示,文本分类装置300包括:
模型分类概率获得模块301,用于通过分类模型获得待分类文本的模型分类概率值;
关键词获取模块302,用于根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词;
关键词分类概率获得模块303,用于根据所述待分类文本的关键词以及预设类型的特征词,获得所述待分类文本的关键词分类概率值;
综合概率权重确定模块304,用于根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重;
综合分类概率获得模块305,用于根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值;
分类模块306,用于根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型。
在一实施方式中,关键词获取模块302,还用于根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值;
通过关键词提取算法和所述关键词提取阈值获取所述待分类文本的关键词。
在一实施方式中,关键词获取模块302,还用于当所述待分类文本的模型分类概率值大于所述模型分类预设阈值时,获取第一提取阈值为所述关键词提取阈值;
当所述待分类文本的模型分类概率值小于所述模型分类预设阈值时,获取第二提取阈值为所述关键词提取阈值。
在一实施方式中,综合概率权重确定模块304,还用于根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重。
在一实施方式中,综合概率权重确定模块304,还用于当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第一概率权重为所述综合概率权重;
当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第二概率权重为所述综合概率权重;
当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第三概率权重为所述综合概率权重;
当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第四概率权重为所述综合概率权重。
在一实施方式中,综合分类概率获得模块305,还用于获得所述待分类文本的所述模型分类概率值及其综合概率权重的第一乘积,以及所述关键词分类概率值及其综合概率权重的第二乘积;
根据所述第一乘积和所述第二乘积,生成所述待分类文本的综合分类概率值。
在一实施方式中,分类模块306,还用于将所述待分类文本的所述综合分类概率值中最高概率值对应的预设类型确定为所述待分类文本的类型;
或者,将所述待分类文本的所述综合分类概率值中超过综合分类预设阈值的概率值对应的预设类型确定为所述待分类文本的类型。
本实施例提供的文本分类装置300可以实现实施例1所提供的文本分类方法,为避免重复,在此不再赘述。
本实施例提供的文本分类装置,利用待分类文本的模型分类概率值与模型分类预设阈值的比较结果来调节待分类文本的关键词提取阈值,从而动态控制待分类文本的关键词的提取范围,进而调节待分类文本的关键词分类概率值的精度。然后再根据待分类文本的模型分类概率值和关键词分类概率值与各自预设阈值的比较结果来调节综合概率权重。最后根据模型分类概率值、关键词分类概率值和综合概率权重确定待分类文本的综合分类概率值。本发明综合利用了模型分类结果和关键词分类结果来推导待分类文本的类型,避免了由单一分类方法造成误判和漏判的情况,提高了文本分类的准确率和客观性。
实施例3
此外,本公开实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行实施例1所提供的文本分类方法。
本实施例提供的电子设备可以实现实施例1所提供的文本分类方法,为避免重复,在此不再赘述。
实施例4
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例1所提供的文本分类方法。
在本实施例中,计算机可读存储介质可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本实施例提供的计算机可读存储介质可以实现实施例1所提供的文本分类方法,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
通过分类模型获得待分类文本的模型分类概率值;
根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词;
根据所述待分类文本的关键词以及预设类型的特征词,获得所述待分类文本的关键词分类概率值;
根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重;
根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值;
根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词,包括:
根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值;
通过关键词提取算法和所述关键词提取阈值获取所述待分类文本的关键词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值,包括:
当所述待分类文本的模型分类概率值大于所述模型分类预设阈值时,获取第一提取阈值为所述关键词提取阈值;
当所述待分类文本的模型分类概率值小于所述模型分类预设阈值时,获取第二提取阈值为所述关键词提取阈值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重,包括:
根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重。
5.根据权利要求4所述的方法,其特征在于,所述根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重,包括:
当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第一概率权重为所述综合概率权重;
当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第二概率权重为所述综合概率权重;
当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第三概率权重为所述综合概率权重;
当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第四概率权重为所述综合概率权重。
6.根据权利要求1所述的方法,其特征在于,所述根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值,包括:
获得所述待分类文本的所述模型分类概率值及其综合概率权重的第一乘积,以及所述关键词分类概率值及其综合概率权重的第二乘积;
根据所述第一乘积和所述第二乘积,生成所述待分类文本的综合分类概率值。
7.根据权利要求1所述的方法,其特征在于,所述根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型,包括:
将所述待分类文本的所述综合分类概率值中最高概率值对应的预设类型确定为所述待分类文本的类型;
或者,将所述待分类文本的所述综合分类概率值中超过综合分类预设阈值的概率值对应的预设类型确定为所述待分类文本的类型。
8.一种文本分类装置,其特征在于,所述装置包括:
模型分类概率获得模块,用于通过分类模型获得待分类文本的模型分类概率值;
关键词获取模块,用于根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词;
关键词分类概率获得模块,用于根据所述待分类文本的关键词以及预设类型的特征词,获得所述待分类文本的关键词分类概率值;
综合概率权重确定模块,用于根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重;
综合分类概率获得模块,用于根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值;
分类模块,用于根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型。
9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至7中任一项所述的文本分类方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310984816.1A CN116955625A (zh) | 2023-08-06 | 2023-08-06 | 文本分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310984816.1A CN116955625A (zh) | 2023-08-06 | 2023-08-06 | 文本分类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116955625A true CN116955625A (zh) | 2023-10-27 |
Family
ID=88461850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310984816.1A Pending CN116955625A (zh) | 2023-08-06 | 2023-08-06 | 文本分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116955625A (zh) |
-
2023
- 2023-08-06 CN CN202310984816.1A patent/CN116955625A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992646B (zh) | 文本标签的提取方法和装置 | |
CN105701191B (zh) | 一种推送信息点击率估计方法和装置 | |
EP3499384A1 (en) | Word and sentence embeddings for sentence classification | |
CN110647696B (zh) | 一种业务对象的排序方法及装置 | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN113240130B (zh) | 数据分类方法及装置、计算机可读存储介质和电子设备 | |
CN108021582B (zh) | 互联网舆情监控方法及装置 | |
CN110362689A (zh) | 一种风险评估方法、装置、存储介质和服务器 | |
CN107665221A (zh) | 关键词的分类方法和装置 | |
CN112818121A (zh) | 一种文本分类方法、装置、计算机设备及存储介质 | |
CN107977676A (zh) | 文本相似度计算方法及装置 | |
CN109617864B (zh) | 一种网站识别方法及网站识别系统 | |
CN111143533A (zh) | 一种基于用户行为数据的客服方法及系统 | |
CN112307210B (zh) | 一种文档标签预测方法、系统、介质及电子器件 | |
CN113630495B (zh) | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 | |
CN105893397B (zh) | 一种视频推荐方法及装置 | |
CN111382265B (zh) | 搜索方法、装置、设备和介质 | |
CN113407584A (zh) | 标签抽取方法、装置、设备及存储介质 | |
CN116955625A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN117290482A (zh) | 一种知识库检索方法和装置 | |
CN107665222A (zh) | 关键词的拓展方法和装置 | |
CN110443646B (zh) | 产品竞争关系网络分析方法和系统 | |
CN117131401A (zh) | 对象识别方法、装置、电子设备和存储介质 | |
CN115935798A (zh) | 预测方法、装置、电子设备及存储介质 | |
CN113571198A (zh) | 转化率预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |