CN113505227B - 文本分类方法、装置、电子设备及可读存储介质 - Google Patents
文本分类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113505227B CN113505227B CN202110823177.1A CN202110823177A CN113505227B CN 113505227 B CN113505227 B CN 113505227B CN 202110823177 A CN202110823177 A CN 202110823177A CN 113505227 B CN113505227 B CN 113505227B
- Authority
- CN
- China
- Prior art keywords
- text
- processed
- sub
- probability
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本分类方法、装置、电子设备及可读存储介质,涉及自然语言处理技术领域。该方法包括:将待处理文本以及待处理文本的至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,将所述子文本特征以及所述待处理文本属于各类别的概率输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。本申请不仅提高了文本分类的准确率,而且还节省了训练模型所需的时间和存储空间。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法、装置、电子设备及可读存储介质。
背景技术
文本分类是按照一定的分类体系或标准对文本集进行自动分类标记的过程,是自然语言处理的基本研究内容,其应用范围非常广泛,包括问答系统,情感分析,垃圾邮件过滤,新闻分类,词性标注等子任务。
目前,为了提高文本分类的准确性,采用集成学习算法,即训练并结合多个基算法完成学习任务,以达到结合各个基算法的优势对文本进行分类,从而提高文本分类的准确率的目的。
但是,一个基算法的训练就需要很多的时间和存储参数的空间,而集成学习算法需要多个基算法,因此,在训练时会耗费大量的时间和存储空间。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种文本分类方法、装置、电子设备及可读存储介质,以便解决现有技术中训练多个基算法进而耗费大量的时间和存储空间的问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:
获取待处理文本以及所述待处理文本的至少一个子文本;
将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征;
根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,所述子文本特征用于表征所述待处理文本的语义差异性;
将所述子文本特征以及所述总文本特征输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;
根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。
可选的,根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,包括:
根据各所述子文本属于各类别的概率,计算所有子文本属于各类别的概率标准差、均值以及最大值,得到各类别对应的概率标准差、均值以及最大值;
将所述各类别对应的概率标准差、均值以及最大值作为所述待处理文本的子文本特征。
可选的,所述根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别,包括:
对所述待处理文本属于各类别的概率按照概率值大小进行排序;
将最大概率值对应的类别作为所述待处理文本的目标类别。
可选的,所述获取待处理文本以及所述待处理文本的至少一个子文本,包括:
获取所述待处理文本;
确定所述待处理文本的类型,所述类型包括:多段落文本、单段落文本以及句子文本;
根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本。
可选的,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本之后,还包括:
若拆分得到的第一子文本的长度小于预设长度,则丢弃所述第一子文本,其中,所述第一子文本为从所述待处理文本中拆分出的任意一个子文本。
可选的,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,包括:
若所述待处理文本为多段落文本,则根据预设的段落分隔符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个段落。
可选的,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,包括:
若所述待处理文本为单段落文本,则根据预设的句子结束符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个句子。
可选的,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,包括:
若所述待处理文本为句子文本,则根据预设的非句子结束符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,其中,所述非句子结束符号为除句子结束符号之外的标点符号。
第二方面,本申请实施例提供了一种文本分类装置,所述装置包括:
获取模块,用于获取待处理文本以及所述待处理文本的至少一个子文本;
第一确定模块,用于将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征;
第二确定模块,用于根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,所述子文本特征用于表征所述待处理文本的语义差异性;
修正模块,用于将所述子文本特征以及所述总文本特征输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;
第三确定模块,根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。
可选的,第二确定模块具体用于根据各所述子文本属于各类别的概率,计算所有子文本属于各类别的概率标准差、均值以及最大值,得到各类别对应的概率标准差、均值以及最大值;将所述各类别对应的概率标准差、均值以及最大值作为所述待处理文本的子文本特征。
可选的,第三确定模块具体用于对所述待处理文本属于各类别的概率按照概率值大小进行排序;将最大概率值对应的类别作为所述待处理文本的目标类别。
可选的,获取模块用于获取所述待处理文本;判断模块,用于确定所述待处理文本的类型,所述类型包括:多段落文本、单段落文本以及句子文本;拆分模块,用于根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本。
可选的,删除模块,用于若拆分得到的第一子文本的长度小于预设长度,则丢弃所述第一子文本,其中,所述第一子文本为从所述待处理文本中拆分出的任意一个子文本。
可选的,拆分模块具体用于若所述待处理文本为多段落文本,则根据预设的段落分隔符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个段落。
可选的,拆分模块具体还用于若所述待处理文本为单段落文本,则根据预设的句子结束符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个句子。
可选的,拆分模块具体还用于若所述待处理文本为句子文本,则根据预设的非句子结束符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,其中,所述非句子结束符号为除句子结束符号之外的标点符号。
本申请的有益效果是:本申请提供的一种文本分类方法,所述方法包括:获取待处理文本以及所述待处理文本的至少一个子文本;将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型,得到待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征;根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,所述子文本特征用于表征所述待处理文本的语义差异性;将所述子文本特征以及所述总文本特征输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。本申请实现了仅需要训练一个分类模型,并通过考虑文本的语义差异性来提高文本分类的准确率,同时节省了训练模型所需的时间和存储空间。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种文本分类系统的示例性交互示意图;
图2为本申请实施例提供的一种文本分类方法的流程示意图;
图3为本申请实施例提供的又一种文本分类方法的流程示意图;
图4为本申请实施例提供的一种文本分类装置的结构示意图;
图5为本申请实施例提供的又一种文本分类装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
文本分类是按照一定的分类体系或标准对文本集进行自动分类标记的过程,是自然语言处理的基本研究内容,其应用范围非常广泛,包括问答系统,情感分析,垃圾邮件过滤,新闻分类,词性标注等子任务。目前,为了提高文本分类的准确性,采用集成学习算法,即训练并结合多个基算法完成学习任务,以达到结合各个基算法的优势对文本进行分类,从而提高文本分类的准确率的目的,但是,训练一个基算法就需要耗费大量的时间和存储参数的空间,而集成学习算法需要多个基算法,因此,在训练时会耗费大量的时间和存储空间。
本申请基于上述问题,提出一种文本分类方法,仅需要训练一种模型计算文本及文本的各子文本属于各类别的概率,然后考虑文本的语义差异性,再通过修正模型对文本属于各类别的概率进行修正,并取概率最大值对应的类别为文本的类别,该方法不仅提高了文本分类的准确率,而且还节省了训练模型所需的时间和存储空间。
图1为本申请提供的一种文本分类系统的示例性交互示意图,如图1所示,文本分类方法可以应用在文本分类系统中,该系统包括:服务器101,终端设备102;服务器101与终端设备102连接。其中,终端设备102可以是手机、电脑、平板等中的至少一种。具体的,服务器获取待处理文本,将待处理文本分割成至少一个子文本,然后计算待处理文本属于各类别的概率和各子文本属于各类别的概率,并对待处理文本属于各类别的概率进行修正,然后将分类后的结果发送给终端设备102进行输出。当应用于上述系统时,由服务器101作为执行主体执行本申请的方法。
上述图1仅为一种示例,应理解,本申请的文本分类方法还可以应用在单独的电子设备上,该电子设备例如可以是服务器、终端设备等。当应用于该电子设备时,由该电子设备作为执行主体执行本申请的方法。
图2为本申请实施例提供的一种文本分类方法的流程示意图;如图2所示,该方法包括:
S201、获取待处理文本以及待处理文本的至少一个子文本。
可选的,待处理文本是指需要进行分类的文本,其中文本是指书面语言的表现形式,适用于任何语言。在获取到待处理文本后,可以根据待处理文本的结构、长度对待处理文本进行分割得到待处理文本的子文本。
示例性的,待处理文本为“臭豆腐闻起来很臭,但是吃起来很香”,则将该待处理文本分割,得到两个子文本,第一个子文本是“臭豆腐闻起来很臭”,第二个子文本是“但是吃起来很香”。
与现有技术相比,不再是直接对待处理文本进行判断分类,而是通过待处理文本的子文本考虑了待处理文本中包含的多层含义进行判断分类,提高了文本分类的准确率。
S202、将待处理文本以及至少一个子文本均输入预先训练得到的分类模型,得到待处理文本属于各类别的概率以及各子文本属于各类别的概率,并将待处理文本属于各类别的概率作为待处理文本的总文本特征。
可选的,将待处理文本以及待处理文本的各子文本输入预先训练完成的分类模型中,该分类模型就可以输出待处理文本属于各类别的概率,以及各子文本属于各类别的概率,其中,待处理文本的类别可以是在训练分类模型之前或者训练分类模型时预先设定的。待处理文本的类别与分类模型的业务场景相关。例如,业务场景为分析文本为正向评价或负向评价这一场景,则可以预先设定类别为:正面评价、负面评价、中性评价。
可选的,分类模型是根据文本数据集训练得到的,文本数据集中包括文本以及文本属于各类别的概率值。分类模型训练过程例如可以为:步骤1:网络爬虫及代码批量生成各种文本;步骤2:设置文本类别;步骤3:对批量生成的文本进行多人判断,生成各文本对应的标签向量,标签向量中的值依次表示该文本对应的类别的判断结果,并将各类别对应的判断结果的数量与该文本的判断人数的比值作为该文本属于各类别的概率,最终形成含有各文本属于各类别的概率的文本数据集,此文本数据集用于输入分类模型进行训练学习;步骤4:将其他文本或者步骤1中的文本输入完成学习的分类模型,同时通过监控输出的值不断调整训练的损失参数,获得最终的训练结果,即得到预先训练得到的分类模型。
示例性的,关于上述步骤2与步骤3的具体内容如下:文本类别如正面评价、负面评价、中性评价,针对其中一个文本,有3个人分别对该文本进行判断,得到的标签向量为(1,0,0),(1,0,0),(0,0,1),表示有2个人认为该文本是正面评价,0个人认为该文本为负面评价,1个人认为该文本为中性评价,则该文本属于各类别的概率为(0.67,0,0.33),则该文本为正面评价的概率为0.67,为负面评价的概率为0,为中性评价的概率为0.33。
可选的,若待处理文本的类别有m个,则待处理文本属于各类别的概率可以表示为p=[p1,p2,…,pm],其中p=[p1,p2,…,pm]就是待处理文本的总文本特征,其中,p1…pm表示待处理文本分别属于类别1…m的概率。
与现有技术相比,仅需训练一个分类模型对文本进行分类,节省了训练模型的时间和训练过程中参数的存储空间。
S203、根据各子文本属于各类别的概率,得到待处理文本的子文本特征,子文本特征用于表征待处理文本语义差异性。
可选的,根据步骤S202得到各子文本属于各类别的概率后,计算待处理文本的子文本特征,子文本特征可以是至少一个特征量,用来体现待处理文本的语义差异性的量,语义差异性就是待处理文本内部包含多层含义,多个含义之间存在的联系。
示例性的,待处理文本如“臭豆腐闻起来很臭,但是吃起来很香”,设置该待处理文本的类别有:正面评价、负面评价、中性评价。该待处理文本有两个子文本,第一个子文本是“臭豆腐闻起来很臭”,第二个子文本是“但是吃起来很香”,通过分类模型得到第一个子文本依次属于各类别的概率为(0.1,0.7,0.2),第二个子文本依次属于各类别的概率为(0.9,0,0.1),计算概率标准差得到待处理文本的子文本特征是(0.57,0.49,0.07),表示两个子文本属于正面评价和负面评价的波动比较大,为中性评价的波动比较小。
与现有技术相比,考虑了待处理文本的语义差异性,提高了文本分类的准确率。
S204、将子文本特征以及总文本特征输入修正模型进行概率修正,得到修正后的待处理文本属于各类别的概率。
可选的,将步骤S202得到的总文本特征和步骤S203得到的子文本特征输入修正模型中,根据子文本特征和总文本特征对待处理文本属于各类别的概率进行修正,得到更接近真实的概率值。
可选的,修正模型可以选用Softmax多分类模型,朴素贝叶斯,随机森林GBDT等能够提升文本属于各类别的概率的模型,在此不做限定。
可选的,以Softmax多分类模型为例,将子文本特征与总文本特征输入,假设有m个类别,会输出m个向量θj,j=1,2,…,m,θj为Softmax多分类模型输出的第j个类别对应的参数,即就是待处理文本属于类别j的概率值,用函数hθ(P)表示模型输出的m维向量的表现形式如下:
其中P表示子文本特征和总文本特征,y表示预设的类别。
示例性的,待处理文本如“臭豆腐闻起来很臭,但是吃起来很香”通过分类模型得到该文本属于正面评价、负面评价、中性评价的概率分别为0.67,0,0.33,在被修正模型修正后变为0.88,0,0.12。
通过修正模型可以根据子文本特征和总文本特征对待处理文本属于各类别的概率进行修正,以接近更符合实际的概率值,从而提高文本分类的准确率。
S205、根据修正后的待处理文本属于各类别的概率,确定待处理文本的目标类别。
可选的,通过步骤S204得到更接近真实的待处理文本属于各类别的概率之后,取概率最大值对应的类别为待处理文本的目标类别,也就是说,待处理文本的目标类别是由待处理文本属于各类别的概率最大值决定的。
可选的,除了取概率最大值对应的类别为待处理文本的类别之外,还可以通过概率最小值对应的类别来排除待处理文本的类别,再利用修正模型对待处理文本剩余的属于各类别的概率进一步修正,然后再通过概率最小值来排除待处理文本的类别,直到剩余的类别的概率为1。
示例性的,修正后的待处理文本属于正面评价、负面评价、中性评价的概率分别为0.88,0,0.12,概率最大值0.88对应的类别为正面评价,则待处理文本的目标类别为正面评价。
通过修正后的待处理文本属于各类别的概率,确定待处理文本的目标类别,能够提高文本分类的准确率。
综上所述,本申请通过训练得到的分类模型计算待处理文本属于各类别的概率以及待处理文本的各子文本属于各类别的概率,并通过修正模型依据待处理文本的子文本特征来修正待处理文本属于各类别的概率,选取概率最大值对应的类别为待处理文本的类别。本申请实现了用子文本特征来修正待处理文本属于各类别的概率,即通过考虑待处理文本的语义差异性,使得待处理文本属于各类别的概率接近更符合实际的概率值,从而达到提高文本分类的准确率的目的。并且通过该方法只需要训练一个分类模型,再通过修正模型对分类模型的输出结果进行修正得到分类结果,极大的减少了训练模型所需的时间和存储空间。
作为一种可选的实施例,上述步骤S203包括:根据各子文本属于各类别的概率,计算所有子文本属于各类别的概率标准差、均值以及最大值,得到各类别对应的概率标准差、均值以及最大值;将各类别对应的概率标准差、均值以及最大值作为待处理文本的子文本特征。
可选的,假设待处理文本x有n个子文本,且预先设定的分类类别包括m个类别,分类模型计算得到的第i个子文本属于j类别的概率表示为pij,其中,1≤i≤n,1≤j≤m,则所有子文本属于类别j的概率标准差δj、均值以及最大值的计算公式如下:
需要说明的是,子文本特征除了可以是概率标准差、均值以及最大值之外,还可以是其他用来体现待处理文本的语义差异性的特征量,在此不做限定。
与现有技术相比,通过计算所有子文本属于各类别的概率标准差、均值以及最大值,作为修正待处理文本属于各类别的概率的依据,即通过文本的所有子文本属于各类别的概率标准差、均值以及最大值考虑了文本语义之间的差异性来提高文本分类的准确率。
作为一种可选的实施例,上述步骤S205包括:对待处理文本属于各类别的概率按照概率值大小进行排序;将最大概率值对应的类别作为待处理文本的目标类别。
可选的,在经过步骤S204得到修正后的待处理文本属于各类别的概率之后,用快速排序或者归并排序等方法处理概率值,按照从大到小排序或者从小到大排序,然后将最大的概率值对应的类别作为待处理文本的目标类别,其中在对概率值进行排序的时候,由于每个概率值都带有对应的类别标签,因此,变换概率值的位置,并不会改变概率值对应的类别。
示例性的,当修正模型输出的待处理文本属于正面评价、负面评价、中性评价的概率分别为0.88,0,0.12之后,利用冒泡排序方法将概率值从小到大排序,得到0,0.12,0.88,则选取0.88对应的类别正面评价作为该待处理文本的目标类别输出。
选取最大的概率值对应的类别作为待处理文本的目标类别,是因为概率值越大,则该概率值对应的类别具有极大的可能性是待处理文本的类别,反之,概率值小的概率对应的类别是待处理文本类别的可能性极小。
图3为本申请实施例提供的又一种文本分类方法的流程示意图,如图3所示,作为一种可选的实施例,上述步骤S201包括:
S301、获取待处理文本。
可选的,执行文本分类方法的执行主体获取待处理文本可以是接收其他设备发送的文本,或者语音、图像等,当执行主体接收到的是文本,直接读取执行下述步骤S302;当执行主体接收到的是语音,则进行语音转文字处理,得到语音文本,即语音文本为待处理文本,然后再读取执行下述步骤S302;当执行主体接收到的是图像,则识别图像中的文字,得到图像文本,即图像文本为待处理文本,然后再读取执行下述步骤S302。
可选的,执行文本分类方法的执行主体获取待处理文本可以是用户输入的,对于用户输入的待处理文本,可以是用户边输入边读取,也可以是用户输入完毕再读取。
S302、确定待处理文本的类型,类型包括:多段落文本、单段落文本以及句子文本。
可选的,当执行主体检测到待处理文本中具有换行符,如“//n”,则判断该待测文本为多段落文本;当执行主体未检测到换行符时,若检测到多个句子结束符,如“句号。、问号?、感叹号!”,则判断该待测文本为单段落文本;当执行主体只检测到一个句子结束符时,若检测到多个非句子结束符,如“逗号,、分号;、破折号—”等除了句子结束符之外的标点符号,则判断该待测文本为句子文本。
S303、根据上述待处理文本的类型,对待处理文本进行拆分,得到待处理文本的至少一个子文本。
可选的,不同的文本类型执行不同的拆分方式,在步骤S302判断出待处理文本的类型之后,调用各类型对应的拆分程序,对待处理文本进行拆分,具体执行过程在下述中有详细的说明。
通过对不用的待处理文本进行不同的拆分处理计算子文本的标签向量,与现有技术中的将待处理文本拆分成词语计算词语向量相比,本申请节省了存储向量的存储空间,对于段落比较多的文本,极大的降低了拆分文本所耗费的时间。
作为一种可选的实施例,上述步骤S303包括:若拆分得到的第一子文本的长度小于预设长度,则丢弃第一子文本,其中,第一子文本为从待处理文本中拆分出的任意一个子文本。
可选的,经过上述步骤拆分待处理文本得到的多个子文本中,有些子文本或因为所含信息过小,无法判断其类别,因此,设置一个超参数w,对所有的子文本执行下述过程:如果子文本的文字数目或者单词数目小于w,则删除该子文本。
可选的,第一子文本的长度可以是第一子文本包含的字数,其中字数可以包括标点符号的个数,也可以不包括。预设长度就是上述的超参数,可以根据用户的需要设置。
示例性的,超参数w设为5,待处理文本拆分得到的两个子文本为“苹果”和“它又大又甜”,则删除第一个子文本,保留第二个子文本。
作为一种可选的实施例,上述步骤S303包括:若待处理文本为多段落文本,则根据预设的段落分隔符号对待处理文本进行拆分,得到待处理文本的至少一个子文本,每个子文本包括一个段落。
可选的,执行文本分类方法的执行主体读取待处理文本的每行文字,在第一次读取到段落分隔符号时,将第一次读取到段落分隔符号之前的文本视为一个子文本进行存储并输出,继续读取,当第二次读取到段落分割符号时,将第一次读取到段落分隔符号之后读取到的文本视为另一个子文本进行存储并输出,若待处理文本有n个子文本,则直到存储并输出第n-1次读取到段落分隔符号之后读取到文本为止。也就是说,对于多个段落文本组成的长文本,将以每个段落为一个子文本进行分割长文本。
需要说明的是,段落分隔符号可以是换行符“//n”,也可以是其它能够标识段落结束的符号。
作为一种可选的实施例,上述步骤S303包括:若待处理文本为单段落文本,则根据预设的句子结束符号对待处理文本进行拆分,得到待处理文本的至少一个子文本,每个子文本包括一个句子。
可选的,执行文本分类方法的执行主体读取待处理文本的每行文字,在第一次读取到句子结束符号时,将第一次读取到句子结束符号之前的文本视为一个子文本进行存储并输出,继续读取,当第二次读取到句子结束符号时,将第一次读取到句子结束符号之后读取到的文本视为另一个子文本进行存储并输出,若待处理文本有n个子文本,则直到存储并输出第n-1次读取到句子结束符号之后读取到文本为止。也就是说,对于多个句子文本组成的短文本,将以每个句子为一个子文本进行分割短文本。
需要说明的是,句子结束符号可以是“。”,也可以是“?”,还可以是“!”,执行主体在读取到上述句子结束符号任何一种时,将句子结束符号之前的文本作为子文本输出并存储。
作为一种可选的实施例,上述步骤S303包括:若待处理文本为句子文本,则根据预设的非句子结束符号对待处理文本进行拆分,得到待处理文本的至少一个子文本,其中,非句子结束符号为除句子结束符号之外的标点符号。
可选的,执行文本分类方法的执行主体读取待处理文本的每行文字,在第一次读取到非句子结束符号时,将第一次读取到非句子结束符号之前的文本视为一个子文本进行存储并输出,继续读取,当第二次读取到非句子结束符号时,将第一次读取到非句子结束符号之后读取到的文本视为另一个子文本进行存储并输出,若待处理文本有n个子文本,则直到存储并输出第n-1次读取到非句子结束符号之后读取到文本为止。也就是说,对于只有一个句子的句子文本,将以句子中的每句话进行分割短文本。
需要说明的是,非句子结束符号可以是“,”,也可以是“;”,还可以是“、”,除了上述非句子结束符号之外,用户还可以根据需要设置其他的除了句子结束符之外的标点符号,当执行主体在读取到非句子结束符号的任何一种符号时,将非句子结束符号之前的文本作为子文本输出并存储。
值得说明的是,图像分类、视频分类也可以采用上述分类方法,首先对待处理图像和待处理视频分别进行切分,得到待处理图像的子文本和待处理视频的子文本,然后利用训练得到的分类模型分别计算待处理图像以及其子文本属于各类别的概率和待处理视频以及其子文本属于各类别的概率,再根据待处理图像的各子文本属于各类别的概率计算待处理图像的子文本特征,根据待处理视频的各子文本属于各类别的概率计算待处理视频的子文本特征,然后用修正模型分别根据待处理图像的子文本特征和待处理视频的子文本特征分别修正待处理图像属于各类别的概率和待处理视频属于各类别的概率,最终选取概率最大值为待处理图像和待处理视频的类别。
图4为本申请实施例提供了一种文本分类装置的结构示意图,该装置包括:
获取模块401,用于获取待处理文本以及待处理文本的至少一个子文本;
第一确定模块402,用于将待处理文本以及至少一个子文本均输入预先训练得到的分类模型,得到待处理文本属于各类别的概率以及各子文本属于各类别的概率,并将待处理文本属于各类别的概率作为待处理文本的总文本特征;
第二确定模块403,用于根据各子文本属于各类别的概率,得到待处理文本的子文本特征,子文本特征用于表征待处理文本的语义差异性;
修正模块404,用于将子文本特征以及总文本特征输入修正模型进行概率修正,得到修正后的待处理文本属于各类别的概率;
第三确定模块405,根据修正后的待处理文本属于各类别的概率,确定待处理文本的目标类别。
可选的,第二确定模块403具体用于根据各子文本属于各类别的概率,计算所有子文本属于各类别的概率标准差、均值以及最大值,得到各类别对应的概率标准差、均值以及最大值;将各类别对应的概率标准差、均值以及最大值作为待处理文本的子文本特征。
可选的,第三确定模块405具体用于对待处理文本属于各类别的概率按照概率值大小进行排序;将最大概率值对应的类别作为待处理文本的目标类别。
图5为本申请实施例提供的又一种文本分类装置的结构示意图,如图5所示,作为一种可选的实施例:
获取模块501用于获取待处理文本。
判断模块502,用于确定待处理文本的类型,类型包括:多段落文本、单段落文本以及句子文本。
拆分模块503,用于根据待处理文本的类型,对待处理文本进行拆分,得到待处理文本的至少一个子文本。
可选的,删除模块,用于若拆分得到的第一子文本的长度小于预设长度,则丢弃第一子文本,其中,第一子文本为从待处理文本中拆分出的任意一个子文本。
可选的,拆分模块503具体用于若待处理文本为多段落文本,则根据预设的段落分隔符号对待处理文本进行拆分,得到待处理文本的至少一个子文本,每个子文本包括一个段落。
可选的,拆分模块503具体还用于若待处理文本为单段落文本,则根据预设的句子结束符号对待处理文本进行拆分,得到待处理文本的至少一个子文本,每个子文本包括一个句子。
可选的,拆分模块503具体还用于若待处理文本为句子文本,则根据预设的非句子结束符号对待处理文本进行拆分,得到待处理文本的至少一个子文本,其中,非句子结束符号为除句子结束符号之外的标点符号。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图6为本申请实施例提供的电子设备的结构示意图,该装置可以集成于终端设备或者终端设备的芯片,该终端可以是具备数据处理功能的计算设备。
该装置包括:处理器601、存储器602。
存储器802用于存储程序,处理器801调用存储器802存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
获取待处理文本以及所述待处理文本的至少一个子文本;
将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征;
根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,所述子文本特征用于表征所述待处理文本的语义差异性;
将所述子文本特征以及所述总文本特征输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;
根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。
2.根据权利要求1所述的文本分类方法,其特征在于,根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,包括:
根据各所述子文本属于各类别的概率,计算所有子文本属于各类别的概率标准差、均值以及最大值,得到各类别对应的概率标准差、均值以及最大值;
将所述各类别对应的概率标准差、均值以及最大值作为所述待处理文本的子文本特征。
3.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别,包括:
对所述待处理文本属于各类别的概率按照概率值大小进行排序;
将最大概率值对应的类别作为所述待处理文本的目标类别。
4.根据权利要求1所述的文本分类方法,其特征在于,所述获取待处理文本以及所述待处理文本的至少一个子文本,包括:
获取所述待处理文本;
确定所述待处理文本的类型,所述类型包括:多段落文本、单段落文本以及句子文本;
根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本。
5.根据权利要求4所述的文本分类方法,其特征在于,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本之后,还包括:
若拆分得到的第一子文本的长度小于预设长度,则丢弃所述第一子文本,其中,所述第一子文本为从所述待处理文本中拆分出的任意一个子文本。
6.根据权利要求4所述的文本分类方法,其特征在于,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,包括:
若所述待处理文本为多段落文本,则根据预设的段落分隔符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个段落。
7.根据权利要求4所述的文本分类方法,其特征在于,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,包括:
若所述待处理文本为单段落文本,则根据预设的句子结束符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个句子。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文本以及所述待处理文本的至少一个子文本;
第一确定模块,用于将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征;
第二确定模块,用于根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,所述子文本特征用于表征所述待处理文本的语义差异性;
修正模块,用于将所述子文本特征以及所述总文本特征输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;
第三确定模块,用于根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至7任一所述的文本分类的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的文本分类的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110823177.1A CN113505227B (zh) | 2021-07-21 | 2021-07-21 | 文本分类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110823177.1A CN113505227B (zh) | 2021-07-21 | 2021-07-21 | 文本分类方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505227A CN113505227A (zh) | 2021-10-15 |
CN113505227B true CN113505227B (zh) | 2022-06-10 |
Family
ID=78013349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110823177.1A Active CN113505227B (zh) | 2021-07-21 | 2021-07-21 | 文本分类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505227B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682124A (zh) * | 2012-05-16 | 2012-09-19 | 苏州大学 | 一种文本的情感分类方法及装置 |
CN109086443A (zh) * | 2018-08-17 | 2018-12-25 | 电子科技大学 | 基于主题的社交媒体短文本在线聚类方法 |
CN110489545A (zh) * | 2019-07-09 | 2019-11-22 | 平安科技(深圳)有限公司 | 文本分类方法及装置、存储介质、计算机设备 |
CN111177554A (zh) * | 2019-12-27 | 2020-05-19 | 西安交通大学 | 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 |
CN111832312A (zh) * | 2020-05-15 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 文本处理方法、装置、设备和存储介质 |
CN112597303A (zh) * | 2020-12-18 | 2021-04-02 | 河海大学 | 一种基于融合特征的文本分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11467817B2 (en) * | 2019-01-28 | 2022-10-11 | Adobe Inc. | Software component defect prediction using classification models that generate hierarchical component classifications |
-
2021
- 2021-07-21 CN CN202110823177.1A patent/CN113505227B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682124A (zh) * | 2012-05-16 | 2012-09-19 | 苏州大学 | 一种文本的情感分类方法及装置 |
CN109086443A (zh) * | 2018-08-17 | 2018-12-25 | 电子科技大学 | 基于主题的社交媒体短文本在线聚类方法 |
CN110489545A (zh) * | 2019-07-09 | 2019-11-22 | 平安科技(深圳)有限公司 | 文本分类方法及装置、存储介质、计算机设备 |
CN111177554A (zh) * | 2019-12-27 | 2020-05-19 | 西安交通大学 | 一种基于生成对抗学习的可解释探索的假新闻识别系统及方法 |
CN111832312A (zh) * | 2020-05-15 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 文本处理方法、装置、设备和存储介质 |
CN112597303A (zh) * | 2020-12-18 | 2021-04-02 | 河海大学 | 一种基于融合特征的文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113505227A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110168535B (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN109471944B (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN111831826B (zh) | 跨领域的文本分类模型的训练方法、分类方法以及装置 | |
CN110263009A (zh) | 日志分类规则的生成方法、装置、设备及可读存储介质 | |
CN108776677B (zh) | 平行语句库的创建方法、设备及计算机可读存储介质 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN111737464A (zh) | 文本分类方法、装置和电子设备 | |
CN110414591B (zh) | 一种数据处理方法以及设备 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN112989058A (zh) | 信息分类方法、试题分类方法、设备、服务器和存储介质 | |
CN113505227B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN111681731A (zh) | 一种对检查报告进行自动颜色标注的方法 | |
CN113255368B (zh) | 针对文本数据进行情感分析的方法、装置及相关设备 | |
CN111611394B (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
CN115270818A (zh) | 一种意图识别方法及装置、存储介质、计算机设备 | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN114780678A (zh) | 文本检索方法、装置、设备及存储介质 | |
CN116756306A (zh) | 对象分类方法、装置、计算机设备及计算机可读存储介质 | |
Povoda et al. | Optimization methods in emotion recognition system | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN109325126B (zh) | 语言文本的对象化处理方法、装置及计算机存储介质 | |
CN116227496B (zh) | 一种基于深度学习的电力舆情实体关系抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |