CN116431758A - 文本分类方法、装置、电子设备及计算机可读存储介质 - Google Patents
文本分类方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116431758A CN116431758A CN202111658585.2A CN202111658585A CN116431758A CN 116431758 A CN116431758 A CN 116431758A CN 202111658585 A CN202111658585 A CN 202111658585A CN 116431758 A CN116431758 A CN 116431758A
- Authority
- CN
- China
- Prior art keywords
- classified
- text
- probability
- label
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000008451 emotion Effects 0.000 claims abstract description 135
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000015654 memory Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000013145 classification model Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- KJONHKAYOJNZEC-UHFFFAOYSA-N nitrazepam Chemical compound C12=CC([N+](=O)[O-])=CC=C2NC(=O)CN=C1C1=CC=CC=C1 KJONHKAYOJNZEC-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本分类方法、装置、电子设备及计算机可读存储介质,该方法包括:对待分类文本进行编码处理,得到待分类编码向量;在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率;若第一概率小于预设第一阈值,则将待分类编码向量输入已训练的文本分类器进行处理,输出待分类编码向量的第二情感标签及对应的第二概率;根据第一情感标签对应的第一概率以及第二情感标签对应的第二概率,确定待分类文本的目标标签。采用本申请融合了检索的分类结果及文本分类器的分类结果,扩展了文本分类器的决策框架,大大提高了文本分类的准确性。
Description
技术领域
本申请涉及AI技术领域,具体涉及一种文本分类方法、装置、电子设备及计算机可读存储介质。
背景技术
分类任务在AI(Artificial Intelligence,人工智能)领域是一项基础的任务,无论是在图像识别领域还是在自然语言处理领域都有着十分广泛的应用。语义情感分类在这一背景下应运而生,其中,情感是人对客观事物是否满足自己的需要而产生的一种态度体验,如积极或消极等,或者喜、怒、哀、乐等。情感分类有助于消费者了解产品的优缺点,以便对产品评论进行分析与决策;有助于政府部门了解民众对社会管理者的社会政治态度,及时发现社会热点问题并作出科学合理的决策等。
现有技术中,通过神经网络算法学习文本的各项特征,判断文本的类型,该分类方式仅仅根据文本的特征来计算文本的分类,其准确性难以保证且分类过程耗时较长,降低了文本分类性能。
申请内容
本申请实施例提供一种文本分类方法、装置、电子设备及计算机可读存储介质,以解决神经网络模型进行文本分类降低分类准确性和分类速度的问题。
一种文本分类方法,包括:
对待分类文本进行编码处理,得到待分类编码向量;
在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率;
若第一概率小于预设第一阈值,则将待分类编码向量输入已训练的文本分类器进行处理,输出待分类编码向量的第二情感标签及对应的第二概率;
根据第一情感标签对应的第一概率以及第二情感标签对应的第二概率,确定待分类文本的目标标签。
一种文本分类装置,包括:
获取模块,用于对待分类文本进行编码处理,得到待分类编码向量;
检索模块,用于在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率;
确定模块,用于若第一概率小于预设第一阈值,则将待分类编码向量输入已训练的文本分类器进行处理,输出待分类编码向量的第二情感标签及对应的第二概率;
分类模块,用于根据第一情感标签对应的第一概率以及第二情感标签对应的第二概率,确定待分类文本的目标标签。
一种电子设备,电子设备包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述文本分类方法中的步骤。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述文本分类方法中的步骤。
本申请实施例提供了一种文本分类方法、装置、电子设备及计算机可读存储介质,该方法先对待分类文本进行编码处理,得到待分类编码向量,然后,在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率,省去了复杂的特征学习过程,提高了第一情感标签的生成速度,接着,在第一概率小于预设第一阈值时,将待分类编码向量输入已训练的文本分类器中进行处理,输出待分类编码向量的第二情感标签及对应的第二概率,实现了对待分类文本的二次分类,且由于是采用文本分类器进行分类,提高了第二情感标签的分类的准确率,最后,基于第一情感标签对应的第一概率以及第二情感标签对应的第二概率,确定待分类文本的目标标签,融合了检索的分类结果及文本分类器的分类结果,扩展了文本分类器的决策框架,大大提高了文本分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中文本分类方法的流程图;
图2为另一个实施例中文本分类方法的流程图;
图3为一个实施例中第一概率确定方法的流程图;
图4为一个实施例中待分类编码向量的第一情感标签及对应的第一概率确定方法的流程图;
图5为一个实施例中文本分类装置的结构框图;
图6为一个实施例中电子设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在一个实施例中,提供了一种文本分类方法,该文本分类方法应用于电子设备,本实施例以应用于服务器举例说明,该文本分类方法具体包括以下步骤:
步骤102,对待分类文本进行编码处理,生成待分类编码向量。
其中,编码处理是用于学习文本数据特征的特征提取,将文本数据编码成向量的处理方式,该编码处理可以是TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)编码方式,也可以是基于编码网络如循环神经网络(Recurrent NeuralNetwork,RNN)、人工神经网络(Artificial Neural Network,ANN)、长短期记忆人工神经网络(Long Short-Term Memory,LSTM)、全局对数双线性回归模型(Global Vectors forWord Representation,GloVe)、Word2vec模型、Transformer模型等,作为本实施例的优选,采用全局对数双线性回归模型对待分类文本进行编码处理,以结合全局矩阵分解和局部上下文窗口两种方法的特征提取准确性的优势,提高待分类编码向量的准确性。具体地,利用词嵌入层对待分类文本进行词嵌入处理,从而将非结构化的文本转化为计算机可计算的结构化数据,如向量数据,其中的词嵌入层可以是LSTM词嵌入层,然后利用预设编码网络对词嵌入后的待分类文本进行编码处理,生成待分类编码向量。可以理解地,本实施例中通过对待分类文本进行编码处理,实现了对待分类文本的特征提取,以便后续基于待分类编码向量进行进一步处理。
步骤104,在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率。
其中,预设标准样本库是指预先存储的包含有多个标准文本的标准编码向量及情感标签的样本库。标准文本是指预先收集的符合某个领域定义特征的经典样本文本,例如“美观”、“耗电”、“不够节能”等,标准文本的数量可以根据具体的分类任务动态地增加或者减少。标准文本对应的情感标签是指各个标准文本反映的情感,例如,正面、中性、负面,或者开心、生气、愤怒等情感标签,可以将情感标签用数值进行标识,例如,可以根据情感标签的情感程度大小,采用不同数值进行标识,从而快速便捷地实现对情感标签的量化。更具体地,采用步骤102中编码处理方法对标准文本进行编码处理,生成标准编码向量,即标准编码向量与待分类编码向量的编码方法相同,然后,将各个标准编码向量及对应的情感标签保存成npy格式的编码向量文件或者数据库文件,以便后续对标准编码向量进行快速读取。第一情感标签是指利用预设标准样本库进行检索确定的情感标签,第一概率是指待分类文本确定为第一情感标签的置信度。具体地,在预设标准样本库中检索第一情感标签,即将待分类编码向量分别与各个标准编码向量进行相似度计算,相似度最大值对应的标准编码向量的情感标签即为该第一情感标签,根据该相似度最大值确定第一概率。本实施例中,通过预设标准样本库实现了对待分类编码向量的分类,且由于是利用预设标准样本库进行检索得到,省去了复杂的特征学习过程,提高了第一情感标签的生成速度,实现了对待分类文本的精细检索。
步骤106,若第一概率小于预设第一阈值,则将待分类编码向量输入已训练的文本分类器进行处理,输出待分类编码向量的第二情感标签及对应的第二概率。
其中,已训练的文本分类器是指预先训练好的文本分类模型,如通过对transformer、CNN(Convolutional Neural Network,卷积神经网络)、RNN、LSTM、GRU(gatedrecurrent unit,门控循环单元)、MLP(Multilayer Perceptron,多层感知机)中的一种分类网络进行训练学习后得到文本分类器。预设第一阈值是指预先设定的用于判断第一情感标签是否符合要求的第一概率的临界值,例如,该预设第一阈值可以是95%、90%等。具体地,当第一概率小于预设第一阈值时,表明第一情感标签的准确性不满足要求,则将待分类编码向量作为训练后的文本分类器的输入,则文本分类器的输出即为待分类编码向量的第二情感标签及对应的第二概率,实现了对待分类文本的二次分类,且由于是采用文本分类器进行分类,提高了第二情感标签分类的准确率。
步骤108,根据第一情感标签对应的第一概率以及第二情感标签对应的第二概率,确定待分类文本的目标标签。
具体地,可以根据第一概率和第二概率各自数值,按照预设计算规则计算得到目标标签。其中的预设计算规则可以是分别设置第一概率及第二概率的相应权重,然后进行加权计算确定目标标签,也可以是求取第一概率和第二概率的平均值确定目标标签,还可以是取基于第一概率和第二概率中的最大值确定目标标签。作为本实施例中的优选,选取加权计算确定目标标签,从而综合了第一概率和第二概率的分类结果,即融合了检索的分类结果及文本分类器的分类结果,大大提高了文本分类的准确性,扩展了文本分类器的决策框架,提升了文本分类器的性能。
上述文本分类方法,先对待分类文本进行编码处理,得到待分类编码向量,然后,在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率,省去了复杂的特征学习过程,提高了第一情感标签的生成速度,接着,在第一概率小于预设第一阈值时,将待分类编码向量输入已训练的文本分类器进行处理,输出待分类编码向量的第二情感标签及对应的第二概率,实现了对待分类文本的二次分类,且由于是采用文本分类器进行分类,提高了第二情感标签分类的准确率,最后,基于第一情感标签对应的第一概率以及第二情感标签对应的第二概率,确定待分类文本的目标标签,融合了检索的分类结果及文本分类器的分类结果,大大提高了文本分类的准确性,扩展了文本分类器的决策框架,提升了文本分类器的性能。
如图2所示,在一个实施例中,对待分类文本进行编码处理,得到待分类编码向量之前,还包括:
步骤110,提供文本数据库,将文本数据库中的各个文本与规则库进行匹配;其中,规则库包括各个难分类样本对应的正则表达式及情感标签,难分类样本为预先收集的且分类模型分类出错概率大于预设阈值的样本;
步骤112,将匹配失败的文本确定为待分类文本。
其中,规则库是指包括各个难分类样本的正则表达式及情感标签的数据库,难分类样本是指在分类任务中的一种分类模型不能准确分类的数据,即难分类样本为预先收集的且分类模型分类出错概率大于预设阈值的样本,也即分类模型容易分错的数据,例如,“太卡了”可能负面情感的文本,也可能中性情感的文本。具体地,预先收集难分类样本,针对每个难分类样本,以正则匹配的规则格式保存在文本文件,构建规则库。该规则库可根据分类任务动态地添加难分类样本的正则表达式及对应的情感标签,获取文本数据库,将文本数据库中的各个文本与规则库进行匹配,即判断文本数据是否存在规则库中,当文本数据库中文本匹配失败时,确定对应的文本不是难分类文本,进而将该文本确定为待分类文本,以进行分类,从而实现了对文本数据库中的文本的检测,剔除了难分类文本,使得待分类文本均为可以准确分类的文本,大大提高了文本分类效率。
在一个实施例中,还包括:将匹配成功的难分类样本的情感标签作为文本的目标标签。
具体地,若文本匹配成功,即文本数据为难分类样本,则从规则库中获取难分类样本对应的情感标签作为文本的目标标签,从而实现了对难分类样本快速准确的分类,大大提高了文本分类效率。本实施例中通过规则库对文本数据进行分类,相较于传统的将难分类样本加入训练集后进行学习的分类模型进行分类,由于难分类样本会对分类模型的学习产生干扰导致的分类准确性降低,大大提高了对难分类文本的分类效率。
在一个实施例中,在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率之后,还包括:
若第一概率大于预设第一阈值,则将第一情感标签确定为待分类文本的目标标签。
具体地,当第一概率大于预设第一阈值时,表明第一情感标签的准确性满足要求,则直接将第一情感标签作为待分类文本的目标标签,提高了对文本分类的速度。
在一个实施例中,在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率之后,还包括:
若第一概率小于预设第二阈值,则将待分类编码向量输入已训练的文本分类器进行处理,输出待分类编码向量的第二情感标签,预设第二阈值小于预设第一阈值;
将第二情感标签确定为待分类文本的目标标签。
其中,预设第二阈值是指预设设定的用于判断第一情感标签是否满足要求的第一概率的另一个临界值,预设第二阈值小于预设第一阈值,例如,该预设第二阈值可以是55%、60%等。当第一概率小于预设第二阈值,表明第一情感标签的准确性不满足要求,即利用预设标准样本库检索得到的第一情感标签不准确,因此,将待分类编码向量输入已训练的文本分类器进行处理,输出待分类编码向量的第二情感标签,将第二情感标签确定为待分类文本的目标标签,本实施例中对于不准确的第一情感标签不予考虑,将第二情感标签确定为待分类文本的目标标签,提高了文本分类效率。
如图3所示,在一个实施例中,预设标准样本库包括多个标准文本的标准编码向量及对应的情感标签,在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率,包括:
步骤104A,分别计算待分类编码向量与各个标准编码向量对应的语义相似度;
步骤104B,选取多个语义相似度中的最大语义相似度确定为待分类编码向量对应的第一概率,将最大语义相似度对应的标准编码向量的情感标签确定为待分类编码向量的第一情感标签。其中,语义相似度可以通过计算待分类编码向量与各个标准编码向量的余弦距离、欧氏距离、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowskidistance)、Jaccard相似系数(Jaccard Coefficient)、皮尔森相关系数(PearsonCorrelation Coefficient)、斯皮尔曼相关系数(SRC:Spearman Rank Correlation)的一种或者多种距离的组合,根据距离与相似度的正相关关系或负相关关系转化得到,然后,从多个标准编码向量对应的语义相似度中选取最大的语义相似度确定为待分类编码向量对应的第一概率,将最大语义相似度对应的标准编码向量的情感标签确定为待分类编码向量的第一情感标签,本实施例中,通过计算待分类编码向量与标准编码向量的语义相似度,实现了对待分类文本的精细检索及分类,且该计算方法简单快捷,提高了第一情感标签的检索效率。
值得说明的是,可以采用预设孪生网络分别确定待分类文本的待分类编码向量,以及标准文本的标准编码向量,由于孪生网络包含两个相同的编码网络,预包含有Network_1和Network_2两个神经网络,如,RNN、LSTM或MLP等,且这两个网络的结构相同的,并且参数是共享的,即参数是一致的神经网络,用于对待分类文本和标准文本进行编码。具体地,分别将待分类文本和标准文本作为Network_1神经网络和Network_2神经网络的输入,这两个神经网络分别将待分类编码文本和文本向量映射到新的空间,形成在新的空间中的表示,得到生成待分类编码向量与标准编码向量。具体地,获取预设标准样本库中的标准样本,将待分类文本以及标准文本输入分别输入预设孪生网络,生成待分类编码向量与标准编码向量,从而使得步骤104中的编码过程与步骤106中的编码过程一致,实现了对编码网络的复用,提升了文本分类器的推理速度。
如图4所示,在一个实施例中,根据第一情感标签对应的第一概率以及第二情感标签对应的第二概率,确定待分类文本的目标标签之后,还包括:
步骤114,获取多个目标标签及对应的待分类文本;
步骤116,根据多个目标标签及对应的待分类文本对规则库进行更新,得到更新后的规则库。
具体地,对目标标签及对应的待分类文本进行分析比对,判断目标标签是否准确,若目标标签不准确,则确定对应的待分类文本为难分类文本,并将该待分类分本添加至规则库,实现了对规则库的更新,使得更新后的规则库更加全面准确。
在一个实施例中,根据第一情感标签对应的第一概率以及第二情感标签对应的第二概率,确定待分类文本的目标标签,包括:
分别确定第一情感标签和第二情感标签确定对应的权重;
根据第一情感标签对应的第一概率、第二情感标签对应的第二概率及对应的权重进行加权求和计算,确定待分类文本的目标标签。
具体地,将情感标签通过数值进行标识,分别确定第一情感标签和第二情感标签设置相应的权重,根据第一情感标签对应的第一概率、第二情感标签对应的第二概率及对应的权重进行加权求和计算,得到综合概率,然后基于该综合概率对应的数值区间,确定待分类文本的目标标签,综合了第一情感标签和第二情感标签的重要性程度,从而扩展了文本分类器的决策框架,提升了文本分类器的推理速度。
如图5所示,在一个实施例中,提出了一种文本分类装置,包括:
获取模块502,用于对待分类文本进行编码处理,得到待分类编码向量;
检索模块504,用于在预设标准样本库中确定待分类编码向量的第一情感标签及对应的第一概率;
确定模块506,用于若第一概率小于预设第一阈值,则将待分类编码向量输入已训练的文本分类器进行处理,输出待分类编码向量的第二情感标签及对应的第二概率;
分类模块508,用于根据第一情感标签对应的第一概率以及第二情感标签对应的第二概率,确定待分类文本的目标标签。
在一个实施例中,该文本分类装置还包括:
匹配模块,用于提供文本数据库,将文本数据库中的各个文本与规则库进行匹配;其中,规则库包括各个难分类样本对应的正则表达式及情感标签,难分类样本为预先收集的且分类模型分类出错概率大于预设阈值的样本;
第一确定模块,用于将匹配失败的文本确定为待分类文本。
在一个实施例中,该文本分类装置还包括:第二确定模块,用于将匹配成功的难分类样本的情感标签作为文本的目标标签。
在一个实施例中,该文本分类装置还包括:第一分类模块,用于若第一概率大于预设第一阈值,则将第一情感标签确定为待分类文本的目标标签。
在一个实施例中,该文本分类装置还包括:
第三确定模块,用于若第一概率小于预设第二阈值,则将待分类编码向量输入已训练的文本分类器进行处理,输出待分类编码向量的第二情感标签,预设第二阈值小于预设第一阈值;
第四确定模块,用于将第二情感标签确定为待分类文本的目标标签。
在一个实施例中,该文本分类装置还包括:
第一获取模块,用于获取多个目标标签及对应的待分类文本;
更新模块,用于根据多个目标标签及对应的待分类文本对规则库进行更新,得到更新后的规则库。
在一个实施例中,分类模块包括:
第三确定单元,用于分别确定第一情感标签和第二情感标签对应的权重;
分类单元,用于根据第一情感标签对应的第一概率、第二情感标签对应的第二概率及对应的权重进行加权求和计算,确定待分类文本的目标标签。
图6示出了一个实施例中电子设备的内部结构图。该电子设备具体可以是服务器,服务器包括但不限于高性能计算机和高性能计算机集群。如图6所示,该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该电子设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本分类方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本分类方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本分类方法可以实现为一种计算机程序的形式,计算机程序可在如图6所示的电子设备上运行。电子设备的存储器中可存储组成文本分类装置的各个程序模板。比如,获取模块502,检索模块504,确定模块506,分类模块508。
一种电子设备,电子设备包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述文本分类方法中的步骤。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述文本分类方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种文本分类方法,其特征在于,包括:
对待分类文本进行编码处理,得到待分类编码向量;
在预设标准样本库中确定所述待分类编码向量的第一情感标签及对应的第一概率;
若所述第一概率小于预设第一阈值,则将所述待分类编码向量输入已训练的文本分类器进行处理,输出所述待分类编码向量的第二情感标签及对应的第二概率;
根据所述第一情感标签对应的第一概率以及所述第二情感标签对应的第二概率,确定所述待分类文本的目标标签。
2.如权利要求1所述的方法,其特征在于,所述对待分类文本进行编码处理,得到待分类编码向量之前,还包括:
提供文本数据库,将所述文本数据库中的各个文本与规则库进行匹配;其中,所述规则库包括各个难分类样本对应的正则表达式及情感标签,所述难分类样本为预先收集的且分类模型分类出错概率大于预设阈值的样本;
将匹配失败的文本确定为所述待分类文本。
3.如权利要求2所述的方法,其特征在于,还包括:
将匹配成功的所述难分类样本的情感标签作为所述文本的目标标签。
4.如权利要求1所述的方法,其特征在于,所述预设标准样本库中确定所述待分类编码向量的第一情感标签及对应的第一概率之后,还包括:
若所述第一概率大于预设第一阈值,则将所述第一情感标签确定为所述待分类文本的目标标签。
5.如权利要求1所述的方法,其特征在于,所述在预设标准样本库中确定所述待分类编码向量的第一情感标签及对应的第一概率之后,还包括:
若所述第一概率小于预设第二阈值,则将所述待分类编码向量输入已训练的文本分类器进行处理,输出所述待分类编码向量的第二情感标签,所述预设第二阈值小于所述预设第一阈值;
将所述第二情感标签确定为所述待分类文本的目标标签。
6.如权利要求1-3任一项所述的方法,其特征在于,所述预设标准样本库包括多个标准文本的标准编码向量及对应的情感标签,所述在所述预设标准样本库中确定所述待分类编码向量的第一情感标签及对应的第一概率,包括:
分别计算所述待分类编码向量与各个标准编码向量对应的语义相似度;
选取多个语义相似度中的最大语义相似度确定为所述待分类编码向量对应的第一概率,将所述最大语义相似度对应的标准编码向量的情感标签确定为所述待分类编码向量的第一情感标签。
7.如权利要求6所述的方法,其特征在于,所述根据所述第一情感标签对应的第一概率以及所述第二情感标签对应的第二概率,确定所述待分类文本的目标标签之后,还包括:
获取多个目标标签及对应的所述待分类文本;
根据所述多个目标标签及对应的所述待分类文本对所述规则库进行更新,得到更新后的规则库。
8.如权利要求6所述的方法,其特征在于,所述根据所述第一情感标签对应的第一概率以及所述第二情感标签对应的第二概率,确定所述待分类文本的目标标签,包括:
分别确定所述第一情感标签和所述第二情感标签对应的权重;
根据所述第一情感标签对应的第一概率、所述第二情感标签对应的第二概率及所述对应的权重进行加权求和计算,确定所述待分类文本的目标标签。
9.一种文本分类装置,其特征在于,包括:
获取模块,用于对待分类文本进行编码处理,得到待分类编码向量;
检索模块,用于在预设标准样本库中确定所述待分类编码向量的第一情感标签及对应的第一概率;
确定模块,用于若所述第一概率小于预设第一阈值,则将所述待分类编码向量输入已训练的文本分类器进行处理,输出所述待分类编码向量的第二情感标签及对应的第二概率;
分类模块,用于根据所述第一情感标签对应的第一概率以及所述第二情感标签对应的第二概率,确定所述待分类文本的目标标签。
10.一种电子设备,所述电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述文本分类方法中的步骤。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述文本分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111658585.2A CN116431758A (zh) | 2021-12-30 | 2021-12-30 | 文本分类方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111658585.2A CN116431758A (zh) | 2021-12-30 | 2021-12-30 | 文本分类方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116431758A true CN116431758A (zh) | 2023-07-14 |
Family
ID=87085955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111658585.2A Pending CN116431758A (zh) | 2021-12-30 | 2021-12-30 | 文本分类方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116431758A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910166A (zh) * | 2023-09-12 | 2023-10-20 | 湖南尚医康医疗科技有限公司 | 物联网医院信息采集方法、系统、电子设备及存储介质 |
-
2021
- 2021-12-30 CN CN202111658585.2A patent/CN116431758A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910166A (zh) * | 2023-09-12 | 2023-10-20 | 湖南尚医康医疗科技有限公司 | 物联网医院信息采集方法、系统、电子设备及存储介质 |
CN116910166B (zh) * | 2023-09-12 | 2023-11-24 | 湖南尚医康医疗科技有限公司 | 物联网医院信息采集方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
US11232141B2 (en) | Method and device for processing an electronic document | |
CN111950269A (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN110263325B (zh) | 中文分词系统 | |
CN114169330A (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN109271514B (zh) | 短文本分类模型的生成方法、分类方法、装置及存储介质 | |
CN110795527B (zh) | 候选实体排序方法、训练方法及相关装置 | |
CN111241828A (zh) | 情感智能识别方法、装置及计算机可读存储介质 | |
US11593619B2 (en) | Computer architecture for multiplier-less machine learning | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN113849648A (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN114357151A (zh) | 文本类目识别模型的处理方法、装置、设备及存储介质 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN115392357A (zh) | 分类模型训练、标注数据样本抽检方法、介质及电子设备 | |
Parvathi et al. | Identifying relevant text from text document using deep learning | |
CN116431758A (zh) | 文本分类方法、装置、电子设备及计算机可读存储介质 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
US11941360B2 (en) | Acronym definition network | |
CN113496123A (zh) | 谣言检测方法、装置、电子设备及存储介质 | |
CN117076946A (zh) | 一种短文本相似度确定方法、装置及终端 | |
US20240037335A1 (en) | Methods, systems, and media for bi-modal generation of natural languages and neural architectures | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN114003707A (zh) | 问题检索模型的训练方法及装置、问题检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |