CN113609295A - 文本分类方法、装置及相关设备 - Google Patents
文本分类方法、装置及相关设备 Download PDFInfo
- Publication number
- CN113609295A CN113609295A CN202110921213.8A CN202110921213A CN113609295A CN 113609295 A CN113609295 A CN 113609295A CN 202110921213 A CN202110921213 A CN 202110921213A CN 113609295 A CN113609295 A CN 113609295A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- dimension
- text vector
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 214
- 238000013145 classification model Methods 0.000 claims abstract description 67
- 238000012360 testing method Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 30
- 230000009467 reduction Effects 0.000 claims description 91
- 238000001514 detection method Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000012937 correction Methods 0.000 description 32
- 201000010099 disease Diseases 0.000 description 29
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 29
- 208000024891 symptom Diseases 0.000 description 27
- 230000006870 function Effects 0.000 description 22
- 238000009826 distribution Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 229940079593 drug Drugs 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010039085 Rhinitis allergic Diseases 0.000 description 1
- 201000010105 allergic rhinitis Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000017520 skin disease Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理技术,提供一种文本分类方法、装置、计算机设备与存储介质,包括:接收并向量化处理输入文本,得到初始文本向量;降维处理初始文本向量,得到预设维度的目标文本向量;获取目标维度,并根据目标维度将目标文本向量拆分为测试组与对照组;计算测试组与对照组在目标维度之外的剩余维度上的目标差值;确定目标差值最小时目标文本向量的目标权重;根据目标权重调整目标文本向量,得到最终文本向量;利用最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型;调用目标文本分类模型处理预先输入的待处理文本,得到待处理文本所属的类别。本申请能够提高文本分类的准确性,促进智慧城市的快速发展。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本分类方法、装置、计算机设备及介质。
背景技术
临床辅助决策系统(CDSS)是一种根据患者病情为医生的临床决策提供辅助建议的系统,随着医疗大数据行业的蓬勃发展,CDSS广泛应用于各级医疗机构。CDSS的服务贯穿于患者就医问诊的全过程,方便医生使用。在疑似疾病推荐时,CDSS根据患者的症状、症状持续时间、疾病史、用药史等信息,输入模型,提供疑似的疾病供医生参考。
在实现本申请的过程中,发明人发现现有技术存在如下技术问题:传统的模型是将这些症状等信息进行结构化抽取,然后训练神经网络,建立结构化信息与疾病诊断之间的联系。近年来流行的文本处理方法,将文本进行向量化表示,直接学习文本的向量化表示与疾病标签之间的关系,这样的方法称为文本分类。在CDSS的实际部署应用中,基于某地数据训练出来的模型往往在其他地方数据源上没有稳定的表现,究其原因,数据分布的偏差为重要的因素。比如,使用西北地区训练的模型,难以在东南地区中有很好的表现,尤其是东南地区常见的过敏性鼻炎、某些因为湿度大带来的皮肤病等。
因此,有必要提供一种文本分类方法,能够提高文本分类的准确性。
发明内容
鉴于以上内容,有必要提出一种文本分类方法、文本分类装置、计算机设备及介质,能够提高文本分类的准确性。
本申请实施例第一方面提供一种文本分类方法,所述文本分类方法包括:
接收并向量化处理输入文本,得到初始文本向量;
降维处理所述初始文本向量,得到预设维度的目标文本向量;
获取目标维度,并根据所述目标维度将所述目标文本向量拆分为测试组与对照组;
计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值;
确定所述目标差值最小时所述目标文本向量的目标权重;
根据所述目标权重调整所述目标文本向量,得到最终文本向量;
利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型;
调用所述目标文本分类模型处理预先输入的待处理文本,得到所述待处理文本所属的类别。
进一步地,在本申请实施例提供的上述文本分类方法中,所述接收并向量化处理输入文本,得到初始文本向量包括:
分词处理所述输入文本,得到所述输入文本中的若干分词;
根据预设的停用词表去除所述分词中存在的停用词,得到目标关键语句;
调用预设语义模型向量化处理所述目标关键语句,得到所述初始文本向量。
进一步地,在本申请实施例提供的上述文本分类方法中,所述降维处理所述初始文本向量,得到预设维度的目标文本向量包括:
获取初始降维模型,并调用所述初始降维模型对所述初始文本向量进行降维处理,得到降维文本向量;
根据所述降维文本向量对所述初始文本向量进行重构,得到重构文本向量;
计算所述重构文本向量与所述初始文本向量的差值;
确定所述差值最小时对应的所述初始降维模型的模型参数,并根据所述模型参数更新所述初始降维模型,得到目标降维模型;
调用所述目标降维模型处理所述初始文本向量,得到预设维度的目标文本向量。
进一步地,在本申请实施例提供的上述文本分类方法中,所述根据所述目标维度将所述目标文本向量拆分为测试组与对照组包括:
二值化处理所述目标文本向量,得到所述目标文本向量中每列的平均值;
检测所述平均值是否高于预设均值阈值;
当检测结果为所述平均值高于所述预设均值阈值时,确定所述平均值对应的第一样本作为测试组;
当检测结果为所述平均值低于所述预设均值阈值时,确定所述平均值对应的第二样本作为对照组。
进一步地,在本申请实施例提供的上述文本分类方法中,所述计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值包括:
分别计算所述测试组在所述剩余维度的各个维度上的第一平均值以及所述对照组在所述剩余维度的各个维度上的第二平均值;
获取所述第一平均值与所述第二平均值的差值;
获取所述剩余维度的各个维度上的每一所述差值的和值作为目标差值。
进一步地,在本申请实施例提供的上述文本分类方法中,所述根据所述目标权重调整所述目标文本向量,得到最终文本向量包括:
获取所述目标文本向量中的每一样本以及所述样本对应的目标权重;
加权处理所述样本与所述目标权重,得到最终文本向量。
进一步地,在本申请实施例提供的上述文本分类方法中,所述利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型包括:
将所述最终文本向量拆分为训练集与测试集;
输入所述训练集至预设神经网络模型进行训练,得到初始文本分类模型;
输入所述测试集至所述初始分类模型进行测试,得到测试准确率;
检测所述测试准确率是否超过预设准确率阈值;
当检测结果为所述测试准确率超过预设准确率阈值时,确定所述目标分类模型训练完成。
本申请实施例第二方面还提供一种文本分类装置,所述文本分类装置包括:
向量处理模块,用于接收并向量化处理输入文本,得到初始文本向量;
向量降维模块,用于降维处理所述初始文本向量,得到预设维度的目标文本向量;
维度获取模块,用于获取目标维度,并根据所述目标维度将所述目标文本向量拆分为测试组与对照组;
差值计算模块,用于计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值;
权重确定模块,用于确定所述目标差值最小时所述目标文本向量的目标权重;
向量调整模块,用于根据所述目标权重调整所述目标文本向量,得到最终文本向量;
模型训练模块,用于利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型;
文本分类模块,用于调用所述目标文本分类模型处理预先输入的待处理文本,得到所述待处理文本所属的类别。
本申请实施例第三方面还提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述文本分类方法。
本申请实施例第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述文本分类方法。
本申请实施例提供的上述文本分类方法、文本分类装置、计算机设备以及计算机可读存储介质,将高维的文本向量在不损失重要信息的情况下降维,能够减少在随后的向量调整中,不同维度上的向量调整可能会存在冲突,能够减少向量调整的损失,进而提高文本分类的准确性;且本申请通过对文本向量进行权重矫正,使得分类模型可以学习到更稳定的文本特征,使得在不同数据源上模型具有更稳定的预测能力,提高文本分类的准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的文本分类模块等,能够促进智慧城市的快速发展。
附图说明
图1是本申请实施例一提供的文本分类方法的流程图。
图2是本申请实施例二提供的文本分类装置的结构图。
图3是本申请实施例三提供的计算机设备的结构示意图。
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本发明实施例提供的文本分类方法由计算机设备执行,相应地,文本分类装置运行于计算机设备中。
图1是本申请第一实施方式的文本分类方法的流程图。如图1所示,所述文本分类方法可以包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略:
S11,接收并向量化处理输入文本,得到初始文本向量。
在本申请的至少一实施例中,所述输入文本可以是针对疾病分类模型,用于根据患者的症状、症状持续时间、疾病史以及用药史等症状输入信息。
可选地,所述接收并向量化处理输入文本,得到初始文本向量包括:
分词处理所述输入文本,得到所述输入文本中的若干分词;
根据预设的停用词表去除所述分词中存在的停用词,得到目标关键语句;
调用预设语义模型向量化处理所述目标关键语句,得到初始文本向量。
其中,所述预设语义模型可以为TextCNN模型或者BERT模型,在此不做限制。所述TextCNN模型和所述BERT模型是两种文本表示的模型,可以将自然语言转化为向量,且该向量具有语义信息。所述预设语义模型的第一损失函数如下所示:
其中,N为样本个数,也即所述初始文本向量的个数,M为总的类别数,wic表示第c类第i个样本的权重,yic表示该样本的实际输出,pic表示模型预测的样本在每个类别上的概率。
S12,降维处理所述初始文本向量,得到预设维度的目标文本向量。
在本申请的至少一实施例中,采用目标降维模型对所述初始文本向量进行降维处理,能够得到预设维度的目标文本向量。所述预设维度为系统人员预先设置的维度,在此不做限制。
可选地,所述降维处理所述初始文本向量,得到预设维度的目标文本向量包括:
获取初始降维模型,并调用所述初始降维模型对所述初始文本向量进行降维处理,得到降维文本向量;
根据所述降维文本向量对所述初始文本向量进行重构,得到重构文本向量;
计算所述重构文本向量与所述初始文本向量的差值;
确定所述差值最小时对应的所述初始降维模型的模型参数,并根据所述模型参数更新所述初始降维模型,得到目标降维模型;
调用所述目标降维模型处理所述初始文本向量,得到预设维度的目标文本向量。
其中,所述预设维度为预先设置的维度,可根据实际需求设置相应的维度,例如,所述预设维度可以为64个维度,在此不做限制。所述初始降维模型可采用Autoencoder模型,Autoencoder模型是一种无监督的降维模型,通过神经网络实现降维,该模型的输入可以为所述初始文本向量X,通过L层神经网络(每层神经元的数量逐渐减少)降维,之后再通过L层神经网络(每层神经元的数量逐渐增加)升维得到重构文本向量X’,其中,重构文本向量X’的维度与初始文本向量X的维度一致,这个过程即为重构。所述初始降维模型的模型参数可以通过重构文本向量与初始文本向量组成的第二损失函数来确定,所述第二损失函数如下所示:
其中,x_ini为所述初始文本向量,x_outi为所述重构文本向量。
在随后的偏差矫正中,需要以每个维度为基准,进行全维度的偏差矫正。不同维度上的偏差矫正可能会存在冲突,本申请通过将高维的初始文本向量在不损失重要信息的情况下降维处理,能够减少在随后的偏差矫正过程中,减少偏差矫正带来的损失,进而提高文本分类的准确性。
S13,获取目标维度,并根据所述目标维度将所述目标文本向量拆分为测试组与对照组。
在本申请的至少一实施例中,所述目标维度是指所述预设维度中的任意维度。所述测试组与所述对照组用于计算样本在所述预设维度上的平衡损失。为了适应平衡损失的计算,本申请对降维处理的所述目标文本向量进行二值化处理,也即将若干所述目标文本向量组合成样本矩阵,该样本矩阵的每一行标识一个样本,每一列标识降维后的维度,通过对每列的数值进行平均值计算,按照平均值与预设均值阈值的大小关系拆分测试组与对照组。
可选地,所述根据所述目标维度将所述目标文本向量拆分为测试组与对照组包括:
二值化处理所述目标文本向量,得到所述目标文本向量中每列的平均值;
检测所述平均值是否高于预设均值阈值;
当检测结果为所述平均值高于所述预设均值阈值时,确定所述平均值对应的第一样本作为测试组;
当检测结果为所述平均值低于所述预设均值阈值时,确定所述平均值对应的第二样本作为对照组。
其中,所述预设均值阈值为预先设置的值,例如,所述预设均值阈值可以为1。
S14,计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值。
在本申请的至少一实施例中,所述目标差值用于标识所述测试组与所述对照组在所述目标维度之外的剩余维度上的分布差异,也称平衡损失,所述目标差值可以通过平均值来标识。其中,所述平衡损失可通过预设偏差矫正模型处理所得,所述预设偏差矫正模型是指训练的,用于对样本的权重进行矫正的模型。
可选地,所述计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值包括:
分别计算所述测试组在所述剩余维度的各个维度上的第一平均值以及所述对照组在所述剩余维度的各个维度上的第二平均值;
获取所述第一平均值与所述第二平均值的差值;
获取所述剩余维度的各个维度上的每一所述差值的和值作为目标差值。
其中,当所述剩余维度包括第一维度、第二维度与第三维度时,分别计算所述测试组在所述第一维度、所述第二维度以及所述第三维度上的第一平均值,得到第一平均值集;分别计算所述对照组在所述第一维度、所述第二维度以及所述第三维度上的第二平均值,得到第二平均值集;对于所述第一维度,从所述第一平均值集选取出目标第一平均值,从所述第二平均值集中选取出目标第二平均值,计算所述目标第一平均值与所述目标第二平均值的第一差值;依次类推,计算所述第二维度对应的第二差值,计算所述第三维度对应的第三差值;获取第一差值、所述第二差值与所述第三差值的和值作为目标差值。
S15,确定所述目标差值最小时所述目标文本向量的目标权重。
在本申请的至少一实施例中,所述目标权重是指样本在各个维度分布的差异达到全局最小的权重,所述预设偏差矫正模型包含平衡损失函数,通过最小化平衡损失函数,能够得到所有样本的目标权重。
可选地,平衡损失函数的定义如下:
其中,X是降维后的所述目标文本向量,所述目标文本向量的每一行表示一个样本,每一列表示降维后的维度,该矩阵的尺寸为n*p,其中n为样本个数,p为降维后的维度个数,表示L2范数,表示测试组和对照组的分布之差;Ij表示X的第j列;X-j表示X中第j列为0后的X;W表示目标权重。
S16,根据所述目标权重调整所述目标文本向量,得到最终文本向量。
在本申请的至少一实施例中,所述目标文本向量是指降维处理后的文本向量,所述目标文本向量中的每一行为一个样本,每一列表示降维后的维度。
可选地,所述根据所述目标权重调整所述目标文本向量,得到最终文本向量包括:
获取所述目标文本向量中的每一样本以及所述样本对应的目标权重;
加权处理所述样本与所述目标权重,得到最终文本向量。
其中,通过对所述样本进行加权处理,使得样本在各个维度分布的差异达到全局最小。以维度j为例,设定维度j为治疗变量,首先根据该维度取值分为治疗组和对照组,通过权重计算使得这两组在其他维度上的分布一样,此时,维度j的取值就与其他维度没有关系,模型就可以学习到维度j与标签(即文本分类模型的预测值)之间的因果关系,继而提高文本分类的准确性。
在本申请的至少一实施例中,本申请通过提供所述预设语义模型、所述目标降维模型以及所述预设偏差矫正模型实现样本权重的矫正,所述预设语义模型处理得到的所述初始文本向量是所述目标降维模型的输入,所述目标降维模型处理得到的所述目标文本向量是所述预设偏差矫正模型的输入,所述预设偏差矫正模型处理得到的样本权重影响着所述预设语义模型与所述目标降维模型的参数调整。
在实际的模型训练过程中,由于所述预设偏差矫正模型需要所有样本数据在预设维度上一起矫正,学习样本权重,因此无法进行批训练。参数的调整过程可以包括:初始设置样本权重为1,按批训练所述预设语义模型与所述目标降维模型至两个模型的参数学习收敛;调用所述预设偏差矫正模型进行样本权重学习,以最小化平衡损失,得到中间样本权重;按照所述中间样本权重按批训练所述预设语义模型与所述目标降维模型至两个模型的参数学习收敛;重复上述步骤至整个网络参数收敛。本申请通过所述预设偏差矫正模型输出的样本权重优化所述预设语义模型与所述目标降维模型的参数,使得所述预设语义模型与所述目标降维模型能够学习到更稳定的文本特征,从而提高文本分类的准确性。
S17,利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型。
在本申请的至少一实施例中,将所述最终文本向量输入至初始文本分类模型中进行训练,得到目标文本分类模型,所述目标文本分类模型的类型不做限制,例如,可以是对疾病的分类模型,用于根据患者的症状、症状持续时间、疾病史以及用药史等症状输入信息,利用疾病的分类模型学习症状输入信息与疾病标签之间的关系,从而确定所述症状输入信息对应的疾病类别。
可选地,所述输入所述最终文本向量至初始文本分类模型进行训练,得到目标文本分类模型包括:
将所述最终文本向量拆分为训练集与测试集;
输入所述训练集至预设神经网络模型进行训练,得到初始文本分类模型;
输入所述测试集至所述初始分类模型进行测试,得到测试准确率;
检测所述测试准确率是否超过预设准确率阈值;
当检测结果为所述测试准确率超过预设准确率阈值时,确定所述目标分类模型训练完成。
其中,所述训练集与所述测试集可以按照预设比例进行拆分,所述预设比例可以为预先设置的比例,例如,所述预设比例可以为8:2,在此不做限制。所述预设准确率阈值为预先设置的用于评判所述初始分类模型的准确率的阈值,例如,所述预设准确率阈值可以为95%。
S18,调用所述目标文本分类模型处理预先输入的待处理文本,得到所述待处理文本所属的类别。
在本申请的至少一实施例中,当所述目标分类模型为对疾病的分类模型,所述待处理文本可以为患者的症状、症状持续时间、疾病史以及用药史等症状输入信息,利用疾病的分类模型学习症状输入信息与疾病标签之间的关系,从而确定所述症状输入信息对应的疾病类别,实现文本分类。
本申请实施例提供的上述文本分类方法,将高维的文本向量在不损失重要信息的情况下降维,能够减少在随后的向量调整中,不同维度上的向量调整可能会存在冲突,能够减少向量调整的损失,进而提高文本分类的准确性;且本申请通过对文本向量进行权重矫正,使得分类模型可以学习到更稳定的文本特征,使得在不同数据源上模型具有更稳定的预测能力,提高文本分类的准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的文本分类模块等,能够促进智慧城市的快速发展。
图2是本申请实施例二提供的文本分类装置的结构图。
在一些实施例中,所述文本分类装置20可以包括多个由计算机程序段所组成的功能模块。所述文本分类装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)文本分类的功能。
本实施例中,所述文本分类装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:向量处理模块201、向量降维模块202、维度获取模块203、差值计算模块204、权重确定模块205、向量调整模块206、模型训练模块207以及文本分类模块208。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述向量处理模块201可以用于接收并向量化处理输入文本,得到初始文本向量。
在本申请的至少一实施例中,所述输入文本可以是针对疾病分类模型,用于根据患者的症状、症状持续时间、疾病史以及用药史等症状输入信息。
可选地,所述接收并向量化处理输入文本,得到初始文本向量包括:
分词处理所述输入文本,得到所述输入文本中的若干分词;
根据预设的停用词表去除所述分词中存在的停用词,得到目标关键语句;
调用预设语义模型向量化处理所述目标关键语句,得到初始文本向量。
其中,所述预设语义模型可以为TextCNN模型或者BERT模型,在此不做限制。所述TextCNN模型和所述BERT模型是两种文本表示的模型,可以将自然语言转化为向量,且该向量具有语义信息。所述预设语义模型的第一损失函数如下所示:
其中,N为样本个数,也即所述初始文本向量的个数,M为总的类别数,wic表示第c类第i个样本的权重,yic表示该样本的实际输出,pic表示模型预测的样本在每个类别上的概率。
所述向量降维模块202可以用于降维处理所述初始文本向量,得到预设维度的目标文本向量。
在本申请的至少一实施例中,采用目标降维模型对所述初始文本向量进行降维处理,能够得到预设维度的目标文本向量。所述预设维度为系统人员预先设置的维度,在此不做限制。
可选地,所述降维处理所述初始文本向量,得到预设维度的目标文本向量包括:
获取初始降维模型,并调用所述初始降维模型对所述初始文本向量进行降维处理,得到降维文本向量;
根据所述降维文本向量对所述初始文本向量进行重构,得到重构文本向量;
计算所述重构文本向量与所述初始文本向量的差值;
确定所述差值最小时对应的所述初始降维模型的模型参数,并根据所述模型参数更新所述初始降维模型,得到目标降维模型;
调用所述目标降维模型处理所述初始文本向量,得到预设维度的目标文本向量。
其中,所述预设维度为预先设置的维度,可根据实际需求设置相应的维度,例如,所述预设维度可以为64个维度,在此不做限制。所述初始降维模型可采用Autoencoder模型,Autoencoder模型是一种无监督的降维模型,通过神经网络实现降维,该模型的输入可以为所述初始文本向量X,通过L层神经网络(每层神经元的数量逐渐减少)降维,之后再通过L层神经网络(每层神经元的数量逐渐增加)升维得到重构文本向量X’,其中,重构文本向量X’的维度与初始文本向量X的维度一致,这个过程即为重构。所述初始降维模型的模型参数可以通过重构文本向量与初始文本向量组成的第二损失函数来确定,所述第二损失函数如下所示:
其中,x_ini为所述初始文本向量,x_outi为所述重构文本向量。
在随后的偏差矫正中,需要以每个维度为基准,进行全维度的偏差矫正。不同维度上的偏差矫正可能会存在冲突,本申请通过将高维的初始文本向量在不损失重要信息的情况下降维处理,能够减少在随后的偏差矫正过程中,减少偏差矫正带来的损失,进而提高文本分类的准确性。
所述维度获取模块203可以用于获取目标维度,并根据所述目标维度将所述目标文本向量拆分为测试组与对照组。
在本申请的至少一实施例中,所述目标维度是指所述预设维度中的任意维度。所述测试组与所述对照组用于计算样本在所述预设维度上的平衡损失。为了适应平衡损失的计算,本申请对降维处理的所述目标文本向量进行二值化处理,也即将若干所述目标文本向量组合成样本矩阵,该样本矩阵的每一行标识一个样本,每一列标识降维后的维度,通过对每列的数值进行平均值计算,按照平均值与预设均值阈值的大小关系拆分测试组与对照组。
可选地,所述根据所述目标维度将所述目标文本向量拆分为测试组与对照组包括:
二值化处理所述目标文本向量,得到所述目标文本向量中每列的平均值;
检测所述平均值是否高于预设均值阈值;
当检测结果为所述平均值高于所述预设均值阈值时,确定所述平均值对应的第一样本作为测试组;
当检测结果为所述平均值低于所述预设均值阈值时,确定所述平均值对应的第二样本作为对照组。
其中,所述预设均值阈值为预先设置的值,例如,所述预设均值阈值可以为1。
所述差值计算模块204可以用于计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值。
在本申请的至少一实施例中,所述目标差值用于标识所述测试组与所述对照组在所述目标维度之外的剩余维度上的分布差异,也称平衡损失,所述目标差值可以通过平均值来标识。其中,所述平衡损失可通过预设偏差矫正模型处理所得,所述预设偏差矫正模型是指训练的,用于对样本的权重进行矫正的模型。
可选地,所述计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值包括:
分别计算所述测试组在所述剩余维度的各个维度上的第一平均值以及所述对照组在所述剩余维度的各个维度上的第二平均值;
获取所述第一平均值与所述第二平均值的差值;
获取所述剩余维度的各个维度上的每一所述差值的和值作为目标差值。
其中,当所述剩余维度包括第一维度、第二维度与第三维度时,分别计算所述测试组在所述第一维度、所述第二维度以及所述第三维度上的第一平均值,得到第一平均值集;分别计算所述对照组在所述第一维度、所述第二维度以及所述第三维度上的第二平均值,得到第二平均值集;对于所述第一维度,从所述第一平均值集选取出目标第一平均值,从所述第二平均值集中选取出目标第二平均值,计算所述目标第一平均值与所述目标第二平均值的第一差值;依次类推,计算所述第二维度对应的第二差值,计算所述第三维度对应的第三差值;获取第一差值、所述第二差值与所述第三差值的和值作为目标差值。
所述权重确定模块205可以用于确定所述目标差值最小时所述目标文本向量的目标权重。
在本申请的至少一实施例中,所述目标权重是指样本在各个维度分布的差异达到全局最小的权重,所述预设偏差矫正模型包含平衡损失函数,通过最小化平衡损失函数,能够得到所有样本的目标权重。
可选地,平衡损失函数的定义如下:
其中,X是降维后的所述目标文本向量,所述目标文本向量的每一行表示一个样本,每一列表示降维后的维度,该矩阵的尺寸为n*p,其中n为样本个数,p为降维后的维度个数,表示L2范数,表示测试组和对照组的分布之差;Ij表示X的第j列;X-j表示X中第j列为0后的X;W表示目标权重。
所述向量调整模块206可以用于根据所述目标权重调整所述目标文本向量,得到最终文本向量。
在本申请的至少一实施例中,所述目标文本向量是指降维处理后的文本向量,所述目标文本向量中的每一行为一个样本,每一列表示降维后的维度。
可选地,所述根据所述目标权重调整所述目标文本向量,得到最终文本向量包括:
获取所述目标文本向量中的每一样本以及所述样本对应的目标权重;
加权处理所述样本与所述目标权重,得到最终文本向量。
其中,通过对所述样本进行加权处理,使得样本在各个维度分布的差异达到全局最小。以维度j为例,设定维度j为治疗变量,首先根据该维度取值分为治疗组和对照组,通过权重计算使得这两组在其他维度上的分布一样,此时,维度j的取值就与其他维度没有关系,模型就可以学习到维度j与标签(即文本分类模型的预测值)之间的因果关系,继而提高文本分类的准确性。
在本申请的至少一实施例中,本申请通过提供所述预设语义模型、所述目标降维模型以及所述预设偏差矫正模型实现样本权重的矫正,所述预设语义模型处理得到的所述初始文本向量是所述目标降维模型的输入,所述目标降维模型处理得到的所述目标文本向量是所述预设偏差矫正模型的输入,所述预设偏差矫正模型处理得到的样本权重影响着所述预设语义模型与所述目标降维模型的参数调整。
在实际的模型训练过程中,由于所述预设偏差矫正模型需要所有样本数据在预设维度上一起矫正,学习样本权重,因此无法进行批训练。参数的调整过程可以包括:初始设置样本权重为1,按批训练所述预设语义模型与所述目标降维模型至两个模型的参数学习收敛;调用所述预设偏差矫正模型进行样本权重学习,以最小化平衡损失,得到中间样本权重;按照所述中间样本权重按批训练所述预设语义模型与所述目标降维模型至两个模型的参数学习收敛;重复上述步骤至整个网络参数收敛。本申请通过所述预设偏差矫正模型输出的样本权重优化所述预设语义模型与所述目标降维模型的参数,使得所述预设语义模型与所述目标降维模型能够学习到更稳定的文本特征,从而提高文本分类的准确性。
所述模型训练模块207可以用于利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型。
在本申请的至少一实施例中,将所述最终文本向量输入至初始文本分类模型中进行训练,得到目标文本分类模型,所述目标文本分类模型的类型不做限制,例如,可以是对疾病的分类模型,用于根据患者的症状、症状持续时间、疾病史以及用药史等症状输入信息,利用疾病的分类模型学习症状输入信息与疾病标签之间的关系,从而确定所述症状输入信息对应的疾病类别。
可选地,所述输入所述最终文本向量至初始文本分类模型进行训练,得到目标文本分类模型包括:
将所述最终文本向量拆分为训练集与测试集;
输入所述训练集至预设神经网络模型进行训练,得到初始文本分类模型;
输入所述测试集至所述初始分类模型进行测试,得到测试准确率;
检测所述测试准确率是否超过预设准确率阈值;
当检测结果为所述测试准确率超过预设准确率阈值时,确定所述目标分类模型训练完成。
其中,所述训练集与所述测试集可以按照预设比例进行拆分,所述预设比例可以为预先设置的比例,例如,所述预设比例可以为8:2,在此不做限制。所述预设准确率阈值为预先设置的用于评判所述初始分类模型的准确率的阈值,例如,所述预设准确率阈值可以为95%。
所述文本分类模块208可以用于调用所述目标文本分类模型处理预先输入的待处理文本,得到所述待处理文本所属的类别。
在本申请的至少一实施例中,当所述目标分类模型为对疾病的分类模型,所述待处理文本可以为患者的症状、症状持续时间、疾病史以及用药史等症状输入信息,利用疾病的分类模型学习症状输入信息与疾病标签之间的关系,从而确定所述症状输入信息对应的疾病类别,实现文本分类。
参阅图3所示,为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的文本分类方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的文本分类方法的全部或者部分步骤;或者实现文本分类装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (10)
1.一种文本分类方法,其特征在于,所述文本分类方法包括:
接收并向量化处理输入文本,得到初始文本向量;
降维处理所述初始文本向量,得到预设维度的目标文本向量;
获取目标维度,并根据所述目标维度将所述目标文本向量拆分为测试组与对照组;
计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值;
确定所述目标差值最小时所述目标文本向量的目标权重;
根据所述目标权重调整所述目标文本向量,得到最终文本向量;
利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型;
调用所述目标文本分类模型处理预先输入的待处理文本,得到所述待处理文本所属的类别。
2.根据权利要求1所述的文本分类方法,其特征在于,所述接收并向量化处理输入文本,得到初始文本向量包括:
分词处理所述输入文本,得到所述输入文本中的若干分词;
根据预设的停用词表去除所述分词中存在的停用词,得到目标关键语句;
调用预设语义模型向量化处理所述目标关键语句,得到所述初始文本向量。
3.根据权利要求1所述的文本分类方法,其特征在于,所述降维处理所述初始文本向量,得到预设维度的目标文本向量包括:
获取初始降维模型,并调用所述初始降维模型对所述初始文本向量进行降维处理,得到降维文本向量;
根据所述降维文本向量对所述初始文本向量进行重构,得到重构文本向量;
计算所述重构文本向量与所述初始文本向量的差值;
确定所述差值最小时对应的所述初始降维模型的模型参数,并根据所述模型参数更新所述初始降维模型,得到目标降维模型;
调用所述目标降维模型处理所述初始文本向量,得到预设维度的目标文本向量。
4.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述目标维度将所述目标文本向量拆分为测试组与对照组包括:
二值化处理所述目标文本向量,得到所述目标文本向量中每列的平均值;
检测所述平均值是否高于预设均值阈值;
当检测结果为所述平均值高于所述预设均值阈值时,确定所述平均值对应的第一样本作为测试组;
当检测结果为所述平均值低于所述预设均值阈值时,确定所述平均值对应的第二样本作为对照组。
5.根据权利要求1所述的文本分类方法,其特征在于,所述计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值包括:
分别计算所述测试组在所述剩余维度的各个维度上的第一平均值以及所述对照组在所述剩余维度的各个维度上的第二平均值;
获取所述第一平均值与所述第二平均值的差值;
获取所述剩余维度的各个维度上的每一所述差值的和值作为目标差值。
6.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述目标权重调整所述目标文本向量,得到最终文本向量包括:
获取所述目标文本向量中的每一样本以及所述样本对应的目标权重;
加权处理所述样本与所述目标权重,得到最终文本向量。
7.根据权利要求1所述的文本分类方法,其特征在于,所述利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型包括:
将所述最终文本向量拆分为训练集与测试集;
输入所述训练集至预设神经网络模型进行训练,得到初始文本分类模型;
输入所述测试集至所述初始分类模型进行测试,得到测试准确率;
检测所述测试准确率是否超过预设准确率阈值;
当检测结果为所述测试准确率超过预设准确率阈值时,确定所述目标分类模型训练完成。
8.一种文本分类装置,其特征在于,所述文本分类装置包括:
向量处理模块,用于接收并向量化处理输入文本,得到初始文本向量;
向量降维模块,用于降维处理所述初始文本向量,得到预设维度的目标文本向量;
维度获取模块,用于获取目标维度,并根据所述目标维度将所述目标文本向量拆分为测试组与对照组;
差值计算模块,用于计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值;
权重确定模块,用于确定所述目标差值最小时所述目标文本向量的目标权重;
向量调整模块,用于根据所述目标权重调整所述目标文本向量,得到最终文本向量;
模型训练模块,用于利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型;
文本分类模块,用于调用所述目标文本分类模型处理预先输入的待处理文本,得到所述待处理文本所属的类别。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述文本分类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921213.8A CN113609295A (zh) | 2021-08-11 | 2021-08-11 | 文本分类方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110921213.8A CN113609295A (zh) | 2021-08-11 | 2021-08-11 | 文本分类方法、装置及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609295A true CN113609295A (zh) | 2021-11-05 |
Family
ID=78340351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110921213.8A Pending CN113609295A (zh) | 2021-08-11 | 2021-08-11 | 文本分类方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609295A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022014A (zh) * | 2022-05-30 | 2022-09-06 | 平安银行股份有限公司 | 登录风险识别方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN108763246A (zh) * | 2018-03-29 | 2018-11-06 | 科大讯飞股份有限公司 | 人员分组方法及装置、存储介质、电子设备 |
CN109947936A (zh) * | 2018-08-21 | 2019-06-28 | 北京大学 | 一种基于机器学习动态检测垃圾邮件的方法 |
CN113220876A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 一种用于英文文本的多标签分类方法及系统 |
-
2021
- 2021-08-11 CN CN202110921213.8A patent/CN113609295A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN108763246A (zh) * | 2018-03-29 | 2018-11-06 | 科大讯飞股份有限公司 | 人员分组方法及装置、存储介质、电子设备 |
CN109947936A (zh) * | 2018-08-21 | 2019-06-28 | 北京大学 | 一种基于机器学习动态检测垃圾邮件的方法 |
CN113220876A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 一种用于英文文本的多标签分类方法及系统 |
Non-Patent Citations (3)
Title |
---|
KUN KUANG: "Stable Prediction across Unknown Environments", STABLE PREDICTION ACROSS UNKNOWN ENVIRONMENTS, vol. 1806, 10 July 2018 (2018-07-10), pages 1 - 37 * |
ZHEYAN SHEN等: "Causally Regularized Learning with Agnostic Data Selection Bias", CAUSALLY REGULARIZED LEARNING WITH AGNOSTIC DATA SELECTION BIAS, vol. 2018, 31 October 2018 (2018-10-31), pages 1 - 9 * |
陈旭等: "面向不均衡医学数据集的疾病预测模型研究", 《计算机学报》, vol. 42, no. 3, 31 March 2019 (2019-03-31), pages 596 - 609 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022014A (zh) * | 2022-05-30 | 2022-09-06 | 平安银行股份有限公司 | 登录风险识别方法、装置、设备及存储介质 |
CN115022014B (zh) * | 2022-05-30 | 2023-07-14 | 平安银行股份有限公司 | 登录风险识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111008640B (zh) | 图像识别模型训练及图像识别方法、装置、终端及介质 | |
CN110021439A (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
CN112133441B (zh) | 一种mh术后裂孔状态预测模型的建立方法和终端 | |
CN112216361A (zh) | 基于人工智能的随访计划单生成方法、装置、终端及介质 | |
CN110175697A (zh) | 一种不良事件风险预测系统及方法 | |
WO2021179630A1 (zh) | 一种并发症风险预测系统、方法、装置、设备及介质 | |
WO2021151327A1 (zh) | 分诊数据处理方法、装置、设备及介质 | |
EP3968337A1 (en) | Target object attribute prediction method based on machine learning and related device | |
CN112634889B (zh) | 基于人工智能的电子病例录入方法、装置、终端及介质 | |
CN111695594A (zh) | 图像类别识别方法、装置、计算机设备及介质 | |
CN112132624A (zh) | 医疗理赔数据预测系统 | |
CN113435998B (zh) | 贷款逾期预测方法、装置、电子设备及存储介质 | |
CN110598786A (zh) | 神经网络的训练方法、语义分类方法、语义分类装置 | |
CN113889262A (zh) | 基于模型的数据预测方法、装置、计算机设备和存储介质 | |
CN113807728A (zh) | 基于神经网络的绩效考核方法、装置、设备及存储介质 | |
CA3169288A1 (en) | Knowledge graph based reasoning recommendation system and method | |
Järvelin et al. | Comparison of machine learning methods for classifying aphasic and non-aphasic speakers | |
CN113609295A (zh) | 文本分类方法、装置及相关设备 | |
CN114386604A (zh) | 基于多教师模型的模型蒸馏方法、装置、设备及存储介质 | |
Belsti et al. | Comparison of machine learning and conventional logistic regression-based prediction models for gestational diabetes in an ethnically diverse population; the Monash GDM Machine learning model | |
CN113724830A (zh) | 基于人工智能的用药风险检测方法及相关设备 | |
CN112530602A (zh) | 药品副作用分析方法、装置、电子设备及计算机存储介质 | |
Mandava | MDensNet201-IDRSRNet: Efficient cardiovascular disease prediction system using hybrid deep learning | |
CN116313086A (zh) | 一种亚健康预测模型构建方法、装置、设备及存储介质 | |
Mahadevan et al. | A survey on machine learning algorithms for the blood donation supply chain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |