CN116737933A - 文本分类方法、装置、电子设备及计算机可读存储介质 - Google Patents
文本分类方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116737933A CN116737933A CN202310730199.2A CN202310730199A CN116737933A CN 116737933 A CN116737933 A CN 116737933A CN 202310730199 A CN202310730199 A CN 202310730199A CN 116737933 A CN116737933 A CN 116737933A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- training
- vector
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 217
- 238000012549 training Methods 0.000 claims abstract description 216
- 238000013145 classification model Methods 0.000 claims abstract description 122
- 230000011218 segmentation Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 8
- 210000004072 lung Anatomy 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 210000003734 kidney Anatomy 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 208000010643 digestive system disease Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 208000023504 respiratory system disease Diseases 0.000 description 2
- 210000000952 spleen Anatomy 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及医疗科技领域的人工智能技术,揭露一种基于比对学习及标签信息的文本分类方法,包括:利用预构建的文本分类模型将训练文本集中的每个训练文本转换为文本向量,及将每个训练文本对应的文本标签转换为标签向量,计算训练文本的文本向量与对应的文本标签的标签向量之间的第一损失值,计算标签向量之间的第二损失值,融合第一损失值及第二损失值,得到综合损失值,利用综合损失值调整预构建的文本分类模型的参数,直到综合损失值满足预设的训练条件时,利用训练好的文本分类模型对待分类文本进行分类。本发明还提出一种基于比对学习及标签信息的文本分类装置、电子设备及计算机可读存储介质。本发明可以提升医疗文本分类的准确性。
Description
技术领域
本发明涉及医疗科技领域的人工智能技术,尤其涉及一种基于比对学习及标签信息的文本分类方法、装置、电子设备及计算机可读存储介质。
背景技术
随着深度学习技术的持续发展,深度学习技术在智慧医疗领域得到了广大的发展,尤其是在基于医疗文本信息的医疗分类场景中得到广泛的应用。例如,基于患者的症状描述、疾病历史信息等进行疾病诊断分类,基于医学文献、病历信息对病患进行分类以协助医生诊断和治疗决策。
在上述基于医疗文本进行分类的应用中,基于深度学习的方法可以自动地学习文本的特征表示,具有较高的准确率和泛化能力,在文本分类的应用场景中,较多地会引入分类标签信息,例如,肾脏、肺叶等病灶分类标签信息,呼吸科、心血管科等科室分类标签信息等。标签信息较多被作为分类索引而使用,往往忽略了分类标签本身的文本信息,以及多个分类标签之间的差异和分类标签与分类文本之间差异,因此,传统的基于标签的深度学习的文本分类的准确性有待进一步的提升。
发明内容
本发明提供一种基于比对学习及标签信息的文本分类方法、装置、电子设备及计算机可读存储介质,其主要目的在于提升医疗文本分类的准确性。
为实现上述目的,本发明提供的一种基于比对学习及标签信息的文本分类方法,包括:
获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,及将每个所述训练文本对应的文本标签转换为标签向量;
依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;
利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;
获取待分类文本,利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。
可选地,所述利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,包括:
将所述训练文本集中的每个训练文本进行分词处理,得到每个所述训练文本对应的分词集;
从所述分词集中逐个选取其中一个分词作为目标分词,统计所述目标分词和所述目标分词的相邻分词在所述目标分词的预设邻域范围内共同出现的共现次数;
利用每个所述分词对应的共现次数构建共现矩阵;
利用所述预构建的文本分类模型分别将每个所述训练文本对应的分词转换为词向量,将所述词向量拼接为向量矩阵;
利用所述共现矩阵和所述向量矩阵进行乘积运算,得到每个所述训练文本对应的文本向量。
可选地,所述依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,包括:
利用如下第一损失函数计算计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值:
其中,Loss1表示所述第一损失值,hi表示所述训练文本集中第i个文本的文本向量,li表示所述第i个文本对应的文本标签的标签向量,sim(hi,li)表示hi与li之间的余弦相似度,lj表示第j个文本对应的文本标签的标签向量,N表示所述预设的文本标签集中的文本标签的个数,sim(hi,li)表示hi与lj之间的余弦相似度,τ为温度系数。
可选地,所述计算每个所述标签向量之间的第二损失值,包括:
利用如下第二损失函数计算每个所述标签向量之间的第二损失值:
其中,Loss2表示所述第二损失值,i和j分别表示所述预设的文本标签集中第i个文本标签和第j个文本标签,且i不等于j,lj表示第j个文本标签的标签向量,li表示第i个文本标签的标签向量,sim(li,lj)表示li与lj之间的余弦相似度。
可选地,所述融合所述第一损失值及所述第二损失值,得到综合损失值,包括:
获取所述第一损失值对应的预设第一权重及所述第二损失值对应的第二权重;
利用所述第一权重及所述第二权重对所述第一损失值及所述第二损失值进行加权求平均,得到所述综合损失值。
可选地,所述利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类,包括:
利用所述训练好的文本分类模型将所述待分类文本转换为待分类文本向量;
计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的概率值;
选取满足预设分类条件的概率值对应的文本标签作为所述待分类文本的分类标签。
可选地,所述计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的概率值,包括:
依次计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的余弦相似度;
将所有余弦相似度进行归一化,并将归一化后的余弦相似度转换为所述概率值。
为了解决上述问题,本发明还提供一种基于比对学习及标签信息的文本分类装置,所述装置包括:
文本及标签向量表示模块,用于获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个文本转换为文本向量,及将所述预设的文本标签集中的每个文本标签转换为标签向量;
文本及标签损失计算模块,用于依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;
分类模型训练模块,用于利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;
待分类文本分类模块,用于获取待分类文本,利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的程序以实现上述所述的基于比对学习及标签信息的文本分类方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于比对学习及标签信息的文本分类方法。
本发明申请通过计算由医疗文本信息组成的训练文本集中每个训练文本的文本向量与该训练文本对应的医疗文本标签的标签向量之间的第一损失值,驱使训练文本与对应文本标签在语义空间中的对齐,同时,计算每个标签向量之间的第二损失值,避免文本标签语义相似,从而导致文本分类的边界模糊的问题,最后利用所述第一损失值和所述第二损失值对应的综合损失值,调整预先构建的文本分类模型的参数,对所述预先构建的文本分类模型进行训练,使得该模型能够充分学习到训练文本的含义和文本标签的含义,进而利用训练好的文本分类模型进行待分类文本的分类,可以提升医疗文本分类的准确性。
附图说明
图1为本发明一实施例提供的基于比对学习及标签信息的文本分类方法的流程示意图;
图2为本发明一实施例提供的基于比对学习及标签信息的文本分类方法其中一个步骤的详细实施流程示意图;
图3为本发明一实施例提供的基于比对学习及标签信息的文本分类装置的功能模块图;
图4为本发明一实施例提供的实现所述基于比对学习及标签信息的文本分类方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于比对学习及标签信息的文本分类方法。所述基于比对学习及标签信息的文本分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于比对学习及标签信息的文本分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于比对学习及标签信息的文本分类方法的流程示意图。在本实施例中,所述一种基于比对学习及标签信息的文本分类方法,包括:
S1、获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,及将每个所述训练文本对应的文本标签转换为标签向量;
本发明实施例中,以智慧医疗领域中的医疗文本分类为例,说明所述基于比对学习及标签信息的文本分类方法。所述训练文本集可以是病患授权后的病历文本,也可以是医学文献文本,还可以是医药说明书文本等。所述训练文本集可以从授权后的预先构建的存储区域中获取,可以利用具有数据抓取功能的计算机语句(java语句、python语句等)抓取,所述预先构建的存储区域包括但不限于数据库、区块链、网络缓存。
本发明实施例中,所述训练文本集中的每个训练文本均预先标注了文本标签,所述文本标签是针对具体的医疗文本分类场景,预设设置的数量不等的表征文本分类类型的描述信息。例如,在病灶分类中,所述文本标签包括但不限于肾脏、脾脏、左肺、右肺等目标器官分类标签,在疾病分类中,所述文本标签包括但不限于呼吸疾病、消化疾病、眼科疾病等。
本发明实施例中,所述训练文本集中的一个训练文本标注了唯一一个文本标签,训练文本与文本标签一一对应。
本发明实施例中,所述预构建的文本分类模型可以是任一类型的基于深度学习理论的模型,例如,所述预构建的文本分类模型可以是基于nnUNet卷积神经网络构建,也可以基于Transformer模型构建。
可以理解的是,所述训练文本集及对应的文本标签是由自然语言组成的文本,若直接对其进行分析,会占用大量的计算资源,导致分析的效率低下,因此,可以利用所述预构建的文本分类模型对每个所述训练文本和每个所述文本标签进行向量转换。
详细地,参阅图2所示,所述利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,包括:
S11、将所述训练文本集中的每个训练文本进行分词处理,得到每个所述训练文本对应的分词集;
S12、从所述分词集中逐个选取其中一个分词作为目标分词,统计所述目标分词和所述目标分词的相邻分词在所述目标分词的预设邻域范围内共同出现的共现次数;
S13、利用每个所述分词对应的共现次数构建共现矩阵;
S14、利用所述预构建的文本分类模型分别将每个所述训练文本对应的分词转换为词向量,将所述词向量拼接为向量矩阵;
S15、利用所述共现矩阵和所述向量矩阵进行乘积运算,得到每个所述训练文本对应的文本向量。
本发明实施例中,可采用预设的标准词典对每个所述训练文本进行分词处理,得到多个分词,所述标准词典中包含多个标准分词。
例如,将所述训练文本按照不同的长度在所述标准词典中进行检索,若能检索到与所述训练文本相同的标准分词,则可确定检索到的该标准分词为所述训练文本的分词。
本发明另一实施例中,可以利用已用的分词工具,例如,jieba分词工具对每个所述训练文本进行分词处理。
示例性地,可利用每一个分词对应的所述共现次数构建如下所示的共现矩阵:
其中,Xi,j为所述训练文本中分词i与该分词i的相邻文本分词j的共现次数。
本发明一可选实施例中,所述预构建的文本分类模型可采用word2vec模型、NLP(Natural Language Processing,自然语言处理)模型等具有词向量转换功能的模型,将多个分词转换为词向量,进而将词向量拼接为所述训练文本的向量矩阵。
需要说明的是,所述将每个所述训练文本对应的文本标签转换为标签向量的方法与所述利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量的方法相同,这里不再赘述。
本发明实施例通过对训练文本及文本标签进行向量转换,以便后续基于每个所述训练文本的文本向量及每个所述文本标签的标签向量进行训练文本与文本标签之间的比对,以及文本标签之间的比对。
S2、依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;
可以理解的是,每个所述文本标签除了分类索引的作用之外,还包含着特定的文本语义,例如,一文本分类标签为肾脏、另一文本分类标签为呼吸科,这两个文本分类标签本身都具有一定的语义,且这两个文本分类标签所表达的文本含义不同,同时,每个所述训练文本也具有一定的语义信息,例如,某个训练文本为描述病患呼吸困难的症状表现的文本,在实际对所述预构建的文本分类模型进行分类训练的过程中,最终分类训练的结果是使每个所述训练文本与相对应的文本标签更接近,同时远离其他的文本标签。因此,我们可以通过计算每个所述文本向量与每个所述标签向量之间的第一损失值,通过所述第一损失值调整所述训练文本及所述文本标签在语义空间中均匀分布。
详细得,所述依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,包括:
利用如下第一损失函数计算计算每个所述文本向量与每个所述标签向量之间的第一损失值:
其中,Loss1表示所述第一损失值,hi表示所述训练文本集中第i个文本的文本向量,li表示所述第i个文本对应的文本标签的标签向量,sim(hi,li)表示hi与li之间的余弦相似度,lj表示第j个文本对应的文本标签的标签向量,N表示所述预设的文本标签集中的文本标签的个数,sim(hi,li)表示hi与lj之间的余弦相似度,τ为温度系数。
可以理解的是,所述温度系数的作用是调节所述预构建的文本分类模型对异常的训练文本的关注程度,温度系数越小的,则所述预构建的文本分类模型越关注于将训练文本与最相似的异常训练文本分开。
本发明实施例中,考虑到每个所述文本标签自身存在一定的语义信息,且多个文本标签之间可能存在语义相似的情况,这种情况可能会导致最终的文本分类的边界模糊。例如,某一文本标签为左肺、另一文本标签为上肺叶。为了提升所述预构建的文本分类模型的分类的均匀性,可以通过所述第二损失值,将每个所述文本标签均匀地分布在语义空间中。
详细地,所述计算每个所述标签向量之间的第二损失值,包括:
利用如下第二损失函数计算每个所述标签向量之间的第二损失值:
其中,Loss2表示所述第二损失值,i和j分别表示所述预设的文本标签集中第i个文本标签和第j个文本标签,且i不等于j,lj表示第j个文本标签的标签向量,li表示第i个文本标签的标签向量,sim(li,lj)表示li与lj之间的余弦相似度。
详细地,所述融合所述第一损失值及所述第二损失值,得到综合损失值,包括:
获取所述第一损失值对应的预设第一权重及所述第二损失值对应的第二权重;
利用所述第一权重及所述第二权重对所述第一损失值及所述第二损失值进行加权求平均,得到所述综合损失值。
本发明实施例中,通过融合所述第一损失值及所述第二损失值得到所述综合损失值,以便候选利用所述综合损失值对所述预构建的文本分类模型进行参数调整,以使所述文本分类模型达到预期的训练要求。
S3、利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;
本发明一可选实施例中,可以利用所述综合损失值输入所述预构建的文本分类模型的梯度反转层,实现梯度的反转,以达到对所述预构建的文本分类模型训练任务的调整。
本发明实施例中,所述预设的训练条件可以是当所述综合损失值小于或等于预设的损失阈值时,停止对所述文本分类模型的训练。
本发明另一可选实施例中,也可以通过限制对所述文本分类模型的训练迭代次数控制所述文本分类模型的训练,例如,当该文本分类模型的迭代训练次数达到预设的最大迭代次数时,停止对所述文本分类模型的训练。
可以理解的是,当所述预构建的文本分类模型停止训练时,相应的该文本分类模型在最后一次迭代训练的过程中,会输出所述预设的文本标签集中的每个文本标签的标签向量,即每个所述文本标签均具有最近的标签向量。
本发明实施例利用所述第一损失值和所述第二损失值对应的综合损失值,调整预先构建的文本分类模型的参数,对所述预先构建的文本分类模型进行训练,使得该模型能够充分学习到训练文本的含义和文本标签的含义。
S4、获取待分类文本,利用所述训练好的文本分类模型将根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。
本发明实施例中,利用所述训练好的文本分类模型对所述待分类文本进行分类。
详细地,所述利用所述训练好的文本分类模型将根据每个所述文本标签最近的标签向量对所述待分类文本进行分类,包括:
利用所述训练好的文本分类模型将所述待分类文本转换为待分类文本向量;
计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的概率值;
选取满足预设分类条件的概率值对应的文本标签作为所述待分类文本的分类标签。
详细地,所述计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的概率值,包括:
从所述待分类文本向量中提取所述待分类文本的文本特征,及从每个所述文本标签最近的标签向量中提取对应的文本标签的标签特征;
利用预设的激活函数计算所述文本特征与每个所述标签特征之间的概率值。
本发明实施例中,可利用如下预设的激活函数:
其中,p(a|x)为待分类文本向量x和文本标签a之间的相对概率,wa为情文本标签a的权重向量,T为求转置运算符号,exp为求期望运算符号,X为预设的文本标签的数量。
本发明另一可选实施例中,可以通过计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的相似度,例如,计算两者之间的余弦相似度,选择相似度最大的文本标签作为所述待分类文本的分类标签。
本发明申请通过计算由医疗文本信息组成的训练文本集中每个训练文本的文本向量与该训练文本对应的医疗文本标签的标签向量之间的第一损失值,驱使训练文本与对应文本标签在语义空间中的对齐,同时,计算每个标签向量之间的第二损失值,避免文本标签语义相似,从而导致文本分类的边界模糊的问题,最后利用所述第一损失值和所述第二损失值对应的综合损失值,调整预先构建的文本分类模型的参数,对所述预先构建的文本分类模型进行训练,使得该模型能够充分学习到训练文本的含义和文本标签的含义,进而利用训练好的文本分类模型进行待分类文本的分类,可以提升医疗文本分类的准确性。
如图3所示,是本发明一实施例提供的基于比对学习及标签信息的文本分类装置的功能模块图。
本发明所述基于比对学习及标签信息的文本分类装置100可以安装于电子设备中。根据实现的功能,所述基于比对学习及标签信息的文本分类装置100包括:文本及标签向量表示模块101、文本及标签损失计算模块102、分类模型训练模块103及待分类文本分类模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述文本及标签向量表示模块101,用于获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个文本转换为文本向量,及将所述预设的文本标签集中的每个文本标签转换为标签向量;
所述文本及标签损失计算模块102,用于依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;
所述分类模型训练模块103,用于利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;
所述待分类文本分类模块104,用于获取待分类文本,利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。
详细地,所述基于比对学习及标签信息的文本分类装置100各模块的具体实施方式如下:
步骤一、获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,及将每个所述训练文本对应的文本标签转换为标签向量;
本发明实施例中,以智慧医疗领域中的医疗文本分类为例,说明所述基于比对学习及标签信息的文本分类方法。所述训练文本集可以是病患授权后的病历文本,也可以是医学文献文本,还可以是医药说明书文本等。所述训练文本集可以从授权后的预先构建的存储区域中获取,可以利用具有数据抓取功能的计算机语句(java语句、python语句等)抓取,所述预先构建的存储区域包括但不限于数据库、区块链、网络缓存。
本发明实施例中,所述训练文本集中的每个训练文本均预先标注了文本标签,所述文本便签是针对具体的医疗文本分类场景,预设设置的数量不等的表征文本分类类型的描述信息。例如,在病灶分类中,所述预设的文本标签集包括但不限于肾脏、脾脏、左肺、右肺等目标器官分类标签,在疾病分类中,所述预设的文本标签集包括但不限于呼吸疾病、消化疾病、眼科疾病等。
本发明实施例中,所述训练文本集中的一个训练文本标注了唯一一个文本标签,训练文本与文本标签一一对应。
本发明实施例中,所述预构建的文本分类模型可以是任一类型的基于深度学习理论的模型,例如,所述预构建的文本分类模型可以是基于nnUNet卷积神经网络构建,也可以基于Transformer模型构建。
可以理解的是,所述训练文本集及对应的文本标签集是由自然语言组成的文本,若直接对其进行分析,会占用大量的计算资源,导致分析的效率低下,因此,可以利用所述预构建的文本分类模型对每个所述训练文本和每个所述文本标签进行向量转换。
详细地,所述利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,包括:
将所述训练文本集中的每个训练文本进行分词处理,得到每个所述训练文本对应的分词集;
从所述分词集中逐个选取其中一个分词作为目标分词,统计所述目标分词和所述目标分词的相邻分词在所述目标分词的预设邻域范围内共同出现的共现次数;
利用每个所述分词对应的共现次数构建共现矩阵;
利用所述预构建的文本分类模型分别将每个所述训练文本对应的分词转换为词向量,将所述词向量拼接为向量矩阵;
利用所述共现矩阵和所述向量矩阵进行乘积运算,得到每个所述训练文本对应的文本向量。
本发明实施例中,可采用预设的标准词典对每个所述训练文本进行分词处理,得到多个分词,所述标准词典中包含多个标准分词。
例如,将所述训练文本按照不同的长度在所述标准词典中进行检索,若能检索到与所述训练文本相同的标准分词,则可确定检索到的该标准分词为所述训练文本的分词。
本发明另一实施例中,可以利用已用的分词工具,例如,jieba分词工具对每个所述训练文本进行分词处理。
示例性地,可利用每一个分词对应的所述共现次数构建如下所示的共现矩阵:
其中,Xi,j为所述训练文本中分词i与该分词i的相邻文本分词j的共现次数。
本发明一可选实施例中,所述预构建的文本分类模型可采用word2vec模型、NLP(Natural Language Processing,自然语言处理)模型等具有词向量转换功能的模型,将多个分词转换为词向量,进而将词向量拼接为所述训练文本的向量矩阵。
需要说明的是,所述将每个所述训练文本对应的文本标签转换为标签向量的方法与所述利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量的方法相同,这里不再赘述。
本发明实施例通过对训练文本及文本标签进行向量转换,以便后续基于每个所述训练文本的文本向量及每个所述文本标签的标签向量进行训练文本与文本标签之间的比对,以及文本标签之间的比对。
步骤二、依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;
可以理解的是,每个所述文本标签除了分类索引的作用之外,还包含着特定的文本语义,在实际对所述预构建的文本分类模型进行分类训练的过程中,最终分类训练的结果是,使每个所述训练文本与相对应的文本标签更接近,同时远离其他的文本标签。因此,我们可以通过计算每个所述文本向量与每个所述标签向量之间的第一损失值,通过所述第一损失值调整所述训练文本及所述文本标签在语义空间中均匀分布。
详细得,所述依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,包括:
利用如下第一损失函数计算计算每个所述文本向量与每个所述标签向量之间的第一损失值:
其中,Loss1表示所述第一损失值,hi表示所述训练文本集中第i个文本的文本向量,li表示所述第i个文本对应的文本标签的标签向量,sim(hi,li)表示hi与li之间的余弦相似度,lj表示第j个文本对应的文本标签的标签向量,N表示所述预设的文本标签集中的文本标签的个数,sim(hi,li)表示hi与lj之间的余弦相似度,τ为温度系数。
可以理解的是,所述温度系数的作用是调节所述预构建的文本分类模型对异常的训练文本的关注程度,温度系数越小的,则所述预构建的文本分类模型越关注于将训练文本与最相似的异常训练文本分开。
本发明实施例中,考虑到每个所述文本标签自身存在一定的语义信息,且多个文本标签之间可能存在语义相似的情况,这种情况可能会导致最终的文本分类的边界模糊。为了提升所述预构建的文本分类模型的分类的均匀性,可以通过所述第二损失值,将每个所述文本标签均匀地分布在语义空间中。
详细地,所述计算每个所述标签向量之间的第二损失值,包括:
利用如下第二损失函数计算每个所述标签向量之间的第二损失值:
其中,Loss2表示所述第二损失值,i和j分别表示所述预设的文本标签集中第i个文本标签和第j个文本标签,且i不等于j,lj表示第j个文本标签的标签向量,li表示第i个文本标签的标签向量,sim(li,lj)表示li与lj之间的余弦相似度。
详细地,所述融合所述第一损失值及所述第二损失值,得到综合损失值,包括:
获取所述第一损失值对应的预设第一权重及所述第二损失值对应的第二权重;
利用所述第一权重及所述第二权重对所述第一损失值及所述第二损失值进行加权求平均,得到所述综合损失值。
本发明实施例中,通过融合所述第一损失值及所述第二损失值得到所述综合损失值,以便候选利用所述综合损失值对所述预构建的文本分类模型进行参数调整,以使所述文本分类模型达到预期的训练要求。
步骤三、利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;
本发明一可选实施例中,可以利用所述综合损失值输入所述预构建的文本分类模型的梯度反转层,实现梯度的反转,以达到对所述预构建的文本分类模型训练任务的调整。
本发明实施例中,所述预设的训练条件可以是当所述综合损失值小于或等于预设的损失阈值时,停止对所述文本分类模型的训练。
本发明另一可选实施例中,也可以通过限制对所述文本分类模型的训练迭代次数控制所述文本分类模型的训练,例如,当该文本分类模型的迭代训练次数达到预设的最大迭代次数时,停止对所述文本分类模型的训练。
可以理解的是,当所述预构建的文本分类模型停止训练时,相应的该文本分类模型在最后一次迭代训练的过程中,会输出所述预设的文本标签集中的每个文本标签的标签向量,即每个所述文本标签均具有最近的标签向量。
本发明实施例利用所述第一损失值和所述第二损失值对应的综合损失值,调整预先构建的文本分类模型的参数,对所述预先构建的文本分类模型进行训练,使得该模型能够充分学习到训练文本的含义和文本标签的含义。
步骤四、获取待分类文本,利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。
本发明实施例中,利用所述训练好的文本分类模型对所述待分类文本进行分类。
详细地,所述利用所述训练好的文本分类模型将根据每个所述文本标签最近的标签向量对所述待分类文本进行分类,包括:
利用所述训练好的文本分类模型将所述待分类文本转换为待分类文本向量;
计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的概率值;
选取满足预设分类条件的概率值对应的文本标签作为所述待分类文本的分类标签。
详细地,所述计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的概率值,包括:
从所述待分类文本向量中提取所述待分类文本的文本特征,及从每个所述文本标签最近的标签向量中提取对应的文本标签的标签特征;
利用预设的激活函数计算所述文本特征与每个所述标签特征之间的概率值。
本发明实施例中,可利用如下预设的激活函数:
其中,p(a|x)为待分类文本向量x和文本标签a之间的相对概率,wa为情文本标签a的权重向量,T为求转置运算符号,exp为求期望运算符号,X为预设的文本标签的数量。
本发明另一可选实施例中,可以通过计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的相似度,例如,计算两者之间的余弦相似度,选择相似度最大的文本标签作为所述待分类文本的分类标签。
本发明申请通过计算训练文本集中每个训练文本的文本向量与该训练文本对应的文本标签的标签向量之间的第一损失值,驱使训练文本与对应文本标签在语义空间中的对齐,同时,计算每个标签向量之间的第二损失值,避免文本标签语义相似,从而导致文本分类的边界模糊的问题,最后利用所述第一损失值和所述第二损失值对应的综合损失值,调整预先构建的文本分类模型的参数,对所述预先构建的文本分类模型进行训练,使得该模型能够充分学习到训练文本的含义和文本标签的含义,进而利用训练好的文本分类模型进行待分类文本的分类,可以提升文本分类的准确性。
如图4所示,是本发明一实施例提供的实现基于比对学习及标签信息的文本分类方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于比对学习及标签信息的文本分类。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于比对学习及标签信息的文本分类的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于比对学习及标签信息的文本分类等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于比对学习及标签信息的文本分类是多个指令的组合,在所述处理器10中运行时,可以实现:
获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,及将每个所述训练文本对应的文本标签转换为标签向量;
依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;
利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;
获取待分类文本,利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,及将每个所述训练文本对应的文本标签转换为标签向量;
依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;
利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;
获取待分类文本,利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于全息投影技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于比对学习及标签信息的文本分类方法,其特征在于,所述方法包括:
获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,及将每个所述训练文本对应的文本标签转换为标签向量;
依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;
利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;
获取待分类文本,利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。
2.如权利要求1所述的基于比对学习及标签信息的文本分类方法,其特征在于,所述利用预构建的文本分类模型依次将所述训练文本集中的每个训练文本转换为文本向量,包括:
将所述训练文本集中的每个训练文本进行分词处理,得到每个所述训练文本对应的分词集;
从所述分词集中逐个选取其中一个分词作为目标分词,统计所述目标分词和所述目标分词的相邻分词在所述目标分词的预设邻域范围内共同出现的共现次数;
利用每个所述分词对应的共现次数构建共现矩阵;
利用所述预构建的文本分类模型分别将每个所述训练文本对应的分词转换为词向量,将所述词向量拼接为向量矩阵;
利用所述共现矩阵和所述向量矩阵进行乘积运算,得到每个所述训练文本对应的文本向量。
3.如权利要求1所述的基于比对学习及标签信息的文本分类方法,其特征在于,所述依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,包括:
利用如下第一损失函数计算计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值:
其中,Loss1表示所述第一损失值,hi表示所述训练文本集中第i个文本的文本向量,li表示所述第i个文本对应的文本标签的标签向量,sim(hi,li)表示hi与li之间的余弦相似度,lj表示第j个文本对应的文本标签的标签向量,N表示所述预设的文本标签集中的文本标签的个数,sim(hi,li)表示hi与lj之间的余弦相似度,τ为温度系数。
4.如权利要求1所述的基于比对学习及标签信息的文本分类方法,其特征在于,所述计算每个所述标签向量之间的第二损失值,包括:
利用如下第二损失函数计算每个所述标签向量之间的第二损失值:
其中,Loss2表示所述第二损失值,i和j分别表示所述预设的文本标签集中第i个文本标签和第j个文本标签,且i不等于j,lj表示第j个文本标签的标签向量,li表示第i个文本标签的标签向量,sim(li,lj)表示li与lj之间的余弦相似度。
5.如权利要求1所述的基于比对学习及标签信息的文本分类方法,其特征在于,所述融合所述第一损失值及所述第二损失值,得到综合损失值,包括:
获取所述第一损失值对应的预设第一权重及所述第二损失值对应的第二权重;
利用所述第一权重及所述第二权重对所述第一损失值及所述第二损失值进行加权求平均,得到所述综合损失值。
6.如权利要求1所述的基于比对学习及标签信息的文本分类方法,其特征在于,所述利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类,包括:
利用所述训练好的文本分类模型将所述待分类文本转换为待分类文本向量;
计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的概率值;
选取满足预设分类条件的概率值对应的文本标签作为所述待分类文本的分类标签。
7.如权利要求1所述的基于比对学习及标签信息的文本分类方法,其特征在于,所述计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的概率值,包括:
依次计算所述待分类文本向量与每个所述文本标签最近的标签向量之间的余弦相似度;
将所有余弦相似度进行归一化,并将归一化后的余弦相似度转换为所述概率值。
8.一种基于比对学习及标签信息的文本分类装置,其特征在于,所述装置包括:
文本及标签向量表示模块,用于获取预先标注好文本标签的训练文本集,利用预构建的文本分类模型依次将所述训练文本集中的每个文本转换为文本向量,及将所述预设的文本标签集中的每个文本标签转换为标签向量;
文本及标签损失计算模块,用于依次计算每个所述训练文本的文本向量与所述训练文本对应的文本标签的标签向量之间的第一损失值,并计算每个所述标签向量之间的第二损失值,融合所述第一损失值及所述第二损失值,得到综合损失值;
分类模型训练模块,用于利用所述综合损失值调整所述预构建的文本分类模型的参数,并对参数调整后的文本分类模型进行迭代训练,直到所述综合损失值满足预设的训练条件时,得到训练好的文本分类模型及每个所述文本标签最近的标签向量;
待分类文本分类模块,用于获取待分类文本,利用所述训练好的文本分类模型根据每个所述文本标签最近的标签向量对所述待分类文本进行分类。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于比对学习及标签信息的文本分类方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于比对学习及标签信息的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310730199.2A CN116737933A (zh) | 2023-06-16 | 2023-06-16 | 文本分类方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310730199.2A CN116737933A (zh) | 2023-06-16 | 2023-06-16 | 文本分类方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116737933A true CN116737933A (zh) | 2023-09-12 |
Family
ID=87902558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310730199.2A Pending CN116737933A (zh) | 2023-06-16 | 2023-06-16 | 文本分类方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737933A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951303A (zh) * | 2024-03-25 | 2024-04-30 | 中国民用航空飞行学院 | 基于生成式大模型的文本信息关联性分析方法及设备 |
-
2023
- 2023-06-16 CN CN202310730199.2A patent/CN116737933A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951303A (zh) * | 2024-03-25 | 2024-04-30 | 中国民用航空飞行学院 | 基于生成式大模型的文本信息关联性分析方法及设备 |
CN117951303B (zh) * | 2024-03-25 | 2024-06-11 | 中国民用航空飞行学院 | 基于生成式大模型的文本信息关联性分析方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210034813A1 (en) | Neural network model with evidence extraction | |
CN112860848B (zh) | 信息检索方法、装置、设备及介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN114822812A (zh) | 角色对话模拟方法、装置、设备及存储介质 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN114880449B (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN116737933A (zh) | 文本分类方法、装置、电子设备及计算机可读存储介质 | |
CN116821373A (zh) | 基于图谱的prompt推荐方法、装置、设备及介质 | |
CN113157739B (zh) | 跨模态检索方法、装置、电子设备及存储介质 | |
CN113656690B (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN116705304A (zh) | 基于图像文本的多模态任务处理方法、装置、设备及介质 | |
CN116719904A (zh) | 基于图文结合的信息查询方法、装置、设备及存储介质 | |
CN116702776A (zh) | 基于跨中西医的多任务语义划分方法、装置、设备及介质 | |
CN116578696A (zh) | 文本摘要生成方法、装置、设备及存储介质 | |
CN116628162A (zh) | 语义问答方法、装置、设备及存储介质 | |
CN116525053A (zh) | 病患报告生成方法、装置、电子设备及介质 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN113806540B (zh) | 文本打标签方法、装置、电子设备及存储介质 | |
CN114676307A (zh) | 基于用户检索的排序模型训练方法、装置、设备及介质 | |
CN114677526A (zh) | 图像分类方法、装置、设备及介质 | |
CN112749264A (zh) | 基于智能机器人的问题分发方法、装置、电子设备及存储介质 | |
CN113590845B (zh) | 基于知识图谱的文献检索方法、装置、电子设备及介质 | |
CN115098688B (zh) | 多标签分类模型训练方法、装置、电子设备及存储介质 | |
CN117408257A (zh) | 实体识别方法、装置、设备及存储介质 | |
CN116431810A (zh) | 剪枝范式的病症片段抽取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |