CN115146054A - 多标签分类方法、装置及可读存储介质 - Google Patents
多标签分类方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN115146054A CN115146054A CN202110339968.7A CN202110339968A CN115146054A CN 115146054 A CN115146054 A CN 115146054A CN 202110339968 A CN202110339968 A CN 202110339968A CN 115146054 A CN115146054 A CN 115146054A
- Authority
- CN
- China
- Prior art keywords
- label
- vector
- representing
- text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 147
- 238000013145 classification model Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 176
- 230000006870 function Effects 0.000 claims description 44
- 238000013507 mapping Methods 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 30
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种多标签分类方法、装置及可读存储介质,涉及数据处理技术领域,以提高预测的标签的顺序的准确性。该方法包括:获取待处理文本;将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签,其中,所述标签包括有顺序信息;其中,所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。本申请实施例可以提高预测的标签的顺序的准确性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种多标签分类方法、装置及可读存储介质。
背景技术
通常情况下,一条数据可能具有一个或者多个标签。多标签分类方法的目的就是识别出这些标签。目前,可以将多标签分类方法分为三类。一类方法是,将多标签分解成多个独立的二分类问题;第二类方法是,基于标签之间的成对关联进行处理;第三类方法是,基于多个标签之间的关联进行处理,比如对每个标签考虑所有其它标签的影响。
然而,在多标签分类任务中,标签的顺序具有十分重要的意义。因此,如何利用标签的顺序信息进行标签分类,以提高预测的标签的顺序的准确性,是需要重点考虑的问题。
发明内容
本申请实施例提供一种多标签分类方法、装置及可读存储介质,以提高预测的标签的顺序的准确性。
第一方面,本申请实施例提供了一种多标签分类方法,包括:
获取待处理文本;
将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签,所述标签包括有顺序信息;
其中,所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。
可选的,在所述获取待处理文本之前,所述方法还包括:
训练所述多标签分类模型。
可选的,所述训练所述多标签分类模型,包括:
对训练文本进行预处理,所述预处理包括数据格式转换,数据清洗以及标签排序;
获取预处理后的训练文本中的词向量;
根据所述词向量,得到所述训练文本中各个单词的隐藏状态表示;
生成所述训练文本的标签向量,其中,所述标签向量包括所述训练文本的标签的顺序信息;
根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率。
可选的,在所述根据所述词向量,得到所述训练文本中各个单词的隐藏状态表示之后,所述方法还包括:
根据所述隐藏状态表示,得到所述训练文本的上下文向量;
所述根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率,包括:
根据所述上下文向量以及所述标签向量,得到所述训练文本的标签概率。
可选的,所述生成所述训练文本的标签向量,包括:
通过线性回归的方法,构造反向映射函数,所述反向映射函数为从向量空间到标签排序空间的映射函数;
利用所述反向映射函数,得到所述训练文本的各个标签的标签向量。
可选的,所述生成所述训练文本的标签向量,包括:
利用以下公式计算得到所述训练文本的各个标签的标签向量:
其中,ranking(y(i,2j))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为偶数;
其中,ranking(y(i,2j+1))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为奇数。
可选的,所述根据所述上下文向量以及所述标签向量,得到所述训练文本的标签概率,包括:
利用以下公式,得到所述训练文本的标签概率:
yt=softmax(Ot+It)
其中,yt表示时间步t在标签空间L上的概率;Ot表示变换向量,It表示掩码矢量;
Ot=Wof(WdSt+Vd Ct),Wo,Wd,Vd均大于0,分别表示权重参数,St表示时间步t时的隐藏状态,Ct表示时间步t时的上下文向量;f表示非线性激活函数;
St=LSTM(St-1[rangking(yt-1);g(yt-1);Ct]),St-1表示时间步t-1时的隐藏状态,g(yt-1)是在概率分布yt-1下具有最高概率的标签的标签向量;yt-1是时间步t-1在标签空间L上的概率分布;[rangking(yt-1);g(yt-1);Ct]表示向量(yt-1)、g(yt-1)、Ct的连接;
第二方面,本申请实施例还提供一种多标签分类装置,包括:
第一获取模块,用于获取待处理文本;
第一处理模块,用于将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签,所述标签包括有顺序信息;
其中,所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。
可选的,所述装置还包括:
训练模块,用于训练所述多标签分类模型。
可选的,所述训练模块包括:
预处理子模块,用于对训练文本进行预处理,所述预处理包括标签排序;
第一获取子模块,用于获取预处理后的训练文本中的词向量;
第二获取子模块,用于根据所述词向量,得到所述训练文本中各个单词的隐藏状态表示;
生成子模块,用于生成所述训练文本的标签向量,其中,所述标签向量包括所述训练文本的标签的顺序信息;
第三获取子模块,用于根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率。
可选的,所述训练模块还包括:
第四获取子模块,用于根据所述隐藏状态表示,得到所述训练文本的上下文向量;
所述第三获取子模块,用于根据所述上下文向量以及所述标签向量,得到所述训练文本的标签概率。
可选的,所述生成子模块包括:
第一构造单元,用于通过线性回归的方法,构造反向映射函数,所述反向映射函数为从向量空间到标签排序空间的映射函数;
第一获取单元,用于利用所述反向映射函数,得到所述训练文本的各个标签的标签向量。
可选的,所述生成子模块用于,利用以下公式计算得到所述训练文本的各个标签的标签向量:
其中,ranking(y(i,2j))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为偶数;
其中,ranking(y(i,2j+1))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为奇数。
可选的,所述第四获取子模块用于,
利用以下公式,得到所述训练文本的标签概率:
yt=softmax(Ot+It)
其中,yt表示时间步t在标签空间L上的概率;Ot表示变换向量,It表示掩码矢量;
Ot=Wof(WdSt+Vd Ct),Wo,Wd,Vd均大于0,分别表示权重参数,St表示时间步t时的隐藏状态,Ct表示时间步t时的上下文向量;f表示非线性激活函数;
St=LSTM(St-1[rangking(yt-1);g(yt-1);Ct]),St-1表示时间步t-1时的隐藏状态,g(yt-1)是在概率分布yt-1下具有最高概率的标签的标签向量;yt-1是时间步t-1在标签空间L上的概率分布;[rangking(yt-1);g(yt-1);Ct]表示向量(yt-1)、g(yt-1)、Ct的连接;
第三方面,本申请实施例还提供一种多标签分类装置,包括:
处理器;以及
存储器,在所述存储器中存储有程序指令,其中,在所述程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
获取待处理文本;
将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签,所述标签包括有顺序信息;
其中,所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。
第四方面,本申请实施例还提供一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的多标签分类方法中的步骤。
在本申请实施例中,当对待处理文本进行多标签分类时,利用待处理文本作为多标签分类模型的输入,并通过运行所述多标签分类模型,得到所述待处理文本所包括的标签;所述标签包括有顺序信息;所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。由于在训练该多标签分类模型时考虑了文本的标签的顺序信息,因此,在进行多标签分类时,可准确的获得待处理文本的具有一定顺序的标签,从而可提高预测的标签的顺序的准确性。
附图说明
图1是本申请实施例提供的多标签分类方法的流程图之一;
图2是本申请实施例提供的多标签分类方法的流程图之二;
图3是本申请实施例提供的训练多标签分类模型的流程图之一;
图4是本申请实施例提供的训练多标签分类模型的流程图之二;
图5是本申请实施例提供的多标签分类的系统的示意图;
图6是本申请实施例提供的多标签分类装置的结构图之一;
图7是本申请实施例提供的多标签分类装置的结构图之二;
图8是本申请实施例提供的训练模块的结构图之一;
图9是本申请实施例提供的训练模块的结构图之二;
图10是本申请实施例提供的生成子模块的结构图;
图11是本申请实施例提供的多标签分类装置的结构图之三。
具体实施方式
本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例提供的多标签分类方法的流程图,如图1所示,包括以下步骤:
步骤101、获取待处理文本。
其中,所述待处理文本可以是任意的文本。例如,诊断报告,整改报告,统计报告等。
步骤102、将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签。
所述标签包括有顺序信息。所述顺序信息指的是标签按照概率的大小进行排序的信息,比如按照概率从大到小的顺序的排序信息。所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。例如,对于诊断报告来讲,所述标签的概率可以指的是标签和该标签表示的疾病之间相匹配的概率。
其中,所述标签可以理解为是所述待处理文本的特征。以诊断报告为例,所述标签例如可以是所述诊断报告中包括的疾病的信息,如疾病的名称等等。以整改报告为例,所述标签例如可以是所述整改报告中包括的整改的项目的信息,如项目的名称等。
在本申请实施例中,由于在训练该多标签分类模型时考虑了文本的标签的顺序信息,因此,在进行多标签分类时,可准确的获得待处理文本的具有一定顺序的标签,从而可提高预测的标签的顺序的准确性。
参见图2,图2是本申请实施例提供的多标签分类方法的流程图,如图2所示,包括以下步骤:
步骤201、训练多标签分类模型。
参见图3,图3是本申请实施例中训练多标签分类模型的具体过程示意图,可包括:
步骤301、对训练文本进行预处理,所述预处理包括标签排序。
可选的,为了提高数据处理效率,所述预处理还可包括数据格式转换,数据清洗。
其中,数据格式转换指将训练文本的数据格式转换成符合要求的数据格式。数据清洗指删除噪声。标签排序,指利用专家经验对标签进行排序。通过这种排序,因此后续训练模型的过程中,可直接利用获得的训练文本的标签的顺序。
所述训练文本可以是任意领域的文本,比如医学领域,财务领域等等。
步骤302、获取预处理后的训练文本中的词向量。
在此步骤中,主要是将训练文本中所包括的单词或者短语映射到实数向量。在实际应用中,可利用神经网络,单词共现矩阵的降维,概率模型,可解释的知识库方法以及针对单词出现的上下文的显式表示等方法生成该词向量。
步骤303、根据所述词向量,得到所述训练文本中各个单词的隐藏状态表示。
在此步骤中,可利用多种方法获得各个单词的隐藏状态表示。例如,如果使用双向LSTM(Long Short-Term Memory,长短期记忆网络),那么能够从两个方向读取训练文本的词向量,并计算每个单词的隐藏状态表示。其中,两个方向的隐藏状态表示分别为:
步骤304、生成所述训练文本的标签向量,其中,所述标签向量包括所述训练文本的标签的顺序信息。
在本申请实施例中,可有两种方法生成训练文本的标签向量:
第一种方法:通过线性回归的方法,构造反向映射函数,所述反向映射函数为从向量空间到标签排序空间的映射函数。之后,利用所述反向映射函数,得到所述训练文本的各个标签的标签向量。
在本申请实施例中,假设已知排序标签空间R和向量空间Y,向量函数的目标是学习映射f:R→Y。在此,通过构造反向映射函数g:Y→R的方式,利用所述反向映射函数,得到所述训练文本的各个标签的标签向量。
具体的,在构造该反向映射函数的过程中,通过训练用于学习的向量,对不同的标签顺序随机初始化一个标签向量。其中,初始化的过程利用线性回归函数实现。将训练得到的向量和获得的词向量上输入到训练模型,例如BERT(Bidirectional EncoderRepresentation from Transformers,来自变换器的双向编码器表征量),进行训练,训练完成后得到最终的标签向量。
第二种方法:通过三角函数等公式直接构建所述训练文本的各个标签的标签向量。
具体的,利用以下公式计算得到所述训练文本的各个标签的标签向量:
其中,ranking(y(i,2j))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为偶数;
其中,ranking(y(i,2j+1))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为奇数。
步骤305、根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率。
在此步骤305中,利用以下公式,得到所述训练文本的标签概率:
yt=softmax(Ot+It)
其中,yt表示时间步t在标签空间L上的概率;Ot表示变换向量,It表示掩码矢量;
Ot=Wof(WdSt+Vd hi),Wo,Wd,Vd均大于0,分别表示权重参数,St表示时间步t时的隐藏状态,Ct表示时间步t时的上下文向量;f表示非线性激活函数;
St=LSTM(St-1[rangking(yt-1);g(yt-1);Ct]),St-1表示时间步t-1时的隐藏状态,g(yt-1)是在概率分布yt-1下具有最高概率的标签的标签向量;yt-1是时间步t-1在标签空间L上的概率分布;[rangking(yt-1);g(yt-1);Ct]表示向量(yt-1)、g(yt-1)、Ct的连接;
其中:
其中,g(yt-1)是通过使用变换门H对原始标签向量和加权平均标签向量进行优化组合,从而可以自动确定每个维度中的组合因子。由于yt-1包含所有可能的标签的信息,因此,通过考虑每个标签的概率,可使得获得的模型能够减少因先前时间步长中的错误预测而造成的损失,从而使得模型能够预测标记序列更准确。
可选的,如图4所示,在步骤303之后,该步骤201还可包括:
步骤306、根据所述隐藏状态表示,得到所述训练文本的上下文向量。
在本申请实施例中,利用注意力机制关注文本序列的不同部分,并聚集这些信息单词的隐藏表示来产生上下文向量。注意力机制在时间步t将权重αti分配给第i个单词,如下所示:
那么,此时,步骤305具体为:根据所述上下文向量以及所述标签向量,得到所述训练文本的标签概率。
在图4所示的实施例中,生成标签向量的过程(包括步骤304)和生成上下文向量(包括步骤302、步骤303和步骤306)的过程之间,并无严格的先后关系。图4所示的顺序仅是一种示例。
具体的,在此步骤305中,利用以下公式,得到所述训练文本的标签概率:
yt=softmax(Ot+It)
其中,yt表示时间步t在标签空间L上的概率;Ot表示变换向量,It表示掩码矢量;
Ot=Wof(WdSt+Vd Ct),Wo,Wd,Vd均大于0,分别表示权重参数,St表示时间步t时的隐藏状态,Ct表示时间步t时的上下文向量;f表示非线性激活函数;
St=LSTM(St-1[rangking(yt-1);g(yt-1);Ct]),St-1表示时间步t-1时的隐藏状态,g(yt-1)是在概率分布yt-1下具有最高概率的标签的标签向量;yt-1是时间步t-1在标签空间L上的概率分布;[rangking(yt-1);g(yt-1);Ct]表示向量(yt-1)、g(yt-1)、Ct的连接;
其中:
其中,g(yt-1)是通过使用变换门H对原始标签向量和加权平均标签向量进行优化组合,从而可以自动确定每个维度中的组合因子。由于yt-1包含所有可能的标签的信息,因此,通过考虑每个标签的概率,可使得获得的模型能够减少因先前时间步长中的错误预测而造成的损失,从而使得模型能够预测标记序列更准确。
步骤202、获取待处理文本。
其中,所述待处理文本可以是任意的文本。例如,诊断报告,整改报告,统计报告等。
步骤203、将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签。
其中,所述步骤202和步骤203的描述可参照前述步骤101和步骤102的描述。
在本申请实施例中,由于在训练该多标签分类模型时考虑了文本的标签的顺序信息,因此,在进行多标签分类时,可准确的获得待处理文本的具有一定顺序的标签,从而可提高预测的标签的顺序的准确性。
如图5所示,为本申请实施例中多标签分类的系统的示意图。可包括编码器501,处理器502和解码器503。其中,编码器501用于将训练文本中的单词或短语映射到实数向量,然后对实数向量进行编码,得到所述训练文本中各个单词的隐藏状态表示。编码器可以理解为是多个单元的堆栈,每个单元都接受输入序列的单个元素,收集该元素的信息并将其向前传播。编码器矢量是从模型的编码器部分产生的最终隐藏状态。它充当模型的解码器部分的初始隐藏状态。处理器502用于构建训练文本中各个标签的标签向量。解码器503用于对标签向量进行解码,得到输出序列,该输出序列表示各个标签的概率分布。
本申请实施例还提供了一种多标签分类装置。参见图6,图6是本发明实施例提供的多标签分类装置的结构图。如图6所示,多标签分类装置600包括:第一获取模块601,用于获取待处理文本;第一处理模块602,用于将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签,所述标签包括有顺序信息;其中,所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。
可选的,如图7所示,所述装置还包括:训练模块603,用于训练所述多标签分类模型。
可选的,如图8所示,所述训练模块603包括:
预处理子模块6031,用于对训练文本进行预处理,所述预处理包括标签排序;第一获取子模块6032,用于获取预处理后的训练文本中的词向量;第二获取子模块6033,用于根据所述词向量,得到所述训练文本中各个单词的隐藏状态表示;生成子模块6034,用于生成所述训练文本的标签向量,其中,所述标签向量包括所述训练文本的标签的顺序信息;第三获取子模块6035,用于根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率率。
可选的,如图9所示,所述训练模块603还包括:
第四获取子模块6036,用于根据所述隐藏状态表示,得到所述训练文本的上下文向量;所述第三获取子模块6035,用于根据所述上下文向量以及所述标签向量,得到所述训练文本的标签概率。
可选的,如图10所示,所述生成子模块6034包括:
第一构造单元60341,用于通过线性回归的方法,构造反向映射函数,所述反向映射函数为从向量空间到标签排序空间的映射函数;第一获取单元60342,用于利用所述反向映射函数,得到所述训练文本的各个标签的标签向量。
其中,所述生成子模块6034用于,利用以下公式计算得到所述训练文本的各个标签的标签向量:
其中,ranking(y(i,2j))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为偶数;
其中,ranking(y(i,2j+1))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为奇数。
其中,所述第四获取子模块6036用于,
利用以下公式,得到所述训练文本的标签概率:
yt=softmax(Ot+It)
其中,yt表示时间步t在标签空间L上的概率;Ot表示变换向量,It表示掩码矢量;
Ot=Wof(WdSt+Vd Ct),Wo,Wd,Vd均大于0,分别表示权重参数,St表示时间步t时的隐藏状态,Ct表示时间步t时的上下文向量;f表示非线性激活函数;
St=LSTM(St-1[rangking(yt-1);g(yt-1);Ct]),St-1表示时间步t-1时的隐藏状态,g(yt-1)是在概率分布yt-1下具有最高概率的标签的标签向量;yt-1是时间步t-1在标签空间L上的概率分布;[rangking(yt-1);g(yt-1);Ct]表示向量(yt-1)、g(yt-1)、Ct的连接;
本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
参见图11,本发明实施例还提供了一种多标签分类装置的硬件结构。如图11所示,该多标签分类装置1100包括:
处理器1102;和
存储器1104,在所述存储器1104中存储有程序指令,其中,在所述程序指令被所述处理器运行时,使得所述处理器1102执行以下步骤:
获取待处理文本;
将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签,所述标签包括有顺序信息;
其中,所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。
进一步地,如图11所示,该电子设备1100还可以包括网络接口1101、输入设备1103、硬盘1105、和显示设备1106。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器1102代表的一个或者多个中央处理器(CPU),以及由存储器1104代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口1101,可以连接至网络(如因特网、局域网等),从网络中接收数据,并可以将接收到的数据保存在硬盘1105中。
所述输入设备1103,可以接收操作人员输入的各种指令,并发送给处理器1102以供执行。所述输入设备1103可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等)。
所述显示设备1106,可以将处理器1102执行指令获得的结果进行显示。
所述存储器1104,用于存储操作系统运行所必须的程序和数据,以及处理器1102计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器1104可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器1104旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器1104存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统11041和应用程序11042。
其中,操作系统11041,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序11042,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序11042中。
本发明上述实施例揭示的多标签分类处理方法可以应用于处理器1102中,或者由处理器1102实现。处理器1102可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述多标签分类方法的各步骤可以通过处理器1102中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1102可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1104,处理器1102读取存储器1104中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,所述程序被处理器1102执行时还可实现如下步骤:
训练所述多标签分类模型。
具体地,所述程序被处理器1102执行时还可实现如下步骤:
对训练文本进行预处理,所述预处理包括标签排序;
获取预处理后的训练文本中的词向量;
根据所述词向量,得到所述训练文本中各个单词的隐藏状态表示;
生成所述训练文本的标签向量,其中,所述标签向量包括所述训练文本的标签的顺序信息;
根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率。
具体地,所述程序被处理器1102执行时还可实现如下步骤:
根据所述隐藏状态表示,得到所述训练文本的上下文向量;
所述根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率,包括:
根据所述上下文向量以及所述标签向量,得到所述训练文本的标签概率。
具体地,所述程序被处理器1102执行时还可实现如下步骤:
通过线性回归的方法,构造反向映射函数,所述反向映射函数为从向量空间到标签排序空间的映射函数;
利用所述反向映射函数,得到所述训练文本的各个标签的标签向量。
具体地,所述程序被处理器1102执行时还可实现如下步骤:
利用以下公式计算得到所述训练文本的各个标签的标签向量:
其中,ranking(y(i,2j))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为偶数;
其中,ranking(y(i,2j+1))表示标签向量,i表示顺序索引,j表示维度索引,dmodel表示预设的模型维度,j为奇数。
具体地,所述程序被处理器1102执行时还可实现如下步骤:
利用以下公式,得到所述训练文本的标签概率:
yt=softmax(Ot+It)
其中,yt表示时间步t在标签空间L上的概率;Ot表示变换向量,It表示掩码矢量;
Ot=Wof(WdSt+Vd Ct),Wo,Wd,Vd均大于0,分别表示权重参数,St表示时间步t时的隐藏状态,Ct表示时间步t时的上下文向量;f表示非线性激活函数;
St=LSTM(St-1[rangking(yt-1);g(yt-1);Ct]),St-1表示时间步t-1时的隐藏状态,g(yt-1)是在概率分布yt-1下具有最高概率的标签的标签向量;yt-1是时间步t-1在标签空间L上的概率分布;[rangking(yt-1);g(yt-1);Ct]表示向量(yt-1)、g(yt-1)、Ct的连接;
本发明实施例提供的多标签分类装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
本发明实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述多标签分类方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的可读存储介质,可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (16)
1.一种多标签分类方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签,所述标签包括有顺序信息;
其中,所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。
2.根据权利要求1所述的方法,其特征在于,在所述获取待处理文本之前,所述方法还包括:
训练所述多标签分类模型。
3.根据权利要求2所述的方法,其特征在于,所述训练所述多标签分类模型,包括:
对训练文本进行预处理,所述预处理包括标签排序;
获取预处理后的训练文本中的词向量;
根据所述词向量,得到所述训练文本中各个单词的隐藏状态表示;
生成所述训练文本的标签向量,其中,所述标签向量包括所述训练文本的标签的顺序信息;
根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率。
4.根据权利要求3所述的方法,其特征在于,在所述根据所述词向量,得到所述训练文本中各个单词的隐藏状态表示之后,所述方法还包括:
根据所述隐藏状态表示,得到所述训练文本的上下文向量;
所述根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率,包括:
根据所述上下文向量以及所述标签向量,得到所述训练文本的标签概率。
5.根据权利要求3所述的方法,其特征在于,所述生成所述训练文本的标签向量,包括:
通过线性回归的方法,构造反向映射函数,所述反向映射函数为从向量空间到标签排序空间的映射函数;
利用所述反向映射函数,得到所述训练文本的各个标签的标签向量。
7.根据权利要求4所述的方法,其特征在于,所述根据所述上下文向量以及所述标签向量,得到所述训练文本的标签概率,包括:
利用以下公式,得到所述训练文本的标签概率:
yt=softmax(Ot+It)
其中,yt表示时间步t在标签空间L上的概率;Ot表示变换向量,It表示掩码矢量;
Ot=Wof(WdSt+VdCt),Wo,Wd,Vd均大于0,分别表示权重参数,St表示时间步t时的隐藏状态,Ct表示时间步t时的上下文向量;f表示非线性激活函数;
St=LSTM(St-1[rangking(yt-1);g(yt-1);Ct]),St-1表示时间步t-1时的隐藏状态,g(yt-1)是在概率分布yt-1下具有最高概率的标签的标签向量;yt-1是时间步t-1在标签空间L上的概率分布;[rangking(yt-1);g(yt-1);Ct]表示向量(yt-1)、g(yt-1)、Ct的连接;
8.一种多标签分类装置,其特征在于,包括:
第一获取模块,用于获取待处理文本;
第一处理模块,用于将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签,其中,所述标签包括有顺序信息;
其中,所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
训练模块,用于训练所述多标签分类模型。
10.根据权利要求9所述的装置,其特征在于,所述训练模块包括:
预处理子模块,用于对训练文本进行预处理,所述预处理包括标签排序;
第一获取子模块,用于获取预处理后的训练文本中的词向量;
第二获取子模块,用于根据所述词向量,得到所述训练文本中各个单词的隐藏状态表示;
生成子模块,用于生成所述训练文本的标签向量,其中,所述标签向量包括所述训练文本的标签的顺序信息;
第三获取子模块,用于根据所述隐藏状态表示以及所述标签向量,得到所述训练文本的标签概率。
11.根据权利要求10所述的装置,其特征在于,所述训练模块还包括:
第四获取子模块,用于根据所述隐藏状态表示,得到所述训练文本的上下文向量;
所述第三获取子模块,用于根据所述上下文向量以及所述标签向量,得到所述训练文本的标签概率。
12.根据权利要求10所述的装置,其特征在于,所述生成子模块包括:
第一构造单元,用于通过线性回归的方法,构造反向映射函数,所述反向映射函数为从向量空间到标签排序空间的映射函数;
第一获取单元,用于利用所述反向映射函数,得到所述训练文本的各个标签的标签向量。
14.根据权利要求11所述的装置,其特征在于,所述第四获取子模块用于,
利用以下公式,得到所述训练文本的标签概率:
yt=softmax(Ot+It)
其中,yt表示时间步t在标签空间L上的概率;Ot表示变换向量,It表示掩码矢量;
Ot=Wof(WdSt+VdCt),Wo,Wd,Vd均大于0,分别表示权重参数,St表示时间步t时的隐藏状态,Ct表示时间步t时的上下文向量;f表示非线性激活函数;
St=LSTM(St-1[rangking(yt-1);g(yt-1);Ct]),St-1表示时间步t-1时的隐藏状态,g(yt-1)是在概率分布yt-1下具有最高概率的标签的标签向量;yt-1是时间步t-1在标签空间L上的概率分布;[rangking(yt-1);g(yt-1);Ct]表示向量(yt-1)、g(yt-1)、Ct的连接;
15.一种多标签分类装置,其特征在于,包括:
处理器;以及
存储器,在所述存储器中存储有程序指令,其中,在所述程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
获取待处理文本;
将所述待处理文本作为多标签分类模型的输入,运行所述多标签分类模型,得到所述待处理文本所包括的标签,所述标签包括有顺序信息;
其中,所述多标签分类模型是基于文本所包括的标签的顺序信息训练得到的。
16.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的多标签分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110339968.7A CN115146054A (zh) | 2021-03-30 | 2021-03-30 | 多标签分类方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110339968.7A CN115146054A (zh) | 2021-03-30 | 2021-03-30 | 多标签分类方法、装置及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115146054A true CN115146054A (zh) | 2022-10-04 |
Family
ID=83403690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110339968.7A Pending CN115146054A (zh) | 2021-03-30 | 2021-03-30 | 多标签分类方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115146054A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680624A (zh) * | 2023-08-03 | 2023-09-01 | 国网浙江省电力有限公司宁波供电公司 | 一种电力系统元数据的分类方法、系统及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100142803A1 (en) * | 2008-12-05 | 2010-06-10 | Microsoft Corporation | Transductive Multi-Label Learning For Video Concept Detection |
WO2016061586A1 (en) * | 2014-10-17 | 2016-04-21 | Cireca Theranostics, Llc | Methods and systems for classifying biological samples, including optimization of analyses and use of correlation |
CN110442707A (zh) * | 2019-06-21 | 2019-11-12 | 电子科技大学 | 一种基于seq2seq的多标签文本分类方法 |
CN110569353A (zh) * | 2019-07-03 | 2019-12-13 | 重庆大学 | 一种基于注意力机制的Bi-LSTM的标签推荐方法 |
US20200236402A1 (en) * | 2019-01-22 | 2020-07-23 | Andreas Spanias | Systems and methods for time series analysis using attention models |
CN111930937A (zh) * | 2020-06-28 | 2020-11-13 | 山东师范大学 | 基于bert的智慧政务文本多分类方法及系统 |
CN112269881A (zh) * | 2020-11-05 | 2021-01-26 | 北京小米松果电子有限公司 | 多标签文本分类方法、装置及存储介质 |
CA3085033A1 (en) * | 2019-07-30 | 2021-01-30 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
CN117059103A (zh) * | 2023-10-12 | 2023-11-14 | 慧言科技(天津)有限公司 | 基于低秩矩阵近似的语音识别微调任务的加速方法 |
-
2021
- 2021-03-30 CN CN202110339968.7A patent/CN115146054A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100142803A1 (en) * | 2008-12-05 | 2010-06-10 | Microsoft Corporation | Transductive Multi-Label Learning For Video Concept Detection |
WO2016061586A1 (en) * | 2014-10-17 | 2016-04-21 | Cireca Theranostics, Llc | Methods and systems for classifying biological samples, including optimization of analyses and use of correlation |
US20200236402A1 (en) * | 2019-01-22 | 2020-07-23 | Andreas Spanias | Systems and methods for time series analysis using attention models |
CN110442707A (zh) * | 2019-06-21 | 2019-11-12 | 电子科技大学 | 一种基于seq2seq的多标签文本分类方法 |
CN110569353A (zh) * | 2019-07-03 | 2019-12-13 | 重庆大学 | 一种基于注意力机制的Bi-LSTM的标签推荐方法 |
CA3085033A1 (en) * | 2019-07-30 | 2021-01-30 | Imrsv Data Labs Inc. | Methods and systems for multi-label classification of text data |
CN111930937A (zh) * | 2020-06-28 | 2020-11-13 | 山东师范大学 | 基于bert的智慧政务文本多分类方法及系统 |
CN112269881A (zh) * | 2020-11-05 | 2021-01-26 | 北京小米松果电子有限公司 | 多标签文本分类方法、装置及存储介质 |
CN117059103A (zh) * | 2023-10-12 | 2023-11-14 | 慧言科技(天津)有限公司 | 基于低秩矩阵近似的语音识别微调任务的加速方法 |
Non-Patent Citations (1)
Title |
---|
胡月永: "基于Word2Vec, LSTMs和Attention机制的中文情感分析研究", 中国优秀硕士学位论文全文数据库 信息科技辑, 15 November 2018 (2018-11-15), pages 18 - 20 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116680624A (zh) * | 2023-08-03 | 2023-09-01 | 国网浙江省电力有限公司宁波供电公司 | 一种电力系统元数据的分类方法、系统及存储介质 |
CN116680624B (zh) * | 2023-08-03 | 2023-10-20 | 国网浙江省电力有限公司宁波供电公司 | 一种电力系统元数据的分类方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562147B2 (en) | Unified vision and dialogue transformer with BERT | |
CN109388807B (zh) | 电子病历命名实体识别的方法、装置及存储介质 | |
US11586880B2 (en) | System and method for multi-horizon time series forecasting with dynamic temporal context learning | |
CN110597970B (zh) | 一种多粒度医疗实体联合识别的方法及装置 | |
GB2571825A (en) | Semantic class localization digital environment | |
CN108959482B (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN113039555B (zh) | 在视频剪辑中进行动作分类的方法、系统及存储介质 | |
CN109492104B (zh) | 意图分类模型的训练方法、分类方法、系统、设备和介质 | |
CN112308237B (zh) | 一种问答数据增强方法、装置、计算机设备及存储介质 | |
CN110362823A (zh) | 描述文本生成模型的训练方法和装置 | |
CN112380870A (zh) | 用户意图分析方法、装置、电子设备及计算机存储介质 | |
CN110377902A (zh) | 描述文本生成模型的训练方法和装置 | |
CN112949320B (zh) | 基于条件随机场的序列标注方法、装置、设备及介质 | |
CN113609965A (zh) | 文字识别模型的训练方法及装置、存储介质、电子设备 | |
CN113486178B (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN114510939A (zh) | 实体关系抽取方法、装置、电子设备及存储介质 | |
CN110851644A (zh) | 图像检索方法及装置、计算机可读存储介质、电子设备 | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN115587184A (zh) | 一种关键信息抽取模型的训练方法、装置及其存储介质 | |
CN115146054A (zh) | 多标签分类方法、装置及可读存储介质 | |
CN113553401A (zh) | 一种文本处理方法、装置、介质和电子设备 | |
CN111666375B (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN116186295A (zh) | 基于注意力的知识图谱链接预测方法、装置、设备及介质 | |
CN114117200A (zh) | 一种提升用户转化率的资源展示方法、系统和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |