CN112269881A - 多标签文本分类方法、装置及存储介质 - Google Patents

多标签文本分类方法、装置及存储介质 Download PDF

Info

Publication number
CN112269881A
CN112269881A CN202011226215.7A CN202011226215A CN112269881A CN 112269881 A CN112269881 A CN 112269881A CN 202011226215 A CN202011226215 A CN 202011226215A CN 112269881 A CN112269881 A CN 112269881A
Authority
CN
China
Prior art keywords
text
output
label
decoding
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011226215.7A
Other languages
English (en)
Inventor
陈明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202011226215.7A priority Critical patent/CN112269881A/zh
Publication of CN112269881A publication Critical patent/CN112269881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本公开是关于一种多标签文本分类方法、装置及存储介质。多标签文本分类方法包括:确定待进行标签标注的文本数据;基于ALBERT语言模型提取所述文本数据的文本特征;将所述文本特征作为序列到序列模型编码部分的输入,得到编码输出和编码隐状态,并将所述编码输出和所述编码隐状态作为序列到序列模型解码部分的输入,得到解码输出的一个或多个字;将所述解码输出的一个或多个字映射为一个或多个标签,基于所述一个或多个标签得到所述文本数据的标签。通过本公开能够提高多标签文本分类的准确率和召回率。

Description

多标签文本分类方法、装置及存储介质
技术领域
本公开涉及自然语言处理领域,尤其涉及多标签文本分类方法、装置及存储介质。
背景技术
自然语言处理中的文本分类,可以在给定的分类体系下,根据文本内容自动的确定文本关联的类别。多标签文本分类任务是文本分类的一种类型,可以对文本抽取多个标签,并对确定的文本类别通过多个标签进行区分。
相关技术中,进行多标签文本分类,通常是基于语言模型和下游任务进行文本分类标签的抽取,例如基于word2vec、BERT等语言模型,并结合CNN、RNN或者Full-Connection等下游任务进行标签抽取。
然而,目前的多标签文本分类方法存在准确率不高,并且不能获取标签出现的先后位置、标签出现次数等。
发明内容
为克服相关技术中存在的问题,本公开提供一种多标签文本分类方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种多标签文本分类方法,包括:
确定待进行标签标注的文本数据;基于ALBERT语言模型提取所述文本数据的文本特征;将所述文本特征作为序列到序列模型编码部分的输入,得到编码输出和编码隐状态,并将所述编码输出和所述编码隐状态作为序列到序列模型解码部分的输入,得到解码输出的一个或多个字;将所述解码输出的一个或多个字映射为一个或多个标签,基于所述一个或多个标签得到所述文本数据的标签。
一种实施方式中,所述基于ALBERT语言模型提取所述文本数据的文本特征,包括:
基于ALBERT语言模型提取所述文本数据的文本特征向量,所述文本特征向量中包括有每一次更新模型时喂入的样本数量、文本最大长度以及ALBERT语言模型字向量的隐藏层大小。
一种实施方式中,将所述编码输出和所述编码隐状态作为解码部分的输入,得到解码输出的一个或多个字,包括:
将所述编码输出作为解码部分中各单向长短期记忆网络LSTM层的输入,得到各单向LSTM层输出;基于所述编码隐状态确定所述各单向LSTM层输出的局部注意力权重,并基于所述局部注意力权重对所述各单向LSTM层输出进行权重求和,得到语义向量;基于所述语义向量,确定与所述各单向LSTM层中解码输出和解码隐状态对应、并用于映射为标签的一个或多个字。
一种实施方式中,基于所述各单向LSTM层中解码输出和解码隐状态对应的字,确定用于映射为标签的一个或多个字,包括:基于所述各单向LSTM层中解码输出和解码隐状态对应的字进行束搜索,将束搜索后得到的一个或多个字,作为用于映射为标签的一个或多个字。
一种实施方式中,所述基于所述一个或多个标签得到所述文本数据的标签,包括:
将所述一个或多个标签按照出现的先后顺序进行顺序组合后,作为所述文本数据的标签。
一种实施方式中,所述确定待进行标签标注的文本数据,包括:将电商平台中用户的评论作为待进行标签标注的文本数据。
根据本公开实施例第二方面,提供一种多标签文本分类装置,包括:
确定单元,用于确定待进行标签标注的文本数据;特征提取单元,用于基于ALBERT语言模型提取所述文本数据的文本特征;编码单元,用于将所述文本特征作为序列到序列模型编码部分的输入,得到编码输出和编码隐状态;解码单元,用于将所述编码输出和所述编码隐状态作为序列到序列模型解码部分的输入,得到解码输出的一个或多个字;标签映射单元,用于将所述解码输出的一个或多个字映射为一个或多个标签,基于所述一个或多个标签得到所述文本数据的标签。
一种实施方式中,所述特征提取单元采用如下方式基于ALBERT语言模型提取所述文本数据的文本特征:
基于ALBERT语言模型提取所述文本数据的文本特征向量,所述文本特征向量中包括有每一次更新模型时喂入的样本数量、文本最大长度以及ALBERT语言模型字向量的隐藏层大小。
一种实施方式中,所述解码单元用于采用如下方式将所述编码输出和所述编码隐状态作为解码部分的输入,得到解码输出的一个或多个字:
将所述编码输出作为解码部分中各单向长短期记忆网络LSTM层的输入,得到各单向LSTM层输出;基于所述编码隐状态确定所述各单向LSTM层输出的局部注意力权重,并基于所述局部注意力权重对所述各单向LSTM层输出进行权重求和,得到语义向量;基于所述语义向量,确定与所述各单向LSTM层中解码输出和解码隐状态对应、并用于映射为标签的一个或多个字。
一种实施方式中,所述解码单元用于采用如下方式基于所述各单向LSTM层中解码输出和解码隐状态对应的字,确定用于映射为标签的一个或多个字:基于所述各单向LSTM层中解码输出和解码隐状态对应的字进行束搜索,将束搜索后得到的一个或多个字,作为用于映射为标签的一个或多个字。
一种实施方式中,所述标签映射单元采用如下方式基于所述一个或多个标签得到所述文本数据的标签:将所述一个或多个标签顺序组合后,作为所述文本数据的标签。
一种实施方式中,所述确定单元采用如下方式确定待进行标签标注的文本数据:将电商平台中用户的评论作为待进行标签标注的文本数据。
根据本公开实施例第三方面,提供一种多标签文本分类装置,包括:
处理器;用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行第一方面或者第一方面任意一种实施方式中所述的多标签文本分类方法。
根据本公开实施例第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行第一方面或者第一方面任意一种实施方式智能所述的多标签文本分类方法。
本公开的实施例提供的技术方案可以包括以下有益效果:基于ALBERT语言模型提取文本数据的文本特征,并将文本特征作为序列到序列模型编码部分的输入,将序列到序列模型解码部分的输出映射为一个或多个标签,实现基于ALBERT语言模型和序列到序列模型的融合进行文本数据的标签标注,能够提高标签标注的准确率,并基于解码输出的字数可以确定标签出现的先后位置以及标签出现次数,提高多标签文本分类的准确率和召回率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种多标签文本分类方法的流程图。
图2是本公开一示例性实施例中示出的一种多标签文本分类实现过程的框图。
图3是根据本公开一示例性实施例示出的一种基于ALBERT语言模型提取文本数据的文本特征的方法实施流程图。
图4是根据本公开一示例性实施例示出的一种基于局部注意力机制确定映射标签的方法实施流程图。
图5示出了本公开一示例性实施例示出的一种多标签文本分类任务的过程示意图。
图6示出了本公开一示例性实施例中进行文本多标签分类的示意图。
图7是根据一示例性实施例示出的一种多标签文本分类装置框图。
图8是根据一示例性实施例示出的一种用于多标签文本分类的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例提供的多标签文本分类方法,将ALBERT语言模型和序列到序列(Seq2seq)模型进行集成,并基于集成后的ALBERT语言模型和序列到序列模型进行多标签文本分类任务。
一种实施方式中,本公开实施例基于ALBERT语言模型提取文本数据的文本特征。将ALBERT语言模型提取的文本数据的文本特征作为序列到序列模型编码部分的输入,得到编码输出和编码隐状态。并将编码输出和编码隐状态作为解码部分的输入,得到解码输出的一个或多个字,将解码输出的一个或多个字映射为一个或多个标签,基于一个或多个标签得到文本数据的标签。
本公开实施例提供的多标签文本分类方法可以应用于对标签提取的场景,例如可以是对电商领域的标签提取,比如对电商领域中用户的评论进行标签提取,以实现对评论进行标签标注。
本公开实施例中基于集成后的ALBERT语言模型和序列到序列模型进行多标签文本分类任务可以是具有两块显卡的硬件设备,例如终端。
图1是根据一示例性实施例示出的一种多标签文本分类方法的流程图。如图1所示,多标签文本分类方法用于终端中,包括以下步骤。
在步骤S11中,确定待进行标签标注的文本数据。
本公开实施例中可以根据需求确定待进行标签标注的文本数据。其中,待进行标签标注的文本数据可以是句子,也可以是文章。例如待进行标签标注的文本数据可以是电商平台上用户的评论。
在步骤S12中,基于ALBERT语言模型提取文本数据的文本特征。
本公开实施例中,利用ALBERT语言模型对待进行标签标注的文本数据进行读取,可以得到待进行标签标注的文本数据的文本特征。其中,文本特征也可以理解为是文本特征向量。
一种实施方式中,本公开实施例中利用ALBERT语言模型对待进行标签标注的文本数据进行文本特征提取得到的文本向量可以包括每一次更新模型时喂入的样本数量batch_size、文本最大长度sequence_length以及ALBERT语言模型字向量的隐藏层大小hidden_size。其中,基于文本最大长度sequence_length,可以对小于sequence_length长度的文本做补零处理,对大于sequence_length的文本做切分处理,即只取前面sequence_length长度的文本。
在步骤S13中,将ALBERT语言模型提取的文本特征作为序列到序列模型编码部分的输入,得到编码输出和编码隐状态。
本公开实施例中,序列到序列模型编码部分包括多层双向长短期记忆网络(BiLong Short-Term Memory,Bi LSTM)。多层双向Bi LSTM中的每一层都会对应该层双向BiLSTM的编码输出和编码隐状态。例如,编码输出可以包括每一次更新模型时喂入的样本数量batch_size,文本最大长度sequence_length以及编码隐藏层大小2*encoder_hidden_size。编码隐状态可以包括每一次更新模型时喂入的样本数量batch_size以及编码隐藏层大小encoder_hidden_size。
在步骤S14中,将编码输出和编码隐状态作为序列到序列模型解码部分的输入,得到解码输出的一个或多个字。
本公开实施例中序列到序列模型的解码部分包括多层单向LSTM。多层单向LSTM中的每一层都会对应该层LSTM的解码输出和解码隐状态。例如,解码输出可以包括每一次更新模型时喂入的样本数量batch_size,文本最大长度sequence_length以及解码隐藏层大小decoder_hidden_size。解码隐状态可以包括每一次更新模型时喂入的样本数量batch_size以及解码隐藏层大小decoder_hidden_size。
一种实施方式中,本公开实施例可以将序列到序列模型编码部分的多层双向BiLSTM最后一层的编码输出和编码隐状态作为解码部分的输入,得到解码输出和解码隐状态。本公开实施例中,序列到序列模型的解码输出可以理解为是各输出分别对应有字(token)。
在步骤S15中,将解码输出的一个或多个字映射为一个或多个标签,基于一个或多个标签得到文本数据的标签。
本公开实施例中序列到序列模型的解码输出对应的一个或多个字分别映射为一个或多个标签。
本公开实施例中,可以在全连接(FC)的作用下,将LSTM的输出映射到标签标识(label_id)上,得到映射后标签的预测结果,并通过损失函数和真实值的差异,优化序列到序列模型。
本公开实施例提供的多标签文本分类方法,基于ALBERT语言模型提取文本数据的文本特征,并将文本特征作为序列到序列模型编码部分的输入,将序列到序列模型解码部分的输出映射为一个或多个标签,实现基于ALBERT语言模型和序列到序列模型的融合进行文本数据的标签标注,能够提高标签标注的准确率,并基于解码输出的字数可以确定标签出现的先后位置以及标签出现次数,提高多标签文本分类的准确率和召回率。
本公开实施例以下将结合实际应用对上述涉及的多标签文本分类方法进行说明。
图2是本公开一示例性实施例中示出的一种多标签文本分类实现过程的框图。参阅图2所示,待进行标签标注的文本数据作为输入,进行文本特征提取。其中,在进行文本特征提取时,经过数据处理,把文本切分成一个字符串序列。例如进行Tokenization,按照特定需求,把文本切分成一个字符串序列,其中,字符串序列中的元素一般称为字(token),或者称为词语。将经过数据处理后的字符串序列输入至ALBERT语言模型,基于ALBERT语言模型进行文本特征向量提取。将提取的文本特征向量输入至序列到序列模型的编码部分,经过编码部分多层双向BiLSTM,得到最后一层双向BiLSTM的编码输出和编码隐状态。最后一层双向BiLSTM的编码输出和编码隐状态作为序列到序列模型解码部分的输入。解码部分包括多层单向LSTM。其中,每一层单向LSTM包括有局部注意力机制(Local Attention)。每一层单向LSTM的输出都有一个编码输出output(batch_size,sequence_length,decoder_hidden_size)和一个编码隐状态state(batch_size,decoder_hidden_size),然后在全连接(FC)的作用下,将LSTM的输出映射到label id(标签的id)上,得到预测结果。其中,本公开实施例序列到序列模型的解码部分输出对应的token,即可以理解为是对待进行标注的文本数据进行分类后得到的标签。
一示例中,本公开实施例基于局部注意力机制确定映射为标签的一个或多个字。例如,将编码输出作为解码部分中各单向LSTM层的输入,得到各单向LSTM层输出;基于编码隐状态确定各单向LSTM层输出的局部注意力权重,并基于局部注意力权重对各单向LSTM层输出进行权重求和,得到语义向量。基于语义向量,确定与各单向LSTM层中解码输出和解码隐状态对应、并用于映射为标签的一个或多个字。
本公开实施例中,为保证训练和推理的速度,可以基于所需的训练和推理速度,设置序列到序列模型中编码部分的双向BiLSTM的层数以及解码部分的单向LSTM的层数。
进一步的,本公开实施例中,基于ALBERT语言模型提取文本数据的文本特征时,可以基于序列到序列模型编码部分中双向LSTM的层数,确定ALBERT语言模型提取文本数据的文本特征向量的维数。
图3是根据本公开一示例性实施例示出的一种基于ALBERT语言模型提取文本数据的文本特征的方法实施流程图。参阅图3所示,该基于ALBERT语言模型提取文本数据的文本特征的方法包括如下步骤:
在步骤S21中,确定序列到序列模型编码部分中双向长短期记忆网络LSTM的层数。
在步骤S22中,基于ALBERT语言模型提取文本数据的文本特征向量,文本特征向量的维数与双向LSTM的层数相同。
其中,本公开实施例中文本特征向量中包括有每一次更新模型时喂入的样本数量、文本最大长度以及ALBERT语言模型字向量的隐藏层大小。
一示例中,序列到序列模型编码部分中双向LSTM的层数为3,ALBERT语言模型提取文本数据的三维文本特征向量(batch_size,sequence_length,hidden_size)。其中,batch_size为每一次更新模型时喂入的样本数量。sequence_length为文本的最大最大长度,对小于sequence_length长度的文本做补零处理,对大于sequence_length的文本做切分处理,即只取前面sequence_length长度的文本。hidden_size为ALBERT的字向量的隐藏层大小。
可以理解的是,本公开实施例中,并不限定双向LSTM的层数必须与LBERT语言模型提取的文本特征向量维数相同,也可以是双向LSTM的层数小于LBERT语言模型提取的文本特征向量维数,或者双向LSTM的层数必须大于LBERT语言模型提取的文本特征向量维数。
本公开实施例,解码部分包括多层单向LSTM。其中,每一层单向LSTM包括有局部注意力机制(Local Attention)。每一层单向LSTM的输出都有一个编码输出output(batch_size,sequence_length,decoder_hidden_size)和一个编码隐状态state(batch_size,decoder_hidden_size)。一种实施方式中,本公开实施例将编码输出和编码隐状态作为解码部分的输入,得到解码输出的一个或多个字时,可以基于解码部分中的各单向长短期记忆网络LSTM层的局部注意力机制,确定映射为标签的一个或多个字。
图4是根据本公开一示例性实施例示出的一种基于局部注意力机制确定映射标签的方法实施流程图。参阅图4所示,该基于局部注意力机制确定映射标签的方法包括如下步骤:
在步骤S31中,将编码输出作为解码部分中各单向LSTM层的输入,得到各单向LSTM层输出。
本公开实施例中编码输出经过各自对应的各单向LSTM层后,可实现各单向LSTM拼接后的LSTM层输出。
在步骤S32中,基于编码隐状态确定各单向LSTM层输出的局部注意力权重,并基于局部注意力权重对各单向LSTM层输出进行权重求和,得到语义向量。
本公开实施例中,可以基于编码隐状态确定各单向LSTM层输出的局部注意力权重。对各单向LSTM输出乘以各自局部注意力权重后进行加权求和,得到语义向量。
在步骤S33中,基于语义向量,确定与各单向LSTM层中解码输出和解码隐状态对应、并用于映射为标签的一个或多个字。
本公开实施例中,可以基于前一时刻映射为标签的字、当前时刻映射为标签的字以及语义向量,分别乘以各自对应的矩阵,得到与各单向LSTM层中解码输出和解码隐状态对应、并用于映射为标签的一个或多个字。
其中,基于各单向LSTM层中解码输出和解码隐状态对应的字,确定用于映射为标签的一个或多个字时,可以基于各单向LSTM层中解码输出和解码隐状态对应的字进行束搜索,将束搜索后得到的一个或多个字,作为用于映射为标签的一个或多个字。
进一步的,本公开实施例中,基于单向LSTM的局部注意力机制进行标签映射,可以获取到待标注标签的文本数据的标签出现次数和顺序。
进一步的,本公开实施例中可以标签理解为字,多个标签组合成一个query,作为待标注标签的文本数据的最终的标签,可以更好的确定待标注标签的文本数据的标签出现次数和顺序。一种实施方式中,基于一个或多个标签得到文本数据的标签时,可以将一个或多个标签按照出现的先后顺序进行顺序组合后,作为文本数据的标签。
本公开实施例提供的上述多标签文本分类方法可以适用于电商平台用户评论进行分类标注标签的场景。一示例中,确定待进行标签标注的文本数据时,可以将电商平台中用户的评论作为待进行标签标注的文本数据。
本公开实施例以下对电商平台的用户评论进行标签标注的过程进行示例性说明。
一示例中,首先准备需要标注的数据,需要标注的原始数据为电商平台用户的评论。例如,可以获取到电商平台用户的评论,然后建立标签体系,得到标签类别一共有318个,需要注意标签的独立性可解释性。最后标注数据,我们一共标注了20万条数据。标注过程中需要标注标签出现的先后顺序进行标注。另外,如果一个标签在一句话中出现多次也需要按照出现的先后顺序进行多次标注。
将获取到的电商平台的用户评论,输入至集成后的ALBERT语言模型和序列到序列模型进行多标签文本分类任务,即可获取到对产品的一些特征的描述(标签)。例如,电商平台上用户的评论为“手机不仅好看价格也便宜,还有屏幕音效的效果也很好”,则应用本公开实施例提供的多标签文本分类方法,输入至集成后的ALBERT语言模型和序列到序列模型进行多标签文本分类任务的过程示意图如图5所示。图5示出了本公开一示例性实施例示出的一种多标签文本分类任务的过程示意图。参阅图5所示,“手机不仅好看价格也便宜,还有屏幕音效的效果也很好”,通过ALBERT语言模型进行数据处理并进行文本特征向量提取后,可以得到文本特征向量(x1,x2……xn-1,xn-2),即手机……很好。文本特征向量(x1,x2……xn-1,xn-2)作为序列到序列模型的编码部分输入,并对应得到编码输出和编码隐藏态,通过三层双向LSTM的编码以及三层单向LSTM解码的局部注意力机制(对应图5中的c1、c2和c3),可以得出对应的解码输出Y1、Y2、Y3和Y4。解码输出Y1、Y2、Y3和Y4可以分别映射的标签包括外观好看、价格合适、屏幕显示和音效效果。通过上述方式,本公开实施例可以将用户评论“手机不仅好看价格也便宜,还有屏幕音效的效果也很好”,可以获得用户描述该产品的4个特征(标签):“外观好看”、“价格合适”、“屏幕显示不错”和“音效效果好”。通过获取较多的用户评论观点,可以了解到用户对该产品的关注点,从而为解决当前产品存在的问题和推出新产品提供支持。
图6示出了本公开一示例性实施例中进行文本多标签分类的示意图。输入句子“手机不仅好看价格也便宜,还有屏幕音效的效果也很好”,则可得到对应的标签“外观好看”、“价格合适”、“屏幕显示不错”和“音效效果好”,将该四个标签进行组合可以最终得到对应该句子的一个标签(可以理解为是一个query,一个句子)。其中,图6中,将“外观好看”映射为标签a(Labet:a)、“价格合适”映射为标签b(Labet:b)、“屏幕显示不错”映射为标签c(Labet:c),“音效效果好”映射为标签d(Labet:d),最终即输出“abcd”标签,作为“手机不仅好看价格也便宜,还有屏幕音效的效果也很好”的标签。
基于相同的构思,本公开实施例还提供一种多标签文本分类装置。
可以理解的是,本公开实施例提供的多标签文本分类装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
图7是根据一示例性实施例示出的一种多标签文本分类装置框图。参照图7,该多标签文本分类装置100,包括:
确定单元101,用于确定待进行标签标注的文本数据。特征提取单元102,用于基于ALBERT语言模型提取文本数据的文本特征。编码单元103,用于将文本特征作为序列到序列模型编码部分的输入,得到编码输出和编码隐状态。解码单元104,用于将编码输出和编码隐状态作为序列到序列模型解码部分的输入,得到解码输出的一个或多个字。标签映射单元105,用于将解码输出的一个或多个字映射为一个或多个标签,基于一个或多个标签得到文本数据的标签。
一种实施方式中,特征提取单元102采用如下方式基于ALBERT语言模型提取文本数据的文本特征:
基于ALBERT语言模型提取文本数据的文本特征向量,文本特征向量中包括有每一次更新模型时喂入的样本数量、文本最大长度以及ALBERT语言模型字向量的隐藏层大小。
一种实施方式中,解码单元104用于采用如下方式将编码输出和编码隐状态作为解码部分的输入,得到解码输出的一个或多个字:
将编码输出作为解码部分中各单向长短期记忆网络LSTM层的输入,得到各单向LSTM层输出;基于编码隐状态确定各单向LSTM层输出的局部注意力权重,并基于局部注意力权重对各单向LSTM层输出进行权重求和,得到语义向量;基于语义向量,确定与各单向LSTM层中解码输出和解码隐状态对应、并用于映射为标签的一个或多个字。
一种实施方式中,解码单元104用于采用如下方式基于各单向LSTM层中解码输出和解码隐状态对应的字,确定用于映射为标签的一个或多个字:基于各单向LSTM层中解码输出和解码隐状态对应的字进行束搜索,将束搜索后得到的一个或多个字,作为用于映射为标签的一个或多个字。
一种实施方式中,标签映射单元105采用如下方式基于一个或多个标签得到文本数据的标签:将一个或多个标签顺序组合后,作为文本数据的标签。
一种实施方式中,确定单元101采用如下方式确定待进行标签标注的文本数据:将电商平台中用户的评论作为待进行标签标注的文本数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种用于多标签文本分类的装置200的框图。例如,装置200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置200可以包括以下一个或多个组件:处理组件202,存储器204,电力组件206,多媒体组件208,音频组件210,输入/输出(I/O)接口212,传感器组件214,以及通信组件216。
处理组件202通常控制装置200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件202可以包括一个或多个模块,便于处理组件202和其他组件之间的交互。例如,处理组件202可以包括多媒体模块,以方便多媒体组件208和处理组件202之间的交互。
存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统,一个或多个电源,及其他与为装置200生成、管理和分配电力相关联的组件。
多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件208包括一个前置摄像头和/或后置摄像头。当装置200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件210被配置为输出和/或输入音频信号。例如,音频组件210包括一个麦克风(MIC),当装置200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中,音频组件210还包括一个扬声器,用于输出音频信号。
I/O接口212为处理组件202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件214包括一个或多个传感器,用于为装置200提供各个方面的状态评估。例如,传感器组件214可以检测到装置200的打开/关闭状态,组件的相对定位,例如所述组件为装置200的显示器和小键盘,传感器组件214还可以检测装置200或装置200一个组件的位置改变,用户与装置200接触的存在或不存在,装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器204,上述指令可由装置200的处理器220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。
进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种多标签文本分类方法,其特征在于,包括:
确定待进行标签标注的文本数据;
基于ALBERT语言模型提取所述文本数据的文本特征;将所述文本特征作为序列到序列模型编码部分的输入,得到编码输出和编码隐状态,并将所述编码输出和所述编码隐状态作为序列到序列模型解码部分的输入,得到解码输出的一个或多个字;
将所述解码输出的一个或多个字映射为一个或多个标签,基于所述一个或多个标签得到所述文本数据的标签。
2.根据权利要求1所述的多标签文本分类方法,其特征在于,所述基于ALBERT语言模型提取所述文本数据的文本特征,包括:
基于ALBERT语言模型提取所述文本数据的文本特征向量,所述文本特征向量中包括有每一次更新模型时喂入的样本数量、文本最大长度以及ALBERT语言模型字向量的隐藏层大小。
3.根据权利要求1或2所述的多标签文本分类方法,其特征在于,将所述编码输出和所述编码隐状态作为解码部分的输入,得到解码输出的一个或多个字,包括:
将所述编码输出作为解码部分中各单向长短期记忆网络LSTM层的输入,得到各单向LSTM层输出;
基于所述编码隐状态确定所述各单向LSTM层输出的局部注意力权重,并基于所述局部注意力权重对所述各单向LSTM层输出进行权重求和,得到语义向量;
基于所述语义向量,确定与所述各单向LSTM层中解码输出和解码隐状态对应、并用于映射为标签的一个或多个字。
4.根据权利要求3所述的多标签文本分类方法,其特征在于,基于所述各单向LSTM层中解码输出和解码隐状态对应的字,确定用于映射为标签的一个或多个字,包括:
基于所述各单向LSTM层中解码输出和解码隐状态对应的字进行束搜索,将束搜索后得到的一个或多个字,作为用于映射为标签的一个或多个字。
5.根据权利要求1所述的多标签文本分类方法,其特征在于,所述基于所述一个或多个标签得到所述文本数据的标签,包括:
将所述一个或多个标签按照出现的先后顺序进行顺序组合后,作为所述文本数据的标签。
6.根据权利要求1所述的多标签文本分类方法,其特征在于,所述确定待进行标签标注的文本数据,包括:
将电商平台中用户的评论作为待进行标签标注的文本数据。
7.一种多标签文本分类装置,其特征在于,包括:
确定单元,用于确定待进行标签标注的文本数据;
特征提取单元,用于基于ALBERT语言模型提取所述文本数据的文本特征;
编码单元,用于将所述文本特征作为序列到序列模型编码部分的输入,得到编码输出和编码隐状态;
解码单元,用于将所述编码输出和所述编码隐状态作为序列到序列模型解码部分的输入,得到解码输出的一个或多个字;
标签映射单元,用于将所述解码输出的一个或多个字映射为一个或多个标签,基于所述一个或多个标签得到所述文本数据的标签。
8.根据权利要求7所述的多标签文本分类装置,其特征在于,所述特征提取单元采用如下方式基于ALBERT语言模型提取所述文本数据的文本特征:
基于ALBERT语言模型提取所述文本数据的文本特征向量,所述文本特征向量中包括有每一次更新模型时喂入的样本数量、文本最大长度以及ALBERT语言模型字向量的隐藏层大小。
9.根据权利要求7或8所述的多标签文本分类装置,其特征在于,所述解码单元用于采用如下方式将所述编码输出和所述编码隐状态作为解码部分的输入,得到解码输出的一个或多个字:
将所述编码输出作为解码部分中各单向长短期记忆网络LSTM层的输入,得到各单向LSTM层输出;
基于所述编码隐状态确定所述各单向LSTM层输出的局部注意力权重,并基于所述局部注意力权重对所述各单向LSTM层输出进行权重求和,得到语义向量;
基于所述语义向量,确定与所述各单向LSTM层中解码输出和解码隐状态对应、并用于映射为标签的一个或多个字。
10.根据权利要求9所述的多标签文本分类装置,其特征在于,所述解码单元用于采用如下方式基于所述各单向LSTM层中解码输出和解码隐状态对应的字,确定用于映射为标签的一个或多个字:
基于所述各单向LSTM层中解码输出和解码隐状态对应的字进行束搜索,将束搜索后得到的一个或多个字,作为用于映射为标签的一个或多个字。
11.根据权利要求7所述的多标签文本分类装置,其特征在于,所述标签映射单元采用如下方式基于所述一个或多个标签得到所述文本数据的标签:
将所述一个或多个标签顺序组合后,作为所述文本数据的标签。
12.根据权利要求7所述的多标签文本分类装置,其特征在于,所述确定单元采用如下方式确定待进行标签标注的文本数据:
将电商平台中用户的评论作为待进行标签标注的文本数据。
13.一种多标签文本分类装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:执行权利要求1至6中任意一项所述的多标签文本分类方法。
14.一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行权利要求1至6中任意一项所述的多标签文本分类方法。
CN202011226215.7A 2020-11-05 2020-11-05 多标签文本分类方法、装置及存储介质 Pending CN112269881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011226215.7A CN112269881A (zh) 2020-11-05 2020-11-05 多标签文本分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011226215.7A CN112269881A (zh) 2020-11-05 2020-11-05 多标签文本分类方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112269881A true CN112269881A (zh) 2021-01-26

Family

ID=74345827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011226215.7A Pending CN112269881A (zh) 2020-11-05 2020-11-05 多标签文本分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112269881A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177157A (zh) * 2021-04-22 2021-07-27 深圳市酷开网络科技股份有限公司 标签分离方法、装置、设备及存储介质
CN115146054A (zh) * 2021-03-30 2022-10-04 株式会社理光 多标签分类方法、装置及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180119406A (ko) * 2017-04-25 2018-11-02 강원대학교산학협력단 멀티 태스크 학습 기반 포인터 네트워크를 이용한 한국어 의존 구문 분석 시스템 및 방법
CN108763384A (zh) * 2018-05-18 2018-11-06 北京慧闻科技发展有限公司 用于文本分类的数据处理方法、数据处理装置和电子设备
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
US10380236B1 (en) * 2017-09-22 2019-08-13 Amazon Technologies, Inc. Machine learning system for annotating unstructured text
CN110134789A (zh) * 2019-05-17 2019-08-16 电子科技大学 一种引入多路选择融合机制的多标签长文本分类方法
CN111079376A (zh) * 2019-11-14 2020-04-28 贝壳技术有限公司 数据标注方法、装置、介质以及电子设备
CN111309861A (zh) * 2020-02-07 2020-06-19 中科鼎富(北京)科技发展有限公司 地点提取方法、装置、电子设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180119406A (ko) * 2017-04-25 2018-11-02 강원대학교산학협력단 멀티 태스크 학습 기반 포인터 네트워크를 이용한 한국어 의존 구문 분석 시스템 및 방법
US10380236B1 (en) * 2017-09-22 2019-08-13 Amazon Technologies, Inc. Machine learning system for annotating unstructured text
CN108763384A (zh) * 2018-05-18 2018-11-06 北京慧闻科技发展有限公司 用于文本分类的数据处理方法、数据处理装置和电子设备
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN110134789A (zh) * 2019-05-17 2019-08-16 电子科技大学 一种引入多路选择融合机制的多标签长文本分类方法
CN111079376A (zh) * 2019-11-14 2020-04-28 贝壳技术有限公司 数据标注方法、装置、介质以及电子设备
CN111309861A (zh) * 2020-02-07 2020-06-19 中科鼎富(北京)科技发展有限公司 地点提取方法、装置、电子设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王少敬;刘鹏飞;邱锡鹏;: "基于序列图模型的多标签序列标注", 中文信息学报, no. 06, 15 June 2020 (2020-06-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146054A (zh) * 2021-03-30 2022-10-04 株式会社理光 多标签分类方法、装置及可读存储介质
CN113177157A (zh) * 2021-04-22 2021-07-27 深圳市酷开网络科技股份有限公司 标签分离方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111612070B (zh) 基于场景图的图像描述生成方法及装置
CN108021897B (zh) 图片问答方法及装置
CN116415594A (zh) 问答对生成的方法和电子设备
CN111539410B (zh) 字符识别方法及装置、电子设备和存储介质
CN112926339A (zh) 文本相似度确定方法、系统、存储介质以及电子设备
CN110781323A (zh) 多媒体资源的标签确定方法、装置、电子设备及存储介质
CN109871843A (zh) 字符识别方法和装置、用于字符识别的装置
CN104077597B (zh) 图像分类方法及装置
CN111242303A (zh) 网络训练方法及装置、图像处理方法及装置
CN112328793A (zh) 评论文本数据的处理方法、装置及存储介质
CN112269881A (zh) 多标签文本分类方法、装置及存储介质
CN114328838A (zh) 事件抽取方法、装置、电子设备及可读存储介质
CN111582383A (zh) 属性识别方法及装置、电子设备和存储介质
CN112465555B (zh) 一种广告信息推荐的方法及相关装置
CN111274389B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN115422932A (zh) 一种词向量训练方法及装置、电子设备和存储介质
CN113923517B (zh) 一种背景音乐生成方法、装置及电子设备
CN112801116B (zh) 图像的特征提取方法及装置、电子设备和存储介质
CN114429599A (zh) 类目分类方法、装置、电子设备和存储介质
CN114842404A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质
CN113901832A (zh) 人机对话方法、装置、存储介质及电子设备
CN112149653A (zh) 信息处理方法、装置、电子设备及存储介质
CN112819492A (zh) 一种广告推荐方法、装置及电子设备
CN114036937B (zh) 场景布局预测网络的训练方法及场景布局的估计方法
CN111143609B (zh) 兴趣标签的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination