CN109255128B - 多层级标签的生成方法、装置和存储介质 - Google Patents
多层级标签的生成方法、装置和存储介质 Download PDFInfo
- Publication number
- CN109255128B CN109255128B CN201811185892.1A CN201811185892A CN109255128B CN 109255128 B CN109255128 B CN 109255128B CN 201811185892 A CN201811185892 A CN 201811185892A CN 109255128 B CN109255128 B CN 109255128B
- Authority
- CN
- China
- Prior art keywords
- label
- content information
- hierarchical
- target
- target content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 27
- 238000005096 rolling process Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种多层级标签的生成方法、装置和存储介质,该方法包括:通过将目标内容信息输入训练好的标签生成模型,获取该目标内容信息对应的目标分层标签,该目标分层标签包括根据该目标内容信息以及预先建立的该目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;将附带该目标分层标签的该目标内容信息储存至数据库。能够根据内容信息对应的多层级标签体系,为具有关联关系的内容信息附加具有从属关系的标签,并将已添加标签的内容信息统一储存至数据库,增加标签管理的统一性和规范性,提高标签搜索和大数据处理的效率。
Description
技术领域
本公开涉及大数据处理领域,尤其涉及一种多层级标签的生成方法、装置和存储介质。
背景技术
随着对大数据技术的应用越来越广泛,在进行数据处理时逐渐出现了数据庞杂、数据结构性差、数据语言多样化以及各数据源之间的融合性差等问题,其中,对于海量数据的规范化和统一化处理逐渐成为大数据处理的核心困难点之一。相关技术中,在对海量的内容数据进行检索和分析时,一般为通过NLP(Natural Language Processing,自然语言处理)模型分别对每段内容数据的语言特征进行提取,并根据所提取的语言特征为每段内容数据附加独立的标签,之后再通过标签搜索功能来搜索这些内容。
发明内容
为克服相关技术中存在的问题,本公开提供一种多层级标签的生成方法、装置和存储介质。
根据本公开实施例的第一方面,提供一种多层级标签的生成方法,所述方法包括:
通过将目标内容信息输入训练好的标签生成模型,获取所述目标内容信息对应的目标分层标签,所述目标分层标签包括根据所述目标内容信息以及预先建立的所述目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;
将附带所述目标分层标签的所述目标内容信息储存至数据库。
可选的,在所述通过将目标内容信息输入训练好的标签生成模型,获取所述目标内容信息对应的目标分层标签之前,所述方法还包括:
提供对样本信息对应的分层标签进行添加和上传的多个接口,以建立所述样本信息对应的多层级标签体系,所述多个接口包括:用于输入标签的接口、用于展示和确认已输入的标签的接口以及用于将经过确认的标签添加至所述多层级标签体系的接口,所述样本信息包括附带分层标签并且与所述目标内容信息对应于同一多层级标签体系的多个内容信息;
将所述样本信息作为训练数据,对标签生成模型进行训练,以获取所述训练好的标签生成模型。
可选的,所述目标内容信息为未添加标签的内容信息,所述通过将所述目标内容信息输入训练好的所述标签生成模型,获取所述目标内容信息对应的目标分层标签,包括:
通过预设的分词算法对所述目标内容信息进行分词;
将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带所述目标分层标签的所述目标内容信息。
可选的,所述目标内容信息为附带第一分层标签的内容信息,所述第一分层标签包括通过用户标签编辑接口获取到的所述目标内容信息对应的多个标签,所述通过将所述目标内容信息输入训练好的所述标签生成模型,获取所述目标内容信息对应的目标分层标签,包括:
通过预设的分词算法对所述目标内容信息进行分词;
将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带第二分层标签的所述目标内容信息,所述第二分层标签包括所述标签生成模型输出的具备从属关系的多个标签;
将所述第二分层标签与所述第一分层标签进行对比;
当所述第二分层标签与所述第一分层标签一致时,将所述第二分层标签或所述第一分层标签作为所述目标分层标签;
当所述第二分层标签与所述第一分层标签不一致时,将所述附带所述第二分层标签的所述目标内容信息,以及附带所述第一分层标签的所述目标内容信息输出至管理接口,以从所述第二分层标签以及所述第一分层标签中选择出所述目标分层标签。
可选的,在将附带所述目标分层标签的所述目标内容信息储存至数据库之后,所述方法还包括:
持续地将被储存至所述数据库中的附带分层标签的内容信息加入训练数据,以对所述标签生成模型进行滚动训练。
根据本公开实施例的第二方面,提供一种多层级标签的生成装置,所述装置包括:
标签生成模块,被配置为通过将目标内容信息输入训练好的标签生成模型,获取所述目标内容信息对应的目标分层标签,所述目标分层标签包括根据所述目标内容信息以及预先建立的所述目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;
信息储存模块,被配置为将附带所述目标分层标签的所述目标内容信息储存至数据库。
可选的,所述装置还包括:
体系建立模块,被配置为提供对样本信息对应的分层标签进行添加和上传的多个接口,以建立所述样本信息对应的多层级标签体系,所述多个接口包括:用于输入标签的接口、用于展示和确认已输入的标签的接口以及用于将经过确认的标签添加至所述多层级标签体系的接口,所述样本信息包括附带分层标签并且与所述目标内容信息对应于同一多层级标签体系的多个内容信息;
模型训练模块,被配置为将所述样本信息作为训练数据,对标签生成模型进行训练,以获取所述训练好的标签生成模型。
可选的,所述目标内容信息为未添加标签的内容信息,所述标签生成模块,包括:
第一内容分词子模块,被配置为通过预设的分词算法对所述目标内容信息进行分词;
第一标签生成子模块,被配置为将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带所述目标分层标签的所述目标内容信息。
可选的,所述目标内容信息为附带第一分层标签的内容信息,所述第一分层标签包括通过用户标签编辑接口获取到的所述目标内容信息对应的多个标签,所述标签生成模块,包括:
第二内容分词子模块,被配置为通过预设的分词算法对所述目标内容信息进行分词;
第二标签生成子模块,被配置为将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带第二分层标签的所述目标内容信息,所述第二分层标签包括所述标签生成模型输出的具备从属关系的多个标签;
标签对比子模块,被配置为将所述第二分层标签与所述第一分层标签进行对比;
标签确定子模块,被配置为当所述第二分层标签与所述第一分层标签一致时,将所述第二分层标签或所述第一分层标签作为所述目标分层标签
标签判断子模块,被配置为当所述第二分层标签与所述第一分层标签不一致时,将所述附带所述第二分层标签的所述目标内容信息,以及附带所述第一分层标签的所述目标内容信息输出至管理接口,以从所述第二分层标签以及所述第一分层标签中选择出所述目标分层标签。
可选的,所述装置还包括:
滚动训练模块,被配置为持续地将所述数据库中的附带分层标签的内容信息加入训练数据,对所述标签生成模型进行滚动训练。
根据本公开实施例的第三方面,提供一种多层级标签的生成装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过将目标内容信息输入训练好的标签生成模型,获取所述目标内容信息对应的目标分层标签,所述目标分层标签包括根据所述目标内容信息以及预先建立的所述目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;
将附带所述目标分层标签的所述目标内容信息储存至数据库。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的多层级标签的生成方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:能够通过将目标内容信息输入训练好的标签生成模型,获取该目标内容信息对应的目标分层标签,该目标分层标签包括根据该目标内容信息以及预先建立的该目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;将附带该目标分层标签的该目标内容信息储存至数据库。能够根据内容信息对应的多层级标签体系,为具有关联关系的内容信息附加具有从属关系的标签,并将已添加标签的内容信息统一储存至数据库,增加标签管理的统一性和规范性,提高标签搜索和大数据处理的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种多层级标签的生成方法的流程图;
图2是根据图1示出的另一种多层级标签的生成方法的流程图;
图3是根据图2示出的一种分层标签获取方法的流程图;
图4是根据图2示出的另一种分层标签获取方法的流程图;
图5是根据图2示出的又一种多层级标签的生成方法的流程图;
图6是根据一示例性实施例示出的一种多层级标签的生成装置的框图;
图7是根据图6示出的另一种多层级标签的生成装置的框图;
图8是根据图7示出的一种标签生成模块的框图;
图9是根据图7示出的另一种标签生成模块的框图;
图10是根据图7示出的又一种多层级标签的生成装置的框图;
图11是根据一示例性实施例示出的一种多层级标签的生成装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种多层级标签的生成方法的流程图,如图1所示,该方法包括以下步骤:
在步骤101中,通过将目标内容信息输入训练好的标签生成模型,获取该目标内容信息对应的目标分层标签。
其中,该目标分层标签包括根据该目标内容信息以及预先建立的该目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签。
以该方法应用于移动终端的问题反馈相关数据的收集场景中为例,该目标内容信息可以为用户针对于移动终端的问题所反馈的一段文字,例如,“相机拍照黑屏,无法正常使用”。在接收到该目标内容信息后,可以通过NLP(Natural Language Processing,自然语言处理)模型对其中的文字内容信息进行分词处理,再将经过处理的目标内容信息作为上述训练好的标签生成模型的输入,可以获取到该目标内容获取到信息的三个标签,包括:“相机”、“拍摄”以及“拍摄黑屏”,其中,“相机”为比“拍摄”高一层级的标签,“拍摄”为比“拍摄黑屏”高一层级的标签。这些标签的从属关系通过该多层级标签体系进行设定。该多层级标签体系可以理解为根据内容信息建立的设定标签的规范,同一类别的内容信息对应相同的多层级标签体系,例如,“相机无法开启”、“拍摄影像抖动”以及上述的“相机拍照黑屏,无法正常使用”等内容信息都属于相机这一类别,则这些内容信息对应于相同的(即根节点为“相机”的)多层级标签体系。在步骤101之前,可以通过大量的对应于同一多层级标签体系的内容信息对该标签生成模型进行训练,以使该标签生成模型具备生成分层标签的功能。
在步骤102中,将附带该目标分层标签的该目标内容信息储存至数据库。
示例地,在该目标内容信息对应的目标分层标签后,可以将该目标分层标签与该目标内容信息绑定,并抓取附带该目标分层标签的该目标内容信息储存至数据库中(即大数据处理中的数据沉淀过程)。该数据库中储存的附带分层标签的内容信息,可以用于对标签生成模型的滚动训练,以及后续根据分层标签对应的分类规则对内容信息进行其他的数据分析处理,而无需对这些内容信息进行二次处理。
综上所述,本公开能够通过将目标内容信息输入训练好的标签生成模型,获取该目标内容信息对应的目标分层标签,该目标分层标签包括根据该目标内容信息以及预先建立的该目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;将附带该目标分层标签的该目标内容信息储存至数据库。能够根据内容信息对应的多层级标签体系,为具有关联关系的内容信息附加具有从属关系的标签,并将已添加标签的内容信息统一储存至数据库,增加标签管理的统一性和规范性,提高标签搜索和大数据处理的效率。
图2是根据图1示出的另一种多层级标签的生成方法的流程图,如图2所示,该方法还包括:
在步骤103中,提供对样本信息对应的分层标签进行添加和上传的多个接口,以建立该样本信息对应的多层级标签体系。
其中,该多个接口包括:用于输入标签的接口A、用于展示和确认已输入的标签的接口B以及用于将经过确认的标签添加至该多层级标签体系的接口C,该样本信息包括附带分层标签并且与该目标内容信息对应于同一多层级标签体系的多个内容信息。
示例地,该样本信息中包含大量的对应于同一多层级标签体系的内容信息,在步骤101之前,需要为该样本信息中的内容信息添加标签,再通过大量附带标签的内容信息组成的样本信息对该标签生成模型进行训练。在实际应用中,可以采用“一人提出,多人讨论,一人上线”的协作方式为对应于同一多层级标签体系的内容信息添加标签。具体地,可以为管理人员提供一个用于输入标签的接口A,管理人员根据内容信息的内容通过该接口A输入相应的一个或多个标签;此后,将已输入的标签通过多个接口B输出至多个相关的管理人员,这些管理人员再通过多个接口B确认已输入标签是否正确;当预设数量的工作人员确认已输入标签正确时,可以将附带已经确认的标签的内容信息添加至样本信息中,并且通过该接口C将已经确认的标签添加至该样本信息对应的多层级标签体系,以达到逐步建立和完善该样本信息对应的多层级标签体系的目的。
在步骤104中,将该样本信息作为训练数据,对标签生成模型进行训练,以获取该训练好的标签生成模型。
图3是根据图2示出的一种分层标签获取方法的流程图,如图3所示,当该目标内容信息为未添加标签的内容信息时,步骤101包括:
在步骤1011中,通过预设的分词算法对该目标内容信息进行分词。
在步骤1012中,将经过该分词处理的该目标内容信息作为该训练好的该标签生成模型的输入,获取附带该目标分层标签的该目标内容信息。
示例地,本公开实施例还在内容信息的采集端向用户提供为自己提交的内容信息添加标签的接口,以分摊在处理端进行数据标注(即标签添加)的成本。当用户未通过该接口添加任何标签时,可以在将用户提交的目标内容信息进行分词后输入该标签生成模型,并直接获取该标签生成模型的输出结果。需要说明的是,该标签生成模型的输出结果为与该目标内容信息直接关联的标签以及根据该多层级标签体系中该标签的从属关系确定的多个标签。以该方法应用于移动终端的问题反馈相关数据的收集场景中为例,该目标内容信息可以为“照相黑屏”,该目标内容信息直接关联的标签包括“拍摄”以及“黑屏问题”,而根据该多层级标签体系可以确定的该标签“拍摄”以及“黑屏问题”与标签“相机”具有从属关系。因此,最终输出该目标内容信息对应的目标分层标签为标签“相机”、“拍摄”以及“拍摄黑屏”。
图4是根据图2示出的另一种分层标签获取方法的流程图,当该目标内容信息为附带第一分层标签的内容信息时,该第一分层标签包括通过用户标签编辑接口获取到的该目标内容信息对应的多个标签,如图4所示,该步骤102可以包括:步骤1013-1016,或者步骤1013、1014、1015以及1017。
在步骤1013中,通过预设的分词算法对该目标内容信息进行分词。
在步骤1014中,将经过该分词处理的该目标内容信息作为该训练好的该标签生成模型的输入,获取附带第二分层标签的该目标内容信息。
其中,该第二分层标签包括该标签生成模型输出的具备从属关系的多个标签。
示例地,如上所述,本公开实施例还在内容信息的采集端向用户提供为自己提交的内容信息添加标签的接口,当用户在提交该目标内容信息的同时通过该接口为该目标内容信息添加了标签时,在通过该步骤1013与1014获取该第二分层标签之后,需要将该第二分层标签与用户添加的第一分层标签进行比对,以确定最终的输出结果。
在步骤1015中,将该第二分层标签与该第一分层标签进行对比。
在步骤1016中,当该第二分层标签与该第一分层标签一致时,将该第二分层标签或该第一分层标签作为该目标分层标签。
在步骤1017中,当该第二分层标签与该第一分层标签不一致时,将该附带该第二分层标签的该目标内容信息,以及附带该第一分层标签的该目标内容信息输出至管理接口,以从该第二分层标签以及该第一分层标签中选择出该目标分层标签。
示例地,当通过该标签生成模型获取的第二分层标签与用户提交的第一分层标签不一致时,可以将这两组分层标签以该目标信息输出至管理接口,由管理人员对这两组标签的合理性进行判定,并输出其中更为合理的分层标签,作为该目标分层标签。同时,当确定用户提交的第一分层标签更为合理时,还可以通过上述步骤103中所提供的多个接口对该目标内容信息对应的多层级标签体系进行修改。
图5是根据图2示出的又一种多层级标签的生成方法的流程图,如图5所示,该方法还包括:
在步骤105中,持续地将被储存至该数据库中的附带分层标签的内容信息加入训练数据,以对该标签生成模型进行滚动训练。
示例地,当被储存至该数据库中的附带分层标签的内容信息达到一定数量时,可以将这些内容信息作为样本信息(训练数据),持续地对该标签生成模型进行训练,以优化该标签生成模型。
综上所述,本公开能够通过将目标内容信息输入训练好的标签生成模型,获取该目标内容信息对应的目标分层标签,该目标分层标签包括根据该目标内容信息以及预先建立的该目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;将附带该目标分层标签的该目标内容信息储存至数据库。能够根据内容信息对应的多层级标签体系,为具有关联关系的内容信息附加具有从属关系的标签,并将已添加标签的内容信息统一储存至数据库,标签管理的统一性和规范性,提高标签搜索和大数据处理的效率,同时为用户提供增加添加标签的接口,并在保证合理性的同时对用户提交的标签加以利用,降低标签管理的成本。
图6是根据一示例性实施例示出的一种多层级标签的生成装置的框图,如图6所示,该装置600包括:
标签生成模块610,被配置为通过将目标内容信息输入训练好的标签生成模型,获取该目标内容信息对应的目标分层标签,该目标分层标签包括根据该目标内容信息以及预先建立的该目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;
信息储存模块620,被配置为将附带所述目标分层标签的所述目标内容信息储存至数据库。
图7是根据图6示出的另一种多层级标签的生成装置的框图,如图7所示,该装置600还包括:
体系建立模块630,被配置为提供对样本信息对应的分层标签进行添加和上传的多个接口,以建立该样本信息对应的多层级标签体系,该多个接口包括:用于输入标签的接口、用于展示和确认已输入的标签的接口以及用于将经过确认的标签添加至该多层级标签体系的接口,该样本信息包括附带分层标签并且与该目标内容信息对应于同一多层级标签体系的多个内容信息;
模型训练模块640,被配置为将该样本信息作为训练数据,对标签生成模型进行训练,以获取该训练好的标签生成模型。
图8是根据图7示出的一种标签生成模块的框图,如图8所示,该目标内容信息为未添加标签的内容信息,该标签生成模块610,包括:
第一内容分词子模块611,被配置为通过预设的分词算法对该目标内容信息进行分词;
第一标签生成子模块612,被配置为将经过该分词处理的该目标内容信息作为该训练好的该标签生成模型的输入,获取附带该目标分层标签的该目标内容信息,该目标分层标签包括该标签生成模型直接输出的多个标签,或者,根据该标签生成模型直接输出的标签以及该多层级标签体系中该标签的从属关系确定的多个标签。
图9是根据图7示出的另一种标签生成模块的框图,如图9所示,该目标内容信息为附带第一分层标签的内容信息,该第一分层标签包括通过用户标签编辑接口获取到的该目标内容信息对应的多个标签,该标签生成模块620,包括:
第二内容分词子模块613,被配置为通过预设的分词算法对该目标内容信息进行分词;
第二标签生成子模块614,被配置为将经过该分词处理的该目标内容信息作为该训练好的该标签生成模型的输入,获取附带第二分层标签的该目标内容信息,该第二分层标签包括该标签生成模型直接输出的多个标签,或者,根据该标签生成模型直接输出的标签以及该多层级标签体系中该标签的从属关系确定的多个标签;
标签对比子模块615,被配置为将该第二分层标签与该第一分层标签进行对比;
标签确定子模块616,被配置为当所述第二分层标签与所述第一分层标签一致时,将所述第二分层标签或所述第一分层标签作为所述目标分层标签;
标签判断子模块617,被配置为当该第二分层标签与该第一分层标签不一致时,将该附带该第二分层标签的该目标内容信息,以及附带该第一分层标签的该目标内容信息输出至管理接口,以从该第二分层标签以及该第一分层标签中选择出该目标分层标签。
图10是根据图7示出的又一种多层级标签的生成装置的框图,如图10所示,该装置600还包括:
滚动训练模块650,被配置为持续地将被储存至该数据库中的附带分层标签的内容信息加入训练数据,对该标签生成模型进行滚动训练。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开能够通过将目标内容信息输入训练好的标签生成模型,获取该目标内容信息对应的目标分层标签,该目标分层标签包括根据该目标内容信息以及预先建立的该目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;将附带该目标分层标签的该目标内容信息储存至数据库。能够根据内容信息对应的多层级标签体系,为具有关联关系的内容信息附加具有从属关系的标签,并将已添加标签的内容信息统一储存至数据库,标签管理的统一性和规范性,提高标签搜索和大数据处理的效率,同时为用户提供增加添加标签的接口,并在保证合理性的同时对用户提交的标签加以利用,降低标签管理的成本。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的多层级标签的生成方法的步骤。
图11是根据一示例性实施例示出的一种多层级标签的生成装置1100的框图。例如,装置1100可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图11,装置1100可以包括以下一个或多个组件:处理组件1102,存储器1104,电力组件1106,多媒体组件1108,音频组件1110,输入/输出(I/O)的接口1112,传感器组件1114,以及通信组件1116。
处理组件1102通常控制装置1100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1102可以包括一个或多个处理器1120来执行指令,以完成上述的多层级标签的生成方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。
存储器1104被配置为存储各种类型的数据以支持在装置1100的操作。这些数据的示例包括用于在装置1100上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件1106为装置1100的各种组件提供电力。电力组件1106可以包括电源管理系统,一个或多个电源,及其他与为装置1100生成、管理和分配电力相关联的组件。
多媒体组件1108包括在所述装置1100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括一个前置摄像头和/或后置摄像头。当装置1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括一个麦克风(MIC),当装置1100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中,音频组件1110还包括一个扬声器,用于输出音频信号。
I/O接口1112为处理组件1102和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1114包括一个或多个传感器,用于为装置1100提供各个方面的状态评估。例如,传感器组件1114可以检测到装置1100的打开/关闭状态,组件的相对定位,例如所述组件为装置1100的显示器和小键盘,传感器组件1114还可以检测装置1100或装置1100一个组件的位置改变,用户与装置1100接触的存在或不存在,装置1100方位或加速/减速和装置1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1116被配置为便于装置1100和其他设备之间有线或无线方式的通信。装置1100可以接入基于通信标准的无线网络,如WiFi,2G或11G,或它们的组合。在一个示例性实施例中,通信组件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1116还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述多层级标签的生成方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1104,上述指令可由装置1100的处理器1120执行以完成上述多层级标签的生成方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。本公开能够在定位WLAN设备位置时,降低对WLAN设备的信号强度的依赖,使定位的误差精度可控,提高定位的准确度。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种多层级标签的生成方法,其特征在于,所述方法包括:
通过预设的分词算法对目标内容信息进行分词,所述目标内容信息为未添加标签的内容信息;
将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带所述目标分层标签的所述目标内容信息;所述目标分层标签包括根据所述目标内容信息以及预先建立的所述目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;所述标签生成模型的输出结果为与所述目标内容信息直接关联的标签,所述多层级标签体系为根据内容信息建立的设定标签的规范,同一类别的内容信息对应相同的多层级标签体系;
将附带所述目标分层标签的所述目标内容信息储存至数据库。
2.根据权利要求1所述的方法,其特征在于,在所述通过将目标内容信息输入训练好的标签生成模型,获取所述目标内容信息对应的目标分层标签之前,所述方法还包括:
提供对样本信息对应的分层标签进行添加和上传的多个接口,以建立所述样本信息对应的多层级标签体系,所述多个接口包括:用于输入标签的接口、用于展示和确认已输入的标签的接口以及用于将经过确认的标签添加至所述多层级标签体系的接口,所述样本信息包括附带分层标签并且与所述目标内容信息对应于同一多层级标签体系的多个内容信息;
将所述样本信息作为训练数据,对标签生成模型进行训练,以获取所述训练好的标签生成模型。
3.根据权利要求1所述的方法,其特征在于,所述目标内容信息为附带第一分层标签的内容信息,所述第一分层标签包括通过用户标签编辑接口获取到的所述目标内容信息对应的多个标签,所述通过将所述目标内容信息输入训练好的所述标签生成模型,获取所述目标内容信息对应的目标分层标签,包括:
通过预设的分词算法对所述目标内容信息进行分词;
将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带第二分层标签的所述目标内容信息,所述第二分层标签包括所述标签生成模型输出的具备从属关系的多个标签;
将所述第二分层标签与所述第一分层标签进行对比;
当所述第二分层标签与所述第一分层标签一致时,将所述第二分层标签或所述第一分层标签作为所述目标分层标签;
当所述第二分层标签与所述第一分层标签不一致时,将所述附带所述第二分层标签的所述目标内容信息,以及附带所述第一分层标签的所述目标内容信息输出至管理接口,以从所述第二分层标签以及所述第一分层标签中选择出所述目标分层标签。
4.根据权利要求1所述的方法,其特征在于,在将附带所述目标分层标签的所述目标内容信息储存至数据库之后,所述方法还包括:
持续地将被储存至所述数据库中的附带分层标签的内容信息加入训练数据,以对所述标签生成模型进行滚动训练。
5.一种多层级标签的生成装置,其特征在于,所述装置包括:
标签生成模块,被配置为通过预设的分词算法对目标内容信息进行分词,所述目标内容信息为未添加标签的内容信息;将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带所述目标分层标签的所述目标内容信息;所述目标分层标签包括根据所述目标内容信息以及预先建立的所述目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;所述标签生成模型的输出结果为与所述目标内容信息直接关联的标签,所述多层级标签体系为根据内容信息建立的设定标签的规范,同一类别的内容信息对应相同的多层级标签体系;
信息储存模块,被配置为将附带所述目标分层标签的所述目标内容信息储存至数据库。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
体系建立模块,被配置为提供对样本信息对应的分层标签进行添加和上传的多个接口,以建立所述样本信息对应的多层级标签体系,所述多个接口包括:用于输入标签的接口、用于展示和确认已输入的标签的接口以及用于将经过确认的标签添加至所述多层级标签体系的接口,所述样本信息包括附带分层标签并且与所述目标内容信息对应于同一多层级标签体系的多个内容信息;
模型训练模块,被配置为将所述样本信息作为训练数据,对标签生成模型进行训练,以获取所述训练好的标签生成模型。
7.根据权利要求5所述的装置,其特征在于,所述标签生成模块,包括:
第一内容分词子模块,被配置为通过预设的分词算法对所述目标内容信息进行分词;
第一标签生成子模块,被配置为将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带所述目标分层标签的所述目标内容信息。
8.根据权利要求5所述的装置,其特征在于,所述目标内容信息为附带第一分层标签的内容信息,所述第一分层标签包括通过用户标签编辑接口获取到的所述目标内容信息对应的多个标签,所述标签生成模块,包括:
第二内容分词子模块,被配置为通过预设的分词算法对所述目标内容信息进行分词;
第二标签生成子模块,被配置为将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带第二分层标签的所述目标内容信息,所述第二分层标签包括所述标签生成模型输出的具备从属关系的多个标签;
标签对比子模块,被配置为将所述第二分层标签与所述第一分层标签进行对比;
标签确定子模块,被配置为当所述第二分层标签与所述第一分层标签一致时,将所述第二分层标签或所述第一分层标签作为所述目标分层标签;
标签判断子模块,被配置为当所述第二分层标签与所述第一分层标签不一致时,将所述附带所述第二分层标签的所述目标内容信息,以及附带所述第一分层标签的所述目标内容信息输出至管理接口,以从所述第二分层标签以及所述第一分层标签中选择出所述目标分层标签。
9.根据权利要求5所述的装置,其特征在于,所述装置还包括:
滚动训练模块,被配置为持续地将被储存至所述数据库中的附带分层标签的内容信息加入训练数据,对所述标签生成模型进行滚动训练。
10.一种多层级标签的生成装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过预设的分词算法对目标内容信息进行分词,所述目标内容信息为未添加标签的内容信息;
将经过所述分词处理的所述目标内容信息作为所述训练好的所述标签生成模型的输入,获取附带所述目标分层标签的所述目标内容信息;所述目标分层标签包括根据所述目标内容信息以及预先建立的所述目标内容信息对应的多层级标签体系确定的具有从属关系的多个标签;所述标签生成模型的输出结果为与所述目标内容信息直接关联的标签,所述多层级标签体系为根据内容信息建立的设定标签的规范,同一类别的内容信息对应相同的多层级标签体系;
将附带所述目标分层标签的所述目标内容信息储存至数据库。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811185892.1A CN109255128B (zh) | 2018-10-11 | 2018-10-11 | 多层级标签的生成方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811185892.1A CN109255128B (zh) | 2018-10-11 | 2018-10-11 | 多层级标签的生成方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109255128A CN109255128A (zh) | 2019-01-22 |
CN109255128B true CN109255128B (zh) | 2023-11-28 |
Family
ID=65045927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811185892.1A Active CN109255128B (zh) | 2018-10-11 | 2018-10-11 | 多层级标签的生成方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255128B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110471597A (zh) * | 2019-07-25 | 2019-11-19 | 北京明略软件系统有限公司 | 一种数据标注方法和装置、计算机可读存储介质 |
CN110990397A (zh) * | 2019-11-01 | 2020-04-10 | 东方微银科技(北京)有限公司 | 一种征信数据提取方法及设备 |
CN111506776B (zh) * | 2019-11-08 | 2021-03-30 | 马上消费金融股份有限公司 | 数据标注方法以及相关装置 |
CN111597452B (zh) * | 2020-05-21 | 2023-08-25 | 北京明略软件系统有限公司 | 一种添加标签的方法、装置、电子设备及可读存储介质 |
CN115408525B (zh) * | 2022-09-29 | 2023-07-04 | 中电科新型智慧城市研究院有限公司 | 基于多层级标签的信访文本分类方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777042A (zh) * | 2010-01-21 | 2010-07-14 | 西南科技大学 | 基于神经网络和标签库的语句相似度算法 |
JP2010182267A (ja) * | 2009-02-09 | 2010-08-19 | Toshiba Corp | コンテンツ分類装置、方法及びプログラム |
CN106611052A (zh) * | 2016-12-26 | 2017-05-03 | 东软集团股份有限公司 | 文本标签的确定方法及装置 |
CN107832305A (zh) * | 2017-11-28 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
CN108288229A (zh) * | 2018-03-02 | 2018-07-17 | 北京邮电大学 | 一种用户画像构建方法 |
CN108304530A (zh) * | 2018-01-26 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 知识库词条分类方法和装置、模型训练方法和装置 |
CN108563683A (zh) * | 2018-03-08 | 2018-09-21 | 北京达佳互联信息技术有限公司 | 标签添加方法、装置及终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8880529B2 (en) * | 2007-05-15 | 2014-11-04 | Tivo Inc. | Hierarchical tags with community-based ratings |
-
2018
- 2018-10-11 CN CN201811185892.1A patent/CN109255128B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182267A (ja) * | 2009-02-09 | 2010-08-19 | Toshiba Corp | コンテンツ分類装置、方法及びプログラム |
CN101777042A (zh) * | 2010-01-21 | 2010-07-14 | 西南科技大学 | 基于神经网络和标签库的语句相似度算法 |
CN106611052A (zh) * | 2016-12-26 | 2017-05-03 | 东软集团股份有限公司 | 文本标签的确定方法及装置 |
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
CN107832305A (zh) * | 2017-11-28 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108304530A (zh) * | 2018-01-26 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 知识库词条分类方法和装置、模型训练方法和装置 |
CN108288229A (zh) * | 2018-03-02 | 2018-07-17 | 北京邮电大学 | 一种用户画像构建方法 |
CN108563683A (zh) * | 2018-03-08 | 2018-09-21 | 北京达佳互联信息技术有限公司 | 标签添加方法、装置及终端 |
Non-Patent Citations (1)
Title |
---|
层级标注系统及基于层级标签的分众分类生成算法研究;罗双玲等;《系统工程理论与实践》;20180725(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109255128A (zh) | 2019-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255128B (zh) | 多层级标签的生成方法、装置和存储介质 | |
CN106202330B (zh) | 垃圾信息的判断方法及装置 | |
CN107944447B (zh) | 图像分类方法及装置 | |
CN109961094B (zh) | 样本获取方法、装置、电子设备及可读存储介质 | |
CN111461304B (zh) | 分类神经网络的训练方法、文本分类方法、装置及设备 | |
CN107133354B (zh) | 图像描述信息的获取方法及装置 | |
CN111160448B (zh) | 一种图像分类模型的训练方法及装置 | |
CN107341509B (zh) | 卷积神经网络的训练方法、装置及可读存储介质 | |
CN110941966A (zh) | 机器翻译模型的训练方法、装置及系统 | |
CN110781323A (zh) | 多媒体资源的标签确定方法、装置、电子设备及存储介质 | |
CN106547850B (zh) | 表情注释方法及装置 | |
CN110941727B (zh) | 一种资源推荐方法、装置、电子设备及存储介质 | |
CN111104807B (zh) | 一种数据处理方法、装置和电子设备 | |
CN111797262A (zh) | 诗词生成方法、装置、电子设备和存储介质 | |
CN112559673A (zh) | 语言处理模型的训练方法及装置、电子设备及存储介质 | |
CN113920293A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN107480773B (zh) | 训练卷积神经网络模型的方法、装置及存储介质 | |
CN111797746A (zh) | 人脸识别方法、装置及计算机可读存储介质 | |
CN113609380B (zh) | 标签体系更新方法、搜索方法、装置以及电子设备 | |
CN113157923B (zh) | 实体分类方法、装置及可读存储介质 | |
CN113923517B (zh) | 一种背景音乐生成方法、装置及电子设备 | |
CN106155696B (zh) | 删除信息的方法及装置 | |
CN111667827B (zh) | 应用程序的语音控制方法、装置及存储介质 | |
CN114462410A (zh) | 实体识别方法、装置、终端及存储介质 | |
CN113807540A (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |