CN111078885B - 一种标签分类的方法、相关装置、设备以及存储介质 - Google Patents

一种标签分类的方法、相关装置、设备以及存储介质 Download PDF

Info

Publication number
CN111078885B
CN111078885B CN201911310291.3A CN201911310291A CN111078885B CN 111078885 B CN111078885 B CN 111078885B CN 201911310291 A CN201911310291 A CN 201911310291A CN 111078885 B CN111078885 B CN 111078885B
Authority
CN
China
Prior art keywords
text information
label
basic
concept
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911310291.3A
Other languages
English (en)
Other versions
CN111078885A (zh
Inventor
谢润泉
赵创钿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911310291.3A priority Critical patent/CN111078885B/zh
Publication of CN111078885A publication Critical patent/CN111078885A/zh
Application granted granted Critical
Publication of CN111078885B publication Critical patent/CN111078885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种标签分类的方法、相关装置、设备以及存储介质,用于从外部数据源中获取与对象文本信息相关的关联文本信息,将关联文本信息作为对象文本信息的补充信息,增加与对象相关的信息量,从而提升概率标签归类的准确度。本申请方法包括:获取目标对象所对应的对象文本信息;根据对象文本信息,从外部数据源集合中获取关联文本信息;根据关联文本信息获取目标对象所对应的基础标签集合;根据对象文本信息以及基础标签集合,确定至少一个概念标签分布;根据至少一个概念标签分布,确定目标对象所对应的概念标签分布,其中,概念标签分布用于表示目标对象对应概念标签的概率。

Description

一种标签分类的方法、相关装置、设备以及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种标签分类的方法、相关装置、设备以及存储介质。
背景技术
随着互联网技术的不断成熟,基于标签信息进行个性化推荐和查找的服务在互联网行业得到越来越广泛的应用。例如,在餐饮行业中,运营商希望对餐饮类商户类目做精细化运营,通过构建商户画像实现消费者定向,进行营销活动投放。
基础标签是商户画像中重要的组成维度,如果直接使用基础标签进行定向,因其数量较多,并且相似标签没有聚合整理,造成运营使用和上手难度比较大。目前,为了能够解决上述问题,可以在基础标签上,构建产品运营有感知,且简单易用的商户概念标签。
然而,不同商户所拥有的文本信息有限,没有明显的特征词,比如商户文本信息为“老乾杯”,这类商户因为缺少有效的文本信息而无法准确归类到概念标签,导致信息分类的准确率降低。
发明内容
本申请实施例提供了一种标签分类的方法、相关装置、设备以及存储介质,可以从外部数据源中获取与对象文本信息相关的关联文本信息,将关联文本信息作为对象文本信息的补充信息,增加与对象相关的信息量,从而提升概率标签归类的准确度。
有鉴于此,本申请第一方面提供一种标签分类的方法,包括:
获取目标对象所对应的对象文本信息;
根据对象文本信息,从外部数据源集合中获取关联文本信息,其中,外部数据源集合包括至少一类外部数据源;
根据关联文本信息获取目标对象所对应的基础标签集合,其中,基础标签集合中包括至少一个基础标签;
根据对象文本信息以及基础标签集合,确定至少一个概念标签分布;
根据至少一个概念标签分布,确定目标对象所对应的概念标签分布,其中,概念标签分布用于表示目标对象对应概念标签的概率。
本申请第一方面提供一种标签分类装置,包括:
获取模块,用于获取目标对象所对应的对象文本信息;
获取模块,还用于根据获取模块获取到的对象文本信息,从外部数据源集合中获取关联文本信息,其中,外部数据源集合包括至少一类外部数据源;
获取模块,还用于根据获取模块获取到的关联文本信息获取目标对象所对应的基础标签集合,其中,基础标签集合中包括至少一个基础标签;
确定模块,用于根据获取模块获取到的对象文本信息以及基础标签集合,确定至少一个概念标签分布;
确定模块,还用于根据确定模块确定的至少一个概念标签分布,确定目标对象所对应的目标概念标签分布,其中,目标概念标签分布用于表示目标对象对应概念标签的概率。
在一种可能的设计中,在本申请实施例的第二方面的第一种实现方式中,
获取模块,具体用于根据获取模块获取到的对象文本信息,从第一外部数据源、第二外部数据源、第三外部数据源以及第四外部数据源中的至少一类外部数据源中,获取关联文本信息,其中,第一外部数据源为应用点击日志信息,第二外部数据源为公众号文本信息,第三外部数据源为百科搜索结果,第四外部数据源为元搜索结果。
在一种可能的设计中,在本申请实施例的第二方面的第二种实现方式中,
获取模块,具体用于:
若获取模块获取到的关联文本信息中包括至少两个文本信息,则从至少两个文本信息中获取待选基础标签集合,其中,待选基础标签集合包括M个待选基础标签,待选基础标签包括至少一个词语,且待选基础标签满足短语质量条件,M为大于或等于1的整数;
获取待选基础标签集合中待选基础标签与对象文本信息之间的相关度;
根据待选基础标签集合中待选基础标签与对象文本信息之间的相关度,从M个待选基础标签中确定目标对象所对应的基础标签集合,其中,基础标签集合包括N个基础标签,N为大于或等于1,且小于或等于M的整数。
在一种可能的设计中,在本申请实施例的第二方面的第三种实现方式中,
获取模块,具体用于:
若获取模块获取到的关联文本信息中包括一个文本信息,则通过实体识别模型获取一个文本信息所对应的待选基础标签集合,其中,待选基础标签集合包括M个待选基础标签,待选基础标签包括至少一个词语,M为大于或等于1的整数;
获取待选基础标签集合中待选基础标签与对象文本信息之间的相关度;
根据待选基础标签集合中待选基础标签与对象文本信息之间的相关度,从M个待选基础标签中确定目标对象所对应的基础标签集合,其中,基础标签集合包括N个基础标签,N为大于或等于1,且小于或等于M的整数。
在一种可能的设计中,在本申请实施例的第二方面的第四种实现方式中,
确定模块,具体用于:
根据获取模块获取到的对象文本信息确定目标对象所对应的第一概念标签分布;
根据获取模块获取到的对象文本信息确定目标对象所对应的第二概念标签分布;
根据获取模块获取到的对象文本信息以及基础标签集合,确定目标对象所对应的第三概念标签分布。
在一种可能的设计中,在本申请实施例的第二方面的第五种实现方式中,
确定模块,具体用于:
根据获取模块获取到的对象文本信息获取至少一个文本片段,其中,文本片段属于候选文本片段集合中的候选文本片段;
获取至少一个文本片段中每个文本片段所对应的权重值;
根据每个文本片段所对应的权重值以及每个文本片段所对应的预设概念标签分布,计算得到目标对象所对应的第一概念标签分布。
在一种可能的设计中,在本申请实施例的第二方面的第六种实现方式中,标签分类装置还包括计算模块,
获取模块,还用于获取待挖掘文本信息所对应的候选文本片段;
获取模块,还用于根据获取模块获取到的候选文本片段获取关联对象文本信息集合,其中,关联对象文本信息集合包括至少一个关联对象文本信息,关联对象文本信息表示与候选文本片段具有关联关系的对象所对应的对象文本信息;
获取模块,还用于基于获取模块获取到的关联对象文本信息集合,通过标签分类模型获取每个关联对象文本信息所对应的待处理概念标签分布;
计算模块,用于根据获取模块获取到的每个关联对象文本信息所对应的待处理概念标签分布,计算得到候选文本片段所对应的预设概念标签分布。
在一种可能的设计中,在本申请实施例的第二方面的第七种实现方式中,
确定模块,具体用于:
根据获取模块获取到的对象文本信息,从第五外部数据源中获取相似对象文本信息集合,其中,相似对象文本信息集合包括至少一个相似对象文本信息,相似对象文本信息与对象文本信息具有映射关系;
针对相似对象文本信息集合中的每个相似对象文本信息,获取相似对象文本信息中每个文本片段所对应的权重值;
针对相似对象文本信息集合中的每个相似对象文本信息,根据相似对象文本信息中每个文本片段所对应的权重值以及每个文本片段所对应的预设概念标签分布,计算得到第四概念标签分布;
根据每个相似对象文本信息所对应的第四概念标签分布,计算得到平均概念标签分布;
获取对象文本信息中每个文本片段所对应的权重值;
根据对象文本信息中每个文本片段所对应的权重值、预设概念标签分布以及平均概念标签分布,计算得到目标对象所对应的第二概念标签分布。
在一种可能的设计中,在本申请实施例的第二方面的第八种实现方式中,
获取模块,还用于获取待匹配概念标签;
获取模块,还用于若获取模块获取到的待匹配概念标签与第五外部数据源中的概念标签匹配成功,则执行根据对象文本信息,从第五外部数据源中获取相似对象文本信息集合的步骤。
在一种可能的设计中,在本申请实施例的第二方面的第九种实现方式中,
确定模块,具体用于:
根据获取模块获取到的对象文本信息以及基础标签集合生成字嵌入向量、分段嵌入向量以及位置嵌入向量,其中,对象文本信息包括第一对象信息以及第二对象信息;
根据对象文本信息从对象标签矩阵中获取目标对象标签向量,其中,对象标签矩阵包括至少一个对象标签向量;
根据字嵌入向量、分段嵌入向量、位置嵌入向量以及目标对象标签向量,生成目标输入向量;
基于目标输入向量,通过标签分类模型获取目标对象所对应的第三概念标签分布。
在一种可能的设计中,在本申请实施例的第二方面的第十种实现方式中,标签分类装置还包括排序模块以及训练模块,
获取模块,还用于获取第一待训练样本集合,其中,第一待训练样本集合包括至少一个第一待训练样本,第一待训练样本包括第一待训练对象信息、第二待训练对象信息以及待训练基础标签集合,待训练基础标签集合包括至少一个待训练基础标签,第一待训练对象信息对应于第一样本位置,第二待训练对象信息对应于第二样本位置,待训练基础标签集合对应于第三样本位置;
排序模块,用于基于获取模块获取到的第一待训练样本集合,对第一样本位置、第二样本位置以及第三样本位置所对应的信息进行随机排序,得到第二待训练样本集合,其中,第二待训练样本集合包括至少一个第二待训练样本,第二待训练样本包括第一待训练对象信息、第二待训练对象信息以及待训练基础标签集合;
训练模块,用于采用排序模块得到的第二待训练样本集合对待训练标签分类模型进行训练,得到标签分类模型。
在一种可能的设计中,在本申请实施例的第二方面的第十一种实现方式中,标签分类装置还包括建立模块以及处理模块,
获取模块,还用于获取第三待训练样本集合,其中,第三待训练样本集合包括至少两个第三待训练样本;
建立模块,用于根据获取模块获取到的第三待训练样本集合建立节点关系图,其中,节点关系图包括至少两个节点,节点与第三待训练样本具有对应关系,节点关系图还包括至少一条边,边用于建立节点之间的连接关系;
处理模块,用于对建立模块建立的节点关系图进行向量化处理,得到对象标签矩阵,其中,对象标签矩阵包括至少一个对象标签向量。
本申请的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例,提供一种标签分类的方法,首先可以获取目标对象所对应的对象文本信息。然后根据对象文本信息,从包括至少一类外部数据源的外部数据源集合中获取关联文本信息,进而根据关联文本信息获取目标对象所对应的基础标签集合,而其中基础标签集合中包括至少一个基础标签,进一步地根据对象文本信息以及基础标签集合,确定至少一个概念标签分布,最后可以根据至少一个概念标签分布,确定目标对象所对应的概念标签分布,其中概念标签分布用于表示目标对象对应概念标签的概率。通过上述方式,可以从外部数据源中获取与对象文本信息相关的关联文本信息,将关联文本信息作为对象文本信息的补充信息,增加与对象相关的信息量,从而提升概率标签归类的准确度。
附图说明
图1为本申请实施例中标签分类系统的一个架构示意图;
图2为本申请实施例中基于关联文本信息的一个标签分类流程示意图;
图3为本申请实施例中标签分类的方法一个实施例示意图;
图4为本申请实施例中公众号文本信息的一个实施例示意图;
图5为本申请实施例中在线片段知识匹配的一个实施例示意图;
图6为本申请实施例中离线片段知识匹配的一个实施例示意图;
图7为本申请实施例中外部结构化数据映射的一个实施例示意图;
图8为本申请实施例中多标签分类模型的一个实施例示意图;
图9为本申请实施例中表征学习算法的一个实施例示意图;
图10为本申请实施例中标签分类装置的一个实施例示意图;
图11为本申请实施例中电子设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种标签分类的方法、相关装置、设备以及存储介质,可以从外部数据源中获取与对象文本信息相关的关联文本信息,将关联文本信息作为对象文本信息的补充信息,增加与对象相关的信息量,从而提升概率标签归类的准确度。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请可以实现对象概念标签的分类,可以基于概念标签分类进行商户的定向的推荐,或者可以基于概念标签分类满足企业信息的定向查询。标签可以指示产品的类别或者企业信息的内容,可以根据产品或者企业信息确定至少一个关键字词,其中,基础标签是指与产品的对象相关的词组,或者为与企业信息相关的有价值与意义的词组,概念标签则是基于基础标签,构建固定个数的粗粒度标签合集。对于商户业务而言,支付运营商需要商户类目做精细化运营,由于在商户的支付中,消费者的行为主要通过其消费过的历史商户来体现,因此,需要通过构建与对象相关的概念标签实现消费者定向的运营,从而可以进行营销活动投放。其次,对于企业信息对应的数据而言,基础标签则是企业信息中重要的组成维度。标签是一个有意义且具有信息量的文本片段,可以被用户理解与使用,如果直接使用基础标签进行定向,会因为基础标签的数量较多,并且相似标签没有聚合整理,造成对商户业务运营的使用不准确,或者企业信息查询不准确,导致对象数据统计量大。
具体地,在一个示例中,例如餐饮类商户,对象文本信息包含但不限于“都可茶饮”,“彩蝶轩面包店”,“俏凤凰苗家牛肉粉”以及“翠华餐厅”,而基础标签包含但不限于“腊味煲仔饭”,“海南鸡饭”,“珍珠奶茶”以及“酸汤米粉”,而基础标签可以与概念标签相关联,请参阅表1,表1为对象文本信息、基础标签以及概念标签之间相关关系的一个示例,在实际应用中,对象文本信息可以对应至少一个的基础标签,而同一个基础标签可以对应于至少一个概念标签。
表1
对象文本信息 基础标签 概念标签
都可茶饮 奶茶、茶饮、珍珠奶茶、奶茶三兄弟 果汁奶茶
彩蝶轩面包店 面包、蛋糕、面包店、彩蝶轩 面包蛋糕
俏凤凰苗家牛肉粉 俏凤凰、牛肉粉、酸汤米粉、湘西酸鱼 米面粉
基于表1可知,根据消费者和对象的历史消费关系,可以将对象的概念标签传播至消费维度上。例如,消费者A经常消费“都可茶饮”和“彩蝶轩面包店”,根据表1可以指示其概念标签为“果汁奶茶”和“米面粉”。因此当与概念标签“果汁奶茶”相关商户需要投放优惠券时,例如商户“喜茶”可以使用“果汁奶茶”概念标签确定与该概念标签相关的消费者,然后仅对这些具有“果汁奶茶”概念标签的消费者投放优惠券,从而增加优惠券的领取和使用概率。
需要说明的是,概念标签包含但不仅限于米面粉、日本料理、东南亚菜、韩国料理、地方菜、中式快餐、西式快餐、水果、面包蛋糕、粥食、甜品、休闲食品、方便速食、沙拉、清真菜、素菜、汤羹、自助餐、烧烤、火锅、水产、咖啡、茗茶、果汁奶茶、凉茶、腌闲制品、干果以及蛋奶豆制品等。
在另一个示例中,例如服装类商户,请参阅表2,表2为对象文本信息、基础标签以及概念标签之间相关关系的另一个示例,在实际应用中,对象文本信息可以对应更多的基础标签,而同一个基础标签可以对应于至少一个概念标签。
表2
对象文本信息 基础标签 概念标签
优衣库 牛仔裤、休闲长裤、西裤、背带裤、优衣库 裤装
耐克 运动背心、卫衣、耐克 上装
阿玛尼 连衣裙、半身裙、背带裙、阿玛尼 裙装
基于表2可知,假设消费者B经常消费“阿玛尼”,根据表2可以指示其概念标签为“裙装”。因此当与概念标签“裙装”相关对象需要进行对象营销时,例如商户“古驰”可以使用“裙装”概念标签确定与该概念标签相关的消费者,则可以对这些具有“裙装”概念标签的消费者发送商户营销宣传,增加商户营销活动的宣传度,以及提高营销后的销售结果。
在又一个示例中,例如社会服务机构类对象,对象文本信息包含但不限于“社区服务中心”、“社会保障部”、“残疾人联合会”以及“青少年发展基金会”,而基础标签则可以包含但不限于“服务中心”、“社区”、“社会”、“保障部”、“联合会”以及“发展基金会”,基础标签可以与概念标签相关联,例如基础标签“服务中心”以及“社区”,可以对应概念标签“社会公益事业单位”,而基础标签“联合会”以及“保障部”可以对应概念标签“群团组织”,基础标签“社会”以及“保障部”可以对应概念标签“行政机关”,基础标签“青少年”以及“发展基金会”可以对应概念标签“社会服务类民间组织”。
结合上述介绍,为了提升概率标签归类的准确度,本申请提出了一种标签分类的方法,该方法应用于图1所示的标签分类系统,请参阅图1,图1为本申请实施例中标签分类系统的一个架构示意图,如图所示,标签分类装置可以部署于服务器,也可以部署于具有较高计算力的客户端,下面将以标签分类装置部署于服务器为例进行介绍。在实现标签分类之前,服务器首先需要获取目标对象所对应的对象文本信息,然后根据对象文本信息,从该外部数据源集合中获取关联文本信息,进而可以根据关联文本信息获取目标对象所对应的基础标签集合,根据所获取到的对象文本信息以及基础标签集合,确定至少一个概念标签分布,最后根据至少一个概念标签分布,确定目标对象所对应的概念标签分布。服务器可以从外部数据源中获取与对象文本信息相关的关联文本信息,将关联文本信息作为对象文本信息的补充信息,增加与对象相关的信息量,从而提升概率标签归类的准确度。
需要说明的是,客户端部署于终端设备上,其中,终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer,PC),此处不做限定。其中,语音交互设备包含但不仅限于智能音响以及智能家电。也可以为监控设备、人脸识别设备等,此处不做限定。
虽然图1中仅示出了五个终端设备和一个服务器,但应当理解,图1中的示例仅用于理解本方案,具体终端设备和服务器的数量均应当结合实际情况灵活确定。
为了便于理解,请参阅2,图2为本申请实施例中基于对象文本信息的一个标签分类流程示意图,如图所示,本申请所提供的标签分类方法可以分为三个部分,分别为对象文本信息处理,概念标签分布获取以及结果融合。对象文本信息包括对象名以及公司名的至少一种,基于对象文本信息和外部文本,生成基础标签。根据对象文本信息可以实现片段知识匹配和垂类网站映射。根据对象文本信息和基础标签,可以实现多标签分类。在片段知识匹配之后得到结果1,在垂类网站映射之后得到结果2,在多标签分类之后得到结果3,最后结合三个结果生成概念分布。
结合上述介绍,下面将对本申请中标签分类的方法进行介绍,请参阅图3,图3为本申请实施例中标签分类的方法一个实施例示意图,如图所示,本申请实施例中标签分类的方法一个实施例包括:
101、获取目标对象所对应的对象文本信息;
本实施例中,标签分类装置可以获取到目标对象所对应的对象文本信息,应理解,该对象文本信息可以是商户文本信息,例如为公司名以及企业名。本申请实施例中是以目标对象为商户作为示例进行描述的,在实际应用中,目标对象还可以为社会服务机构或者各类企业,因此不应理解为本申请的限定。在一个示例中,以应用于餐饮类对象为例,对象名可以为“海底捞火锅”,公司名可以为“四川海底捞餐饮股份有限公司”。在另一个示例中,以应用于社会服务机构类对象为例,对象名可以为“福利院”,机构名可以为“象山儿童福利院”。
需要说明的是,标签分类装置可以部署于服务器,也可以部署于终端设备,本申请以部署于服务器为例进行介绍,然而这不应理解为对本申请的限定。
102、根据对象文本信息,从外部数据源集合中获取关联文本信息,其中,外部数据源集合包括至少一类外部数据源;
本实施例中,标签分类装置还可以从外部数据源集合中,根据该对象文本信息获取关联文本信息。在一个示例中,以应用于餐饮类对象,且对象文本信息为“海底捞火锅”为例,则可以根据“海底捞火锅”获取到关联文本信息,关联文本信息可以为“海底捞火锅最爱点虾滑、肥牛、毛肚、酸梅汤、红糖糍粑和捞派捞面”。在另一个示例中,以应用于服装类对象,且对象文本信息为“优衣库”为例,根据“优衣库”获取到关联文本信息,关联文本信息可以为“牛仔裤,针织裤,卫衣,夹克,衬衫和过膝袜在冬日很受欢迎”。在又一个示例中,以应用于服居家日用类对象,且对象文本信息为“全棉时代”为例,根据“全棉时代”获取到关联文本信息,关联文本信息可以为“毛巾、化妆棉、床单和枕头都是全棉的,很舒适”。
103、根据关联文本信息获取目标对象所对应的基础标签集合,其中,基础标签集合中包括至少一个基础标签;
本实施例中,标签分类装置可以根据该关联文本信息获取目标对象所对应的基础标签集合,并且该基础标签集合中包括至少一个基础标签。在一个示例中,以关联文本信息为“海底捞火锅最爱点虾滑,肥牛,毛肚,酸梅汤,红糖糍粑和捞派捞面”为示例进行说明,对应的基础标签可以包括“火锅”,“虾滑”,“肥牛”,“毛肚”,“酸梅汤”,“红糖糍粑”以及“捞派捞面”。在另一个示例中,以关联文本信息为“牛仔裤,针织裤,卫衣,夹克,衬衫和过膝袜在冬日很受欢迎”为示例进行说明,对应的基础标签可以包括“牛仔裤”,“针织裤”,“卫衣”,“夹克”,“衬衫”以及“过膝袜”。在又一个示例中,以关联文本信息为“毛巾,化妆棉,床单和枕头都是全棉的,很舒适”为示例进行说明,“全棉时代卓越世纪中心店”对应的基础标签可以包括“全棉”,“毛巾”,“化妆棉”,“床单”以及“枕头”。
104、根据对象文本信息以及基础标签集合,确定至少一个概念标签分布;
本实施例中,标签分类装置可以根据基础标签集合以及目标对象所对应的对象文本信息,确定至少一个概念标签分布。在一个示例中,以对象文本信息为“海底捞”,基础标签集合为“虾滑”,“肥牛”,“毛肚”,“酸梅汤”,“红糖糍粑”以及“捞派捞面”作为示例,根据对象文本信息以及基础标签集合可以生成至少一个概念标签分布,例如,基于片段知识匹配生成的一个概念标签分布,表示为(0.5,0.8),基于多标签分类生成一个概念标签分布,表示为(0.1,0.9),基于垂类网站映射生成一个概念标签分布,表示为(0.2,0.7),则此时得到三个概念标签分布。
105、根据至少一个概念标签分布,确定目标对象所对应的目标概念标签分布,其中,目标概念标签分布用于表示目标对象对应概念标签的概率。
本实施例中,标签分类装置可以根据步骤104所确定的至少一个概念标签分布,确定目标对象所对应的概念标签分布,概念标签分布可以用于表示目标对象对应概念标签的概率。假设一共存在两类概念标签,分别为“自助餐”和“火锅”,以上述得到的概念标签分布为例,得到目标概念标签分布为(0.5,0.8)+(0.1,0.9)+(0.2,0.7)=(0.8,2.4),然后进行归一化处理,即得到(0.33,1)因此,概念标签“火锅”所对应的概率较大,可以将“海底捞”划分至概念标签“火锅”。
本申请实施例,提供一种标签分类的方法,通过上述方式,可以从外部数据源中获取与对象文本信息相关的关联文本信息,将关联文本信息作为对象文本信息的补充信息,增加与对象相关的信息量,从而提升概率标签归类的准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,根据对象文本信息,从外部数据源集合中获取关联文本信息,可以包括:
根据对象文本信息,从第一外部数据源、第二外部数据源、第三外部数据源以及第四外部数据源中的至少一类外部数据源中,获取关联文本信息,其中,第一外部数据源为应用点击日志信息,第二外部数据源为公众号文本信息,第三外部数据源为百科搜索结果,第四外部数据源为元搜索结果。
本实施例中,标签分类装置可以从不同的外部数据源中获取关联文本信息,其中外部数据源包括但不限于应用点击日志信息、公众号文本信息、百科搜索结果以及元搜索结果。
具体地,第一外部数据源为应用点击日志信息,在一个示例中,从应用点击日志信息获取关联文本信息。在网页应用领域之中,为了得到用户的行为,可以在页面上进行监控,通过监控记录用户的行为,当用户对对象文本信息进行搜索后,即调用查询方法后展示对象文本信息的多个结果,应用程序日志可以获取到多个结果所对应的应用点击日志信息,该应用点击日志信息即为关联文本信息,用户还可以进一步地根据该多个结果选择一个所需结果,应用程序日志还可以记录该结果所对应的应用点击日志信息,该应用点击日志信息也为关联文本信息,然后通过关联文本信息对用户行为进行分析,通过用户的行为所获取关联文本信息,与用户喜爱以及习惯更相符,从而提升关联文本信息的准确度。
第二外部数据源为公众号文本信息,在一个示例中,从公众号文本信息获取关联文本信息。对象可以注册公众号,然后在公众号上发布与对象相关的各种文章,因此可以根据对象文本信息关联到该对象的公众号,而该公众号中所发布的文章即为公众号文本信息,然后用该公众号文本信息作为该对象的关联文本信息,应理解,由于公众号中所发布的文章至少为一篇,即公众号文本信息应该大于等于1,因此对象包括至少一个关联文本信息。为了便于理解,以对象为“海底捞火锅”作为示例,请参阅图4,图4为本申请实施例中公众号文本信息的一个实施例示意图,如图4中(A)所示,A1、A2以及A3均为“海底捞火锅”公众号的文章,而对A1所对应的文章进行选择,如图4中(B)所示,可以得到A11所对应的公众号文本信息“一个人的时候,在海底捞火锅最爱点虾滑,肥牛,毛肚,酸梅汤,红糖糍粑和捞派捞面”,即该公众号文本信息为关联文本信息。由于公众号与对象关联性强,并且公众号文章内容也与对象相关,因此通过公众号文本信息获取关联文本信息,可以提升关联文本信息的准确度以及信息量。
第三外部数据源为百科搜索结果,在一个示例中,从百科搜索结果获取关联文本信息,且本实施例以网站百科进行说明,网站百科可以包括但不限于百度百科、维基百科、搜狗百科以及互动百科。其中,网站百科强调于文本信息的原创以及真实性,而网站百科又具有文本信息开放的特点,让各个领域的知识对应的文本信息在一定的技术规则,以及文化脉络下得以不断组合和拓展,中文所对应的文本信息在网站百科能获取到全面、准确并且客观的定义性信息,因此通过网站百科获取关联文本信息,可以提升关联文本信息的准确性。而网站百科还是一个可以被编辑以及添加条目、或者删改内容的网络百科全书,由于每个文本信息都可以被浏览、创建以及更改,而所有的更改记录都会保存下来,不但可以进行事后查验,也能追踪甚至恢复至原有文本,因此网站百科的文本信息来源于多次的写作、修改、扩展或者探讨,其次,网站百科还支持多种文字,由于网站百科的多样性以及包容性,通过网站百科获取关联文本信息,可以提升关联文本信息的信息量。网站百科还可以通过与搜索引擎及其他内容型平台的结合,提供不同层次的文本信息需求,领域涵盖广泛,因此可以提升关联文本信息的多元性以及信息量。
第四外部数据源为元搜索结果,在一个示例中,从元搜索结果获取关联文本信息。元搜索需要通过元搜索引擎进行,而元搜索引擎又称多搜索引擎,即通过一个统一的用户界面帮助消费者在多个搜索引擎中选择,并且利用合适的(还可以是同时利用若干个)搜索引擎来实现检索操作。例如,消费者向元搜索引擎发出查询请求(query),该元搜索引擎可以根据该query向多个搜索引擎发出实际检索请求,各个搜索引擎可以爬取并解析出返回结果中出现的关联文本信息。由于元搜索结果为获取多个检索结果后,再进行整理后获取,因此从元搜索结果已经经过筛选以及整理,其中的信息准确度较高,因此从元搜索结果获取关联文本信息,可以提升关联文本信息的准确性,并且提高关联文本信息获取的效率以及可扩展性。
应理解,当对象文本信息无法通过前述方式关联其他文本信息,或者通过前述方式所获取的关联文本信息较少时(例如鼎泰丰大连分店),则可以采用对象文本信息的关键词语(例如鼎泰丰)进行关联,利用“鼎泰丰”所获取的关联文本信息,在后续获取的概念标签对“鼎泰丰大连分店”也是适用的。由于部分对象存在连锁店,因此地域或者地区均为非关键词语,而关键词语才是可以该对象概念标签的,因此在这种情况下,可以采用对象文本信息中的关键词语进行关联。
本申请实施例中,提供了一种关联文本信息获取的方法,可以从应用点击日志信息、公众号文本信息、百科搜索结果以及元搜索结果中,获取关联文本信息。通过上述方式,可以通过不同的外部数据源获取关联文本信息,提高关联文本信息的丰富度以及准确度,从而提升基础标签的信息量和准确度,进而提升概率标签归类的准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,根据关联文本信息获取目标对象所对应的基础标签集合,可以包括:
若关联文本信息中包括至少两个文本信息,则从至少两个文本信息中获取待选基础标签集合,其中,待选基础标签集合包括M个待选基础标签,待选基础标签包括至少一个词语,且待选基础标签满足短语质量条件,M为大于或等于1的整数;
获取待选基础标签集合中待选基础标签与对象文本信息之间的相关度;
根据待选基础标签集合中待选基础标签与对象文本信息之间的相关度,从M个待选基础标签中确定目标对象所对应的基础标签集合,其中,基础标签集合包括N个基础标签,N为大于或等于1,且小于或等于M的整数。
本实施例中,标签分类装置在获取到关联文本信息后,若关联文本信息中包括至少两个文本信息时,则可以从至少两个文本信息中获取包括M个待选基础标签的待选基础标签集合,而待选基础标签包括至少一个词语,并且待选基础标签满足短语质量条件,然后从M个待选基础标签中确定目标对象所对应的基础标签集合,基础标签集合中包括N个基础标签,M为大于或等于1的整数,N为大于或等于1,且小于或等于M的整数。应理解,待选基础标签中与对象相关的标签为基础标签,与对象无关的标签不属于基础标签。
在一个示例中,以关联文本信息为“海底捞火锅”的公众号文本信息为示例进行说明,“海底捞火锅”的公众号中有多篇文章,因此可以获取到多个公众号的文本信息,然后根据多个公众号的文本信息可以获取到多个待选基础标签。
具体地,待选基础标签需要满足短语质量条件,即待选基础标签属于高质量短语。该短语质量条件包括通用性(popularity),一致性(concordance),情报性(informative)以及完整性(completeness)。其中,通用性需要满足一定质量下频次越高越好,例如“海底捞”的公众号文本信息对应的标签中有“肥牛”以及“酸汤肥牛”,对于“海底捞”而言“肥牛”出现的频次大于“酸汤肥牛”,因此“肥牛”相对于“酸汤肥牛”具有更好的通用性。而一致性则表示词语完整出现在一起的概率,例如“海底捞”的公众号文本信息对应的标签中有“红糖糍粑”以及“红枣红糖枸杞煮水”,可见“红糖糍粑”相较于“红枣红糖枸杞煮水”具有更好的一致性。情报性则可以反映某种维度的兴趣,例如“早晨锻炼”与“今天早晨”相比,“早晨锻炼”表示对早晨锻炼的兴趣,因此“早晨锻炼”具有更好的情报性,又例如“多看阅读”与“阅读原文”相比,“多看阅读”表示了喜欢阅读的兴趣,因此“多看阅读”具有更好的情报性。完整性则表示标签需要完整清楚的指示所对应的具体实物,例如“酸梅汤”相较于“酸梅”具有更好的完整性,而“捞派捞面”相较于“派捞面”具有更好的完整性。
在待选基础标签满足短语质量条件之后,可以获取到包括该关联文本信息对应的多个待选基础标签组成的待选基础标签集合。例如“海底捞火锅”的公众号文本信息中有“海底捞火锅最爱点虾滑,肥牛,毛肚,酸梅汤,红糖糍粑和捞派捞面”,还有“冬日里除了海底捞火锅,烤肉也是不错的选择”,那么这两个公众号文本信息可以对应的待选基础标签为“虾滑”“肥牛”,“毛肚”,“酸梅汤”,“红糖糍粑”,“捞派捞面”,“火锅”以及“烤肉”。因此可以得到的待选基础标签集合中,则包括“虾滑”“肥牛”,“毛肚”,“酸梅汤”,“红糖糍粑”,“捞派捞面”,“火锅”以及“烤肉”共8种待选基础标签。
计算待选基础标签集合中待选基础标签与对象文本信息之间的相关度,也就是判断对象文本信息和待选基础标签是不是相关的,比如“顺德佬”与“粤菜”之间就是相关的,而“顺德佬”与“徽菜”就是不相关的。本实施例中相关度的计算可以采用以下两种方式,第一种方式即该待选基础标签在关联文本信息中出现的越多,该待选基础标签越与该对象文本信息相关度越高,例如,“火锅”在“海底捞火锅”对应的公众号中出现频率较高,或者根据“海底捞火锅”的百科搜索结果中,“火锅”出现频率较高,即可以认为该待选基础标签“火锅”与“海底捞火锅”相关。第二种方式可以分别把对象文本信息和待选基础标签当成2个短文本,然后对对象文本信息和待选基础标签采用语义相关度计算方法进行计算。
具体地,语义相关度计算方法可以为基于向量空间模型的计算方法,也可以为基于汉明距离的计算方法,或者还可以为基于语义理解的计算方法。其中,基于向量空间模型的计算方法可以设定对象文本信息以及待选基础标签中的词语是相互独立的,因而可以用向量的形式来表示,这种表示方法简化了对象文本信息和待选基础标签中词语之间的复杂关系,使得文本的相关程度可以计算,由于将对象文本信息和待选基础标签表示为向量的形式,因此对象文本信息和待选基础标签的相关度问题也就可以通过两向量之间的夹角大小计算,即夹角越大,两文本的相关度就越低。基于汉明距离的计算方法可以基于编码理论中的汉明距离,通过计算两文本之间的汉明距离来计算两文本的相关度,该方法的运算过程较简便。基于语义理解的计算方法需要具有层次结构关系的语义词典,依据概念之间的上下位关系或者同义关系进行计算。由于文本的相关性计算大多是依赖于组成此文本的词语,因此语义理解需要通过计算语义结构树中两词语之间的距离来计算词语的相关度。
在一种实施例中,可以根据待选基础标签合集,选取前N个相关度最大的待选基础标签作为基础标签,或者选取相关度最大的待选基础标签作为基础标签,例如在前述待选基础标签集合中选择前5个为基础标签,那么这5个为基础标签可以组成基础标签集合,该基础标签集合包括“虾滑”“肥牛”,“毛肚”,“酸梅汤”以及“红糖糍粑”。在另一种实施例中,根据前述方法获取的相关度,可以从前述待选基础标签中确定目标对象所对应的基础标签集合。例如,在前述待选基础标签集合中,共有8种待选基础标签。而通过相关度可以得到“烤肉”与“海底捞火锅”不相关,其他待选基础标签均与“海底捞火锅”相关,因此可以将相关的待选基础标签作为基础标签,并且组成基础标签合集,该基础标签合集包括“虾滑”“肥牛”,“毛肚”,“酸梅汤”,“红糖糍粑”,“捞派捞面”,以及“火锅”,共7种基础标签。
本申请实施例中,提供了一种基础标签集合获取的方法,通过上述方式,在多个文本信息的情况下,用短语质量条件确定待选基础标签,另外还根据相关度确定基础标签集合,由此提升基础标签集合的准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,根据关联文本信息获取目标对象所对应的基础标签集合,可以包括:
若关联文本信息中包括一个文本信息,则通过实体识别模型获取一个文本信息所对应的待选基础标签集合,其中,待选基础标签集合包括M个待选基础标签,待选基础标签包括至少一个词语,M为大于或等于1的整数;
获取待选基础标签集合中待选基础标签与对象文本信息之间的相关度;
根据待选基础标签集合中待选基础标签与对象文本信息之间的相关度,从M个待选基础标签中确定目标对象所对应的基础标签集合,其中,基础标签集合包括N个基础标签,N为大于或等于1,且小于或等于M的整数。
本实施例中,标签分类装置在获取到关联文本信息后,当关联文本信息中包括一个文本信息时,则通过实体识别模型获取一个文本信息所对应的待选基础标签集合,并且待选基础标签集合包括M个待选基础标签,待选基础标签包括至少一个词语,然后可以根据所获取的待选基础标签集合中待选基础标签与对象文本信息之间的相关度,从M个待选基础标签中确定目标对象所对应的基础标签集合,并且基础标签集合中包括N个基础标签,其中M为大于或等于1的整数,N为大于或等于1,且小于或等于M的整数。
在一个示例中,以关联文本信息为“岚山庭”的公众号文本信息为示例进行说明,在“岚山庭”的公众号中仅有一篇文章,因此关联文本信息中仅包括一个文本信息,然后需要通过实体识别模型获取“岚山庭”的公众号文本信息中对应的至少一个待选基础标签,至少一个待选基础标签可以组成待选基础标签集合。具体地,本实施例中实体识别模型可以为自动命名实体识别(Auto Named Entity Recognition,AutoNER)模型,基于AutoNER模型的训练过程无需进行人工标注,而是通过匹配已有词典的形式实现自动标注,例如“我想买个裙子”中“裙子”这个词语匹配到该词典,从而确定“裙子”属于购物意图,即对该文本标记为1。反之,如果词典中未能匹配到“裙子”这个词语,则可以标记为0,即表示“未知(unknown)”,由此实现自动标注的过程,从而提升待选基础标签的获取效率。
在获取到待选基础标签集合后,需要计算待选基础标签集合中待选基础标签与对象文本信息之间的相关度,也就是判断对象文本信息和待选基础标签是不是相关的,比如“农耕记湖南土菜”与“湘菜”之间就是相关的,而“农耕记湖南土菜”与“江浙菜”就是不相关的。本实施例中相关度的计算可以通过两种方式,已在前述实施例中进行说明,在此不再赘述。可以根据待选基础标签合集,选取前N个相关度最大的待选基础标签作为基础标签,或者选取相关度最大的待选基础标签作为基础标签,在另一种实施例中,根据前述方法获取的相关度,可以从前述待选基础标签中确定目标对象所对应的基础标签集合。
本申请实施例中,提供了另一种基础标签集合获取的方法,通过上述方式,通过实体识别模型确定待选基础标签,另外还根据相关度确定基础标签集合,由此提升基础标签集合的准确度以及获取效率。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,根据对象文本信息以及基础标签集合,确定至少一个概念标签分布,可以包括:
根据对象文本信息确定目标对象所对应的第一概念标签分布;
根据对象文本信息确定目标对象所对应的第二概念标签分布;
根据对象文本信息以及基础标签集合,确定目标对象所对应的第三概念标签分布。
本实施例中,标签分类装置可以根据对象文本信息确定目标对象所对应的第一概念标签分布,以及第二概念标签分布,还可以根据对象文本信息以及基础标签集合,确定目标对象所对应的第三概念标签分布。应理解,在实际情况下,可以仅采用第三概念标签分布作为目标概念标签分布,但该目标概念标签分布的效果较差。可选地,目标概念标签分布也可以基于第一概念标签分布与第三概念标签分布得到,可选地,目标概念标签分布还可以基于第二概念标签分布与第三概念标签分布得到,可选地,目标概念标签分布还可以基于第一概念标签分布、第二概念标签分布以及第三概念标签分布得到。由于第一概念标签分布、第二概念标签分布以及第三概念标签分布所覆盖的概念标签最为全面,因此,得到的目标概念标签分布准确度最高。而在实际应用中,目标概念标签分布采用前述何种方法计算得到。在此不做限定。
具体地,第一概念标签分布为基于片段知识匹配确定的,以对象文本信息为“肯德基甜品站”作为示例进行说明,首先获取品牌信息(肯德基)以及对象信息(肯德基甜品站),(甜品站)作为候选文本片段,组成候选文本片段集合,然后可以采用包含候选文本片段集合的所有对象的平均概念分布作为第一概念标签分布。其次,第二概念标签分布为基于垂类网站映射确定的,以对象文本信息为“肯德基甜品站(壹海城店)”,且“肯德基甜品站”所对应的概念标签为“蛋糕甜品”作为示例进行说明,在其他网站上存在类似的对象文本信息“肯德基甜品站(龙城万科里店)”,并且所对应的概念标签为“奶茶甜品”,由于对象名不一致并且概念标签体系不完全一致,可以进行对象名映射以及概念标签体系映射,并且统计其平均概念标签分布,而平均概念标签分布则为第二概念标签分布。另外,而将对象文本信息以及基础标签集合作为Bert多标签分类模型的输入,则第三概念标签分布为基于多标签分类确定的,即可通过Bert多标签分类模型获取第三概念标签分布。
本申请实施例中,提供一种概念标签分布确定的方式,可以通过文本信息,或者文本信息以及基础标签集合,确定第一至第三概念标签分布,从而进一步地确定概念标签分布。通过上述方式,可以通过不同的方式途径确定概念标签分布,提升概念标签的全面性,从而提升概念标签分布的准确性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,根据对象文本信息确定目标对象所对应的第一概念标签分布,可以包括:
根据对象文本信息获取至少一个文本片段,其中,文本片段属于候选文本片段集合中的候选文本片段;
获取至少一个文本片段中每个文本片段所对应的权重值;
根据每个文本片段所对应的权重值以及每个文本片段所对应的预设概念标签分布,计算得到目标对象所对应的第一概念标签分布。
本实施例中,标签分类装置可以根据对象文本信息获取至少一个文本片段,并且该文本片段属于候选文本片段集合中的候选文本片段,然后获取至少一个文本片段中每个文本片段所对应的权重值,最后根据每个文本片段所对应的权重值以及每个文本片段所对应的预设概念标签分布,计算得到第一概念标签分布。具体地,请参阅图5,图5为本申请实施例中在线片段知识匹配的一个实施例示意图,如图所示,首先对象文本信息获取包括对象或者公司信息的文本片段,然后通过步骤B1获取每个文本片段所对应的权重值,并且根据该权重值进行在线片段知识匹配计算,进而通过步骤B2根据计算结果得到第一概念标签分布。而根据每个文本片段所对应的权重值以及每个文本片段所对应的预设概念标签分布,可以通过下式进行在线片段知识匹配计算:
Figure BDA0002324329870000141
其中,frag表示文本片段,merchant表示对象文本信息,wfrag表示文本片段对应的权重值,score(cate\frag)表示文本片段所对应的预设概念标签分布。
为了便于理解,以对象文本信息为“肯德基甜品站”为示例进行说明,候选文本片段集合包括“肯德基甜品站”,“肯德基”以及“甜品站”,然后可以从其中获取两个文本片段“肯德基”以及“甜品站”,然后获取文本片段“肯德基”以及“甜品站”对应的权重值,假设“肯德基”的权重值为0.1,“甜品站”的权重值为0.5,并且文本片段“肯德基”以及“甜品站”均有所对应的预设概念标签分布,请参阅表3,表3为文本片段对应的预设概念标签分布的一个示例,在实际应用中,文本片段可以对应更多的预设概念标签,在此不进行穷举。
表3
文本片段 西式快餐 米粉面 火锅
肯德基 0.7 0.1 0.1
甜品站 0.5 0.2 0.1
通过表3所示预设概念标签分布,可以得到“肯德基”对应的预设概念标签“西式快餐”,“米粉面”以及“火锅”的分布为(0.7,0.1,0.1),“甜品站”对应的预设概念标签“西式快餐”,“米粉面”以及“火锅”的分布为(0.5,0.2,0.1),然后对此进行进一步计算,具体地,由于“肯德基”的权重值为0.1,将该权重值与“肯德基”对应预设概念标签分布相乘,可以得到(0.07,0.01,0.01),而“甜品站”的权重值为0.5,将该权重值与“甜品站”对应预设概念标签分布相乘,可以得到(0.25,0.1,0.05),然后将(0.07,0.01,0.01)与(0.25,0.1,0.05)相加,可以得到(0.32,0.11,0.06)。再对(0.32,0.11,0.06)进行归一化处理,得到第一概念标签分布为(1,0.34,0.18)。表示“肯德基甜品站”对应“西式快餐”的概率为100%,“肯德基甜品站”对应“米粉面”的概率为34%,“肯德基甜品站”对应“火锅”的概率为18%。
本申请实施例中,提供一种第一概念标签分布确定的方法,通过上述方式,根据权重值可以确定文本片段的重要性以及准确度,其次预设概念标签分布也可以提升成概念标签分布的准确度,由此提升所得到的第一概念标签分布的准确度,从而从而提升概率标签归类的准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,标签分类的方法还可以包括:
获取待挖掘文本信息所对应的候选文本片段;
根据候选文本片段获取关联对象文本信息集合,其中,关联对象文本信息集合包括至少一个关联对象文本信息,关联对象文本信息表示与候选文本片段具有关联关系的对象所对应的对象文本信息;
基于关联对象文本信息集合,通过标签分类模型获取每个关联对象文本信息所对应的待处理概念标签分布;
根据每个关联对象文本信息所对应的待处理概念标签分布,计算得到候选文本片段所对应的预设概念标签分布。
本实施例中,标签分类装置可以先获取待挖掘文本信息所对应的候选文本片段,然后根据候选文本片段获取关联对象文本信息集合,并且该关联对象文本信息集合包括至少一个关联对象文本信息,关联对象文本信息可以表示与候选文本片段具有关联关系的对象所对应的对象文本信息,进一步地基于关联对象文本信息集合,通过标签分类模型获取每个关联对象文本信息所对应的待处理概念标签分布,最后可以根据每个关联对象文本信息所对应的待处理概念标签分布,计算得到候选文本片段所对应的预设概念标签分布。
应理解,待挖掘文本信息可以为通过搜索引擎对目标对象进行搜索所得到的文本信息,也可以为各种关于目标对象的相关文章所对应的文本信息,待挖掘文本信息可以通过多种外部数据源进行文本信息获取,在此不做限定。具体地,请参阅图6,图6为本申请实施例中离线片段知识匹配的一个实施例示意图,如图所示,首先获取头部特征词、头部品牌以及头部对象作为候选文本片段,根据候选文本片段通过步骤C1获取关联对象文本信息集合,然后基于关联对象文本信息集合,通过步骤C2将关联对象文本信息集合作为标签分类模型的输入,每个关联对象文本信息所对应的待处理概念标签分布作为标签分类模型的输出,当待处理概念标签分布出现错误分布时,则可以通过步骤C3采用知识(百科)或人工的方法进行验证以及修正,步骤C4即可根据修正后的待处理概念标签分布,计算得到候选文本片段所对应的预设概念标签分布,并且通过步骤可以将预设概念标签分布反馈至候选文本片段中,进行后续进一步地的模型训练,以获取更为准确的概念标签分布。
以“俏凤凰苗家米粉”作为示例,则可以分别挖掘头部特征词(酸汤粉)、头部品牌(俏凤凰)以及头部对象(俏凤凰苗家米粉)作为候选文本片段,本实施例中所述挖掘表示统计,而头部特征词能代表对象属于某一个行业,例如“奈雪之茶”是个头部特征词,那么包含“奈雪之茶”的对象就能判断其属于果汁奶茶概率大,该头部特征词就是统计对象名出现比较多的片段,因此对于头部特征词的挖掘为一定出现次数的片段,那么头部特征词即可以为候选文本片段。
为了便于理解,以待挖掘文本信息为“肯德基甜品站”对应的各种公众号文本信息为示例进行说明,其中“肯德基”的出现次数较多,因此候选文本片段可以为“肯德基”,然后以候选文本片段“肯德基”获取具有关联关系的对象所对应的对象文本信息,例如“肯德基前海店”,“肯德基中心城店”以及“肯德基金光华店”,而“肯德基前海店”,“肯德基中心城店”以及“肯德基金光华店”即为关联对象文本信息,然后可以获取到由多个关联对象文本信息组成的关联对象文本信息集合,进而通过标签分类模型获取“肯德基前海店”,“肯德基中心城店”以及“肯德基金光华店”所对应的待处理概念标签分布。请参阅表4,表4为3个关联对象文本信息所对应的待处理概念标签分布一个示例,在实际应用中,关联对象文本信息可以对应更多的预设概念标签,在此不进行穷举。
表4
关联对象文本信息 西式快餐 米粉面 火锅
肯德基前海店 0.4 0.1 0.1
肯德基中心城店 0.1 0.1 0.1
肯德基金光华店 0.1 0.7 0.1
由此可见,表4所示的3个关联对象文本信息所对应的待处理概念标签分布中可以看到,“肯德基”所对应的待处理概念标签“西式快餐”,“米粉面”以及“火锅”的分布为(0.2,0.3,0.1),与实际不符,因此需要采用知识或人工的方法进行验证以及修正,请参阅表5,表5为修正后的待处理概念标签分布一个示例。
表5
关联对象文本信息 西式快餐 米粉面 火锅
肯德基 0.7 0.1 0.1
通过表5所示的候选文本片段所对应的待处理概念标签分布,可以候选文本片段“肯德基”所对应的预设概念标签分布为(0.7,0.1,0.1)。
本申请实施例中,提供一种得到预设概念标签分布的方法,根据待挖掘文本信息所对应的候选文本片段获取关联对象文本信息集合,并且基于关联对象文本信息集合,通过标签分类模型获取每个关联对象文本信息所对应的待处理概念标签分布,再根据每个关联对象文本信息所对应的待处理概念标签分布,计算得到候选文本片段所对应的预设概念标签分布。通过上述方式,由于对象文本信息集合包括的对象文本信息,而该对象文本信息可以表示与候选文本片段具有关联关系的对象所对应的对象文本信息,因此可以增加与对象相关的信息量,从而提升概率标签归类的准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,根据对象文本信息确定目标对象所对应的第二概念标签分布,可以包括:
根据对象文本信息,从第五外部数据源中获取相似对象文本信息集合,其中,相似对象文本信息集合包括至少一个相似对象文本信息,相似对象文本信息与对象文本信息具有映射关系;
针对相似对象文本信息集合中的每个相似对象文本信息,获取相似对象文本信息中每个文本片段所对应的权重值;
针对相似对象文本信息集合中的每个相似对象文本信息,根据相似对象文本信息中每个文本片段所对应的权重值以及每个文本片段所对应的预设概念标签分布,计算得到第四概念标签分布;
根据每个相似对象文本信息所对应的第四概念标签分布,计算得到平均概念标签分布;
获取对象文本信息中每个文本片段所对应的权重值;
根据对象文本信息中每个文本片段所对应的权重值、预设概念标签分布以及平均概念标签分布,计算得到目标对象所对应的第二概念标签分布。
本实施例中,标签分类装置可以根据所获取的对象文本信息,从第五外部数据源中获取相似对象文本信息集合,并且该相似对象文本信息集合包括至少一个相似对象文本信息,相似对象文本信息与对象文本信息具有映射关系,然后针对相似对象文本信息集合中的每个相似对象文本信息,获取相似对象文本信息中每个文本片段所对应的权重值,进而根据相似对象文本信息中每个文本片段所对应的权重值,以及每个文本片段所对应的预设概念标签分布,通过计算得到第四概念标签分布,进一步地,根据每个相似对象文本信息所对应的第四概念标签分布,计算得到平均概念标签分布,然后获取对象文本信息中每个文本片段所对应的权重值,最后根据所获取的对象文本信息中每个文本片段所对应的权重值,预设概念标签分布以及平均概念标签分布,计算得到目标对象所对应的第二概念标签分布。
为了便于理解,以对象文本信息为“肯德基(前海店)”为示例进行说明,请参阅图7,图7为本申请实施例中外部结构化数据映射的一个实施例示意图,如图所示,首先将外部网站对象名的关键词处理成片段“肯德基”,然后根据“肯德基”进行映射,可以获取到相似对象文本信息D11“肯德基(创新店)”,D21“肯德基(岗厦店)”以及D31“肯德基(万象天地店)”,三个相似对象文本信息可以组成相似对象文本信息集合,而D11“肯德基(创新店)”在外部网站上的属于的概念标签为D12“小吃快餐”,D21“肯德基(岗厦店)”在外部网站上的属于的概念标签为D22“小吃快餐”,D31“肯德基(万象天地店)”在外部网站上的属于的概念标签为D32“小吃快餐”,与本申请前述实施例中肯德基所对应的预设概念标签“西式快餐”不一致,因此需要进一步地获取D11,D21以及D31对应的相似对象文本信息所对应的权重值,例如D11“肯德基(创新店)”中“肯德基”的权重值为0.8,“创新店”的权重值为0.1,而“肯德基”的预设概念标签“小吃快餐”,“米粉面”以及“火锅”的分布为(0.9,0.1,0.1),“创新店”的预设概念标签“小吃快餐”,“米粉面”以及“火锅”的分布为(0.1,0.1,0.1)通过与前述通过权重值的类似计算可以得到(0.8,0.1,0.1),因此“肯德基(创新店)”所对应的第四概念标签分布(0.8,0.1,0.1),D21所对应的“肯德基(岗厦店)”以及D31所对应的“肯德基(万象天地店)”可以采用类似的方式进行计算,例如“肯德基(岗厦店)”根据计算所得的第四概念标签分布为(0.75,0.1,0.1),而“肯德基(万象天地店)”根据计算所得的第四概念标签分布为(0.85,0.1,0.1),然后根据三个相似对象文本信息所对应的第四概念标签分布,计算得到平均概念标签分布,即三者所对应的第四概念标签分布相加除以3,可以得到平均概念标签分布(0.8,0.1,0.1),即在外部网站中“肯德基”的概念标签有80%的概率为“小吃快餐”。
进一步地,获取对象文本信息“肯德基(前海店)”中每个文本片段所对应的权重值,例如“肯德基”的权重值为0.8,“前海店”的权重值为0.1,那么根据“肯德基”所对应的预设概念标签“西式快餐”,“米粉面”以及“火锅”的分布(0.7,0.1,0.1),“肯德基”所对应平均概念标签“小吃快餐”,“米粉面”以及“火锅”的分布(0.8,0.1,0.1),以及肯德基的权重值0.8,可以将平均概念标签分布作为获取到第二概念标签分布,即第二概念标签分布为“小吃快餐”,“米粉面”以及“火锅”的分布(0.8,0.1,0.1)。
本申请实施例中,提供一种第二概念标签分布确定的方法,通过上述方式,可以采用多个相似对象文本信息对预设概念标签进行调整,从而提升第二概念标签分布的准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,标签分类的方法还包括:
获取待匹配概念标签;
若待匹配概念标签与第五外部数据源中的概念标签匹配成功,则执行根据对象文本信息,从第五外部数据源中获取相似对象文本信息集合的步骤。
本实施例中,标签分类装置可以先获取待匹配概念标签,然后从第五外部数据源中获取相关的概念标签,然后将待匹配概念标签与第五外部数据源中的概念标签进行匹配,当匹配成功时,则执行前述方法中根据对象文本信息,从第五外部数据源中获取相似对象文本信息集合的步骤。
为了便于理解,以待匹配概念标签为“日韩料理”,而第五外部数据源中的概念标签为“日本料理”和“韩国料理”为示例进行说明,由于“日韩料理”包括有“日本料理”和“韩国料理”,因此可以认为“日韩料理”与“日本料理”和“韩国料理”是匹配的,因此,可以将“日本料理”映射为“日韩料理”,并将“韩国料理”也映射为“日韩料理”,针对“日本料理”和“韩国料理”所对应的概率分布均归于“日韩料理”这个概念标签下进行计算。若以待匹配概念标签为“蛋糕奶茶”,而从第五外部数据源中获取的概念标签为“奶茶甜品”为示例进行说明,虽然“奶茶”为概念标签中的相同项,但是“蛋糕”与“甜品”不属于相同的标签,因此概念标签“蛋糕奶茶”与概念标签“奶茶甜品”不匹配,从而无法对齐的那一部分就不能使用。
本申请实施例中,提供另一种标签分类的方法,通过上述方式,排除了干扰项对获取相似对象文本信息集合的影响,进而降低对概念标签分布准确性的影响,因此可以提升标签分类的准确度。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,根据对象文本信息以及基础标签集合,确定目标对象所对应的第三概念标签分布,可以包括:
根据对象文本信息以及基础标签集合生成字嵌入向量、分段嵌入向量以及位置嵌入向量,其中,对象文本信息包括第一对象信息以及第二对象信息;
根据对象文本信息从对象标签矩阵中获取目标对象标签向量,其中,对象标签矩阵包括至少一个对象标签向量;
根据字嵌入向量、分段嵌入向量、位置嵌入向量以及目标对象标签向量,生成目标输入向量;
基于目标输入向量,通过标签分类模型获取目标对象所对应的第三概念标签分布。
本实施例中,由于对象文本信息可以对应多个基础标签,因此标签分类装置可以根据对象文本信息以及基础标签集合生成字嵌入向量、分段嵌入向量以及位置嵌入向量,并且该对象文本信息包括第一对象信息以及第二对象信息,然后根据对象文本信息从对象标签矩阵中获取目标对象标签向量,该对象标签矩阵包括至少一个对象标签向量,进而根据字嵌入向量、分段嵌入向量、位置嵌入向量以及目标对象标签向量,生成目标输入向量,最后可以基于目标输入向量,通过标签分类模型获取目标对象所对应的第三概念标签分布。
为了便于理解,请参阅图8,图8为本申请实施例中多标签分类模型的一个实施例示意图,如图所示,对象文本信息包括有第一对象信息以及第二对象信息,本实施例中第一对象信息可以为对象名称,而第二对象信息可以对象公司名称,基础标签合集可以包括基础标签1至基础标签N。然而所输入的对象文本信息与基础标签之间的语义是不连贯、断层的,尤其是基础标签合集中的包括有至少一个基础标签,每个基础标签之间语义均不连贯,因此可以把第一对象信息作为一个输入信息(field),第二对象信息作为另一个field,而基础标签1至基础标签N作为N个field,然后再需要在对象文本信息与基础标签对应的field前加入第一标识[CLS]以及第二标识[SEP],加入[SEP]以及[CLS]之后可以生成字嵌入向量,每个field的[CLS]表示当前field的语义信息。
引入区间段嵌入(interval segment embeddings),不同field采用奇偶变换段向量区分,即可生成分段嵌入向量,另外还可以生成位置嵌入向量,然后还可以根据第一对象信息以及第二对象信息从对象标签矩阵中获取目标对象标签向量,进一步地根据字嵌入向量、分段嵌入向量、位置嵌入向量以及目标对象标签向量,生成目标输入向量,即每一个field对应一个目标输入向量,其中第一对象信息以及第二对象信息对应的目标输入向量可以作为标签分类模型中池化层的输入,以合并成相同维度的embedding向量,将该embedding向量作为池化层的输出,而基础标签集合中的field对应的目标输入向量可以作为标签分类模型中注意层的输入,同样也可以生成相同维度的embedding向量,将该embedding向量作为注意层的输出,池化层以及注意层所输出的向量作为标签分类模型中全连接层的输入,然后第三概念标签分布即可作为标签分类模型中全连接层的输出,因此可以得到第三概念标签分布。
本申请实施例中,提供一种第三概念标签分布获取的方法,通过上述方式,可以解决语义断层的问题,根据向量提升信息之间的关联度,从而提升第三概念标签分布的准确性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,还可以包括:
获取第一待训练样本集合,其中,第一待训练样本集合包括至少一个第一待训练样本,第一待训练样本包括第一待训练对象信息、第二待训练对象信息以及待训练基础标签集合,待训练基础标签集合包括至少一个待训练基础标签,第一待训练对象信息对应于第一样本位置,第二待训练对象信息对应于第二样本位置,待训练基础标签集合对应于第三样本位置;
基于第一待训练样本集合,对第一样本位置、第二样本位置以及第三样本位置所对应的信息进行随机排序,得到第二待训练样本集合,其中,第二待训练样本集合包括至少一个第二待训练样本,第二待训练样本包括第一待训练对象信息、第二待训练对象信息以及待训练基础标签集合;
采用第二待训练样本集合对待训练标签分类模型进行训练,得到标签分类模型。
本实施例中,标签分类装置可以获取包括至少一个第一待训练样本的第一待训练样本集合,而该第一待训练样本包括第一待训练对象信息、第二待训练对象信息以及待训练基础标签集合,待训练基础标签集合包括至少一个待训练基础标签,第一待训练对象信息对应于第一样本位置,第二待训练对象信息对应于第二样本位置,待训练基础标签集合对应于第三样本位置,然后对获取的第一待训练样本集合,对第一样本位置、第二样本位置以及第三样本位置所对应的信息进行随机排序,该第二待训练样本集合包括至少一个第二待训练样本,并且该第二待训练样本包括第一待训练对象信息、第二待训练对象信息以及待训练基础标签集合。
应理解,由于通过对象信息可以获取到其概念标签,所以标签分类模型对于对象信息会过于关注,使得依赖基础标签才能正确分类的对象的标签分类错误,为了让标签分类模型不会偏重于输入的第一对象信息和第二对象信息,可以在训练的过程中,对field进行随机排序,对第一待训练样本集合中各样本的位置进行随机排序,生成第二待训练样本集合,然后根据第二待训练样本集合对待训练标签分类模型进行训练,从而得到标签分类模型可以对于输入的对象文本信息将随机选择,以提升标签分类模型的鲁棒性。
此外,由于不同基础标签所对应的对象比例差别很大,例如基础标签“沙拉”所对应的有45个,而基础标签“韩国料理”所对应的有1829个。因此可以采用更适合不平衡样本的灶性损失(focal loss)对待训练标签分类模型进行训练。还可以通过对象的核心成分以及类别提升成多样性,使得同一核心成分的对象(例如肯德基及其分店)不会出现太多次,同时对信息较少的类别(例如沙拉或者素食)补充对应对象。
本申请实施例中,提供一种标签分类模型训练的方法,通过上述方式,提升标签分类模型鲁棒性,从而提升标签分类模型输出结果的稳定性已经准确性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的标签分类的方法一个可选实施例中,标签分类的方法还包括:
获取第三待训练样本集合,其中,第三待训练样本集合包括至少两个第三待训练样本;
根据第三待训练样本集合建立节点关系图,其中,节点关系图包括至少两个节点,节点与第三待训练样本具有对应关系,节点关系图还包括至少一条边,边用于建立节点之间的连接关系;
对节点关系图进行向量化处理,得到对象标签矩阵,其中,对象标签矩阵包括至少一个对象标签向量。
本实施例中,标签分类装置可以根据第三待训练样本集合建立节点关系图,该节点关系图包括至少两个节点,并且节点与第三待训练样本具有对应关系,节点关系图还需要包括至少一条边,边用于建立节点之间的连接关系,最后对节点关系图进行向量化处理,得到包括至少一个对象标签向量的对象标签矩阵。
具体地,在进行标签分类模型训练过程中,单字的字嵌入向量并没有考虑中文词中字之间的关系,所以可能会单字飘移问题,例如,对象“新加坡妈妈烤包”因为“烤”字作为字嵌入向量,从而被误分到概念标签“烧烤”,另一个示例中,对象“柴窝堡玉兰辣子鸡”因为“兰”字作为字嵌入向量,从而被误分到概念标签“清真菜”。因此单字漂移问题,可以引入基于词的掩膜(mask)方式的预训练知识增强的语义表示模型(Enhanced Representationfrom Knowledge Integration,ERNIE)。也可以在对象基础标签网络上通过node2vec图表征学习算法训练得到对象标签向量,并且输入到标签分类模型中。为了便于理解,请参阅图9,图9为本申请实施例中表征学习算法的一个实施例示意图,如图所示,通过表征学习算法可以得到如图9中(A)所示的节点关系图,其中,每个节点对应一个第三待训练样本,第三待训练样本包含但不仅限于“面包新语”、“喜茶”、“一点点”以及“乌龙茶”等。第三待训练样本之间的关联关系如图9中(A)的节点连接关系,基于节点连接关系对节点关系图进行向量化处理,可以得到如图9中(B)所示的对象标签矩阵,对象标签矩阵包括有三个对象标签向量,即“一点点”,“面包新语”以及“喜茶”所对应的对象标签向量。在对目标对象信息进行标签分类模型训练时,可以将对象所获取的对象标签向量作为输入中的一个,可以避免不同方法训练的对象标签向量表示空间不一致的问题。
本申请实施例中,提供一种对象标签矩阵获取的方法,通过上述方式,通过节点关系图获取对象标签向量,可以提升成基础标签的信息量,进而提升成概念标签的准确度,从而提升标签分类的准确度。
下面对本申请中的标签分类装置进行详细描述,请参阅图10,图10为本申请实施例中标签分类装置的一个实施例示意图,标签分类装置200包括:
获取模块201,用于获取目标对象所对应的对象文本信息;
获取模块201,还用于根据获取模块获取到的对象文本信息,从外部数据源集合中获取关联文本信息,其中,外部数据源集合包括至少一类外部数据源;
获取模块201,还用于根据获取模块获取到的关联文本信息获取目标对象所对应的基础标签集合,其中,基础标签集合中包括至少一个基础标签;
确定模块202,用于根据获取模块获取到的对象文本信息以及基础标签集合,确定至少一个概念标签分布;
确定模块202,还用于根据确定模块确定的至少一个概念标签分布,确定目标对象所对应的目标概念标签分布,其中,目标概念标签分布用于表示目标对象对应概念标签的概率。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,
获取模块201,具体用于根据获取模块获取到的对象文本信息,从第一外部数据源、第二外部数据源、第三外部数据源以及第四外部数据源中的至少一类外部数据源中,获取关联文本信息,其中,第一外部数据源为应用点击日志信息,第二外部数据源为公众号文本信息,第三外部数据源为百科搜索结果,第四外部数据源为元搜索结果。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,
获取模块201,具体用于:
若获取模块获取到的关联文本信息中包括至少两个文本信息,则从至少两个文本信息中获取待选基础标签集合,其中,待选基础标签集合包括M个待选基础标签,待选基础标签包括至少一个词语,且待选基础标签满足短语质量条件,M为大于或等于1的整数;
获取待选基础标签集合中待选基础标签与对象文本信息之间的相关度;
根据待选基础标签集合中待选基础标签与对象文本信息之间的相关度,从M个待选基础标签中确定目标对象所对应的基础标签集合,其中,基础标签集合包括N个基础标签,N为大于或等于1,且小于或等于M的整数。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,
获取模块201,具体用于:
若获取模块获取到的关联文本信息中包括一个文本信息,则通过实体识别模型获取一个文本信息所对应的待选基础标签集合,其中,待选基础标签集合包括M个待选基础标签,待选基础标签包括至少一个词语,M为大于或等于1的整数;
获取待选基础标签集合中待选基础标签与对象文本信息之间的相关度;
根据待选基础标签集合中待选基础标签与对象文本信息之间的相关度,从M个待选基础标签中确定目标对象所对应的基础标签集合,其中,基础标签集合包括N个基础标签,N为大于或等于1,且小于或等于M的整数。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,
确定模块202,具体用于:
根据获取模块获取到的对象文本信息确定目标对象所对应的第一概念标签分布;
根据获取模块获取到的对象文本信息确定目标对象所对应的第二概念标签分布;
根据获取模块获取到的对象文本信息以及基础标签集合,确定目标对象所对应的第三概念标签分布。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,
确定模块202,具体用于:
根据获取模块获取到的对象文本信息获取至少一个文本片段,其中,文本片段属于候选文本片段集合中的候选文本片段;
获取至少一个文本片段中每个文本片段所对应的权重值;
根据每个文本片段所对应的权重值以及每个文本片段所对应的预设概念标签分布,计算得到目标对象所对应的第一概念标签分布。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,标签分类装置200还包括计算模块203,
获取模块201,还用于获取待挖掘文本信息所对应的候选文本片段;
获取模块201,还用于根据获取模块获取到的候选文本片段获取关联对象文本信息集合,其中,关联对象文本信息集合包括至少一个关联对象文本信息,关联对象文本信息表示与候选文本片段具有关联关系的对象所对应的对象文本信息;
获取模块201,还用于基于获取模块获取到的关联对象文本信息集合,通过标签分类模型获取每个关联对象文本信息所对应的待处理概念标签分布;
计算模块203,用于根据获取模块获取到的每个关联对象文本信息所对应的待处理概念标签分布,计算得到候选文本片段所对应的预设概念标签分布。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,
确定模块202,具体用于:
根据获取模块获取到的对象文本信息,从第五外部数据源中获取相似对象文本信息集合,其中,相似对象文本信息集合包括至少一个相似对象文本信息,相似对象文本信息与对象文本信息具有映射关系;
针对相似对象文本信息集合中的每个相似对象文本信息,获取相似对象文本信息中每个文本片段所对应的权重值;
针对相似对象文本信息集合中的每个相似对象文本信息,根据相似对象文本信息中每个文本片段所对应的权重值以及每个文本片段所对应的预设概念标签分布,计算得到第四概念标签分布;
根据每个相似对象文本信息所对应的第四概念标签分布,计算得到平均概念标签分布;
获取对象文本信息中每个文本片段所对应的权重值;
根据对象文本信息中每个文本片段所对应的权重值、预设概念标签分布以及平均概念标签分布,计算得到目标对象所对应的第二概念标签分布。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,
获取模块201,还用于获取待匹配概念标签;
获取模块201,还用于若获取模块获取到的待匹配概念标签与第五外部数据源中的概念标签匹配成功,则执行根据对象文本信息,从第五外部数据源中获取相似对象文本信息集合的步骤。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,
确定模块202,具体用于:
根据获取模块获取到的对象文本信息以及基础标签集合生成字嵌入向量、分段嵌入向量以及位置嵌入向量,其中,对象文本信息包括第一对象信息以及第二对象信息;
根据对象文本信息从对象标签矩阵中获取目标对象标签向量,其中,对象标签矩阵包括至少一个对象标签向量;
根据字嵌入向量、分段嵌入向量、位置嵌入向量以及目标对象标签向量,生成目标输入向量;
基于目标输入向量,通过标签分类模型获取目标对象所对应的第三概念标签分布。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,标签分类装置200还包括排序模块204以及训练模块205,
获取模块201,还用于获取第一待训练样本集合,其中,第一待训练样本集合包括至少一个第一待训练样本,第一待训练样本包括第一待训练对象信息、第二待训练对象信息以及待训练基础标签集合,待训练基础标签集合包括至少一个待训练基础标签,第一待训练对象信息对应于第一样本位置,第二待训练对象信息对应于第二样本位置,待训练基础标签集合对应于第三样本位置;
排序模块204,用于基于获取模块获取到的第一待训练样本集合,对第一样本位置、第二样本位置以及第三样本位置所对应的信息进行随机排序,得到第二待训练样本集合,其中,第二待训练样本集合包括至少一个第二待训练样本,第二待训练样本包括第一待训练对象信息、第二待训练对象信息以及待训练基础标签集合;
训练模块205,用于采用排序模块得到的第二待训练样本集合对待训练标签分类模型进行训练,得到标签分类模型。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的标签分类装置200的另一实施例中,标签分类装置200还包括建立模块206以及处理模块207,
获取模块201,还用于获取第三待训练样本集合,其中,第三待训练样本集合包括至少两个第三待训练样本;
建立模块206,用于根据获取模块获取到的第三待训练样本集合建立节点关系图,其中,节点关系图包括至少两个节点,节点与第三待训练样本具有对应关系,节点关系图还包括至少一条边,边用于建立节点之间的连接关系;
处理模块207,用于对建立模块建立的节点关系图进行向量化处理,得到对象标签矩阵,其中,对象标签矩阵包括至少一个对象标签向量。
本申请实施例还提供了另一种标签分类装置,如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以终端为手机为例:
图11示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图11,手机包括:射频(Radio Frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;优选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
手机还包括给各个部件供电的电源1190(比如电池),优选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1180可以执行前述图3所示实施例中的功能,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种标签分类的方法,其特征在于,包括:
获取目标对象所对应的对象文本信息;
根据所述对象文本信息,从外部数据源集合中获取关联文本信息,其中,所述外部数据源集合包括至少一类外部数据源;
根据所述关联文本信息获取所述目标对象所对应的基础标签集合,其中,所述基础标签集合中包括至少一个基础标签;
根据所述对象文本信息获取至少一个文本片段,其中,所述文本片段属于候选文本片段集合中的候选文本片段;
获取所述至少一个文本片段中每个文本片段所对应的权重值;
根据所述每个文本片段所对应的权重值以及所述每个文本片段所对应的预设概念标签分布,计算得到所述目标对象所对应的第一概念标签分布;
根据所述对象文本信息,从第五外部数据源中获取相似对象文本信息集合,其中,所述相似对象文本信息集合包括至少一个相似对象文本信息,所述相似对象文本信息与所述对象文本信息具有映射关系;
针对所述相似对象文本信息集合中的每个相似对象文本信息,获取所述相似对象文本信息中每个文本片段所对应的权重值;
针对所述相似对象文本信息集合中的每个相似对象文本信息,根据所述相似对象文本信息中每个文本片段所对应的权重值以及所述每个文本片段所对应的预设概念标签分布,计算得到第四概念标签分布;
根据所述每个相似对象文本信息所对应的第四概念标签分布,计算得到平均概念标签分布;
获取所述对象文本信息中每个文本片段所对应的权重值;
根据所述对象文本信息中每个文本片段所对应的权重值、预设概念标签分布以及所述平均概念标签分布,计算得到所述目标对象所对应的第二概念标签分布;
根据所述对象文本信息以及所述基础标签集合生成字嵌入向量、分段嵌入向量以及位置嵌入向量,其中,所述对象文本信息包括第一对象信息以及第二对象信息;
根据所述对象文本信息从对象标签矩阵中获取目标对象标签向量,其中,所述对象标签矩阵包括至少一个对象标签向量;
根据所述字嵌入向量、所述分段嵌入向量、所述位置嵌入向量以及所述目标对象标签向量,生成目标输入向量;
基于所述目标输入向量,通过标签分类模型获取所述目标对象所对应的第三概念标签分布;
根据所述至少一个概念标签分布,确定所述目标对象所对应的目标概念标签分布,其中,所述目标概念标签分布用于表示所述目标对象对应概念标签的概率。
2.根据权利要求1所述的方法,其特征在于,所述根据所述对象文本信息,从外部数据源集合中获取关联文本信息,包括:
根据所述对象文本信息,从第一外部数据源、第二外部数据源、第三外部数据源以及第四外部数据源中的至少一类外部数据源中,获取所述关联文本信息,其中,所述第一外部数据源为应用点击日志信息,所述第二外部数据源为公众号文本信息,所述第三外部数据源为百科搜索结果,所述第四外部数据源为元搜索结果。
3.根据权利要求1所述的方法,其特征在于,所述根据所述关联文本信息获取所述目标对象所对应的基础标签集合,包括:
若所述关联文本信息中包括至少两个文本信息,则从所述至少两个文本信息中获取待选基础标签集合,其中,所述待选基础标签集合包括M个待选基础标签,所述待选基础标签包括至少一个词语,且所述待选基础标签满足短语质量条件,所述M为大于或等于1的整数;
获取所述待选基础标签集合中所述待选基础标签与所述对象文本信息之间的相关度;
根据所述待选基础标签集合中所述待选基础标签与所述对象文本信息之间的相关度,从所述M个待选基础标签中确定所述目标对象所对应的所述基础标签集合,其中,所述基础标签集合包括N个基础标签,所述N为大于或等于1,且小于或等于所述M的整数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述关联文本信息获取所述目标对象所对应的基础标签集合,包括:
若所述关联文本信息中包括一个文本信息,则通过实体识别模型获取所述一个文本信息所对应的待选基础标签集合,其中,所述待选基础标签集合包括M个待选基础标签,所述待选基础标签包括至少一个词语,所述M为大于或等于1的整数;
获取所述待选基础标签集合中所述待选基础标签与所述对象文本信息之间的相关度;
根据所述待选基础标签集合中所述待选基础标签与所述对象文本信息之间的相关度,从所述M个待选基础标签中确定所述目标对象所对应的所述基础标签集合,其中,所述基础标签集合包括N个基础标签,所述N为大于或等于1,且小于或等于所述M的整数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待挖掘文本信息所对应的候选文本片段;
根据所述候选文本片段获取关联对象文本信息集合,其中,所述关联对象文本信息集合包括至少一个关联对象文本信息,所述关联对象文本信息表示与所述候选文本片段具有关联关系的对象所对应的对象文本信息;
基于所述关联对象文本信息集合,通过标签分类模型获取每个关联对象文本信息所对应的待处理概念标签分布;
根据所述每个关联对象文本信息所对应的待处理概念标签分布,计算得到所述候选文本片段所对应的预设概念标签分布。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待匹配概念标签;
若所述待匹配概念标签与所述第五外部数据源中的概念标签匹配成功,则执行所述根据所述对象文本信息,从第五外部数据源中获取相似对象文本信息集合的步骤。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一待训练样本集合,其中,所述第一待训练样本集合包括至少一个第一待训练样本,所述第一待训练样本包括第一待训练对象信息、第二待训练对象信息以及待训练基础标签集合,所述待训练基础标签集合包括至少一个待训练基础标签,所述第一待训练对象信息对应于第一样本位置,所述第二待训练对象信息对应于第二样本位置,所述待训练基础标签集合对应于第三样本位置;
基于所述第一待训练样本集合,对所述第一样本位置、所述第二样本位置以及所述第三样本位置所对应的信息进行随机排序,得到第二待训练样本集合,其中,所述第二待训练样本集合包括至少一个第二待训练样本,所述第二待训练样本包括所述第一待训练对象信息、所述第二待训练对象信息以及所述待训练基础标签集合;
采用所述第二待训练样本集合对待训练标签分类模型进行训练,得到所述标签分类模型。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取第三待训练样本集合,其中,所述第三待训练样本集合包括至少两个第三待训练样本;
根据所述第三待训练样本集合建立节点关系图,其中,所述节点关系图包括至少两个节点,所述节点与所述第三待训练样本具有对应关系,所述节点关系图还包括至少一条边,所述边用于建立节点之间的连接关系;
对所述节点关系图进行向量化处理,得到对象标签矩阵,其中,所述对象标签矩阵包括至少一个对象标签向量。
9.一种标签分类装置,其特征在于,包括:
获取模块,用于获取目标对象所对应的对象文本信息;
所述获取模块,还用于根据所述获取模块获取到的所述对象文本信息,从外部数据源集合中获取关联文本信息,其中,所述外部数据源集合包括至少一类外部数据源;
所述获取模块,还用于根据所述获取模块获取到的所述关联文本信息获取所述目标对象所对应的基础标签集合,其中,所述基础标签集合中包括至少一个基础标签;
确定模块,用于根据所述获取模块获取到的所述对象文本信息以及所述基础标签集合,确定至少一个概念标签分布;
所述确定模块,还用于根据所述确定模块确定的所述至少一个概念标签分布,确定所述目标对象所对应的目标概念标签分布,其中,所述目标概念标签分布用于表示所述目标对象对应概念标签的概率;
所述确定模块,具体用于根据所述对象文本信息获取至少一个文本片段,其中,所述文本片段属于候选文本片段集合中的候选文本片段;获取所述至少一个文本片段中每个文本片段所对应的权重值;根据所述每个文本片段所对应的权重值以及所述每个文本片段所对应的预设概念标签分布,计算得到所述目标对象所对应的第一概念标签分布;根据所述对象文本信息,从第五外部数据源中获取相似对象文本信息集合,其中,所述相似对象文本信息集合包括至少一个相似对象文本信息,所述相似对象文本信息与所述对象文本信息具有映射关系;针对所述相似对象文本信息集合中的每个相似对象文本信息,获取所述相似对象文本信息中每个文本片段所对应的权重值;针对所述相似对象文本信息集合中的每个相似对象文本信息,根据所述相似对象文本信息中每个文本片段所对应的权重值以及所述每个文本片段所对应的预设概念标签分布,计算得到第四概念标签分布;根据所述每个相似对象文本信息所对应的第四概念标签分布,计算得到平均概念标签分布;获取所述对象文本信息中每个文本片段所对应的权重值;根据所述对象文本信息中每个文本片段所对应的权重值、预设概念标签分布以及所述平均概念标签分布,计算得到所述目标对象所对应的第二概念标签分布;根据所述对象文本信息以及所述基础标签集合生成字嵌入向量、分段嵌入向量以及位置嵌入向量,其中,所述对象文本信息包括第一对象信息以及第二对象信息;根据所述对象文本信息从对象标签矩阵中获取目标对象标签向量,其中,所述对象标签矩阵包括至少一个对象标签向量;根据所述字嵌入向量、所述分段嵌入向量、所述位置嵌入向量以及所述目标对象标签向量,生成目标输入向量;基于所述目标输入向量,通过标签分类模型获取所述目标对象所对应的第三概念标签分布。
10.一种电子设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如上述权利要求1至8中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
11.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至8中任一项所述的方法。
CN201911310291.3A 2019-12-18 2019-12-18 一种标签分类的方法、相关装置、设备以及存储介质 Active CN111078885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911310291.3A CN111078885B (zh) 2019-12-18 2019-12-18 一种标签分类的方法、相关装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911310291.3A CN111078885B (zh) 2019-12-18 2019-12-18 一种标签分类的方法、相关装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111078885A CN111078885A (zh) 2020-04-28
CN111078885B true CN111078885B (zh) 2023-04-07

Family

ID=70315471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911310291.3A Active CN111078885B (zh) 2019-12-18 2019-12-18 一种标签分类的方法、相关装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111078885B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652315B (zh) * 2020-06-04 2023-06-02 广州虎牙科技有限公司 模型训练、对象分类方法和装置、电子设备及存储介质
CN111797234B (zh) * 2020-06-16 2024-04-30 北京北大软件工程股份有限公司 一种自然语言处理分类模型中多标签分布学习的方法和系统
CN112749313A (zh) * 2020-08-04 2021-05-04 腾讯科技(深圳)有限公司 标签标注方法、装置、计算机设备和存储介质
CN111737476B (zh) * 2020-08-05 2020-11-20 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质及电子设备
CN111949866B (zh) * 2020-08-10 2024-02-02 广州汽车集团股份有限公司 应用推荐处理方法和装置
CN111931061B (zh) * 2020-08-26 2023-03-24 腾讯科技(深圳)有限公司 标签映射方法、装置、计算机设备及存储介质
CN112241454B (zh) * 2020-12-14 2021-02-19 成都数联铭品科技有限公司 一种处理样本倾斜的文本分类方法
CN113204579B (zh) * 2021-04-29 2024-06-07 北京金山数字娱乐科技有限公司 内容关联方法、系统、装置、电子设备及存储介质
CN113076426B (zh) * 2021-06-07 2021-08-13 腾讯科技(深圳)有限公司 多标签文本分类及模型训练方法、装置、设备及存储介质
CN113379270A (zh) * 2021-06-22 2021-09-10 特赞(上海)信息科技有限公司 基于标签的客户需求管理方法、装置及存储介质
CN117708340B (zh) * 2024-02-06 2024-05-24 阿里健康科技(杭州)有限公司 标签文本的确定方法、模型训练及调整方法、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
GB2546368A (en) * 2016-01-15 2017-07-19 Adobe Systems Inc Modelling semantic concepts in an embedding space as distributions
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN108829893A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 确定视频标签的方法、装置、存储介质和终端设备
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN109993216A (zh) * 2019-03-11 2019-07-09 深兰科技(上海)有限公司 一种基于k最近邻knn的文本分类方法及其设备
CN110188272A (zh) * 2019-05-27 2019-08-30 南京大学 一种基于用户背景的社区问答网站标签推荐方法
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
GB2546368A (en) * 2016-01-15 2017-07-19 Adobe Systems Inc Modelling semantic concepts in an embedding space as distributions
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
CN108829893A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 确定视频标签的方法、装置、存储介质和终端设备
CN109993216A (zh) * 2019-03-11 2019-07-09 深兰科技(上海)有限公司 一种基于k最近邻knn的文本分类方法及其设备
CN110188272A (zh) * 2019-05-27 2019-08-30 南京大学 一种基于用户背景的社区问答网站标签推荐方法
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ralitsa Angelova et al..Graph-based text classification: learn from your neighbors.《Proceedings of the 29th annual international ACM SIGIR conference on Redearch and development in information retrieval》.2006,485-492. *
柯楠.多标签分类算法在文本关联挖掘中的应用.《中国优秀硕士学位论文全文数据库 信息科技辑》.2018,(第11期),I138-599. *

Also Published As

Publication number Publication date
CN111078885A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111078885B (zh) 一种标签分类的方法、相关装置、设备以及存储介质
US20190080207A1 (en) Deep neural network visual product recognition system
US20210157869A1 (en) Information sending method, apparatus and system, and computer-readable storage medium
CN108541310B9 (zh) 一种显示候选词的方法、装置及图形用户界面
CN103678335B (zh) 商品标识标签的方法、装置及商品导航的方法
CN111400507B (zh) 实体匹配方法及其装置
WO2020238951A1 (zh) 网络内容处理方法、装置、设备及计算机存储介质
JP2002150071A (ja) 商品検索方法及び装置
JP2013058213A5 (zh)
CN111259281B (zh) 商户标签的确定方法、装置及存储介质
CN108388630A (zh) 一种购物信息推送方法、装置及电子设备
CN109635198A (zh) 在商品展示平台上呈现用户搜索结果的方法、装置、介质及电子设备
CN109242537A (zh) 广告投放方法、装置、计算机设备及存储介质
CN103313248A (zh) 一种识别垃圾信息的方法和装置
CN113330475B (zh) 信息推荐方法、装置、电子设备以及存储介质
CN110750985A (zh) 品牌词识别方法、装置、设备及存储介质
CN110276010A (zh) 一种权重模型训练方法和相关装置
CN107220334A (zh) 商户名称的相似度计算方法、装置及设备
CN106547365A (zh) 商品推荐的方法和装置
CN116796027A (zh) 商品图片标签生成方法及其装置、设备、介质、产品
US20140280098A1 (en) Performing application search based on application gaminess
CN114579896A (zh) 推荐标签的生成方法、展示方法、相应的装置和电子设备
US11941681B2 (en) System, method, and computer program product for determining compatibility between items in images
CN116340383A (zh) 基于查询与结果相关性的搜索方法、装置、介质及设备
Yanai et al. Real-time photo mining from the twitter stream: event photo discovery and food photo detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021744

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant