CN106874279A - 生成应用类别标签的方法及装置 - Google Patents

生成应用类别标签的方法及装置 Download PDF

Info

Publication number
CN106874279A
CN106874279A CN201510919075.4A CN201510919075A CN106874279A CN 106874279 A CN106874279 A CN 106874279A CN 201510919075 A CN201510919075 A CN 201510919075A CN 106874279 A CN106874279 A CN 106874279A
Authority
CN
China
Prior art keywords
application
class label
information
label
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510919075.4A
Other languages
English (en)
Other versions
CN106874279B (zh
Inventor
曹训
黄泽谦
卓居超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510919075.4A priority Critical patent/CN106874279B/zh
Publication of CN106874279A publication Critical patent/CN106874279A/zh
Application granted granted Critical
Publication of CN106874279B publication Critical patent/CN106874279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种生成应用类别标签的方法,包括:获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息;获取第一应用数据源或第二应用数据源的应用信息;将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。上述方法为目标应用生成的类型标签可使得在查找应用时的结果更加准确。

Description

生成应用类别标签的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种生成应用类别标签的方法及装置。
背景技术
应用平台上为了方便用户浏览和下载应用,通常为应用平台上的每个注册的应用设置类型标签。而在传统技术中,应用平台上为了规范发布的应用的类型,通常自定义了一套应用类型分类树,在应用平台上注册的应用必须选择应用类型分类树定义的类型标签作为该应用的标签。而应用的类型往往五花八门,应用平台上定义的应用类型分类树并不能很好地体现应用的不同,往往属于同一类别标签的应用其实类型并不一样。
在传统技术的另一种实现方式中,应用平台将为应用设置标签的权利下放给了在应用平台上注册应用的第三方开发者,由第三方开发者在注册时,自行填写注册的应用的类别标签,这就使得同一类型的应用可能由于开发者表述方式的不同而贴上了不同的类别标签。
综合上述两种生成应用类别标签的方式可看出,传统技术中的应用的类别标签,要么太单一,不能体现不同应用的细微差别要么管理混乱,相同的应用对应不同的类别标签,使得标签失去了甄别的意义。因此,用户再根据标签查找时,或者应用平台在根据应用的类别标签选择应用推荐时,无法准确地查找到最适配的应用,因此,传统技术中生成应用类别标签的方式造成了查找应用不准确的问题。
发明内容
基于此,为解决传统技术中平台预设类别标签和发布者自选类别标签的方式所带来的,类别标签与应用匹配度不足,而导致的后续根据类别标签查找应用不准确的技术问题,特提供了一种生成应用类别标签的方法。
一种生成应用类别标签的方法,包括:
获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;
获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;
将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;
根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;
根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。
在其中一个实施例中,所述将所述第一类别信息和所述第二类别信息整合成第三类别信息的步骤之后还包括:
获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;
建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系;
所述将所述应用描述信息与所述第三类别信息中的类别标签进行匹配的步骤还包括:
查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。
在其中一个实施例中,所述根据所述应用信息提取相应的样本应用标识对应的特征向量的步骤包括:
根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。
在其中一个实施例中,所述根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器的步骤包括:
获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。
在其中一个实施例中,所述根据所述类别标签的个数生成对应数量的分类器的步骤还包括:
将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;
对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;
根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分类器;
结合随机重采样和随机欠采样训练所述第二数量的子分类器。
此外,为解决传统技术中平台预设类别标签和发布者自选类别标签的方式所带来的,类别标签与应用匹配度不足,而导致的后续根据类别标签查找应用不准确的技术问题,特提供了一种生成应用类别标签的装置。
一种生成应用类别标签的装置,包括:
类别信息构建模块,用于获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;
样本应用获取模块,用于获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;
样本应用标注模块,用于将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;
分类器训练模块,用于根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;
目标应用标注模块,用于根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。
在其中一个实施例中,所述类别信息构建模块还用于获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系;
所述样本应用标注模块还用于查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。
在其中一个实施例中,所述分类器训练模块还用于根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。
在其中一个实施例中,所述分类器训练模块还用于获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。
在其中一个实施例中,所述分类器训练模块还用于将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分类器;结合随机重采样和随机欠采样训练所述第二数量的子分类器。
实施本发明实施例,将具有如下有益效果:
采用了上述生成应用类别标签的方法和装置之后,应用平台的类别信息得到了扩展,不仅包含了执行本方法的本地应用平台的开发人员预先定义的类别信息,还整合了由第三方应用平台的应用信息数据源抓取的其他应用平台、搜索记录、其他应用信息发布网站上对应用的类别信息的描述,使得构建的应用平台的类别信息更加全面。并且,先采集样本应用,并对样本应用进行类型标签的样本标注,然后将样本应用的特征向量输入的分类器中进行机器学习训练,然后由训练好的分类器对目标应用进行自动地分类,自动为目标应用标注在扩展后的类别信息下的类型标签,使得为应用平台上的目标应用标注类型标签的操作可自动化完成,且使得为目标应用添加的类型标签与目标应用更加匹配,从而在根据类别标签查找应用时,查找结果更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中一种生成应用类别标签的方法的流程图;
图2为一个实施例中为样本应用标识进行标注过程示意图;
图3为一个实施例中多层类别信息下为样本应用标注的过程示意图;
图4为一个实施例中将主分类器划分为多个子分类器进行机器学习分类的示意图;
图5为一个实施例中一种生成应用类别标签的装置的示意图;
图6为一个实施例中运行前述生成应用类别标签的方法的计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决传统技术中平台预设类别标签和发布者自选类别标签的方式所带来的,类别标签与应用匹配度不足,而导致的后续根据类别标签查找应用不准确的技术问题,在一个实施例中,特提供了一种生成应用类别标签的方法,该方法的实现可依赖于计算机程序,该计算机程序可运行于基于冯诺依曼体系的计算机系统之上,该计算机系统可以是运行应用市场、在线游戏市场、应用管理平台等可对大量应用进行管理的服务器程序的服务器设备。
在本实施例中,该方法需要先创建分类叫细化的包含较多类型标签的类别信息,该类别信息结合了由执行本方法的应用平台预先设定的第一类别信息,以及由第三方网站的应用信息、其他应用平台预设的类别信息等构成的第二类别信息的第三类别信息。然后选取部分应用作为样本,先对样本进行类型标签的标注,然后将作为样本的应用的相关信息,例如应用描述信息、应用对应的用户属性特征信息等信息投入预设的分类器进行机器学习训练,得到训练之后的分类器。后续对于应用平台上的其他应用,即可将其他应用的应用信息投入该训练好的分类器中,即可为每个应用自动添加类型标签。
具体的,如图1所示,一种生成应用类别标签的方法,包括:
步骤S102:获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息。
如前所述,在本实施例中,所述第一应用数据源包括本地应用平台的数据源,本地应用平台为执行本方法的应用平台,第一类别信息即为执行本方法的应用平台预先设定的应用的分类信息。该分类信息可以包含多个层级,例如,在一个应用市场中,执行本方法的应用平台的开发者或运营者可预先设定第一层分类,包括:游戏、音乐、视频等类型标签。设定“游戏”的第二层分类,包括:体育、动作、角色扮演等类型标签。设定体育的第三层分类,包括:足球、篮球、棒球等类型标签。
第二应用数据源包括第三方应用平台的数据源,第二类别信息即为执行本方法的应用平台在第三方应用平台提供的数据源(例如网页访问接口,数据库接口,应用程序访问接口等数据源,其中存储着非本应用平台自身的应用分类数据)抓取的类别信息。可以由第一应用数据源或第二应用数据源抓取到各个应用平台(执行本方法的应用平台或第三方应用平台)的分类信息、搜索记录、应用发布者添加的应用描述信息等。
例如,可抓取其他应用市场各自对游戏app的分类,或者,抓取专业的游戏站点,因为游戏站点更为专业,因此其对游戏app的分类与应用市场相比,更精细,数据质量相对较高。
再例如,搜索是描述用户需求的重要途径,用户有寻找某一类别游戏的需求,因此这种需求会通过在应用市场中的搜索关键词体现出来。可以通过挖掘用户在执行本方法的应用平台上的搜索记录得到搜索关键词,然后将部分搜索关键词整合后作为类别表现。
再例如,应用的发布者在对应用进行描述时,会在应用描述信息中添加相应的应用类别的说明。例如游戏“开心消消乐”,发布者会在游戏的描述信息中添加“这是一款消除类的益智游戏”等信息。可通过抓取该描述信息提取类型标签。
通过上述应用信息数据源,再结合执行本方法的应用平台预设的第一类型信息,则可获得了一个较为丰富的类型标签的集合,即包含多个类型标签的第三类别信息。例如,若执行本方法的应用平台中的预设的类型标签为“体育”,而没有对类型“体育”进行进一步的分类,而在其他应用市场中,在“体育”标签下还分类有“足球”、“篮球”、“棒球”、“桌球”,则在整合得到的第三类型信息中加入“足球”、“篮球”、“棒球”、“桌球”的类型标签。然后通过语义分析过滤掉部分语义相似、表述不统一的情况,则可构建一个有层次结构丰富的应用分类体系,即第三类别信息。
步骤S104:获取第一应用数据源或第二应用数据源的的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息。
步骤S106:将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为样本应用标识标注第三类别信息中的类别标签。
步骤S104至步骤S106即为对作为训练样本的应用进行类型标签的样本标注的过程。如前所述,第一应用数据源和第二应用数据源可以包括本地应用平台和第三方应用平台的分类信息、搜索记录、应用发布者添加的应用描述信息等。对样本应用进行类型标签的样本标注,即为建立样本应用标识与前述构建的第三类别信息中的类型标签之间的映射关系,且该映射关系为1对1或者1对多的关系(是否为1对1或1对多取决于该应用实际对应的类型标签的个数)。
参考图2所示,可以采用多种方式为样本应用标识添加第三类别信息中的类型标签。
首先,对于本地应用平台中已有的应用信息,可根据本地应用平台为其添加的类型标签在第三类别信息中查找对应的类型标签进行映射,从而完成标注。也可以本地应用平台上的搜索记录中得到样本类型标识与搜索关键字的映射,然后再第三类别信息中查找与搜索关键字对应的类型标签,从而通过搜索关键字建立样本类型标识与第三类别信息中的类型标签的映射,完成对样本应用标识的标注(即图2中的原始关联的方式)。
对于第三方应用平台抓取的样本应用,可通过应用标识建立抓取的样本应用与第三类别信息中的类型标签的映射关系。在本实施例中,可以将样本应用的包名作为样本应用标识,若样本应用的包名无法获取,例如第三方游戏网站中没有公布应用的包名,则也可以根据应用名称、应用安装信息、应用发布者信息生成样本应用标识(结合了应用名称、应用安装信息、应用发布者信息的字符串)。
在对作为训练样本的应用进行类型标签的样本标注的过程中,可通过抓取信息元数据自动为样本应用添加标注,建立样本应用标识与第三类别信息中的类别标签的映射关系。例如,可通过获取站内搜索记录中搜索关键词与样本应用标识的映射关系,其他应用平台上应用与类型标签的映射关系,其他网站上对于应用的描述信息中匹配的类型标签与描述信息对应的样本应用标识的映射关系,以及通过元搜索补充得到的元搜索关键词对应的类型标签与元搜索的结果中包含的样本应用标识的映射关系。在本实施例中,基于上述映射关系,可利用多数据源交叉验证投票、类别互斥关系、数据源置信度等多种策略为样本应用标识进行类型标签的样本标注。
元搜补充是指用类别标签拼上一定的模板,拼接成搜索关键字。例如,将类别标签“跑酷”拼接为“跑酷类游戏”,然后通过元搜索到多个其他应用市场进行检索,从而根据检索结果建立起类型标签到与元搜索到的应用的关联(即图2中的应用标识映射)。
进一步的,将所述第一类别信息和所述第二类别信息整合成第三类别信息的步骤之后还可获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系(即图2中的类别映射)。
例如,若执行本方法的应用平台中的预设的类型标签为“冒险”,而抓取的其他应用平台的类型标签包括“探险”、“advanture”,生成的第三类别信息中的类型标签设置为“冒险”,则建立“冒险”与同义类型标签“探险”和“advanture”的映射。
再例如,若执行本方法的应用平台中的预设的类型标签为“桌球”,而抓取的其他应用平台的类型标签包括“台球”、“斯诺克”,生成的第三类别信息中的类型标签设置为“桌球”,则建立“桌球”与同义类型标签“台球”、“斯诺克”的映射。
而在本实施例中,将应用描述信息与所述第三类别信息中的类别标签进行匹配的步骤则包括:
查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。
例如,若在其他应用平台抓取到的某个样本应用标识的应用描述信息中包含“台球”,则根据前述建立的第三类别信息中的类型标签与同义类型标签的映射查找得到同义类型标签“台球”对应第三类别信息中的类型标签“桌球”,可为该样本应用标识添加类型标签的标注为“桌球”。从而可准确地自动地为样本应用进行标注,而不用通过人工标注耗费时间地进行样本标注。
需要说明的是,对于具有多个层级的第三类别信息,同一个样本应用标识可对应多个层级下的某个类型标签。参考图3所示,经前述的查找过程可得到“投篮高手”应用的描述信息中包含有“篮球”关键字,因此可与类型标签“篮球”建立映射关系,即可被标注为“篮球”标签。而“篮球”标签在第三类别信息中具有两个上层类型标签,分别为“球类”和“体育”,因此,在对样本应用“投篮高手”进行标注时,可将“篮球”、“球类”和“体育”均标注在“投篮高手”上。从而可使得样本应用标识的标注更加全面,提高准确度。
步骤S108:根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识的类别标签和对应的特征向量训练分类器。
步骤S110:根据所述训练的分类器为目标应用标识生成应用类别标签。
在本实施例中,可根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。
如表1所示,表1展示了一个实施例中用于进行机器学习训练分类器的样本应用的应用信息的特征向量的种类和数量。
表1
特征 维度 说明
应用属性向量 13 安装包大小/下载量/更新时间等
用户属性分布特征 18 下载用户群属性分布
LDA向量 160 每维为对应主题下的概率
文档doc2vec向量 100 利用doc2vec生成对应文档的100维向量
关键词匹配向量 3000 选取的3000个关键term
其中,应用属性向量包含了安装包大小、下载量、更新时间、开发商等与应用自身属性的信息。选择应用属性向量作为特征向量的依据为,在某一方面具有共性的应用通常应用属性具有一定的相似性。例如,一个开发“塔防”类游戏的开发商通常开发有多款“塔防”类的游戏。且相同类型的应用通常安装包的大小相似,不会出现一个游戏几十mb的大小而另一个同一类的游戏却几百兆大小的情况。
用户属性分布特征即为应用信息中包含的与下载该应用的用户的属性先关的信息。例如,用户属性可包括下载用户的年龄段等信息,相同年龄的用户在游戏应用的喜好上具有一定的一致性。或者用户属性可包括下载用户的性别信息,女性喜好的游戏通常与男性喜好的游戏不同。
文档主题生成模型LDA(Latent Dirichlet Allocation)向量则为通过LDA算法对样本应用的应用描述信息进行分析后得到的特征向量。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,将每一个应用描述信息视为一个词频向量,从而将应用描述信息中的文本信息转化为了易于建模的数字信息。每一个应用描述信息代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。通过LDA算法,即可得到预设个数的文档主题以及在应用描述信息与每个文档主题对应的概率。也就是说,可将应用描述信息按照LDA的方式进行聚类,生成聚类的个数即为预设的LDA类型的特征向量的个数(如表1中的160),然后将每个聚类对应的文档主题及其概率作为特征向量。
文档doc2vec向量(文档深度表示模型)则为通过doc2vec算法对样本应用的应用描述信息进行分析后得到的特征向量。doc2vec把对应用描述信息中的文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。即doc2vec将应用描述信息与其中的单词产生映射的概率。也就是说,可将应用描述信息按照doc2vec的方式进行聚类,生成聚类的个数即为预设的doc2vec类型的特征向量的个数(如表1中的100),然后将每个聚类对应的单词及其概率作为特征向量。
关键词匹配向量即为应用描述信息中包含的与预设的关键字对应的单词的向量。例如可预先设置N个关键词的集合,然后查找应用描述信息中包含的属于预先设置的N个关键词集合中的关键词,且查找上线为预设的特征向量数M(即表1中的3000个)。然后将查找到的关键词作为特征向量。
对于前述进行了样本标注的每个样本应用标识,可按照上述方式提取每个样本应用标识对应的特征向量,然后将其输入预设的分类器,即可对分类器进行训练。
在本实施例中,在使用分类器进行分类时,需要将一个特定的目标应用分类到多个类别中,即可根据目标应用的应用信息为目标应用添加一个或一个以上的类别标签。传统技术中,常见的做法是把多分类问题转换为二分类问题,具体有两种转换方法:1VR(one-versus-rest)和1V1(one-versus-one),1V1模式是在任两个类别间设计一个二分类器,这样需要N*N*(N-1)/2个二分类器,当对一个用例预测时,进行投票,其中N为类型标签的个数。
而在第三类别信息中的类型标签较多时,采用1V1模式,需要N*N*(N-1)/2个二分类器器,模型的训练将很耗时间和资源,预测时这些模型也需要跑一遍,速度慢。因此在本实施例中,选用了1VR模式,而对于每个具体的二分类器,采用了GBRT模型实现。
也就是说,根据所述样本应用标识的类别标签和对应的特征向量训练分类器的步骤包括:获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。也就是说,选择1VR模式,可只使用N个二分类器,因此,在本实施例中,选择1VR模式设置分类器,从而可加快训练速度。
进一步的,根据所述类别标签的个数生成对应数量的分类器的步骤还包括:
将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分类器;结合随机重采样和随机欠采样训练所述第二数量的子分类器。
正样本数即为在二分类器中投票选中符合类型标签的样本的个数,负样本数即为在二分类器中投票选中不符合类型标签的样本的个数(即为正样本在样本应用个数的补集中元素的个数)。如前所述,如图4所示,在1VR模式中,设置了N个主分类器,即图4中的C1(1VR)至Cn(1VR),每个主分类器对应一个第三类别信息中的类型标签,则根据特征向量进行投票后,符合某个类型标签的样本应用的个数即为该类型标签对应的主分类器的正样本数,不符合该类型标签的样本应用的个数即为该类型标签对应的主分类器的负样本数。
而对于分类器的训练,在某个主分类器的训练过程中,可全部选择某个类型标签对应的正样本,而随机选取该类型标签的等量的负样本,则由于负样本数可能比正样本数数量超出较多,而造成模型泛化能力严重不足。
例如,对于具有层级结构的类别信息而言,较低层级的类型标签(例如一级类型标签“游戏”下的二级类型标签“体育”下的三级类型标签“足球”)的正样本数目偏少,而负样本数量很大,因此,根据Bagging的思想,可对某个类型标签对应的主分类器下的正负样本进行多次随机采样,按照正样本数和负样本数的比例设置多个子分类器。即可结合随机重采样(random oversampling)和随机欠采样(random undersampling),重复多次采样,按照正样本数和负样本数的比例设置多个子分类器。如图4所示,主分类器C2(1VR)由多个子分类器C2_A、C2_B、…C2_K组成,子分类器C2_A、C2_B、…C2_K实现主分类器C2(1VR)的功能,其中子分类器的个数与正样本数与负样本数的比值对应。对于输入的目标应用,则可结合该多个子分类器组合投票来决定最终的类型标签。
为解决传统技术中平台预设类别标签和发布者自选类别标签的方式所带来的,类别标签与应用匹配度不足,而导致的后续根据类别标签查找应用不准确的技术问题,在一个实施例中,特提供了一种生成应用类别标签的装置,如图2所示,该装置包括类别信息构建模块102、样本应用获取模块104、样本应用标注模块106、分类器训练模块108以及目标应用标注模块110,其中:
类别信息构建模块102,用于获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;
样本应用获取模块104,用于获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;
样本应用标注模块106,用于将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;
分类器训练模块108,用于根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;
目标应用标注模块110,用于根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。
在一个实施例中,类别信息构建模块102还用于获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系。
在该实施例中,样本应用标注模块106还用于查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。
在一个实施例中,分类器训练模块108还用于根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。
在一个实施例中,分类器训练模块108还用于获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。
在一个实施例中,分类器训练模块108还用于将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分类器;结合随机重采样和随机欠采样训练所述第二数量的子分类器。
实施本发明实施例,将具有如下有益效果:
采用了上述生成应用类别标签的方法和装置之后,应用平台的类别信息得到了扩展,不仅包含了执行本方法的本地应用平台的开发人员预先定义的类别信息,还整合了由第三方应用平台的应用信息数据源抓取的其他应用平台、搜索记录、其他应用信息发布网站上对应用的类别信息的描述,使得构建的应用平台的类别信息更加全面。并且,先采集样本应用,并对样本应用进行类型标签的样本标注,然后将样本应用的特征向量输入的分类器中进行机器学习训练,然后由训练好的分类器对目标应用进行自动地分类,自动为目标应用标注在扩展后的类别信息下的类型标签,使得为应用平台上的目标应用标注类型标签的操作可自动化完成,且使得为目标应用添加的类型标签与目标应用更加匹配,从而在根据类别标签查找应用时,查找结果更加准确。
在一个实施例中,如图6所示,图6展示了一种运行上述生成应用类别标签的方法的基于冯诺依曼体系的计算机系统的终端10。该计算机系统可以是智能手机、平板电脑、掌上电脑,笔记本电脑或个人电脑等终端设备。具体的,可包括通过系统总线连接的外部输入接口1001、处理器1002、存储器1003和输出接口1004。其中,外部输入接口1001可选的可至少包括网络接口10012。存储器1003可包括外存储器10032(例如硬盘、光盘或软盘等)和内存储器10034。输出接口1004可至少包括显示屏10042等设备。
在本实施例中,本方法的运行基于计算机程序,该计算机程序的程序文件存储于前述基于冯诺依曼体系的计算机系统10的外存储器10032中,在运行时被加载到内存储器10034中,然后被编译为机器码之后传递至处理器1002中执行,从而使得基于冯诺依曼体系的计算机系统10中形成逻辑上的类别信息构建模块102、样本应用获取模块104、样本应用标注模块106、分类器训练模块108以及目标应用标注模块110。且在上述生成应用类别标签的方法执行过程中,输入的参数均通过外部输入接口1001接收,并传递至存储器1003中缓存,然后输入到处理器1002中进行处理,处理的结果数据或缓存于存储器1003中进行后续地处理,或被传递至输出接口1004进行输出。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种生成应用类别标签的方法,其特征在于,包括:
获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;
获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;
将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;
根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;
根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。
2.根据权利要求1所述的生成应用类别标签的方法,其特征在于,所述将所述第一类别信息和所述第二类别信息整合成第三类别信息的步骤之后还包括:
获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;
建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系;
所述将所述应用描述信息与所述第三类别信息中的类别标签进行匹配的步骤还包括:
查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。
3.根据权利要求1所述的生成应用类别标签的方法,其特征在于,所述根据所述应用信息提取相应的样本应用标识对应的特征向量的步骤包括:
根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。
4.根据权利要求1所述的生成应用类别标签的方法,其特征在于,所述根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器的步骤包括:
获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。
5.根据权利要求4所述的生成应用类别标签的方法,其特征在于,所述根据所述类别标签的个数生成对应数量的分类器的步骤还包括:
将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;
对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;
根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分类器;
结合随机重采样和随机欠采样训练所述第二数量的子分类器。
6.一种生成应用类别标签的装置,其特征在于,包括:
类别信息构建模块,用于获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;
样本应用获取模块,用于获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;
样本应用标注模块,用于将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;
分类器训练模块,用于根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;
目标应用标注模块,用于根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。
7.根据权利要求6所述的生成应用类别标签的装置,其特征在于,所述类别信息构建模块还用于获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系;
所述样本应用标注模块还用于查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。
8.根据权利要求6所述的生成应用类别标签的装置,其特征在于,所述分类器训练模块还用于根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。
9.根据权利要求6所述的生成应用类别标签的装置,其特征在于,所述分类器训练模块还用于获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。
10.根据权利要求9所述的生成应用类别标签的装置,其特征在于,所述分类器训练模块还用于将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分类器;结合随机重采样和随机欠采样训练所述第二数量的子分类器。
CN201510919075.4A 2015-12-11 2015-12-11 生成应用类别标签的方法及装置 Active CN106874279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510919075.4A CN106874279B (zh) 2015-12-11 2015-12-11 生成应用类别标签的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510919075.4A CN106874279B (zh) 2015-12-11 2015-12-11 生成应用类别标签的方法及装置

Publications (2)

Publication Number Publication Date
CN106874279A true CN106874279A (zh) 2017-06-20
CN106874279B CN106874279B (zh) 2021-01-15

Family

ID=59177930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510919075.4A Active CN106874279B (zh) 2015-12-11 2015-12-11 生成应用类别标签的方法及装置

Country Status (1)

Country Link
CN (1) CN106874279B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292365A (zh) * 2017-06-27 2017-10-24 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN107643892A (zh) * 2017-08-18 2018-01-30 北京趣拿软件科技有限公司 接口处理方法、装置、存储介质和处理器
CN107679103A (zh) * 2017-09-08 2018-02-09 口碑(上海)信息技术有限公司 用于实体的属性分析方法及系统
CN108363550A (zh) * 2017-12-28 2018-08-03 中兴智能交通股份有限公司 一种缓存数据更新和存储的方法和装置
CN108399418A (zh) * 2018-01-23 2018-08-14 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN108460131A (zh) * 2018-03-02 2018-08-28 北京奇艺世纪科技有限公司 一种分类标签处理方法及装置
CN108647201A (zh) * 2018-04-04 2018-10-12 卓望数码技术(深圳)有限公司 一种基于移动应用的分类识别方法及系统
CN109522424A (zh) * 2018-10-16 2019-03-26 北京达佳互联信息技术有限公司 数据的处理方法、装置、电子设备及存储介质
CN109726768A (zh) * 2019-01-18 2019-05-07 北京智游网安科技有限公司 应用程序页面文字的行业分类方法、存储介质及终端设备
CN109800808A (zh) * 2019-01-18 2019-05-24 北京智游网安科技有限公司 一种应用程序描述的行业分类方法、存储介质及终端设备
CN109816007A (zh) * 2019-01-18 2019-05-28 北京智游网安科技有限公司 应用程序文字信息的行业分类方法、存储介质及终端设备
CN110069320A (zh) * 2019-04-29 2019-07-30 努比亚技术有限公司 一种应用程序的分类校正方法、终端、系统及存储介质
CN110276411A (zh) * 2019-06-28 2019-09-24 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备
WO2019214133A1 (zh) * 2018-05-08 2019-11-14 华南理工大学 一种大规模客户投诉数据自动分类方法
CN110598070A (zh) * 2019-09-09 2019-12-20 腾讯科技(深圳)有限公司 应用类型识别方法及装置、服务器及存储介质
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN110851624A (zh) * 2018-07-25 2020-02-28 北京搜狗科技发展有限公司 一种信息查询方法及相关装置
CN111177388A (zh) * 2019-12-30 2020-05-19 联想(北京)有限公司 一种处理方法及计算机设备
CN111259918A (zh) * 2018-11-30 2020-06-09 重庆小雨点小额贷款有限公司 一种意图标签的标注方法、装置、服务器及存储介质
CN111967518A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN112085080A (zh) * 2020-08-31 2020-12-15 北京百度网讯科技有限公司 样本均衡方法、装置、设备以及存储介质
CN112214505A (zh) * 2020-10-21 2021-01-12 北京金堤征信服务有限公司 数据同步方法、装置、计算机可读存储介质及电子设备
CN112988699A (zh) * 2019-12-02 2021-06-18 杭州海康威视数字技术股份有限公司 模型训练方法、数据标签的生成方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130963A1 (en) * 2001-07-27 2003-07-10 Vantresa Stickler Shipping shared services-postage indicia
CN101639837A (zh) * 2008-07-29 2010-02-03 日电(中国)有限公司 用于自动分类对象的方法和系统
CN102138151A (zh) * 2007-06-13 2011-07-27 微软公司 将图像分类为广告图像或非广告图像
CN103927394A (zh) * 2014-05-04 2014-07-16 苏州大学 一种基于svm的多标签主动学习分类方法及系统
US20140250032A1 (en) * 2013-03-01 2014-09-04 Xerox Corporation Methods, systems and processor-readable media for simultaneous sentiment analysis and topic classification with multiple labels
CN104133877A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 软件标签的生成方法和装置
CN104899509A (zh) * 2014-03-03 2015-09-09 珠海市君天电子科技有限公司 文件样本属性的确定方法及装置
CN105046274A (zh) * 2015-07-13 2015-11-11 浪潮软件集团有限公司 一种电子商务商品类别自动标注方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130963A1 (en) * 2001-07-27 2003-07-10 Vantresa Stickler Shipping shared services-postage indicia
CN102138151A (zh) * 2007-06-13 2011-07-27 微软公司 将图像分类为广告图像或非广告图像
CN101639837A (zh) * 2008-07-29 2010-02-03 日电(中国)有限公司 用于自动分类对象的方法和系统
US20140250032A1 (en) * 2013-03-01 2014-09-04 Xerox Corporation Methods, systems and processor-readable media for simultaneous sentiment analysis and topic classification with multiple labels
CN104899509A (zh) * 2014-03-03 2015-09-09 珠海市君天电子科技有限公司 文件样本属性的确定方法及装置
CN103927394A (zh) * 2014-05-04 2014-07-16 苏州大学 一种基于svm的多标签主动学习分类方法及系统
CN104133877A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 软件标签的生成方法和装置
CN105046274A (zh) * 2015-07-13 2015-11-11 浪潮软件集团有限公司 一种电子商务商品类别自动标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯骁骋: "APP标签挖掘及应用系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292365B (zh) * 2017-06-27 2021-01-08 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN107292365A (zh) * 2017-06-27 2017-10-24 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质
CN107643892A (zh) * 2017-08-18 2018-01-30 北京趣拿软件科技有限公司 接口处理方法、装置、存储介质和处理器
CN107679103A (zh) * 2017-09-08 2018-02-09 口碑(上海)信息技术有限公司 用于实体的属性分析方法及系统
CN108363550A (zh) * 2017-12-28 2018-08-03 中兴智能交通股份有限公司 一种缓存数据更新和存储的方法和装置
CN108399418A (zh) * 2018-01-23 2018-08-14 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN108399418B (zh) * 2018-01-23 2021-09-03 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN108460131A (zh) * 2018-03-02 2018-08-28 北京奇艺世纪科技有限公司 一种分类标签处理方法及装置
CN108647201A (zh) * 2018-04-04 2018-10-12 卓望数码技术(深圳)有限公司 一种基于移动应用的分类识别方法及系统
WO2019214133A1 (zh) * 2018-05-08 2019-11-14 华南理工大学 一种大规模客户投诉数据自动分类方法
CN110851624A (zh) * 2018-07-25 2020-02-28 北京搜狗科技发展有限公司 一种信息查询方法及相关装置
CN110851624B (zh) * 2018-07-25 2024-08-13 北京搜狗科技发展有限公司 一种信息查询方法及相关装置
CN109522424A (zh) * 2018-10-16 2019-03-26 北京达佳互联信息技术有限公司 数据的处理方法、装置、电子设备及存储介质
CN111259918A (zh) * 2018-11-30 2020-06-09 重庆小雨点小额贷款有限公司 一种意图标签的标注方法、装置、服务器及存储介质
CN111259918B (zh) * 2018-11-30 2023-06-20 重庆小雨点小额贷款有限公司 一种意图标签的标注方法、装置、服务器及存储介质
CN109726768A (zh) * 2019-01-18 2019-05-07 北京智游网安科技有限公司 应用程序页面文字的行业分类方法、存储介质及终端设备
CN109800808A (zh) * 2019-01-18 2019-05-24 北京智游网安科技有限公司 一种应用程序描述的行业分类方法、存储介质及终端设备
CN109816007A (zh) * 2019-01-18 2019-05-28 北京智游网安科技有限公司 应用程序文字信息的行业分类方法、存储介质及终端设备
CN110069320B (zh) * 2019-04-29 2023-06-30 努比亚技术有限公司 一种应用程序的分类校正方法、终端、系统及存储介质
CN110069320A (zh) * 2019-04-29 2019-07-30 努比亚技术有限公司 一种应用程序的分类校正方法、终端、系统及存储介质
CN110276411A (zh) * 2019-06-28 2019-09-24 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备
CN110276411B (zh) * 2019-06-28 2022-11-18 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备
CN110598070A (zh) * 2019-09-09 2019-12-20 腾讯科技(深圳)有限公司 应用类型识别方法及装置、服务器及存储介质
CN110728328B (zh) * 2019-10-22 2022-03-01 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN112988699A (zh) * 2019-12-02 2021-06-18 杭州海康威视数字技术股份有限公司 模型训练方法、数据标签的生成方法及装置
CN112988699B (zh) * 2019-12-02 2022-04-26 杭州海康威视数字技术股份有限公司 模型训练方法、数据标签的生成方法及装置
CN111177388B (zh) * 2019-12-30 2023-07-21 联想(北京)有限公司 一种处理方法及计算机设备
CN111177388A (zh) * 2019-12-30 2020-05-19 联想(北京)有限公司 一种处理方法及计算机设备
CN111967518A (zh) * 2020-08-18 2020-11-20 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN111967518B (zh) * 2020-08-18 2023-10-13 深圳市欢太科技有限公司 应用标注方法、应用标注装置及终端设备
CN112085080A (zh) * 2020-08-31 2020-12-15 北京百度网讯科技有限公司 样本均衡方法、装置、设备以及存储介质
CN112085080B (zh) * 2020-08-31 2024-03-08 北京百度网讯科技有限公司 样本均衡方法、装置、设备以及存储介质
CN112214505A (zh) * 2020-10-21 2021-01-12 北京金堤征信服务有限公司 数据同步方法、装置、计算机可读存储介质及电子设备

Also Published As

Publication number Publication date
CN106874279B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN106874279A (zh) 生成应用类别标签的方法及装置
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN108280155B (zh) 基于短视频的问题检索反馈方法、装置及其设备
CN106776503B (zh) 文本语义相似度的确定方法及装置
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN112131449A (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN106919575A (zh) 应用程序搜索方法及装置
CN108304493B (zh) 一种基于知识图谱的上位词挖掘方法及装置
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN108304373A (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN107368521A (zh) 一种基于大数据和深度学习的知识推介方法及系统
CN109635260A (zh) 用于生成文章模板的方法、装置、设备和存储介质
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN106951420A (zh) 文献搜索方法及设备、作者搜索方法及设备
CN112231554A (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN108304381B (zh) 基于人工智能的实体建边方法、装置、设备及存储介质
CN107016566A (zh) 基于本体的用户模型构建方法
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant