CN103020293A - 一种移动应用的本体库的构建方法及系统 - Google Patents

一种移动应用的本体库的构建方法及系统 Download PDF

Info

Publication number
CN103020293A
CN103020293A CN2012105859050A CN201210585905A CN103020293A CN 103020293 A CN103020293 A CN 103020293A CN 2012105859050 A CN2012105859050 A CN 2012105859050A CN 201210585905 A CN201210585905 A CN 201210585905A CN 103020293 A CN103020293 A CN 103020293A
Authority
CN
China
Prior art keywords
concept
tag
label
mobile
weighted value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105859050A
Other languages
English (en)
Other versions
CN103020293B (zh
Inventor
庞文博
杨锴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210585905.0A priority Critical patent/CN103020293B/zh
Publication of CN103020293A publication Critical patent/CN103020293A/zh
Application granted granted Critical
Publication of CN103020293B publication Critical patent/CN103020293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种移动应用的本体库的构建方法,包括:将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配,为匹配到的概念标签和属性标签分配权重值;依据权重值由高到低排序后的概念标签,从预先生成的概念标签树中获得概念标签路径;依据概念标签路径中的概念标签查询预先生成的概念标签与属性标签的关联关系,获得属性标签;利用获得的概念标签路径及关联的属性标签标注所述移动应用;本发明还提供一种移动应用的本体库的构建系统。根据本发明提供的技术方案,能够自动高效的为移动应用标注概念标签和属性标签。

Description

一种移动应用的本体库的构建方法及系统
【技术领域】
本发明涉及互联网应用领域,尤其涉及一种移动应用的本体库的构建方法及系统。 
【背景技术】
随着移动网络和智能终端的迅猛发展,与移动应用(APP,Application)有关的需求也日益旺盛,例如,移动应用的检索、移动应用的推荐等。为了满足检索需求和推荐需求,目前在数据库中都存储有移动应用的类别信息和简介,用于移动应用的检索和推荐,移动应用的类别信息是由运维人员进行人工标注的,因此,移动应用的信息标注完全依赖于人工,数量快速增长的移动应用,如果仍然使用人工标注信息的方式,将给研发人员带来巨大工作量,耗费较多的人力物力,而且不能对新增移动应用进行及时标注,效率较低;此外,目前移动应用的类别信息的粒度比较粗略,不能有效地描述出移动应用之间的功能差异,也不能描述出移动应用的属性特征。因此,为了能够满足移动应用的各种需求,构建出有效描述移动应用功能和属性的知识体系是亟待解决的问题。 
【发明内容】
本发明提供了一种移动应用的本体库的构建方法及系统,能够自动高效的为移动应用标注概念标签和属性标签。 
本发明的具体技术方案如下: 
根据本发明一优选实施例,一种移动应用的本体库的构建方法,包括: 
将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和 属性标签集合中进行匹配,为匹配到的概念标签和属性标签分配权重值; 
依据权重值由高到低排序后的概念标签,从预先生成的概念标签树中获得概念标签路径;依据概念标签路径中的概念标签查询预先生成的概念标签与属性标签的关联关系,获得属性标签; 
利用获得的概念标签路径及关联的属性标签标注所述移动应用。 
上述方法中,概念标签集合和属性标签集合的生成方法为: 
依据预设的移动应用概念的文本模式和移动应用属性的文本模式,从移动应用的简介文本中抽取出概念标签和属性标签; 
将用户检索的query与依据移动应用的简介文本生成的概念标签合并得到概念标签集合,利用依据移动应用的简介文本生成的属性标签生成属性标签集合。 
上述方法中,所述概念标签树依据概念标签集合中概念标签之间的从属关系生成,并包括一个以上概念标签路径,所述概念标签路径包括一个以上概念标签。 
上述方法中,所述将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配具体包括: 
对数据库中移动应用的标题和简介文本进行切词,生成一个以上分词,依据预设的同义词表,找到生成的分词的同义词,依据生成的分词和找到的同义词分别在概念标签集合和属性标签集合中进行字符串匹配; 
依据预设的移动应用概念的文本模式对移动应用的标题和简介文本分别进行模式匹配。 
上述方法中,利用如下公式获得概念标签和属性标签的权重值: 
Score ( app , tag ) = Σ ( WordScore tag + PatternScore tag ) + Σ ( Σ ( WordScore tag + PatternScore child tag ) )
其中,Score(app,tag)为移动应用app中标签tag的权重值,∑(WordScoretag+PatternScoretag)为在移动应用app中标签tag各次成功匹配的权重值的和,
Figure BDA00002676944200022
为在移动应用app中标签tag的子标签childtag各次成功匹配的权重值的和,
Figure BDA00002676944200023
为移动应用app中 标签tag的各子标签childtag的权重值的和。 
上述方法中,利用如下公式获得移动应用app中标签tag的字符串匹配的权重值Wordscoretag: 
Figure BDA00002676944200031
其中,Basescoretitle为在标题中匹配成功的标签的基准权重值,Reversesiteword为在标题中匹配成功的标签在标题的切词结果中依据由后向前的顺序的所处位置,Basescorecontent为在简介文本中匹配成功的标签的基准权重值,Siteclause为在标题中匹配成功的标签在简介文本的切词结果中依据由前向后的顺序的所处短句的位置。 
上述方法中,利用如下公式获得移动应用app中标签tag的模式匹配的权重值PatternScoretag: 
Figure BDA00002676944200032
其中,StrictPatternScoretag等于10,LoosePatternScoretag等于8。 
上述方法中,所述从预先生成的概念标签树中获得概念标签路径具体包括: 
a、依据权重值最高的概念标签,从所述概念标签树获得所述概念标签的所有父概念标签,生成第一概念标签路径; 
b、判断下一个权重值最高的概念标签与预设阈值
Figure BDA00002676944200033
的大小,当所述概念标签的权重值大于等于预设阈值
Figure BDA00002676944200034
时执行c,反之执行e; 
c、依据概念标签树判断所述概念标签与第一概念标签路径的关系;当所述概念标签属于第一概念标签路径时执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签是第一概念标签路径中最后一级概念标签的子孙标签时,将所述概念标签添加到第一概念标签路径后执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签与第一概念标签路径冲突时执行d; 
d、依据所述概念标签查询所述概念标签树,获得该概念标签的所有父概念标签,生成新的概念标签路径,并执行b,直到当前概念标签是权重值最小的概念标签时执行e; 
e、将确定的概念标签路径作为最终的概念标签路径。 
上述方法中,所述获得属性标签具体包括: 
依据确定的概念标签路径中的概念标签,查询预设的属性标签与概念标签树中概念标签的关联关系,得到所述概念标签路径所关联的属性标签; 
判断所述属性标签的权重值与预设阈值的大小,得到权重值大于等于预设阈值
Figure BDA00002676944200043
的属性标签。 
上述方法中,该方法还包括: 
依据用户浏览或下载的移动应用之间的相关性,得到用户浏览或下载的移动应用对应的最相关移动应用,并统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值; 
将最相关移动应用的每个概念标签相对于移动应用的权重值相加,获得最相关移动应用的概念标签路径的权重值;依据最相关移动应用的属性标签相对于移动应用的权重值,获得属性标签的归一化权重值; 
当最相关移动应用的概念标签路径的权重值与移动应用的概念标签路径的权重值的差值超过预设阈值Threadholdchange时,或当归一化权重值与移动应用的属性标签的差值超过预设阈值Threadholdchange时进行报警。 
上述方法中,利用如下公式统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值: 
Score ( app i , tag t ) = λ × Score ( app i , tag t ) old + ( 1 - λ ) | SimSet app i | Σ app j ∈ SimSet app i ( Sim ( aPP i , app j ) × Score ( app j , tag t ) old )
其中,Score(appi,tagt)为最相关移动应用集合中移动应用appj的概念标签tagt或属性标签tagt对目标移动应用appi的权重值,λ为阻尼系数,
Figure BDA00002676944200042
为最相关 移动应用集合中移动应用的个数;Score(appi,tagt)old为概念标签tagt或属性标签tagt之前的权重值,Sim(appi,appj)为移动应用appi与移动应用appj之间的相关性。 
一种移动应用的本体库的构建系统,包括:匹配单元、统计单元、标注单元;其中, 
匹配单元,用于将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配; 
统计单元,用于为匹配到的概念标签和属性标签分配权重值; 
标注单元,依据权重值由高到低排序后的概念标签,从预先生成的概念标签树中获得概念标签路径;依据概念标签路径中的概念标签查询预先生成的概念标签与属性标签的关联关系,获得属性标签;利用获得的概念标签路径及关联的属性标签标注所述移动应用。 
上述系统中,该系统还包括:用于生成概念标签集合和属性标签集合的标签生成单元; 
标签生成单元在生成概念标签集合和属性标签集合时,具体包括:依据预设的移动应用概念的文本模式和移动应用属性的文本模式,从移动应用的简介文本中抽取出概念标签和属性标签;将用户检索的query与依据移动应用的简介文本生成的概念标签合并得到概念标签集合,利用依据移动应用的简介文本生成的属性标签生成属性标签集合。 
上述系统中,所述概念标签树依据概念标签集合中概念标签之间的从属关系生成,并包括一个以上概念标签路径,所述概念标签路径包括一个以上概念标签。 
上述系统中,所述匹配单元在将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配时,具体包括: 
对数据库中移动应用的标题和简介文本进行切词,生成一个以上分词,依据预设的同义词表,找到生成的分词的同义词,依据生成的分词和找到的同义词分别在概念标签集合和属性标签集合中进行字符串匹配; 
依据预设的移动应用概念的文本模式对移动应用的标题和简介文本分别进行模式匹配。 
上述系统中,所述统计单元利用如下公式获得概念标签和属性标签的权重值: 
Score ( app , tag ) = Σ ( WordScore tag + PatternScore tag ) + Σ ( Σ ( WordScore tag + PatternScore child tag ) )
其中,Score(app,tag)为移动应用app中标签tag的权重值,∑(WordScoretag+PatternScoretag)为在移动应用app中标签tag各次成功匹配的权重值的和,
Figure BDA00002676944200062
为在移动应用app中标签tag的子标签childtag各次成功匹配的权重值的和,
Figure BDA00002676944200063
为移动应用app中标签tag的各子标签childtag的权重值的和。 
上述系统中,所述统计单元利用如下公式获得移动应用app中标签tag的字符串匹配的权重值WordScoretag: 
其中,BaseScoretitle为在标题中匹配成功的标签的基准权重值,ReverseSiteword为在标题中匹配成功的标签在标题的切词结果中依据由后向前的顺序的所处位置,BaseScorecontent为在简介文本中匹配成功的标签的基准权重值,Siteclause为在标题中匹配成功的标签在简介文本的切词结果中依据由前向后的顺序的所处短句的位置。 
上述系统中,所述统计单元利用如下公式获得移动应用app中标签tag的模式匹配的权重值PatternScoretag: 
Figure BDA00002676944200065
其中,StrictPatternScoretag等于10,LoosePatternScoretag等于8。 
上述系统中,所述标注单元在从预先生成的概念标签树中获得概念标签路径时,具体包括: 
a、依据权重值最高的概念标签,从所述概念标签树获得所述概念标签的所有父概念标签,生成第一概念标签路径; 
b、判断下一个权重值最高的概念标签与预设阈值
Figure BDA00002676944200071
的大小,当所述概念标签的权重值大于等于预设阈值
Figure BDA00002676944200072
时执行c,反之执行e; 
c、依据概念标签树判断所述概念标签与第一概念标签路径的关系;当所述概念标签属于第一概念标签路径时执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签是第一概念标签路径中最后一级概念标签的子孙标签时,将所述概念标签添加到第一概念标签路径后执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签与第一概念标签路径冲突时执行d; 
d、依据所述概念标签查询所述概念标签树,获得该概念标签的所有父概念标签,生成新的概念标签路径,并执行b,直到当前概念标签是权重值最小的概念标签时执行e; 
e、将确定的概念标签路径作为最终的概念标签路径。 
上述系统中,所述标注单元在获得属性标签时,具体包括: 
依据确定的概念标签路径中的概念标签,查询预设的属性标签与概念标签树中概念标签的关联关系,得到所述概念标签路径所关联的属性标签; 
判断所述属性标签的权重值与预设阈值的大小,得到权重值大于等于预设阈值
Figure BDA00002676944200073
的属性标签。 
上述系统中,该系统还包括: 
校验单元,用于依据用户浏览或下载的移动应用之间的相关性,得到用户浏览或下载的移动应用对应的最相关移动应用,并统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值;将最相关移动应用的每个概念标签相对于移动应用的权重值相加,获得最相关移动应用的概念标签路径的权重值;依据最相关移动应用的属性标签相对于移动应用的权重值,获得属性标签的归一化 权重值;当最相关移动应用的概念标签路径的权重值与移动应用的概念标签路径的权重值的差值超过预设阈值Threadholdchange时,或当归一化权重值与移动应用的属性标签的差值超过预设阈值Threadholdchange时进行报警。 
上述系统中,所述校验单元利用如下公式统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值: 
Score ( app i , tag t ) = λ × Score ( app i , tag t ) old + ( 1 - λ ) | SimSet app i | Σ app j ∈ SimSet app i ( Sim ( app i , app j ) × Score ( app j , tag t ) old )
其中,Score(appi,tagt)为最相关移动应用集合中移动应用appj的概念标签tagt或属性标签tagt对目标移动应用appi的权重值,λ为阻尼系数,
Figure BDA00002676944200082
为最相关移动应用集合中移动应用的个数;Score(appi,tagt)old为概念标签tagt或属性标签tagt之前的权重值,Sim(appi,appj)为移动应用appi与移动应用appj之间的相关性。 
由以上技术方案可以看出,本发明提供的具有以下有益效果: 
依据概念标签路径和属性标签自动标注移动应用的类别信息和属性信息,降低对人工的依赖,适用于目前移动应用快速增长的场景,降低人力物力的消耗,能够及时进行移动应用的信息标注,从而高效、自动的实现移动应用的本体库的构建和扩充。 
【附图说明】
图1是本发明实现移动应用的本体库的构建方法的优选实施例的流程示意图; 
图2是本发明实现移动应用的本体库的构建系统的优选实施例的结构示意图。 
【具体实施方式】
本发明的基本思想是:将数据库中移动应用的标题和简介文本分别在预 先生成的概念标签集合和属性标签集合中进行匹配,为匹配到的概念标签和属性标签分配权重值;依据权重值由高到低排序后的概念标签,从预先生成的概念标签树中获得概念标签路径;依据概念标签路径中的概念标签查询预先生成的概念标签与属性标签的关联关系,获得属性标签;利用获得的概念标签路径及关联的属性标签标注所述移动应用。 
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。 
本发明提供一种移动应用的本体库的构建方法,图1是本发明实现移动应用的本体库的构建方法的优选实施例的流程示意图,如图1所示,该优选实施例包括以下步骤: 
步骤101,依据数据库中移动应用的简介文本和用户检索的query,获取概念标签和属性标签,并生成概念标签集合和属性标签集合。 
具体的,为了获得概念标签和属性标签,形成相应的标签体系,本优选实施例中,依据数据库中移动应用的简介文本和用户检索的query两种资源,获取概念标签和属性标签。 
其中,依据数据库中移动应用的简介文本获取概念标签和属性标签的方法如下:从存储移动应用的简介文本和类别信息的数据库中,获取所有移动应用的简介文本,依据预设的一些常用来明确表示移动应用概念和移动应用属性的文本模式,对获取的移动应用的简介文本进行匹配,从移动应用的简介文本中抽取出概念标签CandidateConcept和属性标签CandidateAttribue;利用抽取出的概念标签CandidateConcept组成概念标签集合CandidateConceptSetbrief,对概念标签集合CandidateConceptSetbrief中的概念标签进行去重处理,并统计每个概念标签CandidateConcept的出现频次;利用抽取出的属性标签CandidateAttribue构成属性标签集合CandidateAttribueSetbrief,对属性标签集合CandidateAttribueSetbrief中的属性标签进行去重处理,并统计每个属性标签CandidateAttribue的出现频次;例如,部分 的常用来明确表示移动应用概念和移动应用属性的文本模式可以如表1所示: 
表1 
Figure BDA00002676944200101
例如,依据文本模式一款xxx的<概念标签>游戏,对简介文本“一款优秀的物理类游戏”进行概念标签的抽取,就可以抽取出简介文本中的概念标签“物理类”。 
其中,依据用户检索的query获取概念标签和属性标签的方法如下:移动应用商店的数据平台会存储用户使用移动应用商店时的用户历史日志,所述用户历史日志包括用户在移动应用商店中检索移动应用时输入的query;同理,搜索平台的移动应用检索系统会存储用户的检索日志,所述检索日志包括用户在移动应用检索系统中检索移动应用时输入的query;获取一段时间内用户在移动应用商店和搜索平台的移动应用检索系统中检索的query,将用户检索的query作为概念标签,利用这些用户检索的query生成概念标签集合CandidateSetquery,每个用户检索的query作为标签集合CandidateSetquery中的一个标签,对概念标签集合CandidateSetquery中的概念标签进行去重处理,并统计处理后每个概念标签的出现频次;例如,一段时间内用户在移动应用商店和搜索平台的移动应用检索系统中检索的query可以如表2所示: 
表2 
query 出现频次
浏览器 25492
[0090] 
网络电话 10655
跑酷 6129
装修 463
打车 29
将利用用户检索的query生成的概念标签集合CandidateSetquery与依据移动应用的简介文本生成的概念标签集合CandidateConceptSetbrief进行合并处理,生成一个最终的概念标签集合,对该概念标签集合进行去重处理,并统计其中每个概念标签的出现频次;依据移动应用的简介文本生成的属性标签集合CandidateAttribueSetbrief就直接作为最终的属性标签集合。 
步骤102,依据概念标签集合生成概念标签树,将属性标签与概念标签树中的概念标签进行关联。 
具体的,将步骤101中得到的概念标签集合中,每个概念标签的出现频次作为该概念标签的可信度,将依据移动应用的简介文本生成的属性标签集合CandidateAttribueSetbrief中,每个属性标签的出现频次作为该属性标签的可信度;依据概念标签的可信度由大到小的顺序,对概念标签集合中的概念标签以及属性标签集合中的属性标签进行排序,将排序后的概念标签集合和属性标签集合提供给用户。 
用户依据概念标签集合中概念标签之间的从属关系,将概念标签集合中的概念标签组成树状结构,形成概念标签树,然后将属性标签集合中的属性标签挂接在概念标签树中相应的概念标签下,实现将属性标签与概念标签相关联。 
所述概念标签树可以认为是由一个以上概念标签路径构成的,概念标签路径后续将用来表示某个移动应用的类别信息,概念标签路径通常是一个名词词组序列,每个名词词组都是一个概念标签,因此概念标签路径是由一组 存在上下位关系的概念标签组成,依据概念标签之间形成的层次结构就可以生成概念标签树;所述属性标签后续将用来作为移动应用的属性信息,用于描述移动应用,属性标签通常为形容词、功能性名词等,一个具体的属性标签需要挂接在概念标签树中的某个概念标签下,与该概念标签存在关联关系,可以为该概念标签及其子孙节点对应的概念标签所使用。 
用户以列表的形式构建概念标签树以及概念标签与属性标签的关联关系,概念标签树对应的列表中每一行为一个概念标签路径;用户创建一个属性文件,将属性标签列表保存在该属性文件中,属性标签列表中保存概念标签树中每个概念标签与一个以上属性标签的对应关系,即属性标签列表中每一行的第一列为一个概念标签,后面的每一列为与该概念标签关联的属性标签。 
步骤103,将数据库中移动应用的标题和简介文本分别在概念标签集合和属性标签集合中进行匹配,并为匹配到的概念标签和属性标签分配权重值。 
具体的,对于数据库中每个移动应用,依据预设的通用词典对该移动应用的标题和简介文本分别进行切词,生成一个以上分词;依据预设的同义词表,找到生成的分词的同义词,利用生成的分词和找到的同义词生成分词集合;利用分词集合中的分词分别在概念标签集合和属性标签集合中进行字符串匹配,匹配出一个以上概念标签和一个以上属性标签;同时,依据预设的移动应用概念的文本模式对该移动应用的标题和简介文本分别进行模式匹配,得到一个以上概念标签和一个以上属性标签,这里进行模式匹配时利用的移动应用概念的文本模式和移动应用属性的文本模式与表1中的文本模式相似,但是文本模式更为宽泛,例如,可以是xxx的<概念标签>软件、xxx的<概念标签>游戏或xxx的<概念标签>工具等。 
为字符串匹配得到的概念标签和属性标签以及模式匹配得到的概念标签和属性标签分配对应的权重值,本优选实施例中,利用如下公式获得每个概 念标签或属性标签的权重值: 
Score ( app , tag ) = &Sigma; ( WordScore tag + PatternScore tag ) + &Sigma; ( &Sigma; ( WordScore tag + PatternScore child tag ) )
其中,Score(app,tag)表示移动应用app中标签tag的权重值,∑(WordScoretag+PatternScoretag)表示在该移动应用app中该标签tag各次成功匹配的权重值的和,
Figure BDA00002676944200132
表示在该移动应用app中该标签tag的子标签childtag各次成功匹配的权重值的和,这里,对于属性标签是没有子标签的,因此对于属性标签
Figure BDA00002676944200133
的取值为0; 
Figure BDA00002676944200134
表示该移动应用app中该标签tag的各子标签childtag的权重值的和,对于属性标签
Figure BDA00002676944200135
的取值为0。 
其中,WordScoretag表示该移动应用app中该标签tag的字符串匹配的权重值,可以利用如下公式获得WordScoretag: 
Figure BDA00002676944200136
该公式中,BaseScoretitle表示在标题中匹配成功的标签的基准权重值,本优选实施例中BaseScoretitle等于8;ReverseSiteword表示在标题中匹配成功的标签在标题的切词结果中依据由后向前的顺序的所处位置,BaseScorecontent表示在简介文本中匹配成功的标签的基准权重值,本优选实施例中,BaseScorecontent等于3;Siteclause表示在标题中匹配成功的标签在简介文本的切词结果中依据由前向后的顺序的所处短句的位置;这里,WordScoretag的值不小于0。 
其中,PatternScoretag表示该移动应用app中该标签tag的模式匹配的权重值,可以利用如下公式获得: 
Figure BDA00002676944200137
本优选实施例中,StrictPatternScoretag等于10,LoosePatternScoretag等于8。 
步骤104,依据权重值由高到低排序后的概念标签,从概念标签树中获得概念标签路径;依据概念标签路径中的概念标签查询概念标签与属性标签的关联关系,获得属性标签,利用获得的概念标签路径及关联的属性标签标注移动应用。 
具体的,在获得匹配得到的概念标签的权重值后,依据权重值由高到低的顺序对匹配得到的概念标签进行排序;这里,基于上述获得概念标签的权重值的公式,可以保证概念标签树中的父概念标签的权重值不低于子概念标签的权重值;从排序后的概念标签中得到权重值最高的概念标签,如果权重值最高的概念标签是一个,则得到一个概念标签,如果有两个概念标签的权重值相同且都是最高的权重值,则得到两个概念标签。 
本优选实施例中,利用贪婪扩展方法,并依据权重值最高的概念标签以及排序后的概念标签,从概念标签树中获得对应的概念标签路径,具体实现过程如下: 
a、依据权重值最高的概念标签,查询步骤102中用户配置的概念标签树,获得该概念标签的所有父概念标签,利用该概念标签及其父概念标签形成第一概念标签路径。 
b、依据下一个权重值最高的概念标签,判断该概念标签的权重值与预设阈值
Figure BDA00002676944200141
的大小,如果该概念标签的权重值大于等于则执行c,反之,执行e;本优选实施例中,预设阈值
Figure BDA00002676944200143
等于1。 
c、查询步骤102中的概念标签树,依据概念标签树判断该概念标签与第一概念标签路径的关系;如果该概念标签属于第一概念标签路径,则执行b,直到当前概念标签是权重值最小的概念标签时执行e;如果该概念标签是第一概念标签路径中最后一级概念标签的子孙标签,即该概念标签是第一概念标签路径的进一步细化,则将该概念标签添加到第一概念标签路径中,然后执 行b,直到当前概念标签是权重值最小的概念标签时执行e;如果该概念标签与第一概念标签路径冲突,则执行d。 
d、依据该概念标签查询查询步骤102中的概念标签树,获得该概念标签的所有父概念标签,利用该概念标签及其父概念标签形成新的概念标签路径,然后执行b,直到当前概念标签是权重值最小的概念标签时执行e。 
e、将已经确定的概念标签路径作为最终的概念标签路径。 
在获得概念标签路径后,依据确定的概念标签路径标注移动应用,作为移动应用的类别信息;这里,确定的概念标签路径是一个,则移动应用就标注一组概念标签,确定的概念标签路径是两个以上,则移动应用就标注两组以上概念标签;将概念标签路径中每个概念标签的权重值相加,得到该概念路径标签的权重值,依据概念路径标签的权重值标注移动应用,以便以后依据标注结果对概念标签路径进行校验。 
依据确定的概念标签路径中的概念标签,查询属性标签与概念标签树中概念标签的关联关系,找到确定的概念标签路径下所关联的所有属性标签,这些属性标签组成属性标签集合Setattributetag;判断属性标签集合Setattributetag中的每个属性标签的权重值与预设阈值
Figure BDA00002676944200151
的大小,将权重值大于等于预设阈值
Figure BDA00002676944200152
的属性标签加入最终的属性标签集合,利用属性标签集合中的所有属性标签标注移动应用,作为移动应用的属性信息;同时将属性标签集合中所有属性标签的权重值相加,得到集合权重值,然后利用每个属性标签的权重值除以集合权重值,得到的比值作为属性标签的权重值来标注移动应用,以便以后依据标注结果对属性标签进行校验。 
利用上述技术方案就可以对数据库中所有的移动应用标注概念标签路径和属性标签,标注概念标签路径和属性标签的移动应用就构成移动应用的本体库;移动应用的本体看可以应用于移动应用商店或搜索平台的移动应用检索系统中,在用户检索移动应用时,依据构建的移动应用的本体库向用户推 荐移动应用或推送检索结果;例如,移动应用的本体库可以如表3所示: 
表3 
Figure BDA00002676944200161
表3中的packageID用于唯一标识一个移动应用。 
对数据库中的移动应用都标注概念标签路径和属性标签后,需要进行移动应用的本体库的标注结果进行校验,因此,本优选实施例还包括以下步骤: 
步骤105,依据用户浏览或下载的移动应用之间的相关性,为用户浏览或下载的移动应用生成对应的最相关移动应用。 
具体的,依据移动应用商店的数据平台存储的用户使用移动应用商店时的用户历史日志,先统计某用户在一段时间内在移动应用商店中浏览或下载的一个以上移动应用之间的相关次数,然后统计一段时间内所有用户浏览或下载的移动应用之间的相关次数,以及每个移动应用的出现频次,依据移动应用之间的相关次数和出现频次,计算移动应用之间的相关性Sim(appi,appj);对于每个用户浏览或下载的移动应用,判断其他移动应用与该移动应用的相关性Sim(appi,appj)是否大于或等于预设的相关度阈值Threadholdsimset,将相关性Sim(appi,appj)大于或等于相关度阈值Threadholdsimset的移动应用作为该移动应用的最相关移动应用,一个以上最相关移动应用组成最相关移动应用集合 
Figure BDA00002676944200162
本优选实施例中,相关度阈值Threadholdsimset等于0.6。 
步骤106,依据移动应用与最相关移动应用的相关性以及移动应用的标注结果,获得最相关移动应用的概念标签或属性标签相对于移动应用的权重值。 
具体的,对于用户浏览或下载的每个移动应用都对应一个最相关移动应用集合
Figure BDA00002676944200171
下面设最相关移动应用集合
Figure BDA00002676944200172
对应的移动应用为目标移动应用,利用如下公式计算最相关移动应用集合
Figure BDA00002676944200173
中每个移动应用的每个概念标签或每个属性标签相对于目标移动应用的权重值: 
Score ( app i , tag t ) = &lambda; &times; Score ( app i , tag t ) old + ( 1 - &lambda; ) | SimSet app i | &Sigma; app j &Element; SimSet app i ( Sim ( aPP i , app j ) &times; Score ( app j , tag t ) old )
该公式中,Score(appi,tagt)表示最相关移动应用集合中某移动应用appj的某概念标签tagt或某属性标签tagt对目标移动应用appi的权重值,λ表示阻尼系数,本优选实施例中,λ等于7;
Figure BDA00002676944200176
表示最相关移动应用集合 
Figure BDA00002676944200177
中移动应用的个数;Score(appi,tagt)old表示概念标签tagt或属性标签tagt之前的权重值,Sim(qppi,appj)表示移动应用appi与移动应用appj之间的相关性。 
利用上述公式得到最相关移动应用集合
Figure BDA00002676944200178
中所有移动应用所有概念标签和所有属性标签相对于目标移动应用的权重值。 
步骤107,将最相关移动应用的每个概念标签相对于移动应用的权重值相加,获得最相关移动应用的概念标签路径的权重值;依据最相关移动应用的属性标签相对于移动应用的权重值,获得属性标签的归一化权重值;当最相关移动应用的概念标签路径的权重值与移动应用的概念标签路径的权重值的差值超过预设阈值时,或当归一化权重值与移动应用的属性标签的差值超过预设阈值时进行报警。 
具体的,对于最相关移动应用集合
Figure BDA00002676944200179
中的每个移动应用,依据得到的最相关移动应用集合
Figure BDA000026769442001710
中所有移动应用的所有概念标签对于目标移动应用的权重值,将所有概念标签的权重值相加,得到最相关移动应用集合 
Figure BDA000026769442001711
中每个移动应用的概念标签路径的权重值,计算该权重值与目标移动 应用的概念标签路径的权重值的差值,判断该差值与预设阈值Threadholdchange的大小,如果该差值大于或等于阈值Threadholdchange,则向用户发出报警邮件,其中携带当前的移动应用的packageID;用户收到报警邮件后,可以对packageID目标移动应用进行检查,如果检查发现最相关移动应用的概念标签路径确实比目标移动应用当前的概念标签路径合理,则利用最相关移动应用的概念标签路径替换目标移动应用当前的概念标签路径,或在目标移动应用的概念标签路径中增加该概念标签路径。 
依据得到的最相关移动应用集合
Figure BDA00002676944200181
中所有移动应用的所有属性标签相对于目标移动应用的权重值,对于最相关移动应用集合
Figure BDA00002676944200182
中的每个移动应用,将每个移动应用的属性标签的权重值相加,再用属性标签的权重值除以相加后的结果,得到每个属性标签的归一化权重值;计算归一化权重值与目标移动应用的属性标签的差值,判断该差值与预设阈值Threadholdchange的大小,如果该差值大于或等于阈值Threadholdchange,则向用户发出报警邮件,其中携带当前的移动应用的packageID;用户收到报警邮件后,可以对packageID对应的移动应用进行检查,如果检查发现最相关移动应用的属性标签确实比目标移动应用的当前的属性标签合理,则利用最相关移动应用的属性标签替换目标移动应用当前的属性标签,或在目标移动应用当前的属性标签中添加该属性标签。本优选实施例中,预设阈值Threadholdchange等于0.3。 
为实现上述方法,本发明还提供一种移动应用的本体库的构建系统,图2是本发明实现移动应用的本体库的构建系统的优选实施例的结构示意图,如图2所示,该系统包括:匹配单元21、统计单元22、标注单元23;其中, 
匹配单元21,用于将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配; 
统计单元22,用于为匹配到的概念标签和属性标签分配权重值; 
标注单元23,依据权重值由高到低排序后的概念标签,从预先生成的概念标 签树中获得概念标签路径;依据概念标签路径中的概念标签查询预先生成的概念标签与属性标签的关联关系,获得属性标签;利用获得的概念标签路径及关联的属性标签标注所述移动应用。 
该系统还包括:用于生成概念标签集合和属性标签集合的标签生成单元20; 
标签生成单元20在生成概念标签集合和属性标签集合时,具体包括:依据预设的移动应用概念的文本模式和移动应用属性的文本模式,从移动应用的简介文本中抽取出概念标签和属性标签;将用户检索的query与依据移动应用的简介文本生成的概念标签合并得到概念标签集合,利用依据移动应用的简介文本生成的属性标签生成属性标签集合。 
其中,所述概念标签树依据概念标签集合中概念标签之间的从属关系生成,并包括一个以上概念标签路径,所述概念标签路径包括一个以上概念标签。 
其中,所述匹配单元21在将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配时,具体包括: 
对数据库中移动应用的标题和简介文本进行切词,生成一个以上分词,依据预设的同义词表,找到生成的分词的同义词,依据生成的分词和找到的同义词分别在概念标签集合和属性标签集合中进行字符串匹配; 
依据预设的移动应用概念的文本模式对移动应用的标题和简介文本分别进行模式匹配。 
其中,所述统计单元22利用如下公式获得概念标签和属性标签的权重值: 
Score ( app , tag ) = &Sigma; ( WordScore tag + PatternScore tag ) + &Sigma; ( &Sigma; ( WordScore tag + PatternScore child tag ) )
其中,Score(app,tag)为移动应用app中标签tag的权重值,∑(WordScoretag+PatternScoretag)为在移动应用app中标签tag各次成功匹配的权重值的和,
Figure BDA00002676944200192
为在移动应用app中标签tag的子标签childtag各次成功匹配的权重值的和,为移动应用app中标签tag的各子标签childtag的权重值的和。 
其中,所述统计单元22利用如下公式获得移动应用app中标签tag的字符串匹配的权重值WordScoretag
Figure BDA00002676944200201
其中,BaseScoretitle为在标题中匹配成功的标签的基准权重值,ReverseSiteword为在标题中匹配成功的标签在标题的切词结果中依据由后向前的顺序的所处位置,BaseScorecontent为在简介文本中匹配成功的标签的基准权重值,Siteclause为在标题中匹配成功的标签在简介文本的切词结果中依据由前向后的顺序的所处短句的位置。 
其中,所述统计单元22利用如下公式获得移动应用app中标签tag的模式匹配的权重值PatternScoretag
Figure BDA00002676944200202
其中,StrictPatternScoretag等于10,LoosePatternScoretag等于8。 
其中,所述标注单元23在从预先生成的概念标签树中获得概念标签路径时,具体包括: 
a、依据权重值最高的概念标签,从所述概念标签树获得所述概念标签的所有父概念标签,生成第一概念标签路径; 
b、判断下一个权重值最高的概念标签与预设阈值
Figure BDA00002676944200203
的大小,当所述概念标签的权重值大于等于预设阈值
Figure BDA00002676944200204
时执行c,反之执行e; 
c、依据概念标签树判断所述概念标签与第一概念标签路径的关系;当所述概念标签属于第一概念标签路径时执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签是第一概念标签路径中最后一级概念标签的子孙标签时,将所述概念标签添加到第一概念标签路径后执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签与第一概念标签路径冲突时执行d; 
d、依据所述概念标签查询所述概念标签树,获得该概念标签的所有父概念标签,生成新的概念标签路径,并执行b,直到当前概念标签是权重值最小的概念标签时执行e; 
e、将确定的概念标签路径作为最终的概念标签路径。 
其中,所述标注单元22在获得属性标签时,具体包括: 
依据确定的概念标签路径中的概念标签,查询预设的属性标签与概念标签树中概念标签的关联关系,得到所述概念标签路径所关联的属性标签; 
判断所述属性标签的权重值与预设阈值的大小,得到权重值大于等于预设阈值
Figure BDA00002676944200211
的属性标签。 
该系统还包括:校验单元24,用于依据用户浏览或下载的移动应用之间的相关性,得到用户浏览或下载的移动应用对应的最相关移动应用,并统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值;将最相关移动应用的每个概念标签相对于移动应用的权重值相加,获得最相关移动应用的概念标签路径的权重值;依据最相关移动应用的属性标签相对于移动应用的权重值,获得属性标签的归一化权重值;当最相关移动应用的概念标签路径的权重值与移动应用的概念标签路径的权重值的差值超过预设阈值Threadholdchange时,或当归一化权重值与移动应用的属性标签的差值超过预设阈值Threadholdchange时进行报警。 
其中,所述校验单元24利用如下公式统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值: 
Score ( app i , tag t ) = &lambda; &times; Score ( app i , tag t ) old + ( 1 - &lambda; ) | SimSet app i | &Sigma; app j &Element; SimSet app i ( Sim ( aPP i , app j ) &times; Score ( app j , tag t ) old )
其中,Score(appi,tagt)为最相关移动应用集合中移动应用appj的概念标签tagt或属性标签tagt对目标移动应用appi的权重值,λ为阻尼系数,
Figure BDA00002676944200213
为最相关移动应用集合中移动应用的个数;Score(appi,tagt)old为概念标签tagt或属性标签tagt之前的权重值,Sim(appi,appj)为移动应用appi与移动应用appj之间的 相关性。 
本发明提供的技术方案,具有以下有益效果: 
1、依据概念标签路径和属性标签分别标注移动应用,分别作为移动应用的类别信息和属性信息,与现有技术中仅仅包含类别信息一个维度相比,更加丰富的表现出移动应用的属性维度,更加细致和准确的描述出移动应用的特征,有效描述出移动应用之间的差异,从而能有满足移动应用的检索需求和推荐需求,更有针对性的向用户推荐移动应用。 
2、依据概念标签路径和属性标签自动标注移动应用的类别信息和属性信息,降低对人工的依赖,适用于目前移动应用快速增长的场景,降低人力物力的消耗,能够及时进行移动应用的信息标注,从而高效、自动的实现移动应用的本体库的构建和扩充。 
3、能够自动对构建的移动应用的本体库的标注结果进行校验,对于不合理的标注结果进行报警,以便进行人工核对和调整,从而提供一个有效地校验机制来校验标注结果,能够有利保证标注结果的正确性和合理性。 
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。 

Claims (22)

1.一种移动应用的本体库的构建方法,其特征在于,该方法包括:
将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配,为匹配到的概念标签和属性标签分配权重值;
依据权重值由高到低排序后的概念标签,从预先生成的概念标签树中获得概念标签路径;依据概念标签路径中的概念标签查询预先生成的概念标签与属性标签的关联关系,获得属性标签;
利用获得的概念标签路径及关联的属性标签标注所述移动应用。
2.根据权利要求1所述的方法,其特征在于,概念标签集合和属性标签集合的生成方法为:
依据预设的移动应用概念的文本模式和移动应用属性的文本模式,从移动应用的简介文本中抽取出概念标签和属性标签;
将用户检索的query与依据移动应用的简介文本生成的概念标签合并得到概念标签集合,利用依据移动应用的简介文本生成的属性标签生成属性标签集合。
3.根据权利要求1所述的方法,其特征在于,
所述概念标签树依据概念标签集合中概念标签之间的从属关系生成,并包括一个以上概念标签路径,所述概念标签路径包括一个以上概念标签。
4.根据权利要求1所述的方法,其特征在于,所述将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配具体包括:
对数据库中移动应用的标题和简介文本进行切词,生成一个以上分词,依据预设的同义词表,找到生成的分词的同义词,依据生成的分词和找到的同义词分别在概念标签集合和属性标签集合中进行字符串匹配;
依据预设的移动应用概念的文本模式对移动应用的标题和简介文本分别进行模式匹配。
5.根据权利要求1述的方法,其特征在于,利用如下公式获得概念标签和属性标签的权重值:
Score ( app , tag ) = &Sigma; ( WordScore tag + PatternScore tag ) + &Sigma; ( &Sigma; ( WordScore tag + PatternScore child tag ) )
其中,Score(app,tag)为移动应用app中标签tag的权重值,∑(WordScoretag+PatternScoretag)为在移动应用app中标签tag各次成功匹配的权重值的和,
Figure FDA00002676944100022
为在移动应用app中标签tag的子标签childtag各次成功匹配的权重值的和,为移动应用app中标签tag的各子标签childtag的权重值的和。
6.根据权利要求5所述的方法,其特征在于,利用如下公式获得移动应用app中标签tag的字符串匹配的权重值WordScoretag
Figure FDA00002676944100024
其中,BaseScoretitle为在标题中匹配成功的标签的基准权重值,ReverseSiteword为在标题中匹配成功的标签在标题的切词结果中依据由后向前的顺序的所处位置,BaseScorecontent为在简介文本中匹配成功的标签的基准权重值,Siteclause为在标题中匹配成功的标签在简介文本的切词结果中依据由前向后的顺序的所处短句的位置。
7.根据权利要求5所述的方法,其特征在于,利用如下公式获得移动应用app中标签tag的模式匹配的权重值PatternScoretag
Figure FDA00002676944100025
其中,StrictPatternScoretag等于10,LoosePatternScoretag等于8。
8.根据权利要求1所述的方法,其特征在于,所述从预先生成的概念标签树中获得概念标签路径具体包括:
a、依据权重值最高的概念标签,从所述概念标签树获得所述概念标签的所有父概念标签,生成第一概念标签路径;
b、判断下一个权重值最高的概念标签与预设阈值
Figure FDA00002676944100031
的大小,当所述概念标签的权重值大于等于预设阈值
Figure FDA00002676944100032
时执行c,反之执行e;
c、依据概念标签树判断所述概念标签与第一概念标签路径的关系;当所述概念标签属于第一概念标签路径时执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签是第一概念标签路径中最后一级概念标签的子孙标签时,将所述概念标签添加到第一概念标签路径后执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签与第一概念标签路径冲突时执行d;
d、依据所述概念标签查询所述概念标签树,获得该概念标签的所有父概念标签,生成新的概念标签路径,并执行b,直到当前概念标签是权重值最小的概念标签时执行e;
e、将确定的概念标签路径作为最终的概念标签路径。
9.根据权利要求1所述的方法,其特征在于,所述获得属性标签具体包括:
依据确定的概念标签路径中的概念标签,查询预设的属性标签与概念标签树中概念标签的关联关系,得到所述概念标签路径所关联的属性标签;
判断所述属性标签的权重值与预设阈值的大小,得到权重值大于等于预设阈值的属性标签。
10.根据权利要求1所述的方法,其特征在于,该方法还包括:
依据用户浏览或下载的移动应用之间的相关性,得到用户浏览或下载的移动应用对应的最相关移动应用,并统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值;
将最相关移动应用的每个概念标签相对于移动应用的权重值相加,获得最相关移动应用的概念标签路径的权重值;依据最相关移动应用的属性标签相对于移动应用的权重值,获得属性标签的归一化权重值;
当最相关移动应用的概念标签路径的权重值与移动应用的概念标签路径的权重值的差值超过预设阈值Threadholdchange时,或当归一化权重值与移动应用的属性标签的差值超过预设阈值Threadholdchage时进行报警。
11.根据权利要求10所述的方法,其特征在于,利用如下公式统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值:
Score ( app i , tag t ) = &lambda; &times; Score ( app i , tag t ) old + ( 1 - &lambda; ) | SimSet app i | &Sigma; app j &Element; SimSet app i ( Sim ( aPP i , app j ) &times; Score ( app j , tag t ) old )
其中,Score(appi,tagt)为最相关移动应用集合中移动应用appj的概念标签tagt或属性标签tagt对目标移动应用appi的权重值,λ为阻尼系数,
Figure FDA00002676944100042
为最相关移动应用集合中移动应用的个数;Score(appi,tagt)old为概念标签tagt或属性标签tagt之前的权重值,Sim(appi,appj)为移动应用appi与移动应用appj之间的相关性。
12.一种移动应用的本体库的构建系统,其特征在于,该系统包括:匹配单元、统计单元、标注单元;其中,
匹配单元,用于将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配;
统计单元,用于为匹配到的概念标签和属性标签分配权重值;
标注单元,依据权重值由高到低排序后的概念标签,从预先生成的概念标签树中获得概念标签路径;依据概念标签路径中的概念标签查询预先生成的概念标签与属性标签的关联关系,获得属性标签;利用获得的概念标签路径及关联的属性标签标注所述移动应用。
13.根据权利要求12所述的系统,其特征在于,该系统还包括:用于生成概念标签集合和属性标签集合的标签生成单元;
标签生成单元在生成概念标签集合和属性标签集合时,具体包括:依据预设的移动应用概念的文本模式和移动应用属性的文本模式,从移动应用的简介文本中抽取出概念标签和属性标签;将用户检索的query与依据移动应用的简介文本生成的概念标签合并得到概念标签集合,利用依据移动应用的简介文本生成的属性标签生成属性标签集合。
14.根据权利要求12所述的系统,其特征在于,
所述概念标签树依据概念标签集合中概念标签之间的从属关系生成,并包括一个以上概念标签路径,所述概念标签路径包括一个以上概念标签。
15.根据权利要求12所述的系统,其特征在于,所述匹配单元在将数据库中移动应用的标题和简介文本分别在预先生成的概念标签集合和属性标签集合中进行匹配时,具体包括:
对数据库中移动应用的标题和简介文本进行切词,生成一个以上分词,依据预设的同义词表,找到生成的分词的同义词,依据生成的分词和找到的同义词分别在概念标签集合和属性标签集合中进行字符串匹配;
依据预设的移动应用概念的文本模式对移动应用的标题和简介文本分别进行模式匹配。
16.根据权利要求12述的系统,其特征在于,所述统计单元利用如下公式获得概念标签和属性标签的权重值:
Score ( app , tag ) = &Sigma; ( WordScore tag + PatternScore tag ) + &Sigma; ( &Sigma; ( WordScore tag + PatternScore child tag ) )
其中,Score(app,tag)为移动应用app中标签tag的权重值,∑(WordScoretag+PatternScoretag)为在移动应用app中标签tag各次成功匹配的权重值的和,
Figure FDA00002676944100052
为在移动应用app中标签tag的子标签childtag各次成功匹配的权重值的和,为移动应用app中标签tag的各子标签childtag的权重值的和。
17.根据权利要求16所述的系统,其特征在于,所述统计单元利用如下公式获得移动应用app中标签tag的字符串匹配的权重值WordScoretag
Figure FDA00002676944100054
其中,BaseScoretitle为在标题中匹配成功的标签的基准权重值,ReverseSiteword为在标题中匹配成功的标签在标题的切词结果中依据由后向前的顺序的所处位置,BaseScorecontent为在简介文本中匹配成功的标签的基准权重值,Siteclause为在标题中匹配成功的标签在简介文本的切词结果中依据由前向后的顺序的所处短句的位置。
18.根据权利要求16所述的系统,其特征在于,所述统计单元利用如下公式获得移动应用app中标签tag的模式匹配的权重值PatternScoretag
其中,StrictPatternScoretag等于10,LoosePatternScoretag等于8。
19.根据权利要求12所述的系统,其特征在于,所述标注单元在从预先生成的概念标签树中获得概念标签路径时,具体包括:
a、依据权重值最高的概念标签,从所述概念标签树获得所述概念标签的所有父概念标签,生成第一概念标签路径;
b、判断下一个权重值最高的概念标签与预设阈值
Figure FDA00002676944100062
的大小,当所述概念标签的权重值大于等于预设阈值
Figure FDA00002676944100063
时执行c,反之执行e;
c、依据概念标签树判断所述概念标签与第一概念标签路径的关系;当所述概念标签属于第一概念标签路径时执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签是第一概念标签路径中最后一级概念标签的子孙标签时,将所述概念标签添加到第一概念标签路径后执行b,直到当前概念标签是权重值最小的概念标签时执行e;当所述概念标签与第一概念标签路径冲突时执行d;
d、依据所述概念标签查询所述概念标签树,获得该概念标签的所有父概念标签,生成新的概念标签路径,并执行b,直到当前概念标签是权重值最小的概念标签时执行e;
e、将确定的概念标签路径作为最终的概念标签路径。
20.根据权利要求12所述的系统,其特征在于,所述标注单元在获得属性标签时,具体包括:
依据确定的概念标签路径中的概念标签,查询预设的属性标签与概念标签树中概念标签的关联关系,得到所述概念标签路径所关联的属性标签;
判断所述属性标签的权重值与预设阈值的大小,得到权重值大于等于预设阈值
Figure FDA00002676944100071
的属性标签。
21.根据权利要求12所述的系统,其特征在于,该系统还包括:
校验单元,用于依据用户浏览或下载的移动应用之间的相关性,得到用户浏览或下载的移动应用对应的最相关移动应用,并统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值;将最相关移动应用的每个概念标签相对于移动应用的权重值相加,获得最相关移动应用的概念标签路径的权重值;依据最相关移动应用的属性标签相对于移动应用的权重值,获得属性标签的归一化权重值;当最相关移动应用的概念标签路径的权重值与移动应用的概念标签路径的权重值的差值超过预设阈值Threadholdchange时,或当归一化权重值与移动应用的属性标签的差值超过预设阈值Threadholdchange时进行报警。
22.根据权利要求21所述的系统,其特征在于,所述校验单元利用如下公式统计最相关移动应用的概念标签或属性标签相对于所述移动应用的权重值:
Score ( app i , tag t ) = &lambda; &times; Score ( app i , tag t ) old + ( 1 - &lambda; ) | SimSet app i | &Sigma; app j &Element; SimSet app i ( Sim ( aPP i , app j ) &times; Score ( app j , tag t ) old )
其中,Score(appi,tagt)为最相关移动应用集合中移动应用appj的概念标签tagt或属性标签tagt对目标移动应用appi的权重值,λ为阻尼系数,
Figure FDA00002676944100073
为最相关移动应用集合中移动应用的个数;Score(appi,tagt)old为概念标签tagt或属性标签tagt之前的权重值,Sim(appi,appj)为移动应用appi与移动应用appj之间的相关性。
CN201210585905.0A 2012-12-28 2012-12-28 一种移动应用的本体库的构建方法及系统 Active CN103020293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210585905.0A CN103020293B (zh) 2012-12-28 2012-12-28 一种移动应用的本体库的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210585905.0A CN103020293B (zh) 2012-12-28 2012-12-28 一种移动应用的本体库的构建方法及系统

Publications (2)

Publication Number Publication Date
CN103020293A true CN103020293A (zh) 2013-04-03
CN103020293B CN103020293B (zh) 2019-02-05

Family

ID=47968896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210585905.0A Active CN103020293B (zh) 2012-12-28 2012-12-28 一种移动应用的本体库的构建方法及系统

Country Status (1)

Country Link
CN (1) CN103020293B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366013A (zh) * 2013-07-29 2013-10-23 腾讯科技(深圳)有限公司 一种数据处理的方法及服务器
CN103514289A (zh) * 2013-10-08 2014-01-15 北京百度网讯科技有限公司 一种兴趣本体库构建方法及装置
CN104123285A (zh) * 2013-04-24 2014-10-29 阿里巴巴集团控股有限公司 搜索结果的导航方法及装置
CN105279208A (zh) * 2014-07-25 2016-01-27 北京龙源创新信息技术有限公司 一种数据标示方法和管理系统
CN105631025A (zh) * 2015-12-29 2016-06-01 腾讯科技(深圳)有限公司 一种查询标签的归一化处理方法和装置
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN106845644A (zh) * 2015-12-10 2017-06-13 Tcl集团股份有限公司 一种通过相互关系学习用户及移动应用的联系的异构网络
CN106940710A (zh) * 2017-02-27 2017-07-11 广东欧珀移动通信有限公司 信息推送方法及装置
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN108319606A (zh) * 2017-01-16 2018-07-24 北大方正集团有限公司 专业数据库的构建方法和装置
CN110457325A (zh) * 2019-08-12 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111368171A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 一种关键词推荐的方法、相关装置以及存储介质
CN111950270A (zh) * 2019-04-29 2020-11-17 中国移动通信集团湖北有限公司 通信网络告警关联方法、装置及计算设备
CN112035750A (zh) * 2020-09-17 2020-12-04 上海二三四五网络科技有限公司 一种用户标签扩展的控制方法及装置
CN112395881A (zh) * 2020-11-27 2021-02-23 北京筑龙信息技术有限责任公司 物料标签的构建方法、装置、可读存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364239A (zh) * 2008-10-13 2009-02-11 中国科学院计算技术研究所 一种分类目录自动构建方法及相关系统
US20090300482A1 (en) * 2006-08-30 2009-12-03 Compsci Resources, Llc Interactive User Interface for Converting Unstructured Documents
CN102750375A (zh) * 2012-06-21 2012-10-24 武汉大学 一种基于随机游走的服务和标签推荐方法
CN102760142A (zh) * 2011-04-29 2012-10-31 北京百度网讯科技有限公司 一种针对搜索请求抽取搜索结果主题标签的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300482A1 (en) * 2006-08-30 2009-12-03 Compsci Resources, Llc Interactive User Interface for Converting Unstructured Documents
CN101364239A (zh) * 2008-10-13 2009-02-11 中国科学院计算技术研究所 一种分类目录自动构建方法及相关系统
CN102760142A (zh) * 2011-04-29 2012-10-31 北京百度网讯科技有限公司 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN102750375A (zh) * 2012-06-21 2012-10-24 武汉大学 一种基于随机游走的服务和标签推荐方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123285B (zh) * 2013-04-24 2018-04-06 阿里巴巴集团控股有限公司 搜索结果的导航方法及装置
CN104123285A (zh) * 2013-04-24 2014-10-29 阿里巴巴集团控股有限公司 搜索结果的导航方法及装置
CN103366013B (zh) * 2013-07-29 2016-03-02 腾讯科技(深圳)有限公司 一种数据处理的方法及服务器
CN103366013A (zh) * 2013-07-29 2013-10-23 腾讯科技(深圳)有限公司 一种数据处理的方法及服务器
CN103514289A (zh) * 2013-10-08 2014-01-15 北京百度网讯科技有限公司 一种兴趣本体库构建方法及装置
CN105279208A (zh) * 2014-07-25 2016-01-27 北京龙源创新信息技术有限公司 一种数据标示方法和管理系统
CN106845644A (zh) * 2015-12-10 2017-06-13 Tcl集团股份有限公司 一种通过相互关系学习用户及移动应用的联系的异构网络
CN106845644B (zh) * 2015-12-10 2020-11-17 Tcl科技集团股份有限公司 一种通过相互关系学习用户及移动应用的联系的异构网络
CN105631025A (zh) * 2015-12-29 2016-06-01 腾讯科技(深圳)有限公司 一种查询标签的归一化处理方法和装置
CN105631025B (zh) * 2015-12-29 2021-09-28 腾讯科技(深圳)有限公司 一种查询标签的归一化处理方法和装置
CN106709040B (zh) * 2016-12-29 2021-02-19 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN108319606B (zh) * 2017-01-16 2021-10-26 北大方正集团有限公司 专业数据库的构建方法和装置
CN108319606A (zh) * 2017-01-16 2018-07-24 北大方正集团有限公司 专业数据库的构建方法和装置
CN106940710B (zh) * 2017-02-27 2020-03-24 Oppo广东移动通信有限公司 信息推送方法及装置
CN106940710A (zh) * 2017-02-27 2017-07-11 广东欧珀移动通信有限公司 信息推送方法及装置
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN106951494B (zh) * 2017-03-14 2022-01-04 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN111950270A (zh) * 2019-04-29 2020-11-17 中国移动通信集团湖北有限公司 通信网络告警关联方法、装置及计算设备
CN111950270B (zh) * 2019-04-29 2023-11-24 中国移动通信集团湖北有限公司 通信网络告警关联方法、装置及计算设备
CN110457325A (zh) * 2019-08-12 2019-11-15 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111368171A (zh) * 2020-02-27 2020-07-03 腾讯科技(深圳)有限公司 一种关键词推荐的方法、相关装置以及存储介质
CN112035750A (zh) * 2020-09-17 2020-12-04 上海二三四五网络科技有限公司 一种用户标签扩展的控制方法及装置
CN112395881A (zh) * 2020-11-27 2021-02-23 北京筑龙信息技术有限责任公司 物料标签的构建方法、装置、可读存储介质及电子设备

Also Published As

Publication number Publication date
CN103020293B (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN103020293A (zh) 一种移动应用的本体库的构建方法及系统
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN102495872B (zh) 对移动设备用户进行个性化新闻推荐的方法和装置
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN102163198B (zh) 提供新词或热词的方法及系统
CN103136360A (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN110298033A (zh) 关键词语料标注训练提取工具
CN102708096A (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN106547864B (zh) 一种基于查询扩展的个性化信息检索方法
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN102033950A (zh) 电子产品命名实体自动识别系统的构建方法及识别方法
CN101853308A (zh) 一种个性化元搜索的方法及其应用终端
CN103268348A (zh) 一种用户查询意图识别方法
CN104598588A (zh) 基于双聚类的微博用户标签自动生成算法
CN101782998A (zh) 一种违规在线产品信息的智能判断方法与系统
CN105550189A (zh) 基于本体的信息安全事件智能检索系统
CN103294781A (zh) 一种用于处理页面数据的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant