CN104133877B - 软件标签的生成方法和装置 - Google Patents

软件标签的生成方法和装置 Download PDF

Info

Publication number
CN104133877B
CN104133877B CN201410359415.8A CN201410359415A CN104133877B CN 104133877 B CN104133877 B CN 104133877B CN 201410359415 A CN201410359415 A CN 201410359415A CN 104133877 B CN104133877 B CN 104133877B
Authority
CN
China
Prior art keywords
software
label
download
log information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410359415.8A
Other languages
English (en)
Other versions
CN104133877A (zh
Inventor
柳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410359415.8A priority Critical patent/CN104133877B/zh
Publication of CN104133877A publication Critical patent/CN104133877A/zh
Application granted granted Critical
Publication of CN104133877B publication Critical patent/CN104133877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明实施例公开了一种软件标签的生成方法和装置。所述方法包括:获取与软件下载行为对应的下载日志信息,根据所述下载日志信息,生成所述软件的软件标签;所述装置包括:下载日志信息获取单元,用于获取与软件下载行为对应的下载日志信息,软件标签生成单元,用于根据所述下载日志信息,生成所述软件的软件标签。本发明通过获取与软件下载行为对应的下载日志信息,根据下载日志信息,生成软件标签的技术手段,解决了现有技术中软件标签中包括的标签信息内容比较单一的技术问题,丰富了软件标签中包含的信息种类,使得软件标签不仅能够描述软件功能,还可以用来描述用户的行为,进而可以用来进行用户行为分析,大大扩展了软件标签的功能。

Description

软件标签的生成方法和装置
技术领域
本发明实施例涉及计算机技术,尤其涉及一种软件标签的生成方法和装置。
背景技术
互联网是人们获取信息的重要途径,传统互联网的主要特点是用户在寻找自己感兴趣的事物时,需要通过浏览器进行大量的搜索,并需要人工过滤掉大量不相关的结果。
随着软件技术的不断发展,人们对各种网络应用软件的需求越来越广泛,相应的,各种不同种类的软件也被不断开发和应用,极大的丰富和方便了人们的生活。同时,如何使用户从众多的软件中便捷的获取所需的和感兴趣的软件也成为一个非常重要的研究课题。
现有技术中,软件开发商会向自己开发的软件中添加软件标签,以方便搜索引擎(例如,百度搜索或者谷歌搜索等)或者软件下载助手(例如,百度手机软件下载助手或者百度PC(Personal Computer,个人电脑)软件下载助手等)根据该软件标签将相符合的软件提供至需求用户,以及帮助用户快速了解该软件的主要功能等。例如:Photoshop软件中包括的软件标签为:“图片编辑软件”,当用户通过输入搜索关键词的方式在搜索引擎中搜索图片编辑类的软件时,搜索引擎将该搜索关键词与各个软件的软件标签进行匹配后,会将Photoshop软件作为搜索结果提供给用户。但是,这类软件标签中包括的标签信息内容比较单一,仅仅是对软件的主要功能的描述,无法满足人们日益增长的个性化、便捷化需求。
发明内容
有鉴于此,本发明实施例提供一种软件标签的生成方法和装置,以丰富软件标签中包含的信息种类,满足人们日益增长的个性化、便捷化需求。
在第一方面,本发明实施例提供了一种软件标签的生成方法,包括:
获取与软件下载行为对应的下载日志信息;
根据所述下载日志信息,生成所述软件的软件标签。
在第二方面,本发明实施例提供了一种软件标签的生成装置,包括:
下载日志信息获取单元,用于获取与软件下载行为对应的下载日志信息;
软件标签生成单元,用于根据所述下载日志信息,生成所述软件的软件标签。
本发明实施例通过获取与软件下载行为对应的下载日志信息,根据所述下载日志信息,生成所述软件的软件标签的技术手段,解决了现有技术中软件标签中包括的标签信息内容比较单一的技术问题,丰富了软件标签中包含的信息种类,使得软件标签不仅能够描述软件功能,还可以用来描述用户的行为,进而可以用来进行用户行为分析,大大扩展了软件标签的功能。
附图说明
图1是本发明第一实施例的一种软件标签的生成方法的流程图;
图2是本发明第二实施例的一种软件标签的生成方法的流程图;
图3是本发明第三实施例的一种软件标签的生成方法的流程图;
图4是本发明第四实施例的一种软件标签的生成方法的流程图;
图5是本发明第五实施例的一种软件标签的生成方法的流程图;
图6是本发明第六实施例的一种软件标签的生成装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
第一实施例
图1是本发明第一实施例的一种软件标签的生成方法的流程图,本实施例的方法可以由软件标签的生成装置来执行,该装置可通过硬件和/或软件的方式实现,一般可集成于用于为软件添加标签的服务器内。本实施例的方法具体包括如下操作:
110、获取与软件下载行为对应的下载日志信息。
在本实施例中,软件标签服务器获取与软件下载行为对应的下载日志信息。
一般来说,用户下载软件的渠道主要包括:通过在搜索引擎入口(典型的,搜索引擎的搜索输入框)中输入搜索字符串后,直接在搜索引擎返回的搜索结果界面中点击下载;或者
通过在搜索引擎入口中输入搜索字符串后,在搜索引擎返回的搜索结果中点击进入对应的软件下载网站的网址后,完成软件下载;或者通过手机软件下载助手或者PC软件下载助手来下载软件等。
其中,不论用户通过何种渠道完成软件下载,用户的软件下载行为都会被记录到相应的日志信息中。举例而言,如果用户通过搜索引擎完成软件下载或者点击进入软件下载网站,与上述点击操作或者下载操作对应的日志信息会作为搜索引擎日志信息中的一个日志条目存储于搜索引擎服务器中或者用户终端设备中;如果用户通过软件下载助手完成软件下载,上述日志信息会作为软件下载助手日志信息中的一个日志条目存储于软件下载助手的服务器中或者用户终端设备中。
在本实施例中,软件标签服务器可以从用户终端设备、搜索引擎服务器、或者软件下载助手的服务器中获取上述下载日志信息,对此不进行限制。
一般来说,日志信息中包括有用户的操作类型,例如:下载、查询或者点击等。因此,软件标签服务器通过简单的类型匹配操作,即可获取日志信息中的下载日志信息。
在本实施例的一个优选的实施方式中,可以将搜索引擎日志中与下载操作对应的日志信息以及与点击软件下载网站操作对应的日志信息作为下载日志信息;和/或
将软件下载助手日志信息中与下载操作对应的日志信息作为下载日志信息。
其中,下载日志信息中一般可以包括:用户标识、软件名称、软件版本、软件下载时间等与用户下载行为相关的信息。
120、根据所述下载日志信息,生成所述软件的软件标签。
在本实施例中,软件标签服务器根据所述下载日志信息,生成所述软件的软件标签。
其中,软件的软件标签具体为所述软件的描述信息。例如,软件功能信息,下载软件的主要人群的信息以及与该软件相似的关联软件的信息等),其一般可与软件的安装包或者软件的软件名称对应存储于所述软件标签服务器中。例如,与Photoshop软件对应的软件标签为:“图片编辑软件”、“照片美化”和“美工”。
其中,软件标签将结合用户对软件的下载行为来设置。下载行为可以通过多种数据形式来体现,例如触发此下载行为的下载来源、与此下载行为对应的的查询词、下载次数、下载时间等,均可作为设置软件标签的参考依据。其中,所述下载来源为与所述此下载行为相关联的另一个下载行为所下载的软件。
例如,用户首先下载了一个软件“Microsoft Visual Studio”后,接着下载了另一个软件“Python”,则可以将Microsoft Visual Studio软件作为触发用户下载“Python”软件的下载行为的下载来源;又例如,用户通过在搜索引擎输入“软件工程师”后下载“Microsoft Visual Studio”软件,则可以将“软件工程师”作为与所述下载行为对应的查询词等。
一般来说,每一条下载日志信息中均包括用户通过搜索引擎入口输入的查询词。因此,软件标签服务器可以通过分析下载日志信息,获取用户下载某一软件之前通过搜索引擎输入的搜索字符串,进而生成与该软件对应的软件标签;也可以通过分析下载日志信息,获取同一用户下载的多个软件的相关性,进而生成与该软件对应的软件标签,对此不进行限制。
其中,对上述两种根据下载日志信息,生成所述软件的软件标签的具体详细介绍,请参见后文实施例。
本发明实施例通过获取与软件下载行为对应的下载日志信息,根据所述下载日志信息,生成所述软件的软件标签的技术手段,解决了现有技术中软件标签中包括的标签信息内容比较单一的技术问题,丰富了软件标签中包含的信息种类,使得软件标签不仅能够描述软件功能,还可以用来描述用户的行为,进而可以用来进行用户行为分析,大大扩展了软件标签的功能。
第二实施例
图2是本发明第二实施例的一种软件标签生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,优选的将操作根据所述下载日志信息,生成所述软件的软件标签优化为:通过根据搜索引擎日志信息获取的所述下载日志信息,获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串;对所述搜索字符串进行分词处理,获取至少一个搜索分词;统计所述至少一个搜索分词的搜索次数,并将搜索次数大于预定频率阈值的高频搜索词作为所述软件的软件标签。
相应的,本实施例的方法包括如下操作:
210、获取与软件下载行为对应的下载日志信息。
在本实施例中,软件标签服务器获取搜索引擎日志信息中的下载日志信息,进而为软件生成软件标签。
其中,所述下载日志信息中包括:在搜索引擎日志信息中与下载操作对应的日志信息以及与点击软件下载网站操作对应的日志信息。
其中,软件标签服务器可以从搜索引擎服务器中存储的搜索引擎日志信息中获取下载日志信息,也可以从用户终端设备中存储的搜索引擎日志信息中获取下载日志信息,对此不进行限制。
220、通过根据搜索引擎日志信息获取的所述下载日志信息,获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串。
在本实施例中,软件标签服务器在根据搜索引擎日志信息获取的所述下载日志信息中,获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串。
一般来说,每一条搜索引擎日志信息中均包括用户通过搜索引擎入口输入的查询词。其中,与用户点击操作对应的搜索引擎日志信息中还包括:点击操作的时间和点击的网址;与用户下载操作对应的搜索引擎日志信息中还包括:下载操作的时间以及下载软件的链接。
在本实施例中,获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串可以包括:获取在所述软件的下载时刻之前,同一用户终端在第一预定时间区间内通过搜索引擎入口输入的搜索字符串,作为与所述软件对应的搜索字符串;和/或
获取在所述软件的下载时刻之前,同一用户终端通过搜索引擎入口输入的预定个数的搜索字符串,作为与软件对应的搜索字符串。
举例而言,软件标签服务器获取了一条与下载操作对应的下载日志信息,读取该下载日志信息中包括的用户标识为“202.206.102.169”,软件下载时间为“2014-07-0115:20:30”,用户输入的查询词为“聊天工具”,下载软件的链接为:“ttp://dlsw.baidu.com/sw-search-sp/gaosu/2014_06_30_15/bind1/12035/BaiduHi_setup4.5.0.2_12035_BDdl.exe”。
软件标签服务器获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串的过程可以为:
首先,可以根据下载软件的链接,确定下载软件的名称为“百度Hi”;
之后,根据软件下载时间,确定第一预定时间区间,举例而言,可以将所述第一预定时间区间设定为所述软件下载时间开始前的一个10分钟的区间,即从15:10:30到15:20:30的时间区间内;
然后,在所有的搜索引擎日志中,查找用户标识为“202.206.102.169”,操作时间位于15:10:30~15:20:30的时间区间内的日志信息,并获取上述各日志信息中用户输入的查询词,作为与软件“百度Hi”对应的搜索字符串。
当然,软件标签服务器获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串的过程也可以为:
首先,可以根据下载软件的链接,确定下载软件的名称为“百度Hi”;
之后,在所有的搜索引擎日志中,查找用户标识为“202.206.102.169”,操作时间位15:20:30之前的预先设定的个数(例如,5个、6个或者7个等,对此不进行限制)的日志信息,并获取上述各日志信息中用户输入的查询词,作为与软件“百度Hi”对应的搜索字符串。
这样设置的原因主要是考虑用户一系列的输入行为,可能仅仅是为了下载一个软件而进行的搜索。这些输入行为所对应的查询词,均与下载的软件具有相关性。例如,用户首先通过搜索引擎入口输入的查询词为“照片去皱”,之后用户通过初步检索后,确定照片去皱为照片美化功能,继续输入新的查询词“照片美化”,之后用户通过搜索引擎直接在搜索引擎返回的搜索结果界面中点击“美图秀秀”软件的下载链接,完成软件下载。此时,标签服务器会将“照片去皱”以及“照片美化”同时作为与“美图秀秀”软件对应的搜索字符串。
230、对所述搜索字符串进行分词处理,获取至少一个搜索分词。
在本实施例中,软件标签服务器对所述搜索字符串进行分词处理,获取至少一个搜索字符串。
一般来说,对于同样的查询需求,不同用户输入的查询词可能各不相同。例如,针对同样的照片去皱需求,可能有的用户直接输入“照片去皱”,而有的用户会输入“如果实现照片去皱”或者“怎样照片去皱”等。因此,本实施例的方法通过采用对获取的搜索字符串进行分词后统计各个分词使用频率的手段,去除一些诸如“如何”、“实现”或者“怎样”等非高频词,仅保留高频词作为软件的软件标签。
在本实施例中,可以采用基于词典的分词方法、基于统计的分词方法或者基于规则的分词方法,对所述搜索字符串进行分词处理,对此不进行限制。
240、统计所述至少一个搜索分词的搜索次数,并将搜索次数大于预定频率阈值的高频搜索词作为所述软件的软件标签。
在本实施例中,软件标签服务器统计针对同一软件的各个搜索分词的搜索次数,并将搜索次数大于预定频率阈值的高频搜索词作为所述软件的软件标签。
本发明实施例通过使用用户的搜索行为来生成软件标签的技术手段,解决了现有技术中软件标签中包括的标签信息内容比较单一的技术问题,丰富了软件标签中包含的信息种类,进而可以通过软件标签来进行用户行为分析,大大扩展了软件标签的功能。
第三实施例
图3是本发明第三实施例的一种软件标签的生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,优选的将操作根据所述下载日志信息,生成所述软件的软件标签优化为:如果根据所述下载日志信息,确定同一用户终端在第二预定时间区间内下载至少两个软件,将所述至少两个软件中任意两个软件之间的关联权值增加第一权重值;如果所述关联权值大于第一预定权重阈值,获取与所述关联权值对应的第一软件和第二软件;将所述第二软件的软件名称作为所述第一软件的软件标签;将所述第一软件的软件名称作为所述第二软件的软件标签。
相应的,本实施例的方法包括如下操作:
310、获取与软件下载行为对应的下载日志信息。
320、判断同一用户终端在第二预定时间区间内是否下载至少两个软件:若是,执行330;否则,返回320。
在本实施例中,软件标签服务器根据同一用户终端下载软件的关联性,生成软件标签。举例而言,如果对于软件工程师这个职业来说,常用办公软件包括Microsoft VisualStudio、Python和Eclipse等软件,则某一个软件工程师在参加工作后,很可能在一段时间内先后下载上述几款软件。因此,软件标签服务器可以将上述三款软件中的任意一款的软件名称分别作为另外两款软件的软件标签,这样设置的好处是,当某一用户下载其中一款软件后,可以将另外两款软件作为关联软件提供给用户,以实现最大程度的命中用户下载需求,提高用户体验的技术效果。
在本实施例中,软件标签服务器根据下载日志信息,判断同一用户终端在第二预定时间区间内是否下载至少两个软件,若是,则确定上述至少两个软件之前具有相关性,则将上述至少两个软件中任意两个软件之间的关联权值增加第一权重值。
软件标签服务器不断分析各个下载日志信息以不断更新任意两个软件之间的第一权重值,如果第一权重值大于第一预定权重阈值,则将与所述第一权重值对应的两个软件的名称分别作为对方的软件标签。
330、将所述至少两个软件中任意两个软件之间的关联权值增加第一权重值。
340、判断所述关联权值是否大于第一预定权重阈值:若是,执行350;否则,返回320。
当然,本领域技术人员可以理解的是,在实际应用中,可以根据实际情况对第二预定时间区间、第一权重值以及第一预定权重阈值进行预设,对此不进行限制。
350、获取与所述关联权值对应的第一软件和第二软件。
360、将所述第二软件的软件名称作为所述第一软件的软件标签。
370、将所述第一软件的软件名称作为所述第二软件的软件标签。
本发明实施例通过分析用户下载软件的相关性来生成软件标签的技术手段,解决了现有技术中软件标签中包括的标签信息内容比较单一的技术问题,丰富了软件标签中包含的信息种类,进而可以通过软件标签来确定软件推荐策略,大大扩展了软件标签的功能。
第四实施例
图4是本发明第四实施例的一种软件标签生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,优选的还包括:获取所述软件的软件标签中包括的关联软件名称;根据与所述软件的使用行为对应的使用日志信息,获取所述软件的软件启动时间;如果在与所述软件的软件启动时间对应的第三预定时间区间内,所述关联软件未被启动,将所述关联软件与所述软件之间的非关联权值增加第二权重值;如果所述非关联权值大于第二预定权重阈值,在所述软件的软件标签中去除所述关联软件名称。
相应的,本实施例的方法包括如下操作:
410、获取与软件下载行为对应的下载日志信息。
420、根据所述下载日志信息,生成所述软件的软件标签。
430、获取所述软件的软件标签中包括的关联软件名称。
在本实施例中,将一个软件的软件标签中包括的其他软件的软件名称,作为该软件的关联软件名称。
440、根据与所述软件的使用行为对应的使用日志信息,获取所述软件的一个软件启动时间。
在本实施例中,软件标签服务器根据与所述软件的使用行为对应的使用日志信息,获取所述软件的一个软件启动时间。
一般来说,用户对一个软件的每一个操作,都会记录于软件的使用日志信息中,典型的,上述使用日志信息一般存储于用户终端中软件安装文件的特定目录下。
在本实施例中,软件标签服务器获取用户终端中的软件使用日志信息并根据该使用日志信息,获取软件的软件启动时间。
450、判断在与所述软件的软件启动时间对应的第三预定时间区间内,与所述软件启动时间对应的同一用户终端的所述关联软件是否被启动:若是,返回440;否则,执行460。
在本实施例中,考虑到用户在第二预定时间区间内连续下载的多个软件可能本身并没有内容上的相关性,例如,用户在新购买的手机或者电脑后连续下载的多个软件彼此之间的相关性就较差,因此,一个软件标签中包括的多个关联软件名称,很可能与对应的软件并不具有很强的相关性,通过本实施例的方法,可以将这些关联性不强的关联软件名称从软件标签去除掉。
本实施例的实现思路如下:软件标签服务器通过获取软件的软件启动时间,确定第三预定时间区间,并判断在第三预定时间区间内,与所述软件启动时间对应的同一用户终端的关联软件是否被启动。如果用户启动所述软件后,也会以很大的概率启动关联软件,则判断关联软件与所述软件的相关性很强,则继续将关联软件名称作为所述软件的软件标签;否则,将该关联软件名称从所述软件的软件标签中去除。
举例而言,如果一个软件的软件启动时间为2014-7-115:30:00,将该软件启动时间前后一小时所组成的时间区间作为第三预定时间区间,即:14:30:00~16:30:00。
460、将所述关联软件与所述软件之间的非关联权值增加第二权重值。
470、判断所述非关联权值是否大于第二预定权重阈值:若是,执行480;否则,返回440。
当然,本领域技术人员可以理解的是,在实际应用中,可以根据实际情况对第三预定时间区间、第二权重值以及第二预定权重阈值进行预设,对此不进行限制。
480、在所述软件的软件标签中去除所述关联软件名称。
本发明实施例通过根据对软件以及软件的关联软件的启动时间进行分析,去除软件标签中与软件关联性较差的关联软件名称的技术手段,进一步提高了软件标签的准确性,当通过软件标签来确定软件推荐策略时,进一步提高了推送信息的命中率,提高了用户体验。
第五实施例
图5是本发明第五实施例的一种软件标签生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,优选的还包括:获取所述软件的软件标签中包括的关联软件名称;如果接收到所述软件的软件删除信息,获取与所述软件删除信息对应的用户终端的已安装软件列表;如果所述已安装软件列表中包括所述关联软件名称,将所述关联软件与所述软件之间的非关联权值增加第三权重值;如果所述非关联权值大于第三预定权重阈值,在所述软件的软件标签中去除所述关联软件名称。
相应的,本实施例的方法具体包括如下操作:
510、获取与软件下载行为对应的下载日志信息。
520、根据所述下载日志信息,生成所述软件的软件标签。
530、获取所述软件的软件标签中包括的关联软件名称。
在本实施例中,将一个软件的软件标签中包括的其他软件的软件名称,作为该软件的关联软件名称。
540、判断是否获取到所述软件的软件删除信息:若是,执行550;否则,返回540。
在本实施例中,用户对一个软件的删除操作同样会记录到软件的行为日志信息中,软件标签服务器可以通过分析行为日志信息(例如,字符串匹配或者操作类型匹配等分析方式),获取其中的软件删除信息。
本实施例的实现思路如下:软件标签服务器根据获取的所述软件的软件删除信息,在与该软件删除信息对应的用户终端的已安装软件列表中查找所述软件的关联软件,如果用户删除所述软件后,关联软件也以很大的概率被删除,判断关联软件与所述软件之间的相关性很强,则继续将关联软件名称作为所述软件的软件标签;否则,将该关联软件名称从所述软件的软件标签中去除。
550、获取与所述软件删除信息对应的用户终端的已安装软件列表。
在本实施例中,考虑到一种可能的应用场景为:用户先删除所述软件,间隔一段时间后再删除关联软件,此时,为了使得最终的分析结果更加精确,可以设定一定的门限时间(例如,1小时、5小时或者24小时等),当软件标签服务器在获取软件删除信息后,间隔所述门限时间后,获取与所述软件删除信息对应的用户终端的已安装软件列表。
560、判断所述已安装软件列表中是否包括所述关联软件名称:若是,执行570;否则,返回540。
570、将所述关联软件与所述软件之间的非关联权值增加第三权重值。
580、判断所述非关联权值是否大于第三预定权重阈值:若是,执行590;否则,返回540。
当然,本领域技术人员可以理解的是,在实际应用中,可以根据实际情况对门限时间、第三权重值以及第三预定权重阈值进行预设,对此不进行限制。
590、在所述软件的软件标签中去除所述关联软件名称。
本发明实施例通过根据用户对软件以及软件的关联软件的软件删除情况进行分析,去除软件标签中与软件关联性较差的关联软件名称的技术手段,进一步提高了软件标签的准确性,当通过软件标签来确定软件推荐策略时,进一步提高了推送信息的命中率,提高了用户体验。
在上述各实施例的基础上,还包括:将至少一个所述软件的软件标签的集合,作为软件标签库。进一步的,还可以将软件标签库中包括的不同版本的同名软件的软件标签进行合并处理。
第六实施例
在图6中示出了本发明第六实施例的一种软件标签生成装置的结构图。如图6所示,所述装置包括:
下载日志信息获取单元61,用于获取与软件下载行为对应的下载日志信息。
软件标签生成单元62,用于根据所述下载日志信息,生成所述软件的软件标签。
本发明实施例通过获取与软件下载行为对应的下载日志信息,根据所述下载日志信息,生成所述软件的软件标签的技术手段,解决了现有技术中软件标签中包括的标签信息内容比较单一的技术问题,丰富了软件标签中包含的信息种类,使得软件标签不仅能够描述软件功能,还可以用来描述用户的行为,进而可以用来进行用户行为分析,大大扩展了软件标签的功能。
在上述各实施例的基础上,所述软件标签生成单元具体可以包括:
搜索字符串获取子单元,用于通过根据搜索引擎日志信息获取的所述下载日志信息,获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串;
搜索分词获取子单元,用于对所述搜索字符串进行分词处理,获取至少一个搜索分词;
标签生成子单元,用于统计所述至少一个搜索分词的搜索次数,并将搜索次数大于预定频率阈值的高频搜索词作为所述软件的软件标签。
在上述各实施例的基础上,所述搜索字符串获取子单元具体可以用于:
获取在所述软件的下载时刻之前,同一用户终端在第一预定时间区间内通过搜索引擎入口输入的搜索字符串,作为与所述软件对应的搜索字符串;和/或
获取在所述软件的下载时刻之前,同一用户终端通过搜索引擎入口输入的预定个数的搜索字符串,作为与所述软件对应的搜索字符串。
在上述各实施例的基础上,所述软件标签生成单元具体可以用于:
如果根据所述下载日志信息,确定同一用户终端在第二预定时间区间内下载至少两个软件,将所述至少两个软件中任意两个软件之间的关联权值增加第一权重值;
如果所述关联权值大于第一预定权重阈值,获取与所述关联权值对应的第一软件和第二软件;
将所述第二软件的软件名称作为所述第一软件的软件标签;将所述第一软件的软件名称作为所述第二软件的软件标签。
在上述各实施例的基础上,还可以包括软件标签去除单元,用于:
获取所述软件的软件标签中包括的关联软件名称;
根据与所述软件的使用行为对应的使用日志信息,获取所述软件的软件启动时间;
如果在与所述软件的软件启动时间对应的第三预定时间区间内,与所述软件启动时间对应的同一用户终端的所述关联软件未被启动,将所述关联软件与所述软件之间的非关联权值增加第二权重值;
如果所述非关联权值大于第二预定权重阈值,在所述软件的软件标签中去除所述关联软件名称。
在上述各实施例的基础上,还可以包括软件标签去除单元,用于:
获取所述软件的软件标签中包括的关联软件名称;
如果获取到所述软件的软件删除信息,获取与所述软件删除信息对应的用户终端的已安装软件列表;
如果所述已安装软件列表中包括所述关联软件名称,将所述关联软件与所述软件之间的非关联权值增加第三权重值;
如果所述非关联权值大于第三预定权重阈值,在所述软件的软件标签中去除所述关联软件名称。
在上述各实施例的基础上,还可以包括:
软件标签库生成单元,用于将至少一个所述软件的软件标签的集合,作为软件标签库。
本发明实施例所提供的软件标签的生成装置可用于执行本发明任意实施例提供的软件标签的生成方法,具备相应的功能模块,实现相同的有益效果。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的服务器实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种软件标签的生成方法,其特征在于,包括:
获取与软件下载行为对应的下载日志信息;
根据所述下载日志信息,生成所述软件的软件标签;
其中,根据所述下载日志信息,生成所述软件的软件标签包括:
如果根据所述下载日志信息,确定同一用户终端在第二预定时间区间内下载至少两个软件,将所述至少两个软件中任意两个软件之间的关联权值增加第一权重值;
如果所述关联权值大于第一预定权重阈值,获取与所述关联权值对应的第一软件和第二软件;
将所述第二软件的软件名称作为所述第一软件的软件标签;将所述第一软件的软件名称作为所述第二软件的软件标签。
2.根据权利要求1所述的方法,其特征在于,根据所述下载日志信息,生成所述软件的软件标签还包括:
通过根据搜索引擎日志信息获取的所述下载日志信息,获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串;
对所述搜索字符串进行分词处理,获取至少一个搜索分词;
统计所述至少一个搜索分词的搜索次数,并将搜索次数大于预定频率阈值的高频搜索词作为所述软件的软件标签。
3.根据权利要求2所述的方法,其特征在于,获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串包括:
获取在所述软件的下载时刻之前,同一用户终端在第一预定时间区间内通过搜索引擎入口输入的搜索字符串,作为与所述软件对应的搜索字符串;和/或
获取在所述软件的下载时刻之前,同一用户终端通过搜索引擎入口输入的预定个数的搜索字符串,作为与软件对应的搜索字符串。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述软件的软件标签中包括的关联软件名称;
根据与所述软件的使用行为对应的使用日志信息,获取所述软件的软件启动时间;
如果在与所述软件的软件启动时间对应的第三预定时间区间内,与所述软件启动时间对应的同一用户终端的所述关联软件未被启动,将所述关联软件与所述软件之间的非关联权值增加第二权重值;
如果所述非关联权值大于第二预定权重阈值,在所述软件的软件标签中去除所述关联软件名称。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取所述软件的软件标签中包括的关联软件名称;
如果获取到所述软件的软件删除信息,获取与所述软件删除信息对应的用户终端的已安装软件列表;
如果所述已安装软件列表中包括所述关联软件名称,将所述关联软件与所述软件之间的非关联权值增加第三权重值;
如果所述非关联权值大于第三预定权重阈值,在所述软件的软件标签中去除所述关联软件名称。
6.根据权利要求1所述的方法,其特征在于,还包括:
将至少一个所述软件的软件标签的集合,作为软件标签库。
7.一种软件标签的生成装置,其特征在于,包括:
下载日志信息获取单元,用于获取与软件下载行为对应的下载日志信息;
软件标签生成单元,用于根据所述下载日志信息,生成所述软件的软件标签;
所述软件标签生成单元具体用于:
如果根据所述下载日志信息,确定同一用户终端在第二预定时间区间内下载至少两个软件,将所述至少两个软件中任意两个软件之间的关联权值增加第一权重值;
如果所述关联权值大于第一预定权重阈值,获取与所述关联权值对应的第一软件和第二软件;
将所述第二软件的软件名称作为所述第一软件的软件标签;将所述第一软件的软件名称作为所述第二软件的软件标签。
8.根据权利要求7所述的装置,其特征在于,所述软件标签生成单元具体还包括:
搜索字符串获取子单元,用于通过根据搜索引擎日志信息获取的所述下载日志信息,获取用户通过搜索引擎入口输入的与所述软件对应的搜索字符串;
搜索分词获取子单元,用于对所述搜索字符串进行分词处理,获取至少一个搜索分词;
标签生成子单元,用于统计所述至少一个搜索分词的搜索次数,并将搜索次数大于预定频率阈值的高频搜索词作为所述软件的软件标签。
9.根据权利要求8所述的装置,其特征在于,所述搜索字符串获取子单元具体用于:
获取在所述软件的下载时刻之前,同一用户终端在第一预定时间区间内通过搜索引擎入口输入的搜索字符串,作为与所述软件对应的搜索字符串;和/或
获取在所述软件的下载时刻之前,同一用户终端通过搜索引擎入口输入的预定个数的搜索字符串,作为与所述软件对应的搜索字符串。
10.根据权利要求7所述的装置,其特征在于,还包括软件标签去除单元,用于:
获取所述软件的软件标签中包括的关联软件名称;
根据与所述软件的使用行为对应的使用日志信息,获取所述软件的软件启动时间;
如果在与所述软件的软件启动时间对应的第三预定时间区间内,与所述软件启动时间对应的同一用户终端的所述关联软件未被启动,将所述关联软件与所述软件之间的非关联权值增加第二权重值;
如果所述非关联权值大于第二预定权重阈值,在所述软件的软件标签中去除所述关联软件名称。
11.根据权利要求7所述的装置,其特征在于,还包括软件标签去除单元,用于:
获取所述软件的软件标签中包括的关联软件名称;
如果获取到所述软件的软件删除信息,获取与所述软件删除信息对应的用户终端的已安装软件列表;
如果所述已安装软件列表中包括所述关联软件名称,将所述关联软件与所述软件之间的非关联权值增加第三权重值;
如果所述非关联权值大于第三预定权重阈值,在所述软件的软件标签中去除所述关联软件名称。
12.根据权利要求7所述的装置,其特征在于,还包括:
软件标签库生成单元,用于将至少一个所述软件的软件标签的集合,作为软件标签库。
CN201410359415.8A 2014-07-25 2014-07-25 软件标签的生成方法和装置 Active CN104133877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410359415.8A CN104133877B (zh) 2014-07-25 2014-07-25 软件标签的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410359415.8A CN104133877B (zh) 2014-07-25 2014-07-25 软件标签的生成方法和装置

Publications (2)

Publication Number Publication Date
CN104133877A CN104133877A (zh) 2014-11-05
CN104133877B true CN104133877B (zh) 2017-09-29

Family

ID=51806555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410359415.8A Active CN104133877B (zh) 2014-07-25 2014-07-25 软件标签的生成方法和装置

Country Status (1)

Country Link
CN (1) CN104133877B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989018B (zh) * 2015-01-29 2020-04-21 深圳市腾讯计算机系统有限公司 标签生成方法及标签生成装置
CN106445963B (zh) * 2015-08-10 2021-11-23 北京奇虎科技有限公司 App平台的广告索引关键词自动生成方法和装置
CN106874279B (zh) * 2015-12-11 2021-01-15 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN106682169B (zh) * 2016-12-27 2020-09-18 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106682170B (zh) * 2016-12-27 2020-09-18 北京奇虎科技有限公司 一种应用搜索方法和装置
CN106709040B (zh) * 2016-12-29 2021-02-19 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN106951571B (zh) * 2017-04-10 2021-06-22 阿里巴巴(中国)有限公司 一种给应用标注标签的方法和装置
CN108038192A (zh) * 2017-12-11 2018-05-15 广东欧珀移动通信有限公司 应用搜索方法和装置、电子设备、计算机可读存储介质
CN108304457A (zh) * 2017-12-22 2018-07-20 努比亚技术有限公司 一种应用标注方法、服务器及计算机可读存储介质
CN111353071A (zh) * 2018-12-05 2020-06-30 阿里巴巴集团控股有限公司 标签生成方法及装置
CN109800348A (zh) * 2018-12-12 2019-05-24 平安科技(深圳)有限公司 搜索信息显示方法、装置、存储介质及服务器
CN114860273B (zh) * 2022-07-04 2022-12-20 广东睿江云计算股份有限公司 自适应软件包管理方法及管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279513A (zh) * 2013-05-22 2013-09-04 百度在线网络技术(北京)有限公司 产生内容标签的方法、提供多媒体内容信息的方法及装置
CN103778555A (zh) * 2014-01-21 2014-05-07 北京集奥聚合科技有限公司 基于用户标签的用户属性挖掘方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279513A (zh) * 2013-05-22 2013-09-04 百度在线网络技术(北京)有限公司 产生内容标签的方法、提供多媒体内容信息的方法及装置
CN103778555A (zh) * 2014-01-21 2014-05-07 北京集奥聚合科技有限公司 基于用户标签的用户属性挖掘方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
APP标签挖掘及应用系统的设计与实现;冯骁骋;《中国优秀硕士学位论文数据库信息科技辑》;20140315;第33页第1段-第40页第2段,图4-3到4-7 *

Also Published As

Publication number Publication date
CN104133877A (zh) 2014-11-05

Similar Documents

Publication Publication Date Title
CN104133877B (zh) 软件标签的生成方法和装置
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
US8751466B1 (en) Customizable answer engine implemented by user-defined plug-ins
US8874542B2 (en) Displaying browse sequence with search results
RU2501078C2 (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
EP2395443B1 (en) Query rewriting with entity detection
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN101165688B (zh) 知识系统中资源之间的时间关联方法和系统
US8949227B2 (en) System and method for matching entities and synonym group organizer used therein
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
WO2007001128A1 (en) Method and system for determining relation between search terms in the internet search system
CN104156454A (zh) 搜索词的纠错方法和装置
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN110334343A (zh) 一种合同中个人隐私信息抽取的方法和系统
CN112000929A (zh) 一种跨平台数据分析方法、系统、设备及可读存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111488510A (zh) 小程序相关词的确定方法、装置、处理设备及搜索系统
CN110110218A (zh) 一种身份关联方法及终端
Choudhary et al. Role of ranking algorithms for information retrieval
CN106407254B (zh) 用户点击行为链的处理方法及装置
CN112269906A (zh) 网页正文的自动抽取方法及装置
Seger A bounded delay race model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant