CN112016580B - 应用程序名称识别方法、装置及终端 - Google Patents

应用程序名称识别方法、装置及终端 Download PDF

Info

Publication number
CN112016580B
CN112016580B CN201910471124.0A CN201910471124A CN112016580B CN 112016580 B CN112016580 B CN 112016580B CN 201910471124 A CN201910471124 A CN 201910471124A CN 112016580 B CN112016580 B CN 112016580B
Authority
CN
China
Prior art keywords
application program
identified
standard
information
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910471124.0A
Other languages
English (en)
Other versions
CN112016580A (zh
Inventor
李春林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910471124.0A priority Critical patent/CN112016580B/zh
Publication of CN112016580A publication Critical patent/CN112016580A/zh
Application granted granted Critical
Publication of CN112016580B publication Critical patent/CN112016580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种应用程序名称识别方法、装置及终端,其中,该应用程序名称识别方法包括:获取待识别应用程序的多个维度信息;根据所述待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,确定所述待识别应用程序与所述标准应用程序之间的第一相似度值;当所述第一相似度值大于预设阈值时,将所述标准应用程序的标准名称确定为所述待识别应用程序的目标名称。本发明的实施例,可以提高识别应用程序名称的效率,实现混合数据源中应用程序名称的消歧和归一化,提高应用程序基础数据的解析率和利用率。

Description

应用程序名称识别方法、装置及终端
技术领域
本发明涉及数据处理技术领域,尤其涉及一种应用程序名称识别方法、装置及终端。
背景技术
随着互联网的不断发展,越来越多的应用市场相继出现,比如豌豆荚应用市场、腾讯应用宝、百度手机助手等,以满足用户便捷下载所需应用程序的需求。但是在这些应用市场中,对于同一个应用程序,往往具有不同的名称,比如为了吸引用户的注意,可能在应用程序名称中加入一些容易吸引用户的内容,以增强相应应用程序被使用的概率。而若多种数据源中同一个应用程序的名称各不相同,将导致该应用程序基础数据的解析率和利用率较低。
目前为了解决多种数据源中应用程序名称不统一的问题,通常会采用人工进行识别,但人工识别的效率很低。
发明内容
本发明实施例提供一种应用程序名称识别方法、装置及终端,以解决目前人工识别应用程序名称的效率低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种应用程序名称识别方法,包括:
获取待识别应用程序的多个维度信息;
根据所述待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,确定所述待识别应用程序与所述标准应用程序之间的第一相似度值;
当所述第一相似度值大于预设阈值时,将所述标准应用程序的标准名称确定为所述待识别应用程序的目标名称。
第二方面,本发明实施例提供了一种应用程序名称识别装置,包括:
第一获取模块,用于获取待识别应用程序的多个维度信息;
第一确定模块,用于根据所述待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,确定所述待识别应用程序与所述标准应用程序之间的第一相似度值;
第二确定模块,用于当所述第一相似度值大于预设阈值时,将所述标准应用程序的标准名称确定为所述待识别应用程序的目标名称。
第三方面,本发明实施例提供了一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时实现上述应用程序名称识别方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述应用程序名称识别方法的步骤。
本发明实施例中,通过获取待识别应用程序的多个维度信息,根据待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,确定待识别应用程序与标准应用程序之间的第一相似度值,当该第一相似度值大于预设阈值时,将所述标准应用程序的标准名称确定为所述待识别应用程序的目标名称,可以基于待识别应用程序的多个维度信息,自动确定出待识别应用程序的目标名称,从而相比于人工识别应用程序名称,可以提高识别应用程序名称的效率,实现混合数据源中应用程序名称的消歧和归一化,提高应用程序基础数据的解析率和利用率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的应用程序名称识别方法的流程图;
图2为本发明实施例的对应用程序名称进行标准化聚合的流程图;
图3为本发明实施例的应用程序名称识别装置的结构示意图;
图4为本发明实施例的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决人工识别应用程序名称效率低的问题,本发明实施例提供了一种自动识别应用程序名称的方法,其根据待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,来确定待识别应用程序的目标名称,即当根据多个维度信息确定的待识别应用程序与标准应用程序之间的相似度值大于预设阈值时,将标准应用程序的标准名称确定为待识别应用程序的目标名称。这样,相比于人工识别应用程序名称,可以基于待识别应用程序的多个维度信息,自动确定出待识别应用程序的目标名称,从而提高识别应用程序名称的效率,进一步实现混合数据源中应用程序名称的消歧和归一化,提高应用程序基础数据的解析率和利用率。
请参见图1,图1是本发明实施例提供的一种应用程序名称识别方法的流程图,该方法应用于终端,如图1所示,该方法包括如下步骤:
步骤101:获取待识别应用程序的多个维度信息。
本发明实施例中,上述待识别应用程序的多个维度信息可选为来自安卓应用市场,包括但不限制于以下数据源:豌豆荚应用市场、腾讯应用宝、百度手机助手,以及各大手机厂商的应用市场,如华为应用市场等。
可选的,上述的多个维度信息可以理解为应用程序信息的结构体,可包括但不限于以下至少两项:
名称(app-name)、安装包名(package-name)、分类标签信息(category)、开发者信息(developer)、下载量值(download)、功能简介信息(text)、更新时间信息(update-time)、版本信息(version)、图标文件信息(icon)。
这样,借助选择上述的多个维度信息,可以至少包含应用程序的基础语义信息、功能信息、来源信息、可视化信息等,以及包含用户使用热度信息,从而提高识别应用程序名称的准确率。
步骤102:根据所述待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,确定所述待识别应用程序与所述标准应用程序之间的第一相似度值。
可理解的,上述标准应用程序是预先确定的,上述标准应用程序的名称为标准名称。在预先确定标准应用程序时,可以基于多种数据源中应用程序的多个维度信息(比如名称、安装包名、分类标签信息等)的相似度计算过程来确定,也可以借助人工识别来确定。
比如,以标准名称“爱奇艺”为例,不同数据源中相应应用程序的名称可能为“爱奇艺”、“爱奇艺-XXX1”、“爱奇艺-XXX2”、“爱奇艺-XXX2”等,而借助多个维度信息的相似度计算过程,可以确定名称为“爱奇艺”的应用程序为标准应用程序,对应标准名称为“爱奇艺”。
步骤103:当所述第一相似度值大于预设阈值时,将所述标准应用程序的标准名称确定为所述待识别应用程序的目标名称。
可理解的,待识别应用程序的目标名称为相应的标准名称。上述预设阈值可以基于实际需求预先设置。若确定的第一相似度值小于或等于预设阈值,则可以确定当前已确定的标准应用程序的标准名称无法作为待识别应用程序的目标名称,而可以借助多种数据源中应用程序的多个维度信息来确定待识别应用程序的目标名称。
本发明实施例的应用程序名称识别方法,可以基于待识别应用程序的多个维度信息,自动确定出待识别应用程序的目标名称,从而相比于人工识别应用程序名称,可以提高识别应用程序名称的效率,实现混合数据源中应用程序名称的消歧和归一化,提高应用程序基础数据的解析率和利用率。并且相比于根据单一维度信息来确定待识别应用程序的目标名称,可以提高识别应用程序名称的准确率。
进一步的,借助本实施例来实现混合数据源中应用程序名称的消歧和归一化后,可以提高应用程序基础数据在多种应用场景中的利用率,该多种应用场景包括但不限于特征提取、模型训练、人群圈定、用户冷启动和激活、应用程序拉新和促活等。
本发明至少一个实施例中,在根据多个维度信息确定待识别应用程序与标准应用程序之间的第一相似度值时,可以首先分别根据单一维度信息确定待识别应用程序与标准应用程序之间的第二相似度值,然后再根据多个第二相似度值来确定第一相似度值。
可选的,上述步骤102可包括:
分别针对待识别应用程序和标准应用程序的每一个维度信息,计算待识别应用程序与标准应用程序之间的相似度,得到多个第二相似度值;
利用每个第二相似度值分别乘以对应的预设权重值,得到第一相似度值。
需说明的是,上述的第一相似度值可以理解为针对多个维度信息的待识别应用程序与标准应用程序之间的相似度值。上述的第二相似度值可以理解为针对某单一维度信息的待识别应用程序与标准应用程序之间的相似度值。
上述预设权重值与单一维度信息对应,表示该单一维度信息在多个维度信息中的重要程度,可以在基于多个维度信息对应用程序名称进行标准化聚合过程中预先训练得到。
一种实施方式中,参见图2所示,获得上述预设权重值的过程可以为:首先,从多种应用程序APP应用市场中获取一APP的多个维度信息,该多种应用市场包括豌豆荚、腾讯应用宝、百度手机助手以及其他应用市场,该多个维度信息即APP信息结构体包括APP名称、APP安装包名、APP分类标签信息、APP开发者信息、APP下载量值、APP功能简介信息、APP更新时间信息、APP版本信息、APP图标文件信息;然后,分别针对每一个维度信息,计算每两个APP之间的相似度值;最后,以每一个维度信息对应的相似度值为APP信息基础算子,训练APP名称聚合模型,以得到每一个维度信息对应的相似度值的权重值,即上述的预设权重值。
可选的,以应用程序名称为例,计算待识别应用程序与标准应用程序之间的第二相似度值的过程可为:基于应用程序名称序列的相似度计算,确定待识别应用程序与标准应用程序之间的第二相似度值。其中此相似度计算可采用现有的文本相似度计算方式,本发明实施例不对此进行限制。
可选的,以安装包名为例,由于相同的安装包名通常对应于同一个应用程序在,因此相同的安装包名可以直接归类于同一应用程序名称,对应的第二相似度值为1,否则为0。
可选的,以分类标签信息为例,计算待识别应用程序与标准应用程序之间的第二相似度值的过程可为:按照预设规则,基于分类标签信息对应的分类标签的相似程度,确定待识别应用程序与标准应用程序之间的第二相似度值。比如,若分类标签的相似程度越高,则相应的第二相似度值越大。
可选的,以开发者信息为例,计算待识别应用程序与标准应用程序之间的第二相似度值的过程可为:首先,根据待识别应用程序与标准应用程序的开发者信息,判断两者之间是否存在相同的开发者;然后,根据预设规则以及判断结果,确定待识别应用程序与标准应用程序之间的第二相似度值。比如,若存在相同的开发者,则相同开发者的比重越多,相应的第二相似度值越大;而若不存在相同的开发者,则可以确定相应的第二相似度值为0。
可选的,以下载量值为例,计算待识别应用程序与标准应用程序之间的第二相似度值的过程可为:首先,对待识别应用程序的下载量值进行标准量化,得到待识别应用程序所在的应用市场下的待识别应用程序的下载量值的第一占比值;然后,按照预设规则,根据第一占比值和第二占比值,确定待识别应用程序与标准应用程序之间的一个第二相似度值,该第二占比值是标准应用程序所在的应用市场下的该标准应用程序的下载量值的占比值。比如,预设规则可为:若第一占比值和第二占比值越接近,则相应的第二相似度值越大。
可选的,以功能简介信息为例,计算待识别应用程序与标准应用程序之间的第二相似度值的过程可为:首先,对待识别应用程序的功能简介信息进行关键词过滤,得到待识别应用程序的第一关键词信息;然后,按照预设规则,计算第一关键词信息和第二关键词信息的相似度,得到待识别应用程序与标准应用程序之间的一个第二相似度值;该第二关键词信息是对标准应用程序的功能简介信息进行关键词过滤得到。可理解的,本实施例中得到第一关键词信息和第二关键词信息时,所采用的关键词过滤方式相同,该关键词过滤方式可选用现有方式,本发明实施例不对此进行限制。
可选的,以更新时间信息为例,计算待识别应用程序与标准应用程序之间的第二相似度值的过程可为:首先,根据待识别应用程序与标准应用程序的更新时间信息,确定两者之间的更新时间差;然后,按照预设规则,基于更新时间差确定待识别应用程序与标准应用程序之间的一个第二相似度值。比如,若更新时间差越小,则相应的第二相似度值越大。
可选的,以版本信息为例,计算待识别应用程序与标准应用程序之间的第二相似度值的过程可为:首先,根据待识别应用程序与标准应用程序的版本信息,分别确定两者对应的版本;然后,按照预设规则,通过比较版本确定待识别应用程序与标准应用程序之间的一个第二相似度值。比如,若版本越接近,则相应的第二相似度值越大。
可选的,以图标文件信息为例,计算待识别应用程序与标准应用程序之间的第二相似度值的过程可为:首先,分别对待识别应用程序和标准应用程序的图标文件信息进行图像特征提取,得到第一图像特征和第二图像特征;然后,对第一图像特征和第二图像特征进行相似度计算,得到待识别应用程序与标准应用程序之间的一个第二相似度值。比如,若图像特征越接近,则相应的第二相似度值越大。
本发明实施例中,由于相同的安装包名可以直接归类于同一应用程序名称,因此为了简化识别应用程序以及缩短识别应用程序的时间,可以在终端中预先存储安装包名与标准名称之间的对应关系,即预先存储安装包名对应的标准名称,并可选的基于该对应关系确定待识别应用程序的目标名称。
可选的,上述步骤101之前,本实施例中所述方法还可包括:
获取待识别应用程序的安装包名;
判断是否预先存储有所述安装包名对应的标准名称。
上述步骤101可包括:
当没有预先存储有所述安装包名对应的标准名称时,获取所述待识别应用程序的多个维度信息。
可选的,在判断是否预先存储有所述安装包名对应的标准名称之后,本实施例中所述方法还可包括:
当预先存储有所述安装包名对应的标准名称时,将所述标准名称确定为所述待识别应用程序的目标名称。
这样,借助预先存储的安装包名与标准名称之间的对应关系来确定待识别应用程序的目标名称,可以简化识别应用程序以及缩短识别应用程序的时间。
请参见图3,图3是本发明实施例提供的一种应用程序名称识别装置的结构示意图,如图3所示,该识别装置30包括:
第一获取模块31,用于获取待识别应用程序的多个维度信息;
第一确定模块32,用于根据所述待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,确定所述待识别应用程序与所述标准应用程序之间的第一相似度值;
第二确定模块33,用于当所述第一相似度值大于预设阈值时,将所述标准应用程序的标准名称确定为所述待识别应用程序的目标名称。
本发明实施例的应用程序名称识别装置,可以基于待识别应用程序的多个维度信息,自动确定出待识别应用程序的目标名称,从而相比于人工识别应用程序名称,可以提高识别应用程序名称的效率,实现混合数据源中应用程序名称的消歧和归一化,提高应用程序基础数据的解析率和利用率。
可选的,所述第一确定模块32包括:
第一计算单元,用于分别针对所述待识别应用程序和所述标准应用程序的每一个维度信息,计算所述待识别应用程序与所述标准应用程序之间的相似度,得到多个第二相似度值;
第二计算单元,用于利用每个所述第二相似度值分别乘以对应的预设权重值,得到所述第一相似度值。
可选的,所述多个维度信息包括以下至少两项:
名称、安装包名、分类标签信息、开发者信息、下载量值、功能简介信息、更新时间信息、版本信息、图标文件信息。
可选的,所述多个维度信息包括功能简介信息;
所述第一计算单元包括:
第一处理子单元,用于对所述待识别应用程序的功能简介信息进行关键词过滤,得到所述待识别应用程序的第一关键词信息;
计算子单元,用于计算所述第一关键词信息和第二关键词信息的相似度,得到所述待识别应用程序与所述标准应用程序之间的一个第二相似度值;
其中,所述第二关键词信息是对所述标准应用程序的功能简介信息进行关键词过滤得到。
可选的,所述多个维度信息包括下载量值;
所述第一计算单元包括:
第二处理子单元,用于对所述待识别应用程序的下载量值进行标准量化,得到所述待识别应用程序所在的应用市场下的所述待识别应用程序的下载量值的第一占比值;
确定子单元,用于根据所述第一占比值和第二占比值,确定所述待识别应用程序与所述标准应用程序之间的一个第二相似度值;
其中,所述第二占比值是所述标准应用程序所在的应用市场下的所述标准应用程序的下载量值的占比值。
可选的,所述装置还包括:
第二获取模块,用于获取所述待识别应用程序的安装包名;
判断模块,用于判断是否预先存储有所述安装包名对应的标准名称;
所述第一获取模块31具体用于:
当没有预先存储有所述安装包名对应的标准名称时,获取所述待识别应用程序的多个维度信息。
可选的,所述装置还包括:
第三确定模块,用于当预先存储有所述安装包名对应的标准名称时,将所述标准名称确定为所述待识别应用程序的目标名称。
此外,参见图4,图4是本发明实施例提供的一种终端的结构示意图,如图4所示,终端40包括:处理器41、存储器42及存储在所述存储器42上并可在所述处理器上运行的计算机程序,终端40中的各个组件通过总线接口43耦合在一起,所述计算机程序被所述处理器41执行时可实现上述应用于终端的应用程序名称识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述应用程序名称识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种应用程序名称识别方法,其特征在于,包括:
获取待识别应用程序的多个维度信息;
根据所述待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,确定所述待识别应用程序与所述标准应用程序之间的第一相似度值;
当所述第一相似度值大于预设阈值时,将所述标准应用程序的标准名称确定为所述待识别应用程序的目标名称;其中,所述根据所述待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,确定所述待识别应用程序与所述标准应用程序之间的第一相似度值,包括:
分别针对所述待识别应用程序和所述标准应用程序的每一个维度信息,计算所述待识别应用程序与所述标准应用程序之间的相似度,得到多个第二相似度值;
利用每个所述第二相似度值分别乘以对应的预设权重值,得到所述第一相似度值;
其中,所述多个维度信息包括功能简介信息;
所述分别针对所述待识别应用程序和所述标准应用程序的每一个维度信息,计算所述待识别应用程序与所述标准应用程序之间的相似度,得到多个第二相似度值,包括:
对所述待识别应用程序的功能简介信息进行关键词过滤,得到所述待识别应用程序的第一关键词信息;
计算所述第一关键词信息和第二关键词信息的相似度,得到所述待识别应用程序与所述标准应用程序之间的一个第二相似度值;
其中,所述第二关键词信息是对所述标准应用程序的功能简介信息进行关键词过滤得到。
2.根据权利要求1所述的方法,其特征在于,所述多个维度信息包括以下至少两项:
名称、安装包名、分类标签信息、开发者信息、下载量值、功能简介信息、更新时间信息、版本信息、图标文件信息。
3.根据权利要求1所述的方法,其特征在于,所述多个维度信息包括下载量值;
所述分别针对所述待识别应用程序和所述标准应用程序的每一个维度信息,计算所述待识别应用程序与所述标准应用程序之间的相似度,得到多个第二相似度值,包括:
对所述待识别应用程序的下载量值进行标准量化,得到所述待识别应用程序所在的应用市场下的所述待识别应用程序的下载量值的第一占比值;
根据所述第一占比值和第二占比值,确定所述待识别应用程序与所述标准应用程序之间的一个第二相似度值;
其中,所述第二占比值是所述标准应用程序所在的应用市场下的所述标准应用程序的下载量值的占比值。
4.根据权利要求1所述的方法,其特征在于,所述获取待识别应用程序的多个维度信息之前,所述方法还包括:
获取所述待识别应用程序的安装包名;
判断是否预先存储有所述安装包名对应的标准名称;
所述获取待识别应用程序的多个维度信息,包括:
当没有预先存储有所述安装包名对应的标准名称时,获取所述待识别应用程序的多个维度信息。
5.根据权利要求4所述的方法,其特征在于,所述判断是否预先存储所述安装包名对应的标准名称之后,所述方法还包括:
当预先存储有所述安装包名对应的标准名称时,将所述标准名称确定为所述待识别应用程序的目标名称。
6.一种应用程序名称识别装置,其特征在于,包括:
第一获取模块,用于获取待识别应用程序的多个维度信息;
第一确定模块,用于根据所述待识别应用程序的多个维度信息和预先确定的标准应用程序的多个维度信息,确定所述待识别应用程序与所述标准应用程序之间的第一相似度值;
第二确定模块,用于当所述第一相似度值大于预设阈值时,将所述标准应用程序的标准名称确定为所述待识别应用程序的目标名称;其中,所述第一确定模块包括:
第一计算单元,用于分别针对所述待识别应用程序和所述标准应用程序的每一个维度信息,计算所述待识别应用程序与所述标准应用程序之间的相似度,得到多个第二相似度值;
第二计算单元,用于利用每个所述第二相似度值分别乘以对应的预设权重值,得到所述第一相似度值;
其中,所述多个维度信息包括功能简介信息;
所述第一计算单元包括:
第一处理子单元,用于对所述待识别应用程序的功能简介信息进行关键词过滤,得到所述待识别应用程序的第一关键词信息;
计算子单元,用于计算所述第一关键词信息和第二关键词信息的相似度,得到所述待识别应用程序与所述标准应用程序之间的一个第二相似度值;
其中,所述第二关键词信息是对所述标准应用程序的功能简介信息进行关键词过滤得到。
7.根据权利要求6所述的装置,其特征在于,所述多个维度信息包括以下至少两项:
名称、安装包名、分类标签信息、开发者信息、下载量值、功能简介信息、更新时间信息、版本信息、图标文件信息。
8.根据权利要求6所述的装置,其特征在于,所述多个维度信息包括下载量值;
所述第一计算单元包括:
第二处理子单元,用于对所述待识别应用程序的下载量值进行标准量化,得到所述待识别应用程序所在的应用市场下的所述待识别应用程序的下载量值的第一占比值;
确定子单元,用于根据所述第一占比值和第二占比值,确定所述待识别应用程序与所述标准应用程序之间的一个第二相似度值;
其中,所述第二占比值是所述标准应用程序所在的应用市场下的所述标准应用程序的下载量值的占比值。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述待识别应用程序的安装包名;
判断模块,用于判断是否预先存储有所述安装包名对应的标准名称;
所述第一获取模块具体用于:
当没有预先存储有所述安装包名对应的标准名称时,获取所述待识别应用程序的多个维度信息。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于当预先存储有所述安装包名对应的标准名称时,将所述标准名称确定为所述待识别应用程序的目标名称。
11.一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的应用程序名称识别方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的应用程序名称识别方法的步骤。
CN201910471124.0A 2019-05-31 2019-05-31 应用程序名称识别方法、装置及终端 Active CN112016580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910471124.0A CN112016580B (zh) 2019-05-31 2019-05-31 应用程序名称识别方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910471124.0A CN112016580B (zh) 2019-05-31 2019-05-31 应用程序名称识别方法、装置及终端

Publications (2)

Publication Number Publication Date
CN112016580A CN112016580A (zh) 2020-12-01
CN112016580B true CN112016580B (zh) 2023-07-25

Family

ID=73506135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910471124.0A Active CN112016580B (zh) 2019-05-31 2019-05-31 应用程序名称识别方法、装置及终端

Country Status (1)

Country Link
CN (1) CN112016580B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113805931B (zh) * 2021-09-17 2023-07-28 杭州云深科技有限公司 一种确定app标签的方法、电子设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014067412A1 (en) * 2012-10-29 2014-05-08 Tencent Technology (Shenzhen) Company Limited Method for downloading plug-in installation packages and download terminal thereof
CN104205740A (zh) * 2012-02-05 2014-12-10 苹果公司 统一通信应用程序
CN106294378A (zh) * 2015-05-18 2017-01-04 腾讯科技(深圳)有限公司 应用识别方法和装置
JP2017117238A (ja) * 2015-12-24 2017-06-29 株式会社リコー 情報処理システム、情報処理装置および情報処理方法
CN107194243A (zh) * 2017-05-25 2017-09-22 努比亚技术有限公司 一种移动终端及安装应用程序的方法
CN108229131A (zh) * 2016-12-14 2018-06-29 中国移动通信集团设计院有限公司 仿冒app识别方法及装置
WO2018129509A1 (en) * 2017-01-09 2018-07-12 Alibaba Group Holding Limited Managing, using, and updating application resources
CN108416212A (zh) * 2018-03-01 2018-08-17 腾讯科技(深圳)有限公司 应用程序识别方法和装置
CN109002441A (zh) * 2017-06-06 2018-12-14 阿里巴巴集团控股有限公司 应用名称相似度的确定方法、异常应用检测方法及系统
CN109328329A (zh) * 2016-08-19 2019-02-12 华为技术有限公司 应用数据的处理方法、装置和终端设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104205740A (zh) * 2012-02-05 2014-12-10 苹果公司 统一通信应用程序
WO2014067412A1 (en) * 2012-10-29 2014-05-08 Tencent Technology (Shenzhen) Company Limited Method for downloading plug-in installation packages and download terminal thereof
CN106294378A (zh) * 2015-05-18 2017-01-04 腾讯科技(深圳)有限公司 应用识别方法和装置
JP2017117238A (ja) * 2015-12-24 2017-06-29 株式会社リコー 情報処理システム、情報処理装置および情報処理方法
CN109328329A (zh) * 2016-08-19 2019-02-12 华为技术有限公司 应用数据的处理方法、装置和终端设备
CN108229131A (zh) * 2016-12-14 2018-06-29 中国移动通信集团设计院有限公司 仿冒app识别方法及装置
WO2018129509A1 (en) * 2017-01-09 2018-07-12 Alibaba Group Holding Limited Managing, using, and updating application resources
CN107194243A (zh) * 2017-05-25 2017-09-22 努比亚技术有限公司 一种移动终端及安装应用程序的方法
CN109002441A (zh) * 2017-06-06 2018-12-14 阿里巴巴集团控股有限公司 应用名称相似度的确定方法、异常应用检测方法及系统
CN108416212A (zh) * 2018-03-01 2018-08-17 腾讯科技(深圳)有限公司 应用程序识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中国移动互联网应用服务领域发展研究;路博;金桦;张义;;电视技术(第Z1期);全文 *

Also Published As

Publication number Publication date
CN112016580A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN113127593B (zh) 标准海图生成方法及装置
CN111428162A (zh) 一种页面截图方法及装置
CN110210038A (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN112016580B (zh) 应用程序名称识别方法、装置及终端
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
CN114359533B (zh) 一种基于页面文本的页码识别方法和计算机设备
CN109033082B (zh) 语义模型的学习训练方法、装置及计算机可读存储介质
CN112149038B (zh) 浏览器开发方法、装置、计算机设备及可读存储介质
US10387545B2 (en) Processing page
CN113205130A (zh) 一种数据审核方法、装置、电子设备及存储介质
CN103942239A (zh) 信息处理装置和信息处理方法
CN111177093A (zh) 一种科技资源的共享方法及设备、介质
CN108460131B (zh) 一种分类标签处理方法及装置
CN116614550A (zh) 用于确定终端画像的方法、系统和计算机可读介质
CN110544467A (zh) 语音数据的审核方法、装置、设备及存储介质
CN109688578B (zh) 一种sim卡与移动终端设备适配的方法及设备
CN111597368B (zh) 一种数据处理方法及装置
CN111858619B (zh) 一种数据自流转的方法、装置和电子设备
CN111400058B (zh) 调用消息的方法、装置、计算机设备及存储介质
CN112396078A (zh) 一种服务分类方法、装置、设备及计算机可读存储介质
CN114661958A (zh) 一种树形结构数据搜索方法、装置、电子设备及存储介质
CN113744066B (zh) 信息推送方法及装置
US20230326046A1 (en) Application matching method and application matching device
CN113077272B (zh) 通信业务营销案优化方法和装置
CN113961272B (zh) 一种个性化页面的展示方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant