CN112100044B - 一种识别游戏相似程度的方法与设备 - Google Patents

一种识别游戏相似程度的方法与设备 Download PDF

Info

Publication number
CN112100044B
CN112100044B CN202010904419.5A CN202010904419A CN112100044B CN 112100044 B CN112100044 B CN 112100044B CN 202010904419 A CN202010904419 A CN 202010904419A CN 112100044 B CN112100044 B CN 112100044B
Authority
CN
China
Prior art keywords
application
vector
installation package
target
game application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010904419.5A
Other languages
English (en)
Other versions
CN112100044A (zh
Inventor
刘楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhangtao Network Technology Co ltd
Original Assignee
Guangzhou Zhangtao Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Zhangtao Network Technology Co ltd filed Critical Guangzhou Zhangtao Network Technology Co ltd
Priority to CN202010904419.5A priority Critical patent/CN112100044B/zh
Publication of CN112100044A publication Critical patent/CN112100044A/zh
Application granted granted Critical
Publication of CN112100044B publication Critical patent/CN112100044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种识别游戏相似程度的方法与设备,能够自动获取终端设备中的应用安装信息,进一步根据应用安装信息生成目标游戏应用对应的应用向量,再将该应用向量与待比较游戏应用对应的应用向量进行比对得到两者之间的相似程度,从而实现了目标游戏应用与待比较游戏应用之间的自动化比对,无需人工查找竞争产品,提高了竞争产品的搜索效率和覆盖范围,同时对两者之间的相似程度进行了量化,提高了竞争产品相似性判断的准确性。

Description

一种识别游戏相似程度的方法与设备
技术领域
本申请涉及游戏领域,尤其涉及一种识别游戏相似程度的方法与设备。
背景技术
当前,游戏厂商往往需要知道自己的游戏应用的竞争产品是哪些,从而可以有针对性地进行游戏客户的营销与扩展,进而提升游戏应用的收入。现在查找游戏应用的相关竞争产品主要以人工方式寻找,例如根据人工经验在应用市场搜索,人工方式的搜索存在效率低、准确性差、覆盖率低等缺陷,即使找到类似的竞争产品也难以量化竞争产品与自己游戏应用的相似程度。
发明内容
本申请的一个目的是提供一种识别游戏相似程度的方法,用以解决现有技术下难以以自动化方式查找竞争产品及无法量化相似程度的问题。
为实现上述目的,本申请提供了一种识别游戏相似程度的方法,其中,该方法包括:
获取终端设备中的应用安装信息,其中,所述应用安装信息包括目标游戏应用的安装信息;
根据所述应用安装信息,生成所述目标游戏应用对应的应用向量;
将所述应用向量与待比较游戏应用对应的应用向量进行比对,确定两者之间的第一相似程度。
进一步地,根据所述应用安装信息,生成所述目标游戏应用对应的应用向量,包括:
从所述应用安装信息中获取安装包名称;
对所述安装包名称进行向量转换,生成所述安装包名称对应的向量;
获取所述目标游戏应用对应的目标安装包名称;
将所述目标安装包名称对应的向量确定为所述目标游戏应用对应的应用向量。
进一步地,对所述安装包名称进行向量转换,生成所述安装包名称对应的向量,包括:
根据预设的窗口大小,确定所述安装包名称对应的邻接安装包名称,其中,所述窗口大小根据所述应用安装信息中安装包数量确定;
对所述邻接安装包名称和所述安装包名称进行编码;
对多个所述邻接安装包名称对应的编码进行组合,根据组合后的编码与所述安装包名称对应编码训练神经网络模型,其中,所述神经网络模型包括输入层和一个隐藏层,所述隐藏层中神经元的数量为预设值;
根据训练完成的所述神经网络模型中输入层与隐藏层之间的权重,生成所述安装包名称对应的向量。
进一步地,对所述邻接安装包名称和所述安装包名称进行编码,包括:
使用独热编码对所述邻接安装包名称和所述安装包名称进行编码。
进一步地,根据训练完成的所述神经网络模型中输入层与隐藏层之间的权重,生成所述安装包名称对应的向量,包括:
将训练完成的所述神经网络模型中输入层神经元与全部隐藏层神经元之间的多个权重组合为所述安装包名称对应的向量,其中,所述输入层神经元与所述安装包名称的编码有效位相对应。
进一步地,将所述目标安装包名称对应的向量确定为所述目标游戏应用对应的应用向量,包括:
根据多个所述目标安装包名称对应的向量,生成目标向量,其中,所述目标向量中维度值为多个所述目标安装包名称对应的向量中相应维度的平均值;
将所述目标向量确定为所述目标游戏应用对应的应用向量。
进一步地,将所述应用向量与待比较游戏应用对应的应用向量进行比对,确定两者之间的第一相似程度,包括:
计算所述应用向量与待比较游戏应用对应的应用向量之间夹角的余弦值,将得到的余弦值作为两者之间的第一相似程度。
进一步地,该方法还包括:
获取所述目标游戏应用对应的描述文本;
根据所述目标游戏应用对应的描述文本,生成所述目标游戏应用对应的词向量;
将所述词向量与待比较游戏应用对应的词向量进行比对,确定两者之间的第二相似程度。
进一步地,该方法还包括:
获取所述目标游戏应用对应的应用图标;
根据所述目标游戏应用对应的应用图标,生成所述目标游戏应用对应的图像向量;
将所述图像向量与待比较游戏应用对应的图像向量进行比对,确定两者之间的第三相似程度。
进一步地,该方法还包括:
计算所述第一相似程度、所述第二相似程度和所述第三相似程度的调和平均数,将计算结果作为所述目标游戏应用与所述待比较游戏应用之间的最终相似程度。
基于本申请的另一方面,本申请还提供了一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行前述识别游戏相似程度的方法。
本申请还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述识别游戏相似程度的方法。
与现有技术相比,本申请提供的方案能够自动获取终端设备中的应用安装信息,进一步根据应用安装信息生成目标游戏应用对应的应用向量,再将该应用向量与待比较游戏应用对应的应用向量进行比对得到两者之间的相似程度,从而实现了目标游戏应用与待比较游戏应用之间的自动化比对,无需人工查找竞争产品,提高了竞争产品的搜索效率和覆盖范围,同时对两者之间的相似程度进行了量化,提高了竞争产品相似性判断的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请的一些实施例提供的一种识别游戏相似程度的方法的流程图;
图2为本申请的一些优选实施例提供的安装列表中已安装应用的相似程度得分示意图;
图3为本申请的一些优选实施例提供的根据不同相似程度计算方法得到的目标游戏应用排名示意图;
图4为本申请的一些优选实施例提供的计算三种相似程度得到最终相似程度的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、网络设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请的一些实施例提供了一种识别游戏相似程度的方法,如图1所示,该方法包括如下步骤:
步骤S101,获取终端设备中的应用安装信息,其中,所述应用安装信息包括目标游戏应用的安装信息;
步骤S102,根据所述应用安装信息,生成所述目标游戏应用对应的应用向量;
步骤S103,将所述应用向量与待比较游戏应用对应的应用向量进行比对,确定两者之间的第一相似程度。
该方案尤其适合用于希望对待比较游戏应用的竞争产品进行比较的场景,能够自动获取终端设备中的应用安装信息,进一步根据应用安装信息生成目标游戏应用对应的应用向量,再将该应用向量与待比较游戏应用对应的应用向量进行比对得到两者之间的相似程度。
在步骤S101中,获取终端设备中的应用安装信息。在此,终端设备可包括但不限于智能手机、PC机、平板电脑等用户终端设备。用户可在终端设备上安装多种应用,这些应用在安装完成后可在终端设备上生成相应的应用安装信息,应用安装信息可包括多个已安装应用的安装信息,已安装应用包括游戏应用和非游戏应用,其中的游戏应用是目标游戏应用,应用安装信息中包括目标游戏应用的安装信息。目标游戏应用的安装信息可包括但不限于如下内容:应用名称、应用对应的安装包名称、应用的安装路径等。
在此,可通过自动化方式获取终端设备中的应用安装信息,例如可通过终端设备中安装的信息收集插件来获取应用安装信息。
在步骤S102中,根据应用安装信息,生成该目标游戏应用对应的应用向量。在此,目标游戏应用对应的应用向量是一个多维的向量,向量维度可根据用户自身的需要预先设定。
本申请的一些实施例中,根据应用安装信息,生成目标游戏应用对应的应用向量,具体可包括如下步骤:
1)从应用安装信息中获取安装包名称;
2)对安装包名称进行向量转换,生成安装包名称对应的向量;
3)获取目标游戏应用对应的目标安装包名称;
4)将目标安装包名称对应的向量确定为目标游戏应用对应的应用向量。
在此,从终端设备获取的应用安装信息包括多个应用的安装信息,每个应用的安装信息中可包括多个相应安装包的名称,即一个目标游戏应用可对应多个安装包,每个安装包有自己对应的安装包名称,安装包名称通常是由英文字母、数字或特殊字符如“.”、“_”等组成的字符串,获取的多个安装包名称组成安装包名称的列表。
本申请的一些实施例中,对安装包名称进行向量转换,生成该安装包名称对应的向量,具体可包括如下步骤:
1)根据预设的窗口大小,确定该安装包名称对应的邻接安装包名称;
2)对邻接安装包名称和该安装包名称进行编码;
3)对多个邻接安装包名称对应的编码进行组合,根据组合后的编码与该安装包名称对应编码训练神经网络模型,其中,该神经网络模型包括输入层和一个隐藏层,隐藏层中神经元的数量为预设值;
4)根据训练完成的该神经网络模型中输入层与隐藏层之间的权重,生成该安装包名称对应的向量。
优选地,窗口大小可根据应用安装信息中安装包数量来确定,窗口大小用于确定某个安装包名称的邻接安装包名称,一个安装包名称的邻接安装包名称是以该安装包名称为中心,以该安装包名称前后相距窗口大小的所有其它安装包名称组成的集合。
本申请的一些实施例中,对邻接安装包名称和安装包名称进行编码,具体可使用独热编码对邻接安装包名称和安装包名称进行编码。在此,独热编码(One-Hot Encoding)又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。邻接安装包名称包括多个安装包名称,每个安装包名称可对应一个独热编码。
在此,还包括一个安装包名称的词语表,该词语表包括大量安装包名称,邻接安装包名称中的安装包名称都可以在该词语表中找到,邻接安装包名称中的安装包名称可根据该词语表生成相应的独热编码,生成编码的维度与该词语表中安装包名称的数量相同。
优选地,对多个邻接安装包名称对应的编码进行组合可直接将每个编码进行按位加操作,得到一个组合编码。将该组合编码输入神经网络模型进行训练,该神经网络模型包括输入层和一个隐藏层。在此,该神经网络模型中隐藏层中神经元的数量为预设值,用户可根据自身需要设定神经元数量,例如,用户希望将每个安装包名称转换为300维的向量,则可将隐藏层神经元数量设定为300。另外,该神经网络模型的其它常用网络设置如损失函数、参数优化方法等都可采用通常设置如平方差损失函数、梯度下降法等进行设定。
本申请的一些实施例中,根据训练完成的该神经网络模型中输入层与隐藏层之间的权重,生成该安装包名称对应的向量,具体可使用如下方法:将训练完成的该神经网络模型中输入层神经元与全部隐藏层神经元之间的多个权重组合为该安装包名称对应的向量,其中,输入层神经元与该安装包名称的编码有效位相对应。
在此,该神经网络模型中输入层神经元的数量与输入的多个安装包名称的组合编码的维度数相同,每个输入层神经元只接收该组合编码中的一个数位,该组合编码中有多个有效位,即编码中为“1”的数位,接收该数位的输入层神经元与全部隐藏层神经元之间都存在连接,每条连接都对应一个权重,因此该输入层神经元与全部隐藏层神经元之间对应有多个权重,将这些权重组合为一个向量,该向量即为该组合编码有效位对应的向量。由于该组合编码是多个安装包名称的编码的组合,每个安装包名称的编码中只有一个有效位,不同的安装包名称的编码的有效位不重合,因此可根据组合编码中有效位的不同位置来确定对应的安装包名称,再结合组合编码有效位所对应的向量,即可得到与安装包名称对应的向量。
本申请的一些实施例中,将目标安装包名称对应的向量确定为目标游戏应用对应的应用向量,具体可包括如下步骤:根据多个目标安装包名称对应的向量,生成目标向量,再将该目标向量确定为目标游戏应用对应的应用向量。在此,目标向量中维度值为多个目标安装包名称对应的向量中相应维度的平均值,由于目标游戏应用可对应多个目标安装包名称,每个目标安装包名称各自对应有向量,为了将多个目标安装包名称对应的多个向量合并为一个向量,可对多个向量计算平均值,即计算多个向量中每个维度上的平均值,将得到的包含每个维度平均值的向量作为目标游戏应用对应的应用向量。
优选地,可使用word2vector工具中的CBOW方法对安装包名称列表中的安装包名称进行向量转换,得到目标游戏应用对应的应用向量。
在步骤S103中,将该应用向量与待比较游戏应用对应的应用向量进行比对,确定两者之间的第一相似程度。在此,待比较游戏应用是游戏服务商自身提供服务的游戏应用,通过将找到的竞品游戏应用与自身游戏应用进行比对,根据相似程度来确定对自身游戏应用具备较高威胁的竞品游戏应用。得到待比较游戏应用对应的应用向量的方法与前述得到目标游戏应用对应的应用向量的方法相同。
本申请的一些实施例中,将该应用向量与待比较游戏应用对应的应用向量进行比对,确定两者之间的第一相似程度,具体可通过计算该应用向量与待比较游戏应用对应的应用向量之间夹角的余弦值,将得到的余弦值作为两者之间的第一相似程度。在此,用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,即余弦相似性。图2示出了对某个设备终端中已安装应用(即竞品App)与待比较游戏应用的相似程度得分。
本申请的一些实施例中,还可以根据目标游戏应用对应的描述文本来确定目标游戏应用与待比较游戏应用之间的第二相似程度,具体可包括如下步骤:获取所述目标游戏应用对应的描述文本;根据所述目标游戏应用对应的描述文本,生成所述目标游戏应用对应的词向量;将所述词向量与待比较游戏应用对应的词向量进行比对,确定两者之间的第二相似程度。
在此,目标游戏应用在应用市场或网站上进行推广时,通常都会提供对应的游戏内容介绍,游戏内容介绍一般以文本的形式描述,即目标游戏应用对应的描述文本。例如,目标游戏应用“王者荣耀”对应的描述文本可以为:“《王者荣耀》是全球首款5V5英雄公平对战手游,腾讯MOBA手游大作!作为一款MOBA类游戏,《王者荣耀》特色多多,在同类的游戏中可谓是一枝独秀,艳压全场。5V5王者峡谷、5V5深渊大乱斗、以及3V3、1V1等多样模式一键体验,热血竞技尽享快感!”
本申请的一些实施例中,获取目标游戏应用对应的描述文本,具体可通过网络信息自动获取技术从互联网上获取目标游戏应用对应的描述文本。优选地,网络信息自动获取技术可以为网络爬虫技术,即通过网络爬虫自动从游戏相关网站或应用市场获取目标游戏应用对应的描述文本,这里的应用市场是指多种应用的集中展示、下载平台,用户可在应用市场搜索、下载自己需要的应用,并在自己的终端设备上进行下载应用的安装。应用市场例如有豌豆荚、应用宝、华为应用市场等,游戏相关网站例如有taptap、第一手游网等。通过网络爬虫技术通常可获取多个目标游戏应用对应的描述文本。
本申请的一些实施例中,根据目标游戏应用对应的描述文本,生成目标游戏应用对应的词向量,具体可包括如下步骤:
1)对目标游戏应用对应的描述文本进行分词,获取描述文本中的词语;
2)对该词语进行向量转换,生成该词语对应的词语向量;
3)根据该词语向量生成目标游戏应用对应的词向量。
在此,对描述文本进行分词可使用多种分词方法,如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等。具体使用的分词工具可以为ansj分词器、jieba分词工具、斯坦福分词器等,在此不做具体的限定。
本申请的一些实施例中,对该词语进行向量转换,生成该词语对应的词语向量,具体可包括如下步骤:
1)根据预设的窗口大小,确定该词语对应的邻接词语对;
2)对该邻接词语对中的词语进行编码;
3)根据编码后的邻接词语对训练神经网络模型,其中,该神经网络模型包括输入层和一个隐藏层,隐藏层中神经元的数量为预设值;
4)根据训练完成的该神经网络模型中输入层与隐藏层之间的权重,生成该词语对应的词语向量。
在此,窗口大小可根据用户的需要进行设定,窗口大小用于确定选择词语的邻接词语,一个词语的邻接词语是以该词语为中心,以该词语前后相距窗口大小的所有词语组成的集合。例如,对句子“《王者荣耀》是全球首款5V5英雄公平对战手游”进行分词后得到的结果是“王者荣耀全球英雄公平手游”,要确定邻接词语的词语为“全球”,若窗口大小为2,则邻接词语为“王者”、“荣耀”、“英雄”、“公平”。
词语对应的邻接词语对是由词语和其邻接词语组成的词语对,在上述示例中,得到的多个邻接词语对为(“全球”,“王者”),(“全球”,“荣耀”),(“全球”,“英雄”),(“全球”,“公平”)。
本申请的一些实施例中,对邻接词语对中的词语进行编码,具体可使用独热编码对邻接词语对中的词语进行编码。
在此,还包括一个游戏应用的词语表,该词语表包括大量目标游戏应用中的词语,邻接词语对中的词语都可以在词语表中找到,邻接词语对中的词语可根据该词语表生成相应的独热编码,生成编码的维度与该词语表中词语数量相同。
将多个邻接词语对的编码输入神经网络模型进行训练,该神经网络模型包括输入层和一个隐藏层,例如一个邻接词语对为(“全球”,“王者”),其编码为(“10000000”,“01000000”),进行训练时是将词语“全球”对应的编码“10000000”作为该神经网络模型的输入,词语“王者”对应的编码“01000000”作为训练的标签。在此,该神经网络模型中隐藏层中神经元的数量为预设值,用户可根据自身需要设定神经元数量,例如,用户希望将每个词语转换为100维的向量,则可将隐藏层神经元数量设定为100。另外,该神经网络模型的其它常用网络设置如损失函数、参数优化方法等都可采用通常设置如平方差损失函数、梯度下降法等进行设定。
本申请的一些实施例中,根据训练完成的神经网络模型中输入层与隐藏层之间的权重,生成该词语对应的词语向量,具体可使用如下方法:将训练完成的神经网络模型中输入层神经元与全部隐藏层神经元之间的多个权重组合为该词语对应的词语向量,其中,输入层神经元与该词语的编码有效位相对应。在此,该神经网络模型中输入层神经元的数量与输入的词语编码的维度数相同,每个输入层神经元只接收词语编码中的一个数位,该词语的独热编码中只有一个有效位,即编码中为“1”的数位,接收该数位的输入层神经元与全部隐藏层神经元之间都存在连接,每条连接都对应一个权重,因此该输入层神经元与全部隐藏层神经元之间对应有多个权重,将这些权重组合为一个向量,该向量即为该词语对应的词语向量。
本申请的一些实施例中,根据该词语向量生成目标游戏应用对应的词向量,具体可包括如下步骤:对该词语向量进行压缩,获取该词语对应的向量值;将该描述文本通过分词得到的所有词语对应的向量值组合成该目标游戏应用对应的词向量。在此,词语向量是多维的向量,将其压缩为维度为1的向量值可降低后期的比对计算量,提高比对的效率。优选地,对词语向量进行压缩可采用计算平均值的方法,即计算词语向量全部维度的数值的平均值,将得到的平均值作为该词语向量的向量值。例如,词语“王者”可通过上述方法得到一个100维的词语向量,再对该词语向量进行压缩得到的向量值可为-0.08977831074752021。
优选地,可通过ansj工具对上述描述文本“《王者荣耀》是全球首款5V5英雄公平对战手游,腾讯MOBA手游大作!作为一款MOBA类游戏,《王者荣耀》特色多多,在同类的游戏中可谓是一枝独秀,艳压全场。5V5王者峡谷、5V5深渊大乱斗、以及3V3、1V1等多样模式一键体验,热血竞技尽享快感!”进行分词,得到相应的分词结果:“王者荣耀全球英雄公平手游腾讯moba…”,再使用word2vector工具中的skip-gram方法对分词结果转换为向量并压缩为向量值,得到的词向量可为[-0.08977831074752021,-0.1161408931442091,0.2592430370207426,0.12981394762600712,…]。
本申请的一些实施例中,将该词向量与待比较游戏应用对应的词向量进行比对,确定两者之间的第二相似程度,具体可通过计算该词向量与待比较游戏应用对应的词向量之间夹角的余弦值,将得到的余弦值作为两者之间的第二相似程度。在此,得到待比较游戏应用对应的词向量的方法与前述得到目标游戏应用对应的词向量的方法相同。
本申请的一些实施例中,还可以根据目标游戏应用对应的应用图标来确定目标游戏应用与待比较游戏应用之间的第三相似程度,具体可包括如下步骤:获取所述目标游戏应用对应的应用图标;根据所述目标游戏应用对应的应用图标,生成所述目标游戏应用对应的图像向量;将所述图像向量与待比较游戏应用对应的图像向量进行比对,确定两者之间的第三相似程度。
在此,目标游戏应用在应用市场或网站上进行推广时,通常都会提供对应的游戏相关图标,该图标即为对应的应用图标,应用图标用于向用户提供直观的图形信息,可以让用户看到该应用图标即可知道该应用图标对应的游戏应用。
本申请的一些实施例中,获取目标游戏应用对应的应用图标,具体可通过网络信息自动获取技术从互联网上获取目标游戏应用对应的应用图标。优选地,网络信息自动获取技术可以为网络爬虫技术,即通过网络爬虫自动从游戏相关网站或应用市场获取目标游戏应用对应的应用图标,通过网络爬虫技术通常可获取多个目标游戏应用对应的应用图标。
目标游戏应用对应的应用图标是以图像形式进行描述,为了提高对应的目标游戏应用的直观可辨识性,应用图标往往都对游戏内容相关的信息有所反映,如游戏类型、游戏的主要特色等,直接进行应用图标直接的比对,产生的结果只是图像本身的对比结果,难以反映应用图标中包含语义相关的比较结果,因此将应用图标之间的比对转换为包含语义特征的向量之间的比对,能够提高比对结果的准确性。
本申请的一些实施例中,根据目标游戏应用对应的应用图标,生成该目标游戏应用对应的图像向量,具体可包括如下步骤:
1)将目标游戏应用对应的应用图标输入预先构建的卷积神经网络模型;
2)将该卷积神经网络模型输出的多维度向量作为目标游戏应用对应的图像向量。
在此,用户根据自身需求为卷积神经网络模型提供初始参数,该卷积神经网络模型已经根据预先提供的训练数据完成相应的神经网络训练,可根据输入的应用图标输出对应的多维度向量。
卷积神经网络模型中通过对图像进行卷积操作来获取图中的语义相关信息,卷积神经网络模型包括多个依次连接的卷积层,每个卷积层通过训练学习一组过滤器,随着层数的加深,卷积神经网络模型中学习到的过滤器变得越来越复杂、越来越精细,从而能够获取到应用图标中更多高层的语义特征。例如,第一层卷积层学习到的过滤器可识别出应用图标中简单的方向边缘和颜色,第二层卷积层学习到的过滤器可识别出由边缘和颜色组合成的简单纹理,往后的更高层卷积层学习到的过滤器可识别出类似自然图像中的纹理如羽毛、眼睛、树叶等。
本申请的一些实施例中,该卷积神经网络模型可包括多个基本单元,基本单元包括深度可分离卷积和非线性激活函数。深度可分离卷积(Depthwise SeparableConvolution)对于不同的输入通道采用不同的卷积核进行卷积,将同时考虑图像区域和通道的普通卷积操作分解为两个过程,实现了图像区域和通道的分离,从而可以加快对图像进行卷积的计算速度,同时还可以降低网络中的参数量和乘法的运算次数。
激活函数(Activation Function)是在神经网络模型的神经元上运行的函数,负责将神经元的输入映射到输出端。使用非线性激活函数,可以给神经元引入非线性因素,使得神经网络模型可以任意逼近任何非线性函数,这样神经网络模型就可以应用到众多的非线性模型中。优选地,可采用ReLU函数作为基本单元中的非线性激活函数,ReLU(RectifiedLinear Unit,ReLU)函数,即线性整流函数,又称修正线性单元,通常指代以斜坡函数及其变种为代表的非线性函数,通过使用ReLU函数可获得仿生学相关优势,可以避免梯度爆炸和梯度消失问题,能够更有效率地进行梯度下降和反向传播,还能够简化神经网络模型的计算过程。
本申请的一些实施例中,卷积神经网络模型中深度可分离卷积的卷积核大小确定为3×3。在此,不同的卷积核大小可以实现不同尺度的感知,由于使用5×5大小的卷积核直接计算参数量还是非常大,训练时间还是比较长,因此采用了多个小卷积核替代大卷积核的方法,例如使用2个3×3的卷积核来代替5×5卷积核实现卷积操作,可以使得参数量减少,网络深度加深,从而提高了神经网络的效果。
本申请的一些实施例中,卷积神经网络模型使用大小为1×1的卷积核作为基本单元之间的跳跃连接。在此,跳跃连接可将卷积神经网络模型分成多个块,这些跳跃连接有助于向后传播梯度到底层块,并将图像细节传递到顶层块,因此可以解决网络层数较深的情况下梯度消失的问题,同时有助于梯度的反向传播,加快训练过程,使得从噪声图像到干净图像的端到端映射训练更容易、更有效,实现了性能的提高。
本申请的一些实施例中,卷积神经网络模型使用全局平均池化方式输出多维度向量。在此,全局平均池化(Global Average Pooling,GAP)可以使得维度减少,能够极大减少神经网络的参数,还可以对整个神经网络在结构上做正则化以防止过拟合。
优选地,可使用卷积神经网络Xception来构建卷积神经网络模型。Xception由Google在2017年提出,主旨是推动Depthwise卷积和Pointwise卷积的使用,Xception直接以Inception v3网络为模板,将其中的inception模块替换为Depthwise卷积和Pointwise卷积,又外加了残差连接,从而使得模型大小与计算效率相对Inception v3取得了很大提高。
本申请的一些实施例中,将该图像向量与待比较游戏应用对应的图像向量进行比对,确定两者之间的相似程度,具体可通过计算该图像向量与待比较游戏应用对应的图像向量之间夹角的余弦值,将得到的余弦值作为两者之间的相似程度。在此,得到待比较游戏应用对应的图像向量的方法与前述得到目标游戏应用对应的图像向量的方法相同。
本申请的一些实施例中,还可以根据第一相似程度、第二相似程度和第三相似程度获得目标游戏应用与待比较游戏应用之间的最终相似程度,具体可采用如下方法:计算第一相似程度、第二相似程度和第三相似程度的调和平均数,将计算结果作为目标游戏应用与待比较游戏应用之间的最终相似程度。调和平均数又称倒数平均数,为平均数的一种,是总体各统计变量倒数的算术平均数的倒数。
图4示出了本申请的一些优选实施例中计算三种相似程度得到最终相似程度的流程,流程分为三个阶段:数据处理阶段、训练模型阶段和模型打分阶段,每种相似程度的计算在相同阶段所执行的操作不同,例如,在计算第一种相似程度中,首先是app(即应用)安装列表数据处理,再将安装列表当成文档,使用app2vector得到相应结果,最后基于app2vector的结果计算app之间的余弦距离,得到app各自的第一相似程度score;在计算第二种相似程度中,首先是对豌豆荚、应用宝、taptap、第一手游网的app详情(即描述文本)通过爬虫来获取,再将得到的app详情进行分词,使用word2vector得到app详情的词向量,最后基于app详情的词向量计算app之间的余弦距离,得到app各自的第二相似程度score;在计算第三种相似程度中,首先是对taptap、第一手游网的app图标(即应用图标)通过爬虫获取,再根据得到的icon图片信息得到300维的向量,最后基于app图标的嵌入结果即图像向量计算app之间的余弦距离,得到app各自的第三相似程度score;最后将三种score归一化之后,将三种score的调和平均值作为最终的score,即最终相似程度。
图3示出了根据不同相似程度计算方法得到的目标游戏应用排名,其中的目标APP为待比较游戏应用,从TOP1到TOP10的游戏应用为目标游戏应用,由图中可看出,使用不同的相似程度计算方法所得到的目标游戏应用排序有一定的差异。
本申请的一些实施例还提供了一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行前述识别游戏相似程度的方法。
本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述识别游戏相似程度的方法。
综上所述,本申请提供的方案能够自动获取终端设备中的应用安装信息,进一步根据应用安装信息生成目标游戏应用对应的应用向量,再将该应用向量与待比较游戏应用对应的应用向量进行比对得到两者之间的相似程度,从而实现了目标游戏应用与待比较游戏应用之间的自动化比对,无需人工查找竞争产品,提高了竞争产品的搜索效率和覆盖范围,同时对两者之间的相似程度进行了量化,提高了竞争产品相似性判断的准确性。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (9)

1.一种识别游戏相似程度的方法,其中,该方法包括:
从应用安装信息中获取安装包名称;
根据预设的窗口大小,确定所述安装包名称对应的邻接安装包名称,其中,所述窗口大小根据所述应用安装信息中安装包数量确定;
对所述邻接安装包名称和所述安装包名称进行编码;
对多个所述邻接安装包名称对应的编码进行组合,根据组合后的编码与所述安装包名称对应编码训练神经网络模型,其中,所述神经网络模型包括输入层和一个隐藏层,所述隐藏层中神经元的数量为预设值;
根据训练完成的所述神经网络模型中输入层与隐藏层之间的权重,生成所述安装包名称对应的向量;
获取目标游戏应用对应的目标安装包名称;
将所述目标安装包名称对应的向量确定为所述目标游戏应用对应的应用向量;
根据所述应用安装信息,生成所述目标游戏应用对应的应用向量;
将所述应用向量与待比较游戏应用对应的应用向量进行比对,确定两者之间的第一相似程度;
获取所述目标游戏应用对应的描述文本;
对目标游戏应用对应的描述文本进行分词,获取描述文本中的词语;
对该词语进行向量转换,生成该词语对应的词语向量;
对该词语向量进行压缩,获取该词语对应的向量值;
将该描述文本通过分词得到的所有词语对应的向量值组合成该目标游戏应用对应的词向量;
将所述词向量与待比较游戏应用对应的词向量进行比对,确定两者之间的第二相似程度。
2.根据权利要求1所述的方法,其中,对所述邻接安装包名称和所述安装包名称进行编码,包括:
使用独热编码对所述邻接安装包名称和所述安装包名称进行编码。
3.根据权利要求1所述的方法,其中,根据训练完成的所述神经网络模型中输入层与隐藏层之间的权重,生成所述安装包名称对应的向量,包括:
将训练完成的所述神经网络模型中输入层神经元与全部隐藏层神经元之间的多个权重组合为所述安装包名称对应的向量,其中,所述输入层神经元与所述安装包名称的编码有效位相对应。
4.根据权利要求1所述的方法,其中,将所述目标安装包名称对应的向量确定为所述目标游戏应用对应的应用向量,包括:
根据多个所述目标安装包名称对应的向量,生成目标向量,其中,所述目标向量中维度值为多个所述目标安装包名称对应的向量中相应维度的平均值;
将所述目标向量确定为所述目标游戏应用对应的应用向量。
5.根据权利要求1所述的方法,其中,将所述应用向量与待比较游戏应用对应的应用向量进行比对,确定两者之间的第一相似程度,包括:
计算所述应用向量与待比较游戏应用对应的应用向量之间夹角的余弦值,将得到的余弦值作为两者之间的第一相似程度。
6.根据权利要求1所述的方法,其中,该方法还包括:
获取所述目标游戏应用对应的应用图标;
根据所述目标游戏应用对应的应用图标,生成所述目标游戏应用对应的图像向量;
将所述图像向量与待比较游戏应用对应的图像向量进行比对,确定两者之间的第三相似程度。
7.根据权利要求6所述的方法,其中,该方法还包括:
计算所述第一相似程度、所述第二相似程度和所述第三相似程度的调和平均数,将计算结果作为所述目标游戏应用与所述待比较游戏应用之间的最终相似程度。
8.一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行权利要求1至7中任一项所述的方法。
9.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。
CN202010904419.5A 2020-09-01 2020-09-01 一种识别游戏相似程度的方法与设备 Active CN112100044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010904419.5A CN112100044B (zh) 2020-09-01 2020-09-01 一种识别游戏相似程度的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010904419.5A CN112100044B (zh) 2020-09-01 2020-09-01 一种识别游戏相似程度的方法与设备

Publications (2)

Publication Number Publication Date
CN112100044A CN112100044A (zh) 2020-12-18
CN112100044B true CN112100044B (zh) 2023-03-24

Family

ID=73757441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010904419.5A Active CN112100044B (zh) 2020-09-01 2020-09-01 一种识别游戏相似程度的方法与设备

Country Status (1)

Country Link
CN (1) CN112100044B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180193A1 (zh) * 2015-05-11 2016-11-17 广州市动景计算机科技有限公司 一种识别应用安装包的方法及装置
CN110675205A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 基于应用的竞品分析方法、装置及存储介质
CN111259231A (zh) * 2018-12-03 2020-06-09 珠海格力电器股份有限公司 应用程序的推荐方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180193A1 (zh) * 2015-05-11 2016-11-17 广州市动景计算机科技有限公司 一种识别应用安装包的方法及装置
CN106293779A (zh) * 2015-05-11 2017-01-04 广州爱九游信息技术有限公司 一种识别应用安装包的方法及装置
CN110675205A (zh) * 2018-07-03 2020-01-10 百度在线网络技术(北京)有限公司 基于应用的竞品分析方法、装置及存储介质
CN111259231A (zh) * 2018-12-03 2020-06-09 珠海格力电器股份有限公司 应用程序的推荐方法和装置

Also Published As

Publication number Publication date
CN112100044A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN109658455B (zh) 图像处理方法和处理设备
CN111275784B (zh) 生成图像的方法和装置
CN110083729B (zh) 一种图像搜索的方法及系统
CN110297897B (zh) 问答处理方法及相关产品
CN109074497A (zh) 使用深度信息识别视频图像序列中的活动
CN114390217A (zh) 视频合成方法、装置、计算机设备和存储介质
CN110348025A (zh) 一种基于字形的翻译方法、装置、存储介质及电子设备
CN108090117B (zh) 一种图像检索方法及装置,电子设备
CN114170623A (zh) 一种人物交互检测设备及其方法、装置、可读存储介质
CN117540007B (zh) 基于相似模态补全的多模态情感分析方法、系统和设备
CN117336525A (zh) 视频处理方法、装置、计算机设备及存储介质
Zhang et al. Collaborative annotation of semantic objects in images with multi-granularity supervisions
Kaddoura A Primer on Generative Adversarial Networks
CN113313077A (zh) 基于多策略和交叉特征融合的显著物体检测方法
CN112100044B (zh) 一种识别游戏相似程度的方法与设备
CN116630302A (zh) 细胞图像分割方法、装置以及电子设备
CN111539435A (zh) 语义分割模型构建方法及图像分割方法、设备、存储介质
CN113554549B (zh) 文本图像的生成方法、装置、计算机设备和存储介质
CN117351382A (zh) 视频对象定位方法及其装置、存储介质、程序产品
CN113609355A (zh) 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN114691853A (zh) 句子推荐方法、装置、设备及计算机可读存储介质
Ewert et al. Measuring meaningful information in images: algorithmic specified complexity
CN117036652B (zh) 布局信息生成方法、模型训练方法、装置及电子设备
CN112100045A (zh) 一种识别游戏相似程度的方法与设备
CN117690192B (zh) 多视图实例-语义共识挖掘的异常行为识别方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant