CN110069769B - 应用标签生成方法、装置及存储设备 - Google Patents
应用标签生成方法、装置及存储设备 Download PDFInfo
- Publication number
- CN110069769B CN110069769B CN201810059509.1A CN201810059509A CN110069769B CN 110069769 B CN110069769 B CN 110069769B CN 201810059509 A CN201810059509 A CN 201810059509A CN 110069769 B CN110069769 B CN 110069769B
- Authority
- CN
- China
- Prior art keywords
- application
- keyword
- keywords
- target
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种应用标签生成方法、装置及存储设备,其中,所述应用标签生成方法包括:获取应用的详情信息;从所述应用的详情信息中提取原始关键词;利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词;根据所述目标关键词确定所述应用的标签,本发明实施例生成的应用标签更准确、覆盖面更全。
Description
技术领域
本发明实施例涉及信息处理技术领域,具体涉及一种应用标签生成方法、装置及存储设备。
背景技术
应用的标签,可以用来展示应用的核心或特色功能、对应用进行简介、分类等,是应用的一个重要信息。目前,常用的应用标签生成方法为:利用一些规则从开发者提供的应用描述文本中提取一些关键词,将提取的关键词作为应用的标签。而开发者提供的应用描述文本通常存在语言过于通俗、重点不够突出、描述过于片面等问题,直接从应用描述文本中获取的应用标签,往往准确度较差、覆盖面不够。
发明内容
有鉴于此,本发明实施例提供了一种应用标签生成方法、装置及存储设备,生成的应用标签更准确、覆盖面更全。
本发明实施例提供的应用标签生成方法,包括:
获取应用的详情信息;
从所述应用的详情信息中提取原始关键词;
利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词;
根据所述目标关键词确定所述应用的标签。
本发明实施例提供的应用标签生成装置,包括:
获取单元,用于获取应用的详情信息;
提取单元,用于从所述应用的详情信息中提取原始关键词;
生成单元,用于利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词;
确定单元,用于根据所述目标关键词确定所述应用的标签。
本发明实施例还提供了一种存储设备,所述存储设备用于储存多条指令,所述指令适于由处理器加载并执行如本发明实施例提供的应用标签生成方法。
本发明实施例中,在获取应用的详情信息,并从应用的详情信息中提取原始关键词之后,会利用语义解析模型对原始关键词进行语义解析,生成目标关键词,根据目标关键词确定应用的标签。即本发明实施例中,应用的标签来源于将原始关键词进行语义解析生成的目标关键词,通过语义解析过程,使得得到的应用标签更加准确;另外,原始关键词来源于应用的详情信息,应用的详情信息能够更全面、详尽地表征一个应用,因而,本发明实施例得到的应用的标签覆盖面更全。
附图说明
图1是本发明实施例所提供的应用标签生成方法的应用场景示意图。
图2a是本发明实施例所提供的应用标签生成方法的一个流程示意图。
图2b是本发明实施例所提供的序列到序列模型的一个结构示意图。
图3a是本发明实施例所提供的应用标签生成方法的另一流程示意图。
图3b是本发明实施例所提供的一个语义解析过程示意图;
图4a是本发明实施例所提供的应用标签生成方法的又一流程示意图。
图4b是本发明实施例所提供的另一语义解析过程示意图。
图5是本发明实施例所提供的应用标签生成装置的一个结构示意图。
图6是本发明实施例所提供的应用标签生成装置的另一结构示意图。
图7是本发明实施例所提供的应用标签生成装置的又一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
由于现有的应用标签,是直接从应用描述文本中提取的,标签准确度较差、覆盖面较小,因而本发明实施例提供了一种应用标签生成方法,所生成的应用标签更准确、覆盖面更全。本发明实施例提供的应用标签生成方法,可实现在应用标签生成装置中,应用标签生成装置可以为服务器。
以应用标签生成装置为服务器为例,本发明实施例的应用标签生成方法的一个具体实施场景可如图1所示,服务器可以从数据库(可以是应用的后台数据库)获取应用的详情信息,应用的详情信息例如:应用的标题、应用的评论信息、应用的描述文本,应用的推荐语等,从所述应用的详情信息中提取原始关键词,该原始关键词通常是应用的详情信息中直接包含的词,利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词,该目标关键词可以是原始关键词的规范描述词和/或语义挖掘词,根据所述目标关键词确定所述应用的标签,例如:选取若干数目的目标关键词作为应用的标签。在确定应用的标签之后,服务器可以向终端反馈所确定的标签,终端可以根据服务器的反馈展示对应应用的标签,例如:将应用的标签外显,以吸引用户、提升应用的下载率。
以下分别进行详细说明,需说明的是,以下实施例的描述先后的顺序不作为对实施例优选顺序的限定。
本实施例将从应用标签生成装置的角度描述本发明实施例提供的应用标签生成方法,该应用标签生成装置可以是服务器,如图2a所示,本实施例的应用标签生成方法包括以下步骤:
步骤S201、获取应用的详情信息。
应用,指的是安装在诸如智能手机、平板电脑等终端上的软件程序。本实施例所提及的应用,可以是任何一个应用,例如办公应用、通信应用、游戏应用、购物应用等。
具体实现中,可以定时从后台数据库获取应用的详情信息,应用的详情信息包括但不限于:应用的标题、应用的描述文本、应用的评论信息、应用的推荐语、应用的最近更新特性等信息。
步骤S202、从所述应用的详情信息中提取原始关键词。
具体实现中,可以先对应用的详情信息进行分词。例如:可以构建自定义词典,按照预设策略将待分析汉字串与自定义词典中的词条进行匹配,若在自定义词典中能够找到某个字符串,则匹配成功(即识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配,按照不同长度优先匹配的情况,串匹配分词方法可以分为最大(最长)匹配和最小(最短)匹配,实际应用中,可视需求选取具体的分词方法。
分词之后,可以过滤掉停用词、无效词等。例如:可以过滤掉应用描述文本中描述的与应用无关的信息,比如开发者的自我介绍、开发者留下的联系方式;过滤掉广告或者促销信息,比如购物应用中的促销广告、游戏应用中的游戏币营销信息;另外还可以过滤掉数字、拼音等。具体的过滤方法,例如:可以构建正则过滤规则,过滤掉与该正则过滤规则匹配的词。比如,构建正则过滤规则:“联系方式”、“邮件”、“电话”等,则可以将应用的详情信息中的联系方式、邮件、电话等信息过滤掉。
过滤掉停用词、无效词之后,可以对得到的词进行筛选处理,例如进行词性筛选,选取动词、名词等,得到至少一个关键词。
具体实现中,如果筛选得到的关键词比较多,则可以计算每个关键词的词频(TermFrequency,TF),词频表示文档中某个词出现的频率,并计算每个关键词的逆向文档频率(Inverse Document Frequency,IDF),逆向文档频率由数据库中的文档总数除以包含该词语之文档的数目,再将得到的商取对数得到,将每个关键词的词频与逆向文档频率的乘积作为对应关键词的TF-IDF值,选取TF-IDF值大于预设阈值的关键词作为原始关键词,预设阈值可视实际需求自定义取值。另外,如果筛选得到的关键词不多,则可以直接执行步骤S203。
步骤S203、利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词。
本实施例中,语义解析模型可以通过训练序列到序列(Seq2seq)模型得到。Seq2seq模型简单来说,是一个翻译模型,可以把一个序列翻译成另一个序列。Seq2seq模型由一个编码器(encoder)和一个解码器(decoder)组成,编码器完成编码工作,将输入编码成语义向量,解码器则完成解码工作,对编码器的编码结果进行解码输出。
Seq2seq模型的基本结构可如图2b所示,其输入序列可以是“ABC”,输出序列可以是“WXYZ”,其中<EOS>是结束符。该模型由两个循环神经网络(Recurrent neural Network,RNN)组成,第一个RNN接受输入序列“ABC”,并在读取<EOS>时终止接受输入,并输出一个向量作为“ABC”这个输入的语义向量,第二个RNN接受第一个RNN产生的语义向量,并解码输出。
采用不同的训练集对Seq2seq模型进行训练,可以得到不同的功能模型。例如:将中文句子作为Seq2seq模型的源输入,将英文句子作为Seq2seq模型的目标输出,则可以得到机器翻译模型;将一篇文章作为Seq2seq模型的源输入,将概括性的几句描述句作为Seq2seq模型的目标输出,则可以得到文本摘要模型;将问句作为Seq2seq模型的源输入,将回答作为Seq2seq模型的目标输出,则可以得到机器问答模型。
具体在本实施例中,要得到语义解析模型,则可以将将样本关键词作为Seq2seq模型的源输入,将样本关键词的规范描述词和/或语义挖掘词作为所述Seq2seq模型的目标输出,进行模型训练,得到所述语义解析模型。具体实现中,模型的训练过程可以在步骤S201之前完成。
样本关键词的规范描述词,可以是样本关键词的正式用语、书面用语等,比如:样本关键词是口语化的词“小气”、“抠门”,而样本关键词的规范描述词可以是“吝啬”。样本关键词的语义挖掘词,可以是样本关键词的衍生词、语义延伸词、语义概括词等,比如:样本关键词是“朋友”,样本关键词的语义挖掘词可以是“社交”。
采用训练好的语义解析模型对所述原始关键词进行语义解析,生成目标关键词的过程可如下:
在编码阶段,直接使用第一个RNN进行语义向量生成,所采用的公式如下:
ht=f(xt,ht-1);
c=q({h1,...,ht});
其中,其中f是非线性激活函数,ht是当前隐节点输出,ht-1是上一隐节点输出,xt是当前时刻的输入(即输入的原始关键词)。语义向量c通常为第一个RNN中的最后一个隐节点输出,或者是多个隐节点输出的加权和。
在解码阶段,使用第二个RNN对第一个RNN生成的语义向量进行解码输出,即使用第二个RNN通过当前隐状态ht来预测当前输出,所采用的公式如下:
ht=f(yt-1,ht-1,c);
p(yt|{y1,.....,yt-1},c)=g(yt-1,st,c);
其中,yt-1是t-1时刻的输出符号(相当于是输出标识,不是实际输出),实际输出的是目标关键词及每个目标关键词的生成概率p。
上述解码过程即采用不带注意力机制的语义解析模型对原始关键字进行解码的过程,总结来说,即在编码阶段,将所有原始关键词编码成一个语义向量c,而在解码阶段,每一步根据所述语义向量c和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
由于上述解析方法,在编码和解码之间的唯一联系就是一个固定长度的语义向量c,在解码的时候,生成每个目标关键词所用到的语义向量都是一样的。而编码器将整个序列的信息压缩进一个固定长度的向量中去,有两个弊端,一是语义向量c无法完全表示整个序列(即所有原始关键词)的信息,还有就是先输入的内容携带的信息会被后输入的信息稀释掉,或者说,被覆盖了。输入序列越长,这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息,导致解析的准确度比较低。
为提高解析的准确度,提出一种带注意力机制的语义解析模型,可以基于Seq2seq模型,引入上下文关系,即引入注意力机制(attention mechanism)。所谓注意力机制,即在解码生成每个词的时候,对不同的输入词给予不同的关注权重ci,则解码端输出所采用的公式可修改成如下g(yt-1,st,ci)。
其中:
n为输入序列的长度,hj为j时刻的隐状态,aij为权重,aij的计算公式如下:
这里:
eij=a(si-1,hj);
a是一种对齐模型,si-1是解码过程的前一个隐状态的输出,hj表示解码过程的当前第j个隐状态。
带注意力机制的语义解析模型对原始关键字进行解码的过程,总结来说,即在编码阶段,将所述原始关键词编码成语义向量序列ci,所述语义向量序列ci中包括每个原始关键词对应的语义向量,在解码阶段,每一步根据当前解码的原始关键词对应的语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
步骤S204、根据所述目标关键词确定所述应用的标签。
具体实现中,在得到目标关键词之后,还可以获取利用所述语义解析模型生成每个目标关键词的生成概率,根据每个目标关键词的生成概率对所有目标关键词进行筛选,得到所述应用的标签。例如,可以筛选出概率大于预设概率值的目标关键词作为所述应用的标签,或者按照概率从大到小的顺序,筛选出预设数量的目标关键词作为所述应用的标签,此处不做具体限定。
另外,还可以根据目标关键词对应的原始关键词的来源(例如:标题、最近更新特征、描述本文、推荐语),对对应的目标关键词设置权重;比如,可以针对不同来源为目标关键词赋予不同的权重,比如,原始关键词来源于标题,则对应的目标关键词权重较高,原始关键词来源于最近更新特性,则对应的目标关键词权重次之等;根据每个目标关键词的权重及生成概率计算对应的目标关键词的标签得分,根据目标关键词的标签得分对所有目标关键词进行筛选,得到所述应用的标签。例如,可以筛选出标签得分大于预设分值的目标关键词作为所述应用的标签,或者按照得分从大到小的顺序,筛选出预设数量的目标关键词作为所述应用的标签,此处不做具体限定。
在得到应用的标签之后,可以将应用的标签反馈给终端,以使得终端利用服务器反馈的标签更新应用的原始标签。
另外,服务器还可以对标签的应用效果进行跟踪。例如:可以监控终端上应用的下载率,根据应用的下载率优化标签生成方案,该优化包括但不限于:调整原始关键词的来源,调整不同来源的权重等。
本实施例中,在获取应用的详情信息,并从应用的详情信息中提取原始关键词之后,会利用语义解析模型对原始关键词进行语义解析,生成目标关键词,根据目标关键词确定应用的标签。即本实施例中,应用的标签来源于将原始关键词进行语义解析生成的目标关键词,通过语义解析过程,使得得到的应用标签更加准确。
另外,原始关键词来源于应用的详情信息,应用的详情信息能够更全面、详尽地表征一个应用,因而,本发明实施例得到的应用的标签覆盖面更全。
进一步地,由于目标关键词可以是原始关键词的语义挖掘词,针对原始关键词比较少的应用,本实施例的方法也可以得到满足数量要求的标签。经试验统计,采用本发明的方法,针对大部分的应用,都可以得到满足数量要求的标签,且能够保证准确度和覆盖面。
针对上述实施例所描述的方法,以下两个实施例将举例作进一步详细说明。
请参阅图3a,本实施例将以采用不带注意力机制的语义解析模型对原始关键词进行语义解析为例进行说明,本实施例的方法包括:
步骤S301、获取应用的详情信息。
具体地,在获取应用的详情信息之前,可以将样本关键词作为Seq2seq模型的源输入,将样本关键词的规范描述词和/或语义挖掘词作为所述Seq2seq模型的目标输出,进行模型训练,得到后续要使用的语义解析模型。
样本关键词的规范描述词,可以是样本关键词的正式用语、书面用语等,样本关键词的语义挖掘词,可以是样本关键词的衍生词、语义延伸词、语义概括词等。
在训练好语义解析模型之后,可以定时从后台数据库获取应用的详情信息,应用的详情信息包括但不限于:应用的标题、应用的描述文本、应用的评论信息、应用的推荐语、应用的最近更新特性等。
步骤S302、从所述应用的详情信息中提取原始关键词。
具体的提取方法可参阅前述实施例的描述,此处不再赘述。
步骤S303、在编码阶段,将所述原始关键词编码成一个语义向量。
例如图3b所示,假如原始关键词为一个关键词序列,可以用x1、x2、x3分别代表不同的原始关键词,在利用语义解析模型进行编码的阶段,可以将输入的x1、x2、x3编码成一个语义向量c。
步骤S304、在解码阶段,每一步根据所述语义向量和已经生成的解码输出数据进行解码输出,得到目标关键词。
在利用语义解析模型进行解码的阶段,生成的目标关键词可以用y1、y2、y3表示,则y1、y2、y3的生成过程可如下:
y1=f(c);
y2=f(c,y1);
y3=f(c,y1,y2)。
步骤S305、根据所述目标关键词确定所述应用的标签。
具体实现中,在得到目标关键词之后,可以获取利用所述语义解析模型生成每个目标关键词的生成概率,根据每个目标关键词的生成概率对所有目标关键词进行筛选,得到所述应用的标签。
或者在得到目标关键词之后,还可以根据目标关键词对应的原始关键词的来源(例如:标题、最近更新特征、描述本文、推荐语),对对应的目标关键词设置权重,根据每个目标关键词的权重及生成概率计算对应的目标关键词的标签得分,根据目标关键词的标签得分对所有目标关键词进行筛选,得到所述应用的标签。
本实施例中,应用的标签来源于将原始关键词进行语义解析生成的目标关键词,通过语义解析过程,使得得到的应用标签更加准确。另外,原始关键词来源于应用的详情信息,应用的详情信息能够更全面、详尽地表征一个应用,因而,本发明实施例得到的应用的标签覆盖面更全。
请参阅图4a,本实施例将以采用带注意力机制的序列到序列模型对原始关键词进行语义解析为例进行说明,本实施例的方法包括:
步骤S401、获取应用的详情信息。
具体地,在获取应用的详情信息之前,可以将样本关键词作为Seq2seq模型的源输入,将样本关键词的规范描述词和/或语义挖掘词作为所述Seq2seq模型的目标输出,进行模型训练,得到后续要使用的语义解析模型。
样本关键词的规范描述词,可以是样本关键词的正式用语、书面用语等,样本关键词的语义挖掘词,可以是样本关键词的衍生词、语义延伸词、语义概括词等。
在训练好语义解析模型之后,可以定时从后台数据库获取应用的详情信息,应用的详情信息包括但不限于:应用的标题、应用的描述文本、应用的评论信息、应用的推荐语、应用的最近更新特性等。
步骤S402、从所述应用的详情信息中提取原始关键词。
具体的提取方法可参阅前述实施例的描述,此处不再赘述。
步骤S403、在编码阶段,将所述原始关键词编码成语义向量序列,所述语义向量序列中包括每个原始关键词对应的语义向量。
例如图4b所示,假如原始关键词为一个关键词序列,可以用x1、x2、x3分别代表不同的原始关键词,在利用语义解析模型进行编码的阶段,可以将输入的x1、x2、x3编码成语义向量序列c1,c2,c3,其中,语义向量c1与原始关键词x1对应,语义向量c2与原始关键词x2对应,语义向量c3与原始关键词x3对应。
步骤S404、在解码阶段,每一步根据当前解码的原始关键词对应的语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
在利用语义解析模型进行解码的阶段,生成的目标关键词可以用y1、y2、y3表示,则y1、y2、y3的生成过程可如下:
y1=f(c1);
y2=f(c2,y1);
y3=f(c3,y1,y2)。
步骤S405、根据所述目标关键词确定所述应用的标签。
具体实现中,在得到目标关键词之后,可以获取利用所述语义解析模型生成每个目标关键词的生成概率,根据每个目标关键词的生成概率对所有目标关键词进行筛选,得到所述应用的标签。
或者在得到目标关键词之后,还可以根据目标关键词对应的原始关键词的来源(例如:标题、最近更新特征、描述本文、推荐语),对对应的目标关键词设置权重,根据每个目标关键词的权重及生成概率计算对应的目标关键词的标签得分,根据目标关键词的标签得分对所有目标关键词进行筛选,得到所述应用的标签。
本实施例中,应用的标签来源于将原始关键词进行语义解析生成的目标关键词,通过语义解析过程,使得得到的应用标签更加准确。另外,原始关键词来源于应用的详情信息,应用的详情信息能够更全面、详尽地表征一个应用,因而,本发明实施例得到的应用的标签覆盖面更全。进一步地,使用带注意力机制的序列到序列模型对原始关键词进行语义解析,能够提高目标关键词的准确度,从而进一步提高了所确定的标签的准确度。
为了更好地实施以上方法,本发明实施例还提供一种应用标签生成装置,如图5所示,本实施例的装置包括:获取单元501、提取单元502、生成单元503以及确定单元504,如下:
获取单元501,用于获取应用的详情信息;
提取单元502,用于从所述应用的详情信息中提取原始关键词;
生成单元503,用于利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词;
确定单元504,用于根据所述目标关键词确定所述应用的标签。
一实施例中,如图6所示,所述装置还包括:
训练单元505,用于将样本关键词作为序列到序列模型的源输入,将样本关键词的规范描述词和/或语义挖掘词作为所述序列到序列模型的目标输出,进行模型训练,得到所述语义解析模型。
一实施例中,如图6所示,所述生成单元503包括:
第一编码单元5031,用于在编码阶段,将所述原始关键词编码成一个语义向量;
第一解码单元5032,用于在解码阶段,每一步根据所述语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
一实施例中,如图6所示,所述生成单元503包括:
第二编码单元5033,用于在编码阶段,将所述原始关键词编码成语义向量序列,所述语义向量序列中包括每个原始关键词对应的语义向量;
第二解码单元5034,用于在解码阶段,每一步根据当前解码的原始关键词对应的语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
一实施例中,所述提取单元502具体用于:
对所述应用的详情信息进行分词、过滤和筛选处理,得到至少一个关键词,计算所述至少一个关键词的词频-逆向文档频率TF-IDF值,提取TF-IDF值大于预设阈值的关键词作为所述原始关键词。
一实施例中,如图6所示,所述确定单元504包括:
获取子单元5041,用于获取所述目标关键词的生成概率;
筛选子单元5044,用于根据所述目标关键词的生成概率对所述目标关键词进行筛选,得到所述应用的标签。
一实施例中,如图6所示,所述确定单元504还包括:
设置子单元5042,用于根据所述目标关键词对应的原始关键词的来源为所述目标关键词设置权重;
计算子单元5043,用于根据所述目标关键词的生成概率和权重计算所述目标关键词的标签得分;
所述筛选子单元5044还用于,根据所述目标关键词的标签得分对所述目标关键词进行筛选,得到所述应用的标签。
需要说明的是,上述实施例提供的应用标签生成装置在实现应用标签生成时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的应用标签生成装置与应用标签生成方法属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
本实施例的装置,由获取单元501获取应用的详情信息,并由提取单元502从应用的详情信息中提取原始关键词,再由生成单元503利用语义解析模型对原始关键词进行语义解析,生成目标关键词,最后由确定单元504根据目标关键词确定应用的标签。即本实施例中,应用的标签来源于将原始关键词进行语义解析生成的目标关键词,通过语义解析过程,使得得到的应用标签更加准确;另外,原始关键词来源于应用的详情信息,应用的详情信息能够更全面、详尽地表征一个应用,因而,本发明实施例得到的应用的标签覆盖面更全。
相应的,本发明实施例还提供了一种应用标签生成装置,该应用标签生成装置可为服务器。如图7所示,其示出了本发明实施例所涉及的装置的结构示意图,具体来讲:
该装置可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、射频(Radio Frequency,RF)电路603、电源604、输入单元605、以及显示单元606等部件。本领域技术人员可以理解,图7中示出的装置结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该装置的控制中心,利用各种接口和线路连接整个装置的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行装置的各种功能和处理数据,从而对装置进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据装置的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
RF电路603可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器601处理;另外,将涉及上行的数据发送给基站。通常,RF电路603包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(Subscriber Identification Module,SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路603还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General PacketRadio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
装置还包括给各个部件供电的电源604(比如电池),优选的,电源604可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源604还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该装置还可包括输入单元605,该输入单元605可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元605可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器601,并能接收处理器601发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元605还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
该装置还可包括显示单元606,该显示单元606可用于显示由用户输入的信息或提供给用户的信息以及装置的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元606可包括显示面板,可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器601以确定触摸事件的类型,随后处理器601根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图7中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
尽管未示出,装置还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,装置中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
获取应用的详情信息;
从所述应用的详情信息中提取原始关键词;
利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词;
根据所述目标关键词确定所述应用的标签。
在一些实施例中,在获取应用的详情信息之前,所述处理器601还用于执行以下步骤:
将样本关键词作为序列到序列模型的源输入,将样本关键词的规范描述词和/或语义挖掘词作为所述序列到序列模型的目标输出,进行模型训练,得到所述语义解析模型。
在一些实施例中,在利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词时,所述处理器601具体用于执行以下步骤:
在编码阶段,将所述原始关键词编码成一个语义向量;
在解码阶段,每一步根据所述语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
在一些实施例中,在利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词时,所述处理器601具体还用于执行以下步骤:
在编码阶段,将所述原始关键词编码成语义向量序列,所述语义向量序列中包括每个原始关键词对应的语义向量;
在解码阶段,每一步根据当前解码的原始关键词对应的语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
在一些实施例中,在从所述应用的详情信息中提取原始关键词时,所述处理器601具体用于执行以下步骤:
对所述应用的详情信息进行分词、过滤和筛选处理,得到至少一个关键词;
计算所述至少一个关键词的词频-逆向文档频率TF-IDF值,提取TF-IDF值大于预设阈值的关键词作为所述原始关键词。
在一些实施例中,在根据所述目标关键词确定所述应用的标签时,所述处理器601具体用于执行以下步骤:
获取所述目标关键词的生成概率;
根据所述目标关键词的生成概率对所述目标关键词进行筛选,得到所述应用的标签。
在一些实施例中,在根据所述目标关键词确定所述应用的标签时,所述处理器601还用于执行以下步骤:
根据所述目标关键词对应的原始关键词的来源为所述目标关键词设置权重;
根据所述目标关键词的生成概率和权重计算所述目标关键词的标签得分;
根据所述目标关键词的标签得分对所述目标关键词进行筛选,得到所述应用的标签。
本实施例的应用标签生成装置,在获取应用的详情信息,并从应用的详情信息中提取原始关键词之后,会利用语义解析模型对原始关键词进行语义解析,生成目标关键词,根据目标关键词确定应用的标签。即本实施例中,应用的标签来源于将原始关键词进行语义解析生成的目标关键词,通过语义解析过程,使得得到的应用标签更加准确;另外,原始关键词来源于应用的详情信息,应用的详情信息能够更全面、详尽地表征一个应用,因而,本发明实施例得到的应用的标签覆盖面更全。
本申请实施例还提供一种存储设备,所述存储设备存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一实施例中的视频转码方法,比如:获取应用的详情信息;从所述应用的详情信息中提取原始关键词;利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词;根据所述目标关键词确定所述应用的标签。
在本申请实施例中,存储设备可以是磁碟、光盘、只读存储器(Read Only Memory,ROM)或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的应用标签生成方法而言,本领域普通决策人员可以理解实现本申请实施例的应用标签生成方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如应用标签生成方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的应用标签生成装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
Claims (11)
1.一种应用标签生成方法,其特征在于,包括:
获取应用的详情信息;所述应用的详情信息包括应用的标题、应用的评论信息、应用的描述文本、应用的推荐语和应用的最近更新特性信息;
从所述应用的详情信息中提取原始关键词;
利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词;所述目标关键词包括所对应原始关键词的规范描述词和语义挖掘词中的至少一项;
根据所述目标关键词确定所述应用的标签;
其中,所述根据所述目标关键词确定所述应用的标签,包括:
获取所述语义解析模型所生成各所述目标关键词的生成概率;
将目标关键词对应的原始关键词的来源对应的权重,作为所述目标关键词的权重,所述来源包括标题、评论信息、描述文本、推荐语和最近更新特性信息;
根据每个目标关键词的权重和每个目标关键词的生成概率,计算各目标关键词的标签得分;
根据目标关键词的标签得分进行目标关键词筛选,得到所述应用的标签。
2.根据权利要求1所述的方法,其特征在于,在获取应用的详情信息之前,所述方法还包括:
将样本关键词作为序列到序列模型的源输入,将样本关键词的规范描述词和/或语义挖掘词作为所述序列到序列模型的目标输出,进行模型训练,得到所述语义解析模型。
3.根据权利要求2所述的方法,其特征在于,所述利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词,包括:
在编码阶段,将所述原始关键词编码成一个语义向量;
在解码阶段,每一步根据所述语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
4.根据权利要求2所述的方法,其特征在于,所述利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词,包括:
在编码阶段,将所述原始关键词编码成语义向量序列,所述语义向量序列中包括每个原始关键词对应的语义向量;
在解码阶段,每一步根据当前解码的原始关键词对应的语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
5.根据权利要求1所述的方法,其特征在于,所述从所述应用的详情信息中提取原始关键词,包括:
对所述应用的详情信息进行分词、过滤和筛选处理,得到至少一个关键词;
计算所述至少一个关键词的词频-逆向文档频率TF-IDF值,提取TF-IDF值大于预设阈值的关键词作为所述原始关键词。
6.一种应用标签生成装置,其特征在于,包括:
获取单元,用于获取应用的详情信息;所述应用的详情信息包括应用的标题、应用的评论信息、应用的描述文本、应用的推荐语和应用的最近更新特性信息;
提取单元,用于从所述应用的详情信息中提取原始关键词;
生成单元,用于利用语义解析模型对所述原始关键词进行语义解析,生成目标关键词;所述目标关键词包括所对应原始关键词的规范描述词和语义挖掘词中的至少一项;
确定单元,用于根据所述目标关键词确定所述应用的标签;
所述确定单元进一步用于:
获取所述语义解析模型所生成各所述目标关键词的生成概率;
将目标关键词对应的原始关键词的来源对应的权重,作为所述目标关键词的权重,所述来源包括标题、评论信息、描述文本、推荐语和最近更新特性信息;
根据每个目标关键词的权重和每个目标关键词的生成概率,计算各目标关键词的标签得分;
根据目标关键词的标签得分进行目标关键词筛选,得到所述应用的标签。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
训练单元,用于将样本关键词作为序列到序列模型的源输入,将样本关键词的规范描述词和/或语义挖掘词作为所述序列到序列模型的目标输出,进行模型训练,得到所述语义解析模型。
8.根据权利要求7所述的装置,其特征在于,所述生成单元包括:
第一编码单元,用于在编码阶段,将所述原始关键词编码成一个语义向量;
第一解码单元,用于在解码阶段,每一步根据所述语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
9.根据权利要求7所述的装置,其特征在于,所述生成单元包括:
第二编码单元,用于在编码阶段,将所述原始关键词编码成语义向量序列,所述语义向量序列中包括每个原始关键词对应的语义向量;
第二解码单元,用于在解码阶段,每一步根据当前解码的原始关键词对应的语义向量和已经生成的解码输出数据进行解码输出,得到所述目标关键词。
10.根据权利要求6所述的装置,其特征在于,所述提取单元具体用于:
对所述应用的详情信息进行分词、过滤和筛选处理,得到至少一个关键词,计算所述至少一个关键词的词频-逆向文档频率TF-IDF值,提取TF-IDF值大于预设阈值的关键词作为所述原始关键词。
11.一种存储设备,其特征在于,所述存储设备用于储存多条指令,所述指令适于由处理器加载并执行如权利要求1至5任一项所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810059509.1A CN110069769B (zh) | 2018-01-22 | 2018-01-22 | 应用标签生成方法、装置及存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810059509.1A CN110069769B (zh) | 2018-01-22 | 2018-01-22 | 应用标签生成方法、装置及存储设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110069769A CN110069769A (zh) | 2019-07-30 |
CN110069769B true CN110069769B (zh) | 2023-05-02 |
Family
ID=67364654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810059509.1A Active CN110069769B (zh) | 2018-01-22 | 2018-01-22 | 应用标签生成方法、装置及存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110069769B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598091A (zh) * | 2019-08-09 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 用户标签挖掘方法、装置、服务器及可读存储介质 |
CN110688832B (zh) * | 2019-10-10 | 2023-06-09 | 河北省讯飞人工智能研究院 | 一种评论生成方法、装置、设备及存储介质 |
CN111079439A (zh) * | 2019-12-11 | 2020-04-28 | 拉扎斯网络科技(上海)有限公司 | 异常信息识别方法、装置、电子设备及计算机存储介质 |
CN112597295B (zh) * | 2020-12-03 | 2024-02-02 | 京东科技控股股份有限公司 | 摘要提取方法、装置、计算机设备和存储介质 |
CN113704501B (zh) * | 2021-08-10 | 2024-05-31 | 上海硬通网络科技有限公司 | 应用的标签获取方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682964A (zh) * | 2016-12-29 | 2017-05-17 | 努比亚技术有限公司 | 一种确定应用标签的方法和装置 |
CN107133224A (zh) * | 2017-04-25 | 2017-09-05 | 中国人民大学 | 一种基于主题词的语言生成方法 |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11250841B2 (en) * | 2016-06-10 | 2022-02-15 | Conduent Business Services, Llc | Natural language generation, a hybrid sequence-to-sequence approach |
-
2018
- 2018-01-22 CN CN201810059509.1A patent/CN110069769B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682964A (zh) * | 2016-12-29 | 2017-05-17 | 努比亚技术有限公司 | 一种确定应用标签的方法和装置 |
CN107133224A (zh) * | 2017-04-25 | 2017-09-05 | 中国人民大学 | 一种基于主题词的语言生成方法 |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
Non-Patent Citations (3)
Title |
---|
Deep Keyphrase Generation;Rui Meng et al;《arXiv》;20170423;第1-11页 * |
DeepProbe: Information Directed Sequence Understanding and Chatbot Design via Recurrent Neural Networks;Zi Yin et al;《Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining》;20170813;第2131-2139页 * |
基于APP数据的标签提取与整合;叶刚锋;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20180115(第01期);第I138-680页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110069769A (zh) | 2019-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN109145303B (zh) | 命名实体识别方法、装置、介质以及设备 | |
CN109241431B (zh) | 一种资源推荐方法和装置 | |
US10210243B2 (en) | Method and system for enhanced query term suggestion | |
CN111931501B (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN110162770A (zh) | 一种词扩展方法、装置、设备及介质 | |
CN108280115B (zh) | 识别用户关系的方法及装置 | |
CN109783798A (zh) | 文本信息添加图片的方法、装置、终端及存储介质 | |
CN111177371B (zh) | 一种分类方法和相关装置 | |
KR20140105841A (ko) | 이모티콘들을 식별하고 제안하기 위한 방법 및 시스템 | |
CN109165292A (zh) | 数据处理方法、装置以及移动终端 | |
CN110825863B (zh) | 一种文本对融合方法及装置 | |
US20180032907A1 (en) | Detecting abusive language using character n-gram features | |
CN112257472B (zh) | 一种文本翻译模型的训练方法、文本翻译的方法及装置 | |
WO2022257840A1 (zh) | 信息显示方法、装置、电子设备及可读存储介质 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN109543014B (zh) | 人机对话方法、装置、终端及服务器 | |
CN110837734A (zh) | 文本信息处理方法、移动终端 | |
CN110245357B (zh) | 主实体识别方法和装置 | |
CN112307198B (zh) | 一种单文本的摘要确定方法和相关装置 | |
CN111611369B (zh) | 基于人工智能的交互方法和相关装置 | |
CN112417874A (zh) | 命名实体的识别方法和装置、存储介质、电子装置 | |
CN116955610A (zh) | 一种文本数据的处理方法、装置以及存储介质 | |
CN115168568B (zh) | 一种数据内容的识别方法、装置以及存储介质 | |
CN113505293A (zh) | 信息推送方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |