CN111488510A - 小程序相关词的确定方法、装置、处理设备及搜索系统 - Google Patents

小程序相关词的确定方法、装置、处理设备及搜索系统 Download PDF

Info

Publication number
CN111488510A
CN111488510A CN202010306231.0A CN202010306231A CN111488510A CN 111488510 A CN111488510 A CN 111488510A CN 202010306231 A CN202010306231 A CN 202010306231A CN 111488510 A CN111488510 A CN 111488510A
Authority
CN
China
Prior art keywords
search
behavior sequence
applet
sequence set
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010306231.0A
Other languages
English (en)
Other versions
CN111488510B (zh
Inventor
韩增新
郑培祥
许强永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202311474113.0A priority Critical patent/CN117556030A/zh
Priority to CN202010306231.0A priority patent/CN111488510B/zh
Publication of CN111488510A publication Critical patent/CN111488510A/zh
Application granted granted Critical
Publication of CN111488510B publication Critical patent/CN111488510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书提供一种小程序相关词的确定方法、装置、处理设备及搜索系统,利用用户在网络中的设备操作数据,可以挖掘出用户的搜索行为序列数据,确定出目标小程序的搜索行为序列集合,并对挖掘出的搜索行为序列集合进行过滤,确定出小程序的相关词集合。涉及海量的用户行为,搜索行为序列集合是从用户行为中挖掘,直接理解用户意图,从用户角度理解小程序相关词的问题,通过用户搜索行为序列的挖掘,获取用户多次搜索数据,避免出现当次搜索未能召回的结果无法统计的问题,为小程序的推广应用奠定了数据基础。

Description

小程序相关词的确定方法、装置、处理设备及搜索系统
技术领域
本说明书属于计算机技术领域,尤其涉及一种小程序相关词的确定方法、装置、处理设备及搜索系统。
背景技术
小程序可以理解为一种不需要下载安装即可使用的应用,一般可以嵌入在客户端中安装的应用程序中,可以提供特定的功能。用户一般可以通过扫一扫或搜索小程序的相关词,在客户端的界面中加载出对应的小程序。因此,小程序的相关词是小程序的推广使用的重要因素。一般小程序的相关词是开发人员自己定义提交的,开发人员定义的方式覆盖面比较窄,如果小程序开发人员不知道提交相关词的入口,则无法通过搜索相关词的方式搜索出对应的小程序,影响小程序的推广使用。
发明内容
本说明书实施例的目的在于提供一种小程序相关词的确定方法、装置、处理设备及搜索系统,提高了小程序相关词的确定的准确性和覆盖面。
一方面,本说明书实施例提供了一种小程序相关词的确定方法,所述方法包括:
根据用户的设备操作数据,确定出目标小程序对应的搜索行为序列集合;其中,所述搜索行为序列集合包括用户在点击所述目标小程序之前连续输入的多个搜索文本;
对所述搜索行为序列集合中的搜索文本进行过滤,确定出所述目标小程序的相关词集合;
将所述相关词集合中的搜索文本与所述目标小程序进行关联。
另一方面,本说明书提供了一种小程序相关词的确定装置,包括:
搜索行为序列确定模块,用于根据用户的设备操作数据,确定出目标小程序对应的搜索行为序列集合;其中,所述搜索行为序列集合包括用户在点击所述目标小程序之前连续输入的多个搜索文本;
过滤模块,用于对所述搜索行为序列集合中的搜索文本进行过滤,确定出所述目标小程序的相关词集合;
搜索关联模块,用于将所述相关词集合中的搜索文本与所述目标小程序进行关联。
还一方面,本说明书实施例提供了一种小程序相关词的确定处理设备,包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述小程序相关词的确定方法。
再一方面,本说明书实施例提供了一种小程序搜索系统,包括至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述小程序相关词的确定方法;
所述处理器还用于在接收到用户输入的搜索文本时,根据所述搜索文本和各个小程序对应的相关词集合为用户展示对应的小程序。
本说明书提供的小程序相关词的确定方法、装置、处理设备及搜索系统,利用用户在网络中的设备操作数据,可以挖掘出用户的搜索行为序列数据,确定出目标小程序的搜索行为序列集合,并对挖掘出的搜索行为序列集合进行过滤,确定出小程序的相关词集合。涉及海量的用户行为,提高了小程序相关词的覆盖面,并且,搜索行为序列集合是从用户行为中挖掘,直接理解用户意图,从用户角度理解小程序相关词的问题,可以提高确定出的小程序相关词的准确性。通过用户搜索行为序列的挖掘,获取用户多次搜索数据,避免出现当次搜索未能召回的结果无法统计的问题,提高了小程序相关词挖掘的准确性,为小程序的推广应用奠定了数据基础。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的小程序相关词的确定方法实施例的流程示意图;
图2是本说明书又一些实施例中小程序相关词确定方法的流程示意图;
图3是本说明书又一个实施例中小程序相关词挖掘确定的流程示意图;
图4是本说明书提供的小程序相关词的确定装置一个实施例的模块结构示意图;
图5是本说明书一个实施例中进行小程序相关词确定的服务器的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
小程序是一种不需要下载安装即可使用的应用,不同的小程序可以提供不同的功能,并且,用户不用担心会占用客户端内存的问题,因此小程序的使用也越来越多。通常开发人员开发出一款小程序后,可以定义并提交该小程序的相关词,或者也可以设置爬虫协议,网络平台通过爬虫爬取该小程序页面的相关词,提取并应用于召回排序。当有用户搜索开发人员定义的小程序的相关词或者爬虫爬取获得的相关词时,就可以在界面中展示出该小程序界面,供用户点击使用。但是,用户输入的查询词表述与实际小程序设置的相关词之间的表述是有语义鸿沟的,如:若用户输入的查询词有错别字,与小程序的相关词不完全相符,则可能无法匹配。小程序相关词的定义对于小程序的推广使用至关重要,而开发人员定义的相关词的覆盖面比较窄,并且有些开发人员可能不知道如何设置提交小程序的相关词。通过爬虫爬取小程序页面的方式爬取的仅仅是小程序页面中词语,没有考虑到使用小程序的用户角度,可能与实际用户搜索的相关词有一定的出入,准确性不够。
图1是本说明书实施例提供的小程序相关词的确定方法实施例的流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。
具体的一个实施例如图1所示,本说明书提供的小程序相关词的确定方法的一个实施例中,所述方法可以应用于为用户提供服务的网络平台或者一些信息查询平台中,具体可以用于客户端(如:智能手机、平板电脑、计算机、车载设备、智能穿戴设备等)、服务器等终端,所述方法可以包括如下步骤:
步骤102、根据用户的设备操作数据,确定出目标小程序对应的搜索行为序列集合;其中,所述搜索行为序列集合包括用户在点击所述目标小程序之前连续输入的多个搜索文本。
在具体的实施过程中,可以获取用户在网络平台等设备中的设备操作数据,设备操作数据可以表示用户在平台中的搜索、点击、浏览等操作数据,可以通过对设备进行监控来获取,如:根据设备的日志数据等方式获取。获取到用户的设备操作数据后,可以从设备操作数据中提取用户在点击选择目标小程序之前的搜索行为序列数据,搜索行为序列数据可以理解为用户的一系列搜索行为数据。可以获取用户在一定时间范围内的设备操作数据,或者获取用户在两次点击操作之间的搜索行为序列数据,可以基于搜索行为序列数据确定出搜索行为序列集合。目标小程序可以理解为用户在输入一系列搜索文本后,在界面中展示出的小程序页面中点击选择的小程序。搜索行为序列集合可以包括用户在点击目标小程序之前连续输入的多个搜索文本,搜索文本可以表示用户输入的搜索词或短语或语音或图片等,若用户输入的是语音、图片等非文字形式的搜索文本,则可以将其转换为对应的文字或字符,再存入搜索行为序列集合中。
例如:用户在某网络平台的搜索窗口中先输入“专车”、网络平台根据用户输入的内容没有匹配出合适的内容,界面中没有展示内容,用户接着输入“顺风车”,网络平台仍没有匹配出相关的内容,用户又输入“打车”,此时网络平台界面中展示“A打车”、“B打车”两个打车小程序。用户点击了“A打车”小程序,则“A打车”小程序为用户此次搜索的目标小程序,可以根据用户的一系列搜索行为序列数据确定出搜索行为序列集合为[专车顺风车打车],搜索行为序列集合[专车顺风车打车]可以理解为“A打车”小程序的搜索行为序列集合。
此外,本说明书一些实施例中,可以基于用户的session数据,挖掘用户搜索行为序列数据,session可以记录一系列状态,用户的session数据可以理解为在一段时间间隔(30分钟)内的连续搜索、点击等行为序列数据,利用session数据可以快速准确的挖掘出用户点击目标小程序之前的搜索行为序列数据。
需要说明的是,上述示例中仅仅是举例说明,示意出的是基于一个用户的搜索行为序列数据确定出的搜索行为序列集合,实际应用时,搜索行为序列集合可以是基于一个用户的搜索行为序列数据确定的,也可以是基于多个用户对目标小程序的搜索点击的搜索行为序列数据确定的,以提高目标小程序的相关词确定的覆盖面和准确性。
步骤104、对所述搜索行为序列集合中的搜索文本进行过滤,确定出所述目标小程序的相关词集合。
在具体的实施过程中,在确定出目标小程序的搜索行为序列集合后,可以对搜索行为序列集合中的搜索文本进行过滤,删除错误或没有实际意义的搜索文本。例如:用户可能打错字误输入一个搜索文本,这样的搜索文本可以删除。可以对搜索行为序列集合中的各个搜索文本进行语义相似度的计算,将与其他搜索文本之间的相似度低的搜索文本删除。当然,也可以采用其他的方法进行搜索文本的过滤,比如:删除重复的搜索文本等,本说明书实施例不作具体限定。删除一些错误或没有实际意义的搜索文本后,剩余的搜索文本的集合可以作为目标小程序的相关词集合。
步骤106、将所述相关词集合中的搜索文本与所述目标小程序进行关联。
在具体的实施过程中,确定出目标小程序的相关词集合后,可以将小程序相关词集合中的搜索文本均与目标小程序进行关联,以使得当其他用户搜索该相关词集合中的搜索文本后,能够召回目标小程序,使得目标小程序能够得到推广使用,方便用户的工作和生活。
本说明书一些实施例中,可以将相关词集合中的搜索文本存入倒排索引中,作为检索召回目标小程序的依据,实现小程序的在线召回。当其他用户搜索该相关词集合中的搜索文本后,利用倒排索引可以快速准确的召回目标小程序。
本说明书实施例提供的小程序相关词的确定方法,利用用户在网络中的设备操作数据,可以挖掘出用户的搜索行为序列数据,确定出目标小程序的搜索行为序列集合,并对挖掘出的搜索行为序列集合进行过滤,确定出小程序的相关词集合。涉及海量的用户行为,提高了相关词的覆盖面,并且,搜索行为序列集合是从用户行为中挖掘,直接理解用户意图,从用户角度理解小程序相关词的问题,可以提高小程序相关词确定的准确性。通过用户搜索行为序列的挖掘,获取用户多次搜索数据,避免出现当次搜索未能召回的结果无法统计的问题,提高了小程序相关词挖掘的准确性,为小程序的推广应用奠定了数据基础。
在上述实施例的基础上,所述对所述搜索行为序列集合中的搜索文本进行过滤包括:
确定所述搜索行为序列集合中各个搜索文本的搜索语义向量和所述目标小程序的名称的小程序语义向量;
根据所述搜索语义向量和所述小程序语义向量,计算所述搜索行为序列集合中各个搜索文本与所述目标小程序之间的相似度;
根据计算出的相似度,对所述搜索行为序列集合中的搜索文本进行过滤。
在具体的实施过程中,在根据用户的搜索行为序列数据确定出目标小程序对应的搜索行为序列集合后,对搜索行为序列集合中的搜索文本进行过滤时,可以采用语义向量过滤的方法。如:可以利用语义向量计算模型计算搜索行为序列集合中各个搜索文本的搜索语义向量和目标小程序的名称的小程序语义向量,小程序的名称在一定程度上表征了小程序的功能。基于计算出的语义向量,计算搜索行为序列集合中各个搜索文本与目标小程序之间的相似度,基于计算出的相似度,对搜索行为序列集合中的搜索文本进行过滤。相似度越高可以表征搜索文本与目标小程序之间的语义越接近,也就越能表征小程序的功能。可以设置过滤规则如:可以设置相似度阈值,将相似度小于相似度阈值的搜索文本删除,或者设置删除搜索文本的百分比,将相似度小的搜索文本删除直至满足百分比要求等。其中,语义向量计算模型可以使用BERT(Bidirectional Encoder Representations fromTransformers,一个语言表征模型)开源模型,当然,还可以使用其他的语义向量计算模型,本说明书实施例不作具体限定。语义向量模型的特征可以是将搜索文本的分词序列作为输入,如:按字分词的分词序列、汉语拼音序列、拼音字符序列等。语义向量计算模型可以基于文本的语义将文本转换为一定规则向量,在基于向量可以计算出各个文本之间的相似度。相似度的计算也可以采用机器学习模型,模型的具体形式本说明书实施例不作具体限定。
当然,在实际应用时,在确定出目标小程序后,也可以获取目标小程序的摘要信息或目标小程序的功能描述等信息,基于这些信息提取目标小程序的关键信息,基于关键信息计算目标小程序与搜索文本支架的相似度。
本说明书实施例通过计算搜索行为序列集合中各个搜索文本的搜索语义向量和目标小程序的名称的小程序语义向量,基于目标小程序的名称和搜索文本的语义向量计算各个搜索文本与目标小程序之间的相似度,可以在一定程度上表征各个搜索文本与目标小程序功能之间的相似度。基于语义相似度对搜索文本进行过滤筛选,过滤掉语义无关的搜索文本,使得搜索行为序列集合中保留的搜索文本均与目标小程序具有比较高的语义关联性,使得确定出的小程序相关词更符合语义以及小程序功能的要求,提高了小程序相关词的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述对所述搜索行为序列集合中的搜索文本进行过滤还可以包括:
利用词频-逆文件频率算法计算所述搜索行为序列集合中的搜索文本的词频-逆文件频率值,删除词频-逆文件频率值小于预设频率阈值的搜索文本。
在具体的实施过程中,词频-逆文件频率算法即TF-IDF算法,TF-IDF算法可以过滤掉常见的词语,保留重要的词语。其中,TF(term frequency,词频)可以表示某一个给定的词语在该文件中出现的次数,IDF(inverse document frequency,逆文件频率)可以表示如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,TF-IDF值可以采用TF×IDF表示。利用TF-IDF算法可以计算出搜索行为序列集合中的搜索文本的词频-逆文件频率值,即计算出搜索行为序列集合中各个搜索文本的TF-IDF值,TF-IDF值越小可以表示该词语越不重要,可以将TF-IDF值小于预设频率阈值的搜索文本的过滤掉。其中预设频率阈值的取值可以根据实际需要进行设置,本说明书实施例不作具体限定。当然,还可以设置其他的过滤规则,本说明书实施例不作具体限定,如:根据TF-IDF值的大小过滤掉指定数量个搜索文本。
本说明书实施例利用TF-IDF算法可以快速的过滤掉搜索行为序列集合中不重要的搜索文本,提高确定出的小程序的相关词的准确性。
在上述实施例的基础上,本说明书一些实施例中还可以采用下述方法对搜索行为序列集合中的搜索文本进行过滤:
根据已知小程序关联的指定相关词,对所述搜索行为序列集合中的搜索文本进行过滤,删除所述搜索行为序列集合中与已知小程序关联的指定相关词相同的搜索文本。
在具体的实施过程中,已知小程序可以表示已经确定好相关词的小程序,本说明书实施例中可以获取已知小程序的相关词,如:开发人员已经定义设置好某些小程序的相关词,或者通过爬虫爬取小程序页面获取的小程序的相关词等,可以从已知小程序库中获取其对应的人相关词。已知小程序的相关词中有一些可能是某些小程序的官方专用相关词即官方寻址专用词,这些相关词可以理解为已知小程序的指定相关词,通常搜索这些相关词就表示搜索指定的已知小程序。可以根据小程序名称或者官方标记等获取已知小程序的指定相关词,本说明书一些实施例中,可以将搜索行为序列集合中与已知小程序的指定相关词相同的搜索文本过滤掉,以避免确定出的相关词与其他小程序的官方寻址专用词相同,干扰小程序的搜索,影响小程序相关词的准确性。
上述实施例中提供了三种对搜索行为序列集合中的搜索文本进行过滤的方法,本说明书实施例中三种过滤方法可以任选一种或两种,也可以采用三种方法对搜索行为序列集合中的搜索文本进行过滤以提高小程序相关词的准确性。当采用三种方法进行过滤时,三种方法的过滤顺序可以根据实际需要进行选择,本说明书实施例不作具体限定。图2是本说明书又一些实施例中小程序相关词确定方法的流程示意图,如图2所示,在基于用户的搜索行为序列确定出目标小程序的搜索行为序列集合后,可以先采用语义向量过滤掉语义无关的搜索文本,再采用TF-IDF算法过滤掉不重要的搜索文本,最后过滤掉与已知小程序的指定相关词相同的搜索文本。根据实际需要,也可以先采用TF-IDF算法过滤掉不重要的搜索文本,再采用语义向量过滤掉语义无关的搜索文本,最后过滤掉与已知小程序的指定相关词相同的搜索文本。或者,也可以先过滤掉与已知小程序的指定相关词相同的搜索文本,以减少后续过滤的计算量。当然根据实际需要还可以有更多的过滤方法,本说明书实施例不作具体限定。
在本说明书一些实施例中,在基于用户的搜索行为序列确定出目标小程序的搜索行为序列集合时,可以基于用户输入搜索文本的顺序,将多个搜索文本按照输入的次序排列,排序越靠后越接近用户最后点击选择的目标小程序。根据所述搜索行为序列集合中搜索文本的排序,可以确定出所述搜索行为序列集合中各搜索文本的权重;其中,排序越靠前权重值越小。可以预先设置权重计算方法或权重设置规则,如:什么位置对应的权重是多少等,排序越靠前权重值越小,具体权重的计算方法本说明书实施例不作具体限定。如上述实施例中,“A打车”小程序的搜索行为序列集合为[专车顺风车打车],可以设置搜索文本“专车”的权重值为0.3,“顺风车”的权重值为0.4,“打车”的权重值为0.8,排序越靠后可以说明越接近用户搜索小程序的意图,因此基于搜索文本在搜索行为序列集合中的排序确定出的权重在一定程度上可以表征该搜索文本与用户搜索小程序的意图的接近程度。
确定出各个搜索文本对应的权重后,在实际使用时,还可以将确定出的权重保存在目标小程序的相关词集合中,在用户搜索查询小程序时,还可以根据用户输入的相关词对应的权重,确定各个小程序在用户的搜索界面中的展示次序。例如:同一个搜索文本a可能是多个小程序的相关词,但是在不同的小程序的相关词集合中的权重可能不同。如:搜索文本a既是小程序A的相关词,又是小程序B的相关词,搜索文本a在小程序A的相关词集合中的权重为0.7,在小程序B的相关词集合中的权重为03。若用户输入搜索文本a查询搜索小程序时,可以优先展示权重值大的相关词集合对应的小程序,如:可以将小程序A排在展示界面的最前方。
此外,确定出各个搜索文本对应的权重后,可以将各个搜索文本以及对应的权重均保存在搜索行为序列集合中,在对搜索行为序列集合中的搜索文本进行过滤时,可以将各个搜索文本对应的权重作为一个参考依据。
本说明书一些实施例中,确定出各个搜索文本对应的权重后,在采用语义向量对搜索行为序列集合进行过滤时,可以:根据所述搜索文本的权重、所述搜索文本与所述目标小程序之间的相似度,对所述搜索行为序列集合中的搜索文本进行过滤。
在具体的实施过程中,可以利用上述实施例中的方法计算出搜索行为序列集合中各个搜索文本的搜索语义向量以及目标小程序名称的小程序语义向量,根据计算出的语义向量计算出搜索行为序列集合中各个搜索文本与目标小程序之间的相似度。确定出搜索文本与目标小程序之间的相似度后,可以结合相似度和各个搜索文本的权重对搜索行为序列集合进行过滤。例如:可以删除相似度高权重小的搜索文本,或者也可以根据权重值和相似度计算出各个搜索文本的综合权重值,权重值可以表征搜索文本接近搜索意图的程序,相似度可以表征搜索文本与目标小程序语义相关的程度,二者结合可以综合表征搜索文本与搜索查询目标小程序的意图的接近程度。如:可以将权重值和相似度的乘积作为搜索文本的综合权重值,或者权重值和相似度分别乘以对应的综合系数后的乘积作为搜索文本的综合权重值,将综合权重值小于指定阈值的搜索文本删除。
通过设置权重的方式,表征搜索文本在搜索行为序列中与目标小程序的接近程度,综合考虑搜索文本在搜索行为序列集合中接近目标小程序的接近程度和搜索文本与目标小程序之间的语义相似度,对搜索行为序列集合中的搜索文本进行过滤筛选,使得过滤后获得的相关词集合能够更加准确的表征目标小程序的语义以及用户的搜索意图,提高了小程序相关词确定的准确性。
本说明书一些实施例中,确定出各个搜索文本对应的权重后,在采用TF-IDF算法对搜索行为序列集合进行过滤时,可以根据所述搜索文本对应的权重和词频-逆文件频率值,删除词频-逆文件频率值小于所述预设频率阈值且权重小于预设权重阈值的搜索文本。
在具体的实施过程中,利用TF-IDF算法计算出搜索行为序列集合中各个搜索文本对应的词频-逆文件频率值即TF-IDF值后,可以综合考虑各个搜索文本对应的权重以及TF-IDF值,对搜索行为序列集合中的搜索文本进行过滤。例如:当某个搜索文本的TF-IDF值小于预设频率阈值时,本应该删除,但是若该搜索文本的权重值大于预设权重阈值,则可以豁免该搜索文本,即保留该搜索文本。即可以设置预设频率阈值和预设权重阈值,将TF-IDF值小于预设频率阈值且权重小于预设权重阈值的搜索文本删除。
通过设置权重的方式,表征搜索文本在搜索行为序列中与目标小程序的接近程度,综合考虑搜索文本在搜索行为序列集合中接近目标小程序的接近程度和搜索文本在搜索行为序列集合中的重要重度,对搜索行为序列集合中的搜索文本进行过滤,过滤掉不重要且权重值低的搜索文本,为搜索文本的过滤提供了多重保障,确保确定出的小程序相关词的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述方法还可以包括:
根据用户对目标小程序的点击反馈数据,更新所述目标小程序的相关词集合。
在具体的实施过程中,在确定出目标小程序的相关词集合后,可以将相关词集合中的相关词存入目标小程序的倒排索引中,作为召回目标小程序的依据。当其他用户在各个网络平台或搜索平台中输入相关词搜索目标小程序时,可以根据用户输入的相关词在搜索界面中展示对应的内容,用户可以选择点击其实际要搜索的小程序,可以基于用户的点击反馈数据,对目标小程序的相关词集合进行清洗更新。可以根据用户的点击反馈数据对目标小程序的相关词集合中的相关词进行增加、删除或者修改权重等,例如:若搜索文本a是目标小程序A的相关词,但是多个用户的搜索点击行为中发现,多个用户输入搜索文本a后并没有选择点击目标小程序A,而是选择了小程序B,则可以认为搜索文本a作为目标小程序A的相关词不太准确,可以直接将搜索文本a从目标小程序A的相关词集合中删除,或者减小搜索文本a在目标小程序A的相关词集合中的权重值。
随着时间的推移,用户对小程序功能的看法定义可能会有所不同,因此其使用的相关词也会有所改变,根据用户的点击反馈数据实时更新清洗目标小程序的相关词集合,以确保小程序相关词能够与时俱进,提高小程序相关词的准确性。
图3是本说明书又一个实施例中小程序相关词挖掘确定的流程示意图,下面结合图3具体介绍本说明书实施中小程序相关词挖掘的过程:
1.挖掘候选相关词。候选相关词即上述实施例中的搜索行为序列集合中的搜索文本。如图3所示,可以通过用户session数据,挖掘用户搜索行为序列,如:用户【搜索专车,搜索顺风车,搜索打车,点击了A打车】,那么【专车、顺风车、打车】记录为【A打车的候选相关词】,其中A打车为一个打车小程序。
2.相关词过滤
如图3所示,可以选择语义向量过滤+TF-IDF过滤高频无关相关词+过滤官方寻址专用词。即可以选择通过BERT开源模型,过滤语义无关意图词,再通过TF-IDF过滤高频无关相关词,再通过小程序名称,过滤官方寻址专用词,三种过滤方式,当然,根据实际使用需要也可以选择其中的一种或两种方式进行过滤。图3中语义向量过滤对应的网络图形是一种示意性的神经网络模型进行语义向量过滤的过程,如:可以采用BERT进行语义向量的过滤。
此外,如图3所示,在步骤1中挖掘候选相关词时,还可以根据各个候选相关词输入的搜索顺序确定出各个候选相关词的权重,候选相关词中每个词语后面的数值可以表示该词语对应的权重。在进行相关词过滤时,可以将各个候选相关词的权重作为一个依据,具体可以参考上述实施例的记载,此处不再赘述。
3.将相关词存入倒排索引中,作为检索召回依据,并根据用户的点击反馈对相关词进行清洗。
本说明书实施例通过用户session信息挖掘小程序的相关词,涉及海量的用户行为,解决了覆盖面少的问题,从用户行为中挖掘,直接理解用户意图,解决了无法从用户角度理解相关词的问题,通过session挖掘,用户多次搜索总结,解决当次搜索未能召回的结果无法统计的问题。尤其对于一些生活或金融类的网络平台,其本身的数据量不大,也没有强大的搜索引擎支撑,用户输入的搜索文本也比较生活化,通过本说明书实施例提供的方法,基于用户的搜索行为序列数据进行挖掘,能够准确的确定用户查询小程序的意图,并且通过后置一系列过滤模型,确保相关词的准确性,准确的为用户展示其所需的小程序。通过在线的召回机制,确保小程序相关词的召回。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参考方法实施例的部分说明即可。
基于上述所述的小程序相关词的确定方法,本说明书一个或多个实施例还提供一种用于小程序相关词的确定的系统。所述系统可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参考前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图4是本说明书提供的小程序相关词的确定装置一个实施例的模块结构示意图,如图4所示,本说明书中提供的小程序相关词的确定装置可以包括:搜索行为序列确定模块41、过滤模块42、搜索关联模块43,其中:
搜索行为序列确定模块41,可以用于根据用户的设备操作数据,确定出目标小程序对应的搜索行为序列集合;其中,所述搜索行为序列集合包括用户在点击所述目标小程序之前连续输入的多个搜索文本;
过滤模块42,可以用于对所述搜索行为序列集合中的搜索文本进行过滤,确定出所述目标小程序的相关词集合;
搜索关联模块43,可以用于将所述相关词集合中的搜索文本与所述目标小程序进行关联。
本说明书实施例提供的小程序相关词的确定装置,利用用户在网络中的设备操作数据,可以挖掘出用户的搜索行为序列数据,确定出目标小程序的搜索行为序列集合,并对挖掘出的搜索行为序列集合进行过滤,确定出小程序的相关词集合。涉及海量的用户行为,提高了相关词的覆盖面,并且,搜索行为序列集合是从用户行为中挖掘,直接理解用户意图,从用户角度理解小程序相关词的问题,可以提高确定出的小程序相关词的准确性。通过用户搜索行为序列的挖掘,获取用户多次搜索数据,避免出现当次搜索未能召回的结果无法统计的问题,提高了小程序相关词挖掘的准确性,为小程序的推广应用奠定了数据基础。
在上述实施例的基础上,本说明书一些实施例中,所述过滤模块具体用于:
确定所述搜索行为序列集合中各个搜索文本的搜索语义向量和所述目标小程序的名称的小程序语义向量;
根据所述搜索语义向量和所述小程序语义向量,计算所述搜索行为序列集合中各个搜索文本与所述目标小程序之间的相似度;
根据计算出的相似度,对所述搜索行为序列集合中的搜索文本进行过滤。
本说明书实施例,通过计算搜索行为序列集合中各个搜索文本的搜索语义向量和目标小程序的名称的小程序语义向量,基于目标小程序的名称和搜索文本的语义向量计算各个搜索文本与目标小程序之间的相似度,可以在一定程度上表征各个搜索文本与目标小程序功能之间的相似度。基于语义相似度对搜索文本进行过滤筛选,过滤掉语义无关的搜索文本,使得搜索行为序列集合中保留的搜索文本均与目标小程序具有比较高的语义关联性,使得确定出的小程序相关词更符合语义以及小程序功能的要求,提高了确定出的小程序相关词的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述搜索行为序列确定模块具体用于:
所述多个搜索文本按照输入的次序排列,根据所述搜索行为序列集合中搜索文本的排序,确定出所述搜索行为序列集合中各搜索文本的权重;其中,排序越靠前权重值越小;
所述过滤模块具体用于:
根据所述搜索文本的权重、所述搜索文本与所述目标小程序之间的相似度,对所述搜索行为序列集合中的搜索文本进行过滤。
本说明书实施例,通过设置权重的方式,表征搜索文本在搜索行为序列中与目标小程序的接近程度,综合考虑搜索文本在搜索行为序列集合中接近目标小程序的接近程度和搜索文本与目标小程序之间的语义相似度,对搜索行为序列集合中的搜索文本进行过滤筛选,使得过滤后获得的相关词集合能够更加准确的表征目标小程序的语义以及用户的搜索意图,提高了确定出的小程序相关词的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述过滤模块具体用于:
利用词频-逆文件频率算法计算所述搜索行为序列集合中的搜索文本的词频-逆文件频率值,删除词频-逆文件频率值小于预设频率阈值的搜索文本。
本说明书实施例,利用TF-IDF算法可以快速的过滤掉搜索行为序列集合中不重要的搜索文本,提高确定出的小程序的相关词的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述搜索行为序列确定模块具体用于:
所述多个搜索文本按照输入的次序排列,根据所述搜索行为序列集合中搜索文本的排序,确定出所述搜索行为序列集合中各搜索文本的权重;其中,排序越靠前权重值越小;
所述过滤模块具体用于:
根据所述搜索文本对应的权重和词频-逆文件频率值,删除词频-逆文件频率值小于所述预设频率阈值且权重小于预设权重阈值的搜索文本。
本说明书实施例,通过设置权重的方式,表征搜索文本在搜索行为序列中与目标小程序的接近程度,综合考虑搜索文本在搜索行为序列集合中接近目标小程序的接近程度和搜索文本在搜索行为序列集合中的重要重度,对搜索行为序列集合中的搜索文本进行过滤,过滤掉不重要且权重值低的搜索文本,为搜索文本的过滤提供了多重保障,确保确定出的小程序相关词的准确性。
在上述实施例的基础上,本说明书一些实施例中,所述过滤模块具体用于:
根据已知小程序关联的指定相关词,对所述搜索行为序列集合中的搜索文本进行过滤,删除所述搜索行为序列集合中与已知小程序关联的指定相关词相同的搜索文本。
本说明书实施例,以将搜索行为序列集合中与已知小程序的指定相关词相同的搜索文本过滤掉,以避免确定出的相关词与其他小程序的官方寻址专用词相同,干扰小程序的搜索、推广应用。
在上述实施例的基础上,本说明书一些实施例中,所述装置还包括反馈清洗模块用于:
根据用户对目标小程序的点击反馈数据,更新所述目标小程序的相关词集合。
本说明书实施例,随着时间的推移,用户对小程序功能的看法定义可能会有所不同,因此其使用的相关词也会有所改变,根据用户的点击反馈数据实时更新清洗目标小程序的相关词集合,以确保小程序相关词能够与时俱进,提高小程序相关词的准确性。
需要说明的,上述所述的系统根据对应方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照上述对应的方法实施例的描述,在此不作一一赘述。
本说明书实施例还提供一种小程序相关词的确定处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述实施例的信息推荐数据处理方法,如:
根据用户的设备操作数据,确定出目标小程序对应的搜索行为序列集合;其中,所述搜索行为序列集合包括用户在点击所述目标小程序之前连续输入的多个搜索文本;
对所述搜索行为序列集合中的搜索文本进行过滤,确定出所述目标小程序的相关词集合;
将所述相关词集合中的搜索文本与所述目标小程序进行关联。
本说明书实施例还提供一种小程序搜索系统,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现按照上述实施例所述的方法确定出各个小程序的相关词集合;
所述处理器还用于,接收到用户输入的搜索文本时,根据所述搜索文本和各个小程序对应的相关词集合为用户展示对应的小程序。
即本说明书实施例中的小程序搜索系统可以根据上述实施例的方法确定出各个小程序对应的相关词,在接收到用户输入的搜索文本时,可以根据搜索文本以及各个小程序对应的相关词集合,在搜索界面中展示对应的小程序应用供用户点击选择,具体展示小程序的方法可以参考上述实施例的记载。
需要说明的,上述所述的处理设备以及小程序搜索系统根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书提供的小程序相关词的确定装置,也可以应用在多种数据分析处理系统中。所述系统或服务器或终端或处理设备可以为单独的服务器,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例系统或服务器或终端或处理设备的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。所述核对差异数据的检测系统可以包括至少一个处理器以及存储计算机可执行指令的存储器,所述处理器执行所述指令时实现上述任意一个或者多个实施例中所述方法的步骤。
本说明书实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图5是本说明书一个实施例中进行小程序相关词确定的服务器的硬件结构框图,该计算机终端可以是上述实施例中的小程序相关词的确定服务器或小程序相关词的确定装置。如图5所示服务器10可以包括一个或多个(图中仅示出一个)处理器100(处理器100可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器200、以及用于通信功能的传输模块300。本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器10还可包括比图5中所示更多或者更少的组件,例如还可以包括其他的处理硬件,如数据库或多级缓存、GPU,或者具有与图5所示不同的配置。
存储器200可用于存储应用软件的软件程序以及模块,如本说明书实施例中的小程序相关词的确定方法对应的程序指令/模块,处理器100通过运行存储在存储器200内的软件程序以及模块,从而执行各种功能应用以及资源数据更新。存储器200可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器200可进一步包括相对于处理器100远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局与网、移动通信网及其组合。
传输模块300用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输模块300包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块300可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果,如:
根据用户的设备操作数据,确定出目标小程序对应的搜索行为序列集合;其中,所述搜索行为序列集合包括用户在点击所述目标小程序之前连续输入的多个搜索文本;
对所述搜索行为序列集合中的搜索文本进行过滤,确定出所述目标小程序的相关词集合;
将所述相关词集合中的搜索文本与所述目标小程序进行关联。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
本说明书实施例提供的上述小程序相关词的确定方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用windows操作系统的c++语言在PC端实现、linux系统实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。
需要说明的是说明书上述所述的装置、计算机存储介质、系统根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照对应方法实施例的描述,在此不作一一赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。
本说明书实施例并不局限于必须是符合行业通信标准、标准计算机资源数据更新和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式资源数据更新环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程资源数据更新设备的处理器以产生一个机器,使得通过计算机或其他可编程资源数据更新设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程资源数据更新设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程资源数据更新设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参考即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参考方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。

Claims (16)

1.一种小程序相关词的确定方法,所述方法包括:
根据用户的设备操作数据,确定出目标小程序对应的搜索行为序列集合;其中,所述搜索行为序列集合包括用户在点击所述目标小程序之前连续输入的多个搜索文本;
对所述搜索行为序列集合中的搜索文本进行过滤,确定出所述目标小程序的相关词集合;
将所述相关词集合中的搜索文本与所述目标小程序进行关联。
2.如权利要求1所述的方法,所述对所述搜索行为序列集合中的搜索文本进行过滤包括:
确定所述搜索行为序列集合中各个搜索文本的搜索语义向量和所述目标小程序的名称的小程序语义向量;
根据所述搜索语义向量和所述小程序语义向量,计算所述搜索行为序列集合中各个搜索文本与所述目标小程序之间的相似度;
根据计算出的相似度,对所述搜索行为序列集合中的搜索文本进行过滤。
3.如权利要求2所述的方法,所述方法还包括:
所述多个搜索文本按照输入的次序排列,根据所述搜索行为序列集合中搜索文本的排序,确定出所述搜索行为序列集合中各搜索文本的权重;其中,排序越靠前权重值越小;
所述对所述搜索行为序列集合中的搜索文本进行过滤,包括:
根据所述搜索文本的权重、所述搜索文本与所述目标小程序之间的相似度,对所述搜索行为序列集合中的搜索文本进行过滤。
4.如权利要求1所述的方法,所述对所述搜索行为序列集合中的搜索文本进行过滤包括:
利用词频-逆文件频率算法计算所述搜索行为序列集合中的搜索文本的词频-逆文件频率值,删除词频-逆文件频率值小于预设频率阈值的搜索文本。
5.如权利要求4所述的方法,所述方法还包括:
所述多个搜索文本按照输入的次序排列,根据所述搜索行为序列集合中搜索文本的排序,确定出所述搜索行为序列集合中各搜索文本的权重;其中,排序越靠前权重值越小;
所述对所述搜索行为序列集合中的搜索文本进行过滤包括:
根据所述搜索文本对应的权重和词频-逆文件频率值,删除词频-逆文件频率值小于所述预设频率阈值且权重小于预设权重阈值的搜索文本。
6.如权利要求1所述的方法,所述对所述搜索行为序列集合中的搜索文本进行过滤包括:
根据已知小程序关联的指定相关词,对所述搜索行为序列集合中的搜索文本进行过滤,删除所述搜索行为序列集合中与已知小程序关联的指定相关词相同的搜索文本。
7.如权利要求1所述的方法,所述方法还包括:
根据用户对目标小程序的点击反馈数据,更新所述目标小程序的相关词集合。
8.一种小程序相关词的确定装置,包括:
搜索行为序列确定模块,用于根据用户的设备操作数据,确定出目标小程序对应的搜索行为序列集合;其中,所述搜索行为序列集合包括用户在点击所述目标小程序之前连续输入的多个搜索文本;
过滤模块,用于对所述搜索行为序列集合中的搜索文本进行过滤,确定出所述目标小程序的相关词集合;
搜索关联模块,用于将所述相关词集合中的搜索文本与所述目标小程序进行关联。
9.如权利要求8所述的装置,所述过滤模块具体用于:
确定所述搜索行为序列集合中各个搜索文本的搜索语义向量和所述目标小程序的名称的小程序语义向量;
根据所述搜索语义向量和所述小程序语义向量,计算所述搜索行为序列集合中各个搜索文本与所述目标小程序之间的相似度;
根据计算出的相似度,对所述搜索行为序列集合中的搜索文本进行过滤。
10.如权利要求9所述的装置,所述搜索行为序列确定模块具体用于:
所述多个搜索文本按照输入的次序排列,根据所述搜索行为序列集合中搜索文本的排序,确定出所述搜索行为序列集合中各搜索文本的权重;其中,排序越靠前权重值越小;
所述过滤模块具体用于:
根据所述搜索文本的权重、所述搜索文本与所述目标小程序之间的相似度,对所述搜索行为序列集合中的搜索文本进行过滤。
11.如权利要求8所述的装置,所述过滤模块具体用于:
利用词频-逆文件频率算法计算所述搜索行为序列集合中的搜索文本的词频-逆文件频率值,删除词频-逆文件频率值小于预设频率阈值的搜索文本。
12.如权利要求11所述的装置,所述搜索行为序列确定模块具体用于:
所述多个搜索文本按照输入的次序排列,根据所述搜索行为序列集合中搜索文本的排序,确定出所述搜索行为序列集合中各搜索文本的权重;其中,排序越靠前权重值越小;
所述过滤模块具体用于:
根据所述搜索文本对应的权重和词频-逆文件频率值,删除词频-逆文件频率值小于所述预设频率阈值且权重小于预设权重阈值的搜索文本。
13.如权利要求8所述的装置,所述过滤模块具体用于:
根据已知小程序关联的指定相关词,对所述搜索行为序列集合中的搜索文本进行过滤,删除所述搜索行为序列集合中与已知小程序关联的指定相关词相同的搜索文本。
14.如权利要求8所述的装置,所述装置还包括反馈清洗模块用于:
根据用户对目标小程序的点击反馈数据,更新所述目标小程序的相关词集合。
15.一种小程序相关词的确定处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1-7任一项所述的方法。
16.一种小程序搜索系统,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现按照权利要求1-7任一项所述的方法确定出各个小程序的相关词集合;
所述处理器还用于在接收到用户输入的搜索文本时,根据所述搜索文本和各个小程序对应的相关词集合为用户展示对应的小程序。
CN202010306231.0A 2020-04-17 2020-04-17 小程序相关词的确定方法、装置、处理设备及搜索系统 Active CN111488510B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202311474113.0A CN117556030A (zh) 2020-04-17 2020-04-17 小程序相关词的确定方法、装置、处理设备及搜索系统
CN202010306231.0A CN111488510B (zh) 2020-04-17 2020-04-17 小程序相关词的确定方法、装置、处理设备及搜索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010306231.0A CN111488510B (zh) 2020-04-17 2020-04-17 小程序相关词的确定方法、装置、处理设备及搜索系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311474113.0A Division CN117556030A (zh) 2020-04-17 2020-04-17 小程序相关词的确定方法、装置、处理设备及搜索系统

Publications (2)

Publication Number Publication Date
CN111488510A true CN111488510A (zh) 2020-08-04
CN111488510B CN111488510B (zh) 2023-09-29

Family

ID=71812860

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010306231.0A Active CN111488510B (zh) 2020-04-17 2020-04-17 小程序相关词的确定方法、装置、处理设备及搜索系统
CN202311474113.0A Pending CN117556030A (zh) 2020-04-17 2020-04-17 小程序相关词的确定方法、装置、处理设备及搜索系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311474113.0A Pending CN117556030A (zh) 2020-04-17 2020-04-17 小程序相关词的确定方法、装置、处理设备及搜索系统

Country Status (1)

Country Link
CN (2) CN111488510B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570404A (zh) * 2021-06-30 2021-10-29 深圳市东信时代信息技术有限公司 一种目标用户定位的方法、装置及相关设备
CN114238782A (zh) * 2021-12-14 2022-03-25 北京达佳互联信息技术有限公司 数据处理方法、装置、服务器及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
US20160364757A1 (en) * 2015-06-09 2016-12-15 Yahoo! Inc. Method and system for sponsored search results placement in a search results page
CN106919588A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种应用程序搜索系统及方法
CN107193987A (zh) * 2017-05-27 2017-09-22 广东神马搜索科技有限公司 获取与页面相关的搜索词的方法、装置和系统
CN110134760A (zh) * 2019-05-17 2019-08-16 北京思维造物信息科技股份有限公司 一种搜索方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364757A1 (en) * 2015-06-09 2016-12-15 Yahoo! Inc. Method and system for sponsored search results placement in a search results page
CN106919588A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种应用程序搜索系统及方法
CN105488033A (zh) * 2016-01-26 2016-04-13 中国人民解放军国防科学技术大学 关联计算的预处理方法及装置
CN107193987A (zh) * 2017-05-27 2017-09-22 广东神马搜索科技有限公司 获取与页面相关的搜索词的方法、装置和系统
CN110134760A (zh) * 2019-05-17 2019-08-16 北京思维造物信息科技股份有限公司 一种搜索方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570404A (zh) * 2021-06-30 2021-10-29 深圳市东信时代信息技术有限公司 一种目标用户定位的方法、装置及相关设备
CN113570404B (zh) * 2021-06-30 2023-12-05 深圳市东信时代信息技术有限公司 一种目标用户定位的方法、装置及相关设备
CN114238782A (zh) * 2021-12-14 2022-03-25 北京达佳互联信息技术有限公司 数据处理方法、装置、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
CN111488510B (zh) 2023-09-29
CN117556030A (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN111488426A (zh) 一种查询意图确定方法、装置及处理设备
US20190108242A1 (en) Search method and processing device
CN110765247B (zh) 一种用于问答机器人的输入提示方法及装置
US20180181628A1 (en) Method and apparatus for providing information based on artificial intelligence
CN111460798A (zh) 近义词推送方法、装置、电子设备及介质
CN110781376A (zh) 信息推荐方法、装置、设备及存储介质
EP2825981A1 (en) Publishing product information
CN108959550B (zh) 用户关注点挖掘方法、装置、设备及计算机可读介质
CN114265981A (zh) 推荐词确定方法、装置、设备及存储介质
CN112417133A (zh) 排序模型的训练方法和装置
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN111488510A (zh) 小程序相关词的确定方法、装置、处理设备及搜索系统
CN112328889A (zh) 推荐搜索词确定方法、装置、可读介质及电子设备
CN116680481B (zh) 搜索排序方法、装置、设备、存储介质及计算机程序产品
CN110413757B (zh) 一种词语释义确定方法、装置及系统
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN117290481A (zh) 基于深度学习的问答方法、装置、存储介质及电子设备
US20180137124A1 (en) Translation of a search query into search operators
CN117150107A (zh) 基于知识图谱的推荐方法、装置、计算机设备及存储介质
KR20240020166A (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
CN114490986B (zh) 计算机实施的数据挖掘方法、装置、电子设备及存储介质
CN113868481A (zh) 组件获取方法、装置及电子设备和存储介质
US11429687B2 (en) Context based URL resource prediction and delivery
CN117591624B (zh) 一种基于语义索引关系的测试用例推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant