CN112115342A - 搜索方法、装置、存储介质以及终端 - Google Patents

搜索方法、装置、存储介质以及终端 Download PDF

Info

Publication number
CN112115342A
CN112115342A CN202011006332.2A CN202011006332A CN112115342A CN 112115342 A CN112115342 A CN 112115342A CN 202011006332 A CN202011006332 A CN 202011006332A CN 112115342 A CN112115342 A CN 112115342A
Authority
CN
China
Prior art keywords
search
user
occurrence
statement
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011006332.2A
Other languages
English (en)
Inventor
高建超
姜罕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd, Shenzhen Huantai Technology Co Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202011006332.2A priority Critical patent/CN112115342A/zh
Publication of CN112115342A publication Critical patent/CN112115342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

本申请公开了一种搜索方法、装置、存储介质以及终端,涉及数据处理技术领域。首先获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句;然后从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;最后将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典。由于用户的历史搜索数据包含了用户的实际搜索应用程序情况,而共现搜索语句可以反映出用户的搜索需求,将样本搜索语句以及共现搜索语句输入训练模型进行训练后可以得到用于应用程序识别的搜索词典,基于该搜索词典可以准确地识别出用户关于应用程序的搜索意图。

Description

搜索方法、装置、存储介质以及终端
技术领域
本申请涉及数据处理技术领域,尤其涉及一种搜索方法、装置、存储介质以及终端。
背景技术
随着科学技术的发展,数据呈现多样性、复杂性等特点,人们对于追求事物的认知也渐渐变得更加复杂多样。在日常生活中,搜索渐渐成为人们认知新事物的一种技能方式,因此搜索方法也成本本领域人员研究的重点之一。
在相关技术中,用户的搜索需求中关于应用程序的搜索需求占据了很大比例,为了满足不同用户对应用程序下载的意图需求,搜索引擎面临着技术挑战,然而大部分搜索引擎采用规则解析方式进行意图的召回逻辑,使得对应用程序下载的意图需求识别准确率较低。
发明内容
本申请提供一种搜索方法、装置、存储介质以及终端,可以解决相关技术中对应用程序下载的意图需求识别准确率较低的技术问题。
第一方面,本申请提供一种搜索方法,该方法包括:
获取历史搜索数据,基于预设标注规则标注出所述历史搜索数据中与所有应用程序相关的样本搜索语句;
从所述历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;
将所述样本搜索语句以及所述共现搜索语句输入训练模型进行训练,将训练后的所述训练模型作为搜索词典;
其中,所述搜索词典用于当获取用户输入的实时搜索语句后,输出所述实时搜索语句对应的应用程序的内容。
第二方面,本申请提供一种搜索装置,该装置包括:
样本语句获取模块,用于获取历史搜索数据,基于预设标注规则标注出所述历史搜索数据中与所有应用程序相关的样本搜索语句;
共现语句获取模块,用于从所述历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;
训练模块,用于将所述样本搜索语句以及所述共现搜索语句输入训练模型进行训练,将训练后的所述训练模型作为搜索词典;
其中,所述搜索词典用于当获取用户输入的实时搜索语句后,输出所述实时搜索语句对应的应用程序的内容。
第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行实现上述的方法的步骤。
第四方面,本申请实施例提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的方法的步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
本申请提供一种搜索方法,首先获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句;然后从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;最后将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典;其中,搜索词典用于当获取用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容。由于用户的历史搜索数据包含了用户的实际搜索应用程序情况,而共现搜索语句可以反映出用户的搜索需求,将样本搜索语句以及共现搜索语句输入训练模型进行训练后可以得到用于应用程序识别的搜索词典,基于该搜索词典可以准确地识别出用户关于应用程序的搜索意图。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种搜索方法的示例性系统架构图;
图2为本申请实施例提供的一种搜索方法的系统交互图;
图3为本申请实施例提供的一种搜索方法的流程示意图;
图4为本申请另一实施例提供的一种搜索方法的流程示意图;
图5为本申请另一实施例提供的一种搜索装置的结构示意图;
图6为本申请另一实施例提供的一种搜索装置的结构示意图;
图7为本申请实施例提供了一种终端的结构示意图。
具体实施方式
为使得本申请的特征和优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1为本申请实施例提供的一种搜索方法的示例性系统架构图。
如图1所示,系统架构可以包括至少一个终端110、服务器120以及网络130,网络130用于在终端110和服务器120之间提供通信链路的介质。网络130可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity,Wi-Fi)通信链路或微波通信链路等。
终端110可以是硬件,也可以是软件。当终端110为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当终端110为软件时,可以是安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。
服务器120可以是提供各种服务的业务服务器。需要说明的是,服务器120可以是硬件,也可以是软件。当服务器120为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器120为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
应理解,图1中的终端、网络和服务器的数目仅是示意性的。根据实现需要,可以是任意数量的终端、网络和服务器。请参阅图2,图2为本申请实施例提供的一种搜索方法的系统交互图,下面将结合图1和图2介绍一种搜索方法中系统交互过程。
S201、终端从服务器获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句。
可选地,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句,包括:基于小样本标注规则从历史搜索数据中,抽取与预设应用程序相关的小样本搜索语句;基于小样本搜索语句中的异常搜索语句对小样本标注规则进行修正以及多次迭代,得到预设标注规则;基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句。
S202、终端从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句。
可选地,从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句,包括:基于不同用户的用户标识,获取历史搜索数据中多个用户的用户历史搜索数据;基于各用户的用户历史搜索数据中的搜索直达日志,将各用户在预设时间内关于各自同一搜索需求输入的搜索语句作为共现搜索语句。
进一步地,从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句之后,包括:基于各用户的用户历史搜索数据,获取各共现搜索语句的用户浏览量以及搜索用户量。
S203、终端将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典。
其中,搜索词典用于当获取用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容。
可选地,将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典,包括:将共现搜索语句按照出现次数进行降序排列;将排列好的共现搜索语句、各共现搜索语句的用户浏览量以及搜索用户量输入以及样本搜索语句输入训练模型中进行训练,其中训练模型为ALBERT模型;将训练后的训练模型作为搜索词典。
进一步地,将样本搜索语句以及共现搜索语句输入训练模型进行训练之后,还包括:若训练模型确认样本搜索语句中的目标搜索语句为应用程序意图时,则计算目标搜索语句为应用程序意图的意图强弱程度。
其中,计算目标搜索语句为应用程序意图的意图强弱程度,包括:
计算目标搜索语句为应用程序意图的概率;计算目标搜索语句对应的共现搜索语句,对目标搜索语句的置信度;基于应用程序意图的概率以及置信度,对被确定为应用程序意图的目标搜索语句进行强弱分档。
在本申请实施例中,首先获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句;然后从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;最后将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典;其中,搜索词典用于当获取用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容。由于用户的历史搜索数据包含了用户的实际搜索应用程序情况,而共现搜索语句可以反映出用户的搜索需求,将样本搜索语句以及共现搜索语句输入训练模型进行训练后可以得到用于应用程序识别的搜索词典,基于该搜索词典可以准确地识别出用户关于应用程序的搜索意图。
请参阅图3,图3为本申请实施例提供的一种搜索方法的流程示意图。如图3所示,该方法包括:
S301、获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句。
本申请实施例中的搜索方法的主要思路是,先获取海量的关于应用程序的样本搜索语句作为样本数据,然后获取关于应用程序的特征点作为特征数据,最后通过样本数据以及特征数据作为训练材料输入至预设模型中进行训练,得到训练后的模型,基于训练后的模型即可输出更加准确的搜索结果。
基于上述思路,需要首先获取样本数据,那么就需要获取较大数量的用户的历史搜索数据,其中历史搜索数据是指大量用户在某一搜索引擎或者某一浏览器上进行搜索时的搜索数据,该搜索数据可以包括用户写入搜索框的检索语句(本领域技术人员称之为query),还可以包括针对该检索语句对应的搜索结果(搜索结果的标题、摘要等),其中历史搜索数据的获取方式可以是从搜索引擎或者浏览器对应的服务器中获取。
在获取到历史搜索数据后,可以基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句,其中预设标注规则可以通过对历搜索数据进行小样本抽样进行验证以及迭代修正获取。由于样本搜索语句均是关于应用程序的,因此基于样本搜索语句作为后续进行模型训练的训练数据,可以提高最后搜索词典输出实时搜索语句对应的应用程序的内容的准确率。
S302、从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句。
在获取到进行模型训练的样本搜索语句后,还需要获取进行模型训练的训练特征,由于本申请实施例中训练后的模型需要输出或者识别出用户输入的搜索语句中是否有应用程序意图(应用程序下载意图),因此本申请实施例中的训练特征是指判断用户输入的搜索语句是否存在应用程序意图的一个依据。训练特征可以有多种只形式,例如,用户输入的搜索语句后是否下载了相关应用程序,再或者用户输入的搜索语句后的操作等,本申请实施例中采用的是,从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句,共现搜索语句为用户针对同一个搜索需求连续输入的搜索语句,共现搜索语句代表了用户连续输入的搜索语句之间的共同搜索需求。
例如,某一用户的搜索需求是下载“淘宝”应用程序,但是用户在搜索引擎中进行搜索时,可能第一次写入搜索框的搜索语句是“购物”,在确定“购物”这个搜索语句对应的搜索结果中不能搜索到“淘宝”应用程序时,可能第二次写入搜索框的搜索语句是“购物应用程序”,在确定“购物应用程序”这个搜索语句对应的搜索结果中依然不能搜索到“淘宝”应用程序时,可能第三次写入搜索框的搜索语句为“淘宝应用程序”,并在“淘宝应用程序”对应的搜索结果中搜索到“淘宝”应用程序,最终结束搜索,那么上述用户针对搜索需求是下载“淘宝”应用程序的过程中,第一次、第二次以及第三次写入的搜索语句,也即“购物”、“购物应用程序”以及“淘宝应用程序”为一组共现搜索语句,该共现搜索语句之间的共同搜索需求为下载“淘宝”应用程序。
将用户关于同一搜索需求的共现搜索语句作为进行模型训练的训练特征,可以充分地利用了搜索语句之间上下文的共现关系,很大程度上提升了训练后的模型的意图识别的效果。例如,当“淘宝应用程序”这个搜索语句被训练模型确定为与应用程序意图的搜索语句后,训练模型可以加大对其共现搜索语句“购物”、“购物应用程序”识别应用程序意图时的权重。
S303、将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典。其中,搜索词典用于当获取用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容。
其中,训练模型可以根据实际情况进行选择,将获取到的与所有应用程序相关的样本搜索语句作为训练数据,以及将获取到的用户关于同一搜索需求的共现搜索语句作为训练特征,将训练数据以及训练特征输入训练模型进行训练,就可以得到训练后的训练模型也即搜索词典,将搜索词典应用到用户的具体搜索过程中时,可以在获取到用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容,其中实时搜索语句对应的应用程序的内容至少包括应用程序下载服务。
由于将用户关于同一搜索需求的共现搜索语句作为进行模型训练的训练特征,可以充分地利用了搜索语句之间上下文的共现关系,很大程度上提升了训练后的模型的意图识别的效果。
在本申请实施例中,首先获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句;然后从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;最后将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典;其中,搜索词典用于当获取用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容。由于用户的历史搜索数据包含了用户的实际搜索应用程序情况,而共现搜索语句可以反映出用户的搜索需求,将样本搜索语句以及共现搜索语句输入训练模型进行训练后可以得到用于应用程序识别的搜索词典,基于该搜索词典可以准确地识别出用户关于应用程序的搜索意图。
请参阅图4,图4为本申请另一实施例提供的一种搜索方法的流程示意图。
如图4所示,该方法步骤包括:
S401、获取历史搜索数据,基于小样本标注规则从历史搜索数据中,抽取与预设应用程序相关的小样本搜索语句。
其中历史搜索数据是指大量用户在某一搜索引擎或者某一浏览器上进行搜索时的搜索数据,该搜索数据可以包括用户写入搜索框的检索语句,还可以包括针对该检索语句对应的搜索结果(搜索结果的标题、摘要等),其中历史搜索数据的获取方式可以是从搜索引擎或者浏览器对应的服务器中获取。
历史搜索数据可以是每日更新的搜索数据,在获取到历史搜索数据后,可以对历史搜索数据进行归一化预处理,例如,归一化处理可以包含对检索语句去除标点、大写转小写、全角转半角以及繁体转简体等操作步骤。
为了实现基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句,需要先获取预设标注规则,一种可行的方式是,可以先设置一个小样本规则,然后基于一部分搜索语句对小样本规则进行验证、修改以及迭代,最终得到预设标注规则。
具体地,基于小样本标注规则从历史搜索数据中,抽取与预设应用程序相关的小样本搜索语句,其中小样本规则可以基于历史搜索数据包括的内容进行设定,例如,当历史搜索数据包括用户写入搜索框的检索语句,还可以包括针对该检索语句对应的搜索结果(搜索结果的标题、摘要等)时,那么小样本规则可以包括检索语句规则、标题规则以及摘要规则,检索语句规则为对历史搜索数据中检索语句进行抽取以及过滤;标题规则为对历史搜索数据中搜索结果的标题进行抽取以及过滤;摘要规则为对历史搜索数据中搜索结果的摘要进行抽取以及过滤。通过检索语句规则、标题规则以及摘要规则抽取出历史搜索数据中,与预设应用程序相关的小样本搜索语句。例如,其中检索语句规则包括三个,分别是(1)过滤明显是问答类意图和网址的检索语句;(2)过滤搜索结果的标题中明显是问答类的检索语句;(3)判定明显是应用程序意图的检索语句。标题规则以及摘要规则与检索语句规则类似,检索语句规则、标题规则以及摘要规则的具体形式可以不做限定,其目的都是为了抽取出历史搜索数据中,与预设应用程序相关的小样本搜索语句。
S402、基于小样本搜索语句中的异常搜索语句对小样本标注规则进行修正以及多次迭代,得到预设标注规则。
由于小样本搜索语句的数量较为少,因此可以通过人工查验的方式排查出小样本搜索语句中的异常搜索语句,异常搜索语句也即通过上述小样本规则误抽取出的搜索语句,因此可以基于异常搜索语句对小样本标注规则进行修正以及多次迭代,得到预设标注规则。例如,当异常搜索语句中包含明显的检索语句规则错误,那么可以对小样本标注规则中的检索语句规则进行修正,然后继续抽取小样本搜索语句并进行多次迭代,一直到小样本搜索语句中没有排查出异常搜索语句,此时可以将最后一次修正的小样本标注规则作为预设标注规则。
S403、基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句。
基于修正优化完成的预设标注规则,利用spark并行计算框架可以进行历史搜索数据的批量数据自动化标注流程。
S404、基于不同用户的用户标识,获取历史搜索数据中多个用户的用户历史搜索数据。
为了实现从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句,一种可行的方式是,首先获取不同用户的用户标识,用户标识为可以区分不同用户的一种身份标识,可以是用户使用设备的设备标识,还可以用户使用网络的网络地址等,然后基于不同用户的用户标识,获取历史搜索数据中多个用户的用户历史搜索数据,获取多个用户的用户历史搜索数据的目的是,增加训练特征的数据量以及真实性,有利于提高训练模型的识别准确度。
S405、基于各用户的用户历史搜索数据中的搜索直达日志,将各用户在预设时间内关于各自同一搜索需求输入的搜索语句作为共现搜索语句。
在获取用户的历史搜索数据的过程中,还可以获取各用户的用户历史搜索数据中的搜索直达日志,搜索直达日志中包括了用户在一端时间内所有的搜索数据。为了保证共现搜索语句的关联性,可以设置一个预设时间,例如,预设时间为五分钟,那么可以将各用户在预设时间内关于各自同一搜索需求输入的搜索语句作为共现搜索语句。
例如,某一用户的搜索需求是下载“淘宝”应用程序,但是用户在搜索引擎中进行搜索时,可能在预设时间五分钟内,第一次写入搜索框的搜索语句是“购物”,在确定“购物”这个搜索语句对应的搜索结果中不能搜索到“淘宝”应用程序时,可能第二次写入搜索框的搜索语句是“购物应用程序”,在确定“购物应用程序”这个搜索语句对应的搜索结果中依然不能搜索到“淘宝”应用程序时,可能第三次写入搜索框的搜索语句为“淘宝应用程序”,并在“淘宝应用程序”对应的搜索结果中搜索到“淘宝”应用程序,那么上述用户针对搜索需求是下载“淘宝”应用程序的过程中,可能在预设时间五分钟内,第一次、第二次以及第三次写入的搜索语句,也即“购物”、“购物应用程序”以及“淘宝应用程序”为一组共现搜索语句,该共现搜索语句之间的共同搜索需求为下载“淘宝”应用程序。
将用户关于同一搜索需求的共现搜索语句作为进行模型训练的训练特征,可以充分地利用了搜索语句之间上下文的共现关系,很大程度上提升了训练后的模型的意图识别的效果。例如,当“淘宝应用程序”这个搜索语句被训练模型确定为与应用程序意图的搜索语句后,训练模型可以加大对其共现搜索语句“购物”、“购物应用程序”识别应用程序意图时的权重。
S406、基于各用户的用户历史搜索数据,获取各共现搜索语句的用户浏览量以及搜索用户量。
可选地,在获取到共现搜索语句后,还可以基于各用户的用户历史搜索数据,获取各共现搜索语句的用户浏览量以及搜索用户量,其中共现搜索语句的用户浏览量是指,多个用户在输入某一搜索语句后,对该搜索语句的搜索结果进行浏览用户数量;共现搜索语句的搜索用户量是指,对该搜索语句进行搜索的用户数量。因此在本申请实施例中,还选择了共现搜索语句的用户浏览量以及搜索用户量特征来进一步对训练模型进行加权处理,可在一定程度上对高热、长冷搜索语句进行不同程度的关注。还可以通过对搜索直达日志的挖掘,将每个搜索语句进行月用户浏览量以及搜索用户量聚合得到训练特征。
S407、将共现搜索语句按照出现次数进行降序排列。
在搜索领域,现有技术往往受限于深度模型的算法效率问题,为了提高离线推理处理的效率,本申请实施例采用ALBERT模型,其架构的主要网络架构与BERT模型类似,即结合Transformer编码器和GELU非线性激活函数,其通过参数共享和因式分解方式来大幅度降低参数量,达到更优的训练速度。
例如,可以首先根据上述方法步骤中生成的共现搜索语句,由于共现搜索语句可以以组的形式记录,因此根据多组共现搜索语句,将其选前10的共现搜索语句按照共现次数降序排列。
S408、将排列好的共现搜索语句、各共现搜索语句的用户浏览量以及搜索用户量输入以及样本搜索语句输入训练模型中进行训练,其中训练模型为ALBERT模型。
其中,使用ALBERT模型对其共现搜索语句、各共现搜索语句的用户浏览量以及搜索用户量嵌入embedding,输出层接全连接网络以及加权的softmax分类器进行类别输出。
其中,对于ALBERT模型中加权的交叉熵损失函数,权重采用当前输入的样本搜索语句的用户浏览量以及搜索用户量,用户浏览量以及搜索用户量越大,表示当前输入的样本搜索语句的搜索需求越大,从而在一定程度上能够平衡正负样本的比例不均匀问题。加权的softmax损失公式如下所示:
Figure BDA0002694103550000111
其中公式中Lk代表第k轮加权的交叉熵损失函数,x代表样本,n代表样本数据的总数量,k代表迭代次数,α代表当前样本的用户浏览量以及搜索用户量,y代表样本真实标签,y′代表样本预测标签。
S409、若训练模型确认样本搜索语句中的目标搜索语句为应用程序意图时,则计算目标搜索语句为应用程序意图的意图强弱程度。
进一步地,在搜索领域中,用户的输入的搜索语句可能是多意图的情况,即不同用户对使用相同的搜索语句查询有着不同的需求强弱。为了能够更好地满足用户的主需求,需要识别用户输入的搜索语句的意图强弱,所以上述训练模型的基础上,本申请实施例中通过借助当前搜索语句与同一会话搜索语句的共现关系进行数据挖掘,对海量的应用程序的搜索语句进行行不同强度的分档来达成目的。
具体的,为了提高训练后的模型的意图识别的效果,可以在训练模型确认样本搜索语句中的目标搜索语句为应用程序意图时,计算目标搜索语句为应用程序意图的意图强弱程度,应用程序意图的意图强弱程度能够更好地反映用户的主需求。一种可行的方式是,计算目标搜索语句为应用程序意图的意图强弱程度,包括:
首先计算目标搜索语句为应用程序意图的概率,其计算公式为:
Figure BDA0002694103550000121
其中公式中prk表示第k个样本搜索语句属于应用程序的意图概率,app_csn表示有应用程序意图的共现搜索语句与当前样本搜索语句的共现session数,csn表示共现搜索语句与当前样本搜索语句的共现session数,
Figure BDA0002694103550000122
表示有应用程序意图的共现搜索语句与当前样本搜索语句的共现次数之和,
Figure BDA0002694103550000123
表示所有共现搜索语句与当前样本搜索语句的共现次数之和。
该概率反映了在前n个共现搜索语句中,有应用程序意图的共现搜索语句比例越大,当前样本搜索语句属于应用程序意图的概率就越大。
然后计算目标搜索语句对应的共现搜索语句,对目标搜索语句的置信度,包括有应用程序意图的共现搜索语句对当前样本搜索语句的置信度,其计算公式为:
Figure BDA0002694103550000124
其中公式中app_confident表示有应用程序意图的共现搜索语句对当前样本搜索语句的置信度,n表示前n个共现搜索语句,app_csn表示有应用程序意图的共现搜索语句与当前样本搜索语句的共现session数,app_sn表示有应用程序意图的共现搜索语句的总session数。
该公式反映了应用程序意图的共现应用程序出现时,当前样本搜索语句出现的概率。
计算目标搜索语句对应的共现搜索语句,对目标搜索语句的置信度,还包括当前样本搜索语句属于应用程序意图的程度,其计算公式如下:
Figure BDA0002694103550000125
其中公式中app_degree表示当前样本搜索语句属于应用程序意图的程度,csn表示每个共现搜索语句与当前样本搜索语句的共现次数,sn表示每个共现搜索语句的总session数,n表示前n个共现搜索语句。
该公式反映了前n个共现搜索语句对当前样本搜索语句属于应用程序意图的贡献程度。
最后基于应用程序意图的概率以及置信度,对被确定为应用程序意图的目标搜索语句进行强弱分档。
其中,为了进一步提高识别搜索语句中应用程序意图强弱的准确率,避免一些离散奇异点的干扰,本申请实施例中采用基本规则过滤的方式进行剔除异常数据,具体过滤规则如下:
pr<0.05;
app_confident<0.015;
pr+app_confident+app_degree<0.35;
通过以上步骤可以将意图强弱分档准确率提高至90%。
进一步地,还可以根据分数设定阈值threshold进行意图强弱分档,如果(pr+app_condident/app_degree)>threshold,设定为3分,则该样本搜索语句属于应用程序意图的意图为强;否则设定为2分,则该样本搜索语句属于应用程序意图的意图为弱。类似的,还可以对阈值threshold进行意图强弱进行3个或者四个分档,以满足实际情况需要。
S4010、将训练后的训练模型作为搜索词典。
进一步地,还可以通过人工排查搜索语句,得到人工排查词典,最后将人工排查词典以及具有意图强弱分档的搜索词典聚合后作为最终的搜索词典,将搜索词典应用到用户的具体搜索过程中时,可以在获取到用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容,其中实时搜索语句对应的应用程序的内容至少包括应用程序下载服务。
进一步地,为了提高搜索词典的时效性以及准确性,还可以对搜索词典进行实时更新,具体流程:依据共现搜索语句,构建离线意图模型及意图强度信号,当天与昨天的表做区别,完全相同样本与昨天字典求交集,存于一个文件1,其中文件1已有意图强弱分档;不同样本做tf_record输出文件2;文件2通过搜索词典预测应用程序意图搜索语句,文件2正样本用意图强弱进行分档并去除黑名单与文件1合并,生成全量词典。对所有搜索语句进行意图强弱分档,同时根据黑名单进行限制;合并人工排查词典以及具有意图强弱分档的搜索词典,上传至hdfs供线上服务实时调用。
在本申请实施例中,首先获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句;然后从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;最后将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典;其中,搜索词典用于当获取用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容。由于用户的历史搜索数据包含了用户的实际搜索应用程序情况,而共现搜索语句可以反映出用户的搜索需求,将样本搜索语句以及共现搜索语句输入训练模型进行训练后可以得到用于应用程序识别的搜索词典,基于该搜索词典可以准确地识别出用户关于应用程序的搜索意图。
请参阅图5,图5为本申请另一实施例提供的一种搜索装置的结构示意图。
如图5所示,一种搜索装置500包括:
样本语句获取模块510,用于获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句。
共现语句获取模块520,用于从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句。
训练模块530,用于将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典。
其中,搜索词典用于当获取用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容。
请参阅图6,图6为本申请另一实施例提供的一种搜索装置的结构示意图。
如图6所示,一种搜索装置600包括:
小样本抽取模块610,用于基于小样本标注规则从历史搜索数据中,抽取与预设应用程序相关的小样本搜索语句。
预设规则修正模块620,用于基于小样本搜索语句中的异常搜索语句对小样本标注规则进行修正以及多次迭代,得到预设标注规则。
样本标注模块630,用于基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句。
用户数据获取模块640,用于基于不同用户的用户标识,获取历史搜索数据中多个用户的用户历史搜索数据;
共现数据获取模块650,用于基于各用户的用户历史搜索数据中的搜索直达日志,将各用户在预设时间内关于各自同一搜索需求输入的搜索语句作为共现搜索语句。
浏览数据获取模块660,用于基于各用户的用户历史搜索数据,获取各共现搜索语句的用户浏览量以及搜索用户量。
排列模块670,用于将共现搜索语句按照出现次数进行降序排列。
训练模块680,用于将排列好的共现搜索语句、各共现搜索语句的用户浏览量以及搜索用户量输入以及样本搜索语句输入训练模型中进行训练,其中训练模型为ALBERT模型。
意图强弱计算模块690,用于若训练模型确认样本搜索语句中的目标搜索语句为应用程序意图时,则计算目标搜索语句为应用程序意图的意图强弱程度。
其中,计算目标搜索语句为应用程序意图的意图强弱程度,包括:计算目标搜索语句为应用程序意图的概率;计算目标搜索语句对应的共现搜索语句,对目标搜索语句的置信度;基于应用程序意图的概率以及置信度,对被确定为应用程序意图的目标搜索语句进行强弱分档。
词典确定模块6100,用于将训练后的训练模型作为搜索词典。
在本申请实施例中,一种搜索装置包括:样本语句获取模块,用于获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句;共现语句获取模块,用于从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;训练模块,用于将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典;其中,搜索词典用于当获取用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容。由于用户的历史搜索数据包含了用户的实际搜索应用程序情况,而共现搜索语句可以反映出用户的搜索需求,将样本搜索语句以及共现搜索语句输入训练模型进行训练后可以得到用于应用程序识别的搜索词典,基于该搜索词典可以准确地识别出用户关于应用程序的搜索意图。
本申请实施例还提供了一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。
进一步地,请参见图7,图7为本申请实施例提供了一种终端的结构示意图。如图7所示,终端700可以包括:至少一个中央处理器701,至少一个网络接口704,用户接口703,存储器705,至少一个通信总线702。
其中,通信总线702用于实现这些组件之间的连接通信。
其中,用户接口703可以包括显示屏(Display)、摄像头(Camera),可选用户接口703还可以包括标准的有线接口、无线接口。
其中,网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,中央处理器701可以包括一个或者多个处理核心。中央处理器701利用各种接口和线路连接整个终端700内的各个部分,通过运行或执行存储在存储器705内的指令、程序、代码集或指令集,以及调用存储在存储器705内的数据,执行终端700的各种功能和处理数据。可选的,中央处理器701可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。中央处理器701可集成中央中央处理器(Central Processing Unit,CPU)、图像中央处理器(GraphicsProcessing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到中央处理器701中,单独通过一块芯片进行实现。
其中,存储器705可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器705包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器705可用于存储指令、程序、代码、代码集或指令集。存储器705可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器705可选的还可以是至少一个位于远离前述中央处理器701的存储装置。如图7所示,作为一种计算机存储介质的存储器705中可以包括操作系统、网络通信模块、用户接口模块以及搜索程序。
在图7所示的终端700中,用户接口703主要用于为用户提供输入的接口,获取用户输入的数据;而中央处理器701可以用于调用存储器705中存储的搜索程序,并具体执行以下操作:
获取历史搜索数据,基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句;从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典;其中,搜索词典用于当获取用户输入的实时搜索语句后,输出实时搜索语句对应的应用程序的内容。
在一些实施例中,中央处理器701在执行基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句时,具体执行以下步骤:基于小样本标注规则从历史搜索数据中,抽取与预设应用程序相关的小样本搜索语句;基于小样本搜索语句中的异常搜索语句对小样本标注规则进行修正以及多次迭代,得到预设标注规则;基于预设标注规则标注出历史搜索数据中与所有应用程序相关的样本搜索语句。
在一些实施例中,中央处理器701在执行从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句时,具体执行以下步骤:基于不同用户的用户标识,获取历史搜索数据中多个用户的用户历史搜索数据;基于各用户的用户历史搜索数据中的搜索直达日志,将各用户在预设时间内关于各自同一搜索需求输入的搜索语句作为共现搜索语句。
在一些实施例中,中央处理器701在执行从历史搜索数据中获取用户关于同一搜索需求的共现搜索语句之后,还具体执行以下步骤:基于各用户的用户历史搜索数据,获取各共现搜索语句的用户浏览量以及搜索用户量。
在一些实施例中,中央处理器701在执行将样本搜索语句以及共现搜索语句输入训练模型进行训练,将训练后的训练模型作为搜索词典时,具体执行以下步骤:将共现搜索语句按照出现次数进行降序排列;将排列好的共现搜索语句、各共现搜索语句的用户浏览量以及搜索用户量输入以及样本搜索语句输入训练模型中进行训练,其中训练模型为ALBERT模型;将训练后的训练模型作为搜索词典。
在一些实施例中,中央处理器701在执行将样本搜索语句以及共现搜索语句输入训练模型进行训练之后,还具体执行以下步骤:若训练模型确认样本搜索语句中的目标搜索语句为应用程序意图时,则计算目标搜索语句为应用程序意图的意图强弱程度。
在一些实施例中,中央处理器701在执行计算目标搜索语句为应用程序意图的意图强弱程度时,具体执行以下步骤:计算目标搜索语句为应用程序意图的概率;计算目标搜索语句对应的共现搜索语句,对目标搜索语句的置信度;基于应用程序意图的概率以及置信度,对被确定为应用程序意图的目标搜索语句进行强弱分档。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的一种搜索方法、装置、存储介质以及终端的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种搜索方法,其特征在于,所述方法包括:
获取历史搜索数据,基于预设标注规则标注出所述历史搜索数据中与所有应用程序相关的样本搜索语句;
从所述历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;
将所述样本搜索语句以及所述共现搜索语句输入训练模型进行训练,将训练后的所述训练模型作为搜索词典;
其中,所述搜索词典用于当获取用户输入的实时搜索语句后,输出所述实时搜索语句对应的应用程序的内容。
2.根据权利要求1所述的方法,其特征在于,所述基于预设标注规则标注出所述历史搜索数据中与所有应用程序相关的样本搜索语句,包括:
基于小样本标注规则从所述历史搜索数据中,抽取与预设应用程序相关的小样本搜索语句;
基于所述小样本搜索语句中的异常搜索语句对所述小样本标注规则进行修正以及多次迭代,得到预设标注规则;
基于所述预设标注规则标注出所述历史搜索数据中与所有应用程序相关的样本搜索语句。
3.根据权利要求1所述的方法,其特征在于,所述从所述历史搜索数据中获取用户关于同一搜索需求的共现搜索语句,包括:
基于不同用户的用户标识,获取所述历史搜索数据中多个用户的用户历史搜索数据;
基于各用户的所述用户历史搜索数据中的搜索直达日志,将各用户在预设时间内关于各自同一搜索需求输入的搜索语句作为共现搜索语句。
4.根据权利要求3所述的方法,其特征在于,所述从所述历史搜索数据中获取用户关于同一搜索需求的共现搜索语句之后,包括:
基于各用户的所述用户历史搜索数据,获取各共现搜索语句的用户浏览量以及搜索用户量。
5.根据权利要求4所述的方法,其特征在于,所述将所述样本搜索语句以及所述共现搜索语句输入训练模型进行训练,将训练后的所述训练模型作为搜索词典,包括:
将所述共现搜索语句按照出现次数进行降序排列;
将排列好的共现搜索语句、各共现搜索语句的用户浏览量以及搜索用户量输入以及所述样本搜索语句输入训练模型中进行训练,其中所述训练模型为ALBERT模型;
将训练后的所述训练模型作为搜索词典。
6.根据权利要求5所述的方法,其特征在于,所述将所述样本搜索语句以及所述共现搜索语句输入训练模型进行训练之后,还包括:
若所述训练模型确认所述样本搜索语句中的目标搜索语句为应用程序意图时,则计算所述目标搜索语句为应用程序意图的意图强弱程度。
7.根据权利要求6所述的方法,其特征在于,所述计算所述目标搜索语句为应用程序意图的意图强弱程度,包括:
计算所述目标搜索语句为应用程序意图的概率;
计算所述目标搜索语句对应的共现搜索语句,对所述目标搜索语句的置信度;
基于所述应用程序意图的概率以及所述置信度,对被确定为应用程序意图的目标搜索语句进行强弱分档。
8.一种搜索装置,其特征在于,所述装置包括:
样本语句获取模块,用于获取历史搜索数据,基于预设标注规则标注出所述历史搜索数据中与所有应用程序相关的样本搜索语句;
共现语句获取模块,用于从所述历史搜索数据中获取用户关于同一搜索需求的共现搜索语句;
训练模块,用于将所述样本搜索语句以及所述共现搜索语句输入训练模型进行训练,将训练后的所述训练模型作为搜索词典;
其中,所述搜索词典用于当获取用户输入的实时搜索语句后,输出所述实时搜索语句对应的应用程序的内容。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的所述方法的步骤。
10.一种设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1~7任一项所述方法的步骤。
CN202011006332.2A 2020-09-22 2020-09-22 搜索方法、装置、存储介质以及终端 Pending CN112115342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011006332.2A CN112115342A (zh) 2020-09-22 2020-09-22 搜索方法、装置、存储介质以及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011006332.2A CN112115342A (zh) 2020-09-22 2020-09-22 搜索方法、装置、存储介质以及终端

Publications (1)

Publication Number Publication Date
CN112115342A true CN112115342A (zh) 2020-12-22

Family

ID=73800520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011006332.2A Pending CN112115342A (zh) 2020-09-22 2020-09-22 搜索方法、装置、存储介质以及终端

Country Status (1)

Country Link
CN (1) CN112115342A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685540A (zh) * 2021-01-07 2021-04-20 深圳市欢太科技有限公司 搜索方法、装置、存储介质以及终端
CN114385906A (zh) * 2021-10-29 2022-04-22 北京达佳互联信息技术有限公司 一种预测方法、推荐方法、装置、设备以及存储介质
CN116092098A (zh) * 2022-08-16 2023-05-09 荣耀终端有限公司 模型训练方法和终端设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012008899A (ja) * 2010-06-28 2012-01-12 Nippon Telegr & Teleph Corp <Ntt> 検索クエリ推薦方法、検索クエリ推薦装置及び検索クエリ推薦プログラム
CN105677780A (zh) * 2014-12-31 2016-06-15 Tcl集团股份有限公司 可拓展的用户意图挖掘方法及其系统
CN105930527A (zh) * 2016-06-01 2016-09-07 北京百度网讯科技有限公司 搜索方法及装置
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置
US20170193579A1 (en) * 2015-12-31 2017-07-06 Ebay Inc. System and method to calculate session-based price demand on e-commerce site
CN108256070A (zh) * 2018-01-17 2018-07-06 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012008899A (ja) * 2010-06-28 2012-01-12 Nippon Telegr & Teleph Corp <Ntt> 検索クエリ推薦方法、検索クエリ推薦装置及び検索クエリ推薦プログラム
CN105677780A (zh) * 2014-12-31 2016-06-15 Tcl集团股份有限公司 可拓展的用户意图挖掘方法及其系统
US20170193579A1 (en) * 2015-12-31 2017-07-06 Ebay Inc. System and method to calculate session-based price demand on e-commerce site
CN105930527A (zh) * 2016-06-01 2016-09-07 北京百度网讯科技有限公司 搜索方法及装置
CN106599278A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 应用搜索意图的识别方法及装置
CN108256070A (zh) * 2018-01-17 2018-07-06 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置
CN110245357A (zh) * 2019-06-26 2019-09-17 北京百度网讯科技有限公司 主实体识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋巍;张宇;刘挺;李生;: "基于检索历史上下文的个性化查询重构技术研究", 中文信息学报, no. 03, pages 55 - 61 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685540A (zh) * 2021-01-07 2021-04-20 深圳市欢太科技有限公司 搜索方法、装置、存储介质以及终端
CN114385906A (zh) * 2021-10-29 2022-04-22 北京达佳互联信息技术有限公司 一种预测方法、推荐方法、装置、设备以及存储介质
CN116092098A (zh) * 2022-08-16 2023-05-09 荣耀终端有限公司 模型训练方法和终端设备

Similar Documents

Publication Publication Date Title
CN112115342A (zh) 搜索方法、装置、存储介质以及终端
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN110598157A (zh) 目标信息识别方法、装置、设备及存储介质
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN111758098B (zh) 利用遗传编程的命名实体识别和提取
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
US20230089268A1 (en) Semantic understanding method, electronic device, and storage medium
CN109492217A (zh) 一种基于机器学习的分词方法及终端设备
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN113590796A (zh) 排序模型的训练方法、装置和电子设备
CN111126067A (zh) 实体关系抽取方法及装置
CN116663525A (zh) 一种文档审核方法、装置、设备及存储介质
CN112822121A (zh) 流量识别方法、流量确定方法、知识图谱建立方法
CN112506864B (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质
CN107704538A (zh) 一种垃圾文本处理方法、装置、设备及存储介质
CN115632874A (zh) 一种实体对象的威胁检测方法、装置、设备及存储介质
CN113536087B (zh) 作弊站点的识别方法、装置、设备、存储介质及程序产品
CN113011875B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN115131058A (zh) 账号识别方法、装置、设备及存储介质
CN112685540A (zh) 搜索方法、装置、存储介质以及终端
CN113688232A (zh) 招标文本分类方法、装置、存储介质及终端
CN106294292A (zh) 章节目录筛选方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination