CN112307304B - 热点搜索方法、装置、终端及存储介质 - Google Patents
热点搜索方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN112307304B CN112307304B CN202011276617.8A CN202011276617A CN112307304B CN 112307304 B CN112307304 B CN 112307304B CN 202011276617 A CN202011276617 A CN 202011276617A CN 112307304 B CN112307304 B CN 112307304B
- Authority
- CN
- China
- Prior art keywords
- search
- vector
- vectors
- hot spot
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 373
- 238000012545 processing Methods 0.000 claims description 57
- 230000000873 masking effect Effects 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 241000220225 Malus Species 0.000 description 8
- 235000021016 apples Nutrition 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 240000000716 Durio zibethinus Species 0.000 description 2
- 235000006025 Durio zibethinus Nutrition 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于通信技术领域,具体而言,涉及一种热点搜索方法、装置、终端及存储介质。其中,一种热点搜索方法所述方法包括:获取在搜索应用中所输入的搜索语句;获取所述搜索应用中的历史搜索记录对应的搜索序列向量,获取所述搜索语句对应的文本向量;基于所述搜索序列向量和所述文本向量,获取所述搜索语句对应的搜索热点信息。采用本申请可以在提高热点搜索准确性的同时降低热点搜索成本。
Description
技术领域
本申请属于通信技术领域,具体而言,涉及一种热点搜索方法、装置、终端及存储介质。
背景技术
随着科学技术的发展,终端支持的功能越来越多,可以极大地方便用户的生活。例如越来越多的用户会使用终端进行搜索,以便获取最新的新闻资讯。当用户使用终端进行搜索时,可以获取用户的搜索热点。例如,通过获取与用户搜索的关键词,可以获取到搜索热点。
发明内容
本申请实施例提供一种热点搜索方法、装置、终端及存储介质,可以在提高热点搜索准确性的同时降低热点搜索成本。本申请实施例的技术方案如下:
第一方面,本申请实施例提供一种热点搜索方法,所述方法包括:
获取在搜索应用中所输入的搜索语句;
获取所述搜索应用中的历史搜索记录对应的搜索序列向量,获取所述搜索语句对应的文本向量;
基于所述搜索序列向量和所述文本向量,获取所述搜索语句对应的搜索热点信息。
第二方面,本申请实施例提供一种热点搜索装置,所述装置包括:
语句获取单元,用于获取在搜索应用中所输入的搜索语句;
向量获取单元,用于获取所述搜索应用中的历史搜索记录对应的搜索序列向量,获取所述搜索语句对应的文本向量;
信息获取单元,用于基于所述搜索序列向量和所述文本向量,获取所述搜索语句对应的搜索热点信息。
第三方面,一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,其中,上述计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
在本申请一个或多个实施例中,通过获取搜索应用中的历史搜索记录对应的搜索序列向量以及搜索语句对应的文本向量,可以基于搜索序列向量和文本向量,获取到搜索语句对应的搜索热点信息。基于文本向量和搜索序列向量获取搜索语句对应的搜索热点信息,可以提高搜索语句语义获取的准确性,不需要获取搜索语句对应的关键词,可以减少关键词本身存在歧义使得搜索热点信息获取不准确的情况,可以提高热点搜索的准确性,同时,本申请的技术方案不需要标注大量的数据,可以降低热点搜索的成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出应用于本申请实施例的一种热点搜索方法的系统架构图;
图2示出本申请实施例的一种热点搜索方法的流程示意图;
图3示出本申请实施例的一种终端界面的举例示意图;
图4示出本申请实施例的一种终端界面的举例示意图;
图5示出本申请实施例的一种热点搜索方法的举例示意图;
图6示出本申请实施例的一种热点搜索方法的流程示意图;
图7示出本申请实施例的一种历史搜索记录获取方法的举例示意图;
图8示出本申请实施例的一种有向有权图的举例示意图;
图9示出本申请实施例的一种不同模型进行掩码处理的对比示意图;
图10示出本申请实施例的一种热点搜索装置的结构示意图;
图11示出本申请实施例的一种热点搜索装置的结构示意图;
图12示出本申请实施例的一种热点搜索装置的结构示意图;
图13示出本申请实施例的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅为本申请实施例的一部分,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
随着科学技术的发展,越来越多的用户会使用终端通过互联网进行热点搜索。图1示出应用于本申请实施例的一种热点搜索方法的系统架构图。如图1所示,当用户进行搜索时,用户可以在终端的搜索应用中输入待搜索语句。当终端获取到该待搜索语句时,终端可以采用关键词识别算法获取到用户输入的待搜索语句中的关键词。基于该关键词,终端可以通过关键词匹配方式,从服务器中获取到与用户对应的搜索热点。但是由于关键词本身存在歧义,因此包含同一个关键词的不同搜索语句表达的语义完全不同,使得终端搜索到的搜索热点与用户想搜索到的搜索热点是完全不一致的,使得热点的搜索准确性较低,用户的使用体验较差。
易于理解的是,当终端在进行热点搜索时,终端可以通过主题模型的方式获取与搜索语句对应的搜索热点。终端获取搜索热点时,终端可以先获取用户输入的搜索语句,并对该搜索语句进行分词和去除停用词等操作,得到该搜索语句的关键词。终端可以将得到的关键词作为特征提供给主题模型。该主题模型例如可以是基于LDA算法生成。终端可以使用该主题模型,通过挖掘不同的主题获取到与搜索语句对应的搜索热点。终端使用主题模型进行热点搜索,相比与关键词匹配来说增加了语义知识的理解,但是由于主题模型理解搜索语句的语义有限,不能准确获取到与用户对应的搜索热点,使得热点的搜索准确性较低,用户的使用体验较差。另外,由于主题模型需要标注大量的数据,使得主题模型的标注成本增加,出现热点搜索成本增加的问题。本申请提供一种热点搜索方法,可以在提高热点搜索准确性的同时降低热点搜索成本。
下面结合具体的实施例对本申请进行详细说明。
在一个实施例中,如图2所示,特提出了一种热点搜索方法,该方法可依赖于计算机程序实现,可运行于基于具有搜索功能的终端上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
具体的,该热点搜索方法包括:
步骤101,获取在搜索应用中所输入的搜索语句;
根据一些实施例,本申请热点搜索方法可以适用于具有搜索功能的终端。该终端可以是具有搜索应用的终端,还可以是直接在终端显示屏上可以进行搜索的终端,此时终端的界面显示可以如图3所示。本申请热点搜索方法还可以应用于舆情监控系统、用户喜好度分析系统和客户服务系统等。
其中,所述终端可以是具有搜索功能的电子设备,该电子设备包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personaldigital assistant,PDA)、第五代移动通信技术(5th generation mobile networks,5G)网络或未来演进网络中的终端设备等。
根据一些实施例,搜索应用是指终端中具有搜索功能的应用,该搜索应用包括但不限于只可以进行搜索功能的应用,同时具有搜索功能和其他功能的应用,其他功能包括但不限于视频通话功能、音频播放功能、拍摄功能、娱乐功能等等。本实施例的搜索应用例如可以是A搜索应用,该A搜索应用例如可以包括搜索功能和通讯功能。此时,终端的显示界面可以如图4所示。
根据一些实施例,搜索语句是指用户在终端上输入的搜索语句,该搜索语句包括但不限于文字格式的搜索语句、语音格式的搜索语句等等。
根据一些实施例,当终端开启搜索应用时,终端检测到用户输入搜索语句时,终端可以在搜索应用中获取所输入的搜索语句。终端开启搜索应用例如可以是在终端接收到用户针对该搜索应用的开启指令时,终端可以基于该开启指令开启该搜索应用。该开启指令包括但不限于语音开启指令、点击开启指令、定时开启指令等等。
步骤102,获取搜索应用中的历史搜索记录对应的搜索序列向量,获取搜索语句对应的文本向量;
根据一些实施例,历史搜索记录是指终端在获取到所输入的搜索语句之前,终端在搜索应用中存储的搜索记录。该历史搜索记录例如可以是某一个时间窗口内的所有历史搜索记录,还可以是终端中存储的所有的历史搜索记录,还可以是多个时间窗口内的历史搜索记录,还可以是某一数值的历史搜索记录。其中,某一个时间窗口并不特指某一固定的时间窗口,该时间窗口可以基于用户的窗口获取指令变化。某一数值也不特指某一固定数值,该数值可以随着用户输入的数值设置指令变化,还可以基于根据获取搜索应用中所输入的搜索语句的时间点变化。
根据一些实施例,搜索序列向量是指终端基于搜索应用中的历史搜索记录生成的向量。该搜索序列向量例如可以是终端基于多个时间窗口内的历史搜索记录生成的。文本向量是终端基于所述搜索语句对应的文本信息获取到的向量。该文本向量的个数为至少一个。
易于理解的是,当终端获取到搜索应用中所输入的搜索语句时,终端可以获取该搜索应用中的历史记录。终端在获取到该历史搜索记录时,终端可以基于该历史搜索记录获取到搜索序列向量。当终端获取到搜索应用中所输入的搜索语句时,终端可以获取到搜索语句对应的文本信息,并基于该文本信息获取到搜索语句对应的文本向量。
步骤103,基于搜索序列向量和文本向量,获取搜索语句对应的搜索热点信息。
根据一些实施例,搜索热点信息是指与所输入的搜索语句对应的搜索热点对应的信息,该搜索热点信息包括但不限于搜索热点的频率信息、名称信息、数量信息等等。搜索热点信息可以是终端基于用户的设置指令进行设置,还可以是终端基于搜索序列向量和文本向量确定的。
易于理解的是,图5示出本申请实施例的一种热点搜索方法的举例示意图。如图5所示,当终端获取到搜索应用中的历史搜索记录对应的搜索序列向量和搜索语句对应的文本向量时,终端可以基于搜索序列向量和文本向量,获取搜索语句对应的搜索热点信息。
在本申请一个或多个实施例中,通过获取搜索应用中的历史搜索记录对应的搜索序列向量以及搜索语句对应的文本向量,可以基于搜索序列向量和文本向量,获取到搜索语句对应的搜索热点信息。基于文本向量和搜索序列向量获取搜索语句对应的搜索热点信息,可以提高搜索语句语义获取的准确性,不需要获取搜索语句对应的关键词,可以减少关键词本身存在歧义使得搜索热点信息获取不准确的情况,还可以减少主题模型理解搜索语句的语义有限使得搜索热点信息获取不准确的情况,可以提高热点搜索的准确性。另外,本申请的技术方案不需要标注大量的数据,可以节省标注数据的成本,可以降低热点搜索的成本。
请参见图6,为本申请实施例提供了一种热点搜索方法的流程示意图。如图6所示,该方法包括以下步骤S201-S208。
步骤201,获取在搜索应用中所输入的搜索语句;
步骤202,获取搜索应用中的历史搜索记录,历史搜索记录包括历史搜索语句和历史搜索语句对应的搜索时间;
根据一些实施例,历史搜索记录是与搜索应用对应的搜索记录,当搜索应用发生变化时,终端获取到的历史搜索记录也会发生相应变化。例如,当终端获取所输入的搜索语句是在A搜索应用中获取时,终端获取到的历史搜索记录例如可以是a历史搜索记录。例如,当终端获取所输入的搜索语句是在B搜索应用中获取时,终端获取到的历史搜索记录例如可以是b历史搜索记录。
易于理解的是,该历史搜索记录例如可以是终端中存储的与该搜索应用对应的所有的历史搜索记录。终端还可以获取时间窗口,终端可以基于一个或者多个时间窗口获取到该搜索应用对应的历史搜索记录。图7示出本申请实施例的一种历史搜索记录获取方法的举例示意图。如图7所示,该时间窗口对应的时长例如可以是一周。终端例如可以获取四个时间窗口的历史搜索记录,此时终端获取到的四个时间窗口例如可以分别为W1时间窗口、W2时间窗口、W3时间窗口和W4时间窗口。该四个时间窗口例如可以是连续的时间窗口。基于该四个时间窗口,终端获取到的历史搜索记录可以是w1历史搜索记录、w2历史搜索记录、w3历史搜索记录和w4历史搜索记录。
根据一些实施例,该历史搜索记录包括历史搜索语句和历史搜索语句对应的搜索时间。终端在获取在搜索应用中所输入的搜索语句之前,终端在该搜索应用中接收到所输入的历史搜索语句时,终端可以获取该历史搜索语句和历史搜索语句的输入时间。该历史搜索语句的输入时间即为该历史搜索语句对应的搜索时间。当终端获取到该历史搜索语句和该历史搜索语句对应的搜索时间时,终端可以将该历史搜索语句和该历史搜索语句对应的搜索时间关联存储在终端中。
易于理解的是,当终端获取搜索应用对应的历史搜索记录时,终端还可以获取预设数量的历史搜索记录。该预设数量可以基于终端中存储的历史搜索记录的数量确定,还可以基于用户输入的针对该预设数量的数量设置指令确定。其中,该数量设置指令包括但不限于语音设置指令、文字设置指令、点击设置指令等等。
可选的,当终端基于终端中存储的历史搜索记录的数量确定时,终端可以按照比例值获取搜索应用中的历史搜索记录。例如终端可以基于终端中存储的历史搜索记录调节该比例值。例如当终端中存储的历史搜索记录较少时,终端可以获取全部的历史搜索记录。当终端中存储的历史搜索记录的数量较多时,终端可以获取一半的历史搜索记录。
根据一些实施例,终端获取到的历史搜索记录还可以是多个终端中同一个搜索应用对应多个历史搜索记录。其中,一个终端例如可以对应一个用户。例如终端获取到的历史搜索记录可以是Q1终端中A搜索应用的历史搜索记录、Q2终端中A搜索应用的历史搜索记录和Q3终端中A搜索应用的历史搜索记录。
步骤203,基于历史搜索语句和搜索时间,获取历史搜索记录对应的搜索序列向量;
根据一些实施例,终端获取到历史搜索记录中包括的历史搜索语句和搜索时间时,终端可以采用图模型获取到历史搜索记录对应的搜索序列向量。该图模型例如可以是Word2vec(word to vector)算法中的skip-gram模型。Word2vec(word to vector)算法是一种深度学习算法。由于Word2vec(word to vector)算法不需要标注大量的数据,因此可以降低热点搜索成本。
易于理解的是,当终端获取历史搜索记录对应的搜索序列向量时,终端可以获取该历史搜索记录对应的搜索序列向量。终端可以获取到多个终端中同一个搜索应用对应多个历史搜索记录。同一个终端的对应用户例如可以为一个。当终端获取到历史搜索记录时,终端可以获取到用户搜索序列关系,并将该搜索序列关系转换为有向有权图。该有向有权图可以是指从节点维度进行构造的图。基于该有向有权图,终端可以采用随机游走权重方式生成物品序列。基于该物品序列,终端可以采用skip-gram模型生成历史搜索记录对应的搜索序列向量,即终端可以获取获到历史搜索记录对应的搜索序列向量。
根据一些实施例,例如Q1终端中A搜索应用的历史搜索记录的一个时间窗口包括q1历史搜索记录、q2历史搜索记录和q3历史搜索记录。Q2终端中A搜索应用的历史搜索记录的第一个时间窗口包括q3历史搜索记录和q4历史搜索记录、第二个时间窗口包括q5历史搜索记录和q2历史搜索记录。Q3终端中A搜索应用的历史搜索记录的一个时间窗口包括q1历史搜索记录、q5历史搜索记录和q2历史搜索记录。此时,终端获取到的有向有权图可以如图8所示。图中箭头上的数字表示权重值。
可选的,基于该有向有权图,终端可以还采用深度优先(Deepth-First Search,DFS)算法和广度优先(Breadth-First Search,BFS)算法生成物品序列。基于该物品序列,终端可以采用skip-gram模型生成历史搜索记录对应的搜索序列向量,即终端可以获取获到历史搜索记录对应的搜索序列向量。由于DFS算法BFS算法可以更好地区别有向有权图中的边缘节点和中心节点,因此可以提高搜索序列向量获取的准确性,可以提高热点搜索的准确性。
步骤204,获取搜索语句对应的单词向量、段对关系向量和位置向量;
根据一些实施例,当终端获取搜索语句对应的文本向量时,终端可以获取该搜索语句对应的单词向量、段对关系向量和位置向量。其中,单词向量用于表示搜索语句的单词编码,段对关系向量用于表示搜索语句中包括的各字符的段对关系,位置关系向量用于表示搜索语句中包括的各字符的位置。
根据一些实施例,当终端获取搜索语句对应的单词向量、段对关系向量和位置向量时,终端可以先对搜索语句中包含的字符进行字符过滤处理,得到搜索语句对应的文本信息。例如,终端获取到搜索语句时,终端可以检测该搜索语句中是否包含预设字符。该预设字符是指对于搜索热点的获取有干扰的字符,该预设字符包括但不限于乱码字符、单个字符等。乱码字符没有实际含义,因此对乱码字符的过滤处理,可以提高文本信息获取的准确性,可以提高文本向量获取的准确性,进而可以提高热点搜索的准确性。单个字符会存在较大的歧义,对于获取的文本信息会产生干扰,因此对单个字符的过滤处理,可以提高文本信息获取的准确性,可以提高文本向量获取的准确性,进而可以提高热点搜索的准确性。
易于理解的是,当终端获取到的搜索语句不是文本格式的搜索语句时,终端可以对搜索语句进行转化处理。例如终端获取到的搜索语句为语音搜索语句时,终端可以采用语音识别算法,将获取到的语音搜索语句转化对应的文本信息。
根据一些实施例,当终端获取到搜索语句对应的文本信息时,终端可以采用掩码方式对文本信息进行掩码处理。终端对文本信息进行掩码处理之后,终端可以获取到搜索语句对应的单词向量、段对关系向量和位置向量。其中,掩码方式包括动态掩码方式和全词掩码方式中的至少一种。相对于静态掩码方式,动态掩码方式可以减少未知含义单词的数量,可以获取到更准确的文本向量,可以提高热点搜索的准确性。
可选的,全词掩码方式可以同时对单个或者多个字符进行掩码操作,可以减少对文本信息的掩码时长,提高热点搜索的效率。例如,图9示出本申请实施例的一种不同模型进行掩码处理的对比示意图。如图9所示,当终端对“我喜欢吃苹果,更喜欢吃榴莲。”进行掩码处理时,原生双向变换编码器(Bidirectional Encoder Representation fromTransformers,BERT)模型未使用全词掩码时,终端采用原生BERT模型只可以对“苹果”中的“苹”进行掩码处理,并未对“苹果”中的“果”进行掩码处理。当终端使用基于全词掩码的BERT模型对“我喜欢吃苹果,更喜欢吃榴莲。”进行掩码处理时,终端采用基于全词掩码的BERT模型可以对“苹果”中的“苹”进行掩码处理,也可以对“苹果”中的“果”进行掩码处理。
步骤205,基于单词向量、段对关系向量和位置向量生成搜索语句对应的文本向量;
根据一些实施例,当终端获取到搜索语句对应的单词向量、段对关系向量和位置向量时,终端可以基于获取到的单词向量、段对关系向量和位置向量生成搜索语句对应的文本向量。例如,当终端获取到搜索语句对应的单词向量、段对关系向量和位置向量时,终端可以将单词向量、段对关系向量和位置向量相加得到搜索语句对应的文本向量。
易于理解的是,终端获取到单词向量、段对关系向量和位置向量时,终端可以采用文本向量获取模型获取本文向量,文本向量获取模型包括但不限于原生BERT模型、知识增强语义表示模型(Enhanced Representation from kNowledge IntEgration,ERNIE)、中文预训练语言RoBERTa-wwm-ext模型。ERNIE模型可以同时使用中文语料和知识图谱的方法,可以提高中文场景下搜索热点信息获取的准确性。RoBERTa-wwm-ext模型采用动态掩码方式和取消下一句预测任务,可以提高模型的泛化能力,扩大模型的使用范围,同时设置了batch size对该模型进行训练,使模型的稳定性更高,提高搜索热点信息获取的准确性。
步骤206,对搜索序列向量和文本向量进行拼接处理,得到拼接向量;
根据一些实施例,拼接向量是指与搜索序列向量和文本向量对应的向量。该拼接向量并不特指某一固定向量。当搜索序列向量和文本向量中至少一个发生变化时,拼接向量也会相应变化。例如当搜索序列向量发生变化,文本向量未发生变化时,拼接向量也会发生变化。例如当搜索序列向量未发生变化,文本向量变化时,拼接向量也会发生变化。例如当搜索序列向量发生变化,文本向量也发生变化时,拼接向量也会发生变化。
易于理解的是,当终端获取到搜索语句对应的搜索序列向量和文本向量时,终端可以对搜索序列向量和文本向量进行拼接处理,得到拼接向量。终端对搜索序列向量和文本向量进行拼接例如可以是终端将搜索序列向量拼接在文本向量的后边。搜索序列向量和文本向量的维度可以是终端预先设置的,还可以是终端基于搜索语句包括的字符数确定的。
可选的,例如终端获取到的搜索序列向量是Y向量,Y向量是1*100维的向量,终端获取到的文本向量是U向量,U向量是1*50维的向量。终端对对搜索序列向量和文本向量进行拼接得到的拼接向量例如可以是U向量+Y向量,拼接向量是1*150维的向量。
步骤207,对拼接向量进行维度转换处理,得到拼接向量对应的用户搜索向量;
根据一些实施例,当终端对搜索序列向量和文本向量进行拼接处理,得到拼接向量时,终端可以对拼接向量进行维度转换处理。终端对拼接向量进行维度转换处理,可以得到拼接向量对应的用户搜索向量。其中,维度转换处理包括但不限于增加维度处理和降低维度处理。降低维度处理可以减少对用户搜索向量进行聚类处理的过程,可以减少获取搜索热点信息的时长,可以提高收缩热点信息的获取效率。
易于理解的是,终端对拼接向量进行维度转换处理时,终端可以采用全连接模型对拼接向量进行维度处理。其中,全连接模型的数量为至少一个。当全连接模型的数量为两个时,两个全连接模型例如可以是O1全连接模型和O2全连接模型。当终端获取到的拼接向量为1*150维的向量时,终端采用O1全连接模型对该拼接向量进行维度转换处理后,终端例如可以获取到1*66维的向量。终端可以采用O2全连接模型对1*66维的向量进行维度转换处理后,终端例如可以获取到1*50维的向量。
步骤208,对用户搜索向量进行聚类处理,得到搜索语句对应的搜索热点信息。
根据一些实施例,终端对拼接向量进行维度转换处理,得到拼接向量对应的用户搜索向量时,终端可以采用聚类算法对用户搜索向量进行聚类处理,得到与搜索语句对应的搜索热点信息。其中,聚类算法包括但不限于K-Means算法、K-MEDOIDS算法、CLARANS算法、DBSCAN算法、OPTICS算法、DENCLUE算法等。
易于理解的是,本实施例的聚类算法例如可以是K-Means算法。当终端获取到用户搜索向量时,终端可以采用K-Means算法对该用户搜索向量进行聚类处理,得到搜索语句对应的搜索热点信息。K-Means算法是无监督的聚类算法,算法简单,可以减少搜索热点信息的获取步骤,可以提高搜索热点信息的获取效率。另外,由于采用K-Means算法对用户搜索向量进行聚类处理,可以提高热点搜索的准确性。
根据一些实施例,当文本向量的数量为一个时,终端可以对搜索序列向量和该文本向量进行拼接处理,得到一个拼接向量。终端可以对该拼接向量进行维度转换处理,得到拼接向量对应的一个用户搜索向量,并对该用户搜索向量进行聚类处理,可以直接得到搜索语句对应的搜索热点信息。
易于理解的是,文本向量的数量可以为多个。当终端采用多个文本向量模型获取到搜索语句对应的多个文本向量时,终端可以在多个文本向量中选择第一文本向量。第一文本向量是指多个文本向量中的某一个文本向量,并不特指某一固定文本向量。终端可以对搜索序列向量和该第一文本向量进行拼接处理,得到第一拼接向量。终端可以对第一拼接向量进行维度转换处理,得到第一拼接向量对应的第一用户搜索向量,并对第一用户搜索向量进行聚类处理,可以直接得到第一拼接向量对应的第一备选热点信息。
可选的,当终端获取到第一拼接向量对应的第一备选热点信息时,终端可以获取搜索热点集合。搜索热点集合包括除拼接向量外的其余拼接向量分别对应的第二备选热点信息。当终端获取到搜索集合时,终端可以将第一备选热点信息与搜索热点集合中的第二备选热点信息进行融合处理,得到搜索语句对应的搜索热点信息。第二备选热点信息并不特指某一固定拼接向量对应的备选热点集合。当拼接向量发生变化时,第二备选热点信息也会相应变化。
根据一些实施例,多个文本向量例如可以包括第一文本向量P1文本向量、第二文本向量P2文本向量和第三文本向量P3文本向量。终端可以将P1文本向量和搜索序列向量进行拼接,得到p1拼接向量。终端得到p1拼接向量时,终端可以对p1拼接向量进行维度转换处理,得到与p1拼接向量对应的p11用户搜索向量。终端对p11用户搜索向量进行聚类处理,可以得到p1拼接向量对应的第一备选热点信息。终端可以获取搜索热点集合。该搜索热点集合例如可以包括p2拼接向量和p3拼接向量对应的p23第二备选热点信息。当终端获取到第一备选热点信息和p23第二备选热点信息时,终端例如可以获取第一备选热点信息和p23第二备选热点信息中包含的搜索热点的交集,该交集中包括的搜索热点信息即为搜索语句对应的搜索热点信息。
在本申请一个或多个实施例中,通过获取搜索应用中的历史搜索记录,可以基于历史搜索记录包括的历史搜索语句和搜索时间,获取历史搜索记录对应的搜索序列向量,由于搜索序列向量的获取不需要进行大量的数据标注,可以节省标注成本,可以降低热点搜索的成本。其次,终端可以基于搜索序列向量和文本向量,采用拼接处理、维度转换处理和聚类处理,可以得到搜索语句对应的搜索热点信息,不需要获取搜索语句对应的关键词,可以减少关键词本身存在歧义使得搜索热点信息获取不准确的情况,可以提高热点搜索的准确性。
下面将结合附图10-12,对本申请实施例提供的热点搜索装置进行详细介绍。需要说明的是,附图10-12所示的热点搜索装置,用于执行本申请图2-图9所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请图2-图9所示的实施例。
请参见图10,其示出本申请实施例的热点搜索装置的结构示意图。该热点搜索装置1000可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例,该热点搜索装置1000包括语句获取单元1001、向量获取单元1002和信息获取单元1003,具体用于:
语句获取单元1001,用于获取在搜索应用中所输入的搜索语句;
向量获取单元1002,用于获取搜索应用中的历史搜索记录对应的搜索序列向量,获取搜索语句对应的文本向量;
信息获取单元1003,用于基于搜索序列向量和文本向量,获取搜索语句对应的搜索热点信息。
根据一些实施例,如图11所示,该向量获取单元1002还包括记录获取子单元1012和向量获取子单元1022,其中:
记录获取子单元1012,用于获取搜索应用中的历史搜索记录,历史搜索记录包括历史搜索语句和历史搜索语句对应的搜索时间;
向量获取子单元1022,用于基于历史搜索语句和搜索时间,获取历史搜索记录对应的搜索序列向量。
根据一些实施例,向量获取单元1002,用于获取搜索语句对应的文本向量时,具体用于:
获取搜索语句对应的单词向量、段对关系向量和位置向量;
基于单词向量、段对关系向量和位置向量生成搜索语句对应的文本向量。
根据一些实施例,向量获取单元1002,用于获取搜索语句对应的单词向量、段对关系向量和位置向量时,具体用于:
对搜索语句中包含的字符进行字符过滤处理,得到搜索语句对应的文本信息;
采用掩码方式对文本信息进行掩码处理,获取搜索语句对应的单词向量、段对关系向量和位置向量,掩码方式包括动态掩码方式和全词掩码方式中的至少一种。
根据一些实施例,信息获取单元1003,还包括拼接处理子单元1013、转换处理子单元1023和聚类处理子单元1033,其中:
拼接处理子单元1013,用于对搜索序列向量和文本向量进行拼接处理,得到拼接向量;
转换处理子单元1023,用于对拼接向量进行维度转换处理,得到拼接向量对应的用户搜索向量;
聚类处理子单元1033,用于对用户搜索向量进行聚类处理,得到搜索语句对应的搜索热点信息。
根据一些实施例,聚类处理子单元1033,用于对用户搜索向量进行聚类处理,得到搜索语句对应的搜索热点信息时,具体用于:
对用户搜索向量进行聚类处理,得到与拼接向量对应的第一备选热点信息;
将第一备选热点信息与搜索热点集合中的第二备选热点信息进行融合处理,得到搜索语句对应的搜索热点信息;
搜索热点集合包括除拼接向量外的其余拼接向量分别对应的第二备选热点信息。
在本申请一个或多个实施例中,通过获取搜索应用中的历史搜索记录对应的搜索序列向量以及搜索语句对应的文本向量,可以基于搜索序列向量和文本向量,获取到搜索语句对应的搜索热点信息。基于文本向量和搜索序列向量获取搜索语句对应的搜索热点信息,可以提高搜索语句语义获取的准确性,不需要获取搜索语句对应的关键词,可以减少关键词本身存在歧义使得搜索热点信息获取不准确的情况,可以提高热点搜索的准确性,同时,本申请的技术方案不需要标注大量的数据,可以减少热点搜索的成本。另外,热点搜索装置可以对搜索序列向量和文本向量进行拼接处理、维度转换处理和聚类处理,可以得到搜索语句对应的搜索热点信息,可以减少只基于搜索序列向量和文本向量其中一个向量获取搜索热点信息导致搜索热点信息获取不准确的情况,可以提高热点搜索的准确性。
请参见图13,为本申请实施例提供的一种终端的结构示意图。如图13所示,所述终端1300可以包括:至少一个处理器1301,至少一个网络接口1304,用户接口1303,存储器1305,至少一个通信总线1302。
其中,通信总线1302用于实现这些组件之间的连接通信。
其中,用户接口1303可以包括显示屏(Display)和GPS,可选用户接口1303还可以包括标准的有线接口、无线接口。
其中,网络接口1304可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1301可以包括一个或者多个处理核心。处理器1301利用各种借口和线路连接整个终端1300内的各个部分,通过运行或执行存储在存储器1305内的指令、程序、代码集或指令集,以及调用存储在存储器1305内的数据,执行终端1300的各种功能和处理数据。可选的,处理器1301可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1301可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1301中,单独通过一块芯片进行实现。
其中,存储器1305可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1305包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1305可用于存储指令、程序、代码、代码集或指令集。存储器1305可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1305可选的还可以是至少一个位于远离前述处理器1301的存储装置。如图13所示,作为一种计算机存储介质的存储器1305中可以包括操作系统、网络通信模块、用户接口模块以及用于热点搜索的应用程序。
在图13所示的终端1300中,用户接口1303主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1301可以用于调用存储器1305中存储的热点搜索的应用程序,并具体执行以下操作:
获取在搜索应用中所输入的搜索语句;
获取搜索应用中的历史搜索记录对应的搜索序列向量,获取搜索语句对应的文本向量;
基于搜索序列向量和文本向量,获取搜索语句对应的搜索热点信息。
根据一些实施例,处理器1301执行获取搜索应用中的历史搜索记录对应的搜索序列向量时,具体执行以下操作:
获取搜索应用中的历史搜索记录,历史搜索记录包括历史搜索语句和历史搜索语句对应的搜索时间;
基于历史搜索语句和搜索时间,获取历史搜索记录对应的搜索序列向量。
根据一些实施例,处理器1301执行获取搜索语句对应的文本向量时,具体执行以下操作:
获取搜索语句对应的单词向量、段对关系向量和位置向量;
基于单词向量、段对关系向量和位置向量生成搜索语句对应的文本向量。
根据一些实施例,处理器1301执行获取搜索语句对应的单词向量、段对关系向量和位置向量时,具体执行以下操作:
对搜索语句中包含的字符进行字符过滤处理,得到搜索语句对应的文本信息;
采用掩码方式对文本信息进行掩码处理,获取搜索语句对应的单词向量、段对关系向量和位置向量,掩码方式包括动态掩码方式和全词掩码方式中的至少一种。
根据一些实施例,处理器1301执行基于搜索序列向量和文本向量,获取搜索语句对应的搜索热点信息时,具体执行以下操作:
对搜索序列向量和文本向量进行拼接处理,得到拼接向量;
对拼接向量进行维度转换处理,得到拼接向量对应的用户搜索向量;
对用户搜索向量进行聚类处理,得到搜索语句对应的搜索热点信息。
根据一些实施例,处理器1301执行对用户搜索向量进行聚类处理,得到搜索语句对应的搜索热点信息时,具体执行以下操作:
对用户搜索向量进行聚类处理,得到与拼接向量对应的第一备选热点信息;
将第一备选热点信息与搜索热点集合中的第二备选热点信息进行融合处理,得到搜索语句对应的搜索热点信息;
搜索热点集合包括除拼接向量外的其余拼接向量分别对应的第二备选热点信息。
在本申请一个或多个实施例中,通过获取搜索应用中的历史搜索记录对应的搜索序列向量以及搜索语句对应的文本向量,可以基于搜索序列向量和文本向量,获取到搜索语句对应的搜索热点信息。基于文本向量和搜索序列向量获取搜索语句对应的搜索热点信息,可以提高搜索语句语义获取的准确性,不需要获取搜索语句对应的关键词,可以减少关键词本身存在歧义使得搜索热点信息获取不准确的情况,可以提高热点搜索的准确性,同时,本申请的技术方案不需要标注大量的数据,可以减少热点搜索的成本。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,该计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种热点搜索方法的部分或全部步骤。
本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(Field-ProgrammaBLE GateArray,FPGA)、集成电路(Integrated Circuit,IC)等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
Claims (5)
1.一种热点搜索方法,其特征在于,所述方法包括:
获取在搜索应用中所输入的搜索语句;
获取所述搜索应用中的历史搜索记录对应的搜索序列向量,获取所述搜索语句对应的多个文本向量;
对所述搜索序列向量和所述多个文本向量进行拼接处理,得到多个拼接向量,所述拼接向量是指将所述搜索序列向量拼接在所述文本向量之后;
对所述多个拼接向量中的第一拼接向量进行维度转换处理,得到所述第一拼接向量对应的用户搜索向量;
对所述用户搜索向量进行聚类处理,得到与所述第一拼接向量对应的第一备选热点信息;
将所述第一备选热点信息与搜索热点集合中的第二备选热点信息进行融合处理,得到所述搜索语句对应的搜索热点信息,所述搜索热点集合包括所述多个拼接向量中除所述第一拼接向量外的其余拼接向量分别对应的第二备选热点信息;
其中,所述获取所述搜索应用中的历史搜索记录对应的搜索序列向量,包括:
在获取到多个终端中所述搜索应用对应的多个历史搜索记录时,获取搜索序列关系;将所述搜索序列关系转换为有向有权图;基于所述有向有权图,生成物品序列;基于所述物品序列,生成所述历史搜索记录对应的搜索序列向量,所述有向有权图是指从节点维度进行构造的图;
所述获取所述搜索语句对应的多个文本向量,包括:
获取所述搜索语句对应的单词向量、段对关系向量和位置向量,所述段对关系向量用于表示所述搜索语句中包括的各字符的段对关系,所述位置向量用于表示所述搜索语句中包括的各字符的位置;
基于所述单词向量、所述段对关系向量和所述位置向量生成所述搜索语句对应的多个文本向量;
其中,所述获取所述搜索语句对应的单词向量、段对关系向量和位置向量,包括:
对所述搜索语句中包含的字符进行字符过滤处理,得到所述搜索语句对应的文本信息;
采用掩码方式对所述文本信息进行掩码处理,获取所述搜索语句对应的单词向量、段对关系向量和位置向量,所述掩码方式包括动态掩码方式和全词掩码方式中的至少一种。
2.根据权利要求1所述的方法,其特征在于,所述历史搜索记录包括历史搜索语句和所述历史搜索语句对应的搜索时间。
3.一种热点搜索装置,其特征在于,所述装置包括:
语句获取单元,用于获取在搜索应用中所输入的搜索语句;
向量获取单元,用于在获取到多个终端中所述搜索应用对应的多个历史搜索记录时,获取搜索序列关系;将所述搜索序列关系转换为有向有权图;基于所述有向有权图,生成物品序列;基于所述物品序列,生成所述历史搜索记录对应的搜索序列向量,所述有向有权图是指从节点维度进行构造的图;对所述搜索语句中包含的字符进行字符过滤处理,得到所述搜索语句对应的文本信息;采用掩码方式对所述文本信息进行掩码处理,获取所述搜索语句对应的单词向量、段对关系向量和位置向量,所述掩码方式包括动态掩码方式和全词掩码方式中的至少一种,所述段对关系向量用于表示所述搜索语句中包括的各字符的段对关系,所述位置向量用于表示所述搜索语句中包括的各字符的位置;基于所述单词向量、所述段对关系向量和所述位置向量生成所述搜索语句对应的多个文本向量;
信息获取单元,用于对所述搜索序列向量和所述多个文本向量进行拼接处理,得到多个拼接向量,所述拼接向量是指将所述搜索序列向量拼接在所述文本向量之后;对所述多个拼接向量中的第一拼接向量进行维度转换处理,得到所述第一拼接向量对应的用户搜索向量;对所述用户搜索向量进行聚类处理,得到与所述第一拼接向量对应的第一备选热点信息;将所述第一备选热点信息与搜索热点集合中的第二备选热点信息进行融合处理,得到所述搜索语句对应的搜索热点信息,所述搜索热点集合包括所述多个拼接向量中除所述第一拼接向量外的其余拼接向量分别对应的第二备选热点信息。
4.一种终端,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述权利要求1-2中任一项方法。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述权利要求1-2中任一项方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276617.8A CN112307304B (zh) | 2020-11-16 | 2020-11-16 | 热点搜索方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011276617.8A CN112307304B (zh) | 2020-11-16 | 2020-11-16 | 热点搜索方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307304A CN112307304A (zh) | 2021-02-02 |
CN112307304B true CN112307304B (zh) | 2024-04-12 |
Family
ID=74334513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011276617.8A Active CN112307304B (zh) | 2020-11-16 | 2020-11-16 | 热点搜索方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307304B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912630A (zh) * | 2016-04-07 | 2016-08-31 | 北京搜狗科技发展有限公司 | 一种信息扩展方法及装置 |
CN108431809A (zh) * | 2015-12-21 | 2018-08-21 | 电子湾有限公司 | 使用语义含义向量的跨语言搜索 |
CN109697282A (zh) * | 2017-10-20 | 2019-04-30 | 阿里巴巴集团控股有限公司 | 一种语句的用户意图识别方法和装置 |
CN111241844A (zh) * | 2018-11-29 | 2020-06-05 | 北京搜狗科技发展有限公司 | 一种信息推荐方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885756B (zh) * | 2016-09-30 | 2020-05-08 | 华为技术有限公司 | 基于深度学习的对话方法、装置及设备 |
-
2020
- 2020-11-16 CN CN202011276617.8A patent/CN112307304B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108431809A (zh) * | 2015-12-21 | 2018-08-21 | 电子湾有限公司 | 使用语义含义向量的跨语言搜索 |
CN105912630A (zh) * | 2016-04-07 | 2016-08-31 | 北京搜狗科技发展有限公司 | 一种信息扩展方法及装置 |
CN109697282A (zh) * | 2017-10-20 | 2019-04-30 | 阿里巴巴集团控股有限公司 | 一种语句的用户意图识别方法和装置 |
CN111241844A (zh) * | 2018-11-29 | 2020-06-05 | 北京搜狗科技发展有限公司 | 一种信息推荐方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于词向量的搜索词分类、聚类研究;杨河彬;中国优秀硕士学位论文全文数据库信息科技辑(第10期);第1、14-20、28-31页 * |
杨河彬.基于词向量的搜索词分类、聚类研究.中国优秀硕士学位论文全文数据库信息科技辑.2015,(第10期),第1、14-20、28-31页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112307304A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956771B2 (en) | Image recognition method, terminal, and storage medium | |
US20160247068A1 (en) | System and method for automatic question answering | |
EP3926531A1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
JP2023535709A (ja) | 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体 | |
US11586689B2 (en) | Electronic apparatus and controlling method thereof | |
CN109086303A (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
CN110162770A (zh) | 一种词扩展方法、装置、设备及介质 | |
CN111767740B (zh) | 音效添加方法和装置、存储介质和电子设备 | |
CN101681365A (zh) | 用于分布式语音搜索的方法和装置 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN112906381B (zh) | 对话归属的识别方法、装置、可读介质和电子设备 | |
CN111428025A (zh) | 文本摘要方法、装置、电子设备和存储介质 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN108345625B (zh) | 一种信息挖掘方法和装置、一种用于信息挖掘的装置 | |
CN108345608A (zh) | 一种搜索方法、装置及设备 | |
CN116882372A (zh) | 文本生成方法、装置、电子设备以及存储介质 | |
CN104484370B (zh) | 基于问答的答案信息发送方法、接收方法、装置及系统 | |
CN113919360A (zh) | 语义理解方法、语音交互方法、装置、设备及存储介质 | |
CN111444321B (zh) | 问答方法、装置、电子设备和存储介质 | |
CN117556061B (zh) | 文本输出方法及装置、电子设备和存储介质 | |
CN112307304B (zh) | 热点搜索方法、装置、终端及存储介质 | |
CN111368553A (zh) | 智能词云图数据处理方法、装置、设备及存储介质 | |
CN111222011B (zh) | 一种视频向量确定方法和装置 | |
CN111966803B (zh) | 对话模拟方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |