CN106959976B - 一种搜索处理方法以及装置 - Google Patents

一种搜索处理方法以及装置 Download PDF

Info

Publication number
CN106959976B
CN106959976B CN201610019595.4A CN201610019595A CN106959976B CN 106959976 B CN106959976 B CN 106959976B CN 201610019595 A CN201610019595 A CN 201610019595A CN 106959976 B CN106959976 B CN 106959976B
Authority
CN
China
Prior art keywords
search
search character
variable
sentence pattern
character variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610019595.4A
Other languages
English (en)
Other versions
CN106959976A (zh
Inventor
傅鸿城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610019595.4A priority Critical patent/CN106959976B/zh
Priority to MYPI2017704580A priority patent/MY174218A/en
Priority to PCT/CN2017/070970 priority patent/WO2017121355A1/zh
Priority to JP2017567163A priority patent/JP6457123B2/ja
Priority to KR1020177037274A priority patent/KR102106936B1/ko
Publication of CN106959976A publication Critical patent/CN106959976A/zh
Priority to US15/951,081 priority patent/US10713302B2/en
Application granted granted Critical
Publication of CN106959976B publication Critical patent/CN106959976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种搜索处理方法以及装置,其中方法包括:生成多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将生成次数达到预设的第一次数阈值的搜索字符变量句式添加至常用搜索句式集合中;当获取到当前搜索字符串时,将当前搜索字符串对应的至少一个搜索字符变量句式中属于常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与目标搜索字符变量句式对应的搜索结果数据到客户端。采用本发明,可提高对搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。

Description

一种搜索处理方法以及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种搜索处理方法以及装置。
背景技术
随着互联网和电子设备的发展,越来越多用户会选择通过互联网搜索歌曲进行收听,例如,用户通过客户端在搜索栏中输入“刘德华”时,服务器将会反馈各种与“刘德华”相关的歌曲信息到该客户端,可见通过互联网搜索歌曲可以使用户更方便听到各式各样的歌曲。但是当用户所输入的搜索字符串带有一些口语化时,目前的歌曲搜索方式将无法准确识别该搜索字符串,从而导致所搜索到的歌曲信息不能完全符合用户的期望。例如,若用户输入的搜索字符串为“我要找张国荣的红”,则目前的歌曲搜索方式将会识别出“我”和“红”都是张国荣的歌曲,而且歌曲“我”的点击量要比歌曲“红”更高,即歌曲“我”的优先级更高,因此,通过目前的歌曲搜索方式将会把歌曲“我”输出给用户,但显然用户找的不是歌曲“我”,而是歌曲“红”,由此可见,目前的歌曲搜索方式将无法准确识别该搜索字符串。
发明内容
本发明实施例提供一种搜索处理方法以及装置,可提高对搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。
本发明实施例提供了一种搜索处理方法,包括:
在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串;
根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中;
当获取到客户端发送的当前搜索字符串时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
相应地,本发明实施例还提供了一种搜索处理装置,包括:
第一获取模块,用于在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串;
句式处理模块,用于根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中;
确定发送模块,用于当获取到客户端发送的当前搜索字符串时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
本发明实施例在达到预设的第一时间间隔时,通过获取在所述第一时间间隔内所收集到的多个历史搜索字符串,可以根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中,以保证所述常用搜索句式集合中的搜索字符变量句式都是经常被使用到的句式,即说明所述常用搜索句式集合中的搜索字符变量句式都是更加贴合用户意图的句式,因此,当获取到客户端发送的当前搜索字符串时,可以将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,由于所述目标搜索字符变量句式为最贴合用户意图的句式,所以可以提高对当前搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种搜索处理方法的流程示意图;
图2是本发明实施例提供的另一种搜索处理方法的流程示意图;
图3是本发明实施例提供的其中一种句式处理方法的流程示意图;
图4是本发明实施例提供的一种搜索处理装置的结构示意图;
图5是本发明实施例提供的一种句式处理模块的结构示意图;
图6是本发明实施例提供的一种确定发送模块的结构示意图;
图7是本发明实施例提供的另一种搜索处理装置的结构示意图;
图8是本发明实施例提供的又一种搜索处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种搜索处理方法的流程示意图,所述方法可以包括:
S101,在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串;
具体的,服务器可以在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串,所述多个历史搜索字符串可以指所有客户端在所述第一时间间隔内所输入并上传的所有用户搜索语料。例如,若所述第一时间间隔设为1天,则所述服务器将每天获取一次当天内收集到的所述多个历史搜索字符串。
S102,根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中;
具体的,所述搜索字符变量集合可以包括至少一个字符变量,且每个字符变量分别包括与对应字符变量相关联的搜索字符。例如,所述搜索字符变量集合所包括的字符变量分别为“%歌手%”、“%歌曲%”、“%要%”、“%的%”、“%前缀%”、“%后缀%”;字符变量“%歌手%”所包括的搜索字符可以为后台音乐曲库中的全部歌手名字;字符变量“%歌曲%”所包括的搜索字符可以为后台音乐曲库中的全部歌曲名称;字符变量“%要%”所包括的搜索字符可以分别为:“我要找”、“要找”、“要搜索”等词语,这些搜索字符的语义均与字符变量“%要%”相接近;字符变量“%的%”所包括的搜索字符可以分别为:“的”、“和”等等,这些搜索字符的语义均与字符变量“%的%”相接近;字符变量“%前缀%”所包括的搜索字符可以分别为:“你好”、“麻烦”等等,这些搜索字符的语义均与字符变量“%前缀%”相接近;字符变量“%后缀%”所包括的搜索字符可以分别为:“谢谢”、“多谢”等等,这些搜索字符的语义均与字符变量“%后缀%”相接近。因此,所述服务器可以根据所述搜索字符变量集合中各字符变量所包括的搜索字符对所述多个历史搜索字符串进行识别,以分别将每个历史搜索字符串拆分为至少一个分词字符,并根据所述每个历史搜索字符串的所述至少一个分词字符分别对应的字符变量,生成所述每个历史搜索字符串分别对应的至少一个搜索字符变量句式,每个搜索字符变量句式均由一个或多个字符变量构成。例如,有历史搜索字符串为“我要找张国荣的红”,则根据所述搜索字符变量集合可以将“我要找张国荣的红”拆分为多个分词字符:“我要找”、“张国荣”、“的”、“红”,由于“我要找”对应的字符变量为“%要%”、“张国荣”对应的字符变量为“%歌手%”、“的”对应的字符变量为“%的%”、“红”对应的字符变量为“%歌曲%”,所以可以生成对应的搜索字符变量句式为“%要%%歌手%%的%%歌曲%”;同时,还可以将“我要找张国荣的红”拆分为多个分词字符:“我”、“要找”、“张国荣”、“的”、“红”,由于“我”对应的字符变量为“歌曲”,“要找”对应的字符变量为“%要%”、“张国荣”对应的字符变量为“%歌手%”、“的”对应的字符变量为“%的%”、“红”对应的字符变量为“%歌曲%”,所以还可以生成对应的搜索字符变量句式为“%歌曲%%要%%歌手%%的%%歌曲%”,即历史搜索字符串“我要找张国荣的红”对应有两个搜索字符变量句式。
进一步的,所述服务器可以对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,即每有一个历史搜索字符串生成某搜索字符变量句式,则对该搜索字符变量句式所对应的生成次数加1,以实现对所述生成次数进行累计。例如,若根据所述多个历史搜索字符串统计出某个搜索字符变量句式所对应的生成次数为60,则说明所述多个历史搜索字符串中可生成该搜索字符变量句式的历史搜索字符串数量为60个。又例如,若所述多个历史搜索字符串包括:“要找张国荣的红”、“要找刘德华的忘情水”、“要找吻别”、“要找刘德华”,且历史搜索字符串“要找张国荣的红”对应的搜索字符变量句式为“%要%%歌手%%的%%歌曲%”,历史搜索字符串“要找刘德华的忘情水”对应的搜索字符变量句式为“%要%%歌手%%的%%歌曲%”,历史搜索字符串“要找吻别”对应的搜索字符变量句式为“%要%%歌曲%”,历史搜索字符串“要找刘德华”对应的搜索字符变量句式为“%要%%歌手%”,则可以对搜索字符变量句式“%要%%歌手%%的%%歌曲%”所对应的生成次数加2,对搜索字符变量句式“%要%%歌曲%”所对应的生成次数加1,对搜索字符变量句式“%要%%歌手%”所对应的生成次数加1。
进一步的,所述服务器还可以将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中。例如,预设的第一次数阈值为1000,则在累计出某搜索字符变量句式所对应的生成次数为1000时,可以将该搜索字符变量句式添加到所述常用搜索句式集合中,并后续无需再对该搜索字符变量句式所对应的生成次数进行累计。进一步的,所述服务器将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中的具体过程可以为:所述服务器检测到某搜索字符变量句式对应的生成次数达到所述第一次数阈值时,可以发送消息到管理员客户端,由管理员判断是否将该搜索字符变量句式添加至所述常用搜索句式集合,同时管理员还可以判断是否将与该搜索字符变量句式相关联的搜索字符变量句式添加至垃圾搜索句式集合,所述垃圾搜索句式集合中的搜索字符变量句式均为不再被使用的句式,即无需再对所述常用搜索句式集合和所述垃圾搜索句式集合中的搜索字符变量句式所对应的生成次数进行累计。例如,历史搜索字符串“我要找张国荣的红”可以对应有两个搜索字符变量句式:“%要%%歌手%%的%%歌曲%”、“%歌曲%%要%%歌手%%的%%歌曲%”,当搜索字符变量句式“%要%%歌手%%的%%歌曲%”所对应的生成次数达到预设的第一次数阈值时,管理员可以通过管理员客户端通知服务器将搜索字符变量句式“%要%%歌手%%的%%歌曲%”添加至所述常用搜索句式集合,并通知所述服务器将搜索字符变量句式“%歌曲%%要%%歌手%%的%%歌曲%”添加至所述垃圾搜索句式集合中。
S103,当获取到客户端发送的当前搜索字符串时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端;
具体的,当所述服务器获取到所述客户端发送的当前搜索字符串时,可以将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,由于所述目标搜索字符变量句式为最贴合用户意图的句式,所以可以提高对当前搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。例如,若所述客户端发送的当前搜索字符串为“我要找张国荣的红”时,所述服务器将生成与“我要找张国荣的红”对应的搜索字符变量句式“%要%%歌手%%的%%歌曲%”和“%歌曲%%要%%歌手%%的%%歌曲%”,由于“%要%%歌手%%的%%歌曲%”是属于所述常用搜索句式集合,所以所述服务器将直接把“%要%%歌手%%的%%歌曲%”对应的搜索结果数据到所述客户端,其中,%要%%歌手%%的%%歌曲%”对应的搜索结果数据包括张国荣的“红”这首歌,可见“%要%%歌手%%的%%歌曲%”对应的搜索结果数据是符合用户的期望的,而“%歌曲%%要%%歌手%%的%%歌曲%”对应的搜索结果数据包括张国荣的“我”和“红”两首歌,可见“%歌曲%%要%%歌手%%的%%歌曲%”对应的搜索结果数据并不完全符合用户的期望;其中,由于搜索字符变量句式“%要%%歌手%%的%%歌曲%”比搜索字符变量句式“%歌曲%%要%%歌手%%的%%歌曲%”更贴合用户的语义,所以在大量的历史搜索字符串中生成搜索字符变量句式“%要%%歌手%%的%%歌曲%”的概率要比生成搜索字符变量句式“%歌曲%%要%%歌手%%的%%歌曲%”的概率要高,即搜索字符变量句式“%要%%歌手%%的%%歌曲%”会更先进入所述常用搜索句式集合。
其中,由于可以每隔一段所述第一时间间隔即可执行一次S101和S102,所以可以不断更新所述常用搜索句式集合中的搜索字符变量句式,因此,在执行S103时所获得所述搜索结果数据将会越来越准确,即更加符合用户的期望。
本发明实施例在达到预设的第一时间间隔时,通过获取在所述第一时间间隔内所收集到的多个历史搜索字符串,可以根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中,以保证所述常用搜索句式集合中的搜索字符变量句式都是经常被使用到的句式,即说明所述常用搜索句式集合中的搜索字符变量句式都是更加贴合用户意图的句式,因此,当获取到客户端发送的当前搜索字符串时,可以将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,由于所述目标搜索字符变量句式为最贴合用户意图的句式,所以可以提高对当前搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。
请参见图2,是本发明实施例提供的另一种搜索处理方法的流程示意图,所述方法可以包括:
S201,在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串;
S202,根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中;
S201-S202步骤的具体实现方式可以参见上述图1对应实施例中的S101-S102,这里不再进行赘述。
S203,当获取到客户端发送的当前搜索字符串时,根据所述搜索字符变量集合生成所述当前搜索字符串对应的至少一个搜索字符变量句式;
具体的,当获取到客户端发送的当前搜索字符串时,根据所述搜索字符变量集合生成所述当前搜索字符串对应的至少一个搜索字符变量句式,生成所述搜索字符变量句式的具体过程与上述图1对应实施例中的S102相同。例如,所述搜索字符变量集合所包括的字符变量分别为“%歌手%”、“%歌曲%”、“%要%”、“%的%”、“%前缀%”、“%后缀%”;字符变量“%歌手%”所包括的搜索字符可以为后台音乐曲库中的全部歌手名字;字符变量“%歌曲%”所包括的搜索字符可以为后台音乐曲库中的全部歌曲名称;字符变量“%要%”所包括的搜索字符可以分别为:“我要找”、“要找”、“要搜索”等词语;字符变量“%的%”所包括的搜索字符可以分别为:“的”、“和”等词语;字符变量“%前缀%”所包括的搜索字符可以分别为:“你好”、“麻烦”等词语;字符变量“%后缀%”所包括的搜索字符可以分别为:“谢谢”、“多谢”等词语;若所述当前搜索字符串为“我要找张国荣的红”,则可以生成对应的搜索字符变量句式为“%要%%歌手%%的%%歌曲%”,由于所述当前搜索字符串中的“我”也是张国荣的一首歌名,所以还可以生成对应的搜索字符变量句式为“%歌曲%%要%%歌手%%的%%歌曲%”。
S204,检测所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量;
具体的,所述服务器可以进一步检测所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量,例如,所述当前搜索字符串“我要找张国荣的红”对应有两个搜索字符变量句式,分别为“%要%%歌手%%的%%歌曲%”、“%歌曲%%要%%歌手%%的%%歌曲%”,其中,只有搜索字符变量句式“%要%%歌手%%的%%歌曲%”属于所述常用搜索句式集合,因此,可以检测出所述当前搜索字符串“我要找张国荣的红”对应的2个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为1。
S205,当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为一个时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端;
具体的,当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为一个时,所述服务器可以将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,由于所述目标搜索字符变量句式为最贴合用户意图的句式,所以可以提高对当前搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。例如,若所述客户端发送的当前搜索字符串为“我要找张国荣的红”时,所述服务器将生成与“我要找张国荣的红”对应的搜索字符变量句式“%要%%歌手%%的%%歌曲%”和“%歌曲%%要%%歌手%%的%%歌曲%”,由于“%要%%歌手%%的%%歌曲%”是属于所述常用搜索句式集合,所以所述服务器将直接把“%要%%歌手%%的%%歌曲%”对应的搜索结果数据到所述客户端,其中,%要%%歌手%%的%%歌曲%”对应的搜索结果数据包括张国荣的“红”这首歌,可见“%要%%歌手%%的%%歌曲%”对应的搜索结果数据是符合用户的期望的,而“%歌曲%%要%%歌手%%的%%歌曲%”对应的搜索结果数据包括张国荣的“我”和“红”两首歌,可见“%歌曲%%要%%歌手%%的%%歌曲%”对应的搜索结果数据并不完全符合用户的期望;其中,由于搜索字符变量句式“%要%%歌手%%的%%歌曲%”比搜索字符变量句式“%歌曲%%要%%歌手%%的%%歌曲%”更贴合用户的语义,所以在大量的历史搜索字符串中生成搜索字符变量句式“%要%%歌手%%的%%歌曲%”的概率要比生成搜索字符变量句式“%歌曲%%要%%歌手%%的%%歌曲%”的概率要高,即搜索字符变量句式“%要%%歌手%%的%%歌曲%”会更先进入所述常用搜索句式集合中。
可选的,当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为零时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中具有最多生成次数的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
可选的,当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量大于一个时,获取所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的多个搜索字符变量句式分别对应的热度排行信息,并根据所述热度排行信息将具有最高热度排行的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。例如,所述当前搜索字符串为“我要找ABC”,其中“ABC”即可以是歌手名字,又可以是歌曲名字,所以所述当前搜索字符串为“我要找ABC”对应的搜索字符变量句式可以分别为:“%要%%歌手%”和“%要%%歌曲%”,若所述搜索字符变量句式“%要%%歌手%”和“%要%%歌曲%”都属于所述常用搜索句式集合,则可以获取“ABC”作为歌手时的用户点击量(即热度排行信息),并获取“ABC”作为歌曲时的用户点击量,并进一步比较两个用户点击量的大小,若“ABC”作为歌曲时的用户点击量较大,则将“%要%%歌曲%”对应的搜索结果数据(即将名称为“ABC”的歌曲作为搜索结果数据)发送到所述客户端。
S206,当达到预设的第二时间间隔时,获取所述常用搜索句式集合和预设的待定句式集合中的所有搜索字符变量句式;
具体的,当达到预设的第二时间间隔时,所述服务器可以获取所述常用搜索句式集合和预设的待定句式集合中的所有搜索字符变量句式,所述待定句式集合是用于存储未被添加至所述常用搜索句式集合的搜索字符变量句式,即在S202中生成所述历史搜索字符串对应的至少一个搜索字符变量句式时,可以将不属于所述常用搜索句式集合且还未出现在所述待定句式集合中的搜索字符变量句式添加至所述待定句式集合中,并将该搜索字符变量句式所对应的生成次数设置为1,此后每生成一次该搜索字符变量句式就对所对应的生成次数加1,直至该搜索字符变量句式所对应的生成次数达到所述第一次数阈值时将该搜索字符变量句式从所述待定句式集合转移至所述常用搜索句式集合。
S207,根据在所述第二时间间隔内所收集到的所有历史搜索字符串,重新统计所述所有搜索字符变量句式中每个搜索字符变量句式所对应的新生成次数,并将所述新生成次数低于预设的第三次数阈值的搜索字符变量句式删除;
具体的,所述服务器可以根据在所述第二时间间隔内所收集到的所有历史搜索字符串所对应的搜索字符变量句式,重新统计所述所有搜索字符变量句式中每个搜索字符变量句式所对应的新生成次数,并将所述新生成次数低于预设的第三次数阈值的搜索字符变量句式删除,以保证所述待定句式集合和所述常用搜索句式集合中的搜索字符变量句式不会越来越多,以避免引擎的资源过于庞大。例如,若所述第二时间间隔为一个月,则所述服务器每个月定时删除一次当月不经常被使用的搜索字符变量句式;再以某个月为例,所述服务器所获取的当前的所述常用搜索句式集合和所述待定句式集合中的所有搜索字符变量句式包括A、B、C、D、E、F,再获取该月的所有历史搜索字符串,若根据该月的所有历史搜索字符串生成1次A、生成10次C、生成5次E、生成8次F,则A所对应的新生成次数为1、B所对应的新生成次数为0、C所对应的新生成次数为10、D所对应的新生成次数为0、E所对应的新生成次数为5、F所对应的新生成次数为8,若预设的所述第三次数阈值为2,则将搜索字符变量句式A、B、D删除。
本发明实施例在达到预设的第一时间间隔时,通过获取在所述第一时间间隔内所收集到的多个历史搜索字符串,可以根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中,以保证所述常用搜索句式集合中的搜索字符变量句式都是经常被使用到的句式,即说明所述常用搜索句式集合中的搜索字符变量句式都是更加贴合用户意图的句式,因此,当获取到客户端发送的当前搜索字符串时,可以将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,由于所述目标搜索字符变量句式为最贴合用户意图的句式,所以可以提高对当前搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。
再请参见图3,是本发明实施例提供的其中一种句式处理方法的流程示意图。本发明实施例的所述方法可对应于上述图1对应的实施例中的S102或者图2对应的实施例中的S202,所述方法具体包括:
S301,根据所述搜索字符变量集合中的所述搜索字符对所述多个历史搜索字符串进行识别,以分别将每个历史搜索字符串拆分为至少一个分词字符;
具体的,所述搜索字符变量集合可以包括至少一个字符变量,且每个字符变量分别包括与对应字符变量相关联的搜索字符。例如,所述搜索字符变量集合所包括的字符变量分别为“%歌手%”、“%歌曲%”、“%要%”、“%的%”、“%前缀%”、“%后缀%”;字符变量“%歌手%”所包括的搜索字符可以为后台音乐曲库中的全部歌手名字;字符变量“%歌曲%”所包括的搜索字符可以为后台音乐曲库中的全部歌曲名称;字符变量“%要%”所包括的搜索字符可以分别为:“我要找”、“要找”、“要搜索”等词语,这些搜索字符的语义均与字符变量“%要%”相接近;字符变量“%的%”所包括的搜索字符可以分别为:“的”、“和”等等,这些搜索字符的语义均与字符变量“%的%”相接近;字符变量“%前缀%”所包括的搜索字符可以分别为:“你好”、“麻烦”等等,这些搜索字符的语义均与字符变量“%前缀%”相接近;字符变量“%后缀%”所包括的搜索字符可以分别为:“谢谢”、“多谢”等等,这些搜索字符的语义均与字符变量“%后缀%”相接近。因此,所述服务器可以根据所述搜索字符变量集合中各字符变量所包括的搜索字符对所述多个历史搜索字符串进行识别,以分别将每个历史搜索字符串拆分为至少一个分词字符。例如,有历史搜索字符串为“要找张国荣的红”,则根据所述搜索字符变量集合可以将“要找张国荣的红”拆分为多个分词字符:“要找”、“张国荣”、“的”、“红”。
S302,将所述多个历史搜索字符串中所述至少一个分词字符均存在对应的字符变量的历史搜索字符串确定为第一类历史搜索字符串;
具体的,所述服务器分别将每个历史搜索字符串拆分为至少一个分词字符后,可以检测每个历史搜索字符串对应的至少一个分词字符是否都有对应的字符变量,并将所述多个历史搜索字符串中所述至少一个分词字符均存在对应的字符变量的历史搜索字符串确定为第一类历史搜索字符串。例如,历史搜索字符串“要找张国荣的红”对应的多个分词字符分别为“要找”、“张国荣”、“的”、“红”,由于“要找”对应的字符变量为“%要%”、“张国荣”对应的字符变量为“%歌手%”、“的”对应的字符变量为“%的%”、“红”对应的字符变量为“%歌曲%”,说明每个分词字符均有对应的字符变量,所以可以将历史搜索字符串“要找张国荣的红”确定为第一类历史搜索字符串。
S303,根据所述第一类历史搜索字符串对应的每个字符变量,生成所述第一类历史搜索字符串对应的至少一个由所述每个字符变量构成的为全变量类型的搜索字符变量句式;
具体的,如果有多个第一类历史搜索字符串,则可以根据每个第一类历史搜索字符串分别对应的每个字符变量,生成每个第一类历史搜索字符串分别对应的至少一个完全由字符变量构成的为全变量类型的搜索字符变量句式。以某一个第一类历史搜索字符串“要找张国荣的红”为例,“要找张国荣的红”对应的每个字符变量分别为“%要%”、“%歌手%”、“%的%”、“%歌曲%”,则可以生成由对应的每个字符变量构成的为全变量类型的搜索字符变量句式:“%要%%歌手%%的%%歌曲%”。所述全变量类型的搜索字符变量句式是指完全由字符变量构成的搜索字符变量句式。
S304,对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中;
具体的,所述服务器可以对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为所述全变量类型的搜索字符变量句式所对应的生成次数进行累计,即每有一个历史搜索字符串生成某为所述全变量类型的搜索字符变量句式,则对该为所述全变量类型的搜索字符变量句式所对应的生成次数加1,以实现对所述生成次数进行累计。例如,若根据所述多个历史搜索字符串统计出某个为所述全变量类型的搜索字符变量句式所对应的生成次数为60,则说明所述多个历史搜索字符串中可生成该为所述全变量类型的搜索字符变量句式的历史搜索字符串数量为60个。又例如,若所述多个历史搜索字符串包括:“要找张国荣的红”、“要找刘德华的忘情水”、“要找吻别”、“要找刘德华”,且历史搜索字符串“要找张国荣的红”对应的为所述全变量类型的搜索字符变量句式为“%要%%歌手%%的%%歌曲%”,历史搜索字符串“要找刘德华的忘情水”对应的为所述全变量类型的搜索字符变量句式为“%要%%歌手%%的%%歌曲%”,历史搜索字符串“要找吻别”对应的为所述全变量类型的搜索字符变量句式为“%要%%歌曲%”,历史搜索字符串“要找刘德华”对应的为所述全变量类型的搜索字符变量句式为“%要%%歌手%”,则可以对为所述全变量类型的搜索字符变量句式“%要%%歌手%%的%%歌曲%”所对应的生成次数加2,对为所述全变量类型的搜索字符变量句式“%要%%歌曲%”所对应的生成次数加1,对为所述全变量类型的搜索字符变量句式“%要%%歌手%”所对应的生成次数加1。
进一步的,所述服务器还可以将所述生成次数达到预设的第一次数阈值的为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。例如,预设的第一次数阈值为1000,则在累计出某为所述全变量类型的搜索字符变量句式所对应的生成次数为1000时,可以将该为所述全变量类型的搜索字符变量句式添加到所述常用搜索句式集合中,并后续无需再对该为所述全变量类型的搜索字符变量句式所对应的生成次数进行累计。进一步的,所述服务器将所述生成次数达到预设的第一次数阈值的为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中的具体过程可以为:所述服务器检测到某为所述全变量类型的搜索字符变量句式对应的生成次数达到所述第一次数阈值时,可以发送消息到管理员客户端,由管理员判断是否将该为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合,同时管理员还可以判断是否将与该为所述全变量类型的搜索字符变量句式相关联的搜索字符变量句式添加至垃圾搜索句式集合,所述垃圾搜索句式集合中的搜索字符变量句式均为不再被使用的句式,即无需再对所述常用搜索句式集合和所述垃圾搜索句式集合中的搜索字符变量句式所对应的生成次数进行累计。例如,历史搜索字符串“我要找张国荣的红”可以对应有两个为所述全变量类型的搜索字符变量句式:“%要%%歌手%%的%%歌曲%”、“%歌曲%%要%%歌手%%的%%歌曲%”,当搜索字符变量句式“%要%%歌手%%的%%歌曲%”所对应的生成次数达到预设的第一次数阈值时,管理员可以通过管理员客户端通知服务器将搜索字符变量句式“%要%%歌手%%的%%歌曲%”添加至所述常用搜索句式集合,并通知所述服务器将搜索字符变量句式“%歌曲%%要%%歌手%%的%%歌曲%”添加至所述垃圾搜索句式集合中。
S305,将所述多个历史搜索字符串中所述至少一个分词字符不是均存在对应的字符变量的历史搜索字符串确定为第二类历史搜索字符串,并将所述第二类历史搜索字符串中不存在对应的字符变量的分词字符确定为第一分词字符,并将所述第二类历史搜索字符串中存在对应的字符变量的分词字符确定为第二分词字符;
具体的,在统计完为所述全变量类型的搜索字符变量句式后,所述服务器可以进一步将所述多个历史搜索字符串中所述至少一个分词字符不是均存在对应的字符变量的历史搜索字符串确定为第二类历史搜索字符串,并将所述第二类历史搜索字符串中不存在对应的字符变量的分词字符确定为第一分词字符,并将所述第二类历史搜索字符串中存在对应的字符变量的分词字符确定为第二分词字符。例如,历史搜索字符串“想要张国荣的红”,由于分词字符“想要”不属于所述搜索字符变量集合中的任一个字符变量,“张国荣”对应的字符变量为%歌手%,“的”对应的字符变量为%的%,“红”对应的字符变量为%歌曲%,所以可以将历史搜索字符串“想要张国荣的红”确定为第二类历史搜索字符串,并将分词字符“想要”确定为第一分词字符,将分词字符“张国荣”、“的”、“红”确定为第二分词字符。
S306,生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符以及所述第二分词字符对应的字符变量构成的为非全变量类型的搜索字符变量句式;
具体的,如果有多个第二类历史搜索字符串,则可以生成每个第二类历史搜索字符串分别对应的至少一个由各自的第一分词字符以及各自的第二分词字符对应的字符变量构成的为非全变量类型的搜索字符变量句式。以某一个第二类历史搜索字符串“想要张国荣的红”为例,第一分词字符包括“想要”,第二分词字符包括“张国荣”、“的”、“红”,且“张国荣”对应的字符变量为%歌手%,“的”对应的字符变量为%的%,“红”对应的字符变量为%歌曲%,因此,可以生成“想要张国荣的红”对应的由所述第一分词字符以及所述第二分词字符对应的字符变量构成的为非全变量类型的搜索字符变量句式:“想要%歌手%%的%%歌曲%”。为所述非全变量类型的搜索字符变量句式是指不完全由字符变量构成的搜索字符变量句式。
S307,对至少一个为所述非全变量类型的搜索字符变量句式分别对应的生成次数进行累计,并在所述至少一个为所述非全变量类型的搜索字符变量句式中存在所述生成次数达到预设的第二次数阈值的搜索字符变量句式时,将所述第一分词字符添加至已有的字符变量或新创建的字符变量中;
具体的,每当有一个第二类历史搜索字符串生成为某个为所述非全变量类型的搜索字符变量句式时,则对该为所述非全变量类型的搜索字符变量句式所对应的生成次数加1,即进行累计,当该为所述非全变量类型的搜索字符变量句式所对应的生成次数达到所述第二次数阈值时,可以将所述第一分词字符添加至已有的字符变量或新创建的字符变量中。例如,若第二类历史搜索字符串“想要张国荣的红”对应的为所述非全变量类型的搜索字符变量句式为“想要%歌手%%的%%歌曲%”,且所述第二次数阈值为500,则当“想要%歌手%%的%%歌曲%”所对应的生成次数达到500次时,说明有500个第二类历史搜索字符串可以生成“想要%歌手%%的%%歌曲%”,此时,可以通过人工将第一分词字符“想要”添加到已有的字符变量%要%,或者人工创建一个新的字符变量%想要%,并将第一分词字符“想要”添加至新的字符变量%想要%中。
S308,生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符对应的字符变量以及所述第二分词字符对应的字符变量构成的为所述全变量类型的搜索字符变量句式;
具体的,当所述第一分词字符有对应的字符变量后,可以生成所有包含所述第一分词字符的第二类历史搜索字符串分别对应的至少一个由所述第一分词字符对应的字符变量以及各自的第二分词字符对应的字符变量构成的为所述全变量类型的搜索字符变量句式,并重新执行S304中的对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。例如,若第一分词字符“想要”对应的字符变量为%要%,则可以生成第二类历史搜索字符串“想要张国荣的红”对应的为所述全变量类型的搜索字符变量句式“%要%%歌手%%的%%歌曲%”,并对已有的“%要%%歌手%%的%%歌曲%”所对应的生成次数加1(若S304中已统计出“%要%%歌手%%的%%歌曲%”所对应的生成次数为560,则此时可以将该生成次数累计为561),也可以生成第二类历史搜索字符串“想要张国荣”对应的为所述全变量类型的搜索字符变量句式“%要%%歌手%”,也对已有的“%要%%歌手%”所对应的生成次数加1。
本发明实施例通过根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,可以将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中,以保证所述常用搜索句式集合中的搜索字符变量句式都是经常被使用到的句式,即说明所述常用搜索句式集合中的搜索字符变量句式都是更加贴合用户意图的句式;而且在生成搜索字符变量句式时,还可以将搜索字符变量句式分为全变量类型和非全变量类型,并对非全变量类型的搜索字符变量句式进行单独的统计,以对未有对应字符变量的分词字符分配对应的字符变量或为未有对应字符变量的分词字符创建新的字符变量,以保证可以根据搜索字符变量集合识别更多的词语,以进一步提高对用户所输入的搜索字符串的识别准确度。
请参见图4,是本发明实施例提供的一种搜索处理装置的结构示意图,所述搜索处理装置1可以包括:第一获取模块10、句式处理模块20、确定发送模块30;
所述第一获取模块10,用于在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串;
具体的,所述第一获取模块10可以在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串,所述多个历史搜索字符串可以指所有客户端在所述第一时间间隔内所输入并上传的所有用户搜索语料。例如,若所述第一时间间隔设为1天,则所述第一获取模块10将每天获取一次当天内收集到的所述多个历史搜索字符串。
所述句式处理模块20,用于根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中;
具体的,再请一并参见图5,是所述句式处理模块20的结构示意图,所述句式处理模块20可以包括:识别拆分单元201、字符确定单元202、第一生成单元203、累计添加单元204、第二生成单元205、生成通知单元206;
所述识别拆分单元201,用于根据所述搜索字符变量集合中的所述搜索字符对所述多个历史搜索字符串进行识别,以分别将每个历史搜索字符串拆分为至少一个分词字符;
具体的,所述搜索字符变量集合可以包括至少一个字符变量,且每个字符变量分别包括与对应字符变量相关联的搜索字符。例如,所述搜索字符变量集合所包括的字符变量分别为“%歌手%”、“%歌曲%”、“%要%”、“%的%”、“%前缀%”、“%后缀%”;字符变量“%歌手%”所包括的搜索字符可以为后台音乐曲库中的全部歌手名字;字符变量“%歌曲%”所包括的搜索字符可以为后台音乐曲库中的全部歌曲名称;字符变量“%要%”所包括的搜索字符可以分别为:“我要找”、“要找”、“要搜索”等词语,这些搜索字符的语义均与字符变量“%要%”相接近;字符变量“%的%”所包括的搜索字符可以分别为:“的”、“和”等等,这些搜索字符的语义均与字符变量“%的%”相接近;字符变量“%前缀%”所包括的搜索字符可以分别为:“你好”、“麻烦”等等,这些搜索字符的语义均与字符变量“%前缀%”相接近;字符变量“%后缀%”所包括的搜索字符可以分别为:“谢谢”、“多谢”等等,这些搜索字符的语义均与字符变量“%后缀%”相接近。因此,所述识别拆分单元201可以根据所述搜索字符变量集合中各字符变量所包括的搜索字符对所述多个历史搜索字符串进行识别,以分别将每个历史搜索字符串拆分为至少一个分词字符。例如,有历史搜索字符串为“要找张国荣的红”,则所述识别拆分单元201根据所述搜索字符变量集合可以将“要找张国荣的红”拆分为多个分词字符:“要找”、“张国荣”、“的”、“红”。
所述字符确定单元202,用于将所述多个历史搜索字符串中所述至少一个分词字符均存在对应的字符变量的历史搜索字符串确定为第一类历史搜索字符串;
具体的,所述识别拆分单元201分别将每个历史搜索字符串拆分为至少一个分词字符后,所述字符确定单元202可以检测每个历史搜索字符串对应的至少一个分词字符是否都有对应的字符变量,并将所述多个历史搜索字符串中所述至少一个分词字符均存在对应的字符变量的历史搜索字符串确定为第一类历史搜索字符串。例如,历史搜索字符串“要找张国荣的红”对应的多个分词字符分别为“要找”、“张国荣”、“的”、“红”,由于“要找”对应的字符变量为“%要%”、“张国荣”对应的字符变量为“%歌手%”、“的”对应的字符变量为“%的%”、“红”对应的字符变量为“%歌曲%”,说明每个分词字符均有对应的字符变量,所以所述字符确定单元202可以将历史搜索字符串“要找张国荣的红”确定为第一类历史搜索字符串。
所述第一生成单元203,用于根据所述第一类历史搜索字符串对应的每个字符变量,生成所述第一类历史搜索字符串对应的至少一个由所述每个字符变量构成的为全变量类型的搜索字符变量句式;
具体的,如果有多个第一类历史搜索字符串,则所述第一生成单元203可以根据每个第一类历史搜索字符串分别对应的每个字符变量,生成每个第一类历史搜索字符串分别对应的至少一个完全由字符变量构成的为全变量类型的搜索字符变量句式。以某一个第一类历史搜索字符串“要找张国荣的红”为例,“要找张国荣的红”对应的每个字符变量分别为“%要%”、“%歌手%”、“%的%”、“%歌曲%”,则所述第一生成单元203可以生成由对应的每个字符变量构成的为全变量类型的搜索字符变量句式:“%要%%歌手%%的%%歌曲%”。所述全变量类型的搜索字符变量句式是指完全由字符变量构成的搜索字符变量句式。
所述累计添加单元204,用于对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中;
具体的,所述累计添加单元204可以对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为所述全变量类型的搜索字符变量句式所对应的生成次数进行累计,即每有一个历史搜索字符串生成某为所述全变量类型的搜索字符变量句式,则对该为所述全变量类型的搜索字符变量句式所对应的生成次数加1,以实现对所述生成次数进行累计。例如,若根据所述多个历史搜索字符串统计出某个为所述全变量类型的搜索字符变量句式所对应的生成次数为60,则说明所述多个历史搜索字符串中可生成该为所述全变量类型的搜索字符变量句式的历史搜索字符串数量为60个。又例如,若所述多个历史搜索字符串包括:“要找张国荣的红”、“要找刘德华的忘情水”、“要找吻别”、“要找刘德华”,且历史搜索字符串“要找张国荣的红”对应的为所述全变量类型的搜索字符变量句式为“%要%%歌手%%的%%歌曲%”,历史搜索字符串“要找刘德华的忘情水”对应的为所述全变量类型的搜索字符变量句式为“%要%%歌手%%的%%歌曲%”,历史搜索字符串“要找吻别”对应的为所述全变量类型的搜索字符变量句式为“%要%%歌曲%”,历史搜索字符串“要找刘德华”对应的为所述全变量类型的搜索字符变量句式为“%要%%歌手%”,则所述累计添加单元204可以对为所述全变量类型的搜索字符变量句式“%要%%歌手%%的%%歌曲%”所对应的生成次数加2,对为所述全变量类型的搜索字符变量句式“%要%%歌曲%”所对应的生成次数加1,对为所述全变量类型的搜索字符变量句式“%要%%歌手%”所对应的生成次数加1。
进一步的,所述累计添加单元204还可以将所述生成次数达到预设的第一次数阈值的为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。例如,预设的第一次数阈值为1000,则在累计出某为所述全变量类型的搜索字符变量句式所对应的生成次数为1000时,所述累计添加单元204可以将该为所述全变量类型的搜索字符变量句式添加到所述常用搜索句式集合中,并后续无需再对该为所述全变量类型的搜索字符变量句式所对应的生成次数进行累计。进一步的,所述累计添加单元204将所述生成次数达到预设的第一次数阈值的为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中的具体过程可以为:所述累计添加单元204检测到某为所述全变量类型的搜索字符变量句式对应的生成次数达到所述第一次数阈值时,可以发送消息到管理员客户端,由管理员判断是否将该为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合,同时管理员还可以判断是否将与该为所述全变量类型的搜索字符变量句式相关联的搜索字符变量句式添加至垃圾搜索句式集合,所述垃圾搜索句式集合中的搜索字符变量句式均为不再被使用的句式,即无需再对所述常用搜索句式集合和所述垃圾搜索句式集合中的搜索字符变量句式所对应的生成次数进行累计。例如,历史搜索字符串“我要找张国荣的红”可以对应有两个为所述全变量类型的搜索字符变量句式:“%要%%歌手%%的%%歌曲%”、“%歌曲%%要%%歌手%%的%%歌曲%”,当搜索字符变量句式“%要%%歌手%%的%%歌曲%”所对应的生成次数达到预设的第一次数阈值时,所述累计添加单元204可以将搜索字符变量句式“%要%%歌手%%的%%歌曲%”添加至所述常用搜索句式集合,并将搜索字符变量句式“%歌曲%%要%%歌手%%的%%歌曲%”添加至所述垃圾搜索句式集合中。
所述字符确定单元202,还用于将所述多个历史搜索字符串中所述至少一个分词字符不是均存在对应的字符变量的历史搜索字符串确定为第二类历史搜索字符串,并将所述第二类历史搜索字符串中不存在对应的字符变量的分词字符确定为第一分词字符,并将所述第二类历史搜索字符串中存在对应的字符变量的分词字符确定为第二分词字符;
具体的,在统计完为所述全变量类型的搜索字符变量句式后,所述字符确定单元202可以进一步将所述多个历史搜索字符串中所述至少一个分词字符不是均存在对应的字符变量的历史搜索字符串确定为第二类历史搜索字符串,并将所述第二类历史搜索字符串中不存在对应的字符变量的分词字符确定为第一分词字符,并将所述第二类历史搜索字符串中存在对应的字符变量的分词字符确定为第二分词字符。例如,历史搜索字符串“想要张国荣的红”,由于分词字符“想要”不属于所述搜索字符变量集合中的任一个字符变量,“张国荣”对应的字符变量为%歌手%,“的”对应的字符变量为%的%,“红”对应的字符变量为%歌曲%,所以所述字符确定单元202可以将历史搜索字符串“想要张国荣的红”确定为第二类历史搜索字符串,并将分词字符“想要”确定为第一分词字符,将分词字符“张国荣”、“的”、“红”确定为第二分词字符。
所述第二生成单元205,用于生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符以及所述第二分词字符对应的字符变量构成的为非全变量类型的搜索字符变量句式;
具体的,如果有多个第二类历史搜索字符串,则所述第二生成单元205可以生成每个第二类历史搜索字符串分别对应的至少一个由各自的第一分词字符以及各自的第二分词字符对应的字符变量构成的为非全变量类型的搜索字符变量句式。以某一个第二类历史搜索字符串“想要张国荣的红”为例,第一分词字符包括“想要”,第二分词字符包括“张国荣”、“的”、“红”,且“张国荣”对应的字符变量为%歌手%,“的”对应的字符变量为%的%,“红”对应的字符变量为%歌曲%,因此,所述第二生成单元205可以生成“想要张国荣的红”对应的由所述第一分词字符以及所述第二分词字符对应的字符变量构成的为非全变量类型的搜索字符变量句式:“想要%歌手%%的%%歌曲%”。为所述非全变量类型的搜索字符变量句式是指不完全由字符变量构成的搜索字符变量句式。
所述累计添加单元204,还用于对至少一个为所述非全变量类型的搜索字符变量句式分别对应的生成次数进行累计,并在所述至少一个为所述非全变量类型的搜索字符变量句式中存在所述生成次数达到预设的第二次数阈值的搜索字符变量句式时,将所述第一分词字符添加至已有的字符变量或新创建的字符变量中;
具体的,每当有一个第二类历史搜索字符串生成为某个为所述非全变量类型的搜索字符变量句式时,则所述累计添加单元204对该为所述非全变量类型的搜索字符变量句式所对应的生成次数加1,即进行累计,当该为所述非全变量类型的搜索字符变量句式所对应的生成次数达到所述第二次数阈值时,所述累计添加单元204可以将所述第一分词字符添加至已有的字符变量或新创建的字符变量中。例如,若第二类历史搜索字符串“想要张国荣的红”对应的为所述非全变量类型的搜索字符变量句式为“想要%歌手%%的%%歌曲%”,且所述第二次数阈值为500,则当“想要%歌手%%的%%歌曲%”所对应的生成次数达到500次时,说明有500个第二类历史搜索字符串可以生成“想要%歌手%%的%%歌曲%”,此时,所述累计添加单元204可以将第一分词字符“想要”添加到已有的字符变量%要%,或者人工创建一个新的字符变量%想要%,并将第一分词字符“想要”添加至新的字符变量%想要%中。
所述生成通知单元206,用于生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符对应的字符变量以及所述第二分词字符对应的字符变量构成的为所述全变量类型的搜索字符变量句式,并通知所述累计添加单元204重新对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中;
具体的,当所述第一分词字符有对应的字符变量后,所述生成通知单元206可以生成所有包含所述第一分词字符的第二类历史搜索字符串分别对应的至少一个由所述第一分词字符对应的字符变量以及各自的第二分词字符对应的字符变量构成的为所述全变量类型的搜索字符变量句式,并通知所述累计添加单元204重新对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。例如,若第一分词字符“想要”对应的字符变量为%要%,则所述生成通知单元206可以生成第二类历史搜索字符串“想要张国荣的红”对应的为所述全变量类型的搜索字符变量句式“%要%%歌手%%的%%歌曲%”,并通知所述累计添加单元204对已有的“%要%%歌手%%的%%歌曲%”所对应的生成次数加1,所述生成通知单元206也可以生成第二类历史搜索字符串“想要张国荣”对应的为所述全变量类型的搜索字符变量句式“%要%%歌手%”,也通知所述累计添加单元204对已有的“%要%%歌手%”所对应的生成次数加1。
所述确定发送模块30,用于当获取到客户端发送的当前搜索字符串时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端;
具体的,再请一并参见图6,是所述确定发送模块30的结构示意图,所述确定发送模块30可以包括:句式生成单元301、数量检测单元302、句式确定发送单元303;
所述句式生成单元301,用于当获取到客户端发送的当前搜索字符串时,根据所述搜索字符变量集合生成所述当前搜索字符串对应的至少一个搜索字符变量句式;
具体的,当获取到客户端发送的当前搜索字符串时,所述句式生成单元301根据所述搜索字符变量集合生成所述当前搜索字符串对应的至少一个搜索字符变量句式。例如,若所述当前搜索字符串为“我要找张国荣的红”,则所述句式生成单元301可以生成对应的搜索字符变量句式为“%要%%歌手%%的%%歌曲%”,由于所述当前搜索字符串中的“我”也是张国荣的一首歌名,所以所述句式生成单元301还可以生成对应的搜索字符变量句式为“%歌曲%%要%%歌手%%的%%歌曲%”。其中,所述当前搜索字符串对应的至少一个搜索字符变量句式可以为至少一个为所述全变量类型的搜索字符变量句式和/或至少一个为所述非全变量类型的搜索字符变量句式。
所述数量检测单元302,用于检测所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量;
具体的,所述数量检测单元302可以进一步检测所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量,例如,所述当前搜索字符串“我要找张国荣的红”对应有两个搜索字符变量句式,分别为“%要%%歌手%%的%%歌曲%”、“%歌曲%%要%%歌手%%的%%歌曲%”,其中,只有搜索字符变量句式“%要%%歌手%%的%%歌曲%”属于所述常用搜索句式集合,因此,所述数量检测单元302可以检测出所述当前搜索字符串“我要找张国荣的红”对应的2个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为1。
所述句式确定发送单元303,用于当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为一个时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端;
具体的,当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为一个时,所述句式确定发送单元303可以将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,由于所述目标搜索字符变量句式为最贴合用户意图的句式,所以可以提高对当前搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。例如,若所述客户端发送的当前搜索字符串为“我要找张国荣的红”时,所述服务器将生成与“我要找张国荣的红”对应的搜索字符变量句式“%要%%歌手%%的%%歌曲%”和“%歌曲%%要%%歌手%%的%%歌曲%”,由于“%要%%歌手%%的%%歌曲%”是属于所述常用搜索句式集合,所以所述句式确定发送单元303将直接把“%要%%歌手%%的%%歌曲%”对应的搜索结果数据到所述客户端,其中,%要%%歌手%%的%%歌曲%”对应的搜索结果数据包括张国荣的“红”这首歌,可见“%要%%歌手%%的%%歌曲%”对应的搜索结果数据是符合用户的期望的,而“%歌曲%%要%%歌手%%的%%歌曲%”对应的搜索结果数据包括张国荣的“我”和“红”两首歌,可见“%歌曲%%要%%歌手%%的%%歌曲%”对应的搜索结果数据并不完全符合用户的期望;其中,由于搜索字符变量句式“%要%%歌手%%的%%歌曲%”比搜索字符变量句式“%歌曲%%要%%歌手%%的%%歌曲%”更贴合用户的语义,所以在大量的历史搜索字符串中生成搜索字符变量句式“%要%%歌手%%的%%歌曲%”的概率要比生成搜索字符变量句式“%歌曲%%要%%歌手%%的%%歌曲%”的概率要高,即搜索字符变量句式“%要%%歌手%%的%%歌曲%”会更先进入所述常用搜索句式集合中。
其中,所述句式确定发送单元303,还用于当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为零时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中具有最多生成次数的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端;
其中,所述句式确定发送单元303,还用于当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量大于一个时,获取所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的多个搜索字符变量句式分别对应的热度排行信息,并根据所述热度排行信息将具有最高热度排行的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。例如,所述当前搜索字符串为“我要找ABC”,其中“ABC”即可以是歌手名字,又可以是歌曲名字,所以所述当前搜索字符串为“我要找ABC”对应的搜索字符变量句式可以分别为:“%要%%歌手%”和“%要%%歌曲%”,若所述搜索字符变量句式“%要%%歌手%”和“%要%%歌曲%”都属于所述常用搜索句式集合,则所述句式确定发送单元303可以获取“ABC”作为歌手时的用户点击量(即热度排行信息),并获取“ABC”作为歌曲时的用户点击量,并进一步比较两个用户点击量的大小,若“ABC”作为歌曲时的用户点击量较大,则所述句式确定发送单元303将“%要%%歌曲%”对应的搜索结果数据(即将名称为“ABC”的歌曲作为搜索结果数据)发送到所述客户端。
本发明实施例在达到预设的第一时间间隔时,通过获取在所述第一时间间隔内所收集到的多个历史搜索字符串,可以根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中,以保证所述常用搜索句式集合中的搜索字符变量句式都是经常被使用到的句式,即说明所述常用搜索句式集合中的搜索字符变量句式都是更加贴合用户意图的句式,因此,当获取到客户端发送的当前搜索字符串时,可以将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,由于所述目标搜索字符变量句式为最贴合用户意图的句式,所以可以提高对当前搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。
再请参见图7,是本发明实施例提供的另一种搜索处理装置的结构示意图,所述搜索处理装置1可以包括上述图4对应实施例中的第一获取模块10、句式处理模块20、确定发送模块30,进一步的,所述搜索处理装置1还可以包括:第二获取模块40、检测删除模块50;
所述第二获取模块40,用于当达到预设的第二时间间隔时,获取所述常用搜索句式集合和预设的待定句式集合中的所有搜索字符变量句式;所述待定句式集合是用于存储未被添加至所述常用搜索句式集合的搜索字符变量句式;
具体的,当达到预设的第二时间间隔时,所述第二获取模块40可以获取所述常用搜索句式集合和预设的待定句式集合中的所有搜索字符变量句式,所述待定句式集合是用于存储未被添加至所述常用搜索句式集合的搜索字符变量句式,即所述句式处理模块20在生成所述历史搜索字符串对应的至少一个搜索字符变量句式时,所述句式处理模块20可以将不属于所述常用搜索句式集合且还未出现在所述待定句式集合中的为所述全变量类型的搜索字符变量句式添加至所述待定句式集合中,并将该为所述全变量类型的搜索字符变量句式所对应的生成次数设置为1,此后每生成一次该为所述全变量类型的搜索字符变量句式就对所对应的生成次数加1,直至该为所述全变量类型的搜索字符变量句式所对应的生成次数达到所述第一次数阈值时将该为所述全变量类型的搜索字符变量句式从所述待定句式集合转移至所述常用搜索句式集合;所述句式处理模块20还可以将不属于所述常用搜索句式集合且还未出现在所述待定句式集合中的为所述非全变量类型的搜索字符变量句式也添加至所述待定句式集合中。
所述检测删除模块50,用于根据在所述第二时间间隔内所收集到的所有历史搜索字符串,重新统计所述所有搜索字符变量句式中每个搜索字符变量句式所对应的新生成次数,并将所述新生成次数低于预设的第三次数阈值的搜索字符变量句式删除;
具体的,所述检测删除模块50可以根据在所述第二时间间隔内所收集到的所有历史搜索字符串所对应的搜索字符变量句式,重新统计所述所有搜索字符变量句式中每个搜索字符变量句式所对应的新生成次数,并将所述新生成次数低于预设的第三次数阈值的搜索字符变量句式删除,以保证所述待定句式集合和所述常用搜索句式集合中的搜索字符变量句式不会越来越多,以避免引擎的资源过于庞大。例如,若所述第二时间间隔为一个月,则所述检测删除模块50每个月定时删除一次当月不经常被使用的搜索字符变量句式;再以某个月为例,所述检测删除模块50所获取的当前的所述常用搜索句式集合和所述待定句式集合中的所有搜索字符变量句式包括A、B、C、D、E、F,再获取该月的所有历史搜索字符串,若根据该月的所有历史搜索字符串生成1次A、生成10次C、生成5次E、生成8次F,则A所对应的新生成次数为1、B所对应的新生成次数为0、C所对应的新生成次数为10、D所对应的新生成次数为0、E所对应的新生成次数为5、F所对应的新生成次数为8,若预设的所述第三次数阈值为2,则所述检测删除模块50可以将搜索字符变量句式A、B、D删除。
本发明实施例在达到预设的第一时间间隔时,通过获取在所述第一时间间隔内所收集到的多个历史搜索字符串,可以根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中,以保证所述常用搜索句式集合中的搜索字符变量句式都是经常被使用到的句式,即说明所述常用搜索句式集合中的搜索字符变量句式都是更加贴合用户意图的句式,因此,当获取到客户端发送的当前搜索字符串时,可以将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,由于所述目标搜索字符变量句式为最贴合用户意图的句式,所以可以提高对当前搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。
请参见图8,是本发明实施例提供的又一种搜索处理装置的结构示意图。如图8所示,所述搜索处理装置1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图8所示的搜索处理装置1000中,网络接口1004主要用于连接客户端,与所述客户端进行数据通信;而用户接口1003主要用于为用户提供输入的接口,获取用户输出的数据;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,并具体执行以下步骤:
在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串;
根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中;
当获取到客户端发送的当前搜索字符串时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
在一个实施例中,所述搜索字符变量集合包括至少一个字符变量,且每个字符变量分别包括与对应字符变量相关联的搜索字符;
所述处理器1001在执行根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中时,具体执行以下步骤:
根据所述搜索字符变量集合中的所述搜索字符对所述多个历史搜索字符串进行识别,以分别将每个历史搜索字符串拆分为至少一个分词字符;
将所述多个历史搜索字符串中所述至少一个分词字符均存在对应的字符变量的历史搜索字符串确定为第一类历史搜索字符串;
根据所述第一类历史搜索字符串对应的每个字符变量,生成所述第一类历史搜索字符串对应的至少一个由所述每个字符变量构成的为全变量类型的搜索字符变量句式;
对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。
在一个实施例中,所述处理器1001还执行以下步骤:
将所述多个历史搜索字符串中所述至少一个分词字符不是均存在对应的字符变量的历史搜索字符串确定为第二类历史搜索字符串,并将所述第二类历史搜索字符串中不存在对应的字符变量的分词字符确定为第一分词字符,并将所述第二类历史搜索字符串中存在对应的字符变量的分词字符确定为第二分词字符;
生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符以及所述第二分词字符对应的字符变量构成的为非全变量类型的搜索字符变量句式;
对至少一个为所述非全变量类型的搜索字符变量句式分别对应的生成次数进行累计,并在所述至少一个为所述非全变量类型的搜索字符变量句式中存在所述生成次数达到预设的第二次数阈值的搜索字符变量句式时,将所述第一分词字符添加至已有的字符变量或新创建的字符变量中;
生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符对应的字符变量以及所述第二分词字符对应的字符变量构成的为所述全变量类型的搜索字符变量句式,并重新执行所述对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。
在一个实施例中,所述处理器1001在执行当获取到客户端发送的当前搜索字符串时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端时,具体执行以下步骤:
当获取到客户端发送的当前搜索字符串时,根据所述搜索字符变量集合生成所述当前搜索字符串对应的至少一个搜索字符变量句式;
检测所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量;
当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为一个时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
在一个实施例中,所述处理器1001还执行以下步骤:
当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为零时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中具有最多生成次数的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端;
当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量大于一个时,获取所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的多个搜索字符变量句式分别对应的热度排行信息,并根据所述热度排行信息将具有最高热度排行的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
在一个实施例中,所述处理器1001还执行以下步骤:
当达到预设的第二时间间隔时,获取所述常用搜索句式集合和预设的待定句式集合中的所有搜索字符变量句式;所述待定句式集合是用于存储未被添加至所述常用搜索句式集合的搜索字符变量句式;
根据在所述第二时间间隔内所收集到的所有历史搜索字符串,重新统计所述所有搜索字符变量句式中每个搜索字符变量句式所对应的新生成次数,并将所述新生成次数低于预设的第三次数阈值的搜索字符变量句式删除。
本发明实施例在达到预设的第一时间间隔时,通过获取在所述第一时间间隔内所收集到的多个历史搜索字符串,可以根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中,以保证所述常用搜索句式集合中的搜索字符变量句式都是经常被使用到的句式,即说明所述常用搜索句式集合中的搜索字符变量句式都是更加贴合用户意图的句式,因此,当获取到客户端发送的当前搜索字符串时,可以将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,由于所述目标搜索字符变量句式为最贴合用户意图的句式,所以可以提高对当前搜索字符串的识别准确度,以保证搜索结果可以满足用户期望。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种搜索处理方法,其特征在于,包括:
在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串;
根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中;添加至所述常用搜索句式集合中的搜索字符变量句式为全变量类型的搜索字符变量句式;所述全变量类型的搜索字符变量句式是由第一类历史搜索字符串对应的字符变量构成的,所述第一类历史搜索字符串中的每个字符分词均存在对应的所述字符变量;所述字符变量属于所述搜索字符变量集合;
当获取到客户端发送的当前搜索字符串时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
2.如权利要求1所述的方法,其特征在于,所述搜索字符变量集合包括至少一个字符变量,且每个字符变量分别包括与对应字符变量相关联的搜索字符;
所述根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中,包括:
根据所述搜索字符变量集合中的所述搜索字符对所述多个历史搜索字符串进行识别,以分别将每个历史搜索字符串拆分为至少一个分词字符;
将所述多个历史搜索字符串中所述至少一个分词字符均存在对应的字符变量的历史搜索字符串确定为第一类历史搜索字符串;
根据所述第一类历史搜索字符串对应的每个字符变量,生成所述第一类历史搜索字符串对应的至少一个由所述每个字符变量构成的为全变量类型的搜索字符变量句式;
对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。
3.如权利要求2所述的方法,其特征在于,还包括:
将所述多个历史搜索字符串中所述至少一个分词字符不是均存在对应的字符变量的历史搜索字符串确定为第二类历史搜索字符串,并将所述第二类历史搜索字符串中不存在对应的字符变量的分词字符确定为第一分词字符,并将所述第二类历史搜索字符串中存在对应的字符变量的分词字符确定为第二分词字符;
生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符以及所述第二分词字符对应的字符变量构成的为非全变量类型的搜索字符变量句式;
对至少一个为所述非全变量类型的搜索字符变量句式分别对应的生成次数进行累计,并在所述至少一个为所述非全变量类型的搜索字符变量句式中存在所述生成次数达到预设的第二次数阈值的搜索字符变量句式时,将所述第一分词字符添加至已有的字符变量或新创建的字符变量中;
生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符对应的字符变量以及所述第二分词字符对应的字符变量构成的为所述全变量类型的搜索字符变量句式,并重新执行所述对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。
4.如权利要求1所述的方法,其特征在于,所述当获取到客户端发送的当前搜索字符串时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端,包括:
当获取到客户端发送的当前搜索字符串时,根据所述搜索字符变量集合生成所述当前搜索字符串对应的至少一个搜索字符变量句式;
检测所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量;
当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为一个时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
5.如权利要求4所述的方法,其特征在于,还包括:
当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为零时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中具有最多生成次数的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端;
当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量大于一个时,获取所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的多个搜索字符变量句式分别对应的热度排行信息,并根据所述热度排行信息将具有最高热度排行的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
6.如权利要求1所述的方法,其特征在于,还包括:
当达到预设的第二时间间隔时,获取所述常用搜索句式集合和预设的待定句式集合中的所有搜索字符变量句式;所述待定句式集合是用于存储未被添加至所述常用搜索句式集合的搜索字符变量句式;
根据在所述第二时间间隔内所收集到的所有历史搜索字符串,重新统计所述所有搜索字符变量句式中每个搜索字符变量句式所对应的新生成次数,并将所述新生成次数低于预设的第三次数阈值的搜索字符变量句式删除。
7.一种搜索处理装置,其特征在于,包括:
第一获取模块,用于在达到预设的第一时间间隔时,获取在所述第一时间间隔内所收集到的多个历史搜索字符串;
句式处理模块,用于根据预设的搜索字符变量集合生成所述多个历史搜索字符串中每个历史搜索字符串分别对应的至少一个搜索字符变量句式,并对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值的搜索字符变量句式添加至所述常用搜索句式集合中;添加至所述常用搜索句式集合中的搜索字符变量句式为全变量类型的搜索字符变量句式;所述全变量类型的搜索字符变量句式是由第一类历史搜索字符串对应的字符变量构成的,所述第一类历史搜索字符串中的每个字符分词均存在对应的所述字符变量;所述字符变量属于所述搜索字符变量集合;
确定发送模块,用于当获取到客户端发送的当前搜索字符串时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
8.如权利要求7所述的装置,其特征在于,所述搜索字符变量集合包括至少一个字符变量,且每个字符变量分别包括与对应字符变量相关联的搜索字符;
所述句式处理模块包括:
识别拆分单元,用于根据所述搜索字符变量集合中的所述搜索字符对所述多个历史搜索字符串进行识别,以分别将每个历史搜索字符串拆分为至少一个分词字符;
字符确定单元,用于将所述多个历史搜索字符串中所述至少一个分词字符均存在对应的字符变量的历史搜索字符串确定为第一类历史搜索字符串;
第一生成单元,用于根据所述第一类历史搜索字符串对应的每个字符变量,生成所述第一类历史搜索字符串对应的至少一个由所述每个字符变量构成的为全变量类型的搜索字符变量句式;
累计添加单元,用于对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。
9.如权利要求8所述的装置,其特征在于,所述句式处理模块还包括:
所述字符确定单元,还用于将所述多个历史搜索字符串中所述至少一个分词字符不是均存在对应的字符变量的历史搜索字符串确定为第二类历史搜索字符串,并将所述第二类历史搜索字符串中不存在对应的字符变量的分词字符确定为第一分词字符,并将所述第二类历史搜索字符串中存在对应的字符变量的分词字符确定为第二分词字符;
第二生成单元,用于生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符以及所述第二分词字符对应的字符变量构成的为非全变量类型的搜索字符变量句式;
所述累计添加单元,还用于对至少一个为所述非全变量类型的搜索字符变量句式分别对应的生成次数进行累计,并在所述至少一个为所述非全变量类型的搜索字符变量句式中存在所述生成次数达到预设的第二次数阈值的搜索字符变量句式时,将所述第一分词字符添加至已有的字符变量或新创建的字符变量中;
生成通知单元,用于生成所述第二类历史搜索字符串对应的至少一个由所述第一分词字符对应的字符变量以及所述第二分词字符对应的字符变量构成的为所述全变量类型的搜索字符变量句式,并通知所述累计添加单元重新对所生成的搜索字符变量句式中不属于预设的常用搜索句式集合且为全变量类型的搜索字符变量句式所对应的生成次数进行累计,并将所述生成次数达到预设的第一次数阈值且为所述全变量类型的搜索字符变量句式添加至所述常用搜索句式集合中。
10.如权利要求7所述的装置,其特征在于,所述确定发送模块包括:
句式生成单元,用于当获取到客户端发送的当前搜索字符串时,根据所述搜索字符变量集合生成所述当前搜索字符串对应的至少一个搜索字符变量句式;
数量检测单元,用于检测所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量;
句式确定发送单元,用于当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为一个时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
11.如权利要求10所述的装置,其特征在于,
所述句式确定发送单元,还用于当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量为零时,将所述当前搜索字符串对应的至少一个搜索字符变量句式中具有最多生成次数的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端;
所述句式确定发送单元,还用于当检测到所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的搜索字符变量句式的数量大于一个时,获取所述当前搜索字符串对应的至少一个搜索字符变量句式中属于所述常用搜索句式集合的多个搜索字符变量句式分别对应的热度排行信息,并根据所述热度排行信息将具有最高热度排行的搜索字符变量句式确定为目标搜索字符变量句式,并发送与所述目标搜索字符变量句式对应的搜索结果数据到所述客户端。
12.如权利要求7所述的装置,其特征在于,还包括:
第二获取模块,用于当达到预设的第二时间间隔时,获取所述常用搜索句式集合和预设的待定句式集合中的所有搜索字符变量句式;所述待定句式集合是用于存储未被添加至所述常用搜索句式集合的搜索字符变量句式;
检测删除模块,用于根据在所述第二时间间隔内所收集到的所有历史搜索字符串,重新统计所述所有搜索字符变量句式中每个搜索字符变量句式所对应的新生成次数,并将所述新生成次数低于预设的第三次数阈值的搜索字符变量句式删除。
13.一种搜索处理装置,其特征在于,包括:处理器和存储器;
所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1至6中任一项所述的方法。
CN201610019595.4A 2016-01-12 2016-01-12 一种搜索处理方法以及装置 Active CN106959976B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201610019595.4A CN106959976B (zh) 2016-01-12 2016-01-12 一种搜索处理方法以及装置
MYPI2017704580A MY174218A (en) 2016-01-12 2017-01-12 Search processing method and device
PCT/CN2017/070970 WO2017121355A1 (zh) 2016-01-12 2017-01-12 搜索处理方法以及装置
JP2017567163A JP6457123B2 (ja) 2016-01-12 2017-01-12 探索処理方法およびデバイス
KR1020177037274A KR102106936B1 (ko) 2016-01-12 2017-01-12 검색 처리 방법 및 장치
US15/951,081 US10713302B2 (en) 2016-01-12 2018-04-11 Search processing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610019595.4A CN106959976B (zh) 2016-01-12 2016-01-12 一种搜索处理方法以及装置

Publications (2)

Publication Number Publication Date
CN106959976A CN106959976A (zh) 2017-07-18
CN106959976B true CN106959976B (zh) 2020-08-14

Family

ID=59310838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610019595.4A Active CN106959976B (zh) 2016-01-12 2016-01-12 一种搜索处理方法以及装置

Country Status (6)

Country Link
US (1) US10713302B2 (zh)
JP (1) JP6457123B2 (zh)
KR (1) KR102106936B1 (zh)
CN (1) CN106959976B (zh)
MY (1) MY174218A (zh)
WO (1) WO2017121355A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526670B2 (en) * 2018-09-28 2022-12-13 The Mitre Corporation Machine learning of colloquial place names
CN110046352A (zh) * 2019-04-19 2019-07-23 无锡伽玛信息科技有限公司 地址标准化方法及装置
US11048984B2 (en) * 2019-05-08 2021-06-29 Capital One Services, Llc Systems and techniques to monitor text data quality
US11429879B2 (en) * 2020-05-12 2022-08-30 Ubs Business Solutions Ag Methods and systems for identifying dynamic thematic relationships as a function of time
US11645283B2 (en) 2021-04-26 2023-05-09 International Business Machined Corporation Predictive query processing
CN113312523B (zh) * 2021-07-30 2021-12-14 北京达佳互联信息技术有限公司 字典生成、搜索关键字推荐方法、装置和服务器
US11947551B2 (en) 2022-05-27 2024-04-02 Maplebear Inc. Automated sampling of query results for training of a query engine

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4950755B2 (ja) * 2007-05-16 2012-06-13 日本電信電話株式会社 文書検索方法及び装置並びにそのコンピュータプログラム
CN103514189A (zh) * 2012-06-25 2014-01-15 上海博腾信息科技有限公司 一种基于搜索引擎的网络爬虫的实现方法
CN104199825A (zh) * 2014-07-23 2014-12-10 清华大学 一种信息查询方法和系统
CN104216942A (zh) * 2013-06-03 2014-12-17 谷歌公司 查询建议模板
JP5774459B2 (ja) * 2011-12-08 2015-09-09 株式会社野村総合研究所 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080294619A1 (en) * 2007-05-23 2008-11-27 Hamilton Ii Rick Allen System and method for automatic generation of search suggestions based on recent operator behavior
US7756860B2 (en) * 2007-05-23 2010-07-13 International Business Machines Corporation Advanced handling of multiple form fields based on recent behavior
US20090265786A1 (en) * 2008-04-17 2009-10-22 Microsoft Corporation Automatic botnet spam signature generation
WO2011014979A1 (en) * 2009-08-04 2011-02-10 Google Inc. Query suggestions from documents
CN102855252B (zh) * 2011-06-30 2015-09-09 北京百度网讯科技有限公司 一种基于需求的数据检索方法和装置
CN102693310B (zh) * 2012-05-28 2016-08-03 无锡成电科大科技发展有限公司 一种基于关系数据库的资源描述框架查询方法和系统
CN102833594B (zh) * 2012-08-14 2017-11-24 中兴通讯股份有限公司 一种网络协议电视iptv节目搜索方法、装置及系统
WO2015114804A1 (ja) * 2014-01-31 2015-08-06 株式会社日立製作所 不正アクセスの検知方法および検知システム
JP6507541B2 (ja) * 2014-09-22 2019-05-08 カシオ計算機株式会社 情報表示機器、情報表示プログラムおよび情報表示方法
KR102441299B1 (ko) * 2017-11-27 2022-09-08 스노우플레이크 인코포레이티드 데이터베이스 시스템으로의 배치 데이터 수집

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4950755B2 (ja) * 2007-05-16 2012-06-13 日本電信電話株式会社 文書検索方法及び装置並びにそのコンピュータプログラム
JP5774459B2 (ja) * 2011-12-08 2015-09-09 株式会社野村総合研究所 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム
CN103514189A (zh) * 2012-06-25 2014-01-15 上海博腾信息科技有限公司 一种基于搜索引擎的网络爬虫的实现方法
CN104216942A (zh) * 2013-06-03 2014-12-17 谷歌公司 查询建议模板
CN104199825A (zh) * 2014-07-23 2014-12-10 清华大学 一种信息查询方法和系统

Also Published As

Publication number Publication date
US10713302B2 (en) 2020-07-14
JP6457123B2 (ja) 2019-01-23
MY174218A (en) 2020-03-17
WO2017121355A1 (zh) 2017-07-20
JP2018525717A (ja) 2018-09-06
KR102106936B1 (ko) 2020-05-28
CN106959976A (zh) 2017-07-18
US20180232461A1 (en) 2018-08-16
KR20180011261A (ko) 2018-01-31

Similar Documents

Publication Publication Date Title
CN106959976B (zh) 一种搜索处理方法以及装置
CN107256267B (zh) 查询方法和装置
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN108572990B (zh) 信息推送方法和装置
AU2019389172B2 (en) Systems and methods for identifying an event in data
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
CN108256718B (zh) 保单服务任务分配方法、装置、计算机设备和存储设备
CN107943877B (zh) 待播放多媒体内容的生成方法和装置
CN111159546A (zh) 事件推送方法、装置、计算机可读存储介质和计算机设备
CN109582847B (zh) 一种信息处理方法及装置、存储介质
CN110874532A (zh) 提取反馈信息的关键词的方法和装置
CN112784063A (zh) 一种成语知识图谱构建方法及装置
US20210294969A1 (en) Generation and population of new application document utilizing historical application documents
CN110245357B (zh) 主实体识别方法和装置
CN110147223B (zh) 组件库的生成方法、装置及设备
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN110895587A (zh) 用于确定目标用户的方法和装置
TWI575391B (zh) 社群資料篩選系統、方法及其非揮發性電腦可讀取紀錄媒體
CN112148841A (zh) 一种对象分类以及分类模型构建方法和装置
CN107220249B (zh) 基于分类的全文搜索
CN112148751B (zh) 用于查询数据的方法和装置
CN112016017A (zh) 确定特征数据的方法和装置
US10296990B2 (en) Verifying compliance of a land parcel to an approved usage
CN110807089B (zh) 一种问答方法、装置及电子设备
CN112784062B (zh) 一种成语知识图谱构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant