CN110334271B - 一种搜索结果优化方法、系统、电子设备及存储介质 - Google Patents

一种搜索结果优化方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN110334271B
CN110334271B CN201910425133.6A CN201910425133A CN110334271B CN 110334271 B CN110334271 B CN 110334271B CN 201910425133 A CN201910425133 A CN 201910425133A CN 110334271 B CN110334271 B CN 110334271B
Authority
CN
China
Prior art keywords
environment
search
matching
preset
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910425133.6A
Other languages
English (en)
Other versions
CN110334271A (zh
Inventor
王潇瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910425133.6A priority Critical patent/CN110334271B/zh
Publication of CN110334271A publication Critical patent/CN110334271A/zh
Application granted granted Critical
Publication of CN110334271B publication Critical patent/CN110334271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种搜索结果优化方法、系统、电子设备及存储介质,优化方法包括:获取用户输入的搜索词语;若搜索词语是待纠错词语,获取用户所处环境对应的环境词组,作为第一环境词组;将搜索词语与第一环境词组中的每个预设词语进行匹配,得到多个匹配词语;输出与匹配词语相对应的搜索结果。本方案通过识别用户所处环境的环境类型,并结合根据环境类型设置的环境词组,在用户输入搜索词语出现待纠错词语,比如,词语意义模糊或者歧义导致无法搜索到准确结果的情况时,及时匹配相应的环境词组,匹配环境词组中的匹配词语,并最终输出与匹配词语相对应的搜索结果,实现对搜索结果的优化,提高得到最匹配用户需求的结果的准确性,保证用户体验度。

Description

一种搜索结果优化方法、系统、电子设备及存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种搜索结果优化方法、系统、电子设备及存储介质。
背景技术
随着互联网技术的发展,网络信息也越来越多,因此给用户从海量的信息中快速查找到目标信息带来了困难。
目前,搜索引擎的搜索结果一般是根据用户输入的关键词的相关度进行排序,而相关度通常是根据关键词是否出现,以及出现的方式等来进行判断。但是,计算机通常会给予不匹配的查询结果,这会破坏了搜索准确性,使得用户更改搜索方式甚至放弃搜索,极大地降低了用户体验度。
发明内容
为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种搜索结果优化方法、系统、电子设备及存储介质。
第一方面,本发明实施例提供了一种搜索结果优化方法,所述优化方法包括:
获取用户输入的搜索词语;
判断所述搜索词语是否是待纠错词语;
若所述搜索词语是待纠错词语,从包括不同环境类型的预设词语的多组环境词组中,获取所述用户所处环境对应的环境词组,作为第一环境词组;
将所述搜索词语与所述第一环境词组中的每个预设词语进行匹配,得到至少一个匹配词语;
输出与所述匹配词语相对应的搜索结果。
基于上述技术方案,本发明实施例还可以做出如下改进。
结合第一方面,在第一方面的第一种实施例中,所述获取所述用户所处环境对应的环境词组,作为第一环境词组,包括:
获取所述用户所处环境的环境信息;
从所述环境信息中获取环境关键词,组成环境关键词集合;
将所述环境关键词集合中的环境关键词分别与每组所述环境词组中的预设词语进行比对,确认环境关键词集合与所述环境词组中词语的重合数量;
将与所述环境关键词集合重合数量满足预设数量的环境词组,作为所述第一环境词组。
结合第一方面的第一种实施例,在第一方面的第二种实施例中,所述输出与所述匹配词语相对应的搜索结果,包括:
将所述第一环境词组按所述重合数量进行排序;
按所述匹配词语所属的第一环境词组的顺序,输出每个匹配词语对应的搜索结果。
结合第一方面,在第一方面的第三种实施例中,所述将所述搜索词语与所述第一环境词组中的预设词语进行匹配,得到多个匹配词语,包括:
计算所述搜索词语与所述第一环境词组中的每个预设词语的第一相似度值;
将第一相似度值大于第一预设阈值的预设词语作为所述匹配词语。
结合第一方面的第三种实施例,在第一方面的第四种实施例中,所述输出与所述匹配词语相对应的搜索结果,包括:
将所述匹配词语按所述第一相似度值进行排序;
按所述匹配词语的第一相似度值顺序,输出每个匹配词语对应的搜索结果。
结合第一方面或第一方面的第一、第二、第三或第四种实施例,在第一方面的第五种实施例中,所述按环境类型将各个预设词语进行分类得到多组环境词组,包括:
建立不同环境类型的环境词组;
实时获取预设词语;
计算预设词语与所述环境类型的第二相似度值;
将第二相似度值大于的第二预设阈值的预设词语加入对应环境类型的环境词组中。
第二方面,本发明实施例提供了一种搜索结果优化系统,所述优化系统包括:
环境词组生成单元,用于按环境类型将各个预设词语进行分类得到多组环境词组;
第一获取单元,用于获取用户输入的搜索词语;
判断单元,用于判断所述搜索词语是否是待纠错词语;
第二获取单元,用于若所述搜索词语是待纠错词语,从包括不同环境类型的预设词语的多组环境词组中,获取所述用户所处环境对应的环境词组,作为第一环境词组;
匹配单元,用于将所述搜索词语与所述第一环境词组中的每个预设词语进行匹配,得到至少一个匹配词语;
输出单元,用于输出与所述匹配词语相对应的搜索结果。
结合第二方面,在第二方面的第一种实施例中,所述第二获取单元包括:
环境信息获取单元,用于获取所述用户所处环境的环境信息;
第三获取单元,用于从所述环境信息中获取环境关键词,组成环境关键词集合;
比对单元,用于将所述环境关键词集合中的环境关键词分别与每组所述环境词组中的预设词语进行比对,确认环境关键词集合与所述环境词组中词语的重合数量;
提取单元,用于将与所述环境关键词集合重合数量满足预设数量的环境词组,作为所述第一环境词组。
结合第二方面的第一种实施例,在第二方面的第二种实施例中,所述输出单元,具体用于将所述第一环境词组按所述重合数量进行排序;按所述匹配词语所属的第一环境词组的顺序,输出每个匹配词语对应的搜索结果。
结合第二方面,在第二方面的第三种实施例中,所述匹配单元,具体用于计算所述搜索词语与所述第一环境词组中的每个预设词语的第一相似度值;将第一相似度值大于第一预设阈值的预设词语作为所述匹配词语。
结合第二方面的第三种实施例,在第二方面的第四种实施例中,所述输出单元,具体用于将所述匹配词语按所述第一相似度值进行排序;按所述匹配词语的第一相似度值顺序,输出每个匹配词语对应的搜索结果。
结合第二方面或第二方面的第一、第二、第三或第四种实施例,在第二方面的第五种实施例中,所述优化系统还包括:环境词组生成单元,用于建立不同环境类型的环境词组;实时获取预设词语;计算预设词语与每个所述环境类型的第二相似度值;将第二相似度值大于的第二预设阈值的预设词语加入对应环境类型的环境词组中。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面中任一实施例所述的搜索结果优化方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一实施例所述的搜索结果优化方法。
本发明的上述技术方案与现有技术相比具有如下优点:本方案通过识别用户所处环境的环境类型,并结合根据环境类型设置的环境词组,在用户输入搜索词语出现待纠错词语,比如,词语意义模糊或者歧义导致无法搜索到准确结果的情况时,及时匹配相应的环境词组,通过匹配得到环境词组中的匹配词语,并最终输出与匹配词语相对应的搜索结果,实现对搜索结果的优化,提高得到最匹配用户需求的结果的准确性,保证用户体验度。
附图说明
图1为本发明各个实施例提供的终端的一种示意图;
图2是本发明实施例提供的一种搜索结果优化方法流程示意图;
图3是本发明另一实施例提供的一种搜索结果优化方法流程示意图;
图4是本发明又一实施例提供的一种搜索结果优化方法流程示意图其一;
图5是本发明又一实施例提供的一种搜索结果优化方法流程示意图其二;
图6是本发明又一实施例提供的一种搜索结果优化方法流程示意图其三;
图7是本发明又一实施例提供的一种搜索结果优化装置结构示意图其一;
图8是本发明又一实施例提供的一种搜索结果优化装置结构示意图其二;
图9是本发明又一实施例提供的一种电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的为实现本发明各个实施例的一种终端的硬件结构示意图,终端包括:显示器130、词语输入装置110、环境信息获取装置120、处理器1110、存储器1130和通信总线1140,各电子元器件通过通信总线1140完成相互间的通信,其中,终端可以是诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(PersonalDigitalAssistant,PDA)、便捷式媒体播放器(PortableMediaPlayer,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
如图2所示,本发明实施例提供了一种搜索结果优化方法,优化方法包括:
S11、词语输入装置110获取用户输入的搜索词语。
在本实施例中,用户的输入包括文本输入和语音输入,语音输入可以通过现有语音识别的技术转化为文本,将文本作为搜索词语,词语输入装置110可以是键盘、麦克风等装置。
S12、通过处理器1110判断搜索词语是否是待纠错词语。
在本实施例中,判断搜索词语是否是待纠错词语,可以通过确认搜索词语是否是意义模糊或者歧义来确认搜索词语是否是待纠错词语;含有意义模糊或者有歧义的词语可以采用现有的很多比较成熟的语言分析技术进行分辨,比如中文深度神经网络语言模型、短文本相似度、专名识别、词向量等技术。
其中,比如,意义模糊或者有歧义的词语可以是拼写文字错误,或者语音输入口音问题导致的词语错误,而词语错误会导致意义模糊或者歧义,系统无法根据用户输入的词语进行搜索,此时需要对搜索词语进行修正,以提高用户的搜索体验。
S13、若搜索词语是待纠错词语,从包括不同环境类型的预设词语的多组环境词组中,获取用户所处环境对应的环境词组,作为第一环境词组。
在本实施例中,若搜索词语为意义模糊或者有歧义的待纠错词语,获取用户所处环境的环境参数,针对所处环境得到相应的环境类型,并得到该环境类型对应的环境词组,比如,通过摄像头获取用户所处环境的图像,通过图像识别技术识别图像中的各个物品,通过分析物品所处的环境类型,确定用户所处环境对应的环境词组,一个用户可以同时存在于多个环境词组之中,例如用户可以处于“厨房”,“家庭”,“室内”等多个环境词组中。
S14、处理器1110将搜索词语与第一环境词组中的每个预设词语进行匹配,得到至少一个匹配词语。
在本实施例中,将搜索词语与符合要求的环境词组中的每个预设词语进行匹配,比如,可以通过计算不同词语的重合度来确认不同词语是否匹配,还可以将搜索词语进行分词得到单个的词语,确认是否有与单个的词语一致的预设词语,来决定匹配词语,还可以将搜索词语和预设词语均转换为词向量,通过计算词向量件的欧式距离来确认词向量的相似度,进而得到与搜索词语相匹配的预设词语。
在本实施例中,搜索词语有可能是长语句,而长语句中可能包括多个相关词语,每个相关词语均有可能对应有多个匹配词语,而不同相关词语与不同环境词组中的预设词语的相似度是不同的,所以,当搜索词语为长语句时,出现的匹配词语的数量可能会更多,以提高用户对搜索结果的满意度。
S15、通过显示器130输出与匹配词语相对应的搜索结果。
在本实施例中,通过输出与匹配词语相对应的搜索结果,提高用户得到想要的搜索结果的概率。由于在生活中,通常用户的检索需求是对周围环境中某件物品或者某项设备出现了操作疑问才出现的,本方案中通过识别用户所处环境的环境类型,并结合根据环境类型设置的环境词组,在用户输入搜索词语出现不能准确识别的情况时,及时匹配相应的环境词组,通过环境词组中的词语匹配搜索词语,并得到相应的匹配词语,以对用户输入的搜索词语进行一定的修正,最终输出与匹配词语相对应的搜索结果,实现对搜索结果的优化,提高搜索到用户需要的结果的准确性。
如图3所示,本发明实施例提供的一种搜索结果优化方法,优化方法包括:
S21、处理器1110按环境类型将各个预设词语进行分类得到多组环境词组。
在本实施例中,各预设词语按环境类型进行分类,比如,环境类型为“厨房”,内部可以包含的词语为:平底锅、炉子、案板、菜刀等在厨房环境中会出现的词语;比如,环境类型为“水果”,内部可以包括的词语为:苹果、梨、香蕉等词语,其中预设词语可以是存储器1130中预先存储的部分词语,也可以是从互联网网络中获取的词语。
在本实施例中,环境词组会不断更新扩展,由服务端维护,利用字符串相似度算法和文本识别技术,通过深度学习,让系统自发扩展和更新环境词组。例如,创建“水果”环境组后,利用相似度算法,随着系统迭代与词组更新,系统会将苹果,梨等词组自动加入“水果”组。基于深度学习算法建立新的环境类型的环境词组;基于文本相似度算法,计算网络上获取的预设词语与环境类型的相似度值;将相似度值大于预设阈值的预设词语加入对应环境类型的环境词组中。
如图4所示,具体的,在本实施例中,得到多组环境词组的方法还可以是:
S31、建立不同环境类型的环境词组。
在本实施例中,建立不同环境类型的环境词组,比如,建立“水果”类型的环境词组、“食材”类型的环境词组、“办公室”类型的环境词组。
S32、实时获取预设词语。
在本实施例中,预设词语可以是预先存储的词语,也可以是从互联网上获取到的词语,还可以是用户输入的词语,可以通过软件程序中的监听机制,实现实时获取预设词语,比如,当接收到建立新的环境类型的环境词组的监听消息时,触发获取方法,在获取方法中获取预设词语,还可以在接收到预先存储的词语的数量增加的监听消息时,或者接收到从互联网上获取到新的词语的监听消息时,触发获取方法以获取新增加的词语,还可以根据用户的操作指令实时获取预设词语,比如,在用户需要对环境词组中的词语进行扩充时,接收用户的操作指令,可以是点击按钮或者在触控屏上点击的虚拟按钮,根据用户的操作指令,从互联网上获取预设词语,以完善环境词组,还可以是在用户输入词语时,实时将输入的词语获取,并分配到相应的环境词组中。
S33、基于文本相似度算法,计算预设词语与环境类型的第二相似度值。
在本实施例中,文本相似度算法包括:TF-IDF算法(term frequency –inversedocument frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)、基于空间向量的余弦算法等算法,利用相似度算法,随着系统迭代与词组更新,使得环境词组不断完善、扩展,使得环境词组不断扩充。
S34、将第二相似度值大于的第二预设阈值的预设词语加入对应环境类型的环境词组中。
在本实施例中,将相似度值大于预设阈值的预设词语加入对应环境类型的环境词组中,使得环境词组不断完善,提高环境词组对搜索词语的匹配,本实施例中的预设词语可以是存储其中预存储的词语,也可以是从网络中获取的词语。
S22、词语输入装置110获取用户输入的搜索词语。
在本实施例中,用户的输入包括文本输入和语音输入,语音输入可以通过现有语音识别的技术转化为文本,将文本作为搜索词语,词语输入装置110可以是键盘、麦克风等装置。
S23、通过处理器1110判断搜索词语是否是待纠错词语。
在本实施例中,判断搜索词语是否是待纠错词语,可以通过确认搜索词语是否是意义模糊或者歧义来确认搜索词语是否是待纠错词语;含有意义模糊或者有歧义的词语可以采用现有的很多比较成熟的语言分析技术进行分辨,比如中文深度神经网络语言模型、短文本相似度、专名识别、词向量等技术。
其中,比如,意义模糊或者有歧义的词语可以是拼写文字错误,或者语音输入口音问题导致的词语错误,而词语错误会导致意义模糊或者歧义,系统无法根据用户输入的词语进行搜索,此时需要对搜索词语进行修正,以提高用户的搜索体验。
S24、若搜索词语是待纠错词语,从包括不同环境类型的预设词语的多组环境词组中,获取用户所处环境对应的环境词组,作为第一环境词组。
在本实施例中,若搜索词语为意义模糊或者有歧义的待纠错词语时,获取用户所处环境的环境参数,针对所处环境得到相应的环境类型,并得到该环境类型对应的环境词组,比如,通过摄像头获取用户所处环境的图像,通过图像识别技术识别图像中的各个物品,通过分析物品所处的环境类型,确定用户所处环境对应的环境词组,一个用户可以同时存在于多个环境词组之中,例如用户可以处于“厨房”,“家庭”,“室内”等多个环境词组中。
S25、处理器1110将搜索词语与第一环境词组中的每个预设词语进行匹配,得到至少一个匹配词语。
在本实施例中,将搜索词语与符合要求的环境词组中的每个预设词语进行匹配,比如,可以通过计算不同词语的重合度来确认不同词语是否匹配,还可以将搜索词语进行分词得到单个的词语,确认是否有与单个的词语一致的预设词语,来决定匹配词语,还可以将搜索词语和预设词语均转换为词向量,通过计算词向量件的欧式距离来确认词向量的相似度,进而得到与搜索词语相匹配的预设词语。
在本实施例中,搜索词语有可能是长语句,而长语句中可能包括多个相关词语,每个相关词语均有可能对应有多个匹配词语,而不同相关词语与不同环境词组中的预设词语的相似度是不同的,所以,当搜索词语为长语句时,出现的匹配词语的数量可能会更多,以提高用户对搜索结果的满意度。
S26、通过显示器130输出与匹配词语相对应的搜索结果。
在本实施例中,通过输出与匹配词语相对应的搜索结果,提高用户得到想要的搜索结果的概率。由于在生活中,通常用户的检索需求是对周围环境中某件物品或者某项设备出现了操作疑问才出现的,本方案中通过识别用户所处环境的环境类型,并结合根据环境类型设置的环境词组,在用户输入搜索词语出现不能准确识别的情况时,及时匹配相应的环境词组,通过环境词组中的词语匹配搜索词语,并得到相应的匹配词语,以对用户输入的搜索词语进行一定的修正,最终输出与匹配词语相对应的搜索结果,实现对搜索结果的优化,提高搜索到用户需要的结果的准确性。
如图5所示,在一个具体的实施例中,本发明实施例提供了一种搜索结果优化方法,优化方法包括:
S41、处理器1110按环境类型将各个预设词语进行分类得到多组环境词组。
有关步骤S41,详细可参见步骤S21中的描述,本实施例在此不再赘述。
S42、词语输入装置110获取用户输入的搜索词语。
有关步骤S42,详细可参见步骤S11中的描述,本实施例在此不再赘述。
S43、通过处理器1110判断搜索词语是否是待纠错词语。
有关步骤S43,详细可参见步骤S12中的描述,本实施例在此不再赘述。
S44、获取用户所处环境的环境信息。
在本实施例中,可通过环境信息获取装置120获取用户所处环境的环境信息,比如,通过摄像装置获取用户所处环境的图像,通过特征物识别得到用户所处环境中的各个物品,还可以通过传感器检测用户所处环境的亮度、悬浮颗粒浓度、湿度、声音等情况,分析得到用户所处环境,并以此验证物品的识别,还可以通过探测器探测环境中物品的轮廓,并结合传感器检测到的参数分析得到轮廓对应的物品,当然,还可以从网络上根据用户所处的地理位置信息,大致确认用户所处的环境,比如游乐场、森林的场景中,还可以根据地理位置信息确认当地的室外温度、体感温度、风速等天气参数。
S45、通过处理器1110从环境信息中获取环境关键词,组成环境关键词集合。
在本实施例中,结合上述步骤中获取到的环境信息,从环境信息中提取环境关键词,比如从天气信息中获取体感温度、室内温度、室外温度等,从地理信息中获取植物种类、土壤种类、生物种类等关键词,将环境信息中物品的名称作为环境关键词,组成一个代表用户所处环境的环境关键词集合。
S46、将环境关键词集合中的环境关键词分别与每组环境词组中的预设词语进行比对,确认环境关键词集合与环境词组中词语的重合数量。
在本实施例中,将环境关键词集合中的环境关键词分别与每组环境词组中的词语进行比对,确认环境关键词集合与每组环境词组中的词语的重合数量,在本实施例中,环境关键词和预设词语是否重合可以是词语完全一致,也可以通过文本相似度算法计算两个词语之间的相似度值,相似度值大于预设阈值时,确认环境关键词和预设词语重合。
S47、将与环境关键词集合重合数量满足预设数量的环境词组,作为第一环境词组。
在本实施例中,当环境关键词集合和环境词组的重合数量大于预设数量时,将该环境词组作为第一环境词组,第一环境词组的数量可以大于1;或者,将环境词组按重合数量进行排序,并将重合数量最大的环境词组,作为第一环境词组。
S48、处理器1110将搜索词语与第一环境词组中的每个预设词语进行匹配,得到多个匹配词语。
有关步骤S48,详细可参见步骤S14中的描述,本实施例在此不再赘述。
S49、通过显示器130输出与匹配词语相对应的搜索结果。
有关步骤S39,详细可参见步骤S15中的描述,本实施例在此不再赘述。
在本实施例中,将第一环境词组按重合数量进行排序;按匹配词语所属的第一环境词组的顺序,输出每个匹配词语对应的搜索结果,通过将匹配词语对应第一环境词组的顺序,输出每个匹配词语对应的搜索结果,使得搜索结果对应重合数量的顺序来展示,使得最接近的结果最先进行展示。
如图6所示,在一个具体的实施例中,本发明实施例提供了一种搜索结果优化方法,优化方法包括:
S51、处理器1110按环境类型将各个预设词语进行分类得到多组环境词组。
有关步骤S51,详细可参见步骤S21中的描述,本实施例在此不再赘述。
S52、词语输入装置110获取用户输入的搜索词语。
有关步骤S52,详细可参见步骤S11中的描述,本实施例在此不再赘述。
S53、通过处理器1110判断搜索词语是否是待纠错词语。
有关步骤S53,详细可参见步骤S12中的描述,本实施例在此不再赘述。
S54、若搜索词语是待纠错词语,获取用户所处环境对应的环境词组,作为第一环境词组。
有关步骤S54,详细可参见步骤S13中的描述,本实施例在此不再赘述。
S55、处理器1110基于文本相似度算法计算搜索词语与第一环境词组中的每个预设词语的第一相似度值。
在本实施例中,文本相似度算法包括:TF-IDF算法(term frequency –inversedocument frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)、基于空间向量的余弦算法等算法,通过计算搜索词语和第一环境词组中的每个预设词语的相似度值,以通过预设词语对搜索词语进行修正。
在本实施例中,当然还可以根据基于拼音相似度的汉语模糊搜索算法对搜索词语进行调整,预估出与搜索词语相类似的其他搜索词语进行结果搜索。
S56、将第一相似度值大于第一预设阈值的预设词语作为匹配词语。
在本实施例中,将第一环境词组中与搜索词语的相似度值大于预设阈值的预设词语作为匹配词语;将意义模糊的词语与环境类型结合,对搜索词语进行优化后,再进行查询,可得到更准确的搜索结果。
S57、通过显示器130输出与匹配词语相对应的搜索结果。
有关步骤S57,详细可参见步骤S15中的描述,本实施例在此不再赘述。
在本实施例中,将匹配词语按相似度值进行排序;按匹配词语的相似度值顺序,输出每个匹配词语对应的搜索结果,使得搜索结果对应相似度值的顺序来展示,使得最接近的结果最先进行展示。
如图7所示,本发明实施例提供了一种搜索结果优化系统,优化系统包括:第一获取单元12、判断单元13、第二获取单元14、匹配单元15和输出单元16。
在本实施例中,第一获取单元12,用于获取用户输入的搜索词语;
在本实施例中,判断单元13,用于判断搜索词语是否是待纠错词语。
在本实施例中,第二获取单元14,用于若搜索词语是待纠错词语,从包括不同环境类型的预设词语的多组环境词组中,获取用户所处环境对应的环境词组,作为第一环境词组。
在本实施例中,匹配单元15,用于将搜索词语与第一环境词组中的每个预设词语进行匹配,得到多个匹配词语。
在本实施例中,输出单元16,用于输出与匹配词语相对应的搜索结果。
如图8所示,本发明实施例提供了一种搜索结果优化系统,与图7所示搜索结果优化系统相比,区别在于,优化系统还包括:环境词组生成单元11。
在本实施例中,环境词组生成单元11,用于按环境类型将各个预设词语进行分类得到多组环境词组。
在本实施例中,环境词组生成单元11,具体用于建立不同环境类型的环境词组;基于文本相似度算法,计算预设词语与环境类型的第二相似度值;将第二相似度值大于的第二预设阈值的预设词语加入对应环境类型的环境词组中。
在本实施例中,第一获取单元12,用于获取用户输入的搜索词语;
在本实施例中,判断单元13,用于判断搜索词语是否是待纠错词语。
在本实施例中,第二获取单元14,用于若搜索词语是待纠错词语,获取用户所处环境对应的环境词组,作为第一环境词组。
在本实施例中,匹配单元15,用于将搜索词语与第一环境词组中的每个预设词语进行匹配,得到多个匹配词语。
在本实施例中,输出单元16,用于输出与匹配词语相对应的搜索结果。
在一个具体的实施例中,本分买那个实施例提供了一种搜索结果优化系统,与图7所示优化系统相比,区别在于,第二获取单元14包括:环境信息获取单元、第三获取单元、比对单元和提取单元。
在本实施例中,环境信息获取单元,用于获取用户所处环境的环境信息。
在本实施例中,第三获取单元,用于从环境信息中获取环境关键词,组成环境关键词集合。
在本实施例中,比对单元,用于将环境关键词集合中的环境关键词分别与每组环境词组中的预设词语进行比对,确认环境关键词集合与环境词组中词语的重合数量。
在本实施例中,提取单元,用于将与环境关键词集合重合数量满足预设数量的环境词组,作为第一环境词组。
在本实施例中,输出单元16,具体用于将第一环境词组按重合数量进行排序;按匹配词语所属的第一环境词组的顺序,输出每个匹配词语对应的搜索结果。
在一个具体的实施例中,本分买那个实施例提供了一种搜索结果优化系统,与图7所示优化系统相比,区别在于,匹配单元15,具体用于基于文本相似度算法计算搜索词语与第一环境词组中的每个预设词语的第一相似度值;将第一相似度值大于第一预设阈值的预设词语作为匹配词语。
在本实施例中,输出单元16,具体用于将匹配词语按相似度值进行排序;按匹配词语的相似度值顺序,输出每个匹配词语对应的搜索结果。
如图9所示,本发明实施例提供了一种电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下步骤:
按环境类型将各个预设词语进行分类得到多组环境词组;
获取用户输入的搜索词语;
判断搜索词语是否是待纠错词语;
若搜索词语是待纠错词语,获取用户所处环境对应的环境词组,作为第一环境词组;
将搜索词语与第一环境词组中的每个预设词语进行匹配,得到多个匹配词语;
输出与匹配词语相对应的搜索结果。
本发明实施例提供的电子设备,处理器1110通过执行存储器1130上所存放的程序实现了通过识别用户所处环境的环境类型,并结合根据环境类型设置的环境词组,在用户输入搜索词语出现不能准确识别的情况时,及时匹配相应的环境词组,通过环境词组中的词语匹配搜索词语,并得到相应的匹配词语,以对用户输入的搜索词语进行一定的修正,最终输出与匹配词语相对应的搜索结果,实现对搜索结果的优化,提高搜索到用户需要的结果的准确性。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器1130(RandomAccessMemory,简称RAM),也可以包括非易失性存储器1130(non-volatilememory),例如至少一个磁盘存储器1130。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器1110,包括中央处理器1110(CentralProcessingUnit,简称CPU)、网络处理器1110(NetworkProcessor,简称NP)等;还可以是数字信号处理器1110(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器1110执行,以实现上述任一实施例的搜索结果优化方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种搜索结果优化方法,其特征在于,所述优化方法包括:
获取用户输入的搜索词语;
判断所述搜索词语是否是待纠错词语;
若所述搜索词语是待纠错词语,从包括不同环境类型的预设词语的多组环境词组中,获取所述用户所处环境对应的环境词组,作为第一环境词组,所述第一环境词组为与所述用户所处环境的环境关键词集合中环境关键词的重合数量满足预设数量的环境词组,所述环境关键词集合中的环境关键词是所述用户所处环境的环境信息中获取到的;
将所述搜索词语与所述第一环境词组中的每个预设词语进行匹配,得到至少一个匹配词语;
输出与所述匹配词语相对应的搜索结果。
2.根据权利要求1所述的优化方法,其特征在于,所述获取所述用户所处环境对应的环境词组,作为第一环境词组,包括:
获取所述用户所处环境的环境信息;
从所述环境信息中获取环境关键词,组成环境关键词集合;
将所述环境关键词集合中的环境关键词分别与每组所述环境词组中的预设词语进行比对,确认环境关键词集合与所述环境词组中词语的重合数量;
将与所述环境关键词集合重合数量满足预设数量的环境词组,作为所述第一环境词组。
3.根据权利要求2所述的优化方法,其特征在于,所述输出与所述匹配词语相对应的搜索结果,包括:
将所述第一环境词组按所述重合数量进行排序;
按所述匹配词语所属的第一环境词组的顺序,输出每个匹配词语对应的搜索结果。
4.根据权利要求1所述的优化方法,其特征在于,所述将所述搜索词语与所述第一环境词组中的预设词语进行匹配,得到多个匹配词语,包括:
计算所述搜索词语与所述第一环境词组中的每个预设词语的第一相似度值;
将第一相似度值大于第一预设阈值的预设词语作为所述匹配词语。
5.根据权利要求4所述的优化方法,其特征在于,所述输出与所述匹配词语相对应的搜索结果,包括:
将所述匹配词语按所述第一相似度值进行排序;
按所述匹配词语的第一相似度值顺序,输出每个匹配词语对应的搜索结果。
6.根据权利要求1~5中任一所述的优化方法,其特征在于,所述优化方法还包括:
建立不同环境类型的环境词组;
实时获取预设词语;
计算所述预设词语与每个所述环境类型的第二相似度值;
将第二相似度值大于的第二预设阈值的预设词语加入对应环境类型的环境词组中。
7.一种搜索结果优化系统,其特征在于,所述优化系统包括:
第一获取单元,用于获取用户输入的搜索词语;
判断单元,用于判断所述搜索词语是否是待纠错词语;
第二获取单元,用于若所述搜索词语是待纠错词语,从包括不同环境类型的预设词语的多组环境词组中,获取所述用户所处环境对应的环境词组,作为第一环境词组,所述第一环境词组为与所述用户所处环境的环境关键词集合中环境关键词的重合数量满足预设数量的环境词组,所述环境关键词集合中的环境关键词是所述用户所处环境的环境信息中获取到的;
匹配单元,用于将所述搜索词语与所述第一环境词组中的每个预设词语进行匹配,得到至少一个匹配词语;
输出单元,用于输出与所述匹配词语相对应的搜索结果。
8.根据权利要求7所述的优化系统,其特征在于,所述第二获取单元包括:
环境信息获取单元,用于获取所述用户所处环境的环境信息;
第三获取单元,用于从所述环境信息中获取环境关键词,组成环境关键词集合;
比对单元,用于将所述环境关键词集合中的环境关键词分别与每组所述环境词组中的预设词语进行比对,确认环境关键词集合与所述环境词组中词语的重合数量;
提取单元,用于将与所述环境关键词集合重合数量满足预设数量的环境词组,作为所述第一环境词组。
9.根据权利要求8所述的优化系统,其特征在于,所述输出单元,具体用于将所述第一环境词组按所述重合数量进行排序;按所述匹配词语所属的第一环境词组的顺序,输出每个匹配词语对应的搜索结果。
10.根据权利要求7所述的优化系统,其特征在于,所述匹配单元,具体用于计算所述搜索词语与所述第一环境词组中的每个预设词语的第一相似度值;将第一相似度值大于第一预设阈值的预设词语作为所述匹配词语。
11.根据权利要求10所述的优化系统,其特征在于,所述输出单元,具体用于将所述匹配词语按所述第一相似度值进行排序;按所述匹配词语的第一相似度值顺序,输出每个匹配词语对应的搜索结果。
12.根据权利要求7~11中任一所述的优化系统,其特征在于,所述优化系统还包括:环境词组生成单元,用于建立不同环境类型的环境词组;实时获取预设词语;计算预设词语与每个所述环境类型的第二相似度值;将第二相似度值大于的第二预设阈值的预设词语加入对应环境类型的环境词组中。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~6任一所述的搜索结果优化方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~6中任一所述的搜索结果优化方法。
CN201910425133.6A 2019-05-21 2019-05-21 一种搜索结果优化方法、系统、电子设备及存储介质 Active CN110334271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910425133.6A CN110334271B (zh) 2019-05-21 2019-05-21 一种搜索结果优化方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910425133.6A CN110334271B (zh) 2019-05-21 2019-05-21 一种搜索结果优化方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110334271A CN110334271A (zh) 2019-10-15
CN110334271B true CN110334271B (zh) 2022-01-11

Family

ID=68139045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910425133.6A Active CN110334271B (zh) 2019-05-21 2019-05-21 一种搜索结果优化方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110334271B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104582B (zh) * 2019-12-24 2023-12-05 上海众源网络有限公司 一种搜索页面容错方法、装置及电子设备
CN111324626B (zh) * 2020-01-21 2022-07-12 思必驰科技股份有限公司 基于语音识别的搜索方法、装置、计算机设备及存储介质
CN111611489B (zh) * 2020-05-22 2022-05-20 北京字节跳动网络技术有限公司 一种搜索处理方法、装置、电子设备及存储介质
CN113486252B (zh) * 2021-07-30 2024-08-27 抖音视界有限公司 搜索结果展示方法、装置、设备和介质
CN113886685B (zh) * 2021-09-23 2023-01-06 北京三快在线科技有限公司 一种搜索方法、装置、存储介质及电子设备
CN114428902B (zh) * 2021-12-31 2023-11-14 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646022A (zh) * 2012-04-10 2012-08-22 北京搜狗科技发展有限公司 一种获取候选项的方法和装置
US9292621B1 (en) * 2012-09-12 2016-03-22 Amazon Technologies, Inc. Managing autocorrect actions
CN107102746A (zh) * 2016-02-19 2017-08-29 北京搜狗科技发展有限公司 候选词生成方法、装置以及用于候选词生成的装置
CN107609098A (zh) * 2017-09-11 2018-01-19 北京金堤科技有限公司 搜索方法及装置
CN109686365A (zh) * 2018-12-26 2019-04-26 深圳供电局有限公司 一种语音识别方法和语音识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646022A (zh) * 2012-04-10 2012-08-22 北京搜狗科技发展有限公司 一种获取候选项的方法和装置
US9292621B1 (en) * 2012-09-12 2016-03-22 Amazon Technologies, Inc. Managing autocorrect actions
CN107102746A (zh) * 2016-02-19 2017-08-29 北京搜狗科技发展有限公司 候选词生成方法、装置以及用于候选词生成的装置
CN107609098A (zh) * 2017-09-11 2018-01-19 北京金堤科技有限公司 搜索方法及装置
CN109686365A (zh) * 2018-12-26 2019-04-26 深圳供电局有限公司 一种语音识别方法和语音识别系统

Also Published As

Publication number Publication date
CN110334271A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110334271B (zh) 一种搜索结果优化方法、系统、电子设备及存储介质
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN111984689B (zh) 信息检索的方法、装置、设备以及存储介质
US12039447B2 (en) Information processing method and terminal, and computer storage medium
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
US11763164B2 (en) Image-to-image search method, computer-readable storage medium and server
WO2020082560A1 (zh) 文本关键词提取方法、装置、设备及计算机可读存储介质
CN111931501B (zh) 一种基于人工智能的文本挖掘方法、相关装置及设备
WO2020207074A1 (zh) 一种信息推送的方法及设备
CN110019732B (zh) 一种智能问答方法以及相关装置
CN107102746B (zh) 候选词生成方法、装置以及用于候选词生成的装置
US20190004873A1 (en) Application program interface mashup generation
JP2019212290A (ja) ビデオを処理する方法及び装置
CN110516033B (zh) 一种计算用户偏好的方法和装置
JP2011018178A (ja) 情報処理装置、情報処理方法およびプログラム
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
US12061611B2 (en) Search method, apparatus, electronic device, storage medium and program product
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
US20140280098A1 (en) Performing application search based on application gaminess
CN105550217B (zh) 场景音乐搜索方法及场景音乐搜索装置
KR20150041908A (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
KR102609616B1 (ko) 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체
CN112328896B (zh) 用于输出信息的方法、装置、电子设备和介质
WO2024027125A1 (zh) 对象推荐方法、装置、电子设备和存储介质
WO2018171499A1 (zh) 一种信息检测方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant