CN107784014A - 信息搜索方法、设备及电子设备 - Google Patents

信息搜索方法、设备及电子设备 Download PDF

Info

Publication number
CN107784014A
CN107784014A CN201610771695.2A CN201610771695A CN107784014A CN 107784014 A CN107784014 A CN 107784014A CN 201610771695 A CN201610771695 A CN 201610771695A CN 107784014 A CN107784014 A CN 107784014A
Authority
CN
China
Prior art keywords
search
information
word
result
searched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610771695.2A
Other languages
English (en)
Inventor
刘聪
丁俊玮
孙昌青
郑梓力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Dongjing Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dongjing Computer Technology Co Ltd filed Critical Guangzhou Dongjing Computer Technology Co Ltd
Priority to CN201610771695.2A priority Critical patent/CN107784014A/zh
Publication of CN107784014A publication Critical patent/CN107784014A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息搜索方法、设备及电子设备。该信息搜索方法包括:当根据搜索词在信息库中搜索无结果时,通过查询建议词库获取与搜索词的对应关系符合预定条件的建议词;根据所述建议词在所述信息库中搜索以获取搜索结果。根据本发明,可以极大降低搜索无结果率。

Description

信息搜索方法、设备及电子设备
技术领域
本发明涉及信息处理技术领域,更具体地,涉及一种信息搜索方法、设备及电子设备。
背景技术
随着搜索引擎技术的发展,根据搜索词在各种网络信息库中搜索所需的信息(例如文本、网页、图片、音频、视频等),是当前网络用户获取信息的常用手段。特别是随着网络的普及和视频技术的发展,网络视频观看需求增长迅速,网络服务商为了满足不同层次用户多样化的视频业务需求,通过网络提供的视频数量和种类也日益丰富,使得网络用户已经习惯于从视频库中搜索需要的视频。
但是,出于各种原因,用户在通过搜索词在信息库中搜索信息时,会出现搜索无结果的情况。特别是在用户通过搜索词在视频内容库中搜索视频时,某些视频站点后台的统计数据表明,大概存在10%左右的搜索词出现搜索无结果的情况。发明人通过研究发现,导致搜索无结果的原因可能有多种:搜索词输入处理不当出现空串、搜索词不是流行语言单词(俄文、印度语等)、搜索词中只有数字、搜索词为网址或类似网址的单词、搜索词为非常规单词(单词之间无空格区分或者单词输入错误)等,其中非常规单词导致的搜索无结果的概率最高,为62.71%。
此外,在用户通过搜索词搜索有结果时,也常常存在搜索结果质量较差的情况,使得用户体验较差。例如,用户通过搜索词搜索得到的视频,视频来源不安全、或者是视频时长较短的劣质视频等,使得用户不会实际播放观看,搜索转化率很低。
因此,发明人认为,有必要针对上述现有技术中存在的问题中的至少一个进行改进。
发明内容
本发明的一个目的是提供一种用于信息搜索的新技术方案。
根据本发明的第一方面,提供了一种信息搜索方法,包括:
当根据搜索词在信息库中搜索无结果时,通过查询建议词库获取与所述搜索词的对应关系符合预定条件的建议词,其中,所述建议词库包含多个曾经在信息库搜索有结果的历史搜索词;
根据所述建议词在所述信息库中搜索以获取搜索结果。
在一个实施例中,所述预定条件为,所述建议词是根据对应关系参数评分大于预定阈值并且分数最高的历史搜索词,其中,所述对应关系参数至少包括所述历史搜索词与所述搜索词的编辑距离和所述历史搜索词的历史搜索次数。
可选地,所述信息搜索方法,还包括:
当查询所述建议词库未能获取建议词时,根据对所述搜索词切词得到的替换词,在所述信息库中搜索以获取搜索结果。
进一步可选地,所述信息搜索方法,还包括:
当根据所述替换词在所述信息库中搜索无结果时,根据所述搜索词在信息库中进行模糊搜索以获取搜索结果。
在一个实施例中,所述信息搜索方法,还包括:
对所述搜索结果根据排序参数进行排序后呈现,其中,所述排序参数至少包括与所述搜索词的文本相关性、信息来源、信息使用度、信息创建时间、信息内容属性。
可选地,所述信息搜索方法,还包括:
当根据搜索词在信息库中搜索有结果时,将所述搜索词作为历史搜索词,加入建议词库中。
根据本发明的第二方面,提供一种信息搜索设备,包括:
建议词获取单元,用于当根据搜索词在信息库中搜索无结果时,通过查询建议词库获取与所述搜索词的对应关系符合预定条件的建议词,其中,所述建议词库包含多个曾经在信息库搜索有结果的历史搜索词;
结果搜索单元,用于根据所述建议词在所述信息库中搜索以获取搜索结果。
在一个实施例中,所述预定条件为,所述建议词是根据对应关系参数评分大于预定阈值并且分数最高的历史搜索词,其中,所述对应关系参数至少包括所述历史搜索词与所述搜索词的编辑距离和所述历史搜索词的历史搜索次数。
可选地,所述信息搜索设备,还包括:
切词搜索单元,用于当搜索所述建议词库未能获取建议词时,根据对所述搜索词切词得到的替换搜索词,在所述信息库中搜索以获取搜索结果。
进一步可选地,所述信息搜索设备,还包括:
结果排序单元,用于对所述搜索结果根据排序参数进行排序后呈现,其中,所述排序参数至少包括与所述搜索词的文本相关性、信息来源、信息使用度、信息创建时间、信息内容属性。
在一个实施例中,所述信息搜索设备,其特征在于,还包括:
建议词库更新单元,用于当根据搜索词在信息库中搜索有结果时,将所述搜索词作为历史搜索词,加入建议词库中。
根据本发明的第三方面,提供一种电子设备,包括存储器和处理器,其中,所述存储器用于存储指令,所述指令用于控制所述处理器进行操作以执行根据本发明第一方面的任意一项的信息搜索方法。
本发明的发明人发现,在现有技术中,尚未提出一种信息搜索方法、设备及电子设备,可以降低搜索无结果率。因此,本发明所要实现的技术任务或者所要解决的技术问题是本领域技术人员从未想到的或者没有预期到的,故本发明是一种新的技术方案。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是显示可用于实现本发明的实施例的电子设备的硬件配置的例子的框图。
图2示出了本发明实施例的信息搜索方法的流程图。
图3示出了本发明实施例的信息搜索方法的例子的流程图。
图4示出了本发明实施例的信息搜索设备的框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。
电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示,客户端1000可以包括处理器1010、存储器1020、接口装置1030、通信装置1040、显示装置1050、输入装置1060、扬声器1070、麦克风1080,等等。其中,处理器1010可以是中央处理器CPU、微处理器MCU等。存储器1020例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1030例如包括USB接口、耳机接口等。通信装置1040例如能够进行有线或无线通信。显示装置1050例如是液晶显示屏、触摸显示屏等。输入装置1050例如可以包括触摸屏、键盘等。用户可以通过扬声器1070和麦克风1080输入/输出语音信息。
图1所示的电子设备1000仅是解释性的,并且决不是为了要限制本发明、其应用或用途。应用于本发明的实施例中,电子设备1000的所述存储器1020用于存储指令,所述指令用于控制所述处理器1010进行操作以执行本发明实施例提供的任意一项信息搜索方法。本领域技术人员应当理解,尽管在图1中对电子设备1000都示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000只涉及处理器1010和存储器1020等。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<实施例>
通常来说,信息搜索方法可以用于搜索文本、图片、网页、音频、视频等信息。并且,目前较为普及的信息搜索方法,通常根据搜索词在信息库中搜索信息。所述信息库是可以通过网络技术访问的存储大量信息的资料库。例如,搜索的信息是视频时,所述信息库是通过网络(例如视频站点)访问的视频内容库。搜索信息时所根据的搜索词通常是与要搜索的信息对应的关键词或者主要词,例如,搜索视频时,搜索词可以是搜索视频的主题或者分类。而根据搜索词在信息库中搜索信息,可以通过各种搜索引擎实现,例如,根据搜索词在视频内容库中搜索视频,可以通过ElasticSearch。ElasticSearch是基于Lucene的搜索服务器,可以提供一个分布式多用户能力的全文搜索引擎,是一种稳定、可靠的企业级搜索引擎,并且支持多种语言。
但是,虽然搜索引擎技术较为成熟,根据搜索词在信息库中搜索还是会有较大概率出现搜索无结果的情况,十分影响用户体验。特别是根据用户输入的搜索词在视频内容库中搜索视频时,某些视频站点后台的统计数据表明,大概存在10%左右的搜索词出现搜索无结果的情况。发明人通过研究发现,导致搜索无结果的原因可能有多种:搜索词输入处理不当出现空串、搜索词不是流行语言单词(俄文、印度语等)、搜索词中只有数字、搜索词为网址或类似网址的单词、搜索词为非常规单词(单词之间无空格区分或者单词输入错误)等,其中非常规单词导致的搜索无结果的概率最高,为62.71%。
针对上述现有技术中存在的搜索无结果的缺陷,本实施例中提供一种信息搜索方法,如图2所示,包括:
步骤S2100,当根据搜索词在信息库中搜索无结果时,通过查询建议词库获取与所述搜索词的对应关系符合预定条件的建议词,其中,所述建议词库包含多个曾经在信息库搜索有结果的历史搜索词;
步骤S2200,根据所述建议词在所述信息库中搜索以获取搜索结果。
在上述如图2所示的信息搜索方法中,当根据搜索词在信息库中搜索无结果时,可以通过多种查询方法在建议词库中查询与搜索词的对应关系符合预定条件的建议词,例如,通过模糊匹配算法查询。此外,也可以通过实施信息搜索的搜索引擎在建议词库中查询与搜索词的对应关系符合预定条件的建议词。例如,在通过ElasticSearch根据搜索词搜索视频无结果时,可以通过ElasticSearch基于模糊匹配算法,在建议词库中查询与搜索词的对应关系符合预定条件的建议词。
建议词库包含多个曾经在信息库搜索有结果的历史搜索词。所述历史搜索词可以从搜索日志或者搜索历史记录中获取。例如,通过搜索引擎根据搜索词在信息库中搜索信息,搜索引擎可以提供记录用户搜索历史的搜索日志或搜索历史记录。此外,可以根据预定的周期从搜索日志或搜索历史记录中筛选出该周期内在信息库搜索有结果的历史搜索词,加入建议词库中,完成建议词库的构建以及更新。该预定的周期可以根据应用场景或工程经验配置,例如周期设置为1天。
或者,可以实时更新建议词库,使得查询获得的建议词更为准确。更具体的一个例子中,如图2所示的信息搜索方法中,还包括,当根据搜索词在信息库中搜索有结果时,将所述搜索词作为历史搜索词,加入建议词库中。
通过曾经在信息库中搜索有结果的历史搜索词构建建议词库,可以不必花费额外的资源查询及搜索第三方词库,也不必花费资源维护第三方词库,例如维护搜索无结果的词与相关的搜索有结果的词之间的对应关系。并且,根据用户的搜索历史构建建议词库,更符合用户的搜索习惯。
查询建议词库中获取建议词,该建议词与搜索词的对应关系符合预定条件,例如,该建议词是建议词库中与搜索词的编辑距离最短的词,其中,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,其中许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符,一般来说,编辑距离越小,两个字串的相似度越大。通过与搜索词相似度较高的建议词在信息库中搜索,获得的搜索结果与搜索词的相关度也较高,能降低搜索无结果率,较好地改善根据搜索词在信息库中搜索无结果的情况。
而在某些应用场景中,建议词与搜索词的对应关系可以不仅考虑建议词与搜索词之间通过编辑距离体现的相似度,还可以考虑建议词本身的历史搜索频次、建议词的流行热度等,使得根据建议词搜索的搜索结果更符合该应用场景下用户搜索信息的需求,更好地改善根据搜索词在信息库中搜索无结果的情况。例如,建议词与搜索词的对应关系符合的预定条件,可以是所述建议词是根据对应关系参数评分大于预定阈值并且分数最高的历史搜索词,其中,所述对应关系参数至少包括所述历史搜索词与所述搜索词的编辑距离和所述历史搜索词的历史搜索次数。所述预定阈值可以根据应用场景或者工程经验选取,例如,可以将预定阈值设置为与搜索词的编辑距离为3(一般认为两个词的编辑距离为3~5,相关度较低)和历史搜索次数为1的评分,以使得所述建议词在具有更短的编辑距离和更多历史搜索次数的历史搜索词中产生。
在一个更具体的例子中,对历史搜索词的评分可以采取下述公式:
Core_suggest=Core_sim+log(pv) (公式1)
其中,Core_sim为根据历史搜索词与所述搜索词的编辑距离得到的得分,编辑距离越短,Core_sim的分值越高。pv为历史搜索词的历史搜索频次。Core_suggest为历史搜索词根据对应关系参数评分获得分数。将Core_suggest分值大于预定阈值并且最高的历史搜索词作为建议词。
可以通过纯搜索的方式在建议库中查询获取与搜索词的对应关系符合预定条件的建议词,实施较为简单。例如,通过搜索引擎根据搜索词在建议词库中查询获取与搜索词相近的历史搜索词作为备选词,Core_sim可以是该搜索引擎返回的每个备选词的得分。比如,通过ElasticSearch搜索引擎模糊匹配查询到每个相近词的得分,代入公式1中,可以从备选词中选取Core_suggest分值大于预定阈值并且最高的词作为建议词。
也可以通过机器学习算法进行查询获取与搜索词的对应关系符合预定条件的建议词,例如,通过朴素贝叶斯法,将建议词库中符合与搜索词的对应关系的概率模型下概率最大的历史搜索词作为建议词。
建议词与搜索词的对应关系符合的预定条件可以根据具体的应用场景或者用户需求进行调整,使得根据建议词搜索得到的搜索结果更符合搜索目的,更好地改善根据搜索词在信息库中搜索无结果的情况。
根据如图2所示的信息搜索方法,通过曾经在信息库中搜索有结果的历史搜索词构建建议词库,可以不必花费额外的资源查询及搜索第三方词库,也不必花费资源维护第三方词库,例如维护搜索无结果的词与相关的搜索有结果的词之间的对应关系。并且,从用户的搜索历史中构建建议词库,更符合用户的搜索习惯。而根据搜索词在信息库中搜索无结果时,在建议词库中查询获取与搜索词的对应关系符合预定条件的建议词,并根据该建议词信息库中搜索,由于该建议词与搜索词具有较高的相关性,并且该建议词曾经在信息库中搜索有结果,因而可以确保得到质量较高的搜索结果,极大降低搜索无结果率,改善根据搜索词在信息库中搜索无结果的情况。
特别是,搜索词为非常规单词时(输入单词缺少空格或者输入错误),例如,“facebookgirl”、“regiona”,通常存在“facebook girl”、“regional”与搜索词相近的曾经在信息库中搜索结果的历史搜索词,因而,通过图2所示的信息搜索方法,在包含历史搜索词的建议词库中,查询得到与非常规单词的对应关系符合预定条件得到的建议词,通常是与该非常规单词对应的正确词,而根据正确词搜索信息库得到搜索结果,可以极大降低搜索无结果率,改善非常规单词作为搜索词时出现的搜索无结果的情况。
而在图2所示的信息搜索方法中,当查询所述建议词库未能获取建议词时,可以根据对所述搜索词切词得到的替换词,在所述信息库中搜索以获取搜索结果。例如,搜索词为“facebookgirl”,在建议词库中未能查询获取建议词,对“facebookgirl”切词得到替换词“facebook girl”,根据“facebookgirl”在信息库中搜索以获取搜索结果。在本实施例中,对搜索词切词可以通过最小匹配算法、正向(逆向)最大匹配法、逐字匹配算法、神经网络法、联想一回溯法、基于N-最短路径分词算法或者这几种算法的结合,在此不一一列举。
进一步地,上述的信息搜索方法还包括,当根据所述替换词在所述信息库中搜索无结果时,根据所述搜索词在信息库中进行模糊搜索以获取搜索结果。模糊搜索是根据搜索词的近义词在信息库中搜索信息,例如,搜索词为“facebookgirl”,在建议词库中未查询到建议词,通过切词得到替换词“facebook girl”在信息库中搜索无结果,通过模糊搜索,搜索“facebookgirl”的一系列近义词以获取搜索结果。具体地,模糊搜索可以通过搜索引擎提供的模糊搜索功能实现,例如,ElasticSearch搜索引擎提供的模糊匹配功能。
下面将结合图3进一步说明本实施例中所提供的信息搜索方法。在图3所示的例子中,通过本实施例中所提供的信息搜索方法搜索视频,具体包括如下步骤:
步骤S301,根据搜索词在视频站点提供的视频内容库中搜索视频,搜索到结果,进入步骤S302,搜索无结果,进入步骤S303;
步骤S302,将搜索有结果的搜索词作为历史搜索词加入建议词库,进入步骤S308;
步骤S303,在建议词库中查询获取与搜索词的对应关系符合预定条件的建议词,例如,根据对应关系参数通过公式1评分得到的大于预定阈值且分值最高的历史搜索词,此外可以通过ElasticSearch搜索引擎进行查询,如果查询得到建议词,进入步骤S304,否则,进入步骤S305;
步骤S304,根据建议词在视频信息库中搜索视频,进入步骤S308;
步骤S305,根据搜索词切词得到的替代词在视频内容库中搜索视频,搜索有结果,进入步骤S308,搜索无结果,进入步骤S306;
步骤S306,根据搜索词在视频内容库中进行模糊搜索,搜索有结果,进入步骤S308,搜索无结果,进入步骤S307;
步骤S307,返回搜索无结果;
步骤S308,返回搜索结果,呈现搜索得到的视频。
在发明人所进行的实验中,分别对采用图3所示的信息搜索方法和现有技术中搜索引擎提供的信息搜索方法在相同的实验条件下搜索视频,采集实验数据,发现而现有技术中的信息搜索方法对应的搜索无结果率为10%,而如图3所示的信息搜索方法对应搜索无结果率仅为0.5%,将搜索无结果率降低了95%。
通过上述本实施例中所提供的信息搜索方法,可以极大降低搜索无结果率,改善根据搜索词在信息库中搜索无结果的情况,获得与搜索词对应的搜索结果。而在获取搜索结果后,通常搜索结果是根据相似度进行排序呈现给用户,但会出现搜索质量较差的信息排序在前导致用户体验较差。例如,用户通过搜索词搜索得到的视频,视频来源不安全、或者是视频时长较短的劣质视频等,使得用户不会实际播放观看,播放转化率很低。
因此,在一个例子中,本实施例中提供的信息搜索方法,还可以包括:对所述搜索结果根据排序参数进行排序后呈现,其中,所述排序参数至少包括与所述搜索词的文本相关性、信息来源、信息使用度、信息创建时间、信息内容属性。
在更具体的一个例子中,当搜索的信息为视频,对根据搜索词在视频站点提供的视频内容库中搜索得到的视频,可以通过下述公式进行排序:
Score=4*log(1+sim_score)+2*cooperater+2*keywords
+0.5*video_format+log10(1+yesterday_play_count)
+1.5*log10(1+total_play_count)
+1.5*log10(1+create_time–base_time)
-100*int(duration<10) (公式2)
其中,sim_score为视频标题与搜索词相似度得分,用于输出最接近搜索词的搜索结果,例如,编辑距离越短,得分越高,该得分可以通过搜索引擎获取,例如通过ElasticSearch给出的得分;cooperater为0或1,表示是否是高质视频(例如来源于与该视频站点的合作方);keywords为1或-1,1表示视频标题中包含加分关键词(如official),-1表示包括减分关键词(如,wapka,一低质视频源,标题中通常包含该视频源名称);video_format为0或1,表示视频格式,高清视频为1,否则为0,用于对高清视频进行加分;yesterday_play_count为昨日播放量,对昨天播放量高的视频进行加分;total_play_count为视频的总播放量,对总播放量高的视频进行加分;create_time和base_time分别表示视频的创建时间和系统的基准时间,用于对新视频进行加分,便于同等情况下,输出较新的搜索结果;duration为视频时长(单位:秒),用于过滤视频时长很短的劣质视频。
根据上述公式对搜索得到的视频评分,按评分由高到低形成搜索结果排序。在这个例子中,对视频搜索的结果排序,除了考虑与搜索词的文本相关性外,还综合考虑多种因素,如视频来源、视频使用度(视频总播放量、视频昨日播放量)、视频内容属性(视频格式、视频时长等)、视频创建时间等,形成一个合理搜索结果得分排序,使得搜索结果的呈现更合理,以提高视频搜索转化率。
在发明人所进行的实验中,分别对采用本例中所提供的搜索结果排序的方案以及仅根据与搜索词的文本相似性进行的视频搜索结果排序的方案在相同的实验条件下采集实验数据,发现采用本例中的方案得到的视频搜索转化率为32%,而另一方案的视频搜索转化率仅为22%,本例中的方案将视频搜索转化率提升了约45%。
本实施例中还提供一种信息搜索设备4000,如图4所示,包括建议词获取单元4100、结果搜索单元4200,可选地,还包括切词搜索单元4300、模糊搜索单元4400、结果排序单元4500、建议词库更新单元4600。所述信息搜索设备4000用于实施本实施例中提供的任意一项信息搜索方法,在此不再赘述。
信息搜索单元4000,包括:
建议词获取单元4100,用于当根据搜索词在信息库中搜索无结果时,通过查询建议词库获取与所述搜索词的对应关系符合预定条件的建议词,其中,所述建议词库包含多个曾经在信息库搜索有结果的历史搜索词;
结果搜索单元4200,用于根据所述建议词在所述信息库中搜索以获取搜索结果。
在一个例子中,所述预定条件为,所述建议词是根据对应关系参数评分大于预定阈值并且分数最高的历史搜索词,其中,所述对应关系参数至少包括所述历史搜索词与所述搜索词的编辑距离和所述历史搜索词的历史搜索次数。
可选地,所述信息搜索设备4000还包括,切词搜索单元4300,用于当搜索所述建议词库未能获取建议词时,根据对所述搜索词切词得到的替换搜索词,在所述信息库中搜索以获取搜索结果。
进一步可选地,所述信息搜索设备4000还包括,模糊搜索单元4400,用于当根据所述替换词在所述信息库中搜索无结果时,根据所述搜索词在信息库中进行模糊搜索以获取搜索结果。
或者可选地,所述信息搜索设备4000还包括,结果排序单元4500,用于对所述搜索结果根据排序参数进行排序后呈现,其中,所述排序参数至少包括与所述搜索词的文本相关性、信息来源、信息使用度、信息创建时间、信息内容属性。
在一个例子中,所述信息搜索设备4000还包括,建议词库更新单元4600,用于当根据搜索词在信息库中搜索有结果时,将所述搜索词作为历史搜索词,加入建议词库中。
本实施例中所提供的信息搜索设备4000,具体实施方式可以有多种,可以作为独立的设备与搜索引擎通过无线或有线的方式连接,也可以作为搜索引擎的一个功能单元包含于搜索引擎中,还可以部分功能单元包含于搜索引擎中,部分功能单元独立于搜索引擎之外,本实施例中并不限制信息搜索设备4000的具体实施方式,只要是能实施信息搜索设备4000所提供功能的设备、搜索引擎、或者具有访问网络功能的设备(例如浏览器、具有类似浏览器功能的设备),均在本实施例的披露范围内。在一个例子,信息搜索设备4000可以包含在ElasticSearch中。
本实施例中还提供一种电子设备,包括存储器和处理器,其中,所述存储器用于存储指令,所述指令用于控制所述处理器进行操作以执行本实施例中所提供的任意一项的信息搜索方法。
以上已经结合附图描述了本发明的实施例,根据本实施例,在根据搜索词在信息库中搜索无结果时,从建议词库中查询获取与搜索词对应的建议词,根据建议词在信息库中搜索以获取搜索结果,能有效地降低搜索无结果率,改善搜索无结果的情况。特别适用于由于搜索词为非常规单词导致搜索无结果的情况。
本领域技术人员应当明白,可以通过各种方式来实现信息搜索设备4000。例如,可以通过指令配置处理器来实现信息搜索设备4000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现信息搜索设备4000。例如,可以将信息搜索设备4000固化到专用器件(例如ASIC)中。可以将信息搜索设备4000分成相互独立的单元,或者可以将它们合并在一起实现。信息搜索设备4000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
本领域技术人员公知的是,随着诸如大规模集成电路技术的电子信息技术的发展和软件硬件化的趋势,要明确划分计算机系统软、硬件界限已经显得比较困难了。因为,任何操作可以软件来实现,也可以由硬件来实现。任何指令的执行可以由硬件完成,同样也可以由软件来完成。对于某一机器功能采用硬件实现方案还是软件实现方案,取决于价格、速度、可靠性、存储容量、变更周期等非技术性因素。因此,对于电子信息技术领域的普通技术人员来说,更为直接和清楚地描述一个技术方案的方式是描述该方案中的各个操作。在知道所要执行的操作的情况下,本领域技术人员可以基于对所述非技术性因素的考虑直接设计出期望的产品。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (13)

1.一种信息搜索方法,其特征在于,包括:
当根据搜索词在信息库中搜索无结果时,通过查询建议词库获取与所述搜索词的对应关系符合预定条件的建议词,其中,所述建议词库包含多个曾经在信息库搜索有结果的历史搜索词;
根据所述建议词在所述信息库中搜索以获取搜索结果。
2.根据权利要求1所述的方法,其特征在于,
所述预定条件为,所述建议词是根据对应关系参数评分大于预定阈值并且分数最高的历史搜索词,其中,所述对应关系参数至少包括所述历史搜索词与所述搜索词的编辑距离和所述历史搜索词的历史搜索次数。
3.根据权利要求1所述的信息搜索方法,其特征在于,还包括:
当查询所述建议词库未能获取建议词时,根据对所述搜索词切词得到的替换词,在所述信息库中搜索以获取搜索结果。
4.根据权利要求3所述的信息搜索方法,其特征在于,还包括:
当根据所述替换词在所述信息库中搜索无结果时,根据所述搜索词在信息库中进行模糊搜索以获取搜索结果。
5.根据权利要求1-4所述任意一项的信息搜索方法,其特征在于,还包括:
对所述搜索结果根据排序参数进行排序后呈现,其中,所述排序参数至少包括与所述搜索词的文本相关性、信息来源、信息使用度、信息创建时间、信息内容属性。
6.根据权利要求1所述的信息搜索方法,其特征在于,还包括:
当根据搜索词在信息库中搜索有结果时,将所述搜索词作为历史搜索词,加入建议词库中。
7.一种信息搜索设备,其特征在于,包括:
建议词获取单元,用于当根据搜索词在信息库中搜索无结果时,通过查询建议词库获取与所述搜索词的对应关系符合预定条件的建议词,其中,所述建议词库包含多个曾经在信息库搜索有结果的历史搜索词;
结果搜索单元,用于根据所述建议词在所述信息库中搜索以获取搜索结果。
8.根据权利要求7所述的信息搜索设备,其特征在于,所述预定条件为,所述建议词是根据对应关系参数评分大于预定阈值并且分数最高的历史搜索词,其中,所述对应关系参数至少包括所述历史搜索词与所述搜索词的编辑距离和所述历史搜索词的历史搜索次数。
9.根据权利要求7所述的信息搜索设备,其特征在于,还包括:
切词搜索单元,用于当搜索所述建议词库未能获取建议词时,根据对所述搜索词切词得到的替换搜索词,在所述信息库中搜索以获取搜索结果。
10.根据权利要求7所述的信息搜索设备,其特征在于,还包括:
模糊搜索单元,用于当根据所述替换词在所述信息库中搜索无结果时,根据所述搜索词在信息库中进行模糊搜索以获取搜索结果。
11.根据权利要求7-10所述任意一项的信息搜索设备,其特征在于,还包括:
结果排序单元,用于对所述搜索结果根据排序参数进行排序后呈现,其中,所述排序参数至少包括与所述搜索词的文本相关性、信息来源、信息使用度、信息创建时间、信息内容属性。
12.根据权利要求7所述的信息搜索设备,其特征在于,还包括:
建议词库更新单元,用于当根据搜索词在信息库中搜索有结果时,将所述搜索词作为历史搜索词,加入建议词库中。
13.一种电子设备,其特征在于,包括存储器和处理器,其中,所述存储器用于存储指令,所述指令用于控制所述处理器进行操作以执行根据权利要求1-6所述的任意一项的信息搜索方法。
CN201610771695.2A 2016-08-30 2016-08-30 信息搜索方法、设备及电子设备 Pending CN107784014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610771695.2A CN107784014A (zh) 2016-08-30 2016-08-30 信息搜索方法、设备及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610771695.2A CN107784014A (zh) 2016-08-30 2016-08-30 信息搜索方法、设备及电子设备

Publications (1)

Publication Number Publication Date
CN107784014A true CN107784014A (zh) 2018-03-09

Family

ID=61450605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610771695.2A Pending CN107784014A (zh) 2016-08-30 2016-08-30 信息搜索方法、设备及电子设备

Country Status (1)

Country Link
CN (1) CN107784014A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063204A (zh) * 2018-09-14 2018-12-21 郑州云海信息技术有限公司 基于人工智能的日志查询方法、装置、设备及存储介质
CN109359481A (zh) * 2018-10-10 2019-02-19 南京小安信息科技有限公司 一种基于bk树的反碰撞搜索约减方法
CN110231955A (zh) * 2019-05-13 2019-09-13 平安科技(深圳)有限公司 代码处理方法、装置、计算机设备和存储介质
CN110333983A (zh) * 2019-05-31 2019-10-15 口口相传(北京)网络技术有限公司 业务监控及搜索业务监控方法及装置
CN110430476A (zh) * 2019-08-05 2019-11-08 广州华多网络科技有限公司 直播间搜索方法、系统、计算机设备和存储介质
CN111026787A (zh) * 2019-11-22 2020-04-17 中国银行股份有限公司 网点检索方法、装置及系统
CN111191105A (zh) * 2019-10-31 2020-05-22 腾讯科技(深圳)有限公司 政务信息的搜索方法、装置、系统、设备及存储介质
CN111581228A (zh) * 2019-02-15 2020-08-25 北京无限光场科技有限公司 更正搜索条件的搜索方法、装置、存储介质及电子设备
CN111625620A (zh) * 2019-02-28 2020-09-04 北京京东尚科信息技术有限公司 信息处理方法和装置
CN112507181A (zh) * 2019-09-16 2021-03-16 百度在线网络技术(北京)有限公司 搜索请求分类方法、装置、电子设备及存储介质
CN111191105B (zh) * 2019-10-31 2024-06-07 腾讯科技(深圳)有限公司 政务信息的搜索方法、装置、系统、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN101206672A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 商品搜索无结果智能处理系统及方法
US20110082860A1 (en) * 2009-05-12 2011-04-07 Alibaba Group Holding Limited Search Method, Apparatus and System
CN103544267A (zh) * 2013-10-16 2014-01-29 北京奇虎科技有限公司 一种基于搜索建议词进行搜索的方法以及装置
CN103914444A (zh) * 2012-12-29 2014-07-09 高德软件有限公司 一种纠错方法及其装置
CN104077337A (zh) * 2013-05-20 2014-10-01 腾讯科技(深圳)有限公司 搜索方法及装置
CN104679801A (zh) * 2013-12-03 2015-06-03 高德软件有限公司 一种兴趣点搜索方法和装置
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105224554A (zh) * 2014-06-11 2016-01-06 阿里巴巴集团控股有限公司 推荐搜索词进行搜索的方法、系统、服务器和智能终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN101206672A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 商品搜索无结果智能处理系统及方法
US20110082860A1 (en) * 2009-05-12 2011-04-07 Alibaba Group Holding Limited Search Method, Apparatus and System
CN103914444A (zh) * 2012-12-29 2014-07-09 高德软件有限公司 一种纠错方法及其装置
CN104077337A (zh) * 2013-05-20 2014-10-01 腾讯科技(深圳)有限公司 搜索方法及装置
CN103544267A (zh) * 2013-10-16 2014-01-29 北京奇虎科技有限公司 一种基于搜索建议词进行搜索的方法以及装置
CN104679801A (zh) * 2013-12-03 2015-06-03 高德软件有限公司 一种兴趣点搜索方法和装置
CN105224554A (zh) * 2014-06-11 2016-01-06 阿里巴巴集团控股有限公司 推荐搜索词进行搜索的方法、系统、服务器和智能终端
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘伟成: "《跨语言信息检索》", 31 January 2010, 海口:海南出版社 *
李丹丹: "基于本体的知识表示及信息检索研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063204A (zh) * 2018-09-14 2018-12-21 郑州云海信息技术有限公司 基于人工智能的日志查询方法、装置、设备及存储介质
CN109359481B (zh) * 2018-10-10 2021-09-14 南京小安信息科技有限公司 一种基于bk树的反碰撞搜索约减方法
CN109359481A (zh) * 2018-10-10 2019-02-19 南京小安信息科技有限公司 一种基于bk树的反碰撞搜索约减方法
CN111581228A (zh) * 2019-02-15 2020-08-25 北京无限光场科技有限公司 更正搜索条件的搜索方法、装置、存储介质及电子设备
CN111625620A (zh) * 2019-02-28 2020-09-04 北京京东尚科信息技术有限公司 信息处理方法和装置
CN110231955A (zh) * 2019-05-13 2019-09-13 平安科技(深圳)有限公司 代码处理方法、装置、计算机设备和存储介质
CN110231955B (zh) * 2019-05-13 2024-05-07 平安科技(深圳)有限公司 代码处理方法、装置、计算机设备和存储介质
CN110333983A (zh) * 2019-05-31 2019-10-15 口口相传(北京)网络技术有限公司 业务监控及搜索业务监控方法及装置
CN110430476A (zh) * 2019-08-05 2019-11-08 广州华多网络科技有限公司 直播间搜索方法、系统、计算机设备和存储介质
CN110430476B (zh) * 2019-08-05 2021-12-28 广州方硅信息技术有限公司 直播间搜索方法、系统、计算机设备和存储介质
CN112507181A (zh) * 2019-09-16 2021-03-16 百度在线网络技术(北京)有限公司 搜索请求分类方法、装置、电子设备及存储介质
CN112507181B (zh) * 2019-09-16 2023-09-29 百度在线网络技术(北京)有限公司 搜索请求分类方法、装置、电子设备及存储介质
CN111191105A (zh) * 2019-10-31 2020-05-22 腾讯科技(深圳)有限公司 政务信息的搜索方法、装置、系统、设备及存储介质
CN111191105B (zh) * 2019-10-31 2024-06-07 腾讯科技(深圳)有限公司 政务信息的搜索方法、装置、系统、设备及存储介质
CN111026787A (zh) * 2019-11-22 2020-04-17 中国银行股份有限公司 网点检索方法、装置及系统

Similar Documents

Publication Publication Date Title
CN107784014A (zh) 信息搜索方法、设备及电子设备
CN104102723B (zh) 搜索内容提供方法和搜索引擎
CN106970898A (zh) 用于生成文章的方法和装置
CN108780374A (zh) 用于多变量搜索的用户界面
CN110019732A (zh) 一种智能问答方法以及相关装置
CN107545889A (zh) 适用于模式识别的模型的优化方法、装置及终端设备
CN105975531B (zh) 基于对话知识库的机器人对话控制方法和系统
CN107704102A (zh) 一种文本输入方法及装置
CN105095433A (zh) 实体推荐方法及装置
CN106789543A (zh) 会话中实现表情图像发送的方法和装置
CN114880441B (zh) 视觉内容生成方法、装置、系统、设备和介质
CN107229659A (zh) 一种信息搜索方法及装置
CN109145213A (zh) 基于历史信息的查询推荐方法及装置
CN113641807B (zh) 对话推荐模型的训练方法、装置、设备和存储介质
CN113746874B (zh) 一种语音包推荐方法、装置、设备及存储介质
CN110532280A (zh) Sql语句可视化方法以及装置
CN113746875B (zh) 一种语音包推荐方法、装置、设备及存储介质
CN108875090A (zh) 一种歌曲推荐方法、装置和存储介质
US10762902B2 (en) Method and apparatus for synthesizing adaptive data visualizations
WO2021135290A1 (zh) 基于知识图谱的信息可视化方法、装置、设备及存储介质
CN110019650A (zh) 提供搜索联想词的方法、装置、存储介质及电子设备
CN107807930A (zh) 终端设备浏览器推荐/显示内容的方法和设备
CN110263332A (zh) 一种基于神经网络的自然语言关系抽取方法
CN108259547A (zh) 消息推送方法、设备及可编程设备
CN107562925A (zh) 用于推荐文章的方法、设备和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200602

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping B radio square 14 storey tower

Applicant before: Guangzhou Dongjing Computer Technology Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180309

RJ01 Rejection of invention patent application after publication