CN114020867A - 一种搜索词的扩展方法、装置、设备及介质 - Google Patents

一种搜索词的扩展方法、装置、设备及介质 Download PDF

Info

Publication number
CN114020867A
CN114020867A CN202111300807.3A CN202111300807A CN114020867A CN 114020867 A CN114020867 A CN 114020867A CN 202111300807 A CN202111300807 A CN 202111300807A CN 114020867 A CN114020867 A CN 114020867A
Authority
CN
China
Prior art keywords
search
word
expansion
words
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111300807.3A
Other languages
English (en)
Inventor
刘大伟
郑伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qury Technology Co ltd
Shandong Kurui Technology Co ltd
Original Assignee
Beijing Qury Technology Co ltd
Shandong Kurui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qury Technology Co ltd, Shandong Kurui Technology Co ltd filed Critical Beijing Qury Technology Co ltd
Priority to CN202111300807.3A priority Critical patent/CN114020867A/zh
Publication of CN114020867A publication Critical patent/CN114020867A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例涉及一种搜索词的扩展方法、装置、设备及介质,其中该方法包括:获取待扩展的搜索词;获取搜索词对应的搜索反馈结果,根据搜索反馈结果确定搜索词对应的第一扩展词;通过预设的深度语义模型确定搜索词对应的第二扩展词;结合第一扩展词和第二扩展词,得到搜索词的扩展词集。上述方式可以基于搜索反馈结果以及深度语义两方面对搜索词进行有效扩展,在一定程度上保证了搜索词的扩展全面性和多样性,有助于提升搜索引擎基于扩展后的搜索词进行搜索的准确率,从而提升用户的搜索体验。

Description

一种搜索词的扩展方法、装置、设备及介质
技术领域
本公开涉及信息处理技术领域,尤其涉及一种搜索词的扩展方法、装置、设备及介质。
背景技术
用户通常使用搜索引擎获取所需信息,诸如,在搜索框中输入搜索词(query),搜索引擎通过对搜索词进行处理,结合一定的策略和算法,进行数据召回和排序,最终将搜索结果呈现给用户。然而,用户输入的搜索词通常较为简短,容易导致搜索引擎基于该搜索词进行搜索的准确率不高,用户搜索体验较差。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种搜索词的扩展方法、装置、设备及介质。
本公开实施例提供了一种搜索词的扩展方法,所述方法包括:获取待扩展的搜索词;获取所述搜索词对应的搜索反馈结果,根据所述搜索反馈结果确定所述搜索词对应的第一扩展词;通过预设的深度语义模型确定所述搜索词对应的第二扩展词;结合所述第一扩展词和所述第二扩展词,得到所述搜索词的扩展词集。
可选的,获取待扩展的搜索词的步骤,包括:从指定的多个领域分别获取待扩展的搜索词。
可选的,获取所述搜索词对应的搜索反馈结果的步骤,包括:获取所述搜索词对应的搜索结果,以及所述搜索结果对应的用户选择结果;如果获取到所述用户选择结果,将所述用户选择结果作为所述搜索词对应的搜索反馈结果;如果未获取到所述用户选择结果,将所述搜索结果中的前N条召回数据作为所述搜索词对应的搜索反馈结果;其中,N为预设整数。
可选的,根据所述搜索反馈结果确定所述搜索词对应的第一扩展词的步骤,包括:根据所述搜索词和所述搜索反馈结果执行针对词和短语的对齐操作,基于对齐结果确定与所述搜索词对应的第一扩展词。
可选的,基于对齐结果确定与所述搜索词对应的第一扩展词的步骤,包括:基于对齐结果以及N-Gram语言模型确定与所述搜索词对应的第一扩展词。
可选的,通过预设的深度语义模型确定所述搜索词对应的第二扩展词的步骤,包括:收集所述搜索词对应的候选扩展词;通过预设的深度语义模型确定每个所述候选扩展词与所述搜索词之间的语义相似度;将语义相似度高于指定阈值的候选扩展词作为所述搜索词对应的第二扩展词。
可选的,所述方法还包括:将所述扩展词集提供给指定人员进行审核,以去除所述扩展词集中不合理的扩展词;保存经人工审核后的扩展词集。
本公开实施例还提供了一种搜索词的扩展装置,包括:搜索词获取模块,用于获取待扩展的搜索词;第一扩展模块,用于获取所述搜索词对应的搜索反馈结果,根据所述搜索反馈结果确定所述搜索词对应的第一扩展词;第二扩展模块,用于通过预设的深度语义模型确定所述搜索词对应的第二扩展词;词集获得模块,用于结合所述第一扩展词和所述第二扩展词,得到所述搜索词的扩展词集。
本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的搜索词的扩展方法。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的搜索词的扩展方法。
本公开实施例提供的上述技术方案,可以获取待扩展的搜索词,并获取搜索词对应的搜索反馈结果,根据搜索反馈结果确定搜索词对应的第一扩展词;以及通过预设的深度语义模型确定搜索词对应的第二扩展词;结合第一扩展词和第二扩展词,得到搜索词的扩展词集。上述方式可以基于搜索反馈结果以及深度语义两方面对搜索词进行有效扩展,在一定程度上保证了搜索词的扩展全面性和多样性,有助于提升搜索引擎基于扩展后的搜索词(扩展词集)进行搜索的准确率,从而提升用户的搜索体验。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种搜索词的扩展方法的流程示意图;
图2为本公开实施例提供的一种搜索词的扩展原理示意图;
图3为本公开实施例提供的一种搜索词的扩展装置的结构示意图;
图4为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
搜索引擎是根据用户的需求,结合一定的算法和策略,在可获取到的众多信息/数据中获取特定的符合用户需求的内容(搜索结果),最终将搜索结果反馈给用户的一门检索技术。用户可通过搜索引擎获取所需信息,诸如,在搜索框中输入搜索词(query),然后由搜索引擎返回搜索结果。但是,用户输入的搜索词通常较为简短,不足以充分的表达用户的需求,同时文本的表达方式多样化,可能存在歧义现象,虽然大部分搜索引擎都加入了搜索词预处理阶段,诸如预先对搜索词进行分词处理、去停用词处理、拼音转换处理、同义词转化处理,纠错处理等手段,虽然在一定程度上解决了搜索词本身存在的问题,提升了搜索结果的准确率,但是在多领域的搜索场景下,用户的需求多样化,语言的表达方式也都存在差异,也存在泛语义等诸多表述问题。在此情况下,仅通过分词、去停用词、设置词权重等基础手段是无法较好解决的,因此需要融入更多更深层次的处理策略进行辅助,在此基础上本公开实施例提出了针对搜索词进行扩展的方式,基于搜索反馈结果以及深度语义两方面对搜索词进行扩展,扩展后的搜索词(扩展词集)更为丰富多样,而且可较好改善用户输入的搜索词自身可能具有的诸如泛语义、表达不充分、表达方式存在差异性等问题,有助于提升搜索引擎的准确率或召回率,可充分满足用户的搜索需求,从而提升用户的搜索体验。以上仅为简要说明,本公开实施例的具体实现方式以及可具有的效果在下文进行详细阐述。
本公开实施例提供的搜索词的扩展方法可以由电子设备执行。电子设备可以是服务器、平板电脑、手机、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)、智能电视、智慧屏、高清电视、4K电视、智能音箱、智能投影仪等设备,本公开对电子设备的具体类型不作任何限制,只需具有数据处理能力即可。
图1为本公开实施例提供的一种搜索词的扩展方法的流程示意图,该方法可以由搜索词的扩展装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法主要包括如下步骤S102~步骤S108:
步骤S102,获取待扩展的搜索词。
获取的搜索词的数量可以为一个或多个,在实际应用中,可以从指定的多个领域分别获取待扩展的搜索词,也即,可为每个领域都确定该领域范围内的搜索词以及相应的扩展词,以便后续可形成每个领域对应的映射词库(搜索词与扩展词的对应关系),其中,领域诸如可以是教育、娱乐、医疗、美食、购物、出行、科技等任何现有领域,在此对领域类别不进行限制,获取的搜索词与领域特性相关,诸如,医疗领域的搜索词可能包括医院、药品、疾病名称等;美食领域的搜索词可能包括饭店、菜名等。
步骤S104,获取搜索词对应的搜索反馈结果,根据搜索反馈结果确定搜索词对应的第一扩展词。
实际应用中,以下给出一种获取搜索反馈结果的具体实施方式,可参照(1)~(3)实现:
(1)获取搜索词对应的搜索结果,以及搜索结果对应的用户选择结果。具体的,可以通过搜索引擎获取搜索词对应的搜索反馈结果。该搜索引擎诸如可以是现有的多领域搜索引擎,也可以是针对每个领域特定的第三方搜索引擎。搜索引擎会针对搜索词返回相应的搜索结果(包含多条召回数据),还可根据搜索引擎的记录挖掘用户针对搜索结果的响应行为,该响应行为也即用户选择结果,诸如,搜索引擎针对搜索词返回的搜索结果包含10条召回数据,而用户从中点击查看了第3条召回数据,此时第3条召回数据即为用户选择结果,该用户选择结果也可称之为用户点击结果。
(2)如果获取到用户选择结果,将用户选择结果作为搜索词对应的搜索反馈结果。如果可以从搜索引擎挖掘到其记录的用户选择结果,则认为用户选择结果与搜索词最相关,最能够体现用户的搜索意图,满足用户的搜索需求,此时将用户选择结果作为搜索词对应的搜索反馈结果。
(3)如果未获取到用户选择结果,将搜索结果中的前N条召回数据作为搜索词对应的搜索反馈结果;其中,N为预设整数,在实际应用中可以自行设置,在此不进行限制。
在一些情况下,诸如通过第三方搜索引擎仅可获取搜索结果,但无法进一步挖掘到用户针对搜索结果的用户选择结果,此时则将搜索结果的前N条召回数据作为搜索反馈结果。可以理解的是,搜索引擎通常会按照一定的策略对召回数据进行排序,证明搜索引擎通常认为排序越靠前的数据与搜索词更相关更契合,因此在未能获取到用户选择结果时,可以只将排序靠前的召回数据作为搜索反馈结果。
根据搜索反馈结果与搜索词的对应关系,可以进一步分析得到搜索词对应的扩展词(可称之为第一扩展词),应当注意的是,在本公开实施例中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体与另一个实体区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。
在实际应用中,基于搜索反馈结果与搜索词的对应关系可建立平行语料库,也即,平行语料库可以包含有各领域的搜索词与搜索反馈结果的对应关系,该平行语料库可用于执行后续针对词和短语的对齐操作,最终得到搜索词与第一扩展词的对齐词表。
步骤S106,通过预设的深度语义模型确定搜索词对应的第二扩展词。
在实际应用中,可以采用相关技术中现有的深度语义模型,也可以预先训练得到深度语义模型。在一些示例中,可以选取不同领域的数据及开放的百科数据集,基于大规模语料对机器学习模型进行训练,得到深度语义模型,该深度语义模型也可称为词向量模型。具体训练方式可参照相关技术,在此不进行限制。深度语义模型可以衡量两个词之间的语义相似性,从而借助深度语义模型可以确定与搜索词语义相关的第二扩展词。
步骤S108,结合第一扩展词和第二扩展词,得到搜索词的扩展词集。
在一些实施方式中,可以将第一扩展词和第二扩展词集合起来均作为搜索词的扩展词,由于第一扩展词和第二扩展词会有多个,因此也可将集合后的第一扩展词和第二扩展词统称为扩展词集。在实际应用中,通过上述步骤102~步骤S108,每个搜索词都对应有扩展词集,搜索词可基于领域划分,因此每种领域都可对应有用于表征搜索词语与扩展词集之间对应关系的映射词库,或者,多种领域中每个搜索词对应的扩展词集又可整体构建多领域扩展库。在后续应用中,搜索引擎在接收到用户输入的搜索词后,可从映射词库(或者多领域扩展库)中查找与用户输入的搜索词对应的扩展词集,然后根据查找到的扩展词集执行搜索操作,从而较好改善用户输入的搜索词自身可能具有的诸如泛语义、表达不充分、表达方式存在差异性等问题,有效提升搜索准确率或召回率,满足用户的多样化需求,较好地提升用户的搜索体验。
应当注意的是,在得到搜索词对应的扩展词集后,可以有多种针对搜索词以及相应扩展词集的应用方式,本公开实施例不进行限制。
本公开实施例提供的上述搜索词的扩展方式可以基于搜索反馈结果以及深度语义两方面对搜索词进行有效扩展,在一定程度上保证了搜索词的扩展全面性和多样性,有助于提升搜索引擎基于扩展后的搜索词(扩展词集)进行搜索的准确率,从而提升用户的搜索体验。
在一些实施方式中,在上述步骤S104中执行根据搜索反馈结果确定搜索词对应的第一扩展词时,可以根据搜索词和搜索反馈结果执行针对词和短语的对齐操作,基于对齐结果确定与搜索词对应的第一扩展词。
通过针对词和短语的对齐操作,可以从搜索反馈结果中确定出搜索词对应的扩展词,示例性地,搜索词为“官媒”,搜索反馈结果包含有“官方媒体”,基于针对词和短语的对齐操作,可确定“官方媒体”与“官媒”对齐,因此可认为“官方媒体”为“官媒”的扩展词。在实际应用中,可以采用词和短语对齐模型执行针对词和短语的对齐操作,其中,词和短语对齐模型诸如可以基于前述平行语料库训练得到,也可以直接采用相关技术中已有的模型实现,具体可参照相关技术,在此不再赘述。
在一种具体的实施示例中,可以基于对齐结果以及N-Gram语言模型确定与搜索词对应的第一扩展词。N-Gram语言模型可用于对对齐结果进行正确性核验,以保证搜索词与第一扩展词之间的字面相似度符合预设条件(诸如大于预设阈值),也即确保搜索词语第一扩展词之间在字面意思方面具有相似性,示例性地,“官媒”和“官方媒体”在字面意思上就具有相似性,实质表述内容相似甚至一致,因此可将“官方媒体”作为“官媒”的扩展词。
在一些实施方式中,通过预设的深度语义模型确定搜索词对应的第二扩展词的步骤(也即上述步骤S106),可以参照如下步骤a~步骤c执行:
步骤a,收集搜索词对应的候选扩展词。在实际应用中,可以获取大量的语料信息,从中挖掘得到搜索词及对应的候选扩展词。语料信息可从多种渠道获得,诸如,基于搜索日志采用去噪清洗等方式获取指定数量的词汇,或者基于开放的互联网领域采集热度较高的词汇、或者通过不同领域的第三方搜索引擎获取搜索词以及搜索结果对应的语料进行词汇挖掘等,以上均可作为收集搜索词对应的候选扩展词方式。应当注意的是,以上仅为示例性说明,不应当被视为限制。
步骤b,通过预设的深度语义模型确定每个候选扩展词与搜索词之间的语义相似度。
如前所述,深度语义模型可以衡量两个词之间的语义相似性,因此可借助深度语义模型确定每个候选扩展词与搜索词之间的语义相似度。
步骤c,将语义相似度高于指定阈值的候选扩展词作为搜索词对应的第二扩展词。
通过上述方式,可以对候选扩展词进行筛选,以确保搜索词与第二扩展词之间在语义层面上具有一定的相似性。
进一步,考虑到上述方式机器自动学习获取搜索词对应的扩展词的方式可能存在一定的噪音和误判,为了保证扩展词的质量,本公开实施例提供的上述方法还包括:将扩展词集提供给指定人员进行审核,以去除扩展词集中不合理的扩展词;保存经人工审核后的扩展词集。
通过上述方式得到的扩展词集,可用于后续多领域扩展库的构建、搜索引擎针对用户的输入搜索词进行预处理以及后续召回排序等搜索流程的实际应用中,本公开实施例对扩展词集的后续应用方式不进行限制。
在前述基础上,本公开实施例提供了如图2所示的一种搜索词的扩展原理示意图,示意出了query(搜索词)及相应的扩展词可通过两个分支获取,左分支基于搜索反馈,右分支基于深度语义。对于基于搜索反馈进行搜索词扩展的分支而言,可以基于开放的搜索词及对应的预设阈值结果集(诸如,通过第三方搜索引擎得到的搜索词以及对应的前N条召回数据)、搜索词以及结果点击集合(也即前述用户选择结果)构建平行语料库,通过平行语料库、词和短语对齐模型、语言模型(诸如N-Gram语言模型)可得到基于搜索反馈的第一扩展词。对于基于深度语义进行搜索词扩展的分支而言,可以基于自身搜索词以及开放的搜索词确定query扩展词候选集合,具体而言,可以从获取到的自身搜索词和开放的搜索词中选取预设数量的搜索词,并获取每个搜索词对应的一定数量的候选扩展词,从而形成query扩展词候选集合,候选扩展词与query可通过深度语义模型计算相似度,得到基于深度语义的第二扩展词,最终得到query及扩展词集。图2仅是简单示意出来搜索词扩展原理所需涉及的主要环节,不应当被视为限制,而且具体环节的实现方式可参照前述内容,在此不再赘述。
本公开实施例在对搜索词进行扩展时,无论是搜索词还是扩展词,数据来源都不限于自身生态数据,可以收集开放的搜索引擎的数据,丰富了数据源,提升了语料构建的效率,而且搜索词可基于领域进行细粒度划分,使得搜索词的扩展更精准。
综上所述,本公开实施例提供的搜索词的扩展方法,可以有效改善现有的搜索词较为简单,信息表述不充分的问题,通过对搜索词进行扩展,能够提升搜索词的丰富度,从而搜索结果更能满足用户的搜索需求。通过在搜索反馈以及深度语义进行多维度扩展,也可更契合用户的搜索需求。另外,通过对搜索词进行扩展,可有效改善用户输入的搜索词自身具有的诸如歧义、泛语义、表述方式差异化等问题,使得搜索引擎基于扩展后的搜索词能够更准确的搜索,提升搜索准确率及召回率,综合提升用户搜索体验。
对应于前述搜索词的扩展方法,本公开实施例提供了一种搜索词的扩展装置,图3为本公开实施例提供的一种搜索词的扩展装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中,如图3所示,包括:
搜索词获取模块302,用于获取待扩展的搜索词;
第一扩展模块304,用于获取搜索词对应的搜索反馈结果,根据搜索反馈结果确定搜索词对应的第一扩展词;
第二扩展模块306,用于通过预设的深度语义模型确定搜索词对应的第二扩展词;
词集获得模块308,用于结合第一扩展词和第二扩展词,得到搜索词的扩展词集。
上述装置可以基于搜索反馈结果以及深度语义两方面对搜索词进行扩展,有助于提升搜索引擎基于扩展后的搜索词(扩展词集)进行搜索的准确率,从而提升用户的搜索体验。
在一些实施方式中,搜索词获取模块302具体用于:从指定的多个领域分别获取待扩展的搜索词。
在一些实施方式中,第一扩展模块304具体用于:获取所述搜索词对应的搜索结果,以及所述搜索结果对应的用户选择结果;如果获取到所述用户选择结果,将所述用户选择结果作为所述搜索词对应的搜索反馈结果;如果未获取到所述用户选择结果,将所述搜索结果中的前N条召回数据作为所述搜索词对应的搜索反馈结果;其中,N为预设整数。
在一些实施方式中,第一扩展模块304具体用于:根据所述搜索词和所述搜索反馈结果执行针对词和短语的对齐操作,基于对齐结果确定与所述搜索词对应的第一扩展词。
在一些实施方式中,第一扩展模块304具体用于:基于对齐结果以及N-Gram语言模型确定与所述搜索词对应的第一扩展词。
在一些实施方式中,第二扩展模块306具体用于:收集所述搜索词对应的候选扩展词;通过预设的深度语义模型确定每个所述候选扩展词与所述搜索词之间的语义相似度;将语义相似度高于指定阈值的候选扩展词作为所述搜索词对应的第二扩展词。
在一些实施方式中,所述装置还包括:审核模块,用于将所述扩展词集提供给指定人员进行审核,以去除所述扩展词集中不合理的扩展词;保存经人工审核后的扩展词集。
本公开实施例所提供的搜索词的扩展装置可执行本公开任意实施例所提供的搜索词的扩展方法,具备执行方法相应的功能模块和有益效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对应过程,在此不再赘述。
本公开实施例提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述任一项搜索词的扩展方法。
图4为本公开实施例提供的一种电子设备的结构示意图。如图4所示,电子设备400包括一个或多个处理器401和存储器402。
处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备400中的其他组件以执行期望的功能。
存储器402可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行所述程序指令,以实现上文所述的本公开的实施例的搜索词的扩展方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备400还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置403还可以包括例如键盘、鼠标等等。
该输出装置404可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备400中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备400还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的搜索词的扩展方法。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的搜索词的扩展方法。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本公开实施例还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本公开实施例中的搜索词的扩展方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种搜索词的扩展方法,其特征在于,包括:
获取待扩展的搜索词;
获取所述搜索词对应的搜索反馈结果,根据所述搜索反馈结果确定所述搜索词对应的第一扩展词;
通过预设的深度语义模型确定所述搜索词对应的第二扩展词;
结合所述第一扩展词和所述第二扩展词,得到所述搜索词的扩展词集。
2.根据权利要求1所述的方法,其特征在于,获取待扩展的搜索词的步骤,包括:
从指定的多个领域分别获取待扩展的搜索词。
3.根据权利要求1所述的方法,其特征在于,获取所述搜索词对应的搜索反馈结果的步骤,包括:
获取所述搜索词对应的搜索结果,以及所述搜索结果对应的用户选择结果;
如果获取到所述用户选择结果,将所述用户选择结果作为所述搜索词对应的搜索反馈结果;
如果未获取到所述用户选择结果,将所述搜索结果中的前N条召回数据作为所述搜索词对应的搜索反馈结果;其中,N为预设整数。
4.根据权利要求1所述的方法,其特征在于,根据所述搜索反馈结果确定所述搜索词对应的第一扩展词的步骤,包括:
根据所述搜索词和所述搜索反馈结果执行针对词和短语的对齐操作,基于对齐结果确定与所述搜索词对应的第一扩展词。
5.根据权利要求4所述的方法,其特征在于,基于对齐结果确定与所述搜索词对应的第一扩展词的步骤,包括:
基于对齐结果以及N-Gram语言模型确定与所述搜索词对应的第一扩展词。
6.根据权利要求1所述的方法,其特征在于,通过预设的深度语义模型确定所述搜索词对应的第二扩展词的步骤,包括:
收集所述搜索词对应的候选扩展词;
通过预设的深度语义模型确定每个所述候选扩展词与所述搜索词之间的语义相似度;
将语义相似度高于指定阈值的候选扩展词作为所述搜索词对应的第二扩展词。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述扩展词集提供给指定人员进行审核,以去除所述扩展词集中不合理的扩展词;
保存经人工审核后的扩展词集。
8.一种搜索词的扩展装置,其特征在于,包括:
搜索词获取模块,用于获取待扩展的搜索词;
第一扩展模块,用于获取所述搜索词对应的搜索反馈结果,根据所述搜索反馈结果确定所述搜索词对应的第一扩展词;
第二扩展模块,用于通过预设的深度语义模型确定所述搜索词对应的第二扩展词;
词集获得模块,用于结合所述第一扩展词和所述第二扩展词,得到所述搜索词的扩展词集。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7中任一所述的搜索词的扩展方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7中任一所述的搜索词的扩展方法。
CN202111300807.3A 2021-11-04 2021-11-04 一种搜索词的扩展方法、装置、设备及介质 Pending CN114020867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111300807.3A CN114020867A (zh) 2021-11-04 2021-11-04 一种搜索词的扩展方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111300807.3A CN114020867A (zh) 2021-11-04 2021-11-04 一种搜索词的扩展方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114020867A true CN114020867A (zh) 2022-02-08

Family

ID=80060847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111300807.3A Pending CN114020867A (zh) 2021-11-04 2021-11-04 一种搜索词的扩展方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114020867A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235380A (zh) * 2023-10-07 2023-12-15 广州禧闻信息技术有限公司 一种文物数字云展全网普及度分析系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235380A (zh) * 2023-10-07 2023-12-15 广州禧闻信息技术有限公司 一种文物数字云展全网普及度分析系统
CN117235380B (zh) * 2023-10-07 2024-05-14 广州禧闻信息技术有限公司 一种文物数字云展全网普及度分析系统

Similar Documents

Publication Publication Date Title
US9558264B2 (en) Identifying and displaying relationships between candidate answers
US10025819B2 (en) Generating a query statement based on unstructured input
CA2897886C (en) Methods and apparatus for identifying concepts corresponding to input information
US9418128B2 (en) Linking documents with entities, actions and applications
US20130060769A1 (en) System and method for identifying social media interactions
US20110282861A1 (en) Extracting higher-order knowledge from structured data
US9798820B1 (en) Classification of keywords
KR20160144384A (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
US20130110839A1 (en) Constructing an analysis of a document
US8874553B2 (en) Establishing “is a” relationships for a taxonomy
US9268767B2 (en) Semantic-based search system and search method thereof
US10423672B2 (en) Network resource-specific search assistance
Kanwal et al. A review of text-based recommendation systems
US11734322B2 (en) Enhanced intent matching using keyword-based word mover's distance
KR20180126577A (ko) 관련 엔티티 탐색
JP2012533819A (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
Fernandez-Álvarez et al. Automatic extraction of shapes using sheXer
CN104067273A (zh) 将搜索结果分组为简档页面
KR20180066726A (ko) 주가 예측 장치 및 방법
US20160267085A1 (en) Providing answers to questions having both rankable and probabilistic components
CN105550217B (zh) 场景音乐搜索方法及场景音乐搜索装置
US20140280084A1 (en) Using structured data for search result deduplication
US20140095411A1 (en) Establishing "is a" relationships for a taxonomy
CN114020867A (zh) 一种搜索词的扩展方法、装置、设备及介质
US9910924B2 (en) Disambiguation of online social mentions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination