CN114911984A - 搜索数据处理方法、装置及计算机存储介质 - Google Patents

搜索数据处理方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN114911984A
CN114911984A CN202110185536.5A CN202110185536A CN114911984A CN 114911984 A CN114911984 A CN 114911984A CN 202110185536 A CN202110185536 A CN 202110185536A CN 114911984 A CN114911984 A CN 114911984A
Authority
CN
China
Prior art keywords
error correction
search
correction candidate
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110185536.5A
Other languages
English (en)
Inventor
张高伟
赵德祥
崔健
宋健
任开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202110185536.5A priority Critical patent/CN114911984A/zh
Publication of CN114911984A publication Critical patent/CN114911984A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了搜索数据处理方法、装置及计算机存储介质。根据本申请实施例提供的方案,预先建立了资源池和用于指示纠错候选词的多模态特征,当对象输入了错误搜索词时,可以首先从多方面召回纠错候选词,进而采用排序模型基于多模态特征对召回的纠错候选词进行打分排序,根据排序打分结果来确定纠错结果。

Description

搜索数据处理方法、装置及计算机存储介质
技术领域
本申请实施例涉及搜索技术领域,尤其涉及搜索数据处理方法、装置及计算机存储介质。
背景技术
在搜索场景中,对象经常会出现输入的搜索词拼写错误的情况,如果直接用错误的搜索词进行检索,往往不会得到正确对象的结果。为此,目前的搜索场景中多通过自动纠错功能,对拼写错误的搜索词进行纠错,以提升搜索的准确率,提升对象搜索场景的使用体验对象。例如,对象使用地图应用软件搜索兴趣点的场景中,对象可能输入错误的搜索词,这种情况下,应用软件能够自动对搜索词进行纠错,并提供正确的搜索词给对象进行选择或者基于纠错后的搜索词,提供正确的搜索结果,以大大提升对象的搜索使用体验。
目前,对对象输入的搜索词进行纠错时,多基于不同的规则进行召回和排序,以获得最终的纠错结果。该过程中,召回和排序通过紧耦合共同发挥作用,不同的召回规则对应着不同的排序规则,导致纠错实现复杂,成本高,且纠错结果也不够准确。基于此,需要提供一种低成本、高效且准确的纠错方案。
发明内容
有鉴于此,本申请实施例提供一种搜索数据处理方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种搜索数据处理方法,包括:召回错误搜索词对应的纠错候选词;确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。
根据本申请实施例的第二方面,提供了另一种搜索数据处理方法,包括:接收对象的查询请求;对所述查询请求中错误的地理搜索关键词进行纠错处理,获得正确地理搜索关键词,其中,所述纠错数据处理为权利要求1-10中任一项搜索数据处理方法所述的数据处理;根据所述正确地理搜索关键词,对所述查询请求进行处理,获得查询结果。
根据本申请实施例的第三方面,提供了一种搜索数据处理装置,包括:纠错候选确定模块,召回错误搜索词对应的纠错候选词;特征确定模块,确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;纠错模块,根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。
根据本申请实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述的搜索数据处理方法对应的操作。
根据本申请实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的搜索数据处理方法。
根据本申请实施例提供的方案,预先建立了资源池和用于指示纠错候选词的多模态特征,当对象输入了错误搜索词时,可以首先从多方面召回纠错候选词,进而采用排序模型基于多模态特征对召回的纠错候选词进行打分排序,根据排序打分结果来确定纠错结果。由此,无需针对不同召回规则设置不同的排序规则,从而对于纠错候选词的召回与排序策略进行了解耦,简化了纠错实现,降低了纠错成本。并且,还有利于快速上线各种召回机制,快速补充需要的多模态特征;以及,对于纠错候选词的特征表达也更完备,排序结果更准确、合理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1A为本申请实施例所涉及的系统的框架示意图;
图1B为本申请实施例所提供的一种搜索数据处理方法的流程示意图;
图2为本申请实施例所提供的统一排序的框架示意图;
图3为本申请实施例所提供的另一种搜索数据处理方法的流程示意图;
图4为本申请实施例所提供的一种数据处理装置的结构示意图;
图5为申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。如图1A所示,图1A为本申请实施例所涉及系统的框架示意图。具体而言包括三个部分:离线建设、在线召回和在线统一排序。
在离线建设部分,预先基于对象的改写记录进行统计和挖掘,也可以根据实际中的兴趣点实体建立相关的实体库以及对应的拼音库,以及对汉字资源的挖掘(包括音近或者形近的汉字挖掘),同时还可以进行特征的挖掘以及模型的训练。这种离线建设可以是预先完成的,也可以是根据需要不断的补充和迭代更新。
在离线部分可以预先建立用于召回纠错候选词的资源池,所述资源池中设置有:包含有初始输入和改写输入的词组对的数据库、包含实体兴趣点的实体库、汉字替换候选数据库和包含查询词或者查询词片段之间的替换概率的替换数据库。
对于改写数据库而言,可以通过如下方式预先建立:统计对象改写日志,确定出可信的改写日志,其中,所述改写日志中包含初始输入和对应的改写输入,即统计对象的改写日志,确定出可信的改写日志。
例如在改写日志中,对象首先输入了错误输入“搜索词1”进行检索失败,然后又输入了改写输入“搜索词2”进行检索。那么即可以将(搜索词1,搜索词2)作为一个纠错对。进而对这样的纠错对进行可信认定,例如,高频出现的纠错对可认为是可信的,即大量对象最终选择了搜索词2进行检索;或者,确定搜索词2与现实中的实体对应,那么也可以确定纠错对是可信的。从而可以根据所述挖掘得到的可信的改写日志,建立包含初始输入和改写输入的词组对的改写数据库,以便后续查询召回。
兴趣点的实体库,可以通过存储实际中存在的实体兴趣点的方式建立,例如,通过实体兴趣点的实体库存储实际存在的街道名称、建筑名称、酒店名称等等。
汉字替换候选数据库可以用于存储拼音形似或者字形相似的汉字组。例如,读音相似包括拼音相同或者模糊音,例如前鼻音和后鼻音,如tanshang和tangshang即互为模糊音;平舌音和翘舌音也互为模糊音,如zhi和zi即互为模糊音等等;字形相似包括部分相似、偏旁相似等等,可以从相关的字典或者语料库中挖掘得到。
替换数据库用于存储可以互相替换的查询词或者查询词片段,以及互相之间的替换概率,替换概率表征了进行替换之后的查询词的语义的完整性,即替换概率是一种语义特征。在当前技术中,通常都是人工挖掘的方式来确定替换词及对应的替换概率。基于此,本申请实施例中提供一种采用对齐模型的方式来建立替换数据库。
具体而言,可以多个任务场景中获得对齐后的平行语料,所述任务场景包括同义词替换、翻译替换或者查询改写。例如,在不同的任务场景下挖掘得到多种平行语料,平行语料是一种在正反两种场景中都可能存在的语料。即用户输入了包含“正确语料元素”的词进行搜索,可能得到包含“错误语料元素”的结果;也有可能是用户输入了包含“错误语料元素”的搜索词,而得到包含了“正确语料元素”的结果。“正确语料元素”和“错误语料元素”的长度可能相同也可能不同。
因此,可以首先对改写记录进行对齐处理,对齐处理指的是将改写记录中所包含的两个词组对齐之后的长度相等。例如,对于“龙家宝”即与“隆家堡”对齐。一个真实的改写记录(麻阳龙家宝,隆家堡)经过对齐之后即变为(麻阳龙家宝,麻阳隆家堡),该词组实际上是一个对齐后的真实的平行语料。
进而可以根据前述的任务场景对挖掘得到的平行语料分类,并采用分类后的行语料进行模型训练而得到对齐模型。例如,即从麻阳龙家宝预测得到麻阳隆家堡。由于训练得到的对齐模型是对应了多个不同的任务场景,因此,在训练得到了对齐模型之后,即可以对于任意输入的查询词或者查询词片段,自动化的产出在各任务场景下所相对准确的替换资源,并同时自动化的确定各替换资源的替换概率,从而建立包含所述替换资源和替换概率的数据库。
在对平行语料进行对齐处理之前,还可以进行过滤式的预处理,即从获取得到的改写记录中滤除改写前后长度差异超过阈值的改写记录。例如,如果改写记录中改写前后长度差异超过3,即认为对象是输入了另外一个完全无关的搜索词,从而提高获取得到的改写记录的准确度。
进一步地,即可以基于(麻阳龙家宝,麻阳隆家堡)这样的平行语料(可以是真实的平行语料,也可以是模拟的平行语料),确定错误搜索词中所包含的训练特征,以正确输入作为标签来训练得到对齐模型。
在线召回部分即可以根据离线建设中得到的资源池和对象输入的错误搜索词,来召回得到与错误搜索词对应的相关纠错候选词。
在线统一排序部分即可以基于离线建设中的多维度的特征来对召回的纠错候选词进行统一排序,并输出纠错结果。
如图1B所示,图1B为本申请实施例所提供的一种搜索数据处理方法的流程示意图,包括:
S101,召回错误搜索词对应的纠错候选词。
错误搜索词指的是在实际中并不存在对应实体的搜索词。例如,对象输入“手开广场”,而实际上在对象附近并不存在“手开广场”,搜索时不能找到匹配结果,此时即可确定该输入为错误搜索词。
因此,可以从离线建设的资源池中召回相应的纠错候选词。对于纠错候选词的召回可以并行的从多个方面进行具体包括并行执行的改写召回、拼音召回、形近召回、实体召回、组合召回,召回错误搜索词对应的纠错候选词中的一种或者几种,以下分别进行说明。
第一种,拼音召回或者形近召回。即从所述汉字替换候选数据库中,确定与所述错误搜索词(包括错误搜索词中的部分汉字)读音相似或者字形相似的形近字作为纠错候选词。
读音相似包括拼音相同或者模糊音,例如前鼻音和后鼻音,如tanshang和tangshang即互为模糊音;平舌音和翘舌音也互为模糊音,如zhi和zi即互为模糊音等等。服务端中可以预先建立与实体对应的兴趣点的名称的拼音库,从而可以从拼音实体库中直接召回拼音相似的纠错候选词。
或者,还可以基于历史记录中对象对于各实体的点击频率,将高频的拼音所对应的实体确定为纠错候选词。
此外,对于错误搜索词,还可以对于错误搜索词中存在形式字形的单个字符进行替换,从而得到纠错候选词,即形近召回。例如,对于“上堂街”,其中的“堂”存在相似的字符“棠”,因此可以得到纠错候选词“上棠街”。
第二种,改写召回。即从所述改写数据库中,确定包含错误搜索词的改写日志,将所述改写日志中的改写输入确定为纠错候选词。
如前所述,改写数据库中已经存储了被认为可信的改写记录(搜索词1,搜索词2),因此,当用户再次输入错误搜索词“搜索词1”时,即可以直接从改写数据中将搜索词2确定为可能是对象想要的检索结果,即将改写输入确定为纠错候选词。
第三种,实体召回。即从所述实体库中,确定与所述错误搜索词所对应的兴趣点实体,将所述兴趣点实体确定为纠错候选词。。
当错误搜索词是一种随机错误时,实际上基于历史资源很难挖掘得到相应的纠错对,常规模型也很难识别这种随机错误。
例如,当对象本来想找“塘上村”,但是其记得不太清楚,记错了名字甚至顺序,在搜索时输入了“上堂村”。这种错误本来发生的概率就较低,因此基于纠错对的改写或者相似召回很难生效。
此时,可以基于前述预先建立的兴趣点实体库进行实体召回,所述兴趣点实体库用于存储实际中存在的兴趣点实体,例如,实际存在的街道名称、建筑名称、酒店名称等等。
进而,对所述错误搜索词中可能存在的错误项进行遍历,所述错误项包括字符错误或者顺序错误。换言之,可以遍历每个字符,对每个字符进行替换,得到读音相近或者字形相近的另一字符,再进行组合,而得到包含多个可能的正确输入的集合。
例如,当对象输入了“上堂村”,那么通过遍历,首先假设“上”中包含字符错误或者顺序错误,然后确定“上”中仅存在可能的顺序错误,从而得到可能的正确输入“堂上村”和“堂村上”;进而假设“堂”中包含字符错误或者顺序错误,而得到可能的正确输入“上棠村”、“上塘村”、“堂上村”、“棠上村”、“塘上村”等等,依次类推,最终得到包含多个可能的正确输入的集合。
进而将该集合中的元素与兴趣点实体库进行比对,由于预先建立的实体库中包含有“塘上村”,因此,即可以将“塘上村”作为纠错候选词。
第四种,组合召回。从所述替换数据库中确定替换概率高于阈值的替换片段,根据替换片段和所述错误搜索词生成对应的组合词语,将所述组合词语确定为纠错候选词。
训练好了之后的对齐模型,即可以直接根据对象的错误搜索词,来生成得到若干对应的替换资源,以及确定所述替换资源所对应的替换概率,进而可以从若干替换资源中,基于替换概率选取得到与对象的错误搜索词所对应的纠错候选词。
例如,基于已经训练好的对齐模型,对于输入片段“龙家宝”,可以分别得对应于不同任务场景的替换资源和替换概率为(隆家堡,0.55)、(农家煲,0.68)等,并将数据记录[龙家宝,(隆家堡,0.55),(农家煲,0.68)]写入替换数据库,以待召回,从而将替换概率满足阈值(例如,替换概率超过0.5)的替换资源选取为纠错候选词。
S103,确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征或所述纠错候选词的搜索历史的搜索特征。
属性特征可以包括诸如语义特征、基础特征或者地理区域特征等等,搜索特征可以包括热度特征(即搜索频率或者搜索比例等等),实际应用中可以采用前述特征中的一种或者多种的组合。
语义特征表征了所述纠错候选词的语义。例如,语义特征包含诸如语言模型、替换概率以及归一化特征等等。
在一种实施例中,对于对齐模型召回的替换资源,可以基于对齐模型确定所述替换资源所对应的替换概率,进而使用对齐模型所计算得到的替换概率来作为属性特征之一。而对于其它召回方式所得到的纠错候选词,可以根据各替换资源被对象的点击数来统计被点击的次数,从而根据点击数与总点击数的比例来确定替换概率,并作为属性特征之一,从而可以避免人工拟合替换概率,提高效率和准确性。
热度特征表征了所述纠错候选词或者纠错候选词中的部分片段被对象点击的热度。例如,热度特征可以包括了纠错候选词的改写记录的被对象点击的频次,也可以是改写记录中的一个词组被对象点击的频次,以及,也可以是被该词组所对应的实体的所属地理区域的对象点击的频次,或者被全国的对象点击的频次。
基础特征表征了所述纠错候选词中所包含的内容的自身属性。例如,基础特征可以包含了编辑距离(即改写记录中两个词组所对应的向量的空间距离),或者纠错候选词本身所包含的预先给定的标签,以及在排模型中的累积分布特征等等。
所述地理区域特征表征了所述纠错候选词所对应的地理区域。具体而言,其可以包括对象在搜索时所述的位置城市,搜索的目标城市,以及纠错候选词所对应的城市等等。
S105,根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。
排序模型(Learning to rank,LTR)可以是实现基于前述的多模态特征离线训练得到的。例如,排序模型可以是一个梯度提升决策树(Gradient Boosting Decision Tree,GBDT)。在得到多个纠错候选词时,由于每个纠错候选词的多模态特征已经被确定,排序模型即可以基于前述的多模态特征对所述纠错候选词进行统一的排序,从而将排序前列的多个纠错候选词确定为所述错误搜索词对应的纠错结果。如图2所示,图2为本申请实施例所提供的统一排序的框架示意图。换言之,排序阶段与各纠错候选词的特征确定和纠错候选词的召回无关,即纠错候选词的召回与排序是解耦的。
根据本申请实施例提供的方案,预先建立了资源池和用于指示纠错候选词的多模态特征,当对象输入了错误搜索词时,可以首先从多方面召回纠错候选词,进而采用排序模型基于多模态特征对召回的纠错候选词进行打分排序,根据排序打分结果来确定纠错结果。由此,无需针对不同召回规则设置不同的排序规则,从而对于纠错候选词的召回与排序策略进行了解耦,简化了纠错实现,降低了纠错成本。并且,还有利于快速上线各种召回机制,快速补充需要的多模态特征;以及,对于纠错候选词的特征表达也更完备,排序结果更准确、合理。
本实施例的搜索数据处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
本申请实施例的第二方面,提供了另一种搜索数据处理方法,如图3所示,图3为本申请实施例所提供的另一种数据处理方法的流程示意图,包括:
S301,接收对象的查询请求。
例如,对象可以通过相应的应用,如地图导航应用、生活服务应用(外卖等)、网约车应用、数据采集应用、旅行预订应用等需要地理数据搜索功能的应用,输入相应的搜索词如地名等,并基于搜索词生成查询请求,以进行相应的查询。
S303,对所述查询请求中错误的地理搜索关键词进行纠错处理,获得正确地理搜索关键词。正确地理搜索关键词
其中,所述纠错处理可以采用前述第一方面实施例中所描述的搜索数据处理方法实现,在此不再赘述。
S305,根据所述正确地理搜索关键词,对所述查询请求进行处理,获得查询结果正确地理搜索关键词。
例如,在对“手开广场”进行纠错数据处理,获得正确的“首开广场”这一正确地理搜索关键词后,即可搜索“首开广场”的相关信息并基于地图进行显示,或者直接在相应的显示界面中进行显示。其中,所述相关信息包括但不限于:“首开广场”的位置信息、周边信息、交通信息等。
通过本实施例,可准确地对包含有错误地理搜索关键词的查询请求进行纠错处理,并基于纠错后的结果进行快速的地理数据的查询。由此,大大提高了基于错误地理搜索关键词的查询效率,并且能够反馈较为准确的查询结果。
本申请实施例的第三方面,提供了一种数据处理装置,如图4所示,图4为本申请实施例所提供的一种数据处理装置的结构示意图,包括:
纠错候选确定模块401,召回错误搜索词对应的纠错候选词对象;
特征确定模块403,确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;
纠错模块405,根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。
可选地,纠错候选确定模块401,通过并行执行的改写召回、拼音召回、形近召回、实体召回、组合召回,召回错误搜索词对应的纠错候选词。
可选地,在所述装置中,还包括资源池建设模块407,预先建立用于召回纠错候选词的资源池,所述资源池中设置有:包含有初始输入和改写输入的词组对的数据库、包含实体兴趣点的实体库、汉字替换候选数据库,和包含查询词或者查询词片段之间的替换概率的替换数据库;相应的,所述纠错候选确定模块401,基于所述错误搜索词和所述资源池,召回所述错误搜索词对应的纠错候选词。
可选地,所述资源池建设模块407,统计对象改写日志,确定出可信的改写日志,其中,所述改写日志中包含初始输入和对应的改写输入;根据所述可信的改写日志,建立包含初始输入和改写输入的词组对的改写数据库;或者,基于兴趣点实体的信息和对象点击信息,建立包含兴趣点实体的实体库;或者,获得预设汉字集中的汉字的形近字和/或音近字,根据所述汉字及其对应的形近字和/或音近字,建立汉字替换候选数据库;或者,统计对象输入的查询词或者查询词片段,通过对齐模型确定查询词或者查询词片段之间的替换概率,建立所述替换数据库。
可选地,所述资源池建设模块407,从多个任务场景中获得对齐后的平行语料,所述任务场景包括同义词替换、翻译替换或者查询改写;对所述平行语料进行分类,采用分类后的平行语料进行模型训练得到对齐模型;采用所述对齐模型获取查询词或者查询词片段在所述多个任务场景下所分别对应的替换资源,以及确定所述替换资源的替换概率,建立所述替换数据库。
可选地,所述资源池建设模块407,从离线资源中获取在查询时产生的改写记录;从获取得到的改写记录中滤除改写前后长度差异超过阈值的改写记录;对滤除后的改写记录进行对齐处理,获取对齐后的平行语料。
可选地,所述纠错候选确定模块401,所述形近召回包括:从所述汉字替换候选数据库中,确定与所述错误搜索词字形相似的形近字作为纠错候选词;所述改写召回包括:从所述改写数据库中,确定包含错误搜索词的改写日志,将所述改写日志中的改写输入确定为纠错候选词;所述拼音召回包括:从所述汉字替换候选数据库中,确定与所述错误搜索词读音相似的音近字作为纠错候选词;所述实体召回包括:从所述实体库中,确定与所述错误搜索词所对应的兴趣点实体,将所述兴趣点实体确定为纠错候选词;所述组合召回包括:从所述替换数据库中确定替换概率高于阈值的替换片段,根据替换片段和所述错误搜索词生成对应的组合词语,将所述组合词语确定为纠错候选词。可选地,在所述装置中,所述多模态特征中,所述属性特征包括语义特征、基础特征或者地理区域特征中的至少一种,所述语义特征表征了所述纠错候选词的语义,所述基础特征表征了所述纠错候选词中所包含的内容的自身属性,所述地理区域特征表征了所述纠错候选词所对应的地理区域;所述搜索特征包括热度特征,所述热度特征表征了所述纠错候选词或者纠错候选词中的部分片段被对象点击的热度。
可选地,在所述装置中,所述纠错候选确定模块401,采用预先训练所得到的对齐模型确定所述错误搜索词所对应的替换资源,以及,确定所述替换资源所对应的替换概率;将所述替换资源确定为错误搜索词对应的纠错候选词;所述特征确定模块403,将所述替换概率确定为所述纠错候选词的语义特征。
可选地,纠错候选确定模块401,针对所述错误搜索词中所包含的错误项,生成对应的正确输入,所述错误项包括字符错误或者顺序错误;建立包含所述错误项所对应的正确输入的集合,与预先确定的兴趣点实体库中进行匹配,将所述集合中与兴趣点实体匹配的正确输入确定为纠错候选词。
本实施例的搜索数据处理装置用于实现前述多个方法实施例中相应的搜索数据处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的搜索数据处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
本申请的第四方面,还提供了一种电子设备,参照图5,图5为本申请实施例所提供的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述搜索数据处理方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
召回错误搜索词对应的纠错候选词;
确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;
根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。
程序510中各步骤的具体实现可以参见上述搜索数据处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本申请的第五方面,还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1b或者图3所示的搜索数据处理方法。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的搜索数据处理方法。此外,当通用计算机访问用于实现在此示出的搜索数据处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的搜索数据处理方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (13)

1.一种搜索数据处理方法,包括:
召回错误搜索词对应的纠错候选词;
确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;
根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。
2.如权利要求1所述的方法,其中,召回错误搜索词对应的纠错候选词,包括:
通过并行执行的改写召回、拼音召回、形近召回、实体召回、组合召回,召回错误搜索词对应的纠错候选词。
3.如权利要求2所述的方法,其中,在召回错误搜索词对应的纠错候选词之前,所述方法还包括:
预先建立用于召回纠错候选词的资源池,所述资源池中设置有:包含有初始输入和改写输入的词组对的数据库、包含实体兴趣点的实体库、汉字替换候选数据库,和包含查询词或者查询词片段之间的替换概率的替换数据库;
所述召回错误搜索词对应的纠错候选词,包括:基于所述错误搜索词和所述资源池,召回所述错误搜索词对应的纠错候选词。
4.如权利要求3所述的方法,其中,预先建立用于召回纠错候选词的资源池,包括:
统计对象改写日志,确定出可信的改写日志,其中,所述改写日志中包含初始输入和对应的改写输入;根据所述可信的改写日志,建立包含初始输入和改写输入的词组对的改写数据库;或者,
基于兴趣点实体的信息和对象点击信息,建立包含兴趣点实体的实体库;或者,
获得预设汉字集中的汉字的形近字和/或音近字,根据所述汉字及其对应的形近字和/或音近字,建立汉字替换候选数据库;或者,
统计对象输入的查询词或者查询词片段,通过对齐模型确定查询词或者查询词片段之间的替换概率,建立所述替换数据库。
5.如权利要求4所述的方法,其中,所述统计对象输入的查询词或者查询词片段,通过对齐模型确定查询词或者查询词片段之间的替换概率,建立所述替换数据库,包括:
从多个任务场景中获得对齐后的平行语料,所述任务场景包括同义词替换、翻译替换或者查询改写;
对所述平行语料进行分类,采用分类后的平行语料进行模型训练得到对齐模型;
采用所述对齐模型获取查询词或者查询词片段在所述多个任务场景下所分别对应的替换资源,以及确定所述替换资源的替换概率,建立所述替换数据库。
6.如权利要求5所述的方法,其中,从多个任务场景中获得对齐后的平行语料,包括:
从离线资源中获取在查询时产生的改写记录;
从获取得到的改写记录中滤除改写前后长度差异超过阈值的改写记录;
对滤除后的改写记录进行对齐处理,获取对齐后的平行语料。
7.如权利要求4所述的方法,其中:
所述形近召回包括:从所述汉字替换候选数据库中,确定与所述错误搜索词字形相似的形近字作为纠错候选词;
所述改写召回包括:从所述改写数据库中,确定包含错误搜索词的改写日志,将所述改写日志中的改写输入确定为纠错候选词;
所述拼音召回包括:从所述汉字替换候选数据库中,确定与所述错误搜索词读音相似的音近字作为纠错候选词;
所述实体召回包括:从所述实体库中,确定与所述错误搜索词所对应的兴趣点实体,将所述兴趣点实体确定为纠错候选词;
所述组合召回包括:从所述替换数据库中确定替换概率高于阈值的替换片段,根据替换片段和所述错误搜索词生成对应的组合词语,将所述组合词语确定为纠错候选词。
8.如权利要求1-7任意一项权利要求所述的方法,其中,所述多模态特征中,所述属性特征包括语义特征、基础特征或者地理区域特征中的至少一种,所述语义特征表征了所述纠错候选词的语义,所述基础特征表征了所述纠错候选词中所包含的内容的自身属性,所述地理区域特征表征了所述纠错候选词所对应的地理区域;所述搜索特征包括热度特征,所述热度特征表征了所述纠错候选词或者纠错候选词中的部分片段被对象点击的热度。
9.如权利要求8所述的方法,其中,当所述语义特征包括替换概率特征时,召回错误搜索词对应的纠错候选词,包括:
采用预先训练所得到的对齐模型确定所述错误搜索词所对应的替换资源,以及,确定所述替换资源所对应的替换概率;
将所述替换资源确定为错误搜索词对应的纠错候选词;
相应的,确定所述纠错候选词的多模态特征,包括:将所述替换概率确定为所述纠错候选词的语义特征。
10.如权利要求7所述的方法,其中,从所述实体库中,确定与所述错误搜索词所对应的兴趣点实体,将所述兴趣点实体确定为纠错候选词,包括:
针对所述错误搜索词中所包含的错误项,生成对应的正确输入,所述错误项包括字符错误或者顺序错误;
建立包含所述错误项所对应的正确输入的集合,与所述实体库中所包含的兴趣点实体进行匹配,将所述集合中与兴趣点实体匹配的正确输入确定为纠错候选词。
11.一种搜索数据处理方法,包括:
接收对象的查询请求;
对所述查询请求中错误的地理搜索关键词进行纠错处理,获得正确地理搜索关键词,其中,所述纠错处理为权利要求1-10中任一项搜索数据处理方法所述的数据处理;
根据所述正确地理搜索关键词,对所述查询请求进行处理,获得查询结果。
12.一种搜索数据处理装置,包括:
纠错候选确定模块,召回错误搜索词对应的纠错候选词;
特征确定模块,确定所述纠错候选词的多模态特征,其中,所述多模态特征包括一个以上用于表征所述纠错候选词的属性的属性特征和/或所述纠错候选词的搜索历史的搜索特征;
纠错模块,根据纠错候选词的多模态特征,采用已训练的排序模型对所述纠错候选词进行排序打分,根据排序打分结果确定所述错误搜索词对应的纠错结果。
13.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-10中任一所述的搜索数据处理方法。
CN202110185536.5A 2021-02-10 2021-02-10 搜索数据处理方法、装置及计算机存储介质 Pending CN114911984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110185536.5A CN114911984A (zh) 2021-02-10 2021-02-10 搜索数据处理方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110185536.5A CN114911984A (zh) 2021-02-10 2021-02-10 搜索数据处理方法、装置及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114911984A true CN114911984A (zh) 2022-08-16

Family

ID=82761586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110185536.5A Pending CN114911984A (zh) 2021-02-10 2021-02-10 搜索数据处理方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114911984A (zh)

Similar Documents

Publication Publication Date Title
CN109885660B (zh) 一种知识图谱赋能的基于信息检索的问答系统和方法
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN110083688B (zh) 搜索结果召回方法、装置、服务器及存储介质
WO2020186627A1 (zh) 舆情极性预测方法、装置、计算机设备及存储介质
CN108549656B (zh) 语句解析方法、装置、计算机设备及可读介质
CN112100529B (zh) 搜索内容排序方法、装置、存储介质和电子设备
CN112016304A (zh) 文本纠错方法、装置、电子设备及存储介质
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN111814455B (zh) 搜索词纠错对构建方法、终端及存储介质
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN110866093A (zh) 机器问答方法及装置
EP3937029A2 (en) Method and apparatus for training search model, and method and apparatus for searching for target object
CN109522397B (zh) 信息处理方法及装置
CN116737908A (zh) 知识问答方法、装置、设备和存储介质
CN111984774B (zh) 搜索方法、装置、设备以及存储介质
CN112231451B (zh) 指代词恢复方法、装置、对话机器人及存储介质
CN111767334A (zh) 信息抽取方法、装置、电子设备及存储介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN113408273B (zh) 文本实体识别模型的训练与文本实体识别方法、装置
US9507834B2 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN117371406A (zh) 基于大型语言模型的注释生成方法、装置、设备及介质
CN111639160A (zh) 领域识别的方法、交互的方法、电子设备及存储介质
CN111339272A (zh) 代码缺陷报告检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination