CN116932922B - 搜索词条处理方法、装置、计算机设备和计算机存储介质 - Google Patents

搜索词条处理方法、装置、计算机设备和计算机存储介质 Download PDF

Info

Publication number
CN116932922B
CN116932922B CN202311205901.XA CN202311205901A CN116932922B CN 116932922 B CN116932922 B CN 116932922B CN 202311205901 A CN202311205901 A CN 202311205901A CN 116932922 B CN116932922 B CN 116932922B
Authority
CN
China
Prior art keywords
search
error correction
search term
similarity
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311205901.XA
Other languages
English (en)
Other versions
CN116932922A (zh
Inventor
易磊
朱秀红
黄泽谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311205901.XA priority Critical patent/CN116932922B/zh
Publication of CN116932922A publication Critical patent/CN116932922A/zh
Application granted granted Critical
Publication of CN116932922B publication Critical patent/CN116932922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请涉及一种搜索词条处理方法、装置、计算机设备和计算机存储介质。该方法涉及人工智能技术,该方法包括:基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;基于将两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测两个搜索词条的文本相似度;获取候选纠错对的文本相似统计特征与搜索行为统计特征;根据文本相似度、文本相似统计特征与搜索行为统计特征,识别候选纠错对是否为有效纠错对;若候选纠错对为有效纠错对,则将有效纠错对加入纠错对库中,有效纠错对用于对在线搜索词条进行纠错。采用本方法能够大幅提高纠错效果和用户的搜索体验。

Description

搜索词条处理方法、装置、计算机设备和计算机存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种搜索词条处理方法、装置、计算机设备和计算机存储介质。
背景技术
在搜索引擎中输入的搜索词条中,有相当一部分是带错误的搜索词条,提交有错误的搜索词条给搜索引擎,通常得不到好的搜索结果,返回结果数很少并且和用户的期待相差很远,会严重影响了用户的搜索体验。在搜索场景,对搜索词条进行自动纠错是一项基础能力,对用户输入的在线搜索词条中的错误进行自动纠正,可以使搜索结果更符合用户意图,提升用户搜索体验。
基于词典的纠错方式,需要通过构建巨大的词典库,将用户输入的搜索文条与词典库中的词进行匹配,从而找到可能的纠错候选词。然而,通常新兴词汇、网络热词等不在词典库中,而且从词典库中找到的可能的纠错候选词未考虑用户搜索行为的变化,导致利用词典库无法对用户输入的搜索词条进行准确纠错,在一定程度上影响纠错效果和用户的搜索体验。
发明内容
基于此,有必要针对上述技术问题,提供一种搜索词条处理方法、装置、计算机设备和计算机存储介质,能够生成高质量的有效纠错对,使用挖掘到的高质量的有效纠错对,对在线搜索词条进行自动纠错,能大幅提高纠错效果和用户的搜索体验。
第一方面,本申请提供了一种搜索词条处理方法,包括:
基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;
基于将所述两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测所述两个搜索词条的文本相似度;
获取所述候选纠错对的文本相似统计特征与搜索行为统计特征;
根据所述文本相似度、所述文本相似统计特征与所述搜索行为统计特征,识别所述候选纠错对是否为有效纠错对;
若所述候选纠错对为有效纠错对,则将所述有效纠错对加入纠错对库中,所述有效纠错对用于对在线搜索词条进行纠错。
第二方面,本申请还提供了一种搜索词条处理装置,包括:
候选纠错对获取模块,用于基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;
文本相似度确定模块,用于基于将所述两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测所述两个搜索词条的文本相似度;
统计特征获取模块,用于获取所述候选纠错对的文本相似统计特征与搜索行为统计特征;
有效性识别模块,用于根据所述文本相似度、所述文本相似统计特征与所述搜索行为统计特征,识别所述候选纠错对是否为有效纠错对;
添加模块,用于若所述候选纠错对为有效纠错对,则将所述有效纠错对加入纠错对库中,所述有效纠错对用于对在线搜索词条进行纠错。
在一个实施例中,所述候选纠错对获取模块,还用于获取在同一历史搜索会话中先后输入的多个搜索词条;从所述多个搜索词条中抽取两个相邻的搜索词条,作为一对候选纠错对。
在一个实施例中,所述候选纠错对获取模块,还用于基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;按照所述两个搜索词条是否满足预设相似条件,对所述候选纠错对进行过滤;其中,所述预设相似条件包括音形近相似条件、乱序相似条件、编辑距离相似条件中的至少一种。
在一个实施例中,所述候选纠错对获取模块,还用于若所述两个搜索词条的长度相同,则分别遍历所述两个搜索词条;若相同遍历位置的字为音近字或形近字,则确定所述两个搜索词条满足所述音形近相似条件。
在一个实施例中,所述候选纠错对获取模块,还用于若所述两个搜索词条的长度相同,则分别遍历所述两个搜索词条;若分别遍历所述两个搜索词条得到的字所形成的字集合相同,且所述两个搜索词条的语序不同,则确定所述两个搜索词条满足所述乱序相似条件。
在一个实施例中,所述候选纠错对获取模块,还用于若所述两个搜索词条的编辑距离小于预设阈值,则确定所述两个搜索词条满足所述编辑距离相似条件。
在一个实施例中,所述文本相似度确定模块,还用于查询字典向量,得到所述两个搜索词条各自对应的词条序列;将两个词条序列通过分隔符向量连接后再与分类符向量拼接,得到输入序列;通过语言表示模型的特征提取层,对所述输入序列进行语义特征,得到纠错对语义特征;通过语言表示模型的相似度计算层,基于所述纠错对语义特征输出所述两个搜索词条的文本相似度。
在一个实施例中,所述先后输入的两个搜索词条分别为第一搜索词条与第二搜索词条;所述统计特征获取模块,还用于统计所述第一搜索词条到所述第二搜索词条的编辑距离;根据所述第一搜索词条与所述第二搜索词条的拼音序列,统计拼音相似度;根据所述第一搜索词条与所述第二搜索词条的笔画序列,统计字形相似度;根据所述第一搜索词条与所述第二搜索词条是否满足乱序相似条件,确定乱序相似度;基于所述编辑距离、所述拼音相似度、所述字形相似度与所述乱序相似度,获得所述候选纠错对的文本相似统计特征。
在一个实施例中,所述先后输入的两个搜索词条分别为第一搜索词条与第二搜索词条;所述统计特征获取模块,还用于统计所述第一搜索词条与所述第二搜索词条在多个历史搜索会话中的切换行为特征,统计所述第一搜索词条与所述第二搜索词条在多个历史搜索会话中的点击行为特征;根据所述切换行为特征与所述点击行为特征,获得所述候选纠错对的搜索行为统计特征。
在一个实施例中,所述统计特征获取模块,还用于统计在多个历史搜索会话中由所述第一搜索词条切换到每个其它搜索词的切换次数,以及统计切换到每个其它搜索词条的切换次数之和;统计在多个历史搜索会话中由所述第一搜索词条切换到所述第二搜索词条的切换次数,统计由所述第一搜索词条切换到所述第二搜索词条的切换次数与切换到每个其它搜索词条的切换次数之和的比值;根据由所述第一搜索词条切换到每个其它搜索词条的切换次数、所述比值,获得所述第一搜索词条与所述第二搜索词条在多个历史搜索会话中的切换行为特征。
在一个实施例中,所述统计特征获取模块,还用于统计与所述第一搜索词条、所述第二搜索词条相关的搜索结果的曝光率、点击率,统计所述第一搜索词条、所述第二搜索词条与被点击的曝光搜索结果的完全匹配次数和与被点击的曝光搜索结果的部分匹配次数;根据所述曝光率、点击率、所述完全匹配次数和所述部分匹配次数,获得所述第一搜索词条与所述第二搜索词条在多个历史搜索会话中的点击行为特征。
在一个实施例中,所述统计特征获取模块,还用于对所述第一搜索词条与所述第二搜索词条进行序列对齐处理;根据序列对齐结果从所述第一搜索词条与所述第二搜索词条中确定第一文本片段与由所述第一文本片段切换至的第二文本片段;统计在多个历史搜索会话中由所述第一文本片段切换到每个其它文本片段的切换次数,以及统计切换到每个其它文本片段的切换次数之和;统计在多个历史搜索会话中由所述第一文本片段切换到所述第二文本片段的切换次数,统计由所述第一文本片段切换到所述第二文本片段的切换次数与切换到每个其它文本片段的切换次数之和的比值;根据由所述第一文本片段切换到每个其它文本片段的切换次数、所述比值,获得所述第一搜索词条与所述第二搜索词条在多个历史搜索会话中的切换行为特征。
在一个实施例中所述有效性识别模块,还用于将所述文本相似度、所述文本相似统计特征与所述搜索行为统计特征拼接后,得到所述候选纠错对的联合特征;基于所述联合特征输出所述候选纠错对为有效纠错对的预测概率;根据所述预测概率确定所述候选纠错对是否为有效纠错对。
在一个实施例中,所述搜索词条处理装置还包括:对所述有效纠错对所包括的第一搜索词条与第二搜索词条进行序列对齐处理,得到所述第一搜索词条与所述第二搜索词条的序列对齐结果;根据所述序列对齐结果从所述第一搜索词条与所述第二搜索词条中确定文本片段纠错对;将所述文本片段纠错对添加至纠错对库中,所述文本片段纠错对用于对在线搜索词条进行纠错。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述搜索词条处理方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述搜索词条处理方法的步骤。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述搜索词条处理方法的步骤。
上述搜索词条处理方法、装置、计算机设备、存储介质和计算机程序产品,基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,基于将该两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测该两个搜索词条的文本相似度,统计该候选纠错对的文本相似统计特征与搜索行为统计特征,根据该文本相似度、该文本相似统计特征与该搜索行为统计特征,识别该候选纠错对是否为有效纠错对,若该候选纠错对为有效纠错对,则将该有效纠错对加入纠错对库中,该有效纠错对用于对在线搜索词条进行纠错。由于是从用户搜索行为出发,从用户搜索行为中挖掘出大量的有效纠错对,也即是,该有效纠错对是基于用在同一搜索会话中先后输入的两个搜索词条挖掘出的,这样,挖掘出的有效纠错对能够及时对新兴词汇、网络热词进行覆盖,同时能够敏锐地捕捉到用户搜索行为的变化,将该有效纠错对加入纠错对库中,用于对在线搜索词条进行纠错,能够大幅提高纠错效果和用户的搜索体验。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中搜索词条处理方法的应用环境图;
图2为一个实施例中搜索词条处理方法的流程示意图;
图3为一个实施例中一个搜索会话的交互行为的示意图;
图4为一个实施例中预测两个搜索词条的文本相似度的流程示意图;
图5为一个实施例中语言表示模型的示意图;
图6为一个实施例中有效纠错对识别模型的模型结构示意图;
图7为一个实施例中满足音形近相似条件的两个搜索词条的示意图;
图8为一个实施例中满足乱序相似条件的两个搜索词条的示意图;
图9为一个实施例中满足编辑距离相似条件的两个搜索词条的示意图;
图10为一个实施例中两个搜索词条的序列对齐结果示意图;
图11为从一些候选纠错对中挖掘出文本判断纠错对的示意图;
图12为一个实施例中搜索词条处理方法的框架示意图;
图13为一个实施例中搜索词条处理装置的结构框图;
图14为一个实施例中计算机设备的内部结构图;
图15为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的搜索词条处理方法,涉及人工智能的自然语言处理技术,人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。query:用户在搜索引擎中输入的搜索词条。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
搜索会话:用户在一段时间内“打开搜索→多个页面的浏览→多个点击行为→离开搜索”的一次交互过程。
纠错:检测并纠正文本中的错误。这些错误可能包括拼写错误、语法错误、标点错误、词汇选择错误等。
纠错对:挖掘得到的“错误query->正确query”形成的一对文本。在纠错服务中对用户的错误query进行替换,保证搜索结果满足用户真实需求。
本申请实施例提供的搜索词条处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104可以基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;基于将两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测两个搜索词条的文本相似度;获取候选纠错对的文本相似统计特征与搜索行为统计特征;根据文本相似度、文本相似统计特征与搜索行为统计特征,识别候选纠错对是否为有效纠错对;若候选纠错对为有效纠错对,则将有效纠错对加入纠错对库中,有效纠错对用于对在线搜索词条进行纠错。
可选地,服务器104还可以进一步从有效纠错对中挖掘出高质量的文本片段纠错对,也即是,服务器104对有效纠错对所包括的第一搜索词条与第二搜索词条进行序列对齐处理,得到第一搜索词条与第二搜索词条的序列对齐结果;根据序列对齐结果从第一搜索词条与第二搜索词条中确定文本片段纠错对;将文本片段纠错对添加至纠错对库中,文本片段纠错对用于对在线搜索词条进行纠错。
可选地,服务器104可以获取终端102发送的搜索请求,该搜索请求携带在线搜索词条,服务器104可以基于纠错对库,对该在线搜索词条进行自动纠错,基于纠错得到的搜索词条,提交搜索请求,获得搜索结果,并将搜索结果反馈至终端102,终端102根据接收到的搜索结果展示搜索结果页面。
当然,上述搜索词条处理方法,也可以由终端102执行。例如,当终端102接收到用户输入的搜索词条并提交搜索请求后,终端102检测到用户在该搜索会话中先后输入了两个相邻的搜索词条,那么,终端102可以基于上述搜索词条处理方法,判断该两个相邻的搜索词条是否可形成有效纠错对,若是,则将有效纠错对发送至服务器104,服务器104将有效纠错对添加至纠错对库中,用于后续服务器对在线搜索词条进行自动纠错。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个示例性的实施例中,如图2所示,提供了一种搜索词条处理方法,以该方法应用于图1中的计算机设备(终端102或服务器104)为例进行说明,包括以下步骤202至步骤210。其中:
步骤202,基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对。
其中,搜索会话是在一段时间内基于先后输入的多个搜索词条发起搜索的交互过程,具体来说,是从“打开搜索页面→输入搜索词→切换搜索词→页面点击→页面浏览→离开搜索”的一次交互过程。即,用户在同一个时间段的连续操作,在短时间内输入多个搜索词条。在一个搜索会话的搜索过程中,用户输入的搜索词条经常会出现拼写错误,通常情况下,用户会对纠正错误也就是切换搜索词条后再次进行搜索,以满足搜索需求,这个过程中用户原先输入的搜索词条与切换后的搜索词条是用户主动输入、主动纠错的,通常能够覆盖新兴词汇、网络热词,同时这一过程也反应了用户在搜索过程中搜索行为的变化,说明确实可能存在纠错关系。因此,计算机设备可以获取历史搜索记录,根据同一个历史搜索会话中先后输入的两个搜索词条,获得候选纠错对。
如图3所示,为一个实施例中一个搜索会话的交互行为的示意图。参照图3,首先用户在13:38:58根据输入的“莱伯妮眼霜”发起搜索,后来发现拼写错误,或是发现基于“莱伯妮眼霜”未能获得理想的搜索结果的情况下,用户在13:39:10修改搜索词条为“莱柏妮眼霜”,重新发起搜索,类似地,在发现拼写错误,或是发现基于“莱柏妮眼霜”未能获得理想的搜索结果的情况下,用户在13:39:31修改搜索词条为“莱珀妮眼霜”,重新发起搜索,此时搜索结果中包含用户感兴趣的相关文章,用户就可以点击相关文章阅读详情。在该例子中,先后输入的两个搜索词条“莱伯妮眼霜”与“莱柏妮眼霜”、 “莱柏妮眼霜”与“莱珀妮眼霜”、“莱伯妮眼霜”与“莱珀妮眼霜”均可作为候选纠错对。
可选地,计算机设备(如终端)可以获取用户的在线搜索请求,在该在线搜索请求中的搜索词条是由另一个搜索词条切换而来的情况下,可以将该另一搜索词条、该在线搜索请求中的搜索词条,形成候选纠错对。
在一个实施例中,基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,包括:获取在同一历史搜索会话中先后输入的多个搜索词条;从多个搜索词条中抽取两个相邻的搜索词条,作为一对候选纠错对。
本实施例中,考虑到用户搜索过程中的自主纠正行为,原先输入的搜索词切换到另一个搜索词,能够准确反应连续输入的搜索词之间的纠错关系,因此以候选纠错对是同一历史搜索会话中两个相邻的搜索词条为条件,从在同一历史搜索会话中先后输入的多个搜索词条中进行抽取,可保证候选纠错对的合理性与有效性。例如,在图3所示的例子中,将输入的两个相邻的搜索词条“莱伯妮眼霜”与“莱柏妮眼霜”、 “莱柏妮眼霜”与“莱珀妮眼霜”,作为候选纠错对。
在一个实施例中,基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,包括:基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;按照两个搜索词条是否满足预设相似条件,对候选纠错对进行过滤;其中,预设相似条件包括音形近相似条件、乱序相似条件、编辑距离相似条件中的至少一种。
本实施例中,通过按照预设相似条件对获得的大量的候选纠错对进行过滤,可以仅保留可能存在纠错关系的候选纠错对,可提高后续有效性判断的处理效率。预设相似条件包括音形近相似条件、乱序相似条件、编辑距离相似条件中的至少一种。计算机设备可以保留满足上述任意一个条件的候选纠错对,也可以仅保留同时满足上述三个条件的候选纠错对,本申请实施例对此不作限制。
可选地,计算机设备还可以按照如下方式获取候选纠错对。也即是,先获取在同一历史搜索会话中先后输入的多个搜索词条,从多个搜索词条中抽取两个相邻的搜索词条,作为一对候选纠错对,这样可得到大量的候选纠错对,而后,计算机设备可以进一步按照上述的预设相似条件对抽取出的候选纠错对进行过滤,过滤掉不符合有效纠错对的潜在条件的候选纠错对,可保证后续生成的有效纠错对的准确性。
步骤204,基于将两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测两个搜索词条的文本相似度。
本申请实施例中,为了从用户搜索行为中挖掘出有效纠错对,结合抽取的候选纠错对的深度语义特征与统计特征,进行有效性评价,可保证从大量候选纠错对中挖掘出高质量的有效纠错对。其中,语义特征反应了两个搜索词条在语义层面的特征,可以用于预测该两个搜索词条是否近义,也即是否在语义层面相似。可以理解,有效纠错对通常在语义层面是相似的。
计算机设备可以通过预训练好的语言表示模型,将两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测两个搜索词条的文本相似度。该语言表示模型可以是BERT模型,采用BERT模型基于sentence pair分类任务,提取纠错对语义特征,预测两个搜索词条的文本相似度。
在一个实施例中,如图4所示,基于将两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测两个搜索词条的文本相似度,包括:
步骤402,查询字典向量,得到两个搜索词条各自对应的词条序列。
通过查询字典向量,将两个搜索词条所包括的每个字表示为字向量,从而得到该两个搜索词条各自对应的词条序列,词条序列包括每个字对应的字向量。
步骤404,将两个词条序列通过分隔符向量连接后再与分类符向量拼接,得到输入序列。
参照图5,为一个实施例中语言表示模型的示意图。参照图5,在将两个搜索词条输入之前,在首部加入[CLS]对应的字向量,即分类符向量,在两个词条序列之间加入分隔符[SEP]对应的字向量,即分隔符向量,作为分隔,这样就得到了语言表示模型的输入序列。
步骤406,通过语言表示模型的特征提取层,对输入序列进行语义特征,得到纠错对语义特征。
具体地,通过语言表示模型内部多层基于transformer的编码,可以提取出输入序列的语义特征,即纠错对语义特征。
步骤408,通过语言表示模型的相似度计算层,基于纠错对语义特征输出两个搜索词条的文本相似度。
具体地,通过语言表示模型的相似度计算层,基于纠错对语义特征进行分类,输出两个搜索词条的文本相似度,该文本相似度的取值范围为0-1,例如,P=sigmoid(cW),其中c为提取得到的纠错对语义特征,可一定程度上表示这候选纠错对的语义,W为相似度计算层的参数,预测结果P作为该两个搜索词条的文本相似度,文本相似度越靠近1代表该两个搜索词条是近义的。
本实施例中,通过语言表示模型来识别候选纠错对是否在语义上相近,可有助于挖掘出存在潜在的纠错关系的有效纠错对。
步骤206,获取候选纠错对的文本相似统计特征与搜索行为统计特征。
本申请实施例中,计算机设备还基于候选纠错对在统计层面的文本相似性、搜索行为相似性,来判断候选纠错对的有效性,保证挖掘出高质量的纠错对。
其中,文本相似统计特征可以从文本的编辑距离、拼音差异、字形差异、是否乱序等方面进行统计。搜索行为统计特征可以从候选纠错对所包括的两个搜索词条的切换行为、点击行为等方面进行统计。
步骤208,根据文本相似度、文本相似统计特征与搜索行为统计特征,识别候选纠错对是否为有效纠错对。
在得到两个搜索词条之间的文本相似度、文本相似统计特征与搜索行为统计特征之后,计算机设备就可以基于上述能够反应两个搜索词条之间的潜在的纠错关系的特征,识别该两个搜索词条是否可形成有效纠错对。
在一个实施例中,根据文本相似度、文本相似统计特征与搜索行为统计特征,识别候选纠错对是否为有效纠错对,包括:将文本相似度、文本相似统计特征与搜索行为统计特征拼接后,得到候选纠错对的联合特征;基于联合特征输出候选纠错对为有效纠错对的预测概率;根据预测概率确定候选纠错对是否为有效纠错对。
计算机设备可以使用有效纠错对识别模型来确定候选纠错对是否为有效纠错对。可选地,有效纠错对识别模型包括用于处理统计特征的特征交叉模型与用于识别两个搜索词条是否相似的语言表示模型,可基于Wide&Deep实现,单层的Wide与多层的Deep组成了有效纠错对识别模型。该有效纠错对识别模型可通过联合训练上述的线性模型和上述的一个神经网络组件得到,在同一个模型中实现记忆与泛化。通过有效纠错对识别模型根据联合特征输出两个搜索词条是否构成有效纠错对的预测概率,预测概率越大,比如大于预设阈值如0.8时,可认定两个搜索词条是否构成有效纠错对,该候选纠错对可视为有效纠错对。
如图6所示,为一个实施例中有效纠错对识别模型的模型结构示意图。该有效纠错对识别模型的训练方式可以是,构造样本纠错对,其标签数据,根据样本纠错对所包括的两个样本词条是否为有效纠错对而设置为1(有效纠错对)或0(非有效纠错对),文本相似统计特征与搜索行为统计特征,依据两个样本词条相关的搜索日志数据统计得到。这样,在训练模型时,根据两个样本词条查询字典向量,得到两个样本词条各自对应的词条序列,将两个词条序列通过分隔符向量连接后再与分类符向量拼接,得到输入序列;通过有效纠错对识别模型中包括的语言表示模型的特征提取层,对输入序列进行语义特征,得到纠错对语义特征,通过语言表示模型的相似度计算层,基于纠错对语义特征输出两个样本词条的文本相似度,接着,将文本相似度、两个样本词条相关的文本相似统计特征与搜索行为统计特征拼接后,得到样本纠错对的联合特征;再通过有效纠错对识别模型中的输出层,基于联合特征输出样本纠错对为有效纠错对的预测概率;根据预测概率与标签数据的差异,构成损失函数,基于损失函数调整模型参数。
可选地,有效纠错对识别模型中包括的语言表示模型可以是预训练模型,训练过程中,语言表示模型的参数可不进行更新,仅更新效纠错对识别模型中的输出层的参数。当然,语言表示模型的参数也可以与输出层的参数进行联合更新。
按照上述方式进行模型训练,使得训练好的有效纠错对识别模型具备依赖上述的文本相似度、文本相似统计特征与搜索行为统计特征准确预测两个搜索词条是否构成有效纠错对的能力。
步骤210,若候选纠错对为有效纠错对,则将有效纠错对加入纠错对库中,有效纠错对用于对在线搜索词条进行纠错。
按照上述步骤挖掘出的有效纠错对,可用于对在线搜索词条进行自动纠错。计算机设备可以将有效纠错对加入纠错对库中,便于对后续接收到的搜索请求携带的搜索词条进行自动纠错。例如,在基于词典的纠错方式中,挖掘出的有效纠错对可提高词典的质量,从而利用词典库对用户输入的搜索词条进行准确纠错,在一定程度上提高纠错效果和用户的搜索体验。
上述搜索词条处理方法,基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,基于将该两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测该两个搜索词条的文本相似度,统计该候选纠错对的文本相似统计特征与搜索行为统计特征,根据该文本相似度、该文本相似统计特征与该搜索行为统计特征,识别该候选纠错对是否为有效纠错对,若该候选纠错对为有效纠错对,则将该有效纠错对加入纠错对库中,该有效纠错对用于对在线搜索词条进行纠错。由于是从用户搜索行为出发,从用户搜索行为中挖掘出大量的有效纠错对,也即是,该有效纠错对是基于用在同一搜索会话中先后输入的两个搜索词条挖掘出的,这样,挖掘出的有效纠错对能够及时对新兴词汇、网络热词进行覆盖,同时能够敏锐地捕捉到用户搜索行为的变化,将该有效纠错对加入纠错对库中,用于对在线搜索词条进行纠错,能够大幅提高纠错效果和用户的搜索体验。
在一个实施例中,判断两个搜索词条是否满足音形近相似条件的步骤包括:若两个搜索词条的长度相同,则分别遍历两个搜索词条;若相同遍历位置的字为音近字或形近字,则确定两个搜索词条满足音形近相似条件。
其中,音近字是指拼音相近的两个字,形近是指字形相近的两个字。若两个搜索词条的长度相同,计算机设备可以遍历两个搜索词条,对相同遍历位置的两个,根据其拼音序列或笔画序列判断是否为音近字或形近字,若是,则可以确定两个搜索词满足音形近相似条件。
具体而言,计算机设备可以获取两个搜索词条各自的拼音序列,计算该两个拼音序列的最长公共子序列,计算该两个拼音序列中的较长序列的长度,若两个拼音序列的最长公共子序列的长度与该两个拼音序列中的较长序列的长度的比值,大于预设阈值,则可以确定两个搜索词条满足音形近相似条件,该预设阈值可以根据实际情况进行设置,本实施例对此不作限制。
类似地,计算机设备可以获取两个搜索词条各自的笔画序列,计算该两个笔画序列的最长公共子序列,计算该两个笔画序列中的较长序列的长度,若两个笔画序列的最长公共子序列的长度与该两个笔画序列中的较长序列的比值大于预设阈值,则可以确定两个搜索词条满足音形近相似条件,该预设阈值可以根据实际情况进行设置,本实施例对此不作限制。
此处说明计算两个序列的最长公共子序列的步骤:以两个序列 X、Y 为例,设有二维数组f[i,j] 表示 X 的第 i 位和 Y 的第 j 位之前的最长公共子序列的长度,则有:
f[1][1]= same(1,1);
f[i,j] = max{f[i-1][j -1] +same(i,j),f[i-1,j],f[i,j-1]};
其中,same(a,b)当 X 的第 a 位与 Y 的第 b 位相同时取值为1,否则取值为0。
此时,该二维数组中最大的数,便是 X 和 Y 的最长公共子序列的长度,依据该数组回溯,便可找出X 和 Y 的最长公共子序列。
如图7所示,为一个实施例中满足音形近相似条件的两个搜索词条的示意图。对于从搜索会话中抽取出的类似这样的两个搜索词条,可作为候选纠错对,实现对候选纠错对的高质量筛选。
在一个实施例中,判断两个搜索词条是否满足乱序相似条件的步骤包括:若两个搜索词条的长度相同,则分别遍历两个搜索词条;若分别遍历两个搜索词条得到的字所形成的字集合相同,且两个搜索词条的语序不同,则确定两个搜索词条满足乱序相似条件。
具体来说,若两个搜索词条的长度相同,即包含的字数相同,且字集合也相同,即包含的文字完全相同,仅语序不相同,则可认为两个搜索词条满足乱序相似条件。在两个搜索词条的长度相同、且字集合也相同的情况下,计算机设备可以分别对两个搜索词条进行分词处理,若各自的分词结果不一致,则可认为两个搜索词条的语序不同,从而可确定两个搜索词条满足乱序相似条件。如图8所示,为一个实施例中满足乱序相似条件的两个搜索词条的示意图。对于从搜索会话中抽取出的类似这样的两个搜索词条,可作为候选纠错对,实现对候选纠错对的高质量筛选。
在一个实施例中,判断两个搜索词条是否满足编辑距离相似条件的步骤包括:若两个搜索词条的编辑距离小于预设阈值,则确定两个搜索词条满足编辑距离相似条件。
若两个搜索词条的编辑距离小于预设阈值,则确定两个搜索词条满足编辑距离相似条件。该预设阈值可以是1,即通过将其中一个搜索词条编辑1 次,可以得到其中另一个搜索词条。此处的编辑1次可以是指增加1个字、删除1个词、替换其中的1个字。
如图9所示,为一个实施例中满足编辑距离相似条件的两个搜索词条的示意图。对于从搜索会话中抽取出的类似这样的两个搜索词条,可作为候选纠错对,实现对候选纠错对的高质量筛选。
可以理解,按照上述各种方式过滤得到的候选纠错对所包括的两个搜索词条,不会是完全相同的两个搜索词条。
在一个实施例中,先后输入的两个搜索词条分别为第一搜索词条与第二搜索词条;统计候选纠错对的文本相似统计特征的步骤包括:统计第一搜索词条到第二搜索词条的编辑距离;根据第一搜索词条与第二搜索词条的拼音序列,统计拼音相似度;根据第一搜索词条与第二搜索词条的笔画序列,统计字形相似度;根据第一搜索词条与第二搜索词条是否满足乱序相似条件,确定乱序相似度;基于编辑距离、拼音相似度、字形相似度与乱序相似度,获得候选纠错对的文本相似统计特征。
候选纠错对的文本相似统计特征包括多个维度的特征,如编辑距离、拼音相似度、字形相似度、乱序相似度,等等。
可选地,计算机设备可以统计将第一搜索词条修改为第二搜索词条所需的最少编辑次数,作为第一搜索词条到第二搜索词条的编辑距离,例如,若所需的最少编辑次数为1,则该维度的特征即为1,若所需的最少编辑次数为2,则该维度的特征即为2。
可选地,计算机设备可以获取第一搜索词条与第二搜索词条各自的拼音序列,即第一拼音序列与第二拼音序列,计算机设备可以统计将第一拼音序列修改为第二拼音序列所需的最少编辑次数,作为第一搜索词条到第二搜索词条的拼音相似度。
可选地,计算机设备可以获取两个搜索词条各自的拼音序列,即第一拼音序列与第二拼音序列,计算该两个拼音序列的最长公共子序列,计算该两个拼音序列中的较长序列的长度,计算该两个拼音序列的最长公共子序列的长度与该两个拼音序列中的较长序列的长度的比值,将该比值作为第一搜索词条到第二搜索词条的拼音相似度。
可选地,计算机设备可以获取两个搜索词条各自的笔画序列,即第一笔画序列与第二笔画序列,计算该两个笔画序列的最长公共子序列,计算该两个笔画序列中的较长序列的长度,计算该两个笔画序列的最长公共子序列的长度与该两个笔画序列中的较长序列的长度的比值,将该比值作为第一搜索词条到第二搜索词条的字形相似度。
可选地,计算机设备可以分别遍历两个搜索词条;若分别遍历两个搜索词条得到的字所形成的字集合相同,且两个搜索词条的语序不同,则确定两个搜索词条满足乱序相似条件,则相应的乱序相似度可以取值为1,否则若不满足乱序相似条件,则相应的乱序相似度可以取值为0。
按照上述方式,计算机设备将统计的候选纠错对对应各个维度的特征拼接,得到文本相似统计特征,该文本相似统计特征可在一定程度上反应两个搜索词条是否相似,即是否存在可能的纠错关系。
在一个实施例中,统计候选纠错对的搜索行为统计特征的步骤包括:统计第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征,统计第一搜索词条与第二搜索词条在多个历史搜索会话中的点击行为特征;根据切换行为特征与点击行为特征,获得候选纠错对的搜索行为统计特征。
其中,多个历史搜索会话,可以是过去一段时间内产生的搜索会话,例如,获取过去一周内涉及到该第一搜索词条的多个历史搜索会话。计算机设备可以根据在这些历史搜索会话中第一搜索词条切换到其它搜索词条的次数,来挖掘第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征。计算机设备可以根据在这些历史搜索会话中基于第一搜索词条与第二搜索词条发生的点击行为,来挖掘第一搜索词条与第二搜索词条在多个历史搜索会话中的点击行为特征。
可选地,统计第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征,包括:统计在多个历史搜索会话中由第一搜索词条切换到每个其它搜索词的切换次数,以及统计切换到每个其它搜索词条的切换次数之和;统计在多个历史搜索会话中由第一搜索词条切换到第二搜索词条的切换次数,统计由第一搜索词条切换到第二搜索词条的切换次数与切换到每个其它搜索词条的切换次数之和的比值;根据由第一搜索词条切换到每个其它搜索词条的切换次数、比值,获得第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征。
举例来说,在获取的多个历史搜索会话中,第一搜索词条q1切换到其它搜索词条q2、q3、q4、…的切换次数分别为n1、n2、n3、n4、……,切换次数之和为N,假设候选纠错对为q1和q2,则计算n12/N。计算机设备可以将为n1、n2、n3、n4、n1/N拼接,作为第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征。
可选地,统计第一搜索词条与第二搜索词条在多个历史搜索会话中的点击行为特征,包括:统计与第一搜索词条、第二搜索词条相关的搜索结果的曝光率、点击率,统计第一搜索词条、第二搜索词条与被点击的曝光搜索结果的完全匹配次数和与被点击的曝光搜索结果的部分匹配次数。
其中,曝光率是指与该搜索词条对应的每个搜索结果的曝光次数与基于该搜索词条发出的搜索行为的占比,例如,与搜索词条A对应的搜索结果有M个,包括M1、M2、M3、……,基于搜索词条A发出的搜索请求有N个,其中M1在N次搜索请求中出现了N1次,则N1/N即为该搜索结果M1的曝光率,搜索结果M1的点击率即被点击的次数K1与曝光次数N1的比值。
被点击的曝光搜索结果是指该搜索词条对应的某个搜索结果被曝光且被点击,搜索词条与被点击的曝光搜索结果完全匹配,是指该被点击的曝光搜索结果中完全包括该搜索词条中的每个字或每个词,搜索词条与被点击的曝光搜索结果部分匹配,是指该被点击的曝光搜索结果中包括了该搜索词条中的部分字或部分词。计算机设备可以统计第一搜索词条与被点击的曝光搜索结果的完全匹配次数和与被点击的曝光搜索结果的部分匹配次数,统计第二搜索词条与被点击的曝光搜索结果的完全匹配次数和与被点击的曝光搜索结果的部分匹配次数。根据统计的上述 维度的特征,计算机设备可以获得第一搜索词条与第二搜索词条在多个历史搜索会话中的点击行为特征。
其中,多个历史搜索会话,可以是过去一段时间内产生的搜索会话,例如,获取过去一周内涉及到该第一搜索词条的多个历史搜索会话,获取过去一周内涉及到该第二搜索词条的多个历史搜索会话,可以理解,涉及到该第一搜索词条的多个历史搜索会话与涉及到该第二搜索词条的多个历史搜索会话可能不完全相同。
可选地,统计第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征,包括:对第一搜索词条与第二搜索词条进行序列对齐处理;根据序列对齐结果从第一搜索词条与第二搜索词条中确定第一文本片段与由第一文本片段切换至的第二文本片段;统计在多个历史搜索会话中由第一文本片段切换到每个其它文本片段的切换次数,以及统计切换到每个其它文本片段的切换次数之和;统计在多个历史搜索会话中由第一文本片段切换到第二文本片段的切换次数,统计由第一文本片段切换到第二文本片段的切换次数与切换到每个其它文本片段的切换次数之和的比值;根据由第一文本片段切换到每个其它文本片段的切换次数、比值,获得第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征。
本实施例中,通过从第一搜索词条与第二搜索词条中挖掘出文本片段纠错对,根据文本片段纠错对在这些历史搜索会话中的切换次数,来挖掘第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征。
例如,候选纠错对为 “平果手机”与“苹果手机”,计算机设备对其进行序列对齐处理,得到第一文本片段与第二文本片段为“平果”与“苹果”。具体地,在获取的多个历史搜索会话中,第一文本片段s1切换到其它文本片段s2(假设为第二文本片段)、s3、s4、…的切换次数分别为n1、n2、n3、n4、……,切换次数之和为N,则计算n1/N。计算机设备可以将为n1、n2、n3、n4、n1/N拼接,作为第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征。
在一个实施例中,方法还包括:对有效纠错对所包括的第一搜索词条与第二搜索词条进行序列对齐处理,得到第一搜索词条与第二搜索词条的序列对齐结果;根据序列对齐结果从第一搜索词条与第二搜索词条中确定文本片段纠错对;将文本片段纠错对添加至纠错对库中,文本片段纠错对用于对在线搜索词条进行纠错。
本实施例中,基于字符相似度的序列对齐,使得对齐后两个序列各位置字符相似度之和最大。对于两个序列,定义序列相似度矩阵,该相似度矩阵对应着两个序列对齐后序列的最大相似度,根据该相似度矩阵即可获得两个序列相似度最大的对齐方式。
首先,初始化相似度矩阵:创建一个(M+1) x (N+1)大小的矩阵,其中M和N分别表示输入序列的长度。设置矩阵的第一行和第一列,使其表示序列的插入或删除的累积罚分。
接着,相似度矩阵填充:使用比对得分标准,遍历输入序列,根据这三个值填充矩阵的每个单元格:对角线值(表示序列中的字符匹配或不匹配),左侧值(表示字符插入或删除)和上方值(表示字符插入或删除)。通常情况下,相似得分较高,不相似和插入/删除的得分较低。具体来说,假设:
序列1:A1A2...Ai;
序列2:B1B2...Bj;
得分矩阵:S(i, j),表示序列1的前i个字符与序列2的前j个字符的相似得分。相似得分:MATCH_SCORE(Ai, Bj),表示字符Ai与Bj的相似分数,如果相似得分高则得分,否则罚分。插入/删除罚分:表示插入或删除字符的罚分。
根据上述的传播公式即可得到相似度矩阵中各个位置的值。
接着,回溯:从矩阵的右下角开始回溯,构建最佳全局比对。回溯过程中将选择最佳的对齐方式,例如:当前单元格的值是通过左侧单元格插入或删除得到的,则在较长序列中插入一个空位。当前单元格的值是通过匹配或不匹配得到的(对角线方向),则将两个序列的当前字符添加到比对中。当前单元格的值是通过上方单元格插入或删除得到的,则在较短序列中插入一个空位。根据这些规则继续沿着矩阵向左上角回溯,直到到达起始位置。最后构建的比对序列即为最佳全局比对。
在获得上述对齐结果后,对第一搜索词条与第二搜索词条进行分词处理,根据序列对齐结果对分词结果进行匹配,对于不匹配的分词对,就可以从中确定第一文本片段与由第一文本片段切换至的第二文本片段。
如图10所示,为一个实施例中两个搜索词条的序列对齐结果及文本片段纠错对的示意图。
如图11所示,为按照上述方法从一些候选纠错对中挖掘出文本判断纠错对的示意图。
如图12所示,为一个实施例中搜索词条处理方法的框架示意图。参照图12,该方法包括候选纠错对生成、有效性判断、序列对齐等处理步骤,候选纠错对生成,即使用音形近似、编辑距离、乱序串判断等方式,挖掘候选纠错对;有效性判断,即提取候选纠错对中第一搜索词条与第二搜索词条的各维度特征,通过模型学习对候选纠错对进行判断,获得高质量的有效纠错对;序列对齐,即结合音形相似计算第一搜索词条与第二搜索词条的序列对齐结果,基于序列对齐结果与分词结果提取文本片段纠错对。基于该框架,可从用户的搜索会话挖掘出大量的有效纠错对与文本片段纠错对,提高后续在线自动纠错的效果与用户的搜索体验。可以理解的是,候选纠错对生成时,可以根据实际业务需求进行调整,包括但不限于增加新的候选筛选规则、调整规则计算逻辑。有效性判断时所需的统计特征,可以根据实际业务需求进行调整,包括但不限于增加新的统计特征、调整特征计算逻辑。
在一个具体的实施例中,搜索词条处理方法可以由计算机设备执行,包括如下步骤:
步骤1、获取在同一历史搜索会话中先后输入的多个搜索词条;
步骤2、从多个搜索词条中抽取两个相邻的搜索词条,作为一对候选纠错对。
步骤3、按照两个搜索词条是否满足预设相似条件,对候选纠错对进行过滤;其中,预设相似条件包括音形近相似条件、乱序相似条件、编辑距离相似条件中的至少一种;
步骤4、对于过滤后剩余的候选纠错对,查询字典向量,得到两个搜索词条各自对应的词条序列,将两个词条序列通过分隔符向量连接后再与分类符向量拼接,得到输入序列,通过语言表示模型的特征提取层,对输入序列进行语义特征,得到纠错对语义特征,通过语言表示模型的相似度计算层,基于纠错对语义特征输出两个搜索词条的文本相似度;
步骤5、统计第一搜索词条到第二搜索词条的编辑距离,根据第一搜索词条与第二搜索词条的拼音序列,统计拼音相似度,根据第一搜索词条与第二搜索词条的笔画序列,统计字形相似度,根据第一搜索词条与第二搜索词条是否满足乱序相似条件,确定乱序相似度,基于编辑距离、拼音相似度、字形相似度与乱序相似度,获得候选纠错对的文本相似统计特征;
步骤6、统计在多个历史搜索会话中由第一搜索词条切换到每个其它搜索词的切换次数,以及统计切换到每个其它搜索词条的切换次数之和,统计在多个历史搜索会话中由第一搜索词条切换到第二搜索词条的切换次数,统计由第一搜索词条切换到第二搜索词条的切换次数与切换到每个其它搜索词条的切换次数之和的比值,根据由第一搜索词条切换到每个其它搜索词条的切换次数、比值,获得第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征;
步骤7、对第一搜索词条与第二搜索词条进行序列对齐处理,根据序列对齐结果从第一搜索词条与第二搜索词条中确定第一文本片段与由第一文本片段切换至的第二文本片段,统计在多个历史搜索会话中由第一文本片段切换到每个其它文本片段的切换次数,以及统计切换到每个其它文本片段的切换次数之和;统计在多个历史搜索会话中由第一文本片段切换到第二文本片段的切换次数,统计由第一文本片段切换到第二文本片段的切换次数与切换到每个其它文本片段的切换次数之和的比值;根据由第一文本片段切换到每个其它文本片段的切换次数、比值,获得第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征;
步骤8、统计与第一搜索词条、第二搜索词条相关的搜索结果的曝光率、点击率,统计第一搜索词条、第二搜索词条与被点击的曝光搜索结果的完全匹配次数和与被点击的曝光搜索结果的部分匹配次数,根据曝光率、点击率、完全匹配次数和部分匹配次数,获得第一搜索词条与第二搜索词条在多个历史搜索会话中的点击行为特征。
步骤9、将文本相似度、文本相似统计特征、切换行为特征、点击行为特征拼接后,得到候选纠错对的联合特征;
步骤10、基于联合特征输出候选纠错对为有效纠错对的预测概率;
步骤11、根据预测概率确定候选纠错对是否为有效纠错对,
步骤12、若候选纠错对为有效纠错对,则将有效纠错对与文本片段纠错对加入纠错对库中,有效纠错对于文本片段纠错对用于对在线搜索词条进行纠错。
上述搜索词条处理方法,基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,基于将该两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测该两个搜索词条的文本相似度,统计该候选纠错对的文本相似统计特征与搜索行为统计特征,根据该文本相似度、该文本相似统计特征与该搜索行为统计特征,识别该候选纠错对是否为有效纠错对,若该候选纠错对为有效纠错对,则将该有效纠错对加入纠错对库中,该有效纠错对用于对在线搜索词条进行纠错。由于是从用户搜索行为出发,从用户搜索行为中挖掘出大量的有效纠错对,也即是,该有效纠错对是基于用在同一搜索会话中先后输入的两个搜索词条挖掘出的,这样,挖掘出的有效纠错对能够及时对新兴词汇、网络热词进行覆盖,同时能够敏锐地捕捉到用户搜索行为的变化,将该有效纠错对加入纠错对库中,用于对在线搜索词条进行纠错,能够大幅提高纠错效果和用户的搜索体验。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的搜索词条处理方法的搜索词条处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个搜索词条处理装置实施例中的具体限定可以参见上文中对于搜索词条处理方法的限定,在此不再赘述。
在一个示例性的实施例中,如图13所示,提供了一种搜索词条处理装置1300,包括:候选纠错对获取模块1302、文本相似度确定模块1304、统计特征获取模块1306、有效性识别模块1308和添加模块1310,其中:
候选纠错对获取模块1302,用于基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;
文本相似度确定模块1304,用于基于将两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测两个搜索词条的文本相似度;
统计特征获取模块1306,用于获取候选纠错对的文本相似统计特征与搜索行为统计特征;
有效性识别模块1308,用于根据文本相似度、文本相似统计特征与搜索行为统计特征,识别候选纠错对是否为有效纠错对;
添加模块1310,用于若候选纠错对为有效纠错对,则将有效纠错对加入纠错对库中,有效纠错对用于对在线搜索词条进行纠错。
在一个实施例中,候选纠错对获取模块1302,还用于获取在同一历史搜索会话中先后输入的多个搜索词条;从多个搜索词条中抽取两个相邻的搜索词条,作为一对候选纠错对。
在一个实施例中,候选纠错对获取模块1302,还用于基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;按照两个搜索词条是否满足预设相似条件,对候选纠错对进行过滤;其中,预设相似条件包括音形近相似条件、乱序相似条件、编辑距离相似条件中的至少一种。
在一个实施例中,候选纠错对获取模块1302,还用于若两个搜索词条的长度相同,则分别遍历两个搜索词条;若相同遍历位置的字为音近字或形近字,则确定两个搜索词条满足音形近相似条件。
在一个实施例中,候选纠错对获取模块1302,还用于若两个搜索词条的长度相同,则分别遍历两个搜索词条;若分别遍历两个搜索词条得到的字所形成的字集合相同,且两个搜索词条的语序不同,则确定两个搜索词条满足乱序相似条件。
在一个实施例中,候选纠错对获取模块1302,还用于若两个搜索词条的编辑距离小于预设阈值,则确定两个搜索词条满足编辑距离相似条件。
在一个实施例中,文本相似度确定模块1304,还用于查询字典向量,得到两个搜索词条各自对应的词条序列;将两个词条序列通过分隔符向量连接后再与分类符向量拼接,得到输入序列;通过语言表示模型的特征提取层,对输入序列进行语义特征,得到纠错对语义特征;通过语言表示模型的相似度计算层,基于纠错对语义特征输出两个搜索词条的文本相似度。
在一个实施例中,先后输入的两个搜索词条分别为第一搜索词条与第二搜索词条;统计特征获取模块1306,还用于统计第一搜索词条到第二搜索词条的编辑距离;根据第一搜索词条与第二搜索词条的拼音序列,统计拼音相似度;根据第一搜索词条与第二搜索词条的笔画序列,统计字形相似度;根据第一搜索词条与第二搜索词条是否满足乱序相似条件,确定乱序相似度;基于编辑距离、拼音相似度、字形相似度与乱序相似度,获得候选纠错对的文本相似统计特征。
在一个实施例中,先后输入的两个搜索词条分别为第一搜索词条与第二搜索词条;统计特征获取模块1306,还用于统计第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征,统计第一搜索词条与第二搜索词条在多个历史搜索会话中的点击行为特征;根据切换行为特征与点击行为特征,获得候选纠错对的搜索行为统计特征。
在一个实施例中,统计特征获取模块1306,还用于统计在多个历史搜索会话中由第一搜索词条切换到每个其它搜索词的切换次数,以及统计切换到每个其它搜索词条的切换次数之和;统计在多个历史搜索会话中由第一搜索词条切换到第二搜索词条的切换次数,统计由第一搜索词条切换到第二搜索词条的切换次数与切换到每个其它搜索词条的切换次数之和的比值;根据由第一搜索词条切换到每个其它搜索词条的切换次数、比值,获得第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征。
在一个实施例中,统计特征获取模块1306,还用于统计与第一搜索词条、第二搜索词条相关的搜索结果的曝光率、点击率,统计第一搜索词条、第二搜索词条与被点击的曝光搜索结果的完全匹配次数和与被点击的曝光搜索结果的部分匹配次数;根据曝光率、点击率、完全匹配次数和部分匹配次数,获得第一搜索词条与第二搜索词条在多个历史搜索会话中的点击行为特征。
在一个实施例中,统计特征获取模块1306,还用于对第一搜索词条与第二搜索词条进行序列对齐处理;根据序列对齐结果从第一搜索词条与第二搜索词条中确定第一文本片段与由第一文本片段切换至的第二文本片段;统计在多个历史搜索会话中由第一文本片段切换到每个其它文本片段的切换次数,以及统计切换到每个其它文本片段的切换次数之和;统计在多个历史搜索会话中由第一文本片段切换到第二文本片段的切换次数,统计由第一文本片段切换到第二文本片段的切换次数与切换到每个其它文本片段的切换次数之和的比值;根据由第一文本片段切换到每个其它文本片段的切换次数、比值,获得第一搜索词条与第二搜索词条在多个历史搜索会话中的切换行为特征。
在一个实施例中,有效性识别模块1308,还用于将文本相似度、文本相似统计特征与搜索行为统计特征拼接后,得到候选纠错对的联合特征;基于联合特征输出候选纠错对为有效纠错对的预测概率;根据预测概率确定候选纠错对是否为有效纠错对。
在一个实施例中,搜索词条处理装置1300还包括:序列对齐模块,用于对有效纠错对所包括的第一搜索词条与第二搜索词条进行序列对齐处理,得到第一搜索词条与第二搜索词条的序列对齐结果;根据序列对齐结果从第一搜索词条与第二搜索词条中确定文本片段纠错对;将文本片段纠错对添加至纠错对库中,文本片段纠错对用于对在线搜索词条进行纠错。
上述搜索词条处理装置1300,基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,基于将该两个搜索词条拼接后进行语义特征提取得到的纠错对语义特征,预测该两个搜索词条的文本相似度,统计该候选纠错对的文本相似统计特征与搜索行为统计特征,根据该文本相似度、该文本相似统计特征与该搜索行为统计特征,识别该候选纠错对是否为有效纠错对,若该候选纠错对为有效纠错对,则将该有效纠错对加入纠错对库中,该有效纠错对用于对在线搜索词条进行纠错。由于是从用户搜索行为出发,从用户搜索行为中挖掘出大量的有效纠错对,也即是,该有效纠错对是基于用在同一搜索会话中先后输入的两个搜索词条挖掘出的,这样,挖掘出的有效纠错对能够及时对新兴词汇、网络热词进行覆盖,同时能够敏锐地捕捉到用户搜索行为的变化,将该有效纠错对加入纠错对库中,用于对在线搜索词条进行纠错,能够大幅提高纠错效果和用户的搜索体验。
上述搜索词条处理装置1300中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储搜索会话相关的搜索词条数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种搜索词条处理方法。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种搜索词条处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图14、图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个示例性的实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现搜索词条处理方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现搜索词条处理方法的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现搜索词条处理方法的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (26)

1.一种搜索词条处理方法,其特征在于,所述方法包括:
基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,所述先后输入的两个搜索词条分别为第一搜索词条与第二搜索词条;
将所述两个搜索词条拼接后输入至语言表示模型进行语义特征提取,得到纠错对语义特征,基于所述纠错对语义特征预测所述两个搜索词条的文本相似度;
获取所述候选纠错对的文本相似统计特征;
对所述候选纠错对所包括的第一搜索词条与第二搜索词条进行序列对齐处理,得到所述第一搜索词条与所述第二搜索词条的序列对齐结果,根据所述序列对齐结果从所述第一搜索词条与所述第二搜索词条中确定第一文本片段与由所述第一文本片段切换至的第二文本片段,统计在多个历史搜索会话中由所述第一文本片段切换到每个其它文本片段的切换次数,以及统计切换到每个其它文本片段的切换次数之和,统计由所述第一文本片段切换到所述第二文本片段的切换次数与切换到每个其它文本片段的切换次数之和的比值,将由所述第一文本片段切换到每个其它文本片段的切换次数与所述比值拼接,获得所述候选纠错对的切换行为特征;
根据所述文本相似度、所述文本相似统计特征与所述切换行为特征,识别所述候选纠错对是否为有效纠错对;
若所述候选纠错对为有效纠错对,则将所述有效纠错对加入纠错对库中,所述有效纠错对用于对在线搜索词条进行纠错。
2.根据权利要求1所述的方法,其特征在于,所述基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,包括:
获取在同一历史搜索会话中先后输入的多个搜索词条;
从所述多个搜索词条中抽取两个相邻的搜索词条,作为一对候选纠错对。
3.根据权利要求1所述的方法,其特征在于,所述基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,包括:
基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;
按照所述两个搜索词条是否满足预设相似条件,对所述候选纠错对进行过滤;其中,所述预设相似条件包括音形近相似条件、乱序相似条件、编辑距离相似条件中的至少一种。
4.根据权利要求3所述的方法,其特征在于,判断所述两个搜索词条是否满足所述音形近相似条件的步骤包括:
若所述两个搜索词条的长度相同,则分别遍历所述两个搜索词条;
若相同遍历位置的字为音近字或形近字,则确定所述两个搜索词条满足所述音形近相似条件。
5.根据权利要求3所述的方法,其特征在于,判断所述两个搜索词条是否满足所述乱序相似条件的步骤包括:
若所述两个搜索词条的长度相同,则分别遍历所述两个搜索词条;
若分别遍历所述两个搜索词条得到的字所形成的字集合相同,且所述两个搜索词条的语序不同,则确定所述两个搜索词条满足所述乱序相似条件。
6.根据权利要求3所述的方法,其特征在于,判断所述两个搜索词条是否满足所述编辑距离相似条件的步骤包括:
若所述两个搜索词条的编辑距离小于预设阈值,则确定所述两个搜索词条满足所述编辑距离相似条件。
7.根据权利要求1所述的方法,其特征在于,所述将所述两个搜索词条拼接后输入至语言表示模型进行语义特征提取,得到纠错对语义特征,基于所述纠错对语义特征预测所述候选纠错对所包括的两个搜索词条的文本相似度,包括:
查询字典向量,得到所述两个搜索词条各自对应的词条序列;
将两个词条序列通过分隔符向量连接后再与分类符向量拼接,得到输入序列;
通过语言表示模型的特征提取层,对所述输入序列进行语义特征,得到纠错对语义特征;
通过语言表示模型的相似度计算层,基于所述纠错对语义特征输出所述两个搜索词条的文本相似度。
8.根据权利要求1所述的方法,其特征在于,统计所述候选纠错对的文本相似统计特征的步骤包括:
统计所述第一搜索词条到所述第二搜索词条的编辑距离;
根据所述第一搜索词条与所述第二搜索词条的拼音序列,统计拼音相似度;
根据所述第一搜索词条与所述第二搜索词条的笔画序列,统计字形相似度;
根据所述第一搜索词条与所述第二搜索词条是否满足乱序相似条件,确定乱序相似度;
基于所述编辑距离、所述拼音相似度、所述字形相似度与所述乱序相似度,获得所述候选纠错对的文本相似统计特征。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
统计在多个历史搜索会话中由所述第一搜索词条切换到每个其它搜索词的切换次数,以及统计切换到每个其它搜索词条的切换次数之和;
统计在多个历史搜索会话中由所述第一搜索词条切换到所述第二搜索词条的切换次数,统计由所述第一搜索词条切换到所述第二搜索词条的切换次数与切换到每个其它搜索词条的切换次数之和的比值;
所述将由所述第一文本片段切换到每个其它文本片段的切换次数与所述比值拼接,获得所述候选纠错对的切换行为特征,包括:
将由所述第一文本片段切换到每个其它文本片段的切换次数、所述比值,以及由所述第一搜索词条切换到每个其它搜索词条的切换次数、所述第一搜索词条切换到所述第二搜索词条的切换次数与切换到每个其它搜索词条的切换次数之和的比值进行拼接,获得所述候选纠错对的切换行为特征。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
统计与所述第一搜索词条、所述第二搜索词条相关的搜索结果的曝光率、点击率,统计所述第一搜索词条、所述第二搜索词条与被点击的曝光搜索结果的完全匹配次数和与被点击的曝光搜索结果的部分匹配次数;
根据所述曝光率、点击率、所述完全匹配次数和所述部分匹配次数,获得所述第一搜索词条与所述第二搜索词条在多个历史搜索会话中的点击行为特征;
所述根据所述文本相似度、所述文本相似统计特征与所述切换行为特征,识别所述候选纠错对是否为有效纠错对,包括:
根据所述文本相似度、所述文本相似统计特征、所述切换行为特征与所述点击行为特征,识别所述候选纠错对是否为有效纠错对。
11.根据权利要求1所述的方法,其特征在于,所述根据所述文本相似度、所述文本相似统计特征与所述切换行为特征,识别所述候选纠错对是否为有效纠错对,包括:
将所述文本相似度、所述文本相似统计特征与所述切换行为特征拼接后,得到所述候选纠错对的联合特征;
基于所述联合特征输出所述候选纠错对为有效纠错对的预测概率;
根据所述预测概率确定所述候选纠错对是否为有效纠错对。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述方法还包括:
获取所述有效纠错对的序列对齐结果;
根据所述序列对齐结果确定文本片段纠错对;
将所述文本片段纠错对添加至纠错对库中,所述文本片段纠错对用于对在线搜索词条进行纠错。
13.一种搜索词条处理装置,其特征在于,所述装置包括:
候选纠错对获取模块,用于基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对,所述先后输入的两个搜索词条分别为第一搜索词条与第二搜索词条;
文本相似度确定模块,用于将所述两个搜索词条拼接后输入至语言表示模型进行语义特征提取,得到纠错对语义特征,基于所述纠错对语义特征预测所述两个搜索词条的文本相似度;
统计特征获取模块,用于获取所述候选纠错对的文本相似统计特征;
所述统计特征获取模块,还用于对所述候选纠错对所包括的第一搜索词条与第二搜索词条进行序列对齐处理,得到所述第一搜索词条与所述第二搜索词条的序列对齐结果,根据所述序列对齐结果从所述第一搜索词条与所述第二搜索词条中确定第一文本片段与由所述第一文本片段切换至的第二文本片段,统计在多个历史搜索会话中由所述第一文本片段切换到每个其它文本片段的切换次数,以及统计切换到每个其它文本片段的切换次数之和,统计由所述第一文本片段切换到所述第二文本片段的切换次数与切换到每个其它文本片段的切换次数之和的比值,将由所述第一文本片段切换到每个其它文本片段的切换次数与所述比值拼接,获得所述候选纠错对的切换行为特征;
有效性识别模块,用于根据所述文本相似度、所述文本相似统计特征与所述切换行为特征,识别所述候选纠错对是否为有效纠错对;
添加模块,用于若所述候选纠错对为有效纠错对,则将所述有效纠错对加入纠错对库中,所述有效纠错对用于对在线搜索词条进行纠错。
14.根据权利要求13所述的装置,其特征在于,所述候选纠错对获取模块,还用于获取在同一历史搜索会话中先后输入的多个搜索词条;从所述多个搜索词条中抽取两个相邻的搜索词条,作为一对候选纠错对。
15.根据权利要求13所述的装置,其特征在于,所述候选纠错对获取模块,还用于基于在同一搜索会话中先后输入的两个搜索词条,得到候选纠错对;按照所述两个搜索词条是否满足预设相似条件,对所述候选纠错对进行过滤;其中,所述预设相似条件包括音形近相似条件、乱序相似条件、编辑距离相似条件中的至少一种。
16.根据权利要求15所述的装置,其特征在于,所述候选纠错对获取模块,还用于若所述两个搜索词条的长度相同,则分别遍历所述两个搜索词条;若相同遍历位置的字为音近字或形近字,则确定所述两个搜索词条满足所述音形近相似条件。
17.根据权利要求15所述的装置,其特征在于,所述候选纠错对获取模块,还用于若所述两个搜索词条的长度相同,则分别遍历所述两个搜索词条;若分别遍历所述两个搜索词条得到的字所形成的字集合相同,且所述两个搜索词条的语序不同,则确定所述两个搜索词条满足所述乱序相似条件。
18.根据权利要求15所述的装置,其特征在于,所述候选纠错对获取模块,还用于若所述两个搜索词条的编辑距离小于预设阈值,则确定所述两个搜索词条满足所述编辑距离相似条件。
19.根据权利要求13所述的装置,其特征在于,所述文本相似度确定模块,还用于查询字典向量,得到所述两个搜索词条各自对应的词条序列;将两个词条序列通过分隔符向量连接后再与分类符向量拼接,得到输入序列;通过语言表示模型的特征提取层,对所述输入序列进行语义特征,得到纠错对语义特征;通过语言表示模型的相似度计算层,基于所述纠错对语义特征输出所述两个搜索词条的文本相似度。
20.根据权利要求13所述的装置,其特征在于,所述统计特征获取模块,还用于统计所述第一搜索词条到所述第二搜索词条的编辑距离;根据所述第一搜索词条与所述第二搜索词条的拼音序列,统计拼音相似度;根据所述第一搜索词条与所述第二搜索词条的笔画序列,统计字形相似度;根据所述第一搜索词条与所述第二搜索词条是否满足乱序相似条件,确定乱序相似度;基于所述编辑距离、所述拼音相似度、所述字形相似度与所述乱序相似度,获得所述候选纠错对的文本相似统计特征。
21.根据权利要求13所述的装置,其特征在于,所述统计特征获取模块,还用于统计在多个历史搜索会话中由所述第一搜索词条切换到每个其它搜索词的切换次数,以及统计切换到每个其它搜索词条的切换次数之和;统计在多个历史搜索会话中由所述第一搜索词条切换到所述第二搜索词条的切换次数,统计由所述第一搜索词条切换到所述第二搜索词条的切换次数与切换到每个其它搜索词条的切换次数之和的比值;
所述统计特征获取模块,还用于将由所述第一文本片段切换到每个其它文本片段的切换次数、所述比值,以及由所述第一搜索词条切换到每个其它搜索词条的切换次数、所述第一搜索词条切换到所述第二搜索词条的切换次数与切换到每个其它搜索词条的切换次数之和的比值进行拼接,获得所述候选纠错对的切换行为特征。
22.根据权利要求13所述的装置,其特征在于,所述统计特征获取模块,还用于统计与所述第一搜索词条、所述第二搜索词条相关的搜索结果的曝光率、点击率,统计所述第一搜索词条、所述第二搜索词条与被点击的曝光搜索结果的完全匹配次数和与被点击的曝光搜索结果的部分匹配次数;根据所述曝光率、点击率、所述完全匹配次数和所述部分匹配次数,获得所述第一搜索词条与所述第二搜索词条在多个历史搜索会话中的点击行为特征;
所述统计特征获取模块,还用于根据所述文本相似度、所述文本相似统计特征、所述切换行为特征与所述点击行为特征,识别所述候选纠错对是否为有效纠错对。
23.根据权利要求13所述的装置,其特征在于,所述有效性识别模块,还用于将所述文本相似度、所述文本相似统计特征与所述切换行为特征拼接后,得到所述候选纠错对的联合特征;基于所述联合特征输出所述候选纠错对为有效纠错对的预测概率;根据所述预测概率确定所述候选纠错对是否为有效纠错对。
24.根据权利要求13至23任一项所述的装置,其特征在于,所述装置还包括:
添加模块,用于获取所述有效纠错对的序列对齐结果;根据所述序列对齐结果确定文本片段纠错对;将所述文本片段纠错对添加至纠错对库中,所述文本片段纠错对用于对在线搜索词条进行纠错。
25.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
26.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
CN202311205901.XA 2023-09-19 2023-09-19 搜索词条处理方法、装置、计算机设备和计算机存储介质 Active CN116932922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311205901.XA CN116932922B (zh) 2023-09-19 2023-09-19 搜索词条处理方法、装置、计算机设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311205901.XA CN116932922B (zh) 2023-09-19 2023-09-19 搜索词条处理方法、装置、计算机设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN116932922A CN116932922A (zh) 2023-10-24
CN116932922B true CN116932922B (zh) 2024-01-26

Family

ID=88381173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311205901.XA Active CN116932922B (zh) 2023-09-19 2023-09-19 搜索词条处理方法、装置、计算机设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN116932922B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867040A (zh) * 2012-08-31 2013-01-09 中国科学院计算技术研究所 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
CN102915314A (zh) * 2011-08-05 2013-02-06 腾讯科技(深圳)有限公司 一种纠错对自动生成方法及系统
CN106156098A (zh) * 2015-04-02 2016-11-23 深圳市腾讯计算机系统有限公司 一种纠错对挖掘方法及系统
CN108536867A (zh) * 2018-04-24 2018-09-14 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111382260A (zh) * 2020-03-16 2020-07-07 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本纠错方法、装置和存储介质
CN111914179A (zh) * 2020-08-19 2020-11-10 腾讯科技(深圳)有限公司 基于语义的模糊搜索方法和装置、存储介质及电子设备
CN113591456A (zh) * 2021-07-23 2021-11-02 北京小米移动软件有限公司 文本纠错方法及装置、电子设备及存储介质
CN114328798A (zh) * 2021-11-09 2022-04-12 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品
CN116258137A (zh) * 2023-03-03 2023-06-13 华润数字科技有限公司 文本纠错方法、装置、设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915314A (zh) * 2011-08-05 2013-02-06 腾讯科技(深圳)有限公司 一种纠错对自动生成方法及系统
CN102867040A (zh) * 2012-08-31 2013-01-09 中国科学院计算技术研究所 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
CN106156098A (zh) * 2015-04-02 2016-11-23 深圳市腾讯计算机系统有限公司 一种纠错对挖掘方法及系统
CN108536867A (zh) * 2018-04-24 2018-09-14 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111382260A (zh) * 2020-03-16 2020-07-07 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本纠错方法、装置和存储介质
CN111914179A (zh) * 2020-08-19 2020-11-10 腾讯科技(深圳)有限公司 基于语义的模糊搜索方法和装置、存储介质及电子设备
CN113591456A (zh) * 2021-07-23 2021-11-02 北京小米移动软件有限公司 文本纠错方法及装置、电子设备及存储介质
CN114328798A (zh) * 2021-11-09 2022-04-12 腾讯科技(深圳)有限公司 搜索文本的处理方法、装置、设备、存储介质和程序产品
CN116258137A (zh) * 2023-03-03 2023-06-13 华润数字科技有限公司 文本纠错方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN116932922A (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
Gong et al. Natural language inference over interaction space
Wu et al. Image captioning and visual question answering based on attributes and external knowledge
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
EP4150487A1 (en) Layout-aware multimodal pretraining for multimodal document understanding
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN114332679A (zh) 视频处理方法、装置、设备、存储介质和计算机程序产品
CN113392265A (zh) 多媒体处理方法、装置及设备
Jing et al. Context-driven image caption with global semantic relations of the named entities
Parvin et al. Transformer-based local-global guidance for image captioning
CN114417823A (zh) 一种基于句法和图卷积网络的方面级情感分析方法及装置
Yumeng et al. News image-text matching with news knowledge graph
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN116932922B (zh) 搜索词条处理方法、装置、计算机设备和计算机存储介质
CN110851629A (zh) 一种图像检索的方法
Sharma et al. Visual question answering model based on the fusion of multimodal features by a two-way co-attention mechanism
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
Qian et al. Filtration network: A frame sampling strategy via deep reinforcement learning for video captioning
Liu et al. Attention-based convolutional LSTM for describing video
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant