CN113705202A - 搜索输入信息纠错方法、装置以及电子设备、存储介质 - Google Patents
搜索输入信息纠错方法、装置以及电子设备、存储介质 Download PDFInfo
- Publication number
- CN113705202A CN113705202A CN202111014692.1A CN202111014692A CN113705202A CN 113705202 A CN113705202 A CN 113705202A CN 202111014692 A CN202111014692 A CN 202111014692A CN 113705202 A CN113705202 A CN 113705202A
- Authority
- CN
- China
- Prior art keywords
- error correction
- information
- search
- input
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种搜索输入信息纠错方法、装置以及电子设备、存储介质,涉及计算机技术领域,其中的方法包括:对搜索输入信息进行检测处理,用以判断搜索输入信息是否需要纠错,检测处理包括确定搜索输入信息的理解困惑度信息;如果需要纠错,则对搜索输入信息进行纠错处理,用以生成与搜索输入信息相对应的输入纠错信息,进行相应的搜索处理,纠错处理包括:基于预设词典生成输入纠错信息和/或根据搜索输入信息的纠错得分信息生成输入纠错信息;本公开的方法、装置以及电子设备、存储介质,可以提高纠错准确性,减少模型训练所需的语料,在线预测阶段延时小,适用于商业查询等场景。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种搜索输入信息纠错方法、装置以及电子设备、存储介质。
背景技术
目前,搜索引擎能够为用户提供搜索服务,提供用户需要的信息。在用户进行搜索时,搜索输入信息的错误可以被纠正,辅助用户进行正确的需求表达,减少不相关结果或零结果。对于搜索输入信息的常用的中文纠错方法主要针对连贯性较强的句子或篇章,纠错机制主要基于深度神经网络,例如基于seq2seq的encoder-decoder机制等。基于深度神经网络架构的纠错方法纠错准确性较低,并且所需的训练语料庞大,训练成本高昂,且在线纠错阶段延时比较严重,不适用于商业查询等场景。因此,需要一种新的搜索输入信息纠错技术方案。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种搜索输入信息纠错方法、装置以及电子设备、存储介质。
根据本公开实施例的第一方面,提供一种搜索输入信息纠错方法,包括:对搜索输入信息进行检测处理,用以判断所述搜索输入信息是否需要纠错;其中,所述检测处理包括:确定所述搜索输入信息的理解困惑度信息;如果是,则对所述搜索输入信息进行纠错处理,用以生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理,其中,所述纠错处理包括:基于预设词典生成所述输入纠错信息和/或根据所述搜索输入信息的纠错得分信息生成所述输入纠错信息。
可选地,所述对搜索输入信息进行检测处理,用以判断所述搜索输入信息是否需要纠错包括:获取与所述搜索输入信息相对应的第一理解困惑度值;如果所述第一理解困惑度值在预设范围内或小于所述预设范围的下限值,则不需要对所述搜索输入信息进行纠错处理;如果所述第一理解困惑度值大于所述预设范围的上限值,则需要对所述搜索输入信息进行纠错处理。
可选地,所述对所述搜索输入信息进行纠错处理,用以生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理包括:对所述搜索输入信息进行纠错处理,生成第一输入纠错信息;对所述第一输入纠错信息进行检测,获取与所述第一输入纠错信息相对应的第二理解困惑度值;如果所述第二理解困惑度值在所述预设范围内或小于所述预设范围的下限值,则使用所述第一输入纠错信息进行相应的搜索操作。
可选地,所述对所述搜索输入信息进行纠错处理,生成第一输入纠错信息包括:对所述搜索输入信息进行分词处理,获取搜索词;使用所述搜索词在预设字典内进行查询,如果查询结果不为空,则确定所述搜索词为第一保留词;如果查询结果为空,则基于所述预设词典对所述搜索词进行纠错处理,生成第一替换词;基于所述第一保留词和/或所述第一替换词生成所述第一输入纠错信息。
可选地,所述纠错处理包括:音似、同音或同形纠错处理;所述基于所述预设词典对所述搜索词进行纠错处理,生成替换词包括:确定需要进行纠错处理搜索词中的待纠错字的位置,根据所述位置获取搜索字;在所述预设词典内获取音似字表、同音字表或同形字表,基于所述音似字表、同音字表或同形字表获取与所述搜索字相对应的音似替换自、同音替换字或同形替换字;根据所述音似替换字、同音替换字或所述同形替换字以及搜索字,生成与所述搜索词相对应的候选替换词集合;根据所述候选替换词集合中的各个候选替换词的使用频率,在所述候选替换词集合中确定候选替换词,用以作为所述替换词。
可选地,所述生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理还包括:如果所述第二理解困惑度值大于所述预设范围的上限值,则获取与所述搜索输入信息相对应的纠错后续信息集合;确定所述纠错后续信息集合中的各个输入候选信息与所述搜索输入信息之间的差异信息,根据所述差异信息计算各个输入候选信息的纠错得分;基于所述纠错得分选取输入候选信息,作为第二输入纠错信息,用以使用所述第二输入纠错信息进行相应的搜索操作。
可选地,所述纠错后续信息集合包括:第一纠错后续集合和第二纠错后续集合;所述获取与所述搜索输入信息相对应的纠错后续信息集合包括:获取与所述搜索输入信息相对应的查询串信息,基于所述查询串在位置定位模块中进行查询处理,获取与所述搜索输入信息相对应的第一纠错后续信息集合;使用所述搜索词与预设的易错字词对信息或形近似字词对信息进行匹配处理,获得第二保留词和第二替换词;基于所述第二保留词和所述第二替换词以及所述关键词生成与所述搜索输入信息相对应的纠错输入信息,基于所述纠错输入信息生成所述第二纠错后续信息集合。
可选地,所述差异信息包括编辑距离;所述根据所述差异信息计算各个输入候选信息的纠错得分包括:基于所述编辑距离计算所述输入候选信息的纠错得分;其中,对于所述第一纠错后续集合和所述第二纠错后续集合中的相同输入候选信息,获取所述相同输入候选信息分别与所述第一纠错后续集合和所述第二纠错后续集合相对应的加权系数,基于所述编辑距离和所述加权系数计算所述相同输入候选信息的纠错得分。
可选地,所述基于所述纠错得分选取输入候选信息,作为第二输入纠错信息包括:在所述第一纠错后续集合和所述第二纠错后续集合中,选取所述纠错得分选取最大纠错得分对应的输入候选信息,作为第二输入纠错信息。
可选地,所述位置定位模块包括:有穷状态转换器FST模块,所述方法还包括:获取使用频率超过使用频率阈值的词语或短语,对所述词语或短语进行拆分处理,获得与所述词语或短语相对应的字串;基于所述字串和所述词语或短语构建FST分支,根据所述FST分支构建所述FST模块。
可选地,基于搜索日志信息以及搜索输入修改信息,生成所述易错字词对信息或所述形近似字词对信息。
可选地,使用训练好的语言检测模型对搜索输入信息、第一输入纠错信息进行检测,获取所述第一理解困惑度值、所述第二理解困惑度值。
可选地,对用户输入信息进行预处理,去除预设的干扰信息并进行格式调整处理,用以生成所述搜索输入信息;其中,所述干扰信息包括以下一者或多者:表情符号、制表符和无意义字符。
根据本公开实施例的第二方面,提供一种搜索输入信息纠错装置,包括:检测模块,用于对搜索输入信息进行检测处理,用以判断所述搜索输入信息是否需要纠错;其中,所述检测处理包括:确定所述搜索输入信息的理解困惑度信息;纠错模块,用于如果判断所述搜索输入信息需要纠错,则对所述搜索输入信息进行纠错处理,用以生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理;其中,所述纠错处理包括:基于预设词典生成所述输入纠错信息和/或根据所述搜索输入信息的纠错得分信息生成所述输入纠错信息。
根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的方法。
根据本公开实施例的第五方面,提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现上述的方法。
基于本公开上述实施例提供的搜索输入信息纠错方法、装置以及电子设备、存储介质,使用语言检测模型对搜索输入信息进行检测,获取第一理解困惑度值;如果第一理解困惑度值大于预设范围,则生成第一输入纠错信息;使用语言检测模型对第一输入纠错信息进行检测,获取第二理解困惑度值;如果第二理解困惑度值大于预设范围,则获取纠错后续信息集合;确定输入候选信息与搜索输入信息之间的距离信息,计算纠错得分;基于纠错得分确定第二输入纠错信息,进行相应的搜索操作;能够为用户提供多种纠错信息,能对用户的搜索输入进行及时纠正,提高纠错准确性,降低了用户的搜索成本;能够减少模型训练所需的语料,降低成本,在线预测阶段能够实时进行,延时小,适用于商业查询等场景,有效改善了用户体验。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。图1为本公开的搜索输入信息纠错方法的一个实施例的流程图;
图1为本公开的搜索输入信息纠错方法的一个实施例的流程图;
图2为本公开的搜索输入信息纠错方法的另一个实施例的流程图;
图3为本公开的搜索输入信息纠错方法的一个实施例中的生成第一输入纠错信息的流程图;
图4为本公开的搜索输入信息纠错方法的一个实施例中的生成替换词的示意图;
图5为本公开的搜索输入信息纠错方法的一个实施例中的获取纠错后续集合的流程图;
图6为本公开的搜索输入信息纠错方法的一个实施例在实际应用场景中的模块示意图;
图7为本公开的搜索输入信息纠错装置的一个实施例的结构示意图;
图8为本公开的搜索输入信息纠错装置的另一个实施例的结构示意图;
图9为本公开的搜索输入信息纠错装置的一个实施例中的检测模块的结构示意图;
图10为本公开的搜索输入信息纠错装置的一个实施例中的纠错模块的结构示意图;
图11为本公开的搜索输入信息纠错装置的一个实施例中的纠错检测模块的结构示意图;
图12为本公开的搜索输入信息纠错装置的一个实施例中的纠错信息生成模块的结构示意图;
图13是本公开的电子设备的一个实施例的结构图。
具体实施方式
下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
在实现本公开的过程中,发明人发现,现有的搜索输入信息纠错方法纠错准确性较低,并且所需的训练语料庞大,训练成本高昂,在线纠错阶段延时比较严重。
本公开提供的搜索输入信息纠错方法,对搜索输入信息进行检测处理,用以判断搜索输入信息是否需要纠错,检测处理包括确定搜索输入信息的理解困惑度信息;如果需要纠错,则对搜索输入信息进行纠错处理,用以生成与搜索输入信息相对应的输入纠错信息,进行相应的搜索处理,纠错处理包括:基于预设词典生成输入纠错信息和/或根据搜索输入信息的纠错得分信息生成输入纠错信息。本公开提供的搜索输入信息纠错方法可以为用户提供多种纠错信息,能对用户的搜索输入进行及时纠正,提高纠错准确性,降低了用户的搜索成本;能够减少模型训练所需的语料,降低成本,在线预测阶段能够实时进行,延时小,适用于商业查询等场景。
示例性方法
图1为本公开的搜索输入信息纠错方法的一个实施例的流程图,如图1所示的方法包括步骤:S101-S106。下面对各步骤分别进行说明。
S101,对搜索输入信息进行检测处理,用以判断搜索输入信息是否需要纠错;其中,检测处理包括确定搜索输入信息的理解困惑度信息。
在一个实施例中,搜索输入信息为用户在搜索引擎的入口输入的、用于进行搜索信息,包括搜索关键字query,搜索引擎的入口可以为对话框等,用户可以通过手机、PC等在搜索引擎的入口输入搜索输入信息。搜索输入信息可以为用户手动输入,或者用户将短信、微信或网页中的信息作为搜索输入信息,通过复制、粘贴的方式输入搜索引擎的入口。搜索输入信息的理解困惑度信息可以为搜索输入信息的理解困惑度值等,理解困惑度值用于表征搜索输入信息(输入文本)是否“可理解”。
S102,如果是,则对搜索输入信息进行纠错处理,用以生成与搜索输入信息相对应的输入纠错信息,进行相应的搜索处理;其中,纠错处理包括:基于预设词典生成输入纠错信息和/或根据搜索输入信息的纠错得分信息生成输入纠错信息。
在一个实施例中,可以基于预设词典生成搜索输入信息的第一输入纠错信息,或者基于预设词典生成对搜索输入信息的第一输入纠错信息,并根据第一搜索输入信息的纠错得分信息生成第二输入纠错信息。也可以根据搜索输入信息的纠错得分信息生成搜索输入信息的第一输入纠错信息。使用第一输入纠错信息或第二输入纠错信息进行相应的搜索处理。对搜索输入信息纠错,可以直接获得额纠错结果,也可以输出多个纠错结果并提示用户选取,由用户从多个纠错结果中选取一个纠错结果。
图2为本公开的搜索输入信息纠错方法的另一个实施例的流程图,如图2所示的方法包括步骤:S201-S206。下面对各步骤分别进行说明。
S201,使用训练好的语言检测模型对搜索输入信息进行检测,获取与搜索输入信息相对应的第一理解困惑度值。
在一个实施例中,搜索输入信息包括商业搜索场景下的品牌短语、行业词汇、人名、地名等,用户进行商业搜索的搜索输入信息大部分包括某实体或短语等,句式成分较单一简单。
语言检测模型可以采用多种模型,将搜索输入信息输入语言检测模型,通过语言检测模型计算搜索输入信息在搜索场景出现的概率,用以确定搜索输入信息的理解困惑度值,理解困惑度值用于表征搜索输入信息(输入文本)是否“可理解”。
语言检测模型的训练语料可以使用高点击频次的历史搜索输入信息等。使用语言模型模块可以确定搜索输入信息以及纠正后的第一输入纠错信息的理解困惑度值。例如,当搜索输入信息=“杭州菜鸟网络”时,第一理解困惑度值为100;当搜索输入信息=“杭州菜鸟网咯”时,第一理解困惑度值为1000。困惑度值越大则说明搜索输入信息越难理解。
S202,如果第一理解困惑度值大于预设的预设范围,则对搜索输入信息进行纠错处理,生成第一输入纠错信息。
在一个实施例中,预先设置预设范围,判断第一理解困惑度值是否大于预设的预设范围,如果是,则对搜索输入信息进行纠错处理,可以采用多种纠错处理方法,生成第一输入纠错信息;如果第一理解困惑度值小于预设的预设范围,则说明搜索输入信息能被理解,使用搜索输入信息进行相应的搜索操作。搜索操作可以为现有的搜索操作,例如向用户提供与搜索输入信息相对应的搜索结果等。
S203,使用语言检测模型对第一输入纠错信息进行检测,获取与第一输入纠错信息相对应的第二理解困惑度值。
S204,如果第二理解困惑度值大于预设范围,则获取与搜索输入信息相对应的纠错后续信息集合。
在一个实施例中,在生成第一输入纠错信息之后,将第一输入纠错信息输入语言检测模型,获取语言检测模型输出的第二理解困惑度值。判断第二理解困惑度值是否大于预设的预设范围,如果是,则获取与搜索输入信息相对应的纠错后续信息集合,可以采用多种方法获取纠错后续信息集合;如果第二理解困惑度值小于预设的预设范围,则说明第一输入纠错信息能被理解,使用第一输入纠错信息进行相应的搜索操作。搜索操作可以为现有的搜索操作,例如提示用户对搜索输入信息进行了纠错、向用户提供与搜索输入信息相对应的搜索结果等。
S205,确定纠错后续信息集合中的各个输入候选信息与搜索输入信息之间的距离信息,根据距离信息计算各个输入候选信息的纠错得分。
S206,基于纠错得分选取输入候选信息,作为第二输入纠错信息,用以使用第二输入纠错信息进行相应的搜索操作。
在一个实施例中,在判断第二理解困惑度值大于预设的预设范围之后,通过多种方法获取最可能的纠错后续信息集合,并确定纠错后续信息集合中的各个输入候选信息与搜索输入信息之间的距离信息,距离可以编辑距离等,根据距离信息计算各个输入候选信息的纠错得分。例如,选取最大纠错得分对应的输入候选信息,作为第二输入纠错信息,使用第二输入纠错信息进行相应的搜索操作。搜索操作可以为现有的搜索操作,例如提示用户对搜索输入信息进行了纠错、向用户提供与搜索输入信息相对应的搜索结果等。
生成第一输入纠错信息可以使用多种方法。图3为本公开的搜索输入信息纠错方法的一个实施例中的生成第一输入纠错信息的流程图,如图3所示的方法包括步骤:S301-S303。下面对各步骤分别进行说明。
S301,对搜索输入信息进行分词处理,获取搜索词。
在一个实施例中,可以采用多种分词处理方法。例如,搜索输入信息为“杭州菜鸟科枝公私”,对“杭州菜鸟科枝公私”进行分词处理,获取搜索词为“杭州”、“菜鸟”、“科枝”、“公私”。可以采用现有的多种分词处理方法。
S302,使用搜索词在预设字典内进行查询,如果查询结果不为空,则确定搜索词为第一保留词;如果查询结果为空,则基于预设词典对搜索词进行纠错处理,生成第一替换词。
在一个实施例中,设置预设字典,预设字典可以为分门别类的存储一些高频高质量词汇和短语的字典集合,提供快速查询功能。预设字典包括社会名流、企业家、明星、政要等人名字典,人名如“谢霆锋”、“马化腾”等;预设字典包括常见中文品牌字典,中文品牌如“天眼查”、“腾讯视频”、“字节跳动”等;预设字典包括常见行业词汇字典,行业词汇如“人力资源”、“混凝土”、“玻璃幕墙”等。
例如,使用搜索词“杭州”、“菜鸟”、“科枝”、“公私”在预设字典内进行查询。“杭州”、“菜鸟”的查询结果不为空,则确定“杭州”、“菜鸟”为第一保留词;“科枝”、“公私”的查询结果为空,则基于预设词典对“杭州”、“菜鸟”进行纠错处理,生成第一替换词。纠错处理包括同音或同形纠错处理等。
S303,基于第一保留词和第一替换词生成第一输入纠错信息。
图4为本公开的搜索输入信息纠错方法的一个实施例中的生成替换词的示意图,如图4所示的方法包括步骤:S401-S404。下面对各步骤分别进行说明。
S401,确定组成需要进行纠错处理的搜索词的各个搜索字。
S402,在预设词典内获取同音字表或同形字表,基于同音字表或同形字表获取与搜索字相对应的同音替换字或同形替换字。
S403,根据同音替换字或同形替换字以及搜索字,生成与搜索词相对应的候选替换词集合。
S404,根据候选替换词集合中的各个候选替换词的使用频率,在候选替换词集合中确定候选替换词,用以作为替换词。
在一个实施例中,需要进行纠错处理的搜索词包括由于同音字选字错误、拼音拼写错误、字形输入错误等产生的搜索词。确定组成需要进行纠错处理的搜索词“科枝”、“公私”的搜索字为“科”、“枝”、“公”、“私”。预设词典内预设有同音字表或同形字表,根据同音字表或同形字表获取与搜索字相对应的同音替换字或同形替换字。例如,“科”的同音替换字为“可”、同形替换字为“料”;“枝”的同音替换字为“之”、同形替换字为“技”;生成与“科枝”相对应的候选替换词集合中的候选替换词包括:“科之”、“科技”、“可之”、“料技”等。
可以预先存储所有用户在进行搜索时使用的候选替换词的使用频率,使用频率可以为候选替换词在一个星期、一个月等时期内使用的次数。例如,确定候选替换词“科之”、“科技”、“可之”、“料技”等的使用频率分别为0,100,0,0等,则将使用频率最高值对应的候选替换词作为替换词,即“科枝”的替换词为“科技”;基于相同的方法,确定“公私”的替换词为“公司”。生成与搜索输入信息“杭州菜鸟科枝公私”对应的第一输入纠错信息为“杭州菜鸟科技公司”。
在一个实施例中,可以使用多种方法获取纠错后续信息集合。纠错后续信息集合包括第一纠错后续集合和第二纠错后续集合。图5为本公开的搜索输入信息纠错方法的一个实施例中的获取纠错后续集合的流程图,如图5所示的方法包括步骤:S501-S503。下面对各步骤分别进行说明。
S501,获取与搜索输入信息相对应的查询串信息,基于查询串在预设的有穷状态转换器FST模块中进行查询处理,获取与搜索输入信息相对应的第一纠错后续信息集合。
在一个实施例中,FST(Finite State Transducers,有穷状态转换器)的结构类似于前缀匹配树trie的数据结构,能够快速定位查询串在数据集合中的位置。FST模块可以为现有的多种FST模块,FST模块可以提供FST<Key,Value>形式的查询功能。可以获取与搜索输入信息相对应的查询串信息,作为Key,将Key输入FST模块获取对应的Value;基于查询串在预设的FST模块中进行查询处理,获取与搜索输入信息相对应的第一纠错后续信息集合。
例如,搜索输入信息为“腾讯股分有线公丝”,在与“腾讯股分有线公丝”对应的第一输入纠错信息相对应的第二理解困惑度值大于预设阈值的情况下,获取与“腾讯股分有线公丝”相对应的查询串信息为“腾讯”等,基于查询串“腾讯”等在预设的FST模块中进行查询处理,获取与搜索输入信息相对应的第一纠错后续信息集合,第一纠错后续信息集合内包含的输入候选信息包括“腾讯股份有限公司”、“腾讯科技有限公司”等。
S502,使用搜索词与预设的易错对字词对信息或形近似字词对信息进行匹配处理,获得第二保留词和第二替换词。
S503,基于第二保留词和第二替换词以及关键词生成与搜索输入信息相对应的纠错输入信息,基于纠错输入信息生成第二纠错后续信息集合。
在一个实施例中,预设易错对字词对信息或形近似字词对信息,使用搜索词与预设的易错对字词对信息或形近似字词对信息进行匹配处理。例如,对“腾讯股分有线公丝”进行分词处理,生成搜索词“腾讯”、“股分”、“有线”、“公丝”,使用搜索词“腾讯”、“股分”、“有线”、“公丝”与预设的易错对字词对信息或形近似字词对信息进行匹配处理,可以获得第二保留词为“腾讯”;“股分”对应的第二替换词为“股份”,“有线”对应的第二替换词为“有限”、“公丝”对应的第二替换词为“公司”。基于第二保留词“腾讯”和第二替换词以及关键词生成与“腾讯股分有线公丝”相对应的纠错输入信息,基于纠错输入信息生成第二纠错后续信息集合,第二纠错后续信息集合内的纠错输入信息包括:“腾讯股份有限公司”等。
在一个实施例中,距离信息可以为编辑距离信息等。基于编辑距离信息计算输入候选信息的纠错得分;如果第一纠错后续集合和第二纠错后续集合中具有相同的输入候选信息,确定此相同的输入候选信息的加权系数,基于编辑距离信息和加权系数计算此相同的输入候选信息的纠错得分。
编辑距离(Minimum Edit Distance,MED),又称Levenshtein距离,是指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。可以使用现有的多种方法计算纠错后续信息集合中的各个输入候选信息与搜索输入信息之间的距离信息。
例如,分别计算第一纠错后续集合和第二纠错后续集合中的各个输入候选信息与搜索输入信息“腾讯股分有线公丝”之间的编辑距离。第一纠错后续集合和第二纠错后续集合中具有相同的输入候选信息“腾讯股份有限公司”,确定此相同的输入候选信息“腾讯股份有限公司”的加权系数为2,将输入候选信息“腾讯股份有限公司”与搜索输入信息“腾讯股分有线公丝”之间的编辑距离与加权系数2相乘,计算“腾讯股分有限公司”的纠错得分。
如果输入候选信息“腾讯科技有限公司”仅出现在第一纠错后续集合中,则将输入候选信息“腾讯科技有限公司”与搜索输入信息“腾讯股分有线公丝”之间的编辑距离作为纠错得分。在第一纠错后续集合和第二纠错后续集合中,选取纠错得分选取最大纠错得分对应的输入候选信息,作为第二输入纠错信息。
在一个实施例中,获取使用频率超过使用频率阈值的词语或短语,对词语或短语进行拆分处理,获得与词语或短语相对应的字串;基于字串和词语或短语构建FST分支,根据FST分支构建FST模块。可以采用现有的多种方法,基于字串和词语或短语构建FST分支,根据FST分支构建FST模块。可利用openFST工具构建FST模块。
例如,通过离线方式挖掘高质高频的词汇及短语,获取使用频率超过使用频率阈值的词语或短语,使用频域为一周或一个月等期间内使用的次数,使用频率阈值可以设置。对获取的词语或短语进行拆分处理,获得与词语或短语相对应的字串;基于字串和词语或短语构建FST分支,根据FST分支构建FST模块。维护大量的高频高质量的候选词汇和短语,给出基于编辑距离与u查询串最相似的候选串。
基于搜索日志信息以及搜索输入修改信息,生成易错对字词对信息或形近似字词对信息。例如,通过离线方式从大规模点击和搜索序列日志中挖掘易错对及形近字词,生成并实时更新生成易错对字词对信息或形近似字词对信息。中文的一音多字、一字多音、形近字等情形大量出现,例如“洗衣木-洗衣机”、“苏有月月-苏有朋”等。
在一个实施例中,语言检测模型可以为多种模型,例如为n-gram模型等;使用训练好的n-gram模型对搜索输入信息、第一输入纠错信息进行检测,获取第一理解困惑度值、第二理解困惑度值。n-gram是一种基于统计语言模型的算法,是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。可以使用现有的n-gram模型,并采用现有的训练方法对n-gram模型进行训练。
对用户输入信息进行预处理,去除预设的干扰信息并进行格式调整处理,用以生成搜索输入信息,干扰信息包括:表情符号、制表符、无意义字符等。通过预处理可以去除表情符号、制表符、无意义非中文字符等,可以对长句或存在明显边界的片段进行划分等。
在一个实施例中,如图6所示,query为搜索输入信息,Preprocessor为query的预处理模块,用于对用户输入的搜索输入信息进行预处理,去除预设的干扰信息并进行格式调整处理,用于去除表情符号、制表符、无意义非中文字符等,可以对长句或存在明显边界的片段进行划分,为后续处理提供更规整的query。
DictDataStore为字典集合,用于分门别类的存储一些高频、高质量的词汇和短语,对其他各个模块提供快速查询功能。预设字典包括社会名流、企业家、明星、政要等人名字典,人名如“谢霆锋”、“马化腾”等;预设字典包括常见中文品牌字典,中文品牌如“天眼查”、“腾讯视频”、“字节跳动”等;预设字典包括常见行业词汇字典,行业词汇如“人力资源”、“混凝土”、“玻璃幕墙”等。
LanguageModel为语言检测模型,用来计算输入文本在搜索场景出现的概率,输出数值型的困惑度来表达输入文本是否“可理解”。此模型的训练语料为高点击频次query,规模可以为上千万数量级。在纠错系统中,语言检测模型负责给出原query及纠正后的正确候选的理解困惑度值,以此来辅助错误检测模块Detector和错误纠正模块Corrector进行决策。例如,query=“杭州菜鸟网络”,理解困惑度值100;query=“杭州菜鸟网咯”,理解困惑度值为1000。
Detector为错误检测模块,其功能目标为:尽量少的误判率(将正确query认定为有错误)情况下,正确甄别出有错query,并给出出错位置。Corrector为错误纠正模块,其功能目标为:在Detector告知query有错后,尝试多种方式获取最可能的纠错后续集合,并进行计算得分排序,取得分最高者作为最终纠错结果。
Ranker为排名模块,用于对Corrector产生的候选计算概率得分,多角度考虑各候选特征及与原query的相似程度,可以为噪声信道模型w*=argmax p(x)等。FST(FiniteState Transducers,有穷状态转换器)为一种类似于前缀匹配树trie的数据结构,能够快速定位查询串在数据集合中的位置。FST-Store为FST存储模块,用来维护大量的高频高质量的候选词汇和短语,为独立的一路候选召回,并能给出基于编辑距离与查询串最相似的候选串。候选词汇短语的生成由CorrectCandidateWriter负责持续更新候选集合。
CandidateGenerator为候选生成器模块,用于针对中文一音多字,一字多音,形近字等情形大量出现的情况,配合Detector模块负责对同音字,形近字做替换生成可能候选。同音字、形近字以及常见错误对在CandidateGenerator模块内进行维护,如“洗衣木-洗衣机”“苏有月月-苏有朋”。CorrectCandidateWriter为修正候选者写入模块,负责离线挖掘高质高频的词汇及短语,并实时更新入FST-Store模块。SearchLogMining为搜索日志挖掘模块,负责离线从大规模点击和搜索序列日志中挖掘易错对及形近字词,并实时更新入CandidateGenerator模块。
示例性装置
在一个实施例中,如图7所示,本公开提供一种搜索输入信息纠错装置,包括:检测模块51和纠错模块53。检测模块51对搜索输入信息进行检测处理,用以判断搜索输入信息是否需要纠错,检测处理包括确定搜索输入信息的理解困惑度信息等。如果判断搜索输入信息需要纠错,则纠错模块52对搜索输入信息进行纠错处理,用以生成与搜索输入信息相对应的输入纠错信息,进行相应的搜索处理,纠错处理包括:基于预设词典生成输入纠错信息、根据搜索输入信息的纠错得分信息生成输入纠错信息中的至少一种。
在一个实施例中,如图9所示,检测模块51包括:困惑度确定模块501和纠错检测模块502。困惑度确定模块501获取与搜索输入信息相对应的第一理解困惑度值。如果第一理解困惑度值在预设范围内或小于预设范围的下限值,则纠错检测模块502确定不需要对搜索输入信息进行纠错处理。如果第一理解困惑度值大于预设范围的上限值,则纠错检测模块502确定需要对搜索输入信息进行纠错处理。
如图10所示,纠错模块52包括:纠错信息生成模块503、纠错得分确定模块504和纠错信息选取模块505。纠错信息生成模块503对搜索输入信息进行纠错处理,生成第一输入纠错信息;困惑度确定模块501对第一输入纠错信息进行检测,获取与第一输入纠错信息相对应的第二理解困惑度值。如果第二理解困惑度值在预设范围内或小于预设范围的下限值,则纠错信息生成模块503使用第一输入纠错信息进行相应的搜索操作。
在一个实施例中,如图11所示,纠错检测模块502包括分词处理单元5021、纠错处理单元5022和信息生成单元5023。分词处理单元5021对搜索输入信息进行分词处理,获取搜索词。纠错处理单元5022使用搜索词在预设字典内进行查询,如果查询结果不为空,则确定搜索词为第一保留词。如果查询结果为空,则纠错处理单元5022基于预设词典对搜索词进行纠错处理,生成第一替换词。信息生成单元5023基于第一保留词和/或第一替换词生成第一输入纠错信息。
纠错处理包括音似、同音或同形纠错处理;纠错处理单元5022确定组成需要进行纠错处理的搜索词的各个搜索字。纠错处理单元5022在预设词典内获取同音字表或同形字表,基于同音字表或同形字表获取与搜索字相对应的同音替换字或同形替换字。纠错处理单元5022根据同音替换字或同形替换字以及搜索字,生成与搜索词相对应的候选替换词集合。纠错处理单元5022根据候选替换词集合中的各个候选替换词的使用频率,在候选替换词集合中确定候选替换词,用以作为替换词。
在一个实施例中,如果第二理解困惑度值大于预设范围的上限值,则纠错信息生成模块503获取与搜索输入信息相对应的纠错后续信息集合;纠错得分确定模块504确定纠错后续信息集合中的各个输入候选信息与搜索输入信息之间的差异信息,根据差异信息计算各个输入候选信息的纠错得分;纠错信息选取模块505基于纠错得分选取输入候选信息,作为第二输入纠错信息,用以使用第二输入纠错信息进行相应的搜索操作。
纠错后续信息集合包括第一纠错后续集合和第二纠错后续集合;如图12所示,纠错信息生成模块505包括第一集合获取单元5051和第二集合获取单元5052。第一集合获取单元5051获取与搜索输入信息相对应的查询串信息,基于查询串在预设的FST模块中进行查询处理,获取与搜索输入信息相对应的第一纠错后续信息集合。
第二集合获取单元5052使用搜索词与预设的易错对字词对信息或形近似字词对信息进行匹配处理,获得第二保留词和第二替换词。第二集合获取单元5052基于第二保留词和第二替换词以及关键词生成与搜索输入信息相对应的纠错输入信息,基于纠错输入信息生成第二纠错后续信息集合。
距离信息包括编辑距离信息,纠错得分确定模块504基于编辑距离信息计算输入候选信息的纠错得分;如果第一纠错后续集合和第二纠错后续集合中具有相同的输入候选信息,纠错得分确定模块504确定此相同的输入候选信息的加权系数,基于编辑距离信息和加权系数计算此相同的输入候选信息的纠错得分。纠错信息选取模块505在第一纠错后续集合和第二纠错后续集合中,选取纠错得分选取最大纠错得分对应的输入候选信息,作为第二输入纠错信息。
在一个实施例中,如图8所示,本公开的搜索输入信息纠错装置还包括模块构建模块506、纠错替换信息构建模块507和信息预处理模块508。位置定位模块包括FST模块等,模块构建模块506获取使用频率超过使用频率阈值的词语或短语,对词语或短语进行拆分处理,获得与词语或短语相对应的字串。模块构建模块506基于字串和词语或短语构建FST分支,根据FST分支构建FST模块。
纠错替换信息构建模块507基于搜索日志信息以及搜索输入修改信息,生成易错对字词对信息或形近似字词对信息。信息预处理模块508对用户输入信息进行预处理,去除预设的干扰信息并进行格式调整处理,用以生成搜索输入信息;其中,干扰信息包括表情符号、制表符、无意义字符等。
图13是本公开的电子设备的一个实施例的结构图,如图13所示,电子设备131包括一个或多个处理器1311和存储器1312。
处理器1311可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备131中的其他组件以执行期望的功能。
存储器1312可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1311可以运行程序指令,以实现上文的本公开的各个实施例的搜索输入信息纠错方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备131还可以包括:输入装置1313以及输出装置1314等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备1313还可以包括例如键盘、鼠标等等。该输出装置1314可以向外部输出各种信息。该输出设备1314可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图13中仅示出了该电子设备131中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备131还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的搜索输入信息纠错方法中的步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的搜索输入信息纠错方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在一个实施例中,本公开提供一种计算机程序,包括计算机可读代码,其特征在于,当计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现如上任一实施例中的搜索输入信息纠错方法。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
上述实施例中的搜索输入信息纠错方法、装置以及电子设备、存储介质,使用语言检测模型对搜索输入信息进行检测,获取第一理解困惑度值;如果第一理解困惑度值大于预设范围,则生成第一输入纠错信息;使用语言检测模型对第一输入纠错信息进行检测,获取第二理解困惑度值;如果第二理解困惑度值大于预设范围,则获取纠错后续信息集合;确定输入候选信息与搜索输入信息之间的距离信息,计算纠错得分;基于纠错得分确定第二输入纠错信息,进行相应的搜索操作;可以为用户提供精细的搜索引导,缩短了搜索路径,提高了搜索效率;能够减少模型训练所需的语料,降低成本,在线预测阶段能够实时进行,适用于商业查询等场景;可以为用户提供多种纠错信息,能对用户的搜索输入进行及时纠正,提高纠错准确性,降低了用户的搜索成本,有效改善了用户体验。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (17)
1.一种搜索输入信息纠错方法,其特征在于,包括:
对搜索输入信息进行检测处理,用以判断所述搜索输入信息是否需要纠错,其中,所述检测处理包括:确定所述搜索输入信息的理解困惑度信息;
如果是,则对所述搜索输入信息进行纠错处理,用以生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理,其中,所述纠错处理包括:基于预设词典生成所述输入纠错信息和/或根据所述搜索输入信息的纠错得分信息生成所述输入纠错信息。
2.如权利要求1所述的方法,其特征在于,所述对搜索输入信息进行检测处理,用以判断所述搜索输入信息是否需要纠错包括:
获取与所述搜索输入信息相对应的第一理解困惑度值;
如果所述第一理解困惑度值在预设范围内或小于所述预设范围的下限值,则不需要对所述搜索输入信息进行纠错处理;
如果所述第一理解困惑度值大于所述预设范围的上限值,则需要对所述搜索输入信息进行纠错处理。
3.如权利要求2所述的方法,其特征在于,所述对所述搜索输入信息进行纠错处理,用以生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理包括:
对所述搜索输入信息进行纠错处理,生成第一输入纠错信息;
对所述第一输入纠错信息进行检测,获取与所述第一输入纠错信息相对应的第二理解困惑度值;
如果所述第二理解困惑度值在所述预设范围内或小于所述预设范围的下限值,则使用所述第一输入纠错信息进行相应的搜索操作。
4.如权利要求3所述的方法,其特征在于,所述对所述搜索输入信息进行纠错处理,生成第一输入纠错信息包括:
对所述搜索输入信息进行分词处理,获取搜索词;
使用所述搜索词在预设字典内进行查询,如果查询结果不为空,则确定所述搜索词为第一保留词;如果查询结果为空,则基于所述预设词典对所述搜索词进行纠错处理,生成第一替换词;
基于所述第一保留词和/或所述第一替换词生成所述第一输入纠错信息。
5.如权利要求4所述的方法,其特征在于,所述纠错处理包括:音似、同音或同形纠错处理;所述基于所述预设词典对所述搜索词进行纠错处理,生成替换词包括:
确定需要进行纠错处理搜索词中的待纠错字的位置,根据所述位置获取搜索字;
在所述预设词典内获取音似字表、同音字表或同形字表,基于所述音似字表、同音字表或同形字表获取与所述搜索字相对应的音似替换自、同音替换字或同形替换字;
根据所述音似替换字、同音替换字或所述同形替换字以及搜索字,生成与所述搜索词相对应的候选替换词集合;
根据所述候选替换词集合中的各个候选替换词的使用频率,在所述候选替换词集合中确定候选替换词,用以作为所述替换词。
6.如权利要求3所述的方法,其特征在于,所述生成与所述搜索输入信息相对应的输入纠错信息,进行相应的搜索处理还包括:
如果所述第二理解困惑度值大于所述预设范围的上限值,则获取与所述搜索输入信息相对应的纠错后续信息集合;
确定所述纠错后续信息集合中的各个输入候选信息与所述搜索输入信息之间的差异信息,根据所述差异信息计算各个输入候选信息的纠错得分;
基于所述纠错得分选取输入候选信息,作为第二输入纠错信息,用以使用所述第二输入纠错信息进行相应的搜索操作。
7.如权利要求6所述的方法,其特征在于,所述纠错后续信息集合包括:第一纠错后续集合和第二纠错后续集合;所述获取与所述搜索输入信息相对应的纠错后续信息集合包括:
获取与所述搜索输入信息相对应的查询串信息,基于所述查询串在位置定位模块中进行查询处理,获取与所述搜索输入信息相对应的第一纠错后续信息集合;
使用所述搜索词与预设的易错字词对信息或形近似字词对信息进行匹配处理,获得第二保留词和第二替换词;
基于所述第二保留词和所述第二替换词以及所述关键词生成与所述搜索输入信息相对应的纠错输入信息,基于所述纠错输入信息生成所述第二纠错后续信息集合。
8.如权利要求6所述的方法,其特征在于,所述差异信息包括编辑距离;所述根据所述差异信息计算各个输入候选信息的纠错得分包括:
基于所述编辑距离计算所述输入候选信息的纠错得分;
其中,对于所述第一纠错后续集合和所述第二纠错后续集合中的相同输入候选信息,获取所述相同输入候选信息分别与所述第一纠错后续集合和所述第二纠错后续集合相对应的加权系数,基于所述编辑距离和所述加权系数计算所述相同输入候选信息的纠错得分。
9.如权利要求8所述的方法,其特征在于,所述基于所述纠错得分选取输入候选信息,作为第二输入纠错信息包括:
在所述第一纠错后续集合和所述第二纠错后续集合中,选取所述纠错得分选取最大纠错得分对应的输入候选信息,作为第二输入纠错信息。
10.如权利要求7所述的方法,其特征在于,所述位置定位模块包括:有穷状态转换器FST模块,所述方法还包括:
获取使用频率超过使用频率阈值的词语或短语,对所述词语或短语进行拆分处理,获得与所述词语或短语相对应的字串;
基于所述字串和所述词语或短语构建FST分支,根据所述FST分支构建所述FST模块。
11.如权利要求7所述的方法,其特征在于,还包括:
基于搜索日志信息以及搜索输入修改信息,生成所述易错字词对信息或所述形近似字词对信息。
12.如权利要求3所述的方法,其特征在于,还包括:
使用训练好的语言检测模型对搜索输入信息、第一输入纠错信息进行检测,获取所述第一理解困惑度值、所述第二理解困惑度值。
13.如权利要求1至12任一项所述的方法,其特征在于,还包括:
对用户输入信息进行预处理,去除预设的干扰信息并进行格式调整处理,用以生成所述搜索输入信息,其中,所述干扰信息包括以下一者或多者:表情符号、制表符和无意义字符。
14.一种搜索输入信息纠错装置,其特征在于,包括:
检测模块,用于对搜索输入信息进行检测处理,用以判断所述搜索输入信息是否需要纠错;其中,所述检测处理包括:确定所述搜索输入信息的理解困惑度信息;
纠错模块,用于如果判断所述搜索输入信息需要纠错,则对所述搜索输入信息进行纠错处理,用以生成与所述搜索输入信息相对应的输入纠错信息;其中,所述纠错处理包括:基于预设词典生成所述输入纠错信息和/或根据所述搜索输入信息的纠错得分信息生成所述输入纠错信息。
15.一种电子设备,其特征在于,所述电子设备包括:
处理器;用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-13任一项所述的方法。
17.一种计算机程序,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现权利要求1-13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111014692.1A CN113705202A (zh) | 2021-08-31 | 2021-08-31 | 搜索输入信息纠错方法、装置以及电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111014692.1A CN113705202A (zh) | 2021-08-31 | 2021-08-31 | 搜索输入信息纠错方法、装置以及电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113705202A true CN113705202A (zh) | 2021-11-26 |
Family
ID=78658199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111014692.1A Pending CN113705202A (zh) | 2021-08-31 | 2021-08-31 | 搜索输入信息纠错方法、装置以及电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705202A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095778A (zh) * | 2016-05-26 | 2016-11-09 | 达而观信息科技(上海)有限公司 | 搜索引擎的中文搜索词自动纠错方法 |
CN106326484A (zh) * | 2016-08-31 | 2017-01-11 | 北京奇艺世纪科技有限公司 | 搜索词纠错方法及装置 |
CN109753636A (zh) * | 2017-11-01 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN109922371A (zh) * | 2019-03-11 | 2019-06-21 | 青岛海信电器股份有限公司 | 自然语言处理方法、设备及存储介质 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
CN111310440A (zh) * | 2018-11-27 | 2020-06-19 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
-
2021
- 2021-08-31 CN CN202111014692.1A patent/CN113705202A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095778A (zh) * | 2016-05-26 | 2016-11-09 | 达而观信息科技(上海)有限公司 | 搜索引擎的中文搜索词自动纠错方法 |
CN106326484A (zh) * | 2016-08-31 | 2017-01-11 | 北京奇艺世纪科技有限公司 | 搜索词纠错方法及装置 |
CN109753636A (zh) * | 2017-11-01 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN111310440A (zh) * | 2018-11-27 | 2020-06-19 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN109922371A (zh) * | 2019-03-11 | 2019-06-21 | 青岛海信电器股份有限公司 | 自然语言处理方法、设备及存储介质 |
CN110457688A (zh) * | 2019-07-23 | 2019-11-15 | 广州视源电子科技股份有限公司 | 纠错处理方法及装置、存储介质和处理器 |
Non-Patent Citations (4)
Title |
---|
ANDREAS EISELE ET AL: "Error-tolerant finite-state lookup for trademark search", 《KI 2004: ADVANCES IN ARTIFICIAL INTELLIGENCE:27TH ANNUAL GERMAN CONFERENCE IN AI》, pages 1 - 15 * |
JEUNGHYUN BYUN ET AL: "Automatic Spelling Correction Rule Extraction and Application for Spoken-Style Korean Text", 《SIXTH INTERNATIONAL CONFERENCE ON ADVANCED LANGUAGE PROCESSING AND WEB INFORMATION TECHNOLOGY》, pages 195 - 199 * |
JOHANNES SCHABACK ET AL: "Multi-Level Feature Extraction for Spelling Correction", 《IJCAI-2007》, pages 79 - 86 * |
LENE ANTONSEN: "Improving feedback on L2 misspellings - an FST approach", 《PROCEEDINGS OF THE SLTC 2012 WORKSHOP ON NLP FOR CALL》, pages 1 - 10 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113234B2 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
JP6675463B2 (ja) | 自然言語の双方向確率的な書換えおよび選択 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN107247707B (zh) | 基于补全策略的企业关联关系信息提取方法和装置 | |
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
JP2015179497A (ja) | 入力方法及びシステム | |
KR101495240B1 (ko) | 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법 | |
CN104166462A (zh) | 一种文字的输入方法和系统 | |
KR101573854B1 (ko) | 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
JP7400112B2 (ja) | 自動音声認識のための英数字列のバイアス付加 | |
CN114840671A (zh) | 对话生成方法、模型的训练方法、装置、设备及介质 | |
CN110874532A (zh) | 提取反馈信息的关键词的方法和装置 | |
US10049108B2 (en) | Identification and translation of idioms | |
CN112346696B (zh) | 虚拟助理的语音比较 | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113919424A (zh) | 文本处理模型的训练、文本处理方法、装置、设备和介质 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
CN113705202A (zh) | 搜索输入信息纠错方法、装置以及电子设备、存储介质 | |
CN114254634A (zh) | 一种多媒体数据的挖掘方法、装置、存储介质及设备 | |
CN114548075A (zh) | 文本处理方法、文本处理装置、存储介质与电子设备 | |
CN112989805A (zh) | 一种文本检测方法、装置、设备及存储介质 | |
US10055401B2 (en) | Identification and processing of idioms in an electronic environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |