CN113420219A - 用于查询信息纠错的方法、装置、电子设备及可读存储介质 - Google Patents
用于查询信息纠错的方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113420219A CN113420219A CN202110737680.5A CN202110737680A CN113420219A CN 113420219 A CN113420219 A CN 113420219A CN 202110737680 A CN202110737680 A CN 202110737680A CN 113420219 A CN113420219 A CN 113420219A
- Authority
- CN
- China
- Prior art keywords
- error correction
- query information
- query
- length
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012937 correction Methods 0.000 claims abstract description 150
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000256844 Apis mellifera Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及计算机技术领域,公开一种用于查询信息纠错的方法,该方法包括:获取查询信息的长度;根据长度确定纠错策略;根据纠错策略对查询信息进行纠错,获得纠错结果。通过查询信息的长度确定纠错策略,对不同长度的查询信息分别采用不同的纠错策略,能够提高对查询信息的纠错速度。本申请还公开一种用于查询信息纠错的装置、电子设备及存储介质。
Description
技术领域
本申请涉及计算机技术领域,例如涉及一种用于查询信息纠错的方法、装置、电子设备及可读存储介质。
背景技术
搜索引擎是目前人们获取信息最重要的方式之一,其最基本最核心的功能是信息检索,找到含有关键字的网页或文档,然后将含有关键字的网页或文档展示给用户。在搜索引擎输入的查询信息中,有相当一部分是有错误的查询。而提交有错误的查询给搜索引擎,通常得不到好的搜索结果,可能会导致返回结果数很少或和用户的预期相差很远,因此需要对查询信息进行纠错。
在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:现有技术由于没有考虑查询信息的长度,在对不同长度的查询信息进行纠错时均采用同一纠错策略,导致纠错速度较慢。
发明内容
为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
本公开实施例提供了一种用于查询信息纠错的方法、装置、电子设备及可读存储介质,以能够提高对查询信息纠错的速度。
在一些实施例中,所述用于查询信息纠错的方法,包括:获取查询信息的长度;根据所述长度确定纠错策略;根据所述纠错策略对所述查询信息进行纠错,获得纠错结果。
在一些实施例中,所述用于查询信息纠错的装置包括:获取模块,被配置为获取查询信息的长度;确定模块,被配置为根据所述长度确定纠错策略;纠错模块,被配置为根据所述纠错策略对所述查询信息进行纠错,获得纠错结果。
在一些实施例中,所述电子设备包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的用于查询信息纠错的方法。
在一些实施例中,所述可读存储介质,存储有可执行指令,所述可执行指令在运行时执行上述用于查询信息纠错的方法。
本公开实施例提供的用于查询信息纠错的方法、装置、电子设备及可读存储介质,可以实现以下技术效果:通过获取查询信息的长度;根据查询信息的长度确定纠错策略;根据纠错策略对查询信息进行纠错,获得纠错结果。通过查询信息的长度确定纠错策略,对不同长度的查询信息分别采用不同的纠错策略,能够提高对查询信息的纠错速度。
以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。
附图说明
一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
图1是本公开实施例提供的一个用于查询信息纠错的方法的示意图;
图2是本公开实施例提供的一个BK树结构的示意图;
图3是本公开实施例提供的一个用于查询信息纠错的装置的示意图;
图4是本公开实施例提供的一个电子设备的示意图。
具体实施方式
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
除非另有说明,术语“多个”表示两个或两个以上。
本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如, A/B表示:A或B。
术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,A和/或B,表示:A或B,或,A和B这三种关系。
结合图1所示,本公开实施例提供一种用于查询信息纠错的方法,包括:
步骤S101,获取查询信息的长度;
步骤S102,根据查询信息的长度确定纠错策略;
步骤S103,根据纠错策略对查询信息进行纠错,获得纠错结果。
采用本公开实施例提供的用于查询信息纠错的方法,通过获取查询信息的长度;根据所述长度确定纠错策略;根据所述纠错策略对所述查询信息进行纠错,获得纠错结果。通过查询信息的长度确定纠错策略,对不同长度的查询信息分别采用不同的纠错策略,能够提高对查询信息的纠错速度。
可选地,查询信息的长度为查询信息中汉字的个数。
可选地,根据长度确定纠错策略,包括:在查询信息的长度小于或等于预设阈值的情况下,将对查询信息转换为拼音字符串后进行查询信息纠错确定为纠错策略。
可选地,查询信息的长度小于或等于预设阈值,包括:查询信息中汉字的个数小于或等于预设阈值。可选地,预设阈值为6。在一些实施例中,获取到查询信息“姿势图谱”,“姿势图谱”中的汉字个数为4,汉字个数小于6,则纠错策略为将“姿势图谱”转换为拼音字符串“zishitupu”之后再进行查询信息纠错。在一些实施例中,查询信息为“zisi图谱”,“zisi图谱”中的汉字个数为2,汉字个数小于6,纠错策略为将“zisi图谱”转换为拼音字符串“zisitupu”之后再进行查询信息纠错。
这样,通过对查询信息进行自然语言处理,将查询信息转换成拼音字符串,使得用户能够根据查询信息获取更全面的查询结果,从而获取更全面的纠错结果,能够为用户反馈更有效的信息,减少了无效查询。
可选地,根据纠错策略对查询信息进行纠错,包括:将查询信息转换为拼音字符串;在第一预设数据库中查询与拼音字符串的编辑距离小于或等于预设编辑距离阈值的预存拼音字符串,获得第一查询结果;第一预设数据库存储有预存拼音字符串;根据第一查询结果确定查询信息对应的纠错结果。
可选地,编辑距离是指两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数。可选地,编辑操作包括将字符串中的一个字符替换成另一个字符、在字符串中插入一个字符、在字符串中删除一个字符等。
可选地,第一预设数据库为BK(Burkhard-Keller,布克哈德-凯勒)树。 BK树中的节点为预存拼音字符串。
可选地,在预设的BK树中查询预存拼音字符串,在预存拼音字符串与查询信息转换的拼音字符串的编辑距离小于或等于预设编辑距离阈值的情况下,将查询到的该预存拼音字符串确定为第一查询结果。可选地,预设编辑距离阈值为2。
可选地,在预设的BK树中查找与拼音字符串相同的根节点;在该根节点与子节点之间的编辑距离小于或等于预设编辑距离的情况下,将该子节点确定为第一查询结果。
在一些实施例中,结合图2所示,图2为BK树结构的示意图,其中,根节点为“help”,根节点“help”的子节点包括:“hell”、“hello”和“loop”,“hell”与“help”之间的编辑距离为1,“hello”与“help”之间的编辑距离为2,“loop”与“help”之间的编辑距离为4;在查询信息转换的拼音字符串为“help”、预设编辑距离阈值为2的情况下,获取与拼音字符串“help”相同的根节点为“help”,“help”的子节点中“hell”与根节点“help”之间的编辑距离为1,“hello”与根节点“help”之间的编辑距离为2,则将“hell”和“hello”确定为第一查询结果。
可选地,在无法获得第一查询结果的情况下,将第一预设数据库中与拼音字符串的编辑距离最小的预存拼音字符串确定为第一查询结果。
可选地,根据第一查询结果确定查询信息对应的纠错结果,包括:获取预存拼音字符串对应的词,根据预存拼音字符串对应的词确定为纠错结果。
在一些实施例中,查询信息为“姿势图谱”,将“姿势图谱”转换为拼音字符串“zishitupu”,预设编辑距离阈值为2,从BK树中查询出的预存拼音字符串“zishitupu”与拼音字符串“zishitupu”的编辑距离小于2,则将“zishitupu”确定为第一查询结果,获取“zishitupu”对应的词,包括:“知识图谱”;将“知识图谱”确定为纠错结果。
可选地,预设的BK树根据以下方式获得:将预设的词典中所有的预存词转换为对应的预存拼音字符串存入BK树中。
可选地,通过HanLP(Han Language Processing,汉语言处理)工具包将预存词转换为预存词对应的预存拼音字符串。
可选地,预设的词典根据以下方式获得,包括:从知识图谱数据库中获取每个实体的主副标题属性,并获取主副标题属性的所有值,并将实体、主副标题属性及其所有值存入词典中。可选地,通过读取存放有实体的 HDFS(Hadoop Distributed File System,分布式文件系统)文件来获取实体对应属性的所有值。可选地,通过百度搜索引擎给知识图谱数据库中没有词频的词进行词频标记。
可选地,预设的词典根据以下方式获得,包括:从历史搜索记录的日志中获取历史查询信息,并获取历史查询信息对应的频率,将该频率确定为历史查询信息的词频,将历史查询信息及其对应的词频存入词典中。
可选地,预设的词典根据以下方式获得,包括:对常见易错词进行搜集,将常见易错词存入词典中。在一些实施例中,常见易错词例如:“暴乱”和“爆乱”,“蜜蜂”和“密蜂”,“芈月传”和“半月传”等。
这样,基于拼音的编辑距离采用构建BK树的查询方法,通过自然语言处理将词典中的词转换为拼音存入BK树中,BK树是一种数据结构,用于根据Levenshtein(字符串相似度)距离概念执行拼写检查,基于该数据结构可以实现基于拼音编辑距离的快速计算,使得用户根据BK树进行纠错的速度大大提高。同时,由于从知识图谱数据库中获取词典,通过结合知识图谱数据库,对查询信息进行查询纠错,不仅提高了用户的查询体验,也使得用户输入的查询信息在知识图谱数据库的帮助下反馈更有效的信息,减少了无效搜索,提高了搜索的召回率。也大大提高了对查询信息的纠错速度,减少了纠错延迟带来的差体验。
可选地,根据查询信息的长度确定纠错策略,包括:在查询信息的长度大于预设阈值的情况下,将直接对查询信息进行纠错确定为纠错策略。
可选地,在查询信息中汉字的个数大于预设阈值的情况下,将直接对查询信息进行纠错确定为纠错策略。
可选地,根据纠错策略对查询信息进行纠错,包括:在第二预设数据库中查询备选字符串,获得第二查询结果;备选字符串与查询信息对应的字符串的编辑距离小于或等于预设编辑距离阈值;第二预设数据库中存储有备选字符串;根据第二查询结果确定查询信息对应的纠错结果。可选地,预设编辑距离阈值为2。
可选地,第二预设数据库为索引文件。
可选地,备选字符串包括汉字字符和/或拼音字符。
可选地,在第二预设数据库中查询备选字符串,获得第二查询结果,包括:在预设的索引文件中利用预设方法查询备选字符串,获得第二查询结果。可选地,预设方法为spellChecker.suggestSimilar(拼写检查)方法。
可选地,在预设的索引文件中利用预设方法查询备选字符串,获得第二查询结果,包括:在索引文件中查找与查询信息的编辑距离小于或等于预设编辑距离阈值的备选字符串,将查找出的备选字符串确定为第二查询结果。
可选地,根据第二查询结果确定查询信息对应的纠错结果,包括:将第二查询结果确定为查询信息对应的纠错结果。
在一些实施例中,在查询信息为“街道办事”、预设编辑距离阈值为2 的情况下,在索引文件中查找到与“街道办事”的编辑距离小于2的备选字符串为“街道办事处”,将“街道办事处”确定为第二查询结果。并将“街道办事处”确定为“街道办事”对应的纠错结果。
可选地,在第二预设数据库中查询备选字符串,在无法获得第二查询结果的情况下,将该第二预设数据库中与查询信息的编辑距离最小的备选字符串确定为第二查询结果。
可选地,预设的索引文件根据以下方式获得:获取预设的词典,对词典中长度大于5的词建立索引文件。
在一些实施例中,通过建立索引文件,调用PlainTextDictionary(明文字典)对象,实现Dictionary(字典)接口,索引文件借助Lucene(全文搜索引擎)的索引实现用文本文件提供内容,文本文件中每一行存有一个词组。通过Lucene的索引实现基于汉字的编辑距离进行查询信息纠错,使得纠错的速度大大提高。
可选地,获得纠错结果后,还包括:按照编辑距离从小到大的顺序对纠错结果进行排序;显示排序后的纠错结果。
在一些实施例中,“help”对应的纠错结果包括:“hell”和“hello”, hell对应的编辑距离为1,hello”对应的编辑距离为2,则按照编辑距离从小到大的顺序为:“hell”“hello”。
可选地,显示排序后的纠错结果前,还包括:将相同的编辑距离所对应的纠错结果确定为待排序纠错结果,获取待排序纠错结果的来源信息;根据来源信息对待排序纠错结果进行排序。
可选地,来源信息包括:来源于知识图谱数据库、来源于历史搜索记录的日志等。
可选地,根据来源信息对待排序纠错结果进行排序,包括:将来源信息按照预设的顺序对待排序纠错结果进行排序。例如:将来源于历史搜索记录的日志的待排序纠错结果排在来源于知识图谱数据库中的待排序纠错结果之前。
可选地,显示排序后的纠错结果前,还包括:在存在来源信息相同的待排序纠错结果的情况下,获取来源信息相同的待排序纠错结果的词频,按照词频从大到小的顺序对来源信息相同的待排序纠错结果进行排序。
结合图3所示,本公开实施例提供一种用于查询信息纠错的装置,包括:获取模块301、确定模块302和确定模块303;获取模块301被配置为获取查询信息的长度,并将查询信息的长度发送给确定模块302;确定模块302被配置为接收获取模块301发送的查询信息的长度,根据所述长度确定纠错策略,并将纠错策略发送给纠错模块303;纠错模块303被配置为接收确定模块302发送的纠错策略,根据所述纠错策略对所述查询信息进行纠错,获得纠错结果。
采用本公开实施例提供的用于查询信息纠错的装置,通过获取模块获取查询信息的长度;确定模块根据所述长度确定纠错策略;纠错模块根据所述纠错策略对所述查询信息进行纠错,获得纠错结果。这样通过获取查询信息的长度,对不同长度的查询信息分别采用不用的纠错策略,提高了对查询信息的纠错速度。
可选地,确定模块包括:自然语言处理模块、第一查询模块和第二查询模块;自然语言处理模块被配置为将查询信息转换为拼音字符串;第一查询模块被配置为在第一预设数据库中查询与拼音字符串的编辑距离小于或等于预设编辑距离阈值的预存拼音字符串,获得第一查询结果;第一预设数据库存储有预存拼音字符串;第一查询模块还被配置为根据第一查询结果确定查询信息对应的纠错结果。
可选地,第二查询模块被配置为在第二预设数据库中查询备选字符串,获得第二查询结果;备选字符串与查询信息对应的字符串的编辑距离小于或等于预设编辑距离阈值;第二预设数据库中存储有备选字符串;第二查询模块还被配置为根据第二查询结果确定查询信息对应的纠错结果。
可选地,用于查询信息纠错的装置还包括:排序模块;排序模块被配置为按照编辑距离从小到大的顺序对纠错结果进行排序,并显示排序后的纠错结果。
可选地,排序模块还被配置为将相同的编辑距离所对应的纠错结果确定为待排序纠错结果,获取待排序纠错结果的来源信息,根据来源信息对待排序纠错结果进行排序。
这样,通过查询信息的长度确定纠错策略,对不同长度的查询信息分别采用不同的纠错策略,能够提高对查询信息的纠错速度。
结合图4所示,本公开实施例提供一种电子设备,包括处理器 (processor)400和存储有程序指令的存储器(memory)401。可选地,该设备还可以包括通信接口(Communication Interface)402和总线403。其中,处理器400、通信接口402、存储器401可以通过总线403完成相互间的通信。通信接口402可以用于信息传输。处理器400可以调用存储器401中的程序指令,以执行上述实施例的用于查询信息纠错的方法。
此外,上述的存储器401中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。
存储器401作为一种可读存储介质,可用于存储软件程序、可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器400通过运行存储在存储器401中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中用于查询信息纠错的方法。
存储器401可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器。
采用本公开实施例提供的电子设备,通过获取查询信息的长度;根据所述长度确定纠错策略;根据所述纠错策略对所述查询信息进行纠错,获得纠错结果。通过查询信息的长度确定纠错策略,对不同长度的查询信息分别采用不同的纠错策略,能够提高对查询信息的纠错速度。
可选地,电子设备为计算机等。
本公开实施例提供了一种可读存储介质,存储有可执行指令,可执行指令设置为执行上述用于查询信息纠错的方法。
本公开实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述用于查询信息纠错的方法。
上述的可读存储介质可以是暂态可读存储介质,也可以是非暂态可读存储介质。
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (10)
1.一种用于查询信息纠错的方法,其特征在于,包括:
获取查询信息的长度;
根据所述长度确定纠错策略;
根据所述纠错策略对所述查询信息进行纠错,获得纠错结果。
2.根据权利要求1所述的方法,其特征在于,根据所述长度确定纠错策略,包括:
在所述长度小于或等于预设阈值的情况下,将对所述查询信息转换为拼音字符串后进行查询信息纠错确定为纠错策略。
3.根据权利要求2所述的方法,其特征在于,根据所述纠错策略对所述查询信息进行纠错,包括:
将所述查询信息转换为拼音字符串;
在第一预设数据库中查询与所述拼音字符串的编辑距离小于或等于预设编辑距离阈值的预存拼音字符串,获得第一查询结果;所述第一预设数据库存储有预存拼音字符串;
根据所述第一查询结果确定所述查询信息对应的纠错结果。
4.根据权利要求1所述的方法,其特征在于,根据所述长度确定纠错策略,包括:
在所述长度大于预设阈值的情况下,将直接对所述查询信息进行纠错确定为纠错策略。
5.根据权利要求4所述的方法,其特征在于,根据所述纠错策略对所述查询信息进行纠错,包括:
在第二预设数据库中查询备选字符串,获得第二查询结果;所述备选字符串与所述查询信息对应的字符串的编辑距离小于或等于预设编辑距离阈值;所述第二预设数据库中存储有备选字符串;
根据所述第二查询结果确定所述查询信息对应的纠错结果。
6.根据权利要求3或5所述的方法,其特征在于,获得纠错结果后,还包括:
按照所述编辑距离从小到大的顺序对所述纠错结果进行排序;
显示排序后的纠错结果。
7.根据权利要求6所述的方法,其特征在于,显示排序后的纠错结果前,还包括:
将相同的编辑距离所对应的纠错结果确定为待排序纠错结果,获取所述待排序纠错结果的来源信息;
根据所述来源信息对所述待排序纠错结果进行排序。
8.一种用于查询信息纠错的装置,其特征在于,包括:
获取模块,被配置为获取查询信息的长度;
确定模块,被配置为根据所述长度确定纠错策略;
纠错模块,被配置为根据所述纠错策略对所述查询信息进行纠错,获得纠错结果。
9.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至7任一项所述的用于查询信息纠错的方法。
10.一种可读存储介质,存储有可执行指令,其特征在于,所述可执行指令在运行时执行如权利要求1至7任一项所述的用于查询信息纠错的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110737680.5A CN113420219A (zh) | 2021-06-30 | 2021-06-30 | 用于查询信息纠错的方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110737680.5A CN113420219A (zh) | 2021-06-30 | 2021-06-30 | 用于查询信息纠错的方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113420219A true CN113420219A (zh) | 2021-09-21 |
Family
ID=77717356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110737680.5A Pending CN113420219A (zh) | 2021-06-30 | 2021-06-30 | 用于查询信息纠错的方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420219A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862674A (zh) * | 2023-02-21 | 2023-03-28 | 山东山大鸥玛软件股份有限公司 | 英语口语评测的语音识别及纠错方法、系统、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468719A (zh) * | 2015-11-20 | 2016-04-06 | 北京齐尔布莱特科技有限公司 | 一种查询纠错方法、装置和计算设备 |
CN106168954A (zh) * | 2016-06-07 | 2016-11-30 | 中国人民解放军国防科学技术大学 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
CN106469097A (zh) * | 2016-09-02 | 2017-03-01 | 北京百度网讯科技有限公司 | 一种基于人工智能的召回纠错候选的方法和装置 |
CN107193921A (zh) * | 2017-05-15 | 2017-09-22 | 中山大学 | 面向搜索引擎的中英混合查询纠错的方法及系统 |
CN109597500A (zh) * | 2018-12-06 | 2019-04-09 | 北京金山安全软件有限公司 | 一种用于汉语拼音的输入纠错方法、装置及电子设备 |
-
2021
- 2021-06-30 CN CN202110737680.5A patent/CN113420219A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468719A (zh) * | 2015-11-20 | 2016-04-06 | 北京齐尔布莱特科技有限公司 | 一种查询纠错方法、装置和计算设备 |
CN106168954A (zh) * | 2016-06-07 | 2016-11-30 | 中国人民解放军国防科学技术大学 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
CN106469097A (zh) * | 2016-09-02 | 2017-03-01 | 北京百度网讯科技有限公司 | 一种基于人工智能的召回纠错候选的方法和装置 |
CN107193921A (zh) * | 2017-05-15 | 2017-09-22 | 中山大学 | 面向搜索引擎的中英混合查询纠错的方法及系统 |
CN109597500A (zh) * | 2018-12-06 | 2019-04-09 | 北京金山安全软件有限公司 | 一种用于汉语拼音的输入纠错方法、装置及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862674A (zh) * | 2023-02-21 | 2023-03-28 | 山东山大鸥玛软件股份有限公司 | 英语口语评测的语音识别及纠错方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
WO2017084506A1 (zh) | 搜索查询词纠错方法和装置 | |
CN101131706B (zh) | 一种查询修正方法及系统 | |
US9195738B2 (en) | Tokenization platform | |
CN102810096B (zh) | 一种基于单字索引系统的检索方法和装置 | |
US20020021838A1 (en) | Adaptively weighted, partitioned context edit distance string matching | |
US9934289B2 (en) | Fuzzy full text search | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN109828981B (zh) | 一种数据处理方法及计算设备 | |
KR20100068382A (ko) | 부분 입력된 서치 쿼리에 대한 자동완성 및 입력 방법 자동 변환 | |
CN104252484A (zh) | 一种拼音纠错方法及系统 | |
CN110969517B (zh) | 一种招投标生命周期关联方法、系统、存储介质及计算机设备 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN112115227A (zh) | 数据的查询方法、装置、电子设备及存储介质 | |
EP2788897B1 (en) | Optimally ranked nearest neighbor fuzzy full text search | |
CN103914570A (zh) | 基于字符串相似度算法的智能客服搜索方法与系统 | |
US10565188B2 (en) | System and method for performing a pattern matching search | |
CN113254671B (zh) | 基于query分析的图谱优化方法、装置、设备及介质 | |
CN113420219A (zh) | 用于查询信息纠错的方法、装置、电子设备及可读存储介质 | |
CN117763077A (zh) | 数据查询方法及装置 | |
KR101956322B1 (ko) | 자동 변종 검출을 사용한 금지된 네트워크 컨텐츠의 배포 방지 | |
CN110222156B (zh) | 发现实体的方法和装置、电子设备、计算机可读介质 | |
CN112182283A (zh) | 歌曲搜索方法、装置、网络设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |