CN109885180A - 纠错方法和装置、计算机可读介质 - Google Patents

纠错方法和装置、计算机可读介质 Download PDF

Info

Publication number
CN109885180A
CN109885180A CN201910130735.9A CN201910130735A CN109885180A CN 109885180 A CN109885180 A CN 109885180A CN 201910130735 A CN201910130735 A CN 201910130735A CN 109885180 A CN109885180 A CN 109885180A
Authority
CN
China
Prior art keywords
entity
target candidate
inquiry request
candidate entity
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910130735.9A
Other languages
English (en)
Other versions
CN109885180B (zh
Inventor
林泽南
卢佳俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910130735.9A priority Critical patent/CN109885180B/zh
Publication of CN109885180A publication Critical patent/CN109885180A/zh
Priority to KR1020200000235A priority patent/KR102215299B1/ko
Priority to EP20156968.8A priority patent/EP3699779A1/en
Priority to US16/790,016 priority patent/US11663269B2/en
Priority to JP2020024073A priority patent/JP7149976B2/ja
Application granted granted Critical
Publication of CN109885180B publication Critical patent/CN109885180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种纠错方法,该方法包括:基于接收到的查询请求,从预设的字典树中确定多个目标候选实体,计算每个目标候选实体为合法实体的第一概率,对每个目标候选实体进行评估,得到评估的结果,其中,一个目标候选实体对应一个评估的结果,基于第一概率和评估的结果确定查询请求对应的真实意图实体。通过本公开实施例提供的技术方案,避免了现有技术中纠错效果不佳的问题,实现了降低纠错成本,提高纠错效率和准确率的技术效果。本公开还提供了一种纠错装置、计算机可读介质。

Description

纠错方法和装置、计算机可读介质
技术领域
本公开实施例涉及互联网技术领域,特别涉及纠错方法和装置、计算机可读介质。
背景技术
在信息化蓬勃发展的今天,网络已经延伸到社会的方方面面,交互设备越来越普遍。用户可通过键盘键入等方式输入查询请求,交互设备根据预置的标准映射将该查询请求转换为相应的候选项并展示,以便用户对候选项进行选择。
在实际应用中,由于输入法、按错键盘等,会造成用户所搜时输入的查询请求存在错误,则搜索引擎返回的搜索结果与用户期待的结果存在明显的差异(因为搜索引擎无法正确纠错此类错误查询请求)。
发明内容
本公开实施例提供一种纠错方法和装置、计算机可读介质。
根据本公开实施例的一个方面,本公开实施例提供了一种纠错方法,包括:
基于接收到的查询请求,从预设的字典树中确定多个目标候选实体;
计算每个所述目标候选实体为合法实体的第一概率;
对每个所述目标候选实体进行评估,得到评估的结果,其中,一个所述目标候选实体对应一个评估的结果;
基于所述第一概率和所述评估的结果确定所述查询请求对应的真实意图实体。
在一些实施例中,在基于接收到的查询请求,从预设的字典树中确定多个目标候选实体之前,还包括:
计算所述查询请求输入正确的第二概率;
所述基于接收到的查询请求,从预设的字典树中确定多个目标候选实体,具体包括:
响应于所述第二概率小于预设的第一阈值,基于接收到的查询请求,从所述字典树中确定所述目标候选实体。
在一些实施例中,所述基于接收到的查询请求,从预设的字典树中确定多个目标候实体,具体包括:
对所述查询请求中的字符串和所述字典树进行计算,得到多个初始候选实体;
基于预设的第二阈值,从多个所述初始候选实体中选取与所述查询请求对应的所述目标候选实体。
在一些实施例中,所述基于预设的第二阈值,从多个所述初始候选实体中选取与所述查询请求对应的所述目标候选实体,包括:
计算每个所述初始候选实体与所述查询请求的第一距离;
将每个所述第一距离分别与所述第二阈值进行比较;
将小于或等于所述第二阈值的第一距离对应的初始候选实体确定为所述目标候选实体。
在一些实施例中,如果所述第二阈值包括第三阈值和第四阈值,则所述基于预设的第二阈值,从多个所述初始候选实体中选取与所述查询请求对应的所述目标候选实体,包括:
基于第一算法计算每个所述初始候选实体与所述查询请求的第二距离;
将所述第二距离与所述第三阈值进行比较;
从多个所述初始候选实体中提取小于或等于所述第三阈值的第二距离对应的第一候选实体;
基于第二算法计算每个所述第一候选实体与所述查询请求的第三距离;
将小于或等于所述第四阈值的第三距离对应的第一候选实体确定为所述目标候选实体。
在一些实施例中,如果所述第一算法为编辑距离算法,则第二算法为杰卡德距离算法;
如果所述第一算法为所述杰卡德距离算法,则所述第二算法为所述编辑距离算法。
在一些实施例中,所述对每个所述目标候选实体进行评估,包括:
提取每个所述目标候选实体对应的属性信息;
确定每个所述目标候选实体的属性信息的权重;
基于所述权重对每个所述目标候选实体进行评估。
在一些实施例中,所述基于所述第一概率和所述评估的结果确定所述查询请求对应的真实意图实体,具体包括:
对每个所述目标候选实体对应的第一概率和评估的结果进行加权,得到每个所述目标候选实体对应的加权值;
将最大的加权值对应的目标候选实体确定为所述真实意图实体。
在一些实施例中,还包括:
从预设知识库中提取多个实体;
将每个所述实体作为预设字典树的节点,将每个所述实体的实体义项作为其所属实体的子节点,并为每个所述实体义项分配唯一的标识,得到所述字典树。
根据本公开实施例的另一个方面,本公开实施例还提供了一种纠错装置,包括:
获取模块,用于基于接收到的查询请求,从预设的字典树中确定多个目标候选实体;
概率计算模块,用于计算每个所述目标候选实体为合法实体的第一概率;
评估模块,用于对每个所述目标候选实体进行评估,得到评估的结果,其中,一个所述目标候选实体对应一个评估的结果;
确定模块,用于基于所述第一概率和所述评估的结果确定所述查询请求对应的真实意图实体。
在一些实施例中,所述概率计算模块还用于,计算所述查询请求输入正确的第二概率;
所述获取模块具体用于,响应于所述第二概率小于预设的第一阈值,基于接收到的查询请求,从所述字典树中确定所述目标候选实体。
在一些实施例中,所述获取模块具体用于:
对所述查询请求中的字符串和所述字典树进行计算,得到多个初始候选实体;
基于预设的第二阈值,从多个所述初始候选实体中选取与所述查询请求对应的所述目标候选实体。
在一些实施例中,所述获取模块具体用于:
计算每个所述初始候选实体与所述查询请求的第一距离;
将每个所述第一距离分别与所述第二阈值进行比较;
将小于或等于所述第二阈值的第一距离对应的初始候选实体确定为所述目标候选实体。
在一些实施例中,如果所述第二阈值包括第三阈值和第四阈值,则所述获取模块具体用于:
基于第一算法计算每个所述初始候选实体与所述查询请求的第二距离;
将所述第二距离与所述第三阈值进行比较;
从多个所述初始候选实体中提取小于或等于所述第三阈值的第二距离对应的第一候选实体;
基于第二算法计算每个所述第一候选实体与所述查询请求的第三距离;
将小于或等于所述第四阈值的第三距离对应的第一候选实体确定为所述目标候选实体。
在一些实施例中,如果所述第一算法为编辑距离算法,则第二算法为杰卡德距离算法;
如果所述第一算法为所述杰卡德距离算法,则所述第二算法为所述编辑距离算法。
在一些实施例中,所述评估模块具体用于:
提取每个所述目标候选实体对应的属性信息;
确定每个所述目标候选实体的属性信息的权重;
基于所述权重对每个所述目标候选实体进行评估。
在一些实施例中,所述确定模块具体用于:
对每个所述目标候选实体对应的第一概率和评估的结果进行加权,得到每个所述目标候选实体对应的加权值;
将最大的加权值对应的目标候选实体确定为所述真实意图实体。
在一些实施例中,还包括:
提取模块,用于从预设知识库中提取多个实体;
构建模块,用于将每个所述实体作为预设字典树的节点,将每个所述实体的实体义项作为其所属实体的子节点,并为每个所述实体义项分配唯一的标识,得到所述字典树。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法。
本公开实施例提供的基于接收到的查询请求,从预设的字典树中确定多个目标候选实体,计算每个目标候选实体为合法实体的第一概率,对每个目标候选实体进行评估,得到评估的结果,其中,一个目标候选实体对应一个评估的结果,基于第一概率和评估的结果确定查询请求对应的真实意图实体,避免了现有技术中纠错效果不佳的问题,实现了降低纠错成本,提高纠错效率和准确率的技术效果。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为根据本公开实施例的纠错方法的示意图;
图2为根据本公开实施例的确定目标候选实体的方法的示意图;
图3为根据本公开另一实施例的确定目标候选实体的方法的示意图;
图4为根据本公开另一实施例的确定目标候选实体的方法的示意图;
图5为根据本公开实施例的构建字典树的方法的示意图;
图6为根据本公开实施例的评估的方法的示意图;
图7为根据本公开实施例的确定真实意图实体的方法的示意图;
图8为根据本公开实施例的纠错装置的示意图;
图9为根据本公开实施例的纠错装置的框架示意图;
附图标记:
1、获取模块,2、概率计算模块,3、评估模块,4、确定模块,5、提取模块,6、构建模块,11、处理单元(或处理器),12、存储器,13、总线,14、RAM,15、高速缓存,16、存储系统,17、程序组件,18、实用工具,19、外部设备,20、显示器,21、I/O接口,22、网络适配器。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的纠错方法和装置、计算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
根据本公开实施例的一个方面,本公开实施例提供了一种纠错方法。
请参阅图1,图1为根据本公开实施例的纠错方法的示意图。
如图1所示,该方法包括:
S1:基于接收到的查询请求,从预设的字典树中确定多个目标候选实体。
具体地:响应于用户通过用户终端输入的查询请求,获取预先设置的字典树。根据字典树和查询请求确定m个目标候选实体,其中,m为大于1的整数。其中,用户终端可以是移动设备例如手机、笔记本电脑平板电脑、个人数字助理,也可以是固定设备,例如台式电脑等。
其中,字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
在本公开实施例中,通过结合“字典树”对“目标候选实体”确定目标候选实体,可实现选取的目标候选实体的高效性,全面性以及多样性,进而实现纠错的准确性。
在一些实施例中,在接收到查询请求之后,在S1之前,还包括:计算查询请求输入正确的第二概率,响应于第二概率小于预设的第一阈值,则执行S1。
具体地:查询请求可能为输入正确的查询请求(即能被识别或拼写正确的查询请求),也可能为输入错误的查询请求(即无法进行识别或拼写错误的查询请求),第二概率即为查询请求为输入正确的查询请求的概率。基于语言模型(如NGRAM语言模型)对查询请求的输入正确进行计算,得到第二概率。
如果第二概率大于或等于第一阈值,则说明查询请求为输入正确的查询请求。
如果第二概率小于第一阈值,则说明查询请求为输入错误的查询请求。需要对该查询请求进行纠错,则执行S1。
其中,第一阈值可根据需求进行设定。针对高精度需求的应用场景,则可相应设置较大的第一阈值,针对低精度需求的应用场景,则可相应设置较小的第一阈值。也就是说,第一阈值的设定可基于应用场景的不同而进行设置,高精度需求的应用场景对应的第一阈值大于低精度需求的应用场景对应的第一阈值。
通过本公开实施例提供的将第二概率与第一阈值进行比较,如果第二概率小于第一阈值,则对查询请求进行纠错的技术方案。以避免现有技术中直接对查询请求进行纠错造成的浪费时间和资源的技术弊端,实现了降低纠错成本的技术效果。
结合图2可知,在一些实施例中,S1包括:
S1-1:对查询请求中的字符串和字典树进行计算,得到多个初始候选实体。
具体地,查询请求由字符串构成。可以理解的是,本文所记载的“字符串”可以包括文本形式的文字、数字、字母、符号等中的一个或多个的序列。
具体地,可通过现有技术中的匹配算法对字符串和字典树进行计算,以便从字典树中提取与字符串相匹配的多个初始候选实体。
在一些实施例中,通过多模匹配算法对字符串和字典树进行计算,以便从字典树中选取与字符串对应的初始候选实体,其中,初始候选实体的数量为多个。
通过本公开实施例中对字符串和字典树进行计算的技术方案,可以排除影响纠错结果准确性的实体。即,从一些实体中选取部分与查询请求相关的实体,而将部分不相关的实体剔除。一方面,可降低后续处理流程的复杂程度,另一方面,也可提高纠错的高效性和准确性。
S1-2:基于预设的第二阈值,从多个初始候选实体中选取与查询请求对应的目标候选实体。
其中,第二阈值也可基于应用场景进行设定,此处不再赘述。
S1-1相当于初次过滤实体的步骤,S1-2相当于再次过滤实体的步骤。同理,基于再次过滤实体的步骤,可进一步降低后续处理流程的复杂程度,且进一步提高纠错的高效性和准确性。
结合图3可知,在一些实施例中,S1-2包括:
S1-2-1:计算每个初始候选实体与查询请求的第一距离。
具体地,可通过现有技术中的计算距离的方法计算每个初始候选实体与查询请求中错误部分的第一距离。
S1-2-2:将每个第一距离分别与第二阈值进行比较。
S1-2-3:将小于或等于第二阈值的第一距离对应的初始候选实体确定为目标候选实体。
可以理解的是,第一距离可能大于第二阈值,也可能小于或等于第二阈值。如果第一距离大于第二阈值,则将该第一阈值对应的初始候选实体剔除。以便减少不必要的计算资源浪费,且提高计算效率。如果第一距离小于或等于第二阈值,则将该第一阈值对应的初始候选实体确定为目标候选实体。以便提高纠错的可靠性和精准性。
结合图4可知,在一些实施例中,如果第二阈值包括第三阈值和第四阈值,则S1-2具体包括:
S1-2-4:基于第一算法计算每个初始候选实体与查询请求的第二距离。
具体地,可通过现有技术中计算距离的算法计算每个初始候选实体与查询请求中错误部分的第二距离。
S1-2-5:将每个第二距离分别与第三阈值进行比较。
S1-2-6:从多个初始候选实体中提取小于或等于第三阈值的第二距离对应的第一候选实体。
同理,第二距离可能大于第三阈值,也可能小于或等于第三阈值。如果第二距离大于第三阈值,则将该第二阈值对应的初始候选实体剔除。以便减少不必要的计算资源浪费,且提高计算效率。如果第二距离小于或等于第三阈值,则将该第二距离对应的初始候选实体选取为第一候选实体。
S1-2-7:基于第二算法计算每个第一候选实体与查询请求的第三距离。
其中,第二算法为与第一算法不同的现有技术中的计算距离的算法。
S1-2-8:将小于或等于第四阈值的第三距离对应的第一候选实体确定为目标候选实体。
在本公开实施例中,通过采用两个不同的算法分别进行计算,以便依次从初始候选实体中进行选取,并最终确定目标候选实体的技术方案,减少不必要的计算资源浪费,且提高计算效率。在本公开实施例中,不对具体计算距离的方法进行限定。
在一些实施例中,如果第一算法为编辑距离算法,则第二算法为杰卡德距离算法。如果第一算法为杰卡德距离算法,则第二算法为编辑距离算法。
其中,第三阈值和第四阈值也可基于应用场景进行设定,且,第三阈值和第四阈值之间并无必然的大小关系,此处不再赘述。
结合图5可知,在S1之前,还包括初始化的步骤,即还包括构建字典树的步骤,具体地,包括:
S01:从预设知识库中提取多个实体。
S02:将每个实体作为预设字典树的节点,将每个实体的实体义项作为其所属实体的子节点,并为每个实体义项分配唯一的标识,得到字典树。
在本实施例中,对现有技术的字典树进行了改进。
具体地,在现有技术中,构建字典树时,先从知识库中提取多个实体,然后将每个实体作为预设字典树(即事先建立的字典树模型)的节点。但是,在本公开实施例中,从知识库中提取多个实体,将每个实体均作为预设字典树的节点后,再将每个实体的实体义项插入至该实体的节点中,作为该实体的节点的子节点,并对每个实体义项分配一个唯一的标识。
其中,一个实体可能对应多个实体义项,则将每个实体义项均作为该实体的子节点,并且为每个实体义项均分配唯一的标识。如:实体A共有10个实体义项,则将10个实体义项均插入至实体A的节点中,成为实体A的10个子节点。
具体地,义项可以是例如词条、条目等,是指每个不同概念意义事物的叙述内容。候选实体的实体义项可以是与该候选实体相对应的所有实体义项或部分实体义项。部分候选实体和实体义项的选择可以根据不同的情况来进行。具体选择方式本文在此不进行限定。
具体地,术语“知识库”是指一种类似图的数据结构,由节点和边组成,例如知识图谱或其他适当的数据库。在知识库中,每个节点表示现实世界中存在的“实体”,每条边表示实体与实体之间的“关系”。知识库是关系的有效表示方式。换句话说,知识库将不同种类的信息连接在一起而得到的一个关系网络,从而提供了从“关系”的角度对问题进行分析的能力。
通过本公开实施例将每个实体的实体义项作为其所属实体的子节点,可实现对不同的义项实体进行区别,实现灵活且全面的构建字典树,进而实现高效且精准的纠错。且,通过为每个实体义项分配唯一的标识,可基于该唯一的标识准确的定位具体的实体义项,进而实现快速的纠错。
S2:计算每个目标候选实体为合法实体的第一概率。
其中,合法实体是指表述正确的实体。
在该步骤中,第一概率表示目标候选实体是否为合法实体(或正确实体)的可能性。具体地,基于语言模型(如NGRAM语言模型)对每个目标候选实体进行计算,得到每个目标候选实体对应的第一概率。
S3:对每个目标候选实体进行评估,得到评估的结果,其中,一个目标候选实体对应一个评估的结果。
可采用现有技术中的评估方法对每个目标候选实体进行评估。如通过现有技术中的评估模型进行评估。或者通过计算方法进行计算,从而实现评估。当然,也可以通过采用神经网络模型进行评估。
优选地,采用排序LTR模型对每个目标候选实体进行评估。
其中,排序LTR模型即为机器学习排序,全称为排序learning to rank模型,其基本原理为线性模型。且在本公开实施中,基于实体的权重,语法,词法,依存,term重要性,word embedding(词嵌入向量)等特征构建排序LRT模型。
具体地,排序LTR模型对多个目标候选实体分别进行评估,即排序LTR模型分别对每个目标候选实体进行打分。也就是说,当将某一目标候选实体输入至排序LTR模型,则排序LTR模型会输出该目标候选实体对应的分数。
在本公开实施例中,通过将目标候选实体和排序LTR模型相结合,得到该目标候选实体的评估的结果的技术方案,从而可以实现将多个目标候选实体中的每个目标候选实体的评估的结果进行区分。即,可以获悉每个目标候选实体的差异性。
结合图6可知,在一些实施例中,S3包括:
S3-1:提取每个目标候选实体对应的属性信息。
在该步骤中,每个目标候选实体的相关知识信息(即属性信息)并不完全相同。提取每个目标候选实体对应的相关知识信息(即属性信息)。
S3-2:确定每个目标候选实体的属性信息的权重。
在本公开实施例中,确定每个目标候选实体的属性信息的权重的方式有多种。如,基于当前的应用场景确定每个目标候选实体对应的权重。或者,基于现有技术中的属性信息与权重的标注方法确定目标候选实体的权重。
优选地,基于预设的属性信息与权重的对应关系,确定每个目标候选实体的权重。
具体地:预先对不同的属性信息进行权重的划分,即预先根据优先级设置相应的优先级权重。建立权重与属性信息的对应关系。如,可通过映射表的方式实现建立两者(即权重和属性信息)的对应关系。在提取某个目标候选实体对应的属性信息后,可将该属性信息与映射表进行匹配,找到映射表中与属性信息对应的权重。即,该步骤实际为“权重标注”的步骤。且为多个目标候选实体进行权重标注的过程互不干扰,可并行执行。
现结合具体示例进行详细阐述,如用户搜索查询请求A,且基上述方法确定多个目标候选实体后,在对目标候选实体B(如《盗墓笔记》)进行评估时,先获取目标候选实体B的属性信息(如演员,目标候选实体B的类别,电影的类别,上映时间等),并在相应的属性信息的基础上进行权重的标注。具体可通过图表的形式展现标注结果(包括中间结果和最终结果)。
S3-3:基于权重对每个目标候选实体进行评估。
优选地,基于排序LTR模型对每个目标候选实体进行评估。
通过本公开实施例提供的对每个目标候选实体进行评估的方案,由于该方案综合考虑了目标候选实体的相关知识信息(即属性信息)以及各项参数等,从而能够实现输出准确性高的评估的结果的技术效果。
S4:基于第一概率和评估的结果确定查询请求对应的真实意图实体。
其中,真实意图实体是指最能体现查询请求对应的实体。也就是说,真实意图实体是最能体现用户期望的查询结果对应的实体。
在本公开实施例中,由于获取的目标候选实体具体全面性和精准性的特点,且获取的目标候选实体的评估的结果具有高准确性的特点,因此,基于每个目标候选实体的第一概率和评估的结果能够得到高精准度的真实意图实体。进而可实现提高纠错的效率和纠错的准确率。
结合图7可知,在一些实施例中,S4具体包括:
S4-1:对每个目标候选实体对应的第一概率和评估的结果进行加权,得到每个目标候选实体对应的加权值。
S4-2:将最大的加权值对应的目标候选实体确定为真实意图实体。
具体地,对多个加权值进行升序或降序排列,并从中选取最大的加权值,再将最大的加权值对应的目标候选实体确定为真实意图实体。
通过本公开实施例中的选取最大的加权值对应的目标候选实体,将该目标候选实体确定为用户的真实期望搜索的实体的方案,可实现精准的确定用户的真实搜索意图,进而提高用户的搜索体验的技术效果。
根据本公开实施例的另一个方面,本公开实施例还提供了一种纠错装置。
请参阅图8,图8为根据本公开实施例的纠错装置的示意图。
如图8所示,该装置包括:
获取模块1用于,基于接收到的查询请求,从预设的字典树中确定多个目标候选实体;
概率计算模块2用于,计算每个目标候选实体为合法实体的第一概率;
评估模块3用于,对每个目标候选实体进行评估,得到评估的结果,其中,一个目标候选实体对应一个评估的结果;
确定模块4用于,基于第一概率和评估的结果确定查询请求对应的真实意图实体。
在一些实施例中,概率计算模块2还用于,计算查询请求输入正确的第二概率;
获取模块1具体用于,响应于第二概率小于预设的第一阈值,基于接收到的查询请求,从字典树中确定每个目标候选实体。
在一些实施例中,获取模块1具体用于:
对查询请求中的字符串和字典树进行计算,得到多个初始候选实体;
基于预设的第二阈值,从多个初始候选实体中选取与查询请求对应的目标候选实体。
在一些实施例中,获取模块1具体用于:
计算每个初始候选实体与查询请求的第一距离;
将每个第一距离分别与第二阈值进行比较;
将小于或等于第二阈值的第一距离对应的初始候选实体确定为目标候选实体。
在一些实施例中,如果所述第二阈值包括第三阈值和第四阈值,则所述获取模块具体用于:
基于第一算法计算每个所述初始候选实体与所述查询请求的第二距离;
将所述第二距离与所述第三阈值进行比较;
从多个所述初始候选实体中提取小于或等于所述第三阈值的第二距离对应的第一候选实体;
基于第二算法计算每个所述第一候选实体与所述查询请求的第三距离;
将小于或等于所述第四阈值的第三距离对应的第一候选实体确定为所述目标候选实体。
在一些实施例中,如果所述第一算法为编辑距离算法,则第二算法为杰卡德距离算法;
如果所述第一算法为所述杰卡德距离算法,则所述第二算法为所述编辑距离算法。
在一些实施例中,评估模块3具体用于:
提取每个目标候选实体对应的属性信息;
确定每个目标候选实体的属性信息的权重;
基于权重对每个目标候选实体进行评估。
在一些实施例中,确定模块4具体用于:
对每个目标候选实体对应的第一概率和评估的结果进行加权,得到每个目标候选实体对应的加权值;
将最大的加权值对应的目标候选实体确定为真实意图实体。
结合图8可知,在一些实施例中,该装置还包括:
提取模块5用于,从预设知识库中提取多个实体;
构建模块6用于,将每个实体作为预设字典树的节点,将每个实体的实体义项作为其所属实体的子节点,并为每个实体义项分配唯一的标识,得到字典树。
请参阅图9,图9为根据本公开实施例的纠错装置的框架示意图。
图9显示的纠错装置仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,纠错装置以通用计算设备的形式表现。纠错装置的组件可以包括但不限于:一个或者多个处理器或者处理单元11,存储器12,连接不同组件(包括存储器12和处理单元11)的总线13。
总线13表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
纠错装置典型地包括多种计算机系统可读介质。这些介质可以是任何能够被纠错装置访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器12可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)14和/或高速缓存15(即高速缓存存储器)。纠错装置可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统16可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线13相连。存储器12可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序组件17的程序/实用工具18,可以存储在例如存储器12中,这样的程序组件17包括但不限于操作系统、一个或者多个应用程序、其它程序组件以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序组件17通常执行本发明所描述的实施例中的功能和/或方法。
纠错装置也可以与一个或多个外部设备19(例如键盘、指向设备、显示器20等)通信,还可与一个或者多个使得用户能与该纠错装置交互的设备通信,和/或与使得该纠错装置能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口21进行。并且,纠错装置还可以通过网络适配器22与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器22通过总线13与纠错装置的其它组件通信。应当明白,尽管图中未示出,可以结合纠错装置使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元11通过运行存储在存储器12中的多个程序中的至少一个程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种纠错方法。
根据本公开实施例的另一个方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。

Claims (19)

1.一种纠错方法,包括:
基于接收到的查询请求,从预设的字典树中确定多个目标候选实体;
计算每个所述目标候选实体为合法实体的第一概率;
对每个所述目标候选实体进行评估,得到评估的结果,其中,一个所述目标候选实体对应一个评估的结果;
基于所述第一概率和所述评估的结果确定所述查询请求对应的真实意图实体。
2.根据权利要求1所述的方法,其中,在所述基于接收的查询请求,从预设的字典树中确定多个目标候选实体之前,还包括:
计算所述查询请求输入正确的第二概率;
所述基于接收的查询请求,从预设的字典树中确定多个目标候选实体,包括:
响应于所述第二概率小于预设的第一阈值,基于接收的查询请求,从所述字典树中确定所述目标候选实体。
3.根据权利要求1所述的方法,其中,所述基于接收的查询请求,从预设的字典树中确定多个目标候实体,包括:
对所述查询请求中的字符串和所述字典树进行计算,得到多个初始候选实体;
基于预设的第二阈值,从多个所述初始候选实体中选取与所述查询请求对应的所述目标候选实体。
4.根据权利要求3所述的方法,其中,所述基于预设的第二阈值,从多个所述初始候选实体中选取与所述查询请求对应的所述目标候选实体,包括:
计算每个所述初始候选实体与所述查询请求的第一距离;
将每个所述第一距离分别与所述第二阈值进行比较;
将小于或等于所述第二阈值的第一距离对应的初始候选实体确定为所述目标候选实体。
5.根据权利要求3所述的方法,其中,如果所述第二阈值包括第三阈值和第四阈值,则所述基于预设的第二阈值,从多个所述初始候选实体中选取与所述查询请求对应的所述目标候选实体,包括:
基于第一算法计算每个所述初始候选实体与所述查询请求的第二距离;
将所述第二距离与所述第三阈值进行比较;
从多个所述初始候选实体中提取小于或等于所述第三阈值的第二距离对应的第一候选实体;
基于第二算法计算每个所述第一候选实体与所述查询请求的第三距离;
将小于或等于所述第四阈值的第三距离对应的第一候选实体确定为所述目标候选实体。
6.根据权利要求5所述的方法,其中,
如果所述第一算法为编辑距离算法,则第二算法为杰卡德距离算法;
如果所述第一算法为所述杰卡德距离算法,则所述第二算法为所述编辑距离算法。
7.根据权利要求1所述的方法,其中,所述对每个所述目标候选实体进行评估,包括:
提取每个所述目标候选实体对应的属性信息;
确定每个所述目标候选实体的属性信息的权重
基于所述权重对每个所述目标候选实体进行评估。
8.根据权利要求1所述的方法,其中,所述基所述第一概率和和所述评估的结果确定所述查询请求对应的真实意图实体,具体包括:
对每个所述目标候选实体对应的第一概率和评估的结果进行加权,得到每个所述目标候选实体对应的加权值;
将最大的加权值对应的目标候选实体确定为所述真实意图实体。
9.根据权利要求1至8中任一项所述的方法,其中,还包括:
从预设知识库中提取多个实体;
将每个所述实体作为预设字典树的节点,将每个所述实体的实体义项作为其所属实体的子节点,并为每个所述实体义项分配唯一的标识,得到所述字典树。
10.一种纠错装置,包括:
获取模块,用于基于接收到的查询请求,从预设的字典树中确定多个目标候选实体;
概率计算模块,用于计算每个所述目标候选实体为合法实体的第一概率;
评估模块,用于对每个所述目标候选实体进行评估,得到评估的结果,其中,一个所述目标候选实体对应一个评估的结果;
确定模块,用于基于所述第一概率和所述评估的结果确定所述查询请求对应的真实意图实体。
11.根据权利要求10所述的装置,其中,
所述概率计算模块还用于,计算所述查询请求输入正确的第二概率;
所述获取模块具体用于,响应于所述第二概率小于预设的第一阈值,基于接收到的查询请求,从所述字典树中确定所述目标候选实体。
12.根据权利要求10所述的装置,其中,所述获取模块具体用于:
对所述查询请求中的字符串和所述字典树进行计算,得到多个初始候选实体;
基于预设的第二阈值,从多个所述初始候选实体中选取与所述查询请求对应的所述目标候选实体。
13.根据权利要求12所述的装置,其中,所述获取模块具体用于:
计算每个所述初始候选实体与所述查询请求的第一距离;
将每个所述第一距离分别与所述第二阈值进行比较;
将小于或等于所述第二阈值的第一距离对应的初始候选实体确定为所述目标候选实体。
14.根据权利要求12所述的装置,其中,如果所述第二阈值包括第三阈值和第四阈值,则所述获取模块具体用于:
基于第一算法计算每个所述初始候选实体与所述查询请求的第二距离;
将所述第二距离与所述第三阈值进行比较;
从多个所述初始候选实体中提取小于或等于所述第三阈值的第二距离对应的第一候选实体;
基于第二算法计算每个所述第一候选实体与所述查询请求的第三距离;
将小于或等于所述第四阈值的第三距离对应的第一候选实体确定为所述目标候选实体。
15.根据权利要求14所述的装置,其中,
如果所述第一算法为编辑距离算法,则第二算法为杰卡德距离算法;
如果所述第一算法为所述杰卡德距离算法,则所述第二算法为所述编辑距离算法。
16.根据权利要求10所述的装置,其中,所述评估模块具体用于:
提取每个所述目标候选实体对应的属性信息;
确定每个所述目标候选实体的属性信息的权重;
基于所述权重对每个所述目标候选实体进行评估。
17.根据权利要求8所述的装置,其中,所述确定模块具体用于:
对每个所述目标候选实体对应的第一概率和评估的结果进行加权,得到每个所述目标候选实体对应的加权值;
将最大的加权值对应的目标候选实体确定为所述真实意图实体。
18.根据权利要求10至17中任一项所述的装置,其中,还包括:
提取模块,用于从预设知识库中提取多个实体;
构建模块,用于将每个所述实体作为预设字典树的节点,将每个所述实体的实体义项作为其所属实体的子节点,并为每个所述实体义项分配唯一的标识,得到所述字典树。
19.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1至9中任一所述的方法。
CN201910130735.9A 2019-02-21 2019-02-21 纠错方法和装置、计算机可读介质 Active CN109885180B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910130735.9A CN109885180B (zh) 2019-02-21 2019-02-21 纠错方法和装置、计算机可读介质
KR1020200000235A KR102215299B1 (ko) 2019-02-21 2020-01-02 오류를 정정하는 방법, 장치 및 컴퓨터 판독가능 매체
EP20156968.8A EP3699779A1 (en) 2019-02-21 2020-02-12 Error correction method and apparatus, and computer readable medium
US16/790,016 US11663269B2 (en) 2019-02-21 2020-02-13 Error correction method and apparatus, and computer readable medium
JP2020024073A JP7149976B2 (ja) 2019-02-21 2020-02-17 誤り訂正方法及び装置、コンピュータ読み取り可能な媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910130735.9A CN109885180B (zh) 2019-02-21 2019-02-21 纠错方法和装置、计算机可读介质

Publications (2)

Publication Number Publication Date
CN109885180A true CN109885180A (zh) 2019-06-14
CN109885180B CN109885180B (zh) 2022-12-06

Family

ID=66928849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910130735.9A Active CN109885180B (zh) 2019-02-21 2019-02-21 纠错方法和装置、计算机可读介质

Country Status (5)

Country Link
US (1) US11663269B2 (zh)
EP (1) EP3699779A1 (zh)
JP (1) JP7149976B2 (zh)
KR (1) KR102215299B1 (zh)
CN (1) CN109885180B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647987A (zh) * 2019-08-22 2020-01-03 腾讯科技(深圳)有限公司 一种应用程序中数据的处理方法、装置、电子设备及存储介质
CN112434519A (zh) * 2019-08-21 2021-03-02 北京搜狗科技发展有限公司 一种纠错评测方法和相关装置
CN112732471A (zh) * 2019-10-28 2021-04-30 北京沃东天骏信息技术有限公司 接口返回数据的纠错方法和纠错装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836874A (zh) * 2021-09-16 2021-12-24 北京小米移动软件有限公司 文本纠错方法及装置
CN115509374A (zh) * 2022-10-24 2022-12-23 科大讯飞股份有限公司 输入方法、装置、电子设备及存储介质
CN117640259B (zh) * 2024-01-25 2024-06-04 武汉思普崚技术有限公司 一种脚本分步检测方法、装置、电子设备及介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318594A (ja) * 2003-04-17 2004-11-11 Nippon Telegr & Teleph Corp <Ntt> エンティティ装置、コミュニティ探索方法、及び、コンピュータプログラム
CN102693309A (zh) * 2011-05-26 2012-09-26 中国科学院计算技术研究所 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统
US8402032B1 (en) * 2010-03-25 2013-03-19 Google Inc. Generating context-based spell corrections of entity names
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
WO2014152936A2 (en) * 2013-03-14 2014-09-25 Microsoft Corporation Query intent expression for search in an embedded application context
US20150178966A1 (en) * 2013-12-23 2015-06-25 Red Hat, Inc. System and method to check the correct rendering of a font
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
US20170097961A1 (en) * 2013-05-08 2017-04-06 Facebook, Inc. Filtering Suggested Queries on Online Social Networks
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统
CN107430448A (zh) * 2015-03-24 2017-12-01 谷歌公司 针对文本录入中的自适应语言模型的反学习技术
CN108052658A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的查询信息纠错构架生成方法和装置
CN108399265A (zh) * 2018-03-23 2018-08-14 北京奇虎科技有限公司 基于搜索的实时热点新闻提供方法及装置
CN108932323A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 实体答案的确定方法、装置、服务器及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
JP2003091552A (ja) 2001-09-17 2003-03-28 Hitachi Ltd 検索要求情報抽出方法及びその実施システム並びにその処理プログラム
JP4661415B2 (ja) 2005-07-13 2011-03-30 株式会社日立製作所 表現ゆれ処理システム
JP2008009542A (ja) 2006-06-27 2008-01-17 Hitachi Systems & Services Ltd 知識辞書情報生成装置
JP5250009B2 (ja) 2010-09-30 2013-07-31 ヤフー株式会社 サジェスチョンクエリ抽出装置及び方法、並びにプログラム
US9582482B1 (en) * 2014-07-11 2017-02-28 Google Inc. Providing an annotation linking related entities in onscreen content
US10325014B2 (en) * 2015-04-30 2019-06-18 Workiva Inc. System and method for convergent document collaboration
US9843584B2 (en) * 2015-10-01 2017-12-12 International Business Machines Corporation Protecting privacy in an online setting
US20170277737A1 (en) * 2016-03-23 2017-09-28 Ebay Inc. Compact index document generation for smart match autocomplete system
KR101992399B1 (ko) * 2016-07-05 2019-06-24 한국전자통신연구원 하이브리드 추론 기반의 자연어 질의응답 시스템 및 그 방법
US10467292B2 (en) * 2017-02-28 2019-11-05 Salesforce.Com, Inc. Suggesting query items based on database fields
US10795938B2 (en) 2017-03-13 2020-10-06 Target Brands, Inc. Spell checker
WO2018214163A1 (en) * 2017-05-26 2018-11-29 Microsoft Technology Licensing, Llc Providing product recommendation in automated chatting
US11037356B2 (en) * 2018-09-24 2021-06-15 Zignal Labs, Inc. System and method for executing non-graphical algorithms on a GPU (graphics processing unit)
US11170055B2 (en) * 2018-12-28 2021-11-09 Open Text Sa Ulc Artificial intelligence augmented document capture and processing systems and methods
US10845842B2 (en) * 2019-03-29 2020-11-24 Lenovo (Singapore) Pte. Ltd. Systems and methods for presentation of input elements based on direction to a user
US11442992B1 (en) * 2019-06-28 2022-09-13 Meta Platforms Technologies, Llc Conversational reasoning with knowledge graph paths for assistant systems

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318594A (ja) * 2003-04-17 2004-11-11 Nippon Telegr & Teleph Corp <Ntt> エンティティ装置、コミュニティ探索方法、及び、コンピュータプログラム
US8402032B1 (en) * 2010-03-25 2013-03-19 Google Inc. Generating context-based spell corrections of entity names
CN102693309A (zh) * 2011-05-26 2012-09-26 中国科学院计算技术研究所 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
WO2014152936A2 (en) * 2013-03-14 2014-09-25 Microsoft Corporation Query intent expression for search in an embedded application context
US20170097961A1 (en) * 2013-05-08 2017-04-06 Facebook, Inc. Filtering Suggested Queries on Online Social Networks
US20150178966A1 (en) * 2013-12-23 2015-06-25 Red Hat, Inc. System and method to check the correct rendering of a font
CN107430448A (zh) * 2015-03-24 2017-12-01 谷歌公司 针对文本录入中的自适应语言模型的反学习技术
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统
CN108052658A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的查询信息纠错构架生成方法和装置
CN108399265A (zh) * 2018-03-23 2018-08-14 北京奇虎科技有限公司 基于搜索的实时热点新闻提供方法及装置
CN108932323A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 实体答案的确定方法、装置、服务器及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KERSCHBERG LARRY 等: "A semantic taxonomy-based personalizable meta-search agent", 《PROCEEDINGS OF THE SECOND INTERNATIONAL CONFERENCE ON WEB INFORMATION SYSTEMS ENGINEERING》 *
LLAMAZARES BONIFACIO 等: "Aggregating preferences rankings with variable weights", 《EUROPEAN JOURNAL OF OPERATIONAL RESEARCH》 *
刘辉平 等: "一种基于模式的实体解析算法", 《计算机学报》 *
徐梦瑶: "网商用户评论中错别字自动检测与纠正的研究及实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
王元卓 等: "基于开放网络知识的信息检索与数据挖掘", 《计算机研究与发展》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434519A (zh) * 2019-08-21 2021-03-02 北京搜狗科技发展有限公司 一种纠错评测方法和相关装置
CN110647987A (zh) * 2019-08-22 2020-01-03 腾讯科技(深圳)有限公司 一种应用程序中数据的处理方法、装置、电子设备及存储介质
CN112732471A (zh) * 2019-10-28 2021-04-30 北京沃东天骏信息技术有限公司 接口返回数据的纠错方法和纠错装置

Also Published As

Publication number Publication date
KR20200102919A (ko) 2020-09-01
CN109885180B (zh) 2022-12-06
KR102215299B1 (ko) 2021-02-15
EP3699779A1 (en) 2020-08-26
JP7149976B2 (ja) 2022-10-07
US11663269B2 (en) 2023-05-30
JP2020135892A (ja) 2020-08-31
US20200272668A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
CN109885180A (zh) 纠错方法和装置、计算机可读介质
CN110263133B (zh) 基于知识图谱的问答方法、电子装置、设备及存储介质
CN112685550B (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
KR20180137168A (ko) 신경망 기반의 텍스트의 카테고리를 분류하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN111625638B (zh) 一种问句处理方法、装置、设备及可读存储介质
CN113742488A (zh) 基于多任务学习的嵌入式知识图谱补全方法和装置
CN113569933A (zh) 商标图样匹配方法及其相应的装置、设备、介质
US11755573B2 (en) Methods and systems for determining search parameters from a search query
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN117009599A (zh) 数据检索方法、装置、处理器及电子设备
CN112560500B (zh) 文本处理方法、装置、设备及存储介质
CN111708863B (zh) 基于doc2vec的文本匹配方法、装置及电子设备
CN112749268A (zh) 基于混合策略的faq系统排序方法、装置及系统
CN111460825A (zh) 一种数据增强方法、装置、设备及存储介质
CN116257760B (zh) 一种数据划分方法、系统、设备及计算机可读存储介质
JP6902131B2 (ja) クエリ処理方法、クエリ処理装置及びコンピュータ読み取り可能な媒体
US12118024B2 (en) Search apparatus, search method, and computer readable recording medium
CN112836518A (zh) 名称歧义消除模型的处理方法、系统和存储介质
CN115658870A (zh) 一种基于问答模型的回复方法、装置及电子设备
CN115309873A (zh) 语义的匹配方法、装置、计算机设备及存储介质
CN118551097A (zh) 搜索信息提示方法、装置、计算机设备和存储介质
CN116226736A (zh) 一种数据标签的识别方法及设备
CN118364117A (zh) 基于知识图谱的政务问答方法及相关设备
CN118779340A (zh) 自然语言查询语句的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant