CN109376362A - 一种纠错文本的确定方法以及相关设备 - Google Patents

一种纠错文本的确定方法以及相关设备 Download PDF

Info

Publication number
CN109376362A
CN109376362A CN201811452391.5A CN201811452391A CN109376362A CN 109376362 A CN109376362 A CN 109376362A CN 201811452391 A CN201811452391 A CN 201811452391A CN 109376362 A CN109376362 A CN 109376362A
Authority
CN
China
Prior art keywords
error correction
participle
text
target
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811452391.5A
Other languages
English (en)
Inventor
王璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201811452391.5A priority Critical patent/CN109376362A/zh
Publication of CN109376362A publication Critical patent/CN109376362A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Abstract

本发明实施例提供了一种纠错文本的确定方法及相关设备,用于提高搜索文本的纠错速度。该方法包括:获取用户输入的目标搜索文本;对所述目标搜索文本进行分词得到分词集合;从语料库中确定出所述分词集合中每个分词对应的初始纠错词;计算所述分词集合中每个分词对应的初始纠错词的纠错概率;将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。

Description

一种纠错文本的确定方法以及相关设备
技术领域
本发明涉及搜索领域,尤其涉及一种纠错文本的确定方法以及相关设备。
背景技术
在直播平台上,搜索是非常重要的一个入口,用户可以通过搜索入口找到自己想看到的主播。然而,因为某些原因用户在输入搜索文本的时候会发生错误,如拼写错误、词语颠倒等,如果不做纠错处理那么很难从搜索文本中得到正确的意思表达,无法返回用户想要的搜索结果。因此,需要采用一定的方法对搜索文本的拼写进行纠错。
通常的搜索拼写纠错思想是给定了观测序列(用户输入的关键词)寻找最优隐藏状态(最可能正确的关键词),即采用HMM模型完成任务。然而,HMM模型搜索的空间非常大,算法的复杂度比较高。
发明内容
本发明实施例提供了一种纠错文本的确定方法及相关设备,提高搜索文本的纠错效率。
本发明实施例的第一方面提供了一种纠错文本的确定方法,包括:
获取用户输入的目标搜索文本;
对所述目标搜索文本进行分词得到分词集合;
从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
可选地,所述按照预设规则从所述分词集合中的每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本包括:
当所述分词集合中每个分词的目标纠错词大于1个时,对所述分词集合中的每个分词的目标纠错词进行组合排列得到所述目标搜索文本对应的初始纠错文本;
计算每个初始纠错文本的纠错概率;
将纠错概率大于第二预设阈值的初始纠错文本确定所述目标纠错文本。
可选地,所述计算每个初始纠错文本的纠错概率包括:
通过如下公式计算所述每个初始文本的纠错概率:
其中,p(C,Q)为将Q纠错为C的纠错概率,所述Q为目标搜索文本,所述C为所述每个初始文本中的任意一个,N为所述目标搜索文本中的分词个数,p(cj|qj)为qj纠错为cj的纠错概率,所述qj为所述Q中的任意一个分词,所述cj为所述qj对应的目标纠错词中的任意一个目标纠错词。
可选地,所述计算所述分词集合中每个分词对应的纠错词的纠错概率包括:
通过如下公式计算所述分词集合中每个分词对应的纠错词的纠错概率:
其中,qj为所述分词集合中的任意一个分词,N(qj)为qj在所述语料库中出现的次数,cj为qj对应的初始纠错词中的任意一个初始纠错词,N(qj,cj)为所述语料库中qj更正为cj的次数。
可选地,所述从语料库中确定出所述分词集合中每个分词对应的纠错词包括:
将所述语料库中满足预设条件的纠错词确定为所述分词集合中每个分词对应的纠错词。
可选地,所述预设条件为:
或,
其中,q为所述分词集合中的任意一个分词,c为所述语料库中与所述q对应的纠错词,edit(py_c,py_q)为py_c和py_q的编辑距离,所述py_c为所述c的拼音,py_q为所述q的拼音,len(py_c)为所述py_c的长度,len(py_c)为所述py_q的长度,edit(c,q)为所述c与所述q的编辑距离,α为第一预设阈值,β为第二预设阈值。
本发明实施例第二方面提供了一种纠错文本的确定装置,包括:
获取单元,用于获取用户输入的目标搜索文本;
分词单元,用于对所述目标搜索文本进行分词得到分词集合;
第一确定单元,用于从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算单元,用于计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
第二确定单元,用于将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
第三确定单元,用于按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
可选地,所述第三确定单元具体用于:
当所述分词集合中每个分词的目标纠错词大于1个时,对所述分词集合中的每个分词的目标纠错词进行组合排列得到所述目标搜索文本对应的初始纠错文本;
计算每个初始纠错文本的纠错概率;
将纠错概率大于第二预设阈值的初始纠错文本确定所述目标纠错文本。
可选地,所述第三确定单元还具体用于:
通过如下公式计算所述每个初始文本的纠错概率:
其中,p(C,Q)为将Q纠错为C的纠错概率,所述Q为目标搜索文本,所述C为所述每个初始文本中的任意一个,N为所述目标搜索文本中的分词个数,p(cj|qj)为qj纠错为cj的纠错概率,所述qj为所述Q中的任意一个分词,所述cj为所述qj对应的目标纠错词中的任意一个目标纠错词。
可选地,所述计算单元具体用于:
通过如下公式计算所述分词集合中每个分词对应的纠错词的纠错概率:
其中,qj为所述分词集合中的任意一个分词,N(qj)为qj在所述语料库中出现的次数,cj为qj对应的初始纠错词中的任意一个初始纠错词,N(qj,cj)为所述语料库中qj更正为cj的次数。
可选地,所述第一确定单元具体用于:
将所述语料库中满足预设条件的纠错词确定为所述分词集合中每个分词对应的纠错词。
可选地于,所述预设条件为:
或,
其中,q为所述分词集合中的任意一个分词,c为所述语料库中与所述q对应的纠错词,edit(py_c,py_q)为py_c和py_q的编辑距离,所述py_c为所述c的拼音,py_q为所述q的拼音,len(py_c)为所述py_c的长度,len(py_c)为所述py_q的长度,edit(c,q)为所述c与所述q的编辑距离,α为第一预设阈值,β为第二预设阈值。
本发明第三方面提供了一种电子设备,包括存储器、处理器,其特征在于,所述处理器用于执行存储器中存储的计算机管理类程序时实现如上述任意一项所述的纠错文本的确定方法的步骤。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机管理类程序,其特征在于:所述计算机管理类程序被处理器执行时实现如上述任意一项所述的纠错文本的确定方法的步骤。
综上所述,可以看出,本发明实施例中,可以通过计算分词集合中每个分词对应的初始纠错词的纠错概率,并将纠错概率大于第一预设阈值的初始纠错词确定分词集合中每个分词的目标纠错词,之后按照预设规则从分词集合中每个分词的目标纠错词中确定出目标搜索文本的目标纠错词,由于只是将纠错概率大于第一预设阈值的初始纠错词确定目标纠错词,可以减少计算量,提高搜索文本的纠错速度。
附图说明
图1为本发明实施例提供的一种纠错文本的确定方法的流程示意图;
图2为本发明实施例提供的一种纠错文本的确定装置的实施例示意图;
图3为本发明实施例提供的一种纠错文本的确定装置的硬件结构示意图;
图4为本发明实施例提供的一种电子设备的实施例示意图;
图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
具体实施方式
本发明实施例提供了一种纠错文本的确定方法及相关设备,可以提高搜索文本的纠错速度。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
下面从纠错文本的确定装置的角度对纠错文本的确定方法进行说明,该纠错文本的确定装置可以为服务器,也可以为服务器中的服务单元。
请参阅图1,图1为本发明实施例提供的纠错文本的确定方法的一个实施例示意图,包括:
101、获取用户输入的目标搜索文本。
本实施例中,纠错文本的确定装置可以获取用户输入的目标搜索文本,具体的,当用户需要在直播平台或者浏览器中进行查找时,可以在搜索框内输入搜索文本,此时可以获取到用户输入的目标搜索文本。
102、对目标搜索文本进行分词得到分词集合。
本实施例中,纠错文本的确定装置在获取到目标搜索文本之后,可以对目标搜索文本进行分词得到分词集合,具体的可以通过常用的分词工具进行分词,或者通过特定的分词工具(例如直播平台专用的分词工具),具体不限定。
103、从语料库中确定出分词集合中每个分词对应的初始纠错词。
本实施例中,纠错文本的确定装置在得到分词集合之后,可以从语料库中确定出分词集合中的每个分词对应的初始纠错词,该语料库为直播平台对应的语料库,也就是说,该语料库中包括当前时刻之前直播平台中已经搜索过的所有搜索文本以及该已经搜索过的所有搜索文本对应的纠错词。具体的,将语料库中满足预设条件的纠错词确定为分词集合中每个分词对应的初始纠错词,该预设条件为:
或,
其中,q为分词集合中的任意一个分词,c为语料库中与q对应的纠错词,edit(py_c,py_q)为py_c和py_q的编辑距离,py_c为c的拼音,py_q为q的拼音,len(py_c)为py_c的长度,len(py_c)为py_q的长度,edit(c,q)为c与q的编辑距离,α为第一预设阈值,β为第二预设阈值。也就是说,假设在一个会话Session中用户的搜索文本集合为Q,其中被点击的搜索文本集合为Qc,未被点击的搜索文本集合是Qu,若c∈Qc且q∈Qu,则c和q满足预设条件,既可以确定c为q的纠错词。
104、计算分词集合中每个分词对应的初始纠错词的纠错概率。
本实施例中,纠错文本的确定装置可以通过如下公式计算分词集合中每个分词对应的初始纠错词的纠错概率:
其中,qj为分词集合中的任意一个分词,N(qj)为qj在语料库中出现的次数,cj为qj对应的初始纠错词中的任意一个初始纠错词,N(qj,cj)为语料库中将qj更正为cj的次数。
105、将纠错概率大于第一预设阈值的初始纠错词确定为分词集合中每个分词的目标纠错词。
本实施例中,当纠错文本的确定装置计算分词集合中每个分词对应的初始纠错词的纠错概率之后,可以将纠错概率大于第一预设阈值(例如0.3,当然也可以根据实际情况进行设置,具体不限定)的初始纠错词确定为分词集合中每个分词的目标纠错词。也就是说,在得到分词集合中的分词对应的每个初始纠错词的纠错概率之后,可以将纠错概率大于第一预设阈值的初始纠错词确定为该分词的目标纠错词。
106、按照预设规则从分词集合中每个分词的目标纠错词中确定出目标搜索文本的目标纠错文本。
本实施例中,纠错文本的确定装置在得到分词集合中每个分词的目标纠错词之后,可以判断分词集合中是否存在目标纠错词是否大于1个的分词,当分词集合中不存在目标纠错词大于一个的分词时,直接将分词集合中每个分词对应的目标纠错词确定为目标搜索文本;当分词集合中存在目标纠错词大于一个的分词时,对分词集合中的每个分词的目标纠错词进行组合排列得到目标搜索文本对应的初始纠错文本;计算每个初始纠错文本的纠错概率;将纠错概率大于第二预设阈值的初始纠错文本确定目标纠错文本。其中,通过如下公式计算每个初始纠错文本的纠错概率:
其中,p(C,Q)为将Q纠错为C的纠错概率,Q为目标搜索文本,C为每个初始文本中的任意一个,N为目标搜索文本中的分词个数,p(cj|qj)为qj纠错为cj的纠错概率,所述qj为Q中的任意一个分词,cj为qj对应的目标纠错词中的任意一个目标纠错词。
需要说明的是,在得到目标搜索文本对应的目标纠错文本之后,可以将目标纠错文本向用户进行展示,以供用户选择。
综上所述,可以看出,本发明实施例中,可以通过计算分词集合中每个分词对应的初始纠错词的纠错概率,并将纠错概率大于第一预设阈值的初始纠错词确定分词集合中每个分词的目标纠错词,之后按照预设规则从分词集合中每个分词的目标纠错词中确定出目标搜索文本的目标纠错词,由于只是将纠错概率大于第一预设阈值的初始纠错词确定目标纠错词,可以减少计算量,提高搜索文本的纠错速度。
上面对本发明实施例中纠错文本的确定方法进行了描述,下面对本发明实施例中的纠错文本的确定装置进行描述。
请参阅图2,本发明实施例中纠错文本的确定装置的一个实施例,该纠错文本的确定装置包括:
获取单元201,用于获取用户输入的目标搜索文本;
分词单元202,用于对所述目标搜索文本进行分词得到分词集合;
第一确定单元203,用于从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算单元204,用于计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
第二确定单元205,用于将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
第三确定单元206,用于按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
可选地,所述第三确定单元206具体用于:
当所述分词集合中每个分词的目标纠错词大于1个时,对所述分词集合中的每个分词的目标纠错词进行组合排列得到所述目标搜索文本对应的初始纠错文本;
计算每个初始纠错文本的纠错概率;
将纠错概率大于第二预设阈值的初始纠错文本确定所述目标纠错文本。
可选地,所述第三确定单元206还具体用于:
通过如下公式计算所述每个初始文本的纠错概率:
其中,p(C,Q)为将Q纠错为C的纠错概率,所述Q为目标搜索文本,所述C为所述每个初始文本中的任意一个,N为所述目标搜索文本中的分词个数,p(cj|qj)为qj纠错为cj的纠错概率,所述qj为所述Q中的任意一个分词,所述cj为所述qj对应的目标纠错词中的任意一个目标纠错词。
可选地,所述计算单元204具体用于:
通过如下公式计算所述分词集合中每个分词对应的纠错词的纠错概率:
其中,qj为所述分词集合中的任意一个分词,N(qj)为qj在所述语料库中出现的次数,cj为qj对应的初始纠错词中的任意一个初始纠错词,N(qj,cj)为所述语料库中qj更正为cj的次数。
可选地,所述第一确定单元203具体用于:
将所述语料库中满足预设条件的纠错词确定为所述分词集合中每个分词对应的纠错词。
可选地于,所述预设条件为:
或,
其中,q为所述分词集合中的任意一个分词,c为所述语料库中与所述q对应的纠错词,edit(py_c,py_q)为py_c和py_q的编辑距离,所述py_c为所述c的拼音,py_q为所述q的拼音,len(py_c)为所述py_c的长度,len(py_c)为所述py_q的长度,edit(c,q)为所述c与所述q的编辑距离,α为第一预设阈值,β为第二预设阈值。
上面图2从模块化功能实体的角度对本发明实施例中的纠错文本的确定装置进行了描述,下面从硬件处理的角度对本发明实施例中的纠错文本的确定装置进行详细描述,请参阅图3,本发明实施例中的纠错文本的确定装置300一个实施例,包括:
输入装置301、输出装置302、处理器303和存储器304(其中处理器303的数量可以一个或多个,图3中以一个处理器303为例)。在本发明的一些实施例中,输入装置301、输出装置502、处理器303和存储器304可通过总线或其它方式连接,其中,图3中以通过总线连接为例。
其中,通过调用存储器304存储的操作指令,处理器303,用于执行如下步骤:
获取用户输入的目标搜索文本;
对所述目标搜索文本进行分词得到分词集合;
从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
通过调用存储器304存储的操作指令,处理器303,还用于执行图1对应的实施例中的任一方式。
请参阅图4,图4为本发明实施例提供的电子设备的实施例示意图。
如图4所示,本发明实施例提供了一种电子设备,包括存储器410、处理器420及存储在存储器420上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时实现以下步骤:
获取用户输入的目标搜索文本;
对所述目标搜索文本进行分词得到分词集合;
从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
在具体实施过程中,处理器420执行计算机程序411时,可以实现图1对应的实施例中任一实施方式。
由于本实施例所介绍的电子设备为实施本发明实施例中一种纠错文本的确定装置所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
请参阅图5,图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图5所示,本实施例提供了一种计算机可读存储介质500,其上存储有计算机程序511,该计算机程序511被处理器执行时实现如下步骤:
获取用户输入的目标搜索文本;
对所述目标搜索文本进行分词得到分词集合;
从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
在具体实施过程中,该计算机程序511被处理器执行时可以实现图1对应的实施例中任一实施方式。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,当计算机软件指令在处理设备上运行时,使得处理设备执行如图1对应实施例中的风电场数字化平台设计的方法中的流程。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修该,或者对其中部分技术特征进行等同替换;而这些修该或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种纠错文本的确定方法,其特征在于,包括:
获取用户输入的目标搜索文本;
对所述目标搜索文本进行分词得到分词集合;
从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
2.根据权利要求1所述的方法,其特征在于,所述按照预设规则从所述分词集合中的每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本包括:
当所述分词集合中每个分词的目标纠错词大于1个时,对所述分词集合中的每个分词的目标纠错词进行组合排列得到所述目标搜索文本对应的初始纠错文本;
计算每个初始纠错文本的纠错概率;
将纠错概率大于第二预设阈值的初始纠错文本确定所述目标纠错文本。
3.根据权利要求1或2所述的方法,其特征在于,所述计算每个初始纠错文本的纠错概率包括:
通过如下公式计算所述每个初始文本的纠错概率:
其中,p(C,Q)为将Q纠错为C的纠错概率,所述Q为目标搜索文本,所述C为所述每个初始文本中的任意一个,N为所述目标搜索文本中的分词个数,p(cj|qj)为qj纠错为cj的纠错概率,所述qj为所述Q中的任意一个分词,所述cj为所述qj对应的目标纠错词中的任意一个目标纠错词。
4.根据权利要求1或2所述的方法,其特征在于,所述计算所述分词集合中每个分词对应的纠错词的纠错概率包括:
通过如下公式计算所述分词集合中每个分词对应的纠错词的纠错概率:
其中,qj为所述分词集合中的任意一个分词,N(qj)为qj在所述语料库中出现的次数,cj为qj对应的初始纠错词中的任意一个初始纠错词,N(qj,cj)为所述语料库中qj更正为cj的次数。
5.根据权利要求1或2所述的方法,其特征在于,所述从语料库中确定出所述分词集合中每个分词对应的纠错词包括:
将所述语料库中满足预设条件的纠错词确定为所述分词集合中每个分词对应的纠错词。
6.根据权利要求5所述的方法,其特征在于,所述预设条件为:
或,
其中,q为所述分词集合中的任意一个分词,c为所述语料库中与所述q对应的纠错词,edit(py_c,py_q)为py_c和py_q的编辑距离,所述py_c为所述c的拼音,py_q为所述q的拼音,len(py_c)为所述py_c的长度,len(py_c)为所述py_q的长度,edit(c,q)为所述c与所述q的编辑距离,α为第一预设阈值,β为第二预设阈值。
7.一种纠错文本的确定装置,其特征在于,包括:
获取单元,用于获取用户输入的目标搜索文本;
分词单元,用于对所述目标搜索文本进行分词得到分词集合;
第一确定单元,用于从语料库中确定出所述分词集合中每个分词对应的初始纠错词;
计算单元,用于计算所述分词集合中每个分词对应的初始纠错词的纠错概率;
第二确定单元,用于将所述纠错概率大于第一预设阈值的初始纠错词确定为所述分词集合中每个分词的目标纠错词;
第三确定单元,用于按照预设规则从所述分词集合中每个分词的目标纠错词中确定出所述目标搜索文本的目标纠错文本。
8.根据权利要求7所述的方法,其特征在于,所述第三确定单元具体用于:
当所述分词集合中每个分词的目标纠错词大于1个时,对所述分词集合中的每个分词的目标纠错词进行组合排列得到所述目标搜索文本对应的初始纠错文本;
计算每个初始纠错文本的纠错概率;
将纠错概率大于第二预设阈值的初始纠错文本确定所述目标纠错文本。
9.一种电子设备,包括存储器、处理器,其特征在于,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1至6中任意一项所述的纠错文本的确定方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机管理类程序,其特征在于:所述计算机管理类程序被处理器执行时实现如权利要求1至6中任意一项所述的纠错文本的确定方法的步骤。
CN201811452391.5A 2018-11-30 2018-11-30 一种纠错文本的确定方法以及相关设备 Pending CN109376362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811452391.5A CN109376362A (zh) 2018-11-30 2018-11-30 一种纠错文本的确定方法以及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811452391.5A CN109376362A (zh) 2018-11-30 2018-11-30 一种纠错文本的确定方法以及相关设备

Publications (1)

Publication Number Publication Date
CN109376362A true CN109376362A (zh) 2019-02-22

Family

ID=65376488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811452391.5A Pending CN109376362A (zh) 2018-11-30 2018-11-30 一种纠错文本的确定方法以及相关设备

Country Status (1)

Country Link
CN (1) CN109376362A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362824A (zh) * 2019-06-24 2019-10-22 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110718226A (zh) * 2019-09-19 2020-01-21 厦门快商通科技股份有限公司 语音识别结果处理方法、装置、电子设备及介质
CN112507714A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 文本的分割方法和装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016422A1 (en) * 2005-07-12 2007-01-18 Shinsuke Mori Annotating phonemes and accents for text-to-speech system
CN102722478A (zh) * 2011-03-23 2012-10-10 微软公司 在线拼写纠正/短语完成系统
US20130283156A1 (en) * 2012-04-20 2013-10-24 King Abdulaziz City For Science And Technology Methods and systems for large-scale statistical misspelling correction
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN107977356A (zh) * 2017-11-21 2018-05-01 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
CN108052499A (zh) * 2017-11-20 2018-05-18 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
CN108304385A (zh) * 2018-02-09 2018-07-20 叶伟 一种语音识别文本纠错方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070016422A1 (en) * 2005-07-12 2007-01-18 Shinsuke Mori Annotating phonemes and accents for text-to-speech system
CN102722478A (zh) * 2011-03-23 2012-10-10 微软公司 在线拼写纠正/短语完成系统
US20130283156A1 (en) * 2012-04-20 2013-10-24 King Abdulaziz City For Science And Technology Methods and systems for large-scale statistical misspelling correction
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN106598939A (zh) * 2016-10-21 2017-04-26 北京三快在线科技有限公司 一种文本纠错方法及装置、服务器、存储介质
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108052499A (zh) * 2017-11-20 2018-05-18 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
CN107977356A (zh) * 2017-11-21 2018-05-01 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
CN108304385A (zh) * 2018-02-09 2018-07-20 叶伟 一种语音识别文本纠错方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张仰森等: "文本自动校对技术研究综述", 《计算机应用研究》 *
张仰森等: "文本自动校对技术研究综述", 《计算机应用研究》, no. 06, 10 June 2006 (2006-06-10), pages 8 - 12 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362824A (zh) * 2019-06-24 2019-10-22 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110362824B (zh) * 2019-06-24 2022-12-02 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN110718226A (zh) * 2019-09-19 2020-01-21 厦门快商通科技股份有限公司 语音识别结果处理方法、装置、电子设备及介质
CN110718226B (zh) * 2019-09-19 2023-05-05 厦门快商通科技股份有限公司 语音识别结果处理方法、装置、电子设备及介质
CN112507714A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 文本的分割方法和装置
CN112507714B (zh) * 2020-12-22 2023-06-23 北京百度网讯科技有限公司 文本的分割方法和装置

Similar Documents

Publication Publication Date Title
US10796244B2 (en) Method and apparatus for labeling training samples
CN105528372B (zh) 一种地址搜索方法和设备
CN104156454B (zh) 搜索词的纠错方法和装置
CN107506495B (zh) 信息推送方法和装置
CN109992766B (zh) 提取目标词的方法和装置
CN106445915B (zh) 一种新词发现方法及装置
CN109376362A (zh) 一种纠错文本的确定方法以及相关设备
CN103514230A (zh) 一种用于根据语料序列训练语言模型的方法与设备
CN105302882B (zh) 获取关键词的方法及装置
CN103092826B (zh) 一种根据用户的输入信息构建输入词条的方法与设备
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN112183078B (zh) 文本摘要确定方法和装置
CN102982125B (zh) 一种用于确定同义文本的方法和装置
CN103577547B (zh) 网页类型识别方法及装置
CN110633717A (zh) 一种目标检测模型的训练方法和装置
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN104408036B (zh) 关联话题的识别方法和装置
KR20180078022A (ko) 패션 분야의 트렌드 분석방법 및 이를 포함하는 저장매체
CN109299463A (zh) 一种情感得分的计算方法以及相关设备
CN112364185A (zh) 多媒体资源的特征确定方法、装置、电子设备和存储介质
TW201520791A (zh) 網頁的處理方法及裝置
CN109871540A (zh) 一种文本相似度的计算方法以及相关设备
CN111666417A (zh) 生成同义词的方法、装置、电子设备以及可读存储介质
EP3201800A1 (en) Systems and methods for processing graphs
CN109361929A (zh) 一种确定直播间标签的方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination