CN109857264B - 一种基于空间键位的拼音纠错方法及装置 - Google Patents

一种基于空间键位的拼音纠错方法及装置 Download PDF

Info

Publication number
CN109857264B
CN109857264B CN201910010325.0A CN201910010325A CN109857264B CN 109857264 B CN109857264 B CN 109857264B CN 201910010325 A CN201910010325 A CN 201910010325A CN 109857264 B CN109857264 B CN 109857264B
Authority
CN
China
Prior art keywords
character string
error correction
tree
syllables
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910010325.0A
Other languages
English (en)
Other versions
CN109857264A (zh
Inventor
马龙
雷画雨
冯璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongan Information Technology Service Co ltd
Original Assignee
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongan Information Technology Service Co Ltd filed Critical Zhongan Information Technology Service Co Ltd
Priority to CN201910010325.0A priority Critical patent/CN109857264B/zh
Publication of CN109857264A publication Critical patent/CN109857264A/zh
Application granted granted Critical
Publication of CN109857264B publication Critical patent/CN109857264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于空间键位的拼音纠错方法及装置,该方法包括:S1:基于键盘构建二维直角坐标系,并对构成音节的每个字母进行坐标编码;S2:将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的二叉树进行存储;S3:将输入的字符串构建成相应的高维空间的待验证点后,根据待验证点判断字符串是否需要进行纠错,若需要,则执行步骤S4,否则,不做任何操作;S4:在相应的高维空间中查询与待验证点的距离不大于预设的搜索阈值的节点,输出节点对应的音节作为纠错候选项。本发明通过对键盘进行坐标编码,将拼音音节映射到高维空间中,通过二叉树进行存储,比较高维空间中两点之间距离的大小选取出纠错选项,且不需要遍历该高维空间中的所有点。

Description

一种基于空间键位的拼音纠错方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于空间键位的拼音纠错方法及装置。
背景技术
拼音输入是中文输入方式中最为常见的一种方式,手指键入又是拼音输入的最常见形式,因此,按键错误导致的错误输入成为常态,错误输入大大降低了输入的效率,因此提供能够对拼音输入进行容错的方法非常有必要。
Damerau-Levenshtein莱文斯坦距离是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个,删除一个字符,或者将两个相邻字符串进行交换。两个字符串a,b的编辑距离为k,指的是字符串a变换到b,需要的最少编辑操作次数为k。
例如,将kitten一字转成sitting:
1.sitten(k→s)[k替换为s]
2.sittin(e→i)[e替换为i]
3.sitting(→g)[末尾添加g]
通常纠错方式会采用Damerau-Levenshtein编辑距离(简称为DL距离)的方式,对编辑距离为1的拼音字符串进行纠错。例如“lmng”纠错为“lang”。
一方面,虽然目前来说,以DL距离为衡量标准的纠错方法能够应对大部分场景,但是,对于DL距离一致的多个纠错选项是无法有优先级区分效果的。例如,对于用户输入的字符串″lpng″,DL距离为1的纠错选项为″lang″,″ling″,″long″,最合适的纠错选项是没有办法确定的。同时,对于不满足DL距离为1的字符串,则无法实现错误识别和纠正。因为如果DL距离大于1,则纠错方案会剧烈膨胀。
另一方面,在实际情况中,由于用户的输入设备长期广泛的保持一致,都以键盘输入为主,不管是个人电脑上的物理键盘,还是移动设备上的虚拟键盘,都是由多个手指进行键入。由于输入者不同手指的灵活度不一致性等原因,会出现部分手指更加容易出错的可能,所以大量的错误输入都是因为相邻键位的按键点击错误造成的,例如a误按为s,b误按为n等。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种基于空间键位的拼音纠错方法及装置,以克服现有纠错技术中,无法在DL距离大于1的情况下,实现良好的错误识别和纠正技术,以及对相邻键位的按键错误无法进行有效识别和处理等问题。
为解决上述一个或多个技术问题,本发明采用的技术方案是:
一方面,提供了一种基于空间键位的拼音纠错方法,所述方法包括如下步骤:
S1:基于键盘构建二维直角坐标系,并对构成音节的每个字母进行坐标编码;
S2:将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的二叉树进行存储;
S3:将输入的字符串构建成相应的高维空间的待验证点后,根据所述待验证点判断所述字符串是否需要进行纠错,若需要,则执行步骤S4,否则,不做任何操作;
S4:在所述相应的高维空间中查询与所述待验证点的距离不大于预设的搜索阈值的节点,输出所述节点对应的音节作为纠错候选项。
进一步的,所述二叉树包括k-d树和/或k-ball树,所述步骤S2具体包括:
S2.1:构建空间维度为2n的若干k-d树或k-ball树,其中n为音节的长度;
S2.2:根据所述字母的坐标编码,获取所述音节的空间坐标;
S2.3:将所述音节的空间坐标存储到相应维度的k-d树或k-ball树中。
进一步的,所述步骤S3具体包括:
S3.1:根据所述字符串中每个字母的坐标编码将所述字符串映射到相应的高维空间中,获取所述字符串的空间坐标;
S3.2:若是所述待验证点与所述相应的高维空间的某个点重合,则所述字符串不需要进行纠错,否则,执行步骤S4,获取所述字符串的纠错候选项。
进一步的,所述步骤S4具体包括:
S4.1:根据所述字符串的空间坐标以及所述音节的空间坐标,计算所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离;
S4.2:通过将所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离与所述搜索阈值进行比较,获取与所述待验证点的距离不大于所述搜索阈值的节点;
S4.3:查询所述节点对应的音节,并输出所述节点对应的音节作为纠错候选项。
进一步的,所述距离为欧几里得距离。
另一方面,提供了一种基于空间键位的拼音纠错装置,所述装置包括:
坐标系建立模块,用于基于键盘构建二维直角坐标系,并对构成音节的每个字母进行坐标编码;
音节映射模块,用于将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的二叉树进行存储;
纠错判断模块,用于将输入的字符串构建成相应的高维空间的待验证点后,根据所述待验证点判断所述字符串是否需要进行纠错;
结果输出模块,用于在所述相应的高维空间中查询与所述待验证点的距离不大于预设的搜索阈值的节点,输出所述节点对应的音节作为纠错候选项。
进一步的,所述二叉树包括k-d树和/或k-ball树,所述音节映射模块包括:
构建单元,用于构建空间维度为2n的若干k-d树或k-ball树,其中n为音节的长度;
第一编码单元,用于根据所述字母的坐标编码,获取所述音节的空间坐标;
存储单元,用于将所述音节的空间坐标存储到相应维度的k-d树或k-ball树中。
进一步的,所述纠错判断模块包括:
第二编码单元,用于根据所述字符串中每个字母的坐标编码将所述字符串映射到相应的高维空间中,获取所述字符串的空间坐标;
判断单元,用于判断所述待验证点与所述相应的高维空间的点是否重合。
进一步的,所述结果输出模块包括:
计算单元,用于根据所述字符串的空间坐标以及所述音节的空间坐标,计算所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离;
比较单元,用于通过将所述字符串与所述相应维度的k-d树中相关节点的距离与所述搜索阈值进行比较,获取与所述待验证点的距离不大于所述搜索阈值的节点;
输出单元,用于查询所述节点对应的音节,并输出所述节点对应的音节作为纠错候选项。
进一步的,所述距离为欧几里得距离。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明提供的基于空间键位的拼音纠错方法及装置,通过对键盘进行坐标编码,将拼音音节映射到高维空间中,通过二叉树中的k-d树或k-ball树进行存储,通过比较高维空间中两点之间几何距离的大小选取出纠错选项,且不需要遍历该高维空间中的所有点;
2、本发明提供的基于空间键位的拼音纠错方法及装置,通过基于键盘构建二维直角坐标系,因而在纠错候选项进行搜索的时候,在阈值不变的情况下,误操作情形会更加多的凸显出来。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的基于空间键位的拼音纠错方法的流程图;
图2是根据一示例性实施例示出的将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的k-d树或k-ball树进行存储的流程图;
图3是根据一示例性实施例示出的将输入的字符串构建成相应的高维空间的待验证点后,根据待验证点判断字符串是否需要进行纠错流程图;
图4是根据一示例性实施例示出的在相应的高维空间中查询与待验证点的距离小于预设的搜索阈值的节点,输出节点对应的音节作为纠错候选项的流程图;
图5是根据一示例性实施例示出的基于空间键位的拼音纠错装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据一示例性实施例示出的基于空间键位的拼音纠错方法的流程图,参照图1所示,该方法包括:
S1:基于键盘构建二维直角坐标系,并对构成音节的每个字母进行坐标编码。
具体的,将键盘上所有按键都布局在在一个二维的平面内,针对该布局,我们构建一个(X,Y)直角坐标系,使得每个按键在该坐标系中都占有一个位置,因此,可根据按键的几何位置为按键创建一个基本的坐标编码(Xi,Yi)。
以下以美式键盘为例,举例说明基于键盘构建二维直角坐标系的方法。参照图2所示,字母Z到字母M方向为X轴方向,字母Z到字母Q为Y轴方向。每个按键左右和上下距离都一致,我们假设键距均为1。首先对字母A进行编码,由于每一个键距均为1,那么A的中心点距离Y轴的长度为0.7,距离X轴长度为1.5,因此,按键A可编码为(0.7,1.5),类似的,S可编码为(1.7,1.5),依此类推下去,可以获得全部按键的坐标编码,这里就不一一列举了。这里需要说明的是,基于美式键盘构建二维直角坐标系只是示例性说明,本发明实施例提供的方法不仅适用于美式键盘,也适用于其他键盘(包括所有物理键盘、虚拟键盘等)。另外,在基于键盘构建二维直角坐标系时,优选为将所有字母的按键的坐标设置为正数,这样不仅方便用户理解,也方便后续用于计算。
此外,由于输入者不同手指的灵活度的不一致性,会出现部分手指更加容易出错的可能,因此可在以上基础上对按键坐标进行微调。例如用户对I和O按键误操作非常频繁,那么I和O之间的横向距离应当更为接近,这样在纠错候选进行搜索的时候,在阈值不变的情况下,I和O按键的误操作情形会更加多的凸显出来。
S2:将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的二叉树进行存储。
具体的,本发明实施例中,需要预先构建供纠错查询的数据结构,即将所有的拼音音节都表达为一个高维空间的点。一个音节有n个字母构成,每个字母拥有x和y两个方向的坐标,因此一个由n个字母构成的音节可以表示成2*n维空间中的一个点,然后将音节存储到相应的二叉树中,即将由n个字母构成的音节映射成的点的位置信息存储到2*n维的二叉树中。这里需要说明的是,本发明不仅适用于拼音的纠错,而且对英文纠错同样有效。将本发明应用于英文纠错时,需要将所有英文单词都表达为一个高维空间的点,然后通过相应的二叉树进行存储。
S3:将输入的字符串构建成相应的高维空间的待验证点后,根据所述待验证点判断所述字符串是否需要进行纠错,若需要,则执行步骤S4,否则,不做任何操作。
具体的,用户输入字符串(这里指拼音,若是用于英文纠错,则这里的字符串指英文单词)后,同样将用户输入的字符串映射到高维空间中,构建成待验证点,然后根据待验证点判断用户输入字符串是否需要进行纠错,若需要,则执行下一步骤,进行相应的拼音纠错处理,否则,说明用户输入字符串没有错误,不需要进行拼音纠错处理,不做任何操作。
S4:在所述相应的高维空间中查询与所述待验证点的距离不小于预设的搜索阈值的节点,输出所述节点对应的音节作为纠错候选项。
具体的,本发明实施例中,需要预先设置搜索阈值。若是用户输入的字符串有错误,则到相应的高维空间中查询与待验证点的距离小于预设的搜索阈值的节点,然后将这些节点对应的音节输出作为纠错候选项。
图2是根据一示例性实施例示出的将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的k-d树或k-ball树进行存储的流程图,参照图2所示,其包括:
S2.1:构建空间维度为2n的若干k-d树或k-ball树,其中n为音节的长度。
具体的,通常全部的拼音音节长度分别为1(例如a,o,e),2(例如an,ai),3(例如ang,lin),4(例如lang,mang),5(例如qiang,qiong),6(例如zhuang,chuang),因此需要构建6棵k-d树或k-ball树,对应的空间维度分别为2,4,6,8,10,12维。这里需要说明的是,本发明实施例中,音节的长度为构成这个音节的字母的数量。
S2.2:根据所述字母的坐标编码,获取所述音节的空间坐标。
具体的,音节均有若干个字母构成,根据字母的坐标编码,生成各个音节的空间坐标。通常长度为k的一个音节,它的坐标为(x1,x2,...,xk,y1,y2,...,yk)。例如音节long,它对应的就是一个8维空间中的一个点,分别是字母l、o、n、g,对应的X-Y轴对应的坐标(xl,xo,xn,xg,yl,yo,yn,yg)。
S2.3:将所述音节的空间坐标存储到相应维度的k-d树或k-ball树中。
具体的,获取到音节的空间坐标后,将由n个字母构成的音节映射成的点的位置信息存储到2*n维的k-d树或k-ball树中。例如,将单个字母组成的音节存储到二维的k-d树或k-ball树中,两个字母组成的音节存储到四维的k-d树或k-ball树中……依次类推,将所有音节的空间坐标都存储到相应维度的k-d树或k-ball树中。
k-d树或k-ball树是在k维欧几里得空间组织点的数据结构,是一个每个节点都为k维点的二叉树。所有非叶子节点都可以视作一个超平面把空间区分为两个半空间。在范围搜索及最邻近搜索有良好的效果。由于k-d树或k-ball树的特性,因此并不需要遍历相应高维空间中的所有的点就可以搜索出满足条件的候选项。这里需要说明的是,本发明实施例中,用来存储音节的空间坐标的数据结构并不局限于k-d树或k-ball树,还可以是具有k-d树或k-ball树特性的其他数据结构。
图3是根据一示例性实施例示出的将输入的字符串构建成相应的高维空间的待验证点后,根据待验证点判断字符串是否需要进行纠错流程图,参照图3所示,其包括:
S3.1:根据所述字符串中每个字母的坐标编码将所述字符串映射到相应的高维空间中,获取所述字符串的空间坐标。
具体的,同样的,根据字母的坐标编码,生成字符串的空间坐标,即将字符串映射成相应的高维空间中的待验证点。例如音节long,它对应的就是一个8维空间中的一个点,分别是字母l、o、n、g,对应的X-Y轴对应的坐标(xl,xo,xn,xg,yl,yo,yn,yg)。
S3.2:若是所述待验证点与所述相应的高维空间的某个点重合,则所述字符串不需要进行纠错,否则,执行步骤S4,获取所述字符串的纠错候选项。
具体的,根据字符串的长度,到相应的高维空间中对待验证点进行匹配。例如,若是字符串的长度为n,则到2*n维的k-d树中进行匹配。若是待验证点与相应的高维空间的某个点重合,则说明字符串没有拼写错误,不需要进行纠错,此时不做任何操作,否则,则说明字符串有拼写错误,则执行下一步骤,获取字符串的纠错候选项。
图4是根据一示例性实施例示出的在相应的高维空间中查询与待验证点的距离不大于预设的搜索阈值的节点,输出节点对应的音节作为纠错候选项的流程图,参照图4所示,其包括:
S4.1:根据所述字符串的空间坐标以及所述音节的空间坐标,计算所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离。
具体的,本发明实施例中,两点之间距离的定义取欧几里得距离来作为距离的定义。考虑到不同音节有空间维度的差异,因此对标准欧式距离进行归一化操作,即在K维空间的两点A,B。例如,假设点A的坐标为
Figure BDA0001934011120000093
点B的坐标为
Figure BDA0001934011120000091
那么它们之间的距离为
Figure BDA0001934011120000092
考虑到键入的字符串长度越长,输错的可能性更大,因此对更长的字符串,要给予更多的纠错空间,因此给对公式(1)增加约束因子λ,λ可根据键盘的实际情况进行调整,一般情况下可以取为0.04:
Figure BDA0001934011120000101
S4.2:通过将所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离与所述搜索阈值进行比较,获取与所述待验证点的距离小于所述搜索阈值的节点。
具体的,需预先确定一个搜索阈值R,对于一个输入长度为n的字符串,首先将其编码为2n维空间的一个点,继而在已构建的2n维空间的k-d树或k-ball树进行搜索,查询在该高维空间中满足公式(3)的点:
L′≤R (3)
由于我们的距离L是归一化后的距离,不是标准的欧几里得距离,因此在k-d树或k-ball树中,需要将其转化为标准欧几里得距离:
L≤Ke-λKL′=Ke-λKR (4)
S4.3:查询所述节点对应的音节,并输出所述节点对应的音节作为纠错候选项。
具体的,在相应的高维空间中获取到满足条件的节点后,查询节点对应的音节,将这些音节输出作为纠错候选项。这里需要说明的是,将音节按照其长度映射到不同的高维空间中时,可以将音节对应的空间坐标记录下来,生成相应的音节-空间坐标查询表。在查询节点对应的音节时,可以通过音节-空间坐标查询表进行反向查询,获取各个节点对应的音节。
作为一种较优的实施方式,本发明实施例中,计算的距离为欧几里得距离。选用欧几里得距离可解决目前拼音纠错技术中对于不满足DL距离为1的字符串,则无法实现错误识别和纠正等问题。
这里需要说明的是,k-d树或k-ball树是每个节点都为k维点的二叉树。所有非叶子节点可以视作用一个超平面把空间分割成两个半空间。节点左边的子树代表在超平面左边的点,节点右边的子树代表在超平面右边的点。选择超平面的方法如下:每个节点都与k维中垂直于超平面的那一维有关。因此,如果选择按照x轴划分,所有x值小于指定值的节点都会出现在左子树,所有x值大于指定值的节点都会出现在右子树。由于k-d树的上述特性,我们并不需要遍历该高维空间中的所有点就可以搜索出满足条件的候选项。
对于k-d树的检索,其具体过程为:
从根节点开始,递归的往下移。往左还是往右的决定方法与插入元素的方法一样(如果输入点在分区面的左边则进入左子节点,在右边则进入右子节点)。
一旦移动到叶节点,将该节点当作″当前最佳点″。
解开递归,并对每个经过的节点运行下列步骤:
如果当前所在节点与搜索节点距离不大于我们的阈值,则将其添加到数组A中;
如果当前所在点比当前最佳点更靠近输入点,则将其变为当前最佳点;
检查另一边子树有没有更近的点(判断搜索点与该节点所在的超平面的垂直距离是否小于等于阈值),如果有则从该节点往下找;
当根节点搜索完毕后完成搜索,所得结果均在数组A中,数组A中节点即为纠错候选项对应的节点。
图5是根据一示例性实施例示出的基于空间键位的拼音纠错装置的结构示意图,参照图5所示,该装置包括:
坐标系建立模块,用于基于键盘构建二维直角坐标系,并对构成音节的每个字母进行坐标编码;
音节映射模块,用于将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的二叉树进行存储;
纠错判断模块,用于将输入的字符串构建成相应的高维空间的待验证点后,根据所述待验证点判断所述字符串是否需要进行纠错;
结果输出模块,用于在所述相应的高维空间中查询与所述待验证点的距离不大于预设的搜索阈值的节点,输出所述节点对应的音节作为纠错候选项。
作为一种较优的实施方式,本发明实施例中,所述二叉树包括k-d树或k-ball树,所述音节映射模块包括:
构建单元,用于构建空间维度为2n的若干k-d树或k-ball树,其中n为音节的长度;
第一编码单元,用于根据所述字母的坐标编码,获取所述音节的空间坐标;
存储单元,用于将所述音节的空间坐标存储到相应维度的k-d树或k-ball树中。
作为一种较优的实施方式,本发明实施例中,所述纠错判断模块包括:
第二编码单元,用于根据所述字符串中每个字母的坐标编码将所述字符串映射到相应的高维空间中,获取所述字符串的空间坐标;
判断单元,用于判断所述待验证点与所述相应的高维空间的点是否重合。
作为一种较优的实施方式,本发明实施例中,所述结果输出模块包括:
计算单元,用于根据所述字符串的空间坐标以及所述音节的空间坐标,计算所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离;
比较单元,用于通过将所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离与所述搜索阈值进行比较,获取与所述待验证点的距离不大于所述搜索阈值的节点;
输出单元,用于查询所述节点对应的音节,并输出所述节点对应的音节作为纠错候选项。
作为一种较优的实施方式,本发明实施例中,所述距离为欧几里得距离。
综上所述,本发明实施例提供的技术方案带来的有益效果是:
1、本发明提供的基于空间键位的拼音纠错方法及装置,通过对键盘进行坐标编码,将拼音音节映射到高维空间中,通过k-d树或k-ball树进行存储,通过比较高维空间中两点之间几何距离的大小选取出纠错选项,且不需要遍历该高维空间中的所有点;
2、本发明提供的基于空间键位的拼音纠错方法及装置,通过基于键盘构建二维直角坐标系,因而在纠错候选项进行搜索的时候,在阈值不变的情况下,误操作情形会更加多的凸显出来。
需要说明的是:上述实施例提供的基于空间键位的拼音纠错装置在触发拼音纠错业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于空间键位的拼音纠错装置与基于空间键位的拼音纠错方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

Claims (6)

1.一种基于空间键位的拼音纠错方法,其特征在于,所述方法包括如下步骤:
S1:基于键盘构建二维直角坐标系,并对构成音节的每个字母进行坐标编码;
S2:将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的二叉树进行存储;
所述二叉树包括k-d树和/或k-ball树,所述步骤S2具体包括:
S2.1:构建空间维度为2n的若干k-d树或k-ball树,其中n为音节的长度;
S2.2:根据所述字母的坐标编码,获取所述音节的空间坐标;
S2.3:将所述音节的空间坐标存储到相应维度的k-d树或k-ball树中;
S3:将输入的字符串构建成相应的高维空间的待验证点后,根据所述待验证点判断所述字符串是否需要进行纠错,若需要,则执行步骤S4,否则,不做任何操作;
S4:在所述相应的高维空间中查询与所述待验证点的距离不大于预设的搜索阈值的节点,输出所述节点对应的音节作为纠错候选项,具体包括:
S4.1:根据所述字符串的空间坐标以及所述音节的空间坐标,计算所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离;
S4.2:通过将所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离与所述搜索阈值进行比较,获取与所述待验证点的距离不大于所述搜索阈值的节点;
S4.3:查询所述节点对应的音节,并输出所述节点对应的音节作为纠错候选项。
2.根据权利要求1所述的基于空间键位的拼音纠错方法,其特征在于,所述步骤S3具体包括:
S3.1:根据所述字符串中每个字母的坐标编码将所述字符串映射到相应的高维空间中,获取所述字符串的空间坐标;
S3.2:若是所述待验证点与所述相应的高维空间的某个点重合,则所述字符串不需要进行纠错,否则,执行步骤S4,获取所述字符串的纠错候选项。
3.根据权利要求1所述的基于空间键位的拼音纠错方法,其特征在于,所述距离为欧几里得距离。
4.一种基于空间键位的拼音纠错装置,其特征在于,所述装置包括:
坐标系建立模块,用于基于键盘构建二维直角坐标系,并对构成音节的每个字母进行坐标编码;
音节映射模块,用于将所有的音节按照各自长度映射到不同的高维空间中,并通过相应的二叉树进行存储;
所述二叉树包括k-d树和/或k-ball树,所述音节映射模块具体包括:
构建单元,用于构建空间维度为2n的若干k-d树或k-ball树,其中n为音节的长度;
第一编码单元,用于根据所述字母的坐标编码,获取所述音节的空间坐标;
存储单元,用于将所述音节的空间坐标存储到相应维度的k-d树或k-ball树中;
纠错判断模块,用于将输入的字符串构建成相应的高维空间的待验证点后,根据所述待验证点判断所述字符串是否需要进行纠错;
结果输出模块,用于在所述相应的高维空间中查询与所述待验证点的距离不大于预设的搜索阈值的节点,输出所述节点对应的音节作为纠错候选项,所述结果输出模块包括:
计算单元,用于根据所述字符串的空间坐标以及所述音节的空间坐标,计算所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离;
比较单元,用于通过将所述字符串与所述相应维度的k-d树或k-ball树中相关节点的距离与所述搜索阈值进行比较,获取与所述待验证点的距离不大于所述搜索阈值的节点;
输出单元,用于查询所述节点对应的音节,并输出所述节点对应的音节作为纠错候选项。
5.根据权利要求4所述的基于空间键位的拼音纠错装置,其特征在于,所述纠错判断模块包括:
第二编码单元,用于根据所述字符串中每个字母的坐标编码将所述字符串映射到相应的高维空间中,获取所述字符串的空间坐标;
判断单元,用于判断所述待验证点与所述相应的高维空间的点是否重合。
6.根据权利要求4所述的基于空间键位的拼音纠错装置,其特征在于,所述距离为欧几里得距离。
CN201910010325.0A 2019-01-02 2019-01-02 一种基于空间键位的拼音纠错方法及装置 Active CN109857264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910010325.0A CN109857264B (zh) 2019-01-02 2019-01-02 一种基于空间键位的拼音纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910010325.0A CN109857264B (zh) 2019-01-02 2019-01-02 一种基于空间键位的拼音纠错方法及装置

Publications (2)

Publication Number Publication Date
CN109857264A CN109857264A (zh) 2019-06-07
CN109857264B true CN109857264B (zh) 2022-09-20

Family

ID=66894008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910010325.0A Active CN109857264B (zh) 2019-01-02 2019-01-02 一种基于空间键位的拼音纠错方法及装置

Country Status (1)

Country Link
CN (1) CN109857264B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995010108A1 (en) * 1993-10-04 1995-04-13 British Telecommunications Public Limited Company Speech synthesis
CN104252484A (zh) * 2013-06-28 2014-12-31 重庆新媒农信科技有限公司 一种拼音纠错方法及系统
CN104375665A (zh) * 2014-12-09 2015-02-25 三星电子(中国)研发中心 输入法纠错方法及装置
CN106325488A (zh) * 2015-07-09 2017-01-11 北京搜狗科技发展有限公司 一种输入方法、输入装置、服务器和输入系统
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN108182001A (zh) * 2017-12-28 2018-06-19 科大讯飞股份有限公司 输入纠错方法及装置、存储介质、电子设备
CN108959250A (zh) * 2018-06-27 2018-12-07 众安信息技术服务有限公司 一种基于语言模型和词特征的纠错方法及其系统
CN109087648A (zh) * 2018-08-21 2018-12-25 平安科技(深圳)有限公司 柜台语音监控方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080180283A1 (en) * 2007-01-31 2008-07-31 Sony Ericsson Mobile Communications Ab System and method of cross media input for chinese character input in electronic equipment

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995010108A1 (en) * 1993-10-04 1995-04-13 British Telecommunications Public Limited Company Speech synthesis
CN104252484A (zh) * 2013-06-28 2014-12-31 重庆新媒农信科技有限公司 一种拼音纠错方法及系统
CN104375665A (zh) * 2014-12-09 2015-02-25 三星电子(中国)研发中心 输入法纠错方法及装置
CN106325488A (zh) * 2015-07-09 2017-01-11 北京搜狗科技发展有限公司 一种输入方法、输入装置、服务器和输入系统
CN106847288A (zh) * 2017-02-17 2017-06-13 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN108182001A (zh) * 2017-12-28 2018-06-19 科大讯飞股份有限公司 输入纠错方法及装置、存储介质、电子设备
CN108959250A (zh) * 2018-06-27 2018-12-07 众安信息技术服务有限公司 一种基于语言模型和词特征的纠错方法及其系统
CN109087648A (zh) * 2018-08-21 2018-12-25 平安科技(深圳)有限公司 柜台语音监控方法、装置、计算机设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Computer Assisted Language Learning system based on dynamic question generation and error prediction for automatic speech recognition;Wang Hongcui 等;《Speech Communication》;20091031;第51卷(第10期);995-1005 *
二叉树坐标网及其应用;邱英汉;《计算机工程与应用》;19990709(第7期);39-42 *
基于EPG的汉语普通话辅音的发音研究;李俭;《中国优秀博硕士学位论文全文数据库(硕士) 哲学与人文科学辑》;20040915(第03期);F084-171 *
平面四孔六边形格网系统编码运算;王蕊 等;《测绘学报》;20180715;第47卷(第7期);1018-1025 *

Also Published As

Publication number Publication date
CN109857264A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
US10521441B2 (en) System and method for approximate searching very large data
CA2222590C (en) System and method for reducing the search scope in a lexicon
US9355171B2 (en) Clustering of near-duplicate documents
Basu Roy et al. Location-aware type ahead search on spatial databases: semantics and efficiency
CN107341178B (zh) 一种基于自适应的二进制量化哈希编码的数据检索方法
CN111801665B (zh) 用于大数据应用的分层局部敏感哈希(lsh)分区索引
CN111460083A (zh) 文档标题树的构建方法、装置、电子设备及存储介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
US20140082021A1 (en) Hierarchical ordering of strings
CN104283567A (zh) 一种名称数据的压缩、解压缩方法及设备
JP6167767B2 (ja) インデックス生成装置及び検索装置
JP7149976B2 (ja) 誤り訂正方法及び装置、コンピュータ読み取り可能な媒体
Oommen et al. Pattern recognition of strings with substitutions, insertions, deletions and generalized transpositions
Lin Binary search algorithm
JP5436346B2 (ja) 高次元の特徴ベクトルの集合から類似した特徴ベクトルを検索する検索装置及びプログラム
CN116562297B (zh) 基于HTrie树的中文敏感词变形体识别方法及系统
CN106528647A (zh) 一种基于cedar双数组字典树算法进行术语匹配的方法
CN107220333B (zh) 一种基于Sunday算法的字符搜索方法
CN112256727A (zh) 基于人工智能技术的数据库查询处理及优化方法
CN109857264B (zh) 一种基于空间键位的拼音纠错方法及装置
US11048730B2 (en) Data clustering apparatus and method based on range query using CF tree
JP2001337993A (ja) 文字認識結果を利用して情報を検索する検索装置および方法
JP2004046612A (ja) データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体
JP6195365B2 (ja) ベクトル符号化プログラム、装置及び方法
Wang et al. MP-RW-LSH: an efficient multi-probe LSH solution to ANNS-L 1

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240306

Address after: Room 1179, W Zone, 11th Floor, Building 1, No. 158 Shuanglian Road, Qingpu District, Shanghai, 201702

Patentee after: Shanghai Zhongan Information Technology Service Co.,Ltd.

Country or region after: China

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240415

Address after: Room 1179, W Zone, 11th Floor, Building 1, No. 158 Shuanglian Road, Qingpu District, Shanghai, 201702

Patentee after: Shanghai Zhongan Information Technology Service Co.,Ltd.

Country or region after: China

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right