CN110888577A

CN110888577A - 字符纠正方法、装置、设备以及存储介质

Info

Publication number: CN110888577A
Application number: CN201811052131.9A
Authority: CN
Inventors: 李平; 孙明明; 王鑫; 冯悦; 孟可丰; 乔刚; 王乔飞; 张婧媛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2020-03-17
Anticipated expiration: 2038-09-10
Also published as: CN110888577B; US20200081618A1; US10929014B2

Abstract

本申请提供一种字符纠正方法、装置、设备以及存储介质，其中，该方法包括：用户在终端屏幕上的点击操作的位置信息，并获取点击操作的特征信息；确定位置信息与终端屏幕上的每一个按键之间的距离信息；确定历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息；根据特征信息、距离信息和转移概率信息，确定字符预测结果，字符预测结果包括点击操作所指示的字符属于每一个按键对应的字符的可能性分数；将可能性分数最高的字符，作为点击操作对应的纠正字符。可以基于终端上的软键盘的键盘布局方式，对字符进行纠正，避免不同的终端来说会产生纠正错误的情况，可以正确的对用户的点击操作的字符进行纠正。

Description

字符纠正方法、装置、设备以及存储介质

技术领域

本申请实施例涉及终端技术领域，尤其涉及一种字符纠正方法、装置、设备以及存储介质。

背景技术

终端设备已经成为用户生活和工作中的重要工具。由于终端设备的体积限制，为了使得终端设备的显示区域更大，提供屏幕软键盘，用户可以通过点击终端屏幕上的软键盘，进而向终端设备中输入字符。但是由于终端屏幕上的软键盘上的字符区域较小，用户在点击字符区域的过程中容易触碰到字符区域之外的区域，进而输入错误的字符，用户就需要删除错误字符并重新输入字符。从而导致用户的输入效率较低，用户体验较差。

现有技术中，可以对用户的点击操作所产生的字符进行纠正，可以首先利用一种或多种策略，针对用户输入的字符，构建出多个候选字符，然后，采用分类器对候选字符进行打分，将打分最高的候选字符作为最终的纠正字符。

然而现有技术中，不同的在终端上的软键盘的键盘布局不同，采用现有技术中的方式对于不同的终端来说，会产生纠正错误的情况，进而无法正确的对用户的点击操作的字符进行纠正。

发明内容

本申请实施例提供一种字符纠正方法、装置、设备以及存储介质，用于解决上述方案中无法正确的对用户的点击操作的字符进行纠正的问题。

本申请第一方面提供一种字符纠正方法，包括：

获取用户在终端屏幕上的点击操作的位置信息，并获取所述点击操作的特征信息，其中，所述特征信息包括了以下的至少一种：所述点击操作距离上一次点击操作的时间间隔、所述点击操作的点击压力、所述点击操作的接触面积；

确定所述位置信息与终端屏幕上的每一个按键之间的距离信息；

根据预设的概率字典矩阵，确定历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，所述概率字典矩阵中包括字符之间的转移概率；

根据所述特征信息、所述距离信息和所述转移概率信息，确定字符预测结果，所述字符预测结果包括所述点击操作所指示的字符属于每一个按键对应的字符的可能性分数；

确定可能性分数最高的字符，为所述点击操作对应的纠正字符。

可选的，所述距离信息包括了以下的至少一种：所述点击操作距离按键中心的第一水平距离、所述点击操作距离按键中心的第一垂直距离、所述点击操作距离按键边界的第二水平距离、所述点击操作距离按键边界的第二垂直距离。

可选的，所述第一水平距离h₁＝x-x′，所述第一垂直距离h₂＝y-y′；

在所述位置信息不位于按键之内时，所述第二水平距离h₃＝min(|x-x₁|，|x-x₂|)，所述第二垂直距离h₄＝min(|y-y₁|，|y-y₂|)；在所述位置信息位于按键之内时，所述第二水平距离h₃＝0，所述第二垂直距离h₄＝0；

其中，x是所述位置信息的横坐标，y是所述位置信息的纵坐标，x′是按键的中心点的横坐标，y′是按键的中心点的纵坐标，x₁是按键的左边界的横坐标，x₂是按键的右边界的横坐标，y₁是按键的上边界的纵坐标，y₂是按键的下边界的纵坐标。

可选的，所述转移概率信息为前P次点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，P≥1，P为正整数。

可选的，根据所述特征信息、所述距离信息和所述转移概率信息，确定字符预测结果，包括：

根据所述特征信息、所述距离信息和所述转移概率信息，构成一个特征表达向量；

根据线性分类器对所述特征表达向量进行处理，得到所述字符预测结果。

可选的，在根据所述特征信息、所述距离信息和所述转移概率信息，确定字符预测结果之后，还包括：

确定可能性分数排名为前Q的字符，为所述点击操作对应的候选字符，其中，Q≥1，Q为正整数。

获取N次所述点击操作之后的字符预测结果，其中，N≥1，N为正整数；

采用集束搜索算法对N个所述字符预测结果进行处理，确定组合概率排名前M的字符串序列，其中，每一个所述字符串序列中包括N个字符，M≥1，M为正整数；

根据所述字符串序列的组合概率和预设的其他排序信息，对M个所述字符串序列重新排序，得到排序结果，其中，所述排序结果中包括排序概率由大到小的M个所述字符串序列；

确定所述排序结果中排名第一的字符串序列，为纠正后的字符串序列。

可选的，所述其他排序信息包括以下的至少一种：

字符串的历史输入频率、字符串判断结果、M个所述字符串序列与正确输入的字符串序列之间的编辑距离；其中，所述字符串判断结果表征了M个所述字符串序列是否在预设的字典中。

可选的，在所述根据所述字符串序列的组合概率和预设的其他排序信息，对M个所述字符串序列重新排序，得到排序结果之后，还包括：

确定所述排序结果中排名前R的字符串序列，为候选字符串序列，其中，2≤R≤M，R为正整数。

本申请第二方面提供一种字符纠正装置，包括：

第一获取模块，用于获取用户在终端屏幕上的点击操作的位置信息，并获取所述点击操作的特征信息，其中，所述特征信息包括了以下的至少一种：所述点击操作距离上一次点击操作的时间间隔、所述点击操作的点击压力、所述点击操作的接触面积；

第一确定模块，用于确定所述位置信息与终端屏幕上的每一个按键之间的距离信息；

第二确定模块，用于根据预设的概率字典矩阵，确定历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，所述概率字典矩阵中包括字符之间的转移概率；

第三确定模块，用于根据所述特征信息、所述距离信息和所述转移概率信息，确定字符预测结果，所述字符预测结果包括所述点击操作所指示的字符属于每一个按键对应的字符的可能性分数；

第四确定模块，用于确定可能性分数最高的字符，为所述点击操作对应的纠正字符。

可选的，所述第三确定模块，包括：

构成子模块，用于根据所述特征信息、所述距离信息和所述转移概率信息，构成一个特征表达向量；

处理子模块，用于根据线性分类器对所述特征表达向量进行处理，得到所述字符预测结果。

可选的，所述装置，还包括：

第五确定模块，用于在所述第三确定模块根据所述特征信息、所述距离信息和所述转移概率信息，确定字符预测结果之后，确定可能性分数排名为前Q的字符，为所述点击操作对应的候选字符，其中，Q≥1，Q为正整数。

可选的，所述装置，还包括：

第二获取模块，用于在所述第三确定模块根据所述特征信息、所述距离信息和所述转移概率信息，确定字符预测结果之后，获取N次所述点击操作之后的字符预测结果，其中，N≥1，N为正整数；

第一排序模块，用于采用集束搜索算法对N个所述字符预测结果进行处理，确定组合概率排名前M的字符串序列，其中，每一个所述字符串序列中包括N个字符，M≥1，M为正整数；

第二排序模块，用于根据所述字符串序列的组合概率和预设的其他排序信息，对M个所述字符串序列重新排序，得到排序结果，其中，所述排序结果中包括排序概率由大到小的M个所述字符串序列；

第六确定模块，用于确定所述排序结果中排名第一的字符串序列，为纠正后的字符串序列。

可选的，所述其他排序信息包括以下的至少一种：

可选的，所述装置，还包括：

第七确定模块，用于在所述第二排序模块根据所述字符串序列的组合概率和预设的其他排序信息，对M个所述字符串序列重新排序，得到排序结果之后，确定所述排序结果中排名前R的字符串序列，为候选字符串序列，其中，2≤R≤M，R为正整数。

本申请第三方面提供一种终端设备，发送器、接收器、存储器和处理器；

所述存储器用于存储计算机指令；所述处理器用于运行所述存储器存储的所述计算机指令实现第一方面任一实现方式提供的字符纠正方法。

本申请第四方面提供一种存储介质，其特征在于，包括：可读存储介质和计算机指令，所述计算机指令存储在所述可读存储介质中；所述计算机指令用于实现第一方面任一实现方式提供的字符纠正方法。

本申请实施例提供的字符纠正方法、装置、设备以及存储介质，获取用户在终端屏幕上的点击操作的位置信息，并获取点击操作的特征信息；确定位置信息与终端屏幕上的每一个按键之间的距离信息；确定历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息；根据特征信息、距离信息和转移概率信息，确定字符预测结果，字符预测结果包括点击操作所指示的字符属于每一个按键对应的字符的可能性分数；将可能性分数最高的字符，作为点击操作对应的纠正字符。从而可以在用户每进行一次点击操作之后，判断出用户指示的是哪一个字符；由于利用了点击操作与终端屏幕上的每一个按键之间的距离信息，进而可以基于终端上的软键盘的键盘布局方式，对字符进行纠正，避免不同的终端来说会产生纠正错误的情况，可以正确的对用户的点击操作的字符进行纠正；并且，本方案的运算复杂度比现有技术的复杂度小，影响时间短，因而可以提升用户体验。此外，本方案的一个模型可以用于多种终端和多种键盘布局，不需要针对不同设备部署多个模型，因而减小了安装包规模，降低了部署成本，节省了存储空间，因而可以进一步的提升用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的字符纠正方法的实施例一的流程图；

图2为本申请实施例提供的字符纠正方法的实施例一中的距离信息的示意图；

图3为本申请实施例提供的字符纠正方法的实施例二的流程图；

图4为本申请实施例提供的字符纠正方法的实施例三的流程图；

图5为本申请实施例提供的字符纠正装置的实施例一的结构示意图；

图6为本申请实施例提供的字符纠正装置的实施例二的结构示意图；

图7为本申请实施例提供的终端设备的实施例一的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

现有技术中，可以对用户的点击操作所产生的字符进行纠正，具体来说，现有技术中，可以首先构造候选字符，例如，利用一种或多种策略构建对于字符的候选字符；然后利用评分函数(例如编辑距离)或者分类器(例如支持向量机)结合字符的局部特征或全局特征，对候选字符进行评分和排序，得到打分最高的候选字符；将打分最高的候选字符作为纠正字符，即将打分最高的候选字符作为显示给用户的字符。其中，候选字符的生成方法有以下几种：第一种方法，利用困惑集得到候选字符；第二种方法，利用语言模型方法和困惑集，得到候选字符；第三种方法，利用预设模型生成候选字符，其中，预设模型可以是隐马尔科夫模型(Hidden Markov Model，简称HMM)、或者基于图模型的模型。其中，对候选字符进行评分和排序的方法有以下几种：第一方法，利用语言模型对候选字符进行排序，例如，可以利用前向算法和字符级别的语言模型对候选字符进行排序，再例如，利用全句的语言模型对候选字符进行排序；第二方法，利用分类器对候选字符进行排序，例如利用支持向量机对候选字符进行排序。

但是现有技术中，不同的在终端上的软键盘的键盘布局不同，采用现有技术中的方式对于不同的终端来说，会产生纠正错误的情况，进而无法正确的对用户的点击操作的字符进行纠正。

针对上述存在的问题，本申请提出一种字符纠正方法、装置、设备以及存储介质，可以基于终端上的软键盘的键盘布局方式，对字符进行纠正，避免不同的终端来说会产生纠正错误的情况，可以正确的对用户的点击操作的字符进行纠正，下面通过几个具体实施例对该方案进行详细说明。

图1为本申请实施例提供的字符纠正方法的实施例一的流程图，如图1所示，该方案的执行主体为终端设备，例如是手机、平板电脑等，该字符纠正方法，包括：

S101、获取用户在终端屏幕上的点击操作的位置信息，并获取点击操作的特征信息，其中，特征信息包括了以下的至少一种：点击操作距离上一次点击操作的时间间隔、点击操作的点击压力、点击操作的接触面积。

在本步骤中，具体的，在用户点击终端屏幕上的按键的时候，可以获取到用户的点击操作，点击操作指示出了一个点击点，获取用户在终端屏幕上的点击点的位置信息t＝(x，y)，x是位置信息的横坐标，y是位置信息的纵坐标。

并且，在确定位置信息t的同时，可以获取到用户在终端屏幕上的进行当前点击操作的其他特征，其中，其他特征包括了以下特征的至少一种：当前点击操作距离前一次点击操作的时间间隔、按键压力、按键接触面积。

举例来说，对于终端屏幕上建立一个二维坐标系，终端屏幕的水平方向为二维坐标系的x轴，终端屏幕的垂直方向为二维坐标系的y轴；用户在点击终端屏幕上的按键的时候，可以获取到用户的点击操作的位置信息t＝(x，y)，同时可以获取到当前点击操作距离前一次点击操作的时间间隔T、当前点击操作的压力F、当前点击操作下用户与终端屏幕的接触面积L；其中，当前点击操作的压力F为上述按键压力，当前点击操作下用户与终端屏幕的接触面积L为上述按键接触面积。

S102、确定位置信息与终端屏幕上的每一个按键之间的距离信息。

可选的，距离信息包括了以下的至少一种：点击操作距离按键中心的第一水平距离、点击操作距离按键中心的第一垂直距离、点击操作距离按键边界的第二水平距离、点击操作距离按键边界的第二垂直距离。

可选的，第一水平距离h₁＝x-x′，第一垂直距离h₂＝y-y′；在位置信息不位于按键之内时，第二水平距离h₃＝min(|x-x₁|，|x-x₂|)，第二垂直距离h₄＝min(|y-y₁|，|y-y₂|)；在位置信息位于按键之内时，第二水平距离h₃＝0，第二垂直距离h₄＝0；其中，x是位置信息的横坐标，y是位置信息的纵坐标，x′是按键的中心点的横坐标，y′是按键的中心点的纵坐标，x₁是按键的左边界的横坐标，x₂是按键的右边界的横坐标，y₁是按键的上边界的纵坐标，y₂是按键的下边界的纵坐标。

在本步骤中，具体的，图2为本申请实施例提供的字符纠正方法的实施例一中的距离信息的示意图，如图2所示，对于终端屏幕上建立一个二维坐标系，终端屏幕的水平方向为二维坐标系的x轴，终端屏幕的垂直方向为二维坐标系的y轴；终端屏幕上的每一个按键具有中心点O，每一个按键的中心点O的中心点位置信息为t′＝(x′，y′)，x′是按键的中心点的横坐标，y′是按键的中心点O的纵坐标。每一个按键具有四个顶点，分别为V1、V2、V3、V4，V1的位置信息为t1＝(x₁，y₁)，V2的位置信息为t2＝(x₁，y₂)，V3的位置信息为t3＝(x₂，y₁)，V4的位置信息为t4＝(x₂，y₂)。

对于终端屏幕上的每一个按键来说，每一个按键具有左边界、右边界、上边界和下边界。对于按键的左边界上的每一个点来说，横坐标是不变的，按键的左边界的横坐标为x₁；对于按键的右边界上的每一个点来说，横坐标是不变的，按键的右边界的横坐标为x₂；对于按键的上边界上的每一个点来说，纵坐标是不变的，按键的上边界的纵坐标为y₁；对于按键的下边界上的每一个点来说，纵坐标是不变的，按键的下边界的纵坐标为y₂。

可以计算出点击操作与终端屏幕上的每一个按键的中心点的第一水平距离h₁＝x-x′，点击操作与终端屏幕上的每一个按键的中心点的第一垂直距离h₂＝y-y′。

针对于终端屏幕上的每一个按键来说，若点击操作点没有击到了该按键之内，则确定点击操作的位置信息不位于该按键之内，则可以计算出点击操作与按键边界的第二水平距离h₃＝min(|x-x₁|，|x-x₂|)，并且可以计算出点击操作与按键边界的第二垂直距离h₄＝min(|y-y₁|，|y-y₂|)。针对于终端屏幕上的每一个按键来说，若点击操作点击到了该按键之内，则确定点击操作的位置信息位于该按键之内，则可以计算出点击操作与按键边界的第二水平距离h₃＝0，并且可以计算出点击操作与按键边界的第二垂直距离h₄＝0。

以上计算出的距离信息可以表示出点击操作的落点位置与终端的键盘布局的关系。

举例来说，终端屏幕上一共有26个英文字母的按键，终端屏幕上还具有1个非字符的选择按键，则终端屏幕上一共显示出了27个按键；根据用户当前的点击操作的位置信息t＝(x，y)，可以计算出点击操作与每一个按键之间的第一水平距离、第一垂直距离、第二水平距离和第二垂直距离。因为对于每一个计算出了四种距离，从而可以得到一个27*4的距离向量。

S103、根据预设的概率字典矩阵，确定历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，概率字典矩阵中包括字符之间的转移概率。

可选的，转移概率信息为前P次点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，P≥1，P为正整数。

在本步骤中，具体的，获取用户的历史点击操作，历史点击操作指示出了用户进行当前点击操作之前的前P次点击操作的字符。

根据多个用户的历史点击操作，生成一个概率字典矩阵，概率字典矩阵中包括字符之间的转移概率；具体来说，概率字典矩阵中包括每一个字符到下一个字符的转移概率、每两个字符到下一个字符的转移概率。其中，概率字典矩阵指示出了Z个字符、1个非字符和补位字符’$’，例如Z取值为26。

可以根据概率字典矩阵，确定当前用户的历史点击操作所指示的字符到终端屏幕上的每一个按键对应的字符的转移概率信息，转移概率信息包括了用户点击的前一个字符到每一个按键对应的字符的转移概率、用户点击的前两个字符到每一个按键对应的字符的转移概率。其中，当前用户的历史点击操作中只有一次历史点击或两次历史点击的时候，可以将补位字符’$’作为当前用户的历史点击操作，进而去计算转移概率信息。

举例来说，终端屏幕上一共有26个英文字母的按键，终端屏幕上还具有1个非字符的选择按键，则终端屏幕上一共显示出了27个按键；确定出用户点击的前一个字符到每一个按键对应的字符的转移概率、用户点击的前两个字符到每一个按键对应的字符的转移概率；前一个字符到每一个按键对应的字符的转移概率，一共组成一个维度为27的向量；前两个字符到每一个按键对应的字符的转移概率，一共组成一个维度为27的向量；从而，历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息，一共组成一个维度为27+27的向量。

S104、根据特征信息、距离信息和转移概率信息，确定字符预测结果，字符预测结果包括点击操作所指示的字符属于每一个按键对应的字符的可能性分数。

在本步骤中，具体的，根据点击操作与每一个按键之间的第一水平距离、第一垂直距离、第二水平距离和第二垂直距离，特征信息，用户点击的前一个字符到每一个按键对应的字符的转移概率，以及用户点击的前两个字符到每一个按键对应的字符的转移概率，可以计算出点击操作所指示的字符属于每一个按键对应的字符的可能性分数。

举例来说，终端屏幕上一共有26个英文字母的按键，终端屏幕上还具有1个非字符的选择按键，则终端屏幕上一共显示出了27个按键；可以得到字符预测结果，字符预测结果中包括了27个可能性分数，每一个分数为点击操作所指示的字符属于一个按键对应的字符的可能性分数。

S105、确定可能性分数最高的字符，为点击操作对应的纠正字符。

在本步骤中，具体的，将字符预测结果中可能性分数最高的字符，作为对用户的点击操作进行纠正之后得到的字符，然后将该字符显示给用户。

本实施例通过获取用户在终端屏幕上的点击操作的位置信息，并获取点击操作的特征信息；确定位置信息与终端屏幕上的每一个按键之间的距离信息；确定历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息；根据特征信息、距离信息和转移概率信息，确定字符预测结果，字符预测结果包括点击操作所指示的字符属于每一个按键对应的字符的可能性分数；将可能性分数最高的字符，作为点击操作对应的纠正字符。从而可以在用户每进行一次点击操作之后，判断出用户指示的是哪一个字符；由于利用了点击操作与终端屏幕上的每一个按键之间的距离信息，进而可以基于终端上的软键盘的键盘布局方式，对字符进行纠正，避免不同的终端来说会产生纠正错误的情况，可以正确的对用户的点击操作的字符进行纠正；并且，本方案的运算复杂度比现有技术的复杂度小，影响时间短，因而可以提升用户体验。此外，本方案的一个模型可以用于多种终端和多种键盘布局，不需要针对不同设备部署多个模型，因而减小了安装包规模，降低了部署成本，节省了存储空间，因而可以进一步的提升用户体验。

图3为本申请实施例提供的字符纠正方法的实施例二的流程图，如图3所示，该方案的执行主体为终端设备，例如是手机、平板电脑等，该字符纠正方法，包括：

S201、获取用户在终端屏幕上的点击操作的位置信息，并获取点击操作的特征信息，其中，特征信息包括了以下的至少一种：点击操作距离上一次点击操作的时间间隔、点击操作的点击压力、点击操作的接触面积。

在本实施例中，具体的，本步骤可以参见图1的步骤101，不再赘述。

S202、确定位置信息与终端屏幕上的每一个按键之间的距离信息。

在本实施例中，具体的，本步骤可以参见图1的步骤102，不再赘述。

S203、根据预设的概率字典矩阵，确定历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，概率字典矩阵中包括字符之间的转移概率。

在本实施例中，具体的，本步骤可以参见图1的步骤103，不再赘述。

S204、根据特征信息、距离信息和转移概率信息，构成一个特征表达向量。

在本实施例中，具体的，特征信息中包括了当前点击操作距离前一次点击操作的时间间隔、按键压力、按键接触面积，时间间隔是一个维度为1的向量，按键压力是一个维度为1的向量，按键接触面积是一个维度为1的向量，从而特征信息是一个维度为3的向量。

点击操作的位置信息与终端屏幕上的一个按键之间的距离信息，为一个维度为4的向量；从而，点击操作的位置信息与终端屏幕上的所有按键之间的距离信息构成一个维度为R*4的向量，R为终端屏幕上的按键个数。

历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息，一共组成为一个维度为R+R的向量，R为终端屏幕上的按键个数。

可以将上述特征信息、所有的距离信息、所有的转移概率信息，组成一个特征表达向量。

S205、根据线性分类器对特征表达向量进行处理，得到字符预测结果，字符预测结果包括点击操作所指示的字符属于每一个按键对应的字符的可能性分数。

在本实施例中，具体的，采用现有技术中的线性分类器对步骤S204中的特征表达向量进行处理，得到字符预测结果。

S206、确定可能性分数最高的字符，为点击操作对应的纠正字符。

在本实施例中，具体的，本步骤可以参见图1的步骤105，不再赘述。

S207、确定可能性分数排名为前Q的字符，为点击操作对应的候选字符，其中，Q≥1，Q为正整数。

在本实施例中，具体的，将字符预测结果中可能性分数排名为前Q的字符，作为候选字符显示出来。

本实施例可以在用户每进行一次点击操作之后，判断出用户指示的是哪一个字符；由于利用了点击操作与终端屏幕上的每一个按键之间的距离信息，进而可以基于终端上的软键盘的键盘布局方式，对字符进行纠正，避免不同的终端来说会产生纠正错误的情况，可以正确的对用户的点击操作的字符进行纠正；并且，本方案的运算复杂度比现有技术的复杂度小，影响时间短，因而可以提升用户体验。此外，本方案的一个模型可以用于多种终端和多种键盘布局，不需要针对不同设备部署多个模型，因而减小了安装包规模，降低了部署成本，节省了存储空间，因而可以进一步的提升用户体验。

图4为本申请实施例提供的字符纠正方法的实施例三的流程图，如图4所示，该方案的执行主体为终端设备，例如是手机、平板电脑等，该字符纠正方法，包括：

S301、获取用户在终端屏幕上的点击操作的位置信息，并获取点击操作的特征信息，其中，特征信息包括了以下的至少一种：点击操作距离上一次点击操作的时间间隔、点击操作的点击压力、点击操作的接触面积。

S302、确定位置信息与终端屏幕上的每一个按键之间的距离信息。

S303、根据预设的概率字典矩阵，确定历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，概率字典矩阵中包括字符之间的转移概率。

S304、根据特征信息、距离信息和转移概率信息，确定字符预测结果，字符预测结果包括点击操作所指示的字符属于每一个按键对应的字符的可能性分数。

在本实施例中，具体的，本步骤可以参见图1的步骤104，不再赘述。

S305、获取N次点击操作之后的字符预测结果，其中，N≥1，N为正整数。

在本实施例中，具体的，用户每进行一次点击操作的时候，依次执行步骤S301-S304；可以在用户进行了N次点击操作之后，可以得到N个字符预测结果。

S306、采用集束搜索(Beam Search)算法对N个字符预测结果进行处理，确定组合概率排名前M的字符串序列，其中，每一个字符串序列中包括N个字符，M≥1，M为正整数。

在本实施例中，具体的，采用现有的集束搜索算法对N个字符预测结果中的字符进行排序处理，进而，从每一个字符预测结果中选择一个字符构成一个字符串序列，得到每一个字符串序列的组合概率；确定出组合概率排名前M的字符串序列；由于用户进行了N次点击操作，从而每一个字符串序列中包括N个字符。

其中，Beam search算法一种贪心算法，又称作定向搜索算法，它通过在有限集合中扩展最有前途的部分解来探索解空间，它是一种启发式的广度优先搜索的方法。

举例来说，用户进行了N次点击操作，输入了N个字符，可以得到N个字符预测结果；每一个字符的预测结果中有27个字符的可能性分数；采用Beam search算法，对于N个字符，从第一个字符开始，逐个组合至N个字符构成的字符串，进行多次组合，并且每次组合过程中，对前次组合的最优的M个结果和字符所有结果(即M*27种组合)进行排序，并取最优的M个结果作为当前组合的可能结果。最终得到组合概率排名前M的字符串序列。

采用Beam search算法对N个字符预测结果中的字符进行组合排序，需要排序的次序较少，可以提升运算效率。

S307、根据字符串序列的组合概率和预设的其他排序信息，对M个字符串序列重新排序，得到排序结果，其中，排序结果中包括排序概率由大到小的M个字符串序列。

可选的，其他排序信息包括以下的至少一种：字符串的历史输入频率、字符串判断结果、M个字符串序列与正确输入的字符串序列之间的编辑距离；其中，字符串判断结果表征了M个字符串序列是否在预设的字典中。

在本实施例中，具体的，获取其他排序信息，其中，其他排序信息包括了字符串的历史输入频率、字符串判断结果、M个字符串序列与正确输入的字符串序列之间的编辑距离。其中，字符串的历史输入频率包括了当前户自己的历史输入频率和其他用户的历史输入频率；字符串判断结果表征了M个字符串序列是否在预设的字典中；正确输入的字符串序列为未进行纠正的正确字符序列。

然后，根据M个字符串序列的组合概率和预设的其他排序信息，采用排序算法对M个字符串序列中的字符重新排序，确定出M个字符串序列中的每一个字符串序列的排序概率；然后将排序概率由大到小的M个字符串序列，作为最终的排序结果。其中，排序算法可以是Lambda排序(Lambda Rank)算法，或者排序算法可以是成对组合(Pair-wise)排序算法。

S308、确定排序结果中排名第一的字符串序列，为纠正后的字符串序列。

在本实施例中，具体的，在步骤S307之后，将排名第一的字符串序列，为纠正后的字符串序列；并显示纠正后的字符串序列。

举例来说，用户进行了N次点击操作，得到M个含有N个字符的字符串序列，将排名第一的字符串序列作为纠正后的字符串序列。

S309、确定排序结果中排名前R的字符串序列，为候选字符串序列，其中，2≤R≤M，R为正整数。

在本实施例中，具体的，将排序结果中排名前2名至前R名的字符串序列，也进行显示。

本实施例通过在用户点击了N次点击操作之后，得到N个字符预测结果，；根据N个字符预测结果，采用Beam search算法，得到组合概率最大的M个字符串序列；再根据M个字符串序列的组合概率和其他排序信息，对M个字符串序列再次进行排序，得到排序概率由大到小的M个字符串序列；将M个字符串序列中排列在第一位的字符串序列，作为纠正后的字符串序列。从而可以在用户进行多次点击操作之后，判断出用户输入的字符串可能是哪一种字符串；由于利用了点击操作与终端屏幕上的每一个按键之间的距离信息，进而可以基于终端上的软键盘的键盘布局方式，对字符进行纠正，避免不同的终端来说会产生纠正错误的情况；本方案的运算复杂度比现有技术的复杂度小，影响时间短，因而可以提升用户体验；此外，本方案的一个模型可以用于多种终端和多种键盘布局，不需要针对不同设备部署多个模型，因而减小了安装包规模，降低了部署成本，节省了存储空间，因而可以进一步的提升用户体验。

图5为本申请实施例提供的字符纠正装置的实施例一的结构示意图，如图5所示，本实施例提供的字符纠正装置，包括：

第一获取模块51，用于获取用户在终端屏幕上的点击操作的位置信息，并获取点击操作的特征信息，其中，特征信息包括了以下的至少一种：点击操作距离上一次点击操作的时间间隔、点击操作的点击压力、点击操作的接触面积。

第一确定模块52，用于确定位置信息与终端屏幕上的每一个按键之间的距离信息。

第二确定模块53，用于根据预设的概率字典矩阵，确定历史点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，概率字典矩阵中包括字符之间的转移概率。

第三确定模块54，用于根据特征信息、距离信息和转移概率信息，确定字符预测结果，字符预测结果包括点击操作所指示的字符属于每一个按键对应的字符的可能性分数。

第四确定模块55，用于确定可能性分数最高的字符，为点击操作对应的纠正字符。

本实施例提供的字符纠正装置，同于实现前述任一实施例提供的字符纠正方法中的技术方案，其实现原理和技术效果类似，不再赘述。

图6为本申请实施例提供的字符纠正装置的实施例二的结构示意图，在图5所示实施例的基础上，如图6所示，本实施例提供的字符纠正装置中，距离信息包括了以下的至少一种：点击操作距离按键中心的第一水平距离、点击操作距离按键中心的第一垂直距离、点击操作距离按键边界的第二水平距离、点击操作距离按键边界的第二垂直距离。

第一水平距离h₁＝x-x′，第一垂直距离h₂＝y-y′；在位置信息不位于按键之内时，第二水平距离h₃＝min(|x-x₁|，|x-x₂|)，第二垂直距离h₄＝min(|y-y₁|，|y-y₂|)；在位置信息位于按键之内时，第二水平距离h₃＝0，第二垂直距离h₄＝0；其中，x是位置信息的横坐标，y是位置信息的纵坐标，x′是按键的中心点的横坐标，y′是按键的中心点的纵坐标，x₁是按键的左边界的横坐标，x₂是按键的右边界的横坐标，y₁是按键的上边界的纵坐标，y₂是按键的下边界的纵坐标。

转移概率信息为前P次点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，P≥1，P为正整数。

第三确定模块54，包括：

构成子模块541，用于根据特征信息、距离信息和转移概率信息，构成一个特征表达向量；

处理子模块542，用于根据线性分类器对特征表达向量进行处理，得到字符预测结果。

本实施例提供的字符纠正装置，还包括：

第五确定模块61，用于在第三确定模块54根据特征信息、距离信息和转移概率信息，确定字符预测结果之后，确定可能性分数排名为前Q的字符，为点击操作对应的候选字符，其中，Q≥1，Q为正整数。

本实施例提供的字符纠正装置，还包括：

第二获取模块62，用于在第三确定模块54根据特征信息、距离信息和转移概率信息，确定字符预测结果之后，获取N次点击操作之后的字符预测结果，其中，N≥1，N为正整数。

第一排序模块63，用于采用集束搜索算法对N个字符预测结果进行处理，确定组合概率排名前M的字符串序列，其中，每一个字符串序列中包括N个字符，M≥1，M为正整数。

第二排序模块64，用于根据字符串序列的组合概率和预设的其他排序信息，对M个字符串序列重新排序，得到排序结果，其中，排序结果中包括排序概率由大到小的M个字符串序列。

第六确定模块65，用于确定排序结果中排名第一的字符串序列，为纠正后的字符串序列。

其他排序信息包括以下的至少一种：字符串的历史输入频率、字符串判断结果、M个字符串序列与正确输入的字符串序列之间的编辑距离；其中，字符串判断结果表征了M个字符串序列是否在预设的字典中。

本实施例提供的字符纠正装置，还包括：

第七确定模块66，用于在第二排序模块64根据字符串序列的组合概率和预设的其他排序信息，对M个字符串序列重新排序，得到排序结果之后，确定排序结果中排名前R的字符串序列，为候选字符串序列，其中，2≤R≤M，R为正整数。

图7为本申请实施例提供的终端设备的实施例一的结构示意图，如图7所示，该终端设备，包括：发送器71、接收器72、存储器73和处理器74；

存储器73用于存储计算机指令；处理器74用于运行存储器73存储的计算机指令实现前述实施例提供任一实现方式的字符纠正方法的技术方案。

本申请还提供一种存储介质，其特征在于，包括：可读存储介质和计算机指令，计算机指令存储在可读存储介质中；计算机指令用于实现前述例提供的任一实现方式的字符纠正方法的技术方案。

在上述终端设备的具体实现中，应理解，处理器74可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：只读存储器(英文：read-only memory，缩写：ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文：magnetictape)、软盘(英文：floppy disk)、光盘(英文：optical disc)及其任意组合。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种字符纠正方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述距离信息包括了以下的至少一种：所述点击操作距离按键中心的第一水平距离、所述点击操作距离按键中心的第一垂直距离、所述点击操作距离按键边界的第二水平距离、所述点击操作距离按键边界的第二垂直距离。

3.根据权利要求2所述的方法，其特征在于，所述第一水平距离h₁＝x-x′，所述第一垂直距离h₂＝y-y′；

4.根据权利要求1所述的方法，其特征在于，所述转移概率信息为前P次点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，P≥1，P为正整数。

5.根据权利要求1所述的方法，其特征在于，根据所述特征信息、所述距离信息和所述转移概率信息，确定字符预测结果，包括：

6.根据权利要求1所述的方法，其特征在于，在根据所述特征信息、所述距离信息和所述转移概率信息，确定字符预测结果之后，还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，在根据所述特征信息、所述距离信息和所述转移概率信息，确定字符预测结果之后，还包括：

8.根据权利要求7所述的方法，其特征在于，所述其他排序信息包括以下的至少一种：

9.根据权利要求7所述的方法，其特征在于，在所述根据所述字符串序列的组合概率和预设的其他排序信息，对M个所述字符串序列重新排序，得到排序结果之后，还包括：

10.一种字符纠正装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述距离信息包括了以下的至少一种：所述点击操作距离按键中心的第一水平距离、所述点击操作距离按键中心的第一垂直距离、所述点击操作距离按键边界的第二水平距离、所述点击操作距离按键边界的第二垂直距离。

12.根据权利要求11所述的装置，其特征在于，所述第一水平距离h₁＝x-x′，所述第一垂直距离h₂＝y-y′；

13.根据权利要求10所述的装置，其特征在于，所述转移概率信息为前P次点击操作所指示的字符到每一个按键对应的字符的转移概率信息，其中，P≥1，P为正整数。

14.根据权利要求10所述的装置，其特征在于，所述第三确定模块，包括：

15.根据权利要求10所述的装置，其特征在于，所述装置，还包括：

16.根据权利要求10-15任一项所述的装置，其特征在于，所述装置，还包括：

17.根据权利要求16所述的装置，其特征在于，所述其他排序信息包括以下的至少一种：

18.根据权利要求16所述的装置，其特征在于，所述装置，还包括：

19.一种终端设备，其特征在于，发送器、接收器、存储器和处理器；

所述存储器用于存储计算机指令；所述处理器用于运行所述存储器存储的所述计算机指令实现权利要求1至9任一项所述的字符纠正方法。

20.一种存储介质，其特征在于，包括：可读存储介质和计算机指令，所述计算机指令存储在所述可读存储介质中；所述计算机指令用于实现权利要求1至9任一项所述的字符纠正方法。