CN105574553A

CN105574553A - 文字处理方法和文字处理装置

Info

Publication number: CN105574553A
Application number: CN201410543494.8A
Authority: CN
Inventors: 高玉军
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2014-10-15
Filing date: 2014-10-15
Publication date: 2016-05-11

Abstract

本发明提出了一种文字处理方法和一种文字处理装置，其中，所述文字处理方法，包括：将连续的多个匹配值分为多个匹配值区间；获取用户当前输入的文字，将所述文字与所述标准文字进行匹配，得到当前文字的匹配值；判断所述当前文字的匹配值所在的匹配值区间；增加对应于所述匹配值区间的分布数；根据所述分布数计算所述当前输入的文字在所有用户输入的文字中取得的排名。通过本发明的技术方案，以匹配值区间的排序及分布数得到匹配值排名，有效的降低排序所需的数据量，提高排名的统计效率。

Description

文字处理方法和文字处理装置

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种文字处理方法和一种文字处理装置。

背景技术

目前，在互联网中经常需要对一些文字的字形进行匹配，并对匹配结果的数据得分进行排名，现有的数据得分排名方法为：在接收到一个新的数据得分时，将新的数据得分与现有的数据得分逐个进行比较；根据比较结果得到新的数据得分在所有数据得分中所占的位置，即对所有数据得分进行排序；计算所有小于新的数据得分的个数以计算新的数据得分的排名，此种方法随着用户和数据得分的增加，数据量将会变得非常庞大，在统计整体排名的时候，就会造成效率下降、存储空间增大的问题，通常解决方法是增加高速缓存、更换高速数据库、采用分布式集群处理，这样虽然速度会提高，但是会大幅增加硬件成本。

因此，如何降低排序的数据量，提高排名统计的效率成为目前亟待解决的技术问题。

发明内容

考虑到相关技术中出现的技术问题，本发明提供了一种新的文字处理技术，能够在不增加硬件成本的前提下，以匹配值区间的排序及分布数得到匹配值排名，有效的降低排序所需的数据量，提高排名的统计效率。

根据本发明的一个方面，提供了一种文字处理方法，包括：将连续的多个匹配值分为多个匹配值区间；获取用户当前输入的文字，将所述文字与所述标准文字进行匹配，得到当前文字的匹配值；判断所述当前文字的匹配值所在的匹配值区间；增加对应于所述匹配值区间的分布数；根据所述分布数计算所述当前输入的文字在所有用户输入的文字中取得的排名。

在该技术方案中，通过将用户当前输入的文字与标准文字进行匹配，得到用户当前输入的文字的匹配值，并增加用户当前输入的文字的匹配值所在的匹配值区间的分布数，从而根据每个匹配值区间的分布数计算用户当前输入的文字的排名，与现有技术中数据得分排名方法相比，不需要进行所有匹配值之间的比较排序，仅需要对匹配值区间进行排序，降低排序所需的数据量，提高排名统计的效率。

其中，由于所有用户中每个用户输入的文字不可能全部相同，因此将所有用户输入的文字与标准文字进行匹配可以得到多个不同的匹配值，将所有匹配值中以最大的匹配值和最小的匹配值为区间端点，将该区间分为多个匹配值区间，匹配值区间按递增或递减顺序排列，在新接收到匹配值时可以快递查找出新匹配值所处的区间以及方便匹配值排名的计算。

具体来说，在得到每个匹配值区间的分布数之后，确定用户当前输入的文字的匹配值排名的具体计算公式为：所有小于当前匹配值区间的分布数之和/所有匹配值区间的分布数之和×100％＝XX％，即得到用户当前输入的文字的匹配值的排名，可以显示为“你击败了XX％的用户”。

在上述技术方案中，优选地，将所述文字与所述标准文字进行匹配，得到当前文字的匹配值，具体包括：接收用户输入的对文字的匹配指令；根据所述匹配指令读取所述用户当前输入的文字的图形信息；根据所述图形信息对所述文字进行字形分析，获取所述文字的书写字形信息；根据所述书写字形信息和所述标准文字的参考字形信息生成针对所述文字的匹配值。

在该技术方案中，由于用户当前输入的文字为用户手写的文字，因此在接收到用户输入的对文字的匹配指令时，获取用户当前输入的文字的图形信息，即将用户当前输入的文字制作成图片的形式，以图片的形式进行获取，然后从图片中提取用户当前输入的文字进行字形分析，以得到该文字的书写字形信息，并将改文字的书写字形信息与标准文字的参考字形信息进行匹配，得到用户当前输入的文字的匹配值。

在上述技术方案中，优选地，所述书写字形信息包括中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差。

在该技术方案中，书写字形信息包括：中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差，具体来说，在将用户当前输入的文字的书写字形信息与标准文字的参考字形信息进行匹配得到用户当前输入的文字的匹配值时，可以通过不同的书写字形信息分配不同权重的计算方式，例如：中心偏离度权重为30％，角度扭转度权重为10％，大小偏离度权重为10％，文字结构权重为30％，笔画偏差权重为20％，则用户当前输入的文字的匹配值为：中心偏离度×0.3+角度扭转度×0.1+大小偏离度×0.1+文字结构×0.3+笔画偏差×0.2。当然，本领域技术人员应当理解的是，此处书写字形信息中每个部分所占的权重并不用于具体限定。

在上述技术方案中，优选地，根据排名精度确定所述匹配值区间的区间间隔。

在该技术方案中，由于每个匹配值区间中用户当前输入的文字使用同一个排名，同一个匹配值区间中可能包含多个用户当前输入的文字，则同一匹配值区间中的多个用户当前输入的文字未进行排名，因此区间间隔越大，同一个区间中包含的用户当前输入的文字越多，也即用户当前输入的文字未进行排名的越多，排名的精度越低。根据排名精度确定匹配值区间的区间间隔，可以保证排名的精度，具体可以为：排名精度要求越高，则区间间隔设置越小，排名精度要求越低，则区间间隔设置越大。

在上述技术方案中，优选地，记录属于每一个匹配值区间的文字字形信息。

在该技术方案中，通过记录属于每一个匹配值区间的文字字形信息，可以方便的查找并显示每个匹配值区间的文字字形信息，作为一种较为具体的技术方案，还可以进一步的建立文字字形信息与对应用户的映射关系，则根据所有用户当前输入的文字的排名即可得到当前所有用户的排名。

根据本发明的第二方面，提出了一种文字处理装置，包括：存储单元，将连续的多个匹配值分为多个匹配值区间；获取单元，用于获取用户当前输入的文字，将所述文字与所述标准文字进行匹配，得到当前文字的匹配值；查找单元，用于判断所述当前文字的匹配值所在的匹配值区间；计数单元，用于增加对应于所述匹配值区间的分布数；处理单元，根据所述分布数计算所述当前输入的文字在所有用户输入的文字中取得的排名。

在上述技术方案中，优选地，所述获取单元包括：接收单元，用于接收用户输入的对文字的匹配指令；读取单元，用于根据所述匹配指令读取所述用户当前输入的文字的图形信息；字形分析单元，用于根据所述图形信息对所述文字进行字形分析，获取所述文字的书写字形信息；匹配单元，用于根据所述书写字形信息和所述标准文字的参考字形信息生成针对所述文字的匹配值。

在上述技术方案中，优选地，所述字形分析单元获取所述文字的书写字形信息，具体包括：中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差。

在上述技术方案中，优选地，还包括：间隔确定单元，用于根据排名精度确定所述匹配值区间的区间间隔。

在上述技术方案中，优选地，所述计数单元还用于，记录属于每一个匹配值区间的文字字形信息。

附图说明

图1示出了根据本发明的实施例的文字处理方法的示意流程图；

图2示出了根据本发明的实施例的匹配值分布数的示意图；

图3A示出了根据本发明的实施例的标准文字的参考字形信息的示意图；

图3B示出了根据本发明的一个实施例的文字字形信息的示意图；

图3C示出了根据本发明的另一实施例的文字字形信息的示意图；

图3D示出了根据本发明的又一实施例的文字字形信息的示意图；

图4示出了根据本发明的实施例的文字处理装置的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的文字处理方法的示意流程图。

如图1所示，根据本发明的实施例的文字处理方法，包括：步骤102，将连续的多个匹配值分为多个匹配值区间；步骤104，获取用户当前输入的文字，将所述文字与所述标准文字进行匹配，得到当前文字的匹配值；步骤106，判断所述当前文字的匹配值所在的匹配值区间；步骤108，增加对应于所述匹配值区间的分布数；步骤110，根据所述分布数计算所述当前输入的文字在所有用户输入的文字中取得的排名。

作为较为具体的实施例，图2示出了根据本发明的实施例的匹配值分布数的示意图。

如图2所示，“永”字字形匹配值为0的分布数为1000，“永”字字形匹配值为1的分布数为1000，“永”字字形匹配值为10的分布数为1000，“永”字字形匹配值为50的分布数为500000，“永”字字形匹配值为60的分布数为1000000，“永”字字形匹配值为62的分布数为1888000，“永”字字形匹配值为63的分布数为8888888，“永”字字形匹配值为90的分布数为1000，此时如果用户输入的“永”字的匹配值为60，则直接在匹配值为60的分布数中增加1(或其他固定值)，则当前用户“永”字的排名为：(1000+1000+1000+500000)/(1000+1000+1000+500000+1000000+1888000+8888888+1000)*100％＝4.27％，则显示“你击败了4.27％的用户”

在该技术方案中，书写字形信息包括：中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差，具体来说，在将用户当前输入的文字的书写字形信息与标准文字的参考字形信息进行匹配得到用户当前输入的文字的匹配值时，可以通过不同的书写字形信息分配不同权重的计算方式。例如：中心偏离度权重为30％，角度扭转度权重为10％，大小偏离度权重为10％，文字结构权重为30％，笔画偏差权重为20％，则用户当前输入的文字的匹配值为：中心偏离度×0.3+角度扭转度×0.1+大小偏离度×0.1+文字结构×0.3+笔画偏差×0.2。当然，本领域技术人员应当理解的是，此处书写字形信息中每个部分所占的权重并不用于具体限定。

作为较为具体的实施例，图3A至图3D示出了几种不同的文字的字形，其中，图3A示出了根据本发明的实施例的标准文字的参考字形信息的示意图。图3B示出了根据本发明的一个实施例的文字字形信息的示意图。图3C示出了根据本发明的另一实施例的文字字形信息的示意图。图3D示出了根据本发明的又一实施例的文字字形信息的示意图。

具体来说，字形信息可以从不同角度体现字形的标准程度，例如：本实施例中字形信息具体包括：中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差。在通过书写文字的图形信息对其进行字形分析时，分别从上述五个角度进行分析，获得针对不同字形信息类型的不同匹配值。

中心偏离度：是指文字的书写偏离重心的程度，根据图形信息获取文字的重心坐标为(x，y)，则书写文字的中心偏离度可以表示为：

X_{s 1} = \sqrt{x^{2} + y^{2}};

角度扭转度：是指文字的图形中对角线夹角的正切值，具体地，对图形信息进行二值化处理，将背景色，即非汉字笔画颜色或无色的点阵用0代替，将前景色，即汉字笔画颜色的点阵用1代替，文字的图形信息就可以以数据矩阵的形式表示，在数据矩阵中分别找出最左上非0点坐标，最右上非0点坐标，最左下非0点坐标和最右下非0点坐标，从而最左上点与最右下点所连直线与最右上与最左下点所连直线的夹角为A，则书写文字的角度扭转度可以表示为：X_s2＝tan∠A，值得注意的是，该夹角指两条直线构成的锐角或直角；

大小偏离度：获取图形信息中文字的高度h和宽度w，则书写文字的大小偏离度可以表示为：

文字结构：将上述文字的重心坐标(x，y)作为图形信息的中心，以平行于横坐标轴与纵坐标轴为分界线，将图像分成四个子图形，分别计算得出四个子图形中文字的重心到坐标原点，即(x，y)点的距离为d_m，则书写文字的文字结构可以表示为：

笔画偏差：图形的灰度表示其色彩的明暗程度，将其灰度值转换为数据矩阵的形式，每个数字代表当前位置的灰度值，即颜色深浅程度，该数字所在的行列代表图形中对应点的相对位置，在获得的数据矩阵中，有效数据可转换为一个二维矩阵，则书写文字的笔画偏差X_s5为该二维矩阵中所有数字之和。

参考字形信息的类型同样包括中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差中至少一个，并且是与待匹配的书写字形信息的类型相对应的；基于上述对书写字形信息的计算方式可知，标准文字的参考字形信息的中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差分别为：X_t1、X_t2、X_t3、X_t4和X_t5；进而根据已获取的书写字形信息的中心偏离度X_s1、角度扭转度X_s2、大小偏离度X_s3、文字结构X_s4和笔画偏差X_s5可以分别得出针对各字形信息的匹配值：

X_{j} = \{\begin{matrix} 1 - \frac{| X_{sj} - X_{tj} |}{X_{tj}} & , 1 - \frac{| X_{sj} - X_{tj} |}{X_{tj}} &GreaterEqual; 0 \\ 0 & , 1 - \frac{| X_{sj} - X_{tj} |}{X_{tj}} < 0 \end{matrix}, j \leq 5 - - (1)

上述式(1)的X_j的计算结果小于1或为0，表示作为参考字形信息的标准值为1，其匹配值小于1，并且X_j代表上述五种字形信息对应的匹配值，具体为：X₁、X₂、X₃、X₄和X₅。

采用与所述字形信息中各信息对应的权重系数，对所述各信息的匹配值进行加权求和，生成针对所述文字的评分值。当待匹配文字的书写字形信息包含上述五种类型时，计算得出五个字形信息的匹配值，可以根据字形信息在文字匹配中的重要程度，对各信息设置权重系数，权重系数可以表示为：W_j,j≤5，以字形信息包含上述五种类型为例进行说明，即j＝5；相应地，文字的评分值为：

采用上述实施例的方法，可分别计算图3B至图3D中文字与图3A中标准文字的匹配值，以进行相应的排名。

在该技术方案中，通过记录属于每一个匹配值区间的文字字形信息，可以方便的查找并显示每个匹配值区间的文字字形信息，作为一种较为具体的实施例，还可以进一步的建立文字字形信息与对应用户的映射关系，则根据所有用户当前输入的文字的排名即可得到当前所有用户的排名。

如图4所示，根据本发明的实施例的文字处理装置400，包括：存储单元402，将连续的多个匹配值分为多个匹配值区间；获取单元404，用于获取用户当前输入的文字，将所述文字与所述标准文字进行匹配，得到当前文字的匹配值；查找单元406，用于判断所述当前文字的匹配值所在的匹配值区间；计数单元408，用于增加对应于所述匹配值区间的分布数；处理单元410，根据所述分布数计算所述当前输入的文字在所有用户输入的文字中取得的排名。

在上述技术方案中，优选地，所述获取单元404包括：接收单元4042，用于接收用户输入的对文字的匹配指令；读取单元4044，用于根据所述匹配指令读取所述用户当前输入的文字的图形信息；字形分析单元4046，用于根据所述图形信息对所述文字进行字形分析，获取所述文字的书写字形信息；匹配单元4048，用于根据所述书写字形信息和所述标准文字的参考字形信息生成针对所述文字的匹配值。

在上述技术方案中，优选地，所述字形分析单元4046获取所述文字的书写字形信息，具体包括：中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差。

在上述技术方案中，优选地，还包括：间隔确定单元412，用于根据排名精度确定所述匹配值区间的区间间隔。

在上述技术方案中，优选地，所述计数单元408还用于，记录属于每一个匹配值区间的文字字形信息。

以上结合附图详细说明了本发明的技术方案，考虑到在现有技术中，在统计数据得分排名时，随着用户和数据得分的增加，数据量将会变得非常庞大，在统计整体排名的时候，就会造成效率下降、存储空间增大的问题，而且增加高速缓存、更换高速数据库、采用分布式集群处理会增加成本。因此，本发明提出了一种文字处理方法，能够在不增加硬件成本的前提下，以匹配值区间的排序及分布数得到匹配值排名，有效的降低排序所需的数据量，提高排名的统计效率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文字处理方法，其特征在于，包括：

将连续的多个匹配值分为多个匹配值区间；

获取用户当前输入的文字，将所述文字与所述标准文字进行匹配，得到当前文字的匹配值；

判断所述当前文字的匹配值所在的匹配值区间；

增加对应于所述匹配值区间的分布数；

根据所述分布数计算所述当前输入的文字在所有用户输入的文字中取得的排名。

2.根据权利要求1所述的文字处理方法，其特征在于，将所述文字与所述标准文字进行匹配，得到当前文字的匹配值，具体包括：

接收用户输入的对文字的匹配指令；

根据所述匹配指令读取所述用户当前输入的文字的图形信息；

根据所述图形信息对所述文字进行字形分析，获取所述文字的书写字形信息；

根据所述书写字形信息和所述标准文字的参考字形信息生成针对所述文字的匹配值。

3.根据权利要求2所述的文字处理方法，其特征在于，所述书写字形信息包括中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差。

4.根据权利要求1所述的文字处理方法，其特征在于，根据排名精度确定所述匹配值区间的区间间隔。

5.根据权利要求1至4中任一项所述的文字处理方法，其特征在于，记录属于每一个匹配值区间的文字字形信息。

6.一种文字处理装置，其特征在于，包括：

存储单元，将连续的多个匹配值分为多个匹配值区间；

获取单元，用于获取用户当前输入的文字，将所述文字与所述标准文字进行匹配，得到当前文字的匹配值；

查找单元，用于判断所述当前文字的匹配值所在的匹配值区间；

计数单元，用于增加对应于所述匹配值区间的分布数；

处理单元，根据所述分布数计算所述当前输入的文字在所有用户输入的文字中取得的排名。

7.根据权利要求6所述的文字处理装置，其特征在于，所述获取单元包括：

接收单元，用于接收用户输入的对文字的匹配指令；

读取单元，用于根据所述匹配指令读取所述用户当前输入的文字的图形信息；

字形分析单元，用于根据所述图形信息对所述文字进行字形分析，获取所述文字的书写字形信息；

匹配单元，用于根据所述书写字形信息和所述标准文字的参考字形信息生成针对所述文字的匹配值。

8.根据权利要求7所述的文字处理装置，其特征在于，所述字形分析单元获取所述文字的书写字形信息，具体包括：中心偏离度、角度扭转度、大小偏离度、文字结构、笔画偏差。

9.根据权利要求6所述的文字处理装置，其特征在于，还包括：间隔确定单元，用于根据排名精度确定所述匹配值区间的区间间隔。

10.根据权利要求6至9中任一项所述的文字处理装置，其特征在于，所述计数单元还用于，记录属于每一个匹配值区间的文字字形信息。