CN103593062A

CN103593062A - 一种数据检测方法及装置

Info

Publication number: CN103593062A
Application number: CN201310552133.5A
Authority: CN
Inventors: 薛永刚; 项碧波
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2013-11-08
Filing date: 2013-11-08
Publication date: 2014-02-19
Anticipated expiration: 2033-11-08
Also published as: CN103593062B

Abstract

本发明提供一种数据检测方法及装置，该方法包括：输入多个训练数据；对训练数据进行音节切分，获取对应训练切分结果；将所述训练切分结果作为训练特征数据，生成预测模型；使用所述预测模型检测至少一个输入数据，识别所述输入数据中的字母串对应属性特征。采用本发明的技术方案可以对输入数据进行快速准确的识别。

Description

一种数据检测方法及装置

技术领域

本发明涉及数据处理领域，特别涉及一种数据检测方法及装置。

背景技术

目前，输入法包括基于笔画输入的输入法和基于字母输入的输入法，对于基于字母输入的输入法而言，对于用户输入的字母串，如何快速准确的识别出是英文还是拼音，同时还需要对字母串是否正确进行处理，是向用户更快更准地提供输入法的选择结果亟需解决的问题。

发明内容

为了解决现有技术中的问题，本发明提供一种数据检测方法及装置，可以对输入数据进行快速准确的识别。

本发明提供一种数据检测方法，该方法包括：

输入多个训练数据；

对训练数据进行音节切分，获取对应训练切分结果；

将所述训练切分结果作为训练特征数据，生成预测模型；

使用所述预测模型检测至少一个输入数据，识别所述输入数据中的字母串对应属性特征。

进一步的，所述对应训练切分结果数量最少且完整度最高。

进一步的，所述对训练数据进行音节切分，获取对应训练切分结果包括：

对所述训练数据进行音节切分，得到至少一种切分形式；

将所述切分形式对照拼音表，按照正确音节和不完整音节分数从高到低计算音节分数和，选择音节分数和最大的切分形式作为训练切分结果。

进一步的，所述按照正确音节和不完整音节分数从高到低计算音节分数和，选择音节分数和最大的切分形式作为训练切分结果包括：

采用动态规划法按照正确音节和不完整音节分数从高到低计算音节分数和，选择音节分数和最大的切分形式作为训练切分结果。

进一步的，所述生成预测模型为使用机器学习算法生成预测模型。

进一步的，所述机器学习算法包括支持向量机SVM算法或最大熵算法或最邻近结点算法KNN。

进一步的，所述输入数据中的字母串的对应属性特征为英文字符串或者拼音字符串。

进一步的，使用所述预测模型检测至少一个输入数据，识别所述输入数据中的字母串对应属性特征包括：

判断所述输入数据是否为字母串；

当所述输入数据为字母串，且所述输入数据不在英文词典中时，对所述输入数据进行音节切分，获取对应训练切分结果；

将所述切分结果作为特征数据；

使用所述预测模型对所述特征数据进行分类，从而识别所述输入数据中的字母串是英文串还是拼音串。

本发明还提供一种数据检测装置，该装置包括：

训练数据接收接口，适于接收多个训练数据；

训练模块，用于对训练数据进行音节切分，获取对应训练切分结果；

模型生成模块，用于将所述训练切分结果作为训练特征数据，生成预测模型；

模型数据库，适于存储所述生成的预测模型；

数据输入接口，适于输入至少一个待识别的输入数据

识别模块，用于调用所述模型数据库中的预测模型检测所述待识别的输入数据，识别所述待识别的输入数据中的字母串对应属性特征。

进一步的，所述训练模块包括：

切分子模块，用于对所述训练数据进行音节切分，得到至少一种切分形式；

计算子模块，用于将所述切分形式对照拼音表，按照正确音节和不完整音节分数从高到低计算音节分数和，选择音节分数和最大的切分形式作为训练切分结果。

进一步的，所述待识别的输入数据中的字母串的对应属性特征为英文字符串或者拼音字符串,所述识别模块包括：

判断子模块，用于判断所述待识别的输入数据是否为字母串；

切分子模块，当所述待识别的输入数据为字母串，且所述待识别的输入数据不在英文词典中时，对所述待识别的输入数据进行音节切分，获取对应训练切分结果；

特征子模块，用于将所述切分结果作为特征数据；

分类子模块，用于使用所述预测模型对所述特征数据进行分类，从而识别所述待识别的输入数据中的字母串对应属性特征。

本发明带来的有益效果如下：

通过训练预测模型，可以不受输入数据书写是否错误的影响，使用预测模型检测输入数据，快速准确地识别出输入数据中的字母串对应属性特征。

附图说明

图1为本发明实施例一中一种数据检测方法的流程示意图；

图2为本发明实施例二中一种数据检测方法的流程示意图；

图3为本发明实施例三中一种数据检测方法的流程示意图；

图4为本发明实施例四中一种一种数据检测装置的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

请参见图1，实施例一，一种数据检测方法，该方法包括：

S11输入多个训练数据。

S12对训练数据进行音节切分，获取对应训练切分结果。

最优的对应训练切分结果数量最少且完整度最高。

S13将所述训练切分结果作为训练特征数据，生成预测模型。

优选的，所述生成预测模型为使用机器学习算法生成预测模型。使用机器学习算法可以使得预测模型不受输入数据书写是否错误的影响。

其中，机器学习算法可以包括但不限于支持向量机SVM算法或最大熵算法或最邻近结点算法（k-Nearest Neighbor algorithm，KNN）。

其中，支持向量机SVM算法作为一种可训练的机器学习方法，针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。它基于结构风险最小化理论之上在特征空间中建构最优分割超平面，使得学习器得到全局最优化，并且在整个样本空间的期望风险以某个概率满足一定上界。

最大熵算法最大熵法是利用已知的自相关函数值来外推未知的自相关函数值，去除了对未知数据的人为假定，从而使谱估计的结果更为合理。熵在信息论中是信息的度量，事件越不确定，其信息量越大，熵也越大。对随机过程的未知的自相关函数值，除了从已知的自相关函数值得到有关它的信息以外，没有其他的先验知识。因而，在外推时，不希望加以其他任何新的限制，亦即使之“最不确定”。换言之，就是使随机过程的熵最大。

最邻近结点算法采用向量空间模型来分类，概念为相同类别的案例，彼此的相似度高，而可以借由计算与已知类别案例之相似度，来评估未知类别案例可能的分类。

S14使用所述预测模型检测至少一个输入数据，识别所述输入数据中的字母串对应属性特征。

其中，所述输入数据中的字母串的对应属性特征为英文字符串或者拼音字符串。

采用本实施例的技术方案，通过训练预测模型，可以不受输入数据书写是否错误的影响，使用预测模型检测输入数据，快速准确地识别出输入数据中的字母串对应属性特征。

请参见图2，实施例二，一种数据检测方法，该方法包括：

S21输入多个训练数据。

S221对所述训练数据进行音节切分，得到至少一种切分形式；

S222将所述切分形式对照拼音表，按照正确音节和不完整音节分数从高到低计算音节分数和，选择音节分数和最大的切分形式作为训练切分结果。

其中，拼音表包括正确音节表、声母表和韵母表。其中，正确音节表是正确音节的集合，正确音节是对应于汉语中每个汉字而言的，每个汉字一般一个音节，每个音节由声母+韵母两个部分组成，也有零声母（即仅有韵母）的音节。声母表是指仅有声母而不构成正确音节的音节集合，韵母表是指仅有韵母而不构成正确音节的音节集合。

在本实施例中设定正确音节的分数大于不完整音节的分数，其中，正确音节可以分为包括声母和韵母的音节以及零声母的音节，不完整音节可以分为仅韵母且不构成完整音节的音节以及仅声母且不构成完整音节的音节。优选地，正确音节中，包括了声母和韵母的音节的分数可以大于零声母的音节的分数。进一步优选的，不完整音节中仅韵母且不构成完整音节的音节的分数可以与仅声母且不构成完整音节的音节的分数相同。

例如，请参见表1，dajiahao可以切分成如下几种切分形式：

Da+jia+hao，分数和为-3；

Da+ji+a+hao，分数和为-5；

Da+ji+a+ha+o，分数和为-7；

D+a+ji+a+h+a+o，分数和为-15。

选择的是切分后音节的分数和最大的一种形式Da+jia+hao作为训练切分结果。

再例如，hello可以切分成如下几种切分形式：

he+l+lo，分数和为-5；

h+e+l+l+o，分数和为-15；

h+e+l+lo，分数和为-10。

选择的是切分后音节的分数和最大的一种形式he+l+lo作为训练切分结果。

音节形式	例子	分数
			声母+韵母（正确音节）	Da hao	-1
零声母的音节（正确音节）	A ou o	-2
			仅韵母（不构成完整音节）	Un in ing	-3
仅声母（不构成完整音节）	B p m	-3

表一部分拼音表

优选的，采用动态规划法按照正确音节和不完整音节分数从高到低计算音节分数和，选择音节分数和最大的切分形式作为训练切分结果。字母串可以切分成多种形式，选择最优的一条切分形式，在本实施例中，采用动态规划寻找最优路径，可以降低查找最好切分的复杂度，加快得到训练切分结果。

其中，动态规划法是运筹学的一个分支，是求解决策过程最优化的数学方法。简要的说，动态规划法通常用于求解具有某种最优性质的问题。在这类问题中，可能会有许多可行解，每一个解都对应于一个值，目的是找到具有最优值的解。动态规划法将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到原问题的解。由于经分解得到子问题往往不是互相独立的，保存已解决的子问题的答案，而在需要时再找出已求得的答案，这样就可以避免大量的重复计算，节省时间。

S23将所述训练切分结果作为训练特征数据，生成预测模型。

S24使用所述预测模型检测至少一个输入数据，识别所述输入数据中的字母串对应属性特征。

请参见图3，实施例三，一种数据检测方法，该方法包括：

S31输入多个训练数据。

S32对训练数据进行音节切分，获取对应训练切分结果。

最优的对应训练切分结果数量最少且完整度最高。

S33将所述训练切分结果作为训练特征数据，生成预测模型。

S341判断输入数据是否为字母串，如果是则转到步骤S342，如果否则输入数据不是英文也不是拼音。

S342判断所述输入数据是否在英文词典中，如果否则转到步骤S343，如果是则输入数据为英文。

S343对所述输入数据进行音节切分，获取对应训练切分结果。

S344将所述切分结果作为特征数据。

S345使用所述预测模型对所述特征数据进行分类，从而识别所述输入数据中的字母串是英文串还是拼音串。

请参见图4，实施例四，一种数据检测装置，该装置包括：

训练数据接收接口41，适于接收多个训练数据；

训练模块42，用于对训练数据进行音节切分，获取对应训练切分结果；

模型生成模块43，用于将所述训练切分结果作为训练特征数据，生成预测模型；

模型数据库44，适于存储所述生成的预测模型；

数据输入接口45，适于输入至少一个待识别的输入数据

识别模块46，用于调用所述模型数据库中的预测模型检测所述待识别的输入数据，识别所述待识别的输入数据中的字母串对应属性特征。

优选的，所述训练模块包括：

优选的，所述待识别的输入数据中的字母串的对应属性特征为英文字符串或者拼音字符串,所述识别模块包括：

特征子模块，用于将所述切分结果作为特征数据；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据检测方法，其特征在于，该方法包括：

输入多个训练数据；

对训练数据进行音节切分，获取对应训练切分结果；

将所述训练切分结果作为训练特征数据，生成预测模型；

2.权利要求1所述的方法，其特征在于，所述对应训练切分结果数量最少且完整度最高。

3.如权利要求1或2所述的方法，其特征在于，所述对训练数据进行音节切分，获取对应训练切分结果包括：

对所述训练数据进行音节切分，得到至少一种切分形式；

4.如权利要求1-3任一项所述的方法，其特征在于，所述按照正确音节和不完整音节分数从高到低计算音节分数和，选择音节分数和最大的切分形式作为训练切分结果包括：

5.如权利要求1至4任一项所述的方法，其特征在于，所述生成预测模型为使用机器学习算法生成预测模型。

6.如权利要求1-5任一项所述的方法，其特征在于，所述机器学习算法包括支持向量机SVM算法或最大熵算法或最邻近结点算法KNN。

7.如权利要求1-6任一项所述的方法，其特征在于，所述输入数据中的字母串的对应属性特征为英文字符串或者拼音字符串。

8.如权利要求1-7任一项所述的方法，其特征在于，使用所述预测模型检测至少一个输入数据，识别所述输入数据中的字母串对应属性特征包括：

判断所述输入数据是否为字母串；

将所述切分结果作为特征数据；

9.一种数据检测装置，其特征在于，该装置包括：

训练数据接收接口，适于接收多个训练数据；

模型数据库，适于存储所述生成的预测模型；

数据输入接口，适于输入至少一个待识别的输入数据

10.如权利要求9所述的装置，其特征在于，所述训练模块包括：