CN105005792A

CN105005792A - 一种基于knn算法的稿件翻译优化方法

Info

Publication number: CN105005792A
Application number: CN201510406887.9A
Authority: CN
Inventors: 郑林涛; 史恒亮; 俞卫华; 董永生; 范庆辉
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2015-10-28

Abstract

一种基于KNN算法的稿件翻译优化方法，首先将比较大的稿件进行拆分，提取待译稿件中的关键词将其进行分类，通过算法匹配K值，得到最优分配结果。本发明主要在于对训练用稿件和待分类邮件数据进行预处理；将预处理后的训练用稿件和待分类邮件数据分别进行文本表示；对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取；对提取的训练用稿件特征进行分类训练，使用经过优化样本集的KNN算法进行训练分类，构造文本分类器；将文本分类器作用于特征提取后的待分类稿件，得到待分类稿件的分类结果。本发明能够更好的应用于稿件文本信息挖掘系统。

Description

一种基于KNN算法的稿件翻译优化方法

技术领域

一种基于KNN算法的稿件翻译优化方法，采用裁剪优化训练集的K最近邻结点算法对稿件进行分类，属于文本挖掘，自然语言处理，计算机技术等领域。

背景技术

信息时代和网络化使翻译工作方式发生了很大的变化。利用翻译流程管理平台，根据不同对象储存人才资料。有翻译任务时，可以根据翻译项目的语种、文章类型、专业领域以及客户对翻译质量和时限的要求，调用最合适的翻译和审校人员，组成项目组进行翻译，从而提高翻译效率、节省翻译费用、确保译文质量、优化项目管理。

目前的辅助翻译及管理平台对译员和译稿的匹配，一般还是通过人工或半人工的方式完成，往往需通过更高级别的译员（比如审校）来判别译员的翻译能力和对译稿的合适度。这样不但主观性强，而且采用人工选择译员，效率低下。

发明内容

本发明针对现有技术的不足提供一种基于KNN算法的稿件翻译优化方法，解决传统人工分类方法的效率和准确率低的问题，并且在特征提取步骤将互信息值引入到遗传算法之中，能够结合两种提取方法的优点，使得特征提取结果更为可靠，使整个文本分类能够更好的应用于稿件文本信息挖掘系统。

为了解决上述技术问题，本发明采用如下技术方案：

一种基于KNN算法的稿件翻译优化方法，其特征在于，如下步骤：

对训练用稿件和待分类邮件数据进行文本预处理；

将预处理后的训练用稿件和待分类邮件数据分别进行文本表示；

对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取；

对提取的训练用稿件特征进行分类训练，使用经过优化样本集的KNN算法进行训练分类，构造文本分类器；

将文本分类器作用于特征提取后的待分类稿件，得到待分类稿件的分类结果。

作为优选，所述步骤(2)中，文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示，具体步骤如下：

使用TF_IDF法分别计算训练用稿件和待分类邮件数据中每个特征词的权重，计算公式为：

其中，表示的是第i个文本特征词在文本（训练用稿件或待分类邮件数据）中出现的频率数目，N是文档（训练用稿件或待分类邮件数据）的总数目，Ni是指文档（训练用稿件或待分类邮件数据）集合中出现第i个文本特征词的文本书目，n为文本特征抽取时所选用的文本特征词数目，k为求和公式起点到终点的取值，从1开始计算到n，表示的是第k个文本特征词在文本中出现的频率数目；

将计算出的训练用稿件和待分类邮件数据特征词权值分别表示为向量，具体表示为：

，

其中，n表示文本特征提取所用的文本特征词数目，表示第j个文本特征词在文档即训练用稿件或待分类邮件数据中的权值，j为1到n的任意值；

计算训练用稿件特征的平均互信息值，计算公式为：

，

其中，表示训练样本集中既属于特征词w又属于类别的概率，P(w)表示包含特征词w在训练用稿件中出现的概率，P()表示训练用稿件中属于类别的稿件的概率，MI(w，)表示单个类别下得互信息值，为平均互信息值；

将训练用稿件的特征平均互信息值加入步骤（22）训练用稿件向量表示的最后一维度，具体表示为，

，

其中，n表示文本特征提取所用的特征词数目，表示第j个文本特征词在稿件中的权值，表示特征的平均互信息，j为1到n的任意值。

作为优选，所述步骤（3）中，对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取，具体步骤如下：

（31）采用浮点数编码方式分别对文本表示的训练用稿件和待分类邮件数据进行染色体编码；

（32）将编码后的训练用稿件和待分类邮件数据的文本特征词进行初始化，包括设置迭代次数，随机生成部分个体作为初始种群；

（33）计算初始种群中的每一条染色体的适应度；

（34）判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数，如果是，则庶出最优解，否则，执行步骤（35）；

（35）使用比例法进行选择，将选择算子作用于种群；

（36）使用单点交叉和多点交叉相结合的方式，将交叉算子作用于种群；

（37）随机从未选中过的特征词权值中选择一个特征词权值，替换每条染色体中特征词权值最小的值，并将变异算子作用于种群，生成新一代的种群，并转到步骤（33）。

作为优选，所述步骤（35）中，比例法的公式为：

，

其中，为每一条染色体的适应度，为最终被选择的概率，j为从j=1开始直到n，n为遗传算法染色体总数。

作为优选，所述步骤（4）中，使用经过优化样本集的KNN算法进行训练分类的步骤如下：

（41）对训练用稿件进行裁剪，得到裁剪样本文本数据训练集；

（42）采用余弦定理计算待分类稿件数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度；

（43）选取与待分类稿件数据之间相似度最高的K个已知类别样本文本数据；

（44）根据K个已知类别样本文本数据判断待分类稿件的类别。

作为优选，所述步骤（42）中，相似度计算公式为：

，

其中，表示文本和之间的相似程度，n为文本的特征词数目，和分别表示文本和的第k个特征词的权值，值越大表示两个稿件之间的相似度越高，反之，两个稿件之间的区别越大。

作为优选，所述步骤（41）中，得到裁剪样本文本数据训练集的步骤如下：

（411）将训练用稿件分为类内样本文本数据和边界样本文本数据；

（412）裁剪类内样本文本数据；

（413）裁剪边界样本文本数据。

作为优选，所述步骤（412）中，类内样本文本数据裁剪的步骤如下：

计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量、距离类中心向量最远的向量和训练用稿件的每一个已知类别样本文本数据的平均密度；

计算出每次的增量，n为初始设置同类别下文本数据分割量区间个数；

如果，计算类间增量小区域内的训练用稿件中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度和标准密度，，其中是代表一个初始设置裁剪样本空间比例值的参数，当离类中心越近时取值越大；

判断是否成立，成立则裁剪小区域邻域最多的样本，并转到步骤（4125），否则，计算下一个增量空间并转到步骤（4123）；

依次遍历完所有增量空间。

作为优选，所述步骤（413）中，边界样本裁剪文本数据的步骤如下：

计算出所有边界样本文本数据邻域范围的平均样本个数AVG；

计算单个边界样本文本数据的邻域内样本个数,如果>AVG，则对边界样本文本数据进行裁剪并转到步骤（4133），否则转到（412）；

依次遍历完所有边界样本文本数据。

与现有技术相比，本发明的优点在于：

一、利用遗传算法进行文本特征提取，展示了算法的全局优化能力，不容易陷入局部最优解，是传统的特征提取算法不易做到的。

二、在训练稿件进行向量空间模型表示的时候，在传统的特征向量的最后一维加入了特征的平均互信息值，能够为后续特征提取结果增强有效性。

三、针对处理对象是稿件，分析稿件的特点，对遗传算法的适应度函数以及遗传算子的工作都进行了细节优化，增强了特征选择的准确度。

四、对特征选择结果使用K最近邻结点算法进行稿件的分类，在过程中对样本训练集进行了优化，提高算法的效率；

五、在裁剪样本文本数据训练集的时候分为类内样本数据以及边界样本文本数据并行裁剪，节省算法的运行时间。

附图说明

图1为本发明的文本挖掘的整体流程图；

图2为本发明的稿件分类的整体流程图；

图3为本发明的稿件预处理流程图；

图4为本发明的遗传算法文本特征提取流程图；

图5为本发明的KNN算法流程图；

图6为本发明的类内样本文本数据裁剪流程图；

图7为本发明的边界样本文本数据裁剪流程图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

参见图1和图2，一种基于KNN算法的稿件翻译优化方法，首先对训练稿件进行预处理，然后对预处理后的稿件进行向量空间模型表示，接着对表示结果进行特征提取，进而可以进行文本分类模型计算，将待分类邮件数据同样进行预处理、文本表示以及特征提取后，将模型运用到待分类稿件，最终得到结果。

一种基于KNN算法的稿件翻译优化方法，具体的步骤如下：

(1)预定义文本总类别数目为n，n代表已知类别样本的类别数，即训练用稿件的类别数，是类别集合，对训练用稿件和待分类的邮件数据进行文本预处理；训练用稿件和待分类的邮件数据可以为网络上采集或者自然语言处理相关语料库等非结构化数据。其中，如图3所示，首先除去文本数据（训练用稿件和待分类的邮件数据）中无用的低频词，如某一些词或短语在文本中出现的次数很少，对最后的结果影响不大，就可将其去除；通过去除掉无用的低频词后再去除文本数据中的标记，比如HTML的一些标记语言；然后去除文本数据中的停用词，停用词一般是指那些对于全文的意思内容没有任何起到表现作用的词语，比如“的”、“了”这些词；最后对文本数据进行中文分词得到特征词语，因为中文比较特殊，如果断句错误，经常会引起很大的歧义，原因就在于中文中的词语和词语之间不像英文那样有空格隔开，中文之间是没有隔离符号的，而中文博大精深，很多词语连在一起代表的意思是不同的，所以在中文分词时使用ICTCLAS分词系统。

(2)将预处理后的训练用稿件和待分类邮件数据分别进行文本表示，文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示，具体步骤如下：

(21)使用TF_IDF法分别计算训练用稿件和待分类邮件数据中每个特征词的权重，计算公式为：

(22)将计算出的训练用稿件和待分类邮件数据特征词权值分别表示为向量，具体表示为：

，

其中，n表示文本特征提取所用的文本特征词数目，表示第j个文本特征词在文档（训练用稿件或待分类邮件数据）中的权值，j为1到n的任意值；

(23)计算训练用稿件特征的平均互信息值，计算公式为：

，

其中，P(w∧)表示训练样本集中既属于特征词w又属于类别的概率，P(w)表示包含特征词w在训练用稿件中出现的概率，P()表示训练用稿件中属于类别的稿件的概率，MI(w，)表示单个类别下得互信息值，为平均互信息值；

(24)将训练用稿件的特征平均互信息值加入步骤（22）训练用稿件向量表示的最后一维度，具体表示为，

，

其中，n表示文本特征提取所用的特征词数目，表示第j个文本特征词在稿件中的权值，表示特征的平均互信息，j为1到n的。

(3)对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取，如图4所示遗传算法进行特征提取流程，具体步骤如下：

（33）计算初始种群中的每一条染色体的适应度；

（35）使用比例法进行选择，将选择算子作用于种群，比例法的公式为：，其中，为每一条染色体的适应度，为最终被选择的概率，j为从j=1开始直到n，n为遗传算法染色体总数；

(4)对提取的训练用稿件特征进行分类训练，使用经过优化样本集的KNN算法进行训练分类，构造文本分类器，文本分类器的实质为一个代表分类过程的函数；如图5所示，使用经过优化样本集的KNN算法进行训练分类的步骤如下：

（41）对训练用稿件进行裁剪，得到裁剪样本文本数据训练集，得到裁剪样本文本数据训练集的步骤如下：

（412）裁剪类内样本文本数据，类内样本文本数据裁剪的步骤如下：

（4121）计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量、距离类中心向量最远的向量和训练用稿件的每一个已知类别样本文本数据的平均密度；

（4122）计算出每次的增量，n为初始设置同类别下文本数据分割量区间个数；

（4123）如果，计算类间增量小区域内的训练用稿件中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度和标准密度，，其中是代表一个初始设置裁剪样本空间比例值的参数，当离类中心越近时取值越大；

（4124）判断是否成立，成立则裁剪小区域邻域最多的样本，并转到步骤（4125），否则，计算下一个增量空间并转到步骤（4123）；

（4125）依次遍历完所有增量空间。

（413）裁剪边界样本文本数据，边界样本文本数据裁剪的步骤如下：

（4131）计算出所有边界样本文本数据邻域范围的平均样本个数AVG；

（4132）计算单个边界样本文本数据的邻域内样本个数,如果>AVG，则对边界样本文本数据进行裁剪并转到步骤（4133），否则转到（412）；

（4133）依次遍历完所有边界样本文本数据。

（42）采用余弦定理计算待分类稿件数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度，相似度的计算公式为：

，

(5)将文本分类器作用于特征提取后的待分类稿件数据，得到待分类稿件的分类结果。

Claims

1.一种基于KNN算法的稿件翻译优化方法，其特征在于，如下步骤：

对训练用稿件和待分类邮件数据进行文本预处理；

2.根据权利要求1所述的一种基于KNN算法的稿件翻译优化方法，其特征在于，所述步骤(2)中，文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示，具体步骤如下：

其中，表示的是第i个文本特征词在文本中出现的频率数目，N是文档的总数目，Ni是指文档集合中出现第i个文本特征词的文本书目，n为文本特征抽取时所选用的文本特征词数目，k为求和公式起点到终点的取值，从1开始计算到n，表示的是第k个文本特征词在文本中出现的频率数目；

，

计算训练用稿件特征的平均互信息值，计算公式为：

，

3.根据权利要求1所述的一种基于KNN算法的稿件翻译优化方法，其特征在于，所述步骤（3）中，对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取，具体步骤如下：

（33）计算初始种群中的每一条染色体的适应度；

（35）使用比例法进行选择，将选择算子作用于种群；

4.根据权利要求3所述的一种基于KNN算法的稿件翻译优化方法，其特征在于，所述步骤（35）中，比例法的公式为：

，

5.根据权利要求1所述的一种基于KNN算法的稿件翻译优化方法，其特征在于，所述步骤（4）中，使用经过优化样本集的KNN算法进行训练分类的步骤如下：

6.根据权利要求5所述的一种基于KNN算法的稿件翻译优化方法，其特征在于，所述步骤（42）中，相似度计算公式为：

，

7.根据权利要求5所述的一种基于KNN算法的稿件翻译优化方法，其特征在于，所述步骤（41）中，得到裁剪样本文本数据训练集的步骤如下：

（412）裁剪类内样本文本数据；

（413）裁剪边界样本文本数据。

8.根据权利要求7所述的一种基于KNN算法的稿件翻译优化方法，其特征在于，所述步骤（412）中，类内样本文本数据裁剪的步骤如下：

依次遍历完所有增量空间。

9.根据权利要求7所述的一种基于KNN算法的稿件翻译优化方法，其特征在于，所述步骤（413）中，边界样本裁剪文本数据的步骤如下：

计算出所有边界样本文本数据邻域范围的平均样本个数AVG；

依次遍历完所有边界样本文本数据。