CN105005792A - 一种基于knn算法的稿件翻译优化方法 - Google Patents
一种基于knn算法的稿件翻译优化方法 Download PDFInfo
- Publication number
- CN105005792A CN105005792A CN201510406887.9A CN201510406887A CN105005792A CN 105005792 A CN105005792 A CN 105005792A CN 201510406887 A CN201510406887 A CN 201510406887A CN 105005792 A CN105005792 A CN 105005792A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- manuscript
- data
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 230000002068 genetic effect Effects 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 18
- 210000000349 chromosome Anatomy 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000007667 floating Methods 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2111—Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Physiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于KNN算法的稿件翻译优化方法,首先将比较大的稿件进行拆分,提取待译稿件中的关键词将其进行分类,通过算法匹配K值,得到最优分配结果。本发明主要在于对训练用稿件和待分类邮件数据进行预处理;将预处理后的训练用稿件和待分类邮件数据分别进行文本表示;对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取;对提取的训练用稿件特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;将文本分类器作用于特征提取后的待分类稿件,得到待分类稿件的分类结果。本发明能够更好的应用于稿件文本信息挖掘系统。
Description
技术领域
一种基于KNN算法的稿件翻译优化方法,采用裁剪优化训练集的K最近邻结点算法对稿件进行分类,属于文本挖掘,自然语言处理,计算机技术等领域。
背景技术
信息时代和网络化使翻译工作方式发生了很大的变化。利用翻译流程管理平台,根据不同对象储存人才资料。有翻译任务时,可以根据翻译项目的语种、文章类型、专业领域以及客户对翻译质量和时限的要求,调用最合适的翻译和审校人员,组成项目组进行翻译,从而提高翻译效率、节省翻译费用、确保译文质量、优化项目管理。
目前的辅助翻译及管理平台对译员和译稿的匹配,一般还是通过人工或半人工的方式完成,往往需通过更高级别的译员(比如审校)来判别译员的翻译能力和对译稿的合适度。这样不但主观性强,而且采用人工选择译员,效率低下。
发明内容
本发明针对现有技术的不足提供一种基于KNN算法的稿件翻译优化方法,解决传统人工分类方法的效率和准确率低的问题,并且在特征提取步骤将互信息值引入到遗传算法之中,能够结合两种提取方法的优点,使得特征提取结果更为可靠,使整个文本分类能够更好的应用于稿件文本信息挖掘系统。
为了解决上述技术问题,本发明采用如下技术方案:
一种基于KNN算法的稿件翻译优化方法,其特征在于,如下步骤:
对训练用稿件和待分类邮件数据进行文本预处理;
将预处理后的训练用稿件和待分类邮件数据分别进行文本表示;
对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取;
对提取的训练用稿件特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;
将文本分类器作用于特征提取后的待分类稿件,得到待分类稿件的分类结果。
作为优选,所述步骤(2)中,文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示,具体步骤如下:
使用TF_IDF法分别计算训练用稿件和待分类邮件数据中每个特征词的权重,计算公式为:
其中,表示的是第i个文本特征词在文本(训练用稿件或待分类邮件数据)中出现的频率数目,N是文档(训练用稿件或待分类邮件数据)的总数目,Ni是指文档(训练用稿件或待分类邮件数据)集合中出现第i个文本特征词的文本书目,n为文本特征抽取时所选用的文本特征词数目,k为求和公式起点到终点的取值,从1开始计算到n,表示的是第k个文本特征词在文本中出现的频率数目;
将计算出的训练用稿件和待分类邮件数据特征词权值分别表示为向量,具体表示为:
,
其中,n表示文本特征提取所用的文本特征词数目,表示第j个文本特征词在文档即训练用稿件或待分类邮件数据中的权值,j为1到n的任意值;
计算训练用稿件特征的平均互信息值,计算公式为:
,
其中,表示训练样本集中既属于特征词w又属于类别的概率,P(w)表示包含特征词w在训练用稿件中出现的概率,P()表示训练用稿件中属于类别的稿件的概率,MI(w,)表示单个类别下得互信息值,为平均互信息值;
将训练用稿件的特征平均互信息值加入步骤(22)训练用稿件向量表示的最后一维度,具体表示为,
,
其中,n表示文本特征提取所用的特征词数目,表示第j个文本特征词在稿件中的权值,表示特征的平均互信息,j为1到n的任意值。
作为优选,所述步骤(3)中,对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取,具体步骤如下:
(31)采用浮点数编码方式分别对文本表示的训练用稿件和待分类邮件数据进行染色体编码;
(32)将编码后的训练用稿件和待分类邮件数据的文本特征词进行初始化,包括设置迭代次数,随机生成部分个体作为初始种群;
(33)计算初始种群中的每一条染色体的适应度;
(34)判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数,如果是,则庶出最优解,否则,执行步骤(35);
(35)使用比例法进行选择,将选择算子作用于种群;
(36)使用单点交叉和多点交叉相结合的方式,将交叉算子作用于种群;
(37)随机从未选中过的特征词权值中选择一个特征词权值,替换每条染色体中特征词权值最小的值,并将变异算子作用于种群,生成新一代的种群,并转到步骤(33)。
作为优选,所述步骤(35)中,比例法的公式为:
,
其中,为每一条染色体的适应度,为最终被选择的概率,j为从j=1开始直到n,n为遗传算法染色体总数。
作为优选,所述步骤(4)中,使用经过优化样本集的KNN算法进行训练分类的步骤如下:
(41)对训练用稿件进行裁剪,得到裁剪样本文本数据训练集;
(42)采用余弦定理计算待分类稿件数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度;
(43)选取与待分类稿件数据之间相似度最高的K个已知类别样本文本数据;
(44)根据K个已知类别样本文本数据判断待分类稿件的类别。
作为优选,所述步骤(42)中,相似度计算公式为:
,
其中,表示文本和之间的相似程度,n为文本的特征词数目,和分别表示文本和的第k个特征词的权值,值越大表示两个稿件之间的相似度越高,反之,两个稿件之间的区别越大。
作为优选,所述步骤(41)中,得到裁剪样本文本数据训练集的步骤如下:
(411)将训练用稿件分为类内样本文本数据和边界样本文本数据;
(412)裁剪类内样本文本数据;
(413)裁剪边界样本文本数据。
作为优选,所述步骤(412)中,类内样本文本数据裁剪的步骤如下:
计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量、距离类中心向量最远的向量和训练用稿件的每一个已知类别样本文本数据的平均密度;
计算出每次的增量,n为初始设置同类别下文本数据分割量区间个数;
如果,计算类间增量小区域内的训练用稿件中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度和标准密度,,其中是代表一个初始设置裁剪样本空间比例值的参数,当离类中心越近时取值越大;
判断是否成立,成立则裁剪小区域邻域最多的样本,并转到步骤(4125),否则,计算下一个增量空间并转到步骤(4123);
依次遍历完所有增量空间。
作为优选,所述步骤(413)中,边界样本裁剪文本数据的步骤如下:
计算出所有边界样本文本数据邻域范围的平均样本个数AVG;
计算单个边界样本文本数据的邻域内样本个数,如果>AVG,则对边界样本文本数据进行裁剪并转到步骤(4133),否则转到(412);
依次遍历完所有边界样本文本数据。
与现有技术相比,本发明的优点在于:
一、利用遗传算法进行文本特征提取,展示了算法的全局优化能力,不容易陷入局部最优解,是传统的特征提取算法不易做到的。
二、在训练稿件进行向量空间模型表示的时候,在传统的特征向量的最后一维加入了特征的平均互信息值,能够为后续特征提取结果增强有效性。
三、针对处理对象是稿件,分析稿件的特点,对遗传算法的适应度函数以及遗传算子的工作都进行了细节优化,增强了特征选择的准确度。
四、对特征选择结果使用K最近邻结点算法进行稿件的分类,在过程中对样本训练集进行了优化,提高算法的效率;
五、在裁剪样本文本数据训练集的时候分为类内样本数据以及边界样本文本数据并行裁剪,节省算法的运行时间。
附图说明
图1为本发明的文本挖掘的整体流程图;
图2为本发明的稿件分类的整体流程图;
图3为本发明的稿件预处理流程图;
图4为本发明的遗传算法文本特征提取流程图;
图5为本发明的KNN算法流程图;
图6为本发明的类内样本文本数据裁剪流程图;
图7为本发明的边界样本文本数据裁剪流程图。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
参见图1和图2,一种基于KNN算法的稿件翻译优化方法,首先对训练稿件进行预处理,然后对预处理后的稿件进行向量空间模型表示,接着对表示结果进行特征提取,进而可以进行文本分类模型计算,将待分类邮件数据同样进行预处理、文本表示以及特征提取后,将模型运用到待分类稿件,最终得到结果。
一种基于KNN算法的稿件翻译优化方法,具体的步骤如下:
(1)预定义文本总类别数目为n,n代表已知类别样本的类别数,即训练用稿件的类别数,是类别集合,对训练用稿件和待分类的邮件数据进行文本预处理;训练用稿件和待分类的邮件数据可以为网络上采集或者自然语言处理相关语料库等非结构化数据。其中,如图3所示,首先除去文本数据(训练用稿件和待分类的邮件数据)中无用的低频词,如某一些词或短语在文本中出现的次数很少,对最后的结果影响不大,就可将其去除;通过去除掉无用的低频词后再去除文本数据中的标记,比如HTML的一些标记语言;然后去除文本数据中的停用词,停用词一般是指那些对于全文的意思内容没有任何起到表现作用的词语,比如“的”、“了”这些词;最后对文本数据进行中文分词得到特征词语,因为中文比较特殊,如果断句错误,经常会引起很大的歧义,原因就在于中文中的词语和词语之间不像英文那样有空格隔开,中文之间是没有隔离符号的,而中文博大精深,很多词语连在一起代表的意思是不同的,所以在中文分词时使用ICTCLAS分词系统。
(2)将预处理后的训练用稿件和待分类邮件数据分别进行文本表示,文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示,具体步骤如下:
(21)使用TF_IDF法分别计算训练用稿件和待分类邮件数据中每个特征词的权重,计算公式为:
其中,表示的是第i个文本特征词在文本(训练用稿件或待分类邮件数据)中出现的频率数目,N是文档(训练用稿件或待分类邮件数据)的总数目,Ni是指文档(训练用稿件或待分类邮件数据)集合中出现第i个文本特征词的文本书目,n为文本特征抽取时所选用的文本特征词数目,k为求和公式起点到终点的取值,从1开始计算到n,表示的是第k个文本特征词在文本中出现的频率数目;
(22)将计算出的训练用稿件和待分类邮件数据特征词权值分别表示为向量,具体表示为:
,
其中,n表示文本特征提取所用的文本特征词数目,表示第j个文本特征词在文档(训练用稿件或待分类邮件数据)中的权值,j为1到n的任意值;
(23)计算训练用稿件特征的平均互信息值,计算公式为:
,
其中,P(w∧)表示训练样本集中既属于特征词w又属于类别的概率,P(w)表示包含特征词w在训练用稿件中出现的概率,P()表示训练用稿件中属于类别的稿件的概率,MI(w,)表示单个类别下得互信息值,为平均互信息值;
(24)将训练用稿件的特征平均互信息值加入步骤(22)训练用稿件向量表示的最后一维度,具体表示为,
,
其中,n表示文本特征提取所用的特征词数目,表示第j个文本特征词在稿件中的权值,表示特征的平均互信息,j为1到n的。
(3)对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取,如图4所示遗传算法进行特征提取流程,具体步骤如下:
(31)采用浮点数编码方式分别对文本表示的训练用稿件和待分类邮件数据进行染色体编码;
(32)将编码后的训练用稿件和待分类邮件数据的文本特征词进行初始化,包括设置迭代次数,随机生成部分个体作为初始种群;
(33)计算初始种群中的每一条染色体的适应度;
(34)判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数,如果是,则庶出最优解,否则,执行步骤(35);
(35)使用比例法进行选择,将选择算子作用于种群,比例法的公式为:,其中,为每一条染色体的适应度,为最终被选择的概率,j为从j=1开始直到n,n为遗传算法染色体总数;
(36)使用单点交叉和多点交叉相结合的方式,将交叉算子作用于种群;
(37)随机从未选中过的特征词权值中选择一个特征词权值,替换每条染色体中特征词权值最小的值,并将变异算子作用于种群,生成新一代的种群,并转到步骤(33)。
(4)对提取的训练用稿件特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器,文本分类器的实质为一个代表分类过程的函数;如图5所示,使用经过优化样本集的KNN算法进行训练分类的步骤如下:
(41)对训练用稿件进行裁剪,得到裁剪样本文本数据训练集,得到裁剪样本文本数据训练集的步骤如下:
(411)将训练用稿件分为类内样本文本数据和边界样本文本数据;
(412)裁剪类内样本文本数据,类内样本文本数据裁剪的步骤如下:
(4121)计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量、距离类中心向量最远的向量和训练用稿件的每一个已知类别样本文本数据的平均密度;
(4122)计算出每次的增量,n为初始设置同类别下文本数据分割量区间个数;
(4123)如果,计算类间增量小区域内的训练用稿件中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度和标准密度,,其中是代表一个初始设置裁剪样本空间比例值的参数,当离类中心越近时取值越大;
(4124)判断是否成立,成立则裁剪小区域邻域最多的样本,并转到步骤(4125),否则,计算下一个增量空间并转到步骤(4123);
(4125)依次遍历完所有增量空间。
(413)裁剪边界样本文本数据,边界样本文本数据裁剪的步骤如下:
(4131)计算出所有边界样本文本数据邻域范围的平均样本个数AVG;
(4132)计算单个边界样本文本数据的邻域内样本个数,如果>AVG,则对边界样本文本数据进行裁剪并转到步骤(4133),否则转到(412);
(4133)依次遍历完所有边界样本文本数据。
(42)采用余弦定理计算待分类稿件数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度,相似度的计算公式为:
,
其中,表示文本和之间的相似程度,n为文本的特征词数目,和分别表示文本和的第k个特征词的权值,值越大表示两个稿件之间的相似度越高,反之,两个稿件之间的区别越大。
(43)选取与待分类稿件数据之间相似度最高的K个已知类别样本文本数据;
(44)根据K个已知类别样本文本数据判断待分类稿件的类别。
(5)将文本分类器作用于特征提取后的待分类稿件数据,得到待分类稿件的分类结果。
Claims (9)
1.一种基于KNN算法的稿件翻译优化方法,其特征在于,如下步骤:
对训练用稿件和待分类邮件数据进行文本预处理;
将预处理后的训练用稿件和待分类邮件数据分别进行文本表示;
对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取;
对提取的训练用稿件特征进行分类训练,使用经过优化样本集的KNN算法进行训练分类,构造文本分类器;
将文本分类器作用于特征提取后的待分类稿件,得到待分类稿件的分类结果。
2.根据权利要求1所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(2)中,文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示,具体步骤如下:
使用TF_IDF法分别计算训练用稿件和待分类邮件数据中每个特征词的权重,计算公式为:
其中,表示的是第i个文本特征词在文本中出现的频率数目,N是文档的总数目,Ni是指文档集合中出现第i个文本特征词的文本书目,n为文本特征抽取时所选用的文本特征词数目,k为求和公式起点到终点的取值,从1开始计算到n,表示的是第k个文本特征词在文本中出现的频率数目;
将计算出的训练用稿件和待分类邮件数据特征词权值分别表示为向量,具体表示为:
,
其中,n表示文本特征提取所用的文本特征词数目,表示第j个文本特征词在文档即训练用稿件或待分类邮件数据中的权值,j为1到n的任意值;
计算训练用稿件特征的平均互信息值,计算公式为:
,
其中,表示训练样本集中既属于特征词w又属于类别的概率,P(w)表示包含特征词w在训练用稿件中出现的概率,P()表示训练用稿件中属于类别的稿件的概率,MI(w,)表示单个类别下得互信息值,为平均互信息值;
将训练用稿件的特征平均互信息值加入步骤(22)训练用稿件向量表示的最后一维度,具体表示为,
,
其中,n表示文本特征提取所用的特征词数目,表示第j个文本特征词在稿件中的权值,表示特征的平均互信息,j为1到n的任意值。
3.根据权利要求1所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(3)中,对文本表示的训练用稿件和待分类邮件数据分别利用遗传算法进行特征提取,具体步骤如下:
(31)采用浮点数编码方式分别对文本表示的训练用稿件和待分类邮件数据进行染色体编码;
(32)将编码后的训练用稿件和待分类邮件数据的文本特征词进行初始化,包括设置迭代次数,随机生成部分个体作为初始种群;
(33)计算初始种群中的每一条染色体的适应度;
(34)判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数,如果是,则庶出最优解,否则,执行步骤(35);
(35)使用比例法进行选择,将选择算子作用于种群;
(36)使用单点交叉和多点交叉相结合的方式,将交叉算子作用于种群;
(37)随机从未选中过的特征词权值中选择一个特征词权值,替换每条染色体中特征词权值最小的值,并将变异算子作用于种群,生成新一代的种群,并转到步骤(33)。
4.根据权利要求3所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(35)中,比例法的公式为:
,
其中,为每一条染色体的适应度,为最终被选择的概率,j为从j=1开始直到n,n为遗传算法染色体总数。
5.根据权利要求1所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(4)中,使用经过优化样本集的KNN算法进行训练分类的步骤如下:
(41)对训练用稿件进行裁剪,得到裁剪样本文本数据训练集;
(42)采用余弦定理计算待分类稿件数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度;
(43)选取与待分类稿件数据之间相似度最高的K个已知类别样本文本数据;
(44)根据K个已知类别样本文本数据判断待分类稿件的类别。
6.根据权利要求5所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(42)中,相似度计算公式为:
,
其中,表示文本和之间的相似程度,n为文本的特征词数目,和分别表示文本和的第k个特征词的权值,值越大表示两个稿件之间的相似度越高,反之,两个稿件之间的区别越大。
7.根据权利要求5所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(41)中,得到裁剪样本文本数据训练集的步骤如下:
(411)将训练用稿件分为类内样本文本数据和边界样本文本数据;
(412)裁剪类内样本文本数据;
(413)裁剪边界样本文本数据。
8.根据权利要求7所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(412)中,类内样本文本数据裁剪的步骤如下:
计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量、距离类中心向量最远的向量和训练用稿件的每一个已知类别样本文本数据的平均密度;
计算出每次的增量,n为初始设置同类别下文本数据分割量区间个数;
如果,计算类间增量小区域内的训练用稿件中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度和标准密度,,其中是代表一个初始设置裁剪样本空间比例值的参数,当离类中心越近时取值越大;
判断是否成立,成立则裁剪小区域邻域最多的样本,并转到步骤(4125),否则,计算下一个增量空间并转到步骤(4123);
依次遍历完所有增量空间。
9.根据权利要求7所述的一种基于KNN算法的稿件翻译优化方法,其特征在于,所述步骤(413)中,边界样本裁剪文本数据的步骤如下:
计算出所有边界样本文本数据邻域范围的平均样本个数AVG;
计算单个边界样本文本数据的邻域内样本个数,如果>AVG,则对边界样本文本数据进行裁剪并转到步骤(4133),否则转到(412);
依次遍历完所有边界样本文本数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510406887.9A CN105005792A (zh) | 2015-07-13 | 2015-07-13 | 一种基于knn算法的稿件翻译优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510406887.9A CN105005792A (zh) | 2015-07-13 | 2015-07-13 | 一种基于knn算法的稿件翻译优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105005792A true CN105005792A (zh) | 2015-10-28 |
Family
ID=54378457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510406887.9A Pending CN105005792A (zh) | 2015-07-13 | 2015-07-13 | 一种基于knn算法的稿件翻译优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105005792A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977227A (zh) * | 2019-03-19 | 2019-07-05 | 中国科学院自动化研究所 | 基于特征编码的文本特征提取方法、系统、装置 |
CN110019797A (zh) * | 2017-11-15 | 2019-07-16 | 公安部户政管理研究中心 | 数据分类方法及装置 |
CN110597996A (zh) * | 2019-09-21 | 2019-12-20 | 陕西师范大学 | 一种基于头脑风暴优化算法的中文网页分类方法 |
CN111462915A (zh) * | 2020-03-20 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种医疗文本数据自动标注方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137898A1 (en) * | 2009-12-07 | 2011-06-09 | Xerox Corporation | Unstructured document classification |
CN104063472A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种优化训练样本集的knn文本分类方法 |
-
2015
- 2015-07-13 CN CN201510406887.9A patent/CN105005792A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137898A1 (en) * | 2009-12-07 | 2011-06-09 | Xerox Corporation | Unstructured document classification |
CN104063472A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种优化训练样本集的knn文本分类方法 |
Non-Patent Citations (1)
Title |
---|
魏建: "基于语义中心的KNN文本分类算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019797A (zh) * | 2017-11-15 | 2019-07-16 | 公安部户政管理研究中心 | 数据分类方法及装置 |
CN109977227A (zh) * | 2019-03-19 | 2019-07-05 | 中国科学院自动化研究所 | 基于特征编码的文本特征提取方法、系统、装置 |
CN110597996A (zh) * | 2019-09-21 | 2019-12-20 | 陕西师范大学 | 一种基于头脑风暴优化算法的中文网页分类方法 |
CN111462915A (zh) * | 2020-03-20 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种医疗文本数据自动标注方法 |
CN111462915B (zh) * | 2020-03-20 | 2023-08-18 | 云知声智能科技股份有限公司 | 一种医疗文本数据自动标注方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN110399606B (zh) | 一种无监督电力文档主题生成方法及系统 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN102799647A (zh) | 网页去重方法和设备 | |
Alotaibi et al. | Optical character recognition for quranic image similarity matching | |
CN110334209A (zh) | 文本分类方法、装置、介质及电子设备 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN113780007A (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN105005792A (zh) | 一种基于knn算法的稿件翻译优化方法 | |
CN105095196A (zh) | 文本中新词发现的方法和装置 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN111506726A (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN115952292A (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN110674243A (zh) | 一种基于动态k-均值算法的语料库索引构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151028 |