CN111859915A

CN111859915A - 一种基于词频显著度水平的英文文本类别识别方法及系统

Info

Publication number: CN111859915A
Application number: CN202010735101.9A
Authority: CN
Inventors: 蒋东辰; 李萍; 李群; 牛颖
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-30
Anticipated expiration: 2040-07-28
Also published as: CN111859915B

Abstract

本发明提出一种基于词频显著度水平的英文文本类别识别方法及系统，所述方法包括如下步骤:步骤1、示例文本词频统计：将各文本中的概念实词做标准化处理，统计各个类别中各概念实词的词频信息，为后续文本类别的特征提取提供数据支持；步骤2、文本类别特征提取：基于各类别示例文本的词频统计信息，根据给定的显著性水平α，采用假设检验的方法确定各个主题类别的特征词，得到特征词集合；步骤3、零出现特征词识别：在特征词集合中，找出在目标文本中没有出现，但却构成某些类别负特征的单词；步骤4、目标文本词频统计：统计目标文本中所有特征词的词频信息；步骤5、目标文本类别识别：根据目标文本和特征词集合中单词的词频信息、零出现特征词集合，以及给定的类别距离计算方法，确定目标文本的类别归属。

Description

一种基于词频显著度水平的英文文本类别识别方法及系统

技术领域

本发明属于英语文字信息处理领域，特别涉及一种基于词频显著性水平的英文文本类别识别系统及方法。

背景技术

互联网技术的发展对英语教学产生了重要的影响。一方面，随着互联网的普及，各种形式的英语资源在网络媒介上大量出现，这为英语学习、教学提供了丰富生动的语料；另一方面，网络技术的进步使得网络带宽不断提升、价格不断降低，这促使英语在线教学进入快速发展阶段，对语料的需求不断增加。

在英语教学过程中，学生需要对各种题材、主题的英文文本有一定量的学习积累，才能建立系统全面的英语认知体系。当代英语教学要求教学材料尽可能选择真实、地道的语言素材。面对互联网上的海量英语语料资源，传统上以人工筛选教学语料的方式已无法充分发挥互联网的资源优势。如何从丰富的网络语料中有效提取适合学生学习的英文文本，这已成为英语教学中一个亟待解决的问题。

面对互联网的海量语料资源和传统人工筛选方式的不足，需要一种有效的自动方法实现对海量英文文本的主题、题材的自动筛选和识别。一旦适合主题、题材的备选素材确定后，词汇、语法等超纲内容的修改就可以通过同义词替换、文本改写等方法实现。由于筛选后最终使用的文本数量规模有限，这之后的更改和调整工作就可以通过英语编辑或教师人工完成。因此，自动识别英文文本的主题是筛选适合学生学习英文文本的关键。

文档主题自动识别的核心是如何从示例文本中抽取出能够体现主题类别的特征。当前主要研究多以词频统计或机器学习等方法确定主题类别特征。这些方法有效，但也存在一些问题：基于词频统计的主题识别方法获得的特征规模通常较大，在目标文本类别判定过程中会产生多个特征之间的相互干扰。基于机器学习的方法往往对训练文本的规模有较高要求；此外，还需根据具体主题划分的类别对训练模型的参数进行针对性的调整。这对于缺乏计算机专业研究背景的英语工作人员来说是不现实的。

现有的英文文本主题类别识别方法大致可以分为三类：基于词频统计的文本分类、基于机器学习的文本分类、混合式的文本分类。

基于词频统计的文本分类方法先基于文本单词的频率、TF-IDF指标等统计量构建文本的类别特征，再通过分类算法实现对目标文本归属的判别。常用的统计量包括：单词在文本中出现的频率、单词是否出现(出现标为1，否则标为0)，以及刻画单词对文本重要程度的TF-IDF指标；以一种统计量为基础，研究者再采用最近距离法、贝叶斯分类法等具体分类方法实现对目标文本主题类别的判定。由于文本的单词数量众多，文本特征表示往往需要几万甚至是几十万维度。高维度特征在一定程度上增加了存储和计算的负担；同时，众多维度的特征有时会产生相互干扰，导致目标文本类别的误判。

基于机器学习的文本分类方法将训练文本以单词序列的形式输入机器学习模型，通过不断的反馈、调整，逐步确定模型参数，最终获得针对某一具体分类问题的识别模型。在该类方法中，常用的学习模型包括多种卷积神经网络(CNN)、循环神经网络(RNN)，也可将已有解决其他自然语言处理问题的神经网络作为前置或后置层构建神经网络模型。如果模型参数选择恰当，这类方法准确度高。但其存在的问题是：对训练集的数据量要求非常高，训练集标注成本高；同时，要使得机器学习模型训练获得良好的收敛效果，往往要求针对性的调整模型的参数，这对于不具备计算机相关专业研究背景的英语教育工作人员来说并不现实。

混合式的文本分类模型通常将多种统计特征与文本一起作为机器学习模型的输入，以获得更为高效、准确的训练模型。这类方法结合了前两类方法的优点，相对于单纯的CNN、RNN机器学习方法，该方法对训练集的数据量要求有所降低。但由于其仍然使用了神经网络的框架，对于训练模型参数的针对性调整不可避免，导致训练出来的模型针对性强，不具有良好的通用性。

发明内容

为了解决上述技术问题，本发明提出一种利用计算机自动完成的科学有效、通用性强的英文文本主题类别识别方法及系统，该系统基于给定主题类别划分(主题类别数量大于等于4个)及一定数量的示例文本，通过示例文本词频统计、文本类别特征提取、零出现特征词识别、目标文本词频统计、目标文本类别识别等几个步骤，快速实现未知类别目标文本的主题识别工作。该系统能够快速有效的自动识别未知类别英文文本的主题并归类，降低人工处理的劳动强度和时间开销。该发明在英语本主题分类、文本自动筛选等方面具有重要的应用价值。

本发明的技术方案为：一种基于词频显著度水平的英文文本类别识别方法，包括如下步骤：

步骤1、示例文本词频统计：将各示例文本中的概念实词做标准化处理，统计各个类别中各概念实词的词频信息，为后续文本类别的特征提取提供数据支持；

步骤2、文本类别特征提取：基于各类别示例文本的词频统计信息，根据给定的显著性水平α，采用假设检验的方法确定各个主题类别的特征词，得到特征词集合；

步骤3、零出现特征词识别：在特征词集合中，找出在目标文本中没有出现，但却构成部分类别负特征的单词；

步骤4、目标文本词频统计：统计目标文本中所有特征词的词频信息；

步骤5、目标文本类别识别：根据目标文本和特征词集合中单词的词频信息、零出现特征词集合，以及给定的类别距离计算方法，确定目标文本的类别归属。

进一步的，所述步骤1包括：

将句首单词的首字母大写转为小写，将名词复数转换为单数形式，将动词各种时态形式转换为原形，将形容词和副词的比较级和最高级转换为原形；之后，再针对各个类别，分别统计各类别中概念实词原形的词频信息。

进一步的，所述步骤1具体包括：

对每一具体的主题类别K_i，1<＝i<＝M，M为主题类别的数量，使用KC_i[W]存储概念实词W在K_i类别中所有示例文本中的出现次数，用KF_i[W]存储W在K_i类别中所有示例文本中的出现频率，用Count_i存储K_i类别中所有示例文本中所有单词的总出现次数；示例文本词频统计的具体步骤方法如下：

步骤1.1对每一个类别K_i,令Count_i＝0；对每一个概念实词W，令KC_i[W]＝0；对类别K_i中的每一篇示例文本T，从该文本第一个位置的单词w开始，执行如下操作：

步骤1.2如果w位于句首且仅有首字母大写，则将w的首字母由大写改为小写，转步骤1.3；否则，转步骤1.3；

步骤1.3在名词复数表Plural中查询：如果w是某个名词的复数形式，将w替换为该名词的单数原形，转步骤1.10；否则，转步骤1.4；

步骤1.4在动词单三表SingleThree中查询：如果w是某个动词的单三形式，将w替换为该动词的原形，转步骤1.10；否则，转步骤1.5；

步骤1.5在动词过去式表PastTense中查询：如果w是某个动词的过去式形式，将w替换为该动词的原形，转步骤1.10；否则，转步骤1.6；

步骤1.6在动词过去分词表PastParticiple中查询：如果w是某个动词的过去分词形式，将w替换为该动词的原形，转步骤1.10；否则，转步骤1.7；

步骤1.7在动词现在分词表PresentParticiple中查询：如果w是某个动词的现在分词形式，将w替换为该动词的原形，转步骤1.10；否则，转步骤1.8；

步骤1.8在形容词-副词比较级表Comparative中查询：如果w是某个形容词或副词的比较级形式，将w替换为该形容词或副词的原形，转步骤1.10；否则，转步骤1.9；

步骤1.9在形容词-副词最高级单表Superlative中查询：如果w是某个形容词或副词的最高级形式，将w替换为该形容词或副词的原形，转步骤1.10；否则，转步骤1.10；

步骤1.10将Count_i加1；在概念实词原形表NWord中查询：如果w是某个概念实词原形，则，将KC_i[w]加1，转步骤1.11；否则，转步骤1.11；

步骤1.11如果w当前所在位置不是文档的最后一个单词位置，用w记录其后面一个位置的单词，转步骤1.2；否则，转步骤1.12；

步骤1.12对每一个类别K_i及文档中的每一个概念实词W，计算KF_i[W]＝KC_i[W]/Count_i。

进一步的，所述步骤2包括：

考虑各概念实词在某一类别示例文本的出现频率是否与所有类别整体的出现频率存在显著性差异：如果存在显著性差异，则认为该单词就是这一类别的特征词；具体通过采用概念实词在各主题类别示例文本中的频率作为个体样本，通过t分布假设检验结果是否显著，逐词实现各类别的特征提取。

进一步的，所述步骤2具体包括：

对每一个类别K_i，1<＝i<＝M，使用KT_i[w]记录概念实词w是否是类别K_i的特征：如果KT_i[w]＝1，则表示w是K_i的正特征词；如果KT_i[w]＝-1，则表示w是K_i的负特征词；如果KT_i[w]＝0，则表示w不是K_i的特征词；使用FWord来存储所有类别特征词，使用FWord_n存储重点关注的n个特征词；FWord和FWord_n的作用在于简化后续目标文本类别识别的计算量；文本类别特征提取具体步骤如下：

步骤2.1对NWord每一个概念实词w，计算w在M个类别中的类平均词频F[w]及类样本标准差S[w]：

转步骤2.2；

步骤2.2对每一给定类别K_i：如果

则令KT_i[w]＝1；如果

则令KT_i[w]＝-1；其他情况，令KT_i[w]＝0；转步骤2.3；

在步骤2.2中，t(M-1)_α/2和t(M-1)_1-α/2分别表示自由度为M-1的t分布在累积概率为α/2和1-α/2时横坐标的取值，即显著度为α时左右拒绝域的边界；

步骤2.3构造特征概念实词集FWord：对NWord中每一个概念实词w，如果存在某个类别K_i的KT_i[w]不为0，则称w是类别K_i的特征词，将w加入FWord中；否则，w不是任何类别的特征词；转步骤2.4；

步骤2.4将FWord中单词按类平均频率F[w]由大到小排序，将频率位于前n的特征概念实体词加入集合FWord_n，n取大于M的任意自然数，当n等于所有特征词的数量时，FWord_n＝FWord；n常取1000到20000内整千的倍数；

在步骤2.4中，FWord_n是FWord中词频最高的前n个词。

进一步的，所述步骤3具体包括：

对FWord中的每一单词w：如果

则将w加入到零出现特征词集合ZeroFWord；进一步，如果w还在FWord_n中出现，则将w加入与FWord_n配套的重点关注零出现特征词集合ZeroFWord_n。

进一步的，所述步骤4包括：

统计目标文本中所有特征词的词频信息；使用Cnt存储目标文本中所有单词的总出现次数，用LFWord记录目标文本中出现的所有特征词，用LC[w]存储特征词w在目标文本中的出现次数。

进一步的，所述步骤4具体包括：

步骤4.1将目标文本特征实词集合LFWord设为空；令Cnt＝0，对每一个概念实词W，令LC[W]＝0；从目标文本的第一个位置的单词w开始，执行如下操作：

步骤4.2如果w位于句首且仅有首字母大写，则将w的首字母由大写改为小写，转步骤4.3；否则，转步骤4.3；

步骤4.3在名词复数表Plural中查询：如果w是某个名词的复数形式，将w替换为该名词的单数原形，转步骤4.10；否则，转步骤4.4；

步骤4.4在动词单三表SingleThree中查询：如果w是某个动词的单三形式，将w替换为该动词的原形，转步骤4.10；否则，转步骤4.5；

步骤4.5在动词过去式表PastTense中查询：如果w是某个动词的过去式形式，将w替换为该动词的原形，转步骤4.10；否则，转步骤4.6；

步骤4.6在动词过去分词表PastParticiple中查询：如果w是某个动词的过去分词形式，将w替换为该动词的原形，转步骤4.10；否则，转步骤4.7；

步骤4.7在动词现在分词表PresentParticiple中查询：如果w是某个动词的现在分词形式，将w替换为该动词的原形，转步骤4.10；否则，转步骤4.8；

步骤4.8在形容词-副词比较级表Comparative中查询：如果w是某个形容词或副词的比较级形式，将w替换为该形容词或副词的原形，转步骤4.10；否则，转步骤4.9；

步骤4.9在形容词-副词最高级单表Superlative中查询：如果w是某个形容词或副词的最高级形式，将w替换为该形容词或副词的原形，转步骤4.10；否则，转步骤4.10；

步骤4.10将Cnt加1；如果w在FWord_n中，将LC[w]加1，将w加入LFWord，转步骤4.11；否则，转步骤4.11；

步骤4.11如果w当前所在位置不是文档的最后一个单词位置，用w记录其后面一个位置的单词，转步骤4.2；否则，结束步骤4，转步骤5；

进一步的，所述步骤5包括：

根据目标文本和特征词集合FWord_n或FWord中单词的词频信息、零出现特征词集合ZeroFWord_n或ZeroFWord，以及给定的类别距离计算方法，确定目标文本的类别归属。使用LF[w]存储w在目标文本中的出现频率，用LT[w]记录w在目标文本中的出现频率是否构成显著性差异：如果LT[w]＝1，则表示w在目标文本中构成正向显著性差异；如果LT[w]＝-1，则表示w在目标文本中构成负向显著性差异；如果LT[w]＝0，则表示w在目标文本中的出现频率不构成显著性差异。

进一步的，所述步骤5具体包括：

步骤5.1令w为LFWord中的第一个概念实词，转步骤5.2；

步骤5.2计算LF[W]＝LC[W]/Cnt及目标文本显著性特征：如果

令LT[w]＝1；如果

令LT[w]＝-1；其他情况，令LT[w]＝0；转步骤5.3；

步骤5.3如果w是LFWord中的最后一个概念实词，转向步骤5.4；否则，令w是LFWord中的下一概念实词，转向步骤5.2；

步骤5.4根据下述公式(D)，计算目标文本与各类别K_i的距离，转步骤5.5；

在步骤5.4中，采用基于特征向量的特征投影P_i作为类别距离的度量；

步骤5.5如果目标文本与某个类别K_i的特征投影P_i大于等于阈值β且P_i在所有特征投影中最大，则将目标文本判别归属于类别K_i；如果所有特征投影的取值都小于阈值β，则将目标文本的类别标为“未知”；β取0到1之间的任意正数；结束步骤5。

根据本发明的另一方面，提出一种基于词频显著度水平的英文文本类别识别系统，包括：

示例文本词频统计模块：用于将各文本中的概念实词做标准化处理，统计各个类别中各概念实词的词频信息，为后续文本类别的特征提取提供数据支持；

文本类别特征提取模块：用于基于各类别示例文本的词频统计信息，根据给定的显著性水平α，采用假设检验的方法确定各个主题类别的特征词，得到特征词集合；

零出现特征词识别模块：用于在特征词集合中，找出在目标文本中没有出现，但却构成某些类别负特征的单词；

目标文本词频统计模块：用于统计目标文本中所有特征词的词频信息；

目标文本类别识别模块：根据目标文本和特征词集合中单词的词频信息、零出现特征词集合，以及给定的类别距离计算方法，确定目标文本的类别归属。

有益效果：

本发明的方法相对于现有技术的优势在于：

首先，示例文本的特征概念实词确定并非基于人的主观设定，而是基于统计假设和分析完成的，避免了由人工经验设定阈值带来的偏差；

第二，该方法简单有效，通过自动的特征概念实词筛选能够节省存储和计算资源；

第三，该方法无需像机器学习分类方法那样动辄需要上百万的示例文本，对每一主题类别而言，百篇左右的示例文本即能够提供特征提取；

第四，该方法的通用性强，无需针对每一具体主题分类问题设置模型参数，降低了使用的门槛。该方法具有良好的识别效果，与类似方法相比，本方法具有简单高效等特点，能够采用计算机系统自动完成，能够极大程度的降低人工筛选的劳力投入。

附图说明

图1为本发明的实现流程图；

图2为本发明的示例文本词频统计流程图；

图3为本发明的文本类别特征提取流程图；

图4为本发明的目标文本词频统计流程图；

图5为本发明的目标文本类别识别流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明技术解决方案：参见图1，一种基于词频显著度水平的英文文本类别识别系统，包括如下五个模块：示例文本词频统计模块、文本类别特征提取模块、零出现特征词识别模块、目标文本词频统计模块、目标文本类别识别模块。

其中，示例文本词频统计模块、文本类别特征提取模块用于处理语料库的所有示例文本，两个模块输出的结果是各个主题的特征概念实词集；零出现特征词识别模块用于确定并未在文本中出现，但却会构成负特征词的单词；目标文本类别识别模块完成具体目标文本的类别识别。此外，本系统还包括八套额外的单词查询装置NWord、Plural、SingleThree、PastTense、PastParticiple、PresentParticiple、Comparative、Superlative。其中，NWord用于记录和查询某一常用英语词典(如《牛津高阶英语词典》)中词性为名词、动词、形容词、副词的单词原形；在本发明中，NWord中的单词被称为概念实词，NWord被称为概念实词表；Plural是可数名词复数词表，用于记录和查询可数名词原形和其对应的复数形式；SingleThree是动词单三词表，用于记录和查询动词原形和其对应的单三形式；PastTense是动词过去式词表，用于记录和查询动词原形和其对应的过去式形式；PastParticiple是动词过去分词词表，用于记录和查询动词原形和其对应的过去分词形式；PresentParticiple是动词现在分词词表，用于记录和查询动词原形和其对应的现在分词形式；Comparative是形容词副词比较级词表，用于记录和查询形容词副词原形和其对应的比较级形式；Superlative是形容词副词最高级词表，用于记录和查询形容词副词原形和其对应的最高级形式。假设一共有M个主题类别(M>＝4)，本发明具体通过以下技术方案实现：

示例文本词频统计模块：示例文本词频统计模块的主要任务是：将各文本中的概念实词做标准化处理，统计各个类别中各概念实词的词频信息，为后续文本类别的特征提取提供数据支持。在具体处理过程中，该模块对各类别示例文本中的英文单词的先做标准化处理，具体包括：将句首单词的首字母大写转为小写，将名词复数转换为单数形式，将动词各种时态形式转换为原形，将形容词和副词的比较级和最高级转换为原形；之后，再针对各个类别，分别统计各类别中概念实词原形的词频信息。

本发明不去统计冠词、介词、代词、连词等与主题不直接相关的通用词语，而只关注与语义表达直接相关的名词、动词、形容词、副词等概念实词。这种针对性的统计既能够压缩类别特征的规模，也能提升特征提取和类别识别的效率。

对每一具体的主题类别K_i，1<＝i<＝M，M为主题类别的数量，本发明使用KC_i[W]存储概念实词W在K_i类别中所有示例文本中的出现次数，用KF_i[W]存储W在K_i类别中所有示例文本中的出现频率，用Count_i存储K_i类别中所有示例文本中所有单词的总出现次数。参见图2，示例文本词频统计模块的具体步骤方法如下：

步骤1.10将Count_i加1；在概念实词原形表NWord中查询：如果w是某个概念实词原形，则，将KC_i[w]加1，转步骤1.2；否则，转步骤1.11；

文本类别特征提取模块：文本类别特征提取模块的主要任务是：基于各类别示例文本的词频统计信息，根据给定的显著性水平α，采用假设检验的方法确定各个主题类别的特征词。本发明考虑各概念实词在某一类别示例文本的出现频率是否与所有类别整体的出现频率存在显著性差异：如果存在显著性差异，则认为该单词就是这一类别的特征词。在具体实施中，本发明采用概念实词在各主题类别示例文本中的频率作为个体样本，通过t分布假设检验结果是否显著，逐词实现各类别的特征提取。

对每一个类别K_i，1<＝i<＝M，本发明使用KT_i[w]记录概念实词w是否是类别K_i的特征：如果KT_i[w]＝1，则表示w是K_i的正特征词；如果KT_i[w]＝-1，则表示w是K_i的负特征词；如果KT_i[w]＝0，则表示w不是K_i的特征词。本发明使用FWord来存储所有类别特征词，使用FWord_n存储重点关注的n个特征词。FWord和FWord_n的作用在于简化后续目标文本类别识别的计算量。参见图3，文本类别特征提取的具体步骤方法如下：

转步骤2.2；

步骤2.2对每一给定类别K_i：如果

则令KT_i[w]＝1；如果

则令KT_i[w]＝-1；其他情况，令KT_i[w]＝0；转步骤2.3；

在步骤2.2中，t(M-1)_α/2和t(M-1)_1-α/2分别表示自由度为M-1的t分布在累积概率为α/2和1-α/2时横坐标的取值，即显著度为α时左右拒绝域的边界。

步骤2.3构造特征概念实词集FWord：对NWord中每一个概念实词w，如果存在某个类别K_i)的KT_i[w]不为0，则称w是类别K_i的特征词，将w加入FWord中；否则，w不是任何类别的特征词；转步骤2.4；

步骤2.4将FWord中单词按类平均频率F[w]由大到小排序，将频率位于前n的特征概念实体词加入集合FWord_n(n可取大于M的任意自然数，当n等于所有特征词的数量时，FWord_n＝FWord；n常取1000到20000内整千的倍数，如1000、2000、3000等)。

在步骤2.4中，FWord_n是FWord中词频最高的前n个词。在实际使用中，FWord_n也可根据实际需求，基于其他规则选定FWord中的n个特征词。

零出现特征词识别模块：在识别目标文本时，有一类特征词可能并未在目标文本中出现，但其却构成某些主题类别的排他特征，即负特征词。零出现特征词识别模块的任务是：在特征词集合FWord和FWord_n中，找出那些即便在目标文本中没有出现，但却构成某些类别负特征的单词。该模块的具体方法如下：

步骤3对FWord中的每一单词w：如果

目标文本词频统计模块：目标文本词频统计模块的主要任务是：统计目标文本中所有特征词的词频信息，并存储词频结果。本发明使用Cnt存储目标文本中所有单词的总出现次数，用LFWord记录目标文本中出现的所有特征词，用LC[w]存储特征词w在目标文本中的出现次数。目标文本词频统计的具体步骤方法如下：

步骤4统计目标文本中所有特征词的词频信息。参见图4，本步骤具体实施步骤方法如下：

目标文本类别识别模块：目标文本类别识别模块的主要任务是：根据目标文本和特征词集合FWord_n或FWord中单词的词频信息、零出现特征词集合ZeroFWord_n或ZeroFWord，以及给定的类别距离计算方法，确定目标文本的类别归属。

本发明使用LF[w]存储w在目标文本中的出现频率，用LT[w]记录w在目标文本中的出现频率是否构成显著性差异：如果LT[w]＝1，则表示w在目标文本中构成正向显著性差异；如果LT[w]＝-1，则表示w在目标文本中构成负向显著性差异；如果LT[w]＝0，则表示w在目标文本中的出现频率不构成显著性差异。目标文本类别识别的具体步骤方法如下：

步骤5根据目标文本和特征词集合FWord_n(或FWord)中单词的词频信息、零出现特征词集合ZeroFWord_n(或ZeroFWord)，以及给定的类别距离计算方法，确定目标文本的类别归属。参见图5,本步骤具体实施步骤方法如下：

步骤5.1令w为LFWord中的第一个概念实词，转步骤5.2；

步骤5.2计算LF[W]＝LC[W]/Cnt及目标文本显著性特征：如果

令LT[w]＝1；如果

令LT[w]＝-1；其他情况，令LT[w]＝0；转步骤5.3；

步骤5.4根据下述公式(D)，计算目标文本与各类别K_i，1<＝i<＝M，的距离，转步骤5.5；

在步骤5.4中，本发明采用基于特征向量的特征投影P_i作为类别距离的度量。在实际使用中，也可根据实际需求采用其他向量距离公式计算目标文本与各类别的距离。

步骤5.5如果目标文本与某个类别K_i的特征投影P_i大于等于阈值β(β取0到1之间的任意正数，常取0.1的整倍数)且P_i在所有特征投影中最大(可能有多个)，则将目标文本判别归属于类别K_i；如果所有特征投影的取值都小于阈值β，则将目标文本的类别标为“未知”；结束步骤5。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于词频显著度水平的英文文本类别识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法，其特征在于，所述步骤1具体包括：

4.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法，其特征在于，所述步骤2包括：

5.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法，其特征在于，所述步骤2具体包括：

转步骤2.2；

步骤2.2对每一给定类别K_i：如果

则令KT_i[w]＝1；如果

则令KT_i[w]＝-1；其他情况，令KT_i[w]＝0；转步骤2.3；

在步骤2.4中，FWord_n是FWord中词频最高的前n个词。

6.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法，其特征在于，所述步骤3具体包括：

对FWord中的每一单词w：如果

7.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法，其特征在于，所述步骤4包括：

统计目标文本中所有特征词的词频信息，并根据目标文本和特征词集合FWord_n或FWord中单词的词频信息、零出现特征词集合ZeroFWord_n或ZeroFWord，以及给定的类别距离计算方法，确定目标文本的类别归属；

使用Cnt存储目标文本中所有单词的总出现次数，用LFWord记录目标文本中出现的所有特征词，用LC[w]存储特征词w在目标文本中的出现次数，用LF[w]存储w在目标文本中的出现频率，用LT[w]记录w在目标文本中的出现频率是否构成显著性差异：如果LT[w]＝1，则表示w在目标文本中构成正向显著性差异；如果LT[w]＝-1，则表示w在目标文本中构成负向显著性差异；如果LT[w]＝0，则表示w在目标文本中的出现频率不构成显著性差异。

8.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法，其特征在于，所述步骤4具体包括：

步骤4.11如果w当前所在位置不是文档的最后一个单词位置，用w记录其后面一个位置的单词，转步骤4.2；否则，结束步骤4，转步骤5。

9.根据权利要求1所述的一种基于词频显著度水平的英文文本类别识别方法，其特征在于，所述步骤5具体包括：

根据目标文本和特征词集合FWord_n或FWord中单词的词频信息、零出现特征词集合ZeroFWord_n或ZeroFWord，以及给定的类别距离计算方法，确定目标文本的类别归属：

使用LF[w]存储w在目标文本中的出现频率，用LT[w]记录w在目标文本中的出现频率是否构成显著性差异：如果LT[w]＝1，则表示w在目标文本中构成正向显著性差异；如果LT[w]＝-1，则表示w在目标文本中构成负向显著性差异；如果LT[w]＝0，则表示w在目标文本中的出现频率不构成显著性差异；

步骤5.1令w为LFWord中的第一个概念实词，转步骤5.2；

步骤5.2计算LF[W]＝LC[W]/Cnt及目标文本显著性特征：如果

令LT[w]＝1；如果

令LT[w]＝-1；其他情况，令LT[w]＝0；转步骤5.3；

10.一种基于词频显著度水平的英文文本类别识别系统，其特征在于，包括: