CN114996446B

CN114996446B - 一种文本分类方法、装置及存储介质

Info

Publication number: CN114996446B
Application number: CN202210542220.1A
Authority: CN
Inventors: 张莉; 金玲彬; 苏畅之; 赵雷; 王邦军
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-08-25
Anticipated expiration: 2042-05-18
Also published as: CN114996446A

Abstract

本发明提供的文本分类方法，利用了归一化词频来规避文档长度本身对于词频的影响，从而提供一种归一化词频权重，并将其与现有的文档频次方法融合起来计算判别相关性得分并进行重要程度排序，从而提高了选择判别特征项的能力，选择重要程度高的特征项组成特征子集，在此基础上对文本表示权重矩阵进行分类得到最终的分类结果，提高了文本分类的性能，分类结果更加准确。

Description

一种文本分类方法、装置及存储介质

技术领域

本发明涉及文本分类技术领域，尤其是指一种文本分类方法、设备、装置及计算机存储介质。

背景技术

法律文本分类，作为文本分类的一种应用，旨在自动识别法律文本(案件)的类型。目前，基于机器学习的方法在法律领域的研究相对不足，其中每个法律文档通过词袋模型(Bag of Word)转化为具有高维度的向量。过高的维度会影响机器学习算法的分类效果。因此，需要采取特征选择方法对法律文档向量进行降维处理，以此来降低过拟合的风险和减少模型训练时间。然而，现行的大多数文本特征选择方法是基于文档频次(DocumentFrequency)设计的。其中，卡方检验(CHI)和信息增益(Information Gain,IG)，作为经典的特征选择方法，在文本挖掘领域得到了广泛的应用。近年来，基于类间文档频率差的方法得到了比较深入的研究，例如最大最小比方法(Max-Min Ratio,MMR)、归一化差异度量(Normalized Difference Measure， NDM)以及三角比较度量(Trigonometric ComparisonMeasure，TCM)。然而，文档频次(Document Frequency)只考虑了特征项的出现与否，它忽略了特征项对于一篇文档的贡献程度。词频(Term Frequency)则可以帮助区分特征项在文档频次分布一致时的相对重要性。现有利用词频的方法大多采用直接利用的方式，并且忽视了文档本身长度带来的影响，这会导致此类方法偏向长文本中的词。因此，在针对法律文本分类的特征选择方法中，有效地利用词频(Term Frequency)是值得研究的问题。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中不能有效利用词频的问题。

为解决上述技术问题，本发明提供了一种文本分类方法，包括：

从文本语料库中统计得到文档频次矩阵和词频矩阵；

利用词频-逆文档频率特征项加权方案，根据所述文档频次矩阵和所述词频矩阵计算特征项权重得到文本权重表示矩阵；

对所述词频矩阵进行归一化得到归一化词频矩阵；

基于所述归一化词频矩阵计算每个特征项关于每个文档类别的词频权重；

基于文档频次的过滤式特征选择方法计算每个特征项关于每个文档类别的评估值；

将所述词频权重与所述评估值结合，得到每个特征项关于每个文档类别的得分，并根据该得分计算每个特征项的判别相关性得分；

优选地，所述对所述词频矩阵进行归一化得到归一化词频矩阵：

其中，是所述文档频次矩阵中的元素，即第j个特征项在第i条文档中的文档频次，/>是所述词频矩阵中的元素，即第j个特征项在第i条文档中出现的次数，N为文档数量，M为特征项数量。

优选地，所述利用词频-逆文档频率特征项加权方案，根据所述文档频次矩阵和所述词频矩阵计算特征项权重得到文本权重表示矩阵：

其中，是所述文本权重表示矩阵中的元素，N_j是第j个特征项在文本语料库中出现过的文档数量。

优选地，所述基于所述归一化词频矩阵计算每个特征项关于每个文档类别的词频权重包括：

基于所述归一化词频矩阵分别计算第j(j＝1,...,M)个特征项在每个文档类别里的平均词频并取均值；

根据所述平均词频和所述均值计算第j个特征项关于每个文档类别的词频权重。

优选地，所述基于所述归一化词频矩阵分别计算第j(j＝1,...,M)个特征项在每个文档类别里的平均词频并取均值包括：

计算第j个特征项在每个类别里的平均词频：

其中，D_k表示属于类别c_k的文档集合，Num(D_k)表示类别c_k的文档数量， m为类别数量；

计算第j个特征项在所有类别的平均词频的均值：

优选地，所述根据所述平均词频和所述均值计算第j个特征项关于每个文档类别的词频权重：

优选地，所述计算每个特征项的判别相关性得分：

其中，TF-FS(t_j,c_k)＝TFC(t_j,c_k)×FS(t_j,c_k)为所述每个特征项关于每个文档类别的得分，FS(t_j,c_k)为所述评估值。

本发明还提供了一种文本分类方法的装置，包括：

文档频次矩阵和词频矩阵生成模块，用于从文本语料库中统计得到的文档频次矩阵和词频矩阵；

文本表示模块，用于利用词频-逆文档频率特征项加权方案，根据所述文档频次矩阵和所述词频矩阵计算特征项权重得到文本权重表示矩阵；

归一化模块，用于对所述词频矩阵进行归一化得到归一化词频矩阵；

权重计算模块，用于基于所述归一化词频矩阵计算每个特征项关于每个文档类别的词频权重；

评估值计算模块，用于基于文档频次的过滤式特征选择方法计算每个特征项关于每个文档类别的评估值；

得分计算模块，用于将所述词频权重与所述评估值结合，得到每个特征项关于每个文档类别的得分，并根据该得分计算每个特征项的判别相关性得分；

分类模块，用于根据所述判别相关性得分进行特征项排序，利用分类器根据排序结果对所述文本权重特征表示矩阵进行分类。

本发明还提供了一种文本分类方法的设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种文本分类方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种文本分类方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明提供的文本分类方法，利用了归一化词频来规避文档长度本身对于词频的影响，从而提供一种归一化词频权重，并将其与现有的文档频次方法融合起来计算判别相关性得分并进行重要程度排序，从而提高了选择判别特征项的能力，选择重要程度高的特征项组成特征子集，在此基础上对文本表示权重矩阵进行分类得到最终的分类结果，本发明提供的方法将归一化词频矩阵与现有的文档频次方法融合起来提高了文本分类的性能，分类结果更加准确。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中：

图1是本发明文本分类方法的实现流程图；

图2为本发明实施例提供的一种文本分类方法的装置的结构框图。

具体实施方式

本发明的核心是提供一种文本分类方法、装置、设备及计算机存储介质，有效地利用了词频，提高了文本分类性能。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的文本分类方法的实现流程图；具体操作步骤如下：

利用分词算法对原始文本数据进行分词得到文本语料库并对其进行清洗和标准化；

文本清洗：结合文本语料库的领域和任务，去除可能干扰法律文本分类的字符、数字和文本；并且利用标准停用词表，去除文本中的停用词。

文本标准化：词干提取只适用于部分语种文本，最常见的是Porters算法，对英语很有效。

本发明结合文本的向量空间表示，选择单词作为文本的特征项，该文本语料库包含N条文档和M个特征项，文本语料库表示为：

D＝{(x_i,y_i)|x_i∈R^M,y_i∈C,i＝1,…,N}，

其中C＝{c₁,...,c_m}是类别集合，共m个类别，R^M是M维实数域内向量，y_i是标签，属于什么类别，x_i是每个文档对应的经过词袋模型和文本向量空间模型转化成的N维向量。

X＝{x₁,x₂,…,x_N}和T＝{t₁,t₂,...,t_M}是分别是语料库D的法律文档和特征项集合。

S101：从文本语料库中统计得到文档频次矩阵和词频矩阵；

文档频次矩阵其中/>是第j个特征项在第i条文档中的文档频次，若特征项出现在该法律文档中则为1，否则为0；

词频矩阵其中是第j个特征项在第i条文档中出现的次数。

S102:利用词频-逆文档频率特征项加权方案，根据所述文档频次矩阵和所述词频矩阵计算特征项权重得到文本权重表示矩阵；

特征项权重采用TF-IDF计算方式，得到文本的权重表示矩阵：

S103:对所述词频矩阵进行归一化得到归一化词频矩阵；

S104:基于所述归一化词频矩阵计算每个特征项关于每个文档类别的词频权重；

S105:基于文档频次的过滤式特征选择方法计算每个特征项关于每个文档类别的评估值；

S106:将所述词频权重与所述评估值结合，得到每个特征项关于每个文档类别的得分，并根据该得分计算每个特征项的判别相关性得分；

S107:根据所述判别相关性得分进行特征项排序，利用分类器根据排序结果对所述文本权重特征表示矩阵进行分类。

分类过程主要由两个阶段构成，分别为学习阶段和分类阶段，其中学习阶段的主要任务是根据训练集文档构建一个分类模型，分类阶段是利用学习阶段构建好的分类模型对未知类别的文档进行分类。

基于以上实施例，本实施例对步骤S104-S107进行详细说明：

计算第j个特征项在每个类别里的平均词频：

计算第j个特征项在所有类别的平均词频的均值：

根据所述平均词频和所述均值计算第j个特征项关于每个类别的词频权重：

令FS(t_j,c_k)为已有基于文档频次的过滤式特征选择方法给第j个特征项关于类别c_k的评估值。本发明将之与TFC(t_j,c_k)结合，得到基于词频的特征选择方法。由此，本发明对第j个特征项关于类别c_k的得分计算如下：

TF-FS(t_j,c_k)＝TFC(t_j,c_k)×FS(t_j,c_k)

最后，计算出文本语料库中第j个特征项的判别相关性得分：：

对TF-FS(t_j)，j＝1,…,M按照降序排列，得到特征项重要程度的排序。

根据排序结果，选择重要程度高的前Q个特征来组成特征子集，利用分类器对在这个特征子集上的文本权重表示矩阵进行分类。

基于以上实施例，本实施例选取了从https://jessicaguo.me/bert.html 主页中获得的法律文本语料库Fixed_Judgements进行测试，该数据集被分为 41个类别，共包含899个法律文档。为了减少类过度不平衡的影响，本测试选取了该数据集中出现最频繁的前10类法律文本，共636个法律文档。具体实施步骤如下：

Fixed_Judgements数据集用英文表示，利用python第三方库nltk提供的word_tokenize工具对影评进行分词，结合文本语料库的领域和任务，去除可能干扰法律文本分类的字符、数字和文本，根据python第三方库nltk 提供的标准停用词表，去除Fixed_Judgements数据集中的停用词，利用 Porters算法对Fixed_Judgements数据集进行词干提取，获得共18970个特征项(词),最终得到的法律文本语料库包含N＝636条法律文档和M＝18970个特征项，表示为：

D＝{(x_i,y_i)|x_i∈R^M,y_i∈C,i＝1,…,N}，

其中C＝{c₁,...,c₁₀}是类别集合，共10个类别，X＝{x₁,x₂,....,x₆₃₆}和 T＝{t₁,t₂,...,t₁₈₉₇₀}是分别是语料库D的法律文档和特征项集合。

从法律文本语料库中统计得到文档频次矩阵和词频矩阵

利用词频-逆文档频率特征项加权方案，根据所述文档频次矩阵和所述词频矩阵计算特征项权重得到文本权重表示矩阵：

对所述词频矩阵进行归一化得到归一化词频矩阵；

基于所述归一化词频矩阵分别计算第j(j＝1,...,M)个特征项在每个文档类别里的平均词频并取均值：

根据所述平均词频和所述均值计算第j个特征项关于每个文档类别的词频权重：

本发明计算取平均词频的均值作为词频权重，计算效率快，且符合需求。

TF-FS(t_j,c_k)＝TFC(t_j,c_k)×FS(t_j,c_k)，j＝1,…,18970，k＝1,…,10

最后，计算出法律文本语料库中第j个特征项的判别相关性得分：

为了验证本发明的性能，采用十折交叉验证的方式，将 Fixed_Judgements法律文本数据集随机划分为十份，每次实验选择其中一份作为测试集，其余九份作为训练集进行特征项排序。选择特征项数量为集合 S＝{10,20,50,100,200,500,1000,1500},利用线性支持向量机(SVM)、逻辑回归(LR) 以及多项式分布朴素贝叶斯(MNB)三种分类器在选择不同数量特征项时对测试集进行分类，对最终结果取十次实验的均值。法律文本特征选择的对比方法包括CHI、IG、NDM、MMR和TCM。本专利在此基础上提出的利用词频的特征选择方法包括TF-CHI、TF-IG、TF-NDM、TF-MMR和TF-TCM。采用微平均F1值 (Micro-F1)和宏平均F1值(Macro-F1)两个指标衡量法律文本分类的效果，结果如表1和表2所示。在三个分类器上，可以看出本发明提出的基于词频的特征选择方法相较于原有方法，能够选择出更具有判别性的特征词，提高了法律文本分类的性能。

表1文本特征选择的Micro-F1结果对比

表2文本特征选择的Macro-F1结果对比

请参考图2，图2为本发明实施例提供的一种文本分类方法的装置的结构框图；具体装置可以包括：

文档频次矩阵和词频矩阵生成模块100，用于从文本语料库中统计得到的文档频次矩阵和词频矩阵；

文本表示模块200，用于利用词频-逆文档频率特征项加权方案，根据所述文档频次矩阵和所述词频矩阵计算特征项权重得到文本权重表示矩阵；

归一化模块300，用于对所述词频矩阵进行归一化得到归一化词频矩阵；

权重计算模块400，用于基于所述归一化词频矩阵计算每个特征项关于每个文档类别的词频权重；

评估值计算模块500，用于基于文档频次的过滤式特征选择方法计算每个特征项关于每个文档类别的评估值；

得分计算模块600，用于将所述词频权重与所述评估值结合，得到每个特征项关于每个文档类别的得分，并根据该得分计算每个特征项的判别相关性得分；

分类模块700，用于根据所述判别相关性得分进行特征项排序，利用分类器根据排序结果对所述文本权重特征表示矩阵进行分类。

本实施例的基于机器视觉的表面缺陷检测装置用于实现前述的文本分类方法，因此文本分类装置中的具体实施方式可见前文文本分类方法的实施例部分，例如，文档频次矩阵和词频矩阵生成模块100,文本表示模块200，归一化模块300，权重计算模块400，评估值计算模块500，得分计算模块600，分类模块700，分别用于实现上述文本分类方法中步骤S101，S102，S103， S104，S105，S106和S107，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种文本分类的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种文本分类的方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种文本分类的方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种文本分类方法，其特征在于，包括：

从文本语料库中统计得到文档频次矩阵和词频矩阵；

对所述词频矩阵进行归一化得到归一化词频矩阵；

基于所述归一化词频矩阵计算每个特征项关于每个文档类别的词频权重，包括：

基于所述归一化词频矩阵分别计算第j(j＝1,...,M)个特征项在每个文档类别里的平均词频并取均值，包括：

计算第j个特征项在每个文档类别里的平均词频的公式为：

其中，是归一化词频矩阵的元素，即第j个特征项在第i条文档中的词频，D_k表示属于类别c_k的文档集合，Num(D_k)表示类别c_k的文档数量，m为类别数量；

计算第j个特征项在所有文档类别的平均词频的均值的公式为：

根据所述平均词频和所述均值计算第j个特征项关于每个文档类别的词频权重的公式为：

将所述词频权重与所述评估值结合，得到每个特征项关于每个文档类别的得分，并根据该得分计算每个特征项的判别相关性得分，所述计算每个特征项的判别相关性得分的公式为：

其中，TF-FS(t_j,c_k)＝TFC(t_j,c_k)×FS(t_j,c_k)为所述每个特征项关于每个文档类别的得分，FS(t_j,c_k)为所述评估值；

根据所述判别相关性得分进行特征项排序，利用分类器根据排序结果对所述文本权重表示矩阵进行分类。

2.根据权利要求1所述的文本分类方法，其特征在于，所述对所述词频矩阵进行归一化得到归一化词频矩阵：

其中，是归一化词频矩阵的元素，即第j个特征项在第i条文档中的词频，/>是所述词频矩阵中的元素，即第j个特征项在第i条文档中出现的次数，N为文档数量，M为特征项数量。

3.根据权利要求2所述的文本分类方法，其特征在于，所述利用词频-逆文档频率特征项加权方案，根据所述文档频次矩阵和所述词频矩阵计算特征项权重得到文本权重表示矩阵：

其中，是所述文本权重表示矩阵中的元素，/>是所述文档频次矩阵中的元素，即第j个特征项在第i条文档中的文档频次，N_j是第j个特征项在文本语料库中出现过的文档数量。

4.一种文本分类的装置，其特征在于，包括：

文档频次矩阵和词频矩阵生成模块，用于从文本语料库中统计得到文档频次矩阵和词频矩阵；

权重计算模块，用于基于所述归一化词频矩阵计算每个特征项关于每个文档类别的词频权重，包括：

计算第j个特征项在每个文档类别里的平均词频的公式为：

得分计算模块，用于将所述词频权重与所述评估值结合，得到每个特征项关于每个文档类别的得分，并根据该得分计算每个特征项的判别相关性得分，所述计算每个特征项的判别相关性得分的公式为：

分类模块，用于根据所述判别相关性得分进行特征项排序，利用分类器根据排序结果对所述文本权重表示矩阵进行分类。

5.一种文本分类的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述一种文本分类的方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述一种文本分类的方法的步骤。