CN113032562B

CN113032562B - 一种多次迭代对折词汇层级分类方法及系统

Info

Publication number: CN113032562B
Application number: CN202110289396.6A
Authority: CN
Inventors: 肖栩豪; 李晓军; 姚俊萍; 李少臣; 沈涛; 程开原
Original assignee: Rocket Force University of Engineering of PLA
Current assignee: Rocket Force University of Engineering of PLA
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2024-02-02
Anticipated expiration: 2041-03-18
Also published as: CN113032562A

Abstract

本发明涉及一种多次迭代对折词汇层级分类方法及系统，所述层级分类方法包括：计算各待分类词汇的使用频率；根据待分类词汇的使用频率对待分类词汇进行升序排列，并标注序号；根据待分类词汇的总数及待分类词汇的所属领域，确定层级级数及迭代阈值；初始化各层级的候选分界阈值；各层级的候选分界阈值为待分类词汇的总数量；根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值，对待分类词汇进行迭代查询，得到各层级的分界阈值；根据各层级的分界阈值，得到待分类词汇的层级分类。以词频为基准，利用大类词汇出现的频率高于小类词汇出现的频率，通过循环迭代对折的方式对词汇层级进行划分，提高了划分效率，且层级划分精准。

Description

一种多次迭代对折词汇层级分类方法及系统

技术领域

本发明涉及词汇分类领域，特别是涉及一种多次迭代对折词汇层级分类方法及系统。

背景技术

每个特定领域都存在海量的词汇，需要将这些词汇快速进行层级划分，以方便进行相关研究和分析。目前在词汇的研究以及词汇方法理论的探讨方面，均已做出较为丰硕的成果，取得了一定的成就，然而，对词汇的相关研究和分析还存在一些问题，如对于词汇研究的基本单位应该是什么、语言中词汇的成员是否处在同一个平面上、词汇是否应该分层次进行研究而非“一锅煮”、词汇分层研究的实践方法如何、词汇分层研究的必要性以及价值意义等。

现有的对词汇分层的方式均是利用人工基于已有经验进行逐一划分，首先找出海量词汇的一类词汇，然后再根据一类词汇找出相应的二类词汇，以此类推将所有词汇层级划分出来。(例如：药物属于一类词汇，神经药物属于二类词汇，抗精神病药物属于三类词汇以此类推)。

利用人工方式基于已有经验进行词汇层级划分，需要人在海量词汇中寻找相应层级词汇，划分效率低下。随着词汇数量的增大，人为对词汇层级划分影响会增大，存在一定误码率。

基于上述问题，亟需一种新的词汇分级方法以提高分级效率及准确度。

发明内容

本发明的目的是提供一种多次迭代对折词汇层级分类方法及系统，可自动划分词汇的层级，且提高了层级划分的效率。

为实现上述目的，本发明提供了如下方案：

一种多次迭代对折词汇层级分类方法，所述多次迭代对折词汇层级分类方法包括：

计算各待分类词汇的使用频率；各待分类词汇的领域相同；

根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列，并标注序号；

根据所述待分类词汇的总数及待分类词汇的所属领域，确定层级级数及迭代阈值；

初始化各层级的候选分界阈值；所述各层级的候选分界阈值为所述待分类词汇的总数量；

根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值，对所述待分类词汇进行迭代查询，得到各层级的分界阈值；

根据所述各层级的分界阈值，得到所述待分类词汇的层级分类。

可选地，采用词频-逆文本频率指数(TF-IDF，term frequency-inverse documentfrequency)算法计算所述各待分类词汇的使用频率。

可选地，所述根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值，对所述待分类词汇进行迭代查询，得到各层级的分界阈值，具体包括：

针对第j级词汇的分界阈值λ_j，初始化第j级词汇的中间阈值迭代次数n＝1、对折次数m＝1、标志值f＝0；其中λ_j-1为第j-1级词汇的的分界阈值，λ₀为待分类词汇的总数量；

针对第n次迭代，初始化对折次数m＝1，判断迭代次数是否大于迭代阈值，若所述迭代次数大于所述迭代阈值，将第j级词汇的候选分界阈值α_j作为第j级词汇的分界阈值λ_j，进行第j+1级词汇分界阈值的判断；

若所述迭代次数小于或等于所述迭代阈值，检验Δ是否是第j级词汇；

若Δ是第j级词汇，判断标志值是否为0，若标志值为0，将Δ作为第j级词汇的候选分界阈值α_j，进行第n+1次迭代；若标志值为1，将Δ作为第j级词汇的候选分界阈值α_j；判断是否为第一次对折，若是第一次对折，将α_j作为第j级词汇的分界阈值λ_j，进行第j+1级词汇分界阈值的判断；若不是第一次对折，/>进行第n+1次迭代；

若Δ不是第j级词汇，将标志值设置为1，针对第m次对折，计算第n次迭代第m次对折的阈值

返回“检验Δ是否是第j级词汇”处理。

可选地，所述各层级的分界阈值为待分类词汇对应的序号，所述各层级的分界阈值对应的词汇为各层级的词汇。

可选地，所述多次迭代对折词汇层级分类方法还包括：

获取文档分类训练集，所述文档分类训练集包括文档和所述文档所属的文档类别信息；所述文档是网页文档；

对所述文档进行分词，去除停用词，形成待分类词汇。

可选地，所述计算各待分类词汇的使用频率，具体包括：

获取每个待分类词汇在一个文档类别中的词汇频率值TF；

获取每个待分类词汇在一个文档类别中的逆文本频率指数IDF；

计算每个待分类词汇在其文档所属的文档类别中的TF-IDF之和；

每个待分类词汇在一个文档类别中的词汇频率-逆文本频率指数TF-IDF除以所述待分类词汇在其文档所属的文档类别中的TF-IDF之和，得到的商值作为所述待分类词汇的使用频率。

可选地，在获取每个待分类词汇在一个文档类别中的词汇频率值TF后，所述计算各待分类词汇的使用频率还包括：

对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化处理。

可选地，所述层级级数至少为两级。

可选地，所述多次迭代对折词汇层级分类方法还包括：

根据所述各层级的分界阈值，将各层级的词汇设置为不同颜色。

为了实现上述目的，本发明还提供如下技术方案：

一种多次迭代对折词汇层级分类系统，所述多次迭代对折词汇层级分类系统包括：

计算单元，用于计算各待分类词汇的使用频率；

排序单元，与所述计算单元连接，用于根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列，并标注序号；

初始化单元，用于根据所述待分类词汇的总数及待分类词汇的所属领域，确定层级级数及迭代阈值，以及初始化各层级的候选分界阈值；所述各层级的候选分界阈值为所述待分类词汇的总数量；

迭代单元，分别与所述排序单元及所述初始化单元连接，用于根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值，对所述待分类词汇进行迭代查询，得到各层级的分界阈值；

层级分类单元，与所述迭代单元连接，用于根据所述各层级的分界阈值，得到所述待分类词汇的层级分类。

根据本发明提供的具体实施例，本发明公开了以下技术效果：通过以词频为基准，利用大类词汇出现的频率高于小类词汇出现的频率，通过循环迭代对折的方式对词汇层级进行划分，相对于纯人工划分提高了划分效率，且不会随着词汇量的增大导致误码率随之增加。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多次迭代对折词汇层级分类方法的流程图；

图2为计算各待分类词汇的使用频率的流程图；

图3为本发明多次迭代对折词汇层级分类系统的模块结构示意图。

符号说明：

计算单元-1，排序单元-2，初始化单元-3，迭代单元-4，层级分类单元-5。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种多次迭代对折词汇层级分类方法及系统，通过以词频为基准，利用大类词汇出现的频率高于小类词汇出现的频率，对词汇层级进行划分，相对于纯人工划分提高了划分效率，且不会随着词汇量的增大导致误码率随之增加。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明多次迭代对折词汇层级分类方法包括：

S1：计算各待分类词汇的使用频率；各待分类词汇的领域相同。

S2：根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列，并标注序号。

S3：根据所述待分类词汇的总数及待分类词汇的所属领域，确定层级级数及迭代阈值。可选地，所述层级级数至少为两级。

S4：初始化各层级初始分界阈值；所述各层级初始分界阈值为所述待分类词汇的总数量。

S5：根据各层级初始分界阈值、待分类词汇的序号以及迭代阈值，对所述待分类词汇进行迭代查询，得到各层级的分界阈值。

S6：根据所述各层级的分界阈值，得到所述待分类词汇的层级分类。具体地，所述各层级的分界阈值为待分类词汇对应的序号，所述各层级的分界阈值对应的词汇为各层级的词汇。

本发明仅需对候选分界阈值附近的词汇进行从属判断，降低了人工校验时间，有效缩短层级划分的时间，提高了词汇层级划分的效率。

优选地，采用TF-IDF算法计算所述各待分类词汇的使用频率。

进一步地，如图2所示，S1：计算各待分类词汇的使用频率，具体包括：

S101：获取每个待分类词汇在一个文档类别中的词汇频率值(TF，TermFrequency)；

S102：获取每个待分类词汇在一个文档类别中的逆文本频率指数(IDF，InverseDocument Frequency)；

S103：计算每个待分类词汇在其文档所属的文档类别中的TF-IDF之和；

S104：每个待分类词汇在一个文档类别中的词汇频率-逆文本频率指数TF-IDF除以所述待分类词汇在其文档所属的文档类别中的TF-IDF之和，得到的商值作为所述待分类词汇的使用频率。

为了提高检测精度，在获取每个待分类词汇在一个文档类别中的词汇频率值TF后，所述计算各待分类词汇的使用频率还包括：

基于词频排序及大类词汇出现频率高于小类词汇出现频率客观经验，计算各个词汇层级的划分阈值，进一步提高层级划分的准确度。

更进一步地，S5：所述根据各层级初始分界阈值、待分类词汇的序号以及迭代阈值，对所述待分类词汇进行迭代查询，得到各层级的分界阈值，具体包括：

返回“检验Δ是否是第j级词汇”处理。

通过对待分类词汇进行迭代对折的方式，提高了词汇层级划分分界点处的准确率。

进一步地，本发明多次迭代对折词汇层级分类方法还包括：

对所述文档进行分词，去除停用词，形成待分类词汇。

可选地，本发明多次迭代对折词汇层级分类方法还包括：

以下具体以按使用频率排序并标注序号后的400个医药词汇为例，划分出一级词汇：

具体步骤为：

1、令α₀,α₁,α₂,α₃＝400，λ₀＝400(需求是分为三级，即j＝3)，迭代次数n＝10。

2、令

3、第一次迭代(n＝1)：

(1)检验Δ＝200对应词汇是“头孢拉定胶囊”，不属于一级词汇。

(2)第一次对折(m＝1)，

(3)令检验Δ＝300对应词汇“盐酸林可霉素胶囊”，不属于一级词汇。

(4)第二次对折(m＝2)，

(5)令检验Δ＝350对应词汇“盐酸克林霉素胶囊”，不属于一级词汇。

(6)第三次对折(m＝3)，

(7)令检验Δ＝375对应词汇“氨基环多醇类”，属于一级词汇。

(8)令α₁＝Δ＝375，更新n＝2。

4、第二次迭代(n＝2)：

(1)检验Δ＝363对应词汇是“大环内酯类”，不属于一级词汇。

(2)第一次对折(m＝1)，

(3)令检验Δ＝369对应词汇“抗生素”，属于一级词汇。

(4)令α₁＝Δ＝369，因为m-1＝0，λ₁＝α₁，跳出整个迭代循环。

5、判定λ₁～λ₀，即序号369～400对应的所有的词汇为一级词汇。

计算二级词汇(j＝2)以此类推。

此外，本发明多次迭代对折词汇层级分类方法中的S5：根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值，对所述待分类词汇进行迭代查询，得到各层级的分界阈值，还可以采用另一种迭代对折查询方式，不强制以第一次对折就找到j级词汇后，直接判定第一次对折后的待分类词汇的序号作为j级词汇的分界阈值。

针对第j级词汇的分界阈值，初始化第j级词汇的中间阈值迭代次数n＝1、对折次数m＝1、标志值f＝0；其中λ_j-1为第j-1级词汇的的分界阈值，λ₀为待分类词汇的总数量；

若Δ不是第j级词汇，检验α_j-Δ是否小于2，若α_j-Δ小于2，将Δ作为第j级词汇的候选分界阈值α_j，进行第n+1次迭代；若α_j-Δ大于等于2，将标志值设置为1，针对第m次对折，计算第n次迭代第m次对折的阈值/>

返回“检验Δ是否是第j级词汇”处理。

通过一直迭代对折检测Δ是否是第j级词汇，不以第一次对折就找到j级词汇后，直接判定第一次对折后的待分类词汇的序号作为j级词汇的分界阈值，能够使词汇的分层更加精准。

此外，如图3所示，本发明还提供一种多次迭代对折词汇层级分类系统，所述多次迭代对折词汇层级分类系统包括：计算单元1、排序单元2、初始化单元3、迭代单元4以及层级分类单元5。

具体地，所述计算单元1用于计算各待分类词汇的使用频率；

所述排序单元2与所述计算单元1连接，所述排序单元2用于根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列，并标注序号；

所述初始化单元3用于根据所述待分类词汇的总数及待分类词汇的所属领域，确定层级级数及迭代阈值，以及初始化各层级的候选分界阈值；所述各层级的候选分界阈值为所述待分类词汇的总数量；

所述迭代单元4分别与所述排序单元2及所述初始化单元3连接，所述迭代单元4用于根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值，对所述待分类词汇进行迭代查询，得到各层级的分界阈值；

所述层级分类单元5与所述迭代单元4连接，所述层级分类单元5用于根据所述各层级的分界阈值，得到所述待分类词汇的层级分类。

本发明依据频率排序计算出各个层级的划分阈值，迭代的方式提高了词汇层级划分分界点处的准确率。每次对折更新后词汇层级分类进行检验，仅需基于已有经验对Δ附近词汇进行从属判断即可，相较于人工基于已有经验的逐词扫描的“暴力”分类方法，有效的缩短层级划分的时间。

相对于现有技术，本发明多次迭代对折词汇层级分类系统与上述多次迭代对折词汇层级分类方法的有益效果相同，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多次迭代对折词汇层级分类方法，其特征在于，所述多次迭代对折词汇层级分类方法包括：

计算各待分类词汇的使用频率；各待分类词汇的领域相同；

根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值，对所述待分类词汇进行迭代查询，得到各层级的分界阈值，具体包括：

返回“检验Δ是否是第j级词汇”处理；

2.根据权利要求1所述的多次迭代对折词汇层级分类方法，其特征在于，采用词频-逆文本频率指数TF-IDF算法计算所述各待分类词汇的使用频率。

3.根据权利要求1所述的多次迭代对折词汇层级分类方法，其特征在于，所述各层级的分界阈值为待分类词汇对应的序号，所述各层级的分界阈值对应的词汇为各层级的词汇。

4.根据权利要求1所述的多次迭代对折词汇层级分类方法，其特征在于，所述多次迭代对折词汇层级分类方法还包括：

获取文档分类训练集，所述文档分类训练集包括文档和文档所属的文档类别信息；所述文档是网页文档；

对所述文档进行分词，去除停用词，形成待分类词汇。

5.根据权利要求4所述的多次迭代对折词汇层级分类方法，其特征在于，所述计算各待分类词汇的使用频率，具体包括：

获取每个待分类词汇在一个文档类别中的词汇频率值TF；

6.根据权利要求5所述的多次迭代对折词汇层级分类方法，其特征在于，在获取每个待分类词汇在一个文档类别中的词汇频率值TF后，所述计算各待分类词汇的使用频率还包括：

7.根据权利要求1所述的多次迭代对折词汇层级分类方法，其特征在于，所述层级级数至少为两级。

8.根据权利要求1所述的多次迭代对折词汇层级分类方法，其特征在于，所述多次迭代对折词汇层级分类方法还包括：

9.一种多次迭代对折词汇层级分类系统，应用于权利要求1至8任一项所述的多次迭代对折词汇层级分类方法，其特征在于，所述多次迭代对折词汇层级分类系统包括：

计算单元，用于计算各待分类词汇的使用频率；