CN110659365A

CN110659365A - 一种基于多层次结构词典的畜产品安全事件文本分类方法

Info

Publication number: CN110659365A
Application number: CN201910898642.0A
Authority: CN
Inventors: 郑丽敏; 齐珊珊
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-07

Abstract

本发明涉及一种基于多层次结构词典的畜产品安全事件文本分类方法。方法为：对待处理文本进行分词、去停用词处理；为每个剩余词汇分配一个计数器；分别将每篇文本的剩余分词结果与已构建的畜产品安全事件的多层次结构词典中的词汇进行匹配，并将匹配成功的词汇的计数数值累计加1；最后按照各词汇的计数数值降序排序，将该文本分类到频次最高的词汇所在的词典的层次和类别中。本方法能够辅助分词工具对文本进行分词以提高实体识别的准确率，能够将中文文本按照畜产品安全事件词典的层次结构分类，也可以实现在不用需求下的层次分类，获得各文本之间的层次和类别关系。此外，节省了大量的人力、时间，而且准确率明显提高。

Description

一种基于多层次结构词典的畜产品安全事件文本分类方法

技术领域

本发明涉及人工智能，机器学习和计算机技术领域，具体涉及一种基于多层次结构词典的畜产品安全事件文本分类方法。

背景技术

目前网络上文本数量十分庞大，且类别十分丰富，涉及到各个领域、方面，人们可以从这些文本中挑选出自己感兴趣的文本了解更多的信息，方便自己的生活，学习更多的知识。但是也给人们查找目标文本带来了麻烦，面对杂乱分布的文本，从中找出自己感兴趣的类别文本费时费力，严重影响了人们的效率。同时，通过简单地类别关键词搜索得到的结果中往往包含大量的无意义文本，这些无意义的文本中只是因为包含了搜索关键字。而文本分类是信息组织、文本挖掘的重要基础，能够有效地解决信息紊乱的问题，帮助人们准确的定位所需要的信息，因为文本分类一般综合考虑整个文本的综合情况，大大降低文本内容中的个别词汇引起的类别判定错误。此外，还可以通过预先定义分类类别和体系，根据文本的内容和属性，将文本分类到相关的一个或多个类别中，达到准确的分类效果。

现有的中文文本分类过程，主要分为以下几步：文本预处理、分词、结构化表示、设计分类器。分类方法分为有监督的分类方法、半监督的分类方法、无监督的分类方法，其中，有监督的分类方法需要标记大量数据，数据量大且类别多时十分耗费人力、时间；半监督的分类方法需要标注部分数据，但是分类结果受标注数据的质量影响明显；无监督分类方法不需要标注任何数据，但是分类结果的准确率较低。从中可以看出，每种分类方法都有各自的优缺点，无法找到一种各方面都得到优化的方法。

分类效果还受到文本分词结果的影响，所以利用词典辅助分词工具更准确、更全面的识别各个领域内的自然语言处理工具无法识别的命名实体十分重要，只有正确识别出更多的词汇才能更准确的判定文本的层次和类别。故研究畜产品安全事件中包含的信息量巨大，涉及的范围也广，直接进行实体关系抽取后再分类到知识图谱中的确定位置中很难实现，所以在预处理阶段先进行分类，然后将分类好的各个文本进行实体关系抽取后就能够很好的将实体和关系对应到所构建的知识图谱中，为畜产品安全事件的分析研究提供基础保障，更好的梳理出事件的发生原因、发展脉络等，为民众和政府部门提供预警信息和决策措施，避免或减轻事件发生造成的恶劣后果，保障社会的稳定，人民生活的安定健康。此外，不同的人会对分类的层次和类别有不同的需求，只有架构好分类的层次和类别才能满足人们的各种需求，才能实现最终的分类目标，帮助人们更好的整理杂乱的信息，准确定位目标信息，使分类具有意义。

因此，目前针对中文文本分类的不同需求，缺乏能够应对不同需求且清晰方便的定义出分类的各层次和类别，不需要耗费任何人力、时间去标注任何数据就能达到高准确率的分类方法。

发明内容

为了解决目前针对畜产品安全事件文本分类提出的不同需求，缺乏能够应对不同需求且清晰方便的定义出分类的各层次和类别，不需要耗费任何人力、时间去标注任何数据就能达到高准确率的分类方法，本发明提供了一种基于多层次结构词典的畜产品安全事件文本分类方法，包括：

对待处理文本进行分词、去停用词处理，所述待处理文本是语料库中所需分类的畜产品安全事件文本；

为每个剩余词汇分配一个计数器，初始数值均设置为0，所述剩余词汇是所述每篇食品安全事件文本的所有分词结果去停用词后的词汇；

分别将所述每篇文本的剩余分词结果与已构建的畜产品安全事件的多层次结构词典中的词汇进行匹配，并将匹配成功的词汇的所述计数数值累计加1，其中词典中的同义词已被聚类到同一类别中，歧义词被分类到不同类别中，所述匹配成功的词汇是指文本中的某个词汇在多层次结构词典中能够找到，所述计数数值是为剩余分词结果分配的计数器的数值，所述歧义词是一个词有两种或两种以上的含义，在不同的情境中表示不同的意义，所述同义词是意义相同或相近的词；

最后按照所述各词汇的计数数值降序排序，将该文本分类到频次最高的词汇所在的所述词典的层次和类别中，其中若匹配词汇为所述歧义词，则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别，若匹配词汇为所述同义词，则根据同义词聚类的类别判断匹配词汇所属的类别，其他文本均按此方法完成分类，所述频次最高的词汇指排序在第一位置的词汇，所述此方法是上述步骤所完成分类的方法。

优选地，所述分词、去停用词处理包括：

所述分词是利用所述畜产品安全事件的多层次领域词典中的词汇辅助自然语言处理工具实现分词处理，将句子中的命名实体识别出来；

所述去停用词处理是利用停用词表，删除所述分词结果中的存在于停用词表中的字符，其中保留文本中的句号、感叹号、问号、省略号这四种句子分割符号，以及它们分别所在文本中的位置信息。

优选地，所述为每个剩余词汇分配一个计数器，初始数值均设置为0是为所述为每个剩余词汇分配一个计数器，初始数值均设置为0是为所述每个剩余词汇分配一个内存区域作为计数器，从0开始计数，记录并存储各个词汇出现在所述多层次结构词典中的次数，一篇文本分类完成后清空计数器，同时再初始化为0，作为下一个文本的计数器，所述计数器的个数根据所述剩余词汇个数的不同动态增加或删除。

优选地，所述已构建的畜产品安全事件的多层次结构词典是按照不同需求构建的存在不同层次和类别的，且包含大量畜产品食品安全事件领域专有名词的词典，用于畜产品食品安全事件文本的分类类别和层次结构标准。

优选地，所述词典中的同义词已被聚类到同一类别中，歧义词被分类到不同类别中包括：

歧义词被分类到相应的不同类别中，在歧义词包含的含义的类别中都添加此歧义词；

同义词被聚类到所述畜产品安全事件的多层次结构词典的同一个层次，同一个类别中的相邻位置。

优选地，所述按照所述各词汇的计数数值降序排序，将该文本分类到频次最高的词汇所在的所述词典的层次和类别中，其中若匹配词汇为歧义词，则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别，若匹配词汇为同义词，则根据同义词聚类的类别判断匹配词汇所属的类别，其他文本均按此方法完成分类包括：

统计所述一篇文本的所述剩余词汇的所述计数器的值，并将所述值降序排序，选出所述值最高的所述计数器及其对应的所述词汇；

文本中存在歧义词或同义词的情况时，分别在匹配时则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断所述匹配词汇所属的类别，根据同义词聚类的类别判断匹配词汇所属的类别，对这两种特殊词汇做特殊处理；

确定所述词汇在所述畜产品安全事件的多层次结构词典中的位置，将所述文本分类到所述位置的层次和类别中，完成一篇畜产品安全事件文本的分类；

其他所述畜产品安全事件文本同样按照所述步骤完成，最终实现所有所述文本基于所述畜产品安全事件的多层次结构词典的正确分类。

进一步地，所述则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别是指所述匹配词汇所在位置的上、下三个句子的距离内的词汇是所述匹配词汇所在的句子的前面三个句子和后面三个句子中的所述剩余词汇，且根据所述保留的句子分隔符所在的位置判断句子的位置和个数，统计分析该距离内的所述剩余词汇所属的层次和类别，将所述该匹配词汇分类到与匹配成功且频次最高的词汇所在的层次和类别中。

优选地，所述方法还包括：

可以根据不同需求动态改变所述畜产品安全事件的多层次结构词典的层次、结构和规模，以及动态增加或删除词汇；

统计分析所述需分类文本的词汇出现在所述变化后的词典中的频率，重新更正分类结果；

人工抽样检查所述分类后的各个类别中的文本的分类准确率，评估分类性能。

优选地，所述方法由不同模块构成，包括：

获取模块，获取用于分类的所述已构建的畜产品安全事件的多层次结构词典；

预处理模块，用于对所述需分类文本进行分词、去停用词处理，同时分配用于统计词汇出现在词典中的频率的计数器；

统计模块，用于将所述文本中的词汇与所述词典中的词汇进行匹配，统计匹配后的计数器的数值大小；

分类模块，根据所述计数器数值的大小决定文本被分类的层次和类别，所述整个过程也是其他文本的分类过程；

评估模块，验证分析分类结果，评估畜产品安全事件的多层次结构词典和分类的性能。

本发明提供了一种基于多层次结构词典的畜产品安全事件文本分类方法，首先待处理的分类文本进行分词、去停用词处理，为每个剩余词汇分配一个计数器，初始数值均设置为0。接着分别将每篇文本的剩余分词结果与已构建的畜产品安全事件的多层次结构词典中的词汇进行匹配，并将匹配成功的词汇的计数数值累计加1。最后按照各词汇的计数数值降序排序，将该文本分类到频次最高的词汇所在的词典的层次和类别中，其中若匹配词汇为歧义词，则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别，若匹配词汇为同义词，则根据同义词聚类的类别判断匹配词汇所属的类别，其他文本均按此方法完成分类。利用已构建畜产品安全事件的多层次结构词典，为中文文本分类的层次和类别构建了分类标准，清晰全面的展示出分类的整体效果，为后续实体关系抽取以及畜产品安全事件知识图谱的构建时的实体、关系的层次和类别的判定提供了基础。此外，还通过辅助自然语言处理工具提高分词准确率，进而提高分类精度，且不需要标注任何数据，大大节省了人力、时间等资源，为大规模下的中文文本的分类提供一种良好的方法。

附图说明

图1为根据本发明的一个优选实施例的一种基于多层次结构词典的畜产品安全事件文本分类方法的流程示意图；

图2为根据本发明的一个优选实施例的一种基于多层次结构词典的畜产品安全事件文本分类方法的畜产品安全事件的多层次结构词典的结构图；

图3为根据本发明的一个优选实施例的一种基于多层次结构词典的畜产品安全事件文本分类方法的歧义词、同义词处理示意图；

图4为根据本发明的一个优选实施例的一种基于多层次结构词典的畜产品安全事件文本分类方法的模块结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为根据本发明的一个优选实施例的一种基于多层次结构词典的畜产品安全事件文本分类方法的流程示意图，本发明提供了一种基于多层次结构词典的畜产品安全事件文本分类方法，包括：

S101、对待处理文本进行分词、去停用词处理。

本实施例中，所述分词、去停用词处理包括：所述分词是利用所述畜产品安全事件的多层次领域词典中的词汇辅助自然语言处理工具实现分词处理，将句子中的命名实体识别出来；所述去停用词处理是利用停用词表，删除所述分词结果中的存在于停用词表中的字符，其中保留文本中的句号、感叹号、问号、省略号这四种句子分割符号，以及它们分别所在文本中的位置信息。

S102、为每个剩余词汇分配一个计数器，计数器初始数值均设置为0。

本实施例中，所述为每个剩余词汇分配一个计数器，初始数值均设置为0是为所述每个剩余词汇分配一个内存区域作为计数器，从0开始计数，记录并存储各个词汇出现在所述多层次结构词典中的次数，一篇文本分类完成后清空计数器，同时初始化为0，作为下一个文本的计数器，所述计数器的个数根据所述剩余词汇个数的不同动态增加或删除。

S103、分别将每篇文本的剩余分词结果与已构建的多层次结构词典中的词汇进行匹配，并将匹配成功的词汇的计数数值累计加1，其中词典中的同义词已被聚类到同一类别中，歧义词被分类到不同类别中。

本实施例中，所述已构建的畜产品安全事件的多层次结构词典是按照不同需求构建的存在不同层次和类别的，且包含大量畜产品食品安全事件领域专有名词的词典，用于畜产品食品安全事件文本的分类类别和层次结构标准。所述词典中的同义词已被聚类到同一类别中，歧义词被分类到不同类别中包括：歧义词被分类到相应的不同类别中，在歧义词包含的含义的类别中都添加此歧义词；同义词被聚类到所述畜产品安全事件的多层次结构词典的同一个层次，同一个类别中的相邻位置。

以畜产品安全事件为例，继续划分第二级别的类有涉事原因、涉事企业、检测部门、通报时间、涉事时间、涉事食品、涉事人员等，涉事原因继续划分第三级别的类有涉事违禁项、卫生等；涉事违禁项继续划分第四级别的类有食品添加剂、农药等；食品添加剂继续划分第五级别的类有着色剂、乳化剂等；着色剂继续划分第六级别的类有番茄红、姜黄等，这样就逐步建立起了多个层次的食品安全事件领域词典，例如图2所示。词典的其他类别的构建也是如此，最终获得了畜产品安全事件的多层次结构的词典，覆盖多个层次和类别，需要说明的是，图2仅展示出了畜产品安全事件的多层次结构词典的部分层次和类别。

歧义词和同义词在实际生活中十分常见，例如：“乳”和“奶”表示的是同一种食品类别，它们就互为同义词；“蒙牛”既可以表示蒙古牛品种，也可以表示“蒙牛”品牌的牛奶，在不同类别的文本中表征不同的含义，该词就为歧义词。由于歧义词和同义词的特殊性，给中文文本分类增加了难度，它们的具体情况和处理如图3所示。需要说明的是，图3仅展示出了部分歧义词和同义词的情况。

S104、最后按照所述各词汇的计数数值降序排序，将该文本分类到频次最高的词汇所在的词典的层次和类别中，其中若匹配词汇为歧义词，则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别，若匹配词汇为同义词，则根据同义词聚类的类别判断匹配词汇所属的类别，其他文本均按此方法完成分类。

本实施例中，所述按照所述各词汇的计数数值降序排序，将该文本分类到频次最高的词汇所在的所述词典的层次和类别中，其中若匹配词汇为歧义词，则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别，若匹配词汇为同义词，则根据同义词聚类的类别判断匹配词汇所属的类别，其他文本均按此方法完成分类包括：统计所述一篇文本的所述剩余词汇的所述计数器的值，并将所述值降序排序，选出所述值最高的所述计数器及其对应的所述词汇；文本中存在歧义词或同义词的情况时，分别在匹配时根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别、根据同义词聚类的类别判断匹配词汇所属的类别，对这两种特殊词汇做特殊处理；确定所述词汇在所述畜产品安全事件的多层次结构词典中的位置，将所述文本分类到所述位置的层次和类别中，完成一篇畜产品安全事件文本的分类；其他所述畜产品安全事件文本同样按照所述步骤完成，最终实现所有所述文本基于所述畜产品安全事件的多层次结构词典的正确分类。

基于上述实施例，所述方法还包括：可以根据不同需求动态改变所述畜产品安全事件的多层次结构词典的层次、结构和规模，以及动态增加或删除词汇；统计分析所述需分类文本的词汇出现在所述变化后的词典中的频率，重新更正分类结果；人工抽样检查所述分类后的各个类别中的文本的分类准确率，评估分类性能。

如图4所示，本发明实施例还提供了一种基于多层次结构词典的畜产品安全事件文本分类方法的模块说明，该方法包括获取模块201、预处理模块202、统计模块203、分类模块204和评估模块205，其中：

获取模块201，获取模块，获取用于分类的所述已构建的畜产品安全事件的多层次结构词典；

预处理模块202，用于对所述需分类文本进行分词、去停用词处理，同时分配用于统计词汇出现在词典中的频率的计数器；

统计模块203，用于将所述文本中的词汇与所述词典中的词汇进行匹配，统计匹配后的计数器的数值大小；

分类模块204，根据所述计数器数值的大小决定文本被分类的层次和类别，所述整个过程也是其他文本的分类过程；

评估模块205，验证分析分类结果，评估畜产品安全事件的多层次结构词典和分类的性能。

同时，面对大规模语料库中的畜产品安全事件文本，在已构建的大范围畜产品安全事件的多层次结构词典的基础上进行增加或删除，就可以作为新的语料库的文本分类所需的多层次结构词典，方便快捷，而且能够保证分类的全面性与准确性，为畜产品安全事件文本分类提供了一种新颖、良好的方法。

最后，本发明的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层次结构词典的畜产品安全事件文本分类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多层次结构词典的畜产品安全事件文本分类方法，其特征在于，所述分词、去停用词处理包括：

3.根据权利要求1所述的一种基于多层次结构词典的畜产品安全事件文本分类方法，其特征在于，所述为每个剩余词汇分配一个计数器，初始数值均设置为0是为所述每个剩余词汇分配一个内存区域作为计数器，从0开始计数，记录并存储各个词汇出现在所述多层次结构词典中的次数，一篇文本分类完成后清空计数器，同时再初始化为0，作为下一个文本的计数器，所述计数器的个数根据所述剩余词汇个数的不同动态增加或删除。

4.根据权利要求1所述的一种基于多层次结构词典的畜产品安全事件文本分类方法，其特征在于，所述已构建的畜产品安全事件的多层次结构词典是按照不同需求构建的存在不同层次和类别的，且包含大量畜产品食品安全事件领域专有名词的词典，用于畜产品食品安全事件文本的分类类别和层次结构标准。

5.根据权利要求1所述的一种基于多层次结构词典的畜产品安全事件文本分类方法，其特征在于，所述词典中的同义词已被聚类到同一类别中，歧义词被分类到不同类别中包括：

6.根据权利要求1所述的一种基于多层次结构词典的畜产品安全事件文本分类方法，其特征在于，所述按照所述各词汇的计数数值降序排序，将该文本分类到频次最高的词汇所在的所述词典的层次和类别中，其中若匹配词汇为歧义词，则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别，若匹配词汇为同义词，则根据同义词聚类的类别判断匹配词汇所属的类别，其他文本均按此方法完成分类包括：

7.根据权利要求5所述的一种基于多层次结构词典的畜产品安全事件文本分类方法，其特征在于，所述则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别是指所述匹配词汇所在位置的上、下三个句子的距离内的词汇是所述匹配词汇所在的句子的前面三个句子和后面三个句子中的所述剩余词汇，且根据所述保留的句子分隔符所在的位置判断句子的位置和个数，统计分析该距离内的所述剩余词汇所属的层次和类别，将所述该匹配词汇分类到与匹配成功且频次最高的词汇所在的层次和类别中。

8.根据权利要求1所述的一种基于多层次结构词典的畜产品安全事件文本分类方法，其特征在于，所述方法还包括：

9.一种基于多层次结构词典的畜产品安全事件文本分类方法，其特征在于，所述方法由不同模块构成，包括：