CN116483997A

CN116483997A - 一种基于规则和语义的多标签文本分类方法和系统

Info

Publication number: CN116483997A
Application number: CN202310272292.3A
Authority: CN
Inventors: 梁果敢; 宗云兵; 刘传彬; 李旭; 胡代国; 贺作华
Original assignee: Jinxiandai Information Industry Co ltd
Current assignee: Jinxiandai Information Industry Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-07-25

Abstract

本发明公开了一种基于规则和语义的多标签文本分类方法和系统，涉及自然语言处理技术领域。该方法步骤包括：获取文本数据，对文本数据进行标签标注，根据标签语义构建分类规则；根据标签语义寻找相同的词、短语或词语组合构建分类规则；根据标点符号位置将文本数据进行拆分；通过词性分析去除拆分后文本中的干扰信息，对去除干扰信息后的文本进行分词；根据分类规则对分词后的文本进行词语匹配，得到匹配到的带有分类标签的词语记录；对词语记录中的标签进行评分，根据分数阈值得到文本分类结果。本发明利用语句中词语的词性，分析句子结构，综合词性和句子成分制定规则，使规则清晰、简洁、覆盖面广，提高了文本分类的速度和精度。

Description

一种基于规则和语义的多标签文本分类方法和系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于规则和语义的多标签文本分类方法和系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

文本分类是自然语言处理中的一个基本任务。文本分类可以基于文本内容或语法，也可以基于文本的其他特征。对于文本材料风格类似、规律明显的小样本，最简单的方法是基于规则的多标签文本分类，即对每个标签总结常见短句，利用全文匹配方法与之对应。

但发明人发现，完全匹配的方法覆盖面有限，容易漏掉许多样例，而且完全没有考虑语义，容易对有否定修饰的例子错分。一些其他现有的文本分类方法为了保证分类的正确率，过分依赖于数据集的训练结果，如果将分类标签全面覆盖则计算量巨大，不容易实现。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于规则和语义的多标签文本分类方法和系统，考虑到了转折、否定等情况对标签分类的影响，规则中使用了屏蔽词，同时规则制定采用关联词加倾向词组合的方式确定标签，对于有强关联的词汇可以直接采用白名单全文匹配的方式。提高了多标签文本分类的准确程度和匹配速度。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明第一方面提供了一种基于规则和语义的多标签文本分类方法，包括以下步骤：

获取文本数据，对文本数据进行标签标注，根据标签语义构建分类规则；其中，根据标签语义构建分类规则的具体步骤为：对已标注的文本数据进行分析确定标签语义，将相同标签的文本数据进行汇总；从相同标签的文本数据中提取特征词；

根据标签语义寻找相同的词、短语或词语组合构建分类规则；

根据标点符号位置将文本数据进行拆分；

通过词性分析去除拆分后文本中的干扰信息，对去除干扰信息后的文本进行分词；

根据分类规则对分词后的文本进行词语匹配，得到匹配到的带有分类标签的词语记录；对词语记录中的标签进行评分，根据分数阈值得到文本分类结果。

进一步的，对已标注的文本数据进行分析确定标签语义包括对每个标签中的文本进行句法结构和词性分析，确定每个词语的词性和所扮演的句子成分。

进一步的，从相同标签的文本数据中提取特征词的具体步骤为：

对文本数据进行分词，每个标签按词频从高到底排序，找到频次靠前的若干词作为候选特征词；不同标签的候选特征词进行比较，排除掉同时在多个标签候选的特征词，记录只在对应标签文本中出现频次高、其它标签中出现频次低的词作为特征词。

更进一步的，特征词提取过程中，部分含义相反的标签特征词提取不排除在两者中出现频次均较多的词，并额外记录出现的否定词。

进一步的，分类规则包括：白名单规则、词语组合规则和黑名单规则；白名单规则：将与标签语义含义相同的词、短语或关联程度强的特征词组成白名单，文本数据中出现处于白名单中的词或短语就会给文本数据打上对应标签；词语组合规则：无法用一个词或短语概括标签语义的标签利用词语组合进行标签语义表征，根据词语组合的词性和句子成分进行标签分类；黑名单规则：文本中出现黑名单中的词语后，其余规则即使匹配成功，也不会打上该标签。

进一步的，黑名单规则和白名单规则采用全文匹配，词语组合规则只匹配分词得到的词语。

进一步的，通过词性分析去除拆分后文本中的干扰信息，对去除干扰信息后的文本进行分词的具体步骤为：

根据转折词将含有转折关系的句子分成两部分，将句意强调的后半部分保留，舍弃前半部分；

对每句文本分词，过滤停用词。

本发明第二方面提供了一种基于规则和语义的多标签文本分类系统，包括：

规则构建模块，被配置为获取文本数据，对文本数据进行标签标注，根据标签语义构建分类规则；其中，根据标签语义构建分类规则的具体步骤为：对已标注的文本数据进行分析确定标签语义，将相同标签的文本数据进行汇总；从相同标签的文本中提取特征词；根据标签语义寻找相同的词、短语或词语组合构建分类规则；

预处理模块，被配置为根据标点符号位置将文本数据进行拆分；

信息过滤模块，被配置为通过词性分析去除拆分后文本中的干扰信息，对去除干扰信息后的文本进行分词；

结果输出模块，被配置为根据分类规则对分词后的文本进行词语匹配，得到匹配到的带有分类标签的词语记录；对词语记录中的标签进行评分，根据分数阈值得到文本分类结果。

本发明第三方面提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于规则和语义的多标签文本分类方法中的步骤。

本发明第四方面提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于规则和语义的多标签文本分类方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明公开了一种基于规则和语义的多标签文本分类方法和系统，利用语句中词语的词性，分析句子结构，综合词性和句子成分制定规则，使规则清晰、简洁、覆盖面广。同时还可根据句法结构使用多个关联词加倾向词组合，兼具灵活性和全面性。

本发明中的规则构建方法使用了语法结构，对分类标签的覆盖面广，白名单黑名单等设置可以加快匹配速度，降低分类错误发生率。其部分标签的匹配规则可以根据经验直接设定，而不依赖于数据集。本发明所采用的规则可以通过配置的方式进行更改，不用修改代码，使用灵活。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中基于规则和语义的多标签文本分类方法的流程图；

图2为本发明实施例二中基于规则和语义的多标签文本分类系统的架构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

应当说明的是，本申请实施例中，涉及到文本等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

术语解释：

分词：将一段中文文本分成一个个词语的组合。

已标注数据：标注数据指给已有文本数据中得每一句话给出对应的分类标签，已标注数据只完成这一操作后得到的文本数据，其格式应是每句话和其对应一个或几个标签组成的文本、标签对。

jieba：一种中文分词工具库。

标签：一种标注工具，可以体现分类类别。

特征词：在某一个标签中出现次数多，在除此之外得标签中出现次数少或几乎不出现的词。

HanLP：一种自然语言处理工具库。

屏蔽词：当句子中出现某个词后，一定不会被打上某一个类别标签时，认为该词语是这个类别标签的屏蔽词。

白名单：分类规则中的一种词语类别，文本中只要出现某个标签白名单中的词语，就一定会给文本打上该标签。

黑名单：分类规则中的一种词语类别，文本中只要出现某个标签黑名单中的词语，就一定不会给文本打上该标签，与屏蔽词意思相同。

实施例一：

本发明实施例一提供了一种基于规则和语义的多标签文本分类方法，如图1所示，包括以下步骤：

步骤1，获取文本数据，对文本数据进行标签标注，根据标签语义构建分类规则；

步骤2，根据标点符号位置将文本数据进行拆分；

步骤3，通过词性分析去除拆分后文本中的干扰信息，对去除干扰信息后的文本进行分词；

步骤4，根据分类规则对分词后的文本进行词语匹配，得到匹配到的带有分类标签的词语记录；对词语记录中的标签进行评分，根据分数阈值得到文本分类结果。

步骤1中，根据标签语义构建分类规则的具体步骤为：

(1)对已标注的文本数据进行分析确定标签语义，将相同标签的文本数据进行汇总，从相同标签的文本数据中提取特征词。

使用HanLP对每个标签中的文本进行句法结构和词性分析，确定每个词语的词性和所扮演的句子成分。

为了方便统计词频选取特征词，对数据集进行的处理，本实施例使用jieba工具对文本数据进行分词，每个标签按词频从高到底排序，找到频次靠前的若干词作为候选特征词，本实施例中找到频次最高的前20个词作为候选特征词；不同标签的候选特征词进行比较，排除掉同时在多个标签候选的特征词，记录只在对应标签文本中出现频次高、其它标签中出现频次低的词作为特征词。部分含义相反的标签特征词提取不排除在两者中出现频次均较多的词，并额外记录出现的否定词，例如：“张某某每天认真工作”打上A标签；“李某某不认真工作”打上B标签，A标签的特征词按理说不应包含“认真工作”，因为在B标签中也经常出现，但是根据句意，A、B标签两者所代表的含义相反，且“认真工作”只在这两个标签中经常出现，则认为“认真工作”是A标签的特征词。

即“认真工作”在A、B标签中出现频次均较多，两个标签含义相反，不排除“认真工作”作为A标签的特征词。

(2)根据标签语义寻找相同的词、短语或词语组合构建分类规则。

分类规则包括：白名单规则、词语组合规则和黑名单规则，黑名单规则和白名单规则采用全文匹配，词语组合规则只匹配分词得到的词语。以上规则具有优先级的划分，优先级从高到低依次为：黑名单规则>白名单规则>词语组合规则。

白名单规则：将与标签语义含义相同的词、短语或关联程度强的特征词组成白名单，文本数据中出现处于白名单中的词或短语就会给文本数据打上对应标签；寻找方法包括但不限于同义词、该含义的成语以及分析已标注数据时发现的关联程度强的特征词。其中，特征词的选择规则包括：特征词根据与标签的关联程度，关联程度强的可直接作为白名单，稍弱的需要其他词辅助的，可以加入词语组合规则中的某一列，关联程度的强弱需要根据标签含义、特征词的含义、特征词在个标签中出现的次数多少、经验等综合判定。

词语组合规则：无法用一个词或短语概括标签语义的标签利用词语组合进行标签语义表征，根据词语组合的词性和句子成分进行标签分类。根据词性和句子成分将组合方式划分为以下几种：

状态描述类：主语加形容词。通过主语确定文本的大致分类，形容词用来判断文本的感情倾向或辅助确定分类得到分类结果。

行动描述类：主语加副词加形容词。主语加形容词不能确定分类结果，可以使用起修饰作用的副词辅助分类。

结果描述类：动词加宾语。根据宾语确定含文本大致分类，动词缩小范围，二者结合获得分类结果。

词语组合方式可根据具体的数据进行扩增和修改，以上词语组合方式中的每种词语类型，均不混合存储。在可视化规则配置列表中，状态描述类的主语不与行动描述类中的主语放在同一列，状态描述类的形容词不与行动描述类中的形容词放在同一列。

黑名单规则：为避免部分标签的词语组合规则包含其它标签的词语组合规则，即A标签有词语组合规则“词1”+“词2”，B标签有词语组合规则“词1”+“词2”+“词3”，为每一个标签设定一个黑名单，可以将“词3”加入A标签的黑名单，防止分类错误。标签中一定不会出现的常用词可以作为屏蔽词也放在该标签的黑名单中，去除影响。文本中出现黑名单中的词语后，其余规则即使匹配成功，也不会打上该标签。

规则构建完成后，使用python中的pandans库读取加则表格，从新组织内容结构加载规则，并使用pickle模块将加载好的规则转存为序列化文件，加快后续加载规则的速度。

步骤2中，使用python-docx库读取docx文件内容、使用pdfplumber库读取pdf文件内容，将标点符号统一为中文标点，使用“。”、“！”、“？”、

“；”、“……”标点符号将长文本拆分成一句句的短文本。

步骤3中，根据转折词“虽然”、“但是”等将含有转折关系的句子分成两部分，将句意强调的后半部分保留，舍弃前半部分。根据书名号“《》”去除文章、报告等标题，防止分词结果对句义造成影响。

使用jieba库对每句文本分词，过滤停用词，期间可根据分词结果自定义分词词典，添加特定业务场景的专有名词调整分词结果。

步骤4中，遍历每个句子的分词结果，使用加载好的分类规则进行词语匹配，输出匹配到的所有分类标签的词语记录，词语记录包括匹配到的词语、词语所属标签、在所属标签中的组合类别，组合类别指主语、动词、形容词等，根据词语记录和预设评分规则对各标签评分，根据分数阈值输出文本最终分类结果。

预设评分规则的具体内容例如：

每个词1分，词语组合成功：+5分

白名单：7分，黑名单：分数归0

A标签(动词：完成，宾语：任务，白名单：认真工作)；B标签(动词：承担，宾语：责任)

预测句子：“张某某每天认真工作，按时完成任务，不推卸责任”

预测结果：

A标签：词语分2，结果描述类组合成功+5，白名单+7，得分14

B标签：词语分1，得分1。

实施例二：

本发明实施例二提供了一种基于规则和语义的多标签文本分类系统，如图2所示，包括规则构建模块、预处理模块、信息过滤模块和结果输出模块。

规则构建模块，被配置为获取文本数据，对文本数据进行标签标注，根据标签语义构建分类规则；其中，根据标签语义构建分类规则的具体步骤为：对已标注的文本数据进行分析确定标签语义，将相同标签的文本数据进行汇总；从相同标签的文本中提取特征词；根据标签语义寻找相同的词、短语或词语组合构建分类规则。

规则构建模块提供可视化的规则构建功能，使用词语组合构建每个分类标签对应的规则，分类规则采用可配置的方式，可以在电子表格中进行编辑。还用于加载规则，将其转换成易于进行词语匹配的结构。规则构建完成后，使用python中的pandans库读取加则表格，从新组织内容结构加载规则，并使用pickle模块将加载好的规则转存为序列化文件，加快后续加载规则的速度。

预处理模块，被配置为根据标点符号位置将文本数据进行拆分。

预处理模块实现文档读取、标点符号转换、句子拆分功能。使用python第三方库读取docx、pdf文件内容，将标点符号统一为中文标点，使用“。”、“！”、“？”、“；”、“……”标点符号将长文本拆分成一句句的短文本。

信息过滤模块，被配置为通过词性分析去除拆分后文本中的干扰信息，对去除干扰信息后的文本进行分词。

信息过滤模块根据转折词“虽然”、“但是”等过滤掉无用文本；根据“《》”去除文章、报告等标题，防止分词结果对句义造成影响。并使用jieba库对过滤后的文本进行分词、过滤停用词，期间可根据分词结果自定义分词词典，添加特定业务场景的专有名词调整分词结果。

结果输出模块，被配置为遍历每个句子的分词结果，根据加载好的分类规则对分词后的文本进行词语匹配，得到匹配到的带有分类标签的词语记录；对词语记录中的标签进行评分，根据分数阈值得到文本分类结果。

实施例三：

本发明实施例三提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本发明实施例一所述的基于规则和语义的多标签文本分类方法中的步骤，所述步骤为：

获取文本数据，对文本数据进行标签标注，根据标签语义构建分类规则；其中，根据标签语义构建分类规则的具体步骤为：对已标注的文本数据进行分析确定标签语义，将相同标签的文本数据进行汇总；从相同标签的文本中提取特征词；根据标签语义寻找相同的词、短语或词语组合构建分类规则；

根据标点符号位置将文本数据进行拆分；

详细步骤与实施例一提供的基于规则和语义的多标签文本分类方法相同，这里不再赘述。

实施例四：

本发明实施例四提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明实施例一所述的基于规则和语义的多标签文本分类方法中的步骤，所述步骤为：

根据标点符号位置将文本数据进行拆分；

以上实施例二、三和四的中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于规则和语义的多标签文本分类方法，其特征在于，包括以下步骤：

根据标点符号位置将文本数据进行拆分；

2.如权利要求1所述的基于规则和语义的多标签文本分类方法，其特征在于，对已标注的文本数据进行分析确定标签语义包括对每个标签中的文本进行句法结构和词性分析，确定每个词语的词性和所扮演的句子成分。

3.如权利要求1所述的基于规则和语义的多标签文本分类方法，其特征在于，从相同标签的文本数据中提取特征词的具体步骤为：

4.如权利要求3所述的基于规则和语义的多标签文本分类方法，其特征在于，特征词提取过程中，部分含义相反的标签特征词提取不排除在两者中出现频次均较多的词，并额外记录出现的否定词。

5.如权利要求1所述的基于规则和语义的多标签文本分类方法，其特征在于，分类规则包括：白名单规则、词语组合规则和黑名单规则；白名单规则：将与标签语义含义相同的词、短语或关联程度强的特征词组成白名单，文本数据中出现处于白名单中的词或短语就会给文本数据打上对应标签；词语组合规则：无法用一个词或短语概括标签语义的标签利用词语组合进行标签语义表征，根据词语组合的词性和句子成分进行标签分类；黑名单规则：文本中出现黑名单中的词语后，其余规则即使匹配成功，也不会打上该标签。

6.如权利要求5所述的基于规则和语义的多标签文本分类方法，其特征在于，黑名单规则和白名单规则采用全文匹配，词语组合规则只匹配分词得到的词语。

7.如权利要求1所述的基于规则和语义的多标签文本分类方法，其特征在于，通过词性分析去除拆分后文本中的干扰信息，对去除干扰信息后的文本进行分词的具体步骤为：

对每句文本分词，过滤停用词。

8.一种基于规则和语义的多标签文本分类系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的基于规则和语义的多标签文本分类方法。

10.一种终端设备，其特征在于，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的基于规则和语义的多标签文本分类方法。