CN109710756B

CN109710756B - 基于语义角色标注的文书体裁分类系统及方法

Info

Publication number: CN109710756B
Application number: CN201811409309.0A
Authority: CN
Inventors: 蓝建敏
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2023-07-07
Anticipated expiration: 2038-11-23
Also published as: CN109710756A

Abstract

本发明公开了一种基于语义角色标注的文书体裁分类系统及方法，系统包括相连接的语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库；语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器，体裁识别规则引擎包括相连接的体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器，体裁识别规则解析器用于将体裁识别规则由文本解析成计算机程序能识别的数据结构；体裁识别规则匹配器用于将语义角色标注引擎标注过的结果与体裁识别规则进行匹配；体裁识别规则推理器用于根据体裁识别规则匹配器的匹配结果，执行推理得出最终的体裁分类。本发明数据成本较低、计算成本较低、体裁识别准确度较高。

Description

基于语义角色标注的文书体裁分类系统及方法

技术领域

本发明涉及文书体裁分类领域，特别涉及一种基于语义角色标注的文书体裁分类系统及方法。

背景技术

针对党的文献、专项政策、法律法规、领导讲话等党政文书进行体裁分类时，传统的方法是针对不同文书体裁收集大量语料，利用机器学习训练模型，基于该机器学习训练模型对文书进行分类，其总结的文献数量较多，数据成本较高，另外，需要处理完整的文献内容，计算成本较高。这种体裁识别方法准确度低，因为党政文书不像新闻类信息篇幅短少，很多党政文书几十页、甚至几百页。机器学习技术很难准确训练出准确分类模型。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种数据成本较低、计算成本较低、体裁识别准确度较高的基于语义角色标注的文书体裁分类系统及方法。

本发明解决其技术问题所采用的技术方案是：构造一种基于语义角色标注的文书体裁分类系统，包括：

语义角色标注引擎：用于执行语义角色标注；

知识本体库：用于存储和维护知识本体；

体裁识别规则引擎：用于对体裁识别规则进行解析、匹配和推理；

体裁识别规则库：用于维护和存储体裁识别规则；

所述语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库相连接；

所述语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器；

所述体裁识别规则引擎包括：

体裁识别规则解析器：用于将所述体裁识别规则由文本解析成计算机程序能识别的数据结构；

体裁识别规则匹配器：用于将所述语义角色标注引擎标注过的结果与所述体裁识别规则进行匹配；

体裁识别规则推理器：用于根据所述体裁识别规则匹配器的匹配结果，执行推理得出最终的体裁分类；

所述体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器相连接。

本发明还涉及一种基于语义角色标注的文书体裁分类方法，应用于上述基于语义角色标注的文书体裁分类系统，所述方法包括如下步骤：

A)使用语义角色标注引擎对输入的文献标题进行语义角色标注，得到语义角色标注结果；

B)从体裁识别规则库读取体裁识别规则，由体裁识别规则解析器进行解析，并得到体裁识别规则解析结果；

C)使用体裁识别规则匹配器对所述语义角色标注结果与所述体裁识别规则解析结果进行匹配操作；

D)使用匹配得到的体裁识别规则进行体裁分类。

在本发明所述的基于语义角色标注的文书体裁分类方法中，在所述步骤A)之前还包括预处理步骤：

A0)建立体裁识别规则，并将其存入体裁识别规则库；所述体裁识别规则包括前项描述部分、推导符和后项描述部分，所述前项描述部分为命名实体类型的序列组合，所述后项描述部分为体裁类别和可信度。

在本发明所述的基于语义角色标注的文书体裁分类方法中，所述步骤A0)进一步包括：

A01)人工总结规律；

A02)将所述规律用符合体裁识别规则语法的字符来表示，得到体裁识别规则；

A03)将所述体裁识别规则录入所述基于语义角色标注的文书体裁分类系统；

A04)体裁识别规则解析器对所述体裁识别规则进行解析，得到表示体裁识别规则的计算机数据结构，判断所述计算机数据结构是否符合所述体裁识别规则语法的语法结构，如是，执行步骤A05)；否则，返回步骤A02)；

A05)将所述计算机数据结构与已存在的体裁识别规则进行对比，判断是否通过语义校验，如是，执行步骤A06)；否则，返回步骤A01)；

A06)将所述体裁识别规则存入所述体裁识别规则库。

在本发明所述的基于语义角色标注的文书体裁分类方法中，所述步骤A)进一步包括：

A1)使用分词器对输入的文献标题进行全分词，将所有的分词组合提取出来；

A2)使用语义角色标注器对所述分词组合进行语义角色标注；

A3)使用语法分析器进行语法分析，选择出最合理的分词结果组合，消除所述分词结果组合中的重叠的部分，得到最终的所述语义角色标注结果。

在本发明所述的基于语义角色标注的文书体裁分类方法中，所述步骤B)进一步包括：

B1)使用体裁识别规则解析器对由文本表示的体裁识别规则进行解析；

B2)将所述由文本表示的体裁识别规则转换为计算机能识别的表示体裁识别规则的数据结构。

在本发明所述的基于语义角色标注的文书体裁分类方法中，所述步骤C)进一步包括：

C1)将所述语义角色标注结果与所述体裁识别规则中的角色类型序列进行一一比对；

C2)获取所有匹配成功的体裁识别规则。

在本发明所述的基于语义角色标注的文书体裁分类方法中，所述步骤D)进一步包括：

D1)将所述匹配成功的体裁识别规则的后项描述部分取出；

D2)选出所述后项描述部分中可信值最大的体裁识别规则，并将其作为结果输出。

实施本发明的基于语义角色标注的文书体裁分类系统及方法，具有以下有益效果：由于系统设有语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库，体裁识别规则引擎包括体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器，体裁识别规则解析器用于将体裁识别规则由文本解析成计算机程序能识别的数据结构，体裁识别规则匹配器用于将语义角色标注引擎标注过的结果与体裁识别规则进行匹配；体裁识别规则推理器用于根据体裁识别规则匹配器的匹配结果，执行推理得出最终的体裁分类；上述基于语义角色标注的文书体裁分类方法应用于该基于语义角色标注的文书体裁分类系统，本发明与传统机器学习方式相比，其用于体裁识别规则的总结的文献数量远小于机器学习，处理的数据量更小，不需要处理完整的文献内容，仅对标题做处理，将人类专家的知识总结成体裁识别规则交由计算机执行，让机器在对应的领域具有人类专家的水平，因此数据成本较低、计算成本较低、体裁识别准确度较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于语义角色标注的文书体裁分类系统及方法一个实施例中系统的结构示意图；

图2为所述实施例中方法的流程图；

图3为所述实施例中建立体裁识别规则，并将其存入体裁识别规则库的具体流程图；

图4为所述实施例中使用语义角色标注引擎对输入的文献标题进行语义角色标注，得到语义角色标注结果的具体流程图；

图5为所述实施例中从体裁识别规则库读取体裁识别规则，由体裁识别规则解析器进行解析，并得到体裁识别规则解析结果的具体流程图；

图6为所述实施例中使用体裁识别规则匹配器对语义角色标注结果与体裁识别规则解析结果进行匹配操作的具体流程图；

图7为所述实施例中使用匹配得到的体裁识别规则进行体裁分类的具体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明基于语义角色标注的文书体裁分类系统及方法实施例中，其基于语义角色标注的文书体裁分类系统的结构示意图如图1所示。图1中，该基于语义角色标注的文书体裁分类系统包括相连接的语义角色标注引擎、知识本体库、体裁识别规则引擎和体裁识别规则库；其中，语义角色标注引擎是用于执行语义角色标注功能的模块；语义角色标注引擎包括相连接的分词器、语义角色标注器和语法分析器。

知识本体库是用于存储和维护知识本体的系统模块。关于知识本体，在20世纪70年代后期，专家系统、知识系统和知识密集型的信息系统的构建技术发展而形成知识工程，所建立的系统简称为知识系统(knowledge-based systems)。知识系统是人工智能学科最重要的工业化和商业化产物。知识系统用于辅助人们进行问题求解，如检测信用卡诈骗、加速船舶设计、辅助医疗诊断、使科学软件更加智能化、向全体决策人员提供金融服务、产品质量的评价和广告宣传、支持电子网络的服务恢复。

体裁识别规则引擎用于对体裁识别规则进行解析、匹配和推理；体裁识别规则库是用于维护和存储体裁识别规则的系统模块。体裁识别规则引擎包括相连接的体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器等核心模块。体裁识别规则解析器用于将体裁识别规则由文本解析成计算机程序能识别的数据结构；体裁识别规则匹配器用于将语义角色标注引擎标注过的结果与体裁识别规则进行匹配；体裁识别规则推理器用于根据体裁识别规则匹配器的匹配结果，执行推理得出最终的体裁分类(也就是得出最终结论)。

本实施例还涉及一种基于语义角色标注的文书体裁分类方法，该方法应用于本实施例中的上述基于语义角色标注的文书体裁分类系统，该方法采用义角色标注和体裁分类规则来实现文书体裁分类。该方法的流程图如图1所示，图1中，该基于语义角色标注的文书体裁分类方法包括如下步骤：

步骤S01使用语义角色标注引擎对输入的文献标题进行语义角色标注，得到语义角色标注结果：本步骤中，使用语义角色标注引擎对输入的文献标题进行语义角色标注，这样就可以得到语义角色标注结果。

步骤S02从体裁识别规则库读取体裁识别规则，由体裁识别规则解析器进行解析，并得到体裁识别规则解析结果：本步骤中，从体裁识别规则库读取体裁识别规则，然后由体裁识别规则解析器对读取的体裁识别规则进行解析，解析后会得到体裁识别规则解析结果。

步骤S03使用体裁识别规则匹配器对语义角色标注结果与体裁识别规则解析结果进行匹配操作：本步骤中，使用体裁识别规则匹配器对语义角色标注结果与体裁识别规则解析结果进行匹配操作，也就是判断语义角色标注结果与体裁识别规则解析结果是否匹配。

步骤S04使用匹配得到的体裁识别规则进行体裁分类：本步骤中，使用上述步骤S03匹配操作得到的体裁识别规则进行推理，即体裁分类。本发明的方法与传统机器学习方式相比，其用于体裁识别规则的总结的文献数量远小于机器学习，处理的数据量更小，不需要处理完整的文献内容，仅对标题做处理，将人类专家的知识总结成体裁识别规则交由计算机执行，让机器在对应的领域具有人类专家的水平，因此数据成本较低、计算成本较低、体裁识别准确度较高。

值得一提的是，在执行步骤S01之前，如果事先已经存在体裁识别规则库，则直接执行步骤S01；如果事先不存在体裁识别规则库，则在执行步骤S01之前需要先执行预处理步骤：

步骤S00建立体裁识别规则，并将其存入体裁识别规则库：本步骤中，建立体裁识别规则，然后将建立的体裁识别规则存入体裁识别规则库。

从广泛意义上讲，规则是由前项、后项和可信度组成。前项表示前提条件，各个条件由逻辑连接词组成各种不同的组合；后项表示前提条件为真时应采取的行为或者结论；可信度表示该规则推导出结论的可靠程度。而本步骤中所建立的体裁识别规则是具体的，本发明中的体裁识别规则包括前项描述部分、推导符和后项描述部分，其中，前项描述部分为命名实体类型的序列组合，后项描述部分为体裁类别和可信度。

具体而言，前项描述的是命名实体类型的序列组合，体裁识别规则的前项描述部分的描述方式如下：

语义角色的表示：采用尖括号加分类名称来描述，例如：表示序列中存在的主体，可以用“<主体>“来表示，分类具有层级，自然人和机构都可以作为主体，但如果有需要也可以更高层次的分类名称或者更低层次的分类名称，使用<主体>时，不论是自然人还是机构都满足，但使用<自然人>时，机构不在满足条件。

语义角色，指的是根据谓语和变元之间不同的语义关系，可以把变元分为若干个类型，这种变元的类型一般称之为"语义角色"。常见的语义角色有施事、受事、与事、工具、结果、处所等。本实施例中，语义角色分为主体、客体、行为、时间、空间等五个大类，此外标题中出现的助词、连词、介词等，对于这类词可以使用英文单引号包裹具体的词来表示特定的词，例如：‘的’表示序列中某个位置是‘的’这个结构助词。

对于序列中无关紧要的部分，可以使用符号“…”来表示可以不纳入分类计算的部分。

另外，整个序列中，如果某个子序列表示特殊含义，为了直观，可以使用花括号“{}”来表示一个有特殊意义的子序列，例如：{会议主题：’加强’<机构>‘建设’}，表示在“加强“+机构名称+”建设”这个子序列组合成“会议主题”。

后项描述部分描述的是具体的体裁类别以及可信度，体裁识别规则的后项描述部分的描述方式如下：体裁名称+“:”+可信度，例如：通则：80，表示该体裁识别规则推测出当前标题对应文章的体裁是“通则”的可信程度是80％。

通过推导符“＝>”连接前项描述部分和后项描述部分，表示由前项描述部分可以推导出后项描述部分对应的结论。

完整的体裁识别规则示例：<自然人>…<地点><行为>‘：’{主题：‘加强’<机构>‘建设’}＝>领导讲话:90；(“李建国在上海强调：加强基层工会建设”)。

对于本实施例而言，上述步骤S00还可进一步细化，其细化后的流程图如图3所示。图3中，该步骤A0)进一步包括：

步骤S001人工总结规律：本步骤中，人工总结规律。

步骤S002将规律用符合体裁识别规则语法的字符来表示，得到体裁识别规则：本步骤中，将人工总结的规律用符合体裁识别规则语法(体裁识别规则描述方式)的字符来表示，得到体裁识别规则。

步骤S003将体裁识别规则录入基于语义角色标注的文书体裁分类系统：本步骤中，将步骤S002中得到的体裁识别规则录入基于语义角色标注的文书体裁分类系统。

步骤S004体裁识别规则解析器对体裁识别规则进行解析，得到表示体裁识别规则的计算机数据结构，判断计算机数据结构是否符合体裁识别规则语法的语法结构：本步骤中，使用体裁识别规则解析器对体裁识别规则进行解析，通过解析会得到表示体裁识别规则的计算机数据结构，然后判断该计算机数据结构是否符合体裁识别规则语法的语法结构，如果符合，则通过规则语法校验，执行步骤S005；否则，返回步骤S002。

步骤S005将计算机数据结构与已存在的体裁识别规则进行对比，判断是否通过语义校验：本步骤执行系统校验规则语义，具体是将计算机数据结构与已存在的体裁识别规则进行对比，判断是否通过语义校验。具体而言，如果出现下列情况之一，则不通过语义校验：1、语义相同；2、在语义上包含了其它规则；3、在语义上被其它规则包含。本步骤中，如果判断的结果为是，则执行步骤S006；否则，返回步骤S001。

步骤S006将体裁识别规则存入体裁识别规则库：本步骤中，将体裁识别规则存入体裁识别规则库。

对于本实施例而言，上述步骤S01还可进一步细化，其细化后的流程图如图4所示。图4中，该步骤S01进一步包括：

步骤S11使用分词器对输入的文献标题进行全分词，将所有的分词组合提取出来：本步骤中，使用分词器对输入的文献标题进行全分词，将所有的分词组合提取出来，不考虑冲突(重叠)。即将所有可能的词语都分出来，不考虑是否存在重叠部分，例如：“执行规则”分词得到“执行”、“规则”、“执行规则”。

步骤S12使用语义角色标注器对分词组合进行语义角色标注：本实施例中，使用语义角色标注器对分词组合进行语义角色标注(使用NLP技术或者基于本体库识别)，具体就是采用以知识本体库为主，机器学习模型为辅的方式识别出词对应的语义角色分类。

步骤S13使用语法分析器进行语法分析，选择出最合理的分词结果组合，消除分词结果组合中的重叠的部分，得到最终的语义角色标注结果：本步骤中通，待做完初步语义角色标注，选择出最合理的分词结果组合，根据算法将选择的分词结果组合的一些内容剔除(也就是消除分词结果组合中的冲突，即重叠)，使得分词结果组合中不存在重叠部分，即为消除歧义，这样就会得到最终的语义角色标注结果。通过步骤S11至步骤S13实现语义角色标注。

对于本实施例而言，上述步骤S02还可进一步细化，其细化后的流程图如图5所示。图5中，该步骤S02进一步包括如下步骤：

步骤S21使用体裁识别规则解析器对由文本表示的体裁识别规则进行解析：本步骤中，使用体裁识别规则解析器(特定的计算机程序)对由文本表示的体裁识别规则(人类更容易理解的形式)进行解析。

步骤S22将由文本表示的体裁识别规则转换为计算机能识别的表示体裁识别规则的数据结构：本步骤中，将文本表示的体裁识别规则转换为计算机更容易识别，且更方便计算机执行计算的表示体裁识别规则的数据结构(二进制代码，计算机更容易理解的形式)。通过步骤S21至步骤S22实现规则解析。

对于本实施例而言，上述步骤S03还可进一步细化，其细化后的流程图如图6所示。图6中，上述步骤S03进一步包括：

步骤S31将语义角色标注结果与体裁识别规则中的角色类型序列进行一一比对：本步骤中，将语义角色标注结果与体裁识别规则中的角色类型序列进行一一比对，也就是将体裁识别规则中的角色类型序列与输入内容的语义角色标注结果进行对比，如果序列相同则匹配；例如：规则“<空间><时间>＝>地方政策，90”，输入“广东省2012年”；输入“广东省”被语义标注成<空间>，“2012年”被标注成<时间>，则语义角色标注结果为“<空间><时间>”，体裁识别规则中的角色类型序列和语义角色标注结果拥有相同的序列内容，规则匹配成功。

由此可见，对于规则匹配，其实就是使用体裁识别规则匹配器来确定语义角色标注结果匹配的体裁识别规则，即确定语义角色标注结果(就是语义角色分类的一个序列)和体裁识别规则的前项(也是语义角色分类序列)是否匹配。

步骤S32获取所有匹配成功的体裁识别规则：本步骤中，获取所有匹配成功的体裁识别规则。通过上述步骤S31至步骤S32实现规则匹配。

对于本实施例而言，上述步骤S04还可进一步细化，其细化后的流程图如图7所示。图7中，上述步骤S04进一步包括：

步骤S41将匹配成功的体裁识别规则的后项描述部分取出：本步骤中，将匹配成功的体裁识别规则的后项描述部分取出。

步骤S42选出后项描述部分中可信值最大的体裁识别规则，并将其作为结果输出：本步骤中，从后项描述部分中筛选出可信值最大的体裁识别规则，并将其作为结果输出，这就是规则推理。由此可见，规则推理就是使用体裁识别规则推理器从匹配的体裁识别规则中获取结论，即从体裁识别规则的后项描述部分获取结论和可信度，然后返回可信度最高的结论。

当然，在实际应用中，体裁识别规则也可以采用如下替代方案：体裁识别规则前项描述部分的本质是“语义角色分类的序列”，也可以理解为“命名实体类型、词性和词的序列”，可以使用其它任何表示命名实体类型、词性和词的序列的方式替代。

总之，本发明与传统机器学习方式相比，其用于体裁识别规则的总结的文献数量远小于机器学习，处理的数据量更小，不需要处理完整的文献内容，仅对标题做处理，将人类专家的知识总结成体裁识别规则交由计算机执行，让机器在对应的领域具有人类专家的水平，因此本发明的数据成本较低、计算成本较低、体裁识别准确度较高。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义角色标注的文书体裁分类系统，其特征在于，包括：

语义角色标注引擎：用于执行语义角色标注；

知识本体库：用于存储和维护知识本体；

体裁识别规则库：用于维护和存储体裁识别规则；

所述体裁识别规则引擎包括：

所述体裁识别规则解析器、体裁识别规则匹配器和体裁识别规则推理器相连接；

应用于所述的基于语义角色标注的文书体裁分类系统的分类方法，所述方法包括如下步骤：

A0)建立体裁识别规则，并将其存入体裁识别规则库；所述体裁识别规则包括前项描述部分、推导符和后项描述部分，所述前项描述部分为命名实体类型的序列组合，所述后项描述部分为体裁类别和可信度；

其进一步包括：

A01)人工总结规律；

A06)将所述体裁识别规则存入所述体裁识别规则库；

D)使用匹配得到的体裁识别规则进行体裁分类；

其中，所述步骤A)进一步包括：

A2)使用语义角色标注器对所述分词组合进行语义角色标注；

A3)使用语法分析器进行语法分析，选择出最合理的分词结果组合，消除所述分词结果组合中的重叠的部分，得到最终的所述语义角色标注结果；

所述步骤B)进一步包括：

B2)将所述由文本表示的体裁识别规则转换为计算机能识别的表示体裁识别规则的数据结构；

所述步骤C)进一步包括：

C2)获取所有匹配成功的体裁识别规则；

所述步骤D)进一步包括：

D1)将所述匹配成功的体裁识别规则的后项描述部分取出；