CN111191051A

CN111191051A - 一种基于中文分词技术的应急知识图谱的构建方法及系统

Info

Publication number: CN111191051A
Application number: CN202010273045.1A
Authority: CN
Inventors: 郝本明; 徐忠建; 朱必亮; 冯建亮; 孙海峰; 魏明春
Original assignee: Speed Space Time Information Technology Co Ltd
Current assignee: Speed China Technology Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-05-22
Anticipated expiration: 2040-04-09
Also published as: CN111191051B

Abstract

本发明公开了一种基于中文分词技术的应急知识图谱的构建方法，具体包括以下步骤：S1输入应急信息文本；S2对所述步骤S1中的应急信息文本中的要素进行解析，提取关键数据，利用提取的关键数据构建应急知识库；S3采用多策略结合的中文分词算法对步骤S1中输入的应急信息文本进行分词并判断，输出分词结果；S4将步骤S3中得到分词结果利用检索引擎在所述应急知识库中搜索并进行匹配，匹配成功后输出成果数据；S5根据应急业务体系结合成果数据构建应急知识图谱，输出图谱结果数据。按照应急业务体系构建一个科学全面的应急知识图谱，提高数据匹配速度与分词精度，解决检索效率低下等问题，实现应急知识的共享应用服务。

Description

一种基于中文分词技术的应急知识图谱的构建方法及系统

技术领域

本发明涉及中文分词技术领域，具体涉及一种基于中文分词技术的应急知识图谱的构建方法及系统。

背景技术

根据国家应急信息化建设的需求，亟需对各类应急信息资源进行汇总分类，构建一个完整规范的应急知识词库，从而形成一个应急行业的知识图谱，为应急信息的共享应用提供支撑。鉴于目前中文的自然语言处理和单一的中文分词算法存在精度低、匹配慢等问题，利用多策略结合的分词技术，能够综合运用各分词技术的优势，有效弥补它们的劣势，构建分层级的中文分词规则，大大提高中文分词和匹配的效率。基于分层级的中文分词规则，结合应急业务体系定制化构造一个面向垂直领域的知识图谱，实现实体（概念）识别、关系抽取、文本检索等功能，真正提升应急领域相关业务的生产力。

目前中文分词主要采用以下三大类方法：

1.基于词典的方法，对于已经录入在词典中的词可通过文本扫描和匹配法进行分词。但是对于一些未录入词典的新词语以及歧义字段很难进行分词，且匹配速度较慢，在调用人工干预处理的情况下，分词效果仍然不好。

2.基于统计的方法，利用词与词的联合出现概率作为分词的依据，建立统计模型，不需要切分词典。不过该方法前期需要大量的训练文本作为建模参数，且实际操作起来计算量非常大，耗时久，不利于快速高效的分词。

3.基于理解的方法，通过让计算机模拟人对句子的理解，达到识别词的效果，对判断和处理歧义现象有较好的作用。随着网络用语等语言形式和语言表达方式的日新月异，难以将各种语言信息处理成机器可直接读取的形式，因此目前基于理解的分词方法还处在试验阶段。

因此，有必要开发一种基于中文分词技术的应急知识图谱的构建方法，用判断条件对文本进行判别并利用不同分词技术进行分词，简单的分词利用简单的方法，复杂的分词利用复杂的方法，能够很好的提升分词的精准度，同时节约了简单等级的分词时间，提升分词效率。

发明内容

本发明要解决的技术问题是提供一种基于中文分词技术的应急知识图谱的构建方法，按照应急业务体系构建一个科学全面的应急知识图谱，提高数据匹配速度与分词精度，解决检索效率低下等问题，实现应急知识的共享应用服务。

为了解决上述技术问题，本发明采用的技术方案是：该基于中文分词技术的应急知识图谱的构建方法，具体包括以下步骤：

S1：输入应急信息文本；

S2：对所述步骤S1中的应急信息文本中的要素进行解析，提取关键数据，利用提取的关键数据构建应急知识库；

S3：采用多策略结合的中文分词算法对所述步骤S1中输入的所述应急信息文本进行分词并判断，输出分词结果；

S4：将所述步骤S3中得到分词结果利用检索引擎在所述应急知识库中搜索并进行匹配，匹配成功后输出成果数据；

S5：根据应急业务体系结合所述成果数据构建应急知识图谱，输出图谱结果数据。

采用上述技术方案，向系统中输入应急信息文本，并对文本进行解析提取关键词及各类要素，将提取的关键词及要素整理形成特征词库以及要素标准数据库；形成特征词库以及要素标准库后，可利用多策略结合的分词技术进行分词，将分词后的关键要素与词库数据进行匹配，匹配成功后输出成果数据，大大提升检索引擎在应急知识库中的搜索效率，并最终形成应急知识图谱；其中多策略中文分词是采用了多种中文分词方式按照条件判断进行组合，构建中文分词层级模型利用多种方式层级结合的方式对应急灾害文本内容进行分词，简单的分词利用简单的方法，复杂的分词利用复杂的方法，能够很好的提升分词的精准度，同时节约了简单等级的分词时间，实现减少歧义，提升分词效率以及精准度。

作为本发明的优选技术方案，所述步骤S3中多策略结合的中文分词算法包括正向最大匹配和逆向最大匹配方法、利用字词库匹配的中文分词方法、基于频率统计的神经元网络模型分词方法；具体包括以下步骤：

S31：利用正向最大匹配和逆向最大匹配方法对所述应急信息文本中的词句进行切分，并与所述应急要素特征词库进行比对，判断是否具有特征字；若没有特征字，则对分词结果进行序列标注，再输出分词结果；若有特征字，则根据特征字进行下一步判断；

S32：对具有特征字的词进行统计，统计特征字的个数、顺序、级别；若特征字中具有第一级别中的字词，则与应急要素特征词库对比，判断特征字是否是已存在字词，若是，则直接输出分词结果；若否，则按没有所述第一级别中的字词进行拆分；若特征字中没有所述第一级别中的字词，则进行下一步拆分；

S33：利用层级模型对特征字中没有第一级别中的字词进行拆分，拆分完成后，若能识别的，则输出分词结果；若未识别的，则输出未识别的字词；

S34：再对步骤S33中输出的未识别的字词利用神经元网络模型统计方法进行分词，输出分词结果。

其中优化的正向最大匹配和逆向最大匹配方法为：

为降低正向最大匹配法和逆向最大匹配法各自存在的匹配错误率，提高系统分词的准确度，采用正向最大匹配法和逆向最大匹配法相结合的分词方法（双向匹配法），并针对两种分词方法中出现的歧义词通过遍历训练文本集的方式，统计出正确切分频率，把最大的分词结果作为分词的正确结果，消除歧义，优化双向匹配法；其具体步骤如下：

先根据标点对文档进行粗切分，把文档分解成若干个句子，然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同，则认为分词正确；如果匹配结果中出现歧义词，则找出在分词文本中出现的所有相同的词连接，以这些词连接被正确分词比例最大的作为消除歧义的结果；否则，按最小集处理。

其中基于频率统计的神经元网络模型分词方法为：

神经元网络模型统计方法主要是利用词与词的联合出现概率作为分词的依据，给中文字符序列中的每一个字赋予一个特定的词位标签，从已经正确分词的训练数据中自动学习到特征，通过训练模型对数据进行分词，能够有效识别未登录词。本神经元网络模型结合较常用的四词位标签集，定义新的标签集和标签含义，判断每一个分词字符在新的词位标签集的分类。

作为本发明的优选技术方案，所述步骤S32中特征字级别包括第一级别，所述第一级别包括1级、2级、3级，所述1级为包含灾害种类的特征要素；所述2级为包含灾害地址数据的特征要素；所述3级为包含灾害时间的特征要素；没有在所述第一级别中的记为4级，所述4级为不包含1级、2级、3级的特征要素的特征字级别。

作为本发明的优选技术方案，所述步骤S33中利用层级模型进行拆分，所述层级模型按照规则分为第一层级、第二层级和第三层级，所述第一层级包括数组A应急灾害种类和未能识别词；所述第二层级包括数组B应急灾害地址数据和未能识别词；所述第三层级包括数组C应急灾害时间和未能识别词。

作为本发明的优选技术方案，所述步骤S33利用层级模型对特征字进行拆分的具体步骤为：

S331：首先与所述第一层级进行识别，若能识别，则输出分词结果；若未识别，则进行第二层级识别；

S332：若第二层级能识别，则输出分词结果；若未识别，则进行第三层级识别；

S333：若第三层级能识别，则输出分词结果；若未识别，则输出未识别的字词。

采用上述技术方案，通过多策略结合的分词算法进行分词，其中对最大匹配和逆向最大匹配算法进行了优化，两种最大匹配算法结果对比时采用了新型结果对比方式，实现匹配结果选取的精度提升；在字词库匹配的中文分词方法中，不仅构建了平时的特征词库并按照应急行业的业务抽取领域知识库中的字词构建应急标准数据库，能够提升在应急方面搜索匹配的效率；在基于频率统计的神经元网络模型分词方法中，我们采用了对判断字符紧密度的阈值设置了可变范围，根据字符串形态的不同改变判断阈值的数值，对字词判断更加灵活，提升准确性；在对各个策略进行优化后，经过多次实验，按照最合理的顺序排布分词方式，节约简单分词时间，提升复杂分词精准度与效率，完成分词。

作为本发明的优选技术方案，所述步骤S2中的应急知识库包括应急要素特征词库以及应急要素标准数据库。

本发明要解决的技术问题是提供一种基于中文分词技术的应急知识图谱的构建系统，提升分词的精准度，节约了简单等级的分词时间，提升分词效率。

为了解决上述技术问题，本发明采用的技术方案是：该基于中文分词技术的应急知识图谱的构建系统包括控制模块、数据接收模块、共享交换模块、数据管理模块、数据储存模块、数据匹配模块、数据输出模块、分词模块和规则词库模块；所述数据接收模块、共享交换模块、数据管理模块、数据储存模块、数据匹配模块、数据输出模块、分词模块和规则词库模块均与控制模块形成双向数据连接；其中所述数据接收模块采用标准规范的接口协议，便于和各服务器之间进行数据对接；所述数据管理模块用于提供数据查询、数据统计功能；所述数据储存模块用于对规则词库中所有应急信息数据进行储存；所述规则词库模块用于对应急知识数据进行集中管理；所述分词模块用于根据多策略结合的中文分词算法对输入的应急信息进行分词；所述数据匹配模块用于对接收的信息数据进行信息匹配操作；所述数据输出模块用于提供匹配成功后的成果数据；所述共享交换模块用于提供基于应急知识图谱的数据共享交换服务。

与现有技术相比，本发明具有的有益效果为：

1、多种分词策略按照顺序进行排列，将各类词句分成了各类等级，简单等级的利用简单的分词方式直接输出分词结果，有歧义、难以匹配的词句利用其他策略进行再次分词，多策略多级别分词的优势在于节约了简单等级的分词时间，提升分词效率；

2、多策略结合的中文分词技术中涉及到三种分词方式的结合：利用优化的正向最大匹配和逆向最大匹配算法、基于词库的中文分词方法以及基于神经元网络的统计分词方法，三种分词方式的缺点分别是：歧义消除能力弱、词库中词数量影响分词精度、耗时较长。而多策略结合的中文分词技术将三种分词方式按照顺序排列，利用判断条件对文本进行判别并利用不同分词技术进行分词，简单的分词利用简单的方法，复杂的分词利用复杂的方法，能够很好的提升分词的精准度。

附图说明

图1是本发明基于中文分词技术的应急知识图谱的构建方法的流程示意图；

图2是本发明基于中文分词技术的应急知识图谱的构建方法的中文分词结构示意图；

图3是本发明基于中文分词技术的应急知识图谱的构建方法的应急知识图谱体系示意图；

图4是本发明基于中文分词技术的应急知识图谱的构建方法的多策略结合的中文分词流程示意图；

图5是本发明基于中文分词技术的应急知识图谱的构建方法的层级模型拆分流程示意图；

图6是本发明基于中文分词技术的应急知识图谱的构建方法的应急知识图谱构建系统的框架图；

图7本发明基于中文分词技术的应急知识图谱的构建方法的匹配算法的流程图；

图8是本发明基于中文分词技术的应急知识图谱的构建方法的神经元网络模型的流程图。

具体实施方式

下面将结合本发明的实施例图中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

实施例：如图1所示，该基于中文分词技术的应急知识图谱的构建方法，具体包括以下步骤：

S1：输入应急信息文本；

S2：对所述步骤S1中的应急信息文本中的要素进行解析，提取关键数据，利用提取的关键数据构建应急知识库；所述步骤S2中的应急知识库包括应急要素特征词库以及应急要素标准数据库；

如图2所示，根据中文文本类型可将分词文本内容大致分为三种类型：文章类型、句子类型和词汇类型；针对不同类型的文本提供不同的方式对自然语言进行分析处理，例如词汇类型和句子类型的文本主要采用语法分析、语法分析、词性分析、命名实体识别、自动分词等方式，而文章类型的文本采用要素解析、信息提取、逻辑分析、字段切分、歧义分析、文本纠错等方式；

S3采用多策略结合的中文分词算法对所述步骤S1中输入的所述应急信息文本进行分词并判断，输出分词结果；

所述步骤S3中多策略结合的中文分词算法包括正向最大匹配和逆向最大匹配方法、利用字词库匹配的中文分词方法、基于频率统计的神经元网络模型分词方法；如图4所示，具体包括以下步骤：

S31：利用优化的正向最大匹配和逆向最大匹配方法对所述应急信息文本中的词句进行切分，并与所述应急要素特征词库进行比对，判断是否具有特征字；若没有特征字，则对分词结果进行序列标注，再输出分词结果；若有特征字，则根据特征字进行下一步判断；

其中优化的正向最大匹配和逆向最大匹配方法为：

为降低正向最大匹配法和逆向最大匹配法各自存在的匹配错误率，提高系统分词的准确度，采用正向最大匹配法和逆向最大匹配法相结合的分词方法（双向匹配法），并针对两种分词方法中出现的歧义词通过遍历训练文本集的方式，统计出正确切分频率，把最大的分词结果作为分词的正确结果，消除歧义，优化双向匹配法；如图7所示，具体步骤如下：

所述步骤S32中特征字级别包括第一级别，所述第一级别包括1级、2级、3级，所述1级为包含灾害种类的特征要素；所述2级为包含灾害地址数据的特征要素；所述3级为包含灾害时间的特征要素；没有在所述第一级别中的记为4级，所述4级为不包含1级、2级、3级的特征要素的特征字级别；

所述步骤S33中利用层级模型进行拆分，所述层级模型按照规则分为第一层级、第二层级和第三层级，所述第一层级包括数组A应急灾害种类和未能识别词；所述第二层级包括数组B应急灾害地址数据和未能识别词；所述第三层级包括数组C应急灾害时间和未能识别词；

如图5所示，所述步骤S33利用层级模型对特征字进行拆分的具体步骤为：

S333：若第三层级能识别，则输出分词结果；若未识别，则输出未识别的字词；

层级模型的具体识别过程为：

在第一层级中识别分词文本是否具有数组A应急灾害种类的特征词句，若有，则输出分词结果，若未能识别，则将未能识别文本归入第一层级的其他未识别特征词，并进入第二层级。在第二层级中对第一层级的其他未识别特征词是否具有数组B应急灾害地址数据的特征词句进行识别，若有，则输出分词结果，若未能识别，则将未能识别文本归入第二层级的其他未识别特征词，并进入第三层级。在第三层级中对第二层级的其他未识别特征词是否具有数组C应急灾害时间的特征词句进行识别，若有，则输出分词结果，若未能识别，则利用神经元网络模型统计方法进行进一步分词。

S34：再对步骤S33中输出的未识别的字词利用神经元网络模型统计方法进行分词，输出分词结果；

神经元网络模型统计方法主要是利用词与词的联合出现概率作为分词的依据，给中文字符序列中的每一个字赋予一个特定的词位标签，从已经正确分词的训练数据中自动学习到特征，通过训练模型对数据进行分词，能够有效识别未登录词。本神经元网络模型结合较常用的四词位标签集，定义新的标签集和标签含义（见下表1），判断每一个分词字符在新的词位标签集的分类。

表1定义新的标签集和标签含义

基于神经元网络的中文分词构架如图8所示：

首先将中文字符转换为容易处理的实数向量，在查找表中查询到其一一对应的字向量，实现字符向量化；通过一系列的神经元网络，构建线性模型和非线性模型，得到各个字符属于各个标签的得分向量；根据得分向量序列推断出标签序列；

采用正向最大匹配和逆向最大匹配方法、利用字词库匹配的中文分词方法、基于频率统计的神经元网络模型分词方法在本技术方案中实现多策略结合的中文分词算法，具体的计算过程为：

在获得应急各项知识库中的应急要素后，应急要素可用集合表示为：

Y={a₁…a_i,a_i+1…a_j,…a_k…a_n}={y₁,y₂,…y_n}，式中，Y为由应急要素构成的集合，Y中每一个元素由应急知识库A中的一个或者多个元素构成，其中y₁=a₁…a_i,y₂=a_i+1…a_i，且1≤i＜j＜k≤n，a_i为应急知识库中的元素；

此时用各个应急要素分别匹配应急知识库获取匹配项，设数据库词典构成的集合为：

P={p₁,p₂…p_w}；

通常，一个应急要素会有多个匹配项，基于预先相似度算法获取相似度最高的匹配项，首先将进行匹配的应急要素和匹配项按字切分，分的一个由字组成的集合，表示为：

y_u={y_u1,y_u2,…y_uv}

p_u={p_u1,p_u2,…p_uq}

p_uq={p_uq1,p_uq2,…p_uqr}

式中：y_u为集合y中的第u个应急要素，y_uv为应急要素y_u按字切分后得到的第v个字；集合p_u为可能得到的所有匹配项；p_uq为其中一个匹配项；p_uqr为匹配项p_uq按字切分得到后的第r个字；

其次，列出集合y_u和p_uq出现的所有字，并计算他们各自的字频，列出y_u的字频向量为{w₁,w₂,…w_n}和p_uq的字频向量为{v₁,v₂,…v_n}，其中n为字的总个数；再用余弦相似度算法计算相似度：

；

式中，Sim（y_u，p_uq）为第u个应急要素和其中一个匹配项的相似度。通过计算p_u中所有的匹配项分别与集合y的相似度，取相似度最大的匹配项为最佳匹配结果，匹配成功后输出成果数据。

为了验证所提出的多策略分词算法的有效性，随机抓取云南省100000条应急数据作为参考数据集，并选取其中10000条数据为待匹配应急要素。实现结果分析发现，应急要素匹配总分大于80分的比例为80.7%，比其他分词匹配效率提升15%左右。

表2 多策略分词算法的有效性验证结果

地址匹配总得分	匹配条数	所占比例
			60以下	662	6.6
≥60~70	719	7.2
			≥70~80	553	5.5
≥80~90	5436	54.4
			≥90~100	2630	26.3

如图6所示，该基于中文分词技术的应急知识图谱的构建系统包括控制模块、数据接收模块、共享交换模块、数据管理模块、数据储存模块、数据匹配模块、数据输出模块、分词模块和规则词库模块；所述数据接收模块、共享交换模块、数据管理模块、数据储存模块、数据匹配模块、数据输出模块、分词模块和规则词库模块均与控制模块形成双向数据连接；其中所述数据接收模块采用标准规范的接口协议，便于和各服务器之间进行数据对接；所述数据管理模块用于提供数据查询、数据统计功能；所述数据储存模块用于对规则词库中所有应急信息数据进行储存；所述规则词库模块用于对应急知识数据进行集中管理；所述分词模块用于根据多策略结合的中文分词算法对输入的应急信息进行分词；所述数据匹配模块用于对接收的信息数据进行信息匹配操作；所述数据输出模块用于提供匹配成功后的成果数据；所述共享交换模块用于提供基于应急知识图谱的数据共享交换服务。

如图3所示，应急知识图谱体系示意图中知识来源层主要包括结构化数据、半结构化数据和非结构化数据；知识加工厂层主要是对不同结构、不同来源的知识进行抽取、分类、融合、清洗、储存等处理，形成知识存入知识图谱中；知识图谱库主要是构建符合应急业务体系和需求的应急知识图谱，包括应急行业专题库、公共安全信息库、安全生产信息库、灾害风险数据库等；知识映射层主要是通过知识检索、实体发现、实体消歧、机器阅读、本体映射等方式不断的更新知识图谱；知识应用层主要是提供智能知识问答、智能知识搜索、知识挖掘、知识推理、关联分析等应用，实现知识的共享与应用，以获取新的知识。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于中文分词技术的应急知识图谱的构建方法，其特征在于，具体包括以下步骤：

S1：输入应急信息文本；

S5：根据应急业务体系结合所述成果数据构建应急知识图谱，输出图谱结果数据；

所述步骤S3中多策略结合的中文分词算法包括正向最大匹配和逆向最大匹配方法、利用字词库匹配的中文分词方法、基于频率统计的神经元网络模型分词方法；具体包括以下步骤：

2.根据权利要求1所述的基于中文分词技术的应急知识图谱的构建方法，其特征在于，所述步骤S32中特征字级别包括第一级别，所述第一级别包括1级、2级、3级，所述1级为包含灾害种类的特征要素；所述2级为包含灾害地址数据的特征要素；所述3级为包含灾害时间的特征要素；没有在所述第一级别中的记为4级，所述4级为不包含1级、2级、3级的特征要素的特征字级别。

3.根据权利要求1所述的基于中文分词技术的应急知识图谱的构建方法，其特征在于，所述步骤S33中利用层级模型进行拆分，所述层级模型按照规则分为第一层级、第二层级和第三层级，所述第一层级包括数组A应急灾害种类和未能识别词；所述第二层级包括数组B应急灾害地址数据和未能识别词；所述第三层级包括数组C应急灾害时间和未能识别词。

4.根据权利要求3所述的基于中文分词技术的应急知识图谱的构建方法，其特征在于，所述步骤S33利用层级模型对特征字进行拆分的具体步骤为：

5.根据权利要求1所述的基于中文分词技术的应急知识图谱的构建方法，其特征在于，所述步骤S2中的应急知识库包括应急要素特征词库以及应急要素标准数据库。

6.一种基于中文分词技术的应急知识图谱的构建系统，其特征在于，该基于中文分词技术的应急知识图谱的构建系统包括控制模块、数据接收模块、共享交换模块、数据管理模块、数据储存模块、数据匹配模块、数据输出模块、分词模块和规则词库模块；所述数据接收模块、共享交换模块、数据管理模块、数据储存模块、数据匹配模块、数据输出模块、分词模块和规则词库模块均与控制模块形成双向数据连接；其中所述数据接收模块采用标准规范的接口协议，便于和各服务器之间进行数据对接；所述数据管理模块用于提供数据查询、数据统计功能；所述数据储存模块用于对规则词库中所有应急信息数据进行储存；所述规则词库模块用于对应急知识数据进行集中管理；所述分词模块用于根据多策略结合的中文分词算法对输入的应急信息进行分词；所述数据匹配模块用于对接收的信息数据进行信息匹配操作；所述数据输出模块用于提供匹配成功后的成果数据；所述共享交换模块用于提供基于应急知识图谱的数据共享交换服务。