CN108228788A

CN108228788A - 办事指南自动提取并关联的方法及电子设备

Info

Publication number: CN108228788A
Application number: CN201711474769.7A
Authority: CN
Inventors: 陈征宇; 林韶军; 戴文艳; 李昱东; 黄炳裕; 陈慧颖
Original assignee: Evecom Information Technology Development Co Ltd
Current assignee: Evecom Information Technology Development Co Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-29

Abstract

本发明涉及一种办事指南自动提取并关联的方法、存储介质及电子设备，包括以下步骤：获取办事指南文本数据；根据文本特征集查找办事指南文本数据中的匹配特征；根据匹配特征的概率转移矩阵，获取当前匹配文本的状态概率；根据当前的状态概率，滤出处于匹配状态的匹配区间；在匹配区间中过滤掉无效文本后，输出事项信息的结构化文本数据；根据结构化文本数据，建立事项信息之间的关系。不依赖于大量标注的训练数据，满足不具备数据资源的企业快速低成本建立业务逻辑的需要，区分了通用的模型训练与具体数据的自动处理过程。

Description

办事指南自动提取并关联的方法及电子设备

技术领域

本发明涉及文本数据提取领域，特别涉及一种办事指南自动提取并关联的方法、存储介质及电子设备。

背景技术

公共服务部门日益重视向人民群众提供广泛的公众办事服务，这些单位在建设在线办事服务系统时，需要将大量书面文档转换为严格的形式化程序逻辑。

目前政务信息化行业一般由需求分析人员向业务单位人员进行调研，人工归纳总结，设计开发人员根据设计文档人工建立数据字典，编写程序实现事务逻辑。软件学术与产业界也发展了若干自动化结构提取方法，常见的是开发人员观察数据结构，设计出提取规则，将规则编码为程序再处理文档数据。另一种则是采用自然语言处理与机器学习技术，训练分词、句法结构、命名实体识别与分类模型，试图识别文本结构信息。而面临大量自然语言文本数据，超出了人工归纳能力；自然语言文本形式丰富多变，需要大量规则(数量级与数据量同等)涵盖噪音数据才能得到较好效果，同样超出人工实现能力；机器学习方法较少依赖人工规则，但现存的通用自然语言处理方案没有利用显见的文本结构，分词、句法结构、命名实体识别、分类的阶段过多造成模型难以训练，在实际数据上表现不好，资源消耗也较大。为了自动提取办事服务逻辑，实现关键在于对自然语言描述文本进行命名实体识别，提取并分类其中出现的命名实体。其中命名实体识别(NER)是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，作为结构化信息提取的重要步骤。

发明内容

为此，需要提供一种办事指南自动提取并关联的方法、存储介质及电子设备，解决现有大量自然语言文本数据超出人工归纳的能力，且由于自然语言文本行驶丰富多变而超出人工实现能力，及现有的自然语言处理方案实际数据资源消耗较大的问题。

为实现上述目的，发明人提供了一种办事指南自动提取并关联的方法，包括以下步骤：

获取办事指南文本数据；

根据文本特征集查找办事指南文本数据中的匹配特征，所述文本特征集为建立隐马尔科夫模型的文本特征集，所述隐马尔科夫模型表示为每个文本特征的概率转移矩阵；

根据匹配特征的概率转移矩阵，获取当前匹配文本的状态概率；

根据当前的状态概率，滤出处于匹配状态的匹配区间，所述匹配区间为办事指南文本数据中的命名实体候选；

在匹配区间中过滤掉无效文本后，输出事项信息的结构化文本数据，所述无效文本为长度过短的匹配区间和仅包含特征的文本数据；

根据结构化文本数据，建立事项信息之间的关系。

进一步优化，所述“获取办事指南文本数据”之后还包括步骤：

根据训练数据、文本特征及正样本，计算训练数据中的正样本与非正样本中出现文本特征的次数；

根据正正样本与非正样本中出现文本特征的次数计算文本特征的转移概率；

对转移概率进行调整；

输出每个文本特征的概率转移矩阵形成隐马尔科夫模型。

进一步优化，所述“对转移概率进行调整”具体包括：

对文本特征的正、非正与负状态两两间的转移计数分别应用一个信息量算子；

对转移计数归一化得到转移概率。

进一步优化，所述事项信息包括事项名称、事项ID、事项部门、事项需求材料及办理产生证件。

发明人还提供了另一个技术方案，一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述方法的步骤。

发明人还提供了另一个技术方案，一种电子设备，包括存储器、处理器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述方法的步骤。

区别于现有技术，上述技术方案，通过获得办事服务指南的文本数据，根据文本特征集查找办事指南文本数据中的匹配特征；根据匹配特征的概率转移矩阵，获取当前匹配文本的状态概率，滤出处于匹配状态的匹配区间，在匹配区间中过滤掉无效文本后，输出事项信息的结构化文本数据，建立事项信息之间的关系；根据输出的事项关系数据补充人员对复杂的流程的有限了解，可以根据事项信息之间的关联可以直接明了地知晓各个事项的流程及所需材料，本方案适应自然语言文本的多变性，匹配准确性显著高于依赖确定性预定义规则的ETL方法；同时本发明与典型机器学习技术相比，不依赖于大量标注的训练数据，满足不具备数据资源的企业快速低成本建立业务逻辑的需要，区分了通用的模型训练与具体数据的自动处理过程，使得本发明包含的程序能够适应不同种类数据的结构化过程与同一类数据的新增处理。

附图说明

图1为具体实施方式所述办事指南自动提取并关联的方法的一种流程示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，本实施例所述办事指南自动提取并关联的方法，包括以下步骤：

步骤S110：获取办事指南文本数据；获取自然语言描述的办事服务指南的文本数据及文本特征，其中文本数据的内容包括当不限于办事事项的条件、目标、材料需求、处理流程与办理产生证件等。

步骤S120：根据文本特征集查找办事指南文本数据中的匹配特征，所述文本特征集为建立隐马尔科夫模型的文本特征集，所述隐马尔科夫模型表示为每个文本特征的概率转移矩阵；所述匹配特征为办事指南文本数据中的命名实体。上述隐马尔科夫模型刻画候选命名实体匹配区间正、非正与负状态两两间的转移概率，其表示为每个文本特征的概率转移矩阵。

步骤S130：根据匹配特征的概率转移矩阵，获取当前匹配文本的状态概率。

步骤S140：根据当前的状态转移概率，滤出处于匹配状态的匹配区间，所述匹配区间为办事指南文本数据中的命名实体候选。

步骤S150：在匹配区间中过滤掉无效文本后，输出结构化文本数据，其中无效文本为长度过短的匹配区间和仅包含文本特征的文本数据。

步骤S160：根据结构化文本数据，建立事项信息之间的关系。

将办事指南中的文本数据中区分出事项基本信息、事项条件、事项目标、事项材料要求及事项处理流程等不同类型的结构化文本数据，分别清洗验证不同类型数据。通过用训练文本数据训练命名实体识别的隐马尔科夫模型后，实现对办事指南中的自然语言描述的文本数据进行命名实体识别，提取并分类其中出现的命名实体，形成结构化文本数据。其中训练文本数据具有与办事指南文本数据类似的结构，并包含了与办事指南文本数据相同数据类型。其中根据业务需求，通过设定的部分的命名实体识别特征形成特征集，通过设定部分的命名实体样本为正样本集，使用该类型数据的样本数据、特征集及正样本集经过训练得到命名实体识别模型，提供自动化工具，以尽量少的人工投入将自然语言描述的业务需求结构化，极大节省了需求的分析与设计、开发、测试阶段的人力、时间投入，避免了开发环节上下游反复沟通造成的低效与出错隐患；同时适应自然语言的文本数据的多变性，匹配准确性显著高于依赖确定性预定义规则的ETL方法，不依赖大量标注的训练数据，满足不具备数据资源的企业快速低成本建立业务逻辑的需求；而且解耦了通用模型训练与具体数据的自动处理过程，能够适应不同种类数据的结构化过程与同一类数据的新增处理；并且实现了自然语言描述的业务信息到包含程序逻辑的结构化文本数据的自动化方法，使用约400条样本的少量标记训练数据就识别出大于10000条目标数据。

通过将事项信息进行关联，其中事项信息包括事项名称、事项ID、事项部门、材料需求、处理流程与办理产生证件。

当根据结构化文本数据，建立事项信息与结构化文本数据之间的关系后，将其应用到政务在线公众办事服务系统，当使用该系统的办事群众提交某个材料时，根据结构化文本数据与事项信息之间的关联，将同样需要该材料的流程或者事项进行关联，无需办事群众和该系统在各业务部门的服务人员就后续的流程或者事项中需要同样材料时，而重复递交材料的复杂；并且根据事项信息之间的关联，每个事项正在办理时，记录该事项所处的流程阶段，根据事项依赖关系得到该事项的前提事项和后继事项，分别合并该办事群众的所有前提事项和所有后继事项，以该办事群众的信息为条件过滤得到该办事群众的前提事项集和后继事项集，向该办事群众推荐前提事项集和后继事项集中的事项，当该办事群众查询已经办理过的事项时，显示办理结果和再次办理选项，当办事群众查询正在办理中的事项时，显示办理状态，缺失材料和提交缺失材料的选项，当办事群众查询或接收推荐的某一事项时，根据该办事群众信息显示事项是否可以办理，具体的流程与相关信息，当办事群众决定办理某一事项时，将该事项加入正在办理中的事项集，自动提交用户材料集中有效且该事项要求的材料并通知有关政务服务人员，转入上述推荐步骤，对于办理中的某一事项，跟踪记录该事项对应流程每一步的状态与结果，当某一事项办理完毕，系统将该事项从正在办理中的事项集移入已经办理过的事项集，若该事项产生了任何证件材料，将产生的证件材料的索引加入办事群众材料集，同时系统汇总所有办事群众办理该事项的结果用于统计分析。实现追踪不同事项间的依赖关系和办事群众并行办理事项的需求，使得办事群众了解办事事项更清晰，办事更简单。减少服务人员和办事群众就相同信息或材料重复采集和提交，避免办事群众多次重复操作或者跑腿，及服务人员重复审查相同流程或者材料的情况，提高办事效率，较少技术失败率。

其中，隐马尔科夫模型的获取步骤为：根据业务需求，整理出一部分命名实体识别的文本特征及命名实体的正样本，分别形成文本特征集及正样本集，使用训练数据、文本特征集及正样本集训练该类型数据的命名实体识别推理模型，根据训练数据、文本特征集及正样本集，计算训练数据中的正样本与非正样本中出现文本特征的次数；根据正样本与非正样本中出现文本特征的次数计算文本特征的转移概率；通过对文本特征的转移概率进行调整，使得转移概率符合原先正样本中包含的信息，进而根据调整后的文本特征的转移概率得到每个文本特征的概率转移矩阵形成隐马尔科夫模型，用于对办事指南进行命名实体识别。

由于设计开发人员可能无法一次性找到最合适的命名实体识别特征与命名实体样本，根据隐马尔科夫模型的状态转移概率及该隐马尔科夫模型对每个训练文本数据的匹配结果进行评估该隐马尔科夫模型的效果，若效果达到需求目标，则该隐马尔科夫模型为所需的隐马尔科夫模型，若效果未达到需求目标，则选择匹配数量过少的正样本，整理该正样本加入正样本集中，整理文本特征加入文本特征集中，接着从文本特征集中选择状态转移概率接近平均的特征，将其从文本特征集中去除，根据新的正样本集及新的文本特征集重新获取隐马尔科夫模型。经过多次迭代调整正样本集及文本特征集的过程，最终得到符合要求的隐马尔科夫模型。

在本实施例中，为了进一步应对训练数据中正样本分布非常稀疏，负样本缺少明显特征所以难以判定，人工制作数据标记需要大量投入的问题，步骤“对转移概率进行调整”具体包括：对文本特征的正、非正与负状态两两间的转移计数分别应用一个信息量算子。

首先定义1-范数：

其中状态维数为3；

定义归一化算子：

定义信息量算子：

并直接用I对3*3的计数矩阵进行变换，其中变换前输入的是没有归一化的计数矩阵，每个特征对应一个计数矩阵：

对转移计数归一化得到转移概率，据此计算状态转移矩阵：

其中ε是避免被0除的小正数，由此我们得到每个特征对应的状态转移矩阵。以上步骤对问题结构要求宽松，不依赖于大量标注的训练数据，满足不具备数据资源的企业快速低成本建立业务逻辑的需要。

在另一个实施例中，一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所述方法的步骤。通过用训练文本数据训练命名实体识别的隐马尔科夫模型后，实现对办事指南中的自然语言描述的文本数据进行命名实体识别，提取并分类其中出现的命名实体，形成结构化文本数据。其中训练文本数据具有与办事指南文本数据类似的结构，并包含了与办事指南文本数据相同数据类型。其中根据业务需求，通过设定的部分的命名实体识别特征形成特征集，通过设定部分的命名实体样本为正样本集，使用该类型数据的样本数据、特征集及正样本集经过训练得到命名实体识别模型提供自动化工具，以尽量少的人工投入将自然语言描述的业务需求结构化，极大节省了需求的分析与设计、开发、测试阶段的人力、时间投入，避免了开发环节上下游反复沟通造成的低效与出错误隐患；同时适应自然语言的文本数据的多变性，匹配准确性显著高于依赖确定性预定义规则的ETL方法，不依赖大量标注的训练数据，满足不具备数据资源的企业快速低成本建立业务逻辑的需求；而且解耦了通用模型训练与具体数据的自动处理过程，能够适应不同种类数据的结构化过程与同一类数据的新增处理；并且实现了自然语言描述的业务信息包含程序逻辑的结构化文本数据的自动化方法，使用约400条样本的少量标记训练数据就识别出大于10000条目标数据。

当根据结构化文本数据，建立事项信息与结构化文本数据之间的关系后，将其应用到政务在线公众办事服务系统，当使用该系统的办事群众提交某个材料时，根据结构化文本数据与事项信息之间的关联，将同样需要该材料的流程或者事项进行关联，无需办事群众和该系统在各业务部门的服务人员就后续的流程或者事项中需要同样材料时重复递交材料；并且根据事项信息之间的关联，每个事项正在办理时，记录该事项所处的流程阶段，根据事项依赖关系得到该事项的前提事项和后继事项，分别合并该办事群众的所有前提事项和所有后继事项，以该办事群众的信息为条件过滤得到该办事群众的前提事项集和后继事项集，向该办事群众推荐前提事项集和后继事项集中的事项，当该办事群众查询已经办理过的事项时，显示办理结果和再次办理选项，当办事群众查询正在办理中的事项时，显示办理状态，缺失材料和提交缺失材料的选项，当办事群众查询或接收推荐的某一事项时，根据该办事群众信息显示事项是否可以办理，具体的流程与相关信息，当办事群众决定办理某一事项时，将该事项加入正在办理中的事项集，自动提交用户材料集中有效且该事项要求的材料并通知有关政务服务人员，转入上述推荐步骤，对于办理中的某一事项，跟踪记录该事项对应流程每一步的状态与结果，当某一事项办理完毕，系统将该事项从正在办理中的事项集移入已经办理过的事项集，若该事项产生了任何证件材料，将产生的证件材料的索引加入办事群众材料集，同时系统汇总所有办事群众办理该事项的结果用于统计分析。实现追踪不同事项间的依赖关系和办事群众并行办理事项的需求，使得办事群众了解办事事项更清晰，办事更简单。减少服务人员和办事群众就相同信息或材料重复采集和提交，避免办事群众多次重复操作或者跑腿，及服务人员重复审查相同流程或者材料的情况，提高办事效率，较少技术失败率。

在另一个实施例中，一种电子设备，包括存储器、处理器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所述方法的步骤。

通过用训练文本数据训练命名实体识别的隐马尔科夫模型后，实现对办事指南中的自然语言描述的文本数据进行命名实体识别，提取并分类其中出现的命名实体，形成结构化文本数据。其中训练文本数据具有与办事指南文本数据类似的结构，并包含了与办事指南文本数据相同数据类型。其中根据业务需求，通过设定的部分的命名实体识别特征形成特征集，通过设定部分的命名实体样本为正样本集，使用该类型数据的样本数据、特征集及正样本集经过训练得到命名实体识别模型提供自动化工具，以尽量少的人工投入将自然语言描述的业务需求结构化，极大节省了需求的分析与设计、开发、测试阶段的人力、时间投入，避免了开发环节上下游反复沟通造成的低效与出错误隐患；同时适应自然语言的文本数据的多变性，匹配准确性显著高于依赖确定性预定义规则的ETL方法，不依赖大量标注的训练数据，满足不具备数据资源的企业快速低成本建立业务逻辑的需求；而且解耦了通用模型训练与具体数据的自动处理过程，能够适应不同种类数据的结构化过程与同一类数据的新增处理；并且实现了自然语言描述的业务信息包含程序逻辑的结构化文本数据的自动化方法，使用约400条样本的少量标记训练数据就识别出大于10000条目标数据。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种办事指南自动提取并关联的方法，其特征在于，包括以下步骤：

获取办事指南文本数据；

根据结构化文本数据，建立事项信息之间的关系。

2.根据权利要求1所述办事指南自动提取并关联的方法，其特征在于，所述“获取办事指南文本数据”之后还包括步骤：

根据正样本与非正样本中出现文本特征的次数计算文本特征的转移概率；

对转移概率进行调整；

输出每个文本特征的概率转移矩阵形成隐马尔科夫模型。

3.根据权利要求2所述办事指南自动提取并关联的方法，其特征在于，所述“对转移概率进行调整”具体包括：

对转移计数归一化得到转移概率。

4.根据权利要求1所述办事指南自动提取并关联的方法，其特征在于，所述事项信息包括事项名称、事项ID、事项部门、事项需求材料及办理产生证件。

5.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1到4任一项所述方法的步骤。

6.一种电子设备，其特征在于，包括存储器、处理器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1到4任意一项所述方法的步骤。