CN108228788A - 办事指南自动提取并关联的方法及电子设备 - Google Patents

办事指南自动提取并关联的方法及电子设备 Download PDF

Info

Publication number
CN108228788A
CN108228788A CN201711474769.7A CN201711474769A CN108228788A CN 108228788 A CN108228788 A CN 108228788A CN 201711474769 A CN201711474769 A CN 201711474769A CN 108228788 A CN108228788 A CN 108228788A
Authority
CN
China
Prior art keywords
text
data
item
guide
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711474769.7A
Other languages
English (en)
Inventor
陈征宇
林韶军
戴文艳
李昱东
黄炳裕
陈慧颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Evecom Information Technology Development Co Ltd
Original Assignee
Evecom Information Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Evecom Information Technology Development Co Ltd filed Critical Evecom Information Technology Development Co Ltd
Priority to CN201711474769.7A priority Critical patent/CN108228788A/zh
Publication of CN108228788A publication Critical patent/CN108228788A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Abstract

本发明涉及一种办事指南自动提取并关联的方法、存储介质及电子设备,包括以下步骤:获取办事指南文本数据;根据文本特征集查找办事指南文本数据中的匹配特征;根据匹配特征的概率转移矩阵,获取当前匹配文本的状态概率;根据当前的状态概率,滤出处于匹配状态的匹配区间;在匹配区间中过滤掉无效文本后,输出事项信息的结构化文本数据;根据结构化文本数据,建立事项信息之间的关系。不依赖于大量标注的训练数据,满足不具备数据资源的企业快速低成本建立业务逻辑的需要,区分了通用的模型训练与具体数据的自动处理过程。

Description

办事指南自动提取并关联的方法及电子设备
技术领域
本发明涉及文本数据提取领域,特别涉及一种办事指南自动提取并关联的方法、存储介质及电子设备。
背景技术
公共服务部门日益重视向人民群众提供广泛的公众办事服务,这些单位在建设在线办事服务系统时,需要将大量书面文档转换为严格的形式化程序逻辑。
目前政务信息化行业一般由需求分析人员向业务单位人员进行调研,人工归纳总结,设计开发人员根据设计文档人工建立数据字典,编写程序实现事务逻辑。软件学术与产业界也发展了若干自动化结构提取方法,常见的是开发人员观察数据结构,设计出提取规则,将规则编码为程序再处理文档数据。另一种则是采用自然语言处理与机器学习技术,训练分词、句法结构、命名实体识别与分类模型,试图识别文本结构信息。而面临大量自然语言文本数据,超出了人工归纳能力;自然语言文本形式丰富多变,需要大量规则(数量级与数据量同等)涵盖噪音数据才能得到较好效果,同样超出人工实现能力;机器学习方法较少依赖人工规则,但现存的通用自然语言处理方案没有利用显见的文本结构,分词、句法结构、命名实体识别、分类的阶段过多造成模型难以训练,在实际数据上表现不好,资源消耗也较大。为了自动提取办事服务逻辑,实现关键在于对自然语言描述文本进行命名实体识别,提取并分类其中出现的命名实体。其中命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,作为结构化信息提取的重要步骤。
发明内容
为此,需要提供一种办事指南自动提取并关联的方法、存储介质及电子设备,解决现有大量自然语言文本数据超出人工归纳的能力,且由于自然语言文本行驶丰富多变而超出人工实现能力,及现有的自然语言处理方案实际数据资源消耗较大的问题。
为实现上述目的,发明人提供了一种办事指南自动提取并关联的方法,包括以下步骤:
获取办事指南文本数据;
根据文本特征集查找办事指南文本数据中的匹配特征,所述文本特征集为建立隐马尔科夫模型的文本特征集,所述隐马尔科夫模型表示为每个文本特征的概率转移矩阵;
根据匹配特征的概率转移矩阵,获取当前匹配文本的状态概率;
根据当前的状态概率,滤出处于匹配状态的匹配区间,所述匹配区间为办事指南文本数据中的命名实体候选;
在匹配区间中过滤掉无效文本后,输出事项信息的结构化文本数据,所述无效文本为长度过短的匹配区间和仅包含特征的文本数据;
根据结构化文本数据,建立事项信息之间的关系。
进一步优化,所述“获取办事指南文本数据”之后还包括步骤:
根据训练数据、文本特征及正样本,计算训练数据中的正样本与非正样本中出现文本特征的次数;
根据正正样本与非正样本中出现文本特征的次数计算文本特征的转移概率;
对转移概率进行调整;
输出每个文本特征的概率转移矩阵形成隐马尔科夫模型。
进一步优化,所述“对转移概率进行调整”具体包括:
对文本特征的正、非正与负状态两两间的转移计数分别应用一个信息量算子;
对转移计数归一化得到转移概率。
进一步优化,所述事项信息包括事项名称、事项ID、事项部门、事项需求材料及办理产生证件。
发明人还提供了另一个技术方案,一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述方法的步骤。
发明人还提供了另一个技术方案,一种电子设备,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述方法的步骤。
区别于现有技术,上述技术方案,通过获得办事服务指南的文本数据,根据文本特征集查找办事指南文本数据中的匹配特征;根据匹配特征的概率转移矩阵,获取当前匹配文本的状态概率,滤出处于匹配状态的匹配区间,在匹配区间中过滤掉无效文本后,输出事项信息的结构化文本数据,建立事项信息之间的关系;根据输出的事项关系数据补充人员对复杂的流程的有限了解,可以根据事项信息之间的关联可以直接明了地知晓各个事项的流程及所需材料,本方案适应自然语言文本的多变性,匹配准确性显著高于依赖确定性预定义规则的ETL方法;同时本发明与典型机器学习技术相比,不依赖于大量标注的训练数据,满足不具备数据资源的企业快速低成本建立业务逻辑的需要,区分了通用的模型训练与具体数据的自动处理过程,使得本发明包含的程序能够适应不同种类数据的结构化过程与同一类数据的新增处理。
附图说明
图1为具体实施方式所述办事指南自动提取并关联的方法的一种流程示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,本实施例所述办事指南自动提取并关联的方法,包括以下步骤:
步骤S110:获取办事指南文本数据;获取自然语言描述的办事服务指南的文本数据及文本特征,其中文本数据的内容包括当不限于办事事项的条件、目标、材料需求、处理流程与办理产生证件等。
步骤S120:根据文本特征集查找办事指南文本数据中的匹配特征,所述文本特征集为建立隐马尔科夫模型的文本特征集,所述隐马尔科夫模型表示为每个文本特征的概率转移矩阵;所述匹配特征为办事指南文本数据中的命名实体。上述隐马尔科夫模型刻画候选命名实体匹配区间正、非正与负状态两两间的转移概率,其表示为每个文本特征的概率转移矩阵。
步骤S130:根据匹配特征的概率转移矩阵,获取当前匹配文本的状态概率。
步骤S140:根据当前的状态转移概率,滤出处于匹配状态的匹配区间,所述匹配区间为办事指南文本数据中的命名实体候选。
步骤S150:在匹配区间中过滤掉无效文本后,输出结构化文本数据,其中无效文本为长度过短的匹配区间和仅包含文本特征的文本数据。
步骤S160:根据结构化文本数据,建立事项信息之间的关系。
将办事指南中的文本数据中区分出事项基本信息、事项条件、事项目标、事项材料要求及事项处理流程等不同类型的结构化文本数据,分别清洗验证不同类型数据。通过用训练文本数据训练命名实体识别的隐马尔科夫模型后,实现对办事指南中的自然语言描述的文本数据进行命名实体识别,提取并分类其中出现的命名实体,形成结构化文本数据。其中训练文本数据具有与办事指南文本数据类似的结构,并包含了与办事指南文本数据相同数据类型。其中根据业务需求,通过设定的部分的命名实体识别特征形成特征集,通过设定部分的命名实体样本为正样本集,使用该类型数据的样本数据、特征集及正样本集经过训练得到命名实体识别模型,提供自动化工具,以尽量少的人工投入将自然语言描述的业务需求结构化,极大节省了需求的分析与设计、开发、测试阶段的人力、时间投入,避免了开发环节上下游反复沟通造成的低效与出错隐患;同时适应自然语言的文本数据的多变性,匹配准确性显著高于依赖确定性预定义规则的ETL方法,不依赖大量标注的训练数据,满足不具备数据资源的企业快速低成本建立业务逻辑的需求;而且解耦了通用模型训练与具体数据的自动处理过程,能够适应不同种类数据的结构化过程与同一类数据的新增处理;并且实现了自然语言描述的业务信息到包含程序逻辑的结构化文本数据的自动化方法,使用约400条样本的少量标记训练数据就识别出大于10000条目标数据。
通过将事项信息进行关联,其中事项信息包括事项名称、事项ID、事项部门、材料需求、处理流程与办理产生证件。
当根据结构化文本数据,建立事项信息与结构化文本数据之间的关系后,将其应用到政务在线公众办事服务系统,当使用该系统的办事群众提交某个材料时,根据结构化文本数据与事项信息之间的关联,将同样需要该材料的流程或者事项进行关联,无需办事群众和该系统在各业务部门的服务人员就后续的流程或者事项中需要同样材料时,而重复递交材料的复杂;并且根据事项信息之间的关联,每个事项正在办理时,记录该事项所处的流程阶段,根据事项依赖关系得到该事项的前提事项和后继事项,分别合并该办事群众的所有前提事项和所有后继事项,以该办事群众的信息为条件过滤得到该办事群众的前提事项集和后继事项集,向该办事群众推荐前提事项集和后继事项集中的事项,当该办事群众查询已经办理过的事项时,显示办理结果和再次办理选项,当办事群众查询正在办理中的事项时,显示办理状态,缺失材料和提交缺失材料的选项,当办事群众查询或接收推荐的某一事项时,根据该办事群众信息显示事项是否可以办理,具体的流程与相关信息,当办事群众决定办理某一事项时,将该事项加入正在办理中的事项集,自动提交用户材料集中有效且该事项要求的材料并通知有关政务服务人员,转入上述推荐步骤,对于办理中的某一事项,跟踪记录该事项对应流程每一步的状态与结果,当某一事项办理完毕,系统将该事项从正在办理中的事项集移入已经办理过的事项集,若该事项产生了任何证件材料,将产生的证件材料的索引加入办事群众材料集,同时系统汇总所有办事群众办理该事项的结果用于统计分析。实现追踪不同事项间的依赖关系和办事群众并行办理事项的需求,使得办事群众了解办事事项更清晰,办事更简单。减少服务人员和办事群众就相同信息或材料重复采集和提交,避免办事群众多次重复操作或者跑腿,及服务人员重复审查相同流程或者材料的情况,提高办事效率,较少技术失败率。
其中,隐马尔科夫模型的获取步骤为:根据业务需求,整理出一部分命名实体识别的文本特征及命名实体的正样本,分别形成文本特征集及正样本集,使用训练数据、文本特征集及正样本集训练该类型数据的命名实体识别推理模型,根据训练数据、文本特征集及正样本集,计算训练数据中的正样本与非正样本中出现文本特征的次数;根据正样本与非正样本中出现文本特征的次数计算文本特征的转移概率;通过对文本特征的转移概率进行调整,使得转移概率符合原先正样本中包含的信息,进而根据调整后的文本特征的转移概率得到每个文本特征的概率转移矩阵形成隐马尔科夫模型,用于对办事指南进行命名实体识别。
由于设计开发人员可能无法一次性找到最合适的命名实体识别特征与命名实体样本,根据隐马尔科夫模型的状态转移概率及该隐马尔科夫模型对每个训练文本数据的匹配结果进行评估该隐马尔科夫模型的效果,若效果达到需求目标,则该隐马尔科夫模型为所需的隐马尔科夫模型,若效果未达到需求目标,则选择匹配数量过少的正样本,整理该正样本加入正样本集中,整理文本特征加入文本特征集中,接着从文本特征集中选择状态转移概率接近平均的特征,将其从文本特征集中去除,根据新的正样本集及新的文本特征集重新获取隐马尔科夫模型。经过多次迭代调整正样本集及文本特征集的过程,最终得到符合要求的隐马尔科夫模型。
在本实施例中,为了进一步应对训练数据中正样本分布非常稀疏,负样本缺少明显特征所以难以判定,人工制作数据标记需要大量投入的问题,步骤“对转移概率进行调整”具体包括:对文本特征的正、非正与负状态两两间的转移计数分别应用一个信息量算子。
首先定义1-范数:
其中状态维数为3;
定义归一化算子:
定义信息量算子:
并直接用I对3*3的计数矩阵进行变换,其中变换前输入的是没有归一化的计数矩阵,每个特征对应一个计数矩阵:
对转移计数归一化得到转移概率,据此计算状态转移矩阵:
其中ε是避免被0除的小正数,由此我们得到每个特征对应的状态转移矩阵。以上步骤对问题结构要求宽松,不依赖于大量标注的训练数据,满足不具备数据资源的企业快速低成本建立业务逻辑的需要。
在另一个实施例中,一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述方法的步骤。通过用训练文本数据训练命名实体识别的隐马尔科夫模型后,实现对办事指南中的自然语言描述的文本数据进行命名实体识别,提取并分类其中出现的命名实体,形成结构化文本数据。其中训练文本数据具有与办事指南文本数据类似的结构,并包含了与办事指南文本数据相同数据类型。其中根据业务需求,通过设定的部分的命名实体识别特征形成特征集,通过设定部分的命名实体样本为正样本集,使用该类型数据的样本数据、特征集及正样本集经过训练得到命名实体识别模型提供自动化工具,以尽量少的人工投入将自然语言描述的业务需求结构化,极大节省了需求的分析与设计、开发、测试阶段的人力、时间投入,避免了开发环节上下游反复沟通造成的低效与出错误隐患;同时适应自然语言的文本数据的多变性,匹配准确性显著高于依赖确定性预定义规则的ETL方法,不依赖大量标注的训练数据,满足不具备数据资源的企业快速低成本建立业务逻辑的需求;而且解耦了通用模型训练与具体数据的自动处理过程,能够适应不同种类数据的结构化过程与同一类数据的新增处理;并且实现了自然语言描述的业务信息包含程序逻辑的结构化文本数据的自动化方法,使用约400条样本的少量标记训练数据就识别出大于10000条目标数据。
通过将事项信息进行关联,其中事项信息包括事项名称、事项ID、事项部门、材料需求、处理流程与办理产生证件。
当根据结构化文本数据,建立事项信息与结构化文本数据之间的关系后,将其应用到政务在线公众办事服务系统,当使用该系统的办事群众提交某个材料时,根据结构化文本数据与事项信息之间的关联,将同样需要该材料的流程或者事项进行关联,无需办事群众和该系统在各业务部门的服务人员就后续的流程或者事项中需要同样材料时重复递交材料;并且根据事项信息之间的关联,每个事项正在办理时,记录该事项所处的流程阶段,根据事项依赖关系得到该事项的前提事项和后继事项,分别合并该办事群众的所有前提事项和所有后继事项,以该办事群众的信息为条件过滤得到该办事群众的前提事项集和后继事项集,向该办事群众推荐前提事项集和后继事项集中的事项,当该办事群众查询已经办理过的事项时,显示办理结果和再次办理选项,当办事群众查询正在办理中的事项时,显示办理状态,缺失材料和提交缺失材料的选项,当办事群众查询或接收推荐的某一事项时,根据该办事群众信息显示事项是否可以办理,具体的流程与相关信息,当办事群众决定办理某一事项时,将该事项加入正在办理中的事项集,自动提交用户材料集中有效且该事项要求的材料并通知有关政务服务人员,转入上述推荐步骤,对于办理中的某一事项,跟踪记录该事项对应流程每一步的状态与结果,当某一事项办理完毕,系统将该事项从正在办理中的事项集移入已经办理过的事项集,若该事项产生了任何证件材料,将产生的证件材料的索引加入办事群众材料集,同时系统汇总所有办事群众办理该事项的结果用于统计分析。实现追踪不同事项间的依赖关系和办事群众并行办理事项的需求,使得办事群众了解办事事项更清晰,办事更简单。减少服务人员和办事群众就相同信息或材料重复采集和提交,避免办事群众多次重复操作或者跑腿,及服务人员重复审查相同流程或者材料的情况,提高办事效率,较少技术失败率。
其中,隐马尔科夫模型的获取步骤为:根据业务需求,整理出一部分命名实体识别的文本特征及命名实体的正样本,分别形成文本特征集及正样本集,使用训练数据、文本特征集及正样本集训练该类型数据的命名实体识别推理模型,根据训练数据、文本特征集及正样本集,计算训练数据中的正样本与非正样本中出现文本特征的次数;根据正样本与非正样本中出现文本特征的次数计算文本特征的转移概率;通过对文本特征的转移概率进行调整,使得转移概率符合原先正样本中包含的信息,进而根据调整后的文本特征的转移概率得到每个文本特征的概率转移矩阵形成隐马尔科夫模型,用于对办事指南进行命名实体识别。
由于设计开发人员可能无法一次性找到最合适的命名实体识别特征与命名实体样本,根据隐马尔科夫模型的状态转移概率及该隐马尔科夫模型对每个训练文本数据的匹配结果进行评估该隐马尔科夫模型的效果,若效果达到需求目标,则该隐马尔科夫模型为所需的隐马尔科夫模型,若效果未达到需求目标,则选择匹配数量过少的正样本,整理该正样本加入正样本集中,整理文本特征加入文本特征集中,接着从文本特征集中选择状态转移概率接近平均的特征,将其从文本特征集中去除,根据新的正样本集及新的文本特征集重新获取隐马尔科夫模型。经过多次迭代调整正样本集及文本特征集的过程,最终得到符合要求的隐马尔科夫模型。
在另一个实施例中,一种电子设备,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述方法的步骤。
通过用训练文本数据训练命名实体识别的隐马尔科夫模型后,实现对办事指南中的自然语言描述的文本数据进行命名实体识别,提取并分类其中出现的命名实体,形成结构化文本数据。其中训练文本数据具有与办事指南文本数据类似的结构,并包含了与办事指南文本数据相同数据类型。其中根据业务需求,通过设定的部分的命名实体识别特征形成特征集,通过设定部分的命名实体样本为正样本集,使用该类型数据的样本数据、特征集及正样本集经过训练得到命名实体识别模型提供自动化工具,以尽量少的人工投入将自然语言描述的业务需求结构化,极大节省了需求的分析与设计、开发、测试阶段的人力、时间投入,避免了开发环节上下游反复沟通造成的低效与出错误隐患;同时适应自然语言的文本数据的多变性,匹配准确性显著高于依赖确定性预定义规则的ETL方法,不依赖大量标注的训练数据,满足不具备数据资源的企业快速低成本建立业务逻辑的需求;而且解耦了通用模型训练与具体数据的自动处理过程,能够适应不同种类数据的结构化过程与同一类数据的新增处理;并且实现了自然语言描述的业务信息包含程序逻辑的结构化文本数据的自动化方法,使用约400条样本的少量标记训练数据就识别出大于10000条目标数据。
通过将事项信息进行关联,其中事项信息包括事项名称、事项ID、事项部门、材料需求、处理流程与办理产生证件。
当根据结构化文本数据,建立事项信息与结构化文本数据之间的关系后,将其应用到政务在线公众办事服务系统,当使用该系统的办事群众提交某个材料时,根据结构化文本数据与事项信息之间的关联,将同样需要该材料的流程或者事项进行关联,无需办事群众和该系统在各业务部门的服务人员就后续的流程或者事项中需要同样材料时,而重复递交材料的复杂;并且根据事项信息之间的关联,每个事项正在办理时,记录该事项所处的流程阶段,根据事项依赖关系得到该事项的前提事项和后继事项,分别合并该办事群众的所有前提事项和所有后继事项,以该办事群众的信息为条件过滤得到该办事群众的前提事项集和后继事项集,向该办事群众推荐前提事项集和后继事项集中的事项,当该办事群众查询已经办理过的事项时,显示办理结果和再次办理选项,当办事群众查询正在办理中的事项时,显示办理状态,缺失材料和提交缺失材料的选项,当办事群众查询或接收推荐的某一事项时,根据该办事群众信息显示事项是否可以办理,具体的流程与相关信息,当办事群众决定办理某一事项时,将该事项加入正在办理中的事项集,自动提交用户材料集中有效且该事项要求的材料并通知有关政务服务人员,转入上述推荐步骤,对于办理中的某一事项,跟踪记录该事项对应流程每一步的状态与结果,当某一事项办理完毕,系统将该事项从正在办理中的事项集移入已经办理过的事项集,若该事项产生了任何证件材料,将产生的证件材料的索引加入办事群众材料集,同时系统汇总所有办事群众办理该事项的结果用于统计分析。实现追踪不同事项间的依赖关系和办事群众并行办理事项的需求,使得办事群众了解办事事项更清晰,办事更简单。减少服务人员和办事群众就相同信息或材料重复采集和提交,避免办事群众多次重复操作或者跑腿,及服务人员重复审查相同流程或者材料的情况,提高办事效率,较少技术失败率。
其中,隐马尔科夫模型的获取步骤为:根据业务需求,整理出一部分命名实体识别的文本特征及命名实体的正样本,分别形成文本特征集及正样本集,使用训练数据、文本特征集及正样本集训练该类型数据的命名实体识别推理模型,根据训练数据、文本特征集及正样本集,计算训练数据中的正样本与非正样本中出现文本特征的次数;根据正样本与非正样本中出现文本特征的次数计算文本特征的转移概率;通过对文本特征的转移概率进行调整,使得转移概率符合原先正样本中包含的信息,进而根据调整后的文本特征的转移概率得到每个文本特征的概率转移矩阵形成隐马尔科夫模型,用于对办事指南进行命名实体识别。
由于设计开发人员可能无法一次性找到最合适的命名实体识别特征与命名实体样本,根据隐马尔科夫模型的状态转移概率及该隐马尔科夫模型对每个训练文本数据的匹配结果进行评估该隐马尔科夫模型的效果,若效果达到需求目标,则该隐马尔科夫模型为所需的隐马尔科夫模型,若效果未达到需求目标,则选择匹配数量过少的正样本,整理该正样本加入正样本集中,整理文本特征加入文本特征集中,接着从文本特征集中选择状态转移概率接近平均的特征,将其从文本特征集中去除,根据新的正样本集及新的文本特征集重新获取隐马尔科夫模型。经过多次迭代调整正样本集及文本特征集的过程,最终得到符合要求的隐马尔科夫模型。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (6)

1.一种办事指南自动提取并关联的方法,其特征在于,包括以下步骤:
获取办事指南文本数据;
根据文本特征集查找办事指南文本数据中的匹配特征,所述文本特征集为建立隐马尔科夫模型的文本特征集,所述隐马尔科夫模型表示为每个文本特征的概率转移矩阵;
根据匹配特征的概率转移矩阵,获取当前匹配文本的状态概率;
根据当前的状态概率,滤出处于匹配状态的匹配区间,所述匹配区间为办事指南文本数据中的命名实体候选;
在匹配区间中过滤掉无效文本后,输出事项信息的结构化文本数据,所述无效文本为长度过短的匹配区间和仅包含特征的文本数据;
根据结构化文本数据,建立事项信息之间的关系。
2.根据权利要求1所述办事指南自动提取并关联的方法,其特征在于,所述“获取办事指南文本数据”之后还包括步骤:
根据训练数据、文本特征及正样本,计算训练数据中的正样本与非正样本中出现文本特征的次数;
根据正样本与非正样本中出现文本特征的次数计算文本特征的转移概率;
对转移概率进行调整;
输出每个文本特征的概率转移矩阵形成隐马尔科夫模型。
3.根据权利要求2所述办事指南自动提取并关联的方法,其特征在于,所述“对转移概率进行调整”具体包括:
对文本特征的正、非正与负状态两两间的转移计数分别应用一个信息量算子;
对转移计数归一化得到转移概率。
4.根据权利要求1所述办事指南自动提取并关联的方法,其特征在于,所述事项信息包括事项名称、事项ID、事项部门、事项需求材料及办理产生证件。
5.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1到4任一项所述方法的步骤。
6.一种电子设备,其特征在于,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1到4任意一项所述方法的步骤。
CN201711474769.7A 2017-12-29 2017-12-29 办事指南自动提取并关联的方法及电子设备 Pending CN108228788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711474769.7A CN108228788A (zh) 2017-12-29 2017-12-29 办事指南自动提取并关联的方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711474769.7A CN108228788A (zh) 2017-12-29 2017-12-29 办事指南自动提取并关联的方法及电子设备

Publications (1)

Publication Number Publication Date
CN108228788A true CN108228788A (zh) 2018-06-29

Family

ID=62646982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711474769.7A Pending CN108228788A (zh) 2017-12-29 2017-12-29 办事指南自动提取并关联的方法及电子设备

Country Status (1)

Country Link
CN (1) CN108228788A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232772A (zh) * 2020-10-19 2021-01-15 浪潮云信息技术股份公司 一种基于政务事项数据分析提取匹配网上办事用户画像的方法
CN112330307A (zh) * 2020-12-30 2021-02-05 江苏数兑科技有限公司 一种基于数据图谱和业务图谱的事项办理智能推荐方法
CN112507063A (zh) * 2020-10-29 2021-03-16 福建拓尔通软件有限公司 一种办事指南文件的信息自动梳理方法及系统
CN114253169A (zh) * 2020-09-24 2022-03-29 原相科技股份有限公司 智能型家庭控制系统
CN116702046A (zh) * 2023-08-02 2023-09-05 浪潮软件股份有限公司 基于卷积神经网络的事项数字化场景分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
US20140277921A1 (en) * 2013-03-14 2014-09-18 General Electric Company System and method for data entity identification and analysis of maintenance data
CN104699606A (zh) * 2015-03-06 2015-06-10 国网四川省电力公司电力科学研究院 一种基于隐马尔科夫模型的软件系统状态预测方法
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
US20140277921A1 (en) * 2013-03-14 2014-09-18 General Electric Company System and method for data entity identification and analysis of maintenance data
CN104699606A (zh) * 2015-03-06 2015-06-10 国网四川省电力公司电力科学研究院 一种基于隐马尔科夫模型的软件系统状态预测方法
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114253169A (zh) * 2020-09-24 2022-03-29 原相科技股份有限公司 智能型家庭控制系统
CN112232772A (zh) * 2020-10-19 2021-01-15 浪潮云信息技术股份公司 一种基于政务事项数据分析提取匹配网上办事用户画像的方法
CN112507063A (zh) * 2020-10-29 2021-03-16 福建拓尔通软件有限公司 一种办事指南文件的信息自动梳理方法及系统
CN112330307A (zh) * 2020-12-30 2021-02-05 江苏数兑科技有限公司 一种基于数据图谱和业务图谱的事项办理智能推荐方法
CN112330307B (zh) * 2020-12-30 2021-03-16 江苏数兑科技有限公司 一种基于数据图谱和业务图谱的事项办理智能推荐方法
CN116702046A (zh) * 2023-08-02 2023-09-05 浪潮软件股份有限公司 基于卷积神经网络的事项数字化场景分类方法及系统

Similar Documents

Publication Publication Date Title
CN108228788A (zh) 办事指南自动提取并关联的方法及电子设备
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN107122416A (zh) 一种中文事件抽取方法
CN107491433A (zh) 基于深度学习的电商异常金融商品识别方法
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN110008309A (zh) 一种短语挖掘方法及装置
CN107844558A (zh) 一种分类信息的确定方法以及相关装置
CN109376247A (zh) 一种基于关联规则的软件缺陷自动分类方法
CN102629272A (zh) 一种基于聚类的考试系统试题库优化方法
CN110134777A (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN113806548A (zh) 基于深度学习模型的信访要素抽取方法及抽取系统
CN111177010B (zh) 一种软件缺陷严重程度识别方法
CN112396437A (zh) 一种基于知识图谱的贸易合同验证方法及装置
CN112286799B (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN114118077A (zh) 一种基于自动机器学习平台的智能信息抽取系统构建方法
CN105095271A (zh) 微博检索方法和微博检索装置
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN117520561A (zh) 直升机装配领域知识图谱构建的实体关系抽取方法及系统
CN117290508A (zh) 一种基于自然语言处理的贷后文本数据处理方法和系统
CN110362828B (zh) 网络资讯风险识别方法及系统
CN116186506A (zh) 基于bert预训练模型的可访问性问题报告的自动识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629