CN110245354A

CN110245354A - 一种日程信息中抽取实体的方法

Info

Publication number: CN110245354A
Application number: CN201910539137.7A
Authority: CN
Inventors: 王鹏宇; 吴漾; 朱州; 方继宇; 曾路; 杨箴
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-09-17

Abstract

本发明公开了一种日程信息中抽取实体的方法，该方法包括步骤：对已知数据信息进行自扩展学习，寻找未知信息与已知信息之间的链接点；提取数据进行句子切分成单句、分词和词性标注，选择几个事件的抽取模式作为种子模式，构建抽取模式库：在每次迭代过程中把新生成的抽取模式追加到抽取模式库；用户通过有效时间的提取，按照用户自己的语言习惯，输入内容；若抽取模式库中，不能进行模式匹配，则将关键词会自动添加到抽取模式库中。本发明把企业大量数据分成单句和词性标注进行提取，通过初始化种子模式的方式，自扩展的构建抽取模式库，做到自动模式匹配，匹配灵活性高，效率高，使人为纠错减少，节省企业正本，节省时间。

Description

一种日程信息中抽取实体的方法

技术领域

本发明属于日程信息中抽取实体技术领域，涉及一种日程信息中抽取实体的方法。

背景技术

目前的技术，大多都是基于规则模式来进行匹配的，所以如果自动化的获取抽取模式成为事件抽取的核心问题，如果抽取模式不能自动化就会导致某些内容在不符合匹配模式的情况，抽取出的内容不是原本意思，导致体验感较差。

发明内容

本发明要解决的技术问题是：提供一种日程信息中抽取实体的方法，以解决现有技术中存在的问题。

本发明采取的技术方案为：一种日程信息中抽取实体的方法，该方法包括以下步骤：

（1）通过用户提供的大量的已知数据信息，利用已知数据信息进行一遍遍的方式展开自行扩展学习的过程，采用自扩展学习，再利用相同的信息由不同的模式表达，或者同一模式又可以表达不同信息，使得模式与信息成为互相的链接点；

（2）先从文档中提取数据预处理：句子切分成单句、分词和词性标注（ictclas），这里用结巴分词（英文名：jieba），采用手工的方式选择几个事件的抽取模式作为种子模式，如：“明天下午到公司开会”和“请大家明天在公司开会”等诸如此类的一些模式。构建抽取模式库：在每次迭代过程中把新生成的抽取模式追加到抽取模式库，抽取模式库包含用于特定场景下的最好的抽取模式；

（3）用户通过有效时间的提取，按照用户自己的语言习惯，输入内容。如“请明天上午到公司开会”；

（4）将数据内容输入到抽取模式库中，匹配模式，例如，“\到”，“请”；最后得到结果：{“content”：“公司开会”}；

（5）若抽取模式库中，不能进行模式匹配，则将关键词会自动添加到抽取模式库中，以便于下次迭代出更好的结果。

本发明的有益效果：与现有技术相比，本发明解析了企业大量的数据，通过结巴分词把单句、词性标注提取出来，通过初始化种子模式的方式，自扩展的构建抽取模式库，做到自动模式匹配。比基于现有的规则匹配灵活性高，效率高。使人为纠错减少，节省企业正本，节省时间。

附图说明

图1为抽取模式库构建流程示意图；

图2为精确实现抽取模式库构建流程示意图；

图3为功能实例图；

图4为功能实例结果图；

图5为本发明的流程示意图；

图6为模型文件示例图；

图7为提取实体与有效时间流程图；

图8为有效时间提取流程图。

具体实施方式

下面结合附图及具体的实施例对本发明进行进一步介绍。

实施例1：如图1-8所示，一种日程信息中抽取实体的方法，该方法包括以下步骤：

（1）通过用户提供的大量的已知数据信息（数据信息指已知的日程数据，来源具体包括一些流式数据（如OA系统产生的OA工单），和一些端到端数据（如邮件），具体内容参考后面的说明），利用已知数据信息进行一遍遍的方式（第一次训练的时候，会初始化得到一个模式库，作为基础，后续的新增数据，会在这个模式库中进行匹配，如果匹配成功，则直接得到结果；若匹配不成功，则将这条数据的记录下来。当不成功的数据积累到一定程度后，再对这部分数据进行模式识别，将得到的新规则，增量加入到之前的模式库中）展开自行扩展学习的过程，采用自扩展学习（如图1所示）寻找（通过正则匹配的方式）未知信息与已知信息之间的链接点（连接点是：是一些从已知数据中抽取的模式、或能指代模式的触发词和特征词等），再利用相同的信息（含义相同）由不同的模式（例如A是B的父亲，和B是A的儿子，就是同一信息的不同表达）表达，或者同一模式又可以表达不同信息（例如电监会设立六区域电力监管局。同一模式“六区域”表达了不同信息：（1）设立了六个管理各自区域的电力监管局（2）设立了一个统一管理六个区域的电力监管局），使得模式与信息成为互相的链接点；

（2）先从文档中提取数据预处理：句子切分成单句、分词和词性标注（ictclas），这里用结巴分词（英文名：jieba），采用手工的方式选择几个事件的抽取模式作为种子模式，如：“明天下午到公司开会”和“请大家明天在公司开会”等诸如此类的一些模式。构建抽取模式库：在每次迭代（图1的循环过程）过程中把新生成的抽取模式追加到抽取模式库，抽取模式库包含用于特定场景下（特定场景需要根据需求单独设定，比如在电力场景、生活场景，在不同的语言场景下，模式的定义和侧重点可以不同）的最好的抽取模式；

（3）用户通过有效时间的提取，按照用户自己的语言习惯（相当于是任意的表达，可以实现随便输入一句话，自动把里面所有包含时间表达的内容提取出来，当然如果没有时间表达，则没有东西会输出出来），输入内容。如“请明天上午到公司开会”；

有效时间的提取方法：（1）通过对大量的Word文档、邮件内容格式的文件进行内容提取，把内容格式统一转换为标准的输出格式，提取实体与有效时间，最后输出，如图7所示；（2）将从文档中提取出来的数据进行文本拆分、建模，利用结巴分词（英文名：jieba），对内容进行词性的标注（标注句子分词后每个词的词性，采用ictclas兼容的标记法），对关键字（表达时间的一些非数字类的词，如去年、今天、上个月等）进行提取与标注，最后通过正则穷举的方法进行匹配（对包含时间实体和时间模式的词或句子进行匹配），把有效的时间实体转换为标准格式的时间（通过正则表达式实现），确保通过实体提取的时间为有效时间，如图8所示；

（4）将数据内容输入到抽取模式库中，匹配模式（使用的是正则匹配和文本相似度匹配结合的方式，即将用户输入的内容，与之前已经处理并存储好的模式项，使用正则匹配的方式进行一一比对，若匹配成功，则继续下一项，若不成功，则使用相似度，判断用户输入的数据与哪一个模式最相似，得到一个相似度。若相似度大于某个预先设定的阈值，则算匹配成功，若小于则不成功），例如，“\到”，“请”；最后得到结果：{“content”：“公司开会”}；

（5）若抽取模式库中，不能进行模式匹配，则将关键词（匹配不成功时，将判断不成功的原因，即用户输入的数据中，有哪些词是不在原先的模式库里的，将这些词中的关键词找出（关键词指除开停用词以外的词，停用词包括但不限于“的”，“嗯”之类的词）会自动添加到抽取模式库中，以便于下次迭代出更好的结果。

用户在输入内容时，通过结巴分词，把单句、词性标注提出来；构建种子模式，根据种子模式来自扩展构建抽取模式库，最后输出最好的结果，模型文件示例。

本发明解决了多数企业在实际沟通过程中，产生了大量的交互数据，往往没有合理的利用起来。本系统主要解决是从这些数据当中挖掘数据，从数据中提取事件，分析内容所讲的是件什么事情，解决用户需要从内容里理解所的事情，需要反复去分析内容，总结，从而导致效率不高的问题。

本发明可适合于任何场景下，如社交场景、语音交互场景等，通过对“事”关键词的标注，提取与这件事相关的内容，并连接成一条描述事件的内容，从而提高效率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种日程信息中抽取实体的方法，其特征在于：该方法包括以下步骤：

（1）通过用户提供的大量的已知数据信息，利用已知数据信息进行一遍遍的方式展开自行扩展学习的过程，采用自扩展学习寻找未知信息与已知信息之间的链接点，再利用相同的信息由不同的模式表达，或者同一模式又可以表达不同信息，使得模式与信息成为互相的链接点；

（2）先从文档中提取数据预处理：句子切分成单句、分词和词性标注，采用手工的方式选择几个事件的抽取模式作为种子模式，构建抽取模式库：在每次迭代过程中把新生成的抽取模式追加到抽取模式库，抽取模式库包含用于特定场景下的最好的抽取模式；

（3）用户通过有效时间的提取，按照用户自己的语言习惯，输入内容；

（4）将数据内容输入到抽取模式库中，匹配模式；

（5）若抽取模式库中，不能进行模式匹配，则将关键词会自动添加到抽取模式库中。