CN110245354A - 一种日程信息中抽取实体的方法 - Google Patents

一种日程信息中抽取实体的方法 Download PDF

Info

Publication number
CN110245354A
CN110245354A CN201910539137.7A CN201910539137A CN110245354A CN 110245354 A CN110245354 A CN 110245354A CN 201910539137 A CN201910539137 A CN 201910539137A CN 110245354 A CN110245354 A CN 110245354A
Authority
CN
China
Prior art keywords
decimation pattern
decimation
information
pattern library
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910539137.7A
Other languages
English (en)
Inventor
王鹏宇
吴漾
朱州
方继宇
曾路
杨箴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN201910539137.7A priority Critical patent/CN110245354A/zh
Publication of CN110245354A publication Critical patent/CN110245354A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种日程信息中抽取实体的方法,该方法包括步骤:对已知数据信息进行自扩展学习,寻找未知信息与已知信息之间的链接点;提取数据进行句子切分成单句、分词和词性标注,选择几个事件的抽取模式作为种子模式,构建抽取模式库:在每次迭代过程中把新生成的抽取模式追加到抽取模式库;用户通过有效时间的提取,按照用户自己的语言习惯,输入内容;若抽取模式库中,不能进行模式匹配,则将关键词会自动添加到抽取模式库中。本发明把企业大量数据分成单句和词性标注进行提取,通过初始化种子模式的方式,自扩展的构建抽取模式库,做到自动模式匹配,匹配灵活性高,效率高,使人为纠错减少,节省企业正本,节省时间。

Description

一种日程信息中抽取实体的方法
技术领域
本发明属于日程信息中抽取实体技术领域,涉及一种日程信息中抽取实体的方法。
背景技术
目前的技术,大多都是基于规则模式来进行匹配的,所以如果自动化的获取抽取模式成为事件抽取的核心问题,如果抽取模式不能自动化就会导致某些内容在不符合匹配模式的情况,抽取出的内容不是原本意思,导致体验感较差。
发明内容
本发明要解决的技术问题是:提供一种日程信息中抽取实体的方法,以解决现有技术中存在的问题。
本发明采取的技术方案为:一种日程信息中抽取实体的方法,该方法包括以下步骤:
(1)通过用户提供的大量的已知数据信息,利用已知数据信息进行一遍遍的方式展开自行扩展学习的过程,采用自扩展学习,再利用相同的信息由不同的模式表达,或者同一模式又可以表达不同信息,使得模式与信息成为互相的链接点;
(2)先从文档中提取数据预处理:句子切分成单句、分词和词性标注(ictclas),这里用结巴分词(英文名:jieba),采用手工的方式选择几个事件的抽取模式作为种子模式,如:“明天下午到公司开会”和“请大家明天在公司开会”等诸如此类的一些模式。构建抽取模式库:在每次迭代过程中把新生成的抽取模式追加到抽取模式库,抽取模式库包含用于特定场景下的最好的抽取模式;
(3)用户通过有效时间的提取,按照用户自己的语言习惯,输入内容。如“请明天上午到公司开会”;
(4)将数据内容输入到抽取模式库中,匹配模式,例如,“\到”,“请”;最后得到结果:{“content”:“公司开会”};
(5)若抽取模式库中,不能进行模式匹配,则将关键词会自动添加到抽取模式库中,以便于下次迭代出更好的结果。
本发明的有益效果:与现有技术相比,本发明解析了企业大量的数据,通过结巴分词把单句、词性标注提取出来,通过初始化种子模式的方式,自扩展的构建抽取模式库,做到自动模式匹配。比基于现有的规则匹配灵活性高,效率高。使人为纠错减少,节省企业正本,节省时间。
附图说明
图1为抽取模式库构建流程示意图;
图2为精确实现抽取模式库构建流程示意图;
图3为功能实例图;
图4为功能实例结果图;
图5为本发明的流程示意图;
图6为模型文件示例图;
图7为提取实体与有效时间流程图;
图8为有效时间提取流程图。
具体实施方式
下面结合附图及具体的实施例对本发明进行进一步介绍。
实施例1:如图1-8所示,一种日程信息中抽取实体的方法,该方法包括以下步骤:
(1)通过用户提供的大量的已知数据信息(数据信息指已知的日程数据,来源具体包括一些流式数据(如OA系统产生的OA工单),和一些端到端数据(如邮件),具体内容参考后面的说明),利用已知数据信息进行一遍遍的方式(第一次训练的时候,会初始化得到一个模式库,作为基础,后续的新增数据,会在这个模式库中进行匹配,如果匹配成功,则直接得到结果;若匹配不成功,则将这条数据的记录下来。当不成功的数据积累到一定程度后,再对这部分数据进行模式识别,将得到的新规则,增量加入到之前的模式库中)展开自行扩展学习的过程,采用自扩展学习(如图1所示)寻找(通过正则匹配的方式)未知信息与已知信息之间的链接点(连接点是:是一些从已知数据中抽取的模式、或能指代模式的触发词和特征词等),再利用相同的信息(含义相同)由不同的模式(例如A是B的父亲,和B是A的儿子,就是同一信息的不同表达)表达,或者同一模式又可以表达不同信息(例如电监会设立六区域电力监管局。同一模式“六区域”表达了不同信息:(1)设立了六个管理各自区域的电力监管局(2)设立了一个统一管理六个区域的电力监管局),使得模式与信息成为互相的链接点;
(2)先从文档中提取数据预处理:句子切分成单句、分词和词性标注(ictclas),这里用结巴分词(英文名:jieba),采用手工的方式选择几个事件的抽取模式作为种子模式,如:“明天下午到公司开会”和“请大家明天在公司开会”等诸如此类的一些模式。构建抽取模式库:在每次迭代(图1的循环过程)过程中把新生成的抽取模式追加到抽取模式库,抽取模式库包含用于特定场景下(特定场景需要根据需求单独设定,比如在电力场景、生活场景,在不同的语言场景下,模式的定义和侧重点可以不同)的最好的抽取模式;
(3)用户通过有效时间的提取,按照用户自己的语言习惯(相当于是任意的表达,可以实现随便输入一句话,自动把里面所有包含时间表达的内容提取出来,当然如果没有时间表达,则没有东西会输出出来),输入内容。如“请明天上午到公司开会”;
有效时间的提取方法:(1)通过对大量的Word文档、邮件内容格式的文件进行内容提取,把内容格式统一转换为标准的输出格式,提取实体与有效时间,最后输出,如图7所示;(2)将从文档中提取出来的数据进行文本拆分、建模,利用结巴分词(英文名:jieba),对内容进行词性的标注(标注句子分词后每个词的词性,采用ictclas兼容的标记法),对关键字(表达时间的一些非数字类的词,如去年、今天、上个月等)进行提取与标注,最后通过正则穷举的方法进行匹配(对包含时间实体和时间模式的词或句子进行匹配),把有效的时间实体转换为标准格式的时间(通过正则表达式实现),确保通过实体提取的时间为有效时间,如图8所示;
(4)将数据内容输入到抽取模式库中,匹配模式(使用的是正则匹配和文本相似度匹配结合的方式,即将用户输入的内容,与之前已经处理并存储好的模式项,使用正则匹配的方式进行一一比对,若匹配成功,则继续下一项,若不成功,则使用相似度,判断用户输入的数据与哪一个模式最相似,得到一个相似度。若相似度大于某个预先设定的阈值,则算匹配成功,若小于则不成功),例如,“\到”,“请”;最后得到结果:{“content”:“公司开会”};
(5)若抽取模式库中,不能进行模式匹配,则将关键词(匹配不成功时,将判断不成功的原因,即用户输入的数据中,有哪些词是不在原先的模式库里的,将这些词中的关键词找出(关键词指除开停用词以外的词,停用词包括但不限于“的”,“嗯”之类的词)会自动添加到抽取模式库中,以便于下次迭代出更好的结果。
用户在输入内容时,通过结巴分词,把单句、词性标注提出来;构建种子模式,根据种子模式来自扩展构建抽取模式库,最后输出最好的结果,模型文件示例。
本发明解决了多数企业在实际沟通过程中,产生了大量的交互数据,往往没有合理的利用起来。本系统主要解决是从这些数据当中挖掘数据,从数据中提取事件,分析内容所讲的是件什么事情,解决用户需要从内容里理解所的事情,需要反复去分析内容,总结,从而导致效率不高的问题。
本发明可适合于任何场景下,如社交场景、语音交互场景等,通过对“事”关键词的标注,提取与这件事相关的内容,并连接成一条描述事件的内容,从而提高效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (1)

1.一种日程信息中抽取实体的方法,其特征在于:该方法包括以下步骤:
(1)通过用户提供的大量的已知数据信息,利用已知数据信息进行一遍遍的方式展开自行扩展学习的过程,采用自扩展学习寻找未知信息与已知信息之间的链接点,再利用相同的信息由不同的模式表达,或者同一模式又可以表达不同信息,使得模式与信息成为互相的链接点;
(2)先从文档中提取数据预处理:句子切分成单句、分词和词性标注,采用手工的方式选择几个事件的抽取模式作为种子模式,构建抽取模式库:在每次迭代过程中把新生成的抽取模式追加到抽取模式库,抽取模式库包含用于特定场景下的最好的抽取模式;
(3)用户通过有效时间的提取,按照用户自己的语言习惯,输入内容;
(4)将数据内容输入到抽取模式库中,匹配模式;
(5)若抽取模式库中,不能进行模式匹配,则将关键词会自动添加到抽取模式库中。
CN201910539137.7A 2019-06-20 2019-06-20 一种日程信息中抽取实体的方法 Pending CN110245354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910539137.7A CN110245354A (zh) 2019-06-20 2019-06-20 一种日程信息中抽取实体的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910539137.7A CN110245354A (zh) 2019-06-20 2019-06-20 一种日程信息中抽取实体的方法

Publications (1)

Publication Number Publication Date
CN110245354A true CN110245354A (zh) 2019-09-17

Family

ID=67888436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910539137.7A Pending CN110245354A (zh) 2019-06-20 2019-06-20 一种日程信息中抽取实体的方法

Country Status (1)

Country Link
CN (1) CN110245354A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298642A (zh) * 2011-09-15 2011-12-28 苏州大学 文本信息抽取方法和系统
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN106445917A (zh) * 2016-09-23 2017-02-22 中国电子科技集团公司第二十八研究所 一种基于模式的自举中文实体抽取方法
CN109766549A (zh) * 2018-12-29 2019-05-17 贵州小爱机器人科技有限公司 时间信息提取方法、装置以及计算机存储介质
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298642A (zh) * 2011-09-15 2011-12-28 苏州大学 文本信息抽取方法和系统
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN106445917A (zh) * 2016-09-23 2017-02-22 中国电子科技集团公司第二十八研究所 一种基于模式的自举中文实体抽取方法
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109766549A (zh) * 2018-12-29 2019-05-17 贵州小爱机器人科技有限公司 时间信息提取方法、装置以及计算机存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
于江德;王立新;樊孝忠;: "基于自扩展的信息抽取模式自动获取" *
于江德;王立新;樊孝忠;: "基于自扩展的信息抽取模式自动获取", 小型微型计算机系统, no. 05, pages 3 - 4 *
何婷婷;徐超;李晶;赵君??;: "基于种子自扩展的命名实体关系抽取方法", no. 21 *
闫俊英;: "信息抽取技术综述", 福建电脑, no. 05 *

Similar Documents

Publication Publication Date Title
CN107329967B (zh) 基于深度学习的问答系统以及方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN107729314B (zh) 一种中文时间识别方法、装置及存储介质、程序产品
CN103810998B (zh) 基于移动终端设备的离线语音识别方法以及实现方法
CN106357942A (zh) 基于上下文对话语义识别的智能应答方法及系统
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN103793501A (zh) 基于社交网络的主题社团发现方法
CN109460459A (zh) 一种基于日志学习的对话系统自动优化方法
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN111144116B (zh) 一种文档知识结构化的抽取方法及装置
CN110321549B (zh) 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
CN110321564A (zh) 一种多轮对话意图识别方法
CN110222346A (zh) 一种从交互数据中提取有效时间的方法
CN112417852B (zh) 一种代码片段重要性的判断方法和装置
CN112182019B (zh) 一种电网统计专业指标特征提取的语义解析搜索方法
CN108920500A (zh) 一种时间解析方法
CN110515926A (zh) 基于分词和语义依存分析的异构数据源海量数据梳理方法
CN110245354A (zh) 一种日程信息中抽取实体的方法
CN113052544A (zh) 工作流依用户行为智能适配方法、装置以及存储介质
CN115544773A (zh) 非精确量测模型重构方法、系统、计算机设备及存储介质
CN115017271A (zh) 用于智能生成rpa流程组件块的方法及系统
CN115168543A (zh) 一种基于非结构化文本的考题自动生成设计方法
CN113011183B (zh) 一种电力调控领域非结构化文本数据处理方法及系统
CN113987164A (zh) 一种基于领域事件知识图谱的项目研判方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination