CN116127960B - 信息抽取方法、装置、存储介质及计算机设备 - Google Patents

信息抽取方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN116127960B
CN116127960B CN202310402908.4A CN202310402908A CN116127960B CN 116127960 B CN116127960 B CN 116127960B CN 202310402908 A CN202310402908 A CN 202310402908A CN 116127960 B CN116127960 B CN 116127960B
Authority
CN
China
Prior art keywords
node
target entity
object value
value
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310402908.4A
Other languages
English (en)
Other versions
CN116127960A (zh
Inventor
李华伟
黄康龙
汪亮
赵笑笑
郭令举
任红轩
施兴华
赵宇亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GBA National Institute for Nanotechnology Innovation
Original Assignee
GBA National Institute for Nanotechnology Innovation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GBA National Institute for Nanotechnology Innovation filed Critical GBA National Institute for Nanotechnology Innovation
Priority to CN202310402908.4A priority Critical patent/CN116127960B/zh
Publication of CN116127960A publication Critical patent/CN116127960A/zh
Application granted granted Critical
Publication of CN116127960B publication Critical patent/CN116127960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种信息抽取方法、装置、存储介质及计算机设备。该方法包括:获取待处理文本;生成待处理文本的成分句法语法树;基于预设的实体字段遍历语法树,识别是否存在目标实体;若存在目标实体,则基于预设的正则表达式遍历语法树识别候选对象值;根据目标实体与各候选对象值在语法树中的节点位置,筛选出与目标实体存在联系的候选对象值作为待确认对象值;在目标实体的所在节点与待确认对象值的所在节点共同所属的子树中,识别是否存在连接词;若存在连接词,则将待确认对象值确认为目标实体对应的目标对象值;将目标实体与对应的目标对象值作为一组提取结果输出。本申请能够提升信息抽取的准确性以及泛化性。

Description

信息抽取方法、装置、存储介质及计算机设备
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种信息抽取方法、装置、存储介质及计算机设备。
背景技术
随着互联网技术的发展,信息获取越发容易,而面对海量的数据如何能够快速获取用户感兴趣的信息,自然语言处理技术的研究则成为了热点,其中,信息抽取技术(Information extraction)是自然语言处理中最为重要的部分之一,信息抽取是指从生文本中抽取出结构化信息,将结构化信息存储在数据库中以便进行查询或进一步分析使用。
为了解决大规模文本内容的语义结构化信息抽取任务,通常采用的方法包括两种,一种是基于模型训练的抽取方法,通过一定数量的训练样本训练一个专用于解决该任务的神经网络模型对大规模文本进行预测;另一种方法是基于规则匹配的信息抽取方法,该方法基于人工制定一系列文本的检索和匹配规则,通过在原文中使用这些规则直接进行检索来获取待抽取信息基于模型训练的方法虽然具有较好的泛化性,但需要预先人工标注大量的训练样本,且每处理一个新的领域都需要重新标注一批该领域的训练样本,具有较高的人工和时间成本;而基于规则匹配的方法针对文本内容进行匹配,无需标注训练样本,人工成本较低,但泛化性较差,需要制订大量规则来覆盖各种形式的文本,且匹配的准确率较低。
发明内容
本申请实施例提供了一种信息抽取方法、装置、存储介质及计算机设备,能够提升信息抽取的准确性以及泛化性。
第一方面,本申请提供了一种信息抽取方法,所述方法包括:
获取待处理文本;
利用语法树生成器生成所述待处理文本的成分句法语法树;
基于预设的实体字段遍历所述语法树,识别是否存在目标实体;
若存在所述目标实体,则基于预设的正则表达式遍历所述语法树进行识别,识别候选对象值;
根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值;
在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词;
若存在连接词,则将所述待确认对象值确认为所述目标实体对应的目标对象值;
将所述目标实体与对应的目标对象值作为一组提取结果输出。
在其中一个实施例中,所述根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值,包括:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值均小于预设的最大深度值,则将所述候选对象值确定为待确认对象值。
在其中一个实施例中,所述根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值,包括:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值之和小于预设阈值,则将所述候选对象值确定为待确认对象值。
在其中一个实施例中,所述在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词,包括:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
基于预设的连接词词库遍历所述子树的覆盖节点,识别是否存在所述连接词词库中的任意连接词;
若存在,则判定存在连接词。
在其中一个实施例中,所述在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词,包括:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
获取所述子树的覆盖节点中各节点的词性;
识别所述子树的覆盖节点中是否存在词性属于预设的连接词词性的节点;
若存在,则判定存在连接词。
在其中一个实施例中,所述获取待处理文本,包括:
获取原始文本;
对所述原始文本进行分句处理得到多个分句;
将每个分句作为一个待处理文本。
在其中一个实施例中,所述方法还包括:
若遍历所述待处理文本对应的语法树均不存在目标实体,则判定所述待处理文本不存在待提取信息。
第二方面,本申请提供了一种信息抽取装置,包括:
获取模块,用于获取待处理文本;
语法树生成模块,用于利用语法树生成器生成所述待处理文本的成分句法语法树;
第一识别模块,用于基于预设的实体字段遍历所述语法树,识别是否存在目标实体;
第二识别模块,用于在存在所述目标实体时,基于预设的正则表达式遍历所述语法树进行识别,识别候选对象值;
筛选模块,用于根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值;
第三识别模块,用于在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词;
目标确定模块,用于在存在连接词时,将所述待确认对象值确认为所述目标实体对应的目标对象值;
结果输出模块,用于将所述目标实体与对应的目标对象值作为一组提取结果输出。
第三方面,本申请提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述任一项实施例所述的信息抽取方法的步骤。
第四方面,本申请提供了一种计算机设备,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述一个或多个处理器执行时所述计算机可读指令时,执行如上述任一项实施例所述的信息抽取方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请提供的信息抽取方法、装置、存储介质及计算机设备,通过语法树生成器对待处理文本进行成分句法分析,生成待处理文本的成分句法语法树,利用语法树表达待处理文本的语法成分和语法结构,基于预设的实体字段遍历语法树搜索目标实体,在识别到目标实体时,则基于预设的正则表达式对语法树进行遍历,识别出可能为目标实体对应的对象值节点,将这些节点对应的文本确定为候选对象值,在此基础上,利用语法树对语法结构的直观体现,先初步筛选出可能与目标实体存在联系的候选对象值作为待确认对象值,对待确认对象值进行二次验证,在验证通过时最终判断其与目标实体存在联系,此时则将该待确认对象值确认为目标实体对应的目标对象值,将目标实体与目标对象值作为一组提取结果输出,完成信息抽取。本申请无需人工训练样本,在进行提取时利用待处理文本的语法结构和语法成分帮助提取,提高信息提取的准确性,减小匹配规则对于适用领域的限制,提高本方法的泛化性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为一个实施例中,信息抽取方法的流程示意图;
图2为一个实施例中,根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值步骤的流程示意图;
图3另为一个实施例中,根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值步骤的流程示意图;
图4为一个实施例中,对待处理文本生成的成分句法语法树的示意图;
图5为一个实施例中,信息抽取装置的结构框图;
图6为一个实施例中,计算机设备的内部结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请实施例提供了一种信息抽取方法,所述方法包括步骤S101至S109,其中:
步骤S101,获取待处理文本。
待处理文本是指需要执行信息抽取处理的文本,待处理文本中并非必然存在需要提取的信息。
步骤S102,利用语法树生成器生成所述待处理文本的成分句法语法树。
语法树生成器为预先构建的用于生成文本的成分句法语法树的模型,在本申请实施例中,能够得到文本的成分句法语法树的语法树生成器都可以使用,例如基于ELMo(Embedding from Language Models)语言模型搭建的通用语法树生成器。
步骤S103,基于预设的实体字段遍历所述语法树,识别是否存在目标实体。
步骤S104,若遍历所述待处理文本对应的语法树均不存在目标实体,则判定所述待处理文本不存在待提取信息。
实体字段为预先设定的本次进行信息抽取的实体所对应的文本。以实体字段遍历语法树中的每个节点,若任意节点的文本包含实体字段,则认为该节点中的文本为目标实体。若遍历所有节点均未识别到包含实体字段,即表明待处理文本不存在目标实体,也即待处理文本不存在本次提取任务所要提取的待提取信息。
步骤S105,若存在目标实体,则基于预设的正则表达式遍历所述语法树进行识别,识别候选对象值。
通过预先设定的正则表达式实现搜索语法树中是否存在满足正则表达式规则的文本。
步骤S106,根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值。
语法树中通过树状结构直观展现出待处理文本的语法成分和语法结构,基于此,根据目标实体与各个候选对象值在语法树中的节点位置,能够筛选出在语法结构上可能存在联系的候选对象值。
步骤S107,在目标实体的所在节点与待确认对象值的所在节点共同所属的子树中,识别是否存在连接词。
子树为语法树中的部分分支,本步骤中的子树特指包括了目标实体的所在节点与待确认对象值的所在节点的分支构成的部分,且子树的最上层级为目标实体的所在节点与待确认对象值的所在节点共同的父节点中距离二者最近的父节点,最下层级至少为目标实体的所在节点所在的层级与待确认对象值的所在节点所在的层级之中离子树的最上层级较远的层级,例如,目标实体的所在节点距离子树的最上层级相距两个层级,待确认对象值的所在节点距离子树的最上层级相距三个层级,则最下层级可以是待确认对象值所在节点的层级或距离最上层级更远的层级。
连接词为在目标实体和对象值之间表示指示关系的词语,可以是介词、助动词等。通过在子树中搜索目标实体和待确认对象值之间是否存在连接词,确认目标实体与待确认对象值之间是否确实存在联系。根据成分句法语法树的结构可知,对象值与实体的语法成分不同,分属不同的分支,分别位于实体和对象值的最近的共同父节点的两侧。搜索目标实体和待确认对象值之间是否存在连接词,是指从待确认对象值所在节点出发,到目标实体一侧的分支中与目标实体所在节点同层级的节点中是否存在连接词。
步骤S108,若存在连接词,则将所述待确认对象值确认为所述目标实体对应的目标对象值。
如果在子树中搜索到连接词,则可以确认待确认对象值与目标实体确实存在联系,此时则将该待确认对象值确定为目标实体对应的目标对象值。
步骤S109,将所述目标实体与对应的目标对象值作为一组提取结果输出。
本实施例中,通过语法树生成器对待处理文本进行成分句法分析,生成待处理文本的成分句法语法树,利用语法树表达待处理文本的语法成分和语法结构,基于预设的实体字段遍历语法树搜索目标实体,在识别到目标实体时,则基于预设的正则表达式对语法树进行遍历,识别出可能为目标实体对应的对象值节点,将这些节点对应的文本确定为候选对象值,在此基础上,利用语法树判断目标实体与各候选对象值是否存在联系,筛选出存在联系的候选对象值作为待确认对象值,再通过在语法树中圈定目标实体所在节点与待确认对象值所在节点共同所属的子树,识别子树中是否存在连接词,以此进一步验证待确认对象值是否为目标实体所对应的对象值,在验证通过后才将二者确认为一组数据组,将目标实体与其对应的目标对象值作为一组提取结果输出,无需人工训练样本,在进行提取时利用待处理文本的语法结构和语法成分帮助提取,提高信息提取的准确性,匹配规则只需要设定实体字段、连接词搜索规则以及对象值的正则表达式,能够减小匹配规则对于适用领域的限制,提高本方法的泛化性。
如图2所示,在其中一个实施例中,所述根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值,包括:
步骤S201,搜索目标实体的所在节点与候选对象值的所在节点的公共父节点。
此处的公共父节点为目标实体的所在节点与候选对象值的所在节点共同的父节点中距离二者最近的一个父节点。
步骤S202,获取目标实体所在节点与所述公共父节点之间的第一深度值,以及,候选对象值的所在节点与所述公共父节点之间的第二深度值。
第一深度值为公共父节点到目标实体所在节点的层级数,第二深度之为公共父节点到候选对象值所在节点的层级数。
步骤S203,若所述第一深度值与所述第二深度值均小于预设的最大深度值,则将所述候选对象值确定为待确认对象值。
最大深度值用于判断目标实体与候选对象值是否有存在联系的可能性,若第一深度值和第二深度值任意一个不小于最大深度值,则认定候选对象值与目标实体必然不存在联系;若第一深度值和第二深度值均小于最大深度值,则候选对象值可能与目标实体存在联系,将该候选对象指确定为待确认对象值。
本实施例中通过最大深度值对候选对象值进行初步筛选,在第一深度值与第二深度值均小于最大深度值时,意味着目标实体所在节点与候选对象值所在节点在语法结构上的距离较近,可能存在联系,基于语法树的结构实现筛选判断,实现简单,判定规则不受文本涉及的技术领域的限制,能够在提高准确性的同时提升泛化能力。
如图3所示,在其中一个实施例中,所述根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值,包括:
步骤S301,搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点。
此处的公共父节点为目标实体的所在节点与候选对象值的所在节点共同的父节点中距离二者最近的一个父节点。
步骤S302,获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值。
第一深度值为公共父节点到目标实体所在节点的层级数,第二深度之为公共父节点到候选对象值所在节点的层级数。
步骤S303,若所述第一深度值与所述第二深度值之和小于预设阈值,则将所述候选对象值确定为待确认对象值。
预设阈值用于判断目标实体与候选对象值是否有存在联系的可能性,若第一深度值与第二深度值之和小于预设阈值,即表明候选对象值与目标实体之间在语法树中的位置距离较近,此时候选对象值可能与目标实体存在联系,故将该候选对象指确定为待确认对象值,反之,若第一深度值与第二深度值之和不小于预设阈值,即表明候选对象值与目标实体之间在语法树中的位置距离较远,此时候选对象值与目标实体必然不存在联系,可以筛除此候选对象值。
本实施例中通过预设阈值对候选对象值进行初步筛选,在第一深度值与第二深度值之和小于预设阈值时,意味着目标实体所在节点与候选对象值所在节点在语法结构上的距离较近,可能存在联系,基于语法树的结构实现筛选判断,实现简单,判定规则不受文本涉及的技术领域的限制,能够在提高准确性的同时提升泛化能力。
在其中一个实施例中,所述在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词,包括:
将目标实体的所在节点层级和待确认对象值的所在节点层级作为所述子树的末端节点层级,将公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
基于预设的连接词词库遍历所述子树的覆盖节点,识别是否存在所述连接词词库中的任意连接词;
若存在,则判定存在连接词。
本实施例中,连接词词库为预先设定的在文本中可能会出现的,用于表明实体与对象值之间指示关系的词。通过圈定子树覆盖节点的范围,在覆盖节点中进行搜索,若识别到子树中的任意节点的文本包含连接词词库中的任意连接词,则判定为存在连接词。由于常用的连接词主要取决于文本的语言表达习惯,不受文本的技术领域限制,通用性较强,结合语法树进行目标实体与待确认对象值是否存在联系的二次确认,判断逻辑简单,容易实现,准确率高,且能够提高信息抽取方法的泛化能力。
在其中一个实施例中,以从文本“FTO was the working electrode, Ag/AgCl(saturated KCl) was the reference electrode, and a platinum wire served asthe counter electrode.”中提取实体“reference electrode”所对应的对象值为例,对文本进行分句,每个分句作为一个待处理文本,基于语法树生成器生成各待处理文本的成分句法语法树,参考图4所示,为其中一个分句“Ag/AgCl (saturated KCl) was thereference electrode”的语法树,实体字段为“reference electrode”,正则表达式为“Hg/HgCl\s*2\s*/KCL|Ag\s*/\s*AgCl”,最大深度值为3,连接词词库包括“of”, “as”, “is/was/were”, “in”, “with”。在语法树中可以识别到“Ag/AgCl”为其中一个候选对象值所在节点,“the reference electrode”为目标实体所在节点,故“Ag/AgCl”节点与目标实体“the reference electrode”的公共父节点为“Ag/AgCl (saturated KCl) was thereference electrode”,因此,第一深度值为2,第二深度值为2,即第一深度值和第二深度值均小于最大深度值,将“Ag/AgCl”作为待确认对象值进行二次判定,子树的首端节点即为“Ag/AgCl (saturated KCl) was the reference electrode”,“Ag/AgCl”所在节点层级为一侧的末端节点层级,“the reference electrode”所在节点层级为另一侧的末端节点层级,因此可以确定出子树的覆盖节点,基于连接词词库遍历子树的覆盖节点,识别到连接词“was”,故确定“Ag/AgCl”为目标对象值,输出的提取结果为(“the reference electrode”,“Ag/AgCl”)。
在其中一个实施例中,所述在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词,包括:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
获取所述子树的覆盖节点中各节点的词性;
识别所述子树的覆盖节点中是否存在词性属于预设的连接词词性的节点;
若存在,则判定存在连接词。
本实施例中,连接词词性为预先设定的在文本中可能会出现的,用于表明实体与对象值之间指示关系的词对应的词性,包括但不限于介词、助动词等等,具体可以根据语种以及表达习惯进行预设。通过圈定子树覆盖节点的范围,在覆盖节点中进行搜索,若识别到子树中的任意节点的文本词性属于预设的连接词词性,则判定为存在连接词。由于常用的连接词主要取决于文本的语言表达习惯,不受文本的技术领域限制,通用性较强,结合语法树进行目标实体与待确认对象值是否存在联系的二次确认,判断逻辑简单,容易实现,准确率高,且能够提高信息抽取方法的泛化能力。
在其中一个实施例中,对于需要进行信息抽取的文本较为复杂的情况,获取待处理文本包括以下步骤:
获取原始文本;
对所述原始文本进行分句处理得到多个分句;
将每个分句作为一个待处理文本。
本实施例中,为了避免语法树生成器直接解析复杂文本导致生成的语法树存在分析错误,先对原始文本进行分句处理,以每个分句作为一个待处理文本进行后续的信息抽取步骤,能够提高信息抽取的准确性。
本申请实施例提供的信息抽取方法也可应用于训练模型标注样本生产的预标注场景,通过使用本申请提供的信息抽取方法对样本进行自动标注,标注结果为(实体, 对象值)二元组。标注获得的结果可以直接作为成品,也可经人工修正后作为训练样本用于命名实体识别任务的模型训练,从而更加快速地产生人工标注样本用于后续训练模型的训练过程。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
下面对本申请实施例提供的信息抽取装置进行描述,下文描述的信息抽取装置与上文描述的信息抽取方法可相互对应参照。
如图5所示,本申请实施例提供了一种信息抽取装置500,包括:
获取模块501,用于获取待处理文本;
语法树生成模块502,用于利用语法树生成器生成所述待处理文本的成分句法语法树;
第一识别模块503,用于基于预设的实体字段遍历所述语法树,识别是否存在目标实体;
第二识别模块504,用于在存在所述目标实体时,基于预设的正则表达式遍历所述语法树进行识别,识别候选对象值;
筛选模块505,用于根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值;
第三识别模块506,用于在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词;
目标确定模块507,用于在存在连接词时,将所述待确认对象值确认为所述目标实体对应的目标对象值;
结果输出模块508,用于将所述目标实体与对应的目标对象值作为一组提取结果输出。
在其中一个实施例中,筛选模块被配置为用于执行以下步骤:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值均小于预设的最大深度值,则将所述候选对象值确定为待确认对象值。
在其中一个实施例中,筛选模块被配置为用于执行以下步骤:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值之和小于预设阈值,则将所述候选对象值确定为待确认对象值。
在其中一个实施例中,第三识别模块被配置为用于执行以下步骤:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
基于预设的连接词词库遍历所述子树的覆盖节点,识别是否存在所述连接词词库中的任意连接词;
若存在,则判定存在连接词。
在其中一个实施例中,第三识别模块被配置为用于执行以下步骤:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
获取所述子树的覆盖节点中各节点的词性;
识别所述子树的覆盖节点中是否存在词性属于预设的连接词词性的节点;
若存在,则判定存在连接词。
在其中一个实施例中,获取模块被配置为用于执行以下步骤:
获取原始文本;
对所述原始文本进行分句处理得到多个分句;
将每个分句作为一个待处理文本。
上述信息抽取装置中各个模块的划分仅仅用于举例说明,在其他实施例中,可将信息抽取装置按照需要划分为不同的模块,以完成上述信息抽取装置的全部或部分功能。上述信息抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,本申请还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取待处理文本;
利用语法树生成器生成所述待处理文本的成分句法语法树;
基于预设的实体字段遍历所述语法树,识别是否存在目标实体;
若存在所述目标实体,则基于预设的正则表达式遍历所述语法树进行识别,识别候选对象值;
根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值;
在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词;
若存在连接词,则将所述待确认对象值确认为所述目标实体对应的目标对象值;
将所述目标实体与对应的目标对象值作为一组提取结果输出。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值均小于预设的最大深度值,则将所述候选对象值确定为待确认对象值。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值之和小于预设阈值,则将所述候选对象值确定为待确认对象值。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
基于预设的连接词词库遍历所述子树的覆盖节点,识别是否存在所述连接词词库中的任意连接词;
若存在,则判定存在连接词。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
获取所述子树的覆盖节点中各节点的词性;
识别所述子树的覆盖节点中是否存在词性属于预设的连接词词性的节点;
若存在,则判定存在连接词。
在其中一个实施例中,计算机可读指令被处理器执行时还实现以下步骤:
获取原始文本;
对所述原始文本进行分句处理得到多个分句;
将每个分句作为一个待处理文本。
在一个实施例中,本申请还提供了一种计算机设备,所述计算机设备中存储有计算机可读指令,所述一个或多个处理器执行所述计算机可读指令时,执行以下步骤:
获取待处理文本;
利用语法树生成器生成所述待处理文本的成分句法语法树;
基于预设的实体字段遍历所述语法树,识别是否存在目标实体;
若存在所述目标实体,则基于预设的正则表达式遍历所述语法树进行识别,识别候选对象值;
根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值;
在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词;
若存在连接词,则将所述待确认对象值确认为所述目标实体对应的目标对象值;
将所述目标实体与对应的目标对象值作为一组提取结果输出。
在其中一个实施例中,处理器执行计算机可读指令时还执行以下步骤:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值均小于预设的最大深度值,则将所述候选对象值确定为待确认对象值。
在其中一个实施例中,处理器执行计算机可读指令时还执行以下步骤:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值之和小于预设阈值,则将所述候选对象值确定为待确认对象值。
在其中一个实施例中,处理器执行计算机可读指令时还执行以下步骤:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
基于预设的连接词词库遍历所述子树的覆盖节点,识别是否存在所述连接词词库中的任意连接词;
若存在,则判定存在连接词。
在其中一个实施例中,处理器执行计算机可读指令时还执行以下步骤:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
获取所述子树的覆盖节点中各节点的词性;
识别所述子树的覆盖节点中是否存在词性属于预设的连接词词性的节点;
若存在,则判定存在连接词。
在其中一个实施例中,处理器执行计算机可读指令时还执行以下步骤:
获取原始文本;
对所述原始文本进行分句处理得到多个分句;
将每个分句作为一个待处理文本。
示意性地,在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息抽取方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种信息抽取方法,其特征在于,所述方法包括:
获取待处理文本;
利用语法树生成器生成所述待处理文本的成分句法语法树;
基于预设的实体字段遍历所述语法树,识别是否存在目标实体;
若遍历所述待处理文本对应的语法树均不存在目标实体,则判定所述待处理文本不存在待提取信息;
若存在所述目标实体,则基于预设的正则表达式遍历所述语法树进行识别,识别候选对象值;
根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值;
在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词;
若存在连接词,则将所述待确认对象值确认为所述目标实体对应的目标对象值;
将所述目标实体与对应的目标对象值作为一组提取结果输出。
2.根据权利要求1所述的信息抽取方法,其特征在于,所述根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值,包括:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值均小于预设的最大深度值,则将所述候选对象值确定为待确认对象值。
3.根据权利要求1所述的信息抽取方法,其特征在于,所述根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值,包括:
搜索所述目标实体的所在节点与所述候选对象值的所在节点的公共父节点;
获取所述目标实体所在节点与所述公共父节点之间的第一深度值,以及,所述候选对象值的所在节点与所述公共父节点之间的第二深度值;
若所述第一深度值与所述第二深度值之和小于预设阈值,则将所述候选对象值确定为待确认对象值。
4.根据权利要求2或3所述的信息抽取方法,其特征在于,所述在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词,包括:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
基于预设的连接词词库遍历所述子树的覆盖节点,识别是否存在所述连接词词库中的任意连接词;
若存在,则判定存在连接词。
5.根据权利要求2或3所述的信息抽取方法,其特征在于,所述在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词,包括:
将所述目标实体的所在节点层级和所述待确认对象值的所在节点层级作为所述子树的末端节点层级,将所述公共父节点作为所述子树的首端节点,确定所述子树的覆盖节点;
获取所述子树的覆盖节点中各节点的词性;
识别所述子树的覆盖节点中是否存在词性属于预设的连接词词性的节点;
若存在,则判定存在连接词。
6.根据权利要求1所述的信息抽取方法,其特征在于,所述获取待处理文本,包括:
获取原始文本;
对所述原始文本进行分句处理得到多个分句;
将每个分句作为一个待处理文本。
7.根据权利要求6所述的信息抽取方法,其特征在于,所述方法还包括:
若遍历所述待处理文本对应的语法树均不存在目标实体,则判定所述待处理文本不存在待提取信息。
8.一种信息抽取装置,其特征在于,包括:
获取模块,用于获取待处理文本;
语法树生成模块,用于利用语法树生成器生成所述待处理文本的成分句法语法树;
第一识别模块,用于基于预设的实体字段遍历所述语法树,识别是否存在目标实体,若遍历所述待处理文本对应的语法树均不存在目标实体,则判定所述待处理文本不存在待提取信息;
第二识别模块,用于在存在所述目标实体时,基于预设的正则表达式遍历所述语法树进行识别,识别候选对象值;
筛选模块,用于根据所述目标实体与各所述候选对象值在所述语法树中的节点位置,筛选出与所述目标实体存在联系的候选对象值作为待确认对象值;
第三识别模块,用于在所述目标实体的所在节点与所述待确认对象值的所在节点共同所属的子树中,识别是否存在连接词;
目标确定模块,用于在存在连接词时,将所述待确认对象值确认为所述目标实体对应的目标对象值;
结果输出模块,用于将所述目标实体与对应的目标对象值作为一组提取结果输出。
9.一种存储介质,其特征在于:所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述的信息抽取方法的步骤。
10.一种计算机设备,其特征在于,包括:一个或多个处理器,以及存储器;
所述存储器中存储有计算机可读指令,所述一个或多个处理器执行时所述计算机可读指令时,执行如权利要求1至7中任一项所述的信息抽取方法的步骤。
CN202310402908.4A 2023-04-17 2023-04-17 信息抽取方法、装置、存储介质及计算机设备 Active CN116127960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310402908.4A CN116127960B (zh) 2023-04-17 2023-04-17 信息抽取方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310402908.4A CN116127960B (zh) 2023-04-17 2023-04-17 信息抽取方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN116127960A CN116127960A (zh) 2023-05-16
CN116127960B true CN116127960B (zh) 2023-06-23

Family

ID=86308513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310402908.4A Active CN116127960B (zh) 2023-04-17 2023-04-17 信息抽取方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN116127960B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680444B (zh) * 2023-08-03 2024-01-19 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021179708A1 (zh) * 2020-10-20 2021-09-16 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及可读存储介质
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726185B (zh) * 2018-12-28 2020-12-25 杭州安恒信息技术股份有限公司 一种基于语法树的日志解析方法、系统和计算机可读介质
CN110134724A (zh) * 2019-05-15 2019-08-16 清华大学 一种建筑信息模型的数据智能提取与显示系统及方法
CN110597959B (zh) * 2019-09-17 2023-05-02 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备
CN112232074B (zh) * 2020-11-13 2022-01-04 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质
CN114155950A (zh) * 2021-10-27 2022-03-08 福建福诺移动通信技术有限公司 一种基于hanlp解析医疗诊断的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021179708A1 (zh) * 2020-10-20 2021-09-16 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及可读存储介质
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN116127960A (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN109284363B (zh) 一种问答方法、装置、电子设备及存储介质
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN109726274B (zh) 问题生成方法、装置及存储介质
CN111159330B (zh) 一种数据库查询语句的生成方法及装置
WO2016188279A1 (zh) 一种故障谱的生成、基于故障谱的检测方法和装置
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
Kovbasistyi et al. Method for detection of non-relevant and wrong information based on content analysis of web resources
CN111782800B (zh) 一种面向事件追溯的智能会议分析方法
CN116127960B (zh) 信息抽取方法、装置、存储介质及计算机设备
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112883165A (zh) 一种基于语义理解的智能全文检索方法及系统
CN114756733A (zh) 一种相似文档搜索方法、装置、电子设备及存储介质
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN115098706A (zh) 一种网络信息提取方法及装置
CN114004231A (zh) 一种中文专词抽取方法、系统、电子设备及存储介质
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
CN112394973A (zh) 一种基于伪孪生网络的多语言代码剽窃检测方法
CN113449066B (zh) 利用知识图谱来存储文物数据的方法、处理器及存储介质
CN114282513A (zh) 文本语义相似度的匹配方法、系统、智能终端及存储介质
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
AU2018226420A1 (en) Voice assisted intelligent searching in mobile documents
CN112732969A (zh) 图像语义分析方法、装置、存储介质及电子设备
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant