CN113505588A - 信息抽取方法、装置和电子设备 - Google Patents

信息抽取方法、装置和电子设备 Download PDF

Info

Publication number
CN113505588A
CN113505588A CN202110797350.5A CN202110797350A CN113505588A CN 113505588 A CN113505588 A CN 113505588A CN 202110797350 A CN202110797350 A CN 202110797350A CN 113505588 A CN113505588 A CN 113505588A
Authority
CN
China
Prior art keywords
text information
information
extracted
extraction
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110797350.5A
Other languages
English (en)
Inventor
田洪宝
裴积全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202110797350.5A priority Critical patent/CN113505588A/zh
Publication of CN113505588A publication Critical patent/CN113505588A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种信息抽取方法、装置和电子设备,其中,信息抽取方法包括:获取目标对象的文本识别结果,所述文本识别结果包括所述目标对象携带的文本信息和所述文本信息的位置;从所述文本信息中获取待抽取文本信息对应的目标定位文本信息;根据所述目标定位文本信息的位置,确定所述目标对象上的所述待抽取文本信息的抽取区域;在所述抽取区域内进行信息抽取,得到所述待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。

Description

信息抽取方法、装置和电子设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种信息抽取方法、装置、电子设备和存储介质。
背景技术
目前,在数据处理技术中,人们往往需要从合同、票据、文章等对象中抽取出特定的信息,比如,从合同中抽取出合同生效日期,合同终止日期等信息,从发票中抽取出金额、账户名、地址、电话等信息,从文章中抽取出作者、标题等信息。相关技术中的信息抽取方法,信息抽取的准确率较低。
发明内容
本申请旨在至少在一定程度上解决相关技术中信息抽取的准确率较低的技术问题之一。
为此,本申请第一方面实施例提出一种信息抽取方法,能够从文本信息中获取待抽取文本信息对应的目标定位文本信息,并根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,进而在抽取区域内进行信息抽取,得到待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。
本申请第二方面实施例提出一种信息抽取装置。
本申请第三方面实施例提出一种电子设备。
本申请第四方面实施例提出一种计算机可读存储介质。
本申请第一方面实施例提出了一种信息抽取方法,包括:获取目标对象的文本识别结果,所述文本识别结果包括所述目标对象携带的文本信息和所述文本信息的位置;从所述文本信息中获取待抽取文本信息对应的目标定位文本信息;根据所述目标定位文本信息的位置,确定所述目标对象上的所述待抽取文本信息的抽取区域;在所述抽取区域内进行信息抽取,得到所述待抽取文本信息。
本申请实施例的信息抽取方法,能够从文本信息中获取待抽取文本信息对应的目标定位文本信息,并根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,进而在抽取区域内进行信息抽取,得到待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。
另外,根据本申请上述实施例的信息抽取方法还可以具有如下附加的技术特征:
在本申请的一个实施例中,所述从所述文本信息中获取待抽取文本信息对应的目标定位文本信息,包括:根据所述目标对象的类型,获取所述待抽取文本信息对应的候选定位信息;将所述文本信息与所述候选定位信息进行比对,从所述文本信息中筛选出与所述候选定位信息一致的文本信息,作为所述目标定位文本信息。
在本申请的一个实施例中,所述根据所述目标对象的类型,获取所述待抽取文本信息对应的候选定位信息,包括:从多个候选定位信息库中选取所述目标对象的类型对应的目标定位信息库,其中,所述定位信息库用于存储信息和定位信息的对应关系;根据所述待抽取文本信息,在所述目标定位信息库中查询所述对应关系,获取所述待抽取文本信息对应的候选定位信息。
在本申请的一个实施例中,所述根据所述目标定位文本信息的位置,确定所述目标对象上的所述待抽取文本信息的抽取区域,包括:根据任一目标定位文本信息的位置,确定任一目标定位文本信息对应的抽取区域;对多个所述目标定位文本信息对应的抽取区域进行组合,以生成所述待抽取文本信息的抽取区域。
在本申请的一个实施例中,所述根据任一目标定位文本信息的位置,确定任一目标定位文本信息对应的抽取区域,包括:获取以所述任一目标定位文本信息的位置为中心,按照预设值向外扩散形成的区域,作为所述任一目标定位文本信息对应的抽取区域。
在本申请的一个实施例中,所述在所述抽取区域内进行信息抽取,得到所述待抽取文本信息,包括:获取所述待抽取文本信息的抽取规则;基于所述文本信息的位置,获取位于所述抽取区域内的目标文本信息;按照所述抽取规则从所述目标文本信息中获取所述待抽取文本信息。
本申请第二方面实施例提出了一种信息抽取装置,包括:第一获取模块,用于获取目标对象的文本识别结果,所述文本识别结果包括所述目标对象携带的文本信息和所述文本信息的位置;第二获取模块,用于从所述文本信息中获取待抽取文本信息对应的目标定位文本信息;确定模块,用于根据所述目标定位文本信息的位置,确定所述目标对象上的所述待抽取文本信息的抽取区域;抽取模块,用于在所述抽取区域内进行信息抽取,得到所述待抽取文本信息。
本申请实施例的信息抽取装置,能够从文本信息中获取待抽取文本信息对应的目标定位文本信息,并根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,进而在抽取区域内进行信息抽取,得到待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。
另外,根据本申请上述实施例的信息抽取装置还可以具有如下附加的技术特征:
在本申请的一个实施例中,所述第二获取模块,包括:获取单元,用于根据所述目标对象的类型,获取所述待抽取文本信息对应的候选定位信息;筛选单元,用于将所述文本信息与所述候选定位信息进行比对,从所述文本信息中筛选出与所述候选定位信息一致的文本信息,作为所述目标定位文本信息。
在本申请的一个实施例中,所述获取单元,还用于:从多个候选定位信息库中选取所述目标对象的类型对应的目标定位信息库,其中,所述定位信息库用于存储信息和定位信息的对应关系;根据所述待抽取文本信息,在所述目标定位信息库中查询所述对应关系,获取所述待抽取文本信息对应的候选定位信息。
在本申请的一个实施例中,所述确定模块,包括:确定单元,用于根据任一目标定位文本信息的位置,确定任一目标定位文本信息对应的抽取区域;组合单元,用于对多个所述目标定位文本信息对应的抽取区域进行组合,以生成所述待抽取文本信息的抽取区域。
在本申请的一个实施例中,所述确定单元,还用于:获取以所述任一目标定位文本信息的位置为中心,按照预设值向外扩散形成的区域,作为所述任一目标定位文本信息对应的抽取区域。
在本申请的一个实施例中,所述抽取模块,还用于:获取所述待抽取文本信息的抽取规则;基于所述文本信息的位置,获取位于所述抽取区域内的目标文本信息;按照所述抽取规则从所述目标文本信息中获取所述待抽取文本信息。
本申请第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述第一方面实施例所述的信息抽取方法。
本申请实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,能够从文本信息中获取待抽取文本信息对应的目标定位文本信息,并根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,进而在抽取区域内进行信息抽取,得到待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。
本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述第一方面实施例所述的信息抽取方法。
本申请实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,能够从文本信息中获取待抽取文本信息对应的目标定位文本信息,并根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,进而在抽取区域内进行信息抽取,得到待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请一个实施例的信息抽取方法的流程示意图;
图2为根据本申请一个实施例的信息抽取方法中从文本信息中获取待抽取文本信息对应的目标定位文本信息的流程示意图;
图3为根据本申请一个实施例的信息抽取方法中在抽取区域内进行信息抽取,得到待抽取文本信息的流程示意图;
图4为根据本申请一个实施例的信息抽取装置的结构示意图;以及
图5为根据本申请一个实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参照附图描述本申请实施例的信息抽取方法、装置、电子设备和存储介质。
图1为根据本申请一个实施例的信息抽取方法的流程示意图。
如图1所示,本申请实施例的信息抽取方法,包括:
S101,获取目标对象的文本识别结果,文本识别结果包括目标对象携带的文本信息和文本信息的位置。
需要说明的是,本申请实施例的信息抽取方法的执行主体可为信息抽取装置,本申请实施例的信息抽取装置可以配置在任意电子设备中,以使该电子设备可以执行本申请实施例的信息抽取方法。其中,电子设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
需要说明的是,本申请的实施例中,对目标对象的类型不做过多限定,例如,目标对象包括但不限于合同、票据、文章等。
本申请的实施例中,可获取目标对象的文本识别结果,文本识别结果包括目标对象携带的文本信息和文本信息的位置。可以理解的是,同一个目标对象中可包括多个相同的文本信息,多个相同的文本信息的位置不同。
在一种实施方式中,获取目标对象的文本识别结果,可包括对目标对象进行光学字符识别(Optical Character Recognition,OCR),以获取目标对象的文本识别结果。
在一种实施方式中,获取目标对象的文本识别结果之后,可建立文本信息与文本信息的位置之间的映射关系或者映射表。应说明的是,上述映射关系或者映射表均可根据实际情况进行设置,这里不做过过多限定。
S102,从文本信息中获取待抽取文本信息对应的目标定位文本信息。
本申请的实施例中,可从文本信息中获取待抽取文本信息对应的目标定位文本信息。应说明的是,目标定位文本信息指的是与待抽取文本信息的位置较近的文本信息。
可以理解的是,不同的待抽取文本信息可对应不同的目标定位文本信息,这里不做过多限定。例如,待抽取文本信息为金额时,目标定位文本信息包括但不限于人民币、大写、总额等,待抽取文本信息为日期时,目标定位文本信息包括但不限于年、月、日等。
S103,根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域。
本申请的实施例中,可根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域。可以理解的是,抽取区域为目标对象上的部分区域,相较于相关技术中大多直接将整个目标对象作为抽取区域,能够有效缩小待抽取文本信息的抽取区域。
可以理解的是,目标定位文本信息为距离待抽取文本信息较近的文本信息,则可将目标定位文本信息的位置的周围区域,作为目标对象上的待抽取文本信息的抽取区域。
在一种实施方式中,根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,可包括根据任一目标定位文本信息的位置,确定任一目标定位文本信息对应的抽取区域,对多个目标定位文本信息对应的抽取区域进行组合,以生成待抽取文本信息的抽取区域。也就是说,目标定位文本信息的数量为多个时,可先根据每个目标定位文本信息的位置,确定每个目标定位文本信息对应的抽取区域,并对多个目标定位文本信息对应的抽取区域进行组合,以生成待抽取文本信息的抽取区域。
可以理解的是,不同目标定位文本信息对应的抽取区域可能存在交集。
在一种实施方式中,根据任一目标定位文本信息的位置,确定任一目标定位文本信息对应的抽取区域,可包括获取以任一目标定位文本信息的位置为中心,按照预设值向外扩散形成的区域,作为任一目标定位文本信息对应的抽取区域。应说明的是,预设值指的是抽取区域的面积,可根据实际情况进行设置,这里不做过多限定。
在一种实施方式中,对多个目标定位文本信息对应的抽取区域进行组合,以生成待抽取文本信息的抽取区域,可包括将多个目标定位文本信息对应的抽取区域的并集,作为待抽取文本信息的抽取区域。
需要说明的是,本申请的实施例中,对抽取区域的形状不做过多限定,例如包括但不限于圆形、矩形等。
在一种实施方式中,可根据目标对象的版式、待抽取文本信息中的至少一个确定抽取区域的形状和/或预设值。其中,版式包括文本信息的排列方式、文本信息所占区域的形状、大小等。
S104,在抽取区域内进行信息抽取,得到待抽取文本信息。
本申请的实施例中,可在抽取区域内进行信息抽取,得到待抽取文本信息。也就是说,本申请中仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,抽取区域更小。
在一种实施方式中,在抽取区域内进行信息抽取,得到待抽取文本信息,可包括通过预设的信息抽取模型在抽取区域内进行信息抽取,或者按照预设的抽取规则在抽取区域内进行信息抽取,得到待抽取文本信息。
其中,信息抽取模型、抽取规则均可根据实际情况进行设置,这里不做过多限定。在一种实施方式中,信息抽取模型为基于自然语言处理(Natural Language Processing,NLP)的信息抽取模型,抽取规则为正则表达式。
综上,根据本申请实施例的信息抽取方法,能够从文本信息中获取待抽取文本信息对应的目标定位文本信息,并根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,进而在抽取区域内进行信息抽取,得到待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。
在上述任一实施例的基础上,如图2所示,步骤S102中从文本信息中获取待抽取文本信息对应的目标定位文本信息,包括:
S201,根据目标对象的类型,获取待抽取文本信息对应的候选定位信息。
本申请的实施例中,可根据目标对象的类型,获取待抽取文本信息对应的候选定位信息。应说明的是,候选定位信息指的是与待抽取文本信息的位置较近的信息。
可以理解的是,不同类型的目标对象携带的文本信息,以及文本信息的位置可能不同,则相同的待抽取文本信息对应的候选定位信息可能不同。本申请中可考虑到目标对象的类型对候选定位信息的影响,获取的候选定位信息更加准确。
在一种实施方式中,根据目标对象的类型,获取待抽取文本信息对应的候选定位信息,可包括从多个候选定位信息库中选取目标对象的类型对应的目标定位信息库,其中,定位信息库用于存储信息和定位信息的对应关系,并根据待抽取文本信息,在目标定位信息库中查询对应关系,获取待抽取文本信息对应的候选定位信息。
本申请的实施例中,可预先建立多个候选定位信息库,不同类型的目标对象对应不同的候选定位信息库。其中,定位信息库用于存储信息和定位信息的对应关系,可以理解的是,同一个定位信息库中,不同的信息可对应不同的定位信息。
在一种实施方式中,可建立目标对象的类型标识和候选定位信息库的标识之间的映射关系,则从多个候选定位信息库中选取目标对象的类型对应的目标定位信息库,可包括获取目标对象的类型标识映射到的候选定位信息库的标识,进而基于映射到的候选定位信息库的标识,从多个候选定位信息库中选取目标定位信息库。
进一步地,可根据待抽取文本信息,在目标定位信息库中查询对应关系,获取待抽取文本信息对应的候选定位信息。例如,若待抽取文本信息为金额,目标定位信息库中存储有金额与人民币、大写、总额的对应关系,则可在目标定位信息库中查询金额的对应关系,获取金额对应的候选定位信息为人民币、大写、总额。
S202,将文本信息与候选定位信息进行比对,从文本信息中筛选出与候选定位信息一致的文本信息,作为目标定位文本信息。
可以理解的是,候选定位信息可能不为目标对象携带的文本信息,本申请中可将文本信息与候选定位信息进行比对,从文本信息中筛选出与候选定位信息一致的文本信息,作为目标定位文本信息。也就是说,确定的目标定位文本信息既为候选定位信息,也为文本信息。
例如,若待抽取文本信息为金额,金额对应的候选定位信息为人民币、大写、总额,文本信息中包括人民币,且不包括大写、总额,则可从文本信息中筛选出与候选定位信息一致的文本信息,即人民币,作为目标定位文本信息。
由此,该方法可基于目标对象的类型,获取待抽取文本信息对应的候选定位信息,并从文本信息中筛选出与候选定位信息一致的文本信息,作为目标定位文本信息。
在上述任一实施例的基础上,如图3所示,步骤S104中在抽取区域内进行信息抽取,得到待抽取文本信息,可包括:
S301,获取待抽取文本信息的抽取规则。
可以理解的是,不同的待抽取文本信息可对应不同的抽取规则。
在一种实施方式中,可根据待抽取文本信息设置对应的抽取规则,灵活性较高。
S302,基于文本信息的位置,获取位于抽取区域内的目标文本信息。
可以理解的是,文本信息可能位于抽取区域内,也可能不位于抽取区域内。本申请中,可基于文本信息的位置,获取位于抽取区域内的目标文本信息。
在一种实施方式中,基于文本信息的位置,获取位于抽取区域内的目标文本信息,可包括识别文本信息的位置是否位于抽取区域内,若识别到文本信息的位置位于抽取区域内,则将文本信息作为目标文本信息。
S303,按照抽取规则从目标文本信息中获取待抽取文本信息。
在一种实施方式中,按照抽取规则从目标文本信息中获取待抽取文本信息,可包括识别目标文本信息是否与抽取规则匹配,将与抽取规则匹配的目标文本信息作为待抽取文本信息。
由此,该方法能够获取待抽取文本信息的抽取规则,并获取位于抽取区域内的目标文本信息,按照抽取规则从目标文本信息中获取待抽取文本信息。
上述图1至图3实施例提供的信息抽取方法相对应,本公开还提供一种信息抽取装置,由于本公开实施例提供的信息抽取装置与上述图1至图3实施例提供的信息抽取方法相对应,因此信息抽取方法的实施方式也适用于本公开实施例提供的信息抽取装置,在本公开实施例中不再详细描述。
图4为根据本申请一个实施例的信息抽取装置的结构示意图。
如图4所示,本申请实施例的信息抽取装置100可以包括:第一获取模块110、第二获取模块120、确定模块130和抽取模块140。
第一获取模块110,用于获取目标对象的文本识别结果,所述文本识别结果包括所述目标对象携带的文本信息和所述文本信息的位置;
第二获取模块120,用于从所述文本信息中获取待抽取文本信息对应的目标定位文本信息;
确定模块130,用于根据所述目标定位文本信息的位置,确定所述目标对象上的所述待抽取文本信息的抽取区域;
抽取模块140,用于在所述抽取区域内进行信息抽取,得到所述待抽取文本信息。
在本申请的一个实施例中,所述第二获取模块120,包括:获取单元,用于根据所述目标对象的类型,获取所述待抽取文本信息对应的候选定位信息;筛选单元,用于将所述文本信息与所述候选定位信息进行比对,从所述文本信息中筛选出与所述候选定位信息一致的文本信息,作为所述目标定位文本信息。
在本申请的一个实施例中,所述获取单元,还用于:从多个候选定位信息库中选取所述目标对象的类型对应的目标定位信息库,其中,所述定位信息库用于存储信息和定位信息的对应关系;根据所述待抽取文本信息,在所述目标定位信息库中查询所述对应关系,获取所述待抽取文本信息对应的候选定位信息。
在本申请的一个实施例中,所述确定模块130,包括:确定单元,用于根据任一目标定位文本信息的位置,确定任一目标定位文本信息对应的抽取区域;组合单元,用于对多个所述目标定位文本信息对应的抽取区域进行组合,以生成所述待抽取文本信息的抽取区域。
在本申请的一个实施例中,所述确定单元,还用于:获取以所述任一目标定位文本信息的位置为中心,按照预设值向外扩散形成的区域,作为所述任一目标定位文本信息对应的抽取区域。
在本申请的一个实施例中,所述抽取模块140,还用于:获取所述待抽取文本信息的抽取规则;基于所述文本信息的位置,获取位于所述抽取区域内的目标文本信息;按照所述抽取规则从所述目标文本信息中获取所述待抽取文本信息。
本申请实施例的信息抽取装置,能够从文本信息中获取待抽取文本信息对应的目标定位文本信息,并根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,进而在抽取区域内进行信息抽取,得到待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。
为了实现上述实施例,如图5所示,本申请还提出一种电子设备200,包括:存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序,处理器220执行程序时,实现如本申请前述实施例提出的信息抽取方法。
本申请实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,能够从文本信息中获取待抽取文本信息对应的目标定位文本信息,并根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,进而在抽取区域内进行信息抽取,得到待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。
为了实现上述实施例,本申请还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如本申请前述实施例提出的信息抽取方法。
本申请实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,能够从文本信息中获取待抽取文本信息对应的目标定位文本信息,并根据目标定位文本信息的位置,确定目标对象上的待抽取文本信息的抽取区域,进而在抽取区域内进行信息抽取,得到待抽取文本信息。由此,仅需在目标对象上的抽取区域内进行信息抽取,相较于相关技术中大多直接在整个目标对象上进行信息抽取,能够有效缩小待抽取文本信息的抽取区域,有助于提高信息抽取的准确率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种信息抽取方法,其特征在于,包括:
获取目标对象的文本识别结果,所述文本识别结果包括所述目标对象携带的文本信息和所述文本信息的位置;
从所述文本信息中获取待抽取文本信息对应的目标定位文本信息;
根据所述目标定位文本信息的位置,确定所述目标对象上的所述待抽取文本信息的抽取区域;
在所述抽取区域内进行信息抽取,得到所述待抽取文本信息。
2.根据权利要求1所述的方法,其特征在于,所述从所述文本信息中获取待抽取文本信息对应的目标定位文本信息,包括:
根据所述目标对象的类型,获取所述待抽取文本信息对应的候选定位信息;
将所述文本信息与所述候选定位信息进行比对,从所述文本信息中筛选出与所述候选定位信息一致的文本信息,作为所述目标定位文本信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标对象的类型,获取所述待抽取文本信息对应的候选定位信息,包括:
从多个候选定位信息库中选取所述目标对象的类型对应的目标定位信息库,其中,所述定位信息库用于存储信息和定位信息的对应关系;
根据所述待抽取文本信息,在所述目标定位信息库中查询所述对应关系,获取所述待抽取文本信息对应的候选定位信息。
4.根据权利要求1-3任一项所述的方法,其中,所述根据所述目标定位文本信息的位置,确定所述目标对象上的所述待抽取文本信息的抽取区域,包括:
根据任一目标定位文本信息的位置,确定任一目标定位文本信息对应的抽取区域;
对多个所述目标定位文本信息对应的抽取区域进行组合,以生成所述待抽取文本信息的抽取区域。
5.根据权利要求4所述的方法,其中,所述根据任一目标定位文本信息的位置,确定任一目标定位文本信息对应的抽取区域,包括:
获取以所述任一目标定位文本信息的位置为中心,按照预设值向外扩散形成的区域,作为所述任一目标定位文本信息对应的抽取区域。
6.根据权利要求1所述的方法,其中,所述在所述抽取区域内进行信息抽取,得到所述待抽取文本信息,包括:
获取所述待抽取文本信息的抽取规则;
基于所述文本信息的位置,获取位于所述抽取区域内的目标文本信息;
按照所述抽取规则从所述目标文本信息中获取所述待抽取文本信息。
7.一种信息抽取装置,其特征在于,包括:
第一获取模块,用于获取目标对象的文本识别结果,所述文本识别结果包括所述目标对象携带的文本信息和所述文本信息的位置;
第二获取模块,用于从所述文本信息中获取待抽取文本信息对应的目标定位文本信息;
确定模块,用于根据所述目标定位文本信息的位置,确定所述目标对象上的所述待抽取文本信息的抽取区域;
抽取模块,用于在所述抽取区域内进行信息抽取,得到所述待抽取文本信息。
8.根据权利要求7所述的装置,其特征在于,所述第二获取模块,包括:
获取单元,用于根据所述目标对象的类型,获取所述待抽取文本信息对应的候选定位信息;
筛选单元,用于将所述文本信息与所述候选定位信息进行比对,从所述文本信息中筛选出与所述候选定位信息一致的文本信息,作为所述目标定位文本信息。
9.根据权利要求8所述的装置,其特征在于,所述获取单元,还用于:
从多个候选定位信息库中选取所述目标对象的类型对应的目标定位信息库,其中,所述定位信息库用于存储信息和定位信息的对应关系;
根据所述待抽取文本信息,在所述目标定位信息库中查询所述对应关系,获取所述待抽取文本信息对应的候选定位信息。
10.根据权利要求7-9任一项所述的装置,其中,所述确定模块,包括:
确定单元,用于根据任一目标定位文本信息的位置,确定任一目标定位文本信息对应的抽取区域;
组合单元,用于对多个所述目标定位文本信息对应的抽取区域进行组合,以生成所述待抽取文本信息的抽取区域。
11.根据权利要求10所述的装置,其中,所述确定单元,还用于:
获取以所述任一目标定位文本信息的位置为中心,按照预设值向外扩散形成的区域,作为所述任一目标定位文本信息对应的抽取区域。
12.根据权利要求7所述的装置,其中,所述抽取模块,还用于:
获取所述待抽取文本信息的抽取规则;
基于所述文本信息的位置,获取位于所述抽取区域内的目标文本信息;
按照所述抽取规则从所述目标文本信息中获取所述待抽取文本信息。
13.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-6中任一项所述的信息抽取方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的信息抽取方法。
CN202110797350.5A 2021-07-14 2021-07-14 信息抽取方法、装置和电子设备 Pending CN113505588A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110797350.5A CN113505588A (zh) 2021-07-14 2021-07-14 信息抽取方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110797350.5A CN113505588A (zh) 2021-07-14 2021-07-14 信息抽取方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN113505588A true CN113505588A (zh) 2021-10-15

Family

ID=78013308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110797350.5A Pending CN113505588A (zh) 2021-07-14 2021-07-14 信息抽取方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113505588A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN107729480A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种限定区域的文本信息抽取方法及装置
CN109145892A (zh) * 2018-09-28 2019-01-04 中国科学院长春光学精密机械与物理研究所 图像信息抽取方法、装置、设备及计算机可读存储介质
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111652176A (zh) * 2020-06-11 2020-09-11 商汤国际私人有限公司 信息提取方法、装置、设备及存储介质
CN111985306A (zh) * 2020-07-06 2020-11-24 北京欧应信息技术有限公司 一种应用于医疗领域文档的ocr和信息抽取方法
CN112036343A (zh) * 2020-09-04 2020-12-04 北京字节跳动网络技术有限公司 答案提取方法、装置、计算机可读介质及电子设备
CN112036395A (zh) * 2020-09-04 2020-12-04 联想(北京)有限公司 基于目标检测的文本分类识别方法及装置
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN107729480A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种限定区域的文本信息抽取方法及装置
CN109145892A (zh) * 2018-09-28 2019-01-04 中国科学院长春光学精密机械与物理研究所 图像信息抽取方法、装置、设备及计算机可读存储介质
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111652176A (zh) * 2020-06-11 2020-09-11 商汤国际私人有限公司 信息提取方法、装置、设备及存储介质
CN111985306A (zh) * 2020-07-06 2020-11-24 北京欧应信息技术有限公司 一种应用于医疗领域文档的ocr和信息抽取方法
CN112036343A (zh) * 2020-09-04 2020-12-04 北京字节跳动网络技术有限公司 答案提取方法、装置、计算机可读介质及电子设备
CN112036395A (zh) * 2020-09-04 2020-12-04 联想(北京)有限公司 基于目标检测的文本分类识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘稳;王锦;李锐;游景扬;陈建峡;: "法院判决书关键信息抽取系统设计与实现", 湖北工业大学学报, no. 01, pages 63 - 67 *

Similar Documents

Publication Publication Date Title
US10482170B2 (en) User interface for contextual document recognition
CN110209760B (zh) 历审案件关联的方法和装置、电子设备、计算机可读介质
CN110276236B (zh) 计算机及模板管理方法
CN113378789B (zh) 单元格位置的检测方法、装置和电子设备
US20110035719A1 (en) Printed circuit board layout system and method thereof
CN110705559A (zh) 基于钢材标签图像识别的钢材信息记录方法、装置及设备
CN109917978B (zh) 基于bim模型的批注对应构件显示方法、装置以及存储装置
CN110647603A (zh) 图像标注信息的处理方法、装置和系统
CN110135412B (zh) 名片识别方法和装置
CN107704520B (zh) 基于人脸识别的多文件检索方法和装置
CN112465601A (zh) 一种电子订单生成方法、装置及存储介质
CN107330427B (zh) 图片的处理方法及装置
CN113485988A (zh) 一种数据质量监控方法、设备及计算机可读存储介质
CN110457332B (zh) 一种信息处理方法及相关设备
CN110633649A (zh) 机械图的审核方法及装置
CN105117489A (zh) 一种数据库管理方法、装置及电子设备
CA3142579A1 (en) Method and apparatus for validation of event tracking acquired data
CN113505588A (zh) 信息抽取方法、装置和电子设备
CN110489416B (zh) 一种基于数据处理的信息存储方法及相关设备
CN109359878B (zh) 档案数据处理方法、计算机装置及计算机可读存储介质
JP6175904B2 (ja) 照合対象抽出システム、照合対象抽出方法、照合対象抽出プログラム
CN109840557B (zh) 图像识别方法和装置
CN110909213A (zh) 物料互配方法、物料互配装置及终端设备
CN110580243A (zh) 一种文件比对方法、装置、电子设备及存储介质
JP5309560B2 (ja) 描画データ管理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination