CN111723177A - 信息提取模型的建模方法、装置及电子设备 - Google Patents

信息提取模型的建模方法、装置及电子设备 Download PDF

Info

Publication number
CN111723177A
CN111723177A CN202010374030.4A CN202010374030A CN111723177A CN 111723177 A CN111723177 A CN 111723177A CN 202010374030 A CN202010374030 A CN 202010374030A CN 111723177 A CN111723177 A CN 111723177A
Authority
CN
China
Prior art keywords
searching
search
model
configuration file
target information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010374030.4A
Other languages
English (en)
Other versions
CN111723177B (zh
Inventor
朱曙光
曾华荣
韩锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Data Xiangsu Intelligent Technology Co ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202010374030.4A priority Critical patent/CN111723177B/zh
Publication of CN111723177A publication Critical patent/CN111723177A/zh
Application granted granted Critical
Publication of CN111723177B publication Critical patent/CN111723177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息提取模型的建模方法、装置及电子设备。该方法包括:获取预设的模型配置文件,模型配置文件包括目标信息对应的查找方法配置,查找方法配置包括至少一种预设的查找方法,每一查找方法用于根据对应的预设规则进行信息查找;对配置文件进行解析,得到目标信息对应的查找方案;根据查找方案创建模型。该方法无需实现重复的查找逻辑,大大提高了建模效率。

Description

信息提取模型的建模方法、装置及电子设备
技术领域
本发明涉及信息提取技术领域,更具体地,涉及一种信息提取模型的建模方法、一种信息提取模型的建模装置、一种电子设备以及一种计算机可读存储介质。
背景技术
非结构化数据是指其内在含义并未通过其格式显现而是隐含在具体内容中的信息形式。互联网中的大量信息都是非结构化的,如电子文本、邮件、图片、音频及视频等。由此可见,非结构化数据在信息数据中占有非常重要的地位。
数据的结构化是指将信息从非结构化据中提取出来,构成具有一定关系的键值对数据。在一个例子中,对文本类图像中的信息进行结构化处理,即提取文本图像(例如身份证或者驾驶证等证件照片)中的关键信息。在上述例子中,根据关键信息字段的位置和文本内容的特点,基于特定规则,在图像的检测和识别结果中进行检索。上述方法的实施过程例如为:首先对文本图像进行预处理,其次检测文本图像中的文本框和文本内容,最后设计关键信息查找规则。
上述方法针对具体的场景进行深度定制化的建模,在进行方案研发时,不同场景下的结构化信息提取需要由开发者编写单独的代码。随着文本结构化需求日益增长,深度定制的文本结构化方法面临着一些挑战,包括:每新增一个场景,需要研发人员从头根据场景特点从头开发,时间成本较高;随着文本结构化场景的增多,众多方案的维护成本很高;不同方案之间普遍存在着代码冗余,不同方案之间的结构化查找逻辑大多数近似,而深度定制方案的过程中大量存在着复制或者修改其他方案的查找逻辑;目前建模方案需要编写代码实现,对于建模人员很不友好。
因此,有必要提出一种新的信息提取方案,以解决现有技术存在的至少一个问题。
发明内容
本发明的一个目的是提供一种进行信息提取的新技术方案。
根据本发明的第一方面,提供了一种信息提取模型的建模方法,所述模型用于在文本结构化过程中提取至少一种目标信息,所述方法包括:
获取预设的模型配置文件,所述模型配置文件包括所述目标信息对应的查找方法配置,所述查找方法配置包括至少一种预设的查找方法,每一所述查找方法用于根据对应的预设规则进行信息查找;
对所述配置文件进行解析,得到所述目标信息对应的查找方案;
根据所述查找方案创建所述模型。
可选地,所述模型配置文件还包括所述目标信息的名称、所述目标信息的结果类型中的至少一种。
可选地,所述查找方法配置还包括多个所述查找方法之间的衔接关系。
可选地,所述多个所述查找方法之间的衔接关系包括:每一所述查找方法的上游方法,以及作为最后节点的查找方法。
可选地,所述查找方法包括以下至少一种:
基于文本内容的查找方法;
基于指定范围的查找方法;
基于位置关系的查找方法;
带有处理功能的查找方法;
基于已有查找结果的查找方法。
可选地,所述基于文本内容的查找方法,包括以下至少一种:
根据指定字段对文本内容进行查找的方法;
根据正则表达式对文本内容进行查找的方法;
查找文本内容中的非连续字段的方法。
可选地,所述基于指定范围的查找方法,包括以下至少一种:
在指定索引范围内进行查找的方法;
在指定位置范围内进行查找的方法。
可选地,所述基于位置关系的查找方法,包括以下至少一种:
基于文本框中心点位置关系的查找方法;
基于字段行列关系的查找方法;
块查找方法。
可选地,所述带有处理功能的查找方法,包括以下至少一种:
根据指定关键词对文本进行提取的查找方法;
检验字段是否符合指定格式的查找方法。
可选地,所述基于已有查找结果的查找方法,包括以下至少一种:
基于所述已有查找结果进行指定位置的查找;
基于所述已有查找结果进行指定字段的查找。
可选地,所述对所述配置文件进行解析,得到所述目标信息对应的查找方案,包括:
以每一所述查找方法作为节点,根据所述查找方法配置建立图结构;
根据所述图结构,得到所述查找方案。
可选地,还包括:
将目标文本输入所述模型,得到所述目标信息。
可选地,所述配置文件通过以下方式创建:
基于预设格式向JSON文件中写入指令代码,得到所述配置文件,其中,所述指令代码包括所述查找方法的名称。
根据本发明的第二方面,提供了一种信息提取模型的建模装置,所述模型用于在文本结构化过程中提取至少一种目标信息,所述装置包括:
配置文件获取模块,用于获取预设的模型配置文件,所述模型配置文件包括所述目标信息对应的查找方法配置,所述查找方法配置包括至少一种预设的查找方法,每一所述查找方法用于根据对应的预设规则进行信息查找;
解析模块,用于对所述配置文件进行解析,得到所述目标信息对应的查找方案;
创建模块,用于根据所述查找方案创建所述模型。
可选地,所述模型配置文件还包括所述目标信息的名称、所述目标信息的结果类型中的至少一种。
可选地,所述查找方法配置还包括多个所述查找方法之间的衔接关系。
可选地,所述多个所述查找方法之间的衔接关系包括:每一所述查找方法的上游方法,以及作为最后节点的查找方法。
可选地,所述查找方法包括以下至少一种:
基于文本内容的查找方法;
基于指定范围的查找方法;
基于位置关系的查找方法;
带有处理功能的查找方法;
基于已有查找结果的查找方法。
可选地,所述基于文本内容的查找方法,包括以下至少一种:
根据指定字段对文本内容进行查找的方法;
根据正则表达式对文本内容进行查找的方法;
查找文本内容中的非连续字段的方法。
可选地,所述基于指定范围的查找方法,包括以下至少一种:
在指定索引范围内进行查找的方法;
在指定位置范围内进行查找的方法。
可选地,所述基于位置关系的查找方法,包括以下至少一种:
基于文本框中心点位置关系的查找方法;
基于字段行列关系的查找方法;
块查找方法。
可选地,所述带有处理功能的查找方法,包括以下至少一种:
根据指定关键词对文本进行提取的查找方法;
检验字段是否符合指定格式的查找方法。
可选地,所述基于已有查找结果的查找方法,包括以下至少一种:
基于所述已有查找结果进行指定位置的查找;
基于所述已有查找结果进行指定字段的查找。
可选地,所述解析模块还用于:
以每一所述查找方法作为节点,根据所述查找方法配置建立图结构;
根据所述图结构,得到所述查找方案。
可选地,还包括提取模块,所述提取模块用于:
将目标文本输入所述模型,得到所述目标信息。
可选地,所述配置文件通过以下方式创建:
基于预设格式向JSON文件中写入指令代码,得到所述配置文件,其中,所述指令代码包括所述查找方法的名称。
根据本发明的第三方面,提供了一种电子设备,包括:
如本发明第二方面所述的建模装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行如本发明第一方面所述的建模方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,存储有可执行命令,所述可执行命令被处理器执行时,实现如本发明第一方面所述的建模方法。
本实施例中信息提取模型的建模方案,将文本结构化中常用的结构信息查找逻辑和方法抽象为预设的查找方法,用户在创建信息提取模型时可以直接使用预设的查找方法,无需实现重复的查找逻辑,大大提高了建模效率。此外,本实施例中信息提取模型的建模方案基于模型配置文件创建模型,用户可以在配置文件中填写目标信息对应的查找方法配置,无需手动编写代码即可完成模型的创建,因此该建模方案流程简单,速度快,建模效果可以得到保证,便于信息提取方案的移植。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1示出了可用于实现本发明的实施例的电子设备的示意图。
图2示出了根据本发明实施例的信息提取模型的建模方法的流程图。
图3示出了根据本发明实施例的查找方法的示意图。
图4示出了根据本发明实施例的第一类查找方法的示意图。
图5示出了根据本发明实施例的第二类查找方法的示意图。
图6示出了根据本发明实施例的第三类查找方法的示意图。
图7示出了根据本发明实施例的第四类查找方法的示意图。
图8示出了根据本发明实施例的第五类查找方法的示意图。
图9示出了根据本发明实施例的图结构的示意图。
图10示出了根据本发明实施例的建模方案的示意图。
图11示出了根据本发明实施例的建模装置的示意图。
图12示出了根据本发明实施例的电子设备的示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1示出了可用于实现本发明的实施例的电子设备的示意图。
如图1所示,电子设备1000包括处理器1100、存储器1200、接口装置1300、通信装置1400、输出装置1500、输入装置1600。其中,处理器1100例如是中央处理器CPU、微处理器MCU等。存储器1200例如是ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如是USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信。输出装置1500例如是液晶显示屏、触摸显示屏、扬声器等。输入装置1600例如是触摸屏、键盘、鼠标、麦克风等。
应用于本发明的实施例中,电子设备1000的存储器1200用于存储指令,指令用于控制处理器1100执行本发明实施例提供的信息提取模型的建模方法。在上述描述中,技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
尽管在图1中示出了电子设备1000的多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000只涉及存储器1200、处理器1100、输出装置1500和输入装置1600。
本实施例中,电子设备1000例如是用于提供信息提取服务的服务器。
图1所示的电子设备1000仅是解释性的,并且决不是为了限制本发明、其应用或用途。
<方法实施例>
本实施例提供了一种信息提取模型的建模方法,该方法例如由图1中的电子设备1000实施。
如图2所示,该方法包括以下步骤S1100-S1300。
在步骤S1100中,获取预设的模型配置文件,模型配置文件包括目标信息对应的查找方法配置,查找方法配置包括至少一种预设的查找方法,每一查找方法用于根据对应的预设规则进行信息查找。
本实施例中的模型述模型用于在文本结构化过程中提取至少一种目标信息。以从身份证图像中提取关键信息的情形为例,目标信息包括姓名、身份证号、住址等。
本实施例中,模型的输入为文本。上述文本可以是纯文本,还可以是从图像中识别出来的文本,其中既包括文本内容又包括文本的位置信息(例如文本框坐标)。
本实施例中,模型配置文件是记录有模型配置信息的文件,其中至少包括目标信息对应的查找方法配置。用户(例如建模人员)可以在查找方法配置中指定一种或者多种预设的查找方法,以形成用于查找目标信息的查找方案。其中,每一查找方法用于根据对应的预设规则进行信息查找。
在一个例子中,配置文件通过以下方式创建:基于预设格式向JSON文件中写入指令代码,得到配置文件,其中,指令代码包括查找方法的名称。其中,模型配置文件为JSON(JavaScript Object Notation,JS对象简谱,一种轻量级的数据交换格式)格式,用户可以在该JSON文件中填写查找方法的名称,从而使用相应的查找方法。
在一个例子中,模型配置文件还包括目标信息的名称、目标信息的结果类型中的至少一种。以从身份证图像中提取关键信息的情形为例,目标信息的名称例如是“姓名”、“身份证号”、“住址”等,目标信息的结果类型例如是“数字”、“文本”等。
在一个例子中,在查找方法为多个的情况下,查找方法配置还包括多个查找方法之间的衔接关系。上述衔接关系是指多个查找方法之间的输入输出联系,例如第一查找方法的输出为第二查找方法的输入。
在一个例子中,多个查找方法之间的衔接关系包括:每一查找方法的上游方法,以及作为最后节点的查找方法。某一查找方法的上游方法,是指在衔接关系中作为该查找方法上一节点的方法,也就是说,该上游方法的输出是该查找方法的输入。作为最后节点的查找方法,是指在多个查找方法中作为最后一个节点的查找方法,或者说,输出结果为最终目标信息的查找方法。
在一个例子中,如图3所示,查找方法包括以下至少一种:基于文本内容的查找方法;基于指定范围的查找方法;基于位置关系的查找方法;带有处理功能的查找方法;基于已有查找结果的查找方法。
基于文本内容的查找方法(记为TextFinder),用于从待处理文本中过滤出目标字段,根据文本内容的特征进行查找。
在一个例子中,如图4所示,基于文本内容的查找方法,包括以下至少一种:根据指定字段对文本内容进行查找的方法;根据正则表达式对文本内容进行查找的方法;查找文本内容中的非连续字段的方法。根据指定字段对文本内容进行查找的方法(记为TextFinderValue),用于查找文本内容符合指定要求的字段,返回值可能是一个字段也可以能是多个字段。根据正则表达式对文本内容进行查找的方法(记为TextFinderRegularExpr),用于使用正则表达式查找文本内容符合指定要求的字段。查找文本内容中的非连续字段的方法(记为TextFinderSeperate),用于查找存在断开或者分行现象的字段。
基于指定范围的查找方法(记为LocateFinde),用于通过设定查找的范围,从待处理文本中筛选在设定范围内的数据。
在一个例子中,如图5所示,基于指定范围的查找方法包括以下至少一种:在指定索引范围内进行查找的方法;在指定位置范围内进行查找的方法。在指定索引范围内进行查找的方法(记为LocateFinderIndex),用于选择指定索引范围的文本作为查找结果。在指定位置范围内进行查找的方法(记为LocateFinderRange),选择文本内容的中心点在指定范围内的字段作为查找结果。
基于位置关系的查找方法(记为BoxFinder),用于根据给定的参考字段,通过其上、下、左、右、同行等位置关系找到目标的字段。
在一个例子中,如图6所示,基于位置关系的查找方法包括以下至少一种:基于文本框中心点位置关系的查找方法;基于字段行列关系的查找方法;块查找方法。基于文本框中心点位置关系的查找方法(记为BoxFinderSurround),用于以某个字段文本框的中心点为参考,筛选中心点在设置的选定区域内的字段作为查找结果。基于字段行列关系的查找方法(记为BoxFinderRelative),用于以给定的字段为参考,选择同行/同列上的字段做为查找结果。块查找方法(记为BoxFinderBlock),用于以给定的参考字段为参考,查找与参考字段为起点的指定方向上邻近的元素,并将查找结果连接后返回。
带有处理功能的查找方法(记为ProcessFinder),用于对查找结果进行处理。
在一个例子中,如图7所示,带有处理功能的查找方法包括以下至少一种:根据指定关键词对文本进行提取的查找方法;检验字段是否符合指定格式的查找方法。根据指定关键词对文本进行提取的查找方法(记为ProcessFinderContinuity),用于对待处理文本提取给定的关键词之后的字段。检验字段是否符合指定格式的查找方法(记为ProcessFinderCheck),用于检验字段是否符合指定的格式(正则表达式)。
基于已有查找结果的查找方法(记为CorrespondFinder),用于以已经查找到的元素为基准进行查找。
在一个例子中,如图8所示,基于已有查找结果的查找方法包括以下至少一种:基于已有查找结果进行指定位置的查找;基于已有查找结果进行指定字段的查找。基于已有查找结果进行指定位置的查找(记为CorrespondFinderOne),用于将已经查找到的元素作为参考元素,选择参考元素同行左右某个位置的元素,或者同列的上下某个位置的元素。基于已有查找结果进行指定字段的查找(记为CorrespondFinderIndex),用于基于已有的查找结果,返回指定字段的查找结果。
在一个例子中,一个查找身份证姓名字段内容的模型配置文件包括如下内容:
Figure BDA0002479448570000101
在上述模型配置文件中,name是指目标信息的名称,type是指目标信息的结果类型,output是指作为最后节点的查找方法,finder是指目标信息对应的查找方法配置。
在上述例子中,每一finder可能包括多个查找方法。将每一预设的查找方法作为一个节点进行配置,每个节点包含以下要素:node是该节点的名字,search是作为查找范围的输入节点,query是作为查找参考的输入节点,func是该节点对应的查找方法的名字,condition是查找方法的输入参数。
在该例子中,关键字段的查找选择使用了两个系统提供的抽象查找方法,分别是TextFinderValue和BoxFinderRelative两个查找方法,来首先查找到含有“姓名”文本内容的信息位置,然后选取其右侧的最邻近信息作为查找结果,从而查找到身份证姓名字段的内容。需要说明的是,如果需要对多个目标信息进行查找,则需要在模型配置文件中提供多个类似的查找方法配置。
在步骤S1200中,对配置文件进行解析,得到目标信息对应的查找方案。
上述目标信息对应的查找方案,是指从待处理文本提取目标信息的完整流程。
在一个例子中,对配置文件进行解析,得到目标信息对应的查找方案,包括:以每一查找方法作为节点,根据查找方法配置建立图结构;根据图结构,得到查找方案。
图(Graph)结构是一种非线性的数据结构。在实际生活中,交通运输网、地铁网络、社交网络、计算机中的状态执行等等都可以抽象成图结构。图结构比树结构复杂的非线性结构。图结构的构成要素包括节点(Vertex)和边(Edge)。根据边是否具有方向性,图结构可以分为无向图、有向图、混合图等。
在一个例子中,对校验码进行提取,模型配置文件包括如下内容。
Figure BDA0002479448570000111
Figure BDA0002479448570000121
对上述模型进行解析,以有向无环图的形式进行组织,每个查找方式看作图中的一个节点,节点可以将其他节点的输出作为输入,也可以将当前节点的输出作为其他节点的输入。容易理解,图结构的节点包括node_1、node_2、node_3、node_4和node_5,图结构的边(按照起点-终点来表示)包括node_1-node_2、node_2-node_3、node_2-node_4、node_3-node_5和node_3-node_5。最终得到的有向无环图如图9所示,其中,每个节点的输入分成了查找范围(search)和查找参考(query)两种类型。
根据上述有向无环图,可以得到对目标信息进行查找的完整流程,即目标信息对应的查找方案。
在步骤S1300中,根据查找方案创建模型。
解析完输入的配置文件后,电子设备1000会根据解析出的查找方案,调用方案中相关的查找方法,在内存中创建出模型,以进行目标信息的提取。
在一个例子中,步骤S1300之后还包括:将目标文本输入模型,得到目标信息,即通过创建出的模型进行目标文本的提取。
本实施例中信息提取模型的建模方案,将文本结构化中常用的结构信息查找逻辑和方法抽象为预设的查找方法,用户在创建信息提取模型时可以直接使用预设的查找方法,无需实现重复的查找逻辑,大大提高了建模效率。此外,本实施例中信息提取模型的建模方案基于模型配置文件创建模型,用户可以在配置文件中填写目标信息对应的查找方法配置,无需手动编写代码即可完成模型的创建,因此该建模方案流程简单,速度快,建模效果可以得到保证,便于信息提取方案的移植。
以从文本图像的检测和识别结果中查找关键信息为例,如图10所示,本实施例中的建模方案分为三个阶段,分别是建模人员创建方案的配置文件、系统解析配置文件生成建模方案、建模方案对输入进行查找提取关键信息。
下面以身份证正面关键信息提取模型的建立过程作为示例。身份证正面图片需要查找的关键信息包括了姓名、性别、民族、出生、住址、公民身份号码六个字段。
关键字段的查找逻辑如下文。(1)姓名:查找到文本内容包含“姓名”关键字的字段,然后取其同行右侧的第一个字段。(2)性别:查找到文本内容包含“性别”关键字的字段,然后取其同行右侧的第一个字段。(3)民族:查找到文本内容包含“民族”关键字的字段,然后取其同行右侧的第一个字段。(4)出生:查找到文本内容包含“生日”关键字的字段,然后取其同行右侧的第一个字段。(5)住址:查找到文本内容包含“住址”关键字的字段,然后取其同行右侧的第一个字段,以查到的字段为参考,向下查找同块的字段。(6)公民身份号码:查找到文本内容包含“公民身份号码”关键字的字段,然后取其同行右侧的第一个字段。
根据上文的查找逻辑,建立模型配置文件如下。
Figure BDA0002479448570000131
Figure BDA0002479448570000141
Figure BDA0002479448570000151
Figure BDA0002479448570000161
通过对上述模型配置文件进行解析,即可创建出可以对姓名、性别、民族、出生、住址、公民身份号码六个字段的关键信息进行提取的模型。
<装置实施例>
本实施例提供了一种信息提取模型的建模装置。如图11所示,建模装置110包括配置文件获取模块111、解析模块112和创建模块113。
配置文件获取模块111,用于获取预设的模型配置文件,模型配置文件包括目标信息对应的查找方法配置,查找方法配置包括至少一种预设的查找方法,每一查找方法用于根据对应的预设规则进行信息查找。
解析模块112,用于对配置文件进行解析,得到目标信息对应的查找方案。
创建模块113,用于根据查找方案创建模型。
在一个例子中,模型配置文件还包括目标信息的名称、目标信息的结果类型中的至少一种。
在一个例子中,查找方法配置还包括多个查找方法之间的衔接关系。
在一个例子中,多个查找方法之间的衔接关系包括:每一查找方法的上游方法,以及作为最后节点的查找方法。
在一个例子中,查找方法包括以下至少一种:基于文本内容的查找方法;基于指定范围的查找方法;基于位置关系的查找方法;带有处理功能的查找方法;基于已有查找结果的查找方法。
在一个例子中,基于文本内容的查找方法,包括以下至少一种:根据指定字段对文本内容进行查找的方法;根据正则表达式对文本内容进行查找的方法;查找文本内容中的非连续字段的方法。
在一个例子中,基于指定范围的查找方法,包括以下至少一种:在指定索引范围内进行查找的方法;在指定位置范围内进行查找的方法。
在一个例子中,基于位置关系的查找方法,包括以下至少一种:基于文本框中心点位置关系的查找方法;基于字段行列关系的查找方法;块查找方法。
在一个例子中,带有处理功能的查找方法,包括以下至少一种:根据指定关键词对文本进行提取的查找方法;检验字段是否符合指定格式的查找方法。
在一个例子中,基于已有查找结果的查找方法,包括以下至少一种:基于已有查找结果进行指定位置的查找;基于已有查找结果进行指定字段的查找。
在一个例子中,解析模块112还用于:以每一查找方法作为节点,根据查找方法配置建立图结构;根据图结构,得到查找方案。
在一个例子中,还包括提取模块114,提取模块114用于:将目标文本输入模型,得到目标信息。
在一个例子中,配置文件通过以下方式创建:基于预设格式向JSON文件中写入指令代码,得到配置文件,其中,指令代码包括查找方法的名称。
本实施例中信息提取模型的建模装置能够实现本发明方法实施例中的各个步骤,也能实现相同的技术效果,这里不再赘述。
<电子设备实施例>
本实施例提供一种电子设备,该电子设备包括图11所示的建模装置110。或者,该电子设备为图12所示的电子设备120,包括处理器121和存储器122。存储器121用于存储指令,该指令用于控制处理器执行根据本发明方法实施例描述的建模方法。
<计算机可读存储介质实施例>
本实施例提供一种计算机可读存储介质。该计算机可读存储介质存储有可执行命令,该可执行命令被处理器执行时,实现根据本发明方法实施例描述的建模方法。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种信息提取模型的建模方法,所述模型用于在文本结构化过程中提取至少一种目标信息,所述方法包括:
获取预设的模型配置文件,所述模型配置文件包括所述目标信息对应的查找方法配置,所述查找方法配置包括至少一种预设的查找方法,每一所述查找方法用于根据对应的预设规则进行信息查找;
对所述配置文件进行解析,得到所述目标信息对应的查找方案;
根据所述查找方案创建所述模型。
2.根据权利要求1所述的方法,其中,所述模型配置文件还包括所述目标信息的名称、所述目标信息的结果类型中的至少一种。
3.根据权利要求1所述的方法,其中,所述查找方法配置还包括多个所述查找方法之间的衔接关系。
4.根据权利要求2所述的方法,其中,所述多个所述查找方法之间的衔接关系包括:每一所述查找方法的上游方法,以及作为最后节点的查找方法。
5.根据权利要求1所述的方法,其中,所述查找方法包括以下至少一种:
基于文本内容的查找方法;
基于指定范围的查找方法;
基于位置关系的查找方法;
带有处理功能的查找方法;
基于已有查找结果的查找方法。
6.根据权利要求5所述的方法,其中,所述基于文本内容的查找方法,包括以下至少一种:
根据指定字段对文本内容进行查找的方法;
根据正则表达式对文本内容进行查找的方法;
查找文本内容中的非连续字段的方法。
7.根据权利要求5所述的方法,其中,所述基于指定范围的查找方法,包括以下至少一种:
在指定索引范围内进行查找的方法;
在指定位置范围内进行查找的方法。
8.一种信息提取模型的建模装置,所述模型用于在文本结构化过程中提取至少一种目标信息,所述装置包括:
配置文件获取模块,用于获取预设的模型配置文件,所述模型配置文件包括所述目标信息对应的查找方法配置,所述查找方法配置包括至少一种预设的查找方法,每一所述查找方法用于根据对应的预设规则进行信息查找;
解析模块,用于对所述配置文件进行解析,得到所述目标信息对应的查找方案;
创建模块,用于根据所述查找方案创建所述模型。
9.一种电子设备,包括:
如权利要求8所述的建模装置;或者,
处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据权利要求1-7中任一项所述的建模方法。
10.一种计算机可读存储介质,存储有可执行命令,所述可执行命令被处理器执行时,实现根据权利要求1-7中任一项所述的建模方法。
CN202010374030.4A 2020-05-06 2020-05-06 信息提取模型的建模方法、装置及电子设备 Active CN111723177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010374030.4A CN111723177B (zh) 2020-05-06 2020-05-06 信息提取模型的建模方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010374030.4A CN111723177B (zh) 2020-05-06 2020-05-06 信息提取模型的建模方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111723177A true CN111723177A (zh) 2020-09-29
CN111723177B CN111723177B (zh) 2023-09-15

Family

ID=72564241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010374030.4A Active CN111723177B (zh) 2020-05-06 2020-05-06 信息提取模型的建模方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111723177B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156748A1 (en) * 2005-12-21 2007-07-05 Ossama Emam Method and System for Automatically Generating Multilingual Electronic Content from Unstructured Data
US20140143661A1 (en) * 2012-11-16 2014-05-22 International Business Machines Corporation Building and maintaining information extraction rules
CN105354239A (zh) * 2015-10-10 2016-02-24 中国科学院计算机网络信息中心 一种基于配置数据加工模型的加工中心数据流式处理方法
US20160275180A1 (en) * 2015-03-19 2016-09-22 Abbyy Infopoisk Llc System and method for storing and searching data extracted from text documents
CN107729526A (zh) * 2017-10-30 2018-02-23 清华大学 一种文本结构化的方法
CN108235069A (zh) * 2016-12-22 2018-06-29 北京国双科技有限公司 网络电视日志的处理方法及装置
CN108733813A (zh) * 2018-05-21 2018-11-02 山东管理学院 面向bbs论坛网页内容的信息提取方法、系统及介质
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN110162786A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110309364A (zh) * 2018-03-02 2019-10-08 腾讯科技(深圳)有限公司 一种信息抽取方法及装置
CN110806874A (zh) * 2018-08-03 2020-02-18 武汉斗鱼网络科技有限公司 一种直播间配置文件的解析方法、存储介质、电子设备及系统
CN110955714A (zh) * 2019-12-03 2020-04-03 中国银行股份有限公司 一种将非结构化文本转化为结构化文本的方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156748A1 (en) * 2005-12-21 2007-07-05 Ossama Emam Method and System for Automatically Generating Multilingual Electronic Content from Unstructured Data
US20140143661A1 (en) * 2012-11-16 2014-05-22 International Business Machines Corporation Building and maintaining information extraction rules
US20160275180A1 (en) * 2015-03-19 2016-09-22 Abbyy Infopoisk Llc System and method for storing and searching data extracted from text documents
CN105354239A (zh) * 2015-10-10 2016-02-24 中国科学院计算机网络信息中心 一种基于配置数据加工模型的加工中心数据流式处理方法
CN108235069A (zh) * 2016-12-22 2018-06-29 北京国双科技有限公司 网络电视日志的处理方法及装置
CN110020038A (zh) * 2017-08-01 2019-07-16 阿里巴巴集团控股有限公司 网页信息提取方法、装置、系统及电子设备
CN107729526A (zh) * 2017-10-30 2018-02-23 清华大学 一种文本结构化的方法
CN110309364A (zh) * 2018-03-02 2019-10-08 腾讯科技(深圳)有限公司 一种信息抽取方法及装置
CN108733813A (zh) * 2018-05-21 2018-11-02 山东管理学院 面向bbs论坛网页内容的信息提取方法、系统及介质
CN110806874A (zh) * 2018-08-03 2020-02-18 武汉斗鱼网络科技有限公司 一种直播间配置文件的解析方法、存储介质、电子设备及系统
CN110162786A (zh) * 2019-04-23 2019-08-23 百度在线网络技术(北京)有限公司 构建配置文件以及抽取结构化信息的方法、装置
CN110955714A (zh) * 2019-12-03 2020-04-03 中国银行股份有限公司 一种将非结构化文本转化为结构化文本的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NUNO SILVA 等: "Information Extraction from Unstructured Recipe Data", ACM, pages 165 *
李敏波;许鑫星;李强;韩乐;: "基于JSON文档结构的工业大数据多维分析方法", 中国机械工程, no. 14, pages 1700 - 1707 *
黄胜;王博博;朱菁;: "基于文档结构与深度学习的金融公告信息抽取", 计算机工程与设计, no. 01, pages 115 - 121 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819622A (zh) * 2021-01-26 2021-05-18 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备
CN112819622B (zh) * 2021-01-26 2023-10-17 深圳价值在线信息科技股份有限公司 一种信息的实体关系联合抽取方法、装置及终端设备

Also Published As

Publication number Publication date
CN111723177B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
US11244011B2 (en) Ingestion planning for complex tables
US10255253B2 (en) Augmenting and presenting captured data
CN114375435A (zh) 增强物理活动表面上的有形内容
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
WO2015018244A1 (en) Augmenting and presenting captured data
KR20210090576A (ko) 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램
KR20210038467A (ko) 이벤트 테마 생성 방법, 장치, 기기 및 저장 매체
KR102485129B1 (ko) 정보 푸시 방법, 장치, 기기 및 저장매체
CN112541359B (zh) 文档内容识别方法、装置、电子设备及介质
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
US20220337539A1 (en) Personality reply for digital content
CN111435367A (zh) 知识图谱的构建方法、系统、设备及存储介质
CN106462933A (zh) 使用内容结构来社交地连接用户
US10331800B2 (en) Search results modulator
CN111259270A (zh) 天气提醒方法、设备以及计算机可读介质
CN114995691B (zh) 一种文档处理方法、装置、设备和介质
JP2022091686A (ja) データ注釈方法、装置、電子機器および記憶媒体
CN111723177B (zh) 信息提取模型的建模方法、装置及电子设备
WO2023124793A1 (zh) 图像推送方法和装置
CN115344718B (zh) 跨区域文档内容识别方法、装置、设备、介质和程序产品
CN115756692A (zh) 基于样式属性自动组合展示页面的方法及其相关设备
CN115687704A (zh) 信息显示方法、装置、电子设备及计算机可读存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
WO2022105120A1 (zh) 图片文字检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230724

Address after: Room A-2621, Floor 2, Building 3, Yard 30, Shixing Street, Shijingshan District, Beijing 100144

Applicant after: Beijing Fourth Paradigm Technology Co.,Ltd.

Address before: Room 610, block a, yiquanhui building, 35 Shangdi East Road, Haidian District, Beijing 100085

Applicant before: THE FOURTH PARADIGM (BEIJING) TECH Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230803

Address after: Room 378, No. 314, 3rd Floor, Commercial Building, No. 9 Wangjing Street, Chaoyang District, Beijing, 100102

Applicant after: Beijing Data Xiangsu Intelligent Technology Co.,Ltd.

Address before: Room A-2621, Floor 2, Building 3, Yard 30, Shixing Street, Shijingshan District, Beijing 100144

Applicant before: Beijing Fourth Paradigm Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant