CN114942971B - 一种结构化数据的抽取方法及装置 - Google Patents
一种结构化数据的抽取方法及装置 Download PDFInfo
- Publication number
- CN114942971B CN114942971B CN202210859835.7A CN202210859835A CN114942971B CN 114942971 B CN114942971 B CN 114942971B CN 202210859835 A CN202210859835 A CN 202210859835A CN 114942971 B CN114942971 B CN 114942971B
- Authority
- CN
- China
- Prior art keywords
- paragraph
- extraction
- function
- result
- configuration operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种结构化数据的抽取方法及装置,涉及信息检索技术领域,包括:获取目标web文本,对目标web文本进行段落划分,获得多个段落对象;响应于待抽取属性字段添加操作,生成针对目标web文本的至少一个待抽取属性字段;根据用户针对每个待抽取属性字段输入的抽取逻辑配置操作,生成与每个待抽取属性字段对应的抽取逻辑集合;针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第一结构化结果对象并存储。本申请通过与每个待抽取属性字段对应的抽取逻辑集合从web文本中提取结构化数据,简化结构化数据的提取过程,提高抽取效率。
Description
技术领域
本申请涉及计算机网络、信息检索与集成技术领域,尤其涉及一种结构化数据的抽取方法及装置。
背景技术
互联网中的招投标信息大都是以web文本的形式存在,其中包含了用户关注的重点信息,比如:项目名称、采购单位、预算、中标单位、中标金额、联系人及电话等,但这些重点信息往往分散在正文中,如果能把用户关注的信息提取出来,并进行标准化,使之成为机器可以识别的结构化数据,就为数据检索、智能推送提供了便利条件。
通常的处理往往需要人工查看web文本,人工肉眼搜索所关注的信息,该种方式时效性差,需要消费掉大量人力时间。
发明内容
有鉴于此,本申请的目的在于至少提供一种结构化数据的抽取方法,本申请通过与每个待抽取属性字段对应的抽取逻辑集合从web文本中提取结构化数据,简化结构化数据的提取过程,提高抽取效率。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供一种结构化数据的抽取方法,抽取方法包括:获取目标web文本,对目标web文本进行段落划分,获得多个段落对象;响应于待抽取属性字段添加操作,生成针对目标web文本的至少一个待抽取属性字段;根据用户针对每个待抽取属性字段输入的抽取逻辑配置操作,生成与每个待抽取属性字段对应的抽取逻辑集合;针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第一结构化结果对象并存储。
在一种可能的实施方式中,每个段落对象包括键值对对象集合,其中,通过以下方式确定每个段落对象对应的键值对对象集合: 对每个段落对象进行键值对切割,获得与每个段落对象对应的多个键值对对象,其中,每个键值对对象包括键名称、键值以及切割方式;针对每个段落对象,由该段落对象对应的多个键值对对象,形成键值对对象集合。
在一种可能的实施方式中,抽取逻辑集合包括抽取标签集合、抽取函数集合以及清洗函数集合,抽取标签集合包括与待抽取属性字段对应的至少一个标签对象,抽取函数集合包括与待抽取属性字段对应的至少一个正则函数,清洗函数集合包括至少一个清洗函数,每个第一结构化结果对象包括与每个段落对象对应段落对象识别结果,每个段落对象识别结果包括键值结果集合以及函数抽取结果集合,其中,通过以下方式确定键值结果集合以及函数抽取结果集合:利用至少一个标签对象,对每个段落对象对应的键值对对象集合进行提取,获得与每个段落对象对应的多个键值对识别结果,根据多个键值对识别结果以及与每个键值对识别结果对应的标签对象,确定与每个段落对象对应的键值结果集合;利用至少一个正则函数,对每个段落对象对应的段落文本进行提取,获得与每个段落对象对应的多个函数抽取结果,根据多个函数抽取结果以及与每个函数抽取结果对应的正则函数,确定函数抽取结果集合;利用至少一个清洗函数,分别对键值结果集合和函数抽取结果集合进行清洗,获得与每个段落对象对应的清洗后的键值结果集合和函数抽取结果集合。
在一种可能的实施方式中,抽取逻辑集合还包括用于指示是否进行实体识别的实体识别参数,每个第一结构化结果对象还包括与每个段落对象对应的实体识别结果集合,其中,通过以下方式确定实体识别结果集合:获取实体识别参数;判断实体识别参数是否指示对多个段落对象进行实体识别;若实体识别参数指示对多个段落对象进行实体识别,则对每个段落对象对应的段落文本进行识别,获得与每个段落对象对应的多个实体识别结果;根据至少一个清洗函数,对多个实体识别结果集合进行清洗,获得与每个段落对象对应的清洗后多个实体识别结果,由清洗后多个实体识别结果形成实体识别结果集合;若实体识别参数指示不对多个段落对象进行实体识别,则无实体识别结果集合。
在一种可能的实施方式中,所述抽取逻辑配置操作包括标签名称配置操作和标签权重配置操作,每个标签对象包括标签对象名称和标签权重,其中,通过以下方式确定每个标签对象:响应于标签名称配置操作,确定与所述待抽取属性字段对应的至少一个标签名称;响应于标签权重配置操作,生成与每个标签对象对应的标签权重。
在一种可能的实施方式中,每个正则函数包括正则函数名称、正则表达式以及正则权重,抽取逻辑配置操作还包括正则函数名称配置操作、正则表达式配置操作以及正则权重配置操作,其中,通过以下方式确定每个字段抽取函数:响应于正则函数名称配置操作,确定正则函数名称;响应于正则表达式配置操作,确定用于进行属性字段抽取的正则表达式;响应于正则权重配置操作,生成与正则表达式对应的正则权重。
在一种可能的实施方式中,抽取逻辑集合还包括第一基本属性,第一基本属性包括第一属性名称以及第一属性类型,抽取逻辑配置操作还包括第一属性名称配置操作、第一属性类型配置操作以及实体识别参数配置操作,其中,通过以下方式确定第一基本属性以及实体识别参数:响应于第一属性名称配置操作,生成第一属性名称;响应于第一属性类型配置操作,确定第一属性类型;响应于实体识别参数配置操作,生成用于指示是否进行实体识别的实体识别参数。
在一种可能的实施方式中,每个清洗函数包括清洗函数名称、清洗逻辑、清洗前值和清洗后值,抽取逻辑配置操作还包括清洗函数名称配置操作、清洗逻辑配置操作、清洗前值配置操作以及清洗后值配置操作,其中,通过以下方式确定字段清洗函数:响应于字段清洗函数名称配置操作,确定字段清洗函数名称;响应于清洗逻辑配置操作,确定清洗逻辑;响应于清洗前值配置操作,生成清洗前值;响应于清洗后值配置操作,生成清洗后值。
在一种可能的实施方式中,方法还包括:针对每个段落对象,对该段落对象进行段落划分,获得段落划分结果,段落划分结果用于指示段落对象所包含的目标段落对象;针对每个段落对象,若段落划分结果为空,确定该段落对象无目标段落对象,结束对该段落对象的处理;针对每个段落对象,若段落划分结果存在至少一个目标段落对象,针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落子对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第二结构化结果对象并存储。
第二方面,本申请实施例还提供一种结构化数据的抽取装置,抽取装置包括:划分模块,用于获取目标web文本,对目标web文本进行段落划分,获得多个段落对象;添加模块,用于响应于待抽取属性字段添加操作,生成针对目标web文本的至少一个待抽取属性字段;逻辑配置模块,用于根据用户针对每个待抽取属性字段输入的抽取逻辑配置操作,生成与每个待抽取属性字段对应的抽取逻辑集合;识别模块,用于针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第一结构化结果对象并存储。
本申请实施例提供的一种结构化数据的抽取方法及装置,包括:获取目标web文本,对目标web文本进行段落划分,获得多个段落对象;响应于待抽取属性字段添加操作,生成针对目标web文本的至少一个待抽取属性字段;根据用户针对每个待抽取属性字段输入的抽取逻辑配置操作,生成与每个待抽取属性字段对应的抽取逻辑集合;针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第一结构化结果对象并存储。本申请通过与每个待抽取属性字段对应的抽取逻辑集合从web文本中提取结构化数据,简化结构化数据的提取过程,提高抽取效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种结构化数据的抽取方法的流程图;
图2示出了本申请实施例所提供的一种段落对象的结构树图;
图3示出了本申请实施例所提供的一种抽取逻辑集合的结构树图;
图4示出了本申请实施例所提供的一种第一结构化结果对象树图;
图5示出了本申请实施例提供的一种结构化数据的抽取装置的结构示意图;
图6示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
互联网中的招投标信息大都是以web文本的形式存在,其中包含了用户关注的重点信息,比如:项目名称、采购单位、预算、中标单位、中标金额、联系人及电话等,但这些信息都分散在正文中,如果能把用户关注的信息提取出来,并进行标准化,使之成为机器可以识别的结构化数据,就为数据检索、智能推送提供了便利条件。
通常的处理方式有:
人工查看数据,从而分析出数据中所关注的关键信息,导出相关数据结构,该方式的不足之处为时效性差,需要消费掉大量人力时间。
基于此,本申请实施例提供了一种结构化数据的抽取方法,通过与每个待抽取属性字段对应的抽取逻辑集合从web文本中提取结构化数据,简化结构化数据的提取过程,提高抽取效率,具体如下:
请参阅图1,图1示出了本申请实施例所提供的一种结构化数据的抽取方法的流程图。如图1所示,本申请实施例提供的抽取方法,包括以下步骤:
S100、获取目标web文本,对目标web文本进行段落划分,获得多个段落对象。
请参阅图2,图2示出了本申请实施例所提供的一种段落对象的结构树图,在一优选实施例中,如图2所示,可以通过目标web文本中的段落编号级别对目标web文本进行段落划分,获取多个段落对象Am,并为多个段落对象Am分配对应的段落序号,若目标web文本中不存在段落编号级别,则将整个目标web文本作为一个段落Am,针对每个段落对象Am,每个段落对象Am包括段落标题、段落文本、段落序号和键值对象集合,其中,可以将段落对象Am中第一个换行前的内容记为Am标题,整个段落对象Am中的段落内容作为段落文本,由多个段落对象Am形成段落结构树A。
在一优选实施例中,通过以下方式确定每个段落对象对应的键值对对象集合:
对每个段落对象进行键值对切割,获得切割后的与每个段落对象对应的多个键值对对象,针对每个段落对象,由该段落对象对应的多个键值对对象,形成键值对对象集合。
具体的,如图2所示,每个键值对对象Bm包括键名称、键值以及切割方式,其中,切割方式包括但不限于以下项中的至少一项:冒号切割、空格切割、表格解析。
返回图1、S200、响应于待抽取属性字段添加操作,生成针对目标web文本的至少一个待抽取属性字段。
在一优选实施例中,用户可以根据自身需要,添加至少一个待抽取属性字段,其中,待抽取属性字段包括但不限于以下项中的至少一项:项目名称、项目编号、采购单位、采购预算、代理机构、中标单位、中标金额、联系人及电话。
S300、根据用户针对每个待抽取属性字段输入的抽取逻辑配置操作,生成与每个待抽取属性字段对应的抽取逻辑集合。
其中,请参阅图3,图3示出了本申请实施例所提供的一种抽取逻辑集合的结构树图,如图3所示,多个抽取逻辑集合Fm构成抽取逻辑总集合F,抽取逻辑集合包括第一基本属性、用于指示是否进行实体识别的实体识别参数、抽取标签集合T、抽取函数集合E以及清洗函数集合C。
其中,第一基本属性包括第一属性名称和第一属性类型,具体的,可以使用与抽取逻辑集合Fm对应的待抽取属性字段的名称和类型分别作为第一属性名称和第一属性类型,还可以对实体识别参数进行配置以确定是否对待抽取属性字段进行实体识别,抽取逻辑配置操作还包括第一属性名称配置操作、第一属性类型配置操作以及实体识别参数配置操作。
其中,其中,通过以下方式确定第一基本属性以及实体识别参数:响应于第一属性名称配置操作,生成第一属性名称;响应于第一属性类型配置操作,确定第一属性类型;响应于实体识别参数配置操作,生成用于指示是否进行实体识别的实体识别参数,其中,若将实体识别参数配置为。第一实体识别值表示对待抽取属性字段进行实体识别,第二实体识别值表示不对待抽取属性字段进行实体识别。
抽取标签集合T包括与待抽取属性字段对应的至少一个标签对象Tm,每个标签对象Tm包括标签对象名称和标签权重,抽取逻辑配置操作包括标签名称配置操作和标签权重配置操作,例如,若待抽取属性字段为项目名称,则全部标签对象Tm包括但不限于以下项中的至少一项:项目名称、采购项目名称、竞价项目名称、工程项目名称、本项目名称更正为、招标项目名称、采购项目名称,这里可根据实际业务需求灵活添加标签对象Tm。
其中,可以通过以下方式通过以下方式确定每个标签对象Tm:响应于标签名称配置操作,确定与所述待抽取属性字段对应的至少一个标签名称;响应于标签权重配置操作,生成与每个标签对象Tm对应的标签权重。
抽取函数集合E包括与待抽取属性字段对应的至少一个正则函数Em,每个正则函数Em包括正则函数名称、正则表达式以及正则权重,这里,可根据业务需求灵活添加正则函数Em,抽取逻辑配置操作还包括正则函数名称配置操作、正则表达式配置操作以及正则权重配置操作。
在一优选实施例中,通过以下方式确定每个字段抽取函数:响应于正则函数名称配置操作,确定正则函数名称;响应于正则表达式配置操作,确定用于进行属性字段抽取的正则表达式;响应于正则权重配置操作,生成与正则表达式对应的正则权重。
清洗函数集合C包括至少一个清洗函数Cm,每个清洗函数Cm包括清洗函数名称、清洗逻辑、清洗前值和清洗后值,可根据业务需求灵活添加清洗函数,抽取逻辑配置操作还包括清洗函数名称配置操作、清洗逻辑配置操作、清洗前值配置操作以及清洗后值配置操作。
其中,通过以下方式确定字段清洗函数:响应于字段清洗函数名称配置操作,确定字段清洗函数名称;响应于清洗逻辑配置操作,确定清洗逻辑;响应于清洗前值配置操作,生成清洗前值;响应于清洗后值配置操作,生成清洗后值。
返回图1,S400、针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第一结构化结果对象并存储。
在一具体实施例中,请参阅图4,图4示出了本申请实施例所提供的一种第一结构化结果对象树图,如图4所示,针对每个待抽取属性字段对应抽取逻辑集合,利用该抽取逻辑集合对多个段落对象进行识别,会获取与该待抽取属性字段对应的第一结构化结果对象Rm,每个第一结构化结果对象Rm包括与每个段落对象对应段落对象识别结果Rmm和与第一结构化结果对象Rm对应的第二基本属性,每个段落对象识别结果Rmm包括键值结果集合Amo、函数抽取结果集合Ame、实体识别结果集合Amp以及与该段落对象对应的段落标题和段落文本。
其中,第二基本属性包括第二属性名称和第二属性类型,具体的,可以通过与第一结构化结果对象Rm对应的抽取逻辑集合所指示的待抽取属性字段的名称和类型,确定第二属性名称和第二属性类型。
其中,通过以下方式确定键值结果集合Amo:
利用至少一个标签对象Tm,对每个段落对象Am对应的键值对对象集合B进行提取,获得与每个段落对象对应的多个键值对识别结果,根据多个键值对识别结果以及与每个键值对识别结果对应的标签对象Tm,确定与每个段落对象Am对应的键值结果集合,利用至少一个清洗函数Cm,对键值结果集合进行清洗,获得与每个段落对象对应的清洗后的键值结果集合。
其中,通过以下方式确定函数抽取结果集合Ame:
利用至少一个正则函数,对每个段落对象对应的段落文本进行提取,获得与每个段落对象对应的多个函数抽取结果,根据多个函数抽取结果以及与每个函数抽取结果对应的正则函数,确定函数抽取结果集合;利用至少一个清洗函数,对函数抽取结果集合进行清洗,获得与每个段落对象对应的清洗后的函数抽取结果集合。
其中,如图4所示,每个键值识别结果包括键名称、键值以及切割方式。
通过以下方式确定实体识别结果集合Amp:获取实体识别参数;判断实体识别参数是否指示对多个段落对象进行实体识别;若实体识别参数指示对多个段落对象进行实体识别,则对每个段落对象对应的段落文本进行识别,获得与每个段落对象对应的多个实体识别结果;根据至少一个清洗函数,对多个实体识别结果集合进行清洗,获得与每个段落对象对应的清洗后多个实体识别结果,由清洗后多个实体识别结果形成实体识别结果集合;若实体识别参数指示不对多个段落对象进行实体识别,则无实体识别结果集合。
在具体实施中,当实体识别参数为第一实体识别值,则实体识别参数指示对多个段落对象进行实体识别,当实体识别参数为第二实体识别值,则实体识别参数指示不对多个段落对象进行实体识别,实体识别结果集合为空。
在一优选实施例中,方法还包括:针对每个段落对象,对该段落对象进行段落划分,获得段落划分结果,段落划分结果用于指示段落对象所包含的目标段落对象。
在一具体实施例中,目标段落对象包括段落对象对应的段落子对象、段落子对象的段落孙子对象,依次类推。
在一具体实施例中,针对每个段落对象,对该段落对象进行段落划分,若该段落对象划分出至少一个段落子对象,则针对每个段落子对象再次进行段落拆分,依次类推,直至不能拆分子段落对象为止;
针对每个段落对象,对该段落对象进行段落划分,如果只得到一个段落,认为该段落对象无段落子对象,结束对该段落对象的处理。
针对每个段落对象,若段落划分结果为空,确定该段落对象无目标段落对象,结束对该段落对象的处理;
针对每个段落对象,若段落划分结果存在至少一个目标段落对象,则针对每个抽取逻辑集合,利用该抽取逻辑集合对多个目标段落子对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第二目标结构化数据并存储。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供的结构化数据抽取方法对应的结构化数据抽取装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例的结构化数据抽取方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,图5示出了本申请实施例提供的一种结构化数据的抽取装置的结构示意图,抽取装置包括:
划分模块500,用于获取目标web文本,对目标web文本进行段落划分,获得多个段落对象。
添加模块510,用于响应于待抽取属性字段添加操作,生成针对目标web文本的至少一个待抽取属性字段。
逻辑配置模块520,用于根据用户针对每个待抽取属性字段输入的抽取逻辑配置操作,生成与每个待抽取属性字段对应的抽取逻辑集合。
识别模块530,用于针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第一结构化结果对象并存储。
在一可选实施例中,每个段落对象包括键值对对象集合,
其中,划分模块500还用于:对每个段落对象进行键值对切割,获得与每个段落对象对应的多个键值对对象,其中,每个键值对对象包括键名称、键值以及切割方式;针对每个段落对象,由该段落对象对应的多个键值对对象,形成键值对对象集合。
在一可选实施例中,抽取逻辑集合包括抽取标签集合、抽取函数集合以及清洗函数集合,抽取标签集合包括与待抽取属性字段对应的至少一个标签对象,抽取函数集合包括与待抽取属性字段对应的至少一个正则函数,清洗函数集合包括至少一个清洗函数,每个第一结构化结果对象包括与每个段落对象对应段落对象识别结果,每个段落对象识别结果包括键值结果集合以及函数抽取结果集合,
其中,识别模块530还用于:利用至少一个标签对象,对每个段落对象对应的键值对对象集合进行提取,获得与每个段落对象对应的多个键值对识别结果,根据多个键值对识别结果以及与每个键值对识别结果对应的标签对象,确定与每个段落对象对应的键值结果集合;利用至少一个正则函数,对每个段落对象对应的段落文本进行提取,获得与每个段落对象对应的多个函数抽取结果,根据多个函数抽取结果以及与每个函数抽取结果对应的正则函数,确定函数抽取结果集合;利用至少一个清洗函数,分别对键值结果集合和函数抽取结果集合进行清洗,获得与每个段落对象对应的清洗后的键值结果集合和函数抽取结果集合。
在一可选实施例中,抽取逻辑集合还包括用于指示是否进行实体识别的实体识别参数,每个第一结构化结果对象还包括与每个段落对象对应的实体识别结果集合,
其中,识别模块530还用于:获取实体识别参数;判断实体识别参数是否指示对多个段落对象进行实体识别;若实体识别参数指示对多个段落对象进行实体识别,则对每个段落对象对应的段落文本进行识别,获得与每个段落对象对应的多个实体识别结果;根据至少一个清洗函数,对多个实体识别结果集合进行清洗,获得与每个段落对象对应的清洗后多个实体识别结果,由清洗后多个实体识别结果形成实体识别结果集合;若实体识别参数指示不对多个段落对象进行实体识别,则无实体识别结果集合。
在一可选实施例中,抽取逻辑配置操作包括标签名称配置操作和标签权重配置操作,每个标签对象包括标签对象名称和标签权重,
其中,逻辑配置模块520还用于:响应于标签名称配置操作,确定与待抽取属性字段对应的至少一个标签名称;响应于标签权重配置操作,生成与每个标签对象对应的标签权重。
在一可选实施例中,每个正则函数包括正则函数名称、正则表达式以及正则权重,抽取逻辑配置操作还包括正则函数名称配置操作、正则表达式配置操作以及正则权重配置操作,
其中,逻辑配置模块520还用于:响应于正则函数名称配置操作,确定正则函数名称;响应于正则表达式配置操作,确定用于进行属性字段抽取的正则表达式;响应于正则权重配置操作,生成与正则表达式对应的正则权重。
在一可选实施例中,抽取逻辑集合还包括第一基本属性,第一基本属性包括第一属性名称以及第一属性类型,抽取逻辑配置操作还包括第一属性名称配置操作、第一属性类型配置操作以及实体识别参数配置操作,
其中,逻辑配置模块520还用于:响应于第一属性名称配置操作,生成第一属性名称;响应于第一属性类型配置操作,确定第一属性类型;响应于实体识别参数配置操作,生成用于指示是否进行实体识别的实体识别参数。
在一可选实施例中,每个清洗函数包括清洗函数名称、清洗逻辑、清洗前值和清洗后值,抽取逻辑配置操作还包括清洗函数名称配置操作、清洗逻辑配置操作、清洗前值配置操作以及清洗后值配置操作,
其中,逻辑配置模块520还用于:响应于字段清洗函数名称配置操作,确定字段清洗函数名称;响应于清洗逻辑配置操作,确定清洗逻辑;响应于清洗前值配置操作,生成清洗前值;响应于清洗后值配置操作,生成清洗后值。
在一可选实施例中,装置还包括:
段落子对象划分模块(图中未示出),用于针对每个段落对象,对该段落对象进行段落划分,获得至少一个段落子对象;
识别模块还用于:
针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落子对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第二结构化结果对象并存储。
基于同一申请构思,请参阅图6,图6示出了本申请实施例提供的一种电子设备的结构示意图,电子设备600包括:处理器610、存储器620和总线630,所述存储器620存储有所述处理器610可执行的机器可读指令,当电子设备600运行时,所述处理器610与所述存储器620之间通过所述总线630进行通信,所述机器可读指令被所述处理器610运行时执行如上述实施例中任一所述的抽取方法的步骤。
基于同一申请构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例提供的抽取方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种结构化数据的抽取方法,其特征在于,所述抽取方法包括:
获取目标web文本,对所述目标web文本进行段落划分,获得多个段落对象,每个段落对象包括键值对对象集合;
响应于待抽取属性字段添加操作,生成针对目标web文本的至少一个待抽取属性字段;
根据用户针对每个待抽取属性字段输入的抽取逻辑配置操作,生成与每个待抽取属性字段对应的抽取逻辑集合,所述抽取逻辑集合包括抽取标签集合、抽取函数集合以及清洗函数集合;
针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第一结构化结果对象并存储;
所述抽取标签集合包括与待抽取属性字段对应的至少一个标签对象,所述抽取函数集合包括与待抽取属性字段对应的至少一个正则函数,清洗函数集合包括至少一个清洗函数,每个第一结构化结果对象包括与每个段落对象对应段落对象识别结果,每个段落对象识别结果包括键值结果集合以及函数抽取结果集合,
其中,通过以下方式确定键值结果集合以及函数抽取结果集合:
利用至少一个标签对象,对每个段落对象对应的键值对对象集合进行提取,获得与每个段落对象对应的多个键值对识别结果,根据多个键值对识别结果以及与每个键值对识别结果对应的标签对象,确定与每个段落对象对应的键值结果集合;
利用至少一个正则函数,对每个段落对象对应的段落文本进行提取,获得与每个段落对象对应的多个函数抽取结果,根据多个函数抽取结果以及与每个函数抽取结果对应的正则函数,确定函数抽取结果集合;
利用至少一个清洗函数,分别对键值结果集合和函数抽取结果集合进行清洗,获得与每个段落对象对应的清洗后的键值结果集合和函数抽取结果集合。
2.根据权利要求1所述的抽取方法,其特征在于,通过以下方式确定每个段落对象对应的键值对对象集合:
对每个段落对象进行键值对切割,获得与每个段落对象对应的多个键值对对象,其中,每个键值对对象包括键名称、键值以及切割方式;
针对每个段落对象,由该段落对象对应的多个键值对对象,形成键值对对象集合。
3.根据权利要求1所述的抽取方法,其特征在于,抽取逻辑集合还包括用于指示是否进行实体识别的实体识别参数,每个第一结构化结果对象还包括与每个段落对象对应的实体识别结果集合,
其中,通过以下方式确定实体识别结果集合:
获取实体识别参数;
判断所述实体识别参数是否指示对多个段落对象进行实体识别;
若所述实体识别参数指示对多个段落对象进行实体识别,则对每个段落对象对应的段落文本进行识别,获得与每个段落对象对应的多个实体识别结果;
根据至少一个清洗函数,对多个实体识别结果集合进行清洗,获得与每个段落对象对应的清洗后多个实体识别结果,由清洗后多个实体识别结果形成实体识别结果集合;
若所述实体识别参数指示不对多个段落对象进行实体识别,则无实体识别结果集合。
4.根据权利要求1所述的抽取方法,其特征在于,所述抽取逻辑配置操作包括标签名称配置操作和标签权重配置操作,每个标签对象包括标签对象名称和标签权重,
其中,通过以下方式确定每个标签对象:
响应于标签名称配置操作,确定与所述待抽取属性字段对应的至少一个标签名称;
响应于标签权重配置操作,生成与每个标签对象对应的标签权重。
5.根据权利要求1所述的抽取方法,其特征在于,每个正则函数包括正则函数名称、正则表达式以及正则权重,
所述抽取逻辑配置操作还包括正则函数名称配置操作、正则表达式配置操作以及正则权重配置操作,
其中,通过以下方式确定每个字段抽取函数:
响应于正则函数名称配置操作,确定正则函数名称;
响应于正则表达式配置操作,确定用于进行属性字段抽取的正则表达式;
响应于正则权重配置操作,生成与所述正则表达式对应的正则权重。
6.根据权利要求3所述的抽取方法,其特征在于,抽取逻辑集合还包括第一基本属性,第一基本属性包括第一属性名称以及第一属性类型,所述抽取逻辑配置操作还包括第一属性名称配置操作、第一属性类型配置操作以及实体识别参数配置操作,
其中,通过以下方式确定第一基本属性以及实体识别参数:
响应于第一属性名称配置操作,生成第一属性名称;
响应于第一属性类型配置操作,确定第一属性类型;
响应于实体识别参数配置操作,生成用于指示是否进行实体识别的实体识别参数。
7.根据权利要求1所述的抽取方法,其特征在于,每个清洗函数包括清洗函数名称、清洗逻辑、清洗前值和清洗后值,
所述抽取逻辑配置操作还包括清洗函数名称配置操作、清洗逻辑配置操作、清洗前值配置操作以及清洗后值配置操作,
其中,通过以下方式确定字段清洗函数:
响应于字段清洗函数名称配置操作,确定字段清洗函数名称;
响应于清洗逻辑配置操作,确定清洗逻辑;
响应于清洗前值配置操作,生成清洗前值;
响应于清洗后值配置操作,生成清洗后值。
8.根据权利要求1所述的抽取方法,其特征在于,所述方法还包括:
针对每个段落对象,对该段落对象进行段落划分,获得段落划分结果,所述段落划分结果用于指示段落对象所包含的目标段落对象;
针对每个段落对象,若段落划分结果为空,确定该段落对象无目标段落对象,结束对该段落对象的处理;
针对每个段落对象,若段落划分结果存在至少一个目标段落对象,针对每个抽取逻辑集合,利用该抽取逻辑集合对多个目标段落对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第二结构化结果对象并存储。
9.一种结构化数据的抽取装置,其特征在于,所述抽取装置包括:
划分模块,用于获取目标web文本,对所述目标web文本进行段落划分,获得多个段落对象,每个段落对象包括键值对对象集合;
添加模块,用于响应于待抽取属性字段添加操作,生成针对目标web文本的至少一个待抽取属性字段;
逻辑配置模块,用于根据用户针对每个待抽取属性字段输入的抽取逻辑配置操作,生成与每个待抽取属性字段对应的抽取逻辑集合,所述抽取逻辑集合包括抽取标签集合、抽取函数集合以及清洗函数集合;
识别模块,用于针对每个抽取逻辑集合,利用该抽取逻辑集合对多个段落对象进行识别,确定与该抽取逻辑集合所指示的待抽取属性字段对应的第一结构化结果对象并存储;
所述抽取标签集合包括与待抽取属性字段对应的至少一个标签对象,所述抽取函数集合包括与待抽取属性字段对应的至少一个正则函数,清洗函数集合包括至少一个清洗函数,每个第一结构化结果对象包括与每个段落对象对应段落对象识别结果,每个段落对象识别结果包括键值结果集合以及函数抽取结果集合,
其中,通过以下方式确定键值结果集合以及函数抽取结果集合:
利用至少一个标签对象,对每个段落对象对应的键值对对象集合进行提取,获得与每个段落对象对应的多个键值对识别结果,根据多个键值对识别结果以及与每个键值对识别结果对应的标签对象,确定与每个段落对象对应的键值结果集合;
利用至少一个正则函数,对每个段落对象对应的段落文本进行提取,获得与每个段落对象对应的多个函数抽取结果,根据多个函数抽取结果以及与每个函数抽取结果对应的正则函数,确定函数抽取结果集合;
利用至少一个清洗函数,分别对键值结果集合和函数抽取结果集合进行清洗,获得与每个段落对象对应的清洗后的键值结果集合和函数抽取结果集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210859835.7A CN114942971B (zh) | 2022-07-22 | 2022-07-22 | 一种结构化数据的抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210859835.7A CN114942971B (zh) | 2022-07-22 | 2022-07-22 | 一种结构化数据的抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114942971A CN114942971A (zh) | 2022-08-26 |
CN114942971B true CN114942971B (zh) | 2022-11-08 |
Family
ID=82911658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210859835.7A Active CN114942971B (zh) | 2022-07-22 | 2022-07-22 | 一种结构化数据的抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114942971B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115203309B (zh) * | 2022-09-15 | 2022-11-29 | 北京信立方科技发展股份有限公司 | 网页中标数据结构化方法及装置 |
CN115862882B (zh) * | 2022-12-02 | 2024-02-13 | 北京百度网讯科技有限公司 | 一种数据抽取方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8595231B2 (en) * | 2007-04-26 | 2013-11-26 | International Business Machines Corporation | Ruleset generation for multiple entities with multiple data values per attribute |
CN109766524B (zh) * | 2018-12-28 | 2022-11-25 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN112347226B (zh) * | 2020-11-06 | 2023-05-26 | 平安科技(深圳)有限公司 | 文档知识抽取方法、装置、计算机设备及可读存储介质 |
CN112597283B (zh) * | 2021-03-04 | 2021-05-25 | 北京数业专攻科技有限公司 | 通知文本信息实体属性抽取方法、计算机设备及存储介质 |
CN112989791A (zh) * | 2021-03-30 | 2021-06-18 | 北京拓普丰联信息工程有限公司 | 一种基于文本信息抽取结果的去重方法、系统以及介质 |
CN114595686B (zh) * | 2022-03-11 | 2023-02-03 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
-
2022
- 2022-07-22 CN CN202210859835.7A patent/CN114942971B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114942971A (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114942971B (zh) | 一种结构化数据的抽取方法及装置 | |
CN107330445B (zh) | 用户属性的预测方法和装置 | |
JP5083669B2 (ja) | 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム | |
CN108595583A (zh) | 动态图表类页面数据爬取方法、装置、终端及存储介质 | |
CN106776897B (zh) | 一种用户画像标签确定方法及装置 | |
JP6420524B2 (ja) | 分析用サーバ装置、データ解析システム、及びデータ解析方法 | |
CN108664637B (zh) | 一种检索方法及系统 | |
CN106943747B (zh) | 虚拟角色名称推荐方法、装置、电子设备和存储介质 | |
JP5724878B2 (ja) | 文書分析装置、文書分析方法、及びプログラム | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
CN112765230B (zh) | 基于互联网金融的支付大数据分析方法及大数据分析系统 | |
CN113157947A (zh) | 知识图谱的构建方法、工具、装置和服务器 | |
US11182364B2 (en) | Data analysis support apparatus and data analysis support method | |
CN110858219A (zh) | 物流对象信息处理方法、装置及计算机系统 | |
CN111966900A (zh) | 基于局部敏感哈希的用户冷启动产品推荐方法及系统 | |
CN113886708A (zh) | 基于用户信息的产品推荐方法、装置、设备及存储介质 | |
CN112258244B (zh) | 确定目标物品所属任务的方法、装置、设备及存储介质 | |
CN113298145A (zh) | 标签填充方法及装置 | |
CN112631889A (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
CN110968670B (zh) | 一种流行商品的属性获取方法、装置、设备及存储介质 | |
CN113065329A (zh) | 数据的处理方法和装置 | |
CN112749325A (zh) | 搜索排序模型的训练方法、装置、电子设备及计算机介质 | |
CN114282119B (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
CN115391656A (zh) | 一种用户需求确定方法、装置及设备 | |
JP5478229B2 (ja) | データ解析システム、及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |