CN114610985B - 信息提取方法、装置、电子设备及存储介质 - Google Patents
信息提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114610985B CN114610985B CN202210501597.2A CN202210501597A CN114610985B CN 114610985 B CN114610985 B CN 114610985B CN 202210501597 A CN202210501597 A CN 202210501597A CN 114610985 B CN114610985 B CN 114610985B
- Authority
- CN
- China
- Prior art keywords
- information
- extracted
- address
- webpage
- element block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种信息提取方法、装置、电子设备及存储介质,其中,所述方法包括:基于待提取信息的关键词,确定与所述关键词对应的候选网页地址;基于所述候选网页地址确定目标网页地址,并基于所述目标网页地址获取所述待提取信息。通过本发明提供的信息提取方法,可以自动、准确提取出待提取信息,从而提高了待提取信息的提取效率以及获取信息的准确性。
Description
技术领域
本发明涉及信息提取技术领域,尤其涉及一种信息提取方法、装置、电子设备及存储介质。
背景技术
相关技术可知,在获取待提取信息,例如企业官网信息的过程中,往往通过人工利用搜索引擎搜索该企业的关键词,或通过信息聚合网站进行获取。
然而,对于需要维护大量企业官网的场景,基于人工通过搜索引擎搜索虽然检索准确度高,但人工成本过高且效率过低;依赖信息聚合网站获取,其信息的准确性和实时性均较低。
发明内容
本发明提供一种信息提取方法、装置、电子设备及存储介质,用以解决现有技术中维护大量待提取信息存在的人工成本过高且信息获取准确性低的缺陷,实现了能够自动、准确得提取出待提取信息。
本发明提供一种信息提取方法,所述方法包括:基于待提取信息的关键词,确定与所述关键词对应的候选网页地址;基于所述候选网页地址确定目标网页地址,并基于所述目标网页地址获取所述待提取信息。
根据本发明提供的一种信息提取方法,所述基于所述候选网页地址确定目标网页地址,具体包括:按照预设维度对所述候选网页地址进行划分,得到所述候选网页地址的候选网页地址维度信息;对所述候选网页地址维度信息进行评分,得到候选网页地址维度评分结果;对所述候选网页地址维度评分结果进行加权求和,得到所述候选网页地址的评分结果;基于所述候选网页地址的评分结果确定所述目标网页地址。
根据本发明提供的一种信息提取方法,所述基于所述候选网页地址的评分结果确定所述目标网页地址,具体包括:将所述候选网页地址中的所述评分结果最高且超过评分阈值的候选网页地址确定为所述目标网页地址。
根据本发明提供的一种信息提取方法,所述基于所述目标网页地址获取所述待提取信息,具体包括:预设所述待提取信息的页面路径,并基于所述页面路径构建所述页面路径的字典树;基于所述字典树,在与所述目标网页地址对应的目标网页中进行深度优先搜索,得到多个所述待提取信息的页面地址;基于所述待提取信息的页面地址,得到所述待提取信息。
根据本发明提供的一种信息提取方法,所述基于所述待提取信息的页面地址,得到所述待提取信息,具体包括:加载并渲染所述待提取信息的页面地址,得到所述待提取信息的网页页面;对所述网页页面中的元素块进行位置标注,得到各所述元素块的位置信息;对所述网页页面中的文本内容进行提取,得到各所述元素块的实体信息;基于所述元素块的位置信息,对所述元素块的实体信息进行聚类,并基于聚类结果得到所述待提取信息。
根据本发明提供的一种信息提取方法,所述元素块包括value元素块和key元素块,所述对所述网页页面中的元素块进行位置标注,得到各所述元素块的位置信息,具体包括:对所述网页页面中的所述value元素块和所述key元素块进行位置标注,得到各所述value元素块的第一位置信息和各所述key元素块的第二位置信息;所述对所述网页页面中的文本内容进行提取,得到各所述元素块的实体信息,具体包括:对所述网页页面中的文本内容进行提取,得到各所述value元素块的第一实体信息和各所述key元素块的第二实体信息;所述基于所述元素块的位置信息,对所述元素块的实体信息进行聚类,具体包括:基于所述第一位置信息和所述第二位置信息,对所述第一实体信息和所述第二实体信息进行聚类。
根据本发明提供的一种信息提取方法,所述基于所述第一位置信息和所述第二位置信息,对所述第一实体信息和所述第二实体信息进行聚类,具体包括:基于所述第一位置信息和所述第二位置信息,获取所述value元素块与所述key元素块的位置距离;将所述位置距离小于或等于距离阈值的所述value元素块和所述key元素块进行聚类,以实现对所述第一实体信息和所述第二实体信息进行聚类。
根据本发明提供的一种信息提取方法,所述将所述位置距离小于或等于距离阈值的所述value元素块和所述key元素块进行聚类,具体包括:将所述位置距离小于或等于距离阈值且具有value-key对应关系的所述value元素块和所述key元素块进行聚类。
本发明还提供一种信息提取装置,所述装置包括:确定模块,用于基于待提取信息的关键词,确定与所述关键词对应的候选网页地址;处理模块,用于基于所述候选网页地址确定目标网页地址,并基于所述目标网页地址获取所述待提取信息。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的信息提取方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的信息提取方法。
本发明提供的信息提取方法、装置、电子设备及存储介质,通过待提取信息的关键词确定与关键词对应候选网页地址,并基于候选网页地址确定目标网页地址,以及基于目标网页地址自动、准确提取出待提取信息,从而提高了待提取信息的提取效率以及获取信息的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的信息提取方法的流程示意图之一;
图2是本发明提供的基于候选网页地址确定目标网页地址的流程示意图;
图3是本发明提供的基于目标网页地址获取待提取信息的流程示意图;
图4是本发明提供的基于待提取信息的页面地址,得到待提取信息的流程示意图;
图5是本发明提供的基于第一位置信息和第二位置信息,对第一实体信息和第二实体信息进行聚类的应用场景示意图;
图6是本发明提供的信息提取装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的实施例中,为了便于说明将以待提取信息为企业官网上的联系人信息,目标网页地址为企业官网为例进行说明,可以理解的是,本发明中所述的待提取信息并不局限于企业官网上的联系人信息,目标网页地址也不局限于企业官网。本发明提供的信息提取方法,支持通过企业名称获取官网地址,并能够对官网的核心信息(例如联系人信息)进行自动提取,以满足业务场景需求。
本发明将结合图1对本发明提供的信息提取方法的过程进行说明。
在本发明一示例性实施例中,结合图1可知,信息提取方法可以包括步骤110和步骤120,下面将分别介绍各步骤。
在步骤110中,基于待提取信息的关键词,确定与关键词对应的候选网页地址。
在一种实施例中,待提取信息的关键词可以是企业名称等信息。在一示例中,可以根据企业名称等信息,通过爬虫获取可能为该企业官网的页面地址(对应与关键词对应的候选网页地址)。
在步骤120中,基于候选网页地址确定目标网页地址,并基于目标网页地址获取待提取信息。
在一种实施例中,根据步骤110获取的可能为该企业官网的页面地址,在这些可能为企业官网的页面地址(对应候选网页地址)中确定出目标网页地址。其中,目标网页地址可以理解为是企业官网的地址。在又一示例中,可以在企业官网中提取出企业官网上的联系人信息(对应待提取信息)。对于需要获取多个企业官网上的联系人信息的场景,通过本实施例,可以自动、准确提取出待提取信息,提高了待提取信息的提取效率以及获取信息的准确性。
本发明提供的信息提取方法,通过待提取信息的关键词确定与关键词对应候选网页地址,并基于候选网页地址确定目标网页地址,以及基于目标网页地址自动、准确提取出待提取信息,从而提高了待提取信息的提取效率以及获取信息的准确性。
为了进一步介绍本发明提供的信息提取方法,下面将结合下述实施例对基于候选网页地址确定目标网页地址的过程进行说明。
图2是本发明提供的基于候选网页地址确定目标网页地址的流程示意图。
在本发明一示例性实施例中,结合图2可知,基于候选网页地址确定目标网页地址可以包括步骤210至步骤240,下面将分别介绍各步骤。
在步骤210中,按照预设维度对候选网页地址进行划分,得到候选网页地址的候选网页地址维度信息。
预设维度可以根据实际情况进行调整,在本实施例中,不对预设维度作具体限定。
在一种实施例中,可以对候选网页地址按照可访问性、候选网页地址是否包括黄页网站域名信息、候选网页地址中是否包括数字等维度进行划分,得到候选网页地址的候选网页地址维度信息。
在又一实施例中,还可以对各个候选网页地址进行加载解析,得到各候选网页地址对应的候选网页。并对候选网页按照网页源码标签是否包括禁用词或标记词、候选网页中的预设词语(例如公司名称等)与源码标签之间的最小编辑距离、候选网页正文中是否包括预设词语(例如官网、公司简介、集团介绍等)等维度进行划分,得到候选网页地址的候选网页地址维度信息。
在步骤220中,对候选网页地址维度信息进行评分,得到候选网页地址维度评分结果。
在一种实施例中,可以分别对候选网页地址的可访问性、候选网页地址包括黄页网站域名信息的方面、候选网页地址中包括数字的方面、与候选网页地址对应的候选网页的网页源码标签包括禁用词或标记词的方面、与候选网页地址对应的候选网页中的预设词语与源码标签之间的最小编辑距离的方面,以及与候选网页地址对应的候选网页正文中包括预设词语的方面进行评分,以得到各个候选网页地址维度评分结果。
在应用过程中,对于候选网页地址的可访问性为不可访问时,其对应的评分为反向;对于候选网页地址的可访问性为可访问时,其对应的评分为正向。对于候选网页地址包括黄页网站域名信息时,其对应的评分为反向;对于候选网页地址不包括黄页网站域名信息时,其对应的评分为正向。对于候选网页地址中包括数字时,其对应的评分为反向;对于候选网页地址中不包括数字时,其对应的评分为正向。对于与候选网页地址对应的候选网页的网页源码标签包括禁用词时,其对应的评分为反向;对于与候选网页地址对应的候选网页的网页源码标签不包括禁用词(论坛等)时,其对应的评分为正向。对于与候选网页地址对应的候选网页的网页源码标签包括标记词(官网等)时,其对应的评分为正向;对于与候选网页地址对应的候选网页的网页源码标签不包括标记词时,其对应的评分为反向。对于与候选网页地址对应的候选网页中的预设词语与源码标签之间的最小编辑距离较小时,其对应的评分为正向;对于与候选网页地址对应的候选网页中的预设词语与源码标签之间的最小编辑距离较大时,其对应的评分为反向。对于与候选网页地址对应的候选网页正文中包括预设词语时,其对应的评分为正向;对于与候选网页地址对应的候选网页正文中不包括预设词语时,其对应的评分为反向,其中,预设词语可以是官网、公司简介、集团介绍等。
在步骤230中,对候选网页地址维度评分结果进行加权求和,得到候选网页地址的评分结果。
在一种实施例中,在对候选网页地址维度评分结果进行加权求和的过程中,各权项的权重可以根据实际情况进行调整,在本实施中不作具体限定。
在步骤240中,基于候选网页地址的评分结果确定目标网页地址。
在一种实施例中,基于候选网页地址的评分结果确定目标网页地址可以采用以下方式确定:将候选网页地址中的评分结果最高且超过评分阈值的候选网页地址确定为目标网页地址。
其中,评分阈值可以根据实际情况进行调整,在本实施例中不作具体限定。在应用过程中,可以将各待选官网(对应候选网页地址)按照计算后的评分从大到小排序,其中,评分结果满足大于评分阈值且排序第一的地址,可以确认为是目标网页地址,即为待搜索的官网地址。
本发明将结合下述实施例对基于目标网页地址获取待提取信息的过程进行说明。
图3是本发明提供的基于目标网页地址获取待提取信息的流程示意图。
在本发明一示例性实施例中,结合图3可知,基于目标网页地址获取待提取信息可以包括步骤310至步骤330,下面将分别介绍各步骤。
在步骤310中,预设待提取信息的页面路径,并基于页面路径构建页面路径的字典树。
待提取信息以官网中联系人信息为例进行说明。在一示例中,待提取信息的页面
路径可以是首页-联系我们、首页-关于我们-联系等,在一示例中,关于提取信息的页面路
径的正则示例还可以表示为:。
基于页面路径信息可以构建关于页面路径的字典树。
在步骤320中,基于字典树,在与目标网页地址对应的目标网页中进行深度优先搜索,得到多个待提取信息的页面地址。
在步骤330中,基于待提取信息的页面地址,得到待提取信息。
在一种实施例中,可以基于步骤310中构建的字典树,在官网中(对应与目标网页地址对应的目标网页)进行深度优先搜索,并获取可能包括联系人信息的页面地址集合S1。进一步的,可以从页面地址集合S1中获取其中的一个或多个可能包含联系人的页面地址,基于页面地址提取联系人信息(对应待提取信息)。
为了进一步介绍本发明提供的信息提取方法,下面将结合下述实施例对基于待提取信息的页面地址,得到待提取信息的过程进行说明。
图4是本发明提供的基于待提取信息的页面地址,得到待提取信息的流程示意图。
在本发明一示例性实施例中,结合图4可知,基于待提取信息的页面地址,得到待提取信息可以包括步骤410至步骤440,下面将分别介绍各步骤。
在步骤410中,加载并渲染待提取信息的页面地址,得到待提取信息的网页页面。
以由页面地址集合S1中获取其中的一个可能包含联系人的页面地址site1为例进行说明。在一示例中,可以通过应用测试工具Selenium将地址site1进行加载并渲染出页面page1(对应待提取信息的网页页面)。
在步骤420中,对网页页面中的元素块进行位置标注,得到各元素块的位置信息。
在一种实施例中,可以对页面page1中的html元素块进行位置信息标注,得到各元素块的位置信息。其中,得到各元素块的位置信息可以如下示例:<div x_min=100, x_max=300, y_min=300, y_max=600> 文本内容 </div>。需要说明的是,元素块可以理解为是对网页页面进行划分而得到的多个单元块。在本实施例中,不对获取元素块的具体实施方式作限定。
在步骤430中,对网页页面中的文本内容进行提取,得到各元素块的实体信息。
需要说明的是,网页页面中的元素块可能没有对应的实体信息。可以理解的是,在得到的元素块的实体信息中,实体信息可以为空。
在步骤440中,基于元素块的位置信息,对元素块的实体信息进行聚类,并基于聚类结果得到待提取信息。
在一种实施例中,还可以将页面page1中的html元素块的文本内容进行命名实体识别,获取页面内容中联系人相关信息的实体信息(对应各元素块的实体信息)。进一步的,可以基于元素块的位置信息,对元素块的实体信息进行聚类匹配,并基于聚类结果得到待提取信息。通过聚类匹配可以将关于联系人的电话信息标记(例如张三)和联系人的电话实体信息(例如18888888888)聚合在一起,或将关于联系人的邮箱信息标记(例如张三)和联系人的邮箱实体信息(XXX.com)聚合在一起。
在本发明一示例性实施例中,元素块可以包括value元素块和key元素块。
对网页页面中的元素块进行位置标注,得到各元素块的位置信息还可以通过以下方式实现:对网页页面中的value元素块和key元素块进行位置标注,得到各value元素块的第一位置信息和各key元素块的第二位置信息。
对网页页面中的文本内容进行提取,得到各元素块的实体信息还可以通过以下方式实现:对网页页面中的文本内容进行提取,得到各value元素块的第一实体信息和各key元素块的第二实体信息。
基于所述元素块的位置信息,对所述元素块的实体信息进行聚类还可以通过以下方式实现:基于第一位置信息和第二位置信息,对第一实体信息和第二实体信息进行聚类。
在应用过程中,基于命名实体识别可以得到各value元素块的第一实体信息和各key元素块的第二实体信息。需要说明的是,value元素块和对应的key元素块进行组合可以得到一组关于联系人的信息。在一示例中,value元素块的第一实体信息可以是“XX路XX号”,对应的key元素块的第二实体信息可以是“联系人地址”。在应用过程中,通过将value元素块的第一实体信息和对应的key元素块的第二实体信息进行聚类匹配,进而可以基于聚类结果在官网中自动提取出关于联系人的具体信息。
在一示例中,可以基于value元素块的第一位置信息和key元素块的第二位置信息,对value元素块的第一实体信息和key元素块的第二实体信息进行聚类。可以理解的是,若value元素块与key元素块具有对应关系,两者(value元素块与key元素块)的位置信息将满足预设条件。其中,预设条件可以是value元素块与key元素块的距离小于距离阈值。
为了进一步介绍本发明提供的信息提取方法,下面将对基于第一位置信息和第二位置信息,对第一实体信息和第二实体信息进行聚类的过程进行说明。
在本发明一示例性实施例中,基于第一位置信息和第二位置信息,对第一实体信息和第二实体信息进行聚类可以采用以下方式实现:基于第一位置信息和第二位置信息,获取value元素块与key元素块的位置距离;将位置距离小于或等于距离阈值的value元素块和key元素块进行聚类,以实现对第一实体信息和第二实体信息进行聚类。其中,距离阈值可以根据实际情况进行调整,在本实施例中不对距离阈值作具体限定。
在又一种实施例中,还可以将位置距离小于或等于距离阈值,且与第二位置信息对应位置位于与第一位置信息对应的位置的左上或右上方向的value元素块和key元素块进行聚类,以实现对第一实体信息和第二实体信息进行聚类。
在本发明一示例性实施例中,将位置距离小于或等于距离阈值的value元素块和key元素块进行聚类还可以通过以下方式实现:将位置距离小于或等于距离阈值且具有value-key对应关系的value元素块和key元素块进行聚类。通过本实施例,可以有效过滤掉非法的key-value 对应关系(例如value的类型为 VALUE-LOC(地址),key 的类型就不能为KEY-PER(联系人)),提高了信息提取的信息准确性和提取效率。
下面将结合图5对第一实体信息和第二实体信息进行聚类的过程进行说明。
在一种实施例中,可以获取到关于value元素块对应的第一实体信息集合{value-element1, value-element2,...},并与key元素块对应的第二实体信息集合{key-element1, key-element2,..}进行匹配聚类,以实现对第一实体信息和第二实体信息进行聚类。
在一种实施例中,可以基于value元素块与key元素块之间的位置信息(包括第一位置信息和第二位置信息),实现对第一实体信息和第二实体信息进行聚类匹配。现以value-element1 为例对第一实体信息和第二实体信息的聚类匹配过程进行说明。
可以以value-element1 元素块中心为界限,分别获取左上角距离为小于 100 的key 元素块,并按距离进行排序得到如下集合: {(key-element7, 20), (key-element4,80), ...},其中,key-element7对应图5中的key7、key-element4对应图5中的key4。在一示例中,可以通过半径为100的圆来限定与value-element1 元素块(对应图5中的value1)的距离小于100的key 元素块。
获取右上角距离小于 100 的 key 元素块,并按距离进行排序得到如下集合:{(key-element3, 70), ...} ,其中,key-element3对应图5中的key3。
优先对左上角集合中的元素进行筛选,需要过滤掉非法的key-value 对应关系,例如:value 的类型为 VALUE-LOC(地址),key 的类型就不能为 KEY-PER(联系人)。若能够在左上角找到符合的key 元素块,则该key 元素块可以与value元素进行匹配,得到匹配结果,并基于结果得到关于联系人的信息。若没有在左上角的集合中匹配到key 元素块,可以从右上角的集合中进行匹配。若右上角依然无法获取相应的key 值,则可以直接将value的类型定义为 VALUE-PHONE(电话),对应的key 值定义为具体的电话信息。结合图5可知,与value-element1 元素块对应的key可以是左上角的key4、key7。
需要说明的是,以value-element1 元素块中心为界限,还可以分别获取左下角、右下角的key 元素块进行匹配,以得到关于第一实体信息和第二实体信息的聚类匹配结果。
根据上述描述可知,本发明提供的信息提取方法,通过待提取信息的关键词确定与关键词对应候选网页地址,基于候选网页地址确定目标网页地址,以及基于目标网页地址自动、准确提取出待提取信息,从而提高了待提取信息的提取效率以及获取信息的准确性。
基于相同的构思,本发明还提供一种信息提取装置。
下面对本发明提供的信息提取装置进行描述,下文描述的信息提取装置与上文描述的信息提取方法可相互对应参照。
图6是本发明提供的信息提取装置的结构示意图。
在本发明一示例性实施例中,结合图6可知,信息提取装置可以包括确定模块610和处理模块620,下面将分别介绍各模块。
确定模块610可以被配置为用于基于待提取信息的关键词,确定与关键词对应的候选网页地址。
处理模块620可以被配置为用于基于候选网页地址确定目标网页地址,并基于目标网页地址获取所述待提取信息。
在本发明一示例性实施例中,处理模块620可以采用以下方式基于候选网页地址确定目标网页地址:按照预设维度对候选网页地址进行划分,得到候选网页地址的候选网页地址维度信息;对候选网页地址维度信息进行评分,得到候选网页地址维度评分结果;对候选网页地址维度评分结果进行加权求和,得到候选网页地址的评分结果;基于候选网页地址的评分结果确定目标网页地址。
在本发明一示例性实施例中,处理模块620可以采用以下方式基于候选网页地址的评分结果确定目标网页地址:将候选网页地址中的评分结果最高且超过评分阈值的候选网页地址确定为目标网页地址。
在本发明一示例性实施例中,处理模块620可以采用以下方式基于目标网页地址获取待提取信息:预设待提取信息的页面路径,并基于页面路径构建页面路径的字典树;基于字典树,在与目标网页地址对应的目标网页中进行深度优先搜索,得到多个待提取信息的页面地址;基于待提取信息的页面地址,得到待提取信息。
在本发明一示例性实施例中,处理模块620可以采用以下方式基于待提取信息的页面地址,得到待提取信息:加载并渲染待提取信息的页面地址,得到待提取信息的网页页面;对网页页面中的元素块进行位置标注,得到各元素块的位置信息;对网页页面中的文本内容进行提取,得到各元素块的实体信息;基于元素块的位置信息,对元素块的实体信息进行聚类,并基于聚类结果得到待提取信息。
在本发明一示例性实施例中,元素块包括value元素块和key元素块,处理模块620可以采用以下方式对网页页面中的元素块进行位置标注,得到各元素块的位置信息:对网页页面中的value元素块和key元素块进行位置标注,得到各value元素块的第一位置信息和各key元素块的第二位置信息;处理模块620可以采用以下方式对网页页面中的文本内容进行提取,得到各元素块的实体信息:对网页页面中的文本内容进行提取,得到各value元素块的第一实体信息和各key元素块的第二实体信息;处理模块620可以采用以下方式基于元素块的位置信息,对元素块的实体信息进行聚类:基于第一位置信息和第二位置信息,对第一实体信息和第二实体信息进行聚类。
在本发明一示例性实施例中,处理模块620可以采用以下方式基于第一位置信息和第二位置信息,对第一实体信息和第二实体信息进行聚类:基于第一位置信息和第二位置信息,获取value元素块与key元素块的位置距离;将位置距离小于或等于距离阈值的value元素块和key元素块进行聚类,以实现对第一实体信息和第二实体信息进行聚类。
在本发明一示例性实施例中,处理模块620可以采用以下方式将位置距离小于或等于距离阈值的value元素块和key元素块进行聚类:将位置距离小于或等于距离阈值且具有value-key对应关系的value元素块和key元素块进行聚类。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行信息提取方法,该方法包括:基于待提取信息的关键词,确定与关键词对应的候选网页地址;基于候选网页地址确定目标网页地址,并基于目标网页地址获取所述待提取信息。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的信息提取方法,该方法包括:基于待提取信息的关键词,确定与关键词对应的候选网页地址;基于候选网页地址确定目标网页地址,并基于目标网页地址获取所述待提取信息。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的信息提取方法,该方法包括:基于待提取信息的关键词,确定与关键词对应的候选网页地址;基于候选网页地址确定目标网页地址,并基于目标网页地址获取所述待提取信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种信息提取方法,其特征在于,所述方法包括:
基于待提取信息的关键词,确定与所述关键词对应的候选网页地址;
基于所述候选网页地址确定目标网页地址,并基于所述目标网页地址获取所述待提取信息,其中,
所述基于所述目标网页地址获取所述待提取信息,具体包括:
预设所述待提取信息的页面路径,并基于所述页面路径构建所述页面路径的字典树;
基于所述字典树,在与所述目标网页地址对应的目标网页中进行深度优先搜索,得到多个所述待提取信息的页面地址;
基于所述待提取信息的页面地址,得到所述待提取信息;
所述基于所述待提取信息的页面地址,得到所述待提取信息,具体包括:
加载并渲染所述待提取信息的页面地址,得到所述待提取信息的网页页面;
对所述网页页面中的元素块进行位置标注,得到各所述元素块的位置信息;
对所述网页页面中的文本内容进行提取,得到各所述元素块的实体信息;
基于所述元素块的位置信息,对所述元素块的实体信息进行聚类,并基于聚类结果得到所述待提取信息。
2.根据权利要求1所述的信息提取方法,其特征在于,所述基于所述候选网页地址确定目标网页地址,具体包括:
按照预设维度对所述候选网页地址进行划分,得到所述候选网页地址的候选网页地址维度信息;
对所述候选网页地址维度信息进行评分,得到候选网页地址维度评分结果;
对所述候选网页地址维度评分结果进行加权求和,得到所述候选网页地址的评分结果;
基于所述候选网页地址的评分结果确定所述目标网页地址。
3.根据权利要求2所述的信息提取方法,其特征在于,所述基于所述候选网页地址的评分结果确定所述目标网页地址,具体包括:
将所述候选网页地址中的所述评分结果最高且超过评分阈值的候选网页地址确定为所述目标网页地址。
4.根据权利要求1所述的信息提取方法,其特征在于,所述元素块包括value元素块和key元素块,所述对所述网页页面中的元素块进行位置标注,得到各所述元素块的位置信息,具体包括:
对所述网页页面中的所述value元素块和所述key元素块进行位置标注,得到各所述value元素块的第一位置信息和各所述key元素块的第二位置信息;
所述对所述网页页面中的文本内容进行提取,得到各所述元素块的实体信息,具体包括:
对所述网页页面中的文本内容进行提取,得到各所述value元素块的第一实体信息和各所述key元素块的第二实体信息;
所述基于所述元素块的位置信息,对所述元素块的实体信息进行聚类,具体包括:
基于所述第一位置信息和所述第二位置信息,对所述第一实体信息和所述第二实体信息进行聚类。
5.根据权利要求4所述的信息提取方法,其特征在于,所述基于所述第一位置信息和所述第二位置信息,对所述第一实体信息和所述第二实体信息进行聚类,具体包括:
基于所述第一位置信息和所述第二位置信息,获取所述value元素块与所述key元素块的位置距离;
将所述位置距离小于或等于距离阈值的所述value元素块和所述key元素块进行聚类,以实现对所述第一实体信息和所述第二实体信息进行聚类。
6.根据权利要求5所述的信息提取方法,其特征在于,所述将所述位置距离小于或等于距离阈值的所述value元素块和所述key元素块进行聚类,具体包括:
将所述位置距离小于或等于距离阈值且具有value-key对应关系的所述value元素块和所述key元素块进行聚类。
7.一种信息提取装置,其特征在于,所述装置包括:
确定模块,用于基于待提取信息的关键词,确定与所述关键词对应的候选网页地址;
处理模块,用于基于所述候选网页地址确定目标网页地址,并基于所述目标网页地址获取所述待提取信息,其中,
所述处理模块采用以下方式基于所述目标网页地址获取所述待提取信息:
预设所述待提取信息的页面路径,并基于所述页面路径构建所述页面路径的字典树;基于所述字典树,在与所述目标网页地址对应的目标网页中进行深度优先搜索,得到多个所述待提取信息的页面地址;基于所述待提取信息的页面地址,得到所述待提取信息;
所述处理模块采用以下方式基于所述待提取信息的页面地址,得到所述待提取信息:
加载并渲染所述待提取信息的页面地址,得到所述待提取信息的网页页面;对所述网页页面中的元素块进行位置标注,得到各所述元素块的位置信息;对所述网页页面中的文本内容进行提取,得到各所述元素块的实体信息;基于所述元素块的位置信息,对所述元素块的实体信息进行聚类,并基于聚类结果得到所述待提取信息。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的信息提取方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210501597.2A CN114610985B (zh) | 2022-05-10 | 2022-05-10 | 信息提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210501597.2A CN114610985B (zh) | 2022-05-10 | 2022-05-10 | 信息提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114610985A CN114610985A (zh) | 2022-06-10 |
CN114610985B true CN114610985B (zh) | 2022-08-19 |
Family
ID=81868511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210501597.2A Active CN114610985B (zh) | 2022-05-10 | 2022-05-10 | 信息提取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114610985B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069076A (zh) * | 2015-07-31 | 2015-11-18 | 北京奇虎科技有限公司 | 确定官网首页中的地址信息的方法及装置 |
CN111625748A (zh) * | 2020-06-01 | 2020-09-04 | 深圳市小满科技有限公司 | 网站的导航栏信息提取方法、装置、电子设备及存储介质 |
CN111737623A (zh) * | 2020-06-19 | 2020-10-02 | 深圳市小满科技有限公司 | 网页信息提取方法及相关设备 |
CN114357335A (zh) * | 2022-01-04 | 2022-04-15 | 杭州网易竹书信息技术有限公司 | 信息获取方法、介质、装置和计算设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2638015C2 (ru) * | 2015-06-30 | 2017-12-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ идентификации целевого объекта на веб-странице |
CN105677764B (zh) * | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN107368471B (zh) * | 2017-06-29 | 2020-11-27 | 中国测绘科学研究院 | 一种网页文本中地名地址的提取方法 |
-
2022
- 2022-05-10 CN CN202210501597.2A patent/CN114610985B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069076A (zh) * | 2015-07-31 | 2015-11-18 | 北京奇虎科技有限公司 | 确定官网首页中的地址信息的方法及装置 |
CN111625748A (zh) * | 2020-06-01 | 2020-09-04 | 深圳市小满科技有限公司 | 网站的导航栏信息提取方法、装置、电子设备及存储介质 |
CN111737623A (zh) * | 2020-06-19 | 2020-10-02 | 深圳市小满科技有限公司 | 网页信息提取方法及相关设备 |
CN114357335A (zh) * | 2022-01-04 | 2022-04-15 | 杭州网易竹书信息技术有限公司 | 信息获取方法、介质、装置和计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114610985A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106033416B (zh) | 一种字符串处理方法及装置 | |
CN111694939A (zh) | 智能调用机器人的方法、装置、设备及存储介质 | |
CN112507160A (zh) | 商标侵权的自动化判定方法、装置、电子设备和存储介质 | |
US20130339369A1 (en) | Search Method and Apparatus | |
CN111563382A (zh) | 文本信息的获取方法、装置、存储介质及计算机设备 | |
Sundara Vadivel et al. | An efficient CBIR system based on color histogram, edge, and texture features | |
CN112507176A (zh) | 域名侵权的自动化判定方法、装置、电子设备和存储介质 | |
CN108388556B (zh) | 同类实体的挖掘方法及系统 | |
CN112528294A (zh) | 漏洞匹配方法、装置、计算机设备和可读存储介质 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN116719997A (zh) | 政策信息推送方法、装置及电子设备 | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
CN110489740B (zh) | 语义解析方法及相关产品 | |
CN114610985B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 | |
CN112579747B (zh) | 一种身份信息提取方法及装置 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN113591857A (zh) | 字符图像处理方法、装置及古代汉籍图像的识别方法 | |
CN111460088A (zh) | 相似文本的检索方法、装置和系统 | |
CN117033575A (zh) | 混合词检测方法、装置、电子设备及可读储存介质 | |
CN117688927B (zh) | 病历章节重配置方法、系统、终端及存储介质 | |
CN113077272B (zh) | 通信业务营销案优化方法和装置 | |
CN111046629B (zh) | 大纲显示方法、装置及设备 | |
CN110619117B (zh) | 关键词提取方法和装置 | |
CN116881573A (zh) | 一种编程资源推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |