CN114117309A - 一种网页实体提取方法、装置、计算机设备及存储介质 - Google Patents

一种网页实体提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114117309A
CN114117309A CN202111459377.XA CN202111459377A CN114117309A CN 114117309 A CN114117309 A CN 114117309A CN 202111459377 A CN202111459377 A CN 202111459377A CN 114117309 A CN114117309 A CN 114117309A
Authority
CN
China
Prior art keywords
dictionary
entity
webpage
format
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111459377.XA
Other languages
English (en)
Inventor
苏红梅
姚钊盈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanwuyun Technology Co ltd
Original Assignee
Shenzhen Wanwuyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanwuyun Technology Co ltd filed Critical Shenzhen Wanwuyun Technology Co ltd
Priority to CN202111459377.XA priority Critical patent/CN114117309A/zh
Publication of CN114117309A publication Critical patent/CN114117309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页实体提取方法、装置、计算机设备及存储介质,该方法包括:将网页转化为p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页;对p格式网页进行解析,并映射为第一字典;以及对tb格式网页进行解析,并映射为第二字典;将第一字典和第二字典融合为第三字典,并将第一字典、第二字典和第三字典融合为目标字典;采用BM25算法对目标字典进行相似性粗排;通过BERT模型对候选实体进行文本向量化处理;通过余弦相似度算法对候选实体与预设的实体字典中对应类型实体计算相似度,并选取各个实体类型相似度最高的候选实体作为目标实体。本发明实施例可以提高网页实体提取精度和投标人的投标中标效率。

Description

一种网页实体提取方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机软件技术领域,特别涉及一种网页实体提取方法、装置、计算机设备及存储介质。
背景技术
在投标端竞争端越来越大的市场环境,如果能够智能监测招投标市场、大数据分析对手以及挖掘商机等,便可以使投标端更加及时地发现投标商机,从而使投标端的投标中标率得到提升。而这些场景都需要对从各个平台获取的招标公告信息、中标公告信息进行结构化,以及从招标公告提取招标人、控制价、项目编号等,从中标公告中提取中标人、中标价、项目经理、项目经理编号、项目编号等。
一条招投标数据可能在不同的网站上发布成百上千次,如果将这些重复数据完全推送出去无疑需要耗费大量的人力物力,将招投标网页进行结构化是将不同来源的网页信息进行去重的基础。同时网页信息进行结构化也是我们的招标人,投标人的客户画像,供应商关系,分析项目经理资质的基础。因此,如何准确提取上述的实体内容,以提高最终的中标率是本领域技术人员需要解决的问题。
发明内容
本发明实施例提供了一种网页实体提取方法、装置、计算机设备及存储介质,旨在提高网页实体提取精度和投标人的投标中标效率。
第一方面,本发明实施例提供了一种网页实体提取方法,包括:
获取多份包含招标信息、投标信息的网页,并将所述网页转化为p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页;
对所述p格式网页进行解析,并将解析结果映射为第一字典;以及对所述tb格式网页进行解析,并将解析结果映射为第二字典;
将所述第一字典和第二字典融合为所述ptb格式网页对应的第三字典,并将所述第一字典、第二字典和第三字典融合为目标字典;
采用BM25算法对所述目标字典和预设的实体字典中的不同类型实体进行相似性粗排,并在相似性粗排结果中分别选取各个类型实体的前N个作为对应的候选实体;
通过BERT模型对所述候选实体进行文本向量化处理;
通过余弦相似度算法对文本向量化处理后的候选实体与预设的实体字典中对应类型实体计算相似度,并选取各个实体类型相似度最高的候选实体作为目标实体;
对所述目标实体进行匹配验证,并将匹配验证的结果作为网页实体的提取结果。
第二方面,本发明实施例提供了一种网页实体提取装置,包括:
网页获取单元,用于获取多份包含招标信息、投标信息的网页,并将所述网页转化为p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页;
网页解析单元,用于对所述p格式网页进行解析,并将解析结果映射为第一字典;以及对所述tb格式网页进行解析,并将解析结果映射为第二字典;
字典融合单元,用于将所述第一字典和第二字典融合为所述ptb格式网页对应的第三字典,并将所述第一字典、第二字典和第三字典融合为目标字典;
候选选取单元,用于采用BM25算法对所述目标字典和预设的实体字典中的不同类型实体进行相似性粗排,并在相似性粗排结果中分别选取各个类型实体的前N个作为对应的候选实体;
向量化处理单元,用于通过BERT模型对所述候选实体进行文本向量化处理;
相似度计算单元,用于通过余弦相似度算法对文本向量化处理后的候选实体与预设的实体字典中对应类型实体计算相似度,并选取各个实体类型相似度最高的候选实体作为目标实体;
匹配验证单元,用于对所述目标实体进行匹配验证,并将匹配验证的结果作为网页实体的提取结果。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的网页实体提取方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的网页实体提取方法。
本发明实施例提供了一种网页实体提取方法、装置、计算机设备及存储介质,该方法包括:获取多份包含招标信息、投标信息的网页,并将所述网页转化为p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页;对所述p格式网页进行解析,并将解析结果映射为第一字典;以及对所述tb格式网页进行解析,并将解析结果映射为第二字典;将所述第一字典和第二字典融合为所述ptb格式网页对应的第三字典,并将所述第一字典、第二字典和第三字典融合为目标字典;采用BM25算法对所述目标字典和预设的实体字典中的不同类型实体进行相似性粗排,并在相似性粗排结果中分别选取各个类型实体的前N个作为对应的候选实体;通过BERT模型对所述候选实体进行文本向量化处理;通过余弦相似度算法对文本向量化处理后的候选实体与预设的实体字典中对应类型实体计算相似度,并选取各个实体类型相似度最高的候选实体作为目标实体;对所述目标实体进行匹配验证,并将匹配验证的结果作为网页实体的提取结果。本发明实施例通过将网页归类为不同的格式,并对其进行相应的解析,然后结合BM25算法和BERT模型提取得到与真实实体最相似的实体,如此可以提高网页实体提取精度和投标人的投标中标效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种网页实体提取方法的流程示意图;
图2为本发明实施例提供的一种网页实体提取方法的子流程示意图;
图3为本发明实施例提供的一种网页实体提取装置的示意性框图;
图4为本发明实施例提供的一种网页实体提取装置的子示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面请参见图1,图1为本发明实施例提供的一种网页实体提取方法的流程示意图,具体包括:步骤S101~S107。
S101、获取多份包含招标信息、投标信息的网页,并将所述网页转化为p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页;
S102、对所述p格式网页进行解析,并将解析结果映射为第一字典;以及对所述tb格式网页进行解析,并将解析结果映射为第二字典;
S103、将所述第一字典和第二字典融合为所述ptb格式网页对应的第三字典,并将所述第一字典、第二字典和第三字典融合为目标字典;
S104、采用BM25算法对所述目标字典和预设的实体字典中的不同类型实体进行相似性粗排,并在相似性粗排结果中分别选取各个类型实体的前N个作为对应的候选实体;
S105、通过BERT模型对所述候选实体进行文本向量化处理;
S106、通过余弦相似度算法对文本向量化处理后的候选实体与预设的实体字典中对应类型实体计算相似度,并选取各个实体类型相似度最高的候选实体作为目标实体;
S107、对所述目标实体进行匹配验证,并将匹配验证的结果作为网页实体的提取结果。
本实施例中,对于获取到的网页,首先将其归类为不同格式,即p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页。然后对于不同格式,通过不同的解析方式进行解析,从而映射融合为各自对应的第一字典、第二字典和第三字典,并将这三个字典融合为目标字典,以便于通过BM25算法进行相似性粗排。在这里,本实施例所述的预设的实体字典即是指包含真实实体名称的字典,因此,在对目标字典与预设的实体字典进行相似性粗排时,便是选取与真实实体最为相似的前N个实体。随后,通过BERT模型和余弦相似度计算,可以选取得到与真实实体相似度最高的一个实体,当然,由于实体类型有多种,因此自然是对每一中实体类型分别选取相似度最高的实体。对于选取的相似度最高的实体,即目标实体,通过匹配验证的方式进一步提高实体提取精度。
本实施例通过将网页归类为不同的格式,并对其进行相应的解析,然后结合BM25算法和BERT模型提取得到与真实实体最相似的实体,如此可以提高网页实体提取精度和投标人的投标中标效率。
在一具体实施例中,现有技术中通过深度学习的方式来提高投标中标效率时,需要大量标注人员,同时模型训练需要大量的机器资源。但是本实施例则采用将模型封装成python PyPi包,再将python PyPi包封装成超融合数据库greeplum的接口函数,以实现对爬取获得的网页实时进行结构化,从而形成投标人、招标客户画像的基础元素,提高投标人投标中标效率。
在一实施例中,所述步骤S101包括:
对网页的公告类别进行判断;
若判定网页的公告类别为招标公告,则将所述网页转化为p标签对应的p格式网页;
若判定网页的公告类别为中标公告或者中标候选公告,则获取所述网页的p标签占比;
当p标签占比小于预设百分比阈值时,则将所述网页转化为table标签对应的tb格式网页;
当p标签占比大于或者等于预设百分比阈值时,则将所述网页转化为p标签和table标签混合对应的ptb格式网页。
本实施例中,对获取的包含招标信息和投标信息的网页进行初步归类,将其划分为p标签对应的p格式网页、table标签对应的tb格式网页以及p标签和table标签混合对应的ptb格式网页。具体的,如果网页的公告类别为招标公告,则将其划分为p格式网页,如果未中标公告或者中标候选公告,则根据p标签的占比将其划分为tb格式网页或者ptb格式网页。
在一实施例中,所述步骤S102包括:
利用正则表达式将所述p格式网页中的span标签、li标签和ul标签替换为p标签;
提取p标签对应文本信息,并通过关键字匹配和特殊分隔符方法将文本信息中实体划分为key和valu,以此形成所述第一字典{key i:value i},i=0,1,2,3,…。
本实施例中,对p格式网页进行通用解析,映射成第一字典{key i:value i}。具体的,虽然不同来源的网页中的招标公告不同,且网页的标签类型也不尽相同,但是对于前端页面,均是一行一行的展示信息,所以本实施例可以通过w3lib中的remove_tags把p标签里面的小标签全部去掉,并通过正则表达式将li,ul等标签替换成p标签。
同时,招标公告的招标人、招标代理表述有两种形式,一种是在网页开头以某种格式进行阐述,比如某某招标人委托莫某招标代理进行什么招标,或者在尾部招标人:某某。通过正则匹配,将包含所需实体的关键字的span、li、ul等标签都替换成p标签,再将p标签的文本提取出来,通过关键字匹配和特殊分隔符(例如点“.”、竖线“|”、星号“*”、倒对号“^”等等)的方式将的实体分成key和value,从而形成第一字典{key i:value i},i=0,1,2,3,…。比如招标人:某某,通过分隔冒号成字典{’招标人’:’某某’}。
在一实施例中,如图2所示,所述步骤S102包括:步骤S201~S204。
S201、根据表格类型将所述tb格式网页划分为纵向table类型、横向table类型以及纵向、横向table混合类型;
S202、对于所述纵向table类型的tb格式网页,将表格的第n1i行设置为key,i=1,2,3,…;以及将表格第二行之后nji的设置为value,j=2,3,…,i=i,2,3,…,以此构建纵向字典{keyi:value i},i=0,1,2,3,…;
S203、对于所述横向table类型的tb格式网页,将表格的每一行的偶数格数nj2i格设置为key,j=1,2,3,…,i=0,1,2,3,…;以及将表格的每一行的奇数格数nj2i+1格设置为value,j=1,2,3,…,i=0,1,2,3,…,以此构建横向字典{key i:value i},i=0,1,2,3,…;
S204、基于所述纵向字典和横向字典的构建方式,构建得到纵向、横向table混合类型对应的混合字典,并将所述纵向字典、横向字典和混合字段综合为所述第二字典。
本实施例中,对tb格式网页进行解析,映射成字典{key i:value i},i=0,1,2,3,…。具体的,首先判断表格类型,即table分类有纵向table,横向table,横向和纵向table混合。然后,对于纵向table,将表格的第n1i行设置为key,即n1i,i=1,2,3,…,表格第二行之后nji的设置为value,j=2,3,…,i=i,2,3,…,形成纵向字典{key i:value i},i=0,1,2,3,…。对于横向表格table,将表格的每一行的偶数格数当nj2i格设置为key,j=1,2,3,…,i=0,1,2,3,…,将表格的每一行的奇数格数nj2i+1格设置为value,j=1,2,3,…,i=0,1,2,3,…,形成横向字典{key i:value i},i=0,1,2,3,…。进一步,对于混合类型,则可以按照上述纵向字典和横向字典的形成方式来形成得到混合字典。然后将三种字典,即纵向字典、横向字典和混合字典综合为所述第二字典。
在一实施例中,所述步骤S104包括:
针对每一类型实体,基于TF-IDF对所述目标字典中的单词进行权重赋值;
按照下式对所述目标字典和预设的实体字典进行相似性计算:
Figure BDA0003389288000000071
式中,tftd是词项t在目标字典d中的权重,Ld和Lave分别是目标字典d的长度及目标字典所属网页的平均长度,k1、k3均为取正值的调优参数,用于对词项频率进行缩放控制,b为调节参数,0≤b≤1,N为目标字典的单词总数。
本实施例中,使用BM25算法对所述目标字典进行相似性进行粗排,BM25算法由三个核心的概念组成,包括词在文档中相关度、词在查询关键字中的相关度以及词的权重dft。
其中,单词的权重最简单的就是用idf值,即
Figure BDA0003389288000000081
也就是有多少文档包含某个单词信息进行变换。如果在这里使用IDF的话,那么整个BM25算法就可以看作是一个某种意义下的TF-IDF,只不过TF的部分是一个复杂的基于文档和查询关键字、有两个部分的词频函数
单词与文档的相关性TF-IDF中,可以用“词频”进行表示,如果出现的次数比较多,一般就认为更相关。但是BM25算法洞察到:词频和相关性之间的关系是非线性的,具体来说,每一个词对于文档相关性的分数不会超过一个特定的阈值,当词出现的次数达到一个阈值后,其影响不再线性增长,而这个阈值会跟文档本身有关。如下式所示:
Figure BDA0003389288000000082
其中,tftd是词项t在目标字典d中的权重,Ld和Lave分别是目标字典d的长度及整个网页中目标字典的平均长度。k1是一个取正值的调优参数,用于对目标字典中的词项频率进行缩放控制。如果k1取0,则相当于不考虑词频,如果k1取较大的值,那么对应于使用原始词项频率。b是一个调节参数(0≤b≤1),决定目标字典长度的缩放程度:b=1表示基于文档长度对词项权重进行完全的缩放,b=0表示归一化时不考虑目标字典长度因素,本实施例设置k1=1.5,b=1,tftd=0.25;
单词与查询的相关性:
Figure BDA0003389288000000083
其中,tftd是词项t在查询q中的权重。这里k3是另一个取正值的调优参数,用于对查询中的词项tq频率进行缩放控制。
综上所述,于是最后的公式是:
Figure BDA0003389288000000084
比如当网页中的实体v对应的k是第一中标候选人,经过BM25算法找出语料库中前5个分数最高的对应的分数RSVd[1.160935930.998871550.916997190.890601920.76416433],语料库对应的前5个关键词['拟选中标第一排序人','第一入围候选单位','排名第一中标人名称','中标候选人名称′,′第一中标候选单位′]。
在一实施例中,所述步骤S105包括:
按照下式,基于多头注意力机制对所述候选实体进行文本向量化处理:
q=XWQ
k=XWK
v=XWV
Figure BDA0003389288000000091
MultiHead(Q,K,V)=Concat(head1,....headh)WQ
Figure BDA0003389288000000092
式中,Q、K、V分别表示注意力机制中的Q向量、K向量和V向量,WQ、WK和WV分别表示Q、K、V的权重。
本实施例中,采用BERT模型进行词向量表示,在基于深度神经网络的NLP方法中,文本中的字/词通常都用一维向量来表示(一般称之为“词向量”);在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维词向量作为文本的语义表示。特别地,本实施例希望语义相近的字/词在特征向量空间上的距离也比较接近,如此一来,由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此,BERT模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示。
例如,由BM25算法粗排得到分数最高的5个[′拟选中标第一排序人′,′第一入围候选单位′,′排名第一中标人名称′,′中标候选人名称′,′第一中标候选单位′]向量化的结果是
[[-1.2306223e-02 -6.3229635e-02 9.9998871e-03 ... -5.4814104e-02 -2.3998832e-02 -8.9731388e-02]
[3.1231714e-03 -4.8983105e-02 -1.0094769e-02 ... -7.9641759e-023.0581724e-02 -7.0560560e-02]
[-6.2910469e-05 -6.6423714e-02 -1.7850086e-02 ... -4.3447118e-02 -3.1486232e-02 -1.3095617e-01]
[6.1155977e-03 -5.2067623e-02 -4.9398313e-03 ... -3.4701291e-02 -1.7786488e-02 -1.1584354e-01]
[-2.7701465e-02 -8.8820815e-02 -4.6565314e-03 ... -6.6423692e-02 -1.9247591e-02 -9.6031159e-02]
[1.7828532e-02 -8.0759041e-02 -4.3241218e-02 ... -3.3013694e-022.9357588e-02 -8.5633807e-02]];
网页中的实体v对应的k是中标候选人,向量化的结果是:
[-3.04678045e-02 -8.26402679e-02 -5.07267704e-03 -1.16899172e-025.06894626e-02 -3.26221846e-02 -5.11103235e-02 1.94685385e-02 6.53673634e-023.29961913e-04...]。
在一实施例中,所述步骤S106包括:
按照下式进行余弦相似度计算:
Figure BDA0003389288000000101
式中,x1k为候选实体的实体单词,x2k为预设的实体字典中的实体单词。
本实施例中,计算两个实体的余弦相似度,余弦相似度是将文本映射到向量空间后计算两个向量的余弦值。两向量越相似,向量夹角越小,cosine绝对值越大;值为负,两向量负相关。例如网页实体转化成的{‘第一中标候选人’:某某某},语料中得到的相似度最高的实体结果是{′question′:′第一中标候选单位′,′answer′:′zhongbiaoren′,′sim_rate′:0.9142127},如此便得知第一中标候选人k对应的实体v类型是zhongbiaoren,从而将实体结构化成{′zhongbiaoren′:某某某}。
在一实施例中,所述对所述目标实体进行匹配验证,并将匹配验证的结果作为网页实体的提取结果,包括:
针对每一实体类型,根据相似度计算结果选取得到相似度得分最高的实体values;对选取的实体values进行处理,如对中标价、控制价、招标人、中标人中的项目经理进行清洗,又比如讲中标价、控制价中大写的金额全部转化小写,金额的单位统一转化为元;对企业类别的实体,比如招标人、中标人等需要和天眼查的企业进行匹配。如果提取到的企业不在天眼查中,则在后面添加存疑。项目经理则需要根据四库一平台的项目经理进行验证,不在四库一平台也对应添加存疑。
图3为本发明实施例提供的一种网页实体提取装置300的示意性框图,该装置300包括:
网页获取单元301,用于获取多份包含招标信息、投标信息的网页,并将所述网页转化为p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页;
网页解析单元302,用于对所述p格式网页进行解析,并将解析结果映射为第一字典;以及对所述tb格式网页进行解析,并将解析结果映射为第二字典;
字典融合单元303,用于将所述第一字典和第二字典融合为所述ptb格式网页对应的第三字典,并将所述第一字典、第二字典和第三字典融合为目标字典;
候选选取单元304,用于采用BM25算法对所述目标字典和预设的实体字典中的不同类型实体进行相似性粗排,并在相似性粗排结果中分别选取各个类型实体的前N个作为对应的候选实体;
向量化处理单元305,用于通过BERT模型对所述候选实体进行文本向量化处理;
相似度计算单元306,用于通过余弦相似度算法对文本向量化处理后的候选实体与预设的实体字典中对应类型实体计算相似度,并选取各个实体类型相似度最高的候选实体作为目标实体;
匹配验证单元307,用于对所述目标实体进行匹配验证,并将匹配验证的结果作为网页实体的提取结果。
在一实施例中,所述网页获取单元301包括:
类别判断单元,用于对网页的公告类别进行判断;
第一转化单元,用于若判定网页的公告类别为招标公告,则将所述网页转化为p标签对应的p格式网页;
占比获取单元,用于若判定网页的公告类别为中标公告或者中标候选公告,则获取所述网页的p标签占比;
第二转化单元,用于当p标签占比小于预设百分比阈值时,则将所述网页转化为table标签对应的tb格式网页;
第三转化单元,用于当p标签占比大于或者等于预设百分比阈值时,则将所述网页转化为p标签和table标签混合对应的ptb格式网页。
在一实施例中,所述网页解析单元302包括:
标签替换单元,用于利用正则表达式将所述p格式网页中的span标签、li标签和ul标签替换为p标签;
信息提取单元,用于提取p标签对应文本信息,并通过关键字匹配和特殊分隔符方法将文本信息中实体划分为key和valu,以此形成所述第一字典{key i:value i},i=0,1,2,3,...。
在一实施例中,如图4所示,所述网页解析单元302包括:
类型划分单元401,用于根据表格类型将所述tb格式网页划分为纵向table类型、横向table类型以及纵向、横向table混合类型;
第一设置单元402,用于对于所述纵向table类型的tb格式网页,将表格的第n1i行设置为key,i=1,2,3,...;以及将表格第二行之后nji的设置为value,j=2,3,...,i=i,2,3,...,以此构建纵向字典{key i:value i},i=0,1,2,3,...;
第二设置单元403,用于对于所述横向table类型的tb格式网页,将表格的每一行的偶数格数nj2i格设置为key,j=1,2,3,...,i=0,1,2,3,...;以及将表格的每一行的奇数格数nj2i+1格设置为value,j=1,2,3,...,i=0,1,2,3,...,以此构建横向手典{key i:value i},i=0,1,2,3,...;
字典综合单元404,用于基于所述纵向字典和横向字典的构建方式,构建得到纵向、横向table混合类型对应的混合字典,并将所述纵向字典、横向字典和混合字段综合为所述第二字典。
在一实施例中,所述候选选取单元304包括:
权重赋值单元,用于针对每一类型实体,基于TF-IDF对所述目标字典中的单词进行权重赋值;
相似性计算单元,用于按照下式对所述目标字典和预设的实体字典进行相似性计算:
Figure BDA0003389288000000121
式中,tftd是词项t在目标字典d中的权重,Ld和Lave分别是目标字典d的长度及目标字典所属网页的平均长度,k1、k3均为取正值的调优参数,用于对词项频率进行缩放控制,b为调节参数,0≤b≤1,N为目标字典的单词总数。
在一实施例中,所述向量化处理单元305相似度计算单元306包括:
注意力机制单元,用于按照下式,基于多头注意力机制对所述候选实体进行文本向量化处理:
q=XWQ
k=XWK
v=XWV
Figure BDA0003389288000000131
MultiHead(Q,K,V)=Concat(head1,....headh)WQ
Figure BDA0003389288000000132
式中,Q、K、V分别表示注意力机制中的Q向量、K向量和V向量,WQ、WK和WV分别表示Q、K、V的权重。
在一实施例中,所述相似度计算单元306包括:
余弦计算单元,用于按照下式进行余弦相似度计算:
Figure BDA0003389288000000133
式中,x1k为候选实体的实体单词,x2k为预设的实体字典中的实体单词。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种网页实体提取方法,其特征在于,包括:
获取多份包含招标信息、投标信息的网页,并将所述网页转化为p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页;
对所述p格式网页进行解析,并将解析结果映射为第一字典;以及对所述tb格式网页进行解析,并将解析结果映射为第二字典;
将所述第一字典和第二字典融合为所述ptb格式网页对应的第三字典,并将所述第一字典、第二字典和第三字典融合为目标字典;
采用BM25算法对所述目标字典和预设的实体字典中的不同类型实体进行相似性粗排,并在相似性粗排结果中分别选取各个类型实体的前N个作为对应的候选实体;
通过BERT模型对所述候选实体进行文本向量化处理;
通过余弦相似度算法对文本向量化处理后的候选实体与预设的实体字典中对应类型实体计算相似度,并选取各个实体类型相似度最高的候选实体作为目标实体;
对所述目标实体进行匹配验证,并将匹配验证的结果作为网页实体的提取结果。
2.根据权利要求1所述的网页实体提取方法,其特征在于,所述获取多份包含招标信息、投标信息的网页,并将所述网页转化为p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页,包括:
对网页的公告类别进行判断;
若判定网页的公告类别为招标公告,则将所述网页转化为p标签对应的p格式网页;
若判定网页的公告类别为中标公告或者中标候选公告,则获取所述网页的p标签占比;
当p标签占比小于预设百分比阈值时,则将所述网页转化为table标签对应的tb格式网页;
当p标签占比大于或者等于预设百分比阈值时,则将所述网页转化为p标签和table标签混合对应的ptb格式网页。
3.根据权利要求1所述的网页实体提取方法,其特征在于,所述对所述p格式网页进行解析,并将解析结果映射为第一字典,包括:
利用正则表达式将所述p格式网页中的span标签、li标签和ul标签替换为p标签;
提取p标签对应文本信息,并通过关键字匹配和特殊分隔符方法将文本信息中实体划分为key和valu,以此形成所述第一字典{key i:value i},i=0,1,2,3,…。
4.根据权利要求1所述的网页实体提取方法,其特征在于,所述对所述tb格式网页进行解析,并将解析结果映射为第二字典,包括:
根据表格类型将所述tb格式网页划分为纵向table类型、横向table类型以及纵向、横向table混合类型;
对于所述纵向table类型的tb格式网页,将表格的第n1i行设置为key,i=1,2,3,…;以及将表格第二行之后nji的设置为value,j=2,3,…,i=i,2,3,…,以此构建纵向字典{keyi:value i},i=0,1,2,3,…;
对于所述横向table类型的tb格式网页,将表格的每一行的偶数格数nj2i格设置为key,j=1,2,3,…,i=0,1,2,3,…;以及将表格的每一行的奇数格数nj2i+1格设置为value,j=1,2,3,…,i=0,1,2,3,…,以此构建横向字典{key i:value i},i=0,1,2,3,…;
基于所述纵向字典和横向字典的构建方式,构建得到纵向、横向table混合类型对应的混合字典,并将所述纵向字典、横向字典和混合字段综合为所述第二字典。
5.根据权利要求1所述的网页实体提取方法,其特征在于,所述采用BM25算法对所述目标字典和预设的实体字典中的不同类型实体进行相似性粗排,并在相似性粗排结果中分别选取各个类型实体的前N个作为对应的候选实体,包括:
针对每一类型实体,基于TF-IDF对所述目标字典中的单词进行权重赋值;
按照下式对所述目标字典和预设的实体字典进行相似性计算:
Figure FDA0003389287990000021
式中,tftd是词项t在目标字典d中的权重,Ld和Lave分别是目标字典d的长度及目标字典所属网页的平均长度,k1、k3均为取正值的调优参数,用于对词项频率进行缩放控制,b为调节参数,0≤b≤1,N为目标字典的单词总数。
6.根据权利要求1所述的网页实体提取方法,其特征在于,所述通过BERT模型对所述候选实体进行文本向量化处理,包括:
按照下式,基于多头注意力机制对所述候选实体进行文本向量化处理:
q=XWQ
k=XWK
v=XWV
Figure FDA0003389287990000031
MultiHead(Q,K,V)=Concat(head1,…headh)WQ
Figure FDA0003389287990000032
式中,Q、K、V分别表示注意力机制中的Q向量、K向量和V向量,WQ、WK和WV分别表示Q、K、V的权重。
7.根据权利要求1所述的网页实体提取方法,其特征在于,所述通过余弦相似度算法对文本向量化处理后的候选实体与预设的实体字典中对应类型实体计算相似度,包括:
按照下式进行余弦相似度计算:
Figure FDA0003389287990000033
式中,x1k为候选实体的实体单词,x2k为预设的实体字典中的实体单词。
8.一种网页实体提取装置,其特征在于,包括:
网页获取单元,用于获取多份包含招标信息、投标信息的网页,并将所述网页转化为p标签对应的p格式网页、p标签和table标签混合对应的ptb格式网页和table标签对应的tb格式网页;
网页解析单元,用于对所述p格式网页进行解析,并将解析结果映射为第一字典;以及对所述tb格式网页进行解析,并将解析结果映射为第二字典;
字典融合单元,用于将所述第一字典和第二字典融合为所述ptb格式网页对应的第三字典,并将所述第一字典、第二字典和第三字典融合为目标字典;
候选选取单元,用于采用BM25算法对所述目标字典和预设的实体字典中的不同类型实体进行相似性粗排,并在相似性粗排结果中分别选取各个类型实体的前N个作为对应的候选实体;
向量化处理单元,用于通过BERT模型对所述候选实体进行文本向量化处理;
相似度计算单元,用于通过余弦相似度算法对文本向量化处理后的候选实体与预设的实体字典中对应类型实体计算相似度,并选取各个实体类型相似度最高的候选实体作为目标实体;
匹配验证单元,用于对所述目标实体进行匹配验证,并将匹配验证的结果作为网页实体的提取结果。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的网页实体提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的网页实体提取方法。
CN202111459377.XA 2021-12-02 2021-12-02 一种网页实体提取方法、装置、计算机设备及存储介质 Pending CN114117309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111459377.XA CN114117309A (zh) 2021-12-02 2021-12-02 一种网页实体提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111459377.XA CN114117309A (zh) 2021-12-02 2021-12-02 一种网页实体提取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114117309A true CN114117309A (zh) 2022-03-01

Family

ID=80365392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111459377.XA Pending CN114117309A (zh) 2021-12-02 2021-12-02 一种网页实体提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114117309A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203309A (zh) * 2022-09-15 2022-10-18 北京信立方科技发展股份有限公司 网页中标数据结构化方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203309A (zh) * 2022-09-15 2022-10-18 北京信立方科技发展股份有限公司 网页中标数据结构化方法及装置
CN115203309B (zh) * 2022-09-15 2022-11-29 北京信立方科技发展股份有限公司 网页中标数据结构化方法及装置

Similar Documents

Publication Publication Date Title
CA2556202C (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
CN111125334B (zh) 一种基于预训练的搜索问答系统
US20210056571A1 (en) Determining of summary of user-generated content and recommendation of user-generated content
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
US8874581B2 (en) Employing topic models for semantic class mining
Daryani et al. An automated resume screening system using natural language processing and similarity
CN113569011B (zh) 文本匹配模型的训练方法、装置、设备及存储介质
CN110866102A (zh) 检索处理方法
CN112184021B (zh) 一种基于相似支持集的答案质量评估方法
CN111782793A (zh) 智能客服处理方法和系统及设备
CN117235228A (zh) 客服问答交互方法、装置、设备及存储介质
CN111831810A (zh) 智能问答方法、装置、设备及存储介质
CN117349420A (zh) 基于本地知识库和大型语言模型的回复方法和装置
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN114117309A (zh) 一种网页实体提取方法、装置、计算机设备及存储介质
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN114328865A (zh) 一种改进的TextRank多特征融合教育资源关键词提取方法
CN115455152A (zh) 写作素材的推荐方法、装置、电子设备及存储介质
CN113590755A (zh) 词权重的生成方法、装置、电子设备及存储介质
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
Cheng et al. Retrieving Articles and Image Labeling Based on Relevance of Keywords
CN116244496B (zh) 一种基于产业链的资源推荐方法
CN116992874B (zh) 一种文本引用审核溯源方法、系统、装置和存储介质
Rahaman et al. Exploiting Gaussian word embeddings for document clustering
Pedroso et al. Does Semantic Search Performs Better than Lexical Search in the Task of Assisting Legal Opinion Writing?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination