CN108052619A - 一种基于配置信息匹配及相似度提取网页信息的方法 - Google Patents
一种基于配置信息匹配及相似度提取网页信息的方法 Download PDFInfo
- Publication number
- CN108052619A CN108052619A CN201711346436.6A CN201711346436A CN108052619A CN 108052619 A CN108052619 A CN 108052619A CN 201711346436 A CN201711346436 A CN 201711346436A CN 108052619 A CN108052619 A CN 108052619A
- Authority
- CN
- China
- Prior art keywords
- field
- node
- gauge outfit
- list
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Abstract
本发明公开了一种基于配置信息匹配及相似度提取网页信息的方法,提出了基于配置信息文本匹配及相似度计算实现的未知网页表格信息提取方法,利用新颖技术手段实现对未知网页表格细粒度的解析,通过自定义配置文件,获取用户想要的信息以及屏蔽不想要的信息,通过任意配置的外部文件,实现通用表格解析;提取网页中的最小表格,通过利用现今自然语言处理领域的文本间匹配以及相似度计算方式,抽取目标信息、弃丢无效信息,直接通过文本计算的方式实现信息获取,优于传统技术只能处理标准表格的方案,实现了对多种特殊表格的处理。
Description
技术领域
本发明涉及查询方法技术领域,尤其涉及一种基于配置信息匹配及相似度提取网页信息的方法。
背景技术
知识图谱与图数据挖掘中经常需要挖掘满足给定结构的所有子图,这个问题通常称之为子图同构、子图匹配或子图查询。当前的子图匹配算法多是基于单机的,效率比较低,不能使用多台机器并行处理,能力有限,难以处理大规模数据。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于配置信息匹配及相似度提取网页信息的方法。
本发明通过以下技术方案来实现上述目的:
本发明包括以下步骤:
S1:用户自定义与表格解析过程相关的配置文件;
S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;
S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;
S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的字段列表,通过投票机制确定该表格属性为横向或者纵向。得到所有表格属性并保存;
S5:将每个最小表格作为处理单位,将标签table作为根节点root;
S6:若该表格为纵向表格,获取root第一个非空子节点的标签rowspan值,此值为表头所占行数,根据表头所占行数,获取所有表头字段propertyStr;
S7:遍历表头节点的所有非空兄弟节点,遍历每一个兄弟节点的非空子节点,并记录每一个兄弟节点子节点的个数,将数值取为最大的子节点个数;
S8:以表头节点的兄弟节点个数与设计对应的二维矩阵,分别读取兄弟节点子节点的字段,将其存储于二维矩阵,形成表头propertyStr字段与二维矩阵列一一对应;
S9:若所有子节点的个数与表头字段propertyStr长度相同,执行步骤S11;
S10:若子节点的个数与表头字段长度不同,找出与表头字段propertyStr长度不同的兄弟节点对应的二维矩阵的行,认为其可能是另一个表头,对所有表头以及表头字段对应二维矩阵的字段值执行步骤S18、S19与S20;
S11:若该表格为横向表格,取出root第一个非空子节点,遍历该节点的所有子节点,取出其字段值保存,记为第一类字段;遍历root的所有子节点,取出这些节点的第一个子节点,取出字段值保存,记为第二类字段;获取配置文件中用户给出的字段列表,计算出字段列表与上述两类字段的文本相似度,分别记为权重和;
S12:若,取出第一类字段列表序号为奇数所有字段分别与配置文件中用户给出的正面字段名/正面字段列表进行文本正则化匹配;若未匹配到,跳至步骤S13;若匹配到,执行步骤S6-S10;
S13:取出根节点root非空子节点trElement的标签rowspan值;
S14:若rowspan =1,遍历上述节点trElement的所有子节点,取出所有子节点的字段值记为strString,计算strString元素个数size;
S15:若size为偶数,从0开始到size-1遍历strString,偶数序号作为表头,奇数序号作为字段值,执行步骤S18、S19与S20;
S16:若size为奇数,从0开始到size-1遍历strString,0序号作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;
S17:若rowspan >1,取出根节点root下的rowsapan个子节点,将子节点的第一个非空子节点作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;
S18:遍历每一个表头字段与配置文件中用户给出的正面字段名/正面字段列表进行文本正则化匹配,若未匹配到,继续遍历下一个表头字段;若匹配到,将该表头字段与用户给出的负面字段名/负面字段列表进行文本正则化匹配,若匹配到,结束,继续遍历下一个表头字段,若未匹配到,记录被匹配字段列表所属的正面字段名,形成匹配到的表头字段与正面字段名一一对应的列表;
S19:找出与匹配到的表头字段对应的字段值,数量为n;
S20:设计数据结构R包含name和value属性,将R.name属性记为被匹配到的正面字段名,将R.value属性记为上述获取的字段值;产生n对数据结构R,保存到数据库;
S21:将数据库中获得的所有数据结构R取出,进行清洗、保存;
S22:读入下一个表格,返回步骤S3开始执行,当所有表格读取完毕,查询数据库中是否有对应的用户配置文件,URL以及获得的所有对数据结构R,若没有将其导入入数据库,方便快速查询;
S23:读取下一个URL,返回步骤S2开始执行。
本发明优选地,根据步骤S1,
所述用户配置文件为properties类型或其他JAVA系统可以读取的文件;所述配置文件一般有两种内容:正面字段名/正面字段列表,负面字段名/负面字段列表;
所述正面字段名为用户主观意愿得到的信息;正面字段列表为用户主观认为与欲提取的信息接近的词汇或语法;
所述负面字段名为用户主观不希望得到的信息;负面字段列表为用户主观认为与欲提取的信息无法共生的词汇或语法;
所述正面字段名/正面字段列表,负面字段名/负面字段列表均为用户配置,与待解析表格中是否存在、相同、相异均无关。
本发明优选地,根据步骤S4,所述纵向表格是指整体来看表格的表头为行的表格;所述横向表格是指整体来看表格的表头为列的表格。
本发明的有益效果在于:
本发明提供一种基于配置信息匹配及相似度提取网页信息的方法,提出了基于配置信息文本匹配及相似度计算实现的未知网页表格信息提取方法,利用新颖技术手段实现对未知网页表格细粒度的解析,通过自定义配置文件,获取用户想要的信息以及屏蔽不想要的信息,通过任意配置的外部文件,实现通用表格解析;提取网页中的最小表格,通过利用现今自然语言处理领域的文本间匹配以及相似度计算方式,抽取目标信息、弃丢无效信息,直接通过文本计算的方式实现信息获取,优于传统技术只能处理标准表格的方案,实现了对多种特殊表格的处理。
附图说明
图1是本发明所述一种基于配置信息匹配及相似度提取网页信息的方法的流程图;
图2是本发明所述处理横向表格的流程图;
图3是本发明所述处理纵向表格的流程图;
图4是本发明所述文本匹配及相似度计算流程图。
具体实施方式
下面结合附图对本发明作进一步说明:
如图1所示,本发明包括以下步骤:
S1:用户自定义与表格解析过程相关的配置文件;
所述用户配置文件为properties类型;
所述配置文件一般有两种内容:正面字段名/正面字段列表,负面字段名/负面字段列表;例如,正面字段名/正面字段列表:“中标金额:中标.*金,中标.*价,成交价,采购总.*,采购价,采购金,合同.*额”,“招标机构:招标人,采购人,招标单位,采购单位”;负面字段名/负面字段列表:“负面类别:资格,资质,地址,电话,联系,备注”;
所述正面字段名为用户主观意愿得到的信息;正面字段列表为用户主观认为与欲提取的信息接近的词汇或语法;
所述负面字段名为用户主观不希望得到的信息;负面字段列表为用户主观认为与欲提取的信息无法共生的词汇或语法;
所述正面字段名/正面字段列表,负面字段名/负面字段列表均为用户配置,与待解析表格中是否存在、相同、相异均无关;
S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;
S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;
所述非重复是指递归过程产生的新表格不存在于已产生的表格序列里;
所述最小表格是指不包含内部或外部嵌套的表格。例如表格B嵌套表格A,表格A不嵌套任何其他表格,那么最小表格为A和C =B-A;
S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的“中标金额”与“招标机构”字段列表,通过投票机制确定该表格属性为横向或者纵向,得到所有表格属性并保存;
上述投票机制是指计算出所有“中标金额”与“招标机构”列表与表格中的行列字段列表的文本相似度,分别得到行列字段列表的总体权重,行字段列表总体权重越大,则为纵向表格,列字段列表总体权重越大,则为横向表格;
上述纵向表格是指整体来看表格的表头为行的表格;上述横向表格是指整体来看表格的表头为列的表格;
S5:将每个最小表格作为处理单位,将标签table作为根节点root;
S6:若该表格为纵向表格,如图2所示,获取root第一个非空子节点的标签rowspan值,此值为表头所占行数,根据表头所占行数,获取所有表头字段propertyStr;
S7:遍历表头节点的所有非空兄弟节点,遍历每一个兄弟节点的非空子节点,并记录每一个兄弟节点子节点的个数,将数值取为最大的子节点个数;
S8:以表头节点的兄弟节点个数与设计对应的二维矩阵,分别读取兄弟节点子节点的字段值,将其存储于二维矩阵,形成表头propertyStr字段与二维矩阵列一一对应;
上述表头通常为“中标总金额”、“招标单位”、“项目预算”或“代理机构”等;
上述一一对应字段值:具体中标金额,如100万元;具体招标机构,如XXX有限公司;具体项目预算,如95万元;具体代理公司,如YYY代理公司等;
S9:若所有子节点的个数与表头字段propertyStr长度相同,则为图3所示的标准表,执行步骤S18、S19与S20;
S10:若子节点的个数与表头字段长度不同,则为图3所示的多表头情况,找出与表头字段propertyStr长度不同的兄弟节点对应的二维矩阵的行,认为其可能是另一个表头。对所有表头以及表头字段对应二维矩阵的字段值执行步骤S18、S19与S20;
S11:若该表格为横向表格,如图2所示。取出root第一个非空子节点,遍历该节点的所有子节点,取出其字段值保存,记为第一类字段;遍历root的所有子节点,取出这些节点的第一个子节点,取出字段值保存,记为第二类字段;获取配置文件中用户给出的字段列表“中标金额”与“招标机构”列表,计算出列表与上述两类字段的文本相似度,分别记为权重和;
下述表头通常为“中标总金额”、“招标单位”、“项目预算”或“代理机构”等;
下述一一对应字段值:具体中标金额,如100万元;具体招标机构,如XXX有限公司;具体项目预算,如95万元;具体代理公司,如YYY代理公司等;
S12:若,取出第一类字段列表序号为奇数所有字段分别与配置文件中用户给出的“中标金额”与“招标机构”字段列表进行文本正则化匹配;若未匹配到,跳至步骤S13;若匹配到,则为图2所示的纵向格式,跳转执行步骤S6-S10;
S13:取出根节点root非空子节点trElement的标签rowspan值;
S14:若rowspan =1,如图3所示,表头为单行;遍历上述节点trElement的所有子节点,取出所有子节点的字段值记为strString,计算strString元素个数size;
S15:若size为偶数,从0开始到size-1遍历strString,偶数序号作为表头,奇数序号作为字段值,执行步骤S18、S19与S20;
S16:若size为奇数,从0开始到size-1遍历strString,0序号作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;
S17:若rowspan >1,如图3所示,表头为多行;取出根节点root下的rowsapan个子节点,将子节点的第一个非空子节点作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;
S18:图4所示为文本匹配与相似度计算流程图;具体步骤如下:遍历每一个表头字段与配置文件中用户给出的“中标金额”或“招标机构”列表进行文本正则化匹配,若未匹配到,继续遍历下一个表头字段;若匹配到,将该表头字段与用户给出的“负面类别”列表进行文本正则化匹配,若匹配到,结束,继续遍历下一个表头字段,若未匹配到,记录被匹配字段所属于“中标金额”还是“招标机构”,形成该表头字段与“中标金额”或“招标机构”一一对应的列表;
S19:找出与匹配到的表头字段一一对应的字段值,数量为n;
S20:通过匹配到的表头字段,形成“中标金额”或“招标机构”与字段值一一对应列表;设计数据结构R包含name和value属性,将R.name属性记为“中标金额”或“招标机构”,将R.value属性记为上述获取的字段值;产生n对数据结构R,保存到数据库;
S21:将数据库中获得的所有数据结构R取出,进行清洗、保存;
上述清洗是指去重、规范化中标金额,例如:元、万元、百万、亿等统一单位;
S22:读入下一个表格,返回S3开始执行,当所有表格读取完毕,查询数据库中是否有对应的用户配置文件,URL以及获得的所有对数据结构R,若没有将其导入入数据库,方便快速查询;
S23:读取下一个URL,返回S2开始执行。
综上所述,本发明提供一种基于配置信息匹配及相似度提取网页信息的方法,通过读取配置文件,利用自然语言处理领域的文本间匹配以及相似度计算方式,抽取目标信息、弃丢无效信息,实现对未知网页表格多层次、细粒度地解析。相比现有技术,本发明方法新颖,解析速度快,平均耗时25ms,信息提取效果好,利于推广应用。
本领域技术人员不脱离本发明的实质和精神,可以有多种变形方案实现本发明,以上所述仅为本发明较佳可行的实施例而已,并非因此局限本发明的权利范围,凡运用本发明说明书及附图内容所作的等效结构变化,均包含于本发明的权利范围之内。
Claims (3)
1.一种基于配置信息匹配及相似度提取网页信息的方法,其特征在于:包括以下步骤:
S1:用户自定义与表格解析过程相关的配置文件;
S2:顺序读取未知网页URL,查询数据库中是否已存在相关配置文件以及网页URL,若存在,直接读取数据;若不存在,存储其网页源码,利用JAVA中的Jsoup包将源码解析为Document对象;
S3:从根节点处深度递归遍历所有含table标签的表格,寻找所有非重复最小表格;
S4:遍历表格的第一行、第一列字段分别保存,获取配置文件中用户给出的字段列表,通过投票机制确定该表格属性为横向或者纵向;得到所有表格属性并保存;
S5:将每个最小表格作为处理单位,将标签table作为根节点root;
S6:若该表格为纵向表格,获取root第一个非空子节点的标签rowspan值,此值为表头所占行数,根据表头所占行数,获取所有表头字段propertyStr;
S7:遍历表头节点的所有非空兄弟节点,遍历每一个兄弟节点的非空子节点,并记录每一个兄弟节点子节点的个数,将数值取为最大的子节点个数;
S8:以表头节点的兄弟节点个数与设计对应的二维矩阵,分别读取兄弟节点子节点的字段,将其存储于二维矩阵,形成表头propertyStr字段与二维矩阵列一一对应;
S9:若所有子节点的个数与表头字段propertyStr长度相同,执行步骤S11;
S10:若子节点的个数与表头字段长度不同,找出与表头字段propertyStr长度不同的兄弟节点对应的二维矩阵的行,认为其可能是另一个表头,对所有表头以及表头字段对应二维矩阵的字段值执行步骤S18、S19与S20;
S11:若该表格为横向表格,取出root第一个非空子节点,遍历该节点的所有子节点,取出其字段值保存,记为第一类字段;遍历root的所有子节点,取出这些节点的第一个子节点,取出字段值保存,记为第二类字段;获取配置文件中用户给出的字段列表,计算出字段列表与上述两类字段的文本相似度,分别记为权重和;
S12:若,取出第一类字段列表序号为奇数所有字段分别与配置文件中用户给出的正面字段名/正面字段列表进行文本正则化匹配;若未匹配到,跳至步骤S13;若匹配到,执行步骤S6-S10;
S13:取出根节点root非空子节点trElement的标签rowspan值;
S14:若rowspan =1,遍历上述节点trElement的所有子节点,取出所有子节点的字段值记为strString,计算strString元素个数size;
S15:若size为偶数,从0开始到size-1遍历strString,偶数序号作为表头,奇数序号作为字段值,执行步骤S18、S19与S20;
S16:若size为奇数,从0开始到size-1遍历strString,0序号作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;
S17:若rowspan >1,取出根节点root下的rowsapan个子节点,将子节点的第一个非空子节点作为表头,后序字段拼接作为总字段值,执行步骤S18、S19与S20;
S18:遍历每一个表头字段与配置文件中用户给出的正面字段名/正面字段列表进行文本正则化匹配,若未匹配到,继续遍历下一个表头字段;若匹配到,将该表头字段与用户给出的负面字段名/负面字段列表进行文本正则化匹配,若匹配到,结束,继续遍历下一个表头字段,若未匹配到,记录被匹配字段列表所属的正面字段名,形成匹配到的表头字段与正面字段名一一对应的列表;
S19:找出与匹配到的表头字段对应的字段值,数量为n;
S20:设计数据结构R包含name和value属性,将R.name属性记为被匹配到的正面字段名,将R.value属性记为上述获取的字段值;产生n对数据结构R,保存到数据库;
S21:将数据库中获得的所有数据结构R取出,进行清洗、保存;
S22:读入下一个表格,返回步骤S3开始执行,当所有表格读取完毕,查询数据库中是否有对应的用户配置文件,URL以及获得的所有对数据结构R,若没有将其导入入数据库,方便快速查询;
S23:读取下一个URL,返回步骤S2开始执行。
2.根据权利要求1所述的一种基于配置信息匹配及相似度提取网页信息的方法,其特征在于:根据步骤S1,
所述用户配置文件为properties类型或其他JAVA系统可以读取的文件;所述配置文件一般有两种内容:正面字段名/正面字段列表,负面字段名/负面字段列表;
所述正面字段名为用户主观意愿得到的信息;正面字段列表为用户主观认为与欲提取的信息接近的词汇或语法;
所述负面字段名为用户主观不希望得到的信息;负面字段列表为用户主观认为与欲提取的信息无法共生的词汇或语法;
所述正面字段名/正面字段列表,负面字段名/负面字段列表均为用户配置,与待解析表格中是否存在、相同、相异均无关。
3.根据权利要求1所述的一种基于配置信息匹配及相似度提取网页信息的方法,其特征在于:根据步骤S4,所述纵向表格是指整体来看表格的表头为行的表格;所述横向表格是指整体来看表格的表头为列的表格。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711346436.6A CN108052619A (zh) | 2017-12-15 | 2017-12-15 | 一种基于配置信息匹配及相似度提取网页信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711346436.6A CN108052619A (zh) | 2017-12-15 | 2017-12-15 | 一种基于配置信息匹配及相似度提取网页信息的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108052619A true CN108052619A (zh) | 2018-05-18 |
Family
ID=62133070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711346436.6A Withdrawn CN108052619A (zh) | 2017-12-15 | 2017-12-15 | 一种基于配置信息匹配及相似度提取网页信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108052619A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827934A (zh) * | 2019-08-19 | 2020-02-21 | 医渡云(北京)技术有限公司 | 一种crf的监查方法及装置 |
CN111813963A (zh) * | 2020-09-10 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
CN111859895A (zh) * | 2020-07-28 | 2020-10-30 | 浙江明度智控科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN112632226A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的语义搜索方法、装置和电子设备 |
CN112712415A (zh) * | 2021-01-19 | 2021-04-27 | 青岛檬豆网络科技有限公司 | 一种基于电子元器件采购bom核价的表格预处理方法 |
CN113486228A (zh) * | 2021-07-02 | 2021-10-08 | 燕山大学 | 基于md5三叉树和改进birch算法的互联网论文数据自动抽取算法 |
US11663193B2 (en) | 2020-12-17 | 2023-05-30 | International Business Machines Corporation | Identifying incorrect links |
-
2017
- 2017-12-15 CN CN201711346436.6A patent/CN108052619A/zh not_active Withdrawn
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827934A (zh) * | 2019-08-19 | 2020-02-21 | 医渡云(北京)技术有限公司 | 一种crf的监查方法及装置 |
CN110827934B (zh) * | 2019-08-19 | 2023-03-28 | 医渡云(北京)技术有限公司 | 一种crf的监查方法及装置 |
CN111859895A (zh) * | 2020-07-28 | 2020-10-30 | 浙江明度智控科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN111859895B (zh) * | 2020-07-28 | 2023-11-03 | 明度智云(浙江)科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN111813963A (zh) * | 2020-09-10 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 知识图谱构建方法、装置、电子设备及存储介质 |
US11663193B2 (en) | 2020-12-17 | 2023-05-30 | International Business Machines Corporation | Identifying incorrect links |
CN112632226A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的语义搜索方法、装置和电子设备 |
CN112632226B (zh) * | 2020-12-29 | 2021-10-26 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的语义搜索方法、装置和电子设备 |
CN112712415A (zh) * | 2021-01-19 | 2021-04-27 | 青岛檬豆网络科技有限公司 | 一种基于电子元器件采购bom核价的表格预处理方法 |
CN112712415B (zh) * | 2021-01-19 | 2023-01-10 | 青岛檬豆网络科技有限公司 | 一种基于电子元器件采购bom核价的表格预处理方法 |
CN113486228A (zh) * | 2021-07-02 | 2021-10-08 | 燕山大学 | 基于md5三叉树和改进birch算法的互联网论文数据自动抽取算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052619A (zh) | 一种基于配置信息匹配及相似度提取网页信息的方法 | |
US20200210396A1 (en) | Image and Text Data Hierarchical Classifiers | |
CN106708966B (zh) | 基于相似度计算的垃圾评论检测方法 | |
CN102279851B (zh) | 一种智能导航方法、装置和系统 | |
CN106250412B (zh) | 基于多源实体融合的知识图谱构建方法 | |
CN101430695B (zh) | 用于计算单词之间的差相关度的系统和方法 | |
CN102479191B (zh) | 提供多粒度分词结果的方法及其装置 | |
CN105550369B (zh) | 一种搜索目标商品集的方法及装置 | |
CN110175325A (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN104778258B (zh) | 一种面向协议数据流的数据抽取方法 | |
CN101576891A (zh) | 一种解析网页表格对象节点的方法 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN103123650A (zh) | 一种基于整数映射的xml数据库全文索引方法 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN103559234A (zh) | RESTful Web服务的自动化语义标注系统和方法 | |
CN103646029A (zh) | 一种针对博文的相似度计算方法 | |
CN107608980A (zh) | 基于dpi大数据分析的信息推送方法和系统 | |
CN107861944A (zh) | 一种基于Word2Vec的文本标签提取方法及装置 | |
CN111353838A (zh) | 自动化校验商品类目的方法和装置 | |
CN112199478A (zh) | 自动问答方法、装置、电子设备及计算机可读存储介质 | |
CN110119478A (zh) | 一种结合多种用户反馈数据的基于相似度的物品推荐方法 | |
CN106250402A (zh) | 一种网站分类方法及装置 | |
CN106599280A (zh) | 确定网页节点路径信息的方法及装置 | |
CN105808729B (zh) | 基于论文间引用关系的学术大数据分析方法 | |
CN106776640A (zh) | 一种股票资讯信息展示方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180518 |
|
WW01 | Invention patent application withdrawn after publication |