CN113128210A - 一种基于同义词发现的网页表格信息解析方法 - Google Patents
一种基于同义词发现的网页表格信息解析方法 Download PDFInfo
- Publication number
- CN113128210A CN113128210A CN202110251907.5A CN202110251907A CN113128210A CN 113128210 A CN113128210 A CN 113128210A CN 202110251907 A CN202110251907 A CN 202110251907A CN 113128210 A CN113128210 A CN 113128210A
- Authority
- CN
- China
- Prior art keywords
- word
- webpage
- data
- synonym
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开的一种基于同义词发现的网页表格信息解析方法,包括以下步骤:步骤1,网页原始数据预处理,得到预训练文本;步骤2,先分词预处理,随后进行关键词筛选,再次进行分词,生成基本知识库;步骤3,将基本知识库利用词向量技术,获得同义词词典;步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;步骤5,通过同义词词典对二维列表里的数据进行定位,完成解析过程。本发明网页表格信息解析方法,可实现对于用户所需数据的准确提取,由于进行了同义词发现过程,进一步增加了信息提取的准确性。
Description
技术领域
本发明属于数据处理方法技术领域,具体涉及一种基于同义词发现的网页表格信息解析方法。
背景技术
随着计算机的诞生和普及,人与计算机的交互已经融入了日常生活中,人类已经步入信息时代。如今,计算机己然成为人们娱乐、生活、工作的重要工具,并帮助人们大幅度提高工作效率、完成人类自身不能完成的计算量等巨大任务。同时,互联网信息量随着网络的加速、网络节点的增加以及硬件性能的提高迎来指数爆发式增长,人工处理这些海量数据是一个不可能完成的任务,要从海量数据中筛选出有用信息,须依靠计算能力强大的计算机。
随着信息化的快速发展,网页数据无论是数量还是传播速度都呈现几何级的增长,网页数据处理技术的运用也越来越广泛,不管是日常生活还是工业生产,网页数据处理变得越来越重要。网页数据处理是用计算机对网页进行解析,以达到提取信息、整合信息的技术。现代社会网页数据中表格无处不在,对于网页中表格文本信息进行查找、搜索成了常态,但对于上百万网页的表格信息,人工查找起来过于繁琐,而且容易出现遗漏、出错,造成了不可预估的损失,现有的文本处理网页信息系统自动化程度低,且通用性不高,无法满足网页数据信息多样性和复杂性的要求,如何快速而且准确的将网页结构中所需的关键信息定位并且提取出来成了多个领域的热点问题。
针对网页文本信息的非结构化特征和无序性,一般只能采用全文检索的方式查找。但是网页中充斥着大量的无关信息,比如广告和无关链接以及其他内容,有用信息和无用信息混杂在一起,给网页信息的检索问题带来极大的困难。
发明内容
本发明的目的是提供一种基于同义词发现的网页表格信息解析方法,解决了现有网页文本信息检索效率低下的问题。
本发明所采用的技术方案是,一种基于同义词发现的网页表格信息解析方法,包括以下步骤:
步骤1,网页原始数据预处理,即去掉原始数据中无用代码符号和代码,得到预训练文本;
步骤2,对步骤1中的预训练文本进行分词预处理,随后进行关键词筛选,筛选结束后得到关键词词典;将关键词词典再次进行分词,生成词向量的基本知识库;
步骤3,将步骤2得到的基本知识库利用词向量技术,得到目标词的相近词出现的概率,获得同义词词典;
步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;
步骤5,通过步骤3的同义词词典对步骤4中的二维列表里的数据进行定位,然后根据特征信息的特点,进行信息提取和整合,完成解析过程。
本发明的特征还在于,
步骤1中的预训练文本为格式为.Json或.txt的文本信息。
步骤2的具体步骤为:
步骤2.1,构造停用词库,采用分词法对步骤1中的预训练文本进行分词预处理;
步骤2.2,将步骤2.1分词预处理得到的分词文本结果逐行读取文本,遍历词条,组合当前词条和下一词条,出现如下三种情况:
若两词条皆不为停用词,则将其组合一起作为新词条存入新的组合词库中;若当前词条为停用词,则忽略当前词条;若下一词条为停用词,则忽略下一词条,进行重组;
步骤2.3,对经步骤2.2处理得到的文本数据结果进行关键词筛选分类,把相似的词条筛选出来,得到关键词词典,作为二次分词的自定义词库;
步骤2.4,对于步骤2.3得到的自定义词库重新分词,即再次执行步骤2.1-2.3,得到生成词向量的基本知识库。
步骤2.1具体为:
步骤2.1.1,构造前缀词典,将词条作为键,词频作为对应的键值,遍历前缀词典,若前缀对应的键不存在,则将该前缀设为词典新的键,并将对应键值设置为0;
步骤2.1.2,使用正则表达式切割步骤1的预训练文本,预训练文本中每一个单独的子句均可生成一个有向无环图DAG,使用概率最大路径分词;
步骤2.1.3,对未登录词则采用隐马尔可夫模型HMM的联合概率建模;随后通过Viterbi算法求出概率最大的状态序列,然后基于状态序列输出文本的构词位置,进行分词。
步骤3具体为:
步骤3.1,根据基本知识库建立词汇表,词汇表中任一单词拥有一个随机的词向量;将单词wi的上下文C(wi)={wj|j∈|(i-R,i)∩(i+1,i+R)},即就是上文为中心词的前R个词、下文为中心词的后R个词,把2R-1个上下文词向量的平均值输入CBOW,参数wi表示wi前面的前R个词和后R个词;由隐含层累加,在第三层的哈夫曼树中沿着某个特定的路径到达某个叶节点,得到对单词wi的预测;
步骤3.2,根据单词wi的哈夫曼编码确定从根节点到叶节点的正确路径,同时也确定了路径上所有分类器作出的预测;
步骤3.3,采用梯度下降法调整分类器中输入的词向量,使得实际路径向正确路径靠拢;在训练结束后,从词汇表中得到每个单词对应的词向量,获得词向量模型;
步骤3.4,保存步骤3.3的词向量模型,调用most_similar方法得到关键词的同义词,获得同义词词典。
步骤4具体为:
步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里。
步骤4.1,使用Beautifulsuop模块对待处理网页结构解析,利用网页中的表格标签定位到表格相应位置,查找到网页中成对的最小表格标签;
步骤4.2,计算表格中tr、td的数量,从而给出二维列表的行数,然后自定义给出列数,通过步骤4.1中解析网页标签的方式填入表格信息。
本发明的有益效果是:本发明一种基于同义词发现的网页表格信息解析方法,主要分为数据获取,数据处理和数据使用三大部分,可实现对于用户所需数据的准确提取,由于把网页中的表格数据首先进行了转存,因此不会受限于网页代码的限制,也不用受制于网络中表格形式的多样性等优点,由于进行了同义词发现过程,进一步增加了信息提取的准确性。
附图说明
图1是本发明一种基于同义词发现的网页表格信息解析方法的流程图;
图2是本发明一种基于同义词发现的网页表格信息解析方法中分词的流程图;
图3是本发明一种基于同义词发现的网页表格信息解析方法中CBOW训练词向量模型图;
图4是本发明一种基于同义词发现的网页表格信息解析方法中表格信息处理的系统架构图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于同义词发现的网页表格信息解析方法,如图1所示,包括以下步骤:
步骤1,进行网页原始数据预处理,去掉原始数据中无用代码符号和代码,得到格式为.Json或.txt的文本信息作为预训练文本。
步骤2,对步骤1中的预训练文本进行分词预处理,随后进行关键词筛选,筛选结束后得到关键词词典;将关键词词典再次进行分词,生成词向量的基本知识库。
步骤2.1,构造停用词库,采用分词法对步骤1中的预训练文本进行分词预处理。
如图2所示,步骤2.1.1,根据统计词典构造前缀词典,将词条作为键,词频作为对应的键值,遍历前缀词典,若前缀对应的键不存在,则将该前缀设为词典新的键,并将对应键值设置为0;
步骤2.1.2,使用正则表达式切割步骤1的预训练文本,预训练文本中每一个单独的子句均可生成一个有向无环图DAG,有向无环图DAG的起点到终点有若干路径,使用概率最大路径进行分词;
步骤2.1.3,对未登录词则采用隐马尔可夫模型HMM的联合概率建模,如公式(1)所示:
公式(1)中,参数x为观察变量序列,参数y为隐状态变量序列,参数start为开始时刻的标签,参数end为结束标签,参数L为某个时刻参数p(yl+1|yl)为从状态yl转移到yl+1的概率,参数p(xl|yl)为从状态yl生成字xl的概率;
在构造联合概率时,每个词在构造特定词语时都占据着确定构造位置,设定每个字最多只有四个构词位置:即词首B、词中M、词尾E和单独成词S,用数学语言表达如公式(2):
将经联合概率建模处理后的文本传入后,通过Viterbi算法求出概率最大的状态序列,然后基于状态序列输出文本的构词位置,进行分词。
步骤2.2,将步骤2.1得到的分词文本结果进行逐行读取文本,遍历词条,组合当前词条和下一词条,出现如下三种情况:
若两词条皆不为停用词,则将其组合一起作为新词条存入新的组合词库中;
若当前词条为停用词,则忽略当前词条;
若下一词条为停用词,则忽略下一词条,进行重组。
步骤2.3,对步骤2.2得到的文本数据结果进行关键词筛选分类,把相似的词条筛选出来,得到关键词词典,作为二次分词的自定义词库;
步骤2.4,对于自定义词库重新分词,即再次执行步骤2.1-2.3,即得到生成词向量的基本知识库。
步骤3,将步骤2的基本知识库利用词向量技术,得到目标词的相近词出现的概率,获得同义词词典。
步骤3.1,根据步骤2处理后的基本知识库建立词汇表,词汇表中任一单词拥有一个随机的词向量。
将单词wi的上下文C(wi)={wj|j∈|(i-R,i)∩(i+1,i+R)},即就是上文为中心词的前R个词、下文为中心词的后R个词,把2R-1个上下文词向量的平均值输入CBOW,参数wi表示wi前面的前R个词和后R个词。如图3所示,由隐含层累加,在第三层的哈夫曼树中沿着某个特定的路径到达某个叶节点,得到对单词wi的预测;
步骤3.2,根据单词wi的哈夫曼编码确定从根节点到叶节点的正确路径,同时也确定了路径上所有分类器作出的预测;
步骤3.3,采用梯度下降法调整分类器中输入的词向量,使得实际路径向正确路径靠拢;在训练结束后,从词汇表中得到每个单词对应的词向量,获得词向量模型;
步骤3.4,保存步骤3.3的词向量模型,调用most_similar方法得到关键词的同义词,获得同义词词典。
步骤4,如图4所示,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里。
步骤4.1,使用Beautifulsuop模块对待处理网页结构解析,利用网页中的表格标签定位到表格相应位置,查找到网页中成对的最小表格标签;
步骤4.2,计算表格中tr、td的数量,从而给出二维列表的行数,然后自定义给出列数,通过步骤4.1中解析网页标签的方式填入表格信息。
步骤5,通过步骤3的同义词词典对步骤4中的二维列表里的数据进行定位,然后根据特征信息的特点,进行信息提取和整合,从而完成解析过程。
实施例
目标:使用本发明方法,在网页数据中,提取关键词中标金额对应的金额信息。
具体应用过程如下:
首先提取json数据中的网页文本数据,制成预处理之前的数据集;
然后对数据集中文本数据进行第一次分词预处理,得到分开的中标和金额两个词条,在此基础上进行词语的组合,基于停用词典结合、同时结合当前词条和下一词条,则有以下三种情况:若两词条皆不为停用词,则将其组合在一起作为新词条存入新的组合词库中,若当前词条为停用词,则忽略当前词条;若下一词条为停用词,则忽略下一词条,进行重组;
在第一次分词完成后,中标金额已成为一个词条,接着进行关键词筛选和聚类方法的应用,以得到中标金额相关的词典,将此词典作为自定义词典,加入分词工具中,即可得到自动分出来的中标金额等相关词语;
最后利用word2vec中的CBOW模型共现中标金额的相似词,接着以此结果做为关键词同义词词典,在保存网页数据的二维列表里进行关键词的定位和匹配,最后根据表格存储的特点,得到中标金额所对应的金额信息,如果是在表格外的文本信息里,则可以直接定位提取。
Claims (6)
1.一种基于同义词发现的网页表格信息解析方法,其特征在于,包括以下步骤:
步骤1,网页原始数据预处理,即去掉原始数据中无用代码符号和代码,得到预训练文本;
步骤2,对步骤1中的预训练文本进行分词预处理,随后进行关键词筛选,筛选结束后得到关键词词典;将关键词词典再次进行分词,生成词向量的基本知识库;
步骤3,将步骤2得到的基本知识库利用词向量技术,得到目标词的相近词出现的概率,获得同义词词典;
步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里;
步骤5,通过步骤3的同义词词典对步骤4中的二维列表里的数据进行定位,然后根据特征信息的特点,进行信息提取和整合,完成解析过程。
2.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤1中的预训练文本为格式为.Json或.txt的文本信息。
3.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1,构造停用词库,采用分词法对步骤1中的预训练文本进行分词预处理;
步骤2.2,将步骤2.1分词预处理得到的分词文本结果逐行读取文本,遍历词条,组合当前词条和下一词条,出现如下三种情况:
若两词条皆不为停用词,则将其组合一起作为新词条存入新的组合词库中;若当前词条为停用词,则忽略当前词条;若下一词条为停用词,则忽略下一词条,进行重组;
步骤2.3,对经步骤2.2处理得到的文本数据结果进行关键词筛选分类,把相似的词条筛选出来,得到关键词词典,作为二次分词的自定义词库;
步骤2.4,对于步骤2.3得到的自定义词库重新分词,即再次执行步骤2.1-2.3,得到生成词向量的基本知识库。
4.根据权利要求3所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤2.1具体为:
步骤2.1.1,构造前缀词典,将词条作为键,词频作为对应的键值,遍历前缀词典,若前缀对应的键不存在,则将该前缀设为词典新的键,并将对应键值设置为0;
步骤2.1.2,使用正则表达式切割步骤1的预训练文本,预训练文本中每一个单独的子句均可生成一个有向无环图DAG,使用概率最大路径分词;
步骤2.1.3,对未登录词则采用隐马尔可夫模型HMM的联合概率建模;随后通过Viterbi算法求出概率最大的状态序列,然后基于状态序列输出文本的构词位置,进行分词。
5.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤3具体为:
步骤3.1,根据基本知识库建立词汇表,词汇表中任一单词拥有一个随机的词向量;将单词wi的上下文C(wi)={wj|j∈|(i-R,i)∩(i+1,i+R)},即就是上文为中心词的前R个词、下文为中心词的后R个词,把2R-1个上下文词向量的平均值输入CBOW,参数wi表示wi前面的前R个词和后R个词;由隐含层累加,在第三层的哈夫曼树中沿着某个特定的路径到达某个叶节点,得到对单词wi的预测;
步骤3.2,根据单词wi的哈夫曼编码确定从根节点到叶节点的正确路径,同时也确定了路径上所有分类器作出的预测;
步骤3.3,采用梯度下降法调整分类器中输入的词向量,使得实际路径向正确路径靠拢;在训练结束后,从词汇表中得到每个单词对应的词向量,获得词向量模型;
步骤3.4,保存步骤3.3的词向量模型,调用most_similar方法得到关键词的同义词,获得同义词词典。
6.根据权利要求1所述的一种基于同义词发现的网页表格信息解析方法,其特征在于,所述步骤4具体为:
步骤4,解析待处理网页中的数据,根据网页表格标签代码样式,把网页中的表格数据转存到一个预先设置的二维数组列表里。
步骤4.1,使用Beautifulsuop模块对待处理网页结构解析,利用网页中的表格标签定位到表格相应位置,查找到网页中成对的最小表格标签;
步骤4.2,计算表格中tr、td的数量,从而给出二维列表的行数,然后自定义给出列数,通过步骤4.1中解析网页标签的方式填入表格信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251907.5A CN113128210B (zh) | 2021-03-08 | 2021-03-08 | 一种基于同义词发现的网页表格信息解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251907.5A CN113128210B (zh) | 2021-03-08 | 2021-03-08 | 一种基于同义词发现的网页表格信息解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128210A true CN113128210A (zh) | 2021-07-16 |
CN113128210B CN113128210B (zh) | 2024-06-18 |
Family
ID=76772834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110251907.5A Active CN113128210B (zh) | 2021-03-08 | 2021-03-08 | 一种基于同义词发现的网页表格信息解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128210B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9720896B1 (en) * | 2013-12-30 | 2017-08-01 | Google Inc. | Synthesizing union tables from the web |
CN109002432A (zh) * | 2017-06-07 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN110569503A (zh) * | 2019-08-28 | 2019-12-13 | 广西师范大学 | 一种基于词统计与WordNet的义项表示与消歧方法 |
CN111489030A (zh) * | 2020-04-09 | 2020-08-04 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
-
2021
- 2021-03-08 CN CN202110251907.5A patent/CN113128210B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9720896B1 (en) * | 2013-12-30 | 2017-08-01 | Google Inc. | Synthesizing union tables from the web |
CN109002432A (zh) * | 2017-06-07 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN110569503A (zh) * | 2019-08-28 | 2019-12-13 | 广西师范大学 | 一种基于词统计与WordNet的义项表示与消歧方法 |
CN111489030A (zh) * | 2020-04-09 | 2020-08-04 | 河北利至人力资源服务有限公司 | 一种基于文本分词的离职预测方法及系统 |
Non-Patent Citations (2)
Title |
---|
SUN, P: ""The Keyword Extraction of Chinese Medical Web Page Based on WF-TF-IDF Algorithm"", 《 2017 INTERNATIONAL CONFERENCE ON CYBER-ENABLED DISTRIBUTED COMPUTING AND KNOWLEDGE DISCOVERY 》, 31 December 2017 (2017-12-31) * |
王志华;魏斌;李占波;赵伟;: "基于本体的Web信息抽取系统", 计算机工程与设计, no. 07, 16 July 2012 (2012-07-16) * |
Also Published As
Publication number | Publication date |
---|---|
CN113128210B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN111143479B (zh) | 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN109101479B (zh) | 一种用于中文语句的聚类方法及装置 | |
CN110442777B (zh) | 基于bert的伪相关反馈模型信息检索方法及系统 | |
CN111177591B (zh) | 面向可视化需求的基于知识图谱的Web数据优化方法 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN111190900B (zh) | 一种云计算模式下json数据可视化优化方法 | |
CN104408173A (zh) | 一种基于b2b平台的核心关键词自动提取方法 | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN110083696A (zh) | 基于元结构技术的全局引文推荐方法、推荐系统 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN111767325A (zh) | 基于深度学习的多源数据深度融合方法 | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN113377953A (zh) | 一种基于palc-dca模型的实体融合及分类方法 | |
CN105677684A (zh) | 一种基于外部数据源对用户生成内容进行语义标注的方法 | |
CN113111136B (zh) | 一种基于ucl知识空间的实体消歧方法及装置 | |
CN113128210B (zh) | 一种基于同义词发现的网页表格信息解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |