CN106649264A - 一种基于篇章信息的中文水果品种信息抽取方法及装置 - Google Patents

一种基于篇章信息的中文水果品种信息抽取方法及装置 Download PDF

Info

Publication number
CN106649264A
CN106649264A CN201611043050.3A CN201611043050A CN106649264A CN 106649264 A CN106649264 A CN 106649264A CN 201611043050 A CN201611043050 A CN 201611043050A CN 106649264 A CN106649264 A CN 106649264A
Authority
CN
China
Prior art keywords
fruit
language material
information
corpus
fruit variety
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611043050.3A
Other languages
English (en)
Other versions
CN106649264B (zh
Inventor
陈瑛
程碧霄
程曦瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN201611043050.3A priority Critical patent/CN106649264B/zh
Publication of CN106649264A publication Critical patent/CN106649264A/zh
Application granted granted Critical
Publication of CN106649264B publication Critical patent/CN106649264B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提供一种基于篇章信息的中文水果品种信息抽取方法及装置。通过获取语料,在搜索引擎网站爬取下载与水果相关的页面;对所述与水果相关的页面进行语料标注;对所述与水果相关的页面进行词项对提取,将词项对分为训练语料和测试语料;对所述语料进行基于篇章结构的远距离特征提取;利用训练语料特征训练得到基于深度学习的组合分类器;利用组合分类器从测试语料中抽取水果品种信息;将与水果相关的页面随机分为N组,重复执行,获得评估结果。改进目前的信息抽取技术,使其更加适应于农业领域,提高了水果品种名称识别与抽取的准确率。

Description

一种基于篇章信息的中文水果品种信息抽取方法及装置
技术领域
本发明涉及自然语言处理领域,更具体地,涉及基于篇章信息的中文水果品种信息抽取方法及装置。
背景技术
随着中国农产品电商的发展,农产品知识库的构建和完善对于农产品的管理极为重要。我国水果产业经过80年代中期至90年代中后期的快速发展,成为种植业中仅次于粮食和蔬菜的第三大产业,在农业及国民经济中占有非常重要的地位。相比粮食和蔬菜,水果物种更多,种植区域性更强,国家标准管理更松散,因此水果知识库的构建和完善更有难度。
我国农作物种质资源研究工作取得了显著成绩,建立了国家农作物种质资源数据库、中国作物种质信息网等种质资源库。虽然种质资源数据库含有水果品种名称信息,但是这些水果品种名称信息过于学术化,不符合面向销售的水果农产品管理的需要,因此需要构建通俗性的水果知识库。
要达到以上目的,要进行信息抽取,信息抽取又包括:专有名词识别和关系识别。目前的英文专有名词识别技术已经达到了较高的水平,有些系统已经实用化。其中,词项提取主要是利用效果较好的英文词法分析结果进行提取;词项分类可以视为一种特殊的is-a关系识别,主要采用关系识别技术。而中文专有名词识别比英文难度更大,其原因是词项提取需要依赖中文分词。由于领域(包括农业)词汇大多是词库外词(Out-Of-Vocabulary,OOV词),而OOV词的识别一直是中文分词的研究难点,因此面向农业领域的中文词项提取效果不佳。因此,中文专有名词的识别尚需进一步的研究。
当前大多数关系识别研究只是关注句子内的关系实例(即判断句子内出现的两个实体是否存在特定关系),其特征提取往往是针对句子内的文本进行。而在网络百科的词条描述中,水果品种关系实例经常是跨句乃至跨段的。这种远距离的关系识别意味着其特征提取往往针对更大范围的文本进行,更容易产生带噪音的特征信息。
发明内容
本发明要解决的技术问题是改进现有的信息抽取技术,使其能够更好的应用于农业领域,能够从网络中自动识别出水果品种的相关信息,构建通俗性的水果知识库,解决现有的种质资源库中的水果品种名称信息过于学术化,不符合面向销售的水果农产品管理需要的问题。
一方面,本发明提出一种基于篇章信息的中文水果品种信息抽取方法,所述方法包括:
步骤S1,获取语料;
步骤S2,标注语料;
步骤S3,对与水果相关的页面进行词项对提取,将词项对分为训练语料和测试语料;对所述语料进行基于篇章结构的远距离特征提取;
步骤S4,利用训练语料特征训练得到基于深度学习的组合分类器,利用组合分类器从测试语料中抽取水果品种信息;
步骤S5,将与水果相关的页面随机分为N组,重复执行步骤S1至S4N次,获得评估结果。
进一步地,所述步骤S1,具体包括:
获取语料,在百度网站中查询水果相关网页,利用网络爬虫爬取下载与水果相关的百度百科页面。
进一步地,所述步骤S2,具体包括:
对于所述与水果相关的页面,人工标注出每个水果品种名称、所属的水果大类名称的关系,将每个标注信息记录为三元组:水果大类名称、水果品种名称、is-a关系;
进一步地,所述步骤S3中词项对提取,具体包括:
对所述与水果相关的页面进行基于语言结构的词项对<上位词、下位词>提取;
词项对提取结果随机被分为训练语料和测试语料;
对于所述训练语料,若其包含标注的水果品种名称,则语料为正样本,否则,语料为负样本。
进一步地,所述步骤S3中对所述语料进行基于篇章结构的远距离特征提取,具体包括:
对词项对提取得到的语料,
若上位词与下位词在同一标题下,且在同一段落中,则选择其父节点所在句以及其子节点所在句作为特征信息;
若上位词与下位词在同一标题下,但不在同一段落中,则选择其父节点所在句、其子节点所在句、父子节点中间的所有段落的首句和尾句作为特征信息;
若上位词与下位词不在同一标题下,则选择其父节点所在句、其子节点所在句、父子节点中间的所有标题作为特征信息。
进一步地,所述步骤S4中利用训练语料特征训练得到基于深度学习的组合分类器,具体包括:
负样本语料数量为正样本语料的N倍;
将所述负样本语料分为N组,每组负样本语料同正样本语料为一个训练子集,得到N个训练子集;
对于每个训练子集通过支持向量机SVM深度分类算法进行学习,得到N个基分类器;
将所述N个基分类器通过集成学习方法得到组合分类器。
进一步地,所述步骤S4中利用组合分类器从测试语料中抽取水果品种信息,具体包括:
对训练语料中的每个测试实例,一个基分类器分类得到一个标签,N个基分类器得到N个分类标签,按照多数投票制进行投票,投票结果作为该测试实例的最终分类标签,最终分类标签为1的测试实例为is-a关系,最终分类标签为0的测试实例为非is-a关系,若票数1:1则标签为0。
另一方面,本发明提出一种基于篇章信息的中文水果品种信息抽取装置,所述装置包括:
获取单元,用于获取语料,在搜索引擎网站爬取下载与水果相关的页面;
标注单元,用于对所述与水果相关的页面进行语料标注;
特征提取单元,用于对所述与水果相关的页面进行词项对提取,将词项对分为训练语料和测试语料;对所述语料进行基于篇章结构的远距离特征提取;
训练单元,用于利用训练语料特征训练得到基于深度学习的组合分类器;
测试单元,用于利用组合分类器从测试语料中抽取水果品种信息;
评估单元,用于将与水果相关的页面随机分为N组,重复执行如权利要求1所述的步骤S1至S4N次,获得评估结果。
进一步地,所述特征提取单元包括:
特征提取子单元,用于:
对所述词项对提取得到的语料,
若上位词与下位词在同一标题下,且在同一段落中,则选择其父节点所在句以及其子节点所在句作为特征信息;
若上位词与下位词在同一标题下,但不在同一段落中,则选择其父节点所在句、其子节点所在句、父子节点中间的所有段落的首句和尾句作为特征信息;
若上位词与下位词不在同一标题下,则选择其父节点所在句、其子节点所在句、父子节点中间的所有标题作为特征信息。
进一步地,所述训练单元包括:
训练子单元,用于:
设置负样本语料数量为正样本语料的N倍;
将所述负样本语料分为N组,每组负样本语料同正样本语料为一个训练子集,得到N个训练子集;
对于每个训练子集通过支持向量机SVM深度分类算法进行学习,得到N个基分类器;
将所述N个基分类器通过集成学习方法得到组合分类器。
本发明与现有技术相比,具有的优点为:能够判断词项对之间的关系是否为is-a关系,并且改进目前的信息抽取技术,使其更加适应于农业领域,提高了水果品种名称识别与抽取的准确率。
附图说明
图1为本发明基于篇章信息的中文水果品种信息抽取方法原理示意图;
图2为本发明基于篇章信息的中文水果品种信息抽取方法中训练测试阶段示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明基于篇章信息的中文水果品种信息抽取方法原理示意图。所述方法包括:
步骤1,获取语料,在百度网站中爬取下载与水果相关的百度百科页面,具体包括:
在百度网站中查询水果相关网页,利用网络爬虫爬取下载与水果相关的百度百科页面;
步骤2,对所述与水果相关的百度百科页面进行人工语料标注,具体包括:
对于所述每个与水果相关的百度百科页面,人工标注出每个水果品种名称与其所属的水果大类名称(给定的28种水果大类名称)的关系,每个标注信息记录为三元组:(水果大类名称,水果品种名称,is-a关系),共标注213篇水果相关百度百科词条页面,其中100篇词条网页有水果品种信息;
可选地,对所述与水果相关的百度百科页面进行语料标注采用工具标注的方式。
步骤3,对所述百度百科页面进行词项对提取,将所述词项对分为训练语料和测试语料,具体包括:
对所述每个与水果相关的百度百科页面进行基于语言结构的词项对<上位词、下位词>提取;
所述词项对提取结果随机被分为训练语料和测试语料;
其中,对于所述训练语料,若其包含人工标注的得到的水果品种名称,则这个语料为正样本,共520个,否则,这个语料为负样本,共2357个;
步骤4,对所述语料进行基于篇章结构的远距离特征提取,具体包括:
对所述词项对提取得到的语料,
若上位词与下位词在同一标题下,且在同一段落中,则这组实例选择其父节点所在句以及其子节点所在句作为特征信息;
若上位词与下位词在同一标题下,但不在同一段落中,则这组实例选择其父节点所在句、其子节点所在句、父子节点中间的所有段落的首句和尾句作为特征信息;
若上位词与下位词不在同一标题下,则这组实例选择其父节点所在句、其子节点所在句、父子节点中间的所有标题作为特征信息。
对所述语料进行普适化特征提取,具体步骤为:
利用所述训练语料中的人工标注语料,构建一个水果品种库;
将该组训练语料特征中已在库内的水果品种名称替换为“品种”两个字;
步骤5,利用所述训练语料特征训练一个基于深度学习的组合分类器,具体包括:
负样本总数约是正样本总数的N(比如等于6)倍,在训练阶段,负样本随机被分成N组;
每组的负样本和正样本组合成一个训练语料子集,每个训练语料子集中的样本分布均衡,得到N个训练子集;
利用所述的一个训练语料子集通过SVM模型利用深度学习方法生成一个基分类器,进行N次后N个训练子集得到N个基分类器,将所述N个基分类器进行组合即得到组合分类器;
步骤6,利用所述基于深度学习的组合分类器从所述测试语料中抽取水果品种信息,具体包括:
利用所述N个基分类器对测试语料进行分类得到N个分类结果;
按照多数投票制(若票数1:1则标签设为“0”)对所述N个分类结果进行投票,投票结果作为该测试文档的最终分类结果:如果是“1”,所述测试文档是一个“is-a”关系;如果是“0”,所述测试文档是一个非“is-a”关系。
图2为本发明基于篇章信息的中文水果品种信息抽取方法中训练测试阶段示意图。图中,分为训练阶段和测试阶段两个阶段。这两个阶段的具体过程如上述步骤S5、S6所述。
步骤7,将所述与水果相关的百度百科页面随机分为N组,进行N次实验,最终综合评价,作为实验最终评估结果,具体包括:
因为由于实验语料规模较小,为消除测试集数据的特殊性,故将所述得到的与水果相关的百度百科页面随机分为N(比如等于6)组,重复以上所述过程,进行N次实验,最终综合评价,得到实验最终评估结果。
为了检测本发明公开的基于篇章信息的中文水果品种信息抽取方法的有效性,本专利对不同的三种特征提取方法:Basic features、Topic-structure-based features、Document-level features分别进行实验,并进行实验结果比较,如表1所示。Precision ofpositive label、Recall of positive label、F1of positive label分别代表正样本的查准率、查全率和F值,Precision of negative label、Recall of negative label、F1ofnegative label分别代表负样本的查准率、查全率和F值,Average F1综合F中综合考虑两类字词识别效果,由F1和F0取平均得到,Accuracy代表正确率。
表1
由表1中第二列和第三列比较可知,Topic-structure-based features特征提取方法在正样本的各项评价指标上都明显提高,其中Recall of positive label提高86.5%,F1of positive label值提高53.0%,整体来看,Average F1提高23.8%。这表明采用Topic-structure-based features方法提取的特征更有效,同时降低了特征维度,能发现更有意义的潜在的变量,帮助对数据产生更深入的了解。由表1中第三列和第四列比较可得,Document-level features特征提取方法在正样本的各项评价指标上也均有提高,其中Precision of positive label提高1.9%,Recall of positive label提高1.1%,F1ofpositive label值提高1.2%。同时Document-level features特征提取方法在负样本的各项评价指标上也均有提高,其中Recall of negative label提高0.8%,Recall ofnegative label值提高0.6%,整体来看,F1of negative label提高0.9%,Accuracy提高了0.9%。这表明采用Document-level features方法提取的特征更有效。
同时对比了传统的SVM分类模型和基于集成方法的SVM分类模型的分类效果,实验结果分别如表2和表3所示。+、-分别代表正负实例样本实验结果,Precision、Recall、F1分别代表查准率、查全率和F值,Average F1综合F中综合考虑两类字词识别效果,由F1和F0取平均得到,Accuracy代表正确率。
表2
表3
通过表2和表3比较得知,综合来看,相比传统的SVM分类模型,基于SVM集成学习的分类模型在各项评价指标上都有所提高,其中Average F1提高4.2%,Accuracy提高2.5%。这表明集成学习方法可以有效解决数据分布中的不平衡问题问题。具体而言,对正样本来说,相比传统的SVM分类模型,基于SVM集成学习的分类模型Precision提高了7.3%,Recall提高了3%,F1提高了6.6%。对负样本来说,相比基线状态,基于SVM集成学习的分类模型Precision提高了0.5%,Recall提高了2.5%,F1提高了1.6%。所以从比较结果可以看出,相比传统的SVM分类模型,基于SVM集成学习的分类模型在各方面的效果都有明显提高。
从以上两种比较结果可以看出,本发明中基于SVM集成学习的分类模型在各方面都有很大的优势,可以自动地较准确地实现对水果品种名称的信息抽取。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于篇章信息的中文水果品种信息抽取方法,其特征在于,所述方法包括:
步骤S1,获取语料;
步骤S2,标注语料;
步骤S3,对与水果相关的页面进行词项对提取,将词项对分为训练语料和测试语料;对所述语料进行基于篇章结构的远距离特征提取;
步骤S4,利用训练语料特征训练得到基于深度学习的组合分类器,利用组合分类器从测试语料中抽取水果品种信息;
步骤S5,将与水果相关的页面随机分为N组,重复执行步骤S1至S4N次,获得评估结果。
2.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法,其特征在于,所述步骤S1,具体包括:
获取语料,在百度网站中查询水果相关网页,利用网络爬虫爬取下载与水果相关的百度百科页面。
3.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法,其特征在于,所述步骤S2,具体包括:
对于所述与水果相关的页面,人工标注出每个水果品种名称、所属的水果大类名称的关系,将每个标注信息记录为三元组:水果大类名称、水果品种名称、is-a关系。
4.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法,其特征在于,所述步骤S3中词项对提取,具体包括:
对所述与水果相关的页面进行基于语言结构的词项对<上位词、下位词>提取;
词项对提取结果随机被分为训练语料和测试语料;
对于所述训练语料,若其包含标注的水果品种名称,则语料为正样本,否则,语料为负样本。
5.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法,其特征在于,所述步骤S3中对所述语料进行基于篇章结构的远距离特征提取,具体包括:
对词项对提取得到的语料,
若上位词与下位词在同一标题下,且在同一段落中,则选择其父节点所在句以及其子节点所在句作为特征信息;
若上位词与下位词在同一标题下,但不在同一段落中,则选择其父节点所在句、其子节点所在句、父子节点中间的所有段落的首句和尾句作为特征信息;
若上位词与下位词不在同一标题下,则选择其父节点所在句、其子节点所在句、父子节点中间的所有标题作为特征信息。
6.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法,其特征在于,所述步骤S4中利用训练语料特征训练得到基于深度学习的组合分类器,具体包括:
负样本语料数量为正样本语料的N倍;
将所述负样本语料分为N组,每组负样本语料同正样本语料为一个训练子集,得到N个训练子集;
对于每个训练子集通过支持向量机SVM深度分类算法进行学习,得到N个基分类器;
将所述N个基分类器通过集成学习方法得到组合分类器。
7.如权利要求1所述的基于篇章信息的中文水果品种信息抽取方法,其特征在于,所述步骤S4中利用组合分类器从测试语料中抽取水果品种信息,具体包括:
对训练语料中的每个测试实例,一个基分类器分类得到一个标签,N个基分类器得到N个分类标签,按照多数投票制进行投票,投票结果作为该测试实例的最终分类标签,最终分类标签为1的测试实例为is-a关系,最终分类标签为0的测试实例为非is-a关系,若票数1:1则标签为0。
8.一种基于篇章信息的中文水果品种信息抽取装置,其特征在于,所述装置包括:
获取单元,用于获取语料,在搜索引擎网站爬取下载与水果相关的页面;
标注单元,用于对所述与水果相关的页面进行语料标注;
特征提取单元,用于对所述与水果相关的页面进行词项对提取,将词项对分为训练语料和测试语料;对所述语料进行基于篇章结构的远距离特征提取;
训练单元,用于利用训练语料特征训练得到基于深度学习的组合分类器;
测试单元,用于利用组合分类器从测试语料中抽取水果品种信息;
评估单元,用于将与水果相关的页面随机分为N组,重复执行如权利要求1所述的步骤S1至S4N次,获得评估结果。
9.如权利要求8所述的基于篇章信息的中文水果品种信息抽取装置,其特征在于,所述特征提取单元包括:
特征提取子单元,用于:
对所述词项对提取得到的语料,
若上位词与下位词在同一标题下,且在同一段落中,则选择其父节点所在句以及其子节点所在句作为特征信息;
若上位词与下位词在同一标题下,但不在同一段落中,则选择其父节点所在句、其子节点所在句、父子节点中间的所有段落的首句和尾句作为特征信息;
若上位词与下位词不在同一标题下,则选择其父节点所在句、其子节点所在句、父子节点中间的所有标题作为特征信息。
10.如权利要求8所述的基于篇章信息的中文水果品种信息抽取装置,其特征在于,所述训练单元包括:
训练子单元,用于:
设置负样本语料数量为正样本语料的N倍;
将所述负样本语料分为N组,每组负样本语料同正样本语料为一个训练子集,得到N个训练子集;
对于每个训练子集通过支持向量机SVM深度分类算法进行学习,得到N个基分类器;
将所述N个基分类器通过集成学习方法得到组合分类器。
CN201611043050.3A 2016-11-21 2016-11-21 一种基于篇章信息的中文水果品种信息抽取方法及装置 Expired - Fee Related CN106649264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611043050.3A CN106649264B (zh) 2016-11-21 2016-11-21 一种基于篇章信息的中文水果品种信息抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611043050.3A CN106649264B (zh) 2016-11-21 2016-11-21 一种基于篇章信息的中文水果品种信息抽取方法及装置

Publications (2)

Publication Number Publication Date
CN106649264A true CN106649264A (zh) 2017-05-10
CN106649264B CN106649264B (zh) 2019-07-05

Family

ID=58812537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611043050.3A Expired - Fee Related CN106649264B (zh) 2016-11-21 2016-11-21 一种基于篇章信息的中文水果品种信息抽取方法及装置

Country Status (1)

Country Link
CN (1) CN106649264B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330009A (zh) * 2017-06-14 2017-11-07 腾讯科技(深圳)有限公司 主题词分类模型创建方法、创建装置及存储介质
CN110019654A (zh) * 2017-07-20 2019-07-16 南方电网传媒有限公司 一种不平衡网络文本分类优化系统
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备
CN111475641A (zh) * 2019-08-26 2020-07-31 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205099A (zh) * 2015-08-20 2015-12-30 中国农业大学 一种农产品价格分析方法
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205099A (zh) * 2015-08-20 2015-12-30 中国农业大学 一种农产品价格分析方法
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王龙甫: "基于中文百科的概念知识库构建", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330009A (zh) * 2017-06-14 2017-11-07 腾讯科技(深圳)有限公司 主题词分类模型创建方法、创建装置及存储介质
CN110019654A (zh) * 2017-07-20 2019-07-16 南方电网传媒有限公司 一种不平衡网络文本分类优化系统
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备
CN110196982B (zh) * 2019-06-12 2022-12-27 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备
CN111475641A (zh) * 2019-08-26 2020-07-31 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备
WO2021036181A1 (zh) * 2019-08-26 2021-03-04 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN106649264B (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
Azlah et al. Review on techniques for plant leaf classification and recognition
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN104239485B (zh) 一种基于统计机器学习的互联网暗链检测方法
CN105260437B (zh) 文本分类特征选择方法及其在生物医药文本分类中的应用
US8856129B2 (en) Flexible and scalable structured web data extraction
CN109670542A (zh) 一种基于评论外部信息的虚假评论检测方法
CN103903164B (zh) 基于领域信息的半监督方面自动提取方法及其系统
CN104424296B (zh) 查询词分类方法和装置
CN104361059B (zh) 一种基于多示例学习的有害信息识别和网页分类方法
CN106815194A (zh) 模型训练方法及装置和关键词识别方法及装置
CN106649264B (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN102411563A (zh) 一种识别目标词的方法、装置及系统
CN109840279A (zh) 基于卷积循环神经网络的文本分类方法
CN102750316A (zh) 基于语义共现模型的概念关系标签抽取方法
CN112632989B (zh) 一种合同文本中风险信息的提示方法、装置及设备
TW202001620A (zh) 自動化網站資料蒐集方法
CN110347701B (zh) 一种面向实体检索查询的目标类型标识方法
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN105205099B (zh) 一种农产品价格分析方法
Almeida et al. Not that kind of tree: Assessing the potential for decision tree–based plant identification using trait databases
CN106250402A (zh) 一种网站分类方法及装置
Zhelonkin et al. Training effective model for real-time detection of nsfw photos and drawings
CN112580351A (zh) 一种基于自信息损失补偿的机器生成文本检测方法
Stöckl Detecting Satire in the News with Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Ying

Inventor after: Cheng Xiyao

Inventor after: Cheng Bixiao

Inventor before: Chen Ying

Inventor before: Cheng Bixiao

Inventor before: Cheng Xiyao

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190705

Termination date: 20211121

CF01 Termination of patent right due to non-payment of annual fee