CN112883191B - 一种农业实体自动识别的分类方法及装置 - Google Patents

一种农业实体自动识别的分类方法及装置 Download PDF

Info

Publication number
CN112883191B
CN112883191B CN202110159592.1A CN202110159592A CN112883191B CN 112883191 B CN112883191 B CN 112883191B CN 202110159592 A CN202110159592 A CN 202110159592A CN 112883191 B CN112883191 B CN 112883191B
Authority
CN
China
Prior art keywords
agricultural
type
classification
basic information
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110159592.1A
Other languages
English (en)
Other versions
CN112883191A (zh
Inventor
李倩倩
王明涛
陈晨
张保国
刘鹏
朱忠亮
张明凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Mgdaas System Co ltd
Original Assignee
Shandong Mgdaas System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Mgdaas System Co ltd filed Critical Shandong Mgdaas System Co ltd
Priority to CN202110159592.1A priority Critical patent/CN112883191B/zh
Publication of CN112883191A publication Critical patent/CN112883191A/zh
Application granted granted Critical
Publication of CN112883191B publication Critical patent/CN112883191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的一种农业实体自动识别的分类方法及装置。一方面农业实体自动识别的分类方法利用爬虫从农业相关网络爬取数据,对所述数据进行格式化为数据集;将所述数据集的名称、类型标签、基本信息关键词以及基本信息关键词属性值进行词向量化;将所述数据集分为训练集和执行集,并对所述训练集中的样本进行分类标注,通过所述训练集对AdaBoost.M1‑KNN模型进行训练;通过所述AdaBoost.M1‑KNN模型对执行集进行分类形成农业实体分类库;将包含农业实体的文本进行分词、词性标注,根据所述词性标注进行筛选获取实体,将筛选出的实体与所述农业实体分类库匹配以获取农业实体及其对应的分类。本申请能够对非结构文本的农业实体自动识别分类,更高效地帮用户处理数据。

Description

一种农业实体自动识别的分类方法及装置
技术领域
本发明涉及农业信息分析领域,尤其涉及一种农业实体自动识别的分类方法及装置。
背景技术
随着社会信息化和数据化的发展,数据规模化自动化智能化处理是随着数据量变大后各行各业的发展的趋势。
农业是国民经济的基础产业,农业信息很多是以非结构化的文本信息呈现的,为了使整体知识水平相对较差的农民能够使用到信息网络带来的大量的农业数据,对农民关心的农业信息中的农业实体进行识别分类,农民根据识别分类以理解专业化的农业信息是适合农民的知识获取方式,然而现有技术中,缺乏对实现农业实体自动识别和分类尤其是非结构化的文本信息中的农业实体的自动识别分类手段。
发明内容
为解决上述的问题本申请提供一方面,本发明提供了一种农业实体自动识别的分类方法,包括:
利用爬虫从农业相关网络爬取数据,对所述数据进行格式化为包含名称、域名、类型标签、基本信息关键词以及基本信息关键词属性值的数据集;
将所述数据集的名称、类型标签、基本信息关键词以及基本信息关键词属性值进行词向量化;
将所述数据集分为训练集和执行集,并对所述训练集中的样本进行分类标注,通过所述训练集对AdaBoost.M1-KNN模型进行训练;
通过所述AdaBoost.M1-KNN模型对执行集进行分类形成农业实体分类库;
将包含农业实体的文本进行分词、词性标注,根据所述词性标注进行筛选获取实体,将筛选出的实体与所述农业实体分类库匹配以获取农业实体及其对应的分类。
优选地,对所述训练集中的样本进行的分类标注的类型包括非法类型、人物类型、地点类型、机构类型、政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型;对不同的分类标注用不同的数值标签区分。
优选地,通过所述训练集的词向量化特征对AdaBoost.M1-KNN模型进行训练包括:
为n个样本分配初始值为1/n的分布权重D;
调用所述AdaBoost.M1-KNN模型中的KNN分类器进行迭代,获取每次迭代的训练结果,根据训练结果更新所述分布权重D,进行下一次迭代;
迭代T次获取T种KNN分类函数K1,K2,K3,……KT;
通过分布权重D结合T种KNN分类函数K1,K2,K3,……KT而实现所述AdaBoost.M1-KNN模型。
优选地,迭代次数T的确定条件为:
设定阈值,比较
Figure BDA0002935079500000021
是否达到所述阈值;
如果εt达到所述阈值,则取当前迭代的次数t减去一为最终迭代次数T。
优选地,通过分布权重D结合T种KNN分类函数K1,K2,K3,……KT而实现所述AdaBoost.M1-KNN模型为:
Figure BDA0002935079500000022
其中,/>
Figure BDA0002935079500000023
优选地,根据训练结果更新所述分布权重D包括:
判断KNN分类函数对样本i的分类结果是否正确;
如果样本i的分类结果不正确则其下一次迭代的分布权重Dt+1(i)等于当前分布权重Dt(i);
如果样本i的分类结果正确则其下一次迭代的分布权重Dt+1(i)等于当前分布权重Dt(i)乘以βt
对分布权重Dt+1进行标准化处理。
优选地,所述KNN分类器分析任一所述执行集与全部所述训练集的名称、类型标签、基本信息关键词以及基本信息关键词属性值的词向量特征的相似性;所述相似性包括名称相似度、类型标签相似度、基本信息关键词相似度以及基本信息关键词属性相似度。
优选地,所述名称相似度S1为两个所述名称的词向量之间的欧几里得距离;所述类型标签相似度S2为两组类型标签全部标签组合的欧几里得距离的平均值;所述基本关键词相似度S3为两组基本信息关键词中相同的基本信息关键词占总基本信息关键词的占比;所述基本信息关键词属性相似度S4为相同的基本信息关键词下属的全部基本信息关键词属性值中相同的个数。
优选地,对所述名称相似度S1、类型标签相似度S2、基本信息关键词相似度S3以及基本信息关键词属性相似度S4进行标准化,然后分别乘以相似度权值获取整体的相似性,所述相似度权值通过交叉验证以及网格搜索方法获取。
另一方面本申请还提供一种农业实体自动识别的分类装置,包括处理单元、存储单元、输入单元、显示单元以及总线单元,所述总线单元电性连接所述处理单元、存储单元、输入单元和显示单元,通过所述输入单元输入待识别分类的文本,所述处理单元从所述存储单元调取实现所述农业实体自动识别的分类方法的指令执行,通过所述显示单元显示执行结果。
本申请提出的一种农业实体自动识别的分类方法及装置具体有以下有益效果:
本发明提供的农业实体自动识别的分类方法通过AdaBoost(Adaptive boosting)算法与KNN算法结合形成的AdaBoost.M1-KNN模型进行农业实体分类,通过AdaBoost算法根据训练结果调整从训练集中取样的分布权重D。使得迭代的KNN分类器能够逐步加大对识别错误分类的训练,利用集成学习的思想提高KNN分类器在不均衡数据中的学习能力,提高预测准确性。通过对结构化的名称、类型标签、基本信息关键词和基本信息关检测属性值特征加权确定相似度,能够有效的消除噪声的影响。通过对文本中农业实体识别,分类并添加超链接反馈,用户在进行阅读时,遇到不理解的农业实体可以根据农业实体的分类有个基础性的理解,可以通过超链接查看详细的农业百科页面内容深入了解,从而帮助用户更好的理解文本中的内容。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例中农业实体自动识别的分类方法的整体架构示意图;
图2是本发明实施例中农业实体自动识别的分类方法的流程图;
图3是本发明实施例中AdaBoost.M1-KNN模型的示意图;
图4是本发明实施例中数据集的示意图;
图5是本发明实施例中训练AdaBoost.M1-KNN模型的流程图;
图6是本发明实施例中农业实体自动识别的分类装置示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明进行说明,其中,图1是本发明实施例中农业实体自动识别的分类方法的整体架构示意图;图2是本发明实施例中农业实体自动识别的分类方法的流程图;图3是本发明实施例中AdaBoost.M1-KNN模型的示意图;图4是本发明实施例中数据集的示意图;图5是本发明实施例中训练AdaBoost.M1-KNN模型的流程图;图6是本发明实施例中农业实体自动识别的分类装置示意图。
结合参阅图1和图2所示,一方面本发明提供一种农业实体自动识别的分类方法,包括:
S100,利用爬虫从农业相关网络爬取数据,并对所述数据进行格式化为包含名称、域名、类型标签、基本信息关键词以及基本信息关键词属性值的数据集;具体实施过程中,通过爬虫爬取农业百科的网页信息,利用农业百科网页信息中的结构化的内容保存为所述数据集,参阅图4所示保存的结构化内容包括所述名称、域名、类型标签、基本信息关键词以及基本信息关键词属性值。
S200,将所述数据集的名称、类型标签、基本信息关键词以及基本信息关键词属性值进行词向量化;
S300,将所述数据集分为训练集和执行集,并对所述训练集中的实体样本进行分类标注,通过所述训练集对AdaBoost.M1-KNN模型进行训练。
具体实施过程中,配置一个分类标注与数值标签的映射表,其中,对所述训练集中的样本进行的分类标注的类型包括非法类型、人物类型、地点类型、机构类型、政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型;根据所述映射表对分类标注的的类型通过唯一的数值标签编号。其中,所述非法类型包括非具体实体、脏数据、非农业相关实体。
将所述训练集中的样本分类标注完成之后对所述AdaBoost.M1-KNN模型进行训练,具体的,参阅图5所示,包括如下步骤:,
S301,为n个分类标注分配初始值为1/n的分布权重D;
S302,调用所述AdaBoost.M1-KNN模型中的KNN分类器利用选取的样本进行训练获取KNN分类函数Kt,获取所述KNN分类函数Kt的训练结果;
S303,判断是否继续进行迭代训练;具体的,设定阈值,一种可行的所述阈值取0.5,比较
Figure BDA0002935079500000051
是否达到所述阈值,
如果εt达到所述阈值,则取当前迭代的次数t减去一为最终迭代次数T,
如果εt未达到所述阈值,则进行下一次迭代训练;
S304,计算进行下一次迭代训练的分布权重D;下一次迭代训练的分布权重D根据所述KNN分类函数Kt的训练结果更新;具体的,根据训练结果更新所述分布权重D包括:
判断KNN分类函数对样本i的分类结果是否正确;
如果样本i的分类结果不正确则其下一次迭代的分布权重Dt+1(i)等于当前分布权重Dt(i);
如果样本i的分类结果正确则其下一次迭代的分布权重Dt+1(i)等于当前分布权重Dt(i)乘以βt
对分布权重Dt+1进行标准化处理;
其中,
Figure BDA0002935079500000061
通过所述分布权重D的更新提高识别不成功的样本的占比。
根据更新的分布权重D重复S302-S305迭代训练T次获取T种KNN分类函数K1,K2,K3,……KT;
S305,通过分布权重D结合T种KNN分类函数K1,K2,K3,……KT而实现所述AdaBoost.M1-KNN模型:
Figure BDA0002935079500000062
S400,通过训练好的所述AdaBoost.M1-KNN模型对所述执行集进行分类形成农业实体分类库;具体实施过程中,所述KNN分类器分析任一所述执行集与全部所述训练集的名称、类型标签、基本信息关键词以及基本信息关键词属性值的词向量特征的相似性;所述相似性包括名称相似度、类型标签相似度、基本信息关键词相似度以及基本信息关键词属性相似度。其中,所述名称相似度S1为两个所述名称的词向量之间的欧几里得距离。所述类型标签相似度S2为两组类型标签全部标签组合的欧几里得距离的平均值,比如两个实体的类型标签个数分别为n1、n2,两两比较最后得到(n1xn2)个组合,最后求这些组合欧几里得距离的均值,即
Figure BDA0002935079500000063
/>
其中,o1、o2表示两个实体的类型标签,s(o1i,o2j)表示两个类型标签之间的欧几里得距离。所述基本关键词相似度S3为两组基本信息关键词中相同的基本信息关键词占总基本信息关键词的占比。所述基本信息关键词属性相似度S4为相同的基本信息关键词下属的全部基本信息关键词属性值中相同的个数。
统计所述名称相似度S1、类型标签相似度S2、基本信息关键词相似度S3以及基本信息关键词属性相似度S4的IDF值、均值、方差和标准差,并对名称相似度S1、类型标签相似度S2、基本信息关键词相似度S3以及基本信息关键词属性相似度S4进行标准化,然后分别乘以相似度权值获取整体的相似性,所述相似度权值通过交叉验证以及网格搜索方法获取S=W1S1+W2S2+W3S3+W4S4。
通过所述KNN分类器比较获取与执行集样本最为相似的前k个训练集样本,并取前k个训练集样本中出现最多的分类标注为该执行集样本的分类标注。
再通过不同的KNN分类器的分类结果加权统计获取执行集最终的分类标注。
所述农业实体分类库包含所述数据集以及所述分类标注。
S500,将包含农业实体的文本进行分词、词性标注;具体实施过程中,通过thulac工具对文本进行分词,对分好的词进行词性标注,如词性标注为名词、动词、介词、连词。
S600,根据所述词性标注进行筛选获取实体;具体实施过程中,将标注为名词的词筛选出来作为所述实体,筛选出来的实体中包括非法类型、人物类型、地点类型、机构类型、政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型。
S700,将筛选出的所述实体与所述农业实体分类库匹配以获取农业实体及其对应的分类,具体实施过程中,当所述实体匹配为非法类型、人物类型、地点类型、机构类型时,则所述实体为非农业实体。当所述实体匹配为政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型时,对文本中的实体添加超链接,通过超链接连接到所述农业实体分类库中相应的农业实体的域名。
另一方面,本申请提供一种农业实体自动识别的分类装置,包括处理单元、存储单元、输入单元、显示单元以及总线单元,所述总线单元电性连接所述处理单元、存储单元、输入单元和显示单元,通过所述输入单元输入待识别分类的文本,所述处理单元从所述存储单元调取实现所述农业实体自动识别的分类方法的指令执行,通过所述显示单元显示执行结果。
本申请还提供一种农业实体自动识别的分类介质,其存储至少一条指令,执行所述指令实现所述农业实体自动识别的分类方法。
本发明提供的农业实体自动识别的分类方法通过AdaBoost(Adaptive boosting)算法与KNN算法结合形成的AdaBoost.M1-KNN模型进行农业实体分类,通过AdaBoost算法根据训练结果调整从训练集中取样的分布权重D。使得迭代的KNN分类器能够逐步加大对识别错误分类的训练,利用集成学习的思想提高KNN分类器在不均衡数据中的学习能力,提高预测准确性。通过对结构化的名称、类型标签、基本信息关键词和基本信息关检测属性值特征加权确定相似度,能够有效的消除噪声的影响。通过对文本中农业实体识别,分类并添加超链接反馈,用户在进行阅读时,遇到不理解的农业实体可以根据农业实体的分类有个基础性的理解,可以通过超链接查看详细的农业百科页面内容深入了解,从而帮助用户更好的理解文本中的内容。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种农业实体自动识别的分类方法,其特征在于,包括:
利用爬虫从农业相关网络爬取数据,对所述数据进行格式化为包含名称、域名、类型标签、基本信息关键词以及基本信息关键词属性值的数据集;
将所述数据集的名称、类型标签、基本信息关键词以及基本信息关键词属性值进行词向量化;
将所述数据集分为训练集和执行集,并对所述训练集中的样本进行分类标注,通过所述训练集对AdaBoost.M1-KNN模型进行训练,实现所述AdaBoost.M1-KNN模型为:
Figure 328437DEST_PATH_IMAGE001
,其中,
Figure 118538DEST_PATH_IMAGE002
Figure 528660DEST_PATH_IMAGE003
,T为KNN分类函数的迭代次数,
Figure 796830DEST_PATH_IMAGE004
为第t次迭代的KNN分类函 数的分类结果,
Figure 726740DEST_PATH_IMAGE005
为第t次迭代的分布权重;
通过所述AdaBoost.M1-KNN模型对执行集进行分类形成农业实体分类库;
将包含农业实体的文本进行分词、词性标注,根据所述词性标注进行筛选获取实体,将筛选出的实体与所述农业实体分类库匹配以获取农业实体及其对应的分类。
2.根据权利要求1所述的农业实体自动识别的分类方法,其特征在于,对所述训练集中的样本进行的分类标注的类型包括非法类型、人物类型、地点类型、机构类型、政治经济类型、动物类型、植物类型、化学类型、气候类型、动植物产品类型、动植物疾病类型、自然灾害类型、营养素类型、生物学名词类型、农机具类型、农业技术类型、农作物部位类型、症状类型、发病条件类型;对不同的分类标注用不同的数值标签区分。
3.根据权利要求1所述的农业实体自动识别的分类方法,其特征在于,通过所述训练集的词向量化特征对AdaBoost.M1-KNN模型进行训练包括:
为n个样本分配初始值为1/n的分布权重D;
调用所述AdaBoost.M1-KNN模型中的KNN分类器进行迭代,获取每次迭代的训练结果,根据训练结果更新所述分布权重D;
迭代T次获取T种KNN分类函数K1,K2,K3,……KT;
通过分布权重D结合T种KNN分类函数K1,K2,K3,……KT而实现所述AdaBoost.M1-KNN模型。
4.根据权利要求3所述的农业实体自动识别的分类方法,其特征在于,迭代次数T的确 定条件为:比较
Figure 687743DEST_PATH_IMAGE006
是否达到所述阈值;
如果
Figure 257264DEST_PATH_IMAGE007
达到所述阈值,则取当前迭代的次数t减去一为最终迭代次数T。
5.根据权利要求3所述的农业实体自动识别的分类方法,其特征在于,根据训练结果更新所述分布权重D包括:
判断KNN分类函数对样本i的分类结果是否正确;
如果样本i的分类结果不正确则其下一次迭代的分布权重Dt+1(i)等于当前分布权重Dt(i);
如果样本i的分类结果正确则其下一次迭代的分布权重Dt+1(i)等于当前分布权重Dt (i)乘以
Figure 63546DEST_PATH_IMAGE008
对分布权重Dt+1进行标准化处理。
6.根据权利要求1所述的农业实体自动识别的分类方法,其特征在于,所述KNN分类器分析任一所述执行集与全部所述训练集的名称、类型标签、基本信息关键词以及基本信息关键词属性值的词向量特征的相似性;所述相似性包括名称相似度、类型标签相似度、基本信息关键词相似度以及基本信息关键词属性相似度。
7.根据权利要求6所述的农业实体自动识别的分类方法,其特征在于,所述名称相似度S1为两个所述名称的词向量之间的欧几里得距离;所述类型标签相似度S2为两组类型标签全部标签组合的欧几里得距离的平均值;所述基本关键词相似度S3为两组基本信息关键词中相同的基本信息关键词占总基本信息关键词的占比;所述基本信息关键词属性相似度S4为相同的基本信息关键词下属的全部基本信息关键词属性值中相同的个数。
8.根据权利要求7所述的农业实体自动识别的分类方法,其特征在于,对所述名称相似度S1、类型标签相似度S2、基本信息关键词相似度S3以及基本信息关键词属性相似度S4进行标准化,然后分别乘以相似度权值获取整体的相似性,所述相似度权值通过交叉验证以及网格搜索方法获取。
9.一种农业实体自动识别的分类装置,其特征在于,包括处理单元、存储单元、输入单元、显示单元以及总线单元,所述总线单元电性连接所述处理单元、存储单元、输入单元和显示单元,通过所述输入单元输入待识别分类的文本,所述处理单元从所述存储单元调取实现所述权利要求1-8任一所述农业实体自动识别的分类方法的指令执行,通过所述显示单元显示执行结果。
CN202110159592.1A 2021-02-05 2021-02-05 一种农业实体自动识别的分类方法及装置 Active CN112883191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110159592.1A CN112883191B (zh) 2021-02-05 2021-02-05 一种农业实体自动识别的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110159592.1A CN112883191B (zh) 2021-02-05 2021-02-05 一种农业实体自动识别的分类方法及装置

Publications (2)

Publication Number Publication Date
CN112883191A CN112883191A (zh) 2021-06-01
CN112883191B true CN112883191B (zh) 2023-03-24

Family

ID=76055725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110159592.1A Active CN112883191B (zh) 2021-02-05 2021-02-05 一种农业实体自动识别的分类方法及装置

Country Status (1)

Country Link
CN (1) CN112883191B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297851B (zh) * 2021-06-21 2024-03-05 北京富通东方科技有限公司 一种针对易混淆运动损伤实体词的识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944480B (zh) * 2017-11-16 2020-11-24 广州探迹科技有限公司 一种企业行业分类方法
CN110321427A (zh) * 2018-03-28 2019-10-11 广东亿迅科技有限公司 面向不平衡数据集的基于bagging算法的文本分类方法及装置
CN108763201B (zh) * 2018-05-17 2021-07-23 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法
CN110413773B (zh) * 2019-06-20 2023-09-22 平安科技(深圳)有限公司 智能文本分类方法、装置及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法

Also Published As

Publication number Publication date
CN112883191A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
Perlich et al. Tree induction vs. logistic regression: A learning-curve analysis
Ko et al. Automatic text categorization by unsupervised learning
US7028250B2 (en) System and method for automatically classifying text
US7376635B1 (en) Theme-based system and method for classifying documents
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN110532398B (zh) 基于多任务联合神经网络模型的家族图谱自动构建方法
CN112380344B (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
Gupta et al. Vico: Word embeddings from visual co-occurrences
US20050114313A1 (en) System and method for retrieving documents or sub-documents based on examples
US11200453B2 (en) Information processing system, an information processing method and a computer readable storage medium
CN114896386A (zh) 基于BiLSTM的电影评论语义情感分析方法及系统
Dobson Interpretable Outputs: Criteria for Machine Learning in the Humanities.
CN112836027A (zh) 用于确定文本相似度的方法、问答方法及问答系统
CN112883191B (zh) 一种农业实体自动识别的分类方法及装置
Dobrovolskyi et al. Collecting the Seminal Scientific Abstracts with Topic Modelling, Snowball Sampling and Citation Analysis.
Chen et al. A review and roadmap of deep learning causal discovery in different variable paradigms
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN111767402B (zh) 一种基于对抗学习的限定域事件检测方法
CN114722830A (zh) 智能客服语义识别通用模型的构建方法及问答机器人
CN113792131A (zh) 一种关键词的提取方法、装置、电子设备及存储介质
Ghosh et al. Understanding machine learning
Rabby et al. Establishing a formal benchmarking process for sentiment analysis for the bangla language
Yang et al. Sentiment Distribution of Topic Discussion in Online English Learning: An Approach Based on Clustering Algorithm and Improved CNN
CN117521673B (zh) 一种具备分析训练性能的自然语言处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant