CN105447142A - 一种双模式农业科技成果分类方法及系统 - Google Patents

一种双模式农业科技成果分类方法及系统 Download PDF

Info

Publication number
CN105447142A
CN105447142A CN201510821181.9A CN201510821181A CN105447142A CN 105447142 A CN105447142 A CN 105447142A CN 201510821181 A CN201510821181 A CN 201510821181A CN 105447142 A CN105447142 A CN 105447142A
Authority
CN
China
Prior art keywords
agricultural science
technology
technology achievement
classification
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510821181.9A
Other languages
English (en)
Other versions
CN105447142B (zh
Inventor
高万林
陈雪瑞
任延昭
宋越
于丽娜
张港红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN201510821181.9A priority Critical patent/CN105447142B/zh
Publication of CN105447142A publication Critical patent/CN105447142A/zh
Application granted granted Critical
Publication of CN105447142B publication Critical patent/CN105447142B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明涉及一种双模式农业科技成果分类方法及系统。该方法包括:获取农业科技成果信息;从上述农业科技成果信息中提取至少一个关键词,利用所述至少一个关键词形成对应于该农业科技成果的关键词集;利用静态分类方法和/或动态分类方法匹配该关键词集,以获取该农业科技成果信息在现有分类表中的分类。该系统利用上述方法实现。本发明可以实现对农业科技成果进行静态分类与动态分类,提高管理效率;同时也方便使用人员检索查询,提高农业科技成果的利用率。

Description

一种双模式农业科技成果分类方法及系统
技术领域
本发明涉及农业科技成果管理技术领域,尤其涉及一种双模式农业科技成果分类方法及系统。
背景技术
随着国家、企业、科研机构以及个人对科研事业的重视及深入,各类农业科技成果层出不穷。据统计,在2009年,我国每年就有近3万项重大科技成果产生,每年仅农业科技成果就会有产生7000多项。面对大量的农业科技成果,使用者通过关键词检索出来的大量结果逐一进行排查,找到自己需要的结果,这种方法费时费力,效率很低。
另外,随着农业科技成果的增多,相关成果也呈现了分布广泛、分散、杂乱的特点。现有技术中,农业科技成果其文档量大且繁杂,当前对农业科技成果的管理以简单的文档资料存储为主,加之农业科技成果的分类体系与管理方法多种多样,不仅耗费大量的人力、物力,而且统计分析琐碎繁杂。
发明内容
本发明的其中一个目的在于提供一种双模式农业科技成果分类方法及系统,以解决现在技术中农业科技成果分类管理方法简单,统计分析困难的技术问题。
为实现上述发明目的,第一方面,本发明实施例提供了一种双模式农业科技成果分类方法,包括:
获取农业科技成果信息;
从上述农业科技成果信息中提取至少一个关键词,利用所述至少一个关键词形成对应于该农业科技成果的关键词集;
利用静态分类方法和/或动态分类方法匹配该关键词集,以获取该农业科技成果信息在现有分类表中的分类。
可选地,所述静态分类方法包括:
根据现有技术中的分类方法建立一个现有分类表;
在现有分类表中每一分类的关键词库中匹配上述关键词集;
当匹配度超过预设值时,则该关键词集属于在现有分类表中的当前分类,并将该关键词集中未匹配的关键词添加到当前分类的关键词库中。
可选地,所述静态分类方法还包括:
当匹配度低于预设值时,则在现有分类表中其他分类的关键词库中继续匹配,直至匹配完所有分类为止。
可选地,所述预设值为85%。
可选地,所述动态分类方法包括:
从现有分类表中获取与上述农业科技成果信息在同一个分类中任意一个农业科技成果的关键词集;
获取该两个农业科技成果的关键词集的差异度与相似度;
若上述相似度超过预设相似度值,则该两个农业科技成果属于同一类农业科技成果;若上述差异度超过预设差异度值,则该两个农业科技成果属于两类农业科技成果;
重复上述步骤,直至上述农业科技成果信息与同一个分类中所有农业科技成果对比完成为止。
可选地,所述利用静态分类方法和/或动态分类方法匹配该关键词集,以获取该农业科技成果信息在现有分类表中的分类的步骤之后,还包括:
统计农业科技成果信息,以获取农业科技成果的关键词分类结果。
第二方面,本发明实施例还提供了一种双模式农业科技成果分类系统,基于上文所述的双模式农业科技成果分类方法实现,包括:
成果信息获取模块,用于获取农业科技成果信息;
关键词集获取模块,用于从上述农业科技成果信息中提取至少一个关键词,利用所述至少一个关键词形成对应于该农业科技成果的关键词集;
双模式分类模块,用于利用静态分类方法和/或动态分类方法匹配该关键词集,以获取该农业科技成果信息在现有分类表中的分类。
可选地,所述双模式分类模块包括静态分类单元,用于执行以下步骤:
在现有分类表中每一分类的关键词库中匹配上述关键词集;
当匹配度超过预设值时,则该关键词集属于在现有分类表中的当前分类,并将该关键词集中未匹配的关键词添加到当前分类的关键词库中;
可选地,所述双模式分类模块还包括动态分类单元,用于执行以下步骤:
从现有分类表中获取与上述农业科技成果信息在同一个分类中任意一个农业科技成果的关键词集;
获取该两个农业科技成果的关键词集的差异度与相似度;
若上述相似度超过预设相似度值,则该两个农业科技成果属于同一类农业科技成果;若上述差异度超过预设差异度值,则该两个农业科技成果属于两类农业科技成果;
重复上述步骤,直至上述农业科技成果信息与同一个分类中所有农业科技成果对比完成为止。
可选地,本发明实施例提供的系统还包括:统计模块,用于统计农业科技成果信息,以获取农业科技成果的关键词分类结果。
本发明实施例通过对上传的农业科技成果信息进行静态分类和/动态分类,可以将上述信息通过关键词匹配,将农业科技成果划分到对应的分类中,也可以根据关键词的匹配度与差异度判断两个农业科技成果之间是否属于同一分类。本发明可以实现对农业科技成果进行静态分类与动态分类,提高管理效率;同时也方便使用人员检索查询,提高农业科技成果的利用率。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1是本发明实施例提供的一种双模式农业科技成果分类方法流程图;
图2是本发明实施例提供的一种双模式农业科技成果分类系统框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
第一方面,本发明实施例提供了一种双模式农业科技成果分类方法,如图1所示,包括:
获取农业科技成果信息;
从上述农业科技成果信息中提取至少一个关键词,利用所述至少一个关键词形成对应于该农业科技成果的关键词集;
利用静态分类方法和/或动态分类方法匹配该关键词集,以获取该农业科技成果信息在现有分类表中的分类。
本发明中,农业科技成果信息包括论文、专利、农产品培植说明书以及其他成果。关键词是指,能够代表农业科技成果重点的词语。一个农业科技成果中包括至少一个关键词。该至少一个关键词构成该农业科技成果的关键词集。实际应用中,通过检索该关键词集可以快速检索到对应的农业科技成果。
实际应用中,获取管理人员或者用户上传的农业科技成果信息,并进行存储。同时,上传农业科技成果信息的人员可以对其上传的信息进行编辑、更新和删除等操作。
为获取关键词集,首先需要获取农业科技成果信息。实际应用中,农业科技成果信息大多以文本的形式存在,因此需要对农业科技成果信息进行如下处理:以农业科技成果信息中的语段、语句为单位,进行切词处理,例如现有技术中的基于统计的切词处理。获取关键词方法还可以采用现有技术中其他具有切词功能的方法实现,本发明不作限定。通过上述过程,获取每个农业科技成果信息的关键词集。例如,本专利申请中可以获取如下关键词集:
{双模式、农业、科技、成果、分类、方法}、{双模式、农业科技成果、分类方法}、{双模式、农业科技、成果分类、方法}等。
根据上文中获取的关键词集对相应的农业科技成果进行分类处理:
根据现有技术中的分类方法建立一个现有分类表;现有技术中的分类方法有多种,采用一种作为基础形成现有分类表即可。
在该现有分类表中每一分类的关键词库匹配所获取的关键词集;
当匹配度超过预设值时,则该关键词集属于在现有分类表中的当前分类,并将该关键词集中未匹配的关键词添加到当前分类的关键词库中。较优地,本发明实施例中,预设值为85%。当然本领域技术人员可以根据具体使用场合合理调整该预设值,本发明不作限定。
当匹配度低于预设值时,则在现有分类表中其他分类的关键词库中继续匹配,直至匹配完所有分类为止。
如果匹配过程中,没有找到合适的分类,则采用动态分类方法。
本发明实施例中,动态分类方法包括:
从现有分类表中获取与上述农业科技成果信息在同一个分类中任意一个农业科技成果的关键词集;
获取该两个农业科技成果的关键词集的差异度与相似度;
若上述相似度超过预设相似度值,则该两个农业科技成果属于同一类农业科技成果;若上述差异度超过预设差异度值,则该两个农业科技成果属于两类农业科技成果;
重复上述步骤,直至上述农业科技成果信息与同一个分类中所有农业科技成果对比完成为止。
上文的预设相似度值以及预设差异度值,本领域技术人员可以根据具体使用场景进行设置,本发明不作限定。
实际应用中,相似度以及差异度获取方法:首先系统会基于词典的方法对成果文本信息进行分词。分词方法,从左到右左往右取不超过词典最大长度的汉字作为匹配字段;查询典并进行匹配,若能匹配,则将这个匹配字段作为一个词切分出来;若不能匹配,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配;循环操作,直到匹配字段字数为零为止;重复正向最大匹配过程,直到切分出所有词为止。待文本信息分词完成后,即可进行两个成果的关键词匹配。便可获得相似度和差异度
实际应用中,本发明对农业科技成果分类完成以后,统计农业科技成果信息,从而获取农业科技成果的关键词分类结果,以方便用户检索,查询以及统计分析等。
需要说明的是,本发明实施例中静态分类方法与动态分类方法本无先后顺序,可以先对农业科技成果进行静态分类,然后进行动态分类;也可以先对农业科技成果进行动态分类,然后进行静态分类;甚至,静态分类与动态分类同时进行,本发明不作限定。
为体现本发明实施例提供的双模式农业科技成果分类方法的优越性,第二方面,本发明实施例还提供了一种双模式农业科技成果分类系统,如图2所示,包括:
成果信息获取模块,用于获取农业科技成果信息;
关键词集获取模块,用于从上述农业科技成果信息中提取至少一个关键词,利用所述至少一个关键词形成对应于该农业科技成果的关键词集;
双模式分类模块,用于利用静态分类方法和/或动态分类方法匹配该关键词集,以获取该农业科技成果信息在现有分类表中的分类。
可选地,所述双模式分类模块包括静态分类单元,用于执行以下步骤:
在现有分类表中每一分类的关键词库中匹配上述关键词集;
当匹配度超过预设值时,则该关键词集属于在现有分类表中的当前分类,并将该关键词集中未匹配的关键词添加到当前分类的关键词库中;
可选地,所述双模式分类模块还包括动态分类单元,用于执行以下步骤:
从现有分类表中获取与上述农业科技成果信息在同一个分类中任意一个农业科技成果的关键词集;
获取该两个农业科技成果的关键词集的差异度与相似度;
若上述相似度超过预设相似度值,则该两个农业科技成果属于同一类农业科技成果;若上述差异度超过预设差异度值,则该两个农业科技成果属于两类农业科技成果;
重复上述步骤,直至上述农业科技成果信息与同一个分类中所有农业科技成果对比完成为止。
可选地,本发明实施例提供的系统还包括:统计模块,用于统计农业科技成果信息,以获取农业科技成果的关键词分类结果。
本发明提供的双模式农业科技成果分类系统基于上文所述的双模式农业科技成果分类方法实现,因而可以解决同样的技术问题,并取得相同的技术效果,在此不再一一赘述。
本发明实施例提供的双模式农业科技成果分类方法及系统,通过对上传的农业科技成果信息进行静态分类和/动态分类,可以将上述信息通过关键词匹配,将农业科技成果划分到对应的分类中,也可以根据关键词的匹配度与差异度判断两个农业科技成果之间是否属于同一分类。本发明可以实现对农业科技成果进行静态分类与动态分类,提高管理效率;同时也方便使用人员检索查询,提高农业科技成果的利用率。
在本发明中,术语“至少一个”指一个或一个以上,除非另有明确的限定。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种双模式农业科技成果分类方法,其特征在于,包括:
获取农业科技成果信息;
从上述农业科技成果信息中提取至少一个关键词,利用所述至少一个关键词形成对应于该农业科技成果的关键词集;
利用静态分类方法和/或动态分类方法匹配该关键词集,以获取该农业科技成果信息在现有分类表中的分类。
2.根据权利要求1所述的双模式农业科技成果分类方法,其特征在于,所述静态分类方法包括:
根据现有技术中的分类方法建立一个现有分类表;
在现有分类表中每一分类的关键词库中匹配上述关键词集;
当匹配度超过预设值时,则该关键词集属于在现有分类表中的当前分类,并将该关键词集中未匹配的关键词添加到当前分类的关键词库中。
3.根据权利要求2所述的双模式农业科技成果分类方法,其特征在于,所述静态分类方法还包括:
当匹配度低于预设值时,则在现有分类表中其他分类的关键词库中继续匹配,直至匹配完所有分类为止。
4.根据权利要求2所述的双模式农业科技成果分类方法,其特征在于,所述预设值为85%。
5.根据权利要求1所述的双模式农业科技成果分类方法,其特征在于,所述动态分类方法包括:
从现有分类表中获取与上述农业科技成果信息在同一个分类中任意一个农业科技成果的关键词集;
获取该两个农业科技成果的关键词集的差异度与相似度;
若上述相似度超过预设相似度值,则该两个农业科技成果属于同一类农业科技成果;若上述差异度超过预设差异度值,则该两个农业科技成果属于两类农业科技成果;
重复上述步骤,直至上述农业科技成果信息与同一个分类中所有农业科技成果对比完成为止。
6.根据权利要求1所述的双模式农业科技成果分类方法,其特征在于,所述利用静态分类方法和/或动态分类方法匹配该关键词集,以获取该农业科技成果信息在现有分类表中的分类的步骤之后,还包括:
统计农业科技成果信息,以获取农业科技成果的关键词分类结果。
7.一种双模式农业科技成果分类系统,基于权利要求1~6任意一项所述的双模式农业科技成果分类方法实现,其特征在于,包括:
成果信息获取模块,用于获取农业科技成果信息;
关键词集获取模块,用于从上述农业科技成果信息中提取至少一个关键词,利用所述至少一个关键词形成对应于该农业科技成果的关键词集;
双模式分类模块,用于利用静态分类方法和/或动态分类方法匹配该关键词集,以获取该农业科技成果信息在现有分类表中的分类。
8.根据权利要求7所述的双模式农业科技成果分类系统,其特征在于,所述双模式分类模块包括静态分类单元,用于执行以下步骤:
在现有分类表中每一分类的关键词库中匹配上述关键词集;
当匹配度超过预设值时,则该关键词集属于在现有分类表中的当前分类,并将该关键词集中未匹配的关键词添加到当前分类的关键词库中;
9.根据权利要求8所述的双模式农业科技成果分类系统,其特征在于,所述双模式分类模块还包括动态分类单元,用于执行以下步骤:
从现有分类表中获取与上述农业科技成果信息在同一个分类中任意一个农业科技成果的关键词集;
获取该两个农业科技成果的关键词集的差异度与相似度;
若上述相似度超过预设相似度值,则该两个农业科技成果属于同一类农业科技成果;若上述差异度超过预设差异度值,则该两个农业科技成果属于两类农业科技成果;
重复上述步骤,直至上述农业科技成果信息与同一个分类中所有农业科技成果对比完成为止。
10.根据权利要求7所述的双模式农业科技成果分类系统,其特征在于,还包括:统计模块,用于统计农业科技成果信息,以获取农业科技成果的关键词分类结果。
CN201510821181.9A 2015-11-23 2015-11-23 一种双模式农业科技成果分类方法及系统 Expired - Fee Related CN105447142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510821181.9A CN105447142B (zh) 2015-11-23 2015-11-23 一种双模式农业科技成果分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510821181.9A CN105447142B (zh) 2015-11-23 2015-11-23 一种双模式农业科技成果分类方法及系统

Publications (2)

Publication Number Publication Date
CN105447142A true CN105447142A (zh) 2016-03-30
CN105447142B CN105447142B (zh) 2019-03-26

Family

ID=55557318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510821181.9A Expired - Fee Related CN105447142B (zh) 2015-11-23 2015-11-23 一种双模式农业科技成果分类方法及系统

Country Status (1)

Country Link
CN (1) CN105447142B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134957A (zh) * 2019-05-14 2019-08-16 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及系统
CN110134848A (zh) * 2019-05-14 2019-08-16 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果转化分析方法及系统
CN114780673A (zh) * 2022-03-28 2022-07-22 西安远诺技术转移有限公司 基于领域匹配的科技成果管理方法和科技成果管理平台
CN114780673B (zh) * 2022-03-28 2024-04-30 西安远诺技术转移有限公司 基于领域匹配的科技成果管理方法和科技成果管理平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103631789A (zh) * 2012-08-21 2014-03-12 富士通株式会社 文档处理方法和装置
CN103793474A (zh) * 2014-01-04 2014-05-14 北京理工大学 一种面向知识管理的自定义知识分类方法
CN104615672A (zh) * 2015-01-16 2015-05-13 中国农业大学 一种农业科技成果检索、展示方法及客户端和服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103631789A (zh) * 2012-08-21 2014-03-12 富士通株式会社 文档处理方法和装置
CN103793474A (zh) * 2014-01-04 2014-05-14 北京理工大学 一种面向知识管理的自定义知识分类方法
CN104615672A (zh) * 2015-01-16 2015-05-13 中国农业大学 一种农业科技成果检索、展示方法及客户端和服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓红生: ""广州农业适用科技成果数据库的建设研究"", 《广州农业适用科技成果数据库的建设研究》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134957A (zh) * 2019-05-14 2019-08-16 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及系统
CN110134848A (zh) * 2019-05-14 2019-08-16 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果转化分析方法及系统
CN110134957B (zh) * 2019-05-14 2023-06-13 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果入库方法及系统
CN110134848B (zh) * 2019-05-14 2023-09-26 云南电网有限责任公司电力科学研究院 一种基于语义分析的科技成果转化分析方法及系统
CN114780673A (zh) * 2022-03-28 2022-07-22 西安远诺技术转移有限公司 基于领域匹配的科技成果管理方法和科技成果管理平台
CN114780673B (zh) * 2022-03-28 2024-04-30 西安远诺技术转移有限公司 基于领域匹配的科技成果管理方法和科技成果管理平台

Also Published As

Publication number Publication date
CN105447142B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
Hernández et al. Compressed representations for web and social graphs
Kang et al. Hadi: Mining radii of large graphs
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN101694670B (zh) 一种基于公共子串的中文Web文档在线聚类方法
CN100401300C (zh) 具有自动分类功能的搜索引擎
Naidan et al. Permutation search methods are efficient, yet faster search is possible
CN103823838B (zh) 一种多格式文档录入并比对的方法
CN102364498B (zh) 一种基于多标签的图像识别方法
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN103577462B (zh) 一种文档分类方法及装置
CN1158460A (zh) 一种跨语种语料自动分类与检索方法
CN110750599B (zh) 一种基于实体建模的关联信息抽取和显示方法
CN104915405A (zh) 一种基于多层次的微博查询扩展方法
CN108241713A (zh) 一种基于多元切分的倒排索引检索方法
CN102306202B (zh) 一种基于街区距离的高维向量快速检索算法
CN104536830A (zh) 一种基于MapReduce的KNN文本分类方法
CN104216979A (zh) 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN105404677A (zh) 一种基于树形结构的检索方法
CN105447142A (zh) 一种双模式农业科技成果分类方法及系统
CN103984700A (zh) 一种用于科技信息垂直搜索的异构数据分析方法
CN105426490B (zh) 一种基于树形结构的索引方法
CN106874260A (zh) 一种基于用户词典的网络社交文本大数据处理方法及系统
CN112784040B (zh) 基于语料库的垂直行业文本分类方法
Xia Large-scale SMS messages mining based on map-reduce

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190326

Termination date: 20191123

CF01 Termination of patent right due to non-payment of annual fee