CN117435648B - 高校教师与科研成果的关联方法、装置、设备及存储介质 - Google Patents
高校教师与科研成果的关联方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117435648B CN117435648B CN202311782405.0A CN202311782405A CN117435648B CN 117435648 B CN117435648 B CN 117435648B CN 202311782405 A CN202311782405 A CN 202311782405A CN 117435648 B CN117435648 B CN 117435648B
- Authority
- CN
- China
- Prior art keywords
- college
- teacher
- target
- database
- college teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011160 research Methods 0.000 title claims abstract description 255
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 16
- 238000005065 mining Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 89
- 230000008569 process Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 235000002198 Annona diversifolia Nutrition 0.000 description 3
- 244000303258 Annona diversifolia Species 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了高校教师与科研成果的关联方法、装置、设备及存储介质,方法包括:基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库;对于科研成果数据库中的每一待关联科研成果:基于对待关联科研成果的目标属性字段与高校教师的目标信息字段进行的信息匹配、待关联科研成果的所属领域与高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定高校教师数据库中与待关联科研成果关联的目标高校教师,并在高校教师数据库中将待关联科研成果与目标高校教师关联。本申请能够实现自动化地、较大范围的科研成果与高校教师的关联,保证了科研成果关联的准确度的同时,提高了关联效率。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种高校教师与科研成果的关联方法、装置、设备及存储介质。
背景技术
高校教师与科研成果的关联指的是将科研成果与所属的高校教师进行关联,从而便于后续对高校教师进行科研成果评价、科研成果分析等。
相关的现有技术中,通常是以高校内的人工认领和关联为主,尽管准确度高,但存在极高的人力成本,且仅限于本校的情况,不能扩大高校教师群体,成果关联较分散。
发明内容
本申请实施例提供了高校教师与科研成果的关联方法、装置、设备及存储介质,不仅能够降低科研成果关联的人力成本,提高科研成果关联效率,且能够实现更大范围的科研成果关联。
第一方面,本申请实施例提供了一种高校教师与科研成果的关联方法,包括:
基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库;所述高校教师数据库中包括各高校教师的一个或多个目标信息字段,所述一个或多个目标信息字段中包括科研信息字段;所述科研成果数据库中包括各科研成果的一个或多个目标属性字段;
对于所述科研成果数据库中的每一待关联科研成果:
基于对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述待关联科研成果关联的目标高校教师;其中,所述高校教师的研究领域基于所述科研信息字段确定;所述成果关联专家规则系统基于对所述高校教师数据库和所述科研成果数据库进行关联规则挖掘而建立;
在所述高校教师数据库中将所述待关联科研成果与所述目标高校教师关联。
第二方面,本申请实施例提供了一种高校教师与科研成果的关联装置,包括:
数据库建立单元,用于基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库;所述高校教师数据库中包括各高校教师的一个或多个目标信息字段,所述一个或多个目标信息字段中包括科研信息字段;所述科研成果数据库中包括各科研成果的一个或多个目标属性字段;
关联处理单元,用于对于所述科研成果数据库中的每一待关联科研成果:
基于对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述待关联科研成果关联的目标高校教师;其中,所述高校教师的研究领域基于所述科研信息字段确定;所述成果关联专家规则系统基于对所述高校教师数据库和所述科研成果数据库进行关联规则挖掘而建立;
在所述高校教师数据库中将所述待关联科研成果与所述目标高校教师关联。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面的高校教师与科研成果的关联方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中计算机可读存储介质存储有计算机程序,计算机程序当被处理器执行时使处理器执行上述第一方面的高校教师与科研成果的关联方法。
本申请通过先基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库,进而对科研成果数据库中的每一待关联科研成果进行基于:待关联科研成果的目标属性字段与高校教师的目标信息字段之间的匹配、待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及通过对高校教师数据库和科研成果数据库进行关联规则挖掘而建立的专家规则系统来进行确定该待关联科研成果的关联的目标高校教师,进而在高校教师数据库中将该待关联科研成果与所述目标高校教师关联,一方面,通过基于在多个服务器中获取的数据建立高校教师数据库和科研成果数据库后,能够实现建立覆盖更大范围的高校教师数据库和科研成果数据库,在此基础上,再对科研成果数据库中的科研成果进行逐一确定关联的目标高校教师,进而在高校教师数据库中将科研成果与高校教师进行关联,从而实现了更大范围的科研成果的关联;另一方面,在具体进行科研成果与高校教师的关联中,采用信息字段匹配、领域的相关度以及成果关联专家规则系统来实现确定,不仅实现了科研成果所关联的高校教师的自动确定,也有利于提高成果关联的准确性。可见,与以高校内的人工认领和关联为主的现有技术相比,本申请能够实现自动化地、全局的科研成果与高校教师的关联,节省了人力成本,提高了科研成果关联效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的高校教师与科研成果的关联方法的应用场景示意图;
图2为本申请实施例提供的高校教师与科研成果的关联方法的流程示意图;
图3为本申请实施例提供的高校教师与科研成果的关联方法的子流程示意图;
图4为本申请实施例提供的高校教师与科研成果的关联方法的另一子流程示意图;
图5为本申请实施例提供的高校教师与科研成果的关联方法的另一子流程示意图;
图6为本申请实施例提供的高校教师与科研成果的关联方法的另一子流程示意图;
图7为本申请实施例提供的高校教师与科研成果的关联方法的另一子流程示意图;
图8为本申请实施例提供的高校教师与科研成果的关联装置的示意性框图;
图9为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请提供了一种高校教师与科研成果的关联方法、装置、设备及存储介质,不仅能够降低科研成果关联的人力成本,提高科研成果关联效率,且能够实现更大范围的科研成果关联。该高校教师与科研成果的关联方法的执行主体可以是本申请实施例提供的高校教师与科研成果的关联装置,可以是集成了该高校教师与科研成果的关联装置的计算机设备。其中,该高校教师与科研成果的关联装置可以采用硬件或者软件的方式实现;该计算机设备可以为终端或服务器,该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。
示例性的,以关联服务器为执行主体为例,图1为本申请一实施例提供的应用场景示意图。在该场景中,关联服务器从多个高校服务器中获取教师数据,构建高校教师数据库,从多个成果类别(例如,科研项目、科研获奖、学术论文)服务器中获取成果数据,构建科研成果数据库。在此基础上,对于科研成果数据库中的每一科研成果,关联服务器基于信息字段匹配、领域的相关度、以及成果关联专家规则系统来确定该科研成果关联的高校教师,进而在高校教师数据库中建立该科研成果与高校教师的关联关系,完成该科研成果的关联。
请参阅图2,图2为本申请一实施例提供的高校教师与科研成果的关联方法的流程示意图,该方法具体包括下述步骤S101至步骤S103。
步骤S101、基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库;所述高校教师数据库中包括各高校教师的一个或多个目标信息字段,所述一个或多个目标信息字段中包括科研信息字段;所述科研成果数据库中包括各科研成果的一个或多个目标属性字段。
其中,本实施例中,上述预设的服务器地址集中包括多个服务器分别对应的访问地址,通过该访问地址可访问到对应服务器提供的高校教师信息数据或者科研成果信息数据。
具体的,预设的服务器地址集中可以包括高校服务器地址集和科研成果服务器地址集,高校服务器地址集中包括各高校服务器分别对应的访问地址,科研成果服务器地址集中包括各科研成果服务器分别对应的访问地址。在具体实施时,高校服务器对应的访问地址可以具体是指向高效服务器提供的高校网站中高校教师信息介绍页面;科研成果服务器对应的访问地址可以具体是指向科研成果服务器提供的某类科研成果查询网站(例如,学术论文查询网站、科研项目查询网站、科研获奖查询网站等)。
本实施例中,上述高校教师数据库中包括了一个或多个高校的所有高校教师分别对应的一个或多个目标信息字段,且一个或多个目标信息字段中至少包括科研信息字段。其中,目标信息字段为高校教师的相关信息,在具体实施时,上述一个或多个目标信息字段可以包括高校教师的身份信息字段和科研信息字段。其中,身份信息字段指示高校教师的个人身份,可以进一步包括高校教师的姓名字段、任职学校字段、职称身份字段等信息字段,科研信息字段指示高校教师的科研相关信息,可以进一步包括研究领域信息字段、已知的科研成果信息字段(例如,科研成果名称字段)。
上述科研成果数据库中包括了与需求相关的需进行关联的所有科研成果分别对应的一个或多个目标属性字段,目标属性字段信息为科研成果的相关属性,在具体实施时,可以包括成果内容字段、成果完成字段、以及成果领域字段。其中,成果内容字段指示成果的相关内容,可以进一步包括成果名称、摘要、成果简介、关键词等字段;成果完成字段可以包括完成时间、成果完成人等字段;成果领域字段指示科研成果所属领域信息,可以包括应用领域字段。
本实施例中,先通过从预设的服务器地址集所对应的服务器中获取数据从而构建上述高校教师数据库和上述科研成果数据库,能够提高科研成果关联的应用范围,便于后续进行科研成果数据库中科研成果与高校教师数据库中的高校教师的关联。
为构建上述包括各科研成果分别一个或多个目标属性字段的科研成果数据库,在一实施例中,所述服务器地址集包括科研成果服务器地址集,所述科研成果服务器地址集中包括多个预设的科研成果类型分别对应的访问地址,如图3所示,科研成果数据库的构建过程包括以下步骤S201至步骤S203。
步骤S201、在各所述科研成果类型分别对应的访问地址所对应服务器中获取各所述成果类型的科研成果数据;所述科研成果数据包括科研成果的多个属性信息。
其中,上述预设的科研成果类型可以包括学术论文、科研项目、科研获奖等;上述科研成果类型对应的访问地址可以具体是用于获取该科研成果类型所对应的科研成果数据。该访问地址对应页面可以提供该科研成果类型的科研成果的查询功能,进而可以基于该访问地址获取该科研成果类型的科研成果数据。
在具体实施时,一种科研成果类型对应的访问地址可以包括一个或多个,可以理解的是,通过多个访问地址来获取一种科研成果类型对应的科研成果数据,有利于提高获取到的科研成果数据的全面性。
本实施例中,科研成果包括多个科研成果类型,通过在各所述科研成果类型分别对应的访问地址所对应服务器中获取各所述成果类型的科研成果数据,进而可以获取到覆盖到多个科研成果类型的科研成果数据。
步骤S202、对所述科研成果的多个属性信息进行包括字段规范的预处理后,得到科研成果的一个或多个所述目标属性字段。
本实施例中,上述属性信息可以包括属性名和属性值,上述目标属性字段包括属性字段名以及属性字段值。上述字段规范具体可以包括对各属性名进行字段名统一,以及对各属性值进行字段值清洗和规范等操作。
其中,上述字段名统一可以具体是确定属性信息的属性名所对应的属性字段名;字段值清洗和规范则是用于对该属性信息的属性值进行清洗和规范成该属性字段名对应的规范格式,得到上述属性字段值,从而得到目标属性字段。
本实施例中,由于不同的访问地址中提供的科研成果数据的格式、属性名均不相同,因而对于从服务器中获取到科研成果的多个属性信息,需要对各个属性信息进行字段规范预处理,从而得到一个或多个目标属性字段。
步骤S203、将所述科研成果的一个或多个所述目标属性字段存储至数据库中,得到所述科研成果数据库。
本实施例中,在得到各科研成果的一个或多个目标属性字段之后,将其存储在数据库中,得到上述科研成果数据库。
为构建上述包括各高校教师分别一个或多个目标信息字段的高校教师数据库,在一实施例中,如图4所示,高校教师数据库的构建过程包括以下步骤S301至步骤S304。
步骤S301、利用预设的数据采集策略在所述高校服务器地址集所对应多个高校服务器中分别进行信息采集,得到多个所述高校教师分别对应的网页数据。
本实施例中,上述高校服务器地址集中包括多个各高校服务器分别对应的访问地址,该访问地址具体可以是指向高校服务器提供的高校网站中高校教师信息介绍页面,该高校教师信息介绍页面中显示有该高校的高校教师的相关简历信息。
本实施例中,对于高校服务器地址集中的每一高校服务器对应的访问地址,通过访问该访问地址,在该访问地址对应的页面中获取所提供的各高校教师的介绍信息,得到多个高校教师分别对应的网页数据。
步骤S302、利用预设的网页正文提取算法分别对各所述网页数据进行网页正文提取,得到各所述高校教师分别对应的网页正文内容。
其中,上述预设的网页正文提取算法用于在网页数据中提取网页正文,具体采用的网页正文提取算法可以根据实际情况确定。在一些具体的实施方式中,网页正文提取算法可以采用基于逻辑行和最大接纳距离的网页正文提取算法、基于块分布函数的通用网页正文抽取算法等。
本实施例中,由于高校教师对应的网页数据中可能会包含与高校教师的信息不相关的内容,例如广告、导航菜单、版权声明等,因而通过利用预设的网页正文提取算法来对高校教师的网页数据进行正文提取,得到高校教师对应的网页正文内容。
在一些实施方式中,为提高提取得到的网页正文内容的准确性,有效剔除无关信息,上述利用预设的网页正文提取算法分别对各所述网页数据进行网页正文提取,得到各所述高校教师分别对应的网页正文内容的过程中,可以是同时利用基于逻辑行和最大接纳距离的网页正文提取算法和基于块分布函数的通用网页正文抽取算法对网页数据分别进行网页正文提取,得到第一正文提取结果和第二正文提取结果,进而将第一正文提取结果和第二正文提取结果的交集作为上述网页正文内容。
步骤S303、利用预先构建的网页字段抽取模型对所述网页正文内容进行信息字段抽取,得到各所述高校教师的所述目标信息字段。
其中,上述网页字段抽取模型用于对高校教师的网页正文内容进行字段抽取,得到高校教师的目标信息字段。本实施例中,上述得到的网页正文内容通过为非结构化数据,因而通过预先构建的网页字段抽取模型对所述网页正文内容进行信息字段抽取,得到高校教师的所述目标信息字段。
在具体实施时,上述网页字段抽取模型可以为能够处理文本的卷积神经网络模型、循环神经网络模型、长短期记忆网络模型等模型。
为提高模型对语言的处理能力,提高抽取正确率,在一些实施方式中,上述网页字段抽取模型可以是对经过预训练的语言模型进行微调后得到。具体的,通过利用人工对网页正文内容样本进行字段标注后得到训练数据集,进而利用该训练数据集对语言模型进行微调训练,直至抽取正确率达到预设正确率阈值时,得到上述网页字段抽取模型。
在一具体的实施方式中,上述语言模型可以是Llama 2(Large Language ModelMeta AI 2)语言模型,Llama 2语言模型具有经过大规模预训练、更长的上下文长度、快速推理、大量的人类注释等优势,在字段抽取任务中能够出色表现;在此基础上,通过对Llama2模型进行LoRA(Low Rank Adaptation)微调,得到上述网页字段抽取模型。其中,LoRA是一种参数有效的微调技术,它的目标是在尽可能少地改变模型参数的情况下,将预训练的模型适应到新的任务,这对于大型神经网络模型尤其重要。LoRA微调的工作原理是在预训练模型的顶部添加一个低秩矩阵,然后只更新这个低秩矩阵的参数,这样就可以在保留预训练模型的大部分参数不变的同时,对模型进行有效的微调,得到需要的模型。
在具体实施时,可以先通过人工对各高校教师的网页正文内容进行分析,确定出标准的教师信息结构,该教师信息结构可以指示需要包括哪些标准字段,各标准字段的字段值格式等,进而在构建训练数据集时,根据该教师信息结构对网页正文内容样本进行标注,得到训练数据集,在此基础上,可以利用训练得到的上述网页字段抽取模型进行对高校教师的实际网页正文内容进行上述标准字段的抽取,得到各高校教师分别对应的标准字段,亦即得到各高校教师的上述目标信息字段。
步骤S304、将所述各所述高校教师的所述目标信息字段存储在数据库中,得到所述高校教师数据库。
本实施例中,在得到各所述高校教师的目标信息字段之后,将其存储在数据库中,得到高校教师数据库。
实际应用中,可能会存在同一个高校教师在多个学校中进行任职、或者任职调动而高校服务器中的数据更新不及时情况,为避免将同一个高校教师当作多个高校教师,实现高校教师消歧,在一实施例中,如图5所示,在上述步骤S304之前还可以包括下述步骤S401至步骤S405。
步骤S401、对于每一所述高校教师,获取所述高校教师的关键信息字段对应的语义词向量;所述关键信息字段为多个所述目标信息字段中的一个。
本实施例中,上述关键信息字段可以根据字段的对高校教师的标识能力而确定,对于某字段,各高校教师之间的重复可能性越低,该字段的标识能力越高。例如,在一些实施方式中,当目标信息字段包括姓名字段时,可以将高校教师的姓名字段作为上述关键信息字段。可选的,在一些实施方式中,当目标信息字段包括已知的科研成果名称字段时,可以将科研成果名称字段确定为关键信息字段。
其中,上述获取所述高校教师的关键信息字段对应的语义词向量,具体是对关键信息字段进行词嵌入(Word Embedding)而得到,词嵌入是一种将词语映射到向量空间的过程或表示方法。这种方法的目标是捕捉词语的语义信息,以便计算机能够理解和处理自然语言。
步骤S402、获取各所述高校教师中两两之间所述语义词向量对应的余弦相似度。
具体的,对于各高校教师中的任意两个高校教师m和高校教师n,计算高校教师m对应的上述语义词向量与高校教师n对应的语义词向量之间的余弦相似度。
步骤S403、获取各所述高校教师中两两之间所述网页正文内容对应的交并比相似度。
具体的,对于各高校教师中的任意两个高校教师m和高校教师n,计算高校教师m对应的上述网页正文内容A与高校教师n对应的上述网页正文内容B之间的交并比相似度。
其中,上述交并比相似度即为Jaccard Similarity(雅卡尔相似度),计算公式为:
步骤S404、基于所述余弦相似度和所述交并比相似度确定各所述高校教师中两两之间的目标相似度。
本实施例中,上述余弦相似度反映的是两个高校教师之间关键信息字段之间的相似度,上述交并比相似度则反映的是两个高校教师之间的网页正文内容之间的相似度,代表的是两个高校教师之间所有的相关信息内容之间的相关度,通过同时综合关键信息字段之间的余弦相似度和网页正文内容之间的相似度来得到高校教师之间的目标相似度,能够提高高校教师消歧的准确度。
在具体确定上述目标相似度时,可将上述余弦相似度和交并比相似度的加权和确定为上述目标相似度,其中,余弦相似度和交并比相似度分别对应的权重值可以根据实际情况确定。
步骤S405、当所述目标相似度大于预设的相似度阈值时,将所述目标相似度对应的两个所述高校教师合并为一个所述高校教师。
其中,上述预设的相似度阈值的具体取值可以根据实际情况确定。
本实施例中,若高校教师m和高校教师n之间的上述目标相似度大于相似度阈值时,认为高校教师m和高校教师n为同一个高校教师,即高校教师m和高校教师n指向现实世界中的同一高校教师实体,因而将高校教师m和高校教师n合并成一个高校教师。
在具体合并成一个高校教师的过程中,可以将综合高校教师m对应的目标信息字段和高校教师n对应的目标信息字段来确定合并后的高校教师对应的目标信息字段。
本实施例中,通过计算高校教师两两之间的针对关键信息字段的余弦相似度以及针对网页正文内容的交并比相似度,进而综合余弦相似度和交并比相似度来确定两两教师之间的目标相似度,从而在目标相似度高于预设的相似度阈值时,将对应的两个高校教师进行合并,有利于避免存在多个高校教师对应现实世界中的同一实体的情况而影响后续的科研成果关联,从而有利于提高科研成果关联的准确度和关联效率。
在实际应用中,由于高校教师的实际信息是动态变化的,为保证高校教师数据库中存储的高校教师是正确的、最新的信息,从而保证利用该高校教师数据库中的信息进行科研成果关联的准确度,在一实施例中,如图6所示,上述步骤S101之后,还可以包括以下步骤S501至步骤S504。
步骤S501、获取提供高校教师流动信息的目标网页地址。
本实施例中,上述高校教师流动信息指的是与高校教师相关的动态信息,具体包括高校教师的任职调动信息、升职信息、退休信息、获奖信息、科研成果发表信息、参与学术会议信息等;上述目标网页地址为可提供上述高校教师流动信息的网页地址,具体可以包括高校网站中高校教师信息介绍页面的网页地址、提供与教师相关的新闻资讯的网页地址、报道各学术会议的相关信息的网页地址等。
步骤S502、以预设时间间隔访问所述目标网页地址,并检测所述目标网页地址的对应网页中是否存在新增的高校教师流动信息。
本实施例中,在得到提供高校教师流动信息的目标网页地址后,通过以预设时间间隔访问目标网页地址,进而检测目标网页地址的对应网页中是否存在新增的与教师相关的高校教师流动信息。
在具体实施时,当目标网页地址为高校网站中高校教师信息介绍页面的网页地址时,以预设时间间隔访问所述目标网页地址后,可以通过检测目标网页地址对应网页中相对于上次访问是否存在新增数据或差异数据,若存在,则可以确定为存在新增的与教师相关的高校教师流动信息;当目标网页地址为提供与教师相关的新闻资讯的网页地址、或者报道各学术会议的相关信息的网页地址时,在以预设时间间隔访问所述目标网页地址后,可以获取当前目标网页地址对应网页中的当前数据信息,进而基于该当前数据信息确定是否存在高校教师流动信息。例如,可以通过检测当前数据信息中是否存在一个或多个预设的相关关键词,例如“教师”、“职称”、“学术论文”等来确定是否存在高校教师流动信息。
步骤S503、当存在所述高校教师流动信息时,基于预先确定的目标关联规则确定是否存在需要进行信息更新的待更新高校教师和待更新信息字段。
本实施例中,由于新增的高校教师流动信息可能会包含高校教师数据库中的相关信息,进而需要对高校教师数据库进行修改,因而当存在高校教师流动信息时,基于预先确定的目标关联规则确定是否存在需要进行信息更新的待更新高校教师和待更新信息字段。
其中,上述待更新高校教师为高校教师数据库中需进行信息更新的高校教师;上述待更新信息字段为待更新高校教师所需更新的信息字段(即目标信息字段)。
上述预先确定的目标关联规则为与高校教师的信息相关的关联规则,具体的,关联规则反映了一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么其中一个事物发生就能够预测与之相关联的其他事情的发生。
本实施例中,与高校教师的信息相关的关联规则用于根据高校教师流动信息预测高校教师的相关信息,通过利用目标关联规则对新增的关于某高校教师的高校教师流动信息进行判断,可以确定该高校教师(即待更新高校教师)的相关信息,即上述待更新信息字段。
例如,示例性的,若目标关联规则包括“某个高校教师在某个会议上发表论文可能意味着他/她的研究领域与这个会议的主题相关”,则当获取到的上述高校教师流动信息指示某高校教师G在计算机视觉的相关主题的会议上发表论文时,可以根据目标关联规则确定出高校教师G的研究领域与计算机视觉相关,进而确定该高校教师G为上述待更新高校教师,上述待更新信息字段可以具体为指示在高校教师数据库中高校教师G的研究领域字段增加“计算机视觉”作为字段值。
又例如,目标关联规则还可以包括某高校教师的任职学校的调动说明该高校教师的任职学校字段为该调动后的任职学校,则当获取到的上述高校教师流动信息指示某高校教师G从X学校调到了Y学校时,可以根据该目标关联规则确定该高校教师G为上述待更新高校教师,上述待更新信息字段可以具体为指示在高校教师数据库中高校教师G的任职学校字段的字段值为Y学校。
在具体实施时,上述目标关联规则可以基于关联规则挖掘算法在大量的数据中进行挖掘而确定,通过对大量的数据进行无监督的学习,从而确定出上述目标关联规则。
步骤S504、当存在所述待更新高校教师和所述待更新信息字段时,基于所述待更新信息字段更新所述高校教师数据库中所述待更新高校教师的所述目标信息字段。
本实施例中,当存在所述待更新高校教师和所述待更新信息字段时,通过根据该待更新信息字段更新所述高校教师数据库中所述待更新高校教师的所述目标信息字段,从而保证高校教师数据库中存储最新、正确的数据信息,从而保障了利用高校教师数据库中高校教师的相关数据信息确定科研成果所关联的高校教师,避免由于信息更新不及时、信息错误而导致的成果关联出错、或者影响成果关联效率的问题。
对于上述科研成果数据库中的每一待关联科研成果,执行下述步骤S102 至步骤S103。
步骤S102、基于对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述待关联科研成果关联的目标高校教师;其中,所述高校教师的研究领域基于所述科研信息字段确定;所述成果关联专家规则系统基于对所述高校教师数据库和所述科研成果数据库进行关联规则挖掘而建立。
本实施例中,上述待关联科研成果为科研成果数据库中需关联的科研成果,其具体可以是科研成果数据库中的所有或者部分科研成果,具体可以根据实际情况确定。对于科研成果数据库中的每一待关联科研成果,均执行上述步骤S102来确定与该待关联科研成果关联的目标高校教师,并执行下述步骤S103进行将目标高校教师将该待关联科研成果进行关联。
在具体确定每一个待关联科研成果所关联的目标高校教师的过程中,是通过根据“对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配”、“所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度”、以及“成果关联专家规则系统”来实现确定。
其中,“对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配”指的是通过待关联科研成果的目标属性字段所提供的属性信息以及高校教师的目标信息字段所提供的信息来确定与待关联科研成果关联的目标高校教师。
例如,示例性的,若待关联科研成果的成果名称字段指示名称为“基于深度学习的图像超分辨解决方案”,若高校教师数据库中存在一个高校教师的已知的科研成果名称字段指示名称为同为“基于深度学习的图像超分辨解决方案”,则可以将该高校教师确定为与该待关联科研成果关联的目标高校教师。
又例如,若待关联科研成果的成果完成人字段指示完成人为“李华”,若高校教师数据库中存在一个高校教师的姓名字段指示姓名为同为“李华”,则可以将该高校教师确定为与该待关联科研成果关联的目标高校教师。
上述“所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度”指的是待关联科研成果的所属领域与高校教师的研究领域之间的相关程度,可以理解的是,相关程度越高,该高校教师与该待关联科研成果关联的可能性越大。
其中,上述待关联科研成果的所属领域具体的可以根据待关联科研成果的目标属性字段中的成果领域字段确定。
上述高校教师的研究领域基于高校教师的科研信息字段确定。在具体实施时,高校教师的研究领域可以具体为高校教师的研究领域聚类画像,具体的,可以通过利用自编码器基于高校教师的科研信息字段建立高校教师的研究领域聚类画像。其中,自编码器是一种无监督学习模型,它可以学习数据的压缩表示,然后再从这种压缩表示中重构原始数据,在这个过程中,压缩表示捕获了数据的主要特征,这些特征可以用于聚类分析,从而得到教师的研究领域聚类画像。
在具体实施时,上述科研信息字段可以具体包括一个或多个,可以理解的是,所有与高校教师的科研相关的字段,都可以认为是科研信息字段。
上述“成果关联专家规则系统”为用于进行科研成果与高校教师进行关联的专家规则系统,该专家规则系统中包括多个用于关联判断的专家经验规则,该专家经验规则基于对所述高校教师数据库和所述科研成果数据库进行关联规则挖掘而建立。
其中,上述专家经验规则可以基于知识图谱的方式进行表示。具体的,知识图谱中包括高校教师和科研成果两个节点,而关联规则则可以被视为连接这些节点的边,在对高校教师数据库和所述科研成果数据库进行关联规则挖掘,得到关联规则之后,即可在高校教师和科研成果之间可以构建关联规则对应的边。
例如,若得到的关联规则为:“如果一个教师的研究领域和一个论文的领域相同,那么这个教师很可能是这个论文的作者”,则可以在知识图谱中添加一条从高校教师节点到科研成果节点的边。在此基础上,可以基于这个知识图谱来构建上述成果关联专家规则系统,成果关联专家规则系统可以根据知识图谱中的规则来判断一个高校教师是否与一个科研成果关联,从而确定出与待关联科研成果关联的目标高校教师。
本实施例中,“对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配”、“所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度”、“成果关联专家规则系统”均用于确定待关联科研成果关联的目标高校教师,其具体的执行先后顺序以及判断逻辑可以根据实际情况确定。
在一实施例中,如图7所示,上述步骤S102可以具体包括以下步骤S601至步骤S605。
步骤S601、基于所述待关联科研成果的所述目标属性字段和高校教师的所述目标信息字段之间的匹配关系确定与所述待关联科研成果匹配的第一候选高校教师。
步骤S602、当所述第一候选高校教师存在多个时,利用所述成果关联专家规则系统根据所述第一候选高校教师的所述目标信息字段和待关联科研成果的所述目标属性字段从所述第一候选高校教师中确定出符合的第二候选高校教师。
步骤S603、当所述第二候选高校教师存在多个时,基于所述科研信息字段获取各所述第二候选关联高校教师的所述研究领域,并获取各所述研究领域分别和所述待关联科研成果的所述所属领域之间的相关度。
步骤S604、将相关度最高的所述第二候选高校教师确定为所述目标高校教师;
步骤S605、当目标候选高校教师存在一个时,将所述目标候选高校教师确定为所述目标高校教师;所述目标候选高校教师为所述第一候选高校教师或所述第二候选高校教师。
本实施例中,通过先利用待关联科研成果与的所述目标属性字段和高校教师的所述目标信息字段之间的匹配关系来确定与待关联科研成果匹配的第一候选高校教师,当第一候选高校教师有多个时,为进一步确定,利用所述成果关联专家规则系统根据所述第一候选高校教师的所述目标信息字段和待关联科研成果的所述目标属性字段从所述第一候选高校教师中确定出符合的第二候选高校教师,若第二候选高校教师具有多个,则再基于所述科研信息字段获取各所述第二候选关联高校教师的所述研究领域,并获取各所述研究领域分别和所述待关联科研成果的所述所属领域之间的相关度,进而将相关度最高的第二候选高校教师确定为所述目标高校教师,提高了与待关联科研成果关联的目标高校教师的确定的科学性。
步骤S103、在所述高校教师数据库中将所述待关联科研成果与所述目标高校教师关联。
本实施例中,在确定待关联科研成果关联的目标高校教师之后,在所述高校教师数据库中将所述待关联科研成果与所述目标高校教师关联,从而实现了该待关联科研成果在高校教师数据库中的关联。
在实际应用中,随着时间的推移,会存在新增加的高校教师以及科研成果,基于此,上述步骤S103之后,还可以包括:以预设时间间隔从所述服务器地址集所对应多个服务器中获取相对于所述高校教师数据库的新增高校教师及对应的所述目标信息字段,以及相对于所述科研成果数据库的新增科研成果及对应的所述目标属性字段;将所述新增高校教师及对应的所述目标信息字段加入所述高校教师数据库中,并将所述新增科研成果及对应的所述目标属性字段加入所述科研成果数据库中;对于所述科研成果数据库中的每一所述新增科研成果,基于对所述新增科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述新增科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述新增科研成果关联的所述目标高校教师,并在所述高校教师数据库中将所述新增科研成果与所述目标高校教师关联。
其中,上述对于所述科研成果数据库中的每一所述新增科研成果所执行的确定关联的目标高校教师的步骤可以参照上述步骤S102和步骤S103,在此不赘述。
其中,在对新增科研成果进行关联时,具体是在高校教师数据库中的所有高校教师库中确定目标高校教师。
本实施例中,通过以预设时间间隔获取相对于所述高校教师数据库的新增高校教师及对应的目标信息字段,以及相对于所述科研成果数据库的新增科研成果及对应的所述目标属性字段,进而将所述新增高校教师及对应的所述目标信息字段加入所述高校教师数据库中,并将所述新增科研成果及对应的所述目标属性字段加入所述科研成果数据库中,在此基础上,对新增科研成果进行根据信息字段的匹配、领域的相关度以及专家规则系统来确定新增科研成果关联的目标高校教师,提高了高校教师数据库和科研成果数据库的全面性,提高了科研成果关联的时效性,扩大了科研成果的关联范围。
综上,本申请通过先基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库,进而对科研成果数据库中的每一待关联科研成果进行基于:待关联科研成果的目标属性字段与高校教师的目标信息字段之间的匹配、待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及通过对高校教师数据库和科研成果数据库进行关联规则挖掘而建立的专家规则系统来进行确定该待关联科研成果的关联的目标高校教师,进而在高校教师数据库中将该待关联科研成果与所述目标高校教师关联,一方面,通过基于在多个服务器中获取的数据建立高校教师数据库和科研成果数据库后,能够实现建立覆盖更大范围的高校教师数据库和科研成果数据库,在此基础上,再对科研成果数据库中的科研成果进行逐一确定关联的目标高校教师,进而在高校教师数据库中将科研成果与高校教师进行关联,从而实现了更大范围的科研成果的关联;另一方面,在具体进行科研成果与高校教师的关联中,采用信息字段匹配、领域的相关度以及成果关联专家规则系统来实现确定,不仅实现了科研成果所关联的高校教师的自动确定,也有利于提高成果关联的准确性。可见,与以高校内的人工认领和关联为主的现有技术相比,本申请能够实现自动化地、全局的科研成果与高校教师的关联,节省了人力成本,提高了科研成果关联效率。
本申请实施例还提供一种高校教师与科研成果的关联装置,该高校教师与科研成果的关联装置用于执行前述高校教师与科研成果的关联方法的任一实施例中的步骤。具体地,请参阅图8,图8示出了本申请实施例提供的一种高校教师与科研成果的关联装置700的结构示意图,该高校教师与科研成果的关联装置700具体包括数据库建立单元701和关联处理单元702。
数据库建立单元701,用于基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库;所述高校教师数据库中包括各高校教师的一个或多个目标信息字段,所述一个或多个目标信息字段中包括科研信息字段;所述科研成果数据库中包括各科研成果的一个或多个目标属性字段;
关联处理单元702,用于对于所述科研成果数据库中的每一待关联科研成果:基于对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述待关联科研成果关联的目标高校教师;其中,所述高校教师的研究领域基于所述科研信息字段确定;所述成果关联专家规则系统基于对所述高校教师数据库和所述科研成果数据库进行关联规则挖掘而建立;在所述高校教师数据库中将所述待关联科研成果与所述目标高校教师关联。
在一些实施方式中,所述服务器地址集包括科研成果服务器地址集,所述科研成果服务器地址集中包括多个预设的科研成果类型分别对应的访问地址;所述数据库建立单元701可以具体用于,在各所述科研成果类型分别对应的访问地址所对应服务器中获取各所述成果类型的科研成果数据;所述科研成果数据包括科研成果的多个属性信息;对所述科研成果的多个属性信息进行包括字段规范的预处理后,得到科研成果的一个或多个所述目标属性字段;将所述科研成果的一个或多个所述目标属性字段存储至数据库中,得到所述科研成果数据库。
在一些实施方式中,所述服务器地址集包括高校服务器地址集;所述数据库建立单元701可以具体用于,利用预设的数据采集策略在所述高校服务器地址集所对应多个高校服务器中分别进行信息采集,得到多个所述高校教师分别对应的网页数据;利用预设的网页正文提取算法分别对各所述网页数据进行网页正文提取,得到各所述高校教师分别对应的网页正文内容;利用预先构建的网页字段抽取模型对所述网页正文内容进行信息字段抽取,得到各所述高校教师的所述目标信息字段;将所述各所述高校教师的所述目标信息字段存储在数据库中,得到所述高校教师数据库。
在一些实施方式中,所述数据库建立单元701还可以用于,对于每一所述高校教师,获取所述高校教师的关键信息字段对应的语义词向量;所述关键信息字段为多个所述目标信息字段中的一个;获取各所述高校教师中两两之间所述语义词向量对应的余弦相似度;获取各所述高校教师中两两之间所述网页正文内容对应的交并比相似度;基于所述余弦相似度和所述交并比相似度确定各所述高校教师中两两之间的目标相似度;当所述目标相似度大于预设的相似度阈值时,将所述目标相似度对应的两个所述高校教师合并为一个所述高校教师。
在一些实施方式中,所述高校教师与科研成果的关联装置700还包括数据库更新单元,用于获取提供高校教师流动信息的目标网页地址;以预设时间间隔访问所述目标网页地址,并检测所述目标网页地址的对应网页中是否存在新增的高校教师流动信息;若存在所述高校教师流动信息,基于预先确定的目标关联规则确定是否存在需要进行信息更新的待更新高校教师和待更新信息字段;若存在所述待更新高校教师和所述待更新信息字段,基于所述待更新信息字段更新所述高校教师数据库中所述待更新高校教师的所述目标信息字段。
在一些实施方式中,所述数据库更新单元还可以用于,以预设时间间隔从所述服务器地址集所对应多个服务器中获取相对于所述高校教师数据库的新增高校教师及对应的所述目标信息字段,以及相对于所述科研成果数据库的新增科研成果及对应的所述目标属性字段;将所述新增高校教师及对应的所述目标信息字段加入所述高校教师数据库中,并将所述新增科研成果及对应的所述目标属性字段加入所述科研成果数据库中;所述关联处理单元702还可以用于,对于所述科研成果数据库中的每一所述新增科研成果,基于对所述新增科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述新增科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述新增科研成果关联的所述目标高校教师,并在所述高校教师数据库中将所述新增科研成果与所述目标高校教师关联。
在一些实施方式中,所述关联处理单元702可以具体用于,基于所述待关联科研成果的所述目标属性字段和高校教师的所述目标信息字段之间的匹配关系确定与所述待关联科研成果匹配的第一候选高校教师;当所述第一候选高校教师存在多个时,利用所述成果关联专家规则系统根据所述第一候选高校教师的所述目标信息字段和待关联科研成果的所述目标属性字段从所述第一候选高校教师中确定出符合的第二候选高校教师;当所述第二候选高校教师存在多个时,基于所述科研信息字段获取各所述第二候选关联高校教师的所述研究领域,并获取各所述研究领域分别和所述待关联科研成果的所述所属领域之间的相关度;将相关度最高的所述第二候选高校教师确定为所述目标高校教师;当目标候选高校教师存在一个时,将所述目标候选高校教师确定为所述目标高校教师;所述目标候选高校教师为所述第一候选高校教师或所述第二候选高校教师。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述高校教师与科研成果的关联装置700和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述高校教师与科研成果的关联装置可以实现为计算机程序的形式,该计算机程序可以在如图9示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的计算机设备的示意性框图。该计算机设备800可以是智能手机、平板电脑、个人电脑、智能穿戴设备、服务器等终端设备。参阅图9,该计算机设备800包括通过装置总线801连接的处理器802、存储器和网络接口805,其中,存储器可以包括存储介质803和内存储器804。
该存储介质803可存储操作系统8031和计算机程序8032。该计算机程序8032被执行时,可使得处理器802执行高校教师与科研成果的关联方法。
该处理器802用于提供计算和控制能力,支撑整个计算机设备800的运行。
该内存储器804为存储介质803中的计算机程序8032的运行提供环境,该计算机程序8032被处理器802执行时,可使得处理器802执行高校教师与科研成果的关联方法。
该网络接口805用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备800的限定,具体的计算机设备800可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,处理器802用于运行存储在存储器中的计算机程序8032,以实现本申请实施例公开的高校教师与科研成果的关联方法。
本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器802可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器802还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本申请实施例公开的高校教师与科研成果的关联方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,后台服务器,或者网络设备等 ) 执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种高校教师与科研成果的关联方法,其特征在于,包括:
基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库;所述高校教师数据库中包括各高校教师的一个或多个目标信息字段,所述一个或多个目标信息字段中包括科研信息字段;所述科研成果数据库中包括各科研成果的一个或多个目标属性字段;
对于所述科研成果数据库中的每一待关联科研成果:
基于对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述待关联科研成果关联的目标高校教师;其中,所述高校教师的研究领域基于所述科研信息字段确定;所述成果关联专家规则系统基于对所述高校教师数据库和所述科研成果数据库进行关联规则挖掘而建立;
在所述高校教师数据库中将所述待关联科研成果与所述目标高校教师关联;
所述基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库之后,所述方法还包括:
获取提供高校教师流动信息的目标网页地址;
以预设时间间隔访问所述目标网页地址,并检测所述目标网页地址的对应网页中是否存在新增的高校教师流动信息;
若存在所述高校教师流动信息,基于预先确定的目标关联规则确定是否存在需要进行信息更新的待更新高校教师和待更新信息字段;
若存在所述待更新高校教师和所述待更新信息字段,基于所述待更新信息字段更新所述高校教师数据库中所述待更新高校教师的所述目标信息字段;
其中,所述成果关联专家规则系统中包括多个用于关联判断的专家经验规则,所述专家经验规则基于对所述高校教师数据库和所述科研成果数据库进行关联规则挖掘而建立;所述高校教师流动信息为与高校教师相关的动态信息;所述目标关联规则基于关联规则挖掘算法对海量数据进行无监督学习而确定,所述目标关联规则用于根据所述高校教师流动信息预测所述待更新信息字段并将所述待更新信息字段与所述待更新高校教师关联;
所述基于对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述待关联科研成果关联的目标高校教师,包括:
基于所述待关联科研成果的所述目标属性字段和高校教师的所述目标信息字段之间的匹配关系确定与所述待关联科研成果匹配的第一候选高校教师;
当所述第一候选高校教师存在多个时,利用所述成果关联专家规则系统根据所述第一候选高校教师的所述目标信息字段和待关联科研成果的所述目标属性字段从所述第一候选高校教师中确定出符合的第二候选高校教师;
当所述第二候选高校教师存在多个时,基于所述科研信息字段获取各所述第二候选关联高校教师的所述研究领域,并获取各所述研究领域分别和所述待关联科研成果的所述所属领域之间的相关度;
将相关度最高的所述第二候选高校教师确定为所述目标高校教师;
当目标候选高校教师存在一个时,将所述目标候选高校教师确定为所述目标高校教师;所述目标候选高校教师为所述第一候选高校教师或所述第二候选高校教师;
其中,所述成果关联专家规则系统中的专家经验规则基于知识图谱建立。
2.根据权利要求1所述的方法,其特征在于,所述服务器地址集包括科研成果服务器地址集,所述科研成果服务器地址集中包括多个预设的科研成果类型分别对应的访问地址,所述科研成果数据库的建立方法包括:
在各所述科研成果类型分别对应的访问地址所对应服务器中获取各所述成果类型的科研成果数据;所述科研成果数据包括科研成果的多个属性信息;
对所述科研成果的多个属性信息进行包括字段规范的预处理后,得到科研成果的一个或多个所述目标属性字段;
将所述科研成果的一个或多个所述目标属性字段存储至数据库中,得到所述科研成果数据库。
3.根据权利要求1所述的方法,其特征在于,所述服务器地址集包括高校服务器地址集,所述高校教师数据库的建立方法包括:
利用预设的数据采集策略在所述高校服务器地址集所对应多个高校服务器中分别进行信息采集,得到多个所述高校教师分别对应的网页数据;
利用预设的网页正文提取算法分别对各所述网页数据进行网页正文提取,得到各所述高校教师分别对应的网页正文内容;
利用预先构建的网页字段抽取模型对所述网页正文内容进行信息字段抽取,得到各所述高校教师的所述目标信息字段;
将所述各所述高校教师的所述目标信息字段存储在数据库中,得到所述高校教师数据库。
4.根据权利要求3所述的方法,其特征在于,所述将所述各所述高校教师的所述目标信息字段存储在数据库中,得到所述高校教师数据库之前,所述方法还包括:
对于每一所述高校教师,获取所述高校教师的关键信息字段对应的语义词向量;所述关键信息字段为多个所述目标信息字段中的一个;
获取各所述高校教师中两两之间所述语义词向量对应的余弦相似度;
获取各所述高校教师中两两之间所述网页正文内容对应的交并比相似度;
基于所述余弦相似度和所述交并比相似度确定各所述高校教师中两两之间的目标相似度;
当所述目标相似度大于预设的相似度阈值时,将所述目标相似度对应的两个所述高校教师合并为一个所述高校教师。
5.根据权利要求1所述的方法,其特征在于,所述在所述高校教师数据库中将所述待关联科研成果与所述目标高校教师关联之后,所述方法还包括:
以预设时间间隔从所述服务器地址集所对应多个服务器中获取相对于所述高校教师数据库的新增高校教师及对应的所述目标信息字段,以及相对于所述科研成果数据库的新增科研成果及对应的所述目标属性字段;
将所述新增高校教师及对应的所述目标信息字段加入所述高校教师数据库中,并将所述新增科研成果及对应的所述目标属性字段加入所述科研成果数据库中;
对于所述科研成果数据库中的每一所述新增科研成果,基于对所述新增科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述新增科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述新增科研成果关联的所述目标高校教师,并在所述高校教师数据库中将所述新增科研成果与所述目标高校教师关联。
6.一种高校教师与科研成果的关联装置,其特征在于,包括:
数据库建立单元,用于基于从预设的服务器地址集所对应多个服务器中分别获取的数据建立高校教师数据库和科研成果数据库;所述高校教师数据库中包括各高校教师的一个或多个目标信息字段,所述一个或多个目标信息字段中包括科研信息字段;所述科研成果数据库中包括各科研成果的一个或多个目标属性字段;
关联处理单元,用于对于所述科研成果数据库中的每一待关联科研成果:
基于对所述待关联科研成果的所述目标属性字段与所述高校教师的所述目标信息字段进行的信息匹配、所述待关联科研成果的所属领域与所述高校教师的研究领域之间的相关度、以及成果关联专家规则系统,确定所述高校教师数据库中与所述待关联科研成果关联的目标高校教师;其中,所述高校教师的研究领域基于所述科研信息字段确定;所述成果关联专家规则系统基于对所述高校教师数据库和所述科研成果数据库进行关联规则挖掘而建立;
在所述高校教师数据库中将所述待关联科研成果与所述目标高校教师关联;
所述高校教师与科研成果的关联装置还包括:
数据库更新单元,用于:
获取提供高校教师流动信息的目标网页地址;
以预设时间间隔访问所述目标网页地址,并检测所述目标网页地址的对应网页中是否存在新增的高校教师流动信息;
若存在所述高校教师流动信息,基于预先确定的目标关联规则确定是否存在需要进行信息更新的待更新高校教师和待更新信息字段;
若存在所述待更新高校教师和所述待更新信息字段,基于所述待更新信息字段更新所述高校教师数据库中所述待更新高校教师的所述目标信息字段;
其中,所述成果关联专家规则系统中包括多个用于关联判断的专家经验规则,所述专家经验规则基于对所述高校教师数据库和所述科研成果数据库进行关联规则挖掘而建立;所述高校教师流动信息为与高校教师相关的动态信息;所述目标关联规则基于关联规则挖掘算法对海量数据进行无监督学习而确定,所述目标关联规则用于根据所述高校教师流动信息预测所述待更新信息字段并将所述待更新信息字段与所述待更新高校教师关联;
所述关联处理单元还用于:
基于所述待关联科研成果的所述目标属性字段和高校教师的所述目标信息字段之间的匹配关系确定与所述待关联科研成果匹配的第一候选高校教师;
当所述第一候选高校教师存在多个时,利用所述成果关联专家规则系统根据所述第一候选高校教师的所述目标信息字段和待关联科研成果的所述目标属性字段从所述第一候选高校教师中确定出符合的第二候选高校教师;
当所述第二候选高校教师存在多个时,基于所述科研信息字段获取各所述第二候选关联高校教师的所述研究领域,并获取各所述研究领域分别和所述待关联科研成果的所述所属领域之间的相关度;
将相关度最高的所述第二候选高校教师确定为所述目标高校教师;
当目标候选高校教师存在一个时,将所述目标候选高校教师确定为所述目标高校教师;所述目标候选高校教师为所述第一候选高校教师或所述第二候选高校教师。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311782405.0A CN117435648B (zh) | 2023-12-22 | 2023-12-22 | 高校教师与科研成果的关联方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311782405.0A CN117435648B (zh) | 2023-12-22 | 2023-12-22 | 高校教师与科研成果的关联方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117435648A CN117435648A (zh) | 2024-01-23 |
CN117435648B true CN117435648B (zh) | 2024-04-19 |
Family
ID=89555768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311782405.0A Active CN117435648B (zh) | 2023-12-22 | 2023-12-22 | 高校教师与科研成果的关联方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117435648B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742188A (zh) * | 2017-11-06 | 2018-02-27 | 承德医学院 | 一种高校教师教学科研业绩考核管理系统 |
CN108255846A (zh) * | 2016-12-29 | 2018-07-06 | 北京赛时科技有限公司 | 一种辨别同名作者的方法和装置 |
CN112131281A (zh) * | 2020-09-29 | 2020-12-25 | 华中科技大学 | 一种高校教师的教学科研数据采集管理系统 |
CN112905589A (zh) * | 2021-01-27 | 2021-06-04 | 上海市研发公共服务平台管理中心 | 科技人才数据加工方法、系统、存储介质及终端 |
CN113656687A (zh) * | 2021-07-27 | 2021-11-16 | 华南师范大学 | 基于教研数据的教师画像构建方法 |
CN114049023A (zh) * | 2021-11-15 | 2022-02-15 | 杭州青塔科技有限公司 | 基于大数据分析的高层次人才学科评定方法 |
CN114416959A (zh) * | 2021-12-01 | 2022-04-29 | 中国农业科学院农业信息研究所 | 一种科研成果推送、认领方法及系统 |
CN117236321A (zh) * | 2023-09-27 | 2023-12-15 | 上海市研发公共服务平台管理中心 | 科研成果的人名消歧与成果合并方法、系统、终端及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019087012A (ja) * | 2017-11-07 | 2019-06-06 | キヤノン株式会社 | 情報処理装置、情報処理方法、コンピュータプログラム、及び記憶媒体 |
-
2023
- 2023-12-22 CN CN202311782405.0A patent/CN117435648B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255846A (zh) * | 2016-12-29 | 2018-07-06 | 北京赛时科技有限公司 | 一种辨别同名作者的方法和装置 |
CN107742188A (zh) * | 2017-11-06 | 2018-02-27 | 承德医学院 | 一种高校教师教学科研业绩考核管理系统 |
CN112131281A (zh) * | 2020-09-29 | 2020-12-25 | 华中科技大学 | 一种高校教师的教学科研数据采集管理系统 |
CN112905589A (zh) * | 2021-01-27 | 2021-06-04 | 上海市研发公共服务平台管理中心 | 科技人才数据加工方法、系统、存储介质及终端 |
CN113656687A (zh) * | 2021-07-27 | 2021-11-16 | 华南师范大学 | 基于教研数据的教师画像构建方法 |
CN114049023A (zh) * | 2021-11-15 | 2022-02-15 | 杭州青塔科技有限公司 | 基于大数据分析的高层次人才学科评定方法 |
CN114416959A (zh) * | 2021-12-01 | 2022-04-29 | 中国农业科学院农业信息研究所 | 一种科研成果推送、认领方法及系统 |
CN117236321A (zh) * | 2023-09-27 | 2023-12-15 | 上海市研发公共服务平台管理中心 | 科研成果的人名消歧与成果合并方法、系统、终端及介质 |
Non-Patent Citations (1)
Title |
---|
职业教育大数据分析模型构建方法的研究与应用;李森;邬美林;荣喜丰;;信息与电脑(理论版);20190525(第10期);第 60-63页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117435648A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN109086303B (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
Rahman et al. | Effective reformulation of query for code search using crowdsourced knowledge and extra-large data analytics | |
JP5607164B2 (ja) | セマンティック・トレーディング・フロア | |
US8332434B2 (en) | Method and system for finding appropriate semantic web ontology terms from words | |
Zhu et al. | Recommending scientific paper via heterogeneous knowledge embedding based attentive recurrent neural networks | |
US20060184517A1 (en) | Answers analytics: computing answers across discrete data | |
US20130198192A1 (en) | Author disambiguation | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN109408821B (zh) | 一种语料生成方法、装置、计算设备及存储介质 | |
US20140188919A1 (en) | Duplicate document detection | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN113342958B (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
Jacob et al. | sCooL: A system for academic institution name normalization | |
CN106407316B (zh) | 基于主题模型的软件问答推荐方法和装置 | |
CN112330510A (zh) | 一种志愿推荐方法、装置、服务器及计算机可读存储介质 | |
Kang et al. | A random forest classifier with cost-sensitive learning to extract urban landmarks from an imbalanced dataset | |
Leskinen et al. | Reconciling and using historical person registers as linked open data in the AcademySampo portal and data service | |
Derungs et al. | Mining nearness relations from an n-grams Web corpus in geographical space | |
Quan et al. | An improved accurate classification method for online education resources based on support vector machine (SVM): Algorithm and experiment | |
US20230394236A1 (en) | Extracting content from freeform text samples into custom fields in a software application | |
CN110263083B (zh) | 知识图谱的处理方法、装置、设备和介质 | |
CN117435648B (zh) | 高校教师与科研成果的关联方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |