CN111538917B

CN111538917B - 学者迁徙路线构建方法及装置

Info

Publication number: CN111538917B
Application number: CN202010311548.3A
Authority: CN
Inventors: 唐杰; 邵洲; 袁莎; 刘德兵
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2022-08-26
Anticipated expiration: 2040-04-20
Also published as: CN111538917A

Abstract

本发明公开了一种学者迁徙路线构建方法及装置，其中，方法包括以下步骤：将论文信息转化为隶属信息；在隶属信息进行向量化处理，并通过深度学习方式确定每个学者的在每个工作地点的可能性概率；根据可能性概率使用工作地点选择机制和补充缺失地点生成学者迁徙路线。该方法可以利用科研大数据中学者的科研成果信息和合作关系网络中蕴含的信息生成准确率较高的学者迁徙路线，能够很好地利用数据中的隐含信息，识别不正确的工作地点，有效提高迁徙路线构建的准确性，简单易实现。

Description

学者迁徙路线构建方法及装置

技术领域

本发明涉及计算机网络信息技术领域，特别涉及一种学者迁徙路线构建方法及装置。

背景技术

传统的学者迁徙路线的构建主要是经过人工处理或者较粗粒度的处理，如进行国家层面的宏观分析等。Moedet等人提出了基于Scopus的同行评议期刊上发表论文的作者所属国家的方法进行学者迁徙分析。近年来，Shao等人提出了使用科研大数据还原学者迁徙的思路，并构建了一个简单的框架。其主要思想是利用学者的论文信息，但是其准确率并不是很高。Markova等人Web of Science的数据研究俄罗斯学者在全球的流动。

这些方法大多都用到了学者的科研成果信息，但是没有考虑学者命名排歧、数据噪声等一系列的问题，往往只能反映现象，并不能很好地提高学者迁徙的准确性，有待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种学者迁徙路线构建方法，该方法可以利用科研大数据中学者的科研成果信息和合作关系网络中蕴含的信息生成准确率较高的学者迁徙路线，能够很好地利用数据中的隐含信息，识别不正确的工作地点，有效提高迁徙路线构建的准确性，简单易实现。

本发明的另一个目的在于提出一种学者迁徙路线构建装置。

为达到上述目的，本发明一方面实施例提出了一种学者迁徙路线构建方法，包括以下步骤：将论文信息转化为隶属信息；在所述隶属信息进行向量化处理，并通过深度学习方式确定每个学者的在每个工作地点的可能性概率；根据所述可能性概率使用工作地点选择机制和补充缺失地点生成学者迁徙路线。

本发明实施例的学者迁徙路线构建方法，使用学者的科研成果信息及合作者关系网络为学者每一年所发表论文的工作地点建立特征向量，然后根据该特征向量判断该地点的正确性，并根据框架所构建的上下文估计学者正确的工作地点，以还原学者的迁徙路线实现学者迁徙路线的构建，从而利用科研大数据中学者的科研成果信息和合作关系网络中蕴含的信息生成准确率较高的学者迁徙路线，能够很好地利用数据中的隐含信息，识别不正确的工作地点，有效提高迁徙路线构建的准确性，简单易实现。

另外，根据本发明上述实施例的学者迁徙路线构建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述将论文信息转化为隶属信息，包括：根据学者-论文-合作者-隶属机构每年关系，将学者s所有论文P及合作者的论文P'中的每一篇p中的学者A和隶属B转化为B＝A*U的形式；将所述学者s所有论文P及合作者的论文P'中的affiliation编码为经纬度信息；对所有affiliation中的机构进行抽取，并转化为学者ID、机构名称、年份、地理位置信息的四元组。

进一步地，在本发明的一个实施例中，所述通过深度学习方式确定每个学者的在每个工作地点的可能性概率，包括：根据所述四元组和学者合作关系网络对所述隶属信息进行向量化处理；采用基于深度学习的方法输入向量并计算每一组向量的为真的概率，以输出的结果为候选集C，每一年学者对应的候选集为C_y，C_y表示学者这一年可能呆的工作地点及其概率。

进一步地，在本发明的一个实施例中，所述根据所述可能性概率使用工作地点选择机制和补充缺失地点生成学者迁徙路线，包括：采用预设公式对学者职业生涯中所在的单位进行选择，并将计算得出的s学者所有的wp_y按照时间的先后顺序进行排列成所述学者迁徙路线。

进一步地，在本发明的一个实施例中，所述预设公式为：

其中，C_y是y年的机构候选集，μ是affiliation的分布，ly和ry是y年之前和y年之后第一个机构候选集左边不为空的年份，C_ly和C_ry分别表示其对应的候选集。

为达到上述目的，本发明另一方面实施例提出了一种学者迁徙路线构建装置，包括：信息映射模块，用于将论文信息转化为隶属信息；概率计算模块，用于在所述隶属信息进行向量化处理，并通过深度学习方式确定每个学者的在每个工作地点的可能性概率；迁徙路线生成模块，用于根据所述可能性概率使用工作地点选择机制和补充缺失地点生成学者迁徙路线。

本发明实施例的学者迁徙路线构建装置，使用学者的科研成果信息及合作者关系网络为学者每一年所发表论文的工作地点建立特征向量，然后根据该特征向量判断该地点的正确性，并根据框架所构建的上下文估计学者正确的工作地点，以还原学者的迁徙路线实现学者迁徙路线的构建，从而利用科研大数据中学者的科研成果信息和合作关系网络中蕴含的信息生成准确率较高的学者迁徙路线，能够很好地利用数据中的隐含信息，识别不正确的工作地点，有效提高迁徙路线构建的准确性，简单易实现。

另外，根据本发明上述实施例的学者迁徙路线构建装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述信息映射模块进一步用于根据学者-论文-合作者-隶属机构每年关系，将学者s所有论文P及合作者的论文P'中的每一篇p中的学者A和隶属B转化为B＝A*U的形式；将所述学者s所有论文P及合作者的论文P'中的affiliation编码为经纬度信息；对所有affiliation中的机构进行抽取，并转化为学者ID、机构名称、年份、地理位置信息的四元组。

进一步地，在本发明的一个实施例中，所述概率计算模块进一步用于根据所述四元组和学者合作关系网络对所述隶属信息进行向量化处理；采用基于深度学习的方法输入向量并计算每一组向量的为真的概率，以输出的结果为候选集C，每一年学者对应的候选集为C_y，C_y表示学者这一年可能呆的工作地点及其概率。

进一步地，在本发明的一个实施例中，所述迁徙路线生成模块进一步用于采用预设公式对学者职业生涯中所在的单位进行选择，并将计算得出的s学者所有的wp_y按照时间的先后顺序进行排列成所述学者迁徙路线。

进一步地，在本发明的一个实施例中，所述预设公式为：

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的学者-论文-合作者-隶属机构每年关系图；

图2为根据本发明实施例的学者迁徙路线构建方法的流程图；

图3为根据本发明一个实施例的学者迁徙路线构建方法的流程图；

图4为根据本发明一个具体实施例的学者迁徙路线构建方法的流程图；

图5为根据本发明实施例的特征向量化处理的流程图；

图6为根据本发明实施例的学者迁徙路线构建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本申请是基于发明人对以下问题的认识和发现做出的：

学者迁徙路线是刻画学者职业生涯流动的重要方式，它展示了学者曾经的工作地点。具体到领域应用，可以分析人才流动、研究学者成长经历、引导人才升级、预测人才未来的流动方向、探究人才流动的原因等。大规模的学者迁徙路线生成需要依赖于可靠、真实、严谨的数据信息，以及可靠的、高效的方法。科研大数据平台的发展为解决本问题提供了数据基础。

学者的科研成果信息和合作关系网络中蕴含学者的迁徙信息，但是由于学者命名排歧、数据噪声等问题导致学者迁徙路线准确率低。其中，需要解决的问题可以形式化定义为：

其中，S是学者集合，P是学者集合S所对应的每年的学术成果信息，C是学者集合S的合作者关系网络，表示每一年这些学者和哪些学者合作了哪些论文，P'是其合作者对应的每年的科研成果信息，M表示框架所使用到的地图API集合，T表示学者S对应的迁徙路线，f表示通过(S,P,C,P')实现T准确率最高的方法。其中，学者每年的论文及合作者与隶属机构的关系如图1所示。

其中，s∈S表示一个特定的学者，p∈P表示一篇论文，a∈A表示论文p的作者(论文作者a同时也是一个学者，且存在

)，b∈B表示一篇学术论文中学者的隶属，这里A中实际上包含了该篇论文的合作关系。这里，A和B的关系可以表示为B＝A*U，这里U是一个0-1矩阵。本发明实施例的主要目标就是科研成果信息和合作关系网络数据基础上借助深度学习算法来使得该函数f能够使得最后得到的T的准确率最高。因此，本发明实施例设计了一种基于深度学习方法的学者迁徙路线构建方法及装置来构建学者的迁徙路线。

下面将参照附图描述根据本发明实施例提出的学者迁徙路线构建方法及装置，首先将参照附图描述根据本发明实施例提出的学者迁徙路线构建方法。

图2是本发明一个实施例的学者迁徙路线构建方法的流程图。

如图2所示，该学者迁徙路线构建方法包括以下步骤：

在步骤S201中，将论文信息转化为隶属信息。

可以理解的是，如图3所示，输入科研信息中隶属(S,P,C,P')，并进行隶属信息映射，具体地：将科研大数据平台中的论文信息转化为本发明实施例所定义的四元组，主要通过PAAS算法(基于学者学术成就的定位算法)实现。

进一步地，在本发明的一个实施例中，将论文信息转化为隶属信息，包括：根据学者-论文-合作者-隶属机构每年关系，将学者s所有论文P及合作者的论文P'中的每一篇p中的学者A和隶属B转化为B＝A*U的形式；将学者s所有论文P及合作者的论文P'中的affiliation编码为经纬度信息；对所有affiliation中的机构进行抽取，并转化为学者ID、机构名称、年份、地理位置信息的四元组。

需要说明的是，在图4中，本发明实施例将以具体的学者科研论文为例介绍如何利用科研大数据中学者的科研成果信息和合作关系网络中蕴含的信息来构建学者的迁徙路线。

具体而言，如图4所示，隶属信息映射的具体步骤包括：论文结构化处理、Affiliation地理位置化、转化为四元组三个步骤。其中，每一步的具体操作为：

1、论文结构化处理：主要是通过图1所示的学者-论文-合作者-隶属机构每年关系，将学者s所有论文P及合作者的论文P'中的每一篇p中的学者A和affiliation(隶属)B转化为上述B＝A*U的形式；

2、Affiliation地理位置化：主要采用[5]中的方法，将P和P'中的affiliation编码为经纬度信息；

3、抽取机构：对所有affiliation中的机构进行抽取，一般使用正则表式，如“[\s\w]+OF[\s\w]？(UNIVERSITY OF[\s\w]*[\w]+)”、“(？UNIVERSITY OF[\s\w]+)”等。

4、转化为四元组：将上一步骤的结果转化为<学者ID、机构名称、年份、地理位置信息>的四元组。

在步骤S202中，在隶属信息进行向量化处理，并通过深度学习方式确定每个学者的在每个工作地点的可能性概率。

可以理解的是，如图3所示，本发明实施例在隶属信息映射之后，对工作地点分布的概率计算，具体地：在对上述四元组进行向量化处理的基础上，使用基于深度学习的方法来确定每个学者的在每个工作地点的可能性概率。

进一步地，在本发明的一个实施例中，通过深度学习方式确定每个学者的在每个工作地点的可能性概率，包括：根据四元组和学者合作关系网络对隶属信息进行向量化处理；采用基于深度学习的方法输入向量并计算每一组向量的为真的概率，以输出的结果为候选集C，每一年学者对应的候选集为C_y，C_y表示学者这一年可能呆的工作地点及其概率。

具体而言，如图4所示，工作地点分布概率计算主要步骤包括：向量化、可靠性计算方法、候选集三个部分。其中，每一个步骤的详细信息如下：

1、向量化：在四元组和学者合作关系网络的基础上，按照图5的方式对其进行向量化处理。S表示学者，C表示其合作者群体。其特征分为全局特征和每年Affiliations的特征。其中全局特征包括学者论文分布和学者合作者分布，学者论文分布表述为学者s在当年y、历史年份(小于y的年份)和所有年份中该学者分别的论文数量统计；学者合作者分布表述为学者s在当年y、历史年份(小于y的年份)和所有年份中该学者分别的合作者数量统计。每年Affiliations的特征包括Affiliation分布和多个机构工作两个部分，Affiliation分布表述为对学者s的每一年的每一个affiliation在学者s和其合作者群体C在当年y、历史年份(小于y的年份)和所有年份中分别出现的次数统计；多个机构工作表述为对学者s的每一年的每一个四元组中的机构在学者s和其合作者群体C在当年y、历史年份(小于y的年份)和所有年份中分别出现的次数统计。最后，将这些向量连接成为一个一维的向量。

2、可靠性计算方法：主要采用基于深度学习的方法，比如FCN(Fully ConnectedNeural Network，全连接神经网络)、RNN(循环神经网络)、CNN(卷积神经网络)、LSTM(长短时记忆)、BiLSTM(双向LSTM)、GRU(Gated Recurrent Unit,LSTM变体)等等。在训练集训练的模型基础上，输入向量并计算每一组向量的为真的概率。可以使用Keras或者TensorFlow平台进行实现。

3、模型输出的结果为候选集C，每一年学者对应的候选集为C_y，C_y表示学者这一年可能呆的工作地点及其概率，该概率表示在给定的学者每年工作地点前提下正确的可能性，可以用P(c_y|μ)表示，μ是affiliation的分布(无需求解，只要知道P(c_y|μ)就可以)。

在步骤S203中，根据可能性概率使用工作地点选择机制和补充缺失地点生成学者迁徙路线。

可以理解的是，如图3所示，本发明实施例通过步骤S202所生成的学者工作地点的概率，使用工作地点选择机制和补充缺失地点的实现输出学者迁徙路线。输出隶属集合S所对应的知识图谱实体集合T。

进一步地，在本发明的一个实施例中，根据可能性概率使用工作地点选择机制和补充缺失地点生成学者迁徙路线，包括：采用预设公式对学者职业生涯中所在的单位进行选择，并将计算得出的s学者所有的wp_y按照时间的先后顺序进行排列成学者迁徙路线。其中，预设公式为：

具体而言，如图4所示，迁徙路线生成主要包括可靠工作地点的选择及缺失工作地点的预测和序列化处理三个步骤。其每一步骤的详细处理方法如下：

1、可靠工作地点的选择及缺失工作地点的预测：主要采用下面的公式对学者职业生涯中所在的单位进行选择。s学者y年所对应的工作地点wp_y表述为：

C_y是y年的机构候选集，μ是affiliation的分布，ly和ry是y年之前和y年之后第一个机构候选集左边不为空的年份，C_ly和C_ry分别表示其对应的候选集。任意P(c_y|μ)已经由上述的模型求解得到。

2、序列化处理，是将计算得出的s学者所有的wp_y按照时间的先后顺序进行排列成学者迁徙路线的方式。

通过以上步骤，最终生成了学者的迁徙路线。

进一步而言，实验表明，本发明实施例的方法能够很好地利用数据中的隐含信息，识别不正确的工作地点，和一般方法相比本发明实施例生成迁徙路线的准确率提升了9.21％。

具体地，实验结果如下：

从科研大数据平台中抽取了703位学者，包含146,809合作者，586,602条合作关系，573,809条affiliation和149,176篇论文。使用本发明实施例的方法进行实现，其实验结果为迁徙的准确率为79.45％，而传统方法的迁徙路线准确率为70.26％，和一般方法相比本发明实施例的迁徙路线准确率提升了9.21％。

综上，本发明实施例提出的学者迁徙路线构建方法，使用学者的科研成果信息及合作者关系网络为学者每一年所发表论文的工作地点建立特征向量，然后根据该特征向量判断该地点的正确性，并根据框架所构建的上下文估计学者正确的工作地点，以还原学者的迁徙路线实现学者迁徙路线的构建，从而利用科研大数据中学者的科研成果信息和合作关系网络中蕴含的信息生成准确率较高的学者迁徙路线，能够很好地利用数据中的隐含信息，识别不正确的工作地点，有效提高迁徙路线构建的准确性，简单易实现。

其次参照附图描述根据本发明实施例提出的学者迁徙路线构建装置。

图6是本发明一个实施例的学者迁徙路线构建装置的结构示意图。

如图6所示，该学者迁徙路线构建装置10包括：信息映射模块100、概率计算模块200和迁徙路线生成模块300。

其中，信息映射模块100用于将论文信息转化为隶属信息；概率计算模块200用于在隶属信息进行向量化处理，并通过深度学习方式确定每个学者的在每个工作地点的可能性概率；迁徙路线生成模块300用于根据可能性概率使用工作地点选择机制和补充缺失地点生成学者迁徙路线。本发明实施例的装置10可以利用科研大数据中学者的科研成果信息和合作关系网络中蕴含的信息生成准确率较高的学者迁徙路线，能够很好地利用数据中的隐含信息，识别不正确的工作地点，有效提高迁徙路线构建的准确性，简单易实现。

进一步地，在本发明的一个实施例中，信息映射模块100进一步用于根据学者-论文-合作者-隶属机构每年关系，将学者s所有论文P及合作者的论文P'中的每一篇p中的学者A和隶属B转化为B＝A*U的形式；将学者s所有论文P及合作者的论文P'中的affiliation编码为经纬度信息；对所有affiliation中的机构进行抽取，并转化为学者ID、机构名称、年份、地理位置信息的四元组。

进一步地，在本发明的一个实施例中，概率计算模块200进一步用于根据四元组和学者合作关系网络对隶属信息进行向量化处理；采用基于深度学习的方法输入向量并计算每一组向量的为真的概率，以输出的结果为候选集C，每一年学者对应的候选集为C_y，C_y表示学者这一年可能呆的工作地点及其概率。

进一步地，在本发明的一个实施例中，迁徙路线生成模块300进一步用于采用预设公式对学者职业生涯中所在的单位进行选择，并将计算得出的s学者所有的wp_y按照时间的先后顺序进行排列成学者迁徙路线。

进一步地，在本发明的一个实施例中，预设公式为：

需要说明的是，前述对学者迁徙路线构建方法实施例的解释说明也适用于该实施例的学者迁徙路线构建装置，此处不再赘述。

根据本发明实施例提出的学者迁徙路线构建装置，使用学者的科研成果信息及合作者关系网络为学者每一年所发表论文的工作地点建立特征向量，然后根据该特征向量判断该地点的正确性，并根据框架所构建的上下文估计学者正确的工作地点，以还原学者的迁徙路线实现学者迁徙路线的构建，从而利用科研大数据中学者的科研成果信息和合作关系网络中蕴含的信息生成准确率较高的学者迁徙路线，能够很好地利用数据中的隐含信息，识别不正确的工作地点，有效提高迁徙路线构建的准确性，简单易实现。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种学者迁徙路线构建方法，其特征在于，包括以下步骤：

将论文信息转化为隶属信息，所述隶属信息通过四元组表示，所述四元组为(S,P,C,P')，其中，S是学者集合，P是学者集合S所对应的每年的学术成果信息，C是学者集合S的合作者关系网络，表示每一年这些学者和哪些学者合作了哪些论文，P'是其合作者对应的每年的科研成果信息；

在所述隶属信息进行向量化处理，并通过深度学习方式确定每个学者的在每个工作地点的可能性概率，其中，所述通过深度学习方式确定每个学者的在每个工作地点的可能性概率，包括：

根据所述四元组和学者合作关系网络对所述隶属信息进行向量化处理，

采用基于深度学习的方法输入向量并计算每一组向量的为真的概率，以输出的结果为候选集C，每一年学者对应的候选集为C_y，C_y表示学者这一年可能呆的工作地点及其概率；以及

根据所述可能性概率使用工作地点选择机制和补充缺失地点生成学者迁徙路线，其中，采用预设公式对学者职业生涯中所在的单位进行选择，并将计算得出的s学者所有的wp_y按照时间的先后顺序进行排列成所述学者迁徙路线，所述预设公式为：

其中，C_y是y年的机构候选集，μ是作者隶属单位的分布，ly和ry是y年之前和y年之后第一个机构候选集左边不为空的年份，C_ly和C_ry分别表示其对应的候选集。

2.根据权利要求1所述的方法，其特征在于，所述将论文信息转化为隶属信息，包括：

根据学者-论文-合作者-隶属机构每年关系，将学者s所有论文P及合作者的论文P'中的每一篇p中的学者A和隶属B转化为B＝A*U的形式；

将所述学者s所有论文P及合作者的论文P'中的作者隶属单位编码为经纬度信息；

对所有作者隶属单位中的机构进行抽取，并转化为学者ID、机构名称、年份、地理位置信息的四元组。

3.一种学者迁徙路线构建装置，其特征在于，包括：

信息映射模块，用于将论文信息转化为隶属信息，所述隶属信息表示为(S,P,C,P')，其中，S是学者集合，P是学者集合S所对应的每年的学术成果信息，C是学者集合S的合作者关系网络，表示每一年这些学者和哪些学者合作了哪些论文，P'是其合作者对应的每年的科研成果信息；

概率计算模块，用于在所述隶属信息进行向量化处理，并通过深度学习方式确定每个学者的在每个工作地点的可能性概率，其中，所述概率计算模块进一步用于根据所述四元组和学者合作关系网络对所述隶属信息进行向量化处理；采用基于深度学习的方法输入向量并计算每一组向量的为真的概率，以输出的结果为候选集C，每一年学者对应的候选集为C_y，C_y表示学者这一年可能呆的工作地点及其概率；以及

迁徙路线生成模块，用于根据所述可能性概率使用工作地点选择机制和补充缺失地点生成学者迁徙路线，其中，所述迁徙路线生成模块进一步用于采用预设公式对学者职业生涯中所在的单位进行选择，并将计算得出的s学者所有的wp_y按照时间的先后顺序进行排列成所述学者迁徙路线，所述预设公式为：

4.根据权利要求3所述的装置，其特征在于，所述信息映射模块进一步用于根据学者-论文-合作者-隶属机构每年关系，将学者s所有论文P及合作者的论文P'中的每一篇p中的学者A和隶属B转化为B＝A*U的形式；将所述学者s所有论文P及合作者的论文P'中的作者隶属单位编码为经纬度信息；对所有作者隶属单位中的机构进行抽取，并转化为学者ID、机构名称、年份、地理位置信息的四元组。