CN106934040B

CN106934040B - 团队信息的确定方法和确定装置

Info

Publication number: CN106934040B
Application number: CN201710155185.7A
Authority: CN
Inventors: 韩红旗; 李仲; 刘洢颖; 姚长青; 李琳娜; 侯慧敏
Original assignee: Institute Of Scientific And Technical Information Of China
Current assignee: Institute Of Scientific And Technical Information Of China
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2020-06-16
Anticipated expiration: 2037-03-15
Also published as: CN106934040A

Abstract

本发明提供了团队信息的确定方法和确定装置，该方法包括：基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库；基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库；基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库；基于机构信息库、人员信息库和所述主题信息库，确定针对各个主题的团队信息库。应用本技术方案相比于其它方法确定的团队信息更细致，对基于团队信息的科研管理决策更有效、更有价值。

Description

团队信息的确定方法和确定装置

技术领域

本发明涉及大数据领域，具体而言，本发明涉及一种团队信息的确定方法和一种团队信息的确定装置。

背景技术

随着科学技术的飞速发展，科学技术的分支也越来越多，而科学技术的分支交叉发展致使传统的学科间界限变得越来越模糊。由于各学科之间的交叉性和渗透性达到了前所未有的程度,科研人员不仅需要独立思考和研究,而且还需要科研团队的支持。

科研团队是指以科技研究和开发为内容，由能够技能互补并愿意为共同的科研目的和方法相互承担责任的科研人员组成的群体。其中，科研团队可分为显性科研团队和隐性科研团队。显性科研团队是以固定的机构，如，课题组、实验室为标准而建立的科研团队，或者是由学术组织人组织科研人员来构成的机构团队或学术团队。隐性科研团队是具有明确的研究目标或研究方向和研究平台，并结合已有或者存在潜在的合作基础而形成的团队。

在现有技术中，科研团队的确定方法一般基于人工调查、采集数据来实现，或是通过大型文献数据库建立整体网络和数据挖掘算法实现。但是这些科研团队的确定方法不仅耗费了较高的人工成本、还耗费了大量的时间、且最后确定到的科研团队的结果也不够全面。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

本发明的一个实施例提出了一种团队信息的确定方法，包括：

基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库；

基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库；

基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库；

基于机构信息库、人员信息库和主题信息库，确定针对各个主题的团队信息库。

优选地，基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库，包括：

对文本数据对应的至少一个原始机构名称信息进行名称抽取、合并及去重处理，以确定符合预置条件的机构名称信息；

基于预置的规范机构名称信息，对已确定的机构名称信息进行规范化处理，并基于规范化处理后的机构名称信息来创建机构信息库。

优选地，基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库，包括：

对文本数据对应的至少一个原始著者姓名信息进行姓名抽取、消歧及合并处理，以确定符合预置条件的著者姓名信息；

基于机构信息库中机构名称信息和已确定的各个著者姓名信息，建立机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系；

基于文本数据和机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系，并基于关联关系来创建人员信息库。

优选地，基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库，包括：

对文本数据进行分词处理，并对分词处理得到的分词片段的出现频率进行统计处理；

将各个分词片段、分词片段的出现频率和人员信息库中的著者姓名信息输入到预置主题模型中，以获取到文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息；

基于已获取的主题信息和各个主题信息对应著者姓名信息的分布信息，通过预置选择规则选择出针对任一著者姓名信息的多个主题信息，以创建主题信息库。

优选地，基于机构信息库、人员信息库和主题信息库，确定针对各个主题的团队信息库，包括：

基于主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系，以及人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系，建立机构信息库、人员信息库和主题信息库之间的关联关系；

基于机构信息库、人员信息库和主题信息库之间的关联关系，建立主题信息库中针对各个主题信息对应的机构名称信息的合作关系网络，合作关系网络包括一个主题信息对应的一个机构名称下多个著者姓名信息之间的关系；

针对任一合作关系网络中，判断是否存在无关联关系的著者姓名信息；

若存在，则将无关联关系的著者姓名信息之间建立关联关系；

基于预置分析方式，确定一个或多个合作关系网络中具有关联关系的多个著者姓名信息，并将具有关联关系的多个著者姓名信息作为一个团队，以确定团队信息库。

该方法还包括：

对比各个团队中的著者姓名信息；

基于对比结果，将包含完全相同的著者姓名信息的团队进行合并。

其中，团队包括以下任一项：

同机构团队和/或跨机构团队：

同机构团队为任一团队下所有的著者姓名信息对应于同一个机构名称信息；

跨机构团队为任一团队下的所有的著者姓名信息对应于至少两个科研机构。

本发明的另一个实施例提出了一种团队信息的确定装置，包括：

第一创建模块，用于基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库；

第二创建模块，用于基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库；

第三创建模块，用于基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库；

确定模块，用于基于机构信息库、人员信息库和主题信息库，确定针对各个主题的团队信息库。

优选地，第一创建模块包括：

第一处理单元，用于对文本数据对应的至少一个原始机构名称信息进行名称抽取、合并及去重处理，以确定符合预置条件的机构名称信息；

规范单元，用于基于预置的规范机构名称信息，对已确定的机构名称信息进行规范化处理，并基于规范化处理后的机构名称信息来创建机构信息库。

优选地，第二创建模块包括：

第二处理单元，用于对文本数据对应的至少一个原始著者姓名信息进行姓名抽取、消歧及合并处理，以确定符合预置条件的著者姓名信息；

第一建立单元，用于基于机构信息库中机构名称信息和已确定的各个著者姓名信息，建立机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系；

第二建立单元，用于基于文本数据和机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系，并基于关联关系来创建人员信息库。

优选地，第三创建模块包括：

第三处理单元，用于对文本数据进行分词处理，并对分词处理得到的分词片段的出现频率进行统计处理；

获取单元，用于将各个分词片段、分词片段的出现频率和人员信息库中的著者姓名信息输入到预置主题模型中，以获取到文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息；

选择单元，用于基于已获取的主题信息和各个主题信息对应著者姓名信息的分布信息，通过预置选择规则选择出针对任一著者姓名信息的多个主题信息，以创建主题信息库。

优选地，确定模块包括：

第三建立单元，用于基于主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系，以及人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系，建立机构信息库、人员信息库和主题信息库之间的关联关系；

第四建立单元，用于基于机构信息库、人员信息库和主题信息库之间的关联关系，建立主题信息库中针对各个主题信息对应的机构名称信息的合作关系网络，合作关系网络包括一个主题信息对应的一个机构名称下多个著者姓名信息之间的关系；

判断单元，用于针对任一合作关系网络中，判断是否存在无关联关系的著者姓名信息；

执行单元，用于若存在，则将无关联关系的著者姓名信息之间建立关联关系；

确定单元，用于基于预置分析方式，确定一个或多个合作关系网络中具有关联关系的多个著者姓名信息，并将具有关联关系的多个著者姓名信息作为一个团队，以确定团队信息库。

优选地，该装置还包括：

对比模块，用于对比各个团队中的著者姓名信息；

合并模块，用于基于对比结果，将包含完全相同的著者姓名信息的团队进行合并。

优选地，团队包括以下任一项：

同机构团队和/或跨机构团队：

本发明的技术方案中，基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库；基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库；基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库；基于机构信息库、人员信息库和主题信息库，确定针对各个主题的团队信息库，能够准确地、全面地确定团队信息，且减少人工确定团队信息的较高成本，缩减人工确定团队信息的时间；同时当文本数据被更新时，团队信息也可以及时被更新，避免造成已确定的团队信息不完整且团队中的著者姓名信息也不完整的情况发生。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一个实施例的团队信息的确定方法的流程示意图；

图2为本发明中的一个优选实施例的创建机构信息库的流程示意图；

图3为本发明中的另一个优选实施例的创建人员信息库的流程示意图；

图4为本发明中的又一个优选实施例的创建主题信息库的流程示意图；

图5为本发明中的再一个优选实施例的确定团队信息库的流程示意图；

图6为本发明中的再一个优选实施例的针对任一存在无关联关系的著者姓名信息的合作关系网络的示意图；

图7为本发明中的再一个优选实施例的团队类型的示意图；

图8为本发明中的再一个优选实施例的同机构团队的示意图；

图9为本发明中的再一个优选实施例的跨机构团队的示意图；

图10为本发明中的另一个优选实施例的团队信息的确定装置的结构框架示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

图1为本发明一个实施例的团队信息的确定方法的流程示意图。

需要说明的是，本实施例的执行主体是应用程序。

步骤S101：基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库；步骤S102：基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库；步骤S103：基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库；步骤S104：基于机构信息库、人员信息库和主题信息库，确定针对各个主题的团队信息库。

以下针对各个步骤的具体实现做进一步的说明：

步骤S101：基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库。

其中，文本数据包括但不限于：论文数据、专利申请数据、专利数据。

具体地，基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库的步骤，包括：对文本数据对应的至少一个原始机构名称信息进行名称抽取、合并及去重处理，以确定符合预置条件的机构名称信息；基于预置的规范机构名称信息，对已确定的机构名称信息进行规范化处理，并基于规范化处理后的机构名称信息来创建机构信息库。

例如，如图2所示，获取预置时间内的全部文本数据，并去除重复的文本数据，对去重后的每个文本数据设置标识符，如，设置论文数据“生物制药的现状和未来的应用”的标识符为“001”、设置专利申请数据“2012XXXXXXXX.6，一种制药方法”的标识符为“002”、设置专利数据“2013XXXXXXXX.0，生物制药的废渣处理方法”的标识符为“003”；抽取上述文本数据对应的原始机构名称信息，如，抽取论文数据“生物制药的现状和未来”对应的原始机构名称信息“XX大学XX学院”，抽取专利申请数据“2012XXXXXXXX.6，一种制药方法”对应的原始机构名称信息“XX生物科技有限公司、张X”，抽取专利数据“2013XXXXXXXX.0，生物制药的废渣处理方法”对应的原始机构名称信息“XXXXX股份公司”；对上述论文数据、专利申请数据和专利数据对应的至少一个原始机构名称信息进行一级机构名称抽取，并剔除专利申请数据和专利数据对应的所有为自然人的申请人，如，剔除“张X”；将提取到的一级机构名称信息进行合并及去除重复的一级机构名称信息；最终确定的一级机构名称信息即为符合预置条件的一级机构名称信息，如，XX大学XX学院、XX生物科技有限公司和XXXXX股份公司；对已确定的一级机构名称信息进行规范化处理，若上述提取到的一级机构名称信息存在不规范的情况，则将该一级机构名称信息进行规范化处理，并基于规范化处理后的机构名称信息来创建机构信息库。即该机构信息库记录了规范化后的一级机构名称信息和原始一级机构名称信息与规范化后的一级机构名称信息的映射关系。

需要说明的是，一般论文数据中对应的机构名称信息可能包含二级机构信息和一级机构名称信息，所以需要将一级机构名称信息抽取出来，以剔除二级机构名称信息。而专利申请数据和专利数据中对应的申请人名称信息或专利权人名称信息，即对应的机构名称信息，一般仅包含一级机构名称信息，若也包含二级机构名称信息则将一级机构名称信息抽取出来，但由于申请人名称信息或专利权人名称信息还可能有包含是自然人的情况，故需要将这些自然人进行剔除。其中，一级机构为包括但不限于，大学，研究所，设计院，股份公司等；二级机构包括但不限于，大学附属学院，研究院附属公司等。通过对论文数据、专利申请数据和专利数据的分析，保证了数据源的全面性和发现团队信息的全面性；且在对上述文本数据进行预处理时不需要对单独著者或单独发明人的文本数据进行剔除，从而提高了团队信息的完整性；同时避免了发现虚假的团队信息，确保了团队信息的准确性。

步骤S102：基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库。

其中，著者包括：论文的作者、专利申请的发明人、专利的发明人。

具体地，基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库的步骤，包括：对文本数据对应的至少一个原始著者姓名信息进行姓名抽取、消歧及合并处理，以确定符合预置条件的著者姓名信息；基于机构信息库中机构名称信息和已确定的各个著者姓名信息，建立机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系；基于文本数据和机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系，并基于关联关系来创建人员信息库。

例如，如图3所示，抽取上述论文数据“生物制药的现状和未来”对应的原始著者姓名信息“谢XX，饶XX”，抽取专利申请数据“2012XXXXXXXX.6，一种制药方法”对应的原始著者姓名信息“张X，吴X，赵XX，王XX”，抽取专利数据“2013XXXXXXXX.0，生物制药的废渣处理方法”对应的原始著者姓名信息“AXX，NXX，JXX”；基于姓名消歧算法对上述抽取到的原始著者姓名信息进行消歧，并将消歧后的著者姓名信息进行合并；也可以先分别对抽取到的论文数据对应的原始著者姓名信息进行消歧和抽取到的专利申请数据和专利数据对应的原始著者姓名信息进行消歧，再将各自消歧后著者姓名信息进行合并，并基于创建的机构信息库，将合并后的著者姓名信息进行去重。最终基于得到的处理后的著者姓名信息；基于机构信息库中机构名称信息和已确定的各个著者姓名信息的隶属关系，建立机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，如，“XX大学XX学院”对应“谢XX，饶XX”、“XX生物科技有限公司”对应“张X，吴X，赵XX，王XX”和“XXXXX股份公司”对应“AXX，NXX，JXX”；基于文本数据和机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系，并基于关联关系来创建人员信息库，即该人员信息库记录了著者姓名信息、著者姓名信息对应的发表的论文、专利申请和专利的情况，以及著者姓名信息与机构名称信息之间的对应关系，如，下述表1所示：

表1

需要说明的是，著者姓名信息包括论文数据的作者姓名信息和专利申请数据和专利数据的发明人姓名信息。

步骤S103：基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库。

具体地，基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库的步骤，包括：对文本数据进行分词处理，并对分词处理得到的分词片段的出现频率进行统计处理；将各个分词片段、分词片段的出现频率和人员信息库中的著者姓名信息输入到预置主题模型中，以获取到文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息；基于已获取的主题信息和各个主题信息对应著者姓名信息的分布信息，通过预置选择规则选择出针对任一著者姓名信息的多个主题信息，以创建主题信息库。

例如，如图4所示，对上述论文数据中的题目、摘要和关键词与专利申请数据和专利数据中的专利申请或专利的名称、摘要和权利要求内容进行合并，并对合并后的文本数据进行分词、去除停用词以及对得到的分词片段的出现频率进行统计处理；将各个分词片段、分词片段的出现频率和人员信息库中的著者姓名信息输入到AT主题模型中，以获取到AT主题模型输出的文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息；通过设定阈值条件选择满足阈值条件的主题信息，或选择与著者相关联度最高的5个主题作为一个著者的主题信息，从而创建主题信息库，则该主题信息库记录了得到的主题信息和著者姓名信息的主题信息。

需要说明的是，本步骤能够确定在任一主题信息下的团队信息，而不是只确定合作的团队信息，而不知道该合作的团队在什么方面进行了合作，使得在任一主题信息下确定的团队信息相比于其它方法确定的团队信息更细致，对基于团队信息的科研管理决策更有效、更有价值。

步骤S104：基于机构信息库、人员信息库和主题信息库，确定针对各个主题的团队信息库。

具体地，基于机构信息库、人员信息库和主题信息库，确定针对各个主题的团队信息库的步骤，包括：基于主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系，以及人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系，建立机构信息库、人员信息库和主题信息库之间的关联关系；基于机构信息库、人员信息库和主题信息库之间的关联关系，建立主题信息库中针对各个主题信息对应的机构名称信息的合作关系网络，合作关系网络包括一个主题信息对应的一个机构名称下多个著者姓名信息之间的关系；针对任一合作关系网络中，判断是否存在无关联关系的著者姓名信息；若存在，则将无关联关系的著者姓名信息之间建立关联关系；基于预置分析方式，确定一个或多个合作关系网络中具有关联关系的多个著者姓名信息，并将具有关联关系的多个著者姓名信息作为一个团队，以确定团队信息库。

其中，团队包括以下任一项：同机构团队和/或跨机构团队：同机构团队为任一团队下所有的著者姓名信息对应于同一个机构名称信息；跨机构团队为任一团队下的所有的著者姓名信息对应于至少两个科研机构。图7示出了为本发明中的再一个优选实施例的团队类型的示意图；图8示出了为本发明中的再一个优选实施例的同机构团队的示意图；图9示出了为本发明中的再一个优选实施例的跨机构团队的示意图。

例如，如图5所示，基于主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系，以及人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系，建立机构信息库、人员信息库和主题信息库之间的关联关系；即基于创建的机构信息库、人员信息库和主题信息库，确定人员信息库与机构信息库的关联关系和人员信息库与主题信息库的关联关系；基于文本数据结合文本数据的标识符或直接通过人员信息库建立人员信息库中著者之间的合作关系；从创建的主题信息库中选择一个主题信息，对该主题信息对应的著者姓名信息创建合作关系网络，针对该主题信息对应的每一个机构名称信息，判断该机构名称信息的著者姓名信息的合作关系网络判断是否存在无关联关系的著者姓名信息，如果存在无关联关系的著者姓名信息，则通过增加关联线的方式使无关联关系的子网络连通，图6示出了本发明中的再一个优选实施例的针对任一存在无关联关系的著者姓名信息的合作关系网络的示意图，在增加关联线时可分别选择两个无关联的子网络的任一节点，如，图6中的l1和l5，并将l1与l2相连，将l5与l4相连，使得该合作关系网络中没有无关系的著者姓名信息；然后利用社会网络分析方法中的组元分析，获取该下合作关系网络的所有组元，每一个组元即为团队信息。图8示出了为本发明中的再一个优选实施例的同机构团队的示意图；图9示出了为本发明中的再一个优选实施例的跨机构团队的示意图。

需要说明的是，由于文本数据会被实时更新或者文本数据会被在预置周期内进行更新，则需要本方法在预置的时间内，获取更新的文本数据，即新增的文本数据，并基于上述步骤S101-步骤S104的具体实施方式对更新的文本数据进行处理，以获取到更新的团队信息，使得当文本数据被更新时，团队信息也可以及时被更新，避免造成已确定的团队信息不完整且团队中的著者姓名信息也不完整的情况发生。

具体地，该方法还包括：对比各个团队中的著者姓名信息；基于对比结果，将包含完全相同的著者姓名信息的团队进行合并。

第一创建模块，基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库；第二创建模块，基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库；第三创建模块，基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库；确定模块，基于机构信息库、人员信息库和主题信息库，确定针对各个主题的团队信息库。

以下针对各个模块的具体实现做进一步的说明：

第一创建模块，基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库。

具体地，第一创建模块包括：第一处理单元，对文本数据对应的至少一个原始机构名称信息进行名称抽取、合并及去重处理，以确定符合预置条件的机构名称信息；规范单元，基于预置的规范机构名称信息，对已确定的机构名称信息进行规范化处理，并基于规范化处理后的机构名称信息来创建机构信息库。

例如，获取预置时间内的全部文本数据，并去除重复的文本数据，对去重后的每个文本数据设置标识符，如，设置论文数据“生物制药的现状和未来”的标识符为“001”、设置专利申请数据“2012XXXXXXXX.6，一种制药方法”的标识符为“002”、设置专利数据“2013XXXXXXXX.0，生物制药的废渣处理方法”的标识符为“003”；第一处理单元抽取上述文本数据对应的原始机构名称信息，如，抽取论文数据“生物制药的现状和未来”对应的原始机构名称信息“XX大学XX学院”，抽取专利申请数据“2012XXXXXXXX.6，一种制药方法”对应的原始机构名称信息“XX生物科技有限公司、张X”，抽取专利数据“2013XXXXXXXX.0，生物制药的废渣处理方法”对应的原始机构名称信息“XXXXX股份公司”；对上述论文数据、专利申请数据和专利数据对应的至少一个原始机构名称信息进行一级机构名称抽取，并剔除专利申请数据和专利数据对应的所有为自然人的申请人，如，剔除“张X”；将抽取到的一级机构名称信息进行合并及去除重复的一级机构名称信息；最终确定的一级机构名称信息即为符合预置条件的一级机构名称信息，如，XX大学XX学院、XX生物科技有限公司和XXXXX股份公司；规范单元对已确定的一级机构名称信息进行规范化处理，若上述提取到的一级机构名称信息存在不规范的情况，则将该一级机构名称信息进行规范化处理，并基于规范化处理后的机构名称信息来创建机构信息库。即该机构信息库记录了规范化后的一级机构名称信息和原始一级机构名称信息与规范化后的一级机构名称信息的映射关系。

需要说明的是，一般论文数据中对应的机构名称信息可能包含二级机构信息和一级机构名称信息，所以需要将一级机构名称信息提取出来，以剔除二级机构名称信息。而专利申请数据和专利数据中对应的申请人名称信息或专利权人名称信息，即对应的机构名称信息，一般仅包含一级机构名称信息，若也包含二级机构名称信息则将一级机构名称信息提取出来，但由于申请人名称信息或专利权人名称信息还可能有包含是自然人的情况，故需要将这些自然人进行剔除。其中，一级机构为包括但不限于，大学，研究所，设计院，股份公司等；二级机构包括但不限于，大学附属学院，研究院附属公司等。通过对论文数据、专利申请数据和专利数据的分析，保证了数据源的全面性和发现团队信息的全面性；且在对上述文本数据进行预处理时不需要对单独著者或单独发明人的文本数据进行剔除，从而提高了团队信息的完整性；同时避免了发现虚假的团队信息，确保了团队信息的准确性。

第二创建模块，基于获取到的文本数据对应的至少一个著者姓名信息，并结合文本数据和机构信息库来创建人员信息库。

具体地，第二创建模块包括：第二处理单元，对文本数据对应的至少一个原始著者姓名信息进行姓名抽取、消歧及合并处理，以确定符合预置条件的著者姓名信息；第一建立单元，基于机构信息库中机构名称信息和已确定的各个著者姓名信息，建立机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系；第二建立单元，基于文本数据和机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系，并基于关联关系来创建人员信息库。

例如，第二处理单元抽取上述论文数据“生物制药的现状和未来”对应的原始著者姓名信息“谢XX，饶XX”，抽取专利申请数据“2012XXXXXXXX.6，一种制药方法”对应的原始著者姓名信息“张X，吴X，赵XX，王XX”，抽取专利数据“2013XXXXXXXX.0，生物制药的废渣处理方法”对应的原始著者姓名信息“AXX，NXX，JXX”；基于姓名消歧算法对上述抽取到的原始著者姓名信息进行消歧，并将消歧后的著者姓名信息进行合并；也可以先分别对抽取到的论文数据对应的原始著者姓名信息进行消歧和抽取到的专利申请数据和专利数据对应的原始著者姓名信息进行消歧，再将各自消歧后著者姓名信息进行合并，并基于创建的机构信息库，将合并后的著者姓名信息进行去重。最终基于得到的处理后的著者姓名信息；第一建立单元基于机构信息库中机构名称信息和已确定的各个著者姓名信息的隶属关系，建立机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，如，“XX大学XX学院”对应“谢XX，饶XX”、“XX生物科技有限公司”对应“张X，吴X，赵XX，王XX”和“XXXXX股份公司”对应“AXX，NXX，JXX”；第二建立单元基于文本数据和机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系，并基于关联关系来创建人员信息库，即该人员信息库记录了著者姓名信息、著者姓名信息对应的发表的论文、专利申请和专利的情况，以及著者姓名信息与机构名称信息之间的对应关系，如，下述表1所示：

表1

第三创建模块，基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库。

具体地，第三创建模块包括：第三处理单元，对文本数据进行分词处理，并对分词处理得到的分词片段的出现频率进行统计处理；获取单元，将各个分词片段、分词片段的出现频率和人员信息库中的著者姓名信息输入到预置主题模型中，以获取到文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息；选择单元，基于已获取的主题信息和各个主题信息对应著者姓名信息的分布信息，通过预置选择规则选择出针对任一著者姓名信息的多个主题信息，以创建主题信息库。

例如，对上述论文数据中的题目、摘要和关键词与专利申请数据和专利数据中的专利申请或专利的名称、摘要和权利要求内容进行合并，并第三处理单元对合并后的文本数据进行分词、去除停用词以及对得到的分词片段的出现频率进行统计处理；获取单元将各个分词片段、分词片段的出现频率和人员信息库中的著者姓名信息输入到AT主题模型中，以获取到AT主题模型输出的文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息；选择单元通过设定阈值条件选择满足阈值条件的主题信息，或选择与著者相关联度最高的5个主题作为一个著者的主题信息，从而创建主题信息库，则该主题信息库记录了得到的主题信息和著者姓名信息的主题信息。

需要说明的是，第三创建模块能够确定在任一主题信息下的团队信息，而不是只确定合作的团队信息，而不知道该合作的团队信息在什么方面进行了合作，使得在任一主题信息下确定的团队信息提供的信息相比于其它方法确定的团队信息更细致，对基于团队信息的科研管理决策更有效、更有价值。

确定模块，基于机构信息库、人员信息库和主题信息库，确定针对各个主题的团队信息库。

具体地，确定模块包括：第三建立单元，基于主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系，以及人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系，建立机构信息库、人员信息库和主题信息库之间的关联关系；第四建立单元，基于机构信息库、人员信息库和主题信息库之间的关联关系，建立主题信息库中针对各个主题信息对应的机构名称信息的合作关系网络，合作关系网络包括一个主题信息对应的一个机构名称下多个著者姓名信息之间的关系；判断单元，针对任一合作关系网络中，判断是否存在无关联关系的著者姓名信息；执行单元，若存在，则将无关联关系的著者姓名信息之间建立关联关系；确定单元，基于预置分析方式，确定一个或多个合作关系网络中具有关联关系的多个著者姓名信息，并将具有关联关系的多个著者姓名信息作为一个团队，以确定团队信息库。

例如，第三建立单元基于主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系，以及人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系，建立机构信息库、人员信息库和主题信息库之间的关联关系；即基于创建的机构信息库、人员信息库和主题信息库，确定人员信息库与机构信息库的关联关系和人员信息库与主题信息库的关联关系；第四建立单元基于文本数据结合文本数据的标识符或直接通过人员信息库建立人员信息库中著者之间的合作关系；从创建的主题信息库中选择一个主题信息，对该主题信息对应的著者姓名信息创建合作关系网络，判断单元针对该主题信息对应的每一个机构名称信息，判断该机构名称信息的著者姓名信息的合作关系网络判断是否存在无关联关系的著者姓名信息，如果存在无关联关系的著者姓名信息，则执行单元通过增加关联线的方式使无关联关系的子网络连通，图6示出了本发明中的再一个优选实施例的针对任一存在无关联关系的著者姓名信息的合作关系网络的示意图，在增加关联线时可分别选择两个无关联的子网络的任一节点，如，图6中的l1和l5，并将l1与l2相连，将l5与l4相连，使得该合作关系网络中没有无关系的著者姓名信息；然后确定单元利用社会网络分析方法中的组元分析，获取该下合作关系网络的所有组元，每一个组元即为团队信息。图8示出了为本发明中的再一个优选实施例的同机构团队的示意图；图9示出了为本发明中的再一个优选实施例的跨机构团队的示意图。

需要说明的是，由于文本数据会被实时更新或者文本数据会被在预置周期内进行更新，则需要本装置在预置的时间内，获取更新的文本数据，即新增的文本数据，并基于上述第一创建模块、第二创建模块、第三创建模块和确定模块的具体实施方式对更新的文本数据进行处理，以获取到更新的团队信息，使得当文本数据被更新时，团队信息也可以及时被更新，避免造成已确定的团队信息不完整且团队中的著者姓名信息也不完整的情况发生。

具体地，该装置还包括：对比模块，对比各个团队中的著者姓名信息；合并模块，基于对比结果，将包含完全相同的著者姓名信息的团队进行合并。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种团队信息的确定方法，其特征在于，包括：

基于获取到的所述文本数据对应的至少一个著者姓名信息，并结合所述文本数据和所述机构信息库来创建人员信息库，其中，所述人员信息库中包含有各个著者姓名信息、机构名称信息与所述文本数据之间的关联关系；

基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库，其中，所述主题信息库中包含有各著者姓名信息与所述文本数据包含的主题信息之间的关联关系；

基于所述机构信息库、所述人员信息库和所述主题信息库，确定针对各个主题的团队信息库。

2.根据权利要求1所述的方法，其中，基于获取到的文本数据对应的至少一个机构名称信息，来创建机构信息库，包括：

基于预置的规范机构名称信息，对已确定的所述机构名称信息进行规范化处理，并基于规范化处理后的机构名称信息来创建机构信息库。

3.根据权利要求1或2所述的方法，其中，基于获取到的所述文本数据对应的至少一个著者姓名信息，并结合所述文本数据和所述机构信息库来创建人员信息库，包括：

基于所述机构信息库中机构名称信息和已确定的各个著者姓名信息，建立所述机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系；

基于所述文本数据和所述机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系，并基于所述关联关系来创建人员信息库。

4.根据权利要求1或2所述的方法，其中，基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库，包括：

对所述文本数据进行分词处理，并对分词处理得到的分词片段的出现频率进行统计处理；

将各个分词片段、分词片段的出现频率和所述人员信息库中的著者姓名信息输入到预置主题模型中，以获取到所述文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息；

5.根据权利要求1或2所述的方法，其中，基于所述机构信息库、所述人员信息库和所述主题信息库，确定针对各个主题的团队信息库，包括：

基于所述主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系，以及所述人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系，建立所述机构信息库、所述人员信息库和所述主题信息库之间的关联关系；

基于所述机构信息库、所述人员信息库和所述主题信息库之间的关联关系，建立所述主题信息库中针对各个主题信息对应的机构名称信息的合作关系网络，所述合作关系网络包括一个主题信息对应的一个机构名称下多个著者姓名信息之间的关系；

6.根据权利要求5所述的方法，其中，还包括：

对比各个团队中的著者姓名信息；

7.根据权利要求6所述的方法，其中，所述团队包括以下任一项：

同机构团队和/或跨机构团队：

所述同机构团队为任一团队下所有的著者姓名信息对应于同一个机构名称信息；

所述跨机构团队为任一团队下的所有的著者姓名信息对应于至少两个科研机构。

8.一种团队信息的确定装置，其特征在于，包括：

第二创建模块，用于基于获取到的所述文本数据对应的至少一个著者姓名信息，并结合所述文本数据和所述机构信息库来创建人员信息库，其中，所述人员信息库中包含有各个著者姓名信息、机构名称信息与所述文本数据之间的关联关系；

第三创建模块，用于基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息，针对任一著者选择对应于该任一著者的主题信息，来创建主题信息库，其中，所述主题信息库中包含有各著者姓名信息与所述文本数据包含的主题信息之间的关联关系；

确定模块，用于基于所述机构信息库、所述人员信息库和所述主题信息库，确定针对各个主题的团队信息库。

9.根据权利要求8所述的装置，其中，所述第一创建模块包括：

规范单元，用于基于预置的规范机构名称信息，对已确定的所述机构名称信息进行规范化处理，并基于规范化处理后的机构名称信息来创建机构信息库。

10.根据权利要求8或9所述的装置，其中，所述第二创建模块包括：

第一建立单元，用于基于所述机构信息库中机构名称信息和已确定的各个著者姓名信息，建立所述机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系；

第二建立单元，用于基于所述文本数据和所述机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系，建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系，并基于所述关联关系来创建人员信息库。

11.根据权利要求8或9所述的装置，其中，所述第三创建模块包括：

第三处理单元，用于对所述文本数据进行分词处理，并对分词处理得到的分词片段的出现频率进行统计处理；

获取单元，用于将各个分词片段、分词片段的出现频率和所述人员信息库中的著者姓名信息输入到预置主题模型中，以获取到所述文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息；

12.根据权利要求8或9所述的装置，其中，所述确定模块包括：

第三建立单元，用于基于所述主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系，以及所述人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系，建立所述机构信息库、所述人员信息库和所述主题信息库之间的关联关系；

第四建立单元，用于基于所述机构信息库、所述人员信息库和所述主题信息库之间的关联关系，建立所述主题信息库中针对各个主题信息对应的机构名称信息的合作关系网络，所述合作关系网络包括一个主题信息对应的一个机构名称下多个著者姓名信息之间的关系；

13.根据权利要求12所述的装置，其中，还包括：

对比模块，用于对比各个团队中的著者姓名信息；

14.根据权利要求13所述的装置，其中，所述团队包括以下任一项：

同机构团队和/或跨机构团队：