CN107391690A

CN107391690A - 一种处理文献信息的方法

Info

Publication number: CN107391690A
Application number: CN201710613510.XA
Authority: CN
Inventors: 李小明; 李大明; 杜鸣笛
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2017-11-24
Anticipated expiration: 2037-07-25
Also published as: CN107391690B

Abstract

本申请涉及一种处理文献信息的方法，所述方法包括：获取文献的核心关键词，并对获取的核心关键词进行同类聚集；构建单篇文献中核心关键词之间的逻辑结构关系，并形成所有核心关键词在不同文献之间的逻辑互联体系；建立核心关键词与关联网状节点信息以及对应文献之间的索引；根据用户输入的关注核心关键词，查询并展示所述关注核心关键词对应的直接关联信息和间接关联信息。本发明提供的技术方案，能够提高文献的使用效率。

Description

一种处理文献信息的方法

技术领域

本申请涉及数据处理技术领域，特别涉及一种处理文献信息的方法。

背景技术

科学技术的创新是推动社会各行各业发展和变革进程的原动力。一方面，科学研究是一项复杂而多样性的活动，其中唯一贯穿所有领域且最重要的一环是来源于大量学术文献的查阅与利用。因为无论是任何创新问题的提出还是解决思路的获取，都离不开对以往科研成果(主要指科研文献)的直接或间接借鉴与启发。另一方面，学术文献为科技创新的服务主要受限于以下两个因素：科研者利用文献的效率与科研文献本身价值的利用率，即如何高效精准获取有价值的文献信息和如何利用已有的文献数据挖掘出更多具有学术价值的创新思想和启发。因此，研究新的数据处理技术来使得现有的文献数据更好更高效地为科研者服务，对个人及社会都具有重大的现实意义。

在应用层，目前的文献系统和数据库均只能检索出包含有与输入关键词字面上相同或相似的文献，而无法对文章的核心思想以及其与输入关键词之间的关系做出准确的理解和判断。首先，对一篇检索出的文献来说，虽然包含有与输入关键词相关的表述，但是该文献的核心思想与价值却可能与此关键词关联不大，甚至毫无关系，导致了检索结果的大量杂质化。其次，即使输入的关键词是表达该文献中心思想的一个核心元素，但是围绕该关键词的所有核心信息均不能完全符合或满足用户的价值需求，这是信息片面化的一个重要表现。最后，由于信息来源的多样化，同时又不能对信息的语义做出准确的分析，导致检索结果中出现很多类似甚至完全相同的信息，产生了大量冗余。对科研者来说，往往只有对检索出的大量文献信息进行全方位系统的甄别与调研以后才能提出(发现)有价值的科学问题或相关问题的解决方案。然而信息的冗余、片面和杂质等问题，使得科研者利用文献数据产生创新思想的效率受到了极大的限制。另外，鉴于目前的数据存储与处理技术，应用层中的任何一个算法也无法通过计算机从现有的大量科研文献中挖掘出具有价值的潜在学术问题或创新启发，严重制约了文献数据的利用价值。

发明内容

本发明的目的在于提供一种处理文献信息的方法，能够提高文献的使用效率。

为实现上述目的，本申请提供一种处理文献信息的方法，所述方法包括：获取文献的核心关键词，并对获取的核心关键词进行同类聚集；构建单篇文献中核心关键词之间的逻辑结构关系，并形成所有核心关键词在不同文献之间的逻辑互联体系；建立核心关键词与关联网状节点信息以及对应文献之间的索引；根据用户输入的关注核心关键词，查询并展示所述关注核心关键词对应的直接关联信息和间接关联信息。

进一步地，所述获取文献的核心关键词包括：采集文献的原始信息，并把每一篇文献中包含实际含义的字、词和短语提取出来，形成每篇文献涉及的关键词；针对每篇文献，将采集的关键词与文献的主题进行对比，并将符合文献主题的关键词作为核心关键词。

进一步地，对获取的核心关键词进行同类聚集包括：将所有文献中相似度高于指定阈值的核心关键词聚集到同一类关键词中，形成同类关键词集合；其中，每个所述同类关键词集合中的核心关键词之间均存在直接的对应关系；标记并存储所述同类关键词集合以及各个同类关键词集合内核心关键词之间的对应关系，以扩大查询及关联范围；其中，同一关键词对应的不同词性、不同时态、不同语态的所有关键词都属于同一关键词。

进一步地，所述相似度高于指定阈值的核心关键词包括：语义相同但表达不同的核心关键词；和/或字面含义之间的关联度高于指定阈值的核心关键词。

进一步地，构建单篇文献中核心关键词之间的逻辑结构关系包括：对核心关键词的整体逻辑结构进行划分；在同层级核心关键词间建立逻辑关系。

进一步地，对核心关键词的整体逻辑结构进行划分包括：将每篇文献的核心关键词依照三个方面归属为三个不同的层级结构；其中，所述三个方面分别包括研究的中心与焦点问题、围绕所述中心与焦点所做的具体工作以及描述所述研究得出的结论；标记并存储归属得到的核心关键词之间的所述层级结构。

进一步地，在同层级核心关键词间建立逻辑关系包括：在核心关键词层级结构中的每一层级内，确定核心关键词之间存在的并列关系以及内在联系关系，标记并存储核心关键词之间上述的两种关系。

进一步地，所形成所有核心关键词在不同文献之间的逻辑互联体系包括：将包含指定同类核心关键词的文献中的其它核心关键词之间建立间接关联关系；其中，所述间接关联关系通过其它的同类核心关键词继续向下延伸，以使得不同核心关键词间自动形成有规律的网状体系结构；其中，所述网状体系结构中的节点为核心关键词信息，节点间的连线表示两个核心关键词之间的逻辑结构关系；标记并存储所述网状体系结构中的所有信息。

进一步地，建立核心关键词与关联网状节点信息以及对应文献之间的索引包括：将核心关键词与相关联的网状节点关键词及对应的逻辑关系建立索引；将核心关键词与对应的学术文献之间建立索引，以加速查询速度。

进一步地，查询并展示所述关注核心关键词对应的直接关联信息和间接关联信息包括：根据用户输入的关注核心关键词在同类词集合中查询并展示该关注核心关键词对应的所有同类关键词，以将所述关注核心关键词扩展到同类关键词集合中的所有形式关键词；利用核心关键词与其相关联的网状节点信息及对应逻辑关系之间的索引，查询并展示与所述关注核心关键词直接相邻和存在间接联系的所有网状节点信息及对应的逻辑关系；利用核心关键词与对应文献之间的索引，查询并展示与所述关注核心关键词及与所述关注核心关键词相关联的核心关键词所对应的全部文献信息；其中，查询并展示与所述关注核心关键词及与所述关注核心关键词相关联的核心关键词所对应的全部文献信息还包括：基于同类关键词集合，把与核心关键一一对应且对应关键词之间的逻辑结构关系也分别相同的所有文献作为是同一类文献，并在结果中只展示其中的一篇文献来源或版本。

与现有技术相比，本申请的技术方案包含以下优点：本申请是基于学术文献本身具有的普遍结构规律，建立了核心关键词间语义和内容上的逻辑连接。此种逻辑处理技术有效解决了信息检索系统出现的信息杂质、片面和冗余等问题，使得科研者能够快速系统掌握以某一关键词为出发点的所有重要核心研究及相关结论，达到提高科研效率的目的。同时核心关键词间的逐层逻辑递进关系，使得文献的核心信息之间存在着一定的直接或间接规律，结合大数据检索和挖掘技术，可以为科研者带来一些新的没有被发现的科学规律和学术问题，从而提高了文献的使用效率。

附图说明

图1为本发明实施例提供的处理学术文献的方法流程图；

图2为本发明实施例提供的单篇文献核心关键词层级结构与逻辑关系示意图；

图3为本发明实施例提供的以关注关键词为中心的直接相邻网状结点信息示意图；

图4为本发明实施例提供的以关注关键词为出发点的间接关联网状结点信息示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式，都应当属于本申请保护的范围。

请参阅图1，本申请提供一种处理文献信息的方法，所述方法包括：

S1：获取文献的核心关键词，并对获取的核心关键词进行同类聚集；

S2：构建单篇文献中核心关键词之间的逻辑结构关系，并形成所有核心关键词在不同文献之间的逻辑互联体系；

S3：建立核心关键词与关联网状节点信息以及对应文献之间的索引；

S4：根据用户输入的关注核心关键词，查询并展示所述关注核心关键词对应的直接关联信息和间接关联信息。

在本实施方式中，所述获取文献的核心关键词包括：

采集文献的原始信息，并把每一篇文献中包含实际含义的字、词和短语提取出来，形成每篇文献涉及的关键词；

针对每篇文献，将采集的关键词与文献的主题进行对比，并将符合文献主题的关键词作为核心关键词。

在本实施方式中，对获取的核心关键词进行同类聚集包括：

将所有文献中相似度高于指定阈值的核心关键词聚集到同一类关键词中，形成同类关键词集合；其中，每个所述同类关键词集合中的核心关键词之间均存在直接的对应关系；

标记并存储所述同类关键词集合以及各个同类关键词集合内核心关键词之间的对应关系，以扩大查询及关联范围；

其中，同一关键词对应的不同词性、不同时态、不同语态的所有关键词都属于同一关键词。

在本实施方式中，所述相似度高于指定阈值的核心关键词包括：

语义相同但表达不同的核心关键词；和/或

字面含义之间的关联度高于指定阈值的核心关键词。

在本实施方式中，构建单篇文献中核心关键词之间的逻辑结构关系包括：

对核心关键词的整体逻辑结构进行划分；

在同层级核心关键词间建立逻辑关系。

在本实施方式中，对核心关键词的整体逻辑结构进行划分包括：

将每篇文献的核心关键词依照三个方面归属为三个不同的层级结构；其中，所述三个方面分别包括研究的中心与焦点问题、围绕所述中心与焦点所做的具体工作以及描述所述研究得出的结论；

标记并存储归属得到的核心关键词之间的所述层级结构。

在本实施方式中，在同层级核心关键词间建立逻辑关系包括：

在核心关键词层级结构中的每一层级内，确定核心关键词之间存在的并列关系以及内在联系关系，标记并存储核心关键词之间上述的两种关系。

在本实施方式中，所形成所有核心关键词在不同文献之间的逻辑互联体系包括：

将包含指定同类核心关键词的文献中的其它核心关键词之间建立间接关联关系；其中，所述间接关联关系通过其它的同类核心关键词继续向下延伸，以使得不同核心关键词间自动形成有规律的网状体系结构；其中，所述网状体系结构中的节点为核心关键词信息，节点间的连线表示两个核心关键词之间的逻辑结构关系；

标记并存储所述网状体系结构中的所有信息。

在本实施方式中，建立核心关键词与关联网状节点信息以及对应文献之间的索引包括：

将核心关键词与相关联的网状节点关键词及对应的逻辑关系建立索引；

将核心关键词与对应的学术文献之间建立索引，以加速查询速度。

在本实施方式中，查询并展示所述关注核心关键词对应的直接关联信息和间接关联信息包括：

根据用户输入的关注核心关键词在同类词集合中查询并展示该关注核心关键词对应的所有同类关键词，以将所述关注核心关键词扩展到同类关键词集合中的所有形式关键词；

利用核心关键词与其相关联的网状节点信息及对应逻辑关系之间的索引，查询并展示与所述关注核心关键词直接相邻和存在间接联系的所有网状节点信息及对应的逻辑关系；

利用核心关键词与对应文献之间的索引，查询并展示与所述关注核心关键词及与所述关注核心关键词相关联的核心关键词所对应的全部文献信息；

其中，查询并展示与所述关注核心关键词及与所述关注核心关键词相关联的核心关键词所对应的全部文献信息还包括：

基于同类关键词集合，把与核心关键一一对应且对应关键词之间的逻辑结构关系也分别相同的所有文献作为是同一类文献，并在结果中只展示其中的一篇文献来源或版本。

具体地，在实际应用场景中，本发明实施例提供了一种处理学术文献的方法，所述方法包括：

101、采集提取学术文献中所有可能的关键词，判断、标记并存储其中的核心关键词。

其中学术文献包含各类期刊杂志论文、会议论文以及科技报告等。在文献的标题、摘要、正文以及各类补充材料中提取所有有意义的字、词或短语，一般为名词、动词和形容词，组成该篇文献的所有可能的关键词。

紧接着，判断这些所有可能的关键词，把与文献核心思想相关或起到关键作用，以及体现文献重要结论和意义的关键词作为核心关键词，例如核心理论、材料、工具、系统、实验、现象、特征、规律等，标记并存储这些核心关键词。

102、将所有文献中具有同类关键词特征的核心关键词进行聚集和存储。

对于每一个核心关键词来说，它在不同文献中的表现形式往往是不同的。我们把具有如下特征的关键词统称为同类关键词：同一词对应的不同词性、不同时态、不同语态的所有关键词；语义相同但表达不同的关键词；字面上具有一定相似度的关键词。将所有文献中具有同类关键词特征的核心关键词聚集到一起，形成同类关键词集合。每个集合中的所有关键词之间均存在着直接的对应关系。标记并存储这些同类关键词集合以及集合内关键词间的对应关系，扩大查询及关联范围。

103、标记并存储单篇学术文献中所有核心关键词的整体逻辑层级结构、同层级核心关键词间的逻辑关系，并基于同类词间的对应关系，建立并存储所有核心关键词在不同文献间的逻辑互联网状体系结构。

如图2所示，对于每篇学术文献中的关键词，根据本身内容特性，可以划分标记为三个层级。第一层级关键词是文章中心思想和价值的体现。第二层级关键词是在研究对象和研究内容为中心下，具体做的研究工作。或者说为了达到第一层级的研究目的，文献采用的具体方法、技术、理论、关系、结构、材料等等。第二层次可看为第一层级的详细过程或手段。第三层级的关键词包含了在以第一层级关键词为核心，通过第二层级关键词的具体研究而获得的一些重要结果与结论。

紧接着，第一层级关键词又可细分为研究对象和研究内容两方面。此层级关键词一般可从标题中提取，因为标题一般是对全文工作及意义最核心的概括。其中，我们可以把“研究内容”看成是“研究对象”下的一个具体特征方面。第二层级和第三层级中的关键词间逻辑关系可标记为如下两类：首先就是某种特征量或结论，可用独立的关键词表示，如A1，它与层级内其它的关键词之间是一种并列关系；第二类就是具有内在联系的两个或多个关键词，如A2-A3，这里表示A2与A3之间存在某种内在关系，可以是依赖、包含、属于、影响、决定、转化等各种逻辑关系。

进一步地，当图2中的某个核心关键词或对应的其它同类关键词出现在其它文献中时，那么这个同类关键词就起到了一个桥梁纽带作用，将这两篇文献中所有的核心关键词关联在了一起。通过其它的同类关键词，这种关联关系可以一直延伸下去，形成有规律的逻辑网状体系结构，其中结点为核心关键词信息，结点间的连线表示这两个核心关键词之间的逻辑结构关系。标记并存储网状体系结构中的所有信息。

104、将核心关键词与其相关联的网状结点关键词之间、以及核心关键词与其对应的学术文献之间建立索引。

由于现有的文献数据量巨大，形成的关键词逻辑网状体系也很复杂，为加快后面的查询搜索速度，需要在检索前将核心关键词与其相关联的网状结点关键词及对应的逻辑关系建立索引，同时将核心关键词与其对应的学术文献之间建立索引。

105、根据用户输入的关键词，查询此关键词对应的同类关键词集合、存在逻辑关联的其它核心关键词信息，以及对应的学术文献信息。

在同类词集合中查询与用户输入关键词对应的所有形式的同类关键词，将用户关注关键词扩展到同类关键词集合中的所有形式；查询与所有关注关键词直接相邻和存在间接联系的网状结点关键词及对应的逻辑关系，让信息的呈现更加全面和系统；查询与所有关注关键词相关联的核心关键词所对应的全部文献信息，让用户能更深一步了解文献中的详细信息。

106、将所述的查询结果展现给用户。

将上一步105中所有的查询结果逐步展现给用户。为更清晰地展示本发明所产生结果的优越性，现结合附图举例说明如下：

图3展示的是一种以关注关键词为中心的直接相邻网状结点信息示意图。在科研中，科研者一般关注某个研究对象(关键词)的研究进展，通常包含两个方面的内容：首先是输入关键词作为“研究对象”的具体“研究内容”有哪些；其次是以这个输入关键词为出发点，关于它的拓展研究有哪些，即关注关键词为第二层级的一个元素，与它关联的第一层级“研究对象”是什么。如图4所示，当输入关键词B时，显示的A1， A2，…为关于B的在不同文献中的具体“研究内容”(此时B作为第一层级中的“研究对象”)，而C1，C2，…为关于B的在不同文献中的拓展研究(此时B作为第二层级中的一个元素，而C1，C2，…为第一层级中的“研究对象”)。本应用实施例能让关键词B的所有“上游”和“下游”研究都能通过列表的形式清晰展现在研究者面前，极大提高了科研者查阅和筛选文献的效率，达到高效精准检索的目的。

图4展示的是一种以关注关键词为出发点的间接关联网状结点信息示意图。在科研中，为解决问题D，本发明不仅可以提供关于D的一系列直接实现方案M(此时D作为第三层级中的元素，而M作为第一层级中的“研究对象”)的借鉴，而且通过逻辑关系给出一系列与之有关联的参量E以及相应的间接解决方案G。如图4所示，与图3中D4和D5关系类似，E1，E2，..代表在不同文献的第三层级中均与D存在逻辑关系的关键词，G1，G2，..分别对应E1，E2，..所在文献第一层次中的“研究对象”。本应用实施例能让科研者解决问题D的思路得到了极大的提升，能在最快时间内产生更多更深的创新思想，特别是跨学科之间的融会贯通，达到深度关联检索的目的。

紧接着，在图3和图4的基础上，根据获得的关联关键词，可以查询相对应的文献。特别的，基于同类关键词集合，把核心关键词能够完全一一对应且对应关键词之间的逻辑结构关系也分别相同的所有文献看作是同一类文献，在结果中只展示其中的某一文献来源或版本，这样可以解决文献信息展示的冗余问题。

由上可见，与现有技术相比，本申请的技术方案包含以下优点：本申请是基于学术文献本身具有的普遍结构规律，建立了核心关键词间语义和内容上的逻辑连接。此种逻辑处理技术有效解决了信息检索系统出现的信息杂质、片面和冗余等问题，使得科研者能够快速系统掌握以某一关键词为出发点的所有重要核心研究及相关结论，达到提高科研效率的目的。同时核心关键词间的逐层逻辑递进关系，使得文献的核心信息之间存在着一定的直接或间接规律，结合大数据检索和挖掘技术，可以为科研者带来一些新的没有被发现的科学规律和学术问题，从而提高了文献的使用效率。

上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述，本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此，虽然已经具体讨论了一些另选的实施方式，但是其它实施方式将是显而易见的，或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化，以及落在上述申请的精神和范围内的其它实施方式。

Claims

1.一种处理文献信息的方法，其特征在于，所述方法包括：

获取文献的核心关键词，并对获取的核心关键词进行同类聚集；

构建单篇文献中核心关键词之间的逻辑结构关系，并形成所有核心关键词在不同文献之间的逻辑互联体系；

建立核心关键词与关联网状节点信息以及对应文献之间的索引；

根据用户输入的关注核心关键词，查询并展示所述关注核心关键词对应的直接关联信息和间接关联信息。

2.根据权利要求1所述的方法，其特征在于，所述获取文献的核心关键词包括：

3.根据权利要求1所述的方法，其特征在于，对获取的核心关键词进行同类聚集包括：

4.根据权利要求3所述的方法，其特征在于，所述相似度高于指定阈值的核心关键词包括：

语义相同但表达不同的核心关键词；和/或

字面含义之间的关联度高于指定阈值的核心关键词。

5.根据权利要求1所述的方法，其特征在于，构建单篇文献中核心关键词之间的逻辑结构关系包括：

对核心关键词的整体逻辑结构进行划分；

在同层级核心关键词间建立逻辑关系。

6.根据权利要求5所述的方法，其特征在于，对核心关键词的整体逻辑结构进行划分包括：

标记并存储归属得到的核心关键词之间的所述层级结构。

7.根据权利要求5所述的方法，其特征在于，在同层级核心关键词间建立逻辑关系包括：

8.根据权利要求1所述的方法，其特征在于，所形成所有核心关键词在不同文献之间的逻辑互联体系包括：

标记并存储所述网状体系结构中的所有信息。

9.根据权利要求8所述的方法，其特征在于，建立核心关键词与关联网状节点信息以及对应文献之间的索引包括：

10.根据权利要求1所述的方法，其特征在于，查询并展示所述关注核心关键词对应的直接关联信息和间接关联信息包括：