CN107301218A

CN107301218A - 一种非相关文献隐性关联知识发现方法

Info

Publication number: CN107301218A
Application number: CN201710453152.0A
Authority: CN
Inventors: 曹志杰; 沈剑; 石宇萌
Original assignee: BEIJING AEROSPACE CHANGZHENG TECHNOLOGY INFORMATION INSTITUTE; China Academy of Launch Vehicle Technology CALT
Current assignee: BEIJING AEROSPACE CHANGZHENG TECHNOLOGY INFORMATION INSTITUTE; China Academy of Launch Vehicle Technology CALT
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2017-10-27

Abstract

本发明公开一种非相关文献隐形关联知识发现技术，包括以下步骤：1)确定主题的初始检索词；2)发现中间词、优化中间词以减少中间词数量并提高有意义中间词的排序、发现相应的中间文献集；3)发现目标词、优化目标词以减少目标词数量并提高有意义目标词的排序、发现相应的目标文献集；4)验证文献间的关联：当发现文献关联时，则结束判定过程；若未发现文献关联、且符合结束判定条件时，则结束判定过程；若未发现文献关联、且不符合结束判定条件时，则将步骤2)中获得的中间文献集作为初始集，重复步骤2)‑4)。该方法大幅提高了非相关文献隐形关联知识发现的效率，能够有效为科研人员开展航天产品研发提供备选研究方向。

Description

一种非相关文献隐性关联知识发现方法

技术领域

本发明属于知识发现技术领域，具体涉及一种非相关文献隐性关联知识发现方法。

背景技术

基于已有技术发现并开展前沿技术研发是企业发展的重要工作。但是在在国防领域，出于政治、军事等多种因素影响和保密等方面的要求，某些领域的科技文献往往不能公开发表，或者存在发表时间滞后、发表刊物偏离该领域核心期刊等现象。在进行前沿技术发展动向等方面的检索时，会出现应用传统方法难以发现有价值文献，无法为科研决策提供有效决策支持的情况。

现有技术中公开了知识发现相关的方法，如共引分析知识发现法、非相关文献知识发现法、文本挖掘知识发现法、知识网格知识发现法。这几类方法主要在理论探索与讨论、算法研究与改进、平台开发与应用、领域拓展及验证四个方向展开，对于文献间隐性关联知识发现的研究相对较少。文献“《非相关文献知识发现方法在航天科技情报研究中的应用分析》，曹志杰、冷伏海，情报理论与实践，2008，31(4)：569-572”公开了非相关文献隐性关联知识发现的方法。该方法借助中间文献的概念，利用公开文献中的信息，进行有价值的关联发现，发现尚未被发现的客观隐性关联或复现被人为去除、隐藏或弱化的主观隐性关联，进而揭示出有意义的技术发展动向，为前沿技术研发，尤其是国防领域的特定前沿技术研发提高高质量的知识发现支撑。虽然该方法从一定程度上能够揭示非相关文献的隐形关联，但是在实际应用时，存在中间词或目标词过多、有意义的中间词或目标词在词频-字顺队列中排序相对靠后、发现过程需专家介入或需要较为专业的背景知识以提高发现效率、人工统计过于繁琐等问题，具有一定的应用局限性。

为此，需要一种改进的非相关文献隐性关联知识发现方法，以减少中间词或目标词数量、提升有意义中间词或目标词在词频-字顺队列中排序、以大幅提高非相关文献隐形知识发现的效率。

发明内容

本发明所要解决的技术问题是，研究提出一种优化的非相关文献隐性关联知识发现方法，能够大幅减少中间词或目标词数量、提升有意义中间词或目标词在词频-字顺队列中排序、有效提高非相关文献隐形知识发现的效率。

本发明公开了一种非相关文献隐性关联知识发现方法，包括以下步骤：

1)确定主题的初始检索词；

2)发现中间词、优化中间词以减少中间词数量并提高有意义中间词的排序、发现相应的中间文献集；

3)发现目标词、优化目标词以减少目标词数量并提高有意义目标词的排序、发现相应的目标文献集；

4)验证文献间的关联：

当发现文献关联时，则结束判定过程；

若未发现文献关联、且符合结束判定条件时，则结束判定过程；

若未发现文献关联、且不符合结束判定条件时，则将步骤2)中获得的中间文献集作为初始集，重复步骤2)-4)；

优选地，所述步骤1)中采用自然语词抽取与处理或者索引词直接提取法确定主题的初始检索词。

优选地，所述步骤2)中采用基于叙词表上位概念映射和/或基于战略坐标图的加权排序法对中间词进行优化。

优选地，所述步骤2)中采用基于叙词表上位概念映射和/或基于战略坐标图的加权排序法对目标词进行优化。

优选地，所述采用基于叙词表上位概念映射对中间词进行优化的方法，包括以下步骤：

1)按顺序选取中间词；

2)在叙词表中查找中间词的上位概念：

若为非最上位概念，继续查找，直至发现最上位概念；

若为最上位概念，则终止查找；

若叙词表中无此词，且中间词为可拆分词组，则将中间词进行拆分，继续查找，用拆分后词的最上位概念作为该中间词的最上位概念；

若叙词表中无此词，且中间词不可拆分，删除该中间词。

3)用查找到的最上位概念替代初始中间词；

4)上位概念统计排序；

5)建立新的中间词队列。

优选地，所述采用基于战略坐标图的加权排序法对中间词进行优化的方法，包括以下步骤：

1)对中间词队列进行聚类分析，绘制战略坐标图；

2)为位于所述战略坐标图各个象限研究领域包含的关键词赋予权重；

3)按照权重重新排列中间词队列，同一权重按照词频高低排列；

4)设定权重阈值，对中间词进行过滤、排序形成新的中间词队列。

优选地，所述步骤1)的具体方法为：

1)按照现有技术中的非相关文献隐形关联知识发现方法，发现中间词；

2)两两统计中间词在同一篇文献中出现的次数，形成共现矩阵；

3)对所述共现矩阵进行标准化处理：

4)将标准化后的矩阵值，输入聚类软件进行聚类，得到所述中间词的聚类结果；

5)根据聚类结果，将主题划分成若干研究领域；

6)绘制战略坐标图。

优选地，同时采用基于叙词表上位概念映射和基于战略坐标图的加权排序法对中间词进行优化的方法为：

1)实施基于NASA叙词表上位概念映射的过滤改进，获取中间队列N₁；

实施基于战略坐标图加权过滤改进，获取中间词集N₂。

2)过滤中间词，形成新的中间词集Nn，计算方法为N_n＝N₁∩N₂。

3)对Nn排序，获得中间词排序表。

优选地，所述叙词表为NASA叙词表。

本发明的有益效果如下：

(1)本发明采用基于叙词表上位概念映射和/或基于战略坐标图的加权排序法对中间词和/或目标词进行了优化，大大减少了中间词和/或目标词的数量，提升了有意义中间词和/或目标词在词频-字顺队列中排序，大大提高了知识发现的效率；

(2)本发明采用基于叙词表上位概念映射和/或基于战略坐标图的加权排序法对中间词和/或目标词进行了优化，提高了知识发现结果的精准性，在不需要专家介入的情况下，能够发现有价值的知识，为前沿技术研发提供支持；

(3)本发明采用的基于叙词表上位概念映射和/或基于战略坐标图的加权排序法，是对现有成熟技术的再应用，能够在现有的信息平台进行非相关文献隐形关联知识发现，一方面减少了人工统计带来的繁琐工作量，同时能够提高知识发现结果的准确性。

附图说明

图1是现有技术中非相关文献隐形关联知识发现方法的一般流程；

图2是本发明公开的非相关文献隐形关联知识发现方法的流程；

图3是基于叙词表的中间词上位概念映射的优化方法的隐形关联知识发现的部分流程；

图4是本发明公开的基于叙词表的中间词上位概念映射的优化方法与采用现有技术后的中间词集数量对比；

图5是本发明公开的基于叙词表的中间词上位概念映射的优化方法与采用现有技术后的有意义中间词排序对比；

图6是本发明公开的基于战略坐标图的加权过滤排序的优化方法的隐形关联知识发现的部分流程；

图7是本发明公开的基于战略坐标图的加权过滤排序的优化方法中经标准化处理的矩阵；

图8是本发明公开的基于战略坐标图的加权过滤排序的优化方法中获得的8类研究领域的战略坐标图；

图9是本发明公开的基于战略坐标图的加权过滤排序的优化方法与采用现有技术后的中间词集数量对比；

图10是本发明公开的基于战略坐标图的加权过滤排序的优化方法与采用现有技术后的有意义中间词排序对比；

图11是本发明公开的同时采用基于叙词表的中间词上位概念映射的优化方法和基于战略坐标图的加权过滤排序的优化方法后与采用现有技术后的中间词集数量对比。

具体实施方式

为了本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施方式对本发明的技术方案做进一步详细说明。

为了使本发明的技术方案更加清楚，对相关术语进行说明：

叙词表：将文献、标引人员或用户的自然语言转换成规范化语言的一种术语控制工具，它是概括各门或某一学科领域并由语义相关、族性相关的术语组成的可以不断补充的规范化的词表。

概念聚类：按照一定的方式和准则对文献进行分组，如划分不同类别、不同层次，得到的分组代表着不同的概念。是机器归纳学习研究中一种常见的规范和技术，是特殊到一般、个性到共性、具体到普遍的推理过程。

中间文献：与两个不相关文献A、C均有关联的文献B称为中间文献，通过中间文献B能够发现不相关文献A、C之间的联系。

中间词：能够反映中间文献内容的检索词或者术语。

目标词：与检索主题密切相关的检索词或者术语。

中间文件集：发现的中间词集合。

中间文献集：与中间词相关的文献集合。

目标文献集：与目标词相关的文献集合。

如图2所示，本发明公开的非相关文献隐形关联知识发现方法包括：

1)确定主题的初始检索词；

4)验证文献间的关联：

当发现文献关联时，则结束判定过程；

进一步地，步骤1)中采用自然语词抽取与处理或者索引词直接提取法确定主题的初始检索词。

进一步地，步骤2)采用基于叙词表上位概念映射和/或基于战略坐标图的加权排序法对中间词进行优化。

进一步地，步骤3)采用基于叙词表上位概念映射和/或基于战略坐标图的加权排序法对目标词进行优化。

在验证本发明公开的非相关文献隐形关联知识发现方法的应用效果时，设定如下实验条件：

实验背景：60年代起，苏联开始研究新型飞行器隐身技术，80年代左右取得一定进展。美国90年代也开始了相应研究，1995年前，研究结果处于保密状态。

实验思路：假定1995年左右，按照非相关文献隐性关联知识发现方法，以期发现新型飞行器隐身技术的研究方向。通过1995年至今公开发表的文献和事实对发现结果加以验证。

数据库选取：鉴于技术的保密性等原因，航天领域专用数据库中难以检索到有价值文献。因此选取IEE出版的INSPEC数据库进行检索，INSPEC数据库是科学文摘数据库的网络版。INSPEC数据库为Science Abstracts，简称SA。该数据库收录了包括物理、电子工程和信息技术等领域的3800余种期刊，2000余种会议记录以及大量图书、报告、学位论文的摘要和索引，且定期更新。此外，所有INSPEC数据都附有专门的主题索引。

实验平台：THOMSON ISI公司的WEB OF KNOWLEDGE平台。通过该平台，可访问以下学科领域中的世界科技文献：物理、电气工程、电子、通信、控制工程、计算机、计算、信息技术、制造、生产工程。

检索时间段：1969-1994年

按照现有技术中的非相关文献隐形关联知识发现方法，发现44个中间词；按照词频—字顺排序方法对中间词进行排序获得中间词队列。最终确定的有意义中间词为“electromagnetic wave absorption”(电磁波吸收)，在中间词队列中的排序为14；有意义目标词为“plasma”(等离子体)、“semiconductor”(半导体)，能够作为“stealth material”(隐身材料)。

实施例1：

如图3所示，在本实施例中，所述步骤2)中采用基于叙词表上位概念映射对中间词进行优化，具体方法为：

211)：按顺序选取中间词；

212)：在NASA叙词表中查找中间词的上位概念：

若为非最上位概念，继续查找，直至发现最上位概念；

若为最上位概念，则终止查找；

若叙词表中无此词，且中间词不可拆分，删除该中间词。

213)：用查找到的最上位概念替代初始中间词；

214)：上位概念统计排序：

合并相同的上位概念，按照上位概念出现频率重新排序。

215)：建立新的中间词队列L1，进入步骤3)。

按照本实施例中的方法，对于发现的中间词，通过NASA叙词表进行上位，以进行上位概念聚类。同时，对于未出现在NASA叙词表中、且可拆分的中间词，进行中间词拆分、上位概念聚类；对于未出现在NASA叙词表中、且不可拆分的中间词，视为无关干扰概念，进行剔除。

实验结果表明，采用基于叙词表上位概念映射对中间词进行优化后，在保持有意义中间词覆盖率为100％的同时，有效减少了中间词数量，中间词由原来的44个减少到27个，减少了38.64％，如图4所示；同时，有意义中间词在词频-字顺队列中排序得到提前，由原来的第14位提前到第9位，提前了35.71％，起到了过滤和改进的效果，如图5所示。

实施例2：

如图6所示，作为本发明的另一实施例，所述步骤2)中，采用基于战略坐标图的加权过滤排序法对中间词进行优化，具体为：

221)按照频率—字顺排序法，建立中间词队列，对中间词队列进行聚类分析，每一个类为一个研究领域，计算各类的向心度与密度，绘制战略坐标图；

聚类分析利用SPSS 15.0软件完成，聚类算法采用系统聚类法hierachicalcluster。选择欧氏距离作为变量距离的测度方法，类间距离的计算方法采用类平均法，分类阈值设定为2。具体方法为：

221A)按照现有技术中的非相关文献隐形关联知识发现方法，发现中间词，共44个；

221B)两两统计44个中间词在同一篇文献中出现的次数，形成共现矩阵；

221C)对所述共现矩阵进行标准化处理，如图7所示：

221D)将标准化后的矩阵值，输入SPSS软件进行聚类，得到44个中间词的聚类结果，部分结果如表1所示。

221E)根据聚类结果，将主题划分8个研究领域，如表2所示，

依据Law于1988年提出的战略坐标图(stategic digram)，计算各类(研究领域)的向心度与密度，每个类为一个研究领域，如表3所示，

领域	领域1	领域2	领域3	领域4	领域5	领域6	领域7	领域8
									向心度	9	0	0	5	10	9	0	5
密度	3	2	5	4	4	1.45	4	4

绘制战略坐标图，如图8所示。

222)为位于所述战略坐标图各个象限研究领域包含的关键词赋予权重：

为第四象限研究领域包含的中间词赋予最高权重；

为位于第三象限研究领域所包含的中间词赋予次高权重；

不为位于第一、二象限研究领域包含的中间词加权。

研究领域2处于第四象限，最有可能产生有意义的发现；研究领域3、7处于第三象限，也有可能产生发现。因此为领域2的中间词赋予最高权重(复合材料、电磁波吸收、雷达装置)，为领域3、7的中间词赋予次高权重。不为处于1、2象限的领域的中间词加权。

223)按照权重重新排列中间词队列，同一权重按照词频高低排列；

224)设定权重阈值，对中间词进行过滤、排序形成新的中间词队列L2，进入步骤3)。

中间词队列L2中，排在前15位的中间词如表4所示。

实验结果表明，采用基于战略坐标图的加权过滤排序的优化方法后，在保持有意义中间词覆盖率为100％的同时，有效减少了中间词数量，中间词由原来的44个减少到14个，减少了68.18％，如图9所示；同时，有意义中间词在词频-字顺队列中排序得到提前，由原来的第14位提前到第2位，提前了85.71％，大幅度提高了隐性关联知识发现的效率，如图10所示。

实施例3：

作为本发明的第三个实施例，所述步骤2)中，同时采用叙词表上位概念映射和/或基于战略坐标图的加权排序法对中间词进行优化。具体方法为：

221)实施基于NASA叙词表上位概念映射的过滤改进，获取中间队列N₁；

实施基于战略坐标图加权过滤改进，获取中间词集N₂。

222)过滤中间词，形成新的中间词集Nn，计算方法为N_n＝N₁∩N₂。

223)对Nn排序，获得中间词排序表，进入步骤3)。

在中间词为同一权重的情况下，按照上位概念出现频率排序；同一频率按照字顺排序。

实验结果表明，同时采用叙词表上位概念映射和/或基于战略坐标图的加权排序法对中间词进行优化后，在保持有意义中间词覆盖率为100％的同时，中间词数量进一步降低，中间词由原来的44个减少到12个，减少了72.73％，如图11所示；同时，有意义中间词同单独采用基于战略坐标图的加权过滤排序的优化方法，由原来的第14位提前到第2位，提前了85.71％。

在实际应用中，采用同样的方法对目标词进行优化，能够实现同样的效果：减少了目标词的数量，提高了有效目标词在词频-字顺队列中的排序，进一步提高了非相关文献隐形关联知识发现的效率。

本发明公开的非相关文献隐形关联知识发现方法，能够在保持有意义中间词覆盖率的前提下，有效减少中间词集数量、提前有意义中间词在队列中的排序，进而提高非相关文献隐形关联知识发现的效率，有效发现国防领域的有价值文献，为科研人员开展航天产品研发提供备选研究方向，对于国防领域产品研发能够起到有效的技术支撑作用。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明要求保护的范围。

Claims

1.一种非相关文献隐形关联知识发现方法，其特征在于，包括以下步骤：

1)确定主题的初始检索词；

4)验证文献间的关联：

当发现文献关联时，则结束判定过程；

若未发现文献关联、且不符合结束判定条件时，则将步骤2)中获得的中间文献集作为初始集，重复步骤2)-4)。

2.根据权利要求1所述的非相关文献隐形关联知识发现方法，其特征在于，所述步骤1)中采用自然语词抽取与处理或者索引词直接提取法确定主题的初始检索词。

3.根据权利要求1所述的非相关文献隐形关联知识发现方法，其特征在于，所述步骤2)中采用基于叙词表上位概念映射和/或基于战略坐标图的加权排序法对中间词进行优化。

4.根据权利要求1所述的非相关文献隐形关联知识发现方法，其特征在于，所述步骤2)中采用基于叙词表上位概念映射和/或基于战略坐标图的加权排序法对目标词进行优化。

5.根据权利要求3或4任一所述的非相关文献隐形关联知识发现方法，其特征在于，所述采用基于叙词表上位概念映射对中间词进行优化的方法，包括以下步骤：

1)按顺序选取中间词；

2)在叙词表中查找中间词的上位概念：

若为非最上位概念，继续查找，直至发现最上位概念；

若为最上位概念，则终止查找；

若叙词表中无此词，且中间词不可拆分，删除该中间词。

3)用查找到的最上位概念替代初始中间词；

4)上位概念统计排序；

5)建立新的中间词队列。

6.根据权利要求3或4任一所述的非相关文献隐形关联知识发现方法，其特征在于，所述采用基于战略坐标图的加权排序法对中间词进行优化的方法，包括以下步骤：

1)对中间词队列进行聚类分析，绘制战略坐标图；

7.根据权利要求6所述的非相关文献隐形关联知识发现方法，其特征在于，所述步骤1)的具体方法为：

3)对所述共现矩阵进行标准化处理：

5)根据聚类结果，将主题划分成若干研究领域；

6)绘制战略坐标图。

8.根据权利要求3所述的非相关文献隐形关联知识发现方法，其特征在于，同时采用基于叙词表上位概念映射和基于战略坐标图的加权排序法对中间词进行优化的方法为：

实施基于战略坐标图加权过滤改进，获取中间词集N₂。

3)对Nn排序，获得中间词排序表。

9.根据权利要求3或4任一所述的非相关文献隐形关联知识发现方法，其特征在于，所述叙词表为NASA叙词表。