CN108804621A - 装备标准的关联图谱构建方法 - Google Patents

装备标准的关联图谱构建方法 Download PDF

Info

Publication number
CN108804621A
CN108804621A CN201810547824.9A CN201810547824A CN108804621A CN 108804621 A CN108804621 A CN 108804621A CN 201810547824 A CN201810547824 A CN 201810547824A CN 108804621 A CN108804621 A CN 108804621A
Authority
CN
China
Prior art keywords
standard
document
vocabulary
entries
standard document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810547824.9A
Other languages
English (en)
Inventor
苏飏
何宽平
李立芳
李俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Huakong Graphic Science & Technology Co Ltd
Original Assignee
Sichuan Huakong Graphic Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Huakong Graphic Science & Technology Co Ltd filed Critical Sichuan Huakong Graphic Science & Technology Co Ltd
Priority to CN201810547824.9A priority Critical patent/CN108804621A/zh
Publication of CN108804621A publication Critical patent/CN108804621A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种装备标准的关联图谱构建方法,其包括获取装备的标准化要素,并根据所述标注化要素获取与其对应的标准文档;提取每篇标准文档的标准条目及标准条目对应的内容;提取标准文档的主题词;通过标准文档引用关系和标准文档之间的相似度得到标准文档之间的关联关系;根据相似度确定标准条目之间的关联关系;构建所有标准文档中标准条目与标准化要素之间的关联关系;根据构建的语料库,对所有的标准文档进行聚类,得到标准文档之间的隐含关系;根据装备及其组成单元与标准化要素的关联关系,所有标准文档的隐含关系、标准文档之间关联关系、标准条目之间关联关系及标准条目与标准化要素之间的关联关系形成装备标准的关联图谱。

Description

装备标准的关联图谱构建方法
技术领域
本发明涉及关联图谱的构建方法,具体涉及一种装备标准关联图谱的构建方法。
背景技术
近年来随着公开的关联数据集等项目的开展,关于关联图谱的研究也逐渐深入。关联数据已成为国际互联协会(W3C)推荐的一种规范,用来发布和链接各类数据、信息和知识。到2010年底,基于互联网的关联数据集已经有100多种,覆盖了生物、地理、文化、智能制造等各个方面。
在装备标准领域,虽然目前已有大量标准化的研究被提出,但利用关联图谱技术进行装备标准化建设、管理的相关研究还是空白。装备标准关联图谱作为新兴的事物,国内外还没有现成的研究可供借鉴。
发明内容
针对现有技术中的上述不足,本发明提供的装备标准关联图谱的构建方法能够将装备的模块与相关的标准文档之间的关系联系起来。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种装备标准的关联图谱构建方法,其包括:
获取装备的模块划分数据,并根据模块划分数据提取装备的模块、部件和组件,构建装备内部各个组件的组成关联网;
获取装备的最小组成单元组件的标准化要素,并根据标注化要素获取与其对应的标准文档;
采用基于Open XML标准的标准文档自动提取方法提取每篇标准文档的标准条目及标准条目对应的内容;
提取标准文档中词汇中设定量的最高权重词汇作为标准文档的主题词;
通过标准文档中正文解析得到的标准文档引用关系和计算的两个标准文档之间的相似度得到标准文档之间的关联关系;
采用与两个标准文档相似度相同的计算方式计算所有标准文档中标准条目之间的相似度,并根据相似度确定标准条目之间的关联关系;
根据已知的标准条目与标准化要素之间的关联关系,获取未标注关联关系的标准条目与标准要素的关联关系,之后构建形成所有标准文档中标准条目与标准化要素之间的关联关系;
采用所有标准化要素、所有标准文档的主题词及标准文档中的领域词形成语料库,并根据语料库,采用k-means聚类方法或LDA聚类方法对所有的标准文档进行聚类,得到标准文档之间的隐含关系;
根据所有标准文档的隐含关系、标准文档与标准文档之间关联关系、标准条目之间的关联关系及标准条目与标准化要素之间的关联关系形成装备标准的关联图谱。
进一步地,提取标准文档中词汇中设定量的最高权重词汇作为标准文档的主题词进一步包括:
采用分词工具对标准文档进行分词操作,并对所有词汇进行词频统计,将得到的绝对词频作为词汇的初始权重;
根据词汇出现的位置及词汇所属领域的特性,对词汇进行加权处理,得到词汇的加权词频;
根据加权词频,采用TF-IDF算法计算词汇的TF-IDF值,并进行归一化处理得到词汇的最终权重,之后选取设定量的权重最高词汇作为标准文档的主题词。
进一步地,装备标准的关联图谱构建方法还包括提取标注文档中预设量权重最大的句子作为标准文档的摘要:
统计每个词汇在标准文档中出现的词频,并根据词频计算词汇的权重;
根据句子中所有词汇的词频、在标准文档中出现的位置及其所属领域特性,采用浅层句法分析方法计算句子的权重;
选取预设量的权重最大的句子作为摘要候选句子,之后将摘要候选句子按照在标准文档中出现的顺序输出构成摘要。
进一步地,两个标准文档之间的相似度的计算公式为:
其中,d(1)为标准文档1中的词袋向量;d(2)为标准文档2中的词袋向量;di (1)为词汇wi在标准文档1中的词袋向量;dj (2)为词汇wj在标准文档2中的词袋向量;Tij为标准文档d(1)中词汇wi被运送到标准文档d(2)的词汇wj时所需要的代价;costij为词汇wi和词汇wj对应的嵌入向量的欧式距离;
进一步地,标准文档之间引用关系的获取方法:
判断标准文档中是否存在其所引用的标准号及标准名称列表:
若存在列表,则定位列表在标准文档中出现的位置,并采用标准号提取方法提取引用标准号和标准名称,得到标准文档之间的引用关系;
若不存在列表,则提取标准文档中的标准号,并将标准号所在句子作为该标准文档与所引用标准关联的内容;
根据标准文档与所引用标准关联的内容,获取所引用标准号的标准条目;
根据所引用标准号的标准条目提取所引用标准号所在处内容,得到标准条目与标准条目之间的引用关系,并通过标准条目与标准条目之间的引用关系得到两个文档之间的引用关系。
进一步地,标准号的提取方法为:
采用标准号前半部分为(([A-Za-z]){2,}[\\s]?[A-Za-z]?)++,后半部分为([0-9]+[\\.-]*(\\s)*)+的标准号约束条件提取标准文档中的标准号。
进一步地,获取未标注关联关系的标准条目与标准要素的关联关系包括:
计算待分配标准化要素的标准条目与其相关的标准条目中标准化要素之间的相关程度:
其中,Ij为与章节Ii相似的章节;Tk为标准化要素;为Ij与Ii之间的相似度;为Ii与Tk之间的相关程度;为与Ii相似章节的集合;中的元素个数;
计算待分配标准条目的标准化要素与其相关的标准化要素对应的标准条目之间的相关程度:
其中,Tp为与Tk为标准化要素;为Tp与Tk之间的相似度;为Ii与Tp之间的相似程度;为与Tk相似的标准化要素的集合;中元素的个数。
本发明的有益效果为:本方案以装备标准化工作为例,针对我国装备全寿命周期及使用维修过程中装备标准数据不适用、不协调、管控难、用不准等系列问题,提出了一种多学科融合的关联图谱模型技术。本技术以装备数据、标准文档为原始素材,基于原始素材汇总、整理、分析所得出的显性关系,依托自然语言理解、数据挖掘、复杂网络分析等技术,分析挖掘装备-标准本身及其各自内在之间的隐性关系,可以为武器装备标准制修订和论证、研制、试验、定型、订购验收提供标准的规范与约束,为标准化工作人员提供切实的、有价值的参考和依据,辅助标准化工作人员快速理解知识,提升标准化工作人员的工作效率,从而提高装备的三化效益,为全军标准化建设达到世界先进国家水平打下良好的基础。
附图说明
图1为装备标准关联图谱的构建方法的流程图。
图2为装备标准关联图谱的架构图层。
图3为原始标准文档中章节与标准化要素之间的关联关系。
图4利用已知章节与标准化要素的关联关系评估章节与标准化要素之间的相关性。
图5利用装备对应的标准化要素与其他标准化要素之间的关系评估章节与装备对应的标准化要素之间的相关性。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
本方案的装备标准关联图谱的总体设计如图2所示,总体分为四个层次:数据层、元素层、关系层、谱系层。
数据层:是指关联图谱模型构建所需的业务数据。业务数据可分为结构化数据、半结构化数据、非结构化数据;
元素层:是从数据层(业务数据)提取出的元素节点。装备标准领域依据业务数据提取的元素节点分别为装备体系、装备、模块、部件、组件、标准体系、标准、标准段落、主题词、规范、指标体系、指标、制约因素、影响因素……;
关系层:是指元素与元素之间通过对业务数据的分析挖掘所建立的各种显性关系与隐性关系。这些关系主要有共同引用关系、互相引用关系、相似关系、约束关系、关联关系、应用关系、构成关系、包含关系……。例如:装备与模块的构成关系、标准/指标与装备的约束关系、标准与标准的引用关系、标准与标准的相似关系等等;
谱系层:是指梳理关系层中元素与元素之间的关系,采用系统工程的手法从不同维度、不同视角出发整合成体系化、标准化、层次化、结构化的关联谱系。针对装备标准领域的业务数据,可形成装备谱系、标准谱系、指标谱系、研制规范谱系、作战环境谱系、通用模块谱系。
针对不同行业的业务数据,数据层、元素层、关系层、谱系层等内在特征和规律也各不相同,本方案只针对装备标准化工作的业务数据。
参考图1,图1示出了装备标准关联图谱的构建方法的流程图;如图1所示,该方法100包括步骤101至步骤109。
在步骤101中,获取装备的模块划分数据,并根据模块划分数据提取装备的模块、部件和组件,构建装备内部各个组件的组成关联网;其中装备可以包括若干组成模块,模块可以包括若干部件,部件又可以包括若干组件,而模块划分数据则是装备的所有模块、部件和组件之间隶属关系。
分析采集的装备-装备模块-标准的关联数据,提取装备、模块、部件、标准化要素、标准、标准条目、应用效果、关联程度等实体元素,建立元素与元素之间的显性关联关系,搭建装备标准关联图谱模型的基础骨架。得出的主要关系如下:
(1)装备与组件/模块之间的实体关系:装备是由多个组件和模块组装而成,显然装备与组件/模块之间关联关系为构成关系。
(2)组件/模块与标准化要素之间的实体关系:标准化要素在组件/模块中作为具体的约束条件规范组件或模块的战技水平,因此组件/模块与标准化要素之间的关联关系为约束关系。
(3)标准条目与标准化要素之间的实体关系:标准化要素作为整个装备标准关联图谱中的纽带,在标准条目中作为具体的规范目标。因此标准条目与标准化要素之间的关联关系为规范关系。
(4)标准文档与标准条目之间的实体关系。标准文档是由多个不同的标准条目组成,而同一项标准条目可能存在于多个不同的标准文档中,因此标准文档与标准条目之间的关联关系为多对多的引用关系。
(5)装备模块、部件/子部件与标准条目之间的实体关系。标准条目间接规范了装备模块/部件的标准化目标,而装备模块、部件/子部件的标准化程度则取决于标准条目的实际应用程度与关联程度,因此装备模块、部件/子部件与标准条目为应用关系与关联关系。
上述关系都是基于已有数据,采用计算机技术从业务数据载体中分析提取得出的元素节点之间的显性关系。这些显性关系构建了装备标准关联图谱模型的基础骨架,而要使关联图谱达到智能化,则需要采用系统工程的手法结合自然语言理解、数据挖掘、复杂网络分析等技术分析发掘现有元素之间的隐性关系,从而在原有关联图谱的骨架上继续发散、扩展,才能形成一套完善的关系网络。
在步骤102中,获取装备的最小组成单元组件的标准化要素(标准化要素是指组件的物理性能、力学性能及长宽高等数据;在装备研发过程中,每项标准化要素都会安装国家规定的一些标准进行设计),并根据标注化要素获取与其对应的标准文档。
在步骤103中,采用基于Open XML标准的标准文档自动提取方法提取每篇标准文档的标准条目及标准条目对应的内容。
Open XML标准是针对字处理文档、演示文稿和电子表格的国际化开发标准,Microsoft Office(2003、2007、XP、2000)已经支持Open XML,基于Open XML格式可快速获取文档内部的内容、布局、样式及文本的域代码,高效可靠,并且提供与外部系统和实时数据源之间的集成。一个典型的Word Open XML格式如图3所示,主要分为三部分:
(1)XML的声明和名称空间的指明
<?xml version="1.0"?>
<w:wordDocumentxmlns:w="http://schemas.microsoft.com/office/word/2003/wordml">
(2)文档内容
<w:body>…</w:body>
(3)基本节点类型
从body内可以看出,构成实际文本内容的有3种类型节点:
(a)<w:p>表示一个段落
(b)<w:r>表示一个样式串,指明它包括的文本的显示样式
(c)<w:t>表示真正的文本内容
通过使用计算机技术解析XML中的指定子节点可以提取标准文档中的章节号、章节标题、正文等文档内容,获得精准、有序的文档结构,为接下来的自然语义分析和数据挖掘提供基本的素材。
在步骤104中,提取标准文档中词汇中设定量的最高权重词汇作为标准文档的主题词;在实施时,本方案优选每篇标准文档中主题词的提取方法包括:
采用分词工具对标准文档进行分词操作,并对所有词汇进行词频统计,将得到的绝对词频作为词汇的初始权重;
根据词汇出现的位置及词汇所属领域的特性,对词汇进行加权处理,得到词汇的加权词频;
根据加权词频,采用TF-IDF算法计算词汇的TF-IDF值,并进行归一化处理得到词汇的最终权重,之后选取设定量的权重最高词汇作为标准文档的主题词。
进一步地,本方案提取标准主题词的详细步骤如下:
(1)首先将标准文档看做句子序列,使用中科院ICTCLAS分词器将这些句子序列化作词序列,对所有词汇进行词频统计,得到绝对词频作为词的初始权重;
(2)在初始权重基础上加权,第一次加权考虑原词所在位置,如文件名中的词汇、标题词汇、首段词汇等,通常情况下文件名中出现的词汇往往能都很接近文档的主题,标题中的词汇次一级,首段词汇相关性最弱;
(3)第二次加权考虑词本身的重要性,即对领域词加权:通过查找领域词词典判断当前词汇是否是领域词,是就加权;这两次加权后得就到加权词频;
(4)根据加权词频计算词汇的TF-IDF值,并进行归一化,得到词汇的最终权重。
(5)降序排序后取权重最高的前10个词汇作为标准的主题词。
通过上述步骤提取出标准文档的主题词,对后面文本的分析、理解、对比都起到非常重要的作用。
在步骤105中,通过标准文档中正文解析得到的标准文档引用关系和计算的两个标准文档之间的相似度得到标准文档之间的关联关系。
在本发明的一个实施例中,两个标准文档之间的相似度的计算公式为:
其中,d(1)为标准文档1中的词袋向量;d(2)为标准文档2中的词袋向量;di (1)为词汇wi在标准文档1中的词袋向量;dj (2)为词汇wj在标准文档2中的词袋向量;Tij为标准文档d(1)中词汇wi被运送到标准文档d(2)的词汇wj时所需要的代价;costij为词汇wi和词汇wj对应的嵌入向量的欧式距离
其中,标准文档之间引用关系的获取方法:
判断标准文档中是否存在其所引用的标准号及标准名称列表:
若存在列表,则定位列表在标准文档中出现的位置,并采用标准号提取方法提取引用标准号和标准名称,得到标准文档之间的引用关系;
若不存在列表,则提取标准文档中的标准号,并将标准号所在句子作为该标准文档与所引用标准关联的内容;
根据标准文档与所引用标准关联的内容,获取所引用标准号的标准条目;
根据所引用标准号的标准条目提取所引用标准号所在处内容,得到标准条目与标准条目之间的引用关系,并通过标准条目与标准条目之间的引用关系得到两个文档之间的引用关系。
实施时,本方案优选标准号的提取方法为:
采用标准号前半部分为(([A-Za-z]){2,}[\\s]?[A-Za-z]?)++,后半部分为([0-9]+[\\.-]*(\\s)*)+的标准号约束条件提取标准文档中的标准号。
在步骤106中,采用与两个标准文档相似度相同的计算方式计算所有标准文档中标准条目之间的相似度,并根据相似度确定标准条目之间的关联关系。
在步骤107中,根据已知的标准条目与标准化要素之间的关联关系,获取未标注关联关系的标准条目与标准要素的关联关系,之后构建形成所有标准文档中标准条目与标准化要素之间的关联关系。
如图3所示,装备标准体系中有一部分条目具有人工标注的标准化要素标签,即有少量的条目与标准化要素之间的关联关系是已知的,比如I1与T1和T2之间的关联关系,I2与T2和T4之间的关联关系,I4与T3之间的关联关系。所以,这些已知的关系可以用来间接计算其他未知关系,从而完善整个条目与标准化要素之间的关系模型。
在本发明的一个实施例中,获取未标注关联关系的标准条目与标准要素的关联关系包括:
计算待分配标准化要素的标准条目与其相关的标准条目中标准化要素之间的相关程度:
其中,Ij为与章节Ii相似的章节;Tk为标准化要素;为Ij与Ii之间的相似度;为Ii与Tk之间的相关程度;为与Ii相似章节的集合;中的元素个数。
如图3和图4所示,对于待分配准化要素的标准条目I3,在得知其与标准条目I1和标准条目I4的相关性后,由图4可以得知,可以将标准化要素T3分配给I3,并可以公式(1)计算得到I3与T3之间的相关程度。
计算待分配标准条目的标准化要素与其相关的标准化要素对应的标准条目之间的相关程度:
其中,Tp为与Tk为标准化要素;为Tp与Tk之间的相似度;为Ii与Tp之间的相似程度;为与Tk相似的标准化要素的集合;中元素的个数。
如图3和图5所示,对于待分配标准条目的标准化要素T5,在得知其与标准化要素T4和标准化要素T2的相关性后,由图5可以得知,可以将标准化条目I2分配给T5,并可以公式(2)计算得到T5与I2之间的相关程度。
在步骤108中,采用所有标准化要素、所有标准文档的主题词及标准文档中的领域词形成语料库,并根据语料库,采用k-means聚类方法或LDA聚类方法对所有的标准文档进行聚类,得到标准文档之间的隐含关系。
在步骤109中,根据所有标准文档的隐含关系、标准文档与标准文档之间关联关系、标准条目之间的关联关系及标准条目与标准化要素之间的关联关系形成装备标准的关联图谱。
在本发明的一个实施例中,装备标准的关联图谱构建方法还包括提取标注文档中预设量权重最大的句子作为标准文档的摘要:
统计每个词汇在标准文档中出现的词频,并根据词频计算词汇的权重;
根据句子中所有词汇的词频、在标准文档中出现的位置及其所属领域特性,采用浅层句法分析方法计算句子的权重;
选取预设量(预选预设量为10)的权重最大的句子作为摘要候选句子,之后将摘要候选句子按照在标准文档中出现的顺序输出构成摘要。
本方案将标准文档中出现概率比较大的句子提炼出来作为标准文档的摘要信息,加入构建关联图谱中去,这样用户在进行检索时可以用摘要信息进行检索,这样可以在较短时间内就寻找到最接近的标准文档。
浅层分析方法是指利用统计的方法计算文档各种特征的权重,采用浅层句法分析方法进行句子权重的计算,可以保证提取摘要结果的逻辑性和连贯性。
其中,统计特征主要包括以下几种:
词频。文章中多处出现的词往往能够集中表达文章的主要内容,这些词在计算句子权重时会起到重要作用,所以需要对这些词的出现频度进行统计。但有些词如“这些”、“的”、“是”等,出现频率也很高,但却不能表达文章的主要意思,这类词通常被称为停用词,不在统计范围之内。包含关键词越多的句子越容易被抽取形成摘要。
在计算词语权重时,考虑领域词的作用,同时考虑位置尤其是标题词的作用。根据标题词的代表意义对文中的相同词汇进行一次加权,根据专家提供的领域词库,对每篇文档的领域相关词进行再次加权。经过两次加权后,本篇标准的重要关键词将会具有较高的权重,从而为提取标准的关键句子提供重要信息。
句子的位置。根据标准文档的写作习惯,首个章节往往会简要概括本篇文档所规定的基本范围,因此首章的内容具有非常重要的意义。这个方法的核心思想就是运用数字化的方法寻找中心句作为文章摘要。
我们利用这种自动文摘算法抽取原文中句子得分最高的N条作为摘要信息,并通过与人工抽取摘要结果的对比,实验证明使用这种方法对标准提取摘要有良好的效果。
在基于本方案构建的关联图谱过程中计算的各个实体间的关系,分析不同类型元素之间的内在特征及规律,可从复杂关系网络中筛选出围绕不同类型元素发散的关联关系,形成各种元素成体系化的关联谱系。如:装备谱系、标准谱系等等。
装备谱系的核心是围绕装备出发,主要由装备体系(装备分类)、装备、模块、部件、组件、标准化要素、标准、标准条目等元素及其之间的复杂关系组成,为装备的全生命周期及使用维修等过程中信息的获取、理解提供辅助支撑。
标准谱系的核心是围绕标准出发,主要是由标准体系(标准分类)、标准、标准条目、主题词、标准所规范约束的装备(模块、部件、组件)等元素及其之间的复杂关系组成,为标准的制修订中信息的获取、理解等提供辅助支撑。
如果继续分析挖掘装备、模块、部件/子部件与所采用的标准之间的关系,还可以形成装备、模块、部件/子部件的作战环境谱系、研制规范谱系、测试环境谱系等等。
关联图谱实际上是将现有的业务数据进行整合,提取业务数据中的核心元素,建立元素与元素之间的显性与隐性关联关系,形成一套成体系、智能化的复杂关系网络,有效的把数据组织关联起来,提升使用人员对业务数据的获取速度、理解速度,让使用人员理解在其他形式的情况下不易发现的问题。
由于装备标准关联图谱模型关联数据的种类繁杂和庞大,只有结合可视化的表达形式与交互技术才能将关联图谱这种抽象的事物以直观的方式表现出来,使用户更易于目睹、探索以至于立即理解大量信息。主要研究成果如下:
(1)可视化应用
a)基于关联图谱的智能检索及可视化应用
基于关联图谱模型,可以构建非常智能的检索应用,极大的提升用户的知识获取及理解速度。例如:输入一个典型装备关键词(如:装甲车),通过关联图谱可获取装备体系中所有相关型号的装甲车装备信息、装甲车相关型号研制/试验/维修等等规范标准、相关型号装甲车构成及其相关资源(三维模型/视频/文件)的展示、相关型号装甲车的战术技术指标、相关型号装甲车的作战环境等等装甲车相关谱系信息,并且可通过关联谱系种类进行筛选,缩小检索范围。由于可能搜索到的数据种类繁多与庞大,可结合可视化看板技术将检索出的数据直观清晰的展示出来。
b)基于关联图谱的智能化推荐
关联图谱模型越完善,所整合的业务知识就越丰富。针对用户特定的需求场景,分析用户的目标、行为和反馈,将不同关联谱系的知识有机的整合起来,可形成众多典型案例推荐给所需要的人员,为装备型号研制、标准制修订等标准化工作提供切实、有效的参考依据。
c)基于关联图谱的标准化审查
关联图谱整合了不同来源的业务数据,多源的数据之间往往存在很多不协调、不一致的地方,复杂的关联关系之间同样存在很多潜在的风险。例如:①某模块研制规范中引用了标准A中的指标,但是该指标并未遵循标准A的约束,那么在该模块研制过程中使用此指标就会存在很大的风险;②一个标准出现在一个文档中为标准ABC,出现在另外一个文档中为标准AC,实际上这两个标准为同一个标准,这种不一致的问题会对标准化工作的推进会形成很大的阻碍;③某型号论证时采用标准A,但是研制时未采用该标准的规范,这种前后不协调的问题往往会存在很大的风险。④标准A在1999年已经废除,但是在某型号在2012年还在使用,相关论证、研制文档中指标、引用内容还是参照已废除的标准,从逻辑上是极为不合理的。
针对这些问题,可构建一套基于关联图谱的标准化审查方法,规范约束标准化工作人员,在造成重大的损失之前,将切实、有效的参考依据推送给使用人员,规避潜在的风险。
(2)人机交互方式设计
人机交互设计可支持多种交互方式,除传统键盘之外,在研讨交流及汇报演示时利用红外、电容触摸屏幕等显示设备,友好的人机交互方式能够加强用户在使用数据挖掘、信息分析工具中良好的体验。使用户能够更加关注于可视化图表所揭示的信息,尽量减少机械式的输入和界面交互的影像。
由于关联图谱数据种类繁多庞大,需要同时显示的信息众多,要在一块单独屏幕上显示完所有信息,会增加显示难度和切换操作次数,特殊需求场景下可以使用多屏(三屏)的方式展示功能和信息,使之人机交互友好,增强体验度。

Claims (7)

1.装备标准的关联图谱构建方法,其特征在于,包括:
获取装备的模块划分数据,并根据所述模块划分数据提取装备的模块、部件和组件,构建装备内部各个组件的组成关联网;
获取装备的最小组成单元组件的标准化要素,并根据所述标注化要素获取与其对应的标准文档;
采用基于Open XML标准的标准文档自动提取方法提取每篇标准文档的标准条目及标准条目对应的内容;
提取标准文档中词汇中设定量的最高权重词汇作为标准文档的主题词;
通过标准文档中正文解析得到的标准文档引用关系和计算的两个标准文档之间的相似度得到标准文档之间的关联关系;
采用与两个标准文档相似度相同的计算方式计算所有标准文档中标准条目之间的相似度,并根据相似度确定标准条目之间的关联关系;
根据已知的标准条目与标准化要素之间的关联关系,获取未标注关联关系的标准条目与标准要素的关联关系,之后构建形成所有标准文档中标准条目与标准化要素之间的关联关系;
采用所有标准化要素、所有标准文档的主题词及标准文档中的领域词形成语料库,并根据语料库,采用k-means聚类方法或LDA聚类方法对所有的标准文档进行聚类,得到标准文档之间的隐含关系;
根据所有标准文档的隐含关系、标准文档与标准文档之间关联关系、标准条目之间的关联关系及标准条目与标准化要素之间的关联关系形成装备标准的关联图谱。
2.根据权利要求1所述的装备标准的关联图谱构建方法,其特征在于,所述提取标准文档中词汇中设定量的最高权重词汇作为标准文档的主题词进一步包括:
采用分词工具对标准文档进行分词操作,并对所有词汇进行词频统计,将得到的绝对词频作为词汇的初始权重;
根据词汇出现的位置及词汇所属领域的特性,对词汇进行加权处理,得到词汇的加权词频;
根据加权词频,采用TF-IDF算法计算词汇的TF-IDF值,并进行归一化处理得到词汇的最终权重,之后选取设定量的权重最高词汇作为标准文档的主题词。
3.根据权利要求1所述的装备标准的关联图谱构建方法,其特征在于,还包括提取标注文档中预设量权重最大的句子作为标准文档的摘要:
统计每个词汇在标准文档中出现的词频,并根据词频计算词汇的权重;
根据句子中所有词汇的词频、在标准文档中出现的位置及其所属领域特性,采用浅层句法分析方法计算句子的权重;
选取预设量的权重最大的句子作为摘要候选句子,之后将摘要候选句子按照在标准文档中出现的顺序输出构成摘要。
4.根据权利要求1所述的装备标准的关联图谱构建方法,其特征在于,两个标准文档之间的相似度的计算公式为:
其中,d(1)为标准文档1中的词袋向量;d(2)为标准文档2中的词袋向量;di (1)为词汇wi在标准文档1中的词袋向量;dj (2)为词汇wj在标准文档2中的词袋向量;Tij为标准文档d(1)中词汇wi被运送到标准文档d(2)的词汇wj时所需要的代价;costij为词汇wi和词汇wj对应的嵌入向量的欧式距离。
5.根据权利要求1或4所述的装备标准的关联图谱构建方法,其特征在于,所述标准文档之间引用关系的获取方法:
判断标准文档中是否存在其所引用的标准号及标准名称列表:
若存在列表,则定位所述列表在标准文档中出现的位置,并采用标准号提取方法提取引用标准号和标准名称,得到标准文档之间的引用关系;
若不存在列表,则提取标准文档中的标准号,并将标准号所在句子作为该标准文档与所引用标准关联的内容;
根据标准文档与所引用标准关联的内容,获取所引用标准号的标准条目;
根据所引用标准号的标准条目提取所引用标准号所在处内容,得到标准条目与标准条目之间的引用关系,并通过标准条目与标准条目之间的引用关系得到两个文档之间的引用关系。
6.根据权利要求5所述的装备标准的关联图谱构建方法,其特征在于,所述标准号的提取方法为:
采用标准号前半部分为(([A-Za-z]){2,}[\\s]?[A-Za-z]?)++,后半部分为([0-9]+[\\.-]*(\\s)*)+的标准号约束条件提取标准文档中的标准号。
7.根据权利要求1所述的装备标准的关联图谱构建方法,其特征在于,所述获取未标注关联关系的标准条目与标准要素的关联关系包括:
计算待分配标准化要素的标准条目与其相关的标准条目中标准化要素之间的相关程度:
其中,Ij为与章节Ii相似的章节;Tk为标准化要素;为Ij与Ii之间的相似度;为Ii与Tk之间的相关程度;为与Ii相似章节的集合;中的元素个数;
计算待分配标准条目的标准化要素与其相关的标准化要素对应的标准条目之间的相关程度:
其中,Tp为与Tk为标准化要素;为Tp与Tk之间的相似度;为Ii与Tp之间的相似程度;为与Tk相似的标准化要素的集合;中元素的个数。
CN201810547824.9A 2018-05-31 2018-05-31 装备标准的关联图谱构建方法 Pending CN108804621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810547824.9A CN108804621A (zh) 2018-05-31 2018-05-31 装备标准的关联图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810547824.9A CN108804621A (zh) 2018-05-31 2018-05-31 装备标准的关联图谱构建方法

Publications (1)

Publication Number Publication Date
CN108804621A true CN108804621A (zh) 2018-11-13

Family

ID=64089738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810547824.9A Pending CN108804621A (zh) 2018-05-31 2018-05-31 装备标准的关联图谱构建方法

Country Status (1)

Country Link
CN (1) CN108804621A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486919A (zh) * 2020-11-13 2021-03-12 北京北大千方科技有限公司 文档管理方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104502918A (zh) * 2014-12-30 2015-04-08 华中科技大学 一种低轨卫星星载图谱关联探测方法与载荷
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104502918A (zh) * 2014-12-30 2015-04-08 华中科技大学 一种低轨卫星星载图谱关联探测方法与载荷
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
史力晨 等: "装备标准关联图谱建模与可视化应用研究", 《系统仿真学报》 *
官赛萍 等: "基于WMD距离与近邻传播的新闻评论聚类", 《中文信息学报》 *
尹亮 等: "基于装备标准关联图谱的标准化管控建模", 《装甲兵工程学院学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112486919A (zh) * 2020-11-13 2021-03-12 北京北大千方科技有限公司 文档管理方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN107609052B (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
Inzalkar et al. A survey on text mining-techniques and application
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN103473283B (zh) 一种文本案例匹配方法
CN108073569A (zh) 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN107315738B (zh) 一种文本信息的创新度评估方法
US20080097937A1 (en) Distributed method for integrating data mining and text categorization techniques
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
US20060288275A1 (en) Method for classifying sub-trees in semi-structured documents
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
Shah et al. Sentimental Analysis Using Supervised Learning Algorithms
CN110704577A (zh) 一种电网调度数据的搜索方法及系统
Thushara et al. A model for auto-tagging of research papers based on keyphrase extraction methods
Dorji et al. Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary
Wang et al. Data-driven approach for bridging the cognitive gap in image retrieval
CN114997288A (zh) 一种设计资源关联方法
Naser-Karajah et al. Current trends and approaches in synonyms extraction: Potential adaptation to arabic
Wang et al. Multi‐label emotion recognition of weblog sentence based on Bayesian networks
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
Rasheed et al. Building a text collection for Urdu information retrieval
KR20010064269A (ko) 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
CN108804621A (zh) 装备标准的关联图谱构建方法
CN106775694A (zh) 一种软件配置代码制品的层次分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113