CN107092705A - 一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法 - Google Patents
一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法 Download PDFInfo
- Publication number
- CN107092705A CN107092705A CN201710394197.5A CN201710394197A CN107092705A CN 107092705 A CN107092705 A CN 107092705A CN 201710394197 A CN201710394197 A CN 201710394197A CN 107092705 A CN107092705 A CN 107092705A
- Authority
- CN
- China
- Prior art keywords
- frequency
- data
- illustrative plates
- entity
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
为提高经济效益,从效率提升和战略投资实践中获得最大的效益提升和战略投资实践的价值,本发明提出了一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法,属于分布式计算和软件工程学技术交叉领域。在数据图谱的基础上,分析了软件开发活动需求分析中的数据观察和收集,标记数据的结构频度、时间频度和空间频度。本发明提出使用信息图谱来记录实体间交互的频度,并解决设计活动中不正确的信息流控制和信息丢失的问题。在详细设计活动的需求建模中,本发明阐述了知识图谱与UML相比在需求表达方面的优势,包括对需求包含语义表达的完整性和覆盖范围等方面。
Description
技术领域
本发明是一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法,在数据图谱、信息图谱和知识图谱上通过计算数据、信息和知识的频度辅助软件设计过程,提高建模抽象层次。
背景技术
软件开发从产生到现在历经了数种体系结构的变革,从传统的体系结构阶段到基于组件的体系结构阶段,再到面向服务的体系结构阶段,每次变革都是为了应对不断增加的软件复杂度。随着软件应用规模的逐步扩大,应用层次的逐步深入,软件开发复杂度日益增加。面对复杂多变的软件需求,如何减少开发成本,如何充分利用现有的资源提高软件可重用性,成为了一个迫切需要解决的问题。
本发明将数据、信息和知识层面的整个系统设计流程模型化为数据、信息和知识生命周期中数据共享、信息传递和知识创建控制的阶段,将相应的数据、信息和知识处理阶段作为原子数据、信息和知识处理活动和状态进行细化,基于数据图谱、信息图谱和知识图谱对数据的频度、实体交互的频度进行计算,完整表达实体之间的语义关系。
发明内容
技术问题:本发明的目的是提供一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法,提出在数据图谱、信息图谱和知识图谱的架构上,跨越经济规划和技术实施之间桥接双向价值驱动设计,使用数据图谱、信息图谱和知识图谱来分析对包括需求分析、架构设计和模型抽象在内的软件开发活动产生负面影响的问题。
技术方案:本发明的方法是一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法,其目标是为信息技术方面的实施提供指导和整合,实现连贯一致的数据、信息和知识协调以及强大的价值导向适应性,最大限度地提高利益相关者方的利益。
、体系结构
图1给出一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法的结构,图2给出了数据图谱、信息图谱和知识图谱的关联关系,本发明对软件开发活动中的需求分析、架构设计、模型抽象等软件开发活动分别基于数据图谱、信息图谱和知识图谱进行分析,细化软件开发流程。
下面给出数据图谱、信息图谱和知识图谱的具体说明。
数据图谱:数据图谱能记录关键词出现的频度,包括结构、时间和空间三个层次的频度。我们定义结构频度为数据出现在不同数据结构中的次数,时间频度为数据的时间轨迹,空间频度被定义为数据的空间轨迹。数据图谱上可以描述图中各个结点之间关联的紧密程度即密度,可以反映出哪些数据联系紧密,哪些数据联系稀疏。但数据图谱上未对数据的准确性进行分析,可能出现不同名称的数据但表示同一含义,即数据冗余。综上,数据图谱只能对数据进行静态分析,无法分析和预测数据的动态变化。
数据是通过观察获得的数字或其他类型信息的基本个体项目,但是在没有上下文语境的情况下,它们本身没有意义。数据图谱可以通过数组、链表、队列、树、栈、图等数据结构来表达。在数据图谱上,通过计算数据的频度,得出数据在数据图谱上的支持度和置信度来删除错误或无用数据,删除的条件是必须同时满足支持度和置信度的阈值要求,阈值过大不利于图谱表达的准确性,过小会不利于表达的完整性,可以根据计算图谱反馈的结果信息动态调整。
信息图谱:信息是通过数据和数据经过组合之后的上下文传达的,经过概念映射和相关关系连接之后的适合分析和解释的信息。信息图谱可以通过关系数据库来表达。信息图谱上的频度指的是实体与实体之间的交互的频度,信息图谱可以表达实体之间的交互关系,根据算法1得到两个实体间的所有完整路径,把交互频度高的实体进行集成同样会提高模块的内聚性。在信息图谱上可以进行数据清洗,消除冗余数据,根据实体之间的交互度进行初步抽象,提高设计的内聚性,降低耦合度。通过圈定特定数量的实体,计算内部交互度和外部交互度,内聚性cohesion等于内部交互度和外部交互度的比值,我们设定所圈定的实体之间必须是相互连通的:
知识图谱:知识是从积累的信息中获得的总体理解和意识,将信息进行进一步的抽象和归类可以形成知识。知识图谱可以通过包含结点和结点之间关系的有向图来表达。知识图谱可以表达各种语义关系,在知识图谱上能通过信息推理和实体链接提高知识图谱的边密度和结点密度,知识图谱的无结构特性使得其自身可以无缝链接。信息推理需要有相关关系规则的支持,这些规则可以由人手动构建,但往往耗时费力,得到复杂关系中的所有推理规则更加困难。目前,信息推理主要依赖于关系的同现,并使用关联挖掘技术自动查找推理规则。PRA使用每个不同的关系路径作为一维特征,通过在知识图谱中构建大量的关系路径来构建关系分类的特征向量和关系分类器来提取关系,关系的正确度超过某一阈值后认为新关系成立。
有益效果:
本发明提出了一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法,目的是基于数据图谱、信息图谱和知识图谱的基础上,跨越经济规划和技术实施之间桥接双向价值驱动设计,从而最大化业务盈利能力。本发明具有如下优点:
1)跨越良好的经济知识和设计经验,可以为所有的利益相关者提供增值的双赢服务混搭环境,以便于利益相关者可以花费最低成本,但获得相对可选的服务;
2)与CMMI相比,CMMI从细化的角度重点关注管理,本发明从商业设计的顶端形成闭环来实现细节;
3)从数据、信息和知识的角度细化了软件开发活动,有效解决软件开发过程中出现的数据信息知识冗余、无用、错误和控制不当等问题。
附图说明
图1是一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法结构。
图2 是数据图谱、信息图谱和知识图谱的关联关系示例。
图3是需求分析中冗余和无用数据示例。
图4是概要设计中信息流控制不当和信息丢失示例。
具体实施方式
本发明提出了一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法,对软件开发活动中的需求分析、概要设计和详细设计活动分别基于数据图谱、信息图谱和知识图谱进行分析,细化软件开发流程。
一.需求分析活动中数据的观察与采集
需求开发过程一般分为需求获取,需求分析,撰写需求规范和需求验证四个阶段。需求获取的主要任务是了解用户的类型和业务领域,并根据用户的要求确定整体系统目标和工作范围。本发明使用数据图谱来模拟需求开发过程,查找对开发有负面影响的数据。
本发明限制一些数据是无用的,因为它既不利于积极建立必要的中间模型或目标模型,也不利于实施由错误数据证明的负面构造。引入无用的数据需要额外的努力,资源和时间成本。无用数据的特殊情况是有用的数据是不必要的,但被重复创建,引入和存储。无用数据被模拟为参与者活动期间生成的数据,但对后续活动无效。对于理想使用模型中需要被重用的数据,将最大化其使用和发生,同时最小化其重复创建。图3显示了需求分析过程中的数据共享情况。黑框内容代表软件开发的设计活动和黑色椭圆框中的内容代表数据产生。由于需求跟踪记录对最终活动没有影响,需求规范的出度为1即可。在软件设计过程中也有一些冗余的情况,它们反复和不必要地产生和收集相同的数据。在图3中,活动过程审核和过程质量分析将产生不必要的反复制作的审查报告。每个活动都应配备执行时间,但本发明在图3中没有展示。
二.架构设计中的信息流控制
从信息传递的角度来看,信息流需要很好地规划,以避免诸如顺序传送的低效情况,这样就允许并行模式,反之亦然。不正确的信息控制和信息丢失将导致建模活动的延迟甚至失败,并且时间跨度将超过理想过程中的预期时间。 信息流传输不足增加了资源方面的压力,包括存储和带宽。
1. 不合适的信息流控制
有多种情况可以优化控制流程。例如,如果一个活动的执行独立于在它之前的活动,即两者的执行不存在执行依赖,表示为一个活动的输入不包含其先前活动的输出,则活动的开始时间可以在其之前或之后移动。如图4所示,活动“正规检视”和活动“问题跟踪和解决”之间的执行存在依赖关系。活动“正规检视”必须在活动“问题跟踪和解决”之前发生,因为活动“正规检视”是活动的输入“跟踪和解决问题”。但是执行活动“撰写测试方案”不依赖于活动“撰写概要设计说明书”,所以这两个活动可以并行执行。那么时间跨度和资源压力就会降低。
2.信息丢失
不正确的设计可能来自于在利益相关者侧向实施的工件或传输过程的转移过程中丢失了一些数据和信息的情况。当选择数据作为利益相关者转移的目标时,数据在概念上成为信息。与理想的设计过程相比,并没有完整实现需求,因此信息丢失使得设计无法在完成项目方面取得成功,失去某些信息将导致不可能完成项目。信息丢失将导致信息设置少于预期的信息。图4中信息“审计报告”应被传输给“问题跟踪和解决”活动,但是有可能过早地被丢弃,因为活动“设计审查”和活动“跟踪解决问题”之间有很多的中间活动,而信息“审查报告”对其后续活动没有影响。
三.知识创造
知识是由用户适当处理的信息。当信息被充分吸收时,它产生知识,改变个人对信息的心理存储,并使他的发展和他所生活的社会的发展受益。知识是指用于产生“如何”问题的答案的信息。在实践中,知识也被用来构建活动,为“如何”,“什么”,“哪个”,“何时”和“哪里”指导的问题提供答案。知识不直接通过直接转移或转换来组成目标模型,而是可以在逻辑上用于对排除功能的负逻辑连接进行分类。关于目标模型的知识积累可以通过实体和关系推理来减少直接构建系统的实体和关系的数量。未知信息将在一系列未决定的可能性/选择中得到证明,这些可能性/选择需要通过进一步的数据,信息和知识介绍客观决定,或由利益相关者主观决定。将问题泛化,以更抽象的方式识别正在处理的问题,了解每个模式和原则是如何编写的,并了解自己要解决的问题是否符合特定模式或原则视试图解决的问题。设计模式是高层次的解决方案,运用知识把问题抽象,不过于关注具体问题的细节,了解应用程序中什么可能发生变化,从而选择可以有助于软件开发的设计模式。在软件详细设计过程中,使用知识图谱进行建模可以提高需求表达的完整性。在知识图谱中,可以通过知识推理建立更多实体之间的新关联,从而扩展实体之间的关系,增加知识图谱的边缘密度。
Claims (1)
1.一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法,其特征在于对需求进行语义建模时减少数据冗余和不一致,增强模型设计的内聚性,提高开发效率,具体步骤如下:
步骤1)获取服务软件开发需求描述,开发服务软件的需求可以由一个或多个客户来描述,多源的需求存在冗余性和不一致性,如果开发者以研究的方式收集用户的需求,用户群体会非常大,用户对需求的描述将会非常混乱;
步骤2)基于步骤1得到的需求描述,提取关键词并将关键词以结点的形式表达在数据图谱上,记录每种关键词出现的结构频度Str_f、时间频度Tem_f和空间频度Spa_f,本发明定义结构频度为数据出现在不同数据结构中的次数,限定每次计算在内的数据结构必须是数据所在最大数据结构(例如以图结构中树结构出现的频度按图结构计算,不再计算树结构的频度),时间频度为数据在不同时间出现的次数,空间频度被定义为数据在不同空间位置出现的次数;
步骤3)基于步骤2中记录的数据的结构频度、时间频度和空间频度,根据公式1计算数据的总频度frequency:
(1)
步骤4)基于步骤3得到的数据的总频度,根据公式2和公式3计算数据在数据图谱上的支持度support(ri)和置信度confidency以删除错误或无用数据,Frequency(DG)表示数据图谱上所有结点的频度总和,删除数据的条件是必须同时满足支持度和置信度的阈值要求,阈值过大不利于图谱表达的准确性,过小会不利于表达的完整性,可以根据计算图谱反馈的结果信息动态调整:
(2)
(3)
步骤5)基于步骤4)得到的数据图谱,由领域专家或学者对现有数据进行清洗,统一含义相同但表达方式不同的数据,减少小频率出现的数据;
步骤6)基于步骤5得到的信息图谱,根据公式4计算实体间交互的频度,实体间交互的频度表示实体间交互的次数,P表示实体之间所有完整的交互路径:
(4)
步骤7)基于步骤6得到的信息图谱,根据公式5计算有交互关系的多个实体的综合频度Total_frequency, FrequencyDG表示存在交互关系的实体在数据图谱上频度之和,FrequencyIG表示实体在信息图谱上的交互频度,α和β是数据图谱频度和信息图谱频度所占权重,可由训练得出:
(5)
步骤8)基于步骤7得到的信息图谱,计算连通结点的内聚性,根据公式6将实体内聚性确定为内部交互度和外部交互度的比值,Degree EI 表示圈定范围后的实体集与外部实体之间的交互,Degree II 表示圈定实体之间的内部交互,在外部交互度和内部交互度的计算中,我们忽略了实体之间的关系方向,计算多次后将具有最大cohesion的不同连通实体以属性和操作的形式集成到同一模块中,以增强模型的内聚性并提高抽象度:
(6)
步骤9)基于步骤8)得到的信息图谱,完善实体之间的语义关系,原子服务之间可能存在选择关系、序列关系、并行关系和互斥关系以及诸如“与”,“或”,“异或”,“非”等逻辑关系,在知识图谱上能通过信息推理和实体链接提高知识图谱的边密度和结点密度,知识图谱的无结构特性使得其自身可以无缝链接,信息推理需要有相关关系规则的支持,通过推理得到的新关系的正确度Cr根据公式7进行计算,P表示实体1和实体2之间的一条路径,Q表示所有路径,表示训练权重,当正确度超过某一设定阈值时认为该关系成立:
(7)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710394197.5A CN107092705A (zh) | 2017-05-28 | 2017-05-28 | 一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710394197.5A CN107092705A (zh) | 2017-05-28 | 2017-05-28 | 一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107092705A true CN107092705A (zh) | 2017-08-25 |
Family
ID=59638868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710394197.5A Pending CN107092705A (zh) | 2017-05-28 | 2017-05-28 | 一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107092705A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021624A (zh) * | 2017-11-21 | 2018-05-11 | 北京金堤科技有限公司 | 一种时效性动态图谱展现的方法及装置 |
CN111666420A (zh) * | 2020-05-29 | 2020-09-15 | 华东师范大学 | 基于学科知识图谱集中抽取专家的方法 |
CN112073415A (zh) * | 2020-09-08 | 2020-12-11 | 北京天融信网络安全技术有限公司 | 一种网络安全知识图谱的构建方法及装置 |
CN112765368A (zh) * | 2021-01-29 | 2021-05-07 | 北京索为系统技术股份有限公司 | 基于工业app的知识图谱建立方法、装置、设备及介质 |
CN117880764A (zh) * | 2024-03-13 | 2024-04-12 | 深圳市诚立业科技发展有限公司 | 基于大数据的垃圾短信筛选方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100005117A1 (en) * | 2006-07-28 | 2010-01-07 | Koninklijke Philips Electronics N. V. | Distributed shared data space for personal health systems |
CN103593792A (zh) * | 2013-11-13 | 2014-02-19 | 复旦大学 | 一种基于中文知识图谱的个性化推荐方法与系统 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
-
2017
- 2017-05-28 CN CN201710394197.5A patent/CN107092705A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100005117A1 (en) * | 2006-07-28 | 2010-01-07 | Koninklijke Philips Electronics N. V. | Distributed shared data space for personal health systems |
CN103593792A (zh) * | 2013-11-13 | 2014-02-19 | 复旦大学 | 一种基于中文知识图谱的个性化推荐方法与系统 |
CN106355628A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 图文知识点标注方法和装置、图文标注的修正方法和系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021624A (zh) * | 2017-11-21 | 2018-05-11 | 北京金堤科技有限公司 | 一种时效性动态图谱展现的方法及装置 |
CN108021624B (zh) * | 2017-11-21 | 2020-08-11 | 北京金堤科技有限公司 | 一种时效性动态图谱展现的方法及装置 |
CN111666420A (zh) * | 2020-05-29 | 2020-09-15 | 华东师范大学 | 基于学科知识图谱集中抽取专家的方法 |
CN112073415A (zh) * | 2020-09-08 | 2020-12-11 | 北京天融信网络安全技术有限公司 | 一种网络安全知识图谱的构建方法及装置 |
CN112073415B (zh) * | 2020-09-08 | 2022-11-15 | 北京天融信网络安全技术有限公司 | 一种网络安全知识图谱的构建方法及装置 |
CN112765368A (zh) * | 2021-01-29 | 2021-05-07 | 北京索为系统技术股份有限公司 | 基于工业app的知识图谱建立方法、装置、设备及介质 |
CN112765368B (zh) * | 2021-01-29 | 2023-08-22 | 索为技术股份有限公司 | 基于工业app的知识图谱建立方法、装置、设备及介质 |
CN117880764A (zh) * | 2024-03-13 | 2024-04-12 | 深圳市诚立业科技发展有限公司 | 基于大数据的垃圾短信筛选方法 |
CN117880764B (zh) * | 2024-03-13 | 2024-05-28 | 深圳市诚立业科技发展有限公司 | 基于大数据的垃圾短信筛选方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106990973A (zh) | 一种基于数据图谱、信息图谱和知识图谱架构的价值驱动的服务软件开发方法 | |
CN107092705A (zh) | 一种基于元素多维频度关联计算的数据图谱、信息图谱和知识图谱架构的语义建模方法 | |
CN107038261B (zh) | 一种基于数据图谱、信息图谱和知识图谱的处理架构资源可动态抽象的语义建模方法 | |
Ding et al. | Social network analysis-based conflict relationship investigation and conflict degree-based consensus reaching process for large scale decision making using sparse representation | |
Jain et al. | A new approach for evaluating agility in supply chains using fuzzy association rules mining | |
Tiwari et al. | Supply chain flexibility: a comprehensive review | |
CN107038262B (zh) | 一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模方法 | |
Samoilenko et al. | Using Data Envelopment Analysis (DEA) for monitoring efficiency-based performance of productivity-driven organizations: Design and implementation of a decision support system | |
Tyagi et al. | An extended Fuzzy-AHP approach to rank the influences of socialization-externalization-combination-internalization modes on the development phase | |
Vohra | Intelligent decision support systems for admission management in higher education institutes | |
Sherman et al. | Intervening on network ties | |
Buede et al. | Convergence in problem solving: a prelude to quantitative analysis | |
CN108471414A (zh) | 面向类型化资源的物联网数据隐私保护方法 | |
Pan et al. | Modeling and analyzing dynamic social networks for behavioral pattern discovery in collaborative design | |
Shao et al. | Bidirectional value driven design between economical planning and technical implementation based on data graph, information graph and knowledge graph | |
Martin et al. | A novel method of decision making based on plithogenic contradictions | |
Na et al. | Distributed Bayesian network structure learning | |
Toğan et al. | Optimizing of discrete time-cost in construction projects using new adaptive weight formulations | |
Zardi et al. | A multi-agent homophily-based approach for community detection in social networks | |
Gyory et al. | Exploring the application of network analytics in characterizing a conceptual design space | |
Ahmed et al. | Fuzzy inference system for software product family process evaluation | |
Dasheng et al. | Estimation of project costs based on fuzzy neural network | |
CN108363563A (zh) | 基于数据图谱、信息图谱和知识图谱架构的uml模型一致性检测方法 | |
Yilmaz | Using meta-level ontology relations to measure conceptual alignment and interoperability of simulation models | |
Shen et al. | Enhance the evaluation quality of project performance based on fuzzy aggregation weight effect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170825 |
|
RJ01 | Rejection of invention patent application after publication |