CN112818385B - 基于常识推理的多模态资源的本质内容处理方法及系统 - Google Patents
基于常识推理的多模态资源的本质内容处理方法及系统 Download PDFInfo
- Publication number
- CN112818385B CN112818385B CN202110074301.9A CN202110074301A CN112818385B CN 112818385 B CN112818385 B CN 112818385B CN 202110074301 A CN202110074301 A CN 202110074301A CN 112818385 B CN112818385 B CN 112818385B
- Authority
- CN
- China
- Prior art keywords
- data
- dik
- resource
- resources
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Computer Security & Cryptography (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于常识推理的多模态资源的本质内容处理方法及系统。通过获取资源,并基于智慧图体系结构将资源映射为类型化资源,资源来自多个来源,类型化资源包括数据资源、信息资源和知识资源至少三种模态;根据所得到的类型化资源进行同模态关联融合和/或跨模态关联融合,得到新资源并确定模态;采用随机化对新资源进行隐私保护。在本方案中,通过同模态关联融合和/或跨模态关联融合互相补充完善、形成新的资源,并采用随机化的方式对融合后的新资源进行隐私保护,实现获取完整、确定资源,并对完整确定资源处理后的资源进行全面隐私保护的目的。
Description
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种基于常识推理的多模态资源的本质内容处理方法及系统。
背景技术
随着互联网的广泛普及和大数据时代的来临,产生了具有巨大商业价值和社会价值的各种资源,人们可以从这些资源中获得巨大好处,但随着累积内容量的增加,人们越来越需要努力处理相应的内容,以达到各种目的,包括共享内容资源和相应的隐私保护。从多个来源积累内容资源,不仅仅意味着单独处理内容所需的投资或成本增加,内容来源越多,内容来源的类型就越可能多样化。由于通常对于每种类型的内容,都需要为其指定使用解决方案,因此更多类型的内容将需要更多的解决方案,更不必说混合资源混合解决方案的组成复杂性,因此处理、使用多个来源的内容资源十分困难。
与此同时,这些资源中可能存在大量敏感内容,包括重要的个人隐私数据和信息。例如,各大医院收集的患者身体健康情况数据、使用全球定位系统协议应用程序收集的用户位置信息等,这些敏感资源本身以及利用相关资源进行关联融合后形成的新敏感资源可能会随着更加隐蔽、多样的数据收集存储以及数据挖掘,导致更加频繁的隐私泄露和隐私窃取,从而产生更加巨大的危害和影响,引发了人们对隐私的广泛关注和担忧。
现有的隐私保护方法主要是针对数据集上可直接观察到的数值型、字符型等类型数据进行各种处理,使得处理后的数据不能直接显示原数据的具体内容,以此达到保护隐私的目的。常用的隐私保护方法包括采用匿名模糊或数据失真处理(如添加随机噪声)等技术隐藏真实数据,并运用回归分析、数据失真调整、噪声尺度参数调整等方法减少噪声带来的误差,提高数据的可用性。但是这些方案也存在很多不足,包括这些方案只对显式资源进行处理,未对隐式的,即不能直接观察到的资源进行保护,存在隐私泄露风险等问题。
除此之外,人们进行分析时所获取的各种资源可能并非完整,且并非完全正确,人们可对这些不完整、不确定的资源进行相关逻辑处理,完成诸如推理等特定目标,也是一大挑战。
综上所述,目前亟需一种能够对跨多模态资源的本质内容进行处理和保护的方法。
发明内容
有鉴于此,本发明实施例提供一种基于常识推理的跨数据、信息、知识模态的本质内容挖掘与保护方法及系统,以解决现有的数据挖掘方法存在对资源尤其是敏感资源的隐私保护不够全面,以及基于获取到的不完整、不确定的资源进行处理时,很难得到准确结果的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开了一种基于常识推理的多模态资源的本质内容处理方法,所述方法包括:
获取资源,并基于智慧图DIKW体系结构将所述资源映射为类型化资源,所述资源来自多个来源,所述类型化资源包括数据资源DataDIK、信息资源InformationDIK和知识资源KnowledgeDIK至少三种模态;
根据所得到的类型化资源进行同模态关联融合和/或跨模态关联融合,得到新资源,并确定所述新资源的模态;
采用随机化对所述新资源进行隐私保护;
其中,所述同模态关联融合包括:针对每一种资源进行进行同模态关联融合,得到对应的第一新资源;
所述跨模态关联融合包括:针对多种资源进行跨模态关联融合,得到对应的第二新资源。
可选的,所述针对每一种资源进行进行同模态关联融合,得到对应的第一新资源包括:
针对每一种资源,判断两个同模态资源是否同时出现;
若未同时出现,进行标记并退出;
若同时出现,判断两个同模态资源是否具有关联;
若不具有关联,进行标记并退出;
若具有关联,分别对两个同模态资源进行初级、中级和/或高级关联融合,得到执行最高一级关联融合后获取的第一新资源和所述第一新资源的模态。
可选的,分别对两个同模态资源进行初级、中级和/或高级关联融合,得到对应的第一新资源得到执行最高一级关联融合后获取的第一新资源和所述第一新资源的模态,包括:
通过函数Splicing()对两个同模态资源进行初级关联融合,得到新初级资源,并根据所述新初级资源的不同用法确定所述新初级资源的模态;
根据所述初级关联融合的结果,判断是否可以继续执行中级关联融合;
若否,将所述新初级资源作为第一新资源,将所述新初级资源的模态作为所述第一新资源的模态;
若是,基于解析和逻辑推理对两个同模态资源进行中级关联融合,得到新中级资源,并确定所述新中级资源的模态;
根据所述中级关联融合的结果,判断是否可以继续执行高级关联融合;
若否,将所述新中级资源作为第一新资源,将所述新中级资源的模态作为所述第一新资源的模态;
若是,根据所述新中级资源进行融合计算,将得到的新高级资源作为第一新资源,将所述新高级资源的模态作为所述第一新资源的模态。
可选的,所述针对多种资源进行跨模态关联融合,得到对应的第二新资源,包括:
将多种资源两两或两两以上进行拼接,得到多个拼接资源;
将所述拼接资源两两进行关联融合,得到多个新资源;
将所述新资源两两进行关联融合,直至得到最终资源,将所述最终资源作为第二新资源。
可选的,若所述多种资源包括数据资源DataDIK和信息资源InformationDIK,针对多种资源进行跨模态关联融合,得到对应的第二新资源包括:
基于特定目的对所述数据资源DataDIK和所述信息资源InformationDIK进行拼接,得到第二新资源,所述特定目的至少包括:形成对应关系、总结匹配、相关数值计算、补充细节、逻辑计算、构建复合语句或复合命题、逻辑推理、检测判断取值是否满足相关条件和预测推理。
可选的,若所述多种资源包括数据资源DataDIK和知识资源KnowledgeDIK,针对多种资源进行跨模态关联融合,得到对应的第二新资源包括:
若所述数据资源DataDIK和所述知识资源KnowledgeDIK本身的含义和解释为非必要的,将所述知识资源KnowledgeDIK作为一个数据与所述数据资源DataDIK进行拼接,得到第二新资源;
若所述数据资源DataDIK和所述知识资源KnowledgeDIK本身的含义和解释为必要的,将所述知识资源KnowledgeDIK作为信息资源InformationDIK与所述数据资源DataDIK进行拼接,得到第二新资源。
可选的,若所述多种资源包括信息资源InformationDIK和知识资源KnowledgeDIK,针对多种资源进行跨模态关联融合,得到对应的第二新资源包括:
若所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为非必要的,将所述知识资源KnowledgeDIK作为信息与所述信息资源InformationDIK进行拼接,得到第二新资源;
若所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为必要的,基于特定目的将所述知识资源与所述信息资源InformationDIK进行拼接,得到第二新资源,所述特定目的至少包括:形成对应关系、总结匹配、相关数值计算、补充细节、逻辑计算、构建复合语句或复合命题、逻辑推理、检测判断取值是否满足相关条件和预测推理;
若所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为必要的,将所述信息资源InformationDIK作为所述知识资源KnowledgeDIK的内容补充或者证明材料与所述信息资源进行拼接,得到第二新资源。
可选的,若所述多种资源包括数据资源DataDIK、信息资源InformationDIK和知识资源KnowledgeDIK,针对多种资源进行跨模态关联融合,得到对应的第二新资源包括:
若所述数据资源DataDIK、所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为非必要的,将所述数据资源DataDIK、所述信息资源InformationDIK和所述知识资源KnowledgeDIK直接进行拼接,得到第二新资源;
若所述数据资源DataDIK、所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为必要的,且所述知识资源本身的含义和解释仅作为相关问题的解答或结论时,将所述知识资源KnowledgeDIK作为信息资源与所述信息资源InformationDIK、所述数据资源DataDIK进行拼接,得到第二新资源;
若所述数据资源DataDIK、所述信息资源InformationDIK和所述知识资源本身的含义和解释为必要的,且所述知识资源KnowledgeDIK本身的含义和解释作为相关问题的解答或结论有新的知识补充时,将补充之后的新的知识资源NewKnowledgeDIK与所述信息资源InformationDIK、所述数据资源DataDIK进行拼接,得到第二新资源。
可选的,所述采用随机化对所述新资源进行隐私保护,包括:
基于差分方式将所述新资源映射至类型化资源上,并采用对应的隐私保护方式对所述新资源进行隐私保护。
本发明第二方面公开了一种基于常识推理的多模态资源的本质内容处理系统,所述系统包括:
获取单元,用于获取资源,并基于智慧图DIKW体系结构将所述资源映射为类型化资源,所述资源来自多个来源,所述类型化资源包括数据资源DataDIK、信息资源InformationDIK和知识资源KnowledgeDIK至少三种模态;
融合单元,用于根据所得到的类型化资源进行同模态关联融合和/或跨模态关联融合,得到新资源,并确定所述新资源的模态;其中,所述同模态关联融合包括:针对每一种资源进行进行同模态关联融合,得到对应的第一新资源;所述跨模态关联融合包括:针对多种资源进行跨模态关联融合,得到对应的第二新资源;
差分单元,用于采用随机化对所述新资源进行隐私保护。
基于上述本发明实施例提供的基于常识推理的跨数据、信息、知识模态的本质内容挖掘与保护方法及系统。通过获取资源,并基于智慧图DIKW体系结构将所述资源映射为类型化资源,所述资源来自多个来源,所述类型化资源包括数据资源DataDIK、信息资源InformationDIK和知识资源KnowledgeDIK至少三种模态;根据所得到的类型化资源进行同模态关联融合和/或跨模态关联融合,得到新资源,并确定所述新资源的模态;采用随机化对所述新资源进行隐私保护;其中,所述同模态关联融合包括:针对每一种资源进行进行同模态关联融合,得到对应的第一新资源;所述跨模态关联融合包括:针对多种资源进行跨模态关联融合,得到对应的第二新资源。在本方案中,通过同模态关联融合和/或跨模态关联融合互相补充完善、形成新的资源,并采用随机化的方式对融合后的新资源进行隐私保护,实现获取完整、确定资源,并对完整确定资源处理后的资源进行全面隐私保护的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种基于常识推理的多模态资源的本质内容处理方法的流程示意图;
图2为本发明实施例公开的一种基于常识推理的多模态资源的本质内容处理系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前,对于资源的处理,已有的研究大多关注可直接观察到的、具有相同或相似结构、同种模态的数据、信息、知识资源进行处理,例如数据库资源等,期望通过数据挖掘等手段提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识。
传统的数据挖掘方法能成功应用于确定性资源,即完整的、不缺少内容的资源。随着技术的进步和人们对数据采集和处理技术理解的深入,人们将目光转向了在实际中广泛存在、且可对分析结果产生极大影响的、不完整、不保证正确的数据、信息、知识等资源,即不完全资源,不完全资源给具体应用包括查询、挖掘、分析等带来了困难。
导致资源出现不完全性的原因主要是:(1)绝对意义上的不完全,完整性、正确性遭到破坏:采集数据、信息等资源时出现缺省值、干扰值等;受周围环境的影响、传输过程中的失真导致获取的资源不正确。(2)相对意义上的不完全,客观上存在,但由于认识能力的限制,无法得知所有资源。
面对海量的、复杂的不完全性资源,人们的主要处理方式有:(1)将原有传统数据挖掘算法的经典模型加以改进,加入不确定性数据分析,例如在支持向量机中使用超球凸集数学模型来表示不确定性,在决策树算法中使用分类模型中的置信度和似然函数来表达不确定性数据等;(2)选择核心数据或近似数据填补原数据资源中的空值,并将核心数据集合作为衡量数据质量的一个指标,提高计算、查询等功能的效率,缩减参与计算的数据量;(3)基于统计学理论的随机数据挖掘,缺点是需要经过大量样本训练,在实际中很难完成;(4)基于模糊集理论的数据挖掘,用隶属度函数来描述不确定数据属于模糊集的程度,具有强大的描述不确定问题的能力和较为完善的数学理论基础;(5)基于粗糙集理论的随机数据挖掘,适用于同时存在非确定的随机过程和某些具有未知统计特性数的场合,可广泛运用于数据清洗、决策分类、规则获取理解等方面。不完全性资源的运用十分广泛,包括不完全信息的动静态博弈选择、偏好分析、决策方法制定、故障诊断等。
通过以上工作,发现在不完全资源进行相关处理时的对象常常只针对特定形态、结构的资源,例如数值型资源,对其他类型的资源处理较少,且处理方法无法运用到所有类型的资源上,可用范围窄,迁移难度高。
关于隐私保护,现有研究已经做了大量相关工作。大多数关于隐私安全保护的工作都假设数据是一个表,其中包含每个条目的属性信息。然而,现实世界中的数据往往更为复杂,具有多种表现形式。即使在单表数据中,删除诸如社会保险号码之类的识别信息也不足以保护数据中所代表的个人的安全。Krumm等人从时间、方式和程度等方面对隐私进行了探讨。Jordi等人解决了关联暴露导致比例隐私暴露的问题。社交网络中的隐私保护已经达到了通过概率和间接联系来识别揭示目标内容的效果。更为严峻的是,作为隐私保护目标的可组合复杂性可能表现出丰富的元素依赖性。而使用匿名化数据进行隐私保护的挑战在于定位数据元素或目标的依赖关系,并对甚至可以间接推断的内容进行操作。隐私目标保护不能简单地通过直接删除标识内容来实现,因为内容可能以其他形式存在,而这些形式仍然承载着隐私内容。Danezis等人介绍可以通过精心设计的政策和法律实施数据隐私保护。
知识图谱是一种建模、组织和提供语义知识(以嵌入语义信息的有向图的形式)的强大工具,可以作为表达和利用与人类知识相关的文本语义意义的解决方案。Duan等人阐明了知识图的体系结构,并将其扩展到包括数据图、信息图和智慧图(DIKW),并构建了一个界面来回答五个问题(谁、什么、何时、何地以及为什么)。基于这种DIKW架构,段等人提出了一种价值驱动的事务处理机制,通过协作存储、传输和计算优化来优化时间和空间复杂性。此外,还将DIKW架构用于隐私保护,提出了隐私内容建模和频率定义的类型化数据保护解决方案框架。
本申请将多个来源的资源映射为DIKW体系结构中的数据模态DataDIK、信息模态InformationDIK和知识模态KnowledgeDIK的类型化资源,并对它们的定义和联系进行详细的解释说明。并且由于不同模态的资源可能并非完整,且并非完全正确,可通过某些关联进行融合转换互相补充完善、形成新的资源,若不对未经转换的资源进行处理,就会存在很高的隐私泄露风险,鉴于DataDIK、InformationDIK、KnowledgeDIK的具体内容和形式多变,为达到更加直观、具体的目的,本申请从实例出发介绍同模态资源和跨模态资源关联融合的过程和可能结果,并确定生成新资源的模态。同模态资源关联融合的分析介绍以DataDIK和DataDIK为主,将DataDIK按照特定分类规则进行分类,关联融合的主要方法是不同类型的DataDIK之间产生联系,并对其进行逻辑推理得到新资源。模态资源关联融合的分析解释以不同模态资源关联融合产生不同模态的新资源为主线,辅以具体应用实例进行详细介绍,跨模态资源关联融合主要介绍DataDIK和InformationDIK关联融合的相关内容。最后将差分概念映射到DataDIK上,采用全类型化维度表达法表达某个特定目标,将DataDIK按规定分为内涵资源DataCon和外延资源DataEx,从内涵、外延角度阐释隐私,并提供量化提供支持程度、隐私暴露程度的方法,采用随机化对DataDIK进行隐私保护。
以下对本申请实施例中涉及到的类型化资源、数据资源、信息资源和知识资源的基础概念进行解释说明。
1.1、类型化资源
为了达到诸如预测推理、完整描述特定目标等目的,需要将一些已经存在的、但可能并不完整的数据、信息、知识等资源作为预测推理、关联判定追溯的重要基础和依据,这些资源被统称为类型化资源,用TRDIK表示。
TRDIK:=<DataDIK,InformationDIK,KnowledgeDIK> (1)
其中,DataDIK表示数据资源,InformationDIK表示信息资源,KnowledgeDIK表示知识资源,分别表示资源的三种模态。
在日常中分析处理的类型化资源通常拥有同一个来源,表明这些资源是紧密关联的,并且这些资源往往不是以单一模态存在,而是以混合形态存在的,混合形态是指数据资源、信息资源、知识资源均同时存在,或某些资源根据不同的用法可被划分为不同模态的资源。同时出现的三种模态资源也许并非完整,可能每种资源都缺少一些内容,并且这三种资源拥有和缺少的内容也不尽相同,可能数据资源拥有的一些相关内容,却无法在信息和知识资源层次找到,而数据资源缺少的内容却可以在信息和知识资源中被找到。
此外,DataDIK,InformationDIK和KnowledgeDIK这三种模态的资源可以通过互相融合、转化的方法互相进行补充和支撑,为特定预测推理或其他目的提供有效价值支撑。
不同资源之间可用ExistenceConfirmed判断、确认关联与否。
存在关联Existence又可分为客观存在ExistenceObjective和概念存在ExistenceConceptual,客观存在可用逻辑语言“True/False”回答,概念存在则与人的主观评价“Yes/No”相关。
若不存在关联,则用NoneExistence表示,作为Existence的否定项:
ExistenceConfirmed:=<(Existence)positive,(NoneExistenceConfirmed)negative> (2)
其中,ExistenceObjective和ExistenceConceptual属于肯定项语义,NoneExistenceConfirmed属于否定项语义。
NoneExistenceConfirmed中存在几种不同的情况:
NoneExistenceConfirmed:=<Null,InconsistObjective> (3)
其中,“Null”表示资源间无关联,无关联的情况包括主客观均不存在关联即实际上不存在关联,用ExistenceObjective(False)表示,以及主观上不知道存在关联但在客观即实际上存在关联,用FALSE(ExistenceObjective(True))表示:
Null:=<ExistenceObjective(False),FALSE(ExistenceObjective(True))> (4)
InconsistObjective表示关联客观上前后不一致的情况,因为随着时间流逝,在一段时间内,事物或关联可能消失或改变,即相关数据过去拥有关联,但现在却不存在关联,导致出现前后不一致的情况。
1.2、数据资源
数据资源用DataDIK表示,由无数数据组成,是对客观存在进行记录并可以被鉴别的符号,也是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。DataDIK包括实体或概念的存在。DataDIK可表示单独的一个个离散元素,也可表示同时出现的所有数据资源,可从源头资源中分离得到,也可通过同模态、跨模态资源关联融合处理得到新的DataDIK。
DataDIK虽然可被人或计算机等机器识别匹配,但在没有上下文的情况下不具有任何意义和语义,不与人类的特定目的相关联,不与自身存在之外的特定语义捆绑在一起,仅仅作为信息或知识的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等,数据结构和表现形式多样。
例如“0,1,2,...”、“学生学籍档案表”、“超市进货单”等都属于DataDIK。DataDIK无法保证正误,可能存在错误或不明确的DataDIK。
DataDIK可根据不同的分类标准进行分类,分类的一部分目的是探讨数据的相同性,相同性是一种无目的的语义,可以在数据字典的元素上进行评估,相同的程度可以被记录为结构或离散元素甚至特征的频率。一个DataDIK的频数或价值标志着在某个观察维度上的相同存在,因此频数和对应频率也是DataDIK的重要组成部分。
1.3、信息资源
信息资源用InformationDIK表示,由无数信息构成,被人理解、有上下文具体解释含义的内容可被称为信息资源InformationDIK。InformationDIK记录DataDIK所代表的事物之间的互动,可用于挖掘、分析、表达不同DataDIK之间的关联关系。
信息资源InformationDIK可从源头资源中分离得到,也可通过同模态、跨模态资源关联融合处理得到新的InformationDIK。例如不同DataDIK之间产生关联,人类或计算机等对不同DataDIK之间的关联情况进行分析,再经过人类或计算机的经验、知识、逻辑、训练等对关联进行理解,最后得到能够为特定目的提供有价值的内容,即InformationDIK。
数据和信息的关系是:信息是数据的内涵,是加载于数据之上,对数据作有含义的解释。DataDIK是离散元素,在无上下文的情况下不具有任何意义,不同DataDIK之间产生关联便是对DataDIK的上下文情况进行补充解释,使DataDIK变得可解释和有意义,此时有意义的DataDIK便转化为新的InformationDIK。DataDIK是符号,是物理性的,InformationDIK是对DataDIK进行加工处理、关联表达之后所得到的能够对某些特定目的产生影响的内容,是逻辑性和观念性的。数据是信息的表现形式,信息是数据有意义的表示,若InformationDIK被记录,以某种载体表达,例如文字、图片等,仅仅关注载体本身或不联系上下文,则可将该InformationDIK视为DataDIK,DataDIK本身没有意义,只有产生关联、对实体行为产生影响时才成为InformationDIK。
1.4、知识资源
知识资源用KnowledgeDIK表示,由知识构成,KnowledgeDIK由DataDIK和InformationDIK经过结构化、形式化的推导演绎得到,是基于概率计算或归纳、演绎或溯因推理构建的,它依赖于类型或类的完整性假设。
KnowledgeDIK在InformationDIK的基础上有了进一步的完善,InformationDIK主要表示的是个体层面,通常是单个实体与单个实体之间的关系,没有上升到群体或是相同类别。KnowledgeDIK在InformationDIK的基础上进行了归纳总结,表示了同一类型事物总体之间,或单个实体与某一类型事物群体之间的语义关系,是基于类型/类级别的完整性抽象关系。KnowledgeDIK可用于对未知或不存在的事物进行归纳或演绎。KnowledgeDIK包括人类对物质世界以及精神世界探索的结果总和,是一切人类总结归纳,并认为正确真实,可以指导解决实践问题的观点、经验、程序等内容,是从信息层面上总结凝练得到的。
KnowledgeDIK是理解、寻找挖掘、处理有意义的DataDIK、InformationDIK的重要基础条件,DataDIK、InformationDIK、KnowledgeDIK三种模态资源的互相转换离不开KnowledgeDIK的支撑和特定目标的驱动,结合KnowledgeDIK可以提高模态转换内容的正确率。
如果希望依靠DataDIK、InformationDIK达成某些特定目的,例如完成一些合情推理和概率计算,大致步骤是对DataDIK、InformationDIK的重复组合进行抽象,通过KnowledgeDIK的相关统计知识,可以建立概率假设的完备性语义,获得相关信息的概率,将概率作为预测推理的重要影响因素。除此外还可以假设重复模式中不完整或不存在部分的推理的完备性。由此获得的概率或逻辑知识,可被统一表示为关系,认为是KnowledgeDIK的重要组成部分。
在本申请实施例中公开了DataDIK,InformationDIK和KnowledgeDIK三种模态的资源,但并不仅限于上述三种模态的资源。
基于此,本申请实施例公开了一种基于常识推理的跨数据、信息、知识模态的本质内容处理方法,具体流程图如图1所示,主要包括如下步骤:
S101:获取资源,并基于DIKW体系结构将所述资源映射为类型化资源。
在S101中,所述资源来自多个来源,所述类型化资源为资源基于DIKW模型进行映射得到的对应资源。该类型化资源包括数据模态、信息模态和知识模态至少三种资源模态。
S102:根据所得到的类型化资源进行同模态关联融合和/或跨模态关联融合,得到新资源,并确定所述新资源的模态。
在具体执行S103的过程中,结合上述本申请实施例公开的DataDIK,InformationDIK和KnowledgeDIK三种模态的资源,该三种模态的资源可互相关联并进行融合转换。
其中,所述同模态关联融合包括:针对每一种资源进行进行同模态关联融合,得到对应的第一新资源;
所述跨模态关联融合包括:针对多种资源进行两两跨模态关联融合,得到对应的第二新资源。
S103:采用随机化对所述新资源进行隐私保护。
执行S101至S103,可完成对跨数据、信息、知识模态的本质内容的挖掘和保护。
在执行上述基于常识推理的跨数据、信息、知识模态的本质内容挖掘与保护方法的过程中,涉及同模态资源融合。
在具体执行S102的过程中,同模态关联,即为同模态资源融合转化。具体的融合转化过程包括如下步骤:
S201:判断两个同模态资源是否同时出现,若同时出现,则执行S202,若未同时出现,进行标记并退出。
S202:判断两个同模态资源是否具有关联,若具有关联,则执行S203,若不具有关联,进行标记并退出。
S203:对两个同模态资源进行初级关联融合,得到第一新资源,并根据所述第一新资源的不同用法确定所述第一新资源的模态。
在本申请实施例中DataDIK,InformationDIK和KnowledgeDIK三种模态的资源可互相关联并进行融合转换。
鉴于DataDIK,InformationDIK和KnowledgeDIK的具体内容和形式多变,为达到更加直观、具体的目的,以下对各种资源的关联融进行详细说明。
2.1、资源关联融合方法的介绍
2.1.1、两资源关联融合方法:
给定两个资源TR1和TR2,两资源关联融合形成新资源FinalTR的过程如下:
步骤一,用Appear(TR1,TR2)表示数据资源TR1和TR2同时出现,结果为TRUE时表示TR1和TR2在客观上同时出现,可能存在联系;结果为FALSE时表示TR1和TR2在客观上不同时出现,可能不存在联系。
步骤二,用ExistenceConfirmed(TR1,TR2)表示两资源存在关联,结果为TRUE时表示TR1和TR2存在关联联系;结果为FALSE时表示TR1和TR2不存在关联联系。
步骤三,在客观上同时出现且确认产生关联的两资源TR1和TR2首先进行初级关联融合,即两资源直接通过函数Splicing()进行拼接,拼接方式为TR1和TR2直接相连,得到新资源NewTRJunior,此时得到的NewTRJunior表示TR1和TR2形成一一对应的映射关系,除此外无具体解释含义,只作为关联记录存在。可用Type()确定新资源的模态,若该资源根据不同的用法可被划分为不同模态,则在结果中用“+”连接不同模态,表示该资源根据不同的用法可被划分为哪几种模态。通常情况下:
Type(NewTRJunior)=DataDIK+InformationDIK (5)
步骤四,对TR1和TR2进行中级关联融合,即根据人脑的知识经验、特定目的等对新资源进行理解和逻辑推理Handle(),确定处理方向,得到新资源NewTRMiddle。通常情况下:
Type(NewTRMiddle)=DataDIK+InformationDIK (6)
步骤五,对TR1和TR2进行高级关联融合,即在NewTRMiddle的基础上进行联想、扩展、具体计算等,最终得到新资源NewTRSenior。通常情况下:
Type(NewTRSenior)=DataDIK+InformationDIK (7)
步骤六,不是所有资源关联融合都可到达高级关联融合阶段,具体关联融合阶段可根据特定目标、融合结果等决定,最终将资源所能进行的最高级关联融合得到的新资源看作最终结果FinalTR。
以下用一个简单的例子描述两资源关联融合过程。最简单的关联融合是两个DataDIK进行关联融合。
例如Data1=“李明”,Data2=“24岁”,现已知Data1和Data2同时出现且产生关联,两数据直接进行拼接Splicing(),得到新资源NewTRJunior={“李明24岁”;“24岁李明”},拼接过程可以省略,根据人脑的知识经验、特定目的等对新资源进行理解和逻辑推理Handle(),“李明”通常是一个名字,“24岁”通常指年龄,两者结合得到新资源NewTRMiddle=“李明的年龄是24岁”,此时根据融合结果决定不再继续进一步融合,最终资源的模态是DataDIK、InformationDIK,表示两个数据资源关联融合得到了数据、信息模态的新资源。整个过程可表示为:
2.1.2、多资源关联融合方法
若有n(n≥3)个资源同时出现且产生关联,即:
且这些资源均两两关联,要想从关联融合中获取或分析得到新资源,需要将已有资源两两配对后按上文提到的两资源关联融合方法进行融合,最终得到多资源融合结果,资源配对的方法如下:
方法一,将资源两两配对,配对方式不定,随机匹配,若一个资源A已与资源B配对,则不可再与其他资源配对,配对成功即认为两资源产生关联,对关联进行分析形成融合资源FinalTR,FinalTR本身可以作为新的资源进行下一轮匹配,若在一轮配对过程中有资源无配对,则在此轮配对中不进行配对,顺延到下一轮配对中和新资源进行新一轮配对。
例如:
现在要对资源进行匹配,关联融合得到新资源,步骤为:
(1)第一轮匹配:随机匹配结果为:
Match1=(Data1,Data3),
Match2=(Data2,Data4) (10)
关联分析过程省略,对应得到的新资源为:
(2)第二轮匹配:
关联分析过程省略,对应得到的新资源为:
即以上不同的四个数据资源最终关联得出的新资源为“李明喜欢的运动是打篮球,喜欢的水果是苹果”,新资源可被认为是数据模态和信息模态。
方法二,将资源进行编号,编号方式可自行规定,第一个资源和第二个资源进行匹配,关联融合得到的新资源作为新的资源和第三个数据进行匹配,以此类推得到最终资源,用上个例子中的数据资源进行模拟:
第一轮:
第二轮
(3)第三轮:
以上两种方法阐述匹配关联融合的原理,在实际运用中可灵活使用,并且对于同时出现且互相关联的资源个数n较少时,关联融合可不进行拆分匹配关联,可直接对离散资源同时进行理解和逻辑推理,如上例就可直接理解成“李明喜欢篮球和苹果”,再细化一点就是“李明喜欢的运动是打篮球,喜欢的水果是苹果”,即可得到新资源。
2.2、DataDIK与DataDIK融合
同模态资源融合以两个DataDIK关联融合为例进行详细介绍。
将不同的数据模态资源DataDIK按某种划分标准进行分类,分类后的DataDIK关联融合过程中可采取不同操作,获得不同的资源以达到某种目标。为清晰准确地描述出不同种类的DataDIK关联融合的可进行的处理操作和可能取得的结果,以具体实例进行介绍。
2.2.1、DataDIK划分标准举例:
最基础的数据表现形式有数值型和字符型,字符型在这里是指除了数值以外的所有字符,部分分类要求如下:
标量数据DataScalar,指一个单独的字符串DataScalarString、数字DataScalarNumber或两者的混合形态DataScalarMix,比如“北京”这个单独的词,284这个单独的数字,“国道285”这个混合形态的标量数据。
DataScalar:=<DataScalarString,
DataScalarNumber,DataScalarMix> (17)
标量数据中的数字可不具有明确的数值含义,仅仅表示一个数值,用DataScalarNumber表示,也可表示只考虑大小而无需考虑方向的一些物理量的数值大小,例如路程长短、做功的大小、质量的大小,这些数值具有明确的含义,不仅能分类而且能测量出具体大小和差异,其表现形式可以只是数值,其含义是作为标签或类别来解释划分的,例如做功大小数据集合DataEnergyMagnitude:=<20>,20是个数字,但它存在于DataEnergy Magnitude集合中,便拥有了明确的含义。也可以通过一个同时含有字符串和数字的混合形态DataScalarMix来表现,例如Data=“做功大小20N”,两种表现方法解释的含义等价,但通常会把标签或类别形式的表现方法转化为字符串和数字的混合形态的表现方法,更易于人们理解和处理,用DataScalarMix表示。DataScalarMix在做只考虑大小而无需考虑方向的一些物理量理解时,也可将其看作为InformationDIK,是字符串和数字关联得到的新的NewTR。
矢量数据DataVector指:
①在直角坐标中用x、y、z坐标或经纬度表示地理实体的位置,一般用一个坐标对(x,y)或(x,y,z)来表示,尽可能地将地理实体的空间位置表现得准确无误,用DataVectorSite表示;
②表示地图图形或地理实体的形状,形状包括线或多边形等,用DataVectorShape表示。DataVectorShape是由i(i≥2)个坐标点(x,y)或(x,y,z)组成的集合,集合可看作是多个DataVectorSite进行关联融合、不断补充得到的。线作为点之间的连线,用一系列坐标对来表达线的转折位置,在程序中依据点连接成线;多边形与线的区别是多边形是首尾相连的线,因此与线的表达方式相同,也用一系列转折位置的坐标表示,其最后一个坐标与首点坐标相同。
③表示特定用户的地理行动轨迹,即特定用户去过的具体地理位置坐标点集合;规定矢量数据集合中的坐标顺序严格按照特定用户行动轨迹记录,不可随意修改转换坐标的顺序,第一个坐标表示特定用户的出发点,最后一个坐标表示特定用户的目的地,用DataVectorTrace表示,可由表示特定用户的DataScalarString和DataVectorShape关联得到。
④表示既有大小又有方向的物理量,用DataVectorDirection表示。在选定测量单位后,除用数字表示其大小外,还需用一定的方向才能说明性质,例如力和位移都是矢量,方向对于它们而言非常重要,数字表示它们的大小,方向进一步说明了它们的性质。方向是用含有两个坐标点的坐标集合表示,方向是从第一个坐标点是指向第二个坐标点。可由DataScalarMix和DataVectorSite关联得到。
范围数据DataRange,通常是一个区间,区间内的值可以是连续的也可以是离散的,取值只能是已定义区间中的值。
连续范围数据DataRangeContinuous是指在一定区间内可以任意取值的DataRange,通常是数值型,其取值是可以连续不断的,相邻两个数值可作无限分割,即可取无限个数值;例如:生产零件的规格尺寸,人体测量的身高、体重、胸围等为连续范围数据,其数值只能用测量或计量的方法取得。
离散范围数据DataRangeDiscrete是指在一定区间内可以取的值是有限的、受到某种限制的DataRange,可以是数值型,也可以是字符串型;数值型离散范围数据DataRangeDiscreteNum是指那些只能用自然数或整数单位计算的区间取值,例如:企业个数、职工人数、设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得,以及也包括那些在区间内已经设定好可以取的数值数据,例如布尔值只能取0和1;字符串型离散范围数据DataRangeDiscreteStr是指取值区间内的值均是字符串型,例如数据集{“高”,“中”,“低”};DataRangeDiscreteStr也可看做顺序数据,说明事物的有序类别,顺序数据之间虽然可以比较程度大小,却无法计算相互之间的大小、高低或优劣的距离,除非将其转化为数值形式的标量数据DataScalarNumber,按照标量数据处理的方式进行大小、高低或优劣的比较。
以上分类只能处理部分数据资源,并且某些DataDIK可被分类到不止一个类中,若同一个DataDIK被分到不同类中,则它和其他DataDIK、InformationDIK、KnowledgeDIK融合的方式和结果也会产生差异。
2.2.2、不同DataDIK关联融合
为达到更加直观、具体的目的,在这里用标量数据DataScalar和包括其本身类型的三种类型数据进行关联融合,作为实例进行演示,用符号∪表示融合,融合过程参考上述1.1中所述的内容,在这里不再赘述。
1.DataScalar∪DataScalar
(1)DataScalarString∪DataScalarNumber
①形成一一对应关系,用数字来指代字符串内容,或是用字符串表示数字,例如:DataScalarNumber=110000,DataScalarString=“北京”,融合后可以得到新资源NewTR=“用110000来指代‘北京’”,此时NewTR中既有数字又有字符串,属于DataScalarMix。此种情形还包括对变量的赋值,例如为逻辑变量赋值,DataScalarNumber=1,DataScalarString=“A是逻辑变量”,融合后NewTR=“逻辑变量A=1”,表示逻辑变量A被赋值1。
Type(NewTR)=DataDIK+InformationDIK (18)
②DataScalarString是用来解释DataScalarNumber是指哪一方面的数字,表示其大小,可以使数值具有明确的数值含义,例如DataScalarNumber=220,DataScalarString=“做功大小”,两者融合关联得到NewTR=“做功大小为220N”,此时NewTR中既有数字又有字符串,可划分为DataScalarMix。
Type(NewTR)=DataDIK+InformationDIK (19)
(2)DataScalarString∪DataScalarString
①形成一一对应关系,用一个字符串来指代另一个字符串的内容,例如DataScalarString1=“p”,DataScalarString2=“正在下雨”,融合得到NewTR=“p:正在下雨”。
Type(NewTR)=DataDIK+InformationDIK (20)
②对DataDIK进行初、中、高级关联融合得到不同的新资源。初级关联融合的结果是拼接形成一个作为关联记录存在,没有明确意义或解释的资源NewTRJunior,例如
DataScalarString1=“一棵树”
DataScalarString2=“白云山”
NewTRJunior={“一棵树白云山”,
“白云山一棵树”} (21)
进行中级关联融合,即根据人脑的知识经验、特定目的等对新数据进行理解和逻辑推理Handle(),确定处理方向,得到新资源NewTRMiddle,例如对NewTRJunior进行逻辑思考,与已有的逻辑推理判断“山上有树”结合可形成新的NewTRMiddle1=“白云山上有一棵树”,或与已有的逻辑推理判断“山上的树”结合形成NewTRMiddle1=“白云山上的一棵树”。
进行高级关联融合,在NewTRMiddle的基础上进行联想,可得到NewTRSenior=“白云山有很多树”。逻辑思考、处理的方式不同,得到的新资源也不同,因此数据融合得到的资源数量不固定。
Type(NewTR)=DataDIK+InformationDIK (22)
(3)DataScalarNumber∪DataScalarNumber
DataScalarNumber都是无明确数值含义的数字,仅仅作为数字被考虑,关联融合可以正常进行数学运算(加减乘除、交换律、结合律、分配律等),计算出相应运算结果作为NewTR。
Type(NewTR)=DataDIK+InformationDIK (23)
(4)DataScalarNumber∪DataScalarMix
DataScalarNumber是无明确数值含义的数字,仅仅作为数字被考虑,DataScalarMix是只考虑大小而无需考虑方向的一些物理量,里面的数字有明确的数值含义,可以在经过人脑思考和计算机处理等操作的处理后将其看作是InformationDIK,因此此种融合情况也可看作是DataDIK和InformationDIK跨模态融合的情形。
DataScalarNumber∪DataScalarMix
=DataScalarNumber∪InformationDIK (24)
在此种情形下,融合无法进行加减运算,但可进行乘除运算,即将DataScalarNumber作为乘数和除数,再与DataScalarMix中的数字相乘除,运算后的数据意为几倍的DataScalarMix。例如
其中,TakingNumber()是从资源中取出数值的函数,结合逻辑推理判断,运算结果意为“3袋大米重30kg”。
Type(NewTR)=DataDIK+InformationDIK (26)
(5)DataScalarMix∪DataScalarMix
DataScalarMix和DataScalarMix都是数值和字符串的混合形态,指有明确的数值含义,只考虑大小而无需考虑方向的物理量时,在经过人脑思考和计算机处理等操作的处理后可以将DataScalarMix1和DataScalarMix2看作是InformationDIK。此种融合情况可看作是DataDIK和DataDIK、InformationDIK和InformationDIK同模态融合、DataDIK和InformatiionDIK跨模态融合的情形。
DataScalarMix∪DataScalarMix
=DataScalarMix∪InformationDIK
=InformationDIK∪InformationDIK (27)
①当DataScalarMix1和DataScalarMix2的数值含义相同时,即两者表达同一种属性或性质时,可进行加减计算,表示事物加减,例如DataScalarMix1=“大米重10kg”,DataScalarMix2=“大米重20kg”,混合类型数据的数值含义均是指大米的重量,可以进行加减计算,即
TakingNumber(DataScalarMix1)+TakingNumber(DataScalarMix2)=10+20=30,意为“大米重30kg”;数值含义相同时,无法进行乘法运算,但可以进行除法运算,表达出数据的差异倍数,例如DataScalarMix1=“大米重10kg”,
DataScalarMix2=“大米重20kg”,
TakingNumber(DataScalarMix1)/TakingNumber(DataScalarMix2)=10/20=0.5,表示DataScalarMix1表示的大小是DataScalarMix2的0.5倍。
Type(NewTR)=DataDIK+InformationDIK (28)
②若DataScalarMix的数值含义不同,数据含义表达为完全不同的种类,例如DataScalarMix1=“大米重10kg”,DataScalarMix2=“面重20kg”,则关联融合可通过加减乘除表示两数据数值上的差异,例如对DataScalarMix1和DataScalarMix2做减运算,可得到NewTR=“大米比面轻10kg”。
若数据含义不同,但可以为同一个目的做出价值贡献且本质分类相同,则可以结合逻辑常识或知识进行加减乘除等数学计算,例如DataScalarMix1=“长方形区域A的长为10米”,DataScalarMix2=“长方形区域A的宽为6米”,这两个DataScalarMix可为测量一块长方形区域的面积大小做出价值贡献且本质分类均为长度数值,结合逻辑常识或知识“长方形的面积=长*宽”进行运算,可得出新的资源,NewTR=“长方形区域A的面积为60m2”,此时计算得出的新标量数据含义本质性质已发生改变。
Type(NewTR)=DataDIK+InformationDIK (29)
(6)DataScalarString∪DataScalarMix
DataScalarString是一个单独的字符串,DataScalarMix里面的数值是指只考虑大小而无需考虑方向的,有明确的数值含义,此种融合情况也可看作是DataDIK和InformationDIK跨模态融合的情形。
DataScalarString∪DataScalarMix
=InformationDIK∪InformationDIK (30)
两者进行关联融合的可能情形是DataScalarString对DataScalarMix里面的描述对象进行完善补充,例如DataScalarString=“重力”,DataScalarMix=“做功大小200N”,关联形成的NewTR=“重力做功大小为200N”。
Type(NewTR)=DataDIK+InformationDIK (31)
2.DataScalar∪DataVector
(1)DataScalar∪DataVectorSite
①DataScalarNumber∪DataVectorSite、DataScalarString∪DataVectorSite
DataScalarNumber是无明确数值含义的数字,DataScalarNumber和DataVectorSite的关联融合可以将DataScalarNumber作为DataVectorSite所代表的的地理位置的代码或代号,例如DataScalarNumber=01,DataVectorSite=(116°E,40°N),NewTR=“用01代表地理位置(116°E,40°N)”,此时DataScalarNumber和DataVectorSite形成一一对应映射关系。DataScalarString∪DataVectorSite同理。
Type(NewTR)=DataDIK+InformationDIK (32)
②DataScalarMix∪DataVectorSite
当DataScalarMix里面的数字和字符串两者无具体解释和关联,即不表示只考虑大小而无需考虑方向的物理量时,DataScalarMix和DataVectorSite的融合关联可以认为是为DataVectorSite添加混合形态的代码或代号,例如DataScalar-Mix“A01”,DataVector。
=(116°E,40°N),两数据融合就是可用“A01”表示坐标(116°E,40°N),形成一一对应的关系。
Type(NewTR)=DataDIK+InformationDIK (33)
DataScalarMix里面的数字有明确的数值含义,DataScalarMix和DataVectorSite的关联融合可以让DataVectorSite作为一种地理位置方面的资源补充,使事件描述更加具体,例如DataScalarMix=“做功20N”,DataVectorSite=(1,2),得到NewTR=“在坐标点(1,2)处做功20N”。
Type(NewTR)=DataDIK+InformationDIK (34)
(2)DataScalar∪DataVectorShape
①DataScalarNumber∪DataVectorShape、DataScalarString∪DataVectorShape
将DataScalarNumber和DataScalar-String作为DataVectorShape所代表的地图图形或地理实体形状的代码或代号,形成一一对应映射关系。
Type(NewTR)=DataDIK+InformationDIK (35)
②DataScalarMix∪DataVectorShape
当DataScalarMix里面的数字和字符串两者无具体解释和关联,即不表示只考虑大小而无需考虑方向的物理量时,融合关联可以认为是为DataVector添加混合形态的代码或代号,形成一一对应的关系。
Type(NewTR)=DataDIK+InformationDIK (36)
DataScalarMix里面的数字有明确的数值含义时,融合关联可以让DataVectorShape作为一种地图图形或地理实体的形状的资源补充,使事件描述更加具体,例如DataScalar-Mix=“比例尺为1:100”,
DataVectorShape={(0,0),(0,200),(200,100),(0,100),(0,0)},得到NewTR=“区域地图{(0,0),(0,200),(200,100),(0,100),(0,0)}的比例尺为1:100”。
Type(NewTR)=DataDIK+InformationDIK (37)
(3)DataScalar∪DataVectorTrace
①DataScalar-Number∪DataVectorTrace
DataScalarNumber是无明确数值含义的数字,关联融合可以将DataScalarNumber作为DataVectorTrace所代表的特定用户地理行动轨迹的代码或代号,形成一一对应映射关系。
Type(NewTR)=DataDIK+InformationDIK (38)
DataScalarNumber是无明确数值含义的数字,关联融合可以将DataScalarNumber作为DataVectorTrace所代表的特定用户地理行动轨迹的出现数量,也就是频数。此种融合情况可看作是DataDIK和DataDIK同模态融合、DataDIK和InformationDIK、KnowledgeDIK跨模态融合的情形。
DataScalarNumber∪DataVectorTrace
=DataDIK∪InformationDIK∪KnowledgeDIK (39)
例如:DataVectorTrace={(0,0),(0,200),(200,150),(300,300),(0,0)}表示特定用户的地理行动轨迹,DataScalarNumber=20,关联融合NewTR=“该特定用户地理行动轨迹为(0,0)→(0,200)→(200,150)→(300,300)→(0,0),且该轨迹出现次数为20”。
若已知特定用户的多个地理行动轨迹及其出现的次数,可在KnowledgeDIK统计知识的支持下计算出不同信息轨迹出现的概率,以此作为参考,可以预测出同一个主体的可能轨迹选择,即预测推理出特定用户的行动轨迹。
Type(NewTR)=DataDIK+InformationDIK (40)
②DataScalarString∪DataVectorTrace
关联融合首先可以将DataScalarString作为DataVectorTrace所代表的特定用户地理行动轨迹的代码或代号,形成一一对应映射关系。
当DataScalarString和DataVectorTrace与已有的信息或逻辑推理判断结合,即对两数据进行进一步的理解和关联,使其具有具体解释和意义、有具体的指代时,关联融合结果可以是形成新的信息或对已有的资源进行补充解释,为特定目标提供更多有价值的信息,例如DataScalarString=“购物商场A”,DataVectorTrace={(0,0),(0,200),(200,100),(0,100),(0,0)},NewTR=“特定人员在购物商场A的地理行动轨迹为(0,0)→(0,200)→(200,100)→(0,100)→(0,0)”。
Type(NewTR)=DataDIK+InformationDIK (41)
③DataScalarMix∪DataVectorTrace
当DataScalarMix里面的数字和字符串两者无具体解释和关联,即不表示只考虑大小而无需考虑方向的物理量时,关联融合可以认为是为DataVectorTrace添加混合形态的代码或代号,形成一一对应的关系。
Type(NewTR)=DataDIK+InformationDIK (42)
DataScalarMix里面的数字有明确的数值含义,关联融合可以让DataVectorTrace作为一种地理位置、行动轨迹方面的资源补充,使事件描述更加具体,例如DataScalarMix=“做功200N”,DataVectorTrace={(0,0),(0,2)},NewTR=“特定用户的行动轨迹为从坐标点(0,0)出发至(0,2),并且做功200N”。
Type(NewTR)=DataDIK+InformationDIK (43)
(4)DataScalar∪DataVectorDirection
①DataScalarNumber∪DataVectorDirection
当DataScalarNumber是无明确数值含义的数字,仅仅作为数字被考虑时,关联融合无法进行加减运算,但可进行乘除运算,即将DataScalarNumber作为乘数和除数,再与有明确数值含义的DataVectorDirection相乘除,两数据融合后的数据和信息意为几倍的DataVectorDirection。此种融合情况也可看作是DataDIK和InformationDIK跨模态融合的情形。
DataScalarNumber∪DataVectorDirection
=DataDIK∪InformationDIK
Type(NewTR)=DataDIK+InformationDIK (44)
②DataScalarString∪DataVectorDirection
DataScalarString和DataVectorDirection的关联融合首先可以将DataScalarString作为DataVectorDirection所代表的一种既有大小又有方向的物理量的代码或代号,形成一一对应映射关系。
Type(NewTR)=DataDIK+InformationDIK (45)
DataScalarString和DataVectorDirection的关联融合也可以是对既有大小又有方向的物理量添加主体或客体,添加主体表示是该主体做的行为,添加客体表示是对该客体做的行为,例如DataScalarString=“李明”,DataVectorDirection={(0,0),(1,1),“力的大小为150N”},关联融合理解为对物理量添加主体时,得到的NewTR=“李明施加了一个大小为150N,方向为(0,0)指向(1,1)的力”,理解为对物理量添加客体时,NewTR=“李明被施加了一个大小为150N,方向为(0,0)指向(1,1)的力”。
以上两种融合情况也可看作是InformationDIK和InformationDIK同模态融合、DataDIK和InformationDIK跨模态融合的情形。
DataScalarString∪DataVectorDirection
=DataDIK∪InformationDIK
=InformationDIK∪InformationDIK
Type(NewTR)=DataDIK+InformationDIK (46)
③DataScalarMix∪DataVectorDirection
当DataScalarMix里面的数字和字符串两者无具体解释和关联,即不表示只考虑大小而无需考虑方向的物理量时,关联融合可以认为是为DataVectorDirection添加混合形态的代码或代号,形成一一对应的关系。
Type(NewTR)=DataDIK+InformationDIK (47)
当DataScalarMix里面的数字和字符串关联有具体的解释,表示只考虑大小而无需考虑方向的物理量时,联系相关KnowledgeDIK,可进行相关计算得到NewTR,例如DataScalarMix=“时间为1小时”,DataVectorDirection={(0,0),(1,1),“速度的大小为150km/h”},此时根据知识“路程=速度*时间”可进行计算得到NewTR=“计算得到的路程为150KM”。此融合情况也可看作是DataDIK、InformationDIK和KnowledgeDIK跨模态融合的情形。
DataScalarMix∪DataVectorDirection
=DataDIK∪InformationDIK∪KnowledgeDIK
Type(NewTR)=DataDIK+InformationDIK (48)
以上是对DataDIK和DataDIK关联融合的部分可能情形进行解释说明。
在具体执行S103的过程中,跨模态关联,即为跨模态资源融合转化。具体的融合转化过程包括如下步骤:
S301:将多个资源两两进行配对。
S302:将配对后的资源进行两资源关联融合,得到多个新资源。
S303:将新资源两两进行两资源关联融合,直至得到最终资源。
鉴于DataDIK,InformationDIK和KnowledgeDIK的具体内容和形式多变,为达到更加直观、具体的目的,以下对各种资源的关联融进行详细说明。
3.1、数据模态资源与信息模态资源融合转化
3.1.1、DataDIK∪InformationDIK=NewTR,Type(NewTR)=DataDIK
不考虑DataDIK和InformationDIK本身的含义和具体解释,将InformationDIK整体看作一个数据,直接与DataDIK进行拼接,拼接形成NewTR。
3.1.2、DataDIK∪InformationDIK=NewTR,Type(NewTR)=DataDIK+InformationDIK
为了更加准确、清晰地介绍此类融合情形,以特定目的为介绍方向进行举例分析。
(1)形成对应关系
不考虑DataDIK和InformationDIK本身的含义和具体解释,则DataDIK可与InformationDIK形成对应关系。例如DataDIK=“A01”,InformationDIK=“特定人员做功20J”,DataDIK和InformationDIK关联融合形成的NewTR=“用A01表示特定人员做功20J”,此时DataDIK和InformationDIK形成一一对应的映射关系。
若新DataDIK和NewTR继续融合,例如DataDIK=013,NewTR=“用A01表示特定人员做功20J”,两者关联融合的结果为:可以用013表示信息“用A01表示特定人员做功20J”,此时产生一条指代链,在某种程度上可以使表达更加简洁,甚至起到了一定的保密作用,若指代链中任一指代发生错误,就无法找到最初指代内容。
(2)总结匹配
若考虑DataDIK和InformationDIK本身的含义和具体解释,且DataDIK本身的含义经过逻辑判断等发现与InformationDIK的含义关联密切,密切关联包括:DataDIK是InformationDIK中存在的内容或者是可以表现出InformationDIK的主要内容、或将主要内容按某些规则进行分类等,则此时DataDIK可与InformationDIK进行关联融合,最终DataDIK是InformationDIK的总结。例如DataDIK=“年龄”,InformationDIK=“小明今年23岁”,在此例中InformationDIK的主要内容是“小明”、“今年”、“23岁”,DataDIK=“年龄”可以表现出InformationDIK的主要内容,此时两者可进行关联融合,DataDIK是InformationDIK的总结,可以形成匹配。
InformationDIK的主要内容获取方法:利用分词算法将InformationDIK进行分解,分解成不同的DataDIK,同时对InformationDIK和DataDIK进行语义理解、逻辑推理或是根据某些规则进行总结和分类,最终得到InformationDIK的主要内容。
(3)相关数值计算
含有数值的DataDIK包括DataScalar(DataScalarNumber、DataSCalarMix)、DataVector(DataVectorSite、DataVectorShape、DataVectorTrace、DataVectorDirection)、DataRange(DataRangeContinuous、DataRangeDiscreteNum),含有数值的InformationDIK主要指其中存在数字,此时含有数字的InformationDIK经过人脑理解后,使数字也具有了解释含义,实际运用中也可将含有数值的InformationDIK看作较为复杂的DataMix,此时DataDIK∪InformationDIK就转变成了DataDIK∪DataMix。
InformationDIK按特定目的、功能等可被分类,特定目的或功能除可以被人脑、计算机等理解处理后得到外,也可参考InformationDIK中存在内容的所属功能、类型等得到。
InformationDIK中出现的数字常常有以下几种用途:①作为符号使用,此时InformationDIK用InformationSymbol表示,无明确数值含义,通常与InformationDIK中其他内容关系密切,表示对应关系,此时也可与字符串混合,一同表示某实体的代码或代号;②作为数值使用,有明确数值含义,表示只考虑大小而无需考虑方向的一些量,用InformationScalar表示;若InformationDIK中数值和方向一同出现,可以表示一些既考虑大小又考虑方向的物理量和向量,用InformationVector表示。③作为时间使用,有明确的数值含义,表示较为具体的时间时,用InformationTimeConcrete表示,指能够具体表示到某个时间点或某个具体日期的数字,表示较为模糊的时间时用InformationTimeFuzzy表示,通常与其他字符一起出现表达一段时间。④作为坐标出现,表示某个实体的具体位置,用InformationCoordinate表示,若出现一系列多个坐标,表达某种地理行动轨迹、某实体形状或其他时,用InformationTrace表示。⑤作为范围的一种表达,包括连续范围InformationContinuous和离散范围InformationDiscrete。⑥作为具体函数的表达,用InformationFunction表示。
数值计算主要针对含有数值的DataDIK和InformationDIK:
①当DataScalarNumber是无明确数值含义的数字,仅仅作为数字被考虑时,与InformationScalar进行融合,可与InformationScalar中的数值进行加减乘除运算。当进行加减运算时,DataScalarNumber和InformationScalar中的数值直接进行加减,得到的新数值其具体解释含义为InformationScalar中数值的解释含义,例如:DataScalarNumber=50,InformationScalar=“特定人员做功20J”,DataScalarNumber和InformationScalar进行加运算,即DataScalarNumber+TakingNumber(InformationScalar)=50+20=70,最终得到的NewTR=“特定人员做功70J”,减运算同理。当进行乘除运算时,将DataScalarNumber作为乘数和除数,再与InformationScalar中的数字相乘除,两数据融合后的数据意为几倍大小的InformationScalar,例如DataScalarNumber=5,InformationScalar=“特定人员做功20N”,DataScalarNumber和InformationScalar进行乘运算,最终得到的收到NewTR=“特定人员做功100J”,除运算同理,NewTR的模态是DataDIK、InformationDIK。
当DataScalarNumber是无明确数值含义的数字,仅仅作为数字被考虑时,与InformationVector进行融合,可与InformationScalar中的数值进行加减乘除运算,相关方向不做改变。当进行加减运算时,DataScalarNumber和InformationVector中的数值直接进行加减,得到的新数值其具体解释含义为InformationVector中数值的解释含义,例如DataScalarNumber=50,InformationVector=“存在一个大小为150N,方向为从(0,0)指向(1,1)的力”,DataScalarNumber和InformationVector进行加运算,即DataScalarNumber+TakingNumber(InformationVector)=50+150=200,最终得到的NewTR=“存在一个大小为200N,方向为从(0,0)指向(1,1)的力”,减运算同理。当进行乘除运算时,将DataScalarNumber作为乘数和除数,再与InformationVector中的数字相乘除,两数据融合后的数据意为几倍大小的InformationVector,例如DataScalarNumber=5,InformationVector=“存在一个大小为150N,方向为从(0,0)指向(1,1)的力”,DataScalarNumber和InformationVector进行乘运算,即DataScalarNumber*TakingNumber(InformationVector)=5*150=750,最终得到的NewTR意为5倍大小的InformationVector,NewTR=“存在一个大小为750N,方向为从(0,0)指向(1,1)的力”,除运算同理。NewTR的模态是DataDIK、InformationDIK。
②当DataScalarNumber是无明确数值含义的数字,仅仅作为数字被考虑时,InformationTimeConcrete是某个可以具体到年月日时分秒的时间点,DataScalarNumber与InformationTimeConcrete进行融合,可进行时间相关的加减计算,其中还涉及一些关于时间的逻辑转换,由于DataScalarNumber只是个数字,没有具体解释,因此进行加减计算时无法确定DataScalarNumber是和InformationDIK中具体时间的哪个时间层级进行计算,真正进行融合计算时会给DataScalarNumber赋予具体解释含义,此处时间层级如年、月、日等,与InformationTimeConcrete中相应时间层级的数字进行计算得到的结果可以联系InformationTimeConcrete的具体解释,继续逻辑推理假设得到新的数据和信息,例如DataScalarNumber=23,InformationTimeConcrete=“小明在2020年8月21日过生日”,若DataScalarNumber和InformationTimeConcrete进行减运算,TakingNumber(InformationTimeConcrete)-DataScalarNumber有三种结果分别是:当DataScalarNumber表示年时,2020-23=1997,与已有的InformationTimeConcrete联系,再经过一些联想,得到NewTR=“小明的出生日期是1997年8月21日”。当DataScalarNumber表示月时,8-23=-15=-12-3,与已有的InformationTimeConcrete联系,经过一些联想和逻辑推理,得到NewTR=“小明将在2018年5月21日的23个月后过生日”=NewData。当DataScalarNumber表示日时,21-23=-2,与已有的InformationTimeConcrete联系,经过一些联想和逻辑推理,得到NewTR=“小明将在2020年7月29日的23天后过生日”。进行加运算同理。无法进行乘除运算。NewTR的模态是DataDIK、InformationDIK。
当DataScalarNumber是无明确数值含义的数字,仅仅作为数字被考虑时,InformationTimeFuzzy是某个比较模糊的时间,通常指一段时间,DataScalarNumber与InformationTimeFuzzy进行融合,可进行时间相关的加减乘除计算,由于DataScalarNumber只是个数字,没有具体解释,因此真正进行融合计算时会给DataScalarNumber赋予具体解释含义,包括小时、分钟等,与InformationTimeFuzzy中相应时间层级的数字进行计算,得到的结果可以联系InformationTimeFuzzy的具体解释,继续逻辑推理假设得到新的数据和信息。DataScalarNumber与InformationTimeFuzzy进行加减运算时,例如:DataScalarNumber=3,InformationTimeFuzzy=“小明每天工作4小时”,DataScalarNumber+TakingNumber(InformationTimeFuzzy)=3+4=7,得到NewTR=“小明每天工作7小时”,减运算同理。DataScalarNumber与InformationTimeFuzzy进行乘除运算时,DataScalarNumber表示InformationTimeFuzzy中所表达的一段时间的倍数和除数,例如:DataScalarNumber=3,InformationTimeFuzzy=“小明每天工作4小时”,DataScalarNumber*TakingNumber(InformationTimeFuzzy)=3*4=12,得到NewTR=“小明每天工作12小时”,除运算同理。NewTR的模态是DataDIK、InformationDIK。
③当DataScalarNumber是无明确数值含义的数字,仅仅作为数字被考虑时,InformationFunction包括具体函数表达式,DataScalarNumber与InformationFunction进行融合,可进行相关代值计算,若InformationFunction中的函数表达式中只有一个未知数x,则DataScalarNumber可直接作为该未知数x的取值被代入函数表达式进行计算,若InformationFunction中的函数表达式f(x,y,...)中未知数个数大于1,,则进行计算时就需要相同个数的DataScalarNumber与未知数一一对应,计算时按DataScalarNumber的出现次序对应于不同未知数,最终得到一个结果作为NewTR。举例1:DataScalarNumber=30,InformationFunction=“绩点计算公式:f(x)=0.8x+2.5”,DataScalarNumber与InformationFunction进行融合结果为:f(30)=0.8*30+2.5=26.5,NewTR=“当x=30时,相应绩点f(x)为26.5”。举例2:DataScalarNumber1=30,DataScalarNumber2=2,DataScalarNumber3=3,InformationFunction=“收益计算公式:f(x,y,z)=0.8x+2.5y-0.5z2”,DataScalarNumber与InformationFunction进行融合结果为:f(30,2,3)=0.8*30+2.5*2-0.5*32=24.5,NewTR=“当x=30,y=2,z=3时,相应收益f(x,y,z)为24.5”。NewTR的模态是DataDIK、InformationDIK。
④当DataScalarMix是数值和字符串的混合形态,有明确的数值含义,在经过人脑思考和计算机处理等操作的处理后可以将DataScalarMix看作是InformationDIK,因此DataScalarMix和InformationDIK跨模态融合情形也可看作是InformationDIK和InformationDIK同模态融合情形。
DataScalarMix和InformationScalar可进行加减运算,前提条件是DataScalarMix和InformationDIK两者表达同一种属性或性质,即表达主体是相同的,例如DataScalarMix=“大米重10kg”,InformationScalar=“已有大米30kg”,两者进行关联融合,首先进行主体分析,两者表达主体均为大米重量,可进行加减计算,加减计算表示添加减少,
TakingNumber(DataScalar-Mix)+TakingNumber(InformationScalar)=10+30=40,表示在已有大米的基础上添加10kg的大米,得到NewTR=“现有大米40kg”,减计算同理。表达主体相同时,无法进行乘法运算,但可以进行除法运算,表达出两者的差异倍数,例如DataScalarMix=“大米重10kg”,InformationScalar=“原有20kg的大米”,
TakingNumber(DataScalar-Mix)/TakingNumber(InformationScalar)=10/20=0.5,DataScalarMix表示的大小是InformationScalar的0.5倍,NewTR=“大米重量为原有的0.5倍”。NewTR的模态是DataDIK、InformationDIK。
若DataScalarMix和InformationScalar的数值含义不同,数值含义表达为完全不同的种类,例如DataScalarMix=“大米重10kg”,InformationScalar=“面重20kg”,则关联融合可通过加减乘除表示两数据数值上的差异,例如对DataScalarMix和InformationScalar做减运算,可得到NewTR=“大米比面轻10kg”;若数值含义不同,但可以为同一个目的做出价值贡献且本质分类相同,则可以结合逻辑常识或知识进行加减乘除等数学计算,例如DataScalarMix=“长方形区域A的长为10米”,InformationScalar=“长方形区域A的宽为6米”,这两者可为测量一块长方形区域的面积大小做出价值贡献且本质分类均为长度数值,结合逻辑常识或知识“长方形的面积=长*宽”,可得NewTR=“长方形区域A的面积为60m2”,此时计算得出的新信息和数据含义本质性质已发生改变。
⑤当DataVector有明确的数值含义,表示既有大小又有方向的物理量,在经过人脑思考和计算机处理等操作的处理后可以将DataVector看作是InformationDIK,因此DataVector和InformationDIK跨模态融合情形也可看作是InformationDIK和InformationDIK同模态融合情形。
InformationVector里面存在数值,数值的含义为既有大小又有方向的物理量或向量,则可以根据一些公式与DataVector进行某些运算,例如已知同方向做功公式为公式也是InformationDIK,DataVector={(0,0),(1,1),“力的大小为150N”},InformationVector=“在(0,0)指向(1,1)方向上前进5米”,此时DataVector和InformationDIK融合,首先进行方向分析匹配,发现方向一致可以根据公式进行计算,得到NewTR=“在(0,0)指向(1,1)方向上力做功750J”。NewTR的模态是DataDIK、InformationDIK。
(4)补充细节
当DataDIK和InformationDIK都有明确的含义时,若DataDIK和InformationDIK所表达的细节标签不一致,则两者进行关联融合可以补充相关细节,为特定目标或预测推理提供了有价值的资源,例如DataTime=“2020年8月27日”,InformationDIK=“小明和家人出发去旅游”,两者关联融合得到的NewTR=“小明和家人于2020年8月27日出发去旅游”,在此例中DataDIK和InformationDIK所表达的细节内容不一致,DataDIK给InformationDIK增添了时间标签,使得InformationDIK的描述更加具体。当DataDIK内容较为复杂,被人脑等理解后,DataDIK就转化成了InformationDIK,因此此种融合也可看作是InformationDIK和InformationDIK同模态融合情形。
(5)逻辑计算
逻辑表达式中含有的基本的操作符有:“非”“与”(∧)、“或”(∨)、“条件”(→)以及“双条件”“非”是一个一元操作符,它只操作一项其余是二元操作符,操作两项来组成复杂语句(P∧Q,P∨Q,P→Q,):
①当DataScalarMix表示逻辑变量的赋值,InformationFunction是由逻辑量(包括变量与常量)和基本逻辑运算符所构成的逻辑表达式,DataScalarMix和InformationFunction关联融合可进行相关逻辑计算,逻辑变量的赋值情形也可看作是InformationDIK,逻辑表达式被看作DataDIK,两者关联融合仍为DataDIK和InformationDIK跨模态情形。此种融合情形也可以看作是InformationDIK和InformationDIK同模态融合情形。
例如:DataScalarMix=“A=1,B=0”,InformationFunction=“逻辑表达式”,两者融合逻辑计算得到f=1,即NewTR=“当A=1,B=0,逻辑表达式的结果为逻辑1”。
②当DataScalarString表示逻辑变量的赋值,InformationFunction是逻辑表达式,DataScalarString和InformationFunction关联融合可进行相关逻辑计算,DataScalarString也可被理解为InformationDIK,此种融合情形也可以看作是InformationDIK和InformationDIK同模态融合情形。例如:DataScalarString=“P=True,Q=False”,InformationFunction=“逻辑表达式”,两者融合逻辑计算得到f=True,即NewTR=“当P=True,Q=False时,逻辑表达式的结果为True”。
(6)构建复合语句或复合命题
①当DataScalarString1和DataScalarString2形成一一对应关系,用一个字符串来指代另一个字符串的内容,形成的新资源按形式可分类到DataScalar-String,InformationFunction是逻辑表达式,DataScalarString和InformationFunction关联融合可进行相关一元操作符构建复合语句或复合命题,逻辑变量的赋值情形也可看作是InformationDIK,逻辑表达式被看作DataDIK,两者关联融合仍为DataDIK和InformationDIK跨模态情形。DataScalarString也可被理解为InformationDIK,此种融合情形也可以看作是InformationDIK和InformationDIK同模态融合情形。例如:DataScalarString=“P:正在下雨”,InformationFunction=“逻辑表达式”,两者融合逻辑计算得到NewTR=“f:现在没有下雨”。
②当DataScalarString1和DataScalarString2形成一一对应关系,用一个字符串来指代另一个字符串的内容,形成的NewData按形式可分类到DataScalarString,DataScalarString和InformationFunction关联融合可进行相关二元操作符构建复合语句或复合命题,DataScalarString中需要出现两个指代情形,DataScalarString也可被理解为InformationDIK,InformationFunction也可被看作DataDIK,此种融合情形可以看作是InformationDIK和InformationDIK同模态融合、DataDIK和InformationDIK跨模态情形情形。例如:DataScalarString=“P:正在下雨;Q:我在屋里”,InformationFunction=“逻辑表达式f:P∧Q”,两者融合逻辑计算得到NewTR=“f:正在下雨,并且我在屋里”;若InformationFunction=“逻辑表达式f:P→Q”,得到NewTR=“f:如果正在下雨,那么我在屋里”。
(7)逻辑推理
逻辑推理是指由一个或几个已知的判断推导出另外一个新的判断的思维形式,一切推理都必须由前提和结论两部分组成。作为推理依据的已知判断称为前提,所推导出的新的判断则称为结论。推理大体分为直接推理和间接推理。
①直接推理是指只有一个前提的推理,包括根据直言命题的对当关系进行的推理,如从“所有S是P”推出“并非有S不是P”,从“并非有S是P”推出“所有S不是P”等。
当DataDIK是相关离散数据,无上下文,InformationDIK里包含直接推理的语句模板,模板内可以改变的内容用字符等代替,DataDIK和InformationDIK关联融合可以进行直接推理,但InformationDIK中的模板表示前提的部分出现多少个可改变的内容就需要多少个离散的DataDIK与之一一对应,例如:InformationDIK=“所有S是P,则并非有S不是P”,模板前提部分中有两处可替换,所以需要两个离散DataDIK与之对应,Data1=“小学生”,Data2=“未成年人”,DataDIK和InformationDIK关联融合得到NewTR=“所有小学生是未成年人,则并非有小学生不是未成年人”。
当DataDIK是一个逻辑推理的前提,InformationDIK里包含各种直接推理的语句模板,模板中可替换内容用字符等表示,DataDIK和InformationDIK关联融合,可以将DataDIK和InformationDIK里包含的各种模板进行匹配对应,匹配对应成功后按模板产生推导结论,此种情形DataDIK也可被看作InformationDIK,因此融合也可看作InformationDIK和InformationDIK同模态融合。例如:DataDIK=“并非有小学生是成年人”,InformationDIK=“(1)所有S是P,则并非有S不是P;(2)并非有S是P,则所有S不是P”,DataDIK和InformationDIK关联融合,首先进行DataDIK和模板的匹配对应,对应成功后产生推导结论NewTR=“所有小学生不是成年人”。
②间接推理是指一般有两个或两个以上前提的推理,又可以分为演绎推理、归纳推理和类比推理等三种形式。
演绎推理:是指从一般性的前提和特殊性前提得出了特殊性的结论的推理。当Data1和Data2是无上下文的数据,进行关联融合需要分析两数据是否存在关联联系,分析联系需从DataDIK本身蕴含的解释入手,此时DataDIK经过人脑等理解后可以看作InformationDIK,只有当两个DataDIK的具体解释均围绕同一个内容时,才可同时作为此次逻辑推理的前提条件,并且关联融合时需分析出两个前提条件哪个是一般性的,哪个是特殊性的,通常情况下一般性前提所指代的情形范围比特殊性前提所指代的情形范围大,且特殊性前提通常会具体到某个实体或事件等。为了得到具体某个实体或事件等的推理结果,融合最初的DataDIK和已经确定前提的InformationDIK,逻辑推理出相关特殊性结论。
例如:Data1=“贪赃枉法的人必定会受到惩罚的”,Data2=“李明一贯贪赃枉法”,经分析发现Data1和Data2存在关联,且Data1可作为一般性前提,Data2可作为特殊性前提,融合并且进行逻辑推理后得到NewTR=“李明必然会受到惩罚”。
归纳推理:是指从个别到一般,即从特殊性的前提推出普遍的一般的结论的推理。一般情况下,归纳推理可分为完全归纳推理和简单枚举归纳推理。
完全归纳推理是指根据某一类事物中的每一个别事物都具有某种性质,推出该类事物普遍具有这种性质的结论。运用这种方法,要求所列举的前提必须完全,不然推导出的结论会产生错误。若多个DataDIK均属于同一类,是该类的不同事物都具有某种性质,也可被看作InformationDIK,且另外存在InformationDIK将DataDIK所述的类别及其所包含的不同事物做具体解释,则DataDIK和InformationDIK可进行关联融合,归纳推理出结论,此种情形也可看作InformationDIK和InformationDIK同模态融合。另外存在的InformationDIK通常是对某种类别所属的事物做阐释,具有一定的科学性,可上升为KnowledgeDIK,因此此情形也可看作DataDIK、InformationDIK、KnowledgeDIK跨模态融合。
例如:已知Data1=“在奴隶社会里文学艺术有阶级性”,Data2=“在封建社会里文学艺术有阶级性”,Data3=“在资本主义社会里文学艺术有阶级性”,Data4=“在社会主义社会里文学艺术有阶级性”,InformationDIK=“奴隶社会、封建社会、资本主义社会、社会主义社会这四种社会形态构成了整个阶级社会”,分析DataDIK的具体解释含义,发现四个数据的解释均属于同一类,且具有相同性质,InformationDIK详细阐述了此类别所属的事物,发现DataDIK全部提及,因此DataDIK可作为前提进行完全归纳推理,得到NewTR=“在阶级社会里,文学艺术是有阶级性的”=NewData。
简单枚举归纳推理是指根据同一类事物中部分事物都具有某种性质,从而推出该类事物普遍具有这种性质的结论。这是一种不完全归纳推理,通常只考察了某类事物中部分对象的性质就得出了结论,所以结论的可信性较低。一般为了提高简单枚举归纳推理所得出的结论的可信性,要列举前提的数量尽可能多,考察个别对象数量越多,结论的可信性、正确性越高。若存在多个离散DataDIK,经观察发现这些DataDIK均具有某种相同的性质,也可被看作InformationDIK,且另外存在InformationDIK说明DataDIK均是同一类事物的部分事物,则DataDIK和InformationDIK可进行关联融合,归纳推理出结论,结论通常说明该类事物具有特定性质,此种情形也可看作InformationDIK和InformationDIK同模态融合。说明一类事物包含哪些元素的InformationDIK也可被看作为KnowledgeDIK,因此该情形也可看作DataDIK、InformationDIK、KnowledgeDIK跨模态融合。例如:Data1=“金导电”,Data2=“银导电”,Data3=“铜导电”,Data4=“铁导电”,Data5=“铝导电”,Data6=“锡导电”,经观察发现这些DataDIK均可导电,存在InformationDIK=“金属包括金、银、铜、铁、铝、锡等”,DataDIK和InformationDIK关联融合,归纳推理出NewTR=“一切金属都导电”。因为列举出的前提不完整,因此推理得到的结论并非完全正确。
类比推理:是指从特殊性的前提得出特殊性的结论的推理。一般情况下,类比推理根据两个事物的某些属性上的相同,推出这两个事物在其他属性上也相同的结论。类比推理可以提供假设,启发人们思考问题,找出规律或事物本质等。由于类比推理的结论是一种或然性的判断,它的可信性和可信程度一般决定于两个类比对象共有性质之间的联系程度,一般来说,若类比现象的相同性质越多,则结论的可信程度越大,并且以类比对象的本质属性而不是一些表面现象为根据进行类比,其结论的可信性越大。若存在不同DataDIK,对其进行理解分析后发现不同的DataDIK在某些属性上是相同的,此时DataDIK可被看作InformationDIK,该情形也可以认为是InformationDIK和InformationDIK同模态融合。DataDIK在描述某些事物具有某些本质属性时,可以被认为是KnowledgeDIK,因此该情形也可看作是DataDIK、InformationDIK、KnowledgeDIK跨模态融合。例如:Data1=“在动物和植物中发现细胞”,Data2=“植物细胞中发现了细胞核”,推理结果NewTR=“动物细胞中有细胞核”。后经实验发现动物细胞确实含有细胞核,说明逻辑推理结果正确,类比推理是产生新知识的重要方法之一。
(8)检测判断取值是否满足相关条件
若存在DataDIK给定一个取值,InformationDIK说明相关取值要求,要求可能是一个取值空间、不等式等,DataDIK和InformationDIK关联融合后可以按照相关要求对DataDIK的取值进行判断,得到新的InformationDIK作为判断结果,判断结果只有两个可能,它们相互对立不兼容,例如满足和不满足。例如:当DataScalarNumber是无明确数值含义的数字,仅仅作为数字被考虑时,InformationRangeContinuous表示含有数值型连续范围区间的信息,InformationRangeDiscreteNum表示含有数值型离散范围区间的信息,DataScalarNumber与InformationRangeContinuous或InformationRangeDiscreteNum进行融合,除了进行加减乘除计算表示范围变化外,也可将DataScalarNumber与InformationRangeContinuous或InformationRangeDiscreteNum中的数值区间进行比较,判断DataScalarNumber是否在范围区间并且满足相关要求,例如DataScalarNumber=156.3,InformationRangeContinuous=“招聘要求身高范围为[155,190]”,InformationRangeDiscreteNum=“招聘人数范围为[100,200]”,DataScalarNumber和两信息进行融合,结果NewTR1=“156.3在招聘要求身高范围区间,满足相关要求”,NewTR2=“156.3在区间内,但不符合相关要求”。
(9)预测推理
特定人员面对一特定问题或情形时,若已知所有解决方法或可能发生的情形以及每种方法、情形出现的概率大小,在特定人员再次面对相同的问题或情形时,可预测推理出该特定人员最有可能的选择。
采集总结:若达到预测推理的目的,首先需要针对该特定问题或情形采集总结所有解决方法或可能发生的情形,利用KnowledgeDIK统计知识统计出面对特定问题不同选择的出现次数,次数相加即为该特定问题出现的总数,以上结果都可以用DataDIK表示;
频率计算:所有解决方法或可能相关情形的发生次数与该特定问题出现的总数相除,即可得到频率,表示人员面对该特定问题或情形,采取不同方法的可能性,同样属于DataDIK;
预测推理:存在InformationDIK,理解分析得到该InformationDIK表示该特定人员再次面对特定问题或情形,则此时DataDIK可与InformationDIK做关联融合,采用KnowledgeDIK相关统计知识进行计算或是通过InformationDIK中提到的判决计算公式进行计算,得到该特定人员最有可能的选择为最大出现频率所对应的解决方法或可能情形,完成预测推理过程。因为DataDIK被人理解后也可作为InformationDIK,所以该情形也可认为是InformationDIK和InformationDIK同模态融合情形和DataDIK、InformationDIK、KnowledgeDIK混模态融合情形。例如:Data1=“小明午饭选择吃米饭或者面条,一周内选择吃米饭的次数为5次,选择吃面条的次数为2次”,Data2=“小明午饭选择吃米饭的频率为5/7,吃面条的概率为2/7”,InformationDIK=“小明午饭选择吃什么”,两者关联融合,比较所有可能选择的概率,发现吃米饭的概率大,因此最终得到NewTR=“预测小明午饭选择吃米饭”,完成预测推理。
3.1.3、DataDIK∪InformationDIK=NewTR,Type(NewTR)=DataDIK+InformationDIK+KnowledgeDIK
KnowledgeDIK是由DataDIK和InformationDIK经过结构化、形式化的推导演绎得到的,是基于概率计算或归纳、演绎或溯因推理构建的,它依赖于类型或类的完整性假设。若对DataDIK、InformationDIK进行基于概率计算、归纳、演绎或溯因推理等操作进行归纳总结和抽象,将内容上升到群体层面,表示同一类型事物总体之间,或单个实体与某一类型事物群体之间的关系,构成基于类型/类级别的完整性抽象关系,此时DataDIK、InformationDIK就成为了KnowledgeDIK,KnowledgeDIK由于载体、表现形式等不同也可被看作DataDIK、InformationDIK。
3.2、数据模态资源与知识模态资源融合转化
3.2.1、DataDIK∪KnowledgeDIK=NewTR,Type(NewTR)=DataDIK
不考虑DataDIK和KnowledgeDIK本身的含义和具体解释,将KnowledgeDIK的整体直接与DataDIK进行拼接,拼接形成两个新数据。
3.2.2、DataDIK∪KnowledgeDIK=NewTR,Type(NewTR)=DataDIK+InformationDIK
DataDIK∪InformationDIK∪KnowledgeDIK=NewTR,Type(NewTR)=DataDIK+InformationDIK
考虑DataDIK和KnowledgeDIK本身的含义和具体解释,KnowledgeDIK和DataDIK的关联融合主要是用已有的KnowledgeDIK来对该DataDIK进行理解,从而完成计算、对比匹配、逻辑推理等特定目的,具体融合过程可参考上文。由于三种模态的资源可互相转化,因此此种情形也可看作InformationDIK和InformationDIK同模态融合和DataDIK、InformationDIK、KnowledgeDIK混模态融合情形。
3.3、信息模态资源与知识模态资源融合转化
3.3.1、InformationDIK∪KnowledgeDIK=NewTR,Type(NewTR)=DataDIK
不考虑InformationDIK和KnowledgeDIK本身的含义和具体解释,将KnowledgeDIK的整体直接与InformationDIK进行拼接,拼接形成两个新数据。
3.3.2、DataDIK∪KnowledgeDIK=NewTR,Type(NewTR)=DataDIK+InformationDIK
考虑InformationDIK和KnowledgeDIK本身的含义和具体解释,KnowledgeDIK和InformationDIK的关联融合主要是用已有的KnowledgeDIK来对该InformationDIK进行理解,从而完成计算、对比匹配、逻辑推理等特定目的,具体融合过程可参考上文。由于三种模态的资源可互相转化,因此此种情形也可看作InformationDIK和InformationDIK同模态融合和DataDIK、InformationDIK、KnowledgeDIK混模态融合情形。
3.3.3、DataDIK∪KnowledgeDIK=NewTR,Type(NewTR)=DataDIK+InformationDIK+KnowledgeDIK
若考虑InformationDIK和KnowledgeDIK本身的含义和具体解释,InformationDIK是对相关KnowledgeDIK的内容补充或经过严密推理证明被认为是正确可行的相关材料,则InformationDIK和KnowledgeDIK的关联融合可以产生新的KnowledgeDIK,此种情形也可看作InformationDIK和InformationDIK同模态融合和DataDIK、InformationDIK、KnowledgeDIK混模态融合情形。
3.4、数据模态资源、信息模态资源与知识模态资源融合转化
3.4.1、DataDIK∪InformationDIK∪KnowledgeDIK=NewTR,
Type(NewTR)=DataDIK
不考虑DataDIK、InformationDIK和KnowledgeDIK本身的含义和具体解释,将其均视为整体,三个整体直接互相进行拼接,形成的NewDataDIK只作为拼接记录,无具体含义和解释。
3.4.2、DataDIK∪InformationDIK∪KnowledgeDIK=NewTR,
Type(NewTR)=DataDIK+InformationDIK
此种融合情形通常表示采用KnowledgeDIK对相关问题进行解答、解决某些问题,没有对KnowledgeDIK进行扩充,或是未产生与被利用的KnowledgeDIK完全不同的新知识,或是未在不同领域使用该KnowledgeDIK并得到相关结论。
3.4.3、DataDIK∪InformationDIK∪KnowledgeDIK=NewTR,
Type(NewTR)=DataDIK+InformationDIK+NewKnowledgeDIK
此种融合情形通常表示采用KnowledgeDIK对相关问题进行解答、解决某些问题,并且对KnowledgeDIK进行扩充,或是产生了全新的、与被利用的KnowledgeDIK相比完全不同的新知识,或是将该KnowledgeDIK运用到了不同领域并且得到相关结论。
在具体执行S103的过程中,具体采用随机化对所述新资源进行隐私保护的过程为:基于差分方式将所述新资源映射至类型化资源上,并采用对应的隐私保护方式对所述新资源进行隐私保护。
在本申请实施例中,针对大数据环境下从多个来源积累的大量内容资源的处理和保护需求问题,将不完整、不完全正确的资源类型化处理为数据模态DataDIK、信息模态InformationDIK和知识模态KnowledgeDIK的资源,并从同模态和跨模态资源关联融合角度解释说明不同资源之间可能存在的联系,以及能够达到诸如互相补充、预测推理、完整描述特定目标等目的,并用一些实例更加清晰地表达。最后将差分思想映射到DataDIK上,采用全类型化维度表达法表达某个特定目标,将DataDIK按规定分为内涵资源DataCon和外延资源DataEx,从内涵、外延角度阐释隐私,提供量化隐私暴露程度的方法,并提出采用随机化对DataDIK进行隐私保护。下一步将继续提升同模态、跨模态关联融合的抽象层次,并将差分思想映射到InformationDIK和KnowledgeDIK上,并提供对应隐私保护方法。
针对数据资源差分,基于差分概念将新资源映射至数据资源上,采用全类型化维度表达法表达某个特定目标,将DataDIK按规定分为内涵资源DataCon和外延资源DataEx,从内涵、外延角度阐释隐私,并提供量化提供支持程度、隐私暴露程度的方法,采用随机化对DataDIK进行隐私保护。具体说明如下:
5.1、在全类型化维度上表达特定目标
若想清晰地表达一个目的或目标DataDIK,例如表达一个观察到的事物DataDIK,需要其他DataDIK对其进行定义、补充、解释,从不同维度进行度量,并且在一定程度上,这些DataDIK往往同时出现并互相关联融合,可以将它们视为一个整体的DataDIK。全类型化维度表达方法希望从多个不重复、多角度的维度将特定目标清晰描述,尽量做到全面、全方位。将这些不重复、多角度的全类型化维度进行体系整理,即体系化,可增强描述维度的完整性,同时也可提高对应和整理DataDIK的效率。
全类型化维度描述紧紧围绕特定目标,因此需要将关于特定目标的大量资源进行组织汇总,全类型化维度体系规定可将已有资源分为内涵角度描述和外延角度描述,得到的每一种不同的描述都可认为是一种维度,因此将此种描述方法称为全类型化维度描述法。对特定目标进行具体描述时,可从单内涵角度或单外延角度进行描述,以及从内涵和外延混合角度进行更加具体的阐述。从DataDIK角度说明就是找到特定目标DataPurpose的有关DataDIK,将DataDIK按规定分为内涵资源DataCon和外延资源DataEx,用符号表示为:
DataPurpose:<DataCon,DataEx>. (49)
规定内涵资源DataCon和外延资源DataEx均不重复,进行划分后每一个DataDIK都可作为一个描述维度。对内涵资源DataCon和外延资源DataEx进行关联融合,可唯一确定特定目标。
接下来介绍内涵资源DataCon和外延资源DataEx划分依据和规定。
5.1.1、内涵资源DataCon
可归属于内涵角度的DataDIK即DataCon应能反映DataPurpose的特有属性及其对应属性值,属性包括特征和功能,特征是静态的属性,具体指那些稳定的、不容易改变的DataDIK,可用THS表示;功能是动态的属性,属性值可能会随着时间等因素改变而发生改变,可用THD表示,
DataCon:<THS,THD>. (50)
联系一个或多个特有属性可以对该DataPurpose进行介绍说明,并将该DataPurpose与其他DataPurpose区分开来,若在不知DataPurpose的前提下将一个或多个不同的特有属性关联起来,可对DataPurpose进行大致的猜测和推理,若特有属性个数足量、描述也足够具体,有很大可能识别、确认出该DataPurpose。例如DataPurpose1=“人”,则能反映DataPurpose的特有属性有“能制造和使用工具”、“有语言和文字”、“有思维”等,均属于静态属性,将一个或多个特有属性关联起来,有很大可能推测出DataPurpose。
DataCon:<THS:“能制造和使用工具”,
“有语言和文字”,“有思维”> (51)
确定DataDIK属于DataCon的具体方法如下:
对DataDIK进行分析,发现其中含有直接提出某些DataDIK作为属性的说明,例如DataDIK=“货币的属性是价值尺度和流通手段”,则DataPurpose=“货币”的内涵属性就应包括“价值尺度”和“流通手段”,将其作为DataCon;
将介绍解释该DataPurpose的DataDIK中频繁出现的某些DataDIK,即频繁项作为属性,例如在介绍DataPurpose=“李明”时,分析统计已有的DataDIK,发现频繁出现DataDIK=“大学生”,将其作为属性,但若存在大量DataDIK支撑说明或存在InformationDIK和KnowledgeDIK说明该属性存在继承关系,如“大学生”存在继承关系,是“学生”的子类,此时可灵活地将该由频繁项构成的属性的继承关系作为属性划分为DataCon,例如DataCon:<THS:“学生(大学生)”>,层次顺序由括号分级,括号内是括号外属性的子类,同级间用逗号隔开。
5.1.2、外延资源DataEX
外延资源DataEx通常是指:①那些具有DataPurpose所反映的特有属性的其他目标实体EntityA;②能回答、解释DataPurpose本身或其适用范围的相关DataDIK;③与DataPurpose本身有关的,或DataPurpose所反映的特有属性的相关统计值DataDIK。例如DataPurpose=“人”的外延,就包括:①具有能制造和使用生产工具、有语言、有思维这些特有属性的事物,如曹操、李白等具体的人,也可以是中国人、美国人等不具体、抽象的人;②含有人的各种图像、视频等,可以用来介绍“人”这个DataPurpose;③全球人口总数等相关统计值。
若在不知DataPurpose的前提下将已有的一个或多个DataEx关联起来进行比对,找出共同点,通过共同点可进行对DataPurpose的大致猜测,若已有的DataEx个数足量、相同点也足够清晰具体,则有很大可能将该DataPurpose和其他DataPurpose区分开来,最终识别、确认出该DataPurpose。
进一步地,区分内涵资源和外延资源的方法也可应用到上文提到的诸如“中国人”等具有DataPurpose所反映的特有属性的新目标实体EntityA1上,此时新目标实体的DataCon表示其所拥有的属性,这些属性与前面提及的“人”的内涵资源所包含的属性相比,完全相同或在原有属性的基础上添加了其他不同的属性。此添加属性的过程与面向对象方法中的对象继承方法相似,是将原DataPurpose与对象继承体系里面的“父类”对应,新实体与对象继承体系里面的“子类”对应,“子类”在继承“父类”属性的基础上进行增加和延展。新实体EntityA1的外延可以是对新实体现拥有属性的具体介绍说明,也可以是拥有新实体所反映的特有属性的其他实体EntityABi,或能回答、解释新实体本身或其适用范围的相关DataDIK。以此类推,可构建出一个网络,说明各个DataPurpose的属性关联等联系。
若同时已知关于某个DataPurpose的DataCon和DataEx,则将两类资源关联融合起来,可以更加准确、快速地识别出DataPurpose,比单单依靠DataCon或DataEx进行识别的效率更高,因为DataEx本身就是在DataCon的概括凝练上进行的一种延展,若仅仅依靠DataEx进行DataPurpose的推理识别,则需要对DataEx进行对比进而找到某些相同点,所花费的时间、精力等代价很高,效率较低。
5.2、DataDIK上的隐私
在具体生活实践中,隐私通常被理解为“单个用户的某一些属性”,也就是说,如果是一群用户的某一些属性,那么可以不看做隐私。因此,从隐私保护的角度来说,隐私的主体是单个用户,只有牵涉到某个特定用户的某一些属性才叫隐私泄露,发布群体用户的信息,例如均值等统计数据,则不算泄露隐私,所以很多数据拥有者会选择发布一些群体用户的统计信息,供数据请求者学习和使用。
对于用户来说,归属于隐私的属性因人而异,应具体分析。
若将此概念迁移到DataDIK并从内涵、外延角度阐释隐私,则可分为两种情形:
(1)若已知目标DataDIK(即DataPurpose)代表某个具体用户。
此时将有关DataPurpose的所有DataDIK按照要求分为DataCon和DataEx,DataCon是能反映DataPurpose的特有属性及其对应属性值,此时特定用户认为DataCon的部分属性及其对应属性值是隐私,用DataCP表示,另一部分属性及其属性值不属于隐私,用DataCU表示,即:
DataCon:<DataCP,DataCU> (52)
由于DataEx与DataPurpose本身及其特有属性联系紧密,因此:
①当DataEx是具有DataPurpose所反映的包含特有隐私属性DataCP的其他目标实体时,DataEx可被认为是DataPurpose的隐私;若DataEx是具有DataPurpose所反映的特有非隐私属性DataCU的其他目标实体时,DataEx可被他人得知,不属于DataPurpose的隐私;
②当DataEx是能回答、解释DataPurpose本身或其适用范围的相关DataDIK时,对DataEx进行分析,若DataEx与特有隐私属性DataCP有关,则认为该DataEx是DataPurpose的隐私,不可直接公布;若DataEx与特有隐私属性DataCP无关,则DataEx不是DataPurpose的隐私,可进行公布;
③当DataEx是与DataPurpose本身有关或是DataPurpose所反映的特有属性的相关统计值DataDIK时,对DataEx进行分析,若DataEx与DataCP有关,则认为该DataEx是DataPurpose的隐私,不可直接公布;若DataEx与无关,则DataEx不是DataPurpose的隐私,可进行公布。
综上所述,当已知目标DataDIK即DataPurpose代表某个具体用户时,确定该用户的部分属性DataCP属于隐私,则与DataCP有关的所有DataEx均属于隐私,不可直接向外公布,需要通过某些操作进行隐私保护。
(2)若不知目标DataDIK(即DataPurpose)代表某个具体用户。
相关资源已分化为DataCon和DataEx,但未将DataCon和DataEx与DataPurpose关联起来,此时将DataPurpose设定为隐私,即不希望数据请求者通过将DataCon和DataEx进行关联融合的方法准确、高效地推测出DataPurpose。
5.3、量化提供支持度、隐私暴露程度
全类型化维度表达方法可将特定目标描述清晰,即将特定目标相关DataDIK分化为DataCon和DataEx,综合各个不同维度的描述,可以达到清晰地表达特定目标的目的,但不同的DataCon和DataEx对描述特定目标所能提供的支持不同,提供支持的程度可用提供支持度DegreeSupport进行度量,DegreeSupport差异表现在:①同属于内涵资源的不同DataCon之间;②同属于外延资源的不同DataEx之间;③内涵资源与外延资源之间,以上资源之间均存在提供支持度差异。
若某些DataCon或DataEx能为识别出特定目标DataPurpose提供大量支持,也就是说,若数据请求者已知这些DataCon或DataEx,可以花费较少的代价,较为轻易地通过这些DataCon或DataEx,迅速、准确地将DataPurpose识别锁定,并且与那些提供支持度小的DataCon或DataEx相比,进行关联推理识别锁定DataPurpose的效率更快、准确度更高。理解“提供支持度大小”可参考信息论中的信息量定义,提供的支持度越大,所含的与特定DataPurpose有关的消息就越多,识别锁定DataPurpose的不确定性就越小。
同理进行逆向思考,每个DataCon或DataEx都包含特定DataPurpose的有关消息,有关消息的多少程度可用提供支持度DegreeSupport进行度量,而在不知DataPurpose的具体隐私条件下,特定DataPurpose的有关消息可能包含DataPurpose的隐私。那么,含有较多特定DataPurpose有关消息的DataCon或DataEx比那些含有较少特定DataPurpose有关消息的DataCon或DataEx有更高的可能含有DataPurpose的隐私,即DegreeSupport较大的DataCon或DataEx更容易存在DataPurpose的隐私内容,若数据拥有者将这些DataCon或DataEx进行直接发布,则DataPurpose的隐私暴露程度高,隐私暴露程度可用隐私暴露度Degreeexposure进行度量。
对提供支持程度和隐私暴露程度进行度量得到直观的数值结果能够更好地分析识别特定目标过程和隐私暴露过程,为更有效率、准确地识别特定目标,以及减少隐私暴露提供理论依据。
由于提供支持度DegreeSupport计算和隐私暴露度Degreeexposure计算是方向相反、出发点和目标点互换的两个过程,计算DegreeSupport的出发点是已知与特定目标DataPurpose有关的不同DataCon和DataEx,目标点是识别出特定目标DataPurpose;计算Degreeexposure的出发点是已知特定目标DataPurpose,目标点是得到有关DataPurpose的相关可能隐私DataCon和DataEx,因此计算得到的DegreeSupport和Degreeexposure数值可认为相等,即:
DegreeSupport=DegreeExposure. (53)
以下提供计算多个不同DataDIK关联融合为识别出特定目标DataPurpose,计算提供的总支持度AllDegreeSupport的一种方法,作为一种参考。
输入:所有与特定目标DataPurpose有关的不同DataCon和DataEx。
输出:同时出现用以关联推理的多个不同DataDIK提供的总支持度AllDegreeSupport。
步骤一,对归属于DataCon中的不同属性DataConi(i=1,...,n,n为不同属性总数)进行分配来源分析,来源有两种,分别为:
(1)DataDIK中含有直接提出某些DataDIK作为属性的说明,将此种属性记为Attr1;
(2)将频繁项作为属性,将此种属性记为Attr2。另将具有对应属性值的属性记为Attr3,是Attr1和Attr2的延伸。以上三种属性类型不互斥,可同时存在,即存在属性同时属于Attr1、Attr2、Attr3中的两种及以上类型,规定用逻辑1表示该DataConi属于此属性种类,用逻辑0表示该DataDIK不属于此属性种类。
步骤二,面对归属于DataCon中一个具体DataConi,结合DataDIK的属性种类,确定提供支持度DegreeSupport计算公式中的权重值,总公式为:
DegreeSupport(DataConi)=α·f(DataConi)+β·g(DataConi)+γ·h(DataConi) (54)
其中,α+β=1,α、β、γ分别对应表示种类为Attr1、Attr2、Attr3的属性对描述特定目标所能提供的支持权重,当Attr1=Attr3=1时,γ=α,当Attr2=Attr3=1时,γ=β。默认通常情况下种类为Attr1的属性对描述特定目标所能提供的支持大于种类为Attr2的属性提供的支持,因此α>β,在此基础上根据实际设定权重。
步骤三,对所有的DataConi进行DegreeSupport计算得到对应提供支持度,相关公式如下:
frequency(DataConi)表示DataConi作为频繁项出现的频数。
ratio(DataConi)表示与属性DataConi的具体属性值相同的DataPurpose个数与DataPurpose总数之比,若DataEx中不存在相关统计值或提供的统计值不完整,则该比率值为0。
步骤四,对归属于DataEx中的不同内容DataExj(j=1,...,m,m为不同记录总数)进行提供支持度计算,有关公式如下:
DegreeSupport(DataExj)=β·frequency(DataExj) (58)
得到所有DataExj的对应提供支持度。
步骤五,在具体应用时计算同时出现用以关联推理的多个不同DataDIK提供的总支持度AllDegreeSupport,也就是将同时出现用以关联推理的DataConi和DataExj对应的支持度值相加,得到总支持度AllDegreeSupport。
步骤六,对比不同关联方案的总支持度AllDegreeSupport,进行排序,最小的AllDegreeSupport对应关联方案最难推理得到特定目标,同时也意味着隐私暴露程度最小。
5.4、数据差分
存在一种情形是不同数据请求者对同一个DataPurpose的相关DataCon和DataEx掌握情况不同,并且只存在一条DataDIK的差异,除了这条DataDIK,数据请求者对其余所有DataDIK的掌握情况都相同。通过掌握存在差异的DataDIK,希望能够达成以下目标:(1)识别确认出该特定DataPurpose;(2)猜测推理出该差异DataDIK。
可通过分别计算在存在一条DataDIK的差异情况下的两种关联方案对应的总支持度,将存在该差异DataDIK关联方案对应的总支持度记为AllDegreeSupport1,将不存在该差异DataDIK的关联方案对应的总支持度记为AllDegreeSupport2,两结果进行相差计算,得到的结果即为该差异DataDIK为识别出特定目标DataPurpose提供的支持度DegreeSupport(DataDIK),即:
DegreeSupport(DataDIK)=AllDegreeSupport1-AllDegreeSupport2 (59)
记DegreeSupport(DataDIK)与AllDegreeSupport1之比为支持度占比Proportion(DataDIK),表示该差异DataDIK所提供的的支持度占关联方案总支持度的多少,若关联方案中存在的不同DataDIK个数为N,当Proportion(DataDIK)>1/N时,说明该差异DataDIK可以为识别特定目标提供较大的支撑,缺少这一条差异DataDIK对识别特定目标DataPurpose影响较大,同时推理出该差异DataDIK的难度也增加,若该条DataDIK被泄露,则隐私暴露程度严重;当Proportion(DataDIK)≤1/N时,说明该差异DataDIK可以为识别特定目标提供支撑较少,缺少这一条差异DataDIK对识别特定目标DataPurpose影响不是很大,同时推理出该差异DataDIK的难度增加程度较小,若该条DataDIK被泄露,则隐私暴露程度较不严重。
同理,若不同数据请求者对同一个DataPurpose的相关DataCon和DataEx掌握情况存在两条及其以上DataDIK的差异,同样进行两种关联方案对应的总支持度AllDegreeSupport,得到的结果进行差值计算,差值结果说明两条及其以上差异DataDIK进行关联后一共可以为识别特定目标提供的支撑,此时差异DataDIK是一个整体,无法将各条DataDIK的提供支持度DegreeSupport区分开来。
5.5、采用随机化进行隐私保护
在不考虑将数据DataDIK公布后的有效再利用情况(即可用性)下,
(1)假设数据请求者拥有最大背景知识,即掌握除差异DataDIK之外的所有DataDIK,可通过不同查询方式(例如获取特定统计值)获取相关DataDIK,数据拥有者的目标是让数据请求者无法通过差分等操作得到具体差异DataDIK,进而关联其他DataDIK推理出特定目标DataPurpose。
当只存在一条差异DataDIK时,可以采取的方法是随机化,也就是在查询结果上加入某种“噪声”使查询结果随机化。现数值型输出中常在在查询结果里加入Laplace分布的噪音,使有较大概率输出在差异DataDIK具体数值附近的结果,若输出结果距离差异DataDIK具体数值越远,被查询到的概率越小,以及在非数值型输出中运用指数机制,在查询结果里用指数分布来调整概率的方法保护具体DataDIK不被数据请求者得知。
(2)假如数据请求者通过各种查询手段获取部分DataDIK,发现在各种查询过程中,出现次数多的频繁项更易被获取,并且从提供支持度计算公式可看出,频繁项出现次数是影响DegreeSupport大小的重要因素,出现次数越多,该DataDIK的DegreeSupport具体值相对而言会比较大,能为识别出特定目标DataPurpose提供大量支持,也就是说,若数据请求者得到该DataDIK,可以花费较少的代价,较为轻易地将DataPurpose识别锁定。同样的,若数据请求者得到该DataDIK,会暴露大量隐私。
因此若想减少隐私暴露的可能性,需要对DataDIK进行出现次数随机化,即影响DataDIK出现的概率,最简单的随机化就是人为设置DataDIK的出现次数,使所有DataDIK的出现次数相同,即平均DataDIK出现的概率,提供支持度DegreeSupport(DataDIK)主要影响因素不包含出现频度,此时数据请求者获取任何DataDIK的概率均相等,降低了获得具有较大提供支持度的DataDIK概率,在某种程度上保护了隐私,防止隐私暴露。
基于上述本申请实施例公开的一种基于常识推理的多模态资源的本质内容处理方法,本申请实施例还对应公开了一种基于常识推理的多模态资源的本质内容处理系统,如图2所示,主要包括获取单元201、融合单元202和差分单元203。
获取单元201,用于获取资源,并基于智慧图DIKW体系结构将所述资源映射为类型化资源,所述资源来自多个来源,所述类型化资源包括数据资源DataDIK、信息资源InformationDIK和知识资源KnowledgeDIK至少三种模态;
融合单元202,用于根据所得到的类型化资源进行同模态关联融合和/或跨模态关联融合,得到新资源,并确定所述新资源的模态。
其中,所述融合单元202包括同模态关联融合模块和跨模态关联融合模块。
所述同模态关联融合模块,用于针对每一种资源进行进行同模态关联融合,得到对应的第一新资源。
所述跨模态关联融合模块,用于针对多种资源进行跨模态关联融合,得到对应的第二新资源。
差分单元203,用于采用随机化对所述新资源进行隐私保护。
所述差分单元203,具体用于基于差分方式将所述新资源映射至类型化资源上,并采用对应的隐私保护方式对所述新资源进行隐私保护。
所述同模态关联融合模块,具体用于针对每一种资源,判断两个同模态资源是否同时出现;若未同时出现,进行标记并退出;若同时出现,判断两个同模态资源是否具有关联;若不具有关联,进行标记并退出;若具有关联,分别对两个同模态资源进行初级、中级和/或高级关联融合,得到执行最高一级关联融合后获取的第一新资源和所述第一新资源的模态。
其中,分别对两个同模态资源进行初级、中级和/或高级关联融合,得到对应的第一新资源得到执行最高一级关联融合后获取的第一新资源和所述第一新资源的模态,具体为:
通过函数Splicing()对两个同模态资源进行初级关联融合,得到新初级资源,并根据所述新初级资源的不同用法确定所述新初级资源的模态;
根据所述初级关联融合的结果,判断是否可以继续执行中级关联融合;
若否,将所述新初级资源作为第一新资源,将所述新初级资源的模态作为所述第一新资源的模态;
若是,基于解析和逻辑推理对两个同模态资源进行中级关联融合,得到新中级资源,并确定所述新中级资源的模态;
根据所述中级关联融合的结果,判断是否可以继续执行高级关联融合;
若否,将所述新中级资源作为第一新资源,将所述新中级资源的模态作为所述第一新资源的模态;
若是,根据所述新中级资源进行融合计算,将得到的新高级资源作为第一新资源,将所述新高级资源的模态作为所述第一新资源的模态。
所述跨模态关联融合模块,具体用于将多种资源两两或两两以上进行拼接,得到多个拼接资源;将所述拼接资源两两进行关联融合,得到多个新资源;将所述新资源两两进行关联融合,直至得到最终资源,将所述最终资源作为第二新资源。
若所述多种资源包括数据资源和信息资源,所述跨模态关联融合模块,具体用于基于特定目的对所述数据资源和所述信息资源进行拼接,得到第二新资源,所述特定目的至少包括:形成对应关系、总结匹配、相关数值计算、补充细节、逻辑计算、构建复合语句或复合命题、逻辑推理、检测判断取值是否满足相关条件和预测推理。
若所述多种资源包括数据资源和知识资源,所述跨模态关联融合模块,具体用于:
若所述数据资源和所述知识资源本身的含义和解释为非必要的,将所述知识资源作为一个数据与所述数据资源进行拼接,得到第二新资源;
若所述数据资源和所述知识资源本身的含义和解释为必要的,将所述知识资源作为信息资源与所述数据资源进行拼接,得到第二新资源。
若所述多种资源包括信息资源和知识资源,所述跨模态关联融合模块,具体用于:
若所述信息资源和所述知识资源本身的含义和解释为非必要的,将所述知识资源作为信息与所述信息资源进行拼接,得到第二新资源;
若所述信息资源和所述知识资源本身的含义和解释为必要的,基于特定目的将所述知识资源与所述信息资源进行拼接,得到第二新资源,所述特定目的至少包括:形成对应关系、总结匹配、相关数值计算、补充细节、逻辑计算、构建复合语句或复合命题、逻辑推理、检测判断取值是否满足相关条件和预测推理;
若所述信息资源和所述知识资源本身的含义和解释为必要的,将所述信息资源作为所述知识资源的内容补充或者证明材料与所述信息资源进行拼接,得到第二新资源。
若所述多种资源包括数据资源、信息资源和知识资源,所述跨模态关联融合模块,具体用于:
若所述数据资源、所述信息资源和所述知识资源本身的含义和解释为非必要的,将所述数据资源、所述信息资源和所述知识资源直接进行拼接,得到第二新资源;
若所述数据资源、所述信息资源和所述知识资源本身的含义和解释为必要的,且所述知识资源本身的含义和解释仅作为相关问题的解答或结论时,将所述知识资源作为信息资源与所述信息资源、所述数据资源进行拼接,得到第二新资源;
若所述数据资源、所述信息资源和所述知识资源本身的含义和解释为必要的,且所述知识资源本身的含义和解释作为相关问题的解答或结论有新的知识补充时,将补充之后的新的知识资源与所述信息资源、所述数据资源进行拼接,得到第二新资源。
本申请实施例中公开的系统中的各个单元和模块的执行原理,可参见上述方法对应的内容,这里不再进行赘述。
本申请将多个来源的资源映射为DIKW体系结构中的数据模态DataDIK、信息模态InformationDIK和知识模态KnowledgeDIK的类型化资源,并对它们的定义和联系进行详细的解释说明。并且由于不同模态的资源可能并非完整,且并非完全正确,可通过某些关联进行融合转换互相补充完善、形成新的资源,若不对未经转换的资源进行处理,就会存在很高的隐私泄露风险,鉴于DataDIK、InformationDIK、KnowledgeDIK的具体内容和形式多变,为达到更加直观、具体的目的,本申请从实例出发介绍同模态资源和跨模态资源关联融合的过程和可能结果,并确定生成新资源的模态。同模态资源关联融合的分析介绍以DataDIK和DataDIK为主,将DataDIK按照特定分类规则进行分类,关联融合的主要方法是不同类型的DataDIK之间产生联系,并对其进行逻辑推理得到新资源。模态资源关联融合的分析解释以不同模态资源关联融合产生不同模态的新资源为主线,辅以具体应用实例进行详细介绍,跨模态资源关联融合主要介绍DataDIK和InformationDIK关联融合的相关内容。最后采用随机化的方式对融合后的内容进行保护。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于常识推理的多模态资源的本质内容处理方法,其特征在于,所述方法包括:
获取资源,并基于智慧图DIKW体系结构将所述资源映射为类型化资源,所述资源来自多个来源,所述类型化资源包括数据资源DataDIK、信息资源InformationDIK和知识资源KnowledgeDIK至少三种模态;
根据所得到的类型化资源进行同模态关联融合和/或跨模态关联融合,得到新资源,并确定所述新资源的模态;
基于差分方式将所述新资源映射至类型化资源上,采用对应的隐私保护方式对所述新资源进行隐私保护;
其中,所述同模态关联融合包括:针对每一种资源进行同模态关联融合,得到对应的第一新资源;
所述跨模态关联融合包括:针对多种资源进行跨模态关联融合,得到对应的第二新资源。
2.根据权利要求1所述的方法,其特征在于,所述针对每一种资源进行同模态关联融合,得到对应的第一新资源包括:
针对每一种资源,判断两个同模态资源是否同时出现;
若未同时出现,进行标记并退出;
若同时出现,判断两个同模态资源是否具有关联;
若不具有关联,进行标记并退出;
若具有关联,分别对两个同模态资源进行初级、中级和/或高级关联融合,得到执行最高一级关联融合后获取的第一新资源和所述第一新资源的模态。
3.根据权利要求2所述的方法,其特征在于,分别对两个同模态资源进行初级、中级和/或高级关联融合,得到执行最高一级关联融合后获取的第一新资源和所述第一新资源的模态,包括:
通过函数Splicing()对两个同模态资源进行初级关联融合,得到新初级资源,并根据所述新初级资源的不同用法确定所述新初级资源的模态;
根据所述初级关联融合的结果,判断是否可以继续执行中级关联融合;
若否,将所述新初级资源作为第一新资源,将所述新初级资源的模态作为所述第一新资源的模态;
若是,基于解析和逻辑推理对两个同模态资源进行中级关联融合,得到新中级资源,并确定所述新中级资源的模态;
根据所述中级关联融合的结果,判断是否可以继续执行高级关联融合;
若否,将所述新中级资源作为第一新资源,将所述新中级资源的模态作为所述第一新资源的模态;
若是,根据所述新中级资源进行融合计算,将得到的新高级资源作为第一新资源,将所述新高级资源的模态作为所述第一新资源的模态。
4.根据权利要求1所述的方法,其特征在于,所述针对多种资源进行跨模态关联融合,得到对应的第二新资源,包括:
将多种资源两两或两两以上进行拼接,得到多个拼接资源;
将所述拼接资源两两进行关联融合,得到多个新资源;
将所述新资源两两进行关联融合,直至得到最终资源,将所述最终资源作为第二新资源。
5.根据权利要求1所述的方法,其特征在于,若所述多种资源包括数据资源DataDIK和信息资源InformationDIK,针对多种资源进行跨模态关联融合,得到对应的第二新资源包括:
基于特定目的对所述数据资源DataDIK和所述信息资源InformationDIK进行拼接,得到第二新资源,所述特定目的至少包括:形成对应关系、总结匹配、相关数值计算、补充细节、逻辑计算、构建复合语句或复合命题、逻辑推理、检测判断取值是否满足相关条件和预测推理。
6.根据权利要求1所述的方法,其特征在于,若所述多种资源包括数据资源DataDIK和知识资源KnowledgeDIK,针对多种资源进行跨模态关联融合,得到对应的第二新资源包括:
若所述数据资源DataDIK和所述知识资源KnowledgeDIK本身的含义和解释为非必要的,将所述知识资源KnowledgeDIK作为一个数据与所述数据资源DataDIK进行拼接,得到第二新资源;
若所述数据资源DataDIK和所述知识资源KnowledgeDIK本身的含义和解释为必要的,将所述知识资源KnowledgeDIK作为信息资源InformationDIK与所述数据资源DataDIK进行拼接,得到第二新资源。
7.根据权利要求1所述的方法,其特征在于,若所述多种资源包括信息资源InformationDIK和知识资源KnowledgeDIK,针对多种资源进行跨模态关联融合,得到对应的第二新资源包括:
若所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为非必要的,将所述知识资源KnowledgeDIK作为信息与所述信息资源InformationDIK进行拼接,得到第二新资源;
若所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为必要的,基于特定目的将所述知识资源与所述信息资源InformationDIK进行拼接,得到第二新资源,所述特定目的至少包括:形成对应关系、总结匹配、相关数值计算、补充细节、逻辑计算、构建复合语句或复合命题、逻辑推理、检测判断取值是否满足相关条件和预测推理;
若所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为必要的,将所述信息资源InformationDIK作为所述知识资源KnowledgeDIK的内容补充或者证明材料与所述信息资源进行拼接,得到第二新资源。
8.根据权利要求1所述的方法,其特征在于,若所述多种资源包括数据资源DataDIK、信息资源InformationDIK和知识资源KnowledgeDIK,针对多种资源进行跨模态关联融合,得到对应的第二新资源包括:
若所述数据资源DataDIK、所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为非必要的,将所述数据资源DataDIK、所述信息资源InformationDIK和所述知识资源KnowledgeDIK直接进行拼接,得到第二新资源;
若所述数据资源DataDIK、所述信息资源InformationDIK和所述知识资源KnowledgeDIK本身的含义和解释为必要的,且所述知识资源本身的含义和解释仅作为相关问题的解答或结论时,将所述知识资源KnowledgeDIK作为信息资源与所述信息资源InformationDIK、所述数据资源DataDIK进行拼接,得到第二新资源;
若所述数据资源DataDIK、所述信息资源InformationDIK和所述知识资源本身的含义和解释为必要的,且所述知识资源KnowledgeDIK本身的含义和解释作为相关问题的解答或结论有新的知识补充时,将补充之后的新的知识资源NewKnowledgeDIK与所述信息资源InformationDIK、所述数据资源DataDIK进行拼接,得到第二新资源。
9.一种基于常识推理的多模态资源的本质内容处理系统,其特征在于,所述系统包括:
获取单元,用于获取资源,并基于智慧图DIKW体系结构将所述资源映射为类型化资源,所述资源来自多个来源,所述类型化资源包括数据资源DataDIK、信息资源InformationDIK和知识资源 KnowledgeDIK至少三种模态;
融合单元,用于根据所得到的类型化资源进行同模态关联融合和/或跨模态关联融合,得到新资源,并确定所述新资源的模态;其中,所述同模态关联融合包括:针对每一种资源进行同模态关联融合,得到对应的第一新资源;所述跨模态关联融合包括:针对多种资源进行跨模态关联融合,得到对应的第二新资源;
差分单元,用于基于差分方式将所述新资源映射至类型化资源上,采用对应的隐私保护方式对所述新资源进行隐私保护。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110074301.9A CN112818385B (zh) | 2021-01-20 | 2021-01-20 | 基于常识推理的多模态资源的本质内容处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110074301.9A CN112818385B (zh) | 2021-01-20 | 2021-01-20 | 基于常识推理的多模态资源的本质内容处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818385A CN112818385A (zh) | 2021-05-18 |
CN112818385B true CN112818385B (zh) | 2022-04-01 |
Family
ID=75858549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110074301.9A Active CN112818385B (zh) | 2021-01-20 | 2021-01-20 | 基于常识推理的多模态资源的本质内容处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818385B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113645284B (zh) * | 2021-07-29 | 2022-08-26 | 海南大学 | 意图驱动的多模态dikw内容传输方法 |
CN113657083B (zh) * | 2021-08-30 | 2023-04-18 | 海南大学 | 面向意图计算与推理的dikw资源交互填充系统 |
CN114039865B (zh) * | 2021-08-30 | 2023-03-31 | 海南大学 | 意图计算导向的跨dikw模态传输与优化系统 |
CN113722505B (zh) * | 2021-08-30 | 2023-04-18 | 海南大学 | 面向dikw资源的情感表达映射、度量与优化传输系统 |
CN115860152B (zh) * | 2023-02-20 | 2023-06-27 | 南京星耀智能科技有限公司 | 一种面向人物军事知识发现的跨模态联合学习方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804945A (zh) * | 2018-06-09 | 2018-11-13 | 海南大学 | 基于数据图谱,信息图谱和知识图谱的信息隐私保护方法 |
CN108920714B (zh) * | 2018-07-26 | 2021-10-01 | 上海交通大学 | 一种分布式环境下隐私保护的关联规则挖掘方法和系统 |
CN111858960B (zh) * | 2020-07-23 | 2021-09-10 | 海南大学 | 面向本质计算的跨dikw图谱的虚拟社区资源处理方法及组件 |
-
2021
- 2021-01-20 CN CN202110074301.9A patent/CN112818385B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112818385A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818385B (zh) | 基于常识推理的多模态资源的本质内容处理方法及系统 | |
Yalcin et al. | The use of multi-criteria decision-making methods in business analytics: A comprehensive literature review | |
Nazir et al. | Issues and challenges of aspect-based sentiment analysis: A comprehensive survey | |
Koloski et al. | Knowledge graph informed fake news classification via heterogeneous representation ensembles | |
Rizun | Knowledge graph application in education: a literature review | |
CN110390023A (zh) | 一种基于改进bert模型的知识图谱构建方法 | |
Kim et al. | SAO2Vec: Development of an algorithm for embedding the subject–action–object (SAO) structure using Doc2Vec | |
Molin | Hands-On Data Analysis with Pandas: A Python data science handbook for data collection, wrangling, analysis, and visualization | |
Rousi et al. | Semantically enriched crop type classification and linked earth observation data to support the common agricultural policy monitoring | |
Wu et al. | Human resource allocation based on fuzzy data mining algorithm | |
Kalibatienė et al. | A hybrid systematic review approach on complexity issues in data-driven fuzzy inference systems development | |
Wang et al. | Quantifying a paper’s academic impact by distinguishing the unequal intensities and contributions of citations | |
Liu et al. | Research and citation analysis of data mining technology based on Bayes algorithm | |
Paulheim | Machine learning with and for semantic web knowledge graphs | |
Tan et al. | An approach to user knowledge acquisition in product design | |
WO2022078142A1 (zh) | 跨数据、信息、知识多模态的特征挖掘方法及组件 | |
Wang et al. | Umbra: a visual analysis approach for defense construction against inference attacks on sensitive information | |
Si et al. | Automobile insurance claim occurrence prediction model based on ensemble learning | |
Cai et al. | A risk identification model for ICT supply chain based on network embedding and text encoding | |
CN112418428B (zh) | 基于本质计算的跨模态特征挖掘方法及组件 | |
Wang et al. | JECI++: A Modified Joint Knowledge Graph Embedding Model for Concepts and Instances | |
Gao et al. | Combination of graphics, uncertainty, and semantics: A survey | |
Raja et al. | Semantics enabled role based sentiment analysis for drug abuse on social media: A framework | |
Stamou | Data science for social good: development of a knowledge graph targeted to sustainable development goals | |
van Delden et al. | Ten propositions on machine learning in official statistics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |