CN111309827A - 知识图谱构建方法、装置、计算机系统及可读存储介质 - Google Patents
知识图谱构建方法、装置、计算机系统及可读存储介质 Download PDFInfo
- Publication number
- CN111309827A CN111309827A CN202010207440.XA CN202010207440A CN111309827A CN 111309827 A CN111309827 A CN 111309827A CN 202010207440 A CN202010207440 A CN 202010207440A CN 111309827 A CN111309827 A CN 111309827A
- Authority
- CN
- China
- Prior art keywords
- normal
- information elements
- abnormal
- information
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 35
- 238000005065 mining Methods 0.000 claims abstract description 26
- 230000002159 abnormal effect Effects 0.000 claims description 210
- 238000000034 method Methods 0.000 claims description 40
- 230000006399 behavior Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 abstract description 4
- 229940088594 vitamin Drugs 0.000 description 20
- 229930003231 vitamin Natural products 0.000 description 20
- 235000013343 vitamin Nutrition 0.000 description 20
- 239000011782 vitamin Substances 0.000 description 20
- 150000003722 vitamin derivatives Chemical class 0.000 description 20
- 230000036541 health Effects 0.000 description 19
- 206010003011 Appendicitis Diseases 0.000 description 18
- 230000000474 nursing effect Effects 0.000 description 18
- 239000000047 product Substances 0.000 description 18
- 229940124579 cold medicine Drugs 0.000 description 12
- 239000004081 narcotic agent Substances 0.000 description 9
- 230000003533 narcotic effect Effects 0.000 description 9
- 230000001256 tonic effect Effects 0.000 description 8
- 239000003814 drug Substances 0.000 description 7
- 230000008520 organization Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013138 pruning Methods 0.000 description 4
- 238000001356 surgical procedure Methods 0.000 description 4
- 229940079593 drug Drugs 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Technology Law (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Fuzzy Systems (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了知识图谱构建方法、装置、计算机系统及可读存储介质,包括:从数据库中获取正常基础信息,提取正常基础信息的关键字并去重获得正常信息元;挖掘各正常信息元中具有正常有向关联关系的两个正常信息元,并将两个正常信息元认定为正常有向关联特征;挖掘各正常信息元中具有正常无向关联关系的两个正常信息元,并将两个正常信息元认定为正常无向关联特征;根据正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱。本发明构建了反映各正常信息元之间充分不必要条件关系以及充分必要条件关系的知识图谱,实现了对数据关系的深层挖掘,使机构能够通过该知识图谱对不同区域角度的风险进行识别。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种知识图谱构建方法、装置、计算机系统及可读存储介质。
背景技术
风控模型是一种能够通过智能风控,为各地医保局识别欺诈骗保人员,减少风险敞口,保护医保基金安全的计算机程序。当前的风控模型通常是基于经验总结风险规律制定风控规则,以构建的用于识别风险的风控模型。
然而这种风控模型因缺乏对数据关系深层挖掘的手段,造成风控模型的局限性较强,无法对不同区域角度的风险进行识别。
发明内容
本发明的目的是提供一种知识图谱构建方法、装置、计算机系统及可读存储介质,用于解决现有技术存在的因缺乏对数据关系深层挖掘的手段,造成风控模型的局限性较强,无法对不同区域角度的风险进行识别的问题。
为实现上述目的,本发明提供一种基于大数据的知识图谱构建方法,包括:
从数据库中获取正常基础信息,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元;其中,所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为,所述正常信息元反映了所述虚拟主体的任一属性或行为;
挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常有向关联特征;其中,所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元;
挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常无向关联特征;其中,所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元;
根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱。
上述方案中,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元之后,还包括:
从数据库中获取异常基础信息,提取异常基础信息的关键字并对所述关键字去重,获得异常信息元,其中,所述异常基础信息反映了不符合预设认证规则的虚拟主体的属性和/或行为,所述异常信息元反映了所述虚拟主体的任一属性或行为。
上述方案中,挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元的步骤,包括:
计算具有正常信息元的正常基础信息的数量,并将该数量作为所述正常信息元的样本数量;
任意提取两个正常信息元,计算同时出现所述两个正常信息元的正常基础信息的数量作为关联总量;
将所述关联总量分别与所述两个正常信息元的样本数量相除,分别获得第一关联值和第二关联值;
若所述第一关联值和第二关联值分别大于预设的有向关联阈值时,则判定所述两个正常信息元之间具有关联关系;
比较所述第一关联值和第二关联值;若所述第一关联值大于第二关联值,则判定第一关联值对应的正常信息元是第二关联值对应的正常信息元的充分不必要条件;若所述第二关联值大于第一关联值,则判定第二关联值对应的正常信息元是第一关联值对应的正常信息元的充分不必要条件。
上述方案中,将所述两个正常信息元认定为正常有向关联特征之后,包括:
挖掘各所述异常信息元中具有异常有向关联关系的两个异常信息元,并将所述两个异常信息元认定为异常有向关联特征;其中,所述异常有向关联关系是指具有充分不必要条件关系的两个异常信息元。
上述方案中,挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元的步骤,包括:
计算具有正常信息元的正常基础信息的数量,并将该数量作为所述正常信息元的样本数量;
任意提取两个正常信息元作为内正常组合,并将除所述内正常信息元外其他正常信息元作为外正常组合;
计算具有所述内正常组合的正常基础信息的数量作为内关联总量,将所述内关联总量依次与所述内正常组合中正常信息元的样本数量相除获得内信息熵;
分别从内正常组合和外正常组合中提取一个正常信息元并组合形成内外正常组合,计算具有内外正常组合的正常基础信息的数量作为外关联总量,将所述外关联总量依次与所述内外正常组合中正常信息元的样本数量相除获得外信息熵;
判断所述内信息熵是否超过预设的内信息阈值;若未超过所述内信息阈值,则判定所述内正常组合的正常信息元不具有正常无向关联关系;若超过所述内信息阈值,则判断所述外信息熵是否小于预设的外信息阈值;若不小于所述外信息阈值,则判定所述内正常组合的正常信息元不具有正常无向关联关系;若小于所述外信息阈值,则判定所述内正常判组合的正常信息元具有正常无向关联关系。
上述方案中,将所述两个正常信息元认定为正常无向关联特征之后,包括:
挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元,并将所述两个异常信息元认定为异常无向关联特征;其中,所述异常无向关联关系是指具有充分必要条件关系的两个异常信息元。
上述方案中,构建用于表达各正常信息元之间关联关系的知识图谱之后,包括:
根据所述异常有向关联特征和异常无向关联特征,在所述知识图谱中构建异常关系模型,以在所述知识图谱中反映异常的关联特征。
为实现上述目的,本发明还提供一种基于大数据的知识图谱构建装置,包括:
正常关键字提取模块,用于从数据库中获取正常基础信息,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元;其中,所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为,所述正常信息元反映了所述虚拟主体的任一属性或行为;
正常有向关联模块,用于挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常有向关联特征;其中,所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元;
正常无向关联模块,用于挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常无向关联特征;其中,所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元;
图谱构造模块,用于根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱。
为实现上述目的,本发明还提供一种计算机系统,其包括多个计算机设备,各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述多个计算机设备的处理器执行所述计算机程序时共同实现上述知识图谱构建方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述知识图谱构建方法的步骤。
本发明提供的知识图谱构建方法、装置、计算机系统及可读存储介质,通过挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,以及具有正常无向关联关系的两个正常信息元,为机构提供用于构建有方向关系规则以及无方向关系规则的知识支撑,通过正常有向关联特征和正常无向关联特征,构建了反映各正常信息元之间充分不必要条件关系以及充分必要条件关系的知识图谱,实现了对数据关系的深层挖掘,为机构提供了构建有方向关系规则以及无方向关系规则的知识支撑,使机构能够通过该知识图谱对不同区域角度的风险进行识别,避免了现有风控模型因其局限性较强,导致无法准确识别不同角度区域的风险的问题。
附图说明
图1为本发明知识图谱构建方法实施例一的流程图;
图2为本发明知识图谱构建方法实施例二中知识图谱构建方法的环境应用示意图;
图3为本发明知识图谱构建方法实施例二的具体方法流程图;
图4为本发明知识图谱构建方法实施例二中挖掘具有正常有向关联关系的两个正常信息元的流程图;
图5为本发明知识图谱构建方法实施例二中挖掘具有异常有向关联关系的两个异常信息元的流程图;
图6为本发明知识图谱构建方法实施例二中挖掘具有正常无向关联关系的两个正常信息元的流程图;
图7为本发明知识图谱构建方法实施例二中挖掘具有异常无向关联关系的两个异常信息元的流程图;
图8为本发明知识图谱构建装置实施例三的程序模块示意图;
图9为本发明计算机系统实施例四中计算机设备的硬件结构示意图。
附图标记:
1、知识图谱构建装置 2、服务器 3、网络 4、数据库
5、计算机设备 11、正常关键字提取模块 12、异常关键字提取模块
13、正常有向关联模块 14、异常有向关联模块 15、正常无向关联模块
16、异常无向关联模块 17、图谱构造模块 18、异常关系模块
51、存储器 52、处理器
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的知识图谱构建方法、装置、计算机系统及可读存储介质,适用于大数据的数据分析领域,为提供一种基于正常关键字提取模块、正常有向关联模块、正常无向关联模块、图谱构造模块的知识图谱构建方法。本发明通过从数据库中获取正常基础信息,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元;挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常有向关联特征;其中,所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元;挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常无向关联特征;其中,所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元;根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱。
实施例一
请参阅图1,本实施例的一种基于大数据的知识图谱构建方法,包括:
S101:从数据库中获取正常基础信息,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元;其中,所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为,所述正常信息元反映了所述虚拟主体的任一属性或行为;
S103:挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常有向关联特征;其中,所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元;
S105:挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常无向关联特征;其中,所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元;
S107:根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱。
本申请通过挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,以及具有正常无向关联关系的两个正常信息元,为机构提供用于构建有方向关系规则以及无方向关系规则的知识支撑,通过正常有向关联特征和正常无向关联特征,构建了反映各正常信息元之间充分不必要条件关系以及充分必要条件关系的知识图谱,为用户提供构建规则的数据支撑,使得用户可通过该图谱进行规则制定。
由于本申请基于大量的正常基础信息(如:历史上经过权威机构认证通过的医保报销单),构建了能够反映各正常信息元之间充分不必要条件关系,以及充分必要条件关系的知识图谱,实现了对数据关系的深层挖掘,为机构提供了构建有方向关系规则以及无方向关系规则的知识支撑,使机构能够通过该知识图谱构建多区域多角度的风险识别规则,避免了现有风控模型因其局限性较强,导致无法准确识别超出经验范围的风险的问题。
因此,综上所述,本申请实现了基于关联分析技术,对正常基础信息中具有关联关系(有方向关系和无方向关系)的正常信息元进行挖掘,获得能够表达关联关系的知识关系数据,使机构能够通过该知识关系数据(即所述知识图谱)构建能够多区域多角度的识别医保或金融领域中风险的风控模型,消除了当前医保或金融风控模型的局限性问题。
需要说明的是,关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,于本申请中,即通过挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元并将其认定为正常有向关联特征以及,以及具有正常无向关联关系的两个正常信息元并将其认定为正常无向关联特征,再根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱,实现所述关联分析。
实施例二:
本实施例为上述实施例一的一种具体应用场景,通过本实施例,能够更加清楚、具体地阐述本发明所提供的方法。
下面,以运行有知识图谱构建方法的服务器,构建数据库中反映各正常信息元及各异常基础信息之间,充分不必要条件关系和充分必要条件关系的知识图谱为例,来对本实施例提供的方法进行具体说明。需要说明的是,本实施例只是示例性的,并不限制本发明实施例所保护的范围。
图2示意性示出了根据本申请实施例二的知识图谱构建方法的环境应用示意图。
在示例性的实施例中,知识图谱构建方法所在的服务器2与通过网络3与数据库4连接,所述网络3可以为各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或等等实现通信,其可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,它们的组合和/或类似物,或可以包括无线链路,例如蜂窝链路,卫星链路,Wi-Fi链路和/或类似物。
图3是本发明一个实施例提供的一种知识图谱构建方法的具体方法流程图,该方法具体包括步骤S201至S208。
S201:从数据库中获取正常基础信息,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元,其中,所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为,所述正常信息元反映了所述虚拟主体的任一属性或行为。
本步骤中,所述正常基础信息为经过人工或认证设备认证,符合认证规则的虚拟主体的属性和/或行为的数据;所述认证规则可因使用场景的不同而由使用者自行设置,由于认证规则是判定数据库中基础信息为正常或异常的计算机规则,而本步骤的目的在于提取正常基础信息的正常信息元,因此,认证规则的技术原理在此不做赘述。
示例性地,所述正常基础信息为已被金融机构认证规则认证成功的医保报销凭证,如包括阑尾炎手术和麻醉药两个正常信息元的医保报销单。
需要说明的是,可采用基于自然语言处理的神经网络模型,或正则表达式等技术提取所述正常基础信息中的关键字,以获得正常信息元;所述神经网络模型或正则表达式属于现有技术,本领域技术人员可通过公知常识即可获得该模型或表达式的工作原理,因此,本申请对此技术不做赘述。
S202:从数据库中获取异常基础信息,提取异常基础信息的关键字并对所述关键字去重,获得异常信息元,其中,所述异常基础信息反映了不符合预设认证规则的虚拟主体的属性和/或行为,所述异常信息元反映了所述虚拟主体的任一属性或行为。
本步骤中,所述异常基础信息为经过人工或认证设备认证,不符合认证规则的虚拟主体的属性和/或行为的数据;所述认证规则可因使用场景的不同而由使用者自行设置,由于认证规则是判定数据库中基础信息为正常或异常的计算机规则,而本步骤的目的在于提取异常基础信息的异常信息元,因此,认证规则的技术原理在此不做赘述。
示例性地,所述异常基础信息为已被金融机构认证规则认证失败(如:具有诈骗嫌疑,或不属于医保报销范围的情况)的医保结算凭证,如包括护理费和滋补保健品两个异常信息元的医保报销单。
S203:挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常有向关联特征;其中,所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元。
为获得所有正常基础信息中,有方向关系的正常信息元,即:具有充分不必要条件关系的正常信息元,为机构提供用于构建有方向关系规则的知识支撑。
在一个优选的实施例中,请参阅图4,挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元的步骤,包括:
S213:计算具有正常信息元的正常基础信息的数量,并将该数量作为所述正常信息元的样本数量;
S223:任意提取两个正常信息元,计算同时出现所述两个正常信息元的正常基础信息的数量作为关联总量;
S233:将所述关联总量分别与所述两个正常信息元的样本数量相除,分别获得第一关联值和第二关联值;
若所述第一关联值和第二关联值分别大于预设的有向关联阈值时,则判定所述两个正常信息元之间具有关联关系;若所述第一关联值和/或第二关联值小于或等于所述有向关联阈值,则判定所述两个正常信息元之间不具有关联关系;
S243:比较所述第一关联值和第二关联值;若所述第一关联值大于第二关联值,则判定第一关联值对应的正常信息元是第二关联值对应的正常信息元的充分不必要条件;若所述第二关联值大于第一关联值,则判定第二关联值对应的正常信息元是第一关联值对应的正常信息元的充分不必要条件。
示例性地,假设所述两个正常信息元分别为“阑尾炎手术”和“麻醉药”,统计具有“阑尾炎手术”的正常基础信息数量P(阑尾炎手术)、具有“麻醉药”的正常基础信息数量P(麻醉药)、以及获取到的正常基础信息中,同时具有“阑尾炎手术”和“麻醉药”的正常基础信息数量P(阑尾炎手术,麻醉药),并将其设为关联总量;获得第一关联值P(阑尾炎手术,麻醉药)/P(阑尾炎手术),以及第二关联值P(阑尾炎手术,麻醉药)/P(麻醉药);如果P(阑尾炎手术,麻醉药)/P(阑尾炎手术)和P(阑尾炎手术,麻醉药)/P(麻醉药)均大于预设的关联阈值,则说明“阑尾炎手术”与“麻醉药”之间具有关联关系,如果P(阑尾炎手术,麻醉药)/P(阑尾炎手术)大于P(阑尾炎手术,麻醉药)/P(麻醉药),则说明“阑尾炎手术”是“麻醉药”的充分不必要条件,即正常基础信息中若出现阑尾炎手术,则一定会出现麻醉药。
S204:挖掘各所述异常信息元中具有异常有向关联关系的两个异常信息元,并将所述两个异常信息元认定为异常有向关联特征;其中,所述异常有向关联关系是指具有充分不必要条件关系的两个异常信息元。
为获得所有异常基础信息中,有方向关系的异常信息元,即:具有充分不必要条件关系的异常信息元,为机构的知识图谱提供用于构建反映异常的有方向关系规则的知识支撑。本步骤中。
在一个优选的实施例中,请参阅图5,挖掘各所述异常信息元中具有异常有向关联关系的两个异常信息元的步骤,包括:
S214:计算具有异常信息元的异常基础信息的数量,并将该数量作为所述异常信息元的样本数量;
S224:任意提取两个异常信息元,计算同时出现所述两个异常信息元的异常基础信息的数量作为关联总量;
S234:将所述关联总量分别与所述两个异常信息元的样本数量相除,分别获得第三关联值和第四关联值;若所述第三关联值和第四关联值分别大于预设的有向关联阈值时,则判定所述两个异常信息元之间具有关联关系;若所述第三关联值和/或第四关联值小于或等于所述有向关联阈值,则判定所述两个异常信息元之间不具有关联关系;
S244:比较所述第三关联值和第四关联值;若所述第三关联值大于第四关联值,则判定第三关联值对应的异常信息元是第四关联值对应的异常信息元的充分不必要条件;若所述第四关联值大于第三关联值,则判定第四关联值对应的异常信息元是第三关联值对应的异常信息元的充分不必要条件。
示例性地,假设所述两个正常信息元分别为“护理费”和“滋补保健品”,统计具有“护理费”的正常基础信息数量P(护理费)、具有“滋补保健品”的正常基础信息数量P(滋补保健品)、以及获取到的正常基础信息中,同时具有“护理费”和“滋补保健品”的正常基础信息数量P(护理费,滋补保健品),并将其设为关联总量;获得第三关联值P(护理费,滋补保健品)/P(护理费),以及第四关联值P(护理费,滋补保健品)/P(滋补保健品);如果P(护理费,滋补保健品)/P(护理费)和P(护理费,滋补保健品)/P(滋补保健品)均大于预设的关联阈值,则说明“护理费”与“滋补保健品”之间具有关联关系,如果P(护理费,滋补保健品)/P(护理费)大于P(护理费,滋补保健品)/P(滋补保健品),则说明“护理费”是“滋补保健品”的充分不必要条件,即正常基础信息中若出现护理费,则一定会出现滋补保健品。
S205:挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常无向关联特征;其中,所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元。
为获得所有正常基础信息中具有无方向关系的正常信息元,即:具有充分必要条件关系的正常信息元,为机构提供用于构建无方向关系规则的知识支撑。本步骤中,采用NLP(自然语言处理)领域的Nagao算法挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元。
在一个优选的实施例中,请参阅图6,挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元的步骤,包括:
S215:计算具有正常信息元的正常基础信息的数量,并将该数量作为所述正常信息元的样本数量;
S225:任意提取两个正常信息元作为内正常组合,并将除所述内正常信息元外其他正常信息元作为外正常组合;
S235:计算具有所述内正常组合的正常基础信息的数量作为内关联总量,将所述内关联总量依次与所述内正常组合中正常信息元的样本数量相除获得内信息熵;
S245:分别从内正常组合和外正常组合中提取一个正常信息元并组合形成内外正常组合,计算具有内外正常组合的正常基础信息的数量作为外关联总量,将所述外关联总量依次与所述内外正常组合中正常信息元的样本数量相除获得外信息熵;
S255:判断所述内信息熵是否超过预设的内信息阈值;若未超过所述内信息阈值,则判定所述内正常组合的正常信息元不具有正常无向关联关系;若超过所述内信息阈值,则判断所述外信息熵是否小于预设的外信息阈值;若不小于所述外信息阈值,则判定所述内正常组合的正常信息元不具有正常无向关联关系;若小于所述外信息阈值,则判定所述内正常判组合的正常信息元具有正常无向关联关系。
示例性地,假设所有的正常信息元分别为“感冒”、“感冒药”、“健胃药”、“维生素片”,所述内正常组合的正常信息元分别为“感冒”、“感冒药”,外正常组合的正常信息元分别为“健胃药”、“维生素片”;分别计算具有“感冒”、“感冒药”、“健胃药”、“维生素片”的正常基础信息的数量,并分别获得各正常信息元的样本数量并记为:P(感冒)、P(感冒药)、P(健胃药)、P(维生素片);
计算同时具有“感冒”和“感冒药”的正常基础信息的数量作为内关联总量,记为P(感冒,感冒药),并计算P(感冒,感冒药)/P(感冒)/P(感冒药)获得内信息熵N;计算分别从内正常组合和外正常组合中提取一个正常信息元并组合得到内外正常组合,即:“感冒”、“健胃药”,“感冒”、“维生素片”,“感冒药”、“健胃药”,“感冒药”,“维生素片”,计算具有内外正常组合的正常基础信息的数量得到外关联总量,记为P(感冒,健胃药)、P(感冒,维生素片)、P(感冒药,健胃药)、P(感冒,维生素片),并计算P(感冒,健胃药)/P(感冒)/P(健胃药)得到第一外信息熵W1,P(感冒,维生素片)/P(感冒)/P(维生素片)得到第二外信息熵W2,P(感冒药,健胃药)/P(感冒药)/P(健胃药)得到第三外信息熵W3,P(感冒,维生素片)/P(感冒药)/P(维生素片)得到第四外信息熵W4;如果内信息熵N均大于第一外信息熵W1、第二外信息熵W2、第三外信息熵W3和第四外信息熵W4,则判断内信息熵N是否超过预设的内信息阈值R,且,第一外信息熵W1、第二外信息熵W2、第三外信息熵W3和第四外信息熵W4是否分别小于预设的外信息阈值Q;若是,则判定正常信息元“感冒”与“感冒药”之间具有正常无向关联关系。
需要说明的是,Nagao算法是一种统计各个子字符串的频次,然后基于这些频次统计每个字符串的词频、左右邻个数、左右熵、交互信息(内部凝聚度),因此本申请可采用S215-S255的步骤运行所述Nagao算法挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元。
S206:挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元,并将所述两个异常信息元认定为异常无向关联特征;其中,所述异常无向关联关系是指具有充分必要条件关系的两个异常信息元。
为获得所有异常基础信息中具有无方向关系的异常信息元,即:不具有充分必要条件关系的异常信息元,为机构提供用于构建无方向关系规则的知识支撑。本步骤中,采用NLP的Nagao算法挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元。
在一个优选的实施例中,请参阅图7,挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元的步骤,包括:
S216:计算具有异常信息元的异常基础信息的数量,并将该数量作为所述异常信息元的样本数量;
S226:任意提取两个异常信息元作为内异常组合,并将除所述内异常信息元外其他异常信息元作为外异常组合;
S236:计算具有所述内异常组合的异常基础信息的数量作为内关联总量,将所述内关联总量依次与所述内异常组合中异常信息元的样本数量相除获得内信息熵;
S246:分别从内异常组合和外异常组合中提取一个异常信息元并组合形成内外异常组合,计算具有内外异常组合的异常基础信息的数量作为外关联总量,将所述外关联总量依次与所述内外异常组合中异常信息元的样本数量相除获得外信息熵;
S256:判断所述内信息熵是否超过预设的内信息阈值;若未超过所述内信息阈值,则判定所述内异常组合的异常信息元不具有异常无向关联关系;
若超过所述内信息阈值,则判断所述外信息熵是否小于预设的外信息阈值;若不小于所述外信息阈值,则判定所述内异常组合的异常信息元不具有异常无向关联关系;若小于所述外信息阈值,则判定所述内异常判组合的异常信息元具有异常无向关联关系。
示例性地,假设所有的异常信息元分别为“感冒”、“健胃药”、“维生素片”,所述内异常组合的异常信息元分别为“感冒”、“健胃药”,外异常组合的异常信息元分别为“健胃药”、“维生素片”;分别计算具有“感冒”、“健胃药”、“维生素片”的异常基础信息的数量,并分别获得各异常信息元的样本数量并记为:P(感冒)、P(健胃药)、P(维生素片);计算同时具有“感冒”和“健胃药”的异常基础信息的数量作为内关联总量,记为P(感冒,健胃药),并计算P(感冒,健胃药)/P(感冒)/P(健胃药)获得内信息熵YN;
计算分别从内异常组合和外异常组合中提取一个异常信息元并组合得到内外异常组合,即:
“感冒”,“维生素片”,计算具有内外异常组合的异常基础信息的数量得到外关联总量,记为P(感冒,维生素片),并计算P(感冒,维生素片)/P(感冒)/P(维生素片)得到外信息熵YW,如果内信息熵YN大于外信息熵YW,则判断内信息熵YN是否超过预设的内信息阈值YR,且,外信息熵YW小于预设的外信息阈值YQ;若是,则判定异常信息元“感冒”与“健胃药”之间具有异常无向关联关系。
需要说明的是,Nagao算法是一种统计各个子字符串的频次,然后基于这些频次统计每个字符串的词频、左右邻个数、左右熵、交互信息(内部凝聚度),因此本申请可采用S216-S256的步骤运行所述Nagao算法挖掘各所述异常信息元中具有正常无向关联关系的两个异常信息元。
S207:根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱。
为了能够为用户提供构建规则的数据支撑,本步骤通过正常有向关联特征和正常无向关联特征,构建了反映各正常信息元之间充分不必要条件关系以及充分必要条件关系的知识图谱,使得用户可通过该图谱进行规则制定。
本步骤中,采用Apriori算法根据所述正常有向关联特征和正常无向关联特征,构建用于表达各信息元之间关联关系的知识图谱;需要说明的是,Apriori算法是一种关联规则挖掘算法,其利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。
于本实施例中,通过Apriori算法根据所述正常有向关联特征和正常无向关联特征进行类矩阵运算和剪枝运算,获得能够表达各正常信息元之间关联关系的可视化的知识图谱。
进一步地,还可通过Apriori算法将所述正常无向关联特征的子集作为构建所述知识图谱的数据支撑,其中,所述子集是指所有元素均属于正常无向关联特征的集合。例如,“感冒”、“感冒药”、“注射器”为正常无向关联特征,那么“感冒”、“感冒药”,“感冒”、“注射器”,“感冒药”、“注射器”为所述正常无向关联特征的子集。
S208:根据所述异常有向关联特征和异常无向关联特征,在所述知识图谱中构建异常关系模型,以在所述知识图谱中反映异常的关联特征。
为了能够为用户提供构建规则的数据支撑,本步骤通过异常有向关联特征和异常无向关联特征,构建了反映各异常信息元之间充分不必要条件关系以及充分必要条件关系的异常关系模型,以作为知识图谱的异常数据关系补充,使得用户可通过该图谱进行规则制定。
本步骤中,采用Apriori算法根据所述异常有向关联特征和异常无向关联特征,构建用于表达各信息元之间关联关系的知识图谱;需要说明的是,Apriori算法是一种关联规则挖掘算法,其利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。
于本实施例中,通过Apriori算法根据所述异常有向关联特征和异常无向关联特征进行类矩阵运算和剪枝运算,获得能够表达各异常信息元之间关联关系的可视化的异常关系模型,以作为知识图谱的规则补充,用于反应异常的关联特征。
进一步地,还可通过Apriori算法将所述异常无向关联特征的超集作为构建所述知识图谱的数据支撑,其中,所述子集是指至少含有所有属于异常无向关联特征元素的集合。例如,“感冒”、“健胃药”为异常无向关联特征,那么“感冒”、“健胃药”、“注射器”,“感冒”、“健胃药”,“保健药品”等均为所述异常无向关联特征的超集。
实施例三:
请参阅图8,本实施例的一种基于大数据的知识图谱构建装置,包括:
正常关键字提取模块11,用于从数据库中获取正常基础信息,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元;其中,所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为,所述正常信息元反映了所述虚拟主体的任一属性或行为;
正常有向关联模块13,用于挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常有向关联特征;其中,所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元;
正常无向关联模块15,用于挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常无向关联特征;其中,所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元;
图谱构造模块17,用于根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱。
可选的,所述知识图谱构建装置1还包括:
异常关键字提取模块12,用于从数据库中获取异常基础信息,提取异常基础信息的关键字并对所述关键字去重,获得异常信息元,其中,所述异常基础信息反映了不符合预设认证规则的虚拟主体的属性和/或行为,所述异常信息元反映了所述虚拟主体的任一属性或行为。
可选的,所述知识图谱构建装置1还包括:
异常有向关联模块14,用于挖掘各所述异常信息元中具有异常有向关联关系的两个异常信息元,并将所述两个异常信息元认定为异常有向关联特征;其中,所述异常有向关联关系是指具有充分不必要条件关系的两个异常信息元。
可选的,所述知识图谱构建装置1还包括:
异常无向关联模块16,用于挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元,并将所述两个异常信息元认定为异常无向关联特征;其中,所述异常无向关联关系是指具有充分必要条件关系的两个异常信息元。
可选的,所述知识图谱构建装置1还包括:
异常关系模块18,用于根据所述异常有向关联特征和异常无向关联特征,在所述知识图谱中构建异常关系模型,以在所述知识图谱中反映异常的关联特征。
本技术方案基于大数据的数据分析,通过从数据库中获取正常基础信息,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元;挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常有向关联特征;挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常无向关联特征;根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱,以实现对信息之间的知识关系挖掘。
实施例四:
为实现上述目的,本发明还提供一种计算机系统,该计算机系统包括多个计算机设备5,实施例二的知识图谱构建装置1的组成部分可分散于不同的计算机设备中,计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52,如图9所示。需要指出的是,图9仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例一的知识图谱构建装置的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行知识图谱构建装置,以实现实施例一的知识图谱构建方法。
实施例五:
为实现上述目的,本发明还提供一种计算机可读存储系统,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储知识图谱构建装置,被处理器52执行时实现实施例一的知识图谱构建方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于大数据的知识图谱构建方法,其特征在于,包括:
从数据库中获取正常基础信息,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元;其中,所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为,所述正常信息元反映了所述虚拟主体的任一属性或行为;
挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常有向关联特征;其中,所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元;
挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常无向关联特征;其中,所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元;
根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元之后,还包括:
从数据库中获取异常基础信息,提取异常基础信息的关键字并对所述关键字去重,获得异常信息元,其中,所述异常基础信息反映了不符合预设认证规则的虚拟主体的属性和/或行为,所述异常信息元反映了所述虚拟主体的任一属性或行为。
3.根据权利要求1所述的知识图谱构建方法,其特征在于,挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元的步骤,包括:
计算具有正常信息元的正常基础信息的数量,并将该数量作为所述正常信息元的样本数量;
任意提取两个正常信息元,计算同时出现所述两个正常信息元的正常基础信息的数量作为关联总量;
将所述关联总量分别与所述两个正常信息元的样本数量相除,分别获得第一关联值和第二关联值;
若所述第一关联值和第二关联值分别大于预设的有向关联阈值时,则判定所述两个正常信息元之间具有关联关系;
比较所述第一关联值和第二关联值;若所述第一关联值大于第二关联值,则判定第一关联值对应的正常信息元是第二关联值对应的正常信息元的充分不必要条件;若所述第二关联值大于第一关联值,则判定第二关联值对应的正常信息元是第一关联值对应的正常信息元的充分不必要条件。
4.根据权利要求1所述的知识图谱构建方法,其特征在于,将所述两个正常信息元认定为正常有向关联特征之后,包括:
挖掘各所述异常信息元中具有异常有向关联关系的两个异常信息元,并将所述两个异常信息元认定为异常有向关联特征;其中,所述异常有向关联关系是指具有充分不必要条件关系的两个异常信息元。
5.根据权利要求1所述的知识图谱构建方法,其特征在于,挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元的步骤,包括:
计算具有正常信息元的正常基础信息的数量,并将该数量作为所述正常信息元的样本数量;
任意提取两个正常信息元作为内正常组合,并将除所述内正常信息元外其他正常信息元作为外正常组合;
计算具有所述内正常组合的正常基础信息的数量作为内关联总量,将所述内关联总量依次与所述内正常组合中正常信息元的样本数量相除获得内信息熵;
分别从内正常组合和外正常组合中提取一个正常信息元并组合形成内外正常组合,计算具有内外正常组合的正常基础信息的数量作为外关联总量,将所述外关联总量依次与所述内外正常组合中正常信息元的样本数量相除获得外信息熵;
判断所述内信息熵是否超过预设的内信息阈值;若未超过所述内信息阈值,则判定所述内正常组合的正常信息元不具有正常无向关联关系;若超过所述内信息阈值,则判断所述外信息熵是否小于预设的外信息阈值;若不小于所述外信息阈值,则判定所述内正常组合的正常信息元不具有正常无向关联关系;若小于所述外信息阈值,则判定所述内正常判组合的正常信息元具有正常无向关联关系。
6.根据权利要求1所述的知识图谱构建方法,其特征在于,将所述两个正常信息元认定为正常无向关联特征之后,包括:
挖掘各所述异常信息元中具有异常无向关联关系的两个异常信息元,并将所述两个异常信息元认定为异常无向关联特征;其中,所述异常无向关联关系是指具有充分必要条件关系的两个异常信息元。
7.根据权利要求1所述的知识图谱构建方法,其特征在于,构建用于表达各正常信息元之间关联关系的知识图谱之后,包括:
根据所述异常有向关联特征和异常无向关联特征,在所述知识图谱中构建异常关系模型,以在所述知识图谱中反映异常的关联特征。
8.一种基于大数据的知识图谱构建装置,其特征在于,包括:
正常关键字提取模块,用于从数据库中获取正常基础信息,提取正常基础信息的关键字并对所述关键字去重,获得正常信息元;其中,所述正常基础信息反映了符合预设认证规则的虚拟主体的属性和/或行为,所述正常信息元反映了所述虚拟主体的任一属性或行为;
正常有向关联模块,用于挖掘各所述正常信息元中具有正常有向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常有向关联特征;其中,所述正常有向关联关系是指具有充分不必要条件关系的两个正常信息元;
正常无向关联模块,用于挖掘各所述正常信息元中具有正常无向关联关系的两个正常信息元,并将所述两个正常信息元认定为正常无向关联特征;其中,所述正常无向关联关系是指具有充分必要条件关系的两个正常信息元;
图谱构造模块,用于根据所述正常有向关联特征和正常无向关联特征,构建用于表达各正常信息元之间关联关系的知识图谱。
9.一种计算机系统,其包括多个计算机设备,各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至7任一项所述知识图谱构建方法的步骤。
10.一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,其特征在于,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述知识图谱构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010207440.XA CN111309827A (zh) | 2020-03-23 | 2020-03-23 | 知识图谱构建方法、装置、计算机系统及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010207440.XA CN111309827A (zh) | 2020-03-23 | 2020-03-23 | 知识图谱构建方法、装置、计算机系统及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111309827A true CN111309827A (zh) | 2020-06-19 |
Family
ID=71150131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010207440.XA Pending CN111309827A (zh) | 2020-03-23 | 2020-03-23 | 知识图谱构建方法、装置、计算机系统及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309827A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925821A (zh) * | 2021-02-07 | 2021-06-08 | 江西理工大学 | 基于MapReduce的并行频繁项集增量数据挖掘方法 |
CN113420069A (zh) * | 2021-06-24 | 2021-09-21 | 平安科技(深圳)有限公司 | 一种基于异常样本的关联规则挖掘方法、系统、终端及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1802023A (zh) * | 2004-09-13 | 2006-07-12 | M斯太科有限公司 | 用户设备协议栈中配置信令无线电承载信息 |
CN104679850A (zh) * | 2015-02-13 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN108229578A (zh) * | 2018-01-25 | 2018-06-29 | 海南大学 | 基于数据、信息和知识三层图谱架构的图像数据目标识别方法 |
CN108416525A (zh) * | 2018-03-13 | 2018-08-17 | 三峡大学 | 一种基于元数据的流程模型相似性度量方法 |
CN109635296A (zh) * | 2018-12-08 | 2019-04-16 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN109739964A (zh) * | 2018-12-27 | 2019-05-10 | 北京拓尔思信息技术股份有限公司 | 知识数据提供方法、装置、电子设备和存储介质 |
CN109816397A (zh) * | 2018-12-03 | 2019-05-28 | 北京奇艺世纪科技有限公司 | 一种欺诈判别方法、装置及存储介质 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
WO2020007224A1 (zh) * | 2018-07-06 | 2020-01-09 | 中兴通讯股份有限公司 | 知识图谱构建及智能应答方法、装置、设备及存储介质 |
-
2020
- 2020-03-23 CN CN202010207440.XA patent/CN111309827A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1802023A (zh) * | 2004-09-13 | 2006-07-12 | M斯太科有限公司 | 用户设备协议栈中配置信令无线电承载信息 |
CN104679850A (zh) * | 2015-02-13 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN108229578A (zh) * | 2018-01-25 | 2018-06-29 | 海南大学 | 基于数据、信息和知识三层图谱架构的图像数据目标识别方法 |
CN108416525A (zh) * | 2018-03-13 | 2018-08-17 | 三峡大学 | 一种基于元数据的流程模型相似性度量方法 |
WO2020007224A1 (zh) * | 2018-07-06 | 2020-01-09 | 中兴通讯股份有限公司 | 知识图谱构建及智能应答方法、装置、设备及存储介质 |
CN109816397A (zh) * | 2018-12-03 | 2019-05-28 | 北京奇艺世纪科技有限公司 | 一种欺诈判别方法、装置及存储介质 |
CN109635296A (zh) * | 2018-12-08 | 2019-04-16 | 广州荔支网络技术有限公司 | 新词挖掘方法、装置计算机设备和存储介质 |
CN109739964A (zh) * | 2018-12-27 | 2019-05-10 | 北京拓尔思信息技术股份有限公司 | 知识数据提供方法、装置、电子设备和存储介质 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925821A (zh) * | 2021-02-07 | 2021-06-08 | 江西理工大学 | 基于MapReduce的并行频繁项集增量数据挖掘方法 |
CN112925821B (zh) * | 2021-02-07 | 2022-05-13 | 韶关学院 | 基于MapReduce的并行频繁项集增量数据挖掘方法 |
CN113420069A (zh) * | 2021-06-24 | 2021-09-21 | 平安科技(深圳)有限公司 | 一种基于异常样本的关联规则挖掘方法、系统、终端及存储介质 |
CN113420069B (zh) * | 2021-06-24 | 2023-08-11 | 平安科技(深圳)有限公司 | 一种基于异常样本的关联规则挖掘方法、系统、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876636B (zh) | 理赔智能风控方法、系统、计算机设备及存储介质 | |
US20200057864A1 (en) | System and method for data classification centric sensitive data discovery | |
CN102171702B (zh) | 机密信息的检测 | |
CN111814447B (zh) | 基于分词文本的电子病例查重方法、装置、计算机设备 | |
CN111612041B (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
DE112022000538T5 (de) | Netzwerkbasierte Medizinische Gerätesteuerung und Datenverwaltungssysteme | |
CN112365987A (zh) | 诊断数据异常检测方法、装置、计算机设备及存储介质 | |
WO2021051938A1 (zh) | 基于图分析的数据异常解析方法、系统和计算机设备 | |
CN112183091A (zh) | 问答对生成方法、装置、电子设备及可读存储介质 | |
CN113364753B (zh) | 反爬虫方法、装置、电子设备及计算机可读存储介质 | |
CN109698016A (zh) | 疾病自动编码方法及装置 | |
CN111309827A (zh) | 知识图谱构建方法、装置、计算机系统及可读存储介质 | |
CN110060750A (zh) | 医疗数据推送方法、系统、计算机设备及可读存储介质 | |
WO2021174881A1 (zh) | 多维度信息的组合预测方法、装置、计算机设备及介质 | |
CN110782996A (zh) | 医疗数据库的构建方法、装置、计算机设备和存储介质 | |
Aristodimou et al. | Privacy preserving data publishing of categorical data through k‐anonymity and feature selection | |
CN111625567A (zh) | 数据模型匹配方法、装置、计算机系统及可读存储介质 | |
CN110245281B (zh) | 互联网资产信息收集方法及终端设备 | |
Wan et al. | Using game theory to thwart multistage privacy intrusions when sharing data | |
CN117272204A (zh) | 异常数据检测方法、装置、存储介质和电子设备 | |
Khan et al. | Development of national health data warehouse Bangladesh: Privacy issues and a practical solution | |
CN112395401B (zh) | 自适应负样本对采样方法、装置、电子设备及存储介质 | |
CN111383732A (zh) | 一种基于互斥识别的药品审核方法、装置、计算机系统及可读存储介质 | |
CN109903169B (zh) | 基于图计算技术的理赔反欺诈方法、装置、设备及存储介质 | |
CN112991079A (zh) | 多卡共现就医欺诈行为检测方法、系统、云端及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200619 |
|
RJ01 | Rejection of invention patent application after publication |