CN118093881A - 一种基于知识图谱的审计对象画像建模方法和系统 - Google Patents
一种基于知识图谱的审计对象画像建模方法和系统 Download PDFInfo
- Publication number
- CN118093881A CN118093881A CN202410458044.2A CN202410458044A CN118093881A CN 118093881 A CN118093881 A CN 118093881A CN 202410458044 A CN202410458044 A CN 202410458044A CN 118093881 A CN118093881 A CN 118093881A
- Authority
- CN
- China
- Prior art keywords
- audit
- entity
- named entities
- attribute values
- named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012550 audit Methods 0.000 title claims abstract description 236
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000008447 perception Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 18
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Technology Law (AREA)
- Finance (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
Abstract
本发明公开了一种基于知识图谱的审计对象画像建模方法和系统,涉及知识图谱技术,所述方法包括:将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别;获取审计语料,对所述审计语料进行命名实体识别,获得若干命名实体;构建属性感知解码器,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得若干属性值;基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得若干实体关系;基于所有所述命名实体、所有所述属性值和所有所述实体关系获得审计对象画像模型,可以解决传统审计疑点发现方法无法实现潜在问题对象的关联检索和审计对象的关联分析的问题。
Description
技术领域
本发明涉及审计技术领域,具体地,涉及一种基于知识图谱的审计对象画像建模方法和系统。
背景技术
在审计领域,需要根据各类型审计业务需求,从海量的数据里构建审计对象的特征标识,从而完成审计单位风险值评估。传统的审计疑点发现方法,往往是基于某些单个或多个问题特征,对单个对象进行挖掘分析,仅能查询该对象的疑点,无法根据该对象的信息进行扩展挖掘,找出相似的潜在问题对象,缺少拓展性,且需重复分析每个对象,审计覆盖率低,审计效率低。
发明内容
为了解决传统审计疑点发现方法无法实现潜在问题对象的关联检索和审计对象的关联分析的问题,本发明提供了一种基于知识图谱的审计对象画像建模方法,所述方法包括:将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,所述审计对象类别包括审计单位、审计负责人、审计资金和审计项目,所述命名实体类别包括单位、负责人、资金和项目;获取审计语料,对所述审计语料进行命名实体识别,获得若干命名实体,所述审计语料包括审计文件的结构化数据、半结构化数据和非结构化数据;构建属性感知解码器,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得若干属性值;基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得若干实体关系;基于所有所述命名实体、所有所述属性值和所有所述实体关系获得审计对象画像模型。
本方法原理:将审计对象先进行预分类和本体构建,将同类的审计对象规划分为一类,同类的审计对象有相同特征,对单个审计对象进行挖掘分析时,可以延伸分析至同一分类的审计对象,可以实现关联检索满足某一类特征的所有审计对象,更有针对性的发现同类审计对象的类似风险问题,获取审计语料,对其进行命名实体识别、属性值的抽取和实体关系的提取,基于知识图谱技术进行画像建模,将审计对象关联起来,可以用于类似对象疑点推理,从而很好的覆盖到存在相似风险问题的审计对象,实现潜在问题对象的关联检索,提高审计效率。
进一步地,对所述审计语料进行命名实体识别,获得若干命名实体的具体步骤包括:基于命名实体识别模型和预设标签对所述审计语料中的每个句子进行标注获得每个句子中每个词的词标签和每个句子的标签序列,对所述标签序列进行线性变换获得最大概率序列,基于所述最大概率序列对应的所有所述词标签,对所述最大概率序列进行划分获得所有所述命名实体。
进一步地,所述方法还包括:对所有所述命名实体的属性进行预分类获得属性标签分类,所述属性标签分类包括单位属性、负责人属性、资金属性和项目属性。
进一步地,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得属性值的具体步骤包括:将所述审计语料中的每个句子进行拆分获得上文信息和下文信息,基于所述上文信息、所述下文信息和所有所述命名实体对属性名进行预测,获得若干预测属性名,基于所述属性标签分类对所有所述预测属性名进行分类,获得所有所述属性值。
进一步地,基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得实体关系的具体步骤包括:对所述审计语料进行预处理获得训练集,基于所述训练集获得实体关系提取模型;基于所述审计语料构造语料特征,所述语料特征包括关键词特征、命名实体类别特征和实体对信息特征,基于所述实体关系提取模型对所述语料特征进行拼接融合,获得语料特征向量,基于所述语料特征向量获得语义信息,所述语义信息包括标签语义信息、句子语义信息和实体语义信息,对所述语义信息进行关系分类,获得所有所述实体关系。
考虑审计语料的数据庞大,提取出来的命名实体多,实体关系复杂,导致重心数据无法在第一时间检索出,且部分数据对于用户可能无用,则可能会因为数据量过大,对检索结果产生负面影响,从而出现偏差,为了解决上述问题,本方法通过每个命名实体的关系数量和关键词对数据进行提取和简化,使命名实体的数据更为用户需求以及实体关系更简单明了,可以通过实体关系更快的发现潜在问题对象。
进一步地,所述方法还包括:基于所有所述实体关系获得每个所述命名实体的关系数量,判断所述关系数量是否小于或等于预设数量,若是则判断所述关系数量是否等于1,若等于1则获取与所述预设数量对应的若干第一命名实体,获取若干第一关键词,基于所有所述第一命名实体和所有所述第一关键词获得第一审计对象画像模型;若所述关系数量不等于1则获取与所述关系数量对应的若干第二命名实体,基于所有所述第二命名实体获得第二审计对象画像模型;若所述关系数量大于所述预设数量,则获取与所述关系数量对应的若干第三命名实体,获取若干第二关键词,基于所有所述第三命名实体和所有所述第二关键词获得第三审计对象画像模型;基于所述第一审计对象画像模型、所述第二审计对象画像模型和第三审计对象画像模型获得第四审计对象画像模型,将所述审计对象画像模型更新为所述第四审计对象画像模型。
进一步地,基于所有所述第一命名实体和所有所述第一关键词获得第一审计对象画像模型的具体步骤包括:获取所有所述第一命名实体的属性值获得若干第一属性值,将所有所述第一属性值与所有所述第一关键词进行语义相关性检测获得若干第一相关值,判断所有所述第一相关值是否小于第一预设相关值,若是则将与所述第一相关值对应的所述第一命名实体和所述第一命名实体的实体关系删除,获得所述第一审计对象画像模型。将处于尾节点的命名实体与关键词进行匹配值计算,匹配值低则表示用户不需要,则将其删除。
进一步地,基于所有所述第二命名实体获得第二审计对象画像模型的具体步骤包括:获取所有所述第二命名实体的属性值获得若干第二属性值;基于所有所述实体关系获取与所有所述第二命名实体存在实体关系的若干第四命名实体,获取所有所述第四命名实体的属性值获得若干第三属性值,基于所有所述第二属性值与所有所述第三属性值获得任意两个所述第四命名实体之间的若干第四属性值,基于所有所述第四属性值获得所有所述第四命名实体之间的第一实体关系;基于所有所述第一实体关系和所有所述第四属性值获得第二审计对象画像模型。判断命名实体之间是否能将中间的命名实体进行删除,从而简化审计对象画像模型,并将其对应的实体关系和属性值重新计算和提取。
进一步地,基于所有所述第三命名实体和所有所述第二关键词获得第三审计对象画像模型的具体步骤包括:获取与每个所述第三命名实体存在实体关系的若干第五命名实体,获取所有所述第五命名实体的第五属性值,将所有所述第五属性值与所有所述第二关键词进行语义相关性检测获得若干第二相关值,判断每个所述第二相关值是否小于第二预设相关值,若是则获取与所述第二相关值对应的所述第五属性值和所述第五命名实体,获得若干第六属性值和若干第六命名实体;将所有所述第六属性值进行关键词提取获得若干关键属性值,基于所有所述关键属性值和所有所述第六命名实体,获得与每个所述关键属性值对应的若干第七命名实体,基于所有所述第七命名实体和所有所述关键属性值获得所述第三审计对象画像模型。将实体关系复杂的命名实体通过与关键词进行匹配值计算,若低则表示用户不需要,将其进行删除,从而实现审计对象画像模型的简化。
进一步地,基于所有所述第七命名实体和所有所述关键属性值获得所述第三审计对象画像模型的具体步骤包括:将所有所述第六命名实体和所有所述第六属性值分别更新为所有所述第七命名实体和所有所述关键属性值,所有所述第七命名实体与所述第三命名实体存在实体关系。
进一步地,获得最大概率序列采用了以下计算方式:
其中,P(y|x)表示标签序列的条件概率分布,tk(yi-1,yi,x,i)和sl(yi,x,i)分别表示转移特征函数和状态特征函数,λk和ul分别是转移特征函数和状态特征函数的权值,Z(x)表示规范化因子,x表示观测序列,即待标注的序列,y表示序列x中各个词对应的标签序列,i表示当前节点在序列的位置,k表示定义在i节点的转移特征函数的总个数,l表示定义在i节点的状态特征函数的总个数。
本发明还提供了一种基于知识图谱的审计对象画像建模系统,所述系统包括:
预分类模块:用于将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,所述审计对象类别包括审计单位、审计负责人、审计资金和审计项目,所述命名实体类别包括单位、负责人、资金和项目;
实体模块:用于获取审计语料,对所述审计语料进行命名实体识别,获得若干命名实体,所述审计语料包括审计文件的结构化数据、半结构化数据和非结构化数据;
属性值模块:用于构建属性感知解码器,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得若干属性值;
实体关系模块:用于基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得若干实体关系;
画像模块:用于基于所有所述命名实体、所有所述属性值和所有所述实体关系获得审计对象画像模型。
本系统的原理和效果与本方法相似,对于本系统不进行相应的赘述。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
1.将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,可以实现关联检索满足某一类特征的所有审计对象,更有针对性的发现同类审计对象的类似风险问题。
2.获取审计语料,对审计语料进行命名实体识别,基于属性感知解码器对审计语料进行属性值的抽取和对审计语料进行实体关系的提取,基于知识图谱技术进行画像建模,将审计对象关联起来,可以用于类似对象疑点推理,从而很好的覆盖到存在相似风险问题的审计对象,实现潜在问题对象的关联检索,提高审计效率。
3.基于所有实体关系获得每个命名实体的关系数量,并将其与预设数量进行比较判断,获得第四审计对象画像模型,通过每个命名实体的关系数量和关键词对数据进行提取和简化,使命名实体的数据更为用户需求以及实体关系更简单明了,可以通过实体关系更快的发现潜在问题对象。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1是本发明中一种基于知识图谱的审计对象画像建模方法的流程示意图;
图2是本发明中一种基于知识图谱的审计对象画像建模方法中获得命名实体、属性值和实体关系的流程示意图;
图3是本发明中一种基于知识图谱的审计对象画像建模方法中获得第四审计对象画像模型的流程示意图;
图4是本发明中一种基于知识图谱的审计对象画像建模系统的流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
参考图1和图2,本实施例提供了一种基于知识图谱的审计对象画像建模方法,所述方法包括:
将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,所述审计对象类别包括审计单位、审计负责人、审计资金和审计项目,所述命名实体类别包括单位、负责人、资金和项目;
获取各类审计文档和表格数据作为审计语料,对所述审计语料进行命名实体识别,获得若干命名实体,所述审计语料包括审计文件的结构化数据、半结构化数据和非结构化数据;
其中,对所述审计语料进行命名实体识别,获得若干命名实体的具体步骤包括:基于命名实体识别模型和预设标签,利用开源分词工具对所述审计语料中的每个句子进行分词,并基于预设标签,如BMEO标注规则的相关标签对每个词进行标签标注,从而获得每个句子中每个词的词标签和每个句子的标签序列,对所述标签序列进行线性变换获得最大概率序列,基于所述最大概率序列对应的所有所述词标签和命名实体抽取规则,对所述最大概率序列进行划分和抽取,获得所有所述命名实体;本实施例中,命名实体识别模型可以为Transformer-CRF模型、BiLSTM-CRF模型或LSTM-CNN-CRF等算法模型;
其中,所述方法还包括:对所有所述命名实体的属性进行预分类获得属性标签分类,所述属性标签分类包括单位属性、负责人属性、资金属性和项目属性;如单位属性可以为编制人数、历年决算情况和预算建设项目情况,对于国有企业还可以为注册资本、历任领导、巡视巡察记录、历年审计情况和各类审计问题数量,负责人属性可以为人员姓名、性别、民族、籍贯、出生年月、参加工作时间、学历学位、毕业院校、现任职单位、职务、任现职时间、个人任职履历和以往接受经责审计情况等;资金属性可以为专项资金名称、专项资金类型、相关政策文件、历年预决算编制及完成率以及历年审计情况等;项目属性可以为项目生命周期、项目主题、项目人员、项目内容和项目实施情况等;
基于MoE transformer(Mixture of Experts,混合专家)模型构建属性感知解码器,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得若干属性值;
其中,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得属性值的具体步骤包括:将所述审计语料中的每个句子进行拆分获得上文信息和下文信息,基于所述上文信息、所述下文信息和所有所述命名实体对属性名进行预测,获得若干预测属性名,基于所述属性标签分类对所有所述预测属性名进行分类,获得所有所述属性值;如借鉴阅读理解任务的思路,将审计语料分为上下文,将待抽取的属性名视为阅读理解任务中的问题,使用长短时记忆网络捕获各属性名的特征并通过注意力机制纳入属性值标签的预测中;
基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得若干实体关系,其具体步骤包括:对所述审计语料进行预处理获得训练集,基于所述训练集获得实体关系提取模型;基于所述审计语料构造语料特征,所述语料特征包括关键词特征、命名实体类别特征和实体对信息特征,基于所述实体关系提取模型对所述语料特征以特征拼接方式或加权求和方式进行拼接融合,获得语料特征向量,采用CNN(Convolutional Neural Networks,卷积神经网络)技术对所述语料特征向量进行提取获得语义信息,所述语义信息包括标签语义信息、句子语义信息和实体语义信息,通过Softmax分类器对所述语义信息进行关系分类,获得所有所述实体关系;本实施例中,预处理包括整理标注,将审计语料处理成训练模型所需要的语料格式,实体关系提取模型可以为BERT (Bidirectional Encoder Representationsfrom Transformers)模型;
基于所有所述命名实体、所有所述属性值和所有所述实体关系获得审计对象画像模型。
实施例2
参考图3,在实施例一的基础上,本实施例中,所述方法还包括:
基于所有所述实体关系获得每个所述命名实体的关系数量,判断所述关系数量是否小于或等于预设数量,若是则判断所述关系数量是否等于1,若等于1则获取与所述预设数量对应的若干第一命名实体,获取若干第一关键词,基于所有所述第一命名实体和所有所述第一关键词获得第一审计对象画像模型;若所述关系数量不等于1则获取与所述关系数量对应的若干第二命名实体,基于所有所述第二命名实体获得第二审计对象画像模型;
其中,基于所有所述第一命名实体和所有所述第一关键词获得第一审计对象画像模型的具体步骤包括:获取所有所述第一命名实体的属性值获得若干第一属性值,将所有所述第一属性值与所有所述第一关键词进行语义相关性检测获得若干第一相关值,判断所有所述第一相关值是否小于第一预设相关值,若是则将与所述第一相关值对应的所述第一命名实体和所述第一命名实体的实体关系删除,获得所述第一审计对象画像模型;如设预设数量为2,审计对象画像模型中有命名实体:A-B-C-D的实体关系,其中D为尾节点,仅与C存在一个关系数量,则获取D的第一属性值,并将其与关键词进行语义相关性检测,若相关值低于预设相关值,则将D及D与C的实体关系一起删除,简化审计对象画像模型;
其中,基于所有所述第二命名实体获得第二审计对象画像模型的具体步骤包括:获取所有所述第二命名实体的属性值获得若干第二属性值;基于所有所述实体关系获取与所有所述第二命名实体存在实体关系的若干第四命名实体,获取所有所述第四命名实体的属性值获得若干第三属性值,基于所有所述第二属性值与所有所述第三属性值获得任意两个所述第四命名实体之间的若干第四属性值,基于所有所述第四属性值获得所有所述第四命名实体之间的第一实体关系;基于所有所述第一实体关系和所有所述第四属性值获得第二审计对象画像模型;如A-B-C,B的关系数量为2,等于预设数量,则获取B的第二属性值,获取A和C作为第四命名实体,再获取其属性值获得第三属性值,根据第二属性值和第三属性值推测A和C之间的第四属性值,通过第四属性值获得A和C之间的实体关系,从而将B删除,简化审计对象画像模型;
若所述关系数量大于所述预设数量,则获取与所述关系数量对应的若干第三命名实体,获取若干第二关键词,基于所有所述第三命名实体和所有所述第二关键词获得第三审计对象画像模型;
其中,基于所有所述第三命名实体和所有所述第二关键词获得第三审计对象画像模型的具体步骤包括:获取与每个所述第三命名实体存在实体关系的若干第五命名实体,获取所有所述第五命名实体的第五属性值,将所有所述第五属性值与所有所述第二关键词进行语义相关性检测获得若干第二相关值,判断每个所述第二相关值是否小于第二预设相关值,若是则获取与所述第二相关值对应的所述第五属性值和所述第五命名实体,获得若干第六属性值和若干第六命名实体;将所有所述第六属性值进行关键词提取获得若干关键属性值,基于所有所述关键属性值和所有所述第六命名实体,获得与每个所述关键属性值对应的若干第七命名实体,基于所有所述第七命名实体和所有所述关键属性值获得所述第三审计对象画像模型;
其中,基于所有所述第七命名实体和所有所述关键属性值获得所述第三审计对象画像模型的具体步骤包括:将所有所述第六命名实体和所有所述第六属性值分别更新为所有所述第七命名实体和所有所述关键属性值,所有所述第七命名实体与所述第三命名实体存在实体关系;
如有A-B,A-E,A-F,则A的实体数量为3>2,则获取B、E和F为作为第五命名实体,并获取其第五属性值,将第五属性值与第二关键词进行语义相关性检测,获得第二相关值,设B和E的相关值均低于第二预设相关值,则获取B和E及其属性值分别作为第六命名实体和第六属性值,再对第六属性值进行关键词提取,获得关键属性值,通过关键属性值、B和E预测出第七命名实体X,则将B和E替换为X,转换为A-X和A-F;
基于所述第一审计对象画像模型、所述第二审计对象画像模型和第三审计对象画像模型获得第四审计对象画像模型,将所述审计对象画像模型更新为所述第四审计对象画像模型。
实施例3
参考图3,在上述实施例的基础上,本实施例中,获得最大概率序列采用了以下计算方式:
其中,P(y|x)表示标签序列的条件概率分布,tk(yi-1,yi,x,i)和sl(yi,x,i)分别表示转移特征函数和状态特征函数,λk和ul分别是转移特征函数和状态特征函数的权值,Z(x)表示规范化因子,x表示观测序列,即待标注的序列,y表示序列x中各个词对应的标签序列,i表示当前节点在序列的位置,k表示定义在i节点的转移特征函数的总个数,l表示定义在i节点的状态特征函数的总个数。
该计算方式可以计算出最有可能符合原句的排列序列,从而更准确的提取命名实体。
实施例4
参考图4,在上述实施例的基础上,本实施例提供了一种基于知识图谱的审计对象画像建模系统,所述系统包括:
预分类模块:用于将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,所述审计对象类别包括审计单位、审计负责人、审计资金和审计项目,所述命名实体类别包括单位、负责人、资金和项目;
实体模块:用于获取审计语料,对所述审计语料进行命名实体识别,获得若干命名实体,所述审计语料包括审计文件的结构化数据、半结构化数据和非结构化数据;
属性值模块:用于构建属性感知解码器,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得若干属性值;
实体关系模块:用于基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得若干实体关系;
画像模块:用于基于所有所述命名实体、所有所述属性值和所有所述实体关系获得审计对象画像模型。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (12)
1.一种基于知识图谱的审计对象画像建模方法,其特征在于,所述方法包括:
将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,所述审计对象类别包括审计单位、审计负责人、审计资金和审计项目,所述命名实体类别包括单位、负责人、资金和项目;
获取审计语料,对所述审计语料进行命名实体识别,获得若干命名实体,所述审计语料包括审计文件的结构化数据、半结构化数据和非结构化数据;
构建属性感知解码器,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得若干属性值;
基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得若干实体关系;
基于所有所述命名实体、所有所述属性值和所有所述实体关系获得审计对象画像模型。
2.根据权利要求1所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,对所述审计语料进行命名实体识别,获得若干命名实体的具体步骤包括:
基于命名实体识别模型和预设标签对所述审计语料中的每个句子进行标注获得每个句子中每个词的词标签和每个句子的标签序列,对所述标签序列进行线性变换获得最大概率序列,基于所述最大概率序列对应的所有所述词标签,对所述最大概率序列进行划分获得所有所述命名实体。
3.根据权利要求2所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,所述方法还包括:
对所有所述命名实体的属性进行预分类获得属性标签分类,所述属性标签分类包括单位属性、负责人属性、资金属性和项目属性。
4.根据权利要求3所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得属性值的具体步骤包括:
将所述审计语料中的每个句子进行拆分获得上文信息和下文信息,基于所述上文信息、所述下文信息和所有所述命名实体对属性名进行预测,获得若干预测属性名,基于所述属性标签分类对所有所述预测属性名进行分类,获得所有所述属性值。
5.根据权利要求4所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得实体关系的具体步骤包括:
对所述审计语料进行预处理获得训练集,基于所述训练集获得实体关系提取模型;基于所述审计语料构造语料特征,所述语料特征包括关键词特征、命名实体类别特征和实体对信息特征,基于所述实体关系提取模型对所述语料特征进行拼接融合,获得语料特征向量,基于所述语料特征向量获得语义信息,所述语义信息包括标签语义信息、句子语义信息和实体语义信息,对所述语义信息进行关系分类,获得所有所述实体关系。
6.根据权利要求5所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,所述方法还包括:
基于所有所述实体关系获得每个所述命名实体的关系数量,判断所述关系数量是否小于或等于预设数量,若是则判断所述关系数量是否等于1,若等于1则获取与所述预设数量对应的若干第一命名实体,获取若干第一关键词,基于所有所述第一命名实体和所有所述第一关键词获得第一审计对象画像模型;若所述关系数量不等于1则获取与所述关系数量对应的若干第二命名实体,基于所有所述第二命名实体获得第二审计对象画像模型;
若所述关系数量大于所述预设数量,则获取与所述关系数量对应的若干第三命名实体,获取若干第二关键词,基于所有所述第三命名实体和所有所述第二关键词获得第三审计对象画像模型;
基于所述第一审计对象画像模型、所述第二审计对象画像模型和第三审计对象画像模型获得第四审计对象画像模型,将所述审计对象画像模型更新为所述第四审计对象画像模型。
7.根据权利要求6所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所有所述第一命名实体和所有所述第一关键词获得第一审计对象画像模型的具体步骤包括:
获取所有所述第一命名实体的属性值获得若干第一属性值,将所有所述第一属性值与所有所述第一关键词进行语义相关性检测获得若干第一相关值,判断所有所述第一相关值是否小于第一预设相关值,若是则将与所述第一相关值对应的所述第一命名实体和所述第一命名实体的实体关系删除,获得所述第一审计对象画像模型。
8.根据权利要求6所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所有所述第二命名实体获得第二审计对象画像模型的具体步骤包括:
获取所有所述第二命名实体的属性值获得若干第二属性值;基于所有所述实体关系获取与所有所述第二命名实体存在实体关系的若干第四命名实体,获取所有所述第四命名实体的属性值获得若干第三属性值,基于所有所述第二属性值与所有所述第三属性值获得任意两个所述第四命名实体之间的若干第四属性值,基于所有所述第四属性值获得所有所述第四命名实体之间的第一实体关系;基于所有所述第一实体关系和所有所述第四属性值获得第二审计对象画像模型。
9.根据权利要求6所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所有所述第三命名实体和所有所述第二关键词获得第三审计对象画像模型的具体步骤包括:
获取与每个所述第三命名实体存在实体关系的若干第五命名实体,获取所有所述第五命名实体的第五属性值,将所有所述第五属性值与所有所述第二关键词进行语义相关性检测获得若干第二相关值,判断每个所述第二相关值是否小于第二预设相关值,若是则获取与所述第二相关值对应的所述第五属性值和所述第五命名实体,获得若干第六属性值和若干第六命名实体;
将所有所述第六属性值进行关键词提取获得若干关键属性值,基于所有所述关键属性值和所有所述第六命名实体,获得与每个所述关键属性值对应的若干第七命名实体,基于所有所述第七命名实体和所有所述关键属性值获得所述第三审计对象画像模型。
10.根据权利要求9所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所有所述第七命名实体和所有所述关键属性值获得所述第三审计对象画像模型的具体步骤包括:
将所有所述第六命名实体和所有所述第六属性值分别更新为所有所述第七命名实体和所有所述关键属性值,所有所述第七命名实体与所述第三命名实体存在实体关系。
11.根据权利要求2所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,获得最大概率序列采用了以下计算方式:
;
其中,P(y|x)表示标签序列的条件概率分布,tk(yi-1,yi,x,i)和sl(yi,x,i)分别表示转移特征函数和状态特征函数,λk和ul分别是转移特征函数和状态特征函数的权值,Z(x)表示规范化因子,x表示观测序列,即待标注的序列,y表示序列x中各个词对应的标签序列,i表示当前节点在序列的位置,k表示定义在i节点的转移特征函数的总个数,l表示定义在i节点的状态特征函数的总个数。
12.一种基于知识图谱的审计对象画像建模系统,其特征在于,所述系统包括:
预分类模块:用于将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,所述审计对象类别包括审计单位、审计负责人、审计资金和审计项目,所述命名实体类别包括单位、负责人、资金和项目;
实体模块:用于获取审计语料,对所述审计语料进行命名实体识别,获得若干命名实体,所述审计语料包括审计文件的结构化数据、半结构化数据和非结构化数据;
属性值模块:用于构建属性感知解码器,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得若干属性值;
实体关系模块:用于基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得若干实体关系;
画像模块:用于基于所有所述命名实体、所有所述属性值和所有所述实体关系获得审计对象画像模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410458044.2A CN118093881B (zh) | 2024-04-17 | 2024-04-17 | 一种基于知识图谱的审计对象画像建模方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410458044.2A CN118093881B (zh) | 2024-04-17 | 2024-04-17 | 一种基于知识图谱的审计对象画像建模方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118093881A true CN118093881A (zh) | 2024-05-28 |
CN118093881B CN118093881B (zh) | 2024-07-02 |
Family
ID=91153309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410458044.2A Active CN118093881B (zh) | 2024-04-17 | 2024-04-17 | 一种基于知识图谱的审计对象画像建模方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118093881B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN110069638A (zh) * | 2019-03-12 | 2019-07-30 | 北京航空航天大学 | 一种结合规则和路径的知识图谱组合表示学习方法 |
CN111324742A (zh) * | 2020-02-10 | 2020-06-23 | 同方知网(北京)技术有限公司 | 一种数字人文知识图谱的构建方法 |
US20200387379A1 (en) * | 2018-05-06 | 2020-12-10 | Strong Force TX Portfolio 2018, LLC | Systems, methods, and apparatus for utilizing forward market pricing to facilitate operational decisions |
CN116775802A (zh) * | 2023-06-29 | 2023-09-19 | 中国建设银行股份有限公司 | 基于人工智能的审计档案数据处理方法及装置 |
-
2024
- 2024-04-17 CN CN202410458044.2A patent/CN118093881B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
US20200387379A1 (en) * | 2018-05-06 | 2020-12-10 | Strong Force TX Portfolio 2018, LLC | Systems, methods, and apparatus for utilizing forward market pricing to facilitate operational decisions |
CN110069638A (zh) * | 2019-03-12 | 2019-07-30 | 北京航空航天大学 | 一种结合规则和路径的知识图谱组合表示学习方法 |
CN111324742A (zh) * | 2020-02-10 | 2020-06-23 | 同方知网(北京)技术有限公司 | 一种数字人文知识图谱的构建方法 |
CN116775802A (zh) * | 2023-06-29 | 2023-09-19 | 中国建设银行股份有限公司 | 基于人工智能的审计档案数据处理方法及装置 |
Non-Patent Citations (3)
Title |
---|
王勇超: "基于指针网络的实体与关系联合抽取方法", 《计算级应用研究》, vol. 38, no. 4, 30 April 2021 (2021-04-30), pages 1004 - 1021 * |
谢腾: "融合多特征BERT 模型的中文实体关系抽取", 《计算机系统应用》, 15 May 2021 (2021-05-15), pages 253 - 261 * |
钟灵玥: "基于深度学习的实体关系抽取研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技》, 15 January 2022 (2022-01-15), pages 138 - 3592 * |
Also Published As
Publication number | Publication date |
---|---|
CN118093881B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200279105A1 (en) | Deep learning engine and methods for content and context aware data classification | |
Comber et al. | Machine learning innovations in address matching: A practical comparison of word2vec and CRFs | |
WO2023108980A1 (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN110717047A (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
Paul et al. | Lesicin: A heterogeneous graph-based approach for automatic legal statute identification from indian legal documents | |
Kaur | Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
KR20160149050A (ko) | 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN112925907A (zh) | 基于事件图卷积神经网络的微博评论观点对象分类方法 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
Liu et al. | Age inference using a hierarchical attention neural network | |
CN116958622A (zh) | 数据的分类方法、装置、设备、介质及程序产品 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
KR102563539B1 (ko) | 우려거래자 정보 수집 및 관리 시스템과 그 방법 | |
CN117171413B (zh) | 用于数字藏品管理的数据处理系统及其方法 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN117390299A (zh) | 基于图证据的可解释性虚假新闻检测方法 | |
CN111104492B (zh) | 一种基于层次化Attention机制的民航领域自动问答方法 | |
CN117056510A (zh) | 一种多元社会矛盾纠纷信息自动归集方法 | |
Assegaff et al. | Experimental of vectorizer and classifier for scrapped social media data | |
US11823477B1 (en) | Method and system for extracting data from tables within regulatory content | |
CN118093881B (zh) | 一种基于知识图谱的审计对象画像建模方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |