CN112507136A - 一种知识驱动的业务操作图谱构建方法 - Google Patents

一种知识驱动的业务操作图谱构建方法 Download PDF

Info

Publication number
CN112507136A
CN112507136A CN202011499939.9A CN202011499939A CN112507136A CN 112507136 A CN112507136 A CN 112507136A CN 202011499939 A CN202011499939 A CN 202011499939A CN 112507136 A CN112507136 A CN 112507136A
Authority
CN
China
Prior art keywords
knowledge
data
graph
extraction
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011499939.9A
Other languages
English (en)
Other versions
CN112507136B (zh
Inventor
暴利花
杨理想
王银瑞
苏洪全
刘海龙
吕宁
黄宁宁
冯小猛
周祥军
宋丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
Nanjing Shixing Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shixing Intelligent Technology Co ltd filed Critical Nanjing Shixing Intelligent Technology Co ltd
Priority to CN202011499939.9A priority Critical patent/CN112507136B/zh
Publication of CN112507136A publication Critical patent/CN112507136A/zh
Application granted granted Critical
Publication of CN112507136B publication Critical patent/CN112507136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种知识驱动的业务操作图谱构建方法,包括基于多源异构业务数据的知识生成与领域知识图谱构建和基于作业模式演变的全网领域操作图网络构建两部分;其中基于多源异构业务数据的知识生成与领域知识图谱构建包括基于多模态全链路多维度业务数据的知识萃取与关联处理、基于多源萃取知识的协同建模与图谱生成和基于业务领域知识自主发现的知识图谱拓展。本发明将业务操作图谱的构建问题转换为——根据业务操作流程和所需数据,从业务数据知识图谱中搜索相关操作知识图谱内容,以此从庞大的公共业务数据知识图谱中搜索有关操作的业务的子图查询问题。

Description

一种知识驱动的业务操作图谱构建方法
技术领域
本发明属于知识萃取及关联技术以及业务融合的技术领域,特别涉及一种知识驱动的业务操作图谱构建方法。
背景技术
人工智能的发展走过了从机器智能到感知智能的阶段,正在迈向认知智能的阶段。但要实现认知智能,机器必须学会处理人类复杂的语言,学会做知识的推理,这正是人工智能遇到的一大难题。目前通过机器的深度学习和知识图谱推理相结合,能够很好的解决人类自然语言的语义鸿沟。
知识图谱是一种规模非常大的语义网络系统,它主要目的就是为了描述真实世界里实体或概念之间的关联关系。通过大量的数据收集,整理成机器能处理的知识库,实现可视化的展示。对于知识图谱构建过程中,关于查询图的顶点和边的匹配顺序及查询子图是否满足同构的条件的两方面,仍然存在着以下问题。
(1)现有的很多算法没有考虑查询图顶点和边的匹配顺序,简单的按照顶点的数组标号匹配,这样结构上面的不匹配就不能早些发现,从而造成多余的搜索空间。
(2)即使规模不大的查询子图也可能导致较大的查询开销。
发明内容
为了解决上述涉及的多个技术问题,本发明提供的一种知识驱动的业务操作图谱构建方法,是基于全网领域知识驱动的业务操作图网络构建方法,包括基于多源异构业务数据的知识生成与领域知识图谱构建和基于作业模式演变的全网领域操作图网络构建两部分;
其中所述基于多源异构业务数据的知识生成与领域知识图谱构建包括基于多模态全链路多维度业务数据的知识萃取与关联处理、基于多源萃取知识的协同建模与图谱生成和基于业务领域知识自主发现的知识图谱拓展;
所述基于作业模式演变的全网领域操作图网络构建,包括基于作业模式演变的全网领域操作图网络构建、基于业务操作发现的操作图谱自动拓展。
作为改进,所述基于多模态全链路多维度业务数据的知识萃取与关联处理,是通过对文本情报的提取、图像和视频情报的提取进行的;
所述文本情报的提取具体步骤为:步骤一:使用NCRF++模型进行命名实体识别,整个模型分为三层,前两层均使用LSTM单元,第三层使用CRF;
步骤二:关系提取;复用NCRF++模型,且通过只保留CRF层输出的最后一个向量,抛弃其余所有向量,将其改成序列到向量的模型;
步骤三:事件提取;通过包括但不限于一下:触发词识别、实践分类、论元识别、角色识别至少一种识别方式进行实践提取;
所述图像和视频情报的提取具体步骤为:设定预训练模型VGG16;加载模型,冻结所有卷积和池化层,使它们的参与在训练过程中不会更新,进而提取图像的特征;根据具体任务,设计剩余的架构;
作为改进,还包括通过数据库、矢量和格式报的提取,其中所述数据库、矢量和格式报的提取,包括关系模式提取、模式映射和数据转换,具体步骤为:从数据库中获取数据库模式的数据信息,包括但不限于关系、属性、属性类型、能否为空、主键外键;将数据信息应用相应转化规则转化成本体;再将本体应用相应规则将关系型数据直接转化为本体实例;
使用时空语义标注方法,从多个维度对矢量数据进行约束,建立矢量数据的元数据与语义描述集合,具体包括主题语义、分辨率语义、优先级语义、时间语义和空间语义;
其中格式报数据包含格式报元数据和报文特征,对于格式报元数据部分,采用基于规则模板的过滤器等结构化数据提取技术,获得知识内容;对于格式报文的文本信息,采用自然语言处理和深度学习的非结构文本提取技术,获得知识内容。
作为改进,所述基于多源萃取知识的协同建模与图谱生成,是对实体链接和实体属性值判定、实体关系补全的处理,其中所述实体链接的具体步骤为:
步骤一:构建实体的向量表示:找到待处理实体的每个上下文,提取中心实体和上下文实体的关系,然后为每个中心实体构造词袋向量:
步骤二:使用聚类法,对所有向量表示进行聚类:
①在未标记的数据点中选一个作为形心,初始化簇c;
②获取形心一定半径内的点,标记它们并将它们在簇c中的计数器加1;
③计算这些点的均值,设为新的形心;
④重复第二和步骤三直到形心不再改变;
⑤如果簇c与已有簇的形心距离小于阈值,则合并;
⑥重复1到4步,直到所有样本都已标记;
⑦将每个样本放入访问计数最多的簇中。
作为改进,所述基于业务领域知识自主发现的知识图谱拓展,包括步骤一:基于暗网探针的知识自动探测与发现,即发现新的知识,监控互联网上多出了哪些新知识,以及哪些新知识需要更新,基于文本相似性函数的公网与暗网进行知识对齐,信息交联;步骤二:基于知识图谱远程监督的知识标注,即利用已构建的知识图谱,标注含有新知识的文本信息,产生知识三元组;步骤三:知识融合,即将知识三元组合并到已构建的知识图谱中进行更新,使知识图谱贴近现状。
作为改进,步骤二的具体方法为:首先通过序列标注算法对文本序列进行实体提取;采用bilstm-crf序列标注算法,建立输入序列与输出序列之间的关系,并根据输入序列预测输出序列;
然后,使用知识图谱标注实体间关系,作为训练数据,具体包括以下子步骤:
①在知识图谱中检索序列中的实体;
②在序列中检索知识图谱中的实体间关系
③对序列标注实体间关系。
作为改进,基于作业模式演变的全网领域操作图网络构建,是首先将查询图的边分为核心和外围两类,对于核心边及顶点实施复杂度较大的同构及匹配查询,控制候选结果的数据规模,采用最小生成树算法;
然后,采用简单的方式对核心图的检索结果进行外围边的同构及匹配条件判断,从而消解子图匹配问题中复杂动作的数据规模。
作为改进,基于业务操作发现的操作图谱自动拓展,包括操作模式层的更新操作模式层的更新包括:
(1)对于概念的变化,按照数据库、各类业务数据库以及开放信息环境中的数据分类进行更新,通过自主学习框架检测发现新旧概念之间的差异,进行概念更新;
(2)对于概念之间上下位关系的更新,由于更新会涉及到分类层次结构,因此通过自主学习框架检测操作图谱中可能出现的闭环式冲突,根据操作的时间特征进行冲突消解;
(3)概念属性的更新,如果是新增概念属性,可以按照模式图构建过程中的概念属性新增方式处理;如果是对现有属性更新,则需要人工处理;如果当前概念的所有实体中该属性均已被移除,则可以自动把概念属性值移除。
作为改进,还包括操作数据层的更新,具体步骤为:
步骤一:对新增的结构化数据、半结构化数据或非结构化数据,利用基于多源数据融合和深度学习的操作抽取方法,抽取新的实体和实体间关系;在这个过程中,利用自主学习框架对深度置信网络的最优参数、基于监督学习与模式相结合操作抽取中的模式参数等进行优化调整。
步骤二:利用基于语义计算的多源操作融合方法,将新操作融合到操作图谱中;如果操作存在冲突,则人工干预处理,系统根据人工干预处理结果,自动调整优化基于语义计算的操作融合判断阈值参数;如果该操作的实体仍不能融合到现有操作图谱的实体,则直接在操作图谱中拓展新操作;
步骤三:利用基于知识表示学习方法开展操作推理,在语义向量空间开展操作关系预测,实现操作图谱的知识补全
有益效果:本发明提供的知识驱动的业务操作图谱构建方法,是基于数据库、文本、视频、图像、语音等常用的数据类型,研究知识萃取及关联技术。本发明将业务操作图谱的构建问题转换为——根据业务操作流程和所需数据,从业务数据知识图谱中搜索相关操作知识图谱内容,以此从庞大的公共业务数据知识图谱中搜索有关操作的业务的子图查询问题。
主要解决两个方面的问题:首先,对顶点和边的匹配顺序判断。其次,得到初始的满足条件的顶点和边后,再判断对于查询子图每个局部组成部分同构与否的基础上,还要逐步通过局部中间结果的连接来判断所有组成完整匹配子图的可能性,或者采用迭代的方式逐层判断每个顶点的一跳、两跳乃至更多跳邻居是否满足子图同构的条件。
具体实施方式
下面对本发明的技术方案结合下面实施例作出进一步说明。
一种知识驱动的业务操作图谱构建方法,是基于全网领域知识驱动的业务操作图网络构建方法,包括基于多源异构业务数据的知识生成与领域知识图谱构建和基于作业模式演变的全网领域操作图网络构建两部分;
所述基于作业模式演变的全网领域操作图网络构建,包括基于作业模式演变的全网领域操作图网络构建、基于业务操作发现的操作图谱自动拓展。
一.基于多源异构业务数据的知识生成与领域知识图谱构建
其中所述基于多源异构业务数据的知识生成与领域知识图谱构建包括基于多模态全链路多维度业务数据的知识萃取与关联处理、基于多源萃取知识的协同建模与图谱生成和基于业务领域知识自主发现的知识图谱拓展;
(1)基于多模态全链路多维度业务数据的知识萃取与关联
1)文本情报的提取
步骤一:使用NCRF++模型进行命名实体识别,整个模型分为三层。为了避免梯度消失和梯度爆炸问题,前两层均使用LSTM单元,第三层使用CRF;
步骤二:关系提取。复用NCRF++模型,但需要通过只保留CRF层输出的最后一个向量,抛弃其余所有向量,将其改成序列到向量的模型;
步骤三:事件提取
①触发词识别:对样本进行池化或上采样,综合模式匹配方法和机器学习方法两种方法进行触发词识别,首先使用模式匹配,匹配失败后,再切换到机器学习方法;
②事件分类:基于多类分类的softmax回归模型进行事件分类;
③论元识别:基于触发词识别的逻辑回归模型进行论元识别;
④角色识别:基于事件分类的softmax回归模型进行角色识别。
2)图像和视频情报的提取
步骤一:选择一个功能强大的预训练模型VGG16;
步骤二:加载模型,冻结所有卷积和池化层,使它们的参与在训练过程中不会更新,进而提取图像的特征;
步骤三:根据具体任务,设计剩余的架构。如果要提取的语义是单个单词的形式,例如触发词识别,或者分类,添加多个密集层,将输出压缩到词向量的维度,或者类别数;如果语义是文本序列的形式,可以使用LSTM来解码这些特征,得到文本;视频可以看做图像在时间上的延伸,使用3D-CNN来提取视频特征。
3)数据库、矢量和格式报的提取
数据库知识自动抽取分为三步:关系模式提取、模式映射和数据转换。
步骤一:从数据库中获取关系、属性、属性类型、能否为空、主键外键等信息;
步骤二:把上一步提取出的数据库模式信息,应用相应转化规则转化成本体;
步骤三:根据上一步生成的本体,应用相应规则将关系型数据直接转化为本体实例。
可以使用时空语义标注方法,从多个维度对矢量数据进行约束,建立矢量数据的元数据与语义描述集合,具体包括主题语义、分辨率语义、优先级语义、时间语义和空间语义。
格式报数据包含格式报元数据和报文特征,对于格式报元数据部分,采用基于规则模板的过滤器等结构化数据提取技术,获得知识内容;对于格式报文的文本信息,采用自然语言处理和深度学习等非结构文本提取技术,获得知识内容。
(2)基于多源萃取知识的协同建模与图谱生成
1)实体链接
步骤一:构建实体的向量表示:找到待处理实体的每个上下文,提取中心实体和上下文实体的关系,然后为每个中心实体构造词袋向量:
步骤二:使用聚类法,对所有向量表示进行聚类:
①在未标记的数据点中选一个作为形心,初始化簇c;
②获取形心一定半径内的点,标记它们并将它们在簇c中的计数器加1;
③计算这些点的均值,设为新的形心;
④重复第二和步骤三直到形心不再改变;
⑤如果簇c与已有簇的形心距离小于阈值,则合并;
⑥重复1到4步,直到所有样本都已标记;
⑦将每个样本放入访问计数最多的簇中。
2)实体属性值判定和实体关系补全等问题
(3)基于业务领域知识自主发现的知识图谱拓展
1)基于暗网探针的知识自动探测与发现,即发现新的知识,监控互联网上多出了哪些新知识,以及哪些新知识需要更新。
步骤一:公网热点智能监控技术:评估公网上哪些数据发生了变更,其中哪些数据包含值得更新的新知识。使用CN-DBpedia策略找出互联网上的易变实体;
①种子发现,即发现互联网上的新知识,作为可能更新到知识图谱的种子。
②种子扩充,这一步解决了种子过少的问题。如果每天的热门话题数量太少,所以需要通过扩展的方式得到更多的待更新实体。遵循的一个原则是:与最近更新的实体相关的实体更可能更新。
③频率估计,解决种子过多的问题。热点过多的情况下,可以选择优先级最高的K个热点,于是还需要一个衡量优先级的指标;规定,如果是一个新词,那么优先级设置为最高,如果是一个旧词,估计其上一次更新结束到现在的时间段内的更新次数,将这个次数除以更新间隔等到更新频率,作为优先级的指标。但对于有些热点来说,只能获取上一次的更新时间,由此计算出更新间隔,没有办法获取更新次数。就可以通过随机森林模型来估计更新频率。
④热点选取,按照更新频率对种子倒序排序,选择前K个种子即可。
步骤二:多源数据智能解析爬虫技术,抓取可能含有新知识的公网数据;
首先将暗网中的实体和非涉密的数据作为搜索词,通过搜索引擎搜索,选取返回的Top K个页面进行爬虫爬取。各大网站的页面结构不同,需要针对不同的网站解析正文内容。这里同样分两部分:其一:针对大媒体网站,采用定制化的规则抽取。其二:然后对小的网站,采用分类算法将网页中的正文内容识别出来进行抽取。最终,对于爬取到的内容,采用Simhash去重。
步骤三:基于文本相似性函数的公网与暗网知识对齐,利用暗网中的实体和事件信息,从公网数据中进行信息关联,也称知识对齐。
在获取到公网文本后,便可以对公网的文本进行知识抽取,即抽取工网中的实体、实体属性、实体和实体关系、事件触发词以及事件的各个论元。然后需要将公网中的实体与暗网中的实体对齐。因为这里很难获得足够多的标注数据进行分类训练,无法使用监督学习的方法,所以采用基于文本相似性函数的特征匹配方法。
2)基于知识图谱远程监督的知识标注,即利用已构建的知识图谱,标注含有新知识的文本信息,产生知识三元组。
步骤一:首先通过序列标注算法对文本序列进行实体提取;采用bilstm-crf序列标注算法,建立输入序列与输出序列之间的关系,并可以根据输入序列预测输出序列;
步骤二:使用知识图谱标注实体间关系,作为训练数据,具体包括以下子步骤:
①在知识图谱中检索序列中的实体;
②在序列中检索知识图谱中的实体间关系
③对序列标注实体间关系
步骤三:最后训练关系提取模型,用于关系提取
3)知识融合,即将知识三元组合并到已构建的知识图谱中进行更新,使的知识图谱更加贴近现状。
(二)基于作业模式演变的全网领域操作图网络构建
(1)基于作业模式演变的全网领域操作图网络构建
1)将查询图的边分为核心和外围两类,对于核心边及其相关顶点实施复杂度较大的同构及匹配查询,同时也基本控制了候选结果的数据规模;
步骤一:在这里,本发明并没有一味的追求出现次数最少的边,因为次数最少的几条边有可能是链接在特定的几个顶点之间,这样就不能充分利用顶点的结构信息过滤掉不匹配的顶点,所以综合考虑顶点和边,采用了最小生成树的思想;
步骤二:将查询图的子图同构精简为对其生成树的子图同构问题;
步骤三:基于查询图生成树的任务消解。
2)采用简单的方式对核心图的检索结果进行外围边的同构及匹配条件判断,从而消解子图匹配问题中复杂动作的数据规模。
(2)基于业务操作发现的操作图谱自动拓展
1)操作模式层的更新
对于概念的变化,按照数据库、各类业务数据库以及开放信息环境中的数据分类进行更新,通过自主学习框架检测发现新旧概念之间的差异,进行概念更新;
对于概念之间上下位关系的更新,由于更新会涉及到分类层次结构,因此通过自主学习框架检测操作图谱中可能出现的闭环式冲突,根据操作的时间特征进行冲突消解;
概念属性的更新,如果是新增概念属性,可以按照模式图构建过程中的概念属性新增方式处理;如果是对现有属性更新,则需要人工处理;如果当前概念的所有实体中该属性均已被移除,则可以自动把概念属性值移除。
2)操作数据层的更新
步骤一:对新增的结构化数据、半结构化数据或非结构化数据,利用基于多源数据融合和深度学习的操作抽取方法,抽取新的实体和实体间关系;在这个过程中,利用自主学习框架对深度置信网络的最优参数、基于监督学习与模式相结合操作抽取中的模式参数等进行优化调整。
步骤二:利用基于语义计算的多源操作融合方法,将新操作融合到操作图谱中;如果操作存在冲突,则人工干预处理,系统根据人工干预处理结果,自动调整优化基于语义计算的操作融合判断阈值参数;如果该操作的实体仍不能融合到现有操作图谱的实体,则直接在操作图谱中拓展新操作。
步骤三:利用基于知识表示学习方法开展操作推理,在语义向量空间开展操作关系预测,实现操作图谱的知识补全。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种知识驱动的业务操作图谱构建方法,其特征在于:是基于全网领域知识驱动的业务操作图网络构建方法,包括基于多源异构业务数据的知识生成与领域知识图谱构建和基于作业模式演变的全网领域操作图网络构建两部分;
其中所述基于多源异构业务数据的知识生成与领域知识图谱构建包括基于多模态全链路多维度业务数据的知识萃取与关联处理、基于多源萃取知识的协同建模与图谱生成和基于业务领域知识自主发现的知识图谱拓展;
所述基于作业模式演变的全网领域操作图网络构建,包括基于作业模式演变的全网领域操作图网络构建、基于业务操作发现的操作图谱自动拓展。
2.根据权利要求1所述知识驱动的业务操作图谱构建方法,其特征在于:所述基于多模态全链路多维度业务数据的知识萃取与关联处理,是通过对文本情报的提取、图像和视频情报的提取进行的;
所述文本情报的提取具体步骤为:步骤一:使用NCRF++模型进行命名实体识别,整个模型分为三层,前两层均使用LSTM单元,第三层使用CRF;
步骤二:关系提取;复用NCRF++模型,且通过只保留CRF层输出的最后一个向量,抛弃其余所有向量,将其改成序列到向量的模型;
步骤三:事件提取;通过包括但不限于一下:触发词识别、实践分类、论元识别、角色识别至少一种识别方式进行实践提取;
所述图像和视频情报的提取具体步骤为:设定预训练模型VGG16;加载模型,冻结所有卷积和池化层,使它们的参与在训练过程中不会更新,进而提取图像的特征;根据具体任务,设计剩余的架构。
3.根据权利要求2所述知识驱动的业务操作图谱构建方法,其特征在于:还包括通过数据库、矢量和格式报的提取,其中所述数据库、矢量和格式报的提取,包括关系模式提取、模式映射和数据转换,具体步骤为:从数据库中获取数据库模式的数据信息,包括但不限于关系、属性、属性类型、能否为空、主键外键;将数据信息应用相应转化规则转化成本体;再将本体应用相应规则将关系型数据直接转化为本体实例;
使用时空语义标注方法,从多个维度对矢量数据进行约束,建立矢量数据的元数据与语义描述集合,具体包括主题语义、分辨率语义、优先级语义、时间语义和空间语义;
其中格式报数据包含格式报元数据和报文特征,对于格式报元数据部分,采用基于规则模板的过滤器等结构化数据提取技术,获得知识内容;对于格式报文的文本信息,采用自然语言处理和深度学习的非结构文本提取技术,获得知识内容。
4.根据权利要求1所述知识驱动的业务操作图谱构建方法,其特征在于:所述基于多源萃取知识的协同建模与图谱生成,是对实体链接和实体属性值判定、实体关系补全的处理,其中所述实体链接的具体步骤为:
步骤一:构建实体的向量表示:找到待处理实体的每个上下文,提取中心实体和上下文实体的关系,然后为每个中心实体构造词袋向量:
步骤二:使用聚类法,对所有向量表示进行聚类:
①在未标记的数据点中选一个作为形心,初始化簇c;
②获取形心一定半径内的点,标记它们并将它们在簇c中的计数器加1;
③计算这些点的均值,设为新的形心;
④重复第二和步骤三直到形心不再改变;
⑤如果簇c与已有簇的形心距离小于阈值,则合并;
⑥重复1到4步,直到所有样本都已标记;
⑦将每个样本放入访问计数最多的簇中。
5.根据权利要求1所述知识驱动的业务操作图谱构建方法,其特征在于:所述基于业务领域知识自主发现的知识图谱拓展,包括步骤一:基于暗网探针的知识自动探测与发现,即发现新的知识,监控互联网上多出了哪些新知识,以及哪些新知识需要更新,基于文本相似性函数的公网与暗网进行知识对齐,信息交联;步骤二:基于知识图谱远程监督的知识标注,即利用已构建的知识图谱,标注含有新知识的文本信息,产生知识三元组;步骤三:知识融合,即将知识三元组合并到已构建的知识图谱中进行更新,使知识图谱贴近现状。
6.根据权利要求5所述知识驱动的业务操作图谱构建方法,其特征在于:步骤二的具体方法为:首先通过序列标注算法对文本序列进行实体提取;采用bilstm-crf序列标注算法,建立输入序列与输出序列之间的关系,并根据输入序列预测输出序列;
然后,使用知识图谱标注实体间关系,作为训练数据,具体包括以下子步骤:
①在知识图谱中检索序列中的实体;
②在序列中检索知识图谱中的实体间关系
③对序列标注实体间关系。
7.根据权利要求1所述知识驱动的业务操作图谱构建方法,其特征在于:基于作业模式演变的全网领域操作图网络构建,是首先将查询图的边分为核心和外围两类,对于核心边及顶点实施复杂度较大的同构及匹配查询,控制候选结果的数据规模,采用最小生成树算法;
然后,采用简单的方式对核心图的检索结果进行外围边的同构及匹配条件判断,从而消解子图匹配问题中复杂动作的数据规模。
8.根据权利要求1所述知识驱动的业务操作图谱构建方法,其特征在于:基于业务操作发现的操作图谱自动拓展,包括操作模式层的更新
操作模式层的更新包括:
(1)对于概念的变化,按照数据库、各类业务数据库以及开放信息环境中的数据分类进行更新,通过自主学习框架检测发现新旧概念之间的差异,进行概念更新;
(2)对于概念之间上下位关系的更新,由于更新会涉及到分类层次结构,因此通过自主学习框架检测操作图谱中可能出现的闭环式冲突,根据操作的时间特征进行冲突消解;
(3)概念属性的更新,如果是新增概念属性,可以按照模式图构建过程中的概念属性新增方式处理;如果是对现有属性更新,则需要人工处理;如果当前概念的所有实体中该属性均已被移除,则可以自动把概念属性值移除。
9.根据权利要求8所述知识驱动的业务操作图谱构建方法,其特征在于:还包括操作数据层的更新,具体步骤为:
步骤一:对新增的结构化数据、半结构化数据或非结构化数据,利用基于多源数据融合和深度学习的操作抽取方法,抽取新的实体和实体间关系;在这个过程中,利用自主学习框架对深度置信网络的最优参数、基于监督学习与模式相结合操作抽取中的模式参数等进行优化调整。
步骤二:利用基于语义计算的多源操作融合方法,将新操作融合到操作图谱中;如果操作存在冲突,则人工干预处理,系统根据人工干预处理结果,自动调整优化基于语义计算的操作融合判断阈值参数;如果该操作的实体仍不能融合到现有操作图谱的实体,则直接在操作图谱中拓展新操作;
步骤三:利用基于知识表示学习方法开展操作推理,在语义向量空间开展操作关系预测,实现操作图谱的知识补全。
CN202011499939.9A 2020-12-18 2020-12-18 一种知识驱动的业务操作图谱构建方法 Active CN112507136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011499939.9A CN112507136B (zh) 2020-12-18 2020-12-18 一种知识驱动的业务操作图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011499939.9A CN112507136B (zh) 2020-12-18 2020-12-18 一种知识驱动的业务操作图谱构建方法

Publications (2)

Publication Number Publication Date
CN112507136A true CN112507136A (zh) 2021-03-16
CN112507136B CN112507136B (zh) 2023-07-14

Family

ID=74922224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011499939.9A Active CN112507136B (zh) 2020-12-18 2020-12-18 一种知识驱动的业务操作图谱构建方法

Country Status (1)

Country Link
CN (1) CN112507136B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312494A (zh) * 2021-05-28 2021-08-27 中国电力科学研究院有限公司 垂直领域知识图谱构建方法、系统、设备及存储介质
CN113360518A (zh) * 2021-06-07 2021-09-07 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法
CN113590835A (zh) * 2021-07-28 2021-11-02 上海致景信息科技有限公司 纺织行业数据的知识图谱构建方法、装置及处理器
CN113868508A (zh) * 2021-09-23 2021-12-31 北京百度网讯科技有限公司 写作素材查询方法、装置、电子设备和存储介质
CN114417015A (zh) * 2022-01-26 2022-04-29 西南交通大学 一种高速列车可维修性知识图谱构建方法
CN114896472A (zh) * 2022-05-27 2022-08-12 中国科学院空天信息创新研究院 一种基于多源时空数据的知识图谱机器推理系统和方法
CN115221338A (zh) * 2022-09-08 2022-10-21 平安银行股份有限公司 知识图谱构建方法及其系统、计算机设备
CN115858698A (zh) * 2023-02-22 2023-03-28 北京融信数联科技有限公司 智能体图谱分析方法、系统和可读存储介质
CN116245177A (zh) * 2023-05-06 2023-06-09 中国科学院自动化研究所 地理环境知识图谱自动化构建方法及系统、可读存储介质
CN116701357A (zh) * 2023-06-15 2023-09-05 深圳市象无形信息科技有限公司 基于语义网络的ifc数据管理方法及装置
CN117391313A (zh) * 2023-12-12 2024-01-12 广东正迪科技股份有限公司 基于ai的智能决策方法、系统、设备以及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150112878A1 (en) * 2013-10-18 2015-04-23 eQuisition, LLC. System and Method for Assigning Attributes to a Shape on a Map
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150112878A1 (en) * 2013-10-18 2015-04-23 eQuisition, LLC. System and Method for Assigning Attributes to a Shape on a Map
CN110390023A (zh) * 2019-07-02 2019-10-29 安徽继远软件有限公司 一种基于改进bert模型的知识图谱构建方法
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张肃;许慧;: "基于知识图谱的企业知识服务模型构建研究", 情报科学, no. 08 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312494A (zh) * 2021-05-28 2021-08-27 中国电力科学研究院有限公司 垂直领域知识图谱构建方法、系统、设备及存储介质
CN113360518B (zh) * 2021-06-07 2023-03-21 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法
CN113360518A (zh) * 2021-06-07 2021-09-07 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法
CN113590835A (zh) * 2021-07-28 2021-11-02 上海致景信息科技有限公司 纺织行业数据的知识图谱构建方法、装置及处理器
CN113868508A (zh) * 2021-09-23 2021-12-31 北京百度网讯科技有限公司 写作素材查询方法、装置、电子设备和存储介质
CN114417015A (zh) * 2022-01-26 2022-04-29 西南交通大学 一种高速列车可维修性知识图谱构建方法
CN114896472A (zh) * 2022-05-27 2022-08-12 中国科学院空天信息创新研究院 一种基于多源时空数据的知识图谱机器推理系统和方法
CN114896472B (zh) * 2022-05-27 2023-09-22 中国科学院空天信息创新研究院 一种基于多源时空数据的知识图谱机器推理系统和方法
CN115221338A (zh) * 2022-09-08 2022-10-21 平安银行股份有限公司 知识图谱构建方法及其系统、计算机设备
CN115221338B (zh) * 2022-09-08 2022-12-13 平安银行股份有限公司 知识图谱构建方法及其系统、计算机设备
CN115858698A (zh) * 2023-02-22 2023-03-28 北京融信数联科技有限公司 智能体图谱分析方法、系统和可读存储介质
CN115858698B (zh) * 2023-02-22 2023-06-06 北京融信数联科技有限公司 智能体图谱分析方法、系统和可读存储介质
CN116245177A (zh) * 2023-05-06 2023-06-09 中国科学院自动化研究所 地理环境知识图谱自动化构建方法及系统、可读存储介质
CN116245177B (zh) * 2023-05-06 2023-08-11 中国科学院自动化研究所 地理环境知识图谱自动化构建方法及系统、可读存储介质
CN116701357A (zh) * 2023-06-15 2023-09-05 深圳市象无形信息科技有限公司 基于语义网络的ifc数据管理方法及装置
CN117391313A (zh) * 2023-12-12 2024-01-12 广东正迪科技股份有限公司 基于ai的智能决策方法、系统、设备以及介质
CN117391313B (zh) * 2023-12-12 2024-04-30 广东正迪科技股份有限公司 基于ai的智能决策方法、系统、设备以及介质

Also Published As

Publication number Publication date
CN112507136B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN112507136B (zh) 一种知识驱动的业务操作图谱构建方法
CN111291185B (zh) 信息抽取方法、装置、电子设备及存储介质
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN110059181B (zh) 面向大规模分类体系的短文本标签方法、系统、装置
CN112612902A (zh) 一种电网主设备的知识图谱构建方法及设备
Jabbar et al. A methodology of real-time data fusion for localized big data analytics
CN112256888A (zh) 地理知识获取方法
CN112883201B (zh) 一种基于智慧社区大数据的知识图谱构建方法
CN110457479A (zh) 一种基于犯罪行为链的裁判文书分析方法
CN113779211A (zh) 一种基于自然语言实体关系的智能问答推理方法和系统
CN110119449A (zh) 一种基于序列增强胶囊网络的刑事案件罪名预测方法
CN112463981A (zh) 一种基于深度学习的企业内部经营管理风险识别提取方法及系统
Mallik et al. Acquisition of multimedia ontology: an application in preservation of cultural heritage
CN114648635B (zh) 一种融合标签间强相关性的多标签图像分类方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN117149974A (zh) 一种子图检索优化的知识图谱问答方法
CN113051927A (zh) 基于多模态图卷积神经网络的社交网络突发事件检测方法
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN116150509A (zh) 社交媒体网络的威胁情报识别方法、系统、设备及介质
CN114048314B (zh) 一种自然语言隐写分析方法
Zeng et al. Simplified-boosting ensemble convolutional network for text classification
CN117171413B (zh) 用于数字藏品管理的数据处理系统及其方法
CN116450938A (zh) 一种基于图谱的工单推荐实现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20210310

Address after: 210000 rooms 1201 and 1209, building C, Xingzhi Science Park, Qixia Economic and Technological Development Zone, Nanjing, Jiangsu Province

Applicant after: Nanjing Xingyao Intelligent Technology Co.,Ltd.

Address before: Room 1211, building C, Xingzhi Science Park, 6 Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 210000

Applicant before: Nanjing Shixing Intelligent Technology Co.,Ltd.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210416

Address after: 100000 No. 211 middle Fourth Ring Road, Haidian District, Beijing

Applicant after: NO.15 INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

Address before: 210000 rooms 1201 and 1209, building C, Xingzhi Science Park, Qixia Economic and Technological Development Zone, Nanjing, Jiangsu Province

Applicant before: Nanjing Xingyao Intelligent Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant