发明内容
为了解决上述涉及的多个技术问题,本发明提供的一种知识驱动的业务操作图谱构建方法,是基于全网领域知识驱动的业务操作图网络构建方法,包括基于多源异构业务数据的知识生成与领域知识图谱构建和基于作业模式演变的全网领域操作图网络构建两部分;
其中所述基于多源异构业务数据的知识生成与领域知识图谱构建包括基于多模态全链路多维度业务数据的知识萃取与关联处理、基于多源萃取知识的协同建模与图谱生成和基于业务领域知识自主发现的知识图谱拓展;
所述基于作业模式演变的全网领域操作图网络构建,包括基于作业模式演变的全网领域操作图网络构建、基于业务操作发现的操作图谱自动拓展。
作为改进,所述基于多模态全链路多维度业务数据的知识萃取与关联处理,是通过对文本情报的提取、图像和视频情报的提取进行的;
所述文本情报的提取具体步骤为:步骤一:使用NCRF++模型进行命名实体识别,整个模型分为三层,前两层均使用LSTM单元,第三层使用CRF;
步骤二:关系提取;复用NCRF++模型,且通过只保留CRF层输出的最后一个向量,抛弃其余所有向量,将其改成序列到向量的模型;
步骤三:事件提取;通过包括但不限于一下:触发词识别、实践分类、论元识别、角色识别至少一种识别方式进行实践提取;
所述图像和视频情报的提取具体步骤为:设定预训练模型VGG16;加载模型,冻结所有卷积和池化层,使它们的参与在训练过程中不会更新,进而提取图像的特征;根据具体任务,设计剩余的架构;
作为改进,还包括通过数据库、矢量和格式报的提取,其中所述数据库、矢量和格式报的提取,包括关系模式提取、模式映射和数据转换,具体步骤为:从数据库中获取数据库模式的数据信息,包括但不限于关系、属性、属性类型、能否为空、主键外键;将数据信息应用相应转化规则转化成本体;再将本体应用相应规则将关系型数据直接转化为本体实例;
使用时空语义标注方法,从多个维度对矢量数据进行约束,建立矢量数据的元数据与语义描述集合,具体包括主题语义、分辨率语义、优先级语义、时间语义和空间语义;
其中格式报数据包含格式报元数据和报文特征,对于格式报元数据部分,采用基于规则模板的过滤器等结构化数据提取技术,获得知识内容;对于格式报文的文本信息,采用自然语言处理和深度学习的非结构文本提取技术,获得知识内容。
作为改进,所述基于多源萃取知识的协同建模与图谱生成,是对实体链接和实体属性值判定、实体关系补全的处理,其中所述实体链接的具体步骤为:
步骤一:构建实体的向量表示:找到待处理实体的每个上下文,提取中心实体和上下文实体的关系,然后为每个中心实体构造词袋向量:
步骤二:使用聚类法,对所有向量表示进行聚类:
①在未标记的数据点中选一个作为形心,初始化簇c;
②获取形心一定半径内的点,标记它们并将它们在簇c中的计数器加1;
③计算这些点的均值,设为新的形心;
④重复第二和步骤三直到形心不再改变;
⑤如果簇c与已有簇的形心距离小于阈值,则合并;
⑥重复1到4步,直到所有样本都已标记;
⑦将每个样本放入访问计数最多的簇中。
作为改进,所述基于业务领域知识自主发现的知识图谱拓展,包括步骤一:基于暗网探针的知识自动探测与发现,即发现新的知识,监控互联网上多出了哪些新知识,以及哪些新知识需要更新,基于文本相似性函数的公网与暗网进行知识对齐,信息交联;步骤二:基于知识图谱远程监督的知识标注,即利用已构建的知识图谱,标注含有新知识的文本信息,产生知识三元组;步骤三:知识融合,即将知识三元组合并到已构建的知识图谱中进行更新,使知识图谱贴近现状。
作为改进,步骤二的具体方法为:首先通过序列标注算法对文本序列进行实体提取;采用bilstm-crf序列标注算法,建立输入序列与输出序列之间的关系,并根据输入序列预测输出序列;
然后,使用知识图谱标注实体间关系,作为训练数据,具体包括以下子步骤:
①在知识图谱中检索序列中的实体;
②在序列中检索知识图谱中的实体间关系
③对序列标注实体间关系。
作为改进,基于作业模式演变的全网领域操作图网络构建,是首先将查询图的边分为核心和外围两类,对于核心边及顶点实施复杂度较大的同构及匹配查询,控制候选结果的数据规模,采用最小生成树算法;
然后,采用简单的方式对核心图的检索结果进行外围边的同构及匹配条件判断,从而消解子图匹配问题中复杂动作的数据规模。
作为改进,基于业务操作发现的操作图谱自动拓展,包括操作模式层的更新操作模式层的更新包括:
(1)对于概念的变化,按照数据库、各类业务数据库以及开放信息环境中的数据分类进行更新,通过自主学习框架检测发现新旧概念之间的差异,进行概念更新;
(2)对于概念之间上下位关系的更新,由于更新会涉及到分类层次结构,因此通过自主学习框架检测操作图谱中可能出现的闭环式冲突,根据操作的时间特征进行冲突消解;
(3)概念属性的更新,如果是新增概念属性,可以按照模式图构建过程中的概念属性新增方式处理;如果是对现有属性更新,则需要人工处理;如果当前概念的所有实体中该属性均已被移除,则可以自动把概念属性值移除。
作为改进,还包括操作数据层的更新,具体步骤为:
步骤一:对新增的结构化数据、半结构化数据或非结构化数据,利用基于多源数据融合和深度学习的操作抽取方法,抽取新的实体和实体间关系;在这个过程中,利用自主学习框架对深度置信网络的最优参数、基于监督学习与模式相结合操作抽取中的模式参数等进行优化调整。
步骤二:利用基于语义计算的多源操作融合方法,将新操作融合到操作图谱中;如果操作存在冲突,则人工干预处理,系统根据人工干预处理结果,自动调整优化基于语义计算的操作融合判断阈值参数;如果该操作的实体仍不能融合到现有操作图谱的实体,则直接在操作图谱中拓展新操作;
步骤三:利用基于知识表示学习方法开展操作推理,在语义向量空间开展操作关系预测,实现操作图谱的知识补全
有益效果:本发明提供的知识驱动的业务操作图谱构建方法,是基于数据库、文本、视频、图像、语音等常用的数据类型,研究知识萃取及关联技术。本发明将业务操作图谱的构建问题转换为——根据业务操作流程和所需数据,从业务数据知识图谱中搜索相关操作知识图谱内容,以此从庞大的公共业务数据知识图谱中搜索有关操作的业务的子图查询问题。
主要解决两个方面的问题:首先,对顶点和边的匹配顺序判断。其次,得到初始的满足条件的顶点和边后,再判断对于查询子图每个局部组成部分同构与否的基础上,还要逐步通过局部中间结果的连接来判断所有组成完整匹配子图的可能性,或者采用迭代的方式逐层判断每个顶点的一跳、两跳乃至更多跳邻居是否满足子图同构的条件。
具体实施方式
下面对本发明的技术方案结合下面实施例作出进一步说明。
一种知识驱动的业务操作图谱构建方法,是基于全网领域知识驱动的业务操作图网络构建方法,包括基于多源异构业务数据的知识生成与领域知识图谱构建和基于作业模式演变的全网领域操作图网络构建两部分;
所述基于作业模式演变的全网领域操作图网络构建,包括基于作业模式演变的全网领域操作图网络构建、基于业务操作发现的操作图谱自动拓展。
一.基于多源异构业务数据的知识生成与领域知识图谱构建
其中所述基于多源异构业务数据的知识生成与领域知识图谱构建包括基于多模态全链路多维度业务数据的知识萃取与关联处理、基于多源萃取知识的协同建模与图谱生成和基于业务领域知识自主发现的知识图谱拓展;
(1)基于多模态全链路多维度业务数据的知识萃取与关联
1)文本情报的提取
步骤一:使用NCRF++模型进行命名实体识别,整个模型分为三层。为了避免梯度消失和梯度爆炸问题,前两层均使用LSTM单元,第三层使用CRF;
步骤二:关系提取。复用NCRF++模型,但需要通过只保留CRF层输出的最后一个向量,抛弃其余所有向量,将其改成序列到向量的模型;
步骤三:事件提取
①触发词识别:对样本进行池化或上采样,综合模式匹配方法和机器学习方法两种方法进行触发词识别,首先使用模式匹配,匹配失败后,再切换到机器学习方法;
②事件分类:基于多类分类的softmax回归模型进行事件分类;
③论元识别:基于触发词识别的逻辑回归模型进行论元识别;
④角色识别:基于事件分类的softmax回归模型进行角色识别。
2)图像和视频情报的提取
步骤一:选择一个功能强大的预训练模型VGG16;
步骤二:加载模型,冻结所有卷积和池化层,使它们的参与在训练过程中不会更新,进而提取图像的特征;
步骤三:根据具体任务,设计剩余的架构。如果要提取的语义是单个单词的形式,例如触发词识别,或者分类,添加多个密集层,将输出压缩到词向量的维度,或者类别数;如果语义是文本序列的形式,可以使用LSTM来解码这些特征,得到文本;视频可以看做图像在时间上的延伸,使用3D-CNN来提取视频特征。
3)数据库、矢量和格式报的提取
数据库知识自动抽取分为三步:关系模式提取、模式映射和数据转换。
步骤一:从数据库中获取关系、属性、属性类型、能否为空、主键外键等信息;
步骤二:把上一步提取出的数据库模式信息,应用相应转化规则转化成本体;
步骤三:根据上一步生成的本体,应用相应规则将关系型数据直接转化为本体实例。
可以使用时空语义标注方法,从多个维度对矢量数据进行约束,建立矢量数据的元数据与语义描述集合,具体包括主题语义、分辨率语义、优先级语义、时间语义和空间语义。
格式报数据包含格式报元数据和报文特征,对于格式报元数据部分,采用基于规则模板的过滤器等结构化数据提取技术,获得知识内容;对于格式报文的文本信息,采用自然语言处理和深度学习等非结构文本提取技术,获得知识内容。
(2)基于多源萃取知识的协同建模与图谱生成
1)实体链接
步骤一:构建实体的向量表示:找到待处理实体的每个上下文,提取中心实体和上下文实体的关系,然后为每个中心实体构造词袋向量:
步骤二:使用聚类法,对所有向量表示进行聚类:
①在未标记的数据点中选一个作为形心,初始化簇c;
②获取形心一定半径内的点,标记它们并将它们在簇c中的计数器加1;
③计算这些点的均值,设为新的形心;
④重复第二和步骤三直到形心不再改变;
⑤如果簇c与已有簇的形心距离小于阈值,则合并;
⑥重复1到4步,直到所有样本都已标记;
⑦将每个样本放入访问计数最多的簇中。
2)实体属性值判定和实体关系补全等问题
(3)基于业务领域知识自主发现的知识图谱拓展
1)基于暗网探针的知识自动探测与发现,即发现新的知识,监控互联网上多出了哪些新知识,以及哪些新知识需要更新。
步骤一:公网热点智能监控技术:评估公网上哪些数据发生了变更,其中哪些数据包含值得更新的新知识。使用CN-DBpedia策略找出互联网上的易变实体;
①种子发现,即发现互联网上的新知识,作为可能更新到知识图谱的种子。
②种子扩充,这一步解决了种子过少的问题。如果每天的热门话题数量太少,所以需要通过扩展的方式得到更多的待更新实体。遵循的一个原则是:与最近更新的实体相关的实体更可能更新。
③频率估计,解决种子过多的问题。热点过多的情况下,可以选择优先级最高的K个热点,于是还需要一个衡量优先级的指标;规定,如果是一个新词,那么优先级设置为最高,如果是一个旧词,估计其上一次更新结束到现在的时间段内的更新次数,将这个次数除以更新间隔等到更新频率,作为优先级的指标。但对于有些热点来说,只能获取上一次的更新时间,由此计算出更新间隔,没有办法获取更新次数。就可以通过随机森林模型来估计更新频率。
④热点选取,按照更新频率对种子倒序排序,选择前K个种子即可。
步骤二:多源数据智能解析爬虫技术,抓取可能含有新知识的公网数据;
首先将暗网中的实体和非涉密的数据作为搜索词,通过搜索引擎搜索,选取返回的Top K个页面进行爬虫爬取。各大网站的页面结构不同,需要针对不同的网站解析正文内容。这里同样分两部分:其一:针对大媒体网站,采用定制化的规则抽取。其二:然后对小的网站,采用分类算法将网页中的正文内容识别出来进行抽取。最终,对于爬取到的内容,采用Simhash去重。
步骤三:基于文本相似性函数的公网与暗网知识对齐,利用暗网中的实体和事件信息,从公网数据中进行信息关联,也称知识对齐。
在获取到公网文本后,便可以对公网的文本进行知识抽取,即抽取工网中的实体、实体属性、实体和实体关系、事件触发词以及事件的各个论元。然后需要将公网中的实体与暗网中的实体对齐。因为这里很难获得足够多的标注数据进行分类训练,无法使用监督学习的方法,所以采用基于文本相似性函数的特征匹配方法。
2)基于知识图谱远程监督的知识标注,即利用已构建的知识图谱,标注含有新知识的文本信息,产生知识三元组。
步骤一:首先通过序列标注算法对文本序列进行实体提取;采用bilstm-crf序列标注算法,建立输入序列与输出序列之间的关系,并可以根据输入序列预测输出序列;
步骤二:使用知识图谱标注实体间关系,作为训练数据,具体包括以下子步骤:
①在知识图谱中检索序列中的实体;
②在序列中检索知识图谱中的实体间关系
③对序列标注实体间关系
步骤三:最后训练关系提取模型,用于关系提取
3)知识融合,即将知识三元组合并到已构建的知识图谱中进行更新,使的知识图谱更加贴近现状。
(二)基于作业模式演变的全网领域操作图网络构建
(1)基于作业模式演变的全网领域操作图网络构建
1)将查询图的边分为核心和外围两类,对于核心边及其相关顶点实施复杂度较大的同构及匹配查询,同时也基本控制了候选结果的数据规模;
步骤一:在这里,本发明并没有一味的追求出现次数最少的边,因为次数最少的几条边有可能是链接在特定的几个顶点之间,这样就不能充分利用顶点的结构信息过滤掉不匹配的顶点,所以综合考虑顶点和边,采用了最小生成树的思想;
步骤二:将查询图的子图同构精简为对其生成树的子图同构问题;
步骤三:基于查询图生成树的任务消解。
2)采用简单的方式对核心图的检索结果进行外围边的同构及匹配条件判断,从而消解子图匹配问题中复杂动作的数据规模。
(2)基于业务操作发现的操作图谱自动拓展
1)操作模式层的更新
对于概念的变化,按照数据库、各类业务数据库以及开放信息环境中的数据分类进行更新,通过自主学习框架检测发现新旧概念之间的差异,进行概念更新;
对于概念之间上下位关系的更新,由于更新会涉及到分类层次结构,因此通过自主学习框架检测操作图谱中可能出现的闭环式冲突,根据操作的时间特征进行冲突消解;
概念属性的更新,如果是新增概念属性,可以按照模式图构建过程中的概念属性新增方式处理;如果是对现有属性更新,则需要人工处理;如果当前概念的所有实体中该属性均已被移除,则可以自动把概念属性值移除。
2)操作数据层的更新
步骤一:对新增的结构化数据、半结构化数据或非结构化数据,利用基于多源数据融合和深度学习的操作抽取方法,抽取新的实体和实体间关系;在这个过程中,利用自主学习框架对深度置信网络的最优参数、基于监督学习与模式相结合操作抽取中的模式参数等进行优化调整。
步骤二:利用基于语义计算的多源操作融合方法,将新操作融合到操作图谱中;如果操作存在冲突,则人工干预处理,系统根据人工干预处理结果,自动调整优化基于语义计算的操作融合判断阈值参数;如果该操作的实体仍不能融合到现有操作图谱的实体,则直接在操作图谱中拓展新操作。
步骤三:利用基于知识表示学习方法开展操作推理,在语义向量空间开展操作关系预测,实现操作图谱的知识补全。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。