CN114417010A - 面向实时工作流的知识图谱构建方法、装置和存储介质 - Google Patents
面向实时工作流的知识图谱构建方法、装置和存储介质 Download PDFInfo
- Publication number
- CN114417010A CN114417010A CN202111681169.4A CN202111681169A CN114417010A CN 114417010 A CN114417010 A CN 114417010A CN 202111681169 A CN202111681169 A CN 202111681169A CN 114417010 A CN114417010 A CN 114417010A
- Authority
- CN
- China
- Prior art keywords
- real
- document
- time
- document data
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Abstract
本发明公开了面向实时工作流的知识图谱构建方法、装置和存储介质,该方法包括:采集实时工作流中的实时数据,将所述实时数据转化为实时文档数据;基于所述实时文档数据,生成文档数据集;通过知识提取模型从所述文档数据集提取图谱知识信息,根据所述图谱知识信息生成待确认问题;获得用户针对所述待确认问题的作答结果,基于所述作答结果构建文档图谱。该方法能够基于针对工作中的文档构建文档图谱,提高知识图谱的构建效率。
Description
技术领域
本发明涉及知识图谱技术领域,具体是面向实时工作流的知识图谱构建方法、装置和存储介质。
背景技术
近年来随着信息技术、网络技术的飞速发展,人工智能、大数据概念已经引发社会各界的的高度关注。
知识图谱是人工智能领域一个重要的分支,是大数据的一种有效的组织和利用机制。,基于知识图谱提取从海量、庞杂的大数据中提取有效的知识信息,构建数据结构化网络,通过可视化方法展示知识概念的关系和特点,从而深化大数据分析,提升数据价值。
然而,现有知识图谱构建需要将语料文档中的实体、事件、属性、关系等一一进行人工标注,人工标注必须达到足够的量级,然后再训练机器学习模型执行自动提取和标注;需要考查模型标注的指标效果是否达标,如不达标还继续安排继续人工标注所有类型;模型训练指标达到预期后,用于后续非结构化数据自动抽取成三元组的形式,再将三元组的知识构建成知识图谱现有的知识图谱构建过程繁琐、难度大、漏损率高,导致知识图谱应用的门槛提高,成为制约知识图谱在产业落地的瓶颈因素。
并且,对于各种工作流当中需要实时纳入知识图谱的语料文档来说,现有技术并不能满足将其实时性的标注、提取、纳入图谱的需求。
因此,如何基于针对工作流中的实时文档构建知识图谱,提高知识图谱的构建效率是本领域技术人员亟待解决的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明公开提供了面向实时工作流的知识图谱构建方法、装置、设备和存储介质。
为了实现上述发明目的,在第一个方面,本发明实施例提供面向实时工作流的知识图谱构建方法,包括:
采集实时工作流中的实时数据,将所述实时数据转化为实时文档数据;
基于所述实时文档数据,生成文档数据集;
通过知识提取模型从所述文档数据集提取图谱知识信息,根据所述图谱知识信息生成待确认问题;
获得用户针对所述待确认问题的作答结果,基于所述作答结果构建文档图谱。
在一些实施例中,所述基于所述实时文档数据,生成文档数据集,包括:
基于所述实时文档数据,执行文档数据优化;
根据优化后的文档数据,生成文档数据集。
在一些实施例中,所述实时工作流中的实时数据,包括:实时传输流数据、流媒体数据、即时通讯数据。
在一些实施例中,所述将所述实时数据转化为实时文档数据,包括:
将所述实时数据文本化,并暂存为实时文档数据。
在一些实施例中,所述文档数据优化,包括:确定所述实时文档中的关键词语,生成文档数据集。
在一些实施例中,所述基于所述实时文档数据,生成文档数据集,包括:
根据词语在所述实时文档数据中的频率信息获得词语权重值;
确定词语在所述实时文档数据中的分布状态;
根据所述词语权重值和分布状态,确定词语的综合权重值;
根据综合权重值进行词语排序;
根据词语排序获得文档中的关键词语,生成文档数据集。
在一些实施例中,所述文档数据优化,还包括:通过对所述文档数据执行知识融合处理降低文档数据的冗余度。
在一些实施例中,所述知识融合处理包括:文档数据预处理、相似度计算以及文档融合处理。
在一些实施例中,所述文档数据预处理,包括:
建立由节点和边构成的文档子图;
基于文档子图中节点和边的拓扑关系,确定所述节点和边的权重;
基于所述节点和边的权重进行文档子图融合筛选。
在一些实施例中,所述文档子图融合筛选,包括:
根据节点和边的权重,将所述文档子图转化为权重矩阵;
根据节点的标签信息,构造语义矩阵;
通过相似度函数求解语义相似度,构造相似度矩阵;
利用语义相似度矩阵进行文档子图的融合筛选。
在一些实施例中,提取的图谱知识信息包括以下至少一种:实体类型定义信息、事件类型定义信息、关系类型定义信息、属性类型定义信息。
在一些实施例中,还包括:根据所述作答结果,生成知识提取模型的优化训练数据,并利用所述优化训练数据对知识提取模型进行优化训练。
第二个方面,本发明公开实施例还提供一种面向实时工作流的知识图谱构建装置,包括:
采集模块,用于采集实时工作流中的实时数据,将所述实时数据转化为实时文档数据;
生成模块,用于基于所述实时文档数据,生成文档数据集;
提取模块,用于通过知识提取模型从所述文档数据集提取图谱知识信息,根据所述图谱知识信息生成待确认问题;
构建模块,用于获得用户针对所述待确认问题的作答结果,基于所述作答结果构建文档图谱。
在一些实施例中,所述生成模块,包括:
优化子模块,用于基于所述实时文档数据,执行文档数据优化;
生成子模块,用于根据优化后的文档数据,生成文档数据集。
在一些实施例中,所述实时工作流中的实时数据,包括:实时传输流数据、流媒体数据、即时通讯数据。
在一些实施例中,所述将所述实时数据转化为实时文档数据,包括:
将所述实时数据文本化,并暂存为实时文档数据。
在一些实施例中,所述优化子模块,包括:
获取单元,用于根据词语在所述实时文档数据中的频率信息获得词语权重值;
第一确定单元,用于确定词语在所述实时文档数据中的分布状态;
第二确定单元,用于根据所述词语权重值和分布状态,确定词语的综合权重值;
排序单元,用于根据综合权重值进行词语排序;
生成单元,用于根据词语排序获得文档中的关键词语,生成文档数据集。
在一些实施例中,所述优化子模块,还用于通过对所述文档数据执行知识融合处理降低文档数据的冗余度。
在一些实施例中,所述优化子模块中的所述知识融合处理包括:文档数据预处理、相似度计算以及文档融合处理。
在一些实施例中,所述提取模块中提取的图谱知识信息包括以下至少一种:实体类型定义信息、事件类型定义信息、关系类型定义信息、属性类型定义信息。
在一些实施例中,还包括:优化训练模块,用于根据所述作答结果,生成知识提取模型的优化训练数据,并利用所述优化训练数据对知识提取模型进行优化训练。
第三个方面,本公开实施例还公开了一种计算机装置,计算机装置包括:
处理器,处理器用于执行存储器中存储的计算机程序时实现上述任一方法的步骤。
第四个方面,本公开实施例还公开了一种计算机可读存储介质,其上存储有计算机指令,其特征在于:计算机指令被处理器执行时实现上述任一方法的步骤。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的面向实时工作流的知识图谱构建方法,通过对文档数据的优化,选取关键词语生成文档数据集,简化了后续对于图谱知识的提取,降低工作流中的文档处理量,将文档数据集进行融合筛选,进一步地提高了文档数据的代表性与准确度;其次将图谱知识通过待确认的问题形式向用户提问,能够降低用户对知识进行标注的难度,利用知识获取模型提取图谱知识,与用户作答的方式相结合,对用户要求的降低,使得可以通过多种方式寻求所需的用户资源,提高了文档图谱的构建效率,并增强了对工作中文档的处理精确度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步地详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1为本发明实施例提供的面向实时工作流的知识图谱构建方法的流程图;
图2为本发明实施例提供的步骤S102流程图;
图3为本发明实施例提供的步骤S1021流程图;
图4为本发明实施例提供的面向实时工作流的知识图谱构建装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1所示,本发明实施例提供的面向实时工作流的知识图谱构建方法,该方法包括:步骤S101~S104;
S101、采集实时工作流中的实时数据,将所述实时数据转化为实时文档数据。
本步骤中,所述实时工作流中的实时数据,包括:实时传输流数据、流媒体数据、即时通讯数据。
具体的,所述将所述实时数据转化为实时文档数据,包括:将所述实时数据文本化,并暂存为实时文档数据。
例如,将流媒体数据进行语音识别,生成实时语音数据;将流媒体数据进行图像识别,生成图像数据;将所述语音数据和所述图像数据文本化,即查询所述语音数据和所述图像数据的词性信息(包括以下至少一项:名词、动词),确定词性信息对应的句子成分(包括以下至少一项:主语、谓语、宾语),根据所述句子成分选择句型,所述句型包括预设词槽;将所述语音数据和所述图像数据添加至所述句型的词槽,生成实时文档数据。
S102、基于所述实时文档数据,生成文档数据集。
具体的,所述文档数据优化,包括确定所述实时文档中的关键词语,生成文档数据集。
进一步地,所述文档数据优化,还包括:通过对所述文档数据执行知识融合处理降低文档数据的冗余度;其中,所述知识融合处理包括:文档数据预处理、相似度计算以及文档融合处理。
S103、通过知识提取模型从所述文档数据集提取图谱知识信息,根据所述图谱知识信息生成待确认问题。
本步骤中基于所述知识图谱定义信息,通过知识提取模型从所述文档数据集提取图谱知识信息。
具体的,在获取知识图谱的定义信息时,通过提供图谱配置界面的方式,由用户通过该图谱配置界面输入定义信息。在知识图谱包括实体节点、属性节点和关系边时,上述获取知识图谱的定义信息可以包括获取知识图谱的实体类型定义信息、事件类型定义信息和关系类型定义信息中的至少一项。
针对实体类型的图谱知识,其中输入的定义信息可以是包括的具体实体节点的摘要信息,例如可以包括时间、创建人、企业等。
针对关系类型的图谱知识,其中输入的定义信息可以是包括具体关系的摘要信息,例如可以包括“负责人-组员-视频”等。
针对事件类型的图谱知识,其中输入的定义信息可以是包括具体事件的摘要信息,该摘要信息可以包括人物、时间、视频等。
进一步地,知识获取模型可以是多种类型的模型,例如可以包括规则模型、字典模型、统计学习模型、机器学习模型,语言模型中的至少一种。针对获取上述的实体类型的图谱知识、事件类型的图谱知识和关系类型的图谱知识这三种类型的图谱知识,其可以利用分别对应的实体类型知识获取模型、事件类型知识获取模型和关系类型知识获取模型去获取,而具体的模型数量可以不做限制。
进一步地,在推送待确认的问题时,可以基于关联性问题进行推送,例如包括如下的步骤:
首先,推送的第一个问题为“第X文档是否存储”,若用户的作答结果为“是”,则可以在知识图谱上建立实体节点;若用户的作答结果是“否”,则可以跳过关联性问题,同时“第X文档不存储”作为公司这一图谱知识将在后续提取图谱知识时将被过滤掉;
其次,推送的第二个问题为“第X文档-A某-2点”是否属于“文档-递交时间-负责人”这样的关系?,若用户的作答结果为“是”,则在知识图谱上创建“文档-递交时间-负责人”这一关系边,并开继续询问其他问题;若用户的作答结果为“否”,则将这一问题对应的图谱知识计入负向清,在后续提取图谱知识时将被过滤掉。
S104、获得用户针对所述待确认问题的作答结果,基于所述作答结果构建文档图谱。
本步骤中基于用户的作答结果确认是否满足预设确认条件,并在满足预设确认条件时根据与作答结果对应的图谱知识构建文档图谱。
具体的,通常用户的作答结果可以包括确定结果和否认结果,或者,还可以进一步设置不确定选项,即“是、否、不确定”。则当用户的作答结果包括确认类型结果和否认类型结果时,上述的基于用户的作答结果确认是否满足预设确认条件包括:基于确认类型结果的数量和/或否认类型结果的数量,确定是否满足预设确认条件。
例如,对于推送给用户的某一个待确认问题,用户可以选择的作答结果包括“是”、“否”和“不确认”,当用户作答结果为“是”,则该问题对应的图谱知识获得1人支持,即确认类型的结果数量增加1;而当用户作答结果为“否”时,即否认类型结果的数量增加1,将预设确定条件设置为确认或否定必须达到一定的数值,则可以进一步的确定是否满足预设确认条件。
本发明实施例中,通过对文档数据的优化,选取关键词语生成文档数据集,简化了后续对于图谱知识的提取,降低工作流中的文档处理量,将文档数据集进行融合筛选,进一步地提高了文档数据的代表性与准确度;其次将图谱知识通过待确认的问题形式向用户提问,能够降低用户对知识进行标注的难度,利用知识获取模型提取图谱知识,与用户作答的方式相结合,对用户要求的降低,使得可以通过多种方式寻求所需的用户资源,提高了文档图谱的构建效率,并增强了对工作中文档的处理精确度。
在一些实施例中,参照图2所示,上述步骤S102中所述基于所述实时文档数据,生成文档数据集,包括:
S1021、基于所述实时文档数据,执行文档数据优化。
本步骤中的文档优化还包括执行合规检查,剔除敏感词汇,去除冗余等。
S1022、根据优化后的文档数据,生成文档数据集。
在一些实施例中,参照图3所示,上述步骤S1021中所述基于所述实时文档数据,执行文档数据优化,包括:
S10211、根据词语在所述实时文档数据中的频率信息获得词语权重值。
本步骤中在实时文档中随机选取一个词语,将词语的频率信息以及在实时文档中的频率信息相乘得到每个词语的权重值WTF-IDF,其计算公式如下:
WTF-IDF(n)=TFn*IDFn
其中,n表示词语在文档集中(即工作流中的实施文档的集合)出现的频次,TFn表示的是一个词在文档集中出现的频次,IDFn表示的是各个词语在整个文档集的频次;其中,各个词语在整个文档集的频次IDFn的计算公式如下:
IDFn=log(N/DFn)
其中,N表示文档集中总的文档数,DFn表示的是包含该词语的总的文档数目。
S10212、确定词语在所述实时文档数据中的分布状态。
本步骤中利用以下公式计算一个词语在整个文档集中的分布状态WEntropy:
其中,N表示的是总文档数,dwp表示的是该词w在该文档中出现的频次,相应nw表示的是词w在文档集中出现的频次。
S10213、根据所述词语权重值和分布状态,确定词语的综合权重值。
本步骤中,根据所述词语权重值WTF-IDF和分布状态WEntropy计算综合权重Wweight,具体计算公式为:
S10214、根据综合权重值进行词语排序。
S10215、根据词语排序获得文档中的关键词语,生成文档数据集。
本步骤中基于综合权重值将词语进行排序,选取前N个词语作为关键词语输出,生成文档数据集。
在一些实施例中,所述文档数据优化,还包括:通过对所述文档数据执行知识融合处理降低文档数据的冗余度。
其中,所述知识融合处理包括:文档数据预处理、相似度计算以及文档融合处理。
本步骤中文档数据预处理,包括:建立由节点和边构成的文档子图;基于文档子图中节点和边的拓扑关系,确定所述节点和边的权重;基于所述节点和边的权重进行文档子图融合筛选.
具体的,将各个关键词语作为节点,若关键词语属于同一语句,则构建该关键词语之间的边;或者获取关键词语之间的间隔字符,若所述间隔字符符合预设阈值,则构建关键词语之间的边,进而基于节点与边构建文档子图。
进一步地,基于文档子图中节点和边的拓扑关系,确定所述节点的计算公式如下:
其中,文档子图表示为Gk,文档子图中各个节点的权重信息的和表示为Tv(Gk,Vi),Vi表示第i个节点信息,则表示第i个顶点的权重信息,n表示文档子图中各个节点的个数,表示为VG表示文档子图中的节点。
计算边的权重信息的公式如下所示:
其中,TE(Gk,Vi,Vj)分别表示的是在一个文档子图中,是否同时存在与Vi和Vj相互连接的边,有的话可以用1来表示,否则为0,Vj表示第j个节点信息,EG表示文档子图中边的个数。
其中,T(Vi,Vj)表示是各个文档子图中边的权重信息,而n表示的是文档子图中的各个节点数目。
进一步地,基于所述节点和边的权重进行文档子图融合筛选;其中,所述文档子图融合筛选,包括:根据节点和边的权重,将所述文档子图转化为权重矩阵;根据节点的标签信息,构造语义矩阵;通过相似度函数求解语义相似度,构造相似度矩阵;利用语义相似度矩阵进行文档子图的融合筛选,具体步骤如下:
将所有的文档子图转换为一个权重矩阵,其表现形式为:
其中,TE表示文档子图各个边的关联权重信息,Ek表示一个知识子中各个知识点之间是否有相应的边相连,如果有的话,则将其表示为TE,否则,矩阵定义为0。
将各个顶点的语义信息,也就是标签信息表示为矩阵M=(M1,M2,…;Mn),如下式所示:
Mk[i][1]=Ti,Vi∈Gk
其中,Mk[i][1]表示的是用n*1的矩阵将文档子图中的信息进行相应的存储,Ti表示文档子图中的各个顶点所携带的语义信息。
利用相似性函数来进行求解SimsT(Gkli,Gklj),实现将文本信息转换为文档知识的语义相似度矩阵,其中,相似性函数如下所示:
进而,利用相似性函数来进行求解SimsT(Gkli,Gklj)的计算公式如下:
利用SimsT(Gkli,Gklj)计算相似度矩阵的公式如下所示:
其中,M[i][j]分别表示的是两个文档子图Gkli和Gklj中的相似度矩阵。
对文档子图形成的矩阵Ek求和,得到最终的融合矩阵E1,2,3,…n。其中,n表示子图的个数,E1,2,3,…n表示的是将n个文档子图进行融合后的结果。
根据相似度矩阵M[i][j]对Ek进行更新,得到融合矩阵EMt,生成文档数据集。
在一些实施例中,还包括:根据所述作答结果,生成知识提取模型的优化训练数据,并利用所述优化训练数据对知识提取模型进行优化训练。
具体的,由于用户的作答结果相当于对知识获取模型中提取的图谱知识进行重新校正后的结果,所以利用用户作答结果生成新的样本数据作为优化训练数据,对知识获取模型优化训练。
进一步地,基于优化训练数据对知识获取模型进行优化训练,提高知识获取模型的性能,生成优化后的知识获取模型,对于经过优化后的知识获取模型,可以将其提取的图谱知识继续转换成待确认的问题,然后将待确认的问题推送给用户进行作答;也可以对用户的作答结果进行分析,确定利用知识获取模型从文档数据集中提取图谱知识性能参数值达到一定的阈值,即大于或等于预设阈值时,利用图谱知识存入到数据库中,并直接利用该图谱知识构建文档图谱。
其中,性能参数值可以包括准确率、召回率或F1值等衡量知识获取模型性能的参数,或者依据上述参数计算得到的其他数值的形式,其中F1值为精确值和召回率的调和均值。
本公开实施例中,能够实现不断由用户确认的作答结果作为优化训练数据优化知识获取模型,再生成更加准确的问题推送给用户作答。
第二个方面本发明实施例提供的一种面向实时工作流的知识图谱构建装置,参照图4所示,包括:
采集模块41,用于采集实时工作流中的实时数据,将所述实时数据转化为实时文档数据。
本步骤中,所述实时工作流中的实时数据,包括:实时传输流数据、流媒体数据、即时通讯数据。
具体的,所述将所述实时数据转化为实时文档数据,包括:将所述实时数据文本化,并暂存为实时文档数据。
例如,将流媒体数据进行语音识别,生成实时语音数据;将流媒体数据进行图像识别,生成图像数据;将所述语音数据和所述图像数据文本化,即查询所述语音数据和所述图像数据的词性信息(包括以下至少一项:名词、动词),确定词性信息对应的句子成分(包括以下至少一项:主语、谓语、宾语),根据所述句子成分选择句型,所述句型包括预设词槽;将所述语音数据和所述图像数据添加至所述句型的词槽,生成实时文档数据。
生成模块42,用于基于所述实时文档数据,生成文档数据集。
具体的,所述文档数据优化,包括确定所述实时文档中的关键词语,生成文档数据集。
进一步地,所述文档数据优化,还包括:通过对所述文档数据执行知识融合处理降低文档数据的冗余度;其中,所述知识融合处理包括:文档数据预处理、相似度计算以及文档融合处理。
提取模块43,用于通过知识提取模型从所述文档数据集提取图谱知识信息,根据所述图谱知识信息生成待确认问题。
本步骤中基于所述知识图谱定义信息,通过知识提取模型从所述文档数据集提取图谱知识信息。
具体的,在获取知识图谱的定义信息时,通过提供图谱配置界面的方式,由用户通过该图谱配置界面输入定义信息。在知识图谱包括实体节点、属性节点和关系边时,上述获取知识图谱的定义信息可以包括获取知识图谱的实体类型定义信息、事件类型定义信息和关系类型定义信息中的至少一项。
针对实体类型的图谱知识,其中输入的定义信息可以是包括的具体实体节点的摘要信息,例如可以包括时间、创建人、企业等。
针对关系类型的图谱知识,其中输入的定义信息可以是包括具体关系的摘要信息,例如可以包括“负责人-组员-视频”等。
针对事件类型的图谱知识,其中输入的定义信息可以是包括具体事件的摘要信息,该摘要信息可以包括人物、时间、视频等。
进一步地,知识获取模型可以是多种类型的模型,例如可以包括规则模型、字典模型、统计学习模型、机器学习模型,语言模型中的至少一种。针对获取上述的实体类型的图谱知识、事件类型的图谱知识和关系类型的图谱知识这三种类型的图谱知识,其可以利用分别对应的实体类型知识获取模型、事件类型知识获取模型和关系类型知识获取模型去获取,而具体的模型数量可以不做限制。
进一步地,在推送待确认的问题时,可以基于关联性问题进行推送,例如包括如下的步骤:
首先,推送的第一个问题为“第X文档是否存储”,若用户的作答结果为“是”,则可以在知识图谱上建立实体节点;若用户的作答结果是“否”,则可以跳过关联性问题,同时“第X文档不存储”作为公司这一图谱知识将在后续提取图谱知识时将被过滤掉;
其次,推送的第二个问题为“第X文档-A某-2点”是否属于“文档-递交时间-负责人”这样的关系?,若用户的作答结果为“是”,则在知识图谱上创建“文档-递交时间-负责人”这一关系边,并开继续询问其他问题;若用户的作答结果为“否”,则将这一问题对应的图谱知识计入负向清,在后续提取图谱知识时将被过滤掉。
构建模块44,用于获得用户针对所述待确认问题的作答结果,基于所述作答结果构建文档图谱。
本步骤中基于用户的作答结果确认是否满足预设确认条件,并在满足预设确认条件时根据与作答结果对应的图谱知识构建文档图谱。
具体的,通常用户的作答结果可以包括确定结果和否认结果,或者,还可以进一步设置不确定选项,即“是、否、不确定”。则当用户的作答结果包括确认类型结果和否认类型结果时,上述的基于用户的作答结果确认是否满足预设确认条件包括:基于确认类型结果的数量和/或否认类型结果的数量,确定是否满足预设确认条件。
例如,对于推送给用户的某一个待确认问题,用户可以选择的作答结果包括“是”、“否”和“不确认”,当用户作答结果为“是”,则该问题对应的图谱知识获得1人支持,即确认类型的结果数量增加1;而当用户作答结果为“否”时,即否认类型结果的数量增加1,将预设确定条件设置为确认或否定必须达到一定的数值,则可以进一步的确定是否满足预设确认条件。
在一些实施例中,所述生成模块42,包括:
优化子模块421,用于基于所述实时文档数据,执行文档数据优化。
具体的,文档优化还包括执行合规检查,剔除敏感词汇,去除冗余等。
生成子模块422,用于根据优化后的文档数据,生成文档数据集。
在一些实施例中,所述实时工作流中的实时数据,包括:实时传输流数据、流媒体数据、即时通讯数据。
在一些实施例中,所述将所述实时数据转化为实时文档数据,包括:
将所述实时数据文本化,并暂存为实时文档数据。
在一些实施例中,所述优化子模块421,包括:
获取单元4211,用于根据词语在所述实时文档数据中的频率信息获得词语权重值。
具体的,在实时文档中随机选取一个词语,将词语的频率信息以及在实时文档中的频率信息相乘得到每个词语的权重值WTF-IDF,其计算公式如下:
WTF-IDF(n)=TFn*IDFn
其中,n表示词语在文档集中(即工作流中的实施文档的集合)出现的频次,TFn表示的是一个词在文档集中出现的频次,IDFn表示的是各个词语在整个文档集的频次;其中,各个词语在整个文档集的频次IDFn的计算公式如下:
IDFn=log(N/DFn)
其中,N表示文档集中总的文档数,DFn表示的是包含该词语的总的文档数目。
第一确定单元4212,用于确定词语在所述实时文档数据中的分布状态。
具体的,利用以下公式计算一个词语在整个文档集中的分布状态WEntropy:
其中,N表示的是总文档数,dwp表示的是该词w在该文档中出现的频次,相应nw表示的是词w在文档集中出现的频次。
第二确定单元4213,用于根据所述词语权重值和分布状态,确定词语的综合权重值。
具体的,根据所述词语权重值WTF-IDF和分布状态WEntropy计算综合权重Wweight,具体计算公式为:
排序单元4214,用于根据综合权重值进行词语排序。
生成单元4215,用于根据词语排序获得文档中的关键词语,生成文档数据集。
具体的,基于综合权重值将词语进行排序,选取前N个词语作为关键词语输出,生成文档数据集。
在一些实施例中,所述优化子模块,还用于通过对所述文档数据执行知识融合处理降低文档数据的冗余度。
在一些实施例中,所述优化子模块中的所述知识融合处理包括:文档数据预处理、相似度计算以及文档融合处理。
本步骤中文档数据预处理,包括:建立由节点和边构成的文档子图;基于文档子图中节点和边的拓扑关系,确定所述节点和边的权重;基于所述节点和边的权重进行文档子图融合筛选.
具体的,将各个关键词语作为节点,若关键词语属于同一语句,则构建该关键词语之间的边;或者获取关键词语之间的间隔字符,若所述间隔字符符合预设阈值,则构建关键词语之间的边,进而基于节点与边构建文档子图。
进一步地,基于文档子图中节点和边的拓扑关系,确定所述节点的计算公式如下:
其中,文档子图表示为Gk,文档子图中各个节点的权重信息的和表示为Tv(Gk,Vi),Vi表示第i个节点信息,则表示第i个顶点的权重信息,n表示文档子图中各个节点的个数,表示为VG表示文档子图中的节点。
计算边的权重信息的公式如下所示:
其中,TE(Gk,Vi,Vj)分别表示的是在一个文档子图中,是否同时存在与Vi和Vj相互连接的边,有的话可以用1来表示,否则为0,Vj表示第j个节点信息,EG表示文档子图中边的个数。
其中,T(Vi,Vj)表示是各个文档子图中边的权重信息,而n表示的是文档子图中的各个节点数目。
进一步地,基于所述节点和边的权重进行文档子图融合筛选;其中,所述文档子图融合筛选,包括:根据节点和边的权重,将所述文档子图转化为权重矩阵;根据节点的标签信息,构造语义矩阵;通过相似度函数求解语义相似度,构造相似度矩阵;利用语义相似度矩阵进行文档子图的融合筛选,具体步骤如下:
将所有的文档子图转换为一个权重矩阵,其表现形式为:
其中,TE表示文档子图各个边的关联权重信息,Ek表示一个知识子中各个知识点之间是否有相应的边相连,如果有的话,则将其表示为TE,否则,矩阵定义为0。
将各个顶点的语义信息,也就是标签信息表示为矩阵M=(M1,M2,…,Mn),如下式所示:
Mk[i][1]=Ti,Vi∈Gk
其中,Mk[i][1]表示的是用n*1的矩阵将文档子图中的信息进行相应的存储,Ti表示文档子图中的各个顶点所携带的语义信息。
利用相似性函数来进行求解SimsT(Gkli,Gklj),实现将文本信息转换为文档知识的语义相似度矩阵,其中,相似性函数如下所示:
进而,利用相似性函数来进行求解SimsT(Gkli,Gklj)的计算公式如下:
利用SimsT(Gkli,Gklj)计算相似度矩阵的公式如下所示:
其中,M[i][j]分别表示的是两个文档子图Gkli和Gklj中的相似度矩阵。
对文档子图形成的矩阵Ek求和,得到最终的融合矩阵E1,2,3,…n。其中,n表示子图的个数,E1,2,3,…n表示的是将n个文档子图进行融合后的结果。
根据相似度矩阵M[i][j]对Ek进行更新,得到融合矩阵EMt,生成文档数据集。
在一些实施例中,还包括:优化训练模块,用于根据所述作答结果,生成知识提取模型的优化训练数据,并利用所述优化训练数据对知识提取模型进行优化训练。
具体的,由于用户的作答结果相当于对知识获取模型中提取的图谱知识进行重新校正后的结果,所以利用用户作答结果生成新的样本数据作为优化训练数据,对知识获取模型优化训练。
进一步地,基于优化训练数据对知识获取模型进行优化训练,提高知识获取模型的性能,生成优化后的知识获取模型,对于经过优化后的知识获取模型,可以将其提取的图谱知识继续转换成待确认的问题,然后将待确认的问题推送给用户进行作答;也可以对用户的作答结果进行分析,确定利用知识获取模型从文档数据集中提取图谱知识性能参数值达到一定的阈值,即大于或等于预设阈值时,利用图谱知识存入到数据库中,并直接利用该图谱知识构建文档图谱。
其中,性能参数值可以包括准确率、召回率或F1值等衡量知识获取模型性能的参数,或者依据上述参数计算得到的其他数值的形式,其中F1值为精确值和召回率的调和均值。
第三方面,本发明实施例提供了一种计算机装置,计算机装置包括:处理器,处理器用于执行存储器中存储的计算机程序时实现如上述构建文档图谱的方法的步骤。处理器可以是中央处理子模块(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理子模块,并且可以控制计算机中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行程序指令,以实现上文的本申请的各个实施例的方法步骤以及/或者其他期望的功能。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机指令,计算机指令被处理器执行时实现如上更新知识图谱的方法的步骤。
除了上述方法和装置以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。
计算机程序产品可以以一种或多种程序设计语言的意组合来编写用于执行本发明实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本申请各种实施例的方法步骤。计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.面向实时工作流的知识图谱构建方法,其特征在于,包括:
采集实时工作流中的实时数据,将所述实时数据转化为实时文档数据;
基于所述实时文档数据,生成文档数据集;
通过知识提取模型从所述文档数据集提取图谱知识信息,根据所述图谱知识信息生成待确认问题;
获得用户针对所述待确认问题的作答结果,基于所述作答结果构建文档图谱。
2.如权利要求1所述的方法,其特征在于,所述基于所述实时文档数据,生成文档数据集,包括:
基于所述实时文档数据,执行文档数据优化;
根据优化后的文档数据,生成文档数据集。
3.如权利要求1或2所述的方法,其特征在于,所述实时工作流中的实时数据,包括:实时传输流数据、流媒体数据、即时通讯数据。
4.如权利要求3所述的方法,其特征在于,所述将所述实时数据转化为实时文档数据,包括:
将所述实时数据文本化,并暂存为实时文档数据。
5.如权利要求1所述的方法,其特征在于,所述基于所述实时文档数据,生成文档数据集,包括:
根据词语在所述实时文档数据中的频率信息获得词语权重值;
确定词语在所述实时文档数据中的分布状态;
根据所述词语权重值和分布状态,确定词语的综合权重值;
根据综合权重值进行词语排序;
根据词语排序获得文档中的关键词语,生成文档数据集。
6.如权利要求1所述的方法,其特征在于,所述文档数据优化,还包括:通过对所述文档数据执行知识融合处理降低文档数据的冗余度。
7.如权利要求6所述的方法,其特征在于,所述知识融合处理包括:文档数据预处理、相似度计算以及文档融合处理。
8.面向实时工作流的知识图谱构建装置,其特征在于,包括:
采集模块,用于采集实时工作流中的实时数据,将所述实时数据转化为实时文档数据;
生成模块,用于基于所述实时文档数据,生成文档数据集;
提取模块,用于通过知识提取模型从所述文档数据集提取图谱知识信息,根据所述图谱知识信息生成待确认问题;
构建模块,用于获得用户针对所述待确认问题的作答结果,基于所述作答结果构建文档图谱。
9.一种计算机装置,其特征在于,所述计算机装置包括:
处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1-7中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111681169.4A CN114417010A (zh) | 2021-12-31 | 2021-12-31 | 面向实时工作流的知识图谱构建方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111681169.4A CN114417010A (zh) | 2021-12-31 | 2021-12-31 | 面向实时工作流的知识图谱构建方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114417010A true CN114417010A (zh) | 2022-04-29 |
Family
ID=81270773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111681169.4A Pending CN114417010A (zh) | 2021-12-31 | 2021-12-31 | 面向实时工作流的知识图谱构建方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114417010A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634865A (zh) * | 2024-01-25 | 2024-03-01 | 卓望数码技术(深圳)有限公司 | 工作流创建方法、装置、设备及存储介质 |
-
2021
- 2021-12-31 CN CN202111681169.4A patent/CN114417010A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634865A (zh) * | 2024-01-25 | 2024-03-01 | 卓望数码技术(深圳)有限公司 | 工作流创建方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112184525B (zh) | 通过自然语义分析实现智能匹配推荐的系统及方法 | |
RU2704531C1 (ru) | Способ и устройство для анализа семантической информации | |
US20100079464A1 (en) | Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products | |
US9111248B2 (en) | Procurement system | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN111708774B (zh) | 一种基于大数据的产业分析系统 | |
CN112100396A (zh) | 一种数据处理方法和装置 | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
CN112449700A (zh) | 语义模型实例化方法、系统和装置 | |
CN111369294B (zh) | 软件造价估算方法及装置 | |
CN115757689A (zh) | 一种信息查询系统、方法及设备 | |
CN113076735A (zh) | 目标信息的获取方法、装置和服务器 | |
CN116070599A (zh) | 智能化题库生成及辅助管理系统 | |
CN114417010A (zh) | 面向实时工作流的知识图谱构建方法、装置和存储介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
RU2718978C1 (ru) | Способ управления автоматизированной системой правовых консультаций | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN116860927A (zh) | 一种基于知识图谱的审计指引智能问答方法、系统及设备 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
CN116469500A (zh) | 一种基于医疗文档后结构化的数据质量控制方法及系统 | |
CN115660695A (zh) | 客服人员标签画像构建方法、装置、电子设备及存储介质 | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |