CN114153990A - 一种知识生产管线的构建方法、系统及装置 - Google Patents
一种知识生产管线的构建方法、系统及装置 Download PDFInfo
- Publication number
- CN114153990A CN114153990A CN202111488612.6A CN202111488612A CN114153990A CN 114153990 A CN114153990 A CN 114153990A CN 202111488612 A CN202111488612 A CN 202111488612A CN 114153990 A CN114153990 A CN 114153990A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- operator
- data
- graph
- production pipeline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 96
- 238000010276 construction Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 74
- 230000008569 process Effects 0.000 claims abstract description 37
- 238000010586 diagram Methods 0.000 claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000003860 storage Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 description 21
- 238000010606 normalization Methods 0.000 description 13
- 238000011161 development Methods 0.000 description 11
- 230000018109 developmental process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000013480 data collection Methods 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013506 data mapping Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 241000219109 Citrullus Species 0.000 description 2
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000502522 Luscinia megarhynchos Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- QJGQUHMNIGDVPM-UHFFFAOYSA-N nitrogen group Chemical group [N] QJGQUHMNIGDVPM-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229910052573 porcelain Inorganic materials 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Manufacturing & Machinery (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了一种知识生产管线的构建方法、系统及装置,所述方法包括:获取知识算子;所述知识算子具有预设的标准化接口,所述知识算子包括以下算子中的一种或多种:抽取算子、映射算子、标化算子、链指算子、融合算子;获取知识加工流向图;所述知识加工流向图至少反映各知识算子之间的数据依赖关系;将所述知识算子按照所述知识加工流向图进行装载,以得到所述知识生产管线;所述知识生产管线用于接收实例数据,并对其进行加工以生成知识图谱。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种知识生产管线的构建方法、系统及装置。
背景技术
不同平台或不同业务领域分别拥有各自的数据以及数据格式。随着数据管理和数据建设的发展,各业务方希望能够将拥有的数据转化为知识图谱,以高效的呈现数据所蕴含的知识信息,进而有效提升数据管理和利用的效率。从整体来看,如果各业务方自行利用本业务领域的数据创建知识图谱,则会导致大量的重复劳动被消耗,不利于生产效率的提高。
因此,亟需一种知识生产方法,以标准化的框架帮助不同平台或不同业务领域实现知识图谱的构建。
发明内容
本说明书一个方面提供一种知识生产管线的构建方法,包括:获取知识算子;所述知识算子具有预设的标准化接口,所述知识算子包括以下算子中的一种或多种:抽取算子、映射算子、标化算子、链指算子、融合算子;获取知识加工流向图;所述知识加工流向图至少反映各知识算子之间的数据依赖关系;将所述知识算子按照所述知识加工流向图进行装载,以得到所述知识生产管线;所述知识生产管线用于接收实例数据,并对其进行加工以生成知识图谱。
本说明书另一个方面提供一种知识生产管线的构建系统,包括:知识算子获取模块,用于获取所述知识算子;所述知识算子具有预设的标准化接口,所述知识算子包括以下算子中的一种或多种:抽取算子、映射算子、标化算子、链指算子、融合算子;知识加工流向图获取模块,用于获取知识加工流向图;所述知识加工流向图至少反映各知识算子之间的数据依赖关系;知识生产管线确定模块,用于将所述知识算子按照所述知识加工流向图进行装载,以得到所述知识生产管线;所述知识生产管线用于接收实例数据,并对其进行加工以生成知识图谱。
本说明书另一个方面提供一种知识生产管线的构建装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现所述的知识生产管线的构建方法。
本说明书另一个方面提供一种知识图谱生成方法,包括:获取实例数据;基于所述实例数据,通过所述的方法生成的知识生产管线,生成或更新目标图谱。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的一种知识生产管线构建方法的示例性流程图;
图2是根据本说明书一些实施例所示的一种知识生产管线构建系统的框图;
图3是根据本说明书一些实施例所示的知识加工流向图示意图;
图4是根据本说明书一些实施例所示的一种基于结构化数据生成知识图谱的示例性流程图;
图5是根据本说明书一些实施例所示的一种基于非结构化数据生成知识图谱的示例性流程图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
对于不同平台、不同业务领域,分别拥有着大量的数据(如可以以图片、文本、表格等数据形式记录的业务数据),为了提升业务效果、业务效率和计算效能,通常可以将这些业务数据转化为知识图谱的形式进行表示。知识图谱是指由一系列实体实例(即实体对应的数据实例)以及实体实例之间关系构成的知识库。其中,实体是对客观个体的广泛抽象,其可以指物理世界中的有形物体,如人、汽车、商户等,也可以指无形的对象,如话语、歌曲、电影、资金、程序代码等等。数据实例可以是实体的抽象概念下对应的实际存在的例子,如人可以具体是张三、李四、李明等,歌曲可以具体是《青花瓷》、《夜莺》、《天鹅湖》,商户具体可以是商户A、商户B、商户C等。实体实例之间可以具有关系,例如商户A与商户B有业务往来、商户C是商户A的子商户、张三是商户A的管理者等。在一些实施例中,实体实例之间的关系亦可看作是对应实体间的关系,例如,人与商户之间可以具有管理关系或雇佣关系等。在一些实施例中,知识图谱中的实体实例可以用节点表示,实体实例间关系可以用连接节点的边表示。
在一些实施例中,业务方可以自行利用数据构建知识图谱,具体过程可以是构建知识图谱的本体定义数据(或称为schema),其中包括实体定义以及关系定义,进一步,基于schema定义图谱算子,最后通过执行图谱算子完成知识图谱的构建。然而在这一过程中,还会涉及图谱查询、文本处理、图嵌入表示等需求,则需要业务方开发实现这些功能的组件。也就是说,业务方为了构建知识图谱需要额外进行技术开发,而构建知识图谱只是为了完成其目标业务任务(如实体分类、关系预测等)的前期工作。另一方面,从整体来看,不同的业务方为了构建自己需要的知识图谱会有大量的重复工作产生。例如,业务方A为了对节点的属性进行标准化处理开发了属性标化算子,业务方B也需要对其图谱的节点属性进行标准化处理,因此也开发了类似的属性标化算子等。
如果能有统一的平台(如知识生成平台或知识图谱平台)为各业务方提供图谱构建服务,不仅能节省业务方的技术开发时间,还能从整体上避免重复工作,以及充分利用已有的图谱算子或功能组件。
鉴于上述情况,本说明一些实施例提供了一种更加高效的知识生产方法和系统,这种方式通过标准化流程为业务方(或称为用户)构建知识生产管线,业务方将实例数据输入到知识生产管线中,便可自动化生成知识图谱。具体的,所述方法包括获取预设的标准化接口的算子(如知识算子或图谱算子等)以及知识加工流向图,并基于知识加工流向图,将知识算子按照知识加工流向图进行装载,以得到知识生产管线。通过本说明书一些实施例所述的知识生产管线的构建方法和系统,可以令知识生产管线的构建实现自动化、标准化,构建过程更加高效,降低了定制化开发、维护的成本。进一步的,本说明书一些实施例中知识生产管线所使用的知识算子可以根据需要上传至算子库中(也可以由算子库中调取),使得用户也可以使用其他领域的优质知识算子,大大降低了开发成本。更进一步地,本说明书一些实施例所述的知识生产管线的构建系统还提供基础计算组件,以供用户自定义编写知识算子时调用,以更高效地实现知识生产管线的构建,基础计算组件包括图谱检索组件、文本处理组件、嵌入组件等组件,以支撑知识生产管线的构建。
图1是根据本说明书一些实施例所示的一种知识生产管线构建方法的示例性流程图。
在一些实施例中,知识生产管线构建方法100可以由处理设备,如知识生产平台的处理设备,执行。知识生产平台可以面向各业务领域提供知识图谱服务,根据业务类型,业务领域可以包括安全、支付、证券、保险、人脸识别等各领域。知识生产平台可以接收业务方提供的数据并生成对应的知识图谱,或者知识生产平台可以为用户提供知识生产管线的开发系统,以供业务方根据需要构建知识生产管线,具体过程如流程100所示。在一些实施例中,方法100可以由部署于处理设备上的知识生产管线构建系统200实现。
如图1所示,该方法100可以包括:
步骤110,获取知识算子。
在一些实施例中,该步骤110可以由知识算子获取模块210执行。
知识算子主要用于基于实体定义或关系描述,从大量数据实例中找出实体实例及其确定实体实例之间的关系,进而获取知识图谱。知识算子亦可理解为图计算算法或方法,用于进行图谱构建的数据处理操作或运算。可以通过数据处理/运算单元、程序代码、机器学习模型等各种方式实现。在一些实施例中,可以对算子输入数据,算子可以进行相应的数据处理/运算,完成数据的转化,并输出转化后的数据。
在一些实施例中,知识算子包括以下算子中的一种或多种:抽取算子、映射算子、标化算子、链指算子、融合算子。
抽取算子可以实现从非结构化数据实例中提取得到结构化数据。其中,结构化数据主要是按照KV(key-value)形式进行存储的数据。例如,示例性的结构化数据可以包括:企业名称-奥通科技、企业类型-运输业等。在一些实施例中,结构化数据也可以是以数据表存储的数据,如数据表中的一行代表一条数据记录,一列对应一个字段名,列中的数值为对应的字段值。通常,结构化数据具有相对固定、规范的格式,能够直观表达数据名及其值,便于图谱构建。非结构化数据则是指结构化数据以外的数据,如来自新闻报道等文章中的文本、音频、图像等等。如果图谱构建的基础为非结构化数据,则需要通过抽取算子对非结构化数据进行处理,得到结构化数据。具体地,抽取算子可以通过抽取模型、序列标注模型实现。其中抽取模型可以处理文本,并提取中其中的数据实例。序列标注模型可以处理文本,并对文本中的字或词分别进行标注,标注类型包括关键词起始位B、关键词中间位I、非关键词位O等,进而通过文本的标注结果,获取文本中的数据实例。例如,文本“我爱吃西瓜”,其对应的标注序列可以是O-O-O-B-I,进而可以确定其中的数据实例为“西瓜”。在一些实施例中,可以进一步细化关键词类型,进而可以在获取数据实例的同时,确定其对应的数据名。这里,数据名可看作Key或字段名,数据实例可看作Value或字段值。示例性的,有非结构化文本:“我院定于2015年11月19日上午09:30于北京市东城区人民法院(北区)18法庭审理aa股份有限公司与BB技术股份有限公司侵害录音像制作者纠纷案”。进行知识抽取后,形成的结构化数据如下:“事件名称:aa股份有限公司与BB技术股份有限公司侵害录音像制作者纠纷案;事件类型:法院开庭审理;时间:2015年11月19日09:30;地点:北京市东城区人民法院(北区)18法庭;原告:北京aa股份有限公司”。
映射算子用于将结构化数据与知识图谱中的实体、属性等对应起来。在一些实施例中,知识图谱中的实体、属性等数据可以通过图谱的schema定义。例如,schema定义了公司实体、企业类型属性、地址属性等数据,映射算子可以基于schema定义中的实体或属性的名称,以及结构化数据中的数据名的相似性,将对应数据名的数据值对应到实体或属性中。示例性的,结构化数据有名称-奥通科技,企业类型-运输业,则可以将“奥通科技”映射为公司实体下的数据实例,将“运输业”映射为企业类型属性下的数据实例。关于schema的更多描述可以在后文中找到。在一些实施例中,算子开发人员或用户可以自行定义结构化数据名与实体、属性等的对应关系,进而实现结构化数据到图谱实体或属性等的映射。
标化算子可以实现属性值的标准化等。属性值的标准化处理可以是将属性的实例值的数据格式(如属性的实例值为数值或字符或二进制数)、数据表达约束条件(如时间类型的属性的约束条件为实例值为年月日的取值或24小时时间类型的取值,金额类型的属性的约束条件为实例值为以美元为单元的取值或以人民币为单位的取值)、数据表达类型(如属性的实例值为整型数据或浮点型数据)等进行统一的标准化处理。根据属性不同,标化算子可以包括日期标化算子、地址标化算子、货币标化算子等,用以对相应类型的属性值进行标准化处理。
融合算子可以实现图谱中两个或以上的实体的融合。在一些实施例中,可以将语义相似或相同的实体实例进行融合。例如,由于数据来源不同,数据实例的描述方式存在差异,但语义是相同或相近的。这时候可能存在指向同一对象的两个或以上实体实例。例如,可以对“奥通科技有限责任公司”和“奥通科技”两个实体实例进行融合,得到融合实体实例,融合后的实体实例可以用“奥通科技有限责任公司”或“奥通科技”来表示。在一些实施例中,两个或以上实体实例融合得到融合实体实例后,被融合的两个或以上实体实例对应的属性、相关的边也会被调整以便与融合实体实例相适应。具体的,融合实体实例对应的属性可以是被融合的两个或以上的实体实例对应的属性值的并集,或者是所述并集中的一部分。融合实体实例相关的边可以包括被融合的两个或以上的实体实例中的每一个相关的边。
链指算子可以基于两个实体实例中的至少一个对应的属性值,建立相应两个实体实例间的边。如前所述,实体对应的属性可以表示实体的进一步描述信息,示例性的属性包括地址、类型等。在一些实施例中,由实体实例对应的属性值可以确定两个实体实例之间是否存在关联关系,进而可以建立两个实体间的边。例如,来自保险业务领域的实体“CRO.Company”对应的属性包括“address”,实体“City”来自支付业务领域,可以根据“CRO.Company”对应的属性“address”,建立“CRO.Company”和“City”间的边或关系,如建立关系为[所在城市]。又例如,来自制造业务领域的实体“商品”对应有属性“商品类型”,来自销售业务领域的实体“商户”也对应有属性“主营范围”,则可以基于两者的属性字段建立“商品”和“商户”之间的关系,如建立关系为[销售关系]。
在一些实施例中,知识算子具有预设的标准化接口。预设的标准化接口包括具有预设形式的输入参数以及输出参数。示例性地,例如,抽取算子的输入参数可以是文本,输出可以是标注序列。标化算子的输入参数可以是某种格式的属性值,输出参数即为标准化后属性值。又例如,链指算子的输入参数是源实体、源实体属性值、候选目的实体,在一些实例中还可以包括候选目的实体的属性值,输出参数可以是包括源实体、关系以及目的实体的三元组。再例如,融合算子的输入参数可以是两个或以上实体、各实体的属性以及各实体的一跳子图(one-hop图),输出参数可以是融合后的实体、融合后实体的属性以及其一跳子图。知识算子具有预设的标准化接口可以方便知识算子的组装、调用和复用。换言之,知识算子可以被不同的业务场景所选择和应用。例如,业务方L1创建了一个时间标化算子A,业务方L2也需要进行时间属性标准化。此时,业务方L2可以直接通过预设的标准化接口调用这一个算子A即可实现时间标准化的过程。
在一些实施例中,步骤110获取的知识算子可以是由业务方或用户自定义开发的。
在一些实施例中,知识算子可以由用户自定义编写并提供,编写完成后,用户可以将该知识算子上传至知识生产平台。知识生产平台可以对知识算子进行编译并执行。在一些实施例中,知识生产平台可以将用户自定义编写的知识算子加入算子库。可以理解,用户自定义编写的知识算子也应满足预设的标准化接口的需要,这使得自定义编写的知识算子也可以由其他用户直接从算子库中指定并调用,从而有效丰富了算子库,减少了用户对知识算子的重复开发工作,提高了工作效率。
用户可以根据算子使用场景以及行业的不同自定义地编写知识算子。具体地,知识算子可以由用户基于目标图谱的本体定义数据编写。知识图谱的本体定义数据(或称为知识图谱的schema)是指对知识图谱包括的实体、实体间关系进行定义的数据,可以表征知识图谱的本体的数据实例的语义信息。知识图谱的本体定义数据可以指导数据实例的收集,以及基于数据实例进行构图,得到知识图谱(也可以称为实例图)。在一些实施例中,知识图谱的本体定义数据可以包括用于定义实体的实体字段。实体字段可以理解为实体名称或实体表征,如实体字段可以是“公司主体”、“用户”等,实体字段的取值则可以是前述的实体实例。实体字段可以对应有多个属性字段,属性字段可以是对实体描述信息的抽象,如属性字段可以是“地址”、“年龄”、“注册资本”等,属性字段的取值则可以是其对应实体实例的具体描述,如“建设路11号”、“28岁”、“500万”等。在一些实施例中,知识图谱的本体定义数据可以包括用于定义实体间关系的关系描述,关系描述可以是实体间关系类型的抽象,如“雇佣关系”、“子母公司关系”、“父子关系”等。在一些实施例中,关系描述可以进一步包括关系属性,关系属性用于对关系描述做进一步说明,如“雇佣关系”可以具体是“临时雇佣”或者“正式雇佣”,“子母公司关系”可以进一步包括“全资控股关系”、“部分控股关系”等。通过关系描述可以在构建知识图谱时,确定两个实体实例之间是否具有边。例如,目标图谱的schema中包括实体字段CRO.Company、属性address、实体City以及关系描述inCity,用户可以自定义链指算子link(CRO.Company,inCity,City,address),调用该算子处理实体字段“CRO.Company”和“City”对应的数据实例时,可以基于“CRO.Company”实体实例属性字段“address”值,建立“CRO.Company”实体实例和“City”实体实例间的关系描述为“inCity”。
在一些实施例中,目标图谱的本体定义数据可以由用户根据业务需求编写。在一些实施例中,知识生成平台可以制定或搜集一些图谱的本体定义数据作为模板,用户基于平台提供的图谱本体定义模板确定目标图谱的本体定义数据。例如,用户可以直接使用图谱本体定义模板作为目标图谱的本体定义数据,也可以在平台提供的图谱本体定义模板(schema模板)的基础上进行更新和完善,如增加一些实体定义或关系描述,或者删除其中的部分内容,以得到目标图谱的本体定义数据(即用户自己定义的schema)。
在一些实施例中,知识生产平台还可以提供基础计算组件。基础计算组件可以包括以下一种或多种:图谱检索组件、文本处理组件、嵌入组件。图谱检索组件可以用于在图谱数据中进行实体检索。例如,在为设定的源节点建立链指时,可以基于图谱检索组件从已有的知识图谱中检索若干候选目的节点,避免了全图节点的遍历,有效降低运算量。文本处理组件可以提供一些文本处理功能如分词、同义词查询、文本替换(如全角符号转半角符号)等一些基础的文本处理功能,以方便融合算子进行同义词匹配后进行实体/关系的融合,也可以在抽取算子调用抽取模型或序列标注模型之前对文本进行分词或文本替换等预处理。嵌入组件用以完成文本嵌入或图嵌入。具体的,可以对文本进行处理,得到文本的向量表示。例如,可以在实体融合时,基于文本向量表示确定两个或以上实体实例的相似度,进一步确定是否需要进行实体融合。嵌入组件可以对已有的图谱进行表示学习,得到节点或边的向量表示。例如,节点的向量表示可以为图谱检索服务,比如可以基于目标实体的向量表示在图谱中进行向量检索或查询,得到与目标实体相似或相同的若干候选实体实例,再通过融合算子将这些实体实例进行融合,基于向量检索的图谱检索服务可以有效提高检索效率,节省查询时间。用户在进行算子开发时可以调用上述基础计算组件,能减少算子开发时的工作量,提高工作效率。
步骤120,获取知识加工流向图。
在一些实施例中,该步骤120可以由知识加工流向图获取模块220执行。
知识加工流向图可以反映各知识算子之间的数据依赖关系,或者可以反映从输入数据到输出图谱之间的数据处理环节。知识加工流向图包括工作节点以及数据边,其中,工作节点与一个或多个知识算子对应,数据边反映工作节点间的数据流向。如图3所示为一个示例性的知识加工流向图300,图3中,节点310~360表示不同的工作节点,节点之间的连线即为数据边。
知识加工流向图300中,输入节点310用于接收待加工的非结构化数据实例,知识抽取节点320可以用于处理非结构化数据实例,得到结构化数据;知识映射节点330用于将结构化数据实例中的数据值映射到知识图谱对应的实体或属性下;属性标化节点340用于将数据实例中的属性值标准化表达;链指节点350用于基于相关属性值将实体实例进行连接,以建立实体实例之间的关系或边,输出节点360即输出对应的知识图谱。
需要说明的是,图3所示的知识加工流向图仅作为示例,并不能作为本说明书的限制。例如,节点320~350的位置可以进行变换;又例如,可以增加或者减少其中的节点以适应不同使用场景的需求(如可以增设融合算子对指向同一对象的实体实例进行融合,又如输入数据为结构化数据时,知识抽取节点320可以省去)。诸如此类的变化,仍然在本说明书的保护范围内。
知识加工流向图可以由用户组建并提供。知识生成平台的处理设备可以提供知识生产管线的创建环境,其中可以包括知识加工流向图的可视化创建页面,用户可以根据使用场景的需要在页面中添加工作节点,同时用户还可以在页面中通过拖拽操作改变各工作节点的排序,以及在节点间建立数据边,以完成知识加工流向图的配置。用户完成配置后,知识加工流向图获取模块220可以从创建环境中获取所述知识加工流向图。在一些实施例中,用户还可以添加数据采集节点,如图3中的节点321,数据采集节点可以设置在某工作节点的输出端。
步骤130,将所述知识算子按照所述知识加工流向图进行装载,以得到所述知识生产管线。
在一些实施例中,该步骤130可以由知识生产管线确定模块230执行。
在步骤120完成知识加工流向图的设置后,知识生产管线确定模块230将对应的知识算子进行装载,以得到知识生产管线。具体地,知识生产管线确定模块230对知识算子进行编译,得到可执行代码;进而将各知识算子的可执行代码按照所述知识加工流向图体现的工作流程进行组装,即可得到装载好的知识生产管线。例如,知识生产管线确定模块230可以在知识抽取节点320处添加一个或多个抽取算子,又例如,知识生产管线确定模块230可以在链指节点350处添加链指算子,以实现链指加工。知识生产管线进一步可以用于接收实例数据,并对其进行加工以生成知识图谱。知识生产管线可以理解为多个知识算子执行代码的拼接,输入管线的实例数据通过管线中各个知识算子的处理,被转化为知识图谱进行输出和存储。
在一些实施例中,在进行知识生产管线装载时,知识生产管线确定模块230可以针对一个或多个知识算子的输出数据设置数据采集组件(如在图3中的数据采集节点321处为知识抽取节点装载数据采集组件);数据采集组件用于在知识生产管线对实例数据进行加工以生成知识图谱的过程中采集一个或多个知识算子的输出数据以用于数据回溯、知识校验或知识评估。例如,数据采集组件可以对知识算子处理的数据进行采集,以对知识算子的计算结果进行核实和校验;当知识生产管线最终输出的数据存在问题(如运算bug等)时,可以基于数据采集组件采集的数据对各个知识算子的输出数据进行逐层回溯,以分析问题产生的原因。
图2是根据本说明书一些实施例所示的一种知识生产管线构建系统的框图。
在一些实施例中,知识生产管线构建系统200可以包括知识算子获取模块210、知识加工流向图获取模块220和知识生产管线确定模块230。在一些实施例中,知识生产管线构建系统200还可以包括算子库编写模块240(图中未示出)。在一些实施例中,知识生产管线构建系统200还可以包括基础计算组件调用模块250(图中未示出)。
在一些实施例中,知识算子获取模块210可以用于获取所述知识算子;所述知识算子具有预设的标准化接口,所述知识算子包括以下算子中的一种或多种:抽取算子、映射算子、标化算子、链指算子、融合算子。在一些实施例中,预设的标准化接口包括具有预设形式的输入参数以及输出参数。在一些实施例中,知识算子可以由用户自定义编写并提供或由用户从算子库中指定。
在一些实施例中,知识加工流向图获取模块220可以用于获取知识加工流向图;所述知识加工流向图至少反映各知识算子之间的数据依赖关系。
在一些实施例中,知识生产管线确定模块230可以用于将所述知识算子按照所述知识加工流向图进行装载,以得到所述知识生产管线;所述知识生产管线用于接收实例数据,并对其进行加工以生成知识图谱。
在一些实施例中,算子库编写模块240可以用于将用户提供的自定义编写的知识算子加入算子库。
在一些实施例中,基础计算组件调用模块250可以用于提供基础计算组件,以供用户自定义编写知识算子时调用;所述基础计算组件包括以下一种或多种:图谱检索组件、文本处理组件、嵌入组件。
在一些实施例中,知识算子由用户基于目标图谱的本体定义数据编写,所述目标图谱的本体定义数据由用户自定义或者由用户基于图谱本体定义模板确定。
在一些实施例中,所述知识加工流向图包括工作节点以及数据边,其中,工作节点与一个或多个知识算子对应,数据边反映工作节点间的数据流向;所述知识加工图由用户组建并提供。
在一些实施例中,知识加工流向图获取模块220还用于:对知识算子进行编译,得到可执行代码;将各知识算子的可执行代码按照所述知识加工流向图进行组装。
在一些实施例中,所述实例数据的形式为结构化数据或非结构化数据。
在一些实施例中,知识加工流向图获取模块220还用于:针对一个或多个知识算子的输出数据设置数据采集组件;所述数据采集组件用于在所述知识生产管线对实例数据进行加工以生成知识图谱的过程中采集一个或多个知识算子的输出数据以用于数据回溯、知识校验或知识评估。
应当理解,所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。
图4是根据本说明书一些实施例所示的一种基于结构化数据生成知识图谱的方法的示例性流程图。
在一些实施例中,知识生产管线可以被执行,以基于数据实例生成知识图谱。在一些实施例中,知识生产管线可以适应不同的处理引擎,以便移植到知识生产平台以外的处理设备上依然能运行。示例性的,知识生产管线可以运行在知识生产平台的处理设备上,以实现流程400。
如图4所示,该流程400可以包括:
步骤410,获取结构化的实例数据。
有关实例数据的相应描述可参见图1中的相应说明,在此不再赘述。
在一些实施例中,可以直接上传结构化实例数据的全量数据。在该场景的实施例中,可以按照步骤420~460直接生成实例数据对应的知识图谱。此时可以批量匹配相似或相同的实体实例,在创建图谱前即完成实体实例的合并。
在一些实施例中,也可以仅上传结构化实例数据的增量数据。在该场景的实施例中,可以首先执行一轮步骤420~460根据增量传输的实例数据构建出知识图谱的一部分,之后可以执行多轮步骤420~460以更新已有的知识图谱,进而逐渐构造一个完整的知识图谱。此时可以基于图谱查询组件在已有图谱中进行待融合节点或候选目的节点的检索,以完成新增节点的融合或链指建立。
步骤420,进行实例数据映射。
在一些实施例中,知识生产管线可以装载映射算子,以进行实例数据的映射。关于知识映射过程可以参见图1步骤110中关于映射算子的相关说明。
步骤430,进行实例数据属性标化。
在一些实施例中,知识生产管线可以装载标化算子,以进行实例数据属性标化。关于属性标化的过程可以参见图1步骤110中关于标化算子的相关说明。
步骤440,建立实例数据链指。
在一些实施例中,知识生产管线可以装载链指算子,以建立实例数据链指。关于建立链指的过程可以参见图1步骤110中关于链指算子的相关说明。
在一些实施例中,流程400还包括步骤450:进行实体融合。
在一些实施例中,知识生产管线可以装载融合算子,以进行实体融合。关于实体融合的过程可以参见图1步骤110中关于融合算子的相关说明。
步骤460,生成知识图谱。
在一些实施例中,结构化数据经过前述步骤后,转化成了图谱中的节点,并在节点间生成了边,进而得到了知识图谱。知识图谱可以供用户使用。例如,用户或业务方可以通过图谱推理算法挖掘知识图谱中的数据关系或规则,或者通过图谱的表示学习过程得到图谱的向量表示(包括节点、或节点与边的向量表示),进而完成节点分类等处理。
图5是根据本说明书一些实施例所示的一种基于非结构化数据生成知识图谱的方法的示例性流程图。与流程400相似,流程500也由知识生产管线运行实现。
步骤510,获取非结构化的实例数据。
在一些实施例中,实例数据还可以是以非结构化的数据进行存储。非结构化的数据可以示例性地设置为图片、文字段等形式。在该场景的实施例中,需要采用知识抽取算子对非结构化的数据进行知识抽取,以将其转化为结构化的数据。例如,非结构化的数据可以是文字段“我院定于2015年11月19日上午09:30于北京市东城区人民法院(北区)18法庭审理aa股份有限公司与BB股份有限公司侵害录音像制作者纠纷案”。
与流程400类似的,在一些实施例中,可以直接上传非结构化实例数据的全量数据。在该场景的实施例中,可以按照步骤520~570直接生成知识图谱。
在一些实施例中,也可以仅上传非结构化实例数据的增量数据。在该场景的实施例中,知识图谱是多轮执行步骤520~570根据增量传输的非结构化实例数据逐渐构建。
步骤520,进行实例数据知识抽取。
由于非结构化的数据无法直接进行数据映射,因此,在该场景的实施例中,通常需要将数据进行知识抽取以进行后续步骤。在一些实施例中,知识抽取可以基于抽取算子进行。关于知识抽取的过程可以参见图1步骤110中关于抽取算子的相关说明。
在完成知识抽取后,非结构化的数据也就被转化为了结构化的数据,进而可以与图4中步骤420~460类似地方式进行知识图谱的生成。
步骤530,进行实例数据映射。
有关实例数据映射的更多描述可参见步骤420的相应说明,在此不再赘述。
步骤540,进行实例数据属性标化。
有关实例属性标化的更多描述可参见步骤430相应说明,在此不再赘述。
步骤550,建立实例数据链指。
有关实例数据链指的更多描述可参见步骤440相应说明,在此不再赘述。
在一些实施例中,流程500还包括步骤560:进行实体融合。
有关实体融合的更多描述可参见步骤450相应说明,在此不再赘述。
步骤570,生成知识图谱。
有关知识图谱生成的更多描述可参见步骤460相应说明,在此不再赘述。
本说明书实施例可能带来的有益效果包括但不限于:(1)提供了一套知识生产管线的构建方法,用户可以在知识生产平台中编写或指定具有预设标准化接口的知识算子,并构建知识加工流向图指定数据加工流程,最后平台基于知识加工流向图对知识算子进行组装,构建知识生产管线,为业务方构建知识图谱有效节省了时间和人力成本,同时使得业务方可以将更多精力放在知识算子的开发或优化过程中而无需考虑与知识生产管线的适配问题,实现了知识算子算法的单独迭代和更新,提升了知识算子的质量和计算性能;(2)知识算子具有预设的标准化接口,规范了知识算子开发,实现了算子库中优质知识算子的复用,使得部分业务方甚至可以直接调用算子库中的算子,节省了算子开发成本;(3)在知识算子的输出数据处设置有数据采集组件,实现了对知识算子的输出数据的数据回溯、知识校验或知识评估;(4)在同一知识生产管线构造平台下实现了结构化数据和非结构化数据的统一接入。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (14)
1.一种知识生产管线的构建方法,包括:
获取知识算子;所述知识算子具有预设的标准化接口,所述知识算子包括以下算子中的一种或多种:抽取算子、映射算子、标化算子、链指算子、融合算子;
获取知识加工流向图;所述知识加工流向图至少反映各知识算子之间的数据依赖关系;
将所述知识算子按照所述知识加工流向图进行装载,以得到所述知识生产管线;所述知识生产管线用于接收实例数据,并对其进行加工以生成知识图谱。
2.如权利要求1所述的方法,所述预设的标准化接口包括具有预设形式的输入参数以及输出参数。
3.如权利要求1所述的方法,所述知识算子由用户自定义编写并提供或由用户从算子库中指定。
4.如权利要求3所述的方法,所述方法还包括:将用户提供的自定义编写的知识算子加入算子库。
5.如权利要求3所述的方法,所述方法还包括:提供基础计算组件,以供用户自定义编写知识算子时调用;所述基础计算组件包括以下一种或多种:图谱检索组件、文本处理组件、嵌入组件。
6.如权利要求3所述的方法,所述知识算子由用户基于目标图谱的本体定义数据编写,所述目标图谱的本体定义数据由用户自定义或者由用户基于图谱本体定义模板确定。
7.如权利要求1所述的方法,所述知识加工流向图包括工作节点以及数据边,其中,工作节点与一个或多个知识算子对应,数据边反映工作节点间的数据流向;所述知识加工流向图由用户组建并提供。
8.如权利要求1所述的方法,所述将所述知识算子按照所述知识加工流向图进行装载,包括:
对知识算子进行编译,得到可执行代码;
将各知识算子的可执行代码按照所述知识加工流向图进行组装。
9.如权利要求1所述的方法,所述实例数据的形式为结构化数据或非结构化数据。
10.如权利要求1所述的方法,所述方法由知识生产平台的处理设备执行。
11.如权利要求1所述的方法,所述将所述知识算子按照所述知识加工流向图进行装载还包括:
针对一个或多个知识算子的输出数据设置数据采集组件;所述数据采集组件用于在所述知识生产管线对实例数据进行加工以生成知识图谱的过程中采集一个或多个知识算子的输出数据以用于数据回溯、知识校验或知识评估。
12.一种知识生产管线的构建系统,包括:
知识算子获取模块,用于获取所述知识算子;所述知识算子具有预设的标准化接口,所述知识算子包括以下算子中的一种或多种:抽取算子、映射算子、标化算子、链指算子、融合算子;
知识加工流向图获取模块,用于获取知识加工流向图;所述知识加工流向图至少反映各知识算子之间的数据依赖关系;
知识生产管线确定模块,用于将所述知识算子按照所述知识加工流向图进行装载,以得到所述知识生产管线;所述知识生产管线用于接收实例数据,并对其进行加工以生成知识图谱。
13.一种知识生产管线的构建装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如权利要求1-11中任一项所述的知识生产管线的构建方法。
14.一种知识图谱生成方法,包括:
获取实例数据;
基于所述实例数据,通过如权利要求1~11中任意一项所述的方法生成的知识生产管线,生成或更新目标图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111488612.6A CN114153990A (zh) | 2021-12-07 | 2021-12-07 | 一种知识生产管线的构建方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111488612.6A CN114153990A (zh) | 2021-12-07 | 2021-12-07 | 一种知识生产管线的构建方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114153990A true CN114153990A (zh) | 2022-03-08 |
Family
ID=80453218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111488612.6A Pending CN114153990A (zh) | 2021-12-07 | 2021-12-07 | 一种知识生产管线的构建方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114153990A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069204A (zh) * | 2020-09-30 | 2020-12-11 | 北京百度网讯科技有限公司 | 用于算子服务的处理方法、装置、智能工作站和电子设备 |
CN113010181A (zh) * | 2021-03-24 | 2021-06-22 | 北京百度网讯科技有限公司 | 一种深度学习框架之中算子的部署方法、装置及电子设备 |
CN113157947A (zh) * | 2021-05-20 | 2021-07-23 | 中国工商银行股份有限公司 | 知识图谱的构建方法、工具、装置和服务器 |
WO2021190091A1 (zh) * | 2020-03-26 | 2021-09-30 | 深圳壹账通智能科技有限公司 | 基于知识节点所属度的知识图谱构建方法和装置 |
-
2021
- 2021-12-07 CN CN202111488612.6A patent/CN114153990A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021190091A1 (zh) * | 2020-03-26 | 2021-09-30 | 深圳壹账通智能科技有限公司 | 基于知识节点所属度的知识图谱构建方法和装置 |
CN112069204A (zh) * | 2020-09-30 | 2020-12-11 | 北京百度网讯科技有限公司 | 用于算子服务的处理方法、装置、智能工作站和电子设备 |
CN113010181A (zh) * | 2021-03-24 | 2021-06-22 | 北京百度网讯科技有限公司 | 一种深度学习框架之中算子的部署方法、装置及电子设备 |
CN113157947A (zh) * | 2021-05-20 | 2021-07-23 | 中国工商银行股份有限公司 | 知识图谱的构建方法、工具、装置和服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11321364B2 (en) | System and method for analysis and determination of relationships from a variety of data sources | |
US11537662B2 (en) | System and method for analysis of structured and unstructured data | |
WO2016090010A1 (en) | Workflow definition, orchestration and enforcement via a collaborative interface according to a hierarchical checklist | |
JP2016505953A (ja) | ルールベースのデータ処理システムと方法 | |
AU2020418514A1 (en) | System and method for analysis and determination of relationships from a variety of data sources | |
CN113724057A (zh) | 基于大数据的财政预算填报方法、系统、设备及介质 | |
US20130006683A1 (en) | System and method of managing testing for a healthcare systems transition | |
Mäder et al. | Ready-to-use traceability on evolving projects | |
US11977473B2 (en) | Providing a pseudo language for manipulating complex variables of an orchestration flow | |
Avdeenko et al. | Intelligent support of requirements management in agile environment | |
US20230297784A1 (en) | Automated decision modelling from text | |
Mos et al. | Business matter experts do matter: a model-driven approach for domain specific process design and monitoring | |
CN115952862A (zh) | 一种知识图谱数据融合方法和系统 | |
CN114153990A (zh) | 一种知识生产管线的构建方法、系统及装置 | |
Mishra et al. | A graph processing based approach for automatic detection of semantic inconsistency between bpmn process model and sbvr rules | |
JP6336922B2 (ja) | 業務バリエーションに基づく業務影響箇所抽出方法および業務影響箇所抽出装置 | |
Hamdani et al. | A Novel Framework to Automatically Generate IFML Models From Plain Text Requirements | |
US20200356868A1 (en) | Deep-learning model catalog creation | |
Seppälä et al. | SmaRT visualisation of legal rules for compliance | |
Ivkovic et al. | Using formal concept analysis to establish model dependencies | |
Brdjanin et al. | Dealing with structural differences in serialized BPMN models | |
CN113918576B (zh) | 一种元数据管理平台及管理方法 | |
Ndefo | Formalization of database reverse engineering | |
Oliveira et al. | From ETL Conceptual Design to ETL Physical Sketching using Patterns. | |
Jiménez et al. | On the design of an advanced business rule engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |