CN116910250B - 知识处理方法、装置、电子设备及存储介质 - Google Patents
知识处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116910250B CN116910250B CN202310776845.9A CN202310776845A CN116910250B CN 116910250 B CN116910250 B CN 116910250B CN 202310776845 A CN202310776845 A CN 202310776845A CN 116910250 B CN116910250 B CN 116910250B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- entity
- subtask
- labeling
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 120
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000002372 labelling Methods 0.000 claims description 100
- 238000013507 mapping Methods 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 11
- 238000011144 upstream manufacturing Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 30
- 238000012550 audit Methods 0.000 description 27
- 238000004519 manufacturing process Methods 0.000 description 12
- 230000004927 fusion Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 239000003814 drug Substances 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 208000030172 endocrine system disease Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229940127554 medical product Drugs 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了知识处理方法、装置、电子设备及存储介质,涉及智慧医疗、知识图谱、分布式存储以及大数据处理等人工智能领域。其中的方法可包括:获取创建的知识体系,其中包括实体类型以及实体属性;获取创建的术语集,将术语集与对应的知识体系进行关联,并获取在术语集中创建的术语实体;针对创建的知识库,将目标知识体系对应的术语集中的术语实体作为知识库中的知识实体,目标知识体系为知识库对应的知识体系,并生成知识实体对应的知识数据,知识数据为根据目标知识体系中的实体类型以及实体属性生成的。应用本公开所述方案,可节省人力和时间成本及提升处理效率等。
Description
技术领域
本公开涉及人工智能技术领域,特别涉及智慧医疗、知识图谱、分布式存储以及大数据处理等领域的知识处理方法、装置、电子设备及存储介质。
背景技术
高准确性的医疗知识图谱可为医疗产品等提供高性能的保障以及核心竞争力。传统方式中,多采用纯人工构建方式,由于医疗领域知识的专业性和复杂性以及医疗场景的特殊性,导致需要耗费大量的人力和时间成本,而且效率低下,另外准确性也无法保证等。
发明内容
本公开提供了知识处理方法、装置、电子设备及存储介质。
一种知识处理方法,包括:
获取创建的知识体系,其中包括实体类型以及实体属性;
获取创建的术语集,将所述术语集与对应的知识体系进行关联,并获取在所述术语集中创建的术语实体;
针对创建的知识库,将目标知识体系对应的术语集中的术语实体作为所述知识库中的知识实体,所述目标知识体系为所述知识库对应的知识体系,并生成所述知识实体对应的知识数据,所述知识数据为根据所述目标知识体系中的实体类型以及实体属性生成的。
一种知识处理装置,包括:第一处理模块、第二处理模块以及第三处理模块;
所述第一处理模块,用于获取创建的知识体系,其中包括实体类型以及实体属性;
所述第二处理模块,用于获取创建的术语集,将所述术语集与对应的知识体系进行关联,并获取在所述术语集中创建的术语实体;
所述第三处理模块,用于针对创建的知识库,将目标知识体系对应的术语集中的术语实体作为所述知识库中的知识实体,所述目标知识体系为所述知识库对应的知识体系,并生成所述知识实体对应的知识数据,所述知识数据为根据所述目标知识体系中的实体类型以及实体属性生成的。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如以上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开所述知识处理方法实施例的流程图;
图2为本公开所述创建的知识体系示意图;
图3为本公开所述实体类型的树状结构的示意图;
图4为本公开所述实体属性的继承方式示意图;
图5为本公开所述术语实体的创建方式示意图;
图6为本公开所述同一术语实体属于两个实体类型的示意图;
图7为本公开所述展示的知识源文件的解析结果的示意图;
图8为本公开所述展示的原始的知识源文件的示意图;
图9为本公开所述不同团队中的角色示意图;
图10为本公开所述任务整体处理过程示意图;
图11为本公开所述标注用户的标注方式示意图;
图12为本公开所述数据资源类图示意图;
图13为本公开所述以文本形式对检索结果进行展示的示意图;
图14为本公开所述以图谱形式对检索结果进行展示的示意图;
图15为本公开所述平台的整体架构示意图;
图16为本公开所述知识处理装置实施例1600的组成结构示意图;
图17示出了可以用来实施本公开的实施例的电子设备1700的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本公开所述知识处理方法实施例的流程图。如图1所示,包括以下具体实现方式。
在步骤101中,获取创建的知识体系(schema),其中包括实体类型(Entity)以及实体属性(Attribute)。
在步骤102中,获取创建的术语集(Glossary),将术语集与对应的知识体系进行关联,并获取在术语集中创建的术语实体。
在步骤103中,针对创建的知识库(KnowledgeBase),将目标知识体系对应的术语集中的术语实体作为知识库中的知识实体,目标知识体系为所述知识库对应的知识体系,并生成知识实体对应的知识数据,知识数据为根据目标知识体系中的实体类型以及实体属性生成的。
可以看出,采用上述方法实施例所述方案,仅需相对少量的人工操作,如人工创建知识体系以及术语集等,即可采用人机协作方式构建出所需的知识图谱,从而节省了人力和时间成本,并提升了处理效率以及提升了处理结果的准确性等。
优选地,所述知识图谱可为医疗知识图谱,以下即以医疗知识图谱为例对本公开所述方案进行进一步说明。相应地,图1所示实施例的执行主体可为医疗知识管理中心平台。
在实际应用中,首先,用户需要创建知识体系,知识体系是知识生产的基础,所谓知识体系,即指定义多种实体类型以及实体属性等的数据规范,其中,实体类型是指实体、术语或对象的聚类,如疾病、内分泌系统疾病等,实体属性是指某个实体的不同维度的知识聚类,如发病机制为疾病的属性之一,属性的类型可支持值属性、关系类型属性以及复杂结构属性等,值属性下的知识可为文本、数值、数值+单位或时间等,另外还可包括布尔值“是和否”或“有和无”,关系类型属性用于表示两个实体间的关系,具有方向性,如疾病的药物治疗属性指向对应的药物,药物的适应症属性指向对应的疾病,复杂结构属性是指多字段组合嵌套属性等,支持配置限制条件,如药物的用法用量属性,限制条件为:某种疾病+某类人群+某种给药途径,值为:单次剂量+频次。
知识体系的创建可以采用人工的、可视化的方式,创建的知识体系可以包括一个大而全的知识体系,也可以包括不同的应用场景分别对应的垂直领域的知识体系。
图2为本公开所述创建的知识体系示意图。如图2所示,每个知识体系中均包括实体类型和实体属性。
优选地,知识体系中的实体类型可采用树状结构进行组织,且不同实体类型分别具有各自的实体属性,任一实体类型具有的实体属性可分别包括:自身的实体属性和/或所继承的上位实体类型的实体属性,上位实体类型为位于同一路径中的上游的实体类型。
实体类型可采用树状结构,代表着实体类型间的上下位关系,如图3所示,图3为本公开所述实体类型的树状结构的示意图。另外,每个实体类型都可具有自己的实体属性,也可选择继承上位实体类型的实体属性。图4为本公开所述实体属性的继承方式示意图。如图4所示,假设实体类型a的实体属性包括属性1、属性2和属性3,实体类型b为实体类型a的下位实体类型,其可以继承实体类型a的实体属性,加上自身的实体属性,即属性4和属性5,共具有以下5个属性:属性1、属性2、属性3、属性4和属性5,实体类型c为实体类型b的下位实体类型,其可以继承实体类型b的实体属性,加上自身的实体属性,即属性6,共具有以下6个属性:属性1、属性2、属性3、属性4、属性5和属性6,其它不再赘述。
通过上述方式,可实现知识体系的快速创建以及有效组织,从而为后续处理奠定了良好的基础。
另外,优选地,不同的知识体系可分别具有各自对应的版本号,所述版本号可由三位数字组成,第一位数字表示主版本号,第二位数字表示子版本号,第三位数字表示修订版本号,相应地,通过对任一版本号进行更新以得到一个新的版本号的更新规则可包括:将主版本号加一,子版本号以及修订版本号均清零,或者,将子版本号加一,主版本号保持不变,修订版本号清零,或者,将修订版本号加一,主版本号以及子版本号均保持不变。
假设某一版本号为2.0.1,其中的2为主版本号,0为子版本号,1为修订版本号,生成新的版本号的方式可如表一所示。
主版本号 | 子版本号 | 修订版本号 | |
更新方式1 | 3 | 0 | 0 |
更新方式2 | 2 | 1 | 0 |
更新方式3 | 2 | 0 | 2 |
表一版本号更新方式
如表一所示,在更新方式1中,将主版本号加一,子版本号以及修订版本号均清零,从而可得到更新后的版本号3.0.0,在更新方式2中,将子版本号加一,主版本号保持不变,修订版本号清零,从而可得到更新后的版本号2.1.0,在更新方式3中,将修订版本号加一,主版本号以及子版本号均保持不变,从而可得到更新后的版本号2.0.2。
通过版本号,可对不同的知识体系进行有效区分,从而便于对不同的知识体系进行管理和维护等。
另外,还可获取用户创建的术语集,并可将术语集与对应的知识体系进行关联,以及可获取在术语集中创建的术语实体,任一术语实体分别属于所关联的知识体系中的至少一个实体类型。
术语集即指各种医学标准术语分类的集合,术语实体即指实体类型的具象表达,如内分泌系统疾病这一实体类型下的具体疾病名称。
优选地,任一术语实体分别属于所关联的知识体系中的至少一个实体类型包括:所述术语实体属于一个实体类型,或者,所述术语实体属于至少两个实体类型且所述至少两个实体类型分别位于不同的路径上。
为了提升知识质量以及生产过程的标准化,在创建术语集时,需要和具体的知识体系进行关联,如和某一版本号的知识体系进行关系,当关联了这个知识体系后,术语集中的术语实体就可以按照对应的知识体系进行分类,即整个过程可以理解为创建术语实体并指定术语实体所属的实体类型。
其中,创建术语实体可以通过平台来分别创建,也可以通过导入文件的形式来批量创建。图5为本公开所述术语实体的创建方式示意图。如图5所示,不同的术语实体可分别具有各自的术语标识(ID)和术语名称,并可录入术语来源以及术语类别(所属的实体类型)等信息,另外,还可包括图中所示的一些其它信息,具体包括哪些信息可根据实际需要而定。
由于实体类型是一个树形结构,具有上下位关系且一个术语实体可以属于一个或多个实体类型,那么当其属于多个实体类型时,这多个实体类型需要分别位于不同的路径上。图6为本公开所述同一术语实体属于两个实体类型的示意图。如图6所示,该术语实体同时属于实体类型d和实体类型f,实体类型d和实体类型f位于不同的路径上,即分别位于a->b->c->d的路径上以及a->b->e->f的路径上,但不能同时属于实体类型c和实体类型d,即同一路径下只能属于一个实体类型,从而避免了信息混乱等。
创建好的术语实体可作为知识库中新增知识时的依赖,并可用于后续的知识检索等。
相应地,还可进行知识库的创建,并可将创建的任一知识库分别关联到某一版本号对应的知识体系。为便于表述,可将任一知识库对应的知识体系称为目标知识体系,并可将目标知识体系对应的术语集中的术语实体作为该知识库中的知识实体,进而可生成知识实体对应的知识数据,知识数据即为主谓宾(SPO,Subject-Predicate-Object))三元组知识数据。
优选地,在生成知识实体对应的知识数据时,可首先对选定的知识源文件进行解析,得到解析结果,之后可确定出解析结果对应的知识生产任务,并可将知识生产任务分配给对应的用户进行任务处理,进而可根据任务处理结果确定出知识实体对应的知识数据。
在实际应用中,用户可上传便携文件格式(PDF,Portable Document Format)和文档(word)等各种格式的知识源文件,如电子版书籍和讲义等,优选地,针对任一知识源文件,可分别按照该知识源文件所属的类型对应的结构化配置信息,采用异步解析方式对该知识源文件进行层级结构解析。
对于上传的知识源文件,可将同一类型的知识源文件进行归纳,每个知识源类型可分别具有自定义名称、描述以及图标,另外还可具有对应的收录字段配置以及结构化配置等信息。
收录字段配置提供了灵活的知识源信息配置能力,可包括版本、作者、发行机构、发行日期、发行地以及生产企业等信息,除此之外,用户还可根据实际需求自定义新的字段,并配置字段启用状态等。对于同一知识源类型下的不同知识源文件,其收录字段配置信息是一致的,从而有利于保证知识源信息的规范性。
另外,结构化配置信息可为知识源文件解析提供参数配置能力,所述参数可包括目录抽取层级等,作用范围为同一知识源类型的知识源文件。
相应地,针对任一知识源文件,可按照其所属的类型对应的结构化配置信息,对该知识源文件进行准确高效的层级结构解析。另外,在获取到上传的知识源文件后,可采用异步解析方式,如将知识源文件进行base64编码,base64即指使用64个可打印字符来表示二进制数据的方法,之后在异步解析过程中,可基于base64编码结果得到解析结果,解析结果是针对知识源文件内容在其目录层级上的拆分,可以使后续的标注功能能够在指定章节粒度上进行知识标注,比如,解析结果可采用以下结构。
其中,键(key)表示章节唯一ID,标题(title)表示章节内容,子信息(children)表示子章节信息,其本质上是一个树状结构,对应了知识源文件在不同章节粒度上的内容。
优选地,针对任一知识源文件,采用异步解析方式对其进行层级结构解析之后,响应于获取到针对知识源文件的解析结果请求指令,可展示知识源文件的解析结果,响应于获取到针对知识源文件的原始文件请求指令,可展示原始的知识源文件。所述指令可为用户发出的,如可通过点击界面上的相应按钮来发出指令。
图7为本公开所述展示的知识源文件的解析结果的示意图。如图7所示,可以明确地展示出知识源文件的不同章节等信息。图8为本公开所述展示的原始的知识源文件的示意图。如图8所示,可将后端存储的知识源文件以字节流形式返回至前端,从而实现原文在线预览。
通过上述处理,可根据用户指令,为用户展示出不同形式的知识源文件,包括解析结果以及原始的知识源文件等,从而满足了用户的不同需求。
另外,对于知识库,可以针对其中的知识实体,由用户直接编辑生成知识数据,优选地,还可针对选定的知识源文件的解析结果,确定出对应的知识生产任务,并可将知识生产任务分配给对应的用户进行任务处理,进而可根据任务处理结果确定出知识实体对应的知识数据。
优选地,可将选定的知识源文件的解析结果作为目标文本,并可获取针对目标文本创建的父任务以及子任务,父任务中包括不同类型的子任务,进而可将不同子任务分别分配给对应的用户进行任务处理。
优选地,不同类型的子任务可包括:标注子任务、标注审核子任务、映射(术语映射)子任务、映射审核子任务、融合(知识融合)子任务以及融合审核子任务,不同标注子任务分别对应于目标文本中的不同文本内容,用于指示对应的用户对所述文本内容进行知识标注处理,任一标注审核子任务分别承接在一个标注子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行标注审核处理,任一映射子任务分别承接在一个标注子任务或一个标注审核子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行映射处理,任一映射审核子任务分别承接在一个映射子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行映射审核处理,任一融合子任务分别承接在一个映射子任务或一个映射审核子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行融合处理,任一融合审核子任务分别承接在一个融合子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行融合审核处理。
本公开所述方案中,设计了不同团队的概念,每个团队中的用户又可进一步划分为两种角色。
图9为本公开所述不同团队中的角色示意图。如图9所示,可包括标注团队、映射团队以及融合团队,其中,标注团队中可包括标注用户以及标注审核用户,映射团队中可包括映射用户以及映射审核用户,融合团队中可包括融合用户以及融合审核用户。
对于一个用户来说,其权限范围为其团队权限、角色权限以及个人权限的并集,如用户为标注团队中的标注用户,用于对某一指定章节内容进行知识标注。另外,一个用户可以同时属于多个团队。
图10为本公开所述任务整体处理过程示意图。如图10所示,可由指定的管理员进行团队分配,包括分配标注团队、映射团队和融合团队等,并可获取选定的知识源文件的解析结果,即目标文本(如图中所示的说明书1和说明书2),另外,可分别创建父任务和各类型的子任务,如图中的任务1即为父任务,说明书1和说明书2分别表示同一类型的两个知识源文件的解析结果,假设包括两个标注子任务,对应的用户(标注用户)分别为用户A和用户B,其中用户A对应的文本内容为P1、P2和P5,用户B对应的文本内容为P3、P4、P6和P7,P1~P7分别表示不同的章节内容,假设包括一个标注审核子任务,对应的用户(标注审核用户)为用户C,用户C将会对P1、P3、P6和P7的标注结果进行标注审核处理,另外,如图中所示,对于P1~P7来说,可以不用每个均执行标注、标注审核、映射、映射审核、融合以及融合审核等操作,具体需要执行哪些操作可根据实际需要而定,比如,P1可不执行映射审核操作,P2可不执行标注审核操作,P6可不执行映射审核以及融合审核操作等。
通过上述处理,可实现知识生产的流程化和标准化,并可将得到的知识数据进行保存,从而实现了系统化的知识沉淀等。
以标注用户为例,当完成标注子任务后,可将任务提交,之后流转到标注审核子任务阶段,此时标注审核用户可查看标注用户的标注结果,并可修改标注结果后提交标注审核子任务,以便继续之后的流转,或者,若标注审核用户对标注结果不满意,也可驳回,以便标注用户重新进行标注等。
图11为本公开所述标注用户的标注方式示意图。如图11所示,标注用户可进行实体标注以及属性标注等,实体标注需要选择目标知识体系中存在的实体类型,属性标注需要选择目标知识体系中存在的实体属性,以保证知识生产的规范性。
优选地,将任一标注子任务分配给对应的用户进行任务处理可包括:对该标注子任务对应的文本内容进行预标注操作,将该标注子任务分配给对应的用户进行任务处理,并将预标注结果发送给对应的用户,以便对应的用户在预标注结果的基础上进行校对和修改。
比如,可通过对接策略模型,基于自然语言处理(NLP,Natural LanguageProcessing)技术等对文本内容进行实体类型以及实体属性等的预标注。
在实际应用中,若选择开启机器预标注功能,则可进行上述预标注,相应地,标注用户只需在预标注结果的基础上进行校对和修改即可,从而减少了标注用户的工作量,并提升了标注效率,否则,可直接由标注用户对文本内容进行标注,具体是否开启预标注功能可根据实际需要而定,非常的灵活方便。
优选地,上述父任务以及不同类型的子任务分别具有各自对应的ID,且所述ID符合预定的命名规则。
比如,任务的ID(非数据库主键ID)可设计为由8位字符组成,如T+随机数6位+0、1、2等数字。
具体ID可如下所示:
父任务: T5427180;
标注子任务: T5427181;
标注审核子任务:T5427182;
映射子任务:T5427183;
映射审核子任务:T5427184;
融合子任务:T5427185;
融合审核子任务:T5427186;
上述设计方式使得任务的ID具有可辩识性及可扩展性,从而使得在相关业务逻辑中更容易识别任务类型等。
各用户的任务可记录在用户任务列表中,父任务和不同类型的子任务可记录在公共任务列表中。
另外,优选地,可将父任务、不同类型的子任务以及分配给用户的各子任务分别作为监控对象,并可分别为各监控对象生成并维护一个任务状态表,所述任务状态表用于记录对应的监控对象所处的任务状态,并可实时进行更新。
比如,对于父任务以及不同类型的子任务来说,所处的任务状态可包括:待分配、待执行、执行中和已完成,可分别用任务状态码1、2、3和4来表示。
其中,对于父任务来说,不同的任务状态可分别是指:
待分配:子任务中,至少有一个是待分配状态;
待执行:全部子任务都是待执行状态;
执行中:子任务中,至少有一个是执行中且无待分配状态的子任务;
已完成:全部子任务都是已完成状态。
对于任一类型的子任务来说,不同的任务状态可分别是指:
待分配:刚创建完还未分配;
待执行:分配完但所有用户(该类型的不同子任务分别对应的用户)均未执行任务;
执行中:待执行和已完成中间的状态;
已完成:所有用户均完成了任务。
对于分配给用户的各子任务来说,所处的任务状态可包括:待执行、执行中以及已完成。
对于分配给任一用户的任一子任务来说,不同的任务状态可分别是指:
待执行:刚分配完还未开始执行;
执行中:执行任务的过程中;
已完成:完成了任务。
通过上述处理,可及时了解各任务的处理情况,从而便于对各任务进行管理和维护等。
结合上述介绍,图12为本公开所述数据资源类图示意图。如图12所示,知识体系、术语集、知识库、知识源文件(KnowledgeSource)为核心类,每个知识体系包含多个实体类型,每个实体类型分别具有多个实体属性,当知识体系创建完成后,可创建术语集与其进行关联,并可在术语集中添加术语实体,之后可进行知识库的创建,创建知识库时需要关联到具体版本号的知识体系,另外,如果需要创建标注子任务等各种任务,还需要先处理好知识源文件,以便基于知识源文件生成知识数据等。
优选地,本公开所述的知识数据可存储在图数据库中,图数据库中可采用点schema和边schema组成的属性图(Property Graph)模型来进行知识数据的存储,并支持新增点以及新增边的操作。
图数据库平台(BGraph)是集图数据库、图计算以及图学习的一站式图平台,适用于数据高度关联并进行深度分析的应用场景,其核心是高性能的图形数据库引擎,能够支持千亿级的实体和边,毫秒级的响应延迟,提供分布式和高可用能力,满足企业级应用的需求,另外,还支持对应的图检索语言(BGremlin),从而提供了灵活的检索功能。
图是一种由点和边组成的半结构化数据,用于映射事物之间的关系,如人际关系、交易往来以及交通道路等模型,对于本公开所述方案来说,可用于映射医学领域相关实体之间的关系等。属性图是近年来兴起的一种图模型,在点、边上可以自由定义属性和类型,从而形成社交网络、交易网络等复杂图。
本公开所述方案中产生的知识数据为SPO三元组知识数据,可以属性图模型的形式进行存储。
在创建知识库时需要选定关联的知识体系,在创建知识库时,可同步在BGraph中创建图数据库,各图数据库之间的数据是隔离的。由于知识库关联了知识体系,因此在图数据库创建时,即能确定对应的知识体系,相应地,可根据对应的知识体系内的实体类型及实体属性建立点schema,一个点schema可对应一个实体类型。一个实体类型可以具有多个实体属性,实体属性又可分为值属性以及关系类型属性等,可为关系类型属性建立边schema,起点实体类型为此关系类型属性所属的实体类型,终点实体类型为此关系类型属性所关联的实体类型。
另外,当有新的术语实体添加至知识库时,此术语实体一定属于关联的知识体系下的某个实体类型,相应地,会将此术语实体作为一个知识实体,即BGraph中的节点,进行新增节点(点schema)操作,知识实体的属性与图数据库中的对应节点的属性具有对应关系,而且,当对一个知识实体新增知识时,可根据此知识的属性,在节点对应属性下新增知识。此外,在对一个知识实体新增知识时,若所述知识对应的属性为关系类型属性,那么可将新增知识作为所属的知识实体的属性的一个值,并可将对应的关联关系以新建边schema的形式进行存储。
通过以上处理,对于知识数据,从知识结构到存储方式进行了映射,最终使用图数据库进行存储,从而可充分利用图数据库的优势,并可将不同知识系统地组织起来,让知识更加容易被理解和处理,以及为知识检索、挖掘和分析等提供了极大的便利等。
相应地,优选地,响应于获取到针对任一知识实体的检索请求,可将所述知识实体作为目标知识实体,并可根据对应的知识数据生成检索结果,进而可将检索结果以文本或图谱的形式进行展示。
即支持用户对想要查询的知识实体进行相关知识检索,从而可满足用户的查询需求,并可支持模糊检索,检索结果可以文本或图谱的形式进行展示,非常的灵活方便。
优选地,展示的内容可包括:目标知识实体的实用知识,所述实用知识可包括目标知识实体的各实体属性下的知识,另外,响应于确定任一知识被点击,还可展示所述知识对应的溯源信息,所述溯源信息可包括所述知识所在的知识源文件名称以及所述知识所在的内容片段。
图13为本公开所述以文本形式对检索结果进行展示的示意图。如图13所示,除上述的实用知识,还可展示一些其它信息,如置信度和术语知识,其中术语知识可包括术语(即目标知识实体)分类和术语来源等,这些知识均可在知识库中编辑,另外,临床表现、特征和英文名均为实体属性,可展示出各实体属性下的知识,假设用户点击了“表现1”这一知识,那么可如箭头(溯源连线)所示,展示出其对应的溯源信息,可包括所述知识所在的知识源文件名称以及所述知识所在的内容片段等,从而能够使用户更直观地查看到知识来源,方便用户了解知识体系全貌等。
图14为本公开所述以图谱形式对检索结果进行展示的示意图。如图14所示,目标知识实体在图谱中作为中心节点进行向外发散,本质上展示出的内容与图13中一致,而且也可展示溯源信息。另外,如果目标知识实体的某个关系类型属性所关联的知识为知识库中的知识实体,那么在图谱展示中还可针对此知识实体进行进一步展开,从而使得知识图谱的展示层次更加丰富等。
如图13和图14所示,优选地,还可展示相关图谱(如各临床表现和/或特征对应的图谱)以及相关热点云词等信息,热点云词可以是指检索热词等,具体展示哪些信息可根据实际需要而定。
结合上述介绍,图15为本公开所述平台的整体架构示意图。如图15所示,共可分为6层,最底层为存储层,可包括关系型数据库(PostgreSQL)和BGraph,其中,BGraph主要用于存储知识库的SPO三元组知识数据,支持图检索语言,并支持查询复杂的图分析逻辑等,PostgreSQL主要用于存储SPO三元组知识数据之外的数据/信息,如上传的知识资源文件、知识体系相关数据、知识统计数据以及各种任务相关的数据等,数据层用于进行资源管理,包括各种知识源文件的上传等,用户可以上传pdf格式或word格式等各种格式的知识源文件,如医疗书籍、指南、手册、说明书、医疗文献等,模型层可提供知识源文件解析以及机器预标注等服务,业务层用于对外提供服务的具体应用功能,如可包括知识体系、术语维护、知识源管理、知识库管理、任务处理以及知识透视等,知识透视可用于展示各种知识源、知识图谱统计数据等,展示层和前端用户界面(UI,User Interface)是介于用户和后端技术之间的交互渲染出来的产品页面层级,是产品最直接的展示方式,其中,展示层可支持模板引擎渲染以及网页数据交互方式(Ajax)交互等,前端UI可支持超文本标记语言(HTML,HyperTextMarkup Language)、层叠样式表(CSS,Cascading Style Sheets)、脚本语言(JavaScript)以及网页开发框架(React)等各种语言。
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图16为本公开所述知识处理装置实施例1600的组成结构示意图。如图16所示,包括:第一处理模块1601、第二处理模块1602以及第三处理模块1603。
第一处理模块1601,用于获取创建的知识体系,其中包括实体类型以及实体属性。
第二处理模块1602,用于获取创建的术语集,将术语集与对应的知识体系进行关联,并获取在术语集中创建的术语实体。
第三处理模块1603,用于针对创建的知识库,将目标知识体系对应的术语集中的术语实体作为知识库中的知识实体,目标知识体系为所述知识库对应的知识体系,并生成知识实体对应的知识数据,知识数据为根据目标知识体系中的实体类型以及实体属性生成的。
采用上述装置实施例所述方案,仅需相对少量的人工操作,如人工创建知识体系以及术语集等,即可采用人机协作方式构建出所需的知识图谱,从而节省了人力和时间成本,并提升了处理效率以及提升了处理结果的准确性等。优选地,所述知识图谱可为医疗知识图谱。
优选地,知识体系中的实体类型可采用树状结构进行组织,且不同实体类型分别具有各自的实体属性,任一实体类型具有的实体属性可分别包括:自身的实体属性和/或所继承的上位实体类型的实体属性,上位实体类型为位于同一路径中的上游的实体类型,另外,任一术语实体分别属于所关联的知识体系中的一个实体类型,或者,属于所关联的知识体系中的至少两个实体类型且所述至少两个实体类型分别位于不同的路径上。
另外,优选地,不同的知识体系可分别具有各自对应的版本号,所述版本号可由三位数字组成,第一位数字表示主版本号,第二位数字表示子版本号,第三位数字表示修订版本号,相应地,通过对任一版本号进行更新以得到一个新的版本号的更新规则可包括:将主版本号加一,子版本号以及修订版本号均清零,或者,将子版本号加一,主版本号保持不变,修订版本号清零,或者,将修订版本号加一,主版本号以及子版本号均保持不变。
优选地,第三处理模块1603在生成知识实体对应的知识数据时,可首先对选定的知识源文件进行解析,得到解析结果,之后可确定出解析结果对应的知识生产任务,并可将知识生产任务分配给对应的用户进行任务处理,进而可根据任务处理结果确定出知识实体对应的知识数据。
优选地,第三处理模块1603针对任一知识源文件,可分别按照该知识源文件所属的类型对应的结构化配置信息,采用异步解析方式对该知识源文件进行层级结构解析。
另外,优选地,针对任一知识源文件,第三处理模块1603采用异步解析方式对其进行层级结构解析之后,响应于获取到针对知识源文件的解析结果请求指令,可展示知识源文件的解析结果,响应于获取到针对知识源文件的原始文件请求指令,可展示原始的知识源文件。
优选地,第三处理模块1603可将选定的知识源文件的解析结果作为目标文本,并可获取针对目标文本创建的父任务以及子任务,父任务中包括不同类型的子任务,进而可将不同子任务分别分配给对应的用户进行任务处理。
优选地,不同类型的子任务可包括:标注子任务、标注审核子任务、映射子任务、映射审核子任务、融合子任务以及融合审核子任务,不同标注子任务分别对应于目标文本中的不同文本内容,用于指示对应的用户对所述文本内容进行知识标注处理,任一标注审核子任务分别承接在一个标注子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行标注审核处理,任一映射子任务分别承接在一个标注子任务或一个标注审核子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行映射处理,任一映射审核子任务分别承接在一个映射子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行映射审核处理,任一融合子任务分别承接在一个映射子任务或一个映射审核子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行融合处理,任一融合审核子任务分别承接在一个融合子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行融合审核处理。
优选地,父任务以及不同类型的子任务可分别具有各自对应的ID,且所述ID符合预定的命名规则。
优选地,第三处理模块1603还可将父任务、不同类型的子任务以及分配给用户的各子任务分别作为监控对象,并可分别为各监控对象生成并维护一个任务状态表,任务状态表用于记录对应的监控对象所处的任务状态,并实时进行更新。
另外,优选地,第三处理模块1603将任一标注子任务分配给对应的用户进行任务处理可包括:对该标注子任务对应的文本内容进行预标注操作,将该标注子任务分配给对应的用户进行任务处理,并将预标注结果发送给对应的用户,以便对应的用户在预标注结果的基础上进行校对和修改。
优选地,本公开所述的知识数据可存储在图数据库中,图数据库中可采用点schema和边schema组成的属性图模型来进行知识数据的存储,并支持新增点以及新增边的操作。
优选地,第三处理模块1603响应于获取到针对任一知识实体的检索请求,可将所述知识实体作为目标知识实体,并可根据对应的知识数据生成检索结果,进而可将检索结果以文本或图谱的形式进行展示。
优选地,展示的内容可包括:目标知识实体的实用知识,所述实用知识可包括目标知识实体的各实体属性下的知识,另外,第三处理模块1603响应于确定任一知识被点击,还可展示所述知识对应的溯源信息,所述溯源信息可包括所述知识所在的知识源文件名称以及所述知识所在的内容片段。
图16所示装置实施例的具体工作流程可参照前述方法实施例中的相关说明,不再赘述。
总之,采用本公开所述方案,可采用人机协作模式实现知识生产、加工和管理,整个处理过程流程化和标准化,且重要环节均可进行人工干预及进行质量评估等,并提升了知识的可视化效果,可辅助医学团队形成可询证且体系化的知识沉淀,提升工作效率等。
本公开所述方案可应用于人工智能领域,特别涉及智慧医疗、知识图谱、分布式存储以及大数据处理等领域。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术,人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术,人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
本公开所述实施例中的知识源文件等并不是针对某一特定用户的,并不能反映出某一特定用户的个人信息。本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图17示出了可以用来实施本公开的实施例的电子设备1700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图17所示,设备1700包括计算单元1701,其可以根据存储在只读存储器(ROM)1702中的计算机程序或者从存储单元1708加载到随机访问存储器(RAM)1703中的计算机程序,来执行各种适当的动作和处理。在RAM 1703中,还可存储设备1700操作所需的各种程序和数据。计算单元1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。
设备1700中的多个部件连接至I/O接口1705,包括:输入单元1706,例如键盘、鼠标等;输出单元1707,例如各种类型的显示器、扬声器等;存储单元1708,例如磁盘、光盘等;以及通信单元1709,例如网卡、调制解调器、无线通信收发机等。通信单元1709允许设备1700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1701执行上文所描述的各个方法和处理,例如本公开所述的方法。例如,在一些实施例中,本公开所述的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1702和/或通信单元1709而被载入和/或安装到设备1700上。当计算机程序加载到RAM 1703并由计算单元1701执行时,可以执行本公开所述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元1701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开所述的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (25)
1.一种知识处理方法,包括:
获取创建的知识体系,所述知识体系指定义多种实体类型以及实体属性的数据规范;
获取创建的术语集,将所述术语集与对应的知识体系进行关联,并获取在所述术语集中创建的术语实体,所述术语集指标准术语分类的集合;
针对创建的知识库,将目标知识体系对应的术语集中的术语实体作为所述知识库中的知识实体,所述目标知识体系为所述知识库对应的知识体系,并生成所述知识实体对应的知识数据,所述知识数据为根据所述目标知识体系中的实体类型以及实体属性生成的,包括:对选定的知识源文件进行解析,得到解析结果;将所述解析结果作为目标文本,获取针对所述目标文本创建的父任务以及子任务,所述父任务中包括不同类型的子任务,将所述子任务分配给对应的用户进行任务处理;其中,所述不同类型的子任务包括:标注子任务、标注审核子任务、映射子任务、映射审核子任务、融合子任务以及融合审核子任务,不同标注子任务分别对应于所述目标文本中的不同文本内容,用于指示对应的用户对所述文本内容进行知识标注处理,任一标注审核子任务分别承接在一个标注子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行标注审核处理,任一映射子任务分别承接在一个标注子任务或一个标注审核子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行映射处理,任一映射审核子任务分别承接在一个映射子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行映射审核处理,任一融合子任务分别承接在一个映射子任务或一个映射审核子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行融合处理,任一融合审核子任务分别承接在一个融合子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行融合审核处理;根据任务处理结果确定出所述知识实体对应的所述知识数据。
2.根据权利要求1所述的方法,其中,
所述知识体系中的实体类型采用树状结构进行组织,且不同实体类型分别具有各自的实体属性,任一实体类型具有的实体属性分别包括:自身的实体属性和/或所继承的上位实体类型的实体属性,所述上位实体类型为位于同一路径中的上游的实体类型;
任一术语实体分别属于所关联的知识体系中的一个实体类型,或者,属于所关联的知识体系中的至少两个实体类型且所述至少两个实体类型分别位于不同的路径上。
3.根据权利要求1所述的方法,其中,
不同的知识体系分别具有各自对应的版本号,所述版本号由三位数字组成,第一位数字表示主版本号,第二位数字表示子版本号,第三位数字表示修订版本号;
通过对任一版本号进行更新以得到一个新的版本号的更新规则包括:
将所述主版本号加一,所述子版本号以及所述修订版本号均清零;
或者,将所述子版本号加一,所述主版本号保持不变,所述修订版本号清零;
或者,将所述修订版本号加一,所述主版本号以及所述子版本号均保持不变。
4.根据权利要求1所述的方法,其中,所述对选定的知识源文件进行解析包括:
针对任一知识源文件,分别按照所述知识源文件所属的类型对应的结构化配置信息,采用异步解析方式对所述知识源文件进行层级结构解析。
5.根据权利要求4所述的方法,还包括:
针对任一知识源文件,所述采用异步解析方式对所述知识源文件进行层级结构解析之后,响应于获取到针对所述知识源文件的解析结果请求指令,展示所述知识源文件的解析结果,响应于获取到针对所述知识源文件的原始文件请求指令,展示原始的所述知识源文件。
6.根据权利要求1所述的方法,其中,
所述父任务以及所述不同类型的子任务分别具有各自对应的标识,且所述标识符合预定的命名规则。
7.根据权利要求1所述的方法,还包括:
将所述父任务、所述不同类型的子任务以及分配给用户的各子任务分别作为监控对象,分别为各监控对象生成并维护一个任务状态表,所述任务状态表用于记录对应的监控对象所处的任务状态,并实时进行更新。
8.根据权利要求1所述的方法,其中,
将任一标注子任务分配给对应的用户进行任务处理包括:对所述标注子任务对应的文本内容进行预标注操作,将所述标注子任务分配给对应的用户进行任务处理,并将预标注结果发送给对应的用户,以便对应的用户在所述预标注结果的基础上进行校对和修改。
9.根据权利要求1~8中任一项所述的方法,其中,
所述知识数据存储在图数据库中,所述图数据库中采用点体系和边体系组成的属性图模型进行所述知识数据的存储,并支持新增点以及新增边的操作。
10.根据权利要求1~8中任一项所述的方法,还包括:
所述生成所述知识实体对应的知识数据之后,响应于获取到针对任一知识实体的检索请求,将所述知识实体作为目标知识实体,并根据对应的知识数据生成检索结果,将所述检索结果以文本或图谱的形式进行展示。
11.根据权利要求10所述的方法,其中,
展示的内容包括:所述目标知识实体的实用知识,所述实用知识包括所述目标知识实体的各实体属性下的知识;
所述方法还包括:响应于确定任一知识被点击,展示所述知识对应的溯源信息,所述溯源信息包括所述知识所在的知识源文件名称以及所述知识所在的内容片段。
12.一种知识处理装置,包括:第一处理模块、第二处理模块以及第三处理模块;
所述第一处理模块,用于获取创建的知识体系,所述知识体系指定义多种实体类型以及实体属性的数据规范;
所述第二处理模块,用于获取创建的术语集,将所述术语集与对应的知识体系进行关联,并获取在所述术语集中创建的术语实体,所述术语集指标准术语分类的集合;
所述第三处理模块,用于针对创建的知识库,将目标知识体系对应的术语集中的术语实体作为所述知识库中的知识实体,所述目标知识体系为所述知识库对应的知识体系,并生成所述知识实体对应的知识数据,所述知识数据为根据所述目标知识体系中的实体类型以及实体属性生成的,包括:对选定的知识源文件进行解析,得到解析结果;将所述解析结果作为目标文本,获取针对所述目标文本创建的父任务以及子任务,所述父任务中包括不同类型的子任务,将所述子任务分配给对应的用户进行任务处理;其中,所述不同类型的子任务包括:标注子任务、标注审核子任务、映射子任务、映射审核子任务、融合子任务以及融合审核子任务,不同标注子任务分别对应于所述目标文本中的不同文本内容,用于指示对应的用户对所述文本内容进行知识标注处理,任一标注审核子任务分别承接在一个标注子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行标注审核处理,任一映射子任务分别承接在一个标注子任务或一个标注审核子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行映射处理,任一映射审核子任务分别承接在一个映射子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行映射审核处理,任一融合子任务分别承接在一个映射子任务或一个映射审核子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行融合处理,任一融合审核子任务分别承接在一个融合子任务之后执行,用于指示对应的用户对所承接的子任务的处理结果进行融合审核处理;根据任务处理结果确定出所述知识实体对应的所述知识数据。
13.根据权利要求12所述的装置,其中,
所述知识体系中的实体类型采用树状结构进行组织,且不同实体类型分别具有各自的实体属性,任一实体类型具有的实体属性分别包括:自身的实体属性和/或所继承的上位实体类型的实体属性,所述上位实体类型为位于同一路径中的上游的实体类型;
任一术语实体分别属于所关联的知识体系中的一个实体类型,或者,属于所关联的知识体系中的至少两个实体类型且所述至少两个实体类型分别位于不同的路径上。
14.根据权利要求12所述的装置,其中,
不同的知识体系分别具有各自对应的版本号,所述版本号由三位数字组成,第一位数字表示主版本号,第二位数字表示子版本号,第三位数字表示修订版本号;
通过对任一版本号进行更新以得到一个新的版本号的更新规则包括:将所述主版本号加一,所述子版本号以及所述修订版本号均清零,或者,将所述子版本号加一,所述主版本号保持不变,所述修订版本号清零,或者,将所述修订版本号加一,所述主版本号以及所述子版本号均保持不变。
15.根据权利要求12所述的装置,其中,
所述第三处理模块针对任一知识源文件,分别按照所述知识源文件所属的类型对应的结构化配置信息,采用异步解析方式对所述知识源文件进行层级结构解析。
16.根据权利要求15所述的装置,其中,
所述第三处理模块进一步用于,针对任一知识源文件,响应于获取到针对所述知识源文件的解析结果请求指令,展示所述知识源文件的解析结果,响应于获取到针对所述知识源文件的原始文件请求指令,展示原始的所述知识源文件。
17.根据权利要求12所述的装置,其中,
所述父任务以及所述不同类型的子任务分别具有各自对应的标识,且所述标识符合预定的命名规则。
18.根据权利要求12所述的装置,其中,
所述第三处理模块进一步用于,将所述父任务、所述不同类型的子任务以及分配给用户的各子任务分别作为监控对象,分别为各监控对象生成并维护一个任务状态表,所述任务状态表用于记录对应的监控对象所处的任务状态,并实时进行更新。
19.根据权利要求12所述的装置,其中,
所述第三处理模块进一步用于,对任一标注子任务对应的文本内容进行预标注操作,将所述标注子任务分配给对应的用户进行任务处理,并将预标注结果发送给对应的用户,以便对应的用户在所述预标注结果的基础上进行校对和修改。
20.根据权利要求12~19中任一项所述的装置,其中,
所述知识数据存储在图数据库中,所述图数据库中采用点体系和边体系组成的属性图模型进行所述知识数据的存储,并支持新增点以及新增边的操作。
21.根据权利要求12~19中任一项所述的装置,其中,
所述第三处理模块进一步用于,响应于获取到针对任一知识实体的检索请求,将所述知识实体作为目标知识实体,并根据对应的知识数据生成检索结果,将所述检索结果以文本或图谱的形式进行展示。
22.根据权利要求21所述的装置,其中,
展示的内容包括:所述目标知识实体的实用知识,所述实用知识包括所述目标知识实体的各实体属性下的知识;
所述第三处理模块进一步用于,响应于确定任一知识被点击,展示所述知识对应的溯源信息,所述溯源信息包括所述知识所在的知识源文件名称以及所述知识所在的内容片段。
23.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
24.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行权利要求1-11中任一项所述的方法。
25.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310776845.9A CN116910250B (zh) | 2023-06-28 | 2023-06-28 | 知识处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310776845.9A CN116910250B (zh) | 2023-06-28 | 2023-06-28 | 知识处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116910250A CN116910250A (zh) | 2023-10-20 |
CN116910250B true CN116910250B (zh) | 2024-08-06 |
Family
ID=88367519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310776845.9A Active CN116910250B (zh) | 2023-06-28 | 2023-06-28 | 知识处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910250B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687397A (zh) * | 2020-12-31 | 2021-04-20 | 四川大学华西医院 | 罕见病知识库的处理方法及装置、可读存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014089769A1 (en) * | 2012-12-12 | 2014-06-19 | Google Inc. | Providing search results based on a compositional query |
US10303798B2 (en) * | 2014-12-18 | 2019-05-28 | Nuance Communications, Inc. | Question answering from structured and unstructured data sources |
CN107341215B (zh) * | 2017-06-07 | 2020-05-12 | 北京航空航天大学 | 一种基于分布式计算平台的多源垂直知识图谱分类集成查询系统 |
CN109947950B (zh) * | 2019-03-14 | 2023-01-06 | 长沙沃本智能科技有限公司 | 基于中间层核心本体的领域知识图谱的构建方法和装置 |
CN111475629A (zh) * | 2020-03-31 | 2020-07-31 | 渤海大学 | 一种面向数学辅导问答系统的知识图谱构建方法及其系统 |
CN112307772B (zh) * | 2020-11-05 | 2022-03-25 | 广东工业大学 | 一种基于语义本体的广彩瓷知识库的构建方法 |
CN113268606B (zh) * | 2021-05-27 | 2024-10-29 | 清华大学 | 知识图谱构建的方法和装置 |
CN113821494A (zh) * | 2021-08-20 | 2021-12-21 | 华中农业大学 | 一种食品安全知识库的建立方法 |
CN113946686A (zh) * | 2021-10-14 | 2022-01-18 | 国网山东省电力公司营销服务中心(计量中心) | 电力营销知识图谱构建方法及系统 |
CN114064923A (zh) * | 2021-11-18 | 2022-02-18 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN115545017A (zh) * | 2022-10-14 | 2022-12-30 | 山东浪潮智慧医疗科技有限公司 | 基于节点相似度的医学术语归一化方法及系统 |
-
2023
- 2023-06-28 CN CN202310776845.9A patent/CN116910250B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687397A (zh) * | 2020-12-31 | 2021-04-20 | 四川大学华西医院 | 罕见病知识库的处理方法及装置、可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116910250A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10725827B2 (en) | Artificial intelligence based virtual automated assistance | |
US11887010B2 (en) | Data classification for data lake catalog | |
US9087296B2 (en) | Navigable semantic network that processes a specification to and uses a set of declaritive statements to produce a semantic network model | |
US11380116B2 (en) | Automatic delineation and extraction of tabular data using machine learning | |
US11531914B2 (en) | Artificial intelligence (AI) based automatic rule generation | |
US10073827B2 (en) | Method and system to generate a process flow diagram | |
US10885087B2 (en) | Cognitive automation tool | |
US20220237376A1 (en) | Method, apparatus, electronic device and storage medium for text classification | |
CN110532487B (zh) | 标签的生成方法及装置 | |
CN118093801A (zh) | 基于大语言模型的信息交互方法、装置以及电子设备 | |
CN112733017A (zh) | 一种标签管理方法、装置、存储介质及电子装置 | |
CN115840738A (zh) | 一种数据迁移方法、装置、电子设备及存储介质 | |
CN112182093A (zh) | 数据存储方法、装置、设备及计算机可读存储介质 | |
CN115221337A (zh) | 数据编织处理方法、装置、电子设备及可读存储介质 | |
CN114997414A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN116910250B (zh) | 知识处理方法、装置、电子设备及存储介质 | |
KR102547033B1 (ko) | 키워드 인식 기능을 활용하여 사용자가 선택한 방식으로 정보를 제공하는 방법 | |
US20240112065A1 (en) | Meta-learning operation research optimization | |
CN107220249A (zh) | 基于分类的全文搜索 | |
CN112541335B (zh) | 生成解读文本的方法、装置、电子设备及存储介质 | |
CN112527870B (zh) | 电子报告的生成方法、装置、电子设备和存储介质 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
US20120084748A1 (en) | System and a method for generating a domain-specific software solution | |
CN117651950A (zh) | 具有上下文感知的经阐明的自然语言人工产物重组 | |
US20210124871A1 (en) | Authoring management method based on relation of electronic documents and authoring management system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |