CN113486127A - 一种知识对齐方法、系统、电子设备及介质 - Google Patents

一种知识对齐方法、系统、电子设备及介质 Download PDF

Info

Publication number
CN113486127A
CN113486127A CN202110838950.1A CN202110838950A CN113486127A CN 113486127 A CN113486127 A CN 113486127A CN 202110838950 A CN202110838950 A CN 202110838950A CN 113486127 A CN113486127 A CN 113486127A
Authority
CN
China
Prior art keywords
knowledge
domain
extraction model
bad
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110838950.1A
Other languages
English (en)
Inventor
于皓
张�杰
吴信东
吴明辉
陈栋
袁杰
李犇
罗华刚
邓礼志
王展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110838950.1A priority Critical patent/CN113486127A/zh
Publication of CN113486127A publication Critical patent/CN113486127A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本申请公开了一种知识对齐方法、系统、电子设备及介质,知识对齐方法包括:领域业务知识构建步骤:构建领域并构建领域的领域业务知识后,根据领域业务知识对领域语料进行知识标注,获取标注语料数据;领域知识抽取模型构建步骤:构建领域知识抽取模型并通过领域知识抽取模型获取标注语料数据中的知识后,计算获取知识的置信度;审核结果生成步骤:通过挑选获得知识与标注语料数据中不一致的bad case,并通过对bad case进行排序获取相关统计信息后,将bad case与统计信息传送到人机协同的系统平台,并通过系统平台对bad case进行审核获取审核结果;知识对齐步骤:根据审核结果,对bad case进行数据处理后,获取与领域业务知识对齐的知识。

Description

一种知识对齐方法、系统、电子设备及介质
技术领域
本申请涉及数据能力技术领域,尤其涉及一种知识对齐方法、系统、电子设备及介质。
背景技术
随着近几年NLP技术的迅速发展,在企业数字化的大趋势背景下,从文本语料中抽取、挖掘领域行业知识,并应用到实际的企业客户全生命周期价值经营中,为企业的可持续创新发展提供新动力,已然成为企业数字化转型的重要环节。从领域行业文本语料数据到领域业务知识的转换映射中,存在一个较大的间隔空间,AI相关的先进技术方法就是建立顶层的业务知识到底层的数据知识之间的映射,并将其中的间隔空间不断缩小,以使从底层数据抽取的知识能更好地服务于领域行业中的企业。因而,通过现有技术业务专家无法快速建立业务知识的规范化和标准化,并无法缩短领域业务知识和数据知识之间的gap耗时。
发明内容
本申请实施例提供了一种知识对齐方法、系统、电子设备及介质,以至少通过本发明解决了领域业务知识与数据知识对齐过程中,无法快速建立业务知识的规范化和标准化,以及无法缩短领域业务知识和数据知识之间的gap耗时等问题。
本发明提供了知识对齐方法,包括:
领域业务知识构建步骤:构建领域并构建所述领域的领域业务知识后,根据所述领域业务知识对领域语料进行知识标注,获取标注语料数据;
领域知识抽取模型构建步骤:构建领域知识抽取模型并通过所述领域知识抽取模型获取所述标注语料数据中的知识后,计算获取所述知识的置信度;
审核结果生成步骤:通过挑选获得所述知识与所述标注语料数据中不一致的badcase,并通过对所述bad case进行排序获取相关统计信息后,将所述bad case与所述统计信息传送到人机协同的系统平台,并通过所述系统平台对所述bad case进行审核获取审核结果;
知识对齐步骤:根据所述审核结果,对所述bad case进行数据处理后,获取与所述领域业务知识对齐的知识。
上述的知识对齐方法中,所述领域知识抽取模型构建步骤包括:
领域知识抽取模型获取步骤:通过相关算法构建所述领域知识抽取模型后,对所述领域知识抽取模型进行训练;
知识置信度获取步骤:通过训练完成的领域知识抽取模型对所述标注语料数据进行跑数获取所述标注语料数据中的所述知识后,计算获取所述知识的所述置信度。
上述的知识对齐方法中,所述审核结果生成步骤包括:
统计信息获取步骤:通过挑选获得所述知识与所述标注语料数据中不一致的所述bad case,并通过所述不一致性与所述置信度对所述bad case进行排序,获取所述相关统计信息;
审核结果获取步骤:建立人机协同的所述系统平台后,将所述bad case与所述统计信息传送到所述系统平台后,通过所述系统平台对所述bad case进行审核,获取所述审核结果。
上述的知识对齐方法中,所述知识对齐步骤包括,根据所述审核结果,对所述badcase进行数据处理后,进行迭代操作,获取与所述领域业务知识对齐的所述知识。
本发明还提供知识对齐系统,其中,适用于上述所述的知识对齐方法,所述知识对齐系统包括:
领域业务知识构建单元:构建领域并构建所述领域的领域业务知识后,根据所述领域业务知识对领域语料进行知识标注,获取标注语料数据;
领域知识抽取模型构建单元:构建领域知识抽取模型并通过所述领域知识抽取模型获取所述标注语料数据中的知识后,计算获取所述知识的置信度;
审核结果生成单元:通过挑选获得所述知识与所述标注语料数据中不一致的badcase,并通过对所述bad case进行排序获取相关统计信息后,将所述bad case与所述统计信息传送到人机协同的系统平台,并通过所述系统平台对所述bad case进行审核获取审核结果;
知识对齐单元:根据所述审核结果,对所述bad case进行数据处理后,获取与所述领域业务知识对齐的知识。
上述的知识对齐系统中,所述领域知识抽取模型构建单元包括:
领域知识抽取模型获取模块:通过相关算法构建所述领域知识抽取模型后,对所述领域知识抽取模型进行训练;
知识置信度获取模块:通过训练完成的领域知识抽取模型对所述标注语料数据进行跑数获取所述标注语料数据中的所述知识后,计算获取所述知识的所述置信度。
上述的知识对齐系统中,所述审核结果生成单元包括:
统计信息获取模块:通过挑选获得所述知识与所述标注语料数据中不一致的所述bad case,并通过所述不一致性与所述置信度对所述bad case进行排序,获取所述相关统计信息;
审核结果获取模块:建立人机协同的所述系统平台后,将所述bad case与所述统计信息传送到所述系统平台后,通过所述系统平台对所述bad case进行审核,获取所述审核结果。
上述的知识对齐系统中,根据所述审核结果对所述bad case进行数据处理后,进行迭代操作,通过所述知识对齐单元获取与所述领域业务知识对齐的所述知识。
本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的知识对齐方法。
本发明还提供一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现上述任一项所述的知识对齐方法。
相比于相关技术,本发明提出的一种知识对齐方法、系统、电子设备及介质,帮助领域业务专家快速建立领域业务知识的规范化和标准化,快速缩短领域业务知识和数据知识之间的gap耗时,减少企业在从语料中抽取知识的开发周期,提高了领域业务知识与数据知识对齐效率以及数据挖掘能力。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的知识对齐方法流程图;
图2为本发明的知识对齐系统的结构示意图;
图3是根据本申请实施例的电子设备的框架图;
图4是现有技术流程图。
其中,附图标记为:
领域业务知识构建单元:51;
领域知识抽取模型构建单元:52;
审核结果生成单元:53;
知识对齐单元:54;
领域知识抽取模型获取模块:521;
知识置信度获取模块:522;
统计信息获取模块:531;
审核结果获取模块:532;
总线:80;
处理器:81;
存储器:82;
通信接口:83。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
现有的技术方法是先构建领域schema开始,不同的领域知识复杂度决定了构建schema需要数周甚至数月时间,然后通过人工标注构建样本训练集,算法工程师通过监督机器学习方式构建领域知识抽取模型,然后分析模型的效果,再将模型结果的相关数据交由业务专家进行评判和分析,如果模型达不到实际应用效果,则需要分析具体的原因,在业务知识定义、标注质量和模型识别效果等都有可能存在问题,在这个过程中需要耗费数周或数月时间进行迭代的优化,具体的技术环节流程图如图4所示。
本发明通过构建领域的领域业务知识,根据领域业务知识对领域语料进行知识标注后,构建领域知识抽取模型并通过领域知识抽取模型获取标注语料数据中的知识后,计算获取所述知识的置信度,并通过挑选获得所述知识与所述标注语料数据中不一致的badcase,将bad case与统计信息传送到人机协同的系统平台,并通过系统平台对bad case进行审核获取审核结果后,根据所述审核结果,对bad case进行数据处理后,获取与领域业务知识对齐的知识。
下面结合具体实施例对本发明进行说明。
实施例一
本实施例提供了知识对齐方法。请参照图1,图1是根据本申请实施例的知识对齐方法流程图,如图1所示,知识对齐方法包括如下步骤:
领域业务知识构建步骤S1:构建领域并构建所述领域的领域业务知识后,根据所述领域业务知识对领域语料进行知识标注,获取标注语料数据;
领域知识抽取模型构建步骤S2:构建领域知识抽取模型并通过所述领域知识抽取模型获取所述标注语料数据中的知识后,计算获取所述知识的置信度;
审核结果生成步骤S3:通过挑选获得所述知识与所述标注语料数据中不一致的bad case,并通过对所述bad case进行排序获取相关统计信息后,将所述bad case与所述统计信息传送到人机协同的系统平台,并通过所述系统平台对所述bad case进行审核获取审核结果;
知识对齐步骤S4:根据所述审核结果,对所述bad case进行数据处理后,获取与所述领域业务知识对齐的知识。
在实施例中,所述领域业务知识构建步骤S1包括,构建领域并构建所述领域的领域业务知识后,根据所述领域业务知识对领域语料进行知识标注,获取标注语料数据。
在具体实施中,通过多人协作的模式,快速构建领域schema,并对领域schema建立业务范围的定义和规范(通常存在模糊性和认知不一致性);领域业务专家将领域业务知识传递给标注人员,标注人员按照领域业务知识定义,对领域的文本语料进行相关知识的标注(通常存在认知的不一致和模糊性)。
在实施例中,所述领域知识抽取模型构建步骤S2包括:
领域知识抽取模型获取步骤S21:通过相关算法构建所述领域知识抽取模型后,对所述领域知识抽取模型进行训练;
知识置信度获取步骤S22:通过训练完成的领域知识抽取模型对所述标注语料数据进行跑数获取所述标注语料数据中的所述知识后,计算获取所述知识的所述置信度。
在具体实施中,通过Bert等相关算法构建领域知识的抽取模型,通过训练好的领域知识抽取模型对标注语料数据进行跑数,得到模型可以抽取到的知识,并计算得到所有知识的置信度。
在实施例中,所述审核结果生成步骤S3包括:
统计信息获取步骤S31:通过挑选获得所述知识与所述标注语料数据中不一致的所述bad case,并通过所述不一致性与所述置信度对所述bad case进行排序,获取所述相关统计信息;
审核结果获取步骤S32:建立人机协同的所述系统平台后,将所述bad case与所述统计信息传送到所述系统平台后,通过所述系统平台对所述bad case进行审核,获取所述审核结果。
在具体实施中,将知识和标注语料数据进行组合分析,将两者不一致的bad case进行挑选出来,并按照不一致性和模型抽取的知识的置信度进行排序;建立人机协同的系统平台,业务专家、标注人员和算法工程师共同参与审核功能,将bad case和相关统计分析信息传送到系统平台中,业务专家、标注人员和算法工程师可以同步或者异步对bad case进行审核;审核的不一致bad case发生的错误主要分为三大类错误:业务专家定义的业务知识不规范、标注人员理解的业务知识定义不准确或者漏标、模型对业务知识抽取的不准确,每条bad case只有三种角色在对错误进行分类一致的情况下,则该条bad case审核完成。
在实施例中,所述知识对齐步骤S4包括,根据所述审核结果,对所述bad case进行数据处理后,进行迭代操作,获取与所述领域业务知识对齐的所述知识。
在具体实施中,根据审核结果对bad case进行数据处理,对不同类型的审核结果进行处理方法为,对业务专家定义模糊的业务知识重新定义标准化,对标注人员错标和漏标的情况对语料自动进行修正,对模型识别错误的语料进行聚类,帮助算法人员进行badcase分析以提高模型的效果;根据审核结果对bad case进行数据处理后,迭代执行领域业务知识构建步骤S1、领域知识抽取模型构建步骤S2和审核结果生成步骤S3,直到模型抽取的知识和领域业务知识定义达到一致为止,知识与领域业务知识定义达到一致实现了数据知识和领域业务知识的对齐。若需要将数据知识融合到业务流程中时,利用领域知识抽取模型,对新的领域语料数据进行知识抽取,利用符合业务的上层次定义的抽取到的知识,基于该知识进行业务应用。
实施例二
请参照图2,图2为本发明的知识对齐系统的结构示意图。如图2所示,发明的知识对齐,适用于上述的知识对齐方法,知识对齐系统,包括:
领域业务知识构建单元51:构建领域并构建所述领域的领域业务知识后,根据所述领域业务知识对领域语料进行知识标注,获取标注语料数据;
领域知识抽取模型构建单元52:构建领域知识抽取模型并通过所述领域知识抽取模型获取所述标注语料数据中的知识后,计算获取所述知识的置信度;
审核结果生成单元53:通过挑选获得所述知识与所述标注语料数据中不一致的bad case,并通过对所述bad case进行排序获取相关统计信息后,将所述bad case与所述统计信息传送到人机协同的系统平台,并通过所述系统平台对所述bad case进行审核获取审核结果;
知识对齐单元54:根据所述审核结果,对所述bad case进行数据处理后,获取与所述领域业务知识对齐的知识。
在实施例中,构建所述领域并通过所述领域业务知识构建单元51构建所述领域的所述领域业务知识后,根据所述领域业务知识对所述领域语料进行相关的知识标注,获取所述标注语料数据。
在实施例中,所述领域知识抽取模型构建单元52包括:
领域知识抽取模型获取模块521:通过相关算法构建所述领域知识抽取模型后,对所述领域知识抽取模型进行训练;
知识置信度获取模块522:通过训练完成的领域知识抽取模型对所述标注语料数据进行跑数获取所述标注语料数据中的所述知识后,计算获取所述知识的所述置信度。
在实施例中,所述审核结果生成单元53包括:
统计信息获取模块531:通过挑选获得所述知识与所述标注语料数据中不一致的所述bad case,并通过所述不一致性与所述置信度对所述bad case进行排序,获取所述相关统计信息;
审核结果获取模块532:建立人机协同的所述系统平台后,将所述bad case与所述统计信息传送到所述系统平台后,通过所述系统平台对所述bad case进行审核,获取所述审核结果。
在实施例中,根据所述审核结果对所述bad case进行数据处理后,进行迭代操作,通过所述知识对齐单元54获取与所述领域业务知识对齐的所述知识。
实施例三
结合图3所示,本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在异常数据监测装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random Access Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为FPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory,简称为EFPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-AccessMemory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意知识对齐方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图3所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/异常数据监测设备、数据库、外部存储以及图像/异常数据监测工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
电子设备可连接知识对齐系统,从而实现结合图1的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,本发明帮助领域业务专家快速建立领域业务知识的规范化和标准化,快速缩短领域业务知识和数据知识之间的gap耗时,因而减少企业在从语料中抽取知识的开发周期。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求的保护范围为准。

Claims (10)

1.一种知识对齐方法,其特征在于,包括:
领域业务知识构建步骤:构建领域并构建所述领域的领域业务知识后,根据所述领域业务知识对领域语料进行知识标注,获取标注语料数据;
领域知识抽取模型构建步骤:构建领域知识抽取模型并通过所述领域知识抽取模型获取所述标注语料数据中的知识后,计算获取所述知识的置信度;
审核结果生成步骤:通过挑选获得所述知识与所述标注语料数据中不一致的badcase,并通过对所述bad case进行排序获取相关统计信息后,将所述bad case与所述统计信息传送到人机协同的系统平台,并通过所述系统平台对所述bad case进行审核获取审核结果;
知识对齐步骤:根据所述审核结果,对所述bad case进行数据处理后,获取与所述领域业务知识对齐的知识。
2.根据权利要求1所述的知识对齐方法,其特征在于,所述领域知识抽取模型构建步骤包括:
领域知识抽取模型获取步骤:通过相关算法构建所述领域知识抽取模型后,对所述领域知识抽取模型进行训练;
知识置信度获取步骤:通过训练完成的领域知识抽取模型对所述标注语料数据进行跑数获取所述标注语料数据中的所述知识后,计算获取所述知识的所述置信度。
3.根据权利要求1所述的知识对齐方法,其特征在于,所述审核结果生成步骤包括:
统计信息获取步骤:通过挑选获得所述知识与所述标注语料数据中不一致的所述badcase,并通过所述不一致性与所述置信度对所述bad case进行排序,获取所述相关统计信息;
审核结果获取步骤:建立人机协同的所述系统平台后,将所述bad case与所述统计信息传送到所述系统平台后,通过所述系统平台对所述bad case进行审核,获取所述审核结果。
4.根据权利要求1所述的知识对齐方法,其特征在于,所述知识对齐步骤包括,根据所述审核结果,对所述bad case进行数据处理后,进行迭代操作,获取与所述领域业务知识对齐的所述知识。
5.一种知识对齐系统,其特征在于,适用于上述权利要求1至4中任一项所述的知识对齐方法,所述知识对齐系统包括:
领域业务知识构建单元:构建领域并构建所述领域的领域业务知识后,根据所述领域业务知识对领域语料进行知识标注,获取标注语料数据;
领域知识抽取模型构建单元:构建领域知识抽取模型并通过所述领域知识抽取模型获取所述标注语料数据中的知识后,计算获取所述知识的置信度;
审核结果生成单元:通过挑选获得所述知识与所述标注语料数据中不一致的badcase,并通过对所述bad case进行排序获取相关统计信息后,将所述bad case与所述统计信息传送到人机协同的系统平台,并通过所述系统平台对所述bad case进行审核获取审核结果;
知识对齐单元:根据所述审核结果,对所述bad case进行数据处理后,获取与所述领域业务知识对齐的知识。
6.根据权利要求5所述的知识对齐系统,其特征在于,所述领域知识抽取模型构建单元包括:
领域知识抽取模型获取模块:通过相关算法构建所述领域知识抽取模型后,对所述领域知识抽取模型进行训练;
知识置信度获取模块:通过训练完成的领域知识抽取模型对所述标注语料数据进行跑数获取所述标注语料数据中的所述知识后,计算获取所述知识的所述置信度。
7.根据权利要求6所述的知识对齐系统,其特征在于,所述审核结果生成单元包括:
统计信息获取模块:通过挑选获得所述知识与所述标注语料数据中不一致的所述badcase,并通过所述不一致性与所述置信度对所述bad case进行排序,获取所述相关统计信息;
审核结果获取模块:建立人机协同的所述系统平台后,将所述bad case与所述统计信息传送到所述系统平台后,通过所述系统平台对所述bad case进行审核,获取所述审核结果。
8.根据权利要求7所述的知识对齐系统,其特征在于,根据所述审核结果对所述badcase进行数据处理后,进行迭代操作,通过所述知识对齐单元获取与所述领域业务知识对齐的所述知识。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的知识对齐方法。
10.一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现如权利要求1至4中任一项所述的知识对齐方法。
CN202110838950.1A 2021-07-23 2021-07-23 一种知识对齐方法、系统、电子设备及介质 Pending CN113486127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110838950.1A CN113486127A (zh) 2021-07-23 2021-07-23 一种知识对齐方法、系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110838950.1A CN113486127A (zh) 2021-07-23 2021-07-23 一种知识对齐方法、系统、电子设备及介质

Publications (1)

Publication Number Publication Date
CN113486127A true CN113486127A (zh) 2021-10-08

Family

ID=77943552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110838950.1A Pending CN113486127A (zh) 2021-07-23 2021-07-23 一种知识对齐方法、系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113486127A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492306A (zh) * 2021-11-16 2022-05-13 马上消费金融股份有限公司 语料标注方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
CN110826331A (zh) * 2019-10-28 2020-02-21 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN112632278A (zh) * 2020-12-18 2021-04-09 平安普惠企业管理有限公司 一种基于多标签分类的标注方法、装置、设备及存储介质
CN112818138A (zh) * 2021-04-19 2021-05-18 中译语通科技股份有限公司 知识图谱本体构建方法、装置、终端设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置
CN110826331A (zh) * 2019-10-28 2020-02-21 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN112632278A (zh) * 2020-12-18 2021-04-09 平安普惠企业管理有限公司 一种基于多标签分类的标注方法、装置、设备及存储介质
CN112818138A (zh) * 2021-04-19 2021-05-18 中译语通科技股份有限公司 知识图谱本体构建方法、装置、终端设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492306A (zh) * 2021-11-16 2022-05-13 马上消费金融股份有限公司 语料标注方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111309912B (zh) 文本分类方法、装置、计算机设备及存储介质
CN108959474B (zh) 实体关系提取方法
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN110287104A (zh) 测试用例生成方法、装置、终端及计算机可读存储介质
EP4193261A1 (en) Test script generation from test specifications using natural language processing
CN110751234A (zh) Ocr识别纠错方法、装置及设备
CN110674442A (zh) 页面监控方法、装置、设备及计算机可读存储介质
CN110674642B (zh) 一种用于含噪稀疏文本的语义关系抽取方法
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN113486127A (zh) 一种知识对齐方法、系统、电子设备及介质
CN110852082B (zh) 同义词的确定方法及装置
CN110334262B (zh) 一种模型训练方法、装置及电子设备
CN115904482B (zh) 接口文档生成方法、装置、设备及存储介质
US10229105B1 (en) Mobile log data parsing
WO2022242923A1 (en) Artificial intelligence based cognitive test script generation
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN114416847A (zh) 一种数据转换的方法、装置、服务器及存储介质
CN113722471A (zh) 一种文本摘要生成方法、系统、电子设备及介质
Shao et al. Research on Cross-Company Defect Prediction Method to Improve Software Security
CN117561502A (zh) 一种确定失效原因的方法及装置
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
CN113554173A (zh) 一种领域知识标注方法、系统、电子设备及介质
CN102722489A (zh) 从网页中抽取对象标识符的系统及方法
CN115758135B (zh) 轨道交通信号系统功能需求追溯方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination