CN114186533A - 模型训练方法及装置、知识抽取方法及装置、设备和介质 - Google Patents
模型训练方法及装置、知识抽取方法及装置、设备和介质 Download PDFInfo
- Publication number
- CN114186533A CN114186533A CN202111302016.4A CN202111302016A CN114186533A CN 114186533 A CN114186533 A CN 114186533A CN 202111302016 A CN202111302016 A CN 202111302016A CN 114186533 A CN114186533 A CN 114186533A
- Authority
- CN
- China
- Prior art keywords
- document
- knowledge
- sample
- target
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种模型训练方法及装置、知识抽取方法及装置、设备和介质,涉及人工智能领域,具体为知识图谱技术领域。方案为:对样本文档进行解析,确定样本文档中各元素在样本文档中所属的层级,并根据各元素所属的层级,生成文档树,文档树中包括各个层级的节点用于指示样本文档中对应层级的元素;针对文档树中的每个节点,查询与节点所指示元素的类型匹配的目标知识抽取模型,并采用目标知识抽取模型对节点所指示的元素进行知识抽取,得到预测知识;根据预测知识和节点所指示的元素在样本文档上对应的标注知识之间的差异,对目标知识抽取模型进行训练。由此,基于深度学习技术,对各知识抽取模型进行训练,可以提升各知识抽取模型的预测效果。
Description
技术领域
本公开涉及人工智能领域,具体为知识图谱技术领域,尤其涉及模型训练方法及装置、知识抽取方法及装置、设备和介质。
背景技术
从不同来源、不同结构的数据中进行知识抽取,形成知识存入到知识图谱,为智能问答、智能客服等技术的基础。得益于人工智能与深度学习技术的不断发展,可以利用模型来实现知识的自动抽取。为了提升模型的预测效果,对模型进行训练是非常重要的。
发明内容
本公开提供了一种用于模型训练方法及装置、知识抽取方法及装置、设备和介质。
根据本公开的一方面,提供了一种模型训练方法,包括:
获取样本集合中的至少一个样本文档,并对所述样本文档进行解析,以确定所述样本文档中各元素在所述样本文档中所属的层级;
根据各所述元素所属的层级,生成文档树;其中,所述文档树中包括各个层级的节点,每个层级的所述节点用于指示所述样本文档中对应层级的元素;
针对所述文档树中的每个节点,根据所述节点所指示元素的类型,查询与所述类型匹配的目标知识抽取模型;
采用所述目标知识抽取模型对所述节点所指示的元素进行知识抽取,以得到预测知识;
根据所述预测知识和所述节点所指示的元素在所述样本文档上对应的标注知识之间的差异,对所述目标知识抽取模型进行训练。
根据本公开的另一方面,提供了一种知识抽取方法,包括:
获取待识别文档;
对所述待识别文档进行解析,以确定所述待识别文档中各元素在所述待识别文档中所属的层级;
根据各所述元素所属的层级,生成文档树;其中,所述文档树中包括各个层级的节点,每个层级的所述节点用于指示所述待识别文档中对应层级的元素;
针对所述文档树中的每个节点,根据所述节点所指示元素的类型,查询与所述类型匹配的目标知识抽取模型;
采用所述目标知识抽取模型对所述节点所指示的元素进行知识抽取,以得到目标知识。
根据本公开的又一方面,提供了一种模型训练装置,包括:
解析模块,用于获取样本集合中的至少一个样本文档,并对所述样本文档进行解析,以确定所述样本文档中各元素在所述样本文档中所属的层级;
生成模块,用于根据各所述元素所属的层级,生成文档树;其中,所述文档树中包括各个层级的节点,每个层级的所述节点用于指示所述样本文档中对应层级的元素;
查询模块,用于针对所述文档树中的每个节点,根据所述节点所指示元素的类型,查询与所述类型匹配的目标知识抽取模型;
抽取模块,用于采用所述目标知识抽取模型对所述节点所指示的元素进行知识抽取,以得到预测知识;
训练模块,用于根据所述预测知识和所述节点所指示的元素在所述样本文档上对应的标注知识之间的差异,对所述目标知识抽取模型进行训练。
根据本公开的再一方面,提供了一种知识抽取装置,包括:
获取模块,用于获取待识别文档;
解析模块,用于对所述待识别文档进行解析,以确定所述待识别文档中各元素在所述待识别文档中所属的层级;
生成模块,用于根据各所述元素所属的层级,生成文档树;其中,所述文档树中包括各个层级的节点,每个层级的所述节点用于指示所述待识别文档中对应层级的元素;
查询模块,用于针对所述文档树中的每个节点,根据所述节点所指示元素的类型,查询与所述类型匹配的目标知识抽取模型;
抽取模块,用于采用所述目标知识抽取模型对所述节点所指示的元素进行知识抽取,以得到目标知识。
根据本公开的又一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述一方面提出的模型训练方法,或者,执行本公开上述另一方面提出的知识抽取方法。
根据本公开的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述一方面提出的模型训练方法,或者,执行本公开上述另一方面提出的知识抽取方法。
根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述一方面提出的模型训练方法,或者,实现本公开上述另一方面提出的知识抽取方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例一所提供的模型训练方法的流程示意图;
图2为本公开实施例中的文档树的结构示意图;
图3为本公开实施例二所提供的模型训练方法的流程示意图;
图4为本公开实施例三所提供的模型训练方法的流程示意图;
图5为本公开实施例四所提供的模型训练方法的流程示意图;
图6为用于实施本公开任一实施例所提出的方法的IDAC系统的结构示意图;
图7为本公开图6中的样本工厂的架构示意图;
图8为本公开实施例的主动学习的原理示意图;
图9为本公开实施例五所提供的知识抽取方法的流程示意图;
图10为本公开实施例六所提供的模型训练装置的结构示意图;
图11为本公开实施例七所提供的知识抽取装置的结构示意图;
图12示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
从文档数据中进行知识抽取,得到包含(头实体,实体关系,尾实体)形式的知识三元组(下文中采用SPO三元组来代替该知识三元组,其中,S表示头实体,P表示实体关系,O表示尾实体),是智能问答、智能客服等技术的基础,在医疗、金融、公安、司法等多个领域具有广泛的应用。例如,金融行业的智能客服、智能投研、智能投顾、风控决策,法律行业的智能搜索、法律推理、智能判案、文书撰审等。
得益于人工智能与深度学习技术的发展,知识抽取等自然语言处理相关技术近些年出现了突飞猛进的发展,无需人工定义的高级特征就可以达到较好的预测效果。但是相关的系统设计比较缺乏,各个步骤之间的交互深度依赖人工介入,使得使用成本较高。
目前的知识抽取系统的主要实现方案包括以下几种:
第一种,将人工维护的离线脚本串联,来完成知识的抽取。当系统环境比较简单时,通过研发工程师手工维护的离线脚本,即可完成知识抽取的整个流程。
第二种,基于分布式调度思想,优化离线脚本维护成本,可以实现分布式调度以及任务管理等工作。
然而上述的设计均是以模型为核心,训练数据作为模型的附属存在,当训练数据迭代次数较多,或者训练数据实验较为复杂时,整个系统的复杂性将极高。
针对上述问题,本公开提出一种模型训练方法及装置、知识抽取方法及装置、设备和介质。
下面参考附图描述本公开实施例的模型训练方法及装置、知识抽取方法及装置、设备和介质。
图1为本公开实施例一所提供的模型训练方法的流程示意图。
本公开实施例以该模型训练方法被配置于模型训练装置中来举例说明,该模型训练装置可以应用于任一电子设备中,以使该电子设备可以执行模型训练功能。
其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑、移动终端、服务器等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
如图1所示,该模型训练方法可以包括以下步骤:
步骤101,获取样本集合中的至少一个样本文档,并对样本文档进行解析,以确定样本文档中各元素在样本文档中所属的层级。
在本公开实施例中,样本集合中包括多个样本文档,每个样本文档可以从现有的训练集获取,或者,样本文档也可以在线采集,比如可以通过网络爬虫技术,在线采集样本文档,或者,样本文档也可以为线下采集,比如可以对纸质的文档内容进行图像采集,之后通过OCR(Optical Character Recognition,光学字符识别)技术,识别图像中的各个字符,以得到样本文档,等等,本公开实施例对此并不做限制。
在本公开实施例中,样本文档中标注有知识信息,本公开中记为标注知识。其中,标注知识可以包括知识三元组中的至少一项,知识三元组可以为SPO三元组,其中,S是指头实体、P是指头实体和尾实体之间的实体关系,O是指尾实体,即标注知识可以包括头实体、头实体和尾实体之间的实体关系、尾实体中的至少一项。
在本公开实施例中,样本文档中的元素可以包括标题(title)元素(可选地,还可以将标题元素细粒度地划分为文档标题元素、一级标题元素、二级标题元素、三级标题元素)、章节(chapter)元素、表格(table)元素(可选地,还可以将表格元素细粒度地划分为表格长文本(table-content)元素、表格短文本元素)、正文(content)元素、KV(Key-Value,键值)元素等元素中的至少一项。其中,KV元素可以为包含属性-属性值的半结构化信息,比如职业:歌手、演员,生日:XXXX年XX月XX日。
在本公开实施例中,针对样本集合中的至少一个样本文档,可以对该样本文档进行解析,以确定样本文档中各元素在样本文档中所属的层级。比如,对于标题元素,在样本文档中所属的层级可以为第一层,对于章节元素,在样本文档中所属的层级可以为第二层,对于正文元素、表格元素或KV元素,在样本文档中所属的层级可以为第三层。可选地,当表格元素划分为表格长文本元素、表格短文本元素时,表格短文本元素在样本文档中所属的层级可以为第三层,表格长文本元素在样本文档中所属的层级可以为第四层。
步骤102,根据各元素所属的层级,生成文档树;其中,文档树中包括各个层级的节点,每个层级的节点用于指示样本文档中对应层级的元素。
在本公开实施例中,可以根据各元素所属的层级,生成文档树,其中,文档树中包括各个层级的节点,每个层级的节点,用于指示样本文档中对应层级的元素。
作为一种示例,文档树的结构可以如图2所示,其中,节点root是指根节点,节点title是指标题元素在文档树中对应的节点,节点chapter是指章节元素在文档树中对应的节点,节点content是指正文元素在文档树中对应的节点,节点table是指表格元素(比如表格短文本元素)在文档树中对应的节点,节点KV是指KV元素在文档树中对应的节点,节点table-content是指表格长文本元素在文档树中对应的节点。
步骤103,针对文档树中的每个节点,根据该节点所指示元素的类型,查询与上述类型匹配的目标知识抽取模型。
在本公开实施例中,针对文档树中的每个节点,可以根据该节点所指示元素的类型,查询与类型匹配的目标知识抽取模型。其中,当元素的类型不同时,目标知识抽取模型可以不同,或者也可以相同,本公开对此并不做限制。
例如,对于标题元素和章节元素,由于文本长度较短,且具有层级结构,可以通过NER(Named Entity Recognition,命名实体识别)模型来进行知识抽取,即与标题元素的类型(即标题)匹配的目标知识抽取模型可为NER模型,与章节元素的类型(即章节)匹配的目标知识抽取模型也可为NER模型。而对于正文元素而言,由于正文是一个比较完整的段落,可以使用命名实体识别、端到端的SPO抽取、槽填充等模型,来进行知识抽取。
步骤104,采用目标知识抽取模型对该节点所指示的元素进行知识抽取,以得到预测知识。
在本公开实施例中,针对文档树中的每个节点,当查询到与该节点所指示的元素的类型匹配的目标知识抽取模型后,可以采用该目标知识抽取模型对该节点所指示的元素进行知识抽取,本公开中将目标知识抽取模型所抽取到的知识记为预测知识。
例如,当节点所指示的元素为标题元素或章节元素时,可以采用NER模型对该节点所指示的元素进行知识抽取,以从元素中抽取S或SP。当节点所指示的元素为正文元素时,可以采用命名实体识别、端到端的SPO抽取、槽填充等模型,对该节点所指示的元素进行知识抽取,以从元素中抽取SPO。当节点所指示的元素为表格元素时,可以通过表格识别模型,对该节点所指示的元素进行表格结构识别、表格内容识别等,以从元素中抽取P、PO或SPO。当节点所指示的元素为KV元素时,可以通过字符串匹配模式、阅读理解、序列标注等模型,从该节点所指示的元素中抽取PO。
步骤105,根据预测知识和该节点所指示的元素在样本文档上对应的标注知识之间的差异,对目标知识抽取模型进行训练。
在本公开实施例中,可以根据预测知识和该节点所指示的元素在样本文档上对应的标注知识之间的差异,对目标知识抽取模型进行训练,以使上述差异最小化。
本公开实施例的模型训练方法,通过对样本文档进行解析,以确定样本文档中各元素在样本文档中所属的层级,并根据各元素所属的层级,生成文档树,其中,文档树中包括各个层级的节点,每个层级的节点用于指示样本文档中对应层级的元素;针对文档树中的每个节点,根据节点所指示元素的类型,查询与类型匹配的目标知识抽取模型,并采用目标知识抽取模型对节点所指示的元素进行知识抽取,以得到预测知识,从而可根据预测知识和节点所指示的元素在样本文档上对应的标注知识之间的差异,对目标知识抽取模型进行训练。由此,基于深度学习技术,对各知识抽取模型进行训练,可以提升各知识抽取模型的预测效果。此外,各知识抽取模型是采用与其匹配的类型所对应的文档元素进行训练的,可以实现对各知识抽取模型进行针对性训练,从而提升各知识抽取模型的预测效果,进而提升文档知识抽取的准确性和可靠性。
可以理解的是,在样本集合中的样本数量较小的情况下,可能难以保证各知识抽取模型的预测精度。因此,针对上述问题,本公开中,可以利用已有的样本文档,对样本集合进行扩充,下面结合图3,对上述过程进行详细说明。
图3为本公开实施例二所提供的模型训练方法的流程示意图。
如图3所示,该模型训练方法可以包括以下步骤:
步骤301,针对样本集合中的任意一个样本文档,对样本文档进行数据增强处理,得到扩充样本。
在本公开实施例的第一种可能的实现方式中,针对样本集合中的任意一个样本文档,可以对该样本文档中的至少一个词语进行同义词替换处理,得到扩充样本。
举例而言,可以将样本文档中的“举一反三”替换为“触类旁通”,将“快乐”改为“高兴”,得到扩充样本。
在本公开实施例的第二种可能的实现方式中,针对样本集合中的任意一个样本文档,可以对该样本文档中的至少一个词语进行同类型词语替换处理,得到扩充样本。
举例而言,可以将样本文档中的“大材小用”替换为“大惊小怪”,将“轰轰烈烈”替换为“洋洋洒洒”,得到扩充样本。
在本公开实施例的第三种可能的实现方式中,针对样本集合中的任意一个样本文档,可以对样本文档中的至少一个词语进行乱序处理,得到扩充样本。
举例而言,针对样本文档中的某条语句,比如“我去某地旅游”,可以将该语句乱序处理为“旅游去某地我”,从而可以利用乱序处理后的语句,对样本文档中的对应语句进行替换,得到扩充样本。
在本公开实施例的第四种可能的实现方式中,针对样本集合中的任意一个样本文档,可以根据设定知识和该样本文档中的至少一个源语句,生成目标语句,并利用目标语句对该样本文档中的源语句进行替换处理,得到扩充样本。也就是说,可以根据已有的设定知识和样本文档中的源语句,利用远监督的方式,生成新的目标语句,并利用新的目标语句,对样本文档中的源语句进行更新,得到扩充样本。
在本公开实施例的第五种可能的实现方式中,针对样本集合中的任意一个样本文档,可以将属于第一语言的样本文档翻译为第二语言的翻译文本,并将翻译文本进行翻译,以得到第一语言的回译文本,从而可利用回译文本对样本文档进行更新处理,得到扩充样本。
举例而言,以第一语言为中文,第二语言为英文进行示例,可以将中文的样本文档翻译为英文的翻译文本,再将英文的翻译文本回译为中文的回译文本,从而可以将该回译文本作为扩充样本。
在本公开实施例的第六种可能的实现方式中,当样本文档中的标注知识包括各实体词(头实体和/或尾实体)以及各实体词对应的实体标签(S和/或O)时,针对样本集合中的任意一个样本文档,可以确定该样本文档中具有相同实体标签的至少两个实体词,对至少两个实体词进行替换处理,得到扩充样本。
举例而言,以样本文档包括“刘某的老婆是朱某”和“梁某的好友是张某”这两个语句进行示例性说明,“刘某”和“梁某”具有相同的实体标签(S),可以利用“梁某”替换“刘某”,得到“梁某的老婆是朱某”,还可以利用“刘某”替换“梁某”,得到“刘某的好友是张某”。
在本公开实施例的第七种可能的实现方式中,当样本文档中的标注知识包括各实体词(头实体和/或尾实体)以及各实体词对应的实体标签(S和/或O)时,针对样本集合中的任意一个样本文档,还可以从该样本文档中确定与设定实体标签相同的目标实体标签,采用设定实体标签对应的实体词,对该样本文档中目标实体标签对应的实体词进行替换处理,得到扩充样本。
举例而言,以设定实体标签为O,且该设定实体标签对应的实体词为“郭某”,假设样本文档中目标实体标签(即O)对应的实体词为“朱某”,则可以利用“郭某”对样本文档中目标实体标签对应的“朱某”进行替换处理,得到扩充样本。
在本公开实施例的第八种可能的实现方式中,当样本文档中的标注知识还包括各实体词之间的实体关系(即头实体和尾实体之间的实体关系)以及实体关系对应的关系标签(即P)时,针对样本集合中的任意一个样本文档,可以确定该样本文档中具有相同关系标签的至少两个实体关系,对至少两个实体关系进行替换处理,得到扩充样本。
举例而言,以样本文档包括“刘某的老婆是朱某”和“梁某的好友是张某”这两个语句进行示例性说明,“刘某”和“梁某”具有相同的实体标签(S),“老婆”和“好友”具有相同的关系标签(P),“朱某”和“张某”具有相同的实体标签(O),则可以具有相同关系标签(P)的两个实体关系为“老婆”和“好友”,则对这两个实体关系进行替换处理,得到替换后的扩充样本中相应的语句为:“刘某的好友是朱某”,“梁某的老婆是张某”。
在本公开实施例的第九种可能的实现方式中,当样本文档中的标注知识还包括各实体词之间的实体关系(即头实体和尾实体之间的实体关系)以及实体关系对应的关系标签(即P)时,针对样本集合中的任意一个样本文档,可以从该样本文档中确定与设定关系标签相同的目标关系标签,采用设定关系标签对应的实体关系,对样本文档中目标关系标签对应的实体关系进行替换处理,得到扩充样本。
举例而言,以设定关系标签(即P)对应的实体关系为“同学”,则可以将样本文档中的“刘某的老婆是朱某”中的目标关系标签(P)对应的实体关系“老婆”替换为“同学”,得到替换后的扩充样本中相应的语句为:“刘某的同学是朱某”。
需要说明的是,上述仅以九种增强处理方法单独执行进行示例,实际应用时,还可以同时执行上述九种增强处理方法中的多种组合,本公开对此并不作限制。由此,可以实现通过多种方式,对样本文档进行数据增强处理,可以提升该方法的灵活性和适用性。
应当理解的是,也可以采用现有的其他增强方法,对样本文档进行数据增强处理,本公开对此并不作限制。
步骤302,采用扩充样本,对样本集合进行更新。
在本公开实施例中,在得到扩充样本后,可以将该扩充样本增加至样本集合中。
步骤303,获取更新后的样本集合中的至少一个样本文档,并对样本文档进行解析,以确定样本文档中各元素在样本文档中所属的层级。
步骤304,根据各元素所属的层级,生成文档树;其中,文档树中包括各个层级的节点,每个层级的节点用于指示样本文档中对应层级的元素。
步骤305,针对文档树中的每个节点,根据该节点所指示元素的类型,查询与类型匹配的目标知识抽取模型。
步骤306,采用目标知识抽取模型对该节点所指示的元素进行知识抽取,以得到预测知识。
步骤307,根据预测知识和该节点所指示的元素在样本文档上对应的标注知识之间的差异,对目标知识抽取模型进行训练。
步骤303至307的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。
本公开实施例的模型训练方法,通过对样本文档进行数据增强处理,得到扩充样本,采用扩充样本,对样本集合进行更新。由此,可以实现对样本集合进行动态补充,提升样本集合中的样本数量,从而利用大量的样本文档对各知识抽取模型进行训练,可以提升各知识抽取模型的预测效果,从而提升知识抽取的准确性和可靠性。
需要说明的是,样本集合中的各个样本文档的格式可能不同,对不同格式的样本文档进行解析,并进行后续处理,将严重增加系统的处理负担。针对上述问题,在本公开实施例的一种可能的实现方式中,在获取到文本文档后,可以对样本文档进行格式的统一转换。下面集合图4,对上述过程进行详细说明。
图4为本公开实施例三所提供的模型训练方法的流程示意图。
如图4所示,该模型训练方法可以包括以下步骤:
步骤401,获取样本集合中的至少一个样本文档。
步骤401的执行过程可以参见上述任一实施例,在此不做赘述。
步骤402,获取样本文档的文档格式。
在本公开实施例中,文档格式可以包括TXT格式、DOC格式、PDF格式、RTF(RichText Field,富文本)格式、HTML(Hypertext Markup Language,超文本标记语言)格式等格式。
步骤403,判断文档格式是否为设定格式,若是,执行步骤405,若否,执行步骤404。
在本公开实施例中,设定格式为预先设定的文档格式,该设定格式可以为HTML格式,或者也可以为其他格式,比如DOC格式,本公开对此并不作限制。
步骤404,对样本文档进行格式转换,以得到设定格式的样本文档。
在本公开实施例中,可以获取样本文档的文档格式,并判断该文档格式是否为设定格式,在该文档格式不为设定格式的情况下,可以对该样本文档进行格式转换,以得到设定格式的样本文档。
作为一种示例,可以通过文档解析算法,对样本文档进行格式转换,得到设定格式的样本文档,其中,解析算法包括格式转换、OCR等算法。
步骤405,对样本文档进行解析,以确定样本文档中各元素在样本文档中所属的层级。
步骤406,根据各元素所属的层级,生成文档树;其中,文档树中包括各个层级的节点,每个层级的节点用于指示样本文档中对应层级的元素。
步骤407,针对文档树中的每个节点,根据该节点所指示元素的类型,查询与上述类型匹配的目标知识抽取模型。
步骤408,采用目标知识抽取模型对该节点所指示的元素进行知识抽取,以得到预测知识。
步骤409,根据预测知识和该节点所指示的元素在样本文档上对应的标注知识之间的差异,对目标知识抽取模型进行训练。
步骤405至409的执行过程可以参见本公开上述任一实施例的执行过程,在此不做赘述。
本公开实施例的模型训练方法,通过获取样本文档的文档格式,并判断文档格式是否为设定格式,若否,则对样本文档进行格式转换,以得到设定格式的样本文档。由此,可以实现对各样本文档进行格式统一化处理,从而可以便于后续的文档解析、模型训练等处理,降低处理负担,提升训练效率。
在本公开实施例的一种可能的实现方式中,为了提升各知识抽取模型的预测效果,还可以根据未标注的文档,对各知识抽取模型进行迭代优化。下面结合图5,对上述过程进行详细说明。
图5为本公开实施例四所提供的模型训练方法的流程示意图。
如图5所示,在本公开上述任一所示实施例的基础上,该模型训练方法还可以包括以下步骤:
步骤501,获取待标注的目标文档。
在本公开实施例中,目标文档是指未标注有知识的文档。该目标文档可以从现有的测试集获取,或者,目标文档也可以在线采集,比如可以通过网络爬虫技术,在线采集目标文档,或者,目标文档也可以为线下采集,或者,目标文档也可以为用户输入或选择的文档,等等,本公开实施例对此并不做限制。
步骤502,基于各目标知识抽取模型对目标文档进行知识抽取,以得到目标知识。
在本公开实施例中,可以对目标文档进行解析,以确定目标文档中各元素在目标文档中所属的层级,根据各元素所属的层级,生成文档树;其中,文档树中包括各个层级的节点,每个层级的节点用于指示目标文档中对应层级的元素,针对文档树中的每个节点,可以根据该节点所指示元素的类型,查询与类型匹配的目标知识抽取模型,采用目标知识抽取模型对该节点所指示的元素进行知识抽取,以得到目标知识。
步骤503,响应于针对目标知识的更新操作,对目标知识进行更新,并利用更新后的目标知识,对目标文档进行标注。
在本公开实施例中,可以通过人工对目标知识进行更新,即在标注人员人为触发对目标知识的更新操作时,可以响应于针对目标知识的更新操作,对目标知识进行更新,并利用更新后的目标知识,对目标文档进行标注。
步骤504,采用标注后的目标文档,对各目标知识抽取模型进行重新训练。
在本公开实施例中,在对目标文档进行标注后,可以采用标注后的目标文档,对各目标知识抽取模型进行重新训练,即可以根据标注后的目标文档,执行类似步骤101至106的训练过程。
作为一种示例,当该方法应用于IDAC(Intelligent Document AnalysisCenter,智能文档分析中心)系统时,IDAC系统的结构可以如图6所示,该IDAC系统主要包括两个部分,第一部分为以样本为中心的模型,主要包括样本管理、样本生成、模型重训、知识标注这四个模块,第二部分为基于模型的预测结果构建的知识识别流程,主要是基于最优的模型效果,完成文档中的知识识别。
其中,图6中的mongo是一种数据库,算子包含函数算子和模型,schema是一种数据模式。
第一部分,考虑到数据中心和模型中心是目前知识抽取的两种构建范式,而两种范式适用于不同的应用场景,直观上可以发现,模型中心更适合样本数据变动不大,模型不断迭代的过程(即模型结构在变化,需要不断迭代),由此,通过固定样本数据集合,可以更方便地聚焦于模型上。而数据中心优势更大,不仅适应于模型变动不大的情况,同样适用于对于模型变动较大的情况,也支持样本数据的合理变动,从而低成本地优化模型效果。
因此,本公开中,图6中的样本工厂的架构可以如图7所示,主要分为以下三大功能:
第一,样本管理:主要是完成样本数据的增、删、改、查,便于用户使用。其中,管理的样本信息主要包括样本内容、样本生成结果以及样本元数据。
样本内容包括文本内容、标注知识等样本的核心属性。
样本生成结果,是指在样本集合的基础上,通过样本增强或主动学习的方案,生成的扩充样本。
样本元数据包括样本的其他不影响样本语义的属性信息,比如样本的生产者、生产时间、生产方式(比如人工标注)等记录样本生命周期的元数据。
第二,样本增强,是指通过无监督的方式,在已有的已标注样本的基础上,完成新样本的生成。包括同义词替换、同类型词语替换、远监督(步骤301中第四种数据增强方案)、回译(步骤301中第五种数据增强方案)、同标签的字符替换(步骤301中第六种至第九种数据增强方案)、句内随机乱序(步骤301中第三种数据增强方案)等增强方案。
第三,主动学习,是指通过标注人员与已有模型协同的方式,来实现对模型进行不断迭代优化,优化原理如图8所示,即完整的主动学习流程为样本构建→模型重训→采用训练后的模型对未标注的样本数据进行预测→采用主动学习查询函数Q,从模型预测的各样本中筛选部分样本→人工对筛选的样本进行标注→样本构建,由上述5步组成的一个循环。其中,考虑到未标注的样本数据量较大,由标注人员对每个样本进行修正的工作量巨大,即无法将每个样本均提供给标注人员进行标注,因此,可以通过查询函数Q,来筛选部分样本。
第二部分,知识识别流程,包括文档识别,知识识别,后处理,知识审核等步骤。
1、文档解析:通过文档解析算法,将原始文档(包括word、html、pdf等格式的文档)统一转换为设定格式,比如html格式的文档。
2、文档分析,将设定格式的文档,解析为文档树,便于下游使用,解析得到的文档树可以如图2所示。其中,文档树中主要包括下述三个部分的内容:
A、节点对应的元素(即文本信息):除table为原始html格式的文本外,其他节点对应的元素均为纯文本格式;
B、节点层级信息:指定当前节点的父节点和所有的子节点;
C、节点在原始文档中的映射信息:在原始文档中所处的位置。
其中,KV可以为包含属性-属性值的半结构化信息,比如,职业:歌手、演员,生日:XXXX年XX月XX日。
3、知识识别,基于上一步的文档树,自动选择每个节点所指示的元素类型,并调用对应的算子(即模型),来完成对节点所指示的元素进行知识识别。
4、后处理,对算子抽取的知识进行统一的处理,比如将知识进行清洗,以实现对知识进行格式规范化,例如将书名对应的实体词前后的“【】”去除,再比如,还可以将抽取的知识进行格式转换,以便下游使用。
由此,以样本数据为中心,可以使得模型管理以及服务管理更加便捷。主要原因为,样本数据为纯文本内容,相比于模型而言,具有更加明晰的语义,并且,样本数据更加稳定。此外,不变的样本数据也是不变的需求,可以更加聚焦于模型,简化系统。
本公开实施例的模型训练方法,通过获取待标注的目标文档,并基于各目标知识抽取模型对目标文档进行知识抽取,以得到目标知识;响应于针对目标知识的更新操作,对目标知识进行更新,并利用更新后的目标知识,对目标文档进行标注,以采用标注后的目标文档,对各目标知识抽取模型进行重新训练。由此,可以实现根据未标注的文档,对各知识抽取模型进行迭代优化,从而提升各知识抽取模型的预测效果。
上述为知识抽取模型的训练方法所对应的各实施例,本公开还提出一种知识抽取模型的应用方法,即利用知识抽取模型进行知识抽取的方法。
图9为本公开实施例五所提供的知识抽取方法的流程示意图。
如图9所示,该知识抽取方法可以包括以下步骤:
步骤901,获取待识别文档。
在本公开实施例中,待识别文档可以从现有的测试集获取,或者,待识别文档也可以在线采集,比如可以通过网络爬虫技术,在线采集待识别文档,或者,待识别文档也可以为线下采集,或者,待识别文档也可以为用户输入或选择的文档,等等,本公开实施例对此并不做限制。
步骤902,对待识别文档进行解析,以确定待识别文档中各元素在待识别文档中所属的层级。
在本公开实施例中,可以对待识别文档进行解析,以确定该待识别文档中各元素在待识别文档中所属的层级。具体实现原理与步骤101类似,在此不做赘述。
步骤903,根据各元素所属的层级,生成文档树;其中,文档树中包括各个层级的节点,每个层级的节点用于指示待识别文档中对应层级的元素。
在本公开实施例中,可以根据各元素所属的层级,生成文档树,其中,文档树中包括各个层级的节点,每个层级的节点,用于指示待识别文档中对应层级的元素。
步骤904,针对文档树中的每个节点,根据节点所指示元素的类型,查询与类型匹配的目标知识抽取模型。
其中,各目标知识抽取模型是采用图1至图5任一实施例提出的方法训练得到的。
在本公开实施例中,针对文档树中的每个节点,可以根据该节点所指示元素的类型,查询与类型匹配的目标知识抽取模型。具体实现原理与步骤103类似,在此不做赘述。
步骤905,采用目标知识抽取模型对该节点所指示的元素进行知识抽取,以得到目标知识。
在本公开实施例中,针对文档树中的每个节点,当查询到与该节点所指示的元素的类型匹配的目标知识抽取模型后,可以采用该目标知识抽取模型对该节点所指示的元素进行知识抽取,本公开中将目标知识抽取模型所抽取到的知识记为目标知识。具体实现原理与步骤104类似,在此不做赘述。
本公开实施例的知识抽取方法,通过对待识别文档进行解析,以确定待识别文档中各元素在待识别文档中所属的层级,并根据各元素所属的层级,生成文档树,其中,文档树中包括各个层级的节点,每个层级的节点用于指示待识别文档中对应层级的元素;针对文档树中的每个节点,根据节点所指示元素的类型,查询与类型匹配的目标知识抽取模型,并采用目标知识抽取模型对节点所指示的元素进行知识抽取,以得到目标知识。由此,基于深度学习技术,对待识别文档进行知识抽取,可以提升知识抽取结果的准确性。并且,针对待识别文档中的每个元素,是采用与该元素的类型匹配的目标知识抽取模型,来对该元素进行知识抽取,可以进一步提升知识抽取结果的准确性。
与上述图1至图5实施例提供的模型训练方法相对应,本公开还提供一种模型训练装置,由于本公开实施例提供的模型训练装置与上述图1至图5实施例提供的模型训练方法相对应,因此在模型训练方法的实施方式也适用于本公开实施例提供的模型训练装置,在本公开实施例中不再详细描述。
图10为本公开实施例六所提供的模型训练装置的结构示意图。
如图10所示,该模型训练装置1000可以包括:解析模块1010、生成模块1020、查询模块1030、抽取模块1040以及训练模块1050。
其中,解析模块1010,用于获取样本集合中的至少一个样本文档,并对样本文档进行解析,以确定样本文档中各元素在样本文档中所属的层级。
生成模块1020,用于根据各元素所属的层级,生成文档树;其中,文档树中包括各个层级的节点,每个层级的节点用于指示样本文档中对应层级的元素。
查询模块1030,用于针对文档树中的每个节点,根据节点所指示元素的类型,查询与类型匹配的目标知识抽取模型。
抽取模块1040,用于采用目标知识抽取模型对节点所指示的元素进行知识抽取,以得到预测知识。
训练模块1050,用于根据预测知识和节点所指示的元素在样本文档上对应的标注知识之间的差异,对目标知识抽取模型进行训练。
在本公开实施例的一种可能的实现方式中,该模型训练装置1000还可以包括:
增强模块,用于对样本文档进行数据增强处理,得到扩充样本。
更新模块,用于采用扩充样本,对样本集合进行更新。
其中,增强模块,具体用于执行以下至少一项:
对样本文档中的至少一个词语进行同义词替换处理;
对样本文档中的至少一个词语进行同类型词语替换处理;
对样本文档中的至少一个词语进行乱序处理;
根据设定知识和样本文档中的至少一个源语句,生成目标语句,并利用目标语句对样本文档中的源语句进行替换处理。
在本公开实施例的一种可能的实现方式中,增强模块,还用于:将属于第一语言的样本文档翻译为第二语言的翻译文本;将翻译文本进行翻译,以得到第一语言的回译文本;利用回译文本对样本文档进行更新处理。
在本公开实施例的一种可能的实现方式中,标注知识包括各实体词以及各实体词对应的实体标签;增强模块,还用于执行以下至少一项:
确定样本文档中具有相同实体标签的至少两个实体词,对至少两个实体词进行替换处理;
从样本文档中确定与设定实体标签相同的目标实体标签,采用设定实体标签对应的实体词,对样本文档中目标实体标签对应的实体词进行替换处理。
在本公开实施例的一种可能的实现方式中,标注知识还包括各实体词之间的实体关系以及实体关系对应的关系标签;增强模块,还用于执行以下至少一项:
确定样本文档中具有相同关系标签的至少两个实体关系,对至少两个实体关系进行替换处理;
从样本文档中确定与设定关系标签相同的目标关系标签,采用设定关系标签对应的实体关系,对样本文档中目标关系标签对应的实体关系进行替换处理。
在本公开实施例的一种可能的实现方式中,该模型训练装置1000还可以包括:
第一获取模块,用于获取样本文档的文档格式。
判断模块,用于判断文档格式是否为设定格式。
转换模块,用于在文档格式不为设定格式的情况下,对样本文档进行格式转换,以得到设定格式的样本文档。
在本公开实施例的一种可能的实现方式中,该模型训练装置1000还可以包括:
第二获取模块,用于获取待标注的目标文档。
抽取模块1040,还用于基于各目标知识抽取模型对目标文档进行知识抽取,以得到目标知识。
更新模块,用于响应于针对目标知识的更新操作,对目标知识进行更新。
标注模块,用于利用更新后的目标知识,对目标文档进行标注。
训练模块1050,还用于采用标注后的目标文档,对各目标知识抽取模型进行重新训练。
本公开实施例的模型训练装置,通过对样本文档进行解析,以确定样本文档中各元素在样本文档中所属的层级,并根据各元素所属的层级,生成文档树,其中,文档树中包括各个层级的节点,每个层级的节点用于指示样本文档中对应层级的元素;针对文档树中的每个节点,根据节点所指示元素的类型,查询与类型匹配的目标知识抽取模型,并采用目标知识抽取模型对节点所指示的元素进行知识抽取,以得到预测知识,从而可根据预测知识和节点所指示的元素在样本文档上对应的标注知识之间的差异,对目标知识抽取模型进行训练。由此,基于深度学习技术,对各知识抽取模型进行训练,可以提升各知识抽取模型的预测效果。此外,各知识抽取模型是采用与其匹配的类型所对应的文档元素进行训练的,可以实现对各知识抽取模型进行针对性训练,从而提升各知识抽取模型的预测效果,进而提升文档知识抽取的准确性和可靠性。
与上述图9实施例提供的知识抽取方法相对应,本公开还提供一种知识抽取置,由于本公开实施例提供的知识抽取装置与上述图9实施例提供的知识抽取方法相对应,因此在知识抽取方法的实施方式也适用于本公开实施例提供的知识抽取装置,在本公开实施例中不再详细描述。
图11为本公开实施例七所提供的知识抽取装置的结构示意图。
如图11所示,该知识抽取装置1100可以包括:获取模块1110、解析模块1120、生成模块1130、查询模块1140以及抽取模块1150。
其中,获取模块1110,用于获取待识别文档。
解析模块1120,用于对待识别文档进行解析,以确定待识别文档中各元素在待识别文档中所属的层级。
生成模块1130,用于根据各元素所属的层级,生成文档树;其中,文档树中包括各个层级的节点,每个层级的节点用于指示待识别文档中对应层级的元素。
查询模块1140,用于针对文档树中的每个节点,根据节点所指示元素的类型,查询与类型匹配的目标知识抽取模型。
抽取模块1150,用于采用目标知识抽取模型对节点所指示的元素进行知识抽取,以得到目标知识。
本公开实施例的知识抽取装置,通过对待识别文档进行解析,以确定待识别文档中各元素在待识别文档中所属的层级,并根据各元素所属的层级,生成文档树,其中,文档树中包括各个层级的节点,每个层级的节点用于指示待识别文档中对应层级的元素;针对文档树中的每个节点,根据节点所指示元素的类型,查询与类型匹配的目标知识抽取模型,并采用目标知识抽取模型对节点所指示的元素进行知识抽取,以得到目标知识。由此,基于深度学习技术,对待识别文档进行知识抽取,可以提升知识抽取结果的准确性。并且,针对待识别文档中的每个元素,是采用与该元素的类型匹配的目标知识抽取模型,来对该元素进行知识抽取,可以进一步提升知识抽取结果的准确性。
为了实现上述实施例,本公开还提供一种电子设备,该电子设备可以包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开上述任一实施例提出的模型训练方法,或者,执行本公开上述实施例提出的知识抽取方法。
为了实现上述实施例,本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开上述任一实施例提出的模型训练方法,或者,执行本公开上述实施例提出的知识抽取方法。
为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本公开上述任一实施例提出的模型训练方法,或者,实现本公开上述实施例提出的知识抽取方法。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图12示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图12所示,设备1200包括计算单元1201,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)1202中的计算机程序或者从存储单元1207加载到RAM(Random AccessMemory,随机访问/存取存储器)1203中的计算机程序,来执行各种适当的动作和处理。在RAM 1203中,还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。I/O(Input/Output,输入/输出)接口1205也连接至总线1204。
设备1200中的多个部件连接至I/O接口1205,包括:输入单元1206,例如键盘、鼠标等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如上述模型训练或知识抽取方法。例如,在一些实施例中,上述模型训练或知识抽取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由ROM1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时,可以执行上文描述的模型训练或知识抽取方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述模型训练或知识抽取方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(VirtualPrivate Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
根据本公开实施例的技术方案,通过对样本文档进行解析,以确定样本文档中各元素在样本文档中所属的层级,并根据各元素所属的层级,生成文档树,其中,文档树中包括各个层级的节点,每个层级的节点用于指示样本文档中对应层级的元素;针对文档树中的每个节点,根据节点所指示元素的类型,查询与类型匹配的目标知识抽取模型,并采用目标知识抽取模型对节点所指示的元素进行知识抽取,以得到预测知识,从而可根据预测知识和节点所指示的元素在样本文档上对应的标注知识之间的差异,对目标知识抽取模型进行训练。由此,基于深度学习技术,对各知识抽取模型进行训练,可以提升各知识抽取模型的预测效果。此外,各知识抽取模型是采用与其匹配的类型所对应的文档元素进行训练的,可以实现对各知识抽取模型进行针对性训练,从而提升各知识抽取模型的预测效果,进而提升文档知识抽取的准确性和可靠性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种模型训练方法,所述方法包括:
获取样本集合中的至少一个样本文档,并对所述样本文档进行解析,以确定所述样本文档中各元素在所述样本文档中所属的层级;
根据各所述元素所属的层级,生成文档树;其中,所述文档树中包括各个层级的节点,每个层级的所述节点用于指示所述样本文档中对应层级的元素;
针对所述文档树中的每个节点,根据所述节点所指示元素的类型,查询与所述类型匹配的目标知识抽取模型;
采用所述目标知识抽取模型对所述节点所指示的元素进行知识抽取,以得到预测知识;
根据所述预测知识和所述节点所指示的元素在所述样本文档上对应的标注知识之间的差异,对所述目标知识抽取模型进行训练。
2.根据权利要求1所述的方法,其中,所述获取样本集合中的至少一个样本文档之后,所述方法还包括:
对所述样本文档进行数据增强处理,得到扩充样本;
采用所述扩充样本,对所述样本集合进行更新;
其中,所述数据增强处理包括以下处理中的至少一项:
对所述样本文档中的至少一个词语进行同义词替换处理;
对所述样本文档中的至少一个词语进行同类型词语替换处理;
对所述样本文档中的至少一个词语进行乱序处理;
根据设定知识和所述样本文档中的至少一个源语句,生成目标语句,并利用所述目标语句对所述样本文档中的所述源语句进行替换处理。
3.根据权利要求2所述的方法,其中,所述数据增强处理还包括:
将属于第一语言的所述样本文档翻译为第二语言的翻译文本;
将所述翻译文本进行翻译,以得到第一语言的回译文本;
利用所述回译文本对所述样本文档进行更新处理。
4.根据权利要求2所述的方法,其中,所述标注知识包括各实体词以及各所述实体词对应的实体标签;
所述数据增强处理还包括以下处理中的至少一项:
确定所述样本文档中具有相同实体标签的至少两个实体词,对所述至少两个实体词进行替换处理;
从所述样本文档中确定与设定实体标签相同的目标实体标签,采用所述设定实体标签对应的实体词,对所述样本文档中所述目标实体标签对应的实体词进行替换处理。
5.根据权利要求4所述的方法,其中,所述标注知识还包括各所述实体词之间的实体关系以及所述实体关系对应的关系标签;
所述数据增强处理还包括以下处理中的至少一项:
确定所述样本文档中具有相同关系标签的至少两个实体关系,对所述至少两个实体关系进行替换处理;
从所述样本文档中确定与设定关系标签相同的目标关系标签,采用所述设定关系标签对应的实体关系,对所述样本文档中所述目标关系标签对应的实体关系进行替换处理。
6.根据权利要求1-5中任一项所述的方法,其中,所述获取样本集合中的至少一个样本文档之后,所述方法还包括:
获取所述样本文档的文档格式;
判断所述文档格式是否为设定格式;
在所述文档格式不为所述设定格式的情况下,对所述样本文档进行格式转换,以得到所述设定格式的样本文档。
7.根据权利要求1-5中任一项所述的方法,其中,所述方法还包括:
获取待标注的目标文档;
基于各所述目标知识抽取模型对所述目标文档进行知识抽取,以得到目标知识;
响应于针对所述目标知识的更新操作,对所述目标知识进行更新,并利用更新后的目标知识,对所述目标文档进行标注;
采用标注后的目标文档,对各所述目标知识抽取模型进行重新训练。
8.一种知识抽取方法,所述方法包括:
获取待识别文档;
对所述待识别文档进行解析,以确定所述待识别文档中各元素在所述待识别文档中所属的层级;
根据各所述元素所属的层级,生成文档树;其中,所述文档树中包括各个层级的节点,每个层级的所述节点用于指示所述待识别文档中对应层级的元素;
针对所述文档树中的每个节点,根据所述节点所指示元素的类型,查询与所述类型匹配的目标知识抽取模型;
采用所述目标知识抽取模型对所述节点所指示的元素进行知识抽取,以得到目标知识。
9.一种模型训练装置,所述装置包括:
解析模块,用于获取样本集合中的至少一个样本文档,并对所述样本文档进行解析,以确定所述样本文档中各元素在所述样本文档中所属的层级;
生成模块,用于根据各所述元素所属的层级,生成文档树;其中,所述文档树中包括各个层级的节点,每个层级的所述节点用于指示所述样本文档中对应层级的元素;
查询模块,用于针对所述文档树中的每个节点,根据所述节点所指示元素的类型,查询与所述类型匹配的目标知识抽取模型;
抽取模块,用于采用所述目标知识抽取模型对所述节点所指示的元素进行知识抽取,以得到预测知识;
训练模块,用于根据所述预测知识和所述节点所指示的元素在所述样本文档上对应的标注知识之间的差异,对所述目标知识抽取模型进行训练。
10.根据权利要求9所述的装置,其中,所述装置还包括:
增强模块,用于对所述样本文档进行数据增强处理,得到扩充样本;
更新模块,用于采用所述扩充样本,对所述样本集合进行更新;
其中,所述增强模块,具体用于执行以下至少一项:
对所述样本文档中的至少一个词语进行同义词替换处理;
对所述样本文档中的至少一个词语进行同类型词语替换处理;
对所述样本文档中的至少一个词语进行乱序处理;
根据设定知识和所述样本文档中的至少一个源语句,生成目标语句,并利用所述目标语句对所述样本文档中的所述源语句进行替换处理。
11.根据权利要求10所述的装置,其中,所述增强模块,还用于:
将属于第一语言的所述样本文档翻译为第二语言的翻译文本;
将所述翻译文本进行翻译,以得到第一语言的回译文本;
利用所述回译文本对所述样本文档进行更新处理。
12.根据权利要求10所述的装置,其中,所述标注知识包括各实体词以及各所述实体词对应的实体标签;
所述增强模块,还用于执行以下至少一项:
确定所述样本文档中具有相同实体标签的至少两个实体词,对所述至少两个实体词进行替换处理;
从所述样本文档中确定与设定实体标签相同的目标实体标签,采用所述设定实体标签对应的实体词,对所述样本文档中所述目标实体标签对应的实体词进行替换处理。
13.根据权利要求12所述的装置,其中,所述标注知识还包括各所述实体词之间的实体关系以及所述实体关系对应的关系标签;
所述增强模块,还用于执行以下至少一项:
确定所述样本文档中具有相同关系标签的至少两个实体关系,对所述至少两个实体关系进行替换处理;
从所述样本文档中确定与设定关系标签相同的目标关系标签,采用所述设定关系标签对应的实体关系,对所述样本文档中所述目标关系标签对应的实体关系进行替换处理。
14.根据权利要求9-13中任一项所述的装置,其中,所述装置还包括:
第一获取模块,用于获取所述样本文档的文档格式;
判断模块,用于判断所述文档格式是否为设定格式;
转换模块,用于在所述文档格式不为所述设定格式的情况下,对所述样本文档进行格式转换,以得到所述设定格式的样本文档。
15.根据权利要求9-13中任一项所述的装置,其中,所述装置还包括:
第二获取模块,用于获取待标注的目标文档;
所述抽取模块,还用于基于各所述目标知识抽取模型对所述目标文档进行知识抽取,以得到目标知识;
更新模块,用于响应于针对所述目标知识的更新操作,对所述目标知识进行更新;
标注模块,用于利用更新后的目标知识,对所述目标文档进行标注;
所述训练模块,还用于采用标注后的目标文档,对各所述目标知识抽取模型进行重新训练。
16.一种知识抽取装置,所述装置包括:
获取模块,用于获取待识别文档;
解析模块,用于对所述待识别文档进行解析,以确定所述待识别文档中各元素在所述待识别文档中所属的层级;
生成模块,用于根据各所述元素所属的层级,生成文档树;其中,所述文档树中包括各个层级的节点,每个层级的所述节点用于指示所述待识别文档中对应层级的元素;
查询模块,用于针对所述文档树中的每个节点,根据所述节点所指示元素的类型,查询与所述类型匹配的目标知识抽取模型;
抽取模块,用于采用所述目标知识抽取模型对所述节点所指示的元素进行知识抽取,以得到目标知识。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的模型训练方法,或者,执行权利要求8所述的知识抽取方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的模型训练方法,或者,执行权利要求8所述的知识抽取方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-7中任一项所述模型训练方法的步骤,或者,实现权利要求8所述知识抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111302016.4A CN114186533A (zh) | 2021-11-04 | 2021-11-04 | 模型训练方法及装置、知识抽取方法及装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111302016.4A CN114186533A (zh) | 2021-11-04 | 2021-11-04 | 模型训练方法及装置、知识抽取方法及装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114186533A true CN114186533A (zh) | 2022-03-15 |
Family
ID=80540742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111302016.4A Pending CN114186533A (zh) | 2021-11-04 | 2021-11-04 | 模型训练方法及装置、知识抽取方法及装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186533A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048940A (zh) * | 2022-06-23 | 2022-09-13 | 之江实验室 | 基于实体词属性特征和回译的中文金融文本数据增强方法 |
CN115146592A (zh) * | 2022-07-14 | 2022-10-04 | 中国银行股份有限公司 | 一种文档标记方法及装置、电子设备、存储介质 |
CN116758565A (zh) * | 2023-08-23 | 2023-09-15 | 中国电子科技集团公司第十研究所 | 一种基于决策树的ocr文本还原方法、设备及存储介质 |
-
2021
- 2021-11-04 CN CN202111302016.4A patent/CN114186533A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048940A (zh) * | 2022-06-23 | 2022-09-13 | 之江实验室 | 基于实体词属性特征和回译的中文金融文本数据增强方法 |
CN115048940B (zh) * | 2022-06-23 | 2024-04-09 | 之江实验室 | 基于实体词属性特征和回译的中文金融文本数据增强方法 |
CN115146592A (zh) * | 2022-07-14 | 2022-10-04 | 中国银行股份有限公司 | 一种文档标记方法及装置、电子设备、存储介质 |
CN116758565A (zh) * | 2023-08-23 | 2023-09-15 | 中国电子科技集团公司第十研究所 | 一种基于决策树的ocr文本还原方法、设备及存储介质 |
CN116758565B (zh) * | 2023-08-23 | 2023-11-24 | 中国电子科技集团公司第十研究所 | 一种基于决策树的ocr文本还原方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113705187B (zh) | 预训练语言模型的生成方法、装置、电子设备和存储介质 | |
US20220004714A1 (en) | Event extraction method and apparatus, and storage medium | |
CN114186533A (zh) | 模型训练方法及装置、知识抽取方法及装置、设备和介质 | |
CN113220836B (zh) | 序列标注模型的训练方法、装置、电子设备和存储介质 | |
CN111966890A (zh) | 基于文本的事件推送方法、装置、电子设备和存储介质 | |
CN110555205B (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
CN112541070B (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN114495143B (zh) | 一种文本对象识别方法、装置、电子设备及存储介质 | |
US20220414463A1 (en) | Automated troubleshooter | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
CN112528658A (zh) | 层次化分类方法、装置、电子设备和存储介质 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
Wei et al. | GP-GCN: Global features of orthogonal projection and local dependency fused graph convolutional networks for aspect-level sentiment classification | |
CN112015866B (zh) | 用于生成同义文本的方法、装置、电子设备及存储介质 | |
CN112328749A (zh) | 知识要素提取方法、装置、电子设备、介质和程序产品 | |
CN109062913B (zh) | 国际化资源智能获取方法、存储介质 | |
CN111026916A (zh) | 文本描述的转换方法、装置、电子设备及存储介质 | |
Sheng et al. | Migrating a Privacy-Safe Information Extraction System to a Software 2.0 Design. | |
CN113221566B (zh) | 实体关系抽取方法、装置、电子设备和存储介质 | |
CN115269862A (zh) | 一种基于知识图谱的电力问答与可视化系统 | |
CN115146634A (zh) | 应急预案转化待办流程图的处理方法及相关装置 | |
CN114970553A (zh) | 基于大规模无标注语料的情报分析方法、装置及电子设备 | |
CN111753540B (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |