CN115545006B - 规则脚本生成方法、装置、计算机设备及介质 - Google Patents

规则脚本生成方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN115545006B
CN115545006B CN202211233797.0A CN202211233797A CN115545006B CN 115545006 B CN115545006 B CN 115545006B CN 202211233797 A CN202211233797 A CN 202211233797A CN 115545006 B CN115545006 B CN 115545006B
Authority
CN
China
Prior art keywords
tuple
rule
knowledge
data
rule script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211233797.0A
Other languages
English (en)
Other versions
CN115545006A (zh
Inventor
刘寒
路子轩
王茜
高歌
顾明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211233797.0A priority Critical patent/CN115545006B/zh
Publication of CN115545006A publication Critical patent/CN115545006A/zh
Application granted granted Critical
Publication of CN115545006B publication Critical patent/CN115545006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种规则脚本生成方法、装置、计算机设备及介质,包括:获取待处理的自然语言规则条文,对自然语言规则条文进行拆解,得到元组拆解数据;基于知识图谱中已有的领域知识,对元组拆解数据进行纠错,得到元组拆解表,领域知识为用于与构建规则脚本规则相关的知识;基于上下文的关联对元组拆解表中的各个元组拼接,得到自然语言规则条文对应的目标规则脚本。通过本发明,通过利用知识图谱,对输入的待处理自然语言规则条文进行自动校验,根据输入的内容进行自动上下文关联,形成自然语言规则条文对应的规则脚本,无需依靠人工大量交流。针对人类处理及AI程序处理两种情况,本方式通过利用知识图谱对结果正确性进行约束。

Description

规则脚本生成方法、装置、计算机设备及介质
技术领域
本发明涉及计算机技术领域,具体涉及一种规则脚本生成方法、装置、计算机设备及介质。
背景技术
对于一个工程领域,其领域数据通常包括各种与设计、建造、检验等生产过程有关的结构化与非结构化数据。工程领域数据的约束规则是可以对工程领域数据进行自动检验的程序脚本,以确定这些工程领域数据是否符合某些行业标准或者相关法律法规。工程领域数据的约束规则的创建,是将工程领域的专业知识(术语解释、行业标准、规章制度等)表示为计算机程序脚本的过程。
现有技术中,这个过程需要工程领域专家与计算机程序员进行合作,由于不同专业之间的知识隔阂,依靠人工大量交流的方法通常效率低下。一些现有方法采用自然语言处理(NLP)进行约束规则创建,由AI对领域标准规范文档进行处理,并自动生成表示约束规则的程序脚本;然而,AI方法对于工程领域背景知识的利用非常有限,并且缺少一套机制以保证自动生成的程序脚本结果的正确性与可信性。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中依靠人工大量交流的方法通常效率低下,而AI方法缺少一套机制以保证自动生成的程序脚本结果的正确性与可信性的缺陷,从而提供一种规则脚本生成方法、装置、计算机设备及介质。
根据第一方面,本发明提供一种规则脚本生成方法,所述方法包括:
获取待处理的自然语言规则条文,对所述自然语言规则条文进行拆解,得到元组拆解数据;
基于知识图谱中已有的领域知识,对所述元组拆解数据进行纠错,得到元组拆解表,所述领域知识为与构建规则脚本规则相关的知识;
基于上下文的关联对所述元组拆解表中的各个元组拼接,得到所述自然语言规则条文对应的目标规则脚本。
在该方式中,通过利用知识图谱,对输入的待处理自然语言规则条文进行自动校验,根据输入的内容进行自动上下文关联,形成自然语言规则条文对应的规则脚本,无需依靠人工大量交流。针对人类处理及AI程序处理两种情况,本方式通过利用知识图谱对结果正确性进行约束。
结合第一方面,在第一方面的第一实施例中,所述基于知识图谱中已有的领域知识,对所述元组拆解数据进行纠错,得到元组拆解表,包括:
基于所述知识图谱中的领域字典与数据映射,判断所述元组拆解数据是否符合所述领域字典与数据映射;
当所述元组拆解数据符合所述领域字典与数据映射时,利用所述领域字典与数据映射对所述元组拆解数据进行修正,生成元组拆解表。
结合第一方面的第一实施例,在第一方面的第二实施例中,对所述元组拆解数据进行纠错,还包括:
当所述元组拆解数据中存在不符合所述领域字典与数据映射的元组数据时,基于所述元组数据,生成第一错误报告,将所述第一错误报告反馈至用户复核。
结合第一方面,在第一方面的第三实施例中,所述基于上下文的关联对所述元组拆解表中的各个元组拼接,得到所述自然语言规则条文对应的目标规则脚本,包括:
基于所述知识图谱中的规则语法树,将所述元组拆解表中的各个元组排列组合,拼接得到所述自然语言规则条文对应的目标规则脚本。
结合第一方面,在第一方面的第四实施例中,所述方法还包括:
基于上下文关联判断所述目标规则脚本是否存在缺乏拼接对象的元组,并判断所述目标规则脚本是否符合所述领域知识中对规则脚本的语法结构定义;
当所述目标规则脚本存在缺乏拼接对象的元组,或当所述目标规则脚本不符合所述领域知识中对规则脚本的语法结构定义时,生成第二错误报告,将所述第二错误报告反馈至用户复核。
结合第一方面的第二实施例或第一方面的第四实施例,在第一方面的第五实施例中,所述方法还包括:
接收所述用户反馈的补充知识,所述补充知识为所述用户对所述第一错误报告或所述第二错误报告进行复核后生成的用于修正错误报告的知识;
对所述用户反馈的补充知识进行纠错,得到纠错后的补充知识;
将所述纠错后的补充知识作为领域知识添加进所述知识图谱中,得到更新后的知识图谱。
结合第一方面的第五实施例,在第一方面的第六实施例中,所述方法还包括:
基于所述更新后的知识图谱,对所述元组拆解数据进行纠错,返回所述基于上下文的关联对所述元组拆解表中的各个元组拼接,得到所述自然语言规则条文对应的目标规则脚本的步骤,直至所述目标规则脚本符合所述领域知识中对规则脚本的语法结构定义。
在本发明的第二方面,本发明还提供一种规则脚本生成装置,所述装置包括:
输入获取单元,用于获取待处理的自然语言规则条文,对所述自然语言规则条文进行拆解,得到元组拆解数据;
语义纠错单元,用于基于知识图谱中已有的领域知识,对所述元组拆解数据进行纠错,得到元组拆解表,所述领域知识为与构建规则脚本规则相关的知识;
语义链接单元,用于基于上下文的关联对所述元组拆解表中的各个元组拼接,得到所述自然语言规则条文对应的目标规则脚本。
结合第二方面,在第二方面的第一实施例中,所述语义纠错单元,包括:
第一判断单元,用于基于所述知识图谱中的领域字典与数据映射,判断所述元组拆解数据是否符合所述领域字典与数据映射;
修正单元,用于当所述元组拆解数据符合所述领域字典与数据映射时,利用所述领域字典与数据映射对所述元组拆解数据进行修正,生成元组拆解表。
结合第二方面的第一实施例,在第二方面的第二实施例中,所述语义纠错单元还包括:
第一错误报告单元,用于当所述元组拆解数据中存在不符合所述领域字典与数据映射的元组数据时,基于所述元组数据,生成第一错误报告,将所述第一错误报告反馈至用户复核。
结合第二方面,在第二方面的第三实施例中,所述语义链接单元,包括:
目标规则生成单元,用于基于所述知识图谱中的规则语法树,将所述元组拆解表中的各个元组拼接,拼接得到所述自然语言规则条文对应的目标规则脚本。
结合第二方面,在第二方面的第四实施例中,所述装置还包括:
第二判断单元,用于基于上下文关联判断所述目标规则脚本是否存在缺乏拼接对象的元组,并判断所述目标规则脚本是否符合所述领域知识中对规则脚本的语法结构定义;
第二错误报告单元,用于当所述目标规则脚本存在缺乏拼接对象的元组,或当所述目标规则脚本不符合所述领域知识中对规则脚本的语法结构定义时,生成第二错误报告,将所述第二错误报告反馈至用户复核。
结合第二方面的第二实施例或第四实施例,在第二方面的第五实施例中,所述装置还包括:
补充获取单元,用于接收所述用户反馈的补充知识,所述补充知识为所述用户对所述第一错误报告或所述第二错误报告进行复核后生成的用于修正错误报告的知识;
补充纠错单元,用于对所述用户反馈的补充知识进行纠错,得到纠错后的补充知识;
更新单元,用于将所述纠错后的补充知识作为领域知识添加进所述知识图谱中,得到更新后的知识图谱。
结合第二方面的第五实施例,在第二方面的第六实施例中,所述装置还包括:
迭代单元,用于基于所述更新后的知识图谱,对所述元组拆解数据进行纠错,返回所述基于上下文的关联对所述元组拆解表中的各个元组拼接,得到所述自然语言规则条文对应的目标规则脚本的步骤,直至所述目标规则脚本符合所述领域知识中对规则脚本的语法结构定义。
根据第三方面,本发明实施方式还提供一种计算机设备,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面及其可选实施方式中任一项的规则脚本生成方法。
根据第四方面,本发明实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面及其可选实施方式中任一项的规则脚本生成方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例提出的一种规则脚本生成方法的流程图。
图2是根据一示例性实施例提出的一种规则脚本生成装置的结构框图。
图3是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,工程领域数据的约束规则的创建需要工程领域专家与计算机程序员进行合作,由于不同专业之间的知识隔阂,依靠人工大量交流的方法通常效率低下。一些现有方法采用自然语言处理(NLP)进行约束规则创建,由AI对领域标准规范文档进行处理,并自动生成表示约束规则的程序脚本;然而,AI方法对于工程领域背景知识的利用非常有限,并且缺少一套机制以保证自动生成的程序脚本结果的正确性与可信性
为解决上述问题,本发明实施例中提供一种规则脚本生成方法,用于计算机设备中,需要说明的是,其执行主体可以是GPU资源利用率的监控装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,其中,该计算机设备可以是终端或客户端或服务器,服务器可以是一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是计算机设备为例来进行说明。
本实施例中的计算机设备,适用于在将工程领域的专业知识(术语解释、行业标准、规章制度等)表示为计算机程序脚本的使用场景。通过本发明提供的规则脚本生成方法,通过利用知识图谱,对输入的待处理自然语言规则条文进行自动校验,根据输入的内容进行自动上下文关联,形成自然语言规则条文对应的规则脚本,无需依靠人工大量交流。针对人类处理及AI程序处理两种情况,本方式通过利用知识图谱对结果正确性进行约束,并在此过程中对知识图谱进行不断完善,进而保证了输出的规则脚本的正确性。
图1是根据一示例性实施例提出的一种规则脚本生成方法的流程图。如图1所示,规则脚本生成方法包括如下步骤S101至步骤S103。
在步骤S101中,获取待处理的自然语言规则条文,对自然语言规则条文进行拆解,得到元组拆解数据。
在本发明实施例中,在获取待处理的自然语言规则条文之后,为便于计算机进行处理,将自然语言规则条文拆解得到的元组拆解数据。
在一示例中,元组拆解数据中的每一项包括:索引、元组拆解与逻辑结构。其中,索引表示这条规则的章节目录、类型标记、自然语言内容等便于检索的信息;元组拆解由若干个三元组(主语,谓语,宾语)或五元组(主语,谓语,宾语,度量,值)组成,每个元组表示规则中的一个基本的逻辑结构;逻辑结构表示上述元组之间的逻辑关联关系(如果/那么/与/或/非)。
在步骤S102中,基于知识图谱中已有的领域知识,对元组拆解数据进行纠错,得到元组拆解表,领域知识为与构建规则脚本规则相关的知识。
在本发明实施例中,在接收到元组拆解数据后,为确保用于组成目标规则脚本拆解得到的元组在知识图谱中已经被定义且存在数据映射,每个元组中的词语的词性具有合法性,对元组拆解数据进行纠错,得到元组拆解表。
在一示例中,知识图谱存储的领域知识包括数据模型、规则语法树、领域字典、领域数据映射与规范章节目录等知识,用于支撑语义纠错与语义链接功能。其中,数据模型为领域数据的数据结构及计算方法的定义;规则语法树为规则脚本的语法结构定义;领域字典为领域术语定义及其分类关系,包括名词(实体对象类型、空间类型、集合类型、属性、值等)与非名词(关系、度量符、运算符、比较符、方位符等)的定义;词语映射为领域字典中的各种术语到数据对象的映射,包括名词术语到数据对象集合的映射,以及非名词术语到数据计算方法的映射;规范章节目录为已处理过的规则条文的历史记录,以及其对应的领域术语和规则脚本等信息。
在步骤S103中,基于上下文的关联对元组拆解表中的各个元组拼接,得到自然语言规则条文对应的目标规则脚本。
在本发明实施例中,为确保目标规则脚本的正确性,通过利用知识图谱,将元组拆解表中的各个元组进行自动上下文关联,得到自然语言规则条文对应的目标规则脚本。
通过上述实施例,利用知识图谱,对输入的待处理自然语言规则条文进行自动校验,根据输入的内容进行自动上下文关联,形成自然语言规则条文对应的规则脚本,无需依靠人工大量交流。针对人类处理及AI程序处理两种情况,本方式通过利用知识图谱对规则脚本的正确性进行约束。
在一实施例中,基于知识图谱中已有的领域知识,对元组拆解数据进行纠错,得到元组拆解表,包括:基于知识图谱中的领域字典与数据映射,判断元组拆解数据是否符合领域字典与数据映射;当元组拆解数据符合领域字典与数据映射时,利用领域字典与数据映射对元组拆解数据进行修正,生成元组拆解表。其中,领域字典包括领域术语的定义、词性、同义词、上下位词等特性,数据映射包括领域数据的格式和数据对象,以及领域术语与数据对象的对应关系。通过利用知识图谱的领域知识,确保生成的元组拆解表中的元组的正确性,为下一步生成目标规则脚本提供支持。
其中,对元组拆解数据进行纠错,包括但不限于:
确认元组中出现的术语(名词类/动词类)在知识图谱中已经被定义,且存在数据映射。其中,利用知识图谱的查询功能,可以确认上述定义与映射的存在性。
确认每个元组中,主语、谓语、宾语、度量、值对应的词语的词性是合法的。其中,知识图谱中领域字典包含每个词语的词性类型;规则语法树包含三元组与五元组的所有合法的或者计算机可理解的词性组合。
对同义词或复合概念等进行自动替换。其中,同义词、复合概念等是知识图谱中领域字典的内容,即一些词语与它的等价词、上位词、下位词等的关系的总称;自动替换是将字典中收录的一些“非标准”的词语自动替换为“标准”的词语,其中,如果是等价的词语,就直接替换;如果是有上下位词关系,则还需要将字典中的一些条件加入规则中。
在另一实施例中,由于对所述元组拆解数据进行纠错过程中,可能会存在元组拆解数据中存在不符合领域字典与数据映射的元组数据的情况。因此,当元组拆解数据中存在不符合领域字典与数据映射的元组数据时,基于元组数据,生成第一错误报告,将第一错误报告反馈至用户复核。
具体的,利用知识图谱的查询功能,确认元组中出现的术语在知识图谱中是否已经被定义且存在数据映射时:出现元组数据中不存在完全一致的词语,但是存在多个形似的词语,生成包括词语缺少、词语冲突、映射缺失等词语级别错误的第一错误报告,将第一错误报告反馈至用户复核。
确认每个元组中,主语、谓语、宾语、度量、值对应的词语的词性是否合法时:根据输入的三元组或五元组内容,确认元组中每个词的词性,并判断元组是否属于合法的词性组合,当出现词性或词性组合不合法时,将第一错误报告反馈至用户复核。
在一实施例中,基于上下文的关联对元组拆解表中的各个元组排列组合,得到自然语言规则条文对应的目标规则脚本,包括:基于知识图谱中的规则语法树,将元组拆解表中的各个元组拼接,拼接得到自然语言规则条文对应的目标规则脚本。
在一示例中,通过语义链接算法,将元组拆解表中的各个元组的多个元组作为多个片段,从上下文搜寻元组片段,并拼接为子句,将多个子句及其之间的逻辑连接符改写为符合语法的规则脚本。通过利用知识图谱的规则语法树,无需人工操作,将元组自动组合得到自然语言对应的目标规则脚本。
每个术语的词性可以通过知识图谱中的数据得到确认,因此输入数据中的每个元组都能对应于一个由词性组成的元组类型识别码。在本示例中,元组中的每一个词语采用两位数编码表示其词性,其中第一位为领域术语的大类(对象,关系,属性项,度量,值),第二位表示每个大类中的具体小类(例如,对象类术语进一步按项目、构件、空间、系统等细分;属性项类术语按照数值属性、布尔属性、枚举属性、字符串属性等细分)。因此,每个元组都对应一串表示词性的识别码。存储的知识中具有一个“可处理”的元组识别码集合,以及一个“可容错”的元组识别码集合。对于识别为可处理的元组,装置会获取其中可与上下文的其它元组进行链接的位点,用于支持后续的自动语义链接步骤;对于识别为可容错的元组,装置会按照特定的容错程序对其进行改写;对于其它不可处理的元组,将把错误报告反馈给用户。
其中,规则语法树的定义是知识图谱的内容,具体包括:元组语法:所有合法的三元组或五元组类型(词性组合);分句语法:由一个或多个元组能串联成分句的所有方法;整句语法:由多个分句的逻辑关联(如果、那么、与、或、非…)组合为整句的所有方法。
根据规则语法树的语法定义,计算机尝试将元组拆解表中的多个元组作为多个片段,自动排列组合并拼接为符合上述规则语法的目标规则脚本。
在一实施例中,为了确保规则脚本的正确性,需要在目标规则脚本进行自动语义链接后,基于上下文关联判断目标规则脚本是否存在缺乏拼接对象的元组,并判断目标规则脚本是否符合领域知识中对规则脚本的语法结构定义;当目标规则脚本存在缺乏拼接对象的元组,或当目标规则脚本不符合领域知识中对规则脚本的语法结构定义时,生成第二错误报告,将第二错误报告反馈至用户复核。
在一示例中,当目标规则脚本存在缺乏拼接对象的元组,或当目标规则脚本不符合领域知识中对规则脚本的语法结构定义时,生成包含缺少语法成分、多出了无法处理的片段等信息的第二错误报告,将第二错误报告反馈至用户复核。
在一实施例中,根据反馈的第一错误报告和第二错误报告,获取用户的复核。接收用户反馈的补充知识,补充知识为用户对第一错误报告或第二错误报告进行复核后生成的用于修正错误报告的知识;对用户反馈的补充知识进行纠错,得到纠错后的补充知识;将纠错后的补充知识作为领域知识添加进知识图谱中,得到更新后的知识图谱。其中,用户反馈的补充知识包括术语分类与映射和修改后的元组拆解数据。针对用户反馈的术语分类与映射,对补充的术语分类与进行纠错,将纠错后的术语分类与映射作为补充知识添加至知识图谱。
在本发明实施例中,更新知识图谱以便于维护知识图谱领域知识的正确性和全面性,进而确保利用知识图谱校验生成的规则脚本的正确,为后续规则脚本的校验生成提供了支持。
在一实施例中,基于更新后的知识图谱,对元组拆解数据进行纠错,返回基于上下文的关联对元组拆解表中的各个元组拼接,得到自然语言规则条文对应的目标规则脚本的步骤,直至目标规则脚本符合领域知识中对规则脚本的语法结构定义。针对用户反馈的修改后的元组拆解数据,对修改后的元组拆解数据进行自动纠错,当出现第一错误报告时,反馈给用户进行复核,直至不再出现第一错误报告,得到元组拆解表;对元组拆解表进行自动链接,将元组拆解表中的元组基于上下文的关联进行排列组合,当出现第二错误报告时,反馈给用户进行复核,直至不再出现第二错误报告,生成符合所述领域知识中对规则脚本的语法结构定义的目标规则脚本。
通过利用知识图谱对结果正确性进行约束,并在此过程中对知识图谱进行不断完善,利用更新后的知识图谱,对输入的待处理自然语言规则条文进行自动校验,根据输入的内容进行自动上下文关联,形成自然语言规则条文对应的规则脚本,进而保证了输出的规则脚本的正确性。
基于相同发明构思,本发明还提供一种规则脚本生成装置。
图2是根据一示例性实施例提出的一种规则脚本生成装置的结构框图。如图2所示,规则脚本生成装置包括输入获取单元201、语义纠错单元202和语义链接单元203。
输入获取单元201,用于获取待处理的自然语言规则条文,对自然语言规则条文进行拆解,得到元组拆解数据。
语义纠错单元202,用于基于知识图谱中已有的领域知识,对元组拆解数据进行纠错,得到元组拆解表,领域知识为与构建规则脚本规则相关的知识。
语义链接单元203,用于基于上下文的关联对元组拆解表中的各个元组拼接,得到自然语言规则条文对应的目标规则脚本。
在一实施例中,语义纠错单元202,包括:
第一判断单元,用于基于知识图谱中的领域字典与数据映射,判断元组拆解数据是否符合领域字典与数据映射;
修正单元,用于当元组拆解数据符合领域字典与数据映射时,利用领域字典与数据映射对元组拆解数据进行修正,生成元组拆解表。
在另一实施例中,语义纠错单元202还包括:第一错误报告单元,用于当元组拆解数据中存在不符合领域字典与数据映射的元组数据时,基于元组数据,生成第一错误报告,将第一错误报告反馈至用户复核。
在又一实施例中,语义链接单元203,包括:目标规则生成单元,用于基于知识图谱中的规则语法树,将元组拆解表中的各个元组排列组合,拼接得到自然语言规则条文对应的目标规则脚本。
在又一实施例中,装置还包括:第二判断单元,用于基于上下文关联判断目标规则脚本是否存在缺乏拼接对象的元组,并判断目标规则脚本是否符合领域知识中对规则脚本的语法结构定义;第二错误报告单元,用于当目标规则脚本存在缺乏拼接对象的元组,或当目标规则脚本不符合领域知识中对规则脚本的语法结构定义时,生成第二错误报告,将第二错误报告反馈至用户复核。
在又一实施例中,装置还包括:补充获取单元,用于接收用户反馈的补充知识,补充知识为用户对第一错误报告或第二错误报告进行复核后生成的用于修正错误报告的知识;补充纠错单元,用于对用户反馈的补充知识进行纠错,得到纠错后的补充知识;更新单元,用于将纠错后的补充知识作为领域知识添加进知识图谱中,得到更新后的知识图谱。
在又一实施例中,装置还包括:迭代单元,用于基于更新后的知识图谱,对元组拆解数据进行纠错,返回基于上下文的关联对元组拆解表中的各个元组拼接,得到自然语言规则条文对应的目标规则脚本的步骤,直至目标规则脚本符合领域知识中对规则脚本的语法结构定义。
上述规则脚本生成装置的具体限定以及有益效果可以参见上文中对于规则脚本生成方法的限定,在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图3是根据一示例性实施例提出的一种计算机设备的硬件结构示意图。如图3所示,该设备包括一个或多个处理器310以及存储器320,存储器320包括持久内存、易失内存和硬盘,图3中以一个处理器310为例。该设备还可以包括:输入装置330和输出装置340。
处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器310可以为中央处理器(Central Processing Unit,CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器320作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的规则脚本生成方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述任意一种规则脚本生成方法。
存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器320可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
一个或者多个模块存储在存储器320中,当被一个或者多个处理器310执行时,执行如图1所示的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1所示的实施例中的相关描述。
本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的认证方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (9)

1.一种规则脚本生成方法,其特征在于,所述方法包括:
获取待处理的自然语言规则条文,对所述自然语言规则条文进行拆解,得到元组拆解数据;
基于知识图谱中已有的领域知识,对所述元组拆解数据进行纠错,得到元组拆解表,所述领域知识为与构建规则脚本规则相关的知识;
基于上下文的关联对所述元组拆解表中的各个元组进行拼接,得到所述自然语言规则条文对应的目标规则脚本;所述基于上下文的关联对所述元组拆解表中的各个元组拼接,得到所述自然语言规则条文对应的目标规则脚本,包括:基于所述知识图谱中的规则语法树,将所述元组拆解表中的各个元组排列组合,拼接得到所述自然语言规则条文对应的目标规则脚本;所述基于所述知识图谱中的规则语法树,将所述元组拆解表中的各个元组排列组合,拼接得到所述自然语言规则条文对应的目标规则脚本,包括:通过语义链接算法,将所述元组拆解表中的各个元组中的多个元组作为多个元组片段,从上下文搜寻元组片段拼接为子句,将所述子句及所述子句之间的逻辑连接符改写为符合语法的规则脚本;
基于上下文关联判断所述目标规则脚本是否存在缺乏拼接对象的元组,并判断所述目标规则脚本是否符合所述领域知识中对规则脚本的语法结构定义;
当所述目标规则脚本不符合所述领域知识中对规则脚本的语法结构定义时,生成包含缺少语法成分、多出了无法处理的片段信息的第二错误报告,将所述第二错误报告反馈至用户复核。
2.根据权利要求1所述的方法,其特征在于,所述基于知识图谱中已有的领域知识,对所述元组拆解数据进行纠错,得到元组拆解表,包括:
基于所述知识图谱中的领域字典与数据映射,判断所述元组拆解数据是否符合所述领域字典与数据映射;
当所述元组拆解数据符合所述领域字典与数据映射时,利用所述领域字典与数据映射对所述元组拆解数据进行修正,生成元组拆解表。
3.根据权利要求2所述的方法,其特征在于,对所述元组拆解数据进行纠错,还包括:
当所述元组拆解数据中存在不符合所述领域字典与数据映射的元组数据时,基于所述元组数据,生成第一错误报告,将所述第一错误报告反馈至用户复核。
4.根据权利要求3所述的方法,其特征在于,还包括:
当所述目标规则脚本存在缺乏拼接对象的元组时,生成第二错误报告,将所述第二错误报告反馈至用户复核。
5.根据权利要求4所述的方法,其特征在于,还包括:
接收所述用户反馈的补充知识,所述补充知识为所述用户对所述第一错误报告或所述第二错误报告进行复核后生成的用于修正错误报告的知识;
对所述用户反馈的补充知识进行纠错,得到纠错后的补充知识;
将所述纠错后的补充知识作为领域知识添加进所述知识图谱中,得到更新后的知识图谱。
6.根据权利要求5所述的方法,其特征在于,还包括:
基于所述更新后的知识图谱,对所述元组拆解数据进行纠错,返回所述基于上下文的关联对所述元组拆解表中的各个元组拼接,得到所述自然语言规则条文对应的目标规则脚本的步骤,直至所述目标规则脚本符合所述领域知识中对规则脚本的语法结构定义。
7.一种规则脚本生成装置,其特征在于,所述装置包括:
输入获取单元,用于获取待处理的自然语言规则条文,对所述自然语言规则条文进行拆解,得到元组拆解数据;
语义纠错单元,用于基于知识图谱中已有的领域知识,对所述元组拆解数据进行纠错,得到元组拆解表,所述领域知识为与构建规则脚本规则相关的知识;
语义链接单元,用于基于上下文的关联对所述元组拆解表中的各个元组拼接,得到所述自然语言规则条文对应的目标规则脚本;所述基于上下文的关联对所述元组拆解表中的各个元组拼接,得到所述自然语言规则条文对应的目标规则脚本,包括:基于所述知识图谱中的规则语法树,将所述元组拆解表中的各个元组排列组合,拼接得到所述自然语言规则条文对应的目标规则脚本;所述基于所述知识图谱中的规则语法树,将所述元组拆解表中的各个元组排列组合,拼接得到所述自然语言规则条文对应的目标规则脚本,包括:通过语义链接算法,将所述元组拆解表中的各个元组中的多个元组作为多个元组片段,从上下文搜寻元组片段拼接为子句,将所述子句及所述子句之间的逻辑连接符改写为符合语法的规则脚本;基于上下文关联判断所述目标规则脚本是否存在缺乏拼接对象的元组,并判断所述目标规则脚本是否符合所述领域知识中对规则脚本的语法结构定义;当所述目标规则脚本不符合所述领域知识中对规则脚本的语法结构定义时,生成包含缺少语法成分、多出了无法处理的片段信息的第二错误报告,将所述第二错误报告反馈至用户复核。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-6中任一项所述的规则脚本生成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的规则脚本生成方法。
CN202211233797.0A 2022-10-10 2022-10-10 规则脚本生成方法、装置、计算机设备及介质 Active CN115545006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211233797.0A CN115545006B (zh) 2022-10-10 2022-10-10 规则脚本生成方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211233797.0A CN115545006B (zh) 2022-10-10 2022-10-10 规则脚本生成方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN115545006A CN115545006A (zh) 2022-12-30
CN115545006B true CN115545006B (zh) 2024-02-13

Family

ID=84734235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211233797.0A Active CN115545006B (zh) 2022-10-10 2022-10-10 规则脚本生成方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN115545006B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577174A (zh) * 2012-08-01 2014-02-12 北京奥鹏远程教育中心有限公司 一种计算规则脚本的可视化生成方法和系统
CN110347798A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统
CN112395880A (zh) * 2020-11-19 2021-02-23 平安科技(深圳)有限公司 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN114036930A (zh) * 2021-10-28 2022-02-11 北京明略昭辉科技有限公司 文本纠错方法、装置、设备及计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577174A (zh) * 2012-08-01 2014-02-12 北京奥鹏远程教育中心有限公司 一种计算规则脚本的可视化生成方法和系统
CN110347798A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统
CN112395880A (zh) * 2020-11-19 2021-02-23 平安科技(深圳)有限公司 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN114036930A (zh) * 2021-10-28 2022-02-11 北京明略昭辉科技有限公司 文本纠错方法、装置、设备及计算机可读介质

Also Published As

Publication number Publication date
CN115545006A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN111522816B (zh) 基于数据库引擎的数据处理方法、装置、终端及介质
CN110795455B (zh) 依赖关系解析方法、电子装置、计算机设备及可读存储介质
US11599539B2 (en) Column lineage and metadata propagation
CN108647300B (zh) 数据库访问中间系统、方法、设备及存储介质
CN113110866A (zh) 一种数据库变更脚本的评估方法及装置
CN112015722A (zh) 数据库管理方法、数据血缘分析方法以及相关装置
CN113901083A (zh) 基于多解析器的异构数据源操作资源解析定位方法和设备
US10339151B2 (en) Creating federated data source connectors
EP3168791A1 (en) Method and system for data validation in knowledge extraction apparatus
CN112000690B (zh) 解析结构化操作语句的方法和装置
CN113900944A (zh) 一种应用于Flink SQL的逻辑验证方法和装置
CN113934786A (zh) 一种构建统一etl的实施方法
CN116483850A (zh) 数据处理方法、装置、设备以及介质
US10223086B2 (en) Systems and methods for code parsing and lineage detection
CN111444208B (zh) 一种数据更新方法及相关设备
CN115545006B (zh) 规则脚本生成方法、装置、计算机设备及介质
CN116126830A (zh) 数据库管理系统的逻辑缺陷的检测方法、装置及可读介质
US20220269706A1 (en) Methods and systems to parse a software component search query to enable multi entity search
US11366742B2 (en) Automated identification of lines of code related to errors field
CN111488360B (zh) 一种行级安全的实现方法、装置、设备及存储介质
CN115291889B (zh) 一种数据血缘关系建立方法、装置及电子设备
CN111221846B (zh) 一种sql语句的自动翻译方法及装置
CN117632963A (zh) 一种建表方法、系统及电子设备
US20240152511A1 (en) Transliteration of machine interpretable languages for enhanced compaction
CN116383261A (zh) 数据过滤方法和装置、计算机可读存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant