CN111859975A - 一种扩充样本语料的语料正则式的方法和系统 - Google Patents

一种扩充样本语料的语料正则式的方法和系统 Download PDF

Info

Publication number
CN111859975A
CN111859975A CN201910325710.4A CN201910325710A CN111859975A CN 111859975 A CN111859975 A CN 111859975A CN 201910325710 A CN201910325710 A CN 201910325710A CN 111859975 A CN111859975 A CN 111859975A
Authority
CN
China
Prior art keywords
entity
corpus
participles
regular expression
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910325710.4A
Other languages
English (en)
Inventor
李选洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910325710.4A priority Critical patent/CN111859975A/zh
Publication of CN111859975A publication Critical patent/CN111859975A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明提供了一种扩充样本语料的语料正则式的方法和系统,其方法包括:根据实体内容建立知识图谱;获取样本语料,根据所述样本语料生成语料正则式;对所述样本语料进行分词得到语料分词;将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;根据所述实体概念调整所述语料正则式得到正则表达式。本发明通过知识图谱获取样本语料中实体分词对应的上一层级的实体概念,根据实体概念扩充根据样本语料得到的语料正则式,从而增加语义正则的泛化能力。

Description

一种扩充样本语料的语料正则式的方法和系统
技术领域
本发明涉及语义解析技术领域,尤指一种扩充样本语料的语料正则式的方法和系统。
背景技术
当前随着网络的飞速发展,通过计算机智能处理信息也是越来越普遍。计算机、智能设备等每天可能需要处理成千上万的信息。智能设备一般通过分析语料得到对应的语料正则式,从而解析语料。但是常规语料正则式的编写通过用户语料句式的解析和词库扩充,泛化能力较差。因此,需要一种扩充样本语料的语料正则式的方法和系统提高语料正则式的泛化能力。
发明内容
本发明的目的是提供一种扩充样本语料的语料正则式的方法和系统,实现通过知识图谱获取样本语料中实体分词对应的上一层级的实体概念,根据实体概念扩充根据样本语料得到的语料正则式,从而增加语义正则的泛化能力的目的。
本发明提供的技术方案如下:
本发明提供一种扩充样本语料的语料正则式的方法,包括:
根据实体内容建立知识图谱;
获取样本语料,根据所述样本语料生成语料正则式;
对所述样本语料进行分词得到语料分词;
将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;
根据所述实体概念调整所述语料正则式得到正则表达式。
进一步的,根据实体建立知识图谱具体包括:
获取所述实体内容以及所述实体内容之间的关联关系;
根据所述实体内容以及所述关联关系建立所述知识图谱。
进一步的,根据所述实体概念调整所述语料正则式得到正则表达式具体包括:
选取目标实体分词对应的目标实体概念,所述目标实体分词为所述实体分词中的任意一个;
根据所述知识图谱判断所述目标实体概念与其余的实体分词是否匹配;
若匹配,则将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词保持不变,得到所述正则表达式。
进一步的,还包括:
若不匹配,则根据所述知识图谱获取其余的实体分词对应的上一层级的实体概念,所述其余的实体分词对应的实体概念与所述目标实体概念匹配;
将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词替换为对应的实体概念,得到所述正则表达式。
进一步的,还包括:
根据所述知识图谱获取所述正则表达式中实体概念下一层级的所有实体内容;
将所述所有实体内容作为对应的正则表达式中实体概念的语义槽。
本发明还提供一种扩充样本语料的语料正则式的系统,包括:
知识图谱建立模块,根据实体内容建立知识图谱;
语料获取模块,获取样本语料;
正则式生成模块,根据所述语料获取模块获取的所述样本语料生成语料正则式;
分词模块,对所述语料获取模块获取的所述样本语料进行分词得到语料分词;
比对模块,将所述分词模块得到的所述语料分词和所述知识图谱建立模块得到的所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
实体概念获取模块,根据所述知识图谱建立模块得到的所述知识图谱获取所述比对模块得到的所述实体分词对应的上一层级的实体概念;
处理模块,根据所述实体概念获取模块得到的所述实体概念调整所述正则式生成模块得到的所述语料正则式得到正则表达式。
进一步的,所述知识图谱建立模块具体包括:
获取单元,获取所述实体内容以及所述实体内容之间的关联关系;
知识图谱建立单元,根据所述获取单元获取的所述实体内容以及所述关联关系建立所述知识图谱。
进一步的,所述处理模块具体包括:
选取单元,选取目标实体分词对应的目标实体概念,所述目标实体分词为所述实体分词中的任意一个;
分析单元,根据所述知识图谱建立模块得到的所述知识图谱判断所述选取单元选取的所述目标实体概念与其余的实体分词是否匹配;
处理单元,若所述分析单元分析匹配,则将所述正则式生成模块得到的所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词保持不变,得到所述正则表达式。
进一步的,所述处理模块还包括:
所述处理单元,若所述分析单元分析不匹配,则根据所述知识图谱建立模块得到的所述知识图谱获取其余的实体分词对应的上一层级的实体概念,所述其余的实体分词对应的实体概念与所述目标实体概念匹配;
所述处理单元,将所述正则式生成模块得到的所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词替换为对应的实体概念,得到所述正则表达式。
进一步的,还包括:
实体内容获取模块,根据所述知识图谱建立模块得到的所述知识图谱获取所述处理模块得到的所述正则表达式中实体概念下一层级的所有实体内容;
语义槽生成模块,根据所述实体内容获取模块获取的所述所有实体内容生成对应的正则表达式中实体概念的语义槽。
通过本发明提供的一种扩充样本语料的语料正则式的方法和系统,能够带来以下至少一种有益效果:
1、本发明中,通过知识图谱确定样本语料中实体分词对应的上一层级的实体概念,然后将实体分词替换为对应的实体概念,扩充通过样本语料得到的正则式的数量,增强正则式的泛化能力。
2、本发明中,根据不同类型的实体内容和关联关系建立对应的不同类型的知识图谱,清晰准确地表达出获取的实体内容的体系构成,便于进行逻辑梳理和实体概念的选择。
3、本发明中,通过知识图谱确定目标实体分词对应的上一层级的目标实体概念与正则表达式中其余的实体分词具有关联关系才进行相应的替换得到正则表达式,避免出现逻辑错误的问题。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种扩充样本语料的语料正则式的方法和系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种扩充样本语料的语料正则式的方法的一个实施例的流程图;
图2是本发明一种扩充样本语料的语料正则式的方法的另一个实施例的流程图;
图3是本发明一种扩充样本语料的语料正则式的方法的实际举例的知识图谱;
图4是本发明一种扩充样本语料的语料正则式的方法的另一个实施例的流程图;
图5是本发明一种扩充样本语料的语料正则式的方法的另一个实施例的流程图;
图6是本发明一种扩充样本语料的语料正则式的方法的另一个实施例的流程图;
图7是本发明一种扩充样本语料的语料正则式的系统的一个实施例的结构示意图;
图8是本发明一种扩充样本语料的语料正则式的系统的另一个实施例的结构示意图。
附图标号说明:
100 扩充样本语料的语料正则式的系统
110 知识图谱建立模块 111 获取单元 112知识图谱建立单元
120 语料获取模块
130 正则式生成模块 140分词模块 150比对模块
160 实体概念获取模块
170 处理模块 171选取单元 172分析单元 173处理单元
180 实体内容获取模块
190 语义槽生成模块
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘出了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
具体实现中,本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机、家教机或平板计算机之类的其他便携式设备。还应当理解的是,在某些实施例中,所述终端设备并非便携式通信设备,而是具有触摸敏感表面(例如:触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端设备。然而,应当理解的是,终端设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。
终端设备支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
本发明的一个实施例,如图1所示,一种扩充样本语料的语料正则式的方法,包括:
S100根据实体内容建立知识图谱;
具体的,知识图谱又称为科学知识图谱,其是显示知识发展进程与结构关系的一系列各种不同的图形、用可视化技术描述知识资源及其载体、挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
获取不同类型的实体内容,建立对应的不同类型的知识图谱,例如按照分类界门纲目科属种分别建立知识图谱。知识图谱中的每个节点对应一个大概念的实体概念或者小概念的实体内容,其中实体概念与实体内容的概念是相对的,仅仅是为了便于区分,将实体内容的上一层级的节点成为实体概念,实质上两者都是知识图谱的节点。
例如在某一个知识图谱中鹰的上一层级为禽类,禽类的上一层级为动物,对于知识图谱而言,鹰、禽类和动物都是实体内容。但是,对于鹰和禽类的关系而言,鹰是实体内容,禽类是实体概念。另外,对于禽类和动物的关系而言,禽类则是实体内容,动物是实体概念。
S200获取样本语料,根据所述样本语料生成语料正则式;
具体的,获取样本语料,根据获取的样本语料生成对应的语料正则式。收集大量的样本语料,其中样本语料可以是规范的书面用语,也可以是用户语音、音频等,因为在人机交互的过程中用户语音输入和文字输入都是主流的交互方式。
另外,由于整个分析过程是针对书面文本,因此如果收集的是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行相应的处理。识别样本语料,对样本语料进行准确地断句,从而得到对应的语料正则式。
例如,某一个样本语料为:老鹰和鸽子可以在天空中飞翔,对样本语料进行准确地断句,得到的对应的语料正则式为:老鹰#和#鸽子#可以#在#天空#中#飞翔。
S300对所述样本语料进行分词得到语料分词;
具体的,对获取的样本语料进行分词,然后识别每个分词的词性,将预设词性的分词定义为语料分词。对于代词等词性的分词,并没有具有其他关联关系的更大概念的词语可以进行替换,因此可以设定为将词性为名词和动词的分词定义为语料分词。
例如,某一个样本语料为:老鹰和鸽子可以在天空中飞翔,对样本语料进行分词,得到的对应的分词为:老鹰、和、鸽子、可以、在、天空、中、飞翔,其中词性为名词的“老鹰”和“鸽子”在知识图谱中有上一层级的实体概念禽类,名词“天空”和动词“飞翔”在知识图谱中和前面的名词“老鹰”和名词“鸽子”具有一定的联系,而其余的代词“和”、“可以”、“在”、“中”在知识图谱中并没有和其其余的分词产生联系,因此将名词“老鹰”、名词“鸽子”名词“天空”和动词“飞翔”定义为语料分词。
S400将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
具体的,将选取的语料分词和知识图谱的每一个节点对应的实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词,为了提高比对的速度,可以将知识图谱的各个区域根据特征进行命名,例如动物区、植物区等,而且在获取到语料分词时,首先分析语料分词的特征,优先于特征匹配的相应的知识图谱的区域进行比对,从而提高比对效率。
例如,某一个样本语料为:老鹰和鸽子可以在天空中飞翔,对样本语料进行分词,得到的对应的分词为:老鹰、和、鸽子、可以、在、天空、中、飞翔,其中名词“老鹰”、名词“鸽子”名词“天空”和动词“飞翔”定义为语料分词。另外知识图谱的实体内容中包含有“老鹰”、“鸽子”和“飞翔”,但是没有“天空”,则将“老鹰”、“鸽子”和“飞翔”定义为实体分词,后续进行相应的处理。
S500根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;
具体的,实体分词是上述根据语料分词和知识图谱的实体内容进行比对得到的,因此还可以根据知识图谱获取实体分词对应的上一层级的实体概念,以及可以根据知识图谱获取和实体分词以及对应的实体概念具有相关关系的其它实体内容。
例如,某一个样本语料为:老鹰和鸽子可以在天空中飞翔,其中“老鹰”、“鸽子”和“飞翔”定义为实体分词,根据知识图谱可以知道“老鹰”和“鸽子”的上一层级的实体概念为“禽类”,“禽类”的上一层级为“卵生动物”,“飞翔”的上一层级的实体概念为“移动”,并且“老鹰”、“鸽子”以及“禽类”和“飞翔”、“移动”具有相关关系,但是“卵生动物”只和“移动”具有相关关系,和“飞翔”则不具有相关关系。
S600根据所述实体概念调整所述语料正则式得到正则表达式。
具体的,根据实体概念调整语料正则式得到正则表达式,从而扩充通过样本语料得到的正则式的数量。用户设定规则选择合适的实体概念替换语料正则式中对应的实体分词,从而得到正则表达式。
其中,如果语料正则式中包含有多个实体分词,那么每次选择一个或多个实体分词对应的实体概念进行替换,则可以得到多个相互之间不同的正则表达式。
例如,某一个样本语料为:老鹰和鸽子可以在天空中飞翔,其中“老鹰”、“鸽子”和“飞翔”定义为实体分词,根据知识图谱可以知道“老鹰”和“鸽子”的上一层级的实体概念为“禽类”,“禽类”的上一层级为“卵生动物”,“飞翔”的上一层级的实体概念为“移动”。选择将“老鹰”和“鸽子”替换为“禽类”得到正则表达式1,将“飞翔”替换为“移动”得到正则表达式2,将“老鹰”和“鸽子”替换为“禽类”,同时将“飞翔”替换为“移动”得到正则表达式2。
本实施例中,通过知识图谱确定样本语料中实体分词对应的上一层级的实体概念,然后将实体分词替换为对应的实体概念,扩充通过样本语料得到的正则式的数量,增强正则式的泛化能力。
本发明的另一个实施例,是上述的实施例的优化实施例,如图2所示,包括:
S100根据实体内容建立知识图谱;
S110获取所述实体内容以及所述实体内容之间的关联关系;
具体的,获取不同类型的实体内容,建立对应的不同类型的知识图谱,例如按照分类界门纲目科属种对动植物进行分类分别建立知识图谱,并且和动植物的动作行为进行关联,例如“开花”、“结果”、“飞翔”、“喷水”等。又或者按照日常生活百科分类建立知识图谱,例如家居类、服装类等。
知识图谱是根据若干个三元组构成的,三元组可以简单的理解为(实体内容,关联关系,实体内容),如果将实体内容看作是节点,将关联关系(包括属性,类别等)看作是一条边,那么包含了大量三元组的知识库就构成了一个庞大的知识图谱。
例如,动物类别之间的关系可以表示为(动物,包含关系,卵生动物),(动物,包含关系,胎生动物),(动物,包含关系,水生动物),(动物,包含关系,两栖动物)等。在动物类别中,上述动物类别之间是并列关系,但是每个动物类别下还包含有更小概念的实体内容,譬如,(卵生动物,包含关系,爬行动物),(卵生动物,包含关系,禽类)等。
上述为动物类别中存在包含关系的部分知识图谱,针对动物行为,还可以进一步进行关联。例如(禽类,行为类别,飞翔),(爬行动物,行为类别,爬行),(卵生动物,行为类别,移动),(移动,包含关系,爬行),(移动,包含关系,飞翔)。
由上述举例可知,“飞翔”和“爬行”在知识图谱中都是属于“移动”下一层级的实体内容,那么当“禽类”与“飞翔”相关联,“爬行动物”与“爬行”相关联,通过简单地推理自然而然地得出“禽类”和“爬行动物”与上一层级的“移动”相关联。
因此,为了构建每个类别相应的知识图谱,还需要获取每个类别所有实体内容之间的关联关系,关联关系包括实体内容之间的连接关系以及层级关系,例如当两个实体内容之间是包含关系时,包含的实体内容的层级高于被包含的实体内容,当两个实体内容之间是并列关系时,两者层级相同。
S120根据所述实体内容以及所述关联关系建立所述知识图谱。
具体的,根据实体内容和关联关系建立对应的不同类型的知识图谱,在知识图谱中一个实体内容就是一个连接节点,具有关联关系的两个实体内容之间通过线条连接。因此,每个类型的知识图谱能够清晰准确地表达出实体内容的体系构成,便于梳理实体内容之间的连接关系,从而选择合适的实体概念进行替换从而得到正则表达式。
将上述举例的内容生成对应的知识图谱,如图3所示,动物(胎生动物、卵生动物、水生动物、两栖动物、爬行动物、禽类)和动物行为(移动、飞翔、爬行)属于不同类型,因此选取不同形状的框图进行表示,在动物和动物行为的类别中,属于包含关系的用箭头指示,由被包含的实体内容指向包含的实体概念,行为类别中具有关联关系的例如动物和动物行为之间则用线条连接。以上距离仅仅是为了方便理解,本申请并不仅限于此。
S200获取样本语料,根据所述样本语料生成语料正则式;
S300对所述样本语料进行分词得到语料分词;
S400将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
S500根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;
S600根据所述实体概念调整所述语料正则式得到正则表达式。
本实施例中,根据不同类型的实体内容和关联关系建立对应的不同类型的知识图谱,清晰准确地表达出获取的实体内容的体系构成,便于进行逻辑梳理和实体概念的选择。
本发明的另一个实施例,是上述的实施例的优化实施例,如图4所示,包括:
S100根据实体内容建立知识图谱;
S200获取样本语料,根据所述样本语料生成语料正则式;
S300对所述样本语料进行分词得到语料分词;
S400将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
S500根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;
S600根据所述实体概念调整所述语料正则式得到正则表达式。
S610选取目标实体分词对应的目标实体概念,所述目标实体分词为所述实体分词中的任意一个;
具体的,如果语料正则式中有多个实体分词,则任意选择一个实体分词作为目标实体分词,结合对应的目标实体概念进行分析处理。当针对该目标实体分词分析完成之后,则排除已经选择过的实体分词,重新选择一个实体分词作为新的目标实体分词,再进行分析,直至将所有的实体分词都作为目标实体分词进行分析完成。
S620根据所述知识图谱判断所述目标实体概念与其余的实体分词是否匹配;
具体的,根据知识图谱判断选择的目标实体概念与正则表达式中其余的实体分词是否匹配,也就是判断目标实体概念与正则表达式中其余的实体分词在知识图谱中是否具有关联关系。
S630若匹配,则将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词保持不变,得到所述正则表达式。
具体的,如果目标实体概念与正则表达式中其余的实体分词匹配,也就是目标实体概念与正则表达式中其余的实体分词在知识图谱中具有关联关系,则将语料正则式中的目标实体分词替换为目标实体概念,其余的实体分词保持不变,得到正则表达式。
并且,得到正则表达式之后,可以进一步判断目标实体概念上一层级的实体概念是否还与正则表达式中其余的实体分词在知识图谱中具有关联关系,如果是,则可以再次进行替换。
例如,某一个样本语料为:老鹰和鸽子可以在天空中飞翔,得到的对应的语料正则式为:老鹰#和#鸽子#可以#在#天空#中#飞翔。其中“老鹰”、“鸽子”和“飞翔”定义为实体分词,“老鹰”和“鸽子”的上一层级的实体概念为“禽类”,“禽类”的上一层级为“卵生动物”,“飞翔”的上一层级的实体概念为“移动”,并且动物类别“老鹰”、“鸽子”以及“禽类”和动物行为“飞翔”、“移动”都具有相关关系。由于“老鹰”和“鸽子”属于同一层级,属于上一层级均为“禽类”,因此将“老鹰”和“鸽子”同时作为目标实体分词,对应的目标实体概念为“禽类”,通过知识图谱可以知道“禽类”和“飞翔”具有关联关系,则可以用“禽类”替换“老鹰”和“鸽子”得到正则表达式1:禽类#可以#在#天空#中#飞翔。然后再将“飞翔”为目标实体分词,对应的目标实体概念为“移动”,通过知识图谱可以知道“移动”与“老鹰”和“鸽子”具有关联关系,则可以用“移动”替换“飞翔”得到正则表达式2:老鹰#和#鸽子#可以#在#天空#中#移动。同理,可以得到正则表达式3:禽类#可以#在#天空#中#移动。
本实施例中,通过知识图谱确定目标实体分词对应的上一层级的目标实体概念与正则表达式中其余的实体分词具有关联关系,才进行相应的替换得到正则表达式,避免出现逻辑错误的问题。
本发明的另一个实施例,是上述的实施例的优化实施例,如图5所示,包括:
S100根据实体内容建立知识图谱;
S200获取样本语料,根据所述样本语料生成语料正则式;
S300对所述样本语料进行分词得到语料分词;
S400将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
S500根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;
S600根据所述实体概念调整所述语料正则式得到正则表达式。
S610选取目标实体分词对应的目标实体概念,所述目标实体分词为所述实体分词中的任意一个;
S620根据所述知识图谱判断所述目标实体概念与其余的实体分词是否匹配;
S630若匹配,则将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词保持不变,得到所述正则表达式。
S640若不匹配,则根据所述知识图谱获取其余的实体分词对应的上一层级的实体概念,所述其余的实体分词对应的实体概念与所述目标实体概念匹配;
具体的,如果目标实体概念与正则表达式中其余的实体分词不匹配,也就是目标实体概念与正则表达式中其余的实体分词在知识图谱中不具有关联关系,说明将语料正则式中的目标实体分词直接替换为目标实体概念,该目标实体概念会与其余的实体分词出现逻辑不通的问题。因此要获取其余的实体分词对应的上一层级的实体概念和目标实体概念进行匹配。
例如,某一个样本语料为:鹦鹉会说话,得到的对应的语料正则式为:鹦鹉#会#说话。其中“鹦鹉”和“说话”定义为实体分词,“鹦鹉”的上一层级的实体概念为“禽类”,“说话”的上一层级的实体概念为“啼叫”,并且“鹦鹉”和“说话”、“啼叫”具有相关关系,“禽类”和“啼叫”具有相关关系。将“鹦鹉”作为目标实体分词,对应的目标实体概念为“禽类”,通过知识图谱可以知道“禽类”和“说话”不具有关联关系,如果直接用“禽类”替换“老鹰”和“鸽子”得到正则表达式:禽类#会#说话,明显“禽类”和“说话”之间存在逻辑不通的问题。因此,需要获取“说话”的上一层级的实体概念“啼叫”进行判断,通过知识图谱可以知道“禽类”和“啼叫”具有关联关系。假设“禽类”和“啼叫”不具有关联关系,则需要根据知识图谱进一步寻找上一层级的实体概念。
S650将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词替换为对应的实体概念,得到所述正则表达式。
具体的,将语料正则式中的目标实体分词替换为目标实体概念,其余的实体分词替换为对应的与目标实体概念匹配的实体概念,从而最终得到正则表达式。
例如,某一个样本语料为:鹦鹉会说话,得到的对应的语料正则式为:鹦鹉#会#说话。其中“鹦鹉”和“说话”定义为实体分词,“鹦鹉”的上一层级的实体概念为“禽类”,“说话”的上一层级的实体概念为“啼叫”,并且“鹦鹉”和“说话”、“啼叫”具有相关关系,“禽类”和“啼叫”具有相关关系。通过以上分析得到的正则表达式为:禽类#会#啼叫。
本实施例中,通过知识图谱直至寻找到与目标实体分词对应的上一层级的目标实体概念匹配的正则表达式中其余的实体分词的上一层级的实体概念,然后进行相应的替换得到正则表达式,避免出现逻辑不同的问题。
本发明的另一个实施例,是上述的实施例的优化实施例,如图6所示,包括:
S100根据实体内容建立知识图谱;
S200获取样本语料,根据所述样本语料生成语料正则式;
S300对所述样本语料进行分词得到语料分词;
S400将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
S500根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;
S600根据所述实体概念调整所述语料正则式得到正则表达式。
S700根据所述知识图谱获取所述正则表达式中实体概念下一层级的所有实体内容;
具体的,根据知识图谱获取正则表达式中实体概念下一层级的所有实体内容,将实体内容替换为实体概念得到对应的正则表达式,但是正则表达式中实体概念在知识图谱中所包含的下一层级的实体内容通常都不仅仅只有样本语料中提到的实体分词的内容。
例如,某一个样本语料为:老鹰和鸽子可以在天空中飞翔,得到的对应的语料正则式为:老鹰#和#鸽子#可以#在#天空#中#飞翔。用“禽类”替换“老鹰”和“鸽子”得到正则表达式1:禽类#可以#在#天空#中#飞翔。但是根据知识图谱可知禽类的下一层级所包含的实体内容除了样本语料中提到的“老鹰”和“鸽子”,还包含有“麻雀”、“鹦鹉”、“天鹅”等等。
S800将所述所有实体内容作为对应的正则表达式中实体概念的语义槽。
具体的,将实体概念下一层级的所有实体内容作为对应的正则表达式中实体概念的语义槽,例如某一个样本语料为:老鹰和鸽子可以在天空中飞翔,得到的对应的语料正则式为:老鹰#和#鸽子#可以#在#天空#中#飞翔。用“禽类”替换“老鹰”和“鸽子”得到正则表达式1:禽类#可以#在#天空#中#飞翔。“禽类”对应的语义槽包含“麻雀”、“鹦鹉”、“天鹅”、“老鹰”和“鸽子”等等知识图谱中所有属于“禽类”下一层级的实体内容。
本实施例中,将实体内容替换为实体概念得到对应的正则表达式,扩充正则表达式库之后,根据知识图谱获取该实体概念下一层级的所有的实体内容作为相应的语义槽,扩充词库,增强语义正则的泛化能力。
本发明的一个实施例,如图7所示,一种扩充样本语料的语料正则式的系统100,包括:
知识图谱建立模块110,根据实体内容建立知识图谱;
语料获取模块120,获取样本语料;
正则式生成模块130,根据所述语料获取模块120获取的所述样本语料生成语料正则式;
分词模块140,对所述语料获取模块120获取的所述样本语料进行分词得到语料分词;
比对模块150,将所述分词模块140得到的所述语料分词和所述知识图谱建立模块110得到的所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
实体概念获取模块160,根据所述知识图谱建立模块110得到的所述知识图谱获取所述比对模块150得到的所述实体分词对应的上一层级的实体概念;
处理模块170,根据所述实体概念获取模块160得到的所述实体概念调整所述正则式生成模块130得到的所述语料正则式得到正则表达式。
本实施例中的各个模块的具体操作方式在上述对应的方法实施例中已经进行了详细描述,因此不再一一进行赘述。
本发明的另一个实施例,是上述的实施例的优化实施例,如图8所示,包括:
知识图谱建立模块110,根据实体内容建立知识图谱;
所述知识图谱建立模块110具体包括:
获取单元111,获取所述实体内容以及所述实体内容之间的关联关系;
知识图谱建立单元112,根据所述获取单元111获取的所述实体内容以及所述关联关系建立所述知识图谱。
语料获取模块120,获取样本语料;
正则式生成模块130,根据所述语料获取模块120获取的所述样本语料生成语料正则式;
分词模块140,对所述语料获取模块120获取的所述样本语料进行分词得到语料分词;
比对模块150,将所述分词模块140得到的所述语料分词和所述知识图谱建立模块110得到的所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
实体概念获取模块160,根据所述知识图谱建立模块110得到的所述知识图谱获取所述比对模块150得到的所述实体分词对应的上一层级的实体概念;
处理模块170,根据所述实体概念获取模块160得到的所述实体概念调整所述正则式生成模块130得到的所述语料正则式得到正则表达式。
所述处理模块170具体包括:
选取单元171,选取目标实体分词对应的目标实体概念,所述目标实体分词为所述实体分词中的任意一个;
分析单元172,根据所述知识图谱建立模块110得到的所述知识图谱判断所述选取单元171选取的所述目标实体概念与其余的实体分词是否匹配;
处理单元173,若所述分析单元172分析匹配,则将所述正则式生成模块130得到的所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词保持不变,得到所述正则表达式。
所述处理单元173,若所述分析单元172分析不匹配,则根据所述知识图谱建立模块110得到的所述知识图谱获取其余的实体分词对应的上一层级的实体概念,所述其余的实体分词对应的实体概念与所述目标实体概念匹配;
所述处理单元173,将所述正则式生成模块130得到的所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词替换为对应的实体概念,得到所述正则表达式。
实体内容获取模块180,根据所述知识图谱建立模块110得到的所述知识图谱获取所述处理模块170得到的所述正则表达式中实体概念下一层级的所有实体内容;
语义槽生成模块190,根据所述实体内容获取模块180获取的所述所有实体内容生成对应的正则表达式中实体概念的语义槽。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种扩充样本语料的语料正则式的方法,其特征在于,包括:
根据实体内容建立知识图谱;
获取样本语料,根据所述样本语料生成语料正则式;
对所述样本语料进行分词得到语料分词;
将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;
根据所述实体概念调整所述语料正则式得到正则表达式。
2.根据权利要求1所述的扩充样本语料的语料正则式的方法,其特征在于,根据实体建立知识图谱具体包括:
获取所述实体内容以及所述实体内容之间的关联关系;
根据所述实体内容以及所述关联关系建立所述知识图谱。
3.根据权利要求1所述的扩充样本语料的语料正则式的方法,其特征在于,根据所述实体概念调整所述语料正则式得到正则表达式具体包括:
选取目标实体分词对应的目标实体概念,所述目标实体分词为所述实体分词中的任意一个;
根据所述知识图谱判断所述目标实体概念与其余的实体分词是否匹配;
若匹配,则将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词保持不变,得到所述正则表达式。
4.根据权利要求3所述的扩充样本语料的语料正则式的方法,其特征在于,还包括:
若不匹配,则根据所述知识图谱获取其余的实体分词对应的上一层级的实体概念,所述其余的实体分词对应的实体概念与所述目标实体概念匹配;
将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词替换为对应的实体概念,得到所述正则表达式。
5.根据权利要求1-4任一项所述的扩充样本语料的语料正则式的方法,其特征在于,还包括:
根据所述知识图谱获取所述正则表达式中实体概念下一层级的所有实体内容;
将所述所有实体内容作为对应的正则表达式中实体概念的语义槽。
6.一种扩充样本语料的语料正则式的系统,其特征在于,包括:
知识图谱建立模块,根据实体内容建立知识图谱;
语料获取模块,获取样本语料;
正则式生成模块,根据所述语料获取模块获取的所述样本语料生成语料正则式;
分词模块,对所述语料获取模块获取的所述样本语料进行分词得到语料分词;
比对模块,将所述分词模块得到的所述语料分词和所述知识图谱建立模块得到的所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
实体概念获取模块,根据所述知识图谱建立模块得到的所述知识图谱获取所述比对模块得到的所述实体分词对应的上一层级的实体概念;
处理模块,根据所述实体概念获取模块得到的所述实体概念调整所述正则式生成模块得到的所述语料正则式得到正则表达式。
7.根据权利要求6所述的扩充样本语料的语料正则式的系统,其特征在于,所述知识图谱建立模块具体包括:
获取单元,获取所述实体内容以及所述实体内容之间的关联关系;
知识图谱建立单元,根据所述获取单元获取的所述实体内容以及所述关联关系建立所述知识图谱。
8.根据权利要求6所述的扩充样本语料的语料正则式的系统,其特征在于,所述处理模块具体包括:
选取单元,选取目标实体分词对应的目标实体概念,所述目标实体分词为所述实体分词中的任意一个;
分析单元,根据所述知识图谱建立模块得到的所述知识图谱判断所述选取单元选取的所述目标实体概念与其余的实体分词是否匹配;
处理单元,若所述分析单元分析匹配,则将所述正则式生成模块得到的所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词保持不变,得到所述正则表达式。
9.根据权利要求8所述的扩充样本语料的语料正则式的系统,其特征在于,所述处理模块还包括:
所述处理单元,若所述分析单元分析不匹配,则根据所述知识图谱建立模块得到的所述知识图谱获取其余的实体分词对应的上一层级的实体概念,所述其余的实体分词对应的实体概念与所述目标实体概念匹配;
所述处理单元,将所述正则式生成模块得到的所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词替换为对应的实体概念,得到所述正则表达式。
10.根据权利要求6-9任一项所述的扩充样本语料的语料正则式的系统,其特征在于,还包括:
实体内容获取模块,根据所述知识图谱建立模块得到的所述知识图谱获取所述处理模块得到的所述正则表达式中实体概念下一层级的所有实体内容;
语义槽生成模块,根据所述实体内容获取模块获取的所述所有实体内容生成对应的正则表达式中实体概念的语义槽。
CN201910325710.4A 2019-04-22 2019-04-22 一种扩充样本语料的语料正则式的方法和系统 Pending CN111859975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910325710.4A CN111859975A (zh) 2019-04-22 2019-04-22 一种扩充样本语料的语料正则式的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910325710.4A CN111859975A (zh) 2019-04-22 2019-04-22 一种扩充样本语料的语料正则式的方法和系统

Publications (1)

Publication Number Publication Date
CN111859975A true CN111859975A (zh) 2020-10-30

Family

ID=72952014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910325710.4A Pending CN111859975A (zh) 2019-04-22 2019-04-22 一种扩充样本语料的语料正则式的方法和系统

Country Status (1)

Country Link
CN (1) CN111859975A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491076A (zh) * 2022-02-14 2022-05-13 平安科技(深圳)有限公司 基于领域知识图谱的数据增强方法、装置、设备及介质
CN115438198A (zh) * 2022-11-07 2022-12-06 四川大学 一种基于知识库的可解释性医疗数据结构化方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
US20150186783A1 (en) * 2013-12-31 2015-07-02 International Business Machines Corporation Using ontologies to comprehend regular expressions
WO2018019289A1 (zh) * 2016-07-29 2018-02-01 万云数码媒体有限公司 基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN109388700A (zh) * 2018-10-26 2019-02-26 广东小天才科技有限公司 一种意图识别方法及系统
CN109545202A (zh) * 2018-11-08 2019-03-29 广东小天才科技有限公司 一种调整语义逻辑混乱的语料的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
US20150186783A1 (en) * 2013-12-31 2015-07-02 International Business Machines Corporation Using ontologies to comprehend regular expressions
WO2018019289A1 (zh) * 2016-07-29 2018-02-01 万云数码媒体有限公司 基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN109388700A (zh) * 2018-10-26 2019-02-26 广东小天才科技有限公司 一种意图识别方法及系统
CN109545202A (zh) * 2018-11-08 2019-03-29 广东小天才科技有限公司 一种调整语义逻辑混乱的语料的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐雄峰;张非凡;: "基于RDF的学科数据库扩充方法研究", 电脑知识与技术, no. 10, 5 April 2018 (2018-04-05), pages 248 - 250 *
边慧珍;哈斯;: "知识图谱概念获取研究进展", 广西科学院学报, no. 01, 20 March 2018 (2018-03-20), pages 50 - 54 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491076A (zh) * 2022-02-14 2022-05-13 平安科技(深圳)有限公司 基于领域知识图谱的数据增强方法、装置、设备及介质
CN114491076B (zh) * 2022-02-14 2024-04-09 平安科技(深圳)有限公司 基于领域知识图谱的数据增强方法、装置、设备及介质
CN115438198A (zh) * 2022-11-07 2022-12-06 四川大学 一种基于知识库的可解释性医疗数据结构化方法和系统

Similar Documents

Publication Publication Date Title
US11151175B2 (en) On-demand relation extraction from text
US10628507B2 (en) Analyzing concepts over time
US10740678B2 (en) Concept hierarchies
CN109196496B (zh) 未知词预测器和内容整合的翻译器
US9547471B2 (en) Generating computer responses to social conversational inputs
Medhat et al. Sentiment analysis algorithms and applications: A survey
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
CN109918676B (zh) 一种检测意图正则表达式的方法及装置、终端设备
US10109264B2 (en) Composing music using foresight and planning
US11017301B2 (en) Obtaining and using a distributed representation of concepts as vectors
US10067913B2 (en) Cross-lingual automatic query annotation
US10750005B2 (en) Selective email narration system
US10692498B2 (en) Question urgency in QA system with visual representation in three dimensional space
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
WO2020003109A1 (en) Facet-based query refinement based on multiple query interpretations
Pais et al. NLP-based platform as a service: a brief review
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111859975A (zh) 一种扩充样本语料的语料正则式的方法和系统
US10558760B2 (en) Unsupervised template extraction
CN108628911B (zh) 针对用户输入的表情预测
CN110198291B (zh) 一种网页后门检测方法、装置、终端及存储介质
US11132390B2 (en) Efficient resolution of type-coercion queries in a question answer system using disjunctive sub-lexical answer types
KR102649622B1 (ko) 브랜드 평판 분석 서비스를 제공하기 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
US11645451B2 (en) Managing relationships among original, modified, and related messages using significance-level analysis and change-relevancy annotations
US11403556B2 (en) Automated determination of expressions for an interactive social agent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination