CN113076396B - 一种面向人机协同的实体关系处理方法及系统 - Google Patents
一种面向人机协同的实体关系处理方法及系统 Download PDFInfo
- Publication number
- CN113076396B CN113076396B CN202110332934.5A CN202110332934A CN113076396B CN 113076396 B CN113076396 B CN 113076396B CN 202110332934 A CN202110332934 A CN 202110332934A CN 113076396 B CN113076396 B CN 113076396B
- Authority
- CN
- China
- Prior art keywords
- entity
- corpus
- extraction
- user
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Stored Programmes (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种面向人机协同的实体关系处理方法及系统,该方法为:响应于用户的创建指令,结合预设的实体关系集合、预设的实体名称数据集和任务配置表单,创建实体关系抽取任务;响应于用户的定义指令,结合规则配置表单、预设的语料库和预设的包含多条抽取规则的规则集合,定义目标抽取规则;响应于用户的选择指令,从目标抽取规则中选择与实体关系抽取任务对应的待执行抽取规则;执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,并将目标实体关系实例集合反馈给用户。在处理实体关系时不需要人工分析大量的数据,提高处理准确率、提高处理效率和降低处理成本。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种面向人机协同的实体关系处理方法及系统。
背景技术
受控词表、本体、知识图谱和知识库等领域知识体系构成各类智能应用的知识基础,实体关系是各类领域知识体系的重要组成部分,因此对实体关系进行抽取、规范和更新等处理也成为构成各类领域知识体系的核心任务。
目前通常以人工的方式来处理实体关系,但是用于处理实体关系的数据量较大,工作人员需要花费大量的时间进行数据分析,处理效率较低和处理成本较高,并且人工处理实体关系容易出现纰漏,导致处理准确率较低。
发明内容
有鉴于此,本发明实施例提供一种面向人机协同的实体关系处理方法及系统,以解决现有处理实体关系的方式存在的处理效率低、处理成本高和处理准确率低等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种面向人机协同的实体关系处理方法,所述方法包括:
响应于用户的创建指令,结合预设的实体关系集合、预设的实体名称数据集和任务配置表单,创建实体关系抽取任务;
响应于用户的定义指令,结合规则配置表单、预设的语料库和预设的包含多条抽取规则的规则集合,定义目标抽取规则;
响应于用户的选择指令,从所述目标抽取规则中选择与所述实体关系抽取任务对应的待执行抽取规则;
执行所述实体关系抽取任务,利用所述实体关系抽取任务对应的所述待执行抽取规则,从所述语料库中抽取得到目标实体关系实例集合,并将所述目标实体关系实例集合反馈给所述用户。
优选的,所述利用所述实体关系抽取任务对应的所述待执行抽取规则,从所述语料库中抽取得到目标实体关系实例集合,并将所述目标实体关系实例集合反馈给所述用户,包括:
解析所述实体关系抽取任务对应的所述待执行抽取规则,得到至少包含主体元数据映射集合、客体元数据映射集合和语料资源集合的解析结果;
根据所述主体元数据映射集合和所述客体元数据映射集合,在所述语料资源集合中进行实体遍历处理,得到原始实体关系实例集合;
对所述原始实体关系实例集合进行语义去重处理,得到目标实体关系实例集合;
将所述目标实体关系实例集合反馈给所述用户。
优选的,所述得到目标实体关系实例集合之后,还包括:
利用预设的评价方式,对所述目标实体关系实例集合进行评价,将评价结果反馈给所述用户。
优选的,设置所述语料库的过程,包括:
接收所述用户上传的原始数据;
解析所述原始数据所包含的元数据标签,并根据解析结果构建元数据映射与上传表单;
响应于所述用户配置所述元数据映射与上传表单的指令,得到配置结果文件;
从所述原始数据中,将所述配置结果文件对应的语料原始文件读取至语料库中,并对所述语料原始文件进行登记。
优选的,所述利用预设的评价方式,对所述目标实体关系实例集合进行评价,将评价结果反馈给所述用户,包括:
利用预设的先验关系实例库,对所述目标实体关系实例集合中的目标实体关系实例进行分类,得到第一实例集合和第二实例集合,所述第一实例集合包含分类标签为正例或负例的目标实体关系实例,所述第二实例集合包含分类标签为不确定的目标实体关系实例;
根据所述第二实例集合包含的目标实体关系实例的客体前置修饰语,对所述第二实例集合进行分类,得到第三实例集合和第四实例集合,所述第三实例集合包含分类标签为正例或负例的目标实体关系实例,所述第四实例集合包含分类标签为不确定的目标实体关系实例;
针对所述第四实例集合中的目标实体关系实例,计算所述目标实体关系实例在所述语料资源集合中出现的频次,以及计算所述语料资源集合中包含所述目标实体关系实例的语料个数;
将所述第一实例集合和所述第三实例集合中目标实体关系实例的分类标签及其获取依据反馈给所述用户,以及将所述第四实例集合中目标实体关系实例对应的所述频次和所述语料个数及其获取依据反馈给所述用户。
优选的,所述任务配置表单至少包括:任务名称、实体关系名称、创建者、审核者、创建时间、任务状态和审核状态。
优选的,每条所述抽取规则至少包括:实体名称集配置信息,语料配置信息,实体关系中的主体语义类型与预设的语料库的元数据之间的映射配置信息,及所述实体关系中的客体语义类型与所述语料库的元数据之间的映射配置信息。
优选的,所述方法还包括:
在从所述语料库中抽取得到目标实体关系实例集合的过程中,以实体关系为单位,计算各个类别的实体关系在所述语料库的各个语料中的执行进度,并将所述执行进度反馈给所述用户。
优选的,将所述目标实体关系实例集合反馈给所述用户之后,还包括:
响应于所述用户的更新指令,将所述目标实体关系实例集合中符合预设收割条件的目标实体关系实例存储至预设的先验关系实例库中。
本发明实施例第二方面公开一种面向人机协同的实体关系处理系统,所述系统包括:语料库管理模块、实体库管理模块、实体关系管理模块、配置模块和抽取模块;
所述语料库管理模块,用于设置语料库;
所述实体库管理模块,用于设置实体名称数据集;
所述实体关系管理模块,用于设置实体关系集合;
所述配置模块,用于:响应于用户的创建指令,结合所述实体关系集合、所述实体名称数据集和任务配置表单,创建实体关系抽取任务;响应于用户的定义指令,结合规则配置表单、所述语料库和预设的包含多条抽取规则的规则集合,定义目标抽取规则;响应于用户的选择指令,从所述目标抽取规则中选择与所述实体关系抽取任务对应的待执行抽取规则;
所述抽取模块,用于执行所述实体关系抽取任务,利用所述实体关系抽取任务对应的所述待执行抽取规则,从所述语料库中抽取得到目标实体关系实例集合,并将所述目标实体关系实例集合反馈给所述用户。
基于上述本发明实施例提供的一种面向人机协同的实体关系处理方法及系统,该方法为:响应于用户的创建指令,结合预设的实体关系集合、预设的实体名称数据集和任务配置表单,创建实体关系抽取任务;响应于用户的定义指令,结合规则配置表单、预设的语料库和预设的包含多条抽取规则的规则集合,定义目标抽取规则;响应于用户的选择指令,从目标抽取规则中选择与实体关系抽取任务对应的待执行抽取规则;执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,并将目标实体关系实例集合反馈给用户。本方案中,响应于用户的指令,配置得到相应的实体关系抽取任务和待执行抽取规则。执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,在处理实体关系时不需要人工分析大量的数据,提高处理准确率、提高处理效率和降低处理成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种面向人机协同的实体关系处理系统的架构示意图;
图2为本发明实施例提供的一种面向人机协同的实体关系处理方法的流程图;
图3为本发明实施例提供的抽取目标实体关系实例集合的流程图;
图4为本发明实施例提供的将评价结果反馈给用户的流程图;
图5为本发明实施例提供的设置语料库的流程图;
图6为本发明实施例提供的面向人机协同的实体关系处理方法的另一流程图;
图7为本发明实施例提供的一种面向人机协同的实体关系处理系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前在处理实体关系时,通常采用人工分析数据的方式来处理实体关系,但是用于处理实体关系的数据量较大,工作人员需要花费大量的时间进行数据分析,处理效率较低和处理成本较高,并且人工处理实体关系容易出现纰漏,导致处理准确率较低。
因此,本发明实施例提供一种面向人机协同的实体关系处理方法及系统,根据预先配置的实体关系集合、实体名称数据集、语料库和包含多条抽取规则的规则集合,响应于用户的指令,配置得到相应的实体关系抽取任务和待执行抽取规则。执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,在处理实体关系时不需要人工分析大量的数据,以提高处理准确率、提高处理效率和降低处理成本。
可以理解的是,本发明实施例中所涉及的实体关系具体是指实体间的语义关系,该实体间的语义关系通常具备方向性,比如疾病与药物之间具有“治疗”和“被治疗”的关系,抽取实体关系实例具体是指从目标数据(比如文本)中提取实体间的语义关系。
需要说明的是,本发明实施例中所提供的面向人机协同的实体关系处理方法,可应用于不同领域的知识组织系统构建过程中实体关系实例的抽取,比如:应用于医学领域知识组织系统构建过程中医学实体关系实例的抽取。
需要说明的是,本发明实施例提供的面向人机协同的实体关系处理方法应用于面向人机协同的实体关系处理系统,为更方便理解本发明以下实施例涉及的面向人机协同的实体关系处理方法的相关内容,通过图1示出的一种面向人机协同的实体关系处理系统的架构示意图,对该实体关系处理系统的架构进行解释说明。
参见图1,示出了本发明实施例提供的一种面向人机协同的实体关系处理系统的架构示意图,该实体关系处理系统至少包括:界面交互管理模块101(命名可自定义)、语料库管理模块102、实体库管理模块103、实体关系管理模块104、配置模块105、抽取模块106、审核模块107和先验关系实例库管理模块108;
实体关系管理模块104分别与界面交互管理模块101、语料库管理模块102和实体库管理模块103连接,实体关系管理模块104与抽取模块106连接,抽取模块106分别与审核模块107和先验关系实例库管理模块108连接,审核模块107与先验关系实例库管理模块108连接。
界面交互管理模块101与语料库管理模块102、实体库管理模块103、实体关系管理模块104、配置模块105、抽取模块106、审核模块107和先验关系实例库管理模块108进行通信。
可以理解的是,界面交互管理模块101可用于展示信息,可响应用户的操作指令,并将用户的操作指令发送给相应的其它模块,即用户可通过界面交互管理模块101与其它模块进行人机交互。
需要说明的是,关于上述面向人机协同的实体关系处理系统的各个模块的命名,仅用于举例说明,技术人员可根据实际情况确定各个模块的实际命名,在本发明实施例中不做具体限定。
进一步需要说明的是,上述关于面向人机协同的实体关系处理系统的模块划分仅用于示例,即可设置各个模块用于实现各种对应的功能,也可通过一个模块实现多个模块的功能,比如:可通过一个模块实现语料库管理模块102、实体库管理模块103和实体关系管理模块104的功能,在此对于模块的划分不做具体限定。
关于上述面向人机协同的实体关系处理系统的各个模块的具体功能,参见下述相应的实施例内容,在本实施例中不做赘述。
参见图2,示出了本发明实施例提供的一种面向人机协同的实体关系处理方法的流程图,该实体关系处理方法包括:
步骤S201:响应于用户的创建指令,结合预设的实体关系集合、预设的实体名称数据集和任务配置表单,创建实体关系抽取任务。
需要说明的是,当用户通过任务管理界面进行任务创建时,比如:当用户通过任务管理界面点击用于添加任务的创建按钮时,加载预设的实体关系集合、预设的实体名称数据集、预设的语料库和任务配置表单,并将所加载的数据向用户展示。
可以理解的是,任务配置表单用于创建实体关系抽取任务,该任务配置表单的表单内容项至少包括:任务名称、实体关系名称、创建者、审核者、创建时间、任务状态、审核状态和任务描述等信息。
在向用户展示语料库时,可通过列表的形式展示语料库中的各个语料的名称,同理,也可采用其它形式进行展示,在此不做限定。
在具体实现步骤S201的过程中,用户可根据实际的任务需求,结合实体关系集合和实体名称数据集,配置上述提及的任务配置表单,具体的,用户在配置任务配置表单时,响应于该用户的创建指令,结合实体关系集合、实体名称数据集和任务配置表单,创建相应的实体关系抽取任务。
关于上述提及的语料库、实体名称数据集、实体关系集合和任务配置表单的具体内容,通过以下内容详细说明。
语料库:
预先将语料上传至语料库中并登记所上传的语料,可以理解的是,在上传语料后,通过语料库登记表单对所上传的语料进行登记。该语料库登记表单的内容至少包括:语料名称、语料来源、语料规模、语料内容(即语料包含的元数据项)和上传状态。
语料库登记表单中的上传状态通过调用语料的上传进度参数进行自动填充,可以理解的是,该上传状态为一个数据集合,即该上传状态包含了多个语料的上传状态,上传状态的表达形式为CS={cs1,cs2,…,csn},其中,每个语料的上传状态csi是一个状态变量,每一个状态变量都存在语料上传执行进度标签status(csi)∈{0,1,2},其中,语料上传执行进度标签为0表示待执行,语料上传执行进度标签为1表示上传中,语料上传执行进度标签为2表示上传完毕。
需要说明的是,在语料库中,通过语料名称输出相关参数,用于提供语料源配置信息,其输出相关参数的范围限于status(csi)=2的语料名称。
上述将语料上传至语料库并进行登记后,还可查询和浏览语料库中的语料数据。
实体名称数据集:
预先上传并登记多个实体名称(比如医学实体名称,仅举例),所上传并登记的多个实体名称即构成上述提及的实体名称数据集,将该实体名称数据集存储至相应的实体库进行管理,同理,也可查看实体库中所存储的实体名称。
可以理解的是,实体库采用词表、本体或知识图谱方式对实体名称数据集进行存储与管理,该实体库的模型可用一个六元组进行表示,该六元组的具体形式为:F=(K,E,S,T,A,R)。
其中,K表示词表、本体或知识图谱等各类知识组织系统(比如各类医学知识组织系统)的有限集合,E是某类实体(比如医学实体)的有限集合,S是某类实体语义类型(比如医学实体语义类型)的有限集合,T是某类实体名称(比如医学实体名称)的有限集合,A是所有实体和实体名称的属性集合,R是所有实体关系的集合。
可以理解的是,每个实体名称以概念为单位进行描述,即某个实体e={cid,pt,ET,Se,k},cid表示实体e的唯一标识,pt∈T表示实体e的规范名称,表示实体e的其它名称,Se表示实体e的所属某类实体语义类型(比如医学实体语义类型),k∈K表示实体e所属的知识组织系统(比如医学知识组织系统)。
实体关系集合:
实体关系集合即为实体间语义关系集合(比如医学实体间语义关系集合),实体关系集合P的表达形式为:P={PID,SS,PN,OS},其中,PID表示某类所有实体关系类型ID(比如所有医学关系类型ID),表示实体关系主体语义类型,PN表示实体关系名称,表示实体关系客体语义类型。
每一个实体关系p的定义模型即为(pid,ss,pn,os),每一个实体关系p的定义模型可通过从上述本发明实施例图1中的界面交互管理模块输入函数获得,pn不可重复,pid由标识符生成器根据规则自动生成。
可以理解的是,可以定义、修改或查询实体关系的定义模型的具体内容,在定义、修改或查询实体关系的定义模型的具体内容时,以表单的形式与用户进行交互,该表单内容项至少包含该定义模型的各个组成部分,在查询该定义模型的具体内容时,提供PID、SS、PN和OS四个检索途径。
需要说明的是,当接收到关系类型输入函数时,输出实体关系的相关数据pni=(pidi,ssi,pni,osi)。
任务配置表单:
需要说明的是,可通过配置或修改任务配置表单来定制实体关系抽取任务,由上述内容可知任务配置表单的表单内容项至少包括:任务名称、实体关系名称、创建者、审核者、创建时间、任务状态、审核状态和任务描述等信息。
其中,实体关系名称可通过列表的形式展示给用户,与用户进行交互,也就是说,在向用户展示实体关系名称时,以下拉列表的形式进行展示,下拉列表中即为需要展示各个实体关系名称,同理,也可以其它方式展示实体关系名称,在此不做具体限定。
需要说明的是,任务配置表单中的实体关系名称,可通过上述提及的“关系类型输入函数”获取。
任务状态是指:执行实体关系抽取任务抽取实体关系的抽取状态,可以理解的是,任务配置表单中的任务状态通常包含多个实体关系抽取任务的任务状态,也就是说,任务配置表单中的任务状态实际为任务状态集合,该任务状态集合包含多个实体关系抽取任务的任务状态。
任务状态集合的表达形式为:TER=(ter1,ter2,...,tern),每个实体关系抽取任务的任务状态teri(i大于等于1小于等于n)为一个状态变量,每个状态变量都有当前实体关系抽取任务的抽取进度标签status(teri)∈{0,1,2},其中,抽取进度标签等于0表示待执行,抽取进度标签等于1表示部分实体关系已抽取完毕,抽取进度标签为2表示全部实体关系抽取完毕。
步骤S202:响应于用户的定义指令,结合规则配置表单、预设的语料库和预设的包含多条抽取规则的规则集合,定义目标抽取规则。
需要说明的是,当创建完实体关系抽取任务之后,加载规则配置表单和预设的包含多条抽取规则的规则集合,并向用户展示该规则配置表单和该规则集合,使用户可根据规则配置表单、语料库和规则集合定义目标抽取规则。
在具体实现步骤S202的过程中,用户可根据规则配置表单,结合语料库和规则集合,定义相应的目标抽取规则,具体的,用户在定义目标抽取规则时,响应于用户的定义指令,结合规则配置表单、语料库和规则集合,定义目标抽取规则。
需要说明的是,每条抽取规则至少包括:实体名称集配置信息,语料配置信息,实体关系中的主体语义类型与预设的语料库的元数据之间的映射配置信息,及实体关系中的客体语义类型与语料库的元数据之间的映射配置信息,关于抽取规则的具体内容详见以下说明。
抽取规则:
可以理解的是,对于某一实体关系pni=(pidi,ssi,pni,osi),可为该实体关系定义多条抽取规则(相当于规则集合),该实体关系所对应的规则集合R的表达形式为R={RID,C,SE,OE,MAP,RST}。
其中,RID表示抽取规则编码集合,RID为顺序自然数,C表示所选择的语料名称集合,SE表示主体名称集合,OE表示客体名称集合,MAP表示主体语义类型(ssi)和客体语义类型(osi)分别与各个语料中元数据的映射结果的组合,不同抽取规则间的MAP组合值不能重复,RST表示抽取规则状态集合,每一条抽取规则的状态rsti为一个状态变量,每一个状态变量的效用标签为:status(rsti)∈{0,1},效用标签等于0表示停用抽取规则,效用标签等于1表示启用抽取规则。
可以理解的是,每一条抽取规则所包含的实体名称集配置信息中,具体包括主体实体名称集和客体实体名称集,主要通过实体名称调用函数法从上述步骤S201中涉及的实体库中调用,也可将调用结果反馈给用户以供选择。
每一条抽取规则所包含的语料配置信息中,具体包括:语料名称、语料执行等级、语料抽取任务执行状态和删除按钮等。其中,语料名称可通过语料名称调用函数法从上述步骤S201中提及的语料库中调用,并将调用结果反馈给用户以供选择,语料执行等级为自然序数,可设置为数字越小执行等级越高(此种方式仅用于举例)。
语料抽取任务执行状态通常包含多个语料抽取任务执行状态,即该语料抽取任务执行状态为一个状态集合,具体表达形式为:CTS={cts1,cts2,…,ctsn},每个语料抽取任务执行状态ctsi为一个状态变量,每个状态变量存在当前语料所涉及的抽取规则执行进度标签status(ctsi)∈{0,1,2},0表示抽取规则待执行,1表示部分抽取规则执行完毕,2表示抽取规则全部执行完毕。
通过映射函数map(ssi,mci),获取实体关系中的主体语义类型与语料库的元数据之间的映射配置信息,通过映射函数map(osi,mcj),获取实体关系中的客体语义类型与语料库的元数据之间的映射配置信息。其中,map(ssi,mci)表示将实体关系名称pni的主体语义类型ssi映射至当前语料ci中的某个元数据项mci,map(osi,mcj)表示将实体关系名称pni的客体语义类型osi映射至当前语料ci中的某个元数据项mcj,mci≠mcj,可通过语料名称调用函数法从语料库中进行调用,并将调用结果反馈给用户以供选择。
需要说明的是,主体语义类型和客体语义类型用以揭示主体和客体的领域属性,比如疾病和症状等,主体语义类型和客体语义类型通常会与领域相关的语料库的元数据项所表征的语义对应,比如:疾病语料库会设有“疾病名称”和“临床表现”等形式的字段项,该字段项即为元数据项。
可以理解的是,对于上述提及的抽取规则,可对抽取规则进行修改、删除、停用、启用、入库或检索等操作,其中,“停用”表示将当前启用中的抽取规则设置为无效状态,所停用的抽取规则的status(rsti)值从1变更为0,“启用”表示将当前停用中的抽取规则设置为可用状态,所启用的抽取规则的status(rsti)值从0变更为1,“入库”表示将当前抽取规则导入规则总库中,以供在其它处理过程中定义其它目标抽取规则时复用,“检索”支持RID、C、SE和OE等检索途径查看抽取规则。
在一个具体实施例中,向用户展示的规则配置表单的表单内容写至少包含:实体集配置项、语料源配置项、语料执行等级、语料抽取任务执行状态、规则设置功能按钮和语料删除按钮等。
实体集配置项和语料源配置项可通过列表形式向用户展示,该列表中的取值集合包括了:通过相应函数从语料库中查询得到的语料名称,以及通过相应函数从实体库中查询得到的实体名称。
语料抽取任务执行状态可参见上述内容,在此不再赘述。
规则设置功能按钮提供规则配置表单(比如提供医学实体关系抽取规则配置表单),该规则配置表单的表单内容项还包括了:实体关系类型配置项、主体实体集配置项、主体元数据配置项、客体实体集配置项、客体元数据配置项和抽取规则状态配置项。
实体关系类型配置项用于选择实体关系,实体关系类型配置项的取值为实体关系类型名称集合,具体为:PN={pn1,pn2,…,pnm},通过关系调用函数获取得到,并以列表的形式将实体关系类型名称集合展示给用户。
主体实体集配置项和客体实体集配置项分别用于选择实体关系对应的主体实体集合SE和客体实体集合OE,可通过实体集合名称调用函数和实体名称调用参数从实体库中调用得到,并将调用结果反馈给用户以供选择。
主体元数据配置项表示将实体关系类型pni的主体语义类型ssi映射至语料ci中所包含的某个元数据项mci,可通过语料元数据调用函数从语料库中调用,以列表的形式将调用结果反馈给用户,客体元数据配置项的具体内容可参见前述内容,在此不再赘述。
需要说明的是,在提交抽取规则时,需对主体语义类型对应的映射配置信息(即前述提及的元数据映射)和客体语义类型对应的映射配置信息进行冲突检查,也就说,在同一抽取规则中,主体语义类型和客体语义类型不能映射到同一语料的同一个元数据项中(也就是前述内容提及的mci≠mcj)。
步骤S203:响应于用户的选择指令,从目标抽取规则中选择与实体关系抽取任务对应的待执行抽取规则。
可以理解的是,定义目标抽取规则后,也就是用户配置好目标抽取规则之后,将定义好的目标抽取规则添加至规则库和本次抽取任务规则集合中,并以表单的形式向用户展示目标抽取规则,展示目标抽取规则的表单可称为抽取规则执行配置表单。
可以理解的是,在将抽取规则执行配置表单展示给用户时,按照“实体关系类型-语料-抽取规则”3层逐级展示,以供用户对目标抽取规则进行遴选,其中,每一实体关系类型对应多个语料,每个语料包含多条抽取规则。
在具体实现步骤S203的过程中,用户可从定义好的目标抽取规则中选择本次需要执行的目标抽取规则,用户所选择的目标抽取规则即为待执行抽取规则,具体的,响应于用户的选择指令,从目标抽取规则中选择与实体关系抽取任务对应的待执行抽取规则。
步骤S204:执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,并将目标实体关系实例集合反馈给用户。
在具体实现步骤S204的过程中,选择待执行抽取规则之后,触发执行实体关系抽取任务,利用该实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,并将目标实体关系实例集合反馈给用户。
可以理解的是,在从语料库中抽取得到目标实体关系实例集合的过程中,可向用户展示各类别的实体关系在语料库的各个语料中的执行进度,具体确定执行进度的过程为:在从语料库中抽取得到目标实体关系实例集合的过程中,以实体关系为单位,计算各个类别的实体关系在语料库的各个语料中的执行进度,并将执行进度反馈给用户,执行进度=当前语料中已执行记录数/当前语料总记录数,当执行进度为100%时,status(csi)=2。
优选的,在执行完实体关系抽取任务之后(status(ctsi)=2),即获取得到目标实体关系实例集合(也就是抽取结果)之后,可将所获取的目标实体关系实例集合反馈给用于,比如在审核界面中展示目标实体关系实例集合,供用户对该目标实体关系实例集合进行审核。
可以理解的是,在将目标实体关系实例集合展示给用户进行审核时,向用户提供相应的操作功能,该操作功能包括但不仅限于:实体关系实例查询、正确性判断、导入先验关系实例库、删除和过滤等操作功能,使用户通过以上功能对目标实体关系实例集合进行审核。
其中,实体关系实例查询包括:实体关系名称、实体关系实例主体、实体关系实例客体和实体关系实例来源等。过滤操作包括:实体关系实例审核状态和审核结果等。
需要说明的是,每一个实体关系实例的审核状态rasi是一个状态变量,status(rasi)∈{0,1,2,3,4},其中,该状态变量为0表示待审核,该状态变量为1表示已通过,该状态变量为2表示已排除,该状态变量为3表示存疑,该状态变量为4表示已导入关系实例总库。
同理,每一个实体关系实例的审核结果rafi是一个状态变量,其取值的范围为:flag(rafi)∈{1,2,3},其中,该状态变量为1表示正例,该状态变量为2表示负例,该状态变量为3表示不确定。
结合上述关于每一个实体关系实例的审核状态和审核结果的相关内容,当flag(rafi)=3时,status(rasi)=3;当flag(rafi)=1时,status(rasi)=1;当flag(rafi)=2时,status(rasi)=2。
需要说明的是,当flag(rafi)=1或2时,若当前实体关系实例与预先构建的先验关系实例库中的先验关系实例没有完全等同记录,该用户可以触发关系实例汇交函数,将当前实体关系实例及其审核结果提取至先验关系实例库中成为新的先验关系实例。
优选的,将目标实体关系实例集合反馈给用户之后,响应于用户的更新指令,将目标实体关系实例集合中符合预设收割条件的目标实体关系实例存储至先验关系实例库中。
需要说明的是,先验关系实例库用于存储和管理已经通过审核的实体关系实例,也用于提供先验知识。先验关系实例库可以利用收割函数从各类实体关系抽取任务中收割符合收割条件的实体关系实例,形成新的先验关系实例。
收割条件即为上述提及的:flag(rafi)=1或2,且当前实体关系实例与先验关系实例库中的先验关系实例没有完全等同记录。
收割函数的参数为{sept,seet,pn,oept,oeet,c,flag},其中,sept和oept分别表示主体和客体的规范名称,seet和oeet分别表示主体和客体的其它名称,seet和oeet可以为多值,pn为实体关系名称,c为语料库名称(也就是实体关系实例的来源),c可以为多值,flag即为实体关系实例的审核结果,flag用于表征实体关系实例的正负属性类别(即正例、负例或不确定)。
在本发明实施例中,响应于用户的指令,配置得到相应的实体关系抽取任务和待执行抽取规则。执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,在处理实体关系时不需要人工分析大量的数据,提高处理准确率、提高处理效率和降低处理成本。
上述本发明实施例图2步骤S204中涉及的从语料库中抽取得到目标实体关系实例集合的过程,参见图3,示出了本发明实施例提供的抽取目标实体关系实例集合的流程图,包括以下步骤:
步骤S301:解析实体关系抽取任务对应的待执行抽取规则,得到至少包含主体元数据映射集合、客体元数据映射集合和语料资源集合的解析结果。
在具体实现步骤S301的过程中,通过规则调用函数,获取实体关系抽取任务对应的待执行抽取规则,解析该待执行抽取规则得到相应的解析结果,该解析结果至少包含:实体关系类型、主体实体集合、客体实体集合、主体元数据映射集合、客体元数据映射集合和语料资源集合。
步骤S302:根据主体元数据映射集合和客体元数据映射集合,在语料资源集合中进行实体遍历处理,得到原始实体关系实例集合。
在具体实现步骤S302的过程中,利用主体元数据映射集合和客体元数据映射集合,在语料资源集合中进行实体遍历得到原始实体关系实例集合,具体的执行过程为:
利用语料执行等级调用函数获取待执行抽取规则所涉及的语料的语料执行等级,按照所获取的语料执行等级,依次根据待执行抽取规则的主体元数据映射集合和客体元数据映射集合从语料中遍历主体实体名称和客体实体名称,从而得到原始实体关系实例集合。
需要说明的是,主体和客体的所有名称形式(包含规范名称pt和其它名称形式ET)都参与上述遍历过程,原始实体关系实例的描述和存储形式为:rel_ins_ori=(tid,sept,sematch,pn,oept,oematch,c,crid)。
其中,tid表示实体关系遍历结果序号,遍历结果即为原始实体关系实例,sept表示当前实体关系实例中主体的规范名称,sematch表示当前实体关系实例中主体在语料中出现的名称(可能是规范名称pt也可能是其它名称形式ET),oept表示当前实体关系实例中客体的规范名称,oematch表示当前实体关系实例中客体在语料中出现的名称(可能是规范名称pt也可能是其它名称形式ET),c表示实体关系实例所在的语料名称,crid表示实体关系实例在语料中的记录位置(取值当前记录在语料中的id)。
步骤S303:对原始实体关系实例集合进行语义去重处理,得到目标实体关系实例集合。
在具体实现步骤S303的过程中,对原始实体关系实例集合进行语义去重处理,从进行去重处理后的原始实体关系实例集合中提取实体关系实例三元组,该实体关系实例三元组即为目标实体关系实例集合,该目标实体关系实例集合的表达形式为:rel_ins=(se,pn,oe),其中,se取值sept,oe取值oept。
需要说明的是,在对原始实体关系实例集合进行语义去重处理的过程中,语义去重处理遵循以下原则:对于某两个原始实体关系实例rel_ins_orii和rel_ins_orij,如果该两个原始实体关系实例的sept和oept均相同,则可确定rel_ins_orii=rel_ins_orij。
优选的,在获取得到目标实体关系实例集合(也就是实体关系实例三元组)之后,利用预设的评价方式,对目标实体关系实例集合进行评价,评估目标实体关系实例集合的可靠性,将评价结果反馈给用户。也就是说,利用预设的评价方式,对目标实体关系实例集合中的目标实体关系实例进行评估,得到每一目标实体关系实例的评价结果,目标实体关系实例的评价结果中至少包括:该目标实体关系实例的可靠性和所应用的评价方式(评价方式可作为可靠性的获取依据)。
需要说明的是,预设的评价方式包括但不仅限于以下三种评价方式,在利用预设的三种评价方式对目标实体关系实例集合中的目标实体关系实例进行评估时,首先,先利用第一种评价方式分别识别出分类标签为正例、负例和不确定的目标实体关系实例,其次,对于采用第一种评价方式识别得到的分类标签为不确定的目标实体关系实例,利用第二种评价方式对分类标签为不确定的目标实体关系实例再次进行识别,分别识别出分类标签为正例、负例和不确定的目标实体关系实例,最后,对于采用第二种评价方式识别得到的分类标签为不确定的目标实体关系实例,利用第三种评价方式确定分类标签为不确定的目标实体关系实例在语料资源集合中出现的频次,以及计算语料资源集合中包含分类标签为不确定的目标实体关系实例的语料个数。
关于第一种评价方式至第三种评价方式的具体内容见以下详细说明。
第一种评价方式(利用先验关系实例库进行评价):利用先验关系实例库,对目标实体关系实例集合中的目标实体关系实例进行分类,得到第一实例集合和第二实例集合,第一实例集合包含分类标签为正例或负例的目标实体关系实例,第二实例集合包含分类标签为不确定的目标实体关系实例。
在利用先验关系实例库对目标实体关系实例进行分类的过程中,将目标实体关系实例与先验关系实例库中的先验关系实例rel_ins_au={se,pn,oe}进行语义匹配,若找到语义相同的先验关系实例,则确定该目标实体关系实例的分类标签为与之等同的先验关系实例的分类标签(正例或负例),即目标实体关系实例的分类标签=相同的先验关系实例的分类标签。
对于同一语义关系类型pni,如果两个实体关系实例的主体和客体的语义相似度均大于某一阈值,则可判定该两个实体关系实例在语义上等同。比如:以主体为例,计算两个主体实体名称集合中任意两个主体实体名称字符串之间的字面相似度,只要有一对名称字符串之间的字面相似度大于阈值,则可判定两个主体语义相同,如果两个实体关系实例的主体和客体相似度均为1,则判定为两个实体关系实例完全相同,否则,判定为两个实体关系实例基本等同。
第二种评价方式(基于客体前置修饰语评价):根据第二实例集合包含的目标实体关系实例的客体前置修饰语,对第二实例集合进行分类,得到第三实例集合和第四实例集合,第三实例集合包含分类标签为正例或负例的目标实体关系实例,第四实例集合包含分类标签为不确定的目标实体关系实例。
基于客体前置修饰语对目标实体关系实例进行评价时,根据客体oei最近的前置修饰语所表达的含义来判断目标实体关系实例的分类标签为正例、负例或不确定。具体判断方式为:迭代式构建包含修饰语词典,每个修饰语分配唯一语义分类标签(该标签为肯定、否定或不确定)。采用逆向最大程度匹配方式,从目标实体关系实例的来源语料提取客体oei最近前置修饰语,根据所提取的最近前置修饰语的语义分类标签,判断目标实体关系实例的分类标签为正例(相当于机判正例)、负例(相当于机判负例)或不确定(相当于机判不确定)。
第三种评价方式(基于频率评价):针对第四实例集合中的目标实体关系实例,计算目标实体关系实例在语料资源集合中出现的频次(以rf表示),以及计算语料资源集合中包含目标实体关系实例的语料个数(以cf表示),该目标实体关系实例对应的频次和语料个数越大,表示目标实体关系实例的可靠度越高。
其中,rf(rel_insi)表示rel_insi=(sei,pn,oei)在所有语料中出现的频次的总和,即一个目标实体关系实例可能在一个语料库中出现多次。cf(rel_insi)表示语料资源集合中包含目标实体关系实例的语料个数,即一个目标实体关系实例可能在多个语料中出现。
在利用上述三种评价方式对目标实体关系实例集合进行评价之后,将第一实例集合和第三实例集合中目标实体关系实例的分类标签及其获取依据反馈给用户,以及将第四实例集合中目标实体关系实例对应的频次和所述语料个数及其获取依据反馈给用户。
也就是说,将经过评价后的目标实体关系实例及其评价结果反馈给用户,与此同时,也将获取评价结果的依据反馈给用户,获取评价结果的依据指示:采用哪种评价方式获得相应评价结果,进一步的,获取评价结果的依据还包括:来源记录文本、客体前置修饰语、频次和语料个数。
步骤S304:将目标实体关系实例集合反馈给用户。
在具体实现步骤S304的过程中,将目标实体关系实例集合展示给用户。
优选的,结合上述内容,用户在接收到目标实体关系实例集合及其评价结果时,可根据评价结果和对应的获取依据再次对目标实体关系实例集合进行审核,保证目标实体关系实例集合的抽取准确度。
需要说明的是,为更方便理解上述涉及的将评价结果反馈给用户的内容,通过图4示出的将评价结果反馈给用户的流程图进行举例说明。
参见图4,示出了本发明实施例提供的将评价结果反馈给用户的流程图,包括以下步骤:
步骤S401:解析待执行抽取规则,得到实体关系类型、主体实体集合、客体实体集合、主体元数据映射集合、客体元数据映射集合和语料资源集合。
步骤S402:在语料资源集合中,根据主体元数据映射集合和客体元数据映射集合遍历实体,得到原始关系实例集合。
步骤S403:对原始实体关系实例集合进行语义去重处理提取三元组,得到目标实体关系实例集合。
步骤S404:采用预设的评价方式,对目标实体关系实例集合进行评价,得到评价结果和评价依据。
需要说明的是,评价方式为上述本发明实施例图3步骤S303中提及的三种评价方式(基于先验关系实例库的评价方式、基于客体前置修饰语的评价方式和基于频率的评价方式)。
步骤S405:将目标实体关系实例集合、评价结果和评价依据反馈给用户。
需要说明的是,步骤S401至步骤S405的执行原理,可参见上述本发明实施例图3所涉及的各个步骤的内容,在此不再赘述。
在本发明实施例中,响应于用户的指令,配置得到相应的实体关系抽取任务和待执行抽取规则。执行实体关系抽取任务,解析实体关系抽取任务对应的待执行抽取规则,利用解析结果从语料库中抽取得到目标实体关系实例集合,并对抽取得到的目标实体关系实例集合进行评价,将评价结果和评价依据反馈给用户,不需要人工分析大量的数据,提高处理准确率、提高处理效率和降低处理成本。
上述本发明实施例图2步骤S201中涉及的设置语料库的过程,参见图5,示出了本发明实施例提供的设置语料库的流程图,包括以下步骤:
步骤S501:接收用户上传的原始数据。
在具体实现步骤S501的过程中,用户在选择元数据文件并将原始数据上传至服务器,此时可接收到用户所上传的原始数据。
步骤S502:解析原始数据所包含的元数据标签,并根据解析结果构建元数据映射与上传表单。
在具体实现步骤S502的过程中,解析原始数据包含的元数据标签,并利用解析结果构建数据映射与上传表单,将该数据映射与上传表单展示给用于,具体为在用户界面中展示该数据映射与上传表单。
需要说明的是,数据映射与上传表单的内容项至少包括:“来源标签”、“规范标签”、“界面显示标签”和“是否导入”等配置内容,以及包括用于开始导入数据的功能按钮。其中,来源标签默认取值于原始文件的元数据标签,规范标签通过列表的形式展示给用户,其它配置内容(比如界面显示标签”和“是否导入”)可由用户根据实际需求配置。
步骤S503:响应于用户配置元数据映射与上传表单的指令,得到配置结果文件。
可以理解的是,将元数据映射与上传表单反馈给用户后,用户可以对该元数据映射与上传表单进行配置,在具体实现步骤S503的过程中,响应于用户配置元数据映射与上传表单的指令,得到配置结果文件,触发数据入库操作。
步骤S504:从原始数据中,将配置结果文件对应的语料原始文件读取至语料库中,并对语料原始文件进行登记。
在具体实现步骤S504的过程中,依据配置结果文件,从原始数据中读取与配置结果文件对应的语料原始文件读取至语料库中,并对读取进语料库的语料原始文件进行登记。
可以理解的是,在将语料原始文件读取至语料库的过程中,可计算并向用户显示各个语料原始文件的语料上传执行进度,语料上传执行进度的计算方式为:语料上传执行进度=当前语料原始文件入库记录数/当前语料原始文件总记录数。
需要说明的是,对于尚未执行上传的语料原始文件的语料上传执行进度显示为0,上传至语料库中各个语料的元数据集合的表达形式为:Mc={mc1,mc2,…,mcn},其中,mci为语料c所包含的某个具体的元数据项,该元数据项的取值为来源标签或规范标签。
优选的,在将语料上传至语料库后,可提供语料数据查询和浏览功能,至少支持语料和记录两级查询。语料级查询途径包括但不仅限于:语料名称、语料来源、语料类型、语料规模和语料内容。记录级查询途径根据用户对元数据映射与上传表单的配置结果动态生成。
在本发明实施例中,响应于用户的指令,将语料原始文件上传至语料库中,当确定用户配置好实体关系抽取任务和待执行抽取规则后,执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,在处理实体关系时不需要人工分析大量的数据,提高处理准确率、提高处理效率和降低处理成本。
可以理解的,由上述本发明实施例图1的相关内容可知,本发明实施例所提供的面向人机协同的实体关系处理系统可通过相关模块与用户进行人机交互,为更好解释说明如何与用户进行人机交互,通过图6示出的实体关系处理系统与用户进行人机交互的内容进行举例说明,需要说明的是,图6仅用于举例。
参见图6,示出了本发明实施例提供的面向人机协同的实体关系处理方法的另一流程图,该实体关系处理方法包括:
步骤S601:用户点击任务创建按钮。
在具体实现步骤S601的过程中,当用户进入任务管理界面时,用户可通过点击“任务创建”按钮(名称可自定义,此处仅用于举例),创建实体关系抽取任务。
步骤S602:加载任务配置表单、实体关系集合、实体名称数据集和语料库名称列表。
步骤S603:用户根据任务需求,配置任务配置表单,创建实体关系抽取任务。
步骤S604:加载规则配置表单和规则集合。
需要说明的是,规则集合包括已有的抽取规则,可供用户定义满足需求的抽取规则。
步骤S605:用户根据规则配置表单,定义目标抽取规则。
步骤S606:将目标抽取规则添加至规则库和本次抽取任务规则集合中,并向用户展示抽取规则执行配置表单。
步骤S607:用户遴选本次需要执行的目标抽取规则,确定待执行抽取规则。
步骤S608:执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,并计算执行进度和确定目标实体关系实例集合的评价结果。
步骤S609:将目标实体关系实例集合和评价结果加载至审核界面文件,供用户审核。
步骤S610:用户依据证据、可信的和经验知识审核目标实体关系实例集合。
步骤S611:用户点击关系实例汇交按钮,触发“收割目标实体关系实例”功能。
步骤S612:将符合预设收割条件的目标实体关系实例存储至先验关系实例库。
需要说明的是,步骤S601至步骤S612的执行原理可参见上述本发明实施例图1至图5的内容,在此不再赘述。
与上述本发明实施提供的一种面向人机协同的实体关系处理方法相对应,参见图7,本发明实施例还提供了一种面向人机协同的实体关系处理系统的结构框图,该实体关系处理系统包括:语料库管理模块701、实体库管理模块702、实体关系管理模块703、配置模块704和抽取模块705;
语料库管理模块701,用于设置语料库。
实体库管理模块702,用于设置实体名称数据集。
实体关系管理模块703,用于设置实体关系集合。
配置模块704,用于:响应于用户的创建指令,结合实体关系集合、实体名称数据集和任务配置表单,创建实体关系抽取任务;响应于用户的定义指令,结合规则配置表单、语料库和预设的包含多条抽取规则的规则集合,定义目标抽取规则;响应于用户的选择指令,从目标抽取规则中选择与实体关系抽取任务对应的待执行抽取规则。
在具体实现中,任务配置表单至少包括:任务名称、实体关系名称、创建者、审核者、创建时间、任务状态和审核状态。
在具体实现中,每条抽取规则至少包括:实体名称集配置信息,语料配置信息,实体关系中的主体语义类型与预设的语料库的元数据之间的映射配置信息,及实体关系中的客体语义类型与语料库的元数据之间的映射配置信息。
抽取模块705,用于执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,并将目标实体关系实例集合反馈给用户。
优选的,抽取模块705还用于:在从语料库中抽取得到目标实体关系实例集合的过程中,以实体关系为单位,计算各个类别的实体关系在语料库的各个语料中的执行进度,并将执行进度反馈给用户。
在本发明实施例中,响应于用户的指令,配置得到相应的实体关系抽取任务和待执行抽取规则。执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,在处理实体关系时不需要人工分析大量的数据,提高处理准确率、提高处理效率和降低处理成本。
优选的,结合图7示出的内容,抽取模块705包括:解析单元、遍历单元、处理单元和反馈单元,各个单元的执行原理如下:
解析单元,用于解析实体关系抽取任务对应的待执行抽取规则,得到至少包含主体元数据映射集合、客体元数据映射集合和语料资源集合的解析结果。
遍历单元,用于根据主体元数据映射集合和客体元数据映射集合,在语料资源集合中进行实体遍历处理,得到原始实体关系实例集合。
处理单元,用于对原始实体关系实例集合进行语义去重处理,得到目标实体关系实例集合。
优选的,处理单元还用于:利用预设的评价方式,对目标实体关系实例集合进行评价,将评价结果反馈给用户。
在具体实现中,用于得到评价结果的处理单元具体用于:利用预设的先验关系实例库,对目标实体关系实例集合中的目标实体关系实例进行分类,得到第一实例集合和第二实例集合,第一实例集合包含分类标签为正例或负例的目标实体关系实例,第二实例集合包含分类标签为不确定的目标实体关系实例;根据第二实例集合包含的目标实体关系实例的客体前置修饰语,对第二实例集合进行分类,得到第三实例集合和第四实例集合,第三实例集合包含分类标签为正例或负例的目标实体关系实例,第四实例集合包含分类标签为不确定的目标实体关系实例;针对第四实例集合中的目标实体关系实例,计算目标实体关系实例在语料资源集合中出现的频次,以及计算语料资源集合中包含目标实体关系实例的语料个数;将第一实例集合和第三实例集合中目标实体关系实例的分类标签及其获取依据反馈给用户,以及将第四实例集合中目标实体关系实例对应的频次和语料个数及其获取依据反馈给用户。
反馈单元,用于将目标实体关系实例集合反馈给用户。
在本发明实施例中,响应于用户的指令,配置得到相应的实体关系抽取任务和待执行抽取规则。执行实体关系抽取任务,解析实体关系抽取任务对应的待执行抽取规则,利用解析结果从语料库中抽取得到目标实体关系实例集合,并对抽取得到的目标实体关系实例集合进行评价,将评价结果和评价依据反馈给用户,不需要人工分析大量的数据,提高处理准确率、提高处理效率和降低处理成本。
优选的,结合图7示出的内容,语料库管理模块701包括:上传单元和登记单元,各个单元的执行原理如下:
上传单元,用于接收用户上传的原始数据,解析原始数据所包含的元数据标签,并根据解析结果构建元数据映射与上传表单,响应于用户配置元数据映射与上传表单的指令,得到配置结果文件,从原始数据中,将配置结果文件对应的语料原始文件读取至语料库中。
登记单元,用于对语料原始文件进行登记。
在本发明实施例中,响应于用户的指令,将语料原始文件上传至语料库中,当确定用户配置好实体关系抽取任务和待执行抽取规则后,执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,在处理实体关系时不需要人工分析大量的数据,提高处理准确率、提高处理效率和降低处理成本。
优选的,结合图7示出的内容,该实体关系处理系统还包括:
审核模块,用于响应于用户的更新指令,将目标实体关系实例集合中符合预设收割条件的目标实体关系实例存储至预设的先验关系实例库中。
优选的,结合图7示出的内容,该实体关系处理系统还包括:
先验关系实例库管理模块,用于构建并管理先验关系实例库。
综上所述,本发明实施例提供一种面向人机协同的实体关系处理方法及系统,根据预先配置的实体关系集合、实体名称数据集、语料库和包含多条抽取规则的规则集合,响应于用户的指令,配置得到相应的实体关系抽取任务和待执行抽取规则。执行实体关系抽取任务,利用实体关系抽取任务对应的待执行抽取规则,从语料库中抽取得到目标实体关系实例集合,在处理实体关系时不需要人工分析大量的数据,提高处理准确率、提高处理效率和降低处理成本。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种面向人机协同的实体关系处理方法,其特征在于,所述方法包括:
响应于用户的创建指令,结合预设的实体关系集合、预设的实体名称数据集和任务配置表单,创建实体关系抽取任务;
响应于用户的定义指令,结合规则配置表单、预设的语料库和预设的包含多条抽取规则的规则集合,定义目标抽取规则;
响应于用户的选择指令,从所述目标抽取规则中选择与所述实体关系抽取任务对应的待执行抽取规则;
执行所述实体关系抽取任务,利用所述实体关系抽取任务对应的所述待执行抽取规则,从所述语料库中抽取得到目标实体关系实例集合,并将所述目标实体关系实例集合反馈给所述用户;
所述利用所述实体关系抽取任务对应的所述待执行抽取规则,从所述语料库中抽取得到目标实体关系实例集合,并将所述目标实体关系实例集合反馈给所述用户,包括:
解析所述实体关系抽取任务对应的所述待执行抽取规则,得到至少包含主体元数据映射集合、客体元数据映射集合和语料资源集合的解析结果;
根据所述主体元数据映射集合和所述客体元数据映射集合,在所述语料资源集合中进行实体遍历处理,得到原始实体关系实例集合;
对所述原始实体关系实例集合进行语义去重处理,得到目标实体关系实例集合;
将所述目标实体关系实例集合反馈给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述得到目标实体关系实例集合之后,还包括:
利用预设的评价方式,对所述目标实体关系实例集合进行评价,将评价结果反馈给所述用户。
3.根据权利要求1所述的方法,其特征在于,设置所述语料库的过程,包括:
接收所述用户上传的原始数据;
解析所述原始数据所包含的元数据标签,并根据解析结果构建元数据映射与上传表单;
响应于所述用户配置所述元数据映射与上传表单的指令,得到配置结果文件;
从所述原始数据中,将所述配置结果文件对应的语料原始文件读取至语料库中,并对所述语料原始文件进行登记。
4.根据权利要求2所述的方法,其特征在于,所述利用预设的评价方式,对所述目标实体关系实例集合进行评价,将评价结果反馈给所述用户,包括:
利用预设的先验关系实例库,对所述目标实体关系实例集合中的目标实体关系实例进行分类,得到第一实例集合和第二实例集合,所述第一实例集合包含分类标签为正例或负例的目标实体关系实例,所述第二实例集合包含分类标签为不确定的目标实体关系实例;
根据所述第二实例集合包含的目标实体关系实例的客体前置修饰语,对所述第二实例集合进行分类,得到第三实例集合和第四实例集合,所述第三实例集合包含分类标签为正例或负例的目标实体关系实例,所述第四实例集合包含分类标签为不确定的目标实体关系实例;
针对所述第四实例集合中的目标实体关系实例,计算所述目标实体关系实例在所述语料资源集合中出现的频次,以及计算所述语料资源集合中包含所述目标实体关系实例的语料个数;
将所述第一实例集合和所述第三实例集合中目标实体关系实例的分类标签及其获取依据反馈给所述用户,以及将所述第四实例集合中目标实体关系实例对应的所述频次和所述语料个数及其获取依据反馈给所述用户。
5.根据权利要求1所述的方法,其特征在于,所述任务配置表单至少包括:任务名称、实体关系名称、创建者、审核者、创建时间、任务状态和审核状态。
6.根据权利要求1所述的方法,其特征在于,每条所述抽取规则至少包括:实体名称集配置信息,语料配置信息,实体关系中的主体语义类型与预设的语料库的元数据之间的映射配置信息,及所述实体关系中的客体语义类型与所述语料库的元数据之间的映射配置信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在从所述语料库中抽取得到目标实体关系实例集合的过程中,以实体关系为单位,计算各个类别的实体关系在所述语料库的各个语料中的执行进度,并将所述执行进度反馈给所述用户。
8.根据权利要求1所述的方法,其特征在于,将所述目标实体关系实例集合反馈给所述用户之后,还包括:
响应于所述用户的更新指令,将所述目标实体关系实例集合中符合预设收割条件的目标实体关系实例存储至预设的先验关系实例库中。
9.一种面向人机协同的实体关系处理系统,其特征在于,所述系统包括:语料库管理模块、实体库管理模块、实体关系管理模块、配置模块和抽取模块;
所述语料库管理模块,用于设置语料库;
所述实体库管理模块,用于设置实体名称数据集;
所述实体关系管理模块,用于设置实体关系集合;
所述配置模块,用于:响应于用户的创建指令,结合所述实体关系集合、所述实体名称数据集和任务配置表单,创建实体关系抽取任务;响应于用户的定义指令,结合规则配置表单、所述语料库和预设的包含多条抽取规则的规则集合,定义目标抽取规则;响应于用户的选择指令,从所述目标抽取规则中选择与所述实体关系抽取任务对应的待执行抽取规则;
所述抽取模块,用于执行所述实体关系抽取任务,利用所述实体关系抽取任务对应的所述待执行抽取规则,从所述语料库中抽取得到目标实体关系实例集合,并将所述目标实体关系实例集合反馈给所述用户;
所述抽取模块包括:
解析单元,用于解析所述实体关系抽取任务对应的所述待执行抽取规则,得到至少包含主体元数据映射集合、客体元数据映射集合和语料资源集合的解析结果;
遍历单元,用于根据所述主体元数据映射集合和所述客体元数据映射集合,在所述语料资源集合中进行实体遍历处理,得到原始实体关系实例集合;
处理单元,用于对所述原始实体关系实例集合进行语义去重处理,得到目标实体关系实例集合;
反馈单元,用于将所述目标实体关系实例集合反馈给所述用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110332934.5A CN113076396B (zh) | 2021-03-29 | 2021-03-29 | 一种面向人机协同的实体关系处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110332934.5A CN113076396B (zh) | 2021-03-29 | 2021-03-29 | 一种面向人机协同的实体关系处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113076396A CN113076396A (zh) | 2021-07-06 |
CN113076396B true CN113076396B (zh) | 2023-05-16 |
Family
ID=76611008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110332934.5A Active CN113076396B (zh) | 2021-03-29 | 2021-03-29 | 一种面向人机协同的实体关系处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076396B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579765B (zh) * | 2022-03-07 | 2023-08-15 | 四川大学 | 一种基于开源情报分析的网络靶场武器库构建方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102597992A (zh) * | 2009-07-22 | 2012-07-18 | 卡罗林·帕特里希亚·麦格瑞戈 | 用于多维时态数据挖掘的系统、方法和计算机程序 |
CN109299177A (zh) * | 2018-09-30 | 2019-02-01 | 江苏满运软件科技有限公司 | 数据抽取方法、装置、存储介质及电子设备 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN110597959A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 文本信息抽取方法、装置以及电子设备 |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和系统 |
CN112231494A (zh) * | 2020-12-16 | 2021-01-15 | 完美世界(北京)软件科技发展有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8417709B2 (en) * | 2010-05-27 | 2013-04-09 | International Business Machines Corporation | Automatic refinement of information extraction rules |
-
2021
- 2021-03-29 CN CN202110332934.5A patent/CN113076396B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102597992A (zh) * | 2009-07-22 | 2012-07-18 | 卡罗林·帕特里希亚·麦格瑞戈 | 用于多维时态数据挖掘的系统、方法和计算机程序 |
CN109299177A (zh) * | 2018-09-30 | 2019-02-01 | 江苏满运软件科技有限公司 | 数据抽取方法、装置、存储介质及电子设备 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN110597959A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 文本信息抽取方法、装置以及电子设备 |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和系统 |
CN112231494A (zh) * | 2020-12-16 | 2021-01-15 | 完美世界(北京)软件科技发展有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Zhang Qianqian等.a review on entity relation extraction.2017 second international conference on mechanical.2017,178-183. * |
张元鸣 ; 陈苗 ; 陆佳炜 ; 徐俊 ; 肖刚 ; .非结构化表格文档数据抽取与组织模型研究.浙江工业大学学报.2016,第44卷(第05期),487-494. * |
邓盼盼等.多语言领域术语系统构建工具TBench的设计与实现.中华医学图书情报杂志.2018,第第27卷卷(第第0期期),32-37. * |
Also Published As
Publication number | Publication date |
---|---|
CN113076396A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210334248A1 (en) | Generating and reusing transformations for evolving schema mapping | |
US10347019B2 (en) | Intelligent data munging | |
US9342570B2 (en) | Detecting reference data tables in extract-transform-load processes | |
US10180984B2 (en) | Pivot facets for text mining and search | |
US20090138430A1 (en) | Method for assembly of personalized enterprise information integrators over conjunctive queries | |
US8682936B2 (en) | Inherited entity storage model | |
CN105431844A (zh) | 用于搜索系统的第三方搜索应用 | |
EP4182813A1 (en) | Enterprise knowledge graph building with mined topics and relationships | |
WO2022019973A1 (en) | Enterprise knowledge graphs using enterprise named entity recognition | |
US9147040B2 (en) | Point-in-time query system | |
US11308177B2 (en) | System and method for accessing and managing cognitive knowledge | |
US20220019579A1 (en) | Enterprise knowledge graphs using multiple toolkits | |
US20200272624A1 (en) | Knowledge-driven federated big data query and analytics platform | |
CN113076396B (zh) | 一种面向人机协同的实体关系处理方法及系统 | |
US11514012B2 (en) | Method and system for generating and using a master entity associative data network | |
US9507764B2 (en) | Computerised data entry form processing | |
WO2022020005A1 (en) | Enterprise knowledge graphs using user-based mining | |
Drăgan et al. | Linking semantic desktop data to the web of data | |
US20160292363A1 (en) | Document management system for a medical task | |
US10311049B2 (en) | Pattern-based query result enhancement | |
US20210397745A1 (en) | Data providing server device and data providing method | |
US11544323B2 (en) | Annotations for enterprise knowledge graphs using multiple toolkits | |
US11809398B1 (en) | Methods and systems for connecting data with non-standardized schemas in connected graph data exchanges | |
US20230306277A1 (en) | Graph Database Implemented Knowledge Mesh | |
JP5512817B2 (ja) | 情報処理装置、情報処理方法、プログラム、および媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |