CN111078947A - 基于xml的领域要素提取配置语言系统 - Google Patents
基于xml的领域要素提取配置语言系统 Download PDFInfo
- Publication number
- CN111078947A CN111078947A CN201911130457.3A CN201911130457A CN111078947A CN 111078947 A CN111078947 A CN 111078947A CN 201911130457 A CN201911130457 A CN 201911130457A CN 111078947 A CN111078947 A CN 111078947A
- Authority
- CN
- China
- Prior art keywords
- node
- attribute
- built
- configuring
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于XML的领域要素提取配置语言系统,该系统包括TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;TZIE语言解析器模块把XML文件中的要素提取配置变成计算机代码语言;TZIE功能调度器模块依据要素提取任务中配置的操作符,调用相应的功能。通过跨领域文本要素提取配置,提供了一种跨领域通用的定义要素方式,同时可以根据文本特征配置适合的方法进行提取,tzie将各种技术封装成为功能操作符,形成一个XML配置文件,易于维护和优化。
Description
技术领域
本发明涉及文本要素提取配置语言TZIE技术领域,具体来说,涉及一种基于XML的领域要素提取配置语言TZIE系统,TZIE命名为:太极政务信息提取配置语言。
背景技术
命名实体识别是自然语言处理技术的一个基本任务,旨在文本中识别出命名性指称项,为关系抽取等任务做铺垫。狭义上,是识别出人名、地名和机构名等几个通用的命名实体。但在特定的领域中,需要定义领域内的各种实体类型。我们把自定义的领域命名实体,称之为领域要素,后面简称要素,TZIE提供了一种跨领域的、通用的定义要素方式,可以根据各种应用场景的需求,自定义需要提取的要素。
另外,目前命名实体识别方法有很多种,比如:基于词典的方法、基于HMM(隐马尔科夫)的方法、基于CRF(条件随即场)的方法等等,各有各的特点,通常是从精度、速度、存储空间等角度选用不同的技术进行识别,TZIE的不同在于,它是一个整合各种方法的信息提取框架,充分考虑了文本特征,选用最适合的技术进行提取。
我们面向司法业务的具体需求,以司法领域的案件卷宗为样本,对司法卷宗文本进行特征分析,对司法案情要素进行归纳,设计开发并验证了TZIE配置语言的所有功能。
司法电子卷宗由法院、检察院、司法行政机关在案件受理过程中产生的相关正式文件构成,主要包括电子文档、图像、音视频等电子文件。随着司法信息化建设的深入,当前各级司法部门(法院、检察院、司法行政机关)存储了海量的案件电子卷宗,这些异构文件中包含了海量信息,人为阅读处理卷宗文件效率低下,很难快速形成对案卷信息的全面准确认识,因此需要构建一个可整合多部门业务的司法卷宗知识模型体系,并基于这些模型构建上层的智能应用服务或应用系统,司法卷宗知识模型体系需要构建在领域知识库之上,知识库是对多元异构的司法电子卷宗材料进行知识化处理的结果,而司法要素信息提取又是知识化工作的基础,因此解决电子卷宗要素信息提取问题是整个司法智能应用实现的前提,目前各级司法单位具有迫切需求。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于XML的领域要素提取配置语言系统,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于XML的领域要素提取配置语言系统,包括TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,其中,
所述TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;
所述TZIE语言解析器模块,用于借助DOM4J解析XML结构,把XML文件中的要素提取配置变成计算机可识别的代码语言,完成功能调用;
所述TZIE功能调度器模块,用于依据要素提取任务中配置的操作符,到底层的功能池中调用相应的功能;
所述TZIE语言模块包括根节点tzie,所述根节点tzie用于使用节点和操作符关键字;
所述定义领域词典模块包括dict节点、keywords节点、words节点、kwspath节点;
所述dict节点用于定义词典;
所述keywords节点用于定义词典中的一组关键词;
所述定义要素模块包括concepts节点、events节点,用于依据不同领域对领域要素快捷方便的自定义;
要素的种类包括第一层级要素、第二层级要素,所述第一层级要素由概念、属性组成,所述第二层级要素由属性组成;
所述concepts节点用于配置概念集合;所述concepts节点的子节点包括concept节点,所述concept节点的子节点由method节点、methcombine节点、attribute节点组成;
所述events节点用于配置事件集合,所述events节点的子节点包括event节点,所述event节点用于配置事件;
所述attribute节点用于配置第二层级要素,所述attribute节点的子节点由所述method节点、所述methcombine节点组成;
所述定义提取方法模块包括method节点,所述method节点用于定义父节点的提取方法,所述提取方法包括规则方法、模型方法、编码方法;所述method节点的子节点包括regex节点、model节点、code节点、restrict节点、returnNum节点、factorTag节点、context节点;
所述regex节点用于配置提取要素的正则表达式;
所述model节点用于配置提取要素模型;
所述code节点用于配置提取要素代码;
所述restrict节点用于设置提取要素信息的输入文本范围;
所述returnNum节点用于设置方法所提取的要素信息条数;
所述factorTag节点用于批量提取factor节点时的配置标签;
所述context节点用于设置提取结果需要符合的过滤条件;
所述配置方法关系模块包括methcombine节点,用于配置提取方法关系;
所述methcombine节点的子节点由expression节点、priority节点组成,所述expression节点用于配置多方法组合表达式,priority节点用于配置多方法优先级关系;
所述配置操作符模块包括内置操作符,所述内置操作符包括标签类型、操作符,所述操作符的类型包括标签name属性值、具体功能操作符,所述标签name属性值用于获取标签的提取结果。
进一步的,所述所述根节点tzie的子节点为所述dict节点、所述concepts节点、所述events节点,所述根节点tzie的内置属性由caseType内置属性、clname内置属性、clcode内置属性组成;
caseType内置属性用于配置主题类型;
clname内置属性用于设置文件名称;
clcode内置属性用于设置文件类型编码。
进一步的,所述dict节点为所述根节点tzie的子节点,所述dict节点的子节点为所述keywords节点,所述keywords节点内置属性由name1内置属性、desc1内置属性组成;
所述name1内置属性用于配置关键词组名称;
所述desc1内置属性用于说明定义的关键词组;
所述keywords标签支持三种定义方式。
进一步的,所述concept节点用于配置概念,所述concept节点内置属性由name2内置属性、desc2内置属性组成,所述name2内置属性用于配置概念名称,所述desc2内置属性用于说明定义的概念;所述event节点的子节点由所述method节点、所述methcombine节点、所述attribute节点、subject节点、predicate节点、object节点,所述subject用于配置事件发生的主语以及主语的词性;所述predicate用于配置事件发生的谓语以及谓语词性,所述object用于配置事件发生的宾语以及宾语词性。
进一步的,所述method节点内置属性包括name3内置属性、desc3内置属性、type内置属性,所述name3内置属性用于配置提取方法名称,所述desc3内置属性用于说明定义的提取方法,所述type内置属性用于配置提取方法类型;
所述规则方法用于借鉴正则表达式技术,提取关键词或格式信息与tize语言结合;所述模型方法用于标注复合词,训练感知机模型,提取信息;所述编码方法用于无明显特征的自由文本,或集成已开发的信息提取代码;
所述model节点的子节点由modelpath节点、config节点,所述modelpath用于配置方法所要调用模型文件的存放位置,所述config用于配置需要传入模型的参数;
所述code节点的子节点由class节点、function节点,所述class节点用于配置方法所要调用的类名,所述function节点用于配置方法所要调用的函数名;
所述context节点的子节点由offset节点、distance节点、subsent节点、paragraph节点;所述offset节点用于设置提取结果在输入文本中的偏置距离;所述distance节点用于设置提取结果与标签文本的上下文距离;所述subsent节点用于设置提取结果与标签文本在句子中同现为有效结果;所述paragraph节点用于设置提取结果与标签文本在段落中同现为有效结果。
本发明的有益效果:通过基于XML的跨领域文本要素提取配置,从而一方面,提供了一种跨领域的、通用的定义要素方式,可以根据各种应用场景的需求,自定义需要提取的要素,同时tzie被设计成为一个整合大量自然语言处理算法的信息提取框架,可以根据文本特征配置适合的方法进行提取;另一方面,tzie将各种技术封装成为功能操作符,用户、开发或运维人员可以快速定义要素、提取方法和结果返回格式,形成一个xml配置文件,易于维护和优化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是TZIE语言的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种基于XML的领域要素提取配置语言系统,包括:TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,其中,
所述TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;
所述TZIE语言解析器模块,用于借助DOM4J解析XML结构,把XML文件中的要素提取配置变成计算机可识别的代码语言,完成功能调用;
所述TZIE功能调度器模块,用于依据要素提取任务中配置的操作符,到底层的功能池中调用相应的功能;
所述TZIE语言模块包括根节点tzie,所述根节点tzie用于使用节点和操作符关键字;
所述定义领域词典模块包括dict节点、keywords节点、words节点、kwspath节点;
所述dict节点用于定义词典;
所述keywords节点用于定义词典中的一组关键词;
所述定义要素模块包括concepts节点、events节点,用于依据不同领域对领域要素快捷方便的自定义;
要素的种类包括第一层级要素、第二层级要素,所述第一层级要素由概念、属性组成,所述第二层级要素由属性组成;
所述concepts节点用于配置概念集合;所述concepts节点的子节点包括concept节点,所述concept节点的子节点由method节点、methcombine节点、attribute节点组成;
所述events节点用于配置事件集合,所述events节点的子节点包括event节点,所述event节点用于配置事件;
所述attribute节点用于配置第二层级要素,所述attribute节点的子节点由所述method节点、所述methcombine节点组成;
所述定义提取方法模块包括method节点,所述method节点用于定义父节点的提取方法,所述提取方法包括规则方法、模型方法、编码方法;所述method节点的子节点包括regex节点、model节点、code节点、restrict节点、returnNum节点、factorTag节点、context节点;
所述regex节点用于配置提取要素的正则表达式;
所述model节点用于配置提取要素模型;
所述code节点用于配置提取要素代码;
所述restrict节点用于设置提取要素信息的输入文本范围;
所述returnNum节点用于设置方法所提取的要素信息条数;
所述factorTag节点用于批量提取factor节点时的配置标签;
所述context节点用于设置提取结果需要符合的过滤条件;
所述配置方法关系模块包括methcombine节点,用于配置提取方法关系;
所述methcombine节点的子节点由expression节点、priority节点组成,所述expression节点用于配置多方法组合表达式,priority节点用于配置多方法优先级关系;
所述配置操作符模块包括内置操作符,所述内置操作符包括标签类型、操作符,所述操作符的类型包括标签name属性值、具体功能操作符,所述标签name属性值用于获取标签的提取结果,
所述所述根节点tzie的子节点为所述dict节点、所述concepts节点、所述events节点,所述根节点tzie的内置属性由caseType内置属性、clname内置属性、clcode内置属性组成;
caseType内置属性用于配置主题类型;
clname内置属性用于设置文件名称;
clcode内置属性用于设置文件类型编码;
所述dict节点为所述根节点tzie的子节点,所述dict节点的子节点为所述keywords节点,所述keywords节点内置属性由name1内置属性、desc1内置属性组成;
所述name1内置属性用于配置关键词组名称;
所述desc1内置属性用于说明定义的关键词组;
所述keywords标签支持三种定义方式,所述concept节点用于配置概念,所述concept节点内置属性由name2内置属性、desc2内置属性组成,所述name2内置属性用于配置概念名称,所述desc2内置属性用于说明定义的概念;所述event节点的子节点由所述method节点、所述methcombine节点、所述attribute节点、subject节点、predicate节点、object节点,所述subject用于配置事件发生的主语以及主语的词性;所述predicate用于配置事件发生的谓语以及谓语词性,所述object用于配置事件发生的宾语以及宾语词性,所述method节点内置属性包括name3内置属性、desc3内置属性、type内置属性,所述name3内置属性用于配置提取方法名称,所述desc3内置属性用于说明定义的提取方法,所述type内置属性用于配置提取方法类型;
所述规则方法用于借鉴正则表达式技术,提取关键词或格式信息与tize语言结合;所述模型方法用于标注复合词,训练感知机模型,提取信息;所述编码方法用于无明显特征的自由文本,或集成已开发的信息提取代码;
所述model节点的子节点由modelpath节点、config节点,所述modelpath用于配置方法所要调用模型文件的存放位置,所述config用于配置需要传入模型的参数;
所述code节点的子节点由class节点、function节点,所述class节点用于配置方法所要调用的类名,所述function节点用于配置方法所要调用的函数名;
所述context节点的子节点由offset节点、distance节点、subsent节点、paragraph节点;所述offset节点用于设置提取结果在输入文本中的偏置距离;所述distance节点用于设置提取结果与标签文本的上下文距离;所述subsent节点用于设置提取结果与标签文本在句子中同现为有效结果;所述paragraph节点用于设置提取结果与标签文本在段落中同现为有效结果。
为了方便理解本发明的上述技术方案,以下对本发明的上述技术方案进行详细说明。
一、TZIE语言规则
TZIE语言由节点、操作符和语法规则构成,其根结点为tzie,所有的节点和操作符关键字都在tzie根结点下使用。
tzie是整个配置语言的根节点,具有三个子节点:dict、concepts和events,分别对应了领域词典定义、要素定义和事件定义,这三个重要功能。tzie根结点其内置属性有以下三个:
(1)caseType:用于配置主题类型,即:司法卷宗中的案件类。
(2)clname : 用于设置文件名称。
(3)clcode : 用于设置文件类型编码,每一类文件拥有唯一的文件 类型编码,通常一个配置文件对应一类文件。
1、定义领域词典
定义领域词典的节点主要有:dict、keywords、words、kwspath等节点。其中使用最多的是dict和keywords节点。
dict
dict是根结点tzie的子节点,用于定义词典,其下有一个子节点keywords。
keywords
keywords节点用于定义词典中的一组关键词,具有两个内置属性:
(1)name1:用于配置关键词组名称,即关键词组的标签。
(2)desc1: 对所定义的关键词组进行说明,方便理解。
keywords标签支持三种定义方式,也可以混合使用:
(1) <keywords>A,B,C</keywords>
多个关键词之间使用逗号分隔。
(2) <keywords>
<kwspath>/tzie/data/law_dictionary.txt</kwspath>
</keywords>
其中所配置的是词典文件路径,词典文件按照每行一个关键词进行编写。
(3) <keywords>
<word>A</word>
<word>B</word>
<word>C</word>
</keywords>
keywords也同可以通过其子结点word进行关键词的配置。
2、定义要素
TZIE语言的核心功能是对领域要素的提取,不同领域具有不同的领域要素,因此需要对领域要素快捷方便的自定义。目前对要素的种类有三种:概念、事件和属性,概念、事件是两种第一层级的要素,其下可以继续配置第二层级要素:属性。在定义要素时主要用到的节点有:
concepts是根结点tzie的子节点,是用于配置概念集合的节点,有些概念还具有属性信息,概念和属性都属于要素,concepts 下面有一个子节点:concept。
concept节点是用来配置概念的,概念作为一种要素,需要设计其提取标签和提取方法,该节点具有两个内置属性:
(1)name2:用于配置概念名称,即概念的标签。
(2)desc2: 对所定义的概念进行说明,方便理解和修改。
concept节点下面具有三个子结点:method、methcombine、attribute。其中method是用来定义提取方法的节点,当一个要素下面配置了多个提取方法时,需要使用methcombine是用来配置方法关系,即对不同方法的提取结果进行组合。attribute是定义第二层级要素属性的节点。
events节点也是根结点tzie的子节点,是用于配置事件集合的节点,有些事件下面还具有属性信息。events 下面有一个子节点:event。
event节点是用来配置事件的,事件也是一种要素,其标签的定义方式和concept节点一样,由两个内置属性配置,event节点下面有6个子节点,除了method、methcombine、attribute,这三个通用功能的节点之外,还有对事件进行定义的三个节点:subject、predicate、object,在基于依存语法分析的事件提取方法中,需要通过主语、谓和宾语这三个句子的核心结构进行定义的,其中subject用于配置事件发生的主语以及主语的词性;predicate用于配置事件发生的谓语以及谓语词性,object是用于配置事件发生的宾语以及宾语词性,当不对这三个节点进行配置时,提取的是输入文本中所有包含主谓宾结构的事件。
attribute节点作为第二层级要素的配置节点,其中只有method和methcombine两个子节点,即attribute下不存在更低一级要素,其提取方法的输入文本默认为所在第一层级要素的提取结果。
3、定义提取方法
method节点是用来定义其父节点的提取方法,也是TZIE语言的核心功能,其中的子节点是由功能池中大量算法模型做为支撑的。method具有三个内置属性:
(1)name3:用于配置提取方法名称,即提取方法的标签。
(2)desc3: 对所定义的提取方法进行说明,方便理解。
(3)type: 配置提取方法类型,共有三种类型的提取方法:
a) regex:规则方法
基于规则的提取方法借用了正则表达式技术,对正则表达式的编写规则做了很大的修改,使其与tize语言充分结合,比如:可以方便的引入自定义的词典,以及提取结果,并增加了一些内置操作符来扩展功能。
基于规则的提取方法适用于具有显著关键词或文本格式特征的场景。任何可以通过关键词或者格式(如html标签、回车、tab、标点符号等等)信息进行提取的需求都可以使用配置规则实现,而不用编写代码。例如:格式化、半格式化文本、html文本(网络爬虫)。
b) model:模型方法
基于模型的提取方法主要使用了两种模型:一是可自定义复合词的感知机模型;二是bert模型。前者可以在少量标注语料的情况下训练一个有效的命名实体识别模型,其中可以基于复合词标签,自定义复合词,即一种多词组合模式表示的要素。而后者是需要具有大量标注语料才可以训练的模型,但会具有更好的准确率和泛化性。
基于模型的提取方法适用于具有一定语言模式或行文模式的场景。对于具有一定语言模式的要素信息可以通过标注复合词,训练感知机模型,进行信息提取,所谓语言模式,比如:申请人:***;深宝劳人仲(新安)案[2017]673号;中央人民广播电台、中国国际广播电台等等这类具有词组合规律的要素信息。
c) code:编码方法。
基于编码的提取方法适用于无明显特征的自由文本,或集成已开发的信息提取代码。对于非结构化的自由文本,从中提取信息需要根据文本特点采用多种方法进行提取,并且在不同文本中又具有通用性。另外,对于已开发的信息提取功能代码可以通过简单的配置进行复用。这种场景使用代码实现更高效方便。
method节点下面有很多子节点,不同的方法类型需要配置不同的子节点,其中最主要的有以下几个:regex、model、code、restrict、returnNum、factorTag、context。
regex节点用来配置提取要素的正则表达式,当其父节点method的type属性设置为regex时才可以进行配置。
model节点用来配置提取要素模型,当其父节点method的type属性设置为model时才可以进行配置。model有两个子节点:
(1)modelpath:用来配置方法所要调用模型文件的存放位置。
(2)config:用来配置需要传入模型的参数,每个参数通过一个parameter子节点来设置。
code节点用来配置提取要素代码,当其父节点method的type属性设置为code时才可以进行配置。code有两个子节点:
(1)class:用来配置方法所要调用的类名。
(2)function:用来配置方法所要调用的函数名,其子节点parameter用来传入函数的形参。
restrict设置提取要素信息的输入文本范围,默认为{tzie_content},该操作符表示文件全文。
returnNum节点用来设置方法所提取的要素信息条数。默认设置为{tzie_return1}:返回第一条提取到的结果;{tzie_returnAll}:返回所有提取到的结果。
factorTag节点用于批量提取factor节点(concept、attribute)时的配置标签。
context节点用来设置提取结果需要符合的过滤条件,主要有以下5个子节点:
(1)offset :设置提取结果在输入文本中的偏置距离,该节点没有属性,在标签文本中设置偏置距离。例如:3表示提取结果在输入文本的前3个字以内开始说明提取结果符合上下文条件,否则不符合;-3表示提取结果在输入文本的后3个字以内结束说明提取结果符合上下文条件,否则不符合。不存在+-、-+的情况。
(2)distance:设置提取结果与标签文本的上下文距离,属性length用来设置相距几个字的距离。例如:3表示提取结果之后3个字以内出现标签文本说明提取结果符合上下文条件,否则不符合;-3表示提取结果之前3个字以内出现标签文本说明提取结果符合上下文条件,否则不符合;+-3/-+3表示提取结果之后或之前3个字以内出现标签文本说明提取结果符合上下文条件,否则不符合。
(3)subsent:设置提取结果与标签文本在子句中同现为有效结果。
(4)sentence:设置提取结果与标签文本在句子中同现为有效结果。
(5)paragraph:设置提取结果与标签文本在段落中同现为有效结果。
上述节点中设置的标签文本,可以是文本、keywords关键词(比如:{keywords_yg})、或者是要素关键词(比如:{concept_dsr}、{concept_dsr@name}),concept提取方法的上下文条件中不能在标签文本中设置当前concept的attribute,因为attribute的信息必须在当前concept的信息被提取后才能进行提取。但是当前concept的某个attribute提取方法的上下文条件中可以设置当前concept的其他attribute的提取信息,前提是被依赖的要素要配置在前面。
4、配置方法关系
目前提取方法关系主要由methcombine节点来配置,当一个要素下面配置了多个提取方法时,使用methcombine节点对不同方法的提取结果进行组合。methcombine节点有两个常用子节点:expression和priority,前者用于配置多方法组合表达式,后者用于配置多方法优先级关系。
5、配置操作符
内置操作符是tize语言中具有特定功能的运算符号。操作符必须跟在一个标签后面才能起作用。
内置操作符的格式如下:
{a_b}
a:标签类型
b:操作符,存在两种类型:一类是标签name属性值,表示获取该标签的提取结果;另一类是定义了具体功能的操作符,如果a是根节点tzie,b须为功能操作符。比如:
{keywords_yg}:属性name=yg的keywords标签内容。
{method_1}:属性name=1的method标签的提取结果。
{concept_dsr}:属性name=dsr的concept标签的提取结果。
{concept_dsr@name} :属性name=dsr的concept标签下面属性name=name的attribute标签的提取结果。
tzie主要的功能操作符有以下这些:
{tzie_content}:用在restrict节点中,表示所属factor要提取要素的输入文本范围。【默认设置】
{tzie_sop}:设置必须出现在段首的限制条件。
{tzie_sos}:设置必须出现在句首的限制条件。
{tzie_and}:逻辑与操作符。
{tzie_or}:逻辑或操作符。【默认设置】
{tzie_no}:逻辑非操作符。
{tzie_condLongest}:优先级条件:提取结果字符串长的优先级高,该条件只返回一条结果。
{tzie_condShortest}:优先级条件:提取结果字符串短的优先级高,该条件只返回一条结果。
{tzie_condIndexLowest}:优先级条件:提取结果字符串在输入文本中索引值最小优先级高,该条件只返回一条结果。
{tzie_condIndexHighest}:优先级条件:提取结果字符串在输入文本中索引值最大优先级高,该条件只返回一条结果。
{tzie_condMost}:优先级条件:返回包含最多条结果的方法结果集,该条件返回一个结果列表。
{tzie_condLeast}:优先级条件:返回包含最少条结果的方法结果集,该条件返回一个结果列表。
{tzie_return1}:方法返回结果数:返回第一条提取到的结果。【默认设置】
{tzie_returnAll}:方法返回结果数:返回所有提取到的结果。
二、TZIE语言解析器
TZIE语言解析器是一个基于JAVA的XML和TZIE语法规则的语言解析器,用来把XML文件中的要素提取配置变成计算机可识别的代码语言,进而完成功能调用。其中对对XML结构的解析借助了DOM4J。TZIE语言除了定义了大量的节点和关键字之外,还定义了大量的配置语法规则以及约定条件。比如:
(1)restrict标签只能配置{tzie_content}或者{concept_name}作为获取提取要素信息的输入文本范围。
(2)keywords标签支持的三种定义方式,也可以混合使用。
(3)regex标签中的正则表达式中,只能存在一个作为结果返回的内容,即只有一个有效的小括号,其他的小括号必须写成(问号:)的形式。
(4)批量提取factor节点(concept、attribute)的配置方法:只有model类型和code类型提取方法,支持同时提取多个要素信息。使用method节点的子节点标签factorTag进行配置:定义多个factor(concept、attribute)节点,其中没有任何子节点,而是配置另一个同级的factor节点的方法表达式,如{concept_drs@method_3},表示这些factor使用标签名为“dsr”的factor,其中方法名为“3”的方法进行提取。同时在标签名为“dsr”的factor,方法名为“3”的方法节点中配置factorTag标签,该标签没有属性,要在标签文本中写入一起提取要素的name值。
除了上述几条主要的配置语法规则,TZIE还针对文件处理、批量提取等功能定义了大量语法规则。
三、TZIE功能调度器
TZIE功能调度器根据要素提取任务中配置的操作府,到底层的功能池中调用相应功能,功能池中包括了常用的文本处理功能,以及针对具体应用场景开发的功能包,每种功能根据实际需求采用多种实现方式,主要用到的框架工具包括:hanlp、libsvm、tensorflow、fastText、bert等,以及正则表达式和基于JAVA开发的jar包。
文本处理功能包含了当前NLP领域的基础任务:中文分词、词性标注、命名实体识别、关键词提取、自动摘要、依存句法分析、文本分类、文本聚类、词向量训练、文本语义相似度计算等各种通用功能,这些功能会在某些关键词的功能开发中调用到。其中中文分词、词性标注和命名实体识别三大基本功能,都采用了两种方法实现,分别对应不用的场景需要,侧重速度的分词方法:最短路分词;侧重精度的分词方法:感知机分词;侧重速度的词性标注方法:隐马尔科夫词性标注;侧重精度的词性标注方法:感知机词性标注;侧重速度的命名实体识别方法:基于隐马尔科夫角色标注的命名实体识别;侧重精度的命名实体识别方法:基于感知机的命名实体识别。另外,关键词提取和自动摘要功能都采用TextRank的方法实现;依存句法分析是基于神经网络分类模型和arc-standard转移动作判决式方法实现的;文本分类分别采用了基于特征提取+SVM的方法、基于词向量+CNN的方法;文本聚类分别采用了KMeans方法、Repeated Bisection方法;词向量分别采用了基于word2ec和bert的方法。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,首先根据领域文件类别进行配置提取规则配置文件,通常是一种文件类型对应这种文件类型的提取规则XML文件。在配置提取规则配置文件时,需要按照领域词典、提取要素、提取方法、方法关系、操作符,这样的顺序进行定义和配置。在编写好提取规则配置文件后,就可以把待提取的内容文本输入TZIE语法解析器中,解析器会根据配置自动挂接相应的方法进行要素提取。最后按照配置文件中的要素标签和要素关系,生成相应的json,即结构化知识数据。该数据可以回填到应用系统中,或存入领域知识库。
针对司法电子卷宗的要素提取需求,可以使用tzie配置语言对不同文件中的要素进行提取。
综上所述,借助于本发明的上述技术方案,通过跨领域文本要素提取配置,从而一方面,提供了一种跨领域的、通用的定义要素方式,可以根据各种应用场景的需求,自定义需要提取的要素,同时tzie被设计成为一个整合大量自然语言处理算法的信息提取框架,可以根据文本特征配置适合的方法进行提取;另一方面,tzie将各种技术封装成为功能操作符,用户、开发或运维人员可以快速定义要素、提取方法和结果返回格式,形成一个xml配置文件,易于维护和优化。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于XML的领域要素提取配置语言系统,其特征在于,包括:TZIE语言规则模块、TZIE语言解析器模块、TZIE功能调度器模块,其中,
所述TZIE语言规则模块包括TZIE语言模块、定义领域词典模块、定义要素模块、定义提取方法模块、配置方法关系模块、配置操作符模块;
所述TZIE语言解析器模块,用于借助DOM4J解析XML结构,把XML文件中的要素提取配置变成计算机可识别的代码语言,完成功能调用;
所述TZIE功能调度器模块,用于依据要素提取任务中配置的操作符,到底层的功能池中调用相应的功能;
所述TZIE语言模块包括根节点tzie,所述根节点tzie用于使用节点和操作符关键字;
所述定义领域词典模块包括dict节点、keywords节点、words节点、kwspath节点;
所述dict节点用于定义词典;
所述keywords节点用于定义词典中的一组关键词;
所述定义要素模块包括concepts节点、events节点,用于依据不同领域对领域要素快捷方便的自定义;
要素的种类包括第一层级要素、第二层级要素,所述第一层级要素由概念、属性组成,所述第二层级要素由属性组成;
所述concepts节点用于配置概念集合;所述concepts节点的子节点包括concept节点,所述concept节点的子节点由method节点、methcombine节点、attribute节点组成;
所述events节点用于配置事件集合,所述events节点的子节点包括event节点,所述event节点用于配置事件;
所述attribute节点用于配置第二层级要素,所述attribute节点的子节点由所述method节点、所述methcombine节点组成;
所述定义提取方法模块包括method节点,所述method节点用于定义父节点的提取方法,所述提取方法包括规则方法、模型方法、编码方法;所述method节点的子节点包括regex节点、model节点、code节点、restrict节点、returnNum节点、factorTag节点、context节点;
所述regex节点用于配置提取要素的正则表达式;
所述model节点用于配置提取要素模型;
所述code节点用于配置提取要素代码;
所述restrict节点用于设置提取要素信息的输入文本范围;
所述returnNum节点用于设置方法所提取的要素信息条数;
所述factorTag节点用于批量提取factor节点时的配置标签;
所述context节点用于设置提取结果需要符合的过滤条件;
所述配置方法关系模块包括methcombine节点,用于配置提取方法关系;
所述methcombine节点的子节点由expression节点、priority节点组成,所述expression节点用于配置多方法组合表达式,priority节点用于配置多方法优先级关系;
所述配置操作符模块包括内置操作符,所述内置操作符包括标签类型、操作符,所述操作符的类型包括标签name属性值、具体功能操作符,所述标签name属性值用于获取标签的提取结果。
2.根据权利要求1所述的基于XML的领域要素提取配置语言系统,其特征在于,所述所述根节点tzie的子节点为所述dict节点、所述concepts节点、所述events节点,所述根节点tzie的内置属性由caseType内置属性、clname内置属性、clcode内置属性组成;
caseType内置属性用于配置主题类型;
clname内置属性用于设置文件名称;
clcode内置属性用于设置文件类型编码。
3.根据权利要求1所述的基于XML的领域要素提取配置语言系统,其特征在于,所述dict节点为所述根节点tzie的子节点,所述dict节点的子节点为所述keywords节点,所述keywords节点内置属性由name1内置属性、desc1内置属性组成;
所述name1内置属性用于配置关键词组名称;
所述desc1内置属性用于说明定义的关键词组;
所述keywords标签支持三种定义方式。
4.根据权利要求1所述的基于XML的领域要素提取配置语言系统,其特征在于,所述concept节点用于配置概念,所述concept节点内置属性由name2内置属性、desc2内置属性组成,所述name2内置属性用于配置概念名称,所述desc2内置属性用于说明定义的概念;所述event节点的子节点由所述method节点、所述methcombine节点、所述attribute节点、subject节点、predicate节点、object节点,所述subject用于配置事件发生的主语以及主语的词性;所述predicate用于配置事件发生的谓语以及谓语词性,所述object用于配置事件发生的宾语以及宾语词性。
5.根据权利要求1所述的基于XML的领域要素提取配置语言系统,其特征在于,所述method节点内置属性包括name3内置属性、desc3内置属性、type内置属性,所述name3内置属性用于配置提取方法名称,所述desc3内置属性用于说明定义的提取方法,所述type内置属性用于配置提取方法类型;
所述规则方法用于借鉴正则表达式技术,提取关键词或格式信息与tize语言结合;所述模型方法用于标注复合词,训练感知机模型,提取信息;所述编码方法用于无明显特征的自由文本,或集成已开发的信息提取代码;
所述model节点的子节点由modelpath节点、config节点,所述modelpath用于配置方法所要调用模型文件的存放位置,所述config用于配置需要传入模型的参数;
所述code节点的子节点由class节点、function节点,所述class节点用于配置方法所要调用的类名,所述function节点用于配置方法所要调用的函数名;
所述context节点的子节点由offset节点、distance节点、subsent节点、paragraph节点;所述offset节点用于设置提取结果在输入文本中的偏置距离;所述distance节点用于设置提取结果与标签文本的上下文距离;所述subsent节点用于设置提取结果与标签文本在句子中同现为有效结果;所述paragraph节点用于设置提取结果与标签文本在段落中同现为有效结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911130457.3A CN111078947B (zh) | 2019-11-19 | 2019-11-19 | 基于xml的领域要素提取配置语言系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911130457.3A CN111078947B (zh) | 2019-11-19 | 2019-11-19 | 基于xml的领域要素提取配置语言系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078947A true CN111078947A (zh) | 2020-04-28 |
CN111078947B CN111078947B (zh) | 2023-06-02 |
Family
ID=70311171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911130457.3A Active CN111078947B (zh) | 2019-11-19 | 2019-11-19 | 基于xml的领域要素提取配置语言系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078947B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236352A (ja) * | 2000-02-21 | 2001-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体 |
JP4625535B1 (ja) * | 2009-12-14 | 2011-02-02 | 株式会社野村総合研究所 | 情報抽出システム及び情報抽出プログラム |
US20160275074A1 (en) * | 2015-03-19 | 2016-09-22 | Abbyy Infopoisk Llc | Anaphora resolution based on linguistic technologies |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
CN107729309A (zh) * | 2016-08-11 | 2018-02-23 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN109558589A (zh) * | 2018-11-12 | 2019-04-02 | 速度时空信息科技股份有限公司 | 一种基于中文分词技术的畅想文书的方法及系统 |
-
2019
- 2019-11-19 CN CN201911130457.3A patent/CN111078947B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236352A (ja) * | 2000-02-21 | 2001-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 半構造化文書検索方法及び装置及び半構造化文書検索プログラムを格納した記憶媒体 |
JP4625535B1 (ja) * | 2009-12-14 | 2011-02-02 | 株式会社野村総合研究所 | 情報抽出システム及び情報抽出プログラム |
US20160275074A1 (en) * | 2015-03-19 | 2016-09-22 | Abbyy Infopoisk Llc | Anaphora resolution based on linguistic technologies |
CN107729309A (zh) * | 2016-08-11 | 2018-02-23 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
CN109558589A (zh) * | 2018-11-12 | 2019-04-02 | 速度时空信息科技股份有限公司 | 一种基于中文分词技术的畅想文书的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111078947B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10409911B2 (en) | Systems and methods for text analytics processor | |
WO2022022045A1 (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
US6243670B1 (en) | Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames | |
Pradhan et al. | Semantic role chunking combining complementary syntactic views | |
Luyckx et al. | Shallow Text Analysis and Machine Learning for Authorship Attribtion. | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN110069636B (zh) | 融合依存关系与篇章修辞关系的事件时序关系识别方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
WO2023155303A1 (zh) | 网页数据的提取方法和装置、计算机设备、存储介质 | |
Marreddy et al. | Clickbait detection in telugu: Overcoming nlp challenges in resource-poor languages using benchmarked techniques | |
CN112733547A (zh) | 一种利用语义依存分析的中文问句语义理解方法 | |
CN112989208A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN115344666A (zh) | 政策匹配方法、装置、设备与计算机可读存储介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
US11314922B1 (en) | System and method for generating regulatory content requirement descriptions | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN111859887A (zh) | 一种基于深度学习的科技新闻自动写作系统 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
Martin et al. | Incremental evolution of fuzzy grammar fragments to enhance instance matching and text mining | |
CN114792092B (zh) | 一种基于语义增强的文本主题抽取方法及装置 | |
US20230419110A1 (en) | System and method for generating regulatory content requirement descriptions | |
CN111078947B (zh) | 基于xml的领域要素提取配置语言系统 | |
CN115455202A (zh) | 一种应急事件事理图谱构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |