CN107679038B - 一种文本段落的抽取方法及装置 - Google Patents

一种文本段落的抽取方法及装置 Download PDF

Info

Publication number
CN107679038B
CN107679038B CN201710958999.4A CN201710958999A CN107679038B CN 107679038 B CN107679038 B CN 107679038B CN 201710958999 A CN201710958999 A CN 201710958999A CN 107679038 B CN107679038 B CN 107679038B
Authority
CN
China
Prior art keywords
node
matching
information
text
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710958999.4A
Other languages
English (en)
Other versions
CN107679038A (zh
Inventor
李德彦
晋耀红
席丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science and Technology (Beijing) Co., Ltd.
Original Assignee
Dingfu Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Intelligent Technology Co Ltd filed Critical Dingfu Intelligent Technology Co Ltd
Priority to CN201710958999.4A priority Critical patent/CN107679038B/zh
Publication of CN107679038A publication Critical patent/CN107679038A/zh
Application granted granted Critical
Publication of CN107679038B publication Critical patent/CN107679038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请公开了本申请提供了一种文本段落的抽取方法及装置,该方法包括获取文本;创建与所述文本对应的模型树;将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集;将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息,其中,所述匹配规则包括最远匹配规则和/或最近匹配规则;根据所述起始信息和结束信息,确定所述文本的段落;抽取所述段落的文本信息。本申请可根据用户的需求,自动抽取出文本中的相应段落,无需用户逐一阅读文本内容,提高文本结构化的效率,并且降低工作量。

Description

一种文本段落的抽取方法及装置
技术领域
本申请涉及文本信息抽取技术领域,尤其涉及一种文本段落的抽取方法及装置。
背景技术
文本是书面语言的表现形式,从文学的角度,文本通常是具有完整、系统含义的一个或多个句子的组合。文本结构是一种天然的文本语义信息,可以辅助阅读者理解文本的层次。文本写作者通常使用视觉手段和语义手段相结合的方法来设计文本结构。视觉手段如字体样式、页面布局等,语义手段包括使用多级标题、区分标题和正文、段落顺序安排等。
从文本内容的语义手段来说,文本结构一般包括:文本标题、段落标题、段落子标题和正文段落。获取文本结构,对于很多文本信息的挖掘任务十分有帮助。然而,现实生活中存在的大量文本,由于写作者的撰写习惯或者版式要求的不同,通常没有清晰准确的文本结构;如人民法院下发的法律裁判文书,此类文书类型丰富,包含的信息量较大,如原告信息、被告信息和裁判结果等。因此,准确将不具有清晰文本结构的文本进行段落划分并得到每个段落的标题尤为重要。
目前,划分不具有清晰文本结构的文本中的段落仍然采用人工的方式来实现,但是,依靠人工阅读文本,根据文本的具体内容重新区分文本的各个段落,再总结每个段落的标题,不仅导致工作量的增加,而且降低效率。
发明内容
本申请提供了一种文本段落的抽取方法及装置,以解决现有技术依靠人工阅读文本,根据文本的具体内容重新区分文本的各个段落,再总结每个段落的标题,不仅导致工作量的增加,而且降低效率的问题。
第一方面,本申请提供了一种文本段落的抽取方法包括:
获取文本;
创建与所述文本对应的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集,其中,所述定位节点集包括至少一个前置定位节点和至少一个后置定位节点,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则;
将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息,其中,所述匹配规则包括前置匹配规则和后置匹配规则,所述前置匹配规则为前置最远匹配规则或前置最近匹配规则,所述后置匹配规则为后置最远匹配规则或后置最近匹配规则;
根据所述起始信息和结束信息,确定所述文本的段落;
抽取所述段落的文本信息。
第二方面,本申请还提供了一种文本段落的抽取装置包括:
获取模块,用于获取文本;
创建模块,用于创建与所述文本对应的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
生成模块,用于将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集,其中,所述定位节点集包括至少一个前置定位节点和至少一个后置定位节点,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则;
匹配模块,用于将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息,其中,所述匹配规则包括前置匹配规则和后置匹配规则,所述前置匹配规则为前置最远匹配规则或前置最近匹配规则,所述后置匹配规则为后置最远匹配规则或后置最近匹配规则;
确定模块,用于根据起始信息和结束信息,确定所述文本的段落;
输出模块,用于将抽取所述段落的文本信息。
由以上技术方案可知,本申请提供一种文本段落的抽取方法及装置,该方法可利用预设筛选规则在模型树上提取定位节点,然后利用定位节点对应的抽取表达式集,根据预设匹配规则与文本进行匹配,确定起始信息和结束信息,进而确定抽取段落的区域,在与该段落对应的预设标题名称同时输出,由此可见,本申请可根据用户的需求,自动抽取出文本中的相应段落,无需用户逐一阅读文本内容,提高文本结构化的效率,并且降低工作量。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种文本段落的抽取方法的方法流程图;
图2为模型树的结构图;
图3为步骤14的一个实施例的方法流程图;
图4为步骤14的另一个实施例的结构示意图;
图5为步骤14的又一个实施例的结构示意图;
图6为步骤14的又一个实施例的结构示意图;
图7为步骤13的一个实施例的方法流程图;
图8为步骤13的另一个实施例的方法流程图;
图9为步骤13的又一个实施例的方法流程图;
图10为本申请提供的一种文本段落的抽取装置的结构示意图。
具体实施方式
参见图1,第一方面,本申请提供了一种文本段落的抽取方法包括:
步骤11:获取文本。
以法律裁判文书为例,其多个自然段落的文本内容所表示的文本信息意义可能是相同的。将文本信息意义相同的自然段落抽取出来重新作为一个段落,可很大程度提高文本结构的准确性。
步骤12:创建与所述文本对应的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式。
可根据抽样需求,创建模型树。为了清楚起见,下面首先对模型中的父节点、子节点、子孙节点和父辈节点进行介绍。如图2所示的模型树中,以节点“判决书”为例:
父节点:节点“判决书”是节点“目录结构”和“信息提取”的父节点;
父辈节点:节点“判决书”是节点“再审”和“二审”的父辈节点;
子节点:节点“目录结构”和节点“信息提取”是节点“判决书”的子节点;
子孙节点:所有节点都是节点“判决书”的子孙节点。
以上节点的关系仅仅是示例性的,满足上述所属关系的其他节点在此不再赘述。
构建模型树时,可由上到下将节点分为不同的级别,位于模型树上层的节点级别越高,位于模型树下层的节点的级别越低;例如,将没有父节点的节点的级别为0,即根节点;然后根节点的子节点的级别为1,以此类推。用户可批量进行子节点的添加,即用户输入该节点的名称,该节点的级别,该节点上级的父节点的名称和级别后,建立该节点与其上级的父节点的关联关系即可。如果该节点的级别为负数、非整数或者小于上级父节点的级别,即可判断输入错误,无法建立关联关系,并发出提示信息给用户。以该方法可一次进行多个节点的添加,提高构建模型树的效率。
步骤13:将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集,其中,所述定位节点集包括至少一个前置定位节点和至少一个后置定位节点,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。
用户可根据实际需求,选择适合的筛选规则作为预设筛选规则。
步骤14:将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息,其中,所述匹配规则包括前置匹配规则和后置匹配规则,所述前置匹配规则为前置最远匹配规则或前置最近匹配规则,所述后置匹配规则为后置最远匹配规则或后置最近匹配规则。
最远匹配规则和最近匹配规则可根据实际需求由用户选择,可以仅选其中的一种,也可同时选择。
步骤15:根据所述起始信息和结束信息,确定所述文本的段落。
步骤16:抽取所述段落的文本信息。
该文本信息可与预设的标题名称一同输出,标题名称可由用户根据文本内容自行设定,也可由机器学习得出。
由以上技术方案可知,本申请提供一种文本段落的抽取方法及装置,该方法可利用预设筛选规则在模型树上提取定位节点,然后利用定位节点对应的抽取表达式集,根据预设匹配规则与文本进行匹配,确定起始信息和结束信息,进而确定抽取段落的区域,在与该段落对应的预设标题名称同时输出,由此可见,本申请可根据用户的需求,自动抽取出文本中的相应段落,无需用户逐一阅读文本内容,提高文本结构化的效率,并且降低工作量。
在所述每个所述前置定位节点按照前置最远匹配规则,每个所述后置定位节点按照后置最远匹配规则时,参见图3,本申请另一实施例提供的步骤14包括:
步骤31:将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息。
抽取表达式可采用正则表达式,正则表达式是一种正规的描述字符串模式的表达式,可以用来进行文本匹配,具体为在给定的文本信息中查找与给定的正则表达式相匹配的部分。正则表达式由一些普通字符和元字符组成,普通字符包括大小写的字母和数字,元字符具有特殊的含义。
具体匹配规则在此不做限定,可采用现有的任何匹配规则进行匹配,本实施例可采用模式匹配法,即从文本的第一个字符起与概念值表达式列表中的任意一个概念值表达式的第一个字符进行匹配,若相匹配,则继续对字符进行后续的比较,若不匹配,则从文本的第二个字符起与该概念表达式的第一个字符重新比较,直至该概念表达式的每个字符依次与文本中的一个连续的字符序列相等为止,则视为匹配成功,否则匹配失败。依次将每个前置定位节点的抽取表达式集内的每个抽取表达式进行上述匹配过程,抽取出相匹配的文本信息,得到抽取结果。
对于正则表达式的匹配,两个字符之间可采用任何符合数量要求的字符均可视为匹配成功,例如文本信息中存在“张三,男”、“张小三,男”或者“张美丽,女”,均可视为与正则表达式“.{2,3},(男|女)”匹配成功。
步骤32:根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最近的前置匹配信息确定为起始信息。
由于每个所述前置定位节点按照最远匹配规则,最远匹配规则为将距离文本第一个字符最近,即与文本第一个字符间隔字符数最少的前置匹配信息确定为起始信息。
步骤33:将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息。
本步骤的具体匹配过程与步骤31相同,不再赘述。
步骤34:根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最远的后置匹配信息确定为结束信息。
由于每个所述后置定位节点按照后置最远匹配规则进行匹配,后置最远匹配规则为将位于起始信息之后且距离起始信息最远,即与起始信息相隔字符数最多的后置匹配信息确定为结束信息。
以如下的法律裁判文书为例:
彭水苗族土家族自治县人民法院
民事判决书
(2015)彭法民初第01850号
原告刘某,女,1988年10月18日出生,土家族。
委托代理人焦永华,重庆渝东律师事务所律师(一般授权代理)。
被告冯某,男,1987年11月12日出生,苗族。
原告刘某诉被告冯某离婚一案,本院于2015年5月20日立案受理,依法由审判员谢顺福任审判长,与审判员谢光泽、人民陪审员谢顺智组成合议庭,适用普通程序于2015年9月14日公开开庭进行了审理,被告冯某经本院公告送达期满后,未到庭参加诉讼,本院依法缺席审理,本案现已审理终结。
如果经预设筛选规则提取节点后,生成的定位节点集,其中目录结构下再审的子节点“当事人信息”为前置定位节点,子节点“审理经过”为后置定位节点。
节点“当事人信息”对应的抽取表达式集为{@原告@;@委托代理人@}。
节点“审理经过”对应的抽取表达式集为{@\n[^\n,。]*一案@;@\n[^\n]*?本案现已依法审理终结@}。
前置定位节点对应的抽取表达式经过模式匹配后,在文本中有多个前置匹配信息,如“原告刘某”,“委托代理人”等,按照前置最远匹配规则,将距离该文本第一个字符最近的前置匹配信息“原告刘某”确定为起始信息。
同样,后置定位节点对应的抽取表达式经过模式匹配后,在文本中有多个后置匹配信息,如“离婚一案”,“本案现已审理终结”等,按照后置最远匹配规则,由于在起始信息“原告刘某”之后且与其距离最远,即与起始信息“原告刘某”相隔字符数最多的后置匹配信息为“本案现已审理终结”,因此将后置匹配信息为“本案现已审理终结”确定为结束信息。
由上述定位规则划分出的段落如下
原告刘某,女,1988年10月18日出生,土家族。
委托代理人焦永华,重庆渝东律师事务所律师(一般授权代理)。
被告冯某,男,1987年11月12日出生,苗族。
原告刘某诉被告冯某离婚一案,本院于2015年5月20日立案受理,依法由审判员谢顺福任审判长,与审判员谢光泽、人民陪审员谢顺智组成合议庭,适用普通程序于2015年9月14日公开开庭进行了审理,被告冯某经本院公告送达期满后,未到庭参加诉讼,本院依法缺席审理,本案现已审理终结。
在所述每个所述前置定位节点按照前置最近匹配规则,每个所述后置定位节点按照后置最远匹配规则时,参见图4,本申请又一实施例提供的步骤14包括:
步骤41:将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息。
本步骤的具体匹配过程与步骤31相同,不再赘述。
步骤42:根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最远的前置匹配信息确定为起始信息。
由于每个所述前置定位节点按照最近匹配规则,最近匹配规则为将距离文本第一个字符最远,即与文本第一个字符间隔字符数最多的前置匹配信息确定为起始信息。
步骤43:将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息。
本步骤的具体匹配过程与步骤31相同,不再赘述。
步骤44:根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最远的后置匹配信息确定为结束信息。
由于每个所述后置定位节点按照后置最远匹配规则进行匹配,后置最远匹配规则为将位于所述起始信息之后且距离所述起始信息最远,即与起始信息相隔字符数最多的后置匹配信息确定为结束信息。
以上面实施例提供的法律裁判文书为例,并且具有与上面例子同样的前置定位节点、后置定位节点及抽取表达式集。
前置定位节点对应的抽取表达式经过模式匹配后,在文本中有多个前置匹配信息,如“原告刘某”,“委托代理人”等,按照前置最近匹配规则,将距离该文本第一个字符最远,即与文本第一个字符相隔字符数最多的前置匹配信息为“原告刘某”确定为起始信息。
同样,后置定位节点对应的抽取表达式经过模式匹配后,在文本中有多个后置匹配信息,如“离婚一案”,“本案现已审理终结”等,按照后置最远匹配规则,由于在起始信息“原告刘某”之后且与其距离最远,即与起始信息“原告刘某”相隔字符数最多的后置匹配信息为“本案现已审理终结”,因此将后置匹配信息为“本案现已审理终结”确定为结束信息。
由上述定位规则划分出的段落如下:
原告刘某诉被告冯某离婚一案,本院于2015年5月20日立案受理,依法由审判员谢顺福任审判长,与审判员谢光泽、人民陪审员谢顺智组成合议庭,适用普通程序于2015年9月14日公开开庭进行了审理,被告冯某经本院公告送达期满后,未到庭参加诉讼,本院依法缺席审理,本案现已审理终结。
在所述每个所述前置定位节点按照前置最远匹配规则,每个所述后置定位节点按照后置最近匹配规则时,参见图5,本申请又一实施例提供的步骤14包括:
步骤51:将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息。
本步骤的具体匹配过程与步骤31相同,不再赘述。
步骤52:根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最近的前置匹配信息确定为起始信息。
由于每个所述前置定位节点按照最远匹配规则,最远匹配规则为将距离文本第一个字符最近,即与文本第一个字符间隔字符数最少的前置匹配信息确定为起始信息。
步骤53:将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息。
本步骤的具体匹配过程与步骤31相同,不再赘述。
步骤54:根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最近的后置匹配信息确定为结束信息。
由于每个所述后置定位节点按照后置最近匹配规则进行匹配,后置最近匹配规则为将位于所述起始信息之后且距离所述起始信息最近,即与起始信息相隔字符数最少的后置匹配信息确定为结束信息。
以上面实施例提供的法律裁判文书为例,并且具有与上面例子同样的前置定位节点、后置定位节点及抽取表达式集。
前置定位节点对应的抽取表达式经过模式匹配后,在文本中有多个前置匹配信息,如“原告刘某”,“委托代理人”等,按照前置最远匹配规则,将距离该文本第一个字符最近的前置匹配信息“原告刘某”确定为起始信息。
同样,后置定位节点对应的抽取表达式经过模式匹配后,在文本中有多个后置匹配信息,如“离婚一案”,“本案现已审理终结”等,按照后置最近匹配规则,由于在起始信息“原告刘某”之后且与其距离最近的后置匹配信息,即与起始信息“原告刘某”相隔字符数最少的后置匹配信息为“离婚一案”,因此将后置匹配信息为“离婚一案”确定为结束信息。
由上述定位规则划分出的段落如下:
原告刘某,女,1988年10月18日出生,土家族。
委托代理人焦永华,重庆渝东律师事务所律师(一般授权代理)。
被告冯某,男,1987年11月12日出生,苗族。
原告刘某诉被告冯某离婚一案
在所述每个所述前置定位节点按照前置最近匹配规则,每个所述后置定位节点按照后置最近匹配规则时,参见图6,本申请又一实施例提供的步骤14包括:
步骤61:将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息。
本步骤的具体匹配过程与步骤31相同,不再赘述。
步骤62:根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最远的前置匹配信息确定为起始信息。
由于每个所述前置定位节点按照最近匹配规则,最近匹配规则为将距离文本第一个字符最远,即与文本第一个字符间隔字符数最多的前置匹配信息确定为起始信息。
步骤63:将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息。
本步骤的具体匹配过程与步骤31相同,不再赘述。
步骤64:根据每个所述后置匹配信息在所述文本中的位置,将距离所述文本第一个字符最近的后置匹配信息确定为结束信息。
由于每个所述后置定位节点按照后置最近匹配规则进行匹配,后置最近匹配规则为将位于所述起始信息之后且距离所述起始信息最近,即与起始信息相隔字符数最少的后置匹配信息确定为结束信息。
以上面实施例提供的法律裁判文书为例,并且具有与上面例子同样的前置定位节点、后置定位节点及抽取表达式集。
前置定位节点对应的抽取表达式经过模式匹配后,在文本中有多个前置匹配信息,如“原告刘某”,“委托代理人”等,按照前置最近匹配规则,将距离该文本第一个字符最远的前置匹配信息“原告刘某”确定为起始信息。
同样,后置定位节点对应的抽取表达式经过模式匹配后,在文本中有多个后置匹配信息,如“离婚一案”,“本案现已审理终结”等,按照后置最近匹配规则,由于在起始信息“原告刘某”之后且与其距离最近的后置匹配信息,即与起始信息“原告刘某”相隔字符数最少的后置匹配信息为“离婚一案”,因此将后置匹配信息为“本案现已审理终结”确定为结束信息。
由上述定位规则划分出的段落如下:
原告刘某诉被告冯某离婚一案
由上述实施例可知,不同定位规则,进而使起始信息和结束信息的不同,可划分不同的段落,因此,本申请具有较高的灵活性,可满足用户的不同需求。
具体地,预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。用户根据实际的筛选需求,选择不同的筛选规则。当预设的筛选规则为子节点筛选规则时,参见图7,本申请又一实施提供的上述步骤13包括如下步骤:
步骤71:响应于用户选择所述节点的操作,将所述模型树中所选的节点确定为目标节点,所述目标节点包括前置目标节点和后置目标节点。
用户根据实际情况,在模型树的节点中选取目标节点,即前置目标节点和后置目标节点。以图2所示的模型树为例,假设用户需抽取从目录结构中再审的信息开始,到信息提取中再审的相关信息截止所组成的段落,将从属与节点“目录结构”的“再审”确定为前置目标节点;将从属与节点“信息提取”的“再审”确定为后置目标信息节点。
步骤72:判断所述前置目标节点是否具有至少一个第一子节点。
如果所述前置目标节点具有至少一个第一子节点,则执行步骤73。
步骤73:将每个所述第一子节点均确定为前置定位节点。
继续以上面的例子为例,从属与节点“目录结构”的“再审”的子节点为“当事人信息”、“案件信息”、“审理经过”和“裁判结果”。因此,将上述子节点均确定为前置定位节点。
步骤74:判断所述后置目标节点是否具有至少一个第二子节点。
如果所述后置目标节点具有至少一个第二子节点,则执行步骤75。
步骤75:将每个所述第二子节点均确定为后置定位节点。
继续以上面的例子为例,从属与节点“信息提取”的“再审”的子节点为“当事人信息”和“裁判结果”。因此,将上述子节点均确定为后置定位节点。
步骤76:根据所述前置定位节点和后置定位节点,生成定位节点集。
当预设的筛选规则为全部节点筛选规则时,参见图8,本申请又一实施提供的上述步骤13包括如下步骤:
步骤81:响应于用户选择所述节点的操作,将模型树中所选的节点确定为目标节点,所述目标节点包括前置目标节点和后置目标节点。
步骤82:判断所述前置目标节点是否具有第一子孙节点,所述第一子孙节点为后继于所述前置目标节点的第一层级至第N层级的所有节点,其中,后继于所述前置目标节点的第N层级的节点为最末层级节点,N为大于1的正整数。
如果所述前置目标节点具有第一子孙节点,则执行步骤83。
步骤83:将每个所述第一子孙节点均确定为前置定位节点。
同样以上述例子为例,从属与节点“目录结构”的“再审”的子孙节点包括后继于其的第一层级的节点“当事人信息”、“原告人信息”、“被告人信息”、“案件信息”,以及后继于其的第二层级的节点“审理经过”、“审理经过”和“裁判结果”。因此,将上述子孙节点均确定为前置定位节点。
步骤84:判断所述后置目标节点是否具有第二子孙节点,所述第二子孙节点为后继于所述后置目标节点的第一层级至第N层级的所有节点,其中,后继于所述后置目标节点的第N层级的节点为最末层级节点,N为大于1的正整数。
如果所述后置目标节点具有第二子孙节点,则执行步骤85。
步骤85:将每个所述第二子孙节点均确定为后置定位节点。
继续以上面的例子为例,从属与节点“信息提取”的“再审”的子孙节点包括后继于其的第一层级的节点“当事人信息”和“裁判结果”,以及后继于其的第二层级的节点“原告人信息”和“被告人信息”。因此,将上述子孙节点均确定为后置定位节点。
步骤86:根据所述前置定位节点和后置定位节点,生成定位节点集。
当预设的筛选规则为全部节点筛选规则时,参见图9,本申请又一实施提供的上述步骤13包括如下步骤:
步骤91:响应于用户选择所述节点的操作,将模型树中所选的节点确定为目标节点,所述目标节点包括前置目标节点和后置目标节点。
用户根据实际情况,在模型树的节点中选取目标节点,即前置目标节点和后置目标节点。以图2所示的模型树为例,假设用户需抽取从目录结构中再审的当事人信息开始,到信息提取中二审的当事人相关信息截止所组成的段落,将从属与节点“目录结构”下的“当事人信息”确定为前置目标节点;将从属与节点“信息提取”的“二审”下的“当事人信息”确定为后置目标信息节点。
步骤92:将所述前置目标节点确定为前置定位节点。
步骤93:将所述后置目标节点确定为后置定位节点。
步骤94:根据所述前置定位节点和后置定位节点,生成定位节点集。
有上述实施例可以看出,通过不同的筛选规则,生成定位节点不同,用户可根据实际情况进行设置筛选规则,例如,如果用户想抽取的段落包含信息较多,可选择子节点和全部节点筛选规则,以涵盖更多的节点,进而对应的抽取表达式集也较多,匹配出的内容也较为丰富。如果用户想抽取含有某个特定信息的段落,则可选择当前节点筛选规则,只包含一个前置定位节点和一个后置定位节点,进而只有该两个节点对应的抽取表达式集,从而得到含有某个特定信息的段落。因此,上述实施例可进一步提高抽取段落的灵活性,满足不同的抽取需求。
参见图10,第二方面,本申请提供一种文本段落的抽取装置包括:
获取模块101,用于获取文本;
创建模块102,用于创建与所述文本对应的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
生成模块103,用于将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集,其中,所述定位节点集包括至少一个前置定位节点和至少一个后置定位节点,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则;
匹配模块104,用于将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息,其中,所述匹配规则包括前置匹配规则和后置匹配规则,所述前置匹配规则为前置最远匹配规则或前置最近匹配规则,所述后置匹配规则为后置最远匹配规则或后置最近匹配规则;
确定模块105,用于根据起始信息和结束信息,确定所述文本的段落;
抽取模块106,用于抽取所述段落的文本信息。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以似的一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分可相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处,尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (9)

1.一种文本段落的抽取方法,其特征在于,所述方法包括:
获取文本;
创建与所述文本对应的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集,其中,所述定位节点集包括至少一个前置定位节点和至少一个后置定位节点,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则;
将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息,其中,所述匹配规则包括前置匹配规则和后置匹配规则,所述前置匹配规则为前置最远匹配规则或前置最近匹配规则,所述后置匹配规则为后置最远匹配规则或后置最近匹配规则;
根据所述起始信息和结束信息,确定所述文本的段落;
抽取所述段落的文本信息;
当预设的筛选规则为当前节点筛选规则时,所述将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集包括:
响应于用户选择所述节点的操作,将所述模型树中所选的节点确定为目标节点,所述目标节点包括前置目标节点和后置目标节点;
将所述前置目标节点确定为前置定位节点;
将所述后置目标节点确定为后置定位节点;
根据所述前置定位节点和后置定位节点,生成定位节点集。
2.如权利要求1所述的方法,其特征在于,当每个所述前置定位节点按照前置最远匹配规则,每个所述后置定位节点按照后置最远匹配规则时,所述将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息包括:
将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息;
根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最近的前置匹配信息确定为起始信息;
将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息;
根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最远的后置匹配信息确定为结束信息。
3.如权利要求1所述的方法,其特征在于,当每个所述前置定位节点按照前置最近匹配规则,每个所述后置定位节点按照后置最远匹配规则时,所述将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息包括:
将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息;
根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最远的前置匹配信息确定为起始信息;
将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息;
根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最远的后置匹配信息确定为结束信息。
4.如权利要求1所述的方法,其特征在于,当每个所述前置定位节点按照前置最远匹配规则,每个所述后置定位节点按照后置最近匹配规则时,所述将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息包括:
将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息;
根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最近的前置匹配信息确定为起始信息;
将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息;
根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最近的后置匹配信息确定为结束信息。
5.如权利要求1所述的方法,其特征在于,当每个所述前置定位节点按照前置最近匹配规则,每个所述后置定位节点按照后置最近匹配规则时,所述将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息包括:
将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息;
根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最远的前置匹配信息确定为起始信息;
将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息;
根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最近的后置匹配信息确定为结束信息。
6.如权利要求1所述的方法,其特征在于,当预设的筛选规则为子节点筛选规则时,所述将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集包括:
响应于用户选择所述节点的操作,将所述模型树中所选的节点确定为目标节点,所述目标节点包括前置目标节点和后置目标节点;
判断所述前置目标节点是否具有至少一个第一子节点;
如果所述前置目标节点具有至少一个第一子节点,则将每个所述第一子节点均确定为前置定位节点;
判断所述后置目标节点是否具有至少一个第二子节点;
如果所述后置目标节点具有至少一个第二子节点,则将每个所述第二子节点均确定为后置定位节点;
根据所述前置定位节点和后置定位节点,生成定位节点集。
7.如权利要求1所述的方法,其特征在于,当预设的筛选规则为全节点筛选规则时,所述将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集包括:
响应于用户选择所述节点的操作,将所述模型树中所选的节点确定为目标节点,所述目标节点包括前置目标节点和后置目标节点;
判断所述前置目标节点是否具有第一子孙节点,所述第一子孙节点为后继于所述前置目标节点的第一层级至第N层级的所有节点,其中,后继于所述前置目标节点的第N层级的节点为最末层级节点,N为大于1的正整数;
如果所述前置目标节点具有第一子孙节点,则将每个所述第一子孙节点均确定为前置定位节点;
判断所述后置目标节点是否具有第二子孙节点,所述第二子孙节点为后继于所述后置目标节点的第一层级至第N层级的所有节点,其中,后继于所述后置目标节点的第N层级的节点为最末层级节点,N为大于1的正整数;
如果所述后置目标节点具有第二子孙节点,则将每个所述第二子孙节点均确定为后置定位节点;
根据所述前置定位节点和后置定位节点,生成定位节点集。
8.如权利要求1所述的方法,其特征在于,所述抽取所述段落的文本信息之后包括:
将所述段落的文本信息与预设的标题名称输出。
9.一种文本段落的抽取装置,其特征在于,所述装置包括:
获取模块,用于获取文本;
创建模块,用于创建与所述文本对应的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;
生成模块,用于将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集,其中,所述定位节点集包括至少一个前置定位节点和至少一个后置定位节点,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则;
匹配模块,用于将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息,其中,所述匹配规则包括前置匹配规则和后置匹配规则,所述前置匹配规则为前置最远匹配规则或前置最近匹配规则,所述后置匹配规则为后置最远匹配规则或后置最近匹配规则;
确定模块,用于根据起始信息和结束信息,确定所述文本的段落;
抽取模块,用于抽取所述段落的文本信息;
生成模块,还用于在预设的筛选规则为当前节点筛选规则时,响应于用户选择所述节点的操作,将所述模型树中所选的节点确定为目标节点,所述目标节点包括前置目标节点和后置目标节点;将所述前置目标节点确定为前置定位节点;将所述后置目标节点确定为后置定位节点;根据所述前置定位节点和后置定位节点,生成定位节点集。
CN201710958999.4A 2017-10-16 2017-10-16 一种文本段落的抽取方法及装置 Active CN107679038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710958999.4A CN107679038B (zh) 2017-10-16 2017-10-16 一种文本段落的抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710958999.4A CN107679038B (zh) 2017-10-16 2017-10-16 一种文本段落的抽取方法及装置

Publications (2)

Publication Number Publication Date
CN107679038A CN107679038A (zh) 2018-02-09
CN107679038B true CN107679038B (zh) 2021-05-28

Family

ID=61141235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710958999.4A Active CN107679038B (zh) 2017-10-16 2017-10-16 一种文本段落的抽取方法及装置

Country Status (1)

Country Link
CN (1) CN107679038B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334626B (zh) * 2018-02-12 2022-06-10 百度在线网络技术(北京)有限公司 新闻栏目的生成方法、装置和计算机设备
CN109657221B (zh) * 2018-12-13 2023-08-01 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN110765188A (zh) * 2019-09-05 2020-02-07 中科鼎富(北京)科技发展有限公司 合同相对方信息的结构化方法及装置
CN111931479A (zh) * 2020-08-10 2020-11-13 鼎富智能科技有限公司 基于合同纠纷判决书的信息抽取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1669896A2 (en) * 2004-12-03 2006-06-14 Panscient Pty Ltd. A machine learning system for extracting structured records from web pages and other text sources
CN102087666A (zh) * 2011-01-30 2011-06-08 华东师范大学 一种基于节点与关键字覆盖关系的索引及其构建方法和查询方法
CN105630797A (zh) * 2014-10-29 2016-06-01 阿里巴巴集团控股有限公司 数据处理方法及系统
CN105955616A (zh) * 2016-04-29 2016-09-21 北京小米移动软件有限公司 一种选取文档内容的方法和装置
CN106815208A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841919B (zh) * 2012-06-30 2016-08-03 北京神州泰岳软件股份有限公司 一种会话文本中表情解析的方法和系统
CN103294781B (zh) * 2013-05-14 2016-12-28 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN106815206A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1669896A2 (en) * 2004-12-03 2006-06-14 Panscient Pty Ltd. A machine learning system for extracting structured records from web pages and other text sources
CN102087666A (zh) * 2011-01-30 2011-06-08 华东师范大学 一种基于节点与关键字覆盖关系的索引及其构建方法和查询方法
CN105630797A (zh) * 2014-10-29 2016-06-01 阿里巴巴集团控股有限公司 数据处理方法及系统
CN106815208A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置
CN105955616A (zh) * 2016-04-29 2016-09-21 北京小米移动软件有限公司 一种选取文档内容的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于标签路径特征的网页正文自适应抽取方法研究;胡骏;《中国优秀硕士学位论文全文数据库》;20170215(第2期);全文 *

Also Published As

Publication number Publication date
CN107679038A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107729480B (zh) 一种限定区域的文本信息抽取方法及装置
CN107679038B (zh) 一种文本段落的抽取方法及装置
US9501467B2 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
CN102880649B (zh) 一种个性化信息处理方法和系统
Wiltshier Researching with NVivo
CA2807494C (en) Method and system for integrating web-based systems with local document processing applications
CA2360067A1 (en) Any-to-any component computing system
CN103440232A (zh) 一种科技论文标准化自动检测编辑方法
CN109815383A (zh) 基于lstm的微博谣言检测及其资源库构建方法
CN103440233A (zh) 一种科技论文标准化自动检测编辑系统
CN109683881B (zh) 一种代码格式调整方法及装置
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
JP2020080025A (ja) 質問応答データ生成装置および質問応答データ生成方法
Vanhoutte An Introduction to the TEI and the TEI Consortium
Reiter et al. An NLP-based cross-document approach to narrative structure discovery
CN107729481B (zh) 一种自定义规则的文本信息抽取结果筛选方法及装置
Rubinstein Historical corpora meet the digital humanities: the Jerusalem corpus of emergent modern Hebrew
Meghini et al. Introducing narratives in Europeana: A case study
Jung Semantic wiki-based knowledge management system by interleaving ontology mapping tool
Zhou et al. Assisting in requirements goal modeling: a hybrid approach based on machine learning and logical reasoning
CN114970543A (zh) 一种众包设计资源的语义分析方法
Kucuk et al. Identification of coreferential chains in video texts for semantic annotation of news videos
Fusi Sailing for a Second Navigation: Paradigms in Producing Digital Content
Aguilar et al. Automatic medieval charters structure detection: A Bi-LSTM linear segmentation approach
Andrade Semantic enrichment of American English corpora through automatic semantic annotation based on top-level ontologies using the CRF clas-sification model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190904

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant after: China Science and Technology (Beijing) Co., Ltd.

Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: Beijing Shenzhou Taiyue Software Co., Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant