CN112380873B - 一种规范文书中被选中项确定方法及装置 - Google Patents
一种规范文书中被选中项确定方法及装置 Download PDFInfo
- Publication number
- CN112380873B CN112380873B CN202011412921.0A CN202011412921A CN112380873B CN 112380873 B CN112380873 B CN 112380873B CN 202011412921 A CN202011412921 A CN 202011412921A CN 112380873 B CN112380873 B CN 112380873B
- Authority
- CN
- China
- Prior art keywords
- candidate
- sequence number
- paragraphs
- stems
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 56
- 230000014509 gene expression Effects 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Abstract
本申请公开了一种规范文书中被选中项确定方法及装置,其中,所述方法包括:首先获取待处理规范文书中所有段落的序号次序;然后根据所述序号次序,获取待处理规范文书中各段落间的语义层级;接着利用预先构建的信息抽取模型,获取待处理规范文书中的候选项题干;最后根据各段落间的语义层级以及所述候选项题干,在所有候选项中获取被选中项。采用前述的方法或装置,能够根据语义层级以及候选项题干,在所有候选项中准确获取被选中项,进而够对被选中项进行分析,以便准确理解规范文书的内容。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种规范文书中被选中项确定方法及装置。
背景技术
规范文书,是指在特定的法律环境或商业环境下,给予个人或公司的某种特定格式的专业文件,例如:一些制式合同或者上市公司公告等文件都属于规范文书。规范文书中经常会出现多个候选项的描述,例如:在借款合同中,借款利率通常有两种选择:浮动利率和固定利率,借款人需在浮动利率和固定利率选择一种方式计算借款利率,该类条款在借款合同中即为候选项。
规范文书中候选项的特点是只有被选中项是有效的,其他的候选项在信息提取时是起干扰作用的;另外,候选项题干和被选中项的语义是相互补充的,也就是说,候选项题干与各被选中项中任一个或多个被选中项组合起来,才能构成完整的一句话。因此,只有正确定位到候选项的被选中项,才能准确分析该候选项以及对应被选中项的内容。
目前,在对候选项进行分析时,通常的做法是直接对候选项的语句进行分析,获得语义信息,根据语义信息对候选项进行分析,获取被选中项,但是这种分析方法很容易出现遗漏或者出错,导致无法准确定位到候选项中的被选中项。因此,为了使相关的人员能够准确地了解候选项以及对应的被选中项的内容,如何对规范文书中的候选项进行处理,获取被选中项,成为本领域技术人员亟待解决的技术问题。
发明内容
本申请提供了一种规范文书中被选中项确定方法及装置,以实现对规范文书中的候选项进行处理,获取被选中项。
第一方面,本申请实施例提供一种规范文书中被选中项确定方法,包括:
获取待处理规范文书中所有段落的序号次序;
根据所述序号次序,获取待处理规范文书中各段落间的语义层级;
利用预先构建的信息抽取模型,获取待处理规范文书中的候选项题干;
根据各段落间的语义层级以及所述候选项题干,在所有候选项中获取被选中项。
结合第一方面,在一种实现方式中,所述获取待处理规范文书中所有段落的序号次序包括:
确定待处理规范文书中所有段落的底层;
从底层向上递归分析,获取待处理规范文书中各段落对应的序号;
根据所述序号对应的组值,使用词表分析获取序号次序。
结合第一方面,在一种实现方式中,所述底层采用如下方法确定:
将待处理规范文书中各段落对应的序号与匹配词表中的正则表达式进行匹配,获取各序号对应的优先级值;
根据优先级值以及该序号对应段落的前后段落的序号类型,确定底层;其中,所述序号类型包括同类序号或非同类序号;
若底层对应的同类序号有多个,则对其进行折叠,形成折叠序号,将该折叠序号作为底层。
结合第一方面,在一种实现方式中,所述语义层级采用如下方法获取:
根据所述序号次序获取待处理规范文书各段落对应的序号的层级;
根据各段落对应的序号的层级识别各段落间的语义层级。
结合第一方面,在一种实现方式中,所述候选项题干采用如下方法获取:
利用所述待处理规范文书构建信息抽取模型;
利用所述信息抽取模型匹配所述待处理规范文书的所有段落,当信息抽取模型匹配到候选项题干的所在段落,则该段落即为候选项题干。
结合第一方面,在一种实现方式中,根据所述候选项题干以及段落间的语义层级获取被选中项,包括:
根据所述候选项题干以及段落间的语义层级,获取所有候选项;
利用所述候选项题干的语料匹配信息抽取模型中所有候选项子节点,候选项子节点包括被选中项;其中,所述语料包括所有候选项;
根据匹配到的候选项子节点的名称,获取对应的候选项子节点的选项序号;
根据选项序号从所有候选项中获取对应的被选中项。
结合第一方面,在一种实现方式中,所述方法还包括:
判断信息抽取模型是否匹配到候选项题干下的候选项子节点;
如果未匹配到所述候选项子节点,则直接以待处理规范文书中所有内容匹配所述候选项子节点。
第二方面,本申请实施例部分提供了一种规范文书中被选中项确定装置,包括:
序号次序获取模块,用于获取待处理规范文书中所有段落的序号次序;
语义层级获取模块,用于根据所述序号次序,获取待处理规范文书中各段落间的语义层级;
候选项题干获取模块,用于利用预先构建的信息抽取模型,获取待处理规范文书中的候选项题干;
被选中项获取模块,用于根据各段落间的语义层级以及所述候选项题干,在所有候选项中获取被选中项。
结合第二方面,在一种实现方式中,所述序号次序获取模块,包括:
底层确定单元,用于确定待处理规范文书中所有段落的底层;
序号获取单元,用于从底层向上递归分析,获取待处理规范文书中各段落对应的序号;
序号次序获取单元,用于根据所述序号对应的组值,使用词表分析获取序号次序。
结合第二方面,在一种实现方式中,所述底层确定单元,包括:
优先级值获取子单元,用于将待处理规范文书中各段落对应的序号与匹配词表中的正则表达式进行匹配,获取各序号对应的优先级值;
底层确定子单元,用于根据优先级值以及该序号对应段落的前后段落的序号类型,确定底层;其中,所述序号类型包括同类序号或非同类序号;
折叠序号获取单元,用于若底层对应的同类序号有多个,则对其进行折叠,形成折叠序号,将该折叠序号作为底层。
结合第二方面,在一种实现方式中,所述语义层级获取模块,包括:
序号的层级获取单元,用于根据所述序号次序获取待处理规范文书各段落对应的序号的层级;
语义层级获取单元,用于根据各段落对应的序号的层级识别各段落间的语义层级。
结合第二方面,在一种实现方式中,候选项题干获取模块,包括:
信息抽取模型构建单元,用于利用所述待处理规范文书构建信息抽取模型;
候选项题干获取单元,用于利用所述信息抽取模型匹配所述待处理规范文书的所有段落,当信息抽取模型匹配到候选项题干的所在段落,则该段落即为候选项题干。
结合第二方面,在一种实现方式中,被选中项获取模块,包括:
候选项获取单元,根据所述候选项题干以及段落间的语义层级,获取所有候选项;
候选项子节点获取单元,用于利用所述候选项题干的语料匹配信息抽取模型中所有候选项子节点,候选项子节点包括被选中项;其中,所述语料包括所有候选项;
选项序号获取单元,用于根据匹配到的候选项子节点的名称,获取对应的候选项子节点的选项序号;
被选中项获取单元,用于根据选项序号从所有候选项中获取对应的被选中项。
结合第二方面,在一种实现方式中,所述装置还包括:
判断模块,用于判断信息抽取模型是否匹配到候选项题干下的候选项子节点;
匹配模块,用于在信息抽取模型未匹配到所述候选项子节点时,则直接以待处理规范文书中所有内容匹配所述候选项子节点。
本申请实施例公开了一种规范文书中被选中项确定方法及装置,其中,所述方法包括:首先获取待处理规范文书中所有段落的序号次序;然后根据所述序号次序,获取待处理规范文书中各段落间的语义层级;接着利用预先构建的信息抽取模型,获取待处理规范文书中的候选项题干;最后根据各段落间的语义层级以及所述候选项题干,在所有候选项中获取被选中项。采用前述的方法或装置,能够根据语义层级以及候选项题干,在所有候选项中准确获取被选中项,进而够对被选中项进行分析,以便准确理解规范文书的内容。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种规范文书中被选中项确定方法的流程示意图;
图2是本申请实施例提供的一种规范文书中被选中项确定方法中,步骤S11的流程示意图;
图3是本申请实施例提供的一种折叠序号形成的示意图;
图4是本申请实施例提供的一种规范文书中被选中项确定方法中,步骤S12的流程示意图;
图5是本申请实施例提供的一种规范文书中被选中项确定方法中,步骤S13的流程示意图;
图6是本申请实施例提供的一种规范文书中被选中项确定方法中,步骤S14的流程示意图;
图7是本申请实施例提供的一种规范文书中被选中项确定装置的结构示意图;
图8是本申请实施例提供的一种规范文书中被选中项确定装置中,序号次序获取模块10的结构示意图;
图9是本申请实施例提供的一种规范文书中被选中项确定装置中,语义层级获取模块20的结构示意图;
图10是本申请实施例提供的一种规范文书中被选中项确定装置中,候选项题干获取模块30的结构示意图;
图11是本申请实施例提供的一种规范文书中被选中项确定装置中,被选中项获取模块40的结构示意图;
图12为本申请实施例提供的电子设备硬件结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
从文档中抽取所需的信息是常见的自然语言处理项目的基本需求,如背景技术可知,在规范文书中,所需信息有可能是多个候选项中的一个或多个,其他候选项就是干扰信息,类似于选择题一样,因此,如何从候选项中准确的找出被选中项,是本申请所要解决的技术问题。
示例1,针对某借款合同,部分内容如下:
3.3.1借款利率
3.3.1.1人民币借款,利率按以下第1种方式确定:
(1)固定利率(基准利率定价):按照.....。
(2)浮动利率(基准利率定价):按照......。
(3)固定利率(基础利率定价):按照......。
可见,针对上述借款合同,借款利率是按照(1)的方式确定的,也就是说(1)中的条款是被选中项,其他候选项则属于干扰项。
因此,为从候选项中准确的找出被选中项,本申请公开了一种规范文书中被选中项确定方法,参照图1所示,所述方法可以包括以下步骤:
S11,获取待处理规范文书中所有段落的序号次序。
在合同、论文、公司公告等规范文本中,常常以序号标志篇章语义关系,从序号次序可以得出序号的层级。因此,序号在识别并列语义、上下位语义中起着重要作用。如下示例,第十四个章节包含两个小标题“1、主要违约内容”、“2、违约责任承担”。两个小标题又分别包含几个子标题。
示例2,针对某租赁合同,部分内容如下:
十四、主要违约内容及责任承担
1、主要违约内容
(1)......
......
2、违约责任承担
(1)......
......
S12,根据所述序号次序,获取待处理规范文书中各段落间的语义层级。
其中,所述语义层级可以包括并列语义、上下位语义等等,例如上述示例2某租赁合同中,“1、主要违约内容”与“2、违约责任承担”为并列语义;“十四、主要违约内容及责任承担”与“1、主要违约内容”为上下位语义。因此,根据序号次序可获得各段落间的语义层级。
本步骤是根据序号的层级确定段落的层次结构,也就是说,根据步骤S11确定的序号次序可以得到序号的层级,然后根据序号的层级确定段落间的语义层级,也就是段落的层次结构。
S13,利用预先构建的信息抽取模型,获取待处理规范文书中的候选项题干。
其中,所述信息抽取模型可以是oec模型,所述信息抽取模型的构建方法可以采用现有技术中的构建方法,如ZL 201410155830.1公开的方法,本申请实施例不做具体限定。
本申请实施例中构建的信息抽取模型中可以包括候选项、候选项题干、候选项子节点以及其他节点和子节点等内容,以及上述内容对应的抽取表达式,其中,所述候选项包括候选项题干和候选项子节点,即候选项题干下的具体内容为候选项子节点;其他节点是非候选项的题干,该题干下的具体内容则为子节点。
本步骤是利用预先构建好的信息抽取模型,对所述待处理规范文书进行匹配,利用信息抽取模型找到待处理规范文书中的候选项题干,例如,在上述示例1中,候选项题干为“3.3.1.1人民币借款,利率按以下第1种方式确定”。
S14,根据各段落间的语义层级以及所述候选项题干,在所有候选项中获取被选中项。
本步骤是根据序号的层级确定段落的层次结构以后,以及识别出的候选项题干在所有候选项中获取被选中项。例如,上述示例1中,在三个候选项(1)、(2)和(3)中,得出(1)所在的选项为被选中项。
由以上可见,采用本申请提供的规范文书中被选中项确定方法,可以准确的从多个候选项中定位被选中项,进而可以对被选中项进行分析,以便准确理解规范文书的内容。
参见图2所示,作为示例,在本实施例或本发明其他某些实施例中,对于步骤S11,即获取待处理规范文书中所有段落的序号次序,可以包括以下子步骤:
S111,确定待处理规范文书中所有段落的底层。
其中,所述底层对应的是序号层级最低的段落。
所述底层可以采用如下方法确定:
(1)将待处理规范文书中各段落对应的序号与匹配词表中的正则表达式进行匹配,获取各序号对应的优先级值。
其中,所述匹配词表可以为预先构建的匹配词表,匹配词表中可以包含正则表达式以及每组正则表达式对应的优先级(即Priority)和组(即Group)的值。所述Priority值和Group值是根据正则表达式来确定的,Group值相同表示取相应的正则表达式中相同组的内容,例如,Group值均为2,则都取正则表达式中第2个组的内容,也就是取相应的正则表达式中第二个括号的内容。
匹配词表匹配到相应的正则表达式则返回相应的Priority的值。Priority的值越小,说明序号层级越高。比如“第三章”一般是一级标题。比如“3.1.2”的层级较低。匹配词表可如表1所示:
表1
(2)根据优先级值以及该序号对应段落的前后段落的序号类型,确定底层;其中,所述序号类型包括同类序号或非同类序号。
根据上表1中的Priority值可以确定以下几种情况为底层:
(a)Priority值为“1”或者“2”的,前面是非同类序号,后面是同类序号排序,中间无其他非折叠序号。
(b)Priority值为“3”或者“3”以下的,前面是非同类序号,以数字1开头,后面的是同类序号排序,中间无其他非折叠序号。
(c)Priority值为“3”或者“3”以下,前面是同类序号,例如:序号3后面的序号依次为(1)(2)(3)(1)(2)(3)。
(3)若底层对应的同类序号有多个,则对所述同类序号进行折叠,形成折叠序号,将该折叠序号作为底层。
在上述第三种情况(c)中,Priority值为“3”或者“3”以下,前面是同类序号时,其底层对应的同类序号有多个,因此,在底层序号前补充比底层序号高一层级的内部序号,再将多个内部序号折叠,形成折叠序号,例如,如图3所示,某合同中,序号3后面的序号依次为(1)(2)(3)(1)(2)(3),两组(1)(2)(3)均属于同类序号,为了便于处理,在每组同类序号的前面,也就是在每个序号(1)的前面都添加比序号(1)高一层级的同级序号,称作为内部序号1和内部序号2,内部序号1和内部序号2就可以代表两组同级序号(1)(2)(3),然后将内部序号1和内部序号2进行折叠成一个序号,形成折叠序号,将该折叠序号作为底层。
S112,从底层向上递归分析,获取待处理规范文书中各段落对应的序号。
在步骤S111确定底层之后,从底层向上依次递归分析,直到分析完所有含序号的段落,获取到待处理规范文书中各段落对应的序号。
S113,根据所述序号对应的组值,使用词表分析获取序号次序。
在步骤S111的分析中,已记录下序号匹配的Group值,然后利用词表分析对于Group值进行进一步匹配,匹配到词表分析的相应表达式,则输出对应序号次序,比如“第1项”;Group值是指取正则表达式的哪个组作为第几项。例如某行的语料为:1.固定利率,其匹配到的表达式为:(^|\n)([\d 0123456789]{1,2})[\..](?![\d 0123456789]),其Group值为2,指的是要取此表达式第2个括号内的字符串,即“([\d 0123456789]{1,2})”的部分,在例子中的语料中指的是“1”。
再比如,上述表达式:(^|\n)第([一二三四五六七八九十\d]{1,3})章,里面有两个组(一个左括号加最近的一个右括号构成一个组)Group的值为2,指取第2个组的内容,也就是“第三章”,里面的“三”。
词表分析举例如表2所示:
表2
需要注意的是,上述表1及表2仅仅是示例性的,具体应用中可根据实际需要更换表中的内容。
参见图4所示,作为示例,在本实施例或本发明其他某些实施例中,对于步骤S12,即根据所述序号次序,获取待处理规范文书中各段落间的语义层级,可以包括以下子步骤:
S121,根据所述序号次序获取待处理规范文书各段落对应的序号的层级。
S122,根据各段落对应的序号的层级识别各段落间的语义层级。
序号次序可以反映出序号的层级,例如,上述示例2中,序号:十四、1以及(1),则代表不同的序号层级,根据序号的层级可以确定出段落的层次结构,进而得到段落的语义层级,例如,序号十四和序号1位不同层级,因此,序号十四对应的段落与序号1对应的段落之间为上下位语义关系。
参见图5所示,作为示例,在本实施例或本发明其他某些实施例中,对于步骤S13,即利用预先构建的信息抽取模型,获取待处理规范文书中的候选项题干,可以包括以下子步骤:
S131,利用所述待处理规范文书构建信息抽取模型。
本步骤中,信息抽取模型的构建方法使用现有技术中的方法,本申请不做具体限定。
S132,利用所述信息抽取模型匹配所述待处理规范文书的所有段落,当信息抽取模型匹配到候选项题干的所在段落,则该段落即为候选项题干。
本步骤是按段落把全文依次送入信息抽取模型,利用信息抽取模型找到候选项题干所在段落,即信息抽取模型匹配到了相应的节点,就找到了题干所在段落。如,某段落匹配到了信息抽取模型中的“放款条款题干”,则说明这一段落是放款条款的题干。
参见图6所示,作为示例,在本实施例或本发明其他某些实施例中,对于步骤S14,即根据所述候选项题干以及段落间的语义层级获取被选中项,可以包括以下子步骤:
S141,根据所述候选项题干以及段落间的语义层级,获取所有候选项。
上述步骤获取的候选题题干就是所有候选项的前边界,然后根据段落间的语义层级定位到所有候选项的后边界,前边界与后边界之间就包括了所有候选项,也就是说,从上一步找到的总说段(题干)开始,到该总说段或者所有候选项的结束,构成所有候选项的全部内容。即分析含序号的段落,找到段落间的上下位关系,以此判断语义包含关系。具体方法如下:
根据总说段(题干)的序号从语料中向后找到其兄弟节点,或者其父亲的兄弟节点,或者其祖父的兄弟节点(以此类推,以出现靠前者为准)。比如总说句序号是3.1.2,则向下找到序号3.1.3,如果先一步找到序号3.2,则序号3.2即为目标段落;如果先一步找到序号4,则序号4即为目标段落,从序号3.1.2所在段落,到目标段落的前一段落,就是候选项的全部内容。
S142,利用所述候选项题干的语料匹配信息抽取模型中所有候选项子节点,候选项子节点包括被选中项。
S143,根据匹配到的候选项子节点的名称,获取对应的候选项子节点的选项序号。
S144,根据选项序号从所有候选项中获取对应的被选中项。
从所有候选项中识别被选中项的方法是用题干语料匹配信息抽取模型中“候选项”子节点,匹配到的节点的名称,则取对应的选项序号,根据选项序号从所有候选项中获取对应的被选中项。
获取到被选中项之后,将被选中项与题干组合,则形成完整语料,构成中间结果字符串输出,即可以对该语料进行分析,得到有效信息。
在上述过程中,有可能会出现未匹配到候选项题干下的候选项子节点的名称,因此,所述方法还包括:
S145,判断信息抽取模型是否匹配到候选项题干下的候选项子节点。
若是,则执行步骤S143。
S146,若否,即未匹配到所述候选项子节点,则直接以待处理规范文书中所有内容匹配所述候选项子节点。
也就是说,在全文分析中,匹配到“候选项题干”下特定子节点的合同,必须走步骤S143-S144的形成中间输出的流程,利用形成的中间输出,再去分析相应的节点,进行输出。若未匹配到“候选项题干”下特定子节点的合同(两者都未匹配到),则直接以全文分析相应的节点的模型。
例如,针对某借款合同,其中候选项题干下有“浮动利率/固定利率题干”、“放款条款题干”、“还款日条款题干”以及“空白板题干”这几个子节点,如果匹配到所述候选项子节点,则直接输出被选中项;如果未匹配到所述候选项子节点,则直接“浮动利率/固定利率”、“放款条款”、“还款日条款”这几个节点进行输出。
具体的,在上述借款合同中如匹配到“空白板题干”,则去掉此中间输出结果字符串匹配到的所有分析结果。
如果匹配到“浮动利率/固定利率题干”的合同,得到中间输出以后则以中间结果分析“浮动利率/固定利率”的子节点,未匹配到“浮动利率/固定利率题干”的合同,则以全文分析“浮动利率/固定利率”的子节点。在“浮动利率”和“固定利率”有结果的前提下,优先输出;如果“浮动利率”和“固定利率”没有结果,则输出“浮动利率优先级低”和“固定利率优先级低”的分析结果;如果分析到“固定利率”则不输出浮动利率,如果被选中项输出为“浮动利率”的合同,将中间结果输出“浮动利率”。
匹配到“放款条款题干”的合同,得到中间输出以后则以中间结果分析“放款条款”,未匹配到“放款条款”的合同,则以全文分析“放款条款”。
匹配到“还款日条款题干”的合同,得到中间输出以后则以中间结果分析“还款日条款”;或者未匹配到“还款日条款”的合同,则以全文分析“还款日条款”。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
参照图7所示,本申请实施例部分提供的一种规范文书中被选中项确定装置,包括:
序号次序获取模块10,用于获取待处理规范文书中所有段落的序号次序。
语义层级获取模块20,用于根据所述序号次序,获取待处理规范文书中各段落间的语义层级。
候选项题干获取模块30,用于利用预先构建的信息抽取模型,获取待处理规范文书中的候选项题干。
被选中项获取模块40,用于根据各段落间的语义层级以及所述候选项题干,在所有候选项中获取被选中项。
可选地,参照图8所示,所述序号次序获取模块10,包括:
底层确定单元101,用于确定待处理规范文书中所有段落的底层。
序号获取单元102,用于从底层向上递归分析,获取待处理规范文书中各段落对应的序号。
序号次序获取单元103,用于根据所述序号对应的组值,使用词表分析获取序号次序。
可选地,所述底层确定单元101,包括:
优先级值获取子单元,用于将待处理规范文书中各段落对应的序号与匹配词表中的正则表达式进行匹配,获取各序号对应的优先级值。
底层确定子单元,用于根据优先级值以及该序号对应段落的前后段落的序号类型,确定底层;其中,所述序号类型包括同类序号或非同类序号。
折叠序号获取单元,用于若底层对应的同类序号有多个,则对其进行折叠,形成折叠序号,将该折叠序号作为底层。
可选地,参照图9所示,所述语义层级获取模块20,包括:
序号的层级获取单元201,用于根据所述序号次序获取待处理规范文书各段落对应的序号的层级。
语义层级获取单元202,用于根据各段落对应的序号的层级识别各段落间的语义层级。
可选地,参照图10所示,候选项题干获取模块30,包括:
信息抽取模型构建单元301,用于利用所述待处理规范文书构建信息抽取模型。
候选项题干获取单元302,用于利用所述信息抽取模型匹配所述待处理规范文书的所有段落,当信息抽取模型匹配到候选项题干的所在段落,则该段落即为候选项题干。
可选地,参照图11所示,被选中项获取模块40,包括:
候选项获取单元401,根据所述候选项题干以及段落间的语义层级,获取所有候选项。
候选项子节点获取单元402,用于利用所述候选项题干的语料匹配信息抽取模型中所有候选项子节点,候选项子节点包括被选中项。
选项序号获取单元403,用于根据匹配到的候选项子节点的名称,获取对应的候选项子节点的选项序号。
被选中项获取单元404,用于根据选项序号从所有候选项中获取对应的被选中项。
可选地,被选中项获取模块40,还包括:
判断单元405,用于判断信息抽取模型是否匹配到候选项题干下的候选项子节点。
匹配单元406,用于在信息抽取模型未匹配到所述候选项子节点时,则直接以待处理规范文书中所有内容匹配所述候选项子节点。
图12为本申请实施例提供的电子设备硬件结构示意图。如图12所示,本申请实施例提供的电子设备包括:存储器1,用于存储程序指令;处理器2,用于调用并执行所述存储器中的程序指令,以实现上述实施例所述的规范文书中被选中项确定方法。
本实施例中,处理器2和存储器1可通过总线或其他方式连接。处理器2可以是通用处理器,例如中央处理器、数字信号处理器、专用集成电路,或者被配置成实施本申请实施例的一个或多个集成电路。存储器1可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘。
具体实现中,本申请实施例还提供了一种计算机存储介质,其中,该计算机存储介质可存储有程序,用于规范文书中被选中项确定装置的至少一个处理器执行所述计算机程序时,用于规范文书中被选中项确定装置执行上述实施例所述的用于裁判文书的证据信息提取方法。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (8)
1.一种规范文书中被选中项确定方法,其特征在于,包括:
获取待处理规范文书中所有段落的序号次序;
根据所述序号次序,获取待处理规范文书中各段落间的语义层级;
利用所述待处理规范文书构建信息抽取模型,所述信息抽取模型包括候选项及所述候选项对应的抽取表达式、候选项题干及所述候选项题干对应的抽取表达式、候选项子节点及所述候选项子节点对应的抽取表达式,所述候选项包括所述候选项题干和所述候选项子节点,所述候选项题干下的具体内容为所述候选项子节点;
利用所述信息抽取模型匹配所述待处理规范文书的所有段落,当所述信息抽取模型匹配到候选项题干的所在段落,则所述候选项题干的所在段落为候选项题干;
根据所述候选项题干以及段落间的语义层级,获取所有候选项的前边界和后边界,所述所有候选项的前边界为所述候选项题干,所述所有候选项的后边界为所述所有候选项的结束,所述所有候选项的前边界和后边界包括所述所有候选项;
根据所有候选项的前边界和后边界,获取所有候选项;
利用所述候选项题干的语料匹配信息抽取模型中所有候选项子节点,候选项子节点包括被选中项;其中,所述语料包括所有候选项;
根据匹配到的候选项子节点的名称,获取对应的候选项子节点的选项序号;
根据选项序号从所有候选项中获取对应的被选中项。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理规范文书中所有段落的序号次序包括:
确定待处理规范文书中所有段落的底层,所述底层对应序号层级最低的段落;
从底层向上递归分析,获取待处理规范文书中各段落对应的序号;
根据所述序号对应的组值,使用词表分析获取序号次序。
3.根据权利要求2所述的方法,其特征在于,所述底层采用如下方法确定:
将待处理规范文书中各段落对应的序号与匹配词表中的正则表达式进行匹配,获取各序号对应的优先级值;
根据优先级值以及该序号对应段落的前后段落的序号类型,确定底层;其中,所述序号类型包括同类序号或非同类序号。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述语义层级采用如下方法获取:
根据所述序号次序获取待处理规范文书各段落对应的序号的层级;
根据各段落对应的序号的层级识别各段落间的语义层级。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
判断信息抽取模型是否匹配到候选项题干下的候选项子节点;
如果未匹配到所述候选项子节点,则直接以待处理规范文书中所有内容匹配所述候选项子节点。
6.一种规范文书中被选中项确定装置,其特征在于,包括:
序号次序获取模块,用于获取待处理规范文书中所有段落的序号次序;
语义层级获取模块,用于根据所述序号次序,获取待处理规范文书中各段落间的语义层级;
候选项题干获取模块,用于利用所述待处理规范文书构建信息抽取模型,所述信息抽取模型包括候选项及所述候选项对应的抽取表达式、候选项题干及所述候选项题干对应的抽取表达式、候选项子节点及所述候选项子节点对应的抽取表达式,所述候选项包括所述候选项题干和所述候选项子节点,所述候选项题干下的具体内容为所述候选项子节点;
所述候选项题干获取模块还用于,利用所述信息抽取模型匹配所述待处理规范文书的所有段落,当所述信息抽取模型匹配到候选项题干的所在段落,则所述候选项题干的所在段落为候选项题干;
被选中项获取模块,用于根据各段落间的语义层级以及所述候选项题干,在所有候选项中获取被选中项,其中,所述根据各段落间的语义层级以及所述候选项题干,在所有候选项中获取被选中项,包括:
根据所述候选项题干以及段落间的语义层级,获取所有候选项的前边界和后边界,所述所有候选项的前边界为所述候选项题干,所述所有候选项的后边界为所述所有候选项的结束,所述所有候选项的前边界和后边界包括所述所有候选项;
根据所有候选项的前边界和后边界,获取所有候选项;
利用所述候选项题干的语料匹配信息抽取模型中所有候选项子节点,候选项子节点包括被选中项;其中,所述语料包括所有候选项;
根据匹配到的候选项子节点的名称,获取对应的候选项子节点的选项序号;
根据选项序号从所有候选项中获取对应的被选中项。
7.根据权利要求6所述的装置,其特征在于,所述序号次序获取模块,包括:
底层确定单元,用于确定待处理规范文书中所有段落的底层,所述底层对应序号层级最低的段落;
序号获取单元,用于从底层向上递归分析,获取待处理规范文书中各段落对应的序号;
序号次序获取单元,用于根据所述序号对应的组值,使用词表分析获取序号次序。
8.根据权利要求7所述的装置,其特征在于,所述底层确定单元,包括:
优先级值获取子单元,用于将待处理规范文书中各段落对应的序号与匹配词表中的正则表达式进行匹配,获取各序号对应的优先级值;
底层确定子单元,用于根据优先级值以及该序号对应段落的前后段落的序号类型,确定底层;其中,所述序号类型包括同类序号或非同类序号;
折叠序号获取单元,用于若底层对应的同类序号有多个,则对其进行折叠,形成折叠序号,将该折叠序号作为底层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412921.0A CN112380873B (zh) | 2020-12-04 | 2020-12-04 | 一种规范文书中被选中项确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011412921.0A CN112380873B (zh) | 2020-12-04 | 2020-12-04 | 一种规范文书中被选中项确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380873A CN112380873A (zh) | 2021-02-19 |
CN112380873B true CN112380873B (zh) | 2024-04-26 |
Family
ID=74591015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011412921.0A Active CN112380873B (zh) | 2020-12-04 | 2020-12-04 | 一种规范文书中被选中项确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380873B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5832048B1 (ja) * | 2014-12-24 | 2015-12-16 | 株式会社サンクスネット | 服薬関連情報出力装置、分析サーバ、服薬関連情報出力システム、服薬関連情報出力装置の動作方法、服薬関連情報出力装置の動作プログラム、分析サーバの動作方法、ならびに分析サーバの動作プログラム |
CN106409041A (zh) * | 2016-11-22 | 2017-02-15 | 深圳市鹰硕技术有限公司 | 一种填空题试题的生成和判卷的方法及系统 |
JP2017111755A (ja) * | 2015-12-18 | 2017-06-22 | 日本電気株式会社 | 医療面接支援装置、そのデータ処理方法、およびプログラム |
WO2018032813A1 (zh) * | 2016-08-15 | 2018-02-22 | 中兴通讯股份有限公司 | 下拉菜单显示方法、装置、组件、应用、存储介质和设备 |
CN109933803A (zh) * | 2019-03-25 | 2019-06-25 | 北京金山数字娱乐科技有限公司 | 一种成语信息展示方法、展示装置、电子设备及存储介质 |
CN110046236A (zh) * | 2019-03-20 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 一种非结构化数据的检索方法及装置 |
CN110688842A (zh) * | 2019-10-14 | 2020-01-14 | 中科鼎富(北京)科技发展有限公司 | 一种文档标题层级的分析方法、装置及服务器 |
CN111639170A (zh) * | 2020-05-29 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 答案选择方法、装置、计算机设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9830314B2 (en) * | 2013-11-18 | 2017-11-28 | International Business Machines Corporation | Error correction in tables using a question and answer system |
-
2020
- 2020-12-04 CN CN202011412921.0A patent/CN112380873B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5832048B1 (ja) * | 2014-12-24 | 2015-12-16 | 株式会社サンクスネット | 服薬関連情報出力装置、分析サーバ、服薬関連情報出力システム、服薬関連情報出力装置の動作方法、服薬関連情報出力装置の動作プログラム、分析サーバの動作方法、ならびに分析サーバの動作プログラム |
JP2017111755A (ja) * | 2015-12-18 | 2017-06-22 | 日本電気株式会社 | 医療面接支援装置、そのデータ処理方法、およびプログラム |
WO2018032813A1 (zh) * | 2016-08-15 | 2018-02-22 | 中兴通讯股份有限公司 | 下拉菜单显示方法、装置、组件、应用、存储介质和设备 |
CN106409041A (zh) * | 2016-11-22 | 2017-02-15 | 深圳市鹰硕技术有限公司 | 一种填空题试题的生成和判卷的方法及系统 |
CN110046236A (zh) * | 2019-03-20 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 一种非结构化数据的检索方法及装置 |
CN109933803A (zh) * | 2019-03-25 | 2019-06-25 | 北京金山数字娱乐科技有限公司 | 一种成语信息展示方法、展示装置、电子设备及存储介质 |
CN110688842A (zh) * | 2019-10-14 | 2020-01-14 | 中科鼎富(北京)科技发展有限公司 | 一种文档标题层级的分析方法、装置及服务器 |
CN111639170A (zh) * | 2020-05-29 | 2020-09-08 | 深圳壹账通智能科技有限公司 | 答案选择方法、装置、计算机设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
基于LaTeX的试卷模板设计及应用;金波;;电脑与电信(04);第56-58页 * |
基于浅层语义树核的阅读理解答案句抽取;张志昌 等;中文信息学报;20080115;22(01);第80-86页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112380873A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2750609C (en) | Methods and systems for matching records and normalizing names | |
CN107644010A (zh) | 一种文本相似度计算方法及装置 | |
US8560485B2 (en) | Generating a domain corpus and a dictionary for an automated ontology | |
FR2975201A1 (fr) | Analyse de texte utilisant des proprietes de listes linguistiques et non-linguistiques | |
JP5900367B2 (ja) | 検索装置、検索方法及びプログラム | |
US8200671B2 (en) | Generating a dictionary and determining a co-occurrence context for an automated ontology | |
TW200846939A (en) | Web-based collocation error proofing | |
EP2019361A1 (en) | A method and apparatus for extraction of textual content from hypertext web documents | |
RU2601166C2 (ru) | Разрешение анафоры на основе технологии глубинного анализа | |
JP2006244262A (ja) | 質問回答検索システム、方法およびプログラム | |
JP4600045B2 (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
US9063923B2 (en) | Method for identifying the integrity of information | |
JP6737151B2 (ja) | 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム | |
Siklósi | Using embedding models for lexical categorization in morphologically rich languages | |
Reynaert | OCR post-correction evaluation of early dutch books online-revisited | |
CN112380873B (zh) | 一种规范文书中被选中项确定方法及装置 | |
Chen et al. | An automatic method for extracting innovative ideas based on the scopus® database | |
JP5117744B2 (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
CN109933787B (zh) | 文本关键信息的提取方法、装置及介质 | |
JP5757551B2 (ja) | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム | |
JP2008112363A (ja) | 文書処理装置および文書処理プログラム | |
JP4866603B2 (ja) | 住所文字列取得方法および住所文字列取得システム | |
JP5085584B2 (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
Ladd | Imaginative networks: Tracing connections among early modern book dedications | |
JP5191204B2 (ja) | 連想検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |