CN109614460B - 法条数据处理方法、装置、存储介质及电子设备 - Google Patents
法条数据处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN109614460B CN109614460B CN201811542431.5A CN201811542431A CN109614460B CN 109614460 B CN109614460 B CN 109614460B CN 201811542431 A CN201811542431 A CN 201811542431A CN 109614460 B CN109614460 B CN 109614460B
- Authority
- CN
- China
- Prior art keywords
- law
- sentence
- sentence pattern
- pattern complexity
- complexity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 title claims abstract description 28
- 238000005516 engineering process Methods 0.000 claims description 24
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 8
- 239000000463 material Substances 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 238000009434 installation Methods 0.000 description 6
- 238000012806 monitoring device Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000003672 processing method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005507 spraying Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及法条数据处理方法、装置、存储介质及电子设备,属于数据处理技术领域。本申请包括:获取数据库中的法条数据;通过预设的规则确定法条的句式复杂程度,所述句式复杂程度包括:句式简单或者句式复杂;根据确定出的所述句式复杂程度对法条进行拆分处理。通过本申请可以实现根据法条的句式复杂程度对法条进行相应的拆分处理,有助于满足对法条的拆分处理精准度需求。
Description
技术领域
本申请属于数据处理技术领域,具体涉及法条数据处理方法、装置、存储介质及电子设备。
背景技术
法律是法典和律法的统称,分别规定国家公民在社会生活中可进行的事物和不可进行的事物。可划分为:宪法、法律、行政法规、地方性法规、自治条例和单行条例。其中,宪法是国家的根本大法。其他法律从属于宪法的强制性规范,是宪法的具体化。不同领域的法律都有其相对应的上下位法,比如:《中华人民共和国交通法》、浙江省实施《中华人民共和国道路交通安全法》办法、《杭州市道路交通安全管理条例》,在立法、法律审查等过程中,需要查找其对应的上下位法,确保新修订或新颁布的法律和原有法律不产生冲突。
由于法条基数大,采用人工方式分别对各个法条中进行拆分,然后抽取数据的话,需要花费大量的人力物力,成本太高,且抽取的结果质量会因个人因素形成差异,导致精度不高。
使用基于正则表达式的规则,虽然在一定程度上能够提高精度,但覆盖率太低,想要提高覆盖率需要建立大量的规则。并且当规则数量增加时,规则之间的互相冲突、覆盖等问题严重。
在大数据技术和人工智能技术不断发展的今天,相关技术中,使用自然语言处理技术来减轻人工作业的负担,例如,采用舆情分析系统等对自然语言进行处理,如:对微博评论、新闻简报等进行处理,抽取有用信息。
但因法律语言是技术性语言,有别于自然语言,因而不同于微博评论、新闻简报等,移植使用相关技术中的诸如舆情分析系统等对法律条文进行拆分,得到的拆分后的数据在精准度方面难以满足对法律条文的处理需求。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供法条数据处理方法、装置、存储介质及电子设备,有助于满足对法律条文拆分处理的精准度需求。
为实现以上目的,本申请采用如下技术方案:
第一方面,
本申请提供一种法条数据处理方法,包括:
获取数据库中的法条数据;
通过预设的规则确定法条的句式复杂程度,所述句式复杂程度包括:句式简单或者句式复杂;
根据确定出的所述句式复杂程度对法条进行拆分处理。
进一步地,所述预设的规则包括:
如果法条出现预设的关键词,则法条的句式复杂程度为句式简单;或者,
如果法条中目标标点符号的数量达到预设数量阈值,则法条的句式复杂程度为句式复杂,反之,则法条的句式复杂程度为句式简单;或者,
根据预设的关键词分值及对应的权重,得到法条的句式复杂程度的第一评定值;
根据法条中目标标点符号的数量及对应的权重,得到法条的句式复杂程度的第二评定值;
如果所述第一评定值和所述第二评定值之和大于等于预设评定阈值,则法条的句式复杂程度为句式复杂,反之,则法条的句式复杂程度为句式简单。
进一步地,如果通过预设的规则确定法条的句式复杂程度为句式简单,
所述根据确定出的所述句式复杂程度对法条进行拆分处理,包括:
将确定为句式简单的法条拆分成单独的句子;
通过关键词对拆分出的所述单独的句子进行分类;
使用预设的语言技术平台,在所述语言技术平台上应用与分好的类相匹配的句法模型,对分好类的所述单独的句子进行拆分,得到拆分后的数据。
进一步地,所述预设的语言技术平台采用哈工大语言技术平台。
进一步地,所述句法模型包括:禁止类句法模型或者义务类句法模型。
进一步地,如果通过预设的规则确定法条的句式复杂程度为句式复杂,
所述根据确定出的所述句式复杂程度对法条进行拆分处理,包括:
对确定为句式复杂的法条中的部分法条进行标注,并提供给基于注意力机制的Bi-LSTM神经网络模型进行训练,得到训练好的基于注意力机制的Bi-LSTM神经网络模型;
利用所述训练好的基于注意力机制的Bi-LSTM神经网络模型,对确定为句式复杂的法条进行拆分,并得到拆分后的数据。
进一步地,所述数据库中的法条数据包括结构化数据和/或非结构化数据。
第二方面,
本申请提供一种法条数据处理装置,包括:
获取模块,用于获取数据库中的法条数据;
确定模块,用于通过预设的规则确定法条的句式复杂程度,所述句式复杂程度包括:句式简单或者句式复杂;
拆分模块,用于根据确定出的所述句式复杂程度对法条进行拆分处理。
第三方面,
本申请提供一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
第四方面,
本申请提供了一种电子设备,包括:
上述所述的可读存储介质;以及
一个或者多个处理器,用于执行所述可读存储介质中的程序。
本申请采用以上技术方案,至少具备以下有益效果:
本申请提供的法条数据处理方法,通过预设的规则确定法条的句式复杂程度,所述句式复杂程度包括:句式简单或者句式复杂;根据确定出的所述句式复杂程度对法条进行拆分处理,以实现对法律条文的拆分处理,有助于满足对法律条文拆分处理的精准度需求。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个实施例提供的法条数据处理方法的流程示意图;
图2为本申请一个实施例提供的法条数据处理装置的结构示意图;
图3为本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
名称解释:
Bi-LSTM(Bidirectional-Long Short Term Memory,双向长短期记忆神经网络。
图1为本申请一个实施例提供的法条数据处理方法的流程示意图,如图3所示,该法条数据处理方法包括如下步骤:
S101、获取数据库中的法条数据。
可以理解的是,数据库中存储有法条数据,比如,存储有《中华人民共和国交通法》、浙江省实施《中华人民共和国道路交通安全法》办法、《杭州市道路交通安全管理条例》等等。
在具体应用中,数据库中存储的法条数据可以是结构化数据的形式,也可以是非结构化数据的形式。
在具体应用中,可通过电脑终端从数据库中获取法条数据。
S102、通过预设的规则确定法条的句式复杂程度,所述句式复杂程度包括:句式简单或者句式复杂。
在实际的法条中,一些法条的句式简单,比如:浙江省实施《中华人民共和国道路交通安全法》办法中的第十六条:
禁止在机动车上安装和使用接收交通技术监控设备信号或者影响交通技术监控设备正常使用的装置。
禁止在机动车号牌上安装、喷涂、粘贴影响交通技术监控信息接收的材料。
而也有一些法条的句式复杂,比如,《交通行政复议规定》的第十八条:
交通运输行政复议机关设置的法制工作机构应当对被申请人作出的具体行政行为进行审查,提出意见,经交通运输行政复议机关的负责人同意或者集体讨论通过后,按照下列规定作出交通运输行政复议决定:
(一)具体行政行为认定事实清楚,证据确凿,适用依据正确,程序合法,内容适当的,决定维持;
(二)被申请人不履行法定职责的,责令其在一定期限内履行;
(三)具体行政行为有下列情形之一的,决定撤销、变更或者确认该具体行政行为违法;决定撤销或者确认该具体行政行为违法的,可以责令被申请人在一定期限内重新作出具体行政行为:
1.主要事实不清、证据不足的;
2.适用依据错误的;
3.违反法定程序的;
4.超越或者滥用职权的;
5.具体行政行为明显不当的。
上述的两个示例性法条,通过直观感觉能轻易地判断出简单或者复杂。而站在程序方法判断的角度来看,如何判断简单或者复杂,却是一个需要解决的问题。为了解决该问题,需要通过相关预设的规则进行判断,对于预设的规则,本申请给出如下几种实施例方案。
第一个实施例,所述预设的规则包括:
如果法条出现预设的关键词,则法条的句式复杂程度为句式简单。
法律条文具有很强的规范性,对于禁止类的法律条文,言简意赅,条文语法结构简单,比如,上述提及的浙江省实施《中华人民共和国道路交通安全法》办法中的第十六条:
禁止在机动车上安装和使用接收交通技术监控设备信号或者影响交通技术监控设备正常使用的装置。
禁止在机动车号牌上安装、喷涂、粘贴影响交通技术监控信息接收的材料。
在具体应用中,预设的关键词可以包括:禁止。当法条中出现禁止一词时,确定该法条的句式复杂程度为句式简单。
需要指出的是,上述给出“禁止”作为预设的关键词,仅是用以举例说明。并非是形成对预设的关键词的限制。在具体应用中,该预设的关键词,也可以是其他的一个词。同时,该预设的关键词,可以是一个词,也可以多个词。
第二个实施例,所述预设的规则包括:
如果法条中目标标点符号的数量达到预设数量阈值,则法条的句式复杂程度为句式复杂,反之,则法条的句式复杂程度为句式简单。
在具体应用中,上述的目标标点符号,可以是逗号,也可以是封号,还可以逗号和封号。目标标点符号的数量能够在一定程度反映法条的句式复杂程度。比如上述提及的《交通行政复议规定》的第十八条具体内容,逗号和封号较多,导致句式复杂。因而,在形成预设的规则时,可以设置具体的预设数量阈值,作为划分句式简单和句式复杂的标准。
第三个实施例,所述预设的规则包括:
根据预设的关键词分值及对应的权重,得到法条的句式复杂程度的第一评定值;
根据法条中目标标点符号的数量及对应的权重,得到法条的句式复杂程度的第二评定值;
如果所述第一评定值和所述第二评定值之和大于等于预设评定阈值,则法条的句式复杂程度为句式复杂,反之,则法条的句式复杂程度为句式简单。
上述实施例方案,给关键词配置分值,结合关键词的分值和目标标点符号的数量,通过设置的权重,得到预设的规则,有助于提升规则的可靠性。在具体应用中,可以通过关键词分值乘以对应的权重得到第一评定值,可以通过目标标点符号的数量乘以对应的权重得到第二评定值。在形成预设的规则时,可以设置具体的预设评定阈值,作为划分句式简单和句式复杂的标准。
S103、根据确定出的所述句式复杂程度对法条进行拆分处理。
在一个实施例中,如果通过预设的规则确定法条的句式复杂程度为句式简单,
所述根据确定出的所述句式复杂程度对法条进行拆分处理,包括:
将确定为句式简单的法条拆分成单独的句子;
通过关键词对拆分出的所述单独的句子进行分类;
使用预设的语言技术平台,在所述语言技术平台上应用与分好的类相匹配的句法模型,对分好类的所述单独的句子进行拆分,得到拆分后的数据。
以下具体应用事例对上述实施例方案进行进一步说明。
以上述提及的浙江省实施《中华人民共和国道路交通安全法》办法中的第十六条为例:
禁止在机动车上安装和使用接收交通技术监控设备信号或者影响交通技术监控设备正常使用的装置。
禁止在机动车号牌上安装、喷涂、粘贴影响交通技术监控信息接收的材料。
根据预设的规则确定上述法条的句式复杂程度为简单,上述法条包括两个句子,因而可以拆分成两个单独的句子。以关键词为禁止为例进行分类,上述拆分出的两个单独的句子都被划归为禁止类。
在具体应用中,可以使用哈工大的语言技术平台,作为预设的语言技术平台,通过该平台使用与分好的类相匹配的句法模型,对分好类的所述单独的句子进行拆分,得到拆分后的数据。
在一个实施例中,所述句法模型可以包括:禁止类句法模型,该类句法模型可以包括:关键词和行为。以“禁止在机动车号牌上安装、喷涂、粘贴影响交通技术监控信息接收的材料”为例,其来源于浙江省实施《中华人民共和国道路交通安全法》办法中的第十六条,在哈工大的语言技术平台上使用禁止类句法模型对该句进行拆分,得到的拆分结果为:
关键词:禁止;行为:在机动车号牌上安装、喷涂、粘贴影响交通技术监控信息接收的材料。
所述句法模型还可以包括:义务类句法模型,该类句法模型可以包括关键词、主体、条件和行为。以“借道通行的车辆或者行人,应当让本道内的车辆或者行人优先通行”,其来源于浙江省实施《中华人民共和国道路交通安全法》办法中的第四十条,在哈工大的语言技术平台上使用义务类句法模型对该句进行拆分,得到的拆分结果为:
关键字:应当;主体:车辆或者行人;条件:借道通行;行为:让本道内的车辆或者行人优先通行。
通过上述实施例方法,可以较好地适用于对简单句式的法条的拆分,实现有助于提升拆分精度,使得拆分出的数据能够适用于法条的查询、匹配应用。
而对于复杂句式的法条,若移植应用在上述适用简单句式法条拆分的实施例方案时,句法模型设计的难度太大,而且不确定性无法完全考虑到。因而在本申请的另一个实施例中,本申请还给出了一种适用于对句式复杂法条拆分的实施例方案,具体为:
如果通过预设的规则确定法条的句式复杂程度为句式复杂,
所述根据确定出的所述句式复杂程度对法条进行拆分处理,包括:
对确定为句式复杂的法条中的部分法条进行标注,并提供给基于注意力机制的Bi-LSTM神经网络模型进行训练,得到训练好的基于注意力机制的Bi-LSTM神经网络模型;
利用所述训练好的基于注意力机制的Bi-LSTM神经网络模型,对确定为句式复杂的法条进行拆分,并得到拆分后的数据。
上述实施例方案中,需要对一定数量的句式复杂的法条进行标注,以提供给基于注意力机制的Bi-LSTM神经网络模型进行训练,在具体应用中,提供进行训练的标注好的法条数量越多,训练效果越好。
上述实施例方案中,采用基于注意力机制的Bi-LSTM神经网络模型,通过足够数量的标注好的句式复杂法条的训练,能够适用于句式复杂法条的拆分,有助于提升句式复杂法条的拆分精度。
上述的适用于句式复杂法条拆分的方案,在具体应用中,也可以应用于对句式简单法条的拆分。但是从数据处理压力和效率优化方案考虑,本申请先确定出法条的句式复杂程度,然后与之相应的处理方案对对应的法条进行拆分处理,既实现了提升对法条拆分处理的精准度,也降低了数据处理压力和提升了数据处理效率。
综上,本申请通过预设的规则确定法条的句式复杂程度,根据确定出的所述句式复杂程度对法条进行拆分处理,以实现对法律条文的拆分处理,有助于满足对法律条文拆分处理的精准度需求。
图2为本申请一个实施例提供的法条数据处理装置的结构示意图,如图2所示,该法条数据处理装置2包括:
获取模块21,用于获取数据库中的法条数据;
确定模块22,用于通过预设的规则确定法条的句式复杂程度,所述句式复杂程度包括:句式简单或者句式复杂;
拆分模块23,用于根据确定出的所述句式复杂程度对法条进行拆分处理。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在上述有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个实施例中,申请提供一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
关于上述实施例中的可读存储介质,其存储的程序执行操作的具体方式已经在上述有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3为本申请一个实施例提供的电子设备的结构示意图,如图3所示,该电子设备3包括:
上述所述的可读存储介质31;以及
一个或者多个处理器32,用于执行所述可读存储介质31中的程序。
关于上述实施例中的电子设备3,其处理器执32行所述可读存储介质31中的程序的具体方式已经在上述有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为:表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (7)
1.一种法条数据处理方法,其特征在于,包括:
获取数据库中的法条数据;
通过预设的规则确定法条的句式复杂程度,所述句式复杂程度包括:句式简单或者句式复杂;
根据确定出的所述句式复杂程度对法条进行拆分处理;
所述预设的规则包括:
如果法条出现预设的关键词,则法条的句式复杂程度为句式简单;或者,
如果法条中目标标点符号的数量达到预设数量阈值,则法条的句式复杂程度为句式复杂,反之,则法条的句式复杂程度为句式简单;或者,
根据预设的关键词分值及对应的权重,得到法条的句式复杂程度的第一评定值;
根据法条中目标标点符号的数量及对应的权重,得到法条的句式复杂程度的第二评定值;
如果所述第一评定值和所述第二评定值之和大于等于预设评定阈值,则法条的句式复杂程度为句式复杂,反之,则法条的句式复杂程度为句式简单;
如果通过预设的规则确定法条的句式复杂程度为句式简单,所述根据确定出的所述句式复杂程度对法条进行拆分处理,包括:
将确定为句式简单的法条拆分成单独的句子;
通过关键词对拆分出的所述单独的句子进行分类;
使用预设的语言技术平台,在所述语言技术平台上应用与分好的类相匹配的句法模型,对分好类的所述单独的句子进行拆分,得到拆分后的数据;
如果通过预设的规则确定法条的句式复杂程度为句式复杂,所述根据确定出的所述句式复杂程度对法条进行拆分处理,包括:
对确定为句式复杂的法条中的部分法条进行标注,并提供给基于注意力机制的Bi-LSTM神经网络模型进行训练,得到训练好的基于注意力机制的Bi-LSTM神经网络模型;
利用所述训练好的基于注意力机制的Bi-LSTM神经网络模型,对确定为句式复杂的法条进行拆分,并得到拆分后的数据。
2.根据权利要求1所述的方法,其特征在于,所述预设的语言技术平台采用哈工大语言技术平台。
3.根据权利要求1或2所述的方法,其特征在于,所述句法模型包括:禁止类句法模型或者义务类句法模型。
4.根据权利要求1所述的方法,其特征在于,所述数据库中的法条数据包括结构化数据和/或非结构化数据。
5.一种法条数据处理装置,其特征在于,包括:
获取模块,用于获取数据库中的法条数据;
确定模块,用于通过预设的规则确定法条的句式复杂程度,所述句式复杂程度包括:句式简单或者句式复杂,所述预设的规则包括:如果法条出现预设的关键词,则法条的句式复杂程度为句式简单;或者,如果法条中目标标点符号的数量达到预设数量阈值,则法条的句式复杂程度为句式复杂,反之,则法条的句式复杂程度为句式简单;或者,根据预设的关键词分值及对应的权重,得到法条的句式复杂程度的第一评定值;根据法条中目标标点符号的数量及对应的权重,得到法条的句式复杂程度的第二评定值;如果所述第一评定值和所述第二评定值之和大于等于预设评定阈值,则法条的句式复杂程度为句式复杂,反之,则法条的句式复杂程度为句式简单;
拆分模块,用于根据确定出的所述句式复杂程度对法条进行拆分处理;
如果通过预设的规则确定法条的句式复杂程度为句式简单,所述拆分模块具体用于:将确定为句式简单的法条拆分成单独的句子;通过关键词对拆分出的所述单独的句子进行分类;使用预设的语言技术平台,在所述语言技术平台上应用与分好的类相匹配的句法模型,对分好类的所述单独的句子进行拆分,得到拆分后的数据;
如果通过预设的规则确定法条的句式复杂程度为句式复杂,所述拆分模块具体用于:对确定为句式复杂的法条中的部分法条进行标注,并提供给基于注意力机制的Bi-LSTM神经网络模型进行训练,得到训练好的基于注意力机制的Bi-LSTM神经网络模型;利用所述训练好的基于注意力机制的Bi-LSTM神经网络模型,对确定为句式复杂的法条进行拆分,并得到拆分后的数据。
6.一种可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
7.一种电子设备,其特征在于,包括:
权利要求6中所述的可读存储介质;以及
一个或者多个处理器,用于执行所述可读存储介质中的程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811542431.5A CN109614460B (zh) | 2018-12-17 | 2018-12-17 | 法条数据处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811542431.5A CN109614460B (zh) | 2018-12-17 | 2018-12-17 | 法条数据处理方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614460A CN109614460A (zh) | 2019-04-12 |
CN109614460B true CN109614460B (zh) | 2023-03-10 |
Family
ID=66009546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811542431.5A Active CN109614460B (zh) | 2018-12-17 | 2018-12-17 | 法条数据处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614460B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472200B (zh) * | 2019-07-29 | 2023-10-27 | 深圳市中兴新云服务有限公司 | 一种基于表单的数据处理方法、装置及电子设备 |
CN111583072B (zh) * | 2020-04-27 | 2023-11-07 | 北京北大软件工程股份有限公司 | 法条上下位关系判断方法及处理终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815261A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书处理方法和装置 |
CN108009299A (zh) * | 2017-12-28 | 2018-05-08 | 北京市律典通科技有限公司 | 法律审判业务处理方法和装置 |
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646512B2 (en) * | 2014-10-24 | 2017-05-09 | Lingualeo, Inc. | System and method for automated teaching of languages based on frequency of syntactic models |
RU2657173C2 (ru) * | 2016-07-28 | 2018-06-08 | Общество с ограниченной ответственностью "Аби Продакшн" | Сентиментный анализ на уровне аспектов с использованием методов машинного обучения |
-
2018
- 2018-12-17 CN CN201811542431.5A patent/CN109614460B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815261A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书处理方法和装置 |
CN108009299A (zh) * | 2017-12-28 | 2018-05-08 | 北京市律典通科技有限公司 | 法律审判业务处理方法和装置 |
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
Non-Patent Citations (3)
Title |
---|
基于句法路径的中文评论细粒度情感分析;胡征等;《信息技术》;20180918(第09期);全文 * |
基于条件随机场模型的"评价特征-评价词"对抽取研究;李志义等;《情报学报》;20170424(第04期);全文 * |
针对特定几何语言的句法语义一体化分析方法;苏菲等;《计算机工程与设计》;20041028(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109614460A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Salmon et al. | Managing error on the open road: The contribution of human error models and methods | |
Li | Traffic incident duration analysis and prediction models based on the survival analysis approach | |
CN106294619A (zh) | 舆情智能监管方法 | |
CN109614460B (zh) | 法条数据处理方法、装置、存储介质及电子设备 | |
CN113033840B (zh) | 一种公路养护的判断方法和装置 | |
CN113239130A (zh) | 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质 | |
Shiau et al. | The application of data mining technology to build a forecasting model for classification of road traffic accidents | |
Park et al. | an investigation of the safety performance of roundabouts in Korea based on a random parameters count model | |
Khanfar et al. | Driving behavior classification at signalized intersections using vehicle kinematics: Application of unsupervised machine learning | |
CN115545437A (zh) | 一种基于多源异构数据融合的金融企业经营风险预警方法 | |
CN111144772A (zh) | 一种基于数据挖掘的道路运输安全风险实时评估方法 | |
Babisch et al. | Leveraging the gidas database for the criticality analysis of automated driving systems | |
Jin et al. | A comparative study on traffic violation level prediction using different models | |
Tao et al. | A traffic accident morphology diagnostic model based on a rough set decision tree | |
CN112463985A (zh) | 政务图谱模型构建方法、装置、设备及计算机可读介质 | |
CN102157061A (zh) | 一种基于关键字统计的交通事件识别方法 | |
CN111696347A (zh) | 一种自动化分析交通事件信息的方法和装置 | |
Syeda et al. | Exploiting natural language processing for analysing railway incident reports | |
Bosse et al. | Formal analysis of aviation incidents | |
Di Giuda et al. | Natural language processing and BIM in AECO sector: A state of the art | |
CN110415511A (zh) | 车辆信息管理方法、装置及存储介质 | |
CN113590825A (zh) | 文本质检方法、装置及相关设备 | |
Hossain et al. | Severity Analysis of Secondary Crashes on High-Speed Roadways: Pattern Recognition Using Association Rule Mining | |
CN112863223B (zh) | 公交车信息提示方法、装置、存储介质及程序产品 | |
Zheng et al. | Accident prediction for highway-rail grade crossings using decision tree approach: An empirical analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Method, device, storage medium, and electronic equipment for processing legal data Effective date of registration: 20230915 Granted publication date: 20230310 Pledgee: Beijing first financing Company limited by guarantee Pledgor: BEIJING PEKING UNIVERSITY SOFTWARE ENGINEERING CO.,LTD. Registration number: Y2023980057118 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |