CN112579788A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN112579788A
CN112579788A CN201910945256.2A CN201910945256A CN112579788A CN 112579788 A CN112579788 A CN 112579788A CN 201910945256 A CN201910945256 A CN 201910945256A CN 112579788 A CN112579788 A CN 112579788A
Authority
CN
China
Prior art keywords
dimension
administrative
dimension information
preset
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910945256.2A
Other languages
English (en)
Inventor
陈春磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201910945256.2A priority Critical patent/CN112579788A/zh
Publication of CN112579788A publication Critical patent/CN112579788A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法及装置,获取行政裁判文书以及预设监督维度,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息,基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。行政主体的画像表示行政职权的行为信息,行政裁判文书体现了诉讼角度,即实现了从诉讼角度对行政职权实行监督。

Description

数据处理方法及装置
技术领域
本发明涉及画像构建领域,更具体的说,涉及一种数据处理方法及装置。
背景技术
行政职权是指国家行政权的转化形式,是依法定位到具体行政主体身上的国家行政权,是各行政主体实施国家行政管理活动的资格及其权能。
在对行政职权实行监督时,主要是通过上级行政机关对下级行政机关的监督、行政职权内部检查监督等方式进行,即主要是通过人为监督方式实行监督,浪费人力,且并不涉及从诉讼角度对行政职权实行监督。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种数据处理方法及装置。
一种数据处理方法,包括:
获取行政裁判文书以及预设监督维度;
依据所述行政裁判文书,确定所述预设监督维度的第一维度信息;所述第一维度信息从所述行政裁判文书中提取;
依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息;所述第二维度信息基于所述第一维度信息统计分析得到,表征所述行政裁判文书的特性信息;
基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。
可选地,所述预设监督维度包括参考文件名称;
相应的,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,包括:
获取状态机调整规则;所述状态机调整规则包括跳转状态以及所述跳转状态对应的状态字符以及跳转项;
遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段;
将所述字段作为所述参考文件名称。
可选地,所述跳转状态包括起始状态、结束状态和关键字状态;
遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段,包括:
遍历所述行政裁判文书,若搜索到与所述起始状态对应的状态字符,继续向后遍历,判断是否出现与所述关键字状态对应的状态字符;
若出现,继续向后遍历,判断是否出现与所述结束状态对应的状态字符;
若出现,提取出位于所述起始状态对应的状态字符、以及所述结束状态对应的状态字符之间的字段。
可选地,所述预设监督维度包括行政主体;
相应的,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,包括:
通过组织机构命名实体识别方法定位到所述行政裁判文书中的预设段落,并对所述预设段落进行命名实体抽取,将抽取到的命名实体作为所述行政主体。
可选地,所述预设监督维度包括行政机关负责人、是否行政复议以及裁判结果中的至少一个;
相应的,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,包括:
采用正则匹配方法,从所述行政裁判文书中分别匹配到与所述行政机关负责人、是否行政复议以及裁判结果对应的内容。
可选地,依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息,包括:
获取预设评价维度的评价规则;所述评价规则包括确定所述预设评价维度的第二维度信息所需的所述第一维度信息中的目标数据以及所述目标数据的计算过程;
基于所述目标数据,按照所述计算过程进行计算,得到所述预设评价维度的第二维度信息;
或,
获取评价维度与维度评分的对应关系;
从所述对应关系中查找包括所述第一维度信息的预设评价维度对应的维度评分,并作为所述预设评价维度的第二维度信息。
可选地,基于所述预设评价维度的第二维度信息,构建所述行政主体的画像,包括:
将所述预设评价维度的第二维度信息以图表形式展示,得到所述行政主体的画像;所述图标形式包括雷达图。
一种数据处理装置,包括:
数据获取模块,用于获取行政裁判文书以及预设监督维度;
第一确定模块,用于依据所述行政裁判文书,确定所述预设监督维度的第一维度信息;所述第一维度信息从所述行政裁判文书中提取;
第二确定模块,用于依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息;所述第二维度信息基于所述第一维度信息统计分析得到,表征所述行政裁判文书的特性信息;
画像构建模块,用于基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的数据处理方法。
一种电子设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述的数据处理方法。
借由上述技术方案,本发明提供的一种数据处理方法及装置,获取行政裁判文书以及预设监督维度,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息,基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。行政主体的画像表示行政职权的行为信息,行政裁判文书体现了诉讼角度,即实现了从诉讼角度对行政职权实行监督。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种数据处理方法的方法流程图;
图2示出了本发明实施例提供的一种第一维度信息确定的场景示意图;
图3示出了本发明实施例提供的另一种数据处理方法的方法流程图;
图4示出了本发明实施例提供的一种状态机调整规则的场景示意图;
图5示出了本发明实施例提供的一种关键字的场景示意图;
图6示出了本发明实施例提供的一种参考文件名称的场景示意图;
图7示出了本发明实施例提供的一种评价维度与分值的对应关系图;
图8示出了本发明实施例提供的一种画像的场景示意图;
图9示出了本发明实施例提供的一种数据处理装置的结构示意图;
图10示出了本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种数据处理方法,通过构建行政主体的画像,实现从诉讼角度对行政职权实行监督。首先,先介绍两个相关概念。
1、涉诉行政机关,这里指国家行政执法部门发生的行政行为、行政不作为,与公民权利发生矛盾,公民对行政机关通过提起法律诉讼进行救济的情形。
行政职权监督,这里对行政职权监督区别于上级行政机关对下级行政机关、行政职权内部检查监督的情形。是从公众角度出发,通过行政诉讼案件中与公民权益发生冲突或矛盾的角度,对行政机关做出的行政行为、做出行为适用的规范性文件、信息公开情况以及出庭应诉率、行政复议率等方面进行辅助监督的概念。
本发明实施例从诉讼角度对行政职权实行监督的体系设计;对行政裁判文书的监督指标的信息抽取和指标运算,从而构建涉诉行政机关的画像。
参照图1,数据处理方法可以包括:
S11、获取行政裁判文书以及预设监督维度。
行政裁判文书是指历史已经结案的历史案件的裁判文书,预设监督维度的内容可以参照表1。
表1预设监督维度内容
Figure BDA0002223969980000051
Figure BDA0002223969980000061
其中,左边一列是指数据提取的位置,是在当事人信息数据位置还是在正文数据位置。预设监督维度包括行政机关名称、行政机关级别、行政机关负责人、矛盾权益、行政行为、行政管理范围、做出行政行为依据的规范性文件、是否行政复议、裁判结果、行政机关补救措施以及适用法律等内容。
预设监督维度的确定过程为:
利用分词、实体识别、依存句法关系、文本相似性比对以及词频统计方法技术,对公开的行政裁判文书中的高频词、实体名称等进行抽取并存储,作为基础资料供监督体系搭建应用。
行政专家通过上述步骤的采集到的数据,结合专业经验、行政职权监督法律文件,从诉讼角度进行体系框架的搭建,得到上述的表1。
在得到表1之后,针对每一行政裁判文书,需要得到该行政裁判文书在每一预设监督维度下的数据,即第一维度信息。
S12、依据所述行政裁判文书,确定所述预设监督维度的第一维度信息。
所述第一维度信息从所述行政裁判文书中提取,具体的,提取出行政裁判文书中的高频词、实体名称,将该高频词、实体名称与上述的预设监督维度做对应,可以得到部分预设监督维度的第一维度信息。但是仍然存在部分预设监督维度没有第一维度信息,此时可以利用文本解析技术、机器学习等方法进行信息抽取并存储,现以部分预设监督维度进行举例说明其第一维度信息的确定过程。
1、若所述预设监督维度包括行政主体。
行政主体也可以称为行政机关名称,此时可以通过组织机构命名实体识别方法定位到所述行政裁判文书中的预设段落,并对所述预设段落进行命名实体抽取,将抽取到的命名实体作为所述行政主体。
详细来说,通过组织机构命名实体识别的方法对裁判文书当事人信息段落部分(即预设段落)进行定位和抽取,识别到即输出。如图2所示,识别到的行政机关名称为淄博市公安局淄川分局。
2、所述预设监督维度包括行政机关负责人、是否行政复议以及裁判结果等中的至少一个。
此时,可以采用正则匹配方法,从所述行政裁判文书中分别匹配到与所述行政机关负责人、是否行政复议以及裁判结果对应的内容。
具体的,抽取行政机关负责人、是否行政复议以及裁判结果等预设监督维度,采用正则匹配方法,如裁判结果,在判决如下段落,适用正则表达式“(责令|判令|被告|被上诉人).{0,200}(重新作出|重作)”为责令重新作出行政行为;“确认.{0,200}(?<!不|没有)违法”为确认行政行为违法。
3、所述预设监督维度包括参考文件名称。
其中,参考文件名称也即上述的“做出行政行为依据的规范性文件”。相应的,步骤S12可以包括:
S21、获取状态机调整规则。
所述状态机调整规则包括跳转状态以及所述跳转状态对应的状态字符以及跳转项。在实际应用中,参照图4,所述跳转状态包括起始状态Left、结束状态Right和关键字状态Keyword。此外,还可以包括Any(任意字符)、other(其他)状态。
Left状态表示该状态机的起始,起始规则为识别到字符“《”,则跳转至any状态。然后,持续执行any状态直至出现Keyword,Keyword状态代表识别一些字符或者关键词,具体参照图5,关键词如法、条例、细则、规定等几种,对应的字符可以分别为法、条、细、规等,即出现法、条、细、规中任一时,会跳转至Keyword状态,其中,Keyword状态中的分词2中的all的含义指,可以识别到的全部分词,识别到即输出识别到的词。然后,持续执行Other或Right状态。Other状态非必须经过状态,如果无法识别到Other状态中的字符或者词性,则跳转至Right状态执行。
若出现Other对应的字符,即出现“(”“)”“(”“)”时,则代表识别到信息并输出;没有出现跳转至Right状态,识别到“》”时结束。
《和》之间的字段即为参考文件名称,也即为“做出行政行为依据的规范性文件”,“做出行政行为依据的规范性文件”可以包括图6中的“安全生产法”“保险法”“草原法”等等规范性文件。
S22、遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段。
具体的,遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段,包括:
1)遍历所述行政裁判文书,若搜索到与所述起始状态对应的状态字符,继续向后遍历,判断是否出现与所述关键字状态对应的状态字符;
2)若出现,继续向后遍历,判断是否出现与所述结束状态对应的状态字符;
3)若出现,提取出位于所述起始状态对应的状态字符、以及所述结束状态对应的状态字符之间的字段。
需要说明的是,步骤S12的具体解释说明,请参照上述实施例中的相应说明,在此不再赘述。
S23、将所述字段作为所述参考文件名称。
S13、依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息。
所述第二维度信息基于所述第一维度信息统计分析得到,表征所述行政裁判文书的特性信息。具体的,本实施例中,有两种确定第二维度信息的方法,具体的,对于可以提取出运算规则的预设评价维度,确定预设评价维度的运算规则,并依据运算规则计算出预设评价维度的第二维度信息。
具体的,步骤S13可以包括:
1)获取预设评价维度的评价规则;所述评价规则包括确定所述预设评价维度的第二维度信息所需的所述第一维度信息中的目标数据以及所述目标数据的计算过程。
2)基于所述目标数据,按照所述计算过程进行计算,得到所述预设评价维度的第二维度信息。
不同的预设评价指标的运算规则不同,也即评价规则不同,评价规则不同包括所需的目标数据不同,以及目标数据的计算过程也不同。
举例来说,出庭应诉率=行政机关负责人(案件量)/行政案件量*100%;
行政机关败诉率=裁判结果为败诉案件量/行政案件量*100%。
具体的,以出庭应诉率为例,所需的数据为行政机关负责人(案件量)以及行政案件量,具体的,行政机关名称可以为xxx公安局,即统计行政裁判文书中行政机关名称为xxx公安局的行政机关负责人的案件量,以及涉及xxx公安局所有的行政案件量,二者比值即为出庭应诉率。
对于不方便提取出运算规则的预设评价维度,此时可以利用抽取的维度构建涉诉行政机关的职权评价项,通过打分方式实现综合评定。参照图7,分值设置从公众及监督机关的角度出发,从行政行为管理对象,如人身(拘留)、财产(罚款)等影响设置分值;或从管理范围大小及力度,如公安(交通、消防、纠纷等)、工商(售假)等影响力度设置分值;或从行政诉讼结果考虑,行政机关行政行为对社会公众的影响程度,如确认行政行为违法、责令重新作出行政行为(有瑕疵),进行分值设置。
图7中的表格即为评价维度与维度评分的对应关系,在确定了预设监督维度之后,首先,获取预设监督维度的内容,即第一维度信息,然后参照图7,确定其内容对应的评分,得到的评分即为第二维度信息。举例来说,第一维度信息中的行政行为为行政许可,此时查找行政许可对应的分值,即为5,5即为第二维度信息。
需要说明的是,上述两种第二维度信息的确定工程相辅相成,针对不同的预设评价维度,可以采用上述的其中一种方法进行第二维度信息的确定。
S14、基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。
在实际应用中,可以将所述预设评价维度的第二维度信息以图表形式展示,得到所述行政主体的画像;所述图标形式包括雷达图。
具体的,参照图8,优选以雷达图的方式进行展示,可以将上述的第二维度信息转换成雷达图的面积,从而得到不同预设评价维度的图像化结果。
本实施例中,获取行政裁判文书以及预设监督维度,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息,基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。行政主体的画像表示行政职权的行为信息,行政裁判文书体现了诉讼角度,即实现了从诉讼角度对行政职权实行监督。
另外,本发明实施例首先从行政诉讼案例本身,通过相似度算法、分类、分析的技术方法,对重要的行政监督指标相关信息进行抽取,辅助专家制定行政监督体系。利用文本解析技术、命名实体识别技术以及自然语言处理NLP技术,对体系涉猎的维度进行精准抽取,同时对抽取到的维度通过运算规则获得监督指标。画像构建包括两部分,行政机关画像和涉诉行政案件画像,并结合监督评价模型,完成通过构建画像辅助职权监督的目的。从实际反映公众权益与行政机关职权矛盾的角度,实现行政法制的公众监督。可以实现司法公权力挖掘行政机关违法行为问题。可以聚焦公众权益与行政权力矛盾点,并根据挖掘的矛盾点完成涉诉行政机关定制画像构建。
可选的,在上述数据处理方法的实施例的基础上,本发明的另一实施例提供了一种数据处理装置,参照图9,包括:
数据获取模块101,用于获取行政裁判文书以及预设监督维度;
第一确定模块102,用于依据所述行政裁判文书,确定所述预设监督维度的第一维度信息;所述第一维度信息从所述行政裁判文书中提取;
第二确定模块103,用于依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息;所述第二维度信息基于所述第一维度信息统计分析得到,表征所述行政裁判文书的特性信息;
画像构建模块104,用于基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。
进一步,所述预设监督维度包括参考文件名称;
相应的,第一确定模块102用于依据所述行政裁判文书,确定所述预设监督维度的第一维度信息时,具体用于:
获取状态机调整规则;所述状态机调整规则包括跳转状态以及所述跳转状态对应的状态字符以及跳转项;
遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段;
将所述字段作为所述参考文件名称。
进一步,所述跳转状态包括起始状态、结束状态和关键字状态;
第一确定模块102用于遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段时,具体用于:
遍历所述行政裁判文书,若搜索到与所述起始状态对应的状态字符,继续向后遍历,判断是否出现与所述关键字状态对应的状态字符;
若出现,继续向后遍历,判断是否出现与所述结束状态对应的状态字符;
若出现,提取出位于所述起始状态对应的状态字符、以及所述结束状态对应的状态字符之间的字段。
进一步,所述预设监督维度包括行政主体;
相应的,第一确定模块102用于依据所述行政裁判文书,确定所述预设监督维度的第一维度信息时,具体用于:
通过组织机构命名实体识别方法定位到所述行政裁判文书中的预设段落,并对所述预设段落进行命名实体抽取,将抽取到的命名实体作为所述行政主体。
进一步,所述预设监督维度包括行政机关负责人、是否行政复议以及裁判结果中的至少一个;
相应的,第一确定模块102用于依据所述行政裁判文书,确定所述预设监督维度的第一维度信息时,具体用于:
采用正则匹配方法,从所述行政裁判文书中分别匹配到与所述行政机关负责人、是否行政复议以及裁判结果对应的内容。
进一步,第二确定模块103,用于依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息时,具体用于:
获取预设评价维度的评价规则;所述评价规则包括确定所述预设评价维度的第二维度信息所需的所述第一维度信息中的目标数据以及所述目标数据的计算过程;
基于所述目标数据,按照所述计算过程进行计算,得到所述预设评价维度的第二维度信息;
或,
获取评价维度与维度评分的对应关系;
从所述对应关系中查找包括所述第一维度信息的预设评价维度对应的维度评分,并作为所述预设评价维度的第二维度信息。
进一步,画像构建模块104用于基于所述预设评价维度的第二维度信息,构建所述行政主体的画像时,具体用于:
将所述预设评价维度的第二维度信息以图表形式展示,得到所述行政主体的画像;所述图标形式包括雷达图。
本实施例中,获取行政裁判文书以及预设监督维度,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息,基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。行政主体的画像表示行政职权的行为信息,行政裁判文书体现了诉讼角度,即实现了从诉讼角度对行政职权实行监督。
另外,本发明实施例首先从行政诉讼案例本身,通过相似度算法、分类、分析的技术方法,对重要的行政监督指标相关信息进行抽取,辅助专家制定行政监督体系。利用文本解析技术、命名实体识别技术以及自然语言处理NLP技术,对体系涉猎的维度进行精准抽取,同时对抽取到的维度通过运算规则获得监督指标。画像构建包括两部分,行政机关画像和涉诉行政案件画像,并结合监督评价模型,完成通过构建画像辅助职权监督的目的。从实际反映公众权益与行政机关职权矛盾的角度,实现行政法制的公众监督。可以实现司法公权力挖掘行政机关违法行为问题。可以聚焦公众权益与行政权力矛盾点,并根据挖掘的矛盾点完成涉诉行政机关定制画像构建。
需要说明的是,本实施例中的各个模块的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
所述数据处理装置包括处理器和存储器,上述数据获取模块、第一确定模块、第二确定模块和画像构建模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现从诉讼角度对行政职权实行监督。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述数据处理方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据处理方法。
本发明实施例提供了一种设备70,参照图10,设备70包括至少一个处理器701、以及与处理器连接的至少一个存储器702、总线703;其中,处理器701、存储器702通过总线703完成相互间的通信;处理器701用于调用存储器702中的程序指令,以执行上述的数据处理方法。本文中的设备70可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
一种数据处理方法,包括:
获取行政裁判文书以及预设监督维度;
依据所述行政裁判文书,确定所述预设监督维度的第一维度信息;所述第一维度信息从所述行政裁判文书中提取;
依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息;所述第二维度信息基于所述第一维度信息统计分析得到,表征所述行政裁判文书的特性信息;
基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。
进一步,所述预设监督维度包括参考文件名称;
相应的,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,包括:
获取状态机调整规则;所述状态机调整规则包括跳转状态以及所述跳转状态对应的状态字符以及跳转项;
遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段;
将所述字段作为所述参考文件名称。
进一步,所述跳转状态包括起始状态、结束状态和关键字状态;
遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段,包括:
遍历所述行政裁判文书,若搜索到与所述起始状态对应的状态字符,继续向后遍历,判断是否出现与所述关键字状态对应的状态字符;
若出现,继续向后遍历,判断是否出现与所述结束状态对应的状态字符;
若出现,提取出位于所述起始状态对应的状态字符、以及所述结束状态对应的状态字符之间的字段。
进一步,所述预设监督维度包括行政主体;
相应的,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,包括:
通过组织机构命名实体识别方法定位到所述行政裁判文书中的预设段落,并对所述预设段落进行命名实体抽取,将抽取到的命名实体作为所述行政主体。
进一步,所述预设监督维度包括行政机关负责人、是否行政复议以及裁判结果中的至少一个;
相应的,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,包括:
采用正则匹配方法,从所述行政裁判文书中分别匹配到与所述行政机关负责人、是否行政复议以及裁判结果对应的内容。
进一步,依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息,包括:
获取预设评价维度的评价规则;所述评价规则包括确定所述预设评价维度的第二维度信息所需的所述第一维度信息中的目标数据以及所述目标数据的计算过程;
基于所述目标数据,按照所述计算过程进行计算,得到所述预设评价维度的第二维度信息;
或,
获取评价维度与维度评分的对应关系;
从所述对应关系中查找包括所述第一维度信息的预设评价维度对应的维度评分,并作为所述预设评价维度的第二维度信息。
进一步,基于所述预设评价维度的第二维度信息,构建所述行政主体的画像,包括:
将所述预设评价维度的第二维度信息以图表形式展示,得到所述行政主体的画像;所述图标形式包括雷达图。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取行政裁判文书以及预设监督维度;
依据所述行政裁判文书,确定所述预设监督维度的第一维度信息;所述第一维度信息从所述行政裁判文书中提取;
依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息;所述第二维度信息基于所述第一维度信息统计分析得到,表征所述行政裁判文书的特性信息;
基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。
2.根据权利要求1所述的数据处理方法,其特征在于,所述预设监督维度包括参考文件名称;
相应的,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,包括:
获取状态机调整规则;所述状态机调整规则包括跳转状态以及所述跳转状态对应的状态字符以及跳转项;
遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段;
将所述字段作为所述参考文件名称。
3.根据权利要求1所述的数据处理方法,其特征在于,所述跳转状态包括起始状态、结束状态和关键字状态;
遍历所述行政裁判文书,搜索到符合所述状态机调整规则的字段,包括:
遍历所述行政裁判文书,若搜索到与所述起始状态对应的状态字符,继续向后遍历,判断是否出现与所述关键字状态对应的状态字符;
若出现,继续向后遍历,判断是否出现与所述结束状态对应的状态字符;
若出现,提取出位于所述起始状态对应的状态字符、以及所述结束状态对应的状态字符之间的字段。
4.根据权利要求1所述的数据处理方法,其特征在于,所述预设监督维度包括行政主体;
相应的,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,包括:
通过组织机构命名实体识别方法定位到所述行政裁判文书中的预设段落,并对所述预设段落进行命名实体抽取,将抽取到的命名实体作为所述行政主体。
5.根据权利要求1所述的数据处理方法,其特征在于,所述预设监督维度包括行政机关负责人、是否行政复议以及裁判结果中的至少一个;
相应的,依据所述行政裁判文书,确定所述预设监督维度的第一维度信息,包括:
采用正则匹配方法,从所述行政裁判文书中分别匹配到与所述行政机关负责人、是否行政复议以及裁判结果对应的内容。
6.根据权利要求1所述的数据处理方法,其特征在于,依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息,包括:
获取预设评价维度的评价规则;所述评价规则包括确定所述预设评价维度的第二维度信息所需的所述第一维度信息中的目标数据以及所述目标数据的计算过程;
基于所述目标数据,按照所述计算过程进行计算,得到所述预设评价维度的第二维度信息;
或,
获取评价维度与维度评分的对应关系;
从所述对应关系中查找包括所述第一维度信息的预设评价维度对应的维度评分,并作为所述预设评价维度的第二维度信息。
7.根据权利要求1所述的数据处理方法,其特征在于,基于所述预设评价维度的第二维度信息,构建所述行政主体的画像,包括:
将所述预设评价维度的第二维度信息以图表形式展示,得到所述行政主体的画像;所述图标形式包括雷达图。
8.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取行政裁判文书以及预设监督维度;
第一确定模块,用于依据所述行政裁判文书,确定所述预设监督维度的第一维度信息;所述第一维度信息从所述行政裁判文书中提取;
第二确定模块,用于依据所述第一维度信息,确定所述第一维度信息中的行政主体的预设评价维度的第二维度信息;所述第二维度信息基于所述第一维度信息统计分析得到,表征所述行政裁判文书的特性信息;
画像构建模块,用于基于所述预设评价维度的第二维度信息,构建所述行政主体的画像。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任一项所述的数据处理方法。
10.一种电子设备,其特征在于,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1-7中任一项所述的数据处理方法。
CN201910945256.2A 2019-09-30 2019-09-30 数据处理方法及装置 Pending CN112579788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910945256.2A CN112579788A (zh) 2019-09-30 2019-09-30 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910945256.2A CN112579788A (zh) 2019-09-30 2019-09-30 数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN112579788A true CN112579788A (zh) 2021-03-30

Family

ID=75117015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910945256.2A Pending CN112579788A (zh) 2019-09-30 2019-09-30 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112579788A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190346A (ja) * 2003-12-26 2005-07-14 Fujitsu Ltd 共通パターン抽出プログラムおよび共通パターン抽出方法
CN108416494A (zh) * 2018-01-29 2018-08-17 广州越秀金融科技有限公司 基于大数据的企业客户画像构建方法及系统实现
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
CN108876079A (zh) * 2017-05-15 2018-11-23 北京国双科技有限公司 一种排序的方法及装置
CN109684330A (zh) * 2018-12-17 2019-04-26 深圳市华云中盛科技有限公司 用户画像库构建方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190346A (ja) * 2003-12-26 2005-07-14 Fujitsu Ltd 共通パターン抽出プログラムおよび共通パターン抽出方法
CN108876079A (zh) * 2017-05-15 2018-11-23 北京国双科技有限公司 一种排序的方法及装置
CN108416494A (zh) * 2018-01-29 2018-08-17 广州越秀金融科技有限公司 基于大数据的企业客户画像构建方法及系统实现
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
CN109684330A (zh) * 2018-12-17 2019-04-26 深圳市华云中盛科技有限公司 用户画像库构建方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
JP6715838B2 (ja) 文書内の潜在的重要事実を自動識別するシステム及び方法
WO2020077896A1 (zh) 提问数据生成方法、装置、计算机设备和存储介质
CN112182246B (zh) 通过大数据分析建立企业画像的方法、系统、介质及应用
Bologa et al. Big data and specific analysis methods for insurance fraud detection.
CN109508373B (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN111428466B (zh) 法律文书解析方法及装置
CN112598489B (zh) 基于金融应用的风险监测方法及系统
CN113011185A (zh) 法律领域文本分析识别方法、系统、存储介质及终端
KR20130001552A (ko) 온톨로지 기반의 문서 분류 방법 및 장치
CA3202216A1 (en) Systems and methods for relevance-based document analysis and filtering
CN113779358A (zh) 一种事件检测方法和系统
CN110032721A (zh) 一种裁判文书推送方法及装置
CN110490750B (zh) 数据识别的方法、系统、电子设备及计算机存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN112464670A (zh) 识别方法、识别模型的训练方法、装置、设备、存储介质
CN109002528B (zh) 一种数据导入的方法、装置和存储介质
WO2020057023A1 (zh) 自然语言的语义解析方法、装置、计算机设备和存储介质
CN112579788A (zh) 数据处理方法及装置
CN113962302A (zh) 一种基于标签分布学习的敏感数据智能识别方法
CN113051903A (zh) 语句、案件经过、量刑情节和司法文书一致性比对方法
CN114153939A (zh) 文本识别方法及装置
Plachouras et al. Information extraction of regulatory enforcement actions: From anti-money laundering compliance to countering terrorism finance
CN112561714A (zh) 基于nlp技术的核保风险预测方法、装置及相关设备
CN112668302A (zh) 虚假诉讼的判断方法及装置
CN111428037A (zh) 一种分析行为政策匹配性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination