CN111292205A - 一种司法数据解析方法、装置、设备及存储介质 - Google Patents

一种司法数据解析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111292205A
CN111292205A CN201911304694.7A CN201911304694A CN111292205A CN 111292205 A CN111292205 A CN 111292205A CN 201911304694 A CN201911304694 A CN 201911304694A CN 111292205 A CN111292205 A CN 111292205A
Authority
CN
China
Prior art keywords
word
configuration table
parameter configuration
participle
symbolic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911304694.7A
Other languages
English (en)
Other versions
CN111292205B (zh
Inventor
邸宏鸣
郝跃红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oriental Micro Silver Technology Beijing Co Ltd
Original Assignee
Oriental Micro Silver Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oriental Micro Silver Technology Beijing Co Ltd filed Critical Oriental Micro Silver Technology Beijing Co Ltd
Priority to CN201911304694.7A priority Critical patent/CN111292205B/zh
Publication of CN111292205A publication Critical patent/CN111292205A/zh
Application granted granted Critical
Publication of CN111292205B publication Critical patent/CN111292205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Technology Law (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种司法数据解析方法、装置、设备及存储介质,该方法包括根据预先构建的原正则表达式对待解析司法数据进行解析,获得有效语句;对所述有效语句进行分词处理,获得分词库;基于所述分词库,构建新正则表达式;基于所述新正则表达式,对所述待解析司法数据进行解析。通过基于待解析司法数据实现新正则表达式的构建,再根据新正则表达式解析待解析司法数据,实现正则表达式的自动调整,提高司法数据解析的普适性,并提高解析结果的准确率。

Description

一种司法数据解析方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种司法数据解析方法、装置、设备及存储介质。
背景技术
司法数据大部分是以文本格式存在,需要利用文本解析的方法从中挖掘相关信息,并转化成结构化数据以加以利用。
现有技术中,对于司法数据进行解析的方法,由于具有静态匹配的特性而导致存在一定局限性,存在普适性低的问题。
发明内容
有鉴于此,本发明的目的在于提出一种司法数据解析方法,以解决现有对司法数据进行解析时存在的普适性低的问题。
基于上述目的,本发明第一方面提供了一种司法数据解析方法,所述方法包括:
根据预先构建的原正则表达式对待解析司法数据进行解析,获得有效语句;
对所述有效语句进行分词处理,获得分词库;
基于所述分词库,构建新正则表达式;
基于所述新正则表达式,对所述待解析司法数据进行解析。
可选地,所述基于所述分词库,构建新正则表达式,包括:
基于所述分词库对预先构建的第一标志性词语参数配置表进行调整,获得第二标志性词语参数配置表;
基于所述第二标志性词语参数配置表,构建新正则表达式。
可选地,所述基于所述分词库对预先构建的第一标志性词语参数配置表进行调整,包括:
判断所述分词库中的分词是否为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词;
若是,则将所述分词添加到所述第一标志性词语参数配置表中。
可选地,所述判断所述分词库中的分词是否为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词,包括:
确定所述分词库中满足预设条件的分词;其中,所述预设条件为所述单个分词与所述第一标志性词语参数配置表中相应字段下的参数取值的相似度大于或等于预设阈值,且所述单个分词的词性与所述第一标志性词语参数配置表中相应字段下的参数取值的词性相同;
分别基于满足所述预设条件的单个分词,确定所述第一标志性词语参数配置表中相应字段下与单个分词相似度大于或等于预设阈值的参数取值的个数,占相应字段下的参数取值总数的百分比;
判断所述百分比是否大于或等于预设配置比例;
若是,则判定所述单个分词为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词。
可选地,所述方法还包括:
接收资源申请方的资源分配请求;
基于所述资源分配请求,获取所述资源申请方的待解析司法数据。
基于相同的目的,本发明第二方面提供了一种司法数据解析装置,所述装置包括:
有效语句获取模快,用于根据预先构建的原正则表达式对待解析司法数据进行解析,获得有效语句;
分词库获得模块,用于对所述有效语句进行分词处理,获得分词库;
新正则表达式构建模块,用于基于所述分词库,构建新正则表达式;
数据解析模块,用于基于所述新正则表达式,对所述待解析司法数据进行解析。
可选地,所述新正则表达式构建模块,包括:
第二标志性词语参数配置表获取单元,用于基于所述分词库对预先构建的第一标志性词语参数配置表进行调整,获得第二标志性词语参数配置表;
新正则表达式构建单元,用于基于所述第二标志性词语参数配置表,构建新正则表达式。
可选地,所述第二标志性词语参数配置表获取单元,包括:
近义词判断子单元,用于判断所述分词库中的分词是否为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词;
添加子单元,用于若近义词判断子单元判断所述分词库中的分词为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词,则将所述分词添加到所述第一标志性词语参数配置表中。
可选地,所述近义词判断子单元具体用于:
确定所述分词库中满足预设条件的分词;其中,所述预设条件为所述单个分词与所述第一标志性词语参数配置表中相应字段下的参数取值的相似度大于或等于预设阈值,且所述单个分词的词性与所述第一标志性词语参数配置表中相应字段下的参数取值的词性相同;
分别基于满足所述预设条件的单个分词,确定所述第一标志性词语参数配置表中相应字段下与单个分词相似度大于或等于预设阈值的参数取值的个数,占相应字段下的参数取值总数的百分比;
判断所述百分比是否大于或等于预设配置比例;
若是,则判定所述单个分词为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词。
可选地,所述装置还包括:
接收模块,用于接收资源申请方的资源分配请求;
获取模块,用于基于所述资源分配请求,获取所述资源申请方的待解析司法数据。
基于相同的目的,本发明的第三方面还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面任意一项所述的方法。
基于相同的目的,本发明第四方面还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明第一方面任一所述方法。
从上面所述可以看出,本发明提供的司法数据解析方法、装置、设备及存储介质,通过采用预先构建的原正则表达式对待解析司法数据进行解析获得有效语句,对有效语句进行分词获得分词库,然后基于分词库构建新的正则表达式,最后根据新的正则表达式对待解析司法数据进行解析;通过基于待解析司法数据实现新正则表达式的构建,再根据新正则表达式解析待解析司法数据,实现正则表达式的自动调整,提高司法数据解析的普适性,并提高解析结果的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的司法数据解析方法的流程示意图;
图2为本发明实施例提供的标志性词语参数配置表示例;
图3为本发明实施例提供的对分词进行近义词判断的输出结果示例图;
图4为本发明实施例提供的司法数据解析装置的结构示意图;
图5为本发明实施例提供的一种更为具体的电子设备硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
目前,司法数据大部分是以文本格式存在,需要利用文本解析的方法从司法数据中挖掘相关信息,并转化成结构化数据加以利用。
现有技术中,对司法数据进行解析时,在业务需求的基础上,通过对原始的数据进行分析,构建符合字段提取的正则表达式,但是由于现有的正则表达式具有静态匹配的特性从而导致具有一定局限性;一方面,来自不同地区或渠道的司法数据在格式和内容表述上存在一定的差异,所以应用现有的数据解析技术解析司法数据的普适性低;另一方面,司法数据会存在不间断的更新,应用现有数据解析方法需要人工不定时的对正则表达式进行补充和完善,从而无法实现数据解析的高度自动化。
为了解决上述技术问题,本发明提供了一种司法数据解析方法、装置、设备及存储介质,通过采用预先构建的原正则表达式对待解析司法数据进行解析获得有效语句,对有效语句进行分词获得分词库,然后基于分词库构建新的正则表达式,最后根据新的正则表达式对待解析司法数据进行解析。该方法及装置可以应用于手机、平板电脑等各种电子设备,具体不做限定。
在解析过程中需要首先使用预先构建的标志性词语参数配置表,然后基于分词库对预先构建的标志性词语参数配置表进行调整,获得新的标志性词语参数配置表;为了便于区别,将预先构建的标志性词语参数配置表称为第一标志性词语参数配置表,将新的标志性词语参数配置表称为第二标志性词语参数配置表。
该方法及装置中提及的资源可以是信贷资源,提及的业务可以是信贷业务,具体不做限定。后续将以信贷业务为例,对该司法数据解析方法进行详细说明。
为了便于理解,下面结合附图对该司法数据解析方法进行详细说明。
图1为本发明实施例提供的司法数据解析方法的流程示意图,该方法包括:
S01、根据预先构建的原正则表达式对待解析司法数据进行解析,获得有效语句。
本发明实施例中,正则表达式是指使用一些抽象出来用来代表某类字符的特定字符组成的字符串。原正则表达式是指人工基于业务需求分析待解析司法数据的字段中的文本信息构建的正则表达式。
例如,为了对待解析司法数据中的判决结果字段进行解析,则可以设定正则表达式为“.*(?:(?:\d*[,,]*)*\d*\.?\d*|[零一二三四五六七八九十百千万亿]*)(?:元|美元|港元|澳门元|日元|韩元|缅元|马元|新加坡元|欧元|英镑|马克|法郎|卢布|加元|新西兰元|澳元|澳大利亚元).*”。
有效语句是指由待解析司法数据中提取的包含目标信息的语句;在实际应用中,目标信息可以为罚款100万元、赔偿200万元、缴纳150万元或支付500万元等等,具体不做限定。
获得待解析司法数据后,可以首先根据原正则表达式对待解析司法数据进行解析,获得包含目标信息的有效语句。
S02、对有效语句进行分词处理,获得分词库。
本发明实施例中,分词是指将整个语句划分为多个词汇。
为了进一步基于获得的有效语句构建新正则表达式,在获得有效语句后,可以采用jieba包posseg子包中的分词函数cut()对有效语句进行分词,获得分词库。
在实际应用中,分词库中的分词是以“词语+词性”的形式存在,比如,分词库中的分词可以是原告/n,偿还/v等等,其中n代表名词,v代表动词。
S03、基于分词库,构建新正则表达式。
本发明实施例中,新正则表达式指的是根据分词库重新构建的用于解析待解析数据的正则表达式。
为了对待解析数据进行更完善的解析,提高司法数据解析的召回率和正确率,获得分词库后,可以进一步基于由待解析数据获得的分词库构建更加完善的新正则表达式。
关于根据分词库构建新正则表达式的过程后续将会进行具体说明,此处不再赘述。
S 04、基于新正则表达式,对待解析司法数据进行解析。
本发明实施例中,为了提高司法数据解析的正确率,在获得新正则表达式后,可以基于新正则表达式再次对待解析司法数据进行解析。
例如,为了对待解析司法数据中的判决结果字段中的具体金额数目,则可以设定新正则表达式为“.*(?:(?:\d*[,,]*)*\d*\.?\d*|[零一二三四五六七八九十百千万亿]*)(?:元|美元|港元|澳门元|日元|韩元|缅元|马元|新加坡元|欧元|英镑|马克|法郎|卢布|加元|新西兰元|澳元|澳大利亚元).*”,然后由构建的新正则表达式由待解析司法数据中提取符合新正则表达式格式的数据,得到相应的金额数目。
可以理解的是,通过基于待解析司法数据实现新正则表达式的构建,再根据新正则表达式解析待解析司法数据,实现正则表达式的自动完善,提高司法数据解析的普适性,并提高解析结果的准确率。
在实际应用中,为了对待解析数据进行更完善的解析,提高司法数据解析的召回率和正确率,可以根据获得的分词库,构建更适于对待解析司法数据进行解析的新的正则表达式;则,在一些可能的实施方式中,基于分词库,构建新正则表达式,包括:
基于分词库对预先构建的第一标志性词语参数配置表进行调整,获得第二标志性词语参数配置表;
基于第二标志性词语参数配置表,构建新正则表达式。
即,标志性词语参数配置表是指包含构建正则表达式所需词语的表。
第一标志性词语参数配置表指人工基于业务需求分析待解析司法数据的字段中的文本信息构建的标志性词语参数配置表。第二标志性词语参数配置表指根据分词库对第一标志性词语参数配置表进行调整后获得的标志性词语参数配置表。
例如,图2为本发明实施例提供的标志性词语参数配置表示例,如图2中示例所示,该标志性词语参数配置表为“涉案金额”相关的标志性词语参数配置表。参数指标志性词语参数配置表中的指标,即构建正则表达式所需词语的归类,参数取值指参数可选的值,即标志性词语参数配置表中包含的构建正则表达式所需的词语。
在基于待解析司法数据获得分词库后,可以根据分词库对第一标志性词语参数配置表进行调整,获得调整后的标志性词语参数配置表,即第二标志性词语参数配置表。
则,在一些可能的实施方式中,基于分词库对预先构建的第一标志性词语参数配置表进行调整,包括:
判断分词库中的分词是否为第一标志性词语参数配置表中相应字段下的参数取值的近义词;
若是,则将分词添加到第一标志性词语参数配置表中。
即,在实际应用中,为了使预先建立的标志性词语参数配置表进行完善,在获得分词库后,可以根据分词库对标志性词语参数配置表进行调整;对标志性词语参数配置表进行调整时,可以首先分别将分词库中的各个分词,与第一标志性词语参数配置表中该分词对应的字段下的参数取值进行比较,分别判断各个分词,是否为第一标志性词语参数配置表中该分词对应的字段下的参数取值的近义词。
则,在一些可能的实施方式中,判断分词库中的分词是否为第一标志性词语参数配置表中相应字段下的参数取值的近义词,包括:
确定所述分词库中满足预设条件的分词;其中,所述预设条件为所述单个分词与所述第一标志性词语参数配置表中相应字段下的参数取值的相似度大于或等于预设阈值,且所述单个分词的词性与所述第一标志性词语参数配置表中相应字段下的参数取值的词性相同;
分别基于满足预设条件的单个分词,确定第一标志性词语参数配置表中相应字段下与单个分词相似度大于或等于预设阈值的参数取值的个数,占相应字段下的参数取值总数的百分比;
判断百分比是否大于或等于预设配置比例;
若是,则判定单个分词为第一标志性词语参数配置表中相应字段下的参数取值的近义词。
在实际应用中,为了判断分词库中的各个分词是否为第一标志性词语参数配置表中相应字段下的参数取值的近义词,可以首先判断分词库中的分词是否满足预设条件,确定分词库中满足预设条件的分词。
其中,预设条件指的是该单个分词与第一标志性词语参数配置表中该单个分词对应的字段下的参数取值的相似度大于或等于预设阈值,并且同时该单个分词的词性与第一标志性词语参数配置表中该单个分词对应的字段下的参数取值的词性相同。比如,该单个分词和第一标志性词语参数配置表中该单个分词对应的字段下的参数取值均为名词,或者均为动词等等,具体不做限定。
在实际应用中,可以利用Python中的synonyms近义词工具包遍历计算该单个分词与第一标志性词语参数配置表中该单个分词对应的字段下的所有参数取值的相似度,具体不做限定;预设阈值可以根据经验确定,比如可以将预设阈值设为0.8、或者可以将预设阈值设为0.7、或者可以将预设阈值设为0.75等等,具体不做限定。
确定分词库中满足预设条件的分词后,进一步分别根据满足预设条件的单个分词,确定第一标志性词语参数配置表中与该单个分词对应的字段下的与该单个分词相似度大于或等于预设阈值的参数取值的个数,占第一标志性词语参数配置表中与该单个分词对应的字段下所有的参数取值的总数的百分比例。
例如,以图2中【涉案金额】标志性词语参数配置表中的“给付动作”中的“支付动作”为例:判断分词库中的分词是否为“支付动作”包含的取值参数的近义词时,
N=支付动作包含参数取值的总个数
if词性=“v”and相似度值>=0.8:
对分词遍历统计:
n=count(distinct(参数取值))
prob=n/N
if prob>=0.5:
返回1(代表“是近义词”)
else
返回0(代表“非近义词”)
N为【涉案金额】标志性词语参数配置表中支付动作包含的参数取值的总个数,即N为8;设定预设条件为词性为动词,并且相似度值大于等于0.8;同时设定预设配置比例为大于等于0.5。
对分词库中的分词遍历统计,确定分词库中满足预设条件的分词,然后分别基于满足预设条件的单个分词,确定【涉案金额】标志性词语参数配置表中支付动作包含的与该单个分词的相似度大于或等于0.8的参数取值的个数,设为n;则相应的百分比prob为n/N;如果prob大于或等于0.5,则该单个分词为【涉案金额】标志性词语参数配置表中支付动作包含的参数取值的近义词,如果prob小于0.5,则该单个分词不是【涉案金额】标志性词语参数配置表中支付动作包含的参数取值的近义词。对分词库中的分词进行近义词判断的输出结果示例如图3所示。
确定第一标志性词语参数配置表中与该单个分词对应的字段下的与该单个分词相似度大于或等于预设阈值的参数取值的个数,占第一标志性词语参数配置表中与该单个分词对应的字段下所有的参数取值的总数的百分比例后,可以进一步判断上述百分比是否大于或等于预设配置比例,如果大于或等于预设配置比例,则判定该单个分词为第一标志性词语参数配置表中该单个分词对应的字段下的参数取值的近义词。
在实际应用中,预设配置比例可以根据经验设置,比如,可以设置预设配置比例为30%、或者设置预设配置比例为40%等等,具体不做限定。
可以理解的是,通过分别判断分词库中的单个分词是否为第一标志性词语参数配置表中该单个分词对应的字段下的参数取值的近义词,可以对预先建立的第一标志性词语参数配置表进行调整,以使基于调整后的标志性词语参数配置表构建的新正则表达式更能满足待解析司法数据的文本格式要求。
在判定分词库中的单个分词为第一标志性词语参数配置表中该分词对应的字段下的参数取值的近义词后,可以将该单个分词作为新参数取值添加到第一标志性词语参数配置表中;重复上述过程,直至对分词库中的所有分词进行判断后,获得调整后的标志性词语参数配置表,即第二标志性词语参数配置表。
获得第二标志性词语参数配置表后,根据第二标志性词语参数配置表构建新正则表达式,新正则表达式更适于对待解析司法数据进行数据解析。在实际应用中,可以将第二标志性词语参数配置表中的参数取值作为新正则表达式中必备的词语,进行构建新正则表达式,具体不做限定。
可以理解的是,通过基于分词库对第一标志性词语参数配置表进行调整,然后通过基于调整后获得的第二标志性词语参数配置表构建新正则表达式,可以使得构建的新正则表达式能够更精确的解析待解析司法数据,提高司法数据解析的召回率和准确率。
在一种可能的实施方式中,还包括:
接收资源申请方的资源分配请求;
基于资源分配请求,获取资源申请方的待解析司法数据。
即,资源申请方为了向资源分配方申请资源分配,可以首先发送资源分配请求,执行本方法的电子设备(以下简称本电子设备)接收资源申请方发送的资源分配请求,然后基于接收的资源分配请求获取资源申请方相关的待解析司法数据。
以信贷业务为例进行详细说明,资源即信贷资源,资源分配请求即信贷请求,资源申请方即信贷申请方,资源分配方即信贷经营方。
信贷即信用贷款;信贷经营方即向信贷申请方提供信贷申请的一方;比如,信贷经营方可以是银行或银行之外的有资格的正规信贷经营企业等等,具体不做限定。信贷申请方即向信贷经营方提出信用贷款申请的一方,比如,信贷申请方可以是个人或企业等等,具体不做限定。
本电子设备接收信贷申请方的信贷请求后,可以基于信贷请求获取信贷申请方的待解析司法数据;然后采用预先构建的原正则表达式对待解析司法数据进行解析,获得有效语句,然后根据有效语句获得分词库,基于分词库构建新正则表达式,最后采用新正则表达式对待解析司法数据进行解析。
需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图4为本发明实施例提供的司法数据解析装置的结构示意图。如图4所示,该装置包括:
有效语句获取模块41,用于根据预先构建的原正则表达式对待解析司法数据进行解析,获得有效语句;
分词库获得模块42,用于对所述有效语句进行分词处理,获得分词库;
新正则表达式构建模块43,用于基于所述分词库,构建新正则表达式;
数据解析模块44,用于基于所述新正则表达式,对所述待解析司法数据进行解析。
在一种可能的实施方式中,新正则表达式构建模块,包括:
第二标志性词语参数配置表获取单元,用于基于分词库对预先构建的第一标志性词语参数配置表进行调整,获得第二标志性词语参数配置表;
新正则表达式构建单元,用于基于第二标志性词语参数配置表,构建新正则表达式。
作为一种实施方式,第二标志性词语参数配置表获取单元,包括:
近义词判断子单元,用于判断分词库中的分词是否为第一标志性词语参数配置表中相应字段下的参数取值的近义词;
添加子单元,用于若近义词判断子单元判断分词库中的分词为第一标志性词语参数配置表中相应字段下的参数取值的近义词,则将分词添加到第一标志性词语参数配置表中。
在一种可能的实施方式中,近义词判断子单元具体用于:
确定分词库中满足预设条件的分词;其中,预设条件为单个分词与第一标志性词语参数配置表中相应字段下的参数取值的相似度大于或等于预设阈值,且单个分词的词性与第一标志性词语参数配置表中相应字段下的参数取值的词性相同;
分别基于满足预设条件的单个分词,确定第一标志性词语参数配置表中相应字段下与单个分词相似度大于或等于预设阈值的参数取值的个数,占相应字段下的参数取值总数的百分比;
判断百分比是否大于或等于预设配置比例;
若是,则判定单个分词为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词。
作为一种实施方式,该装置还包括接收模块(图中未标出)和获取模块(图中未标出);
接收模块,用于接收资源申请方的资源分配请求;
获取模块,用于基于所述资源分配请求,获取所述资源申请方的待解析司法数据。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一项所述的司法数据解析方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本发明实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一所述的司法数据解析方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种司法数据解析方法,其特征在于,所述方法包括:
根据预先构建的原正则表达式对待解析司法数据进行解析,获得有效语句;
对所述有效语句进行分词处理,获得分词库;
基于所述分词库,构建新正则表达式;
基于所述新正则表达式,对所述待解析司法数据进行解析。
2.根据权利要求1所述的司法数据解析方法,其特征在于,所述基于所述分词库,构建新正则表达式,包括:
基于所述分词库对预先构建的第一标志性词语参数配置表进行调整,获得第二标志性词语参数配置表;
基于所述第二标志性词语参数配置表,构建新正则表达式。
3.根据权利要求2所述的司法数据解析方法,其特征在于,所述基于所述分词库对预先构建的第一标志性词语参数配置表进行调整,包括:
判断所述分词库中的分词是否为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词;
若是,则将所述分词添加到所述第一标志性词语参数配置表中。
4.根据权利要求3所述的司法数据解析方法,其特征在于,所述判断所述分词库中的分词是否为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词,包括:
确定所述分词库中满足预设条件的分词;其中,所述预设条件为所述单个分词与所述第一标志性词语参数配置表中相应字段下的参数取值的相似度大于或等于预设阈值,且所述单个分词的词性与所述第一标志性词语参数配置表中相应字段下的参数取值的词性相同;
分别基于满足所述预设条件的单个分词,确定所述第一标志性词语参数配置表中相应字段下与单个分词相似度大于或等于预设阈值的参数取值的个数,占相应字段下的参数取值总数的百分比;
判断所述百分比是否大于或等于预设配置比例;
若是,则判定所述单个分词为所述第一标志性词语参数配置表中相应字段下的参数取值的近义词。
5.根据权利要求1所述的司法数据解析方法,其特征在于,所述方法还包括:
接收资源申请方的资源分配请求;
基于所述资源分配请求,获取所述资源申请方的待解析司法数据。
6.一种司法数据解析装置,其特征在于,所述装置包括:
有效语句获取模快,用于根据预先构建的原正则表达式对待解析司法数据进行解析,获得有效语句;
分词库获得模块,用于对所述有效语句进行分词处理,获得分词库;
新正则表达式构建模块,用于基于所述分词库,构建新正则表达式;
数据解析模块,用于基于所述新正则表达式,对所述待解析司法数据进行解析。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至5任一所述方法。
CN201911304694.7A 2019-12-17 2019-12-17 一种司法数据解析方法、装置、设备及存储介质 Active CN111292205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911304694.7A CN111292205B (zh) 2019-12-17 2019-12-17 一种司法数据解析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911304694.7A CN111292205B (zh) 2019-12-17 2019-12-17 一种司法数据解析方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111292205A true CN111292205A (zh) 2020-06-16
CN111292205B CN111292205B (zh) 2021-05-25

Family

ID=71018071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911304694.7A Active CN111292205B (zh) 2019-12-17 2019-12-17 一种司法数据解析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111292205B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364660A (zh) * 2020-10-27 2021-02-12 中国平安人寿保险股份有限公司 语料文本处理方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201227365A (en) * 2010-12-27 2012-07-01 Hon Hai Prec Ind Co Ltd System and method for analyzing a patent electronic filing
US20150355891A1 (en) * 2014-06-10 2015-12-10 International Business Machines Corporation Computer-based distribution of large sets of regular expressions to a fixed number of state machine engines for products and services
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109190014A (zh) * 2018-06-29 2019-01-11 北京奇艺世纪科技有限公司 一种正则表达式生成方法、装置及电子设备
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201227365A (en) * 2010-12-27 2012-07-01 Hon Hai Prec Ind Co Ltd System and method for analyzing a patent electronic filing
US20150355891A1 (en) * 2014-06-10 2015-12-10 International Business Machines Corporation Computer-based distribution of large sets of regular expressions to a fixed number of state machine engines for products and services
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109190014A (zh) * 2018-06-29 2019-01-11 北京奇艺世纪科技有限公司 一种正则表达式生成方法、装置及电子设备
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364660A (zh) * 2020-10-27 2021-02-12 中国平安人寿保险股份有限公司 语料文本处理方法、装置、计算机设备及存储介质
CN112364660B (zh) * 2020-10-27 2024-05-17 中国平安人寿保险股份有限公司 语料文本处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111292205B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN108717437B (zh) 搜索结果展示方法、装置及存储介质
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
US11151180B2 (en) Messaging digest
CN113568626B (zh) 动态打包、应用程序包开启方法、装置和电子设备
CN112784112B (zh) 报文校验方法及装置
CN112085087A (zh) 业务规则生成的方法、装置、计算机设备及存储介质
US10482162B2 (en) Automatic equation transformation from text
CN113360711A (zh) 视频理解任务的模型训练和执行方法、装置、设备及介质
US10943691B2 (en) Cost of healthcare analytics platform
CN112508115A (zh) 建立节点表示模型的方法、装置、设备和计算机存储介质
CN111292205B (zh) 一种司法数据解析方法、装置、设备及存储介质
CN114861059A (zh) 资源推荐方法、装置、电子设备及存储介质
CN113806522A (zh) 摘要生成方法、装置、设备以及存储介质
US20160004701A1 (en) Method for Representing Document as Matrix
CN110377891B (zh) 事件分析文章的生成方法、装置、设备及计算机可读存储介质
CN112363814A (zh) 任务调度方法、装置、计算机设备及存储介质
CN112487021A (zh) 业务数据的关联分析方法、装置及设备
CN112241433A (zh) 产品的演示方法、装置、计算机设备及存储介质
US10769372B2 (en) Synonymy tag obtaining method and apparatus, device and computer readable storage medium
CN114282049A (zh) 一种视频检索方法、装置、设备及存储介质
CN113869042A (zh) 文本标题生成方法、装置、电子设备以及存储介质
CN113987118A (zh) 语料的获取方法、装置、设备及存储介质
CN114139798A (zh) 企业风险预测方法、装置及电子设备
KR20200103133A (ko) 하둡 기반의 빅데이터 시스템에서 etl 절차를 수행하는 방법 및 장치
CN111967273B (zh) 对话管理系统、方法和规则引擎设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 10-7, 10-8, No.10, Qingyun Road, Jiangbei District, Chongqing, 400025

Applicant after: Dongfang Weiyin Technology Co.,Ltd.

Address before: 10-7, 10-8, No.10, Qingyun Road, Jiangbei District, Chongqing, 400025

Applicant before: Oriental micro bank technology (Chongqing) Co.,Ltd.

Address after: 10-7, 10-8, No.10, Qingyun Road, Jiangbei District, Chongqing, 400025

Applicant after: Oriental micro bank technology (Chongqing) Co.,Ltd.

Address before: 100044 floor 4, Ronghui international building, building 1, yard 42, gaoliangxie street, Haidian District, Beijing

Applicant before: Oriental micro silver technology (Beijing) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 400025 unit 08, floor 23, No. 1, Qingyun Road, Jiangbei District, Chongqing

Patentee after: Dongfang Weiyin Technology Co.,Ltd.

Address before: 10-7, 10-8, 10 Qingyun Road, Jiangbei District, Chongqing 400025

Patentee before: Dongfang Weiyin Technology Co.,Ltd.

CP02 Change in the address of a patent holder