CN108170691A - 关联文书的确定方法和装置 - Google Patents

关联文书的确定方法和装置 Download PDF

Info

Publication number
CN108170691A
CN108170691A CN201611117075.3A CN201611117075A CN108170691A CN 108170691 A CN108170691 A CN 108170691A CN 201611117075 A CN201611117075 A CN 201611117075A CN 108170691 A CN108170691 A CN 108170691A
Authority
CN
China
Prior art keywords
document
feature tag
label
candidate
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611117075.3A
Other languages
English (en)
Inventor
石鹏
贾凯
李学海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611117075.3A priority Critical patent/CN108170691A/zh
Publication of CN108170691A publication Critical patent/CN108170691A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关联文书的确定方法和装置。其中,该方法包括:获取待关联文书的文书标签;利用预先建立的过滤模型对待关联文书的文书标签进行过滤,得到待关联文书的特征标签,其中,特征标签为文书标签中能够表征待关联文书特征的标签;根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书,并获取多个候选文书的特征标签;利用待关联文书的特征标签和多个候选文书的特征标签,确定待关联文书和每个候选文书的关联度;基于确定的关联度,确定多个候选文书中与待关联文书相关联的关联文书。本发明解决了获取关联文书的效率低的技术问题。

Description

关联文书的确定方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种关联文书的确定方法和装置。
背景技术
随着我国司法领域信息化速度的加快,产生了大量的司法案件文书,这些文书都是以离散的形式存在于网页及计算机的文件系统中,属于离散的非关系存储模式,在面对海量的司法文书数据时,一篇司法文书往往只代表了一个案件整个审理流程中的某一个环节,司法人员在查阅这篇文书的同时,经常需要了解到这篇司法文书所从属的案件中其它环节的审理情况(即该案件的其它司法文书)。为了解决该问题,现有技术中,在文书录入(包括录入网站页面或录入计算机文件系统)的同时,人为地将同一案件各个司法环节产生的文书归类。采用这样的处理方式,一方面需要投入大量的司法专业人员人力和时间,另一方面,这种人为划分的文档分类信息极易丢失,并且也非常不便于修改。
针对上述获取关联文书的效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种关联文书的确定方法和装置,以至少解决获取关联文书的效率低的技术问题。
根据本发明实施例的一个方面,提供了一种关联文书的确定方法,该方法包括:获取待关联文书的文书标签;利用预先建立的过滤模型对待关联文书的文书标签进行过滤,得到待关联文书的特征标签,其中,特征标签为文书标签中能够表征待关联文书特征的标签;根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书,并获取多个候选文书的特征标签;利用待关联文书的特征标签和多个候选文书的特征标签,确定待关联文书和每个候选文书的关联度;基于确定的关联度,确定多个候选文书中与待关联文书相关联的关联文书。
进一步地,利用预先建立的过滤模型对待关联文书的文书标签进行过滤,得到待关联文书的特征标签包括:获取文书标签中与过滤模型中记录的标签相匹配的目标标签;读取过滤模型中记录的目标标签在候选文书中出现的概率;在概率小于预定阈值的情况下,将目标标签确定为特征标签。
进一步地,根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书包括:确定待关联文书的各个特征标签所属的类别;根据类别从文书库中,提取候选文书,其中,候选文书具有类别的特征标签。
进一步地,利用待关联文书的特征标签和多个候选文书的特征标签,确定待关联文书和每个候选文书的关联度包括:获取设置的各个类别的权重;利用如下计算方式确定所述待关联文书和每个所述候选文书的关联度G:其中,Gi表示候选文书i与所述待关联文书的关联度,n表示所述待关联文书的特征标签的总数,aik表示候选文书i的特征标签k与所述待关联文书的特征标签k的匹配参数,bik表示特征标签k所属类别的权重,n、i和k均为自然数。
进一步地,方法还包括:若候选文书i的特征标签k与待关联文书的特征标签k的值相匹配,则匹配参数为第一值;若候选文书i的特征标签k与待关联文书的特征标签k的值不匹配,则匹配参数为第二值。
进一步地,在利用预先建立的过滤模型对待关联文书的文书标签进行过滤之前,方法还包括:获取多个样本文书;对每个样本文书进行分词处理,得到每个样本文书的分词结果,并将分词结果作为样本文书的标签;统计所有样本文书的标签,得到统计结果,其中,统计结果至少包括分词得到所有标签、每个标签出现在所有样本文书中的次数、以及每个文书标签在样本文书中出现的概率;保存统计结果,生成过滤模型。
进一步地,基于确定的关联度,确定多个候选文书中与待关联文书相关联的关联文书包括:将与待关联文书的关联度超过预定阈值的候选文书确定为关联文书;或者,对候选文书的多个关联度进行排序,将排序在前N位或后N位的关联度对应的候选文书确定为关联文书。
根据本发明实施例的另一方面,还提供了一种关联文书的确定装置,该装置包括:第一获取单元,用于获取待关联文书的文书标签;过滤单元,用于利用预先建立的过滤模型对待关联文书的文书标签进行过滤,得到待关联文书的特征标签,其中,特征标签为文书标签中能够表征待关联文书特征的标签;处理单元,用于根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书,并获取多个候选文书的特征标签;第一确定单元,用于利用待关联文书的特征标签和多个候选文书的特征标签,确定待关联文书和每个候选文书的关联度;第二确定单元,用于基于确定的关联度,确定多个候选文书中与待关联文书相关联的关联文书。
进一步地,过滤单元包括:获取模块,用于获取文书标签中与过滤模型中记录的标签相匹配的目标标签;读取模块,用于读取过滤模型中记录的目标标签在候选文书中出现的概率;标签确定模块,用于在概率小于预定阈值的情况下,将目标标签确定为特征标签。
进一步地,处理单元包括:类别确定模块,用于确定待关联文书的各个特征标签所属的类别;提取模块,用于根据类别从文书库中,提取候选文书,其中,候选文书具有类别的特征标签。
在本发明实施例中,在获取待关联文书的文书标签之后,对待关联文书的文书标签进行过滤,得到能够给表征待关联文书特征的特征标签,利用该待关联文书的特征标签从文本库中提取多个候选文书,在确定候选文书与待关联文书的关联度之后,确定提取的多个候选文书中的关联文书。通过上述实施例,无需人工查找关联文件,大大减少了时间成本和人工成本;另外,利用能够表征文书的特征的标签确定关联文书,结果准确,解决了现有技术中获取关联文书的效率低的问题,实现了快速准确确定待关联文书的关联文书的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种关联文书的确定方法的流程图;
图2是根据本发明实施例的另一种关联文书的确定方法的流程图;
图3是根据本发明实施例的一种关联文书的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种关联文书的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的关联文书的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取待关联文书的文书标签;
步骤S104,利用预先建立的过滤模型对待关联文书的文书标签进行过滤,得到待关联文书的特征标签,其中,特征标签为文书标签中能够表征待关联文书特征的标签;
步骤S106,根据待关联文书的特征标签,从预先获取的文书库提取多个候选文书,并获取多个候选文书的特征标签;
步骤S108,利用待关联文书的特征标签和多个候选文书的特征标签,确定待关联文书和每个候选文书的关联度;
步骤S110,基于确定的关联度,确定多个候选文书中与待关联文书相关联的关联文书。
采用本申请上述实施例,在获取待关联文书的文书标签之后,对待关联文书的文书标签进行过滤,得到能够给表征待关联文书特征的特征标签,利用该待关联文书的特征标签从文本库中提取多个候选文书,在确定候选文书与待关联文书的关联度之后,确定提取的多个候选文书中的关联文书。通过上述实施例,无需人工查找关联文件,大大减少了时间成本和人工成本;另外,利用能够表征文书的特征的标签确定关联文书,结果准确,解决了现有技术中获取关联文书的效率低的问题,实现了快速准确确定待关联文书的关联文书的效果。
上述实施例中的候选文书和待关联文书可以为司法文书,本申请对文书的具体类型不做限定。
上述实施例中的步骤S102,获取待关联文书的文书标签,可以在获取待关联文书之后,对待关联文书进行分词处理,将分词得到的一组词汇作为文书标签。
根据本申请的上述实施例,可以预先建立过滤模型,该过滤模型可以为后验概率模型。具体地,可以获取大量的样本文书,利用样本文书的文书标签建立后验概率模型。
具体地,在利用预先建立的过滤模型对待关联文书的文书标签进行过滤之前,获取多个样本文书;对每个样本文书进行分词处理,得到每个样本文书的分词结果,并将分词结果作为样本文书的标签;统计所有样本文书的标签,得到统计结果,其中,统计结果至少包括分词得到所有标签、每个标签出现在所有样本文书中的次数、以及每个文书标签在样本文书中出现的概率;保存统计结果,生成过滤模型。
根据本发明的上述实施例,在生成过滤模型之后,可以利用过滤模型对样本文书的文书标签进行过滤,得到能够表征样本文书特征的特征标签,将样本文书和其特征标签保存入文本库。
在上述实施例中,在获取待关联文书的文书标签之后,也可以利用预先建立的过滤模型对待关联文书的文书标签进行过滤,得到能够表征待关联文书特征的特征标签,并根据待关联文书的特征标签,从预先获取的文书库提取多个候选文书和每个候选文书的特征标签。由于从文书库中提取部分候选文书,并从该部分候选文书中确定关联文书,而不是计算文本库中每个文本与待关联文书的关联度,从而可以减小确定文书与待关联文书的关联度的计算量,提高了处理速度。
具体地,从预先获取的文书库提取多个候选文书包括:确定待关联文书的各个特征标签所属的类别;根据类别从文书库中,提取候选文书,其中,候选文书具有类别的特征标签。
在上述实施例中,可以从文本库中查找具有与待关联文书的特征标签所属的类别的标签的候选文书,例如,待关联文书具有两个特征标签,一个特征标签属于类别A,另一个特征标签属于类别B,则从文书库中查找具有类别A和类别B的特征标签的候选文书。
根据上述实施例,步骤S108,利用待关联文书的特征标签和多个候选文书的特征标签,确定待关联文书和每个候选文书的关联度包括:获取设置的各个类别的权重;利用如下计算方式确定所述待关联文书和每个所述候选文书的关联度G:其中,Gi表示候选文书i与所述待关联文书的关联度,n表示所述待关联文书的特征标签的总数,aik表示候选文书i的特征标签k与所述待关联文书的特征标签k的匹配参数,bik表示特征标签k所属类别的权重,n、i和k均为自然数。
可选的,上述实施例的方法还可以包括:若候选文书i的特征标签k与待关联文书的特征标签k的值相匹配,则匹配参数为第一值;若候选文书i的特征标签k与待关联文书的特征标签k的值不匹配,则匹配参数为第二值。
可选地,第一值为1,第二值为0,也即,如果属于同一类别的候选文书的特征标签与待关联文书的特征标签的值相匹配,则确定匹配参数为1;否则,确定匹配参数为0。
例如,特征标签的类别为姓名,待关联文书的姓名标签的值为张三,若候选文书的姓名标签的值为李四,则匹配参数为0;若候选文书的姓名标签的值为张三,则匹配参数为1。
在上述实施例中,利用特征标签的匹配参数和特征标签的类别的权重进行加权计算,可以得到准确的匹配度。
不同特征标签的类别可以对应不同的权重。
根据本发明上述实施例,步骤S110,基于确定的关联度,确定多个候选文书中与待关联文书相关联的关联文书,包括:将与待关联文书的关联度超过预定阈值的候选文书确定为关联文书;或者,对候选文书的多个关联度进行排序,将排序在前N位或后N位的关联度对应的候选文书确定为关联文书。
在上述实施例中,利用预先建立的过滤模型对待关联文书的文书标签进行过滤,得到待关联文书的特征标签可以包括:获取文书标签中与过滤模型中记录的标签相匹配的目标标签;读取过滤模型中记录的目标标签在候选文书(也可以为样本文书)中出现的概率;在概率小于预定阈值的情况下,将目标标签确定为特征标签。
下面结合图2对本申请的上述实施例进行详细说明,如图2所示,该方案可以通过如下步骤实现:
通过步骤S201至步骤S205可以建立过滤模型。具体地:
步骤S201:获取大量的样本文书。
在该实施例中,以获取的司法文书作为训练样本建立概率模型,司法文书会在案件案由段落陈述该次审理的各方当事人、以及司法程序产生的原因,司法人员可以在案由陈述段落人为判断出足够关联案件的信息。因此,可以采用司法文书中的案件案由描述段落作为模型训练样本。例如,以10万篇司法文书的案由描述作为了该模型的训练样本(即样本文书)。
步骤S202:对每个样本文书进行分词和筛选,得到分词结果。
步骤S203:将每个样本文书的分词结果作为该样本文书的文书标签。
在获取样本文书后,利用分词器和针对司法系统的词库,对样本文书进行分词处理,根据分词结果的词性,去除特定词性的词语,如标点符号、助词、副词、代词等信息,对每一篇样本文书,都能得到对应的一组分词结果作为该文书的文书标签。
步骤S204:对多个样本文书的文书标签进行汇总得到汇总结果。
步骤S205:利用汇总结果生成过滤模型。该过滤模型可以为后验概率模型。
具体地,将所有文书得到的标签信息汇总统计得到初始后验概率模型,该概率模型包含了所有训练样本中的文书标签以及每个文书标签在所有样本出现的次数,以及每个文书标签在样本中出现的概率。
步骤S206:利用过滤模型对样本文书的文书标签进行过滤,得到各个样本文书的特征标签。
步骤S207:保存样本文书和对应的特征标签生成文本库。
在得到后验概率模型后,将样本文书经过该模型进行一个过滤。具体地,在过滤操作进行之前,可以为过滤模型指定一个过滤阈值(初始默认为0.1%,该阈值可以根据文书的类型动态调整,例如,针对民事与刑事类型的文书,该阈值可以设置得更小,而针对行政类型的文书,该阈值可以设置得相对较大,以防止涉案行政机构被过滤,从而导致信息不准)。
进一步地,样本文书中所有与过滤模型匹配的文书标签,如果在过滤模型中该标签的概率(即上述的文书标签在样本中出现的概率)大于阈值,则这个标签的信息量就太少,不予采纳;反之,如果该标签的概率小于给定的阈值,则认为这个标签的信息量较大,足以作为这篇司法文书的表征信息之一。通过这个过滤过程,我们对所有的样本文书,都将得到一组信息量较大的,代表本篇文书特征的特征标签,将每一篇样本文书与其对应的一组特征标签一并被存储,生成文本库。
需要说明的是,在执行过滤操作时,将概率大于阈值的标签过滤掉,这是因为,这个标签可能是普遍存在于文书中的一个较为通用的标签,而不是包含特殊信息的标签,而在本发明实施例中,要找的是多个关联文书共有的标签,这个概率是很小的。
在这里需要说明的是,由于该概率模型在初始建立时仅仅基于一个较小(例如,10万)数量级的样本数据基础,因此可以通过一个较长时间的训练及自学习过程,通过训练新的大量新的样本来扩充概率模型,也可以在使用该概率模型的过程中,让概率模型在过滤过程中不断记录被过滤文书的标签信息,并更新对应的概率。这样,可以得到一个足够大的,有足够统计意义的过滤模型,同时,所有经过该模型过滤的文书,都将拥有自己的一组特征标签信息,这些已拥有特征标签的文书,将用于之后的相关文书关联工作。
步骤S208:获取待关联文书。
步骤S209:对待关联文书进行分词和筛选,得到分词结果。
该步骤的实现方式与对样本文书进行分词和筛选的实现方式一致,在此不再赘述。
步骤S210:将待关联文书的分词结果作为该样本文书的文书标签。
在步骤S210执行后,可以根据步骤S205得到的过滤模型作进一步的操作。
步骤S211:利用过滤模型对待关联文书的文书标签进行过滤,得到待关联文书的特征标签。该步骤的实现方式与对样本文书进行过滤的实现方式一致,在此不再赘述。
在该步骤执行后,可以根据步骤S207保存的样本文书和对应的特征标签生成的文本库做进一步地操作。
步骤S212:利用待关联文本的特征标签确定文本库中的候选文书和待关联文书的关联度。
步骤S213:确定关联文书。
由于司法文书的特殊性,在分词过程中,本发明实施例使用了带有司法领域专业性质的分词词库,因此,得到的司法文书标签信息,将存在大量的当事人名字、名称以及司法术语信息。我们将这类特征标签分别做加权处理,放大在案件关联业务过程中关键信息的权重,减小在案件关联业务过程中次要信息的权重。比如,当事人姓名或当事机构名称,属于非常重要的关联信息(因为一个案件的各个审理环节,当事双方信息一般是持续存在的),可以给予一个大于1的权重,而一些对司法过程关联来说次要的标签如司法程序信息,可以给予一个小于1的权重,以此加权规则,对待关联文书的标签及已有文书库中候选文书的标签分别计算,按降序推荐出一定数量(如10篇)的文书,即可准确地找到该文书所属案件中其它司法环节的相关文书。实际工作中,因为当事人信息是判断文书关联性的一个非常强的因素,因此,当事人姓名及相关其它信息(如身份证号),都将分配一个较大的权重进行计算。通过对标签加权,可以根据实际文书的特征,动态调整最终计算结果及推荐结果。
例如,待关联文书的特征标签如下(括号外为特征标签的值,括号内为特征标签的类别):
张三(名字),110101198001010001(身份证),朝阳区(地区),望京街道(地区),违反(法律),治安条例(法律)。
同时,在已获取的文书库中,有如下几篇候选文书,特征标签分别如下:
第一篇:
李四(名字),110101198001010002(身份证),朝阳区(地区),望京街道(地区),违反(法律),治安条例(法律),判处(法律),拘留(法律)。
第二篇:
张三(名字),110101198001010001(身份证),朝阳区(地区),望京街道(地区),行政复议(法律),不服判决(法律),申诉(法律)。
第三篇:
王五(名字),110101198001010003(身份证),丰台区(地区),花乡桥(地区),房屋拆迁(法律),补偿款(法律),协议(法律)。
设置的各个类别的权重分别如下:
名字:3,身份证:10,地区:1,法律信息:0.8。
利用上述实施例中的计算方法分别计算这3篇实例文书与目标文书的关联度得分(标签值向匹配为:1,不匹配为:0):
第一篇:3*0+10*0+1*1+1*1+0.8*1+0.8*1=3.6;
第二篇:3*1+10*1+1*1+1*1+0.8*0+0.8*0=15;
第三篇:3*0+10*0+0*1+0*1+0.8*0+0.8*0=0。
以此方式,对现有的文书库中具备相同类别的特征标签的文书均计算一次这个得分,就能找出与这篇文书最为相关的一些文书,如上述第二篇,很可能是目标文书中的当事人不服判决后上诉形成的二审文书;而第一篇文书则可能是同地区同案由的另一起案件的司法文书,也有一定的得分;而第三篇就可以表示为不相关(关联度为0)的文书。
通过上述实施例,针对司法文书数据的存储形式及文书本身的特点,对司法文书建立对应的标签概率模型,以此标签概率模型对已有文书进行过滤,获取同一案件在司法审理程序各个环节中普遍存在的标签信息,以加权算法对已获取的标签进行计算,筛选出与目标文书标签最为匹配的文书,最后,可以向司法人员推荐该文书。
具体地,该实施例中,利用司法专业词库,对司法文书进行分词后建立自学习后验概率模型,并形成包含特征标签信息的司法文书库。针对新的需要进行关联推荐的司法文书,用该概率模型过滤得到新的文书中高信息量的标签,再通过对已有司法文书库中的文书对比进行特征标签对比及加权计算,对文书库中文书针对这篇文书的计算结果排序,获取该目标司法文书关联度最高的文书,作为其关联文书进行推荐;并且,本申请不依赖于前期文书的人为划分,同时该概率模型可以在使用过程中不断进行自学习,特别适合于海量文书的应用场景,随着模型的不断训练,最终的匹配结果也将越来越准确。
根据本发明实施例的另一方面,还提供了一种关联文书的确定装置,该装置包括如图3所示的:第一获取单元31,用于获取待关联文书的文书标签;过滤单元33,用于利用预先建立的过滤模型对待关联文书的文书标签进行过滤,得到待关联文书的特征标签,其中,特征标签为文书标签中能够表征待关联文书特征的标签;处理单元35,用于从预先获取的文书库提取多个候选文书,并获取多个候选文书的特征标签;第一确定单元37,用于利用待关联文书的特征标签和多个候选文书的特征标签,确定待关联文书和每个候选文书的关联度;第二确定单元39,用于基于确定的关联度,确定多个候选文书中与待关联文书相关联的关联文书。
采用本申请上述实施例,在获取待关联文书的文书标签之后,对待关联文书的文书标签进行过滤,得到能够给表征待关联文书特征的特征标签,利用该待关联文书的特征标签从文本库中提取多个候选文书,在确定候选文书与待关联文书的关联度之后,确定提取的多个候选文书中的关联文书。通过上述实施例,无需人工查找关联文件,大大减小了时间成本和人工成本;另外,利用能够表征文书的特征的标签确定关联文书,结果准确,解决了现有技术中获取关联文书的效率低的问题,实现了快速准确确定待关联文书的关联文书的效果。
上述实施例中的候选文书和待关联文书可以为司法文书,本申请对文书的具体类型不做限定。
进一步地,过滤单元包括:获取模块,用于获取文书标签中与过滤模型中记录的标签相匹配的目标标签;读取模块,用于读取过滤模型中记录的目标标签在候选文书中出现的概率;标签确定模块,用于在概率小于预定阈值的情况下,将目标标签确定为特征标签。
进一步地,处理单元包括:类别确定模块,用于确定待关联文书的各个特征标签所属的类别;提取模块,用于根据类别从文书库中,提取候选文书,其中,候选文书具有类别的特征标签。
进一步地,第一确定单元具体用于:获取设置的各个类别的权重;利用如下计算方式确定所述待关联文书和每个所述候选文书的关联度G:其中,Gi表示候选文书i与所述待关联文书的关联度,n表示所述待关联文书的特征标签的总数,aik表示候选文书i的特征标签k与所述待关联文书的特征标签k的匹配参数,bik表示特征标签k所属类别的权重,n、i和k均为自然数。
进一步地,装置还包括:第三确定单元,用于若候选文书i的特征标签k与待关联文书的特征标签k的值相匹配,则匹配参数为第一值;若候选文书i的特征标签k与待关联文书的特征标签k的值不匹配,则匹配参数为第二值。
进一步地,装置还包括:获取单元还用于在利用预先建立的过滤模型对待关联文书的文书标签进行过滤之前,获取多个样本文书;分词单元,用于对每个样本文书进行分词处理,得到每个样本文书的分词结果,并将分词结果作为样本文书的标签;统计单元,用于统计所有样本文书的标签,得到统计结果,其中,统计结果至少包括分词得到所有标签、每个标签出现在所有样本文书中的次数、以及每个文书标签在样本文书中出现的概率;保存单元,用于保存统计结果,生成过滤模型。
进一步地,第二确定单元具体用于:将候选文书的关联度的值超过预定阈值的候选文书确定为关联文书;对得到的多个关联度的值进行排序,将排序在前N位或后N位的关联度的值对应的候选文书确定为关联文书。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种关联文书的确定方法,其特征在于,包括:
获取待关联文书的文书标签;
利用预先建立的过滤模型对所述待关联文书的文书标签进行过滤,得到所述待关联文书的特征标签,其中,所述特征标签为所述文书标签中能够表征所述待关联文书特征的标签;
根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书,并获取所述多个候选文书的特征标签;
利用所述待关联文书的特征标签和所述多个候选文书的特征标签,确定所述待关联文书和每个所述候选文书的关联度;
基于确定的关联度,确定所述多个候选文书中与所述待关联文书相关联的关联文书。
2.根据权利要求1所述的确定方法,其特征在于,利用预先建立的过滤模型对所述待关联文书的文书标签进行过滤,得到所述待关联文书的特征标签包括:
获取所述文书标签中与所述过滤模型中记录的标签相匹配的目标标签;
读取所述过滤模型中记录的所述目标标签在候选文书中出现的概率;
在所述概率小于预定阈值的情况下,将所述目标标签确定为所述特征标签。
3.根据权利要求1所述的确定方法,其特征在于,根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书包括:
确定所述待关联文书的各个特征标签所属的类别;
根据所述类别从所述文书库中,提取所述候选文书,其中,所述候选文书具有所述类别的特征标签。
4.根据权利要求1或3所述的确定方法,其特征在于,利用所述待关联文书的特征标签和所述多个候选文书的特征标签,确定所述待关联文书和每个所述候选文书的关联度包括:
获取设置的各个所述类别的权重;
利用如下计算方式确定所述待关联文书和每个所述候选文书的关联度G:
其中,Gi表示候选文书i与所述待关联文书的关联度,n表示所述待关联文书的特征标签的总数,aik表示候选文书i的特征标签k与所述待关联文书的特征标签k的匹配参数,bik表示特征标签k所属类别的权重,n、i和k均为自然数。
5.根据权利要求4所述的确定方法,其特征在于,所述方法还包括:
若所述候选文书i的特征标签k与所述待关联文书的特征标签k的值相匹配,则匹配参数为第一值;
若所述候选文书i的特征标签k与所述待关联文书的特征标签k的值不匹配,则匹配参数为第二值。
6.根据权利要求1所述的确定方法,其特征在于,在利用预先建立的过滤模型对所述待关联文书的文书标签进行过滤之前,所述方法还包括:
获取多个样本文书;
对每个所述样本文书进行分词处理,得到每个所述样本文书的分词结果,并将所述分词结果作为所述样本文书的标签;
统计所有所述样本文书的标签,得到统计结果,其中,所述统计结果至少包括分词得到所有标签、每个所述标签出现在所有所述样本文书中的次数、以及每个所述文书标签在所述样本文书中出现的概率;
保存统计结果,生成所述过滤模型。
7.根据权利要求1所述的确定方法,其特征在于,基于确定的关联度,确定所述多个候选文书中与所述待关联文书相关联的关联文书包括:
将与所述待关联文书的关联度超过预定阈值的候选文书确定为所述关联文书;或者,
对候选文书的多个关联度进行排序,将排序在前N位或后N位的关联度对应的候选文书确定为所述关联文书。
8.一种关联文书的确定装置,其特征在于,包括:
第一获取单元,用于获取待关联文书的文书标签;
过滤单元,用于利用预先建立的过滤模型对所述待关联文书的文书标签进行过滤,得到所述待关联文书的特征标签,其中,所述特征标签为所述文书标签中能够表征所述待关联文书特征的标签;
处理单元,用于根据所述待关联文书的特征标签从预先获取的文书库提取多个候选文书,并获取所述多个候选文书的特征标签;
第一确定单元,用于利用所述待关联文书的特征标签和所述多个候选文书的特征标签,确定所述待关联文书和每个所述候选文书的关联度;
第二确定单元,用于基于确定的关联度,确定所述多个候选文书中与所述待关联文书相关联的关联文书。
9.根据权利要求8所述的确定装置,其特征在于,所述过滤单元包括:
获取模块,用于获取所述文书标签中与所述过滤模型中记录的标签相匹配的目标标签;
读取模块,用于读取所述过滤模型中记录的所述目标标签在候选文书中出现的概率;
标签确定模块,用于在所述概率小于预定阈值的情况下,将所述目标标签确定为所述特征标签。
10.根据权利要求8所述的确定装置,其特征在于,所述处理单元包括:
类别确定模块,用于确定所述待关联文书的各个特征标签所属的类别;
提取模块,用于根据所述类别从所述文书库中,提取所述候选文书,其中,所述候选文书具有所述类别的特征标签。
CN201611117075.3A 2016-12-07 2016-12-07 关联文书的确定方法和装置 Pending CN108170691A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611117075.3A CN108170691A (zh) 2016-12-07 2016-12-07 关联文书的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611117075.3A CN108170691A (zh) 2016-12-07 2016-12-07 关联文书的确定方法和装置

Publications (1)

Publication Number Publication Date
CN108170691A true CN108170691A (zh) 2018-06-15

Family

ID=62526703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611117075.3A Pending CN108170691A (zh) 2016-12-07 2016-12-07 关联文书的确定方法和装置

Country Status (1)

Country Link
CN (1) CN108170691A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858036A (zh) * 2019-02-26 2019-06-07 科大讯飞股份有限公司 一种文书划分方法及装置
CN110659347A (zh) * 2019-09-03 2020-01-07 平安科技(深圳)有限公司 关联文书确定方法、装置、计算机设备及存储介质
CN111028903A (zh) * 2019-11-06 2020-04-17 云知声智能科技股份有限公司 一种电子病历中手术相关文书分组的方法及装置
CN111126053A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
CN113779421A (zh) * 2021-08-13 2021-12-10 咪咕数字传媒有限公司 关联推荐方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080053103A (ko) * 2006-12-08 2008-06-12 포항공과대학교 산학협력단 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
CN101996195A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN105718585A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 文档与标签词语义关联方法及其装置
CN105930358A (zh) * 2016-04-08 2016-09-07 南方电网科学研究院有限责任公司 基于关联度的案例检索方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080053103A (ko) * 2006-12-08 2008-06-12 포항공과대학교 산학협력단 연관규칙 탐사 기법을 이용하여 추출한 다수의 연관분류규칙에 의한 다중범주 문서의 자동 분류 방법 및 장치
CN101996195A (zh) * 2009-08-28 2011-03-30 中国移动通信集团公司 音频文件中语音信息的搜索方法、装置及设备
CN102682000A (zh) * 2011-03-09 2012-09-19 北京百度网讯科技有限公司 一种文本聚类方法以及采用该方法的问答系统和搜索引擎
CN105718585A (zh) * 2016-01-26 2016-06-29 中国人民解放军国防科学技术大学 文档与标签词语义关联方法及其装置
CN105930358A (zh) * 2016-04-08 2016-09-07 南方电网科学研究院有限责任公司 基于关联度的案例检索方法及其系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126053A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 一种信息处理方法及相关设备
CN111126053B (zh) * 2018-10-31 2023-07-04 北京国双科技有限公司 一种信息处理方法及相关设备
CN109858036A (zh) * 2019-02-26 2019-06-07 科大讯飞股份有限公司 一种文书划分方法及装置
CN109858036B (zh) * 2019-02-26 2023-07-28 科大讯飞股份有限公司 一种文书划分方法及装置
CN110659347A (zh) * 2019-09-03 2020-01-07 平安科技(深圳)有限公司 关联文书确定方法、装置、计算机设备及存储介质
CN110659347B (zh) * 2019-09-03 2023-08-18 平安科技(深圳)有限公司 关联文书确定方法、装置、计算机设备及存储介质
CN111028903A (zh) * 2019-11-06 2020-04-17 云知声智能科技股份有限公司 一种电子病历中手术相关文书分组的方法及装置
CN111028903B (zh) * 2019-11-06 2023-10-20 云知声智能科技股份有限公司 一种电子病历中手术相关文书分组的方法及装置
CN113779421A (zh) * 2021-08-13 2021-12-10 咪咕数字传媒有限公司 关联推荐方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
Mubarak et al. Using Twitter to collect a multi-dialectal corpus of Arabic
CN108170691A (zh) 关联文书的确定方法和装置
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN104866558B (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN107437038A (zh) 一种网页篡改的检测方法及装置
CN110399606B (zh) 一种无监督电力文档主题生成方法及系统
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN105787025A (zh) 网络平台公共账号分类方法及装置
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN105701076B (zh) 一种论文抄袭检测方法及系统
CN104951430B (zh) 产品特征标签的提取方法及装置
CN108021545A (zh) 一种司法文书的案由提取方法及装置
CN106126719A (zh) 信息处理方法及装置
CN108363717A (zh) 一种数据安全级别的识别检测方法及装置
CN110134792A (zh) 文本识别方法、装置、电子设备以及存储介质
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN109033212A (zh) 一种基于相似度匹配的文本分类方法
CN112347254B (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180615