CN109783639A - 一种基于特征提取的调解案件智能分派方法及系统 - Google Patents

一种基于特征提取的调解案件智能分派方法及系统 Download PDF

Info

Publication number
CN109783639A
CN109783639A CN201811579026.0A CN201811579026A CN109783639A CN 109783639 A CN109783639 A CN 109783639A CN 201811579026 A CN201811579026 A CN 201811579026A CN 109783639 A CN109783639 A CN 109783639A
Authority
CN
China
Prior art keywords
case
feature
shooter
trouble
conciliation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811579026.0A
Other languages
English (en)
Other versions
CN109783639B (zh
Inventor
彭俊江
王辉
李建元
周国栋
陈涛
蒋伶华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinjiang Technology Co.,Ltd.
Original Assignee
Enjoyor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enjoyor Co Ltd filed Critical Enjoyor Co Ltd
Priority to CN201811579026.0A priority Critical patent/CN109783639B/zh
Publication of CN109783639A publication Critical patent/CN109783639A/zh
Application granted granted Critical
Publication of CN109783639B publication Critical patent/CN109783639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及司法领域和自然语言处理领域,尤其涉及一种基于特征提取的调解案件智能分派方法及系统,方法包括获取调解案件分类情况和特征词,比对待分派调解案件和同案件类型下各调解员调解案件的特征词相似度,结合各调解员当前工作量和服务评级,对调解员进行排序,分派调解案件。系统包括:数据采集模块、文本分类模块、智能分派模块、调解员画像模块、案件录入模块、案例分析模块、数据存储模块。本发明具有分派准确率高的特点,可以提升调解满意度、提高调解效率和服务质量,并可以纠纷排查、优化调解资源,并提升工作效率。

Description

一种基于特征提取的调解案件智能分派方法及系统
技术领域
本发明涉及司法领域的自然语言处理领域,尤其涉及一种基于特 征提取的调解案件智能分派方法及系统。
背景技术
目前,我国有近77万个人民调解组织、367万人民调解员,每 年调解纠纷900多万件,案件类型可细分达到80多类,案件数量的 增多和案件种类的繁多,使人民调解工作的压力和困难不断增大,怎 样更好的进行调解服务,提高调解服务满意度,是目前人民调解工作 面临的严峻问题。12348法律服务网提供了人民调解服务,但该服务 有以下不足:1、服务方式单一,只提供调解机构查询服务;2、服务 模式被动,调解员不能主动联系矛盾纠纷当事人,主动化解矛盾纠纷; 3、难以管理调解资源,目前调解案件类型达到80多类,矛盾纠纷当 事人难以判断纠纷所属类型,不能有效的申请调解资源。除了12348 网站,110也会分派调解案件,随着移动互联网技术的发展,也促使 移动端产生大量的案件申请。
以上案件来源法律服务所产生的矛盾纠纷数据主要为短文本数 据,文本挖掘技术可以帮助人们快速从海量数据中获取关键信息。文 本分类和推荐系统在新闻、电商、社交等领域已广泛应用,并发挥重 要作用,但在司法领域中该技术的应用仍属空白。短文本具有语法随 意、结构松散、语义稀疏、停用词占比大等特点,以往适用于长文本 的方法不再适用。
人民调解属于司法领域,调解员具有自己所专长的案件类型,短 文本数据专业性强,分类类别达80多类,分类粒度细,文本特征提 取困难,上述分类和推荐方法的精度和实时性达不到业务要求。综上 所述,有必要使用新的技术方法手段,来弥补以上不足,促使调解服 务升级,提高调解效率,提升调解满意度。
发明内容
本发明为克服上述的不足之处,目的在于提供一种基于特征提取 的调解案件智能分派方法及系统,根据特征词的相似性进行案件分 派,时效性好,准确度高,从而提高人民调解效率和服务质量。
本发明是通过以下技术方案达到上述目的:一种基于特征提取的 调解案件智能分派系统,包括:数据采集模块、文本分类模块、智能 分派模块、调解员画像模块、案件录入模块、案例分析模块、数据存 储模块;
其中,数据采集模块用于采集用户和调解员相关信息,以及相关 咨询和调解数据,对资源进行整合、清理、存储;其中清理包括去除 无效数据,空值,异常值;
文本分类模块用于使用训练好的分类模型对案件类型进行分类;
智能分派模块用于根据案件智能分派方法,对案件进行分派;
调解员画像模块用于对调解员业务能力及服务水平进行分析画 像,清晰了解调解员群体现状,调解资源情况,提供资源调配依据;
案件录入模块用于记录案件过程中的重要信息,使用训练好的分 类模型对案件类型进行辅助分类;
案例分析模块用于对案件进行分析评估,掌握当前的调解服务状 态;
数据存储模块用于存储各类数据,包括调解案件库、调解员调解 案件特征库、标签文本库、各案件类型的调解员调解案件集等数据。
作为优选,所述采用案件智能分派方法进行分派时,把案例信息 及咨询人员信息分派给调解员;把案例分类、调解员信息和调解地址 信息推送给咨询人员,其中,使用多途径进行信息推送,推送方式包 括Web Service、HTML5、Rest、WAP,可根据具体需求进行多种方 式的推送服务。
作为优选,所述调解员画像模块包括基础信息、业务状态、个人 能力、服务评级子模块;基础信息包括调解员年龄、性别、执业年限、 联系方式信息;业务状态指调解员当前调解状态,判断调解资源利用 情况;个人能力指调解员的工作能力,调解业绩情况信息;服务评级 指对调解员的服务评价和业务能力的综合评级。
作为优选,所述案件分析模块包括时间序列、人员画像、风险预 警、工作质量、效率评估子模块;其中时间序列指案件历史变化趋势; 人员画像指对咨询人员属性描述,包括年龄、性别、籍贯、历史记录 信息;风险预警指对重大案件、群体案件、涉老涉幼等重点关注,社 会影响广泛案件进行预警提示;工作质量指对结案案件结果、满意度、 评价进行综合考量;效率评估指对调解案件从介入到结案整个服务过 程的效率情况。
一种基于特征提取的调解案件智能分派方法,包括如下步骤:
(1)采集调解案件数据,进行数据预处理后存入调解案件库;
(2)对调解案件文本进行分类处理,获得各案件类型的调解员调解 案件集;
(3)对调解案件文本提取特征词,获得调解员调解案件特征库;
(4)对待分派调解案件文本进行分类与分词处理,确定分类结果, 提取该案件特征词;
(5)比对待分派调解案件和同案件类型下各调解员调解案件的特征 词相似度,结合各调解员当前工作量和服务评级,对调解员进行排序, 分派调解案件。
作为优选,分类方法包括:将调解案件文本分词,获得词汇文本; 对词汇文本进行向量化和归一化处理;对处理后的数据进行聚类,并 根据专家经验分类添加标签,存入标签文本库;采用机器学习算法训 练、优化分类模型,进而用于调解案件文本分类。
作为优选,所述进行聚类时采用DBSCAN算法进行聚类,具体步 骤如下:
(a)初始化选取邻域参数(∈,MinPts),∈为聚类半径,MinPts为最低样 本数;
(b)计算距离,其中距离计算方式:欧式距离,点a(x11,x12,...,x1n)与 b(x21,x22,...,x2n)间的欧式距离为
(c)通过距离度量方式找到样本xj的∈-邻域样本集N(xj),若样本集 个数满足|N(xj)|≥MinPts,将xj加入核心对象样本集合Ωk
(d)如果样本集合Ωk为空集,则结束流程;否则执行步骤(e);
(e)在Ωk中,随机选择核心对象o,执行步骤(b)直到算法结束生 成聚类簇Ck
(f)优化邻域参数组合,重复步骤(b),达到最佳聚类结果。
作为优选,所述获得调解员调解案件特征库的方法包括:将调解 案件文本分词,提取特征词,获得一级特征库;对特征词进行合并或 扩展,获得二级特征库。
作为优选,所述获得一级特征库的具体方法如下:统计常规词的 组合词频,将组合词频满足设定阈值I的常规词组合作为新词汇加入 词汇表;定义窗口长度L,采用窗口遍历的方法统计任意M个词汇 组合出现的次数,将出现次数最高的K个组合中的词汇作为特征词, 统计所述特征词中单个词汇的词频,将词频满足设定阈值II的词汇 作为候选特征词,加入一级特征库。
作为优选,所述获取二级特征库的具体方法如下:计算特征词的 相似度;当两个特征词的相似度满足设定阈值III或两个特征词的相 似度在一级特征库的特征词相似度值前N位时,则将两个特征词合 并,保留其中一个特征词,将另一个特征词从一级特征库中去除;当 两个特征词的相似度满足设定阈值IV时,从扩展词典中抽取对应的 扩展词汇,对特征词进行扩展,将扩展特征词加入一级特征库,获得 二级特征库。
作为优选,所述特征词的相似度计算方法包括:
(i)设置基于字符的特征词相似度权重p和基于语义的特征词相似 度权重q;
(ii)获取特征词F1、F2基于字符的特征词相似度sim(F1,F2),其中, sim(F1,F2)=特征词F1和特征词F2中字符相同的数量/特征词F1和特 征词F2的字符长度较大值;
(iii)获取特征词F1、F2基于语义的特征词相似度score(F1,F2),其 中,score(F1,F2)为特征词F1和特征词F2的相关性值,相关性值从 案件库文本语言训练后的语义模型中获取;
(iv)计算特征词的相似度=p*sim(F1,F2)+q*score(F1,F2)。
作为优选,获得调解员调解案件特征库的方法还包括:从调解案 件库中抽取n条调解案件数据,按照步骤(4)、(5)进行分派,根据 案件分派准确度,更新参数获得三级特征库,具体如下:
若分派准确度满足预设的阈值时,则将当前的二级特征库确定为 最终的三级特征库,并加入调解员特征库;否则更新参数阈值直到分 派准确率满足预设的阈值;其中分派准确度计算方法为:准确率=分 派准确的案件数/总的案件数。
作为优选,所述待分派调解案件和同案件类型下各调解员调解案 件的特征词相似度比对的方法包括:将特征词向量化,采用余弦相似 度计算特征词相似度si。
作为优选,所述调解员排序的方法包括:调解员当前在调解案件 数大于阈值γ时,则将调解员剔除;计算分派排序分值v,v=a*si +b*st,其中st为调解员服务评级,对调解员降序排序。
作为优选,所述分词方法包括:根据调解案件数据将无法正确切 分的词加入专业调解词典,将无意义、区分度不高的词、标点符号加 入停用词典,将专业调解词典加入分词工具词典,采用分词工具对文 本进行分词,分此后使用停用词典过滤。
本发明的有益效果在于:(1)分派准确率高:采用多层级特征提 取,多规则人案匹配,有效提高了案件分派准确率,分派准确率达到 95.6%;(2)提升调解满意度:文本自动分类,免除案件类型划分的 麻烦,减轻当事人咨询负担。快速无感进行问题解决的引导,提升了 调解过程的服务体验;(3)提高调解效率和服务质量:案件智能派送, 并且进行信息互推送,使调解沟通更加顺畅,改变了调解员被动工作 状态,转被动为主动;(4)纠纷排查:通过智能派送系统,了解案件 详情,对案件进行分流,使调解资源合理利用。案例分析模块,实时 监控掌握纠纷人员画像和纠纷案件状态,对矛盾纠纷进行排查;(5) 优化调解资源:问题的准确分类和精确推送,调解人员画像,保证了 专业调节资源有效利用,不被一般问题所占用,合理优化有限的调解 资源;(6)提升工作效率:调解过程中,案件录入工作可以实现自动 分类处理,调解员只需确认即可,避免细分类别给调解员带来的困扰, 提高了案件录入效率和准确率。
附图说明
图1是本发明整体系统的组成框架示意图;
图2是本发明智能派送方法的流程示意图;
图3是本发明数据采集模块的工作流程示意图;
图4是本发明文本分类的流程示意图;
图5是本发明文本分类模型训练及优化的的流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护 范围并不仅限于此:
实施例:如图1所示,一种基于特征提取的调解案件智能分派系 统,包括:数据采集模块、文本分类模块、智能分派模块、调解员画 像模块、案件录入模块、案例分析模块、数据存储模块;
其中,数据采集模块用于采集用户和调解员相关信息,以及相关 咨询和调解数据,对资源进行整合、清理、存储;其中清理包括去除 无效数据,空值,异常值;
文本分类模块用于使用训练好的分类模型对案件类型进行分类;
智能分派模块用于根据案件智能分派方法,对案件进行分派;
调解员画像模块用于对调解员业务能力及服务水平进行分析画 像,清晰了解调解员群体现状,调解资源情况,提供资源调配依据;
案件录入模块用于记录案件过程中的重要信息,使用训练好的分 类模型对案件类型进行辅助分类;
案例分析模块用于对案件进行分析评估,掌握当前的调解服务状 态;
数据存储模块用于存储各类数据,包括调解案件库、调解员调解 案件特征库、标签文本库、各案件类型的调解员调解案件集。
所述采用案件智能分派方法进行分派时,把案例信息及咨询人员 信息分派给调解员;把案例分类、调解员信息和调解地址信息推送给 咨询人员,其中,使用多途径进行信息推送,推送方式包括Web Service、HTML5、Rest、WAP,可根据具体需求进行多种方式的推送服务。
所述调解员画像模块包括基础信息、业务状态、个人能力、服务 评级子模块;基础信息包括调解员年龄、性别、执业年限、联系方式 信息;业务状态指调解员当前调解状态,判断调解资源利用情况;个 人能力指调解员的工作能力,调解业绩情况信息;服务评级指对调解 员的服务评价和业务能力的综合评级。
所述案件分析模块包括时间序列、人员画像、风险预警、工作质 量、效率评估子模块;其中时间序列指案件历史变化趋势;人员画像 指对咨询人员属性描述,包括年龄、性别、籍贯、历史记录信息;风 险预警指对重大案件、群体案件、涉老涉幼等重点关注,社会影响广 泛案件进行预警提示;工作质量指对结案案件结果、满意度、评价进 行综合考量;效率评估指对调解案件从介入到结案整个服务过程的效 率情况。如图2所示,一种基于人民调解案件特征提取的智能分派方 法,具体步骤如下:
步骤1:采集调解案件数据,并对数据进行预处理后存入调解案 件库;其中,数据采集模块采集某市近5年人民调解案例近40万条 数据,采集数据源包括调解员数据、用户数据、源数据库、文档数据 等。如图3所示,数据采集模块对数据进行清洗存入基础数据库,清 洗过程中删除纠纷详情为空、办理和办结时间异常以及重复的数据, 将清洗后的数据存入调解员案件库中。采集的数据包括但不限于以下 列出内容,如下表1所示:
字段 注释
MEDIATE_CIRCS 纠纷详情
MEDIATE_RESULT 调处结果
MEDIATE_EXPLAIN 调处结果说明
MEDIATE_TYPE 纠纷类型
SUBGROUP_COUNTY 所属地区
TRANSACT_DATE 办理时间
FINISH_DATE 办结时间
REFEREE_DEPT 调解机构
REFEREE_ID 调解人员ID
DISSENSION_ID 纠纷事件主键
RESULT_RECOMMEND 结果评价
表1
步骤2:对调解案件文本进行分类处理,获得各案件类型的调解 员调解案件集。所述分类方法包括:将调解案件文本分词,获得词汇 文本;对词汇文本进行向量化和归一化处理;对处理后的数据进行聚 类,并根据专家经验分类添加标签,存入标签文本库;采用机器学习 算法训练、优化分类模型,进而用于调解案件文本分类。
如图4所示,文本分类模块首先将基础数据库的文本分词,根据 调解案例数据将“村委会”等无法正确切分的词,加入专业司法词典, 将无意义、区分度不高的词,例如:甲方、乙方等,加入停用词典, 停用词典还包括常用的标点符号,“的”,“了”等。将调解专业词典加 入分词工具词典中,对文本数据进行分词,分词工具有jieba、哈工 大hanltp等,这里使用jieba,分词后使用停用词词典过滤,在本实 施例中,某纠纷详情如下:
2010.11.25,甲、乙系学校学生,双方因矛盾在学校打架受伤。 甲方要求乙方赔偿医药费,双方为赔偿问题产生分岐引起纠纷。
分词后结果如下:
学校/学生/矛盾/学校/打架/受伤/要求/赔偿/医药费/赔偿问题/产 生/分岐/引起纠纷
然后分词后使用word2vec将文本数据转化为向量的形式,并进 行归一化去量纲处理。归一化方法包括Min-Max方法和Z-score。其 中Min-Max方法是对原始数据线性变换,将其映射到区间[0,1]范围 内,公式为:Xnorm为归一化后的数据,X为 原始数据,Xmax、Xmin分别为原始数据集的最大值和最小值。Z-score 方法将原始数据归一化为均值为0,方差为1的数据集,公式为: μ、σ分别为原始数据集的均值和方法,可以根据数据实 际分布情况进行归一化方法的选择,本发明采用Min-Max方法进行归一化处理。
对归一化后的数据进行聚类,提取标签。聚类方法有Kmeans++、 DBSCAN,本发明实施例采用DBSCAN算法进行聚类,其中DBSCAN算法 聚类步骤如下:
1)初始化选取邻域参数(∈,MinPts),∈为聚类半径,MinPts为最低 样本数。
2)计算距离,距离计算方式:欧式距离,点a(x11,x12,...,x1n)与 b(x21,x22,...,x2n)间的欧式距离为
3)通过距离度量方式,找到样本xj的∈-邻域样本集N(xj),如果 样本集个数满足|N(xj)|≥MinPts,将xj加入核心对象样本集合Ωk
4)如果样本集合Ωk为空集,算法结束。若非空进行步骤5)。
5)在Ωk中,随机选择核心对象o,进行步骤2),直到算法结束 生成聚类簇Ck
6)优化邻域参数组合,重复步骤2)。
聚类通过参数优化调整,对无效分组进行归并或去除处理,达到 最佳聚类结果。聚类效果使用Davies-Bouldin Index和Dunn Validity Index指标进行评测。
结合专家经验给每类别进行类别确认,并添加类别标签,分类好 的数据存入特征库中。本实例根据实际情况细分出80个纠纷类别: 遗产纠纷、物业纠纷、劳动工伤、劳动报酬、邻里纠纷、家庭纠纷、 婚姻纠纷、交通事故、涉校纠纷、交通事故等。
图5是分类模型训练及优化的流程图,可对模型进行训练优化迭 代升级。从标签文本库抽取分类好的带有标签的数据集,将数据集随 机分为训练集(80%)和测试集(20%),两个数据集中各类别数据 量比例与原数据集保持一致。对训练集使用卷积神经网络DPCNN算 法进行模型训练。模型训练完成后使用测试集进行测试,检验模型精 度,其中精度=真正例/(真正例+假正例)。模型需要不断迭代优化才能 达到最优的分类效果,模型分类准确率可达到96%。将训练好的分类 模型存入模型库。
步骤3:对调解案件文本提取特征词,获得调解员调解案件特征 库。所述获得调解员调解案件特征库的方法包括:将调解案件文本分 词,提取特征词,获得一级特征库;对特征词进行合并或扩展,获得 二级特征库。
基于分词结果统计常规词的组合词频,将组合词频满足设定阈值I的常规词组合作为新词汇加入词汇表。定义窗口长度L,使用窗口 遍历的方法统计任意M个词汇组合出现的次数,将出现次数最高的 K个组合中的词汇作为特征词,统计所述特征词中单个词汇的词频, 将词频满足设定阈值II的词汇作为候选特征词,加入一级特征库。 然后,根据案件库中文本词频和组合词频,选择候选特征词,获得一 级特征库。
当两个特征词的相似度满足设定阈值III,或两个特征词的相似 度在一级特征库的特征词相似度值前N位时,将两个特征词合并, 保留其中一个特征词,将另一个特征词从一级特征库中去除;当两个 特征词的相似度满足设定阈值IV时,从扩展词典中抽取对应的扩展 词汇,对特征词进行扩展,将扩展特征词加入一级特征库,获得二级 特征库。
其中,特征词的相似度,其计算方法包括:设置基于字符的特征 词相似度权重p和基于语义的特征词相似度权重q;获取特征词F1、 F2基于字符的特征词相似度sim(F1,F2),其中,sim(F1,F2)=特征词 F1和特征词F2中字符相同的数量/特征词F1和特征词F2的字符长 度较大值。例:特征词1为‘夫妇’、特征词2为‘夫妻’,字符长度分 别为2、2,其中字符‘夫’相同,字符相同数为1,则标签的相似度 为0.5。获取特征词F1、F2基于语义的特征词相似度score(F1,F2), 其中,score(F1,F2)为特征词F1和特征词F2的相关性值,相关性值 从案件库文本语言训练后的语义模型中获取,例:利用如Word2Vec 语言模型构建语义模型;获取大量各种类型的司法文本作为语料,训 练语义模型;将两个标签输入语义模型,获取两个标签的相关性 score(F1,F2),将两个标签的相关性作为标签的相似度。最后,综合计算特征词的相似度=p*sim(F1,F2)+q*score(F1,F2)。
从案件库中抽取n条案件记录,采用智能分派方法进行分派,根 据案件分派准确度,更新参数获得三级特征库,具体如下:
从案件库中抽取n条记录,按照智能分派方法,进行案件分派, 分派准确度满足阈值V时,当前的二级特征库则确定为最终三级特 征库,加入调解员特征库;否则更新参数阈值I、II、III、IV的值, 直到分派准确度满足阈值V时。其中准确率计算方法为:准确率=分派准确的案件数/总的案件数。例如:总共抽取100件案件,其中有 50件案件正确分派到相应的调解员,则相应的准确率为50%。通过更 新参数I、II、III、IV值,最终分派准确率可达到95.6%。
步骤4:对待分派调解案件文本进行分类与分词处理,确定分类 结果,提取该案件特征词;
步骤5:比对待分派调解案件和同案件类型下各调解员调解案件 的特征词相似度,结合各调解员当前工作量和服务评级,对调解员进 行排序,分派调解案件。
举例,调解员特征库如下表2所示:
调解员 特征词
Med1 交通车祸撞人赔偿死亡伤害走路红灯绿灯刮擦人行道
Med2 儿女赡养抚养独生子婚生子家暴离婚财产父母
表2
智能分派方法具体如下:根据案件分类类别,获取该类型案件领 域的调解员;待分派案件文本根据建立好的专业词汇表进行分词,提 取该案件特征词。将特征词向量化,根据案件特征向量和调解员特征 库(向量化),计算案件和列表S中调解员相似度si,相似度为二者 余弦相似度,根据相似度si,对S中调解员进行排序。当前调解员在 调解案件数为m,当m大于阈值γ时,则将调解员从S中剔除。获 取分派排序分值v,v=a*si+b*st,其中st为调解员业务评级。根据S表中的分值v,进行案件分派。其中在进行分派时,把案例信息及 咨询人员信息分派给调解员;把案例分类、调解员信息和调解地址信 息推送给咨询人员。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依 本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附 图所涵盖的精神时,仍应属本发明的保护范围。

Claims (15)

1.一种基于特征提取的调解案件智能分派方法,其特征在于包括如下步骤:
(1)采集调解案件数据,进行数据预处理后存入调解案件库;
(2)对调解案件文本进行分类处理,获得各案件类型的调解员调解案件集;
(3)对调解案件文本提取特征词,获得调解员调解案件特征库;
(4)对待分派调解案件文本进行分类与分词处理,确定分类结果,提取该案件特征词;
(5)比对待分派调解案件和同案件类型下各调解员调解案件的特征词相似度,结合各调解员当前工作量和服务评级,对调解员进行排序,分派调解案件。
2.根据权利要求1所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述分类方法包括:将调解案件文本分词,获得词汇文本;对词汇文本进行向量化和归一化处理;对处理后的数据进行聚类,并根据专家经验分类添加标签,存入标签文本库;采用机器学习算法训练、优化分类模型,进而用于调解案件文本分类。
3.根据权利要求2所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述进行聚类时采用DBSCAN算法进行聚类,具体步骤如下:
(a)初始化选取邻域参数(∈,MinPts),∈为聚类半径,MinPts为最低样本数;
(b)计算距离,其中距离计算方式:欧式距离,点a(x11,x12,...,x1n)与b(x21,x22,...,x2n)间的欧式距离为
(c)通过距离度量方式找到样本xj的∈-邻域样本集N(xj),若样本集个数满足|N(xj)|≥MinPts,将xj加入核心对象样本集合Ωk
(d)如果样本集合Ωk为空集,则结束流程;否则执行步骤(e);
(e)在Ωk中,随机选择核心对象o,执行步骤(b)直到算法结束生成聚类簇Ck
(f)优化邻域参数组合,重复步骤(b),达到最佳聚类结果。
4.根据权利要求1所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述获得调解员调解案件特征库的方法包括:将调解案件文本分词,提取特征词,获得一级特征库;对特征词进行合并或扩展,获得二级特征库。
5.根据权利要求4所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述获得一级特征库的具体方法如下:统计常规词的组合词频,将组合词频满足设定阈值I的常规词组合作为新词汇加入词汇表;定义窗口长度L,采用窗口遍历的方法统计任意M个词汇组合出现的次数,将出现次数最高的K个组合中的词汇作为特征词,统计所述特征词中单个词汇的词频,将词频满足设定阈值II的词汇作为候选特征词,加入一级特征库。
6.根据权利要求5所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述获得二级特征库的具体方法如下:计算特征词的相似度;当两个特征词的相似度满足设定阈值III或两个特征词的相似度在一级特征库的特征词相似度值前N位时,则将两个特征词合并,保留其中一个特征词,将另一个特征词从一级特征库中去除;当两个特征词的相似度满足设定阈值IV时,从扩展词典中抽取对应的扩展词汇,对特征词进行扩展,将扩展特征词加入一级特征库,获得二级特征库。
7.根据权利要求6所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述特征词的相似度计算方法包括:
(i)设置基于字符的特征词相似度权重p和基于语义的特征词相似度权重q;
(ii)获取特征词F1、F2基于字符的特征词相似度sim(F1,F2),其中,sim(F1,F2)=特征词F1和特征词F2中字符相同的数量/特征词F1和特征词F2的字符长度较大值;
(iii)获取特征词F1、F2基于语义的特征词相似度score(F1,F2),其中,score(F1,F2)为特征词F1和特征词F2的相关性值,相关性值从案件库文本语言训练后的语义模型中获取;
(iv)计算特征词的相似度=p*sim(F1,F2)+q*score(F1,F2)。
8.根据权利要求7所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述获得调解员调解案件特征库的方法还包括:从调解案件库中抽取n条调解案件数据,按照步骤(4)、(5)进行分派,根据案件分派准确度,更新参数获得三级特征库,具体如下:
若分派准确度满足预设的阈值时,则将当前的二级特征库确定为最终的三级特征库,并加入调解员特征库;否则更新参数阈值直到分派准确率满足预设的阈值;其中分派准确度计算方法为:准确率=分派准确的案件数/总的案件数。
9.根据权利要求1所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述待分派调解案件和同案件类型下各调解员调解案件的特征词相似度比对的方法包括:将特征词向量化,采用余弦相似度计算特征词相似度si。
10.根据权利要求9所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述调解员排序的方法包括:调解员当前在调解案件数大于阈值γ时,则将调解员剔除;计算分派排序分值v,v=a*si+b*st,其中st为调解员服务评级,对调解员降序排序。
11.根据权利要求1-10中任意一项所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述分词方法包括:根据调解案件数据将无法正确切分的词加入专业调解词典,将无意义、区分度不高的词、标点符号加入停用词典,将专业调解词典加入分词工具词典,采用分词工具对文本进行分词,分此后使用停用词典过滤。
12.一种基于特征提取的调解案件智能分派系统,其特征在于包括:数据采集模块、文本分类模块、智能分派模块、调解员画像模块、案件录入模块、案例分析模块、数据存储模块;
其中,数据采集模块用于采集用户和调解员相关信息,以及相关咨询和调解数据,对资源进行整合、清理、存储;其中清理包括去除无效数据,空值,异常值;
文本分类模块用于使用训练好的分类模型对案件类型进行分类;
智能分派模块用于根据案件智能分派方法,对案件进行分派;
调解员画像模块用于对调解员业务能力及服务水平进行分析画像,清晰了解调解员群体现状,调解资源情况,提供资源调配依据;
案件录入模块用于记录案件过程中的重要信息,使用训练好的分类模型对案件类型进行辅助分类;
案例分析模块用于对案件进行分析评估,掌握当前的调解服务状态;数据存储模块用于存储各类数据,包括调解案件库、调解员调解案件特征库、标签文本库、各案件类型的调解员调解案件等数据。
13.根据权利要求12所述的一种基于特征提取的调解案件智能分派系统,其特征在于:所述采用案件智能分派方法进行分派时,把案例信息及咨询人员信息分派给调解员;把案例分类、调解员信息和调解地址信息推送给咨询人员,其中,使用多途径进行信息推送,推送方式包括Web Service、HTML5、Rest、WAP,可根据具体需求进行多种方式的推送服务。
14.根据权利要求12所述的一种基于特征提取的调解案件智能分派系统,其特征在于:所述调解员画像模块包括基础信息、业务状态、个人能力、服务评级子模块;基础信息包括调解员年龄、性别、执业年限、联系方式信息;业务状态指调解员当前调解状态,判断调解资源利用情况;个人能力指调解员的工作能力,调解业绩情况信息;服务评级指对调解员的服务评价和业务能力的综合评级。
15.根据权利要求12所述的一种基于特征提取的调解案件智能分派系统,其特征在于:所述案件分析模块包括时间序列、人员画像、风险预警、工作质量、效率评估子模块;其中时间序列指案件历史变化趋势;人员画像指对咨询人员属性描述,包括年龄、性别、籍贯、历史记录信息;风险预警指对重大案件、群体案件、涉老涉幼等重点关注,社会影响广泛案件进行预警提示;工作质量指对结案案件结果、满意度、评价进行综合考量;效率评估指对调解案件从介入到结案整个服务过程的效率情况。
CN201811579026.0A 2018-12-24 2018-12-24 一种基于特征提取的调解案件智能分派方法及系统 Active CN109783639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811579026.0A CN109783639B (zh) 2018-12-24 2018-12-24 一种基于特征提取的调解案件智能分派方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811579026.0A CN109783639B (zh) 2018-12-24 2018-12-24 一种基于特征提取的调解案件智能分派方法及系统

Publications (2)

Publication Number Publication Date
CN109783639A true CN109783639A (zh) 2019-05-21
CN109783639B CN109783639B (zh) 2020-10-27

Family

ID=66497933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811579026.0A Active CN109783639B (zh) 2018-12-24 2018-12-24 一种基于特征提取的调解案件智能分派方法及系统

Country Status (1)

Country Link
CN (1) CN109783639B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119905A (zh) * 2019-05-23 2019-08-13 贵州大学 一种基于双通道卷积神经网络的精准分案方法
CN110365770A (zh) * 2019-07-16 2019-10-22 厦门市东合传媒科技有限公司 多元化在线调解平台及方法
CN110837601A (zh) * 2019-10-25 2020-02-25 杭州叙简科技股份有限公司 一种警情的自动分类与预测方法
CN111260223A (zh) * 2020-01-17 2020-06-09 山东省计算中心(国家超级计算济南中心) 一种审判风险智能识别与预警方法、系统、介质及设备
CN111797247A (zh) * 2020-09-10 2020-10-20 平安国际智慧城市科技股份有限公司 基于人工智能的案件推送方法、装置、电子设备及介质
CN112258350A (zh) * 2020-11-16 2021-01-22 南通知法互联网科技有限公司 一种人民调解用户使用系统
CN112381418A (zh) * 2020-11-17 2021-02-19 平安普惠企业管理有限公司 案件分配方法、装置、设备及存储介质
CN112766796A (zh) * 2021-01-30 2021-05-07 山西瑞呈物联网科技有限公司 一种基于案件管理系统的司法调解办案控制方法
CN113077196A (zh) * 2021-06-07 2021-07-06 泰豪信息技术有限公司 纠纷事件处理方法、装置、可读存储介质及计算机设备
CN113283760A (zh) * 2021-05-31 2021-08-20 浙江环玛信息科技有限公司 案件流程分析报告生成方法及系统
CN116205350A (zh) * 2023-01-12 2023-06-02 深圳市大数据研究院 基于法律文书的再犯人身危险性分析预测系统和方法
CN116843162A (zh) * 2023-08-28 2023-10-03 之江实验室 一种矛盾调解方案推荐与评分系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248671A1 (en) * 2008-03-28 2009-10-01 Daisuke Maruyama Information classification system, information processing apparatus, information classification method and program
CN101576977A (zh) * 2009-06-01 2009-11-11 中国政法大学 证据管理系统
US20150106578A1 (en) * 2013-10-15 2015-04-16 Coho Data Inc. Systems, methods and devices for implementing data management in a distributed data storage system
CN106802925A (zh) * 2016-12-20 2017-06-06 深圳爱拼信息科技有限公司 一种律师智能匹配推荐方法和服务器
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN108595525A (zh) * 2018-03-27 2018-09-28 成都律云科技有限公司 一种律师信息处理方法和系统
CN108898313A (zh) * 2018-06-29 2018-11-27 郑州中博奥信息技术有限公司 智慧案管微平台
CN109062957A (zh) * 2018-06-26 2018-12-21 宁波铂域网络科技有限公司 案源获取和推荐方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248671A1 (en) * 2008-03-28 2009-10-01 Daisuke Maruyama Information classification system, information processing apparatus, information classification method and program
CN101576977A (zh) * 2009-06-01 2009-11-11 中国政法大学 证据管理系统
US20150106578A1 (en) * 2013-10-15 2015-04-16 Coho Data Inc. Systems, methods and devices for implementing data management in a distributed data storage system
CN106802925A (zh) * 2016-12-20 2017-06-06 深圳爱拼信息科技有限公司 一种律师智能匹配推荐方法和服务器
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN108595525A (zh) * 2018-03-27 2018-09-28 成都律云科技有限公司 一种律师信息处理方法和系统
CN109062957A (zh) * 2018-06-26 2018-12-21 宁波铂域网络科技有限公司 案源获取和推荐方法及系统
CN108898313A (zh) * 2018-06-29 2018-11-27 郑州中博奥信息技术有限公司 智慧案管微平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王海亮: "基于文本挖掘的法律咨询系统研究和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119905A (zh) * 2019-05-23 2019-08-13 贵州大学 一种基于双通道卷积神经网络的精准分案方法
CN110365770A (zh) * 2019-07-16 2019-10-22 厦门市东合传媒科技有限公司 多元化在线调解平台及方法
CN110837601A (zh) * 2019-10-25 2020-02-25 杭州叙简科技股份有限公司 一种警情的自动分类与预测方法
CN111260223A (zh) * 2020-01-17 2020-06-09 山东省计算中心(国家超级计算济南中心) 一种审判风险智能识别与预警方法、系统、介质及设备
CN111797247A (zh) * 2020-09-10 2020-10-20 平安国际智慧城市科技股份有限公司 基于人工智能的案件推送方法、装置、电子设备及介质
CN112258350A (zh) * 2020-11-16 2021-01-22 南通知法互联网科技有限公司 一种人民调解用户使用系统
CN112381418A (zh) * 2020-11-17 2021-02-19 平安普惠企业管理有限公司 案件分配方法、装置、设备及存储介质
CN112766796A (zh) * 2021-01-30 2021-05-07 山西瑞呈物联网科技有限公司 一种基于案件管理系统的司法调解办案控制方法
CN113283760A (zh) * 2021-05-31 2021-08-20 浙江环玛信息科技有限公司 案件流程分析报告生成方法及系统
CN113077196A (zh) * 2021-06-07 2021-07-06 泰豪信息技术有限公司 纠纷事件处理方法、装置、可读存储介质及计算机设备
CN116205350A (zh) * 2023-01-12 2023-06-02 深圳市大数据研究院 基于法律文书的再犯人身危险性分析预测系统和方法
CN116843162A (zh) * 2023-08-28 2023-10-03 之江实验室 一种矛盾调解方案推荐与评分系统及方法
CN116843162B (zh) * 2023-08-28 2024-02-09 之江实验室 一种矛盾调解方案推荐与评分系统及方法

Also Published As

Publication number Publication date
CN109783639B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN109783639A (zh) 一种基于特征提取的调解案件智能分派方法及系统
CN103927675B (zh) 判断用户年龄段的方法及装置
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN106682686A (zh) 一种基于手机上网行为的用户性别预测方法
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN108038627B (zh) 一种对象评估方法及装置
CN107193883B (zh) 一种数据处理方法和系统
CN107896153B (zh) 一种基于移动用户上网行为的流量套餐推荐方法及装置
CN108182605A (zh) 一种基于用户画像的用户行为预测方法及系统
CN106095939B (zh) 账户权限的获取方法和装置
CN108416375A (zh) 工单分类方法及装置
CN108595525A (zh) 一种律师信息处理方法和系统
CN108681548A (zh) 一种律师信息处理方法和系统
CN108596637A (zh) 一种电商服务问题自动发现系统
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
CN107506472A (zh) 一种学生浏览网页分类方法
CN107729377A (zh) 基于数据挖掘的顾客分类方法与系统
CN114595850A (zh) 基于机器学习的政务预约服务推荐方法
CN108681977A (zh) 一种律师信息处理方法和系统
CN112651790B (zh) 基于快消行业用户触达的ocpx自适应学习方法和系统
CN108509588A (zh) 一种基于大数据的律师评估方法及推荐方法
CN112016769A (zh) 管理相对人风险预测以及信息推荐方法及装置
WO2024001102A1 (zh) 一种通信行业家庭圈智能识别的方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province

Patentee after: Yinjiang Technology Co.,Ltd.

Address before: Floor 1, building 1, 223 Yile Road, Hangzhou, Zhejiang 310000

Patentee before: ENJOYOR Co.,Ltd.

CP03 Change of name, title or address