CN108509588B

CN108509588B - 一种基于大数据的律师评估方法及推荐方法

Info

Publication number: CN108509588B
Application number: CN201810271936.6A
Authority: CN
Inventors: 李明奇; 杨开平; 王志勇; 覃思义; 李良; 何国良; 张勇; 李厚彪; 李小平
Original assignee: Individual
Current assignee: Li Mingqi
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2021-03-23
Anticipated expiration: 2038-03-29
Also published as: CN108509588A

Abstract

本发明属于互联网与大数据分析技术领域，公开了一种基于大数据的律师评估方法及推荐方法。本发明中的律师评估方法，首先采集用户发布的法律问题及律师回答对应法律问题的答复信息，形成数据库；接着剔除掉无效数据，形成有效数据库；接着进行评估得到每个律师的专业水平数据及擅长领域数据；最后进行存储。本发明中的律师推荐方法，首先获取法律问题，并进行分词处理、评估相似度，得到其所属的专业领域，筛选出擅长当前专业领域的律师；接着根据专业水平数据，对筛选出的律师进行排序，然后进一步筛选后将律师信息输出至人机界面。本发明可以准确评价律师的专业水平及擅长领域，推荐准确性高，能够有效提升用户体验度。

Description

一种基于大数据的律师评估方法及推荐方法

技术领域

本发明属于互联网与大数据分析技术领域，具体涉及一种基于大数据的律师评估方法及推荐方法。

背景技术

在互联网+、大数据及人工智能的背景下，法律行业也正在不断创新。“法律机器人”、智能法律服务等服务方式为公众提了供质优价廉的法律咨询服务，提高了律师的服务效率，同时为法官提供了更加精准的判决参考，由此也促进了国家的法治建设、社会公平与公正。

由于法律行业的特殊性，特别是受案情本身的复杂性、描述的不规则等因素影响，人工智能在法律领域的应用遇到极大的挑战。为了推进法律人工智能的建设，现有的技术中出现了连接有法律咨询需求的用户与律师之间的互联网平台，用户可就自己遇到的法律问题向律师平台请求咨询，平台接收到问题后，根据咨询的问题推荐与盖问题最相关的几个律师，让这几个律师回复该用户的问题，以解决用户的法律咨询需求。

目前，传统的推荐系统大致可以分为基于用户相似度、基于商品相似度或两种相似度结合的推荐系统。这些传统的推荐方法与系统在专业性很强的律师领域仍然存在许多有待克服的问题以提高其实用性。语义相似度的度量是律师专业水平和擅长领域判断的重要内容。律师推荐系统的问答数据的文本间相似度的度量直接导致律师的专业水平的评定和擅长领域的判定。当两个概念元素在语义上具有某些共同特征时，表示为他们语义相似。传统的语义距离只考虑了概念间的上下位关系，忽略了其他关系的影响，比如，等同关系、矛盾关系、互补关系、动作关系、空间关系等等，显然导致不能完整反映出概念的语义距离。研究发现传统采用词频统计和余弦相似度等方法已经不能很好地度量律师问答和领域之间的相似度，从而使得律师推荐的专业度准确性大大降低，给用户及提供咨询答复的律师均造成了极大的不便。

发明内容

为了解决现有技术存在的上述问题，本发明目的在于提供一种可以准确评价律师的专业水平及擅长领域、推荐准确性高、能够有效提升用户体验度的基于大数据的律师评估方法及推荐方法。

本发明所采用的技术方案为：

一种基于大数据的律师评估方法，包括以下步骤：

S1.采集用户发布的法律问题及律师回答对应法律问题的答复信息，形成数据库；

S2.对步骤S1中的数据库进行预处理，剔除掉无效数据，形成有效数据库；

S3.对步骤S2中有效数据库进行评估，得到每个律师的专业水平数据；

S4.对步骤S2中有效数据库进行评估，得到每个律师的擅长领域数据；

S5.将步骤S3中的专业水平数据及步骤S4中的擅长领域数据与对应的律师信息均存储至有效数据库。

作为优选，所述的步骤S2中，进行预处理的具体步骤如下：

S201.将步骤S1中的数据库中法律问题与预存的无效问题进行比对，将比对结果一致的法律问题及其对应的答复进行剔除，形成初次预处理数据库；

S202.对步骤S201中的初次预处理数据库中的法律问题的文本长度L设置模型参考阈值k，将文本长度L<参考阈值k的法律问题及其对应的答复进行剔除，形成有效数据库。

作为优选，所述的步骤S3中，得到专业水平数据的具体步骤如下：

S301.将当前律师在回答法律问题的所有答复信息中的关键词与法律专业领域的词汇库进行对比分析，通过词语语义相似度得到有效数据库中所有律师的专业水平的第一排名；

S302.将当前律师在回答法律问题的所有答复信息中引用法律条文的答复信息数目N_law与所有的答复信息数目N₀进行计算，通过N_law/N₀的比值得到有效数据库中所有律师的专业水平的第二排名；

S303.将当前律师在回答法律问题的所有答复信息的文本长度分别进行基于对数函数的计算，通过答复信息的充实程度得到有效数据库中所有律师的专业水平的第三排名，所述的答复信息的充实程度需满足：

其中，Li为当前律师对第i条法律问题进行答复时对应的答复信息的文本长度，m为常数，N0为数据库中当前律师回复的所有法律问题的数目；

S304.将当前律师在回答法律问题的所有答复信息与差答复关键词集合Tkey分别进行比对，当一条答复信息出现Tkey即判定当前答复信息为差答复，通过差答复的数量得到有效数据库中所有律师的专业水平的第四排名；

S305.将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断，通过当前律师的答复相似度得到有效数据库中所有律师的专业水平的第五排名；

S306.通过S301中的第一排名、S302中的第二排名、S303中的第三排名、S304中的第四排名及S305中的第五排名得到有效数据库中所有律师的专业水平的最终排名，所述的最终排名即为专业水平数据。

作为优选，所述的步骤S305中，将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断时，设A_k＝{w_k1，w_k2，w_k3，…，w_ki，…，w_kk}表示的是词语个数为k的一条答复信息的词集，其中，w_ki表示A_k中的第i个词语；设A_p＝{w_p1，w_p2，w_p3，…w_pi，…，w_pp}表示的是词语个数为p的答复信息的词集，其中，w_pi表示A_p中的第i个词语；

M_ijn为第n次去掉矩阵S_kp的第i行和第j列的余子阵；答复信息A_k和答复信息A_p的相似矩阵记为S_kp＝(s_ij)，其中

s_ij＝TEXTSIM(ω_ki,w_pj)(i＝1，2，3，…，k；j＝1，2，3，…，p)；

答复信息A_k和答复信息A_p的相似度的判断步骤如下：

S305a.找出相似矩阵S_kp的第1行的最大值在第i列，这个最大值记为m₁，再去掉矩阵中的这个最大值所在的行列，即去掉矩阵S_kp的第1行和第i列得到余子阵M_1i1；

S305b.找余子阵M_1i1第1行的最大值在第j列，这个最大值记为m₂，再去掉矩阵M_1i1中第1行的这个最大值所在的行列，即去掉矩阵M_1i1的第1行和第j列得到余子阵M_1j2；

S305c.重复步骤S305a与步骤S305b，直到得到余子阵为空矩阵，则答复信息A_k和答复信息A_p之间的相似度满足：

l＝min(p,k)，其中，l为查找的次数；

TEXTSIM(A_k,A_p)的值越大，表示答复信息A_k和答复信息A_p的相似度越高。

作为优选，所述的步骤S4中，得到擅长领域数据时，统计不同的法律的专业领域的专业词语，并将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对，通过比对结果得到擅长领域数据。

作为优选，将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时，具体步骤如下：

S401a.将有效数据库中的每个律师的答复信息进行分组处理，即分成每一个问答对；

S401b.将步骤S401a中得到的问答对中的答复信息的文本进行特征词汇提取；

S401c.将步骤S401b中提取出的特征词汇和专业领域词语S_p(p为0，1，2，3，4，…，T)计算相似度值，然后得到每个特征词汇所属的专业领域，并为每个特征词汇标记领域标签，得到标签特征词汇；

S401d.将步骤S401c中得到的标签特征词汇进行分类处理，则含有最多数目的标签特征词汇的专业领域即为当前律师最擅长的专业领域，由此得到当前律师的擅长领域信息。

作为优选，将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时，还包括以下步骤：

S401e.采集步骤S401a中得到的问答对中的法律问题的数量，设当前律师在任一专业领域中答复的法律问题为N_field，当前律师答复的所有法律问题的数量为N₀，通过N_field/N₀得到有效数据库中当前律师的擅长领域信息；

将步骤S401d中得到的擅长领域信息与步骤S401e中得到的擅长领域信息结合进行加权计算即可得到当前律师的擅长领域数据。

作为优选，所述的步骤S401c中计算相似度值时，设律师当前答复信息中第i个词语为w_i，专业领域p中的第j个词语为w_pj；

计算w_i与w_pj的相似度时，当w_i＝w_pj时，在基于之前词向量的基础上增加其权重为w＝1+s；对于当前答复信息中词语w_i和专业领域中的词语w_pj之间的相似度SIM_p(w_i,w_pj)需满足：

一种基于上述的律师评估方法的律师推荐方法，包括以下步骤：

A.通过人机界面获取用户输出的法律问题，并对法律问题的文本进行分词处理，过滤掉停用词汇，得到法律问题的有效关键字；

B.计算步骤A中的有效关键字与每个专业领域的标准词汇之间的相似度，得到当前法律问题所属的专业领域；

C.根据步骤B中得到的当前法律问题所属的专业领域，筛选出擅长当前专业领域的律师；

D.根据专业水平数据，对步骤C中筛选出的律师进行排序，然后进一步筛选后将律师信息输出至人机界面。

作为优选，所述的步骤D中，输出至人机界面的对应的律师信息包括1位以上的律师的信息。

本发明的有益效果为：

1)本发明通过对数据库中的问答数据进行评估，有效地评估每一位律师的擅长领域，甄别出不同专业领域专业能力强的律师，其中，针对律师的答复信息采用五个可以量化的评估方法来得到关于不同专业能力的排名情况，能够很好的从海量的法律咨询数据中准确地评估每个律师的专业水平；

2)本发明针对律师擅长领域的判定和专业水平的评估中都用到了文本间的语义相似度，该语义相似度的度量法采用基于海量数据训练的词向量来构造文本间的相似度度量方法，相比于现有的余弦相似度和编辑距离相似度，能够更好地计算出文本间的相似度值，准确度更高，进一步使得本发明能够准确评价律师的专业水平及擅长领域；

3)本发明可以对用户提问的法律问题文本根据所属法律专业领域进行分类，然后将擅长该专业领域及专业水平高的律师推荐给用户，使得律师在能够处理对口专业领域的法律问题的同时提高用户体验度，推荐准确性高，适于推广使用。

附图说明

图1是本发明中律师评估方法的结构框图。

图2是本发明中律师推荐方法的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1：

本实施例提供一种基于大数据的律师评估方法，包括以下步骤：

S1.采集用户发布的法律问题及律师回答对应法律问题的答复信息，形成数据库；数据库基于互联网平台的大数据，由此使得数据的完整性和客观性得到有效保证。

本实施例中，步骤S2中，进行预处理的具体步骤如下：

S201.将步骤S1中的数据库中法律问题与预存的无效问题进行比对，将比对结果一致的法律问题及其对应的答复进行剔除，形成初次预处理数据库；无效问题可以为用户表达不清、提问范围过大的问题，如：“法院会怎么判决？”，这类无效问题会导致律师不能准确进行答复，进而影响后续步骤中对律师专业水平的评估及擅长领域的判断；根据大数据建立无效问题的评判模型进行预存；

本实施例中，步骤S3中，得到专业水平数据的具体步骤如下：

S301.将当前律师在回答法律问题的所有答复信息中的关键词与法律专业领域的词汇库进行对比分析，通过词语语义相似度得到有效数据库中所有律师的专业水平的第一排名；由于律师答复法律问题时专业性强，需要充分考虑回复内容的专业度，故本步骤用于评估律师答复的内容是否专业，本步骤中的算法采用2013年谷歌开源的基于三层神经网络的词向量训练工具word2vec；

S302.将当前律师在回答法律问题的所有答复信息中引用法律条文的答复信息数目N_law与所有的答复信息数目N₀进行计算，通过N_law/N₀的比值得到有效数据库中所有律师的专业水平的第二排名；由于律师答复法律问题时需要有严密的逻辑和准确的表达，故本步骤用于评估律师答复的内容是否有理有据；将引用法律条文时出现的关键词(如：根据xxx法第xxx条)和答复信息中的文本进行模糊匹配，若在律师答复信息的文本中匹配到相应的关键字，则认为该条答复信息引用了法律条文进行论述；

S303.将当前律师在回答法律问题的所有答复信息的文本长度分别进行基于对数函数的计算，通过答复信息的充实程度得到有效数据库中所有律师的专业水平的第三排名，答复信息的充实程度需满足：由于律师答复法律问题时的详细程度与回复的文本长度有直接的关系，内容简短的答复信息信息量一般不够，而文本很长的答复信息不够简练，两种答复信息的评分均不应该过高；故本步骤用于判断答复信息是否充实且不冗余；考虑使用对数函数量化回复的文本长度和评分的关系，建立衡量回复内容是否充实的评价指标：

S304.将当前律师在回答法律问题的所有答复信息与差答复关键词集合Tkey分别进行比对，当一条答复信息出现Tkey即判定当前答复信息为差答复，通过差答复的数量得到有效数据库中所有律师的专业水平的第四排名；差答复关键词可以但不仅限于包括“详情咨询”、“http//:”、“请来电咨询”等，故本步骤用于评估答复信息是否套用模板或涉及广告。

S305.将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断，通过当前律师的答复相似度得到有效数据库中所有律师的专业水平的第五排名；律师多次答复信息相似度过高，则说明律师答复多个法律问题时采用相同的模板或者复制自己之前的答复信息，故本步骤用于判断律师回复问题的态度是否端正；

本实施例中，步骤S305中，将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断时，设A_k＝{w_k1，w_k2，w_k3，…，w_ki，…，w_kk}表示的是词语个数为k的一条答复信息的词集，其中，w_ki表示A_k中的第i个词语；设A_p＝{w_p1，w_p2，w_p3，…w_pi，…，w_pp}表示的是词语个数为p的答复信息的词集，其中，w_pi表示A_p中的第i个词语；

传统的相似度计算中只考虑文本中相同词语而忽视大部分词语是近义词和同义词等，两个文本的词语两两间大部分相似度比较低，只考虑文本中的词语与另一文本中与该词相似度高的词语的相似度并不能完全反应文本的语义相似度，为了克服这个问题，本发明提供如下相似度计算方法：

设M_ijn为第n次去掉矩阵S_kp的第i行和第j列的余子阵；答复信息A_k和答复信息A_p的相似矩阵记为S_kp＝(s_ij)，其中

答复信息A_k和答复信息A_p的相似度的判断步骤如下：

l＝min(p,k)，其中，l为查找的次数；

TEXTSIM(A_k,A_p)的值越大，表示答复信息A_k和答复信息A_p的相似度越高，相似度越高则步骤S305中的第五排名越低；

S306.通过S301中的第一排名、S302中的第二排名、S303中的第三排名、S304中的第四排名及S305中的第五排名得到有效数据库中所有律师的专业水平的最终排名，最终排名即为专业水平数据；五个可以量化的评估方法来得到关于不同专业能力的排名情况，能够很好的从海量的法律咨询数据中准确地评估每个律师的专业水平，将五个排名进行结合进行加权计算即可得到准确性高的专业水平数据，权重可根据实际需求另行制定，本实施例中不做限制。

S4.对步骤S2中有效数据库进行评估，得到每个律师的擅长领域数据；律师的法律的专业领域可分为：民事民法、经济金融、刑事行政、涉外纠纷、公司企业及其他类别；统计各专业领域的常用词汇；一方面，采用律师答复信息中的特征词与专业领域的专业词语的相似度来评估律师擅长的专业领域。另一方面，律师如果经常答复某个专业领域的问题，则说明该律师擅长该领域；本实施例中，步骤S4中，得到擅长领域数据时，统计不同的法律的专业领域的专业词语，并将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对，通过比对结果得到擅长领域数据；

本实施例中，将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时，律师擅长的专业领域由该律师所有的问答组共同决定，即对每一个律师的问答组采用KNN分类算法进行分类处理，分到律师专业领域的T个类，并采用已训练出的词语间的语义相似度作为词语间的距离；律师的每一个问答组的特征词汇与这个律师专业领域词语S_p(p为0，1，2，3，4，…，T)的相似度sim(x,y)越高则表示该律师越擅长该专业领域；由此通过判断问答组中的所有特征词语属于的类别，再统计这些特征词语属于T个专业领域的某一个专业领域的词语最多，即可判断该问答组所属的专业领域，从而来判断当前律师擅长的专业领域，具体步骤如下：

S401b.将步骤S401a中得到的问答对中的答复信息的文本进行特征词汇提取；特征词汇提取可以但不仅限于采用TF-IDF和停用词过滤处理技术；

本实施例中，步骤S401c中计算相似度值时，设律师当前答复信息中第i个词语为w_i，专业领域p中的第j个词语为w_pj；

S401d.将步骤S401c中得到的标签特征词汇进行分类处理，则含有最多数目的标签特征词汇的专业领域即为当前律师最擅长的专业领域，由此得到当前律师的擅长领域信息；分类处理可以但不仅限于采用KNN分类算法；

本实施例中，将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时，还包括以下步骤：

将步骤S401d中得到的擅长领域信息与步骤S401e中得到的擅长领域信息结合进行加权计算即可得到当前律师的擅长领域数据，权重可根据实际需求另行制定，本实施例中不做限制。

实施例2

本实施例提供一种基于实施例1的律师推荐方法，根据实施例1，可以知道基于互联网平台大数据的有效数据库中已知的律师的专业水平及擅长领域，本发明中的律师推荐方法是信息过滤技术的延续与发展，不需要依据用户对律师的评价意见；要推荐律师，首先需要判定输入的案例所属类别，就需要计算输入的案例和各类别的专业领域的词汇的相似度；当相似度越高则认为案例属于该类别；把输入的案例分词后转化为词向量，而领域类别的词语也转化为向量；由此即为如何计算这两个向量的相关程度；进而使得用户输入案例的类别属性后就可以推荐该专业领域最优的律师，具体包括以下步骤：

本实施例中，步骤D中，输出至人机界面的对应的律师信息包括1位以上的律师的信息。

通过上述步骤即可将擅长该专业领域及专业水平高的律师推荐给用户，使得律师在能够处理对口领域的法律问题的同时提高用户体验度，推荐准确性更高，用户体验度更佳。

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于大数据的律师评估方法，其特征在于：包括以下步骤：

S2.对步骤S1中的数据库进行预处理，剔除掉无效数据，形成有效数据库，进行预处理的具体步骤如下：

S202.对步骤S201中的初次预处理数据库中的法律问题的文本长度L设置模型参考阈值k，将文本长度L<参考阈值k的法律问题及其对应的答复进行剔除，形成有效数据库；

S3.对步骤S2中有效数据库进行评估，得到每个律师的专业水平数据，得到专业水平数据的具体步骤如下：

其中，L_i为当前律师对第i条法律法律问题进行答复时对应的答复信息的文本长度，m为常数，N₀为数据库中当前律师回复的所有法律问题的数目；

将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断时，设A_k＝{w_k1，w_k2，w_k3，…，w_ki，…，w_kk}表示的是词语个数为k的一条答复信息的词集，其中，w_ki表示A_k中的第i个词语；设A_p＝{w_p1，w_p2，w_p3，…w_pi，…，w_pp}表示的是词语个数为p的答复信息的词集，其中，w_pi表示A_p中的第i个词语；

答复信息A_k和答复信息A_p的相似度的判断步骤如下：

其中，l为查找的次数；TEXTSIM(A_k,A_p)的值越大，表示答复信息A_k和答复信息A_p的相似度越高；

S306.通过S301中的第一排名、S302中的第二排名、S303中的第三排名、S304中的第四排名及S305中的第五排名得到有效数据库中所有律师的专业水平的最终排名，所述的最终排名即为专业水平数据；

得到擅长领域数据时，统计不同的法律的专业领域的专业词语，并将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对，通过比对结果得到擅长领域数据；

将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时，具体步骤如下：

计算相似度值时，设律师当前答复信息中第i个词语为w_i，专业领域p中的第j个词语为w_pj；

S401d.将步骤S401c中得到的标签特征词汇进行分类处理，则含有最多数目的标签特征词汇的专业领域即为当前律师最擅长的专业领域，由此得到当前律师的擅长领域信息；

将步骤S401d中得到的擅长领域信息与步骤S401e中得到的擅长领域信息结合进行加权计算即可得到当前律师的擅长领域数据；

2.一种基于权利要求1所述的律师评估方法的律师推荐方法，其特征在于：包括以下步骤：

3.根据权利要求2所述的律师推荐方法，其特征在于：所述的步骤D中，输出至人机界面的对应的律师信息包括1位以上的律师的信息。