CN108509588B - 一种基于大数据的律师评估方法及推荐方法 - Google Patents

一种基于大数据的律师评估方法及推荐方法 Download PDF

Info

Publication number
CN108509588B
CN108509588B CN201810271936.6A CN201810271936A CN108509588B CN 108509588 B CN108509588 B CN 108509588B CN 201810271936 A CN201810271936 A CN 201810271936A CN 108509588 B CN108509588 B CN 108509588B
Authority
CN
China
Prior art keywords
lawyer
professional
legal
information
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810271936.6A
Other languages
English (en)
Other versions
CN108509588A (zh
Inventor
李明奇
杨开平
王志勇
覃思义
李良
何国良
张勇
李厚彪
李小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Li Mingqi
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810271936.6A priority Critical patent/CN108509588B/zh
Publication of CN108509588A publication Critical patent/CN108509588A/zh
Application granted granted Critical
Publication of CN108509588B publication Critical patent/CN108509588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于互联网与大数据分析技术领域,公开了一种基于大数据的律师评估方法及推荐方法。本发明中的律师评估方法,首先采集用户发布的法律问题及律师回答对应法律问题的答复信息,形成数据库;接着剔除掉无效数据,形成有效数据库;接着进行评估得到每个律师的专业水平数据及擅长领域数据;最后进行存储。本发明中的律师推荐方法,首先获取法律问题,并进行分词处理、评估相似度,得到其所属的专业领域,筛选出擅长当前专业领域的律师;接着根据专业水平数据,对筛选出的律师进行排序,然后进一步筛选后将律师信息输出至人机界面。本发明可以准确评价律师的专业水平及擅长领域,推荐准确性高,能够有效提升用户体验度。

Description

一种基于大数据的律师评估方法及推荐方法
技术领域
本发明属于互联网与大数据分析技术领域,具体涉及一种基于大数据的律师评估方法及推荐方法。
背景技术
在互联网+、大数据及人工智能的背景下,法律行业也正在不断创新。“法律机器人”、智能法律服务等服务方式为公众提了供质优价廉的法律咨询服务,提高了律师的服务效率,同时为法官提供了更加精准的判决参考,由此也促进了国家的法治建设、社会公平与公正。
由于法律行业的特殊性,特别是受案情本身的复杂性、描述的不规则等因素影响,人工智能在法律领域的应用遇到极大的挑战。为了推进法律人工智能的建设,现有的技术中出现了连接有法律咨询需求的用户与律师之间的互联网平台,用户可就自己遇到的法律问题向律师平台请求咨询,平台接收到问题后,根据咨询的问题推荐与盖问题最相关的几个律师,让这几个律师回复该用户的问题,以解决用户的法律咨询需求。
目前,传统的推荐系统大致可以分为基于用户相似度、基于商品相似度或两种相似度结合的推荐系统。这些传统的推荐方法与系统在专业性很强的律师领域仍然存在许多有待克服的问题以提高其实用性。语义相似度的度量是律师专业水平和擅长领域判断的重要内容。律师推荐系统的问答数据的文本间相似度的度量直接导致律师的专业水平的评定和擅长领域的判定。当两个概念元素在语义上具有某些共同特征时,表示为他们语义相似。传统的语义距离只考虑了概念间的上下位关系,忽略了其他关系的影响,比如,等同关系、矛盾关系、互补关系、动作关系、空间关系等等,显然导致不能完整反映出概念的语义距离。研究发现传统采用词频统计和余弦相似度等方法已经不能很好地度量律师问答和领域之间的相似度,从而使得律师推荐的专业度准确性大大降低,给用户及提供咨询答复的律师均造成了极大的不便。
发明内容
为了解决现有技术存在的上述问题,本发明目的在于提供一种可以准确评价律师的专业水平及擅长领域、推荐准确性高、能够有效提升用户体验度的基于大数据的律师评估方法及推荐方法。
本发明所采用的技术方案为:
一种基于大数据的律师评估方法,包括以下步骤:
S1.采集用户发布的法律问题及律师回答对应法律问题的答复信息,形成数据库;
S2.对步骤S1中的数据库进行预处理,剔除掉无效数据,形成有效数据库;
S3.对步骤S2中有效数据库进行评估,得到每个律师的专业水平数据;
S4.对步骤S2中有效数据库进行评估,得到每个律师的擅长领域数据;
S5.将步骤S3中的专业水平数据及步骤S4中的擅长领域数据与对应的律师信息均存储至有效数据库。
作为优选,所述的步骤S2中,进行预处理的具体步骤如下:
S201.将步骤S1中的数据库中法律问题与预存的无效问题进行比对,将比对结果一致的法律问题及其对应的答复进行剔除,形成初次预处理数据库;
S202.对步骤S201中的初次预处理数据库中的法律问题的文本长度L设置模型参考阈值k,将文本长度L<参考阈值k的法律问题及其对应的答复进行剔除,形成有效数据库。
作为优选,所述的步骤S3中,得到专业水平数据的具体步骤如下:
S301.将当前律师在回答法律问题的所有答复信息中的关键词与法律专业领域的词汇库进行对比分析,通过词语语义相似度得到有效数据库中所有律师的专业水平的第一排名;
S302.将当前律师在回答法律问题的所有答复信息中引用法律条文的答复信息数目Nlaw与所有的答复信息数目N0进行计算,通过Nlaw/N0的比值得到有效数据库中所有律师的专业水平的第二排名;
S303.将当前律师在回答法律问题的所有答复信息的文本长度分别进行基于对数函数的计算,通过答复信息的充实程度得到有效数据库中所有律师的专业水平的第三排名,所述的答复信息的充实程度需满足:
Figure BDA0001612751110000031
其中,Li为当前律师对第i条法律问题进行答复时对应的答复信息的文本长度,m为常数,N0为数据库中当前律师回复的所有法律问题的数目;
S304.将当前律师在回答法律问题的所有答复信息与差答复关键词集合Tkey分别进行比对,当一条答复信息出现Tkey即判定当前答复信息为差答复,通过差答复的数量得到有效数据库中所有律师的专业水平的第四排名;
S305.将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断,通过当前律师的答复相似度得到有效数据库中所有律师的专业水平的第五排名;
S306.通过S301中的第一排名、S302中的第二排名、S303中的第三排名、S304中的第四排名及S305中的第五排名得到有效数据库中所有律师的专业水平的最终排名,所述的最终排名即为专业水平数据。
作为优选,所述的步骤S305中,将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断时,设Ak={wk1,wk2,wk3,…,wki,…,wkk}表示的是词语个数为k的一条答复信息的词集,其中,wki表示Ak中的第i个词语;设Ap={wp1,wp2,wp3,…wpi,…,wpp}表示的是词语个数为p的答复信息的词集,其中,wpi表示Ap中的第i个词语;
Mijn为第n次去掉矩阵Skp的第i行和第j列的余子阵;答复信息Ak和答复信息Ap的相似矩阵记为Skp=(sij),其中
sij=TEXTSIM(ωki,wpj)(i=1,2,3,…,k;j=1,2,3,…,p);
答复信息Ak和答复信息Ap的相似度的判断步骤如下:
S305a.找出相似矩阵Skp的第1行的最大值在第i列,这个最大值记为m1,再去掉矩阵中的这个最大值所在的行列,即去掉矩阵Skp的第1行和第i列得到余子阵M1i1
S305b.找余子阵M1i1第1行的最大值在第j列,这个最大值记为m2,再去掉矩阵M1i1中第1行的这个最大值所在的行列,即去掉矩阵M1i1的第1行和第j列得到余子阵M1j2
S305c.重复步骤S305a与步骤S305b,直到得到余子阵为空矩阵,则答复信息Ak和答复信息Ap之间的相似度满足:
Figure BDA0001612751110000051
l=min(p,k),其中,l为查找的次数;
TEXTSIM(Ak,Ap)的值越大,表示答复信息Ak和答复信息Ap的相似度越高。
作为优选,所述的步骤S4中,得到擅长领域数据时,统计不同的法律的专业领域的专业词语,并将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对,通过比对结果得到擅长领域数据。
作为优选,将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时,具体步骤如下:
S401a.将有效数据库中的每个律师的答复信息进行分组处理,即分成每一个问答对;
S401b.将步骤S401a中得到的问答对中的答复信息的文本进行特征词汇提取;
S401c.将步骤S401b中提取出的特征词汇和专业领域词语Sp(p为0,1,2,3,4,…,T)计算相似度值,然后得到每个特征词汇所属的专业领域,并为每个特征词汇标记领域标签,得到标签特征词汇;
S401d.将步骤S401c中得到的标签特征词汇进行分类处理,则含有最多数目的标签特征词汇的专业领域即为当前律师最擅长的专业领域,由此得到当前律师的擅长领域信息。
作为优选,将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时,还包括以下步骤:
S401e.采集步骤S401a中得到的问答对中的法律问题的数量,设当前律师在任一专业领域中答复的法律问题为Nfield,当前律师答复的所有法律问题的数量为N0,通过Nfield/N0得到有效数据库中当前律师的擅长领域信息;
将步骤S401d中得到的擅长领域信息与步骤S401e中得到的擅长领域信息结合进行加权计算即可得到当前律师的擅长领域数据。
作为优选,所述的步骤S401c中计算相似度值时,设律师当前答复信息中第i个词语为wi,专业领域p中的第j个词语为wpj
计算wi与wpj的相似度时,当wi=wpj时,在基于之前词向量的基础上增加其权重为w=1+s;对于当前答复信息中词语wi和专业领域中的词语wpj之间的相似度SIMp(wi,wpj)需满足:
Figure BDA0001612751110000061
一种基于上述的律师评估方法的律师推荐方法,包括以下步骤:
A.通过人机界面获取用户输出的法律问题,并对法律问题的文本进行分词处理,过滤掉停用词汇,得到法律问题的有效关键字;
B.计算步骤A中的有效关键字与每个专业领域的标准词汇之间的相似度,得到当前法律问题所属的专业领域;
C.根据步骤B中得到的当前法律问题所属的专业领域,筛选出擅长当前专业领域的律师;
D.根据专业水平数据,对步骤C中筛选出的律师进行排序,然后进一步筛选后将律师信息输出至人机界面。
作为优选,所述的步骤D中,输出至人机界面的对应的律师信息包括1位以上的律师的信息。
本发明的有益效果为:
1)本发明通过对数据库中的问答数据进行评估,有效地评估每一位律师的擅长领域,甄别出不同专业领域专业能力强的律师,其中,针对律师的答复信息采用五个可以量化的评估方法来得到关于不同专业能力的排名情况,能够很好的从海量的法律咨询数据中准确地评估每个律师的专业水平;
2)本发明针对律师擅长领域的判定和专业水平的评估中都用到了文本间的语义相似度,该语义相似度的度量法采用基于海量数据训练的词向量来构造文本间的相似度度量方法,相比于现有的余弦相似度和编辑距离相似度,能够更好地计算出文本间的相似度值,准确度更高,进一步使得本发明能够准确评价律师的专业水平及擅长领域;
3)本发明可以对用户提问的法律问题文本根据所属法律专业领域进行分类,然后将擅长该专业领域及专业水平高的律师推荐给用户,使得律师在能够处理对口专业领域的法律问题的同时提高用户体验度,推荐准确性高,适于推广使用。
附图说明
图1是本发明中律师评估方法的结构框图。
图2是本发明中律师推荐方法的结构框图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步阐释。
实施例1:
本实施例提供一种基于大数据的律师评估方法,包括以下步骤:
S1.采集用户发布的法律问题及律师回答对应法律问题的答复信息,形成数据库;数据库基于互联网平台的大数据,由此使得数据的完整性和客观性得到有效保证。
S2.对步骤S1中的数据库进行预处理,剔除掉无效数据,形成有效数据库;
本实施例中,步骤S2中,进行预处理的具体步骤如下:
S201.将步骤S1中的数据库中法律问题与预存的无效问题进行比对,将比对结果一致的法律问题及其对应的答复进行剔除,形成初次预处理数据库;无效问题可以为用户表达不清、提问范围过大的问题,如:“法院会怎么判决?”,这类无效问题会导致律师不能准确进行答复,进而影响后续步骤中对律师专业水平的评估及擅长领域的判断;根据大数据建立无效问题的评判模型进行预存;
S202.对步骤S201中的初次预处理数据库中的法律问题的文本长度L设置模型参考阈值k,将文本长度L<参考阈值k的法律问题及其对应的答复进行剔除,形成有效数据库。
S3.对步骤S2中有效数据库进行评估,得到每个律师的专业水平数据;
本实施例中,步骤S3中,得到专业水平数据的具体步骤如下:
S301.将当前律师在回答法律问题的所有答复信息中的关键词与法律专业领域的词汇库进行对比分析,通过词语语义相似度得到有效数据库中所有律师的专业水平的第一排名;由于律师答复法律问题时专业性强,需要充分考虑回复内容的专业度,故本步骤用于评估律师答复的内容是否专业,本步骤中的算法采用2013年谷歌开源的基于三层神经网络的词向量训练工具word2vec;
S302.将当前律师在回答法律问题的所有答复信息中引用法律条文的答复信息数目Nlaw与所有的答复信息数目N0进行计算,通过Nlaw/N0的比值得到有效数据库中所有律师的专业水平的第二排名;由于律师答复法律问题时需要有严密的逻辑和准确的表达,故本步骤用于评估律师答复的内容是否有理有据;将引用法律条文时出现的关键词(如:根据xxx法第xxx条)和答复信息中的文本进行模糊匹配,若在律师答复信息的文本中匹配到相应的关键字,则认为该条答复信息引用了法律条文进行论述;
S303.将当前律师在回答法律问题的所有答复信息的文本长度分别进行基于对数函数的计算,通过答复信息的充实程度得到有效数据库中所有律师的专业水平的第三排名,答复信息的充实程度需满足:由于律师答复法律问题时的详细程度与回复的文本长度有直接的关系,内容简短的答复信息信息量一般不够,而文本很长的答复信息不够简练,两种答复信息的评分均不应该过高;故本步骤用于判断答复信息是否充实且不冗余;考虑使用对数函数量化回复的文本长度和评分的关系,建立衡量回复内容是否充实的评价指标:
Figure BDA0001612751110000101
其中,Li为当前律师对第i条法律问题进行答复时对应的答复信息的文本长度,m为常数,N0为数据库中当前律师回复的所有法律问题的数目;
S304.将当前律师在回答法律问题的所有答复信息与差答复关键词集合Tkey分别进行比对,当一条答复信息出现Tkey即判定当前答复信息为差答复,通过差答复的数量得到有效数据库中所有律师的专业水平的第四排名;差答复关键词可以但不仅限于包括“详情咨询”、“http//:”、“请来电咨询”等,故本步骤用于评估答复信息是否套用模板或涉及广告。
S305.将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断,通过当前律师的答复相似度得到有效数据库中所有律师的专业水平的第五排名;律师多次答复信息相似度过高,则说明律师答复多个法律问题时采用相同的模板或者复制自己之前的答复信息,故本步骤用于判断律师回复问题的态度是否端正;
本实施例中,步骤S305中,将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断时,设Ak={wk1,wk2,wk3,…,wki,…,wkk}表示的是词语个数为k的一条答复信息的词集,其中,wki表示Ak中的第i个词语;设Ap={wp1,wp2,wp3,…wpi,…,wpp}表示的是词语个数为p的答复信息的词集,其中,wpi表示Ap中的第i个词语;
传统的相似度计算中只考虑文本中相同词语而忽视大部分词语是近义词和同义词等,两个文本的词语两两间大部分相似度比较低,只考虑文本中的词语与另一文本中与该词相似度高的词语的相似度并不能完全反应文本的语义相似度,为了克服这个问题,本发明提供如下相似度计算方法:
设Mijn为第n次去掉矩阵Skp的第i行和第j列的余子阵;答复信息Ak和答复信息Ap的相似矩阵记为Skp=(sij),其中
sij=TEXTSIM(ωki,wpj)(i=1,2,3,…,k;j=1,2,3,…,p);
答复信息Ak和答复信息Ap的相似度的判断步骤如下:
S305a.找出相似矩阵Skp的第1行的最大值在第i列,这个最大值记为m1,再去掉矩阵中的这个最大值所在的行列,即去掉矩阵Skp的第1行和第i列得到余子阵M1i1
S305b.找余子阵M1i1第1行的最大值在第j列,这个最大值记为m2,再去掉矩阵M1i1中第1行的这个最大值所在的行列,即去掉矩阵M1i1的第1行和第j列得到余子阵M1j2
S305c.重复步骤S305a与步骤S305b,直到得到余子阵为空矩阵,则答复信息Ak和答复信息Ap之间的相似度满足:
Figure BDA0001612751110000121
l=min(p,k),其中,l为查找的次数;
TEXTSIM(Ak,Ap)的值越大,表示答复信息Ak和答复信息Ap的相似度越高,相似度越高则步骤S305中的第五排名越低;
S306.通过S301中的第一排名、S302中的第二排名、S303中的第三排名、S304中的第四排名及S305中的第五排名得到有效数据库中所有律师的专业水平的最终排名,最终排名即为专业水平数据;五个可以量化的评估方法来得到关于不同专业能力的排名情况,能够很好的从海量的法律咨询数据中准确地评估每个律师的专业水平,将五个排名进行结合进行加权计算即可得到准确性高的专业水平数据,权重可根据实际需求另行制定,本实施例中不做限制。
S4.对步骤S2中有效数据库进行评估,得到每个律师的擅长领域数据;律师的法律的专业领域可分为:民事民法、经济金融、刑事行政、涉外纠纷、公司企业及其他类别;统计各专业领域的常用词汇;一方面,采用律师答复信息中的特征词与专业领域的专业词语的相似度来评估律师擅长的专业领域。另一方面,律师如果经常答复某个专业领域的问题,则说明该律师擅长该领域;本实施例中,步骤S4中,得到擅长领域数据时,统计不同的法律的专业领域的专业词语,并将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对,通过比对结果得到擅长领域数据;
本实施例中,将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时,律师擅长的专业领域由该律师所有的问答组共同决定,即对每一个律师的问答组采用KNN分类算法进行分类处理,分到律师专业领域的T个类,并采用已训练出的词语间的语义相似度作为词语间的距离;律师的每一个问答组的特征词汇与这个律师专业领域词语Sp(p为0,1,2,3,4,…,T)的相似度sim(x,y)越高则表示该律师越擅长该专业领域;由此通过判断问答组中的所有特征词语属于的类别,再统计这些特征词语属于T个专业领域的某一个专业领域的词语最多,即可判断该问答组所属的专业领域,从而来判断当前律师擅长的专业领域,具体步骤如下:
S401a.将有效数据库中的每个律师的答复信息进行分组处理,即分成每一个问答对;
S401b.将步骤S401a中得到的问答对中的答复信息的文本进行特征词汇提取;特征词汇提取可以但不仅限于采用TF-IDF和停用词过滤处理技术;
S401c.将步骤S401b中提取出的特征词汇和专业领域词语Sp(p为0,1,2,3,4,…,T)计算相似度值,然后得到每个特征词汇所属的专业领域,并为每个特征词汇标记领域标签,得到标签特征词汇;
本实施例中,步骤S401c中计算相似度值时,设律师当前答复信息中第i个词语为wi,专业领域p中的第j个词语为wpj
计算wi与wpj的相似度时,当wi=wpj时,在基于之前词向量的基础上增加其权重为w=1+s;对于当前答复信息中词语wi和专业领域中的词语wpj之间的相似度SIMp(wi,wpj)需满足:
Figure BDA0001612751110000141
S401d.将步骤S401c中得到的标签特征词汇进行分类处理,则含有最多数目的标签特征词汇的专业领域即为当前律师最擅长的专业领域,由此得到当前律师的擅长领域信息;分类处理可以但不仅限于采用KNN分类算法;
本实施例中,将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时,还包括以下步骤:
S401e.采集步骤S401a中得到的问答对中的法律问题的数量,设当前律师在任一专业领域中答复的法律问题为Nfield,当前律师答复的所有法律问题的数量为N0,通过Nfield/N0得到有效数据库中当前律师的擅长领域信息;
将步骤S401d中得到的擅长领域信息与步骤S401e中得到的擅长领域信息结合进行加权计算即可得到当前律师的擅长领域数据,权重可根据实际需求另行制定,本实施例中不做限制。
S5.将步骤S3中的专业水平数据及步骤S4中的擅长领域数据与对应的律师信息均存储至有效数据库。
实施例2
本实施例提供一种基于实施例1的律师推荐方法,根据实施例1,可以知道基于互联网平台大数据的有效数据库中已知的律师的专业水平及擅长领域,本发明中的律师推荐方法是信息过滤技术的延续与发展,不需要依据用户对律师的评价意见;要推荐律师,首先需要判定输入的案例所属类别,就需要计算输入的案例和各类别的专业领域的词汇的相似度;当相似度越高则认为案例属于该类别;把输入的案例分词后转化为词向量,而领域类别的词语也转化为向量;由此即为如何计算这两个向量的相关程度;进而使得用户输入案例的类别属性后就可以推荐该专业领域最优的律师,具体包括以下步骤:
A.通过人机界面获取用户输出的法律问题,并对法律问题的文本进行分词处理,过滤掉停用词汇,得到法律问题的有效关键字;
B.计算步骤A中的有效关键字与每个专业领域的标准词汇之间的相似度,得到当前法律问题所属的专业领域;
C.根据步骤B中得到的当前法律问题所属的专业领域,筛选出擅长当前专业领域的律师;
D.根据专业水平数据,对步骤C中筛选出的律师进行排序,然后进一步筛选后将律师信息输出至人机界面。
本实施例中,步骤D中,输出至人机界面的对应的律师信息包括1位以上的律师的信息。
通过上述步骤即可将擅长该专业领域及专业水平高的律师推荐给用户,使得律师在能够处理对口领域的法律问题的同时提高用户体验度,推荐准确性更高,用户体验度更佳。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (3)

1.一种基于大数据的律师评估方法,其特征在于:包括以下步骤:
S1.采集用户发布的法律问题及律师回答对应法律问题的答复信息,形成数据库;
S2.对步骤S1中的数据库进行预处理,剔除掉无效数据,形成有效数据库,进行预处理的具体步骤如下:
S201.将步骤S1中的数据库中法律问题与预存的无效问题进行比对,将比对结果一致的法律问题及其对应的答复进行剔除,形成初次预处理数据库;
S202.对步骤S201中的初次预处理数据库中的法律问题的文本长度L设置模型参考阈值k,将文本长度L<参考阈值k的法律问题及其对应的答复进行剔除,形成有效数据库;
S3.对步骤S2中有效数据库进行评估,得到每个律师的专业水平数据,得到专业水平数据的具体步骤如下:
S301.将当前律师在回答法律问题的所有答复信息中的关键词与法律专业领域的词汇库进行对比分析,通过词语语义相似度得到有效数据库中所有律师的专业水平的第一排名;
S302.将当前律师在回答法律问题的所有答复信息中引用法律条文的答复信息数目Nlaw与所有的答复信息数目N0进行计算,通过Nlaw/N0的比值得到有效数据库中所有律师的专业水平的第二排名;
S303.将当前律师在回答法律问题的所有答复信息的文本长度分别进行基于对数函数的计算,通过答复信息的充实程度得到有效数据库中所有律师的专业水平的第三排名,所述的答复信息的充实程度需满足:
Figure FDA0002883541170000021
其中,Li为当前律师对第i条法律法律问题进行答复时对应的答复信息的文本长度,m为常数,N0为数据库中当前律师回复的所有法律问题的数目;
S304.将当前律师在回答法律问题的所有答复信息与差答复关键词集合Tkey分别进行比对,当一条答复信息出现Tkey即判定当前答复信息为差答复,通过差答复的数量得到有效数据库中所有律师的专业水平的第四排名;
S305.将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断,通过当前律师的答复相似度得到有效数据库中所有律师的专业水平的第五排名;
将当前律师在回答法律问题的所有答复信息的关键字之间进行相似度判断时,设Ak={wk1,wk2,wk3,…,wki,…,wkk}表示的是词语个数为k的一条答复信息的词集,其中,wki表示Ak中的第i个词语;设Ap={wp1,wp2,wp3,…wpi,…,wpp}表示的是词语个数为p的答复信息的词集,其中,wpi表示Ap中的第i个词语;
Mijn为第n次去掉矩阵Skp的第i行和第j列的余子阵;答复信息Ak和答复信息Ap的相似矩阵记为Skp=(sij),其中
sij=TEXTSIM(ωki,wpj)(i=1,2,3,…,k;j=1,2,3,…,p);
答复信息Ak和答复信息Ap的相似度的判断步骤如下:
S305a.找出相似矩阵Skp的第1行的最大值在第i列,这个最大值记为m1,再去掉矩阵中的这个最大值所在的行列,即去掉矩阵Skp的第1行和第i列得到余子阵M1i1
S305b.找余子阵M1i1第1行的最大值在第j列,这个最大值记为m2,再去掉矩阵M1i1中第1行的这个最大值所在的行列,即去掉矩阵M1i1的第1行和第j列得到余子阵M1j2
S305c.重复步骤S305a与步骤S305b,直到得到余子阵为空矩阵,则答复信息Ak和答复信息Ap之间的相似度满足:
Figure FDA0002883541170000031
其中,l为查找的次数;TEXTSIM(Ak,Ap)的值越大,表示答复信息Ak和答复信息Ap的相似度越高;
S306.通过S301中的第一排名、S302中的第二排名、S303中的第三排名、S304中的第四排名及S305中的第五排名得到有效数据库中所有律师的专业水平的最终排名,所述的最终排名即为专业水平数据;
S4.对步骤S2中有效数据库进行评估,得到每个律师的擅长领域数据;
得到擅长领域数据时,统计不同的法律的专业领域的专业词语,并将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对,通过比对结果得到擅长领域数据;
将当前律师在回答法律问题的所有答复信息中关键字与各个专业领域的专业词语分别进行比对时,具体步骤如下:
S401a.将有效数据库中的每个律师的答复信息进行分组处理,即分成每一个问答对;
S401b.将步骤S401a中得到的问答对中的答复信息的文本进行特征词汇提取;
S401c.将步骤S401b中提取出的特征词汇和专业领域词语Sp(p为0,1,2,3,4,…,T)计算相似度值,然后得到每个特征词汇所属的专业领域,并为每个特征词汇标记领域标签,得到标签特征词汇;
计算相似度值时,设律师当前答复信息中第i个词语为wi,专业领域p中的第j个词语为wpj
计算wi与wpj的相似度时,当wi=wpj时,在基于之前词向量的基础上增加其权重为w=1+s;对于当前答复信息中词语wi和专业领域中的词语wpj之间的相似度SIMp(wi,wpj)需满足:
Figure FDA0002883541170000041
S401d.将步骤S401c中得到的标签特征词汇进行分类处理,则含有最多数目的标签特征词汇的专业领域即为当前律师最擅长的专业领域,由此得到当前律师的擅长领域信息;
S401e.采集步骤S401a中得到的问答对中的法律问题的数量,设当前律师在任一专业领域中答复的法律问题为Nfield,当前律师答复的所有法律问题的数量为N0,通过Nfield/N0得到有效数据库中当前律师的擅长领域信息;
将步骤S401d中得到的擅长领域信息与步骤S401e中得到的擅长领域信息结合进行加权计算即可得到当前律师的擅长领域数据;
S5.将步骤S3中的专业水平数据及步骤S4中的擅长领域数据与对应的律师信息均存储至有效数据库。
2.一种基于权利要求1所述的律师评估方法的律师推荐方法,其特征在于:包括以下步骤:
A.通过人机界面获取用户输出的法律问题,并对法律问题的文本进行分词处理,过滤掉停用词汇,得到法律问题的有效关键字;
B.计算步骤A中的有效关键字与每个专业领域的标准词汇之间的相似度,得到当前法律问题所属的专业领域;
C.根据步骤B中得到的当前法律问题所属的专业领域,筛选出擅长当前专业领域的律师;
D.根据专业水平数据,对步骤C中筛选出的律师进行排序,然后进一步筛选后将律师信息输出至人机界面。
3.根据权利要求2所述的律师推荐方法,其特征在于:所述的步骤D中,输出至人机界面的对应的律师信息包括1位以上的律师的信息。
CN201810271936.6A 2018-03-29 2018-03-29 一种基于大数据的律师评估方法及推荐方法 Active CN108509588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810271936.6A CN108509588B (zh) 2018-03-29 2018-03-29 一种基于大数据的律师评估方法及推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810271936.6A CN108509588B (zh) 2018-03-29 2018-03-29 一种基于大数据的律师评估方法及推荐方法

Publications (2)

Publication Number Publication Date
CN108509588A CN108509588A (zh) 2018-09-07
CN108509588B true CN108509588B (zh) 2021-03-23

Family

ID=63379275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810271936.6A Active CN108509588B (zh) 2018-03-29 2018-03-29 一种基于大数据的律师评估方法及推荐方法

Country Status (1)

Country Link
CN (1) CN108509588B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190010B (zh) * 2018-09-20 2021-05-11 河南智慧云大数据有限公司 基于自定义的关键词采集方式进行互联网数据采集系统
CN109582964A (zh) * 2018-11-29 2019-04-05 天津工业大学 基于婚姻法司法判决文书大数据的智能法律咨询辅助系统
CN111008262B (zh) * 2019-11-24 2023-04-28 华南理工大学 一种基于知识图谱的律师评估方法和推荐方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423440A (zh) * 2017-08-04 2017-12-01 逸途(北京)科技有限公司 一种基于情感分析的问答上下文切换与强化选择方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201915A (zh) * 2007-12-13 2008-06-18 浪潮通信信息系统有限公司 二维综合的知识管理系统中专家评估体系的实现方法
US20150206205A1 (en) * 2012-08-14 2015-07-23 John Willcox Selectively anonymous network-enabled rating/evaluating system
CN106375413A (zh) * 2016-08-30 2017-02-01 成都华律网络服务有限公司 创建律师信息库方法及装置,律师推荐方法、装置及系统
CN107833164A (zh) * 2017-11-11 2018-03-23 深圳知赢科技有限公司 法律业务在线服务系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423440A (zh) * 2017-08-04 2017-12-01 逸途(北京)科技有限公司 一种基于情感分析的问答上下文切换与强化选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The Lawyer"s Role in Promoting the Use of Fair Use;Jon M. Garon;《SSRN Electronic Journal》;20161231;第101-122页 *
论司法质量的优化与评估——兼论中国案件质量评估体系的改革;施鹏鹏;《法制与社会发展》;20151231;第21卷(第01期);第60-79页 *

Also Published As

Publication number Publication date
CN108509588A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
Dieber et al. Why model why? Assessing the strengths and limitations of LIME
CN110175227B (zh) 一种基于组队学习和层级推理的对话辅助系统
CN108319587B (zh) 一种多权重的舆情价值计算方法及系统、计算机
CN108509588B (zh) 一种基于大数据的律师评估方法及推荐方法
CN110516057B (zh) 一种信访问题答复方法及装置
CN111080055A (zh) 酒店评分方法、酒店推荐方法、电子装置和存储介质
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
CN110968651A (zh) 一种基于灰色模糊聚类的数据处理方法及系统
CN116109373A (zh) 金融产品的推荐方法、装置、电子设备和介质
CN113342958A (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN114416929A (zh) 实体召回模型的样本生成方法、装置、设备及存储介质
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN113255843A (zh) 演讲稿测评方法及设备
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN116956068A (zh) 基于规则引擎的意图识别方法、装置、电子设备及介质
CN115345710A (zh) 一种电商商务大数据决策分析与数据处理方法
CN109960793A (zh) 意见挖掘装置以及智能终端
CN110147497B (zh) 一种面向青少年群体的个性化内容推荐方法
CN113010664A (zh) 一种数据处理方法、装置及计算机设备
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
Mani et al. An investigation of wine quality testing using machine learning techniques
CN112200474A (zh) 教学质量评价方法、终端设备及计算机可读存储介质
CN112989001A (zh) 一种问答处理方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210129

Address after: No. 518, unit 4, building 4, No. 211, Wende Road, Chenghua District, Chengdu, Sichuan 610000

Applicant after: Li Mingqi

Address before: 2 / F, 277 and 279 Shengli South Street, Deyuan town (Jingrong town), Pidu District, Chengdu, Sichuan 610000

Applicant before: CHENGDU ZHILIAN SHUCHUANG TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant