CN110502694B - 基于大数据分析的律师推荐方法及相关设备 - Google Patents

基于大数据分析的律师推荐方法及相关设备 Download PDF

Info

Publication number
CN110502694B
CN110502694B CN201910667374.1A CN201910667374A CN110502694B CN 110502694 B CN110502694 B CN 110502694B CN 201910667374 A CN201910667374 A CN 201910667374A CN 110502694 B CN110502694 B CN 110502694B
Authority
CN
China
Prior art keywords
information
lawyer
target
matrix
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910667374.1A
Other languages
English (en)
Other versions
CN110502694A (zh
Inventor
蔡智晓
吴秋令
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910667374.1A priority Critical patent/CN110502694B/zh
Publication of CN110502694A publication Critical patent/CN110502694A/zh
Priority to PCT/CN2020/093407 priority patent/WO2021012793A1/zh
Application granted granted Critical
Publication of CN110502694B publication Critical patent/CN110502694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据分析技术领域,尤其涉及一种基于大数据分析的律师推荐方法及相关设备,包括:接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;建立目标向量矩阵;将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取关键信息;获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;将所述关键信息对应的词向量转置后与所述案件类型的词向量进行匹配。本申请通过将律师的个人信息和待处理的案件信息进行有效的匹配,从而增加了用户在进行律师选择时的针对性,进而提升案件的胜诉率。

Description

基于大数据分析的律师推荐方法及相关设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于大数据分析的律师推荐方法及相关设备。
背景技术
随着互联网技术的发展,公司在进行诉讼时往往直接在各个律师智能推荐平台上查询所需的律师。目前,律师智能推荐平台往往只能进行关键词检索,通过用户输入的关键词然后查询出符合客户要求的律师。
但是,仅通过关键词查询匹配度低,不能到达应用智能终端根据用户输入的案件信息,快速自动向用户推荐最适合的律师的需求。因此,急需开发一种应用智能终端快速精准向用户推荐律师的方法。
发明内容
基于此,有必要针对目前通过关键词查询匹配度低,不能到达应用智能终端根据用户输入的案件信息,快速自动向用户推荐最适合的律师的需求问题,提供一种基于大数据分析的律师推荐方法及相关设备。
一种基于大数据分析的律师推荐方法,包括如下步骤:
接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
在其中一个可能的实施例中,所述获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息,包括:
获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息;
遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证;
获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息。
在其中一个可能的实施例中,所述获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息,包括:
获取待认证律师的个人信息页面,将所述个人信息页面分割成数个子块,计算所述子块中像素值变化的梯度,若所述梯度大于梯度阈值,则所述子块为文字信息,否则所述子块为图像信息;
对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所有所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值;
根据所述图像哈希值,得到所述图像信息的原始信息,根据所述原始信息,得到所述图像信息对应的律师身份信息。
在其中一个可能的实施例中,所述遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证,包括:
提取所述文字信息中的执业证编号,根据所述执业证编号,遍历所述律师数据库,得到所述执业证编号对应的所述标准执业证图像;
应用光学文字识别OCR识别出所述标准执业证图像中的律师姓名信息,将所述律师姓名信息与所述文字信息中的姓名信息进行笔画像素值比对,若两者笔画像素值之差在误差阈值以内,则标记所述待认证律师通过认证,否则标记为未通过认证。
在其中一个可能的实施例中,所述获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息,包括:
获取通过认证律师的个人信息页面中的参与案件实体信息,根据所述实体信息,从互联网网页中爬取出所述实体信息对应的案件摘要;
从所述案件摘要中提取出关系特征词,根据所述关系特征词在所述案件摘要中的位置,得到所述实体信息对应的类型特征词。
在其中一个可能的实施例中,所述对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值,包括:
将所述图像信息进行灰度处理,得到二值化的灰度图像,对所述灰度图像进行保角变换得到直径为R的圆形图像;
将所述圆形图像划分为半径为数个半径为r的子圆,其中r=R/n,n为大于1的自然数,获取任意两个子圆之间的夹角,记为a;
计算每一个所述子圆的灰度值,其中灰度值计算公式为:
式中,Qn表示第n个子圆的平均灰度值,B(x,y)表示子圆上各点在二维空间的灰度值,N表示子圆包含像素点的数量;
应用Canny算子对所述子圆进行边缘提取,得到所述子圆的边缘图像,计算所述边缘图像中边缘点占所述边缘图像的比例,计算公式为:
式中,Pn表示第n个子圆的边缘图像中边缘点占所述边缘图像的比例,E(x,y)表示边缘图像在二维空间上的灰度值,N表示子圆包含像素点的数量;
以所述子圆的平均灰度值和所述边缘图像中边缘点占所述边缘图像的比例作为参数,建立一哈希值序列C(Q1,P1,Q2,P2,…Qn,Pn),对所述哈希值序列进行霍夫曼树编码后得到所述图像信息生成过程中的图像哈希值。
在其中一个可能的实施例中,所述获取所述目标词语的词向量,按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵,包括:
获取各所述目标词语的词向量对应的标量值,将各所述标量值分别作为所述目标向量矩阵中的目标矩阵元素;
按照所述目标词语在所述当前文本的排列顺序,将各个所述目标矩阵元素依次进行排列,得到所述目标向量矩阵。
一种基于大数据分析的律师推荐装置,包括如下模块:
收发模块,设置为接收客户端发送的待处理案件的文本信息;
数据处理模块,设置为获对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,通过所述收发模块发送所述匹配结果至所述客户端。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于大数据分析的律师推荐的方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于大数据分析的律师推荐的方法的步骤。
与现有机制相比,本申请通过将律师的个人信息和待处理的案件信息进行有效的匹配,实现快速自动向用户推荐最适合的律师,从而增加了用户在进行律师选择时的针对性,进而提升案件的胜诉率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。
图1为本申请在一个实施例中的一种基于大数据分析的律师推荐方法的整体流程图;
图2为本申请在一个实施例中的一种基于大数据分析的律师推荐方法中的案件类型信息获取过程示意图;
图3为本申请在一个实施例中的一种基于大数据分析的律师推荐方法中的身份信息认证过程示意图;
图4为本申请在一个实施例中的一种基于大数据分析的律师推荐装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本申请在一个实施例中的一种基于大数据分析的律师推荐方法的整体流程图,一种基于大数据分析的律师推荐方法,包括以下步骤:
S1、接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
其中,分词是指将一段文本数据切分为多个词语,分词的方法可以根据实际需要进行设置。例如可以采用基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法中的一种或多种方法进行分词。还可以采用结巴分词应用工具或者Hanlp分词应用工具等分词工具对当前文本进行分词处理。得到当前文本后,对当前文本进行分词处理,得到当前文本对应的各个目标词语。进一步的,在对待处理案件的文本信息进行分词处理时,可以将待处理案件先划分为数个子语段,然后对每一个子语段进行分词处理,在根据分词处理的结果提取各个子语段中的共有词,将这些共有词汇总后得到所述待处理案件的文本信息对应的目标词语。
S2、将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
其中,词向量转换可以采用Word2vec或者词嵌入法对词语进行向量转换,转换成n维词向量,在将n维词向量进行排列前需要对n维词向量进行降维,降维的方式可以是PCA降维,将n维词向量降维成二维词向量。然后再进行排序后,形成目标向量矩阵。这样便于在后续步骤中进行特征值的计算。
在生成目标向量矩阵的过程中,可以采用以下步骤:目标词向量在目标向量矩阵的排序是根据对应的目标词语在当前文本的排列顺序确定的。可以将一个或多个目标词向量作为目标向量矩阵的一行,并根据对应的目标词语在当前文本的排列顺序对目标词向量依次排序,得到目标向量矩阵。也可以将一个或多个目标词向量作为目标向量矩阵的一列,并根据对应的目标词语在当前文本的排列顺序对目标词向量依次排序,得到目标向量矩阵。例如,当前文本的目标词语对应的目标词向量依次为a、b、c、d、e,则可以将每一个词向量作为矩阵的一行,且排序依次为a、b、c、d、e,得到目标向量矩阵。
在其中一个实施例中,所述获取所述目标词语的词向量,按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵,包括:
获取各所述目标词语的词向量对应的标量值,将各所述标量值分别作为所述目标向量矩阵中的目标矩阵元素;
按照所述目标词语在所述当前文本的排列顺序,将各个所述目标矩阵元素依次进行排列,得到所述目标向量矩阵。
S3、将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
具体的,获取所述训练好的神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当所述当前特征提取层为首层时,所述当前输入矩阵为所述目标向量矩阵,当所述当前特征提取层不是首层时,所述当前输入矩阵为所述当前特征提取层的上一特征提取层的输出矩阵;其中,矩阵元素为样本词向量和位置词向量的乘积数值。若所述当前输入矩阵对应的预设方向维度与所述当前特征提取矩阵对应的预设方向维度不一致时,则对所述当前输入矩阵进行缩放,得到目标输入矩阵,所述预设方向维度对应的预设方向为所述目标向量矩阵中所述目标词向量的宽度所对应的方向;根据所述当前特征提取矩阵对所述目标输入矩阵进行特征提取,得到当前输出矩阵;根据所述当前输出矩阵得到待处理案件的文本信息对应的目标位置。
S4、获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
具体的,待匹配律师的个人信息可以包括文字信息和图像信息,其中,文字信息包含有待匹配律师的姓名、年龄和参与案件情况的简要说明。图像信息则包含有的待匹配律师的个人照片和执业证扫描件等。在对个人信息中的案件类型信息进行提取时,可以采用先将文字信息和图像信息进行划分,然后再从文字信息中进行关键字查询的方式得到案件类型信息。
S5、将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端。
具体的,将所述关键信息所对应的词向量转置后与所述案件类型的词向量进行乘积,得到匹配矩阵,其中匹配矩阵是一个方阵,即关键信息队形的词向量和案件类型信息对应的词向量如果元素个数不同,则抛弃多余的元素,计算所述匹配矩阵的特征值,若所述匹配矩阵的特征值为1,则匹配,否则不匹配。
在进行待处理案件和律师进行匹配时,可以将待处理案件的文本资料划分成数个语段,然后对每一个语段进行关键信息提取。例如,张三因装修房屋向李四借款5万元,由于张三染上赌博的恶习,所以在还款日无法将5万元钱归还给李四,遂抢劫王五,并造成王五手臂跟腱撕裂。在这个案件中,涉及到两个法律关系,一个是张三和李四的借贷关系,另一个是张三侵犯王五人身权益的关系。因此,可以将案件的文本资料划分为连个语段,第一个个语段为“张三因装修房屋向李四借款5万元,由于张三染上赌博的恶习,所以在还款日无法将5万元钱归还给李四”;第二个语段为“遂抢劫王五,并造成王五手臂跟腱撕裂”。这两个语段划分的依据是新的“实体”词的出现。
在进行匹配时,还可以采用词向量比较方式进行匹配。即将所述待处理案件的关键信息和所述案件类型的词语进行词向量转换,然后在同一个坐标系下比较,若二者的词向量差值在误差阈值以内,则匹配,否则不匹配。
本实施例,通过将律师的个人信息和待处理的案件信息进行有效的匹配,实现快速自动向用户推荐最适合的律师,从而增加了用户在进行律师选择时的针对性,进而提升案件的胜诉率。
图2为本申请在一个实施例中的一种基于大数据分析的律师推荐方法中的案件类型信息获取过程示意图,如图所示,所述S4、获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息,包括:
S41、获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息;
具体的,待认证律师的个人信息页面可以是结构化的表格,也可以是分结构化文本信息。对于结构化的表格信息,可以采用位置定位的方式对个人信息中的身份信息进行提取。如下表所示:
姓名 张三
年龄 35
执业年限 5
业余爱好 篮球
如上表所示,身份信息为“姓名”、“年龄”、“执业年限”对应的“张三”、“35”和“5”,而“业余爱好”则不是身份信息。在进行结构化的表格信息进行身份信息提取时,可以根据数据库中预设的特征词,在本实施例中为“姓名”、“年龄”和“执业年限”,然后在这些特征词对应的行或者列上获取律师的身份信息。
对于非结构化文本数据,则根据数据库中预设的特征词进行知识抽取,即以特征词作为“实体”,身份信息作为“属性”,通过关系词进行查询每一个实体对应的属性。
例如,我叫张三,在A律师事务所工作3年。实体为“我”,关系为“叫”,属性为“张三”,另外一个关系为“工作”,属性为“3年”。
此外,身份信息还包括律师的律师执业证编号。律师执业证作为证明律师身份的关键证明材料,对于律师身份的审核具有至关重要的作用。
在将个人信息页面划分为文本信息和执业证图像信息时,可以将待认证律师的个人信息进行像素点识别,即遍历所述个人信息页面中的每一个点的像素值。由于执业证图片是彩色图像和文本信息为灰度图像,因此通过像素值的方式可以简单有效的将个人信息划分为文本信息和执业证图片信息。
S42、遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证;
具体的,将上一步骤中提取出的律师姓名、执业年限和执业证号作为查询的条件,从全国律师执业证书查询平台数据库中抽取出所述待认证律师身份信息一致的律师执业证图像。对律师执业证图像进行OCR字符识别,识别出律师执业证上的律师姓名信息,执业情况信息和执业证编号信息。从所述文本信息中抽取所述待认证律师的姓名信息和执业证编号;其中,对于姓名信息可以采用关键词提取的方式,即在文本信息中先进行“姓名”这一关键词的定位,然后提取“姓名”这一关键词后面相邻的词语作为姓名信息,后面的判断依据为特征符号“:”。执业证编号可以先提取文本信息中的所有数字,然后将与执业证编号长度一致的数字串作为执业证编号。
将这些信息与所述待认证律师的信息进行比对,比对一致则提取执业证上的律师照片。此时,需要待认证律师打开其所在终端的摄像头对所述待认证律师进行人脸图像采集,将采集到的人脸图像和律师执业证上的律师照片投入到神经网络模型中进行特征点提取和识别。根据识别结果确定所述待认证律师是否为律师执业证上的律师。其中,神经网络模型通常采用的卷积神经网络模型。
S43、获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息。
具体的,在律师个人信息中有其参加案件的过往信息,由于案件卷宗很大,所以律师在个人信息时仅仅是案件的摘要。这样,首先提取案件摘要中的特征词,比如案件编号、案件发生时间等数字信息,根据这些数字信息,从云端案件数据库中抽取出这些数字信息对应的案件详情。从案件详情中的判决结果部分分析所述通过认证的律师处理该案件的胜诉与否。将所述通过认证的律师所有的案件信息摘要对应的案件详情进行胜诉分析后,得到所述通过认证律师处理不同案件的胜诉情况。应用聚类算法,如K-Mean聚类,对不同案件的类型关键词进行聚类,如:刑事、民事、行政。或者更详细的将民事分为:商事、婚姻等。根据聚类结果可以得到所述通过认证的律师处理不同类型案件的胜诉率。胜诉率排名前三的案件类型作为所述通过认证的律师参与案件的主要案件类型。
其中,在一个实施例中,所述S43、获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息,包括:
获取通过认证律师的个人信息页面中的参与案件实体信息,根据所述实体信息,从互联网网页中爬取出所述实体信息对应的案件摘要;
从所述案件摘要中提取出关系特征词,根据所述关系特征词在所述案件摘要中的位置,得到所述实体信息对应的类型特征词。
本实施例,通过待匹配律师的个人信息进行有效拆解和分析,从而提升了律师和待处理案件的匹配度。
图3为本申请在一个实施例中的一种基于大数据分析的律师推荐方法中的身份信息认证过程示意图,如图所示,所述S41、获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息,包括:
S411、获取待认证律师的个人信息页面,将所述个人信息页面分割成数个子块,计算所述子块中像素值变化的梯度,若所述梯度大于梯度阈值,则所述子块为文字信息,否则所述子块为图像信息;
具体的,在将待认证律师的个人信息页面划分为文本信息和图像信息时,可以将待认证律师的个人信息页面进行像素点识别,即遍历所述待认证律师的个人信息页面中的每一个点的像素值。由于图像信息一般对应的是执业证图像,其为彩色图像,而文本信息为二值化的灰度图像,因此通过像素值的方式可以简单有效的将个人信息划分为文本信息和执业证图片信息。
在进行具体识别时,可以将个人信息页面划分为数个子块,对于文字信息所在的子块由于只有黑和白两种颜色,因此,颜色梯度变化值可以认为是梯度为“1”,而对于执业证图像所在的子块,由于执业证图像是彩色图像是由多种像素值构成的,因此执业证图像的梯度值小于“1”。
S412、对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所有所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值;
具体的,在其中一个实施例中,得到图像信息生成过程中的图像哈希值,可以采用下列步骤:
将所述图像信息进行灰度处理,得到二值化的灰度图像,对所述灰度图像进行保角变换得到直径为R的圆形图像;
将所述圆形图像划分为半径为数个半径为r的子圆,其中r=R/n,n为大于1的自然数,获取任意两个子圆之间的夹角,记为a;
计算每一个所述子圆的灰度值,其中灰度值计算公式为:
式中,Qn表示第n个子圆的平均灰度值,B(x,y)表示子圆上各点在二维空间的灰度值,N表示子圆包含像素点的数量;
应用Canny算子对所述子圆进行边缘提取,得到所述子圆的边缘图像,计算所述边缘图像中边缘点占所述边缘图像的比例,计算公式为:
式中,Pn表示第n个子圆的边缘图像中边缘点占所述边缘图像的比例,E(x,y)表示边缘图像在二维空间上的灰度值,N表示子圆包含像素点的数量;
以所述子圆的平均灰度值和所述边缘图像中边缘点占所述边缘图像的比例作为参数,建立一哈希值序列C(Q1,P1,Q2,P2,…Qn,Pn),对所述哈希值序列进行霍夫曼树编码后得到所述图像信息生成过程中的图像哈希值。
S413、根据所述图像哈希值,得到所述图像信息的原始信息,根据所述原始信息,得到所述图像信息对应的律师身份信息。
其中,原始信息中包含有原始参数是指执业证图像发生涂改前的图像参数,即原始执业证图像上的律师照片信息。非律师会用自己的照片替代律师执业证上的原始照片,从而进行欺诈。
本实施例,通过图像识别技术对律师进行身份验证,从而有效防止了律师在资料时的欺诈行为。
在其中一个实施例中,所述S42、遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证,包括:
提取所述文字信息中的执业证编号,根据所述执业证编号,遍历所述律师数据库,得到所述执业证编号对应的所述标准执业证图像;
具体的,提取文字信息中执业证编号,以执业证编号作为查询的条件,从全国律师执业证书查询平台数据库中抽取出所述待认证律师身份信息一致的律师执业证图像。对律师执业证图像进行OCR字符识别,识别出律师执业证上的律师姓名信息,执业情况信息和执业证编号信息。将这些信息与所述待认证律师的信息进行比对,比对一致则提取执业证上的律师照片。此时,需要待认证律师打开其所在终端的摄像头对所述待认证律师进行人脸图像采集,将采集到的人脸图像和律师执业证上的律师照片投入到神经网络模型中进行特征点提取和识别。根据识别结果确定所述待认证律师是否为律师执业证上的律师。其中,神经网络模型通常采用的卷积神经网络模型。
应用光学文字识别OCR识别出所述标准执业证图像中的律师姓名信息,将所述律师姓名信息与所述文字信息中的姓名信息进行笔画像素值比对,若两者笔画像素值之差在误差阈值以内,则标记所述待认证律师通过认证,否则标记为未通过认证。
具体的,对标准执业证图像进行OCR字符识,识别出标准执业证图像对应的律师姓名、身份证等信息。
本实施例,通过对执业证图像中的字符进行有效识别,从而有效防止了律师进行执业证欺诈,从而保证在进行律师匹配时的准确性。
在一个实施例中,提出了一种基于大数据分析的律师推荐装置,如图4所示,包括如下模块:
收发模块,设置为接收客户端发送的待处理案件的文本信息;
数据处理模块,设置为获对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;将所述目标向量矩阵入参到训练好的神经网络模型后,得到所述关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,通过所述收发模块发送所述匹配结果至所述客户端。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于大数据分析的律师推荐方法的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中的所述基于大数据分析的律师推荐方法的步骤。其中,所述存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请一些示例性实施例,其中描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于大数据分析的律师推荐方法,其特征在于,包括:
接收客户端发送的待处理案件的文本信息,对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;
将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;
将所述目标向量矩阵入参到训练好的神经网络模型后,得到关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;
获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;
将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,发送所述匹配结果至所述客户端;
所述将所述目标向量矩阵入参到训练好的神经网络模型后,得到关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息,包括:获取所述训练好的神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当所述当前特征提取层为首层时,所述当前输入矩阵为所述目标向量矩阵,当所述当前特征提取层不是首层时,所述当前输入矩阵为所述当前特征提取层的上一特征提取层的输出矩阵;其中,矩阵元素为样本词向量和位置词向量的乘积数值;若所述当前输入矩阵对应的预设方向维度与所述当前特征提取矩阵对应的预设方向维度不一致时,则对所述当前输入矩阵进行缩放,得到目标输入矩阵,所述预设方向维度对应的预设方向为所述目标向量矩阵中目标词语的词向量的宽度所对应的方向;根据所述当前特征提取矩阵对所述目标输入矩阵进行特征提取,得到当前输出矩阵;根据所述当前输出矩阵得到待处理案件的关键信息对应的目标位置。
2.根据权利要求1所述的基于大数据分析的律师推荐方法,其特征在于,所述获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息,包括:
获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息;
遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证;
获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息。
3.根据权利要求2所述的基于大数据分析的律师推荐方法,其特征在于,所述获取待认证律师的个人信息页面,提取所述个人信息页面中的律师身份信息,包括:
获取待认证律师的个人信息页面,将所述个人信息页面分割成数个子块,计算所述子块中像素值变化的梯度,若所述梯度大于梯度阈值,则所述子块为文字信息,否则所述子块为图像信息;
对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所有所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值;
根据所述图像哈希值,得到所述图像信息的原始信息,根据所述原始信息,得到所述图像信息对应的律师身份信息。
4.根据权利要求2所述的基于大数据分析的律师推荐方法,其特征在于,所述遍历律师数据库,从所述律师数据库中提取出与所述律师身份信息对应的标准执业证图像,将所述标准执业证图像与所述个人信息页面中的执业证图像进行比对,若一致,则标记所述待认证律师通过认证,否则标记为未通过认证,包括:
提取所述个人信息页面中的执业证编号,根据所述执业证编号,遍历所述律师数据库,得到所述执业证编号对应的所述标准执业证图像;
应用光学文字识别OCR识别出所述标准执业证图像中的律师姓名信息,将所述律师姓名信息与所述个人信息页面中的姓名信息进行笔画像素值比对,若两者笔画像素值之差在误差阈值以内,则标记所述待认证律师通过认证,否则标记为未通过认证。
5.根据权利要求2所述的基于大数据分析的律师推荐方法,其特征在于,所述获取通过认证律师的个人信息页面中的参与案件实体信息,提取所述参与案件实体信息对应的类型特征词,所述类型特征词为所述案件类型信息,包括:
获取通过认证律师的个人信息页面中的参与案件实体信息,根据所述实体信息,从互联网网页中爬取出所述实体信息对应的案件摘要;
从所述案件摘要中提取出关系特征词,根据所述关系特征词在所述案件摘要中的位置,得到所述实体信息对应的类型特征词。
6.根据权利要求3所述的基于大数据分析的律师推荐方法,其特征在于,所述对所述图像信息进行特征点提取,计算所述特征点对应的哈希值,汇总所述特征点对应的哈希值后,得到所述图像信息生成过程中的图像哈希值,包括:
将所述图像信息进行灰度处理,得到二值化的灰度图像,对所述灰度图像进行保角变换得到直径为R的圆形图像;
将所述圆形图像划分为半径为数个半径为r的子圆,其中r=R/n,n为大于1的自然数,获取任意两个子圆之间的夹角,记为a;
计算每一个所述子圆的灰度值,其中灰度值计算公式为:
,式中,/>表示第n个子圆的平均灰度值,B(x,y)表示子圆上各点在二维空间的灰度值,N表示子圆包含像素点的数量;
应用Canny算子对所述子圆进行边缘提取,得到所述子圆的边缘图像,计算所述边缘图像中边缘点占所述边缘图像的比例,计算公式为:
,式中,/>表示第n个子圆的边缘图像中边缘点占所述边缘图像的比例,E(x,y)表示边缘图像在二维空间上的灰度值,N表示子圆包含像素点的数量;
以所述子圆的平均灰度值和所述边缘图像中边缘点占所述边缘图像的比例作为参数,建立一哈希值序列C(Q1,P1,Q2,P2,…Qn,Pn),对所述哈希值序列进行霍夫曼树编码后得到所述图像信息生成过程中的图像哈希值。
7.根据权利要求1述的基于大数据分析的律师推荐方法,其特征在于,将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵,包括:
获取各所述目标词语的词向量对应的标量值,将各所述标量值分别作为所述目标向量矩阵中的目标矩阵元素;
按照所述目标词语在所述文本信息的排列顺序,将各个所述目标矩阵元素依次进行排列,得到所述目标向量矩阵。
8.一种基于大数据分析的律师推荐装置,其特征在于,包括以下模块:
收发模块,设置为接收客户端发送的待处理案件的文本信息;
数据处理模块,设置为获对所述待处理案件的文本信息进行分词处理,得到所述待处理案件的文本信息对应的目标词语;将所述目标词语的词向量按照所述目标词语在所述待处理案件的文本信息中的位置进行排列后,得到一目标向量矩阵;将所述目标向量矩阵入参到训练好的神经网络模型后,得到关键信息对应的目标位置,提取所述目标位置对应的目标词语作为所述待处理案件的关键信息;获取待匹配律师的个人信息,提取所述个人信息中的案件类型信息;将所述关键信息对应的词向量转置后与所述案件类型的词向量进行乘积,得到一匹配矩阵,计算所述匹配矩阵的特征值,根据所述特征值,得到所述待处理案件和所述待匹配律师的匹配结果,通过所述收发模块发送所述匹配结果至所述客户端;
所述数据处理模块,还设置为获取所述训练好的神经网络模型的当前特征提取层对应的当前输入矩阵以及当前特征提取矩阵,其中,当所述当前特征提取层为首层时,所述当前输入矩阵为所述目标向量矩阵,当所述当前特征提取层不是首层时,所述当前输入矩阵为所述当前特征提取层的上一特征提取层的输出矩阵;其中,矩阵元素为样本词向量和位置词向量的乘积数值;若所述当前输入矩阵对应的预设方向维度与所述当前特征提取矩阵对应的预设方向维度不一致时,则对所述当前输入矩阵进行缩放,得到目标输入矩阵,所述预设方向维度对应的预设方向为所述目标向量矩阵中目标词语的词向量的宽度所对应的方向;根据所述当前特征提取矩阵对所述目标输入矩阵进行特征提取,得到当前输出矩阵;根据所述当前输出矩阵得到待处理案件的关键信息对应的目标位置。
9.一种计算机设备,其特征在于,所述设备包括:
至少一个处理器、存储器和收发器;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-7中任一项所述基于大数据分析的律师推荐的方法。
10.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述基于大数据分析的律师推荐的方法的步骤。
CN201910667374.1A 2019-07-23 2019-07-23 基于大数据分析的律师推荐方法及相关设备 Active CN110502694B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910667374.1A CN110502694B (zh) 2019-07-23 2019-07-23 基于大数据分析的律师推荐方法及相关设备
PCT/CN2020/093407 WO2021012793A1 (zh) 2019-07-23 2020-05-29 基于大数据分析的律师推荐方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910667374.1A CN110502694B (zh) 2019-07-23 2019-07-23 基于大数据分析的律师推荐方法及相关设备

Publications (2)

Publication Number Publication Date
CN110502694A CN110502694A (zh) 2019-11-26
CN110502694B true CN110502694B (zh) 2023-07-21

Family

ID=68587698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910667374.1A Active CN110502694B (zh) 2019-07-23 2019-07-23 基于大数据分析的律师推荐方法及相关设备

Country Status (2)

Country Link
CN (1) CN110502694B (zh)
WO (1) WO2021012793A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502694B (zh) * 2019-07-23 2023-07-21 平安科技(深圳)有限公司 基于大数据分析的律师推荐方法及相关设备
CN110727875B (zh) * 2019-12-17 2020-05-08 杭州实在智能科技有限公司 一种法律案件代理的智能分发方法与系统
CN111428497A (zh) * 2020-03-31 2020-07-17 卓尔智联(武汉)研究院有限公司 一种自动抽取出资信息的方法、装置及设备
CN111553574A (zh) * 2020-04-16 2020-08-18 上海诚收信息科技有限公司 案件分配方法及其装置、电子设备和计算机可读存储介质
CN112069230B (zh) * 2020-09-07 2023-10-27 中国平安财产保险股份有限公司 数据分析方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017104922A1 (ko) * 2015-12-16 2017-06-22 에스케이플래닛 주식회사 추천 컨텐츠 제공 방법 및 이를 위한 장치
CN108269110B (zh) * 2016-12-30 2021-10-26 华为技术有限公司 基于社区问答的物品推荐方法、系统及用户设备
WO2018131814A1 (ko) * 2017-01-11 2018-07-19 주식회사 투엔 빅 데이터 분석을 통한 배송인 추천방법
US10733380B2 (en) * 2017-05-15 2020-08-04 Thomson Reuters Enterprise Center Gmbh Neural paraphrase generator
CN107563912A (zh) * 2017-08-29 2018-01-09 广东蔚海数问大数据科技有限公司 一种律师推荐方法及系统
CN109409645A (zh) * 2018-09-07 2019-03-01 平安科技(深圳)有限公司 电子装置、律师推荐的方法及存储介质
CN110020974A (zh) * 2019-03-06 2019-07-16 平安科技(深圳)有限公司 律师推荐方法、装置、介质及电子设备
CN110502694B (zh) * 2019-07-23 2023-07-21 平安科技(深圳)有限公司 基于大数据分析的律师推荐方法及相关设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法

Also Published As

Publication number Publication date
CN110502694A (zh) 2019-11-26
WO2021012793A1 (zh) 2021-01-28

Similar Documents

Publication Publication Date Title
CN110502694B (zh) 基于大数据分析的律师推荐方法及相关设备
WO2020077895A1 (zh) 签约意向判断方法、装置、计算机设备和存储介质
US10210427B2 (en) Systems, methods, and devices for image matching and object recognition in images
US8005300B2 (en) Image search system, image search method, and storage medium
Battiato et al. Robust image alignment for tampering detection
US11727053B2 (en) Entity recognition from an image
US9037600B1 (en) Any-image labeling engine
Huang et al. Object-location-aware hashing for multi-label image retrieval via automatic mask learning
CN111191652A (zh) 一种证件图像识别方法、装置、电子设备及存储介质
CN113963147B (zh) 一种基于语义分割的关键信息提取方法及系统
CN112364204A (zh) 视频搜索方法、装置、计算机设备及存储介质
US20130343618A1 (en) Searching for Events by Attendants
Thompson et al. finFindR: Automated recognition and identification of marine mammal dorsal fins using residual convolutional neural networks
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN113837151A (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN105303449A (zh) 基于相机指纹特征的社交网络用户的识别方法和系统
WO2022134580A1 (zh) 证件信息的获取方法及装置、存储介质、计算机设备
CN113033269A (zh) 一种数据处理方法及装置
Li et al. TrOMR: Transformer-Based Polyphonic Optical Music Recognition
CN112015762A (zh) 案件检索方法、装置、计算机设备和存储介质
Ledesma et al. Enabling automated herbarium sheet image post‐processing using neural network models for color reference chart detection
CN115983873A (zh) 一种基于大数据的用户数据分析管理系统及方法
CN114491134A (zh) 一种商标注册成功率分析方法及系统
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
Aydin Comparison of color features on copy-move forgery detection problem using HSV color space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant