CN114077651A - 一种大数据案例匹配模型的设计方法及装置 - Google Patents

一种大数据案例匹配模型的设计方法及装置 Download PDF

Info

Publication number
CN114077651A
CN114077651A CN202010840637.7A CN202010840637A CN114077651A CN 114077651 A CN114077651 A CN 114077651A CN 202010840637 A CN202010840637 A CN 202010840637A CN 114077651 A CN114077651 A CN 114077651A
Authority
CN
China
Prior art keywords
case
text
word
association
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010840637.7A
Other languages
English (en)
Other versions
CN114077651B (zh
Inventor
陈贵龙
周金明
熊林海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xingzheyi Intelligent Transportation Technology Co ltd
Original Assignee
Nanjing Xingzheyi Intelligent Transportation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xingzheyi Intelligent Transportation Technology Co ltd filed Critical Nanjing Xingzheyi Intelligent Transportation Technology Co ltd
Priority to CN202010840637.7A priority Critical patent/CN114077651B/zh
Publication of CN114077651A publication Critical patent/CN114077651A/zh
Application granted granted Critical
Publication of CN114077651B publication Critical patent/CN114077651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据案例匹配模型的设计方法及装置,该方法包括:步骤1,提取新的案件L的特征词,根据特征词出现频率计算案件L与其每个特征词的关联度,计算每个特征词与每个案件类别C的关联度,进而得到案件L与每个案件类别C的关联度;步骤2,计算历史案例案件l与其类别的关联度,从而得到案件L与历史案例案件l的特征词关联度,步骤3,根据特征词之间上下文整体信息计算文本的关联度;步骤4,根据特征词关联度和文本关联度计算案件L与历史案例案件l的综合关联度,从而匹配出具有高度关联度的历史案例,从案件处理工作人员和申请人两个角度减轻案件处理负担,提高案件处理效率,提升公众案件处理服务满意度。

Description

一种大数据案例匹配模型的设计方法及装置
技术领域
本发明涉及自然语言处理和智能案件处理技术研究领域,具体涉及一种大数据案例匹配模型的设计方法及装置。
背景技术
案件处理旨在帮助群众解决问题,然而由于中国人口基数大,社会问题复杂,使得案件总量多、涉及到的领域多,相关部门工作量大、群众需求难以解决。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:我国目前的案件处理部门工作主要依赖人工处理,严重依赖工作人员的知识储备和专业水平,工作人员缺乏有效的准确、高效的历史案例匹配辅助工具,通过普通搜索引擎难以快速查找到相关度高的案例参考。不但案件处理工作人员缺乏相关案例参考,申请人在申请之前也无法提前通过一些历史案例自主寻找合理解决方案。
发明内容
为了克服现有技术的不足,本公开实施例提供了一种大数据案例匹配模型的设计方法及装置,基于自然语言处理的文本相似度可以提供具有高度关联度的历史案例,从案件处理工作人员和申请人两个角度减轻案件处理负担,提高案件处理效率,提升公众案件处理服务满意度。技术方案如下:
第一方面,提供了一种大数据案例匹配模型的设计方法,所述方法包括:
步骤1,提取新的案件L的特征词,形成特征词集合,
对于一个新的案件L,提取案件L的文本中的固有特征词X{x1, x2,…},并生成固有特征词的同义词和/或近义词Y{y1,y2,…},固有特征词与其同义词和/或近义词一起构成特征词集合Z{x1,x2,…y1,y2,…};
根据特征词a出现频率计算案件L与其每个特征词的关联度cor(L,a),计算每个特征词a与每个案件类别C的关联度cor(C,a),进而得到案件L与每个案件类别C的关联度:
cor(C,L)=∑cor(C,a)*cor(L,a),a∈Z
取关联度最高的n个案件类别为案件L的可能所属类别;
步骤2,按照步骤1的方法,计算关联度最高的n个案件类别中的每个历史案例案件l与其类别Cj的关联度cor(Cj,l)
从而得到案件L与类别Cj中每个历史案例案件l的特征词关联度:
cor(L,l)=cor(Cj,L)*cor(Cj,l),l是Cj中的历史案例案件;
步骤3,计算案件文本关联度
Figure RE-GDA0002688663700000023
根据新的案件L文本与关联度最高的n个案件类别中历史案例案件l文本的特征词,对于每个特征词,进行向量化的表示;通过词向量编码方法将特征词表示为k个维度的词向量,特征词的词向量表示vi=(vi1,vi2,…viK),k为整数且k≤100;根据特征词词义和特征词之间上下文关系所形成的文本整体信息得到文本的关联度;
步骤4,根据特征词关联度cor(L,l)和文本关联度
Figure RE-GDA0002688663700000024
计算案件L与历史案例案件l的综合关联度C(L,l),并根据综合关联度大小进行排序,展示匹配结果。
优选的,步骤1所述根据特征词a出现频率计算案件L与其每个特征词的关联度cor(L,a),具体为:
对于固有特征词X中的每个特征词a,统计特征词a在案件L的文本中出现的次数M以及案件L文本的词的总数N,得到特征词a出现的频率pa=M/N;
特征词a与案件L的关联度为:
Figure RE-GDA0002688663700000021
其中pi是第i个固有特征词出现的频率,从而得到了案件与其特征词的关联度。
优选的,步骤1所述计算每个特征词a与每个案件类别C的关联度 cor(C,a),具体为:
根据历史案例库,案件L的特征词a与案件类别C的关联度为:
Figure RE-GDA0002688663700000022
其中CM是案件类别C的案件案例中包含特征词a的案件案例数量,CN是案件类别C中所有案件案例的数量。
优选的,步骤2所述按照步骤1的方法,计算关联度最高的n个案件类别中的历史案例案件l与其类别Cj的关联度cor(Cj,l),具体为:针对关联度最高的 n个案件类别中每个案件类别Cj,获取案件类别Cj中的每个历史案例案件l,获取历史案例案件l的特征词,计算历史案例案件l与其每个特征词d的关联度 cor(l,d),计算每个特征词d与其案件类别Cj的关联度cor(Cj,d),从而得到历史案例案件l其类别Cj的关联度cor(Cj,l)=∑cor(Cj,d)*cor(l,d),进而得到关联度最高的n个案件类别中的每个历史案例l与其类别Cj的关联度。
优选的,所述词向量编码方法采用word2vec模型的编码方法。
优选的,步骤3所述计算案件文本关联度,具体为:将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度
Figure RE-GDA0002688663700000031
和/或:通过文本向量化表示letter embedding,将向量点积运算后得到文本关联度
Figure RE-GDA0002688663700000032
进而得到案件L和案件l的文本关联度:
Figure RE-GDA0002688663700000033
进一步的,所述将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度;具体方法为:
对于案件L,将其每个特征词的词向量vi=(vi1,vi2,…viK)映射到K维向量空间中的特征词节点Nodei,根据每个特征词在案件L文本出现的顺序,依次连接K维空间的特征词节点形成文本“信息传达路径”InfoRouteL
同样的方法,对于历史案例案件l,将其每个特征词的词向量vj= (vj1,vj2,…vjK)映射到K维向量空间中的特征词节点Nodej,根据每个特征词在案件l文本出现的顺序,依次连接K维空间的特征词节点形成文本“信息传达路径”InfoRoutel
根据案件L的“信息传达路径”InfoRouteL和历史案例案件l的“信息传达路径”InfoRoutel,在K维空间中的有向路径InfoRouteL上等间隔的取m个节点 NodeL1,NodeL2,…,NodeLm,同样地,在路径InfoRoutel上等间隔取m个节点Nodel1,Nodel2,…,Nodelm;节点NodeLi与Nodeli都是K维空间的节点,NodeLi向量表示分别为(xLi1,xLi2,xLi3…,xLiK)和Nodeli向量表示分别为(xli1,xli2,xli3…,xliK)
Figure RE-GDA0002688663700000041
计算InfoRouteL与InfoRoutel的距离如下:
d=dL1-l1+dL2-l2+…+dLm-lm
计算得到文本的关联度
Figure RE-GDA0002688663700000042
进一步,所述通过文本向量化表示letter embedding,将向量点积运算后得到文本关联度,具体为:
通过word2vec方法计算得到每个固有特征词的word embedding词向量 vi,根据固有特征词在其案件文本中首次出现的顺序,依次将词向量顺序拼接合成新的向量作为文本的向量表示letter embedding: (v11,v12,…v1K,v21,v22,,,v31,.....),其中v1j表示文本中第1个出现的固有特征词的-词向量v1中第j个分量,vij表示文本中第i个出现的固有特征词-词向量vi中第j个分量;
即得到新的案件L文本的向量表示letter embedding:Vector(L),历史案例案件l文本的向量表示letter embedding:Vector(l),
通过向量点积运算后得到文本的关联度
Figure RE-GDA0002688663700000043
*为向量点积运算。
优选的,步骤4所述综合关联度C(L,l)为:
Figure RE-GDA0002688663700000044
l、
Figure RE-GDA0002688663700000045
是关联度最高的n个案件类别中的历史案例案件。
第二方面,提供了一种大数据案例匹配模型的设计装置,该装置包括第一计算单元,第二计算单元,第三计算单元和第四计算单元,
所述第一计算单元,用于所有可能的实现方式中任一项所述的一种大数据案例匹配模型的设计方法的步骤1的步骤;
所述第二计算单元,用于执行所有可能的实现方式中任一项所述的一种大数据案例匹配模型的设计方法的步骤2的步骤;
所述第三计算单元,用于执行所有可能的实现方式中任一项所述的一种大数据案例匹配模型的设计方法的步骤3的步骤;
所述第四计算单元,用于执行所有可能的实现方式中任一项所述的一种大数据案例匹配模型的设计方法的步骤4的步骤。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:
通过提取文本的词向量,结合词在文本的位置信息计算文本的整体词向量;通过对关键词进行同义词拓展避免不同案例的表述方式不同问题;通过关键词以及同义词计算出案例的相关类别,从而在这些类别的历史案例库中进行匹配,大大节省了在案例库直接进行匹配的时间。在历史案例库中筛选出相关类别的历史案例后,利用历史案例与关键词的相似度结合文本整体的相似度得到高度关联的历史案例。通过对特征关键词的同义词拓展、文本整体相似度计算、分类筛选使得案例匹配的结果更加准确,匹配过程更加快速;实现对匹配结果排序,反映了不同历史案例的参考价值。同时在文本关联度方面,通过特征词的词向量,设计了文本的高维空间“信息传达路径”表示和letter embedding表示,反应了不同特征词在文章中的位置信息以及特征词之间的上下文信息传递,进而分析出文本的整体关联程度。
通过该匹配模型,计算机可自动寻找与新的案件相似的历史案例,为工作人员及申请人提供可供参考的历史案例;为政府机构提供强大的工具支持,同时对于申请人通过匹配了解历史案例的处理方法,可以自主采取合适的解决方案,避免盲目全部前往案件处理部门的情况,节约政府工作资源,带来良好的社会效益。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请的说明书和权利要求书的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。
需要说明的是,本技术方案除了可以用于案件处理领域匹配历史案例外,同样可以匹配相关法律条文、规章制度,同样也可以用于与案例匹配有着相同模式的其他领域。
第一方面:本公开实施例提供了一种大数据案例匹配模型的设计方法,该方法包括如下步骤:
步骤1,提取新的案件L的特征词,形成特征词集合,
对于一个新的案件L(即待匹配的案件),提取案件L的文本中的固有特征词X{x1,x2,…},并生成固有特征词的同义词和/或近义词Y{y1,y2,…},固有特征词与其同义词和/或近义词一起构成特征词集合{x1,x2,…y1、 y2,…};
特征词包括:文章中的关键词、文本中出现的人名、地名、机构名(如公司金融机构学校等)、时间、手机号;对于每个特征词Li,拓展它的同义词、近义词(且不属于文本已有的特征词),例如机构名、地名的简称或其他常用称呼作为机构名、地名的同义词。
根据特征词a出现频率计算案件L与其每个特征词的关联度cor(L,a),计算每个特征词a与每个案件类别C的关联度cor(C,a),进而得到案件L与每个案件类别C的关联度:
cor(C,L)=∑cor(C,a)*cor(L,a)
取关联度最高的n个案件类别为案件L的可能所属类别;(n优选取2,即取关联度最高2个类别C1,C2)
优选的,根据特征词出现频率计算案件L与其每个特征词的关联度,具体为:
对于固有特征词X中的每个特征词a,统计特征词a在案件L的文本中出现的次数M以及案件L文本的词的总数N,得到a出现的频率pa=M/N;
特征词a与案件L的关联度为:
Figure RE-GDA0002688663700000071
其中pi是第i个固有特征词出现的频率,从而得到了案件与其特征词的关联度;
优选的,计算每个特征词a与每个案件类别C的关联度,具体为:
根据历史案例库,案件L的特征词a与案件类别C的关联度:
Figure RE-GDA0002688663700000072
其中CM是案件类别C的案件案例中包含特征词a的案件案例数量,CN 是案件类别C中所有案件案例的数量。根据相关文件,共将案件分为17个大类别,每个大类都有一定数量的案件案例。
步骤2,按照步骤1的方法,计算关联度最高的n个案件类别中的每个历史案例案件l与其类别Cj的关联度cor(Cj,l)
从而得到案件L与类别Cj中每个历史案例案件l的关联度:
cor(L,l)=cor(Cj,L)*cor(Cj,l),l是Cj中的历史案例案件
当取关联度最高2个类别C1,C2时,
Figure RE-GDA0002688663700000073
计算得到案件L与关联度最高的2个类别C1,C2中每个历史案例案件l的关联度(基于特征词-类别)。
优选的,所述按照步骤1的方法,计算关联度最高的n个案件类别中的历史案例案件l与其类别Cj的关联度cor(Cj,l),具体为:针对关联度最高的n个案件类别中每个案件类别Cj,获取案件类别Cj中的每个历史案例案件l,获取历史案例案件l的特征词,计算历史案例案件l与其每个特征词的关联度,计算每个特征词与其案件类别Cj的关联度,从而得到历史案例案件l其类别Cj的关联度,进而得到关联度最高的n个案件类别中的每个历史案例l与其类别Cj的关联度。
由于在历史案例库中,每个类别(C1类别和C2类别)下会有大量的历史案例,这些历史案例和其归属的类别的关联度并不是相同的,例如在城乡建设类下有许多不同的案件,虽然这些案件都归属到城乡建设类别下,但这些案件与城乡建设的关联度是不同的,有的案件会具有非常突出典型的意义,与城乡建设关联度极高,有的案件只是略微涉及城乡建设,只是在分类时相对于其他类别更适合归属到城乡建设类别下。通过采用历史案例l与其类别Cj的关联度这个参数,减少相同类别下历史案例案件差异大的影响,从而从类别中进一步匹配出与新的案件L关联度更高的历史案例,提高匹配的准确性。
通过步骤1-2的方法可以得到案件L与关联度最高的n个案件类别中每个历史案例案件l的关联度:即在特征词上,找到了与新的案件L关联度较高的历史案例案件,但现实情况中存在:两个案件文本,虽然他们的特征词高度相同/ 相似,但两个案件文本的整体信息并不相似。实际上由于特征词在文本中的位置、顺序不同所描述的是完全不同事实信息,所以还需要进一步考虑到案件文本的综合信息,例如特征词在案件文本中的位置信息、不同特征词之间的关系,所以需要进一步计算案件L的文本与被匹配历史案件文本的整体文本信息的相似度。通过对案件文本进行向量化,可以快速精准的匹配出与新案件高度接近的案例,大大提高匹配准确率。
步骤3,计算案件文本关联度,根据新的案件L文本与关联度最高的n个案件类别中历史案例案件l文本的特征词,对于每个特征词,进行向量化的表示;通过词向量编码方法将特征词表示为K个维度的词向量,特征词的词向量表示vi=(vi1,vi2,…viK),K为整数且K≤100;根据特征词词义和特征词之间上下文关系所形成的文本整体信息得到文本的关联度;
优选的,所述词向量编码方法采用word2vec模型的编码方法。
优选的,所述计算案件文本关联度,具体为:将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度;和/或:通过文本向量化表示letter embedding,将向量点积运算后得到文本关联度。
对新的案件L文本与关联度最高的n个案件类别中历史案例案件l文本的特征词,对于每个特征词a,进行向量化的表示;事实上,最简单的是one-hot表达方式,例如案例中常用词的词典一共有5000个词,则每个词用一个1*5000 的向量表示,对于每个词,向量的分量只有一个为1,其他全为0,1的位置对应词在词典中的位置(需要说明的是所述词典中的每个词,用字母表示,每个字母表示一个字),例如“BC”是词典中第3个词,“BD”是词典中第5个词,则“BC”表示为(0,0,1,0,0,…,0),“BD”表示为(0,0,0,0,1,…, 0),这种表示方法笔记简单,相当于给每个词分配一个向量ID,但是维数过大 (词典有多少词就有多少维),而且无法体现不同词之间关系,即使意思相近的两个词,经过向量点积后也可能为0,通过word2vec模型等分布式表示将词表示为维度更低(k个维度的词向量,k≤100)的词向量,例如50维的词向量,此时每个维度不再是简单的0、1,例如可以将“BC”用50*1的向量(0.721,-0.365,0.543,…)表示,且意思相近的词所对应的词向量也会更接近。
进一步的,所述将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度;具体方法为:
因为对于一篇文章,是通过词语->句子->段落逐步生成,在中文中一个词是最小的表达单位,一篇文章就是通过一个一个词来构成,一篇文章整体所表达的信息本质上就是文章中各个词(其中尤其以关键词更为重要)之间的上下文信息传递综合后的展现;通过将一案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”作为文本综合信息,进而通过计算两篇文本“信息传达路径”之间的相似度得到文本的关联度。
对于案件L,将特征词i的词向量vi=(vi1,vi2,…viK)映射到K维向量空间中的特征词节点Nodei,根据每个特征词在案件L文本出现的顺序,依次连接K维空间的特征词节点形成文本“信息传达路径”InfoRouteL;例如若案件L 的文本从开头至结尾依次出现了特征词“BC”—“EF”—“QW”—“RTY”,那么案件L的文本“信息传达路径”就是K维向量空间中节点NodeBC—NodeEF— NodeQW—NodeRTY所形成的一条有向路径,由于“信息传达路径”是有向的,所以可以反映上下文之间词语的位置关系,此外当一个特征词出现多次时,“信息传达路径”也会多次经过这个特征词所对应的节点(需要说明的是所述词典中的每个词,用字母表示,每个字母表示一个字)。
同样的方法,对于历史案例案件l,将其特征词j的词向量vj= (vj1,vj2,…vjK)映射到K维向量空间中的特征词节点Nodej,根据每个特征词在案件l文本出现的顺序,依次连接K维空间的特征词节点形成文本“信息传达路径”InfoRoutel
根据案件L的“信息传达路径”InfoRouteL和历史案例案件l的“信息传达路径”InfoRoutel,在K维空间中的有向路径InfoRouteL上等间隔的取m(m给定参数,可以取1000)个节点NodeL1,NodeL2,…,NodeLm,同样地,在路径InfoRoutel上等间隔取m个节点Nodel1,Nodel2,…,Nodelm;节点NodeLi与Nodeli都是K维空间的节点,NodeLi向量表示分别为 (xLi1,xLi2,xLi3…,xLiK)和Nodeli向量表示分别为(xli1,xli2,xli3…,xliK)
Figure RE-GDA0002688663700000101
计算InfoRouteL与InfoRoutel的距离如下:
d=dL1-l1+dL2-l2+…+dLm-lm
计算得到文本的关联度
Figure RE-GDA0002688663700000102
进一步的,所述通过文本向量化表示letter embedding,将向量点积运算后得到文本关联度,具体为:
通过word2vec方法计算得到每个固有特征词的word embedding词向量 vi,根据固有特征词在其案件文本中首次出现的顺序,依次将词向量顺序拼接合成新的向量作为文本的向量表示letter embedding: (v11,v12,…v1K,v21,v22,,,v31,.....),其中v1j表示文本中第1个出现的固有特征词的-词向量v1中第j个分量,vij表示文本中第i个出现的固有特征词-词向量vi中第j个分量;
即得到新的案件L文本的向量表示letter embedding:Vector(L),历史案例案件l文本的向量表示letter embedding:Vector(l),
通过向量点积运算后得到文本的关联度(基于文本综合编码)
Figure RE-GDA0002688663700000111
*为向量点积运算
从计算公式可以看出,特征词越相同且在文本中的位置也基本一致的文本相似度会更高。
例如,案件文本中依次出现了“BC”,“EF”,“JKL”,“BP”四个特征词,通过word2vec模型等分布式表示将词表示为50维度的词向量,得到这4个特征词的50*1维度向量:“BC”的词向量是(0.721,-0.365,…,0.21),“EF”为 (0.91,0.54,…,0.43),“JKL”为(0.33,0.29,…,0.98),“BP”为(0.97, 0.56,…,0.17)。则此letter embedding是200*1的向量(0.721,-0.365…, 0.21,0.91,0.54,…,0.43,0.33,0.29,…,0.98,0.97,0.56,…,0.17)。通过letter embedding可以综合利用每个特征词的信息以及特征词在文章中的位置信息,当两个案件的文本特征词相似而且位置顺序基本相同时,两个文本的 letter embedding也会更加接近(也就是向量点积的值更大)。
优选的,结合“信息传达路径”方法和letter embedding方法分别得到案件L 文本和历史案例案件l文本的关联度,得到案件L和案件l的文本关联度:
Figure RE-GDA0002688663700000112
α+β=1,比如:
Figure RE-GDA0002688663700000113
Figure RE-GDA0002688663700000114
步骤4,根据关联度cor(L,l)和文本关联度
Figure RE-GDA0002688663700000117
计算案件L与历史案例案件l的综合关联度C(L,l),并根据关联度大小进行排序展示作为匹配结果。
优选的,所述综合关联度C(L,l)为:
Figure RE-GDA0002688663700000115
l、
Figure RE-GDA0002688663700000116
是关联度最高的n个案件类别中的历史案例案件
从而可以根据综合关联度的大小提供匹配结果,综合关联度越高的历史案例越相关。
第二方面,本公开实施例提供了一种大数据案例匹配模型的设计装置,基于相同的技术构思,该装置包括第一计算单元,第二计算单元,第三计算单元和第四计算单元,
所述第一计算单元,用于所有可能的实现方式中任一项所述的一种大数据案例匹配模型的设计方法的步骤1的步骤;
所述第二计算单元,用于执行所有可能的实现方式中任一项所述的一种大数据案例匹配模型的设计方法的步骤2的步骤;
所述第三计算单元,用于执行所有可能的实现方式中任一项所述的一种大数据案例匹配模型的设计方法的步骤3的步骤;
所述第四计算单元,用于执行所有可能的实现方式中任一项所述的一种大数据案例匹配模型的设计方法的步骤4的步骤。
需要说明的是,上述实施例提供的一种大数据案例匹配模型的设计装置在执行一种大数据案例匹配模型的设计方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外上述实施例提供的一种大数据案例匹配模型的设计装置与一种大数据案例匹配模型的设计方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (10)

1.一种大数据案例匹配模型的设计方法,其特征在于,该方法包括如下步骤:
步骤1,提取新的案件L的特征词,形成特征词集合,
对于一个新的案件L,提取案件L的文本中的固有特征词X{x1,x2,…},并生成固有特征词的同义词和/或近义词Y{y1,y2,…},固有特征词与其同义词和/或近义词一起构成特征词集合Z{x1,x2,…y1,y2,…};
根据特征词a出现频率计算案件L与其每个特征词的关联度cor(L,a),计算每个特征词a与每个案件类别C的关联度cor(C,a),进而得到案件L与每个案件类别C的关联度:
cor(C,L)=∑cor(C,a)*cor(L,a),a∈Z
取关联度最高的n个案件类别为案件L的可能所属类别;
步骤2,按照步骤1的方法,计算关联度最高的n个案件类别中的每个历史案例案件l与其类别Cj的关联度cor(Cj,l)
从而得到案件L与类别Cj中每个历史案例案件l的特征词关联度:
cor(L,l)=cor(Cj,L)*cor(Cj,l),l是Cj中的历史案例案件;
步骤3,计算案件文本关联度
Figure RE-RE-FDA0002674594540000011
根据新的案件L文本与关联度最高的n个案件类别中历史案例案件l文本的特征词,对于每个特征词,进行向量化的表示;通过词向量编码方法将特征词表示为K个维度的词向量,特征词的词向量表示vi=(vi1,vi2,…viK),K为整数且K≤100;根据特征词词义和特征词之间上下文关系所形成的文本整体信息得到文本的关联度;
步骤4,根据特征词关联度cor(L,l)和文本关联度
Figure RE-RE-FDA0002674594540000012
计算案件L与历史案例案件l的综合关联度C(L,l),并根据综合关联度大小进行排序,展示匹配结果。
2.根据权利要求1所述的一种大数据案例匹配模型的设计方法,其特征在于,步骤1所述根据特征词a出现频率计算案件L与其每个特征词的关联度cor(L,a),具体为:对于固有特征词X中的每个特征词a,统计特征词a在案件L的文本中出现的次数M以及案件L文本的词的总数N,得到特征词a出现的频率pa=M/N;
特征词a与案件L的关联度为:
Figure RE-RE-FDA0002674594540000021
其中pi是第i个固有特征词出现的频率,从而得到了案件与其特征词的关联度。
3.根据权利要求1所述的一种大数据案例匹配模型的设计方法,其特征在于,步骤1所述计算每个特征词a与每个案件类别C的关联度cor(C,a),具体为:根据历史案例库,案件L的特征词a与案件类别C的关联度为:
Figure RE-RE-FDA0002674594540000022
其中CM是案件类别C的案件案例中包含特征词a的案件案例数量,CN是案件类别C中所有案件案例的数量。
4.根据权利要求1所述的一种大数据案例匹配模型的设计方法,其特征在于,步骤2所述按照步骤1的方法,计算关联度最高的n个案件类别中的历史案例案件l与其类别Cj的关联度cor(Cj,l),具体为:针对关联度最高的n个案件类别中每个案件类别Cj,获取案件类别Cj中的每个历史案例案件l,获取历史案例案件l的特征词,计算历史案例案件l与其每个特征词d的关联度cor(l,d),计算每个特征词d与其案件类别Cj的关联度cor(Cj,d),从而得到历史案例案件l其类别Cj的关联度cor(Cj,l)=∑cor(Cj,d)*cor(l,d),进而得到关联度最高的n个案件类别中的每个历史案例l与其类别Cj的关联度。
5.根据权利要求1-4任一项所述的一种大数据案例匹配模型的设计方法,其特征在于,所述词向量编码方法采用word2vec模型的编码方法。
6.根据权利要求1-4任一项所述的一种大数据案例匹配模型的设计方法,其特征在于,步骤3所述计算案件文本关联度,具体为:将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度
Figure RE-RE-FDA0002674594540000023
和/或:通过文本向量化表示letter embedding,将向量点积运算后得到文本关联度
Figure RE-RE-FDA0002674594540000031
进而得到案件L和案件l的文本关联度:
Figure RE-RE-FDA0002674594540000032
7.根据权利要求6所述的一种大数据案例匹配模型的设计方法,其特征在于,所述将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度;具体方法为:
对于案件L,将其每个特征词的词向量vi=(vi1,vi2,…viK)映射到K维向量空间中的特征词节点Nodei,根据每个特征词在案件L文本出现的顺序,依次连接K维空间的特征词节点形成文本“信息传达路径”InfoRouteL
同样的方法,对于历史案例案件l,将其每个特征词的词向量vj=(vj1,vj2,…vjK)映射到K维向量空间中的特征词节点Nodej,根据每个特征词在案件l文本出现的顺序,依次连接K维空间的特征词节点形成文本“信息传达路径”InfoRoutel
根据案件L的“信息传达路径”InfoRouteL和历史案例案件l的“信息传达路径”InfoRoutel,在K维空间中的有向路径InfoRouteL上等间隔的取m个节点NodeL1,NodeL2,…,NodeLm,同样地,在路径InfoRoutel上等间隔取m个节点Nodel1,Nodel2,…,Nodelm;节点NodeLi与Nodeli都是K维空间的节点,NodeLi向量表示分别为(xLi1,xLi2,xLi3…,xLiK)和Nodeli向量表示分别为(xli1,xli2,xli3…,xliK)
Figure RE-RE-FDA0002674594540000033
计算InfoRouteL与InfoRoutel的距离如下:
d=dL1-l1+dL2-l2+…+dLm-lm
计算得到文本的关联度
Figure RE-RE-FDA0002674594540000034
8.根据权利要求6所述的一种大数据案例匹配模型的设计方法,其特征在于,所述通过文本向量化表示letter embedding,将向量点积运算后得到文本关联度,具体为:
通过word2vec方法计算得到每个固有特征词的word embedding词向量vi,根据固有特征词在其案件文本中首次出现的顺序,依次将词向量顺序拼接合成新的向量作为文本的向量表示letter embedding:(v11,v12,…v1K,v21,v22,,,v31,.....),其中v1j表示文本中第1个出现的固有特征词的-词向量v1中第j个分量,vij表示文本中第i个出现的固有特征词-词向量vi中第j个分量;
即得到新的案件L文本的向量表示letter embedding:Vector(L),历史案例案件l文本的向量表示letter embedding:Vector(l),
通过向量点积运算后得到文本的关联度
Figure RE-RE-FDA0002674594540000041
*为向量点积运算。
9.根据权利要求1-4或7-8任一项所述的一种大数据案例匹配模型的设计方法,其特征在于,步骤4所述综合关联度C(L,l)为:
Figure RE-RE-FDA0002674594540000042
l、
Figure RE-RE-FDA0002674594540000043
是关联度最高的n个案件类别中的历史案例案件。
10.一种大数据案例匹配模型的设计装置,其特征在于,该装置包括第一计算单元,第二计算单元,第三计算单元和第四计算单元,
所述第一计算单元,用于执行权利要求1-9任一项所述的一种大数据案例匹配模型的设计方法的步骤1的步骤;
所述第二计算单元,用于执行权利要求1-9任一项所述的一种大数据案例匹配模型的设计方法的步骤2的步骤;
所述第三计算单元,用于执行权利要求1-9任一项所述的一种大数据案例匹配模型的设计方法的步骤3的步骤;
所述第四计算单元,用于执行权利要求1-9任一项所述的一种大数据案例匹配模型的设计方法的步骤4的步骤。
CN202010840637.7A 2020-08-20 2020-08-20 一种大数据案例匹配模型的设计方法及装置 Active CN114077651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010840637.7A CN114077651B (zh) 2020-08-20 2020-08-20 一种大数据案例匹配模型的设计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010840637.7A CN114077651B (zh) 2020-08-20 2020-08-20 一种大数据案例匹配模型的设计方法及装置

Publications (2)

Publication Number Publication Date
CN114077651A true CN114077651A (zh) 2022-02-22
CN114077651B CN114077651B (zh) 2024-07-09

Family

ID=80282925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010840637.7A Active CN114077651B (zh) 2020-08-20 2020-08-20 一种大数据案例匹配模型的设计方法及装置

Country Status (1)

Country Link
CN (1) CN114077651B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309706A (ja) * 2004-04-21 2005-11-04 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
CN103473283A (zh) * 2013-08-29 2013-12-25 中国测绘科学研究院 一种文本案例匹配方法
CN109840532A (zh) * 2017-11-24 2019-06-04 南京大学 一种基于k-means的法院类案推荐方法
CN110580281A (zh) * 2019-09-11 2019-12-17 江苏鸿信系统集成有限公司 一种基于语义相似度的相似案件匹配方法
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN110727787A (zh) * 2019-10-11 2020-01-24 北京明略软件系统有限公司 案件文本匹配方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309706A (ja) * 2004-04-21 2005-11-04 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
CN103473283A (zh) * 2013-08-29 2013-12-25 中国测绘科学研究院 一种文本案例匹配方法
CN109840532A (zh) * 2017-11-24 2019-06-04 南京大学 一种基于k-means的法院类案推荐方法
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN110580281A (zh) * 2019-09-11 2019-12-17 江苏鸿信系统集成有限公司 一种基于语义相似度的相似案件匹配方法
CN110727787A (zh) * 2019-10-11 2020-01-24 北京明略软件系统有限公司 案件文本匹配方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘晖群;刘敏知;熊林楷;邹俊韬;徐炎良;: "贝伐单抗联合AP方案治疗晚期非鳞非小细胞肺癌的疗效分析", 实用癌症杂志, no. 12, 25 December 2014 (2014-12-25) *

Also Published As

Publication number Publication date
CN114077651B (zh) 2024-07-09

Similar Documents

Publication Publication Date Title
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN110245240A (zh) 一种问题数据答案的确定方法及装置
CN102456016B (zh) 一种对搜索结果进行排序的方法及装置
CN111597356B (zh) 智能化教育知识图谱构建系统与方法
CN105302810A (zh) 一种信息搜索方法和装置
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN111008215A (zh) 一种结合标签构建与社区关系规避的专家推荐方法
CN117151659B (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
CN113987126A (zh) 基于知识图谱的检索方法及装置
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN113553419A (zh) 民航知识图谱问答系统
JP2005092442A (ja) 多次元空間モデル表現装置および多次元空間モデル表現方法
CN116629258A (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN112000782A (zh) 一种基于k-means聚类算法的智能客服问答系统
CN114077651A (zh) 一种大数据案例匹配模型的设计方法及装置
CN115982322A (zh) 一种水利行业设计领域知识图谱的检索方法及检索系统
CN116226371A (zh) 一种数字经济专利分类方法
CN113254632B (zh) 基于事件检测技术的时间线摘要自动生成方法
CN111428002B (zh) 一种自然语言人机交互式的智能问答实现方法
CN112949410B (zh) 人工智能理科文字题解题方法、装置、设备及存储介质
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN114882287A (zh) 基于语义关系图的图像分类方法
CN111209375B (zh) 一种通用的条款与文档匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant