CN112632226A - 基于法律知识图谱的语义搜索方法、装置和电子设备 - Google Patents

基于法律知识图谱的语义搜索方法、装置和电子设备 Download PDF

Info

Publication number
CN112632226A
CN112632226A CN202011597968.9A CN202011597968A CN112632226A CN 112632226 A CN112632226 A CN 112632226A CN 202011597968 A CN202011597968 A CN 202011597968A CN 112632226 A CN112632226 A CN 112632226A
Authority
CN
China
Prior art keywords
legal
graph
description
semantic search
legal knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011597968.9A
Other languages
English (en)
Other versions
CN112632226B (zh
Inventor
朵思惟
余梓飞
于锋杰
薛晨云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Huizhi Xingyuan Information Technology Co ltd
Original Assignee
Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Huizhi Xingyuan Information Technology Co ltd filed Critical Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority to CN202011597968.9A priority Critical patent/CN112632226B/zh
Publication of CN112632226A publication Critical patent/CN112632226A/zh
Application granted granted Critical
Publication of CN112632226B publication Critical patent/CN112632226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例提供一种基于法律知识图谱的语义搜索方法、装置和电子设备。响应于接收到用户输入的法律问题的描述,对所述描述进行预处理;对经过所述预处理的所述描述进行要素提取,所述要素提取包括实体‑关系‑实体三元组的抽取,根据所述实体‑关系‑实体三元组构建语义搜索图,对所述语义搜索图基于法律法规类型建立类别标签,输出带有标签的语义搜索图;将所述语义搜索图与法律知识图谱进行子图匹配,将匹配度高的子图作为法律答案数据。本发明通过对用户问题建立语义网,并结合法律知识图谱进行匹配和推理,能够准确捕捉用户的搜索意图,从而直接给出满足用户搜索意图的答案,实际解决用户的法律问题。

Description

基于法律知识图谱的语义搜索方法、装置和电子设备
技术领域
本说明书一个或多个实施例涉及知识图谱技术领域,尤其涉及一种基于法律知识图谱的语义搜索方法、装置和电子设备。
背景技术
随着科技的发展,自动化的法律咨询服务在缓解人工法律服务资源不足的问题上发挥着越来越重要的作用。在民众进行法律咨询的过程中,一个高效精准的法律搜索系统可以为民众提供精准、全面的一站式解决方案。
传统的法律搜索系统大多基于检索提问式关键词匹配技术和排序算法,返回的结果主要依据素材中是否存在关键词,无法获知用户搜索语句的真正含义。这往往与用户对结果精准、即得的需求相矛盾。比如当搜索“民事案件类型有哪些?”时,传统搜索系统呈现的是包含关键词“民事”、“案件”等的信息,而用户想要得到的答案实际是“劳动纠纷、人格权纠纷”等信息。
基于此,需要一种能够准确捕捉用户的搜索意图,从而直接给出满足用户搜索意图答案的语义搜索方案。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于法律知识图谱的语义搜索方法、装置和电子设备,以解决无法准确捕捉用户法律搜索意图的问题。
基于上述目的,本说明书一个或多个实施例提供了一种基于法律知识图谱的语义搜索方法,包括:
响应于接收到用户输入的对法律问题的描述,对所述描述进行预处理;
通过预定的关系抽取模型,从经过预处理的所述描述中提取出实体-关系-实体三元组,以构建语义搜索图;
基于预定的法律法规类型,通过预先建立的分类模型对经过预处理的所述描述进行分类,得到类别标签;
在预先基于法律知识相关文件构建的法律知识图谱中搜索到与所述类别标签对应的目标节点,并将所述法律知识图谱中以所述目标节点为根节点的部分法律知识图谱与所述语义搜索图进行子图匹配,得到一个或多个匹配子图;
输出所述一个或多个匹配子图中的至少一个目标子图作为针对所述描述的法律答案。
进一步的,所述关系抽取模型包括CASREL模型。
进一步的,所述响应于接收到用户输入的对法律问题的描述,对所述描述进行预处理,包括下列中至少一个:
通过正则表达式去除所述描述的标点符号和/或特殊符号;
通过中文分词算法WMSeg对所述描述进行分词;
将所述描述中的繁简字体进行统一化;
通过标准表达方式对所述描述进行同义词归一化;
通过Soft-Masked BERT模型对所述描述进行文本纠错处理。
进一步的,所述通过预定的关系抽取模型,从经过预处理的所述描述中提取出实体-关系-实体三元组,以构建语义搜索图,包括:
基于完整的训练模型BERT对所述描述进行编码,获取所述描述中每个词的特征表示;
对所述特征表示进行解码,构建分类器预测所述实体位置,识别出所述实体对应的主语;
根据所述主语提取所有可能与所述主语对应的关系,并根据所述关系识别出相应的宾语,得到实体-关系-实体三元组。
进一步的,所述基于预定的法律法规类型,通过预先建立的分类模型对经过预处理的所述描述进行分类,得到类别标签,包括:
基于预训练模型BERT对所述描述进行特征向量表示得到特征向量,将所述特征向量输入到Softmax回归模型基于法律法规类型进行分类,得到所述描述的类别标签。
进一步的,所述在预先基于法律知识相关文件构建的法律知识图谱中搜索到与所述类别标签对应的目标节点,并将所述法律知识图谱中以所述目标节点为根节点的部分法律知识图谱与所述语义搜索图进行子图匹配,得到一个或多个匹配子图,包括:
在所述语义搜索图中给定一个节点v,在所述部分法律知识图谱中找到对应的节点u,计算节点v和节点u的相似度;
在所述语义搜索图中给定一个关系rel,在所述部分法律知识图谱中找到对应的关系L,计算所述关系rel与所述关系L的相似度;
通过所述节点相似度和所述关系相似度计算所述语义搜索图和所述部分法律知识图谱的相似度得分,根据所述相似度得分输出匹配子图。
进一步的,根据所述相似度得分对所述匹配子图进行排序,选取得分最高的预定数量个所述匹配子图作为目标子图。
基于同一发明构思,本说明书一个或多个实施例提供了一种基于知识图谱的语义搜索装置,包括:
预处理模块,被配置为响应于接收到用户输入的对法律问题的描述,对所述描述进行预处理;
语义搜索图生成模块,被配置为通过预定的关系抽取模型,从经过预处理的所述描述中提取出实体-关系-实体三元组,以构建语义搜索图,基于预定的法律法规类型,通过预先建立的分类模型对经过预处理的所述描述进行分类,得到类别标签;
子图匹配模块,被配置为在预先基于法律知识相关文件构建的法律知识图谱中搜索到与所述类别标签对应的目标节点,并将所述法律知识图谱中以所述目标节点为根节点的部分法律知识图谱与所述语义搜索图进行子图匹配,得到一个或多个匹配子图;
输出模块,被配置为输出所述一个或多个匹配子图中的至少一个目标子图作为针对所述描述的法律答案。
基于同一发明构思,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任一所述的方法。
基于同一发明构思,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令在被计算机执行时,使所述计算机实现如上任一所述的方法。
从上面所述可以看出,本说明书一个或多个实施例提供的一种基于法律知识图谱的语义搜索方法、装置和电子设备,通过对用户问题建立语义网,并结合法律知识图谱进行匹配和推理,能够准确捕捉用户的搜索意图,从而直接给出满足用户搜索意图的答案,实际解决用户的法律问题。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的语义搜索方法的流程示意图;
图2为本说明书一个或多个实施例的预处理操作的流程示意图
图3为本说明书一个或多个实施例的要素提取操作的示意图;
图4为本说明书一个或多个实施例的子图匹配操作的示意图
图5为本说明书一个或多个实施例的语义搜索装置的模块示意图;
图6为本说明书一个或多个实施例的电子设备的硬件结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
如背景技术所述,当前法律搜索系统大多是基于关键词匹配技术,不能准确理解用户搜索语句的真正含义,难以解决用户法律搜索方面问题的需求,从而无法给出基于用户问题语义的精准回答。
有鉴于此,本公开一个或多个实施例提供了一种基于法律知识图谱的语义搜索方法,对用户输入的法律问题首先进行预处理,包括去除特殊符号、分词、同义词归一化和语法纠错等。然后对所述法律问题的描述进行要素提取,提取出实体和关系,构建语义搜索图,对用户语义做初步的理解。基于法律法规类型对所述描述进行分类,输出带有法律法规类别标签的语义搜索图。将所述类别标签与预先基于法律知识相关文件构建的法律知识图谱的节点相对应,将所述语义搜索图和基于所述节点为根节点的部分法律知识图谱进行匹配,得到一个或多个匹配子图。输出所述一个或多个匹配子图中的至少一个目标子图作为针对所述描述的法律答案。
可见,本公开的一个或多个实施例的基于法律知识图谱的语义搜索方法通过对用户问题建立语义网,并结合法律知识图谱进行匹配和推理,能够准确捕捉用户的搜索意图,从而直接给出满足用户搜索意图的答案,而不是传统搜索系统给出的仅包含关键词的相关信息。
以下,通过具体的实施例来详细说明本公开的一个或多个实施例的技术方案。
参考图1,本公开的一个实施例的基于法律知识图谱的语义搜索方法,包括以下步骤:
步骤S101、响应于接收到用户输入的对法律问题的描述,对所述描述进行预处理。
在本步骤中,参考图2,所述预处理包括以下步骤:
步骤S201、去除标点符号和特殊符号,由于标点符号仅对阅读理解有作用,而对语义理解没有太大作用,我们通过正则表达式的方式删除标点符号及特殊符号。
步骤S202、分词,应用简单高效的中文分词算法WMSeg对所述描述进行分词。
步骤S203、繁简体统一化,由于中文文字在历史上经历了多次改革,很多字存在多种书写形式,如“车”,“車”,因此对同一个字需要进行繁简体的统一化。
步骤S204、同义词归一化,将缩写、别称和具有多种表述方式的词汇用标准表达方式进行统一,这样可以减少计算机处理不同信息的数量,提高计算效率和准确度。
步骤S205、文本纠错,常见的文本错误主要包括字形引起的错误和拼音相似引起的错误。其他错误还包括方言、口语化和重复输入等。随着近两年预训练模型的流行,BERT类模型被迁移应用到文本纠错任务中,并取得了很好的效果。本实施例中应用文本纠错的最优模型Soft-Masked BERT对所述描述进行文本纠错。
基于上述步骤S201至步骤S205完成对所述描述的预处理。
步骤S102、通过预定的关系抽取模型,从经过预处理的所述描述中提取出实体-关系-实体三元组,以构建语义搜索图,基于预定的法律法规类型,通过预先建立的分类模型对经过预处理的所述描述进行分类,得到类别标签。
本实施例中,所述要素提取具体包括:
(1)基于完整的预训练模型BERT对所述描述进行编码,获取所述描述中的每个词的特征表示,输出词向量,其中可以采用预训练模型BERT的任意一层进行编码。
(2)识别出所述描述中的主语。本步骤的主要作用是对预训练模型BERT编码获取到的词的特征表示进行解码,构建两个二分类分类器预测实体对应的主语的“起始”和“终止”索引位置。对每一个词,计算其作为“起始”或“终止”的概率,然后根据给定的阈值,大于阈值的则标记为1,小于阈值的标记为0,具体公式如下
Figure BDA0002870414000000061
Figure BDA0002870414000000062
其中
Figure BDA0002870414000000063
为起始概率,
Figure BDA0002870414000000064
为终止概率,
Figure BDA0002870414000000065
Figure BDA0002870414000000066
为权重矩阵,
Figure BDA0002870414000000067
Figure BDA0002870414000000068
为偏置向量,σ(·)为sigmoid激活函数。形如σ(Wstartxi+bstart)的运算为神经网络中一个常规偏置神经元的基本运算。通过给定阈值判定所述实体作为“起始”或是“终止”,从而识别出所述实体对应的主语。如图3所示,在主语识别过程中,“李”被标记为“起始”,“,”既不是“起始”也不是“终止”,“刚”被标记为“终止”,在这里采用了最近匹配的原则,即与“李”最近的一个“终止”词为“刚”,所以“李刚”被识别为一个主语。
(3)根据上一步识别出的主语,找出所有与所述主语可能的关系,并根据所述关系识别出相应的宾语。在本步骤中同时识别出和主语相关的关系和对应的宾语。在这步解码的时候不仅考虑了BERT编码的特征向量,还考虑到识别出来的主语的特征,能够根据主语的特征更精准判定相关宾语,如下列表达式:
Figure BDA0002870414000000071
其中
Figure BDA0002870414000000072
代表主语的特征向量,若存在多个词,将其取向量平均,hN代表BERT编码向量。对于识别出来的每一个主语,对应的每一种关系会解码出其宾语的“开始”和“结束”的索引位置,与标记主语位置类似,公式如下:
Figure BDA0002870414000000073
Figure BDA0002870414000000074
通过给定阈值判定所述实体作为“起始”或是“终止”,从而识别出所述实体对应的宾语。如图3所示,展示了第一个主语的生成过程,即“李刚”,对于这个主语,在关系“出生地”中识别出了两个宾语,即“贵州安顺”和“贵州省省长”,而在其他的关系中未曾识别出相应的宾语。以上我们便可以抽取到两个三元组,如下:(李刚,出生地,贵州安顺),(李刚,职位,贵州省省长)。
通过预训练模型BERT对所述描述进行特征向量表示,基于法律法规类型将所述描述的所述特征向量表示输入到Softmax回归模型中进行分类,最后输出带有法律法规类别标签的语义搜索图。其中分类的类型来源于法律领域专家划分的法律法规类型,这些类型同时也是知识图谱中的部分节点,具体地:
(1)输入用户提问的文本训练集:T={(x1,y1),…,(xN,yN)},i=1,2,…,N,其中xi为每条经过预处理的的文本,yi为每条文本所属的类别。
(2)基于BERT的中文短文本分类模型在训练集T上进行微调,得到训练集句子级别的特征表示,得到训练集句子级别的特征表示V={v1,…,vN},i=1,2,…,N,其中vi表示每个文本xi所对应的句子级别的特征表示。
(3)将第2步得到的句子级别的特征表示V={v1,…,vN}输入Softmax回归模型进行训练,计算给定样本xi属于第j个类别的概率:
Figure BDA0002870414000000081
选出最大概率值对应的类别作为样本xi所属的类别,上式中
Figure BDA0002870414000000082
Figure BDA0002870414000000083
为模型参数。
(4)输出文本分类训练模型,再将用户输入的所述描述的文本带入到分类训练模型中,输出所述语义搜索图的相应法律法规类别标签。
步骤S103、在预先基于法律知识相关文件构建的法律知识图谱中搜索到与所述类别标签对应的目标节点,并将所述法律知识图谱中以所述目标节点为根节点的部分法律知识图谱与所述语义搜索图进行子图匹配,得到一个或多个匹配子图。
根据步骤S102中得到的法律法规类别标签在法律知识图谱中找到对应的目标节点。以下只考虑以这一个节点为根节点的部分法律知识图谱的子图匹配问题。本实施例中,子图匹配主要分别以下几步:
(1)在语义搜索图中给定一个节点v,如果v是一个实体短语或是类型短语,我们就用实体链接算法从法律知识图谱中取得所有v对应的实体和类别,并且定义这个候选集为C(vi);如果v是一个疑问词,我们就假设这个候选集C(vi)由部分法律知识图谱中的所有节点组成。我们用argv定义语义搜索图中节点v对应词语的向量表示,将argv映射到部分法律知识图谱上的节点u,并用argu表示部分法律知识图谱中节点u对应词语的向量表示,节点v和节点u的相似度δ(argv,argu)计算公式如下;
Figure BDA0002870414000000084
(2)类似地,对于语义搜索图中的一个给定边
Figure BDA0002870414000000085
我们在部分法律知识图谱中找到相应的边,并定义这个候选集为
Figure BDA0002870414000000086
语义搜索图中的每一条边都对应着一个“关系”,我们需要计算这个“关系”reli和部分法律知识图谱中的“关系”L的相似度,为此先做如下的准备工作:对于给定的关系(relation mention)reli,对任意在reli的支撑集Sup(reli)=
Figure BDA0002870414000000087
的节点对
Figure BDA0002870414000000088
Figure BDA0002870414000000089
Figure BDA00028704140000000810
之间所有的简单路径的集合记为
Figure BDA00028704140000000811
定义
Figure BDA00028704140000000812
语义搜索图中的“关系”reli和部分法律知识图谱中的“关系”L的相似度计算如下:
δ(reli,L)=tf(L,PS(reli))×idf(L,T)
这里我们借鉴了文字挖掘中常用的tf-idf(term frequency-inverse documentfrequency)统计思想,用tf-idf测度评估法律知识图谱中候选“关系”L与语义搜索图中给定的“关系”reli的相似程度。tf-idf的主要思想是:如果某个词或短语在一篇文章中出现的频数(tf)高,并且在所有文章中出现频率(idf)很低,则认为该词能够很好的代表这篇文章的某个特征,具有很好的区分能力。这里我们将tf-idf统计思想应用到关系的相似度计算中,将“关系”L类比为“某个词或短语”,将PS(reli)类比为“一篇文章”,那么“关系”L在PS(reli)中出现的频数tf为:
Figure BDA0002870414000000091
我们继续将所有关系的集合T={rel1,…,reln}中每个reli所生成的PS(reli)的总和类比为“所有文章”的集合,那么“关系”L在所有这些PS(reli)中出现的频率的倒数取对数为
Figure BDA0002870414000000092
至此,我们通过tf-idf测度,计算得到了语义搜索图中的关系reli和部分法律知识图谱中的“关系”L的相似度。如图4所示,(a)为用户输入法律问题描述,(b)为语义搜索图,(c)为候选节点和边的相似度得分,(d)为法律知识图谱中对应于语义搜索图的候选节点组成的子图集合。比如,节点V2(“戴某”)对应于知识图谱中的候选节点有<“他人”>,<“国家工作人员”>和<“金融机构工作人员”>,和这些候选节点的相似度得分分别是0.7,0.3和0.2,所以判定“戴某”对应节点<“他人”>,其他节点和关系的判定类似。
(3)对于一个有n个节点{v1,…,vn}的语义搜索图QS,部分法律知识图谱中有n个节点{u1,…,un}的子图M与之匹配的得分计算公式如下:
Figure BDA0002870414000000093
其中
Figure BDA0002870414000000094
Figure BDA0002870414000000095
分别由上述第2,3步计算可得,α是一个权重系数,一般取0.5。Score(M)越高,说明子图M与语义搜索图QS越匹配,根据所述得分Score(M)输出法律候选答案数据集。
步骤S104、输出所述一个或多个匹配子图中的至少一个目标子图作为针对所述描述的法律答案。
根据所述得分Score(M)对所述匹配子图进行排序,选取得分最高的k个所述匹配子图作为输出的法律答案,其中k为预定的大于1的整数。
当用户输入对法律问题的描述后,通过上述步骤S101至S104完成语义搜索,最终为用户输出相关法律答案。
可见,在本实施例中,基于法律知识图谱,通过对用户问题进行要素提取,构建基于用户提问的语义搜索图,并结合法律知识图谱对用户提问的分类将用户语义搜索图和法律知识图谱做子图匹配,充分利用法律知识图谱中的关联信息,最终精准地理解用户的搜索意图,并给出准确答案,实际解决用户的法律问题。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种基于法律知识图谱的语义搜索装置。
参考图5,所述基于知识图谱的语义搜索装置,包括:
预处理模块501,被配置为响应于接收到用户输入的对法律问题的描述,对所述描述进行预处理;
语义搜索图生成模块502,被配置为通过预定的关系抽取模型,从经过预处理的所述描述中提取出实体-关系-实体三元组,以构建语义搜索图,基于预定的法律法规类型,通过预先建立的分类模型对经过预处理的所述描述进行分类,得到类别标签;
子图匹配模块503,被配置为在预先基于法律知识相关文件构建的法律知识图谱中搜索到与所述类别标签对应的目标节点,并将所述法律知识图谱中以所述目标节点为根节点的部分法律知识图谱与所述语义搜索图进行子图匹配,得到一个或多个匹配子图;
输出模块504,被配置为输出所述一个或多个匹配子图中的至少一个目标子图作为针对所述描述的法律答案。
作为一个可选的实施例,所述关系抽取模型包括CASREL模型。
作为一个可选的实施例,所述预处理模块501,具体被配置为,包括:
通过正则表达式去除所述描述的标点符号和/或特殊符号;
通过中文分词算法WMSeg对所述描述进行分词;
对所述描述进行繁简字体统一化;
对所述描述采用标准表达方式进行同义词归一化;
通过Soft-Masked BERT模型对所述描述进行文本纠错处理。
作为一个可选的实施例,所述语义搜索图生成模块502,具体被配置为,包括:
基于完整的训练模型BERT对所述描述进行编码,获取所述描述中每个词的特征表示;
对所述特征表示进行解码,构建分类器预测所述实体位置,识别出所述实体对应的主语;
根据所述主语提取所有可能与所述主语对应的关系,并根据所述关系识别出相应的宾语,得到实体-关系-实体三元组;
基于预训练模型BERT对所述描述进行特征向量表示得到特征向量,将所述特征向量输入到Softmax回归模型基于法律法规类型进行分类,得到所述描述的类别标签。
作为一个可选的实施例,所述子图匹配模块503,具体被配置为,包括:
在所述语义搜索图中给定一个节点v,在所述部分法律知识图谱中找到对应的节点u,计算节点v和节点u的相似度;
在所述语义搜索图中给定一个关系rel,在所述部分法律知识图谱中找到对应的关系L,计算所述关系rel与所述关系L的相似度;
通过所述节点相似度和所述关系相似度计算所述语义搜索图和所述部分法律知识图谱的相似度得分,根据所述相似度得分输出匹配子图。
作为一个可选的实施例,根据所述相似度得分对所述匹配子图进行排序,选取得分最高的预定数量个所述匹配子图作为目标子图。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于法律知识图谱的语义搜索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于法律知识图谱的语义搜索方法。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于知识图谱的语义搜索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于法律知识图谱的语义搜索方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于知识图谱的语义搜索方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于法律知识图谱的语义搜索方法,其特征在于,包括:
响应于接收到用户输入的对法律问题的描述,对所述描述进行预处理;
通过预定的关系抽取模型,从经过预处理的所述描述中提取出实体-关系-实体三元组,以构建语义搜索图;
基于预定的法律法规类型,通过预先建立的分类模型对经过预处理的所述描述进行分类,得到类别标签;
在预先基于法律知识相关文件构建的法律知识图谱中搜索到与所述类别标签对应的目标节点,并将所述法律知识图谱中以所述目标节点为根节点的部分法律知识图谱与所述语义搜索图进行子图匹配,得到一个或多个匹配子图;
输出所述一个或多个匹配子图中的至少一个目标子图作为针对所述描述的法律答案。
2.根据权利要求1所述的语义搜索方法,其特征在于,所述关系抽取模型包括CASREL模型。
3.根据权利要求1或2所述的语义搜索方法,其特征在于,所述响应于接收到用户输入的对法律问题的描述,对所述描述进行预处理,包括下列中至少一个:
通过正则表达式去除所述描述的标点符号和/或特殊符号;
通过中文分词算法WMSeg对所述描述进行分词;
将所述描述中的繁简字体进行统一化;
通过标准表达方式对所述描述进行同义词归一化;
通过Soft-Masked BERT模型对所述描述进行文本纠错处理。
4.根据权利要求1或2所述的语义搜索方法,其特征在于,所述通过预定的关系抽取模型,从经过预处理的所述描述中提取出实体-关系-实体三元组,以构建语义搜索图,包括:
基于完整的训练模型BERT对所述描述进行编码,获取所述描述中每个词的特征表示;
对所述特征表示进行解码,构建分类器预测所述实体位置,识别出所述实体对应的主语;
根据所述主语提取所有可能与所述主语对应的关系,并根据所述关系识别出相应的宾语,得到实体-关系-实体三元组。
5.根据权利要求1或2所述的语义搜索方法,其特征在于,所述基于预定的法律法规类型,通过预先建立的分类模型对经过预处理的所述描述进行分类,得到类别标签,包括:
基于预训练模型BERT对所述描述进行特征向量表示得到特征向量,将所述特征向量输入到Softmax回归模型基于法律法规类型进行分类,得到所述描述的类别标签。
6.根据权利要求1或2所述的语义搜索方法,其特征在于,所述在预先基于法律知识相关文件构建的法律知识图谱中搜索到与所述类别标签对应的目标节点,并将所述法律知识图谱中以所述目标节点为根节点的部分法律知识图谱与所述语义搜索图进行子图匹配,得到一个或多个匹配子图,包括:
在所述语义搜索图中给定一个节点v,在所述部分法律知识图谱中找到对应的节点u,计算节点v和节点u的相似度;
在所述语义搜索图中给定一个关系rel,在所述部分法律知识图谱中找到对应的关系L,计算所述关系rel与所述关系L的相似度;
通过所述节点相似度和所述关系相似度计算所述语义搜索图和所述部分法律知识图谱的相似度得分,根据所述相似度得分输出匹配子图。
7.根据权利要求6所述的语义搜索方法,其特征在于,根据所述相似度得分对所述匹配子图进行排序,选取得分最高的预定数量个所述匹配子图作为目标子图。
8.一种基于知识图谱的语义搜索装置,其特征在于,包括:
预处理模块,被配置为响应于接收到用户输入的对法律问题的描述,对所述描述进行预处理;
语义搜索图生成模块,被配置为通过预定的关系抽取模型,从经过预处理的所述描述中提取出实体-关系-实体三元组,以构建语义搜索图,基于预定的法律法规类型,通过预先建立的分类模型对经过预处理的所述描述进行分类,得到类别标签;
子图匹配模块,被配置为在预先基于法律知识相关文件构建的法律知识图谱中搜索到与所述类别标签对应的目标节点,并将所述法律知识图谱中以所述目标节点为根节点的部分法律知识图谱与所述语义搜索图进行子图匹配,得到一个或多个匹配子图;
输出模块,被配置为输出所述一个或多个匹配子图中的至少一个目标子图作为针对所述描述的法律答案。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令在被计算机执行时,使所述计算机实现根据权利要求1至7中任意一项所述的方法。
CN202011597968.9A 2020-12-29 2020-12-29 基于法律知识图谱的语义搜索方法、装置和电子设备 Active CN112632226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011597968.9A CN112632226B (zh) 2020-12-29 2020-12-29 基于法律知识图谱的语义搜索方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011597968.9A CN112632226B (zh) 2020-12-29 2020-12-29 基于法律知识图谱的语义搜索方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN112632226A true CN112632226A (zh) 2021-04-09
CN112632226B CN112632226B (zh) 2021-10-26

Family

ID=75286324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011597968.9A Active CN112632226B (zh) 2020-12-29 2020-12-29 基于法律知识图谱的语义搜索方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112632226B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326697A (zh) * 2021-05-31 2021-08-31 云南电网有限责任公司电力科学研究院 一种基于知识图谱的电力文本实体语义理解方法
CN114020885A (zh) * 2021-10-15 2022-02-08 中国石油大学(华东) 一种基于领域知识图谱和斯坦纳树的智能问答方法
CN114625917A (zh) * 2022-03-11 2022-06-14 腾讯科技(深圳)有限公司 视频搜索纠错方法、装置、设备及存储介质
CN115905577A (zh) * 2023-02-08 2023-04-04 支付宝(杭州)信息技术有限公司 知识图谱的构建方法及装置、法规检索方法和装置
WO2023101057A1 (ko) * 2021-12-02 2023-06-08 엘지전자 주식회사 무선 통신 시스템에서 시맨틱 통신을 위한 지식을 갱신하는 방법, 통신 기기, 프로세싱 장치 및 저장 매체
WO2023168659A1 (zh) * 2022-03-08 2023-09-14 深圳计算科学研究院 一种横跨图数据与关系数据的实体对识别方法及装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN108052619A (zh) * 2017-12-15 2018-05-18 北京海致星图科技有限公司 一种基于配置信息匹配及相似度提取网页信息的方法
CN108153901A (zh) * 2018-01-16 2018-06-12 北京百度网讯科技有限公司 基于知识图谱的信息推送方法和装置
US20180276284A1 (en) * 2017-03-23 2018-09-27 International Business Machines Corporation Leveraging extracted entity and relation data to automatically filter data streams
CN110765257A (zh) * 2019-12-30 2020-02-07 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统
CN110941694A (zh) * 2019-10-14 2020-03-31 珠海格力电器股份有限公司 知识图谱的搜索定位方法、系统、电子设备和存储介质
CN111143521A (zh) * 2019-10-28 2020-05-12 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质
CN111291161A (zh) * 2020-02-20 2020-06-16 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
CN111414465A (zh) * 2020-03-16 2020-07-14 北京明略软件系统有限公司 基于知识图谱的问答系统中的处理方法和装置
CN111459973A (zh) * 2020-06-16 2020-07-28 四川大学 一种基于案情三元组信息的类案检索方法及系统
CN111612658A (zh) * 2020-05-29 2020-09-01 北京华宇元典信息服务有限公司 法律数据检索的评价方法、评价装置和电子设备
CN111813916A (zh) * 2020-07-21 2020-10-23 润联软件系统(深圳)有限公司 一种智能问答方法、装置、计算机设备和介质
US20200364619A1 (en) * 2019-05-16 2020-11-19 Royal Bank Of Canada System and method for diachronic machine learning architecture

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
US20180276284A1 (en) * 2017-03-23 2018-09-27 International Business Machines Corporation Leveraging extracted entity and relation data to automatically filter data streams
CN108052619A (zh) * 2017-12-15 2018-05-18 北京海致星图科技有限公司 一种基于配置信息匹配及相似度提取网页信息的方法
CN108153901A (zh) * 2018-01-16 2018-06-12 北京百度网讯科技有限公司 基于知识图谱的信息推送方法和装置
US20200364619A1 (en) * 2019-05-16 2020-11-19 Royal Bank Of Canada System and method for diachronic machine learning architecture
CN110941694A (zh) * 2019-10-14 2020-03-31 珠海格力电器股份有限公司 知识图谱的搜索定位方法、系统、电子设备和存储介质
CN111143521A (zh) * 2019-10-28 2020-05-12 广州恒巨信息科技有限公司 基于知识图谱的法条检索方法、系统、装置及存储介质
CN110765257A (zh) * 2019-12-30 2020-02-07 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统
CN111291161A (zh) * 2020-02-20 2020-06-16 平安科技(深圳)有限公司 法律案件知识图谱查询方法、装置、设备及存储介质
CN111414465A (zh) * 2020-03-16 2020-07-14 北京明略软件系统有限公司 基于知识图谱的问答系统中的处理方法和装置
CN111612658A (zh) * 2020-05-29 2020-09-01 北京华宇元典信息服务有限公司 法律数据检索的评价方法、评价装置和电子设备
CN111459973A (zh) * 2020-06-16 2020-07-28 四川大学 一种基于案情三元组信息的类案检索方法及系统
CN111813916A (zh) * 2020-07-21 2020-10-23 润联软件系统(深圳)有限公司 一种智能问答方法、装置、计算机设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
L. MA 等: ""Answer Graph-based Interactive Attention Network for Question Answering over Knowledge Base"", 《2020 IEEE INTL CONF ON PARALLEL & DISTRIBUTED PROCESSING WITH APPLICATIONS》 *
陈金菊: ""基于道路法规知识图谱的多轮自动问答研究"", 《现代情报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326697A (zh) * 2021-05-31 2021-08-31 云南电网有限责任公司电力科学研究院 一种基于知识图谱的电力文本实体语义理解方法
CN114020885A (zh) * 2021-10-15 2022-02-08 中国石油大学(华东) 一种基于领域知识图谱和斯坦纳树的智能问答方法
WO2023101057A1 (ko) * 2021-12-02 2023-06-08 엘지전자 주식회사 무선 통신 시스템에서 시맨틱 통신을 위한 지식을 갱신하는 방법, 통신 기기, 프로세싱 장치 및 저장 매체
WO2023168659A1 (zh) * 2022-03-08 2023-09-14 深圳计算科学研究院 一种横跨图数据与关系数据的实体对识别方法及装置
CN114625917A (zh) * 2022-03-11 2022-06-14 腾讯科技(深圳)有限公司 视频搜索纠错方法、装置、设备及存储介质
CN115905577A (zh) * 2023-02-08 2023-04-04 支付宝(杭州)信息技术有限公司 知识图谱的构建方法及装置、法规检索方法和装置

Also Published As

Publication number Publication date
CN112632226B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN112632225B (zh) 基于案事件知识图谱的语义搜索方法、装置和电子设备
CN107066464B (zh) 语义自然语言向量空间
JP7193252B2 (ja) 画像の領域のキャプション付加
US11954139B2 (en) Deep document processing with self-supervised learning
CN106973244B (zh) 使用弱监督数据自动生成图像字幕的方法和系统
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
CN108959482B (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
US10796104B1 (en) Systems and methods for constructing an artificially diverse corpus of training data samples for training a contextually-biased model for a machine learning-based dialogue system
CN113297360B (zh) 基于弱监督学习和联合学习机制的法律问答方法及设备
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN110334186B (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN112632224B (zh) 基于案例知识图谱的案件推荐方法、装置和电子设备
CN112580357A (zh) 自然语言查询的语义解析
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
US20230289396A1 (en) Apparatuses and methods for linking posting data
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN113705207A (zh) 语法错误识别方法及装置
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
US20240071047A1 (en) Knowledge driven pre-trained form key mapping
CN115310547B (zh) 模型训练方法、物品识别方法及装置、电子设备、介质
CN117909505B (zh) 事件论元的抽取方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant