CN112581327B - 基于知识图谱的法律推荐方法、装置和电子设备 - Google Patents
基于知识图谱的法律推荐方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112581327B CN112581327B CN202011287856.3A CN202011287856A CN112581327B CN 112581327 B CN112581327 B CN 112581327B CN 202011287856 A CN202011287856 A CN 202011287856A CN 112581327 B CN112581327 B CN 112581327B
- Authority
- CN
- China
- Prior art keywords
- description
- legal
- candidate
- knowledge
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本说明书一个或多个实施例提供一种基于知识图谱的法律推荐方法、装置和电子设备。所述方法包括:响应于接收到用户输入的对法律事件和/或问题的描述,通过预训练的深度神经网络模型对所述描述进行语义解析,提取关键要素;根据提取出的所述关键要素,在预先基于法律知识相关文件构建的法律知识图谱中进行语义图搜索,搜索出与所述关键要素相关联的法律知识候选推荐数据;输出所述法律知识候选推荐数据中的至少一个作为与所述描述相关的法律知识推荐数据。
Description
技术领域
本说明书一个或多个实施例涉及知识图谱技术领域,尤其涉及一种基于知识图谱的法律推荐方法、装置和电子设备。
背景技术
随着社会的发展,民众的法律信息诉求与社会的人工法律服务资源供需之间存在极大的不平衡,而未经筛选的互联网信息资源对于民众来说存在过量的噪音。目前存在的法律推荐系统是基于关键词匹配技术或者全文搜索技术来实现,由于中文表述多种多样,并且法律语料极其匮乏,导致现有法律推荐系统效果差,不能真正理解用户真实的问题所在,导致无法精准推荐相关法律。要想理解用户真实法律诉求精准推荐相关法律,不仅需要基于法律知识训练的语义模型对问题的真实意图进行推理,而且需要一个完善的法律知识图谱。
基于此,需要一种能够为用户高效精准推荐法律信息的法律智能推荐系统,为民众提供法律依据。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于知识图谱的法律推荐方法、装置和电子设备,以解决难以精准推荐法律的问题。
基于上述目的,本说明书一个或多个实施例提供了一种基于知识图谱的法律推荐方法,包括:
响应于接收到用户输入的对法律事件和/或问题的描述,通过预训练的深度神经网络模型对所述描述进行语义解析,提取关键要素;
根据提取出的所述关键要素,在预先基于法律知识相关文件构建的法律知识图谱中进行语义图搜索,搜索出与所述关键要素相关联的法律知识候选推荐数据;
输出所述法律知识候选推荐数据中的至少一个作为与所述描述相关的法律知识推荐数据。
基于同一发明构思,本说明书一个或多个实施例还提供了一种基于知识图谱的法律推荐装置,包括:
语义解析模块,被配置为响应于接收到用户输入的对法律事件和/或问题的描述,通过预训练的深度神经网络模型对所述描述进行语义解析,提取关键要素;
语义图搜索模块,被配置为根据提取出的所述关键要素,在预先基于法律知识相关文件构建的法律知识图谱中进行语义图搜索,搜索出与所述关键要素相关联的法律知识候选推荐数据;
输出模块,被配置为输出所述法律知识候选推荐数据中的至少一个作为与所述描述相关的法律知识推荐数据。
基于同一发明构思,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的方法。
基于统一发明构思,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令在被计算机执行时使所述计算机执行如上任一所述的方法。
从上面所述可以看出,本说明书一个或多个实施例提供的一种基于知识图谱的法律推荐方法、装置和电子设备,基于知识图谱的法律智能推荐系统采用知识图谱、自然语言处理和深度学习等领域的技术,针对咨询法律问题过程中的法律推荐全流程做出了优化方案,对用户的提问进行语义解析,并在知识图谱中通过向量匹配算法,最终准确理解用户的法律诉求,推荐相关法律信息,实际解决用户的法律问题。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的法律推荐方法的流程示意图;
图2为本说明书一个或多个实施例的语义解析操作的流程示意图;
图3为本说明书一个或多个实施例的筛选检索操作的流程示意图;
图4为本说明书一个或多个实施例的法律推荐装置的模块示意图;
图5为本说明书一个或多个实施例的电子设备的硬件结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
如背景技术部分所述,目前存在的法律推荐系统是基于关键词匹配技术或者全文搜索技术来实现,不能真正理解用户真实的问题所在,导致无法精准推荐相关法律。
有鉴于此,本说明书一个或多个实施例提供了一种基于知识图谱的法律智能推荐系统,具体的,以法律法条、法律文书、法律观点、法律图书、法律相关期刊论文等作为输入,用于对输入所述法律领域数据中的结构化数据进行本体构建,实体映射;对非结构化数据先进预处理,对其进行实体抽取、关系抽取,通过对抽取法律知识和已有结构化数据进行对齐校验,进而得到法律知识图谱。然后,以用户描述的法律事件和/或问题作为输入,通过深度神经网络算法进行语义解析,把口语化描述转化为相关专业术语,然后通过要素提取算法,提取描述中的关键信息。进一步的,在语义解析模块输出的关键要素基础上,向量化关键要素,在构建好的法律知识图谱中进行语义图搜索,搜索出相关数据。最后,根据多维搜索出的数据进行相关度排序,最终进行数据返回。
可见,本说明书一个或多个实施例的基于知识图谱的法律智能推荐系统针对咨询法律问题过程中的法律推荐全流程做出了优化方案,包括但不限于系统中的语义解析、语义图搜索等,解决了传统技术下法律推荐不够精准的缺陷。在语义解析模块采用了混合式语义提取方式,从词、短语、整句多粒度进行信息提取,提高了问题的语义理解效果。在语义图搜索模块采用子图匹配(subgraph matching)方法,充分利用法律知识图谱中现有知识关联信息,更精准关联搜索出相关法律数据。
以下,通过具体的实施例来详细说明本说明书一个或多个实施例的技术方案。
参考图1,本说明书一个实施例的基于知识图谱的案例推荐方法,包括以下步骤:
步骤S101、响应于接收到用户输入的对法律事件和/或问题的描述,通过预训练的深度神经网络模型对所述描述进行语义解析,提取关键要素。
在本步骤中,以用户对法律事件和/或问题的描述作为输入,基于深度神经网络算法进行语义解析,把口语化描述转化为相关专业术语,然后根据要素提取算法,提取关键信息。
参考图2,所述对用户输入的法律事件和/或问题的描述进行语义解析,提取关键要素,具体包括以下步骤:
步骤S201、特殊符号去除,特殊符号对语义要素提取的过程中影响比较大,通过正则表达式将特殊符号进行去除。
步骤S202、字符归一化,中文文字经历了很多次迭代修改,同一个字符可能存在不同的写法,例如:车和車、一和壹,通过字体对照表对其进行归一化。
步骤S203、同义词替换,中文文字中存在较多缩写、别称等,将用户输入的同义词替换成标准用词,为要素提取阶段提供有力支撑。
步骤S204、去口语化处理,去除用户输入语句中的语气词、问候词、叹词。
步骤S205、错误检测,错误检测的目标是识别输入句子可能存在的问题,采用序列表示(Transformer(变换器)/LSTM(长短期记忆网络))+CRF(条件随机场)的序列预测模型,对用户输入的句子进行语义理解评分排序,评分较低的句子被算法认定为是有错误的句子。
步骤S206、错误纠错,中文错误类型主要有两种:用词错误,其主要表现为音近词;用字错误,主要表现为形近字。本步骤中采用音近词、形近字、同音词作为候选词,再基于预训练的排序模型进行召回排序,选择评分最高的词作为候选对象。
步骤S207、关键词提取,具体包括以下步骤:
1)对文本进行分词和词性标注;
2)根据第一步的分词结果,抽取名词短语,作为候选关键词;
3)将第一步经过分词和词性标注得到的序列输入预训练的BERT(来自变换器的双向编码器表示)模型,得到每一个词的向量表示(token embedding);
4)通过平滑反频率(SIF)模型相应地加权得到名词短语和篇章向量表示(discourse embeddings);
下面我们具体说明如何用通过平滑反频率(SIF)模型得到篇章向量表示。
首先,篇章d的生成是一个动态随机游走过程,篇章的第k个词wk在第k步产生。假设在这个过程中篇章的主题不会有太大的变化,也就是说所有词的生成都是围绕着篇章主题cd的。所以,对于一个给定的篇章,篇章向量表示就是篇章主题cd的极大似然估计。基于Arora的两个“smooth”假设:有些在词的上下文之外的词对篇章的意义也是有影响的,而一些高频词(比如“的”)反而对篇章的主题并没有贡献。我们得到,对于给定篇章主题cd,篇章d生成的概率为:
求梯度可得:
也就是说篇章主题的极大似然估计(即篇章主题的向量表示)为:
其中超参数a=(1-α)/(αZ),一般取值范围在[10-3,10-4]。
6)根据SIFRank值的大小对候选名词短语进行排序,SIFRank的值越接近1,候选关键短语越接近文章的主题。将SIFRank值排名前N个的名词短语作为关键词。
基于上述步骤S201至S207,对用户输入的所述描述进行语义解析,完成关键要素的提取。
以法律法条、法律文书、法律观点、法律图书、法律相关期刊论文等作为输入,用于对输入所述法律领域数据中的结构化数据进行本体构建,实体映射。对非结构化数据先进预处理,对其进行实体抽取、关系抽取,通过对抽取法律知识和已有结构化数据进行对齐校验,进而得到法律知识图谱。
步骤S102、根据提取出的所述关键要素,在预先基于法律知识相关文件构建的法律知识图谱中进行语义图搜索,搜索出与所述关键要素相关联的法律知识候选推荐数据,具体包括以下步骤:
1)通过语义解析,我们从用户的提问(Query)中提取到了关键短语的向量表示φ(q)。
2)基于法律知识相关文件构建的法律知识图谱,应用TransH结合双曲几何模型做知识图谱嵌入(KGE),得到图谱中对应的某个答案的向量。
3)将用户提问(Query)空间和图谱答案(Answer)空间统一嵌入到同一个空间。将矩阵W作用在向量φ(q)和ψ(a)上,得到问题和答案在嵌入空间中的向量表示Wφ(q)和Wψ(a)。其中,W是由单词组成的实体和关系嵌入的矩阵,通过在训练集上的学习得到。给定一组由问题和正确答案配对组成的训练集,可以通过使用典型的成对排序优化来学习得到嵌入矩阵W,其判定标准为一个正确的“问题-答案”对的得分应高于错误的“问题—答案”对。
4)计算关键信息向量和备选图谱中三元组向量的评分函数:
S(q,a)=(Wφ(q))T(Wψ(a))
5)对于一个给定的用户提问q,其最佳解决方案或最相关案例为:
基于上述步骤1)至5)完成对所述关键要素在法律知识图谱中的语义图搜索。
步骤S103、输出所述法律知识候选推荐数据中的至少一个作为与所述描述相关的法律知识推荐数据,参照图3,包括对所述法律知识候选推荐数据进行筛选检索。
进一步的,所述筛选检索具体包括以下步骤:
步骤S301、深度模型排序,基于深度学习相关度神经网络模型,对结果进行相关度计算排序取topN,把最相关的作为候选集。
步骤S302、二次过滤,根据认为经验,基于候选集结果对不合理推理数据进行过滤筛选。
步骤S303、关联内容查询,基于过滤后的候选数据集,在法律知识图谱中对相关数据进行二次搜索,搜索出相关数据,相关数据包括但不限于文书、模板、案例、流程等,最后进行数据返回。
基于上述步骤S301至S303完成对法律知识候选推荐数据的排序。
当用户输入对法律事件和/或问题的描述后,通过上述步骤S101至S103,最终为用户输出法律知识推荐数据。
可见,在本实施例中,针对咨询法律问题过程中的法律推荐全流程做出了优化方案,包括但不限于系统中的语义解析、语义图搜索等,解决了传统技术下法律推荐不够精准的缺陷。语义解析采用了混合式语义提取方式,从词、短语、整句多粒度进行信息提取,提高了问题的语义理解效果。语义图搜索采用子图匹配(subgraph matching)方法,基于法律知识图谱充分利用图谱中现有知识关联信息,更精准关联搜索出相关法律数据。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的本说明书一个或多个实施例还提供了一种基于知识图谱的法律智能推荐装置。
参考图4,所述基于知识图谱的法律智能推荐装置,包括:
语义解析模块401,被配置为响应于接收到用户输入的对法律事件和/或问题的描述,通过预训练的深度神经网络模型对所述描述进行语义解析,提取关键要素;
语义图搜索模块402,被配置为根据提取出的所述关键要素,在预先基于法律知识相关文件构建的法律知识图谱中进行语义图搜索,搜索出与所述关键要素相关联的法律知识候选推荐数据;
输出模块403,被配置为输出所述法律知识候选推荐数据中的至少一个作为与所述描述相关的法律知识推荐数据。
作为一个可选的实施例,所述语义解析模块401,具体被配置为预处理、去口语化处理、智能纠错、关键词提取,包括:
对所述描述进行预处理;
对经过预处理的所述描述进行去口语化处理,以去除所述描述中的语气词、问候词和/或叹词;
通过序列预测模型和/或预训练的排序模型,对去口语化处理后的所述描述进行纠错处理;
从经过纠错处理的所述描述中提取关键词。
作为一个可选的实施例,所述对所述描述进行预处理包括下列中至少一个:
通过正则表达式从所述描述中去除特殊符号;
通过字体对照表对所述描述中的字符进行归一化;
将所述描述中的同义词替换成标准用词。
作为一个可选的实施例,所述所述通过序列预测模型和/或预训练的排序模型,对去口语化处理后的所述描述进行纠错处理,包括:
采用序列表示(变换器Transformer/长短期记忆网络LSTM)+条件随机场CRF的序列预测模型,对去口语化处理后的所述描述进行语义理解评分排序,以排除对所述描述的错误语义理解;和/或
采用所述描述中的各词的同音词、音近词和/或形近字作为候选词,基于预训练的排序模型对所述候选词进行召回排序,以排除所述描述中的错误字词。
作为一个可选的实施例,所述从经过纠错处理的所述描述中提取关键词包括:
对经过纠错处理的所述描述进行分词和词性标注,得到分词序列;
根据所述分词和词性标注的结果,从所述分词序列中抽取名词短语作为候选关键词;
将所述分词序列输入预训练的来自变换器的双向编码器表示BERT模型,得到所述分词序列中的每一个词的向量表示;
通过平滑反频率SIF模型相应地加权所述每一个词的向量表示,得到名词短语向量表示和篇章向量表示;
计算所述名词短语向量表示与所述篇章向量表示的余弦相似度,作为所述候选关键词与所述描述的主题的相似度SIFRank;
根据SIFRank值的大小对所述候选关键词进行排序,从排序后的所述候选关键词中选取所述关键词。
作为一个可选的实施例,所述输出模块403,具体被配置为,对所述法律知识候选推荐数据进行筛选检索,包括:
基于深度学习相关度神经网络模型,从所述法律知识候选推荐数据中选取最相关的法律知识候选推荐数据作为候选数据集;
根据人为经验,过滤掉所述候选数据集中的不合理数据;
基于过滤后的所述候选数据集,在所述法律知识图谱中检索出相关数据予以输出,所述相关数据包括文书、模板、案例、流程。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于知识图谱的法律推荐方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于知识图谱的法律推荐方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于知识图谱的法律推荐方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于知识图谱的法律推荐方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于知识图谱的法律推荐方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (7)
1.一种基于知识图谱的法律推荐方法,其特征在于,包括:
响应于接收到用户输入的对法律事件和/或问题的描述,对所述描述进行预处理;
对经过预处理的所述描述进行去口语化处理,以去除所述描述中的语气词、问候词和/或叹词;
通过序列预测模型和/或预训练的排序模型,对去口语化处理后的所述描述进行纠错处理;
对经过纠错处理的所述描述进行分词和词性标注,得到分词序列;
根据所述分词和词性标注的结果,从所述分词序列中抽取名词短语作为候选关键词;
将所述分词序列输入预训练的来自变换器的双向编码器表示BERT模型,得到所述分词序列中的每一个词的向量表示;
通过平滑反频率SIF模型相应地加权所述每一个词的向量表示,得到名词短语向量表示和篇章向量表示;
计算所述名词短语向量表示与所述篇章向量表示的余弦相似度,作为所述候选关键词与所述描述的主题的相似度SIFRank;
根据SIFRank值的大小对所述候选关键词进行排序,从排序后的所述候选关键词中选取所述关键词;
根据提取出的所述关键词,在预先基于法律知识相关文件构建的法律知识图谱中进行语义图搜索,搜索出与所述关键词相关联的法律知识候选推荐数据;
输出所述法律知识候选推荐数据中的至少一个作为与所述描述相关的法律知识推荐数据。
2.根据权利要求1所述的法律推荐方法,其特征在于,所述对所述描述进行预处理包括下列中至少一个:
通过正则表达式从所述描述中去除特殊符号;
通过字体对照表对所述描述中的字符进行归一化;
将所述描述中的同义词替换成标准用词。
3.根据权利要求1或2所述的法律推荐方法,其特征在于,所述通过序列预测模型和/或预训练的排序模型,对去口语化处理后的所述描述进行纠错处理,包括:
采用变换器Transformer/长短期记忆网络LSTM的序列表示+条件随机场CRF的序列预测模型,对去口语化处理后的所述描述进行语义理解评分排序,以排除对所述描述的错误语义理解;和/或
采用所述描述中的各词的同音词、音近词和/或形近字作为候选词,基于预训练的排序模型对所述候选词进行召回排序,以排除所述描述中的错误字词。
4.根据权利要求1或2中任一项所述的法律推荐方法,其特征在于,输出所述法律知识候选推荐数据中的至少一个作为与所述描述相关的法律知识推荐数据,包括:
基于深度学习相关度神经网络模型,从所述法律知识候选推荐数据中选取最相关的法律知识候选推荐数据作为候选数据集;
根据人为经验,过滤掉所述候选数据集中的不合理数据;
基于过滤后的所述候选数据集,在所述法律知识图谱中检索出相关数据予以输出,所述相关数据包括文书、模板、案例、流程。
5.一种基于知识图谱的法律智能推荐装置,其特征在于,包括:
语义解析模块,被配置为响应于接收到用户输入的对法律事件和/或问题的描述,对所述描述进行预处理;
对经过预处理的所述描述进行去口语化处理,以去除所述描述中的语气词、问候词和/或叹词;
通过序列预测模型和/或预训练的排序模型,对去口语化处理后的所述描述进行纠错处理;
对经过纠错处理的所述描述进行分词和词性标注,得到分词序列;
根据所述分词和词性标注的结果,从所述分词序列中抽取名词短语作为候选关键词;
将所述分词序列输入预训练的来自变换器的双向编码器表示BERT模型,得到所述分词序列中的每一个词的向量表示;
通过平滑反频率SIF模型相应地加权所述每一个词的向量表示,得到名词短语向量表示和篇章向量表示;
计算所述名词短语向量表示与所述篇章向量表示的余弦相似度,作为所述候选关键词与所述描述的主题的相似度SIFRank;
根据SIFRank值的大小对所述候选关键词进行排序,从排序后的所述候选关键词中选取所述关键词;
语义图搜索模块,被配置为根据提取出的所述关键词,在预先基于法律知识相关文件构建的法律知识图谱中进行语义图搜索,搜索出与所述关键词相关联的法律知识候选推荐数据;
输出模块,被配置为输出所述法律知识候选推荐数据中的至少一个作为与所述描述相关的法律知识推荐数据。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现根据权利要求1至4中任意一项所述的方法。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令在被计算机执行时使所述计算机执行根据权利要求1至4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011287856.3A CN112581327B (zh) | 2020-11-17 | 2020-11-17 | 基于知识图谱的法律推荐方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011287856.3A CN112581327B (zh) | 2020-11-17 | 2020-11-17 | 基于知识图谱的法律推荐方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112581327A CN112581327A (zh) | 2021-03-30 |
CN112581327B true CN112581327B (zh) | 2022-12-02 |
Family
ID=75122760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011287856.3A Active CN112581327B (zh) | 2020-11-17 | 2020-11-17 | 基于知识图谱的法律推荐方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112581327B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535973B (zh) * | 2021-06-07 | 2023-06-23 | 中国科学院软件研究所 | 基于知识映射的事件关系抽取、语篇关系分析方法及装置 |
CN113886555B (zh) * | 2021-12-03 | 2022-03-04 | 北京大学 | 法律咨询服务方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN109446387A (zh) * | 2018-10-09 | 2019-03-08 | 众蚁(上海)信息技术有限公司 | 一种基于人工智能的业委会智能问答系统 |
CN110348024A (zh) * | 2019-07-23 | 2019-10-18 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的智能识别系统 |
CN110377778A (zh) * | 2019-07-11 | 2019-10-25 | 北京字节跳动网络技术有限公司 | 基于标题图相关性的图排序方法、装置及电子设备 |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
CN110765257A (zh) * | 2019-12-30 | 2020-02-07 | 杭州识度科技有限公司 | 一种知识图谱驱动型的法律智能咨询系统 |
CN111475623A (zh) * | 2020-04-09 | 2020-07-31 | 北京北大软件工程股份有限公司 | 基于知识图谱的案件信息语义检索方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11222052B2 (en) * | 2011-02-22 | 2022-01-11 | Refinitiv Us Organization Llc | Machine learning-based relationship association and related discovery and |
-
2020
- 2020-11-17 CN CN202011287856.3A patent/CN112581327B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073569A (zh) * | 2017-06-21 | 2018-05-25 | 北京华宇元典信息服务有限公司 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
CN109446387A (zh) * | 2018-10-09 | 2019-03-08 | 众蚁(上海)信息技术有限公司 | 一种基于人工智能的业委会智能问答系统 |
CN110377778A (zh) * | 2019-07-11 | 2019-10-25 | 北京字节跳动网络技术有限公司 | 基于标题图相关性的图排序方法、装置及电子设备 |
CN110348024A (zh) * | 2019-07-23 | 2019-10-18 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的智能识别系统 |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
CN110765257A (zh) * | 2019-12-30 | 2020-02-07 | 杭州识度科技有限公司 | 一种知识图谱驱动型的法律智能咨询系统 |
CN111475623A (zh) * | 2020-04-09 | 2020-07-31 | 北京北大软件工程股份有限公司 | 基于知识图谱的案件信息语义检索方法及装置 |
Non-Patent Citations (1)
Title |
---|
"A simple but tough to beat baseline for sentence embeddings";Sanjeev Arora et al.;《International Conference on Learning Representations》;20171231;第1-16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112581327A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489538B (zh) | 基于人工智能的语句应答方法、装置及电子设备 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107329949B (zh) | 一种语义匹配方法和系统 | |
US11544474B2 (en) | Generation of text from structured data | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN108536807B (zh) | 一种信息处理方法及装置 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
US20220405484A1 (en) | Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof | |
CN113297360B (zh) | 基于弱监督学习和联合学习机制的法律问答方法及设备 | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
US11699034B2 (en) | Hybrid artificial intelligence system for semi-automatic patent infringement analysis | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN116881425A (zh) | 一种通用型文档问答实现方法、系统、设备及存储介质 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN112949293A (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
US11880664B2 (en) | Identifying and transforming text difficult to understand by user | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
CN115640375A (zh) | 专利文献中的技术问题抽取方法及相关设备 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 | |
Ribeiro et al. | UA. PT Bioinformatics at ImageCLEF 2019: Lifelog Moment Retrieval based on Image Annotation and Natural Language Processing. | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |