CN113297360A - 基于弱监督学习和联合学习机制的法律问答方法及设备 - Google Patents

基于弱监督学习和联合学习机制的法律问答方法及设备 Download PDF

Info

Publication number
CN113297360A
CN113297360A CN202110474027.4A CN202110474027A CN113297360A CN 113297360 A CN113297360 A CN 113297360A CN 202110474027 A CN202110474027 A CN 202110474027A CN 113297360 A CN113297360 A CN 113297360A
Authority
CN
China
Prior art keywords
legal
label
question
answer
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110474027.4A
Other languages
English (en)
Other versions
CN113297360B (zh
Inventor
朵思惟
余梓飞
张程华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Huizhi Xingyuan Information Technology Co ltd
Original Assignee
Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Huizhi Xingyuan Information Technology Co ltd filed Critical Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority to CN202110474027.4A priority Critical patent/CN113297360B/zh
Publication of CN113297360A publication Critical patent/CN113297360A/zh
Application granted granted Critical
Publication of CN113297360B publication Critical patent/CN113297360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开提供一种基于弱监督学习和联合学习机制的法律问答方法及设备。该方法包括:获取用户输入的法律问题;利用预先构建的多标签分类模型和预设的法律标签集合,基于联合学习机制对所述法律问题进行分类,以得到所述法律问题的法律标签;从法律问答对数据库中检索出与所述法律标签相关联的候选法律问答对;输出至少一个所述候选法律问答对中的答案作为对所述法律问题的答复。本公开提供的基于弱监督学习和联合学习机制的法律问答方法及设备,针对口语化的提问方式给出了一套法律咨询的智能问答方法,改善了传统方法不能很好的识别和理解口语化法律问题并将其意图进行精准分类的缺陷。

Description

基于弱监督学习和联合学习机制的法律问答方法及设备
技术领域
本公开涉及人工智能技术领域,尤其涉及一种基于弱监督学习和联合学 习机制的法律问答方法及设备。
背景技术
随着我国经济社会的不断发展,人民群众的民主法制意识逐渐增强,法 律咨询的需求也日益增多。由于律师和专业法律从业人员的资源紧缺,很多 咨询不能得到及时准确的回复。人工智能在法律领域的应用为法律咨询市场 供需不平衡的问题提供了可行的解决方案。
法律咨询过程中,当事人大多是通过口语化的表达方式对法律问题进行 法律问题,表述中往往不包含相关的法律专业词汇。传统的方式通过将用户 咨询的问题和法律关键词词典进行匹配来分析用户问题的意图,然后将对应 问题的答案推送给用户。但由于用户提问大多偏向口语化,多数情况下并不 能将一段口语化的法律问题准确地解析为相对应的法律术语,因此在实际场 景的应用中有很大的局限性。
发明内容
有鉴于此,本公开的目的在于提出一种基于弱监督学习和联合学习机制 的法律问答方法及设备。
基于上述目的,本公开提供了一种法律问答方法,包括:
获取用户输入的法律问题;
利用预先构建的多标签分类模型和预设的法律标签集合,基于联合学习 机制对所述法律问题进行分类,以得到所述法律问题的法律标签;
从法律问答对数据库中检索出与所述法律标签相关联的候选法律问答对;
输出至少一个所述候选法律问答对中的答案作为对所述法律问题的答复,
其中,所述多标签分类模型是经过基于弱监督学习的预训练和基于强监 督学习的训练的。
进一步的,基于联合学习机制对所述法律问题进行分类以得到所述法律 问题的法律标签包括:
利用分词算法对所述法律问题进行分词处理;
利用第一BERT预训练模型分别对经过分词处理的所述法律问题和所述 法律标签集合进行嵌入,以得到所述法律问题的词向量序列和所述法律标签 集合的标签向量序列;
对于所述词向量序列中的每个词向量,分别计算该词向量与所述标签向 量序列中的各个标签向量的余弦相似度,并确定所述余弦相似度中的最大值 作为该词向量的权重系数;
基于所述词向量序列中的各个词向量的所述权重系数,得到所述法律问 题的加权向量表示;
对所述加权向量表示和所述法律标签集合应用多标签分类算法,以得到 所述法律标签集合的针对所述法律问题的得分向量;
确定所述得分向量中数值超过预设阈值的分量作为目标分量;
将所述法律标签集合中与所述目标分量对应的法律标签作为所述法律问 题的法律标签。
进一步的,输出至少一个所述候选法律问答对中的答案作为对所述法律 问题的答复包括:
对于所述候选法律问答对中的每一个候选法律问答对,通过第二BERT 预训练模型得到该候选法律问答对中的问句与所述法律问题的语义相似度;
将得到的多个所述语义相似度按从大到小的顺序排序;
选取排序后的多个所述语义相似度中的前n个语义相似度作为目标语义 相似度,其中n为预设整数;
输出所述候选法律问答对中与所述目标语义相似度对应的候选法律问答 对中的答案作为对所述法律问题的答复。
进一步的,所述基于弱监督学习的预训练包括:
对于多个未标注法律问答对中的每一个未标注法律问答对,将该未标注 法律问答对中的答案与所述法律标签集合进行正则匹配,确定与该答案匹配 的法律标签作为该未标注法律问答对中的问句的伪标签,并将该问句和该伪 标签的组合作为标注训练数据来训练所述多标签分类模型。
进一步的,将该问句和该伪标签的组合作为标注训练数据来训练所述多 标签分类模型包括:
利用所述多标签分类模型和所述法律标签集合,基于联合学习机制对所 述问句进行分类,以得到所述问句的预测标签;
计算所述伪标签与所述预测标签之间的交叉熵损失函数;
调整所述多标签分类模型的参数以最小化所述交叉熵损失函数。
进一步的,所述基于强监督学习的训练包括:
对于多个标注法律问答对中的每一个标注法律问答对,利用经过所述基 于弱监督学习的预训练的所述多标签分类模型和所述法律标签集合,基于联 合学习机制对该标注法律问答对中的问句进行分类,以得到该问句的预测标 签;
计算该问句的真实标签与所述预测标签之间的交叉熵损失函数;
调整经过所述基于弱监督学习的预训练的所述多标签分类模型的参数以 最小化所述交叉熵损失函数。
基于同一发明构思,本公开还提供了一种训练用于法律问答的多标签分 类模型的方法,包括:
通过以下操作对所述多标签分类模型进行基于弱监督学习的预训练: 对于多个未标注法律问答对中的每一个未标注法律问答对,将该未标注法律 问答对中的答案与预设的法律标签集合进行正则匹配,确定与该答案匹配的 法律标签作为该未标注法律问答对中的问句的伪标签;
利用所述多标签分类模型和所述法律标签集合,基于联合学习机制对所 述问句进行分类,以得到所述问句的预测标签;
计算所述伪标签与所述预测标签之间的交叉熵损失函数;
调整所述多标签分类模型的参数以最小化所述交叉熵损失函数;
利用标注法律问答对数据集,对经过所述基于弱监督学习的预训练的所 述多标签分类模型进行基于强监督学习的训练。
基于同一发明构思,本公开还提供了一种法律问答装置,包括:
获取模块,被配置为获取用户输入的法律问题;
多标签分类模块,被配置为利用预先构建的多标签分类模型和预设的法 律标签集合,基于联合学习机制对所述法律问题进行分类,以得到所述法律 问题的法律标签;
检索模块,被配置为从法律问答对数据库中检索出与所述法律标签相关 联的候选法律问答对;
输出模块,被配置为输出至少一个所述候选法律问答对中的答案作为对 所述法律问题的答复,
其中,所述多标签分类模型是经过基于弱监督学习的预训练和基于强监 督学习的训练的。
基于同一发明构思,本公开还提供了一种电子设备,包括存储器、处理 器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器 在执行所述计算机程序时实现如上任意一项所述的方法。
基于同一发明构思,本公开还提供了一种非暂态计算机可读存储介质, 所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计 算机执行如上任一项所述的方法。
从上面所述可以看出,本公开提供的基于弱监督学习和联合学习机制的 法律问答方法及设备,针对口语化的提问方式给出了一套法律咨询的智能问 答方法,改善了传统方法不能很好的识别和理解口语化法律问题并将其意图 进行精准分类的缺陷。应用无标注语料中法律专家的回答对模型进行弱监督 学习,解决了标注数据稀缺的问题。本公开基于联合学习机制将口语化问句 中与法律标签集合相关的词识别为关键词,并将句子精准对应到相关标签下, 更好的理解了用户的口语化表达。本公开采用弱监督学习策略对模型进行预 训练,有效降低了大量人工标注数据的人力和时间成本。通过对候选答案所 对应的问题与用户问题进行进一步的语义匹配可以给出更加精准的答案。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或 相关技术法律问题中所需要使用的附图作简单地介绍,显而易见地,下面法 律问题中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在 不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例的法律问答方法的流程示意图;
图2为本公开实施例的多标签分类的流程示意图;
图3为本公开实施例的弱监督学习的预训练和强监督学习的训练的流程 示意图;
图4为本公开实施例的法律问答装置的结构示意图;
图5为本公开实施例的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施 例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学 术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公 开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量 或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的 词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者 物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词 语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直 接的还是间接的。
以下结合附图来详细说明本公开的实施例。
参考图1,本公开提供了一种法律问答方法,包括以下几个步骤:
步骤S101、获取用户输入的法律问题。
具体的,针对用户的不同输入方式采用相应的采集方法。如果用户输入 为文本格式,则可以直接将当前输入作为用户的法律问题。如果用户输入为 语音格式,则需要采用语音识别模型KALDI将语音转换为文本格式,并将 转换后的文本作为用户的法律问题。
步骤S102、利用预先构建的多标签分类模型和预设的法律标签集合,基 于联合学习机制对所述法律问题进行分类,以得到所述法律问题的法律标签。 其中,所述多标签分类模型是经过基于弱监督学习的预训练和基于强监督学 习的训练的。
区别于传统的多标签分类模型,本实施例对标签和用户法律问题的语义 嵌入进行联合学习,考虑到了标签语义对分类结果的影响。根据所述法律问 题中不同词对于标签的注意力可以判断出口语化问句中每个词相对于给定的 法律标签集合的重要程度,根据对所述法律问题的多标签分类结果,给出口 语化法律问题的法律标签,选取法律标签集合中超过预设阈值的标签作为所 述法律问题的法律标签,最终得到的法律标签可能为1个或者多个。
具体的,对于该模型的训练,首先采用弱监督学习的思想将未标注数据 中法律专家回答中出现的法律关键词作为对应问句的伪标签,将得到的标注 数据对模型进行预训练。然后在该预训练模型的基础上,应用少量人工标注 数据对模型进行进一步的微调,提升模型的效果,最终得到对用户的法律问 题的多标签意图分类结果。
基于深度学习的模型需要大量的标注数据对模型的参数进行训练,而现 实情况中我们可以采集到大量的口语化提问和对应的法律专家的回答,但这 些问答对都是无标注的数据,也就是说每一个口语化提问都没有其对应的法 律标签标注。采用人工标注的方式对样本进行精确标注对人力和时间的成本 消耗都过大。对于现有口语化提问标注数据不足的现状,本实施例采用深度 学习中弱监督学习的思想,将未标注数据中法律专业人士回答中包含的法律 关键词作为其对应问句的伪标签,用该伪标签下标注的数据对模型的参数进 行预训练。法律专家的回答一般都是和用户问题相关的内容,回答中的法律 关键词一般都能代表用户提问的核心内容。但由于专家的回答中可能会有相 关内容的扩展,标签覆盖范围往往大于用户本身关注的问题范围,应用从专 家回答中提炼出的法律关键词做标签并不十分精确,因此为了得到用户问题 更加精准的法律标签,还需要进一步对预训练好的模型进行模型参数的微调。 模型的微调需要用到少量的人工标注样本对模型参数进行训练,微调后最终 可以得到对用户口语化提问进行法律标签分类的多标签分类模型。
步骤S103、从法律问答对数据库中检索出与所述法律标签相关联的候选 法律问答对。
具体的,基于得到的法律标签,将其对应到已构建的法律问答对数据库, 得到相应法律标签下的法律问题。所述法律问答对数据库为预先构建的,基 于现有的法律问答对形成法律问答对数据库,每一个问答对包括法律问题和 相应的法律答案。
步骤S104、输出至少一个所述候选法律问答对中的答案作为对所述法律 问题的答复。
将所述候选法律问答对进行相似度排序,选取前n个相似度较高的所述 候选法律问答对中的答案作为法律问题的答复,其中n的数值可以根据实际 情况进行调整。
在一些实施例中,基于联合学习机制对所述法律问题进行分类以得到所 述法律问题的法律标签包括:
利用分词算法对所述法律问题进行分词处理;
利用第一BERT预训练模型分别对经过分词处理的所述法律问题和所述 法律标签集合进行嵌入,以得到所述法律问题的词向量序列和所述法律标签 集合的标签向量序列;
对于所述词向量序列中的每个词向量,分别计算该词向量与所述标签向 量序列中的各个标签向量的余弦相似度,并确定所述余弦相似度中的最大值 作为该词向量的权重系数;
基于所述词向量序列中的各个词向量的所述权重系数,得到所述法律问 题的加权向量表示;
对所述加权向量表示和所述法律标签集合应用多标签分类算法,以得到 所述法律标签集合的针对所述法律问题的得分向量;
确定所述得分向量中数值超过预设阈值的分量作为目标分量;
将所述法律标签集合中与所述目标分量对应的法律标签作为所述法律问 题的法律标签。
具体的,首先使用jieba结巴分词方法将所述法律问题进行分词。然后使 用Bert-Chinese中文预训练模型对所述法律问题中的每个词进行编码嵌入, 得到所述法律问题的词向量序列X={x1,x2,…,xn},其中n为所述法律问题 中词的个数。同样使用Bert-Chinese中文预训练模型对法律标签集合进行嵌 入,得到其初始的向量序列L={l1,l2,…,lM},其中M代表法律标签集合中 标签的个数。对于一个给定的词嵌入xi,其中i={1,2,…,n},计算该词和每 个标签的余弦相似度,并取最大值:
Figure BDA0003046698540000071
其中,j={1,2,…,M},将wi作为第i个词的权重系数。将得到的权重系数使 用Softmax函数进行归一化,得到归一化的权重系数:
Figure BDA0003046698540000081
将所述法律问题用加权后的词向量重新表示为如下向量序列:
X′={α1x12x2,…,αnxn}
取加权平均得到所述法律问题的向量序列:
Figure BDA0003046698540000082
得到的所述法律问题的向量序列vr×1,其中r是向量v的维数。应用Sigmoid 函数进行多标签分类,得到法律标签集合对应的得分向量:
p=Sigmoid(Cv+b)
这里的CM×r为系数矩阵,M是标签的个数,向量bM×1是偏置项。将得分向量p 中的得分超过预设阈值的分量作为目标分量,目标分量对应的法律标签作为 所述法律问题的法律标签,预设阈值可以根据具体情况而定。
例如,参考图2,多标签分类方法如下:假设用户输入的法律问题为“姐 姐被姐夫打了,不知道要怎么处理。”,首先经过分词后,所述法律问题划分 为10个词,将经过分词的所述法律问题输入Bert预训练模型进行编码,得 到了每个词相应的词向量,同样将所述法律标签集合中的标签输入Bert预训 练模型进行编码,得到每个标签的向量序列,将所述法律问题中词的向量序 列与每一个标签的向量序列进行相似度计算,结果如图所示,“姐姐”这个词 与每一个标签对应的相似度为0.1…0.2,“被”这个词语每一个标签对应的相 似度为0.2…0.4,以此类推,将所有词对应的相似度计算完成后,将每个词 对应相似度的最大值作为该词的权重系数,也即“姐姐”的权重系数为0.2, “被”的权重系数为0.4,等等。应用Sigmoid函数进行多标签分类后,法律 标签集合中“家庭暴力”这个标签对应所述法律问题的得分最高为0.8,本实 施例中,预设阈值设为0.5,则“家庭暴力”为所述问句的法律标签。
在一些实施例中,输出至少一个所述候选法律问答对中的答案作为对所 述法律问题的答复包括:对于所述候选法律问答对中的每一个候选法律问答 对,通过第二BERT预训练模型得到该候选法律问答对中的问句与所述法律 问题的语义相似度;将得到的多个所述语义相似度按从大到小的顺序排序; 选取排序后的多个所述语义相似度中的前n个语义相似度作为目标语义相似 度,其中n为预设整数;输出所述候选法律问答对中与所述目标语义相似度 对应的候选法律问答对中的答案作为对所述法律问题的答复。
具体的,如果对应法律标签下的候选答案数量过多,我们还需要进一步 对法律问题和知识库中的候选答案对应的问句进行句意的相似度匹配,最终 选择最为匹配的答案进行输出。
对于给定的用户法律问题和候选法律问答对中的对应问句组成的句对, 在第一个句子的句首加入[CLS],在两个句子之间加入[SEP]作为分隔。将上 述句对输入第二Bert预训练模型,取得[CLS]的向量序列c作为输出,用来代 表衡量两句话相似性的特征。将该向量序列经过全连接层降维得到一个标量 s=Mc,这里矩阵M代表全连接层的线性变换。采用Sigmoid函数对得到的 数值s进行归一化处理,使得Sigmoid(s)∈(0,1),最终输出相似度结果Sim(句 子1,句子2)=Sigmoid(s)。将得到的相似度结果进行从大到小的排序,选取前n个语义相似度作为目标语义相似度,其中n为预设整数,具体数值可根 据实际情况确定。输出与目标语义相似度对应的候选法律问答对中的答案作 为所述法律问题的答复。
对于上述第二Bert预训练模型,首先将其在已标注数据集LCQMC、BQ Corpus、PAWS-X(中文)上进行预训练。其中数据集LCQMC(A Large-scale Chinese QuestionMatching Corpus)是哈尔滨工业大学从“百度知道”不同领 域的用户问题中抽取构建的数据集,其目标是判断两个问题的语义是否相同。 BQ Corpus(Bank Question Corpus)是银行金融领域的问题匹配数据。PAWS- X(Paraphrase Adversaries from Word Scrambling)是谷歌发布的多语言释义对 数据集,用来识别一对句子是否具有相同的含义。
在一些实施例中,所述基于弱监督学习的预训练包括:
对于多个未标注法律问答对中的每一个未标注法律问答对,将该未标注 法律问答对中的答案与所述法律标签集合进行正则匹配,确定与该答案匹配 的法律标签作为该未标注法律问答对中的问句的伪标签,并将该问句和该伪 标签的组合作为标注训练数据来训练所述多标签分类模型。
例如,无标签问答对数据集中法律专家对用户提问:“姐姐被姐夫打了, 不知道要怎么处理。”的回答是:“您好!这需要看您姐姐是如何考虑的。针 对您姐夫家暴,根据《婚姻法》第四十六条的规定,……,持续性、经常性 的家庭暴力,构成虐待。”可以匹配到法律标签集合中“家庭暴力”这一标签。 我们将这一标签作为该问句的伪标签,对模型进行弱监督学习。
进一步的,将该问句和该伪标签的组合作为标注训练数据来训练所述多 标签分类模型包括:利用所述多标签分类模型和所述法律标签集合,基于联 合学习机制对所述问句进行分类,以得到所述问句的预测标签;计算所述伪 标签与所述预测标签之间的交叉熵损失函数;调整所述多标签分类模型的参 数以最小化所述交叉熵损失函数。
具体的,首先使用jieba结巴分词方法将句子进行分词。然后使用Bert- Chinese中文预训练模型对句子中的每个词进行编码嵌入,得到所述问句的词 向量序列X={x1,x2,…,xn},其中n为所述问句中词的个数。同样使用Bert- Chinese中文预训练模型对法律标签集合进行嵌入,得到其初始的向量序列 L={l1,l2,…,lM},其中M代表法律标签集合中标签的个数。对于一个给定 的词嵌入xi,其中i={1,2,…,n},计算该词和每个标签的余弦相似度,并取 最大值:
Figure BDA0003046698540000101
其中,j={1,2,…,M},将wi作为第i个词的权重系数。将得到的权重系数使 用Softmax函数进行归一化,得到归一化的权重系数:
Figure BDA0003046698540000102
将所述问句用加权后的词向量重新表示为如下向量序列:
X′={α1x12x2,…,αnxn}
取加权平均得到所述问句的向量序列:
Figure BDA0003046698540000103
得到的所述问句的向量序列vr×1,其中r是向量v的维数。应用Sigmoid函数 进行多标签分类,得到法律标签集合对应的得分向量:
p=Sigmoid(Cv+b)
这里的CM×r为系数矩阵,M是标签的个数,向量bM×1是偏置项。
在模型的训练过程中,我们假设模型的训练集为
Figure BDA0003046698540000111
其中 Xi为第n个输入的所述问句,yi=[yi1,…,yiM]为对应的伪标签的独热编码向量, N为问答对的个数。其中,yij=1或0,如果第i个问句和第j个标签相关, 则yij=1,否则yij=0。设pij为句子Xi相对于第j个标签的得分。在这个模 型中,我们使用如下的交叉熵损失函数:
Figure BDA0003046698540000112
该损失函数可以视为对数据伪标签分布和预测标签分布之间距离的度量。在 模型的训练过程中,我们使用AdamW优化器在神经网络反向传播的过程中 最小化上述目标函数,对模型的参数进行优化。在本模型中,我们训练的参 数包括法律标签集合的向量序列L、所述问句的向量序列v、系数矩阵C和 偏置项b这四类。
通常的模型训练中参数的优化不包括法律标签集合的向量序列L、所述 问句的向量序列v这两个参数,但是由于本公开是基于联合学习训练方式对 模型进行训练的,在训练过程中将L和v这两个向量进行语义上的关联,使 得两个向量互相融合。
在一些实施例中,所述基于强监督学习的训练包括:
对于多个标注法律问答对中的每一个标注法律问答对,用经过所述基于 弱监督学习的预训练的所述多标签分类模型和所述法律标签集合,基于联合 学习机制对该标注法律问答对中的问句进行分类,以得到该问句的预测标签; 计算该问句的真实标签与所述预测标签之间的交叉熵损失函数;调整经过所 述基于弱监督学习的预训练的所述多标签分类模型的参数以最小化所述交叉 熵损失函数。
具体的,多个标注法律问答对是通过对多个未标注法律问答对中的部分 数据进行人工标注得到的,通过人工标注得到了问答对中的问句对应的真实 标签,基于真实标签再对模型进行训练。具体训练方式可参照上述弱监督学 习过程的训练方式,其中,伪标签替换为真实标签,这里不再赘述。
综上所述,参考图3,多标签分类模型的训练方式包括弱监督学习下的 预训练和强监督学习下的训练。预训练过程包括将未标注问答对中的专家答 案与法律标签集合中的标签进行正则匹配,获取与专家答案对应的问句伪标 签,通过模型得到问句的预测标签,基于伪标签和预测标签的结果进行损失 函数最小化,对模型参数进行调整。强监督学习下的训练过程包括将未标注 问答对中的部分数据进行人工标注,人工标注后生成问答对中问句的真实标 签。通过经过预训练的多标签分类模型得到问句的预测标签,基于真实标签 和预测标签的结果进行损失函数最小化,调整模型参数,直至模型输出精准 的法律标签为止。
在一些实施例中,本公开还提供了一种训练用于法律问答的多标签分类 模型的方法,包括:
通过以下操作对所述多标签分类模型进行基于弱监督学习的预训练:
对于多个未标注法律问答对中的每一个未标注法律问答对,将该未 标注法律问答对中的答案与预设的法律标签集合进行正则匹配,确定与 该答案匹配的法律标签作为该未标注法律问答对中的问句的伪标签;
利用所述多标签分类模型和所述法律标签集合,基于联合学习机制 对所述问句进行分类,以得到所述问句的预测标签;
计算所述伪标签与所述预测标签之间的交叉熵损失函数;
调整所述多标签分类模型的参数以最小化所述交叉熵损失函数;
利用标注法律问答对数据集,对经过所述基于弱监督学习的预训练的所 述多标签分类模型进行基于强监督学习的训练。
在一些实施例中,基于联合学习机制对所述问句进行分类,以得到所述 问句的预测标签包括:
利用分词算法对所述问句进行分词处理;
利用第三BERT预训练模型分别对经过分词处理的所述问句和所述法律 标签集合进行嵌入,以得到所述问句的词向量序列和所述法律标签集合的标 签向量序列;
对于所述词向量序列中的每个词向量,分别计算该词向量与所述标签向 量序列中的各个标签向量的余弦相似度,并确定所述余弦相似度中的最大值 作为该词向量的权重系数;
基于所述词向量序列中的各个词向量的所述权重系数,得到所述问句的 加权向量表示;
对所述加权向量表示和所述法律标签集合应用多标签分类算法,以得到 所述法律标签集合的针对所述问句的得分向量;
确定所述得分向量中数值超过预设阈值的分量作为目标分量;
将所述法律标签集合中与所述目标分量对应的法律标签作为所述问句的 预测标签。
在一些实施例中,利用标注法律问答对数据集,对经过所述基于弱监督 学习的预训练的所述多标签分类模型进行基于强监督学习的训练包括:
对于多个标注法律问答对中的每一个标注法律问答对,
利用经过所述基于弱监督学习的预训练的所述多标签分类模型和 所述法律标签集合,基于联合学习机制对该标注法律问答对中的问句进 行分类,以得到该问句的预测标签;
计算该问句的真实标签与所述预测标签之间的交叉熵损失函数;
调整经过所述基于弱监督学习的预训练的所述多标签分类模型的 参数以最小化所述交叉熵损失函数。
在一些实施例中,基于联合学习机制对该标注法律问答对中的问句进行 分类,以得到该问句的预测标签包括:
利用分词算法对所述标注法律问答对中的问句进行分词处理;
利用第三BERT预训练模型分别对经过分词处理的所述问句和所述法律 标签集合进行嵌入,以得到所述问句的词向量序列和所述法律标签集合的标 签向量序列;
对于所述词向量序列中的每个词向量,分别计算该词向量与所述标签向 量序列中的各个标签向量的余弦相似度,并确定所述余弦相似度中的最大值 作为该词向量的权重系数;
基于所述词向量序列中的各个词向量的所述权重系数,得到所述问句的 加权向量表示;
对所述加权向量表示和所述法律标签集合应用多标签分类算法,以得到 所述法律标签集合的针对所述问句的得分向量;
确定所述得分向量中数值超过预设阈值的分量作为目标分量;
将所述法律标签集合中与所述目标分量对应的法律标签作为所述问句的 预测标签。
在一些实施例中,所述多个标注法律问答对是对多个所述未标注法律问 答对的部分问答对进行人工标注而得到的。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计 算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备 相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可 以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间 会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了法律问题。其它实施 例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作 或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的 结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序 才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以 的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了 一种法律问答装置。
参考图4,所述法律问答装置,包括:
获取模块401,被配置为获取用户输入的法律问题;
多标签分类模块402,被配置为利用预先构建的多标签分类模型和预设 的法律标签集合,基于联合学习机制对所述法律问题进行分类,以得到所述 法律问题的法律标签;
检索模块403,被配置为从法律问答对数据库中检索出与所述法律标签 相关联的候选法律问答对;
输出模块404,被配置为输出至少一个所述候选法律问答对中的答案作 为对所述法律问题的答复;
其中,所述多标签分类模型是经过基于弱监督学习的预训练和基于强监 督学习的训练的。
为了法律问题的方便,法律问题以上装置时以功能分为各种模块分别法 律问题。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和 /或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于弱监督学习和 联合学习机制的法律问答方法,并且具有相应的方法实施例的有益效果,在 此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了 一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行 的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于 弱监督学习和联合学习机制的法律问答方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接 口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030 和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理 器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit, ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现 本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM (Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设 备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件 或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存 在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。 输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于 设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、 各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他 设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实 现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器 1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入 /输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该 设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员 可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的 组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于弱监督学 习和联合学习机制的法律问答方法,并且具有相应的方法实施例的有益效果, 在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了 一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算 机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于 弱监督学习和联合学习机制的法律问答方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动 媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、 数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限 于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储 器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、 电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只 读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、 磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质, 可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任 一实施例所述的基于弱监督学习和联合学习机制的法律问答方法,并且具有 相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性 的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公 开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合, 步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许 多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在 所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的 公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公 开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施 方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应 当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路) 以法律问题本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况 下实施本公开实施例。因此,这些法律问题应被认为是说明性的而不是限制 性的。
尽管已经结合了本公开的具体实施例对本公开进行了法律问题,但是根 据前面的法律问题,这些实施例的很多替换、修改和变型对本领域普通技术 人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM)) 可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的 替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任 何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种法律问答方法,包括:
获取用户输入的法律问题;
利用预先构建的多标签分类模型和预设的法律标签集合,基于联合学习机制对所述法律问题进行分类,以得到所述法律问题的法律标签;
从法律问答对数据库中检索出与所述法律标签相关联的候选法律问答对;
输出至少一个所述候选法律问答对中的答案作为对所述法律问题的答复,
其中,所述多标签分类模型是经过基于弱监督学习的预训练和基于强监督学习的训练的。
2.根据权利要求1所述的方法,其中,基于联合学习机制对所述法律问题进行分类以得到所述法律问题的法律标签包括:
利用分词算法对所述法律问题进行分词处理;
利用第一BERT预训练模型分别对经过分词处理的所述法律问题和所述法律标签集合进行嵌入,以得到所述法律问题的词向量序列和所述法律标签集合的标签向量序列;
对于所述词向量序列中的每个词向量,分别计算该词向量与所述标签向量序列中的各个标签向量的余弦相似度,并确定所述余弦相似度中的最大值作为该词向量的权重系数;
基于所述词向量序列中的各个词向量的所述权重系数,得到所述法律问题的加权向量表示;
对所述加权向量表示和所述法律标签集合应用多标签分类算法,以得到所述法律标签集合的针对所述法律问题的得分向量;
确定所述得分向量中数值超过预设阈值的分量作为目标分量;
将所述法律标签集合中与所述目标分量对应的法律标签作为所述法律问题的法律标签。
3.根据权利要求1或2所述的方法,其中,输出至少一个所述候选法律问答对中的答案作为对所述法律问题的答复包括:
对于所述候选法律问答对中的每一个候选法律问答对,通过第二BERT预训练模型得到该候选法律问答对中的问句与所述法律问题的语义相似度;
将得到的多个所述语义相似度按从大到小的顺序排序;
选取排序后的多个所述语义相似度中的前n个语义相似度作为目标语义相似度,其中n为预设整数;
输出所述候选法律问答对中与所述目标语义相似度对应的候选法律问答对中的答案作为对所述法律问题的答复。
4.根据权利要求1或2所述的方法,其中,所述基于弱监督学习的预训练包括:
对于多个未标注法律问答对中的每一个未标注法律问答对,将该未标注法律问答对中的答案与所述法律标签集合进行正则匹配,确定与该答案匹配的法律标签作为该未标注法律问答对中的问句的伪标签,并将该问句和该伪标签的组合作为标注训练数据来训练所述多标签分类模型。
5.根据权利要求4所述的方法,其中,将该问句和该伪标签的组合作为标注训练数据来训练所述多标签分类模型包括:
利用所述多标签分类模型和所述法律标签集合,基于联合学习机制对所述问句进行分类,以得到所述问句的预测标签;
计算所述伪标签与所述预测标签之间的交叉熵损失函数;
调整所述多标签分类模型的参数以最小化所述交叉熵损失函数。
6.根据权利要求1或2所述的方法,其中,所述基于强监督学习的训练包括:
对于多个标注法律问答对中的每一个标注法律问答对,
利用经过所述基于弱监督学习的预训练的所述多标签分类模型和所述法律标签集合,基于联合学习机制对该标注法律问答对中的问句进行分类,以得到该问句的预测标签;
计算该问句的真实标签与所述预测标签之间的交叉熵损失函数;
调整经过所述基于弱监督学习的预训练的所述多标签分类模型的参数以最小化所述交叉熵损失函数。
7.一种训练用于法律问答的多标签分类模型的方法,包括:
通过以下操作对所述多标签分类模型进行基于弱监督学习的预训练:
对于多个未标注法律问答对中的每一个未标注法律问答对,将该未标注法律问答对中的答案与预设的法律标签集合进行正则匹配,确定与该答案匹配的法律标签作为该未标注法律问答对中的问句的伪标签;
利用所述多标签分类模型和所述法律标签集合,基于联合学习机制对所述问句进行分类,以得到所述问句的预测标签;
计算所述伪标签与所述预测标签之间的交叉熵损失函数;
调整所述多标签分类模型的参数以最小化所述交叉熵损失函数;
利用标注法律问答对数据集,对经过所述基于弱监督学习的预训练的所述多标签分类模型进行基于强监督学习的训练。
8.一种法律问答装置,包括:
获取模块,被配置为获取用户输入的法律问题;
多标签分类模块,被配置为利用预先构建的多标签分类模型和预设的法律标签集合,基于联合学习机制对所述法律问题进行分类,以得到所述法律问题的法律标签;
检索模块,被配置为从法律问答对数据库中检索出与所述法律标签相关联的候选法律问答对;
输出模块,被配置为输出至少一个所述候选法律问答对中的答案作为对所述法律问题的答复,
其中,所述多标签分类模型是经过基于弱监督学习的预训练和基于强监督学习的训练的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现根据权利要求1至7中任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至7中任一项所述的方法。
CN202110474027.4A 2021-04-29 2021-04-29 基于弱监督学习和联合学习机制的法律问答方法及设备 Active CN113297360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110474027.4A CN113297360B (zh) 2021-04-29 2021-04-29 基于弱监督学习和联合学习机制的法律问答方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110474027.4A CN113297360B (zh) 2021-04-29 2021-04-29 基于弱监督学习和联合学习机制的法律问答方法及设备

Publications (2)

Publication Number Publication Date
CN113297360A true CN113297360A (zh) 2021-08-24
CN113297360B CN113297360B (zh) 2022-05-27

Family

ID=77320573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110474027.4A Active CN113297360B (zh) 2021-04-29 2021-04-29 基于弱监督学习和联合学习机制的法律问答方法及设备

Country Status (1)

Country Link
CN (1) CN113297360B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887643A (zh) * 2021-10-12 2022-01-04 西安交通大学 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN113918702A (zh) * 2021-10-25 2022-01-11 北京航空航天大学 一种基于语义匹配的在线法律自动问答方法及系统
CN115080749A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN117251557A (zh) * 2023-11-20 2023-12-19 中信证券股份有限公司 法规咨询语句答复方法、装置、设备和计算机可读介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190065576A1 (en) * 2017-08-23 2019-02-28 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
CN110263141A (zh) * 2019-06-25 2019-09-20 杭州微洱网络科技有限公司 一种基于bert的客服问答系统
CN110795559A (zh) * 2019-10-10 2020-02-14 上海易点时空网络有限公司 用于客服问答的数据处理方法及装置
CN110866093A (zh) * 2018-08-10 2020-03-06 珠海格力电器股份有限公司 机器问答方法及装置
CN111475656A (zh) * 2020-03-13 2020-07-31 清华大学 基于外部知识聚合的视觉问答方法及系统
CN112182217A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 多标签文本类别的识别方法、装置、设备和存储介质
CN112287089A (zh) * 2020-11-23 2021-01-29 腾讯科技(深圳)有限公司 用于自动问答系统的分类模型训练、自动问答方法及装置
CN112507095A (zh) * 2020-12-15 2021-03-16 平安国际智慧城市科技股份有限公司 基于弱监督学习的信息识别方法及相关设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190065576A1 (en) * 2017-08-23 2019-02-28 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
CN110866093A (zh) * 2018-08-10 2020-03-06 珠海格力电器股份有限公司 机器问答方法及装置
CN110263141A (zh) * 2019-06-25 2019-09-20 杭州微洱网络科技有限公司 一种基于bert的客服问答系统
CN110795559A (zh) * 2019-10-10 2020-02-14 上海易点时空网络有限公司 用于客服问答的数据处理方法及装置
CN111475656A (zh) * 2020-03-13 2020-07-31 清华大学 基于外部知识聚合的视觉问答方法及系统
CN112182217A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 多标签文本类别的识别方法、装置、设备和存储介质
CN112287089A (zh) * 2020-11-23 2021-01-29 腾讯科技(深圳)有限公司 用于自动问答系统的分类模型训练、自动问答方法及装置
CN112507095A (zh) * 2020-12-15 2021-03-16 平安国际智慧城市科技股份有限公司 基于弱监督学习的信息识别方法及相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DA LUO 等: "A BERT-based Approach with Relation-aware Attention for Knowledge Base Question Answering", 《2020 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 *
刘康 等: "基于表示学习的知识库问答研究进展与展望", 《自动化学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113887643A (zh) * 2021-10-12 2022-01-04 西安交通大学 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN113918702A (zh) * 2021-10-25 2022-01-11 北京航空航天大学 一种基于语义匹配的在线法律自动问答方法及系统
CN115080749A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN115080749B (zh) * 2022-08-16 2022-11-08 之江实验室 一种基于自监督训练的弱监督文本分类方法、系统和装置
CN117251557A (zh) * 2023-11-20 2023-12-19 中信证券股份有限公司 法规咨询语句答复方法、装置、设备和计算机可读介质
CN117251557B (zh) * 2023-11-20 2024-02-27 中信证券股份有限公司 法规咨询语句答复方法、装置、设备和计算机可读介质

Also Published As

Publication number Publication date
CN113297360B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN113297360B (zh) 基于弱监督学习和联合学习机制的法律问答方法及设备
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN110298043B (zh) 一种车辆命名实体识别方法及系统
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN111753092A (zh) 一种数据处理方法、模型训练方法、装置及电子设备
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
CN112632224B (zh) 基于案例知识图谱的案件推荐方法、装置和电子设备
CN113159187B (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN112699686A (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN114595327A (zh) 数据增强方法和装置、电子设备、存储介质
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN112463944A (zh) 一种基于多模型融合的检索式智能问答方法及装置
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN110287396A (zh) 文本匹配方法及装置
CN114969341A (zh) 一种针对餐饮行业评论的细粒度情感分析方法及装置
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN111611379A (zh) 一种文本信息分类方法、装置、设备及可读存储介质
CN115310547B (zh) 模型训练方法、物品识别方法及装置、电子设备、介质
CN117556275B (zh) 相关度模型数据处理方法、装置、计算机设备和存储介质
CN117150305B (zh) 融合检索和填空的文本数据增强方法、装置及电子设备
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant