CN114201581A - 一种基于对比学习的长文本检索模型 - Google Patents

一种基于对比学习的长文本检索模型 Download PDF

Info

Publication number
CN114201581A
CN114201581A CN202111436178.7A CN202111436178A CN114201581A CN 114201581 A CN114201581 A CN 114201581A CN 202111436178 A CN202111436178 A CN 202111436178A CN 114201581 A CN114201581 A CN 114201581A
Authority
CN
China
Prior art keywords
long text
training
retrieval
module
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111436178.7A
Other languages
English (en)
Other versions
CN114201581B (zh
Inventor
钟泽艺
杨敏
贺倩明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Deli Technology Co ltd
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Deli Technology Co ltd, Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Deli Technology Co ltd
Priority to CN202111436178.7A priority Critical patent/CN114201581B/zh
Publication of CN114201581A publication Critical patent/CN114201581A/zh
Application granted granted Critical
Publication of CN114201581B publication Critical patent/CN114201581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于对比学习的长文本检索模型,包括法律领域预训练模块、对比学习模块以及检索模块;其中,法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对长文本编码器进行领域预训练;对比学习模块,用于从案例标注数据集中构造训练数据,以及利用训练数据对所述长文本编码器进行文本向量训练,其中,训练数据包括查询语句及其正样本、负样本;检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。通过上述方式,本申请的长文本检索模型能够有效解决深度模型处理长文本的问题,结合类案检索的特点,使用领域预训练以及对比学习方法对文档编码器进行调整,提高了检索的准确度和效率。

Description

一种基于对比学习的长文本检索模型
技术领域
本申请涉及文本检索技术领域,特别是涉及一种基于对比学习的长文本检索模型。
背景技术
用户输入一段包含案件基本事实的长文本如起诉状、上诉状以及裁判案例等,检索系统从数据库中返回与该文本在基本事实、争议焦点、法律适用问题等方面具有相似性的裁判文书,并按照相关程度进行排序返回。无论是法律相关人士如从业律师、公司法务或司法人员,还是普通民众,都对法律检索有很大的需求,其价值不言而喻。
类案检索问题面临的首要难点就是文本过长,一般检索场景中查询语句较短,而类案检索中的查询文本往往多达上千字,传统检索模型往往基于关键字进行字面匹配,虽不限制文本的长度,但对于分词准确度有较高要求,且无法处理词语之间语义相关性,而一般的深度学习模型对于输入长度有限制,随着输入长度的增加,计算的时间和空间成本急剧增加;另一方面,长文本检索面临着检索效率的瓶颈,传统检索模型在查询文本过长、数据库中候选案例数量过多的情况下,需要耗费大量时间进行计算,基于交互的深度学习模型在这种场景下将产生大量的交互计算,耗费不可承受的时间和空间资源,同样不适用。
发明内容
本申请提供了一种基于对比学习的长文本检索模型,所述长文本检索模型包括法律领域预训练模块、对比学习模块以及检索模块;其中,
所述法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对所述长文本编码器进行领域预训练;
所述对比学习模块,用于从案例标注数据集中构造训练数据,以及利用所述训练数据对所述长文本编码器进行文本向量训练,其中,所述训练数据包括查询语句及其正样本、负样本;
所述检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。
其中,所述检索模块,还用于利用所述长文本编码器将查询语句转换为查询向量,与案例库中所有案例的案例向量计算相似度,从而基于相似度得分高低返回检索排序结果。
其中,所述检索模块,还用于将数据库中的所有案例经过所述长文本编码器编码后得到对应的案例向量,并对所有案例向量进行聚类后,离线存储形成所述案例库。
其中,所述检索模块,还用于计算所述查询向量与所述案例库中的所有聚类中心的距离,获取距离最小的聚类中心对应的聚类,将该聚类中的所有案例向量按照与所述案例向量的距离大小进行排序,并以排序结果返回检索排序结果。
其中,所述法律领域预训练模块,还用于以中文预训练模型为基础构建所述长文本编码器;
其中,所述中文预训练模型事先使用大量法律无标签语料进行全词遮罩预训练。
其中,所述法律领域预训练模块,还用于将所述中文预训练模型的完全注意力机制替换为滑动窗口注意力机制和全局注意力机制。
其中,所述法律领域预训练模块,还用于将所述完全注意力机制中的查询参数、键参数以及值参数复制到所述长文本编码器的滑动窗口注意力机制和全局注意力机制中,以实现所述长文本编码器的参数初始化。
其中,所述全词遮罩预训练为:将法律语料中预设比例的词汇进行遮罩标记处理和替换词汇处理,并采用所述长文本编码器对处理后的法律语料进行编码,得到预测输出词,以所述预测输出词与法律语料的距离对所述长文本编码器进行训练。
其中,所述中文预训练模型为RoBERTa-wwm-ext模型,所述长文本编码器为Longformer模型。
其中,所述对比学习模块,还用于从所述案例标注数据集中选择查询语句,及其正样本、负样本构造三元组,其中,所述正样本为所述查询语句相关的案例,所述负样本为所述查询语句不相关的案例;
所述对比学习模块,还用于将所述三元组输入所述长文本编辑器进行编码,得到所述三元组的向量表示;基于所述查询语句的向量与所述正样本的向量构建正相似度矩阵,基于所述查询语句的向量与所述负样本的向量构建负相似度矩阵,利用所述正相似度矩阵和所述负相似度矩阵构建交叉熵损失函数对所述长文本编辑器进行训练。
本申请的有益效果是:长文本检索模型,包括法律领域预训练模块、对比学习模块以及检索模块;其中,法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对长文本编码器进行领域预训练;对比学习模块,用于从案例标注数据集中构造训练数据,以及利用训练数据对所述长文本编码器进行文本向量训练,其中,训练数据包括查询语句及其正样本、负样本;检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。通过上述方式,本申请的长文本检索模型能够有效解决深度模型处理长文本的问题,结合类案检索的特点,使用领域预训练以及对比学习方法对文档编码器进行调整,提高了检索的准确度和效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的一种基于对比学习的长文本检索模型一实施例的框架示意图;
图2是本申请提供的一种基于对比学习的长文本检索模型另一实施例的框架示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
类案检索是法律领域的一个特定检索需求,旨在根据用户提供的长文本如起诉状、裁判案例等,从数据库中检索相似案例并返回排序结果,一个好的类案检索系统可以给用户提供类似案件判决信息等有价值的法律参考,因此实现一个针对法律领域的长文本检索模型具有重要的研究价值。长文本匹配算法是法律类案检索功能的核心,传统信息检索场景中查询语句比较短,而作为查询的长文本具有更加丰富的语义信息和逻辑结构,如何学习长文本的语义表示是问题的关键所在。
针对长文本检索存在的难点,本申请提出了一种基于对比学习的长文本检索模型,采用基于表示型模型架构,将文本编码成一个固定维度向量,通过向量之间的距离衡量文本间的相关度,提高检索效率;使用面向长文本的基于稀疏自注意力机制的预训练语言模型(Longformer)作为基础文档编码器,扩展输入序列长度上限至上千字,同时降低注意力机制计算复杂度,经过法律领域预训练和对比学习的方法训练模型捕获长文本语义特征。综合来说,本申请提出的长文本检索模型兼顾检索精度和速度,可被有效应用于查询文本较长的语义检索场景当中,解决模型对输入文本长度的限制问题,并通过对比学习方法获得高质量的文档语义表达,使得长文本检索兼具较高的准确度和效率,有着广阔的应用前景。
具体请参阅图1,图1是本申请提供的一种基于对比学习的长文本检索模型一实施例的框架示意图。
具体而言,本申请提供的长文本检索模型主要包括法律领域预训练模块、对比学习模块以及检索模块,有效解决了深度模型处理长文本的问题,结合类案检索的特点,使用领域预训练以及对比学习方法对文档编码器进行调整,提高了检索的准确度和效率。
具体地,法律领域预训练模块,通过使用面向长文本的基于稀疏自注意力机制的深度模型(Longformer)作为基础编码器,以基于全词遮罩技术的中文预训练模型(RoBERTa-wwm-ext)参数为基础,扩展位置编码构建长文本编码器(Longformer)基础,使用法律文书语料进行领域预训练,提高编码器对于领域知识的适应性。
对比学习模块,由法律检索标注数据集构造正负样本三元组作为训练数据,采用基于表示的框架,每个案例文本被长文本编码器单独编码为一个向量,通过向量之间的相似度计算构建相似度矩阵,计算交叉熵损失函数进行反向传播参数更新。
检索模块,由领域预训练和对比学习训练后的长文本编码器(Longformer)作为最终的模型,将数据库中所有案例文书经该长文本编码器编码成文档向量,同时将查询文本转换成查询向量,与案例库中所有向量计算相似度,通过近似最近邻搜索按照得分高低返回检索排序结果。
请继续参阅图2,图2是本申请提供的一种基于对比学习的长文本检索模型另一实施例的框架示意图。下面结合图2的图示,对本申请提出的基于对比学习的长文本检索模型中的各个模块的内容进行详细描述。
法律领域预训练模块:
首先,以基于全词遮罩技术的预训练模型(RoBERTa-wwm-ext)为基础构造面向长文本的双向编码模型(Longformer)。
为了实现输入序列长度的增加,一方面需拓展位置编码长度,分段复制原模型512个位置编码至长度4096;另一方面需替换原模型的完全注意力机制(Full attention)为滑动窗口注意力机制(Sliding window attention)和全局注意力机制(Global attention)。其中,滑动窗口注意力机制,即每个词只与周围窗口内的词计算注意力得分,全局注意力机制,即仅在某些特殊位置与整段文本的词进行交互。通过将完全注意力机制替换为滑动窗口注意力机制和全局注意力机制可以增加注意力机制的灵活性,同时大大减少计算的复杂度,从而降低时间和空间开销。
具体地,完全注意力机制公式如下:
Figure BDA0003381847630000061
其中,Q矩阵表示Query(查询),K矩阵表示Key(键),V矩阵代表Value(值)。
本申请的法律领域预训练模块将上述完全注意力机制响应的Q矩阵参数、K矩阵参数、V矩阵参数复制至长文本编码器的滑动窗口注意力机制和全局注意力机制,从而实现整个长文本编码器的参数初始化。
需要说明的是,中文预训练模型(RoBERTa-wwm-ext)已在海量的中文语料上进行过全词遮罩训练。为了提升长文本编码器(Longformer)对法律领域知识的感知能力以及在下游任务中的性能,本申请进一步在大量法律无标签语料上进行领域预训练。
例如,可以选取约28万条法律文书,每条文书去除了首尾的无用信息,仅保留案情描述和法院认为部分,在掩码语言模型任务(MLM,Masked Language Modeling)上进行训练,即对于输入句子,对15%的词进行随机掩码(MASK)并预测,这15%词汇的输入有80%被替换为[MASK]特殊标记,10%被替换为其他词,10%保持不变。
具体做法为,一段文本的字符序列D[d1,d2,d3,...,dn],经长文本编码器(Longformer)后被转换成向量序列V[v1,v2,v3,...,vn],通过平均池化层(averagepooling)将向量序列聚合为单个向量代表整段文本,通过全连接网络(Fully ConnectedNetwork)和归一化指数函数(Softmax)预测输出词。
其中,文本向量生成公式具体如下:
[v1,v2,...,vn]=Longformer([d1,d2,...,dn])
vd=average_pooling([v1,v2,...,vn])
本申请的法律领域预训练模块使用了长文本编码器(Longformer)来编码法律文书,使得模型能够一次性输入上千字的长文本,采用稀疏注意力机制降低模型运算的复杂度和计算成本,通过平均池化层(Average Pooling)聚合编码器最后一层的信息,得到最终文档表达。进一步地,法律领域预训练模块采用了领域预训练来增强长文本编码器(Longformer)对于法律领域专业知识的感知能力,不仅能够利用大规模中文语料上学习到的通用知识,而且可通过领域预训练进一步获取法律专业知识,从而提高模型在下游任务中的表现。
对比学习模块:
为了进一步提升长文本编码器(Longformer)生成文档向量的质量,缓解其原生句子表示的各向异性,使其与下游相似度任务的数据分布更加适配,本申请提出了使用对比学习对长文本编码器进行微调。从案例标注数据集中构造训练数据,对于某查询文本,与其相关的案例为正样本而不相关的为负样本,从而每条查询与其正负样本构成一个三元组
Figure BDA0003381847630000071
对于一批训练数据,xi的正样本仅为
Figure BDA0003381847630000072
而负样本除
Figure BDA0003381847630000073
外还包含其他文本的正负样本。每条文本通过长文本编码器(Longformer)编码后经平均池化层得向量表示,经余弦相似度计算构建相似度矩阵,矩阵每一行代表xi与同批数据的所有
Figure BDA0003381847630000074
Figure BDA0003381847630000075
的相似度得分,训练目标为交叉熵:
Figure BDA0003381847630000076
其中,hi表示第i个查询文本,
Figure BDA0003381847630000077
表示第i个正样本,
Figure BDA0003381847630000078
表示第j个正样本,
Figure BDA0003381847630000079
表示第j个负样本。
本申请通过上述对比学习的训练,可以提高模型生成向量的对齐性(Alignment)以及均匀性(Uniformity),即相近实例之间有相近的特征且向量表示在空间中分布更加均匀,从而使得向量之间的相似度计算可以很好地代表文本间的相似度。
本申请的对比学习模块通过对比学习的方法对长文本编码器(Longformer)进行微调训练,使得模型更好地学习长文本信息,有效缓解向量坍缩现象,生成更高质量的向量表达,采用了对比学习框架来训练长文本编码器(Longformer),提高了生成向量的对齐性和各向同性,使得其在向量空间中分布更加均匀,从而提升了模型的语义表达能力。
检索模块:
经领域预训练和对比学习训练后的长文本编码器(Longformer)已经能较好地捕获长文本的语义并生成高质量的向量表达。为了提高检索的效率,将数据库中的所有案例经长文本编码器(Longformer)和平均池化后得到对应的文档向量,离线存储和并进行聚类,即将所有的向量划分至n个单元。
当查询来临时,对查询文本按照相同方式生成查询向量,比较查询向量与n个单元的单元中心的距离,从中选择最近的m个单元。然后,比较被选中单元中的所有向量,这种近似最近邻方法(ANNS,Approximate Nearest Neighbors Search)在检索时返回的结果并不一定是与查询向量最近的结果,即牺牲了一定的精度,但仍在可接受范围内,且将大大提高检索的效率。
本申请的检索模块采用了后交互式的向量检索框架,对数据库中的案例生成离线向量并聚类,使用近似最近邻方法进行向量匹配,在保持准确度的基础上大大提升了检索的效率。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于对比学习的长文本检索模型,其特征在于,所述长文本检索模型包括法律领域预训练模块、对比学习模块以及检索模块;其中,
所述法律领域预训练模块,用于构建基础的长文本编码器,以及使用法律文书语料对所述长文本编码器进行领域预训练;
所述对比学习模块,用于从案例标注数据集中构造训练数据,以及利用所述训练数据对所述长文本编码器进行文本向量训练,其中,所述训练数据包括查询语句及其正样本、负样本;
所述检索模块,用于采用训练好的长文本编码器检测长文本查询语句对应的案例。
2.根据权利要求1所述的长文本检索模型,其特征在于,
所述检索模块,还用于利用所述长文本编码器将查询语句转换为查询向量,与案例库中所有案例的案例向量计算相似度,从而基于相似度得分高低返回检索排序结果。
3.根据权利要求2所述的长文本检索模型,其特征在于,
所述检索模块,还用于将数据库中的所有案例经过所述长文本编码器编码后得到对应的案例向量,并对所有案例向量进行聚类后,离线存储形成所述案例库。
4.根据权利要求2或3所述的长文本检索模型,其特征在于,
所述检索模块,还用于计算所述查询向量与所述案例库中的所有聚类中心的距离,获取距离最小的聚类中心对应的聚类,将该聚类中的所有案例向量按照与所述案例向量的距离大小进行排序,并以排序结果返回检索排序结果。
5.根据权利要求1所述的长文本检索模型,其特征在于,
所述法律领域预训练模块,还用于以中文预训练模型为基础构建所述长文本编码器;
其中,所述中文预训练模型事先使用大量法律无标签语料进行全词遮罩预训练。
6.根据权利要求5所述的长文本检索模型,其特征在于,
所述法律领域预训练模块,还用于将所述中文预训练模型的完全注意力机制替换为滑动窗口注意力机制和全局注意力机制。
7.根据权利要求6所述的长文本检索模型,其特征在于,
所述法律领域预训练模块,还用于将所述完全注意力机制中的查询参数、键参数以及值参数复制到所述长文本编码器的滑动窗口注意力机制和全局注意力机制中,以实现所述长文本编码器的参数初始化。
8.根据权利要求5所述的长文本检索模型,其特征在于,
所述全词遮罩预训练为:将法律语料中预设比例的词汇进行遮罩标记处理和替换词汇处理,并采用所述长文本编码器对处理后的法律语料进行编码,得到预测输出词,以所述预测输出词与法律语料的距离对所述长文本编码器进行训练。
9.根据权利要求5所述的长文本检索模型,其特征在于,
所述中文预训练模型为RoBERTa-wwm-ext模型,所述长文本编码器为Longformer模型。
10.根据权利要求1所述的长文本检索模型,其特征在于,
所述对比学习模块,还用于从所述案例标注数据集中选择查询语句,及其正样本、负样本构造三元组,其中,所述正样本为所述查询语句相关的案例,所述负样本为所述查询语句不相关的案例;
所述对比学习模块,还用于将所述三元组输入所述长文本编辑器进行编码,得到所述三元组的向量表示;基于所述查询语句的向量与所述正样本的向量构建正相似度矩阵,基于所述查询语句的向量与所述负样本的向量构建负相似度矩阵,利用所述正相似度矩阵和所述负相似度矩阵构建交叉熵损失函数对所述长文本编辑器进行训练。
CN202111436178.7A 2021-11-29 2021-11-29 一种基于对比学习的长文本检索模型 Active CN114201581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111436178.7A CN114201581B (zh) 2021-11-29 2021-11-29 一种基于对比学习的长文本检索模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111436178.7A CN114201581B (zh) 2021-11-29 2021-11-29 一种基于对比学习的长文本检索模型

Publications (2)

Publication Number Publication Date
CN114201581A true CN114201581A (zh) 2022-03-18
CN114201581B CN114201581B (zh) 2024-06-14

Family

ID=80649615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111436178.7A Active CN114201581B (zh) 2021-11-29 2021-11-29 一种基于对比学习的长文本检索模型

Country Status (1)

Country Link
CN (1) CN114201581B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817639A (zh) * 2022-05-18 2022-07-29 山东大学 基于对比学习的网页图卷积文档排序方法及系统
CN114880452A (zh) * 2022-05-25 2022-08-09 重庆大学 一种基于多视角对比学习的文本检索方法
CN114897060A (zh) * 2022-04-25 2022-08-12 中国平安人寿保险股份有限公司 样本分类模型的训练方法和装置、样本分类方法和装置
CN114970716A (zh) * 2022-05-26 2022-08-30 支付宝(杭州)信息技术有限公司 表征模型的训练方法、装置、可读存储介质及计算设备
CN115146629A (zh) * 2022-05-10 2022-10-04 昆明理工大学 一种基于对比学习的新闻文本与评论相关性分析方法
CN115936014A (zh) * 2022-11-08 2023-04-07 上海栈略数据技术有限公司 一种医学实体对码方法、系统、计算机设备、存储介质
CN116069922A (zh) * 2023-04-06 2023-05-05 广东远景信息科技有限公司 基于检索信息进行法律法规筛选的方法及系统
CN116069903A (zh) * 2023-03-02 2023-05-05 特斯联科技集团有限公司 一种类案检索方法、系统、电子设备及存储介质
CN116680420A (zh) * 2023-08-02 2023-09-01 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置
CN117874173A (zh) * 2024-03-11 2024-04-12 腾讯科技(深圳)有限公司 一种向量模型的训练方法和相关装置
CN118013962A (zh) * 2024-04-09 2024-05-10 华东交通大学 一种基于双向序列生成的汉语篇章连接词识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012173794A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム
CN109543017A (zh) * 2018-11-21 2019-03-29 广州语义科技有限公司 法律问题关键词生成方法及其系统
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN110750635A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于联合深度学习模型的法条推荐方法
CN113312474A (zh) * 2020-02-27 2021-08-27 北京睿客邦科技有限公司 一种基于深度学习的法律文书的相似案件智能检索系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012173794A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> ランキングモデル選択機能を有する文書検索装置、ランキングモデル選択機能を有する文書検索方法およびランキングモデル選択機能を有する文書検索プログラム
CN109543017A (zh) * 2018-11-21 2019-03-29 广州语义科技有限公司 法律问题关键词生成方法及其系统
CN110275936A (zh) * 2019-05-09 2019-09-24 浙江工业大学 一种基于自编码神经网络的相似法律案例检索方法
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110750635A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于联合深度学习模型的法条推荐方法
CN113312474A (zh) * 2020-02-27 2021-08-27 北京睿客邦科技有限公司 一种基于深度学习的法律文书的相似案件智能检索系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨敏;谷俊;: "基于SVM的中文书目自动分类及应用研究", 图书情报工作, no. 09, 5 May 2012 (2012-05-05) *
田园;原野;刘海斌;满志博;毛存礼;: "基于BERT预训练语言模型的电网设备缺陷文本分类", 南京理工大学学报, no. 04, 30 August 2020 (2020-08-30) *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897060B (zh) * 2022-04-25 2024-05-03 中国平安人寿保险股份有限公司 样本分类模型的训练方法和装置、样本分类方法和装置
CN114897060A (zh) * 2022-04-25 2022-08-12 中国平安人寿保险股份有限公司 样本分类模型的训练方法和装置、样本分类方法和装置
CN115146629A (zh) * 2022-05-10 2022-10-04 昆明理工大学 一种基于对比学习的新闻文本与评论相关性分析方法
CN114817639A (zh) * 2022-05-18 2022-07-29 山东大学 基于对比学习的网页图卷积文档排序方法及系统
CN114817639B (zh) * 2022-05-18 2024-05-10 山东大学 基于对比学习的网页图卷积文档排序方法及系统
CN114880452A (zh) * 2022-05-25 2022-08-09 重庆大学 一种基于多视角对比学习的文本检索方法
CN114970716A (zh) * 2022-05-26 2022-08-30 支付宝(杭州)信息技术有限公司 表征模型的训练方法、装置、可读存储介质及计算设备
CN115936014A (zh) * 2022-11-08 2023-04-07 上海栈略数据技术有限公司 一种医学实体对码方法、系统、计算机设备、存储介质
CN116069903A (zh) * 2023-03-02 2023-05-05 特斯联科技集团有限公司 一种类案检索方法、系统、电子设备及存储介质
CN116069922A (zh) * 2023-04-06 2023-05-05 广东远景信息科技有限公司 基于检索信息进行法律法规筛选的方法及系统
CN116680420B (zh) * 2023-08-02 2023-10-13 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置
CN116680420A (zh) * 2023-08-02 2023-09-01 昆明理工大学 基于知识表示增强的低资源跨语言文本检索方法及装置
CN117874173A (zh) * 2024-03-11 2024-04-12 腾讯科技(深圳)有限公司 一种向量模型的训练方法和相关装置
CN118013962A (zh) * 2024-04-09 2024-05-10 华东交通大学 一种基于双向序列生成的汉语篇章连接词识别方法

Also Published As

Publication number Publication date
CN114201581B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN114201581B (zh) 一种基于对比学习的长文本检索模型
CN110275936B (zh) 一种基于自编码神经网络的相似法律案例检索方法
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN110941958B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN114461839B (zh) 基于多模态预训练的相似图片检索方法、装置及电子设备
CN113283236B (zh) 一种复杂中文文本中的实体消歧方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN117349311A (zh) 一种基于改进RetNet的数据库自然语言查询方法
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN116821326A (zh) 基于自注意力和相对位置编码的文本摘要生成方法及装置
CN114969343B (zh) 结合相对位置信息的弱监督文本分类方法
Sun et al. A hybrid approach to news recommendation based on knowledge graph and long short-term user preferences
CN114662659B (zh) 一种基于多阶段迁移学习策略综合的众包文本集成方法
CN116628192A (zh) 基于Seq2Seq-Attention的文本主题表示方法
CN116204643A (zh) 一种基于多任务学习知识增强的级联标签分类方法
CN111859924B (zh) 一种基于word2vec模型构建词网的方法和装置
CN113344205A (zh) 一种基于蒸馏关系的抽取加速方法及装置
CN117150305B (zh) 融合检索和填空的文本数据增强方法、装置及电子设备
He et al. An Association Rule Mining Method Based on Named Entity Recognition and Text Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant