CN116108156B - 一种基于循环关联鲁棒学习的主题法条检索方法 - Google Patents
一种基于循环关联鲁棒学习的主题法条检索方法 Download PDFInfo
- Publication number
- CN116108156B CN116108156B CN202310367125.7A CN202310367125A CN116108156B CN 116108156 B CN116108156 B CN 116108156B CN 202310367125 A CN202310367125 A CN 202310367125A CN 116108156 B CN116108156 B CN 116108156B
- Authority
- CN
- China
- Prior art keywords
- topic
- legal
- french
- calculating
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 125000004122 cyclic group Chemical group 0.000 title claims description 10
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000012937 correction Methods 0.000 claims abstract description 41
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于循环关联鲁棒学习的主题法条检索方法,包括以下步骤:利用语言序列模型对主题‑法条成对训练数据进行编码,获得全局特征;构建基于全局特征的循环关联鲁棒学习范式,得到矫正标签;根据矫正标签计算训练批次的损失值,根据损失值使用反向梯度优化语言序列模型并更新模型参数,得到优化后的模型;向优化后的模型输入待检索的主题,计算与测试集中所有法条描述之间的语义相似度;根据计算的语义相似度进行相似性排序,获取法条检索结果,完成检索,本发明利用深度语言序列模型对自然语言描述的主题和法条进行嵌入并获取全局特征用于语义相似度计算,打破了主题‑法条数据间的语义鸿沟,实现跨域数据对的相似度计算。
Description
技术领域
本发明涉及跨域检索技术,具体涉及一种基于循环关联学习的主题法条检索方法。
背景技术
现有基于主题检索法条大都基于关键词、目录章节、检索规则等精准检索方法,无法通过一些自然语言描述的主题来智能化检索相应内容的法条。因此,可以将自然语言描述的主题与相应法条当作跨域数据集,并训练深度语言序列模型来构建深度检索模型,实现基于语义的主题-法条跨域检索。与传统的精准定位检索方法相比,深度跨域检索提供了主题-法条上的语义一致性检索,让检索结果在语义上更为合理,并且很容易提供大量具有强语义性的检索候选项。
在主题法条跨域检索任务中,主题-法条跨域数据集的构建成本往往是巨大的,这要求大量专业人员进行人工构建,同时也可能会由于人为疏忽引入不成对的主题-法条训练数据对,这些训练对之间的语义关联性较弱或者错误,即噪声关联。然而,现有跨域检索方法几乎都隐式要求跨域训练数据对具有强成对关联性,这些噪声关联会严重影响模型性能。为此,主题法条检索方法面临的主要问题集中在两个方面:
(1)如何有效、准确地对主题法条跨域数据集建模,准确衡量自然语言描述的主题与法条之间的语义相似度。
(2)如何减小噪声关联问题对于主题法条跨域检索模型的影响,从而实现鲁棒的语义关联学习。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于循环关联鲁棒学习的主题法条检索方法解决了现有跨域/模态检索模型训练时,数据集中噪声关联引起的语义相似度衡量不准确,进而导致检索精度下降问题。
为了达到上述发明目的,本发明采用的技术方案为:提供一种基于循环关联鲁棒学习的主题法条检索方法,包括以下步骤:
S1、利用语言序列模型对主题-法条成对训练数据进行编码,获得全局特征;
S2、构建基于全局特征的循环关联鲁棒学习范式,得到矫正标签;
S3、根据矫正标签计算训练批次的损失值,根据损失值使用反向梯度优化语言序列模型并更新模型参数,得到优化后的模型;
S4、向优化后的模型输入待检索的主题,计算与测试集中所有法条描述之间的语义相似度;
S5、根据计算的语义相似度,进行相似性排序,获取法条检索结果,完成检索。
进一步地:所述步骤S1包括以下分步骤:
S11、采用双向门控循环神经网络(Bi-GRU)作为语言序列模型,并向语言序列模型输入主题-法条成对训练数据,得到双向GRU模型,其表达式为:
其中,为输入文本序列第j个分词的嵌入向量,表示主题或者法条描述的分词,和分别为前向GRU和反向GRU的隐藏层,为前向GRU函数,为反向GRU函数,为前一时刻前向GRU的隐藏层,为前一时刻反向GRU的隐藏层;
S12、向双向GRU模型输入主题-法条成对训练文本数据获取相应的词级特征,其表达式为:
其中,MaxPooling(.)为最大池化策略。
上述进一步方案的有益效果为:利用深度语言序列模型对自然语言描述的主题和法条进行嵌入并获取全局特征用于语义相似度计算,打破了主题-法条数据间的语义鸿沟。
进一步地:所述步骤S2包括以下分步骤:
S22、计算主题匹配到法条的概率和法条匹配到主题的概率,其表达式为:
其中,为主题匹配到法条的概率,为法条匹配到主题的概率,exp为以自然常数e为底的指数函数,为一个训练批次中的法条集合,为一个训练批次中的主题集合,为温度系数;为训练批次中的第i个主题,为训练批次中的第k个主题,为训练批次中的第j个法条,为训练集中的第k个法条,k为计数参数,K为训练批次中成对训练数据总数;
S23、根据主题匹配到法条的概率和法条匹配到主题的概率计算主题-法条双向匹配的平均概率,其表达式为:
S24、使用动量矫正对双向匹配的平均概率进行关联矫正,并通过自循环细化器细化关联矫正,完成循环关联鲁棒学习范式,得到矫正标签。
进一步地:所述步骤S21中计算任意主题和法条之间的语义相似度的表达式为:
进一步地:所述步骤S24中矫正标签的计算方法为:
上述进一步方案的有益效果为:通过动量矫正,获取更为准确的成对关联矫正,避免硬性的关联划分;通过自循环细化器,细化关联矫正,并且传递矫正的关联标签作为细化过程的先验知识,避免敏感的训练转折点选择。
进一步地:所述步骤S3包括以下分步骤:
反向优化算法的表达式为:
上述进一步方案的有益效果为:使用正学习损失和负学习损失一起进行优化,在能够挖掘良好的语义关联的同时,还能缓解噪声对带来的负面影响。
本发明的有益效果为:
1、利用深度语言序列模型对自然语言描述的主题和法条进行嵌入并获取全局特征用于语义相似度计算,打破了主题-法条数据间的语义鸿沟,实现准确跨域数据对的相似度计算;
2、构建了用于主题法条检索的循环关联鲁棒学习模型,通过动量矫正,获取更为准确的成对关联矫正,避免硬性的关联划分,并结合自循环矫正器,细化了动量矫正的噪声关联,并且传递矫正的关联标签作为细化过程的先验知识,避免敏感的训练转折点选择;
3、设计了一种用于主题法条深度检索模型的鲁棒的跨模态对比损失,该损失平衡了正学习和负学习损失,有效挖掘潜在的语义相关性的同时,缓解了训练过程中噪声关联的影响,实现鲁棒的深度检索模型训练。
附图说明
图1为本发明所述的主题法条检索方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,在本发明的一个实施例中,提供了一种基于循环关联鲁棒学习的主题法条检索方法,包括以下步骤:
S1、利用语言序列模型对主题-法条成对训练数据进行编码,获得全局特征;
S2、构建基于全局特征的循环关联鲁棒学习范式,得到矫正标签;
S3、根据矫正标签计算训练批次的损失值,根据损失值使用反向梯度优化语言序列模型并更新模型参数,得到优化后的模型;
S4、向优化后的模型输入待检索的主题,计算与测试集中所有法条描述之间的语义相似度;
S5、根据计算的语义相似度,进行相似性排序,获取法条检索结果,完成检索。
在本实施例中,所述步骤S1包括以下分步骤:
S11、采用双向门控循环神经网络(Bi-GRU)作为语言序列模型,并向语言序列模型输入主题-法条成对训练数据,得到双向GRU模型,其表达式为:
其中,为输入文本序列第j个分词的嵌入向量,表示主题或者法条描述的分词,和分别为前向GRU和反向GRU的隐藏层,为前向GRU函数,为反向GRU函数,为前一时刻前向GRU的隐藏层,为前一时刻反向GRU的隐藏层;
S12、向双向GRU模型输入主题-法条成对训练文本数据获取相应的词级特征,其表达式为:
其中,MaxPooling(.)为最大池化策略。
在本实施例中,所述步骤S2包括以下分步骤:
所述步骤S21中计算任意主题和法条之间的语义相似度的表达式为:
S22、计算主题匹配到法条的概率和法条匹配到主题的概率,其表达式为:
其中,为主题匹配到法条的概率,为法条匹配到主题的概率,exp为以自然常数e为底的指数函数,为一个训练批次中的法条集合,为一个训练批次中的主题集合,为温度系数;为训练批次中的第i个主题,为训练批次中的第k个主题,为训练批次中的第j个法条,为训练集中的第k个法条,k为计数参数,K为训练批次中成对训练数据总数;
S23、根据主题匹配到法条的概率和法条匹配到主题的概率计算主题-法条双向匹配的平均概率,其表达式为:
S24、使用动量矫正对双向匹配的平均概率进行关联矫正,并通过自循环细化器细化关联矫正,完成循环关联鲁棒学习范式,得到矫正标签。
所述步骤S24中矫正标签的计算方法为:
动量矫正使得上述预测关联概率感知更大的样本场,并平滑演化,进而准确地矫正训练数据对关联;
在本实施例中,所述步骤S3包括以下分步骤:
反向优化算法的表达式为:
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
本发明提供了一种基于循环关联鲁棒学习的主题法条检索方法,利用深度语言序列模型对自然语言描述的主题和法条进行嵌入并获取全局特征用于语义相似度计算,打破了主题-法条数据间的语义鸿沟,实现准确跨域数据对的相似度计算。
Claims (4)
1.一种基于循环关联鲁棒学习的主题法条检索方法,其特征在于,包括以下步骤:
S1、利用语言序列模型对主题-法条成对训练数据进行编码,获得全局特征;
S2、构建基于全局特征的循环关联鲁棒学习范式,得到矫正标签;
所述步骤S2包括以下分步骤:
S22、计算主题匹配到法条的概率和法条匹配到主题的概率,其表达式为:
其中,p(i,j|Γ)为主题匹配到法条的概率,为法条匹配到主题的概率,exp为以自然常数e为底的指数函数,Γ为一个训练批次中的法条集合,为一个训练批次中的主题集合,τ为温度系数;Ii为训练批次中的第i个主题,Ik为训练批次中的第k个主题,Tj为训练批次中的第j个法条,Tk为训练集中的第k个法条,k为计数参数,K为训练批次中成对训练数据总数;
S23、根据主题匹配到法条的概率和法条匹配到主题的概率计算主题-法条双向匹配的平均概率,其表达式为:
S24、使用动量矫正对双向匹配的平均概率进行关联矫正,并通过自循环细化器细化关联矫正,完成循环关联鲁棒学习范式,得到矫正标签;
所述步骤S24中矫正标签的计算方法为:
S3、根据矫正标签计算训练批次的损失值,根据损失值使用反向梯度优化语言序列模型并更新模型参数,得到优化后的模型;
所述步骤S3包括以下分步骤:
反向优化算法的表达式为:
S4、向优化后的模型输入待检索的主题,计算与测试集中所有法条描述之间的语义相似度;
S5、根据计算的语义相似度,进行相似性排序,获取法条检索结果,完成检索。
2.根据权利要求1所述的基于循环关联鲁棒学习的主题法条检索方法,其特征在于,所述步骤S1包括以下分步骤:
S11、采用双向门控循环神经网络(Bi-GRU)作为语言序列模型,并向语言序列模型输入主题-法条成对训练数据,得到双向GRU模型,其表达式为:
其中,ej为输入文本序列第j个分词的嵌入向量,表示主题或者法条描述的分词,和分别为前向GRU和反向GRU的隐藏层,为前向GRU函数,为反向GRU函数,为前一时刻前向GRU的隐藏层,为前一时刻反向GRU的隐藏层;
S12、向双向GRU模型输入主题-法条成对训练文本数据获取相应的词级特征,其表达式为:
对于一段本文,表示为:{tj|j=1,...,n,tj∈Rd};
其中,tj为文本的第j个分词特征,n为文本分词的个数,Rd为维度为d的特征空间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310367125.7A CN116108156B (zh) | 2023-04-07 | 2023-04-07 | 一种基于循环关联鲁棒学习的主题法条检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310367125.7A CN116108156B (zh) | 2023-04-07 | 2023-04-07 | 一种基于循环关联鲁棒学习的主题法条检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116108156A CN116108156A (zh) | 2023-05-12 |
CN116108156B true CN116108156B (zh) | 2023-06-09 |
Family
ID=86264065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310367125.7A Active CN116108156B (zh) | 2023-04-07 | 2023-04-07 | 一种基于循环关联鲁棒学习的主题法条检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116108156B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874175B (zh) * | 2024-03-12 | 2024-06-04 | 武汉纺织大学 | 一种基于信息瓶颈的信息检索方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392644A (zh) * | 2020-10-20 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 模型训练、文本信息处理方法、系统、装置和存储介质 |
CN113806482A (zh) * | 2021-09-17 | 2021-12-17 | 中国电信集团系统集成有限责任公司 | 视频文本跨模态检索方法、装置、存储介质和设备 |
CN114090815A (zh) * | 2021-11-12 | 2022-02-25 | 海信电子科技(武汉)有限公司 | 一种图像描述模型的训练方法及训练装置 |
CN114283430A (zh) * | 2021-12-03 | 2022-04-05 | 苏州大创科技有限公司 | 跨模态图文匹配训练方法及装置、存储介质、电子设备 |
CN114936564A (zh) * | 2022-06-07 | 2022-08-23 | 上海开放大学 | 一种基于对齐变分自编码的多语言语义匹配方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3655811A4 (en) * | 2017-07-18 | 2021-04-21 | The Regents of the University of Colorado, a body corporate | METHODS AND SYSTEMS FOR CONTROLLING NONLINEAR LIGHT TRANSMISSION |
US20220108183A1 (en) * | 2020-10-01 | 2022-04-07 | Salesforce.Com, Inc. | Momentum contrastive autoencoder |
-
2023
- 2023-04-07 CN CN202310367125.7A patent/CN116108156B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392644A (zh) * | 2020-10-20 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 模型训练、文本信息处理方法、系统、装置和存储介质 |
CN113806482A (zh) * | 2021-09-17 | 2021-12-17 | 中国电信集团系统集成有限责任公司 | 视频文本跨模态检索方法、装置、存储介质和设备 |
CN114090815A (zh) * | 2021-11-12 | 2022-02-25 | 海信电子科技(武汉)有限公司 | 一种图像描述模型的训练方法及训练装置 |
CN114283430A (zh) * | 2021-12-03 | 2022-04-05 | 苏州大创科技有限公司 | 跨模态图文匹配训练方法及装置、存储介质、电子设备 |
CN114936564A (zh) * | 2022-06-07 | 2022-08-23 | 上海开放大学 | 一种基于对齐变分自编码的多语言语义匹配方法及系统 |
Non-Patent Citations (6)
Title |
---|
Momentumrnn: Integrating momentum into recurrent neural networks;Tan Nguyen 等;《Neural Information Processing Systems》;1-5 * |
Robust Dual Recurrent Neural Networks for Financial Time Series Prediction;Leman Akoglu 等;《Proceedings of the 2021 SIAM International Conference on Data Mining》;747 - 755 * |
中文文本层次多标签分类算法研究;罗玉杰 等;《现代计算机》;8-14 * |
基于Agent的人才供求信息双向多级匹配模型研究;徐廷建;《大众科技》;20-21 * |
点模式匹配算法研究;赵键;《中国博士学位论文全文数据库信息科技辑》;I138-66 * |
边缘计算中神经网络分布式优化方法研究;郭炳均;《中国优秀硕士学位论文全文数据库信息科技辑》;I136-1542 * |
Also Published As
Publication number | Publication date |
---|---|
CN116108156A (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708873B (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN110555112B (zh) | 一种基于用户正负偏好学习的兴趣点推荐方法 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN114020862B (zh) | 一种面向煤矿安全规程的检索式智能问答系统及方法 | |
CN104408153B (zh) | 一种基于多粒度主题模型的短文本哈希学习方法 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN112100529B (zh) | 搜索内容排序方法、装置、存储介质和电子设备 | |
CN104699730B (zh) | 用于识别候选答案之间的关系的方法和系统 | |
CN107798624B (zh) | 一种软件问答社区中的技术标签推荐方法 | |
CN110298042A (zh) | 基于Bilstm-crf与知识图谱影视实体识别方法 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
EP3776265A1 (en) | Intelligent question answering using machine reading comprehension | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN110647904B (zh) | 一种基于无标记数据迁移的跨模态检索方法及系统 | |
CN116134432A (zh) | 用于提供对查询的答案的系统和方法 | |
CN110674312B (zh) | 构建知识图谱方法、装置、介质及电子设备 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN104102721A (zh) | 信息推荐方法和装置 | |
Huang et al. | Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow | |
CN108897750B (zh) | 融合多元上下文信息的个性化地点推荐方法及设备 | |
CN116108156B (zh) | 一种基于循环关联鲁棒学习的主题法条检索方法 | |
CN113076432B (zh) | 文献知识脉络生成方法、装置及存储介质 | |
Wang et al. | News recommendation via multi-interest news sequence modelling | |
CN115146021A (zh) | 文本检索匹配模型的训练方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |