CN113743539A - 一种基于深度学习的表格检索方法 - Google Patents
一种基于深度学习的表格检索方法 Download PDFInfo
- Publication number
- CN113743539A CN113743539A CN202111293521.7A CN202111293521A CN113743539A CN 113743539 A CN113743539 A CN 113743539A CN 202111293521 A CN202111293521 A CN 202111293521A CN 113743539 A CN113743539 A CN 113743539A
- Authority
- CN
- China
- Prior art keywords
- information
- training
- similarity
- query statement
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 51
- 230000008569 process Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 31
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000013136 deep learning model Methods 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 abstract description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的表格检索方法。包括接收用户输入的查询语句q,加载数据库中所有表格的行、列、单元格的特征信息集合F以及数据库中所有表的背景信息C,然后开始推断过程。本发明采用了比BERT效果更好的RoBERTa预训练模型,并在原有深度学习模型基础上加入了统计特征进行特征融合,使得相似度的计算时候利用了统计层面上相似度信息,具有全面性和准确性;同时在训练的时候,采用了BM25与增加难负例训练相结合的训练方法,让训练出来的模型对于易出错样本有更强的适应能力,提升了模型精度。
Description
技术领域
本发明涉及表格检索技术领域,具体涉及一种基于深度学习的表格检索方法。
背景技术
信息技术的发展不断推动着互联网技术的变革,数据表格和知识图谱是当前结构化知识库的常用储存形式,因此,如何快速检索表格中与查询最相关的信息对于智能搜索、问答等任务有重要意义,同时提升用户工作效率,改善体验。
当前很多的表格的检索系统对表格内容信息都采用了深度学习的神经网络结构,如BiLSTM、BERT等,但未利用到针对于表格所特有的统计特征,降低表征向量的表征能力,并且对于复杂的难样本的检索效果水平还是较低。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种基于深度学习的表格检索方法。
为实现上述目的,本发明提供了一种基于深度学习的表格检索方法,包括:
步骤1、接收用户输入的查询语句q,加载数据库中所有表格T的行、列以及单元格
的语料库集合,每个特征信息是表格的一行、一列或者单元格内容组
成的列表集,1≤i≤m;同时载入数据库中所有表的背景信息,其中,
一张表格包含行、列、单元格信息特征,,n≤m,所述表格的背
景信息为,j≤k;
将所述拼接向量I当作输入,放入已经训练好的RoBERTa模型中;
进一步的,所述统计特征包括与查询语句q相同字个数、相同词个数、最大公共子字串、表中行标题是否存在和表中列标题是否存在。
进一步的,所述RoBERTa模型通过以下方式训练获得:
步骤101、对于正样本,收集用户的查询语句集合Q、每个查询语句q相匹配单张表
格的背景信息集合、与查询语句q匹配的表格特征信息以及与查询语句q相匹配表格
的信息特征,查询语句q∈Q,标注相似度分数,作为正样本Data-P;对
于负样本,在生成正样本的基础上,用BM25获得与查询语句q非正确匹配但相似程度排前5
名的表格的背景信息集合、表格特征信息和信息特征组成的负例数据样本Data-N,
标注,把Data-P和Data-N合在一起生成所有样本数据Data,并拆分成训
练集、验证集、测试集;
步骤102、对于所述训练集中的所有训练样本,执行步骤3和步骤4得到包含相似度信息的特征向量O。
进一步的,还包括:
步骤104、训练样本依次经过步骤1至5后得到相似度得分排名最高
的若干个表格,以及得到对应背景信息集合、特征信息以及信息特征,剔除计算出
的相似度分数的数据样本,得到新的负样本,并将新的负样本与所述正
样本建立新的训练集,并以新的训练集中的训练样本进行二次训练过程,然后保存二次训
练后的模型。
有益效果:本发明采用了比BERT效果更好的RoBERTa预训练模型,并在原有深度学习模型基础上加入了统计特征进行特征融合,使得相似度的计算时候利用了统计层面上相似度信息,具有全面性和准确性;同时在训练的时候,采用了BM25与增加难负例训练相结合的训练方法,让训练出来的模型对于易出错样本有更强的适应能力,提升了模型精度。
附图说明
图1是本发明实施例的基于深度学习的表格检索方法的流程示意图;
图2是本发明实施例的RoBERTa模型的训练方法流程示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,本实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明实施例提供了一种基于深度学习的表格检索方法,包括:
步骤1、接收用户输入的查询语句q,加载数据库中所有表格T的行、列以及单元格
的语料库集合 ,每个特征信息是表格的一行、一列或者单元格内容组
成的列表集,i、m均为自然数,m>3,且1≤i≤m;同时载入数据库中所有表的背景信息,其中,一张表格包含行、列、单元格信息特征,,,所述表格的背景信息(例如表格上下级标题)为,j、k也
均为自然数,j≤k。
步骤2、对于每张表格的信息特征进行统计特征提取,该统计特征包括与查询
语句q相同字个数、相同词个数、最大公共子字串、表中行标题是否存在和表中列标题是否
存在等。每个信息特征生成一个统计特征向量a,将a放入多层感知机中,计算出,具体
如下:
将拼接向量I当作输入,放入已经训练好的RoBERTa (A Robustly OptimizedBERT)模型中。RoBERTa模型是华盛顿大学Yinhan Liu在2019年提出的一种预训练遮面语言模型,它是Google提出的BERT(Bidirectional Encoder Representations fromTransformers)模型的改进版本,用更大的160G的训练文本,改进原有的静态遮面,采用随机的动态遮面减小了随机遮面可能带来的分布误差。同时取消了对下游任务没有提升的预测两句话是否连续的预训练任务,提升了整个模型的效果。
参见图2,本发明实施例的RoBERTa模型通过以下方式训练获得:
步骤101、对于正样本,收集用户的查询语句集合Q、每个查询语句q相匹配单张表
格的背景信息集合、与查询语句q匹配的表格特征信息以及与查询语句q相匹配表格
的信息特征,查询语句q∈Q,标注相似度分数,作为正样本Data-P;对
于负样本,在生成正样本的基础上,用BM25获得与查询语句q非正确匹配但相似程度排前5
名的表格的背景信息集合、表格特征信息和信息特征组成的负例数据样本Data-N,
标注,把Data-P和Data-N合在一起生成所有样本数据Data,并拆分成训
练集、验证集、测试集。
其中,、和分别为调协因子,一般情况下,可将的取值为2,的取值
为1,的取值为0.75;表示查询语句q中的词汇在特征信息列表中出现的次数;表示词汇在查询语句q中出现的次数,为表格内容的长度,为特征
信息列表中所有表格内容的平均长度;
步骤102、对于所述训练集中的所有训练样本,执行步骤3和步骤4得到包含相似度信息的特征向量O;
步骤103、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算最
后相似度得分,通过多次训练迭代(如迭代1000次),使得计算输出的相似度
得分与训练数据的标签误差减小至设定阈值范围内后,将训练好模型保存。
本发明还包括:
步骤104、训练样本依次经过步骤1至5后得到相似度得分排名最高
的若干个表格,以及得到对应背景信息集合、特征信息以及信息特征,剔除计算出
的相似度分数的数据样本,得到新的负样本,并将新的负样本与所述正
样本建立新的训练集,并以新的训练集中的训练样本进行二次训练过程,然后保存二次训
练后的模型。经过二次训练后,可大大增加模型对易错样本的判别能力。
通过本发明提供的方法,在表格检索时,通常满足查询内容的表格有行包含、列包含、单元格包含三种形式,以下通过三个问题及其对应检索出的表格进行示意:
查询问题:汽车的牌子
(a)数据表格的行中包含查询的信息
查询问题:2008北京奥运会
(b)数据表格的列中包含查询的信息
查询问题:篮球运动员姚明
(c)数据表格的单元格中包含查询的信息。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,其它未具体描述的部分,属于现有技术或公知常识。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于深度学习的表格检索方法,其特征在于,包括:
步骤1、接收用户输入的查询语句q,加载数据库中所有表格T的行、列以及单元格的语
料库集合,每个特征信息是表格的一行、一列或者单元格内容组成的
列表集,1≤i≤m;同时载入数据库中所有表的背景信息,其中,一张
表格包含行、列、单元格信息特征,,n≤m,所述表格的背景信
息为,j≤k;
将所述拼接向量I当作输入,放入已经训练好的RoBERTa模型中;
2.根据权利要求1所述的基于深度学习的表格检索方法,其特征在于,所述统计特征包括与查询语句q相同字个数、相同词个数、最大公共子字串、表中行标题是否存在和表中列标题是否存在。
3.根据权利要求1所述的基于深度学习的表格检索方法,其特征在于,所述RoBERTa模型通过以下方式训练获得:
步骤101、对于正样本,收集用户的查询语句集合Q、每个查询语句q相匹配单张表格的
背景信息集合、与查询语句q匹配的表格特征信息以及与查询语句q相匹配表格的信
息特征,查询语句q∈Q,标注相似度分数,作为正样本Data-P;对于负
样本,在生成正样本的基础上,用BM25获得与查询语句q非正确匹配但相似程度排前5名的
表格的背景信息集合、表格特征信息和信息特征组成的负例数据样本Data-N,标注,把Data-P和Data-N合在一起生成所有样本数据Data,并拆分成训练
集、验证集、测试集;
步骤102、对于所述训练集中的所有训练样本,执行步骤3和步骤4得到包含相似度信息的特征向量O;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293521.7A CN113743539B (zh) | 2021-11-03 | 2021-11-03 | 一种基于深度学习的表格检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111293521.7A CN113743539B (zh) | 2021-11-03 | 2021-11-03 | 一种基于深度学习的表格检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743539A true CN113743539A (zh) | 2021-12-03 |
CN113743539B CN113743539B (zh) | 2022-02-08 |
Family
ID=78727239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111293521.7A Active CN113743539B (zh) | 2021-11-03 | 2021-11-03 | 一种基于深度学习的表格检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743539B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252183A (zh) * | 2023-10-07 | 2023-12-19 | 之江实验室 | 一种基于语义的多源表格自动匹配方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015064856A (ja) * | 2013-08-30 | 2015-04-09 | 株式会社日立ソリューションズ | データ分析プログラム、データ分析方法及びデータ分析装置 |
CN111522839A (zh) * | 2020-04-25 | 2020-08-11 | 华中科技大学 | 一种基于深度学习的自然语言查询方法 |
CN111858852A (zh) * | 2020-07-07 | 2020-10-30 | 国网福建省电力有限公司 | 一种基于数据相似性的全防误点表校核方法 |
CN113536797A (zh) * | 2021-07-16 | 2021-10-22 | 北京易道博识科技有限公司 | 一种切片文档关键信息单模型抽取方法及系统 |
-
2021
- 2021-11-03 CN CN202111293521.7A patent/CN113743539B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015064856A (ja) * | 2013-08-30 | 2015-04-09 | 株式会社日立ソリューションズ | データ分析プログラム、データ分析方法及びデータ分析装置 |
CN111522839A (zh) * | 2020-04-25 | 2020-08-11 | 华中科技大学 | 一种基于深度学习的自然语言查询方法 |
CN111858852A (zh) * | 2020-07-07 | 2020-10-30 | 国网福建省电力有限公司 | 一种基于数据相似性的全防误点表校核方法 |
CN113536797A (zh) * | 2021-07-16 | 2021-10-22 | 北京易道博识科技有限公司 | 一种切片文档关键信息单模型抽取方法及系统 |
Non-Patent Citations (1)
Title |
---|
赵姝颖: "基于RoBerta的立场检测与趋势预测模型设计", 《应用科技》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252183A (zh) * | 2023-10-07 | 2023-12-19 | 之江实验室 | 一种基于语义的多源表格自动匹配方法、装置及存储介质 |
CN117252183B (zh) * | 2023-10-07 | 2024-04-02 | 之江实验室 | 一种基于语义的多源表格自动匹配方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113743539B (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271505B (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN107993724B (zh) | 一种医学智能问答数据处理的方法及装置 | |
CN109635083B (zh) | 一种用于搜索ted演讲中话题式查询的文档检索方法 | |
CN110502621A (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN109829104A (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN103927358A (zh) | 文本检索方法及系统 | |
CN107832295B (zh) | 阅读机器人的标题选择方法及系统 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
CN111125295B (zh) | 一种基于lstm的获取食品安全问题答案的方法及系统 | |
CN113377897A (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN115795018B (zh) | 一种面向电网领域的多策略智能搜索问答方法及系统 | |
CN114756663A (zh) | 一种智能问答方法、系统、设备及计算机可读存储介质 | |
CN112328773A (zh) | 基于知识图谱的问答实现方法和系统 | |
CN113743539B (zh) | 一种基于深度学习的表格检索方法 | |
CN114443846B (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
Alshammari et al. | TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM | |
CN115905487A (zh) | 文档问答方法、系统、电子设备及存储介质 | |
CN114328823A (zh) | 数据库自然语言查询方法及装置、电子设备、存储介质 | |
CN110750632B (zh) | 一种改进的中文alice智能问答方法及系统 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN116501835A (zh) | 用于非知识密集型任务的检索增强方法和装置 | |
CN116628146A (zh) | 一种金融领域的faq智能问答方法及系统 | |
CN112507097B (zh) | 一种提高问答系统泛化能力的方法 | |
CN115186073A (zh) | 一种基于混合检索的开放域表格文本问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |