CN113743539A - 一种基于深度学习的表格检索方法 - Google Patents

一种基于深度学习的表格检索方法 Download PDF

Info

Publication number
CN113743539A
CN113743539A CN202111293521.7A CN202111293521A CN113743539A CN 113743539 A CN113743539 A CN 113743539A CN 202111293521 A CN202111293521 A CN 202111293521A CN 113743539 A CN113743539 A CN 113743539A
Authority
CN
China
Prior art keywords
information
training
similarity
query statement
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111293521.7A
Other languages
English (en)
Other versions
CN113743539B (zh
Inventor
杜振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yunwen Network Technology Co ltd
Original Assignee
Nanjing Yunwen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunwen Network Technology Co ltd filed Critical Nanjing Yunwen Network Technology Co ltd
Priority to CN202111293521.7A priority Critical patent/CN113743539B/zh
Publication of CN113743539A publication Critical patent/CN113743539A/zh
Application granted granted Critical
Publication of CN113743539B publication Critical patent/CN113743539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的表格检索方法。包括接收用户输入的查询语句q,加载数据库中所有表格的行、列、单元格的特征信息集合F以及数据库中所有表的背景信息C,然后开始推断过程。本发明采用了比BERT效果更好的RoBERTa预训练模型,并在原有深度学习模型基础上加入了统计特征进行特征融合,使得相似度的计算时候利用了统计层面上相似度信息,具有全面性和准确性;同时在训练的时候,采用了BM25与增加难负例训练相结合的训练方法,让训练出来的模型对于易出错样本有更强的适应能力,提升了模型精度。

Description

一种基于深度学习的表格检索方法
技术领域
本发明涉及表格检索技术领域,具体涉及一种基于深度学习的表格检索方法。
背景技术
信息技术的发展不断推动着互联网技术的变革,数据表格和知识图谱是当前结构化知识库的常用储存形式,因此,如何快速检索表格中与查询最相关的信息对于智能搜索、问答等任务有重要意义,同时提升用户工作效率,改善体验。
当前很多的表格的检索系统对表格内容信息都采用了深度学习的神经网络结构,如BiLSTM、BERT等,但未利用到针对于表格所特有的统计特征,降低表征向量的表征能力,并且对于复杂的难样本的检索效果水平还是较低。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种基于深度学习的表格检索方法。
为实现上述目的,本发明提供了一种基于深度学习的表格检索方法,包括:
步骤1、接收用户输入的查询语句q,加载数据库中所有表格T的行、列以及单元格 的语料库集合
Figure DEST_PATH_IMAGE001
,每个特征信息
Figure 792473DEST_PATH_IMAGE002
是表格的一行、一列或者单元格内容组 成的列表集,1≤i≤m;同时载入数据库中所有表的背景信息
Figure DEST_PATH_IMAGE003
,其中, 一张表格
Figure 467168DEST_PATH_IMAGE004
包含行、列、单元格信息特征
Figure DEST_PATH_IMAGE005
Figure 426771DEST_PATH_IMAGE006
,n≤m,所述表格
Figure 325457DEST_PATH_IMAGE004
的背 景信息为
Figure DEST_PATH_IMAGE007
,j≤k;
步骤2、对于每张表格
Figure 442449DEST_PATH_IMAGE004
的信息特征
Figure 451993DEST_PATH_IMAGE008
进行统计特征提取,每个信息特征
Figure DEST_PATH_IMAGE009
生成一 个统计特征向量a,将a放入多层感知机中,计算出
Figure 829885DEST_PATH_IMAGE010
,具体如下:
Figure DEST_PATH_IMAGE011
其中,
Figure 335690DEST_PATH_IMAGE012
为多层感知机的参数,
Figure DEST_PATH_IMAGE013
为偏置参数;
步骤3、将用户查询语句q、表格
Figure 2295DEST_PATH_IMAGE004
的背景信息集合
Figure 549951DEST_PATH_IMAGE007
和单个特征信息
Figure 313507DEST_PATH_IMAGE002
连接,并用[SEP]间隔开形成拼接向量I,所述拼接向量I的格式如下:
Figure 288417DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
是拼接向量I起始占位符;
将所述拼接向量I当作输入,放入已经训练好的RoBERTa模型中;
步骤4、取RoBERTa模型最后一层输出的[CLS]向量
Figure 176738DEST_PATH_IMAGE016
与感知机输出
Figure 324823DEST_PATH_IMAGE017
拼接成包 含相似度信息的特征向量O,具体如下:
Figure DEST_PATH_IMAGE018
步骤5、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算相似 度得分
Figure 113525DEST_PATH_IMAGE019
,具体如下:
Figure DEST_PATH_IMAGE020
其中,
Figure 993756DEST_PATH_IMAGE021
,R为常数,d为
Figure DEST_PATH_IMAGE022
的维度,h为RoBERTa隐含层的维度;
以相似度得分
Figure 369374DEST_PATH_IMAGE023
排名最高的若干个表格
Figure 258833DEST_PATH_IMAGE004
作为检索结果输出。
进一步的,所述统计特征包括与查询语句q相同字个数、相同词个数、最大公共子字串、表中行标题是否存在和表中列标题是否存在。
进一步的,所述RoBERTa模型通过以下方式训练获得:
步骤101、对于正样本,收集用户的查询语句集合Q、每个查询语句q相匹配单张表 格的背景信息集合
Figure DEST_PATH_IMAGE024
、与查询语句q匹配的表格特征信息
Figure 370883DEST_PATH_IMAGE002
以及与查询语句q相匹配表格
Figure 484332DEST_PATH_IMAGE004
的信息特征
Figure 878405DEST_PATH_IMAGE025
,查询语句q∈Q,标注相似度分数
Figure DEST_PATH_IMAGE026
,作为正样本Data-P;对 于负样本,在生成正样本的基础上,用BM25获得与查询语句q非正确匹配但相似程度排前5 名的表格
Figure 40396DEST_PATH_IMAGE004
的背景信息集合
Figure 570734DEST_PATH_IMAGE027
、表格特征信息
Figure 323927DEST_PATH_IMAGE002
和信息特征
Figure DEST_PATH_IMAGE028
组成的负例数据样本Data-N, 标注
Figure 470874DEST_PATH_IMAGE029
,把Data-P和Data-N合在一起生成所有样本数据Data,并拆分成训 练集、验证集、测试集;
采用BM25算法计算语料库集合F中的每一个特征信息
Figure 702135DEST_PATH_IMAGE002
与查询语句q的相似程度
Figure DEST_PATH_IMAGE030
,并根据相似程度
Figure 319936DEST_PATH_IMAGE031
进行排序,以从语料库集合F中找出与查询语 句q最相似的若干个知识内容,所述相似程度
Figure 244030DEST_PATH_IMAGE032
的计算方式如下:
Figure DEST_PATH_IMAGE033
其中,
Figure 815957DEST_PATH_IMAGE034
为表格内容,其为特征信息
Figure 850909DEST_PATH_IMAGE002
列表中的一个元素,
Figure DEST_PATH_IMAGE035
为查询语句q中词的 个数,e为词在查询语句q中的排列序号,
Figure 824681DEST_PATH_IMAGE036
为查询语句q中第e个词,
Figure DEST_PATH_IMAGE037
为第e个词的权重, 其计算方式如下:
Figure 152632DEST_PATH_IMAGE038
其中,N表示特征信息
Figure 743013DEST_PATH_IMAGE002
列表中的所有元素的个数,
Figure DEST_PATH_IMAGE039
表示特征信息
Figure 784919DEST_PATH_IMAGE002
列表中包含 词汇
Figure 206673DEST_PATH_IMAGE036
的元素的个数;
Figure 472569DEST_PATH_IMAGE040
为第e个词与表格内容
Figure 550246DEST_PATH_IMAGE041
的相关性分数,其计算方式如下:
Figure 192580DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
其中,
Figure 373901DEST_PATH_IMAGE044
Figure 810698DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE046
分别为调协因子,
Figure 110092DEST_PATH_IMAGE047
表示查询语句q中的词汇
Figure 24959DEST_PATH_IMAGE036
在特征信息
Figure 624567DEST_PATH_IMAGE002
列表中出现的次数;
Figure 966687DEST_PATH_IMAGE048
表示词汇
Figure 517492DEST_PATH_IMAGE036
在查询语句q中出现的次数,
Figure 236049DEST_PATH_IMAGE049
为表格内容
Figure 690164DEST_PATH_IMAGE041
的长 度,
Figure DEST_PATH_IMAGE050
为特征信息
Figure 734344DEST_PATH_IMAGE002
列表中所有表格内容
Figure 273909DEST_PATH_IMAGE034
的平均长度。
步骤102、对于所述训练集中的所有训练样本,执行步骤3和步骤4得到包含相似度信息的特征向量O。
步骤103、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算最 后相似度得分
Figure 796158DEST_PATH_IMAGE051
,通过多次训练迭代,使得计算输出的相似度得分
Figure 839200DEST_PATH_IMAGE051
与训练数据的标签误差减小至设定阈值范围内后,将训练好模型保存。
进一步的,还包括:
步骤104、训练样本依次经过步骤1至5后得到相似度得分
Figure 788701DEST_PATH_IMAGE051
排名最高 的若干个表格
Figure DEST_PATH_IMAGE052
,以及得到对应背景信息集合
Figure 314098DEST_PATH_IMAGE027
、特征信息
Figure 640038DEST_PATH_IMAGE002
以及信息特征
Figure 803166DEST_PATH_IMAGE008
,剔除计算出 的相似度分数
Figure 923568DEST_PATH_IMAGE053
的数据样本,得到新的负样本,并将新的负样本与所述正 样本建立新的训练集,并以新的训练集中的训练样本进行二次训练过程,然后保存二次训 练后的模型。
5、根据权利要求3所述的基于深度学习的表格检索方法,其特征在于,所述
Figure 172147DEST_PATH_IMAGE054
的 取值为2,所述
Figure 36198DEST_PATH_IMAGE055
的取值为1,所述
Figure DEST_PATH_IMAGE056
的取值为0.75。
有益效果:本发明采用了比BERT效果更好的RoBERTa预训练模型,并在原有深度学习模型基础上加入了统计特征进行特征融合,使得相似度的计算时候利用了统计层面上相似度信息,具有全面性和准确性;同时在训练的时候,采用了BM25与增加难负例训练相结合的训练方法,让训练出来的模型对于易出错样本有更强的适应能力,提升了模型精度。
附图说明
图1是本发明实施例的基于深度学习的表格检索方法的流程示意图;
图2是本发明实施例的RoBERTa模型的训练方法流程示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,本实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1所示,本发明实施例提供了一种基于深度学习的表格检索方法,包括:
步骤1、接收用户输入的查询语句q,加载数据库中所有表格T的行、列以及单元格 的语料库集合
Figure 788253DEST_PATH_IMAGE057
,每个特征信息
Figure 843672DEST_PATH_IMAGE002
是表格的一行、一列或者单元格内容组 成的列表集,i、m均为自然数,m>3,且1≤i≤m;同时载入数据库中所有表的背景信息
Figure DEST_PATH_IMAGE058
,其中,一张表格
Figure 782809DEST_PATH_IMAGE052
包含行、列、单元格信息特征
Figure 184971DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
Figure 791533DEST_PATH_IMAGE061
,所述表格
Figure 519318DEST_PATH_IMAGE052
的背景信息(例如表格上下级标题)为
Figure DEST_PATH_IMAGE062
,j、k也 均为自然数,j≤k。
步骤2、对于每张表格
Figure 742489DEST_PATH_IMAGE004
的信息特征
Figure 712456DEST_PATH_IMAGE063
进行统计特征提取,该统计特征包括与查询 语句q相同字个数、相同词个数、最大公共子字串、表中行标题是否存在和表中列标题是否 存在等。每个信息特征
Figure 704683DEST_PATH_IMAGE025
生成一个统计特征向量a,将a放入多层感知机中,计算出
Figure DEST_PATH_IMAGE064
,具体 如下:
Figure 541052DEST_PATH_IMAGE065
其中,
Figure DEST_PATH_IMAGE066
为多层感知机的参数,可通过训练获得,
Figure 720361DEST_PATH_IMAGE013
为偏置参数。
步骤3、将用户查询语句q、表格
Figure 729905DEST_PATH_IMAGE052
的背景信息集合
Figure 373376DEST_PATH_IMAGE067
和单个特征信息
Figure 442963DEST_PATH_IMAGE002
连接,并用[SEP]间隔开形成拼接向量I,所述拼接向量I的格式如下:
Figure 873682DEST_PATH_IMAGE014
其中,
Figure 686918DEST_PATH_IMAGE015
是拼接向量I起始占位符;
将拼接向量I当作输入,放入已经训练好的RoBERTa (A Robustly OptimizedBERT)模型中。RoBERTa模型是华盛顿大学Yinhan Liu在2019年提出的一种预训练遮面语言模型,它是Google提出的BERT(Bidirectional Encoder Representations fromTransformers)模型的改进版本,用更大的160G的训练文本,改进原有的静态遮面,采用随机的动态遮面减小了随机遮面可能带来的分布误差。同时取消了对下游任务没有提升的预测两句话是否连续的预训练任务,提升了整个模型的效果。
步骤4、取RoBERTa模型最后一层输出的[CLS]向量
Figure 388157DEST_PATH_IMAGE016
与感知机输出
Figure 363067DEST_PATH_IMAGE017
拼接成包 含相似度信息的特征向量O,具体如下:
Figure DEST_PATH_IMAGE068
步骤5、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算相似 度得分
Figure 516967DEST_PATH_IMAGE019
,具体如下:
Figure 665052DEST_PATH_IMAGE069
其中,
Figure DEST_PATH_IMAGE070
,R为常数,d为
Figure 955219DEST_PATH_IMAGE071
的维度,h为RoBERTa隐含层的维度;
以相似度得分
Figure 599565DEST_PATH_IMAGE051
排名最高的若干个表格
Figure 506341DEST_PATH_IMAGE004
作为检索结果输出。一般可 设置为取相似度得分
Figure 395799DEST_PATH_IMAGE051
排名最高的5个表格
Figure 71631DEST_PATH_IMAGE004
作为检索结果输出。
参见图2,本发明实施例的RoBERTa模型通过以下方式训练获得:
步骤101、对于正样本,收集用户的查询语句集合Q、每个查询语句q相匹配单张表 格的背景信息集合
Figure 450660DEST_PATH_IMAGE024
、与查询语句q匹配的表格特征信息
Figure 844732DEST_PATH_IMAGE002
以及与查询语句q相匹配表格
Figure 272303DEST_PATH_IMAGE004
的信息特征
Figure 68220DEST_PATH_IMAGE008
,查询语句q∈Q,标注相似度分数
Figure 821413DEST_PATH_IMAGE026
,作为正样本Data-P;对 于负样本,在生成正样本的基础上,用BM25获得与查询语句q非正确匹配但相似程度排前5 名的表格
Figure 935737DEST_PATH_IMAGE004
的背景信息集合
Figure 432577DEST_PATH_IMAGE027
、表格特征信息
Figure 879739DEST_PATH_IMAGE002
和信息特征
Figure 538254DEST_PATH_IMAGE009
组成的负例数据样本Data-N, 标注
Figure 906918DEST_PATH_IMAGE072
,把Data-P和Data-N合在一起生成所有样本数据Data,并拆分成训 练集、验证集、测试集。
采用BM25算法计算语料库集合F中的每一个特征信息
Figure 941870DEST_PATH_IMAGE002
与查询语句q的相似程度
Figure DEST_PATH_IMAGE073
,并根据相似程度
Figure 915642DEST_PATH_IMAGE074
进行排序,以从语料库集合F中找出与查询语 句q最相似的若干个知识内容,相似程度
Figure 276217DEST_PATH_IMAGE074
的计算方式如下:
Figure 122991DEST_PATH_IMAGE033
其中,
Figure DEST_PATH_IMAGE075
为表格内容,其为特征信息
Figure 430476DEST_PATH_IMAGE002
列表中的一个元素,
Figure 852230DEST_PATH_IMAGE076
为查询语句q中词的 个数,e为词在查询语句q中的排列序号,
Figure DEST_PATH_IMAGE077
为查询语句q中第e个词,
Figure 586968DEST_PATH_IMAGE078
为第e个词的权重, 其计算方式如下:
Figure DEST_PATH_IMAGE079
其中,N表示特征信息
Figure 133487DEST_PATH_IMAGE080
列表中的所有元素的个数,
Figure DEST_PATH_IMAGE081
表示特征信息
Figure 212039DEST_PATH_IMAGE080
列表中包含 词汇
Figure 691562DEST_PATH_IMAGE082
的元素的个数;
Figure 393939DEST_PATH_IMAGE040
为第e个词与表格内容
Figure DEST_PATH_IMAGE083
的相关性分数,其计算方式如下:
Figure 162175DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE085
其中,
Figure 811462DEST_PATH_IMAGE086
Figure DEST_PATH_IMAGE087
Figure 676650DEST_PATH_IMAGE056
分别为调协因子,一般情况下,可将
Figure 782884DEST_PATH_IMAGE086
的取值为2,
Figure 569574DEST_PATH_IMAGE088
的取值 为1,
Figure 553710DEST_PATH_IMAGE056
的取值为0.75;
Figure 742246DEST_PATH_IMAGE047
表示查询语句q中的词汇
Figure 520846DEST_PATH_IMAGE082
在特征信息
Figure 591571DEST_PATH_IMAGE002
列表中出现的次数;
Figure DEST_PATH_IMAGE089
表示词汇
Figure 582660DEST_PATH_IMAGE082
在查询语句q中出现的次数,
Figure 891282DEST_PATH_IMAGE090
为表格内容
Figure 73739DEST_PATH_IMAGE083
的长度,
Figure 100601DEST_PATH_IMAGE091
为特征 信息
Figure 160961DEST_PATH_IMAGE002
列表中所有表格内容
Figure 589668DEST_PATH_IMAGE083
的平均长度;
步骤102、对于所述训练集中的所有训练样本,执行步骤3和步骤4得到包含相似度信息的特征向量O;
步骤103、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算最 后相似度得分
Figure 710071DEST_PATH_IMAGE023
,通过多次训练迭代(如迭代1000次),使得计算输出的相似度 得分
Figure 755388DEST_PATH_IMAGE092
与训练数据的标签误差减小至设定阈值范围内后,将训练好模型保存。
本发明还包括:
步骤104、训练样本依次经过步骤1至5后得到相似度得分
Figure 822701DEST_PATH_IMAGE051
排名最高 的若干个表格
Figure 105915DEST_PATH_IMAGE052
,以及得到对应背景信息集合
Figure 895754DEST_PATH_IMAGE027
、特征信息
Figure 428366DEST_PATH_IMAGE002
以及信息特征
Figure 96108DEST_PATH_IMAGE008
,剔除计算出 的相似度分数
Figure 233828DEST_PATH_IMAGE093
的数据样本,得到新的负样本,并将新的负样本与所述正 样本建立新的训练集,并以新的训练集中的训练样本进行二次训练过程,然后保存二次训 练后的模型。经过二次训练后,可大大增加模型对易错样本的判别能力。
通过本发明提供的方法,在表格检索时,通常满足查询内容的表格有行包含、列包含、单元格包含三种形式,以下通过三个问题及其对应检索出的表格进行示意:
查询问题:汽车的牌子
Figure 430454DEST_PATH_IMAGE094
(a)数据表格的行中包含查询的信息
查询问题:2008北京奥运会
Figure 919205DEST_PATH_IMAGE095
(b)数据表格的列中包含查询的信息
查询问题:篮球运动员姚明
Figure 593899DEST_PATH_IMAGE096
(c)数据表格的单元格中包含查询的信息。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,其它未具体描述的部分,属于现有技术或公知常识。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于深度学习的表格检索方法,其特征在于,包括:
步骤1、接收用户输入的查询语句q,加载数据库中所有表格T的行、列以及单元格的语 料库集合
Figure 852297DEST_PATH_IMAGE001
,每个特征信息
Figure 811026DEST_PATH_IMAGE002
是表格的一行、一列或者单元格内容组成的 列表集,1≤i≤m;同时载入数据库中所有表的背景信息
Figure 934839DEST_PATH_IMAGE003
,其中,一张 表格
Figure 78245DEST_PATH_IMAGE004
包含行、列、单元格信息特征
Figure 287509DEST_PATH_IMAGE005
Figure 518770DEST_PATH_IMAGE006
,n≤m,所述表格
Figure 293828DEST_PATH_IMAGE004
的背景信 息为
Figure 217922DEST_PATH_IMAGE007
,j≤k;
步骤2、对于每张表格
Figure 711220DEST_PATH_IMAGE004
的信息特征
Figure 746172DEST_PATH_IMAGE008
进行统计特征提取,每个信息特征
Figure 375737DEST_PATH_IMAGE009
生成一个统 计特征向量a,将a放入多层感知机中,计算出
Figure 470732DEST_PATH_IMAGE010
,具体如下:
Figure 716905DEST_PATH_IMAGE011
其中,
Figure 617865DEST_PATH_IMAGE012
为多层感知机的参数,
Figure 508461DEST_PATH_IMAGE013
为偏置参数;
步骤3、将用户查询语句q、表格
Figure 367833DEST_PATH_IMAGE004
的背景信息集合
Figure 570144DEST_PATH_IMAGE014
和单个特征信息
Figure 212478DEST_PATH_IMAGE002
连 接,并用[SEP]间隔开形成拼接向量I,所述拼接向量I的格式如下:
Figure 285476DEST_PATH_IMAGE015
其中,
Figure 50170DEST_PATH_IMAGE016
是拼接向量I起始占位符;
将所述拼接向量I当作输入,放入已经训练好的RoBERTa模型中;
步骤4、取RoBERTa模型最后一层输出的[CLS]向量
Figure 208618DEST_PATH_IMAGE017
与感知机输出
Figure 248119DEST_PATH_IMAGE018
拼接成包含相 似度信息的特征向量O,具体如下:
Figure 113306DEST_PATH_IMAGE019
步骤5、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算相似度得 分
Figure 48901DEST_PATH_IMAGE020
,具体如下:
Figure 497243DEST_PATH_IMAGE021
其中,
Figure 543697DEST_PATH_IMAGE022
,R为常数,d为
Figure 997812DEST_PATH_IMAGE018
的维度,h为RoBERTa隐含层的维度;
以相似度得分
Figure 166625DEST_PATH_IMAGE023
排名最高的若干个表格
Figure 706191DEST_PATH_IMAGE004
作为检索结果输出。
2.根据权利要求1所述的基于深度学习的表格检索方法,其特征在于,所述统计特征包括与查询语句q相同字个数、相同词个数、最大公共子字串、表中行标题是否存在和表中列标题是否存在。
3.根据权利要求1所述的基于深度学习的表格检索方法,其特征在于,所述RoBERTa模型通过以下方式训练获得:
步骤101、对于正样本,收集用户的查询语句集合Q、每个查询语句q相匹配单张表格的 背景信息集合
Figure 353073DEST_PATH_IMAGE024
、与查询语句q匹配的表格特征信息
Figure 989591DEST_PATH_IMAGE002
以及与查询语句q相匹配表格
Figure 939092DEST_PATH_IMAGE004
的信 息特征
Figure 825008DEST_PATH_IMAGE025
,查询语句q∈Q,标注相似度分数
Figure 416527DEST_PATH_IMAGE026
,作为正样本Data-P;对于负 样本,在生成正样本的基础上,用BM25获得与查询语句q非正确匹配但相似程度排前5名的 表格
Figure 907551DEST_PATH_IMAGE004
的背景信息集合
Figure 152588DEST_PATH_IMAGE027
、表格特征信息
Figure 932325DEST_PATH_IMAGE002
和信息特征
Figure 124272DEST_PATH_IMAGE025
组成的负例数据样本Data-N,标注
Figure 266540DEST_PATH_IMAGE028
,把Data-P和Data-N合在一起生成所有样本数据Data,并拆分成训练 集、验证集、测试集;
采用BM25算法计算语料库集合F中的每一个特征信息
Figure 823423DEST_PATH_IMAGE002
与查询语句q的相似程度
Figure 949511DEST_PATH_IMAGE029
,并根据相似程度
Figure 679570DEST_PATH_IMAGE030
进行排序,以从语料库集合F中找出与查询语 句q最相似的若干个知识内容,所述相似程度
Figure 82869DEST_PATH_IMAGE030
的计算方式如下:
Figure 138550DEST_PATH_IMAGE031
其中,
Figure 220775DEST_PATH_IMAGE032
为表格内容,其为特征信息
Figure 957787DEST_PATH_IMAGE002
列表中的一个元素,
Figure 809069DEST_PATH_IMAGE033
为查询语句q中词的个数, e为词在查询语句q中的排列序号,
Figure 442175DEST_PATH_IMAGE034
为查询语句q中第e个词,
Figure 277276DEST_PATH_IMAGE035
为第e个词的权重,其计 算方式如下:
Figure 286820DEST_PATH_IMAGE036
其中,N表示特征信息
Figure 252328DEST_PATH_IMAGE002
列表中的所有元素的个数,
Figure 321915DEST_PATH_IMAGE037
表示特征信息
Figure 378733DEST_PATH_IMAGE002
列表中包含词汇
Figure 191968DEST_PATH_IMAGE038
的元素的个数;
Figure 283421DEST_PATH_IMAGE039
为第e个词与表格内容
Figure 258330DEST_PATH_IMAGE040
的相关性分数,其计算方式如下:
Figure 68023DEST_PATH_IMAGE041
Figure 419370DEST_PATH_IMAGE042
其中,
Figure 365329DEST_PATH_IMAGE043
Figure 776719DEST_PATH_IMAGE044
Figure 11391DEST_PATH_IMAGE045
分别为调协因子,
Figure 291063DEST_PATH_IMAGE046
表示查询语句q中的词汇
Figure 966895DEST_PATH_IMAGE047
在特征信息
Figure 673820DEST_PATH_IMAGE002
列表 中出现的次数;
Figure 67892DEST_PATH_IMAGE048
表示词汇
Figure 885675DEST_PATH_IMAGE047
在查询语句q中出现的次数,
Figure 681593DEST_PATH_IMAGE049
为表格内容
Figure 559419DEST_PATH_IMAGE040
的长度,
Figure 175208DEST_PATH_IMAGE050
为特征信息
Figure 796683DEST_PATH_IMAGE002
列表中所有表格内容
Figure 447107DEST_PATH_IMAGE051
的平均长度;
步骤102、对于所述训练集中的所有训练样本,执行步骤3和步骤4得到包含相似度信息的特征向量O;
步骤103、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算最后相 似度得分
Figure 761413DEST_PATH_IMAGE023
,通过多次训练迭代,使得计算输出的相似度得分
Figure 130078DEST_PATH_IMAGE023
与 训练数据的标签误差减小至设定阈值范围内后,将训练好模型保存。
4.根据权利要求3所述的基于深度学习的表格检索方法,其特征在于,还包括:
步骤104、训练样本依次经过步骤1至5后得到相似度得分
Figure 289664DEST_PATH_IMAGE023
排名最高的若 干个表格
Figure 794594DEST_PATH_IMAGE052
,以及得到对应背景信息集合
Figure 217486DEST_PATH_IMAGE027
、特征信息
Figure 198080DEST_PATH_IMAGE002
以及信息特征
Figure 36723DEST_PATH_IMAGE008
,剔除计算出的相 似度分数
Figure 786373DEST_PATH_IMAGE053
的数据样本,得到新的负样本,并将新的负样本与所述正样本 建立新的训练集,并以新的训练集中的训练样本进行二次训练过程,然后保存二次训练后 的模型。
5.根据权利要求3所述的基于深度学习的表格检索方法,其特征在于,所述
Figure 52269DEST_PATH_IMAGE054
的取值为 2,所述
Figure 463702DEST_PATH_IMAGE055
的取值为1,所述
Figure 965091DEST_PATH_IMAGE045
的取值为0.75。
CN202111293521.7A 2021-11-03 2021-11-03 一种基于深度学习的表格检索方法 Active CN113743539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111293521.7A CN113743539B (zh) 2021-11-03 2021-11-03 一种基于深度学习的表格检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111293521.7A CN113743539B (zh) 2021-11-03 2021-11-03 一种基于深度学习的表格检索方法

Publications (2)

Publication Number Publication Date
CN113743539A true CN113743539A (zh) 2021-12-03
CN113743539B CN113743539B (zh) 2022-02-08

Family

ID=78727239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111293521.7A Active CN113743539B (zh) 2021-11-03 2021-11-03 一种基于深度学习的表格检索方法

Country Status (1)

Country Link
CN (1) CN113743539B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015064856A (ja) * 2013-08-30 2015-04-09 株式会社日立ソリューションズ データ分析プログラム、データ分析方法及びデータ分析装置
CN111522839A (zh) * 2020-04-25 2020-08-11 华中科技大学 一种基于深度学习的自然语言查询方法
CN111858852A (zh) * 2020-07-07 2020-10-30 国网福建省电力有限公司 一种基于数据相似性的全防误点表校核方法
CN113536797A (zh) * 2021-07-16 2021-10-22 北京易道博识科技有限公司 一种切片文档关键信息单模型抽取方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015064856A (ja) * 2013-08-30 2015-04-09 株式会社日立ソリューションズ データ分析プログラム、データ分析方法及びデータ分析装置
CN111522839A (zh) * 2020-04-25 2020-08-11 华中科技大学 一种基于深度学习的自然语言查询方法
CN111858852A (zh) * 2020-07-07 2020-10-30 国网福建省电力有限公司 一种基于数据相似性的全防误点表校核方法
CN113536797A (zh) * 2021-07-16 2021-10-22 北京易道博识科技有限公司 一种切片文档关键信息单模型抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵姝颖: "基于RoBerta的立场检测与趋势预测模型设计", 《应用科技》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN117252183B (zh) * 2023-10-07 2024-04-02 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质

Also Published As

Publication number Publication date
CN113743539B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
CN107993724B (zh) 一种医学智能问答数据处理的方法及装置
CN109635083B (zh) 一种用于搜索ted演讲中话题式查询的文档检索方法
CN110502621A (zh) 问答方法、问答装置、计算机设备及存储介质
CN109829104A (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN103927358A (zh) 文本检索方法及系统
CN107832295B (zh) 阅读机器人的标题选择方法及系统
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN111694927B (zh) 一种基于改进词移距离算法的文档自动评阅方法
CN111125295B (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
CN113377897A (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN115795018B (zh) 一种面向电网领域的多策略智能搜索问答方法及系统
CN114756663A (zh) 一种智能问答方法、系统、设备及计算机可读存储介质
CN112328773A (zh) 基于知识图谱的问答实现方法和系统
CN113743539B (zh) 一种基于深度学习的表格检索方法
CN114443846B (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
Alshammari et al. TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
CN114328823A (zh) 数据库自然语言查询方法及装置、电子设备、存储介质
CN110750632B (zh) 一种改进的中文alice智能问答方法及系统
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN116501835A (zh) 用于非知识密集型任务的检索增强方法和装置
CN116628146A (zh) 一种金融领域的faq智能问答方法及系统
CN112507097B (zh) 一种提高问答系统泛化能力的方法
CN115186073A (zh) 一种基于混合检索的开放域表格文本问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant