CN116049354A - 基于自然语言的多表格检索方法及装置 - Google Patents

基于自然语言的多表格检索方法及装置 Download PDF

Info

Publication number
CN116049354A
CN116049354A CN202310042299.6A CN202310042299A CN116049354A CN 116049354 A CN116049354 A CN 116049354A CN 202310042299 A CN202310042299 A CN 202310042299A CN 116049354 A CN116049354 A CN 116049354A
Authority
CN
China
Prior art keywords
sequence
type
header
word segmentation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310042299.6A
Other languages
English (en)
Other versions
CN116049354B (zh
Inventor
张俊祺
张正
吴永宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Atomic Echo Intelligent Technology Co ltd
Original Assignee
Beijing Atomic Echo Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Atomic Echo Intelligent Technology Co ltd filed Critical Beijing Atomic Echo Intelligent Technology Co ltd
Priority to CN202310042299.6A priority Critical patent/CN116049354B/zh
Publication of CN116049354A publication Critical patent/CN116049354A/zh
Application granted granted Critical
Publication of CN116049354B publication Critical patent/CN116049354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了一种基于自然语言的多表格检索方法及装置,其中,方法包括:将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。

Description

基于自然语言的多表格检索方法及装置
技术领域
本文件涉及计算机技术领域,尤其涉及一种基于自然语言的多表格检索方法及装置。
背景技术
企业中海量的数据存在于结构化的表格当中,包括Excel表格、数据库表格等形式。表格具有特定的结构,一般来说,第一行定义表头字段,每个字段是一串字符,代表该列数据存储的内容。接下来每一行代表一条数据,具体的内容可以包含:文本、数值、邮箱、时间、编号、网址等。
传统的表格检索只会利用关键词进行匹配,用户输入查询词,根据表格中查询词出现的频次进行搜索,既没有考虑表头的语义信息,也没有考虑表格内容的类型信息。同时,企业对于数据的保密性要求极高,一般不会将数据表的内容直接用于检索。因此,在企业要求数据保密的情况下,如何实现准确的表格检索,并最大程度保护企业数据隐私信息是亟需解决的问题。
发明内容
本发明的目的在于提供一种基于自然语言的多表格检索方法及装置,旨在解决现有技术中的上述问题。
本发明提供一种基于自然语言的多表格检索方法,包括:
将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;
获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。
本发明提供一种基于自然语言的多表格检索装置,包括:
表格表示模块,用于将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;
查询分词模块,用于获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
检索匹配模块,用于针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。
本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于自然语言的多表格检索方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述基于自然语言的多表格检索方法的步骤。
采用本发明实施例,通过自然语言处理技术,只利用表头字段的字段描述信息和表格内容数据类型信息,在企业要求数据保密的情况下,实现更加精准的表格搜索,既可以实现准确的表格检索,也可以最大程度保护企业数据隐私信息。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于自然语言的多表格检索方法的流程图;
图2是本发明实施例的基于自然语言的多表格检索装置的示意图;
图3是本发明实施例的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
方法实施例
根据本发明实施例,提供了一种基于自然语言的多表格检索方法,图1是本发明实施例的基于自然语言的多表格检索方法的流程图,如图1所示,根据本发明实施例的基于自然语言的多表格检索方法具体包括:
步骤101,将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;步骤101具体包括:
将表格中每一列的表头作为一个单独字符串,通过所述单独字符串表示该列所存储的信息;
根据表格中每一列表格具体的内容,将每一列划分为不同的类型;
通过预训练大模型构建表头序列和类型序列,对表格的语义信息进行表示,其中,对于任何一个表格,表头序列和类型序列长度相等,每个位置的元素一一对应。
步骤102,获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;步骤102具体包括:
获取用户输入的查询语句,去掉多余的标点符号和停用词,只保留具有实际语义的词汇;
将查询语句按照中文单词的表达形式,划分为单词序列,进行分词;
构建样本由单词和类型两个元素构成的数据集,针对每个分词,将其映射到一个固定长度的嵌入向量,并通过基于所述数据集进行预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列。
步骤103,针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。步骤103具体包括:
假设
Figure SMS_2
表示数据库里的第i个表格,Q表示查询语句,
Figure SMS_5
是查询语句的分词序列,
Figure SMS_7
是查询语句的类型序列;
Figure SMS_3
是第i个表格的表头序列,
Figure SMS_6
是第i个表格的类型序列,对于表头序列
Figure SMS_9
中第k列的表头文本和分词序列
Figure SMS_10
中的第j个文本,分别将其映射为嵌入向量
Figure SMS_1
Figure SMS_4
,然后根据公式1计算
Figure SMS_8
Figure SMS_11
公式1;
其中,
Figure SMS_12
为0和1区间的实数值;
根据
Figure SMS_13
确定分词序列
Figure SMS_14
和表头序列
Figure SMS_15
的相似度矩阵S;
对于表格的类型序列
Figure SMS_16
中第k列的类型
Figure SMS_17
,和查询语句的类型序列
Figure SMS_18
中的第j个类型
Figure SMS_19
,如果这两个类型相同,则
Figure SMS_20
=1,否则
Figure SMS_21
=0,用以表示表格的表头是否和查询语句中的分词类型相匹配;
Figure SMS_22
公式2;
其中,
Figure SMS_23
为0或1的二值整数,根据
Figure SMS_24
确定类型序列
Figure SMS_25
和类型序列
Figure SMS_26
的掩码矩阵M,
Figure SMS_27
表示掩码矩阵M中第j行第k列的掩码数值。
根据公式3计算打分矩阵的数值:
Figure SMS_28
公式3;
根据公式4计算各个表格的打分矩阵的平均值:
Figure SMS_29
公式4;
其中,m为打分矩阵P的行数,即查询语句Q的分词个数,n为打分矩阵的列数,即表格
Figure SMS_31
的列数,i表示第i个表格,
Figure SMS_32
表示
Figure SMS_33
和Q的打分矩阵中第j行第k列的得分数值,即查询语句Q中第j个元素和表格
Figure SMS_34
中第k列的关联度得分;
通过对比所有表格
Figure SMS_35
={
Figure SMS_36
,
Figure SMS_37
,
Figure SMS_38
,…,
Figure SMS_39
}针对当前查询语句Q对应的得分
Figure SMS_40
,按照从大到小排序,选出得分最高的前K个表格,作为最终的检索结果。
以下对本发明实施例的上述技术方案进行详细说明。
一、表格内容的表示
1、表头信息的汇总:本发明实施例将表格中每一列的表头作为一个单独的字符串,用来表示该列所存储的信息,例如:姓名、国家、收入等。同时,根据每一列表格具体的内容,将每一列划分为不同的类型,具体包括:文本、数值、邮箱、时间、编号、网址、地址。这些类型都可以通过机器自动识别。具体的表格内容类型识别方法为:
文本:中文、英文等字符串形式
数值:0到1以及小数点组成的数字串
邮箱:两个英文字符串中间以“@“符号拼接
时间:满足以下格式之一的(XXXX年XX月XX日XX时XX分XX秒、XXXX年XX月XX日XX时XX分、XXXX年XX月XX日XX时、XXXX年XX月XX日、XXXX年XX月、XXXX年),该格式可预先在程序中配置,可以根据需求进行修改、删除和添加。
编号:由固定长度的英文字母和数字组成的字符串
网址:https://XXXX,http://XXXX
地址:包含地址字段
通过以上方式,如表1和表2所示,给表格中的每一列赋予单独的类型标记。
表1
表头1 表头2 表头3 表头4 表头5
数据11 数据12 数据13 数据14 数据15
数据21 数据22 数据24 数据24 数据25
数据31 数据32 数据34 数据34 数据35
表2
类型1 类型2 类型3 类型4 类型5
2、表格语义的向量化表示:本发明实施例基于预训练大模型来表示表格的语义信息。对于每个表格来说,本发明实施例构建两个序列:
序列1:为表头的序列,对应上面示例表格为Tx=[表头1,表头2,表头3,表头4,表头5];
序列2:为类型的序列,对应上面示例表格为Ty=[类型1,类型2,类型3,类型4,类型5]。
对于任何一个表格,表头序列和类型序列长度相等,每一个位置的元素一一对应。
二、自然语言查询语句的表示
用户输入查询语句之后,需要经过:清洗、分词、类型预测两个步骤。
1、查询语句清洗:去掉多余的标点符号、停用词,只保留具有实际语义的词汇。
2、分词:将查询语句按照中文单词的表达形式,划分为单词序列。例如,将查询语句“北京分公司一季度营业收入“分词为:[北京、分公司、一季度、营业、收入]。
3、训练多层感知机来预测分词对应的数据类型:对于分词结果,例如:[北京、分公司、一季度、营业、收入],也需要预测每个单词对应的数据类型,为此,需要构建一批数据集,数据集的每个样本由两个元素构成:(单词,类型),其中单词可以是任意的中文词汇或短语,类型包括上述表格中涉及的六种类型以及“其他”类型共8种:文本、数值、邮箱、时间、编号、网址、地址、其他。本发明实施例通过将每个单词映射到一个固定长度的嵌入向量,例如512维,然后通过多层感知机MLP来执行一个分类任务。
4、在实际应用中,本发明实施例依次将查询语句分词term序列输入MLP,然后预测得到每个分词对应的数据类型type。类似于表格,本发明实施例构建两个序列:
序列1:为分词的序列,对应上面示例为Qx=[北京、分公司、一季度、营业、收入];
序列2:为类型的序列,对应上面示例为Qy=[地址,文本,时间,其他,数值]。
三、自然语言与表格的语义匹配。
步骤1,对于数据库中的所有表格
Figure SMS_42
={
Figure SMS_45
,
Figure SMS_48
,
Figure SMS_43
,…,
Figure SMS_46
},分别按照上述第一项中的描述,得到每个表格的表头和类型序列:((
Figure SMS_49
,
Figure SMS_51
), (
Figure SMS_41
,
Figure SMS_44
),…, (
Figure SMS_47
,
Figure SMS_50
))。
步骤2,对于用户的任何一个自然语言查询语句Q,按照上述第二项中的描述,得到其分词和类型序列:(Qx, Qy)。
步骤3,针对查询语句Q和每一个表格Ti,计算分词序列Qx和表头序列
Figure SMS_52
的相似度矩阵S,如表3所示,其中,对于表格的第k列表头和分词文本j ,本发明实施例分别将“表头文本k”和“分词文本j”映射为嵌入向量
Figure SMS_53
Figure SMS_54
,然后计算
Figure SMS_55
Figure SMS_56
为0和1区间的实数值。
表3
相似度 表头文本1 表头文本2 表头文本3 表头文本4 表头文本5
分词文本1 S11 S12 S13 S14 S15
分词文本2 S21 S22 S23 S24 S25
分词文本3 S31 S32 S33 S34 S35
分词文本4 S41 S42 S43 S44 S45
分词文本5 S51 S52 S53 S54 S55
分词文本6 S61 S62 S63 S64 S65
步骤4,针对查询语句Q和每一个表格Ti,计算类型序列Qy和表头序列
Figure SMS_57
的掩码矩阵M,如表4所示,其中,如果:表格列类型k=分词类型j,则第k列第j行为1,否则为0,用以表示表格的表头是否和查询语句中的分词类型相匹配,Mkj为0或1的二值整数。
表4
掩码 表格列类型1 表格列类型2 表格列类型3 表格列类型4 表格列类型5
分词类型1 M11 M12 M13 M14 M15
分词类型2 M21 M22 M23 M24 M25
分词类型3 M31 M32 M33 M34 M35
分词类型4 M41 M42 M43 M44 M45
分词类型5 M51 M52 M53 M54 M55
分词类型6 M61 M62 M63 M64 M65
步骤5,将相似度矩阵S和掩码矩阵M相乘,得的打分矩阵P,如表5所示,即P=S×M,其中
Figure SMS_58
表5
打分 表格列1 表格列2 表格列3 表格列4 表格列5
分词1 P11 P12 P13 P14 P15
分词2 P21 P22 P23 P24 P25
分词3 P31 P32 P33 P34 P35
分词4 P41 P42 P43 P44 P45
分词5 P51 P52 P53 P54 P55
分词6 P61 P62 P63 P64 P65
步骤6,因为查询语句Q的分词数目和表格列数差异较大,为了标准化对比预测得分,本发明实施例根据下列公式计算打分矩阵P的平均值,其中,m为打分矩阵P的行数(即查询语句Q的分词个数),n为打分矩阵行数的列数(即表格Ti的列数),i为数据库中第i个表格。
Figure SMS_59
步骤7,通过对比数据库中所有表格
Figure SMS_60
={
Figure SMS_61
,
Figure SMS_62
,
Figure SMS_63
,…,
Figure SMS_64
}针对当前查询语句Q对应的得分
Figure SMS_65
,按照从大到小排序,即可选出得分最高的前K个表格,作为最终的检索结果。
综上所述,借助于本发明实施例的技术方案,相对于关键词匹配的方式,结合表头语义和内容类型两种信息,可以更加精准地对表格内容进行检索。一方面,表头包含了具体的字段信息,内容类型包含了具体的数据类型信息,将这两种信息的语义进行整合表示,可以更好地与用户自然语言查询的语义进行匹配。
装置实施例一
根据本发明实施例,提供了一种基于自然语言的多表格检索装置,图2是本发明实施例的基于自然语言的多表格检索装置的示意图,如图2所示,根据本发明实施例的基于自然语言的多表格检索装置具体包括:
表格表示模块20,用于将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;所述表格表示模块20具体用于:
将表格中每一列的表头作为一个单独字符串,通过所述单独字符串表示该列所存储的信息;
根据表格中每一列表格具体的内容,将每一列划分为不同的类型;
通过预训练大模型构建表头序列和类型序列,对表格的语义信息进行表示,其中,对于任何一个表格,表头序列和类型序列长度相等,每个位置的元素一一对应。
查询分词模块22,用于获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;所述查询分词模块22具体用于:
获取用户输入的查询语句,去掉多余的标点符号和停用词,只保留具有实际语义的词汇;
将查询语句按照中文单词的表达形式,划分为单词序列,进行分词;
构建样本由单词和类型两个元素构成的数据集,针对每个分词,将其映射到一个固定长度的嵌入向量,并通过基于所述数据集进行预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
检索匹配模块24,用于针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。所述检索匹配模块24具体用于:
假设
Figure SMS_67
表示数据库里的第i个表格,Q表示查询语句,
Figure SMS_70
是查询语句的分词序列,
Figure SMS_74
是查询语句的类型序列;
Figure SMS_68
是第i个表格的表头序列,
Figure SMS_71
是第i个表格的类型序列,对于表头序列
Figure SMS_73
中第k列的表头文本和分词序列
Figure SMS_75
中的第j个文本,分别将其映射为嵌入向量
Figure SMS_66
Figure SMS_69
,然后根据公式1计算
Figure SMS_72
Figure SMS_76
公式1;
其中,
Figure SMS_77
为0和1区间的实数值;
根据
Figure SMS_78
确定分词序列
Figure SMS_79
和表头序列
Figure SMS_80
的相似度矩阵S;
对于表格的类型序列
Figure SMS_81
中第k列的类型
Figure SMS_82
,和查询语句的类型序列
Figure SMS_83
中的第j个类型
Figure SMS_84
,如果这两个类型相同,则
Figure SMS_85
=1,否则
Figure SMS_86
=0,用以表示表格的表头是否和查询语句中的分词类型相匹配;
Figure SMS_87
公式2;
其中,
Figure SMS_88
为0或1的二值整数,根据
Figure SMS_89
确定类型序列
Figure SMS_90
和类型序列
Figure SMS_91
的掩码矩阵M,
Figure SMS_92
表示掩码矩阵M中第j行第k列的掩码数值;
根据公式3计算打分矩阵的数值:
Figure SMS_93
公式3;
根据公式4计算各个表格的打分矩阵的平均值:
Figure SMS_94
公式4;
其中,m为打分矩阵P的行数,即查询语句Q的分词个数,n为打分矩阵的列数,即表格
Figure SMS_95
的列数,i表示第i个表格,
Figure SMS_96
表示
Figure SMS_97
和Q的打分矩阵中第j行第k列的得分数值,即查询语句Q中第j个元素和表格
Figure SMS_98
中第k列的关联度得分;
通过对比所有表格
Figure SMS_99
={
Figure SMS_100
,
Figure SMS_101
,
Figure SMS_102
,…,
Figure SMS_103
}针对当前查询语句Q对应的得分
Figure SMS_104
,按照从大到小排序,选出得分最高的前K个表格,作为最终的检索结果。
本发明实施例是与上述方法实施例对应的装置实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例二
本发明实施例提供一种电子设备,如图3所示,包括:存储器30、处理器32及存储在所述存储器30上并可在所述处理32上运行的计算机程序,所述计算机程序被所述处理器32执行时实现如方法实施例中所述的步骤。
装置实施例三
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器32执行时实现如方法实施例中所述的步骤。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于自然语言的多表格检索方法,其特征在于,包括:
将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;
获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。
2.根据权利要求1所述的方法,其特征在于,将表格内容进行表示,获取表格的表头序列和与所述表头序列对应的类型序列具体包括:
将表格中每一列的表头作为一个单独字符串,通过所述单独字符串表示该列所存储的信息;
根据表格中每一列表格具体的内容,将每一列划分为不同的类型;
通过预训练大模型构建表头序列和类型序列,对表格的语义信息进行表示,其中,对于任何一个表格,表头序列和类型序列长度相等,每个位置的元素一一对应。
3.根据权利要求1所述的方法,其特征在于,获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列具体包括:
获取用户输入的查询语句,去掉多余的标点符号和停用词,只保留具有实际语义的词汇;
将查询语句按照中文单词的表达形式,划分为单词序列,进行分词;
构建样本由单词和类型两个元素构成的数据集,针对每个分词,将其映射到一个固定长度的嵌入向量,并通过基于所述数据集进行预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列。
4.根据权利要求1所述的方法,其特征在于,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵具体包括:
假设
Figure QLYQS_2
表示数据库里的第i个表格,Q表示查询语句,
Figure QLYQS_4
是查询语句的分词序列,
Figure QLYQS_7
是查询语句的类型序列;
Figure QLYQS_3
是第i个表格的表头序列,
Figure QLYQS_6
是第i个表格的类型序列,对于表头序列
Figure QLYQS_8
中第k列的表头文本和分词序列
Figure QLYQS_10
中的第j个文本,分别将其映射为嵌入向量
Figure QLYQS_1
Figure QLYQS_5
,然后根据公式1计算
Figure QLYQS_9
Figure QLYQS_11
公式1;
其中,
Figure QLYQS_12
为0和1区间的实数值;
根据
Figure QLYQS_13
确定分词序列
Figure QLYQS_14
和表头序列
Figure QLYQS_15
的相似度矩阵S;
对于表格的类型序列
Figure QLYQS_16
中第k列的类型
Figure QLYQS_17
,和查询语句的类型序列
Figure QLYQS_18
中的第j个类型
Figure QLYQS_19
,如果这两个类型相同,则
Figure QLYQS_20
=1,否则
Figure QLYQS_21
=0,用以表示表格的表头是否和查询语句中的分词类型相匹配;
Figure QLYQS_22
公式2;
其中,
Figure QLYQS_23
为0或1的二值整数,根据
Figure QLYQS_24
确定类型序列
Figure QLYQS_25
和类型序列
Figure QLYQS_26
的掩码矩阵M,
Figure QLYQS_27
表示掩码矩阵M中第j行第k列的掩码数值。
5.根据权利要求1所述的方法,其特征在于,根据所述各个表格的打分矩阵获取所述查询语句的检索结果具体包括:
根据公式3计算打分矩阵的数值:
Figure QLYQS_28
公式3;
根据公式4计算各个表格的打分矩阵的平均值:
Figure QLYQS_29
公式4;
其中,m为打分矩阵P的行数,即查询语句Q的分词个数,n为打分矩阵的列数,即表格
Figure QLYQS_30
的列数,i表示第i个表格,
Figure QLYQS_31
表示
Figure QLYQS_32
和Q的打分矩阵中第j行第k列的得分数值,即查询语句Q中第j个元素和表格
Figure QLYQS_33
中第k列的关联度得分;
通过对比所有表格
Figure QLYQS_34
={
Figure QLYQS_35
,
Figure QLYQS_36
,
Figure QLYQS_37
,…,
Figure QLYQS_38
}针对当前查询语句Q对应的得分
Figure QLYQS_39
,按照从大到小排序,选出得分最高的前K个表格,作为最终的检索结果。
6.一种基于自然语言的多表格检索装置,其特征在于,包括:
表格表示模块,用于将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;
查询分词模块,用于获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
检索匹配模块,用于针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。
7.根据权利要求6所述的装置,其特征在于,所述表格表示模块具体用于:
将表格中每一列的表头作为一个单独字符串,通过所述单独字符串表示该列所存储的信息;
根据表格中每一列表格具体的内容,将每一列划分为不同的类型;
通过预训练大模型构建表头序列和类型序列,对表格的语义信息进行表示,其中,对于任何一个表格,表头序列和类型序列长度相等,每个位置的元素一一对应。
8.根据权利要求6所述的装置,其特征在于,
所述查询分词模块具体用于:
获取用户输入的查询语句,去掉多余的标点符号和停用词,只保留具有实际语义的词汇;
将查询语句按照中文单词的表达形式,划分为单词序列,进行分词;
构建样本由单词和类型两个元素构成的数据集,针对每个分词,将其映射到一个固定长度的嵌入向量,并通过基于所述数据集进行预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
所述检索匹配模块具体用于:
假设
Figure QLYQS_41
表示数据库里的第i个表格,Q表示查询语句,
Figure QLYQS_44
是查询语句的分词序列,
Figure QLYQS_47
是查询语句的类型序列;
Figure QLYQS_42
是第i个表格的表头序列,
Figure QLYQS_45
是第i个表格的类型序列,对于表头序列
Figure QLYQS_48
中第k列的表头文本和分词序列
Figure QLYQS_49
中的第j个文本,分别将其映射为嵌入向量
Figure QLYQS_40
Figure QLYQS_43
,然后根据公式1计算
Figure QLYQS_46
Figure QLYQS_50
公式1;
其中,
Figure QLYQS_51
为0和1区间的实数值;
根据
Figure QLYQS_52
确定分词序列
Figure QLYQS_53
和表头序列
Figure QLYQS_54
的相似度矩阵S;
对于表格的类型序列
Figure QLYQS_55
中第k列的类型
Figure QLYQS_56
,和查询语句的类型序列
Figure QLYQS_57
中的第j个类型
Figure QLYQS_58
,如果这两个类型相同,则
Figure QLYQS_59
=1,否则
Figure QLYQS_60
=0,用以表示表格的表头是否和查询语句中的分词类型相匹配;
Figure QLYQS_61
公式2;
其中,
Figure QLYQS_62
为0或1的二值整数,根据
Figure QLYQS_63
确定类型序列
Figure QLYQS_64
和类型序列
Figure QLYQS_65
的掩码矩阵M,
Figure QLYQS_66
表示掩码矩阵M中第j行第k列的掩码数值;
根据公式3计算打分矩阵的数值:
Figure QLYQS_67
公式3;
根据公式4计算各个表格的打分矩阵的平均值:
Figure QLYQS_68
公式4;
其中,m为打分矩阵P的行数,即查询语句Q的分词个数,n为打分矩阵的列数,即表格
Figure QLYQS_70
的列数,i表示第i个表格,
Figure QLYQS_71
表示
Figure QLYQS_72
和Q的打分矩阵中第j行第k列的得分数值,即查询语句Q中第j个元素和表格
Figure QLYQS_73
中第k列的关联度得分;
通过对比所有表格
Figure QLYQS_74
={
Figure QLYQS_75
,
Figure QLYQS_76
,
Figure QLYQS_77
,…,
Figure QLYQS_78
}针对当前查询语句Q对应的得分
Figure QLYQS_79
,按照从大到小排序,选出得分最高的前K个表格,作为最终的检索结果。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于自然语言的多表格检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至5中任一项所述的基于自然语言的多表格检索方法的步骤。
CN202310042299.6A 2023-01-28 2023-01-28 基于自然语言的多表格检索方法及装置 Active CN116049354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310042299.6A CN116049354B (zh) 2023-01-28 2023-01-28 基于自然语言的多表格检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310042299.6A CN116049354B (zh) 2023-01-28 2023-01-28 基于自然语言的多表格检索方法及装置

Publications (2)

Publication Number Publication Date
CN116049354A true CN116049354A (zh) 2023-05-02
CN116049354B CN116049354B (zh) 2023-06-20

Family

ID=86116121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310042299.6A Active CN116049354B (zh) 2023-01-28 2023-01-28 基于自然语言的多表格检索方法及装置

Country Status (1)

Country Link
CN (1) CN116049354B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033469A (zh) * 2023-10-07 2023-11-10 之江实验室 一种基于表格语义注释的数据库检索方法、装置以及设备
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN118093597A (zh) * 2024-04-23 2024-05-28 浙江大学 一种表格数据重构方法及装置、问答方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032704A (ja) * 2017-08-08 2019-02-28 株式会社日立製作所 表データ構造化システムおよび表データ構造化方法
CN110866042A (zh) * 2019-10-11 2020-03-06 平安科技(深圳)有限公司 表格智能查询方法、装置及计算机可读存储介质
US11182604B1 (en) * 2019-11-26 2021-11-23 Automation Anywhere, Inc. Computerized recognition and extraction of tables in digitized documents
CN114265924A (zh) * 2021-12-23 2022-04-01 浙江工业大学 一种根据问句检索关联表格的方法与装置
CN115062070A (zh) * 2022-05-30 2022-09-16 中国电子科技集团公司第十研究所 一种基于问答的文本表格数据查询方法
CN115495563A (zh) * 2022-09-16 2022-12-20 重庆长安汽车股份有限公司 基于表格数据检索的智能会话方法及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019032704A (ja) * 2017-08-08 2019-02-28 株式会社日立製作所 表データ構造化システムおよび表データ構造化方法
CN110866042A (zh) * 2019-10-11 2020-03-06 平安科技(深圳)有限公司 表格智能查询方法、装置及计算机可读存储介质
US11182604B1 (en) * 2019-11-26 2021-11-23 Automation Anywhere, Inc. Computerized recognition and extraction of tables in digitized documents
CN114265924A (zh) * 2021-12-23 2022-04-01 浙江工业大学 一种根据问句检索关联表格的方法与装置
CN115062070A (zh) * 2022-05-30 2022-09-16 中国电子科技集团公司第十研究所 一种基于问答的文本表格数据查询方法
CN115495563A (zh) * 2022-09-16 2022-12-20 重庆长安汽车股份有限公司 基于表格数据检索的智能会话方法及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊回香;赵登鹏;卢晨凡;: "基于词向量模型的中文序列比对研究", 图书情报工作, no. 10, pages 88 - 100 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033469A (zh) * 2023-10-07 2023-11-10 之江实验室 一种基于表格语义注释的数据库检索方法、装置以及设备
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN117033469B (zh) * 2023-10-07 2024-01-16 之江实验室 一种基于表格语义注释的数据库检索方法、装置以及设备
CN117252183B (zh) * 2023-10-07 2024-04-02 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN118093597A (zh) * 2024-04-23 2024-05-28 浙江大学 一种表格数据重构方法及装置、问答方法
CN118093597B (zh) * 2024-04-23 2024-07-30 浙江大学 一种表格数据重构方法及装置、问答方法

Also Published As

Publication number Publication date
CN116049354B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN116049354B (zh) 基于自然语言的多表格检索方法及装置
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
JP4778474B2 (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
CN111651986B (zh) 事件关键词提取方法、装置、设备及介质
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
US20170193396A1 (en) Named entity recognition and entity linking joint training
CN111325018B (zh) 一种基于web检索和新词发现的领域词典构建方法
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
CN110851584B (zh) 一种法律条文精准推荐系统和方法
US11151317B1 (en) Contextual spelling correction system
Alian et al. Arabic semantic similarity approaches-review
CN110991181A (zh) 用于增强已标注样本的方法和设备
CN114357143A (zh) 面向军事装备知识图谱的关键信息查询方法
Alshammari et al. TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM
CN112445887B (zh) 基于检索的机器阅读理解系统的实现方法及装置
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
Bagul et al. Rule based POS tagger for Marathi text
CN115828854B (zh) 一种基于上下文消歧的高效表格实体链接方法
CN110717014B (zh) 一种本体知识库动态构建方法
CN110717029A (zh) 一种信息处理方法和系统
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
Ziv et al. CompanyName2Vec: Company entity matching based on job ads
Pertsas et al. Ontology-driven information extraction from research publications
Maulidia et al. Feature Expansion with Word2Vec for Topic Classification with Gradient Boosted Decision Tree on Twitter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant