CN116049354A - 基于自然语言的多表格检索方法及装置 - Google Patents
基于自然语言的多表格检索方法及装置 Download PDFInfo
- Publication number
- CN116049354A CN116049354A CN202310042299.6A CN202310042299A CN116049354A CN 116049354 A CN116049354 A CN 116049354A CN 202310042299 A CN202310042299 A CN 202310042299A CN 116049354 A CN116049354 A CN 116049354A
- Authority
- CN
- China
- Prior art keywords
- sequence
- type
- header
- word segmentation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 84
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供了一种基于自然语言的多表格检索方法及装置,其中,方法包括:将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种基于自然语言的多表格检索方法及装置。
背景技术
企业中海量的数据存在于结构化的表格当中,包括Excel表格、数据库表格等形式。表格具有特定的结构,一般来说,第一行定义表头字段,每个字段是一串字符,代表该列数据存储的内容。接下来每一行代表一条数据,具体的内容可以包含:文本、数值、邮箱、时间、编号、网址等。
传统的表格检索只会利用关键词进行匹配,用户输入查询词,根据表格中查询词出现的频次进行搜索,既没有考虑表头的语义信息,也没有考虑表格内容的类型信息。同时,企业对于数据的保密性要求极高,一般不会将数据表的内容直接用于检索。因此,在企业要求数据保密的情况下,如何实现准确的表格检索,并最大程度保护企业数据隐私信息是亟需解决的问题。
发明内容
本发明的目的在于提供一种基于自然语言的多表格检索方法及装置,旨在解决现有技术中的上述问题。
本发明提供一种基于自然语言的多表格检索方法,包括:
将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;
获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。
本发明提供一种基于自然语言的多表格检索装置,包括:
表格表示模块,用于将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;
查询分词模块,用于获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
检索匹配模块,用于针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。
本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于自然语言的多表格检索方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述基于自然语言的多表格检索方法的步骤。
采用本发明实施例,通过自然语言处理技术,只利用表头字段的字段描述信息和表格内容数据类型信息,在企业要求数据保密的情况下,实现更加精准的表格搜索,既可以实现准确的表格检索,也可以最大程度保护企业数据隐私信息。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于自然语言的多表格检索方法的流程图;
图2是本发明实施例的基于自然语言的多表格检索装置的示意图;
图3是本发明实施例的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
方法实施例
根据本发明实施例,提供了一种基于自然语言的多表格检索方法,图1是本发明实施例的基于自然语言的多表格检索方法的流程图,如图1所示,根据本发明实施例的基于自然语言的多表格检索方法具体包括:
步骤101,将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;步骤101具体包括:
将表格中每一列的表头作为一个单独字符串,通过所述单独字符串表示该列所存储的信息;
根据表格中每一列表格具体的内容,将每一列划分为不同的类型;
通过预训练大模型构建表头序列和类型序列,对表格的语义信息进行表示,其中,对于任何一个表格,表头序列和类型序列长度相等,每个位置的元素一一对应。
步骤102,获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;步骤102具体包括:
获取用户输入的查询语句,去掉多余的标点符号和停用词,只保留具有实际语义的词汇;
将查询语句按照中文单词的表达形式,划分为单词序列,进行分词;
构建样本由单词和类型两个元素构成的数据集,针对每个分词,将其映射到一个固定长度的嵌入向量,并通过基于所述数据集进行预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列。
步骤103,针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。步骤103具体包括:
假设表示数据库里的第i个表格,Q表示查询语句,是查询语句的分词序列,是查询语句的类型序列;是第i个表格的表头序列,是第i个表格的类型序列,对于表头序列中第k列的表头文本和分词序列中的第j个文本,分别将其映射为嵌入向量和,然后根据公式1计算:
根据公式3计算打分矩阵的数值:
根据公式4计算各个表格的打分矩阵的平均值:
其中,m为打分矩阵P的行数,即查询语句Q的分词个数,n为打分矩阵的列数,即表格的列数,i表示第i个表格,表示和Q的打分矩阵中第j行第k列的得分数值,即查询语句Q中第j个元素和表格中第k列的关联度得分;
以下对本发明实施例的上述技术方案进行详细说明。
一、表格内容的表示
1、表头信息的汇总:本发明实施例将表格中每一列的表头作为一个单独的字符串,用来表示该列所存储的信息,例如:姓名、国家、收入等。同时,根据每一列表格具体的内容,将每一列划分为不同的类型,具体包括:文本、数值、邮箱、时间、编号、网址、地址。这些类型都可以通过机器自动识别。具体的表格内容类型识别方法为:
文本:中文、英文等字符串形式
数值:0到1以及小数点组成的数字串
邮箱:两个英文字符串中间以“@“符号拼接
时间:满足以下格式之一的(XXXX年XX月XX日XX时XX分XX秒、XXXX年XX月XX日XX时XX分、XXXX年XX月XX日XX时、XXXX年XX月XX日、XXXX年XX月、XXXX年),该格式可预先在程序中配置,可以根据需求进行修改、删除和添加。
编号:由固定长度的英文字母和数字组成的字符串
网址:https://XXXX,http://XXXX
地址:包含地址字段
通过以上方式,如表1和表2所示,给表格中的每一列赋予单独的类型标记。
表1
表头1 | 表头2 | 表头3 | 表头4 | 表头5 |
数据11 | 数据12 | 数据13 | 数据14 | 数据15 |
数据21 | 数据22 | 数据24 | 数据24 | 数据25 |
数据31 | 数据32 | 数据34 | 数据34 | 数据35 |
表2
类型1 | 类型2 | 类型3 | 类型4 | 类型5 |
2、表格语义的向量化表示:本发明实施例基于预训练大模型来表示表格的语义信息。对于每个表格来说,本发明实施例构建两个序列:
序列1:为表头的序列,对应上面示例表格为Tx=[表头1,表头2,表头3,表头4,表头5];
序列2:为类型的序列,对应上面示例表格为Ty=[类型1,类型2,类型3,类型4,类型5]。
对于任何一个表格,表头序列和类型序列长度相等,每一个位置的元素一一对应。
二、自然语言查询语句的表示
用户输入查询语句之后,需要经过:清洗、分词、类型预测两个步骤。
1、查询语句清洗:去掉多余的标点符号、停用词,只保留具有实际语义的词汇。
2、分词:将查询语句按照中文单词的表达形式,划分为单词序列。例如,将查询语句“北京分公司一季度营业收入“分词为:[北京、分公司、一季度、营业、收入]。
3、训练多层感知机来预测分词对应的数据类型:对于分词结果,例如:[北京、分公司、一季度、营业、收入],也需要预测每个单词对应的数据类型,为此,需要构建一批数据集,数据集的每个样本由两个元素构成:(单词,类型),其中单词可以是任意的中文词汇或短语,类型包括上述表格中涉及的六种类型以及“其他”类型共8种:文本、数值、邮箱、时间、编号、网址、地址、其他。本发明实施例通过将每个单词映射到一个固定长度的嵌入向量,例如512维,然后通过多层感知机MLP来执行一个分类任务。
4、在实际应用中,本发明实施例依次将查询语句分词term序列输入MLP,然后预测得到每个分词对应的数据类型type。类似于表格,本发明实施例构建两个序列:
序列1:为分词的序列,对应上面示例为Qx=[北京、分公司、一季度、营业、收入];
序列2:为类型的序列,对应上面示例为Qy=[地址,文本,时间,其他,数值]。
三、自然语言与表格的语义匹配。
步骤2,对于用户的任何一个自然语言查询语句Q,按照上述第二项中的描述,得到其分词和类型序列:(Qx, Qy)。
步骤3,针对查询语句Q和每一个表格Ti,计算分词序列Qx和表头序列的相似度矩阵S,如表3所示,其中,对于表格的第k列表头和分词文本j ,本发明实施例分别将“表头文本k”和“分词文本j”映射为嵌入向量和,然后计算,为0和1区间的实数值。
表3
相似度 | 表头文本1 | 表头文本2 | 表头文本3 | 表头文本4 | 表头文本5 |
分词文本1 | S11 | S12 | S13 | S14 | S15 |
分词文本2 | S21 | S22 | S23 | S24 | S25 |
分词文本3 | S31 | S32 | S33 | S34 | S35 |
分词文本4 | S41 | S42 | S43 | S44 | S45 |
分词文本5 | S51 | S52 | S53 | S54 | S55 |
分词文本6 | S61 | S62 | S63 | S64 | S65 |
步骤4,针对查询语句Q和每一个表格Ti,计算类型序列Qy和表头序列的掩码矩阵M,如表4所示,其中,如果:表格列类型k=分词类型j,则第k列第j行为1,否则为0,用以表示表格的表头是否和查询语句中的分词类型相匹配,Mkj为0或1的二值整数。
表4
掩码 | 表格列类型1 | 表格列类型2 | 表格列类型3 | 表格列类型4 | 表格列类型5 |
分词类型1 | M11 | M12 | M13 | M14 | M15 |
分词类型2 | M21 | M22 | M23 | M24 | M25 |
分词类型3 | M31 | M32 | M33 | M34 | M35 |
分词类型4 | M41 | M42 | M43 | M44 | M45 |
分词类型5 | M51 | M52 | M53 | M54 | M55 |
分词类型6 | M61 | M62 | M63 | M64 | M65 |
表5
打分 | 表格列1 | 表格列2 | 表格列3 | 表格列4 | 表格列5 |
分词1 | P11 | P12 | P13 | P14 | P15 |
分词2 | P21 | P22 | P23 | P24 | P25 |
分词3 | P31 | P32 | P33 | P34 | P35 |
分词4 | P41 | P42 | P43 | P44 | P45 |
分词5 | P51 | P52 | P53 | P54 | P55 |
分词6 | P61 | P62 | P63 | P64 | P65 |
步骤6,因为查询语句Q的分词数目和表格列数差异较大,为了标准化对比预测得分,本发明实施例根据下列公式计算打分矩阵P的平均值,其中,m为打分矩阵P的行数(即查询语句Q的分词个数),n为打分矩阵行数的列数(即表格Ti的列数),i为数据库中第i个表格。
综上所述,借助于本发明实施例的技术方案,相对于关键词匹配的方式,结合表头语义和内容类型两种信息,可以更加精准地对表格内容进行检索。一方面,表头包含了具体的字段信息,内容类型包含了具体的数据类型信息,将这两种信息的语义进行整合表示,可以更好地与用户自然语言查询的语义进行匹配。
装置实施例一
根据本发明实施例,提供了一种基于自然语言的多表格检索装置,图2是本发明实施例的基于自然语言的多表格检索装置的示意图,如图2所示,根据本发明实施例的基于自然语言的多表格检索装置具体包括:
表格表示模块20,用于将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;所述表格表示模块20具体用于:
将表格中每一列的表头作为一个单独字符串,通过所述单独字符串表示该列所存储的信息;
根据表格中每一列表格具体的内容,将每一列划分为不同的类型;
通过预训练大模型构建表头序列和类型序列,对表格的语义信息进行表示,其中,对于任何一个表格,表头序列和类型序列长度相等,每个位置的元素一一对应。
查询分词模块22,用于获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;所述查询分词模块22具体用于:
获取用户输入的查询语句,去掉多余的标点符号和停用词,只保留具有实际语义的词汇;
将查询语句按照中文单词的表达形式,划分为单词序列,进行分词;
构建样本由单词和类型两个元素构成的数据集,针对每个分词,将其映射到一个固定长度的嵌入向量,并通过基于所述数据集进行预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
检索匹配模块24,用于针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。所述检索匹配模块24具体用于:
假设表示数据库里的第i个表格,Q表示查询语句,是查询语句的分词序列,是查询语句的类型序列;是第i个表格的表头序列,是第i个表格的类型序列,对于表头序列中第k列的表头文本和分词序列中的第j个文本,分别将其映射为嵌入向量和,然后根据公式1计算:
根据公式3计算打分矩阵的数值:
根据公式4计算各个表格的打分矩阵的平均值:
其中,m为打分矩阵P的行数,即查询语句Q的分词个数,n为打分矩阵的列数,即表格的列数,i表示第i个表格,表示和Q的打分矩阵中第j行第k列的得分数值,即查询语句Q中第j个元素和表格中第k列的关联度得分;
本发明实施例是与上述方法实施例对应的装置实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例二
本发明实施例提供一种电子设备,如图3所示,包括:存储器30、处理器32及存储在所述存储器30上并可在所述处理32上运行的计算机程序,所述计算机程序被所述处理器32执行时实现如方法实施例中所述的步骤。
装置实施例三
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器32执行时实现如方法实施例中所述的步骤。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于自然语言的多表格检索方法,其特征在于,包括:
将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;
获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。
2.根据权利要求1所述的方法,其特征在于,将表格内容进行表示,获取表格的表头序列和与所述表头序列对应的类型序列具体包括:
将表格中每一列的表头作为一个单独字符串,通过所述单独字符串表示该列所存储的信息;
根据表格中每一列表格具体的内容,将每一列划分为不同的类型;
通过预训练大模型构建表头序列和类型序列,对表格的语义信息进行表示,其中,对于任何一个表格,表头序列和类型序列长度相等,每个位置的元素一一对应。
3.根据权利要求1所述的方法,其特征在于,获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列具体包括:
获取用户输入的查询语句,去掉多余的标点符号和停用词,只保留具有实际语义的词汇;
将查询语句按照中文单词的表达形式,划分为单词序列,进行分词;
构建样本由单词和类型两个元素构成的数据集,针对每个分词,将其映射到一个固定长度的嵌入向量,并通过基于所述数据集进行预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列。
4.根据权利要求1所述的方法,其特征在于,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵具体包括:
假设表示数据库里的第i个表格,Q表示查询语句,是查询语句的分词序列,是查询语句的类型序列;是第i个表格的表头序列,是第i个表格的类型序列,对于表头序列中第k列的表头文本和分词序列中的第j个文本,分别将其映射为嵌入向量和,然后根据公式1计算:
6.一种基于自然语言的多表格检索装置,其特征在于,包括:
表格表示模块,用于将表格内容进行语义表示,获取表格的表头序列和与所述表头序列对应的类型序列;
查询分词模块,用于获取用户输入的查询语句,对所述查询语句进行清洗和分词,通过预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
检索匹配模块,用于针对所述查询语句和每一个表格,计算分词序列和表头序列的相似度矩阵,计算与所述表头序列对应的类型序列和与所述分词序列对应的类型序列的掩码矩阵,分别将各个表格的所述相似度矩阵和所述掩码矩阵相乘,得到各个表格的打分矩阵,根据所述各个表格的打分矩阵获取所述查询语句的检索结果。
7.根据权利要求6所述的装置,其特征在于,所述表格表示模块具体用于:
将表格中每一列的表头作为一个单独字符串,通过所述单独字符串表示该列所存储的信息;
根据表格中每一列表格具体的内容,将每一列划分为不同的类型;
通过预训练大模型构建表头序列和类型序列,对表格的语义信息进行表示,其中,对于任何一个表格,表头序列和类型序列长度相等,每个位置的元素一一对应。
8.根据权利要求6所述的装置,其特征在于,
所述查询分词模块具体用于:
获取用户输入的查询语句,去掉多余的标点符号和停用词,只保留具有实际语义的词汇;
将查询语句按照中文单词的表达形式,划分为单词序列,进行分词;
构建样本由单词和类型两个元素构成的数据集,针对每个分词,将其映射到一个固定长度的嵌入向量,并通过基于所述数据集进行预训练的多层感知机预测分词对应的类型,生成分词序列和与所述分词序列对应的类型序列;
所述检索匹配模块具体用于:
假设表示数据库里的第i个表格,Q表示查询语句,是查询语句的分词序列,是查询语句的类型序列;是第i个表格的表头序列,是第i个表格的类型序列,对于表头序列中第k列的表头文本和分词序列中的第j个文本,分别将其映射为嵌入向量和,然后根据公式1计算:
根据公式3计算打分矩阵的数值:
根据公式4计算各个表格的打分矩阵的平均值:
其中,m为打分矩阵P的行数,即查询语句Q的分词个数,n为打分矩阵的列数,即表格的列数,i表示第i个表格,表示和Q的打分矩阵中第j行第k列的得分数值,即查询语句Q中第j个元素和表格中第k列的关联度得分;
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的基于自然语言的多表格检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至5中任一项所述的基于自然语言的多表格检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310042299.6A CN116049354B (zh) | 2023-01-28 | 2023-01-28 | 基于自然语言的多表格检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310042299.6A CN116049354B (zh) | 2023-01-28 | 2023-01-28 | 基于自然语言的多表格检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049354A true CN116049354A (zh) | 2023-05-02 |
CN116049354B CN116049354B (zh) | 2023-06-20 |
Family
ID=86116121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310042299.6A Active CN116049354B (zh) | 2023-01-28 | 2023-01-28 | 基于自然语言的多表格检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049354B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033469A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种基于表格语义注释的数据库检索方法、装置以及设备 |
CN117252183A (zh) * | 2023-10-07 | 2023-12-19 | 之江实验室 | 一种基于语义的多源表格自动匹配方法、装置及存储介质 |
CN118093597A (zh) * | 2024-04-23 | 2024-05-28 | 浙江大学 | 一种表格数据重构方法及装置、问答方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019032704A (ja) * | 2017-08-08 | 2019-02-28 | 株式会社日立製作所 | 表データ構造化システムおよび表データ構造化方法 |
CN110866042A (zh) * | 2019-10-11 | 2020-03-06 | 平安科技(深圳)有限公司 | 表格智能查询方法、装置及计算机可读存储介质 |
US11182604B1 (en) * | 2019-11-26 | 2021-11-23 | Automation Anywhere, Inc. | Computerized recognition and extraction of tables in digitized documents |
CN114265924A (zh) * | 2021-12-23 | 2022-04-01 | 浙江工业大学 | 一种根据问句检索关联表格的方法与装置 |
CN115062070A (zh) * | 2022-05-30 | 2022-09-16 | 中国电子科技集团公司第十研究所 | 一种基于问答的文本表格数据查询方法 |
CN115495563A (zh) * | 2022-09-16 | 2022-12-20 | 重庆长安汽车股份有限公司 | 基于表格数据检索的智能会话方法及服务器 |
-
2023
- 2023-01-28 CN CN202310042299.6A patent/CN116049354B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019032704A (ja) * | 2017-08-08 | 2019-02-28 | 株式会社日立製作所 | 表データ構造化システムおよび表データ構造化方法 |
CN110866042A (zh) * | 2019-10-11 | 2020-03-06 | 平安科技(深圳)有限公司 | 表格智能查询方法、装置及计算机可读存储介质 |
US11182604B1 (en) * | 2019-11-26 | 2021-11-23 | Automation Anywhere, Inc. | Computerized recognition and extraction of tables in digitized documents |
CN114265924A (zh) * | 2021-12-23 | 2022-04-01 | 浙江工业大学 | 一种根据问句检索关联表格的方法与装置 |
CN115062070A (zh) * | 2022-05-30 | 2022-09-16 | 中国电子科技集团公司第十研究所 | 一种基于问答的文本表格数据查询方法 |
CN115495563A (zh) * | 2022-09-16 | 2022-12-20 | 重庆长安汽车股份有限公司 | 基于表格数据检索的智能会话方法及服务器 |
Non-Patent Citations (1)
Title |
---|
熊回香;赵登鹏;卢晨凡;: "基于词向量模型的中文序列比对研究", 图书情报工作, no. 10, pages 88 - 100 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117033469A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种基于表格语义注释的数据库检索方法、装置以及设备 |
CN117252183A (zh) * | 2023-10-07 | 2023-12-19 | 之江实验室 | 一种基于语义的多源表格自动匹配方法、装置及存储介质 |
CN117033469B (zh) * | 2023-10-07 | 2024-01-16 | 之江实验室 | 一种基于表格语义注释的数据库检索方法、装置以及设备 |
CN117252183B (zh) * | 2023-10-07 | 2024-04-02 | 之江实验室 | 一种基于语义的多源表格自动匹配方法、装置及存储介质 |
CN118093597A (zh) * | 2024-04-23 | 2024-05-28 | 浙江大学 | 一种表格数据重构方法及装置、问答方法 |
CN118093597B (zh) * | 2024-04-23 | 2024-07-30 | 浙江大学 | 一种表格数据重构方法及装置、问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116049354B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
CN116049354B (zh) | 基于自然语言的多表格检索方法及装置 | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
JP4778474B2 (ja) | 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体 | |
CN111651986B (zh) | 事件关键词提取方法、装置、设备及介质 | |
CN111159363A (zh) | 一种基于知识库的问题答案确定方法及装置 | |
US20170193396A1 (en) | Named entity recognition and entity linking joint training | |
CN111325018B (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
CN110851584B (zh) | 一种法律条文精准推荐系统和方法 | |
US11151317B1 (en) | Contextual spelling correction system | |
Alian et al. | Arabic semantic similarity approaches-review | |
CN110991181A (zh) | 用于增强已标注样本的方法和设备 | |
CN114357143A (zh) | 面向军事装备知识图谱的关键信息查询方法 | |
Alshammari et al. | TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM | |
CN112445887B (zh) | 基于检索的机器阅读理解系统的实现方法及装置 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
Bagul et al. | Rule based POS tagger for Marathi text | |
CN115828854B (zh) | 一种基于上下文消歧的高效表格实体链接方法 | |
CN110717014B (zh) | 一种本体知识库动态构建方法 | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Ziv et al. | CompanyName2Vec: Company entity matching based on job ads | |
Pertsas et al. | Ontology-driven information extraction from research publications | |
Maulidia et al. | Feature Expansion with Word2Vec for Topic Classification with Gradient Boosted Decision Tree on Twitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |