CN115659989A - 基于文本语义映射关系的Web表格异常数据发现方法 - Google Patents

基于文本语义映射关系的Web表格异常数据发现方法 Download PDF

Info

Publication number
CN115659989A
CN115659989A CN202211219884.0A CN202211219884A CN115659989A CN 115659989 A CN115659989 A CN 115659989A CN 202211219884 A CN202211219884 A CN 202211219884A CN 115659989 A CN115659989 A CN 115659989A
Authority
CN
China
Prior art keywords
model
column
semantic
data
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211219884.0A
Other languages
English (en)
Inventor
金嘉晖
丁婧伊
张竞慧
罗军舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211219884.0A priority Critical patent/CN115659989A/zh
Publication of CN115659989A publication Critical patent/CN115659989A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了基于文本语义映射关系的Web表格异常数据发现方法。本发明旨在发现Web表格中的带有模糊甚至错误语义信息的异常数据。该方法主要包括三个部分:语义表示模块、列类型推断模块以及错误发现模块。首先,通过语义表示模块表征单元格文本的含义,针对表格中的某一个单元格,根据上下文信息将单元格中的字符串文本表征为语义向量;然后,通过列类型推断模块推断该单元格所在列的类型,获取列的模式信息;最后,基于主列单元格和目标单元格在列类型和单元格文本语义向量之间的映射关系,发现并标注表格中的异常数据。

Description

基于文本语义映射关系的Web表格异常数据发现方法
技术领域
本发明涉及数据异常检测及其应用领域,尤其涉及基于文本语义映射关系的Web表格异常数据发现方法。
背景技术
随着万维网的快速发展,各种信息类网站逐渐融入人们的生活,成为人们日常获取各类信息不可或缺的工具。在网页中由包含语义信息内容组成的关系表格称为Web表格,海量的Web表格不仅方便了人们的知识获取,也成为大量机器学习和训练任务的重要数据来源。然而,由于Web语义表格面向用户开放,人人可参与编辑,导致其包含了大量异常数据甚至是恶意篡改信息。有效的识别Web表格中的异常数据具有重要的现实意义。
传统的表格异常处理技术主要包括基于完整性约束的和基于规则的异常发现方法,以及基于攻击和机器学习的方法。基于完整性约束的方法主要根据各类事先构建的约束信息进行处理,比如函数依赖、包含依赖、条件函数依赖等,该方法需要大量约束信息,对于丰富多变的网络表格难以有效扩展适用。基于规则的方法中自带有正确的数据,这些数值依赖于外部高质量资源,如果外部数据库缺乏相关知识,则无法检测数据中的错误。然而Web表格往往没有预定义的标准模式,对于传统的表格异常处理技术来说,由于局限于预定义的明确的关系模式信息,难以应对Web表格语义信息模糊甚至错误的问题。而基于机器学习的方法则局限于特征工程等方案,需要大量标注数据缺少一整套的面向Web表格的异常发现方法。
针对传统表格异常处理技术面临的挑战,可以引入语义模型作为新的辅助手段,协助对Web表格中的模糊或错误信息进行挖掘和发现。表格数据处理与一般的自然语言处理问题有紧密联系,都需要对其中的文字表述进行语义学习和处理,但与得到广泛研究的描述性文本不同,表格以其行列纵横的特点有着不同的语义呈现方式,需要提出针对表格形式的处理模型。此外,如何根据挖掘和利用表格中的语义映射关系来识别异常数据也是一项新的挑战。因此,如何设计针对表格语义特征的语义模型,实现Web表格的异常处理,是当前所需要解决的重要问题。
发明内容
发明目的:针对以上现有技术存在的问题,本发明提出了基于文本语义映射关系的 Web表格异常数据发现方法,着重解决传统表格异常处理技术中难以识别缺乏模式的表格错误,和难以应对模糊或错误的语义信息的问题。将单元格中的文本字符串转换为文本语义空间语义向量,并将其用于推断列的模式信息,最后基于关系映射的办法,实现错误发现找到表格中的错误。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:基于文本语义映射关系的Web表格异常数据发现方法,该方法包括以下步骤:
步骤1.给定待处理的Web表格数据T,其中T={ci,j|0≤i<R,0≤j<C},R和C分别表示表格T的行数和列数,ci,j表示单元格的字符串文本,每个单元格字符串文本由一个或多个英文单词组成ci,j=(x1,x2,…,xn);使用表格数据集合预训练语义模型MSR,在训练过程中拼接每个单元格所处同行同列的所有字符串文本作为训练集,向模型MSR输入表格T中某单元格ci,j,输出其对应的语义向量vi,j
步骤2.基于海量Web表格数据训练列类型推断模型MCTI,在字符串文本语义空间内,根据现有的列直接分类,使用多分类训练方式训练列类型推断模型MCTI,向模型MCTI输入经过语义模型MSR处理后的表格T,输出列类型推断结果H={hj|0≤j<C};
步骤3.根据核心列和目标单元格所在列的映射关系建立错误发现模型MED,模型输入为步骤1得到单元格数据语义向量vi,j,以及步骤2得到的列类型推断结果H,输出预测的单元格数据语义向量
Figure RE-GDA0004020190250000021
计算预测值
Figure RE-GDA0004020190250000022
与实际值vi,j的余弦相似度,低于阈值的被认为该单元格存在异常数据。
进一步的,步骤1中,所述使用表格数据集合预训练语义模型MSR,在训练过程中拼接每个单元格所处同行同列的所有字符串文本作为训练集,向模型MSR输入表格T中某单元格ci,j,输出其对应的语义向量vi,j,具体步骤为:
步骤101.取表格T中任意一列j,组成列单元格数据集{ci,j|0≤i<R}j,对由多个列生成的集合随机排列,形成新的有序数据集
Figure RE-GDA0004020190250000023
破除其单元格,将单元格文本进行拼接组合从而得到列数据训练集,如以下公式所示:
Figure RE-GDA0004020190250000024
步骤102.根据步骤101所述的方法处理行单元格数据行处理,得到行数据训练集SetR
步骤103.生成训练集集合SetW=SetC∪SetR,其中SetC是通过列数据采集方法构建的训练集,SetR为通过行数据采集方法构建的训练集;
步骤104.使用构建的训练集通过Word2Vec模型进行训练,训练得到文本-语义向量的映射字典。输入单元格内容ci,j=(x1,x2,…,xn),通过映射字典,得到每个字符串对应的语义向量g(xi)=vi,通过平均的方法得到单元格ci,j的语义表示向量,其计算公式如下:
Figure RE-GDA0004020190250000031
步骤2中,所述使用多分类训练方式训练列类型推断模型MCTI,向模型MCTI输入经过语义模型MSR处理后的表格T,输出列类型推断结果H={hj|0≤j<C},具体步骤为:
步骤201.表格T中的某一列单元格数据为Cj={ci,j|0≤i<R}j,遍历该列的所有单元格数据,如果该单元格字符串文本不为空,则使用语义模型MSR处理得到该列所有单元格所对应的语义表示向量集合C′j={vi,j|0≤i<R}j
步骤202.从C′j中随机筛选数量为l的语义向量,记为Cj″={v1,v2,…,vl};
步骤203.使用深度学习语言模型Transformer作为列类型推断模型MCTI的主体,在数据Cj″的首位插入[CLS]标签,在其结尾插入[SEP]标签,分词操作后将其作为输入文本;
步骤204.将输入文本送入词向量层(TokenEmbedding),将每一个词转换为维度相同的词嵌入向量;
步骤205.将输入文本送入位置向量层(PositionEmbedding),将每一个词转换为位置嵌入向量,具体是将[CLS]标签位置标注为E0,将[SEP]标签位置标注为E2,其他所有输入的对应位置嵌入向量均为E1
步骤206.将Token Embedding和Position Embedding的各个向量相加作为MCTI模型的输入,选择标签[CLS]部分输出的向量作为输出的处理对象,[CLS]标签的输出表示为
Figure RE-GDA0004020190250000032
并将其输入两层多层感知机后计算其归一化指数函数(Softmax函数)计算结果:
Figure RE-GDA0004020190250000033
O=Softmax(H1Wo)+bo
步骤207.将训练模型的方式转变为多分类问题,采用线性整流函数(ReLU函数)作为激活函数,使用交叉熵损失函数:
Figure RE-GDA0004020190250000041
其中,M为类别的数量,即统计的列类型的总数,yic表示分类标签,pic表示模型输出的对应分类的频率;
步骤208.通过多层感知机模型得到其隐层的计算结果为hj∈Rd2,该值作为该列数据的语义表示向量;
进一步的,步骤3中,所述根据核心列和目标单元格所在列的映射关系建立错误发现模型MED,具体步骤为:
步骤301.定义表格的最左列为核心列,各行最左实体为核心实体,表格T中的核心实体集合为{ci,0|0≤i<R};
步骤302.在表格T={ci,j|0≤i<R,0≤j<C}中,结合步骤1得到的语义表示结果{vi,j|0≤i<R,0≤j<C}和步骤2得到的列类型推断结果H={hj|0≤j<C},以各行中核心实体为依据建立映射关系h:
h(h0,h1)≈h(vi,0,hi,j)
步骤303.以长短期记忆人工神经网络(LSTM)为核心模型、序列对序列(Seq2Seq)模型为整体框架建立错误发现模型MED,将两列的列类型映射关系建模,计算行内单元格实体的映射关系得到结果,其中,模型的输入为表格T中列类型推断结果H以及单元格数据语义向量vi,j,模型的输出为预测的单元格数据语义向量
Figure RE-GDA0004020190250000042
步骤304.在MED模型的编码部分(Encoder),输入为列类型推断向量H,将要处理的两列数据构成不同时间步的输入{h0,hj},模型的输出为各时间步的隐层向量{x1,x2}、信息向量以及前步信息,提取模型末端隐层向量x2作为解码部分的输入;
步骤305.在MED模型的解码部分(Decoder),输入核心实体和属性实体对ci,0和ci,j,其中前者组成输入语序{vi,0,x<go>},x<go>为预设置的标志向量,将编码部分的输出x2作为隐层输入,模型输出为信息向量{o1,o2},令
Figure RE-GDA0004020190250000043
步骤306.使用余弦相似度计算单元格语义向量的预测值
Figure RE-GDA0004020190250000044
和实际值vi,j的相似度,低于设定阈值的被认为存在异常数据;
步骤307.MED模型输出表格中实际值和预测值不匹配的单元格,这些单元格表示该表格可能存在的异常数据。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
(1)可以识别缺少明确模式信息的表格中的异常数据。由于Web表格是在开放的松散环境下由用户构造,并没有预定义的标准模式,这就要求模型理解表格中的语义信息,然而传统的异常发现方法难以应对语义多样的表格数据,需要大量约束条件或外部数据库的支持。本发明训练语义模型识别单元格语义和表中列的类型,可以识别没有标准模式信息的表格中的异常数据;
(2)可以提高Web表格异常数据发现的准确性。基于文本语义映射关系的Web表格异常数据发现方法解决了传统异常数据发现方法中难以识别模糊语义信息的问题,综合单元格语义和识别列类型,利用基于关系映射的办法推断单元格内容是否错误,有效识别语义模糊的文本数据。
附图说明
图1基于文本语义映射关系的Web表格异常数据发现方法流程图;
图2基于文本语义映射关系的Web表格异常数据发现方法实例图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
本发明的目标是解决基于文本语义映射关系的Web表格异常数据发现问题。由于Web表格是在开放松散环境下构造的,因此往往存在着一些错误或异常数据。本发明所处理的Web表格是蕴含了实体以及实体间关系的语义表格,其中的某个单元格内容表示的是某个实体,比如单元格“MichaelJordan”,结合上下文可以知其是否代表的是“NBA 球星迈克尔乔丹”。而整张表表示的是实体间的关系,比如“Olajuwon”所在的球队是“HoustonRockets”,同时,表格中乔丹的球队可能被错误的填写为“Lakers”。本发明针对此类Web表格进行异常数据发现,找到表格中的异常数据并标记。
本发明构建基于文本语义映射关系的Web表格异常数据发现模型,通过语义表示模块将单元格中的字符串文本转换为语义空间向量,然后使用列类型推断模块对表格的列类型进行推断和表征,错误发现模块综合上述模块,基于映射关系发掘表格错误数据。为此,本发明具体执行步骤如下:
步骤1.给定待处理的Web表格数据T,其中T={ci,j|0≤i<R,0≤j<C},R和C分别表示表格T的行数和列数,ci,j表示单元格的字符串文本,每个单元格字符串文本由一个或多个英文单词组成ci,j=(x1,x2,…,xn);使用表格数据集合预训练语义模型MSR,在训练过程中拼接每个单元格所处同行同列的所有字符串文本作为训练集,向模型MSR输入表格T中某单元格ci,j,输出其对应的语义向量vi,j;例:如图2所示,该表格有三行两列,第一列是NBA球星的名字,第二列是球星所在的球队,其中可以看出“MichaelJordan”所在的球队存在异常,表格中是“Lakers”,但实际应该是“Chicago Bulls”,向MSR模型输入表格T,输出每个单元格字符串文本表征的语义向量;
步骤2.基于海量Web表格数据训练列类型推断模型MCTI,在字符串文本语义空间内,根据现有的列直接分类,使用多分类训练方式训练列类型推断模型MCTI,向模型MCTI输入经过语义模型MSR处理后的表格T,输出列类型推断结果H={hj|0≤j<C};例如,向模型MCTI输入球星列和球队列,其中每列的每个单元格都是由MSR模型处理过的语义向量,分别输出两个列类型语义向量;
步骤3.根据核心列和目标单元格所在列的映射关系建立错误发现模型MED,模型输入为步骤1得到单元格数据语义向量vi,j,以及步骤2得到的列类型推断结果H,输出预测的单元格数据语义向量
Figure RE-GDA0004020190250000061
计算预测值
Figure RE-GDA0004020190250000062
与实际值vi,j的余弦相似度,低于阈值的被认为该单元格存在异常数据;例如,分别得到“MichaelJordan”的语义向量和其所在列以及球队列的语义向量后,预测迈克尔乔丹所在的球队语义向量,计算其与真实值“Lakers”语义向量之间的余弦相似度,超出阈值因此是存在异常数据。
进一步的,步骤1中,所述使用表格数据集合预训练语义模型MSR,在训练过程中拼接每个单元格所处同行同列的所有字符串文本作为训练集,向模型MSR输入表格T中某单元格ci,j,输出其对应的语义向量vi,j,具体步骤为:
步骤101.取表格T中任意一列j,组成列单元格数据集{ci,j|0≤i<R}j,对由多个列生成的集合随机排列,形成新的有序数据集
Figure RE-GDA0004020190250000063
破除其单元格,将单元格文本进行拼接组合从而得到列数据训练集,如以下公式所示:
Figure RE-GDA0004020190250000064
如图2所示,分别对第一列和第二列进行处理,可能得到的列数据训练集为“Chamberlain Olajuwon JordanMichael”,以及“LakersRocketsAngelesLakersHoustonLos”;
步骤102.根据步骤101所述的方法处理行单元格数据行处理,得到行数据训练集SetR,例如,对第二行进行处理得到行数据训练集可能为“LakersJordanMichael”;
步骤103.生成训练集集合SetW=SetC∪SetR,其中SetC是通过列数据采集方法构建的训练集,SetR为通过行数据采集方法构建的训练集;
步骤104.使用构建的训练集通过Word2Vec模型进行训练,训练得到文本-语义向量的映射字典。输入单元格内容ci,j=(x1,x2,…,xn),通过映射字典,得到每个字符串对应的语义向量g(xi)=vi,通过平均的方法得到单元格ci,j的语义表示向量,其计算公式如下:
Figure RE-GDA0004020190250000071
步骤2中,所述使用多分类训练方式训练列类型推断模型MCTI,向模型MCTI输入经过语义模型MSR处理后的表格T,输出列类型推断结果H={hj|0≤j<C},具体步骤为:
步骤201.表格T中的某一列单元格数据为Cj={ci,j|0≤i<R}j,遍历该列的所有单元格数据,如果该单元格字符串文本不为空,则使用语义模型MSR处理得到该列所有单元格所对应的语义表示向量集合C′j={vi,j|0≤i<R}j;例如,第一列的单元格数据经过语义模型后处理得到该列三个单元格所对应语义向量组成的集合;
步骤202.从C′j中随机筛选数量为l的语义向量,记为Cj″={v1,v2,…,vl};
步骤203.使用深度学习语言模型Transformer作为列类型推断模型MCTI的主体,在数据Cj″的首位插入[CLS]标签,在其结尾插入[SEP]标签,分词操作后将其作为输入文本;
步骤204.将输入文本送入词向量层(TokenEmbedding),将每一个词转换为维度相同的词嵌入向量;
步骤205.将输入文本送入位置向量层(PositionEmbedding),将每一个词转换为位置嵌入向量,具体是将[CLS]标签位置标注为E0,将[SEP]标签位置标注为E2,其他所有输入的对应位置嵌入向量均为E1
步骤206.将Token Embedding和Position Embedding的各个向量相加作为MCTI模型的输入,选择标签[CLS]部分输出的向量作为输出的处理对象,[CLS]标签的输出表示为
Figure RE-GDA0004020190250000072
并将其输入两层多层感知机后计算其归一化指数函数(Softmax函数)计算结果:
Figure RE-GDA0004020190250000081
O=Softmax(H1Wo)+bo
步骤207.将训练模型的方式转变为多分类问题,采用线性整流函数(ReLU函数)作为激活函数,使用交叉熵损失函数:
Figure RE-GDA0004020190250000082
其中,M为类别的数量,即统计的列类型的总数,yic表示分类标签,pic表示模型输出的对应分类的频率;
步骤208.通过多层感知机模型得到其隐层的计算结果为
Figure RE-GDA0004020190250000083
该值作为该列数据的语义表示向量;
进一步的,步骤3中,所述根据核心列和目标单元格所在列的映射关系建立错误发现模型MED,具体步骤为:
步骤301.定义表格的最左列为核心列,各行最左实体为核心实体,表格T中的核心实体集合为{ci,0|0≤i<R};例如,图2中的表格“MichaelJordan”所在的列是核心类,“MichaelJordan”是核心实体;
步骤302.在表格T={ci,j|0≤i<R,0≤j<C}中,结合步骤1得到的语义表示结果{vi,j|0≤i<R,0≤j<C}和步骤2得到的列类型推断结果H={hj|0≤j<C},以各行中核心实体为依据建立映射关系h:
h(h0,h1)≈h(vi,0,hi,j)
步骤303.以长短期记忆人工神经网络(LSTM)为核心模型、序列对序列(Seq2Seq)模型为整体框架建立错误发现模型MED,将两列的列类型映射关系建模,计算行内单元格实体的映射关系得到结果,其中,模型的输入为表格T中列类型推断结果H以及单元格数据语义向量vi,j,模型的输出为预测的单元格数据语义向量
Figure RE-GDA0004020190250000084
步骤304.在MED模型的编码部分(Encoder),输入为列类型推断向量H,将要处理的两列数据构成不同时间步的输入{h0,hj},模型的输出为各时间步的隐层向量{x1,x2}、信息向量以及前步信息,提取模型末端隐层向量x2作为解码部分的输入;
步骤305.在MED模型的解码部分(Decoder),输入核心实体和属性实体对ci,0和ci,j,其中前者组成输入语序{vi,0,x<go>},x<go>为预设置的标志向量,将编码部分的输出x2作为隐层输入,模型输出为信息向量{o1,o2},令
Figure RE-GDA0004020190250000091
步骤306.使用余弦相似度计算单元格语义向量的预测值
Figure RE-GDA0004020190250000092
和实际值vi,j的相似度,低于设定阈值的被认为存在异常数据;例如,图2中的单元格语义向量预测值“Bulls”与实际值“Lakers”的相似度低于阈值,认为是异常数据;
步骤307.MED模型输出表格中实际值和预测值不匹配的单元格,这些单元格表示该表格可能存在的异常数据。

Claims (4)

1.基于文本语义映射关系的Web表格异常数据发现方法,其特征在于,该方法包括以下步骤:
步骤1.给定待处理的Web表格数据T,其中T={ci,j|0≤i<R,0≤j<C},R和C分别表示表格T的行数和列数,ci,j表示单元格的字符串文本,每个单元格字符串文本由一个或多个英文单词组成ci,j=(x1,x2,...,xn);使用表格数据集合预训练语义模型MSR,在训练过程中拼接每个单元格所处同行同列的所有字符串文本作为训练集,向模型MsR输入表格T中某单元格ci,j,输出其对应的语义向量vi,j
步骤2.基于海量Web表格数据训练列类型推断模型MCTI,在字符串文本语义空间内,根据现有的列直接分类,使用多分类训练方式训练列类型推断模型MCTI,向模型MCTI输入经过语义模型MSR处理后的表格T,输出列类型推断结果H={hj|0≤j<C};
步骤3.根据核心列和目标单元格所在列的映射关系建立错误发现模型MED,模型输入为步骤1得到单元格数据语义向量vi,j,以及步骤2得到的列类型推断结果H,输出预测的单元格数据语义向量
Figure FDA0003876935210000011
计算预测值
Figure FDA0003876935210000012
与实际值vi,j的余弦相似度,低于阈值的被认为该单元格存在异常数据。
2.根据权利要求1所述的基于文本语义映射关系的Web表格异常数据发现方法,其特征在于,步骤1中,所述使用表格数据集合预训练语义模型MSR,在训练过程中拼接每个单元格所处同行同列的所有字符串文本作为训练集,向模型MSR输入表格T中某单元格ci,j,输出其对应的语义向量vi,j,具体步骤为:
步骤101.取表格T中任意一列j,组成列单元格数据集{ci,j|0≤i<R}j,对由多个列生成的集合随机排列,形成新的有序数据集
Figure FDA0003876935210000013
破除其单元格,将单元格文本进行拼接组合从而得到列数据训练集,如以下公式所示:
Figure FDA0003876935210000014
步骤102.根据步骤101所述的方法处理行单元格数据行处理,得到行数据训练集SetR
步骤103.生成训练集集合SetW=SetC∪SetR,其中Setc是通过列数据采集方法构建的训练集,SetR为通过行数据采集方法构建的训练集;
步骤104.使用构建的训练集通过Word2Vec模型进行训练,训练得到文本-语义向量的映射字典;输入单元格内容ci,j=(x1,x2,...,xn),通过映射字典,得到每个字符串对应的语义向量g(xi)=vi,通过平均的方法得到单元格ci,j的语义表示向量,其计算公式如下:
Figure FDA0003876935210000021
3.根据权利要求1所述的基于文本语义映射关系的Web表格异常数据发现方法,其特征在于,步骤2中,所述使用多分类训练方式训练列类型推断模型MCTI,向模型MCTI输入经过语义模型MSR处理后的表格T,输出列类型推断结果H={hj|0≤j<C},具体步骤为:
步骤201.表格T中的某一列单元格数据为Cj={ci,j|0≤i<R}j,遍历该列的所有单元格数据,如果该单元格字符串文本不为空,则使用语义模型MSR处理得到该列所有单元格所对应的语义表示向量集合C′j={vi,j|0≤i<R}j
步骤202.从C′j中随机筛选数量为l的语义向量,记为C″j={v1,v2,…,vl};
步骤203.使用深度学习语言模型作为列类型推断模型MCTI的主体,在数据C″j的首位插入[CLS]标签,在其结尾插入[SEP]标签,分词操作后将其作为输入文本;
步骤204.将输入文本送入词向量层,将每一个词转换为维度相同的词嵌入向量;
步骤205.将输入文本送入位置向量层,将每一个词转换为位置嵌入向量,具体是将[CLS]标签位置标注为E0,将[SEP]标签位置标注为E2,其他所有输入的对应位置嵌入向量均为E1
步骤206.将词向量层和位置向量层的各个向量相加作为MCTI模型的输入,选择标签[CLS]部分输出的向量作为输出的处理对象,[CLS]标签的输出表示为
Figure FDA0003876935210000022
并将其输入两层多层感知机后计算其归一化指数函数计算结果:
Figure FDA0003876935210000023
O=Softmax(H1Wo)+bo
步骤207.将训练模型的方式转变为多分类问题,采用线性整流函数作为激活函数,使用交叉熵损失函数:
Figure FDA0003876935210000031
其中,M为类别的数量,即统计的列类型的总数,yic表示分类标签,pic表示模型输出的对应分类的频率;
步骤208.通过多层感知机模型得到其隐层的计算结果为
Figure FDA0003876935210000032
该值作为该列数据的语义表示向量。
4.根据权利要求1所述的基于文本语义映射关系的Web表格异常数据发现方法,其特征在于,步骤3中,所述根据核心列和目标单元格所在列的映射关系建立错误发现模型MED,具体步骤为:
步骤301.定义表格的最左列为核心列,各行最左实体为核心实体,表格T中的核心实体集合为{ci,0|0≤i<R};
步骤302.在表格T={ci,j|0≤i<R,0≤j<C}中,结合步骤1得到的语义表示结果{vi,j|0≤i<R,0≤j<C}和步骤2得到的列类型推断结果H={hj|0≤j<C},以各行中核心实体为依据建立映射关系h:
h(h0,h1)≈h(vi,0,hi,j)
步骤303.以长短期记忆人工神经网络为核心模型、序列对序列模型为整体框架建立错误发现模型MED,将两列的列类型映射关系建模,计算行内单元格实体的映射关系得到结果,其中,模型的输入为表格T中列类型推断结果H以及单元格数据语义向量vi,j,模型的输出为预测的单元格数据语义向量
Figure FDA0003876935210000033
步骤304.在MED模型的编码部分,输入为列类型推断向量H,将要处理的两列数据构成不同时间步的输入{h0,hj},模型的输出为各时间步的隐层向量{x1,x2}、信息向量以及前步信息,提取模型末端隐层向量x2作为解码部分的输入;
步骤305.在MED模型的解码部分,输入核心实体和属性实体对ci,0和ci,j,其中前者组成输入语序{vi,0,x<go>},x<go>为预设置的标志向量,将编码部分的输出x2作为隐层输入,模型输出为信息向量{o1,o2},令
Figure FDA0003876935210000034
步骤306.使用余弦相似度计算单元格语义向量的预测值
Figure FDA0003876935210000035
和实际值vi,j的相似度,低于设定阈值的被认为存在异常数据;
步骤307.MED模型输出表格中实际值和预测值不匹配的单元格,这些单元格表示该表格可能存在的异常数据。
CN202211219884.0A 2022-10-06 2022-10-06 基于文本语义映射关系的Web表格异常数据发现方法 Pending CN115659989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211219884.0A CN115659989A (zh) 2022-10-06 2022-10-06 基于文本语义映射关系的Web表格异常数据发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211219884.0A CN115659989A (zh) 2022-10-06 2022-10-06 基于文本语义映射关系的Web表格异常数据发现方法

Publications (1)

Publication Number Publication Date
CN115659989A true CN115659989A (zh) 2023-01-31

Family

ID=84984997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211219884.0A Pending CN115659989A (zh) 2022-10-06 2022-10-06 基于文本语义映射关系的Web表格异常数据发现方法

Country Status (1)

Country Link
CN (1) CN115659989A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN117252183B (zh) * 2023-10-07 2024-04-02 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
Niu et al. Multi-modal multi-scale deep learning for large-scale image annotation
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN112801010B (zh) 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
CN111191275A (zh) 敏感数据识别方法、系统及其装置
Li et al. Text-to-text generative adversarial networks
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN111783461A (zh) 一种基于句法依存关系的命名实体识别方法
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN114255159A (zh) 手写文本图像生成方法、装置、电子设备和存储介质
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
CN114065848A (zh) 一种基于预训练情感嵌入的中文方面级别情感分类方法
CN113722490A (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN115718815A (zh) 一种跨模态检索方法和系统
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN115659989A (zh) 基于文本语义映射关系的Web表格异常数据发现方法
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN116304064A (zh) 一种基于抽取式的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination