CN115358186B - 一种槽位标签的生成方法、装置及存储介质 - Google Patents
一种槽位标签的生成方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115358186B CN115358186B CN202211060094.2A CN202211060094A CN115358186B CN 115358186 B CN115358186 B CN 115358186B CN 202211060094 A CN202211060094 A CN 202211060094A CN 115358186 B CN115358186 B CN 115358186B
- Authority
- CN
- China
- Prior art keywords
- slot
- label
- mask
- prompt
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种槽位标签的生成方法、装置及存储介质,其中槽位标签的生成方法包括步骤:获取包含初始槽位的文档文件,所述文档文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;获取所述文档文件的初始槽位前后文信息,利用基于预训练语言模型的提示学习方法,根据所述初始槽位前后文信息,在所述初始槽位处生成对应的提示掩码;根据所述提示掩码,利用所述预训练语言模型,预测并生成所述槽位标签。通过上述方法,可以同时考虑槽位的前后文语义信息来生成槽位标签,使生成的槽位标签更加准确。
Description
技术领域
本申请涉及自然语言技术领域,具体涉及一种槽位标签的生成方法、装置及存储介质。
背景技术
在自然语言处理任务中,槽位信息提取是一种常见的任务类型,在对话系统、数据挖掘和实体提取中都有应用。槽位信息提取通常会定义所需提取的槽位信息即生成槽位标签,如:消费金额,公告主体等,然后再获取该槽位对应的槽位信息中的所需内容或者修改、填写槽位信息。传统的槽位标签的生成方法,一般通过使用文本生成模型来实现。
但生成模型一般为单向模型,是一种自回归的预测方式。自回归方式的缺点是只能利用前文或者后文的信息,不能同时利用前文和后文的信息,常用于文本摘要以及机器翻译任务,因为这类任务在生成时的顺序天然是从左向右,与自回归语言模型匹配。
因此,需要一种槽位标签的生成方案来弥补现有技术的不足,提供更准确的槽位标签。
发明内容
本申请实施例的目的在于提供一种槽位标签的生成方法、装置及存储介质,用以解决现有技术中的槽位标签的生成方法不能同时利用前后文信息,造成生成的槽位标签不准确的问题。
为实现上述目的,本申请实施例提供一种槽位标签的生成方法,包括步骤:获取包含初始槽位的文档文件,所述文档文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
获取所述文档文件的初始槽位前后文信息,利用基于预训练语言模型的提示学习方法,根据所述初始槽位前后文信息,在所述初始槽位处生成对应的提示掩码;
根据所述提示掩码,利用所述预训练语言模型,预测并生成所述槽位标签。
可选地,在所述初始槽位处生成对应的所述提示掩码的方法还包括:
将所述文档文件的所述初始槽位调整为目标槽位,所述目标槽位处生成有所述提示掩码。
可选地,预测并生成所述槽位标签的方法包括:
利用所述预训练语言模型,进行掩码预测任务,分别预测出每个所述提示掩码对应的真实文字,然后组合所述提示掩码处的各单个所述真实文字,形成完整的所述槽位标签。
可选地,在所述初始槽位处生成对应的所述提示掩码的方法还包括:
构建提示模板,用以提示所述预训练语言模型的学习目标是预测被所述提示模板标记处的所述槽位标签。
可选地,还包括:
基于数据集分析,选定所述槽位标签的最长长度,如果所述槽位标签的长度小于所述最长长度,则使用所述提示掩码对所述预训练语言模型的输入部分进行遮蔽,对输出的所述槽位标签使用结束标识进行填充。
可选地,还包括:
基于所述初始槽位对应的所述槽位标签,获取所述槽位标签对应的填写内容,将所述所述填写内容还原到所述文档文件的对应位置。
可选地,获取所述槽位标签对应的所述填写内容的方法包括:
将所述初始槽位和对应的所述槽位标签整合为表单,将所述表单发送给用户,获取所述用户输入的信息,得到所述槽位标签对应的所述填写内容。
可选地,将所述槽位对应的所述填写内容还原到所述文档文件中的方法包括:
对于DOCX文档格式的所述文档文件,直接将所述填写内容替换对应的所述初始槽位的空白;
对于图片格式和PDF文档格式的所述文档文件,使用覆盖图层的方式,将所述填写内容的贴图覆盖对应的所述初始槽位的空白。
为实现上述目的,本申请还提供一种槽位标签的生成装置,包括:存储器;以及
与所述存储器连接的处理器,所述处理器被配置成:
获取包含初始槽位的文档文件,所述文档文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
获取所述文档文件的初始槽位前后文信息,利用基于预训练语言模型的提示学习方法,根据所述初始槽位前后文信息,在所述初始槽位处生成对应的提示掩码;
根据所述提示掩码,利用所述预训练语言模型,预测并生成所述槽位标签。
为实现上述目的,本申请还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执行时实现如上所述的方法的步骤。
本申请实施例具有如下优点:
1.本申请实施例提供一种槽位标签的生成方法,包括步骤:获取包含初始槽位的文档文件,所述文档文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;获取所述文档文件的初始槽位前后文信息,利用基于预训练语言模型的提示学习方法,根据所述初始槽位前后文信息,在所述初始槽位处生成对应的提示掩码;根据所述提示掩码,利用所述预训练语言模型,预测并生成所述槽位标签。
通过上述方法,可以同时考虑槽位的前后文语义信息来生成槽位标签,使生成的槽位标签更加准确。相比现有技术中每个任务定义一套参数,在输入加上特定的信息,提示学习方法不需要改变整个模型的参数,从而提升效率和存储空间,传统pretrain+finetune(预训练+微调)的训练方式是有差异的,需要从大规模无监督数据训练迁移到下游finetune的任务,提示学习的方式打破了这个方式。
附图说明
为了更清楚地说明本申请的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本申请实施例提供的一种槽位标签的生成方法的流程图;
图2a为本申请实施例提供的一种文档智能填写方法中的定位所述槽位的方法中进行灰度化处理的效果示意图;
图2b为本申请实施例提供的一种文档智能填写方法中的定位所述槽位的方法中进行开操作处理的效果示意图;
图2c为本申请实施例提供的一种文档智能填写方法中的定位所述槽位的方法中进行再膨胀操作的效果示意图;
图2d为本申请实施例提供的一种文档智能填写方法中的定位所述槽位的方法中进行霍夫变换处理的效果示意图;
图3为本申请实施例提供的一种槽位标签的生成方法的生成所述槽位对应的槽位标签的模型示意图;
图4为本申请实施例提供的一种槽位标签的生成装置的模块框图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本申请一实施例提供一种槽位标签的生成方法,参考图1,图1为本申请的一实施方式中提供的一种槽位标签的生成方法的流程图,应当理解的是,该方法还可以包括未示出的附加框和/或可以省略所示出的框,本申请的范围在此方面不受限制。
在本申请的各个实施例中,将以带有待填写初始槽位的合同模板的填写为例,进行本申请的方案的说明,应当理解的是,所述文档文件还可以是其他种类的带有初始槽位的文件,本申请的方案同样适用。
在步骤101处,获取包含初始槽位的文档文件,所述文档文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式。
具体地,在本实施例中,即合同模板的读取。由于合同模板载体形式多样,需要首先进行合同模板文件的类型判断,针对可编辑的docx,解析其对应的XML文档(XML:从2007Microsoft Office系统开始,Microsoft Office使用基于XML的文件格式,该格式具有较好的扩展性,且支持开发人员读取核心源码并进行修改),用以获取全文的文本内容,以及对应槽位位置的XML标签。针对非可编辑的pdf或者图片文件,由于无法直接获取原始word文档的结构信息,以及文本内容,故需要使用OCR算法进行文字识别,使用图像识别算法识别全文中的所有槽位。对于其他类型的文档文件,可以先转换为DOCX文档格式、图片格式和/或PDF文档格式,然后再适用本方案进行槽位标签的生成处理。
在一些实施例中,当所述文档文件的类型为DOCX文档格式时,定位出所述文档文件中的所述初始槽位的方法包括:通过正则表达式解析出所述文档文件中的所述初始槽位,通过所述初始槽位的前文文本和后文文本确定对应的所述初始槽位位置信息。
在一些实施例中,当所述文档文件的类型为图片格式或者PDF文档格式时,定位出所述文档文件中的所述初始槽位的方法包括:获取图片格式的所述文档文件的图片或者PDF文档格式的所述文档文件转存得到的所述图片;对所述图片进行灰度化处理;对所述图片进行先腐蚀后膨胀的开操作,提取出所述初始槽位的下划线;对所述图片进行再膨胀操作,所述再膨胀操作是将所述图片的图像的轮廓加以膨胀;利用霍夫变换,将所述图片中的所述初始槽位的下划线检测并提取出来,获得每个所述初始槽位在所述图片中的坐标,得到所述初始槽位位置信息。
在一些实施例中,获得每个所述初始槽位在所述图片中的坐标之后,还包括:
利用OCR获取所述文档文件中每个文字的坐标,基于所述每个文字的坐标,取与所述初始槽位的左下角坐标最接近的文字,作为所述初始槽位的前文文本,取与所述初始槽位的右上角坐标最接近的文字,作为所述初始槽位的后文文本,从而得到所述初始槽位前后文信息。
具体地,基于前述步骤读取的合同模板,对于docx文件,可以通过正则表达式解析出对应的初始槽位,其初始槽位的定位方式为:通过对应初始槽位的前文文本及后文文本唯一确定,即获得了初始槽位位置信息以及对应的前后文信息。
对于pdf或图片文件,基于open-cv进行处理,Open CV(Open Source ComputerVision Library)是一个开源的计算机视觉库,它提供了很多函数,这些函数非常高效地实现了计算机视觉算法(最基本的滤波到高级的物体检测皆有涵盖)。对于pdf,首先读取并将每一页都转存为图片,随后,基于open-cv对图片进行形态学处理,如图2a至图2d所示,主要处理过程分别为:
a、灰度化处理:灰度化就是使彩色图像的R、G、B三个分量相等的过程。由于合同文件一般为黑白文档,且初始槽位定位任务不依赖于其它颜色分量,故可以将原始彩色图像中的RGB的3维矩阵化成2维矩阵(img[R][B][G]->img[Grey1][Grey2]),便于后续流程处理,处理结果如图2a。
b、开操作:开操作其实就是先腐蚀后膨胀的过程。该操作主要用于消除小物体、平滑较大物体的边界的同时并不明显改变其面积,提取水平或竖直的线。结合合同中文字及初始槽位形态特征,将开操作的核的大小设定为60×1,处理结果如图2b,可以看出该操作准确提取出了初始槽位下划线,并将非初始槽位部分的文字全部移除。
c、再膨胀:由于步骤b中开操作得到的初始槽位直线可能使得部分初始槽位过于纤细不够明显,可能导致后续步骤d的直线检测无法准确定位。故对步骤b的结果进行再次膨胀,膨胀结果如图2c。膨胀操作是将图像的轮廓加以膨胀,其公式如下所示:
dst(x,y)=max(x′,y′):element|(x′,y′)≠0 src(x+x′,y+y′)
d、霍夫变换:霍夫变换(Hough Transform)是图像处理中的一种特征提取技术,它通过一种投票算法检测具有特定形状的物体。该过程在一个参数空间中通过计算累计结果的局部最大值得到一个符合该特定形状的集合作为霍夫变换结果。应当理解的是,一条直线在直角坐标系下可以用y=kx+b表示,霍夫变换的主要思想是将该方程的参数和变量交换,即用x,y作为已知量k,b作为变量坐标,所以直角坐标系下的直线y=kx+b在参数空间表示为点(k,b),而一个点(x1,y1)在直角坐标系下表示为一条直线y1=x1·k+b,其中(k,b)是该直线上的任意点。为了计算方便,将参数空间的坐标表示为极坐标下的γ和θ。因为同一条直线上的点对应的(γ,θ)是相同的,因此可以先将图片进行边缘检测,然后对图像上每一个非零像素点,在参数坐标下变换为一条直线,那么在直角坐标下属于同一条直线的点便在参数空间形成多条直线并内交于一点。因此可用该原理进行直线检测,检测效果如图2d所示。
经过上述操作,可以定位出每个初始槽位在图片的坐标(x1,y1,x2,y2),其中(x1,y1)为初始槽位左下角坐标,(x2,y2)为初始槽位右上角坐标,即得到了初始槽位位置信息。对于图片文件和pdf文件,使用OCR获取每个文字的坐标,取与(x1,y1)最接近的文字,作为初始槽位的前文,取与(x2,y2)最近的文字,作为初始槽位的后文,即得到了初始槽位前后文信息。
在步骤102处,获取所述文档文件的初始槽位前后文信息,利用基于预训练语言模型的提示学习方法,根据所述初始槽位前后文信息,在所述初始槽位处生成对应的提示掩码。
具体地,由于上一步骤的槽位定位已经可以给出所需的上下文句子,即前后文信息,所以此阶段进行句子级别的标签建模。
槽位标签的生成任务,需同时考虑前后文语义信息,如例:“甲方租赁该房____年”,若使用自回归生成模型,模型只能关注到前文语义信息:“甲方租赁该房”,缺失后文信息,因此无法判断槽位标签是:“租赁时长”还是“租赁数量”。当引入后文“年”的语义后,则可判断出槽位标签为“租赁时长”。由此可见,槽位标签生成任务需要前后文双向信息,因此,本申请实施例提出一种基于prompt-learning(提示学习)的自编码目标槽位生成算法。
prompt-learning是一类基于预训练语言模型的学习方法:其在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加“提示信息”、将下游任务改为文本生成任务。以情感分类任务为例:需判断“这趟北京之旅我感觉很不错。”情感,常规做法是通过分类模型预测0或者1,0代表正面,1代表负面。而提示学习将其转为MLM(掩码语言模型)任务,在待预测句子后加入提示“我很___”,生成如下输入语料,“这趟北京之旅我感觉很不错,我很____”,而槽位处的结果可以生成为“满意”或者“失望”,当生成“满意”时,标识该句话情感为正面,否则为反面情感。
在一些实施例中,在所述初始槽位处生成对应的所述提示掩码的方法还包括:将所述文档文件的所述初始槽位调整为目标槽位,所述目标槽位处生成有所述提示掩码。
在一些实施例中,预测并生成所述槽位标签的方法包括:利用所述预训练语言模型,进行掩码预测任务,分别预测出每个所述提示掩码对应的真实文字,然后组合所述提示掩码处的各单个所述真实文字,形成完整的所述槽位标签。
具体地,prompt-learning依赖于预训练语言模型P(x),首先获取预训练语言模型P(x),通过引入合适的模版将输入x调整为完形填空格式的x’(即将文档文件中的初始槽位调整为目标槽位),调整后的输入x’里含有某些空槽(即生成的目标槽位,生成的目标槽位处生成有提示掩码),利用预训练语言模型P,进行MLM任务(掩码预测任务),分别预测出对应的目标槽位处的[MASK]掩码(提示掩码)对应的真实文字,然后组合掩码处的各单个文字,最终形成完整标签词语。
prompt-learning优点是:
a.相比之前每个任务定义一套参数,在输入加上特定的信息,提示学习不需要改变整个模型的参数,从而提升效率和存储空间。
b.传统pretrain+finetune(预训练+微调)的训练方式是有差异的,需要从大规模无监督数据训练迁移到下游finetune的任务,prompt-based的方式打破了这个方式。
在一些实施例中,在所述初始槽位处生成对应的所述提示掩码的方法还包括:构建提示模板,用以提示所述预训练语言模型的学习目标是预测被所述提示模板标记处的所述槽位标签。
具体地,本实施例所提供的一种基于prompt-learning的目标槽位生成算法,将槽位标签的预测转为如下提示模式,在目标槽位生成任务中,目标是根据槽位处的前后文给出槽位处所属的标签类型。因此,首先要构建提示模板,本申请分别提供了两种提示模板,如下Prompt1和Prompt2:
输入:“设备到货日期为:合同生效起____个工作日内。”
Prompt1:“设备到货日期为:合同生效起____([MASK][MASK]…)个工作日内。”
Prompt2:“设备到货日期为:合同生效起____(此处标签是:[MASK][MASK]…)个工作日内。”
Prompt2相较于Prompt1的区别是增加了提示性描述“此处标签是”,用以提示模型学习目标是预测此处的标签。而Prompt1的提示相当于“(”,该模板表达的语义不够明确。在预测精度上,Prompt2的准确率更高。
在一些实施例中,还包括:基于数据集分析,选定所述槽位标签的最长长度,如果所述槽位标签的长度小于所述最长长度,则使用所述提示掩码对所述预训练语言模型的输入部分进行遮蔽,对输出的所述槽位标签使用结束标识进行填充。
具体地,提示学习通常要求待预测部分的长度固定,而槽位标签长度有长有短,预测时,无法提前得知槽位标签长度。故针对槽位不定长问题,本申请基于数据集分析,选定最长槽位标签长度为10,对于不足10的,输入部分使用[MASK]进行遮蔽,输出的标签部分,对于标签实际位置结束位置到长度10,使用[SEP]作为结束标识。
在步骤103处,根据所述提示掩码,利用所述预训练语言模型,预测并生成所述槽位标签。
具体地,根据提示掩码,利用预训练语言模型,预测并生成对应的槽位标签:记预训练语言模型和其字典为(M,V),其中mask token记为[mask];任务的one-hot标签集合记为L。
对于输入序列x=(s1,...,sk)
首先定义一个「pattern」,将输入x转化为一种含有[mask]的「pattern序列」P(x)∈V*,V*表示序列中的元素全都来自字典V。
同时定义一个「verbalizer」映射函数v:L→V,将每个标签l映射为字典中的一个token v(l)。
然后,输入P(x),模型做mlm任务,预测`[mask]`位置的原始字符v(l),然后根据「verbalizer」反推到文本的类别l∈L。
本方法模型图如图3所示。经实验,本申请实施例的方案可针对输入部分的[MASK]标记,准确预测出其所属槽位标签。
在一些实施例中,还包括:基于所述初始槽位对应的所述槽位标签,获取所述槽位标签对应的填写内容,将所述所述填写内容还原到所述文档文件的对应位置。
具体地,基于所述初始槽位对应的所述槽位标签,获取所述槽位标签对应的填写内容,基于所述初始槽位对应的所述槽位位置信息,将所述初始槽位对应的所述填写内容还原到所述文档文件中。
在一些实施例中,获取所述槽位标签对应的所述填写内容的方法包括:将所述初始槽位和对应的所述槽位标签整合为表单,将所述表单发送给用户,获取所述用户输入的信息,得到所述槽位标签对应的所述填写内容。
在一些实施例中,将所述初始槽位对应的所述填写内容还原到所述文档文件中的方法包括:对于DOCX文档格式的所述文档文件,直接将所述填写内容替换对应的所述槽位的空白;对于图片格式和PDF文档格式的所述文档文件,使用覆盖图层的方式,将所述填写内容的贴图覆盖对应的所述槽位的空白。
具体地,经过上述步骤,现在已经实现对任意格式载体的槽位信息的提取与标签化,本申请的一些实施例中,将上述信息整合为表单,用户可直接基于表单中的槽位标签提示,完成批量起草填充,此过程,还可以设定校验逻辑,如“身份证号”标签对应的槽值是否符合规范等。最后,结合前述步骤中的槽位位置信息,将对应值还原到文档中。对于可编辑的docx文件,直接将目标槽值文字替换槽位空白,对于不可编辑的pdf文件或者图片文件,使用覆盖图层的方式,将对应槽值贴图于对应坐标处。
通过上述方法,可以同时考虑槽位的前后文语义信息来生成槽位标签,使生成的槽位标签更加准确,相比现有技术中每个任务定义一套参数,在输入加上特定的信息,提示学习方法不需要改变整个模型的参数,从而提升效率和存储空间,传统pretrain+finetune(预训练+微调)的训练方式是有差异的,需要从大规模无监督数据训练迁移到下游finetune的任务,提示学习的方式打破了这个方式。
图4为本申请实施例提供的一种槽位标签的生成装置的模块框图。该装置包括:
存储器201;以及与所述存储器201连接的处理器202,所述处理器202被配置成:获取包含初始槽位的文档文件,所述文档文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
获取所述文档文件的初始槽位前后文信息,利用基于预训练语言模型的提示学习方法,根据所述初始槽位前后文信息,在所述初始槽位处生成对应的提示掩码;
根据所述提示掩码,利用所述预训练语言模型,预测并生成所述槽位标签。
在一些实施例中,所述处理器202还被配置成:在所述初始槽位处生成对应的所述提示掩码的方法还包括:
将所述文档文件的所述初始槽位调整为目标槽位,所述目标槽位处生成有所述提示掩码。
在一些实施例中,所述处理器202还被配置成:预测并生成所述槽位标签的方法包括:
利用所述预训练语言模型,进行掩码预测任务,分别预测出每个所述提示掩码对应的真实文字,然后组合所述提示掩码处的各单个所述真实文字,形成完整的所述槽位标签。
在一些实施例中,所述处理器202还被配置成:在所述初始槽位处生成对应的所述提示掩码的方法还包括:
构建提示模板,用以提示所述预训练语言模型的学习目标是预测被所述提示模板标记处的所述槽位标签。
在一些实施例中,所述处理器202还被配置成:还包括:基于数据集分析,选定所述槽位标签的最长长度,如果所述槽位标签的长度小于所述最长长度,则使用所述提示掩码对所述预训练语言模型的输入部分进行遮蔽,对输出的所述槽位标签使用结束标识进行填充。
在一些实施例中,所述处理器202还被配置成:还包括:基于所述初始槽位对应的所述槽位标签,获取所述槽位标签对应的填写内容,将所述所述填写内容还原到所述文档文件的对应位置。
在一些实施例中,所述处理器202还被配置成:获取所述槽位标签对应的所述填写内容的方法包括:
将所述初始槽位和对应的所述槽位标签整合为表单,将所述表单发送给用户,获取所述用户输入的信息,得到所述槽位标签对应的所述填写内容。
在一些实施例中,所述处理器202还被配置成:将所述槽位对应的所述填写内容还原到所述文档文件中的方法包括:
对于DOCX文档格式的所述文档文件,直接将所述填写内容替换对应的所述初始槽位的空白;
对于图片格式和PDF文档格式的所述文档文件,使用覆盖图层的方式,将所述填写内容的贴图覆盖对应的所述初始槽位的空白。
具体实现方法参考前述方法实施例,此处不再赘述。
本申请可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本申请的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
注意,除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
虽然,上文中已经用一般性说明及具体实施例对本申请作了详尽的描述,但在本申请基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本申请精神的基础上所做的这些修改或改进,均属于本申请要求保护的范围。
Claims (7)
1.一种槽位标签的生成方法,其特征在于,包括以下步骤:
获取包含初始槽位的文档文件,所述文档文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
获取所述文档文件的初始槽位前后文信息,利用基于预训练语言模型的提示学习方法,根据所述初始槽位前后文信息,在所述初始槽位处生成对应的提示掩码;其中,在所述初始槽位处生成对应的所述提示掩码的方法包括:构建提示模板,用以提示所述预训练语言模型的学习目标是预测被所述提示模板标记处的所述槽位标签,
将所述文档文件的所述初始槽位调整为目标槽位,所述目标槽位处生成有所述提示掩码;
根据所述提示掩码,利用所述预训练语言模型,预测并生成所述槽位标签;其中,所述预测并生成所述槽位标签的方法包括:利用所述预训练语言模型,进行掩码预测任务,分别预测出每个所述提示掩码对应的真实文字,然后组合所述提示掩码处的各单个所述真实文字,形成完整的所述槽位标签。
2.根据权利要求1所述的槽位标签的生成方法,其特征在于,还包括:
基于数据集分析,选定所述槽位标签的最长长度,如果所述槽位标签的长度小于所述最长长度,则使用所述提示掩码对所述预训练语言模型的输入部分进行遮蔽,对输出的所述槽位标签使用结束标识进行填充。
3.根据权利要求1所述的槽位标签的生成方法,其特征在于,还包括:
基于所述初始槽位对应的所述槽位标签,获取所述槽位标签对应的填写内容,将所述填写内容还原到所述文档文件的对应位置。
4.根据权利要求3所述的槽位标签的生成方法,其特征在于,获取所述槽位标签对应的所述填写内容的方法包括:
将所述初始槽位和对应的所述槽位标签整合为表单,将所述表单发送给用户,获取所述用户输入的信息,得到所述槽位标签对应的所述填写内容。
5.根据权利要求3所述的槽位标签的生成方法,其特征在于,将所述槽位对应的所述填写内容还原到所述文档文件中的方法包括:
对于DOCX文档格式的所述文档文件,直接将所述填写内容替换对应的所述初始槽位的空白;
对于图片格式和PDF文档格式的所述文档文件,使用覆盖图层的方式,将所述填写内容的贴图覆盖对应的所述初始槽位的空白。
6.一种槽位标签的生成装置,其特征在于,包括:
存储器;以及
与所述存储器连接的处理器,所述处理器被配置成:
获取包含初始槽位的文档文件,所述文档文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
获取所述文档文件的初始槽位前后文信息,利用基于预训练语言模型的提示学习方法,根据所述初始槽位前后文信息,在所述初始槽位处生成对应的提示掩码;其中,在所述初始槽位处生成对应的所述提示掩码的方法包括:构建提示模板,用以提示所述预训练语言模型的学习目标是预测被所述提示模板标记处的所述槽位标签,
将所述文档文件的所述初始槽位调整为目标槽位,所述目标槽位处生成有所述提示掩码;
根据所述提示掩码,利用所述预训练语言模型,预测并生成所述槽位标签;其中,所述预测并生成所述槽位标签的方法包括:利用所述预训练语言模型,进行掩码预测任务,分别预测出每个所述提示掩码对应的真实文字,然后组合所述提示掩码处的各单个所述真实文字,形成完整的所述槽位标签。
7.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被机器执行时实现如权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211060094.2A CN115358186B (zh) | 2022-08-31 | 2022-08-31 | 一种槽位标签的生成方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211060094.2A CN115358186B (zh) | 2022-08-31 | 2022-08-31 | 一种槽位标签的生成方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115358186A CN115358186A (zh) | 2022-11-18 |
CN115358186B true CN115358186B (zh) | 2023-11-14 |
Family
ID=84005520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211060094.2A Active CN115358186B (zh) | 2022-08-31 | 2022-08-31 | 一种槽位标签的生成方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115358186B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785833A (zh) * | 2019-01-02 | 2019-05-21 | 苏宁易购集团股份有限公司 | 用于智能设备的人机交互语音识别方法及系统 |
CN111026842A (zh) * | 2019-11-29 | 2020-04-17 | 微民保险代理有限公司 | 自然语言处理方法、自然语言处理装置及智能问答系统 |
CN112926313A (zh) * | 2021-03-10 | 2021-06-08 | 新华智云科技有限公司 | 一种槽位信息的提取方法与系统 |
CN113326367A (zh) * | 2021-06-30 | 2021-08-31 | 四川启睿克科技有限公司 | 基于端到端文本生成的任务型对话方法和系统 |
CN113408268A (zh) * | 2021-06-22 | 2021-09-17 | 平安科技(深圳)有限公司 | 槽位填充方法、装置、设备及存储介质 |
WO2021190259A1 (zh) * | 2020-03-23 | 2021-09-30 | 华为技术有限公司 | 一种槽位识别方法及电子设备 |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
WO2022057712A1 (zh) * | 2020-09-15 | 2022-03-24 | 华为技术有限公司 | 电子设备及其语义解析方法、介质和人机对话系统 |
-
2022
- 2022-08-31 CN CN202211060094.2A patent/CN115358186B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785833A (zh) * | 2019-01-02 | 2019-05-21 | 苏宁易购集团股份有限公司 | 用于智能设备的人机交互语音识别方法及系统 |
CN111026842A (zh) * | 2019-11-29 | 2020-04-17 | 微民保险代理有限公司 | 自然语言处理方法、自然语言处理装置及智能问答系统 |
WO2021190259A1 (zh) * | 2020-03-23 | 2021-09-30 | 华为技术有限公司 | 一种槽位识别方法及电子设备 |
WO2022057712A1 (zh) * | 2020-09-15 | 2022-03-24 | 华为技术有限公司 | 电子设备及其语义解析方法、介质和人机对话系统 |
CN112926313A (zh) * | 2021-03-10 | 2021-06-08 | 新华智云科技有限公司 | 一种槽位信息的提取方法与系统 |
CN113408268A (zh) * | 2021-06-22 | 2021-09-17 | 平安科技(深圳)有限公司 | 槽位填充方法、装置、设备及存储介质 |
CN113326367A (zh) * | 2021-06-30 | 2021-08-31 | 四川启睿克科技有限公司 | 基于端到端文本生成的任务型对话方法和系统 |
CN113961705A (zh) * | 2021-10-29 | 2022-01-21 | 聚好看科技股份有限公司 | 一种文本分类方法及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN115358186A (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN113807098B (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
US10698932B2 (en) | Method and apparatus for parsing query based on artificial intelligence, and storage medium | |
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
EP3879427A2 (en) | Information extraction method, extraction model training method, apparatus and electronic device | |
CN110532573A (zh) | 一种翻译方法和系统 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN109359308B (zh) | 机器翻译方法、装置及可读存储介质 | |
CN111597807B (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
CN115917613A (zh) | 文档中文本的语义表示 | |
CN114841274B (zh) | 语言模型的训练方法、装置、电子设备和存储介质 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN114398943B (zh) | 样本增强方法及其装置 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN117290515A (zh) | 文本标注模型的训练方法、文生图方法及装置 | |
CN117034948A (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN115358186B (zh) | 一种槽位标签的生成方法、装置及存储介质 | |
CN115376153B (zh) | 一种合同比对方法、装置及存储介质 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 | |
CN111753555B (zh) | 一种基于MathML的数学公式到盲文的翻译方法及系统 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN110866404B (zh) | 基于lstm神经网络的词向量生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |