CN117195870A - 文本纠错方法、装置、电子设备及可读存储介质 - Google Patents

文本纠错方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN117195870A
CN117195870A CN202311144320.XA CN202311144320A CN117195870A CN 117195870 A CN117195870 A CN 117195870A CN 202311144320 A CN202311144320 A CN 202311144320A CN 117195870 A CN117195870 A CN 117195870A
Authority
CN
China
Prior art keywords
eyeball
text
image
information
eye
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311144320.XA
Other languages
English (en)
Inventor
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202311144320.XA priority Critical patent/CN117195870A/zh
Publication of CN117195870A publication Critical patent/CN117195870A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种文本纠错方法、装置、电子设备及可读存储介质,属于人工智能技术领域,该方法包括:在显示第一文本的情况下,获取用户查看第一文本的眼动视频流;基于眼动视频流和第一文本,确定第一文本中错误文本的位置信息;基于错误文本的位置信息,对第一文本纠错,得到第二文本。

Description

文本纠错方法、装置、电子设备及可读存储介质
技术领域
本申请属于人工智能技术领域,具体涉及一种文本纠错方法、装置、电子设备及可读存储介质。
背景技术
通常,当电子设备显示的文本中存在错误文本,或与用户预期的文本不符时,用户需要将错误的文本删除,并手动输入正确的文本。例如,用户在通过语音输入法进行语音输入时,电子设备会对用户输入的语音进行识别,将识别得到的文本显示在屏幕中。此时,若得到的文本中存在错误,则用户需要将错误的文本删除,并手动调用其他输入法输入正确的文本。
如此,通过人工纠错的方式获取正确文本的效率较低。
发明内容
本申请实施例的目的是提供一种文本纠错方法、装置、电子设备及可读存储介质,能够提高获取正确文本的效率。
第一方面,本申请实施例提供了一种文本纠错方法,该方法包括:在显示第一文本的情况下,获取用户查看第一文本的眼动视频流;基于眼动视频流和第一文本,确定第一文本中错误文本的位置信息;基于错误文本的位置信息,对第一文本纠错,得到第二文本。
第二方面,本申请实施例提供了一种文本纠错装置,该装置包括:显示模块、获取模块和处理模块;获取模块,用于在显示模块显示第一文本的情况下,获取用户查看第一文本的眼动视频流;处理模块,用于基于获取模块获取的眼动视频流和第一文本,确定第一文本中错误文本的位置信息;处理模块,用于基于错误文本的位置信息,对第一文本纠错,得到第二文本。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,在显示第一文本的情况下,获取用户查看第一文本的眼动视频流;基于眼动视频流,确定第一文本中错误文本的位置信息;基于错误文本的位置信息,对第一文本纠错,得到第二文本。通过该方案,由于用户查看文本过程中的眼动视频流可以表示用户查看文本时人眼注视的区域,因此可以通过获取用户在浏览文本过程中的眼动视频流,根据用户注视的区域判断出文本中错误文本的位置,从而可以提高对错误文本位置判断的准确度,进而通过对该位置上的错误文本进行纠错,提高获取正确文本的效率。
附图说明
图1是本申请实施例提供的一种文本纠错方法的流程图之一;
图2是本申请实施例提供的一种文本纠错方法的流程图之二;
图3是本申请实施例提供的一种文本纠错方法的流程图之三;
图4是本申请实施例提供的一种候选眼部区域的结构示意图;
图5是本申请实施例提供的一种圆形卷积核扫视的结果示意图;
图6是本申请实施例提供的一种左右眼定位获取人眼视觉焦点的原理示意图;
图7是本申请实施例提供的一种文本纠错装置的结构示意图;
图8是本申请实施例提供的一种电子设备的硬件结构示意图之一;
图9是本申请实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
本申请的说明书和权利要求书中的术语“至少一个(项)”、“至少之一”等指其包含对象中的任意一个、任意两个或两个以上的组合。例如,a、b、c中的至少一个(项),可以表示:“a”、“b”、“c”、“a和b”、“a和c”、“b和c”以及“a、b和c”,其中a,b,c可以是单个,也可以是多个。同理,“至少两个(项)”是指两个或两个以上,其表达的含义与“至少一个(项)”类似。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的文本纠错方法、装置、电子设备及可读存储介质进行详细地说明。
本申请实施例提供的文本纠错方法、装置、电子设备及可读存储介质可以应用于电子设备显示文本的场景,尤其是显示通过用户输入的语音识别到的文本的场景。
本申请实施例提供的文本纠错方法的执行主体可以为文本纠错装置。示例性地,该文本纠错装置可以为电子设备,也可以为该电子设备中的部件,例如集成电路或芯片。以下将以电子设备为例对本申请实施例提供的文本纠错方法进行示例性说明。
本申请实施例提供一种文本纠错方法,图1示出了本申请实施例提供的一种文本纠错方法的流程图,该方法可以应用于电子设备。如图1所示,本申请实施例提供的文本纠错方法可以包括下述的步骤101至步骤103。
步骤101、电子设备在显示第一文本的情况下,获取用户查看第一文本的眼动视频流。
在本申请的一些实施例中,上述第一文本可以为电子设备中存储的文本,或者用户输入的文本,用户输入语音转换的文本,或者用户输入图像转换得到的文本。
示例性地,以用户输入为语音输入为例,上述第一文本可以为电子设备通过自动语音识别(Automatic Speech Recognition,ASR)技术识别该语音输入的语音得到的文本。
示例性地,以用户输入为图片输入为例,上述第一文本可以为电子设备通过光学字符识别(Optical Character Recognition,OCR)技术识别的图片中的文字得到的。
示例性地,以用户输入为粘贴输入为例,上述第一文本可以为电子设备从其他显示界面中复制的文本。
在本申请的一些实施例中,电子设备可以在输入窗口显示上述第一文本,也可以在文本显示界面显示上述第一文本。本申请实施例不作具体限定。
在本申请的一些实施例中,上述眼动视频流可以为电子设备录制的用户查看第一文本时的眼球运动视频流,其可以包含人眼在查看第一文本时的注视角度和瞳孔大小。
示例性地,电子设备可以在显示第一文本的情况下,通过前置摄像头捕获用户的眼球运动视频流。
在本申请的一些实施例中,上述眼动视频流包括N帧眼球图像,上述N帧眼球图像可以是:电子设备在用户查看该电子设备显示的第一文本的过程中,所采集的眼球图像。
在本申请的一些实施例中,上述眼动视频流用于表征用户在查看第一文本时眼球的注视区域。
步骤102、电子设备基于眼动视频流和第一文本,确定第一文本中错误文本的位置信息。
在本申请的一些实施例中,电子设备可以根据眼动视频流,获取人眼在查看第一文本时的注视角度和瞳孔大小,并提取第一文本的语义特征信息,从而电子设备可以基于用户查看第一文本时的注视角度和瞳孔大小,以及第一文本的语义特征信息,综合判断第一文本中错误文本的位置信息。如此,可以提高对文本中错误文本的位置的判断。
需要说明的是,用户在查看第一文本的过程中,查看正确文本时眼球的运动与瞳孔大小,与查看错误文本时眼球的运动与瞳孔大小通常会存在较大差距。例如,用户在查看第一文本的过程中,通常对错误文本上注视的时间较长,而对正确文本通常只是扫视,几乎不会停留注视。因此,电子设备可以根据用户在查看第一文本的过程中,在人眼的眼球注视文本的时间较长且瞳孔大小的发生变化的情况下,确定用户查看到错误文本,即第一文本中存在错误文本;然后,电子设备可以根据第一文本的语义特征信息,判断第一文本中可能存在错误的文本的位置;最后,电子设备可以根据人眼的眼球注视的角度和瞳孔大小以及第一文本的语义特征信息,计算眼球注视的角度和瞳孔大小与第一文本中存在错误的文本的位置的相关性,从而判断出第一文本中错误文本存在的位置,进而提高对错误文本纠错的效率。
在本申请的一些实施例中,上述眼动视频流可以包括N帧眼球图像,N为正整数。结合图1,如图2所示,上述步骤102可以包括下述的步骤102a至步骤102d。
步骤102a、电子设备将眼动视频流和第一文本输入文本错误定位模型。
其中,上述文本错误定位模型包括第一提取模块、第二提取模块以及融合模块。
在本申请的一些实施例中,上述文本错误定位模型可以用于获取第一文本中错误文本的位置信息。
步骤102b、电子设备基于第一提取模块,提取N帧眼球图像对应的眼球方位特征向量。
其中,上述眼球方位特征向量指示用户的眼球移动方位序列。
在本申请的一些实施例中,上述用户的眼球移动方位序列可以为上述N帧眼球图像眼球方位按照时间顺序进行排列构成的眼球方位特征向量。
在本申请的一些实施例中,电子设备可以将眼动视频流输入上述第一提取模块,通过提取N帧眼球图像中每帧眼球图像对应的眼球方位,获取N帧眼球图像对应的用户的眼球移动方位序列。
在本申请的一些实施例中,上述第一提取模块可以包括第一卷积网络、第二卷积网络以及局部自注意力模块。
在本申请的一些实施例中,结合图2,如图3所示,上述步骤102b可以包括下述的步骤102b1至步骤102b3。
步骤102b1、电子设备通过第一提取模块中的第一卷积网络,提取N帧眼球图像中的每帧眼球图像对应的第一图像特征信息,并基于第一图像特征信息,确定每帧眼球图像中的眼球部位区域。
在本申请的一些实施例中,上述第一卷积网络可以为用于眼球部位区域检测的卷积网络。
示例性地,上述第一卷积网络可以为区域卷积神经网络(Region-ConvolutionalNeural Networks,R-CNN),从而电子设备可以通过该第一卷积网络从N帧眼球图像中的每帧眼球图像中,确定每帧眼球图像中的眼球部位区域。
在本申请的一些实施例中,上述第一图像特征信息可以包括N帧眼球图像中的每帧眼球图像中图像内容的特征信息。
在本申请的一些实施例中,上述眼球部位区域可以为眼球图像中眼球所在区域。
在本申请的一些实施例中,上述每帧眼球图像中的眼球部位区域均可以包含该一帧中左眼眼球图像的眼球部位区域和该一帧中右眼眼球图像的眼球部位区域。
在本申请的一些实施例中,电子设备可以通过第一卷积网络,对每帧眼球图像进行高斯采样,得到包含多个候选眼部区域的候选眼部区域集合,然后电子设备可以根据该多个候选眼部区域间的相似度,对该多个候选眼部区域进行逐步的合并,最终得到包含一个候选眼部区域的候选眼部区域集合。电子设备可以将该一个眼部区域确定为这一帧眼球图像中的眼球部位区域。
示例性地,电子设备可以通过第一卷积网络,对每帧眼球图像进行高斯采样,得到候选眼部区域集合,如图4所示,该候选眼部区域集合可以包括多个候选眼部区域41。然后,电子设备可以通过第一卷积网络,对该多个候选眼部区域41中的每两个候选眼部区域41,进行相似度计算,并将相似度最大的两个候选眼部区域进行合并,同时将该相似度最大的两个候选眼部区域从候选眼部区域集合中删除,得到新的眼部区域集合。电子设备可以重复执行上述过程,直至新的眼部区域集合中仅包含一个眼部区域时,将该一个眼部区域确定为这一帧眼球图像中的眼球部位区域。
需要说明的是,图4中的每个虚线框可以表示一个候选眼部区域,图4中仅会其中一个候选眼部区域进行了标识。
在本申请的一些实施例中,在计算候选眼部区域间的相似度时,电子设备可以先将每个候选眼部区域的色彩通道统计成直方图;然后根据每个色彩通道的直方图,得到每个候选眼部区域的直方图向量。最后,电子设备可以通过下述的公式(1)计算两个候选眼部区域间的相似度。
其中,Ri和Rj可以表示两个不同的候选眼部区域;s(Ri,Rj)可以表示候选眼部区域Ri和候选眼部区域Rj间的相似度;C可以表示候选眼部区域的直方图向量;n可以表示候选眼部区域的直方图向量的维度数。
示例性地,以眼球图像为红绿蓝(Red Green Blue,RGB)图像为例。电子设备可以先对一帧眼球图像进行高斯采样,得到包含候选眼部区域R1、候选眼部区域R2和候选眼部区域R3的候选眼部区域集合。然后,电子设备可以对每个候选眼部区域的每个色彩通道每隔9个数值统计一次像素,即255/9=25,得到25维的直方图,可以理解,每个候选眼部区域都可以基于其三个色彩通道,得到一个75维的直方图向量C。然后,电子设备可以通过公式(1),分别计算候选眼部区域R1和候选眼部区域R2、候选眼部区域R1和候选眼部区域R3、以及候选眼部区域R2和候选眼部区域R3间的相似度。假设候选眼部区域R1和候选眼部区域R3间的相似度最大,电子设备可以合并候选眼部区域R1和候选眼部区域R3为候选眼部区域R4,并将候选眼部区域R1和候选眼部区域R3从候选眼部区域集合剔除;再重新计算候选眼部区域R2和候选眼部区域R4间的相似度,直到候选眼部区域集合中只剩一个候选眼部区域,电子设备可以将该一个候选眼部区域确定这一帧眼球图像中的眼球部位区域。
步骤102b2、电子设备通过第一提取模块中的第二卷积网络,提取每帧眼球图像中的眼球部位区域对应的第二图像特征信息。
在本申请的一些实施例中,上述第二图像特征信息可以包括每帧眼球图像中的眼球部位区域对应的图像中眼球方位以及瞳孔部位的特征信息。
示例性地,上述第二图像特征信息可以包括眼球的转动角度;或者,上述第二图像特征信息可以包括瞳孔的大小。
示例性地,上述第二图像特征信息可以包括人眼视觉焦点的位置。
在本申请的一些实施例中,上述第二卷积网络可以为用于过滤每帧眼球图像中的眼球部位区域中的无关信息的卷积网络。
示例性地,上述第二卷积网络可以为卷积神经网络(Convolutional NeuralNetworks,CNN)。
在本申请的一些实施例中,上述第二卷积网络的卷积核为圆形卷积核。
在本申请的一些实施例中,电子设备在确定每帧眼球图像中的眼球部位区域之后,可以对眼球部位区域对应的图像进行进一步的图像特征信息的提取。
可以理解的是,由于人眼的形状以及瞳孔的形状均为圆形,因此电子设备可以采用具有圆形卷积核的卷积网络提取每帧眼球图像中的眼球部位区域的图像特征信息。
在本申请的一些实施例中,电子设备可以通过掩蔽矩阵,对卷积网络的卷积核的边缘位置进行掩蔽,以达到模拟圆形卷积核的目的。
示例性地,在电子设备通过第二卷积网络,提取每帧眼球图像中的眼球部位区域对应的第二图像特征信息时,由于第二卷积网络的卷积核的边缘位置被掩码为0,被第二卷积网络的卷积核扫视区域的边缘的像素值与掩码位置相乘后也会被置0。
示例性地,如图5所示,眼球部位区域50在经过第二卷积网络的卷积核扫视之后,眼球部位区域50的边缘51被第二卷积网络过滤掉,得到了圆形的眼球部位区域52。
需要说明的是,图5中的白色实线圆圈可以表示眼球图像中的眼球部位区域的像素点,图5中的白色虚线圆圈可以表示被过滤掉的像素点。
如此,由于电子设备可以采用具有圆形卷积核的卷积网络对提取每帧眼球图像中的眼球部位区域对应的图像特征信息,因此可以通过更加贴合人眼形状和瞳孔形状的圆形卷积核,对每帧眼球图像中的眼球部位区域中无关的图像特征信息进行过滤,从而可以更好地提取眼球方位和瞳孔的特征信息。
在本申请的一些实施例中,上述N帧眼球图像中的每帧眼球图像包括左眼眼球图像和右眼眼球图像。
在本申请的一些实施例中,上述N帧眼球图像可以包括N帧左眼眼球图像和N帧右眼眼球图像。
需要说明的是,上述每帧眼球图像对应的眼球方位可以根据用户的人眼视觉焦点得到。而人眼视觉焦点需要电子设备同时获取到用户左眼和右眼的方位角度时才能得到。如图6所示,假设O1分别代表人的左眼位置,O2分别代表人的右眼位置,可以理解,电子设备同时获取到O1和O2的方位角度时,O1P1和O2P2的交点P才可以被确定,即电子设备才可以获取到人眼视觉焦点。因此,电子设备可以提取N帧眼球图像中每帧眼球图像对应的左眼眼球部位区域和右眼眼球部位区域,从而得到左眼眼球方位和右眼眼球方位,进而电子设备可以采用双目定位原理,获得每帧眼球图像对应的眼球方位,最终得到N帧眼球图像对应的眼球方位特征向量。
在本申请的一些实施例中,上述步骤102b还可以包括下述的步骤102b5和步骤102b6。
步骤102b5、电子设备基于第一提取模块,提取N帧眼球图像中的左眼眼球图像对应的第一眼球方位特征向量,以及N帧眼球图像中的右眼眼球图像对应的第二眼球方位特征向量。
在本申请的一些实施例中,上述第一眼球方位特征向量可以指示左眼眼球图像中左眼眼球视线方向;上述第二眼球方位特征向量可以指示右眼眼球图像中右眼眼球视线方向。
可以理解的是,电子设备通过第一提取模块提取N帧眼球图像中的左眼眼球图像对应的第一眼球方位特征向量,以及N帧眼球图像中的右眼眼球图像对应的第二眼球方位特征向量之后,可以基于第一眼球方位特征向量和第二眼球方位特征向量,得到N帧眼球图像中的人眼视觉焦点的特征向量。
示例性地,如图6所示,电子设备在获取到第一眼球方位特征向量O1P1和第二眼球方位特征向量O2P2之后,可以得到确定人眼视觉焦点P。
在本申请的一些实施例中,对于N帧眼球图像中的左眼眼球图像和右眼眼球图像。电子设备可以均可以在第一提取模块的第二卷积网络中,采用两组圆形卷积核,分别对每帧眼球图像中的眼球部位区域进行两个相反方向上的特征提取,得到两个眼球特征方位向量。然后,电子设备可以计算该两个相反方向上眼球特征方位向量间的余弦夹角,从而得到每帧眼球图像中的眼球部位区域对应的眼球的方位角度的特征向量。
在本申请的一些实施例中,电子设备可以通过下述的公式(2)计算两个相反方向上眼球特征方位向量间的余弦夹角。
其中,t可以表示在N帧眼球图像按时序排列时,当前帧眼球图像对应的时刻;Vt可以表示余弦夹角;Zt可以表示一个方向上的眼球特征方位向量;Zt+1可以表示另一个相反方向上的眼球特征方位向量。
示例性地,电子设备可以在第二卷积网络中,先采用两组圆形卷积核中的一组圆形卷积核,从左向右扫过每帧眼球图像中的眼球部位区域,提取从左向右方向的眼球特征方位向量Zt;然后,电子设备可以采用两组圆形卷积核中的另一组圆形卷积核,从右向左扫过每帧眼球图像中的眼球部位区域,提取从右向左的眼球特征方位向量Zt+1;最后,电子设备可以通过上述公式(2),计算Zt和Zt+1的余弦夹角Vt,从而得到每帧眼球图像中的眼球部位区域对应的眼球的方位角度的特征向量。
步骤102b6、电子设备拼接第一眼球方位特征向量和第二眼球方位特征向量,得到N帧眼球图像对应的眼球方位特征向量。
在本申请的一些实施例中,由于每帧眼球图像中的眼球部位区域均包含左眼眼球部位区域和右眼眼球部位区域,因此电子设备得到每帧眼球图像中的眼球部位区域对应的左眼眼球的方位角度的特征向量和右眼眼球的方位角度的特征向量。然后,电子设备可以将每帧眼球图像对应的左眼眼球的方位角度的特征向量和右眼眼球的方位角度的特征向量拼接,得到每帧眼球图像中的眼球部位区域对应的人眼视觉焦点对应的融合特征向量,即第二图像特征信息。
示例性地,电子设备可以采用连接(concatenate)的对每帧眼球图像对应的左眼眼球的方位角度的特征向量和右眼眼球的方位角度的特征向量进行拼接,得到一个高维度的融合特征向量;然后电子设备可以将该高维度的融合特征向量通过一层线性网络(linear),再把高维度的融合特征向量压缩还原为与左眼眼球的方位角度的特征向量和右眼眼球的方位角度的特征向量相同维度的融合特征向量,即第二图像特征信息。
需要说明的是,上述线性网络可以为比左眼眼球的方位角度的特征向量和右眼眼球的方位角度的特征向量维度更高的矩阵,以将高维度的融合特征向量压缩还原为与左眼眼球的方位角度的特征向量和右眼眼球的方位角度的特征向量相同维度的融合特征向量。
示例性地,若左眼眼球的方位角度的特征向量和右眼眼球的方位角度的特征向量的维度为n,则该线性网络则可以为2n×n的矩阵。
步骤102b4、电子设备通过第一提取模块中的局部自注意力模块,按照N帧眼球图像的图像时序,融合N帧眼球图像对应的第二图像特征信息,得到眼球方位特征向量。
在本申请的一些实施例中,上述局部自注意力模块用于建立N帧眼球图像中每相邻两帧眼球图像的相关性,即建立不同时刻之间眼球特征之间的关联。
需要说说明的是,人眼的阅读是一个连贯的过程。其中,人眼在阅读中会进行两种最基本的运动:眼球的转动和瞳孔的放缩。根据这两种基础运动,又可以将人眼的运行特征细分为注视、眼跳、回视、瞳孔直径4类关键特征。这4类关键行为特征可以直接或间接的反应了阅读主体对阅读内容的认知加工、心理反应。
一般地,传统眼动特征的提取方式通常是眼动仪获取眼动数据,得到每个时间点的眼动点坐标,使用算法或眼动分析软件对眼动数据进行处理,提取出眼动点的位置信息,根据眼动点的轨迹和持续时间,识别和提取注视点,注视点是眼睛在观察过程中停留的固定位置,通常表示对感兴趣的目标或区域进行注意。通过连接连续的注视点,构建注视路径。注视路径表示眼睛在观察过程中移动的轨迹,可以用于分析注意力的转移和观察行为,根据眼动点的分布,生成注视点密度图。注视点密度图可以反映在观察过程中哪些区域受到更多的关注,通过对密度图进行分析可以获得更多关于观察行为的信息。因此,可见上述传统特征中,注视、眼跳、回视觉,都是时序相关的特征。如此,需要构建N帧眼球图像中每相邻两帧眼球图像的相关性,才能模拟人眼的阅读特征。
在本申请的一些实施例中,电子设备可以通过局部自注意力模块(Local selfattention,LSA),建立N帧眼球图像中每相邻两帧眼球图像的相关性,即建立不同时刻之间眼球特征之间的关联,从而模拟出类似人眼阅读的眼跳生物特征。
在本申请的一些实施例中,电子设备可以将上述N帧眼球图像中的眼球部位区域对应的第二图像特征信息作为一个输入序列输入局部自注意力模块。可以理解的是,N帧眼球图像中的眼球部位区域对应的第二图像特征信息可以按照N帧眼球图像的图像时序排列为一个输入序列。
在本申请的一些实施例中,上述输入序列在局部自注意力模块中可以被表示为一个矩阵,该矩阵中的每个向量都可以表示一个时刻的眼球特征。
在本申请的一些实施例中,电子设备可以在局部自注意力模块中,对该输入序列进行分割,得到至少一个包含多个连续时刻的眼球特征的子序列。
在本申请的一些实施例中,电子设备可以按照固定大小的滑动窗口或块对该输入序列进行分割。
示例性地,电子设备可以按照窗长为7、步长为5的滑动窗口对该输入序列进行分割。
在本申请的一些实施例中,电子设备可以对每个子序列中的图像特征信息进行转换,将每个子序列映射到一个新的表示空间,以提取该子序列中有意义的图像特征信息。
示例性地,电子设备可以对每个子序列中的图像特征信息进行线性变换。
在本申请的一些实施例中,电子设备可以计算每个子序列对应的局部自注意力。
在本申请的一些实施例中,电子设备可以对每个子序列中的每个向量进行线性变换,得到计算局部自注意力所需的查询向量Q、键向量K和值向量V。
示例性地,电子设备可以将通过权重矩阵WQ、WK和WV与每个子序列中的每个向量的相乘,得到该子序列的对应的多组查询向量Q、键向量K和值向量V。
在本申请的一些实施例中,权重矩阵WQ、WK和WV可以为开发人员预定义的,也可以为根据大数据训练得到的。
在本申请的一些实施例中,电子设备可以一个子序列中第i个查询向量Q与第j个键向量K的点积,来计算第i个向量所表示的第i时刻的眼球特征与第j个向量所表示的第j时刻的眼球特征间的相似性。然后,电子设备可以将计算得到的该一个子序列中的不同时刻下眼球特征间的相似性进行归一化处理,得到该一个子序列中的不同时刻下眼球特征的局部自注意力权重。最后,电子设备可以根据该局部自注意力权重对计算得到的值向量V进行加权求和,得到该一个子序列中的不同时刻下眼球特征的重要程度。
可以理解的是,电子设备在建立N帧眼球图像中每相邻两帧眼球图像的相关性之后,可以得到眼球方位特征向量。
如此,由于可以对输入序列进行分割,对于分割得到的每个子序列,一个子序列中的一个时刻下的眼球特征只会注意到同一个子序列中的其他时刻下的眼球特征,而不会跨子序列计算相关性,因此可以在建立局部依赖关系的同时,可以减少建立相关性的计算量。并且,由于每个子序列中不同时刻下的眼球特征通常指示相邻的人眼视觉焦点,因此通过局部自注意力计算可以更好的模拟眼跳行为,从而可以更加准确的捕获到具有重要特征信息的眼动行为,进而可以更加准确的建立N帧眼球图像中每相邻两帧眼球图像的相关性。
步骤102c、电子设备基于第二提取模块,提取第一文本对应的语义特征信息。
在本申请的一些实施例中,上述第二提取模块可以用于提取文本对应的语义特征信息。
示例性地,电子设备可以通过嵌入(Embeding)层将第一文本嵌入到一个高维度词向量空间,得到第一文本对应的语义特征信息。
在本申请的一些实施例中,在第一文本为语音识别得到的文本的情况下,电子设备还可以根据ASR声学信息和语言学信息,提取第一文本对应的语义特征信息。
在本申请的一些实施例中,电子设备在通过第二提取模块,提取到第一文本对应的语义特征信息之后,可以根据第一文本对应的语义特征信息,对第一文本中可能存在错误的文本进行初步的判断。
步骤102d、电子设备基于融合模块、眼球方位特征向量以及第一文本对应的语义特征信息,输出第一文本中错误文本的位置信息。
在本申请的一些实施例中,电子设备可以对眼球方位特征向量和第一文本对应的语义特征信息进行跨模态融合,以得到第一文本中错误文本的位置信息。
示例性地,电子设备可以采用交叉注意(cross attention)的方式,对眼球方位特征向量和第一文本对应的语义特征信息进行跨模态融合,以得到第一文本中错误文本的位置信息。
在本申请的一些实施例中,上述步骤102d可以包括下述的步骤102d1至步骤102d3。
步骤102d1、电子设备基于融合模块和眼球方位特征向量,得到第一信息。
其中,上述第一信息指示每帧眼球图像中是否包含眼动信息,眼动信息包括以下至少之一:眼球的转动信息,眼球的瞳孔放缩信息。
在本申请的一些实施例中,上述融合模块可以用于根据眼球方位特征向量和第一文本对应的语义特征信息,判断第一文本中错误文本的位置。
步骤102d2、电子设备基于融合模块和第一文本对应的语义特征信息,得到第二信息。
其中,上述第二信息用于指示每帧眼球图像对应的眼球注视的文本区域中是否存在错误文本。
在本申请的一些实施例中,电子设备可以通过权重矩阵WQ对眼球方位特征向量进行线性变换,可以得到指示每帧眼球图像中是否包含眼动信息的向量,即第一信息。
在本申请的一些实施例中,电子设备还可以通过权重矩阵WV对第一文本对应的语义特征信息进行线性变换,可以得到指示每帧眼球图像对应的眼球注视的文本区域中是否存在错误文本,即第二信息。
在本申请的一些实施例中,电子设备通过权重矩阵WK对眼球方位特征向量进行线性变换,可以得到指示每帧眼球图像中包含眼球方位信息的向量,即第三信息。
步骤102d3、电子设备基于融合模块、第一信息、第二信息以及眼球方位特征向量,输出第一文本中错误文本的位置信息。
在本申请的一些实施例中,电子设备可以对第一信息与第三信息进行点积运算,得到眼球方位特征向量对应的注意力权重。然后再将该注意力权重与第二信息相乘,得到当前帧眼球图像对应的时刻下人眼注意力的加权和,从而得到最终的注意力输出。
可以理解的是,电子设备在得到每帧眼球图像对应的注意力输出之后,可以得到每帧眼球图像与第一文本中存在错误的文本的位置的相关性。
在本申请的一些实施例中,电子设备可以将得到最终的注意力输出,经过归一化层(Add&Norm)和一个线性分类层(Linear&softmax)处理,得到第一文本中每个字符的错误概率得分。可以理解的是,若字符的错误概率得分越高,则可以说明该字符错误的概率越大。
在本申请的一些实施例中,上述步骤102d1、步骤102d2和步骤102d3可以同时执行,也可以按照随机顺序执行。本申请实施例不作具体限定。
如此,由于电子设备可以根据眼球方位特征向量和第一文本对应的语义特征信息,得到第一文本中每个字符发生错误的可能性,从而可以更加准确地对文本中的错误文本的位置进行判断。
步骤103、电子设备基于错误文本的位置信息,对第一文本纠错,得到第二文本。
在本申请的一些实施例中,电子设备可以通过解码器对第一文本进行纠错。
在本申请的一些实施例中,上述解码器可以为包含语言模型的解码器,其可以通过该语言模型更加准确的对第一文本中的错误文本进行纠错。
示例性地,电子设备可以通过状态转换器(openfst)将N-Gram语言模型G融入解码器的解码图(TLG.fst)中,得到包含N-Gram语言模型的解码器。
在本申请的一些实施例中,电子设备可以通过解码器的解码图,对第一文本纠错,从而得到纠错之后的第二文本。可以理解的是,解码器的解码图可以为包含海量语言学知识的词图,从而电子设备通过解码器的解码图,对第一文本纠错。
示例性地,电子设备可以通过束搜索(beam search),在过解码器的解码图中查询第一文本的纠错文本,即第二文本。
在本申请的一些实施例中,上述解码器的解码图可以由人工智能语言识别模型(Recurrent Neural Network Transducer,RNNT)、模拟词典和语言模型构成。其中,RNNT可以保证解码图的输入空间被限定在RNNT损失的范围之内;并且,由于RNNT输出的结果的颗粒度是字符,而语言模型的输入颗粒度是单词,因此电子设备可以通过模拟词典将字符序列转换承单词序列。如此,可以使得语言模型较好的与解码器的解码图融合,从而使得通过解码器的解码图对第一文本进行更为准确的纠错。
在本申请的一些实施例中,电子设备在解码器的解码图对第一文本进行纠错时,可以通过解码器的解码图的维特比搜索,将错误文本的位置信息作为节点。如图8所示,解码图通过节点之间的跳转构成一个句式空间,该句式空间中的每一条路径都代表潜在的一种解码结果。
可以理解的是,电子设备可以通过解码器的解码图,将第一文本中每个字符的错误概率得分和解码器中语言模型中的语言学信息加权求和,增强第一文本中每个字符的的语义特征信息,从而可以提高对第一文本进行纠错的正确率。
示例性地,以第一文本为“天气肿么了”为例。电子设备通过解码器的解码图对“天气肿么了”进行纠错时,“天气”后面既可跳转到“怎么了”;也可以跳转到“怎么样”。此时,仅基于“天气肿么了”中每个字符的错误概率得分,无法确定出应将哪一个文本作为纠错后的第二文本。而通过解码器中语言模型中的语言学信息,电子设备可以确定出“天气怎么样”比“天气怎么了”更加符合语言规律,因此电子设备可以将“天气肿么了”修改为“天气怎么样”,即可得到第二文本。
在本申请的一些实施例中,电子设备可以将第二文本与第一文本对齐,将第一文本中错误文本位置上的文本替换为第二文本对应位置上的文本。
示例性地,电子设备可以采用最短编辑距离法,将第一文本中错误文本位置上的文本替换为第二文本对应位置上的文本。
在本申请的一些实施例中,电子设备还可以在第一文本中标记显示进行过纠错的文本,以使得用户可以再次对该文本进行修改。
本申请实施例提供的文本纠错方法,由于可以通过获取用户浏览文本过程中的眼动视频流,获取用户在浏览文本过程中的眼动行为,因此可以根据用户的眼动行为判断出文本中错误文本的位置,提高对错误文本位置判断的准确度,从而可以对该位置上的错误文本进行纠错,提高获取正确文本的效率。
上述各个方法实施例,或者各个方法实施例中的各种可能的实现方式均可以单独执行,也可以任意两个或两个以上相互结合执行,具体可以根据实际使用需求确定,本申请实施例对此不做限制。
本申请实施例提供的文本纠错方法,执行主体可以为文本纠错装置。本申请实施例中以文本纠错装置执行文本纠错方法为例,说明本申请实施例提供的文本纠错装置。
图7示出了本申请实施例中涉及的文本纠错装置的一种可能的结构示意图。如图7所示,该文本纠错装置70可以包括:显示模块71、获取模块72和处理模块73。
其中,获取模块72,用于在显示模块71显示第一文本的情况下,获取用户查看第一文本的眼动视频流;处理模块73,用于基于获取模块72获取的眼动视频流和第一文本,确定第一文本中错误文本的位置信息;以及,用于基于错误文本的位置信息,对第一文本纠错,得到第二文本。
在一种可能的实现方式中,上述眼动视频流包括N帧眼球图像,N为正整数;
上述处理模块73,还用于将眼动视频流和第一文本输入文本错误定位模型,文本错误定位模型包括第一提取模块、第二提取模块以及融合模块;以及,用于基于第一提取模块,提取N帧眼球图像对应的眼球方位特征向量,眼球方位特征向量指示用户的眼球移动方位序列;以及,用于基于第二提取模块,提取第一文本对应的语义特征信息;以及,还用于基于融合模块、眼球方位特征向量以及第一文本对应的语义特征信息输入,输出第一文本中错误文本的位置信息。
在一种可能的实现方式中,上述N帧眼球图像中的每帧眼球图像包括左眼眼球图像和右眼眼球图像;
上述处理模块73,具体用于:
基于第一提取模块,提取N帧眼球图像中的左眼眼球图像对应的第一眼球方位特征向量,以及N帧眼球图像中的右眼眼球图像对应的第二眼球方位特征向量;
拼接第一眼球方位特征向量和第二眼球方位特征向量,得到N帧眼球图像对应的眼球方位特征向量。
在一种可能的实现方式中,上述第一提取模块包括第一卷积网络、第二卷积网络以及局部自注意力模块;
上述处理模块73,还用于通过第一提取模块中的第一卷积网络,提取N帧眼球图像中的每帧眼球图像对应的第一图像特征信息,并基于第一图像特征信息,确定每帧眼球图像中的眼球部位区域;以及,用于通过第一提取模块中的第二卷积网络,提取每帧眼球图像中的眼球部位区域对应的第二图像特征信息,其中,上述第二卷积网络的卷积核为圆形卷积核;以及,还用于通过第一提取模块中的局部自注意力模块,按照N帧眼球图像的图像时序,融合N帧眼球图像对应的第二图像特征信息,得到眼球方位特征向量。
在一种可能的实现方式中,上述处理模块73,具体用于:
基于融合模块和眼球方位特征向量,得到第一信息,第一信息指示每帧眼球图像中是否包含眼动信息,眼动信息包括以下至少之一:眼球的转动信息,眼球的瞳孔放缩信息;
基于融合模块和第一文本对应的语义特征信息,得到第二信息,第二信息用于指示每帧眼球图像对应的眼球注视的文本区域中是否存在错误文本;
基于融合模块、第一信息、第二信息以及眼球方位特征向量,输出第一文本中错误文本的位置信息。
本申请实施例提供一种文本纠错装置,由于用户查看文本过程中的眼动视频流可以表示用户查看文本时人眼注视的区域,因此可以通过获取用户在浏览文本过程中的眼动视频流,根据用户注视的区域判断出文本中错误文本的位置,从而可以提高对错误文本位置判断的准确度,进而通过对该位置上的错误文本进行纠错,提高获取正确文本的效率。
本申请实施例中的文本纠错装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的文本纠错装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的文本纠错装置能够实现如上述文本纠错方法实施例实现的各个过程,达到相同的技术效果,为避免重复,这里不再赘述。
可选地,如图8所示,本申请实施例还提供一种电子设备800,包括处理器801和存储器802,存储器802上存储有可在所述处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现上述文本纠错方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图9为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。
本领域技术人员可以理解,电子设备900还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器910,用于在显示单元906显示第一文本的情况下,获取用户查看第一文本的眼动视频流;处理器910,用于基于眼动视频流和第一文本,确定第一文本中错误文本的位置信息;以及,用于基于错误文本的位置信息,对第一文本纠错,得到第二文本。
在一种可能的实现方式中,上述眼动视频流包括N帧眼球图像,N为正整数;
上述处理器910,还用于将眼动视频流和第一文本输入文本错误定位模型,文本错误定位模型包括第一提取模块、第二提取模块以及融合模块;以及,用于基于第一提取模块,提取N帧眼球图像对应的眼球方位特征向量,眼球方位特征向量指示用户的眼球移动方位序列;以及,还用于基于第二提取模块,提取第一文本对应的语义特征信息;以及,还用于基于融合模块、眼球方位特征向量以及第一文本对应的语义特征信息输入,输出第一文本中错误文本的位置信息。
在一种可能的实现方式中,上述N帧眼球图像中的每帧眼球图像包括左眼眼球图像和右眼眼球图像;
上述处理器910,具体用于:
基于第一提取模块,提取N帧眼球图像中的左眼眼球图像对应的第一眼球方位特征向量,以及N帧眼球图像中的右眼眼球图像对应的第二眼球方位特征向量;
拼接第一眼球方位特征向量和第二眼球方位特征向量,得到N帧眼球图像对应的眼球方位特征向量。
在一种可能的实现方式中,上述第一提取模块包括第一卷积网络、第二卷积网络以及局部自注意力模块;
上述处理器910,还用于通过第一提取模块中的第一卷积网络,提取N帧眼球图像中的每帧眼球图像对应的第一图像特征信息,并基于第一图像特征信息,确定每帧眼球图像中的眼球部位区域;以及,用于通过第一提取模块中的第二卷积网络,提取每帧眼球图像中的眼球部位区域对应的第二图像特征信息,其中,上述第二卷积网络的卷积核为圆形卷积核;以及,还用于通过第一提取模块中的局部自注意力模块,按照N帧眼球图像的图像时序,融合N帧眼球图像对应的第二图像特征信息,得到眼球方位特征向量。
在一种可能的实现方式中,上述处理器910,具体用于:
基于融合模块和眼球方位特征向量,得到第一信息,第一信息指示每帧眼球图像中是否包含眼动信息,眼动信息包括以下至少之一:眼球的转动信息,眼球的瞳孔放缩信息;
基于融合模块和第一文本对应的语义特征信息,得到第二信息,第二信息用于指示每帧眼球图像对应的眼球注视的文本区域中是否存在错误文本;
基于融合模块、第一信息、第二信息以及眼球方位特征向量,输出第一文本中错误文本的位置信息。
本申请实施例提供一种电子设备,由于用户查看文本过程中的眼动视频流可以表示用户查看文本时人眼注视的区域,因此可以通过获取用户在浏览文本过程中的眼动视频流,根据用户注视的区域判断出文本中错误文本的位置,从而可以提高对错误文本位置判断的准确度,进而通过对该位置上的错误文本进行纠错,提高获取正确文本的效率。
应理解的是,本申请实施例中,输入单元904可以包括图形处理器(GraphicsProcessing Unit,GPU)9041和麦克风9042,图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072中的至少一种。触控面板9071,也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器909可以包括易失性存储器或非易失性存储器,或者,存储器909可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器909包括但不限于这些和任意其它适合类型的存储器。
处理器910可包括一个或多个处理单元;可选的,处理器910集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述文本纠错方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述文本纠错方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述文本纠错方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种文本纠错方法,其特征在于,所述方法包括:
在显示第一文本的情况下,获取用户查看所述第一文本的眼动视频流;
基于所述眼动视频流和所述第一文本,确定所述第一文本中错误文本的位置信息;
基于所述错误文本的位置信息,对所述第一文本纠错,得到第二文本。
2.根据权利要求1所述的方法,其特征在于,所述眼动视频流包括N帧眼球图像,N为正整数;
所述基于所述眼动视频流和所述第一文本,确定所述第一文本中错误文本的位置,包括:
将所述眼动视频流和所述第一文本输入文本错误定位模型,所述文本错误定位模型包括第一提取模块、第二提取模块以及融合模块;
基于所述第一提取模块,提取所述N帧眼球图像对应的眼球方位特征向量,所述眼球方位特征向量指示所述用户的眼球移动方位序列;
基于所述第二提取模块,提取所述第一文本对应的语义特征信息;
基于所述融合模块、所述眼球方位特征向量以及所述第一文本对应的语义特征信息,输出所述第一文本中错误文本的位置信息。
3.根据权利要求2所述的方法,其特征在于,所述N帧眼球图像中的每帧眼球图像包括左眼眼球图像和右眼眼球图像;
所述基于所述第一提取模块,提取所述N帧眼球图像对应的眼球方位特征向量,包括:
基于所述第一提取模块,提取所述N帧眼球图像中的左眼眼球图像对应的第一眼球方位特征向量,以及所述N帧眼球图像中的右眼眼球图像对应的第二眼球方位特征向量;
拼接所述第一眼球方位特征向量和所述第二眼球方位特征向量,得到所述N帧眼球图像对应的眼球方位特征向量。
4.根据权利要求2所述的方法,其特征在于,所述第一提取模块包括第一卷积网络、第二卷积网络以及局部自注意力模块;
所述基于所述第一提取模块,提取所述N帧眼球图像对应的眼球方位特征向量,包括:
通过所述第一提取模块中的所述第一卷积网络,提取所述N帧眼球图像中的每帧眼球图像对应的第一图像特征信息,并基于所述第一图像特征信息,确定所述每帧眼球图像中的眼球部位区域;
通过所述第一提取模块中的所述第二卷积网络,提取所述每帧眼球图像中的眼球部位区域对应的第二图像特征信息,其中,所述第二卷积网络的卷积核为圆形卷积核;
通过所述第一提取模块中的所述局部自注意力模块,按照所述N帧眼球图像的图像时序,融合所述N帧眼球图像对应的第二图像特征信息,得到所述眼球方位特征向量。
5.根据权利要求2所述的方法,其特征在于,所述基于所述融合模块、所述眼球方位特征向量以及所述第一文本对应的语义特征信息,输出所述第一文本中错误文本的位置信息,包括:
基于所述融合模块和所述眼球方位特征向量,得到第一信息,所述第一信息指示所述每帧眼球图像中是否包含眼动信息,所述眼动信息包括以下至少之一:所述眼球的转动信息,所述眼球的瞳孔放缩信息;
基于所述融合模块和所述第一文本对应的语义特征信息,得到第二信息,所述第二信息用于指示所述每帧眼球图像对应的所述眼球注视的文本区域中是否存在错误文本;
基于所述融合模块、所述第一信息、所述第二信息以及所述眼球方位特征向量,输出所述第一文本中错误文本的位置信息。
6.一种文本纠错装置,其特征在于,所述装置包括:显示模块、获取模块和处理模块;
所述获取模块,用于在所述显示模块显示第一文本的情况下,获取用户查看所述第一文本的眼动视频流;
所述处理模块,用于基于所述获取模块获取的所述眼动视频流和所述第一文本,确定所述第一文本中错误文本的位置信息;
所述处理模块,还用于基于所述错误文本的位置信息,对所述第一文本纠错,得到第二文本。
7.根据权利要求6所述的装置,其特征在于,所述眼动视频流包括N帧眼球图像,N为正整数;
所述处理模块,具体用于:
将所述眼动视频流和所述第一文本输入文本错误定位模型,所述文本错误定位模型包括第一提取模块、第二提取模块以及融合模块;
基于所述第一提取模块,提取所述N帧眼球图像对应的眼球方位特征向量,所述眼球方位特征向量指示所述用户的眼球移动方位序列;
基于所述第二提取模块,提取所述第一文本对应的语义特征信息;
基于所述融合模块、所述眼球方位特征向量以及所述第一文本对应的语义特征信息输入所述融合模块,输出所述第一文本中错误文本的位置信息。
8.根据权利要求7所述的装置,其特征在于,所述N帧眼球图像中的每帧眼球图像包括左眼眼球图像和右眼眼球图像;
所述处理模块,具体用于:
基于所述第一提取模块,提取所述N帧眼球图像中的左眼眼球图像对应的第一眼球方位特征向量,以及所述N帧眼球图像中的右眼眼球图像对应的第二眼球方位特征向量;
拼接所述第一眼球方位特征向量和所述第二眼球方位特征向量,得到所述N帧眼球图像对应的眼球方位特征向量。
9.根据权利要求7所述的装置,其特征在于,所述第一提取模块包括第一卷积网络、第二卷积网络以及局部自注意力模块;
所述处理模块,还用于通过所述第一提取模块中的所述第一卷积网络,提取所述N帧眼球图像中的每帧眼球图像对应的第一图像特征信息,并基于所述第一图像特征信息,确定所述每帧眼球图像中的眼球部位区域;
所述处理模块,还用于通过所述第一提取模块中的所述第二卷积网络,提取所述每帧眼球图像中的眼球部位区域对应的第二图像特征信息,其中,所述第二卷积网络的卷积核为圆形卷积核;
所述处理模块,还用于通过所述第一提取模块中的所述局部自注意力模块,按照所述N帧眼球图像的图像时序,融合所述N帧眼球图像对应的第二图像特征信息,得到所述眼球方位特征向量。
10.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于:
基于所述融合模块和所述眼球方位特征向量,得到第一信息,所述第一信息指示所述每帧眼球图像中是否包含眼动信息,所述眼动信息包括以下至少之一:所述眼球的转动信息,所述眼球的瞳孔放缩信息;
基于所述融合模块和所述第一文本对应的语义特征信息,得到第二信息,所述第二信息用于指示所述每帧眼球图像对应的所述眼球注视的文本区域中是否存在错误文本;
基于所述融合模块、所述第一信息、所述第二信息以及所述眼球方位特征向量,输出所述第一文本中错误文本的位置信息。
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5任一项所述的文本纠错方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5任一项所述的文本纠错方法的步骤。
CN202311144320.XA 2023-09-05 2023-09-05 文本纠错方法、装置、电子设备及可读存储介质 Pending CN117195870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311144320.XA CN117195870A (zh) 2023-09-05 2023-09-05 文本纠错方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311144320.XA CN117195870A (zh) 2023-09-05 2023-09-05 文本纠错方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN117195870A true CN117195870A (zh) 2023-12-08

Family

ID=88986349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311144320.XA Pending CN117195870A (zh) 2023-09-05 2023-09-05 文本纠错方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117195870A (zh)

Similar Documents

Publication Publication Date Title
CN110348420B (zh) 手语识别方法、装置、计算机可读存储介质和计算机设备
US20210174072A1 (en) Microexpression-based image recognition method and apparatus, and related device
WO2022161298A1 (zh) 信息生成方法、装置、设备、存储介质及程序产品
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN109657533A (zh) 行人重识别方法及相关产品
CN109978754A (zh) 图像处理方法、装置、存储介质及电子设备
Laraba et al. Dance performance evaluation using hidden Markov models
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
CN109711356B (zh) 一种表情识别方法和系统
CN113421547B (zh) 一种语音处理方法及相关设备
CN112446322B (zh) 眼球特征检测方法、装置、设备及计算机可读存储介质
US20230143452A1 (en) Method and apparatus for generating image, electronic device and storage medium
CN113014988B (zh) 视频处理方法、装置、设备以及存储介质
CN111401192B (zh) 基于人工智能的模型训练方法和相关装置
Jing et al. Recognizing american sign language manual signs from rgb-d videos
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
CN111723707A (zh) 一种基于视觉显著性的注视点估计方法及装置
JP2023530796A (ja) 認識モデルトレーニング方法、認識方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
CN114898447B (zh) 一种基于自注意力机制的个性化注视点检测方法及装置
CN117195870A (zh) 文本纠错方法、装置、电子设备及可读存储介质
CN113887373A (zh) 基于城市智慧体育的并行融合网络的姿态识别方法和系统
Mishra et al. Environment descriptor for the visually impaired
Kheldoun et al. Algsl89: An algerian sign language dataset
Sams et al. Signbd-word: Video-based bangla word-level sign language and pose translation
US20240169701A1 (en) Affordance-based reposing of an object in a scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination