CN104239875B - 字符串识别、翻译方法及设备 - Google Patents

字符串识别、翻译方法及设备 Download PDF

Info

Publication number
CN104239875B
CN104239875B CN201410522255.4A CN201410522255A CN104239875B CN 104239875 B CN104239875 B CN 104239875B CN 201410522255 A CN201410522255 A CN 201410522255A CN 104239875 B CN104239875 B CN 104239875B
Authority
CN
China
Prior art keywords
pixel value
focus
point
notable
eye
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410522255.4A
Other languages
English (en)
Other versions
CN104239875A (zh
Inventor
李柯材
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqin Technology Co Ltd
Original Assignee
Huaqin Telecom Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqin Telecom Technology Co Ltd filed Critical Huaqin Telecom Technology Co Ltd
Priority to CN201410522255.4A priority Critical patent/CN104239875B/zh
Publication of CN104239875A publication Critical patent/CN104239875A/zh
Application granted granted Critical
Publication of CN104239875B publication Critical patent/CN104239875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种字符串识别、翻译方法及设备。该字符串识别方法包括以下步骤:拍摄同步的眼睛运动视频和眼前图像视频;对眼睛运动视频进行分析以获取原始眼动数据;生成修正眼动数据;合成显著图;找出显著图上各个高密度区域中的注意焦点;将所有注意焦点作为种子点、并采用种子填充算法对各个种子点进行填充,以获得注视焦点图像;将注视焦点图像和预设字符模板进行对比,找出和注视焦点图像的相似度最高的字符模板并生成识别字符串。本发明的字符串识别、翻译方法及设备,基于同步的眼睛运动视频和眼前图像视频,得出眼动数据并进行分析,能够自动对用户注视或正在查看的图像进行字符串的获取和识别,便利程度极高。

Description

字符串识别、翻译方法及设备
技术领域
本发明涉及一种字符串识别、翻译方法及设备。
背景技术
目前,随着国际化的快速发展,即便普通人,也经常会遇到外文资料,而对于外语学习者,更需要大量地阅读外文资料。在目前的外文阅读过程中,如果遇到生疏的词汇时,通常需要借助字典、电子词典或到专业的网站上进行搜索查询,无论哪种查询方式,此过程都需要手动逐个地输入词汇字母,效率极低,导致较大比例的人干脆跳过生词,不去理会,这又使得阅读质量明显下降。对于小语种的外文资料来说,不熟悉的人很难准确输入外文词句,同时输入法也较少,导致对于小语种来说有着更大的障碍。
然而,如果要省去手动输入的过程,就必须首先实现以较为便捷的方式自动获取用户感兴趣的或者正在阅读的字符串并对其进行有效的识别,才可能进一步对其进行翻译。因此,亟需一种能够令用户使用非常便利的自动识别字符串的方法,使其能够在不增加用户太多操作的前提下普遍适用于各种环境下的字符串的识别。
发明内容
本发明要解决的技术问题是为了克服现有技术中缺少一种能够便利地自动对字符串进行有效识别的方法,因而必须依赖用户手动输入才能完成字符串的翻译的缺陷,提出一种字符串识别方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供了一种字符串识别方法,其特征在于,包括以下步骤:
S1、拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的景图像帧;
S2、对眼睛运动视频进行分析以获取原始眼动数据,原始眼动数据包括原始注视数据和原始眼跳数据,原始注视数据和原始眼跳数据均包括基于相应眼图像帧的原始坐标;
S3、将原始眼动数据中的原始坐标通过预设的坐标变换算法生成修正眼动数据,修正眼动数据包括修正注视数据和修正眼跳数据,修正注视数据和修正眼跳数据均包括基于相应景图像帧的修正坐标;
S4、根据修正眼动数据及相应景图像帧获取注视焦点图像;
S5、将注视焦点图像和预设的多个字符模板进行对比,找出和注视焦点图像的相似度最高或高于一相似度阈值的字符模板作为匹配字符模板,根据匹配字符模板生成识别字符串。
较佳地,S4包括以下步骤:
S41、根据修正注视数据中的修正坐标确定相应景图像帧上的注视点,对于每一个注视点,采用核密度估计算法得到其高斯分布,将所有注视点的高斯分布叠加合成一显著图,该显著图上每一点均具有像素值;
S42、采用标记山头法找出该显著图上各个高密度区域中的注意焦点,其中高密度区域为该显著图上注视点密度高于一密度阈值的区域,注意焦点为各个高密度区域中像素值最高的点;
S43、获取所有注意焦点的坐标,并将所有注意焦点作为种子点;
S44、采用种子填充算法对各个种子点进行填充,以获得注视焦点图像。
首先,本发明的字符串识别方法可以利用光学系统获取眼睛视频图像和眼前图像视频,通过分析处理得到人眼观看图像时的注视时间、注视点坐标等原始的眼动数据,然后对获得的眼动数据进行筛选和处理,获取有效的眼动数据。简而言之,获取的眼睛视频图像能够表现出人眼怎么看,而眼前图像视频则是模拟人眼表现出人眼看的是什么。本发明中的眼动数据包括注视数据、眼跳数据两部分。利用同步的眼睛运动视频和眼前图像视频将以人眼为目标的原始眼动数据,转化为修正眼动数据。本领域技术人员应当理解,这样的光学系统可以由两个摄像机及其他较为常用的光学组件来组成,以实现上述功能。
在人眼看一些图像时,人对于图像中各个区域的兴趣度可以由人眼在不同区域的注视时间长短和注视次数来反映出,因而本发明借由注视数据和眼跳数据对于人眼的阅读\注视\查看的情况进行分析。而对于眼图像帧和景图像帧来说,其尺寸大小可能会有所不同,这种情况下可以根据其尺寸大小预设适当的坐标变换公式进行转换。
此外,核密度估计算法是指在概率论中用来估计未知的密度函数,属于非参数检验方法之一,本发明的核密度估计算法所采用的核函数可以是均匀核函数、三角核函数、伽马核函数等。而步骤S5中所采用的标记山头法,其实质意义是从每个高密度区域找出一个注意焦点,最终获得所有的最佳注意焦点。这里的注意焦点指的是借由眼动数据所确定的图像中观看者或阅读者的兴趣最大的点的位置。
以下对步骤S5中所采用的标记山头法的大体思路进行较为形象的说明,以便理解。如果将显著图中每个点的像素值看成是山的高度,则显著图可以形象地表示为“山地”,其中要找的注意焦点就是每座山的山头。找出显著图中像素值最大的点(可以理解为最高的山头)作为第一个注意焦点,对该点所在区域增长,将该区域填充为零(可以理解为将这座山的山顶削掉)。在处理过的显著图中寻找下一个像素值最大的点。此时,需要解决的问题是,下一个像素值最大的点有可能是已填充为像素值为零的区域的边缘像素点(即山头已被标记过的山的山腰位置,而不是其他山的山头)。因而就需要一个判断条件来判断当前像素值最大的点是已找过山峰的“山腰”还是未标记过的“山头”。因为已标记过的注意焦点的一定邻域范围已被填充为零,所以如果当前像素值最大点是“山腰”,即其位于已填充为零区域的边缘,则其周围的邻域点(举例来说,可能是上下左右及两对角线的8个方向上与像素点相邻的点)必有像素值为零的点。因此每找到一个像素值最大的点,计算该点邻域的所有像素值,如果该点邻域像素值有为零的情况,则说明该点是山腰位置,不能作为注意焦点,否则是山头,标记为注意焦点。无论是否是注意焦点,都需要在该点进行区域增长,然后继续寻找下一个像素值最大的点,重复这种寻找过程,直到找到适当个数的注意焦点结束寻找。
步骤S6中采用的种子填充算法又称为边界填充算法,其基本思想是:从多边形区域的一个内点开始,由内向外用给定的颜色画点直到边界为止。如果边界是以一种颜色指定的,则种子填充算法可逐个像素地处理直到遇到边界颜色为止。
在S8中进行的注视焦点图像和预设的多个字符模板的对比中,可首先对注视焦点图像(即包含待识别字符的图像)进行二值图像的归一化处理,然后将其与事先构造好的模板(比如事先构造好的外文字库中的字符模板)进行对比,根据注视焦点图像与模板的相似度大小来确定最终的识别字符,并生成识别字符串。这一识别字符串可以是单词或者词组,也可以短语或者语句。
较佳地,步骤S2包括以下步骤:
S21、从各个时刻的眼图像帧中提取瞳孔中心坐标和角膜反射光斑中心坐标;
S22、对瞳孔中心坐标和角膜反射光斑中心坐标随时间的变化进行分析,以获取原始眼动数据。
较佳地,原始注视数据为瞳孔中心坐标和/或角膜反射光斑中心坐标在一预设时长范围内未改变的数据,原始眼跳数据为某一时刻瞳孔中心坐标和/或角膜反射光斑中心坐标的变化速度和变化加速度分别大于一速度阈值和一加速度阈值的数据。
容易理解地,这里的变化速度和变化加速度,也就是这两种坐标随时间变化而移动所产生的速度和加速度。
较佳地,在步骤S44和S5之间还包括以下步骤:
S45、利用开运算和/或闭运算对注视焦点图像进行去孔和平滑边缘的处理,然后执行S5
其中开运算是对一个图像先进行腐蚀运算然后再膨胀的操作过程。它可以消除细小的物体、在纤细点处分离物体、平滑较大物体的边界时不明显的改变其面积。而闭运算则是对一个图像先膨胀然后再收缩,它具有填充物体内细小的空洞、连接邻近物体、在不明显改变物体面积的情况下平滑其边界的作用。
较佳地,S42包括以下步骤:
S421、找出该显著图上像素值最大的像素值极大点;
S422、判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下执行S423,在判断结果为是的情况下执行S424
S423、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后执行步骤S425
S424、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后执行步骤S425
S425、判断注意焦点的个数是否达到一焦点个数阈值,在判断结果为否的情况下返回S421,在判断结果为是的情况下执行S43
较佳地,S42包括以下步骤:
S421a、找出该显著图上像素值最大的像素值极大点;
S422a、判断该像素值极大点的像素值是否大于一像素值阈值,在判断结果为是的情况下执行S423a,在判断结果为否的情况下执行S43
S423a、判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下执行S424a,在判断结果为是的情况下执行S425a
S424a、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后返回步骤S421a
S425a、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后返回步骤S421a
应当理解地,本发明中可择一地采用上述具体步骤S421a~S425a与步骤S421~S425
本发明还提供了一种字符串翻译方法,包括上述字符串识别方法,并且在步骤S5后还包括以下步骤:
S6、将该识别字符串翻译为目标语言,显示翻译结果。
本发明还提供了一种字符串识别设备,其特点在于,包括拍摄模块、视频解析模块、修正模块、注视焦点图像模块以及匹配模块。
其中,拍摄模块用于拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的景图像帧。
视频解析模块用于对眼睛运动视频进行分析以获取原始眼动数据,原始眼动数据包括原始注视数据和原始眼跳数据,原始注视数据和原始眼跳数据均包括基于相应眼图像帧的原始坐标。
修正模块用于将原始眼动数据中的原始坐标通过预设的坐标变换算法生成修正眼动数据,修正眼动数据包括修正注视数据和修正眼跳数据,修正注视数据和修正眼跳数据均包括基于相应景图像帧的修正坐标。
注视焦点图像模块用于根据修正眼动数据及相应景图像帧获取注视焦点图像。
匹配模块,用于将注视焦点图像和预设的多个字符模板进行对比,找出和注视焦点图像的相似度最高或高于一相似度阈值的字符模板作为匹配字符模板,根据匹配字符模板生成识别字符串。
较佳地,注视焦点图像模块包括显著图合成模块、焦点获取模块、焦点坐标模块和种子填充模块。
其中,显著图合成模块,用于根据修正注视数据中的修正坐标确定相应景图像帧上的注视点,对于每一个注视点,采用核密度估计算法得到其高斯分布,将所有注视点的高斯分布叠加合成一显著图,该显著图上每一点均具有像素值。
焦点获取模块,用于采用标记山头法找出该显著图上各个高密度区域中的注意焦点,其中高密度区域为该显著图上注视点密度高于一密度阈值的区域,注意焦点为各个高密度区域中像素值最高的点。
焦点坐标模块,用于获取所有注意焦点的坐标,并将所有注意焦点作为种子点。种子填充模块,用于采用种子填充算法对各个种子点进行填充,以获得注视焦点图像。
较佳地,该视频解析模块包括一中心坐标提取单元和一中心坐标解析单元,该中心坐标提取单元用于从各个时刻的眼图像帧中提取瞳孔中心坐标和角膜反射光斑中心坐标,该中心坐标解析单元用于对瞳孔中心坐标和角膜反射光斑中心坐标随时间的变化进行分析,以获取原始眼动数据。
较佳地,原始注视数据为瞳孔中心坐标和/或角膜反射光斑中心坐标在一预设时长范围内未改变的数据,原始眼跳数据为某一时刻瞳孔中心坐标和/或角膜反射光斑中心坐标的变化速度和变化加速度分别大于一速度阈值和一加速度阈值的数据。
较佳地,注视焦点图像模块还包括一平滑模块,用于利用开运算和/或闭运算对注视焦点图像进行去孔和平滑边缘的处理,并将处理后的注视焦点图像发送至该匹配模块。
较佳地,该焦点获取模块包括:
一像素值极大点单元,用于找出该显著图上像素值最大的像素值极大点,并启用一第一判断单元;
该第一判断单元用于判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下启用一第一变更单元,在判断结果为是的情况下启用一第二变更单元;
该第一变更单元,用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后启用该第二变更单元;
该第二变更单元用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后启用一第二判断单元;
该第二判断单元用于判断注意焦点的个数是否达到一焦点个数阈值,在判断结果为否的情况下重新启用该像素值极大点单元,在判断结果为是的情况下启用该焦点坐标模块。
较佳地,该焦点获取模块包括:
一像素值极大点单元,用于找出该显著图上像素值最大的像素值极大点,并启用一第三判断单元;
该第三判断单元用于判断该像素值极大点的像素值是否大于一像素值阈值,在判断结果为是的情况下启用一第四判断单元,在判断结果为否的情况下启用该焦点坐标模块;
该第四判断单元用于判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下启用一第三变更单元,在判断结果为是的情况下启用一第四变更单元;
该第三变更单元用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后重新启用该像素值极大点单元;
该第四变更单元用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后重新启用该像素值极大点单元。
本发明还提供了一种字符串翻译设备,其特点在于,包括上述字符串识别设备以及一翻译模块,该翻译模块用于将该匹配模块生成的该识别字符串翻译为目标语言,并显示翻译结果。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
本发明的字符串识别、翻译方法及设备,基于同步的眼睛运动视频和眼前图像视频,得出眼动数据进行进一步分析,能够自动对用户注视或正在查看的图像进行字符串的获取和识别,便利程度极高,无需依赖用户手动输入就能完成字符串的翻译。
附图说明
图1为本发明实施例1的字符串识别方法的流程图。
图2为本发明实施例1的字符串识别方法中步骤S5的流程图。
图3为本发明实施例2的字符串识别方法中步骤S5的流程图。
图4为本发明实施例4的字符串识别设备的示意图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例的字符串识别方法包括以下步骤:
S1、拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的景图像帧;
S2、对眼睛运动视频进行分析以获取原始眼动数据,原始眼动数据包括原始注视数据和原始眼跳数据,原始注视数据和原始眼跳数据均包括基于相应眼图像帧的原始坐标;
S3、将原始眼动数据中的原始坐标通过预设的坐标变换算法生成修正眼动数据,修正眼动数据包括修正注视数据和修正眼跳数据,修正注视数据和修正眼跳数据均包括基于相应景图像帧的修正坐标;
S4、根据修正注视数据中的修正坐标确定相应景图像帧上的注视点,对于每一个注视点,采用核密度估计算法得到其高斯分布,将所有注视点的高斯分布叠加合成一显著图,该显著图上每一点均具有像素值;
S5、采用标记山头法找出该显著图上各个高密度区域中的注意焦点,其中高密度区域为该显著图上注视点密度高于一密度阈值的区域,注意焦点为各个高密度区域中像素值最高的点;
S6、获取所有注意焦点的坐标,并将所有注意焦点作为种子点;
S7、采用种子填充算法对各个种子点进行填充,以获得注视焦点图像;
S71、利用开运算和闭运算对注视焦点图像进行去孔和平滑边缘的处理;
S8、将注视焦点图像和预设的多个字符模板进行对比,找出和注视焦点图像的相似度最高或高于一相似度阈值的字符模板作为匹配字符模板,根据匹配字符模板生成识别字符串。
参考图2所示,本实施例中的步骤S5包括以下步骤:
S51、找出该显著图上像素值最大的像素值极大点;
S52、判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下执行S53,在判断结果为是的情况下执行S54
S53、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后执行步骤S55
S54、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后执行步骤S55
S55、判断注意焦点的个数是否达到一焦点个数阈值,在判断结果为否的情况下返回S51,在判断结果为是的情况下执行S6
实施例2
本实施例的字符串识别方法和实施例1相比,仅在步骤S2和步骤S5上存在一定的差别,具体如下。
本实施例中,步骤S2包括以下步骤:
S21、从各个时刻的眼图像帧中提取瞳孔中心坐标和角膜反射光斑中心坐标;
S22、对瞳孔中心坐标和角膜反射光斑中心坐标随时间的变化进行分析,以获取原始眼动数据。
其中,原始注视数据为瞳孔中心坐标和角膜反射光斑中心坐标在一预设时长范围内未改变的数据,原始眼跳数据为某一时刻瞳孔中心坐标和角膜反射光斑中心坐标的变化速度和变化加速度分别大于一速度阈值和一加速度阈值的数据。这里的变化速度和变化加速度,也就是这两种坐标随时间变化而移动所产生的速度和加速度。
本实施例中,参考图3所示,步骤S5基本由以下步骤组成:
S51a、找出该显著图上像素值最大的像素值极大点;
S52a、判断该像素值极大点的像素值是否大于一像素值阈值,在判断结果为是的情况下执行S53a,在判断结果为否的情况下执行S6
S53a、判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下执行S54a,在判断结果为是的情况下执行S55a
S54a、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后返回步骤S51a
S55a、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后返回步骤S51a
实施例3
本实施例的字符串翻译方法包括了实施例3的字符串识别方法的全部步骤,并且在步骤S8后还包括一步骤:
S9、将该识别字符串翻译为目标语言,显示翻译结果。
实施例4
参考图4所示,本实施例的字符串识别设备,包括以下组成部分:
一拍摄模块1,用于拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的景图像帧;
一视频解析模块2,用于对眼睛运动视频进行分析以获取原始眼动数据,原始眼动数据包括原始注视数据和原始眼跳数据,原始注视数据和原始眼跳数据均包括基于相应眼图像帧的原始坐标;
一修正模块3,用于将原始眼动数据中的原始坐标通过预设的坐标变换算法生成修正眼动数据,修正眼动数据包括修正注视数据和修正眼跳数据,修正注视数据和修正眼跳数据均包括基于相应景图像帧的修正坐标;
一显著图合成模块4,用于根据修正注视数据中的修正坐标确定相应景图像帧上的注视点,对于每一个注视点,采用核密度估计算法得到其高斯分布,将所有注视点的高斯分布叠加合成一显著图,该显著图上每一点均具有像素值;
一焦点获取模块5,用于采用标记山头法找出该显著图上各个高密度区域中的注意焦点,其中高密度区域为该显著图上注视点密度高于一密度阈值的区域,注意焦点为各个高密度区域中像素值最高的点;
一焦点坐标模块6,用于获取所有注意焦点的坐标,并将所有注意焦点作为种子点;
一种子填充模块7,用于采用种子填充算法对各个种子点进行填充,以获得注视焦点图像;
一匹配模块8,用于将注视焦点图像和预设的多个字符模板进行对比,找出和注视焦点图像的相似度最高或高于一相似度阈值的字符模板作为匹配字符模板,根据匹配字符模板生成识别字符串。
其中,该视频解析模块包括一中心坐标提取单元和一中心坐标解析单元,该中心坐标提取单元用于从各个时刻的眼图像帧中提取瞳孔中心坐标和角膜反射光斑中心坐标,该中心坐标解析单元用于对瞳孔中心坐标和角膜反射光斑中心坐标随时间的变化进行分析,以获取原始眼动数据。在此处,原始注视数据为瞳孔中心坐标和角膜反射光斑中心坐标在一预设时长范围内未改变的数据,原始眼跳数据为某一时刻瞳孔中心坐标和角膜反射光斑中心坐标的变化速度和变化加速度分别大于一速度阈值和一加速度阈值的数据。
并且,该字符串识别设备还包括一平滑模块,用于利用开运算和闭运算对注视焦点图像进行去孔和平滑边缘的处理,并将处理后的注视焦点图像发送至该匹配模块。
该焦点获取模块具体包括了以下单元:
一像素值极大点单元,用于找出该显著图上像素值最大的像素值极大点,并启用一第一判断单元;
该第一判断单元用于判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下启用一第一变更单元,在判断结果为是的情况下启用一第二变更单元;
该第一变更单元,用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后启用该第二变更单元;
该第二变更单元用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后启用一第二判断单元;
该第二判断单元用于判断注意焦点的个数是否达到一焦点个数阈值,在判断结果为否的情况下重新启用该像素值极大点单元,在判断结果为是的情况下启用该焦点坐标模块。
实施例5
本实施例的字符串识别设备和实施例4的字符串识别设备相比,差别仅在于具有不同的焦点获取模块。
本实施例中的焦点获取模块包括以下单元:
一像素值极大点单元,用于找出该显著图上像素值最大的像素值极大点,并启用一第三判断单元;
该第三判断单元用于判断该像素值极大点的像素值是否大于一像素值阈值,在判断结果为是的情况下启用一第四判断单元,在判断结果为否的情况下启用该焦点坐标模块;
该第四判断单元用于判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下启用一第三变更单元,在判断结果为是的情况下启用一第四变更单元;
该第三变更单元用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后重新启用该像素值极大点单元;
该第四变更单元用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后重新启用该像素值极大点单元。
实施例6
本实施例的字符串翻译设备包括了实施例5的字符串识别设备以及一翻译模块,该翻译模块用于将该匹配模块生成的该识别字符串翻译为目标语言,并显示翻译结果。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (16)

1.一种字符串识别方法,其特征在于,包括以下步骤:
S1、拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的景图像帧;
S2、对眼睛运动视频进行分析以获取原始眼动数据,原始眼动数据包括原始注视数据和原始眼跳数据,原始注视数据和原始眼跳数据均包括基于相应眼图像帧的原始坐标;
S3、将原始眼动数据中的原始坐标通过预设的坐标变换算法生成修正眼动数据,修正眼动数据包括修正注视数据和修正眼跳数据,修正注视数据和修正眼跳数据均包括基于相应景图像帧的修正坐标;
S4、根据修正眼动数据及相应景图像帧获取注视焦点图像;
S5、将注视焦点图像和预设的多个字符模板进行对比,找出和注视焦点图像的相似度最高或高于一相似度阈值的字符模板作为匹配字符模板,根据匹配字符模板生成识别字符串。
2.如权利要求1所述的字符串识别方法,其特征在于,S4包括以下步骤:
S41、根据修正注视数据中的修正坐标确定相应景图像帧上的注视点,对于每一个注视点,采用核密度估计算法得到其高斯分布,将所有注视点的高斯分布叠加合成一显著图,该显著图上每一点均具有像素值;
S42、采用标记山头法找出该显著图上各个高密度区域中的注意焦点,其中高密度区域为该显著图上注视点密度高于一密度阈值的区域,注意焦点为各个高密度区域中像素值最高的点;
S43、获取所有注意焦点的坐标,并将所有注意焦点作为种子点;
S44、采用种子填充算法对各个种子点进行填充,以获得注视焦点图像。
3.如权利要求1所述的字符串识别方法,其特征在于,步骤S2包括以下步骤:
S21、从各个时刻的眼图像帧中提取瞳孔中心坐标和角膜反射光斑中心坐标;
S22、对瞳孔中心坐标和角膜反射光斑中心坐标随时间的变化进行分析,以获取原始眼动数据。
4.如权利要求3所述的字符串识别方法,其特征在于,原始注视数据为瞳孔中心坐标和/或角膜反射光斑中心坐标在一预设时长范围内未改变的数据,原始眼跳数据为某一时刻瞳孔中心坐标和/或角膜反射光斑中心坐标的变化速度和变化加速度分别大于一速度阈值和一加速度阈值的数据。
5.如权利要求2所述的字符串识别方法,其特征在于,在步骤S44和S5之间还包括以下步骤:
S45、利用开运算和/或闭运算对注视焦点图像进行去孔和平滑边缘的处理,然后执行S5
6.如权利要求2所述的字符串识别方法,其特征在于,S42包括以下步骤:
S421、找出该显著图上像素值最大的像素值极大点;
S422、判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下执行S423,在判断结果为是的情况下执行S424
S423、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后执行步骤S425
S424、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后执行步骤S425
S425、判断注意焦点的个数是否达到一焦点个数阈值,在判断结果为否的情况下返回S421,在判断结果为是的情况下执行S43
7.如权利要求2所述的字符串识别方法,S42包括以下步骤:
S421a、找出该显著图上像素值最大的像素值极大点;
S422a、判断该像素值极大点的像素值是否大于一像素值阈值,在判断结果为是的情况下执行S423a,在判断结果为否的情况下执行S43
S423a、判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下执行S424a,在判断结果为是的情况下执行S425a
S424a、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后返回步骤S421a
S425a、将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后返回步骤S421a
8.一种字符串翻译方法,其特征在于,包括如权利要求1-7中任意一项所述的字符串识别方法,在步骤S5后还包括以下步骤:
S6、将该识别字符串翻译为目标语言,显示翻译结果。
9.一种字符串识别设备,其特征在于,包括:
拍摄模块,用于拍摄一预设时长的时间段内同步的眼睛运动视频和眼前图像视频,眼睛运动视频包括该时间段内各个时刻记录有眼睛的眼图像帧,眼前图像视频包括该时间段内各个时刻记录有位于眼睛前方的场景的景图像帧;
视频解析模块,用于对眼睛运动视频进行分析以获取原始眼动数据,原始眼动数据包括原始注视数据和原始眼跳数据,原始注视数据和原始眼跳数据均包括基于相应眼图像帧的原始坐标;
修正模块,用于将原始眼动数据中的原始坐标通过预设的坐标变换算法生成修正眼动数据,修正眼动数据包括修正注视数据和修正眼跳数据,修正注视数据和修正眼跳数据均包括基于相应景图像帧的修正坐标;
注视焦点图像模块,用于根据修正眼动数据及相应景图像帧获取注视焦点图像;
匹配模块,用于将注视焦点图像和预设的多个字符模板进行对比,找出和注视焦点图像的相似度最高或高于一相似度阈值的字符模板作为匹配字符模板,根据匹配字符模板生成识别字符串。
10.如权利要求9所述的字符串识别设备,其特征在于,注视焦点图像模块包括显著图合成模块、焦点获取模块、焦点坐标模块和种子填充模块,其中,
显著图合成模块,用于根据修正注视数据中的修正坐标确定相应景图像帧上的注视点,对于每一个注视点,采用核密度估计算法得到其高斯分布,将所有注视点的高斯分布叠加合成一显著图,该显著图上每一点均具有像素值;
焦点获取模块,用于采用标记山头法找出该显著图上各个高密度区域中的注意焦点,其中高密度区域为该显著图上注视点密度高于一密度阈值的区域,注意焦点为各个高密度区域中像素值最高的点;
焦点坐标模块,用于获取所有注意焦点的坐标,并将所有注意焦点作为种子点;
种子填充模块,用于采用种子填充算法对各个种子点进行填充,以获得注视焦点图像。
11.如权利要求9所述的字符串识别设备,其特征在于,该视频解析模块包括一中心坐标提取单元和一中心坐标解析单元,该中心坐标提取单元用于从各个时刻的眼图像帧中提取瞳孔中心坐标和角膜反射光斑中心坐标,该中心坐标解析单元用于对瞳孔中心坐标和角膜反射光斑中心坐标随时间的变化进行分析,以获取原始眼动数据。
12.如权利要求11所述的字符串识别设备,其特征在于,原始注视数据为瞳孔中心坐标和/或角膜反射光斑中心坐标在一预设时长范围内未改变的数据,原始眼跳数据为某一时刻瞳孔中心坐标和/或角膜反射光斑中心坐标的变化速度和变化加速度分别大于一速度阈值和一加速度阈值的数据。
13.如权利要求10所述的字符串识别设备,其特征在于,注视焦点图像模块还包括一平滑模块,用于利用开运算和/或闭运算对注视焦点图像进行去孔和平滑边缘的处理,并将处理后的注视焦点图像发送至该匹配模块。
14.如权利要求10所述的字符串识别设备,该焦点获取模块包括:
一像素值极大点单元,用于找出该显著图上像素值最大的像素值极大点,并启用一第一判断单元;
该第一判断单元用于判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下启用一第一变更单元,在判断结果为是的情况下启用一第二变更单元;
该第一变更单元,用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后启用该第二变更单元;
该第二变更单元用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后启用一第二判断单元;
该第二判断单元用于判断注意焦点的个数是否达到一焦点个数阈值,在判断结果为否的情况下重新启用该像素值极大点单元,在判断结果为是的情况下启用该焦点坐标模块。
15.如权利要求10所述的字符串识别设备,该焦点获取模块包括:
一像素值极大点单元,用于找出该显著图上像素值最大的像素值极大点,并启用一第三判断单元;
该第三判断单元用于判断该像素值极大点的像素值是否大于一像素值阈值,在判断结果为是的情况下启用一第四判断单元,在判断结果为否的情况下启用该焦点坐标模块;
该第四判断单元用于判断和该像素值极大点相邻的点中是否存在像素值为零的点,在判断结果为否的情况下启用一第三变更单元,在判断结果为是的情况下启用一第四变更单元;
该第三变更单元用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,并将该像素值极大点变更为注意焦点,然后重新启用该像素值极大点单元;
该第四变更单元用于将该显著图上位于该像素值极大点的一邻域范围内的点的像素值更改为零,然后重新启用该像素值极大点单元。
16.一种字符串翻译设备,其特征在于,包括如权利要求9-15中任意一项所述的字符串识别设备以及一翻译模块,该翻译模块用于将该匹配模块生成的该识别字符串翻译为目标语言,并显示翻译结果。
CN201410522255.4A 2014-09-30 2014-09-30 字符串识别、翻译方法及设备 Active CN104239875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410522255.4A CN104239875B (zh) 2014-09-30 2014-09-30 字符串识别、翻译方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410522255.4A CN104239875B (zh) 2014-09-30 2014-09-30 字符串识别、翻译方法及设备

Publications (2)

Publication Number Publication Date
CN104239875A CN104239875A (zh) 2014-12-24
CN104239875B true CN104239875B (zh) 2017-08-08

Family

ID=52227901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410522255.4A Active CN104239875B (zh) 2014-09-30 2014-09-30 字符串识别、翻译方法及设备

Country Status (1)

Country Link
CN (1) CN104239875B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446944B (zh) * 2018-10-15 2021-09-24 西安文理学院 手语的视觉语义-结构化解析方法
CN110244848B (zh) * 2019-06-17 2021-10-19 Oppo广东移动通信有限公司 阅读控制方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722704A (zh) * 2012-06-12 2012-10-10 厦门宸天电子科技有限公司 一种融合视频动态跟踪的车牌识别方法和系统
CN103472915A (zh) * 2013-08-30 2013-12-25 深圳Tcl新技术有限公司 基于瞳孔跟踪的阅读控制方法、阅读控制装置及显示设备
CN103870814A (zh) * 2014-03-18 2014-06-18 上海理工大学 基于智能相机的非接触式实时眼动识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120275653A1 (en) * 2011-04-28 2012-11-01 Industrial Technology Research Institute Method for recognizing license plate image, and related computer program product, computer-readable recording medium, and image recognizing apparatus using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722704A (zh) * 2012-06-12 2012-10-10 厦门宸天电子科技有限公司 一种融合视频动态跟踪的车牌识别方法和系统
CN103472915A (zh) * 2013-08-30 2013-12-25 深圳Tcl新技术有限公司 基于瞳孔跟踪的阅读控制方法、阅读控制装置及显示设备
CN103870814A (zh) * 2014-03-18 2014-06-18 上海理工大学 基于智能相机的非接触式实时眼动识别方法

Also Published As

Publication number Publication date
CN104239875A (zh) 2014-12-24

Similar Documents

Publication Publication Date Title
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
US11595737B2 (en) Method for embedding advertisement in video and computer device
CN108229397B (zh) 基于Faster R-CNN的图像中文本检测方法
CN107493488B (zh) 基于Faster R-CNN模型的视频内容物智能植入的方法
JP6317772B2 (ja) 外国語の文字セットおよびそれらの翻訳を資源に制約のあるモバイル機器上にリアルタイムで表示するためのシステムおよび方法
CN113205040A (zh) 人脸图像处理方法、装置和电子设备
CN106846306A (zh) 一种超声图像自动描述方法和系统
CN110414352A (zh) 从视频文件中提取ppt文件信息的方法及相关设备
CN107273895B (zh) 用于头戴式智能设备的视频流实时文本识别及翻译的方法
CN104750678A (zh) 一种图像文本识别翻译眼镜及方法
CN112084927B (zh) 一种融合多种视觉信息的唇语识别方法
CN108364032A (zh) 一种基于卷积神经网络的宫颈癌细胞图片识别算法
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN111507353B (zh) 一种基于文字识别的中文字段检测方法及系统
CN204537126U (zh) 一种图像文本识别翻译眼镜
CN104239875B (zh) 字符串识别、翻译方法及设备
CN112257513A (zh) 一种手语视频翻译模型的训练方法、翻译方法及系统
CN110096987B (zh) 一种基于双路3dcnn模型的哑语动作识别方法
CN106295458A (zh) 基于图像处理的眼球检测方法
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN113850178A (zh) 一种视频词云的生成方法及装置、存储介质及电子设备
CN113887329A (zh) 一种头部姿态定位与检测方法及其应用和系统
CN112749696A (zh) 一种文本检测方法及装置
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
CN114332882A (zh) 文本翻译方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 201203 Shanghai city Pudong New Area Zhangjiang Keyuan Road No. 399 Building No. 1

Applicant after: HUAQIN TELECOM TECHNOLOGY Co.,Ltd.

Address before: 201203 Shanghai city Pudong New Area Zhangjiang Keyuan Road No. 399 Building No. 1

Applicant before: SHANGHAI HUAQIN TELECOM TECHNOLOGY Co.,Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Building 1, No. 399 Keyuan Road, Zhangjiang hi tech park, Pudong New Area, Shanghai, 201203

Patentee after: Huaqin Technology Co.,Ltd.

Address before: Building 1, No. 399 Keyuan Road, Zhangjiang hi tech park, Pudong New Area, Shanghai, 201203

Patentee before: Huaqin Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Building 1, No. 399 Keyuan Road, Zhangjiang hi tech park, Pudong New Area, Shanghai, 201203

Patentee after: Huaqin Technology Co.,Ltd.

Address before: 201203 Building 1, 399 Zhangyuan Road, Zhangjiang, Pudong New Area, Shanghai

Patentee before: HUAQIN TELECOM TECHNOLOGY Co.,Ltd.