CN111611986A - 一种基于手指交互的焦点文本提取和识别方法及系统 - Google Patents
一种基于手指交互的焦点文本提取和识别方法及系统 Download PDFInfo
- Publication number
- CN111611986A CN111611986A CN202010391979.5A CN202010391979A CN111611986A CN 111611986 A CN111611986 A CN 111611986A CN 202010391979 A CN202010391979 A CN 202010391979A CN 111611986 A CN111611986 A CN 111611986A
- Authority
- CN
- China
- Prior art keywords
- text
- line
- information
- finger
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明涉及文本提取和识别的技术领域,提供了一种基于手指交互的焦点文本提取和识别方法及系统,其方法包括:S1:对手指划线的位置附近的图像进行切割,作为焦点文本区域;S2:对焦点文本区域内的图像进行各行的特征线识别,切割出每一行的图片信息;S3:针对每一行的图片信息进行文字分组,获得含有不同数量文字的文字图像块,并记录下文字图像块的位置信息;S4:对文字图像块进行识别,获取所述文字图像块内的文字和标点信息;S5:整合所述文字和标点信息,并使用自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取。基于摄像头采集数据,利用手指特殊交互动作,完成交互区域内文本信息的提取和识别。
Description
技术领域
本发明涉及文本提取和识别的技术领域,尤其涉及一种基于手指交互的焦点文本提取和识别方法及系统。
背景技术
在当前的人工智能领域中,经常会涉及到对文本的提取和识别,然而,当前的文本的提取和识别方法中,主要都是应用OCR(Optical Character Recognition,光学字符识别)技术,通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。但是,通过OCR技术识别文字的方法,通常都是对电子设备拍摄到的区域内的所有的文本进行识别,将摄像头区域内的文本全部读入智能设备中。不能够对用户指定的某一段或者某一句文本进行识别。
举个例子来说,当通过AI视觉的技术,实现辅助教学时,通常需要识别出学生具体指定的某一段或者某一句文本进行答疑,因此,建立一种方法,实现对文本中指定的某一段或者某一句文本进行识别尤其重要,然而,现有的OCR识别技术不能实现这一功能。
本发明引进了手指交互的方法,来进行指定的某一段或者某一句文本进行识别,现有的手指交互的方法,仅用于在智能设备中对文本进行选择。
例如,在“CN105955617B用于选择文本的手势”中公开“用户可以通过将一个或多个手指与触摸屏的表面物理接触以执行特定手势,来选择在触摸屏显示设备上显示的文本。一旦用户已执行了手势,移动设备就可以将文本的部分识别为被选择,并且可以显示已被选择的该部分的视觉指示。用户可以进一步接触触摸屏来对该文本执行动作。例如,用户可以通过轻击触摸屏的显示所选择的文本的区域来复制该文本。在第二示例中,用户可以轻击或长按触摸屏的显示所选择的文本区域,以促使移动设备显示可以对该文本执行的动作的菜单(例如,文本复制、文本删除、文本字体大小改变、文本字体类型改变、文本字体强调改变以及本文字体颜色改变)。”。该公开文件中,仅公开了通过手势在智能设备的触摸屏上接触来执行特定的手势。
综上所述,在现有技术中,没有一种有效的方法,能够对文本,尤其是打印在纸上的文本中的具体的某一段或某一句文本进行焦点文本的提取和识别。
发明内容
针对上述问题,本发明的目的在于提供一种基于手指交互的焦点文本提取和识别方法及系统,基于摄像头采集数据,利用手指特殊交互动作,完成交互区域内文本信息的提取和识别。通过捕捉识别手指划线的动作,使用一系列的算法模块最终实现包含划线部分文字的整句文字的提取和识别。
本发明的上述发明目的是通过以下技术方案得以实现的:
一种基于手指交互的焦点文本提取和识别方法,包括以下步骤:
S1:通过电子设备获取手指划线的位置,对所述手指划线的位置附近的图像进行切割,作为焦点文本区域;
S2:通过行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的特征线识别,根据所述特征线切割出每一行的图片信息;
S3:针对所述每一行的图片信息进行文字分组,获得含有不同数量文字的文字图像块,并记录下所述文字图像块的位置信息;
S4:通过包括OCR算法在内的文字图像识别人工智能算法对所述文字图像块进行识别,获取所述文字图像块内的文字和标点信息;
S5:根据所述文字图像块的位置信息整合所述文字和标点信息,并使用自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取。
进一步地,在步骤S1中,通过所述电子设备获取所述手指划线的位置,具体的步骤为:
S11:通过所述电子设备获得多帧连续的手指位置信息构成手指移动信息;
S12:通过所述电子设备获得多帧连续的手指所在位置区域附近的文字构成文本方向信息;
S13:结合所述文本方向信息和所述手指移动信息进行手指划线动作的识别,获取到手指划线的位置。
进一步地,在步骤S2中,通过所述行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的所述特征线识别之前,还包括:
预先获取大量的所述焦点文本区域内的图像,对所述焦点文本区域内的图像进行特征线的标记,其中,标记所述焦点文本区域内的图像的特征线的方式包括在每一行文字底部沿着文字方向划一条折线、沿着每一行文字的中心划一条穿过文字中心的折线在内的任何一种方式;
将所述特征线作为所述焦点文本区域内的图像的标签与所述焦点文本区域内的图像共同送入所述行特征线识别人工智能算法中进行神经网络算法的训练;
通过由所述神经网络算法训练过的所述行特征线识别人工智能算法,对所述焦点文本区域内的图像进行各行的所述特征线的识别。
进一步地,在步骤S3中,针对所述每一行的图片信息进行文字分组,具体为:
针对所述每一行的图片信息,根据文字的扭曲程度和扭曲方向对所述每一行的图片信息进行分组,将扭曲程度和扭曲方向相近似的所述文字图像块分为一组。
进一步地,在步骤S5中,根据所述文字图像块的位置信息整合所述文字和标点信息,具体为:
在对所述每一行的图片信息进行文字分组,获得含有不同数量文字的所述文字图像块时,对所述每一行的图片信息建立一个坐标系,记录下每一个所述文字图像块相对于所述坐标系的坐标信息;
在对所述文字和标点信息进行整合时,根据每一个所述文字图像块的所述坐标信息,判断出每一个所述文字图像块的相对位置关系,进而获得所述文字图像块上的所述文字和标点信息的相对位置关系,根据所述文字和标点信息的相对位置关系对所述文字和标点信息进行整合。
进一步地,在步骤S5中,使用所述自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取,具体为:
通过使用所述文字图像识别人工智能算法识别包括句号、感叹号、问号在内的代表句头和句尾的标点符号,识别大写首字母,并推断所述大写首字母是否为句首,通过YEKP算法根据句意进行断句处理的方式,获取所述焦点文本的句头和句尾,完成所述焦点文本的提取。
一种基于手指交互的焦点文本提取和识别系统,包括:文本区域获取模块,特征线切割模块,图片信息分组模块,文字和标点获取模块,文本提取模块;
所述文本区域获取模块,用于通过电子设备获取手指划线的位置,对所述手指划线的位置附近的图像进行切割,作为焦点文本区域;
所述特征线切割模块,用于通过行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的特征线识别,根据所述特征线切割出每一行的图片信息;
所述图片信息分组模块,用于针对所述每一行的图片信息进行文字分组,获得含有不同数量文字的文字图像块,并记录下所述文字图像块的位置信息;
所述文字和标点获取模块,用于通过包括OCR算法在内的文字图像识别人工智能算法对所述文字图像块进行识别,获取所述文字图像块内的文字和标点信息;
所述文本提取模块,用于根据所述文字图像块的位置信息整合所述文字和标点信息,并使用自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取。
进一步地,所述文本区域获取模块进一步包括:
手指移动信息获取单元,用于通过所述电子设备获得多帧连续的手指位置信息构成手指移动信息;
成文本方向信息获取单元,用于通过所述电子设备获得多帧连续的手指所在位置区域附近的文字构成文本方向信息;
手指划线的位置获取单元,用于结合所述文本方向信息和所述手指移动信息进行手指划线动作的识别,获取到手指划线的位置。
进一步地,系统还包括:
特征性标记模块,用于预先获取大量的所述焦点文本区域内的图像,对所述焦点文本区域内的图像进行特征线的标记,其中,标记所述焦点文本区域内的图像的特征线的方式包括在每一行文字底部沿着文字方向划一条折线、沿着每一行文字的中心划一条穿过文字中心的折线在内的任何一种方式;将所述特征线作为所述焦点文本区域内的图像的标签与所述焦点文本区域内的图像共同送入所述行特征线识别人工智能算法中进行神经网络算法的训练。
与现有技术相比,本发明包括以下至少一种有益效果是:
(1)通过建立一种基于手指交互的焦点文本提取和识别方法,具体包括:通过电子设备获取手指划线的位置,对所述手指划线的位置附近的图像进行切割,作为焦点文本区域;通过行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的特征线识别,根据所述特征线切割出每一行的图片信息;针对所述每一行的图片信息进行文字分组,获得含有不同数量文字的文字图像块,并记录下所述文字图像块的位置信息;通过包括OCR算法在内的文字图像识别人工智能算法对所述文字图像块进行识别,获取所述文字图像块内的文字和标点信息;根据所述文字图像块的位置信息整合所述文字和标点信息,并使用自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取。上述方案能够在交互区域内,通过手指特殊交互动作,完成交互区域内文本信息的提取和识别,能够对文本中的指定的某一段或者某一句文本的识别。
(2)通过获取多帧连续的手指位置信息和手指所在位置区域附近的文字构成文本方向信息,结合手指位置信息和文本方向信息进行手指划线动作的识别,获取到手指划线的位置。能够准确的与文本相结合,获取到手指在文本上划的具体位置,以及该具体位置对应的文本区域。
(3)通过预先获取大量焦点文本区域内的图像,对焦点文本区域内的图像进行特征线的标记,将特征线作为焦点文本区域内的图像的标签与焦点文本区域内的图像共同送入行特征性识别人工算法中进行神经网络算法的训练;进而通过由神经网络算法训练过的行特征线识别人工智能算法,对焦点文本区域内的图像进行各行的特征线的识别。通过上述设置特征线的方案,使得使用人工智能算法具备自动识别焦点信息区域的文字行特征线的能力。由此获得所有行的所有特征线后,经过简单的数学切割,即可以获得每一行的图像信息。
(4)通过针对每一行的图片信息,根据文字的扭曲程度和扭曲方向对所述每一行的图片信息进行分组,将扭曲程度和扭曲方向相近似的所述文字图像块分为一组。由于纸张的扭曲或者摄像头边缘的视野扭曲,含有文字的图片将会出现不同程度的扭曲,不同位置的扭曲程度随着相互位置的越来越远,扭曲程度越来越大。分组后,将扭曲程度相近的一些文字图片分为一组,其中还有近似扭曲程度的文字,送入包括OCR在内的算法进行识别时,能够更好的提高准确率。
附图说明
图1为本发明一种基于手指交互的焦点文本提取和识别方法的整体流程图;
图2为本发明一种基于手指交互的焦点文本提取和识别系统的整体结构图;
图3为本发明一种基于手指交互的焦点文本提取和识别系统中文本区域获取模块的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
在当前的人工智能领域中,经常会涉及到对文本的提取和识别,尤其是在通过AI视觉技术,实现辅助教学领域,通常需要识别出学生具体指定的某一段或者某一句文本进行答疑。
基于以上应用场景,本发明的核心思路为:基于摄像头采集数据,利用手指特殊交互动作,完成交互区域内文本信息的提取和识别。通过捕捉识别手指划线的动作,使用一系列的算法模块最终实现包含划线部分文字的整句文字的提取和识别。
本发明的一个显著特点是:可以实现对用户通过手指任意指定的,通过手指特殊交互动作,比如说划线,识别出文本信息中用户指定的某一句或者某一段的文本。
第一实施例
如图1所示,其为本发明一种基于手指交互的焦点文本提取和识别方法的具体流程图。它包括:
S1:通过电子设备获取手指划线的位置,对所述手指划线的位置附近的图像进行切割,作为焦点文本区域。
具体的,在本实施例中,通过电子设备获取手指划线的位置,电子设备包括摄像头,AI视觉设备在内的一切可以识别出图像的设备,并且在识别位置时,是通过在使用手指划线时,对手指划线的动作进行连续的拍摄,形成连续多帧的图像。后续对多帧的图像进行合成,即可获取到手指划线的具体的文本区域,再对手指划线的具体的文本区域进行切割,即得到了焦点文本区域,即为用户需要使用电子设备识别的对应的文本区域。
进一步地,通过电子设备获取所述手指划线的位置,具体的步骤为:
S11:通过所述电子设备获得多帧连续的手指位置信息构成手指移动信息。
S12:通过所述电子设备获得多帧连续的手指所在位置区域附近的文字构成文本方向信息。
S13:结合所述文本方向信息和所述手指移动信息进行手指划线动作的识别,获取到手指划线的位置。
具体的,上述通过电子设备获取手指划线的位置信息的优势在于,能够将手指划线的位置,与手指划线位置附近的文本进行更加精密的结合,使得后续获取到的文本更加的准确。
S2:通过行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的特征线识别,根据所述特征线切割出每一行的图片信息。
具体地,在本实施例中,通过行特征线识别人工智能算法对焦点文本区域内的图像进行各行的特征线识别,其中,行特征线识别人工智能算法为通过使用特征线人工标记大量的焦点文本区域内的图像,将这些特征线作为图像的特征线人工标签,和图像一通送入人工智能算法中进行神经网络训练后的算法。通过训练后的行特征线识别人工智能算法对图像进行各行的特征线识别,在获得所有行的所有特征线后,经过简单的数学切割,即可以获得每一行的图像信息。
进一步地,通过所述行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的所述特征线识别之前,还包括:
预先获取大量的所述焦点文本区域内的图像,对所述焦点文本区域内的图像进行特征线的标记,其中,标记所述焦点文本区域内的图像的特征线的方式包括在每一行文字底部沿着文字方向划一条折线、沿着每一行文字的中心划一条穿过文字中心的折线在内的任何一种方式。
将所述特征线作为所述焦点文本区域内的图像的标签与所述焦点文本区域内的图像共同送入所述行特征线识别人工智能算法中进行神经网络算法的训练。
通过由所述神经网络算法训练过的所述行特征线识别人工智能算法,对所述焦点文本区域内的图像进行各行的所述特征线的识别。
S3:针对所述每一行的图片信息进行文字分组,获得含有不同数量文字的文字图像块,并记录下所述文字图像块的位置信息。
进一步地,针对所述每一行的图片信息进行文字分组,具体为:
针对所述每一行的图片信息,根据文字的扭曲程度和扭曲方向对所述每一行的图片信息进行分组,将扭曲程度和扭曲方向相近似的所述文字图像块分为一组。
由于纸张的扭曲或者摄像头边缘的视野扭曲,含有文字的图片将会出现不同程度的扭曲,不同位置的扭曲程度随着相互位置的越来越远,扭曲程度则越大。分组的目的是扭曲程度相近的一些文字图片分为一组,其中还有近似扭曲程度的文字,送入ocr算法之后进行识别时,能够更好的提高准确率。分组的原则是尽量分割扭曲程度和扭曲方向不同的文字图片,最理想方案是每一个独立的单词文字分为一组。单词文字间较为明显的缝隙可以为分组提供基础支持,使用简单的图像识别方案即可以检测到这类缝隙,继而完成分组。
S4:通过包括OCR算法在内的文字图像识别人工智能算法对所述文字图像块进行识别,获取所述文字图像块内的文字和标点信息。
S5:根据所述文字图像块的位置信息整合所述文字和标点信息,并使用自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取。
进一步地,根据所述文字图像块的位置信息整合所述文字和标点信息,具体为:
在对所述每一行的图片信息进行文字分组,获得含有不同数量文字的所述文字图像块时,对所述每一行的图片信息建立一个坐标系,记录下每一个所述文字图像块相对于所述坐标系的坐标信息;
在对所述文字和标点信息进行整合时,根据每一个所述文字图像块的所述坐标信息,判断出每一个所述文字图像块的相对位置关系,进而获得所述文字图像块上的所述文字和标点信息的相对位置关系,根据所述文字和标点信息的相对位置关系对所述文字和标点信息进行整合。
进一步地,使用所述自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取,具体为:
通过使用所述文字图像识别人工智能算法识别包括句号、感叹号、问号在内的代表句头和句尾的标点符号,识别大写首字母,并推断所述大写首字母是否为句首,通过YEKP算法根据句意进行断句处理的方式,获取所述焦点文本的句头和句尾,完成所述焦点文本的提取。
具体的,在本实施例中,自然语言处理的主要是为了进行句子意思的切分。获得句头句尾的最直接方案是ocr能够识别获得代表句头和句尾的标点符号,比如句号、感叹号、问号,还可以通过识别大写首字母,并推断该首字母是不是句首(比如Mr的M基本上不是,但是Where is的W几乎确定是句首),句尾一般不作类似判断,可以直接判断下一句句首来确定前一句的句尾。在OCR识别标点符号不成功的时候。自然语言处理方案一些现有的成熟技术可以根据句意进行断句处理,比如YELP算法。
第二实施例
如图2所示,其为本发明一种基于手指交互的焦点文本提取和识别系统的结构图。其为本发明中一种基于手指交互的焦点文本提取和识别方法对应的系统,它包括:文本区域获取模块1,特征线切割模块2,图片信息分组模块3,文字和标点获取模块4,文本提取模块5;
所述文本区域获取模块1,用于通过电子设备获取手指划线的位置,对所述手指划线的位置附近的图像进行切割,作为焦点文本区域;
所述特征线切割模块2,用于通过行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的特征线识别,根据所述特征线切割出每一行的图片信息;
所述图片信息分组模块3,用于针对所述每一行的图片信息进行文字分组,获得含有不同数量文字的文字图像块,并记录下所述文字图像块的位置信息;
所述文字和标点获取模块4,用于通过包括OCR算法在内的文字图像识别人工智能算法对所述文字图像块进行识别,获取所述文字图像块内的文字和标点信息;
所述文本提取模块5,用于根据所述文字图像块的位置信息整合所述文字和标点信息,并使用自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取。
进一步地,所述文本区域获取模块1进一步包括:
手指移动信息获取单元11,用于通过所述电子设备获得多帧连续的手指位置信息构成手指移动信息;
成文本方向信息获取单元12,用于通过所述电子设备获得多帧连续的手指所在位置区域附近的文字构成文本方向信息;
手指划线的位置获取单元13,用于结合所述文本方向信息和所述手指移动信息进行手指划线动作的识别,获取到手指划线的位置。
进一步地,本发明系统还包括:特征性标记模块6,用于预先获取大量的所述焦点文本区域内的图像,对所述焦点文本区域内的图像进行特征线的标记,其中,标记所述焦点文本区域内的图像的特征线的方式包括在每一行文字底部沿着文字方向划一条折线、沿着每一行文字的中心划一条穿过文字中心的折线在内的任何一种方式;将所述特征线作为所述焦点文本区域内的图像的标签与所述焦点文本区域内的图像共同送入所述行特征线识别人工智能算法中进行神经网络算法的训练。
一种计算机可读存储介质,计算机可读存储介质存储有计算机代码,当计算机代码被执行时,如上述方法被执行。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。如本说明书实施例所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子系统执行时,使得所述电子系统执行实施例一所述的方法。在此不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
Claims (10)
1.一种基于手指交互的焦点文本提取和识别方法,其特征在于,包括以下步骤:
S1:通过电子设备获取手指划线的位置,对所述手指划线的位置附近的图像进行切割,作为焦点文本区域;
S2:通过行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的特征线识别,根据所述特征线切割出每一行的图片信息;
S3:针对所述每一行的图片信息进行文字分组,获得含有不同数量文字的文字图像块,并记录下所述文字图像块的位置信息;
S4:通过包括OCR算法在内的文字图像识别人工智能算法对所述文字图像块进行识别,获取所述文字图像块内的文字和标点信息;
S5:根据所述文字图像块的位置信息整合所述文字和标点信息,并使用自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取。
2.根据权利要求1所述的基于手指交互的焦点文本提取和识别方法,其特征在于,在步骤S1中,通过所述电子设备获取所述手指划线的位置,具体的步骤为:
S11:通过所述电子设备获得多帧连续的手指位置信息构成手指移动信息;
S12:通过所述电子设备获得多帧连续的手指所在位置区域附近的文字构成文本方向信息;
S13:结合所述文本方向信息和所述手指移动信息进行手指划线动作的识别,获取到手指划线的位置。
3.根据权利要求1所述的基于手指交互的焦点文本提取和识别方法,其特征在于,在步骤S2中,通过所述行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的所述特征线识别之前,还包括:
预先获取大量的所述焦点文本区域内的图像,对所述焦点文本区域内的图像进行特征线的标记,其中,标记所述焦点文本区域内的图像的特征线的方式包括在每一行文字底部沿着文字方向划一条折线、沿着每一行文字的中心划一条穿过文字中心的折线在内的任何一种方式;
将所述特征线作为所述焦点文本区域内的图像的标签与所述焦点文本区域内的图像共同送入所述行特征线识别人工智能算法中进行神经网络算法的训练;
通过由所述神经网络算法训练过的所述行特征线识别人工智能算法,对所述焦点文本区域内的图像进行各行的所述特征线的识别。
4.根据权利要求1所述的基于手指交互的焦点文本提取和识别方法,其特征在于,在步骤S3中,针对所述每一行的图片信息进行文字分组,具体为:
针对所述每一行的图片信息,根据文字的扭曲程度和扭曲方向对所述每一行的图片信息进行分组,将扭曲程度和扭曲方向相近似的所述文字图像块分为一组。
5.根据权利要求1所述的基于手指交互的焦点文本提取和识别方法,其特征在于,在步骤S5中,根据所述文字图像块的位置信息整合所述文字和标点信息,具体为:
在对所述每一行的图片信息进行文字分组,获得含有不同数量文字的所述文字图像块时,对所述每一行的图片信息建立一个坐标系,记录下每一个所述文字图像块相对于所述坐标系的坐标信息;
在对所述文字和标点信息进行整合时,根据每一个所述文字图像块的所述坐标信息,判断出每一个所述文字图像块的相对位置关系,进而获得所述文字图像块上的所述文字和标点信息的相对位置关系,根据所述文字和标点信息的相对位置关系对所述文字和标点信息进行整合。
6.根据权利要求1所述的基于手指交互的焦点文本提取和识别方法,其特征在于,在步骤S5中,使用所述自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取,具体为:
通过使用所述文字图像识别人工智能算法识别包括句号、感叹号、问号在内的代表句头和句尾的标点符号,识别大写首字母,并推断所述大写首字母是否为句首,通过YEKP算法根据句意进行断句处理的方式,获取所述焦点文本的句头和句尾,完成所述焦点文本的提取。
7.一种基于手指交互的焦点文本提取和识别系统,其特征在于,包括:文本区域获取模块,特征线切割模块,图片信息分组模块,文字和标点获取模块,文本提取模块;
所述文本区域获取模块,用于通过电子设备获取手指划线的位置,对所述手指划线的位置附近的图像进行切割,作为焦点文本区域;
所述特征线切割模块,用于通过行特征线识别人工智能算法对所述焦点文本区域内的图像进行各行的特征线识别,根据所述特征线切割出每一行的图片信息;
所述图片信息分组模块,用于针对所述每一行的图片信息进行文字分组,获得含有不同数量文字的文字图像块,并记录下所述文字图像块的位置信息;
所述文字和标点获取模块,用于通过包括OCR算法在内的文字图像识别人工智能算法对所述文字图像块进行识别,获取所述文字图像块内的文字和标点信息;
所述文本提取模块,用于根据所述文字图像块的位置信息整合所述文字和标点信息,并使用自然语言处理获取焦点文本的句头和句尾,完成所述焦点文本的提取。
8.根据权利要求7所述的基于手指交互的焦点文本提取和识别系统,其特征在于,所述文本区域获取模块进一步包括:
手指移动信息获取单元,用于通过所述电子设备获得多帧连续的手指位置信息构成手指移动信息;
成文本方向信息获取单元,用于通过所述电子设备获得多帧连续的手指所在位置区域附近的文字构成文本方向信息;
手指划线的位置获取单元,用于结合所述文本方向信息和所述手指移动信息进行手指划线动作的识别,获取到手指划线的位置。
9.根据权利要求7所述的基于手指交互的焦点文本提取和识别系统,其特征在于,还包括:
特征性标记模块,用于预先获取大量的所述焦点文本区域内的图像,对所述焦点文本区域内的图像进行特征线的标记,其中,标记所述焦点文本区域内的图像的特征线的方式包括在每一行文字底部沿着文字方向划一条折线、沿着每一行文字的中心划一条穿过文字中心的折线在内的任何一种方式;将所述特征线作为所述焦点文本区域内的图像的标签与所述焦点文本区域内的图像共同送入所述行特征线识别人工智能算法中进行神经网络算法的训练。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如权利要求1至6中任一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010391979.5A CN111611986B (zh) | 2020-05-11 | 2020-05-11 | 一种基于手指交互的焦点文本提取和识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010391979.5A CN111611986B (zh) | 2020-05-11 | 2020-05-11 | 一种基于手指交互的焦点文本提取和识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611986A true CN111611986A (zh) | 2020-09-01 |
CN111611986B CN111611986B (zh) | 2023-06-09 |
Family
ID=72196917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010391979.5A Active CN111611986B (zh) | 2020-05-11 | 2020-05-11 | 一种基于手指交互的焦点文本提取和识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611986B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780254A (zh) * | 2021-11-12 | 2021-12-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 图片处理方法、装置、电子设备及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120131520A1 (en) * | 2009-05-14 | 2012-05-24 | Tang ding-yuan | Gesture-based Text Identification and Selection in Images |
CN110298349A (zh) * | 2019-06-15 | 2019-10-01 | 韶关市启之信息技术有限公司 | 一种快速将纸质书内容转化为数字内容的方法与装置 |
CN110443231A (zh) * | 2019-09-05 | 2019-11-12 | 湖南神通智能股份有限公司 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
-
2020
- 2020-05-11 CN CN202010391979.5A patent/CN111611986B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120131520A1 (en) * | 2009-05-14 | 2012-05-24 | Tang ding-yuan | Gesture-based Text Identification and Selection in Images |
CN110298349A (zh) * | 2019-06-15 | 2019-10-01 | 韶关市启之信息技术有限公司 | 一种快速将纸质书内容转化为数字内容的方法与装置 |
CN110443231A (zh) * | 2019-09-05 | 2019-11-12 | 湖南神通智能股份有限公司 | 一种基于人工智能的单手手指点读文字识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
田瑶琳;: "基于RGB分割的含数字水印图像的文字识别" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780254A (zh) * | 2021-11-12 | 2021-12-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 图片处理方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111611986B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827247B (zh) | 一种识别标签的方法及设备 | |
CN110046529B (zh) | 二维码识别方法、装置及设备 | |
CN111291661B (zh) | 一种屏幕中图标的文本内容的识别方法及设备 | |
CN111353501A (zh) | 一种基于深度学习的书本点读方法及系统 | |
CN112749696B (zh) | 一种文本检测方法及装置 | |
CN111563512A (zh) | 一种答案自动涂抹的方法、装置、电子设备及存储介质 | |
CN111027537A (zh) | 一种搜题方法及电子设备 | |
CN111753120A (zh) | 一种搜题的方法、装置、电子设备和存储介质 | |
CN112348028A (zh) | 一种场景文本检测方法、批改方法、装置、电子设备及介质 | |
CN110728193B (zh) | 一种脸部图像丰富度特征的检测方法及设备 | |
CN111062377A (zh) | 一种题号检测方法、系统、存储介质及电子设备 | |
CN111611986B (zh) | 一种基于手指交互的焦点文本提取和识别方法及系统 | |
CN111860122B (zh) | 一种现实场景下的阅读综合行为的识别方法及系统 | |
JP2016038821A (ja) | 画像処理装置 | |
CN111798542B (zh) | 模型训练方法、数据处理方法及装置、设备、存储介质 | |
CN112149678A (zh) | 特殊语言的文字识别方法、识别模型训练方法和装置 | |
CN111814780A (zh) | 一种票据图像处理方法、装置、设备及存储介质 | |
CN104850819B (zh) | 信息处理方法及电子设备 | |
CN112348112B (zh) | 图像识别模型的训练方法、训练装置及终端设备 | |
CN111291756B (zh) | 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质 | |
CN111582281B (zh) | 一种图片显示优化的方法、装置、电子设备和存储介质 | |
CN113033400B (zh) | 识别数学式子的方法、装置、存储介质及电子设备 | |
Ma et al. | Mobile camera based text detection and translation | |
CN115100663A (zh) | 文档图像中文字高度的分布情况估计方法及装置 | |
CN110969161B (zh) | 图像处理方法、电路、视障辅助设备、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |