CN110032994A - 文字检测方法、阅读辅助设备、电路及介质 - Google Patents

文字检测方法、阅读辅助设备、电路及介质 Download PDF

Info

Publication number
CN110032994A
CN110032994A CN201910494385.4A CN201910494385A CN110032994A CN 110032994 A CN110032994 A CN 110032994A CN 201910494385 A CN201910494385 A CN 201910494385A CN 110032994 A CN110032994 A CN 110032994A
Authority
CN
China
Prior art keywords
predetermined
indicant
text
detected
literal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910494385.4A
Other languages
English (en)
Other versions
CN110032994B (zh
Inventor
梅嵩
蔡海蛟
冯歆鹏
周骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhao Ming Electronic Technology Co Ltd
NextVPU Shanghai Co Ltd
Original Assignee
Shanghai Zhao Ming Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhao Ming Electronic Technology Co Ltd filed Critical Shanghai Zhao Ming Electronic Technology Co Ltd
Priority to CN201910494385.4A priority Critical patent/CN110032994B/zh
Publication of CN110032994A publication Critical patent/CN110032994A/zh
Priority to PCT/CN2019/099015 priority patent/WO2020248346A1/zh
Priority to KR1020217042421A priority patent/KR20220027081A/ko
Priority to EP19193818.2A priority patent/EP3751448B1/en
Priority to US16/554,310 priority patent/US10796187B1/en
Application granted granted Critical
Publication of CN110032994B publication Critical patent/CN110032994B/zh
Priority to JP2019176732A priority patent/JP6698996B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开一种文字检测方法、阅读辅助设备、电路及介质,所述文字检测方法包括:获取待检测文字对象的第一待检测图像;确定第一待检测图像中是否包含预定指示物;如果第一待检测图像中包含预定指示物,则确定预定指示物的位置,并且获取待检测文字对象的第二待检测图像;确定第二待检测图像中是否包含预定指示物;如果第二待检测图像中不包含预定指示物,则基于预定指示物的位置确定文字检测区域。

Description

文字检测方法、阅读辅助设备、电路及介质
技术领域
本公开涉及数据处理领域,特别涉及一种文字检测方法、阅读辅助设备以及相应的处理器芯片电路和计算机可读存储介质。
背景技术
与文字相关的数据处理可以包括对于文字的检测和识别。尽管当前与文字相关的数据处理技术广泛应用于各个领域中,但文字检测的准确性仍待提高。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一个方面,提供了一种文字检测方法,包括:获取待检测文字对象的第一待检测图像;确定第一待检测图像中是否包含预定指示物;如果第一待检测图像中包含预定指示物,则确定预定指示物的位置,并且获取待检测文字对象的第二待检测图像;确定第二待检测图像中是否包含预定指示物;如果第二待检测图像中不包含预定指示物,则基于预定指示物的位置确定文字检测区域。
根据本公开的另一个方面,提供了一种处理器芯片电路,包括:被配置为执行根据本公开中所述的方法的步骤的电路单元。
根据本公开的另一个方面,提供了一种阅读辅助设备,包括:传感器,被配置为获取待检测文字对象的图像;以及前述的处理器芯片电路。
根据本公开的另一个方面,提供了一种阅读辅助设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由处理器执行时使处理器执行本公开中所述的方法。
根据本公开的另一个方面,提供了一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使电子设备执行本公开中所述的方法。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据本公开示例性实施例的文字检测方法的流程图;
图2是示出根据本公开示例性实施例的作为预定指示物的用户手指的指尖部分或指甲的示意图;
图3是示出根据本公开示例性实施例的基于预定指示物的位置来确定文字检测区域的方法的流程图;
图4是示出根据本公开示例性实施例的基于预定指示物的位置、从一个或多个包含文字的区域中确定文字检测区域的示例性方法的流程图;
图5A-5D是根据本公开示例性实施例的基于预定指示物的位置来确定文字检测区域的示意图;
图6-图8是根据本公开不同示例性实施例的基于预定指示物的位置来确定文字检测区域的示意图;
图9是示出根据本公开另一示例性实施例的文字检测方法的流程图;
图10是示出根据本公开示例性实施例的确定文字检测区域中要识别的一个或多个文字行的方法的流程图;
图11是示出根据本公开示例性实施例的确定文字检测区域中要识别的一个或多个文字行的示意图;
图12是示出能够应用于示例性实施例的示例性计算设备的结构框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
对于文字的检测和识别而言,所期望的是从需要检测的包含文字的对象中准确地找到要进行文字检测的区域并进行识别。在需要进行文字检测和识别的某些应用中,可能包含用户的交互过程。例如,用户可以指向需要检测的对象中希望进行文字检测和识别的区域。
根据本公开的实施例,提供了一种改进的文字检测方法,其能够提高文字检测的准确性。以下将结合附图对本公开的文字检测方法的示例性实施例进行进一步描述。
图1是示出根据本公开示例性实施例的文字检测方法的流程图。如图1所示,该文字检测方法例如可以包括以下步骤。
在步骤S101中,获取待检测文字对象的第一待检测图像。
待检测文字对象可以是用户希望进行文字检测的包含文字内容的任何对象,例如书籍、报纸、屏幕、菜单、标志等。待检测文字对象例如可以由用户使用预定指示物来指向。该预定指示物可以是具有指示特性的物体,比如触笔、指针、用户手指的指尖或指甲等等。
可以通过多种方式来获取待检测文字对象的第一待检测图像。例如,第一待检测图像可以通过摄像头或摄像机拍摄获取,也可以通过相机或者具有拍照功能的设备(例如手机、平板电脑、可穿戴设备、阅读辅助设备等)拍照获取。第一待检测图像也可以有其它来源,例如来自其它图像获取设备。当然,第一待检测图像也可以是现存的图像,即,之前已经获取并保存的图像。本公开对此不进行限制。
在步骤S102中,确定第一待检测图像中是否包含预定指示物。
由于待检测文字对象可以由用户使用预定指示物来指向从而表明用户希望进行文字检测的区域,因此,在该步骤中,确定已经获取的第一待检测图像中是否包含预定指示物。
可以通过各种已有的算法来确定第一待检测图像中是否包含预定指示物。例如,可以采用来自OpenCV的算法、比如采用OpenCV中CascadeClassifier函数(https://docs.opencv.org/3.2.0/d1/de5/classcv_1_1CascadeClassifier.html),来确定第一待检测图像中是否包含预定指示物。
根据一个示例性的实施例,预定指示物为用户手指的指尖部分或指甲。在此情况下,可以进一步利用用户的肤色信息来确定第一待检测图像中是否包含预定指示物。图2示出了根据本公开示例性实施例的作为预定指示物的用户手指的指尖部分或指甲的示意图。如图2所示,待检测图像中的预定指示物例如可以是用户手指200的指尖部分201或指甲202。由于要在待检测图像中确定或检测的预定指示物为用户手指的指尖部分或指甲,而不是整个手指,因此要检测的区域相对较小,从而使手指与待检测文字对象之间的角度变化不会对于确定待检测图像中的预定指示物造成显著影响。进一步地,还可以将已有的算法、比如来自OpenCV的算法与用户的肤色信息相结合,利用用户的肤色信息对于确定或检测用户手指的结果进行进一步地校正。通过以上方式,可以在用户的手指与待检测文字对象处于各个不同角度的情况下,实现对于用户手指的确定和检测而无需用户的手指必须垂直于待检测文字对象。换言之,确保了准确识别手指而不会受到手指位置的影响,这有助于改善用户体验。
根据一个示例性的实施例,如果确定第一待检测图像中不包含预定指示物,则可以再次获取待检测文字对象的待检测图像。换言之,有可能存在待检测文字对象的多幅第一待检测图像。根据这一示例性的实施例,可以通过步骤S101和S102重复获取待检测文字对象的待检测图像,直至所获取的待检测图像中包含预定指示物。
在步骤S103中,如果第一待检测图像中包含预定指示物,则确定预定指示物的位置,并且获取待检测文字对象的第二待检测图像。
如果已经确定第一待检测图像中包含预定指示物,则确定该预定指示物的位置。如上所述,可以通过各种已有的算法来确定预定指示物的位置。例如,可以采用来自OpenCV的算法、比如采用OpenCV中的CascadeClassifier函数(https://docs.opencv.org/3.2.0/d1/de5/classcv_1_1CascadeClassifier.html),来确定预定指示物的位置。
在确定预定指示物的位置之后,可以获取待检测文字对象的第二待检测图像。可以与获取第一待检测图像类似的方式来获取第二待检测图像。例如,第二待检测图像可以通过摄像头或摄像机拍摄获取,也可以通过相机或者具有拍照功能的设备(例如手机、平板电脑、可穿戴设备、阅读辅助设备等)拍照获取。第二待检测图像也可以有其它来源,例如来自其它图像获取设备。
根据一个示例性的实施例,在确定预定指示物的位置之后经过预定的时间段,才会获取待检测文字对象的第二待检测图像。例如,在确定预定指示物的位置之后经过1.5秒之后,获取待检测文字对象的第二待检测图像。尽管可以在确定预定指示物的位置之后立即获取待检测文字对象的第二待检测图像,但在某些应用中,使两者之间间隔预定的时间段可能是有利的。例如,在用户使用可穿戴设备或阅读辅助设备进行文字检测和识别的情况下,通过在确定预定的指示物、比如用户手指的位置与获取待检测文字对象的第二待检测图像之间设置预定的时间间隔,可以通过避免连续获取图像而造成的资源浪费,因为用户的手指很有可能在一定的时间段内是保持不动的。
在步骤S104中,确定第二待检测图像中是否包含预定指示物。
类似于确定第一待检测图像中是否包含预定指示物的情形,可以通过各种已有的算法来确定第二待检测图像中是否包含预定指示物。如前所述,也可以进一步利用用户的肤色信息来确定第二待检测图像中是否包含预定指示物,从而在用户的手指与待检测对象处于各个不同角度的情况下,实现对于用户手指的确定和检测。
根据一个示例性的实施例,如果确定第二待检测图像中包含预定指示物,则可以再次获取待检测文字对象的待检测图像。换言之,有可能存在待检测文字对象的多幅第二待检测图像。根据这一示例性的实施例,可以通过步骤S103和S104重复获取待检测对象的待检测图像,直至所获取的待检测图像中不包含预定指示物。更具体而言,如果确定第二待检测图像中包含预定指示物,则确定该预定指示物的位置,并再次获取待检测文字对象的第二待检测图像。如果再次获取的第二待检测图像中仍然包含预定指示物,则再次确定预定指示物的位置;如果再次获取的第二待检测图像中不包含预定指示物,则会基于之前确定的预定指示物的位置来确定文字检测区域。换言之,如果预定指示物发生了移动但移动之后的预定指示物仍然位于图像获取设备的检测区域内,则更新预定指示物的位置。如果预定指示物发生了移动但移动之后的预定指示物位于图像获取设备的检测区域之外,则不会更新预定指示物的位置,而是基于之前确定的预定指示物的位置来确定文字检测区域。该示例性的实施例在某些应用中可能是尤为有利的。例如,在用户使用可穿戴设备或阅读辅助设备进行文字检测和识别的情况下,用户所使用的预定指示物、比如用户手指的位置可能会发生变化,比如小的位移或抖动。在这种情况下,通过不断更新预定指示物的位置,能够更准确地确定预定指示物、比如用户手指离开待检测文字对象之前所处的位置,从而有利于准确地确定用户希望进行文字检测和识别的区域。
在步骤S105中,如果第二待检测图像中不包含预定指示物,则基于预定指示物的位置确定文字检测区域。
如果第二待检测图像中不包含预定指示物,则可以确定预定指示物已经离开了待检测文字对象。因此,可以基于之前已经确定的预定指示物的位置,在第二待检测图像中确定与预定指示物的位置相关的文字检测区域。该文字检测区域是预定指示物所指向的待检测文字对象中要进行文字检测的区域。
可以通过多种方式来基于预定指示物的位置确定文字检测区域。根据一个示例性的实施例,可以通过以下方式来确定文字检测区域:将不包含预定指示物的第二待检测图像转换为含有色调信息的图像,该具有色调信息的图像中的像素分别具有对应的色调值;将像素的色调值与预设色调值范围进行比较,获得由色调值在预设色调值范围内的像素组成的至少一个像素块;从至少一个像素块中选择包含预定指示物的位置的像素块,并根据所选像素块中预定指示物的位置,确定文字检测区域。确定文字检测区域的方式不限于如上所述,也可以例如通过如下所述的图2中所示的示例性方式来实现。
在以上所述的根据本发明示例性实施例的文字检测方法中,可以在预定指示物(比如触笔、指针、用户的手指等)离开待检测文字对象之后再次获取待检测文字对象的图像,该再次获取的图像中不存在有可能被预定指示物所遮盖的文字部分。然后,基于之前确定的预定指示物的位置来确定文字检测区域。由此,能够提高文字检测的准确性。
以上已结合图1对于根据本公开示例性实施例的文字检测方法进行了描述。下面将结合图3至图11进一步详细描述上述方法中各步骤的示例性实施方式以及其他实施例。需要注意的是,前文中参照图1描述的各种定义、实施例、实施方式和例子等也均可适用于之后描述的示例性实施例或与其进行组合。
图3是示出根据本公开示例性实施例的基于预定指示物的位置来确定文字检测区域的示例性方法的流程图。图4是示出根据本公开示例性实施例的基于预定指示物的位置、从一个或多个包含文字的区域中确定文字检测区域的示例性方法的流程图。图5A-5D是根据本公开示例性实施例的基于预定指示物的位置来确定文字检测区域的示意图。图6-图8是根据本公开不同示例性实施例的基于预定指示物的位置来确定文字检测区域的示意图。
如图3所示,在步骤S301中,确定第二待检测图像中的一个或多个文字行中的每一个文字行的位置。
在该步骤中,如果第二待检测图像中存在一个或多个文字行,则可以确定每一个文字行的位置。每一个文字行的位置例如可以用在待检测图像中包围该文字行的虚拟外框的位置坐标来表示。
图5A示意性地示出了待检测文字对象510的待检测图像,待检测文字对象510例如可以是书籍或报纸。在该待检测图像中,包含了例如用户手指的预定指示物520。
图5B示意性地示出了待检测文字对象510的另一待检测图像,该待检测图像中不含有预定指示物520。如图5B所示,确定待检测图像中的一个或多个文字行中的每一个文字行的位置。在图5B中,每一个文字行都由矩形虚拟外框包围,该虚拟外框在待检测图像中的位置坐标可以表示相应文字行的位置。例如,包围文字行530的虚拟外框的位置坐标可以表示文字行530的位置。尽管在图5B中的各个外框被示出为矩形的形状,但这仅仅是示例性的而非是对本公开的限制。包围各个文字行的虚拟外框也可以具有其它形状。此外,除了虚拟外框之外,也可以采用其它方式来表示文字行的位置。
在步骤S302中,根据每一个文字行的位置,得到第二待检测图像中的一个或多个包含文字的区域。
在确定每一个文字行的位置之后,可以基于每一个文字行的位置,来获得第二待检测图像中包含文字的区域。例如,可以通过已有的文本聚类方法,通过对各个文字行进行聚类和合并,得到一个或多个包含文字的区域。
图5C示意性地示出了待检测文字对象510的待检测图像。如图5C所示,根据已经确定的每一个文字行的位置,得到了待检测图像中的多个包含文字的区域541,542,543,544和545。
在步骤S303中,基于预定指示物的位置,从一个或多个包含文字的区域中确定文字检测区域。
文字检测区域可以基于之前确定的预定指示物的位置而从一个或多个包含文字的区域中确定。图5D示意性地示出了待检测文字对象510的待检测图像。如图5D所示,基于预定指示物的位置521,从待检测图像中的多个包含文字的区域541,542,543,544和545中确定了文字检测区域545。
通过如图3所示的示例性方法,能够基于已确定的预定指示物的位置来自动确定文字检测区域,这有助于提高文字检测的速度。
图4是示出根据本公开示例性实施例的基于预定指示物的位置、从一个或多个包含文字的区域中确定文字检测区域的示例性方法的流程图。
如图4所示,在步骤S401中,首先确定一个或多个包含文字的区域中是否包括预定指示物的位置所在的区域。尽管用户可能希望通过利用预定指示物、比如手指指向待检测文字对象来确定希望进行文字检测的区域,但由于某些原因,比如无意的滑动或抖动,或者用户自身的视觉障碍(比如弱视),可能导致预定指示物的位置没有位于包含文字的区域中而是位于待检测文字对象上的其它位置。因此,在步骤S401中,首先确定包含文字的区域中是否包括预定指示物的位置所在的区域。
在步骤S402中,如果一个或多个包含文字的区域中包括预定指示物的位置所在的区域,则选择该区域作为文字检测区域。换言之,如果预定指示物、比如用户的手指位于某个包含文字的区域中,则将该区域作为文字检测区域,例如,如图5D中的区域545所示。
如果一个或多个包含文字的区域中的每一个区域均不包括预定指示物的位置,则在步骤S403中,确定一个或多个包含文字的区域是否仅为一个包含文字的区域。取决于待检测文字对象中文字内容的分布,所确定的包含文字的区域可能仅仅为一个区域而不包括多个区域。因此,在步骤S403中,确定待检测图像中包含文字的区域的数目是一个还是多个。
在步骤S404中,如果一个或多个包含文字的区域仅为一个包含文字的区域,即,待检测图像中仅存在一个包含文字的区域,则选择该区域作为文字检测区域。
在步骤S405中,如果一个或多个包含文字的区域包括多个包含文字的区域,即,待检测图像中存在多个包含文字的区域,则确定多个包含文字的区域中与预定指示物的位置最接近的第一区域以及与预定指示物的位置次接近的第二区域。
本文中,与预定指示物的位置最接近的包含文字的区域指的是这样的区域,该区域的周界与预定指示物的中心之间的距离与其它区域的各个周界与预定指示物的中心之间的相应距离相比,是最小的。本文中,与预定指示物的位置次接近的包含文字的区域指的是这样的区域,如果待检测图像中仅存在两个包含文字的区域,则该区域是除了与预定指示物的位置最接近的包含文字的区域之外的另一区域;如果待检测图像中存在多于两个包含文字的区域,则该区域的周界与预定指示物的中心之间的距离大于与预定指示物的位置最接近的区域的周界与预定指示物的中心之间的距离,但小于所述多于两个包含文字的区域中其它区域的各个周界与预定指示物的中心之间的相应距离。
图6是根据本公开另一示例性实施例的基于预定指示物的位置来确定文字检测区域的示意图。如图6所示,待检测文字对象610的待检测图像中存在多个包含文字的区域641,642,643,644和645。在这种情况下,确定多个包含文字的区域641,642,643,644和645中与预定指示物620的位置最接近的第一区域645以及与预定指示物620的位置次接近的第二区域642。如上所述,与预定指示物620的位置最接近的包含文字的区域645的周界与预定指示物620的中心之间的距离与其它区域641,642,643,644中的每一个区域的周界与预定指示物620的中心之间的相应距离相比,是最小的。而与预定指示物620的位置次接近的包含文字的区域642的周界与预定指示物620的中心之间的距离大于与预定指示物620的位置最接近的区域645的周界与预定指示物620的中心之间的距离,但小于其它区域641,643,644中的每一个区域的周界与预定指示物620的中心之间的相应距离。
在步骤S406中,确定是否满足与预定指示物的位置最接近的第一区域和与预定指示物的位置次接近的第二区域两者其中之一位于预定指示物的位置左侧且预定指示物的位置位于第一区域和第二区域之间。
由于根据通常的阅读习惯,大多数情况下用户习惯于从待检测文字对象、比如书籍或报纸的左侧至右侧进行阅读。因此,在待检测文字对象的待检测图像中存在多个包含文字的区域的情况下,进一步判定是否存在预定指示物位于与该指示物相距较近的两个包含文字的区域之间的情况。
例如,在如图6所示的情况下,满足与预定指示物的位置最接近的第一区域和与预定指示物的位置次接近的第二区域两者其中之一位于预定指示物的位置左侧且预定指示物的位置位于第一区域和第二区域之间这一条件,因为与预定指示物620的位置最接近的第一区域645和与预定指示物620的位置次接近的第二区域642两者其中之一、即第二区域642位于预定指示物620的位置左侧且预定指示物620的位置位于第一区域645和第二区域642之间。
在步骤S407中,如果与预定指示物的位置最接近的第一区域和与预定指示物的位置次接近的第二区域之一位于预定指示物的位置左侧且预定指示物的位置位于第一区域和第二区域之间,则选择位于预定指示物的位置左侧的区域作为文字检测区域。因此,通过优先选择位于预定指示物的位置左侧的区域作为文字检测区域,能够更为符合用户的阅读习惯,从而改善用户体验。
例如,如图6所示,与预定指示物620的位置最接近的第一区域645和与预定指示物620的位置次接近的第二区域642之一、即第二区域642位于预定指示物620的位置左侧且预定指示物620的位置位于第一区域645和第二区域642之间。在这种情况下,选择位于预定指示物620的位置左侧的区域642作为文字检测区域,即,优先选择位于预定指示物620的位置左侧的区域作为文字检测区域,从而能够更为符合用户的阅读习惯。
在步骤S408中,如果确定不满足与预定指示物的位置最接近的第一区域和与预定指示物的位置次接近的第二区域两者其中之一位于预定指示物的位置左侧且预定指示物的位置位于第一区域和第二区域之间,则确定是否满足与预定指示物的位置最接近的第一区域和与预定指示物的位置次接近的第二区域两者其中之一位于预定指示物的位置上方且预定指示物的位置位于第一区域和第二区域之间。
图7是根据本公开又一示例性实施例的基于预定指示物的位置来确定文字检测区域的示意图。如图7所示,待检测文字对象710的待检测图像中存在多个包含文字的区域741,742,743,744和745。在这种情况下,可以确定多个包含文字的区域741,742,743,744和745中与预定指示物720的位置最接近的第一区域742以及与预定指示物720的位置次接近的第二区域741。如图7所示,由于不满足第一区域742和第二区域741其中之一位于预定指示物720的位置左侧且预定指示物720的位置位于第一区域742和第二区域741之间的条件,因此在这种情况下,进一步确定是否满足与预定指示物720的位置最接近的第一区域742和与预定指示物720的位置次接近的第二区域741两者其中之一位于预定指示物720的位置上方且预定指示物的位置位于第一区域742和第二区域741之间。显然,图7所示的情形满足这一条件。
在步骤S409中,如果与预定指示物的位置最接近的第一区域和与预定指示物的位置次接近的第二区域之一位于预定指示物的位置上方且预定指示物的位置位于第一区域和第二区域之间,则选择位于预定指示物的位置上方的区域作为文字检测区域。因此,在不存在距预定指示物较近的位于左侧的文字检测区域的情况下,优先选择位于预定指示物的位置上方的区域作为文字检测区域,由此能够更为符合用户的阅读习惯,从而改善用户体验。
例如,如图7所示,与预定指示物720的位置最接近的第一区域742和与预定指示物720的位置次接近的第二区域741其中之一、即第二区域741位于预定指示物720的位置上方且预定指示物720的位置位于第一区域742和第二区域741之间。在这种情况下,选择位于预定指示物720的位置上方的区域741作为文字检测区域,即,优先选择位于预定指示物720的位置上方的区域作为文字检测区域,从而能够更为符合用户的阅读习惯。
在步骤S410中,如果不存在第一区域和第二区域之一位于预定指示物的位置上方且预定指示物的位置位于第一区域和第二区域之间的情况,则选择与预定指示物的位置最接近的第一区域作为文字检测区域。
图8是根据本公开又一示例性实施例的基于预定指示物的位置来确定文字检测区域的示意图。如图8所示,待检测文字对象810的待检测图像中存在多个包含文字的区域841,842,843,844和845。在这种情况下,可以确定多个包含文字的区域841,842,843,844和845中与预定指示物820的位置最接近的第一区域845以及与预定指示物820的位置次接近的第二区域843。在如图8所示的情况下,既不满足与预定指示物820的位置最接近的第一区域845和与预定指示物820的位置次接近的第二区域843两者其中之一位于预定指示物820的位置左侧且预定指示物820的位置位于第一区域845和第二区域843之间,也不满足与预定指示物820的位置最接近的第一区域845和与预定指示物820的位置次接近的第二区域843两者其中之一位于预定指示物820的位置上方且预定指示物820的位置位于第一区域845和第二区域843之间。因此,选择与预定指示物820的位置最接近的第一区域845作为文字检测区域。
如以上图6至图8所示,根据本发明的示例性实施例,在基于预定指示物、比如手指的位置来确定文字检测区域时,会依次优先选择位于左侧的包含文字的区域、位于上方的包含文字的区域、距预定指示物的距离较近的包含文字的区域作为文字检测区域,由此能够更为符合用户的普遍阅读习惯,从而有助于改善用户体验。
图9是示出根据本公开另一示例性实施例的文字检测方法的流程图。
如图9所示,根据这一示例性实施例的文字检测方法例如可以包括步骤S901至S914。在图9所示的示例性文字检测方法中,步骤S901和S902可以与参照图1描述的步骤S101和S102基本相同,因此在此不再赘述。
如图9所示,根据本公开另一示例性实施例的文字检测方法还可以包括步骤S903。在步骤S903中,输出第一声音提示。换言之,如果第一待检测图像中包含预定指示物,则输出第一声音提示。例如,如果预定指示物为用户的手指,则在第一待检测图像中包含用户手指的情况下,输出第一声音提示。该第一声音提示可以是任何类型的提示音,比如滴答声。
在步骤S904中,确定预定指示物的位置,并且在预定的时间段之后获取待检测文字对象的第二待检测图像。该预定的时间段例如可以是1.5秒。当然,也可以根据具体应用和/或需求来选择其它时长的时间段。
在步骤S905中,确定第二待检测图像中是否包含预定指示物。如果第二待检测图像中不包含预定指示物,则执行后续步骤S906。如果第二待检测图像中包含预定指示物,则再次输出第一声音提示。例如,如果预定指示物为用户的手指,则确定第二待检测图像中是否包含用户的手指。如果第二待检测图像中不包含用户的手指,则执行后续步骤。如果第二待检测图像中包含用户的手指,则再次输出第一声音提示,比如滴答声。换言之,如果预定指示物、比如用户的手指不从待检测文字对象上移开,则会以预定的时间段(比如1.5秒)为间隔,持续地输出第一声音提示,比如滴答声。该第一声音提示的起始时间是首次检测到预定指示物、比如手指的时间。
如图9所示,根据本公开另一示例性实施例的文字检测方法还可以包括步骤S906。在步骤S906中,输出第二声音提示。换言之,如果第二待检测图像中不包含预定指示物,则输出第二声音提示。例如,如果预定指示物为用户的手指,则在第二待检测图像中不包含用户手指的情况下,输出第二声音提示。该第二声音提示可以与第一声音提示相同,也可以与第一声音提示不同。并且,该第二声音提示可以是任何类型的提示音,比如相机对焦声音。该第二声音提示,有助于提醒用户,将要获取待识别对象的图像信息,用户可在该声音提示后,保持获取图像过程的稳定性。
如图9所示,根据本公开另一示例性实施例的文字检测方法还可以包括步骤S907。在步骤S907中,获取待检测文字对象的第三待检测图像。根据一个示例性的实施例,待检测文字对象的第三待检测图像可以具有比第一和第二待检测图像的分辨率更高的分辨率。例如,待检测文字对象的第一和第二待检测图像的分辨率可以较低,第一和第二待检测图像甚至可以是通过摄像或照相设备所拍摄的预览图。由此,可以通过对于分辨率较低的第一和第二待检测图像进行处理而确定预定指示物的位置。由于第一和第二待检测图像的分辨率低,因此需要进行图像处理的数据量少,这有利于提高文字检测的速度。当然,第一和第二待检测图像也可以是通过摄像或照相设备所拍摄的图片照片而非预览图。在预定指示物离开待检测文字对象之后,可以通过执行步骤S907而再次获取具有更高分辨率的待检测文字对象的第三待检测图像。相应地,在后续步骤中,基于预定指示物的位置在第三待检测图像中确定文字检测区域。由于第三待检测图像的分辨率更高,因此有助于提高文字检测的准确性。
如图9所示,根据本公开另一示例性实施例的文字检测方法还可以包括步骤S908。在步骤S908中,输出第三声音提示。该第三声音提示可以是任何类型的提示音。例如,该第三声音提示可以是与第一和第二声音提示不同的提示音、比如提示拍照成功的咔嚓声,其表明已成功获取待检测文字对象的第三待检测图像。该第三声音提示,可以在识别播报之前,减少用户等待的焦虑感,提高用户体验。
根据一个具体的示例性实施例,通过执行步骤S903至S908,可以输出三种声音提示,既第一声音提示、第二声音提示和第三声音提示。例如,如果确定第一待检测图像中包含用户的手指,即,在待检测文字对象上存在手指,则可以输出比如滴答声的第一声音提示。如果用户的手指不从待检测文字对象上移开,则会以预定的时间段(比如1.5秒)为间隔持续地输出第一声音提示,比如滴答声,该滴答声的起始时间是首次检测到手指的时间。如果确定第二待检测图像中不包含用户的手指,即,在手指从待检测文字对象上移开后,可以输出比如相机对焦声音的第二声音提示。在获取待检测文字对象的第三待检测图像之后,可以输出第三声音提示,比如提示拍照成功的咔嚓声,其表明成功获取待检测文字对象的第三待检测图像。
如图9所示,根据本公开另一示例性实施例的文字检测方法还可以包括步骤S909。在这一步骤中,基于预定指示物的位置在第三待检测图像中确定文字检测区域。由于第三待检测图像的分辨率更高,因此有助于提高文字检测的准确性。
如图9所示,根据本公开另一示例性实施例的文字检测方法还可以包括步骤S910。在这一步骤中,确定文字检测区域中要识别的一个或多个文字行。在很多应用中可能期望的是,除了对于待检测文字对象进行文字检测之外,还对于确定的文字检测区域中的文字进行识别。因此在步骤S910中,可以确定文字检测区域中要识别的一个或多个文字行。
如图9所示的示例性方法还可以包括步骤S911和S912。在S911中,确定要识别的一个或多个文字行是否包含与上一次文字检测结果中所识别的文字行重复的文字行。并且在步骤S912中,如果要识别的一个或多个文字行包含与上一次文字检测结果中所识别的文字行重复的文字行,则从要识别的一个或多个文字行中删除重复的文字行。
根据一个示例性的实施例,可以采用首行过滤的方式,从要识别的一个或多个文字行中删除重复的文字行。更具体而言,在确定要识别的一个或多个文字行是否包含与上一次文字检测结果中所识别的文字行重复的文字行时,从上一次文字检测结果中所识别的文字行中的第一行开始,将要识别的一个或多个文字行中的第一行与上一次文字检测结果中所识别的文字行中的每一行逐行进行比较。如果要识别的一个或多个文字行中的第一行与上一次文字检测结果中所识别的文字行中的每一行均不相同,进一步,将要识别的一个或多个文字行中的最后一行与上一次文字检测结果中所识别的文字行中的每一行逐行进行比较,如果要识别的一个或多个文字行的最后一行与上一次文字检测结果中所识别的文字行的每一行均不相同,则确定要识别的一个或多个文字行不包含与上一次文字检测结果中所识别的文字行重复的文字行。在这种情况下,对于要识别的一个或多个文字行中的所有行进行文字识别,即,从要识别的一个或多个文字行中的第一行开始,逐行进行识别。
如果在从上一次文字检测结果中所识别的文字行中的第一行开始、将要识别的一个或多个文字行中的第一行与上一次文字检测结果中所识别的文字行中的每一行逐行进行比较的过程中,发现要识别的一个或多个文字行中的第一行与上一次文字检测结果中所识别的文字行中的每一行均不相同,但进一步将要识别的一个或多个文字行中的最后一行与上一次文字检测结果中所识别的文字行中的每一行逐行进行比较的过程中,发现要识别的一个或多个文字行中的最后一行与上一次文字检测结果中所识别的文字行中的某一行、例如第N行相同,则确定要识别的一个或多个文字行包含与上一次文字检测结果中所识别的文字行重复的文字行。在这种情况下,从要识别的一个或多个文字行中删除重复的文字行,即,删除要识别的一个或多个文字行中的第(M-N+1)行至最后一行,其中M为要识别的一个或多个文字行的行数。相应地,在进行文字识别时,如果在从要识别的一个或多个文字行中删除重复的文字行之后仍然存在尚未识别的文字行,则从要识别的一个或多个文字行中的第一行开始,逐行进行识别至第(M-N)行。如果在从要识别的一个或多个文字行中删除重复的文字行之后不存在尚未识别的文字行,则放弃识别,并且可以重新获取待检测文字对象的第一待检测图像。
如果在从上一次文字检测结果中所识别的文字行中的第一行开始、将要识别的一个或多个文字行中的第一行与上一次文字检测结果中所识别的文字行中的每一行逐行进行比较的过程中,发现要识别的一个或多个文字行中的第一行与上一次文字检测结果中所识别的文字行中的某一行、例如第N行相同,则确定要识别的一个或多个文字行包含与上一次文字检测结果中所识别的文字行重复的文字行。在这种情况下,从要识别的一个或多个文字行中删除重复的文字行,即,删除要识别的一个或多个文字行中的第一行至第(M-N+1)行,其中M为要识别的一个或多个文字行的行数。相应地,在进行文字识别时,如果在从要识别的一个或多个文字行中删除重复的文字行之后仍然存在尚未识别的文字行,则从要识别的一个或多个文字行中的第(M-N+2)行开始,逐行进行识别。如果在从要识别的一个或多个文字行中删除重复的文字行之后不存在尚未识别的文字行,则放弃识别,并且可以重新获取待检测文字对象的第一待检测图像。
例如,假设上一次文字检测结果中所识别的文字行的行数以及要识别的一个或多个文字行的行数均为五行。首先,从上一次文字检测结果中所识别的文字行中的第1行开始、将要识别的五行文字行中的第1行与上一次文字检测结果中所识别的文字行中的每一行逐行进行比较。如果要识别的五行文字行中的第1行与上一次文字检测结果中所识别的文字行中的每一行均不相同,则确定要识别的五行文字行不包含与上一次文字检测结果中所识别的文字行重复的文字行。在这种情况下,对于要识别的五行文字行中的所有行进行文字识别,即,从要识别的五行文字行中的第1行开始,逐行进行识别,直至识别到第5行。
如果在从上一次文字检测结果中所识别的文字行中的第一行开始、将要识别的五行文字行中的第1行与上一次文字检测结果中所识别的五行文字行中的每一行逐行进行比较的过程中,发现要识别的五行文字行中的第1行与上一次文字检测结果中所识别的文字行中的某一行、例如第2行相同,则确定要识别的五行文字行包含与上一次文字检测结果中所识别的文字行重复的文字行。在这种情况下,从要识别的五行文字行中删除重复的文字行,即,删除要识别的五行文字行中的第1行至第4行(即,第(5-2+1)行)。相应地,从要识别的五行文字行中的第5行(即,第(5-2+2)行)开始,逐行进行识别。
如果在从上一次文字检测结果中所识别的文字行中的第一行开始、将要识别的五行文字行中的第1行与上一次文字检测结果中所识别的五行文字行中的每一行逐行进行比较的过程中,发现要识别的五行文字行中的第1行与上一次文字检测结果中所识别的文字行中的某一行、例如第1行相同,则确定要识别的五行文字行包含与上一次文字检测结果中所识别的文字行重复的文字行。在这种情况下,从要识别的五行文字行中删除重复的文字行,即,删除要识别的五行文字行中的第1行至第5行(即,第(5-1+1)行)。在这种情况下,在从要识别的一个或多个文字行中删除重复的文字行之后不存在尚未识别的文字行,因此,放弃识别,并且可以重新获取待检测文字对象的第一待检测图像。
通过执行步骤S911和S912,可以通过删除在时间上相邻的前后两次文字检测结果中重复的文字行而帮助用户自动过滤掉重复的文字行。因此,能够减少或消除在之后的文字识别过程中所出现的文字内容重复的部分,这有助于提高文字检测和识别的效率并增强用户体验。进一步地,通过采用首行过滤的方式从要识别的一个或多个文字行中删除重复的文字行,可以高效地过滤掉重复的文字行。
在确定了要识别的文字行之后,如图9所示的示例性方法还可以包括步骤S913和S914。在步骤S913中,对于已确定的要识别的一个或多个文字行中的文字,进行文字识别。并且,在步骤S914中,可以对于识别出的文字内容进行语音播报,这对于某些用户而言,比如具有视觉障碍和/或阅读障碍的用户而言,可能是尤为有利的。
图10是示出根据本公开示例性实施例的确定文字检测区域中要识别的一个或多个文字行的方法的流程图。
如图10所示,在步骤S1001中,确定预定指示物指向的文字行。可以通过预定指示物与文字行之间的相互位置关系来确定该指示物所指向的文字行。例如,根据一个示例性实施例,确定预定指示物指向的文字行可以包括:确定预定指示物的位置是否与文字检测区域中的一个或多个文字行交叠;如果预定指示物的位置与文字检测区域中的一个或多个文字行交叠,则将交叠的一个或多个文字行中位于最上方的文字行确定为预定指示物指向的文字行;如果预定指示物的位置与文字检测区域中的文字行没有任何交叠,则将位于预定指示物上方且距预定指示物的位置最近的文字行确定为预定指示物指向的文字行。在某些情况下,预定指示物、比如手指的位置有可能不在文字行上,而是位于上下两行文字行之间或者位于文字行旁边的空白区域。通过根据预定指示物的位置与文字行之间的交叠关系相应地选择文字行,能够在一定程度上确定用户希望选择的文字行,从而改善用户体验。
在步骤S1002中,确定预定指示物指向的文字行上方是否存在文字行。并且,在步骤S1003中,如果预定指示物指向的文字行上方不存在任何文字行,则将预定指示物指向的文字行确定为要识别的文字行。在某些情况下,预定指示物所指向的文字行上方可能不存在任何文字行。例如,所指向的文字行可能是位于文字检测区域中最上方的文字行。因此,在预定指示物指向的文字行上方不存在任何文字行的情况下,可以例如将预定指示物指向的文字行自身确定为要识别的文字行。
在步骤S1004中,确定预定指示物指向的文字行上方的文字行的行数。在步骤S1005中,确定预定指示物指向的文字行上方的文字行的行数是否大于或等于预定数目。在S1006中,如果预定指示物指向的文字行上方的文字行的行数大于或等于预定数目,则将自预定指示物指向的文字行算起向上预定数目的多个文字行确定为要识别的文字行。在S1007中,如果预定指示物指向的文字行上方的文字行的行数小于预定数目,则将预定指示物指向的文字行上方的所有文字行和预定指示物指向的文字行共同确定为要识别的文字行。
在步骤S1004至S1007中,并非总是将预定指示物指向的文字行上方的所有文字行确定为要识别的文字行。在预定指示物指向的文字行上方的文字行的行数大于或等于预定数目时,仅仅将自预定指示物指向的文字行算起向上预定数目的多个文字行确定为要识别的文字行。
例如,图11是示出根据本公开示例性实施例的确定文字检测区域中要识别的一个或多个文字行的示意图。如图11所示,在待检测文字对象、比如书籍或报纸1110的待检测图像中,包括多个包含文字的区域1141、1142、1143、1144和1145。其中,基于预定指示物的位置1121,将包含文字的区域1145确定为文字检测区域。在文字检测区域1145中,由于预定指示物的位置1121与文字检测区域中的文字行没有任何交叠,因此将位于预定指示物上方且距预定指示物的位置1121最近的文字行1151确定为预定指示物指向的文字行。假如将预定指示物指向的文字行上方的文字行的预定数目确定为五。由于预定指示物指向的文字行1151上方的文字行的行数大于五,因此,将自预定指示物指向的文字行1151算起向上五行文字行确定为要识别的文字行,即,在图11中用括号示出的文字行。
可见,通过如图10所示的确定文字检测区域中要识别的一个或多个文字行的示例性方法,能够确定要进行局部识别的文字行。由于所确定的要进行局部识别的文字行很可能是用户所关注的文字内容,因此能够增强用户体验。另一方面,由于并非总是从文字段落的第一行进行检测并识别,能够减轻或避免对于文字内容的重复检测和识别。
本公开的一个方面可包括一种阅读辅助设备,包括:传感器(例如摄像头、照相机等),被配置为获取前述待检测文字对象的图像;以及处理器芯片电路,所述处理器芯片电路被配置为执行根据前述任何方法的步骤的电路单元。根据一些实施例,所述处理器芯片电路还可以包括被配置为按照文字检测结果而将要识别的文字行中的文字转换成声音的电路单元。
阅读辅助设备也可通过软件方式实现,其可包括处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行前述任何方法。根据一些实施例,所述程序还可以包括在由所述处理器执行时按照文字检测结果而将要识别的文字行中的文字转换成声音的指令。
借助该阅读辅助设备,视力障碍用户可以与视力正常读者一样,采用类似的阅读姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中,阅读辅助设备可以进行文字检测,然后按照前述实施例中的方法自动按照文字检测结果而将要识别的文字行中的文字转换成声音,通过扬声器或耳机等输出装置发出供用户聆听。
本公开的一个方面可包括存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行前述任何方法。
参照图12,现将描述计算设备2000,其是可以应用于本公开的各方面的硬件设备的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器,可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、智能电话、车载计算机或其任何组合。上述的阅读辅助设备可以全部或至少部分地由计算设备2000或类似设备或系统实现。
计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如,计算设备2000可以包括总线2002、一个或多个处理器2004(其可以用于实施前述的阅读辅助设备所包含的处理器)、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备,并且可以包括但不限于传感器(例如前文所述的获取图像的传感器)、鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008(例如可用于输出前文所述的从文字转换得到的声音的输出装置)可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接,所述非暂时性存储设备(例如可以用于实施前文所述的计算机可读存储介质)可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算设备2000还可以包括工作存储器2014(其可以用于实施前述的阅读辅助设备所包含的存储器),其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。
软件要素(程序)可以位于工作存储器2014中,包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序2018中。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中,并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
在将图12所示的计算设备2000应用于本公开的实施方式时,存储器2014可以存储用于执行本公开的流程图的程序代码和/或待识别的包含文字内容的图像,其中应用2018中可以包括由第三方提供的光学字符识别应用(例如Adobe)、语音转换应用、可编辑文字处理应用等等。输入设备2006可以是传感器,其用于获取待检测文字对象的图像。输出设备2008例如是扬声器或耳机用于语音播报,其中处理器2004用于根据存储器2014中的程序代码来执行根据本公开的各方面的方法步骤。
还应该理解,可以根据具体要求而进行各种变型。 例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现特定元件(例如上述的处理器芯片电路)。例如,所公开的方法和设备中的一些或全部(例如上述的处理器芯片电路中的各个电路单元)可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C ++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
还应该理解,计算设备2000的组件可以分布在网络上。 例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统2000的其他组件也可以类似地分布。这样,计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (20)

1.一种文字检测方法,包括:
获取待检测文字对象的第一待检测图像;
确定所述第一待检测图像中是否包含预定指示物;
如果所述第一待检测图像中包含所述预定指示物,则确定所述预定指示物的位置,并且获取所述待检测文字对象的第二待检测图像;
确定所述第二待检测图像中是否包含所述预定指示物;
如果所述第二待检测图像中不包含所述预定指示物,则基于所述预定指示物的位置确定文字检测区域。
2.根据权利要求1所述的文字检测方法,其中,在基于所述预定指示物的位置确定所述文字检测区域之后,所述方法还包括:
确定所述文字检测区域中要识别的一个或多个文字行。
3.根据权利要求2所述的文字检测方法,其中,确定所述文字检测区域中要识别的一个或多个文字行包括:确定所述预定指示物指向的文字行。
4.根据权利要求3所述的文字检测方法,其中,在确定所述预定指示物指向的文字行之后,所述方法还包括:
如果所述预定指示物指向的文字行上方不存在任何文字行,则将所述预定指示物指向的文字行确定为要识别的文字行。
5.根据权利要求4所述的文字检测方法,其中,在确定所述预定指示物指向的文字行之后,所述方法还包括:
如果所述预定指示物指向的文字行上方存在文字行,则确定所述预定指示物指向的文字行上方的文字行的行数;
如果所述预定指示物指向的文字行上方的文字行的行数大于或等于预定数目,则将自所述预定指示物指向的文字行算起向上预定数目的多个文字行确定为要识别的文字行,否则,将所述预定指示物指向的文字行上方的所有文字行和所述预定指示物指向的文字行共同确定为要识别的文字行。
6.根据权利要求3所述的文字检测方法,其中,确定所述预定指示物指向的文字行包括:
确定所述预定指示物的位置是否与所述文字检测区域中的一个或多个文字行交叠;
如果所述预定指示物的位置与所述文字检测区域中的一个或多个文字行交叠,则将交叠的一个或多个文字行中位于最上方的文字行确定为所述预定指示物指向的文字行;
如果所述预定指示物的位置与所述文字检测区域中的文字行没有任何交叠,则将位于所述预定指示物上方且距所述预定指示物的位置最近的文字行确定为所述预定指示物指向的文字行。
7.根据权利要求2所述的文字检测方法,其中,在确定所述文字检测区域中要识别的一个或多个文字行之后,所述方法还包括:
确定所述要识别的一个或多个文字行是否包含与上一次文字检测结果中所识别的文字行重复的文字行;
如果所述要识别的一个或多个文字行包含与上一次文字检测结果中所识别的文字行重复的文字行,则从所述要识别的一个或多个文字行中删除所述重复的文字行。
8.根据权利要求1所述的文字检测方法,其中,基于所述预定指示物的位置确定文字检测区域包括:
确定所述第二待检测图像中的一个或多个文字行中的每一个文字行的位置;
根据所述每一个文字行的位置,得到所述第二待检测图像中的一个或多个包含文字的区域;
基于所述预定指示物的位置,从所述一个或多个包含文字的区域中确定所述文字检测区域。
9.根据权利要求8所述的文字检测方法,其中,基于所述预定指示物的位置,从所述一个或多个包含文字的区域中确定所述文字检测区域包括:如果所述一个或多个包含文字的区域中包括所述预定指示物的位置所在的区域,则选择该区域作为所述文字检测区域。
10.根据权利要求8所述的文字检测方法,其中,基于所述预定指示物的位置,从所述一个或多个包含文字的区域中确定所述文字检测区域包括:如果所述一个或多个包含文字的区域中的每一个区域均不包括所述预定指示物的位置,则执行以下步骤以确定所述文字检测区域:
如果所述一个或多个包含文字的区域仅为一个包含文字的区域,则选择该区域作为所述文字检测区域;
如果所述一个或多个包含文字的区域包括多个包含文字的区域,则确定所述多个包含文字的区域中与所述预定指示物的位置最接近的第一区域以及与所述预定指示物的位置次接近的第二区域;
如果所述第一区域和所述第二区域之一位于所述预定指示物的位置左侧且所述预定指示物的位置位于所述第一区域和所述第二区域之间,则选择位于所述预定指示物的位置左侧的区域作为所述文字检测区域,否则,确定是否所述第一区域和所述第二区域之一位于所述预定指示物的位置上方且所述预定指示物的位置位于所述第一区域和所述第二区域之间,
如果所述第一区域和所述第二区域之一位于所述预定指示物的位置上方且所述预定指示物的位置位于所述第一区域和所述第二区域之间,则选择位于所述预定指示物的位置上方的区域作为所述文字检测区域,否则,选择所述第一区域作为所述文字检测区域。
11.根据权利要求1所述的文字检测方法,其中,如果所述第一待检测图像中包含所述预定指示物,则确定所述预定指示物的位置并且获取所述待检测文字对象的第二待检测图像包括:
如果所述第一待检测图像中包含所述预定指示物,则确定所述预定指示物的位置,并且在确定所述预定指示物的位置之后经过预定的时间段,获取所述待检测文字对象的所述第二待检测图像。
12.根据权利要求1所述的文字检测方法,还包括:
如果所述第一待检测图像中包含所述预定指示物,输出第一声音提示。
13.根据权利要求1所述的文字检测方法,其中,如果所述第二待检测图像中不包含所述预定指示物,则在基于所述预定指示物的位置确定文字检测区域之前,所述方法还包括:
输出第二声音提示;
获取所述待检测文字对象的第三待检测图像,所述第三待检测图像的分辨率高于所述第一待检测图像的分辨率和所述第二待检测图像的分辨率。
14.根据权利要求13所述的文字检测方法,其中,基于所述预定指示物的位置确定文字检测区域包括:
基于所述预定指示物的位置,在所述第三待检测图像中确定文字检测区域。
15.一种处理器芯片电路,包括:
被配置为执行根据权利要求1-14中任一项所述的方法的步骤的电路单元。
16. 一种阅读辅助设备,包括:
传感器,被配置为获取待检测文字对象的图像;以及
如权利要求15所述的处理器芯片电路。
17.如权利要求16所述的阅读辅助设备,其中,所述处理器芯片电路还包括被配置为按照文字检测结果而将要识别的文字行中的文字转换成声音的电路单元。
18. 一种阅读辅助设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-14中任一项所述的方法。
19.如权利要求18所述的阅读辅助设备,其中,所述程序还包括在由所述处理器执行时按照文字检测结果而将要识别的文字行中的文字转换成声音的指令。
20.一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1-14中任一项所述的方法。
CN201910494385.4A 2019-06-10 2019-06-10 文字检测方法、阅读辅助设备、电路及介质 Active CN110032994B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201910494385.4A CN110032994B (zh) 2019-06-10 2019-06-10 文字检测方法、阅读辅助设备、电路及介质
PCT/CN2019/099015 WO2020248346A1 (zh) 2019-06-10 2019-08-02 文字的检测
KR1020217042421A KR20220027081A (ko) 2019-06-10 2019-08-02 텍스트 검출 방법, 판독 지원 디바이스 및 매체
EP19193818.2A EP3751448B1 (en) 2019-06-10 2019-08-27 Text detecting method, reading assisting device and medium
US16/554,310 US10796187B1 (en) 2019-06-10 2019-08-28 Detection of texts
JP2019176732A JP6698996B1 (ja) 2019-06-10 2019-09-27 文字検出方法、読書補助装置及び媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910494385.4A CN110032994B (zh) 2019-06-10 2019-06-10 文字检测方法、阅读辅助设备、电路及介质

Publications (2)

Publication Number Publication Date
CN110032994A true CN110032994A (zh) 2019-07-19
CN110032994B CN110032994B (zh) 2019-09-20

Family

ID=67243879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910494385.4A Active CN110032994B (zh) 2019-06-10 2019-06-10 文字检测方法、阅读辅助设备、电路及介质

Country Status (4)

Country Link
EP (1) EP3751448B1 (zh)
JP (1) JP6698996B1 (zh)
CN (1) CN110032994B (zh)
WO (1) WO2020248346A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929805A (zh) * 2019-12-05 2020-03-27 上海肇观电子科技有限公司 神经网络的训练方法、目标检测方法及设备、电路和介质
US10796187B1 (en) 2019-06-10 2020-10-06 NextVPU (Shanghai) Co., Ltd. Detection of texts
WO2020248346A1 (zh) * 2019-06-10 2020-12-17 上海肇观电子科技有限公司 文字的检测

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102373960B1 (ko) * 2021-09-10 2022-03-15 (주)웅진씽크빅 독서 지원 장치 및 이를 이용한 사용자 입력 감지 방법
KR102373961B1 (ko) 2021-09-10 2022-03-15 (주)웅진씽크빅 독서 지원 장치 및 이를 이용한 사용자 입력 감지 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424472A (zh) * 2013-09-05 2015-03-18 华为终端有限公司 一种图像识别方法及用户终端
CN107393356A (zh) * 2017-04-07 2017-11-24 深圳市友悦机器人科技有限公司 控制方法、控制装置和早教机
KR20180005578A (ko) * 2016-07-06 2018-01-16 주식회사 케이티 정보 유출 탐지를 위한 장치 및 방법
CN107992867A (zh) * 2016-10-26 2018-05-04 深圳超多维科技有限公司 用于手势指点翻译的方法、装置及电子设备
CN108875694A (zh) * 2018-07-04 2018-11-23 百度在线网络技术(北京)有限公司 语音输出方法和装置
CN109325464A (zh) * 2018-10-16 2019-02-12 上海翎腾智能科技有限公司 一种基于人工智能的手指点读文字识别方法及翻译方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999021122A1 (en) * 1997-10-22 1999-04-29 Ascent Technology, Inc. Voice-output reading system with gesture-based navigation
JPH11203403A (ja) * 1998-01-16 1999-07-30 Oki Electric Ind Co Ltd 情報処理装置
US8873890B2 (en) * 2004-04-02 2014-10-28 K-Nfb Reading Technology, Inc. Image resizing for optical character recognition in portable reading machine
JP5989479B2 (ja) * 2012-09-20 2016-09-07 シャープ株式会社 文字認識装置、文字認識装置の制御方法、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
JP6308309B2 (ja) * 2014-12-10 2018-04-11 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP6531738B2 (ja) * 2016-08-08 2019-06-19 京セラドキュメントソリューションズ株式会社 画像処理装置
CN110032994B (zh) * 2019-06-10 2019-09-20 上海肇观电子科技有限公司 文字检测方法、阅读辅助设备、电路及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424472A (zh) * 2013-09-05 2015-03-18 华为终端有限公司 一种图像识别方法及用户终端
KR20180005578A (ko) * 2016-07-06 2018-01-16 주식회사 케이티 정보 유출 탐지를 위한 장치 및 방법
CN107992867A (zh) * 2016-10-26 2018-05-04 深圳超多维科技有限公司 用于手势指点翻译的方法、装置及电子设备
CN107393356A (zh) * 2017-04-07 2017-11-24 深圳市友悦机器人科技有限公司 控制方法、控制装置和早教机
CN108875694A (zh) * 2018-07-04 2018-11-23 百度在线网络技术(北京)有限公司 语音输出方法和装置
CN109325464A (zh) * 2018-10-16 2019-02-12 上海翎腾智能科技有限公司 一种基于人工智能的手指点读文字识别方法及翻译方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10796187B1 (en) 2019-06-10 2020-10-06 NextVPU (Shanghai) Co., Ltd. Detection of texts
WO2020248346A1 (zh) * 2019-06-10 2020-12-17 上海肇观电子科技有限公司 文字的检测
CN110929805A (zh) * 2019-12-05 2020-03-27 上海肇观电子科技有限公司 神经网络的训练方法、目标检测方法及设备、电路和介质
CN110929805B (zh) * 2019-12-05 2023-11-10 上海肇观电子科技有限公司 神经网络的训练方法、目标检测方法及设备、电路和介质

Also Published As

Publication number Publication date
EP3751448A1 (en) 2020-12-16
EP3751448B1 (en) 2022-12-21
CN110032994B (zh) 2019-09-20
WO2020248346A1 (zh) 2020-12-17
JP6698996B1 (ja) 2020-05-27
JP2020201924A (ja) 2020-12-17

Similar Documents

Publication Publication Date Title
CN110032994B (zh) 文字检测方法、阅读辅助设备、电路及介质
CN109934210B (zh) 版面分析方法、阅读辅助设备、电路和介质
US9910584B2 (en) Method for manipulating folders and apparatus thereof
CN103824252A (zh) 图片处理方法及系统
US8692846B2 (en) Image processing apparatus, method for retouching images based upon user applied designated areas and annotations
EP2712166B1 (en) Method, information processing apparatus and computer program for visually dividing a file containing multiple images
EP3822757A1 (en) Method and apparatus for setting background of ui control
CN111223045B (zh) 一种拼图方法、装置及终端设备
KR20150023148A (ko) 전자기기에서 이미지를 관리하는 방법 및 장치
US20190179507A1 (en) Method, Device and Computer Storage Medium for Multichannel Touch Control of All-in-One Machine
US10447935B2 (en) Image generating apparatus, image generating method and computer readable recording medium for recording program for generating new image from images related to reference image
US10796187B1 (en) Detection of texts
WO2017219442A1 (zh) 一种图像预览方法和装置
US20120256964A1 (en) Information processing device, information processing method, and program storage medium
US20100239167A1 (en) Image processing system, image processing method and computer readable medium
CN111221444A (zh) 分屏特效处理方法、装置、电子设备和存储介质
US20220283698A1 (en) Method for operating an electronic device in order to browse through photos
KR20140134844A (ko) 객체 기반 사진 촬영 방법 및 장치
US9530183B1 (en) Elastic navigation for fixed layout content
KR20140147461A (ko) 고유의 컨텐츠를 삽입하는 전자 장치 및 방법
US11417070B2 (en) Augmented and virtual reality object creation
US11221753B2 (en) Method for adaptively switching graphic user interfaces and mobile device for performing the same
JP7204514B2 (ja) 画像出力装置およびその制御方法、プログラム
KR20130104483A (ko) 객체를 분할하여 사진을 촬영하는 방법 및 장치
EP2746961A1 (en) Selection of files for album creation on electronic devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant