CN110991455B - 图像文本播报方法及其设备、电子电路和存储介质 - Google Patents

图像文本播报方法及其设备、电子电路和存储介质 Download PDF

Info

Publication number
CN110991455B
CN110991455B CN202010085671.8A CN202010085671A CN110991455B CN 110991455 B CN110991455 B CN 110991455B CN 202010085671 A CN202010085671 A CN 202010085671A CN 110991455 B CN110991455 B CN 110991455B
Authority
CN
China
Prior art keywords
text
data
broadcasting
broadcast
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010085671.8A
Other languages
English (en)
Other versions
CN110991455A (zh
Inventor
封宣阳
蔡海蛟
冯歆鹏
周骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextVPU Shanghai Co Ltd
Original Assignee
NextVPU Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextVPU Shanghai Co Ltd filed Critical NextVPU Shanghai Co Ltd
Priority to CN202010085671.8A priority Critical patent/CN110991455B/zh
Publication of CN110991455A publication Critical patent/CN110991455A/zh
Priority to PCT/CN2020/123195 priority patent/WO2021159729A1/zh
Priority to KR1020200189182A priority patent/KR102549570B1/ko
Priority to US17/164,744 priority patent/US11776286B2/en
Priority to JP2021018255A priority patent/JP2021129299A/ja
Priority to EP21156435.6A priority patent/EP3866475A1/en
Application granted granted Critical
Publication of CN110991455B publication Critical patent/CN110991455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4332Content storage operation, e.g. storage operation in response to a pause request, caching operations by placing content in organized collections, e.g. local EPG data repository
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

提供一种图像文本播报方法及其设备、电子电路和存储介质。所述图像文本播报方法包括:接收指定播报指示;响应于所述指定播报指示,确定关于播报数据的当前播报进度;根据所述当前播报进度和所述指定播报指示,从第一文本获取下一条播报数据,其中,所述第一文本由针对图像的文本区域中的文本识别并存储的文本数据组成。

Description

图像文本播报方法及其设备、电子电路和存储介质
技术领域
本公开涉及图像处理与文本播报技术领域,特别涉及图像文本播报方法及其设备、电子电路和存储介质。
背景技术
近年来,图像处理与播报技术在各领域得到了广泛的应用,其中有关图像文本的播报技术一直是业界关注的焦点之一。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
根据本公开的一方面,提供一种图像文本播报方法,包括:接收指定播报指示;响应于所述指定播报指示,确定关于播报数据的当前播报进度;根据所述当前播报进度和所述指定播报指示,从第一文本获取下一条播报数据,其中,所述第一文本由针对图像的文本区域中的文本识别并存储的文本数据组成。
根据本公开的一方面,提供一种图像文本播报设备,包括:接收装置,被配置为接收指定播报指示;播报装置,被配置为响应于所述指定播报指示,确定关于播报数据的当前播报进度;处理器,被配置为根据所述当前播报进度和播报装置确定的所述指定播报指示,从第一文本获取下一条播报数据供播报装置播报,其中,所述第一文本由字符识别装置针对图像的文本区域中的文本识别并存储的文本数据组成。
根据本公开的另一方面,提供一种电子电路,包括:被配置为执行上述的方法的步骤的电路。
根据本公开的另一方面,还提供一种阅读设备,包括:上述的电子电路;被配置为播报文本数据的电路。
根据本公开的另一方面,还提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的方法。
根据本公开的另一方面,还提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的方法。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1是示出根据本公开的一个示例性实施例的图像文本播报方法的流程图;
图2给出了一个示例性的图像,其中包括一个文本区域,该文本区域中含有多个文本行;
图3(a)、图3(b)、图3(c)是示出根据本公开的另一个示例性实施例的确定关联信息的方法与过程;
图4示出了根据本公开的另一个示例性实施例的图像文本播报方法的流程图;
图5(a)示出了根据本公开的一个示例性实施例的准备播报数据的过程,图5(b)是示出根据本公开的一个示例性实施例的顺序播报的示例过程;
图6是示出根据本公开的另一个示例性实施例的图像文本播报方法的流程图;
图7(a)、图7(b)、图7(c)、图7(d)是示出根据本公开的示例性实施例的播报数据存储与关联信息确定的过程;
图8是示出根据本公开的一个示例性实施例的准备指定播报数据的流程图;
图9是示出根据本公开的示例性实施例的指定播报指示的示例形式;
图10是示出根据本公开的一个示例性实施例的响应于指定播报指示而准备指定播报数据的流程图;
图11是示出根据本公开的一个示例性实施例的响应于指定播报指示而准备指定播报数据的流程图;
图12是示出根据本公开的一个示例性实施例的响应于指定播报指示而准备指定播报数据的流程图;
图13是示出根据本公开的一个示例性实施例的响应于指定播报指示而准备指定播报数据的流程图;
图14(a)、图14(b)、图14(c)是示出根据本公开的一个示例性实施例的响应于指定播报指示来构建针对下一条播报数据的关联信息并在第二存储空间中存储所述关联信息的方法与过程;
图15是示出根据本公开的另一个示例性实施例的图像文本播报方法的流程图;
图16是示出根据本公开的一个示例性实施例的图像文本播报设备的框图;以及
图17是示出根据本公开的一个示例性实施例的电子设备的框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
虽然字符识别相关的图像处理技术已经在各领域得到广泛应用,但是在图像文本播报方面,当前仍然存在一些挑战。
例如,在播报的过程中,用户(尤其视障和听障用户)可能需要重听之前的某些内容。虽然电子书场景与音频播报场景支持播报功能的前进后退,但是在文本转语音TTS(Text To Speech)播报场景,目前还不支持语音播报功能的前进后退。TTS是语音合成应用的一种,它可以将存储的文本数据转换成自然语音输出,其语音播报功能对于用户而言非常方便,而语音播报功能的前进后退尤其对于视障和听障用户而言非常重要。但是,TTS语音播报功能是即时性的,检测识别之后便播报,无法支持前进后退播报。
另外,本公开支持的播报不局限于例如TTS之类的语音播报,而是还可以支持更多类型的播报功能,比如面向聋哑人士的震动播报等等。
本公开提供了一种图像文本播报方法。图1是示出根据本公开的示例性实施例的图像文本播报方法的流程图。
在本公开中,文本行是指相邻文字间距小于阈值间距的文字的序列,即连续的一行文字。相邻文字间距指的是相邻文字的对应位置的坐标之间的距离,例如相邻文字左上角坐标之间、右下角坐标之间或质心坐标之间的距离等。如果相邻文字间距不大于所述阈值间距,则可认为所述相邻文字连续,从而将其划分到同一文本行中。如果相邻文字间距大于所述阈值间距,则可认为所述相邻文字不连续(例如可能分别属于不同的段落或分别属于左右两栏),从而将其划分到不同的文本行中。所述阈值间距可以根据文字大小来设置,例如:字体大小大于四号(如三号、二号)的相邻文字设置的阈值间距大于字体大小为四号以下(如小四、五号)的相邻文字设置的阈值间距。
如图2所示的图像包括一个文本区域,该文本区域中含有12个文本行(第1~12行文本),这12个文本行分为2段(本文中的“段”可以指段落或者自然段),第1段有5行,第2段有7行。请注意,一个图像中不限于只有一个文本区域,而是也可以有多个文本区域,可以对图像中的每个文本区域使用本公开的图像文本播报方法进行处理。
如图1所示,根据本公开的示例性实施例的图像文本播报方法包括:步骤S101,针对图像中文本区域的一个待识别文本行进行字符识别,获得文本数据;步骤S102,在第一存储空间中存储所述文本数据,作为针对所述文本区域的第一文本中的一行数据;步骤S103,在第三存储空间中存储播报数据;以及步骤S104,在第二存储空间中存储针对所述播报数据的关联信息,所述关联信息用于将第三存储空间中的播报数据与第一存储空间中的第一文本中的相应数据关于位置进行对应。
在步骤S101,针对图像中文本区域的待识别文本行进行字符识别,获得文本数据。
根据一些实施例,如上所述,图像中可包含一个或多个文本区域。每个文本区域可以包含至少两行文字(至少2个文本行),所包含的文字例如可以是各种形式的文字(包括各种字符、数字等)。另外,所述图像中除了文本区域之外,还可以包含图等。
根据一些实施例,所述图像可以是经过预先筛选的图像,例如经过多次拍摄,选取其中较为清楚的图像。
根据一些实施例,所述图像可以直接是由摄像机拍摄所得的图像,也可以是在摄像机拍摄的图像基础上经过了某种或一些预先处理的图像,所述预先处理例如可以包括去躁、对比度增强、分辨率处理、灰度处理、模糊去除等等。
根据一些实施例,摄像机例如可以设置于用户的可穿戴设备或眼镜等设备上。
这里,用于拍摄图像的摄像机能够进行静态或动态的图像拍摄,其可以是独立装置(例如照相机、视频摄像机、摄像头等),也可以包括在各类电子设备(例如移动电话、计算机、个人数字助理、播报设备、平板计算机、阅读辅助设备、可穿戴设备等)中。
根据一些实施例,可以通过例如光学字符识别OCR方法来对文本行进行字符识别,得到该文本行的文本数据。
根据一些实施例,可以在获取图像之后并且在字符识别之前,进行文本行检测。
根据一些实施例,可以顺序检测和识别一个文本区域中的每个待识别文本行,得到该文本行的文本数据。
以图2所示的图像为例,比如可以先针对第1行文字进行字符识别,从而得到第1行文字的文本数据([“肇观”,即“开启视觉”。])。然后可以依次对后续文本行进行字符识别,得到相应的文本数据。
但是,请注意,不是必须从文本区域的第一行开始检测和识别,也可以直接从其他行开始。
在步骤S102,在第一存储空间中存储所述文本数据,作为针对所述文本区域的第一文本中的一行数据。即,可以在第一存储空间中逐行存储所识别的文本数据,使得第一存储空间中的每行文本数据与文本区域中的每个文本行是一一对应的。
根据一些实施例,可以将识别出的文本行的文本数据存储至第一存储空间,并且在存储时,可以作为第一文本中的一行数据来进行存储。即,可以按照在图像的所述文本区域中的呈现形式那样,也按行来存储识别的文本数据。具体地,比如识别出的文本区域中的1个文本行的文本数据存储至第一存储空间时,也作为一行数据来存储,以方便后续的处理。
在本文中,可以将针对该文本区域所识别的各文本行的文本数据作为第一文本的一行数据存储在第一存储空间中。因此,第一文本中的每行数据与该文本区域中的每个文本行相对应。
上面为了更容易描述起见,将步骤S101与S102作为不同的步骤分开描述,实际上,步骤S101与S102也可以是在同一个步骤中。
在步骤S103,在第三存储空间中存储播报数据。
根据一些实施例,第三存储空间用于存储播报数据,其中第三存储空间中的播报数据可以是顺序播报用的播报数据,也可以是指定播报用的播报数据。这里,播报数据在第三存储空间中的存储不一定需要按照原有行的形式来存储,即,可以不按行存储,也可以按行存储,本公开对此不作限制。
另外,对于播报数据在第三存储空间中存储的时长,可以有多种处理方式。比如可以较长时间地存储每条播报数据,一条播报数据即便已经播报过也可以继续保留,从而保持在整个播报期间的播报数据的完整性。也可以采用将播报完毕之后的播报数据移除或加以覆盖的方式,以节省存储空间。
在步骤S104,在第二存储空间中存储针对所述播报数据的关联信息。
根据一些实施例,所述关联信息用于将第三存储空间中的播报数据与第一存储空间中的第一文本中的相应数据关于位置进行对应。
这里播报数据与第一文本中的相应数据关于位置进行对应,可以指播报数据与第一文本中的相应数据在位置上具有对应关系。例如,在播报数据与所述相应数据相同的情况下,所述相应数据在第一文本中的位置即为所述播报数据在第一文本中的位置。当然,播报数据与相应数据可以不相同,但是通过所述关联信息,可以建立它们之间的在位置上的对应关系,从而方便数据的管理与检索。
如前所述,目前TTS播报无法像电子书或者音频播报场景那样支持前进后退功能。在本公开中,通过设置第二存储空间并在存储空间中存储上述关联信息,以便通过所述关联信息,将第三存储空间中的播报数据与第一存储空间中的第一文本中的相应数据在位置上进行对应,使得实现TTS播报的前进后退功能成为可能。即,通过上述的步骤S101~S104,已经为支持TTS播报的前进后退功能进行了充足的准备。
请注意,虽然图1示例性地示出了上述的各存储步骤,但是本公开不限于各说明书附图中示出的步骤执行顺序,尤其在后续涉及到播报时,因为本公开中的存储与播报是并行执行的操作,很多时候并不需要时间上的先后关系或者特定的执行顺序,而是可以根据实际情况进行灵活处理。
根据一些实施例,上述的第一、第二、第三存储空间是为了区分不同数据的存储而命名的存储区域,实际这些存储空间可以位于同一个存储装置(例如存储器)中,也可以各自位于不同的存储装置中,或者其中两个存储空间位于同一个存储装置中,另一个存储空间单独位于另一个存储装置中。另外,在数据的存储上,不一定要使用三个不同的存储区域(在同一个存储装置或者不在同一存储装置中)来存储上述数据,虽然将其命名为名字不同的三个存储空间。
根据一些实施例,针对所述播报数据的关联信息至少可以包括:
与所述播报数据关于位置进行对应的所述相应数据中的每行数据在所述第一文本中的位置;以及
所述相应数据中的每行数据在所述相应数据中的截止占比。
这里,所述相应数据中的每行数据在所述相应数据中的截止占比通过从所述相应数据的起始行数据到该行数据的字符数量占整个所述相应数据的总字符数量的比例来确定。
根据一些实施例,所述相应数据中的每行数据在所述第一文本中的位置可以包括该行数据的行号、段号等等。例如,可以使用“00*”之类的数值来表示一行数据的行号,比如“002”可以表示该行数据在第一文本中处于第2行。段号也可以类似地表示。在本公开中,也包含用于表示位置的其他方式,在此不再赘述。
为了方便理解和描述,现在假设播报数据与所述相应数据相同,在上述那样使用行号来表示所述位置的情况下,假设所述相应数据与播报数据中包含的是图3(a)所示的文本区域中的第2、3、4文本行的文本数据(用矩形框标出来的3行,分别作为该播报数据中的第1、2、3行的数据)。
文本行的字符数量可以用于表示该行文字的字符数。假设1个汉字等于2个字符,1个英文字母、1个数字或者1个标点符号分别都等于1个字符,可以通过例如如下方式来确定一行数据的字符数量:
1行数据的字符数量=该行中的汉字数(1个汉字可以等于2个字符)+该行中的英文字符数+该行中的数字符号的数量+该行中的标点符号的数量。
请注意,也可以采用其他方式来计算一行数据的字符数量,而不限于这里示出的例示方式。
比如,图3(a)中第1行的文本数据[“肇观”,即“开启视觉”。]中的字符数为20,具体为:7个汉字*2+6个标点=20个字符。
通过上述的字符数量计算方式,可以确定所述相应数据(即播报数据)中的3行数据的字符数量分别为:26、30、25。那么,整个所述相应数据的总字符数量为26+30+25=81。
由此,可以计算出所述相应数据中每行数据的截止占比如下:
该相应数据中第1行数据的截止占比为:26/81=32%(对应于文本区域的第2文本行);
该相应数据中第2行数据的截止占比为:(26+30)/81=69%;以及
该相应数据中第3行数据的截止占比为:(26+30+25)/81=100%。
这里请注意,最后1行的截止占比一般都是100%,所以也可以不计算最后1行的截止占比而直接确定为100%。
可以将得到的上述截止占比连同对应的所述位置(002、003、004)一起存储在第二存储空间中,由此,在第二存储空间中所存储的针对该播报数据的关联信息可以如图3(b)所示。
上面为了解释“截止占比”的含义而举例说明了使用字符数量来计算得到截止占比的方法,也可以基于其他参数来确定每行数据的截止占比,在此不再赘述。
另外,根据一些实施例,还可以在第二存储空间中存储与当前正在播报的播报数据在位置上对应的所述相应数据。在播报数据与所述相应数据相同的情况下,则如图3(c)所示,由此不仅能够更容易地建立两者之间的对应关系,而且能准确地获知播报数据的具体信息。
如上所述,第三存储空间中存储的播报数据可以是支持顺序播报(例如逐行播报)的播报数据;也可以是支持指定播报(例如支持前述的前进后退功能的播报)的播报数据,即,可以是基于指定播报所需的播报位置而组织的播报数据。
由于播报数据可能需要不断更新或者变换,在本公开中,可根据需要来执行播报数据的组织和存储,后面将参照图5(a)来具体描述。
本公开不仅可以支持顺序播报,还可以支持指定播报。图4示出了根据本公开的另一个示例性实施例的支持指定播报的图像文本播报方法的流程图。
如图4所示,首先,在步骤S1,接收指定播报指示。
所述指定播报指示用于表明用户需要播报装置进行指定数据的播报,例如指定文本单元(例如前几行、后几行等)的播报。
在步骤S2,响应于接收到的所述指定播报指示,确定关于播报数据的当前播报进度。
在用户想要播报装置进行指定播报(例如播报前1行)时,有可能播报装置正在播报的过程中。因此,为了确定用户想要的指定数据的位置,需要先确定播报装置当前播报的进度。
在步骤S3,根据所述当前播报进度和所述指定播报指示,从第一文本获取下一条播报数据。
基于当前播报进度和指定播报指示,可以确定下一条播报数据的起始位置,由此,可以从用于存储文本数据的第一文本获取用户想要的播报数据,即下一条播报数据。
其中,所述第一文本可以是由针对图像的文本区域中的文本所识别并存储的文本数据组成的。
由此,本公开可以实现对于指定播报的支持。
下面,将对于本公开支持的顺序播报与指定播报过程进行更详细的描述。
根据一些实施例,如图5(a)所示,步骤S103中的所述在第三存储空间中存储播报数据可以包括步骤S1031、S1032。
在步骤S1031,在第三存储空间中存储着当前播报数据的情况下,在顺序播报模式中,将新识别的文本行的文本数据存储至第三存储空间作为下一条播报数据的至少一部分。
本步骤涉及顺序播报用的播报数据的存储。这里所述的“当前播报数据”,是紧挨在所述“下一条播报数据”之前的那条播报数据。
顺序播报包括按行依次播报。在按行识别和存储文本区域中的每个文本行的情况下,所识别的文本数据存储在所述第一存储空间中,组成第一文本。那么,在顺序播报的情况下,可以使得每个新识别和存储进第一文本的文本数据都同样存储进第三存储空间,由播报装置自行获取。由于通常播报速度比字符识别速度慢,所以每次可以获取至少一个文本行的文本数据作为一条播报数据,在上一条播报数据播报完毕之后或者即将播报完毕,播报装置继续从第三存储空间获取播报数据,由此可以方便及时获取与播报数据。
根据一些实施例,也可以使得每个新识别的文本行的文本数据先在第一文本中存储,再视情况从第一文本依次分批获取而存储到第三存储空间,并且存储到第三存储空间的每批文本数据可以作为一条播报数据,以供播报。
无论是随着逐行识别而依次存储每个新识别的文本行的文本数据还是分批存储新识别的文本行的文本数据,都是随着识别的进行而将新识别的文本行的文本数据存储进第三存储空间以便形成下一条播报数据,从而在顺序播报模式中,保持播报数据的更新。
根据一些实施例,响应于每次在第三存储空间中执行存储,构建和/或更新存储在所述第二存储空间中的针对所述下一条播报数据的所述关联信息。
每次在第三存储空间中执行存储,便使得存储的播报数据发生变化。由上可知,新存储的文本数据将要作为下一条播报数据的一部分或者作为整个播报数据,因此其不影响当前播报数据,但是影响下一条播报数据。
由于播报装置的播报状态通常由播报的进展来决定,比如,当前播报数据是否播报完毕,何时播报下一条播报数据等等。因此,对于第三存储空间中存储的播报数据而言,如果播报装置主动发起下一条播报数据请求并且响应于下一条播报数据请求才开始准备从第一文本获取下一条播报数据,那么已识别的且尚未播报的文本数据可全部作为下一条播报数据存储进第三存储空间,响应于此,可以构建针对下一条播报数据的关联信息,而且无需对下一条播报数据的关联信息进行更新,即,下一条播报数据的存储与其关联信息的构建只需执行一次,所以非常节省处理资源。但是这种情况可能导致播报的速度慢,因为需要等待下一条播报数据的即时获取与存储、以及关联信息的即时构建。
对于每新识别一个文本行便将其文本数据存储进第三存储空间的方式,在播报装置来获取下一条播报数据之前,需要不断地执行每个新识别的文本行的文本数据的存储,而且,还需要响应于每次这样的存储,更新针对作为下一条播报数据的一部分或者整个下一条播报数据(因为不确定播报装置何时来获取下一条播报数据)的关联信息。这种方式比前一种方式需要的处理资源多,但是能够加快播报速度,因为不需要像前一种方式那样等待播报数据的即时获取与存储、以及关联信息的即时构建。
前面结合图3(a)、图3(b)和图3(c)描述过关联信息的构建,稍后将参考图7(a)、7(b)、7(c)、7(d)举例说明关联信息的更新。
根据一些实施例,可以将对于所述文本区域的待识别首个文本行进行字符识别得到的文本数据单独作为一条播报数据,以便能够快速播报首个文本行的文本数据,从而提高播报的响应速度,提升用户体验。如图5(b)所示,该文本区域的首个文本行被单独存储作为一条播报数据。
这里,上述的“待识别首个文本行”可以是整个文本区域的第1行文字,也可以不是整个文本区域的第1行文字,而是整个文本区域中的一部分行(全部行中的一部分)中的待识别第1行文字。
将识别的首行数据单独作为一条播报数据进行播报,可以无需等待后续文本行的识别和存储,从而大大减少了播报等待时间,有效提升了播报速度,尤其感兴趣的第1行文字的播报速度非常有助于表现播报设备的性能。
根据一些实施例,如图6所示,根据本公开的图像文本播报方法还可以包括:步骤S110,用于判断文本区域中是否还有下一个待识别的文本行,如果有,则转到步骤S101,对于该下一个待识别的文本行进行步骤S101的字符识别操作,并继续依次进行步骤S102的操作,如此循环,直到文本区域中的待识别文本行全部识别并存储进第一存储空间。即,如果已经没有下一个待识别的文本行,则可以结束对于该文本区域的字符识别。
步骤S110可以在步骤S102之后执行,也可以在步骤S103或步骤S104之后执行。在本公开中,对于步骤的执行顺序没有限制,只要能够完成所需的功能即可。
为了便于理解,图5(b)给出了一个依次识别、存储、顺序播报的过程示例。
本公开可以例如在一边按照顺序识别和存储文本数据的情况下,一边按照存储的顺序来播报当前存储的文本数据,由此可实现对于文本区域中文字的顺序播报。比如,如果一个文本区域中的文字是按行排列的,则可以在按行来检测和识别文本数据、并且依次存储所识别的每行文本数据的同时,按照存储的顺序来播报出当前存储的各行文本数据即可。
为了简化描述,在图5(b)中,与图2不同,假定该文本区域仅有示出的这5个文本行。逐行识别这5个文本行,并且将得到的文本数据按行存储在第一存储空间中,依次组成第一文本的每行数据。而且,在第三存储空间中存储播报数据(图5(b)中示出了3条播报数据),以供进行顺序播报。图5(b)中没有示出第二存储空间以及其中存储的关联信息,因为第二存储空间以及其中的关联信息是用于在第一存储空间与第三存储空间之间建立位置对应的关联关系,并不直接用于播报。
下面将参照图5(b)来具体描述该示例。例如,对于图5(b)中所示的文本区域,可以在针对首个文本行进行识别并将识别的该行的文本数据存储为第1条播报数据之后,便立刻开始播报该第1条播报数据,以缩短播报等待时间,提升播报速度;并且,在针对首个文本行进行识别和存储之后,也就是在播报首个文本行的文本数据的同时,继续针对后续文本行进行识别和存储,由此实现一边识别和存储,一边播报的有益技术效果。
在首个文本行的文本数据播报完成之后,继续播报第2条播报数据。假设在播报首个文本行的文本数据的过程中,经历了第2行与第3行文字的识别与存储,则第2条播报数据包含第2行文字与第3行文字,由此使得第2条播报数据的播报具有语义衔接和上下文语境,克服了现有技术中逐字或逐行播报时产生的生硬且机械的间隔或卡顿。
并且,在播报第2条播报数据的过程中,仍然在针对后续文本行进行识别和存储操作,由此实现一边识别和存储,一边播报的有益技术效果。
在播报第2条播报数据之后,可以继续播报第3条播报数据(比如包含第4行、第5行文字)。如此循环,直到将整个文本区域中的文本行播报完毕,由此完成对该文本区域的顺序播报过程。
在本公开中,采用了文本数据拼接存储的方式,以方便多行播报。因为在识别和存储速度比播报速度快的情况下,在播报1行期间,可能已经识别与存储了多行,所以,采用一边识别与存储、一边播报的方式,存储的文本数据足够播报装置使用,无需像现有技术中那样需要等待全部文本行识别与存储完毕之后才能播报,所以能够大大减少播报等待时间,提升播报速度和效率,并且实现更连贯流畅的播报。本公开的方法和相关设备可以帮助例如视障用户、低龄或老年用户、阅读障碍用户等更容易听懂与理解例如阅读辅助设备从文本区域中自动播报的信息。
需注意,尽管图5(b)中示出了全部3条播报数据,但是如前所述,每条播报数据可以在播报完毕之后去除或者被覆盖,也可以较长时间地保留。
本公开中,在第三存储空间中存储批量的文本数据(至少一行数据)作为播报数据,能够克服现有技术中逐字播报或者单行播报导致的语义缺乏衔接、不连贯、出现过多的卡顿等问题。因为批量(将至少一行文本数据拼接起来)的播报数据可以使得语义之间的衔接更多、播报更连贯更流畅,大大减少卡顿现象,提升播报效果。
以下将参照图7(a)、图7(b)、图7(c)、图7(d),结合具体的例子来说明在逐行识别的文本行的文本数据依次存储到第三存储空间的情况下,要相应地在第二存储空间中存储的对应的关联信息的建立、存储与更新。对于批量存储到第三存储空间的情况,可以一次性计算得到相应的关联信息,而无需多次更新,相对而言计算和处理上更简单,因此,将不再单独举例说明批量存储到第三存储空间的情况下关于关联信息的计算的更多细节。
如上所述,在第二存储空间中存储关联信息,另外,可以(但不是必要的)在第二存储空间中存储与播报数据对应的所述相应数据。为了方便描述和理解,在本例中播报数据与所述相应数据相同,所以下面为了更加直观地理解,在描述截止占比的计算和更新时直接针对播报数据(虽然播报数据不一定按行存储,但是由于这里播报数据与相应数据相同,因此可以认为相应数据中的一行数据即播报数据中的“一行数据”)来说明。另外,为了方便描述和容易理解起见,在图7(a)、图7(b)、图7(c)、图7(d)中均示出了各自的文本数据(其构成所述相应数据的一部分或者全部),以便与关联信息对照查看,但是如上所述,这些文本数据不是必须存储在第二存储空间中,因此,在图中用虚线框来表示其不是必要的。
顺便提及,根据一些实施例,也可以在第一存储空间中存储例如位置与截止占比之类的关联信息,方便信息的收集与管理。但是需要注意,在第一存储空间中存储的第一文本相关的关联信息与第二存储空间中存储的关联信息不一定相同,因为第二存储空间中的关联信息往往是针对第一文本中的一部分数据进行计算得到的,而第一存储空间中如果存储关联信息,其往往需要针对整个文本区域中逐渐识别到出的、最终由所有文本行的文本数据构成的第一文本来计算得到(也可以随着文本行的识别而实时计算、更新,最终得到针对整个第一文本的关联信息)。当然,在第一存储空间中不存储所述关联信息也是可以的。
在本例中虽然主要涉及第二存储空间中的关于关联信息的操作,在必要时也会描述第一和第三存储空间中的相应操作。
在这里举出的例子中,首先,将文本区域的第1行文字进行字符识别并存储在第一存储空间中(未示出),并将其作为一条播报数据(第1条播报数据)单独存储至第三存储空间以供例如顺序播报时播报(即,无需等待与其他行文字进行拼接存储),如图7(a)所示。
并且,还将对于该文本区域的第1行文字进行识别得到的文本数据(不是必要的)与包括位置(本例子中是行号)和截止占比的关联信息存储在第二存储空间中,存储的信息例如如下:
[“肇观”,即“开启视觉”。]、[001]、[100%]。
如上所述,对于最新识别的文本行,可以直接确定其截止占比为100%,换言之,也可以不计算而直接确定其截止占比。
如上所述,该行的文本数据可以单独存储为一个播报数据,能够提高播报的响应速度。当然,也可以与后续的文本行的文本数据存储为一个播报数据。
此时,可以开始播报第1条播报数据。
然后,在第1条播报数据的播报期间,可以在步骤S110判断是否有下一个待识别文本行。在判断有下一个待识别文本行(例如是第2文本行)的情况下,则转到步骤S101,继续识别第2行文字,如图7(b)所示,并分别存储进第一存储空间、第二存储空间与第三存储空间,此时在第二存储空间中存储的第2行文字的文本数据与关联信息可以为:
[肇观电子致力于计算机视觉处]、[002]、[100%]。
由于第1行文字对应的第1条播报数据正在播报,所以现在是在准备第2条播报数据,至此,其中包含了第2行文字的文本数据。
接着,在步骤S110判断是否有下一个待识别文本行。在判断有下一个待识别文本行(例如是第3文本行)的情况下,转到步骤S101,继续识别第3行文字,并将得到的文本数据分别存储进第一存储空间、第二存储空间与第三存储空间。
由于第1行文字对应的第1条播报数据正在播报,所以现在仍然是在准备第2条播报数据,至此,第2条播报数据中包含第2、3文本行的文本数据,现在需要更新第二存储空间中存储的它们的截止占比。此时,第2条播报数据中在文本区域中的位置在第2行的文本数据的截止占比从之前的100%更新为“第2行文字的字符数量/(第2行+第3行文字的字符数量)”,即26/56=46%,另外,第3行文字的截止占比为100%。
此时,如图7(c)所示,第二存储空间中存储的针对下一条播报数据的文本数据和关联信息如下:
[肇观电子致力于计算机视觉处]、[002]、[46%]
[理器和人工智能应用产品的创新和]、[003]、[100%]。
接着,在步骤S106判断是否有下一个待识别文本行。在判断有下一个待识别文本行例如是第4文本行的情况下,转到步骤S101,继续识别第4行文字,并将识别的文本数据存储进第一、第二、第三存储空间。
然后,更新第二存储空间中针对下一条播报数据的关联信息,首先计算针对下一条播报数据的总字符数量,即文本区域中第2行、第3行、第4行文字的字符数量,即26+30+25=81,及其相应的截止占比。此时,可以将第2行文字的截止占比更新为(第2行文字的字符数量/针对下一条播报数据的总字符数量),即26/81=32%,可以将第3行文字的截止占比更新为((第2行文字的字符数量+第3行文字的字符数量)/针对下一条播报数据的总字符数量),即(26+30)/81=69%,并且,可以直接将新识别的第4行文字的截止占比确定为100%。
此时,如图7(d)所示,第二存储空间中存储的针对下一条播报数据的文本数据和关联信息如下:
[肇观电子致力于计算机视觉处]、[002]、[32%]
[理器和人工智能应用产品的创新和]、[003]、[69%]
[研发,为机器人、无人机、无人] 、[004]、[100%]。
此时,第1条播报数据播报完毕,则可以将上述的第2、3、4行文字的文本数据共同作为第2条播报数据继续进行播报(顺序播报)。
在顺序播报第2条播报数据的过程中,还可以接着判断是否有下一个待识别文本行。在判断有下一个待识别文本行例如是第5文本行的情况下,继续准备下一个播报数据(第3条播报数据)。
上面针对较为复杂的“响应于每次在第三存储空间中执行存储,更新存储在所述第二存储空间中的针对所述下一条播报数据的所述关联信息”结合一个实际的例子进行了详细的描述。
对于文本数据批量存储进第三存储空间作为下一条播报数据的情况,只需要计算一次针对该下一条播报数据的关联信息并存储到第二存储空间中即可,计算的方式与图3(a)~图3(c)、以及图7(c)和图7(d)相关的计算方式类似,在此不再赘述。
另外,关于上述的截止占比的计算与更新,也可以响应于播报装置发起获取下一条播报数据,实时计算该下一条播报数据的截止占比,这样只需要计算一次,不需要每次存储进一个文本行的文本数据便进行更新。
顺序播报时也进行关联信息的计算和/或更新的原因在于,用户发起的指定播报操作往往是不可预料的,可能在顺序播报的过程中随时发生,也可能在指定播报的过程中随时发生,所以需要在每一次播报时,为识别当前播报位置准备所需的关联信息。
上面描述了图像中包含一个文本区域的示例情况,对于一个图像中包含多个文本区域的情况,可以分别针对每个文本区域进行上述的识别与存储操作,直到将该文本区域中的所有文本行或者感兴趣的那些文本行识别和存储完成。
根据一些实施例,在一个图像中包含多个文本区域时,可以将多个文本区域的文本数据存储在一起,也可以将它们分开存储,这些都不影响本公开的实质。
通过设置第二存储空间,利用第二存储空间中的针对播报数据的关联信息在第三存储空间的播报数据与第一存储空间中的相应数据在位置上建立对应关系,本公开能够使得在文字的识别和存储与播报并行地进行的情况下,支持例如TTS播报的指定播报。而无需像现有技术那样等到全部文本行都识别和存储完毕才能开始播报,而是可以一边识别与存储,一边播报,播报不影响文本数据的识别和存储,由此大大提升了播报速度,实现高效快速播报,而且通过支持无需再重新进行文本识别与存储的指定播报,大大节约了处理时间和处理资源,并且极大提升了播报速度(完全不用再重新识别)。
根据一些实施例,如图5(a)所示,在步骤S1032,响应于接收到指定播报指示,从第一文本获取下一条播报数据(步骤S2与S3的结合)。
本步骤涉及指定播报用的播报数据。如上所述,在播报的过程中,用户(尤其视障和听障用户)可能需要重听之前的某些内容。本公开能够支持这个功能,如上所述,本文中将该功能称为“指定播报”功能。这里,指定播报不仅可以包括前进后退播报,也可以包括例如用户指定位置的播报。
如前所述,在接收到指定播报指示的情况下,需要为指定播报准备相应的播报数据,也可称为“指定播报数据”。由此,在本步骤,响应于接收到指定播报指示,可以从第一文本获取播报数据(指定播报数据)。
如上所述,第一文本中的每行数据与所述文本区域中的每个文本行相对应。随着字符识别与存储的推进,第一文本中最终将包含整个文本区域的文本数据。因此,无论是针对该文本区域的顺序播报数据还是指定播报数据,都可以从第一文本中获得。当然,也可以如前所述的那样,顺序播报时直接将新识别得到的文本数据存储进第三存储空间,而不是从第一文本中获取。
通过本步骤,能够支持实现例如面向TTS播报之类的指定播报功能。
根据一些实施例,所述当前播报进度可以通过已播报的字符数量占所述播报数据的字符数量的比例来确定。
例如,图3(b)所示的包含3行数据的该条播报数据共有81个字符,假设已播报到字符“人工智能”,则此时已播报的字符数量为40,那么可以确定当前播报进度为40/81=49%。
另外,也可以通过其他参数来确定当前播报进度,本公开不局限于通过字符数量来计算当前播报进度。
根据一些实施例,所述响应于接收到指定播报指示,从第一文本获取播报数据可以包括步骤S10301、S10302、S10303、S10304,如图8所示。
在步骤S10301,响应于接收到指定播报指示,确定所述播报数据中的当前已播报位置作为当前播报进度。
如前所述,由于在播报的过程中,用户(尤其视障和听障用户)可能需要重听之前的内容,例如重听当前播报位置的前一段或前一行等。
通常,在播报过程中接收到指定播报指示。在接收到指定播报指示的情况下,可以通过所述播报数据中当前已播报位置来确定当前播报进度。
在步骤S10302,基于当前播报进度与第二存储空间中的针对所述播报数据的关联信息,确定与当前播报进度对应的所述第一文本中的位置作为当前播报位置。
在确定当前播报进度之后,需要进一步确定与当前播报进度对应的所述第一文本中的位置,即当前播报位置。此时,可以基于得到的当前播报进度,结合第二存储空间中的针对所述播报数据的关联信息,例如播报数据中的每行数据在第一文本中的位置、以及该行数据的截止占比,如图3(b)所示,来获得当前播报位置。
根据一些实施例,步骤S10301中的所述基于当前播报进度与第二存储空间中的针对所述播报数据的关联信息,确定与当前播报进度对应的所述第一文本中的位置作为当前播报位置包括:
比较当前播报进度与第二存储空间中存储的关于所述播报数据的截止占比,将所述截止占比中大于当前播报进度的截止占比中最小的截止占比所对应的在第二存储空间中存储的关于所述播报数据中的每行数据在所述第一文本中的位置,确定为当前播报位置。
具体地,首先,可以比较当前播报进度与第二存储空间中存储的关于所述播报数据的截止占比。例如,前述得到的播报进度为49%,第二存储空间中存储的关于该条播报数据的关联信息中的每行数据的截止占比分别为:32%,69%,以及100%。在这种情况下,可以确定当前播报到的数据“人工智能”应该处于截止占比为69%(大于当前播报进度的截止占比之中最小的截止占比)的这一行数据所处于的第一文本中的位置。通过查找关联信息可以发现,截止占比为69%的这一行数据为第一文本的第3行,由此可知,当前播报位置为与第一文本对应的该文本区域的第3行。
根据一些实施例,指定播报指示可以包括指定播报请求和指定播报类型,如图9所示。
根据一些实施例,所述指定播报类型可以包括指定播报前一行、指定播报后一行、指定播报前一段、指定播报后一段,甚至可以包括指定播报前一句、指定播报后一句等,以及甚至可以包括指定播报某个片段。
由于在步骤S10302得到的仅是当前播报位置,想要为指定播报准备播报数据,需要知道指定播报的起始位置,即所述待播报位置。
因此,在步骤S10303,基于所述当前播报位置与所述指定播报指示中的指定播报类型,在所述第一文本中确定待播报位置。
在本步骤,通过由所述指定播报类型所决定的当前播报位置与待播报位置的关系,基于当前播报位置,得到待播报位置。例如,如果指定播报类型为播报前一行,则当前播报位置与待播报位置的关系为:待播报位置=当前播报位置 - 1。再例如,如果指定播报类型为播报后一行,则当前播报位置与待播报位置的关系为:待播报位置=当前播报位置 +1。关于这一点,稍后将通过例子来更加具体地描述。
在步骤S10304,以所述待播报位置作为起始位置,从第一文本获取下一条播报数据存储至第三存储空间,并在第二存储空间中相应地存储针对所述下一播报数据的关联信息。
在通过本步骤得到当前播报的数据在第一文本中所处的位置即待播报位置之后,可以为指定播报准备从该待播报位置开始的播报数据(即下一条播报数据)。该下一条播报数据可以包含从该待播报位置开始直到第一文本的最后一行,也可以包含该段中从待播报位置开始直到该段的最后一行,或者为第一文本中的从待播报位置开始的小于某个阈值行数的若干行数据。比如如果阈值行数为4,则可以准备3行数据,这3行数据为从待播报位置所在的行开始的3行数据。假设待播报位置为第2行、阈值行数为4的情况下,则可以确定要准备的下一条播报数据为从第2行开始的3行数据,即,第一文本中的第2行、第3行、第4行数据。
在从第一文本获取下一条播报数据之后,将其存储至第三存储空间,以代替之前的所述播报数据进行播报,从而支持指定播报。另外,所述下一条播报数据也可以存储至第二存储空间,代替之前的播报数据,如图3(c)所示的那样,以方便获知当前播报数据的准确信息。
而且,需要计算并在第二存储空间中存储针对所述下一条播报数据的关联信息,即,针对该下一条播报数据的位置与截止占比信息,如图3(b)所示的那样。新存储的该下一条播报数据的关联信息可以代替之前的所述播报数据的关联信息,或者可以是以增加的方式存储在第二存储空间中。如果是以增加的方式存储,那么之前的所述播报数据的关联信息的状态需要发生改变,例如,可以通过设置状态标识来明确关联信息的状态。比如,可以使得状态标识为“00”表示与该关联信息对应的第三存储空间中的播报数据为“待播报状态”,状态标识为“01”表示其状态为“正在播报”,状态标识为“10”表示其状态为“已播报”等等。由此,方便通过状态标识来识别所需的关联信息。
由此,通过上述的步骤,使得本公开能够支持例如TTS播报之类的尤其面向视障或听障人士的指定播报功能,提升用户的阅读体验。
根据一些实施例,在所述指定播报指示中的指定播报类型可以包括播报相邻文本单元。
其中,所述相邻文本单元为与当前文本行所在的文本单元相邻的文本单元。
这里,一个文本单元可以为1个文本行或1个文本段,也可以为若干文本行或者若干文本段。由此,本发明能够支持的指定播报操作可以包括播报与当前文本行所在的文本单元相邻的文本单元。因此,其相邻的文本单元可以为1行或1段,也可以为若干行或者若干段。也就是说,本发明可以支持针对文本单元的指定播报。
其中,所述相邻的文本单元可以包括紧接在当前播报的文本行之前的若干行、紧接在当前播报的文本行之后的若干行、紧接在当前播报的文本行所在的段之前的若干段、或者紧接在当前播报的文本行所在的段之后的若干段。
根据一些实施例,在所述播报相邻文本单元包括播报前一行、存储在第二存储空间中的所述播报数据中的每行数据在所述第一文本中的位置包括该行数据所对应的文本行的行号的情况下,如图10所示,步骤S103中的所述响应于接收到指定播报指示,从第一文本获取下一条播报数据包括如下的步骤。
在步骤S10311,响应于接收到指定播报指示,确定所述播报数据中的当前已播报位置作为当前播报进度。
本步骤与前述的步骤S10301类似,在此不再赘述。
在步骤S10312,基于当前播报进度和存储在所述第二存储空间中的针对所述播报数据的所述关联信息,确定所述播报数据中的与当前播报进度对应的那行数据在所述第一文本中所对应的文本行的行号作为当前播报行号。
本步骤是用于确定作为当前播报位置的当前播报行号,与步骤S10302类似,通过当前播报进度与第二存储空间中记载的所述关联信息中的行号(如上所述,所述关联信息中的位置包括行号),可以确定当前播报行号。
在步骤S10313,基于所述播报前一行的指定播报类型,将所述当前播报行号减1作为待播报行号。
由于指定播报指示中的指定播报类型是播报前一行,因此,可以确定待播报行号为当前播报行号减1。
在步骤S10314,以第一文本中所述待播报行号所在的行作为起始位置,获取至少一行文本数据作为下一条播报数据。
以下将举例进行说明。假设指定播报指示中的指定播报类型为播报前一行,则如前面的例子所述,在作为当前播报位置的当前播报行号为第一文本中的第3行(即该文本区域的第3文本行)的情况下,指定播报的起始位置应为第一文本的第2行,那么可以获取从该第2行起的若干行数据作为下一条播报数据。关于下一条播报数据中具体可以包含多少行数据,在上面已经详细描述过,在此不再赘述。
通过上述的步骤S10311~S10314,本公开能够支持指定播报前一行,克服了现有技术中类似TTS播报之类的播报不能支持前进后退的缺陷。
根据一些实施例,在播报相邻文本单元包括播报后一行、存储在所述第二存储空间中的所述播报数据中的每行数据在所述第一文本中的位置包括该行数据的行号的情况下,如与图6类似的图11所示,步骤S103中的所述响应于接收到指定播报指示,从第一文本获取下一条播报数据可以包括如下步骤。
在步骤S10321,响应于接收到指定播报指示,确定所述播报数据中的当前已播报位置作为当前播报进度。
在步骤S10322,基于当前播报进度和存储在所述第二存储空间中的针对所述播报数据的所述关联信息,确定所述播报数据中的与当前播报进度对应的那行数据在所述第一文本中所对应的文本行的行号作为当前播报行号。
在步骤S10323,基于所述播报后一行的指定播报类型,将所述当前播报行号加1作为待播报行号。
在步骤S10324,以第一文本中所述待播报行号所在的行作为起始位置,获取至少一行文本数据作为下一条播报数据。
上述的步骤S10321~S10324与前述的步骤S10311~S10314类似,在此不再赘述。
以下将举例进行说明。假设指定播报指示中的指定播报类型为播报后一行,则如前面的例子所述,在作为当前播报位置的当前播报行号为第一文本中的第3行(即该文本区域的第3文本行)的情况下,指定播报的起始位置应为第一文本的第4行,那么可以获取从该第4行起的若干行数据作为下一条播报数据。
通过上述的步骤S10321~S10324,本公开能够支持指定播报后一行,克服了现有技术中类似TTS播报之类的播报不能支持前进后退的缺陷。
这里,在不涉及到对段的指定播报的情况下,在准备下一条播报数据时可以不考虑播报中的每行数据是否在同一段,以保持播报的连贯性和流畅性。当然,也可以根据实际需求来准备下一条播报数据的多少或者长短,本公开无需对此加以限制。
根据一些实施例,在所述播报相邻文本单元包括播报前一段、存储在所述第二存储空间中的所述播报数据中的每行数据在所述第一文本中的位置包括该行数据的段号的情况下,如图12所示,步骤S103中的所述响应于接收到指定播报指示,从第一文本获取下一条播报数据可以包括步骤S10331~S10334。
这里,可以使用例如“[00*]”之类的字符来表示段号。比如,“[001]”可以表示文本区域的第1段。或者,也可以使用其他方式来表示段号,比如“#00*”之类。甚至,在既包括行号又包括段号的情况下,可以使用“00*00*”来表示“段号+行号”,即,前面的“00*”是段号,后面的“00*”是行号。请注意,本公开不局限于这种使用特殊字符来表示段号的方式,而是也可以使用其他的方式来表示,行号也是类似。只要能够识别和区分出行号与段号,不会将两者混淆即可。
根据一些实施例,所述关联信息中有关位置的信息除了单独包含行号或者单独包含段号之外,也可以既包含行号又包含段号的信息,只要行号信息与段号信息之间能够区分即可。这样可以更方便指定播报。
在步骤S10331,响应于接收到指定播报指示,确定所述播报数据中的当前已播报位置作为当前播报进度。本步骤与前述的步骤S10301类似,在此不再赘述。
在步骤S10332,基于当前播报进度和存储在所述第二存储空间中的针对所述播报数据的所述关联信息,确定所述播报数据中的与当前播报进度对应的那行数据在所述第一文本中所对应的文本行的段号作为当前播报段号。
比如,假设前面的例子中得到的当前播报进度对应的第3文本行在所在的文本区域中是第2段,则当前播报段号为第2段。
在步骤S10333,基于所述播报前一段的指定播报类型,将所述当前播报段号减1作为待播报段号。
比如,在当前播报段号为第2段的情况下,待播报段号为第1段。
在步骤S10334,从所述第一文本中获取所述待播报段号对应的段作为下一条播报数据。
比如,在待播报段号为第1段的情况下,从所述第一文本中获取第1段作为下一条播报数据。
当然,还可以将第1段之后的一些文本数据与第一段一起作为下一条播报数据。
通过上述的步骤S10331~S10334,本公开能够支持指定播报前一段,克服了现有技术中类似TTS播报之类的播报不能支持前进后退的缺陷。
根据一些实施例,在所述播报相邻文本单元包括播报后一段、存储在所述第二存储空间中的所述播报数据中的每行数据在所述第一文本中的位置包括该行数据的段号的情况下,如图13所示,步骤S103中的所述响应于接收到指定播报指示,从第一文本获取下一条播报数据可以包括以下步骤。
在步骤S10341,响应于接收到指定播报指示,确定所述播报数据中的当前已播报位置作为当前播报进度。
在步骤S10342,基于当前播报进度和存储在所述第二存储空间中的针对所述播报数据的所述关联信息,确定所述播报数据中的与当前播报进度对应的那行数据在所述第一文本中所对应的文本行的段号作为当前播报段号。
在步骤S10343,基于所述播报后一段的指定播报类型,将所述当前播报段号加1作为待播报段号。
在步骤S10344,从所述第一文本中获取所述待播报段号对应的段作为下一条播报数据。
上述的步骤S10341~S10344与前述的步骤S10331~S10334类似,在此不再赘述。
通过上述的步骤S10341~S10344,本公开能够支持指定播报后一段,克服了现有技术中类似TTS播报之类的播报不能支持前进后退的缺陷。
请注意,在准备好指定播报所需的下一条播报数据之后,同样需要建立和/或更新第二存储空间中的针对该下一条播报数据的关联信息,以便为下一次指定播报识别当前播报位置。
如上所述,在用户发起指定播报请求的情况下,响应于接收到指定播报请求,从第一文本获取下一条播报数据,并在第二存储空间中存储针对所述下一条播报数据的关联信息。前面结合图7(a)~图7(d)描述了顺序读取时获取下一条播报数据与存储关联信息的示例,下面将参考图14(a)~图14(c)来描述在指定播报的情况下获取下一条播报数据与存储关联信息的示例。
假设当前读取到图7(d)所示的第2条播报数据(当前播报数据)中的第3行时,用户发起读取上一行的指定播报请求,则根据前面的描述,由第二存储空间中存储的关于当前播报数据的关联信息确定当前读取位置为该文本区域的第4行。然后,可以确定待播报位置为该文本区域的第3行。因此,可以将该待播报位位置作为起始位置,组织下一条播报数据。
如上所述,关于下一条播报数据的组织,可以从第一文本中获取至少一行文本数据作为所述下一条播报数据。
假设如图14(a)所示,当前第一文本中已经存储了图3(a)所示的至少5行文本数据,并且这5行文本数据为该文本区域中的一段文字。则例如可以从第一文本中获取第3行(作为待播报位置的起始位置)至第5行(即待播报位置所在的该段的最后1行)的文本数据作为所述下一条播报数据存储在第三存储空间中,如图14(b)所示。
在确定了下一条播报数据之后,在第二存储空间中建立针对所述下一条播报数据的关联信息,建立关联信息的方法与图3(a)~3(c)所示的类似。
第一文本中的与图14(b)所示的下一条播报数据对应的相应数据共有3行,该相应数据的第1行是第一文本中的第3行文本数据,即“理器和人工智能应用产品的创新和”,可计算出其字符数量为30;该相应数据的第2行是第一文本中的第4行文本数据,即“研发,为机器人、无人机、无人”,可计算出其字符数量为25;该相应数据的第3行是第一文本中的第5行文本数据,即“车、安防监控等专业领域提供端到端的解决方案”,可计算出其字符数量为41,由此,该相应数据的总字符数量为(30+25+41)=96。则该相应数据中的第1行数据的截止占比为30/96=31%,第1行数据的截止占比为(30+25)/96=57%,第3行数据的截止占比为(30+25+41)/96=100%。如上所述,最后一行数据的截止占比也可以不经计算而直接赋值为100%。
由此,构建完成存储在第二存储空间中的针对所述下一条播报数据的关联信息。
对于指定播报下一行、指定播报上一段或指定播报下一段的情形,与指定播报上一行的情形类似,在此不再赘述。
另外,对于下一条播报数据的组织,可以如上述的例子中那样,将待播报位置开始的本段中的文本数据均作为下一条播报数据(在第一文本中已经存储了足够的文本数据的情况下),或者也可以选择待播报位置开始的若干行作为下一条播报数据,该若干行可以在同一段(自然段),也可以不在同一段中(即,可以跨段)。
根据一些实施例,所述在第二存储空间中相应地存储针对所述下一播报数据的关联信息包括:
存储与所述下一条播报数据关于位置进行对应的所述相应数据中的每行数据在所述第一文本中的位置;以及
存储所述相应数据中的每行数据在所述相应数据中的截止占比。
根据一些实施例,所述与下一条播报数据关于位置进行对应的所述相应数据中的每行数据在所述第一文本中的位置包括该行数据的行号、或者该行数据的段号与行号。
在图14(c)所示的例子中,所述相应数据中的每行数据在第一文本中的位置信息为行号。这里,如上所述,该位置信息也可以包括不仅包括行号,还可以包括段号,例如图14(c)中的示出的三条位置信息可以分别为[001003]、[001004]、[001005],其中,001表示第1段,003、004、005分别表示第3、4、5行。由此,[001003]、[001004]、[001005]分别表示第1段的第3行、第1段的第4行、第1段的第5行。
根据一些实施例,用户可以通过操作相应的按钮或者在触摸屏上的滑动操作等,表示想要进行指定播报以及想要进行哪种类型的指定播报。由此,可以通过检测相应的操作来进行判断,并且在检测到相应的操作的情况下,生成相应的指定播报指示。
根据一些实施例,如图15所示,上述的图像文本播报方法还可以包括:步骤S110,响应于检测到触屏上的操作,生成所述指定播报指示。即,可以针对触屏上的特定操作,生成特定的指定播报指示。
例如,根据一些实施例,所述响应于检测到触屏上的操作,生成所述指定播报指示包括:
响应于检测到触屏上的第一触屏操作,生成指定播报类型为播报前一行的指定播报指示;
响应于检测到触屏上的第二触屏操作,生成指定播报类型为播报后一行的指定播报指示。
再例如,根据一些实施例,所述响应于检测到触屏上的操作,生成所述指定播报指示包括:
响应于检测到触屏上的第三触屏操作,生成指定播报类型为播报前一段的指定播报指示;以及
响应于检测到触屏上的第四触屏操作,生成指定播报类型为播报后一段的指定播报指示。
其中,上述的各种触屏操作可以包括在触屏上的滑动操作,例如第一触屏操作可以例如为向左滑动操作,第二触屏操作可以例如为向右滑动操作,第三触屏操作可以例如为向上滑动操作,第四触屏操作可以例如为向右滑动操作。另外,触屏操作也可以包括在触屏上进行的点击、长按等操作。可以结合不同形式的触屏操作来设定对应的指定播报类型。当然,也可以结合触屏操作在触屏上的不同位置的发生来设定对应的指定播报类型。或者,将不同形式的触屏操作与触屏上不同的位置进行组合来设定对应的指定播报类型也是可以的。
下面将举例来描述。例如,在滑动操作触摸屏的情况下,相应的操作及其含义例如可以如下。另外,对于前进后退的指定播报请求,第一文本中的文本数据不一定都能够符合需要,在这种情况下,可以提供提示信息。以下将具体说明。
例如,对于一个没有显示屏,但有触屏的阅读设备,用户可以在该触屏上进行滑动操作,用以表明自己的阅读意愿。下面以阅读设备的触屏的横向方向作为左右方向的参照,以该触屏的纵向方向作为上下方向的参照,来描述例示的滑动操作的含义。
●向左滑动操作,可以表示“播报前一行”
如果当前播报的文本数据已经是第一文本的前端(比如第一行)的数据,则可以向用户提示:“已经是第一行”。
●向右滑动操作,可以表示“播报后一行”
如果文本区域已经识别完并且当前播报的文本数据是第一文本的末端(也即文本区域的末端)的数据,则可以向用户提示:“已经是最后一行”。
而如果尚未识别完并且当前播报的文本数据是第一文本的末端但不是文本区域的末端的数据,即,文本区域中应该还有一些文本数据尚未识别和存储进已存储文本,则可以向用户提示:“正在识别,请稍等”。
●向上滑动操作,可以表示“播报前一段”
如果当前播报的文本数据已经是第一文本的第一段,则可以向用户提示:“已经是第一段”。
●向下滑动操作,可以表示“播报后一段”
如果文本区域已经识别完并且当前播报的文本数据是第一文本的最后一段(也即文本区域的最后一段),则可以向用户提示:“已经是最后一段”。
而如果该文本区域尚未识别完并且当前播报的文本数据是第一文本的最后一段但不是该文本区域的最后一段,则可以向用户提示:“正在识别,请稍等”。
总之,上述的提示也可以概括成“正在识别”或者“不存在指定位置”的提示。
以上例举了在滑动操作的情况下指定播报的几种例示情形,需注意本公开不限于这里例举的例示情形,而是还可以包括其他更多的指定播报操作。另外,上面例举的向左、向右、向上、向下滑动也只是示例,在实际实现时,并不必须采用这里示例的形式,而是可以采用各种替换、变型或扩展的形式。
关于上述的文本行与段,可以通过各种版面分析方法来判断文本区域的一个文本行以及文本区域的一个文本段,在此不再详述。
另外,根据一些实施例,用户(尤其视障用户与听障用户等)可以通过做出相应的动作,来表示想要进行指定播报以及想要进行哪种类型的指定播报。例如,对于视障用户、以及对于听障用户(可以通过例如震动的形式来进行播报),在看不到或者看不清文本区域中的内容的情况下,可以通过手势作为想要进行指定播报的信号或通知;或者,在能够看清文本区域的内容的情况下,可以将指引物(例如手指等)放到文本区域上想要播报的位置,来作为想要进行指定播报的信号或通知。在这种情况下,可以通过使用例如摄像机等来拍摄到用户的动作,然后,可以基于摄像机拍摄到的图像,对该图像进行分析,以确定用户是否想要进行指定播报,以及想要进行哪种类型的指定播报。
鉴于用户的动作可以包括很多种,因此本公开对此不作限制。另外,用户采用动作来表示想要进行指定播报以及想要进行的指定播报的类型与上面采用用户的操作的情形类似,在此不再赘述。
本公开通过提供指定播报功能,由此能够大大提升用户(尤其视障和听障用户)的阅读体验。
根据一些实施例,也可以在第一存储空间中存储第一文本中每行数据的位置,这样每次准备播报数据时,可以直接从第一存储空间中获得所存储的所需位置的信息。但是,在第一存储空间中不存储第一文本中每行数据的行位置也是可以的,因为本来第一文本中的每行数据就是与文本区域的每个文本行对应的,也就是说,第一文本自身已经具有了文本区域的相应文本行的行位置的信息。
另外,对于文本段位置,如果不在第一存储空间中存储每行数据的段位置,那么可以通过在第一文本中相应位置处设置特定的段指示标记来表示每个段,或者,也可以在第一存储空间中按照文本区域中的文本段的方式存储第一文本,使得第一文本自身也能够具有与文本区域的文本段对应的段位置的信息。
如上所述,对于播报数据的获取,可以由播报装置主动获取,也可以由处理装置从第三存储空间中获取并提供给播报装置。
根据一些实施例,还可以与位置信息和截止占比的存储类似地来存储相应文本行的字符数量,比如在第一存储空间和/或第二存储空间中存储相应文本行的字符数量。在存储了相应文本行的字符数量的情况下,能够更快速地计算出所需的截止占比和/或更快速地定位到文本数据的位置。
由此,所述关联信息除了位置和截止占比之外,还可以包括字符数量。
基于实际需求,指定播报可能发生在顺序播报进行的过程中,即,在顺序播报时,用户可能需要重听(如前所述),此时可以发起指定播报,那么指定播报可能会中断或终止正在进行中的顺序播报而开始所需的指定播报。
根据一些实施例,对于特定类型文本行,存储用于表示该文本行类型的特定类型位置标识,并且基于所述特定类型标识,在播报时向用户发出提示。
对于上述这样的特定类型的文本行,可以存储用于表示该文本行的类型的特定类型标识。在播报时,如果确定要播报的某个文本行对应一个这样的特定类型标识,便可在向用户发出相应的提示。比如,如果确定要播报的一个文本行是标题行,便可以提示用户例如“这是一个标题行”等的信息。如果确定要播报的一个文本行是模糊行,便可以提示用户例如“无法识别该行文字,请谅解”等的信息。
根据一些实施例,上述的提示可以包括声音提示、震动提示、文字提示、图像提示、视频提示中的一种或者它们的组合,以方便各种需求的用户使用。
根据一些实施例,所述特定类型文本行包括:
第一类型文本行,其中,通过文字大小来确定该第一类型文本行;以及
第二类型文本行,其中,通过文本行清晰度来确定该第二类型文本行。
例如,第一类型文本行可以是标题行、页眉、页脚等,这些行的文字大小往往与其他文本行有所不同。
另外,第二类型文本行指无法清楚地识别的文本行,即文本清晰度不高(例如低于预设的文本清晰度阈值)的文本行。
根据一些实施例,所述文本行可以沿横向、竖向、或者斜向排列。
根据一些实施例,如图16所示,本公开提供一种图像文本播报设备100,该图像文本播报设备100可以包括接收装置101、播报装置102、处理器103。
其中,所述接收装置101可以被配置为接收指定播报指示;所述播报装置102可以被配置为响应于所述指定播报指示,确定关于播报数据的当前播报进度;所述处理器103可以被配置为根据所述当前播报进度和播报装置确定的所述指定播报指示,从第一文本获取下一条播报数据供播报装置播报。
其中,如前所述,所述第一文本由字符识别装置针对图像的文本区域中的文本行识别并存储的文本数据组成。
由此,根据本公开的示例性实施例的图像文本播报设备100可以支持指定播报。
根据一些实施例,图像文本播报设备100还可以包括字符识别装置104、至少一个存储器105。
其中,字符识别装置104可以被配置为针对图像中文本区域的一个待识别文本行进行字符识别,获得文本数据。
所述至少一个存储器105可以被配置用于:在所述至少一个存储器的第一存储空间中存储该文本行的所述文本数据,作为针对所述文本区域的第一文本中的一行数据,还可以用于在所述至少一个存储器的第三存储空间中存储播报数据;以及还可以用于在所述至少一个存储器的第二存储空间中存储针对所述播报数据的关联信息,所述关联信息用于将第三存储空间中的播报数据与第一存储空间中的第一文本中的相应数据关于位置进行对应。
根据一些实施例,所述播报装置102可以从所述第三存储空间获取播报数据,进行关于所述文本区域的顺序播报或指定播报。
根据一些实施例,所述处理器103可以响应于接收到指定播报指示与来自播报装置102的当前播报进度,从第一存储空间中的第一文本获取下一条播报数据并存储至第三存储空间。
根据一些实施例,上述图像文本播报设备100还可以包括检测装置106,检测装置106可以被配置用于响应于检测到指定播报操作,生成所述指定播报指示,并发送给处理器。这里,检测装置可以直接是输入设备,也可以是另外的用于检测输入或者操作的检测部件。
根据一些实施例,所述指定播报操作可以包括各种触屏操作(比如前述的第一、第二、第三、第四触屏操作等)。更具体地,例如触屏上的向左滑动、触屏上的向右滑动。所述指定播报操作还可以包括:触屏上的向上滑动、触屏上的向下滑动。
根据一些实施例,针对所述播报数据的关联信息至少可以包括:与所述播报数据关于位置进行对应的所述相应数据中的每行数据在所述第一文本中的位置;以及所述相应数据中的每行数据在所述相应数据中的截止占比。
其中,所述相应数据中的每行数据在所述相应数据中的截止占比由处理器103通过从所述相应数据的起始行数据到该行数据的字符数量占整个所述相应数据的总字符数量的比例来计算确定。
根据一些实施例,所述处理器103可以响应于每次在第三存储空间中执行的存储,构建和/或更新存储在所述第二存储空间中的针对所述下一条播报数据的所述关联信息。
根据一些实施例,播报装置102可以响应于触屏上的第一触屏操作(例如向左滑动操作),播报当前播报的文本行的前一行;并且,还可以响应于触屏上的第二触屏操作(例如向右滑动操作),播报装置播报当前播报的文本行的后一行。并且,还可以响应于触屏上的第三触屏操作(例如向上滑动操作),播报装置播报当前播报的文本段的前一段;以及,还可以响应于触屏上的第四触屏操作(例如向下滑动操作),播报装置播报当前播报的文本段的后一段。
根据一些实施例,响应于指定播报操作,播报装置可以向用户发出表示“正在识别”或“不存在指定位置”的提示。
对于上述的图像文本播报设备100而言,假如用户发起了指定播报操作,那么该设备100中的检测装置106将检测到该用户的指定播报操作,随即将生成指定播报指示,发送给例如处理器103或者播报装置102。
在处理器接收到指定播报指示的情况下,解析指定播报指示,并向播报装置请求当前播报进度信息,以开始准备指定播报所需的指定播报数据。
而在播报装置102收到指定播报指示的情况下,播报装置确定当前播报进度,并可以解析或者不解析指定播报指示,然后将当前播报进度连同指定播报指示发送给处理器103,处理器103接收到指定播报指示与当前播报进度后,开始准备下一条播报数据(指定播报数据)。
准备下一条播报数据的过程与前面结合步骤S103描述的过程类似,处理器103基于当前播报进度,结合存储器105中的第二存储空间中存储的针对当前播报数据的关联信息,获得与当前播报进度对应的当前播报位置(第一文本中的位置),然后基于指定播报指示,确定待播报位置。
在处理器确定待播报位置之后,从第一文本中获取以待播报位置开始的若干行文本数据作为下一条播报数据,使得存储器105存储至第三存储空间,供播报装置102取用,以进行所需的指定播报。
另外,根据一些实施例,上述图像文本播报设备100在提供例如语音或者振动形式的播报之外,还可以提供显示功能。由此,其还可以包括显示装置,用于显示例如当前正在播报的数据或者当前播报进度(例如播报位置)等等。
图像文本播报设备中各装置和/或部件的操作与前述的图像文本播报方法中执行的各步骤类似,在此不再赘述。
根据本公开的另一方面,还提供一种电子电路,可以包括:被配置为执行上述的方法的步骤的电路。
根据本公开的另一方面,还提供一种阅读设备,包括:上述的电子电路;被配置为播报文本数据的电路。
根据一些实施例,所述阅读设备响应于用户的操作或者用户的动作,通过所述播报文本数据的电路进行顺序播报或者指定播报。
用户的操作可以指用户在例如阅读设备上进行的一些操作,例如对于开关、按钮、屏幕等等的操作。
用户的动作可以指用户通过手或头等身体部位做出的某些用于触发阅读设备进行播报的动作,例如,点一下头表示顺序播报的命令,短时间间隔内点两下头表示指定播报的命令等。
可以根据实际需求,来设计用户的操作或动作所指代的含义。另外,还可以根据实际需求,来设计上述的指示中的参数。
根据本公开的另一方面,还提供一种电子设备,包括:处理器;以及存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的方法。
根据本公开的另一方面,还提供一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行上述的方法。
图17是示出根据本公开的示例性实施例的电子设备的示例的框图。要注意的是,图17所示出的结构仅是一个示例,根据具体的实现方式,本公开的电子设备可以仅包括图17所示出的组成部分中的一种或多个。
电子设备2000例如可以是通用计算机(例如膝上型计算机、平板计算机等等各种计算机)、移动电话、个人数字助理。根据一些实施例,电子设备2000可以是阅读辅助设备(或者简称为阅读设备)。
电子设备2000可被配置为拍摄图像,对所拍摄的图像进行处理,并且响应于所述处理而提供相应的播报服务或者进行提示。例如,电子设备2000可被配置为拍摄图像,对该图像进行文字检测和识别以获得文字数据,将文字数据转换成声音数据,并且可以输出声音数据供用户聆听,和/或输出文字数据供用户在例如显示装置(例如普通显示屏或触摸显示屏等)上观看。
根据一些实施方式,所述电子设备2000可以被配置为包括眼镜架或者被配置为能够可拆卸地安装到眼镜架(例如眼镜架的镜框、连接两个镜框的连接件、镜腿或任何其他部分)上,从而能够拍摄到近似包括用户的视野的图像。
根据一些实施方式,所述电子设备2000也可被安装到其它可穿戴设备上,或者与其它可穿戴设备集成为一体。所述可穿戴设备例如可以是:头戴式设备(例如头盔或帽子等)、可佩戴在耳朵上的设备等。根据一些实施例,所述电子设备可被实施为可附接到可穿戴设备上的配件,例如可被实施为可附接到头盔或帽子上的配件等。
根据一些实施方式,所述电子设备2000也可具有其他形式。例如,电子设备2000可以是移动电话、通用计算设备(例如膝上型计算机、平板计算机等)、个人数字助理,等等。电子设备2000也可以具有底座,从而能够被安放在桌面上。
根据一些实施方式,所述电子设备2000作为阅读辅助设备(阅读设备)或者图像文本播报设备可以用于辅助阅读,在这种情况下,所述电子设备2000有时也被称为“电子阅读器”或“阅读辅助设备”。借助于电子设备2000,无法自主阅读的用户(例如视力障碍人士、存在阅读障碍的人士、听力障碍人士等)可以采用类似阅读姿势的姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中,所述电子设备2000可以获取图像,并对所述图像中的文本行进行字符识别,得到文本数据并存储得到的文本数据,以方便快速播报文本数据,并且使得播报的文本数据中有语义衔接和上下文语境,避免逐行或逐字播报引起的生硬的卡顿。而且,所述电子设备2000可以支持指定阅读,通过检测到用户在读取过程中对电子设备的操作或用户呈现出的动作,判断用户的指定阅读需要,为用户播报所述指定阅读所需的内容,从而更加方便用户的使用,大大提升用户体验。
电子设备2000可以包括摄像机2004,用于拍摄和获取图像。摄像机2004可以拍摄静态的图像,也可以拍摄动态的图像,可以包括但不限于摄像头、照相机、视频摄像机等,被配置为获取包括待识别对象的初始图像。电子设备2000还可以包括电子电路2100,所述电子电路2100包括被配置为执行如前所述的方法的步骤的电路。电子设备2100还可以包括文字识别电路2005,所述文字识别电路2005被配置为对所述图像中的文字进行文字检测和识别(例如OCR处理),从而获得文字数据。所述文字识别电路2005例如可以通过专用芯片实现。电子设备2000还可以包括声音转换电路2006,所述声音转换电路2006被配置为将所述文字数据转换成声音数据。所述声音转换电路2006例如可以通过专用芯片实现。电子设备2000还可以包括声音输出电路2007,所述声音输出电路2007被配置为输出所述声音数据。所述声音输出电路2007可以包括但不限于耳机、扬声器、或振动器等,及其相应驱动电路。
根据一些实施方式,所述电子设备2000还可以包括图像处理电路2008,所述图像处理电路2008可以包括被配置为对图像进行各种图像处理的电路。图像处理电路2008例如可以包括但不限于以下中的一个或多个:被配置为对图像进行降噪的电路、被配置为对图像进行去模糊化的电路、被配置为对图像进行几何校正的电路、被配置为对图像进行特征提取的电路、被配置为对图像中的目标对象进行目标检测和识别的电路、被配置为对图像中包含的文字进行文字检测的电路、被配置为从图像中提取文本行的电路、被配置为从图像中提取文字坐标的电路等等。
根据一些实施方式,电子电路2100还可以包括文字处理电路2009,所述文字处理电路2009可以被配置为基于所提取的与文字有关的信息(例如文字数据、文本框、段落坐标、文本行坐标、文字坐标等)进行各种处理,从而获得诸如段落排序、文字语义分析、版面分析结果等处理结果。
上述的各种电路(例如文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、电子电路2100中的一个或多个可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现。例如,上述的各种电路中的一个或多个可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C ++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000还可以包括通信电路2010,所述通信电路2010可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
根据一些实施方式,电子设备2000还可以包括输入设备2011,所述输入设备2011可以是能向电子设备2000输入信息的任何类型的设备,并且可以包括但不限于各种传感器、鼠标、键盘、触摸屏、按钮、控制杆、麦克风和/或遥控器等等。
根据一些实施方式,电子设备2000还可以包括输出设备2012,所述输出设备2012可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、视觉输出终端、振动器和/或打印机等。尽管电子设备2000根据一些实施例用于阅读辅助设备,但是基于视觉的输出设备可以方便用户的家人或维修工作人员等从电子设备2000获得输出信息。
根据一些实施方式,电子设备2000还可以包括处理器2001。所述处理器2001可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。处理器2001例如可以是但不限于中央处理单元CPU或微处理器MPU等等。电子设备2000还可以包括工作存储器2002,所述工作存储器2002可以存储对处理器2001的工作有用的程序(包括指令)和/或数据(例如图像、文字、声音,以及其他中间数据等)的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。电子设备2000还可以包括存储设备2003,所述存储设备2003可以包括任何非暂时性存储设备,非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。工作存储器2002和存储设备2003可以被集合地称为“存储器”,并且在有些情况下可以相互兼用。所述存储器中可以存储前述的第一存储空间中存储的第一文本、第二存储空间中存储的关联信息(和与播报数据对应的相关数据)、第三存储空间中存储的播报数据等。如前所述,本公开中并不限定第一存储空间、第二存储空间、第三存储空间是否在同一个存储装置中,只要能够实现所需的功能即可。
根据一些实施方式,处理器2001可以对摄像机2004、文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、通信电路2010、电子电路2100、输入设备2011、输出设备2012以及电子设备2000包括的其他各种装置和电路中的至少一个进行控制和调度。根据一些实施方式,图17中所述的各个组成部分中的至少一些可通过线路2013而相互连接和/或通信。
软件要素(程序)可以位于所述工作存储器2002中,包括但不限于操作系统2002a、一个或多个应用程序2002b、驱动程序和/或其他数据和代码。
根据一些实施方式,用于进行前述的控制和调度的指令可以被包括在操作系统2002a或者一个或多个应用程序2002b中。
根据一些实施方式,执行本公开所述的方法步骤的指令可以被包括在一个或多个应用程序2002b中,并且上述电子设备2000的各个模块可以通过由处理器2001读取和执行一个或多个应用程序2002b的指令来实现。换言之,电子设备2000可以包括处理器2001以及存储程序的存储器(例如工作存储器2002和/或存储设备2003),所述程序包括指令,所述指令在由所述处理器2001执行时使所述处理器2001执行如本公开各种实施例所述的方法。
根据一些实施方式,文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、通信电路2010、电子电路2100、输入设备2011、输出设备2012以及电子设备2000中的至少一个所执行的操作中的一部分或者全部可以由处理器2001读取和执行一个或多个应用程序2002的指令来实现。
软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如所述存储设备2003)中,并且在执行时可以被存入工作存储器2001中(可能被编译和/或安装)。因此,本公开提供存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备(例如阅读设备)的处理器执行时,致使所述电子设备执行如本公开各种实施例所述的方法。根据另一种实施方式,软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。
还应该理解,可以根据具体要求而进行各种变型。例如,也可以使用定制硬件,和/或可以用硬件、软件、固件、中间件、微代码,硬件描述语言或其任何组合来实现各个电路、单元、模块或者元件。例如,所公开的方法和设备所包含的电路、单元、模块或者元件中的一些或全部可以通过使用根据本公开的逻辑和算法,用汇编语言或硬件编程语言(诸如VERILOG,VHDL,C ++)对硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。
根据一些实施方式,电子设备2000中的处理器2001可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。电子设备2001的其他模块也可以类似地分布。这样,电子设备2001可以被解释为在多个位置执行处理的分布式计算系统。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本公开的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以用各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (39)

1.一种图像文本播报方法,包括:
接收指定播报指示;
响应于所述指定播报指示,确定关于播报数据的当前播报进度;
根据所述当前播报进度和所述指定播报指示,从第一文本获取下一条播报数据,其中,所述第一文本由针对图像的文本区域中的文本识别并存储的文本数据组成;
针对图像中文本区域的待识别文本行进行字符识别以获得文本数据,并在第一存储空间中存储该文本行的所述文本数据,作为所述第一文本中的一行数据;
在第三存储空间中存储所述播报数据;以及
在第二存储空间中存储针对所述播报数据的关联信息,所述关联信息用于将第三存储空间中的播报数据与第一存储空间中的第一文本中的相应数据关于位置进行对应。
2.根据权利要求1所述的方法,其中,针对所述播报数据的关联信息至少包括:
与所述播报数据关于位置进行对应的所述相应数据中的每行数据在所述第一文本中的位置;以及
所述相应数据中的每行数据在所述相应数据中的截止占比,
其中,所述相应数据中的每行数据在所述相应数据中的截止占比通过从所述相应数据的起始行数据到该行数据的字符数量占整个所述相应数据的总字符数量的比例来确定。
3.根据权利要求1所述的方法,其中,所述在第三存储空间中存储播报数据包括:
在第三存储空间中存储着当前播报数据的情况下,在顺序播报模式中,将新识别的文本行的文本数据存储至第三存储空间作为下一条播报数据的至少一部分。
4.根据权利要求3所述的方法,其中,响应于每次在第三存储空间中执行存储,构建和/或更新存储在所述第二存储空间中的针对所述下一条播报数据的所述关联信息。
5.根据权利要求1所述的方法,其中,将对于所述文本区域的待识别首个文本行进行字符识别得到的文本数据单独作为一条播报数据。
6.根据权利要求1所述的方法,还包括:
判断所述文本区域中是否存在下一个待识别文本行;以及
如果存在下一个待识别文本行,则对于该下一个待识别文本行进行字符识别。
7.根据权利要求1所述的方法,其中,所述在第三存储空间中存储播报数据包括:
在第三存储空间中存储着当前播报数据的情况下,响应于接收到指定播报指示,从第一文本获取下一条播报数据并存储在第三存储空间。
8.根据权利要求1所述的方法,其中,通过所述播报数据中已播报的字符数量占所述播报数据的字符数量的比例来确定当前播报进度。
9.根据权利要求1所述的方法,其中,所述从第一文本获取下一条播报数据包括:
响应于接收到指定播报指示,确定当前播报数据中的当前已播报位置作为所述当前播报进度;
基于当前播报进度与第二存储空间中的针对所述当前播报数据的关联信息,确定与当前播报进度对应的所述第一文本中的位置作为当前播报位置;
基于所述当前播报位置与所述指定播报指示中的指定播报类型,在所述第一文本中确定待播报位置;以及
以所述待播报位置作为起始位置,从第一文本获取下一条播报数据存储至第三存储空间,并计算和在第二存储空间中相应地存储针对所述下一播报数据的关联信息。
10.根据权利要求9所述的方法,其中,所述基于当前播报进度与第二存储空间中的针对所述当前播报数据的关联信息,确定与当前播报进度对应的所述第一文本中的位置作为当前播报位置包括:
比较当前播报进度与第二存储空间中存储的关于所述当前播报数据的截止占比,将所述截止占比中大于当前播报进度的截止占比中最小的截止占比所对应的在第二存储空间中存储的关于所述当前播报数据的位置,确定为当前播报位置。
11.根据权利要求1所述的方法,其中,所述指定播报指示中的指定播报类型包括播报相邻文本单元,以及
其中,所述相邻文本单元为与当前播报的文本行所在的文本单元相邻的文本单元。
12.根据权利要求11所述的方法,其中,所述播报相邻文本单元包括播报前一行,存储在所述第二存储空间中的所述当前播报数据中的每行数据在所述第一文本中的位置包括该行数据的行号,
其中,所述从第一文本获取下一条播报数据包括:
响应于接收到指定播报指示,确定所述当前播报数据中的当前已播报位置作为所述当前播报进度;
基于所述当前播报进度和存储在所述第二存储空间中的针对所述当前播报数据的所述关联信息,确定所述当前播报数据中的与所述当前播报进度对应的那行数据在所述第一文本中所对应的文本行的行号作为当前播报行号;
基于所述播报前一行的指定播报类型,将所述当前播报行号减1作为待播报行号;以及
以所述待播报行号所在的行作为起始位置,从第一文本获取至少一行数据作为下一条播报数据。
13.根据权利要求11所述的方法,其中,所述播报相邻文本单元包括播报后一行,存储在所述第二存储空间中的所述当前播报数据中的每行数据在所述第一文本中的位置包括该行数据的行号,
其中,所述从第一文本获取下一条播报数据包括:
响应于接收到指定播报指示,确定所述当前播报数据中的当前已播报位置作为所述当前播报进度;
基于所述当前播报进度和存储在所述第二存储空间中的针对所述当前播报数据的所述关联信息,确定所述当前播报数据中的与所述当前播报进度对应的那行数据在所述第一文本中所对应的文本行的行号作为当前播报行号;
基于所述播报后一行的指定播报类型,将所述当前播报行号加1作为待播报行号;以及
以所述待播报行号所在的行作为起始位置,从第一文本获取至少一行数据作为下一条播报数据。
14.根据权利要求11所述的方法,其中,所述播报相邻文本单元包括播报前一段,存储在所述第二存储空间中的所述当前播报数据中的每行数据在所述第一文本中的位置包括该行数据的段号,
其中,所述从第一文本获取下一条播报数据包括:
响应于接收到指定播报指示,确定所述当前播报数据中的当前已播报位置作为所述当前播报进度;
基于所述当前播报进度和存储在所述第二存储空间中的针对所述当前播报数据的所述关联信息,确定所述当前播报数据中的与所述当前播报进度对应的那行数据在所述第一文本中所对应的文本行的段号作为当前播报段号;
基于所述播报前一段的指定播报类型,将所述当前播报段号减1作为待播报段号;以及
从所述第一文本中获取所述待播报段号对应的段作为下一条播报数据。
15.根据权利要求11所述的方法,其中,所述播报相邻文本单元包括播报后一段,存储在所述第二存储空间中的所述当前播报数据中的每行数据在所述第一文本中的位置包括该行数据的段号,
其中,所述从第一文本获取下一条播报数据包括:
响应于接收到指定播报指示,确定所述当前播报数据中的当前已播报位置作为所述当前播报进度;
基于所述当前播报进度和存储在所述第二存储空间中的针对所述当前播报数据的所述关联信息,确定所述当前播报数据中的与所述当前播报进度对应的那行数据在所述第一文本中所对应的文本行的段号作为当前播报段号;
基于所述播报后一段的指定播报类型,将所述当前播报段号加1作为待播报段号;以及
从所述第一文本中获取所述待播报段号对应的段作为下一条播报数据。
16.根据权利要求11所述的方法,其中,所述计算和在第二存储空间中相应地存储针对所述下一播报数据的关联信息包括:
在第二存储空间中存储与所述下一条播报数据关于位置进行对应的所述相应数据中的每行数据在所述第一文本中的位置;以及
计算并在第二存储空间中存储所述相应数据中的每行数据在所述相应数据中的截止占比。
17.根据权利要求11所述的方法,其中,所述与下一条播报数据关于位置进行对应的所述相应数据中的每行数据在所述第一文本中的位置包括该行数据的行号、或者该行数据的段号与行号。
18.根据权利要求1所述的方法,还包括:
响应于检测到触屏上的操作,生成所述指定播报指示。
19.根据权利要求18所述的方法,其中,所述响应于检测到触屏上的操作,生成所述指定播报指示包括:
响应于检测到触屏上的第一触屏操作,生成指定播报类型为播报前一行的指定播报指示;
响应于检测到触屏上的第二触屏操作,生成指定播报类型为播报后一行的指定播报指示。
20.根据权利要求18所述的方法,其中,所述响应于检测到触屏上的操作,生成所述指定播报指示包括:
响应于检测到触屏上的第三触屏操作,生成指定播报类型为播报前一段的指定播报指示;以及
响应于检测到触屏上的第四触屏操作,生成指定播报类型为播报后一段的指定播报指示。
21.根据权利要求1所述的方法,其中,对于特定类型文本行,存储用于表示该文本行类型的特定类型标识,并且基于所述特定类型标识,在播报时向用户发出提示。
22.根据权利要求21所述的方法,其中,所述特定类型文本行包括以下之一:
第一类型文本行,其中,通过文字大小来确定该第一类型文本行;以及
第二类型文本行,其中,通过文本行清晰度来确定该第二类型文本行。
23.根据权利要求1~22中任一项所述的方法,其中,所述文本行沿横向、竖向、或者斜向排列。
24.一种图像文本播报设备,包括:
接收装置,被配置为接收指定播报指示;
播报装置,被配置为响应于所述指定播报指示,确定关于播报数据的当前播报进度;
处理器,被配置为根据所述当前播报进度和播报装置确定的所述指定播报指示,从第一文本获取下一条播报数据供播报装置播报,其中,所述第一文本由字符识别装置针对图像的文本区域中的文本识别并存储的文本数据组成;
所述字符识别装置,被配置为针对所述文本区域的待识别文本行进行字符识别,获得文本数据;
至少一个存储器,被配置用于:
在所述至少一个存储器的第一存储空间中存储该文本行的所述文本数据,作为所述第一文本中的一行数据;
在所述至少一个存储器的第三存储空间中存储所述播报数据;以及
在所述至少一个存储器的第二存储空间中存储针对所述播报数据的关联信息,所述关联信息用于将第三存储空间中的播报数据与第一存储空间中的第一文本中的相应数据关于位置进行对应。
25.根据权利要求24所述的设备,其中,所述播报装置从所述第三存储空间获取播报数据,进行关于所述文本区域的顺序播报或指定播报。
26.根据权利要求24所述的设备,其中,所述处理器响应于接收到指定播报指示,从第一存储空间中的第一文本获取下一条播报数据并存储至第三存储空间。
27.根据权利要求24所述的设备,还包括:
检测装置,被配置为响应于检测到指定播报操作,生成所述指定播报指示,并发送给所述处理器。
28.根据权利要求27所述的设备,其中,所述指定播报操作包括:
触屏上的用于表示播报前一行的第一触屏操作、触屏上的用于表示播报后一行的第二触屏操作。
29.根据权利要求27所述的设备,其中,所述指定播报操作包括:
触屏上的用于表示播报前一段的第三触屏操作、触屏上的用于表示播报后一段的第四触屏操作。
30.根据权利要求24所述的设备,其中,针对所述播报数据的关联信息至少包括:
与所述播报数据关于位置进行对应的所述相应数据中的每行数据在所述第一文本中的位置;以及
所述相应数据中的每行数据在所述相应数据中的截止占比,
其中,所述相应数据中的每行数据在所述相应数据中的截止占比由处理器通过从所述相应数据的起始行数据到该行数据的字符数量占整个所述相应数据的总字符数量的比例来计算确定。
31.根据权利要求24所述的设备,其中,所述处理器响应于每次在第三存储空间中执行的存储,构建和/或更新存储在所述第二存储空间中的针对所述下一条播报数据的所述关联信息。
32.根据权利要求28所述的设备,其中,
响应于触屏上的第一触屏操作,播报装置播报当前播报的文本行的前一行;
响应于触屏上的第二触屏操作,播报装置播报当前播报的文本行的后一行。
33.根据权利要求28所述的设备,其中,
响应于触屏上的第三触屏操作,播报装置播报当前播报的文本段的前一段;以及
响应于触屏上的第四触屏操作,播报装置播报当前播报的文本段的后一段。
34.根据权利要求28所述的设备,其中,响应于指定播报操作,播报装置向用户发出表示“正在识别”或“不存在指定位置”的提示。
35.一种电子电路,包括:
被配置为执行根据权利要求1~23中任一项所述的方法的步骤的电路。
36.一种阅读设备,包括:
根据权利要求35所述的电子电路;
被配置为播报文本数据的电路。
37.根据权利要求36所述的阅读设备,其中,所述阅读设备响应于用户的操作或者用户的动作,通过所述播报文本数据的电路进行顺序播报或者指定播报。
38.一种电子设备,包括:
处理器;以及
存储程序的存储器,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1~23中任一项所述的方法。
39.一种存储程序的非暂态计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1~23中任一项所述的方法。
CN202010085671.8A 2020-02-11 2020-02-11 图像文本播报方法及其设备、电子电路和存储介质 Active CN110991455B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202010085671.8A CN110991455B (zh) 2020-02-11 2020-02-11 图像文本播报方法及其设备、电子电路和存储介质
PCT/CN2020/123195 WO2021159729A1 (zh) 2020-02-11 2020-10-23 图像文本播报方法及其设备、电子电路和存储介质
KR1020200189182A KR102549570B1 (ko) 2020-02-11 2020-12-31 이미지 텍스트 방송 방법 및 이의 기기, 전자 회로 및 저장 매체
US17/164,744 US11776286B2 (en) 2020-02-11 2021-02-01 Image text broadcasting
JP2021018255A JP2021129299A (ja) 2020-02-11 2021-02-08 画像テキスト・ブロードキャスト方法およびデバイス、電子回路、ならびに記憶媒体
EP21156435.6A EP3866475A1 (en) 2020-02-11 2021-02-10 Image text broadcasting method and device, electronic circuit, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010085671.8A CN110991455B (zh) 2020-02-11 2020-02-11 图像文本播报方法及其设备、电子电路和存储介质

Publications (2)

Publication Number Publication Date
CN110991455A CN110991455A (zh) 2020-04-10
CN110991455B true CN110991455B (zh) 2023-05-05

Family

ID=70081367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010085671.8A Active CN110991455B (zh) 2020-02-11 2020-02-11 图像文本播报方法及其设备、电子电路和存储介质

Country Status (5)

Country Link
EP (1) EP3866475A1 (zh)
JP (1) JP2021129299A (zh)
KR (1) KR102549570B1 (zh)
CN (1) CN110991455B (zh)
WO (1) WO2021159729A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991455B (zh) * 2020-02-11 2023-05-05 上海肇观电子科技有限公司 图像文本播报方法及其设备、电子电路和存储介质
US11776286B2 (en) 2020-02-11 2023-10-03 NextVPU (Shanghai) Co., Ltd. Image text broadcasting
CN113487542B (zh) * 2021-06-16 2023-08-04 成都唐源电气股份有限公司 一种接触网导线磨耗区域的提取方法
WO2023136605A1 (en) * 2022-01-11 2023-07-20 Samsung Electronics Co., Ltd. Method and electronic device for intelligently reading displayed contents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885826A (zh) * 2017-11-07 2018-04-06 广东欧珀移动通信有限公司 多媒体文件播放方法、装置、存储介质及电子设备
CN108366182A (zh) * 2018-02-13 2018-08-03 京东方科技集团股份有限公司 文字语音同步播报的校准方法及装置、计算机存储介质
CN108874356A (zh) * 2018-05-31 2018-11-23 珠海格力电器股份有限公司 语音播报方法、装置、移动终端和存储介质
CN110277092A (zh) * 2019-06-21 2019-09-24 北京猎户星空科技有限公司 一种语音播报方法、装置、电子设备及可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7336890B2 (en) * 2003-02-19 2008-02-26 Microsoft Corporation Automatic detection and segmentation of music videos in an audio/video stream
KR101351555B1 (ko) * 2012-04-05 2014-01-16 주식회사 알에스엔 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
KR20140019167A (ko) * 2012-08-06 2014-02-14 삼성전자주식회사 음성 안내 기능을 제공하기 위한 방법 및 그 전자 장치
JP2014127197A (ja) * 2012-12-26 2014-07-07 Toshio Itabashi スマートフォンのカメラで認識した文字を、音声で読み上げるアプリケーション・ソフト
US9971495B2 (en) * 2013-01-28 2018-05-15 Nook Digital, Llc Context based gesture delineation for user interaction in eyes-free mode
US9378727B2 (en) * 2013-04-27 2016-06-28 Tencent Technology (Shenzhen) Company Limited Method and apparatus for audio playing
CN106022332B (zh) * 2016-04-15 2019-04-02 广州阿里巴巴文学信息技术有限公司 终端设备、将纸质读物转为待听读物播放的装置及方法
JP6243071B1 (ja) * 2017-04-03 2017-12-06 旋造 田代 通信内容翻訳処理方法、通信内容翻訳処理プログラム、及び、記録媒体
CN107393356A (zh) * 2017-04-07 2017-11-24 深圳市友悦机器人科技有限公司 控制方法、控制装置和早教机
JP2019040005A (ja) * 2017-08-24 2019-03-14 株式会社オトングラス 読み上げシステム及び読み上げ方法
CN108182432A (zh) * 2017-12-28 2018-06-19 北京百度网讯科技有限公司 信息处理方法和装置
CN108665742B (zh) * 2018-05-11 2020-06-02 亮风台(上海)信息科技有限公司 一种通过阅读设备进行阅读的方法与设备
CN110111612A (zh) * 2019-04-11 2019-08-09 深圳市学之友科技有限公司 一种拍照式点读方法、系统及点读设备
CN109934210B (zh) * 2019-05-17 2019-08-09 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
US11715485B2 (en) * 2019-05-17 2023-08-01 Lg Electronics Inc. Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same
CN110287830A (zh) * 2019-06-11 2019-09-27 广州市小篆科技有限公司 智能穿戴终端、云端服务器和数据处理方法
CN110245606B (zh) * 2019-06-13 2021-07-20 广东小天才科技有限公司 一种文本识别方法、装置、设备及存储介质
CN110991455B (zh) * 2020-02-11 2023-05-05 上海肇观电子科技有限公司 图像文本播报方法及其设备、电子电路和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885826A (zh) * 2017-11-07 2018-04-06 广东欧珀移动通信有限公司 多媒体文件播放方法、装置、存储介质及电子设备
CN108366182A (zh) * 2018-02-13 2018-08-03 京东方科技集团股份有限公司 文字语音同步播报的校准方法及装置、计算机存储介质
CN108874356A (zh) * 2018-05-31 2018-11-23 珠海格力电器股份有限公司 语音播报方法、装置、移动终端和存储介质
CN110277092A (zh) * 2019-06-21 2019-09-24 北京猎户星空科技有限公司 一种语音播报方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
费梦圆 ; 闯跃龙 ; 郭文平 ; .手机拍照阅读系统的设计与实现.信息技术.2017,(02),全文. *

Also Published As

Publication number Publication date
CN110991455A (zh) 2020-04-10
WO2021159729A1 (zh) 2021-08-19
KR102549570B1 (ko) 2023-06-28
EP3866475A1 (en) 2021-08-18
KR20210102832A (ko) 2021-08-20
JP2021129299A (ja) 2021-09-02

Similar Documents

Publication Publication Date Title
CN110991455B (zh) 图像文本播报方法及其设备、电子电路和存储介质
EP3467707A1 (en) System and method for deep learning based hand gesture recognition in first person view
US8937650B2 (en) Systems and methods for performing a triggered action
EP3792818A1 (en) Video processing method and device, and storage medium
US11455491B2 (en) Method and device for training image recognition model, and storage medium
US10592726B2 (en) Manufacturing part identification using computer vision and machine learning
US10452777B2 (en) Display apparatus and character correcting method thereof
CN111163261B (zh) 目标检测方法、电路、视障辅助设备、电子设备和介质
JP2021129299A5 (zh)
KR20140012757A (ko) 시각 장애 사용자들에 의한 이미지 캡처 및 이미지 검토의 촉진
CN111709414A (zh) Ar设备及其文字识别方法、装置和计算机可读存储介质
CN109313532B (zh) 信息处理设备、信息处理方法和程序
EP3640840B1 (en) Tracking method and apparatus for smart glasses, smart glasses and storage medium
CN113780201A (zh) 手部图像的处理方法及装置、设备和介质
US11776286B2 (en) Image text broadcasting
CN110969161B (zh) 图像处理方法、电路、视障辅助设备、电子设备和介质
US10796187B1 (en) Detection of texts
EP3239814B1 (en) Information processing device, information processing method and program
KR20140134844A (ko) 객체 기반 사진 촬영 방법 및 장치
CN111079503B (zh) 一种文字识别方法及电子设备
US10541006B2 (en) Information processor, information processing method, and program
CN111553356A (zh) 字符识别方法及装置、学习设备、计算机可读存储介质
CN111209501B (zh) 一种图片显示方法、装置、电子设备及存储介质
US20240005529A1 (en) Software-based object tracking method and computing device therefor
CN116600198A (zh) 智能眼镜的焦距控制方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant