CN112132003A - 一种数据处理方法、装置和录音设备 - Google Patents

一种数据处理方法、装置和录音设备 Download PDF

Info

Publication number
CN112132003A
CN112132003A CN202010988733.6A CN202010988733A CN112132003A CN 112132003 A CN112132003 A CN 112132003A CN 202010988733 A CN202010988733 A CN 202010988733A CN 112132003 A CN112132003 A CN 112132003A
Authority
CN
China
Prior art keywords
text recognition
target image
recognition area
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010988733.6A
Other languages
English (en)
Inventor
崔文华
路呈璋
李健涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202010988733.6A priority Critical patent/CN112132003A/zh
Publication of CN112132003A publication Critical patent/CN112132003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置和录音设备,其中,所述方法包括:录音设备获取目标图像;确定所述目标图像中有效的文本识别区域并展示所述文本识别区域;进而去除目标图像中背景对用户获取图像数据中的有效内容的影响,便于用户获取获取图像数据中的有效内容。

Description

一种数据处理方法、装置和录音设备
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置和录音设备。
背景技术
近年来,录音设备作为专业领域的产品,发展迅速并进入大众领域。记者、学生、教师等各种群体,通常都需要录音设备进行录音。此外各种电视节目、电影、音乐等录制也需要使用到录音设备。
随着录音设备使用的普遍性,用户对录音设备的功能也逐渐提高;目前录音设备的功能无法满足用户需求,导致用户使用体验差。
发明内容
本发明实施例提供一种数据处理方法,以便于用户获取图像中的有效内容。
相应的,本发明实施例还提供了一种数据处理装置和一种录音设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种数据处理方法,具体包括:录音设备获取目标图像;确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
可选地,所述确定所述目标图像中有效的文本识别区域,包括:对所述目标图像进行边缘检测,确定所述目标图像中有效的文本识别区域。
可选地,所述的方法还包括:依据所述文本识别区域的位置信息,从所述目标图像中裁剪出所述文本识别区域。
可选地,所述展示所述文本识别区域,包括:全屏展示所述文本识别区域。
可选地,所述的方法还包括:对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息并展示所述文本信息。
可选地,所述的方法还包括:对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
可选地,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
可选地,所述的方法还包括:接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本识别区域、文本信息和翻译结果。
可选地,所述的方法还包括:获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本发明实施例还公开了一种数据处理装置,应用于录音设备中,具体包括:图像获取模块,用于获取目标图像;展示模块,用于确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
可选地,所述展示模块,包括:区域确定子模块,用于对所述目标图像进行边缘检测,确定所述目标图像中有效的文本识别区域。
可选地,所述的装置还包括:裁剪模块,用于依据所述文本识别区域的位置信息,从所述目标图像中裁剪出所述文本识别区域。
可选地,所述展示模块,包括:区域展示子模块,用于全屏展示所述文本识别区域。
可选地,所述的装置还包括:文本识别模块,用于对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息并展示所述文本信息。
可选地,所述的装置还包括:翻译模块,用于对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
可选地,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
可选地,所述的装置还包括:数据传输模块,用于接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本识别区域、文本信息和翻译结果。
可选地,所述的装置还包括:
语音识别模块,用于获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本发明实施例还公开了一种可读存储介质,当所述存储介质中的指令由录音设备的处理器执行时,使得录音设备能够执行如本发明实施例任一所述的数据处理方法。
本发明实施例还公开了一种录音设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取目标图像;确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
可选地,所述确定所述目标图像中有效的文本识别区域,包括:对所述目标图像进行边缘检测,确定所述目标图像中有效的文本识别区域。
可选地,所述的录音设备还包括:依据所述文本识别区域的位置信息,从所述目标图像中裁剪出所述文本识别区域。
可选地,所述展示所述文本识别区域,包括:全屏展示所述文本识别区域。
可选地,还包含用于进行以下操作的指令:对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息并展示所述文本信息。
可选地,还包含用于进行以下操作的指令:对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
可选地,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
可选地,还包含用于进行以下操作的指令:接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本识别区域、文本信息和翻译结果。
可选地,还包含用于进行以下操作的指令:获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本发明实施例包括以下优点:
本发明实施例中,录音设备获取目标图像后,可以确定所述目标图像中有效的文本识别区域并展示所述文本识别区域,进而去除目标图像中背景对用户获取图像数据中的有效内容的影响,便于用户获取获取图像数据中的有效内容。
附图说明
图1是本发明的一种数据处理方法实施例的步骤流程图;
图2是本发明的一种数据处理方法可选实施例的步骤流程图;
图3是本发明的另一种数据处理方法实施例的步骤流程图;
图4是本发明的又一种数据处理方法实施例的步骤流程图;
图5是本发明的再一种数据处理方法实施例的步骤流程图;
图6是本发明的一种数据处理装置实施例的结构框图;
图7是本发明的一种数据处理装置可选实施例的结构框图;
图8根据一示例性实施例示出的一种用于数据处理的录音设备的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供的一种数据处理方法,应用于录音设备中,所述录音设备可以是指具有录音功能的设备,如录音笔、翻译设备如翻译笔、翻译机等等;本发明实施例对此不作限制。
本发明实施例中,可以在所述录音设备中设置图像采集模块,以在录音设备中增加图像采集功能;进而使得用户可以使用录音设备进行图像采集。所述录音设备中还设置有显示组件,所述显示组件可以包括显示屏,可以用于信息显示。
很多场景下采集的图像中均包含了背景,如拍摄显示屏中展示的内容时,拍摄的图像中包括显示屏的背景;拍摄纸质材料中的内容时,拍摄的图像中包括纸质材料的背景;这会使图像中有效内容所占的区域缩小,从而影响用户获取图像中的有效内容。
进而本发明实施例提供了一种数据处理方法,其核心构思之一在于,在展示图像时,展示图像中有效的文本识别区域,便于用户获取图像中的有效内容。
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102、录音设备获取目标图像。
本发明实施例中,用户可以在录音设备中执行图像采集操作,对应的,录音设备可以接收到图像采集指令,然后可以调用其中设置的图像采集模块进行图像采集,获取目标图像。当然,用户也可以从录音设备存储的图像中,选取需要查看的图像,作为目标图像。
其中,录音设备中存储的目标图像,可以是预先由录音设备调用其中设置的图像采集模块采集并存储的;也可以是由其他设备发送给录音设备后,录音设备存储的,本发明对此也不作限制。所述其他设备可以是指除录音设备之外的设备。
步骤104、确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
在获取目标图像后,录音设备可以对目标图像进行分析,识别出目标图像中有效的文本识别区域;然后在显示屏中对该有效的文本识别区域进行展示,进而去除目标图像中背景对用户获取图像数据中的有效内容的影响,便于用户获取获取图像数据中的有效内容。
其中,本发明实施例中,可以是由录音设备执行步骤102-步骤104;也可以是由录音设备执行步骤102后,将目标图像发送至服务器,由服务器执行步骤104中确定所述目标图像中有效的文本识别区域;然后有效的文本识别区域返回给录音设备,由录音设备展示服务器返回的文本识别区域;本发明实施例对此不作限制。
综上,本发明实施例中,录音设备获取目标图像后,可以确定所述目标图像中有效的文本识别区域并展示所述文本识别区域,进而去除目标图像中背景对用户获取图像数据中的有效内容的影响,便于用户获取获取图像数据中的有效内容。
以下对如何确定目标图像中有效的文本识别区域进行说明。
参照图2,示出了本发明的一种数据处理方法可选实施例的步骤流程图。
步骤202、录音设备获取目标图像。
本发明实施例中,目标图像可以是在录音设备在录制音频数据的过程中,调用其中设置的图像采集模块采集的;也可以是独立于录音设备的录音过程,调用其中设置的图像采集模块采集的,本发明实施例对此不作限制。
步骤204、对所述目标图像进行边缘检测,确定所述目标图像中有效的文本识别区域。
本发明实施例中,录音设备可以对目标图像进行边缘检测,检测目标对象的边缘;其中,目标对象可以是指包含有文本的对象。例如,目标图像为显示屏图像,目标图像中的目标对象可以是指其他设备的显示屏,对目标图像进行边缘检测,检测显示屏的边缘。又例如,目标图像为纸质文件图像时,对目标图像进行边缘检测,检测纸质文件的边缘。然后可以基于目标对象的边缘位置信息,确定所述目标图像中有效的文本识别区域;其中,所述文本识别区域可以是一个,也可以是多个。一个示例中,可以将边缘位置信息所包含的区域,确定为所述目标图像中有效的文本识别区域;将边缘位置信息确定为文本识别区域的位置信息。
步骤206、依据所述文本识别区域的位置信息,从所述目标图像中裁剪出所述文本识别区域。
步骤208、全屏展示所述文本识别区域。
本发明实施例中,在识别出有效的文本识别区域后,可以从目标图像中裁剪出该文本识别区域后展示。其中,可以依据该文本区域的位置信息,从目标图像中裁剪出文本识别区域,然后可以全屏展示该文本识别区域;相对于现有技术展示目标图像而言,本发明实施例文本识别区域的展示面积更大,从而更有利于用户获取图像中的有效内容。
本发明实施例中,也可以在预设的展示区域,展示文本识别区域;用户可以执行放大操作,将文本识别区域放大至全屏展示。待用户执行放大操作后,录音设备可以接收到放大指令,然后可以全屏展示所述文本识别区域。
此外,在全屏展示所述文本识别区域后,用户还可以执行放大操作,以进一步放大文本识别区域。在全屏展示所述文本识别区域后,若录音设备接收到放大指令,则可以将文本识别区域放大至超出显示屏的屏幕,即全屏展示文本识别区域中的部分区域。
综上,本发明实施例中,可以依据所述文本识别区域的位置信息,从所述目标图像中裁剪出所述文本识别区域,然后全屏展示所述文本识别区域;进而能够增大文本识别区域的展示面积,更有利于用户获取图像中的有效内容,提高用户体验。
很多情况下,用户获取图像后,需要对图像进行文本识别,以获取图像中的文本信息。因此,本发明实施例还在录音设备中增加了图像的文本识别功能,以满足用户的使用需求,提高用户体验。
参照图3,示出了本发明的另一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤302、录音设备获取目标图像。
步骤304、确定所述目标图像中有效的文本识别区域。
本发明实施例中,录音设备在确定所述目标图像中有效的文本识别区域后,一方面可以执行步骤306,展示该文本识别区域;另一方面可以执行步骤308,对文本识别区域进行文本识别。
步骤306、展示所述文本识别区域。
步骤308、对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息。
步骤310、展示所述文本信息。
其中,可以采用OCR(Optical Character Recognition,光学字符识别)识别技术,对所述文本识别区域进行文本识别,确定对应的文本信息。并在识别出文本识别区域的文本信息后,对该文本信息进行展示。
进而可以在展示文本识别区域的同时,对文本识别区域的文本信息进行展示;便于用户对文本识别区域的文本信息进行利用。
综上,本发明实施例中,在确定所述目标图像中有效的文本识别区域后,一方面可以展示所述文本识别区域,另一方面可以对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息并展示所述文本信息;进而满足用户对图像进行文本识别的需求,便于用户利用文本识别区域中的信息。
其次,本发明实施例中,可以对目标图像中所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息;相对于直接对目标图像进行文本识别而言,文本识别的准确性更高。
本发明实施例中,当目标图像中的文本信息所对应的语种,不是用户所熟练掌握的语种时,还可以对图像中的文本信息进行翻译,将该文本信息翻译为用户熟练掌握的语种对应的翻译结果,便于用户理解。
参照图4,示出了本发明的又一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤402、录音设备获取目标图像。
步骤404、确定所述目标图像中有效的文本识别区域。
步骤406、展示所述文本识别区域。
步骤408、对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息。
步骤410、展示所述文本信息。
其中,步骤402-步骤410,与上述步骤302-步骤310类似,在此不再赘述。
步骤412、对所述文本信息进行翻译,得到对应的翻译结果。
步骤414、展示所述翻译结果。
在识别得到文本信息后,可以对文本信息进行翻译,确定对应的翻译结果。其中,可以确定目标语言,然后可以采用预先训练的翻译模型对文本信息进行翻译,将该文本信息,翻译为目标语言的翻译结果。其中,所述目标语言可以是用户熟练掌握的语言。
本发明的一个可选实施例中,可以仅展示翻译结果,不展示文本信息;也可以同时展示翻译结果和文本信息;本发明实施例对此不作限制。
本发明的一个可选实施例中,所述翻译结果可以是图片翻译结果。其中,可以对所述文本信息进行翻译,得到对应的翻译文本信息后,基于所述翻译文本信息,生成图片翻译结果。其中,可以将目标图像与翻译文本信息进行合成,生成图片翻译结果。例如,可以将翻译文本信息,覆盖在目标图像中与该翻译文本信息对应的文本信息之上;又例如,可以将翻译文本信息,添加在目标图像中,与该翻译文本信息对应文本信息的关联位置;进而便于用户对照查看。例如,当目标图像是演示文稿的图像时,可以将每行文本对应的翻译文本信息,添加在该行文本与下一行/上一行文本之间的位置。例如,当目标图像是菜单的图像时,可以将翻译菜名,覆盖在目标图像中该翻译菜名对应的菜名之上。当然,也可以采用翻译文本信息,按照目标图像中文本的排版方式,生成一张新的图像,作为图片翻译结果。
本发明实施例中,所述翻译结果还可以是文本翻译结果;即可以直接将翻译文本信息作为文本翻译结果。当翻译结果是文本翻译结果时,若同时展示翻译结果和文本信息,则可以将翻译结果和文本信息进行对照展示。
本发明的一个可选实施例中,所述的方法还包括:接收传输指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本识别区域、文本信息和翻译结果。进而用户能够将目标图像、文本识别区域、目标图像的文本信息,以及目标图像的翻译结果中的一种或多种,传输至其他设备中;便于用户在其他设备中使用将目标图像、文本识别区域、目标图像的文本信息,以及目标图像的翻译结果。其中,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;本发明实施例对此不作限制。
本发明的一个可选实施例中,当目标图像是在录音设备在录制目标音频数据过程中采集时,可以将目标图像与目标音频数据关联;实现将从多个维度记录数据的关联,便于用户后续同时使用记录的多个维度的数据,提高了用户体验。
以下对如何在录制音频数据过程中,采集图像数据,以及如何将图像数据与音频数据关联进行说明。
在录音设备在录音过程中,接收图像采集指令。
本发明实施例中,当用户需要录音时,可以开启录音设备的录音功能,采用录音设备进行录音。在录音过程中,用户在需要记录其它维度的数据如图像资料,例如印刷资料、投屏图像等时,可以执行图像采集操作。待用户执行图像采集操作后,对应的录音设备可以接收到该图像采集操作对应的图像采集指令。
本发明的一个示例中,用户可以在录音设备中执行图像采集操作,对应的,可以录音设备可以根据接收到用户执行的图像采集操作,生成图像采集指令。
本发明的一个示例中,当录音设备与其它设备连接时,用户也可以在其他设备的与该录音设备对应的应用程序中,执行图像采集设备。此时,可以由其他设备根据用户的图像采集操作,生成图像采集指令;然后将图像采集指令发送给录音设备。
依据所述图像采集指令进行图像采集。
然后录音设备可以根据图像采集指令,调用图像采集模块进行图像采集,得到图像数据。
在录音过程中,用户可以执行多次图像采集操作,对应的,录音设备可以接收到多次图像采集指令。录音设备可以在每接收到一次图像采集指令时,进行一次图像采集,得到对应的图像帧。
将采集得到的图像数据与录音得到的音频数据进行关联并存储。
本发明实施例中,为了便于用户后续同时使用记录的多个维度的数据,在采集得到图像数据后,可以将采集得到的图像数据与录音得到的音频数据进行关联,并存储在录音设备中。其中,可以基于采集得到的图像数据的时间和录音得到的音频数据对应的时间,将图像数据和音频数据进行关联,本发明实施例对此不作限制。
一个示例中,录音设备可以在每采集一个图像帧后,将该图像帧与录音过程中得到的与该图像帧对应的音频帧进行关联;进而实现将采集得到的图像数据与录音得到的音频数据进行关联。另一个示例中,录音设备可以将在每采集一个图像帧后存储在图像帧;并在录音结束后,将图像数据的每个图像帧与录音得到的音频数据中对应的音频帧进行关联。
其中,将每个图像帧与对应音频帧进行关联的方式可以如下:针对所述图像数据中的目标图像帧,确定所述目标图像帧对应的目标时间戳;确定所述音频数据中时间戳与所述目标时间戳相同的目标音频帧;将所述目标图像帧和目标音频帧进行关联。
其中,若录音设备是在每采集一个图像帧后,将该图像帧与录音过程中得到的与该图像帧对应的音频帧进行关联,则可以将每次采集的一个图像帧作为目标图像帧。若录音设备是在录音结束后,将图像数据的每个图像帧与录音得到的音频数据中对应的音频帧进行关联,则每次可以任意从图像数据中选取一图像帧作为目标图像帧,直到将图像数据中所有的图像帧与音频数据中对应的音频帧关联为止。
本发明实施例中,针对一个目标图像帧,可以确定所述目标图像帧对应的目标时间戳,并从录音得到的音频数据中时间戳与所述目标时间戳相同的目标音频帧;然后将所述目标图像帧和目标音频帧进行关联。
进而当用户需要对目标音频数据进行语音识别时,可以结合该目标图像对应的文本信息对该目标音频数据进行语音识别;从而通过结合与目标音频数据关联的信息,对所述目标音频数据进行语音识别,来提高语音识别的准确率。
参照图5、示出了本发明的再一种数据处理方法实施例的步骤流程图。
步骤502、录音设备获取目标图像。
步骤504、确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
步骤506、对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息并展示所述文本信息。
步骤508、获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的。
步骤510、依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本发明实施例中,可以在录音设备录制目标音频数据的过程中,实时的对目标音频数据进行语音识别。其中,在录制目标音频数据的过程中,若录音设备获取到调用其中的图像采集模块采集的目标图像,则可以依据对目标图像的文本识别区域识别出的文本信息,对在采集目标图像之后录制的目标音频数据进行语音识别,确定对应的语音识别结果。
本发明实施例中,也可以是在录音设备录制目标音频数据后,对目标音频数据(即非实时的目标音频数据)进行语音识别。其中,可以依据在录制目标音频数据过程中,调用其中的图像采集模块采集的所有目标图像对应文本识别区域识的文本信息,对目标音频数据进行语音识别,确定对应的语音识别结果;本发明实施例对此不作限制。
其中,可以将该文本信息利用到对目标音频数据的语音识别过程中,来提高对目标音频数据的语音识别的准确率。
当然,本发明实施例中,还可以接收针对目标音频数据和/或语音识别结果的传输指令,将所述目标音频数据和/或语音识别结果传输至其他设备中;本发明实施例对此不作限制。
综上,本发明实施例中,可以获取目标音频数据;然后依据目标图像的文本信息对所述目标音频数据进行语音识别,确定对应的语音识别识别结果;其中,所述目标图像是录音设备在录制目标音频数据过程中,调用其中设置的图像采集模块采集的,且所述目标音频数据与所述目标图像关联,进而通过结合与目标音频数据关联的信息,对所述目标音频数据进行语音识别,来提高语音识别的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明实施例还提供了一种数据处理装置,应用于录音设备中。
参照图6,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括如下模块:
图像获取模块602,用于获取目标图像;
展示模块604,用于确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
参照图7,示出了本发明的一种数据处理装置可选实施例的结构框图。
本发明一个可选的实施例中,所述展示模块604,包括:
区域确定子模块6042,用于对所述目标图像进行边缘检测,确定所述目标图像中有效的文本识别区域。
本发明一个可选的实施例中,所述的装置还包括:
裁剪模块606,用于依据所述文本识别区域的位置信息,从所述目标图像中裁剪出所述文本识别区域。
本发明一个可选的实施例中,所述展示模块604,包括:
区域展示子模块6044,用于全屏展示所述文本识别区域。
本发明一个可选的实施例中,所述的装置还包括:
文本识别模块608,用于对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息并展示所述文本信息。
本发明一个可选的实施例中,所述的装置还包括:
翻译模块610,用于对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
本发明一个可选的实施例中,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
本发明一个可选的实施例中,所述的装置还包括:
数据传输模块612,用于接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本识别区域、文本信息和翻译结果。
本发明一个可选的实施例中,所述的装置还包括:
语音识别模块614,用于获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
综上,本发明实施例中,录音设备获取目标图像后,可以确定所述目标图像中有效的文本识别区域并展示所述文本识别区域,进而去除目标图像中背景对用户获取图像数据中的有效内容的影响,便于用户获取获取图像数据中的有效内容。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图8是根据一示例性实施例示出的一种用于数据处理的录音设备800的结构框图。例如,录音设备800可以是录音笔、翻译笔、翻译机等。
参照图8,录音设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制录音设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在录音设备800的操作。这些数据的示例包括用于在录音设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为录音设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为录音设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述录音设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当录音设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当录音设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为录音设备800提供各个方面的状态评估。例如,传感器组件814可以检测到录音设备800的打开/关闭状态,组件的相对定位,例如所述组件为录音设备800的显示器和小键盘,传感器组件814还可以检测录音设备800或录音设备800一个组件的位置改变,用户与录音设备800接触的存在或不存在,录音设备800方位或加速/减速和录音设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于录音设备800和其他设备之间有线或无线方式的通信。录音设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件814经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件814还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,录音设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由录音设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由录音设备的处理器执行时,使得录音设备能够执行一种数据处理方法,所述方法包括:录音设备获取目标图像;确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
可选地,所述确定所述目标图像中有效的文本识别区域,包括:对所述目标图像进行边缘检测,确定所述目标图像中有效的文本识别区域。
可选地,所述的方法还包括:依据所述文本识别区域的位置信息,从所述目标图像中裁剪出所述文本识别区域。
可选地,所述展示所述文本识别区域,包括:全屏展示所述文本识别区域。
可选地,所述的方法还包括:对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息并展示所述文本信息。
可选地,所述的方法还包括:对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
可选地,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
可选地,所述的方法还包括:接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本识别区域、文本信息和翻译结果。
可选地,所述的方法还包括:获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种录音设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
录音设备获取目标图像;
确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标图像中有效的文本识别区域,包括:
对所述目标图像进行边缘检测,确定所述目标图像中有效的文本识别区域。
3.根据权利要求1所述的方法,其特征在于,所述的方法还包括:
依据所述文本识别区域的位置信息,从所述目标图像中裁剪出所述文本识别区域。
4.根据权利要求1所述的方法,其特征在于,所述展示所述文本识别区域,包括:
全屏展示所述文本识别区域。
5.根据权利要求1所述的方法,其特征在于,所述的方法还包括:
对所述文本识别区域进行文本识别,确定所述文本识别区域对应的文本信息并展示所述文本信息。
6.根据权利要求5所述的方法,其特征在于,所述的方法还包括:
对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
7.根据权利要求6所述的方法,其特征在于,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
8.一种数据处理装置,其特征在于,应用于录音设备中,包括:
图像获取模块,用于获取目标图像;
展示模块,用于确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
9.一种录音设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取目标图像;
确定所述目标图像中有效的文本识别区域并展示所述文本识别区域。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由录音设备的处理器执行时,使得录音设备能够执行如方法权利要求1-7任一所述的数据处理方法。
CN202010988733.6A 2020-09-18 2020-09-18 一种数据处理方法、装置和录音设备 Pending CN112132003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010988733.6A CN112132003A (zh) 2020-09-18 2020-09-18 一种数据处理方法、装置和录音设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010988733.6A CN112132003A (zh) 2020-09-18 2020-09-18 一种数据处理方法、装置和录音设备

Publications (1)

Publication Number Publication Date
CN112132003A true CN112132003A (zh) 2020-12-25

Family

ID=73843064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010988733.6A Pending CN112132003A (zh) 2020-09-18 2020-09-18 一种数据处理方法、装置和录音设备

Country Status (1)

Country Link
CN (1) CN112132003A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046254A (zh) * 2015-07-17 2015-11-11 腾讯科技(深圳)有限公司 字符识别方法及装置
CN106527945A (zh) * 2016-11-09 2017-03-22 广东小天才科技有限公司 文本信息提取方法及装置
CN106888155A (zh) * 2017-01-21 2017-06-23 上海量明科技发展有限公司 信息采集及共享的方法、客户端及系统
CN108320318A (zh) * 2018-01-15 2018-07-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN108830186A (zh) * 2018-05-28 2018-11-16 腾讯科技(深圳)有限公司 文本图像的内容提取方法、装置、设备及存储介质
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN111126301A (zh) * 2019-12-26 2020-05-08 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备和存储介质
CN111564157A (zh) * 2020-03-18 2020-08-21 浙江省北大信息技术高等研究院 会议记录优化方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046254A (zh) * 2015-07-17 2015-11-11 腾讯科技(深圳)有限公司 字符识别方法及装置
CN106527945A (zh) * 2016-11-09 2017-03-22 广东小天才科技有限公司 文本信息提取方法及装置
CN106888155A (zh) * 2017-01-21 2017-06-23 上海量明科技发展有限公司 信息采集及共享的方法、客户端及系统
CN108320318A (zh) * 2018-01-15 2018-07-24 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN108830186A (zh) * 2018-05-28 2018-11-16 腾讯科技(深圳)有限公司 文本图像的内容提取方法、装置、设备及存储介质
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN111126301A (zh) * 2019-12-26 2020-05-08 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备和存储介质
CN111564157A (zh) * 2020-03-18 2020-08-21 浙江省北大信息技术高等研究院 会议记录优化方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108932253B (zh) 多媒体搜索结果展示方法及装置
CN105845124B (zh) 音频处理方法及装置
CN109413478B (zh) 视频编辑方法、装置、电子设备及存储介质
CN110996121A (zh) 信息处理方法及装置、电子设备和存储介质
EP3147802B1 (en) Method and apparatus for processing information
CN107959864B (zh) 截屏控制方法及装置
CN107423386B (zh) 生成电子卡片的方法及装置
CN106534951B (zh) 视频分割方法和装置
CN112543368A (zh) 视频处理方法、视频播放方法、装置及存储介质
CN113411516B (zh) 视频处理方法、装置、电子设备及存储介质
CN110891191A (zh) 素材选择方法及装置
CN108174269B (zh) 可视化音频播放方法及装置
CN112291631A (zh) 信息获取方法、装置、终端及存储介质
CN111510556B (zh) 通话信息的处理方法、装置及计算机存储介质
CN107493366B (zh) 通讯录信息更新方法、装置及存储介质
CN112532931A (zh) 一种视频处理方法、装置和电子设备
CN106331328B (zh) 信息提示的方法及装置
CN112087653A (zh) 一种数据处理方法、装置和电子设备
CN109756783B (zh) 海报的生成方法及装置
CN111629270A (zh) 一种候选项确定方法、装置及机器可读介质
CN110085066B (zh) 展示阅读信息的方法、装置及电子设备
CN105260088B (zh) 信息分类展示处理的方法及装置
CN112396675A (zh) 图像处理方法、装置及存储介质
WO2023115969A1 (zh) 图像发布方法及装置
CN114464186A (zh) 关键词确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination