CN112132762A - 一种数据处理方法、装置和录音设备 - Google Patents
一种数据处理方法、装置和录音设备 Download PDFInfo
- Publication number
- CN112132762A CN112132762A CN202010990376.7A CN202010990376A CN112132762A CN 112132762 A CN112132762 A CN 112132762A CN 202010990376 A CN202010990376 A CN 202010990376A CN 112132762 A CN112132762 A CN 112132762A
- Authority
- CN
- China
- Prior art keywords
- target image
- image
- distorted
- target
- distortion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000013519 translation Methods 0.000 claims description 68
- 230000005540 biological transmission Effects 0.000 claims description 31
- 238000012937 correction Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000003708 edge detection Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G06T5/80—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明实施例提供了一种数据处理方法、装置和录音设备,其中,所述方法包括:录音设备获取目标图像;判断所述目标图像是否发生畸变;确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像;进而便于用户查看与识别目标图像中的信息,提高用户的使用体验。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置和录音设备。
背景技术
近年来,录音设备作为专业领域的产品,发展迅速并进入大众领域。记者、学生、教师等各种群体,通常都需要录音设备进行录音。此外各种电视节目、电影、音乐等录制也需要使用到录音设备。
随着录音设备使用的普遍性,用户对录音设备的功能也逐渐提高;目前录音设备的功能无法满足用户需求,导致用户使用体验差。
发明内容
本发明实施例提供一种数据处理方法,以通过对畸变的图像进行校正,方便用户查看与识别图像中的信息。
相应的,本发明实施例还提供了一种数据处理装置和一种录音设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种数据处理方法,具体包括:录音设备获取目标图像;判断所述目标图像是否发生畸变;确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
可选地,所述判断所述目标图像是否发生畸变,包括:确定所述目标图像的畸变参数信息,并基于所述畸变参数信息确定所述目标图像的畸变程度;判断所述目标图像的畸变程度是否大于预设畸变阈值;若所述目标图像的畸变程度大于预设畸变阈值,则确定所述目标图像发生畸变。
可选地,所述对所述目标图像进行校正,包括:依据所述畸变参数信息,确定对应的校正信息;依据所述校正信息对所述目标图像进行校正。
可选地,所述的方法还包括:对校正后的目标图像进行文本识别,确定所述目标图像对应的文本信息并展示所述文本信息。
可选地,所述的方法还包括:对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
可选地,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
可选地,所述的方法还包括:接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本信息和翻译结果。
可选地,所述的方法还包括:获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本发明实施例还公开了一种数据处理装置,应用于录音设备中,具体包括:图像获取模块,用于获取目标图像;判断模块,用于判断所述目标图像是否发生畸变;校正模块,用于确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
可选地,所述判断模块,用于确定所述目标图像的畸变参数信息,并基于所述畸变参数信息确定所述目标图像的畸变程度;判断所述目标图像的畸变程度是否大于预设畸变阈值;若所述目标图像的畸变程度大于预设畸变阈值,则确定所述目标图像发生畸变。
可选地,所述校正模块,用于依据所述畸变参数信息,确定对应的校正信息;依据所述校正信息对所述目标图像进行校正。
可选地,所述的装置还包括:文本识别模块,用于对校正后的目标图像进行文本识别,确定所述目标图像对应的文本信息并展示所述文本信息。
可选地,所述的装置还包括:翻译模块,用于对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
可选地,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
可选地,所述的装置还包括:数据传输模块,用于接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本信息和翻译结果。
可选地,所述的装置还包括:语音识别模块,用于获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本发明实施例还公开了一种可读存储介质,当所述存储介质中的指令由录音设备的处理器执行时,使得录音设备能够执行如本发明实施例任一所述的数据处理方法。
本发明实施例还公开了一种录音设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取目标图像;判断所述目标图像是否发生畸变;确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
可选地,所述判断所述目标图像是否发生畸变,包括:确定所述目标图像的畸变参数信息,并基于所述畸变参数信息确定所述目标图像的畸变程度;判断所述目标图像的畸变程度是否大于预设畸变阈值;若所述目标图像的畸变程度大于预设畸变阈值,则确定所述目标图像发生畸变。
可选地,所述对所述目标图像进行校正,包括:依据所述畸变参数信息,确定对应的校正信息;依据所述校正信息对所述目标图像进行校正。
可选地,还包含用于进行以下操作的指令:对校正后的目标图像进行文本识别,确定所述目标图像对应的文本信息并展示所述文本信息。
可选地,还包含用于进行以下操作的指令:对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
可选地,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
可选地,还包含用于进行以下操作的指令:接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本信息和翻译结果。
可选地,还包含用于进行以下操作的指令:获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本发明实施例包括以下优点:
本发明实施例中,录音设备获取目标图像后,可以判断所述目标图像是否发生畸变;确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像;进而便于用户查看与识别目标图像中的信息,提高用户的使用体验。
附图说明
图1是本发明的一种数据处理方法实施例的步骤流程图;
图2是本发明的一种数据处理方法可选实施例的步骤流程图;
图3是本发明的另一种数据处理方法实施例的步骤流程图;
图4是本发明的又一种数据处理方法实施例的步骤流程图;
图5是本发明的再一种数据处理方法实施例的步骤流程图;
图6是本发明的一种数据处理装置实施例的结构框图;
图7是本发明的一种数据处理装置可选实施例的结构框图;
图8根据一示例性实施例示出的一种用于数据处理的录音设备的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供的一种数据处理方法,应用于录音设备中,所述录音设备可以是指具有录音功能的设备,如录音笔、翻译设备如翻译笔、翻译机等等;本发明实施例对此不作限制。
本发明实施例中,可以在所述录音设备中设置图像采集模块,以在录音设备中增加图像采集功能;进而使得用户可以使用录音设备进行图像采集。所述录音设备中还设置有显示组件,所述显示组件可以包括显示屏,可以用于信息显示。
当一个平面物体扭曲成空间曲面后,其对应的图像就会发生畸变。例如,纸质材料如书籍,展开时不是平整的,而是有一定的弯曲变形;此时拍摄出来的纸质材料的图像就会发生变形,对应的,纸质材料图像中的信息(如文本信息)也随之变形,不利于用户查看与识别。
进而本发明实施例提供了一种数据处理方法,其核心构思之一在于,在确定图像发生畸变时,先对图像进行校正后再展示,便于用户查看与识别图像中的信息。
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102、录音设备获取目标图像。
本发明实施例中,用户可以在录音设备中执行图像采集操作,对应的,录音设备可以接收到图像采集指令,然后可以调用其中设置的图像采集模块进行图像采集,获取目标图像。当然,用户也可以从录音设备存储的图像中,选取需要查看的图像,作为目标图像。
其中,录音设备中存储的目标图像,可以是预先由录音设备调用其中设置的图像采集模块采集并存储的;也可以是由其他设备发送给录音设备后,录音设备存储的,本发明对此也不作限制。所述其他设备可以是指除录音设备之外的设备。
步骤104、判断所述目标图像是否发生畸变。
在获取目标图像后,录音设备可以对目标图像进行分析,判断目标图像是否发生畸变。其中,当目标图像中各像元的几何位置、尺寸、形状、方位等,相对于理想图像发生改变时,均可以认为目标图像发生了畸变。像元,亦称像素点或像元点即影像单元(pictureelement),是组成数字化影像的最小单元。其中,所述理想图像可以是指目标图像中的对象是平面物体时,录音设备获取的该对象的图像。
步骤106、确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
当确定所述目标图像发生畸变时,可以对目标图像进行校正,然后在显示屏中展示校正后的目标图像,便于用户查看与识别目标图像中的信息。
当确定所述目标图像未发生畸变时,可以直接对目标图像进行展示。
其中,本发明实施例中,可以是由录音设备执行步骤102-步骤106;也可以是由录音设备执行步骤102后,将目标图像发送至服务器,由服务器执行步骤104-步骤106;然后再将校正后的目标图像返回给录音设备,由录音设备对校正后的目标图像进行展示;本发明实施例对此不作限制。
综上,本发明实施例中,录音设备获取目标图像后,可以判断所述目标图像是否发生畸变;确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像;进而便于用户查看与识别目标图像中的信息,提高用户的使用体验。
以下对如何判断目标图像是否发生畸变,以及如何对发生畸变的目标图像进行校正进行说明。
参照图2,示出了本发明的一种数据处理方法可选实施例的步骤流程图,具体可以包括如下步骤:
步骤202、录音设备获取目标图像。
本发明实施例中,目标图像可以是在录音设备在录制音频数据的过程中,调用其中设置的图像采集模块采集的;也可以是独立于录音设备的录音过程,调用其中设置的图像采集模块采集的,本发明实施例对此不作限制。
步骤204、确定所述目标图像的畸变参数信息,并基于所述畸变参数信息确定所述目标图像的畸变程度。
步骤206、判断所述目标图像的畸变程度是否大于预设畸变阈值。
本发明实施例中,可以对目标图像进行边缘检测,确定所述目标图像的畸变程度。一个示例中,可以对目标图像进行边缘检测,检测目标对象的边缘;其中,目标对象可以是指包含有文本的对象。例如,目标图像为显示屏图像,目标图像中的目标对象可以是指其他设备的显示屏,对目标图像进行边缘检测,检测显示屏的边缘。又例如,目标图像为纸质文件图像时,对目标图像进行边缘检测,检测纸质文件的边缘。然后通过对目标对象的边缘进行分析,确定目标对象的边缘所对应的畸变参数信息。其中,所述畸变参数信息可以包括几何位置变化信息、尺寸变化信息、形状变化信息、方位变化信息等。然后基于目标对象的边缘所对应的畸变参数信息进行计算,确定为目标图像的畸变程度。
由于当目标图像发生较细微的畸变时,对用户查看与识别目标图像中信息影响较小;而当目标图像发生较大的畸变时,对用户查看与识别目标图像中信息影响较大。因此本发明实施例可以预先设置预设畸变阈值,通过将目标图像的畸变程度与预设畸变阈值比对,来判断目标图像是否发生较大畸变。其中,可以判断所述目标图像的畸变程度是否大于预设畸变阈值;当所述目标图像的畸变程度不大于预设畸变阈值时,可以确定目标图像发生了细微畸变,此时可以认为目标图像未发生畸变,可以执行步骤214。当所述目标图像的畸变程度大于预设畸变阈值时,可以认为目标图像发生了畸变,可以对目标图像进行校正;可以参照步骤208-步骤210:
步骤208、依据所述畸变参数信息,确定对应的校正信息。
步骤210、依据所述校正信息对所述目标图像进行校正。
本发明的一个示例中,可以获取预设的畸变校正算法,采用畸变校正算法对畸变校正参数进行计算,确定对应的校正信息。
本发明的又一个示例中,可以预先训练畸变校正模型,然后将所述畸变参数信息输入至训练后的畸变校正模型中,由畸变校正模型对所述畸变参数信息进行处理,输出对应的校正信息。
再根据确定的校正信息,对目标图像进行校正。
步骤212、展示校正后的目标图像。
步骤214、展示目标图像。
综上,本发明实施例中,若所述目标图像的畸变程度不大于预设畸变阈值,则确定所述目标图像未发生畸变,此时可以直接展示目标图像;由于当图像畸变较小时,对用户查看和识别图像中的信息的影响不大,因此当所述目标图像的畸变程度不大于预设畸变阈值时,可以直接展示目标图像,不仅能够节约计算资源,还可以快速的展示目标图像。
很多情况下,用户获取图像后,需要对图像进行文本识别,以获取图像中的文本信息。因此,本发明实施例还在录音设备中增加了图像的文本识别功能,以满足用户的使用需求,提高用户体验。
参照图3,示出了本发明的另一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤302、录音设备获取目标图像。
步骤304、判断所述目标图像是否发生畸变。
步骤306、确定所述目标图像发生畸变时,对所述目标图像进行校正。
本发明实施例中,对目标图像进行校正后,一方面可以执行步骤308,识别校正后的目标图像中的文本信息;另一方面可以执行步骤310,展示校正后的目标图像。
步骤308、对校正后的目标图像进行文本识别,确定所述目标图像对应的文本信息。
其中,可以采用OCR(Optical Character Recognition,光学字符识别)识别技术,对校正后的目标图像进行文本识别,确定对应的文本信息。
步骤310、展示校正后的目标图像。
步骤312、展示所述文本信息。
在识别出校正后的目标图像中的文本信息后,也可以对该文本信息进行展示。
进而可以在展示校正后的目标图像的同时,对校正后的目标图像的文本信息进行展示;便于用户对目标图像的文本信息进行利用。
综上,本发明实施例中,在对所述目标图像进行校正后,一方面可以展示校正后的目标图像,另一方面可以对校正后的目标图像进行文本识别,确定所述目标图像对应的文本信息并展示所述文本信息;进而满足用户对图像进行文本识别的需求,便于用户利用目标图像中的信息。
其次,本发明实施例中,可以对所述校正后的目标图像进行文本识别,确定目标图像中的文本信息;相对于直接对发生畸变的目标图像进行文本识别而言,文本识别的准确性更高。
本发明实施例中,当目标图像中的文本信息所对应的语种,不是用户所熟练掌握的语种时,还可以对图像中的文本信息进行翻译,将该文本信息翻译为用户熟练掌握的语种对应的文本信息,便于用户理解。
参照图4,示出了本发明的又一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤402、录音设备获取目标图像。
步骤404、判断所述目标图像是否发生畸变。
步骤406、确定所述目标图像发生畸变时,对所述目标图像进行校正。
步骤408、对所述校正后的目标图像进行文本识别,确定所述文本识别区域对应的文本信息。
其中,步骤402-步骤408,与上述步骤302-步骤308类似。
步骤410、对所述文本信息进行翻译,得到对应的翻译结果。
步骤412、展示校正后的目标图像。
步骤414、展示所述文本信息。
步骤416、展示所述翻译结果。
在识别得到文本信息后,可以对文本信息进行翻译,确定对应的翻译结果。其中,可以确定目标语言,然后对文本信息进行翻译,得到目标语言对应的翻译结果。其中,所述目标语言可以是用户熟练掌握的语言。
本发明的一个可选实施例中,可以仅展示翻译结果,不展示文本信息;也可以同时展示翻译结果和文本信息;本发明实施例对此不作限制。
本发明的一个可选实施例中,所述翻译结果可以是图片翻译结果。其中,可以对所述文本信息进行翻译,确定对应的翻译文本信息后,基于所述翻译文本信息,生成图片翻译结果。其中,可以将目标图像与翻译文本信息进行合成,生成图片翻译结果。例如,可以将翻译文本信息,覆盖在目标图像中与该翻译文本信息对应的文本信息之上;又例如,可以将翻译文本信息,添加在目标图像中,与该翻译文本信息对应文本信息的关联位置;进而便于用户对照查看。例如,当目标图像是演示文稿的图像时,可以将每行文本对应的翻译文本信息,添加在该行文本与下一行/上一行文本之间的位置。例如,当目标图像是菜单的图像时,可以将翻译菜名,覆盖在目标图像中该翻译菜名对应的菜名之上。当然,也可以采用翻译文本信息,按照目标图像中文本的排版方式,生成一张新的图片,作为图片翻译结果。
本发明实施例中,所述翻译结果还可以是文本翻译结果;即可以直接将翻译文本信息作为文本翻译结果。当翻译结果是文本翻译结果时,若同时展示翻译结果和文本信息,则可以将翻译结果和文本信息进行对照展示。
本发明的一个可选实施例中,所述的方法还包括:接收传输指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应数据包括以下至少一种:目标图像、文本信息和翻译结果。进而用户能够将目标图像、目标图像的文本信息,以及目标图像的翻译结果中的一种或多种,分享至其他设备中;便于用户在其他设备中使用将目标图像、目标图像的文本信息,以及目标图像的翻译结果。所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;本发明实施例对此不作限制。
本发明的一个可选实施例中,当目标图像是在录音设备在录制目标音频数据过程中采集时,可以将目标图像与目标音频数据关联;实现将从多个维度记录数据的关联,便于用户后续同时使用记录的多个维度的数据,提高了用户体验。
以下对如何在录制音频数据过程中,采集图像数据,以及如何将图像数据与音频数据关联进行说明。
在录音设备在录音过程中,接收图像采集指令。
本发明实施例中,当用户需要录音时,可以开启录音设备的录音功能,采用录音设备进行录音。在录音过程中,用户在需要记录其它维度的数据如图像资料,例如印刷资料、投屏图像等时,可以执行图像采集操作。待用户执行图像采集操作后,对应的录音设备可以接收到该图像采集操作对应的图像采集指令。
本发明的一个示例中,用户可以在录音设备中执行图像采集操作,对应的,可以录音设备可以根据接收到用户执行的图像采集操作,生成图像采集指令。
本发明的一个示例中,当录音设备与其它设备连接时,用户也可以在其他设备的与该录音设备对应的应用程序中,执行图像采集设备。此时,可以由其他设备根据用户的图像采集操作,生成图像采集指令;然后将图像采集指令发送给录音设备。
依据所述图像采集指令进行图像采集。
然后录音设备可以根据图像采集指令,调用图像采集模块进行图像采集,得到图像数据。
在录音过程中,用户可以执行多次图像采集操作,对应的,录音设备可以接收到多次图像采集指令。录音设备可以在每接收到一次图像采集指令时,进行一次图像采集,得到对应的图像帧。
将采集得到的图像数据与录音得到的音频数据进行关联并存储。
本发明实施例中,为了便于用户后续同时使用记录的多个维度的数据,在采集得到图像数据后,可以将采集得到的图像数据与录音得到的音频数据进行关联,并存储在录音设备中。其中,可以基于采集得到的图像数据的时间和录音得到的音频数据对应的时间,将图像数据和音频数据进行关联,本发明实施例对此不作限制。
一个示例中,录音设备可以在每采集一个图像帧后,将该图像帧与录音过程中得到的与该图像帧对应的音频帧进行关联;进而实现将采集得到的图像数据与录音得到的音频数据进行关联。另一个示例中,录音设备可以将在每采集一个图像帧后存储在图像帧;并在录音结束后,将图像数据的每个图像帧与录音得到的音频数据中对应的音频帧进行关联。
其中,将每个图像帧与对应音频帧进行关联的方式可以如下:针对所述图像数据中的目标图像帧,确定所述目标图像帧对应的目标时间戳;确定所述音频数据中时间戳与所述目标时间戳相同的目标音频帧;将所述目标图像帧和目标音频帧进行关联。
其中,若录音设备是在每采集一个图像帧后,将该图像帧与录音过程中得到的与该图像帧对应的音频帧进行关联,则可以将每次采集的一个图像帧作为目标图像帧。若录音设备是在录音结束后,将图像数据的每个图像帧与录音得到的音频数据中对应的音频帧进行关联,则每次可以任意从图像数据中选取一图像帧作为目标图像帧,直到将图像数据中所有的图像帧与音频数据中对应的音频帧关联为止。
本发明实施例中,针对一个目标图像帧,可以确定所述目标图像帧对应的目标时间戳,并从录音得到的音频数据中时间戳与所述目标时间戳相同的目标音频帧;然后将所述目标图像帧和目标音频帧进行关联。
进而当用户需要对目标音频数据进行语音识别时,可以结合该目标图像数据对该目标音频数据进行语音识别;从而通过结合与目标音频数据关联的信息,对所述目标音频数据进行语音识别,来提高语音识别的准确率。
参照图5、示出了本发明的再一种数据处理方法实施例的步骤流程图。
步骤502、录音设备获取目标图像。
步骤504、判断所述目标图像是否发生畸变。
步骤506、确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
步骤508、对校正后的目标图像进行文本识别,确定所述目标图像对应的文本信息并展示所述文本信息。
步骤510、获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的。
步骤512、依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本发明实施例中,可以在录音设备录制目标音频数据的过程中,实时的对目标音频数据进行语音识别。其中,在录制目标音频数据的过程中,若录音设备获取到调用其中的图像采集模块采集的目标图像后,可以依据对目标图像的文本识别区域识别出的文本信息,对在采集目标图像之后录制的目标音频数据进行语音识别,确定对应的语音识别结果。
本发明实施例中,也可以是在录音设备录制目标音频数据后,对目标音频数据(即非实时的目标音频数据)进行语音识别。其中,可以依据在录制目标音频数据过程中,调用其中的图像采集模块采集的所有目标图像对应文本识别区域识的文本信息,对目标音频数据进行语音识别,确定对应的语音识别结果;本发明实施例对此不作限制。
其中,可以将该文本信息利用到对目标音频数据的语音识别过程中,来提高对目标音频数据的语音识别的准确率。
当然,本发明实施例中,还可以接收针对目标音频数据和/或语音识别结果的传输指令,将所述目标音频数据和/或语音识别结果传输至其他设备中;本发明实施例对此不作限制。
综上,本发明实施例中,在可以获取目标音频数据;然后依据目标图像的文本信息,对所述目标音频数据进行语音识别,确定对应的语音识别结果;其中,所述目标图像是录音设备在录制目标音频数据过程中采集的,且所述目标音频数据与所述目标图像关联,进而通过结合与目标音频数据关联的信息,对所述目标音频数据进行语音识别,来提高语音识别的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明实施例还提供了一种数据处理装置,应用于录音设备中。
参照图6,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括如下模块:
图像获取模块602,用于获取目标图像;
判断模块604,用于判断所述目标图像是否发生畸变;
校正模块606,用于确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
参照图7,示出了本发明的一种数据处理装置可选实施例的结构框图。
本发明一个可选的实施例中,所述判断模块604,用于确定所述目标图像的畸变参数信息,并基于所述畸变参数信息确定所述目标图像的畸变程度;判断所述目标图像的畸变程度是否大于预设畸变阈值;若所述目标图像的畸变程度大于预设畸变阈值,则确定所述目标图像发生畸变。
本发明一个可选的实施例中,所述校正模块606,用于依据所述畸变参数信息,确定对应的校正信息;依据所述校正信息对所述目标图像进行校正。
本发明一个可选的实施例中,所述的装置还包括:
文本识别模块608,用于对校正后的目标图像进行文本识别,确定所述目标图像对应的文本信息并展示所述文本信息。
本发明一个可选的实施例中,所述的装置还包括:
翻译模块610,用于对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
本发明一个可选的实施例中,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
本发明一个可选的实施例中,所述的装置还包括:
数据传输模块612,用于接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本信息和翻译结果。
本发明一个可选的实施例中,所述的装置还包括:
语音识别模块614,用于获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
综上,本发明实施例中,录音设备获取目标图像后,可以判断所述目标图像是否发生畸变;确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像;进而便于用户查看与识别目标图像中的信息,提高用户的使用体验。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图8是根据一示例性实施例示出的一种用于数据处理的录音设备800的结构框图。例如,录音设备800可以是录音笔、翻译笔、翻译机等。
参照图8,录音设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制录音设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在录音设备800的操作。这些数据的示例包括用于在录音设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为录音设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为录音设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述录音设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当录音设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当录音设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为录音设备800提供各个方面的状态评估。例如,传感器组件814可以检测到录音设备800的打开/关闭状态,组件的相对定位,例如所述组件为录音设备800的显示器和小键盘,传感器组件814还可以检测录音设备800或录音设备800一个组件的位置改变,用户与录音设备800接触的存在或不存在,录音设备800方位或加速/减速和录音设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于录音设备800和其他设备之间有线或无线方式的通信。录音设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件814经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件814还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,录音设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由录音设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由录音设备的处理器执行时,使得录音设备能够执行一种数据处理方法,所述方法包括:录音设备获取目标图像;判断所述目标图像是否发生畸变;确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
可选地,所述判断所述目标图像是否发生畸变,包括:确定所述目标图像的畸变参数信息,并基于所述畸变参数信息确定所述目标图像的畸变程度;判断所述目标图像的畸变程度是否大于预设畸变阈值;若所述目标图像的畸变程度大于预设畸变阈值,则确定所述目标图像发生畸变。
可选地,所述对所述目标图像进行校正,包括:依据所述畸变参数信息,确定对应的校正信息;依据所述校正信息对所述目标图像进行校正。
可选地,所述的方法还包括:对校正后的目标图像进行文本识别,确定所述目标图像对应的文本信息并展示所述文本信息。
可选地,所述的方法还包括:对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
可选地,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
可选地,所述的方法还包括:接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本信息和翻译结果。
可选地,所述的方法还包括:获取目标音频数据,所述目标音频数据与所述目标图像关联,所述目标图像是录音设备在录制目标音频数据过程中采集的;依据所述文本信息对所述目标音频数据进行语音识别,确定对应语音识别结果。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种录音设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
录音设备获取目标图像;
判断所述目标图像是否发生畸变;
确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
2.根据权利要求1所述的方法,其特征在于,所述判断所述目标图像是否发生畸变,包括:
确定所述目标图像的畸变参数信息,并基于所述畸变参数信息确定所述目标图像的畸变程度;
判断所述目标图像的畸变程度是否大于预设畸变阈值;
若所述目标图像的畸变程度大于预设畸变阈值,则确定所述目标图像发生畸变。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标图像进行校正,包括:
依据所述畸变参数信息,确定对应的校正信息;
依据所述校正信息对所述目标图像进行校正。
4.根据权利要求1所述的方法,其特征在于,所述的方法还包括:
对校正后的目标图像进行文本识别,确定所述目标图像对应的文本信息并展示所述文本信息。
5.根据权利要求4所述的方法,其特征在于,所述的方法还包括:
对所述文本信息进行翻译,得到对应的翻译结果并展示所述翻译结果。
6.根据权利要求5所述的方法,其特征在于,所述翻译结果包括:图片翻译结果和/或文本翻译结果。
7.根据权利要求5所述的方法,其特征在于,所述的方法还包括:
接收传输指令,所述传输指令包括以下至少一种:分享指令、转发指令和转存指令;
将所述传输指令对应的数据,传输至其他设备;所述传输指令对应的数据包括以下至少一种:目标图像、文本信息和翻译结果。
8.一种数据处理装置,其特征在于,应用于录音设备中,包括:
图像获取模块,用于获取目标图像;
判断模块,用于判断所述目标图像是否发生畸变;
校正模块,用于确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
9.一种录音设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取目标图像;
判断所述目标图像是否发生畸变;
确定所述目标图像发生畸变时,对所述目标图像进行校正并展示校正后的目标图像。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由录音设备的处理器执行时,使得录音设备能够执行如方法权利要求1-7任一所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010990376.7A CN112132762A (zh) | 2020-09-18 | 2020-09-18 | 一种数据处理方法、装置和录音设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010990376.7A CN112132762A (zh) | 2020-09-18 | 2020-09-18 | 一种数据处理方法、装置和录音设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112132762A true CN112132762A (zh) | 2020-12-25 |
Family
ID=73841849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010990376.7A Pending CN112132762A (zh) | 2020-09-18 | 2020-09-18 | 一种数据处理方法、装置和录音设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112132762A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222862A (zh) * | 2021-06-04 | 2021-08-06 | 黑芝麻智能科技(上海)有限公司 | 图像畸变校正方法、装置、电子设备和存储介质 |
-
2020
- 2020-09-18 CN CN202010990376.7A patent/CN112132762A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222862A (zh) * | 2021-06-04 | 2021-08-06 | 黑芝麻智能科技(上海)有限公司 | 图像畸变校正方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10728196B2 (en) | Method and storage medium for voice communication | |
US10452890B2 (en) | Fingerprint template input method, device and medium | |
JP2018500611A (ja) | 画像の処理方法及び装置 | |
CN105426094B (zh) | 信息粘贴方法及装置 | |
CN107423386B (zh) | 生成电子卡片的方法及装置 | |
EP3147802B1 (en) | Method and apparatus for processing information | |
CN106126025B (zh) | 复制粘贴的交互方法及装置 | |
CN114240882A (zh) | 缺陷检测方法及装置、电子设备和存储介质 | |
CN112291631A (zh) | 信息获取方法、装置、终端及存储介质 | |
CN107493366B (zh) | 通讯录信息更新方法、装置及存储介质 | |
CN106331328B (zh) | 信息提示的方法及装置 | |
CN110852163A (zh) | 绑定方法及装置 | |
CN112087653A (zh) | 一种数据处理方法、装置和电子设备 | |
CN107222576B (zh) | 相册同步方法及装置 | |
CN107179837B (zh) | 输入方法及装置 | |
CN112132762A (zh) | 一种数据处理方法、装置和录音设备 | |
CN105260088B (zh) | 信息分类展示处理的方法及装置 | |
CN112396675A (zh) | 图像处理方法、装置及存储介质 | |
CN107967233B (zh) | 电子作品显示方法和装置 | |
CN107832112B (zh) | 壁纸设置方法及装置 | |
CN106126104B (zh) | 键盘模拟方法和装置 | |
CN111814797A (zh) | 图片文字识别方法、装置及计算机可读存储介质 | |
CN107315590B (zh) | 通知消息处理方法及装置 | |
CN106484261B (zh) | 信息获取方法和装置、信息发送方法和装置、以及终端 | |
CN112115944A (zh) | 一种数据处理方法、装置和录音设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |