CN107885430B - 一种音频播放方法、装置、存储介质及电子设备 - Google Patents

一种音频播放方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN107885430B
CN107885430B CN201711087238.2A CN201711087238A CN107885430B CN 107885430 B CN107885430 B CN 107885430B CN 201711087238 A CN201711087238 A CN 201711087238A CN 107885430 B CN107885430 B CN 107885430B
Authority
CN
China
Prior art keywords
audio
information
image
area
audio information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711087238.2A
Other languages
English (en)
Other versions
CN107885430A (zh
Inventor
王君龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201711087238.2A priority Critical patent/CN107885430B/zh
Publication of CN107885430A publication Critical patent/CN107885430A/zh
Application granted granted Critical
Publication of CN107885430B publication Critical patent/CN107885430B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Abstract

本申请实施例公开了一种音频播放方法、装置、存储介质及电子设备。该音频播放方法,根据文字图像中文字的分布信息,将文字图像划分为多个区域图像,然后获取区域图像中文字信息对应的音频信息、以及区域图像在文字图像内的位置信息,并建立该音频信息与该位置信息之间的映射关系,得到映射关系集合。当接收到针对该区域图像触发的音频播放指令时,根据该映射关系集合播放相应的音频信息。该方案可自动对文字图像进行处理生成音频信息,在批量建立文字图像与音频信息间的对应关系时无需考虑音频信息的顺序,使得制作音频到播放音频的过程更加智能化,同时可降低电子设备的功耗。

Description

一种音频播放方法、装置、存储介质及电子设备
技术领域
本申请涉及电子设备技术领域,尤其涉及一种音频播放方法、装置、存储介质及电子设备。
背景技术
目前,点读设备可以根据点读对象的坐标或者编码等方式,对点读对象进行识别和定位。其中,编码方式为在书本上印刷编码,然后利用点读笔识别编码以确定内容,再根据内容播放对应的音频。坐标方式为利用点读笔点击点读机的位置以确定坐标,确认坐标后结合点读设备当前页面播放对应的音频。即,相关技术中,需要借助点读笔或者点读机来实现点读对象的识别和定位。
发明内容
本申请实施例提供一种音频播放方法、装置、存储介质及电子设备,可以使制作音频的过程更加智能化,同时降低电子设备的功耗。
第一方面,本申请实施例提供一种音频播放方法,应用于电子设备,所述方法包括:
根据文字图像中文字的分布信息,将所述文字图像划分为多个区域图像;
获取所述区域图像中文字信息对应的音频信息、以及所述区域图像在所述文字图像内的位置信息;
建立所述音频信息与所述位置信息之间的映射关系,得到映射关系集合;
当接收到针对所述区域图像触发的音频播放指令时,根据所述映射关系集合播放相应的音频信息。
第二方面,本申请实施例提供了一种音频播放装置,应用于电子设备,所述装置包括:
划分模块,用于根据文字图像中文字的分布信息,将所述文字图像划分为多个区域图像;
获取模块,用于获取所述区域图像中文字信息对应的音频信息、以及所述区域图像在所述文字图像内的位置信息,得到映射关系集合;
关联模块,用于建立所述音频信息与所述位置信息之间的映射关系;
播放模块,用于当接收到针对所述区域图像触发的音频播放指令时,根据所述映射关系集合播放相应的音频信息。
第三方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行上述的音频播放方法。
第四方面,本申请实施例还提供了一种电子设备,包括处理器及存储器,所述处理器与所述存储器电性连接,所述存储器用于存储指令和数据;处理器用于执行上述的音频播放方法。
本申请实施例公开了一种音频播放方法、装置、存储介质及电子设备。该音频播放方法,根据文字图像中文字的分布信息,将文字图像划分为多个区域图像,然后获取区域图像中文字信息对应的音频信息、以及区域图像在文字图像内的位置信息,并建立该音频信息与该位置信息之间的映射关系,得到映射关系集合。当接收到针对该区域图像触发的音频播放指令时,根据该映射关系集合播放相应的音频信息。该方案可自动对文字图像进行处理生成音频信息,在批量建立文字图像与音频信息间的对应关系时无需考虑音频信息的顺序,使得制作音频到播放音频的过程更加智能化,同时可降低电子设备的功耗。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频播放方法的场景架构示意图。
图2是本申请实施例提供的音频播放方法的一种流程示意图。
图3是本申请实施例提供的文字图像划分的过程示意图。
图4是本申请实施例提供的音频播放方法的另一种流程示意图。
图5是本申请实施例提供的文字图像的一种示意图。
图6是本申请实施例提供的音频播放装置的一种结构示意图。
图7是本申请实施例提供的音频播放装置的另一种结构示意图。
图8是本申请实施例提供的音频播放装置的又一种结构示意图。
图9是本申请实施例提供的音频播放装置的再一种结构示意图
图10是本申请实施例提供的电子设备的一种结构示意图。
图11是本申请实施例提供的电子设备的另一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种音频播放方法、装置、存储介质及电子设备。以下将分别进行详细说明。
在一种实施方式中,电子设备可以先获取点读样本,点读样本可以是图片、照片或者编码等。在获取到点读样本之后,电子设备可以获取多媒体样本,多媒体样本可以是音频文件或者视频文件等。然后,电子设备可以将获取到的点读样本和多媒体样本相关联。例如,电子设备将照片A和音频a关联,将照片B和音频b关联,将照片C和视频c关联。在将点读样本和多媒体样本关联之后,电子设备可以将这些样本数据保存在预设数据库中。
可以理解的是,在一些实施方式中,点读样本和多媒体样本之间可以是一一对应的关系,也可以是一对多的关系,或者多对一的关系等等,本实施例对此不做具体限定。
在使用电子设备点读功能时,用户可以先使用移动电子设备拍摄一张照片或者从相册中选取一张照片或者扫描某个编码。用户拍摄得到的照片或者选取的照片或者扫描得到的编码就是需要进行点读的对象。在获取到需要进行点读的对象之后,电子设备可以在预设数据库中查找与该需要进行点读的对象匹配的照片或者编码。若在预设数据库中存在与该需要进行点读的对象匹配的照片或编码,那么电子设备就可以查找与之关联的多媒体文件,并播放该多媒体文件。
在一种实施方式中,例如点读样本为照片A,该照片中包含三段文字,每一段文字都关联了一段音频。那么,当用户拍摄得到的照片与预设数据库中的照片A匹配时,由于照片A中包含有三段文字,且每段文字均关联有对应的一段音频,那么用户可以通过具体选取照片A中的某段文字的方式,选择播放其对应的音频。或者,用户也可以不作具体的选择,那么电子设备可以顺序播放三段文字对应的音频。
可以理解的是,本实施例可以在电子设备上实现对某一对象(如照片)中的文本进行点读的功能,这种方式具有成本低、便捷性好等有益效果。
请参阅图1,图1为本申请实施例提供的音频播放方法的场景架构示意图。
在本实施例中首先要完成的是音频数据库的构建。参考图1,首先需获取大量的文字图像,然后对每一文字图像进行划分,得到多个区域图像,每一区域图像中包含有文字信息。然后对该文字信息进行识别、音频转换,得到多个音频信息,再批量建立音频信息与区域图像之间的映射关系,此时无需考虑音频信息的顺序。基于音频信息、区域图像、映射关系构建音频数据库。在后期应用时,便可基于该音频数据库以及当前所要进行点读播放的文字图像,从该音频数据库中提取到相应的音频信息进行播放。
比如,继续参考图1,用户使用电子设备拍摄得到一张照片X,电子设备在预设数据库中查找到与照片X匹配的为照片A。照片A中包含三段文字,其中第一段文字关联音频甲,第二段文字关联音频乙,第三段文字关联音频丙。例如,如图1所示,用户在屏幕上圈选了第二段文字所在的区域,那么电子设备可以对应播放音频乙。
其中,电子设备可以为移动终端,如手机、平板电脑、笔记本电脑等,本申请实施例对此不进行限定。
在一实施例中,提供一种音频播放方法,应用于电子设备,该电子设备可以为智能手机、平板电脑等移动终端。如图2所示,该音频播放方法的流程可以如下:
101、根据文字图像中文字的分布信息,将文字图像划分为多个区域图像。
本申请实施例中,文字图像为包括中文、英文或其他国文字的图像,对文字的类型(包括国别和版本)不作限定。
具体地,首先要获取待处理的文字图像。本实施例中获取待处理的文字图像的方式可以有多种,比如,可以通过电子设备的摄像头或者其他外接摄像头扫描书本、拍摄书本等方式获取目标文字图像;又比如,可以从电子设备的本地存储区域、或者云端存储的图像库中直接获取目标文字图像。
然后,对获取的文字图像进行预处理,从文字图像中区分出文字部分以确定文字在该文字图像上的位置分布信息。接着依据该分布信息对该文字图像进行划分,将整体上处于同一区域的文字划分到同一区域图像内,从而得到多个区域图像。
其中,具体划分区域图像时,参考图3,可以处于同一区域内文字中最外围文字的外边缘为界限,进行区域划分,以得到多个区域图像。本申请实施例中,所获得的多个区域图像指划分后包括有文字信息的子文字图像。
102、获取区域图像中文字信息对应的音频信息、以及区域图像在文字图像内的位置信息。
其中,获取音频信息和获取位置信息在时序上并无先后之分。本申请实施例中,可以先获取音频信息后获取位置信息,或者先获取位置信息后获取音频信息,或者获取音频信息与获取位置信息同时进行。
在本申请实施例中,所获取的音频信息是直接根据该区域图像中的文字信息生成的,而不是从已有的音频数据库中获取的。也即,步骤“获取区域图像中文字信息对应的音频信息”可以包括以下流程:
识别该区域图像内的文字信息;
对所识别到的文字进行音频转换,以生成相应的音频信息。
在具体实施过程中,可采用OCR(Optical Character Recognition,光学字符识别)技术进行文字信息的识别。识别过程中,首先对文字图像进行预处理,从文字图像中将文字分离处出来,并保持文字的大小及文字的字体不变,以降低特征提取算法的难度,提高识别的精度。然后进行二值化处理,使图像只包含黑色的前景信息和白色的背景信息,提升识别处理的效率和精确度。随后对待识别图像进行去噪处理,提升识别处理的精确度。接着执行文字特征的提取,简易的区分可分为两类:一为统计的特征,如文字区域内的黑/白点数比;而另一类特征为结构的特征,如文字图像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征。最后是对比数据库,输入所提取的文字特征,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组,以作为最终识别到的文字。
将所识别到的文字转换成音频时,首先要有一个训练集,该训练集包括了一些转换好的音频和文字。然后利用训练集,采用特定的算法找到在训练集中最可能的文字组合。通过这样训练,找到合适的模型参数(也就一些特定的算法模型,如贝叶斯分类模型、高斯混合模型等),通过已经训练好的模型参数,找到每一文字对应的语素片,再将这些语素片按规则进行组合,得到最终的音频信息。
而区域图像在文字图像内的位置信息,则可根据该区域图像相对于该文字图像的具体位置而确定。比如,可在该文字图像上建立坐标系,通过坐标来表示区域图像的位置信息。
103、建立音频信息与位置信息之间的映射关系,得到映射关系集合。
具体地,经上述一系列操作后,可以得到多个区域图像,且每一区域图像对应有音频信息以及位置信息。此时,可批量建立相同区域图像对应的音频信息和位置信息之间的映射关系,比如,现有区域图像1,其对应音频信息M和位置信息m;区域图像2,期对应音频信息N和位置信息n;区域图像3,其对应音频信息P和位置信息p,则可同时建立音频信息M与位置信息m之间的映射关系、音频信息N与位置信息n之间的映射关系、以及音频信息P与位置信息p之间的映射关系,然后存储到相应的存储区域中。
以此类推,可构建大量文字图像中各区域图像对应的音频信息与位置信息之间的映射关系。并可将该大量音频信息、位置信息以及该映射关系,以集合或数据库的形式存储在电子设备或云端服务器中,以得到映射关系集合。
104、当接收到针对区域图像触发的音频播放指令时,根据该映射关系集合播放相应的音频信息。
在一些实施方式中,可通过扫描或拍照的方式获取书本上待点读的文字图像,并显示在该电子设备的显示屏上。然后,用户可通过触摸、点击该文字图像上所包含的文字等方式,以触发针对该文字图像中某一区域图像的音频播放指令。响应该指令,确定出该区域图像的位置信息,基于所存储的映射关系、以及该位置信息,从存储的大量音频信息中选中对应的音频信息进行播放。也即,步骤“当接收到针对区域图像触发的音频播放指令时,根据该映射关系播放相应的音频信息”可以包括以下流程:
当接收到针对该区域图像触发的音频播放指令时,获取用户触摸区域图像时的触摸位置;
判断映射关系集合中是否存在与该触摸位置匹配的目标位置信息;
若是,则根据映射关系获取与目标位置信息对应的音频信息;
播放该音频信息。
具体地,判断映射关系集合中是否存在与该触摸位置匹配的目标位置信息也即判断该触摸位置是否落入某一位置信息范围内,若是,则判定该某一位置信息为目标位置信息。
在一些实施方式中,播放音频信息时,可以按照音频播放的节奏,在显示屏中对实时对所播的文字信息进行标记,以向用户展示当前音频播放的具体内容。
由上可知,本申请是实施例提供的音频播放方法,根据文字图像中文字的分布信息,将文字图像划分为多个区域图像,然后获取区域图像中文字信息对应的音频信息、以及区域图像在文字图像内的位置信息,并建立该音频信息与该位置信息之间的映射关系,得到映射关系集合。当接收到针对该区域图像触发的音频播放指令时,根据该映射关系集合播放相应的音频信息。该方案可自动对文字图像进行处理生成音频信息,在批量建立文字图像与音频信息间的对应关系时无需考虑音频信息的顺序,使得制作音频到播放音频的过程更加智能化,同时可降低电子设备的功耗。
在一实施例中,还提供另一种音频播放方法,应用于电子设备,该电子设备可以为智能手机、平板电脑、笔记本电脑等移动终端。如图4所示,流程可以如下:
201、获取文字图像,并确定文字图像中各文字的位置。
本实施例中,可以通过电子设备的摄像头或者其他外接摄像头扫描书本、拍摄书本等方式获取文字图像。然后,对该文字图像进行预处理,通过相关图像处理技术(如OCR)从该文字图像中区分出文字信息,并获取各文字在该文字图像中的位置。
202、根据各相邻文字之间的间距获取文字图像中文字的分布信息。
步骤“根据各相邻文字之间的间距获取文字图像中文字的分布信息”可以包括以下流程:
确定相邻文字间的间隔区域,基于间隔区域获取相邻文字间的间距;
判断间距是否小于预设阈值;
若是,则对相邻文字所在的位置区域、以及间隔区域进行标记;
根据标记的区域以及未被标记的区域,获取文字图像中文字的分布信息。
在一些实施方式中,可以圈点、方框的形式对该间隔区进行标记,如图5所示,将文字间距小于预设阈值的文字所在的位置区域、以及间隔区域进行标记,所标记的部分便形成了区域图像。
203、基于分布信息将该文字图像划分为多个区域图像。
在一些实施例中,可以处于同一区域内文字中最外围文字的外边缘为界限,进行区域划分,以得到多个区域图像。本申请实施例中,所获得的多个区域图像指划分后包括有文字信息的子文字图像。
204、识别区域图像内的文字信息,并对所识别到的文字进行音频转换,以生成相应的音频信息。
具体地,可采用OCR技术识别该文字信息,通过聚类、分割、去噪、池化等一系列操作后,识别出每一区域图像中所包含的文字。然后基于音频转换所需的算法模型以及语素库,提取出每一文字对应的语素片,并将所提取到的语素片对应区域图像中的各文字排版规则进行合成,得到最终的音频信息。
205、获取该区域图像在该文字图像内的位置信息。
本申请实施例中,获取区域图像在该文字图像内的位置信息的方式可以有多种,比如,可根据该区域图像相对于该文字图像的具体位置而确定。在具体实施过程中,可在该文字图像上建立坐标系,通过坐标来表示区域图像的位置信息。又比如,还可以从该文字图像的图像特征中,分离出该区域图像的图像特征、以及该区域图像周围剩余图像的特征,通过不同的图像特征来确定该区域图像在该文字图像内的位置信息。
206、基于预设音频信息对该音频信息进行修正,得到修正后的音频信息,其中,该预设音频信息包括文字图像中所有文字对应的音频。
本实施例中,修正的方式可以有多种,比如,可获取所生成的音频信息与预设音频信息的融合度,若融合度为100%,则无需修正,若存在差异,则从该预设音频信息中截取相应的音频部分替代该音频信息中的差异处音频。
在一些实施例中,该预设音频信息具有明确的断句标识位。获取所生成音频信息的基准数据量,并将其与预设音频信息进行匹配,获取完全匹配的音频数据量。若完全匹配的音频数据量小于该基准数据量,则根据预设音频信息中的标识位从预设音频信息中截取相应部分的音频信息替换所生成的音频信息。
207、建立修正后的音频信息与该位置信息之间的映射关系。
具体地,经上述一系列操作后,可以得到多个区域图像,且每一区域图像对应有音频信息以及位置信息。此时,可批量建立相同区域图像对应的音频信息和位置信息之间的映射关系,然后存储到相应的存储区域中。并可将该大量音频信息、位置信息以及该映射关系,以集合或数据库的形式存储在电子设备或云端服务器中。
在一些实施例中,可以在电子设备显示屏显示“批量设置”菜单,首先选择若干个区域图像(已经提前针对文字图像划分好的区域图像),然后选择同样数量、顺序或者反序的音视频文件(已经提前录好的音视频文件)。如果在音视频文件选择界面选择了“顺序”,就将区域图像和音视频文件从前到后一一关联;如果在音视频文件选择界面选择了“反序”,就将区域图像从前到后、音视频文件从后到前一一关联,从而实现批量构建映射关系。
在一些实施例中,可以将文字图像中的区域图像和要关联的音视频文件分别存放在两个文件夹下,并且保证要关联的区域图像和音视频文件命名相同。接着选择“批量设置”菜单,然后选择区域图像的文件夹,再选择音视频文件的文件夹。通过一定的算法,将两个文件夹下的同名文件进行关联,从而实现批量构建映射关系。
208、当接收到针对区域图像触发的音频播放指令时,根据映射关系播放相应的音频信息。
在一些实施方式中,可通过扫描或拍照的方式获取书本上待点读的文字图像,并显示在该电子设备的显示屏上。然后,用户可通过触摸、点击该文字图像上所包含的文字等方式,以触发针对该文字图像中某一区域图像的音频播放指令。响应该指令,确定出该区域图像的位置信息,基于所存储的映射关系、以及该位置信息,从存储的大量音频信息中选中对应的音频信息进行播放。
比如,用户使用电子设备拍摄得到一张照片Y,电子设备在预设数据库中查找到与照片Y匹配的为照片R。照片R中包含三个对话框分别为r1、r2、r3,且每一对话框里都包括有文字信息。假设对话框r1所在位置关联音频Q1,对话框r2所在位置关联音频Q2,对话框r3所在位置关联音频Q3。若检测到用户点击对话框r3,则电子设备将播放与对话框r3所在位置对应的音频Q3。
在一些实施方式中,播放音频信息时,可以按照音频播放的节奏,在显示屏中对实时对所播的文字信息进行标记,以向用户展示当前音频播放的具体内容。比如,音频内容为“Hello Word”,当音频播放出“Hello”时,文字图像中所显示的“Hello”将被标记,当音频播放出“World”时,文字图像中所显示的“World”将被标记。其中,标记的方式可以有多种,比如,可以对当前播放的文字高亮显示、变色显示、放大显示等等。
由上可知,本申请实施例提供的音频播放方法,根据文字图像中文字的分布信息,将文字图像划分为多个区域图像,然后获取区域图像中文字信息对应的音频信息、以及区域图像在文字图像内的位置信息,然后,于预设音频信息对所述音频信息进行修正,得到修正后的音频信息,并建立该音频信息与该位置信息之间的映射关系,当接收到针对该区域图像触发的音频播放指令时,根据该映射关系播放相应的音频信息。该方案可自动对文字图像进行处理生成音频信息,在批量建立文字图像与音频信息间的对应关系时无需考虑音频信息的顺序,使得制作音频到播放音频的过程更加智能化,同时可降低电子设备的功耗。
在本申请又一实施例中,还提供一种音频播放装置,该音频播放装置可以软件或硬件的形式集成在电子设备中,该电子设备具体可以包括手机、平板电脑、笔记本电脑等设备。如图6所示,该音频播放装置30可以包括划分模块31、获取模块32、关联模块33以及播放模块34,其中:
划分模块31,用于根据文字图像中文字的分布信息,将该文字图像划分为多个区域图像;
获取模块32,用于获取该区域图像中文字信息对应的音频信息、以及该区域图像在该文字图像内的位置信息;
关联模块33,用于建立该音频信息与该位置信息之间的映射关系,以得到映射关系集合;
播放模块34,用于当接收到针对该区域图像触发的音频播放指令时,根据该映射关系集合播放相应的音频信息。
在一些实施例中,参考图7,该划分模块31可以包括:
确定子模块311,用于确定该文字图像中各文字的位置;
获取子模块312,用于根据各相邻文字之间的间距确定该文字图像中文字的分布信息;
划分子模块313,用于基于该分布信息将该文字图像划分为多个区域图像
在一些实施例中,获取自模块312可以包括
确定相邻文字间的间隔区域,基于该间隔区域获取该相邻文字间的间距;
判断该间距是否小于预设阈值;
若是,则对该相邻文字所在的位置区域、以及该间隔区域进行标记;
根据所标记的区域以及未被标记的区域,获取该文字图像中文字的分布信息。
在一些实施例中,参考图8,该获取模块32可以包括:
识别子模块321,用于识别该区域图像内的文字信息;
生成子模块322,用于对所识别到的文字进行音频转换,以生成相应的音频信息。
在一些实施例中,参考图9,该关联模33可以包括:
修正子模块331,用于基于预设音频信息对该音频信息进行修正,得到修正后的音频信息,其中,该预设音频信息包括该文字图像中所有文字对应的音频;
关联子模块332,用于建立修正后的音频信息与该位置信息之间的映射关系。
由上可知,本申请实施例提供的音频播放装置,根据文字图像中文字的分布信息,将文字图像划分为多个区域图像,然后获取区域图像中文字信息对应的音频信息、以及区域图像在文字图像内的位置信息,并建立该音频信息与该位置信息之间的映射关系,以得到映射关系集合,当接收到针对该区域图像触发的音频播放指令时,根据该映射关系集合播放相应的音频信息。该方案可自动对文字图像进行处理生成音频信息,在批量建立文字图像与音频信息间的对应关系时无需考虑音频信息的顺序,使得制作音频到播放音频的过程更加智能化,同时可降低电子设备的功耗。
在本申请又一实施例中还提供一种电子设备,该电子设备可以是智能手机、平板电脑等设备。如图10所示,电子设备400包括处理器401及存储器402。其中,处理器401与存储器402电性连接。
处理器401是电子设备400的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器402内的应用,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。
在本实施例中,电子设备400中的处理器401会按照如下的步骤,将一个或一个以上的应用的进程对应的指令加载到存储器402中,并由处理器401来运行存储在存储器402中的应用,从而实现各种功能:
根据文字图像中文字的分布信息,将该文字图像划分为多个区域图像;
获取该区域图像中文字信息对应的音频信息、以及该区域图像在该文字图像内的位置信息;
建立该音频信息与该位置信息之间的映射关系,以得到映射关系集合;
当接收到针对该区域图像触发的音频播放指令时,根据该映射关系集合播放相应的音频信息。
在一些实施例中,处理器401进一步地可用于执行以下步骤:
确定该文字图像中各文字的位置;
根据各相邻文字之间的间距获取该文字图像中文字的分布信息;
基于该分布信息将该文字图像划分为多个区域图像。
在一些实施例中,处理器401进一步地可用于执行以下步骤:
确定相邻文字间的间隔区域,基于该间隔区域获取该相邻文字间的间距;
判断该间距是否小于预设阈值;
若是,则对该相邻文字所在的位置区域、以及该间隔区域进行标记;
根据所标记的区域以及未被标记的区域,获取该文字图像中文字的分布信息。
在一些实施例中,处理器401进一步地可用于执行以下步骤:
识别该区域图像内的文字信息;
对所识别到的文字进行音频转换,以生成相应的音频信息。
在一些实施例中,处理器401进一步地可用于执行以下步骤:
基于预设音频信息对该音频信息进行修正,得到修正后的音频信息,其中,该预设音频信息包括该文字图像中所有文字对应的音频;
建立修正后的音频信息与该位置信息之间的映射关系。
在一些实施例中,处理器401进一步地可用于执行以下步骤:
当接收到针对所述区域图像触发的音频播放指令时,获取用户触摸该区域图像时的触摸位置;
判断该映射关系集合中是否存在与该触摸位置匹配的目标位置信息;
若是,则根据该映射关系获取与该目标位置信息对应的音频信息;
播放该音频信息。
存储器402可用于存储应用和数据。存储器402存储的应用中包含有可在处理器中执行的指令。应用可以组成各种功能模块。处理器401通过运行存储在存储器402的应用,从而执行各种功能应用以及数据处理。
在一些实施例中,如图11所示,电子设备400还包括:显示屏403、控制电路404、射频电路405、输入单元406、音频电路407、传感器408以及电源409。其中,处理器401分别与显示屏403、控制电路404、射频电路405、输入单元406、音频电路407、传感器408以及电源409电性连接。
显示屏403可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图像、文本、图标、视频和其任意组合来构成。
控制电路404与显示屏403电性连接,用于控制显示屏403显示信息。
射频电路405用于收发射频信号,以通过无线通信与网络设备或其他电子设备建立无线通讯,与网络设备或其他电子设备之间收发信号。
输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中,输入单元406可以包括指纹识别模组。
音频电路407可通过扬声器、传声器提供用户与电子设备之间的音频接口。
传感器408用于采集外部环境信息。传感器408可以包括环境亮度传感器、加速度传感器、光传感器、运动传感器、以及其他传感器。
电源409用于给电子设备400的各个部件供电。在一些实施例中,电源409可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图11中未示出,电子设备400还可以包括摄像头、蓝牙模块等,在此不再赘述。
由上可知,本申请实施例提供的电子设备,根据文字图像中文字的分布信息,将文字图像划分为多个区域图像,然后获取区域图像中文字信息对应的音频信息、以及区域图像在文字图像内的位置信息,并建立该音频信息与该位置信息之间的映射关系,以得到映射关系集合,当接收到针对该区域图像触发的音频播放指令时,根据该映射关系集合播放相应的音频信息。该方案可自动对文字图像进行处理生成音频信息,在批量建立文字图像与音频信息间的对应关系时无需考虑音频信息的顺序,使得制作音频到播放音频的过程更加智能化,同时可降低电子设备的功耗。
在一些实施例中,还提供了一种存储介质,该存储介质中存储有多条指令,该指令适于由处理器加载以执行上述任一音频播放方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
在描述本申请的概念的过程中使用了术语“一”和“所述”以及类似的词语(尤其是在所附的权利要求书中),应该将这些术语解释为既涵盖单数又涵盖复数。此外,除非本文中另有说明,否则在本文中叙述数值范围时仅仅是通过快捷方法来指代属于相关范围的每个独立的值,而每个独立的值都并入本说明书中,就像这些值在本文中单独进行了陈述一样。另外,除非本文中另有指明或上下文有明确的相反提示,否则本文中所述的所有方法的步骤都可以按任何适当次序加以执行。本申请的改变并不限于描述的步骤顺序。除非另外主张,否则使用本文中所提供的任何以及所有实例或示例性语言(例如,“例如”)都仅仅为了更好地说明本申请的概念,而并非对本申请的概念的范围加以限制。在不脱离精神和范围的情况下,所属领域的技术人员将易于明白多种修改和适应。
以上对本申请实施例所提供的音频播放方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种音频播放方法,应用于电子设备,其特征在于,所述方法包括:
根据文字图像中文字的分布信息,将所述文字图像划分为多个区域图像,包括:
确定文字图像中各文字的位置;
根据各相邻文字之间的间距获取所述文字图像中文字的分布信息;
基于所述分布信息将整体上处于同一区域的文字划分到同一区域图像内,划分为多个区域图像;
获取所述区域图像中文字信息对应的音频信息、以及所述区域图像在所述文字图像内的位置信息;
建立所述音频信息与所述位置信息之间的映射关系,得到映射关系集合;
当接收到针对所述区域图像触发的音频播放指令时,根据所述映射关系集合播放相应的音频信息。
2.如权利要求1所述的音频播放方法,其特征在于,根据各相邻文字之间的间距获取所述文字图像中文字的分布信息的步骤,包括:
确定相邻文字间的间隔区域,基于所述间隔区域获取所述相邻文字间的间距;
判断所述间距是否小于预设阈值;
若是,则对所述相邻文字所在的位置区域、以及所述间隔区域进行标记;
根据所标记的区域以及未被标记的区域,获取所述文字图像中文字的分布信息。
3.如权利要求1所述的音频播放方法,其特征在于,获取所述区域图像中文字信息对应的音频信息的步骤,包括:
识别所述区域图像内的文字信息;
对所识别到的文字进行音频转换,以生成相应的音频信息。
4.如权利要求1所述的音频播放方法,其特征在于,建立所述音频信息与所述位置信息之间的映射关系的步骤,包括:
基于预设音频信息对所述音频信息进行修正,得到修正后的音频信息,其中,所述预设音频信息包括所述文字图像中所有文字对应的音频;
建立修正后的音频信息与所述位置信息之间的映射关系。
5.如权利要求1所述的音频播放方法,其特征在于,当接收到针对所述区域图像触发的音频播放指令时,根据所述映射关系集合播放相应的音频信息的步骤,包括:
当接收到针对所述区域图像触发的音频播放指令时,获取用户触摸所述区域图像时的触摸位置;
判断所述映射关系集合中是否存在与所述触摸位置匹配的目标位置信息;
若是,则根据所述映射关系获取与所述目标位置信息对应的音频信息;
播放所述音频信息。
6.一种音频播放装置,其特征在于,所述装置包括:
划分模块,用于根据文字图像中文字的分布信息,将所述文字图像划分为多个区域图像;所述划分模块包括:
确定子模块,用于确定文字图像中各文字的位置;
获取子模块,用于根据各相邻文字之间的间距确定所述文字图像中文字的分布信息;
划分子模块,用于基于所述分布信息将所述文字图像划分为多个区域图像;
获取模块,用于获取所述区域图像中文字信息对应的音频信息、以及所述区域图像在所述文字图像内的位置信息;
关联模块,用于建立所述音频信息与所述位置信息之间的映射关系,得到映射关系集合;
播放模块,用于当接收到针对所述区域图像触发的音频播放指令时,根据所述映射关系集合播放相应的音频信息。
7.如权利要求6所述的音频播放装置,其特征在于,所述获取模块包括:
识别子模块,用于识别所述区域图像内的文字信息;
生成子模块,用于对所识别到的文字进行音频转换,以生成相应的音频信息。
8.如权利要求6所述的音频播放装置,其特征在于,所述关联模块包括:
修正子模块,用于基于预设音频信息对所述音频信息进行修正,得到修正后的音频信息,其中,所述预设音频信息包括所述文字图像中所有文字对应的音频;
关联子模块,用于建立修正后的音频信息与所述位置信息之间的映射关系。
9.一种存储介质,其特征在于,所述存储介质中存储有多条指令,所述指令适于由处理器加载以执行如权利要求1-5中任一项所述的音频播放方法。
10.一种电子设备,其特征在于,包括处理器及存储器,所述处理器与所述存储器电性连接,所述存储器用于存储指令和数据;所述处理器用于执行如权利要求1-5中任一项所述的音频播放方法。
CN201711087238.2A 2017-11-07 2017-11-07 一种音频播放方法、装置、存储介质及电子设备 Expired - Fee Related CN107885430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711087238.2A CN107885430B (zh) 2017-11-07 2017-11-07 一种音频播放方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711087238.2A CN107885430B (zh) 2017-11-07 2017-11-07 一种音频播放方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN107885430A CN107885430A (zh) 2018-04-06
CN107885430B true CN107885430B (zh) 2020-07-24

Family

ID=61779222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711087238.2A Expired - Fee Related CN107885430B (zh) 2017-11-07 2017-11-07 一种音频播放方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN107885430B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109003476A (zh) * 2018-07-18 2018-12-14 深圳市本牛科技有限责任公司 一种手指点读系统及其操作方法以及采用该系统的装置
CN109684606B (zh) * 2018-12-21 2023-09-01 人教数字出版有限公司 一种在pdf页面上呈现艺术效果的方法和装置
CN109829526B (zh) * 2019-01-25 2023-09-26 深圳市优博讯科技股份有限公司 一种条码管理方法、装置及电子设备
CN111078080B (zh) * 2019-06-09 2021-06-25 广东小天才科技有限公司 一种点读控制方法及电子设备
CN110297938A (zh) * 2019-06-20 2019-10-01 北京奇艺世纪科技有限公司 一种音频播放方法、装置及终端
CN110619773A (zh) * 2019-09-19 2019-12-27 广东小天才科技有限公司 一种勾勒框的生成方法、系统、存储介质及电子设备
CN110634342A (zh) * 2019-09-19 2019-12-31 广东小天才科技有限公司 一种勾勒框的识别方法、系统、存储介质及电子设备
CN113132781B (zh) * 2019-12-31 2023-04-18 阿里巴巴集团控股有限公司 视频生成方法和装置、电子设备以及计算机可读存储介质
CN111966839B (zh) * 2020-08-17 2023-07-25 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN112188115B (zh) * 2020-09-29 2023-10-17 咪咕文化科技有限公司 一种图像处理方法、电子设备及存储介质
CN114338622A (zh) * 2021-12-28 2022-04-12 歌尔光学科技有限公司 一种音频传输方法、音频播放方法、存储介质及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7570842B2 (en) * 2005-03-15 2009-08-04 Kabushiki Kaisha Toshiba OCR apparatus and OCR result verification method
CN101984419A (zh) * 2010-10-21 2011-03-09 优视科技有限公司 用于对网页图片内容进行段落重排的方法及装置
CN105005595A (zh) * 2015-06-30 2015-10-28 广东欧珀移动通信有限公司 一种声音播放方法、移动终端、服务器及系统
CN106162447A (zh) * 2016-06-24 2016-11-23 维沃移动通信有限公司 一种音频播放的方法和终端
CN106484297A (zh) * 2016-10-10 2017-03-08 努比亚技术有限公司 一种文字拾取装置和方法
CN106980459A (zh) * 2017-03-31 2017-07-25 广州华多网络科技有限公司 基于触屏设备的点读方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITTV20090049A1 (it) * 2009-03-19 2010-09-20 Lifeview Srl Sistema di lettura multimediale interattivo.
US10672399B2 (en) * 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
KR101899819B1 (ko) * 2012-08-03 2018-09-20 엘지전자 주식회사 이동 단말기 및 그 제어방법
CN103365988A (zh) * 2013-07-05 2013-10-23 百度在线网络技术(北京)有限公司 对移动终端的图片文字朗读的方法、装置和移动终端
CN105956588A (zh) * 2016-04-21 2016-09-21 深圳前海勇艺达机器人有限公司 智能扫描及朗读文字的方法及其机器人装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7570842B2 (en) * 2005-03-15 2009-08-04 Kabushiki Kaisha Toshiba OCR apparatus and OCR result verification method
CN101984419A (zh) * 2010-10-21 2011-03-09 优视科技有限公司 用于对网页图片内容进行段落重排的方法及装置
CN105005595A (zh) * 2015-06-30 2015-10-28 广东欧珀移动通信有限公司 一种声音播放方法、移动终端、服务器及系统
CN106162447A (zh) * 2016-06-24 2016-11-23 维沃移动通信有限公司 一种音频播放的方法和终端
CN106484297A (zh) * 2016-10-10 2017-03-08 努比亚技术有限公司 一种文字拾取装置和方法
CN106980459A (zh) * 2017-03-31 2017-07-25 广州华多网络科技有限公司 基于触屏设备的点读方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
金状元婴幼儿童触屏点读机早教机学习机平板宝贝电脑儿童节礼品;1320551911;《https://www.iqiyi.com/w_19rslyuya1.html#curid=2659268709_5b1b84fa3e8f998a3f3f68fec98ae77a》;20141011;视频时间00:00-09:24 *

Also Published As

Publication number Publication date
CN107885430A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN107885430B (zh) 一种音频播放方法、装置、存储介质及电子设备
CN110135411B (zh) 名片识别方法和装置
CN101667251B (zh) 具备辅助定位功能的ocr识别方法和装置
CN109189879B (zh) 电子书籍显示方法及装置
CN108932053B (zh) 基于手势的绘图方法、装置、存储介质和计算机设备
CN107871001B (zh) 音频播放方法、装置、存储介质及电子设备
CN109446961B (zh) 姿势检测方法、装置、设备及存储介质
CN105447499A (zh) 一种图书互动方法、装置和设备
US8917957B2 (en) Apparatus for adding data to editing target data and displaying data
CN110569835B (zh) 一种图像识别方法、装置和电子设备
CN108781252B (zh) 一种图像拍摄方法及装置
CN111339976B (zh) 室内定位方法、装置、终端及存储介质
CN107871000B (zh) 音频播放方法、装置、存储介质及电子设备
CN110263792B (zh) 图像识读及数据处理方法、智能笔、系统及存储介质
CN111209909B (zh) 资质识别模板构建方法、装置、设备和存储介质
CN107085699B (zh) 信息处理设备、信息处理设备的控制方法和存储介质
CN107885482B (zh) 音频播放方法、装置、存储介质及电子设备
CN110858291A (zh) 字符切分方法及装置
CN111027533B (zh) 一种点读坐标的变换方法、系统、终端设备及存储介质
CN115131693A (zh) 文本内容识别方法、装置、计算机设备和存储介质
CN110222576B (zh) 拳击动作识别方法、装置和电子设备
CN111695372B (zh) 点读方法及点读数据处理方法
CN111160265B (zh) 文件转换方法、装置、存储介质及电子设备
CN108052525B (zh) 获取音频信息的方法、装置、存储介质及电子设备
KR20220079431A (ko) 스크린샷 이미지로부터 태그 정보를 추출하는 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18

Applicant after: GUANGDONG OPPO MOBILE TELECOMMUNICATIONS Corp.,Ltd.

Address before: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18

Applicant before: GUANGDONG OPPO MOBILE TELECOMMUNICATIONS Corp.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200724

CF01 Termination of patent right due to non-payment of annual fee