CN109462689B - 语音播报方法及装置、电子装置及计算机可读存储介质 - Google Patents
语音播报方法及装置、电子装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109462689B CN109462689B CN201811163455.XA CN201811163455A CN109462689B CN 109462689 B CN109462689 B CN 109462689B CN 201811163455 A CN201811163455 A CN 201811163455A CN 109462689 B CN109462689 B CN 109462689B
- Authority
- CN
- China
- Prior art keywords
- electronic device
- language
- content
- voice
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72439—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72475—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users
- H04M1/72481—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users for visually impaired users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种基于图像识别技术的语音播报方法。所述语音播报方法包括:设定电子装置进行语音播报时所采用的语言;于所述电子装置当前满足指定条件时,执行截屏操作,获取截屏图片;识别上述截屏图片的内容;及将所识别出来的内容利用上述所设置的语言进行语音播报。本发明还提供一种实现所述语音播报方法的装置及计算机可读存储介质。本发明方便文盲或者半文盲人士,以及存在视力问题的人士使用电子装置。此外,本发明还方便以他国语音为母语的用户来使用具有本地语音的App。本发明部分地解放了双眼,不需要用户一直盯着电子装置看。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种语音播报方法及装置、电子装置及计算机可读存储介质。
背景技术
App(Application,应用程序)所面向的用户基本上都是有一定语言文字基础的人群。然而对于文盲或者半文盲用户人群则使用起来会很费劲。此外,绝大多数的App也不方便视力欠佳人士的使用。再者,我们长时间的看手机,也容易造成眼疲劳。
发明内容
鉴于以上内容,有必要提供一种语音播报方法及装置、电子装置及计算机可读存储介质,用以解决现有技术中文盲或者半文盲人士、存在视力问题的人士不方便使用电子装置的技术问题。
本发明第一方面提供一种语音播报方法,所述方法包括:设置电子装置进行语音播报时所采用的语言;于所述电子装置当前满足指定条件时,执行截屏操作,获取截屏图片;识别所述截屏图片的内容;及将所识别出来的内容利用所设置的语言进行语音播报。
优选地,所述指定条件是指所述电子装置接收到指定信号,其中,所述指定信号包括截屏信号、屏幕切换信号;或者所述指定条件是指所述电子装置的屏幕上所显示的内容发生变化。
优选地,所识别的内容包括截屏图片上所包括的文字以及功能按钮,所述功能按钮包括所述电子装置的导航按钮、其他与所述电子装置的应用程序相关的按钮。
优选地,所述识别所述截屏图片的内容包括:采用光学字符识别技术对所述截屏图片所包括的文字进行识别,采用图像识别技术对所述截屏图片所包括的功能按钮进行识别;所述采用图像识别技术对所述截屏图片所包括的功能按钮进行识别包括:采用模板匹配法,将预设的多种功能按钮的图片分别与所述截屏图片进行匹配来识别截屏图片所包括的功能按钮,其中,所预设的多种功能按钮分别对应一个名称;若所述截屏图片存在与预设的其中某种功能按钮的图片相匹配的内容,则确定所述截屏图片包括所述某种功能按钮;及获取所述某种功能按钮的名称。
优选地,所预设的每种功能按钮所对应名称分别利用多种语言进行记录,所述多种语言包括光学字符识别技术所能识别的语言;或者所预设的每种功能按钮所对应名称仅用所述多种语言中的其中一种语言进行记录,所述其中一种语言为所述电子装置的系统语言;所述将所识别出来的内容利用所设置的语言进行语音播报包括:将所识别出来的功能按钮所对应的名称播报给用户。
优选地,当所识别出来的内容还包括功能按钮时,所述方法还包括步骤:对所识别出来的功能按钮进行语音播报后还接收用户的语音输入;将所述语音输入转化为所述所设置的语言所对应的文字;及于所述转化得到的文字与所识别出来的功能按钮所对应的名称相同时,控制所述电子装置执行所述识别出来的功能按钮所对应的功能。
优选地,所述将所识别出来的内容利用所述所设置的语言进行语音播报包括:确定所识别出来的内容所对应的语言与所述所设置的语言是否相同;若所识别出来的内容所对应的语言与所述所设置的语言不相同,将所识别出来的内容转化为所述所设置的语言所对应的内容;及利用所述所设置的语言将所识别出来的内容语音播报给用户。
本发明第二方面提供一种电子装置,所述电子装置包括存储器及处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令以实现所述的语音播报方法。
本发明第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述的语音播报方法。
本发明第四方面提供一种语音播报装置,所述语音播报装置包括:设定模块,用于设置电子装置进行语音播报时所采用的语言;截屏模块,用于当所述电子装置当前满足指定条件时,执行截屏操作,获取截屏图片;识别模块,用于识别所述截屏图片的内容;及执行模块,用于将所识别出来的内容利用所设置的语言进行语音播报。
由以上技术方案可知,本发明通过设定电子装置进行语音播报时所采用的语言,于所述电子装置当前满足指定条件时,执行截屏操作,获取截屏图片,识别上述截屏图片的内容,及将所识别出来的内容利用上述所设置的语言进行语音播报。本发明方便文盲或者半文盲人士使用电子装置。让存在视力问题的人士也能使用电子装置。此外,本发明还方便以他国语音为母语的用户来使用具有本地语音的App。本发明部分解放双眼,不需要用户一直盯着手机看。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明语音播报方法的较佳实施例的流程图。
图2是图1所示的语音播报方法中的步骤S4的细化流程图。
图3是本发明语音播报装置的较佳实施例的程序模块图。
图4是本发明至少一个实例中电子装置的较佳实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,是本发明语音播报方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S1、电子装置依据用户输入设定电子装置进行语音播报时所采用的语言。
在一个实施例中,所述电子装置可以是服务器、个人台式计算机、笔记本电脑、平板电脑、智能手机、智能电视、穿戴式设备等设备。
在一个实施例中,所述电子装置可以提供一设置界面并将各种语言罗列出来供用户从中选择一种语言作为电子装置进行语音播报时所采用的语言。
在其他实施例中,所述电子装置也可以将该电子装置的系统语言默认作为语音播报时所采用的语言。即所述电子装置可以无需根据用户输入来设定语音播报时所采用的语言。举例而言,假设所述电子装置的系统语言是英文,则默认将英文作为语音播报时所采用的语言。又如,假设所述电子装置的系统语言是汉语,则默认将汉语作为语音播报时所采用的语言。
步骤S2、所述电子装置确定该电子装置当前是否满足指定条件,并当该电子装置当前满足所述指定条件时,执行截屏操作,获取截屏图片。
在第一实施例中,所述指定条件是指该电子装置接收到指定信号。
在一个实施例中,所述指定信号可以为截屏信号。例如可以为用户的多个手指例如三个手指在所述电子装置的屏幕上同时移动且移动距离超过预设值(例如1厘米)所产生的信号。又如,该指定信号可以为所述电子装置的电源键和音量+键同时被按压所产生的信号。在其他实施例中,所述指定信号可以为屏幕切换信号。所述电子装置可以于接收到该屏幕切换信号后隔预设时长(例如,1秒)来执行所述截屏操作。该屏幕切换信号可以是用户在所述电子装置的屏幕上的滑动操作或点击操作所产生的信号,该滑动操作或点击操作为将该屏幕当前所显示的内容切换到其他内容的操作。
在第二实施例中,所述指定条件是指该电子装置的屏幕上所显示的内容发生变化。即只要该电子装置的屏幕上所显示的内容发生变化即执行截屏操作,无论该屏幕上所显示的内容发生变化是否是因为接收到所述屏幕切换信号。即只要屏幕上有新的内容出现即执行截屏操作。例如,所述屏幕上当前显示的是电子书的某一页的内容,假设30秒后,电子装置在该屏幕的左上角推出一条广告信息即视为屏幕上所显示的内容发生变化。
在一个实施例中,所述截屏图片的文件格式可以为JPEG,PNG,BMP,PDF等格式。
步骤S3、所述电子装置识别上述截屏图片的内容。
在一个实施例中,所识别的内容包括,但不限于,截屏图片上所包括的文字以及功能按钮。
在一个实施例中,所述功能按钮包括,但不限于,电子装置的导航按钮、其他与电子装置的App(Application,应用程序)相关的按钮。以相册App为例,与该相册App相关的按钮包括图片搜索按钮。
在一个实施例中,所述电子装置可以采用光学字符识别技术(Optical CharacterRecognition,OCR)对上述截屏图片所包括的文字进行识别。
光学字符识别技术是将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。光学字符识别技术支持对TIFF、JPEG、PNG、BMP、PDF等格式的图像的文字识别,能识别汉语、英语、日语、韩语等16种语言,能够获取识别字符在原文中的位置和大小信息,支持对指定区域的识别。
在一个实施例中,所述电子装置可以采用图像识别技术对上述截屏图片所包括的功能按钮进行识别。具体地,例如,所述电子装置可以采用模板匹配法,将预设的多种功能按钮的图片分别与上述截屏图片进行匹配来识别截屏图片所包括的功能按钮,其中,所预设的多种功能按钮分别对应一个名称。所述电子装置可以将所述预设的多种功能按钮的图片及该预设的多种功能按钮分别所对应的名称预先存储在所述电子装置的存储器中。在一个实施例中,所预设的每种功能按钮所对应名称可以分别利用多种语言进行记录,该多种语言包括光学字符识别技术所能识别的语言例如汉语、英语、日语、韩语等16种语言。在其他实施例中,所预设的每种功能按钮所对应名称可以仅用所述多种语言中的其中一种语言进行记录。在一个实施例中,该其中一种语言可以为所述电子装置的系统语言。
若上述截屏图片存在与预设的其中某种功能按钮的图片相匹配的内容,则确定该截屏图片包括该某种功能按钮。所述电子装置还从该电子装置的存储器中获取该某种功能按钮的名称。
在一个实施例中,在对上述截屏图片的内容进行识别时,还对该截屏图片的内容所对应的语言进行记录。例如,利用光学字符识别技术识别到该截屏图片的内容所采用的语言是英文时,可以创建一条记录,记录该截屏图片的内容所对应的语言为英文。
步骤S4、所述电子装置将所识别出来的内容利用上述所设置的语言进行语音播报。
在一个实施例中,步骤S4包括子步骤S41-S43,具体请参阅以下对图2的流程图的介绍。
在一个实施例中,当所识别出来的内容还包括功能按钮时,还可以进一步包括如下步骤S5。
步骤S5、所述电子装置于对所识别出来的功能按钮进行语音播报后还接收用户的语音输入,并根据用户的语音输入确定是否执行该识别出来的功能按钮所对应的功能。
在一个实施例中,所述电子装置接收所述语音输入,并将该语音输入转化为上述设置的语言所对应的文字。所述电子装置确定该转化得到的文字与所识别出来的功能按钮所对应的名称是否相同,若转化得到的文字与所识别出来的功能按钮所对应的名称相同,则所述电子装置执行该识别出来的功能按钮所对应的功能。若转化得到的文字与所识别出来的功能按钮所对应的名称不相同,则所述电子装置不执行该识别出来的功能按钮所对应的功能。
举例而言,假设识别出来的功能按钮为“返回主页”的按钮,即该功能按钮是用于将屏幕当前所显示的内容切换到电子装置的主屏幕所对应的内容。若语音播报“是否点击按钮返回主页”后,用户语音说出“返回主页”,则所述电子装置接收该语音输入,并将该语音输入转化为上述设置的语言所对应的文字,然后确定该转化得到的文字与该“返回主页”的按钮所对应的名称(即“返回主页”)是否相同,若该转化得到的文字与该“返回主页”的按钮所对应的名称相同,则所述电子装置执行该“返回主页”的按钮所对应的功能。例如,将屏幕当前所显示的内容切换到电子装置的主屏幕所对应的内容。
如图2所示,是图1所示的流程步骤S4的较佳实施例的细化流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
子步骤S41、所述电子装置确定所识别出来的内容所对应的语言与上述设置的语言是否相同。若所识别出来的内容所对应的语言与上述设置的语言不相同,执行步骤S42。若所识别出来的内容所对应的语言与上述设置的语言相同,直接执行步骤S43。
举例而言,假设所识别出来的内容所对应的语言是英文,而在上述步骤S1中将电子装置进行语音播报时所采用的语言设定为汉语,即所识别出来的内容所对应的语言与上述步骤S1中所设置的语言不相同,此时执行步骤S42。
子步骤S42、所述电子装置将所识别出来的内容转化为上述设置的语言所对应的内容。执行完步骤S42后执行步骤S43。
在一个实施例中,所述电子装置可以利用语言转化器来将所识别出来的内容转化为上述设置的语言所对应的内容。此为现有技术,因此不在赘述。举例而言,假设所识别出来的内容所对应的语言是英文,而在上述步骤S1中将电子装置进行语音播报时所采用的语言设定为汉语,则利用语言转化器将所识别出来的英文内容转化为汉语所对应的内容。
子步骤S43、所述电子装置利用上述所设置的语言将所识别出来的内容语音播报给用户。
在一个实施例中,以所识别出来的内容包括文字为例,则采用上述设置的语言将所识别出来的文字语音播报给用户。
以所识别出来的内容还包括功能按钮为例,则将功能按钮所对应的名称播报给用户。例如,当识别到一个“返回主页”的按钮时,播放语音可以为“是否点击按钮返回主页”。
如图3所示,是本发明语音播报装置的较佳实施例的程序模块图。所述语音播报装置3包括,但不限于以下一个或者多个模块:设定模块31、截屏模块32、识别模块33,及执行模块34。本发明所称的模块是指一种能够被语音播报装置3的处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。关于各模块的功能将在后续的实施例中详述。
所述设定模块31依据用户输入设定电子装置进行语音播报时所采用的语言。
在一个实施例中,所述电子装置可以是服务器、个人台式计算机、笔记本电脑、平板电脑、智能手机、智能电视、穿戴式设备等设备。
在一个实施例中,所述设定模块31可以提供一设置界面并将各种语言罗列出来供用户从中选择一种语言作为电子装置进行语音播报时所采用的语言。
在其他实施例中,所述设定模块31也可以将该电子装置的系统语言默认作为语音播报时所采用的语言。即所述设定模块31可以无需根据用户输入来设定语音播报时所采用的语言。举例而言,假设所述电子装置的系统语言是英文,所述设定模块31则默认将英文作为语音播报时所采用的语言。又如,假设所述电子装置的系统语言是汉语,所述设定模块31则默认将汉语作为语音播报时所采用的语言。
所述截屏模块32确定该电子装置当前是否满足指定条件,并当该电子装置当前满足所述指定条件时,执行截屏操作,获取截屏图片。
在第一实施例中,所述指定条件是指该电子装置接收到指定信号。
在一个实施例中,所述指定信号可以为截屏信号。例如可以为用户的多个手指例如三个手指在所述电子装置的屏幕上同时移动且移动距离超过预设值(例如1厘米)所产生的信号。又如,该指定信号可以为所述电子装置的电源键和音量+键同时被按压所产生的信号。在其他实施例中,所述指定信号可以为屏幕切换信号。所述截屏模块32可以于电子装置接收到该屏幕切换信号后隔预设时长(例如,1秒)来执行所述截屏操作。该屏幕切换信号可以是用户在所述电子装置的屏幕上的滑动操作或点击操作所产生的信号,该滑动操作或点击操作为将该屏幕当前所显示的内容切换到其他内容的操作。
在第二实施例中,所述指定条件是指该电子装置的屏幕上所显示的内容发生变化。即只要该电子装置的屏幕上所显示的内容发生变化,即执行截屏操作,无论该屏幕上所显示的内容发生变化是否是因为接收到所述屏幕切换信号。即只要屏幕上有新的内容出现所述截屏模块32即执行截屏操作。例如,所述屏幕上当前显示的是电子书的某一页的内容,假设30秒后,电子装置在该屏幕的左上角推出一条广告信息即视为屏幕上所显示的内容发生变化。
在一个实施例中,所述截屏图片的文件格式可以为JPEG,PNG,BMP,PDF等格式。
所述识别模块33识别上述截屏图片的内容。
在一个实施例中,所识别的内容包括,但不限于,截屏图片上所包括的文字以及功能按钮。
在一个实施例中,所述功能按钮包括,但不限于,电子装置的导航按钮、其他与电子装置的App(Application,应用程序)相关的按钮。以相册App为例,与该相册App相关的按钮包括图片搜索按钮。
在一个实施例中,所述识别模块33可以采用光学字符识别技术(OpticalCharacter Recognition,OCR)对上述截屏图片所包括的文字进行识别。
光学字符识别技术是将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。光学字符识别技术支持对TIFF、JPEG、PNG、BMP、PDF等格式的图像的文字识别,能识别汉语、英语、日语、韩语等16种语言,能够获取识别字符在原文中的位置和大小信息,支持对指定区域的识别。
在一个实施例中,所述识别模块33可以采用图像识别技术对上述截屏图片所包括的功能按钮进行识别。具体地,例如,所述识别模块33可以采用模板匹配法,将预设的多种功能按钮的图片分别与上述截屏图片进行匹配来识别截屏图片所包括的功能按钮,其中,所预设的多种功能按钮分别对应一个名称。所述识别模块33可以将所述预设的多种功能按钮的图片及该预设的多种功能按钮分别所对应的名称预先存储在所述电子装置的存储器中。在一个实施例中,所预设的每种功能按钮所对应名称可以分别利用多种语言进行记录,该多种语言包括光学字符识别技术所能识别的语言例如汉语、英语、日语、韩语等16种语言。在其他实施例中,所预设的每种功能按钮所对应名称可以仅用所述多种语言中的其中一种语言进行记录。在一个实施例中,该其中一种语言可以为所述电子装置的系统语言。
若上述截屏图片存在与预设的其中某种功能按钮的图片相匹配的内容,所述识别模块33则确定该截屏图片包括该某种功能按钮。所述识别模块33还从该电子装置的存储器中获取该某种功能按钮的名称。
在一个实施例中,在对上述截屏图片的内容进行识别时,所述识别模块33还对该截屏图片的内容所对应的语言进行记录。例如,当利用光学字符识别技术识别到该截屏图片的内容所采用的语言是英文时,所述识别模块33可以创建一条记录,记录该截屏图片的内容所对应的语言为英文。
所述执行模块34将所识别出来的内容利用上述所设置的语言进行语音播报。
在一个实施例中,所述将所识别出来的内容利用上述所设置的语言进行语音播报的步骤包括(1)-(3):
(1)所述执行模块34确定所识别出来的内容所对应的语言与上述设置的语言是否相同。若所识别出来的内容所对应的语言与上述设置的语言不相同,执行步骤(2)。若所识别出来的内容所对应的语言与上述设置的语言相同,直接执行步骤(3)。
举例而言,假设所识别出来的内容所对应的语言是英文,而所述设定模块31将电子装置进行语音播报时所采用的语言设定为汉语,即所识别出来的内容所对应的语言与所述设定模块31所设置的语言不相同,此时执行步骤(2)。
(2)所述执行模块34将所识别出来的内容转化为上述设置的语言所对应的内容。执行完步骤(2)后执行步骤(3)。
在一个实施例中,所述执行模块34可以利用语言转化器来将所识别出来的内容转化为上述设置的语言所对应的内容。此为现有技术,因此不在赘述。举例而言,假设所识别出来的内容所对应的语言是英文,而所述设定模块31将电子装置进行语音播报时所采用的语言设定为汉语,所述执行模块34则利用语言转化器将所识别出来的英文内容转化为汉语所对应的内容。
(3)所述执行模块34利用上述所设置的语言将所识别出来的内容语音播报给用户。
在一个实施例中,以所识别出来的内容包括文字为例,则采用上述设置的语言将所识别出来的文字语音播报给用户。
以所识别出来的内容还包括功能按钮为例,则将功能按钮所对应的名称播报给用户。例如,当识别到一个“返回主页”的按钮时,播放语音可以为“是否点击按钮返回主页”。
在一个实施例中,当所识别出来的内容还包括功能按钮时,所述执行模块34对所识别出来的功能按钮进行语音播报后还接收用户的语音输入,并根据用户的语音输入确定是否执行该识别出来的功能按钮所对应的功能。
在一个实施例中,所述执行模块34接收所述语音输入,并将该语音输入转化为上述设置的语言所对应的文字。所述执行模块34确定该转化得到的文字与所识别出来的功能按钮所对应的名称是否相同,若转化得到的文字与所识别出来的功能按钮所对应的名称相同,则控制所述电子装置执行该识别出来的功能按钮所对应的功能。若转化得到的文字与所识别出来的功能按钮所对应的名称不相同,则控制所述电子装置不执行该识别出来的功能按钮所对应的功能。
举例而言,假设识别出来的功能按钮为“返回主页”的按钮,即该功能按钮是用于将屏幕当前所显示的内容切换到电子装置的主屏幕所对应的内容。若语音播报“是否点击按钮返回主页”后,用户语音说出“返回主页”,则所述执行模块34接收该语音输入,并将该语音输入转化为上述设置的语言所对应的文字,然后确定该转化得到的文字与该“返回主页”的按钮所对应的名称(即“返回主页”)是否相同,若该转化得到的文字与该“返回主页”的按钮所对应的名称相同,则所述执行模块34控制所述电子装置执行该“返回主页”的按钮所对应的功能。例如,将屏幕当前所显示的内容切换到电子装置的主屏幕所对应的内容。
如图4所示,所述电子装置4包括至少一个存储器41、至少一个处理器42,以及至少一个通信总线。其中,所述通信总线用于实现这些元件之间的连接通信。
所述电子装置4是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。所述电子装置4还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
所述电子装置4可以是,但不限于任何一种可与用户通过键盘、触摸板或声控设备等方式进行人机交互的个人电脑、服务器等终端。
所述电子设备5可以是,但不限于任何一种可与用户通过键盘、触摸板或声控设备等方式进行人机交互的电子产品,例如,服务器、个人台式计算机、笔记本电脑、平板电脑、智能手机、智能电视、穿戴式设备等设备等设备。
所述电子装置4所处的网络包括,但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
所述存储器41用于存储程序代码。所述存储器41可以是集成电路中没有实物形式的具有存储功能的电路,如RAM(Random-Access Memory,随机存取存储器)、FIFO(First InFirst Out,)等。或者,所述存储器41也可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)、智能媒体卡(smart media card)、安全数字卡(secure digitalcard)、快闪存储器卡(flash card)等储存设备等等。
所述处理器42可以包括一个或者多个微处理器、数字处理器。所述处理器42可调用存储器41中存储的程序代码以执行相关的功能。例如,图3中所述的各个模块是存储在所述存储器41中的程序代码,并由所述处理器42所执行,以实现一种对电子装置4的屏幕43所显示的内容进行语音播报方法。所述处理器42又称中央处理器(CPU,Central ProcessingUnit),是一块超大规模的集成电路,是运算核心(Core)和控制核心(Control Unit)。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令当被包括一个或多个处理器的电子装置执行时,使电子装置执行如上文方法实施例所述的对电子装置的屏幕所显示的内容进行语音播报的方法。
结合图4所示,所述电子装置4中的所述存储器41存储多个指令以实现一种对电子装置4的屏幕43所显示的内容进行语音播报的方法,所述处理器42可执行所述多个指令从而实现:
设定电子装置进行语音播报时所采用的语言;于所述电子装置当前满足指定条件时,执行截屏操作,获取截屏图片;识别上述截屏图片的内容,从而实现对电子装置的屏幕所显示的内容进行语音播报的方法。
根据本发明优选实施例,所述设定电子装置进行语音播报时所采用的语言包括:提供一设置界面并将各种语言罗列出来供用户从中选择一种语言作为所述电子装置进行语音播报时所采用的语言;或者将该电子装置的系统语言设定为语音播报时所采用的语言。
根据本发明优选实施例,所述指定条件是指所述电子装置接收到指定信号,其中,所述指定信号包括截屏信号、屏幕切换信号;或者所述指定条件是指所述电子装置的屏幕上所显示的内容发生变化。
根据本发明优选实施例,所识别的内容包括截屏图片上所包括的文字以及功能按钮,所述功能按钮包括所述电子装置的导航按钮、其他与所述电子装置的应用程序相关的按钮。
根据本发明优选实施例,所述识别上述截屏图片的内容包括:采用光学字符识别技术对上述截屏图片所包括的文字进行识别,采用图像识别技术对上述截屏图片所包括的功能按钮进行识别;所述采用图像识别技术对上述截屏图片所包括的功能按钮进行识别包括:采用模板匹配法,将预设的多种功能按钮的图片分别与上述截屏图片进行匹配来识别截屏图片所包括的功能按钮,其中,所预设的多种功能按钮分别对应一个名称;若上述截屏图片存在与预设的其中某种功能按钮的图片相匹配的内容,则确定该截屏图片包括该某种功能按钮;及获取该某种功能按钮的名称。
根据本发明优选实施例,所预设的每种功能按钮所对应名称分别利用多种语言进行记录,该多种语言包括光学字符识别技术所能识别的语言;或者所预设的每种功能按钮所对应名称仅用所述多种语言中的其中一种语言进行记录,该其中一种语言可以为所述电子装置的系统语言;所述将所识别出来的内容利用上述所设置的语言进行语音播报包括:将所识别出来的功能按钮所对应的名称播报给用户。
根据本发明优选实施例,当所识别出来的内容还包括功能按钮时,该方法还包括步骤:对所识别出来的功能按钮进行语音播报后还接收用户的语音输入;将该语音输入转化为上述设置的语言所对应的文字;及于该转化得到的文字与所识别出来的功能按钮所对应的名称相同时,控制所述电子装置执行该识别出来的功能按钮所对应的功能。
根据本发明优选实施例,所述将所识别出来的内容利用上述所设置的语言进行语音播报包括:确定所识别出来的内容所对应的语言与上述设置的语言是否相同;若所识别出来的内容所对应的语言与上述设置的语言不相同,将所识别出来的内容转化为上述设置的语言所对应的内容;及利用上述所设置的语言将所识别出来的内容语音播报给用户。
在任意实施例中所述对电子装置的屏幕所显示的内容进行语音播报的方法对应的多个指令存储在所述存储器42,并通过所述处理器41来执行,在此不再详述。
以上说明的本发明的特征性的手段可以通过集成电路来实现,并控制实现上述任意实施例中所述对电子装置的屏幕所显示的内容进行语音播报的功能。即,本发明的集成电路安装于所述电子装置中,使所述电子装置发挥如下功能:设定电子装置进行语音播报时所采用的语言;于所述电子装置当前满足指定条件时,执行截屏操作,获取截屏图片;识别上述截屏图片的内容;及将所识别出来的内容利用上述所设置的语言进行语音播报。
在任意实施例中所述对电子装置的屏幕所显示的内容进行语音播报的方法所能实现的功能都能通过本发明的集成电路安装于所述电子装置中,使所述电子装置发挥任意实施例中所述对电子装置的屏幕所显示的内容进行语音播报的方法所能实现的功能,在此不再详述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或元件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明的各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种语音播报方法,其特征在于,所述方法包括:
设置电子装置进行语音播报时所采用的语言;
于所述电子装置当前满足指定条件时,执行截屏操作,获取截屏图片,所述指定条件是指所述电子装置的屏幕上所显示的内容发生变化,或者,所述指定条件是指所述电子装置接收到的指定信号,所述指定信号为截屏信息、电源键和音量+键同时被按压所产生的信号或者屏幕切换信号;
识别所述截屏图片的内容;及
将所识别出来的内容利用所设置的语言进行语音播报,当所识别出来的所述截屏图片的内容包括功能按钮时,将所识别出来的功能按钮所对应的名称播报给用户后,接收用户的语音输入;将所述语音输入转化为所述所设置的语言所对应的文字;当所述转化得到的文字与所识别出来的功能按钮所对应的名称相同时,控制所述电子装置执行所述识别出来的功能按钮所对应的功能。
2.如权利要求1所述的语音播报方法,其特征在于,所识别的内容包括截屏图片上所包括的文字以及功能按钮,所述功能按钮包括所述电子装置的导航按钮、其他与所述电子装置的应用程序相关的按钮。
3.如权利要求2所述的语音播报方法,其特征在于,所述识别所述截屏图片的内容包括:
采用光学字符识别技术对所述截屏图片所包括的文字进行识别,采用图像识别技术对所述截屏图片所包括的功能按钮进行识别;
所述采用图像识别技术对所述截屏图片所包括的功能按钮进行识别包括:
采用模板匹配法,将预设的多种功能按钮的图片分别与所述截屏图片进行匹配来识别截屏图片所包括的功能按钮,其中,所预设的多种功能按钮分别对应一个名称;若所述截屏图片存在与预设的其中某种功能按钮的图片相匹配的内容,则确定所述截屏图片包括所述某种功能按钮;及获取所述某种功能按钮的名称。
4.如权利要求3所述的语音播报方法,其特征在于,所预设的每种功能按钮所对应名称分别利用多种语言进行记录,所述多种语言包括光学字符识别技术所能识别的语言;或者
所预设的每种功能按钮所对应名称仅用所述多种语言中的其中一种语言进行记录,所述其中一种语言为所述电子装置的系统语言。
5.如权利要求1所述的语音播报方法,其特征在于,所述将所识别出来的内容利用所述所设置的语言进行语音播报包括:
确定所识别出来的内容所对应的语言与所述所设置的语言是否相同;
若所识别出来的内容所对应的语言与所述所设置的语言不相同,将所识别出来的内容转化为所述所设置的语言所对应的内容;及
利用所述所设置的语言将所识别出来的内容语音播报给用户。
6.一种电子装置,其特征在于,所述电子装置包括存储器及处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令以实现如权利要求1至5中任一项所述的语音播报方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至5中任一项所述的语音播报方法。
8.一种语音播报装置,其特征在于,所述语音播报装置包括:
设定模块,用于设置电子装置进行语音播报时所采用的语言;
截屏模块,用于当所述电子装置当前满足指定条件时,执行截屏操作,获取截屏图片,所述指定条件是指所述电子装置的屏幕上所显示的内容发生变化,或者,所述指定条件是指所述电子装置接收到的指定信号,所述指定信号为截屏信息、电源键和音量+键同时被按压所产生的信号或者屏幕切换信号;
识别模块,用于识别所述截屏图片的内容;及
执行模块,用于将所识别出来的内容利用所设置的语言进行语音播报,当所识别出来的所述截屏图片的内容包括功能按钮时,将所识别出来的功能按钮所对应的名称播报给用户后,接收用户的语音输入;将所述语音输入转化为所述所设置的语言所对应的文字;当所述转化得到的文字与所识别出来的功能按钮所对应的名称相同时,控制所述电子装置执行所述识别出来的功能按钮所对应的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811163455.XA CN109462689B (zh) | 2018-09-30 | 2018-09-30 | 语音播报方法及装置、电子装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811163455.XA CN109462689B (zh) | 2018-09-30 | 2018-09-30 | 语音播报方法及装置、电子装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109462689A CN109462689A (zh) | 2019-03-12 |
CN109462689B true CN109462689B (zh) | 2022-01-04 |
Family
ID=65607284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811163455.XA Active CN109462689B (zh) | 2018-09-30 | 2018-09-30 | 语音播报方法及装置、电子装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109462689B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502300A (zh) * | 2019-08-14 | 2019-11-26 | 上海掌门科技有限公司 | 语音播放方法、设备以及计算机可读介质 |
CN110781657A (zh) * | 2019-10-14 | 2020-02-11 | 百度在线网络技术(北京)有限公司 | 导航播报的管理方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020006107A (ko) * | 2000-07-11 | 2002-01-19 | 박영준 | 손목시계형 휴대폰 및 사용방법 |
CN101814003A (zh) * | 2010-03-25 | 2010-08-25 | 西安电子科技大学 | 嵌入式移动通信终端图形界面系统及其方法 |
CN103390159A (zh) * | 2013-07-19 | 2013-11-13 | 中安消技术有限公司 | 将屏幕文字转化为语音的方法及装置 |
CN103838464A (zh) * | 2014-03-06 | 2014-06-04 | 北京保益互动科技发展有限公司 | 盲人手机读屏图形控件自动适配方法 |
CN108182184A (zh) * | 2017-12-27 | 2018-06-19 | 北京百度网讯科技有限公司 | 图片文字翻译方法、应用及计算机设备 |
-
2018
- 2018-09-30 CN CN201811163455.XA patent/CN109462689B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020006107A (ko) * | 2000-07-11 | 2002-01-19 | 박영준 | 손목시계형 휴대폰 및 사용방법 |
CN101814003A (zh) * | 2010-03-25 | 2010-08-25 | 西安电子科技大学 | 嵌入式移动通信终端图形界面系统及其方法 |
CN103390159A (zh) * | 2013-07-19 | 2013-11-13 | 中安消技术有限公司 | 将屏幕文字转化为语音的方法及装置 |
CN103838464A (zh) * | 2014-03-06 | 2014-06-04 | 北京保益互动科技发展有限公司 | 盲人手机读屏图形控件自动适配方法 |
CN108182184A (zh) * | 2017-12-27 | 2018-06-19 | 北京百度网讯科技有限公司 | 图片文字翻译方法、应用及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109462689A (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847214B (zh) | 语音处理方法、客户端、装置、终端、服务器和存储介质 | |
CN107463247B (zh) | 一种文本阅读处理的方法、装置以及终端 | |
CN106251869B (zh) | 语音处理方法及装置 | |
CN109032470B (zh) | 截图方法、装置、终端及计算机可读存储介质 | |
CN107657973B (zh) | 文本及音频混合显示方法、装置、终端设备及存储介质 | |
CN108829686B (zh) | 翻译信息显示方法、装置、设备及存储介质 | |
CN108595520B (zh) | 一种生成多媒体文件的方法和装置 | |
WO2014201832A1 (en) | Page turning method, page turning apparatus and terminal as well as computer readable medium | |
WO2020042468A1 (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN105739897A (zh) | 一种触控操作处理的方法、装置以及终端 | |
EP2824633A1 (en) | Image processing method and terminal device | |
CN104780452A (zh) | 显示设备、交互式服务器和提供响应信息的方法 | |
WO2015043442A1 (en) | Method, device and mobile terminal for text-to-speech processing | |
WO2020221073A1 (zh) | 一种内容翻译的方法和终端 | |
CN109656444B (zh) | 列表定位方法、装置、设备及存储介质 | |
WO2014154097A1 (en) | Automatic page content reading-aloud method and device thereof | |
CN109462689B (zh) | 语音播报方法及装置、电子装置及计算机可读存储介质 | |
US20190361952A1 (en) | Search Method, Device and Storage Medium | |
US20140278961A1 (en) | Information processing device and program | |
CN110379406B (zh) | 语音评论转换方法、系统、介质和电子设备 | |
CN111199136B (zh) | 文档内容的展示方法、装置及设备 | |
CN107508969A (zh) | 一种信息处理方法、装置、计算机装置及计算机可读存储介质 | |
CN110970011A (zh) | 图片处理方法、装置、设备及计算机可读存储介质 | |
CN109167939B (zh) | 一种自动配文方法、装置及计算机存储介质 | |
CN114449133A (zh) | 文件显示方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |