CN108874356B

CN108874356B - 语音播报方法、装置、移动终端和存储介质

Info

Publication number: CN108874356B
Application number: CN201810549535.2A
Authority: CN
Inventors: 张露文
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2020-10-23
Anticipated expiration: 2038-05-31
Also published as: CN108874356A

Abstract

本申请涉及一种语音播报方法、装置、移动终端和存储介质，所述方法包括：接收语音播报指令，依据所述语音播报指令确定待识别区域；获取所述待识别区域的目标对象；将所述目标对象转换为语音信息；播报所述语音信息。采用本申请的技术方案，能够方便用户获知移动终端显示的阅读信息对应的内容，提高了移动终端的实用性。

Description

语音播报方法、装置、移动终端和存储介质

技术领域

本申请涉及移动终端技术领域，具体涉及一种语音播报方法、装置、移动终端和存储介质。

背景技术

随着移动互联网技术的不断发展，以及信息化进程的持续推进，人们利用移动终端进行阅读的需求也越来越大。

通常情况下，用户在进行阅读时，需要利用眼睛浏览移动终端显示的阅读信息。而在用户眼睛不舒服，或者，用户存在视力障碍等用户阅读不便的情况下，用户不便浏览阅读信息，无法获知阅读信息对应的内容，降低了移动终端的实用性。

发明内容

本申请提供一种语音播报方法、装置、移动终端和存储介质，以解决在用户阅读不便的情况下，用户无法获取到相关阅读信息，降低了移动终端的实用性的问题。

本申请提供一种语音播报方法，所述方法包括：

接收语音播报指令，依据所述语音播报指令确定待识别区域；

获取所述待识别区域的目标对象；

将所述目标对象转换为语音信息；

播报所述语音信息。

本申请还提供一种语音播报装置，所述装置包括：

确定模块，用于接收语音播报指令，依据所述语音播报指令确定待识别区域；

获取模块，用于获取所述待识别区域的目标对象；

转换模块，用于将所述目标对象转换为语音信息；

播报模块，用于播报所述语音信息。

本申请还提供一种移动终端，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行上述所述的语音播报方法；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

本申请还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现上述所述的语音播报方法中各个步骤。

本申请的语音播报方法、装置、移动终端和存储介质，通过接收语音播报指令，依据所述语音播报指令确定待识别区域后，获取待识别区域的目标对象，将目标对象转换为语音信息，并播报该语音信息，实现了将移动终端中的目标对象以声音的方式进行播报。采用本申请的技术方案，能够方便用户获知移动终端显示的阅读信息对应的内容，提高了移动终端的实用性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请的语音播报方法实施例一的流程图；

图2为本申请的语音播报方法实施例二的流程图；

图3为本申请的语音播报装置实施例一的结构示意图；

图4为本申请的语音播报装置实施例二的结构示意图；

图5为本实施例的移动终端实施例的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1为本申请的语音播报方法实施例一的流程图，如图1所示，本实施例的语音播报方法具体可以包括如下步骤：

100、接收语音播报指令，依据该语音播报指令确定待识别区域。

在一个具体实现过程中，当用户不方便阅读移动终端当前显示的信息载体中包含的内容时，该用户可以输入语音播报模式的启动指令，移动终端接收后可以进入语音播报模式。其中，本实施例中的用户可以为具有正常阅读能力的用户、存在视力障碍的用户、不识字的用户等；本实施例中的信息载体可以包括文本和/或图片；本实施例中的语音播报模式的启动指令可以包括但不限制于指定的第一手势指令、指定的第一指纹指令和指定的第一点击指令。例如，用户可以针对语音播报模式设置相关联的手势指令作为指定的第一手势指令，用户若输入手势指令，移动终端会将该手势指令与指定的第一手势指令进行比对，若二者相匹配，则可以进入语音播报模式。

在语音播报模式下，用户可以输入语音播报指令，使移动终端依据接收的语音播报指令确定待识别区域。例如，以移动终端上设置有触控屏为例，触控屏显示阅读信息后，用户可以在需要阅读的区域滑动，移动终端可以接收到第一滑动轨迹触发的区域播报指令，并响应该区域播报指令，确定第一滑动轨迹对应的区域为待识别区域。其中，第一滑动轨迹对应的区域为预先设置，例如，横向滑动轨迹可以对应为滑动轨迹覆盖的区域，斜向滑动轨迹可以对应为以滑动轨迹为直径的圆形区域，或者以滑动轨迹为对角线的四边形区域等，本实施例不做具体限制，其可以根据实际需求进行设置。

在实际应用中，用户可能需要针对某篇新闻、消息等进行全文阅读，这种情况下，若用户每次滑动一次，然后确定相应的待识别区域，用户需要滑动很多次，使得用户体验较差，阅读效率较低。因此，本实施例中，若用户需要进行全文阅读时，用户可以输入全文播报指令，移动终端接收并响应全文播报指令后，根据预设的全文播报与识别区域的关联关系，确定待识别区域。例如，全文播报指令可以包括但不限制于第二手势指令、指定的第二指纹指令和指定的第二点击指令中的至少一种。

在一个具体实现过程中，全文播报指令与待识别区域的关联关系是根据移动终端实际的最大识别范围进行设置的。例如，每个移动终端能够确定的待识别区域大小可能存在差异，部分移动终端确定的待识别区域为触控屏的部分区域，而另一部分终端确定的待识别区域为触控屏的全部区域，而全文阅读模式下，需要识别的区域往往比较大，因此，需要根据移动终端实际的最大识别范围预先设置全文播报指令与待识别区域的关联关系，使得移动终端可以按照移动终端的最大识别范围依次作为待识别区域，或者，不超过移动终端的最大识别范围的设定范围依次作为待识别区域。

101、获取待识别区域的目标对象。

本实施例中，在确定了待识别区域后，可以进一步获取待识别区域的目标对象。

在一个具体实现过程中，可以对待识别区域进行截图操作，以获取待识别区域的图像信息，并识别该图像信息表达的内容作为所述目标对象。其中，本实施例中图像信息可以包括文本信息和/或图片信息。例如，图像信息可以只包括文本信息，也可以只包括图片信息，也可以同时包括文本信息和图片信息，本实施例不做具体限制。

例如，移动终端可以对图像信息进行灰度处理和冗杂信息处理等预处理过程。例如，灰度处理是对同时含有亮度和色彩的图像在保留亮度的前提下，去除色彩的过程。通常情况下，灰度处理方法主要有分量法、平均法、最大值法和加权平均法。由于图像信息中可能随机出现各种类型的噪声，这些噪声会影响改变图像信息的轮廓、降低特征提取精度，干扰字符识别的准确度，因此需要对图像信息进行冗杂信息处理，以提高图像质量、增大信噪比，使得图像信息能够得到更好的体现。

本实施例中，在识别文本信息的表达内容时，可以文本信息进行切分处理，并对切分出的行进行字切分，得到切分字符。在得到切分字符之后，可以按照切分出的行在文本信息中的阅读排列顺序，以及，切分出的字符在行中的排列顺序，依序获取文本信息中的所有字符，作为文本信息表达的内容。在识别图片信息的表达内容时，可以基于人工智能技术，对图片表达的内容进行解读，并可以将表达的内容进一步转化为文本信息，再根据识别文本信息的表达内容的方式进行识别。例如，若图片信息包括某运动员高举奖牌的图片，可以将其解读为“XX运动员兴奋的举起了奖牌”，并将其转化为文本信息，进一步得到图片信息表达的内容，若图片信息包括某场比赛中失败方的运动员悲伤的图片，可以将其解读为“XX运动员对比赛结果失望的表情”，并将其转化为文本信息，进一步得到图片信息表达的内容。在此不再一一举例。

需要说明的是，若图片中存在文本信息，可以按照上述识别图像信息中文本信息所表达的内容的方式，对图片中的文本信息所表达的内容进行识别。

在实际应用中，图像信息中可能存在一些不必要的文本信息和/或图片信息，例如，广告类的文本信息和/或图片信息。因此，可以基于人工智能的技术，对图像信息中的无效信息进行识别，以避免将无效信息作为目标对象。例如，可以通过对大量的数据进行训练建立无效信息数据库，其可以包括文本信息类型的广告、图片类型的广告和正常显示页面中弹出类型的广告等，移动终端在获取待识别区域的目标对象时，可以根据建立的无效信息数据库对图像信息中的数据进行分析，从而提取出有效的数据，并对有效数据进行处理，得到需要表达的内容作为目标对象。

102、将目标对象转换为语音信息。

例如，可以利用文本转语音(Text To Speech，TTS)技术，将文字转换为声音，从而将目标对象转换为语音消息。

103、播报语音信息。

本实施例中，在得到目标对象的语音信息后，可以进行播报，使得用户，能够比较方便的利用移动终端完成阅读，提高了用户的体验，提高了移动终端的实用性。

本实施例的语音播报方法的执行主体可以为语音播报装置，该语音播报装置具体可以通过软件来集成，例如，该语音播报装置具体可以为一个应用，并安装在移动终端中，本发明对此不进行特别限定。

本实施的语音播报方法，通过接收语音播报指令，依据语音播报指令确定待识别区域后，获取待识别区域的目标对象，将目标对象转换为语音信息，并播报该语音信息，实现了将移动终端中的目标对象以声音的方式进行播报。采用本申请的技术方案，能够方便用户获知移动终端显示的阅读信息对应的内容，提高了移动终端的实用性。

图2为本申请的语音播报方法实施例二的流程图，如图2所示，本实施例的语音播报方法在图1所述实施例的基础上，进一步更加详细地对本申请的技术方案进行描述。

如图2所示，本实施例的语音播报方法具体可以包括如下步骤：

200、接收第一滑动轨迹触发的区域播报指令。

201、响应该区域播报指令，确定第一滑动轨迹对应的区域为待识别区域。

202、检测待识别区域的范围是否大于预设范围，若是，执行步骤203，否则，执行步骤206。

在实际应用中，由于不同移动终端的最大识别范围可能不同，因此，若根据检测到的移动终端上的第一滑动轨迹，确定的待识别区域范围比较大，其超出了移动终端的最大识别范围，使得移动终端无法获取待识别区域的目标对象，造成播报内容丢失现象，因此，在确定待识别区域后，需要检测待识别区域的范围是否大于预设范围，若是，则执行步骤203，否则，执行步骤206。

203、生成范围过大的提示信息。

当检测到待识别区域的范围大于预设范围时，可以生成范围过大的提示信息，用户可以根据该提示信息对待识别区域进行调整。例如，可以通过特定的操作(如在待识别区域点击两次)恢复至初始状态，并重新在触控屏上滑动，或者，可以在待识别区域能进行调整，以节省用户时间。具体地，用户可以从待识别区域的末端向始端滑动，缩小待识别区域的范围，也可以从待识别区域的始端端向末端滑动，缩小待识别区域的范围，还可以从待识别区域的中间任意位置向始端或者末端滑动缩小待识别区域的范围等，本实施例不做具体限制。

204、接收第二滑动轨迹触发的待识别区域调整指令。

205、响应待识别区域调整指令，基于第二滑动轨迹，重新确定待识别区域。

例如，用户在待识别区域进行滑动时，移动终端则接收到第二滑动轨迹触发的待识别区域调整指令，此时，响应待识别区域调整指令，并基于第二滑动轨迹，重新确定待识别区域，并返回步骤202，直到待识别区域的范围小于或者等于预设范围，得到待识别区域。

206、将待识别区域区分显示。

在确定待识别区域后，为了能够更好的获取待识别区域的目标对象，本实施例中，可以将待识别区域与触控屏上的其它区域进行区分显示。例如，可以对待识别区域进行色彩变换处理；和/或，对待识别区域进行放大处理，和/或，对待识别区域进行提高亮度处理。

207、获取待识别区域的目标对象。

208、将目标对象转换为语音信息。

为了能够针对用户进行个性化的语音转换，更大程度的还原用户想要表达的感情特征，提高用户体验效果。本实施例中，在利用TTS技术，将文字转换为声音后，还可以对文字进行关键字识别，根据关键字识别出文字中的感情特征，感情特征包括悲伤、愤怒、充满爱、高兴等，再根据感情特征从数据库中读取预存的感情特征对应的特征值，该特征值为相应感情特征下声音的频率、语速、音调、轻重音等。

例如，对文字进行关键字识别，获得与高兴相关的关键字，则判断出用户想要表达的感情特征为高兴，从数据库中读取预存的感情特征为高兴的对应的声音频率、语速、音调、轻重音等对应的特征值。

需要说明的是，为了提高感情特征的准确性，除根据关键字识别出文字信息中的感情特征之外，用户还可以手动输入想要表达的感情特征。

本实施例中，在从数据库中可以获取不同感情特征下声音频率、语速、音调、轻重音等特征值后，可以利用这些特征值对转换后得到的声音进行情感处理，最终的输出语音便带有相应的感情色彩，实现将用户的感情特征传达给接收者的目的。

例如，若得知用户要表达的感情特征是高兴，则从数据库中提取的特征值就是高兴时声音的频率、语速、音调、轻重音等，利用这些特征值对简单转换后得到的声音进行优化，转换的声音就能表现出高兴的感情状态。

209、播报语音信息。

210、退出语音播报模式。

在完成播报语音信息后，用户可以输入语音播报模式的退出指令，移动终端接收到该退出指令后退出语音播报模式。其中，退出指令同样也可以包括但不限制于指定的第三手势指令、指定的第三指纹指令和指定的第三点击指令中的至少一种。例如，用户可以针对语音播报模式设置相关联的手势指令作为指定的第三手势指令，用户若输入一个手势指令时，移动终端会将该手势指令与指定的第三手势指令进行比对，若二者相匹配，则可以退出语音播报模式。

图3为本申请的语音播报装置实施例一的结构示意图，如图3所示，本实施例的语音播报装置包括确定模块10、获取模块11、转换模块12和播报模块13。

确定模块10，用于接收语音播报指令，依据语音播报指令确定待识别区域。

本实施例中，确定模块10具体用于接收第一滑动轨迹触发的区域播报指令；响应区域播报指令，确定第一滑动轨迹对应的区域为待识别区域。另外，确定模块10，还用于接收全文播报指令；响应全文播报指令，根据预设的全文播报指令与待识别区域的关联关系，确定待识别区域。

获取模块11，用于获取待识别区域的目标对象。

例如，获取模块11具体用于获取待识别区域的图像信息；从该图像信息中识别需表达的内容作为目标对象。

转换模块12，用于将目标对象转换为语音信息；

播报模块13，用于播报语音信息。

本实施例的语音播报装置，通过确定模块10接收语音播报指令，依据所述语音播报指令确定待识别区域后，获取模块11获取待识别区域的目标对象，转换模块12将目标对象转换为语音信息，并由播报模块13播报该语音信息，实现了将移动终端中的目标对象以声音的方式进行播报。采用本申请的技术方案，能够方便用户获知移动终端显示的阅读信息对应的内容，提高了移动终端的实用性。

图4为本申请的语音播报装置实施例二的结构示意图，如图2所示，本实施的本申请的语音播报装置在图1所示实施例的基础上，进一步还可以包括检测模块14和区分显示模块15。

检测模块14，用于若检测到待识别区域的范围大于预设范围，生成范围过大的提示信息；

确定模块10还用于接收第二滑动轨迹触发的待识别区域调整指令；响应待识别区域调整指令，基于第二滑动轨迹，重新确定待识别区域。

区分显示模块15，用于将待识别区域区分显示。

例如，对待识别区域进行色彩变换处理；和/或，对待识别区域进行放大处理；和/或，对待识别区域进行提高亮度处理。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5为本实施例的移动终端实施例的结构示意图。如图5所示，本实施例的移动终端可以包括处理器20和存储器21，处理器20与存储器21相连接。

其中，存储器21用于存储计算机程序，该计算机程序至少用于执行前述实施例中的语音播报方法。处理器20用于调用并执行存储器21中的计算机程序。

本申请还提供一种存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时，实现如前述实施例中的语音播报方法中各个步骤。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个区分显示模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种应用于移动终端的语音播报方法，其特征在于，所述方法包括：

接收语音播报指令，依据所述语音播报指令在所述移动终端上确定待识别区域；

获取所述待识别区域的目标对象；

将所述目标对象转换为语音信息；

播报所述语音信息；

所述接收语音播报指令，依据所述语音播报指令确定待识别区域，包括：

接收全文播报指令；

响应所述全文播报指令，根据预设的全文播报指令与所述待识别区域的关联关系，按照移动终端的最大识别范围依次作为待识别区域，或者，不超过移动终端的最大识别范围的设定范围依次作为待识别区域。

2.根据权利要求1所述的方法，其特征在于，所述接收语音播报指令，依据所述语音播报指令确定待识别区域，包括：

接收第一滑动轨迹触发的区域播报指令；

响应所述区域播报指令，确定所述第一滑动轨迹对应的区域为所述待识别区域。

3.根据权利要求1所述的方法，其特征在于，所述接收语音播报指令，依据所述语音播报指令确定待识别区域之后，还包括：

若检测到所述待识别区域的范围大于预设范围，生成范围过大的提示信息；

接收第二滑动轨迹触发的待识别区域调整指令；

响应所述待识别区域调整指令，基于所述第二滑动轨迹，重新确定所述待识别区域。

4.根据权利要求1所述的方法，其特征在于，所述获取所述待识别区域的目标对象之前，还包括：

将所述待识别区域区分显示。

5.根据权利要求4所述的方法，其特征在于，所述将所述待识别区域区分显示，包括：

对所述待识别区域进行色彩变换处理；和/或，

对所述待识别区域进行放大处理；和/或，

对所述待识别区域进行提高亮度处理。

6.根据权利要求1所述的方法，其特征在于，所述接收语音播报指令，依据所述语音播报指令确定待识别区域之前，还包括：

接收语音播报模式的启动指令，启动所述语音播报模式。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述获取所述待识别区域的目标对象，包括：

获取所述待识别区域的图像信息；

识别所述图像信息表达的内容作为所述目标对象；

所述图像信息包括文本信息和/或图片信息。

8.一种语音播报装置，其特征在于，所述装置包括：

确定模块，用于接收语音播报指令，依据所述语音播报指令在移动终端上确定待识别区域；

获取模块，用于获取所述待识别区域的目标对象；

转换模块，用于将所述目标对象转换为语音信息；

播报模块，用于播报所述语音信息；

所述确定模块，还用于：

接收全文播报指令；

9.根据权利要求8所述的装置，其特征在于，所述确定模块，具体用于：

接收第一滑动轨迹触发的区域播报指令；

10.根据权利要求8所述的装置，其特征在于，还包括检测模块；

所述检测模块，用于若所述检测模块检测到所述待识别区域的范围大于预设范围，生成范围过大的提示信息；

所述确定模块，还用于：

接收第二滑动轨迹触发的待识别区域调整指令；

11.根据权利要求8所述的装置，其特征在于，还包括：

区分显示模块，用于将所述待识别区域区分显示。

12.根据权利要求8-11任一项所述的装置，其特征在于，所述获取模块，具体用于：

获取所述待识别区域的图像信息；

从所述图像信息中识别需表达的内容作为所述目标对象。

13.一种移动终端，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行权利要求1-7任一项所述的语音播报方法；

14.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-7任一项所述的语音播报方法中各个步骤。