CN110198464B

CN110198464B - 语音智能播报方法、装置、计算机设备及存储介质

Info

Publication number: CN110198464B
Application number: CN201910372969.4A
Authority: CN
Inventors: 陈小翔
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2023-03-28
Anticipated expiration: 2039-05-06
Also published as: CN110198464A

Abstract

本发明公开了一种语音智能播报方法、装置、计算机设备及存储介质，通过检测当前页面的页面内容，生成页面检测数据；判断页面检测数据是否满足预设检测数据，若页面检测数据不满足预设检测数据，则获取目标人脸图像；判断目标人脸图像是否与预设的样本人脸图像相匹配，若目标人脸图像与样本人脸图像相匹配，则获取当前页面的待播报信息；将待播报信息转换成待播报语音数据，并通过客户端播报待播报语音数据；不需要用户额外执行特定的触发指令即可对当前页面的待播报信息进行语音播报，保证了使用的效率和便捷性，实现了语音播报的智能化。

Description

语音智能播报方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音语义领域，尤其涉及一种语音智能播报方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的发展和移动终端的逐渐普及，越来越多的老人开始使用手机移动端进行线上交流和阅览资讯等，但由于随着年龄的增长，很多老人家的视力和记忆力开始逐渐衰弱。因此，很多老人在手机移动端进行线上交流或阅览资讯时，会出现无法看清楚页面上的文字，或者当看久了会出现眼睛疲劳等现象，从而给老人家使用手机移动端来了极大的不便。虽然，目前的手机移动端大部分已具备有语音播报的功能，但是开启语音播报功能的操作过程比较复杂，且播报方式比较单一，给用户的使用带来极大的不便。

发明内容

本发明实施例提供一种语音智能播报方法、装置、计算机设备及存储介质，以解决无法智能地进行语音播报的问题。

一种语音智能播报方法，包括：

检测当前页面的页面内容，生成页面检测数据；

判断所述页面检测数据是否满足预设检测数据；

若所述页面检测数据不满足所述预设检测数据，则获取目标人脸图像；

判断所述目标人脸图像是否与预设的样本人脸图像相匹配，若所述目标人脸图像与所述样本人脸图像相匹配，则获取所述当前页面的待播报信息；

将所述待播报信息转换成待播报语音数据，并通过所述客户端播报所述待播报语音数据。

一种语音智能播报装置，包括：

检测模块，用于检测当前页面的页面内容，生成页面检测数据；

判断模块，用于判断所述页面检测数据是否满足预设检测数据；

目标人脸图像获取模块，用于在所述页面检测数据不满足所述预设检测数据时，获取目标人脸图像；

待播报信息获取模块，用于判断所述目标人脸图像是否与预设的样本人脸图像相匹配，在所述目标人脸图像与所述样本人脸图像相匹配时，获取所述当前页面的待播报信息；

转换模块，用于将所述待播报信息转换成待播报语音数据，并通过所述客户端播报所述待播报语音数据。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音智能播报方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音智能播报方法的步骤。

上述语音智能播报方法、装置、计算机设备及存储介质，通过检测当前页面的页面内容，生成页面检测数据；判断页面检测数据是否满足预设检测数据，若页面检测数据不满足预设检测数据，则获取目标人脸图像；判断目标人脸图像是否与预设的样本人脸图像相匹配，若目标人脸图像与样本人脸图像相匹配，则获取当前页面的待播报信息；将待播报信息转换成待播报语音数据，并通过客户端播报待播报语音数据；不需要用户额外执行特定的触发指令即可对当前页面的待播报信息进行语音播报，保证了使用的效率和便捷性，实现了语音播报的智能化。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音智能播报方法的一应用环境示意图；

图2是本发明一实施例中语音智能播报方法的一示例图；

图3是本发明一实施例中语音智能播报方法的另一示例图；

图4是本发明一实施例中语音智能播报方法的另一示例图；

图5是本发明一实施例中语音智能播报方法的另一示例图；

图6是本发明一实施例中语音智能播报方法的另一示例图；

图7是本发明一实施例中语音智能播报方法的另一示例图；

图8是本发明一实施例中语音智能播报装置的一原理框图；

图9是本发明一实施例中语音智能播报装置的另一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音智能播报方法，该语音智能播报方法可应用如图1所示的应用环境中。具体地，该语音智能播报方法应用在语音智能播报系统中，该语音智能播报系统包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决无法智能地进行语音播报的问题。其中，客户端又称为用户端，是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音智能播报方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：检测当前页面的页面内容，生成页面检测数据。

其中，页面检测数据为对当前页面的页面内容进行信息检测后所生成的数据。具体地，页面检测数据可以包括：文字数量、文字大小和颜色对比度等。其中，文字数量指当前页面中的文字的总数量。文字大小指当前页面中的文字的字号大小。例如：小四、小五、五号或六号等。颜色对比度指当前页面中的文字颜色与背景页面的相似度比值。可以理解地，颜色对比度越高表示当前页面的文字颜色与背景页面的颜色差异越大，视觉效果越好；颜色对比度越低表示当前页面的文字颜色与背景页面的颜色越接近，视觉效果越差。可选地，可采用阿里测、Web PageTest或Yahoo工具等页面检测工具实现对当前页面的页面内容的检测，生成页面检测数据。另外地，若当前页面的页面内容包含有图像部分，则可先采用图像识别工具对该页面内容所包含的图像部分进行识别，获取图像部分所包含的文字信息，然后再对识别出的文字信息进行检测。或者，还可直接使用格式转化工具将当前页面所包含的图像部分转化为文档格式后再进行检测。

在一个具体实施方式中，检测当前页面的页面内容可以由特定的指令或请求来触发。具体地，客户端发起一个对当前页面的页面内容的检测请求，并将该检测请求发送至服务端，服务端在获取到该检测请求之后，根据该检测请求触发一个页面内容检测指令，从而对当前页面的页面内容进行检测。可选地，检测当前页面的页面内容的触发动作，可以在用户进入客户端页面时，自动触发客户端生成页面检测请求，并将该页面检测请求发送至服务端，服务端根据获取的页面检测请求对当前页面的页面内容进行检测。

S20：判断页面检测数据是否满足预设检测数据。

其中，预设检测数据是预先设定的、用来校验页面检测数据是否满足条件的数据。具体地，预设检测数据可以包括：文字数量区间值、文字大小区间值和颜色对比区间值等。文字数量区间值指用于判断页面检测数据中的文字数量是否满足预设条件的值。例如：文字数量区间值可以设置0-300或0-500等。文字大小区间值指用于判断页面检测数据中的文字大小是否满足预设条件的值。例如：文字大小区间值可以设置为初号-四号等。颜色对比区间值指用于评估页面检测数据中的颜色对比度是否满足预设条件的值。优选地，为了保证当前页面的文字视觉效果，颜色对比区间设定为3:1-15:1。

将页面检测数据中所包含的子检测信息与预设检测数据中所包含的子预设信息进行一一比较，判断页面检测数据是否满足预设检测数据。可选地，若页面检测数据中所包含的任意一项子检测信息不满足预设检测数据中对应的子预设信息；则判断该页面检测数据不满足预设检测数据。反之，则满足。或者，若页面检测数据度中所包含的所有项子检测信息都不满足预设检测数据中对应的子预设信息；则判断该页面检测数据不满足预设检测数据。反之，则满足。在一具体实施方式中，可通过设定一个信息阈值来判断页面检测数据是否满足预设检测数据。若页面检测数据中所包含的子检测信息不满足预设检测数据中对应的子预设信息的数量大于信息阈值；则判断该页面检测数据不满足预设检测数据。反之，则满足。其中，信息阈值指用于判断页面检测数据是否满足预设检测数据的值，用户可根据实际情况自定义设定。

S30：若页面检测数据不满足预设检测数据，则获取目标人脸图像。

具体地，若根据步骤S20判断得到页面检测数据不满足预设检测数据，则自动触发客户端进入人脸采集模式，并通过人脸采集工具获取目标人脸图像。其中，人脸采集工具可以是客户端上的摄像头。其中，目标人脸图像指对当前用户进行人脸信息采集后所生成的图像。可选地，为了保证获取的目标人脸图像的清晰度和准确性，当触发客户端进入人脸采集模式后，可对当前用户进行多次人脸信息采集，获取复数幅人脸图像，再从中选取最具代表性的一幅人脸图像作为目标人脸图像。具体地，可以从复数幅人脸图像中选取其中的人脸图像都是正面朝向的图像作为目标人脸图像。而对人脸朝向的检测可以通过预先训练对应的神经网络模型，得到一个人脸朝向识别模型来实现。即通过将大量代表不同人脸朝向的图像数据进行标注之后输入到一个神经网络模型中进行训练，即得到人脸朝向识别模型。

在一个具体实施方式中，若根据步骤S20判断得到页面检测数据满足预设检测数据，则不执行获取目标人脸图像的步骤。

S40：判断目标人脸图像是否与预设的样本人脸图像相匹配，若目标人脸图像与样本人脸图像相匹配，则获取当前页面的待播报信息。

在获取目标人脸图像之后，判断该目标人脸图像是否与预设的样本人脸图像相匹配。其中，样本人脸图像指预先对用户进行人脸采集后得到的图像，可以为一张或者多张。在本实施例中，样本人脸图像是指预先对老人进行人脸采集后得到的图像，用于辨识获取的目标人脸图像是否为对应的老人。对于一固定的客户端(移动终端)而言，可预先采集代表老人或者视力不佳的用户的人脸图像，作为样本人脸图像。例如，对于家庭用户，可预先对家庭中爷爷和奶奶进行人脸采集，分别获取爷爷和奶奶对应的样本人脸图像，并保存在服务端的数据库；在获取目标人脸图像后，将目标人脸图像分别与数据库保存的爷爷对应的样本人脸图像，和奶奶对应的样本人脸图像进行一一匹配，判断目标人脸图像是否与爷爷对应的样本人脸图像，或者奶奶对应的样本人脸图像相匹配。若目标人脸图像与爷爷对应的样本人脸图像，或者和奶奶对应的样本人脸图像相匹配，则判断该目标人脸图像与样本人脸图像相匹配。

具体地，判断目标人脸图像是否与预设的样本人脸图像相匹配，可采用人脸识别算法将目标人脸图像与预设的样本人脸图像进行匹配，若目标人脸图像与样本人脸图像的匹配度大于匹配阈值，则表示目标人脸图像与样本人脸图像相匹配；若目标人脸图像与样本人脸图像的匹配度小于匹配阈值，则表示目标人脸图像与样本人脸图像不相匹配。其中，人脸识别算法是指用于对不同人脸图像进行比对，并且得到比对结果的一种识别算法。具体地，人脸识别算法可以采用基于几何特征的识别算法、基于局部特征分析的识别算法、基于特征脸的识别算法、基于神经网络的识别算法或者基于弹性模型的识别算法来实现。匹配阈值指预先设定的、用来判断获取的目标人脸图像与样本人脸图像是否相匹配的阈值。可选地，匹配阈值可以为90％、95％或98％等，用户可以根据实际情况自定义设置。

若判断得到目标人脸图像与样本人脸图像相匹配，则获取当前页面的待播报信息。其中，待播报信息指当前页面中需进行语音播报的信息。若判断得到目标人脸图像与样本人脸图像不相匹配，则不执行获取当前页面的待播报信息的步骤。

S50：将待播报信息转换成待播报语音数据，并通过客户端播报待播报语音数据。

其中，待播报语音数据指对待播报信息进行语音转化后所得的语音数据。可选的，可采用基于文语转换TTS技术将待播报内容转换为对应的待播报语音数据，然后通过客户端的扬声器对该待播报语音数据进行播报。

优选地，为了便于用户更清晰、直观的听懂客户端播报的待播报语音数据，以及体现待播报语音数据的多样性。在通过客户端播报待播报语音数据之前，还可以预先设定待播报语音数据的语言播报方式。其中，语言播报方式指对待播报语音数据进行语音播报的语言方式。例如：可以将待播报语音数据设定为粤语方式的语音数据，也可以将待播报语音数据设定为潮汕语方式的语音数据，还可以将待播报语音数据设定为客家语方式的语音数据等。在一具体实施方式中，可采用语言转化器将待播报语音数据转化成设定语言播报方式的语音数据之后，再通过客户端的扬声器播报该待播报语音数据。

在本实施例中，通过检测当前页面的页面内容，生成页面检测数据；判断页面检测数据是否满足预设检测数据，若页面检测数据不满足预设检测数据，则获取目标人脸图像；判断目标人脸图像是否与预设的样本人脸图像相匹配，若目标人脸图像与样本人脸图像相匹配，则获取当前页面的待播报信息；将待播报信息转换成待播报语音数据，并通过客户端播报待播报语音数据；不需要用户额外执行特定的触发指令即可对当前页面的待播报信息进行语音播报，保证了使用的效率和便捷性，实现了语音播报的智能化。

在一实施例中，如图3所示，在通过客户端播报待播报语音数据之后，语音智能播报方法还包括：

S60：实时采集客户端根据待播报语音数据返回的语音交互数据。

其中，语音交互数据指用户输入的语音信息。具体地，在客户端播报待播报语音数据之后，可通过客户端的语音采集工具实时获取用户根据该报待播报语音数据输入的语音交互数据，以对用户输入的语音交互数据进行实时地采集。可选地，可以通过预设的指令来控制该步骤的开启和关闭。示例性地，通过特定的文字信息、图像信息或者手势信息来实现对“实时采集用户输入的语音交互数据”的开启或关闭。

S70：对语音交互数据进行语音识别，得到语音识别结果。

其中，语音识别结果指对用户输入的语音交互数据进行识别后，所得到的对应的文字信息，具体地，可以采用语音识别算法对采集的语音交互数据进行语音识别，例如：基于DTW的语音识别算法或者基于HMM的语音识别算法等。

S80：根据语音识别结果，加载语音识别结果对应的功能。

在根据步骤得到S70得到语音识别结果之后，根据该语音识别结果来获取到对应的功能，并且对该语音识别结果对应的功能进行加载。具体地，可以预先设置一个关键词库，然后将该语音识别结果与关键词库中的所有关键词进行一一匹配，最后根据具体的匹配结果，为该语音识别结果匹配到对应的功能，并在后台预加载该语音识别结果对应的功能。示例性地，若第一识别结果为“重复播放”，通过关键词匹配之后所得的对应的功能为对待播报内容进行“重复播放”，则客户端会继续对待播报内容进行“重复播放；若第一识别结果为“页面跳转”，通过关键词匹配之后所得的对应的功能为当前页面进行“页面跳转”，则客户端会自动跳转到当前页面的下一页面。

本实施例中，通过实时采集客户端根据待播报语音数据返回的语音交互数据，对语音交互数据进行语音识别，得到语音识别结果，根据语音识别结果，加载语音识别结果对应的功能；可根据用户的语音交互数据执行对应的播报或跳转功能；进一步提高了使用的效率和便捷性，增强了用户体验。

在一实施例中，如图4所示，根据语音识别结果，加载语音识别结果对应的功能，具体包括如下步骤：

S801：采用关键词提取算法，提取语音识别结果中的目标关键词。

其中，目标关键词是指从语音识别结果中提取的关键性文字。在本实施例中，目标关键词主要为语音识别结果中的动词、名词和数量词。具体地，采用关键词提取算法，从语音识别结果中提取目标关键词，其中，关键词提取算法可以是TextRank算法，即服务端可通过TextRank算法提取语音识别结果中的目标关键词。其中，TextRank算法主要根据文本本身的特征去提取关键词。TextRank算法通过将语音识别结果分割为若干个组成分词，并建立相应的有向图模型，然后利用投票机制对文本中的重要的成分进行相应地排序，根据排序提取预设数量的关键词作为目标关键词。

S802：将目标关键词与关键词库中的每一预设关键词进行一一匹配，得到匹配结果，匹配结果包括匹配成功和匹配失败。

其中，预设关键词是指预先存储在数据库中的加载对应功能的名词。可选地，预设关键词可以包括：重复播放、停止播放、保存页面和跳转页面等。具体地，将从语音识别结果中提取出的目标关键词与关键词库中每一预设关键词进行匹配。可选地，可采用相似度算法计算目标关键词与数据库中每一预设关键词的相似度，若计算得到的相似度等于或大于相似度阈值时，则表示该目标关键词与预设关键词匹配成功，得到的匹配结果为匹配成功，若计算得到的相似度小于相似度阈值时，则表示该目标关键词与预设关键词匹配失败，得到的匹配结果为匹配失败。其中，相似度算法可以是编辑距离算法，采用编辑距离算法计算目标关键词与关键词库中的每一预设关键词的相似度。其中，相似度阈值是用于评估目标关键词与预设关键词是否匹配成功的值，通过相似度阈值判断预设关键词与目标关键词是否相匹配。

S803：若匹配结果为匹配成功，则加载语音识别结果对应的功能。

具体地，若根据步骤S802得到的匹配结果为匹配成功，则加载该语音识别结果所对应的功能。示例性地，若语音识别结果为“重复播放上一句”，经步骤S801-S802得到该语音识别结果的匹配结果为匹配成功，则客户端会自动对上一句的待播报内容进行重复播放。

在本实施例中，通过采用关键词提取算法，提取语音识别结果中的目标关键词，将目标关键词与关键词库中的每一预设关键词进行一一匹配，得到匹配结果，匹配结果包括匹配成功和匹配失败，若匹配结果为匹配成功，则加载语音识别结果对应的功能，从而提高了根据语音交互数据加载对应功能的效率。

在一实施例中，如图5所示，判断页面检测数据是否满足预设检测数据，具体包括如下步骤：

S201：获取页面检测数据，页面检测数据包括N个不同的子检测信息，N为正整数。

其中，子检测信息指页面检测数据中所包含的信息。页面检测数据包括N个不同的子检测信息，N为正整数。优选地，在本实施例中，子检测信息可以为：文字数量、文字大小和颜色对比度等，N为3。

S202：将子检测信息与预设检测数据中对应的子预设信息进行比较，预设检测数据包括M个不同的子预设信息，M为正整数。

其中，子预设信息指预先设定的、用来评估子检测信息是否满足条件的信息。预设检测数据包括M个不同的子预设信息，M为正整数。优选地，在本实施例中，子预设信息可以为：文字数量区间值、文字大小区间值和颜色对比区间值。

为了保证比较结果的准确性，在将子检测信息与预设检测数据中对应的子预设信息进行比较之前，还需预先采用字符串匹配法，将页面检测数据中的子检测信息与预设检测数据中的子预设信息进行配对，确定比对信息组。例如：将子检测信息文字数量与子预设信息文字数量区间值进行配对，组成第一比对信息组；将子检测信息文字大小与子预设信息文字大小区间值进行配对，组成第二比对信息组；将子检测信息颜色对比度与子预设信息颜色对比区间值进行配对，组成第三比对信息组。然后，再将第一比对信息组中的文字数量与文字数量区间值进行比较，判断该文字数量是否满足文字数量区间值；将第二比对信息组中的文字大小与文字大小区间进行比较，判断该文字大小是否满足文字大小区间；将第三比对信息组中的颜色对比度与颜色对比区间值进行比较，判断该颜色对比度是否满足颜色对比区间值。

S203：若任意一子检测信息不满足预设检测数据中对应的子预设信息，则页面检测数据不满足预设检测数据。

具体地，若根据步骤S302得到若任意一子检测信息不满足预设检测数据中对应的子预设信息，则该页面检测数据不满足预设检测数据。反之，则该页面检测数据满足预设检测数据。

在本实施例中，通过获取页面检测数据，页面检测数据包括N个不同的子检测信息；将子检测信息与预设检测数据中对应的子预设信息进行比较，预设检测数据包括M个不同的子预设信息；若任意一子检测信息不满足预设检测数据中对应的子预设信息，则页面检测数据不满足预设检测数据，保证了对页面检测数据进行判断的准确性。

在一实施例中，如图6所示，获取当前页面的待播报信息，具体包括如下步骤：

S401：实时监控客户端在当前页面的操作指令。

具体地，若目标人脸图像与样本人脸图像相匹配，则自动触发进入监控模式，实时监控客户端在当前页面的操作指令。其中。操作指令指用户在客户端的当前页面执行操作行为所生成的指令。可选地，操作指令可以为用户在客户端执行触摸、点击、滑动、框选或截屏等操作行为所生成的指令。可选地，可预先在客户端页面插入一监听脚本插件，在判断得到目标人脸图像与样本人脸图像相匹配时，自动开启监听脚本插件的开关，监听脚本插件监听用户在客户端的当前页面执行的操作行为，并将操作行为生成的操作指令实时发送到服务端，从而实现实时监控客户端在当前页面的操作指令。

S402：若操作指令为有效操作指令，则获取有效操作指令对应的触发位置。

其中，有效操作指令指用户在客户端页面中的有效区域执行页面操作行为所生成的指令。具体地，有效区域可以包括：页面上的链接、文字、按钮、输入框等非空白功能处对应的区域。具体地，判断客户端在当前页面的操作指令是否为有效操作指令，可通过获取该操作指令在当前页面的位置信息来判断。在一具体实施方式中，每一页面都已预先设定好该页面中有效区域和无效区域的位置信息。若该操作指令在当前页面的位置信息为有效区域，则判断该操作指令为有效操作指令，反正，则为无效操作指令。

具体地，若操作指令为有效操作指令，则获取有效操作指令对应的触发位置。其中，触发位置用户在当前页面上执行操作行为的位置。在本实施例中，触发位置可以是一个固定点，也可以是一个区域范围。

S403：根据触发位置获取待播报信息。

根据触发位置获取待播报信息是指对触发位置所在区域范围内的内容进行识别，提取出该触发位置所在区域范围内的文字信息的过程。可选地，可采用OCR文字识别工具对该触发位置所在区域范围内的内容进行识别，从而获取待播报信息。具体地，若触发位置为一个固定点，则可通过以触发位置为坐标原点构建直角坐标系，并通过坐标点来体现触发位置所在区域范围。例如：以触发位置为坐标原点，设定坐标点为[x,y]，则该触发位置所在区域范围可以为：以触发位置为坐标原点，横向向左/右延伸x，纵向向上/下延伸y后所组成的矩形区域范围。或者，以触发位置为坐标原点，横向向左延伸x/2和向右延伸x/2，纵向向上延伸y/2和向下延伸y/2后所组成的矩形区域范围。若触发位置为一区域范围，则直接将该区域范围作为该触发位置所在区域范围。

在本实施例中，通过实时监控客户端在当前页面的操作指令；若操作指令为有效操作指令，则获取有效操作指令对应的触发位置；根据触发位置获取待播报信息；保证了获取的待播报信息的准确性。

在一实施例中，如图7所示，采用关键词提取算法，提取语音识别结果中的目标关键词，具体包括如下步骤：

S8011：对语音识别结果进行分词、词性标注处理和词性过滤，获取指定词性的候选关键词。

其中，候选关键词是指对语音识别结果进行分词和过滤后，获取到的指定词性的分词。具体地，服务端先将获取到的语音识别结果，然后采用ANSJ中文分词器对语音识别结果进行分词处理和词性标注处理，词性可以是名词、动词、形容词、数量词和代词等；再根据服务端预先确定的指定词性(如预先确定将“动词”、“名词”和“数量词”作为指定词性)，从语音识别结果中，获取到与“动词”、“名词”和“数量词”这些指定词性相对应的分词。例如，语音识别结果为“重复播放上一句”，先将语音识别结果进行分词，可分为“重复”、“播放”、“上一句”、，并对语音识别结果进行词性标注，例如，“重复”是副词，“播放”是动词，“上一句””为名词，将指定词性“名词”和“动词”对应的分词进行保留，作为候选关键词。

S8012：基于候选关键词，设置滑动窗口为K，若两节点对应的词汇在长度为K的窗口中共现，则两节点之间存在边，基于边构建候选关键词有向图G＝(V，E)，其中，V为有向图的节点集合，E为有向图的边集合，E是V×V的子集。

其中，共现即共同出现，也就是词语搭配可能共同出现，习惯性搭配中词项相互期待和预见。具体地，服务端根据指定词性的候选关键词，设置滑动窗口为K，K表示的是窗口的大小，也就是指最多共现的节点数目为K个。在构建候选关键词有向图的时候，将候选关键词作为节点，当节点对应的词汇在长度为K的窗口中共现，则认为窗口里面的分词存在共现关系，两个节点之间存在边，则基于两个节点构造边，即两个候选关键词构造边，通过每一边以构建侯建关键词有向图，其中，将所有候选关键词作为有向图的节点集合，每一个候选关键词作为有向图的节点，根据节点与节点之间的E是V×V的子集；对于一个给定的节点Vi，In(V_i)为以顶点Vi为终点的入边集合，Out(V_i)表示以顶点Vj为起点的出边集合。

S8013：采用TextRank算法对每一节点的权重进行迭代，直至收敛，获取每一节点对应的权重。

具体地，通过TextRank公式对各节点的权重进行迭代，直至收敛，获取每一节点对应的权重。其中，TextRank公式为：

其中，WS(V_i)表示分词Vi对应的权重，d为阻尼系数，代表从图中某一特定点(候选关键词)指向其他任意点(候选关键词)的概率，其取值为0-1之间，Vi、Vj和Vk均表示分词，WS(V_j)表示迭代分词Vj的权重，w_ji表示Vi和Vj之间的相似度，w_jk表示Vi和Vj之间的相似度，In(V_i)表示以顶点Vi为终点的入边集合，Out(V_j)表示以顶点Vj为起点的出边集合。

S8014：根据每一节点对应的权重对节点进行排序，获取预设数量节点对应的候选关键词作为目标关键词。

具体地，服务端获取每一节点对应的权重，即获取每一属性关键词对应的权重，根据每一属性关键词对应的权重进行排序，将权重较大的属性关键词排序在前，相对应地，将权重较小的属性关键词排序在后，获取预设数量的节点对应的候选关键词作为目标关键词。

在本实施例中，通过对语音识别结果进行分词、词性标注处理和词性过滤，获取指定词性的候选关键词；基于候选关键词，设置滑动窗口为K，若两节点对应的词汇在长度为K的窗口中共现，则两节点之间存在边，基于边构建候选关键词有向图G＝(V，E)，其中，V为有向图的节点集合，E为有向图的边集合，E是V×V的子集；采用TextRank算法对每一节点的权重进行迭代，直至收敛，获取每一节点对应的权重；根据每一节点对应的权重对节点进行排序，获取预设数量节点对应的候选关键词作为目标关键词；进一步提高了对语音识别结果的进行关键词提取的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音智能播报装置，该语音智能播报装置与上述实施例中语音智能播报方法一一对应。如图8所示，该语音智能播报装置包括检测模块10、判断模块20、目标人脸图像获取模块30、待播报信息获取模块40和转换模块50。各功能模块详细说明如下：

检测模块10，用于检测当前页面的页面内容，生成页面检测数据；

判断模块20，用于判断页面检测数据是否满足预设检测数据；

目标人脸图像获取模块30，用于在页面检测数据不满足预设检测数据时，获取目标人脸图像；

待播报信息获取模块40，用于判断目标人脸图像是否与预设的样本人脸图像相匹配，在目标人脸图像与样本人脸图像相匹配时，获取当前页面的待播报信息；

转换模块50，用于将待播报信息转换成待播报语音数据，并通过客户端播报待播报语音数据。

优选地，如图9所示，该语音智能播报装置，还包括：

采集模块60，用于实时采集客户端根据待播报语音数据返回的语音交互数据；

语音识别模块70，用于对语音交互数据进行语音识别，得到语音识别结果；

加载模块80，用于根据语音识别结果，加载语音识别结果对应的功能。

优选地，加载模块80包括：

提取单元，用于采用关键词提取算法，提取语音识别结果中的目标关键词；

匹配单元，用于将目标关键词与关键词库中的每一预设关键词进行一一匹配，得到匹配结果，匹配结果包括匹配成功和匹配失败；

加载单元，用于在匹配结果为匹配成功时，加载语音识别结果对应的功能。

优选地，判断模块20包括：

获取单元，用于获取页面检测数据，页面检测数据包括N个不同的子检测信息，N为正整数；

比较单元，用于将子检测信息与预设检测数据中对应的子预设信息进行比较，预设检测数据包括M个不同的子预设信息，M为正整数；

判断单元，用于在任意一子检测信息不满足预设检测数据中对应的子预设信息时，判断页面检测数据不满足预设检测数据。

优选地，待播报信息获取模块40包括：

监控单元，用于实时监控客户端在当前页面的操作指令；

触发位置获取单元，用于在操作指令为有效操作指令，则获取有效操作指令对应的触发位置；

待播报信息获取单元，用于根据触发位置获取待播报信息。

优选地，提取单元包括：

关键词获取子单元，用于对语音识别结果进行分词、词性标注处理和词性过滤，获取指定词性的候选关键词；

构建子单元，用于基于候选关键词，设置滑动窗口为K，若两节点对应的词汇在长度为K的窗口中共现，则两节点之间存在边，基于边构建候选关键词有向图G＝(V，E)，其中，V为有向图的节点集合，E为有向图的边集合，E是V×V的子集；

迭代子单元，用于采用TextRank算法对每一节点的权重进行迭代，直至收敛，获取每一节点对应的权重；

排序子单元，用于根据每一节点对应的权重对节点进行排序，获取预设数量节点对应的候选关键词作为目标关键词。

关于语音智能播报装置的具体限定可以参见上文中对于语音智能播报方法的限定，在此不再赘述。上述语音智能播报装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存上述实施例中的语音智能播报方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音智能播报方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的语音智能播报。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的语音智能播报。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音智能播报方法，其特征在于，包括：

检测客户端当前页面的页面内容，生成页面检测数据；所述页面检测数据包含文字数量、文字大小和颜色对比度；

将所述页面检测数据中所包含的子检测信息与预设检测数据中所包含的子预设信息进行一一比较，以判断所述页面检测数据是否满足预设检测数据；所述预设检测数据包括文字数量区间值、文字大小区间值和颜色对比区间值；所述子检测信息是指页面检测数据中所包含的所述文字数量、所述文字大小和所述颜色对比度；所述子预设信息指预先设定的用来评估所述子检测信息是否满足条件的信息；

若任意一所述子检测信息不满足所述预设检测数据中对应的所述子预设信息，则进入人脸采集模式以获取目标人脸图像；所述目标人脸图像为正面朝向的图像；

将所述待播报信息转换成设定的语言播报方式的待播报语音数据，并通过所述客户端播报所述待播报语音数据；

所述检测当前页面的页面内容，生成页面检测数据，包括：

当所述当前页面包含图像部分时，对所述图像部分进行文字识别，得到所述图像部分的文字信息；

对所述文字信息进行检测，生成所述页面检测数据。

2.如权利要求1所述的语音智能播报方法，其特征在于，所述在通过所述客户端播报所述待播报语音数据之后，所述语音智能播报方法，还包括：

实时采集所述客户端根据所述待播报语音数据返回的语音交互数据；

对所述语音交互数据进行语音识别，得到语音识别结果；

根据所述语音识别结果，加载所述语音识别结果对应的功能。

3.如权利要求2所述的语音智能播报方法，其特征在于，所述根据所述语音识别结果，加载所述语音识别结果对应的功能，包括：

采用关键词提取算法，提取所述语音识别结果中的目标关键词；

将所述目标关键词与关键词库中的每一预设关键词进行一一匹配，得到匹配结果，所述匹配结果包括匹配成功和匹配失败；

若所述匹配结果为匹配成功，则加载所述语音识别结果对应的功能。

4.如权利要求1所述的语音智能播报方法，其特征在于，所述获取所述当前页面的待播报信息，包括：

实时监控客户端在所述当前页面的操作指令；

若所述操作指令为有效操作指令，则获取所述有效操作指令对应的触发位置；

根据所述触发位置获取待播报信息。

5.如权利要求3所述的语音智能播报方法，其特征在于，所述采用关键词提取算法，提取语音识别结果中的目标关键词，包括：

对所述语音识别结果进行分词、词性标注处理和词性过滤，获取指定词性的候选关键词；

基于所述候选关键词，设置滑动窗口为K，若两节点对应的词汇在长度为K的窗口中共现，则所述两节点之间存在边，基于所述边构建候选关键词有向图G＝(V，E)，其中，V为有向图的节点集合，E为有向图的边集合，E是V×V的子集；所述节点为所述候选关键词有向图中的候选关键词；

采用TextRank算法对每一所述节点的权重进行迭代，直至收敛，获取每一所述节点对应的权重；

根据每一所述节点对应的权重对所述节点进行排序，获取预设数量所述节点对应的候选关键词作为目标关键词。

6.一种语音智能播报装置，其特征在于，包括：

检测模块，用于检测客户端当前页面的页面内容，生成页面检测数据；所述页面检测数据包含文字数量、文字大小和颜色对比度；

判断模块，用于将所述页面检测数据中所包含的子检测信息与预设检测数据中所包含的子预设信息进行一一比较，以判断所述页面检测数据是否满足预设检测数据；所述预设检测数据包括文字数量区间值、文字大小区间值和颜色对比区间值；所述子检测信息是指页面检测数据中所包含的所述文字数量、所述文字大小和所述颜色对比度；所述子预设信息指预先设定的用来评估所述子检测信息是否满足条件的信息；

目标人脸图像获取模块，用于若任意一所述子检测信息不满足所述预设检测数据中对应的所述子预设信息，则进入人脸采集模式以获取目标人脸图像；所述目标人脸图像为正面朝向的图像；

转换模块，用于将所述待播报信息转换成设定的语言播报方式的待播报语音数据，并通过所述客户端播报所述待播报语音数据；

所述检测模块，包括：

文字信息单元，用于当所述当前页面包含图像部分时，对所述图像部分进行文字识别，得到所述图像部分的文字信息；

页面检测数据单元，用于对所述文字信息进行检测，生成所述页面检测数据。

7.如权利要求6所述的语音智能播报装置，其特征在于，所述语音智能播报装置，还包括：

采集模块，用于实时采集所述客户端根据所述待播报语音数据返回的语音交互数据；

语音识别模块，用于对所述语音交互数据进行语音识别，得到语音识别结果；

加载模块，用于根据所述语音识别结果，加载所述语音识别结果对应的功能。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音智能播报方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音智能播报方法。