CN109493862B

CN109493862B - 终端、语音服务器的确定方法和计算机可读存储介质

Info

Publication number: CN109493862B
Application number: CN201811588241.7A
Authority: CN
Inventors: 周文杰; 罗清刚
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2021-11-09
Anticipated expiration: 2038-12-24
Also published as: WO2020135160A1; CN109493862A

Abstract

本发明公开了一种语音服务器的确定方法，所述语音书别服务器的确定方包括以下步骤：在接收到语音信息后，向各个语音服务器发送所述语音信息；接收各个所述语音服务器反馈的文本信息，并确定各个所述语音服务器反馈所述文本信息的文本返回时长；根据各个所述文本信息确定各个所述语音服务器对应的语音识别质量分值，以根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分；将服务质量评分最高的所述服务器作为目标语音服务器。本发明还公开一种终端以及计算机可读存储介质。本发明中的终端能够得到服务质量较好的语音识别服务。

Description

终端、语音服务器的确定方法和计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种终端、语音服务器的确定方法和计算机可读存储介质。

背景技术

随着人工智能技术的发展，语音对话系统已经逐渐成为一种流行的人机交互方式，相比于传统的GUI(图像用户界面)交互，语音交互最大的优势是在长文本输入场合的便捷性。

语音识别是语音交互的首要环节，对用户体验影响很大；但目前主流的语音识别服务存在以下问题：一是可用性不高，某些服务商有时会完全失去响应，使得终端无法得到语音服务器返回的语音识别结果；二是有地域差异，在国内不同省份，各服务商响应速度不一样；从而造成终端使用服务器质量较差的语音识别服务。

发明内容

本发明的主要目的在于提供一种终端、语音服务器的确定方法和计算机可读存储介质，旨在解决终端使用服务器质量较差的语音识别服务的问题。

为实现上述目的，本发明提供一种语音服务器的确定方法，所述语音服务器的确定方法应用于终端，所述终端包括语音接收模块，所述语音书别服务器的确定方包括以下步骤：

在接收到语音信息后，向各个语音服务器发送所述语音信息；

接收各个所述语音服务器反馈的文本信息，并确定各个所述语音服务器反馈所述文本信息的文本返回时长；

根据各个所述文本信息确定各个所述语音服务器对应的语音识别质量分值，以根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分；

将服务质量评分最高的所述服务器作为目标语音服务器。

在一实施例中，所述根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分的步骤包括：

依次将各个所述语音服务器作为当前语音服务器；

根据所述当前语音服务器对应的文本返回时长确定目标时长；

对所述当前语音服务器对应的目标时长以及语音识别质量分值进行加权计算，以得到所述当前语音服务器对应的服务质量评分。

在一实施例中，所述根据所述当前语音服务器对应的文本返回时长确定目标时长的步骤包括：

判断所述当前服务器对应的文本返回时长是否小于预设时长；

在所述当前服务器对应的文本返回时长大于或等于预设时长时，将所述当前服务器对应的文本返回时长，作为所述当前服务器对应的目标时长；

在所述时长小于预设时长时，将所述预设时长作为所述当前服务器对应的目标时长。

在一实施例中，所述根据各个所述文本信息确定各个所述语音服务器对应的语音识别质量分值的步骤包括：

确定所述文本信息中各个字符串的分值；

根据各个所述字符串对应的分值以及所述文本信息中字符串的数量，确定所述文本信息对应的语音服务器的语音识别质量分值。

在一实施例中，所述确定所述文本信息中各个字符串的分值的步骤包括：

依次将所述文本信息中的各个字符串确定为目标字符串

确定所述目标字符串对应的真值，以判断所述目标字符串是否匹配所述真值；

在所述目标字符串匹配所述真值时，将第一预设分值作为所述目标字符串的分值；

在所述目标字符串不匹配所述真值时，将第二预设分值作为所述目标字符串的分值，其中，所述第二预设分值小于所述第一预设分值。

确定所述文本信息中字符串的数量；

在所述数量小于设定数量时，将所述文本信息中设定序号字符串之后的各个字符串的分值，确定为第二预设分值；

将所述设定序号字符串之前的各个字符串作为目标字符串，并执行所述确定所述目标字符串对应的真值的步骤。

在一实施例中，所述根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分的步骤之后，还包括：

根据各个所述语音服务器的服务质量评分，确定各个所语音服务器的服务优先级，其中，所述语音服务器的服务质量评分越大，所述语音服务器的服务优先级越高；

保存各个所述语音服务器对应的服务优先级。

在一实施例中，所述语音服务器的确定方法，还包括：

在接收到语音信息后，判断终端是否存储各个所述语音服务器的服务优先级；

在终端未存储各个所述语音服务器的服务优先级时，执行所述向各个语音服务器发送所述语音信息的步骤；

在所述终端存储各个语音服务器的服务优先级时，将所述语音信息发送至服务优先级最大的所述语音服务器。

为实现上述目的，本发明还提供一种终端，所述终端包括语音接收模块、处理器、存储器和存储在所述存储器上并可在所述处理器上运行的语音服务器的确定程序，所述语音服务器的确定程序被所述处理器执行时实现如上所述的语音服务器的确定方法的各个步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有语音服务器的确定程序，所述语音服务器的确定程序被处理器执行时实现如上所述的语音服务器的确定方法的各个步骤。

本发明提供的终端、语音服务器的确定方法和计算机可读存储介质，终端在接收到语音信息后，向各个语音服务器发送语音信息，从而接收各个语音服务器反馈的文本信息，并确定各个语音服务器反馈文本信息的文本返回时长，再根据各个文本信息确定各个语音服务器的语音识别质量分值，以根据各个语音服务器的语音识别质量分值以及文本返回时长来确定各个服务器的服务质量评分，从而将服务质量评分最高的语音服务器作为目标语音服务器，也即使得终端后续的语音信息均由目标语音服务器进行识别反馈，从而使得终端能够得到服务质量较好的语音识别服务。

附图说明

图1为本发明实施例涉及的终端的硬件结构示意图；

图2为本发明语音服务器的确定方法第一实施例的流程示意图；

图3为图2中步骤S300的细化流程示意图；

图4为图3中步骤S310的细化流程示意图；

图5为本发明语音服务器的确定方法第二实施例的流程示意图；

图6为本发明语音服务器的确定方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：在接收到语音信息后，向各个语音服务器发送所述语音信息；接收各个所述语音服务器反馈的文本信息，并确定各个所述语音服务器反馈所述文本信息的文本返回时长；根据各个所述文本信息确定各个所述语音服务器对应的语音识别质量分值，以根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分；将服务质量评分最高的所述服务器作为目标语音服务器。

由于终端根据各个语音服务器的文本返回时长以及语音识别质量分值，确定各个语音服务器的服务质量评分，从而选取服务指令评分最高的服务器作为目标服务器，使得终端能够得到服务质量较好的语音识别服务。

作为一种实现方案，终端可以如图1所示。

本发明实施例方案涉及的是终端，终端包括：处理器101，例如CPU，存储器102，通信总线103以及语音接收模块104。其中，通信总线103用于实现这些组件之间的连接通信。

存储器102可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机存储介质的存储器102中可以包括语音服务器的确定程序；而处理器101可以用于调用存储器102中存储的语音服务器的确定程序，并执行以下操作：

将服务质量评分最高的所述服务器作为目标语音服务器。

在一实施例中，处理器101可以用于调用存储器102中存储的语音服务器的确定程序，并执行以下操作：

依次将各个所述语音服务器作为当前语音服务器；

确定所述文本信息中各个字符串的分值；

依次将所述文本信息中的各个字符串确定为目标字符串

确定所述文本信息中字符串的数量；

保存各个所述语音服务器对应的服务优先级。

本实施例根据上述方案，终端在接收到语音信息后，向各个语音服务器发送语音信息，从而接收各个语音服务器反馈的文本信息，并确定各个语音服务器反馈文本信息的文本返回时长，再根据各个文本信息确定各个语音服务器的语音识别质量分值，以根据各个语音服务器的语音识别质量分值以及文本返回时长来确定各个服务器的服务质量评分，从而将服务质量评分最高的语音服务器作为目标语音服务器，也即使得终端后续的语音信息均由目标语音服务器进行识别反馈，从而使得终端能够得到服务质量较好的语音识别服务。

基于上述终端的硬件构架，提出本发明语音服务器的确定方法的实施例。

参照图2，图2为本发明语音服务器的确定方的第一实施例，所述语音服务器的确定方包括以下步骤：

步骤S100，在接收到语音信息后，向各个语音服务器发送所述语音信息；

在本发明中，执行主体为终端，终端设有语音接收模块，终端通过语音接收模块采集用户发出的语音信息，终端可以是电视机、手机、空调器等家用电器。终端与多个语音服务器通信连接，终端可向各个语音服务器发送语音信息，各个语音服务器在接收到语音信息后，会识别语音信息，以将语音信息转换为文本信息。

步骤S200，接收各个所述语音服务器反馈的文本信息，并确定各个所述语音服务器反馈所述文本信息的文本返回时长；

语音服务器在将语音信息转化为文本信息后，会将文本信息反馈至终端。终端在接收到文本信息时，会记录返回该文本信息的语音服务器的文本返回时长，具体的，终端在向各个语音服务器发送语音信息时，会开始计时，然后，在接收到语音服务器反馈的文本信息，计算语音信息发送时间点与文本信息接收时间点之间的间隔时长，该间隔时长即为语音服务器的文本返回时长。进一步的，终端设有预设间隔时长，在计时时长达到预设间隔时长时，终端停止接收语音服务器反馈的文本信息，也即语音服务器在预设间隔时长后反馈文本信息，即可认定该语音服务器的语音服务质量较差，预设间隔时长可为任意合适的数值，例如10s。

步骤S300，根据各个所述文本信息确定各个所述语音服务器对应的语音识别质量分值，以根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分；

在本发明中，终端通过语音服务器的文本返回时长以及语音识别质量分值来确定该语音服务器的服务质量评分，语音识别质量分值表征语音服务器反馈的文本的质量，语音识别质量分数可通过文本信息来确定，具体的，请参照图3，也即步骤S300中根据各个所述文本信息确定各个所述语音服务器对应的语音识别质量分值包括：

步骤S310，确定所述文本信息中各个字符串的分值；

在本发明中，文本信息中的各个文字用对应的字符串来表征，一个文字对应唯一的字符串，比如，字符串u4eca对应的文字为“今”，终端为文本信息中的各个字符串进行打分，以得到各个字符串对应的分值，具体的，请参照图4，即步骤S310包括：

步骤S311，依次将所述文本信息中的各个字符串确定为目标字符串；

步骤S312，确定所述目标字符串对应的真值，以判断所述目标字符串是否匹配所述真值；

步骤S313，在所述目标字符串匹配所述真值时，将第一预设分值作为所述目标字符串的分值；

步骤S314，在所述目标字符串不匹配所述真值时，将第二预设分值作为所述目标字符串的分值，其中，所述第二预设分值小于所述第一预设分值；

终端会再将文本信息中的各个字符串依次作为目标字符串，然后确定目标字符串对应的真值，具体的，终端接收由多个语音服务器的文本信息，然后确定目标字符串在文本信息中的序号，例如，目标字符串在文本信息中的位置为第五个字符串(按照从左至右，从上往下，对各个文本信息中的各个字符串进行排序)，然后，获取各个文本信息中第五个字符串，再确定相同字符串的数量，将数量最多的字符串作为目标字符串对应的真值，比如，有五个文本信息，若5个字符串中有2组相同的字符串，其中一组的字符串数量为3，另外一组的字符串数量为2个，那么数量为3个的字符串即为目标字符串对应的真值；

在确定目标字符串对应的真值后，判断目标字符串是否匹配真值，也即判断目标字符串是否与真值一致，若是一致，该目标字符串对应的分值为第一预设分值，若目标字符串与真值不一致，则该目标字符串对应的分值为第二预设分值，第二预设分值小于第一预设分值，第一预设分值与第二预设分值可为任意合适的数值，比如，第一预设分值为1，第二预设分值为0。

以此类推，即得到文本信息中各个字符对应的分值，也即完成各个文本信息中各个字符对应的分值。

步骤S320，根据各个所述字符串对应的分值以及所述文本信息中字符串的数量，确定所述文本信息对应的语音服务器的语音识别质量分值；

在得到各个字符串对应的分值后，再统计文本信息中字符串的数量，有各个分值来得到文本信息对应的语音服务器的语音识别质量分值，语音识别质量分值的获取可参照如下公式：

其中，Score_i为字符串对应的分值，Score_text为语音识别质量分值，n为文本信息中的字符串的数量。

通过上述公式可知，各个字符串对应的分值之和除以文本信息中各个字符串的数量，即可得到文本信息对应的语音服务器的语音识别质量分值。

在得到语音服务器对应的语音识别质量分值后，终端即可根据语音服务器对应的语音识别质量分值与文本返回时长来计算该语音服务器对应的服务质量评分，具体的，对语音识别质量分值与文本返回时长赋予对应的权重，从而对语音识别质量分值以及文本返回时长进行加权计算，从而得到语音服务器对应的服务质量评分，服务质量评分可参照如下公式计算得到：

Sxore_tts＝A/T+B*Score_text，

其中，Score_tts为语音服务器的服务质量评分，Score_text为语音识别质量分值，A为文本返回时长对应的权重，T为文本返回时长，B为语音识别质量对应的权重。

权重A与权重B之和为1，A与B可为任意合适的数值，比如，A为0.88，B为0.12。

通过上述公式，即可计算得到各个语音服务器对应的服务质量评分，服务质量评分越高，表明该语音服务器提供的语音识别服务越好。

在得到各个语音服务器对应的服务质量评分后，根据服务质量评分对各个语音服务器进行服务优先级的设置，设置规则为：服务质量评分越高的语音服务器的服务优先级越大，从而将各个语音服务器对应的服务优先级保存。

步骤S400，将服务质量评分最高的所述服务器作为目标语音服务器；

终端在得到各个语音服务器的服务质量评分后，将服务质量评分最高的语音服务器作为目标服务器，使得终端将后续的语音信息发送至该目标语音服务器，从而使得终端享受较好的服务质量的语音识别服务。

需要说明是，在当终端接收到语音信息后，会先判断终端是否存储有各个语音服务器的服务优先级，若是终端未存储各个语音服务器的服务优先级是，则执行步骤S100-步骤S400，若是终端存储各个语音服务器的服务优先级时，则将语音信息发送至服务优先级最大的语音服务器。

在本实施例提供的技术方案中，终端在接收到语音信息后，向各个语音服务器发送语音信息，从而接收各个语音服务器反馈的文本信息，并确定各个语音服务器反馈文本信息的文本返回时长，再根据各个文本信息确定各个语音服务器的语音识别质量分值，以根据各个语音服务器的语音识别质量分值以及文本返回时长来确定各个服务器的服务质量评分，从而将服务质量评分最高的语音服务器作为目标语音服务器，也即使得终端后续的语音信息均由目标语音服务器进行识别反馈，从而使得终端能够得到服务质量较好的语音识别服务。

参照图5，图5为本发明语音服务器的确定方法的第二实施例，基于第一实施例，所述步骤S300中根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分的包括：

步骤S330，依次将各个所述语音服务器作为当前语音服务器；

步骤S340，根据所述当前语音服务器对应的文本返回时长确定目标时长；

步骤S350，对所述当前语音服务器对应的目标时长以及语音识别质量分值进行加权计算，以得到所述当前语音服务器对应的服务质量评分；

在一实施例中，终端直接根据文本返回时长以及语音识别质量分值加权计算得到语音服务器的服务质量评分；而各个语音服务器的文本返回时长在小于一定的时长，即可认定这些语音服务器文本返回速率较快，也即将文本返回时长小于预设时长的各个语音服务器在文本返回速率均视为优等；对此，终端根据语音服务器的文本返回时长来确定目标时长，若是文本返回时长小于预设时长，则将预设时长作为语音服务器对应的目标时长，若是文本返回时长大于或等于预设时长，则将文本返回时长作为语音服务器对应的目标时长；然后通过将各个语音服务器依次作为当前语音服务器，从而对当前语音服务器对应的目标时长以及语音识别质量分值进行加权计算，即可得到当前语音服务器对应的服务质量评分，以此类推，得到各个语音服务器对应的服务质量评分。

预设时长可为任意合适的数值，比如，180ms。

在本实施例提供的技术方案中，终端通过文本返回时长与预设时长的比对，来确定语音服务器返回文本的目标时长，从而使得终端能够合理的计算各个语音服务器的服务质量评分，终端的智能化程度高。

参照图6，图6为本发明语音服务器的确定方法的第三实施例，基于第一或第二实施例，所述步骤S310还包括：

步骤S315，确定所述文本信息中字符串的数量；

步骤S316，在所述数量小于设定数量时，将所述文本信息中设定序号字符串之后的各个字符串的分值，确定为第二预设分值；

步骤S317，将所述设定序号字符串之前的各个字符串作为目标字符串，并执行所述确定所述目标字符串对应的真值的步骤。

各个语音服务器将语音信息转换为文本信息的质量有好有差，质量较差的文本信息中字符串的数量比其他语音服务器转换的文本信息中的字符串数量少(同一语音信息)。对此，终端在得到各个语音服务器返回的文本信息后，会统计各个文本信息对应的字符串数量，由此根据各个文本信息的字符串数量来确定设定数量，例如，有5个文本信息，其中3个文本信息中字符串数量为50，1个文本信息中的字符串数量为35个，一个为45个，35与50相差较大，也即提供35个字符串的文本信息的语音服务器的语音识别质量较差，此时可将设定数量设置为36，用以表征提供36个字符串以下的文本信息的语音服务器的语音识别质量较差。

对于语音识别质量较差的语音服务器与语音识别质量较好的语音服务器，有不同的字符串分值确定方法，具体的，由于某一文本信息中的字符串与其他文本信息中的字符串的数量差较大，即可认定该文本信息对应的语音服务器的语音识别质量差，此时，将该文本信息中设定序号字符串之后的各个字符串的分值确定为第二预设分值，并同时将设定序号字符串之前的各个字符串作为目标字符串，从而对目标字符串进行分值的确定，也即执行步骤S312-步骤S314。当然，在当文本信息中的数量大于设定数量时，则执行步骤S311-步骤S314。需要说明的是，文本信息中各个字符串有对应的序号，排序的方式按照从左至右以及从上至下的顺序。

通着这种方式，使得终端在准确确定语音服务器的语音识别质量的同时，减小终端的计算资源。

在本实施例提供的技术方案中，终端确定文本信息中字符串的数量，若数量小于设定数量时，将文本信息中设定序号字符串之后的各个字符串的分值确定为第二预设分值，并将设定序号字符串之前的各个字符串作为目标字符串，以对目标字符串进行分值的确定，从而使得终端在准确确定语音服务器的语音识别质量的同时，减小终端的计算资源。

本发明还提供一种终端，所述终端包括语音接收模块、处理器、存储器和存储在所述存储器上并可在所述处理器上运行的语音服务器的确定程序，所述语音服务器的确定程序被所述处理器执行时实现如上实施例所述的语音服务器的确定方法的各个步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有语音服务器的确定程序，所述语音服务器的确定程序被处理器执行时实现如上实施例所述的语音服务器的确定方法的各个步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音服务器的确定方法，其特征在于，所述语音服务器的确定方法应用于终端，所述终端包括语音接收模块，所述语音服务器的确定方法包括以下步骤：

确定所述文本信息中各个字符串的分值；

根据各个所述字符串对应的分值以及所述文本信息中字符串的数量，确定所述文本信息对应的语音服务器的语音识别质量分值，以根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分；

将服务质量评分最高的所述语音服务器作为目标语音服务器；

其中，所述确定所述文本信息中各个字符串的分值的步骤包括：

依次将所述文本信息中的各个字符串确定为目标字符串；

2.如权利要求1所述的语音服务器的确定方法，其特征在于，所述根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分的步骤包括：

依次将各个所述语音服务器作为当前语音服务器；

3.如权利要求2所述的语音服务器的确定方法，其特征在于，所述根据所述当前语音服务器对应的文本返回时长确定目标时长的步骤包括：

判断所述当前语音服务器对应的文本返回时长是否小于预设时长；

在所述当前语音服务器对应的文本返回时长大于或等于预设时长时，将所述当前语音服务器对应的文本返回时长，作为所述当前语音服务器对应的目标时长；

在所述时长小于预设时长时，将所述预设时长作为所述当前语音服务器对应的目标时长。

4.如权利要求1所述的语音服务器的确定方法，其特征在于，所述确定所述文本信息中各个字符串的分值的步骤包括：

确定所述文本信息中字符串的数量；

5.如权利要求1-4任一项所述的语音服务器的确定方法，其特征在于，所述根据各个所述语音服务器对应的文本返回时长以及语音识别质量分值，确定各个所述语音服务器的服务质量评分的步骤之后，还包括：

保存各个所述语音服务器对应的服务优先级。

6.如权利要求1-4任一项所述的语音服务器的确定方法，其特征在于，所述语音服务器的确定方法，还包括：

7.一种终端，其特征在于，所述终端包括语音接收模块、处理器、存储器和存储在所述存储器上并可在所述处理器上运行的语音服务器的确定程序，所述语音服务器的确定程序被所述处理器执行时实现如权利要求1-6任一项所述的语音服务器的确定方法的各个步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有语音服务器的确定程序，所述语音服务器的确定程序被处理器执行时实现如权利要求1-6任一项所述的语音服务器的确定方法的各个步骤。