CN114464161A

CN114464161A - 语音播报方法、移动设备、装置及存储介质

Info

Publication number: CN114464161A
Application number: CN202210116217.3A
Authority: CN
Inventors: 白珂; 郭双; 万永辉
Original assignee: Shanghai Keenlon Intelligent Technology Co Ltd
Current assignee: Shanghai Keenlon Intelligent Technology Co Ltd
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-10

Abstract

本申请公开了一种语音播报方法、移动设备、装置及存储介质，涉及人工智能技术领域，可以减少在移动设备本地配置的音频文件的数量，从而减少存储资源的占用，进而提高移动设备执行任务的效率。该方法包括：在检测到配送指令的情况下，从配送指令中获取位置信息字段；确定位置信息字段所属的字段类型；字段类型可以包括第一类型，第一类型的位置信息字段中包括数字字段；在确定字段类型为第一类型的情况下，基于位置信息字段中的数字字段，从候选音节中确定目标音节，并基于目标音节确定音频数据；基于音频数据进行语音播报。

Description

语音播报方法、移动设备、装置及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种语音播报方法、移动设备、装置及存储介质。

背景技术

随着人工智能技术的快速发展，机器人的应用越来越广。目前，机器人已经可以替代人工执行送餐或收餐等配送任务。现有的，机器人在执行配送任务时，需要通过语音播报向用户发出提示信息。比如，机器人在到达餐桌的停靠点时，可以发出语音播报提示用户取餐。

然而，现有实现机器人语音播报的过程，需要在本地配置大量的音频文件，占用了大量的存储资源，并且影响了机器人执行任务的效率。

发明内容

本申请提供一种语音播报方法、移动设备、装置及存储介质，可以减少在移动设备本地配置的音频文件的数量，从而减少存储资源的占用，进而提高移动设备执行任务的效率。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供一种语音播报方法，应用于移动设备，包括：在检测到配送指令的情况下，从配送指令中获取位置信息字段；确定位置信息字段所属的字段类型；字段类型可以包括第一类型，第一类型的位置信息字段中包括数字字段；在确定字段类型为第一类型的情况下，基于位置信息字段中的数字字段，从候选音节中确定目标音节，并基于目标音节确定音频数据；基于音频数据进行语音播报。

本申请提供的技术方案可以适用于移动设备对物品进行配送的场景。由于在一些配送场景(比如餐厅或者酒店)中，移动设备从配送指令中获取到的位置信息字段中可能会包含数字字段，而对于数字字段的语音播报，在移动设备本地配置包括0至10几个数字的候选音节，然后根据需求对候选音节进行拼接即可实现。所以，本申请提供的技术方案中，在获取到位置信息字段后，可以先确定其是否包括有数字字段，若包括有数字字段，则基于该数字字段从预先配置的候选音节中确定出目标音节，并基于目标音节确定音频数据，之后则可以基于该音频数据进行语音播报。可以看出，本申请提供的技术方案中，在移动设备本地配置少量的候选音节，就可以满足移动设备在餐厅或酒店等场景(即位置信息字段中可能会包含数字字段的场景)中，执行配送任务时的语音播报需求，这样，可以大幅度减少在移动设备本地配置的音频文件的数量，从而可以减少移动设备的存储资源的占用。另外，由于可以减少移动设备的存储资源的占用，那么移动设备的运行速度也会加快，因此移动设备执行任务的效率也会提高。

第二方面，本申请提供一种移动设备，包括：获取模块、确定模块和语音播报模块；具体的，获取模块，用于在检测到配送指令的情况下，从配送指令中获取位置信息字段；确定模块，用于确定位置信息字段所属的字段类型；字段类型包括第一类型，第一类型的位置信息字段中包括数字字段；确定模块，还用于在确定字段类型为第一类型的情况下，基于位置信息字段中的数字字段，从候选音节中确定目标音节，并基于目标音节确定音频数据；语音播报模块，用于基于确定模块确定的音频数据进行语音播报。

第三方面，本申请提供一种语音播报装置，包括存储器、处理器、总线和通信接口；存储器用于存储计算机执行指令，处理器与存储器通过总线连接；当语音播报装置运行时，处理器执行存储器存储的计算机执行指令，以使语音播报装置执行如上述第一方面提供的语音播报方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当计算机执行指令时，使得计算机执行如第一方面提供的语音播报方法。

第五方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在计算机上运行时，使得计算机执行如第一方面提供的语音播报方法。

需要说明的是，上述计算机指令可以全部或者部分存储在计算机可读存储介质上。其中，计算机可读存储介质可以与语音播报装置的处理器封装在一起的，也可以与语音播报装置的处理器单独封装，本申请对此不做限定。

本申请中第二方面、第三方面、第四方面以及第五方面的描述，可以参考第一方面的详细描述；并且，第二方面、第三方面、第四方面以及第五方面的描述的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

在本申请中，对于上述设备或功能模块本身的名称不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似，属于本申请权利要求及其等同技术的范围之内。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的一种语音播报方法的流程示意图；

图2为本申请实施例提供的另一种语音播报方法的流程示意图；

图3为本申请实施例提供的又一种语音播报方法的流程示意图；

图4为本申请实施例提供的又一种语音播报方法的流程示意图；

图5为本申请实施例提供的一种移动设备的结构示意图；

图6为本申请实施例提供的一种语音播报装置的结构示意图。

具体实施方式

下面结合附图对本申请实施例提供的语音播报方法、移动设备、装置及存储介质进行详细地描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。

此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选的还包括其他没有列出的步骤或单元，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的描述中，除非另有说明，“多个”的含义是指两个或两个以上。

现有的，机器人在执行配送任务时，需要通过语音播报向用户发出提示信息。然而，现有实现机器人语音播报的过程，需要在本地配置大量的音频文件，占用了大量的存储资源，并且影响了机器人执行任务的效率。

针对上述现有技术中存在的问题，本申请实施例提供了一种语音播报方法，该方法通过在移动设备本地配置少量候选音节，就可以满足移动设备在餐厅或酒店等场景中执行配送任务时的语音播报需求，可以大幅减少在移动设备本地配置的音频文件的数量，从而可以减少移动设备的存储资源的占用，提高移动设备执行任务的效率。

本申请实施例提供的语音播报方法可以适用于移动设备。其中，移动设备可以为机器人。当然，在实际应用中，移动设备还可以为其他可移动的人工智能设备。

下面结合上述附图对本申请实施例提供的语音播报方法进行详细说明。

参照图1，本申请实施例提供的语音播报方法包括S101-S104：

S101、在检测到配送指令的情况下，从配送指令中获取位置信息字段。

本申请实施例提供的语音播报方法可以应用于移动设备在餐厅或酒店中对物品进行配送的场景，当然，在实际应用中，还可以应用于其他配送场景(位置信息字段中可能会包含数字字段的场景)，本申请实施例对此不做限定。本申请实施例的以下描述中，将以移动设备在餐厅中对物品进行配送的场景为例展开描述。

在一种可能的实现方式中，配送指令可以是用户的触发操作触发的指令。示例性的，用户可以对移动设备的显示界面中的配送控件进行点击、滑动或长按等触发操作，触发移动设备显示候选配送位置。当用户对候选配送位置中的任一配送位置进行点击、滑动或长按等触发操作后，移动设备将会检测到配送指令，并根据配送指令中用户选中的配送位置确定位置信息字段。比如，用户对配送控件进行触发操作后，显示界面中可以显示候选桌号，当用户对候选桌号中的“7号桌”进行触发操作后，移动设备会检测到配送指令，该配送指令用于指示移动设备将物品运输至“7号桌”，即位置信息字段为“7号桌”。

在另一种可能的实现方式中，配送指令可以是用户的语音口令触发的指令。示例性的，当用户发出“送往7号桌”的语音口令时，移动设备会检测到配送指令，并获取到位置信息字段为“7号桌”。

可以理解的是，在实际应用中，用户还可以通过其他方式触发移动设备检测到配送指令，本申请实施例对此不做限定。示例性的，用户还可以通过对与移动设备通信连接的用户终端(手机、平板电脑、桌面型计算机、膝上型计算机、笔记本电脑、可穿戴电子设备、虚拟现实设备等)进行触发操作触发移动设备检测到配送指令。

可选的，移动设备在检测到配送指令时，还可以对语音播报的开关状态进行确定，当确定语音播报的开关状态为打开状态时可以从配送指令中获取位置信息字段。

进一步可选的，移动设备在确定语音播报的开关状态为打开状态时，还可以对语音播报的语言状态进行判断，在确定语音播报的语言状态为用户需求的语言状态(比如，中文)时，可以从配送指令中获取位置信息字段。

S102、确定位置信息字段所属的字段类型。

其中，字段类型包括第一类型，第一类型的位置信息字段中包括数字字段。

不同的配送场景中配送位置的标识的类型可能不同，那么不同配送场景中的位置信息字段包含的内容也就可能不同。比如，当配送位置的标识为餐桌的桌号时，位置信息字段中包括有桌号对应的数字字段，当配送位置的标识为包厢名称时，位置信息字段中包括有包厢名称对应的文字字段。本申请实施例中，为了减少在移动设备本地配置的音频文件的数量，可以针对不同的字段类型采用不同的方式确定音频数据。所以，移动设备在获取到位置信息字段后，可以对位置信息字段所属的字段类型进行确定。

S103、在确定字段类型为第一类型的情况下，基于位置信息字段中的数字字段，从候选音节中确定目标音节，并基于目标音节确定音频数据。

本申请实施例中，可以事先在移动设备本地进行候选音节的配置，候选音节中可以包括0到10几个数字对应的音节，移动设备在确定位置信息字段中包括数字字段的情况下，可以在候选音节中查找数字字段对应的目标音节，然后可以根据目标音节确定音频数据。示例性的，当位置信息字段“120号桌”时，移动设备可以在候选音节中分别查找到数字字段中“1”、“2”和“0”对应的目标音节，然后根据数字字段中字符的排序对“1”、“2”和“0”对应的目标音节进行拼接即可得到满足播报需求的音频数据。

可选的，本申请实施例还可以通过如下方式基于位置信息字段中的数字字段，从候选音节中确定目标音节：根据数字字段中的字符和数字字段的长度，从候选音节中确定目标音节。

其中，目标音节可以包括主干音节，或者，目标音节还可以包括主干音节和衔接音节，衔接音节用于衔接相邻字符的主干音节。

由于位置信息字段中数字字段可能会包括有多个字符，在对多个字符的音节进行拼接得到音频数据后，对音频数据进行语音播报时，语音播报可能会出现停顿、爆音等，这会导致语音播报发出的声音不流畅，影响了用户体验。并且，由于语音播报发出的声音不流畅，配送物品的工作人员可能会得到错误的配送位置，导致物品配送出错。所以，本申请实施例可以事先配置衔接音节，在对相邻字符进行拼接时，可以在相邻字符的音节中插入用于衔接相邻字符的主干音节的衔接音节，以此来减少语音播报中的停顿、爆音等，使得语音播报发出的声音更为流畅，从而提升了用户体验。并且，可以减少由于语音播报发出的声音不流畅导致物品配送出错的现象的发生。

另外，由于不同的数字字符对应的音节不同，并且不同的数字字符和字符长度对于衔接音节的需求不同，所以，本申请实施例可以根据数字字段中的字符和数字字段的长度，从候选音节中确定目标音节。

本申请实施例事先在本地配置的候选音节可以包括“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”和“10”共11个主干音节，还可以根据需求配置“百”或“千”等主干音节，且包括用于衔接这些主干音节的衔接音节。示例性的，衔接音节可以包括“10-1”，当数字字段为“21”时，移动设备可以从候选音节中确定出“2”和“1”两个主干音节，还可以确定出用于衔接“2”和“1”的衔接音节“10-1”，之后可以按照“2”、“10-1”和“1”的顺序对这三个音节进行拼接确定出音频数据，以此来使得移动设备基于音频数据进行语音播报时，发出的声音更为流畅。

可选的，本申请实施例还可以通过如下方式根据数字字段中的字符和数字字段的长度从候选音节中确定目标音节：在确定数字字段的长度为第一长度的情况下，根据数字字段中的字符，从候选音节中确定主干音节；在确定数字字段的长度为第二长度的情况下，确定数字字段中的首位字符是否为第一字符，并确定数字字段中的末位字符是否为第二字符，得到第一确定结果，且根据第一确定结果从候选音节中确定目标音节；在确定数字字段的长度为第三长度的情况下，确定数字字段中的字符是否完全相同，若确定数字字段中的字符完全相同，则根据数字字段中的字符从候选音节中确定主干音节。

人类对于数字字段的发音习惯一般为，在十位和个位字符之间存在较为明显的连接语气音，而在其他相邻字符(比如，十位和百位字符，或者，百位和千位字符)之间的连接语气音并不明显。因此，为了减少配置的候选音节的数量，从而进一步减少在移动设备本地配置的音频文件的数量，同时保证语音播报的流畅性，本申请实施例在配置衔接音节时，可以仅配置用于衔接十位和个位字符之间的衔接音节。所以，本申请实施例在候选音节中确定目标音节时，可以根据数字字段的长度来确定是否需要在主干音节中添加衔接音节，也即是根据数字字段的长度来确定目标音节中是否包括衔接音节。

示例性的，本申请实施例事先在本地配置的候选音节可以包括“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”和“10”共11个主干音节，还可以根据需求配置“百”或“千”等主干音节，并且还可以包括“10-1”、“10-2”、“10-3”、“10-4”、“10-5”、“10-6”、“10-7”、“10-8”和“10-9”共9个衔接音节。

在一种可能的实现方式中，本申请实施例可以事先获取X0、X1、X2、X3、X4、X5、X6、X7、X8以及X9(比如，20、21、22、23、24、25、26、27、28以及29)的音频样本，然后可以从这10个音频样本中提取出“10”“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”共10个主干音节，并且提取出“10-1”、“10-2”、“10-3”、“10-4”、“10-5”、“10-6”、“10-7”、“10-8”和“10-9”共9个衔接音节。比如，可以从X1的音频样本中提取出“10-1”对应的衔接音节。示例性的，还可以从X0Y(比如，101或者0)中提取出主干音节“0”。并且，还可以根据需求从其他音频样本中提取出“百”、“千”等主干音节。

可以看出，本申请实施例可以通过对少量音频样本进行分割提取，分离出语音播报时需求的用于衔接相邻字符之间的衔接音节，并且可以根据需求分割提取出主干音节。通过少量的音频样本即可满足百位、千位甚至万位数以内的数字字段的语音播报需求，从而可以在保证语音播报的流畅性的同时，减少在移动设备本地配置的音频文件的数量。

其中，第一长度可以为一个字符长度，第二长度可以为两个字符长度，第三长度可以为三个或三个以上的字符长度。示例性的，当数字字段为“1”时，可以确定数字字段的长度为第一长度；当数字字段为“10”时，可以确定数字字段的长度为第二长度；当数字字段为“120”时，可以确定数字字段的长度为第三长度。

另外，本申请实施例中的第一字符可以为字符1，第二字符可以为字符0。当数字字段的长度为第二长度时，数字字段中的首位字符即为十位字符，末位字符即为个位字符。

在一种可能的实现方式中，在确定数字字段的长度为第一长度的情况下，也即是数字字段中包括一个字符时，由于没有字符的拼接需求，也就不需要确定衔接音节，所以可以直接从候选音节中确定主干音节。示例性的，当数字字段为“7”时，可以直接从候选音节中确定出主干音节“7”。

在另一种可能的实现方式中，在确定数字字段的长度为第二长度的情况下，也即是数字字段中包括两个字符，当这两个字符为一些特定的组合方式时，可能也没有添加衔接音节的需求。所以，本申请实施例中，在确定数字字段的长度为第二长度时，可以对首位字符和末位字符是否为特殊字符进行确定，然后根据得到的第一确定结果确定是否有添加衔接音节的需求，并从候选音节中确定出目标音节。

示例性的，若数字字段中的首位字符为1，且数字字段中的末位字符为0，可以从候选音节中查找到主干音节“10”，无需添加其他衔接音节。若数字字段中的首位字符为1，且数字字段中的末位字符不为0，此时也没有添加衔接音节的需求，从候选音节中查找到主干音节“10”和末位字符对应的主干音节，然后可以对“10”和末位字符对应的主干音节进行拼接确定出音频数据。比如，数字字段为“12”时，可以从候选音节中查找到主干音节“10”和末位字符对应的主干音节“2”，然后可以对“10”和“2”两个主干音节进行拼接确定出音频数据。若数字字段中的首位字符不为1，且数字字段中的末位字符为0，此时也没有添加其他衔接音节的需求，从候选音节中查找到首位字符对应的主干音节和“10”，对首位字符对应的主干音节和“10”进行拼接确定出音频数据。比如，数字字段为“30”时，可以从候选音节中查找到首位字符对应的主干音节“3”和主干音节“10”，然后可以对“3”和“10”两个主干音节进行拼接确定出音频数据。而在数字字段中的首位字符不为1，且数字字段中的末位字符不为0的情况下，有添加衔接音节的需求，可以从候选音节中查找到首位字符和末位字符对应的主干音节以及衔接音节，在对首位字符和末位字符对应的主干音节进行拼接时，在中间插入衔接音节即可。

在配送场景下，对于一些字符完全相同的特殊数字字段，可以连续对单个字符进行发音。比如，在餐厅中，用户对于数字字段“666”的发音习惯更倾向为“六六六”，从而表达良好的寓意，而不是拼接得到“六百六十六”。所以，为了使得移动设备的语音播报更符合用户习惯，发出的声音更为流畅，在数字字段的长度为第三长度，且数字字段中的字符完全相同的情况下，可以直接根据数字字段的长度对主干音节进行拼接，无需在相邻字符直接插入衔接音节。

可选的，在又一种可能的实现方式中，在确定数字字段的长度为第三长度的情况下，若确定数字字段中的字符不完全相同，则确定数字字段中的末位字符是否为第二字符，并确定数字字段中的次末位字符是否为第二字符，得到第二确定结果，且根据第二确定结果从候选音节中确定目标音节。

在确定数字字段的长度为第三长度，且数字字段中的字符不完全相同的情况下，当数字字段中的末位字符和次末位字符为一些特定的组合方式时，也没有添加衔接音节的需求。所以，本申请实施例中，若确定数字字段的长度为第三长度，且数字字段中的字符不完全相同，则可以对末位字符和次末位字符是否为特殊字符进行确定，然后根据得到的第二确定结果确定是否有添加衔接音节的需求，并从候选音节中确定出目标音节。

示例性的，以第三长度为三个字符长度为例，数字字段中的首位字符即为百位字符，次末位字符即为十位字符，末位字符即为个位字符。若数字字段中的次末位字符为0，且数字字段中的末位字符为0，此时没有添加其他衔接音节的需求，可以从候选音节中查找到首位字符对应的主干音节和“百”，对首位字符对应的主干音节和“百”进行拼接确定出音频数据。比如，数字字段为“300”时，可以从候选音节中查找到首位字符对应的主干音节“3”和主干音节“百”，然后可以对“3”和“百”两个主干音节进行拼接确定出音频数据。

若数字字段中的次末位字符为0，且数字字段中的末位字符不为0，此时也没有添加其他衔接音节的需求，从候选音节中分别查找到首位字符和末位字符对应的主干音节以及“百”和“0”，依次对首位字符对应的主干音节、“百”、“0”以及个位字符对应的主干音节进行拼接确定出音频数据。比如，数字字段为“302”时，可以从候选音节中查找到首位字符对应的主干音节“3”、主干音节“百”和“0”以及末位字符对应的主干音节“2”，然后可以依次对“3”、“百”、“0”和“2”四个主干音节进行拼接确定出音频数据。

若数字字段中的次末位字符不为0，且数字字段中的末位字符为0，此时也没有添加其他衔接音节的需求，从候选音节中分别查找到首位字符和次末位字符对应的主干音节以及“百”和“10”，依次对首位字符对应的主干音节、“百”、次末位字符对应的主干音节以及“10”进行拼接确定出音频数据。比如，数字字段为“420”时，可以从候选音节中查找到首位字符对应的主干音节“4”、主干音节“百”、次末位字符对应的主干音节“2”以及主干音节“10”，然后可以依次对“4”、“百”、“2”和“10”四个主干音节进行拼接确定出音频数据。

若数字字段中的次末位字符不为0，且数字字段中的末位字符也不为0，此时有添加衔接音节的需求，可以从候选音节中分别查找到首位字符、次末位字符和末位字符对应的主干音节和衔接音节，在对次末位字符和末位字符对应的主干音节进行拼接时，在中间插入衔接音节即可。比如，数字字段为“425”时，可以从候选音节中查找到首位字符对应的主干音节“4”、主干音节“百”、次末位字符对应的主干音节“2”以及末位字符对应的主干音节“5”，并且确定出衔接音节“10-5”，然后可以依次对“4”、“百”、“2”、“10-5”和“5”五个音节进行拼接确定出音频数据。

可选的，本申请实施例中，还可以在确定数字字段属于第一数字范围的情况下，根据数字字段中的字符和数字字段的长度，从候选音节中确定目标音节；在确定数字字段属于第二数字范围的情况下，若确定当前数字播报模式为计数单位播报模式，则根据数字字段中的字符和数字字段的长度，从候选音节中确定目标音节；若确定当前数字播报模式为非计数单位播报模式，则根据数字字段中的字符，从候选音节中确定主干音节。

其中，计数单位播报模式也即是按照数字字段中各字符的顺序对各字符对应的主干音节进行播报，比如，数字字段为“243”时，可以对“243”进行分离，先计算243/10得到余数3，然后计算24/10得到余数4，之后计算2/10得到余数2，则可以从候选音节中查找出各余数对应的目标音节“3”、“4”和“2”，之后可以按照分离顺序倒序拼接“3”、“4”和“2”，确定出音频数据。计数单位播报模式也即是在拼接音频数据时加入“百”、“十”等计数单位对应的主干音节，具体对计数单位播报模式中音频数据中目标音节的拼接方法可以参照前述中的描述，本申请实施例对此不做限定。

由于移动设备在不同的播报场景中可能采用不同的播报模式，而对于非计数单位播报模式，没有添加衔接音节的需求，所以，本申请实施例可以根据播报模式确定目标音节中是否包括衔接音节，以满足各种播报场景的需求。另外，在实际应用中，播报场景中采用的播报模式与数字字段所属的数字范围有关，当数字字段所属的数字范围为0-99时，一般不采用非计数单位播报模式。因此，本申请实施例还可以结合数字字段所属的数字范围来确定是否需要对当前的播报模式进行判断，从而可以提高确定目标音节的速率，进而提升执行任务的效率。

第二数字范围和第一数字范围可以是事先确定的数字范围，示例性的，第一数字范围可以为0至99，第二数字范围可以为大于99的数字范围。可选的，由于不同配送场景对于数字字段的数量的需求不同，所以第二数字范围可以根据配送场景中需求的数字字段的数量确定，比如，第二数字范围可以为100至999。

可选的，本申请实施例中，字段类型还可以包括第二类型，第二类型的位置信息字段中不包括数字字段，在确定字段类型为第二类型的情况下，可以从候选音频中确定与位置信息字段对应的音频数据。

餐厅或者酒店等场景中，某些配送位置的标识中可能也不包含数字，也即是位置信息字段中不包括数字字段，仅包括文字字段。为了满足不包含数字的配送位置的标识的需求，本申请实施例可以事先在本地配置这些不包含数字的配送位置的标识对应的文字字段的候选音频，在实际应用中，可以根据需求从候选音频中确定音频数据。

示例性的，若位置信息字段为“吉祥阁”，则可以从预先配置的候选音频中查找与该位置信息字段对应的音频数据。

可选的，在一种可能的实现方式中，若未在预先配置的候选音频中查找到与第二类型的位置信息字段对应的音频数据，则可以从移动设备的后台服务器中分别查找“吉”、“祥”和“阁”对应的音节，然后依次对“吉”、“祥”和“阁”对应的音节进行拼接，得到音频数据。这样，就无需在移动设备本地配置大量的音频文件，从而可以减少移动设备的存储资源的占用。

S104、基于音频数据进行语音播报。

移动设备在确定出音频数据后，可以基于确定出的音频数据进行语音播报，以向用户发出提示信息。示例性的，可以通过语音播报提示用户对移动设备配送的物品进行处理。

可选的，本申请实施例可以通过如下方式基于音频数据进行语音播报：基于音频数据确定第一播报内容和第二播报内容；对第一播报内容进行播报，用于提示用户对位置信息字段对应的配送位置进行确认；在确定移动设备移动至配送位置的情况下，对第二播报内容进行播报，用于提示用户对移动设备配送的物品进行处理。

本申请实施例中，不仅可以在确定移动设备移动至配送位置时通过语音播报提示用户对移动设备配送的物品进行处理，另外，为了避免用户在触发配送指令时，由于进行了错误的触发操作或发出了错误的语音口令等误操作，导致移动设备获取到错误的位置信息字段，本申请实施例还可以在检测到配送指令并确定出音频数据后，通过语音播报提示用户对位置信息字段对应的配送位置进行确认。这样，用户可以根据语音播报提示的位置信息字段确定是否进行了误操作，并且在确定进行了误操作的情况下，可以重新触发配送指令，以重新获取到正确的位置信息字段。

可选的，本申请实施例可以通过如下方式基于音频数据进行语音播报：在确定位置信息字段中包括预设文字字段的情况下，基于音频数据和预设文字字段对应的音频，得到第一播报内容和第二播报内容；在确定位置信息字段中不包括预设文字字段的情况下，基于音频数据得到第一播报内容，基于音频数据和预设文字字段对应的音频，得到第二播报内容。

其中，预设文字字段对应的音频可以从候选音频中获取，也即是预设文字字段对应的音频可以事先进行配置。

本申请实施例中，在基于音频数据进行语音播报时，为了适应不同播报场景的需求，以更好的向用户发出提示，不仅可以对基于数字字段得到音频数据进行播报，还可以根据需求事先配置不同播报场景中的文字字段对应的候选音频。另外，同一播报场景中的文字字段对应的候选音频可以是相同的，所以在当播报场景数量有限的情况下，需要在本地配置的候选音频的数量也是有限的，不会占用较大的存储资源。

此外，在对第一播报内容进行语音播报时，由于该语音播报仅用于提示用户对位置信息字段对应的配送位置进行确认，也即是对位置信息字段中的数字字段进行确认。所以，在对第一播报内容进行语音播报时，若位置信息字段中不包括预设文字字段，则无需添加预设文字字段对应的音频。这样，可以节省移动设备的计算资源，从而提高移动设备执行任务的效率。

示例性的，预设文字字段可以为“号桌”、“号”或“号房间”等。

在一种可能的实现方式中，可以事先在移动设备本地配置对于第一播报内容和第二播报内容进行语音播报时，预设文字字段对应的音频，然后可以基于该音频和基于目标音节确定的音频数据进行重新组合，确定出第一播报内容和第二播报内容。

示例性的，以移动设备在餐厅中为不同桌号的餐桌送餐为例，对于第一播报内容进行播报时，音频可以为“好的，送往X号”或“好的，送往X号桌”或“好的，送往X”，对于第二播报内容进行播报时，音频可以为“X号桌，您的餐到了，请取餐”，在实际应用中，可以基于确定的音频数据替换“X”。

比如，用户可以发出语音口令“送往7号”触发移动设备检测到配送指令，则位置信息字段“7号”中数字字段为“7”，“号”为预设文字字段。移动设备可以先根据数字字段“7”确定出包含目标音节“7”的音频数据，之后，可以以目标音节“7”及“号”，得到第一播报内容“好的，送往7号”，并对第一播报内容进行播报。若用户通过触发操作或语音口令等方式确定第一播报内容对应的配送位置正确，或者用户在事先设定的时长内未重新触发配送指令时，移动设备可以开始向第一播报内容对应的配送位置移动。当移动设备移动至第一播报内容对应的配送位置后，可以以目标音节“7”替换“X号桌，您的餐到了，请取餐”中的“X”，得到第二播报内容“7号桌，您的餐到了，请取餐”，并对第二播报内容进行播报。之后，7号桌周围的工作人员或顾客可以根据语音播报的提示将配送的物品放置于7号桌上。也即是，无论检测到的配送指令中的位置信息字段是否包含预设文字字段，如“号”、“号桌”，移动设备到达配送位置时的第二播报内容均包括完整的文字字段，如“号桌”，从而能够准确提示对应的用户取物。而配送指令下达时语音播报的第一播报内容，则可以根据位置信息字段中是否包含预设文字字段，如“号”或“号桌”的情况，适应性的生成第一播报内容，进而保持与配送指令的高度一致性，使得操作人员更易理解。

可选的，本申请实施例可以通过如下方式基于音频数据确定第二播报内容：根据物品在移动设备上的放置位置和触发移动设备完成配送任务的条件，确定语音播报后缀；基于音频数据和语音播报后缀，确定第二播报内容。

为了提高移动设备每次配送时运输的物品的数量，从而提高移动设备执行配送任务的配送效率，移动设备上可以设置有多层置物托盘或多个置物仓。为了进一步的提高移动设备执行配送任务的配送效率，不同层置物托盘或不同置物仓上放置的物品的配送位置可以不同。所以，本申请实施例中，还可以结合物品在移动设备上的放置位置确定第二播报内容，从而可以使得用户根据第二播报内容中播报的物品的放置位置对物品进行处理。

另外，为了进一步提高移动设备执行任务的效率，可以在移动设备完成配送任务后，通过语音播报提示用户确认配送任务完成，从而使得移动设备可以快速开始执行下一个任务。因此，本申请实施例中，还可以结合触发移动设备完成配送任务的条件确定第二播报内容。

其中，触发移动设备完成配送任务的条件可以是事先确定的触发条件。比如，可以是用户对移动设备的显示界面中的确认控件进行触发操作，或者，还可以是用户对移动设备顶部或侧面等位置处设置的确认按钮进行触摸、点击或长按等操作。

示例性的，若物品在移动设备上的放置位置为第三层托盘，触发移动设备完成配送任务的条件为对移动设备顶部的确认按钮进行触摸操作，则语音播报后缀可以为“请取走第三层物品，取完后请触摸我的头部返回哦”，之后可以对将该语音播报后缀添加至确定的音频数据之后，得到第二播报内容。

本申请实施例提供的技术方案可以适用于移动设备对物品进行配送的场景。由于在一些配送场景(比如餐厅或者酒店)中，移动设备从配送指令中获取到的位置信息字段中可能会包含数字字段，而对于数字字段的语音播报，在移动设备本地配置包括0至10几个数字的候选音节，然后根据需求对候选音节进行拼接即可实现。所以，本申请实施例提供的技术方案中，在获取到位置信息字段后，可以先确定其是否包括有数字字段，若包括有数字字段，则基于该数字字段从预先配置的候选音节中确定出目标音节，并基于目标音节确定音频数据，之后则可以基于该音频数据进行语音播报。可以看出，本申请实施例提供的技术方案中，在移动设备本地配置少量的候选音节，就可以满足移动设备在餐厅或酒店等场景(即位置信息字段中可能会包含数字字段的场景)中，执行配送任务时的语音播报需求，这样，可以大幅度减少在移动设备本地配置的音频文件的数量，从而可以减少移动设备的存储资源的占用。另外，由于可以减少移动设备的存储资源的占用，那么移动设备的运行速度也会加快，因此移动设备执行任务的效率也会提高。

综合以上描述，如图2所示，图1中的步骤S103可以替换为S1031：

S1031、在确定字段类型为第一类型的情况下，根据数字字段中的字符和数字字段的长度，从候选音节中确定目标音节；在确定字段类型为第二类型的情况下，从候选音频中确定与位置信息字段对应的音频数据。

可选的，如图3所示，图1中的步骤S103还可以替换为S1032-S1037：

S1032、在确定字段类型为第一类型的情况下，对数字字段的长度进行确定。

在步骤S1032之后，可以执行步骤S1033、步骤S1034或步骤S1035。

S1033、在确定数字字段的长度为第一长度的情况下，根据数字字段中的字符，从候选音节中确定主干音节。

S1034、在确定数字字段的长度为第二长度的情况下，确定数字字段中的首位字符是否为第一字符，并确定数字字段中的末位字符是否为第二字符，得到第一确定结果，且根据第一确定结果从候选音节中确定目标音节。

S1035、在确定数字字段的长度为第三长度的情况下，判断数字字段中的字符是否完全相同。

在确定数字字段中的字符完全相同的情况下，执行步骤S1036；在确定数字字段中的字符不完全相同的情况下，执行步骤S1037。

S1036、根据数字字段中的字符从候选音节中确定主干音节。

S1037、确定数字字段中的末位字符是否为第二字符，并确定数字字段中的次末位字符是否为第二字符，得到第二确定结果，且根据第二确定结果从候选音节中确定目标音节。

在步骤S1033、步骤S1034、步骤S1036以及步骤S1037之后均执行步骤S104。

可选的，如图4所示，图1中的步骤S104可以替换为S1041-S1043：

S1041、基于音频数据确定第一播报内容和第二播报内容。

S1042、对第一播报内容进行播报，用于提示用户对位置信息字段对应的配送位置进行确认。

S1043、在确定移动设备移动至配送位置的情况下，对第二播报内容进行播报，用于提示用户对移动设备配送的物品进行处理。

如图5所示，本申请实施例还提供了一种移动设备，该移动设备可以包括：获取模块11、确定模块12和语音播报模块13。

其中，获取模块11执行上述方法实施例中的S101，确定模块12执行上述方法实施例中的S102和S103，语音播报模块13执行上述方法实施例的S104。

具体的，获取模块11，用于在检测到配送指令的情况下，从配送指令中获取位置信息字段；确定模块12，用于确定位置信息字段所属的字段类型；字段类型包括第一类型，第一类型的位置信息字段中包括数字字段；确定模块12，还用于在确定字段类型为第一类型的情况下，基于位置信息字段中的数字字段，从候选音节中确定目标音节，并基于目标音节确定音频数据；语音播报模块13，用于基于确定模块12确定的音频数据进行语音播报。

可选的，在一种可能的实现方式中，确定模块12具体用于：根据数字字段中的字符和数字字段的长度，从候选音节中确定目标音节；目标音节包括主干音节，或者，包括主干音节和衔接音节，衔接音节用于衔接相邻字符的主干音节。

可选的，在另一种可能的实现方式中，确定模块12具体还用于：在确定数字字段的长度为第一长度的情况下，根据数字字段中的字符，从候选音节中确定主干音节；在确定数字字段的长度为第二长度的情况下，确定数字字段中的首位字符是否为第一字符，并确定数字字段中的末位字符是否为第二字符，得到第一确定结果，且根据第一确定结果从候选音节中确定目标音节；在确定数字字段的长度为第三长度的情况下，确定数字字段中的字符是否完全相同，若确定数字字段中的字符完全相同，则根据数字字段中的字符从候选音节中确定主干音节。

可选的，在另一种可能的实现方式中，确定模块12还用于：在确定数字字段的长度为第三长度的情况下，若确定数字字段中的字符不完全相同，则确定数字字段中的末位字符是否为第二字符，并确定数字字段中的次末位字符是否为第二字符，得到第二确定结果，且根据第二确定结果从候选音节中确定目标音节。

可选的，在另一种可能的实现方式中，确定模块12还具体用于：在确定数字字段属于第一数字范围的情况下，根据数字字段中的字符和数字字段的长度，从候选音节中确定目标音节；在确定数字字段属于第二数字范围的情况下，若确定当前数字播报模式为计数单位播报模式，则根据数字字段中的字符和数字字段的长度，从候选音节中确定目标音节；若确定当前数字播报模式为非计数单位播报模式，则根据数字字段中的字符，从候选音节中确定主干音节。

可选的，在另一种可能的实现方式中，语音播报模块13具体用于：基于音频数据确定第一播报内容和第二播报内容；对第一播报内容进行播报，用于提示用户对位置信息字段对应的配送位置进行确认；在确定移动设备移动至配送位置的情况下，对第二播报内容进行播报，用于提示用户对移动设备配送的物品进行处理。

可选的，在另一种可能的实现方式中，语音播报模块13还具体用于：在确定模块12确定位置信息字段中包括预设文字字段的情况下，基于音频数据和预设文字字段对应的音频，得到第一播报内容和第二播报内容；预设文字字段对应的音频从候选音频中获取；在确定模块12确定位置信息字段中不包括预设文字字段的情况下，基于音频数据得到第一播报内容，基于音频数据和预设文字字段对应的音频，得到第二播报内容。

可选的，在另一种可能的实现方式中，语音播报模块13还具体用于：根据物品在移动设备上的放置位置和触发移动设备完成配送任务的条件，确定语音播报后缀；基于音频数据和语音播报后缀，确定第二播报内容。

可选的，在另一种可能的实现方式中，字段类型还包括第二类型，第二类型的位置信息字段中不包括数字字段，确定模块12还用于：在确定位置信息字段所属的字段类型之后，若确定字段类型为第二类型，则从候选音频中确定与位置信息字段对应的音频数据。

可选的，移动设备还可以包括存储模块，存储模块用于存储该移动设备的程序代码等。

如图6所示，本申请实施例还提供一种语音播报装置，包括存储器41、处理器42(42-1和42-2)、总线43和通信接口44；存储器41用于存储计算机执行指令，处理器42与存储器41通过总线43连接；当语音播报装置运行时，处理器42执行存储器41存储的计算机执行指令，以使语音播报装置执行如上述实施例提供的应用于移动设备的语音播报方法。

在具体的实现中，作为一种实施例，处理器42可以包括一个或多个中央处理器(central processing unit，CPU)，例如图6中所示的CPU0和CPU1。且作为一种实施例，语音播报装置可以包括多个处理器42，例如图6中所示的处理器42-1和处理器42-2。这些处理器42中的每一个CPU可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器42可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器41可以是只读存储器41(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器41可以是独立存在，通过总线43与处理器42相连接。存储器41也可以和处理器42集成在一起。

在具体的实现中，存储器41，用于存储本申请中的数据和执行本申请的软件程序对应的计算机执行指令。处理器42可以通过运行或执行存储在存储器41内的软件程序，以及调用存储在存储器41内的数据，语音播报装置的各种功能。

通信接口44，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如控制系统、无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。通信接口44可以包括接收单元实现接收功能，以及发送单元实现发送功能。

总线43，可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component interconnect，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。该总线43可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

作为一个示例，结合图5，移动设备中的获取模块实现的功能与图6中的接收单元实现的功能相同，移动设备中的确定模块实现的功能与图6中的处理器实现的功能相同，移动设备中的存储模块实现的功能与图6中的存储器实现的功能相同。

本实施例中相关内容的解释可参考上述方法实施例，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当计算机执行该指令时，使得计算机执行上述实施例提供的应用于移动设备的语音播报方法。

其中，计算机可读存储介质，例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、可擦式可编程只读存储器(erasable programmable read only memory，EPROM)、寄存器、硬盘、光纤、CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(application specificintegrated circuit，ASIC)中。在本申请实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语音播报方法，应用于移动设备，其特征在于，包括：

在检测到配送指令的情况下，从所述配送指令中获取位置信息字段；

确定所述位置信息字段所属的字段类型；所述字段类型包括第一类型，所述第一类型的所述位置信息字段中包括数字字段；

在确定所述字段类型为所述第一类型的情况下，基于所述位置信息字段中的所述数字字段，从候选音节中确定目标音节，并基于所述目标音节确定音频数据；

基于所述音频数据进行语音播报。

2.根据权利要求1所述的语音播报方法，其特征在于，所述基于所述位置信息字段中的所述数字字段，从候选音节中确定目标音节，包括：

根据所述数字字段中的字符和所述数字字段的长度，从候选音节中确定目标音节；所述目标音节包括主干音节，或者，包括主干音节和衔接音节，所述衔接音节用于衔接相邻字符的主干音节。

3.根据权利要求2所述的语音播报方法，其特征在于，所述根据所述数字字段中的字符和所述数字字段的长度，从候选音节中确定目标音节，包括：

在确定所述数字字段的长度为第一长度的情况下，根据所述数字字段中的字符，从所述候选音节中确定所述主干音节；

在确定所述数字字段的长度为第二长度的情况下，确定所述数字字段中的首位字符是否为第一字符，并确定所述数字字段中的末位字符是否为第二字符，得到第一确定结果，且根据所述第一确定结果从所述候选音节中确定所述目标音节；

在确定所述数字字段的长度为第三长度的情况下，确定所述数字字段中的字符是否完全相同，若确定所述数字字段中的字符完全相同，则根据所述数字字段中的字符从所述候选音节中确定所述主干音节。

4.根据权利要求3所述的语音播报方法，其特征在于，在确定所述数字字段的长度为第三长度的情况下，所述方法还包括：

若确定所述数字字段中的字符不完全相同，则确定所述数字字段中的末位字符是否为所述第二字符，并确定所述数字字段中的次末位字符是否为所述第二字符，得到第二确定结果，且根据所述第二确定结果从所述候选音节中确定所述目标音节。

5.根据权利要求2所述的语音播报方法，其特征在于，所述根据所述数字字段中的字符和所述数字字段的长度，从候选音节中确定目标音节，包括：

在确定所述数字字段属于所述第一数字范围的情况下，根据所述数字字段中的字符和所述数字字段的长度，从所述候选音节中确定所述目标音节；

在确定所述数字字段属于所述第二数字范围的情况下，若确定当前数字播报模式为计数单位播报模式，则根据所述数字字段中的字符和所述数字字段的长度，从所述候选音节中确定所述目标音节；若确定当前数字播报模式为非计数单位播报模式，则根据所述数字字段中的字符，从所述候选音节中确定所述主干音节。

6.根据权利要求1所述的语音播报方法，其特征在于，所述基于所述音频数据进行语音播报，包括：

基于所述音频数据确定第一播报内容和第二播报内容；

对所述第一播报内容进行播报，用于提示用户对所述位置信息字段对应的配送位置进行确认；

在确定移动设备移动至所述配送位置的情况下，对所述第二播报内容进行播报，用于提示用户对所述移动设备配送的物品进行处理。

7.根据权利要求6所述的语音播报方法，其特征在于，所述基于所述音频数据确定第一播报内容和第二播报内容，包括：

在确定所述位置信息字段中包括预设文字字段的情况下，基于所述音频数据和所述预设文字字段对应的音频，得到所述第一播报内容和所述第二播报内容；所述预设文字字段对应的音频从候选音频中获取；

在确定所述位置信息字段中不包括预设文字字段的情况下，基于所述音频数据得到所述第一播报内容，基于所述音频数据和所述预设文字字段对应的音频，得到所述第二播报内容。

8.根据权利要求6所述的语音播报方法，其特征在于，基于所述音频数据确定第二播报内容，还包括：

根据所述物品在所述移动设备上的放置位置和触发所述移动设备完成配送任务的条件，确定语音播报后缀；

基于所述音频数据和所述语音播报后缀，确定所述第二播报内容。

9.根据权利要求1-8任意一项所述的语音播报方法，其特征在于，所述字段类型还包括第二类型，所述第二类型的所述位置信息字段中不包括数字字段，所述确定所述位置信息字段所属的字段类型之后，所述方法还包括：

在确定所述字段类型为所述第二类型的情况下，从候选音频中确定与所述位置信息字段对应的音频数据。

10.一种移动设备，其特征在于，包括：

获取模块，用于在检测到配送指令的情况下，从所述配送指令中获取位置信息字段；

确定模块，用于确定所述位置信息字段所属的字段类型；所述字段类型包括第一类型，所述第一类型的所述位置信息字段中包括数字字段；

所述确定模块，还用于在确定所述字段类型为所述第一类型的情况下，基于所述位置信息字段中的所述数字字段，从候选音节中确定目标音节，并基于所述目标音节确定音频数据；

语音播报模块，用于基于所述确定模块确定的所述音频数据进行语音播报。

11.一种语音播报装置，其特征在于，包括存储器、处理器、总线和通信接口；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接；

当所述语音播报装置运行时，处理器执行所述存储器存储的所述计算机执行指令，以使所述语音播报装置执行如权利要求1-9任意一项所述的语音播报方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当计算机执行所述指令时，使得所述计算机执行如权利要求1-9任意一项所述的语音播报方法。