CN115273852A

CN115273852A - 语音应答方法、装置、可读存储介质及芯片

Info

Publication number: CN115273852A
Application number: CN202210709534.6A
Authority: CN
Inventors: 李潇然
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-11-01

Abstract

本公开涉及一种语音应答方法、装置、可读存储介质及芯片。方法包括：响应于接收到交互语音信息，确定交互语音信息对应的UGC文本；若UGC文本中未包含语气词，则获取多个高频应答文本；根据多个高频应答文本为UGC文本匹配语气词，得到与交互语音信息对应的目标应答文本；根据目标应答文本，生成与交互语音信息对应的应答语音。这样，可实现交互语音的自动应答，避免了录制应答语音带来的诸多不便。另外，在UGC文本中不包含语气词的情况下，为其自动匹配语气词，提升应答语音的自然度，从而可以使得UGC文本所承载的情感因素，通过应答语音输出，由此，可以使得语音交互更加自然，能够最大限度地贴合实际的情感交流，提升了用户体验。

Description

语音应答方法、装置、可读存储介质及芯片

技术领域

本公开涉及计算机技术领域，尤其涉及语音应答方法、装置、可读存储介质及芯片。

背景技术

随着通信技术的飞速发展，各种移动终端(例如，智能手机)已经成为用户之间沟通的主要通信工具。然而，当用户因故(例如，正在会议中)而无法接听来电时，外界即丧失与此用户之间的信息联系，由此，语音自动应答应运而生。

相关技术中，当有来电接入、而用户不方便应答时，获取与来电方交互语音相对应的应答文本，之后，将获取的应答文本通过语音合成技术转换为应答语音，最后，利用应答语音自动应答来电方。但通过语音合成技术得到的应答通常比较生硬，偏离了人们实际的情感交流，导致用户体验较差。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音应答方法、装置、可读存储介质及芯片。

根据本公开实施例的第一方面，提供一种语音应答方法，包括：

响应于接收到交互语音信息，确定所述交互语音信息对应的UGC文本；

若所述UGC文本中未包含语气词，则获取多个高频应答文本，其中，所述高频应答文本包含语气词；

根据所述多个高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本；

根据所述目标应答文本，生成与所述交互语音信息对应的应答语音。

可选地，所述根据所述多个高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本，包括：

若所述多个高频应答文本中存在与所述UGC文本之间的相似度大于预设相似度阈值的高频应答文本，则根据目标高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本；其中，所述目标高频应答文本为所述多个高频应答文本中、与所述UGC文本之间的相似度大于所述预设相似度阈值的高频应答文本。

可选地，所述根据目标高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本，包括：

获取目标高频应答文本的语气词槽位，其中，所述语气词槽位包括所述目标高频应答文本中与语气词相邻的词；

从所述UGC文本中提取与目标位置对应位置处的目标槽位，其中，所述目标位置为所述语气词槽位在所述目标高频应答文本中的位置；

根据所述语气词槽位和所述目标槽位，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本。

可选地，所述语气词槽位包括句首语气词槽位和/或句尾语气词槽位，其中，所述句首语气词槽位为所述目标高频应答文本中与句首语气词相邻的词，所述句尾语气词槽位为所述目标高频应答文本中与句尾语气词相邻的词；

所述目标槽位包括目标句首槽位和/或目标句尾槽位，其中，所述目标句首槽位为所述UGC文本的句首词，所述目标句尾槽位为所述UGC文本的句尾词，所述句首词在所述UGC文本中的位置、与所述句首语气词槽位在所述目标高频应答文本中的位置相对应，所述句尾词在所述UGC文本中的位置、与所述句尾语气词槽位在所述目标高频应答文本中的位置相对应。

可选地，所述语气词槽位包括句首语气词槽位和句尾语气词槽位，所述目标槽位包括目标句首槽位和目标句尾槽位；

所述根据所述语气词槽位和所述目标槽位，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本，包括：

若所述句首语气词槽位与所述目标句首槽位相同，则将所述目标高频应答文本中、与所述句首语气词槽位相邻的语气词添加至所述目标句首槽位之前，若所述句尾语气词槽位与所述目标句尾槽位相同，则将所述目标高频应答文本中、与所述句尾语气词槽位相邻的语气词添加至所述目标句尾槽位之后，得到所述目标应答文本；

若所述句首语气词槽位与所述目标句首槽位不相同、且所述句尾语气词槽位与所述目标句尾槽位不相同，则将所述UGC文本确定为所述目标应答文本。

可选地，所述根据所述多个高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本，还包括：

若所述多个高频应答文本中不存在与所述UGC文本之间的相似度大于所述预设相似度阈值的高频应答文本，则确定所述UGC文本的目标句式；

根据预先建立的句式与语气词匹配规则之间的对应关系，确定与所述目标句式对应的目标语气词匹配规则；

根据所述目标语气词匹配规则，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本。

可选地，所述目标语气词匹配规则包括：与所述目标句式对应的多个第一预设句首语气词，与每一所述第一预设句首语气词相匹配的标点，与所述目标句式对应的第二预设句首语气词、预设句尾语气词以及预设句尾标点；

所述根据所述目标语气词匹配规则，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本，包括：

若所述多个第一预设句首语气词中包含所述UGC文本的句首词，则在所述UGC文本中的所述句首词后添加与所述句首词相匹配的标点，得到中间应答文本；

若所述多个第一预设句首语气词中不包含所述UGC文本的句首词，则在所述UGC文本中的所述句首词前添加所述第二预设句首语气词，得到中间应答文本；

在所述中间应答文本的尾部依次添加所述预设句尾语气词、所述预设句尾标点，得到与所述交互语音信息对应的目标应答文本。

可选地，所述根据所述目标应答文本，生成与所述交互语音信息对应的应答语音，包括：

对所述目标应答文本进行儿化音处理；

对儿化音处理后所得的目标应答文本进行语音合成，得到与所述交互语音信息对应的应答语音。

可选地，所述方法还包括：

若所述UGC文本中包含语气词，则根据所述UGC文本，生成与所述交互语音信息对应的应答语音。

根据本公开实施例的第二方面，提供一种语音应答装置，包括：

确定模块，被配置为响应于接收到交互语音信息，确定所述交互语音信息对应的UGC文本；

获取模块，被配置为若所述UGC文本中未包含语气词，则获取多个高频应答文本，其中，所述高频应答文本包含语气词；

语气词匹配模块，被配置为根据所述多个高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本；

第一生成模块，用于根据所述目标应答文本，生成与所述交互语音信息对应的应答语音。

根据本公开实施例的第三方面，提供一种语音应答装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

执行本公开第一方面所提供的语音应答方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的语音应答方法的步骤。

根据本公开实施例的第五方面，提供一种芯片，包括处理器和接口；所述处理器用于读取指令以执行本公开第一方面所提供的语音应答方法。

本公开的实施例提供的技术方案可以包括以下有益效果：在接收到交互语音信息的情况下，首先确定交互语音信息对应的UGC文本；若UGC文本中未包含语气词，则根据多个包含语气词的高频应答文本，为UGC文本匹配语气词，以得到与交互语音信息对应的目标应答文本；之后，根据目标应答文本，生成与交互语音信息对应的应答语音。这样，可以实现交互语音的自动应答，无需用户自行录制应答语音来自动响应来电方，避免了录制应答语音带来的诸多不便。另外，在UGC文本中不包含语气词的情况下，为其自动匹配语气词，提升应答语音的自然度，从而可以使得UGC文本所承载的情感因素，通过应答语音输出，由此，可以使得语音交互更加自然，能够最大限度地贴合实际的情感交流，提升了用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音应答方法的流程图。

图2是根据一示例性实施例示出的一种根据多个高频应答文本为UGC文本匹配语气词的方法的流程图。

图3是根据另一示例性实施例示出的一种语音应答方法的流程图。

图4是根据一示例性实施例示出的一种语音应答装置的框图。

图5是根据一示例性实施例示出的一种语音应答装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

图1是根据一示例性实施例示出的一种语音应答方法的流程图，其中，该方法可以应用于终端中，如图1所示，该方法可以包括以下S101～S104。

在S101中，响应于接收到交互语音信息，确定交互语音信息对应的UGC文本。

在本公开中，用户生成内容(User Generated Content，UGC)文本指的是用户自定义的用于应答相应交互语音信息的文本。

终端在接收到来电方的交互语音信息后，可以对交互语音信息进行语音识别；之后，根据预先建立的交互文本与UGC文本之间的对应关系，确定与接收到的交互语音信息的语音识别结果对应的UGC文本，即交互语音信息对应的UGC文本。

在S102中，若UGC文本中未包含语气词，则获取多个高频应答文本。

在本公开中，高频应答文本包括语气词，其中，上述多个高频应答文本可以是预先获取到并存储在相应存储模块中的，这样，通过访问该存储模块即可获取到上述多个高频应答文本。

其中，可以通过以下方式来获取上述多个高频应答文本：首先，收集UGC应答文本，之后，通过数据分析统计出多个高频候选文本；最后，对每一高频候选文本人工合理添加语气词，得到上述多个高频应答文本。另外，除了添加语气词外，还可以在语气词后添加与语气词相匹配的标点(例如，“……”表示停顿，“？”表示疑问)。通常在高频候选文本的句首和句尾添加语气词。

示例地，高频候选文本为“现在不太方便，你把快递放收发室”，在句首和句尾分别添加语气词“那个”、“吧”，并添加与语气词“那个”相匹配的标点“……”，得到高频应答文本“那个……现在不太方便，你把快递放收发室吧”。

又示例地，高频候选文本为：“现在不太方便，你把快递放收发室”，在句首和句尾分别添加语气词“嗯”、吗”，并添加与语气词“嗯”相匹配的标点“……”、以及与语气词“吗”相匹配的标点“？”，得到高频应答文本“{嗯……你是有什么事儿吗？”。

在S103中，根据多个高频应答文本，为UGC文本匹配语气词，得到与交互语音信息对应的目标应答文本。

在S104中，根据目标应答文本，生成与交互语音信息对应的应答语音。

下面针对上述S103中的根据多个高频应答文本，为UGC文本匹配语气词，得到与交互语音信息对应的目标应答文本的具体实施方式进行详细说明。具体来说，可以通过图2中所示的S1031～S1035来实现。

在S1031中，确定多个高频应答文本中是否存在与UGC文本之间的相似度大于预设相似度阈值的高频应答文本。

在本公开中，若多个高频应答文本中存在与UGC文本之间的相似度大于预设相似度阈值(例如，90％)的高频应答文本，则执行以下S1032；若多个高频应答文本中不存在与UGC文本之间的相似度大于预设相似度阈值的高频应答文本，则执行以下S1033～S1035。

在S1032中，根据目标高频应答文本，为UGC文本匹配语气词，得到与交互语音信息对应的目标应答文本。

在本公开中，目标高频应答文本为多个高频应答文本中、与UGC文本之间的相似度大于预设相似度阈值的高频应答文本。另外，上述多个高频应答文本之间的文本相似度小于上述预设相似度阈值，因此，若多个高频应答文本中存在与UGC文本之间的相似度大于预设相似度阈值，则多个高频应答文本中存在一个与UGC文本之间的相似度大于预设相似度阈值的高频应答文本，即目标高频应答文本的数量为一个。

在S1033中，确定UGC文本的目标句式。

具体来说，可以将UGC文本输入到句式识别模型中，得到UGC文本的目标句式。

在S1034中，根据预先建立的句式与语气词匹配规则之间的对应关系，确定与目标句式对应的目标语气词匹配规则。

在本公开中，目标语气词匹配规则可以包括：与目标句式对应的多个第一预设句首语气词，与每一第一预设句首语气词相匹配的标点，与目标句式对应的第二预设句首语气词、预设句尾语气词以及预设句尾标点。

在S1035中，根据目标语气词匹配规则，为UGC文本匹配语气词，得到与交互语音信息对应的目标应答文本。

下面针对上述S1032中的根据目标高频应答文本，为UGC文本匹配语气词，得到与交互语音信息对应的目标应答文本的具体实施方式进行详细说明。具体来说，可以通过以下步骤(1)～步骤(3)来实现：

(1)获取目标高频应答文本的语气词槽位。

在本公开中，语气词槽位包括目标高频应答文本中与语气词相邻的词，其中，目标高频应答文本中的语气词通常位于句首和句尾。并且，可以预先对上述多个高频应答文本进行语气词槽位标注，这样，可以根据目标高频应答文本对应的语气词槽位标注信息，来得到目标高频应答文本的语气词槽位。

在一种实施方式中，目标高频应答文本包括句首语气词、不包括句尾语气词，此时，语气词槽位包括句首语气词槽位，其中，句首语气词槽位为目标高频应答文本中与句首语气词相邻的词。

在另一种实施方式中，目标高频应答文本包括句尾语气词、不包括句首语气词，此时，语气词槽位包括句尾语气词槽位，其中，句尾语气词槽位为目标高频应答文本中与句尾语气词相邻的词。

在又一种实施方式中，目标高频应答文本同时包括句首语气词和句尾语气词，此时，语气词槽位包括句首语气词槽位和句尾语气词槽位。

示例地，目标高频应答文本“那个……现在不太方便，你把快递放收发室吧”的语气词槽位包括：句首语气词槽位“现在”和句尾语气词槽位“收发室”。

(2)从UGC文本中提取与目标位置对应位置处的目标槽位。

在本公开中，目标位置为语气词槽位在目标高频应答文本中的位置。

在一种实施方式中，语气词槽位包括句首语气词槽位，此时，目标位置为句首，则UGC文本中与目标位置对应位置处的目标槽位为UGC文本的句首词，即目标句首槽位，其中，句首词在UGC文本中的位置、与上述句首语气词槽位在目标高频应答文本中的位置相对应。

在另一种实施方式中，语气词槽位包括句尾语气词槽位，此时，目标位置为句尾，则UGC文本中与目标位置对应位置处的目标槽位为UGC文本的句尾词，即目标句尾槽位，其中，句尾词在UGC文本中的位置、与句尾语气词槽位在目标高频应答文本中的位置相对应。

在又一种实施方式中，语气词槽位包括句首语气词槽位和句尾语气词槽位，此时，目标位置包括句首和句尾，则UGC文本中与目标位置对应位置处的目标槽位包括UGC文本的句首词(即目标句首槽位)和UGC文本的句尾词(即目标句尾槽位)。

示例地，目标高频应答文本“那个……现在不太方便，你把快递放收发室吧”的语气词槽位包括：句首语气词槽位“现在”和句尾语气词槽位“收发室”，目标位置包括句首和句尾，从UGC文本“现在不太方便，请把快递放收发室”中提取到的与目标位置对应位置处的目标槽位包括：目标句首槽位“现在”和目标句尾槽位“收发室”。

(3)根据语气词槽位和目标槽位，为UGC文本匹配语气词，得到与交互语音信息对应的目标应答文本。

在一种实施方式中，语气词槽位包括句首语气词槽位，目标槽位包括目标句首槽位，此时，可以通过以下方式为UGC文本匹配语气词，以得到与交互语音信息对应的目标应答文本：若句首语气词槽位与目标句首槽位相同，则将目标高频应答文本中、与句首语气词槽位相邻的语气词添加至目标句首槽位之前，从而得到目标应答文本；若句首语气词槽位与目标句首槽位不相同，则将UGC文本确定为目标应答文本。

在另一种实施方式中，语气词槽位包括句尾语气词槽位，目标槽位包括目标句尾槽位，此时，可以通过以下方式为UGC文本匹配语气词，以得到与交互语音信息对应的目标应答文本：若句尾语气词槽位与目标句尾槽位相同，则将目标高频应答文本中、与句尾语气词槽位相邻的语气词添加至目标句尾槽位之后，从而得到目标应答文本；若句尾语气词槽位与目标句尾槽位不相同，则将UGC文本确定为目标应答文本。

在又一种实施方式中，语气词槽位包括句首语气词槽位和句尾语气词槽位，目标槽位包括目标句首槽位和目标句尾槽位，此时，可以通过以下方式为UGC文本匹配语气词，以得到与交互语音信息对应的目标应答文本：若句首语气词槽位与目标句首槽位相同，则将目标高频应答文本中、与句首语气词槽位相邻的语气词添加至目标句首槽位之前，若句尾语气词槽位与目标句尾槽位相同，则将目标高频应答文本中、与句尾语气词槽位相邻的语气词添加至目标句尾槽位之后，得到目标应答文本；若句首语气词槽位与目标句首槽位不相同、且句尾语气词槽位与目标句尾槽位不相同，则将UGC文本确定为目标应答文本。

下面针对上述S1035中的根据目标语气词匹配规则，为UGC文本匹配语气词，得到与交互语音信息对应的目标应答文本的具体实施方式进行详细说明。

具体来说，可以通过以下步骤1)～步骤4)来实现：

1)确定多个第一预设句首语气词中是否包含UGC文本的句首词。

在本公开中，若多个第一预设句首语气词中包含UGC文本的句首词，则执行以下步骤2和步骤4)；若多个第一预设句首语气词中不包含UGC文本的句首词，则执行以下步骤3)和步骤4)。

2)在UGC文本中的句首词后添加与句首词相匹配的标点，得到中间应答文本。

3)在UGC文本中的句首词前添加第二预设句首语气词，得到中间应答文本；

4)在中间应答文本的尾部依次添加预设句尾语气词、预设句尾标点，得到与交互语音信息对应的目标应答文本。

示例地，多个第一预设句首语气词包括：“这个”、“那个”、“嗯”、“啊”，其中，与“这个”、“那个”、“嗯”相匹配的标点均为“……”，与“啊”相匹配的标点均为“！”；与疑问句对应的第二预设句首语气词为“嗯”、与疑问句对应的预设句尾语气词为“吗”、与疑问句对应的预设句尾标点为“？”；与感叹句对应的第二预设句首语气词为“啊”、与感叹句对应的预设句尾语气词为“啦”、与感叹句对应的预设句尾标点为“！”。

例如，UGC文本“嗯，请问你是小爱”，其为疑问句，可见，上述多个第一预设句首语气词中包含UGC文本的句首词“嗯”，因此，在UGC文本“嗯，请问你是小爱”中的句首词“嗯”后添加与句首词“嗯”相匹配的标点“……”，得到中间应答文本“嗯……，请问你是小爱”，之后，在中间应答文本“嗯……，请问你是小爱”尾部依次添加与疑问句对应的预设句尾语气词“吗”、预设句尾标点“？”，得到与交互语音信息对应的目标应答文本“嗯……，请问你是小爱吗？”。

例如，UGC文本“吓死我”，其为感叹句，可见，上述多个第一预设句首语气词中不包含UGC文本的句首词“吓”，因此，在UGC文本“吓死我”中的句首词“吓”前添加与感叹句对应的第二预设句首语气词“啊”，得到中间应答文本“啊吓死我”，之后，在中间应答文本“啊吓死我”尾部依次添加与感叹句对应的预设句尾语气词“啦”、预设句尾标点“！”，得到与交互语音信息对应的目标应答文本“啊吓死我啦！”。

下面针对上述S103中的根据目标应答文本，生成与交互语音信息对应的应答语音的具体实施方式进行详细说明。具体来说，可以通过多种实施方式来实现。

在一种实施方式中，对目标应答文本进行语音合成，得到与交互语音信息对应的应答语音。

在另一种实施方式中，为了进一步提升应答语音的自然度，以使得语音交互更加自然，可以先对目标应答文本进行儿化音处理；然后，对儿化音处理后所得的目标应答文本进行语音合成，得到与交互语音信息对应的应答语音。

图3是根据另一示例性实施例示出的一种语音应答方法的流程图。如图3所示，上述方法还可以包括以下S105。

在S105中，若UGC文本中包含语气词，则根据UGC文本，生成与交互语音信息对应的应答语音。

在一种实施方式中，对UGC文本进行语音合成，得到与交互语音信息对应的应答语音。

在另一种实施方式中，为了进一步提升应答语音的自然度，以使得语音交互更加自然，可以先对UGC文本进行儿化音处理；然后，对儿化音处理后所得的UGC文本进行语音合成，得到与交互语音信息对应的应答语音。

图4是根据一示例性实施例示出的一种语音应答装置的框图。如图4所示，该装置400包括：

确定模块401，被配置为响应于接收到交互语音信息，确定所述交互语音信息对应的UGC文本；

获取模块402，被配置为若所述UGC文本中未包含语气词，则获取多个高频应答文本，其中，所述高频应答文本包含语气词；

语气词匹配模块403，被配置为根据所述多个高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本；

第一生成模块404，用于根据所述目标应答文本，生成与所述交互语音信息对应的应答语音。

可选地，所述语气词匹配模块403包括：

第一匹配子模块，被配置为若所述多个高频应答文本中存在与所述UGC文本之间的相似度大于预设相似度阈值的高频应答文本，则根据目标高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本；其中，所述目标高频应答文本为所述多个高频应答文本中、与所述UGC文本之间的相似度大于所述预设相似度阈值的高频应答文本。

可选地，所述第一匹配子模块包括：

获取子模块，被配置为获取目标高频应答文本的语气词槽位，其中，所述语气词槽位包括所述目标高频应答文本中与语气词相邻的词；

提取子模块，被配置为从所述UGC文本中提取与目标位置对应位置处的目标槽位，其中，所述目标位置为所述语气词槽位在所述目标高频应答文本中的位置；

第二匹配子模块，被配置根据所述语气词槽位和所述目标槽位，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本。

所述第二匹配子模块配置为：

可选地，所述语气词匹配模块403还包括：

第一确定子模块，被配置为若所述多个高频应答文本中不存在与所述UGC文本之间的相似度大于所述预设相似度阈值的高频应答文本，则确定所述UGC文本的目标句式；

第二确定子模块，被配置为根据预先建立的句式与语气词匹配规则之间的对应关系，确定与所述目标句式对应的目标语气词匹配规则；

第三匹配子模块，被配置为根据所述目标语气词匹配规则，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本。

所述第三匹配子模块包括：

第一添加子模块，被配置为若所述多个第一预设句首语气词中包含所述UGC文本的句首词，则在所述UGC文本中的所述句首词后添加与所述句首词相匹配的标点，得到中间应答文本；

第二添加子模块，被配置为若所述多个第一预设句首语气词中不包含所述UGC文本的句首词，则在所述UGC文本中的所述句首词前添加所述第二预设句首语气词，得到中间应答文本；

第三添加子模块，被配置为在所述中间应答文本的尾部依次添加所述预设句尾语气词、所述预设句尾标点，得到与所述交互语音信息对应的目标应答文本。

可选地，所述第一生成模块404包括：

儿化音处理子模块，被配置为对所述目标应答文本进行儿化音处理；

语音合成子模块，被配置为对儿化音处理后所得的目标应答文本进行语音合成，得到与所述交互语音信息对应的应答语音。

可选地，所述装置400还包括：

第二生成模块，被配置为若所述UGC文本中包含语气词，则根据所述UGC文本，生成与所述交互语音信息对应的应答语音。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的语音应答方法的步骤。

图5是根据一示例性实施例示出的一种语音应答装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的语音应答方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

输入/输出接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述语音应答方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述语音应答方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

上述装置除了可以是独立的电子设备外，也可是独立电子设备的一部分，例如在一种实施例中，该装置可以是集成电路(Integrated Circuit，IC)或芯片，其中该集成电路可以是一个IC，也可以是多个IC的集合；该芯片可以包括但不限于以下种类：GPU(GraphicsProcessing Unit，图形处理器)、CPU(Central Processing Unit，中央处理器)、FPGA(Field Programmable Gate Array，可编程逻辑阵列)、DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、SOC(System on Chip，SoC，片上系统或系统级芯片)等。上述的集成电路或芯片中可以用于执行可执行指令(或代码)，以实现上述的语音应答方法。其中该可执行指令可以存储在该集成电路或芯片中，也可以从其他的装置或设备获取，例如该集成电路或芯片中包括处理器、存储器，以及用于与其他的装置通信的接口。该可执行指令可以存储于该存储器中，当该可执行指令被处理器执行时实现上述的语音应答方法；或者，该集成电路或芯片可以通过该接口接收可执行指令并传输给该处理器执行，以实现上述的语音应答方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的语音应答方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音应答方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据目标高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本，包括：

4.根据权利要求3所述的方法，其特征在于，所述语气词槽位包括句首语气词槽位和/或句尾语气词槽位，其中，所述句首语气词槽位为所述目标高频应答文本中与句首语气词相邻的词，所述句尾语气词槽位为所述目标高频应答文本中与句尾语气词相邻的词；

5.根据权利要求4所述的方法，其特征在于，所述语气词槽位包括句首语气词槽位和句尾语气词槽位，所述目标槽位包括目标句首槽位和目标句尾槽位；

6.根据权利要求2所述的方法，其特征在于，所述根据所述多个高频应答文本，为所述UGC文本匹配语气词，得到与所述交互语音信息对应的目标应答文本，还包括：

7.根据权利要求6所述的方法，其特征在于，所述目标语气词匹配规则包括：与所述目标句式对应的多个第一预设句首语气词，与每一所述第一预设句首语气词相匹配的标点，与所述目标句式对应的第二预设句首语气词、预设句尾语气词以及预设句尾标点；

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述根据所述目标应答文本，生成与所述交互语音信息对应的应答语音，包括：

对所述目标应答文本进行儿化音处理；

9.根据权利要求1-7中任一项所述的方法，其特征在于，所述方法还包括：

10.一种语音应答装置，其特征在于，包括：

11.一种语音应答装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

执行权利要求1-9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1～9中任一项所述方法的步骤。

13.一种芯片，其特征在于，包括处理器和接口；所述处理器用于读取指令以执行权利要求1～9中任一项所述的方法。