CN108899035B

CN108899035B - 消息处理方法及装置

Info

Publication number: CN108899035B
Application number: CN201810872692.7A
Authority: CN
Inventors: 许丽; 潘嘉; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2021-08-17
Anticipated expiration: 2038-08-02
Also published as: CN108899035A

Abstract

本发明实施例提供一种消息处理方法及装置，属于计算机应用技术领域。该方法包括：获取源消息及目标消息，源消息中包含指定语音口令，目标消息包含有领取语音口令；若领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，且指定语音口令与领取语音口令之间满足预设条件，则将源消息的关联账户中的电子资源转移至目标消息的关联账户，指定语音口令对应的语言类型可任意设置。由于指定语音口令对应的语言类型可任意设置，除了普通话外，消息处理过程还可以使用不同国家地区的语言，从而消息处理过程可适用于不同的语言场景，消息的传播力度较强且传播范围较广。

Description

消息处理方法及装置

技术领域

本发明实施例涉及计算机应用技术领域，更具体地，涉及一种消息处理方法及装置。

背景技术

随着互联网技术的发展，互联网应用的各种功能日益丰富，红包功能是目前大多数互联网应用所提供的一种特色服务，尤其是在节日、假日来临时，互联网应用的红包功能得到广泛使用。红包功能主要是使用互联网应用的用户之间进行红包消息的传递，其中，红包消息指的是一种具备祝福功能、带有转账数额且能够通过互联网进行传播的消息。在相关技术中，主要是由用户发送包含普通话口令的红包，当识别出其他用户输入普通话口令时，则其他用户可领取上述用户发送的红包。由于用户之间在交互时，只能发送及领取包含普通话语音口令的红包，从而消息处理过程的适用场景较为单一，红包消息的传播力度较弱且传播范围较为限制。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的消息处理方法及装置。

根据本发明实施例的第一方面，提供了一种消息处理方法，该方法包括：

获取源消息及目标消息，源消息中包含指定语音口令，目标消息包含有领取语音口令；

若领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，且指定语音口令与领取语音口令之间满足预设条件，则将源消息的关联账户中的电子资源转移至目标消息的关联账户，指定语音口令对应的语言类型可任意设置。

本发明实施例提供的方法，通过获取源消息及目标消息，若领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，且指定语音口令与领取语音口令之间满足预设条件，则将源消息的关联账户中的电子资源转移至目标消息的关联账户。由于指定语音口令对应的语言类型可任意设置，消息处理过程中使用的语言除了普通话之外，还可以使用不同国家地区的语言，从而消息处理过程可适用于不同的语言场景，消息的传播力度较强且传播范围较广。

根据本发明实施例的第二方面，提供了一种消息处理装置，该装置包括：

第一获取模块，用于获取源消息及目标消息，源消息中包含指定语音口令，目标消息包含有领取语音口令；

转移模块，用于当领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，且指定语音口令与领取语音口令之间满足预设条件时，则将源消息的关联账户中的电子资源转移至目标消息的关联账户，指定语音口令对应的语言类型可任意设置。

根据本发明实施例的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的消息处理方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的消息处理方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种消息处理方法的场景示意图；

图2为本发明实施例的一种消息处理方法的流程示意图；

图3为本发明实施例的一种消息处理方法的流程示意图；

图4为本发明实施例的一种消息处理方法的流程示意图；

图5为本发明实施例的一种消息处理装置的框图；

图6为本发明实施例的一种电子设备的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

随着互联网技术的发展，互联网应用的各种功能日益丰富，红包功能是目前大多数互联网应用所提供的一种特色服务，尤其是在节日、假日来临时，互联网应用的红包功能得到广泛使用。红包功能主要是使用互联网应用的用户之间进行红包消息的传递，其中，红包消息指的是一种具备祝福功能、带有转账数额且能够通过互联网进行传播的消息。在相关技术中，主要是由用户发送包含普通话口令的红包，当识别出其他用户输入普通话口令时，则其他用户可领取上述用户发送的红包。

为了便于理解，现结合红包领取场景下的消息处理流程，对终端与服务器之间的交互流程进行说明。参见图1，第一用户可通过第一终端101向服务器102发送红包消息。其中，红包消息中包含第一用户使用普通话讲的第一语音口令。当然，红包消息还可以包括用户设置的文字口令，本发明实施例对此不作具体限定。服务器102在接到红包消息后，可将红包消息转发至第二终端103。第二终端103在接收到第一用户发送的红包消息后，可将红包消息中的第一语音口令语音播报给使用第二终端103的第二用户。第二用户可按照听到的内容，使用普通话讲出用于领红包的第二语音口令，并通过第二终端103向服务器102发送包含第二语音口令的红包领取消息。服务器102通过检测第一语音口令与第二语音口令是否相匹配，如果匹配的话，可以由第二用户领红包，也即按照第二用户领取到的电子货币额度，将等量的电子货币从第一用户的关联账户转移至第二用户的关联账户。

由于用户之间在交互时，只能发送及领取包含普通话语音口令的红包，从而红包消息的处理过程及适用场景较为单一，红包消息的传播力度较弱且传播范围较为限制。

针对上述情形，本发明实施例提供了一种消息处理方法。该方法可应用于上述红包领取场景，也可以用于其它电子资源的领取场景，本发明实施例对此不作具体限定。另外，该方法对应的执行主体可以为服务器，也可以为终端，或者由服务器或终端交互实现，本发明实施例对此也不作具体限定。为了便于说明，本发明实施例以执行主体为服务器为例，对本发明实施例提供的消息处理方法进行阐述。参见图2，该方法包括：

201、获取源消息及目标消息。

由上述实施场景实施例可知，源消息可以由第一用户通过第一终端101发送。需要说明的是，源消息可设置有电子资源属性，并可用于实现电子资源的转让或分享。电子资源可以为虚拟货币(如游戏币)或者电子货币等，本发明实施例对此不作具体限定。电子资源属性包括电子资源的总额度及领取次数，源消息中包含指定语音口令。目标消息可以由第二用户通过第二终端103发送，目标消息包含有领取语音口令，目标消息可用于实现获取源消息转让或分享的电子资源。

202、若领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，且指定语音口令与领取语音口令之间满足预设条件，则将源消息的关联账户中的电子资源转移至目标消息的关联账户，指定语音口令对应的语言类型可任意设置。

在202中，源消息中包含的指定语音口令可对应有一种语言类型。其中，语言类型可以为不同国家地区下的官方语言，也可以对应一个国家地区下的不同方言，本发明实施例对此不作具体限定。例如，语言类型可以为中文、英文或日文等，还可以为中文下的四川话、武汉话、东北话或粤语等。需要说明的是，指定语音口令对应的语言类型可以为指定语音口令使用的语言类型或者为指定语音口令中指定的语言类型，本发明实施例对此不作具体限定。

其中，指定语音口令使用的语言类型指的是第一用户在“讲出”指定语音口令时所使用的语言类型。同理，领取语音口令使用的语言类型指的是第二用户在“讲出”领取语音口令时所使用的语言类型。指定语音口令中指定的语言类型指的是第一用户在“讲出”指定语音口令时讲出的内容所指定的语言类型。例如，若第一用户在“讲出”指定语音口令时使用的是四川话，则指定语音口令使用的语言类型即为四川话。若第二用户在“讲出”领取语音口令时使用的是粤语，则领取语音口令使用的语言类型即为粤语。若第一用户在“讲出”指定语音口令时的具体内容“用四川话说出恭喜发财”，则第一用户在“讲出”指定语音口令时讲出的内容所指定的语言类型即为四川话。

需要说明的是，在指定语音口令对应的语言类型具体为指定语音口令中指定的语言类型的情况下，可利用关键词提取算法从指定语音口令对应的口令文本中提取出指定的语言类型，本发明实施例对此不作具体限定。而指定语音口令使用的语言类型、以及领取语音口令使用的语言类型，可分别通过语言类型识别的方式确认，本发明实施例对此不作具体限定。

在确定领取语音口令使用的语言类型与指定语音口令对应的语言类型相同后，可确定指定语音口令与领取语音口令之间是否满足预设条件。其中，预设条件可以为指定语音口令对应的口令文本与领取语音口令对应的口令文本在内容上保持一致，或者在语义上保持一致，本发明实施例对此不作具体限定。若指定语音口令与领取语音口令之间也满足预设条件，则可将源消息的关联账户中的电子资源转移至目标消息的关联账户。

为了便于理解，现以红包领取场景为例，对获取源消息及目标消息的过程进行说明。相应地，源消息即为红包消息，目标消息即为红包领取消息，电子资源即为电子货币。第一用户在通过第一终端101发送红包消息时，可为红包消息设置电子货币属性。例如，若发红包用户希望一个人领红包，则可设置领取次数为1。以发红包用户设置电子货币的总额度为100元为例，当一个人领取该红包后，则发红包用户的关联账户中会减少100元，而领取红包用户的关联账户中会增加100元。若发红包用户希望多人领取红包，如2人，则可设置领取次数为2。以2人领取红包时额度随机，且发红包用户设置电子货币的总额度为100元为例，若第1个用户领取红包分到的额度为48元，则发红包用户的关联账户中会减少48元，而领取红包用户的关联账户中会增加48元。相应地，第1个用户领取红包分到的额度为52元，则发红包用户的关联账户中会减少52元，而领取红包用户的关联账户中会增加52元。其中，红包消息中包含指定语音口令，如“用四川话说出恭喜发财”。

第一终端101将红包消息发送至服务器102，服务器102可获取红包消息，并由服务器102将红包消息转发至第二用户所使用的第二终端103。第二终端103在接收到红包消息后，可将里面的指定语音口令播报给第二用户，从而第二用户可基于指定语音口令讲出领取语音口令，并由第二终端103将包含有领取语音口令的领取红包消息发送至服务器102。

以指定语音口令对应的语言类型为指定语音口令中指定的语言类型为例，服务器102在获取到的红包消息及红包领取消息后，可判断领取语音口令使用的语言类型与指定语音口令中指定的语言类型是否相同。具体地，若指定语音口令的具体内容为“用四川话说出恭喜发财”，也即指定语音口令中指定的语言类型为四川话，而领取语音口令使用的语言类型也为四川话，则可确定领取语音口令使用的语言类型与指定语音口令中指定的语言类型相同。反之，则可确定两者不相同。

在确定领取语音口令使用的语言类型与指定语音口令中指定的语言类型相同后，可确定指定语音口令与领取语音口令之间是否满足预设条件。若同样也满足，则可将第一用户的账户中电子货币属性所指定额度的电子货币转移至第二用户的账户，也即完成整个红包发送到红包领取的过程。其中，第一用户的账户即为红包消息的关联账户，第二用户的账户即为红包领取消息的关联账户。

基于上述实施例的内容，作为一种可选实施例，在将源消息的关联账户中的电子资源转移至目标消息的关联账户之前，还可以判断领取语音口令使用的语言类型与指定语音口令对应的语言类型是否相同。本发明实施例不对判断领取语音口令使用的语言类型与指定语音口令对应的语言类型是否相同的方式作具体限定，包括但不限于：根据领取语音口令中的第一声学特征，确定领取语音口令使用的语言类型与指定语音口令对应的语言类型是否相同。

其中，第一声学特征可以为PLP(Perceptual Linear Predictive，感知线性预测)特征，也可以线性预测分析特征，本发明实施例对此不作具体限定。以第一声学特征为PLP特征为例，可再提取指定语音口令的PLP特征，并将两者进行比较，如计算两者之间的相似度或者计算两者之间的匹配程度，从而在相似度大于预设阈值或匹配程度大于预设阈值时，确定领取语音口令使用的语言类型与指定语音口令对应的语言类型相同。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据领取语音口令中的第一声学特征，确定领取语音口令使用的语言类型与指定语音口令对应的语言类型是否相同的方式作具体限定。参见图3，包括但不限于：

301、根据领取语音口令中的第一声学特征，获取每一预设语言类型对应的得分。

其中，所有预设语言类型中包含指定语音口令对应的语言类型，预设语言类型对应的得分表示领取语音口令使用的语言类型为预设语言类型时的可能性。得分越大，则表示可能性越高。预设语言类型可以为预先设定多种语言类型，其种类总数可根据需求进行设置，本发明实施例对此不作具体限定。以方言为例，预设语言类型可分别为四川话、武汉话、合肥话、上海话、北京话及粤语等等。需要说明的是，指定语音口令对应的语言类型是被预设语言类型包含在内的。

302、对每一预设语言类型对应的得分按照从大到小进行排序，若排序后前预设数量的预设语言类型中包含指定语音口令对应的语言类型，则确定领取语音口令使用的语言类型与指定语音口令对应的语言类型相同。

其中，预设数量不大于预设语言类型的总数，预设数量的数值可根据需求进行设置，如取值为2，本发明实施例对此不作具体限定。结合上述示例，以预设语言类型分别为四川话、武汉话、合肥话、上海话及北京话，预设数量取值为2为例，若四川话对应的得分为0.93、武汉话对应的得分为0.78、合肥话对应的得分为0.56、上海话对应的得分为-0.13且北京话对应的得分为-0.31，在对每一预设语言类型对应的得分按照从大到小进行排序后，选取前2个预设语言类型，即为四川话及武汉话。若指定语音口令对应的语言类型为四川话或武汉话，则可确定领取语音口令使用的语言类型与指定语音口令对应的语言类型是相同的。当然，也可不直接确定领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，而是执行进一步的判断过程，如结合口令的具体内容进行判断，从而确定两者是否相同，本发明实施例对此不作具体限定。若指定语音口令对应的语言类型不为四川话且不为武汉话，则可确定领取语音口令使用的语言类型与指定语音口令对应的语言类型是不相同的。

本发明实施例提供的方法，通过根据领取语音口令中的第一声学特征，获取每一预设语言类型对应的得分。对每一预设语言类型对应的得分按照从大到小进行排序，若排序后前预设数量的预设语言类型中包含指定语音口令对应的语言类型，则确定领取语音口令使用的语言类型与指定语音口令对应的语言类型相同。由于可通过语言类型识别模型确定领取语音口令使用的语言类型与指定语音口令对应的语言类型是否相同，从而可提高识别领取语音口令使用的语言类型时的效率。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对根据领取语音口令中的第一声学特征，获取每一预设语言类型对应的得分的方式作具体限定，包括但不限于：将领取语音口令中的第一声学特征输入至语言类型识别模型，输出每一预设语言类型对应的得分，语言类型识别模型是基于第一样本声学特征及第一样本声学特征对应的预设语言类型训练得到的。

在执行上述过程之前，可训练得到语言类型识别模型。以第一声学特征为PLP特征为例，则第一样本声学特征即为样本PLP特征。相应地，语言类型识别模型的训练过程可具体为：从样本语音口令中获取样本PLP特征。其中，样本语音口令使用的语言类型均为预设语言类型。将样本PLP特征作为初始模型的输入，将样本PLP特征对应的预设语言类型作为已知条件，对初始模型中的参数进行训练，从而训练得到语言类型识别模型。其中，初始模型可以为(Total Variability，总变量)模型，本发明实施例对此不作具体限定。

在训练得到语言类型识别模型后，可将领取语音口令中的第一声学特征输入至语言类型识别模型，从而输出领取语音口令使用的语言类型为每一预设语言类型时的可能性分值，也即输出每一预设语言类型对应的得分。其中，分值越大则表明可能性越高。以预设语言类型分别为四川话、武汉话、合肥话、上海话及北京话为例，在将领取语音口令中的第一声学特征输入至语言类型识别模型后，可输出四川话对应的得分、武汉话对应的得分、合肥话对应的得分、上海话对应的得分及北京话对应的得分。

基于上述实施例的内容，作为一种可选实施例，预设条件包括以下条件中的至少任一项，以下条件分别为指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度大于等于第一预设阈值，指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的差异仅为无义词，以及指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的语义相似度大于第二预设阈值。

其中，无义词指的是在句中不指代实质内容的词语，如语气词及拟声词等，本发明实施例对此不作具体限定。语气词可以为“啊”、“了”、“呢”及“哦”等，拟声词可以为“哈”、“嘿”及“呵”等。具体地，可将指定语音口令对应的口令文本与领取语音口令对应的口令文本进行对齐，从而逐字比较两者之间差异。两者之间的差异仅为无义词，可具体分为如下几种情形：

(1)领取语音口令对应的口令文本与指定语音口令对应的口令文本相比，领取语音口令对应的口令文本内多插入了无义词。

例如，领取语音口令对应的口令文本为“生日快乐哈哈”，而指定语音口令对应的口令文本为“生日快乐”，则前者与后者相比，前者多插入了无义词“哈哈”。此时，可确定指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的差异仅为无义词。

(2)领取语音口令对应的口令文本与指定语音口令对应的口令文本相比，领取语音口令对应的口令文本内删除了无义词。

例如，领取语音口令对应的口令文本为“生日快乐”，而指定语音口令对应的口令文本为“生日快乐哈哈”，则前者与后者相比，前者删除了无义词“哈哈”。此时，可确定指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的差异仅为无义词。

(3)领取语音口令对应的口令文本与指定语音口令对应的口令文本相比，两者之间的差异为无义词的替换。

例如，领取语音口令对应的口令文本为“生日快乐哈”，而指定语音口令对应的口令文本为“生日快乐哦”，则前者与后者相比，两者之间的差异为无义词由“哈”替换为了“哦”，此时，可确定指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的差异仅为无义词。

另外，指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的语义相似度越大，则表明两者语义越接近。第二预设阈值可根据需求进行设置，本发明实施例对此不作具体限定。需要说明的是，上述每项条件均对应一次判断过程。在实际实施过程中，当预设条件包括多项条件时，可相应分别执行多项条件对应的判断过程。还需要说明的是，在分别执行多项条件对应的判断过程时，多个判断过程的执行顺序可根据需求确定先后顺序，本发明实施例对此不作具体限定。

例如，可结合上述实施例的内容，先判定领取语音口令使用的语言类型与指定语音口令对应的语言类型是否有可能相同，在确定两者有可能相同后，再判定指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度是否大于等于第一预设阈值。若两者之间的相似度小于第一预设阈值且大于第四预设阈值，则可再判定指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的差异是否仅为无义词。若两者之间的差异仅为无义词，则可确定指定语音口令与领取语音口令之间满足预设条件。

或者，还可在确定指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度小于第一预设阈值且大于第四预设阈值之后，不进行上述无义词的判定，而是直接判定指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的语义相似度是否大于第二预设阈值。若两者之间的相似度大于第二预设阈值，则可确定指定语音口令与领取语音口令之间满足预设条件。

或者，还可在确定两者之间的相似度小于第一预设阈值且大于第四预设阈值之后，先进行无义词的判定，再进行语义相似度的判定。或者，在确定两者之间的相似度小于第一预设阈值且大于第四预设阈值之后，先进行语义相似度的判定，再先进行无义词的判定，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过在确定领取语音口令使用的语言类型与指定语音口令对应的语言类型相同后，可按照不同的预设条件进行再次判断，且判断过程在执行时的执行顺序可不分先后，从而可提高识别领取语音口令使用的语言类型时的效率。

基于上述实施例的内容，作为一种可选实施例，预设条件包括指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度大于等于第一预设阈值；相应地，在将源消息的关联账户中的电子资源转移至目标消息的关联账户之前，还可计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度。参见图4，本发明实施例不对计算两者之间的相似度方法作具体限定，包括但不限于：

401、计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的编辑距离，并获取指定语音口令对应的口令文本中的文字数量。

其中，指定语音口令对应的口令文本与领取语音口令对应的口令文本均可用字符串进行表示。两者之间的编辑距离指的是，由一个字符串转成另一个字符串所需的最少编辑操作次数。一般情况下，编辑距离越小，则表示两个字符串的相似度越大。如果编辑距离等于零，则表示两个字符串完全相同。

402、根据编辑距离与文字数量之间的比值，计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度。

具体地，该计算过程可通过如下公式表示：

在上述公式中，S表示指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度，D表示编辑距离，C表示文字数量。以指定语音口令为“用粤语说出恭喜发财”，且领取语音口令为“恭喜你发财”为例，则指定语音口令对应的语言类型为粤语，而指定语音口令对应的口令文本为“恭喜发财”。按照上述公式中各个参数的定义，可确定D为1且C为4，从而可计算得到的S为0.75。

需要说明的是，第一预设阈值的取值可以为0.8。若相似度大于等于0.8，则可确定指定语音口令与领取语音口令之间满足预设条件。

本发明实施例提供的方法，由于可根据指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度，确定两者之间是否满足预设条件，从而可提高识别领取语音口令使用的语言类型时的准确率。

基于上述实施例的内容，作为一种可选实施例，在将源消息的关联账户中的电子资源转移至目标消息的关联账户之前，还可获取领取口音指令对应的口令文本。本发明实施例不对获取领取口音指令对应的口令文本的方式作具体限定，包括但不限于：根据领取语音口令中的第二声学特征，获取领取语音口令对应的口令文本；或者，根据指定语音口令对应的语言类型及根据领取语音口令中的第二声学特征，获取领取语音口令对应的口令文本。

其中，第二声学特征可以为领取语音口令的频谱特征，如FB(Filter Bank，滤波组件)特征或MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征等，本发明实施例对此不作具体限定。现对不同的获取方式进行解释说明。

(1)第一种获取方式

本发明实施例不对根据领取语音口令中的第二声学特征，获取领取语音口令对应的口令文本的方式作具体限定，包括但不限于：将领取语音口令中的第二声学特征输入至第一语音内容识别模型，输出领取语音口令对应的口令文本。其中，第一语音内容识别模型与指定语音口令对应的语言类型相匹配，第一语音内容识别模型是基于第二样本声学特征及第二样本声学特征对应的样本口令文本训练得到的。

在执行上述过程之前，可预先为每一预设语言类型训练对应的第一语音内容识别模型。具体地，对于任一预设语言类型，可从使用该预设语言类型的样本语音口令中提取第二样本声学特征，并获取样本语音口令对应的样本口令文本。将第二样本声学特征作为初始模型的输入，将样本口令文本作为输出，以对初始模型进行训练，从而得到第一语音内容识别模型。其中，初始模型可以为HMM-GMM(Hidden Markov Model-Gaussian Mixed Model，隐藏马尔可夫高斯混合)模型、HMM-NN(Hidden Markov Model-Neural Network，隐藏马尔可夫神经网络)模型、DNN(Deep Neural Network，深度神经网络)模型或RNN(RecurrentNeural Network，循环神经网络)模型等，本发明实施例对此不作具体限定。

需要说明的是，由于上述实施例可知，领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，从而本发明实施例的第一种方式中使用的第一语音内容识别模型即为指定语音口令对应的语言类型，其相匹配的第一语音内容识别模型。而同样由上述实施例可知，指定语音口令对应的语言类型是被预设语言类型包含在内的，也即指定语音口令对应的语言类型，其相匹配的第一语音内容识别模型已被训练好。因此，在第一种方式中，可直接使用预先训练好的第一语音内容识别模型。

(2)第二种获取方式

本发明实施例不对根据指定语音口令对应的语言类型及根据领取语音口令中的第二声学特征，获取领取语音口令对应的口令文本的方式作具体限定，包括但不限于：将指定语音口令对应的语言类型及领取语音口令中的第二声学特征输入至第二语音内容识别模型，输出领取语音口令对应的口令文本，第二语音内容识别模型与所有预设语言类型相匹配，第二语音内容识别模型是基于第二样本声学特征、第二样本声学特征对应的预设语言类型及第二样本声学特征对应的样本口令文本训练得到的。

具体地，由上述第一种方式的实现过程可知，第一种方式中是每一预设语言类型各自有一个与其相匹配的第一语音内容识别模型。而在第二种方式中，则是第二语音内容识别模型与所有预设语言类型相匹配，也即所有预设语言类型共用同一个模型。其中，指定语音口令对应的语言类型可通过不同的形式表示，如采样数字标识的方式，本发明实施例对此不作具体限定。以不同的预设语言类型通过one hot特征进行表示，且预设语言类型分别为四川话、武汉话、合肥话及上海话为例，则上述四个预设语言类型对应的one hot特征分别为(1，0，0，0)、(0，1，0，0)、(0，0，1，0)及(0，0，0，1)。

若领取语音口令中的第二声学特征用特征向量v进行表示，则将第二声学特征与上述四种预设语言类型对应的one hot特征分别进行组合，可得到(v，1，0，0，0)、(v，0，1，0，0)、(v，0，0，1，0)及(v，0，0，0，1)。由上述实施例的内容可知，指定语音口令对应的语言类型已经确定。以指定语音口令对应的语言类型为四川话，则将(v，1，0，0，0)输入至第二语音内容识别模型，可输出领取语音口令对应的口令文本。

在执行上述过程之前，可预先训练第二语音内容识别模型。具体地，对于任一预设语言类型，可从不同预设语言类型的样本语音口令中提取第二样本声学特征，并获取样本语音口令对应的第二样本口令文本。将第二样本声学特征及第二样本声学特征对应的预设语言类型作为初始模型的输入，将样本口令文本作为输出，以对初始模型进行训练，从而得到第二语音内容识别模型。初始模型可以为RNN-CTC(Recurrent Neural Network-Connectionist Temporal Classification，递归神经网络联结时态分类)模型、Encoder-Decoder模型等，本发明实施例对此不作具体限定。

需要说明的是，由在第一种方式中，每一预设语言类型均需要预先训练一个第一语音内容识别模型，从而通过采用第二种方式，可避免因模型太多而占用太多资源。而在第一种方式中，由于输入的参数较少，从而相比于第二种方式，第一种方式的处理效率较高。另外，由上述实施例的内容可知，指定语音口令对应的口令文本可通过关键词提取的方法获取，也可以基于本发明实施例提供的语音内容识别模型获取，本发明实施例对此不作具体限定。

另外，还需要说明的是，实际实施过程中，对于通过语音内容识别模型(包括第一语音内容识别模型及第二语音内容识别模型)已经识别出的领取语音口令，可将其进行标记，并作为语音内容识别模型的训练样本，从而实现对语音内容识别模型的自动化自适应训练，以不断提高语音内容识别模型的识别准确率。

本发明实施例提供的方法，通过采用两种不同的方式获取领取语音口令对应的口令文本。由于可根据需求选取不同的方式获取领取语音口令对应的口令文本，从而可适应不同的处理场景。

需要说明的是，上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

基于上述实施例的内容，本发明实施例提供了一种消息处理装置，该装置用于执行上述方法实施例中的消息处理方法。参见图5，该装置包括：

第一获取模块501，用于获取源消息及目标消息，源消息中包含指定语音口令，目标消息包含有领取语音口令；

转移模块502，用于当领取语音口令使用的语言类型与指定语音口令对应的语言类型相同时，且指定语音口令与领取语音口令之间满足预设条件，则将源消息的关联账户中的电子资源转移至目标消息的关联账户，指定语音口令对应的语言类型可任意设置。

作为一种可选实施例，该装置还包括：

确定模块，用于根据领取语音口令中的第一声学特征，确定领取语音口令使用的语言类型与指定语音口令对应的语言类型是否相同。

作为一种可选实施例，确定模块，包括：

获取单元，用于根据领取语音口令中的第一声学特征，获取每一预设语言类型对应的得分；其中，所有预设语言类型中包含指定语音口令对应的语言类型，预设语言类型对应的得分表示领取语音口令使用的语言类型为预设语言类型时的可能性；

确定单元，用于对每一预设语言类型对应的得分按照从大到小进行排序，若排序后前预设数量的预设语言类型中包含指定语音口令对应的语言类型，则确定领取语音口令使用的语言类型与指定语音口令对应的语言类型相同。

作为一种可选实施例，获取单元，用于将领取语音口令中的第一声学特征输入至语言类型识别模型，输出每一预设语言类型对应的得分，语言类型识别模型是基于第一样本声学特征及第一样本声学特征对应的预设语言类型训练得到的。

作为一种可选实施例，预设条件包括以下条件中的至少任一项，以下条件分别为指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度大于等于第一预设阈值，指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的差异仅为无义词，以及指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的语义相似度大于第二预设阈值。

作为一种可选实施例，预设条件包括指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度大于等于第一预设阈值；相应地，该装置还包括：

第一计算模块，用于计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的编辑距离，并获取指定语音口令对应的口令文本中的文字数量；

第二计算模块，用于根据编辑距离与文字数量之间的比值，计算指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度。

作为一种可选实施例，该装置还包括：

第二获取模块，用于根据领取语音口令中的第二声学特征，获取领取语音口令对应的口令文本；或者，根据指定语音口令对应的语言类型及根据领取语音口令中的第二声学特征，获取领取语音口令对应的口令文本。

本发明实施例提供的装置，通过获取源消息及目标消息，若领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，且指定语音口令与领取语音口令之间满足预设条件，则将源消息的关联账户中的电子资源转移至目标消息的关联账户。由于指定语音口令对应的语言类型可任意设置，消息处理过程中使用的语言除了普通话之外，还可以使用不同国家地区的语言，从而消息处理过程可适用于不同的语言场景，消息的传播力度较强且传播范围较广。

其次，通过根据领取语音口令中的第一声学特征，获取每一预设语言类型对应的得分。对每一预设语言类型对应的得分按照从大到小进行排序，若排序后前预设数量的预设语言类型中包含指定语音口令对应的语言类型，则确定领取语音口令使用的语言类型与指定语音口令对应的语言类型相同。由于可通过语言类型识别模型确定领取语音口令使用的语言类型与指定语音口令对应的语言类型是否相同，从而可提高识别领取语音口令使用的语言类型时的效率。

再次，通过在确定领取语音口令使用的语言类型与指定语音口令对应的语言类型相同后，可按照不同的预设条件进行再次判断，且判断过程在执行时的执行顺序可不分先后，从而可提高识别领取语音口令使用的语言类型时的效率。

另外，由于可根据指定语音口令对应的口令文本与领取语音口令对应的口令文本之间的相似度，确定两者之间是否满足预设条件，从而可提高识别领取语音口令使用的语言类型时的准确率。

最后，通过采用两种不同的方式获取领取语音口令对应的口令文本。由于可根据需求选取不同的方式获取领取语音口令对应的口令文本，从而可适应不同的处理场景。

本发明实施例提供了一种电子设备。参见图6，该设备包括：处理器(processor)601、存储器(memory)602和总线603；

其中，处理器601及存储器602分别通过总线603完成相互间的通信；

处理器601用于调用存储器602中的程序指令，以执行上述实施例所提供的消息处理方法，例如包括：获取源消息及目标消息，源消息中包含指定语音口令，目标消息包含有领取语音口令；若领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，且指定语音口令与领取语音口令之间满足预设条件，则将源消息的关联账户中的电子资源转移至目标消息的关联账户，指定语音口令对应的语言类型可任意设置。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的消息处理方法，例如包括：获取源消息及目标消息，源消息中包含指定语音口令，目标消息包含有领取语音口令；若领取语音口令使用的语言类型与指定语音口令对应的语言类型相同，且指定语音口令与领取语音口令之间满足预设条件，则将源消息的关联账户中的电子资源转移至目标消息的关联账户，指定语音口令对应的语言类型可任意设置。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种消息处理方法，其特征在于，包括：

获取源消息及目标消息，所述源消息中包含指定语音口令，所述目标消息包含有领取语音口令；

若所述领取语音口令使用的语言类型与所述指定语音口令对应的语言类型相同，且所述指定语音口令与所述领取语音口令之间满足预设条件，则将所述源消息的关联账户中的电子资源转移至所述目标消息的关联账户，所述指定语音口令对应的语言类型可任意设置；

所述预设条件包括所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的相似度大于等于第一预设阈值；相应地，所述将所述源消息的关联账户中的电子资源转移至所述目标消息的关联账户之前，还包括：

计算所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的编辑距离，并获取所述指定语音口令对应的口令文本中的文字数量；

根据所述编辑距离与所述文字数量之间的比值，计算所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的相似度。

2.根据权利要求1所述的方法，其特征在于，所述将所述源消息的关联账户中的电子资源转移至所述目标消息的关联账户之前，还包括：

根据所述领取语音口令中的第一声学特征，确定所述领取语音口令使用的语言类型与所述指定语音口令对应的语言类型是否相同。

3.根据权利要求2所述的方法，其特征在于，所述根据所述领取语音口令中的第一声学特征，确定所述领取语音口令使用的语言类型与所述指定语音口令对应的语言类型是否相同，包括：

根据所述领取语音口令中的第一声学特征，获取每一预设语言类型对应的得分；其中，所有预设语言类型中包含所述指定语音口令对应的语言类型，所述预设语言类型对应的得分表示所述领取语音口令使用的语言类型为所述预设语言类型时的可能性；

对每一预设语言类型对应的得分按照从大到小进行排序，若排序后前预设数量的预设语言类型中包含所述指定语音口令对应的语言类型，则确定所述领取语音口令使用的语言类型与所述指定语音口令对应的语言类型相同。

4.根据权利要求3所述的方法，其特征在于，所述根据所述领取语音口令中的第一声学特征，获取每一预设语言类型对应的得分，包括：

将所述领取语音口令中的第一声学特征输入至语言类型识别模型，输出每一预设语言类型对应的得分，所述语言类型识别模型是基于第一样本声学特征及所述第一样本声学特征对应的预设语言类型训练得到的。

5.根据权利要求1所述的方法，其特征在于，所述预设条件还包括：

所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的差异仅为无义词，和/或，所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的语义相似度大于第二预设阈值。

6.根据权利要求1或5所述的方法，其特征在于，所述将所述源消息的关联账户中的电子资源转移至所述目标消息的关联账户之前，还包括：

根据所述领取语音口令中的第二声学特征，获取所述领取语音口令对应的口令文本；或者，

根据所述指定语音口令对应的语言类型及根据所述领取语音口令中的第二声学特征，获取所述领取语音口令对应的口令文本。

7.一种消息处理装置，其特征在于，包括：

第一获取模块，用于获取源消息及目标消息，所述源消息中包含指定语音口令，所述目标消息包含有领取语音口令；

转移模块，用于当所述领取语音口令使用的语言类型与所述指定语音口令对应的语言类型相同，且所述指定语音口令与所述领取语音口令之间满足预设条件时，则将所述源消息的关联账户中的电子资源转移至所述目标消息的关联账户，所述指定语音口令对应的语言类型可任意设置；

所述预设条件包括所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的相似度大于等于第一预设阈值；相应地，所述装置还包括：

第一计算模块，用于计算所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的编辑距离，并获取所述指定语音口令对应的口令文本中的文字数量；

第二计算模块，用于根据所述编辑距离与所述文字数量之间的比值，计算所述指定语音口令对应的口令文本与所述领取语音口令对应的口令文本之间的相似度。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。