CN113470631A

CN113470631A - 语音信号处理方法及装置、电子设备及存储介质

Info

Publication number: CN113470631A
Application number: CN202110718958.4A
Authority: CN
Inventors: 张一鸣; 梁荣堂; 熊磊; 王刚; 赵钰; 于思民
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-10-01

Abstract

本公开是关于一种语音信号处理方法及装置，电子设备及存储介质。所述语音信号处理方法可包括：获取客户端采集的语音信号；基于第一模型得到所述语音信号的第一文本序列，其中，所述第一文本序列包括：所述语音信号转换成的至少一个文本；基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本；其中，所述识别工具为：根据所述客户端提供的通信录信息生成的。

Description

语音信号处理方法及装置、电子设备及存储介质

技术领域

本公开涉及音频信号处理技术领域，尤其涉及一种语音信号处理方法及装置，电子设备及存储介质。

背景技术

语音识别(Automatic Speech Recognition，ASR)，是将声音转化成文字的过程，原理过程一般为：输入、编码(特征提取)、解码以及输出。目前主流的语音识别主要分为传统识别方法与端到端识别方法，其主要差异体现在声学模型上。传统识别方法的声学模型一般采用隐马尔可夫模型(Hidden Markov Model，HMM)，而端到端识别方法一般采用深度神经网络(Deep Neural Networks，DNN)。

上述的两种识别方法中，目前主要通过词准确率和句准确率作为语音识别效果的评判依据。词准确率的定义为：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，而不需要进行插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比。句准确率的定义为：识别出来的完整正确语句数量除以总的标准语句数量。基于词准率与句准率，即可在语音识别的实际应用中对各种识别方法进行评估判断，并针对模型不断进行优化改进。

发明内容

本公开提供一种语音信号处理方法及装置，电子设备及存储介质。

本公开实施例第一方面提供一种语音信号处理方法，所述方法包括：

获取客户端采集的语音信号；

基于第一模型得到所述语音信号的第一文本序列，其中，所述第一文本序列包括：所述语音信号转换成的至少一个文本；

基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本；

其中，所述识别工具为：根据所述客户端提供的通信录信息生成的。

基于上述方案，所述识别工具，包括：

汉语言模型n-Gram图，是根据所述通信录信息的名称的出现概率的概率图；或者，

第二模型，是以所述通信录信息中名称对应的音素序列为训练数据的输入，且以所述通信录信息的所述名称的文本为标签训练生成的基于上述方案，所述基于识别工具，校正所述第一文本序列得到所述语音信号的识别文本，包括：

通过遍历所述n-Gram图确定出多个所述第一文本序列中包含的名称的概率值，得到概率值最大名称所对应的第一文本序列；其中，不同所述第一文本序列包含的相同音素序列的名称不同；

将概率值最大名称所对应的所述第一文本序列，确定为所述语音信号的识别文本。

基于上述方案，所述基于识别工具，校正所述第一文本序列得到所述语音信号的识别文本，包括：

将所述第一文本序列中与名称关联的音素序列输入第二模型，得到第二文本序列；

将所述第二文本序列替换所述第一文本序列中的名称，得到所述语音信号的识别文本。

基于上述方案，所述方法还包括：

确定所述语音信号的应用场景是否为通信场景；

所述基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本，包括：

在所述语音信号的应用场景为所述通信场景时，基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本。

基于上述方案，所述确定所述语音信号的应用场景是否为通信场景，包括：

根据匹配规则，通过遍历所述第一文本序列，确定所述第一文本序列是否包含与通话关联的关键词；

若所述第一文本序列包含与通话关联的关键词，确定所述语音信号的应用场景为通信场景。

基于上述方案，所述方法还包括：

在所述语音信号的应用场景不是所述通信场景时，根据所述第一文本序列，确定所述语音信号的识别文本。

基于上述方案，所述方法还包括：

基于所述通信录信息预先生成识别工具。

基于上述方案，所述方法应用于服务端中，所述方法还包括：

在生成所述识别工具之后，建立所述客户端的标识信息与所述识别工具之间的关联关系；

在接收到所述语音信号时，通过所述客户端的标识信息查询所述关联关系确定所述识别工具。

基于上述方案，所述方法还包括：

在所述服务端未预先建立所述客户端的所述识别工具，向所述客户端发送请求所述通信录信息的请求指令；

接收基于所述请求指令返回的所述通信录信息。

基于上述方案，所述方法还包括：

在接收到所述语音信号后确定出未预先建立所述客户端的所述识别工具，基于所述第一文本序列，确定所述语音信号的识别文本。

本公开实施例第二方面提供一种通信场景的语音信号处理方法，所述方法包括：

将通信录信息发送给服务端，其中，所述通信录信息，用于供服务端通过模型训练得到识别工具；

采集语音信号；

将所述语言信号发送给服务端；

接收所述语音信号的识别文本，其中，所述识别文本是：由所述识别工具对所述语音信号被第一模型识别的第一文本序列校正得到的。

基于上述方案，所述方法还包括：

输出是否发送所述通信录信息的上报提示；

检测所述上报提示的用户操作；

所述将通信录信息发送给服务端，包括：

在所述用户操作指示同意发送时，将所述通信录信息上报给所述服务端。

基于上述方案，所述方法还包括：

加密所述通信录信息；

所述将通信录信息发送给服务端，包括：

将加密后的所述通信录信息发送给所述服务端。

本公开实施例第三方面提供一种语音信号处理装置，所述装置包括：

获取模块，用于获取客户端采集的语音信号；

第一识别模块，用于基于第一模型得到所述语音信号的第一文本序列，其中，所述第一文本序列包括：所述语音信号转换成的至少一个文本；

第二识别模块，用于基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本；

基于上述方案，所述识别工具，包括：

第二模型，是以所述通信录信息中名称对应的音素序列为训练数据的输入，且以所述通信录信息的所述名称的文本为标签训练生成的。

基于上述方案，所述第二识别模块，用于通过遍历所述n-Gram图确定出多个所述第一文本序列中包含的名称的概率值，得到概率值最大名称所对应的第一文本序列；其中，不同所述第一文本序列包含的相同音素序列的名称不同；将概率值最大名称所对应的所述第一文本序列，确定为所述语音信号的识别文本。

基于上述方案，所述第二识别模块，用于将所述第一文本序列中与名称关联的音素序列输入第二模型，得到第二文本序列；将所述第二文本序列替换所述第一文本序列中的名称，得到所述语音信号的识别文本。

基于上述方案，所述装置还包括：

第一确定模块，用于确定所述语音信号的应用场景是否为通信场景；

所述第一识别模块，具体用于在所述语音信号的应用场景为所述通信场景时，基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本。

基于上述方案，所述第一确定模块，具体用于根据匹配规则，通过遍历所述第一文本序列，确定所述第一文本序列是否包含与通话关联的关键词；若所述第一文本序列包含与通话关联的关键词，确定所述语音信号的应用场景为通信场景。

基于上述方案，所述装置，还包括：

第三识别模块，还用于在所述语音信号的应用场景不是所述通信场景时，根据所述第一文本序列，确定所述语音信号的识别文本。

基于上述方案，所述装置还包括：

生成模块，用于基于所述通信录信息预先生成的识别工具。

基于上述方案，所述装置应用于服务端中，所述装置还包括：

关联模块，用于在生成所述识别工具之后，建立所述客户端的标识信息与所述识别工具之间的关联关系；

第二确定模块，用于在接收到所述语音信号时，通过所述客户端的标识信息查询所述关联关系确定所述识别工具。

基于上述方案，所述装置还包括：

请求模块，用于在所述服务端未预先建立所述客户端的所述识别工具，向所述客户端发送请求所述通信录信息的请求指令；

第一接收模块，用于接收基于所述请求指令返回的通信录信息。

基于上述方案，所述装置还包括：

第四识别模块，还用于在接收到所述语音信号后确定出未预先建立所述客户端的所述识别工具，基于所述第一文本序列，确定所述语音信号的识别文本。

本公开实施例第四方面提供一种通信场景的语音信号处理装置，所述装置包括：

第一发送模块，用于将通信录信息发送给服务端，其中，所述通信录信息，用于供服务端通过模型训练得到识别工具；

采集模块，用于采集语音信号；

第二发送模块，用于将所述语言信号发送给服务端；

第二接收模块，用于接收所述语音信号的识别文本，其中，所述识别文本是：由所述识别工具对所述语音信号被第一模型识别的第一文本序列校正得到的。

基于上述方案，所述装置还包括：

输出模块，用于输出是否发送所述通信录信息的上报提示；

检测模块，用于检测所述上报提示的用户操作；

所述第二发送模块，用于在所述用户操作指示同意发送时，将所述通信录信息上报给所述服务端。

基于上述方案，所述装置还包括：

加密模块，用于加密所述通信录信息；

所述第二发送模块，用于将加密后的所述通信录信息发送给所述服务端。

本公开实施例第五方面提供一种电子设备，包括：

用于存储处理器可执行指令的存储器；

处理器，与所述存储器连接；

其中，所述处理器被配置为执行如前述第一方面和/或第二方面提供的语音信号处理方法的至少其中之一。

本公开实施例的第五方面提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行如上语音信号处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

所述识别工具是基于通信录信息训练的，如此，若该语音信号为与通信录信息关联的语音信号时，可以通过识别工具的校正得到准确的识别文本，减少了发音相同的重名联系人的语音识别出错的现象，提升了语音信号的识别准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的语音信号处理方法的流程示意图；

图2A是根据一示例性实施例示出的语音信号处理方法的流程示意图；

图2B是根据一示例性实施例示出的语音信号处理方法的流程示意图；

图3是根据一示例性实施例示出的语音信号处理方法的流程示意图；

图4是根据一示例性实施例示出的语音信号处理方法的流程示意图；

图5是根据一示例性实施例示出的语音信号处理方法的流程示意图；

图6是根据一示例性实施例示出的语音信号处理装置的结构示意图；

图7是根据一示例性实施例示出的语音信号处理装置的结构示意图；

图8是根据一示例性实施例示出的客户端的结构示意图；

图9是根据一示例性实施例示出的服务端的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置的例子。

如图1所示，本公开实施例提供一种语音信号处理方法，所述方法包括：

S110：获取客户端采集的语音信号；

S120：基于第一模型得到所述语音信号的第一文本序列，其中，所述第一文本序列包括：所述语音信号转换成的至少一个文本；

S130：基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本；

该语音信号处理方法的执行主体可以为：客户端自身，也可以是网络侧的服务端。所述客户端包括但不限于：各种类型的移动终端和/或固定终端。所述移动终端包括但不限于：手机、平板电脑、可穿戴式设备或者车载设备等。所述固定终端包括但不限于：个人电脑(Personal Computer，PC)、固定的智能家居设备和/或固定的智能办公设备。

若该方法应用于网络侧的服务端中，则S110可为：从客户端接收语音信号。

获取到语音信号之后，可以利用声学模型将语音信号转换为音素序列，然后将音素序列输入到基于通信录信息训练的语音识别模型，之后就会得到语音信号的识别文本。

在本公开实施例中，声学模型可以是大数据训练的模型或者是基于发音特点的经验模型等。

在本公开实施例中，所述第一模型可为：ASR模型。

本公开实施例中识别工具同样可为：不同于第一模型的另一个ASR模型或者其他可以用于校正第一文本序列的任意工具。

该通信录信息可包括：通讯录内一个或多个名称。示例性地，该通信录信息可为一个包含至少一个名称的名称列表。

总之，上述将语音信号转换为第一模型可识别的音素序列之后，第一模型可以以该音素序列为输入，将输出该音素序列对应的文本序列，如此第一模型就可以得到语音信号的第一文本序列。

在本公开实施例中，所述识别是基于通信录信息训练的，如此，若该语音信号为与通信录信息关联的语音信号时，可以得到准确的识别文本。

示例性地，假设该语音信号是指示客户端打电话的语音信号，则可能在语音信号中包含指示给“李四”打电话，此处的“李四”即通信录信息中涉及的名称。“李四”的发音形成的语音信号被识别之后，会转换成文本格式的“李四”

由于该识别工具是根据所述通信录信息生成的，因此在出现发音同名的名称时，自然就会识别为包含在通信录信息中的名称，从而提升语音信号的识别文本的准确性。

在一些实施例中，如图2所示，

所述识别工具，包括：

汉语言模型n-Gram图，是根据所述通信录信息的名称的出现概率的概率图；

或者，

此处的n-Gram图是一种概率图谱，通过图遍历可以将第一文本序列中多个名称中最大概率的名称。示例性地，以音素序列“zhang shan”为例，第一模块会识别为：张山或者张珊。根据该n-Gram图中“张山”或“张珊”的概率的大小取决于在客户端内通信录信息中是否出现。示例性地，若通信录信息中出现有张山的联系方式，而没有张珊的联系方式，则通过遍历n-Gram图中得到“张山”的概率大于“张珊”的概率。而校正后的第一文本序列将包括：概率值最大的名称。在一些情况下，n-Gram图中“张珊”的出现概率是查询不到的，则可认为其出现概率为0。

第二模型同样可以为将音素转换成词序列的模型，示例性地，第二模型为不同于第一模型的ARS模型。第一模型可为语音识别的通用模型，而第二模型可为针对对应客户端内通信录信息中名称识别的个性ASR模型。

如图2A所示，所述S130可包括：

S131A：通过遍历所述n-Gram图确定出多个所述第一文本序列中包含的名称的概率值，得到概率值最大名称所对应的第一文本序列；其中，不同所述第一文本序列包含的相同音素序列的名称不同；

S132A：将概率值最大名称所对应的所述第一文本序列，确定为所述语音信号的识别文本。

由于不同名称的发音相同，因此第一模型将识别出包含不同文本名称的第一文本序列，在本公开实施例中通过遍历n-Gram就可以快速确定出具有最大概率为正确名称文本的第一文本序列，从而实现第一文本序列的快速校正。

在一个实施例中，如图2B所示，所述S130可包括：

S131B：将所述第一文本序列中与名称关联的音素序列输入第二模型，得到第二文本序列；

S132B：将所述第二文本序列替换所述第一文本序列中的名称，得到所述语音信号的识别文本。

在本公开实施例中，该第一模型可为：基于海量数据训练生成的ASR模型。示例性地，该第一模型可为通用模型，该通用模型训练使用的海量数据包括但不限于通信录信息，且远远比一个客户端的通信录信息多。

该第一模型可为多个终端所共用的共享模型。若该语音信号处理方法应用于服务端侧，则服务端侧可以用于第一模型对不同终端的语音信号进行识别，得到所述第一文本序列；然后利用发送该语音信号的客户端对应的识别工具，校正第一文本序列，得到最终返回给客户端的识别文本。

第一模型可以识别任意语音信号对应的音素序列，得到特定的文本序列。该文本序列包括一个或多个词。若是多个词，则按照音素序列的排序进行排列，则得到了所述第一文本序列。

所述基于通讯录生成的识别工具，主要用户校正第一模型输出的第一文本序列中的名称所对应的字或词，从而使得语音识别的识别文本更加准确，从而减少名称相同导致的识别文本不准确的现象。

此时，第一模型对称呼所对应音素序列可能转化成多个不同的词序列，而第二模型则对与名称关联的音素序列转换成的词序列，该词序列即构成了前述第二文本序列。

该第二文本序列包含的词个数可能比第一文本序列包含的词个数少。

且第二文本序列中包含的词为名称的文本，且该名称的文本位于发送该语音信号的客户端的通信录信息中。

在一些实施例中，所述方法还包括：确定所述语音信号的应用场景是否为通信场景；

所述S130可包括：在所述语音信号的应用场景为所述通信场景时，基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本。

只有在语音信号与通信相关时(即该语音信号是在通信场景下产生的时)，才会利用识别工具校正第一文本序列，得到被校正后的第一文本序列，该校正后的第一文本序列将作为语音信号的识别文本，返回到客户端或者供客户端输出或者确定执行通信业务时设计的联系人。

确定所述语音信号的应用场景是否为通信场景的方式有很多种，以下提供几种可选方式：

可选方式一：确定所述语音信号的录制应用程序是否为通信类应用程序，若语音信号的录制应用程序是通信类应用程序，则可认为定该语音信号的应用场景为通信场景，否则认定语音信号对应的应用场景不是通信场景。

可选方式二：根据语音信号的第一文本序列确定语音信号的应用场景是否为通信场景。示例性地，若第一文本序列包含与通信关联的关键词，则可以认定该语音信号的应用场景为通信场景。

与通信关联的关键词可包括以下至少之一：

“打电话”；

“通话”；

“呼叫”；

“拨打”；

“联系”；

“语音”。

当然以与通信关联的关键词的举例，具体实现时不局限于上述举例。

因此在一些实施例中，所述确定所述语音信号的应用场景是否为通信场景，包括：

在本公开实施例中，所述匹配规则可包括但不限于正则表达式。

通过正则表达式等匹配规则，通过对第一识别文本的处理，能够快速的确定出第一文本序列是否包含与通话关联的关键词。与此同时，采用基于第一文本序列确定语音信号的应用场景是否为通信场景，则具有无需额外信息确定当前待识别的语音信号的应用场景是否为通信场景，具有应用场景确定简便的特点。

在一些实施例中，所述方法还包括：

根据所述第一文本序列确定是否为特定通信场景，如果不是特定通信场景，则基于所述通信录信息生成的识别工具，校正所述第一文本序列，而是直接根据第一文本序列确定语音信号的识别文本。

该特定通信场景包括以下至少之一：

根据第一文本序列确定出该通信场景为与公共服务机构通信的场景；

根据第一文本序列确定出该通信场景为与通信运营商通信的场景；

根据第一文本序列确定出该通信场景为该语音信号直接指示了通信号码通信的场景。

所述公共服务机构包括但不限于以下至少之一：

消防部门；

警务部门；

医院；

消费者投诉部门。

所述通信运商可包括：提供通信基础设施或者提供通信服务的运营商，示例性地，通信运营商移动、联通和/或电信。

在一些情况下，语音信号不涉及名称，例如，用户直接说了通信的手机号或座机号等，此时就没有必要进行名称的校正了，因此，在本公开实施例中，语音识别信号直接识别出通信号码(即通信标识)的文本，如此，客户端可以根据第一文本序列中的通信号码直接进行通信即可。

在一些实施例中，所述方法还包括：

在所述语音信号的应用场景不是所述通信场景时，根据所述第一文本序列确定所述语音信号的识别文本。

若确定出通信信号的应用场景是通信场以外的任意场景，则都不进行第二文本序列的获取，或者不进行n-Gram图的遍历，而是直接根据第一模型直接输出的第一文本序列，来获取语音信号的识别文本。

示例性地，该通信场景以外的任意场景包括但不限于：智能家居的使用场景和/或上网浏览场景等。

由于不是通信场景，则无需根据通信录信息对第一模型的第一文本序列进行校正，从而减少不必要的处理。

在一些实例中，所述根据所述第一文本序列和所述第二文本序列，得到所述语音信号的识别文本，可包括：

基于自然语言处理NLP，关联所述第一文本序列和所述第二文本序列得到所述语音信号的识别文本。

在本公开实施例中，利用自然语言处理，进行第一文本序列和第二文本序列的关联，该关联的方式有多种，示例性，将第一文本序列和第二文本序列中对名称文本的置信度进行比较，选择置信度大名称所在第一文本序列，作为最终输出的语音识别得到的识别文本。

在一些实施例中，所述方法还包括：

基于所述通信录信息预先生成的识别工具。

在本公开实施例中，该识别工具为预先生成的。

例如，客户端自身根据通信录信息预先生成识别工具，或者，服务端预先从客户端获取到通信录信息，然后根据通信录信息生成识别工具。

此处至少根据通信录信息中的名称生成识别工具。

在一些实施例中，所述方法应用于服务端中，所述方法还包括：

在接收到所述语音信号后，通过所述客户端的标识信息查询所述关联关系确定所述识别工具。

例如，该客户端的标识信息可包括：客户端的设备标识、客户端内安装的用户识别模块(SIM)的号码(即手机号等)或者客户标识等。识别工具也可以分配有工具编号等工具标识，在本公开实施例中，这种关联关系可为：客户端的标识信息和工具的工具标识对应存储。

总之，在本公开实施例中，若上述方法的执行主体是服务端，则客户端除了上报语音信号还会上报终端的标识信息，如此服务端还会根据标识信息通过查询所述关联关系，确定出处理客户端在通信场景下的语音信号的识别工具。

在一些实施例中，所述方法还包括：

接收基于所述请求指令返回的所述通信录信息。

在本公开实施例中，若执行语音识别的主体是服务端，则会检查到该客户端还未建立识别工具，则会自动向客户端发送请求指令，请求到客户端的通信录信息，然后基于通信录信息可以生成所述识别工具，如此不用额外触发识别工具的生成，且在成功获取到通信录信息之后，就能够生成所述识别工具，如此在下一次的语音识别过程中，就可以利用及时生成的识别工具进行语音信号的识别。

在一些实施例中，所述方法还包括：

在接收到所述语音信号后确定出未预先建立所述客户端的所述识别工具，基于第一文本序列确定所述语音信号的识别文本。

如果暂时没有生成识别工具，为了确保当前语音识别的识别文本快速返回，就直接基于第一模型的第一文本序列作为语音信号的最终识别文本。

如图3所示，本公开实施例提供一种通信场景的语音信号处理方法，所述方法包括：

S210：将通信录信息发送给服务端，其中，所述通信录信息，用于供服务端通过模型训练得到识别工具；

S220：采集语音信号；

S230：将所述语言信号发送给服务端；

S240：接收所述语音信号的识别文本，其中，所述识别文本是：由所述识别工具对所述语音信号被第一模型识别的第一文本序列校正得到的。

在本公开实施例中，客户端会将自身的通信录信息发送服务端，从而可供服务端进行识别工具的生成。

在本公开实施例中，通信录信息可以预先发送给服务端，也可以是和语音信号一起发送服务端。

总之，在本公开实施例中的通信录信息给服务端的S210和采集语音信号S220之间没有一定的先后顺序，可以是S210在步骤S220之前，或者，S210和步骤S220之间同步执行，甚至，S210还可以位于S220之后。

在本公开实施例中，语音信号由服务端进行识别，客户端不仅会将语音信号发送给服务端，还会将自身的通信录信息发送给服务端，方便服务端根据通信录信息生成能够准确识别通信场景下语音信号的识别工具，从而客户端会获得更加准确的识别文本。

在一些实施例中，此处上报的通信录信息可包括：名称和联系人的联系方式，该联系方式包括但不限于：手机号和/或微信号(等即时通信应用的通信标识)。

该识别工具可为：前述的第二模型或n-Gram图。

在另一些实施例中，此处上报的通信录信息可包括：通信录信息中的名称。

在一些实施例中，所述方法还包括：

输出是否发送所述通信录信息的上报提示；

检测所述上报提示的用户操作；

所述S210可包括：

由于通信录信息可能涉及用户的隐私数据，客户端可以输出上报提示，并在输出上报提示之后，检测作用于上报提示的用户操作。若检测到指示上报的确认提示，则认定该用户操作指示同意发送，和/或，检测到指示不上报的否认提示，则认定该用户操作指示禁止发送，则不将通信录信息上报给所述服务端。

在一些实施例中，输出所述上报提示的时机可包括以下任意时机：

客户端首次开机之后；

客户端的通信录信息有更新之后；

达到了通信录信息上报周期对应的上报时刻；

收到指示通信的语音识别指令的错误率达到预设概率值；

收到指示通信的语音识别指令的出错此时达到预设个数值。

在确定指示通信的语音识别指令是否出错可以采用以下方式至少之一：

根据语音识别指令发起呼叫时检测到挂掉的用户操作；

根据语音是被指令发起的呼叫时检测到挂掉的用户操作，并检测到用户收到切换到呼叫其他联系人的切换指令；

根据语音识别指令向联系人发送消息等待确认时检测到取消指令。

根据语音是被指令向联系人发送消息等待确认时检测到更改联系人的更改指令。

向联系人发送的消息包括但不限于：短信和/或即时通信应用的即时通信消息。

此处的用户指令、切换指令、取消指令和/或更改指令，都可以为任意形式的指令，例如，手动指令和/或语音指令。

在一些实施例中，所述方法还包括：

加密所述通信录信息；

所述将通信录信息发送给服务端，包括：

将加密后的所述通信录信息发送给所述服务端。

由于通信录信息可能涉及到客户端的用户的隐私信息，为了确保通信录信息的安全性，在本公开实施例中，会加密通信录信息，向服务端上报的加密后的通信录信息。

在一些实施例中，客户端上报加密后的通信录信息之前，还包括：与服务端协商加密密钥，从而利用协商的加密密钥加密客户端的通信录信息。

在另一些实施例中，客户端和服务端不用协商，可以根据协议或者预制的与加密相关的信息，确定出加密密钥，然后将加密后的通信录信息上报给服务端，服务端同样可以根据协议或者预制的与加密相关的信息，知晓解密密钥，从而利用解密密钥解密加密后的通信录信息，基于解密后的通信录信息生成前述识别工具。

参考图4所示，包含语音识别模型的语音识别系统可是一种模式识别系统，在进行语音信号的识别时包括：特征提取、模式匹配(声学模型与语言模型)、参考模式库(如图 4所示的字典)等三个基本单元。

该语音识别模型的系统可如图4所示，包括：

语音数据库用于各种进行模型训练的语料数据。

从语音数据中特征提取；

利用提取的特征进行声学模型训练，得到声学模型；该声学模型可以将音频格式的语音信号翻译成文本格式的音素序列；

字典可存储有音素序列和音素序列对应的被转换后的文本；在一些实施例中，该字典还可以存储不同音素序列转换对应文本的概率值。

利用文本数据库进行语音模型训练，语音模型可以将音素序列翻译成文本。

在应用过程中，语音输入之后进行特征提取，基于ASR模型、字典和语音模型，并结合语音解码与搜书算法，最终输出音输入(此处的语音输入对应前述的语音信号)对应的文本，即图4和图5所示的文本输入，该输出的文本即为本公开实施例中最终将语音信号转换为的语音信号的识别文本。

语音识别系统构建过程整体上包括两大部分：训练和识别。训练可是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的声学模型和语言模型。

而识别过程可是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为前端和后端两大模块。前端主要的作用是进行端点检测，例如，去除多余的静音和非说话声、降噪、特征提取等。

后端的作用是利用训练好的声学模型和语言模型对用户说话的特征向量进行统计模式识别，该过程又称解码，得到其包含的文字信息。

后端还存在一个自适应反馈模块，可以对用户的语音进行自学习，从而对声学模型和语音模型行必要的校正，进一步提高识别的准确率。

多音字问题一直是ASR识别过程中的一个难题，因其发音类似导致对应的语音信号的音频数据在特征提取上具有极高的相似度，导致只根据音频数据无法准确判断当前待识别的音频所对应的正确语言文本。为解决该问题，NLP处理被加入到ASR语音识别的过程中，用于分析识别文本并对其进行语义层面的文本纠错，从而优化识别过程中因多音字导致的语义错乱问题，提高了ASR识别的准确率。

但在用户要求语音助手帮助其拨打电话或发送消息时，因人名重复或发音类似而导致的识别错误是无法利用NLP处理进行纠正的，因为人名本身是多种多样且不具备普通的文本语义。

在用户要求语音助手帮助其拨打电话或发送消息时，因多音字发音类似导致对应的音频数据在特征提取上具有极高的相似度，导致ASR模型无法准确判断当前待识别的音频所对应的正确语言文本，可能会引起错误操作。此处的ASR模型为前述语音模型的一种。

为优化通话场景下ASR识别的准确率，本公开实施例主要包括以下流程：

如图5所示，在允许的情况下，客户端会将用户手机上的通信录信息进行打包加密上传到服务端，同时客户端会定期判断通讯录是否有发生更新，如有更新则会将新的数据进行打包加密上传。服务端收到客户端上传的通信录信息后，将其加密保存到数据库中。

在服务端收到加密通信录信息后，会利用消息队列将解密的用户数据异步发送给ASR模型生成服务进行用户个性化ASR模型的生成。需要注意的是ASR模型中的声学模型采用普通声学模型不变，这里的个性化为语言模型和字典的个性化生成。基于用户的通信录信息对字典内容进行更新，同时取通讯录中的人名信息作为模型输入，进行语言模型训练。语言模型利用链式法则，把一个句子的概率拆解成其中每个词的概率之积。设文本序列w是：由w₁,w₂,…w_n所组成，则P(W)可以拆成： P(W)＝P(w₁)P(w₂|w₁)P(w₃|w₁,w₂)…P(w_n|w₂,…w_n-1)。该式中，每一项都是在已知之前所有词的条件下，当前词的概率。例如，P(w_n|w₂,…w_n-1)为：在已知w₁,w₂,…w_n-1的条件下，w_n的概率。

在此，认为每个词的概率分布只与历史中的最后几个词相关。更新上述语言模型表达式为：P(W)＝P(w₁)P(w₂|w₁)P(w₃|w₂)…P(w_n|w_n-1)。利用n-Gram模型进行训练，最终生成个性化语言模型。此处的个性化语音模型可为前述识别工具的一种。示例性地，该个性化语言识别模型可为前述的第二模型。

当用户使用语音助手进行唤醒并上传语音数据后，服务端根据用户的唯一ID标识在模型库中进行检索，判断该用户是否生成了个性化模型。如果在用户允许的情况下服务端利用该用户设备上传的通信录信息生成了对应的个性化模型，则在调用通用ASR模型进行语音识别的同时，也会将语音数据发送给用户的个性化ASR模型进行识别。令文本序列为W，语音信号为V，则识别文本的计算公式应该为：

由于语音是由文字产生的，所以通过贝叶斯公式进行转换得到：

其中，P(W)即为上述语言模型生成的文本序列概率，P(W|V)表示给定文本后的语音信号的概率。在个性化ASR模型识别过程中，首先通过特征提取将音频帧识别成状态信息，接着利用通用声学模型将获得的状态信息进行计算并获得P(W|V)，最后利用个性化的语言模型和字典得到音素对应的文本概率 P(W)最终求得用户语音对应的文本序列W。识别成功后，服务端将利用识别文本进行语义分析，判断当前用户的文本意图是否属于通话场景，服务端会优先采用个性化ASR模型的识别文本返回给客户端进行展示，同时利用该结果进行NLP语义处理并自动执行用户所需的相关操作。ASR识别过程将使用到两个模型，分别是：声学模型与语言模型。声学模型采用的是通用的声学模型训练过程，这里不做赘述。语言模型的主要作用是根据声学模型返回的音素序列，给出最大概率的文字序列。

在本公开实施例中语言模型分为两部分，分别是通用大模型(此处的通用大模型对应于前述的第一模型)和个性化语言模型。这两个语言模型采用的皆为n-Gram语言模型，实际上是一个图的生成过程。其中通用大模型根据声学模型返回的音素序列进行图的遍历并获取概率最高的文本序列结果。而个性化语言模型与大模型不同的是，该过程只依赖于用户上传的通讯录人名信息作为输入生成n-Gram图，并根据配置的规则(如打电话给{user_name}，给{user_name}打电话)ASR识别过程包括两个模型，即声学模型与语言模型。其中声学模型采用的是通用的声学模型训练过程，这里不做赘述。语言模型的主要作用是根据声学模型返回的音素序列，给出最大概率的文字序列。在本公开实施例中语言模型分为两部分，分别是通用大模型和个性化语言模型。这两个语言模型采用的皆为 n-Gram语言模型，实际上是一个图的生成过程。其中通用大模型根据声学模型返回的音素序列进行图的遍历并获取概率最高的文本序列结果。而个性化语言模型与大模型不同的是，该过程只依赖于用户上传的通讯录人名信息作为输入生成n-Gram图，并根据配置的规则(如打电话给{user_name}，给{user_name}打电话)。

如图6所示，本公开实施例提供一种语音信号处理装置，所述装置包括：

获取模块110，用于获取客户端采集的语音信号；

第一识别模块120，用于基于第一模型得到所述语音信号的第一文本序列，其中，所述第一文本序列包括：所述语音信号转换成的至少一个文本；

第二识别模块130，用于基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本；

其中，所述识别工具为：根据所述客户端提供的通信录信息生成的获取模块

在一些实施例中，所述获取模块、第一识别模块和所述第二识别模块可为程序模块；该程序模块被处理器执行后，能够实现上述操作，且识别文本的准确度。

在一些实施例中，所述获取模块、第一识别模块和所述第二识别模块可为软硬结合模块；所述软硬结合模块包括但不限于：可编程阵列；所述可编程阵列包括但不限于：现场可编程阵列或复杂可编程阵列。

在还有一些实施例中，所述获取模块、第一识别模块和所述第二识别模块可为纯硬件模块；所述纯硬件模块包括但不限于：专用集成电路。

在一些实施例中，所述识别工具，包括：

第二模型，是以所述通信录信息中名称对应的音素序列为训练数据的输入，且以所述通信录信息的所述名称的文本为标签训练生成的。在一些实施例中，所述第二识别模块，用于通过遍历所述n-Gram图确定出多个所述第一文本序列中包含的名称的概率值，得到概率值最大名称所对应的第一文本序列；其中，不同所述第一文本序列包含的相同音素序列的名称不同；将概率值最大名称所对应的所述第一文本序列，确定为所述语音信号的识别文本。

在一些实施例中，所述第二识别模块，用于将所述第一文本序列中与名称关联的音素序列输入第二模型，得到第二文本序列；将所述第二文本序列替换所述第一文本序列中的名称，得到所述语音信号的识别文本。

在一些实施例中，所述装置还包括：第一确定模块，用于确定所述语音信号的应用场景是否为通信场景；所述第一识别模块，具体用于在所述语音信号的应用场景为所述通信场景时，基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本。

在一些实施例中，所述第一确定模块，具体用于根据匹配规则，通过遍历所述第一文本序列，确定所述第一文本序列是否包含与通话关联的关键词；若所述第一文本序列包含与通话关联的关键词，确定所述语音信号的应用场景为通信场景。

在一些实施例中，所述装置，还包括：

在一些实施例中，所述装置还包括：生成模块，用于基于所述通信录信息预先生成的识别工具。

在一些实施例中，所述装置应用于服务端中，所述装置还包括：

第二确定模块，用于在接收到所述语音信号后，通过所述客户端的标识信息查询所述关联关系确定所述识别工具。

所述装置还包括：

第一接收模块，用于接收基于所述请求指令返回的获取模块通信录信息。

在一个实施例中，所述装置还包括：

如图7所示，本公开实施例提供一种通信场景的语音信号处理装置，所述装置包括：

第一发送模块210，用于将通信录信息发送给服务端，其中，所述通信录信息，用于供服务端通过模型训练得到识别工具；

采集模块220，用于采集语音信号；

第二发送模块230，用于将所述语言信号发送给服务端；

第二接收模块240，用于

在一些实施例中，所述第一发送模块210、采集模块220、第二发送模块230和第二接收模块240可为程序模块；该程序模块被处理器执行后，客户端会将通信录信息和语音信号均上报给服务端，供服务端基于通信录信息生成的识别工具校正第一模型的第一识别文本，将得到语音信号更为准确度识别文本。

在一些实施例中，所述，所述第一发送模块210、采集模块220、第二发送模块230和第二接收模块240可为软硬结合模块；所述软硬结合模块包括但不限于：可编程阵列；所述可编程阵列包括但不限于：现场可编程阵列或复杂可编程阵列。

在还有一些实施例中，所述，所述第一发送模块210、采集模块220、第二发送模块230和第二接收模块240可为纯硬件模块；所述纯硬件模块包括但不限于：专用集成电路。

在一个实施例中，所述装置还包括：

输出模块，用于输出是否发送所述通信录信息的上报提示；

检测模块，用于检测所述上报提示的用户操作；

在一个实施例中，所述装置还包括：

加密模块，用于加密所述通信录信息；

本公开实施例提供一种电子设备，包括：

用于存储处理器可执行指令的存储器；

处理器，与存储器连接；

其中，处理器被配置为执行前述任意技术方案提供的语音信号处理方法。

处理器可包括各种类型的存储介质，该存储介质为非临时性计算机存储介质，在通信设备掉电之后能够继续记忆存储其上的信息。

该电子设备包括但不限于：前述客户端和/或服务端。

处理器可以通过总线等与存储器连接，用于读取存储器上存储的可执行程序，例如，能够执行如图1、图2A、图2B以及图3至图5任意所示方法的至少其中之一。

图8是根据一示例性实施例示出的一种客户端800的框图。例如，客户端800可以是移动电话，移动电脑等。

参照图8，客户端800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制客户端800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在客户端800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为客户端800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为客户端800生成、管理和分配电力相关联的组件。

多媒体组件808包括在客户端800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作状态，如拍摄状态或视频状态时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当客户端800处于操作状态，如呼叫状态、记录状态和语音识别状态时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为客户端800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如组件为客户端800的显示器和小键盘，传感器组件814还可以检测客户端800或客户端800 一个组件的位置改变，用户与客户端800接触的存在或不存在，客户端800方位或加速/ 减速和客户端800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS 或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于客户端800和其他设备之间有线或无线方式的通信。客户端800可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA) 技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，客户端800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由客户端800的处理器820执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

如图9所示，本公开一实施例示出一种服务端的结构。服务端900包括处理组件922，其进一步包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行上述方法前述应用在所述基站的任意方法，例如，如图1至图5所示的方法的至少其中之一。

服务端900还可以包括一个电源组件926被配置为执行服务端900的电源管理，一个有线或无线网络接口950被配置为将服务端900连接到网络，和一个输入输出(I/O)接口958。服务端900可以操作基于存储在存储器932的操作系统，例如Windows Server TM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本公开实施例提供一种非临时性计算机可读存储介质，当存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行前述任意实施例提供的语音信号处理方法，能够执行如图1、图4至图5任意所示方法的至少其中之一。

前述语音信号处理方法可包括：获取客户端采集的语音信号；基于第一模型得到所述语音信号的第一文本序列，其中，所述第一文本序列包括：所述语音信号转换成的至少一个文本；基于识别工具，校正所述第一文本序列，得到所述语音信号的识别文本；其中，所述识别工具为：根据所述客户端提供的通信录信息生成的。

可以理解地，所述识别工具，包括：汉语言模型n-Gram图，是根据所述通信录信息的名称的出现概率的概率图或者，

可以理解地，所述基于识别工具，校正所述第一文本序列得到所述语音信号的识别文本，包括：

可以理解地，所述方法还包括：

确定所述语音信号的应用场景是否为通信场景；

可以理解地，所述确定所述语音信号的应用场景是否为通信场景，包括：

可以理解地，所述方法还包括：

可以理解地，所述方法还包括：基于所述通信录信息预先生成识别工具。

可以理解地，所述方法应用于服务端中，所述方法还包括：在生成所述识别工具之后，建立所述客户端的标识信息与所述识别工具之间的关联关系；在接收到所述语音信号后，通过所述客户端的标识信息查询所述关联关系确定所述识别工具。

可以理解地，所述方法还包括：在所述服务端未预先建立所述客户端的所述识别工具，向所述客户端发送请求所述通信录信息的请求指令；接收基于所述请求指令返回的所述通信录信息。

可以理解地，所述方法还包括：

在另一个实施例中，该通信场景的语音信号处理方法，可包括：

采集语音信号；

将所述语言信号发送给服务端；

可以理解地，所述方法还包括：

输出是否发送所述通信录信息的上报提示；

检测所述上报提示的用户操作；

所述将通信录信息发送给服务端，包括：

可以理解地，所述方法还包括：

加密所述通信录信息；

所述将通信录信息发送给服务端，包括：

将加密后的所述通信录信息发送给所述服务端。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音信号处理方法，其特征在于，所述方法包括：

获取客户端采集的语音信号；

2.根据权利要求1所述的方法，其特征在于，所述识别工具，包括：

或者，

3.根据权利要求2所述的方法，其特征在于，所述基于识别工具，校正所述第一文本序列得到所述语音信号的识别文本，包括：

4.根据权利要求2所述的方法，其特征在于，

所述基于识别工具，校正所述第一文本序列得到所述语音信号的识别文本，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

确定所述语音信号的应用场景是否为通信场景；

6.根据权利要求5所述的方法，其特征在于，所述确定所述语音信号的应用场景是否为通信场景，包括：

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

基于所述通信录信息预先生成识别工具。

9.根据权利要求8所述的方法，其特征在于，所述方法应用于服务端中，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

接收基于所述请求指令返回的所述通信录信息。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

在接收到所述语音信号后，确定出未预先建立所述客户端的所述识别工具，基于所述第一文本序列，确定所述语音信号的识别文本。

12.一种通信场景的语音信号处理方法，其特征在于，所述方法包括：

采集语音信号；

将所述语言信号发送给服务端；

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

输出是否发送所述通信录信息的上报提示；

检测所述上报提示的用户操作；

所述将通信录信息发送给服务端，包括：

在所述用户操作指示同意发送所述通讯录信息时，将所述通信录信息上报给所述服务端。

14.根据权利要求12或13所述的方法，其特征在于，所述方法还包括：

加密所述通信录信息；

所述将通信录信息发送给服务端，包括：

将加密后的所述通信录信息发送给所述服务端。

15.一种语音信号处理装置，其特征在于，所述装置包括：

获取模块，用于获取客户端采集的语音信号；

16.一种通信场景的语音信号处理装置，其特征在于，所述装置包括：

采集模块，用于采集语音信号；

第二发送模块，用于将所述语言信号发送给服务端；

17.一种电子设备，其特征在于，包括：

用于存储处理器可执行指令的存储器；

处理器，与所述存储器连接；

其中，所述处理器被配置为执行如权利要求1至11中任一项或者12至14中任一项所述的语音信号处理方法。

18.一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行如权利要求1至11中任一项或者12至14中任一项所述的语音信号处理方法。