CN111339786B

CN111339786B - 语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN111339786B
Application number: CN202010429062.XA
Authority: CN
Inventors: 林炳怀; 王丽园
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-08-25
Anticipated expiration: 2040-05-20
Also published as: CN111339786A

Abstract

本申请实施例公开了一种语音处理方法、装置、电子设备及存储介质。所述方法包括：将待识别语音转换为对应的文本，获取文本对应的第一特征向量表示，基于第一特征向量表示以及对应的变化规则，得到文本的不流利表示以及标点特征表示，该变化规则包括第一特征向量表示与不流利表示以及标点特征表示之间的对应关系，基于不流利表示以及标点特征表示，得到文本的不流利检测结果以及标点标注结果。从而建立有第一特征向量表示与所述不流利表示以及标点特征表示的对应关系的情况下，可以基于同一的第一特征向量表示就可以同时得到不流利表示以及标点特征表示，实现了将不流利检测和标点标注进行结合，进而降低不流利检测以及标点标注过程中的复杂度。

Description

语音处理方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，更具体地，涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

在语音的识别过程中，会先将语音转换为文本，然后再针对转换后的文本进行文本处理。但是，对语音进行识别后所得到文本可能会包含不流利成分并且未添加标点，进而就会对后续的文本处理造成影响。

发明内容

鉴于上述问题，本申请提出了一种语音处理方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请提供了一种语音处理方法，所述方法包括：将待识别语音转换为对应的文本；获取所述文本对应的第一特征向量表示；基于所述第一特征向量表示以及对应的变化规则得到所述文本的不流利表示以及标点特征表示，所述变化规则包括所述第一特征向量表示与所述不流利表示以及标点特征表示之间的对应关系；基于所述不流利表示以及所述标点特征表示得到所述文本的不流利检测结果以及标点标注结果；输出所述不流利检测结果以及标点标注结果。

第二方面，本申请提供了一种语音处理方法，所述方法包括：响应于在语音采集界面触发的语音采集指令进行待识别语音采集；将待识别语音转换为对应的文本，并获取所述文本对应的第一特征向量表示；基于所述第一特征向量表示以及建立的变化规则得到所述文本的不流利表示以及标点特征表示，所述变化规则包括所述第一特征向量表示与所述不流利表示以及标点特征表示之间的对应关系；基于所述不流利表示以及所述标点特征表示得到所述文本的不流利检测结果以及标点标注结果；输出所述不流利检测结果以及标点标注结果。

第三方面，本申请提供了一种语音处理装置，所述装置包括：语音转换单元、特征表示单元、特征获取单元、结果获取单元以及结果输出单元。其中，语音转换单元，用于将待识别语音转换为对应的文本。特征表示单元，用于获取所述文本对应的第一特征向量表示。特征获取单元，用于基于所述第一特征向量表示以及对应的变化规则得到所述文本的不流利表示以及标点特征表示，所述变化规则包括所述第一特征向量表示与所述不流利表示以及标点特征表示之间的对应关系。结果获取单元，用于基于所述不流利表示以及所述标点特征表示得到所述文本的不流利检测结果以及标点标注结果。结果输出单元，用于输出所述不流利检测结果以及标点标注结果。

第四方面，本申请提供了一种语音处理装置，所述装置包括：语音采集单元、语音转换单元、特征表示单元、特征获取单元、结果获取单元以及结果输出单元。其中，语音采集单元，用于响应于在语音采集界面触发的语音采集指令进行待识别语音采集。语音转换单元，用于将待识别语音转换为对应的文本；特征表示单元，用于并获取所述文本对应的第一特征向量表示。特征获取单元，用于基于所述第一特征向量表示以及建立的变化规则得到所述文本的不流利表示以及标点特征表示，所述变化规则包括所述第一特征向量表示与所述不流利表示以及标点特征表示之间的对应关系。结果获取单元，用于基于所述不流利表示以及所述标点特征表示得到所述文本的不流利检测结果以及标点标注结果。结果输出单元，用于输出所述不流利检测结果以及标点标注结果。

第五方面，本申请提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。

第六方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的方法。

本申请提供的一种语音处理方法、装置、电子设备及存储介质，在将待识别语音转换为对应的文本后，先获取所述文本对应的第一特征向量表示，进而基于所述第一特征向量表示，以及包括所述第一特征向量表示与不流利表示以及标点特征表示之间的对应关系，得到所述文本的不流利表示以及标点特征表示，再基于所述不流利表示以及所述标点特征表示得到所述文本的不流利检测结果以及标点标注结果，输出所述不流利检测结果以及标点标注结果。从而通过前述方式可以在建立有第一特征向量表示与所述不流利表示以及标点特征表示的对应关系的情况下，可以基于同一的第一特征向量表示就可以同时得到不流利表示以及标点特征表示，进而实现了将不流利检测和标点标注进行结合，以便可以降低不流利检测以及标点标注过程中的复杂度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例所涉及的一种应用环境的示意图；

图2示出了本申请实施例所涉及的另一种应用环境的示意图；

图3示出了本申请一实施例提出的一种语音处理方法的流程图；

图4示出了本申请另一实施例提出的一种语音处理方法的流程图；

图5示出了本申请实施例提出的基于不流利表示得到不流利检测结果的示意图；

图6示出了本申请实施例提出的基于标点标注表示得到标点检测结果的示意图；

图7示出了本申请实施例提出的一种深度神经网络模型的结构示意图；

图8示出了本申请再一实施例提出的一种语音处理方法的流程图；

图9示出了图8所示实施例提出的一种语音处理方法中S360的一种实施方式的流程图；

图10示出了图9所示的S360的一种实施方式中的计算过程示意图；

图11示出了图8所示实施例提出的一种语音处理方法中S370的一种实施方式的流程图；

图12示出了图11所示的S370的一种实施方式中的计算过程示意图；

图13示出了本申请又一实施例提出的一种语音处理方法的时序图；

图14示出了本申请实施例提出的一种语音采集界面的示意图；

图15示出了本申请实施例提出的一种文本标注方式的示意图；

图16示出了本申请实施例提出的一种显示标注后的文本的示意图；

图17示出了本申请又一实施例提出的一种语音处理方法的流程图；

图18示出了本申请实施例提出的一种语音处理装置的结构框图；

图19示出了本申请另一实施例提出的一种语音处理装置的结构框图；

图20示出了用于执行根据本申请实施例的语音处理方法的一种电子设备的结构框图；

图21示出了本申请实施例的用于保存或者携带实现根据本申请实施例的语音处理方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，随着人工智能技术中的语音处理技术的发展，出现了许多的涉及基于语音处理技术以及自然语言处理技术进行语音识别的场景。例如，开放式口语表达场景。在开放式口语表达场景中，会向表达者提出一个比较概括、广泛、范围较大的问题，并且对于表达者回答的内容限制不严格。语音翻译、口语考试等场景均为开放式口语表达场景。无论是在开放式口语表达场景或者是在其他的会涉及语音识别的场景中，会先基于语音处理技术对表达者所发出的语音进行识别得到对应的文本，然后再基于所识别到的文本进行后续的处理。

例如，在口语考试场景中，对于所识别得到的文本则会进一步的进行打分处理来得到表达者的口语得分。再例如，在翻译场景中，对于所识别得到的文本则会进行翻译操作，进而将翻译得到的结果作为翻译目标语言的语音合成文本。但是，由于表达者自身的一些表达习惯，会造成所识别得到的文本中包括有出现重复读(如 I [like] like thisbook)、语气词(如uh，um)、修正表达(如[I just] I enjoy working)等会造语句不太通顺的不流利成分。再者，直接进行语音识别所得到的文本中并不会包括标点，也会对后续处理的准确性上造成影响。

对应的，为了减小前述的不流利成分和进行语音识别所得到的文本中未包括标点对于后续处理的影响。可以先对所识别得到的文本进行不流利检测以及标点标注，以便可以得到去除不流利成分且标注有标点的文本，然后再基于去除不流利成分且标注有标点的文本进行后续的处理。

但是，发明人在对相关的不流利检测以及标点标注的方法进行研究中发现，在相关的不流利检测以及标点标注的方式中，还存在过程复杂且未考虑到不流利检测与标点标注相关性的问题。

为了改善上述问题，发明人对不流利检测以及标点标注进行了研究，并研究发现不流利检测以及标点标注这两个任务之间其实是有一定关联性的，且不流利检测以及标点标注各自的结果相互之间会存在一定的影响。例如，对于从语音转换得到的文本为“I amhappy I am good at it”，那么如果基于进行标点标注的文本进行不流利检测，将会导致其中的一个I am视为重复读形式的不流利成分。再者，不流利度对标点也会产生一定的影响，对于包含不流利度的句子，标点的预测准确度会降低。

因此，发明人提出了本申请提供的语音处理方法、装置、电子设备及存储介质，在该方法中，在将待识别语音转换为对应的文本后，先获取所述文本对应的第一特征向量表示，进而基于所述第一特征向量表示，以及包括所述第一特征向量表示与不流利表示以及标点特征表示之间的对应关系，得到所述文本的不流利表示以及标点特征表示，再基于所述不流利表示以及所述标点特征表示得到所述文本的不流利检测结果以及标点标注结果，输出所述不流利检测结果以及标点标注结果。

从而通过前述方式可以在建立有第一特征向量表示与不流利表示以及标点特征表示的对应关系的情况下，可以基于同一第一特征向量表示就可以同时得到不流利表示以及标点特征表示，进而实现了将不流利检测和标点标注进行结合，以便可以降低不流利检测以及标点标注过程中的复杂度。

在对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及一种应用环境进行介绍。

如图1所示，图1所示为本申请实施例所涉及的应用环境的示意图。其中，包括有客户端110、服务器120、语音识别模块130以及文本后处理模块140。其中，客户端110用于采集用户输出的语音，然后将所采集的语音作为待识别语音发送给服务器120。服务器120接收到待识别语音后会进一步的发送到语音识别模块130。语音识别模块130在接收到该待识别语音后会将该待识别语音识别为对应的文本，该文本为未进行不流利检测以及未进行标点标注的文本，然后语音识别模块130再将未进行不流利检测以及未进行标点标注的文本发送给文本后处理模块140，以便文本后处理模块140对所接收到的文本进行不流利检测以及标点标注，得到进行不流利标注以及标点标注后的文本。文本后处理模块140再将该不流利标注以及标点标注后的文本返回给服务器120，以便服务器120再将不流利标注以及标点标注后的文本返回给客户端。

需要说明的是，图1是一种示例性的应用环境，本申请实施例所提供的方法还可以运行于其他的应用环境中。

可选的，语音识别模块130和文本后处理模块140除了可以如图1所示的独立与服务器120分别运行于不同的硬件设备之外，还可以如图2所示均运行于服务器120中。在图2所示的环境下，服务器120中可以运行有负责与客户端通信的服务端模块，在服务端模块接收到待识别语音后就可以基于进程通信的方式将待识别语音传递给本地运行的语音识别模块130。对应的，语音识别模块130后续也可以基于进程通信的方式将未进行不流利检测以及未进行标点标注的文本发送给文本后处理模块140，后处理模块140可以同样基于进程通信的方式将进行不流利标注以及标点标注后的文本返回给服务端模块，以便服务端模块再返回给客户端。

可选的，对于由语音识别模块130和文本后处理模块140所执行的功能也可以均由客户端110来执行。

需要说明的是，其中，服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN( Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端110所在的电子设备可以为智能手机外、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

下面将结合附图具体描述本申请的各实施例。

请参阅图3，图3所示为本申请一实施例提出的一种语音处理方法的流程图，该方法包括：

S110：将待识别语音转换为对应的文本。

可以理解的是，待识别语音为后续将进行不流利检测以及标点标注的语音。在获取到待识别语音后，可以先将获取到的待识别语音转换为对应的文本。其中，将待识别语音转换为对应的文本可以理解为将音频形式的内容转换为对应的文本形式的内容。例如，在获取到一段音频内容时，该音频内容是以音频形式进行内容记录的，在将该音频内容转换为文本后，就对应的转换成为基于文本形式进行内容记录。

其中，可以有多种的获取待识别语音的方式。作为一种方式，可以实时的获取用户的输出语音作为待识别语音。可选的，可以通过语音采集设备实时的对用户输出语音进行实时采集，进而将实时所采集到的语音作为待识别语音。作为另外一种方式，可以是读取历史存储的语音作为待识别语音。可选的，该历史存储的语音可以为预先建立的语音数据集，对应的，可以从该语音数据集中选择一条或者多条语音作为待识别语音。

S120：获取文本对应的第一特征向量表示。

为了便于后续进行不流利检测以及标点标注，可以将所转换得到的文本转换为向量的形式，进而得到文本对应的第一特征向量表示。其中，第一特征向量表示可以理解为携带有文本的语境的向量表示。该语境可以理解为文本所实际要表达的意图。例如，用户输出的语音为“我喜欢用苹果”，那么其中的苹果可以理解为一种水果，也可以理解为手机品牌，而结合语境可知对于苹果用户采用的是“用”这个动作而不是“吃”，所以其结合语音含义所对应的实际要表达的意图可以确定苹果为手机品牌。那么在获取文本对应的向量表示的过程中就需要结合文本的上下文语境来确定其中每个词语的语境以确定文本实际要表达的意图，进而得到携带有文本中语境的第一特征向量表示。

S130：基于第一特征向量表示以及对应的变化规则，得到文本的不流利表示以及标点特征表示，变化规则包括第一特征向量表示与不流利表示以及标点特征表示之间的对应关系。

需要说明的是，在本申请实施例中，是将不流利检测以及标点标注相结合进行的。那么所得到的第一特征向量表示是能够同时对文本的不流利成分以及标点进行表示的，但是，对于不流利和标点标注这两个任务而言，本身还是有一定区别的。其中，对于不流利检测而言，所得到的检测结果会包括文本中的每个词语是不流利词语或者不是不流利词语这两种结果，在这种情况下，对于不流利检测这个任务就需要一个二维向量来进行表示。而对于标点标注而言，会根据所需要标注的标点类型而有多种的标注结果，例如，若所需标注标点仅包括句号，那么对于标注结果就只有两个类别，即对应标注句号和不标注句号，在这种情况下，对于标点标注这个任务需要一个二维向量来进行表示。再例如，若所需标注的标点包括逗号和句号，那么对于标注结果就会有三个类别，即对应标注逗号、句号以及不标注，在这种情况下，对于标点标注这个任务需要一个三维向量来进行表示。再例如，若所需标注的标点包括逗号、分号和句号，那么对于标注结果就会有四个类别，即对应标注逗号、分号、句号以及不标注，在这种情况下，对于标点标注这个任务需要一个四维向量来进行表示。

其中，在具有第一特征向量表示与标点特征表示之间的对应关系，以及还具有该第一特征向量表示与标点特征表示之间的对应关系的情况下，可以将第一特征向量表示转换到对应的进行不流利表示所需要的维度的同时，将同一第一特征向量表示转换到对应的进行标点特征表示所需要的维度，以便实现基于同一第一特征向量表示就可以便利的分别进行不流利表示以及标点特征表示。示例性的，若文本的第一特征向量表示为基于四维向量进行表示的，不流利表示是以二维向量进行表示的，标点特征表示是以三维向量进行表示的，在这种情况下，变化规则就可以包括从四维的第一特征向量表示变化到二维的不流利表示的对应关系，以及还包括从四维的第一特征向量表示变化到三维的标点特征表示的对应关系。

其中，对应关系可以为矩阵的形式。例如，若文本的第一特征向量表示为[1,2,2,1]，在不流利表示是以二维向量进行表示的情况下，第一特征向量表示与不流利表示之间的对应关系为4ｘ2矩阵，例如，该4ｘ2矩阵可以为下列所示的矩阵：

那么将该4ｘ2矩阵与文本的第一特征向量表示相乘所得到的二维的不流利表示为：

[t₁₁+2t₂₁+2t₃₁+t₄₁,t₁₂+2t₂₂+2t₃₂+t₄₂]

对应的，在标点特征表示是以三维向量进行表示的情况下，第一特征向量表示与标点特征表示之间的对应关系为4ｘ3矩阵，例如，该4ｘ3矩阵可以为下列所示的矩阵：

那么将该4ｘ3矩阵与文本的第一特征向量表示相乘所得到的三维的标点特征表示为：

[m₁₁+2m₂₁+2m₃₁+m₄₁,m₁₂+2m₂₂+2m₃₂+m₄₂,m₁₃+2m₂₃+2m₃₃+m₄₃]

再者，需要说明的是，虽然第一特征向量表示既携带有关于不流利的特征也携带有关于标点的特征，但是，第一特征向量表示关于不流利的特征和关于标点的特征的都相对不太明显，在基于建立的第一特征向量表示与不流利表示之间的对应关系，而将第一特征向量表示转换得到不流利表示后，所得到的不流利表示能够相比第一特征向量表示具有更为明显的不流利特征。其中，具有更为明显的不流利特征可以理解为不流利表示对应的不流利检测结果更为准确性。对应的，将第一特征向量表示转换得到标点标注表示后，所得到的标点标注表示能够相比第一特征向量表示具有更为明显的标点特征。类似的，具有更为明显的标点特征可以理解为标点标注表示对应的标点标注结果更为准确。

S140：基于不流利表示以及标点特征表示，得到文本的不流利检测结果以及标点标注结果。

需要说明的是，文本对应的不流利表示表征了文本中每个词语是否为不流利成分，而文本对应的标点特征表示表征了每个词语的后面是否需要进行标点标注以及具体标注哪种标点。进而当获取到文本的不流利表示以及标点特征表示后，就可以基于不流利表示以及标点特征表示，得到文本的不流利检测结果以及标点标注结果。其中，每个词语的后面可以理解为该词语在语序上的后面。例如，所转换得到的文本为“I am happy”。那么对于“am”这个词语而言，其语序是在“happy”这个词语之前的，那么“am”的后面可以理解为“am”和“happy”之间的位置。对于“happy”这个词语而言，其已经处于句子的末尾，那么其在语序上的后面就可以理解为文本的结束的位置。

需要说明的是，文本的不流利表示以及标点特征表示是基于向量形式的，而对应所得到的不流利检测结果以及标点标注结果可以是以标签的形式进行表示的。例如，对于“am”这个词语，其所对应的不流利表示可以为[a，b]这个二维向量，其所对应的不流利检测结果则可以为标签0或者标签1。其中，在不流利检测结果表示中，标签0可以表征“am”这个词语为流利成分，而标签1可以表征“am”这个词语为不流利成分。再例如，对于“am”这个词语，其所对应的标点特征表示可以为[m，n，l]这个三维向量，其所对应的标点标注结果则可以为标签0或者标签1或者标签2。在标点标注结果表示中，标签为0可以表征“am”这个词语的后面不进行标注，而标签为1可以表征“am”这个词语的后面标注逗号，而标签为2可以表征“am”这个词语的后面标注句号。

在得到文本的不流利检测结果以及标点标注结果后，还可以对不流利检测结果以及标点标注结果进行输出，而输出不流利检测结果以及标点标注结果包括对不流利检测结果以及标点标注结果进行后续处理。在不同的场景中，该后续处理对对应的处理方式会有所不同。可选的，在语音翻译场景中，在输出过程中则会基于不流利检测结果以及标点标注结果对待识别语音所直接转换得到的文本进行不流利成分的去除，以及对应的标点标注，然后将去除不流利成分以及完成标点标注的文本输出为后续翻译目标语言的语音合成文本。可选的，在口语考试场景中，在输出过程中则会基于不流利检测结果以及标点标注结果对待识别语音所直接转换得到的文本进行不流利成分的去除，以及对应的标点标注，然后将去除不流利成分以及完成标点标注的文本输出为进行评分的文本。

需要说明的是，作为一种方式，在本实施中的S120到S140可以由训练得到的深度神经网络模型来执行。其中，作为一种方式，在该深度神经网络模型的训练过程中，所采用的训练数据可以包括单独标记有不流利标签的训练样本、单独标记有标点标签的训练样本以及同时标记有不流利标签以及标点标签的训练样本，以便可以使得该训练得到的深度神经网络模型可以兼备不流利检验以及标点标注的功能。在这种方式中，变化规则所包括的第一特征向量表示与不流利表示以及标点特征表示之间的对应关系可以为在深度神经网络模型的基于前述的训练数据所训练得到。

可选的，深度神经网络模型的损失函数可以采用交叉熵损失函数，作为一种交叉熵损失函数，深度神经网络模型的损失函数为第一损失函数和第二损失函数加权得到，该第一损失函数为深度神经网络模型的训练过程中训练得到的对应不流利检测的损失函数，该第二损失函数为深度神经网络模型的训练过程中训练得到的对应标点标注的损失函数。

本实施例提供的一种语音处理方法，在将待识别语音转换为对应的文本后，先获取该文本对应的第一特征向量表示，进而基于该第一特征向量表示，以及包括该第一特征向量表示与不流利表示以及标点特征表示之间的对应关系，得到该文本的不流利表示以及标点特征表示，再基于该不流利表示以及该标点特征表示得到该文本的不流利检测结果以及标点标注结果，输出该不流利检测结果以及标点标注结果。从而通过前述方式可以在建立有第一特征向量表示与该不流利表示以及标点特征表示的对应关系的情况下，可以基于同一的第一特征向量表示就可以同时得到不流利表示以及标点特征表示，进而实现了将不流利检测和标点标注进行结合，以便可以降低不流利检测以及标点标注过程中的复杂度。

请参阅图4，图4所示为本申请一实施例提出的一种语音处理方法的流程图，该方法包括：

S210：将待识别语音转换为对应的文本。

S220：将文本进行分词处理得到多个分词文本。

在将待识别语音所直接转换得到的文本进行分词处理后，可以将待识别语音所直接转换得到的文本拆分为多个部分，而其中每个部分被作为一个分词文本。例如，若待识别语音所直接转换得到的文本为“I like uh like playing football what about you”，那么经过分词处理所得到的多个分词文本分别可以包括“I”、“like”、“uh”、“like”、“playing”、“football”、“what”、“about”以及“you”。

S230：获取多个分词文本分别对应的第二特征向量表示。

需要说明的是，在本实施例中向量表示可以理解为使用向量来表征一个词语，那么第二特征向量表示可以理解为初始配置的用于表征分词文本的向量。在得到多个分词文本后，就可以基于预先得到的每个词语各自所对应的向量表示来获取多个分词文本分别对应的第二特征向量表示。需要说明的是，第二特征向量表示表征的是单个分词文本所直接单独对应的向量表示，而不会考虑单个分词文本在整体文本中的实际含义。例如，将待识别语音所直接转换得到的文本为“我喜欢用苹果”，对应的可以将“我喜欢用苹果”这个文本作为整体文本，那么经过分词所得到的多个分词文本可以包括“我”、“喜欢”、“用”以及“苹果”。其中“苹果”这个词语单独表达的意思是一种水果，那么在确定第二特征向量表示的过程中，“苹果”所对应的第二特征向量表示(所单独对应的向量表示)所表征的就是用于吃的那个水果的含义，而不是实际所表征的手机品牌的含义。

S240：对第二特征向量表示进行多层变换得到多个分词文本分别对应的第一特征向量表示。

需要说明的是，在进行不流利检测以及标点标注的过程中可以进一步的考虑文本中每个词语在文本所对应的语境中的实际意思。那么通过对每个分词文本对应的第二特征向量表示进行多层变换就可以得到每个分词文本所对应的度向量表示。其中，多层变换可以理解为利用神经网络中的多层卷积网络对向量进行特征提取。可选的，多层变换可以包括以下操作中的至少一个：对第二特征向量表示进行相加操作，对第二特征向量表示进行线性变换操作，对第二特征向量表示进行非线性变换操作，对第二特征向量表示进行点乘操作。

其中，对第二特征向量表示进行相加操作包括将第二特征向量表示与另外一个向量相加。例如，若第二特征向量表示为[0,0,1,0]，而另外一个向量为[1,1,1,0]，那么对[0,0,1,0]这个第二特征向量表示进行相加操作所得到的向量表示为[1,1,2,0]。对第二特征向量表示进行线性变换操作包括将第二特征向量表示中的所有元素均乘以一个系数。例如，若第二特征向量表示为[0,0,1,0]，线性变换系数为5，那么对[0,0,1,0]这个第二特征向量表示进行线性变换操作所得到的向量表示为[0,0,5,0]。对第二特征向量表示进行非线性变换操作包括将第二特征向量表示中的元素变化到一个阈值区间内。例如，若第二特征向量表示为[0,0,1,0]，所要变换到的阈值区间为0到1，那么对[0,0,1,0]这个第二特征向量表示进行非线性变换操作所得到的向量表示可以为[0.5,0.5,0.68,0.5]。

对第二特征向量表示进行点乘操作包括将另一个向量表示中的元素与第二特征向量表示中的对应元素进行相乘，并将乘积作为所生成的向量表示的值。例如，若第二特征向量表示为[0,0,1,0]，而用于进行点乘的向量表示为[2,1,0,1]。那么对于用于进行点乘的向量表示中第一个元素“2”在第二特征向量表示中对应的元素为第二特征向量表示中的第一个元素“0”，对应所得到的乘积为2ｘ0=0，进而经过点乘所生成的向量表示中第一元素的值为0，对应的，对第二特征向量表示[0,0,1,0]进行点乘所得到的向量表示为[0,0,0,0]。

S250：基于第一特征向量表示以及对应的变化规则，得到每个分词文本的不流利表示以及标点特征表示，变化规则包括第一特征向量表示与不流利表示以及标点特征表示之间的对应关系。

S260：基于不流利表示以及标点特征表示，得到每个分词文本的不流利检测结果以及标点标注结果。

作为一种方式，不流利表示以及标点特征表示为基于多维向量进行表示，基于不流利表示以及标点特征表示，得到每个分词文本的不流利检测结果以及标点标注结果，包括：获取基于多维向量的不流利表示中的第一目标元素，第一目标元素为基于多维向量的不流利表示中对应的值最大的元素，将每个分词文本的第一目标元素的下标所对应的不流利结果作为每个分词文本的不流利检测结果。示例性的，如图5所示，若不流利表示为基于二维向量进行表示，且基于多维向量的不流利表示中的第一个元素(即图中值为a的元素)对应有标签0，第二个元素(即图中值为b的元素)对应有标签1，其中，在不流利检测过程中，标签0对应的不流利检测结果为流利，标签1对应的不流利检测结果为不流利。在这种情况下，得到图5所示的基于二维向量进行表示的不流利表示后，就可以比对a和b的值。若a大于b，则将不流利表示中的第一个元素作为第一目标元素，对应的将该不流利表示对应的文本的不流利检测结果确定为流利。若a小于b，则将不流利表示中的第二个元素作为第一目标元素，对应的将该不流利表示对应的文本的不流利检测结果确定为不流利。

获取基于多维向量的标点特征表示中的第二目标元素，第二目标元素为基于多维向量的标点特征表示中所对应的值最大的元素，将每个分词文本的第二目标元素的下标所对应的标点标注结果作为每个分词文本的标点标注结果。示例性的，如图6所示，若不流利表示为基于三维向量进行表示，且基于多维向量的不流利表示中的第一个元素(即图中值为a的元素)对应有标签0，第二个元素(即图中值为b的元素)对应有标签1，第三个元素(即图中值为c的元素)对应有标签2，其中，在标点标注过程中，标签0对应的标点标注结果为不标注，标签1对应的标点标注结果为逗号，标签2对应的标点标注结果为句号。在这种情况下，得到图6所示的基于三维向量进行表示的标点特征表示后，就可以比对a、b以及c的值。若a大于b且大于c，则将标点特征表示中的第一个元素作为第二目标元素，对应的将该标点特征表示对应的文本的标点标注结果确定为不标注(标签0对应的标注结果为不标注)。若b大于a且大于c，则将标点特征表示中的第二个元素作为第二目标元素，对应的将该标点特征表示对应的文本的标点标注结果确定为标注逗号(标签1对应的标注结果为逗号)。若c大于a且大于b，则将标点特征表示中的第三个元素作为第二目标元素，对应的将该标点特征表示对应的文本的标点标注结果确定为标注句号(标签2对应的标注结果为句号)。

S270：输出不流利检测结果以及标点标注结果。

在本实施例中，可以有多种输出不流利检测结果以及标点标注结果的方式。作为一种方式，可以直接将得到的不流利检测结果以及标点标注结果输出到客户端进行显示。作为另外一种方式，可以根据不流利检测结果去除待识别语音所转换得到的文本中的不流利成分，得到去除不流利成分的文本，并且还会基于标点标注结果对该去除不流利成分的文本进行标点标注，得到用于后续处理的文本。其中，该后续处理可以包括将去除不流利成分且标注有标点的文本输出到客户端进行显示，或者输出到评分系统进行评分。

需要说明的是，在本实施中的S210到S260可以由前述实施例所示的训练得到的深度神经网络模型来执行。下面本实施例将会进一步的对该深度神经网络模型结构进行介绍。

在本实施例中，用于执行S210到S260的深度神经网络模型可以包括有输入表示层、编码表示层以及输出层。

其中，输入表示层用于对将待识别语音所直接转换得到的文本进行分词，并获取每个分词文本独立对应的向量以作为每个分词文本的第二特征向量表示。作为一种方式，输入表示层可以通过随机初始化向量的方式来获取每个分词文本独立对应的向量。在这种方式下，输入表示层可以随机的给分词处理所得到的多个分词文本分别配置独立对应的向量。作为另外一种方式，输入表示层可以通过预训练词向量的方式来得到预先建立的词向量配置规则，进而根据该词向量配置规则获取每个分词文本独立对应的向量以作为每个分词文本的第二特征向量表示。

可选的，预训练词向量的方式包括基于word2vec的方式或者基于Glove(GlobalVectors for Word Representation)的方式。需要说明的是，word2vec是一用来训练以产生词向量的相关模型。word2vec模型可以为三层神经网络，其中，word2vec模型的输入层用于对词语进进行独热编码，word2vec模型的隐藏层为线性单元。word2vec模型的输出层的维度跟，word2vec模型的输入层的维度一样，且是基于Softmax回归实现的。其中，softmax回归(softmax regression)是logistic回归(logistic Regression)的一般形式，且softmax 回归可以用于多分类。在训练过程中，可以看作通过神经网络训练N-gram语言模型，并在训练过程中求出词语对应的词向量。在基于word2vec完成训练后，可用来映射每个词到一个向量，以及可用来表示词对词之间的关系，进而实现基于word2vec模型来得到每个分词文本对应的第二特征向量表示。GloVe是一个基于全局词频统计的词表征工具，它可以把一个词语表达成一个由实数组成的向量，这些向量捕捉到了词语之间一些语义特性，比如相似性以及类比性等。

其中，编码表示层则用于对第二特征向量表示进行多层变换得到多个分词文本分别对应的第一特征向量表示。可选的，编码表示层可以将每个分词文本的第二特征向量表示进行更抽象的变换，让每个分词文本对应的向量表示具有更为深层的含义，进而得到多个分词文本分别对应的第一特征向量表示。其中，更为深层的含义可以理解为结合语境的实际含义。如前述所示的示例，对于“苹果”而言其独立对应的含义为一种水果，那么对于“苹果”而言其独立对应的第二特征向量表示为对应于一种水果这个含义的向量表示，当在经过编码表示层结合“苹果”所在的语境对其第二特征向量表示进行多层变换后，所得到的第一特征向量表示则为对应于一种手机品牌这个含义的向量表示。

可选的，编码表示层可以基于CNN(Convolutional Neural Networks、卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long-Short Term Memory，长短期记忆网络)或者Attention(注意力机制)来实现。以卷积神经网络为例，卷积神经网络由输入层、卷积层、激活函数、池化层、全连接层组成。其中，卷积神经网络中的卷积层是用于进行特征提取的，进而在基于卷积神经网络来实现编码表示层的情况下，可以通过卷积神经网络中所包括的多层卷积层来对第二特征向量表示进行多层变换进而得到第一特征向量表示。

其中，输出层可以用于执行前述S250和S260，以实现基于第一特征向量表示以及对应的变化规则，得到每个分词文本的不流利表示以及标点特征表示，变化规则包括第一特征向量表示与不流利表示以及标点特征表示之间的对应关系。基于不流利表示以及标点特征表示，得到每个分词文本的不流利检测结果以及标点标注结果。

如图7所示，深度神经网络模型可以包括有输入表示层10、编码表示层11以及输出层12。若获取到的待识别语音所直接转换得到的文本为“I like uh like playingfootball what about you”，那么经过输入表示层10的分词处理所得到的多个分词文本分别可以包括“I”、“like”、“uh”、“like”、“playing”、“football”、“what”、“about”以及“you”。然后，输入表示层10会分别给该多个分词文本配置对应的第二特征向量表示。之后，编码表示层11则会对该多个分词文本对应的第二特征向量表示进行多层变换而得到对应的第一特征向量表示，并将该第一特征向量表示传输到输出层12。

输出层12在获取到每个分词文本的第一特征向量表示后，会针对每个分词文本的第一特征向量表示分别进行不同参数的非线性变换，以得到每个分词文本的不流利表示以及标点标注表示。其中，该不同参数的非线性变换可以理解为前述的包括第一特征向量表示与不流利表示以及标点特征表示之间的对应关系的变换规则。在这种情况下，对应于不流利表示对应有一种参数的非线性变换，而对应于标点标注表示则会对应另一种参数的非线性变换。如图7所示，输出层12对应有不流利输出121以及标点输出122这两个分类器。在图7所示的示例性中，在，不流利检测结果生成过程中，0表征流利，1表征不流利，以及在标点标注结果生成过程中，0表征不标注，1表征标注逗号，2表征标注句号的情况下，不流利输出121所输出的不流利检测结果为“011002002”，而标点输出122所输出的标点标注结果为“011000000”。进而基于该不流利检测结果以及不流利检测结果对待识别语音所直接转换得到的文本进行不流利标注以及标点标注后可以得到图7中所示的结果。其中，会将重复出现的“like”以及“uh”标注为不流利成分，而标注在第一个出现的“like”以及“uh”后面标注逗号，在“you”之后标注句号。

需要说明的是，在基于深度神经网络模型指定S210到S260的这种方式中，在对第二特征向量表示进行多层变换的过程中，具体的多层变换类型可以在深度神经网络模型的训练过程中生成。而每种变换所使用的参数也可以是基于深度神经网络模型训练生成的。例如，对第二特征向量表示进行相加操作这种变换方式中，会将第二特征向量表示与另外一个向量相加，那么该另一个向量作为一个参数则可以是在深度神经网络模型训练生成的。

在基于深度神经网络模型的这种方式来执行前述S250和S260的方式中，可以使用同一的输入表示层以及编码表示层来得到后续会分别转换为不流利表示以及标点标注表示的第一特征向量表示，从而使得不流利检测和标点标注这两个任务可以共享同一深度神经网络模型中的输入表示层以及编码表示层，以免分别针对不流利检测和标点标注单独建立模型而造成整个处理过程复杂度较高，进而实现了将不流利检测和标点标注这两个任务相结合的同时简化了整体的处理复杂度。

本实施例提供的一种语音处理方法，在将待识别语音转换为对应的文本后，会将该文本进行分词处理得到多个分词文本，然后对多个分词文本分别对应的第二特征向量表示进行多层变换得到该多个分词文本分别对应的第一特征向量表示，进而基于该第一特征向量表示，以及包括该第一特征向量表示与不流利表示以及标点特征表示之间的对应关系，得到每个分词文本的不流利表示以及标点特征表示，再基于该不流利表示以及该标点特征表示得到该文本的不流利检测结果以及标点标注结果，输出该不流利检测结果以及标点标注结果。从而通过前述方式可以在建立有第一特征向量表示与该不流利表示以及标点特征表示的对应关系的情况下，可以基于每个分词文本的同一的第一特征向量表示就可以同时得到每个分词文本的不流利表示以及标点特征表示，进而实现了将不流利检测和标点标注进行结合，以便可以降低不流利检测以及标点标注过程中的复杂度。

请参阅图8，图8所示为本申请一实施例提出的一种语音处理方法的流程图，该方法包括：

S310：将待识别语音转换为对应的文本。

S320：将文本进行分词处理得到多个分词文本。

S330：获取多个分词文本分别对应的第二特征向量表示。

S340：对第二特征向量表示进行多层变换得到多个分词文本分别对应的第一特征向量表示。

S350：基于第一特征向量表示以及对应的变化规则，得到每个分词文本的不流利表示以及标点特征表示，变化规则包括第一特征向量表示与不流利表示以及标点特征表示之间的对应关系。

S360：获取每个分词文本的不流利表示与所有分词文本的标点特征表示之间的第一相似度，并根据第一相似度确定每个分词文本对应的新的不流利表示。

需要说明的是，每一个分词文本既对应有不流利表示，也又对应有标点标注表示。如前述内容所示，不流利检测与标点标注之间是有一定关联的，那么通过计算每个分词文本的不流利表示与所有分词文本的标点特征表示之间的第一相似度，再根据第一相似度确定每个分词文本对应的新的不流利表示的方式，可以得到更为与标点特征关联的不流利表示作为新的不流利表示，进而有利于提升不流利检测的准确性。

作为一种方式，如图9所示，获取每个分词文本的不流利表示与所有分词文本的标点特征表示之间的第一相似度，并根据第一相似度确定每个分词文本对应新的不流利表示，包括：

S361：获取每个分词文本的不流利表示分别对应每个分词文本的标点特征表示的相似度，作为第一相似度。

S362：将第一相似度作为权重，与所有分词文本的标点特征表示进行加权求和，得到每个分词文本对应的全局标点特征表示。其中，全局标点特征表示为更大程度关联有不流利特征的标点特征表示。通过前述介绍可以理解的是，直接通过第一特征向量表示所转换得到的每个分词文本的标点特征表示在生成过程中是会结合每个分词文本是否为不流利成分的，以使得直接通过第一特征向量表示所转换得到的标点特征表示关联有不流利特征，而全局标点特征表示在计算过程中会进一步的结合不流利表示与标点特征表示之间的相似度，使得全局标点特征表示相比于直接通过第一特征向量表示所转换得到的标点标注表示，更大程度的关联了不流利特征，也使得后续所生成的新的不流利表示能够更为准确的进行不流利成分的表示。

S363：将每个分词文本的不流利表示与各自对应的全局标点特征表示进行拼接，得到每个分词文本对应的新的不流利表示。

下面再通过图10对图9所示的内容进行举例说明。

如图10所示，在有四个分词文本的情况下，通过第一特征向量表示所得到的该四个分词文本对应的不流利表示13包括V1、V2、V3以及V4。其中，V1、V2、V3以及V4分别对应于四个分词文本中的一个分词文本。通过第一特征向量表示所得到的该四个分词文本对应的标点标注表示14包括V5、V6、V7以及V8。其中，V5、V6、V7以及V8分别对应于四个分词文本中的一个分词文本。

若当前进行第一相似度计算的为V1，就可以将V1和V5进行相似度计算得到V1和V5之间的相似度e，对应的再计算得到V1和V6之间的相似度f、V1和V7之间的相似度g以及V1和V8之间的相似度h。进而可以将包括相似度e、相似度f、相似度g以及相似度h均作为第一相似度。然后进行加权求和计算，即计算(V5ｘe)+(V6ｘf)+(V7ｘg)+(V8ｘh)=N1，并将N1作为全局标点特征表示，然后将N1与V1进行拼接即可以得到V1所对应分词文本所对应的新的不流利表示。以此类推，可以得到V2对应分词文本所对应的新的不流利表示，可以得到V3对应分词文本所对应的新的不流利表示，也可以得到V4对应分词文本所对应的新的不流利表示，进而得到新的不流利表示15。

需要说明的是，在本实施例中不流利表示和标点特征表示都是基于向量形式的，在计算不流利表示与标点特征表示之间相似度时，可以理解为在计算两个向量之间的相似度，而在计算两个向量之间的相似度时，可以将两个向量之间的相对应的元素进行相乘得到多个乘积，然后将该多个乘积相加所得到的值作为这两个向量之间的相似度，进而作为不流利表示与标点特征表示之间相似度。其中，相对应的元素可以理解为各自在所属向量表示中位置相同的元素。例如，若V1=[0,1,2,3]，V5=[1,4,3,3]。那么V1中第一个元素“0”所对应的元素即为V5中的第一个元素“1”，V1中第二个元素“1”所对应的元素即为V5中的第二个元素“4”，V1中第三个元素“2”所对应的元素即为V5中的第三个元素“3”，V1中第四个元素“3”所对应的元素即为V5中的第四个元素“3”。进而所计算得到的相似度为0ｘ1+1ｘ4+2ｘ3+3ｘ3=19。

还需要说明的是，在将两个向量表示进行拼接的过程中，可以理解为将两个向量表示中各自所包括的元素均作为拼接后的向量表示中的元素。示例性的，一个向量表示为[1,0,2,1]，另一个向量表示为[1,0,1]，那么所拼接得到的向量表示为[1,0,2,1,1,0,1]。可以理解的是，所拼接得到的向量表示中前面四个元素原本属于一个向量表示，而所拼接得到的向量表示中后面三个元素原本属于另一个向量表示。

S370：获取每个分词文本的标点特征表示与所有分词文本的不流利表示之间的第二相似度，并根据第二相似度确定每个分词文本对应的新的标点特征表示。

对应的，通过计算每个分词文本的标点特征表示与所有分词文本的不流利表示之间的第二相似度，再根据第二相似度确定每个分词文本对应的新的标点标注的方式，可以得到更为与不流利关联的标点标注表示作为新的标点标注表示，进而有利于提升标点标注的准确性。

作为一种方式，如图11所示，获取每个分词文本的标点特征表示与所有分词文本的不流利表示之间的第二相似度，并根据第二相似度确定每个分词文本对应新的标点特征表示，包括：

S371：获取每个分词文本的标点特征表示分别对应每个分词文本的不流利表示的相似度作为第二相似度。

S372：将第二相似度作为权重，与所有分词文本的不流利表示进行加权求和，得到每个分词文本对应的全局不流利表示。全局不流利表示为更大程度关联有标点特征的不流利表示。通过前述介绍可以理解的是，直接通过第一特征向量表示所转换得到的每个分词文本的不流利表示在生成过程中是会结合每个分词文本是否进行标点标注以及在进行标点标注的情况下具体标注哪个标点的，以使得直接通过第一特征向量表示所转换得到的不流利表示关联有标点标注特征，而全局不流利表示在计算过程中会进一步的结合标点特征表示与不流利表示之间的相似度，使得全局不流利表示相比于直接通过第一特征向量表示所转换得到的全局不流利表示，更大程度的关联了标点特征，也使得后续所生成的新的标点特征表示能够更为准确的进行标点特征的表示。

S373：将每个分词文本的标点特征表示与各自对应的全局不流利表示进行拼接，得到每个分词文本对应的新的标点特征表示。

下面再通过图12对图11所示的内容进行举例说明。

如图12所示，在有四个分词文本的情况下，通过第一特征向量表示所得到的该四个分词文本分别对应的不流利表示16以及标点标注表示17所包括的内容与图10中所示内容相同。若当前进行第二相似度计算的为V5，那么就可以将V5和V1进行相似度计算得到V5和V1之间的相似度i，对应的再计算得到V5和V2之间的相似度j、V5和V3之间的相似度k以及V5和V4之间的相似度m。进而可以将相似度i、相似度j、相似度k以及相似度m作为第二相似度。然后进行加权求和计算，即计算(V1ｘi)+(V2ｘj)+(V3ｘk)+(V4ｘm)=N2，并将N2作为全局不流利表示，然后将N2与V5进行拼接即可以得到V5所对应分词文本所对应的新的标点标注表示。以此类推，可以得到V6对应分词文本所对应的新的不流利表示，可以得到V7对应分词文本所对应的新的不流利表示，也可以得到V8对应分词文本所对应的新的不流利表示，进而得到新的标点标注表示18。

其中，图11所示的流程中计算第二相似度的原理与前述计算第一相似度的原理相同，将每个分词文本的标点特征表示与各自对应的全局不流利表示进行拼接的原理与前述的将每个分词文本的不流利表示与各自对应的全局标点特征表示进行拼接原理也相同，此处就不再赘述。

S380：基于新的不流利表示和新的标点特征表示，得到不流利检测结果以及标点标注结果。

S390：输出不流利检测结果以及标点标注结果。

下面再通过测试数据来对本实施例所提供的语音处理方法的准确率进行说明。

在一组测试中所采用的输入为Switchboard 语料中的标准数据集。并且基于F1-score对不流利检测结果以及标点标注结果进行准确性评分，准确性评分结果如下。

任务	基础模型	基于不流利预测标点	基于标点预测不流利
				不流利度检测（流利/不流利）	0.97/0.82	0.98/0.83	0.98/0.84
标点预测（逗号/句号）	0.79/0. 80	0.80/0.80	0.8/0.8

在另一组测试中所采用的输入为口语考试中所收集的数据集。并且基于F1-score对不流利检测结果以及标点标注结果进行准确性评分，准确性评分结果如下。

任务	基础模型	基于不流利预测标点	基于标点预测不流利
				不流利度检测（流利/不流利）	0.97/0.72	0.98/0.73	0.97/0.74
标点预测（逗号/句号）	0.61/0.81	0.62/0.82	0.62/0.81

需要说明的是，上表中的基础模型所对应的评分可以理解为基于S350得到不流利表示以及标点特征表示所对应的不流利检测结果以及标点标注结果对应的准确性评分。下表中的基于不流利预测标点所对应的评分，可以理解为基于新的标点特征表示对应的标点标注结果的准确性评分，下表中的基于标点预测不流利所对应的评分，可以理解为基于新的不流利表示对应的不流利检测结果的准确性评分。

本实施例提供的一种语音处理方法，通过前述方式可以在建立有第一特征向量表示与该不流利表示以及标点特征表示的对应关系的情况下，可以基于每个分词文本的同一的第一特征向量表示就可以同时得到每个分词文本的不流利表示以及标点特征表示，进而实现了将不流利检测和标点标注进行结合，以便可以降低不流利检测以及标点标注过程中的复杂度。并且，在本实施例中，直接根据第一特征向量表示得到每个分词文本的不流利表示以及标点特征表示后，还会再将不流利表示以及标点特征表示基于前述相似度的方式向结合以得到每个分词文本新的不流利表示以及新的标点特征表示，进而基于该新的不流利表示和该新的标点特征表示得到不流利检测结果以及标点标注结果，从而使得在进行不流利检测的过程中能够更深度的结合标点的影响，而在进行标点标注的过程中能够更深度的结合不流利的影响，以便进一步的提升不流利检测结果和标点标注结果的准确性。

请参阅图13，图13所示为本申请一实施例提出的一种语音处理方法的流程图，方法包括：

S510：客户端采集待识别语音。

例如，如图14所示，在图14所示的图中在进入到语音采集界面时会如图14左侧图像所示的显示录音提示信息以及名称为“开始录音”的控件，客户端在检测到作用于该控件的触控操作时，就会开始调用音频采集器件开始进行语音采集，而该名称为“开始录音”的控件会切换为图14右侧图像所示的名称为“录音完成”的控件。在进行该语音采集的过程中，在检测到作用于该名称为“录音完成”的控件的触控操作时，确定录音结束，并将已经采集的语音作为待识别语音。

S520：客户端将待识别语音发送给服务器。

S530：服务器将该待识别语音发送给语音识别模块。

作为一种方式，在客户端所发送的语音识别指令中即携带有待识别语音。在这种方式下，服务器可以通过直接对语音识别指令进行解析的方式来获取到待识别语音。

S540：语音识别模块将该待识别语音转换为对应的文本。

S550：语音识别模块将文本发送给文本后处理模块。

S560：后处理模块将文获取文本对应的第一特征向量表示，基于第一特征向量表示以及对应的变化规则，得到文本的不流利表示以及标点特征表示，基于不流利表示以及标点特征表示，得到文本的不流利检测结果以及标点标注结果，基于不流利检测结果以及标点标注结果对文本进行不流利标注以及标点标注，得到标注后的文本。

例如，如图15所示，其中的语音识别结果为对待识别语音所直接转换得到的文本。标注后的文本为对图15中的语音识别结果进行不流利标注以及标点标注后所得到的文本。其中，可以通过颜色或者特殊符号来对文本中的不流利成分进行标注。例如，可以在流利成分对应为黑色的情况下，将不流利成分标注为红色。此外，也可以通过给不流利成分增加括号的方式进行标注。

S570：后处理模块将该标注后的文本返回给服务器。

S580：服务器将该标注后的文本返回给客户端。

S590：客户端显示该标注后的文本。

例如，如图16所示，客户端在接收到服务器返回的标注后的文本后，就会将图14中右侧图像所显示的界面切换为图16所示的界面，进而显示所接收到的标注后的文本。

需要说明的是，图13所示的是一个示例性的流程。除了图13所示的方式外，本实施例还可以有其他的处理流程。

例如，后处理模块除了可以基于不流利检测结果以及标点标注结果对文本进行不流利标注以及标点标注得到标注后的文本外，还可以基于所述不流利检测结果去除文本中的不流利的文本分词，并基于所述标点标注结果对所述文本进行标点标注，得到待评分的文本，以便基于该待评分的文本进行评分。例如，在图15中所示的标注后的文本中通过增加括号的方式标注了不流利的文本分词。对应在评分场景中，可以将图15中通过括号所标注的内容去除，并进行标点标注后得到待评分的文本。其中，可以理解的是，基于该待评分的文本进行评分是对待评分的文本的内容进行评分。

可选的，客户端在将待识别语音传输给服务器时，可以基于不同的指令进行待识别语音传输，在客户端向服务器发送的为语音识别指令的情况下，后处理模块会基于不流利检测结果以及标点标注结果对文本进行不流利标注以及标点标注，得到标注后的文本，并将该标注后的文本返回给服务器。在客户端向服务器发送的为语音评分指令的情况下，后处理模块会基于所述标点标注结果对所述文本进行标点标注，得到待评分的文本，以便基于该待评分的文本进行评分。

另外，在后处理模块得到不流利检测结果以及标点标注结果后，可以直接将不流利检测结果以及标点标注结果返回给服务器，进而使得服务器来执行基于不流利检测结果以及标点标注结果对文本进行不流利标注以及标点标注，得到标注后的文本，或者执行基于所述标点标注结果对所述文本进行标点标注，得到待评分的文本。

本实施例提供的一种语音处理方法，实现了将不流利检测和标点标注进行结合，以便可以降低不流利检测以及标点标注过程中的复杂度。再者，对于标注后的文本会返回给客户端进行显示，从而便于用户直观的了解到自己口语表达中不流利的地方。再者，在对待识别语音进行评分的场景中，还会结合不流利检测结果标注结果来去除从语音直接识别得到的文本中的不流利的文本分词，并基于标点标注结果对文本进行标点标注，得到待评分的文本，从而使得能够提升语音表达评分的准确性。

请参阅图17，图17所示为本申请一实施例提出的一种语音处理方法的流程图，应用于客户端，方法包括：

S610：响应于在语音采集界面触发的语音采集指令进行待识别语音采集。

其中，语音采集界面可以为图14所示的界面。

S620：将待识别语音转换为对应的文本，并获取文本对应的第一特征向量表示。

S630：基于第一特征向量表示以及建立的变化规则得到文本的不流利表示以及标点特征表示，变化规则包括第一特征向量表示与不流利表示以及标点特征表示之间的对应关系。

S640：基于不流利表示以及标点特征表示，得到文本的不流利检测结果以及标点标注结果。

S650：输出不流利检测结果以及标点标注结果。

本实施例提供的一种语音处理方法，实现了客户端在进行不流利检测以及标点标注的过程中，将不流利检测和标点标注进行结合，以便可以降低不流利检测以及标点标注过程中的复杂度，进而在客户端所在电子设备的处理资源有限的情况下，通过降低不流利检测以及标点标注过程中的复杂度，可以进一步的降低进行不流利检测以及标点标注的过程中对客户端所在电子设备的处理资源占用，有利于提升客户端在运行过程中的流畅性。

请参阅图18，图18所示为本申请一实施例提出的一种语音处理装置700的结构框图，该装置700包括：语音转换单元710、特征表示单元720、特征获取单元730、结果获取单元740以及结果输出单元750。

其中，语音转换单元710，用于将待识别语音转换为对应的文本。

特征表示单元720，用于获取该文本对应的第一特征向量表示。

特征获取单元730，用于基于该第一特征向量表示以及对应的变化规则得到该文本的不流利表示以及标点特征表示，该变化规则包括该第一特征向量表示与该不流利表示以及标点特征表示之间的对应关系。

结果获取单元740，用于基于该不流利表示以及该标点特征表示得到该文本的不流利检测结果以及标点标注结果。

结果输出单元750，用于输出该不流利检测结果以及标点标注结果。

作为一种方式，特征表示单元720，具体用于将该文本进行分词处理得到多个分词文本；获取该多个分词文本分别对应的第二特征向量表示；对该第二特征向量表示进行多层变换得到该多个分词文本分别对应的第一特征向量表示。在这种方式下，特征获取单元730，具体用于基于该不流利表示以及该标点特征表示得到每个分词文本的不流利检测结果以及标点标注结果。

对应的，在这种方式下，结果获取单元740，具体用于获取基于该多维向量的不流利表示中的第一目标元素，该第一目标元素为基于该多维向量的不流利表示中对应的值最大的元素，将每个该分词文本的该第一目标元素的下标所对应的不流利结果作为每个该分词文本的不流利检测结果。结果获取单元740，还具体用于获取基于该多维向量的标点特征表示中的第二目标元素，该第二目标元素为基于该多维向量的标点特征表示中所对应的值最大的元素，将每个该分词文本的该第二目标元素的下标所对应的标点标注结果作为每个该分词文本的标点标注结果。

作为另一种方式，特征获取单元730，具体用于获取每个该分词文本的不流利表示与所有分词文本的标点特征表示之间的第一相似度，并根据该第一相似度确定每个该分词文本对应的新的不流利表示。特征获取单元730，还具体用于获取每个该分词文本的标点特征表示与所有分词文本的不流利表示之间的第二相似度，并根据该第二相似度确定每个该分词文本对应的新的标点特征表示。在这种方式下，结果获取单元740，具体用于基于该新的不流利表示和该新的标点特征表示得到不流利检测结果以及标点标注结果。

可选的，特征获取单元730，具体用于获取每个该分词文本的该不流利表示分别对应每个分词文本的该标点特征表示的相似度，作为该第一相似度；将该第一相似度作为权重，与所有分词文本的标点特征表示进行加权求和，得到每个该分词文本对应的全局标点特征表示；将每个该分词文本的该不流利表示与各自对应的该全局标点特征表示进行拼接，得到每个该分词文本对应的新的不流利表示。

可选的，特征获取单元730，具体用于获取每个该分词文本的该标点特征表示分别对应该每个分词文本的不流利表示的相似度作为该第二相似度；将该第二相似度作为权重，与所有分词文本的不流利表示进行加权求和，得到每个该分词文本对应的全局不流利表示；将每个该分词文本的该标点特征表示与各自对应的该全局不流利表示进行拼接，得到每个该分词文本对应的新的标点特征表示。

在一种方式中，语音转换单元710，具体用于响应于客户端发送的语音识别指令，将该客户端发送的待识别语音转换为对应的文本。在这种方式下，结果输出单元750，具体用于基于该不流利检测结果以及标点标注结果对该文本进行不流利标注以及标点标注，得到标注后的文本；将该标注后的文本返回给该客户端，以使该客户端显示该标注后的文本。

在一种方式中，语音转换单元710，具体用于响应于客户端发送的语音识别指令，将该客户端发送的待识别语音转换为对应的文本。在这种方式下，结果输出单元750，具体用于基于该不流利检测结果去除该文本中的不流利的文本分词，并基于该标点标注结果对该文本进行标点标注，得到待评分的文本；基于该待评分的文本进行语音评分。

本申请提供的一种语音处理装置，通过前述方式可以在建立有第一特征向量表示与该不流利表示以及标点特征表示的对应关系的情况下，可以基于同一的第一特征向量表示就可以同时得到不流利表示以及标点特征表示，进而实现了将不流利检测和标点标注进行结合，以便可以降低不流利检测以及标点标注过程中的复杂度。

请参阅图19，图19所示为本申请一实施例提出的一种语音处理装置701的结构框图，该装置701包括：语音采集单元702、语音转换单元710、特征表示单元720、特征获取单元730、结果获取单元740以及结果输出单元750。

其中，语音采集单元702，用于响应于在语音采集界面触发的语音采集指令进行待识别语音采集。

语音转换单元710，用于将待识别语音转换为对应的文本。

特征表示单元720，用于并获取该文本对应的第一特征向量表示。

特征获取单元730，用于基于该第一特征向量表示以及建立的变化规则得到该文本的不流利表示以及标点特征表示，该变化规则包括该第一特征向量表示与该不流利表示以及标点特征表示之间的对应关系。

作为一种方式，结果输出单元750，具体用于基于该不流利检测结果以及标点标注结果对该文本进行不流利标注以及标点标注，并显示标注后的文本。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

下面将结合图20对本申请提供的一种电子设备进行说明。

请参阅图20，基于上述的语音处理方法，本申请实施例还提供的另一种包括可以执行前述语音处理方法的处理器102的电子设备200，该电子设备200可以为智能手机、平板电脑、计算机或者便携式计算机等设备。电子设备200还包括存储器104、网络模块106、屏幕108以及语音采集模块109。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备200内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备200的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(DigitalSignal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit，CPU)、图像处理器(GraphicsProcessing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

网络模块106用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如网络模块106可以发送广播数据，也可以对其他设备发送的广播数据进行解析。所述网络模块106可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。所述网络模块106可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块106可以与基站进行信息交互。

屏幕108可以进行界面内容的显示，例如，可以显示前述实施例子红基于不流利检测结果以及标点标注结果对文本进行不流利标注以及标点标注，得到标注后的文本。还可以显示基于不流利检测结果以及标点标注结果得到的待评分的文本对应的评分。

语音采集模块109，用于对音频信息进行采集。例如，可以用于采集用户输出的语音。需要说明的是，在电子设备200作为服务器的时候，其可以不包括语音采集模块109。

需要说明的是，为了实现更多的功能，电子设备200还可以保护更多的器件，例如，还可以包括用于进行人脸信息采集的结构光传感器或者还可以保护用于采集虹膜的摄像头等。

请参考图21，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1100中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

综上所述，本申请提供的一种语音处理方法、装置、电子设备及存储介质，在将待识别语音转换为对应的文本后，先获取所述文本对应的第一特征向量表示，进而基于所述第一特征向量表示，以及包括所述第一特征向量表示与不流利表示以及标点特征表示之间的对应关系，得到所述文本的不流利表示以及标点特征表示，再基于所述不流利表示以及所述标点特征表示得到所述文本的不流利检测结果以及标点标注结果，输出所述不流利检测结果以及标点标注结果。从而通过前述方式可以在建立有第一特征向量表示与所述不流利表示以及标点特征表示的对应关系的情况下，可以基于同一的第一特征向量表示就可以同时得到不流利表示以及标点特征表示，进而实现了将不流利检测和标点标注进行结合，以便可以降低不流利检测以及标点标注过程中的复杂度。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

将待识别语音转换为对应的文本；

将所述文本进行分词处理得到多个分词文本；获取所述多个分词文本分别对应的第二特征向量表示；对所述第二特征向量表示进行多层变换得到所述多个分词文本分别对应的第一特征向量表示；

基于所述第一特征向量表示以及对应的变化规则，得到所述文本的不流利表示以及标点特征表示，所述变化规则包括所述第一特征向量表示与所述不流利表示以及标点特征表示之间的对应关系；

获取每个所述分词文本的不流利表示与所有分词文本的标点特征表示之间的第一相似度，并根据所述第一相似度确定每个所述分词文本对应的新的不流利表示；

获取每个所述分词文本的标点特征表示与所有分词文本的不流利表示之间的第二相似度，并根据所述第二相似度确定每个所述分词文本对应的新的标点特征表示；

基于所述新的不流利表示和所述新的标点特征表示得到不流利检测结果以及标点标注结果。

2.根据权利要求1所述的方法，其特征在于，所述获取每个所述分词文本的不流利表示与所有分词文本的标点特征表示之间的第一相似度，并根据所述第一相似度确定每个所述分词文本对应的新的不流利表示，包括：

获取每个所述分词文本的所述不流利表示分别与每个分词文本的所述标点特征表示的相似度，作为所述第一相似度；

将所述第一相似度作为权重，与所有分词文本的标点特征表示进行加权求和，得到每个所述分词文本对应的全局标点特征表示；

将每个所述分词文本的所述不流利表示与各自对应的所述全局标点特征表示进行拼接，得到每个所述分词文本对应的新的不流利表示。

3.根据权利要求1所述的方法，其特征在于，所述获取每个所述分词文本的标点特征表示与所有分词文本的不流利表示之间的第二相似度，并根据所述第二相似度确定每个所述分词文本对应的新的标点特征表示，包括：

获取每个所述分词文本的所述标点特征表示分别与每个分词文本的不流利表示的相似度，作为所述第二相似度；

将所述第二相似度作为权重，与所有分词文本的不流利表示进行加权求和，得到每个所述分词文本对应的全局不流利表示；

将每个所述分词文本的所述标点特征表示与各自对应的所述全局不流利表示进行拼接，得到每个所述分词文本对应的新的标点特征表示。

4.根据权利要求1-3任一所述的方法，其特征在于，所述将待识别语音转换为对应的文本，包括：响应于客户端发送的语音识别指令，将所述客户端发送的待识别语音转换为对应的文本；

所述基于所述新的不流利表示和所述新的标点特征表示得到不流利检测结果以及标点标注结果之后还包括：

基于所述不流利检测结果以及标点标注结果对所述文本进行不流利标注以及标点标注，得到标注后的文本；

将所述标注后的文本返回给所述客户端，以使所述客户端显示所述标注后的文本。

5.根据权利要求1-3任一所述的方法，其特征在于，所述将待识别语音转换为对应的文本，包括：响应于客户端发送的语音评分指令，将所述客户端发送的待识别语音转换为对应的文本；

基于所述不流利检测结果去除所述文本中的不流利的文本分词，并基于所述标点标注结果对所述文本进行标点标注，得到待评分的文本；

基于所述待评分的文本进行语音评分。

6.一种语音处理方法，其特征在于，所述方法包括：

响应于在语音采集界面触发的语音采集指令进行待识别语音采集；

将待识别语音转换为对应的文本，并将所述文本进行分词处理得到多个分词文本；获取所述多个分词文本分别对应的第二特征向量表示；对所述第二特征向量表示进行多层变换得到所述多个分词文本分别对应的第一特征向量表示；

基于所述第一特征向量表示以及建立的变化规则得到所述文本的不流利表示以及标点特征表示，所述变化规则包括所述第一特征向量表示与所述不流利表示以及标点特征表示之间的对应关系；

基于所述新的不流利表示和所述新的标点特征表示得到不流利检测结果以及标点标注结果；

输出所述不流利检测结果以及标点标注结果。

7.一种语音处理装置，其特征在于，所述装置包括：

语音转换单元，用于将待识别语音转换为对应的文本；

特征表示单元，用于将所述文本进行分词处理得到多个分词文本；获取所述多个分词文本分别对应的第二特征向量表示；对所述第二特征向量表示进行多层变换得到所述多个分词文本分别对应的第一特征向量表示；

特征获取单元，用于基于所述第一特征向量表示以及对应的变化规则得到所述文本的不流利表示以及标点特征表示，所述变化规则包括所述第一特征向量表示与所述不流利表示以及标点特征表示之间的对应关系；

结果获取单元，用于获取每个所述分词文本的不流利表示与所有分词文本的标点特征表示之间的第一相似度，并根据所述第一相似度确定每个所述分词文本对应的新的不流利表示；

结果输出单元，用于输出所述不流利检测结果以及标点标注结果。

8.一种语音处理装置，其特征在于，所述装置包括：

语音采集单元，用于响应于在语音采集界面触发的语音采集指令进行待识别语音采集；

语音转换单元，用于将待识别语音转换为对应的文本；

特征获取单元，用于基于所述第一特征向量表示以及建立的变化规则得到所述文本的不流利表示以及标点特征表示，所述变化规则包括所述第一特征向量表示与所述不流利表示以及标点特征表示之间的对应关系；

结果获取单元，用于获取每个所述分词文本的不流利表示与所有分词文本的标点特征表示之间的第一相似度，并根据所述第一相似度确定每个所述分词文本对应的新的不流利表示；获取每个所述分词文本的标点特征表示与所有分词文本的不流利表示之间的第二相似度，并根据所述第二相似度确定每个所述分词文本对应的新的标点特征表示；基于所述新的不流利表示和所述新的标点特征表示得到不流利检测结果以及标点标注结果；

9.一种电子设备，其特征在于，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现权利要求1-5任一所述的方法或者以实现权利要求6所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-5任一所述的方法或者执行权利要求6所述的方法。