CN111862944A

CN111862944A - 语音识别装置、方法、电子设备和计算机可读存储介质

Info

Publication number: CN111862944A
Application number: CN201910364997.1A
Authority: CN
Inventors: 罗讷; 赵帅江; 赵茜
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-10-30
Anticipated expiration: 2039-04-30
Also published as: CN111862944B

Abstract

本申请实施例提供了一种语音识别装置、方法、电子设备和计算机可读存储介质，其中，该方法包括：获取服务请求端与服务提供端之间的具有地域化语言风格的语音内容；对所述具有地域化语言风格的语音内容进行特征提取，得到所述语音内容对应的具有地域化语言风格的声学特征向量；将所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中，将所述语音内容转化为文本信息。本申请实施例能够提高对具有地域化语言风格的语音内容进行识别时的识别准确度。

Description

语音识别装置、方法、电子设备和计算机可读存储介质

技术领域

本申请涉及信息技术领域，具体而言，涉及一种语音识别装置、方法、电子设备和计算机可读存储介质。

背景技术

随着汽车电子技术的持续快速发展，乘坐出租车出行和预约乘坐私家车出行等出行方式得到了长足发展，在人们日常生活出行中起到了不可替代的作用，为广大人民的日常生活、交通出行带来了极大方便。

目前，在出行服务平台的保护系统中，一般通过语音识别模型识别司机与乘客之间的通话录音，以便于确定乘客或司机是否存在乘车风险问题，有效帮助司机或乘客规避风险，那么，在识别通话录音时，一般通过声学模型、词典和语言模型的结合对通话录音进行识别，最终得到识别文本。但是，通过多个模型的结合对通话录音进行识别时一般针对的是标准普通话，当通话录音中的内容不是标准普通话(如粤语)时，得到的识别文本的准确度较低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语音识别装置、方法、电子设备和计算机可读存储介质，提高了对具有地域化语言风格的语音内容进行识别时的识别准确度。

第一方面，本申请实施例提供了一种语音识别装置，该装置包括：

获取模块，用于获取服务请求端与服务提供端之间的具有地域化语言风格的语音内容；

特征提取模块，用于对所述获取模块获取的所述具有地域化语言风格的语音内容进行特征提取，得到所述语音内容对应的具有地域化语言风格的声学特征向量；

转化模块，用于将所述特征提取模块得到的所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中，将所述语音内容转化为文本信息。

可选地，所述转化模块具体用于：

将所述文本信息中的第i个文字对应的特征向量和所述具有地域化语言风格的声学特征向量输入到目标语音识别模型中，得到第i+1个文字，其中，i为大于或等于0的正整数，第i+1个文字为在第i个文字之后的一个文字。

可选地，所述转化模块具体用于：

将所述具有地域化语言风格的声学特征向量输入到所述目标语音识别模型的编码器中进行上下文关系特征提取，得到所述语音内容对应的特征提取向量；

将所述文本信息中的第i个文字对应的特征向量和所述特征提取向量输入到目标语音识别模型的解码器中，得到第i+1个文字。

可选地，该装置还包括：训练模块，所述训练模块用于：

构建训练样本库，所述训练样本库中包括具有地域化语言风格的样本语音内容和人工标注的真实文本信息；

将所述样本语音内容对应的具有地域化语言风格的样本声学特征向量和对应的真实文本信息中的第j个文字输入到初始目标语音识别模型中，得到所述样本语音内容对应的第j+1个预测文字，其中，j为大于或等于0的正整数，第j+1个预测文字为在第j个预测文字之后的一个预测文字；

根据所述样本语音内容对应的所有预测文字和所述真实文本信息，对所述初始目标语音识别模型进行调整，得到调整后的目标语音识别模型。

可选地，所述训练模块具体用于：

将所述样本语音内容对应的具有地域化语言风格的样本声学特征向量输入到所述初始目标语音识别模型的初始编码器中进行上下文关系特征提取，得到所述样本语音内容对应的样本特征提取向量；

将所述样本语音内容对应的样本特征提取向量和对应的真实文本信息中的第j个文字对应的特征向量输入到所述初始目标语音识别模型的初始解码器中，得到所述样本语音内容对应的第j+1个预测文字。

可选地，所述训练模块具体用于：

按照所述样本语音内容对应的所有预测文字和所述真实文本信息之间的距离最小原则，分别对所述初始目标语音识别模型的模型结构和模型参数进行调整，得到调整后的目标语音识别模型。

可选地，所述特征提取模块，包括：

对所述语音内容进行分帧处理；

对分帧处理后的语音内容进行预加重处理；

对预加重处理后的语音内容进行去除直流偏移处理；

对去除直流偏移处理后的语音内容进行加窗处理；

对加窗处理后的语音内容进行补零处理；

对补零处理后的语音内容进行快速傅里叶变换处理；

对快速傅里叶变换处理后的语音内容进行滤波处理，得到所述语音内容对应的声学特征向量；

对所述服务请求端对应的地域特征向量、所述服务提供端对应的地域特征向量、和所述语音内容对应的声学特征向量进行拼接处理，得到所述语音内容对应的具有地域化语言风格的声学特征向量。

可选地，所述服务请求端对应的地域特征向量为基于所述服务请求端对应的服务请求方的地域属性信息生成的，所述服务提供端对应的地域特征向量为基于所述服务提供端对应的服务提供方的地域属性信息生成的。

可选地，所述具有地域化语言风格的样本声学特征向量是通过对具有地域化语言风格的样本语音内容进行特征提取得到的。

第二方面，本申请实施例提供了一种语音识别方法，该方法包括：

获取服务请求端与服务提供端之间的具有地域化语言风格的语音内容；

对所述具有地域化语言风格的语音内容进行特征提取，得到所述语音内容对应的具有地域化语言风格的声学特征向量；

将所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中，将所述语音内容转化为文本信息。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如上述语音识别方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述语音识别方法的步骤。

本申请实施例提供的语音识别装置，在获取模块获取到服务请求端和服务提供端之间的具有地域化语言风格的语音内容后，对具有地域化语言风格的语音内容进行特征提取，得到具有地域化语言风格的声学特征向量，将得到的具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型，得到语音内容对应的文本信息。由于在对语音内容进行特征提取时，不仅考虑了语音内容的声学特征，也考虑了语音内容的地域性特征，因此，提取得到的具有地域化语言风格的声学特征向量不仅具有声学特征也具有地域化语言风格的特征，那么，将得到的具有地域化语言风格的声学特征向量输入到目标语音识别模型进行识别时，得到的文本信息的准确度更高。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种语音识别装置的第一种结构示意图；

图2示出了本申请实施例所提供的一种语音识别装置的第二种结构示意图；

图3示出了本申请实施例所提供的一种语音识别方法的第一种流程示意图；

图4示出了本申请实施例所提供的一种语音识别方法的第二种流程示意图；

图5示出了本申请实施例所提供的一种语音识别方法的第三种流程示意图；

图6示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“出行场景”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕对出行场景进行描述，但是应该理解，这仅是一个示例性实施例。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请中的术语“乘客”、“请求方”、“服务请求方”和“客户”可互换使用，以指代可以请求或订购服务的个人、实体或工具。本申请中的术语“司机”、“提供方”、“服务提供方”和“供应商”可互换使用，以指代可以提供服务的个人、实体或工具。本申请中的术语“用户”可以指代请求服务、订购服务、提供服务或促成服务的提供的个人、实体或工具。例如，用户可以是乘客、驾驶员、操作员等，或其任意组合。在本申请中，“乘客”和“乘客终端”可以互换使用，“驾驶员”和“驾驶员终端”可以互换使用。

本申请中的术语“服务请求”和“订单”可互换使用，以指代由乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合发起的请求。接受该“服务请求”或“订单”的可以是乘客、服务请求方、司机、服务提供方、或供应商等、或其任意组合。服务请求可以是收费的或免费的。

本申请实施例可以服务于出行服务平台，该出行服务平台用于根据接收的用户端的出行服务请求为用户提供相应的服务。出行服务平台可以包括多个打车系统，如包括出租车打车系统、快车打车系统、专车打车系统、顺风车打车系统等。

本申请实施例的语音识别装置可以应用于出行服务平台的服务器，也可以应用于其它任意具有处理功能的计算设备。在一些实施例中，上述服务器或计算设备可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。

目前，用户在使用出行服务平台出行时，一般通过语音识别模型识别司机与乘客之间的通话录音，以便于确定乘客或司机是否存在乘车风险问题，有效帮助司机或乘客规避风险，那么，在识别通话录音时，一般通过声学模型、发音词典、语言模型和解码器的结合对通话录音进行识别。

在获取到乘客与司机之间的通话录音(也就是语音内容)后，将语音内容输入到声学模型，声学模型将语音内容映射为多个音素，利用发音词典将得到的多个音素转化为文字，由于不同的文字可能对应同一个音素，因此，在利用发音词典将音素转化为文字时，每个音素可能对应多个文字，此时，利用语言模型获取预先得到的每个文字对应的概率值，从而帮助确定每个音素对应的文字。在得到这几种知识后，解码器通过解码算法，如维特比算法，在这几种知识组成的搜索空间进行搜索，计算得到最佳词串，最终得到识别文本。但是，声学模型、发音词典、语言模型和解码器是相互分离的，训练时需要分别进行训练，训练过程较为繁琐，而且发音词典的构建需要专业人员的知识，若识别的语音内容为非标准普通话语音内容(如具有地域性语言风格的语音内容)时，由于声学模型并未考虑语音内容中的地域性语言风格，因此，最终识别得到的识别文本的准确度比较低。

为了便于描述，本文通过确定针对出行领域的具有地域化语言风格的语音内容进行识别，得到准确度较高的识别文本信息，以便于在文本信息中存在潜在安全问题时，对服务请求端或者服务提供端进行安全提醒。基于此目的，本申请针对出行领域，在获取模块获取到服务请求端和服务提供端之间的具有地域化语言风格的语音内容后，对具有地域化语言风格的语音内容进行特征提取，得到具有地域化语言风格的声学特征向量，将得到的具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型，得到语音内容对应的文本信息。由于在对语音内容进行特征提取时，不仅考虑了语音内容的声学特征，也考虑了语音内容的地域性特征，因此，提取得到的具有地域化语言风格的声学特征向量不仅具有声学特征也具有地域化语言风格的特征，那么，将得到的具有地域化语言风格的声学特征向量输入到目标语音识别模型进行识别时，得到的文本信息的准确度更高，当将得到的文本信息应用于出行服务平台时，出行服务平台可以根据目标语音识别模型输出的文本信息确定服务提供方或服务请求方是否存在安全隐患，若确定服务提供方或服务请求方存在安全隐患，出行服务平台可以针对服务提供方或服务请求方进行提醒，以减少可能发生的安全隐患带来的伤害，同时，也提高出行服务平台的服务质量。本申请实施例将基于该思想进行详细描述。

针对上述情况，本申请实施例提供了一种语音识别装置，应用于后台服务器，如图1所示，该装置包括：获取模块11、特征提取模块12和转化模块13。

获取模块11，用于获取服务请求端与服务提供端之间的具有地域化语言风格的语音内容；

特征提取模块12，用于对所述获取模块11获取的所述具有地域化语言风格的语音内容进行特征提取，得到所述语音内容对应的具有地域化语言风格的声学特征向量；

转化模块13，用于将所述特征提取模块12得到的所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中，将所述语音内容转化为文本信息。

这里，语音内容一般为服务请求端与服务提供端之间的通话录音，可以为服务请求端在出行过程中与服务提供端之间的通话录音；地域化语言风格表征不同地域所使用的语言具有的地域化语言风格，地域化语言风格可以是但不限于粤语语言风格、四川话语言风格等。

由于使用出行服务平台的服务请求方或服务提供方可能来自不同的地域，来自不同地域的服务请求方或服务提供方不一定会使用标准普通话进行沟通，因此，服务请求方或服务提供方可能会使用各自的地域化语言风格的语言进行沟通，在对服务请求端与服务提供端之间的语音内容进行特征提取时，需要提取语音内容的声学特征，声学特征包括音高、音强、音色、音长等，声学特征并不能表征地域性特征，因此，也需要提取语音内容中的地域化语言风格，提高了得到的具有地域化语言风格的声学特征向量的应用准确度。

特征提取模块12在对具有地域化语言风格的语音进行进行特征提取时，通过以下步骤进行：

对所述语音内容进行分帧处理；

对分帧处理后的语音内容进行预加重处理；

对预加重处理后的语音内容进行去除直流偏移处理；

对去除直流偏移处理后的语音内容进行加窗处理；

对加窗处理后的语音内容进行补零处理；

对补零处理后的语音内容进行快速傅里叶变换处理；

服务请求端对应的地域特征向量为基于所述服务请求端对应的服务请求方的地域属性信息生成的，服务提供端对应的地域特征向量为基于所述服务提供端对应的服务提供方的地域属性信息生成的。其中，地域特征向量表征服务请求方或服务提供方的地域属性特征，地域属性信息可以为服务请求方或服务提供方所属的地域、服务请求方或服务提供方的年龄、性别、成长经历等。

这里，可以通过分帧工具对语音内容进行分帧处理，通过分帧工具将语音内容切割为一帧一帧的语音片段，从而便于进行后续处理及提高后续其它处理的处理效率，在分帧处理时，按照预先设定的帧长和帧移对语音进行分帧；预加重处理用于对切割得到的语音片段进行信号补偿处理由于，声门气流波以每倍频12dB的速率递减，而唇腔辐射是每倍频增加6dB，所以叠加起来每倍频会衰减6dB，为了弥补这部分衰减，就需要对受损的语音信号进行补偿，预加重目的在于补偿高频分量在传输过程中的过大衰减；直流偏移处理的目的在于消除语音信号传输过程中的直流分量导致的音质变差、声音异样；加窗处理用于平滑语音信号，可以使用汉明窗加以平滑，汉明窗相比于矩形窗函数，会减弱傅里叶变换以后旁瓣大小以及频谱的泄露；补零是因为快速傅里叶变换要求信号的长度为2ⁿ，快速傅里叶变换处理可以将语音信号由时域信号转化到频域信号，以便于进行后续的频率分析；由于频域信号有很多冗余，通过滤波方式对频域的幅值进行精简，如，通过梅尔刻度滤波器对频域的幅值进行滤波处理；拼接处理的目的在于将多个向量合并为一个向量，例如，可以通过concat对多个向量进行合并处理。

在具体实施过程中，在获取到具有地域化语言风格的语音内容后，对语音内容进行分帧处理，得到多个帧片段，针对每个帧片段，对该帧片段进行中的高频分量进行补偿处理，对预加重处理后的帧片段进行去除直流偏移处理，消除该帧片段中的直流分量，随后，对去除直流偏移处理后的该帧片段进行进行平滑处理(加窗处理)，对加窗处理后的该帧片段进行补零处理，之后进行快速傅里叶变换处理，将该帧片段由时域信号转换为频域信号，对快速傅里叶变换处理后的帧片段进行滤波处理，也就是，对于快速傅里叶变换得到的幅度谱，分别对幅度值与每一个滤波器进行频率相乘累加，得到的值即为该帧片段在在该滤波器对应频段的能量值，能量值的数目与滤波器的数目相同，在得到该帧片段的能量值后，还可以对能量值进行取对数处理，从而放大低能量处的能量差异，最终得到语音内容对应的声学特征向量，该声学特征向量仅用于表征语音内容的声学特征，不具有地域化。

为了进一步得到语音内容具有地域化语言风格的声学特征向量，需要获取服务请求端对应的服务请求方的地域属性信息(如，性别、年龄、所属的地域、成长过程中所经历的地域等)，并基于服务请求方的地域属性信息为服务请求端生成地域特征向量，以及获取服务提供端对应的服务提供方的地域属性信息(如，性别、年龄、所属的地域、成长过程中所经历的地域等)，并基于服务提供方的地域属性信息为服务提供端生成地域特征向量，进一步，对服务请求端对应的地域特征向量、服务提供端对应的地域特征向量、和语音内容对应的声学特征向量进行拼接处理，最终得到具有地域化语言风格的声学特征向量，该具有地域化语言风格的声学特征向量中不仅表征了服务提供方或服务请求方的声学特征，同时也表征了服务请求方或服务提供方的地域化语言风格。

在得到具有地域化语言风格的声学特征向量后，通过转化模块13对具有地域化语言风格的声学特征向量进行识别处理以得到语音内容对应的文本信息，转化模块13通过以下方法对具有地域化语言风格的声学特征向量进行转化处理：

转化模块13在将所述文本信息中的第i个文字对应的特征向量和所述具有地域化语言风格的声学特征向量输入到目标语音识别模型中，得到第i+1个文字时，具体通过以下方式实现：

这里，文字对应的特征向量可以为表征文字的语义或者文字的偏旁结构的特征向量，文字的特征向量可以是将文字输入到特征向量生成模型中得到的，特征向量生成模型是预先训练得到的，特征向量生成模型可以为卷积神经网络模型、循环神经网络模型等；编码器用于对具有地域化语言风格的声学特征向量进行上下文关系特征提取，编码器可以为卷积神经网络模型、循环神经网络模型等，使得得到的特征提取向量具有语音内容中的文字的上下文关系，文字的上下文关系表征语音内容中的各个文字在语音内容中的前后关系，例如，语音内容为“我已到达目的地”，“我”、“已”、“到”、“达”、“目”、“的”、“地”之间的前后关系为各个文字在“我已到达目的地”中的上下文关系；解码器用于对得到的文本信息中的第i个文字的特征向量和特征提取向量进行处理以得到文本信息中的第i+1个文字，解码器可以为循环神经网络模型等；目标语音识别模型可以是但不限于LAS(Listen,Attendand Spell)结构网络模型、基于attention机制的编码器-解码器结构网络模型等，可以视具体情况而定。

目标语音识别模型中包括有编码器和解码器，编码器主要用于对上下文关系特征进行提取，解码器用于对输入的特征向量进行解码处理，以得到语音内容对应的文本信息。

转化模块13在利用目标语音识别模型对具有地域化语言风格的语音内容进行识别之前，需要通过训练样本库训练得到目标语音识别模型，如图2所示，本申请的语音识别装置还包括：训练模块14，训练模块14用于：

训练模块14在将所述样本语音内容对应的具有地域化语言风格的样本声学特征向量和对应的真实文本信息中的第j个文字输入到初始目标语音识别模型中，得到所述样本语音内容对应的第j+1个预测文字时，具体通过以下方式实现：

训练模块14在根据所述样本语音内容对应的所有预测文字和所述真实文本信息，对所述初始目标语音识别模型进行调整，得到调整后的目标语音识别模型时，具体包括以下步骤：

由于本申请是针对具有地域化语言风格的语音进行进行识别的，因此，在训练目标语音识别模型时，样本语音内容所具有的地域化语言风格与获取模块11获取语音内容给的地域化语言风格相同，样本语音内容一般是获取的服务请求端与服务提供端在历史时间段进行沟通时的语音内容，历史时间段可以为在当前获取模块11获取语音内容之前的时间段，该历史时间段可以为连续几天、一个星期、一个季度等，可视具体情况确定；真实文本信息一般是通过人工标注方式对样本语音内容记性标记处理得到的，真实文本信息包括样本语音内容中的真实文字。

具有地域化语言风格的样本声学特征向量是通过对具有地域化语言风格的样本语音内容进行特征提取得到的，具有地域化语言风格的样本声学特征向量的提取过程可以参数上文具有地域化语言风格的声学特征向量的提取过程，相同之处不再赘述。

在具体实施过程中，训练模块14在构建训练样本库时，在从出行服务平台获取到大量的样本语音内容后，通过人工标注方式对样本语音内容进行标注，以得到每个样本语音内容对应的真实文本信息，完成对训练样本库的构建，在构建完训练样本库后，可以将训练样本库划分为训练集、开发集和测试集，训练集、开发集、测试集可以按照设定比例进行划分，如，训练集、开发集、测试集的比例可以为8:1:1，也可以视具体情况而定。其中，训练集主要用于对目标语音识别模型进行训练，开发集可以用于调整目标语音识别模型的模型结构(模型超参数，如，模型的层数、以及每一层的节点的数量等)，测试集可以用于对模型的性能进行无偏估计。

在构建完训练样本库后，利用得到的训练集中的样本语音内容和对应的真实文本信息对初始目标语音识别模型进行训练，首先，将样本语音语音内容对应的具有地域化语言风格的样本声学特征向量输入到初始目标语音识别模型的初始编码器中对具有地域化语言风格的样本声学特征向量进行上下文关系特征提取，得到样本语音内容对应的样本特征提取向量。

在得到样本语音内容对应的样本特征提取向量后，识别样本语音内容中的第一个预测文字时，需要将样本语音内容对应的样本特征提取向量和预先设置的初始特征向量(也就是代表句子开始符的特征向量)输入到初始目标语音识别模型的初始解码器中，得到样本语音内容对应的第一个预测文字。其中，初始特征向量的维度与文字的特征向量的维度相同。

在得到第一个预测文字后，将第一个预测文字对应的向量和样本语音内容对应的样本特征提取向量输入到初始目标语音识别模型的初始解码器中，得到样本语音内容对应的第二个预测文字。

第二个预测文字之后的每一个预测文字的确定过程与第二个预测文字的确定过程相同，相同之处不再赘述，直到得到样本语音内容对应的所有的预测文字，也就是，直到预测出句子结束符，预测结束。

在得到样本语音内容对应的所有的预测文字之后，将样本语音内容对应的预测文字与真实文字进行比对(例如使用编辑距离)，得到样本语音内容对应的所有预测文字与真实文本信息之间的距离，计算字错误率，根据字错误率最小原则，对目标语音识别模型的模型结构和模型超参数进行调整，也就是，使得样本语音内容对应的所有文字无限接近真实文本信息，例如调整目标语音识别模型中编码器和解码器的层数以及每一层的节点的数目。在调整完目标语音识别模型的模型结构后，再次训练目标语音识别模型，并调整模型参数(模型的权重参数)，直到字错误率达到预设目标为止，得到调整后的目标语音识别模型。其中，在对模型结构(模型超参数)进行调整时，可以利用模型在开发集上的性能对模型性能进行评估，从而选择一个较为合适的模型结构。

例如，样本语音内容为“我已达到目的地”，在对初始目标语音识别模型进行训练时，将样本语音内容对应的具有地域化语言风格的样本声学特征向量输入到初始目标语音识别模型的初始编码器中，得到“我已达到目的地”对应的特征提取向量，随后，将“我已达到目的地”对应的特征提取向量和初始特征向量(也就是句子开始符对应的特征向量)输入到初始目标语音识别模型的初始解码器中，得到样本语音内容中的第1个预测文字，随后，将第1个预测文字的特征向量和“我已达到目的地”对应的特征提取向量输入到初始目标语音识别模型的初始解码器中，得到样本语音内容中的第2个预测文字，直到得到所有的预测文字，在得到所有的预测文字后，计算所有预测文字和“我已达到目的地”之间的距离(如编辑距离)，根据距离计算字错误率，按照字错误率最小原则调整初始目标语音识别模型的模型结构和模型参数，得到调整后的目标语音识别模型。

在得到目标语音识别模型后，将获取模块11获取的具有地域化语言风格的语音内容输入到目标语音识别模型的编码器对具有地域化语言风格的语音内容进行上下文关系特征提取，得到语音内容对应的特征提取向量。

在识别具有地域化语言风格的语音内容中的第一文字时，需要将语音内容对应的特征提取向量和预先设置的初始特征向量(与模型训练过程中的句子开始符对应的特征向量相同)输入到目标语音识别模型的解码器中，得到语音内容对应的第一个文字，在得到第一个文字后，将第一个文字对应的特征向量和语音内容对应的特征提取向量输入到目标语音识别模型的解码器中，得到语音内容对应的第二个文字，语音内容中第二个文字之后的每个文字的识别过程与第二文字的识别过程相同，相同之处不再赘述。

例如，获取模块11获取到的具有地域化语言风格的语音内容为“我正在下楼”，将语音内容对应的具有地域化语言风格的声学特征向量输入到目标语音识别模型的编码器中进行上下文关系特征提取，得到语音内容对应的特征提取向量，将上述特征提取向量和句子开始符对应的特征向量(也就是初始特征向量)和语音内容给的特征提取向量输入到目标语音识别模型的解码器中，得到语音内容中的第一个文字“我”，随后，将“我”的特征向量和语音内容对应的特征提取向量输入到目标语音识别模型的解码器中，得到语音内容中的第二个文字“正”，第二个文字“正”之后的每个文字的识别过程与第二文字“正”的识别过程相同，不再赘述，直到得到所有的文字为止。

本申请提供的语音识别装置，在获取模块获取到服务请求端和服务提供端之间的具有地域化语言风格的语音内容后，对具有地域化语言风格的语音内容进行特征提取，得到具有地域化语言风格的声学特征向量，将得到的具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型，得到语音内容对应的文本信息。由于在对语音内容进行特征提取时，不仅考虑了语音内容的声学特征，也考虑了语音内容的地域性特征，因此，提取得到的具有地域化语言风格的声学特征向量不仅具有声学特征也具有地域化语言风格的特征，那么，将得到的具有地域化语言风格的声学特征向量输入到目标语音识别模型进行识别时，得到的文本信息的准确度更高，当将得到的文本信息应用于出行服务平台时，出行服务平台可以根据目标语音识别模型输出的文本信息确定服务提供方或服务请求方是否存在安全隐患，若确定服务提供方或服务请求方存在安全隐患，出行服务平台可以针对服务提供方或服务请求方进行提醒，以减少可能发生的安全隐患带来的伤害，同时，也提高出行服务平台的服务质量。

参照图3所示，为本申请实施例提供的一种语音识别方法的示意图，该方法包括以下步骤：

S301，获取服务请求端与服务提供端之间的具有地域化语言风格的语音内容；

S302，对所述具有地域化语言风格的语音内容进行特征提取，得到所述语音内容对应的具有地域化语言风格的声学特征向量；

S303，将所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中，将所述语音内容转化为文本信息。

可选地，所述将所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中，将所述语音内容转化为文本信息，包括：

如图4所示，所述将所述文本信息中的第i个文字对应的特征向量和所述具有地域化语言风格的声学特征向量输入到目标语音识别模型中，得到第i+1个文字，包括：

S401，将所述具有地域化语言风格的声学特征向量输入到所述目标语音识别模型的编码器中进行上下文关系特征提取，得到所述语音内容对应的特征提取向量；

S402，将所述文本信息中的第i个文字对应的特征向量和所述特征提取向量输入到目标语音识别模型的解码器中，得到第i+1个文字。

如图5所示，根据以下方法训练所述目标语音识别模型：

S501，构建训练样本库，所述训练样本库中包括具有地域化语言风格的样本语音内容和人工标注的真实文本信息；

S502，将所述样本语音内容对应的具有地域化语言风格的样本声学特征向量和对应的真实文本信息中的第j个文字输入到初始目标语音识别模型中，得到所述样本语音内容对应的第j+1个预测文字，其中，j为大于或等于0的正整数，第j+1个预测文字为在第j个预测文字之后的一个预测文字；

S503，根据所述样本语音内容对应的所有预测文字和所述真实文本信息，对所述初始目标语音识别模型进行调整，得到调整后的目标语音识别模型。

可选地，所述将所述样本语音内容对应的具有地域化语言风格的样本声学特征向量和对应的真实文本信息中的第j个文字输入到初始目标语音识别模型中，得到所述样本语音内容对应的第j+1个预测文字，包括：

可选地，所述根据所述样本语音内容对应的所有预测文字和所述真实文本信息，对所述初始目标语音识别模型进行调整，得到调整后的目标语音识别模型，包括：

可选地，所述对所述具有地域化语言风格的语音内容进行特征提取，得到所述语音内容对应的具有地域化语言风格的声学特征向量，包括：

对所述语音内容进行分帧处理；

对分帧处理后的语音内容进行预加重处理；

对预加重处理后的语音内容进行去除直流偏移处理；

对去除直流偏移处理后的语音内容进行加窗处理；

对加窗处理后的语音内容进行补零处理；

对补零处理后的语音内容进行快速傅里叶变换处理；

关于方法中的处理流程、以及交互流程的描述可以参照上述装置实施例中的相关说明，这里不再详述。

本申请实施例还提供了一种计算机设备60，如图6所示，为本申请实施例提供的计算机设备60结构示意图，包括：处理器61、存储器62、和总线63。所述存储器62存储有所述处理器61可执行的机器可读指令(比如，图1中的装置中获取模块11、特征提取模块12、转化模块13对应的执行指令等)，当计算机设备60运行时，所述处理器61与所述存储器62之间通过总线63通信，所述机器可读指令被所述处理器61执行时执行如下处理：

一种可能的实施方式中，处理器61执行的指令中，所述将所述具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型中，将所述语音内容转化为文本信息，包括：

一种可能的实施方式中，处理器61执行的指令中，所述将所述文本信息中的第i个文字对应的特征向量和所述具有地域化语言风格的声学特征向量输入到目标语音识别模型中，得到第i+1个文字，包括：

一种可能的实施方式中，处理器61执行的指令中，根据以下方法训练所述目标语音识别模型：

一种可能的实施方式中，处理器61执行的指令中，所述将所述样本语音内容对应的具有地域化语言风格的样本声学特征向量和对应的真实文本信息中的第j个文字输入到初始目标语音识别模型中，得到所述样本语音内容对应的第j+1个预测文字，包括：

一种可能的实施方式中，处理器61执行的指令中，所述根据所述样本语音内容对应的所有预测文字和所述真实文本信息，对所述初始目标语音识别模型进行调整，得到调整后的目标语音识别模型，包括：

一种可能的实施方式中，处理器61执行的指令中，所述对所述具有地域化语言风格的语音内容进行特征提取，得到所述语音内容对应的具有地域化语言风格的声学特征向量，包括：

对所述语音内容进行分帧处理；

对分帧处理后的语音内容进行预加重处理；

对预加重处理后的语音内容进行去除直流偏移处理；

对去除直流偏移处理后的语音内容进行加窗处理；

对加窗处理后的语音内容进行补零处理；

对补零处理后的语音内容进行快速傅里叶变换处理；

一种可能的实施方式中，处理器61执行的指令中，所述服务请求端对应的地域特征向量为基于所述服务请求端对应的服务请求方的地域属性信息生成的，所述服务提供端对应的地域特征向量为基于所述服务提供端对应的服务提供方的地域属性信息生成的。

一种可能的实施方式中，处理器61执行的指令中，所述具有地域化语言风格的样本声学特征向量是通过对具有地域化语言风格的样本语音内容进行特征提取得到的。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述语音识别方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述语音识别方法，从而解决现有技术中具有地域化语言风格的语音内容的识别准确度低的问题，本申请在获取模块获取到服务请求端和服务提供端之间的具有地域化语言风格的语音内容后，对具有地域化语言风格的语音内容进行特征提取，得到具有地域化语言风格的声学特征向量，将得到的具有地域化语言风格的声学特征向量输入到预先训练的目标语音识别模型，得到语音内容对应的文本信息。由于在对语音内容进行特征提取时，不仅考虑了语音内容的声学特征，也考虑了语音内容的地域性特征，因此，提取得到的具有地域化语言风格的声学特征向量不仅具有声学特征也具有地域化语言风格的特征，那么，将得到的具有地域化语言风格的声学特征向量输入到目标语音识别模型进行识别时，得到的文本信息的准确度更高。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别装置，其特征在于，该装置包括：

2.如权利要求1所述的语音识别装置，其特征在于，所述转化模块具体用于：

3.如权利要求1所述的语音识别装置，其特征在于，所述转化模块具体用于：

4.如权利要求1所述的语音识别装置，其特征在于，该装置还包括：训练模块，所述训练模块用于：

5.如权利要求4所述的语音识别装置，其特征在于，所述训练模块具体用于：

6.如权利要求4所述的语音识别装置，其特征在于，所述训练模块具体用于：

7.如权利要求1所述的语音识别装置，其特征在于，所述特征提取模块具体用于：

对所述语音内容进行分帧处理；

对分帧处理后的语音内容进行预加重处理；

对预加重处理后的语音内容进行去除直流偏移处理；

对去除直流偏移处理后的语音内容进行加窗处理；

对加窗处理后的语音内容进行补零处理；

对补零处理后的语音内容进行快速傅里叶变换处理；

8.如权利要求7所述的语音识别装置，其特征在于，所述服务请求端对应的地域特征向量为基于所述服务请求端对应的服务请求方的地域属性信息生成的，所述服务提供端对应的地域特征向量为基于所述服务提供端对应的服务提供方的地域属性信息生成的。

9.如权利要求4所述的语音识别装置，其特征在于，所述具有地域化语言风格的样本声学特征向量是通过对具有地域化语言风格的样本语音内容进行特征提取得到的。

10.一种语音识别方法，其特征在于，该方法包括：

11.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求10所述的语音识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求10所述的语音识别方法的步骤。