CN106782551A

CN106782551A - 一种语音识别系统及方法

Info

Publication number: CN106782551A
Application number: CN201611108045.6A
Authority: CN
Inventors: 王瑞宾; 单衍景
Original assignee: BEIJING HUAXIA DIANTONG TECHNOLOGY Co Ltd
Current assignee: BEIJING HUAXIA DENTSU TECHNOLOGY Co.,Ltd.
Priority date: 2016-12-06
Filing date: 2016-12-06
Publication date: 2017-05-31
Anticipated expiration: 2036-12-06
Also published as: CN106782551B

Abstract

本发明提供了一种语音识别系统及方法，系统包括：音频采集装置、应用客户端以及语音识别装置，所述音频采集装置，用于采集音频数据并向应用客户端发送激励码，所述激励码用于标识有声音输入的音频采集装置；所述应用客户端，用于根据所述的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份；所述语音识别装置，将所述的音频数据转换成文字内容，并根据确定的用户身份生成包含用户身份的语音识别结果。本发明实现精确区分声音流中讲话人的角色，从而实现识别结果分角色展现讲话内容，极大增强了识别输出文本的易读和可用性。

Description

一种语音识别系统及方法

技术领域

本发明涉及语音识别技术，具体的讲是一种语音识别系统及方法。

背景技术

现有技术中，语音识别应用有两类，一类是基于个人终端(手机、个人电脑等)通过调用设备音频采集功能，提交云端语音识别服务器完成识别，识别结果返回终端；另一类是基于企事业单位内部的应用，声音数据来源为专用音视频编码设备，企业专用识别服务器通过网络获取音视频编码设备的音频数据实现识别，识别结果输出给专用记录软件终端。

针对以上第二类应用，在所采集的声音数据为混音数据时，识别结果(即输出的文字内容)无法区分出说话人员的身份，导致识别文档的可读性差，可用性极低。如果采用每一个话筒单独编一路音频，以此来区分发言人身份的话，要增设专用设备，对现有硬件、布线等进行相应改造。

发明内容

为实现在完成语音识别生成文字的同时，对识别的文字内容区分讲话人角色，提高识别内容的可读性和可用性，本发明实施例提供了一种语音识别系统，系统包括：音频采集装置、应用客户端以及语音识别装置，其中，

所述音频采集装置，用于采集音频数据并向应用客户端发送激励码，所述激励码用于标识有声音输入的音频采集装置；

所述应用客户端，用于根据所述的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份；

所述语音识别装置，将所述的音频数据转换成文字内容，并根据确定的用户身份生成包含用户身份的语音识别结果。

本发明实施例中，应用客户端包括：

接收模块，用于接收所述的激励码；

存储模块，用于预存储用户身份与音频采集装置对应关系；

身份确定模块，用于根据接收到的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份；

发送模块，用于将确定的用户身份结果发送至所述语音识别装置。

本发明实施例中，客户端还包括：

任务发起模块，获取所述的音频采集装置的音频流地址，并通过所述发送模块将包含音频流地址的任务发起请求发送到所述语音识别装置。

本发明实施例中，语音识别装置包括：

接口模块，接收所述用户身份结果和任务发起请求；

拉流模块，用于根据所述任务发起请求建立音频流连接获取所述音频数据；

识别模块，用于将音频数据转换为文字内容；

结果生成模块，用于根据所述用户身份结果和文字内容生成包含用户身份的语音识别结果。

本发明实施例中，语音识别装置还包括：

时长确定模块，用于根据建立的音频流连接确定音频流时长。

本发明实施例中，应用客户端还包括：

切换时长确定模块，根据所述的音频流时长和对应该音频流后接收到的第一次激励码的时间确定声音输入时长。

本发明实施例中，所述的身份确定模块根据对应该音频流后接收到的第一次激励码确定用户身份；

所述的发送模块将确定的声音输入时长和确定的用户身份发送至所述语音识别装置。

本发明实施例中，语音识别装置包括：

切换时间确定模块，根据声音输入时长确定音频数据的切换时间。

本发明实施例中，所述的识别模块，根据确定的切换时间将该切换时间前的音频数据转换为文字内容。

同时，本发明还提供一种语音识别方法，利用上述的语音识别系统进行语音识别。

本发明基于音视频编码设备的语音激励机制，通过合理定义同一计时原点，实现精确区分声音流中讲话人的角色，从而实现识别结果分角色展现讲话内容，极大增强了识别输出文本的易读和可用性。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种语音识别系统的框图；

图2为本发明实施例公开的一种语音识别系统的框图；

图3为本发明实施方式的示意图；

图4为本发明实施方式中的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明旨在解决音视频编解码设备提供的混音数据流，在完成语音识别生成文字的同时，对识别内容区分出讲话人角色，提高识别内容的可读性和可用性。从而工作人员对庭审、会议等应用识别系统实现记录自动生成完整可用的记录文档。如图1所示，为本发明公开的一种语音识别系统的框图，该系统包括：音频采集装置101、应用客户端102以及语音识别装置103；

音频采集装置101，用于采集音频数据并向应用客户端发送激励码，所述激励码用于标识有声音输入的音频采集装置；

所述应用客户端102，用于根据激励码和预存储的用户身份与音频采集装置对应关系确定用户身份；

所述语音识别装置103，将所述的音频数据转换成文字内容，并根据确定的用户身份生成包含用户身份的语音识别结果。

如图2所示，本发明实施例中的应用客户端102包括：

接收模块1021，用于接收所述的激励码；

存储模块1022，用于预存储用户身份与音频采集装置对应关系；

身份确定模块1023，用于根据接收到的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份；

发送模块1024，用于将确定的用户身份结果发送至所述语音识别装置。

本发明实施例中，应用客户端还包括：

任务发起模块1025，获取所述的音频采集装置的音频流地址，并通过所述发送模块1024将包含音频流地址的任务发起请求发送到语音识别装置。

本发明实施例中，语音识别装置103包括：

接口模块1031，接收所述用户身份结果和任务发起请求；

拉流模块1032，用于根据所述任务发起请求建立音频流连接获取所述音频数据；

识别模块1033，用于将音频数据转换为文字内容；

结果生成模块1034，用于根据所述用户身份结果和文字内容生成包含用户身份的语音识别结果。

本发明实施例中，语音识别装置103还包括：

时长确定模块1035，用于根据建立的音频流连接确定音频流时长。

本发明实施例中，应用客户端102还包括：

切换时长确定模块1026，根据所述的音频流时长和对应该音频流后接收到的第一次激励码的时间确定声音输入时长。

本发明实施例中，身份确定模块1023根据对应该音频流后接收到的第一次激励码确定用户身份；发送模块1024将确定的声音输入时长和确定的用户身份发送至所述语音识别装置。

本发明实施例中，语音识别装置1031包括：

切换时间确定模块1036，根据声音输入时长确定音频数据的切换时间。识别模块，根据确定的切换时间将该切换时间前的音频数据转换为文字内容。

本发明实施例中，可采用音视频编解码设备作为音频采集装置，本发明实施例中，音视频编解码设备上，通过音频板卡接入多路话筒，每个话筒有声音输入时会生成一个激励码(即标识哪个话筒开始有声音输入)，并通过网络将激励码发给业务应用客户端，应用客户端转译为身份识别码后转发给语音识别装置，语音识别装置根据收到不同的身份识别码，将识别结果增加身份标识并发送给应用客户端，应用客户端将身份码转换为实际名称(人名或角色名)输出到最终文档记录中。如图3所示，为本发明实施方式的示意图。

1、声音数据由音视频采集设备配套话筒完成音视频数据，编码后生成实时音频流及对应流地址。

2、应用客户端，本发明实施例通过应用客户端实现对话筒和对应角色名称进行配置，并控制识别开始、结束和转发语音激励码等功能，同时识别结果的显示以及最终文件的保存都是该客户端完成。

3、本发明实施例中的识别后台服务由识别服务器和文字转发服务器两部分组成，识别服务器通过拉取客户端提供的音频流，识别转换成文字内容，发送文字转发服务器，文字转发服务器负责将文字发送应用客户端显示使用。

本发明实施例在实施过程中，语音和激励码几乎是即时发送，识别服务器能够实时收到激励码，但识别服务器接收到的音频数据中途需要进行编码处理，从而存在一定的延迟，且相对于识别服务器接收到的语音激励码时间的延迟不是一个固定值，同时识别服务器获取流之后，再提交识别服务器的识别引擎也需要时间，从而直接根据绝对时间插入到识别内容中，存在明显误差，识别结果会把前一个人说话的后半部分内容截取到后一个人的内容之中，对此本发明实施例中，以业务驱动为轴设定一个相对起始时间，实现步骤如下：

1、应用客户端发起识别任务，同时发送音频流地址(音频流地址来源于音频采集设备)给到识别服务器。

2、识别服务器接到识别任务请求之后，接口服务器通过识别服务器的拉流专用应用服务，使用上一步获取到的音频流地址，建立识别服务器与音频采集装置的音频编码器的连接，从而获取声音数据。

3、音频流链接建立成功后，识别服务器发送识别任务创建成功的消息给到应用客户端。

4、识别服务器第一次发送识别结果给到应用客户端，并同步发送本次识别内容对应音频流时常(t)。此时应用客户端接收到识别服务器第一次返回的识别结果时间设定为计时原点(T0)。本发明实施例中，在第一次收到识别结果之前，应用客户端收到设备语音激励码时不予处理。

5、在计时原点(T0)之后，下一次收到语音激励码时点(T1)，应用客户端计算该时点与计时原点的时间长度以及第一次未计时识别音频留时长之和(t1＝T1-T0+t)与身份标识码(假设此时讲话人身份为A)同步发送识别服务器。识别服务器收到的根据从客户端获取的时间信息，得出声音切换在音频流中时间点Ta1，如图4所示。

6、以此类推，识别服务器能够准确获取语音激励第二次切换时点Ta2，第三次切换时点Ta3……Tan。

这样通过上述方法，消除了由于音频流、协议信息通过网络传输而产生的时间差，实现识别应用客户端、识别服务器以及编解码设备之间，对同一事件(语音激励)的准确定位，区分出发言人身份；

本文主要给出了，在识别服务器只能拉到混音声音数据时，基于音视频编码设备的语音激励机制，通过合理定义同一计时原点，实现精确区分声音流中讲话人的角色，从而实现识别结果分角色展现讲话内容，极大增强了识别输出文本的易读和可用性。

同时，本发明还公开一种利用前述的语音识别系统进行语音识别的方法，其解决问题的原理与上述方法的实现相似，不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音识别系统，其特征在于，所述的系统包括：音频采集装置、应用客户端以及语音识别装置，其中，

2.如权利要求1所述的语音识别系统，其特征在于，所述的应用客户端包括：

接收模块，用于接收所述的激励码；

存储模块，用于预存储用户身份与音频采集装置对应关系；

3.如权利要求2所述的语音识别系统，其特征在于，所述的应用客户端还包括：

4.如权利要求3所述的语音识别系统，其特征在于，所述的语音识别装置包括：

接口模块，接收所述用户身份结果和任务发起请求；

识别模块，用于将音频数据转换为文字内容；

5.如权利要求4所述的语音识别系统，其特征在于，所述的语音识别装置还包括：

6.如权利要求5所述的语音识别系统，其特征在于，所述的应用客户端还包括：

7.如权利要求6所述的语音识别系统，其特征在于，

所述的身份确定模块根据对应该音频流后接收到的第一次激励码确定用户身份；

8.如权利要求7所述的语音识别系统，其特征在于，所述的语音识别装置包括：

9.如权利要求8所述的语音识别系统，其特征在于，

所述的识别模块，根据确定的切换时间将该切换时间前的音频数据转换为文字内容。

10.一种语音识别方法，其特征在于，所述的方法利用权利要求1-9所述的语音识别系统进行语音识别。