CN110246501B

CN110246501B - 用于会议记录的语音识别方法及系统

Info

Publication number: CN110246501B
Application number: CN201910588592.6A
Authority: CN
Inventors: 张计锋; 张蓓蓓
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2022-02-01
Anticipated expiration: 2039-07-02
Also published as: CN110246501A

Abstract

本发明实施例提供一种用于会议记录的语音识别方法。该方法包括：接收控制端发送的激活指令，根据账户ID向第一平台开通云端转写服务权限；在激活成功后，接收到会议开始的指令时，当网络状态没有达到预设网络标准时，进行离线采集，存储至搭载的存储器；响应于收到会议结束的指令停止采集，当网络状态符合预设网络标准时，将会议音频推送至第一平台；接收反馈的会议记录文本，转发至第二平台的推送服务进行多端协作推送，通过多端协作将会议记录文本发送到登陆账户ID的电子设备中。本发明实施例还提供一种用于会议记录的语音识别系统。本发明实施例将声音采集和识别剥离开发，避免所连接的网络出现问题时，无法完成识别记录以及断档丢失的问题。

Description

用于会议记录的语音识别方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种用于会议记录的语音识别方法及系统。

背景技术

为了保证会议中的每一项内容都能够被完整的记录下来，通常会在开会过程中使用会议记录装置，来对会议的内容进行录制。目前在实时会议记录方面，主要采用长语音和改写技术，通过硬件的拾音设备，对多人开会中的语音进行记录。总的来说主要由拾音设备、云端识别服务、结果转写服务和文字编辑系统组成。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

目前的智能会议记录系统，除了依赖专属的智能硬件外，还需要依赖网络能力。识别准确率需要耗费大量的资源，而离线的方式不利于识别准确率的提升，如果要满足离线的识别率，那么对硬件的要求会大大提升，这也导致硬件规模和价格的大大提升；而语音内容记录，特别是会议内容的记录需要较高的准确率，离线的方式不能更好的提升识别率。这就限制了会议记录需要在专属的场所和网络环境下才能进行，但是很多移动场景下例如：微信群聊开会、或者采编记录等都不一定能在专属场所和网络环境下发生，这就限制了智能会议系统在实时记录内容方面的特性发展，导致整个行业，用户痛点需求没能更好得到满足，导致智能会议系统未能有效的推广，进而还影响到智能会议系统的开发、商用和发展。

发明内容

为了至少解决现有技术中的会议记录依赖专属的智能硬件外，还依赖网络能力，而在部分场景下，会议不一定能够在专属场所和特定的网络环境开会，而导致的无法完成识别和记录或识别和记录中出现断档丢失的问题。

第一方面，本发明实施例提供一种用于会议记录的语音识别方法，包括：

接收控制端发送的激活指令，根据所述激活指令中的账户ID向第一平台开通云端转写服务权限，响应于所述云端转写服务的授权，激活成功；

在所述录音设备激活成功后，接收到会议开始的指令时，检测所述录音设备当前连接网络的网络状态，当所述网络状态没有达到预设网络标准时，对所述会议音频进行离线采集，将所采集的会议音频存储至搭载的存储器中；

响应于收到会议结束的指令，停止采集，当网络状态跳转到的网络符合所述预设网络标准时，将所述会议音频推送至所述第一平台；

接收所述第一平台的云端转写服务反馈的会议记录文本，将所述会议记录文本转发至第二平台的推送服务进行多端协作推送，通过所述多端协作将所述会议记录文本发送到至少一台登陆所述账户ID的电子设备中。

第二方面，本发明实施例提供一种用于会议记录的语音识别系统，包括：

激活程序模块，用于接收控制端发送的激活指令，根据所述激活指令中的账户ID向第一平台开通云端转写服务权限，响应于所述云端转写服务的授权，激活成功；

采集程序模块，用于在所述录音设备激活成功后，接收到会议开始的指令时，检测所述录音设备当前连接网络的网络状态，当所述网络状态没有达到预设网络标准时，对所述会议音频进行离线采集，将所采集的会议音频存储至搭载的存储器中；

音频推送程序模块，用于响应于收到会议结束的指令，停止采集，当网络状态跳转到的网络符合所述预设网络标准时，将所述会议音频推送至所述第一平台；

记录文本发送程序模块，用于接收所述第一平台的云端转写服务反馈的会议记录文本，将所述会议记录文本转发至第二平台的推送服务进行多端协作推送，通过所述多端协作将所述会议记录文本发送到至少一台登陆所述账户ID的电子设备中。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于会议记录的语音识别方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于会议记录的语音识别方法的步骤。

本发明实施例的有益效果在于：将声音采集和识别剥离开发，而不是采集了音频就立刻进行云端识别推送，这样避免了由于网络不佳或者当前录音设备没有可以连接的专属的网络而导致的无法完成识别记录或断档丢失的问题；通过添加存储模块，保证有足够的空间进行离线采集；检测网络状态，将离线采集的会议音频尽快的推送到云端识别服务进行识别，尽可能的保证识别的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于会议记录的语音识别方法的流程图；

图2是本发明一实施例提供的一种用于会议记录的语音识别系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于会议记录的语音识别方法的流程图，包括如下步骤：

S11：接收控制端发送的激活指令，根据所述激活指令中的账户ID向第一平台开通云端转写服务权限，响应于所述云端转写服务的授权，激活成功；

S12：在所述录音设备激活成功后，接收到会议开始的指令时，检测所述录音设备当前连接网络的网络状态，当所述网络状态没有达到预设网络标准时，对所述会议音频进行离线采集，将所采集的会议音频存储至搭载的存储器中；

S13：响应于收到会议结束的指令，停止采集，当网络状态跳转到的网络符合所述预设网络标准时，将所述会议音频推送至所述第一平台；

S14：接收所述第一平台的云端转写服务反馈的会议记录文本，将所述会议记录文本转发至第二平台的推送服务进行多端协作推送，通过所述多端协作将所述会议记录文本发送到至少一台登陆所述账户ID的电子设备中。

在本实施方式中，现阶段不认为移动场景或离线场景下的会议的语音识别是目前的主流需求，但是在实际的落地场景下，访谈采编、非正式访谈也是会议沟通记录的领域，针对这个领域目前大家主要是通过移动App方式来实现，但移动App的方式则在拾音方面由存在单麦克风硬件的限制、在移动网络方面也存在链接不稳定的缺陷。

而把声音采集和实时识别分成两部分，前期重点在采集，等到整理时则通过稳定网络方式来实现的设计思路，在具体实践中才能发现，目前智能会议系统的开发人员更专注技术的提升，而实际需要会议记录的人又缺少对智能会议系统中技术的理解，这也间接导致本方案在现在才被提出。

对于步骤S11，由于最终的识别还是由云端转写服务来处理，所以需要对搭载本方法的录音设备进行激活，使其能够调用或申请云端的识别转写服务。会议管理员通过控制终端(例如手机、遥控器等)向搭载本方法的录音设备发送激活指令，激活指令中承载着可以调用第一平台的云端转写服务权限的账户ID，录音设备拿到账户ID后，向第一平台开通云端转写服务，响应于云端转写服务的授权，录音设备激活成功，这样录音设备就可以随时调用第一平台的云端转写服务。

对于步骤S12，在步骤S11中的录音设备激活成功后，接收到会议管理员通过控制终端发送的会议开始指令时，首先检测自身当前连接网络的网络状态，例如，可以检测当前的网络带宽，或者网速，如果网络带宽或者网速没有达到预设网络标准时，在传输过程中可能会出现延迟、丢失断档等问题。为了避免在线实时采集可能会出现的这种情况，使用离线采集，离线采集后再统一识别转写，进而实现了对云端在线实时识别的补充。针对离线情况下，仍然可以完成声音的采集。将采集后的音频存储在录音设备中新增加的存储模块，有了更大的存储空间，也就可以存储更多的会议音频。

对于步骤S13，在响应于会议管理员通过控制终端发送的会议结束指令时，录音设备不再进行音频采集。当该录音设备随着管理员的携带，进入到了另一个环境，也就可以连接其他网络。当切换其他网络的网络状态符合预设的网络标准时，将在步骤S12中所采集存储的音频一并推送至第一平台进行云端转写。

对于步骤S14，接收所述已经授权的第一平台通过云端转写服务反馈的会议记录文本，将所述会议记录文本转发至第二平台的推送服务进行多端协作推送。其中，第一平台和第二平台可能不是同一个平台。例如，第一平台是专门负责提供语音功能的思必驰语音对话平台。而第二平台为其他公司的功能平台。这样，将转写后的会议记录文本反馈给录音设备而不是直接发送给其他平台，虽然多了一步传输过程，但是使得本方法可以兼容其他平台共同使用。之后通过第二平台的多端协作推送，将会议记录文本发送到至少一台登陆过账户ID的电子设备中。例如，会议管理员在电脑和手机中都登陆的该账户ID，那么在多端协作中，会将会议记录发送给登陆账户ID的电脑和手机，这样会议管理员就获得了会议记录文本。

通过该实施方式可以看出，将声音采集和识别剥离开发，而不是采集了音频就立刻进行云端识别推送，这样避免了由于网络不佳或者当前录音设备没有可以连接的专属的网络而导致的无法完成识别记录或断档丢失的问题；通过添加存储模块，保证有足够的空间进行离线采集；检测网络状态，将离线采集的会议音频尽快的推送到云端识别服务进行识别，尽可能的保证识别的效率。

作为一种实施方式，在本实施例中，所述当网络状态跳转到的网络符合所述预设网络标准时，所述方法还包括：

向所述控制终端发送是否进行转写的请求，

-当所述控制终端反馈转写指令时，将所述会议音频推送至所述第一平台；

-当所述控制终端反馈延时转写指令时，在所延时间后，将所述会议音频推送至所述第一平台。

在本实施方式中，考虑到会议管理员需要使用到当前的网络，例如，在临时会议开完后，需要去特定的会议室开视频会议。在特定的会议室中，网络状态是符合预设网络的标准的。但是，由于会议管理员还需要视频会议，并且在会议中需要良好的网络状态。这时，会议管理员并不希望录音设备此时就将录制的音频发送到第一平台，因为这样会占用会议管理员此时正使用的网络。所以，在网络状态跳转到的网络符合所述预设网络标准时，先向所述控制终端发送是否进行转写的请求。征得了会议管理员的同意后，再向第一平台推送。

通过该实施方式可以看出，在网络符合预设标准时，经会议管理员的批准后再进行推送，可以保证在推送过程中，不影响会议管理员的网络使用，提高用户体验。

作为一种实施方式，在本实施例中，在所述接收所述第一平台的云端转写服务反馈的会议记录文本之后，所述方法还包括：

存储所述第一平台的云端转写服务反馈的会议记录文本，将所述会议记录文本与所采集的会议音频相关联。

在本实施方式中，在录音设备接收到第一平台的云端转写服务反馈的会议记录文本之后，将会议记录文本也存储起来同时，并将会议记录文本与所采集的会议音频相关联。

通过该实施方式可以看出，通过将会议记录文本与会议音频相关联进行一并存储，便于在日后的查询，如果日后需要查询会议中的某一句话，单单查询音频的话费时费力，但是配合相对应的文本之后，所查询的效率大大提升。进一步提高了用户的体验。

作为一种实施方式，所述录音设备定期清理所述存储器内的历史会议音频和/或当存储器内的剩余空间少于预设阈值时，清理所述存储器内的部分历史会议音频。

进一步地，所述清理所述存储器内的部分历史会议音频包括：

检测所述各历史会议音频的调用次数，优先清理调用次数低的历史会议音频；或

检测所述各历史会议音频的存储时间的先后，优先清理存储时间在先的历史会议音频。

在本实施方式中，随着会议的不断录制，存储空间的占用越来越大，对于一些过于老旧的会议音频就需要及时清理，以腾出空间来存储新的会议音频，通过定期自检，或者是当存储空间已经占用到一定比例时，进行自清理。

在清理中，也会按照一定的顺序进行清理，例如，按照会议音频被查询的次数，次数越多，说明会议的信息量充足，可能日后还会被查询，所以清理一些调用次数低的历史会议音频。或者按照存储时间来进行先后清理，将先存储的一些过于老旧的会议音频进行清理。

通过该实施方式可以看出，有条理的清理老旧的会议音频为会议管理员的使用能够保证有足够的空间来录制新的会议音频，保证会议管理员的使用，进一步提升用户的体验。

作为一种实施方式，所述接收到会议开始的指令时，检测所述录音设备当前连接网络的网络状态包括：

当所述网络状态达到预设网络标准时，对所述会议音频进行实时在线采集，将采集的会议音频推送至所述第一平台，接收所述第一平台的云端转写服务反馈的会议记录文本。

进一步地，在对所述会议音频进行实时在线采集过程中，网络状态跳转到的不符合所述预设网络标准时，所述方法包括：

实时将所述会议音频存储至所述识别设备搭载的存储器中，以避免由于网络跳转而导致的会议记录丢失。

在本实施方式中，网络状态良好时，进行实时在线采集，如果在实时在线采集的过程中，由于网络波动或者其他情况至使网络状态不足以达到预设网络的标准时，实时将所述会议音频存储至所述识别设备搭载的存储器中，以避免由于网络跳转而导致的会议记录丢失。

通过该实施方式可以看出，在网络状态良好时，保证会议可以进行实时采集。当网络状态出现变化时，至使网络状态低于预设网络标准时，改为离线会议记录采集，保证了网络波动不会影响会议记录，作为云端在线的完美补充，进一步提高了用户体验。

如图2所示为本发明一实施例提供的一种用于会议记录的语音识别系统的结构示意图，该系统可执行上述任意实施例所述的用于会议记录的语音识别方法，并配置在终端中。

本实施例提供的一种用于会议记录的语音识别系统包括：激活程序模块11，采集程序模块12，音频推送程序模块13和记录文本发送程序模块14。

其中，激活程序模块11用于接收控制端发送的激活指令，根据所述激活指令中的账户ID向第一平台开通云端转写服务权限，响应于所述云端转写服务的授权，激活成功；采集程序模块12用于在所述录音设备激活成功后，接收到会议开始的指令时，检测所述录音设备当前连接网络的网络状态，当所述网络状态没有达到预设网络标准时，对所述会议音频进行离线采集，将所采集的会议音频存储至搭载的存储器中；音频推送程序模块13用于响应于收到会议结束的指令，停止采集，当网络状态跳转到的网络符合所述预设网络标准时，将所述会议音频推送至所述第一平台；记录文本发送程序模块14用于接收所述第一平台的云端转写服务反馈的会议记录文本，将所述会议记录文本转发至第二平台的推送服务进行多端协作推送，通过所述多端协作将所述会议记录文本发送到至少一台登陆所述账户ID的电子设备中。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于会议记录的语音识别方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于会议记录的语音识别方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于会议记录的语音识别方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音录制功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于会议记录的语音识别方法，应用于录音设备，包括：

在所述录音设备激活成功后，接收到会议开始的指令时，检测所述录音设备当前连接网络的网络状态，当所述网络状态没有达到预设网络标准时，对会议音频进行离线采集，将所采集的会议音频存储至搭载的存储器中；

响应于收到会议结束的指令，停止采集，当网络状态跳转到的网络符合所述预设网络标准时，向所述控制端发送是否进行转写的请求；

当所述控制端反馈转写指令时，将所述会议音频推送至所述第一平台；

2.根据权利要求1所述的方法，其中，在所述向所述控制端发送是否进行转写的请求之后，所述方法还包括：

当所述控制端反馈延时转写指令时，在所延时间后，将所述会议音频推送至所述第一平台。

3.根据权利要求1所述的方法，其中，在所述接收所述第一平台的云端转写服务反馈的会议记录文本之后，所述方法还包括：

4.根据权利要求1所述的方法，其中，所述方法还包括：所述录音设备定期清理所述存储器内的历史会议音频和/或当存储器内的剩余空间少于预设阈值时，清理所述存储器内的部分历史会议音频。

5.根据权利要求4所述的方法，其中，所述清理所述存储器内的部分历史会议音频包括：

6.根据权利要求1所述的方法，其中，所述接收到会议开始的指令时，检测所述录音设备当前连接网络的网络状态包括：

7.根据权利要求6所述的方法，其中，在对所述会议音频进行实时在线采集过程中，网络状态跳转到的不符合所述预设网络标准时，所述方法包括：

实时将所述会议音频存储至识别设备搭载的存储器中，以避免由于网络跳转而导致的会议记录丢失。

8.一种用于会议记录的语音识别系统，应用于录音设备，包括：

采集程序模块，用于在所述录音设备激活成功后，接收到会议开始的指令时，检测所述录音设备当前连接网络的网络状态，当所述网络状态没有达到预设网络标准时，对会议音频进行离线采集，将所采集的会议音频存储至搭载的存储器中；

音频推送程序模块，用于响应于收到会议结束的指令，停止采集，当网络状态跳转到的网络符合所述预设网络标准时，向所述控制端发送是否进行转写的请求；

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。