CN105429851A

CN105429851A - 一种基于即时通信的多人协同录音系统及识别方法

Info

Publication number: CN105429851A
Application number: CN201510761883.2A
Authority: CN
Inventors: 冯钧; 张立霞; 王冲; 孔胜球; 王臻; 张进; 徐维纲; 陆佳民; 刘艺; 袁艳纯; 徐欢; 朱跃龙; 李士进; 万定生
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2015-11-10
Filing date: 2015-11-10
Publication date: 2016-03-23
Anticipated expiration: 2035-11-10
Also published as: CN105429851B

Abstract

本发明公开一种基于即时通信的多人协同录音系统及识别方法。系统包括如下模块：协同录音模块，用于协同录音过程，包括房间创建、添加成员、会话开启以及将语音识别成会议记录并实现邮件分享；消息处理模块，用于对系统产生的实时消息进行处理。方法采用即时通讯技术实现不同客户端的实时通信，通过同步上传方法将语音并行上传减少传输的网络延时，利用讯飞语音识别器支持多种语言的语音识别，基于异步识别方法对不同语音分时识别，根据给定格式将语音识别结果整理成会议记录。本发明对传统的录音功能进行了扩展，能够实现非面对面的多人协同录音，同时采用即时通信和语音降噪等技术提高了协同录音的语音识别速度和正确率。

Description

一种基于即时通信的多人协同录音系统及识别方法

技术领域

本发明涉及一种基于即时通信的多人协同录音系统及识别方法，属于智能语音识别技术领域。

背景技术

在公司会议、小组讨论等场景中，都需要专人对发言内容进行记录，随着人们对及时语音记录的迫切需要，手机记录软件应运而生。传统的手机录音软件分为两大类：手机自带的录音软件和以科大讯飞录音宝为代表的智能录音软件。两类软件都能支持基本的录音功能，录音宝更是加入了语音识别功能，但是对于多人协同录音及其语音识别方面，上述两类软件都没有体现，更不能支持多语言协同录音和快速语音识别，这就限制了因地域问题所造成的会议或讨论的进行，间接制约了团体或公司的决策与发展。

如何能够实现快速、高效、即时的多人协同录音并能将语音识别为会议记录，必将给公司或团体带来管理和运营上的便利。目前市场上还没有一款同时支持上述功能的手机软件，多人语音以聊天为目的语音识别内容松散，不支持将语音识别为文本记录的功能，限制了多人协同会议的录音形成会议文本记录，直接制约了公司等团体的实时决策制定。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于即时通信的多人协同录音系统及识别方法，支持多人跨地域协同录音并快速、高效、实时地将录音识别成会议记录。

本发明的思路是：利用即时通信技术实现不同手机客户端之间的语音通信，采用同步上传方法将语音并行上传到语音识别服务器和系统服务器，分别用于语音识别与存储，以讯飞语音识别引擎作为语音识别器，支持中英两种语言的识别，将语音通过异步识别方法快速、高效地识别为文本，并由系统服务器整理成会议记录，调用手机邮件发送功能，自动查找用户信息库获取会议成员邮箱发送邮件分享会议记录。

技术方案：一种基于即时通信的多人协同录音系统，包括如下模块：注册登录与文件管理模块，用于新用户注册并登录系统，以及登陆后管理个人录音文件；好友管理模块，用于好友添加和解除好友关系；协同录音模块，用于进行多人协同录音、将录音识别为文本以及实现文本的邮件分享；消息处理模块，用于用户处理系统产生的请求和提示消息。

所述注册登录与文件管理模块，包括用户注册单元、用户登录单元和文件管理单元；其中用户注册单元，用于用户通过邮箱注册该系统，并将注册信息存入用户信息库；用户登录单元，用于用户通过邮箱和注册密码登录系统；文件管理单元，通过语音文件库对产生的所有协同录音文件进行管理；

所述好友管理模块，基于好友关系库，对好友信息进行操作，包括好友添加单元和解除好友关系单元；其中好友添加单元，用于查找好友信息并添加好友，对方收到请求并同意完成加友；解除好友关系单元，用于解除双方的好友关系；

所述多人协同录音模块，包括创建房间单元、开启会话单元、同步语音上传单元、多语言异步识别单元和邮件分享单元；其中创建房间单元，用于创建协同录音的房间，并添加在线好友作为房间成员；开启会话单元，用于管理员开启一次协同录音并邀请其他成员加入；同步语音上传单元，用于将每位用户的语音并行进行语音识别与语音存储，语音文件存储在语音文件库中；所述多语言异步识别单元，用于根据语言引擎将语音交由不同的识别引擎识别，并分时上传一次会话的多条语音；所述邮件分享单元，用于通过邮件分享协同录音的文本；

所述消息处理模块，用于对系统和用户之间请求消息的处理，用户存在一个消息列表，其中包括三类消息：好友添加请求、加入房间提示和进入会话邀请。其中好友添加请求在添加好友时由系统生成并采用即时通讯服务进行实时推送；加入房间提示在管理员创建房间时由系统产生，推送给房间其他成员；进入会话邀请在管理员开启一次会话时产生，推送给其他会话成员。

一种基于即时通信的多人协同录音识别方法，包含如下步骤：

S-1：创建房间(房间是协同录音的场所，房间的创建者作为房间管理员，可添加成员)，并选择在线好友加入房间；

S-2：开启一次会话，会话成员等待录音令牌(用户点击录音按钮，系统根据抢占时间先后分发录音令牌，同一时间只允许一个用户占据令牌录音)，会话成员获取录音令牌后进行录音，一人在录音时其他人无法录音，具体包括如下步骤：

步骤S-2-1：房间管理员发起一次会话；

步骤S-2-2：即时通信服务器查询房间信息库，获取房间成员并向所有成员发送即时会话邀请；

步骤S-2-3：房间成员收到会话邀请，选择“接受”，则转向步骤S-4-4，选择“拒绝”，则该成员拒绝加入本次会话，无法进入协同录音；

步骤S-2-4：成员加入会话，同时可选择语音识别引擎；

步骤S-2-5：判断是否有成员在录音，若有，等待其他用户交出令牌，否则，转向步骤S-2-6；

步骤S-2-6：调用手机的麦克风设备，采集当前用户语音并记录用户名等信息，采集完成交出令牌。

S-3：采用同步语音上传方法，将语音同步并行上传至语音识别服务器和语音文本库，分别用于语音识别与存储，具体包括如下步骤：

步骤S-3-1：判断会话是否终止，若未终止，将录制语音同时上传到语音识别服务器和语音文件库，否则，会话结束；

步骤S-3-2：判断当前用户选择的语音识别引擎，若为中文，则转向步骤S-3-3，若为英文，转向步骤S-3-4；

步骤S-3-3：将语音提交至讯飞中文识别引擎，并将中文识别结果返回至系统服务器，转向步骤S-3-5；

步骤S-3-4：将语音提交至讯飞英文识别引擎，并将英文识别结果返回至系统服务器，转向步骤S-3-5；

步骤S-3-5：获取当前用户名称，以及语音识别结果作为一条发言记录，并将记录存储至系统服务器，转向步骤S-3-1。

S-4：采用多语言异步识别方法，当一条语音被提交后，立刻交由服务器端进行语音识别，不同语音分时识别，具体包括如下步骤：

步骤S-4-1：收到结束本次会话命令，系统清退该房间中非管理员成员，结束非管理员成员的会话；

步骤S-4-2：系统服务器整理文本记录，并根据语音上传顺序将记录组织成会议文本；

步骤S-4-3：获取系统日期和房间管理人名称，分别作为会议时间和会议主持人；

步骤S-4-4：编辑修改会议文本，形成最终会议记录。

S-5：系统服务器将语音识别结果组织成会议记录返回给房间管理员；

S-6：调用手机邮件发送接口，管理员通过邮件发送给共同录制声音的其他成员。

本发明采用上述技术方案，具有以下有益效果：基于即时通信实现一次协同录音中实时通信，采用同步上传方法实现音频的语音识别与存储的并行执行，通过异步识别方法减少了语音识别等待时间。通过上述技术方案，解决了因地域问题所带来的会议或讨论不便，同时同步上传异步识别方法有效提高了协同录音中语音识别效率。

附图说明

图1为本发明实施例的基于即时通信的多人协同录音系统功能模块图；

图2为本发明实施例的即时通信网络拓扑图；

图3为本发明实施例的基于即时通信的多人协同录音识别方法的流程图；

图4为本发明实施例的协同录音识别处理算法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于即时通信的多人协同录音系统，包括注册登录与文件管理模块、好友管理模块、协同录音模块和消息处理模块。

注册登录与文件管理模块，包括用户注册单元、用户登录单元和文件管理单元。其中用户注册单元，用户通过邮箱进行注册。为了防止脏数据进入系统，系统启用了两重安全性防护措施：邮箱格式验证和邮箱验证码验证。邮箱验证码是随机函数产生的6位随机数，系统通过中转邮箱向注册邮箱发送验证码，验证码的有效验证时间为60秒，若60内未填写正确的验证码，则验证码失效用户需重新获取验证码。只有在规定的时间内提供正确的验证码方可填写用户姓名、密码并获取头像完成注册。获取头像通过调用手机本地图库或摄像头采集，并支持图像裁剪。

完成注册后，用户通过邮箱和密码登录系统，系统支持记住密码功能，第一次成功登陆后，再次登录无须填写邮箱和密码。用户登陆成功后可进行文件管理、协同录音、好友管理和消息处理功能的操作。其中文件管理中的文件是用户作为房间管理员所产生的记录文件，包括音频文件和文本文件。用户可以对文本文件进行编辑并能够通过邮件发送给共同录制语音的其他房间成员。

好友管理模块，包括好友添加单元和解除好友关系单元。每位好友具有两种状态：在线和离线。只有与房间创建者互为好友关系并且处于在线状态的好友，才能作为候选成员被加入房间；好友添加单元的具体流程如算法1。解除好友关系单元用于解除好友关系，一方解除好友关系则双方解除好友关系。

算法1好友添加处理流程

协同录音模块是系统的主功能模块，包括创建房间单元、开启会话单元、同步语音上传单元、多语言异步识别单元和邮件分享单元。其中房间指包含多个成员的会话场所，每个房间有一个管理员，管理员通过创建房间单元创建房间发起会话，该管理员能够发起或终止会话，并由管理员将语音交给系统将会话语音识别成文本，并利用邮件分享单元将文本通过邮件发送给房间其他成员。系统采用会话和房间分离的方式，房间创建后可进行多次会话，而一次会话一旦被终止表示本次会话结束，将生成一次会议语音及会议记录。邮件分享单元只对房间管理员开放，系统调用邮件发送接口并自动填写邮箱信息，此外，管理员可以对邮件进行编辑。

其中同步语音上传单元将一条语音同步上传到科大讯飞的语音识别服务器和语音文件库，分别用于语音识别和语音存储。语音文件库中的语音可以被会话中的其他成员播放收听。多语言异步识别单元，在系统后台将会话中不同成员和不同时间的录音内容分时进行语音识别，该单元能够有效降低语音识别等待时间。

消息处理模块用于处理系统推送消息，包括对三种类型消息的处理：好友添加请求、加入房间提示和进入会话邀请。每种消息对应的操作见表1，由于系统采用了即时通信技术，因此能够实现消息的实时反馈。

表1消息类型与操作

例如，系统用户：张清，王婷，Jason，卫子夫，周志勇，五人都已注册并登陆该系统，其中，张清与其他4人为好友关系。

基于即时通信的多人协同录音识别方法按如下步骤进行实施：

S-1：张清创建一个房间(房间是协同录音的场所，房间的创建者作为房间管理员，可添加成员)，并选择在线好友加入房间。

协同录音与群组聊天的不同之处在于：群组聊天没有时间限制的，聊天时间无时限，而协同录音如同会议过程，需要在有限的时间内将语音内容进行识别与整理，因此确保房间成员在线表示成员已经准备好开始协同录音过程。此时，王婷，Jason，卫子夫三人处于在线状态，而周志勇处于离线状态，因此在选择好友时，只会出现王婷，Jason，卫子夫等在线好友组成的列表，张清选择王婷，Jason，卫子夫创建一个名为“20151004”的房间，该房间有4人，其中张清为管理员，其他三人为成员，同时系统通过即时通信向其他三人发送加入房间消息提示。

S-2：开启一次会话，会话成员获取录音令牌进行录音，一人在录音时其他人无法录音，具体包括如下步骤：

步骤S-2-1：房间管理员张清发起一次会话邀请；

步骤S-2-2：即时通信服务器查询房间信息库，获取房间其他成员并向所有成员发送即时会话邀请，此时，王婷，Jason，卫子夫都将受到会话邀请消息。

步骤S-2-3：房间成员收到会话邀请，选择“接受”，则转向步骤S-2-4，选择“拒绝”，则该成员拒绝加入本次会话，无法进入协同录音。王婷和Jason接受会话邀请，进入会话模式；卫子夫拒绝了会话邀请，将无法进入会话模式。

步骤S-2-4：张清、王婷和Jason加入会话，三人可选择语音识别引擎，有中文和英文两种选择；

步骤S-2-5：管理员张清发起开始会话指令，此时所有成员可以抢夺令牌；

步骤S-2-6：判断是否有成员在录音，若有，等待其他用户交出令牌，否则，转向步骤S-2-7；

步骤S-2-7：系统调用手机的麦克风设备，采集当前用户的语音并记录用户名等信息，采集完成交出令牌。

协同录音采用令牌策略，持有令牌的人具有录音权限，其他会话成员不能录音，该策略避免了当多个人同时进行录音时造成的录音冲突问题。

S-3：采用同步上传方法，将语音并行上传至语音识别服务器和系统服务器，分别进行语音识别与存储，具体包括如下步骤：

步骤S-3-1：判断会话是否终止，若未终止，将录制语音同步上传到语音识别服务器和系统服务器，否则，会话结束；其中，语音识别服务器选用科大讯飞语音识别服务器，讯飞语音的识别正确率高达95％以上，且支持汉、英等多种语言的语音识别，基于讯飞语音本系统提供中英两种语言的识别语种选择；此外，一次会话中的语音所有参与者都可以播放，这些语音都被存储于语音文件库中。

算法2协同录音识别处理算法

S-4：采用异步识别方法，当一条语音被提交后，立刻交由系统服务器端进行语音识别，不同语音分时识别，具体包括如下步骤：

步骤S-4-1：收到结束本次会话命令，系统将清退该房间中的所有非管理员成员，即结束非管理员成员的会话；

步骤S-4-2：整理系统服务器中的文本记录，并根据语音上传顺序将记录组织成会议文本；

步骤S-4-4：编辑修改会议文本，形成最终会议记录。

S-5：结束会话，系统服务器将语音识别结果组织成会议记录返回给房间管理员；

由系统形成的会议记录初稿如下所示，其中会议主题栏没有内容，需要会议主持填写：

从上面的内容中我们可以看出文字加粗部分存在语音识别错误，对于识别错误系统提供文本编辑功能，张清具有修改文本的权限，经过修改和添加会议主题后完整的会议记录如下：

S-6：调用手机的邮件发送方法，管理员通过邮件发送给共同录制声音的其他成员。

Claims

1.一种基于即时通信的多人协同录音系统，其特征在于，包括如下模块：注册登录与文件管理模块，用于新用户注册并登录系统，以及登陆后管理个人录音文件；好友管理模块，用于好友添加和解除好友关系；协同录音模块，用于进行多人协同录音、将录音识别为文本以及实现文本的邮件分享；消息处理模块，用于用户处理系统产生的请求和提示消息；

所述注册登录与文件管理模块，包括用户注册单元、用户登录单元和文件管理单元；其中用户注册单元，用于用户通过邮箱注册该系统；用户登录单元，用于用户通过邮箱和注册密码登录系统；文件管理单元，用于对产生的所有协同录音文件进行管理；

所述好友管理模块，包括好友添加单元和解除好友关系单元；其中好友添加单元，用于查找好友信息并添加好友，对方收到请求并同意完成加友；解除好友关系单元，用于解除双方的好友关系；

所述多人协同录音模块，包括创建房间单元、开启会话单元、同步语音上传单元、多语言异步识别单元和邮件分享单元；其中创建房间单元，用于创建协同录音的房间，并添加在线好友作为房间成员；开启会话单元，用于管理员开启一次协同录音并邀请其他成员加入；同步语音上传单元，用于将每位用户的语音并行进行语音识别与语音存储；所述多语言异步识别单元，用于根据语言引擎将语音交由不同的识别引擎识别，并分时上传一次会话的多条语音；所述邮件分享单元，用于通过邮件分享协同录音的文本；

所述消息处理模块，用于对系统和用户之间请求消息的处理，用户存在一个消息列表，其中包括三类消息：好友添加请求、加入房间提示和进入会话邀请；

其中好友添加请求在添加好友时由系统生成并采用即时通讯服务进行实时推送；加入房间提示在管理员创建房间时由系统产生，推送给房间其他成员；进入会话邀请在管理员开启一次会话时产生，推送给其他会话成员。

2.一种基于即时通信的多人协同录音识别方法，其特征在于，包含如下步骤：

S-1：创建房间（房间是协同录音的场所，房间的创建者作为房间管理员，可添加成员），并选择在线好友加入房间；

S-2：开启一次会话，会话成员获取录音令牌后进行录音，一人在录音时其他人无法录音；

S-3：采用同步上传方法，将语音并行上传至语音识别服务器和系统服务器，分别进行语音识别与存储；

S-4：采用异步识别方法，当一条语音被提交后，立刻交由系统服务器端进行语音识别，不同语音分时识别；

S-5：结束会话后，系统服务器将语音识别结果组织成会议记录返回给房间管理员；

S-6：调用邮件分享单元发送接口，管理员通过邮件发送给共同录制声音的其他成员。

3.如权利要求书2所述的基于即时通信的多人协同录音识别方法，其特征在于：所述步骤S-2具体包含如下实施步骤：

步骤S-2-1：房间管理员发起一次会话；

步骤S-2-3：房间成员收到会话邀请，选择“接受”，则转向步骤S-2-4，选择“拒绝”，则该成员拒绝加入本次会话，无法进入协同录音；

步骤S-2-4：成员加入会话，同时可选择语音识别引擎；

4.如权利要求书2所述的基于即时通信的多人协同录音识别方法，其特征在于：所述步骤S-3具体包含如下实施步骤：

步骤S-3-1：判断会话是否终止，若未终止，将录制语音同步上传到语音识别服务器和语音存储服务器，否则，会话结束；

步骤S-3-2：判断当前用户选择的语言引擎，若为中文，则转向步骤S-3-3，若为英文，转向步骤S-3-4；

5.如权利要求书2所述的基于即时通信的多人协同录音识别方法，其特征在于：所述步骤S-4具体包含如下实施步骤：

步骤S-4-1：收到结束本次会话命令，系统该房间中清退非管理员成员，结束非管理员成员的会话；

步骤S-4-4：编辑修改会议文本，形成最终会议记录。