CN112053679A

CN112053679A - 一种基于移动终端的角色分离会议速记系统及方法

Info

Publication number: CN112053679A
Application number: CN202010935316.5A
Authority: CN
Inventors: 虞焰兴
Original assignee: Anhui Semxum Information Technology Co ltd
Current assignee: Anhui Semxum Information Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-08

Abstract

本发明公开了一种基于移动终端的角色分离会议速记系统及方法，利用移动终端自带ID的属性进行语音采集，该ID会一直跟随该移动终端采集音频的后续处理，实现音频自标签，进而实现会议记录文本中的角色自分离。

Description

一种基于移动终端的角色分离会议速记系统及方法

技术领域

本发明涉及会议记录技术领域，具体是一种基于移动终端的角色分离会议速记系统及方法。

背景技术

将会议语音实时存储并转换成会议记录文本，在逐步取代人工会议速记。然而，传统会议速记系统仅用于收集语音并转换成文本，无法对不同发言人的语音进行区分，形成角色分离的会议记录文本。

国家知识产权局于2019年6月7日授权公告的发明专利CN108564952B公开了一种语音角色分离方法，通过多阵列指向性麦克风对不同人的声音进行采集，利用算法与硬件相结合，提高语音角色分离的准确率，并增强每个声道音频对应所指向的说话角色的音频，对其他侧面音频进行降噪、消回音处理，然后切分并按照音频对应的说话角色进行区分标注。此方法虽然在一定程度上实现了语音角色分离，但是需要配置多阵列指向性麦克风以及各种音频处理模块，并且侧面音频的切分和标注给后期处理带来了较大的工作量，不便于直接生成会议记录文本。

国家知识产权局于2020年5月5日公布的发明专利申请CN111105801A公开了一种角色语音分离方法，基于声纹识别实现语音片段进行收集和整理，但是诚如发明专利CN108564952B背景技术中提及的，声纹识别在理想录音环境下的分离效果较好，在较为复杂的会议场景下，角色分离的准确率会大打折扣，并且需要后期聚类处理，不便于直接生成会议记录文本。

目前的语音角色分离主要是基于软硬件集合的独立语音分离设备，在分离处理上也存在滞后性，与实时性要求很高的会议速记系统无法很好地融合，形成能够实现角色分离的会议记录系统。

发明内容

针对现有技术中存在的技术缺陷，本发明提供一种基于移动终端的角色分离会议速记系统及方法，通过每个移动终端的特有ID，实现语音的角色自分离，直接形成角色分离的会议记录文本。

本发明公开了一种基于移动终端的角色分离会议速记系统，包括位于每位参会发言者面前的移动终端、与所述移动终端无线连接的会议速记服务器、与所述会议速记服务器网络连接的ASR服务器、与所述ASR服务器网络连接的NLP服务器；

所述移动终端用于采集对应发言者的音频并连同自身ID发送至所述会议速记服务器，所述会议速记服务器将音频转发至所述ASR服务器；

所述ASR服务器用于将音频内容转换成一次文本发送至所述NLP服务器，所述NLP服务器用于将一次文本按照自然语言进行自动修正，并将修正后的二次文本经所述ASR服务器返回至所述会议速记服务器，所述会议速记服务器将二次文本按照对应ID进行匹配，即时形成角色分离的会议记录文本。

进一步的，所述移动终端基于微信公众平台或APP进行语音采集，并按照自然句对采集到的音频流进行切割，并将切割后的音频段连同自身ID按序发送至所述ASR服务器。

进一步的，所述会议速记服务器网络连接有人工编辑终端，所述会议速记服务器记录每一音频段的跟随ID、开始时间和结束时间，及其对应的音频代码和文本，生成日志文件，并根据该日志文件将每一音频段与其二次文本以及移动终端ID进行一一对应；所述人工编辑终端用于根据一一对应的音频段和二次文本进行会议记录的人工修正。

进一步的，会议现场设置有与所述会议速记服务器网络连接的同步显示终端，用于对会议记录进行实时显示。

本发明还保护一种基于移动终端的角色分离会议速记方法，利用移动终端自带ID的属性进行语音采集，实现会议记录文本中的角色自分离；更具体的，至少包括以下步骤：

1、每位参会发言者配备一台自带ID的移动终端，当参会发言者需要发言时，开启移动终端的语音采集，并按照自然句对采集到的音频流进行切割，并将切割后的音频段连同自身ID按序发送至ASR服务器。

2、ASR服务器将音频段内容转换成一次文本发送至NLP服务器。

3、NLP服务器将一次文本按照自然语言进行自动修正，并将修正后的二次文本经ASR服务器返回至会议速记服务器。

4、会议速记服务器记录每一音频段的跟随ID、开始时间和结束时间，及其对应的音频代码和文本，生成日志文件，并根据该日志文件将每一音频段与其二次文本以及移动终端ID进行一一对应。

5、人工编辑终端根据一一对应的音频段和二次文本进行会议记录的人工修正，形成角色分离的会议记录文本。

进一步的，会议速记服务器对每一段音频和文本进行编号，若音频段没有对应的文本，会议速记服务器在日志文件中予以标记。

进一步的，切割后的音频段时长限制在60s以内。

进一步的，当会议速记服务器检测到网络中断时，停止向ASR服务器/NLP服务器发送数据，并将数据暂时存放于内存中，当网络再次连接时，通过内存将数据有序发送给A SR服务器/NLP服务器。

本发明的有益效果：1、利用移动终端自带ID的属性进行语音采集，该ID会一直跟随该移动终端采集音频的后续处理，实现音频自标签，进而实现会议记录文本中的角色自分离；2、可以利用手机充当语音采集设备，网络连接会议速记服务器，完全不增加前端设备成本；3、通过按照自然句对音频流进行切割，减小了音频传输过程中占比的带宽，使其传输更加快速，ASR服务器和NLP服务器的文本返回速度也更快；一段音频段及其对应文本传输至人工编辑终端后，即可根据该音频段及其对应的文本进行修正，从而实现了对动态生成的会议记录的实时修正。

附图说明

图1为基于移动终端的角色分离会议速记系统结构示意图；

图2为音频波形示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

一种基于移动终端的角色分离会议速记系统，如图1所示，包括位于每位参会发言者面前的移动终端、与所述移动终端无线连接的会议速记服务器、与所述会议速记服务器网络连接的ASR服务器、与所述ASR服务器网络连接的NLP服务器。

移动终端会议现场对会议音频进行收录和预处理的设备，可以为参会发言者自带的平板、手机等，也可以是会议组织者提供的电子设备。移动终端ID可以是设备MAC地址、网络运营商提供的SIM卡号，或者其他能够起到唯一标识作用的编码。

ASR服务器和NLP服务器均为既有的第三方服务器。ASR服务器将音频段内容转换成一次文本，这个转换过程中是机械式的转换，其中存在为数不少的错别字(多为同音字错误)；NLP服务器对一次文本按照自然语言进行自动修正，这个转换过程就是基于人类自然语言的习惯，对一次文本进行自动纠错的过程。NLP服务器返回至会议速记服务器的二次文本，正确率可达90-95％。

所述移动终端采集对应发言者的音频并连同自身ID发送至所述会议速记服务器，所述会议速记服务器将音频转发至所述ASR服务器；所述ASR服务器将音频内容转换成一次文本发送至所述NLP服务器，所述NLP服务器将一次文本按照自然语言进行自动修正，并将修正后的二次文本经所述ASR服务器返回至所述会议速记服务器，所述会议速记服务器将二次文本按照对应ID进行匹配，即时形成角色分离的会议记录文本。图1中的S1-Sn分别不同移动终端表示具有不同ID特征的音频。

通过本实施例公开的会议速记系统，利用移动终端自带ID的属性进行语音采集，该ID会一直跟随该移动终端采集音频的后续处理，实现音频自标签，进而实现会议记录文本中的角色自分离。

语音采集功能是现代电子设备基础功能之一，移动终端对采集音频的自动传输可以基于微信公众平台或APP实现；会议现场还可以设置与所述会议速记服务器网络连接的同步显示终端，用于对会议记录进行实时显示。

实施例2

虽然NLP服务器返回至会议速记服务器的二次文本正确率可达90-95％，但是仍存在一定的错误率。

针对这一问题，本实施例提出一种对会议记录文本的实时人工修正方案，通过移动终端按照自然句对采集到的音频流进行切割，并将切割后的音频段连同自身ID按序发送至所述ASR服务器；所述会议速记服务器网络连接有人工编辑终端。

对音频流进行切割的原因是，人在正常说话时是有停顿的，本实施例中的自然句指的是相邻停顿之间的这句话，如图2中的“我那黄河一样粗狂的声音”、“不光响在联合国的大厦里”。按照自然句进行音频流切割，一是可以保证音频信息地完整性，防止音频数据丢失的情况发生；二是减少音频发送过程中占用的带宽，便于音频快速到达语音文本转换服务器，减少因网络塞车导致音频堵塞于发往语音文本转换服务器的路途当中，这就好比在一条拥堵的马路上，自行车、电瓶车，尤其是行人，可以从汽车缝隙中穿梭，网络传输同理。

当检测到一段时间内没有音频波动，就对音频流进行切割，然后在0.00001ms后继续开始处理。将音频段之间的间隔设置为0.00001ms，是为了尽可能减少音频的丢失和错位。例如，5s音频中间包含一个音频段间隔，若音频段间隔为0.1ms，则平均下来，1h音频会产生72ms偏差，4h音频产生的偏差达288ms；若音频段间隔为0.00001ms，则平均下来，1h音频仅产生0.0072ms偏差，4h音频产生的偏差也仅为0.0288ms。

如果在60s内都没有检测到足够长时间的停顿，那么强行对音频流进行切割，避免音频段过长，影响音频段的传输速度以及ASR服务器和NLP服务器的响应速度。

当音频流被切割形成音频段时，它与正在生成的音频流就独立开来，意味着这段音频的结束，也意味着可以对这段音频进行回放，便于对其对应的文本进行修正。

本实施例公开的会议速记系统主要工作流程为：

这里开启移动终端的语音采集，可以采用手动触发，可以是语音采集模块一直处于监听状态，当监听符合其对应参会发言人的音频时，进行存储、处理和传输。

手机已经成为每个人不可或缺的生活用品之一，因此，完全可以将手机充当语音采集设备，完全不增加前端设备成本。与此同时，手机属于个人物品，需要在会议现场充当语音采集设备时，可以通过关注微信公众平台或者下载APP的方式，获取与会议速记服务器的无线连接；在通过预先收录、分析主人音频数据，实现后期在语音监听过程中对主人音频的准确识别和处理。

2、ASR服务器将音频段内容转换成一次文本发送至NLP服务器。

5、人工编辑终端根据一一对应的音频段和二次文本进行会议记录的人工修正，形成角色分离的会议记录文本。此时，形成的角色分离的会议记录文本，是修正后的，接近100％准确率的会议记录文本。

人工编辑终端具有查找、替换功能，可以直接修改某个文字或词组，也可以通过查找和替换对文本中的相同的错误进行一次性修正，并会对当前修正的内容进行特殊显示(如改变文字背景色)，以供记录人员查看。

在人工对会议记录进行修正的过程中，为了便于操作，可以按照音频段对文本进行分段显示，即一个音频段对应的文本显示为一段。记录人员手动点击某段文本时，人工编辑终端对该段文本对应的音频波形予以框选显示并播放，协助记录人员进行判断和文本修正。例如，当点击“大声高喊着中国得分”，则该段文字对应的音频波形被框选显示并播放。

在音频段和文本的传输过程中，音频段大而文本小，因此文本往往比音频段更早地传输到协同编辑服务器，即音频段和文本并非同时传输到协同编辑服务器，协同编辑服务器如何知晓哪一段文本要对应哪一段音频。在本实施例中，通过会议速记服务器对每一段音频和文本进行编号来解决这一问题。

音频段的开始时间、结束时间均以北京时间为准。音频段的开始时间、结束时间、及其对应的音频代码是会议速记服务器在音频切割过程中就能够获取的信息，但是音频段对应的文本是NLP服务器返回的二次文本。

理想情况下，一段音频对应一段文字，按照顺序进行对应即可，但是可能存在一段音频没有对应文字的可能性，如现场播放歌曲等情况。这就涉及到如何将NLP服务器返回的二次文本与音频段一一对应的问题。本实施例中，解决这一问题的方法是，若音频段没有与之对应的文本，会议速记服务器在日志文件中予以标记，协同编辑服务器根据日志文件将音频段和二次文本进行一一对应，如果遇到某个音频段存在标记，就将其跳过，以免出现文本与音频段对应错误的问题出现。会议速记服务器如何知晓哪一段音频段没有对应的文本，这是通过ASR服务器返回的数据判断，例如将开始时间、结束时间、音频编号其中的一种信息或多种信息进行融合形成特征信息连通音频段一起发送给ASR服务器，ASR服务器返回携带该特征信息的一次文本，会议速记服务器就可以知晓此音频段有没有对应文本发送过来。当然，实现方法不限于此。

由于会议速记服务器、ASR服务器、NLP服务器、协同编辑服务器、人工编辑终端都是通过网络连接，会议进行过程中，可能发生网络中断的情况。当会议速记服务器检测到网络中断时，停止向ASR服务器/NLP服务器发送数据，并将数据暂时存放于内存中，当网络再次连接时，通过内存将数据有序发送给ASR服务器/NLP服务器，避免网络重连后，ASR服务器/NLP服务器集中接收到音频数据，误认为遭受到攻击，而关闭会议速记服务器与其之间的连接。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

Claims

1.一种基于移动终端的角色分离会议速记系统，其特征在于，包括位于每位参会发言者面前的移动终端、与所述移动终端无线连接的会议速记服务器、与所述会议速记服务器网络连接的ASR服务器、与所述ASR服务器网络连接的NLP服务器；

2.根据权利要求1所述的角色分离会议速记系统，其特征在于，所述移动终端基于微信公众平台或APP进行语音采集，并按照自然句对采集到的音频流进行切割，并将切割后的音频段连同自身ID按序发送至所述ASR服务器。

3.根据权利要求2所述的角色分离会议速记系统，其特征在于，所述会议速记服务器网络连接有人工编辑终端，所述会议速记服务器记录每一音频段的跟随ID、开始时间和结束时间，及其对应的音频代码和文本，生成日志文件，并根据该日志文件将每一音频段与其二次文本以及移动终端ID进行一一对应；所述人工编辑终端用于根据一一对应的音频段和二次文本进行会议记录的人工修正。

4.根据权利要求2或3所述的角色分离会议速记系统，其特征在于，会议现场设置有与所述会议速记服务器网络连接的同步显示终端，用于对会议记录进行实时显示。

5.一种基于移动终端的角色分离会议速记方法，其特征在于，利用移动终端自带ID的属性进行语音采集，实现会议记录文本中的角色自分离。

6.根据权利要求5所述的角色分离会议速记方法，其特征在于，至少包括以下步骤：

步骤1，每位参会发言者配备一台自带ID的移动终端，当参会发言者需要发言时，开启移动终端的语音采集，并按照自然句对采集到的音频流进行切割，并将切割后的音频段连同自身ID按序发送至ASR服务器；

步骤2，ASR服务器将音频段内容转换成一次文本发送至NLP服务器；

步骤3，NLP服务器将一次文本按照自然语言进行自动修正，并将修正后的二次文本经ASR服务器返回至会议速记服务器；

步骤4，会议速记服务器记录每一音频段的跟随ID、开始时间和结束时间，及其对应的音频代码和文本，生成日志文件，并根据该日志文件将每一音频段与其二次文本以及移动终端ID进行一一对应；

步骤5，人工编辑终端根据一一对应的音频段和二次文本进行会议记录的人工修正，形成角色分离的会议记录文本。

7.根据权利要求6所述的角色分离会议速记方法，其特征在于，会议速记服务器对每一段音频和文本进行编号，若音频段没有对应的文本，会议速记服务器在日志文件中予以标记。

8.根据权利要求6所述的角色分离会议速记方法，其特征在于，切割后的音频段时长限制在60s以内。

9.根据权利要求6所述的角色分离会议速记方法，其特征在于，当会议速记服务器检测到网络中断时，停止向ASR服务器/NLP服务器发送数据，并将数据暂时存放于内存中，当网络再次连接时，通过内存将数据有序发送给ASR服务器/NLP服务器。