CN110648665A

CN110648665A - 一种会话过程记录系统及方法

Info

Publication number: CN110648665A
Application number: CN201910865011.9A
Authority: CN
Inventors: 宋圣涛
Original assignee: Beijing Zuoyi Technology Co Ltd
Current assignee: Beijing Zuoyi Technology Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-01-03

Abstract

本发明属于语音信息处理领域，公开了一种会话过程记录系统及方法，所述系统包括终端设备、多个语音采集装置和服务器，各所述语音采集装置适于同时采集多段语音信息并相应形成多个音频文件，各所述音频文件通过所述终端设备发送至所述服务器，通过语音识别SDK将所述音频文件中的语音信息转换成文字信息，所述文字信息存入所述服务器并反馈至所述终端设备。本发明通过将同时采集的多段语音信息转换成文字信息，实现多角色会话过程的实时记录，以满足多人会话特定场景的应用需求。

Description

一种会话过程记录系统及方法

技术领域

本发明涉及一种会话过程记录系统及方法，属于语音信息处理领域。

背景技术

目前安卓设备在同一时刻只支持录制一段音频，不能同时录制多段音频。如，音频编辑软件Audio Studio在多个对象同时工作的时候会因麦克风被占用而无法工作，这导致需要同时录制多段音频的需求无法实现。

而同时录制多段语音的需求是普遍存在的，如，银行柜台服务窗口场景，需要使用一台安卓设备同时录制办理业务的客户的语音和银行服务人员的语音，以便为后续分析客户需求和工作人员的服务态度提供数据支撑。再如，医院某科室医生对患者的问诊场景，需要使用一台安卓设备同时录制医生与患者的会话过程，做到有据可查，避免医患纠纷，并为制作电子病历等提供依据。

发明内容

本发明的目的是提供一种会话过程记录系统及方法，通过将同时采集的多段语音信息转换成文字信息，实现多角色会话过程的实时记录，以满足多人会话特定场景的应用需求。

为了实现上述目的，本发明第一方面提供一种会话过程记录系统，包括终端设备、多个语音采集装置和服务器，各所述语音采集装置适于同时采集多段语音信息并相应形成多个音频文件，各所述音频文件通过所述终端设备发送至所述服务器，通过语音识别SDK将所述音频文件中的语音信息转换成文字信息，所述文字信息存入所述服务器并反馈至所述终端设备。

进一步地，所述终端设备为安卓设备，因为安卓设备支持多声卡，且安卓系统可以进行高度定制，可以满足声道数量扩展的要求，以用多个声卡同时对多个声道进行录音。相反，苹果系统非常封闭，无法定制开发，不能实现上述多声道同时录音功能。

进一步地，所述语音采集装置基于tinyalsa的命令行进行双声道录音，并生成pcm格式的音频文件。采用tinyalsa录制得到的音频文件是原始音频，方便后续二次处理。

进一步地，所述安卓设备中包括音频文件分割器，所述音频文件分割器每160ms读取一次所述音频文件，每次从上次读取结尾处开始读取12800字节的语音信息，并生成音频单元文件。将音频文件分割成12800字节的长度是为了方便实时上传服务器以产生同步快速产生语音识别结果。如果不分割音频文件而采用录制完毕再上传完整的音频文件并进行语音识别，客户端需要等待的时间较长，而且由于上传音频文件依赖网络速度，大文件的上传速度会很慢。

进一步地，所述安卓设备中包括采样率修正器，所述采样率修正器对所述音频单元文件的采用率进行修正形成标准音频单元文件。修正是指将原始音频的采样率转换为语音识别SDK所需的值，以方便进行语音识别。如将原始音频的采样率48000Hz转换为百度语音识别SDK所需的值16000Hz。

进一步地，所述服务器包括键-值型存储数据库，所述标准音频单元文件的存储路径信息存入所述键-值型存储数据库。

本发明第二方面提供一种会话过程记录方法，包括如下步骤：

(1)同时采集多段语音信息并相应形成多个音频文件并保存；(2)通过语音识别SDK将各所述音频文件中的语音信息转换成文字信息并保存。

进一步地，所述步骤(1)中，将所述音频文件分割成多段等长的音频单元文件，并修正该音频单元文件的采样率形成标准音频单元文件，将所述标准音频单元文件的存储路径信息存入键-值型存储数据库。

进一步地，语音识别SDK从上述键-值型存储数据库中获取所述标准音频单元文件，将其中的语音信息转换成文字信息，并根据文本开始时间进行排序存储。

进一步地，用户终端设备按照角色类别对接收到的所述文字信息进行分角色显示。

通过本发明的上述技术方案，可使安卓设备在特定场景中具有保存多路麦克风音频并实时语音转文字的能力，通过将同时采集的多段语音信息转换成文字信息，实现多角色会话过程的实时记录，以满足多人会话特定场景的应用需求。正常人与人之间的交流很少有同时说话的情况，但也不排除争吵、插嘴、一起读某段文字这种情况。在这种情况下，本发明会以每句话的开始时间进行排序，将最终结果展示出来。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1为本发明系统一实施例的原理框图；

图2为本发明方法一实施例的流程图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

如图1所示，本发明会话过程记录系统的一个实施例，包括终端设备、两个麦克风和两个声卡构成的两路语音采集装置和服务器，两路语音采集装置可同时采集由不同会话角色说出的两段语音信息，每段语音信息形成一个音频文件，每个音频文件通过终端设备发送至服务器，通过语音识别SDK(Software Development Kit，软件开发工具包)将所述音频文件中的语音信息转换成文字信息，所述文字信息存入所述服务器并反馈至所述终端设备。当然也可以同时录制两路以上的音频，相应地麦克风和声卡数量也增加，一个麦克风和一个声卡对应一路。同时录制多段语音，就是N个人同时说话分别由N个麦克风同时录制，每个麦克风所录制的音频内容都会被完整记录。

在一个实施例中，终端设备采用基于安卓系统的设备，即安卓设备，如安卓手机，语音识别SDK采用百度语音识别SDK。

在一个实施例中，语音采集装置基于tinyalsa的命令行进行双声道录音，并生成pcm格式的音频文件。

在一个实施例中，安卓设备中包括音频文件分割器，所述音频文件分割器每160ms读取一次所述音频文件，每次从上次读取结尾处开始读取12800字节的语音信息，并生成音频单元文件。具体地，音频文件分割器使用RandomAccessFile(随机访问文件)类对音频文件进行分割。

在一个实施例中，服务器包括键-值型存储数据库，将分割后的标准音频单元文件的存储路径信息存入所述键-值型存储数据库，便于语音识别SDK获取该标准音频单元文件。具体地，键-值型存储数据库可采用Redis。音频文件在服务器中的存储形式有三种，一种是存储音频片段(pcm格式)，一种是存储合并音频(将所有pcm格式片段合并为整段音频)，一种是整段音频转码为aac格式的文件(这种方式完全是为了方便在移动端播放，实际使用过程中不一定需要这种存储方式)。在服务器存储音频是为了方便进行后续操作，方便后续业务的扩展。

如图2所示，本发明会话过程记录方法的一个实施例，基于安卓设备，包括如下步骤：

1.多个麦克风及声卡使用tinyalsa的命令行进行双声道录音(命令tinycap/storage/emulated/0/Music/channel.wav-D2-d0-c1-r48000-b16，其中-D指定声卡-d指定设备-c指定通道-r指定采样率-b指定位宽)。录制成功的音频文件为48000Hz采样率16bits位宽(此参数并非固定值，可依据声卡及麦克风的支持范围进行调整)的pcm格式音频。具体地，多声卡和多麦克风的集成有两种形式，其一是采用定制化硬件，这种定制化硬件可以是安卓手机或其他内部运行安卓系统的设备，硬件内部含有2个或多个声卡及对应数量的麦克风，声卡与麦克风一一对应。其二是采用市面上的手机，但手机内部只有一个声卡及麦克风，这种情况下可以通过usb接口外接第二个或更多个声卡及麦克风。目前linux中主流的音频体系结构是ALSA(Advanced Linux Sound Architecture，高级Linux音频体系结构)，ALSA在内核驱动层提供了alsa-driver，在应用层提供了alsa-lib，应用程序只需要调用alsa-lib提供的API就可以完成对底层硬件的操作。但是Android中没有使用标准的ALSA，而是一个ALSA的简化版tinyalsa。Android中使用tinyalsa控制管理所有模式的音频通路，开发者可以使用tinyalsa提供的工具进行查看、调试。当然，录音并非只能使用tinyalsa的命令行录制方式，也可通过修改、反射安卓系统源码，开放系统对AudioStudio的限制，使多个AudioStudio对象可以同时工作，进行多声道录制。麦克风与声卡之间可通过USB、蓝牙和wifi等方式连接。

2.安卓设备使用RandomAccessFile每160毫秒读取一次原始音频文件，每次从上次读取结尾处开始读取12800字节，将每次读取的一段12800字节长度的音频片段保存为channel_mid.pcm。RandomAccessFile(随机访问文件)类是Java输入/输出流体系中功能最丰富的文件内容访问类，既可以读取文件内容，也可以向文件输出数据。与普通的输入/输出流不同的是，RandomAccessFile支持跳到文件任意位置读写数据。

3.使用ffmpeg(一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序)或SSRC(Synchronous Sample Rate Converter，同步采样率转换器)对每一段音频文件进行采样率修正(本实施例使用SSRC处理)，将处理后的音频文件保存为channel_end.pcm。

4.安卓端程序将修正后的音频文件转换为Base64编码后，通过WebSocket发送给服务端(同时发送多个麦克风录制的音频)。

5.服务端收到音频文件后进行保存，并将路径信息放入Redis。

6.使用百度语音识别SDK循环地从Redis中获取音频，使用sendFirstRoleSpeech、sendSecondRoleSpeech方法将其发往百度进行语音识别。如果音频数量大于2，需要定义更多的agentDn，每两路音频使用一个，每一路代表一个麦克风的录制内容，也就是一个人的说话内容。agentDn用来定义一组对话的id，本例中的一组对话为两路麦克风，每一组对话有一个id。

7.百度语音识别SDK会将识别到的整段语音内容转换为文字，实时返回给后端程序，后端程序按照返回内容中的snStartTime(文本开始时间)进行排序存储。该后端程序运行在服务器中，用来接收安卓端推送过来的音频片段，并发送给语音识别SDK进行识别，或接收语音识别SDK的识别结果并发送给安卓端进行展示。

8.在交流结束后服务端程序调用sendEndSpeech方法告知百度结束识别，并将上一步的存储结果通过WebSocket发送给安卓端。

9.安卓端程序在接收到所有识别结果后，按照roleCategory(所属角色)字段区分不同麦克风的内容，将其按照需要的样式展示在屏幕中或进行其他后续处理。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.会话过程记录系统，其特征在于，包括终端设备、多个语音采集装置和服务器，各所述语音采集装置适于同时采集多段语音信息并相应形成多个音频文件，各所述音频文件通过所述终端设备发送至所述服务器，通过语音识别SDK将所述音频文件中的语音信息转换成文字信息，所述文字信息存入所述服务器并反馈至所述终端设备。

2.根据权利要求1所述的会话过程记录系统，其特征在于，所述终端设备为安卓设备。

3.根据权利要求2所述的会话过程记录系统，其特征在于，所述语音采集装置基于tinyalsa的命令行进行双声道录音，并生成pcm格式的音频文件。

4.根据权利要求2所述的会话过程记录系统，其特征在于，所述安卓设备中包括音频文件分割器，所述音频文件分割器每160ms读取一次所述音频文件，每次从上次读取结尾处开始读取12800字节的语音信息，并生成音频单元文件。

5.根据权利要求4所述的会话过程记录系统，其特征在于，所述安卓设备中包括采样率修正器，所述采样率修正器对所述音频单元文件的采用率进行修正形成标准音频单元文件。

6.根据权利要求5所述的会话过程记录系统，其特征在于，所述服务器包括键-值型存储数据库，所述标准音频单元文件的存储路径信息存入所述键-值型存储数据库。

7.会话过程记录方法，其特征在于，包括如下步骤：

(1)同时采集多段语音信息并相应形成多个音频文件并保存；

(2)通过语音识别SDK将各所述音频文件中的语音信息转换成文字信息并保存。

8.根据权利要求7所述的会话过程记录方法，其特征在于，所述步骤(1)中，将所述音频文件分割成多段等长的音频单元文件，并修正该音频单元文件的采样率形成标准音频单元文件，将所述标准音频单元文件的存储路径信息存入键-值型存储数据库。

9.根据权利要求8所述的会话过程记录方法，其特征在于，语音识别SDK从上述键-值型存储数据库中获取所述标准音频单元文件，将其中的语音信息转换成文字信息，并根据文本开始时间进行排序存储。

10.根据权利要求9所述的会话过程记录方法，其特征在于，用户终端设备按照角色类别对接收到的所述文字信息进行分角色显示。