CN111243590A

CN111243590A - 一种会议记录的生成方法及设备

Info

Publication number: CN111243590A
Application number: CN202010055721.8A
Authority: CN
Inventors: 石晓腾
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-06-05

Abstract

本发明适用于语音识别技术领域，提供了一种会议记录的生成方法及设备，包括：通过麦克风模块获取会议场景下的语音信号；通过语音识别算法，将所述语音信号转换为文字信息，并根据所述语音信号的采集时刻以及会议流程表，确定所述文字信息关联的目标会议记录项目；提取所述文字信息包含的会议关键词，并从会议模板库获取与所述会议关键词匹配的会议模板；所述会议模板包含多个会议记录项目及所述多个会议记录项目对应的记录区域；根据所述会议场景下的各个所述文字信息关联的目标会议记录项目，将所有采集得到的所述文字信息导入所述会议模板中与各所述文字信息关联的目标会议记录项目对应的记录区域，生成所述会议场景对应的会议记录。本发明能够在会议的过程中采集语音信号，直接转化为文字信息，实现了会议内容的自动生成，提高了会议记录的生成效率，提高了会议记录的准确性。

Description

一种会议记录的生成方法及设备

技术领域

本发明属于语音识别技术领域，尤其涉及一种会议记录的生成方法及设备。

背景技术

会议，作为解决、商议企业以及公司内决策以及计划的重要手段，通过进行会议记录，能够在会后对会议内容进行分析以及落实会议上的决议，因此，会议记录的准确性则直接影响会议的开展效果。现有的会议记录的生成方法，主要是依靠人工手动记录，当会议内容较多，以及会议进程推进较快的情况下，记录员较难准确记录所有会议内容，不仅降低了会议记录的输出效率，还降低了会议记录的内容准确性。

发明内容

有鉴于此，本发明实施例提供了一种会议记录的生成方法及设备，以解决现有的会议记录的生成技术，依靠人工手动记录，当会议内容较多，以及会议进程推进较快的情况下，记录员较难准确记录所有会议内容，不仅降低了会议记录的输出效率，还降低了会议记录的内容准确性的问题。

本发明实施例的第一方面提供了一种会议记录的生成方法，包括：

通过麦克风模块获取会议场景下的语音信号；

通过语音识别算法，将所述语音信号转换为文字信息，并根据所述语音信号的采集时刻以及会议流程表，确定所述文字信息关联的目标会议记录项目；

提取所述文字信息包含的会议关键词，并从会议模板库获取与所述会议关键词匹配的会议模板；所述会议模板包含多个会议记录项目及所述多个会议记录项目对应的记录区域；

根据所述会议场景下的各个所述文字信息关联的目标会议记录项目，将所有采集得到的所述文字信息导入所述会议模板中与各所述文字信息关联的目标会议记录项目对应的记录区域，生成所述会议场景对应的会议记录。

本发明实施例的第二方面提供了一种会议记录的生成设备，包括：

语音信号采集单元，用于通过麦克风模块获取会议场景下的语音信号；

文字信息转换单元，用于通过语音识别算法，将所述语音信号转换为文字信息，并根据所述语音信号的采集时刻以及会议流程表，确定所述文字信息关联的目标会议记录项目；

会议模板选取单元，用于提取所述文字信息包含的会议关键词，并从会议模板库获取与所述会议关键词匹配的会议模板；所述会议模板包含多个会议记录项目及所述多个会议记录项目对应的记录区域；

会议记录生成单元，用于根据所述会议场景下的各个所述文字信息关联的目标会议记录项目，将所有采集得到的所述文字信息导入所述会议模板中与各所述文字信息关联的目标会议记录项目对应的记录区域，生成所述会议场景对应的会议记录。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面的各个步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面的各个步骤。

实施本发明实施例提供的一种会议记录的生成方法及设备具有以下有益效果：

本发明实施例通过麦克风模块获取会议场景下的语音信号，并将语音信号转换为对应的文字信息，根据各个语音信号对应的采集时刻，确定该文字信息所对应的会议记录项目，并从文字信息中提取会议关键词，确定会议类型，选取与会议类型匹配的会议模板，继而根据各个文字信息关联的会议记录项目，导入到会议模板内相应的会议记录项目，生成会议记录，实现了自动输出会议记录的目的。与现有的会议记录的生成方法相比，无需用户手动记录会议内容，而是可以在会议的过程中采集语音信号，直接转化为文字信息，实现了会议内容的自动生成，提高了会议记录的生成效率，提高了会议记录的准确性。另一方面，还可以根据各个文字信息所对应的语音信号的采集时间，确定各个文字信息关联的会议记录项目，从而能够自动导入到会议模板中匹配的会议记录项目内，提高了会议记录导入操作的准确性，在保证了会议内容准确性的同时，也能够适应多样性的会议模板，提高了会议记录的可读性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种会议记录的生成方法的实现流程图；

图2是本发明第二实施例提供的一种会议记录的生成方法S102具体实现流程图；

图3是本发明第三实施例提供的一种会议记录的生成方法S1023具体实现流程图；

图4是本发明第四实施例提供的一种会议记录的生成方法S1023具体实现流程图；

图5是本发明第五实施例提供的一种会议记录的生成方法S101具体实现流程图；

图6是本发明第六实施例提供的一种会议记录的生成方法具体实现流程图；

图7是本发明第七实施例提供的一种会议记录的生成方法S104具体实现流程图；

图8是本发明一实施例提供的一种会议记录的生成设备的结构框图；

图9是本发明另一实施例提供的一种终端设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过麦克风模块获取会议场景下的语音信号，并将语音信号转换为对应的文字信息，根据各个语音信号对应的采集时刻，确定该文字信息所对应的会议记录项目，并从文字信息中提取会议关键词，确定会议类型，选取与会议类型匹配的会议模板，继而根据各个文字信息关联的会议记录项目，导入到会议模板内相应的会议记录项目，生成会议记录，实现了自动输出会议记录的目的，解决了现有的会议记录的生成算技术，依靠人工手动记录，当会议内容较多，以及会议进程推进较快的情况下，记录员较难准确记录所有会议内容，不仅降低了会议记录的输出效率，还降低了会议记录的内容准确性的问题。

在本发明实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行会议记录的生成任务的设备。图1示出了本发明第一实施例提供的会议记录的生成方法的实现流程图，详述如下：

在S101中，通过麦克风模块获取会议场景下的语音信号。

在本实施例中，终端设备可以为会议记录数据库的服务器，该服务器可以通过通信链路与分布式麦克风模块相连，该通信链路可以为有线通信的实体链路，也可以为通过局域网或互联网等方式建立的虚拟链路。该麦克风模块可以与终端设备部署于同一区域，也可以分布式部署于各个会议室内，用于采集各个会议室内的语音信号。

可选地，在本实施例中，该麦克风模块具体为一麦克风阵列，麦克风阵列内包含有多个麦克风装置，麦克风阵列在采集语音信号的过程中，可以从多个不同角度获取当前会议场景的语音信号，并通过多个语音信号进行滤波整形，得到用于进行语音识别的目标信号。由一定数量的麦克风组成麦克风阵列采集语音信号，用来对声场的空间特性进行采样并处理的系统，应用于在会议室、户外、商场等各种复杂环境下，能够有效解决噪音、混响、人声干扰、回声等问题，提高了语音信号采集的信号质量，从而在后续输出文字信息时，能够提高文字信息转换的成功率。

在本实施例中，终端设备可以设置有会议时间段，若终端设备检测到当前时刻到达预设的会议启动时刻，则开启麦克风模块，以通过麦克风模块获取当前所处的会议场景的语音信号。并且，在终端设备检测到当前时刻到达预设的会议结束时刻，则关闭麦克风模块，并将该会议时间段内的采集到的所有语音信号转换为文字信息，并生成会议记录。由于在会议过程中，用户发言并非连续性的，而是间断性的，终端设备可以配置有启动分贝值以及结束分贝值，在麦克风模块检测到当前会议场景的分贝值大于启动分贝值时，会开始采集语音信号，并在分贝值小于结束分贝值时，结束采集语音信号，从而在整个采集过程中获取得到多段语音信号。

可选地，在本实施例中，终端设备可以在接收到一段语音信号后，则执行文字信息的输出操作，并在检测到当前会议结束后，基于所有采集到的语音信号所对应的文字信息，执行S103的操作，即采集操作与语音识别操作并行执行；终端设备也可以将当前会议的采集到的所有语音信息存储在数据库内，并在会议结束后，执行S102的操作。

在S102中，通过语音识别算法，将所述语音信号转换为文字信息，并根据所述语音信号的采集时刻以及会议流程表，确定所述文字信息关联的目标会议记录项目。

在本实施例中，终端设备可以设置有语音识别算法，终端设备可以通过语音识别算法对语音信号进行解析，输出语音信号对应的文字信息，实现了语音识别的目的，自动记录会议内容。可选地，终端设备在进行语音识别的过程中，可以确定会议过程中使用的会议语种，并基于会议语种调整语音识别算法，从而提高识别的准确率。具体地，确定会议语种的方式可以为：获取参与会议的与会人员的用户信息，所述用户信息包含用户国籍；基于各个与会人员的用户国籍，确定会议语种。例如，每个用户国籍关联至少一个可用语种，并识别所有与会人员的可用语种的交集，确定出会议语种；若该交集为空，则根据各个可用语种的在所有与会人员内的出现次数以及该可用语种的预设权重，计算该可用语种的权重值，选取权重值最高的可用语种为会议语种。

可选地，在本实施例中，终端设备可以从语音信号中随机截取预设长度的语音片段，并通过各个候选语种的语音识别算法输出该语音片段的检测信息，识别各个检测信息内各个字符之间的关联度，选取关联度最高的候选语种作为当前会议的会议语种。

在本实施例中，为了提高后续导入操作的准确性，终端设备在输出各个语音信息对应的文字信息后，可以确定该文字信息所对应的会议记录项目。会议记录项目可以基于会议阶段进行划分，例如会议开始阶段、第一议程阶段、第二议程阶段、会议总结阶段等，并为每个会议阶段配置预计阶段时长，其中，会议流程表可以记录有该会议包含的会议阶段。终端设备在获取了各个语音信号后，可以确定该会议的实际持续时长，基于各个预计阶段时长以及该实际持续时长，确定各个会议阶段的实际持续时长。终端设备根据各个语音信息的采集时间，识别得到该语音信息关联的会议阶段，从而确定该语音信号对应的文字信息关联的会议记录项目。

在S103中，提取所述文字信息包含的会议关键词，并从会议模板库获取与所述会议关键词匹配的会议模板；所述会议模板包含多个会议记录项目及所述多个会议记录项目对应的记录区域。

在本实施例中，终端设备在确定各个文字信息关联的会议记录项目后，可以确定输出当前会议的会议记录所使用的模板，即上述的会议模板，具体可以根据所有语音信号的文字信息包含的会议关键词进行确定。终端设备可以通过语义分析算法，对文字信息进行语义分析，并从文字信息中提取会议关键词，终端设备可以根据所有文字信息得到的会议关键词，统计各个会议关键词的出现次数，并选取出现次数大于预设的次数阈值的会议关键词作为特征关键词，并将特征关键词与数据库内的各个候选模板进行关联度计算，选取与特征关键词的关联度最高的一个候选模板作为与会议关键词匹配的会议模板。

可选地，在本实施例中，用户可以为当前会议配置会议主题，基于会议主题以及提取得到的会议关键词，从数据库中选取与之匹配的会议模板。终端设备可以通过定位模块获取会议地点，以及通过时钟程序获取会议启动时间以及会议结束时间，通过配置于会议场景下的摄像模块获取会议场景图像，并通过人脸识别算法对会议场景图像进行解析，确定与会人员名单。将会议地点、会议启动时间、会议结束时间以及与会人员名单填入到会议模板内，实现了与会议场景相关的场景信息。

在S104中，根据所述会议场景下的各个所述文字信息关联的目标会议记录项目，将所有采集得到的所述文字信息导入所述会议模板中与各所述文字信息关联的目标会议记录项目对应的记录区域，生成所述会议场景对应的会议记录。

在本实施例中，终端设备在获取了当前会议对应的会议模板后，可以根据文字信息关联的会议记录项目，将文字信息导入到会议模板对应的区域内，即根据文字信息关联的会议记录项目，在会议模板中查询匹配的会议记录项目，并将文字信息导入到该会议记录项目所配置的区域内，能够根据会议记录项目的不同，导入与之对应的文字信息，提高了会议记录的可读性，而并非单纯机械地输出语音信号对应的文本，而是可以对文字信息进行梳理以及项目分类，特别对于会议议程较长或会议阶段较多的场景下，能够进一步提高会议记录的可读性。

可选地，终端设备还可以设置有语句纠错模型，由于通过语音信号转换为文字信息的过程中，常常会出现同音字的识别异常，在生成了会议记录后，可以将会议记录导入到语句纠错模型，判断该会议记录中是否存在异常语段或异常语句，若是，则对异常语段或异常语句进行校正，输出校正后的会议记录，从而提高会议记录的准确性。

以上可以看出，本发明实施例提供的一种会议记录的生成方法通过麦克风模块获取会议场景下的语音信号，并将语音信号转换为对应的文字信息，根据各个语音信号对应的采集时刻，确定该文字信息所对应的会议记录项目，并从文字信息中提取会议关键词，确定会议类型，选取与会议类型匹配的会议模板，继而根据各个文字信息关联的会议记录项目，导入到会议模板内相应的会议记录项目，生成会议记录，实现了自动输出会议记录的目的。与现有的会议记录的生成方法相比，无需用户手动记录会议内容，而是可以在会议的过程中采集语音信号，直接转化为文字信息，实现了会议内容的自动生成，提高了会议记录的生成效率，提高了会议记录的准确性。另一方面，还可以根据各个文字信息所对应的语音信号的采集时间，确定各个文字信息关联的会议记录项目，从而能够自动导入到会议模板中匹配的会议记录项目内，提高了会议记录导入操作的准确性，在保证了会议内容准确性的同时，也能够适应多样性的会议模板，提高了会议记录的可读性。

图2示出了本发明第二实施例提供的一种会议记录的生成方法S102的具体实现流程图。参见图2，相对于图1所述实施例，本实施例提供的一种会议记录的生成方法中S102包括：S1021～S1024，具体详述如下：

进一步地，所述通过语音识别算法，将所述语音信号转换为文字信息，包括：

在S1021中，在预设的语音坐标系内生成所述语音信号的语音波形图。

在本实施例中，终端设备在获取得到语音信号后，可以对语音信号进行预处理操作，即将一个连续的语音信号划分为多个有效语音段，从而能够减少语音识别的数据量，从而提高转换得到的文字信息的准确性。基于此，终端设备可以将该语音信号在预设的语音坐标系中绘制关联的语音波形图。该语音坐标系的纵坐标可以为语音振幅，横坐标可以为采集时间，从而生成一个基于时域的语音波形图。

可选地，在输出语音波形图后，终端设备可以通过预设的整形算法对语音波形图进行滤波整形，从而减少噪声对于语音识别的影响。其中，滤波整形的过程可以为：终端设备可以在预设区域部署另一麦克风模块，该麦克风模块用于采集会议环境中的噪声信号，通过噪声信号与语音信号进行差分滤波，从而可以过滤得到不包含环境噪声的语音信号，并通过整形模块对过滤噪声后的语音信号进行平缓处理，从而可以过滤掉无效的噪声频段，并将进行预处理的语音信号绘制在语音坐标系上，输出语音波形图。

在S1022中，基于语音活性检测算法，从所述语音波形图中划分得到多个有效语音段。

在本实施例中，终端设备可以通过语音活性检测算法，提取出语音波形图中的有效语音段，其中，有效语音段具体指的是包含说话内容的语音段，而无效语音段具体指的是在不包含说话内容的语音端。终端设备可以设置语音启动幅值，以及语音结束幅值，其中，语音启动幅值的数值大于语音结束幅值的数值。即有效语音端的启动要求高于有效语音段的结束要求。由于用户在发言的开始时间，往往音量音调较高，此时对应的语音幅值的数值较高；而在用户说话的过程中，部分字符存在弱音或轻音，此时不应该识别用户的说话中断，因此，需要适当降低语音结束幅值，避免误识别的情况发生。

在本实施例中，终端设备可以根据语音启动幅值以及语音结束幅值，对语音波形图进行有效语音识别，从而划分得到多个有效语音段，其中，该有效语音段的启示时刻对应的幅值大于或等于语音启动幅值，且结束时刻对应的幅值小于或等于语音结束幅值。

在S1023中，通过语音特征识别算法提取各个所述有效语音段对应的语音特征曲线，并基于所述语音特征曲线识别所述有效语音端包含的字符信息。

在本实施例中，终端设备可以通过预设的语音特征算法分别对各个有效语音段进行特征提取，从而输出得到该有效语音段对应的语音特征曲线。具体地，该语音特征算法可以为以傅里叶算法，将有效语音段从时域曲线转换为频域波形，即上述的语音特征曲线。特别地，若转换得到的频域波形为离散波形，则可以通过线性拟合的方式，对离散波形进行线性拟合，输出对应的语音特征曲线。

在本实施例中，终端设备可以在语料库中为不同的候选字符配置关联的标准特征曲线，终端设备判断当前的语音特征曲线中是否存在部分曲线段与标准特征曲线匹配，若存在，则识别该有效语音段内包含该标准特征曲线对应的候选字符，并基于各个候选字符在有效语音段内的出现位置，依次组合各个候选字符，从而得到该有效语音段的字符信息。

具体地，识别曲线匹配的具体方式可以为，终端设备可以将标准特征曲线在语音特征曲线上进行滑动，并计算在滑动过程中各个位置对应的曲线差异率，若检测到某一位置该曲线差异率小于预设的关联阈值，则识别该位置对应的部分曲线段与标准特征曲线匹配。

在S1024中，基于各个有效语音端在所述语音波形图的次序，依次组合各个所述字符信息，生成所述文字信息。

在本实施例中，终端设备可以根据各个有效语音段在语音波形图的次序，依次连接各个字符信息，从而输出关于整个语音信息对应的文字信息。具体地，终端设备可以根据上一有效语音段的末字符与下一有效语音段的首字符之间的关联度，以及两个语音段之间的间隔时长，确定连接两个字符信息所使用的标点符号，通过识别各个字符信息以及连接所用的标点符号，生成文字信息，提高了文字信息的可读性。

在本发明实施例中，将语音信号划分为多个语音段，从而能够减少每次语音识别的数据量，同时兼顾了语音识别的准确率以及计算量，继而提高了会议记录的准确性。另一方面，若终端设备可以并行对多个信号进行语音识别，则将语音信号分离为多个有效语音段，则可以实现并行输出字符信息的目的，进一步提高了语音识别的效率。

图3示出了本发明第三实施例提供的一种会议记录的生成方法S1023的具体实现流程图。参见图3，相对于图2所述的实施例，本实施例提供的一种会议记录的生成方法S1023包括：S301～S304，具体详述如下：

进一步地，所述通过语音特征识别算法提取各个所述有效语音段对应的语音特征曲线，并基于所述语音特征曲线识别所述有效语音端包含的字符信息，包括：

在S301中，对所述有效语音段进行傅里叶变换，得到所述有效语音段对应的第一频谱。

在本实施例中，基于采集帧长度，将有效语音段划分为多个语音帧，并对各个语音帧进行时频变换，即通过傅里叶变换将时域转换为频域，得到每一帧语音帧的傅里叶频谱，再将各帧频谱按照时间顺序排列起来，得到时间-频率-能量分布图，即上述的第一频谱。通过第一频谱可以很直观的表现出语音信号随时间在频域的变化。

在S302中，对所述第一频谱进行对数变换，得到所述第一频谱的对数频谱。

在本实施例中，终端设备在获取得到第一频谱后，该第一频谱包含有多个峰值，而峰值则用于表示当前用户的说话内容中包含的主要频率成分，这些峰值则为共振峰，而共振峰即为携带了说话内容的辨识属性，即可以通过共振峰进行语音识别，为了提取共振峰则需要频谱的包络(Spectral Envelope)，而包络具体为通过连续曲线连接第一频谱上的各个共振峰点，因此在此需要对第一频谱进行对数变化，以得的关于第一频谱的包络，即上述的对数频谱。

在S303中，对所述对数频谱进行逆傅里叶变换，得到所述对所述有效语音段的语音倒谱。

在本实施例中，终端设备在得的了对数频谱后，需要重新从频域转换为时域，此时需要对对数频率进行逆傅里叶变换，从而得到关于有效语音段的语音倒谱，即从频域还原为时域的逆转换的时域谱。

在S304中，将语音倒谱导入到预设的梅尔倒谱算法，计算所述有效语音段对应的所述语音特征曲线。

在本实施例中，终端设备可以将语音导入导入到预设的梅尔倒谱算法，从而计算出各个语音帧对应的梅尔系数，并基于各个语音帧对应的采集时序，依次连接各个语音帧对应的梅尔系数，从而得到语音特征曲线。具体地，该梅尔倒谱算法可以为：

C_p(q)＝|F{logS_x(f)}|²

其中，C_p(q)为第q个语音帧对应的梅尔系数；S_x(f)为第q个语音帧对应的语音倒谱；F{logS_x(f)}为预设的梅尔函数。

在本发明实施例中，通过梅尔倒谱算法计算得到有效语音段对应的语音特征曲线，能够提高后续语音识别过程的准确性。

图4示出了本发明第四实施例提供的一种会议记录的生成方法S1023的具体实现流程图。参见图4，相对于图1所述实施例，本实施例提供的一种会议记录的生成方法S1023包括：S401～S403，具体详述如下：

在S401中，从预设的语料库内提取各个候选字符关联的标准特征曲线。

在本实施例中，终端设备配置有语料库，该语料库内包含有可以识别的所有候选字符，每个候选字符对应一个关联的标准特征曲线。该标准特征曲线具体可以通过至少一种语种的标准读音的语音信号转换得到。若终端设备可以识别多种不同语种，则可以将关于各个语种的标准读音对应的语音信号，进行语音特征算法提取，得到多个不同的标准特征曲线，并将多个标准特征曲线与候选字符建立关联关系，存储于上述的语料库内。

在S402中，在预设的特征坐标上绘制所述标准特征曲线以及所述语音特征曲线，并计算所述标准特征曲线以及所述语音特征曲线之间相交区域的差异面积。

在本实施例中，终端设备可以在同一特征坐标系上绘制标准特征曲线以及语音特征曲线，从而能够快速比对两个曲线之间的差异度，其中差异度的计算主要通过两个曲线之间的相交面积的大小进行判断；若该相交面积越大，则表示两个曲线之间的差异度越大，则表示该有效语音段内不包含该候选字符的概率越高；反之，若相交面积越小，则表示两个曲线之间的差异度越小，则表示该有效语音段包含该候选字符的概率越高。

可选地，在本实施例中，为了提高识别的准确率，终端设备可以对语音特征曲线进行归一化处理，终端设备可以根据有效语音段的语音波形图的峰值变化，将语音波形图划分为多个不同的字符段，一个字符段包含至少一个峰值，从而能够确保每个字符段对应一个字符。终端设备可以根据字符段的长度在时域对字符段进行归一化，即将该字符段的时长设置为预设的标准时长，并且根据预设的最大振幅，等比例调整字符段的振幅值，并对归一化后的字符段进行标准特征曲线的转换，得到归一化后的字符段对应的语音特征曲线。

在S403中，若任一所述候选字符的所述差异面积小于预设的差异阈值，则识别所述候选字符为所述有效语音段包含的所述字符信息。

在本实施例中，终端设备若检测到任一候选字符的标注特征曲线与语音特征曲线之间的差异面积小于差异阈值，则可以识别该有效语音段的说话内容中包含该候选字符，并根据各个识别得到的候选字符在有效语音段内出现位置，确定各个识别得到的候选字符的次序，并基于该次序进行合并，得到字符信息。

在本发明实施例中，通过将各个候选字符的标准特征曲线与语音特征曲线进行比对，从而识别出有效语音段内包含的字符信息，提高了字符信息生成的准确性。

图5示出了本发明第五实施例提供的一种会议记录的生成方法S101的具体实现流程图。参见图5，相对于图1所述实施例，本实施例提供的一种会议记录的生成方法S101包括：S1011～S1013，具体详述如下：

进一步地，所述若接收到分布式计算任务，则确定所述分布式计算任务的目标字段，包括：

在S1011中，获取在多个预设位置节点的所述麦克风模块反馈的候选信号。

在本实施例中，终端设备可以在会议场景下配置对应的麦克风阵列，该麦克风阵列包含有多个不同的麦克风模块，各个麦克风模块部署于会议场景下的多个关键位置点。该关键位置点可以为：处于与会人员座位中心点(用于获取与会过程中的发言语音)、处于功放设备的语音传播路径上(用于获取会议过程中的视频语音)、处于会议出入口区域(用于获取会议过程中的环境噪音等)，并将各个预设位置节点采集得到的语音信号均识别为候选信号。可选地，还可以在各个与会人员对应的位置上配置有专门的麦克风模块，从而可以根据采集得到的语音信号的麦克风模块标识，确定语音信号的所属用户，并在生成会议记录时，填入各个语音信号对应文字信息的所属用户，进一步提高了会议记录的可读性。

在S1012中，基于各个所述候选信号的平均分贝值，从多个所述候选信号中选取目标信号，并识别除所述目标信号外的其他所述候选信号为参考信号。

在本实施例中，终端设备在获取了多个位置节点的麦克风模块的候选信号后，可以识别各个候选信号的平均分贝值，将分贝值最大的一个麦克风模块对应的候选信号识别为目标信号，而其他候选信号识别为参考信号，参考信号用于进行噪声过滤，以提高目标信号的准确性。由于目标信号对应的平均分贝值最大，即目标信号对应的麦克风模块为主采集模块，而其他候选信号的麦克风模块则识别为辅助采集模块。需要说明的是，该主副关系主要对应当前采集得到的语音信号而言的，在下一时刻采集到新的语音信号后，会重新识别主副模块。

在S1013中，基于所述参考信号对所述目标信号进行滤波处理，输出所述语音信号。

在本实施例中，终端设备会基于参考信号对主目标信号进行滤波处理，由于参考信号的平均分贝值较小，即参考信号主要记录有噪声信号，则可以通过噪声信号对主要包含说话内容的目标信号进行滤波处理，过滤掉目标信号包含的噪声，得到不包含噪声的语音信号。从而能够减少主采集设备获取设备的语音信号的噪声，提高了采集质量，解决噪音、混响、人声干扰、回声等对主要音频信号的影响。

在本发明实施例中，通过多个麦克风模块获取候选信号，从而能够减少主采集设备获取设备的语音信号的噪声，提高了采集质量，解决噪音、混响、人声干扰、回声等对主要音频信号的影响。

图6示出了本发明第六实施例提供的一种会议记录的生成方法的具体实现流程图。参见图6，相对于图1至图5任一所述实施例，本实施例提供的一种会议记录的生成方法在所述通过语音识别算法，将所述语音信号转换为文字信息，并根据所述语音信号的采集时刻以及会议流程表，确定所述文字信息关联的目标会议记录项目之前，还包括：S601～S603，具体详述如下：

进一步地，在所述通过语音识别算法，将所述语音信号转换为文字信息，并根据所述语音信号的采集时刻以及会议流程表，确定所述文字信息关联的目标会议记录项目之前，还包括：

在S601中，获取当前会议的会议主题。

在本实施例中，用户可以在会议开始之前向终端设备发送会议主题，可以通过主题编号进行标记，在该情况下，终端设备可以查询会议主题查询表，识别该主题编号对应的会议主题。例如科学类会议，可以通过编号1进行标记。

在S603中，从关键词库中提取与所述会议主题匹配的候选关键词，并基于所有候选关键词生成关键词典。

在本实施例中，不同的会议主题可以对应不同的关键词，例如科学类的会议涉及较多与科学相关的专有名词，而经济类型会议则涉及较多与经济相关的专有名词，而上述专有名词可能不会存在与通用词典内，为了提高识别的准确性，终端设备在获取了会议主题后，可以确定与该会议主题匹配的候选关键词，主要为与该会议主题相关的专有名词，并基于所有候选关键词建立关键词典。

在S603中，根据所述关键词典调整所述语音识别算法。

在本实施例中，终端设备可以将各个关键词典对应的标准语音信号导入到语音识别算法内，以使语音识别算法在识别过程中能够识别得到上述候选关键词。

在本发明实施例中，通过确定会议主题，确定与会议主题相关的关键词典，并基于关键词典调整语音识别算法，能够提高识别的准确性。

图7示出了本发明第七实施例提供的一种会议记录的生成方法S104的具体实现流程图。参见图7，相对于图1至图5任一所述实施例，本实施例提供的一种会议记录的生成方法S104包括：S1041～S1042，具体详述如下：

在S1021中，若所述会议模板为例会模板，则根据例会触发周期，获取与当前会议对应的关联例会记录。

在本实施例中，终端设备可以根据不同的会议内容预先配置不同的会议模板，并为不同的会议模板配置关联的会议类型。若检测到当前会议的会议类型为例会类型，则提取得的会议模板为例会模板。而由于各个例会之间存在关联关系的，例会模板内可以配置有关联会议项目，用于填写上一周期例会的会议内容，方便用户进行查看。基于此，终端设备可以根据例会触发周期，该例会触发周期与会议类型相关，该周期可以为一周或者一个月，从而确定上一例会的触发时间，并基于该触发时间获取对应的历史会议记录，并识别为与当前会议对应的关联例会记录。

在S1042中，从所述关联例会议记录提取关联会议项目，将所述文字信息以及所述关联会议记录导入所述会议模板，生成所述会议记录。

在本实施例中，终端设备在获取了关联例会记录后，从中提取关联会议项目，关联例会记录可以设置有待解决问题等区域，记录下一周例会的议程等内容，将上述内容识别为关联会议项目。根据关联会议项目以及本次识别得的文字信息导入到会议模板内，生成会议记录。

在本发明实施例中，通过识别关联会议记录，从而能够方便用户比对两个例会内的会议内容，无需在多个不同的会议记录中切换，提高了会议记录的可读性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图8示出了本发明一实施例提供的一种会议记录的生成设备的结构框图，该会议记录的生成设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图8，所述会议记录的生成设备包括：

语音信号采集单元81，用于通过麦克风模块获取会议场景下的语音信号；

文字信息转换单元82，用于通过语音识别算法，将所述语音信号转换为文字信息，并根据所述语音信号的采集时刻以及会议流程表，确定所述文字信息关联的目标会议记录项目；

会议模板选取单元83，用于提取所述文字信息包含的会议关键词，并从会议模板库获取与所述会议关键词匹配的会议模板；所述会议模板包含多个会议记录项目及所述多个会议记录项目对应的记录区域；

会议记录生成单元84，用于根据所述会议场景下的各个所述文字信息关联的目标会议记录项目，将所有采集得到的所述文字信息导入所述会议模板中与各所述文字信息关联的目标会议记录项目对应的记录区域，生成所述会议场景对应的会议记录。

可选地，所述文字信息转换单元82包括：

语音波形图生成单元，用于在预设的语音坐标系内生成所述语音信号的语音波形图；

有效语音段划分单元，用于基于语音活性检测算法，从所述语音波形图中划分得到多个有效语音段；

字符信息识别单元，用于通过语音特征识别算法提取各个所述有效语音段对应的语音特征曲线，并基于所述语音特征曲线识别所述有效语音端包含的字符信息；

文字信息输出单元，用于基于各个有效语音端在所述语音波形图的次序，依次组合各个所述字符信息，生成所述文字信息。

可选地，所述字符信息识别单元包括：

第一频谱转换单元，用于对所述有效语音段进行傅里叶变换，得到所述有效语音段对应的第一频谱；

对数频谱转换单元，用于对所述第一频谱进行对数变换，得到所述第一频谱的对数频谱；

语音倒谱转换单元，用于对所述对数频谱进行逆傅里叶变换，得到所述对所述有效语音段的语音倒谱；

语音特征曲线输出单元，用于将语音倒谱导入到预设的梅尔倒谱算法，计算所述有效语音段对应的所述语音特征曲线。

可选地，所述字符信息识别单元包括：

标准特征曲线获取单元，用于从预设的语料库内提取各个候选字符关联的标准特征曲线；

差异面积计算单元，用于在预设的特征坐标上绘制所述标准特征曲线以及所述语音特征曲线，并计算所述标准特征曲线以及所述语音特征曲线之间相交区域的差异面积；

差异阈值比对单元，用于若任一所述候选字符的所述差异面积小于预设的差异阈值，则识别所述候选字符为所述有效语音段包含的所述字符信息。

可选地，所述语音信号采集单元81包括：

候选信号获取单元，用于获取在多个预设位置节点的所述麦克风模块反馈的候选信号；

主副信号识别单元，用于基于各个所述候选信号的平均分贝值，从多个所述候选信号中选取目标信号，并识别除所述目标信号外的其他所述候选信号为参考信号；

滤波处理单元，用于基于所述参考信号对所述目标信号进行滤波处理，输出所述语音信号。

可选地，所述会议记录的生成设备还包括：

会议主题获取单元，用于获取当前会议的会议主题；

关键词典生成单元，用于从关键词库中提取与所述会议主题匹配的候选关键词，并基于所有候选关键词生成关键词典；

语音识别算法调整单元，用于根据所述关键词典调整所述语音识别算法。

可选地，所述会议记录生成单元81包括：

会议记录生成单元获取单元，用于若所述会议模板为例会模板，则根据例会触发周期，获取与当前会议对应的关联例会记录；

关联会议项目导入单元，用于从所述关联例会议记录提取关联会议项目，将所述文字信息以及所述关联会议记录导入所述会议模板，生成所述会议记录。

因此，本发明实施例提供的会议记录的生成设备同样可以无需用户手动记录会议内容，而是可以在会议的过程中采集语音信号，直接转化为文字信息，实现了会议内容的自动生成，提高了会议记录的生成效率，提高了会议记录的准确性。另一方面，还可以根据各个文字信息所对应的语音信号的采集时间，确定各个文字信息关联的会议记录项目，从而能够自动导入到会议模板中匹配的会议记录项目内，提高了会议记录导入操作的准确性，在保证了会议内容准确性的同时，也能够适应多样性的会议模板，提高了会议记录的可读性。

图9是本发明另一实施例提供的一种终端设备的示意图。如图9所示，该实施例的终端设备9包括：处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92，例如会议记录的生成程序。所述处理器90执行所述计算机程序92时实现上述各个会议记录的生成方法实施例中的步骤，例如图1所示的S101至S104。或者，所述处理器90执行所述计算机程序92时实现上述各装置实施例中各单元的功能，例如图8所示模块81至84功能。

示例性的，所述计算机程序92可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器91中，并由所述处理器90执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序92在所述终端设备9中的执行过程。例如，所述计算机程序92可以被分割成语音信号采集单元、文字信息转换单元、会议模板选取单元以及会议记录生成单元，各单元具体功能如上所述。

所述终端设备9可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器90、存储器91。本领域技术人员可以理解，图9仅仅是终端设备9的示例，并不构成对终端设备9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器90可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91可以是所述终端设备9的内部存储单元，例如终端设备9的硬盘或内存。所述存储器91也可以是所述终端设备9的外部存储设备，例如所述终端设备9上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器91还可以既包括所述终端设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种会议记录的生成方法，其特征在于，包括：

通过麦克风模块获取会议场景下的语音信号；

2.根据权利要求1所述的生成方法，其特征在于，所述通过语音识别算法，将所述语音信号转换为文字信息，包括：

在预设的语音坐标系内生成所述语音信号的语音波形图；

基于语音活性检测算法，从所述语音波形图中划分得到多个有效语音段；

通过语音特征识别算法提取各个所述有效语音段对应的语音特征曲线，并基于所述语音特征曲线识别所述有效语音端包含的字符信息；

基于各个有效语音端在所述语音波形图的次序，依次组合各个所述字符信息，生成所述文字信息。

3.根据权利要求2所述的生成方法，其特征在于，所述通过语音特征识别算法提取各个所述有效语音段对应的语音特征曲线，并基于所述语音特征曲线识别所述有效语音端包含的字符信息，包括：

对所述有效语音段进行傅里叶变换，得到所述有效语音段对应的第一频谱；

对所述第一频谱进行对数变换，得到所述第一频谱的对数频谱；

对所述对数频谱进行逆傅里叶变换，得到所述对所述有效语音段的语音倒谱；

将语音倒谱导入到预设的梅尔倒谱算法，计算所述有效语音段对应的所述语音特征曲线。

4.根据权利要求2所述的生成方法，其特征在于，所述通过语音特征识别算法提取各个所述有效语音段对应的语音特征曲线，并基于所述语音特征曲线识别所述有效语音端包含的字符信息，包括：

从预设的语料库内提取各个候选字符关联的标准特征曲线；

在预设的特征坐标上绘制所述标准特征曲线以及所述语音特征曲线，并计算所述标准特征曲线以及所述语音特征曲线之间相交区域的差异面积；

若任一所述候选字符的所述差异面积小于预设的差异阈值，则识别所述候选字符为所述有效语音段包含的所述字符信息。

5.根据权利要求1所述的生成方法，其特征在于，所述通过麦克风模块获取会议场景下的语音信号，包括：

获取在多个预设位置节点的所述麦克风模块反馈的候选信号；

基于各个所述候选信号的平均分贝值，从多个所述候选信号中选取目标信号，并识别除所述目标信号外的其他所述候选信号为参考信号；

基于所述参考信号对所述目标信号进行滤波处理，输出所述语音信号。

6.根据权利要求1-5任一项所述的生成方法，其特征在于，在所述通过语音识别算法，将所述语音信号转换为文字信息，并根据所述语音信号的采集时刻以及会议流程表，确定所述文字信息关联的目标会议记录项目之前，还包括：

获取当前会议的会议主题；

从关键词库中提取与所述会议主题匹配的候选关键词，并基于所有候选关键词生成关键词典；

根据所述关键词典调整所述语音识别算法。

7.根据权利要求1-5任一项所述的生成方法，其特征在于，所述根据所述会议场景下的各个所述文字信息关联的目标会议记录项目，将所有采集得到的所述文字信息导入所述会议模板中与各所述文字信息关联的目标会议记录项目对应的记录区域，生成所述会议场景对应的会议记录，包括：

若所述会议模板为例会模板，则根据例会触发周期，获取与当前会议对应的关联例会记录；

从所述关联例会议记录提取关联会议项目，将所述文字信息以及所述关联会议记录导入所述会议模板，生成所述会议记录。

8.一种会议记录的生成设备，其特征在于，包括：

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。