CN115623134A

CN115623134A - 会议音频处理方法、装置、设备及存储介质

Info

Publication number: CN115623134A
Application number: CN202211223956.9A
Authority: CN
Inventors: 张利平; 俞科峰; 仝建刚; 李嫚; 乔宏明
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-01-17

Abstract

本申请的实施例揭示了一种会议音频处理方法、装置、设备及存储介质。该方法包括：获取待处理的会议音频数据，并对所述会议音频数据进行语音识别，得到第一文本；从指定数据库包含的多种类型的标准文本中，查找与所述第一文本的类型相匹配的标准文本集合，并从所述标准文本集合中获取与所述第一文本相匹配的目标文本；将所述第一文本与所述目标文本进行比较，并根据比较结果判断所述第一文本是否满足预设输出条件；若否，对所述第一文本进行修正，得到满足输出条件的第二文本。本申请的实施例能够避免人工手动修正过程，通过标准文本集合对会议文本进行修正，减少了输出的文本内容与实际会议内容的差异性。

Description

会议音频处理方法、装置、设备及存储介质

技术领域

本申请涉及智能会议系统领域，具体涉及一种会议音频处理方法、装置、电子设备及计算机可读存储介质。

背景技术

会议是人们工作、生活中常见的议事活动，例如，随着互联网技术的迅速发展，线上音视频会议已成为一种常见的会议形式，用户可以通过具有线上会议功能的应用程序发起线上会议，并邀请其他用户参加该线上会议。

为了生成会议纪要、会议主题等，通常需要对会议过程中采集的音频进行语音识别得到对应的文本。但是，由于参会人员的惯用语、专业描述、方言等人为因素，参会人员所处环境的噪声等环境因素的影响，采集到的音频质量较低，基于语音识别出的文本与实际会议内容存在差异。相关技术中，通常是人工检测语音识别出的文本是否出错，并进行修正，需要消耗大量的人力资源，且处理效率低。

发明内容

为解决上述技术问题，本申请的实施例提供了一种会议音频处理方法及装置、电子设备、计算机可读存储介质以及计算机程序产品。

根据本申请实施例的一个方面，提供了一种会议音频处理会议音频处理方法，包括：获取待处理的会议音频数据，并对所述会议音频数据进行语音识别，得到第一文本；从指定数据库包含的多种类型的标准文本中，查找与所述第一文本的类型相匹配的标准文本集合，并从所述标准文本集合中获取与所述第一文本相匹配的目标文本；将所述第一文本与所述目标文本进行比较，并根据比较结果判断所述第一文本是否满足预设输出条件；若否，对所述第一文本进行修正，得到满足输出条件的第二文本。

根据本申请实施例的一个方面，所述从所述标准文本集合中获取与所述第一文本相匹配的目标文本，包括：对所述第一文本进行分词处理，得到所述第一文本的关键词；从所述标准文本集合中，查找与所述关键词相匹配的目标文本。

根据本申请实施例的一个方面，所述将所述第一文本与所述目标文本进行比较，并根据比较结果判断所述第一文本是否满足预设输出条件，包括：计算所述第一文本包含的多个关键词的每一关键词与所述目标文本之间的相关性数值；对所述多个关键词对应的相关性数值进行加权求和运算，得到所述第一文本与所述目标文本之间的相似度数值；将所述相似度数值与预设相似度阈值进行比较，并根据比较结果判断所述第一文本是否满足预设输出条件。

根据本申请实施例的一个方面，所述对第一文本进行修正，得到满足所述预设输出条件的第二文本，包括：从多种修正方式中选择第一修正方式，根据所述第一修正方式对所述第一文本进行修正，得到候选文本；判断所述候选文本是否满足预设输出条件；若否，从所述多种修正方式中选择第二修正方式，并根据所述第二修正方式对所述候选文本进行修正，得到满足所述预设输出条件的第二文本，其中，所述第一修正方式与所述第二修正方式不同。

根据本申请实施例的一个方面，所述根据所述第一修正方式对所述第一文本进行修正，得到候选文本，包括：从所述多个关键词中筛选出与所述目标文本之间的相关性数值小于预设相关性阈值的目标关键词；从所述目标文本中查找出与所述目标关键词相匹配的待替换词语；将所述第一文本中包含的所述目标关键词替换为所述待替换词语，得到所述候选文本。

根据本申请实施例的一个方面，所述根据所述第一修正方式对所述第一文本进行修正，得到候选文本，包括：将所述第一文本输入至修正模型，与通过所述修正模型对所述第一文本进行修正，得到所述候选文本。

根据本申请实施例的一个方面，所述根据所述第二修正方式对所述候选文本进行修正，得到满足所述预设输出条件的第二文本，包括：从网络中搜索与所述第一文本相匹配的文本；根据搜索出的文本对所述候选文本进行修正，得到满足所述预设输出条件的第二文本。

根据本申请实施例的一个方面，提供了一种会议音频处理会议音频处理装置，包括：

获取模块，用于获取待处理的会议音频数据，并对所述会议音频数据进行语音识别，得到第一文本；查找模块，用于从指定数据库包含的多种类型的标准文本中，查找与所述第一文本的类型相匹配的标准文本集合，并从所述标准文本集合中获取与所述第一文本相匹配的目标文本；比较模块，用于将所述第一文本与所述目标文本进行比较，并根据比较结果判断所述第一文本是否满足预设输出条件；修正模块，用于若否，对所述第一文本进行修正，得到满足所述预设输出条件的第二文本。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如前所述的会议音频处理方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的会议音频处理方法。

根据本申请实施例的一个方面，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的会议音频处理方法中的步骤。

在本申请的实施例所提供的技术方案中，获取会议过程中采集到的待处理的会议音频数据，对所述会议音频数据进行识别得到对应的第一文本，再从指定的数据库包含的多种类型的标准文本中，查找出与所述第一文本类型相匹配的标准文本集合，然后从所述标准文本集合中获取与所述第一文本相匹配的目标文本，再将所述第一文本与所述目标文本进行比较，以根据比较结果判断所述第一文本是否满足预设输出条件，若不符合，则对所述第一文本进行修正，直到得到满足所述预设输出条件的第二文本，即，通过指定数据库中包含的标准文本对语音识别得到的会议文本进行自动检测，并在检测到会议文本不满足预设输出条件时，对其进行自动修正，避免了人工手动检测及修正过程，提高了会议文本的生成效率，并且，是通过与会议文本的类型相匹配的标准文本集合对会议文本进行检测，可以提升检测精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请的一示例性实施例示出的进行会议音频处理的实施环境示意图；

图2是本申请的一示例性实施例示出的会议音频处理方法的流程图；

图3是本申请的另一示例性实施例示出的一种会议音频处理方法的流程图；

图4是本申请的另一示例性实施例示出的一种会议音频处理方法的流程图；

图5是本申请的另一示例性实施例示出的一种会议音频处理方法的流程图；

图6是本申请的另一示例性实施例示出的一种会议音频处理方法的流程图；

图7是在一示例性的应用场景下进行会议音频处理的简要流程示意图；

图8是本申请的一示例性实施例示出的会议音频处理装置的框图；

图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

需要说明的是，线上会议是指利用多媒体设备用户端以及信息传输线路，将多人群体的声音以及影像等信息进行双向的传送，从而使多人群体实现远距离会议沟通的会议形式。这种会议类型与以往传统的会议相比存在着本质上的区别，它不仅可以解决多人不同地点的区域限制，同时还能保证参会人员能够进行面对面交流。这种新型会议形式实现的基本原理就是利用信息处理与转换技术，同时将网络与多媒体作为媒介，将发送端的声音以及图像等重要内容转换为可以进行传送的数字信号，这种数字信号的传播过程是高效稳定的，当传送到接收端后，将数字信号进行捕捉、处理，最终又转化为原本的声音与影响信息，从而实现两端的信息交流。

在现有的技术实现中，在线上会议的语音采集并识别成对应的文本信息过程中，由于参会人员的惯用语、专业描述、方言等不同，会影响线上会议的语音质量，进一步会影响线上会议效率以及生成会议纪要的质量，并导致生成的会议纪要与实际的线上会议内容存在差异。目前，只能通过大量的支撑人员对生成的会议文本进行手动修正，不仅效率低，并且修正后的会议纪要内容与实际会议内容存在差异性。

为解决上述问题，本申请实施例分别提出了一种会议音频处理方法、会议音频处理装置、电子设备、计算机可读存储介质以及计算机程序产品，以下将对这些实施例进行详细介绍。

请参阅图1，图1是本申请的实施例涉及的一种实施环境示意图。该实施环境包括终端110和服务器120，其中，终端110和服务器120通过有线或无线方式进行通信。

终端110用于支持线上会议的可视化工具，用户通过终端110接入对应的线上会议，并且终端110采集参会用户输出的会议音频数据，并将用户输出的会议音频数据作为待处理的会议音频数据发送给服务器120。

服务器120接收终端110发送的待处理会议音频数据后，并对待处理的会议音频数据进行语音识别，得到对应的第一文本，然后，基于第一文本从指定的数据库包含的多种类型的标准文本中，查找出与该第一文本类型相匹配的标准文本集合，然后，从标准文本集合中获取与第一文本相匹配的目标文本。服务器120将终端110采集的待处理的会议音频数据对应的第一文本与目标文件进行比较，判断该第一文本是否符合预设的输出条件，若判断第一文本不符合预设的输出条件，则获取相应的数据对第一文本进行修正，直到经过修正处理的第一文本满足预设的输出条件，将修正后满足输出条件的第二文本发送给终端110。

终端110接收服务器返回的满足预设输出条件的第二文本，并将该第二文本作为会议纪要向用户展示。

需要说明的是，终端110可以是智能手机、平板电脑、笔记本电脑或者可穿戴设备等任意支持线上会议功能的电子设备，但并不限于此，例如终端110还可以是车载终端、飞行器等应用于特殊领域的设备。终端110可通过3G(第三代的移动信息技术)、4G(第四代的移动信息技术)、5G(第五代的移动信息技术)等无线网络与服务器120进行通信，或者通过有线网络与服务器120通信，本处也不对此进行限制。

服务器120例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，在此也不进行限制。

应理解，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术也是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。

图2是本申请一示例性实施例示出的一种会议音频处理方法的流程图。该方式适用于图1所示的实施环境，并由图1所示实施环境中的服务器120和/或终端110具体执行。该方法也可以适用于其它的实施环境，并由其它的实施环境中的设备执行，本实施例并不对此进行限制。

下面将以服务器作为示例性的执行主体对本申请实施例提出的方法进行详细描述。如图2所示，在一示例性的实施例中，该方法包括步骤S210至步骤S240，详细介绍如下：

步骤S210，获取待处理的会议音频数据，并对会议音频数据进行语音识别，得到第一文本。

获取用户利用多媒体设备用户端以及传输线路加入线上会议，并通过所利用的多媒体设备中的语音采集设备采集用户产生音频数据，服务器将该用户产生音频数据作为待处理的会议音频数据，服务器通过相应的语音转换为文字的处理方法对会议音频数据进行语音识别，并将语音识别的结果作为第一文本信息。

示例性的，服务器获取线上会议各个用户端的待处理的会议音频数据，在获取得到会议音频数据后对该音频数据进行预处理，即，对该音频数据进行首尾端的静音部分进行切除，以降低对后续步骤造成的干扰，然后对进行静音部分切除的音频数据进行分帧处理，并对分帧处理后的音频数据进行声学特征提取，并根据声学特征对该音频数据的声学模型和语言模型进行建模，其中，声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示，即给定文字之后发出这段语音的概率；通过语言模型是对一组字序列构成的知识表示，即判定一个文字序列出现的概率，然后通过声学模型一般得到语音特征到音素的映射最后通过语言模型一般得到词与词、词与句子的映射。以此得到该会议音频数据对应的文字信息第一文本。

步骤S220，从指定数据库包含的多种类型的标准文本中，查找与第一文本的类型相匹配的标准文本集合，并从标准文本集合中获取与第一文本相匹配的目标文本。

需要说明的是，在本实施例中的指定数据库中包含有多种类型的标准文本，以及基于该指定数据库的文本诊断规则，其中，多种类型的标准文本是指各个行业、各个领域、各种语言以及方言的标准化文本。其中，多种类型的标准文本可以按照各自对应的领域、类别进行分类存储，并设置多种类型各自对应的索引信息，以方便基于对应的索引信息快速找到该类型对应的标准文本。在得到第一文本对应的索引信息后，根据该索引信息获取第一文本相匹配的目标文本以及目标文本规范化判断标准，以通过该目标文本规范化判断标准判断该第一文本是否符合规范化标准。

示例性的，服务器根据会议参与者所发出的音频数据，并经过语音识别处理得到对应的第一文本，再对该第一文本进行识别，识别出该第一文本对应的类型，在识别出第一文本对应的类型后进一步确定第一文本在该类型中的索引信息，并根据索引信息从指定包括的多种类型的标准文本中，查找出与第一文本的类型相匹配的标准文本集合，并进一步的从标准文本集合中获取与该第一文本相匹配的目标文本。

步骤S230,将第一文本与目标文本进行比较，并根据比较结果判断第一文本是否满足预设输出条件。

如上述所言，从指定数据库包含的多种类型的标准文本中，获取得到了与第一文本相匹配的目标文本，再将第一文本与目标文本进行比较，其中比较的内容包括：可以是比较第一文本与目标文本的句式结构是否相匹配，可以是比较第一文本与目标文本所包含的信息是否相匹配，可以是比较第一文本与目标文本的目标词汇匹配度、第一文本的信息是否完整，第一文本的逻辑是否完整，以及第一文本的上下文语义是否流畅等中的一项或者多项等等中的一种或多种，最后再根据第一文本与目标文本的比较结果判断第一文本是否符合预设的输出条件。

步骤S240，若否，对第一文本进行修正，得到满足预设输出条件的第二文本。

如上述所言的，将会议音频数据对应的第一文本与目标文本进行比较，再根据比较结果判断该第一文本是否满足预设输出条件，当根据比较结果判定该第一文本不满足预设的输出条件时，则对该第一文本信息进行修正，其中，第一文本修正的方法就包括，拆解第一文本的的句式结构，并对拆解句式结构后的第一文本进行字段完整度判断，其中，字段完整度判断可以是通过将拆解句式结构后的第一文本与目标文本对应的句式结构进行比较，得到第一文本对应的句式结构中所缺少的句子成分，并对第一文本对应的句式结构中所确实的句子成分进行补充，增加语句的可读性。当然，对第一文本信息的修正还包括对第一文本中的口语化语言、方言、俚语进行专业用词替换等等，在此本实施例对第一文本的修正方式不作任何限制。

在本实施例中，服务器通过获取参会终端上待处理的会议音频数据，并对会议音频数据进行语音识别，得到第一文本，再从指定数据库包含的多种类型的标准文本中，查找出与第一文本的类型相匹配的标准文本集合，并对应的从标准文本集合中查找出与第一文本相匹配的目标文本，再将第一文本与目标文本进行比较，根据比较结果判断第一文本是否满足预设输出条件，并对不满足预设输出条件的第一文本进行修正，直至得到满足预设输出条件的第二文本，避免了人工手动修正过程，提高了会议文本生成效率，并通过标准文本集合对会议文本进行修正，减少了输出的文本内容与实际会议内容的差异性。

进一步的，基于上述是实施例，在本申请所提供的其中一个示例性实施例中，上述从标准文本集合中获取与第一文本相匹配的目标文本的具体实现过程还包括步骤S221和步骤S222，详细介绍如下：

步骤S221,对第一文本进行分词处理，得到第一文本的关键词；

步骤S222，从标准文本集合中，查找与关键词相匹配的目标文本。

在步骤S221中，第一文本例如表示为S，将第一文本S进行分词处理得到“S＝A+B+C+E+D”，其中，“A、B、C、E、D”表示第一文本S中的关键词。服务器分别从指定数据库包含的多种类型的标准文本中查找与关键词“A、B、C、E、D”相匹配的目标文本。

需要理解的是，关键词是指体现一篇文章或一部著作的中心概念的词语或指检索资料时所查内容中必须有的词语，特指单个媒体在制作使用索引时，所用到的词汇。也就是说，对第一文本进行解析，得到其中所包含的中心概念分别对应的关键词。

在步骤S222中，当对第一文本进行分词处理得到第一文本对应的关键词后，根据该关键词作为索引从指定数据库的多种类型的标准文本中，查找出与该关键词相匹配的目标文本。

在本实施例中，服务器对根据会议音频数据语音识别处理后的第一文本进行分词处理，得到第一文本对应的关键词，再将关键词作为索引从指定数据库的标准文本集合中查找出与第一文本对应的标准文本，提高了文本比较的精确性，也避免了人工识别查找的过程。

基于上述实施例，请参照图3，在本实施例所提供的其中一个实施例中，上述将第一文本与目标文本进行比较，并根据比较结果判断第一文本是否满足预设输出条件的过程还可包括步骤S310至步骤S330,详细介绍如下：

步骤S310，计算第一文本包含的多个关键词中的每个关键词与目标文本之间的相关性数值。

如上述所言，对第一文本进行分词处理得到该第一文本中包含的多个关键词，其中，可以根据关键词的本身或者关键词对应的语义作为索引查找与该多个关键词各自对应的目标文本，并计算每个关键词与其对应的目标文本之间的相关性数值，其中，可以根据每一关键词对应的词向量与其对应的目标文本对应的词向量计算每个关键词与目标文本之间的相关性数值。

需要说明的是，词向量矩阵是将文字转化成一种数学向量形式的模型，以方便后续处理。例如，常见的词向量模型可以是Word2vec，也可以采用one-hot编码方式，将文字转换成词向量。

步骤S320，对多个关键词对应的相关性数值进行加权求和运算，得到第一文本与目标文本之间的相似度数值。

如上述所言，计算出第一文本包含的多个关键词中每个关键词与其对应的目标文本之间的相关性数值后，根据该多个关键词中每个关键词与第一文本内容之间的关系对每一关键词赋予不同的或相同的权重，并对多个关键词对应的相关性数值进行加权求和计算，得到该第一文本与目标文本之间的相似度数值。

示例性的，如上述所言，计算出第一文本中包含的多个关键词对应的词向量，以及获取得到多个关键词各自对应的目标文本的词向量，然后再计算关键词的词向量与目标文本的词向量之间的相关性数值，由于，口语化、方言、语言习惯等因素，可能影响关键词的词向量和目标文本的词向量之间的相关性数值，所以根据每一关键词在第一文本中所占的权重，对多个关键词对应的相关性数值进行加权求和运算，以得到第一文本与目标文本之间的相似度值。

步骤S330，将相似度数值与预设相似度阈值进行比较，并根据比较结果判断第一文本是否满足预设输出条件。

如上述所言，根据对多个关键词对应的相关性数值进行加权求和运算，得到第一文本与目标文本之间的相似度数值，并将计算得到的相似度数值与预设相似度阈值进行比较，并根据比较结果判断该第一文本是个满足预设输出条件，具体的，当比较结果表征第一文本与目标文本之间的相似度数值小于预设相似度阈值，则表征该第一文本不符合预设输出条件；当比较结果标准第一文本与目标文本之间的相似度值大于或等于预设相似度阈值，则标准第一文本符合预设输出条件。

在本实施例中，通过计算第一文本包含的多个关键词中的每个关键词与目标文本之间的相关性数值；再按照多个关键词与第一文本内容之间的关系对多个关键词对应的相关性数值进行加权求和运算，得到第一文本与目标文本之间的相似度数值；将相似度数值与预设相似度阈值进行比较，并根据比较结果判断第一文本是否满足预设输出条件，使得输出的第一文本满足预设的输出条件，提高了文本识别的准确性。

基于上述实施例，请参阅图4，在本申请所提供的其中一个示例性实施例中，上述对第一文本进行修正，得到满足预设输出条件的第二文本的实现过程可包括步骤S410至步骤S430，详细介绍如下：

步骤S410，从多种修正方式中选择第一修正方式，根据第一修正方式对第一文本进行修正，得到候选文本。

如上述所言，当根据第一文本与目标文本的比较结果标识第一文本不满足预设输出条件，则需要对第一文本进行修正。可以从多种修正方式中选择第一修正方式，在本实施例中，例如第一修正方式是指通过文本替换的方式对第一文本进行修正，具体的，如上述所言，将第一文本进行分词处理，得到第一文本包含的多个关键词，然后计算第一文本包含的多个关键词中的每个关键词与其对应的目标文本之间的相关度数值，若计算得到的相关度数值低于预设相关度阈值，则将该关键词替换为其对应的目标文本，得到候选文本。

此外，在本实施例中，第一修正方式还可以是将第一文本输入预先构造的文本修正模型，通过文本修正模型获取第一文本对应的第一修正方式。具体的，通过文本修正模型对第一文本进行语义分析确定第一文本对应的类别，并对第一文本进行分词处理，得到第一文本中包含的多个关键词，分别计算该多个关键词的词向量，并根据该多个关键词在第一文本中出现的位置获得第一文本的词向量序列。并基于第一文本的词向量序列确定其对应的目标词向量序列，然后获取第一文本的词向量序列中的各个关键词的词向量分别对应的表示文本流程度的上下文语义信息，其中，目标词向量序列为第一文本词向量序列对应的标准文本词向量序列。进而基于目标词向量序列以及多个关键词各自对应的上下文语义信息对第一文本词向量序列进行修正，以得到候选文本。

步骤S420，判断候选文本是否满足预设输出条件；

步骤S430，若否，从多种修正方式中选择第二修正方式，并根据第二修正方式对候选文本进行修正，得到满足预设输出条件的第二文本；其中，第一修正方式与第二修正方式不同。

如上述所言，在步骤S420中当第一文本不满足预设输出条件时，从多种修正方式中选择第一修正方式，并根据第一修正方式对第一文本进行修正，得到候选文本；再判断候选文本是否满足预设输出条件，其中，可以通过上述的将候选文本与第一文本对应的目标文本进行比较，其中比较的内容包括候选文本的信息是否完整，候选文本的逻辑是否完整，以及候选文本的上下文语义是否流畅等中的一项或者多项。

在步骤S430中，当通过上述的候选文本判断方式得到的判断结果表明候选文本不满足预设输出条件时，再从多种修正方式中选择出第二修正方式，其中，第一修正方式和第二修正方式是不同的。示例性的，第二修正方式为：将候选文本输入预先构造的修正模型，并通过该修正模型对候选文本进行分词处理，得到候选文本中包含的多个关键词，并获取该多个关键词各自对应的目标文本，并进一步计算该多个关键词中每一关键词与目标文本之间的相关性数值，若该相关性数值小于预设相关性数值，则将该相关性数值对应的关键词作为配置参数写入预先构造的修正配置文件中得到修正执行脚本，执行该修正执行脚本从开源渠道获得该关键词对应的修正方案，并基于该修正方案对候选文本进行修正，以得到满足输出条件的第二文本。

此外，可以将满足输出条件的第二文本写入预先选定的会议模板或者默认的会议模板中，其中，会议模板中包括自动获取的线上会议对应的主题，参会人员对应的ID，以及根据会议音频数据生成的会议纪要。

在本实施例中，通过从多种修正方式中选择第一修正方式对第一我呢吧进行修正，得到候选文本，并对不满足输出条件的候选文本从多种修正方式中的第二修正方式，以通过第二修正方式从开源渠道获取修正方式，以此，不仅保证了输出的文本信息的精确性，也使得修正模型能有效的学习到训练数据的多样性。

进一步地，请参照图5，基于上述实施例，在本申请所提供的其中一个示例性实施例中，上述根据第一修正方式对第一文本进行修正，得到候选文本的过程可包括步骤S510至步骤S530，详细介绍如下：

步骤S510，从多个关键词中筛选出与目标文本之间的相关性数值小于预设相关性阈值的目标关键词。

如上述所言，将第一文本进行分词处理得到第一文本中包含的多个关键词，并根据该多个关键词从多个标准文本集合中查找出与第一文本相匹配的目标文本，并计算多个关键词中每一关键词与目标文本之间的相关性数值，其中筛选出相关性数值不满足预设相关性阈值的关键词。

示例性的，例如第一文本为S，将第一文本S进行分词处理后得到S＝A+B+C+D+E，其中，第一文本对应的多个关键词为“A,B,C,D,E”，根据第一文本对应的多个关键词从指定数据库中查找到的与第一文本相匹配的目标文本为S’＝A’+B’+C’+D’+E’，其中，分别计算第一文本的关键词“A,B,C,D,E”与目标文本S’之间的相关性数值，其中，可以通过词向量矩阵计算出第一文本关键词“A,B,C,D,E”分别对应的词向量，再计算目标文本S’对应的词向量序列，然后根据关键词“A,B,C,D,E”各自对应的词向量计算第一文本中每个关键词与目标文本S’之间的相关性数值，并筛选出相关性数值小于预设相关性阈值的关键词。

步骤S520，从目标文本中查找与目标关键词相匹配的待替换词语；

步骤S530，将第一文本中包含的目标关键词替换为待替换词语，得到候选文本。

如上述所言，计算第一文本中包含的多个关键词与第一文本相匹配的目标文本之间的相关性数值，并筛选出相关性数值小于预设相关性阈值的关键词，假设在上述步骤S510中筛选出的相关性数值小于预设相关性阈值的目标关键词为“C,E”，则从目标文本S’中查找“C,E”相匹配的待替换词语；例如，通过相关技术确定目标文本S’中与目标关键词“C,E”相匹配的待替换词语为“C’,E’”。则将第一文本中的目标关键词“C,E”替换为目标文本中的待替换词语“C’,E’”最后得到S1＝A+B+C’+D+E’，其中S1即为候选文本。

在本实施例中，通过从第一文本包含的多个关键词中筛选出与目标文本之间的相关性数值小于预设相关性阈值的目标关键词，并从目标文本中查找出与目标关键词相匹配的待替换词语，并将第一文本中的目标关键词替换为待替换词语以此得到候选文本，不仅避免了人工比对过程，还提高了候选文本的输出效率。

进一步的，基于上述实施例，在本申请所提供的其中一个示例性实施例中，上述根据第一修正方式对第一文本进行修正，得到候选文本的实现过程还可以包括以下步骤：

将第一文本输入至修正模型，以通过修正模型对第一文本进行修正，得到候选文本。

具体的，将第一文本输入文本修正模型，获得该第一文本对应的索引信息，并根据该索引信息获取第一文本对应的修正方案，文本修正模型基于指定数据库中的标准文本集合以及其他资源库中的标准文本集合对第一文本进行修正，并基于文本流畅度、文本信息完整度、文本逻辑完整度等几个方面对文本修正模型的输出进行评估，最后输出第一文本对应的候选文本。并将该候选文本对应于其索引信息的对应关系写入指定数据库中，以此对修正模型进行了参数更新，使得文本修正模型能更有效地学习到训练数据的多样性，提高了文本修正模型输出的准确率。

基于上述实施例，请参照图6，在本申请所提供的其中一个示例性实施例中上述根据第二修正方式对候选文本进行修正，得到满足预设输出条件的第二文本的实现过程可包括步骤S610和步骤S620，详细介绍如下：

步骤S610，从网络中搜索与第一文本相匹配的文本；

步骤S620，根据搜索出的文本对候选文本进行修正，得到满足预设输出条件的第二文本。

如上述所言，当通过文本修正模型输出的候选文本也不满足预设输出条件时，则可以通过从网络中搜索与第一文本相匹配的文本信息，具体的，可以通过对第一文本进行分词处理，得到第一文本包含的多个关键词，并将拆分后的多个关键词中的一个或者多个作为搜索参数，通过脚本爬虫调取文本修正模型外部互联网开源数据中与搜索参数相匹配的文本。例如，若在第一文本中出现方言、俚语等指定数据库不能识别的词汇时，通过在外部互联网平台中获取相匹配的文本，并基于搜索得到的文本对候选文本进行修正，以得到满足预设输出条件的第二文本。并将搜索到的文本与第一文本所属的类别的关系存储到文本修正模型对应的指定数据库中。

在本实施例中，通过从网络中搜索与第一文本相匹配的文本；根据搜索出的文本对候选文本进行修正，得到满足预设输出条件的第二文本。不仅保证了输出的文本的准确性，还丰富了文本修正模型训练数据的多样性，提高了文本修正模型输出的准确率。

请参照图7，图7是本申请的一示例性的应用场景示出的会议音频处理的整体服务流程图。

如图7所示，当服务器从线上会议参会人员的客户端获得得到待处理的会议音频数据后，对会议音频数据进行语音识别处理，得到对应的第一文本，并将第一文本输入文本修正模型中，通过文本修正模型对第一文本进行分词处理，得到第一文本中包含的多个关键词，由此，通过该多个关键词从指定的数据库中匹配出与第一文本相匹配的目标文本。然后，计算第一文本中多个关键词中每一关键词与目标文本之间的相关性数值。基于多个关键词和第一文本之间的关系对多个关键词对应的相关性数值进行加权求和得到第一文本与目标文本之间的相似度数值，当文本修正模型通过将第一文本与目标文本之间的相似度数值与预设相似度阈值进行对比，根据对比结果得知该相似度不小于预设相似度时，则表明第一文本满足预设输出条件，则将第一文本返回给服务器，再由服务器将第一文本返回给用户客户端。若第一文本与目标文本之间的相似度数值小于预设相似度阈值时，则对第一文本进行修正，其中，通过文本修正模型在多种修正方式中选择第一修正方式对第一文本进行修正，得到候选文本，再次判断候选文本是否符合预设输出条件，若判断不符合，再通过文本修正模型在多种修正方式中选择第二修正方式对候选文本进行修正，以得到满足预设输出条件的第二文本，并将第二文本返回给服务器，再由服务器返回给参与线上会议的用户的客户端。

在本实施例中，通过服务器获取待处理会议音频数据并对会议音频处理得到第一文本，并将第一文本输入到文本修正模型，以通过文本修正模型对第一文本进行判断是否满足预设输出条件，若满足，则将第一文本返回给参会者对应的用户端；若不符合，则通过文本修正模型从多种修正方式中选择第一修正方式对第一文本进行修正，得到候选文本；判断候选文本是否满足预设输出条件，若候选文本不满足预设输出条件，则通过文本修正模型从多种修正方式中选择第二修正方式对候选文本进行修正，以得到满足预设输出条件的第二文本，并将第二文本返回给线上会议参与方对应的客户端，以此，不见避免了人工修正过程，而且提高了输出的会议纪要的准确率。

图8是本申请的一示例性实施例示出的一种会议音频处理的装置的框图。如图8所示，该装置包括：

获取模块810，用于获取待处理的会议音频数据，并对会议音频数据进行语音识别，得到第一文本；查找模块820，用于从指定数据库包含的多种类型的标准文本中，查找与第一文本的类型相匹配的标准文本集合，并从标准文本集合中获取与第一文本相匹配的目标文本；比较模块830，用于将第一文本与目标文本进行比较，并根据比较结果判断第一文本是否满足预设输出条件；修正模块840，用于若否，对第一文本进行修正，得到满足预设输出条件的第二文本。

根据本申请实施例的一个方面，查找模块820包括：分词处理单元，用于对第一文本进行分词处理，得到第一文本的关键词；查找子单元，用于从标准文本集合中，查找与关键词相匹配的目标文本。

根据本申请实施例的一个方面，比较模块830包括：计算单元，用于计算第一文本包含的多个关键词中的每个关键词与目标文本之间的相关性数值；加权求和单元，用于对多个关键词对应的相关性数值进行加权求和运算，得到第一文本与目标文本之间的相似度数值；比较单元，用于将相似度数值与预设相似度阈值进行比较，并根据比较结果判断第一文本是否满足预设输出条件。

根据本申请实施例的一个方面，修正模块840包括：第一修正单元，用于从多种修正方式中选择第一修正方式，根据第一修正方式对第一文本进行修正，得到候选文本；判断单元，用于判断候选文本是否满足预设输出条件；第二修正单元，用于若否，从多种修正方式中选择第二修正方式，并根据第二修正方式对候选文本进行修正，得到满足预设输出条件的第二文本；其中，第一修正方式与第二修正方式不同。

根据本申请实施例的一个方面，第一修正单元具体包括：筛选子单元，用于从多个关键词中筛选出与目标文本之间的相关性数值小于预设相关性阈值的目标关键词；查找子单元，用于从目标文本中查找与目标关键词相匹配的待替换词语；替换子单元，用于将第一文本中包含的目标关键词替换为待替换词语，得到候选文本。

根据本申请实施例的一个方面，第一修正单元，还用于将第一文本输入至修正模型，以通过修正模型对第一文本进行修正，得到候选文本。

根据本申请实施例的一个方面，第二修正单元还具体包括：网络搜索至单元，用于从网络中搜索与第一文本相匹配的文本；修正子单元，用于根据搜索出的文本对候选文本进行修正，得到满足预设输出条件的第二文本。

需要说明的是，上述实施例所提供的会议音频处理装置与上述实施例所提供的会议音频处理方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的会议音频处理装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得电子设备实现上述各个实施例中提供的会议音频处理方法。

图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(Central Processing Unit，CPU)901，其可以根据存储在只读存储器(Read-Only Memory，ROM)902中的程序或者从储存部分908加载到随机访问存储器(Random Access Memory，RAM)903中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 903中，还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output，I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分907；包括硬盘等的储存部分908；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入储存部分908。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前的会议音频处理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的会议音频处理方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种会议音频处理方法，其特征在于，包括：

获取待处理的会议音频数据，并对所述会议音频数据进行语音识别，得到第一文本；

从指定数据库包含的多种类型的标准文本中，查找与所述第一文本的类型相匹配的标准文本集合，并从所述标准文本集合中获取与所述第一文本相匹配的目标文本；

将所述第一文本与所述目标文本进行比较，并根据比较结果判断所述第一文本是否满足预设输出条件；

若否，对所述第一文本进行修正，得到满足所述预设输出条件的第二文本。

2.如权利要求1所述的方法，其特征在于，所述从所述标准文本集合中获取与所述第一文本相匹配的目标文本，包括：

对所述第一文本进行分词处理，得到所述第一文本的关键词；

从所述标准文本集合中，查找与所述关键词相匹配的目标文本。

3.如权利要求1所述的方法，其特征在于，所述将所述第一文本与所述目标文本进行比较，并根据比较结果判断所述第一文本是否满足预设输出条件，包括：

计算所述第一文本包含的多个关键词中的每个关键词与所述目标文本之间的相关性数值；

对所述多个关键词对应的相关性数值进行加权求和运算，得到所述第一文本与所述目标文本之间的相似度数值；

将所述相似度数值与预设相似度阈值进行比较，并根据比较结果判断所述第一文本是否满足预设输出条件。

4.如权利要求3所述的方法，其特征在于，所述对所述第一文本进行修正，得到满足所述预设输出条件的第二文本，包括：

从多种修正方式中选择第一修正方式，根据所述第一修正方式对所述第一文本进行修正，得到候选文本；

判断所述候选文本是否满足预设输出条件；

若否，从所述多种修正方式中选择第二修正方式，并根据所述第二修正方式对所述候选文本进行修正，得到满足所述预设输出条件的第二文本；其中，所述第一修正方式与所述第二修正方式不同。

5.如权利要求4所述的方法，其特征在于，所述根据所述第一修正方式对所述第一文本进行修正，得到候选文本，包括：

从所述多个关键词中筛选出与所述目标文本之间的相关性数值小于预设相关性阈值的目标关键词；

从所述目标文本中查找与所述目标关键词相匹配的待替换词语；

将所述第一文本中包含的所述目标关键词替换为所述待替换词语，得到所述候选文本。

6.如权利要求4所述的方法，其特征在于，所述根据所述第一修正方式对所述第一文本进行修正，得到候选文本，包括：

将所述第一文本输入至修正模型，以通过所述修正模型对所述第一文本进行修正，得到所述候选文本。

7.如权利要求4所述的方法，其特征在于，所述根据所述第二修正方式对所述候选文本进行修正，得到满足所述预设输出条件的第二文本，包括：

从网络中搜索与所述第一文本相匹配的文本；

根据搜索出的文本对所述候选文本进行修正，得到满足所述预设输出条件的第二文本。

8.一种会议音频处理装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的会议音频数据，并对所述会议音频数据进行语音识别，得到第一文本；

查找模块，用于从指定数据库包含的多种类型的标准文本中，查找与所述第一文本的类型相匹配的标准文本集合，并从所述标准文本集合中获取与所述第一文本相匹配的目标文本；

比较模块，用于将所述第一文本与所述目标文本进行比较，并根据比较结果判断所述第一文本是否满足预设输出条件；

修正模块，用于若否，对所述第一文本进行修正，得到满足所述预设输出条件的第二文本。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至7中任一项所述的会议音频处理方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1至7中任一项所述的会议音频处理方法。