CN113421572A

CN113421572A - 实时音频对话报告生成方法、装置、电子设备及存储介质

Info

Publication number: CN113421572A
Application number: CN202110695502.0A
Authority: CN
Inventors: 侯晓龙; 任俊松
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-09-21
Anticipated expiration: 2041-06-23
Also published as: CN113421572B

Abstract

本发明涉及人工智能技术领域，提供一种实时音频对话报告生成方法、装置、电子设备及存储介质，所述方法包括：实时上报当前句的音频对话，并进行解码，对得到的当前句的目标音频进行ASR识别，得到当前句的第一转录文本；对当前句的第一转录文本进行第一预处理，得到当前句的第二转录文本；以当前句的第二转录文本为中心动态切割音频对话，确定当前句的目标转录文本；并输入至预先训练好的预测模型中，得到当前句的预测结果；当侦测到音频对话结束时，对所有句子预测结果进行聚合，得到音频对话的对话报告。本发明通过动态切割音频对话，对话结束后将所有句子的预测结果进行聚合得到对话报告，提高了对话报告生成效率和准确率。

Description

实时音频对话报告生成方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种实时音频对话报告生成方法、装置、电子设备及存储介质。

背景技术

目前在进行音频对话处理过程中，针对长对话音频，等音频对话结束时，对音频对话进行总结报告生成。

然而，由于长对话音频，转录后的文本多则上千轮，如果对话报告在对话结束后再分析，一方面，由于转录后的文本数量较多，引起对话报告生成时间较长，导致对话报告延迟；另一方面，短时间内集中对大批量文本进行主题、客户关注点、客户意愿的预测等，会给服务器带来巨大的压力，进而影响文本预测准确率及效率，导致对话报告生成效率和准确率低下。

因此，有必要提出一种可以快速准确的生成音频对话报告的方法。

发明内容

鉴于以上内容，有必要提出一种实时音频对话报告生成方法、装置、电子设备及存储介质，通过动态切割音频对话，对话结束后将所有句子的预测结果进行聚合得到对话报告，提高了对话报告生成效率和准确率。

本发明的第一方面提供一种实时音频对话报告生成方法，所述方法包括：

响应于音频对话请求，查询是否存在空闲ASR资源；

当存在空闲ASR资源时，控制所述空闲ASR资源对应的第一录音装置录制音频对话，实时上报录制的当前句的音频对话，并对所述当前句的音频对话进行解码，得到当前句的目标音频；

对所述当前句的目标音频进行ASR识别，得到所述当前句的第一转录文本；

对所述当前句的第一转录文本进行第一预处理，得到所述当前句的第二转录文本；

将所述当前句的第二转录文本发送至消息队列中，实时监听消息队列并接收当前句的第二转录文本；

设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本；

将所述当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，继续执行上述过程直至所述音频对话结束；

通过所述空闲ASR资源对所述音频对话的所有句子的预测结果进行聚合，得到所述音频对话的对话报告。

可选地，所述设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本包括：

设定所述当前句的第二转录文本为中心，向上切割预设数量的上文句子，及向下切割与上文句子数量相同的下文句子；

合并所述当前句的第二转录文本、上文句子和下文句子生成一个对话滑窗，并将所述对话滑窗中的所有转录文本确定为所述当前句的目标转录文本。

设定所述当前句的第二转录文本为中心，计算所述当前句的第二转录文本与上一个语义滑窗的转录文本之间的第一语义相似度，及计算所述当前句的第二转录文本与下一句的转录文本的第二语义相似度；

判断所述第一语义相似度和所述第二语义相似度是否满足相似度要求；

当所述第一语义相似度和所述第二语义相似度满足相似度要求时，将所述第一语义相似度和所述第二语义相似度进行比较；

当所述第一语义相似度大于或者等于第二语义相似度时，将所述当前句的第二转录文本划至上一个语义滑窗，得到第一语义滑窗，并将所述第一语义滑窗中的所有转录文本确定为所述当前句的目标转录文本；或者

当所述第一语义相似度小于所述第二语义相似度时，将所述当前句的第二转录文本和所述下一句的转录文本划为一个语义滑窗，得到第二语义滑窗，并将所述第二语义滑窗中的所有转录文本确定为所述当前句的目标转录文本。

可选地，所述判断所述第一语义相似度和所述第二语义相似度是否满足相似度要求包括：

将所述第一语义相似度与预设的语义相似度阈值进行比较，及将所述第二语义相似度与所述预设的语义相似度阈值进行比较；

当所述第一语义相似度大于或者等于所述语义相似度阈值时，确定所述第一语义相似度满足相似度条件，及当所述第二语义相似度大于或者等于所述语义相似度阈值时，确定所述第二语义相似度满足相似度条件；或者

当所述第一语义相似度小于所述语义相似度阈值时，确定所述第一语义相似度不满足相似度条件，及当所述第二语义相似度小于所述语义相似度阈值时，确定所述第二语义相似度不满足相似度条件。

可选地，所述方法还包括：

当所述第一语义相似度满足相似度要求，且所述第二语义相似度不满足相似度要求时，将所述当前句的第二转录文本划至上一个语义滑窗，得到第一语义滑窗，并将所述第一语义滑窗中的所有转录文本确定为所述当前句的目标转录文本；或者

当所述第一语义相似度不满足相似度要求，且所述第二语义相似度满足相似度要求时，将所述当前句的第二转录文本和所述下一句的转录文本划为一个语义滑窗，得到第二语义滑窗，并将所述第二语义滑窗中的所有转录文本确定为所述当前句的目标转录文本；或者

当所述第一语义相似度不满足相似度要求，及所述第二语义相似度不满足相似度要求时，将所述当前句的第二转录文本作为一个语义滑窗，并将所述当前句的第二转录文本确定为所述当前句的目标转录文本。

可选地，所述计算所述当前句的第二转录文本与上一个语义滑窗的转录文本之间的第一语义相似度包括：

计算所述当前句的第二转录文本与所述上一个语义滑窗中的每个转录文本之间的相似度，并从相似度中选取出相似度最大的作为第一语义相似度；或者

计算所述当前句的第二转录文本与所述上一个语义滑窗中的每个转录文本之间的相似度，对计算得到的相似度求平均值，将所述平均值作为第一语义相似度。

可选地，所述对所述当前句的第一转录文本进行第一预处理，得到当前句的第二转录文本包括：

对所述当前句的第一转录文本进行口语纠错得到第一文本；

采用实体识别算法对所述第一文本进行实体识别，得到第二文本；

对所述第二文本进行依存句法分析，根据所述依存句法分析结果抽取对应句子的句子主干，得到第三文本；

识别所述第三文本中的指代关系，基于识别得到的指代关系对所述第三文本进行指代消解处理，得到第四文本；

将所述第四文本作为所述当前句的第二转录文本。

本发明的第二方面提供一种实时音频对话报告生成装置，所述装置包括：

查询模块，用于响应于音频对话请求，查询是否存在空闲ASR资源；

控制模块，用于当存在空闲ASR资源时，控制所述空闲ASR资源对应的第一录音装置录制音频对话，实时上报录制的当前句的音频对话，并对所述当前句的音频对话进行解码，得到当前句的目标音频；

识别模块，用于对所述当前句的目标音频进行ASR识别，得到所述当前句的第一转录文本；

预处理模块，用于对所述当前句的第一转录文本进行第一预处理，得到所述当前句的第二转录文本；

监听模块，用于将所述当前句的第二转录文本发送至消息队列中，实时监听消息队列并接收当前句的第二转录文本；

动态切割模块，用于设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本；

输入模块，用于将所述当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，继续执行上述过程直至所述音频对话结束；

聚合模块，用于通过所述空闲ASR资源对所述音频对话的所有句子的预测结果进行聚合，得到所述音频对话的对话报告。

本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的实时音频对话报告生成方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的实时音频对话报告生成方法。

综上所述，本发明所述的实时音频对话报告生成方法、装置、电子设备及存储介质，一方面，通过将所述当前句的第二转录文本发送至消息队列中，实时监听消息队列并接收当前句的第二转录文本，设定所述当前句的第二转录文本为中心动态切割所述音频对话确定所述当前句的目标转录文本，并将当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，对话结束后将所有句子的预测结果进行聚合得到对话报告，提高了对话报告的生成效率和准确率；另一方面，对所述当前句的第一转录文本进行第一预处理得到当前句的第二转录文本，通过对所述第一转录文件进行口语纠错、实体识别、句子主干抽取、指代消解处理，通过串行的方式得到当前句的第二转录文本，纠正了第一转录文本中的错误，剔除了第一转录文本中存在干扰的背景成分，有效减少文本数量，并且根据指代关系对第三文本中的成分进行了替代，将具有相同指代关系的文本采用统一的表达式，提高了第二转录文本的文本质量，能够获得更加清晰的语义信息；最后，控制所述空闲ASR资源对应的第一录音装置录制所述音频对话，实时上报录制的当前句的音频对话，通过为每个ASR资源设置第一录音装置，可以避免将多个音频对话都录制到一个录音装置中，导致录音的音频对话数据混乱的现象，提高了音频对话录制的准确率。

附图说明

图1是本发明实施例一提供的实时音频对话报告生成方法的流程图。

图2是本发明实施例一提供的确定当前句的目标转录文本的示意图。

图3是本发明实施例二提供的实时音频对话报告生成装置的结构图。

图4是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

在本实施例中，所述实时音频对话报告生成方法可以应用于电子设备中，对于需要进行实时音频对话报告生成的电子设备，可以直接在电子设备上集成本发明的方法所提供的实时音频对话报告生成的功能，或者以软件开发工具包(Software Development Kit，SDK)的形式运行在电子设备中。

如图1所示，所述实时音频对话报告生成方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，响应于音频对话请求，查询是否存在空闲ASR资源。

本实施例中，客户在进行音频对话时，通过客户端发起音频对话请求至服务端，具体地，所述客户端可以是智能手机、IPAD或者其他现有的具有语音功能的设备，所述服务端可以为语音识别系统，如所述客户端向所述语音识别系统发送音频对话请求，所述服务端接收所述音频对话请求，并响应于所述音频对话请求，由于在进行音频对话时，ASR资源有限，需要查询是否存在空闲的ASR资源，具体地，所述ASR资源可以为一种语音识别系统，用以收集预测结果。

S12，当存在空闲ASR资源时，控制所述空闲ASR资源对应的第一录音装置录制音频对话，实时上报录制的当前句的音频对话，并对所述当前句的音频对话进行解码，得到当前句的目标音频。

本实施例中，当确定存在空闲ASR资源时，确定可以进行在线语音识别，具体地，每个ASR资源对应一个第一录制装置，控制所述空闲ASR资源对应的第一录音装置录制所述音频对话，实时上报录制的每一句的音频对话，并对实时上报的当前句的音频对话进行解码，通过为每个ASR资源设置第一录音装置，可以避免将多个音频对话都录制到一个录音装置中，导致录音的音频对话数据混乱的现象，提高了音频对话录制的准确率。

在一个可选的实施例中，所述对所述当前句的音频对话进行解码，得到当前句的目标音频包括：

从所述当前句的音频对话中提取音频码流；

采用预设的类库对所述音频码流进行解码，获取当前句的目标音频。

本实施例中，当服务端接收到当前句的音频对话时，对当前句的音频对话做解码操作，使用的预设的类库来处理，获取当前句的目标音频。

进一步地，所述方法还包括：

当不存在空闲ASR资源时，控制第二录音装置录制所述音频对话，并将所述音频对话存储至离线ASR资源中。

本实施例中，当确定不存在空闲ASR资源时，确定需要进行离线语音识别，具体地，所述离线语音识别过程同在线语音识别过程，本实施例不再做详细阐述。

S13，对所述当前句的目标音频进行ASR识别，得到所述当前句的第一转录文本。

本实施例中，所述ASR(Automatic Speech Recognition，语音识别技术)用于将人类语音中的词汇内容转换为计算机可读的内容，即将音频数据转换为文本数据。

S14，对所述当前句的第一转录文本进行第一预处理，得到所述当前句的第二转录文本。

本实施例中，可以预先设置第一预处理，所述第一预处理可以根据所述音频对话的等级进行设置。

在其他可选的实施例中，所述第一预处理可以包括以下任意一种或者多种组合：口语纠错、实体识别、句子主干抽取及指代消解处理。

具体地，所述对所述当前句的第一转录文本进行第一预处理，得到当前句的第二转录文本包括：

对所述当前句的第一转录文本进行口语纠错得到第一文本；

将所述第四文本作为所述当前句的第二转录文本。

本实施例中，所述口语纠错是指通过标准发音人对照第一转录文本进行录音后得到录音音频，将录音音频切分为一系列音标发音，并提取每一音标发音的特征参量，由音标发音分类模块判断客户的口型和舌位进行口语纠错，确保第一文本的文本质量；所述实体识别是指采用实体识别算法识别出所述第一文本中的实体，具体地，所述实体可以为名词、动词等，例如，针对音频对话中的客户需求信息识别过程中，若产品的种类比较繁多，并且产品的名称比较相近，为了避免在客户需求信息识别过程中将产品名称混淆，需要对所述第一文本进行实体识别，每个实体代表一个产品的名称，提高了文本识别的准确率；所述句子主干抽取是指将第二文本中的每个句子，根据依存句法分析结果进行句子主干抽取；所述指代消解处理是指将所述第三文本中具有相同指代关系的名词、代词和零代词中至少一种进行消解，从而使具有相同指代关系的成分可以采用统一的表达方式，例如，上一句：“我想要购买M产品”，当前句：“该产品具有什么功效”，基于对话上下文确定上一句与当前句的指代关系，将当前句“该产品具有什么功效”进行指代消解处理后得到“M产品具有什么功效”，使得语义信息更加的清晰。

本实施例中，通过对所述第一转录文件进行口语纠错、实体识别、句子主干抽取、指代消解处理，通过串行的方式得到当前句的第二转录文本，纠正了第一转录文本中的错误，剔除了第一转录文本中存在干扰的背景成分，有效减少文本数量，并且根据指代关系对第三文本中的成分进行了替代，将具有相同指代关系的文本采用统一的表达式，提高了第二转录文本的文本质量，能够获得更加清晰的语义信息。

S15，将所述当前句的第二转录文本发送至消息队列中，实时监听消息队列并接收当前句的第二转录文本。

本实施例中，所述消息队列用于接收实时传输的当前句的第二转录文本，并根据所述音频对话的上下文动态切割所述音频对话，确定所述当前句的目标转录文本。

在一个可选的实施例中，所述将所述当前句的第二转录文本发送至消息队列中包括：

标记所述当前句的第二转录文本的音频对话ID和对话时间，按照对话时间先后顺序将所述当前句的第二转录文本发送至所述消息队列对应的位置。

本实施例中，通过将当前句的第二转录文本发送至消息队列的对应的位置进行存储，提高了转录文本的管理效率。

S16，设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本。

本实施例中，所述动态切割用以表征对所述音频对话中的多个句子进行实时切分，确定当前句的目标转录文本。

在一个可选的实施例中，所述设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本包括：

在其他可选的实施例中，所述设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本包括：

如图2所示，示例性地，当前句为第6句，W1为W2的上一个语义滑窗，W2为当前句的第二转录文本的上一个语义滑窗，计算当前句的第二转录文本与W2的转录文本之间的第一语义相似度，计算当前句的第二转录文本与当前句的下一句的转录文本之间的第二语义相似度，根据所述第一语义相似度和第二语义相似度确定当前句的目标转录文本。

进一步地，所述判断所述第一语义相似度和所述第二语义相似度是否满足相似度要求包括：

本实施例中，可以预先设置语义相似度阈值，通过将所述第一语义相似度和所述第二语义相似度与所述语义相似度阈值进行比较，根据比较结果确定第一语义相似度及所述第二语义相似度是否满足相似度条件，若所述第一语义相似度满足相似度条件时，确定当前句的第二转录文本与上一个语义滑窗的转录文本之间的语义相似，若所述第一语义相似度不满足相似度条件时，确定当前句的第二转录文本与上一个语义滑窗的转录文本之间的语义不相似；若所述第二语义相似度满足相似度条件时，确定当前句的第二转录文本与下一句的转录文本之间的语义相似，若所述第二语义相似度不满足相似度条件时，确定当前句的第二转录文本与下一句的转录文本之间的语义不相似。

进一步地，所述方法还包括：

本实施例中，若所述第一语义相似度与所述第二语义相似度都不满足相似度要求时，确定所述当前句的第二转录文本与上一个语义滑窗和下一句的转录文本之间的语义不相似，将所述当前句的第二转录文本作为一个单独的语义滑窗，提高了语义滑窗确定的准确率。

进一步地，所述计算所述当前句的第二转录文本与上一个语义滑窗的转录文本之间的第一语义相似度包括：

本实施例中，第一语义相似度可以为计算的当前句的第二转录文本与所述上一个语义滑窗中的每个转录文本之间的最大的相似度，也可以为计算得到的相似度求平均值，提高了第一语义相似度的多样性和灵活性。

S17，将所述当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，继续执行上述过程直至所述音频对话结束。

本实施例中，在得到当前句的预测结果之后，继续执行所述控制所述空闲ASR资源对应的第一录音装置录制音频对话，实时上报录制的当前句的下一句音频对话，并对所述当前句的下一句音频对话进行解码，得到当前句的下一句的目标音频至所述将所述当前句的下一句目标转录文本输入至预先训练好的预测模型中，得到当前句的下一句预测结果，直至所述音频对话结束，得到整个音频对话的所有句子的预测结果。

本实施例中，可以预先训练预测模型，其中，所述预测模型中的预测类别可以根据音频对话请求的主题进行设置，将所述预测模型训练好之后，将所述当前句的目标转录文本输入至所述预先训练好的预测模型中，可以快速得到当前句的音频对话结果。

具体地，所述预测模型的训练过程包括：

获取多个预测类别及每个预测类别对应的语料文本作为样本数据集；

从所述样本数据集中按照预设的划分规则划分出训练集和验证集；

将所述训练集输入预设神经网络中进行训练，得到预测模型；

将所述验证集输入至所述预测模型中进行测试，并计算测试通过率；

若所述测试通过率大于预设通过率阈值，确定所述预测模型训练结束；若所述测试通过率小于预设通过率阈值，增加训练集的数量，重新进行预测模型的训练。

本实施例中，所述预测类别可以包括：讲解主题、客户关注点、客户异仪、客户的购买意愿及客户的画像信息等类别，在进行预测模型的训练过程中，可以预先设置划分规则，例如，可以按照70％和30％比例将样本数据集划分为训练集和验证集，基于预设神经网络中进行训练，所述预设神经网络可以为BiRNN+Attention深度学习框架，训练分类模型，采用attention机制可以更好的表征文本，使训练出的模型具有更高的精度。

本实施例中，预测模型输出的当前句的预测结果可以包括讲解主题、客户关注点、客户异仪、客户的购买意愿及客户的画像信息。

S18，通过所述空闲ASR资源对所述音频对话的所有句子的预测结果进行聚合，得到所述音频对话的对话报告。

本实施例中，由于每个句子对应一个预测结果，一个空闲ASR资源中包含有所有句子的预测结果，故将一个空闲ASR资源的所有句子的预测结果进行聚合得到所述音频对话的对话报告。

本实施例中，在进行音频对话时，特别是针对长对话音频，转录后的文本多则上千轮，如果对话报告在对话结束后再分析，一方面，由于转录后的文本数量较多，引起对话报告生成时间较长，导致对话报告延迟；另一方面，短时间内集中对大批量文本进行主题、客户关注点、客户意愿的预测等，会给服务器带来巨大的压力，进而影响文本预测准确率及效率，导致对话报告生成效率和准确率低下，本实施例通过实时监听消息队列中的消息，并基于音频对话的上下文，设定所述当前句的第二转录文本为中心，进行动态切割，得到当前句的目标转录文本，并将当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，对话结束后将所有句子的预测结果进行聚合得到对话报告，提高了对话报告的生成效率和准确率。

进一步地，所述方法还包括：

识别每个预测类别在预设的对话报告模板中的目标位置；

根据预测类别对所述对话报告进行归类，并将每个预测类别的对话报告进行去重处理，得到每个预测类别的目标对话报告；

将每个预测类别的目标对话报告嵌入至所述预设的对话报告模板对应的目标位置，生成所述音频对话的目标对话报告。

本实施例中，通过将所述音频对话的对话报告进行归类及去重处理后，嵌入至预设的对话报告模板中的目标位置，得到所述音频对话的目标对话报告，统一了目标对话报告的格式，提高目标对话报告管理效率及可读性。

综上所述，本实施例所述的一种实时音频对话报告生成方法，一方面，通过将所述当前句的第二转录文本发送至消息队列中，实时监听消息队列并接收当前句的第二转录文本，设定所述当前句的第二转录文本为中心动态切割所述音频对话确定所述当前句的目标转录文本，并将当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，对话结束后将所有句子的预测结果进行聚合得到对话报告，提高了对话报告的生成效率和准确率；另一方面，对所述当前句的第一转录文本进行第一预处理得到当前句的第二转录文本，通过对所述第一转录文件进行口语纠错、实体识别、句子主干抽取、指代消解处理，通过串行的方式得到当前句的第二转录文本，纠正了第一转录文本中的错误，剔除了第一转录文本中存在干扰的背景成分，有效减少文本数量，并且根据指代关系对第三文本中的成分进行了替代，将具有相同指代关系的文本采用统一的表达式，提高了第二转录文本的文本质量，能够获得更加清晰的语义信息；最后，控制所述空闲ASR资源对应的第一录音装置录制所述音频对话，实时上报录制的当前句的音频对话，通过为每个ASR资源设置第一录音装置，可以避免将多个音频对话都录制到一个录音装置中，导致录音的音频对话数据混乱的现象，提高了音频对话录制的准确率。

实施例二

在一些实施例中，所述实时音频对话报告生成装置30可以包括多个由程序代码段所组成的功能模块。所述实时音频对话报告生成装置30中的各个程序段的程序代码可以存储于电子设备的存储器中，并由所述至少一个处理器所执行，以执行(详见图1和图2描述)实时音频对话报告生成的功能。

本实施例中，所述实时音频对话报告生成装置30根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：查询模块301、控制模块302、识别模块303、预处理模块304、监听模块305、动态切割模块306、输入模块307及聚合模块308。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

查询模块301，用于响应于音频对话请求，查询是否存在空闲ASR资源。

控制模块302，用于当存在空闲ASR资源时，控制所述空闲ASR资源对应的第一录音装置录制音频对话，实时上报录制的当前句的音频对话，并对所述当前句的音频对话进行解码，得到当前句的目标音频。

在一个可选的实施例中，所述控制模块302对所述当前句的音频对话进行解码，得到当前句的目标音频包括：

从所述当前句的音频对话中提取音频码流；

进一步地，当不存在空闲ASR资源时，控制第二录音装置录制所述音频对话，并将所述音频对话存储至离线ASR资源中。

识别模块303，用于对所述当前句的目标音频进行ASR识别，得到所述当前句的第一转录文本。

预处理模块304，用于对所述当前句的第一转录文本进行第一预处理，得到所述当前句的第二转录文本。

对所述当前句的第一转录文本进行口语纠错得到第一文本；

将所述第四文本作为所述当前句的第二转录文本。

监听模块305，用于将所述当前句的第二转录文本发送至消息队列中，实时监听消息队列并接收当前句的第二转录文本。

在一个可选的实施例中，所述监听模块305将所述当前句的第二转录文本发送至消息队列中包括：

动态切割模块306，用于设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本。

在一个可选的实施例中，所述动态切割模块306设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本包括：

在其他可选的实施例中，所述动态切割模块306设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本包括：

进一步地，当所述第一语义相似度满足相似度要求，且所述第二语义相似度不满足相似度要求时，将所述当前句的第二转录文本划至上一个语义滑窗，得到第一语义滑窗，并将所述第一语义滑窗中的所有转录文本确定为所述当前句的目标转录文本；或者

输入模块307，用于将所述当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，继续执行上述过程直至所述音频对话结束。

具体地，所述预测模型的训练过程包括：

聚合模块308，用于通过所述空闲ASR资源对所述音频对话的所有句子的预测结果进行聚合，得到所述音频对话的对话报告。

进一步地，识别每个预测类别在预设的对话报告模板中的目标位置；根据预测类别对所述对话报告进行归类，并将每个预测类别的对话报告进行去重处理，得到每个预测类别的目标对话报告；将每个预测类别的目标对话报告嵌入至所述预设的对话报告模板对应的目标位置，生成所述音频对话的目标对话报告。

综上所述，本实施例所述的一种实时音频对话报告生成装置，一方面，通过将所述当前句的第二转录文本发送至消息队列中，实时监听消息队列并接收当前句的第二转录文本，设定所述当前句的第二转录文本为中心动态切割所述音频对话确定所述当前句的目标转录文本，并将当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，对话结束后将所有句子的预测结果进行聚合得到对话报告，提高了对话报告的生成效率和准确率；另一方面，对所述当前句的第一转录文本进行第一预处理得到当前句的第二转录文本，通过对所述第一转录文件进行口语纠错、实体识别、句子主干抽取、指代消解处理，通过串行的方式得到当前句的第二转录文本，纠正了第一转录文本中的错误，剔除了第一转录文本中存在干扰的背景成分，有效减少文本数量，并且根据指代关系对第三文本中的成分进行了替代，将具有相同指代关系的文本采用统一的表达式，提高了第二转录文本的文本质量，能够获得更加清晰的语义信息；最后，控制所述空闲ASR资源对应的第一录音装置录制所述音频对话，实时上报录制的当前句的音频对话，通过为每个ASR资源设置第一录音装置，可以避免将多个音频对话都录制到一个录音装置中，导致录音的音频对话数据混乱的现象，提高了音频对话录制的准确率。

实施例三

参阅图4所示，为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备4包括存储器41、至少一个处理器42、至少一条通信总线43及收发器44。

本领域技术人员应该了解，图4示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备4还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述电子设备4是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备4还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述电子设备4仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器41用于存储程序代码和各种数据，例如安装在所述电子设备4中的实时音频对话报告生成装置30，并在电子设备4的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器41包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器42可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器42是所述电子设备4的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备4的各个部件，通过运行或执行存储在所述存储器41内的程序或者模块，以及调用存储在所述存储器41内的数据，以执行电子设备4的各种功能和处理数据。

在一些实施例中，所述至少一条通信总线43被设置为实现所述存储器41以及所述至少一个处理器42等之间的连接通信。

尽管未示出，所述电子设备4还可以包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理装置与所述至少一个处理器42逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图3，所述至少一个处理器42可执行所述电子设备4的操作装置以及安装的各类应用程序(如所述的实时音频对话报告生成装置30)、程序代码等，例如，上述的各个模块。

所述存储器41中存储有程序代码，且所述至少一个处理器42可调用所述存储器41中存储的程序代码以执行相关的功能。例如，图3中所述的各个模块是存储在所述存储器41中的程序代码，并由所述至少一个处理器42所执行，从而实现所述各个模块的功能以达到实时音频对话报告生成的目的。

在本发明的一个实施例中，所述存储器41存储多个指令，所述多个指令被所述至少一个处理器42所执行以实现实时音频对话报告生成的功能。

具体地，所述至少一个处理器42对上述指令的具体实现方法可参考图1和图2对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种实时音频对话报告生成方法，其特征在于，所述方法包括：

响应于音频对话请求，查询是否存在空闲ASR资源；

设定所述当前句的第二转录文本为中心，动态切割所述音频对话，确定所述当前句的目标转录文本；

将所述当前句的目标转录文本输入至预先训练好的预测模型中，得到当前句的预测结果，继续执行上述过程直至所述音频对话结束

2.如权利要求1所述的实时音频对话报告生成方法，其特征在于，所述设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本包括：

3.如权利要求1所述的实时音频对话报告生成方法，其特征在于，所述设定所述当前句的第二转录文本为中心动态切割所述音频对话，确定所述当前句的目标转录文本包括：

4.如权利要求3所述的实时音频对话报告生成方法，其特征在于，所述判断所述第一语义相似度和所述第二语义相似度是否满足相似度要求包括：

5.如权利要求4所述的实时音频对话报告生成方法，其特征在于，所述方法还包括：

6.如权利要求2所述的实时音频对话报告生成方法，其特征在于，所述计算所述当前句的第二转录文本与上一个语义滑窗的转录文本之间的第一语义相似度包括：

7.如权利要求1所述的实时音频对话报告生成方法，其特征在于，所述对所述当前句的第一转录文本进行第一预处理，得到当前句的第二转录文本包括：

对所述当前句的第一转录文本进行口语纠错得到第一文本；

将所述第四文本作为所述当前句的第二转录文本。

8.一种实时音频对话报告生成装置，其特征在于，所述装置包括：

控制模块，用于当存在空闲ASR资源时，控制所述空闲ASR资源对应的第一录音装置录制目标音频对话，实时上报录制的当前句的音频对话，并对所述当前句的音频对话进行解码，得到当前句的目标音频；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的实时音频对话报告生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的实时音频对话报告生成方法。