CN115811568A

CN115811568A - 语音对话日志生成方法、装置、设备及存储介质

Info

Publication number: CN115811568A
Application number: CN202211438797.4A
Authority: CN
Inventors: 潘劲松; 赖勇铨; 陈步闲
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-03-17

Abstract

本发明涉及音频处理技术领域，公开了一种语音对话日志生成方法、装置、设备及存储介质。该方法通过将第一语音数据和第一文本序列进行音字对齐处理，获得第一文本序列中各语音文字在第一语音数据中的第一时间戳，将第二语音数据和第二文本序列进行音字对齐处理，获得第二文本序列中各语音文字在第二语音数据中的第二时间戳；根据第一时间戳以及第二时间戳将第一说话人、第二说话人、第一文本序列以及第二文本序列进行拼接处理，获得与音频数据对应的语音对话日志，能够提高语音记录的准确性，有效防止多轮对话中，不同说话人之间的对话出现上下文关系错位的现象。

Description

语音对话日志生成方法、装置、设备及存储介质

技术领域

本发明涉及音频处理技术领域，特别是涉及一种语音对话日志生成方法、装置、设备及存储介质。

背景技术

在智能外呼和客服领域，需要记录坐席和客户的说话内容及对应的时间戳，形成多轮对话日志。通过分析历史对话日志，可以用于坐席质检，坐席辅助，用户画像分析等任务，从而对坐席对话内容的合规性进行稽核与审查，同时为客户提供个性化的定制服务，进一步提升客户服务体验。

目前，一般通过语音识别(ASR)与语音活性检测(VAD)的相关技术生成对话日志，但是，现有的对话日志生成方法中，坐席和客户间的对话会存在上下文关系错位的现象，即日志中记录的坐席和客户的对话顺序和真实发生的对话顺序不一致，导致后续对话分析结果产生干扰。

发明内容

本发明提供一种语音对话日志生成方法、装置、设备及存储介质，能够提高语音记录的准确性，有效防止多轮对话中，不同说话人之间的对话出现上下文关系错位的现象。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种语音对话日志生成方法，包括：

获取音频数据，对所述音频数据进行预处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据；

分别将所述第一语音数据和所述第二语音数据输入训练好的语音识别模型中，获得与所述第一语音数据对应的第一文本序列和与所述第二语音数据对应的第二文本序列；

将所述第一语音数据和所述第一文本序列进行音字对齐处理，并将所述第二语音数据和所述第二文本序列进行音字对齐处理，获得所述第一文本序列中各语音文字在所述第一语音数据中的第一时间戳以及所述第二文本序列中各语音文字在所述第二语音数据中的第二时间戳；

根据所述第一时间戳以及所述第二时间戳将所述第一说话人、所述第二说话人、所述第一文本序列以及所述第二文本序列进行拼接处理，获得与所述音频数据对应的语音对话日志。

根据本发明的一个实施例，所述将所述第一语音数据和所述第一文本序列进行音字对齐处理，并将所述第二语音数据和所述第二文本序列进行音字对齐处理，获得所述第一文本序列中各语音文字在所述第一语音数据中的第一时间戳以及所述第二文本序列中各语音文字在所述第二语音数据中的第二时间戳包括：

获取所述第一语音数据的音频特征和所述第二语音数据的音频特征；

将所述第一语音数据的音频特征和所述第一文本序列输入音字对齐模型中，获得所述第一语音数据中每帧对应所述第一文本序列的语音文字，确定所述第一文本序列中各语音文字在所述第一语音数据中的第一时间戳；

将所述第二语音数据的音频特征和所述第二文本序列输入音字对齐模型中，获得所述第二语音数据中每帧对应所述第二文本序列的语音文字，确定所述第二文本序列中各语音文字在所述第二语音数据中的第二时间戳。

根据本发明的一个实施例，所述根据所述第一时间戳以及所述第二时间戳将所述第一说话人、所述第二说话人、所述第一文本序列以及所述第二文本序列进行拼接处理，获得与所述音频数据对应的语音对话日志包括：

将所述第一时间戳作为标签对所述第一文本序列中各语音文字进行打标处理，将所述第二时间戳作为标签对所述第二文本序列中各语音文字进行打标处理；

按照时间戳对打标处理结果进行排序；

根据排序结果将所述第一说话人、所述第二说话人、打标处理后的各语音文字进行拼接处理，获得与所述音频数据对应的语音对话日志。

根据本发明的一个实施例，所述获取音频数据，对所述音频数据进行预处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据包括：

获取基于人机交互产生的音频数据，所述音频数据包含多段音频、各段音频的通道标识以及时间信息；

根据所述通道标识对所述音频数据进行分类处理，将所述音频数据分成与所述第一说话人对应的音频以及与所述第二所述人对应的音频；

对同一说话人的音频进行拼接处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据。

根据本发明的一个实施例，所述分别将所述第一语音数据和所述第二语音数据输入训练好的语音识别模型中，获得与所述第一语音数据对应的第一文本序列和与所述第二语音数据对应的第二文本序列包括：

分别将所述第一语音数据和所述第二语音数据输入训练好的语音识别模型中，以对所述第一语音数据或所述第二语音数据进行声纹识别，确定至少一种声音特征的语音数据；

获取各所述声音特征在所述第一语音数据或所述第二语音数据中的语音时长和声音频谱；

根据所述语音时长和所述声音频谱从所述语音数据中确定目标说话人的目标语音数据，以对所述目标语音数据进行文本转换，获得与所述第一语音数据对应的第一文本序列和与所述第二语音数据对应的第二文本序列。

根据本发明的一个实施例，所述分别将所述第一语音数据和所述第二语音数据输入训练好的语音识别模型中，获得与所述第一语音数据对应的第一文本序列和与所述第二语音数据对应的第二文本序列之后，还包括：

将所述第一文本序列和所述第二文本序列进行文本纠错处理，得到文本纠错结果；

在所述文本纠错结果为转换有误时，根据预设判别策略对所述第一文本序列和/或所述第二文本序列进行判别处理，再将判别后得到的新的所述第一文本序列和/或所述第二文本序列重复文本纠错处理，直到所述文本纠错结果为转换无误；

在所述文本纠错结果为转换无误时，执行将所述第一语音数据和所述第一文本序列进行音字对齐处理，将所述第二语音数据和所述第二文本序列进行音字对齐处理的步骤。

根据本发明的一个实施例，所述根据所述第一时间戳以及所述第二时间戳将所述第一说话人、所述第二说话人、所述第一文本序列以及所述第二文本序列进行拼接处理，获得与所述音频数据对应的语音对话日志之后，还包括：

存储所述语音对话日志并显示所述语音对话日志；

播报所述音频数据以校对所述语音对话日志。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种语音对话日志生成装置，包括：

预处理模块，用于获取音频数据，对所述音频数据进行预处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据；

语音识别模块，用于分别将所述第一语音数据和所述第二语音数据输入训练好的语音识别模型中，获得与所述第一语音数据对应的第一文本序列和与所述第二语音数据对应的第二文本序列；

音字对齐模块，用于将所述第一语音数据和所述第一文本序列进行音字对齐处理，并将所述第二语音数据和所述第二文本序列进行音字对齐处理，获得所述第一文本序列中各语音文字在所述第一语音数据中的第一时间戳以及所述第二文本序列中各语音文字在所述第二语音数据中的第二时间戳；

拼接模块，用于根据所述第一时间戳以及所述第二时间戳将所述第一说话人、所述第二说话人、所述第一文本序列以及所述第二文本序列进行拼接处理，获得与所述音频数据对应的语音对话日志。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的语音对话日志生成方法。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音对话日志生成方法。

本发明的有益效果是：通过将第一语音数据和第一文本序列进行音字对齐处理，获得第一文本序列中各语音文字在第一语音数据中的第一时间戳，将第二语音数据和第二文本序列进行音字对齐处理，获得第二文本序列中各语音文字在第二语音数据中的第二时间戳；根据第一时间戳以及第二时间戳将第一说话人、第二说话人、第一文本序列以及第二文本序列进行拼接处理，获得与音频数据对应的语音对话日志，能够提高语音记录的准确性，有效防止多轮对话中，不同说话人之间的对话出现上下文关系错位的现象。

附图说明

图1是本发明第一实施例的语音对话日志生成方法的流程示意图；

图2是本发明实施例中语音文字拼接结果示意图；

图3是本发明第二实施例的语音对话日志生成方法的流程示意图；

图4是本发明第三实施例的语音对话日志生成方法的流程示意图；

图5是本发明实施例的语音对话日志生成装置的结构示意图；

图6是本发明实施例的计算机设备的结构示意图；

图7是本发明实施例的计算机存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的语音对话日志生成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：获取音频数据，对音频数据进行预处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据。

在步骤S101中，音频数据为基于人机交互产生的音频数据，音频数据包含多段音频、各段音频的通道标识以及时间信息，例如，左通道音频的通道标识为“1”，右通道音频的通道标识为“0”，本实施例的左通道和右通道分别对应不同说话人，例如，左通道对应第一说话人，右通道对应第二说话人，第一说话人和第二说话人为不同的说话人，在智能客服与客户的交互场景中，第一说话人和第二说话人为智能客服和客户。本实施例首先检测各段音频的编码格式(例如，MP3、WAV等)是否符合要求，若否，则将不符合要求的音频转换为编码格式符合要求的音频，然后根据通道标识对音频数据进行分类处理，将相同通道标识的音频划分为同一类，可将音频数据分成与第一说话人对应的音频以及与第二说话人对应的音频，最后，对同一说话人的音频进行拼接处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据。

步骤S102：分别将第一语音数据和第二语音数据输入训练好的语音识别模型中，获得与第一语音数据对应的第一文本序列和与第二语音数据对应的第二文本序列。

在步骤S102中，语音识别模型通过自动语音识别技术(Automatic SpeechRecognition，ASR)让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(SpeechRecognition)或计算机语音识别(Com puter Speech Recognition)。因为在进行电话销售时，目标用户的响应话术的背景存在噪音，比如会有两个以上的人在讲话，或者有在放背景音乐，或者有在播放影视剧，或者会有在比较嘈杂的环境等，这都会导致会将背景噪音也进行文本转换，导致得到的响应文本不准确，无法对目标用户的响应话术进行准确的识别，在一些实施例中，可以基于去噪的方式对文本进行转换。具体地，将第一语音数据输入训练好的语音识别模型中，以对第一语音数据进行声纹识别，确定至少一种声音特征的语音数据；获取各声音特征在第一语音数据中的语音时长和声音频谱；根据语音时长和声音频谱从语音数据中确定目标说话人的目标语音数据，以对目标语音数据进行文本转换，获得与第一语音数据对应的第一文本序列。将第二语音数据输入训练好的语音识别模型中，通过相同的方法获得与第二语音数据对应的第二文本序列。

该实施例的每种声音特征是指一个说话人的声音特征，比如声纹特征、音色特征等可以区分一个人的语音特征，然后确定各声音特征对应的语音数据在音频数据中的语音时长以及声音频谱，语音时长越长，表示该语音数据对应的人声是目标客户人声的可能性越大。因为只有目标客户会对智能机器人的提问进行对应的回答，但是背景人声持续的时长一般比较短；特殊情况下，也有背景人声持续的时长大于目标客户的人声的情况，比如背景音乐会从头到尾一直持续，在这种情况下，再根据语音时长来判断该声音特征是不是目标客户的声音特征就有一些局限性，所以，还可以获取各声音特征所对应的语音数据的声音频谱。声音频谱是表示一段声音高低的波形图，一般波形大的地方声音大，波形小的地方声音小，因此，一段波形比较大，而且持续了一段时间，通常来说就是目标客户的人声。本实施例中，结合声音频谱和语音时长得到目标语音数据后，再对目标语音数据进行文本转换，通过这种方式得到的目标语音数据是目标客户的可能性比较高，而且还能够在一定程度上去除背景噪声，提高文本转换的准确率。

步骤S103：将第一语音数据和第一文本序列进行音字对齐处理，并将第二语音数据和第二文本序列进行音字对齐处理，获得第一文本序列中各语音文字在第一语音数据中的第一时间戳以及第二文本序列中各语音文字在第二语音数据中的第二时间戳。

在步骤S103中，因为语音数据中每一帧都有时间戳，通过音字对齐处理可以准确获取每个字符的对应的语音数据的时间戳。具体地，首先获取第一语音数据的音频特征和第二语音数据的音频特征；然后将第一语音数据的音频特征和第一文本序列输入音字对齐模型中，获得第一语音数据中每帧对应第一文本序列的语音文字，确定第一文本序列中各语音文字在第一语音数据中的第一时间戳；将第二语音数据的音频特征和第二文本序列输入音字对齐模型中，获得第二语音数据中每帧对应第二文本序列的语音文字，确定第二文本序列中各语音文字在第二语音数据中的第二时间戳。该实施例的音字对齐模型使用现有技术的音字对齐模型，例如Montreal-Forced-Aligner。第一时间戳对应第一文本序列，包括第一文本序列中各语音文字的时间戳，第二时间戳对应第二文本序列，包括第二文本序列中各语音文字的时间戳。

步骤S104：根据第一时间戳以及第二时间戳将第一说话人、第二说话人、第一文本序列以及第二文本序列进行拼接处理，获得与音频数据对应的语音对话日志。

在步骤S104中，将第一时间戳作为标签对第一文本序列中各语音文字进行打标处理，将第二时间戳作为标签对第二文本序列中各语音文字进行打标处理；按照时间戳对打标处理结果进行排序；根据排序结果将第一说话人、第二说话人、打标处理后的各语音文字进行拼接处理，获得与音频数据对应的语音对话日志。在一实施例中，假设第一文本序列为

第二文本序列为

其中，textleft序列长度为n，text_right序列长度为m，

表示第一文本序列的第x个语音文字，

表示第二文本序列的第x个语音文字，则第一文本序列的打标处理结果

第二文本序列的打标处理结果

其中，

表示第一文本序列的第x个语音文字，

为其在第一语音数据中的第一时间戳，

表示第二文本序列的第x个语音文字，

为其在第额语音数据中的第一时间戳。将第一文本序列的打标处理结果和第二文本序列的打标处理结果输入对话日志拼接模型中，根据时间戳按照从小到大的顺序对打标处理结果中的各个语音文字进行排序、拼接，如图2所示，再对拼接后的文本进行标点符号恢复等语音后处理操作，获得与音频数据对应的语音对话日志。

本发明第一实施例的语音对话日志生成方法通过将第一语音数据和第一文本序列进行音字对齐处理，获得第一文本序列中各语音文字在第一语音数据中的第一时间戳，将第二语音数据和第二文本序列进行音字对齐处理，获得第二文本序列中各语音文字在第二语音数据中的第二时间戳；根据第一时间戳以及第二时间戳将第一说话人、第二说话人、第一文本序列以及第二文本序列进行拼接处理，获得与音频数据对应的语音对话日志，能够提高语音记录的准确性，有效防止多轮对话中，不同说话人之间的对话出现上下文关系错位的现象。

图3是本发明第二实施例的语音对话日志生成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图3所示的流程顺序为限。如图3所示，该方法包括步骤：

步骤S301：获取音频数据，对音频数据进行预处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据。

在本实施例中，图3中的步骤S301和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S302：分别将第一语音数据和第二语音数据输入训练好的语音识别模型中，获得与第一语音数据对应的第一文本序列和与第二语音数据对应的第二文本序列。

在本实施例中，图3中的步骤S302和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S303：将第一文本序列和第二文本序列进行文本纠错处理，得到文本纠错结果。

在步骤S303中，利用NLP纠错技术对文本序列进行纠错，对于文本序列中的每个语音文字，计算每个语音文字与上下文相邻的单字符组成的预设长度的句子的联合概率，并在联合概率超过预设阈值时得到文本序列转换无误的文本纠错结果，否则，得到文本序列转换有误的文本纠错结果。

步骤S304：在文本纠错结果为转换有误时，根据预设判别策略对第一文本序列和/或第二文本序列进行判别处理，再将判别后得到的新的第一文本序列和/或第二文本序列重复文本纠错处理，直到文本纠错结果为转换无误。

在步骤S304中，获取文本序列中的各单语音文字的拼音文本；分别将单语音文字与拼音文本输入到NLP纠错模型中进行特征提取，得到字符特征向量和拼音特征向量，根据字符特征向量和拼音特征向量对文本序列进行判别处理。具体地，如果文本纠错结果为转换有误，则将对应的文本序列以及文本序列对应的拼音文本(一个一个单语音文字的拼音文本)分别输入各自提前训练好的ELECTRA模型中的生成器中，得到文本序列及对应的拼音文本的词向量和拼音词向量，再进行拼接后输入判别器中，得到一个纠错矩阵，每一列取概率值最大的位置对应词表的字作为纠错的正确结果，并重复上一步。

步骤S305：在文本纠错结果为转换无误时，将第一语音数据和第一文本序列进行音字对齐处理，并将第二语音数据和第二文本序列进行音字对齐处理，获得第一文本序列中各语音文字在第一语音数据中的第一时间戳以及第二文本序列中各语音文字在第二语音数据中的第二时间戳。

在本实施例中，图3中的步骤S305和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S306：根据第一时间戳以及第二时间戳将第一说话人、第二说话人、第一文本序列以及第二文本序列进行拼接处理，获得与音频数据对应的语音对话日志。

在本实施例中，图3中的步骤S306和图1中的步骤S104类似，为简约起见，在此不再赘述。

本发明第二实施例的语音对话日志生成方法在第一实施例的基础上，通过对语音识别模型转换的文本序列进行纠错处理，能够提高文本转换的准确率，保证语音对话日志生成的准确率。

图4是本发明第二实施例的语音对话日志生成方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图4所示的流程顺序为限。如图4所示，该方法包括步骤：

步骤S401：获取音频数据，对音频数据进行预处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据。

在本实施例中，图4中的步骤S401和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S402：分别将第一语音数据和第二语音数据输入训练好的语音识别模型中，获得与第一语音数据对应的第一文本序列和与第二语音数据对应的第二文本序列。

在本实施例中，图4中的步骤S402和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S403：在文本纠错结果为转换无误时，将第一语音数据和第一文本序列进行音字对齐处理，并将第二语音数据和第二文本序列进行音字对齐处理，获得第一文本序列中各语音文字在第一语音数据中的第一时间戳以及第二文本序列中各语音文字在第二语音数据中的第二时间戳。

在本实施例中，图4中的步骤S403和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S404：根据第一时间戳以及第二时间戳将第一说话人、第二说话人、第一文本序列以及第二文本序列进行拼接处理，获得与音频数据对应的语音对话日志。

在本实施例中，图4中的步骤S404和图1中的步骤S104类似，为简约起见，在此不再赘述。

步骤S405：存储语音对话日志并显示语音对话日志。

在步骤S405中，可以将语音对话日志存储于服务器中并利用显示设备显示语音对话日志，便于校对语音对话日志。

步骤S406：播报音频数据以校对语音对话日志。

在步骤S406中，可以通过播放设备播报语音数据，同时通过人工的方式将语音数据和语音对话日志进行再次校对，检查语音对话日志中记录的智能客服和客户的对话顺序和语音数据记录的真实发生的对话顺序不一致，从而提高语音对话日志的准确率。

本发明第三实施例的语音对话日志生成方法在第一实施例的基础上，通过播报音频数据以校对语音对话日志，能够检验语音对话日志，提高语音对话日志生成的准确率。

本发明的方案可应用金融领域，如保险业务场景，也可应用于人工智能领域，特别涉及智能语音及深度学习等领域。人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

图5是本发明实施例的语音对话日志生成装置的结构示意图。如图5所示，该装置50包括预处理模块51、语音识别模块52、音字对齐模块53以及拼接模块54。

预处理模块51用于获取音频数据，对音频数据进行预处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据；

语音识别模块52用于分别将第一语音数据和第二语音数据输入训练好的语音识别模型中，获得与第一语音数据对应的第一文本序列和与第二语音数据对应的第二文本序列；

音字对齐模块53用于将第一语音数据和第一文本序列进行音字对齐处理，并将第二语音数据和第二文本序列进行音字对齐处理，获得第一文本序列中各语音文字在第一语音数据中的第一时间戳以及第二文本序列中各语音文字在第二语音数据中的第二时间戳；

拼接模块54用于根据第一时间戳以及第二时间戳将第一说话人、第二说话人、第一文本序列以及第二文本序列进行拼接处理，获得与音频数据对应的语音对话日志。

请参阅图6，图6为本发明实施例的计算机设备的结构示意图。如图6所示，该计算机设备60包括处理器61及和处理器61耦接的存储器62。

存储器62存储有用于实现上述任一实施例所述的语音对话日志生成方法的程序指令。

处理器61用于执行存储器62存储的程序指令以生成语音对话日志。

其中，处理器61还可以称为CPU(Central Processing Unit，中央处理单元)。处理器61可能是一种集成电路芯片，具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图7，图7为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件71，其中，该程序文件71可以以软件产品的形式存储在上述计算机存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音对话日志生成方法，其特征在于，包括：

2.根据权利要求1所述的语音对话日志生成方法，其特征在于，所述将所述第一语音数据和所述第一文本序列进行音字对齐处理，并将所述第二语音数据和所述第二文本序列进行音字对齐处理，获得所述第一文本序列中各语音文字在所述第一语音数据中的第一时间戳以及所述第二文本序列中各语音文字在所述第二语音数据中的第二时间戳包括：

3.根据权利要求1所述的语音对话日志生成方法，其特征在于，所述根据所述第一时间戳以及所述第二时间戳将所述第一说话人、所述第二说话人、所述第一文本序列以及所述第二文本序列进行拼接处理，获得与所述音频数据对应的语音对话日志包括：

按照时间戳对打标处理结果进行排序；

4.根据权利要求1所述的语音对话日志生成方法，其特征在于，所述获取音频数据，对所述音频数据进行预处理，得到与第一说话人对应的第一语音数据和与第二说话人对应的第二语音数据包括：

5.根据权利要求1所述的语音对话日志生成方法，其特征在于，所述分别将所述第一语音数据和所述第二语音数据输入训练好的语音识别模型中，获得与所述第一语音数据对应的第一文本序列和与所述第二语音数据对应的第二文本序列包括：

6.根据权利要求1所述的语音对话日志生成方法，其特征在于，所述分别将所述第一语音数据和所述第二语音数据输入训练好的语音识别模型中，获得与所述第一语音数据对应的第一文本序列和与所述第二语音数据对应的第二文本序列之后，还包括：

7.根据权利要求1所述的语音对话日志生成方法，其特征在于，所述根据所述第一时间戳以及所述第二时间戳将所述第一说话人、所述第二说话人、所述第一文本序列以及所述第二文本序列进行拼接处理，获得与所述音频数据对应的语音对话日志之后，还包括：

存储所述语音对话日志并显示所述语音对话日志；

播报所述音频数据以校对所述语音对话日志。

8.一种语音对话日志生成装置，其特征在于，包括：

9.一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的语音对话日志生成方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的语音对话日志生成方法。