CN113035188A

CN113035188A - 通话文本生成方法、装置、设备及存储介质

Info

Publication number: CN113035188A
Application number: CN202110209012.5A
Authority: CN
Inventors: 石智凯
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-25

Abstract

本发明涉及音频处理领域，公开了一种通话文本生成方法、装置、设备及存储介质，该方法包括：获取对话录音文件并拆分成左声道录音文件和右声道录音文件；根据录音文件的时间戳，判断是否存在相同时间段语音；若是，则确定相同时间段语音的相同时间戳；调用自动语音识别接口，将左声道录音文件和右声道录音文件转换成对话文本，并根据相同时间戳，确定对话文本中的左声道同步文本和右声道同步文本；根据时间戳，将对话文本进行排序，生成角色通话文本；当用户播放对话录音文件时，根据时间戳，显示角色通话文本，并在相同时间戳同步显示左声道同步文本和右声道同步文本。此外，本发明还涉及区块链技术，当前对话录音文件可存储于区块链中。

Description

通话文本生成方法、装置、设备及存储介质

技术领域

本发明涉及音频处理领域，尤其涉及一种通话文本生成方法、装置、设备及存储介质。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，简称ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容，现阶段，由于企业对外呼通话有质量或者其它要求，需要对外呼的语音通话进行检测，多使用语音识别技术对外呼的语音通话进行识别，转换为文本后，进行检查，采用文字的方式替换传统的录音调听模式会更高效，然而，现有的语音识别技术主要是对外呼通话的整段语音进行识别，识别不不高，同时ASR模型识别无法区分对话双方，也就是客户和工作人员，导致外呼语音通话质量的检查效率仍然较低。

发明内容

本发明的主要目的在于解决现有的语音识别无法区分对话双方，导致通话质量检查效率低的技术问题。

本发明第一方面提供了一种通话文本生成方法，包括：

获取对话录音文件，其中，所述对话录音文件为不同用户进行语音交流的录音音频；

根据不同用户录制所述对话录音文件时所使用的声道，将所述对话录音文件拆分成左声道录音文件和右声道录音文件；

获取所述左声道录音文件和所述右声道录音文件的时间戳，并根据所述时间戳，判断所述左声道录音文件和所述右声道录音文件是否存在相同时间段的语音；

若是，则确定所述相同时间段的语音的相同时间戳；

调用预设的自动语音识别接口，将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本；

将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据所述相同时间戳，确定所述对话文本中的左声道同步文本和右声道同步文本；

根据所述时间戳，将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序，生成角色通话文本；

当用户播放所述对话录音文件时，根据所述时间戳，逐步显示所述角色通话文本，并在播放到所述相同时间戳时，同步显示所述左声道同步文本和所述右声道同步文本。

可选的，在本发明第一方面的第一种实现方式中，在所述获取对话录音文件之前，还包括：

获取不同用户通过对应终端发送的音频数据，其实，所述终端在进行记录时，在每一帧音频数据前均加入时间戳；

根据所述时间戳，将同一帧的音频文件组成一帧多声道音频数据；

将各帧多声道音频数据合成对话录音文件。

可选的，在本发明第一方面的第二种实现方式中，所述调用预设的自动语音识别接口，将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本包括：

调用预设的自动语音识别接口，并根据预设的时间间隔，将所述左声道录音文件和所述右声道录音文件分别转化为对应的若干段第一文本；

当所述自动语音识别接口识别所述左声道录音文件和所述右声道录音文件未识别出字符的时间长度大于预设的时间阈值时，将当前识别内容作为第二文本输出；

将所述第一文本和所述第二文本作为元数据文本。

可选的，在本发明第一方面的第三种实现方式中，所述确定所述相同时间段的语音的相同时间戳包括：

获取所述左声道录音文件和所述右声道录音文件的起始时间戳和结束时间戳；

将所述左声道录音文件和所述右声道录音文件的起始时间戳中最晚的起始时间戳作为相同时间段的语音的起始时间戳；

将所述左声道录音文件和所述右声道录音文件的结束时间戳中最晚的结束时间戳作为相同时间段的语音的结束时间戳；

根据相同时间段的语音的起始时间戳和结束时间戳确定相同时间戳。

可选的，在本发明第一方面的第四种实现方式中，在所述根据所述时间戳，将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序，生成角色通话文本之后，还包括：

将所述角色通话文本和所述对话录音文件保存至预设的文件服务器的同一文件夹中；

获取用户的播放指令，根据所述播放指令从所述文件服务器中获取所述角色通话文本和所述对话录音文件。

可选的，在本发明第一方面的第五种实现方式中，在所述根据所述时间戳，将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序，生成角色通话文本之后，还包括：

将所述角色通话文本进行分词处理，得到角色通话文本分词；

将所述角色通话文本分词与预设的关键词集进行匹配；

若匹配命中，则将匹配命中的角色通话文本分词在所述角色通话文本中高亮处理。

可选的，在本发明第一方面的第六种实现方式中，其特征在于，在所述将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据所述相同时间戳，确定所述对话文本中的左声道同步文本和右声道同步文本之后，还包括：

将所述对话文本进行分词处理，得到对话分词；

将所述对话分词与预设的纠错列表进行匹配，其中，所述纠错列表包括若干个原词汇和偏差词汇的关联；

若所述对话分词与所述纠错列表中的偏差词汇匹配成功，则将与匹配成功的偏差词汇关联的原词汇替换所述对话分词；

根据替换后的原词汇，生成新的对话文本。

本发明第二方面提供了一种通话文本生成装置，包括：

获取模块，用于获取对话录音文件，其中，所述对话录音文件为不同用户进行语音交流的录音音频；

拆分模块，用于根据不同用户录制所述对话录音文件时所使用的声道，将所述对话录音文件拆分成左声道录音文件和右声道录音文件；

判断模块，用于获取所述左声道录音文件和所述右声道录音文件的时间戳，并根据所述时间戳，判断所述左声道录音文件和所述右声道录音文件是否存在相同时间段的语音；

时间戳确定模块，用于当所述左声道录音文件和所述右声道录音文件存在相同时间段的语音时，确定所述相同时间段的语音的相同时间戳；

文本转换模块，用于调用预设的自动语音识别接口，将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本；

元数据模块，用于将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据所述相同时间戳，确定所述对话文本中的左声道同步文本和右声道同步文本；

排序模块，用于根据所述时间戳，将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序，生成角色通话文本；

播放模块，用于当用户播放所述对话录音文件时，根据所述时间戳，逐步显示所述角色通话文本，并在播放到所述相同时间戳时，同步显示所述左声道同步文本和所述右声道同步文本。

可选的，在本发明第二方面的第一种实现方式中，所述通话文本生成装置还包括录音文件合成模块，所述录音文件合成模块具体用于：

将各帧多声道音频数据合成对话录音文件。

可选的，在本发明第二方面的第二种实现方式中，所述元数据模块具体用于：

将所述第一文本和所述第二文本作为元数据文本。

可选的，在本发明第二方面的第三种实现方式中，所述时间戳确定模块具体用于：

可选的，在本发明第二方面的第四种实现方式中，所述通话文本生成装置还包括文件保持模块，所述文件保持模块具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述通话文本生成装置还包括高亮模块，所述高亮模块具体用于：

将所述角色通话文本分词与预设的关键词集进行匹配；

可选的，在本发明第二方面的第六种实现方式中，所述通话文本生成装置还包括纠错模块，所述纠错模块具体用于：

将所述对话文本进行分词处理，得到对话分词；

根据替换后的原词汇，生成新的对话文本。

本发明第三方面提供了一种通话文本生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述通话文本生成设备执行上述的通话文本生成方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的通话文本生成方法的步骤。

本发明的技术方案中，通过获取对话录音文件，其中，对话录音文件为不同用户进行语音交流的录音音频；根据不同用户录制对话录音文件时所使用的声道，将对话录音文件拆分成左声道录音文件和右声道录音文件；获取左声道录音文件和右声道录音文件的时间戳，并根据时间戳，判断左声道录音文件和右声道录音文件是否存在相同时间段的语音；若是，则确定相同时间段的语音的相同时间戳；调用预设的自动语音识别接口，将左声道录音文件和右声道录音文件分别转换成对应的元数据文本；将左声道录音文件和右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据相同时间戳，确定对话文本中的左声道同步文本和右声道同步文本；根据时间戳，将左声道录音文件和右声道录音文件对应的对话文本进行排序，生成角色通话文本；当用户播放对话录音文件时，根据时间戳，逐步显示角色通话文本，并在播放到相同时间戳时，同步显示左声道同步文本和右声道同步文本。通过本方法对不同声道生成的语音文件进行声道拆分，分别得到不同声道的录音文件后，将录音文件进行分片的语音识别，得到不同声道的准确的语音文本，并根据文本的时间戳进行排序，得到完整的对话文本，方便后续进行语音通话质量的检查。

附图说明

图1为本发明实施例中通话文本生成方法的第一个实施例示意图；

图2为本发明实施例中通话文本生成方法的第二个实施例示意图；

图3为本发明实施例中通话文本生成方法的第三个实施例示意图；

图4为本发明实施例中通话文本生成方法的第四个实施例示意图；

图5为本发明实施例中通话文本生成方法的第五个实施例示意图；

图6为本发明实施例中通话文本生成装置的一个实施例示意图；

图7为本发明实施例中通话文本生成装置的另一个实施例示意图；

图8为本发明实施例中通话文本生成设备的一个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中通话文本生成方法的第一个实施例包括：

101、获取对话录音文件，其中，对话录音文件为不同用户进行语音交流的录音音频；

可以理解的是，本发明的执行主体可以为通话文本生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

需要强调的是，为保证数据的私密和安全性，上述对话录音文件可以存储于一区块链的节点中。

在本实施例中，应用场景主要是在工作人员与用户进行业务交流的过程中，根据应用场景的不同，还可以将本方法运用到日常交流过程中，本发明不做应用场景限定。在本实施例中，录音过程中进行语音交流的用户人数一般为2人，交流平台将用户之间交流的语音进行录制，并生成录音文件，并存储至预设的文件服务器中，当工作人员需要对交流的内容进行查看时，将录音文件从所述文件服务器下载至本地，得到对话录音文件。

102、根据不同用户录制对话录音文件时所使用的声道，将对话录音文件拆分成左声道录音文件和右声道录音文件；

在本实施例中，系统将语音对话双方的媒体流录制在不同声道，生成一个立体声录音文件，通过HTTP方式从文件服务器中将录音文件下载到本地，使用声道拆分工具将录音文件拆分成左声道录音文件和右声道录音文件，再分别对左右声道的录音文件做进一步处理。录入对话录音文件的对话内容如下：

工作人员：“唉喂你好李先生，抱歉打扰您了，我是xxxx中心的，您今天网上的银行卡尾号yyyy的卡，扣款zzzz元的，冒昧请问下您这边有用网银处理好了吗？”

客户：“嗯，，我还不知道，我要看一下。”

工作人员：“您是资金还没有到位吗？还是说您这边不确定卡上现在目前还有这么多钱？”

客户：“我是不确定，我是不确定。”

工作人员：“哦，你是不确定是吧？那您这边稍后发到电话您查看一下，如果余额不足的话，您麻烦补充一下，以免就说网上搜不到的话影响征信了。”

客户：“好的好的。”

对于上面内容对话录音文件，通过将声道进行拆分，将客户和工作人员的语音内容区分开来。

在本实施例中，所述声道拆分工具可以为ffmpeg，ffmpeg是一套可以用来记录、转换数字音频或视频，并将其转化为流的开源计算机程序，广泛应用于音视频的处理。

103、获取左声道录音文件和右声道录音文件的时间戳，并根据时间戳，判断左声道录音文件和右声道录音文件是否存在相同时间段的语音；

104、若是，则确定相同时间段的语音的相同时间戳；

在本实施例中，工作人员和客户可能存在同时进行语音输出的阶段，例如工作人员：“唉喂你好，请问您是李先生吗？”客户：“嗯。”工作人员：“抱歉打扰您了，我是xxxx中心的”，在这段对话中，由于客户的回答较为简短，容易使得工作人员两句话的间隔时间过短，系统将前后两句话连在一起，后续文本可能出现排序错误的情况，例如工作人员：“唉喂你好，请问您是李先生吗？抱歉打扰您了，我是xxxx中心的。”，客户：“嗯。”或者是工作人员：“我是xxxx中心的，请问您现在有空吗？您有办理业务吗？”而在工作人员说到“请问您现在有空吗？”后客户立马回答“有。”系统会将客户的回答置于工作人员的整段对话之后，所以需要根据不同声道的录音文件的时间戳，确定是否有相同时间段的语音，后续在生成文本或显示文本是进行区别。

105、调用预设的自动语音识别接口，将左声道录音文件和右声道录音文件分别转换成对应的元数据文本；

在本实施例中，通过声道拆分工具拆分对话录音文件获得左声道录音文件和右声道录音文件后，调用预设的自动语音识别接口，将所述左声道录音文件和右声道录音文件分别转换成对应的元数据文本，元数据文本主要是对左声道录音文件和右声道录音文件分别进行整段识别后得到的文本，由于进行整段识别，所以还需要进行后续处理才能生成有顺序的对话文本。

在本实施例中，所述元数据文本的格式为{“result”：“爱喂你好李先生抱歉打扰您了，我是平安普惠空管中心到您今天网上”“ed”：0，“bg”：104。“pgs”：0，“sid”：“1e1071946e81656e60000481”，“errorcode”：0，“islast”：0，“time”：“1539952126823960”}，其中“result”代表语音识别结果，“爱喂你好李先生抱歉打扰您了，我是平安普惠空管中心到您今天网上”为语音识别内容，“ed”表示元数据文本偏移量起始戳，“bg”表示元数据文本偏移量结束戳，“pgs”表示断句标识，当“pgs”为1时，代表该元数据文本是一个完整断句，当“pgs”为0时，代表该元数据文本为一个过程变量，“sid”表示语音识别的会话id，“islast”表示当前备用字段，未用到，“time”表示语音识别当前时间。

语音识别ASR集群是一组相互独立的、通过高速网络互联的自动语音识别计算机，它们构成了一个组并以单一系统的模式加以管理，对外提供快速可靠的语音识别服务。通过HTTP方式调用语音识别ASR集群对上述左声道录音文件和所述右声道录音文件进行语音识别，保存在内存中并更新数据库。

106、将左声道录音文件和右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据相同时间戳，确定对话文本中的左声道同步文本和右声道同步文本；

在本实施例中，由于现有的语音识别技术主要是对整段语音进行识别，为了生成有顺序的角色通话文本，还需对生成在中间生成对话文本，这是因为语音识别技术是对录音文件进行实时识别的，对于同样一段话，可能会识别成多段不同的元数据文本，例如对于“唉喂你好李先生，抱歉打扰您了，我是平安普惠空港中心的，您今天网上的工商银行卡尾号6609的卡，扣款10649元的，冒昧请问下，您这边有用网银处理好了吗”，如下会生成3段元数据文本：

{“result”：“爱喂你好李先生i抱歉打扰您了-我是平安普惠空管中心到您今天网上”，“ed”：0，“bg”：104，“pgs”：0，“sid”：“1e1071946e81656e60000481”，“errorcode”：0，“islast”：0，“time”：“1539952126823960”}

{"result"："爱喂你好李先生i抱歉打扰您了-我是平安普惠空管中心到您今天网上的工商银行卡尾号6609的卡扣款10649元"，"ed"：0，"bg"：104，"pgs"：0，"sid"："1e1071946e81656e60000481"，"errorcode"：0，"islast"：0，"time"："1539952132173499"}

{"result"："唉喂你好李先生，抱歉打扰您了，我是平安普惠空港中心的，您今天网上的工商银行卡尾号6609的卡，扣款10649元的，冒昧请问下您这边有用网银处理好曝光了吗"，"ed"：1437，"bg"：104，"pgs"：1，"sid"："1e1071946e81656e60000481"，"errorcode"：0，"islast"：0，"time"："1539952134576968"}。

需要通过这三段元数据文本生成一段带时间戳的对话文本，时间戳包括对话文本的起始时间和结束时间。

在本实施例中，当出现客户和工作人员同时进行语音输出的情况时，根据客户和工作人员说话的相同时间戳，确定该相同时间戳对应的文本，并将相同时间戳对应的客户语言的文本作为左声道同步文本，将工作人员语言的文本作为右声道同步文本，或者相反，本发明不作限制。

107、根据时间戳，将左声道录音文件和右声道录音文件对应的对话文本进行排序，生成角色通话文本；

在本实施例中，所述对话文本都包含一个有起始时间和结束时间的时间戳，根据该时间戳对对话文本进行排序，即可得到角色通话文本，例如对话文本“工作人员：唉喂你好李先生，抱歉打扰您了，我是平安普惠空港中心的，您今天网上的工商银行卡尾号6609的卡，扣款10649元的，冒昧请问下您这边有用网银处理好曝光了吗，startTime：104，endtime：1437”，“客户：嗯，我还不知道，我要看一下startTime：1516，endtime：1673”，由于工作人员的对话文本的时间戳中，结束时间为1437，而客户的对话文本的时间戳中，起始时间为1516，客户的对话文本的起始时间晚于工作人员的对话文本的结束时间，所以将客户的对话文本置于工作人员的对话文本之后。将所有的对话文本进行排序后，即可生成完整的角色对话文本。

108、当用户播放对话录音文件时，根据时间戳，逐步显示角色通话文本，并在播放到相同时间戳时，同步显示左声道同步文本和右声道同步文本。

在本实施例中，用户可根据需要单独进行角色通话文本的查看，也可以在终端播放对话录音文件时，根据对话录音文件以及角色用户文本同时拥有的时间戳进行播放查看，同时在客户和工作人员同时进行语音输出的情况下，同步显示左声道同步文本和右声道同步文本，能够避免查看角色通话文本是出现排序错误的问题。

在本实施例中，通过获取对话录音文件，其中，对话录音文件为不同用户进行语音交流的录音音频；根据不同用户录制对话录音文件时所使用的声道，将对话录音文件拆分成左声道录音文件和右声道录音文件；获取左声道录音文件和右声道录音文件的时间戳，并根据时间戳，判断左声道录音文件和右声道录音文件是否存在相同时间段的语音；若是，则确定相同时间段的语音的相同时间戳；调用预设的自动语音识别接口，将左声道录音文件和右声道录音文件分别转换成对应的元数据文本；将左声道录音文件和右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据相同时间戳，确定对话文本中的左声道同步文本和右声道同步文本；根据时间戳，将左声道录音文件和右声道录音文件对应的对话文本进行排序，生成角色通话文本；当用户播放对话录音文件时，根据时间戳，逐步显示角色通话文本，并在播放到相同时间戳时，同步显示左声道同步文本和右声道同步文本。通过本方法对不同声道生成的语音文件进行声道拆分，分别得到不同声道的录音文件后，将录音文件进行分片的语音识别，得到不同声道的准确的语音文本，并根据文本的时间戳进行排序，得到完整的对话文本，方便后续进行语音通话质量的检查。

请参阅图2，本发明实施例中通话文本生成方法的第二个实施例包括：

201、获取不同用户通过对应终端发送的音频数据，其实，终端在进行记录时，在每一帧音频数据前均加入时间戳；

202、根据时间戳，将同一帧的音频文件组成一帧多声道音频数据；

203、将各帧多声道音频数据合成对话录音文件；

在本实施例中，本方法用于工作人员与用户进行远程的业务交流，在进行远程业务交流的过程中，通常是使用终端设备进行交流的，例如智能手机，平板电脑，笔记本电脑等，可以在工作人员与客户之间构建多声道录音平台，以工作人员的终端为主终端，以客户的终端为从终端，在进行录音的过程中，各终端同时分别记录各种对应的声道的音频数据，并合成一个立体声路由文件，调用restful接口(representational state transfer表征性状态转移)将录音文件保存在文件服务器中，录音文件在文件服务器中的保存路径保存在数据库中，方便后续进行通话质量检查时进行查看。

204、根据不同用户录制对话录音文件时所使用的声道，将对话录音文件拆分成左声道录音文件和右声道录音文件；

205、获取左声道录音文件和右声道录音文件的时间戳，并根据时间戳，判断左声道录音文件和右声道录音文件是否存在相同时间段的语音；

206、若是，则确定相同时间段的语音的相同时间戳；

207、调用预设的自动语音识别接口，将左声道录音文件和右声道录音文件分别转换成对应的元数据文本；

208、将左声道录音文件和右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据相同时间戳，确定对话文本中的左声道同步文本和右声道同步文本；

209、根据时间戳，将左声道录音文件和右声道录音文件对应的对话文本进行排序，生成角色通话文本；

210、当用户播放对话录音文件时，根据时间戳，逐步显示角色通话文本，并在播放到相同时间戳时，同步显示左声道同步文本和右声道同步文本。

本实施例在上一实施例的基础上，增加了生成对话录音文件的过程，通过获取不同用户通过对应终端发送的音频数据，其实，所述终端在进行记录时，在每一帧音频数据前均加入时间戳；根据所述时间戳，将同一帧的音频文件组成一帧多声道音频数据；将各帧多声道音频数据合成对话录音文件。通过将相同帧的音频数据合成一帧多声道音频数据，便于后续进行声道文件的拆分。

请参阅图3，本发明实施例中通话文本生成方法的第三个实施例包括：

301、获取对话录音文件，其中，对话录音文件为不同用户进行语音交流的录音音频；

302、根据不同用户录制对话录音文件时所使用的声道，将对话录音文件拆分成左声道录音文件和右声道录音文件；

303、获取左声道录音文件和右声道录音文件的时间戳，并根据时间戳，判断左声道录音文件和右声道录音文件是否存在相同时间段的语音；

304、若是，则确定相同时间段的语音的相同时间戳；

305、调用预设的自动语音识别接口，并根据预设的时间间隔，将左声道录音文件和右声道录音文件分别转化为对应的若干段第一文本；

306、当自动语音识别接口识别左声道录音文件和右声道录音文件未识别出字符的时间长度大于预设的时间阈值时，将当前识别内容作为第二文本输出；

307、将第一文本和第二文本作为元数据文本；

在本实施例中，自动语音识别接口实时对录音文件进行语音识别，需要对录音文件进行断句，所用方法为设置一定的时间间隔，当自动语音识别接口识别录音文件到达时间间隔时，则将当前识别到的内容作为一段元数据文本，例如对于录音文件内容为“唉喂你好李先生，抱歉打扰您了，我是平安普惠空港中心的，您今天网上的工商银行卡尾号6609的卡，扣款10649元的，冒昧请问下，您这边有用网银处理好了吗”，通过时间间隔的方法，识别出“爱喂你好李先生i抱歉打扰您了-我是平安普惠空管中心到您今天网上”和“爱喂你好李先生i抱歉打扰您了-我是平安普惠空管中心到您今天网上的工商银行卡尾号6609的卡扣款10649元”两段文本作为第一文本，并通过预设时间间隔的方法，识别出“唉喂你好李先生，抱歉打扰您了，我是平安普惠空港中心的，您今天网上的工商银行卡尾号6609的卡，扣款10649元的，冒昧请问下您这边有用网银处理好曝光了吗”作为第二文本，将这些文本作为元数据文本，在根据元数据文本生成对话文本。

308、将左声道录音文件和右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据相同时间戳，确定对话文本中的左声道同步文本和右声道同步文本；

309、当用户播放对话录音文件时，根据时间戳，逐步显示角色通话文本，并在播放到相同时间戳时，同步显示左声道同步文本和右声道同步文本。

本实施例在前实施例的基础上，详细描述了调用预设的自动语音识别接口，将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本的过程。通过调用预设的自动语音识别接口，并根据预设的时间间隔，将所述左声道录音文件和所述右声道录音文件分别转化为对应的若干段第一文本；当所述自动语音识别接口识别所述左声道录音文件和所述右声道录音文件未识别出字符的时间长度大于预设的时间阈值时，将当前识别内容作为第二文本输出；将所述第一文本和所述第二文本作为元数据文本。通过本方法对不同声道生成的语音文件进行声道拆分，分别得到不同声道的录音文件后，将录音文件进行分片的语音识别，得到不同声道的准确的语音文本，并根据文本的时间戳进行排序，得到完整的对话文本，方便后续进行语音通话质量的检查。

请参阅图4，本发明实施例中通话文本生成方法的第四个实施例包括：

401、获取对话录音文件，其中，对话录音文件为不同用户进行语音交流的录音音频；

402、根据不同用户录制对话录音文件时所使用的声道，将对话录音文件拆分成左声道录音文件和右声道录音文件；

403、获取左声道录音文件和右声道录音文件的时间戳，并根据时间戳，判断左声道录音文件和右声道录音文件是否存在相同时间段的语音；

404、若是，则获取左声道录音文件和右声道录音文件的起始时间戳和结束时间戳；

405、将左声道录音文件和右声道录音文件的起始时间戳中最晚的起始时间戳作为相同时间段的语音的起始时间戳；

406、将左声道录音文件和右声道录音文件的结束时间戳中最晚的结束时间戳作为相同时间段的语音的结束时间戳；

407、根据相同时间段的语音的起始时间戳和结束时间戳确定相同时间戳；

408、调用预设的自动语音识别接口，将左声道录音文件和右声道录音文件分别转换成对应的元数据文本；

409、将左声道录音文件和右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据相同时间戳，确定对话文本中的左声道同步文本和右声道同步文本；

410、根据时间戳，将左声道录音文件和右声道录音文件对应的对话文本进行排序，生成角色通话文本；

411、将角色通话文本和对话录音文件保存至预设的文件服务器的同一文件夹中；

412、获取用户的播放指令，根据播放指令从文件服务器中获取角色通话文本和对话录音文件；

413、当用户播放对话录音文件时，根据时间戳，逐步显示角色通话文本，并在播放到相同时间戳时，同步显示左声道同步文本和右声道同步文本。

本实施例在前实施例的基础上，增加了确定所述相同时间段的语音的相同时间戳以及将生成角色通话文本与对话录音文件存储在同一文件服务器的同一文件夹中的过程，存储在相同的文件夹中便于后续接收到用户的播放指令后快速进行播放，通过本方法对不同声道生成的语音文件进行声道拆分，分别得到不同声道的录音文件后，将录音文件进行分片的语音识别，得到不同声道的准确的语音文本，并根据文本的时间戳进行排序，得到完整的对话文本，方便后续进行语音通话质量的检查。

请参阅图5，本发明实施例中通话文本生成方法的第五个实施例包括：

501、获取对话录音文件，其中，对话录音文件为不同用户进行语音交流的录音音频；

502、根据不同用户录制对话录音文件时所使用的声道，将对话录音文件拆分成左声道录音文件和右声道录音文件；

503、获取左声道录音文件和右声道录音文件的时间戳，并根据时间戳，判断左声道录音文件和右声道录音文件是否存在相同时间段的语音；

504、若是，则确定相同时间段的语音的相同时间戳；

505、调用预设的自动语音识别接口，将左声道录音文件和右声道录音文件分别转换成对应的元数据文本；

506、将左声道录音文件和右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据相同时间戳，确定对话文本中的左声道同步文本和右声道同步文本；

507、根据时间戳，将左声道录音文件和右声道录音文件对应的对话文本进行排序，生成角色通话文本；

508、将角色通话文本进行分词处理，得到角色通话文本分词；

509、将角色通话文本分词与预设的关键词集进行匹配；

510、若匹配命中，则将匹配命中的角色通话文本分词在角色通话文本中高亮处理；

在本实施例中，预先设置若干个预设关键字，用以标记需要后续检查或跟进处理的关键字信息，如分析用户行为方面，就会关注小孩、老人等关键字及其同义词、相近词，防止跳单方面就特别关注手机号、微信号等关键字。根据不同的对话双方可以预设不同的预设关键字，预设关键字保存在数据库中。上述步骤生成左右声道的切片文本之后，在生成的角色通话文本后，匹配数据库中的预设关键字，如果命中就在命中的角色通话文本中高亮显示预设关键字，并在数据库里对应的角色通话文本中保存命中的预设关键字。命中的预设关键字可以用于进行用户行为分析、工作人员考核、客服服务质量检查等方面。

511、将对话文本进行分词处理，得到对话分词；

512、将对话分词与预设的纠错列表进行匹配，其中，纠错列表包括若干个原词汇和偏差词汇的关联；

513、若对话分词与纠错列表中的偏差词汇匹配成功，则将与匹配成功的偏差词汇关联的原词汇替换对话分词；

514、根据替换后的原词汇，生成新的对话文本；

在本实施例中，所述分词主要是通过结巴分词法进行的主要是通过结巴分词法对所述诊断语料进行分词处理，结巴分词法为Python的结巴分词模块，该方法支持精确模式、全模式和搜索引擎模式三种分词模式。

在本实施例中，预设有纠错列表，所述纠错列表为在以往进行语音识别的过程中，工作人员先行确定的原词汇和偏差词汇的关联关系，其中偏差词汇为语音识别过程中比较容易出现识别错误的词汇，而原词汇则是人工对偏差词汇进行纠错后的正确词汇，当对话分词和偏差词汇匹配成功时，则说明该对话文本中的该对话分词的语音识别出现错误，需要进行纠错，则将对应的原词汇对该对话分词进行替换，即可得到新的对话文本。

515、当用户播放对话录音文件时，根据时间戳，逐步显示角色通话文本，并在播放到相同时间戳时，同步显示左声道同步文本和右声道同步文本。

本实施例在前实施例的基础上，增加了纠错以及对关键词进行高亮显示的过程，在进行文本转化的过程中，存在转化错误的问题，通过对易错词汇进行纠错，能够降低生成的角色通话文本的错误率，同时进行高亮显示，能够提示用户关注角色通话文本中的关键信息。

上面对本发明实施例中通话文本生成方法进行了描述，下面对本发明实施例中通话文本生成装置进行描述，请参阅图6，本发明实施例中通话文本生成装置一个实施例包括：

获取模块601，用于获取对话录音文件，其中，所述对话录音文件为不同用户进行语音交流的录音音频；

拆分模块602，用于根据不同用户录制所述对话录音文件时所使用的声道，将所述对话录音文件拆分成左声道录音文件和右声道录音文件；

判断模块603，用于获取所述左声道录音文件和所述右声道录音文件的时间戳，并根据所述时间戳，判断所述左声道录音文件和所述右声道录音文件是否存在相同时间段的语音；

时间戳确定模块604，用于当所述左声道录音文件和所述右声道录音文件存在相同时间段的语音时，确定所述相同时间段的语音的相同时间戳；

文本转换模块605，用于调用预设的自动语音识别接口，将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本；

元数据模块606，用于将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据所述相同时间戳，确定所述对话文本中的左声道同步文本和右声道同步文本；

排序模块607，用于根据所述时间戳，将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序，生成角色通话文本；

播放模块608，用于当用户播放所述对话录音文件时，根据所述时间戳，逐步显示所述角色通话文本，并在播放到所述相同时间戳时，同步显示所述左声道同步文本和所述右声道同步文本。

需要强调的是，为保证数据的私密和安全性，上述待推送数据可以存储于一区块链的节点中。

本发明实施例中，所述通话文本生成装置运行上述通话文本生成方法，所述通话文本生成方法包括：通过获取对话录音文件，其中，对话录音文件为不同用户进行语音交流的录音音频；根据不同用户录制对话录音文件时所使用的声道，将对话录音文件拆分成左声道录音文件和右声道录音文件；获取左声道录音文件和右声道录音文件的时间戳，并根据时间戳，判断左声道录音文件和右声道录音文件是否存在相同时间段的语音；若是，则确定相同时间段的语音的相同时间戳；调用预设的自动语音识别接口，将左声道录音文件和右声道录音文件分别转换成对应的元数据文本；将左声道录音文件和右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据相同时间戳，确定对话文本中的左声道同步文本和右声道同步文本；根据时间戳，将左声道录音文件和右声道录音文件对应的对话文本进行排序，生成角色通话文本；当用户播放对话录音文件时，根据时间戳，逐步显示角色通话文本，并在播放到相同时间戳时，同步显示左声道同步文本和右声道同步文本。通过本方法对不同声道生成的语音文件进行声道拆分，分别得到不同声道的录音文件后，将录音文件进行分片的语音识别，得到不同声道的准确的语音文本，并根据文本的时间戳进行排序，得到完整的对话文本，方便后续进行语音通话质量的检查。

请参阅图7，本发明实施例中通话文本生成装置的第二个实施例包括：

其中，所述通话文本生成装置还包括录音文件合成模块609，所述录音文件合成模块609具体用于：

将各帧多声道音频数据合成对话录音文件。

可选的，所述元数据模块606具体用于：

将所述第一文本和所述第二文本作为元数据文本。

可选的，所述时间戳确定模块604具体用于：

其中，所述通话文本生成装置还包括文件保持模块610，所述文件保持模块610具体用于：

其中，所述通话文本生成装置还包括高亮模块611，所述高亮模块611具体用于：

将所述角色通话文本分词与预设的关键词集进行匹配；

在本实施例中，所述通话文本生成装置还包括纠错模块612，所述纠错模块612具体用于：

将所述对话文本进行分词处理，得到对话分词；

根据替换后的原词汇，生成新的对话文本。

本实施例在上一实施例的基础上，详细描述了各个模块的具体功能以及部分模块的单元构成，通过本装置，对不同声道生成的语音文件进行声道拆分，分别得到不同声道的录音文件后，将录音文件进行分片的语音识别，得到不同声道的准确的语音文本，并根据文本的时间戳进行排序，得到完整的对话文本，方便后续进行语音通话质量的检查。

上面图6和图7从模块化功能实体的角度对本发明实施例中的中通话文本生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中通话文本生成设备进行详细描述。

图8是本发明实施例提供的一种通话文本生成设备的结构示意图，该通话文本生成设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对通话文本生成设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在通话文本生成设备800上执行存储介质830中的一系列指令操作，以实现上述通话文本生成方法的步骤。

通话文本生成设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的通话文本生成设备结构并不构成对本申请提供的通话文本生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述通话文本生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种通话文本生成方法，其特征在于，所述通话文本生成方法包括：

若是，则确定所述相同时间段的语音的相同时间戳；

2.根据权利要求1所述的通话文本生成方法，其特征在于，在所述获取对话录音文件之前，还包括：

将各帧多声道音频数据合成对话录音文件。

3.根据权利要求1所述的通话文本生成方法，其特征在于，所述调用预设的自动语音识别接口，将所述左声道录音文件和所述右声道录音文件分别转换成对应的元数据文本包括：

将所述第一文本和所述第二文本作为元数据文本。

4.根据权利要求3所述的通话文本生成方法，其特征在于，所述确定所述相同时间段的语音的相同时间戳包括：

5.根据权利要求1所述的通话文本生成方法，其特征在于，在所述根据所述时间戳，将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序，生成角色通话文本之后，还包括：

6.根据权利要求1所述的通话文本生成方法，其特征在于，在所述根据所述时间戳，将所述左声道录音文件和所述右声道录音文件对应的对话文本进行排序，生成角色通话文本之后，还包括：

将所述角色通话文本分词与预设的关键词集进行匹配；

7.根据权利要求1-6中任一项所述的通话文本生成方法，其特征在于，在所述将所述左声道录音文件和所述右声道录音文件对应的元数据文本分别转化为对应的对话文本，并根据所述相同时间戳，确定所述对话文本中的左声道同步文本和右声道同步文本之后，还包括：

将所述对话文本进行分词处理，得到对话分词；

根据替换后的原词汇，生成新的对话文本。

8.一种通话文本生成装置，其特征在于，所述通话文本生成装置包括：

9.一种通话文本生成设备，其特征在于，所述通话文本生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述通话文本生成设备执行如权利要求1-7中任一项所述的通话文本生成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的通话文本生成方法的步骤。