CN111460210B

CN111460210B - 目标语音的处理方法和装置

Info

Publication number: CN111460210B
Application number: CN202010491608.4A
Authority: CN
Inventors: 朱国陆; 梁志婷; 徐世超; 徐浩
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2019-12-04
Filing date: 2020-06-02
Publication date: 2024-04-05
Anticipated expiration: 2040-06-02
Also published as: CN111460210A

Abstract

本发明公开了一种目标语音的处理方法和装置。其中，该方法包括：获取当前对象的指纹信息和/或虹膜信息；获取与指纹信息和/或虹膜信息对应的当前对象的身份标识；通过录音设备录制当前对象的声音，得到目标语音；为目标语音添加身份标识。本发明解决了录音与目标语音的处理效率低的技术问题。

Description

目标语音的处理方法和装置

技术领域

本发明涉及智能设备领域，具体而言，涉及一种目标语音的处理方法和装置。

背景技术

相关技术中，在录音设备在完成记录员工和客户交流的内容之后，后台在分析员工和客户交流内容时，需要准确的知道是哪一位员工在和客户交流。而相关技术中，员工和设备之间的关系更多的是通过员工手动输入自己的唯一信息，然后将设备录制的声音与员工进行绑定。

然而若是采用上述方法，则每次均需要员工手动输入唯一标识信息，操作复杂，录音内容绑定员工身份的效率低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种目标语音的处理方法和装置，以至少解决录音与目标语音的处理效率低的技术问题。

根据本发明实施例的一个方面，提供了一种目标语音的处理方法，包括：获取当前对象的指纹信息和/或虹膜信息；获取与上述指纹信息和/或虹膜信息对应的上述当前对象的身份标识；通过录音设备录制上述当前对象的声音，得到目标语音；为上述目标语音添加上述身份标识。

作为一种可选的示例，上述通过录音设备录制上述当前对象的声音，得到目标语音包括：获取上述录音设备录制的混合语音，其中，上述混合语音中携带有时间戳；通过上述当前对象佩戴的第一硬件获取上述当前对象的发音时间段，其中，上述发音时间段为上述当前对象开始说话的时间点到上述当前对象结束说话的时间点；将上述混合语音中，时间戳位于上述发音时间段的语音信息确定为第一语音；从上述第一语音中提取上述目标语音。

作为一种可选的示例，上述从上述第一语音中提取上述目标语音包括：将上述目标语音输入到目标分离模型中，其中，上述目标分离模型为使用第一样本语音与第二样本语音训练原始分离模型所得到的模型，上述目标分离模型用于从上述第一语音中分离出上述目标语音，上述第一样本语音包括上述当前对象的样本语音和噪声，上述第二样本语音包括上述当前对象的上述样本语音。

作为一种可选的示例，在将上述目标语音输入到上述目标分离模型中之前，上述方法还包括：录制上述当前对象朗诵第一文本得到的上述第二样本语音；获取上述当前对象朗诵第二文本得到的第一噪声；获取第二噪声与第三噪声，其中，上述第二噪声为录制的其他对象的声音，上述第三噪声为录制的不同场景下的环境的声音；将上述第一噪声、上述第二噪声与上述第三噪声中的至少一种添加到上述第二样本语音中，得到上述第一样本语音。

作为一种可选的示例，在通过上述录音设备录制上述当前对象的声音，得到上述目标语音之后，上述方法还包括：获取上述目标语音中携带的情绪信息；在上述情绪信息为第一情绪类型的情况下，为上述当前对象添加一条第一记录，其中，上述第一记录用于记录上述当前对象提供的服务不合格；在上述情绪信息为第二情绪类型的情况下，为上述当前对象添加一条第二记录，其中，上述第二记录用于记录上述当前对象提供的服务合格。

作为一种可选的示例，在为上述目标语音添加上述身份标识之后，上述方法还包括：将上述目标语音转化为目标文字；在上述目标文字中搜索预定文字，其中，上述预定文字为预定话术；在搜索到上述预定文字的情况下，将统计数据加1，其中，上述统计数据用于统计上述当前对象使用上述预定话术的次数；为上述统计数据添加上述身份标识。

作为一种可选的示例，在为上述目标语音添加上述身份标识之后，上述方法还包括：存储添加有上述身份标识的上述目标语音；接收查询指令，其中，上述查询指令用于查询上述当前对象的语音；获取存储的上述添加有上述身份标识的上述目标语音；显示上述添加有上述身份标识的上述目标语音；在接收到播放上述添加有上述身份标识的上述目标语音的播放指令的情况下，播放添加有上述身份标识的上述目标语音；在播放完上述添加有上述身份标识的上述目标语音之后，在接收到标记指令的情况下，为上述当前对象添加第一标记，其中，上述第一标记用于标记上述当前对象的上述目标语音不符合预定条件。

根据本发明实施例的另一方面，还提供了一种目标语音的处理装置，包括：第一获取单元，用于获取当前对象的指纹信息和/或虹膜信息；第二获取单元，用于获取与上述指纹信息和/或虹膜信息对应的上述当前对象的身份标识；录制单元，用于通过录音设备录制上述当前对象的声音，得到目标语音；添加单元，用于为上述目标语音添加上述身份标识。

作为一种可选的示例，上述录制单元包括：第一获取模块，用于获取上述录音设备录制的混合语音，其中，上述混合语音中携带有时间戳；第二获取模块，用于通过上述当前对象佩戴的第一硬件获取上述当前对象的发音时间段，其中，上述发音时间段为上述当前对象开始说话的时间点到上述当前对象结束说话的时间点；确定模块，用于将上述混合语音中，时间戳位于上述发音时间段的语音信息确定为第一语音；提取模块，用于从上述第一语音中提取上述目标语音。

作为一种可选的示例，上述提取模块包括：输入子模块，用于将上述目标语音输入到目标分离模型中，其中，上述目标分离模型为使用第一样本语音与第二样本语音训练原始分离模型所得到的模型，上述目标分离模型用于从上述第一语音中分离出上述目标语音，上述第一样本语音包括上述当前对象的样本语音和噪声，上述第二样本语音包括上述当前对象的上述样本语音。

作为一种可选的示例，上述提取模块还包括：录制子模块，用于在将上述目标语音输入到上述目标分离模型中之前，录制上述当前对象朗诵第一文本得到的上述第二样本语音；第一获取子模块，用于获取上述当前对象朗诵第二文本得到的第一噪声；第二获取子模块，用于获取第二噪声与第三噪声，其中，上述第二噪声为录制的其他对象的声音，上述第三噪声为录制的不同场景下的环境的声音；添加子模块，用于将上述第一噪声、上述第二噪声与上述第三噪声中的至少一种添加到上述第二样本语音中，得到上述第一样本语音。

作为一种可选的示例，上述装置还包括：第三获取单元，用于在通过上述录音设备录制上述当前对象的声音，得到上述目标语音之后，获取上述目标语音中携带的情绪信息；第一添加单元，用于在上述情绪信息为第一情绪类型的情况下，为上述当前对象添加一条第一记录，其中，上述第一记录用于记录上述当前对象提供的服务不合格；第二添加单元，用于在上述情绪信息为第二情绪类型的情况下，为上述当前对象添加一条第二记录，其中，上述第二记录用于记录上述当前对象提供的服务合格。

作为一种可选的示例，上述装置还包括：转化单元，用于在为上述目标语音添加上述身份标识之后，将上述目标语音转化为目标文字；搜索单元，用于在上述目标文字中搜索预定文字，其中，上述预定文字为预定话术；统计单元，用于在搜索到上述预定文字的情况下，将统计数据加1，其中，上述统计数据用于统计上述当前对象使用上述预定话术的次数；第三添加单元，用于为上述统计数据添加上述身份标识。

作为一种可选的示例，上述装置还包括：存储单元，用于在为上述目标语音添加上述身份标识之后，存储添加有上述身份标识的上述目标语音；接收单元，用于接收查询指令，其中，上述查询指令用于查询上述当前对象的语音；第四获取单元，用于获取存储的上述添加有上述身份标识的上述目标语音；显示单元，用于显示上述添加有上述身份标识的上述目标语音；播放单元，用于在接收到播放上述添加有上述身份标识的上述目标语音的播放指令的情况下，播放添加有上述身份标识的上述目标语音；第四添加单元，用于在播放完上述添加有上述身份标识的上述目标语音之后，在接收到标记指令的情况下，为上述当前对象添加第一标记，其中，上述第一标记用于标记上述当前对象的上述目标语音不符合预定条件。

在本发明实施例中，采用了获取当前对象的指纹信息和/或虹膜信息；获取与上述指纹信息和/或虹膜信息对应的上述当前对象的身份标识；通过录音设备录制上述当前对象的声音，得到目标语音；为上述目标语音添加上述身份标识的方法，由于在上述方法中，在绑定当前对象的录音内容与身份信息的绑定的过程中，可以直接获取到当前对象的指纹信息和/或虹膜信息，直接完成录音与身份的绑定，从而实现了提高录音内容与员工身份的绑定效率的效果，进而解决了录音与目标语音的处理效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的目标语音的处理方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的目标语音的处理方法的流程示意图；

图3是根据本发明实施例的一种可选的目标语音的处理方法的第一语音合成示意图；

图4是根据本发明实施例的一种可选的目标语音的处理方法的目标语音获取示意图；

图5是根据本发明实施例的一种可选的目标语音的处理方法的第一样本语音合成示意图；

图6是根据本发明实施例的一种可选的目标语音的处理方法的记录查询示意图；

图7是根据本发明实施例的一种可选的目标语音的处理方法的预定文字检测示意图；

图8是根据本发明实施例的一种可选的目标语音的处理方法的播放目标语音的示意图；

图9是根据本发明实施例的一种可选的目标语音的处理方法的播放目标语音的示意图；

图10是根据本发明实施例的一种可选的目标语音的处理方法的显示目标语音的示意图；

图11是根据本发明实施例的一种可选的目标语音的处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种目标语音的处理方法，可选地，作为一种可选的实施方式，上述目标语音的处理方法可以但不限于应用于如图1所示的环境中。

图1中用户102与录音设备104之间可以进行人机交互。录音设备104可以通过网络106与服务器108之间进行数据交互。录音设备104可以获取用户102的指纹信息和/或虹膜信息，然后获取与指纹信息和/或虹膜信息对应的用户102的身份标识，接着录音设备104录制声音，得到目标语音，为目标语音添加上述身份标识，从而实现录音与身份的绑定。

可选地，上述目标语音的处理方法可以但不限于应用于可以计算数据的终端上，例如手机、平板电脑、笔记本电脑、PC机等终端上，也可以为录音设备或者拥有录音设备的终端上。上述网络106可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述服务器108可以包括但不限于任何可以进行计算的硬件设备。

可选地，作为一种可选的实施方式，如图2所示，上述目标语音的处理方法包括：

S202，获取当前对象的指纹信息和/或虹膜信息；

S204，获取与指纹信息和/或虹膜信息对应的当前对象的身份标识；

S206，通过录音设备录制当前对象的声音，得到目标语音；

S208，为目标语音添加身份标识。

可选地，上述目标语音的处理方法可以但不限于应用于餐饮行业、服务行业等。例如，对于餐饮行业，录音设备可以录制当前对象的声音。获取当前对象的指纹信息和/或虹膜信息，然后根据指纹信息和/或虹膜信息获取当前对象的身份信息，从而可以将录音设备录制的声音打上当前对象的身份标识，以在后续分析声音的过程中，可以清楚的看到每一段声音所对应的员工。且通过获取当前对象的指纹信息和/或虹膜信息确定当前对象的身份，从而提高了录音与目标语音的处理的效率。

可选地，本申请中可以获取每一位员工的指纹信息和/或虹膜信息与每一位员工的身份信息，在指纹信息和/或虹膜信息与身份信息之间建立关系链，通过一位员工的指纹信息和/或虹膜信息可以定位到身份信息，通过一位员工的身份信息可以定位到指纹信息和/或虹膜信息。将建立关系链的指纹信息和/或虹膜信息与身份信息存储到数据库中，从而得到存储有多个员工的身份与指纹信息和/或虹膜信息的数据库。

当前对象可以携带有录音设备，或者当前对象可以位于录音设备附近。获取当前对象的指纹信息和/或虹膜信息，并将指纹信息和/或虹膜信息与数据库中的指纹信息进行比对，在数据库中存在指纹信息和/或虹膜信息的情况下，获取数据库中存储的与指纹信息和/或虹膜信息建立关系链的身份信息。将该身份信息确定为当前对象的身份信息。获取身份信息中的身份标识，例如，姓名或者编号等。

控制录音设备进行录音，并将录得的目标语音添加上获取到的当前对象的身份标识。这样，录音设备录得的声音都可以对应到某一名员工。

可选地，本申请中在对当前对象进行录音，并将目标语音添加上身份标识后，可以对目标语音进行存储。

存储可以有多种方法。例如，将当前对象的目标语音存储到一个固定位置，其他对象的语音存储到其他存储位置，每一位对象的语音对应一个单独的位置。这样在获取当前对象的语音时，可以直接打开当前对象的语音的存储位置，从而可以获取到当前对象的所有语音。或者，可以将所有的对象的语音存储到一个位置。这样在获取当前对象的语音时，需要获取当前对象的身份标识，从而可以根据身份标识，将当前对象的所有语音查找出来。

可选地，本申请中的数据库可以存储在后台，如服务器中。在执行上述方法时，可以预先通过指纹采集器和/或虹膜采集设备录入员工指纹信息和/或虹膜信息到后台系统中，并在系统中补充员工相关其他信息。员工使用语音采集设备时，利用语音采集设备上的指纹采集器和/或虹膜采集设备读取自己的指纹信息和/或虹膜信息。语音采集设备发送收集到的纹信息和/或虹膜信息到后台。后台针对纹信息和/或虹膜信息进行对比分析，完成后，记录对比分析结果并发送指令给语音采集设备，让语音采集设备和员工身份进行绑定。绑定成功后，语音采集设备开始采集语音，并对所采集到的语音添加上员工身份信息进行标识，用于在后续对语音进行处理时能够分辨出语音所对应的员工。

以下结合一个示例进行说明。例如，在超市中，为员工1配备一个录音设备。员工1可以通过录音设备的指纹采集区域或虹膜采集区域输入自己的指纹和/或虹膜。录音设备获取到指纹和/或虹膜后，可以在数据库中查找员工1的指纹和/或虹膜，从而确定出员工1的身份。可以通过比对员工的指纹与数据库中的每一个指纹和/或虹膜的相似度的方法来确定员工的身份。获取员工1的身份标识，如0001，然后，录音设备录音后得到目标语音，为目标语音添加上0001的标识。而若是员工1不再使用该录音设备，换做员工2使用该录音设备，则员工2输入自己的指纹和/或虹膜，经过比对后获取员工2的身份标识。之后录音设备录制的声音将添加上员工2的标识。如0002。在录制得到员工1的语音1与员工2的语音2之后，可以将语音1存储到员工1的文件夹1中，将语音2存储到员工2的文件夹2中，如果要查找员工1的语音1，则直接打开员工1的文件夹1即可。即使员工1还有语音3、语音4，均可以在员工1对应的文件夹1中找到。而若是将语音1与语音2均存储到一个存储位置如文件夹3中，则在获取员工1的语音1时，需要获取员工1的身份标识，然后通过身份标识查找语音1。无论员工1对应多少语音，都可以通过身份标识查找到。

通过本实施例，通过上述方法，从而在绑定当前对象的录音内容与身份信息的绑定的过程中，可以直接获取到当前对象的指纹信息和/或虹膜信息，直接完成录音与身份的绑定，从而实现了提高录音内容与员工身份的绑定效率的效果。

作为一种可选的实施方案，通过录音设备录制当前对象的声音，得到目标语音包括：

S1，获取录音设备录制的混合语音，其中，混合语音中携带有时间戳；

S2，通过当前对象佩戴的第一硬件获取当前对象的发音时间段，其中，发音时间段为当前对象开始说话的时间点到当前对象结束说话的时间点；

S3，将混合语音中，时间戳位于发音时间段的语音信息确定为第一语音；

S4，从第一语音中提取目标语音。

可选地，本方案中的录音设备录制的混合语音携带有时间戳。时间戳用于标记录音设备录制的混合语音的时间段。例如，混合语音是从15：00录制到15:20共20分钟，则时间戳可以为15:00-15:20。而第一设备可以为震动感应模块，通过震动感应模块来感应当前对象的开始说话的时间点到结束说话的时间点。

例如，继续以上述超时的场景为例，超时员工通过佩戴的位于喉部附近的震动感应模块来感应员工的喉部震动，从而记录震动的开始时间点与结束时间点，得到员工的说话时间段。例如，15:00-15:10,15:20-15:30。而混合语音中的时间戳15:00-15:30，由此，可以通过比对时间戳与员工说话的时间段，从混合语音中截取出15:00-15:10和15:20-15:30的第一语音。第一语音为超时员工说话的时间段内录制的声音。从第一语音中提取出超时员工的声音。如图3所示，图3中将混合语音302中的15:00-15:10和15:20-15:30的声音截取组成第一语音304。

通过本实施例，通过上述方法，从而实现了从混合语音中提取出当前对象说话时的第一语音，进一步从第一语音中获取目标语音，提高了获取目标语音的准确度的效果。

作为一种可选的实施方案，从第一语音中提取目标语音包括：

S1，将目标语音输入到目标分离模型中，其中，目标分离模型为使用第一样本语音与第二样本语音训练原始分离模型所得到的模型，目标分离模型用于从第一语音中分离出目标语音，第一样本语音包括当前对象的样本语音和噪声，第二样本语音包括当前对象的样本语音。

可选地，目标分离模型可以为一个预训练的神经网络模型。该模型输入第一语音后，可以分离出目标语音。例如，如图4所示，图4中语音402为第一语音，语音402中包括有当前对象的声音404与其他对象的声音406，将第一语音输入到模型中后，可以得到目标语音408，目标语音408中包括当前对象的声音404。

通过本实施例，通过上述方法，从而可以使用模型来准确识别得到目标语音，提高了获取目标语音的准确度。

作为一种可选的实施方案，在将目标语音输入到目标分离模型中之前，方法还包括：

S1，录制当前对象朗诵第一文本得到的第二样本语音；

S2，获取当前对象朗诵第二文本得到的第一噪声；

S3，获取第二噪声与第三噪声，其中，第二噪声为录制的其他对象的声音，第三噪声为录制的不同场景下的环境的声音；

S4，将第一噪声、第二噪声与第三噪声中的至少一种添加到第二样本语音中，得到第一样本语音。

可选地，在训练目标分离模型之前，需要获取样本语音。例如，当前对象朗读“欢迎光临”得到第二样本语音，然后，当前对象朗读“谢谢惠顾”得到第一噪声，同时还可以获取到其他对象朗读“欢迎光临”或者“谢谢惠顾”形成的第二噪声与环境的第三噪声。

如图5所示，将第二样本语音502与第一噪声504合并得到第一样本语音506，然后使用第一样本语音训练上述目标分离模型。

通过上述方法，从而可以获取到当前对象的第二样本语音与添加了各种噪声的第一样本语音，并训练目标分离模型，提高了训练目标分离模型的准确度，进一步提高了确定出的目标语音的准确度。

作为一种可选的实施方案，在通过录音设备录制当前对象的声音，得到目标语音之后，方法还包括：

S1，获取目标语音中携带的情绪信息；

S2，在情绪信息为第一情绪类型的情况下，为当前对象添加一条第一记录，其中，第一记录用于记录当前对象提供的服务不合格；

S3，在情绪信息为第二情绪类型的情况下，为当前对象添加一条第二记录，其中，第二记录用于记录当前对象提供的服务合格。

可选地，本申请中的上述情绪类型可以为语气类型，例如开心、生气、和气等类型。第一情绪类型为消极情绪类型，如生气，第二情绪类型为积极情绪类型，如开心等。当确定出目标语音后，检测目标语音的情绪信息，得到当前对象的情绪，如果情绪为第一情绪类型，则为当前对象添加第一记录，用于记录当前对象的服务不合格，如果情绪为第二情绪类型，则可以记录当前对象服务合格的第二记录。

例如，继续以上述超市为例，当录制员工的目标语音后，可以检测员工的情绪，如果情绪为消极情绪，就需要添加第一记录，如果情绪为积极情绪，则添加第二记录。当第一记录条数过高时，需要向主管的终端发送告警信息。

例如，如图6所示，图6中显示有多个员工的第一记录与第二记录的条数，供主管查阅。

通过本实施例，通过上述方法，从而可以在获取到当前对象的目标语音后，完成语音与身份的绑定后，根据目标语音监控当前对象的情绪，实现了监控当前对象服务质量的效果。

作为一种可选的实施方案，在为目标语音添加身份标识之后，方法还包括：

S1，将目标语音转化为目标文字；

S2，在目标文字中搜索预定文字，其中，预定文字为预定话术；

S3，在搜索到预定文字的情况下，将统计数据加1，其中，统计数据用于统计当前对象使用预定话术的次数；

S4，为统计数据添加身份标识。

可选地，上述预定文字可以为预先设定的文字，例如“欢迎”、“赠品”等各种内容。在将目标语音转化为目标文字后，遍历目标文字，搜索预定文字。例如，如图7所示，图7中在获取到当前对象如张三的目标文字后，如目标文字为“这个盘子是赠品，您购买满50会赠送这个盘子”，从中检测到预定文字“赠品”，则将当前员工的统计数据加1，由3变为4，用于记录当前员工有提及多少次上述预定文字。

通过本实施例，通过上述方法统计当前对象提及预定文字的次数，从而可以根据目标语音监控当前对象的话术，实现了监控当前对象服务质量的效果。

S1，存储添加有身份标识的目标语音；

S2，接收查询指令，其中，查询指令用于查询当前对象的语音；

S3，获取存储的添加有身份标识的目标语音；

S4，显示添加有身份标识的目标语音；

S5，在接收到播放添加有身份标识的目标语音的播放指令的情况下，播放添加有身份标识的目标语音；

S6，在播放完添加有身份标识的目标语音之后，在接收到标记指令的情况下，为当前对象添加第一标记，其中，第一标记用于标记当前对象的目标语音不符合预定条件。

可选地，接收到的查询指令可以携带有对象标识和/或时间段标识和/或预定语音标识。例如，查询张三某天是否有说“欢迎光临”。或者，查询张三的所有语音。在接收到查询指令后，显示所有张三的目标语音。如图8所示，图8中显示有一个播放按钮802，在播放按钮被按下后，可以播放张三的所有目标语音804。或者，如图9所示，图9中，每一条目标语音902都对应一个播放按钮904，按下播放按钮播放对应的目标语音。

当然，显示目标语音时，还可以显示目标语音对应的文字，如图10所示，每一条目标语音均通过文字显示有该语音的内容。

通过本实施例，通过上述方法，从而可以灵活的查询每一个当前对象的目标语音，并进行试听，以及根据试听结果为当前对象对应的第一标记，实现了对当前对象的目标语音进行灵活筛选与测试的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述目标语音的处理方法的目标语音的处理装置。如图11所示，该装置包括：

(1)第一获取单元1102，用于获取当前对象的指纹信息和/或虹膜信息；

(2)第二获取单元1104，用于获取与指纹信息和/或虹膜信息对应的当前对象的身份标识；

(3)录制单元1106，用于通过录音设备录制当前对象的声音，得到目标语音；

(4)添加单元1108，用于为目标语音添加身份标识。

可选地，上述目标语音的处理装置可以但不限于应用于餐饮行业、服务行业等。例如，对于餐饮行业，录音设备可以录制当前对象的声音。获取当前对象的指纹信息和/或虹膜信息，然后根据指纹信息和/或虹膜信息获取当前对象的身份信息，从而可以将录音设备录制的声音打上当前对象的身份标识，以在后续分析声音的过程中，可以清楚的看到每一段声音所对应的员工。且通过获取当前对象的指纹信息和/或虹膜信息确定当前对象的身份，从而提高了录音与目标语音的处理的效率。

作为一种可选的实施方案，录制单元包括：

(1)第一获取模块，用于获取录音设备录制的混合语音，其中，混合语音中携带有时间戳；

(2)第二获取模块，用于通过当前对象佩戴的第一硬件获取当前对象的发音时间段，其中，发音时间段为当前对象开始说话的时间点到当前对象结束说话的时间点；

(3)确定模块，用于将混合语音中，时间戳位于发音时间段的语音信息确定为第一语音；

(4)提取模块，用于从第一语音中提取目标语音。

作为一种可选的实施方案，提取模块包括：

(1)输入子模块，用于将目标语音输入到目标分离模型中，其中，目标分离模型为使用第一样本语音与第二样本语音训练原始分离模型所得到的模型，目标分离模型用于从第一语音中分离出目标语音，第一样本语音包括当前对象的样本语音和噪声，第二样本语音包括当前对象的样本语音。

作为一种可选的实施方案，提取模块还包括：

(1)录制子模块，用于在将目标语音输入到目标分离模型中之前，录制当前对象朗诵第一文本得到的第二样本语音；

(2)第一获取子模块，用于获取当前对象朗诵第二文本得到的第一噪声；

(3)第二获取子模块，用于获取第二噪声与第三噪声，其中，第二噪声为录制的其他对象的声音，第三噪声为录制的不同场景下的环境的声音；

(4)添加子模块，用于将第一噪声、第二噪声与第三噪声中的至少一种添加到第二样本语音中，得到第一样本语音。

通过上述装置，从而可以获取到当前对象的第二样本语音与添加了各种噪声的第一样本语音，并训练目标分离模型，提高了训练目标分离模型的准确度，进一步提高了确定出的目标语音的准确度。

作为一种可选的实施方案，装置还包括：

(1)第三获取单元，用于在通过录音设备录制当前对象的声音，得到目标语音之后，获取目标语音中携带的情绪信息；

(2)第一添加单元，用于在情绪信息为第一情绪类型的情况下，为当前对象添加一条第一记录，其中，第一记录用于记录当前对象提供的服务不合格；

(3)第二添加单元，用于在情绪信息为第二情绪类型的情况下，为当前对象添加一条第二记录，其中，第二记录用于记录当前对象提供的服务合格。

通过本实施例，通过上述装置，从而可以在获取到当前对象的目标语音后，完成语音与身份的绑定后，根据目标语音监控当前对象的情绪，实现了监控当前对象服务质量的效果。

作为一种可选的实施方案，装置还包括：

(1)转化单元，用于在为目标语音添加身份标识之后，将目标语音转化为目标文字；

(2)搜索单元，用于在目标文字中搜索预定文字，其中，预定文字为预定话术；

(3)统计单元，用于在搜索到预定文字的情况下，将统计数据加1，其中，统计数据用于统计当前对象使用预定话术的次数；

(4)第三添加单元，用于为统计数据添加身份标识。

通过本实施例，通过上述装置统计当前对象提及预定文字的次数，从而可以根据目标语音监控当前对象的话术，实现了监控当前对象服务质量的效果。

作为一种可选的实施方案，装置还包括：

(1)存储单元，用于在为目标语音添加身份标识之后，存储添加有身份标识的目标语音；

(2)接收单元，用于接收查询指令，其中，查询指令用于查询当前对象的语音；

(3)第四获取单元，用于获取存储的添加有身份标识的目标语音；

(4)显示单元，用于显示添加有身份标识的目标语音；

(5)播放单元，用于在接收到播放添加有身份标识的目标语音的播放指令的情况下，播放添加有身份标识的目标语音；

(6)第四添加单元，用于在播放完添加有身份标识的目标语音之后，在接收到标记指令的情况下，为当前对象添加第一标记，其中，第一标记用于标记当前对象的目标语音不符合预定条件。

通过本实施例，通过上述装置，从而可以灵活的查询每一个当前对象的目标语音，并进行试听，以及根据试听结果为当前对象对应的第一标记，实现了对当前对象的目标语音进行灵活筛选与测试的效果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标语音的处理方法，其特征在于，包括：

获取当前对象的指纹信息和/或虹膜信息；

获取与所述指纹信息和/或虹膜信息对应的所述当前对象的身份标识；

通过录音设备录制所述当前对象的声音，得到目标语音；

为所述目标语音添加所述身份标识；

其中，所述通过录音设备录制所述当前对象的声音，得到目标语音包括：

获取所述录音设备录制的混合语音，其中，所述混合语音中携带有时间戳；

通过所述当前对象佩戴的第一硬件获取所述当前对象的发音时间段，其中，所述发音时间段为所述当前对象开始说话的时间点到所述当前对象结束说话的时间点；

将所述混合语音中，时间戳位于所述发音时间段的语音信息确定为第一语音；

从所述第一语音中提取所述目标语音，包括：将所述目标语音输入到目标分离模型中，其中，所述目标分离模型为使用第一样本语音与第二样本语音训练原始分离模型所得到的模型，所述目标分离模型用于从所述第一语音中分离出所述目标语音，所述第一样本语音包括所述当前对象的样本语音和噪声，所述第二样本语音包括所述当前对象的所述样本语音。

2.根据权利要求1所述的方法，其特征在于，在将所述目标语音输入到所述目标分离模型中之前，所述方法还包括：

录制所述当前对象朗诵第一文本得到的所述第二样本语音；

获取所述当前对象朗诵第二文本得到的第一噪声；

获取第二噪声与第三噪声，其中，所述第二噪声为录制的其他对象的声音，所述第三噪声为录制的不同场景下的环境的声音；

将所述第一噪声、所述第二噪声与所述第三噪声中的至少一种添加到所述第二样本语音中，得到所述第一样本语音。

3.根据权利要求1所述的方法，其特征在于，在通过所述录音设备录制所述当前对象的声音，得到所述目标语音之后，所述方法还包括：

获取所述目标语音中携带的情绪信息；

在所述情绪信息为第一情绪类型的情况下，为所述当前对象添加一条第一记录，其中，所述第一记录用于记录所述当前对象提供的服务不合格；

在所述情绪信息为第二情绪类型的情况下，为所述当前对象添加一条第二记录，其中，所述第二记录用于记录所述当前对象提供的服务合格。

4.根据权利要求1所述的方法，其特征在于，在为所述目标语音添加所述身份标识之后，所述方法还包括：

将所述目标语音转化为目标文字；

在所述目标文字中搜索预定文字，其中，所述预定文字为预定话术；在搜索到所述预定文字的情况下，将统计数据加1，其中，所述统计数据用于统计所述当前对象使用所述预定话术的次数；

为所述统计数据添加所述身份标识。

5.根据权利要求1至4任意一项所述的方法，其特征在于，在为所述目标语音添加所述身份标识之后，所述方法还包括：

存储添加有所述身份标识的所述目标语音；

接收查询指令，其中，所述查询指令用于查询所述当前对象的语音；获取存储的所述添加有所述身份标识的所述目标语音；

显示所述添加有所述身份标识的所述目标语音；

在接收到播放所述添加有所述身份标识的所述目标语音的播放指令的情况下，播放添加有所述身份标识的所述目标语音；

在播放完所述添加有所述身份标识的所述目标语音之后，在接收到标记指令的情况下，为所述当前对象添加第一标记，其中，所述第一标记用于标记所述当前对象的所述目标语音不符合预定条件。

6.一种目标语音的处理装置，其特征在于，包括：

第一获取单元，用于获取当前对象的指纹信息和/或虹膜信息；

第二获取单元，用于获取与所述指纹信息和/或虹膜信息对应的所述当前对象的身份标识；

录制单元，用于通过录音设备录制所述当前对象的声音，得到目标语音；

添加单元，用于为所述目标语音添加所述身份标识；

其中，所述录制单元包括：

第一获取模块，用于获取所述录音设备录制的混合语音，其中，所述混合语音中携带有时间戳；

第二获取模块，用于通过所述当前对象佩戴的第一硬件获取所述当前对象的发音时间段，其中，所述发音时间段为所述当前对象开始说话的时间点到所述当前对象结束说话的时间点；

确定模块，用于将所述混合语音中，时间戳位于所述发音时间段的语音信息确定为第一语音；

提取模块，用于从所述第一语音中提取所述目标语音；

其中，所述提取模块包括：

输入子模块，用于将所述目标语音输入到目标分离模型中，其中，

所述目标分离模型为使用第一样本语音与第二样本语音训练原始分离模型所得到的模型，所述目标分离模型用于从所述第一语音中分离出所述目标语音，所述第一样本语音包括所述当前对象的样本语音和噪声，所述第二样本语音包括所述当前对象的所述样本语音。