CN115240689A

CN115240689A - 目标声音确定方法、装置、计算机设备和介质

Info

Publication number: CN115240689A
Application number: CN202211122041.9A
Authority: CN
Inventors: 戴志涛; 吴蕊珠
Original assignee: Shenzhen Waterward Information Co Ltd
Current assignee: Shenzhen Waterward Information Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-10-25
Anticipated expiration: 2042-09-15
Also published as: CN115240689B

Abstract

本发明提供了一种目标声音确定方法、装置、计算机设备和介质，包括：接收耳机佩戴者的第一声音信号和周围人声的第二声音信号；判断是否存在对话场景；若存在对话场景，则利用语音识别将第一声音信号内容转换成第一文本，将第二声音信号内容转化成第二文本；计算第一文本和第二文本之间的相似度；若相似度超过阈值，则将第二文本所属人声作为目标声音信号；根据预设参数，调整目标声音信号。对比第一文本和第二文本的相似度，若两者的相似度超过了阈值，说明第一文本和第二文本的关联性强，因此判断第二文本所属的第二声音信号就是与耳机佩戴者对话的目标声音信号，根据这一结果，放大目标声音信号，使耳机佩戴者听清目标对话人的声音内容。

Description

目标声音确定方法、装置、计算机设备和介质

技术领域

本发明涉及到听觉可穿戴设备的领域，具体而言，涉及到一种目标声音确定方法、装置、计算机设备和存储介质。

背景技术

辅音耳机是一种基于新一代蓝牙音频技术标准LE Audio对无线耳机进行改进的听觉可穿戴设备。辅音耳机不需要经过FDA的医疗器械审批程序，属于大众消费品范畴，可以帮助轻度至中度听力损失患者改善听力。相比于助听器高昂的费用或验配的不便，辅音耳机外观时尚、价格适中、可自助调节。但是辅音耳机在进行使用的时候，是将拾取到的所有声音全部都放大，包括交谈的人的声音、本人的声音，还包含了环境中嘈杂的噪音，而这些噪声大概率是不希望被放大的，所以亟需一种方法来进行目标声音的确定，定向放大目标声音。

发明内容

本发明的主要目的为提供一种目标声音确定方法、装置、计算机设备和存储介质，旨在解决辅音耳机在放大声音的同时也会放大噪音，影响耳机佩戴者听取对话人的交谈内容的问题。

本发明公开了以下技术方案：

一种目标声音确定方法，包括：

接收耳机佩戴者的第一声音信号和周围人声的第二声音信号；

判断是否存在对话场景；

若存在对话场景，则利用语音识别将所述第一声音信号内容转换成第一文本，将所述第二声音信号内容转化成第二文本；

计算所述第一文本和所述第二文本之间的相似度；

若所述相似度超过阈值，则将所述第二文本所属人声作为目标声音信号；

根据预设参数，调整所述目标声音信号。

进一步地，所述判断是否存在对话场景的步骤，还包括：

计算接收到所述第一声音信号和所述第二声音信号之间的时间间隔；

判断所述时间间隔是否超过预设时长；

若未超过预设时长，则判定为存在对话场景。

进一步地，所述判断是否存在对话场景的步骤，包括：

提取所述第一声音信号对应的第一关键字，以及所述第二声音信号对应的第二关键字；其中，所述第一关键字与所述第二关键字至少包含一个字或词；

将所述第一关键字依次与所述第二关键字进行匹配，并记录匹配个数；

若所述匹配个数超过多个，则判定为存在对话场景。

进一步地，所述若存在对话场景，则利用语音识别将所述第一声音信号内容转换成第一文本，将所述第二声音信号内容转化成第二文本的步骤，包括：

判断所述第二声音信号是否存在多个人的人声信号；

若存在多个人的人声信号，则提取出所述第二声音信号内的多个声纹特征；

判断所述多个声纹特征中是否存在属于预设声纹库的待测目标声纹；

若存在所述待测目标声纹，则将所述待测目标声纹所属的声音信号内容转换成所述第二文本；

若不存在所述待测目标声纹，则计算所述第二声音信号中的多个人声与所述第一声音信号之间的距离；

选择所述第二声音信号中的距离耳机佩戴者最近的人声作为待测声音信号；

将所述待测声音信号内容转化成所述第二文本。

进一步地，所述根据预设参数，调整所述目标声音信号的步骤，包括：

提取所述第一文本和所述第二文本的关键字；

将所述关键字与预设的主题模型库中的主题模型进行匹配，获得目标主题模型；

根据所述目标主题模型，对所述目标声音信号内容进行修正；

根据预设参数，调整修正后的所述目标声音信号的响度值和频率值。

进一步地，所述若所述相似度超过阈值，则将所述第二文本所属人声作为目标声音信号的步骤之后，包括：

判断所述目标声音信号是否存在多个人的人声信号；

若存在，则将所述目标声音信号中的不同人的人声信号进行分离；

根据指令，对所述分离后的人声信号进行切换。

进一步地，所述计算所述第一文本和所述第二文本之间的相似度的步骤，包括：

对所述第一文本进行分词获得第一分词库，对所述第二文本进行分词获得第二分词库；

对所述第一分词库进行计算获取第一词向量，对所述第二分词库进行计算获取第二词向量；

根据所述第一词向量获取第一句向量，根据所述第二词向量获取第二句向量；

根据所述第一句向量和所述第二句向量，计算所述第一文本和所述第二文本的相似度。

本发明还提供一种目标声音确定的装置，包括：

接收模块，用于接收耳机佩戴者的第一声音信号和周围人声的第二声音信号；

判断模块，用于判断是否存在对话场景；

文本转换模块，用于若存在对话场景，则利用语音识别将所述第一声音信号内容转换成第一文本，将所述第二声音信号内容转化成第二文本；

相似度计算模块，用于计算所述第一文本和所述第二文本之间的相似度；

目标声音信号确定模块，用于若所述相似度超过阈值，则将所述第二文本所属人声作为目标声音信号；

调整模块，用于根据预设参数，调整所述目标声音信号的响度值和频率值。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

有益效果：

本申请通过将耳机佩戴者的第一声音信号转化为第一文本，将周围人声的第二声音信号转化为第二文本，然后对比第一文本和第二文本的相似度，若两者的相似度超过了阈值，也就说明第一文本和第二文本的关联性强，因此可以判断第二文本所属的第二声音信号就是与耳机佩戴者对话的目标声音信号，根据这一结果，放大目标声音信号的响度值和频率值，使辅音耳机佩戴者听清目标对话人的声音内容。

附图说明

图1 是本发明一实施例的目标声音确定方法的流程示意图；

图2 是本发明一实施例的判断是否存在对话场景的流程示意图；

图3是本发明一实施例的目标声音确定的装置的结构示意框图；

图4为本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明一实施例的一种目标声音确定方法，包括：

S1：接收耳机佩戴者的第一声音信号和周围人声的第二声音信号；

S2：判断是否存在对话场景；

S3：若存在对话场景，则利用语音识别将所述第一声音信号内容转换成第一文本，将所述第二声音信号内容转化成第二文本；

S4：计算所述第一文本和所述第二文本之间的相似度；

S5：若所述相似度超过阈值，则将所述第二文本所属人声作为目标声音信号；

S6：根据预设参数，放大所述目标声音信号。

在上述实施例中，使用者在使用辅音耳机时，尤其是在只有少数人进行对话的聊天场景中，耳机佩戴者并不希望辅音耳机将拾取到的所有声音全部都放大，比如周围非对话者的声音、本人的声音、还有环境中嘈杂的噪音，这些无关紧要的声音会影响耳机佩戴者听清目标对话人的说话内容，所以需要一种方法来进行目标声音的确定，定向放大目标声音。而本申请通过将耳机佩戴者的第一声音信号转化为第一文本，将周围人声的第二声音信号转化为第二文本，然后对比第一文本和第二文本的相似度，若两者的相似度超过了阈值，也就说明第一文本和第二文本的关联性强，因此可以判断第二文本所属的第二声音信号就是与耳机佩戴者对话的目标声音信号，根据这一结果，放大目标声音信号的响度值和频率值。辅音耳机佩戴者听清目标对话人的声音内容。

如上述步骤S1和步骤S2所述，辅音耳机接收耳机佩戴者周围的声音，包括耳机佩戴者的第一声音信号和周围人声的第二声音信号，但是此时需要判断耳机佩戴者是否在和人进行对话，即是否存在对话场景。因为耳机佩戴者的周围即使存在人声，也不一定是耳机佩戴者在和人进行交谈，有可能他/她在看视频，或者在听演讲之类的。在具体的实施例中，对话场景的判断可以通过第一声音信号和第二声音信号之间的时间间距，如果时间间距过长，则说明不存在对话场景。也可以通过识别特定的声音来确定对话场景。

如上述步骤S3所述，判断出在耳机佩戴者周围存在对话场景了，但是这一对话场景并不一定与耳机佩戴者有关系。因此需要筛选出第二声音信号中的目标声音信号。

语音识别就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型、语言模型以及字典与解码四大部分，其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作，把要分析的信号从原始信号中提取出来；之后，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特征性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。本申请利用语音识别将第一声音信号内容转换成第一文本，将第二声音信号内容转化成第二文本。将声音信号内容转换成文本更容易进行计算、分析。第二声音信号中可能存在多个人的人声信号，如果存在多个人的人声信号，就将第二声音信号中的不同人的人声信号进行分离，然后转化成多个第二文本，将第一文本与多个第二文本逐一进行对比，如果多个第二文本中存在一个文本与第一文本的相似度超过阈值，则放大该文本对应的人声信号。如果多个第二文本中也存在多个文本与第一文本的相似度超过阈值，则将这多个文本对应的人声信号进行调整。

如上述步骤S4和S5所述，计算第一文本和第二文本之间的相似度，根据计算结果来判断第二声音信号所述的人是否在和耳机佩戴者聊天。两个人进行对话时，他们各自说的话肯定属于同一个话题或者对象，因此第一文本和第二文本的相似度会很高。如果第一文本和第二文本的相似度不高，则判断为第二声音信号所属的人中不存在与耳机佩戴者进行交谈的人，因此也不需要进行下面的步骤了。

如上述步骤S6所述，根据第一文本和第二文本之间的相似度判断出目标声音信号之后，调整目标声音信号的响度值和频率值，其中，响度值用于衡量音量的大小，频率值用于衡量声音的清晰度。用户可以自己预设参数，辅音耳机根据预设的参数调整目标声音信号。

根据图2，在一实施例中，所述判断是否存在对话场景的步骤S2，包括：

S201：计算接收到所述第一声音信号和所述第二声音信号之间的时间间隔；

S202：判断所述时间间隔是否超过预设时长；

S203：若未超过预设时长，则判断为存在对话场景。

在上述实施例中，进行了对话场景是否存在的判断。一般来说，两个人进行对话时，彼此之间的对话时间间隔不会太久。比如，耳机佩戴者说出了一句话或者一段话之后，辅音耳机长时间捕捉不到别的人的声音，或者间隔很长一段时间才拾取到人声，那么就可以判断出没有人同耳机佩戴者进行对话。又或者辅音耳机捕捉到耳机佩戴者周围存在人声，但是耳机佩戴者长时间没有声音或者间隔很长时间才会发声，因此同样可以判断出耳机佩戴者没有同别人进行交谈。

如上述步骤S201所述，计算第一声音信号和第二声音信号之间的时间间隔，可以是第一声音信号的捕捉时间比第二声音信号的捕捉时间更早，即耳机佩戴者先发声；也可以是第二声音信号的捕捉时间比第一声音信号的捕捉时间更早，即耳机佩戴者周围的人先发声。

如上述步骤S202和步骤S203所述，在捕捉到第一声音信号或者第二声音信号之后，记录捕捉时间，然后开始计时，如果时间间隔未超过预设时长，则判断为存在对话场景。

在另外的实施例中，所述判断是否存在对话场景的步骤，包括：将所述第二声音信号的内容转换成第三文本；对所述第三文本进行关键字匹配；若所述第三文本内存在预存的关键字，则判断为存在对话场景。

将第二声音信号如果转换成第三文本，如果第三文本中存在关键字的话，例如耳机佩戴者的名字或者耳机佩戴者较为重要的人的名字，这说明，耳机佩戴者周围有人说起这些关键字，并且这些关键字与耳机佩戴者有关系，因此可以判断耳机佩戴者周围存在与他/她有关系的对话场景。关键字是预设的，可以由耳机佩戴者自己进行个性化设置，耳机佩戴者可以根据自己的喜好、想法进行设置。如果第三文本内中存在预存的关键字，则判断为存在对话场景。

在一实施例中，所述判断是否存在对话场景的步骤S2，包括：

S211：提取所述第一声音信号对应的第一关键字，以及所述第二声音信号对应的第二关键字；其中，所述第一关键字与所述第二关键字至少包含一个字或词；

S212：将所述第一关键字依次与所述第二关键字进行匹配，并记录匹配个数；

S213：若所述匹配个数超过多个，则判定为存在对话场景。

在上述实施例中，关键字由预设的数据库提供，关键字包括多种对话主体，例如有关的学校内容，课程名称、考试内容等；或者有关影视方面的关键字等等。数据库中的关键字可以根据耳机佩戴者以往与其他人的对话内容根据深度学习获得。

先将第一声音信号的内容通过语音识别转换成文本，将第二声音信号的内容也通过语音识别转换成文本，然后根据数据库中的关键字提取第一声音信号对应的第一关键字和第二声音信号对应的第二关键字。将第一关键字中的子或者词与第一关键字中的字或者词进行匹配，将完全相同或者相似的子或者词的个数记录下来，若匹配个数超过多个，则说明两个人正在就同一话题进行对话，这样就可判定存在对话场景。

在一实施例中，所述若存在对话场景，则利用语音识别将所述第一声音信号内容转换成第一文本，将所述第二声音信号内容转化成第二文本的步骤S3，包括：

S301：判断所述第二声音信号是否存在多个人的人声信号；

S302：若存在多个人的人声信号，则提取出所述第二声音信号内的多个声纹特征；

S303：判断所述多个声纹特征中是否存在属于预设声纹库的待测目标声纹；

S304：若存在所述待测目标声纹，则将所述待测目标声纹所属的声音信号内容转换成所述第二文本；

S305：若不存在所述待测目标声纹，则计算所述第二声音信号中的多个人声与所述第一声音信号之间的距离；

S307：选择所述第二声音信号中的距离耳机佩戴者最近的人声作为待测声音信号；

S308：将所述待测声音信号内容转化成所述第二文本。

在上述实施例中，在对是否存在对话场景判断完成之后，还需要对第二声音信号进行一次初筛。因为第二声音信号中可能会存在多个人声的声音信号，如果对着多个人声的人声信号进行语音识别，并转化成多个第二文本，一一与第一文本进行相似度对比，这样辅音耳机的计算速度会大大减慢，导致其反应速度变慢，用户的使用体验下降。现在先将第二声音信号中的多个人声信号筛选掉一部分，避免对多个声音进行语义分析。一般地，可以通过音色或者距离进行初步筛选。例如，第二声音信号中存在耳机佩戴者熟悉的人或者亲人、朋友，相比于陌生人，这些人与耳机佩戴者进行交谈的可能性更高。因此可以将这些人的声音信号提取出来转化成第二文本，优先与第一文本进行比较。或者也可以通过距离进行初筛。第二声音信号中有些声音信号的响度过低的话，也可以筛去，因为响度过低的声音信号意味着这个人的距离和耳机佩戴者之间的距离太远，两个人进行对话的可能性太小。

如步骤S301和S302所述，首先判断第二声音信号是否存在多个人的人声信号，如果不存在，就不需要再进行一下步骤。如果存在多个人的人声信号，就根据人声音色判断第二声音信号中包含的人声是否存在朋友、亲人等的人声，所以需要提取第二声音信号内的多个声纹特征。

音色是指不同的声音的频率表现在波形方面总是有与众不同的特性。音色又称音品，由声音波形的谐波频谱和包络决定。声音波形各次谐波的比例和随时间的衰减大小决定了各种声源的音色特征。而声纹是使用电学仪器可以观看到的携带语言信息的声波频谱，人类语言产生时，人体语言中枢与发音器官之间有一个复杂的生物物理过程，人在讲话时所使用的发声器官包括：舌、喉头、肺、鼻腔等等，由于每一个人的发声器官在尺寸和形态上各不相同，所以彼此的声纹图谱也会存在差异。声纹特征是声纹所具备的特征参数，是使得声纹可靠的参数，不同的声纹特征可以区分不同的声音。因此辅音耳机可以通过声纹特征判断音色。

如上述步骤S303和S304所述，预设声纹库是耳机佩戴者自定义设置的声纹库。耳机佩戴者可以利用辅音耳机或其他采集装置将自己熟悉的人、朋友、爱人或者希望与之交谈的人的声音收集并提取相应的声纹特征，保存到预设声纹库中。辅音耳机就可以优先处理她们的声音。将步骤S302中获取的多个声纹特征与预设声纹库中的声纹进行一一比对。如果多个声纹特征中存在有声纹与预设声纹库中的声纹的相似度超过阈值，则判断第二声音信号中存在待测目标声纹。然后将待测目标声纹所属的声音信号内容转换成所述第二文本。

如上述步骤S305、S306、S307所述，如果第二声音信号中不存在待测目标声纹，则说明耳机佩戴者周围并不存在耳机佩戴者的熟人，此时就需要根据距离远近进行初筛。辅音耳机距离发声源的远近和响度有关，声音是从发声体向四面八方传播的，越到远处越分散，所以辅音耳机距发声体越远，采集到的声音越小。如果第二声音信号的某一个声音信号比其他声音信号的响度都高，那么就说明这个声音信号所述的人距离耳机佩戴者的距离最近，他和耳机佩戴者进行交谈的可能性最高。

计算第二声音信号中的多个人声与第一声音信号之间的距离，计算第二声音信号中的各个人声信号的响度，然后将响度最高的人声信号作为待测声音信号，将待测声音信号内容转化成第二文本。

在一实施例中，所述根据预设参数，调整所述目标声音信号的步骤S6，包括：

S601：提取所述第一文本和所述第二文本的关键字；

S602：将所述关键字与预设的主题模型库中的主题模型进行匹配，获得目标主题模型；

S603：根据所述目标主题模型，对所述目标声音信号内容进行修正；

S604：根据预设参数，调整修正后的所述目标声音信号的响度值和频率值。

在上述实施例中，可以根据第一文本和第二文本的关键字匹配主题模型库。所述主题模型库即基于预设的聊天场景语料建立起来的。利用关键字和多个主题模型进行匹配，若匹配，则确定为对应的主题模型，从而确定聊天场景。主题模型可以是影视场景，影视场景中包括主题模型库内保存的电影的名称、导演、角色、演员等信息。主题模型也可以是医院场景，医院场景可以包括各个医院名称、医院地址等信息。根据主题模型，如果第二文本中有些词比如电影名字或者明星名字等说错了，可以根据主题模型中的聊天语料对这些错误内容进行智能修正，最终将正确的目标声音信号放大。

在一实施例中，所述若所述相似度超过阈值，则将所述第二文本所属人声作为目标声音信号的步骤S5之后，包括：

S501：判断所述目标声音信号是否存在多个人的人声信号；

S502：若存在，则将所述目标声音信号中的不同人的人声信号进行分离；

S503：根据指令切换，对所述分离后的人声信号进行切换。

在上述实施例中，如果对话场景中，出现第三个，或者第四个声音，可以计算多人之间语义相似度来判断是否需要同时扩大第三个或者第四个声音作为目标声音信号。如果确实存在多个目标声音信号，辅音耳机可以进行目标声音切换。辅音耳机可以识别出多个不同的声音，并且将目标声音信号中的不同人的人声信号根据频率频谱进行分离，在多个声音中自由切换，切换到哪个声音，哪个声音扩大。

6、在一实施例中，所述计算所述第一文本和所述第二文本之间的相似度的步骤S4，包括：

S401：对所述第一文本进行分词获得第一分词库，对所述第二文本进行分词获得第二分词库；

S402：对所述第一分词库进行计算获取第一词向量，对所述第二分词库进行计算获取第二词向量；

S403：根据所述第一词向量获取第一句向量，根据所述第二词向量获取第二句向量；

S404：根据所述第一句向量和所述第二句向量，计算所述第一文本和所述第二文本的相似度。

在上述实施例中，将第一文本和第二文本中完整的文章分成一个个的词，以便进行对比，分词之后获得第一分词库和第二分词库。然后利用Word2Vec或Glove等方法计算第一分词库和第二分词库的词向量，这样就可以定量的度量词与词之间的关系。但词向量忽略了词与词之间的顺序关系，导致无法准确计算文本之间的相似度，因此还需要根据第一词向量和第二词向量计算第一句向量和第二句向量。然后计算第一句向量和第二句向量的相似度，获得第一文本和第二文本的相似度。

参照图3，本发明还提供了一种目标声音确定的装置，包括：

接收模块10，用于接收耳机佩戴者的第一声音信号和周围人声的第二声音信号；

判断模块20，用于判断是否存在对话场景；

文本转换模块30，用于若存在对话场景，则利用语音识别将所述第一声音信号内容转换成第一文本，将所述第二声音信号内容转化成第二文本；

相似度计算模块40，用于计算所述第一文本和所述第二文本之间的相似度；

目标声音信号确定模块50，用于若所述相似度超过阈值，则将所述第二文本所属人声作为目标声音信号；

调整模块60，用于根据预设参数，调整所述目标声音信号的响度值和频率值。

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种声音信号、文本等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的目标声音确定方法

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的目标声音确定方法

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种目标声音确定方法，其特征在于，包括：

判断是否存在对话场景；

计算所述第一文本和所述第二文本之间的相似度；

根据预设参数，调整所述目标声音信号。

2.根据权利要求1所述的目标声音确定方法，其特征在于，所述判断是否存在对话场景的步骤，包括：

判断所述时间间隔是否超过预设时长；

若未超过预设时长，则判定为存在对话场景。

3.根据权利要求1所述的目标声音确定方法，其特征在于，所述判断是否存在对话场景的步骤，还包括：

若所述匹配个数超过多个，则判定为存在对话场景。

4.根据权利要求1所述的目标声音确定方法，其特征在于，所述若存在对话场景，则利用语音识别将所述第一声音信号内容转换成第一文本，将所述第二声音信号内容转化成第二文本的步骤，包括：

判断所述第二声音信号是否存在多个人的人声信号；

将所述待测声音信号内容转化成所述第二文本。

5.根据权利要求1所述的目标声音确定方法，其特征在于，所述根据预设参数，调整所述目标声音信号的步骤，包括：

提取所述第一文本和所述第二文本的关键字；

6.根据权利要求1所述的目标声音确定方法，其特征在于，所述若所述相似度超过阈值，则将所述第二文本所属人声作为目标声音信号的步骤之后，包括：

判断所述目标声音信号是否存在多个人的人声信号；

根据指令，对所述分离后的人声信号进行切换。

7.根据权利要求1所述的目标声音确定方法，其特征在于，所述计算所述第一文本和所述第二文本之间的相似度的步骤，包括：

8.一种目标声音确定的装置，其特征在于，包括：

判断模块，用于判断是否存在对话场景；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。