CN117831530A

CN117831530A - 对话场景区分方法、装置、电子设备和存储介质

Info

Publication number: CN117831530A
Application number: CN202311868957.3A
Authority: CN
Inventors: 王飞; 雷琴辉; 刘俊峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-05

Abstract

本发明提供一种对话场景区分方法、装置、电子设备和存储介质，其中方法包括：确定目标语音；在目标语音中包含多个音区的语音的情况下，确定各音区的语音的转写文本，以及各音区的历史对话文本；基于各音区的转写文本和历史对话文本，进行对话场景区分，以准确区分其所对应的对话场景，得到目标语音对应的对话场景，从而决定设备是否需对目标语音进行响应，克服了传统方案中无法准确区分不同交互场景，导致人人对话过程中易出现误触发，给用户带来干扰的问题，实现了快速准确的场景区分，且成本低廉，简单高效。

Description

对话场景区分方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种对话场景区分方法、装置、电子设备和存储介质。

背景技术

随着智能语音技术的快速发展，语音交互已经成为了日常生活中不可或缺的一部分。然而，在当前的语音交互中，人人和人机之间的对话往往存在混淆，这无疑会给用户带来了困扰。因此，如何准确区分对话场景以提升用户体验成为了当前亟待解决的问题。

目前，对于交互场景的区分通常通过特定的操作进行，如可以通过固定的指令进入对应的交互模式，以分隔人人交互和人机交互，即可以通过固定的语音指令进入闲聊场景，或者进入拦截闲聊对话的场景，以区分人人对话和人机对话。但是，此种方法往往很难准确地区分人人和人机的语音交互场景，导致语音交互出现干扰。

发明内容

本发明提供一种对话场景区分方法、装置、电子设备和存储介质，用以解决现有技术中无法准确区分不同交互场景，以致语音交互过程中容易因误触发带来干扰，影响用户的交互体验的缺陷。

本发明提供一种对话场景区分方法，包括：

确定目标语音；

在所述目标语音中包含多个音区的语音的情况下，确定各音区的语音的转写文本，以及所述各音区的历史对话文本；

基于所述各音区的转写文本和历史对话文本，进行对话场景区分，得到所述目标语音对应的对话场景。

根据本发明提供的一种对话场景区分方法，所述基于所述各音区的转写文本和历史对话文本，进行对话场景区分，得到所述目标语音对应的对话场景，包括：

基于所述各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分；

基于所述关联性评分进行对话场景区分，得到所述目标语音对应的对话场景。

根据本发明提供的一种对话场景区分方法，所述基于所述各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分，包括：

确定所述目标语音对应的对话发起音区；

基于所述对话发起音区的转写文本以及历史对话文本，进行对话关联性检测，得到同音区关联性评分；

基于所述对话发起音区的转写文本，以及其他音区的转写文本和历史对话文本，进行对话关联性检测，得到不同音区关联性评分；

基于所述同音区关联性评分和所述不同音区关联性评分，确定关联性评分，所述其他音区为各音区中除所述对话发起音区外的音区。

基于所述各音区的转写文本和历史对话文本，应用关联性检测模型进行对话关联性检测，得到关联性检测模型输出的关联性评分；

所述关联性检测模型基于样本语音，以及所述样本语音对应的样本历史语音和样本非历史语音训练得到。

根据本发明提供的一种对话场景区分方法，所述确定目标语音，之后还包括：

基于所述目标语音进行音区检测，得到音区检测结果；

在所述音区检测结果指示所述目标语音为同音区的语音的情况下，基于所述目标语音进行意图识别，得到意图识别结果；

基于所述意图识别结果，进行对话场景区分，得到所述目标语音对应的对话场景。

根据本发明提供的一种对话场景区分方法，所述基于所述意图识别结果，进行对话场景区分，得到所述目标语音对应的对话场景，包括：

若所述意图识别结果反映意图明确，则确定所述目标语音对应的对话场景为人机对话场景；

否则，确定所述目标语音对应的对话场景为人人对话场景。

根据本发明提供的一种对话场景区分方法，所述基于所述关联性评分进行对话场景区分，得到所述目标语音对应的对话场景，包括：

若所述关联性评分大于等于关联性阈值，则确定所述目标语音对应的对话场景为人机对话场景；

否则，确定所述目标语音对应的对话场景为人人对话场景。

本发明还提供一种对话场景区分装置，包括：

语音确定单元，用于确定目标语音；

文本确定单元，用于在所述目标语音中包含多个音区的语音的情况下，确定各音区的语音的转写文本，以及所述各音区的历史对话文本；

场景区分单元，用于基于所述各音区的转写文本和历史对话文本，进行对话场景区分，得到所述目标语音对应的对话场景。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的对话场景区分方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的对话场景区分方法。

本发明提供的对话场景区分方法、装置、电子设备和存储介质，在目标语音中包含多个音区的语音的情况下，结合各音区的历史对话文本，以及各音区的语音的转写文本，对目标语音进行场景区分，以准确区分其所对应的对话场景，从而决定设备是否需对目标语音进行响应，克服了传统方案中无法准确区分不同交互场景，导致人人对话过程中易出现误触发，给用户带来干扰的问题，实现了快速准确的场景区分，且成本低廉，简单高效。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的对话场景区分方法的流程示意图；

图2是本发明提供的关联性检测过程的示意图；

图3是本发明提供的对话场景区分过程的示例图；

图4是本发明提供的对话场景区分方法的总体框架图；

图5是本发明提供的对话场景区分方法的总体流程图；

图6是本发明提供的对话场景区分装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在语音交互中用户需要进行特定的操作来分隔人人交互和人机交互，例如，通过固定指令进入对话场景、通过按钮点击进入闲聊场景等，这些操作虽然可以在一定程度上避免干扰，但是，在常规的人人对话中仍然很容易引起误触发，这无疑会给用户带来困扰。

对此，本发明提供一种对话场景区分方法，旨在目标语音的基础上，结合拾音区域的历史对话文本，对目标语音进行场景区分，以准确区分其所对应的对话场景，从而决定设备是否需对目标语音进行响应，进而可以有效避免因无法准确区分不同交互场景，导致人人对话过程中易出现误触发，给用户带来干扰的问题，提升了用户体验。

图1是本发明提供的对话场景区分方法的流程示意图，如图1所示，该方法可以应用于各种对话场景下，如车载语音对话、室内语音对话等，仅通过目标语音和历史对话文本即可有效判定不同对话场景，克服了目前无法准确区分不同交互场景，造成语音交互存在干扰的缺陷，提升了语音交互的效率和用户体验。该方法包括：

步骤110，确定目标语音；

具体地，在进行对话场景区分之前，首先需要确定需要区分交互场景的语音，即待区分的语音，可以称之为目标语音。此处目标语音可以是交互场景下通过拾音设备实时进行拾音得到的，拾音设备可以是麦克风、录音机、拾音器等；目标语音也可以是预先拾取得到的语音，还可以是从预先拾取的语音中截取的语音片段，例如，可以是从最新拾取的语音中截取的语音片段，本发明实施例对此不做具体限定。

可以理解的是，在实际的语音交互过程中，可以通过拾音设备对语音交互过程中的语音进行拾取，从而得到目标语音，而为更好的区分目标语音所对应的场景，本发明实施例中在进行拾音时，可以为语音交互过程所对应的场景，如车载场景、室内场景等中的各音区分别设置拾音设备，如设置拾音器、麦克风等，以通过各音区的拾音设备分别拾取对应音区的语音，从而汇总形成目标语音。

其中，音区即对应场景下的拾音区域，车载场景下可以是双音区，如主驾驶音区和副驾驶音区，也可以是三音区，如主驾驶音区、副驾驶音区，以及后座音区。室内场景下则可以是多音区，如各个方向的音区、各个区域的音区等，本发明实施例对此不做具体限定。

此处，目标语音所对应的内容可以是单人语言也可以是多人对话，例如，可以是单个人的一句话、一段话或者多段话(如单人的发问、陈述、需求描述等)；也可以是多个人的对话(如两人的问答，多人讨论等)，本发明实施例对此不做具体限定。

其中，目标语音所对应的时长可以根据实际情况、实际需求、拾音设备的拾音设定(如何种情况下开始拾音、何种情况下停止拾音)、拾音限制(如单次最长拾音时间)等确定。

步骤120，在目标语音中包含多个音区的语音的情况下，确定各音区的语音的转写文本，以及各音区的历史对话文本；

具体地，经过步骤110得到目标语音之后，即可确定目标语音对应音区数量，而在目标语音为多音区的语音的情况下，即可确定各音区的语音的转写文本和各音区的历史对话文本。

可以理解的是，在获取得到目标语音之后，为准确区分目标语音所对应的交互场景，即确认目标语音对应于人人对话还是人机对话，本发明实施例中，可以先确定目标语音对应的语音交互过程的参与人数，是单人还是多人；原因在于，一般情况下人人对话往往不止一人参加，人机对话则多是单人与设备间的对话，为单人参加，因此，人员数量的确定有助于目标语音对应的对话场景的区分。

具体而言，由于目标语音是通过各音区的拾音设备拾取得到的，而不同人员通常对应于不同音区，例如，车载场景下主驾驶位的驾驶员对应于主驾驶音区，副驾驶位的副驾驶员对应于副驾驶音区，因此，可以通过目标语音所包含的音区，确认语音交互过程的参与人数。此处，具体可以是在拾取得到目标语音之后，通过声学前端对目标语音进行处理，以确定其对应的音区，为同音区还是多个音区，即确定目标语音为单音区的语音，即同音区的语音，还是为不同音区的语音，即多音区的语音，从而判定目标语音所对应的内容为单人的语言，还是多人的对话，即参与语音交互过程的人数是单个还是多个。

即，可以对目标语音进行音区检测，以检测其中所包含的音区，为单个音区还是多个音区，具体可以是，通过声学前端对目标语音进行处理，以将其与语音交互过程所对应的场景，如车载场景、室内场景等中的音区进行对应，例如，声学前端可以对目标语音进行语音分离，以将其映射到对应场景下的音区，从而得到音区检测结果。此处的音区检测结果可以包括目标语音所对应的音区、每一音区的语音等。

进一步地，在音区检测结果指明目标语音对应多个音区的情况下，即目标语音中包含多个音区的语音，此时可以确定各音区的语音的转写文本，以及各音区的历史对话文本，以待后续基于此进行对话场景区分，从而得到目标语音对应的对话场景。此处，可以是对各音区的语音进行语音转写，以将其转写为文本，从而得到各音区的语音对应的转写文本。其中，语音转写可以通过语音转写模型、转写引擎、声学模型、语言模型等实现，具体可以是将各音区的语音分别输入至模型/引擎，以使模型/引擎对输入的各音区的语音进行转写，以将其中的声音信号转换为文本内容，从而得到各音区的转写文本。

例如，可以将语音输入至声学模型，以利用声学模型进行识别解码，从而得到转写文本，即可以利用声学模型将各语音帧转换为状态序列或音素序列，然后，可以将状态序列或音素序列解码映射到词序列，从而得到语音对应的转写文本。又例如，可以将语音输入到语言模型，以利用语言模型进行识别解码，从而得到转写文本，即可以利用端到端的语言模型，将语音转换为字序列后，再将字序列解码映射到词序列，从而得到语音对应的转写文本。

其中，各音区的历史对话文本为历史时间内各音区中语音交互成功的对话文本，此处历史时间是相对于目标语音的拾取时间而言的，当目标语音是实时拾取得到的时，历史时间为当前时刻之前的时间，当目标语音为预先拾取得到的时，历史时间为目标语音的拾取时间之前的时间。本发明实施例中，可将成功拾取目标语音之前，各音区的设备中存储的交互成功的对话文本，作为各音区的历史对话文本。

步骤130，基于各音区的转写文本和历史对话文本，进行对话场景区分，得到目标语音对应的对话场景。

具体地，在经过上述过程得到各音区的转写文本和历史对话文本之后，即可据此两者确定目标语音所对应的交互场景，为人人交互还是人机交互，即确定目标语音对应的对话场景，为人人对话场景还是人机对话场景。

可以理解的是，获取得到的各音区的转写文本和历史对话文本中，前者能够反映语音交互过程的对话内容，后者能够体现语音交互过程之前各音区的历史交互过程的对话内容，因此，在对目标语音进行场景区分时，本发明实施例中，可以结合此两者进行关联性的判断，基于此两者在内容上的关联性，确定目标语音是对应于人人交互还是人机交互，从而得到目标语音对应的对话场景。

具体而言，此处可以是通过各音区的转写文本，以及各音区的历史对话文本，进行关联性度量，如度量各音区的语音之间的关联性、语音与历史对话间的关联性等，通过此关联性判断目标语音是衔接于历史对话的新一轮对话的输入语音，还是人人对话过程中的语音，从而得到目标语音对应的对话场景。此处，历史对话为各音区的历史交互过程的对话，其对应于各音区的历史对话文本。

即，当关联性较低时，此时目标语音与历史对话之间的内容相关性不高，则可以确定目标语音对应于人人交互，即其对应的对话场景为人人对话场景。相应地，当关联性较高时，此时目标语音与历史对话之间的内容关联度较高，则可以确定其对应的场景为人机对话场景。

进一步地，在确定目标语音对应的对话场景之后，若对话场景为人人对话场景，则可以控制各音区的设备不对该目标语音进行响应，即不对目标语音做出相应地回复；对应地，若对话场景为人机对话场景，则需要控制对应音区的设备进行响应，即控制设备对目标语音做出相应地回复。例如，当目标语音为主驾驶发起时，即目标语音为主驾驶员的发问语音时，此时可以控制主驾驶音区的设备对主驾驶员的发问做出回复；相应地，当目标语音为副驾驶发起时，此时可以控制副驾驶音区的设备对副驾驶员的发问做出回复

本发明提供的对话场景区分方法，在目标语音中包含多个音区的语音的情况下，结合各音区的历史对话文本，以及各音区的语音的转写文本，对目标语音进行场景区分，以准确区分其所对应的对话场景，从而决定设备是否需对目标语音进行响应，克服了传统方案中无法准确区分不同交互场景，导致人人对话过程中易出现误触发，给用户带来干扰的问题，实现了快速准确的场景区分，且成本低廉，简单高效。

基于上述实施例，步骤130包括：

基于各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分；

基于关联性评分进行对话场景区分，得到目标语音对应的对话场景。

具体地，步骤130中，根据各音区的转写文本和历史对话文本，进行对话场景区分，得到目标语音对应的对话场景的过程，具体可以包括如下步骤：

首先，可以根据各音区的转写文本和历史对话文本，进行对话关联性检测，以得到关联性评分，即可以以各音区的转写文本，以及各音区的历史对话文本为基准，对目标语音对应的语音交互过程的对话内容，以及历史对话的对话内容进行关联性检测判断，从而得到检测出的关联性评分。此处的关联性评分可以是具体的分值，例如，60、80等，可以是百分比，如75％、90％等，本发明实施例对此不做限定。

此处，基于转写文本和历史对话文本的对话关联性检测可以是音区与音区之间的对话关联性检测，也可以是音区内的对话关联性检测，还可以既包含音区间的对话关联性检测又包含音区内的对话关联性检测，本发明实施例对此不做具体限定。其中，音区间的对话关联性检测即检测不同音区的对话内容之间的关联性，音区内的关联性检测即检测同一音区内的对话内容之间的关联性。此处，关联性可以是文本层面的关联性、语义层面的关联性、逻辑层面的关联性等。

随后，即可根据对话关联性检测所得的关联性评分，对目标语音进行对话场景区分，从而得到目标语音对应的对话场景，即可以基于关联性检测判断得出的评分，判断目标语音是人机对话过程的语音，即是衔接于对应音区的历史对话的新一轮对话的输入语音，还是人人对话过程中的语音，从而得到目标语音对应的对话场景。

此处，具体可以是当关联性评分较低时，如低于设定值时，此时目标语音与历史对话之间的关联性较低，和/或，目标语音中不同音区的内容之间的关联性较高，因此，可以确定目标语音对应的对话场景为人人对话场景。相应地，当关联性评分较高时，高于设定值时，此时目标语音与历史对话之间的内容关联度较高，和/或，目标语音中不同音区的内容之间的关联性较低，因此，可以确定其对应的对话场景为人机对话场景。

基于上述实施例，基于各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分，包括：

确定目标语音对应的对话发起音区；

基于对话发起音区的转写文本以及历史对话文本，进行对话关联性检测，得到同音区关联性评分；

基于对话发起音区的转写文本，以及其他音区的转写文本和历史对话文本，进行对话关联性检测，得到不同音区关联性评分；

基于同音区关联性评分和不同音区关联性评分，确定关联性评分，其他音区为各音区中除对话发起音区外的音区。

具体地，上述根据各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分的过程，具体可以包括：

由于语音交互过程多是由一人发问，然后由设备或其他人进行回答，因此，本发明实施例中在确定目标语音所对应的对话场景时，可以先确定出其中的发问方，即确定语音交互过程中的对话发起音区，然后即可以此音区的转写文本为基准，结合该音区的历史对话文本，以及其他音区的转写文本和历史对话文本进行关联性检测判断，以检测对话关联性，从而得到关联性评分。

详尽地，在目标语音中包含多个音区的语音时，若要基于各音区的语音的转写文本，以及各音区的历史对话文本进行关联性检测，以得到关联新评分，则首先需要确定目标语音对应的对话发起音区，此处对话发起音区即发起语音交互的人员在交互场景下所在的音区，如，当交互场景为车载场景时，若目标语音中是主驾驶员率先发问，即可以确定主驾驶员音区为对话发起音区，对应地，若目标语音中同时包含主驾驶音区的语音和副驾驶音区的语音，但是副驾驶音区的音区在先，即是副驾驶员先发问，则可以确定副驾驶音区为对话发起音区。

进一步地，在确定对话发起音区之后，即可据此音区的语音的转写文本进行对话关联性检测，以依据此检测同音区的对话关联性，以及不同音区的对话关联性，从而综合得到对话关联性评分。即，可以基于对话发起音区的转写文本，分别进行同音区的对话关联性检测，以及不同音区的对话关联性检测，最终得到所需的关联性评分。

具体而言，此处可以是在对话发起音区的转写文本的基础上，结合该音区的历史对话文本，进行对话关联性检测，以检测此音区下对应于语音交互过程的内容，与历史交互过程的对话内容之间的关联性，可以是文本关联性、语义关联性、逻辑关联性等，从而得到音区内的对话关联性评分，即同音区关联性评分。

与此同时，可以以对话发起音区的转写文本为基准，根据其他音区的转写文本和历史对话文本，进行不同音区间的对话关联性检测，以检测对话发起音区对应于语音交互过程的内容，分别与其他音区对应于语音交互过程的内容和历史交互过程的对话内容之间的关联性，可以是文本关联性、语义关联性、逻辑关联性等，从而得到音区间的对话关联性评分，即不同音区关联性评分。此处，其他音区为各音区中除所述对话发起音区外的音区。

在这之后，即可基于同音区关联性评分和不同音区关联性评分，确定关联性评分，即可以综合同音区的对话关联性检测得到的关联性评分，与不同音区的对话关联性检测得到的关联性评分，以确定最终整体的关联性评分，此处，具体可以是在同音区关联性评分和不同音区关联性评分的基础上，采用求差值的方法，如在同音区关联性评分的基础上减去不同音区关联性评分，从而得到最终的关联性评分；或者，可以是采用先加权再求差值的方式，计算得到最终的关联性评分。

基于各音区的转写文本和历史对话文本，应用关联性检测模型进行对话关联性检测，得到关联性检测模型输出的关联性评分；

关联性检测模型基于样本语音，以及样本语音对应的样本历史语音和样本非历史语音训练得到。

具体地，上述根据各音区的转写文本和历史对话文本，进行对话关联性检测，以得到关联性评分的过程，可以基于关联性检测模型实现，即可以将在各音区的转写文本和历史对话文本的基础上，应用关联性检测模型去进行对话关联性检测，以检测对话内容之间的关联性，并使关联性检测模型输出检测所得的评分，即关联性评分。

图2是本发明提供的关联性检测过程的示意图，如图2所示，此处可以是将各音区的转写文本和历史对话文本输入至关联性检测模型，以使关联性检测模型基于输入的各音区的转写文本和历史对话文本，进行对话关联性检测，具体可以是分别对其进行特征提取，提取其文本特征、语义特征等，并基于特征提取所得的特征进行关联性检测，以检测对话内容中上下句子之间的关联性，以及检测语音交互过程的对话内容与历史对话的对话内容之间的关联性，从而得到模型预测的关联性判断结果。

此处，值得注意的是，模型输出的关联性判断结果除了包含具体的关联性评分外，还可以包含关联性判断时的关联等级，此关联等级与关联性评分对应。本发明实施例中，关联性等级可以包括强关联性、中关联性、若关联性和无关联性，其中强关联性等级下关联性评分的范围是0.75≤S≤1.00，中关联性等级下关联性评分的范围是0.50≤S<0.75，弱关联性等级下关联性评分的范围是0.25≤S<0.50，无关联性等级下关联性评分的范围是0.00≤S<0.25。

而在应用关联性检测模型进行对话关联性检测之前，还需预先训练得到关联性检测模型，此处可以通过样本语音，以及样本语音对应的样本历史语音和样本非历史语音预先训练得到关联性检测模型。

关联性检测模型的训练过程，具体可以包括：首先，可以收集大量的交互场景下的语音，作为样本语音，并可以获取对应交互场景下该样本语音之前的语音，作为样本语音的历史语音，即样本历史语音，而为保证模型训练时的全面性，此时还可以获取与样本语音无关联的语音，作为样本语音的非历史语音，即样本非历史语音；接着，即可基于样本语音，以及样本语音对应的样本历史语音和样本非历史语音，对初始模型进行训练，以通过有监督，或者无监督对比学习的方式使模型学习到样本语音与样本历史语音之间的相联性，以及样本语音与样本非历史语音之间的无关性，从而得到训练完成的关联性检测模型。

基于上述实施例，基于关联性评分进行对话场景区分，得到目标语音对应的对话场景，包括：

若关联性评分大于等于关联性阈值，则确定目标语音对应的对话场景为人机对话场景；

否则，确定目标语音对应的对话场景为人人对话场景。

具体地，上述根据关联性评分进行对话场景区分，得到目标语音对应的对话场景的过程，具体可以分为以下两种情况：

其一，当对话关联性检测所得的关联性评分较高时，具体是当关联性评分大于等于关联性阈值(设定值)时，可以确定此时目标语音与历史对话之间的内容关联度较高，和/或，目标语音中不同音区的内容之间的关联性较低，因此，可以确定对应于人机对话场景。

其二，当对话关联性检测所得的关联性评分较低时，具体是当关联性评分小于关联性阈值(设定值)时，可以确定此时目标语音与历史对话之间的内容关联度较低，和/或，目标语音中不同音区的内容之间的关联性较高，因此，可以确定对应于人人对话场景。

其中，关联性阈值为预先设定的用于区分目标语音所对应的对话场景的值，其具体数值可以根据实际场景、需求等相应设定。而作为优选，本发明实施例中，可以将关联性阈值确定为0.75，即，当关联性评分大于等于0.75时，可以确定目标语音对应的对话场景为人机对话场景，反之，当关联性评分小于0.75时，可以确定目标语音对应的对话场景为人人对话场景。

以下以具体示例为例，对对话场景区分过程进行说明：

图3是本发明提供的对话场景区分过程的示例图，如图3所示，当交互场景为车载场景时，可以根据交互时序，确定目标语音，以及此前的历史语音。此处目标语音对应两个音区，分别为主驾驶音区和副驾驶音区，主驾驶音区的历史对话文本为cache_0，副驾驶音区的历史对话文本为cache_1；目标语音为newText_0，目标语音对应的对话发起音区为主驾驶音区。

在对目标语音进行对话场景区分时，可以将主驾驶音区的转写文本“text：你中午吃过饭了吗？”，以及主驾驶音区的历史对话文本“text：甲地今天的天气，text：.....”输入至关联性检测模型，以进行同音区关联性检测，从而得到同音区关联性评分，即关联性评分A，为0.21；并可将主驾驶音区的转写文本“text：你中午吃过饭了吗？”，以及副驾驶音区的转写文本“text：还没呢”和历史转写文本“text：明天的呢，text：.....”输入至关联性检测模型，以进行不同音区的关联性检测，从而得到不同音区关联性评分，即关联性评分B，为0.86。

进一步地，可以根据关联性评分A和关联性评分B，确定最终的关联性评分，即A+(1-B)＝Q，Q即关联性评分，为0.35，当关联性阈值S取0.75时，Q<S，因此，可以确定目标语音对应的对话场景为人人对话场景，此时，主驾驶音区的设备无需对目标语音进行响应。

基于上述实施例，确定目标语音，之后还包括：

基于目标语音进行音区检测，得到音区检测结果；

在音区检测结果指示目标语音为同音区的语音的情况下，基于目标语音进行意图识别，得到意图识别结果；

基于意图识别结果，进行对话场景区分，得到目标语音对应的对话场景。

具体地，步骤110中，在确定目标语音之后，若目标语音仅对应一个音区，即其为同音区的语音，此时可以对其进行意图检测，以确定其意图是否明确，从而得到意图检测结果，之后，即可根据此意图检测结果，对目标语音进行场景区分，从而得到其对应的对话场景。

可以理解的是，在得到目标语音之后，考虑到在拾取目标语音时，是分别通过各音区的拾音设备进行语音拾取，因此，基于目标语音中包含的音区即可确定目标语音所对应的内容为单人的语言，还是多人的对话，即可以对目标语音进行音区检测，此处，具体可以是在拾取得到目标语音之后，通过声学前端对目标语音进行处理，以识别其中的音区，具体是将其与语音交互过程所对应的场景，如车载场景、室内场景等中的音区进行对应，例如，声学前端可以对目标语音进行语音分离，以将其映射到对应场景下的音区，从而得到音区检测结果。

具体在进行音区检测，以确认目标语音对应的音区时，本发明实施例中可以采用如下策略，假定目标语音由主驾驶员发起，在主驾驶员说完后，若预设时间内无人声输入，则确定目标语音对应同音区；反之，若主驾驶员说完后，若预设时间内有人声输入，此时，若人声为其他位置，即非主驾驶位，则确定目标语音对应多个音区，否则确定目标语音对应同音区。

进一步地，在音区检测结果指明目标语音仅对应一个音区的情况下，即目标语音为同音区的语音，此时可以基于目标语音进行意图识别，以确认目标语音所对应内容的意图，从而得到意图识别结果。

此处，意图识别结果用于反映意图是否清晰、是否明确，意图清晰、明确与否的判断即目标语音所对应的内容是否存在指向性，指示具体需要做什么事情。例如，当目标语音对应的内容为“导航到甲地”、“查询乙地的天气”等，其存在明确的目的，因此通过意图识别可以确认其意图明确。又例如，当目标语音对应的内容为“我回家了”、“小明今天不高兴”等，其不含有明确的意图，因此，通过意图识别可以确认其意图并不清晰也不明确。

之后，即可根据意图识别结果，进行对话场景区分，以得到目标语音对应的对话场景，即可以通过意图识别得到的目标语音的意图明确与否，进行对话场景区分，从而得到目标语音对应的对话场景。

基于上述实施例，基于意图识别结果，进行对话场景区分，得到目标语音对应的对话场景，包括：

若意图识别结果反映意图明确，则确定目标语音对应的对话场景为人机对话场景；

否则，确定目标语音对应的对话场景为人人对话场景。

具体地，根据意图识别结果，进行对话场景区分，得到目标语音对应的对话场景的过程，具体可以分为以下两种情况：

考虑到通常人机交互场景下，当需与设备进行交互时，发起的对话通常会有明确的指向性，即意图明确，例如，导航到甲地，查询乙地的天气等，因此，当意图识别结果表明目标语音对应的意图明确时，即意图识别结果反映意图明确，此时可以确定目标语音对应的对话场景为人机对话场景。反之，若意图识别结果表明目标语音对应的意图不明确时，即意图识别结果反映意图不明时，可以确定目标语音对应的对话场景为人人对话场景。

图4是本发明提供的对话场景区分方法的总体框架图，图5是本发明提供的对话场景识别方法的总体流程图，如图4和图5所示，该方法包括：

首先，确定目标语音；

随即，基于目标语音进行音区检测，得到音区检测结果；

随后，在目标语音中包含多个音区的语音的情况下，确定各音区的语音的转写文本，以及各音区的历史对话文本；

之后，基于各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分；

此后，基于关联性评分进行对话场景区分，得到目标语音对应的对话场景。

其中，基于各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分，包括：确定目标语音对应的对话发起音区；基于对话发起音区的转写文本以及历史对话文本，进行对话关联性检测，得到同音区关联性评分；基于对话发起音区的转写文本，以及其他音区的转写文本和历史对话文本，进行对话关联性检测，得到不同音区关联性评分；基于同音区关联性评分和不同音区关联性评分，确定关联性评分，其他音区为各音区中除对话发起音区外的音区。

此处，基于各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分，包括：基于各音区的转写文本和历史对话文本，应用关联性检测模型进行对话关联性检测，得到关联性检测模型输出的关联性评分；关联性检测模型基于样本语音，以及样本语音对应的样本历史语音和样本非历史语音训练得到。

其中，基于关联性评分进行对话场景区分，得到目标语音对应的对话场景，包括：若关联性评分大于等于关联性阈值，则确定目标语音对应的对话场景为人机对话场景；否则，确定目标语音对应的对话场景为人人对话场景。

而对应地，在音区检测结果指示目标语音为同音区的语音的情况下，基于目标语音进行意图识别，得到意图识别结果；基于意图识别结果，进行对话场景区分，得到目标语音对应的对话场景。

其中，基于意图识别结果，进行对话场景区分，得到目标语音对应的对话场景，包括：若意图识别结果反映意图明确，则确定目标语音对应的对话场景为人机对话场景；否则，确定目标语音对应的对话场景为人人对话场景。

本发明实施例提供的方法，在目标语音中包含多个音区的语音的情况下，结合各音区的历史对话文本，以及各音区的语音的转写文本，对目标语音进行场景区分，以准确区分其所对应的对话场景，从而决定设备是否需对目标语音进行响应，克服了传统方案中无法准确区分不同交互场景，导致人人对话过程中易出现误触发，给用户带来干扰的问题，实现了快速准确的场景区分，且成本低廉，简单高效。

下面对本发明提供的对话场景区分装置进行描述，下文描述的对话场景区分装置与上文描述的对话场景区分方法可相互对应参照。

图6是本发明提供的对话场景区分装置的结构示意图，如图6所示，该装置包括：

语音确定单元610，用于确定目标语音；

文本确定单元620，用于在所述目标语音中包含多个音区的语音的情况下，确定各音区的语音的转写文本，以及所述各音区的历史对话文本；

场景区分单元630，用于基于所述各音区的转写文本和历史对话文本，进行对话场景区分，得到所述目标语音对应的对话场景。

本发明提供的对话场景区分装置，在目标语音中包含多个音区的语音的情况下，结合各音区的历史对话文本，以及各音区的语音的转写文本，对目标语音进行场景区分，以准确区分其所对应的对话场景，从而决定设备是否需对目标语音进行响应，克服了传统方案中无法准确区分不同交互场景，导致人人对话过程中易出现误触发，给用户带来干扰的问题，实现了快速准确的场景区分，且成本低廉，简单高效。

基于上述实施例，场景区分单元630用于：

确定所述目标语音对应的对话发起音区；

基于上述实施例，场景区分单元630用于：

基于上述实施例，场景区分单元630还用于：

基于所述目标语音进行音区检测，得到音区检测结果；

基于上述实施例，场景区分单元630还用于：

否则，确定所述目标语音对应的对话场景为人人对话场景。

基于上述实施例，场景区分单元630还用于：

否则，确定所述目标语音对应的对话场景为人人对话场景。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行对话场景区分方法，该方法包括：确定目标语音；在所述目标语音中包含多个音区的语音的情况下，确定各音区的语音的转写文本，以及所述各音区的历史对话文本；基于所述各音区的转写文本和历史对话文本，进行对话场景区分，得到所述目标语音对应的对话场景。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的对话场景区分方法，该方法包括：确定目标语音；在所述目标语音中包含多个音区的语音的情况下，确定各音区的语音的转写文本，以及所述各音区的历史对话文本；基于所述各音区的转写文本和历史对话文本，进行对话场景区分，得到所述目标语音对应的对话场景。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的对话场景区分方法，该方法包括：确定目标语音；在所述目标语音中包含多个音区的语音的情况下，确定各音区的语音的转写文本，以及所述各音区的历史对话文本；基于所述各音区的转写文本和历史对话文本，进行对话场景区分，得到所述目标语音对应的对话场景。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种对话场景区分方法，其特征在于，包括：

确定目标语音；

2.根据权利要求1所述的对话场景区分方法，其特征在于，所述基于所述各音区的转写文本和历史对话文本，进行对话场景区分，得到所述目标语音对应的对话场景，包括：

3.根据权利要求2所述的对话场景区分方法，其特征在于，所述基于所述各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分，包括：

确定所述目标语音对应的对话发起音区；

4.根据权利要求2所述的对话场景区分方法，其特征在于，所述基于所述各音区的转写文本和历史对话文本，进行对话关联性检测，得到关联性评分，包括：

5.根据权利要求1至4中任一项所述的对话场景区分方法，其特征在于，所述确定目标语音，之后还包括：

基于所述目标语音进行音区检测，得到音区检测结果；

6.根据权利要求5所述的对话场景区分方法，其特征在于，所述基于所述意图识别结果，进行对话场景区分，得到所述目标语音对应的对话场景，包括：

否则，确定所述目标语音对应的对话场景为人人对话场景。

7.根据权利要求2至4中任一项所述的对话场景区分方法，其特征在于，所述基于所述关联性评分进行对话场景区分，得到所述目标语音对应的对话场景，包括：

否则，确定所述目标语音对应的对话场景为人人对话场景。

8.一种对话场景区分装置，其特征在于，包括：

语音确定单元，用于确定目标语音；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的对话场景区分方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的对话场景区分方法。