CN112614490B

CN112614490B - 生成语音指令的方法、装置、介质、设备、系统及车辆

Info

Publication number: CN112614490B
Application number: CN202011451314.5A
Authority: CN
Inventors: 王涛
Original assignee: Beijing Co Wheels Technology Co Ltd
Current assignee: Beijing Co Wheels Technology Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2024-04-16
Anticipated expiration: 2040-12-09
Also published as: CN112614490A

Abstract

本公开涉及一种生成语音指令的方法、装置、介质、设备、系统及车辆。方法包括：接收用户输入的语音音频，并将所述语音音频转换成相应的文本信息；利用多个语音引擎对所述文本信息进行语音识别，以得到多条语义信息；从多条所述语义信息中确定目标语义信息；根据所述目标语义信息生成目标语音指令。如此，利用多个语音引擎，提高了对语音音频识别的准确度，缩小了语义理解的意图与用户真实意图的偏差，使得生成的目标语音指令更符合用户的真实意图，提高了语音交互理解的准确率。

Description

生成语音指令的方法、装置、介质、设备、系统及车辆

技术领域

本公开涉及语音技术领域，具体地，涉及一种生成语音指令的方法、装置、介质、设备、系统及车辆。

背景技术

随着人工智能技术的发展，使用机器模拟人与客户交互的应用越来越广泛，现有的语音交互机器人主要采用在知识库中预设问题及相应的答案，系统获取到客户的语音信息后，通过相应的算法转写为文本，将文本信息送入后台系统，到知识库中寻找对应的答案返回给客户，提高服务效率，降低运营成本。

在实际应用中，语音交互机器人提供的答案的准确性多依赖于对客户的意图识别的准确度。传统的语音引擎中，各个厂商都有自有的一套语音识别引擎，且各个引擎的处理能力和对外开放的深度均有限且有所差异。例如，市场现存的多家语音引擎都侧重于某一领域的自然语言理解(Natural Language Understanding，NLU)能力，侧重领域外的其他领域NLU能力一般，所以接入单个语音引擎就会导致语义理解先天性能力不足，在用户使用语音的过程中经常出现语音语义理解的结果与用户的真实意图偏差大，从而导致对用户的真正意图识别不准确，无法为用户提供准确的答案。

发明内容

本公开的目的是提供一种生成语音指令的方法、装置、介质、设备、系统及车辆，以利用多个语音引擎，提高了对语音音频识别的准确度，缩小了语义理解的意图与用户真实意图的偏差，使得生成的目标语音指令更符合用户的真实意图，提高了语音交互理解的准确率。

为了实现上述目的，本公开提供一种生成语音指令的方法，包括：接收用户输入的语音音频，并将所述语音音频转换成相应的文本信息；

利用多个语音引擎对所述文本信息进行语音识别，以得到多条语义信息；

从多条所述语义信息中确定目标语义信息；

根据所述目标语义信息生成目标语音指令。

可选地，所述语义信息包括领域信息；每一所述语音引擎所属至少一个专用领域；所述从多条所述语义信息中确定目标语义信息，包括：

将属于与所述领域信息表征的领域一致的目标专用领域的语音引擎确定为目标语音引擎；

将所述目标语音引擎输出的语义信息确定为目标语义信息。

可选地，至少两个所述语音引擎所属的专用领域包括所述目标专用领域；所述至少两个语音引擎为所述目标语音引擎；

所述将所述目标语音引擎输出的语义信息确定为目标语义信息，包括：

将每一所述目标语音引擎输出的语义信息均确定为目标语义信息。

可选地，所述从多条所述语义信息中确定目标语义信息，包括：

在确定多个所述语音引擎各自所属的专用领域均与所述领域信息表征的领域不一致时，将每一所述语音引擎输出的语义信息均作为目标语义信息。

可选地，在所述目标语义信息为多个的情况下，所述根据目标语义信息生成目标语音指令，包括：

针对每一所述目标语义信息，根据所述目标语义信息生成候选语音指令，以得到多条所述候选语音指令；

根据预设条件从多条所述候选语音指令中确定出目标语音指令。

可选地，所述预设条件包括指定字段的完善度，和/或，操作字段的数量。

可选地，所述预设条件包括指定字段的完善度；所述指定字段包括领域字段、意图字段、操作字段中的至少一者。

可选地，所述从多条所述语义信息中确定目标语义信息，还包括：

在多条所述语义信息中，将在指定时长内接收到的语义信息确定为候选语义信息；

在所述候选语义信息的数量为一条时，将所述候选语义信息作为目标语义信息。

可选地，所述将与所述领域信息表征的领域一致的目标专用领域的语音引擎确定为目标语音引擎，包括：

在所述候选语义信息的数量为多条时，将与所述领域信息表征的领域一致的目标专用领域的语音引擎确定为目标语音引擎。

本公开第二方面提供一种生成语音指令的装置，包括：

接收模块，用于接收用户输入的语音音频，并将所述语音音频转换成相应的文本信息；

识别模块，用于利用多个语音引擎对所述文本信息进行语音识别，以得到多条语义信息；

确定模块，用于从多条所述语义信息中确定目标语义信息；

生成模块，用于根据所述目标语义信息生成目标语音指令。

可选地，包括：所述语义信息包括领域信息；所述每一所述语音引擎所属至少一个专用领域；所述确定模块包括：

第一确定子模块，用于将属于与所述领域信息表征的领域一致的目标专用领域的语音引擎确定为目标语音引擎；

第二确定子模块，用于将所述目标语音引擎输出的语义信息确定为目标语义信息。

可选地，在所述目标语义信息为多个的情况下，所述生成模块包括：

生成子模块，用于针对每一所述目标语义信息，根据所述目标语义信息生成候选语音指令，以得到多条所述候选语音指令；

第三确定子模块，用于根据预设条件从多条所述候选语音指令中确定出目标语音指令。

可选地，所述确定模块还包括：

第四确定子模块，用于在多条所述语义信息中，将在指定时长内接收到的语义信息确定为候选语义信息；

第五确定子模块，用于在所述候选语义信息的数量为一条时，将所述候选语义信息作为目标语义信息。

可选地，第一确定子模块用于：在所述候选语义信息的数量为多条时，将与所述领域信息表征的领域一致的目标专用领域的语音引擎确定为目标语音引擎。

本公开第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面所提供的所述方法的步骤。

本公开第四方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所提供的所述方法的步骤。

本公开第五方面提供一种智能语音系统，包括：如本公开第二方面所提供的所述的生成语音指令的装置，以及对话模块；

所述生成语音指令的装置，用于将生成的目标语音指令发送给所述对话模块；

所述对话模块，用于在接收到所述目标语音指令时，开始进行语音会话。

本公开第六方面提供一种车辆，包括：如本公开第五方面提供的所述智能语音系统。

通过上述技术方案，针对任一文本信息，利用多个语音引擎，生成多条语义信息，并根据多条语义信息确定出目标语义信息，进而根据该目标语义信息生成目标语音指令。如此，利用多个语音引擎，提高了对语音音频识别的准确度，缩小了语义理解的意图与用户真实意图的偏差，使得生成的目标语音指令更符合用户的真实意图，提高了语音交互理解的准确率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种生成语音指令的方法的流程图。

图2是根据一示例性实施例示出的一种生成语音指令的装置的框图。

图3是根据一示例性实施例示出的一种智能语音系统的框图。

图4是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据一示例性实施例示出的一种生成语音指令的方法的示意图。如图1所示，该生成语音指令的方法可以包括以下步骤。

在步骤11中，接收用户输入的语音音频，并将语音音频转换成相应的文本信息。

示例地，可以利用语音转换模块将用户输入的语音音频进行ASR(AutomaticSpeech Recognition，自动语音识别)处理，以得到文本信息。

在步骤12中，利用多个语音引擎对文本信息进行语音识别，以得到多条语义信息。

示例地，每一语音引擎都能提供NLP(Natural LangungePossns，自然语言处理)与NLU的能力。如此，每一语音引擎可以对所接收到的文本信息进行自然语言处理和自然语言理解，以得到语义信息。值得说明的是，自然语言处理和自然语言理解均属于较为成熟的技术，本公开对此不作具体阐述。

在本公开中，每一语音引擎均可以根据该文本信息，识别出语义信息。如此，多个语音引擎即可识别出多条语义信息。其中，由于不同的语音引擎侧重的识别领域不同，因此，多个语音引擎识别出的多条语义信息并不完全相同，存在部分差异。但是，每一条语义信息均可以包括表征领域的领域字段、表征意图的意图字段、表征人名实体的人名实体字段等等。

在步骤13中，从多条语义信息中确定目标语义信息。

在步骤14中，根据目标语义信息生成目标语音指令。

采用上述技术方案，针对任一文本信息，利用多个语音引擎，生成多条语义信息，并根据多条语义信息确定出目标语义信息，进而根据该目标语义信息生成目标语音指令。如此，利用多个语音引擎，提高了对语音音频识别的准确度，缩小了语义理解的意图与用户真实意图的偏差，使得生成的目标语音指令更符合用户的真实意图，提高了语音交互理解的准确率。

为了更好的理解本公开所提供的生成语音指令的方法，下面以一个完整的实施例进行说明。

在一种实施例中，为了提升用户体验，需提高生成语音指令的效率，因此，在本公开中，还需对语音引擎对文本信息进行语音识别的时间进行限制。示例地，可以预先指定时长，在语音引擎识别得到的多条语义信息中，仅在指定时长内接收到的语义信息确定为候选语义信息。即，仅在该指定时长内接收语义信息，超过该指定时长后就不再接收语义信息。其中，指定时长可以根据多个语音引擎对文本信息进行语义识别的时长来确定。

若在指定时长内接收到的候选语义信息的数量为一条，则可以直接将候选语义信息作为目标语义信息。

若在指定时长内接收到的候选语义信息的数量为多条，则可以根据语音引擎所属的专用领域确定目标语义信息。

其中，每一语音引擎都具有其所属的专用领域，其专用领域可能相同也可以不同。即，该语音引擎可以准确识别其所属的专用领域下的各种文本信息，而对该专用领域之外的其他领域下的文本信息的识别准确率较低，因此，在本公开中，将与文本信息中包括的领域一致的目标专用领域的语音引擎，确定为目标语音引擎，并将该目标语音引擎输出的语义信息确定为目标语义信息。

示例地，语义信息包括领域信息，每一语音引擎所属至少一个专用领域，将与领域信息表征的领域一致的目标专用领域的语音引擎确定为目标语音引擎，并将目标语音引擎输出的语义信息确定为目标语义信息。

值得说明的是，虽然不同语音引擎输出的语义信息不完全相同，存在部分差异，但是，所识别的语义信息中包括的领域信息是相同的，即，是该文本信息对应的领域。并且，语音引擎对其所属的专用领域下的文本信息的识别的准确度较高。因此，在本公开中，可以将与该文本信息对应的领域一致的目标专用领域的语音引擎确定为目标语音引擎，也即是，所确定的目标语音引擎所属的专用领域与文本信息对应的领域一致。例如，文本信息对应的领域为导航领域，所确定的目标语音引擎即为其所属的专用领域包括该导航领域的语音引擎。

采用上述技术方案，将与文本信息对应的领域一致的目标专用领域的语音引擎输出的语义信息确定为目标语义信息，并根据该目标语义信息生成目标语音指令，如此，使得生成的目标语音指令更符合用户的真实意图，进一步提高了语音交互理解的准确率。

在本公开中，上述所确定的目标语义信息可以为一个或多个。

在一种实施例中，目标语义信息为一条。在一种可能的方式中，上述在指定时长内接收到的候选语义信息的数量为一条，则该条候选语义信息即为目标语义信息。在另一种可能的方式中，上述在指定时长内接收到的候选语义信息的数量为多条，但是，多个语音引擎中仅有一个语音引擎所属的专用领域包括目标专用领域(例如，每一语音引擎所属一个专用领域。又例如，每一语音引擎所属多个专用领域，且每一语音引擎所属的专用领域均不相同，等等。)，即，从多个语音引擎中仅确定出了一个目标语音引擎，此时，该目标语音引擎输出的语义信息即为目标语义信息。

在目标语义信息为一条的情况下，针对该一条目标语义信息生成语音指令，并将该语音指令确定为目标语音指令。

在另一种实施例中，上述所确定的目标语义信息为多个。在一种可能的方式中，至少两个语音引擎所属的专用领域包括目标专用领域，则该至少两个语音引擎即为目标语音引擎。例如，目标专用领域为A领域，语音引擎1所属的专用领域包括A领域和B领域，语音引擎2所属的专用领域包括A领域和C领域，语音引擎3所属的专用领域包括C领域和D领域，则语音引擎1和语音引擎2即为目标语音引擎。上述将目标语音引擎输出的语义信息确定为目标语义信息进一步包括，将每一目标语音引擎输出的语义信息均确定为目标语义信息。沿用上述例子，即将语音引擎1和语音引擎2输出的语音信息确定为目标语义信息。

在另一种可能的方式中，多个语音引擎各自所属的专用领域均与文本信息对应的领域不一致，在该实施例中，可以将每一语音引擎输出的语义信息均作为目标语义信息，即，目标语义信息为多条。

在目标语义信息为多条的情况下，可以通过数据适配技术，针对每一目标语义信息，根据目标语义信息生成候选语音指令，以得到多条候选语音指令，之后，根据预设条件从多条候选语音指令中确定出目标语音指令。

值得说明的是，可以通过数据适配技术，根据目标语义信息生成候选语音指令。例如，预先设置有语义信息与语音指令的对应关系，在确定出目标语义信息之后，根据该对应关系查找到与该目标语义信息对应的语音指令，所确定出的语音指令，在该实施例中，可称为候选语音指令。

在本公开中，预设条件可以包括指定字段的完善程度，和/或，操作字段的数量。指定字段可以包括领域字段、意图字段、操作字段中的至少一者。

在一种实施例中，预设条件包括指定字段的完善程度，在接收到多条候选语音指令后，分别确定每一候选语音指令包括的领域字段、意图字段、操作字段的完善程度，并将完善程度最高的候选语音指令确定为目标语音指令。例如，包含有领域字段、意图字段、操作字段的候选语音指令的完善程度高于仅包括领域字段、意图字段、操作字段中的一者或两者的候选语音指令的完善程度。

在另一种实施例中，预设条件包括操作字段的数量，在接收到多条候选语音指令后，分别确定每一候选语音指令中包括的操作字段的数量，并将包含的操作字段数量最多的候选语音指令确定为目标语音指令。

在又一种实施例中，预设条件包括指定字段的完善程度和操作字段的数量，并且指定字段的完善程度的优先级高于操作字段的数量的优先级。即，首先确定每一候选语音指令的指定字段的完善程度，若存在至少两个候选语音指令的指定字段的完善程度相同且完善程度最高时，则再确定指定字段的完善程度相同的至少两个候选语音指令中的每一候选语音指令中操作字段数量，并将操作字段数量较多的候选语音指令确定为目标语音指令。

采用上述技术方案，依次通过时间、领域和预设条件得到目标语音指令，进一步提高了所确定的目标语音指令与用户意图的一致性，提高了语音交互理解的准确性。

基于同一发明构思，本公开还提供一种生成语音指令的装置。图2是根据一示例性实施例示出的一种生成语音指令的装置的框图。如图2所示，该生成语音指令的装置200可以包括：

接收模块201，用于接收用户输入的语音音频，并将所述语音音频转换成相应的文本信息；

识别模块202，用于利用多个语音引擎对所述文本信息进行语音识别，以得到多条语义信息；

确定模块203，用于从多条所述语义信息中确定目标语义信息；

生成模块204，用于根据所述目标语义信息生成目标语音指令。

可选地，所述语义信息包括领域信息；所述每一所述语音引擎所属至少一个专用领域；所述确定模块203包括：

所述第二确定子模块用于：将每一所述目标语音引擎输出的语义信息均确定为目标语义信息。

可选地，所述确定模块203用于：在确定多个所述语音引擎各自所属的专用领域均与所述领域信息表征的领域不一致时，将每一所述语音引擎输出的语义信息均作为目标语义信息。

可选地，在所述目标语义信息为多个的情况下，所述生成模块204包括：

可选地，所述确定模块203还包括：

关于上述实施例中装置的各个模块的具体实施方式已经在有关方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本公开还提供一种智能语音系统。图3是根据一示例性实施例示出的一种智能语音系统的框图。如图3所示，该智能语音系统可以包括本公开如图2所示的生成语音指令的装置，以及对话模块300。如图3所示，生成语音指令的装置与对话模块300相连。

生成语音指令的装置用于将生成的目标语音指令发送给对话模块300，对话模块300用于在接收到目标语音指令时开始进行语音会话。值得说明的是，会话模块根据目标语音指令进行语音会话的具体实施方式可参照相关技术中，本公开对此不作限制。

基于同一发明构思，本公开还提供一种车辆，该车辆包括本公开所提供的智能语音系统。

图4是根据一示例性实施例示出的一种电子设备的框图。如图4所示，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的生成语音指令的方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的生成语音指令的方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的生成语音指令的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的生成语音指令的方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种生成语音指令的方法，其特征在于，包括：

接收用户输入的语音音频，并将所述语音音频转换成相应的文本信息；

从多条所述语义信息中确定目标语义信息；

根据所述目标语义信息生成目标语音指令；

在所述目标语义信息为多个的情况下，根据目标语义信息生成目标语音指令，包括：

根据预设条件从多条所述候选语音指令中确定出目标语音指令；

其中，所述预设条件包括指定字段的完善度，和/或，操作字段的数量，所述指定字段包括领域字段、意图字段、操作字段中的至少一者。

2.根据权利要求1所述的方法，其特征在于，所述语义信息包括领域信息；每一所述语音引擎所属至少一个专用领域；所述从多条所述语义信息中确定目标语义信息，包括：

将所述目标语音引擎输出的语义信息确定为目标语义信息。

3.根据权利要求2所述的方法，其特征在于，至少两个所述语音引擎所属的专用领域包括所述目标专用领域；至少两个语音引擎为所述目标语音引擎；

4.根据权利要求2所述的方法，其特征在于，所述从多条所述语义信息中确定目标语义信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述预设条件包括指定字段的完善度；所述指定字段包括领域字段、意图字段、操作字段中的至少一者。

6.根据权利要求2所述的方法，其特征在于，所述从多条所述语义信息中确定目标语义信息，还包括：

7.根据权利要求6所述的方法，其特征在于，将与所述领域信息表征的领域一致的目标专用领域的语音引擎确定为目标语音引擎，包括：

8.一种生成语音指令的装置，其特征在于，包括：

确定模块，用于从多条所述语义信息中确定目标语义信息；

生成模块，用于根据所述目标语义信息生成目标语音指令；

在所述目标语义信息为多个的情况下，所述生成模块包括：

第三确定子模块，用于根据预设条件从多条所述候选语音指令中确定出目标语音指令；

9.根据权利要求8所述的装置，其特征在于，包括：所述语义信息包括领域信息；每一所述语音引擎所属至少一个专用领域；所述确定模块包括：

10.根据权利要求9所述的装置，其特征在于，所述目标语义信息为一个或多个，在所述目标语义信息为多个的情况下，所述生成模块包括：

11.根据权利要求9或10所述的装置，其特征在于，所述确定模块还包括：

12.根据权利要求11所述的装置，其特征在于，第一确定子模块用于：在所述候选语义信息的数量为多条时，将与所述领域信息表征的领域一致的目标专用领域的语音引擎确定为目标语音引擎。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

14.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。

15.一种智能语音系统，其特征在于，包括：如权利要求8-12中任一项所述的生成语音指令的装置，以及对话模块；

16.一种车辆，其特征在于，包括：如权利要求15所述的智能语音系统。