CN112017663B

CN112017663B - 一种语音泛化方法、装置及计算机存储介质

Info

Publication number: CN112017663B
Application number: CN202010820913.3A
Authority: CN
Inventors: 孙中全
Original assignee: Pateo Connect Nanjing Co Ltd
Current assignee: Pateo Connect Nanjing Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2024-04-30
Anticipated expiration: 2040-08-14
Also published as: CN112017663A

Abstract

本发明公开了一种语音泛化方法、装置及计算机存储介质，所述语音泛化方法包括：获取当前用户在历史对话中输入的至少一目标语音；其中，所述目标语音为识别失败的语音；确定所述目标语音满足预设泛化条件时，对所述目标语音进行泛化处理，以使所述目标语音能被识别成功。本发明提供的语音泛化方法、装置及计算机存储介质，通过搜集用户在历史对话中输入的语音，并在语音满足预设泛化条件时对语音进行泛化处理，以实现自动泛化用户语音，提高了语音泛化的及时性和效率，并提升了用户使用体验。

Description

一种语音泛化方法、装置及计算机存储介质

技术领域

本发明涉及语音处理领域，特别是涉及一种语音泛化方法、装置及计算机存储介质。

背景技术

随着语音识别技术和网络技术的快速发展，采用语音控制的应用场景也越来越多。例如，现有车机基本都配置了语音控制功能，且语音控制正逐渐成为一种主流控制方式，能够有效解放驾驶员的双手。但是，现有的语音引擎不能够智能的识别用户对同一操作的不同说法即不同语音，此时需要在语音引擎上进行语音定制泛化。例如，用户在通过语音控制车机时，不同用户的说法不尽相同，但需要车机执行的命令却是一致的，而用户只有按照车机预设好的说法才能实现控制。然而，现有的语音泛化基本都是通过人为经验手动进行的，存在语音泛化不够及时、不够全面等局限性，影响用户使用体验。

发明内容

本发明的目的在于提供一种语音泛化方法、装置及计算机存储介质，提高了语音泛化的及时性和效率，并提升了用户使用体验。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种语音泛化方法，所述方法包括：

获取当前用户在历史对话中输入的至少一目标语音；其中，所述目标语音为识别失败的语音；

确定所述目标语音满足预设泛化条件时，对所述目标语音进行泛化处理，以使所述目标语音能被识别成功。

作为其中一种实施方式，所述获取当前用户在历史对话中输入的至少一目标语音，包括：

检测到对当前用户在本轮对话中输入的本轮语音识别成功后，获取识别失败且满足预设规则的所述当前用户在至少前一轮对话中输入的历史语音；

将所述历史语音确定为所述至少一目标语音。

作为其中一种实施方式，所述预设规则包括：与本轮语音具有相同的操作意图、与本轮语音的间隔时长小于预设时长阈值中的至少一项。

作为其中一种实施方式，所述确定所述目标语音满足预设泛化条件时，对所述目标语音进行泛化处理，以使所述目标语音能被识别成功，包括：

确定所述目标语音满足预设泛化条件时，获取所述目标语音对应的操作意图；

将所述目标语音配置为执行所述操作意图的一标准语音，以使所述目标语音能被识别成功。

作为其中一种实施方式，所述预设泛化条件包括以下条件至少一种：不同用户使用所述目标语音识别失败的次数大于预设次数阈值、使用所述目标语音识别失败的用户数大于预设人数阈值。

作为其中一种实施方式，所述使用所述目标语音识别失败的用户数大于预设人数阈值，包括：处于所述当前用户所在区域内且使用所述目标语音识别失败的用户数大于预设人数阈值。

作为其中一种实施方式，还包括：

检测到对当前用户在本轮对话中输入的本轮语音识别失败后，根据设置的数据库获取识别失败的所述本轮语音对应的数量；其中，所述数据库记录有不同用户输入的识别失败的语音；

确定所述数量大于预设数量阈值时，向管理终端发送泛化所述本轮语音的提示消息或对所述本轮语音进行泛化处理。

作为其中一种实施方式，还包括：

根据操作意图对所述数据库中记录的不同用户输入的识别失败的语音进行分类，获得各操作意图分别对应的语音集合；

根据各操作意图分别对应的语音集合获取待泛化语音，所述待泛化语音为属于相同操作意图且数量大于预设数量阈值的语音；

向管理终端发送泛化所述待泛化语音的提示消息或对所述待泛化语音进行泛化处理。

第二方面，本发明实施例提供了一种语音泛化装置，所述语音泛化装置包括处理器以及用于存储程序的存储器；当所述程序被所述处理器执行，使得所述处理器实现第一方面所述的语音泛化方法。

第三方面，本发明实施例提供了一种计算机存储介质，存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面所述的语音泛化方法。

本发明实施例提供的语音泛化方法、装置及计算机存储介质，获取当前用户在历史对话中输入的至少一目标语音；其中，所述目标语音为识别失败的语音；确定所述目标语音满足预设泛化条件时，对所述目标语音进行泛化处理，以使所述目标语音能被识别成功。如此，通过搜集用户在历史对话中输入的语音，并在语音满足预设泛化条件时对语音进行泛化处理，以实现自动泛化用户语音，提高了语音泛化的及时性和效率，并提升了用户使用体验。

附图说明

图1为本发明实施例提供的一种语音泛化方法的流程示意图；

图2为本发明实施例提供的一种语音泛化方法的具体流程示意图；

图3为本发明实施例提供的一种语音泛化装置的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

参见图1，为本发明实施例提供的一种语音泛化方法，该方法可以由本发明实施例提供的一种语音泛化装置来执行，该语音泛化装置可以采用软件和/或硬件的方式来实现，在具体应用中，该语音泛化装置可以具体是车载终端、移动终端或云端服务器等，本实施例中以所述语音泛化方法应用于云端服务器为例，该方法包括以下步骤：

步骤S101：获取当前用户在历史对话中输入的至少一目标语音；其中，所述目标语音为识别失败的语音；

这里，云端服务器可通过接收车载终端或移动终端发送的当前用户在每一次对话中输入的语音而获得当前用户在历史对话中输入的语音。需要说明的是，车载终端或移动终端接收到用户输入的语音后，可直接将该语音上传给云端服务器，以由云端服务器对该语音进行识别。当然，车载终端或移动终端接收到用户输入的语音后，也可在本地对该语音进行识别，然后将识别失败的语音上传至云端服务器。在具体应用中，用户可以通过语音控制车载终端，以对车辆的空调、收音机等部件进行控制。可以理解地，对于车辆中每一部件的语音控制操作，可相应预先设置一个或多个标准控制语音，只有用户输入的语音为对应的标准控制语音时，该语音才能够被正确识别即识别成功。例如，假设对车载空调进行语音控制的标准语音为“空调调到XX度”，若用户输入的语音为“空调调至25度”，则无法成功识别该语音。所述识别失败是指可以识别出需要进行控制的控制对象而无法识别出需要对控制对象执行的具体操作，也就是说，可以识别出用户的操作意图而无法识别用户的操作意图对应的具体操作。例如，假设对车载空调进行语音控制的标准语音为“空调温度升高XX度”，若用户输入的语音为“空调温度上升2度”，由于该语音与对应的标准语音不匹配，则对该语音识别失败，但此时根据该语音中的“空调”、“温度”、“2度”等信息能够识别出用户的操作意图是调节空调温度，只是无法识别出是将空调温度升高2度，还是降低2度。此外，本实施例中的每轮对话可认为只包括一条语音。

可选的，所述获取当前用户在历史对话中输入的至少一目标语音，包括：检测到对当前用户在本轮对话中输入的本轮语音识别成功后，获取识别失败且满足预设规则的所述当前用户在至少前一轮对话中输入的历史语音；将所述历史语音确定为所述至少一目标语音。

可以理解地，当用户利用语音对车机的某个功能或部件进行控制时，若用户在前一轮对话中输入的语音识别失败，此时用户通常会调整在下一轮对话或后续轮对话中输入的语音，以使后续输入的语音尽可能被识别成功，而这几轮对话中输入的语音之间肯定包含一些必然联系，比如操作意图相同等，此时可以对多轮对话中输入的语音进行检测以选择目标语音。云端服务器在检测到对当前用户在本轮对话中输入的本轮语音识别成功后，可以将识别失败且满足预设规则的所述当前用户在至少前一轮对话中输入的历史语音确定为目标语音，以检测其是否满足预设泛化条件。

需要说明的是，所述预设规则可以根据实际情况需要进行设置，具体地，所述预设规则可包括：与本轮语音具有相同的操作意图、与本轮语音的间隔时长小于预设时长阈值中的至少一项。这里，通过提取语音中的关键词，将从该语音中提取的关键词与预设的各操作意图所包含的关键词进行匹配即进行意图识别，从而获得该语音对应的操作意图。例如，假设用户输入的语音为“空调温度上升2度”，提取对应的关键词“空调”、“温度”、“2度”，能够获得该用户的操作意图为调节空调温度。所述预设时长阈值可以根据实际情况需要进行设置，比如可以设置为5秒、10秒等。如此，通过选择识别失败且满足预设规则的历史语音作为目标语音，能够进一步提高语音泛化的及时性和效率。

步骤S102：确定所述目标语音满足预设泛化条件时，对所述目标语音进行泛化处理，以使所述目标语音能被识别成功。

具体地，确定所述目标语音满足预设泛化条件时，获取所述目标语音对应的操作意图；将所述目标语音配置为执行所述操作意图的一标准语音，以使所述目标语音能被识别成功。

这里，所述预设泛化条件可以根据实际情况需要进行设置，具体地，所述预设泛化条件包括可以下条件至少一种：不同用户使用所述目标语音识别失败的次数大于预设次数阈值、使用所述目标语音识别失败的用户数大于预设人数阈值。可以理解地，当不同用户使用所述目标语音识别失败的次数大于预设次数阈值和/或使用所述目标语音识别失败的用户数大于预设人数阈值时，说明有许多用户都喜欢或偏向于输入所述目标语音，为了便于用户使用以提升用户使用体验，可对所述目标语音进行泛化处理。其中，所述使用所述目标语音识别失败的用户数大于预设人数阈值，可包括：处于所述当前用户所在区域内且使用所述目标语音识别失败的用户数大于预设人数阈值。可以理解地，对于一些说法，相对于其它区域而言，处于某一区域的用户可能具有特殊的说法，针对该说法生成的语音具有地域性。当处于所述当前用户所在区域内且使用所述目标语音识别失败的用户数大于预设人数阈值时，说明所述当前用户所在区域内的其他用户都喜欢或偏向于所述目标语音，为了便于用户使用以提升用户使用体验，可对所述目标语音进行泛化处理。

需要说明的是，在一些情况下，所述将所述目标语音配置为执行所述操作意图的一标准语音可能并不是将所述目标语音完全配置为执行所述操作意图的一标准语音，可能需要先对所述目标语音进行修改后，然后再将修改后的所述目标语音配置为执行所述操作意图的一标准语音。例如，假设所述目标语音为“空调温度调至25度”，则可先将所述目标语音修改为“空调温度调至XX度”，然后将“空调温度调至XX度”这一语音配置为执行调节空调温度的一标准语音。

这里，通过提取所述目标语音中的关键词，将从该目标语音中提取的关键词与预设的各操作意图所包含的关键词进行匹配，从而获得该目标语音对应的操作意图。例如，假设所述目标语音为“空调温度上升2度”，提取对应的关键词“空调”、“温度”、“上升”、“2度”，进而可获得所述目标语音对应的操作意图为调节空调温度，从而可将“空调温度上升XX度”配置为调节空调温度的一标准语音。

综上，上述实施例提供的语音泛化方法中，通过搜集用户在历史对话中输入的语音，并在语音满足预设泛化条件时对语音进行泛化处理，以实现自动泛化用户语音，提高了语音泛化的及时性和效率，并提升了用户使用体验。

在一实施方式中，所述方法还可包括：

确定所述数量大于预设数量阈值时，向管理终端发送泛化所述本轮语音的提示消息。

具体地，云端服务器检测到对当前用户在本轮对话中输入的本轮语音识别失败后，将本轮语音记录至设置的数据库中，并根据设置的数据库获取识别失败的所述本轮语音对应的数量，确定所述数量大于预设数量阈值时，向管理终端发送泛化所述本轮语音的提示消息或对所述本轮语音进行泛化处理。

可以理解地，当数据库中记录的所述当前用户在本轮对话中输入的本轮语音已识别失败的次数较多时，说明许多用户都喜欢或偏向于输入所述本轮语音，为了便于用户使用以提升用户使用体验，可直接对所述本轮语音进行泛化处理，或者向管理终端发送泛化所述本轮语音的提示消息，以由管理人员决定是否对所述本轮语音进行泛化处理。如此，能够进一步提高语音泛化的及时性和效率。

在一实施方式中，所述方法还可包括：

可以理解地，通过对不同用户输入的识别失败的语音进行意图识别，可获知不同用户输入的识别失败的语音分别对应的操作意图，进而可根据根据操作意图对所述数据库中记录的不同用户输入的识别失败的语音进行分类，获得各操作意图分别对应的语音集合；然后，从各操作意图分别对应的语音集合中选取数量大于预设数量阈值的语音作为待泛化语音；最后，向管理终端发送泛化所述待泛化语音的提示消息或对所述待泛化语音进行泛化处理，以使所述待泛化语音能被识别成功。如此，通过对数量大于预设数量阈值的识别失败的语音进行泛化，能够进一步提高语音泛化的及时性和效率。

基于前述实施例相同的发明构思，本实施例通过具体示例对前述实施例的技术方案进行详细说明。以将用户输入的语音称为用户的说法为例，本发明实施例提供的语音泛化方法的实现原理如下：通过搜集用户的说法，通过上下文来判断是否同一说法，再通过统计来判断是否很多人都是这么说的，最后综合分析来决定是否泛化此说法，如果需要泛化，则云端服务器直接配置此说法，下次用户再这么说就可以正常的执行操作了。下面通过一具体示例进行详细说明，参见图2，本发明实施例提供的语音泛化方法包括以下步骤：

步骤S201：获取当前说法“空调调到25度”；

步骤S202：判断当前说法是否识别成功，若是，则执行步骤S203，否则执行步骤S206；

步骤S203：判断前一轮对话的说法是否都未识别成功，若是，则执行步骤S204，否则执行步骤S209；

步骤S204：判断对前一轮对话的说法是否有超过1000人未识别，若是，则执行步骤S205，否则执行步骤S209；

这里，所述判断对前一轮对话的说法是否有超过1000人未识别是指判断是否有超过1000人输入所述前一轮对话的说法且未识别成功。

步骤S205：自动泛化前一轮对话的说法；

步骤S206：记录当前说法；

步骤S207：判断对当前说法是否有超过1000人未识别的情况，若是，则执行步骤S208，否则执行步骤S209；

这里，所述判断对当前说法是否有超过1000人未识别的情况，是指判断是否有超过1000人输入所述当前说法且未识别成功。

步骤S208：通知开发人员手动泛化当前说法；

步骤S209：结束。

综上，本示例提供的语音泛化方法中，通过搜集用户的说法，并通过上下文来判断是否同一说法，再通过统计来判断是否很多人都是这么说的，最后综合分析来决定是否泛化此说法，以实现自动泛化用户说法，提升了用户体验。

基于前述实施例相同的发明构思，本发明实施例提供了一种语音泛化装置，如图3所示，该装置包括：处理器110和用于存储能够在处理器110上运行的计算机程序的存储器111；其中，图3中示意的处理器110并非用于指代处理器110的个数为一个，而是仅用于指代处理器110相对其他器件的位置关系，在实际应用中，处理器110的个数可以为一个或多个；同样，图3中示意的存储器111也是同样的含义，即仅用于指代存储器111相对其他器件的位置关系，在实际应用中，存储器111的个数可以为一个或多个。所述处理器110用于运行所述计算机程序时，实现所述语音泛化方法。

该装置还可包括：至少一个网络接口112。该装置中的各个组件通过总线系统113耦合在一起。可理解，总线系统113用于实现这些组件之间的连接通信。总线系统113除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统113。

其中，存储器111可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器111旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的存储器111用于存储各种类型的数据以支持该装置的操作。这些数据的示例包括：用于在该装置上操作的任何计算机程序，如操作系统和应用程序；联系人数据；电话簿数据；消息；图片；视频等。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。这里，实现本发明实施例方法的程序可以包含在应用程序中。

基于前述实施例相同的发明构思，本实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，计算机存储介质可以是磁性随机存取存储器(FRAM，ferromagnetic random access memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。所述计算机存储介质中存储的计算机程序被处理器运行时，实现上述所述语音泛化方法。所述计算机程序被处理器执行时实现的具体步骤流程请参考图1所示实施例的描述，在此不再赘述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音泛化方法，其特征在于，

所述方法包括：

确定所述目标语音满足预设泛化条件时，对所述目标语音进行泛化处理，以使所述目标语音能被识别成功；

其中，所述获取当前用户在历史对话中输入的至少一目标语音，包括：检测到对当前用户在本轮对话中输入的本轮语音识别成功后，获取识别失败且满足预设规则的所述当前用户在至少前一轮对话中输入的历史语音；所述预设规则包括：与本轮语音具有相同的操作意图、与本轮语音的间隔时长小于预设时长阈值中的至少一项；所述识别失败是指可以识别出用户的操作意图而无法识别用户的操作意图对应的具体操作；

将所述历史语音确定为所述至少一目标语音。

2.根据权利要求1所述的方法，其特征在于，

所述确定所述目标语音满足预设泛化条件时，对所述目标语音进行泛化处理，以使所述目标语音能被识别成功，包括：

3.根据权利要求2所述的方法，其特征在于，

所述预设泛化条件包括以下条件至少一种：不同用户使用所述目标语音识别失败的次数大于预设次数阈值、使用所述目标语音识别失败的用户数大于预设人数阈值。

4.根据权利要求3所述的方法，其特征在于，

所述使用所述目标语音识别失败的用户数大于预设人数阈值，包括：处于所述当前用户所在区域内且使用所述目标语音识别失败的用户数大于预设人数阈值。

5.根据权利要求1所述的方法，其特征在于，

还包括：

6.根据权利要求5所述的方法，其特征在于，

还包括：

7.一种语音泛化装置，其特征在于，

所述装置包括处理器以及用于存储程序的存储器；当所述程序被所述处理器执行，使得所述处理器实现如权利要求1至6中任一项所述的语音泛化方法。

8.一种计算机存储介质，其特征在于，

存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至6中任一项所述的语音泛化方法。