CN113053394A

CN113053394A - 语音处理方法、服务器、语音处理系统和存储介质

Info

Publication number: CN113053394A
Application number: CN202110458108.5A
Authority: CN
Inventors: 胡梓垣; 翁志伟; 张又亮
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-06-29
Anticipated expiration: 2041-04-27
Also published as: CN113053394B

Abstract

本发明公开一种语音处理方法、服务器、语音处理系统和存储介质。语音处理方法包括：转换语音请求为文本数据，并对文本数据分词以获取分词数据；匹配分词数据与预设分组数据，预设分组数据的获得包括：将实体词分成若干小组，每个小组包括若干短语，短语之间是同义词或者近义词关系，各个小组中任意一个短语可按原语序构成实体词；根据匹配结果计算语音请求的匹配度值；在语音请求的匹配度值大于预设匹配度值时，对语音请求进行自然语言理解。上述语音处理方法，可在预设分组数据中添加较少相似的说法，就可支持用户的泛化说法，提高了自然语言理解的泛化效果。

Description

语音处理方法、服务器、语音处理系统和存储介质

技术领域

本发明涉及语音技术领域，特别涉及一种语音处理方法、服务器、语音处理系统和存储介质。

背景技术

自然语言理解(Natural Language Understanding，NLU)的泛化是一个业界难题，特别是模板匹配过程中，多一个字，少一个字都造成了匹配不上的问题。例如用户想搜附近的充电桩，他会有很多说法，例如：搜索最近的充电桩，搜索旁边的充电站，搜索周边的充电点等等，给NLU带来很大的难度。

发明内容

本发明实施方式提供一种语音处理方法、服务器、语音处理系统和存储介质。

本发明实施方式提供的一种语音处理方法，用于服务器，所述语音处理方法包括：

转换语音请求为文本数据，并对所述文本数据分词以获取分词数据；

匹配所述分词数据与预设分组数据，所述预设分组数据的获得包括：将实体词分成若干小组，每个小组包括若干短语，所述短语之间是同义词或者近义词关系，各个小组中任意一个短语可按原语序构成所述实体词；

根据匹配结果计算所述语音请求的匹配度值；

在所述语音请求的匹配度值大于预设匹配度值时，对所述语音请求进行自然语言理解。

在某些实施方式中，对所述文本数据分词以获取分词数据，包括：

根据短语规则对所述文本数据分词。

在某些实施方式中，所述短语规则包括自定义分词表。

在某些实施方式中，匹配所述分词数据与预设分组数据，包括：

比较每个小组的短语与所述分词数据的每个分词以将所述分词数据的每个分词匹配到所述小组。

在某些实施方式中，根据匹配结果计算所述语音请求的匹配度值，包括：

根据所述分词数据的每个分词匹配到所述小组的匹配结果计算所述分词数据中每个分词在所述预设分组数据中不同小组的匹配度值；

对各小组的匹配度值进行求和，得到所述语音请求的匹配度值。

在某些实施方式中，所述小组通过预设的结构化格式进行标识。

在某些实施方式中，对各小组的匹配度值进行求和，得到所述语音请求的匹配度值，包括：

对具有相同标识的各小组的匹配度值进行求和，得到所述语音请求的匹配度值。

在某些实施方式中，所述语音处理方法，包括：

利用所述分词数据的每个分词搜索与所述分词相同或相近的短语；

确定查找到的所述短语所在的小组及计算所述小组的匹配度值；

根据查找到的所述短语所在的小组，确定所述小组的实体词标识；

在某些实施方式中，在所述预设分组数据中，每个小组以择一的方式选择本小组的一个短语和其他小组的任意一个短语形成泛化结果。

本发明实施方式的一种服务器，包括：

转换模块，用于转换语音请求为文本数据，并对所述文本数据分词以获取分词数据；

匹配模块，用于匹配所述分词数据与预设分组数据，所述预设分组数据的获得包括：将实体词分成若干小组，每个小组包括若干短语，所述短语之间是同义词或者近义词关系，各个小组中任意一个短语可按原语序构成所述实体词；

计算模块，用于根据匹配结果计算所述语音请求的匹配度值；

理解模块，用于在所述语音请求的匹配度值大于预设匹配度值时，对所述语音请求进行自然语言理解。

本发明实施方式的一种语音处理系统，包括车辆和上述实施方式的服务器，所述车辆用于与所述服务器通信。

本发明实施方式的一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述任一实施方式所述的语音处理方法。上述语音处理方法、语音处理系统、服务器和计算机可读存储介质，通过将语音请求的分词数据与预设分组数据进行匹配并计算语音请求的匹配度值来增强自然语言理解，这样可在预设分组数据中添加较少相似的说法，就可支持用户的泛化说法，提高了自然语言理解的泛化效果。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施方式的语音处理方法的流程示意图；

图2是本发明实施方式的服务器的模块示意图；

图3是本发明实施方式的语音处理系统的模块示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的实施方式的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1，本发明实施方式提供的一种语音处理方法，用于服务器，语音处理方法包括：

步骤S12，转换语音请求为文本数据，并对文本数据分词以获取分词数据；

步骤S14，匹配分词数据与预设分组数据，预设分组数据的获得包括：将实体词分成若干小组，每个小组包括若干短语，短语之间是同义词或者近义词关系，各个小组中任意一个短语可按原语序构成实体词；

步骤S16，根据匹配结果计算语音请求的匹配度值；

步骤S18，在语音请求的匹配度值大于预设匹配度值时，对语音请求进行自然语言理解(Natural Language Understanding，NLU)。

上述语音处理方法，通过将语音请求的分词数据与预设分组数据进行匹配并计算每个小组的匹配度求和的方式来增强自然语言理解，这样可在预设分组数据中添加较少相似的说法，就可支持用户的泛化说法，提高了自然语言理解的泛化效果。

具体地，在步骤S12中，语音请求可来自客户端，客户端可以是安装在面向用户的终端设备上，终端设备包括但不限于车辆、手机、平板电脑、个人计算机、可穿戴智能设备、导航仪、飞行器等。车辆包括但不限于燃油汽车、增程式电动车、纯电动汽车、混合动力汽车、氢能源汽车等。服务器可以与终端设备进行有线或无线连接，以实现数据和信号传输。无线连接的方式包括但不限于WIFI、移动通信网络等。移动通信网络可包括4G、5G、6G等移动通信方式。可以理解的是，在其它实施方式中，终端设备可以作为客户端本身。

客户端可包括有麦克风及显示屏，麦克风用于采集用户的语音请求。显示屏可以是触摸显示屏，除显示与客户端相关的图形用户界面外，还提供用户输入的方式。用户通过触摸触摸显示屏上的相关按键或输入相关手势来实现指令的输入。在一个实施方式中，终端设备是车辆，显示屏可以包括车辆的中控显示屏、仪表显示屏和副驾驶显示屏、主副驾驶座背面的娱乐大屏的至少一者。用户可以通过车辆上的按键或语音输入相关指令，进入到想要的图形用户界面。在当前图形用户界面时，用户可以通过说话来输入语音请求。客户端将采集到用户的语音请求发送到服务器进行处理。服务器可返回与语音请求相对应的操作指令，客户端执行操作指令，并通过当前图形用户界面显示执行结果，以完成客户端与用户之间的交互。

可以利用相关技术来将语音请求转换为文本数据，在此不详细展开。例如语音请求为“附近的充电站”，转换为文本数据为“附近的充电站”。

预设匹配度值可以是经验值，也可以是根据用户需求来设定，在此不作具体限定。

在语音请求的匹配度值大于预设匹配度值时，召回语音请求的匹配结果，进而为了NLU服务，从而提升NLU的理解能力。

在某些实施方式中，在预设分组数据中，每个小组以择一的方式选择本小组的一个短语和其他小组的任意一个短语形成泛化结果。如此，只需添加较少相似的说法，就可倍数级别地支持用户的泛化说法，大大提高了自然语言理解(NLU)的泛化效果。

具体地，若预设分组数据中，小组个数为2，小组1的短语个数2，小组2的短语个数为3，则使用普通泛化方式，组合起来有2x3＝6个组合。这6个组合就是对应某一个语音请求的泛化结果。需要指出的是，在组合时，是按实体词原来的短语顺序进行组合。

在某些实施方式中，对文本数据分词以获取分词数据，包括：

根据短语规则对文本数据分词。如此，可以快速地对文本数据进行分词以获取分词数据。

具体地，短语规则可预先存在服务器本地上，以快速调取来对语音请求的文本数据进行分词。可以理解，在其它实施方式中，也可以在需要对语音请求的文本数据进行分词时，服务器可以从其它终端设备获取分词规则。

某些实施方式中，短语规则包括自定义分词表。如此，可以适应垂直领域，使得分词操作更准确。具体地，可以在垂直领域内，根据对事物的习惯性、大众性或通常性等的称呼或叫法来建立自定义分词表。例如，在车辆领域，对于车辆放置行李的地方通常称为后备箱，则将“后备箱”作为一个分词进入自定义分词表中。可以理解，在其它实施方式中，短语规则也可以包括其它形式的规则，例如，映射关系、树型图等，在此不作具体限定。

在某些实施方式中，匹配分词数据与预设分组数据，包括：

比较每个小组的短语与分词数据的每个分词以将分词数据的每个分词匹配到小组。如此，可以将分词数据的每个分词匹配到每个小组，实现了分词的细分。

具体地，每个小组中的若干短语为一个较小的细粒度的短语，然后使用普通泛化方式，对各小组之间的短语进行组合，而得到多个组合。每个小组中的多个短语是同义词或近义词关系。

在一个例子中，对“附近的充电站“形成预设分组数据，可以使用分组方法将上述文本拆分为2个小组：组1:(充电站/充电桩/快充桩/充电点)，组2:(最近/附近/旁边/周围)。其中，组1的短语为充电站、充电桩、快充桩、充电点。组2的短语为最近、附近、旁边、周围。使用普通泛化方式，组合起来有4x4＝16个组合：

附近充电点/附近充电站/附近充电桩/附近快充桩；

旁边充电点/旁边充电站/旁边充电桩/旁边快充桩；

周围充电点/周围充电站/周围充电桩/周围快充桩；

最近充电点/最近充电站/最近充电桩/最近快充桩。

在一个例子中，对“主驾座椅通风“形成预设分组数据，可以使用分组方法将上述文本拆分为3个小组：组1：(主驾/主驾驶/左边/司机)；组2：(座椅/座位/坐垫/车座)；组3：(通风/通气)。其中，组1的短语为主驾、主驾驶、左边、司机。组2的短语为座椅、座位、坐垫、车座。组3的短语为通风、通气。

使用普通泛化方式，组合起来有4x4x2＝32个组合：

左边座椅通气/左边座椅通风/左边座位通气/左边座位通风；

左边坐垫通气/左边坐垫通风/左边车座通气/左边车座通风；

主驾座椅通气/主驾座椅通风/主驾座位通气/主驾座位通风；

主驾坐垫通气/主驾坐垫通风主驾驶座椅通气/主驾驶座椅通风；

主驾驶座位通气/主驾驶座位通风/主驾驶坐垫通气/主驾驶坐垫通风；

主驾驶车座通气/主驾驶车座通风/主驾车座通气/主驾车座通风；

司机座椅通气/司机座椅通风/司机座位通气/司机座位通风；

司机坐垫通气/司机坐垫通风/司机车座通气/司机车座通风。

由上述实施方式的例子可知，本发明实施方式的语音处理方法，只需添加较少相似的说法，就可倍数级别地支持用户的泛化说法，大大提高了自然语言理解(NLU)的泛化效果。

在某些实施方式中，根据匹配结果计算语音请求的匹配度值，包括：

根据分词数据的每个分词匹配到小组的匹配结果计算分词数据中每个分词在预设分组数据中不同小组的匹配度值；

对各小组的匹配度值进行求和，得到语音请求的匹配度值。如此，可以实现语音请求的匹配度值的计算。

具体地，得到语音请求的分词数据后，分词数据可包括一个或多个分词，在将分词数据的分词匹配到预设分组数据的每个小组后，即可根据匹配结果来计算各个小组的匹配度值。在一个实施方式中，匹配度值可以以分数的形式：A/B来表征，其中，A表示匹配上的总字数，B表示分词的总字数。

在一个例子中，用户语音请求的文本数据为：旁边的充电桩。

其中，根据自定义分词表，可获取到的分词数据为：旁边/的/充电桩。分词数据包括三个分词：旁边、的、充电桩。预设分组数据为：小组1:(充电站/充电桩/快充桩/充电点)，小组2:(最近/附近/旁边/周围)。

将”旁边”这个词匹配到小组2(附近/最近/旁边/周围)，由于“旁边“的两个字与小组2的”旁边“的两个字完全匹配，根据该匹配结果计算分词数据中的”旁边“在预设分组数据中小组1的匹配度值为2/2(其中，A＝2，B＝2)。

而“的”这个词没有匹配到任何小组，根据该匹配结果计算匹配度值为0/1。

“充电桩”这个词匹配到小组1(充电站/充电桩/快充桩/充电点)，由于“充电桩“的三个字与小组1的”充电桩“的三个字完全匹配，根据该匹配结果计算分词数据中的”充电桩“在预设分组数据中小组2的匹配度值为3/3(其中，A＝3，B＝3)。

对各小组的匹配度值进行求和，得到语音请求的匹配度值为：(2+0+3)/(2+1+3)，即是5/6。

如果这个语音请求的匹配度值大于预设匹配度值时，对语音请求进行自然语言理解。

在一个例子中，用户语音请求的文本数据为：主驾座椅坐垫通风通风。这个语句中包含重复词语“通风“。重复词语可能是用户说话时不小心多说的。重复词语的出现不会影响计算结果。

其中，根据自定义分词表，可获取到的分词数据为：主驾/座椅/坐垫/通风/通风。分词数据包括5个分词：主驾、座椅、坐垫、通风、通风。预设分组数据为：小组1：(主驾/主驾驶/左边/司机)；小组2：(座椅/座位/坐垫/车座)；小组3：(通风/通气)。

将”主驾”这个词匹配到小组1：(主驾/主驾驶/左边/司机)，由于“主驾“的两个字与组1的”主驾“的两个字完全匹配，根据该匹配结果计算分词数据中的”主驾“在预设分组数据中小组1的匹配度值为2/2。

将“座椅”这个词匹配到小组2：(座椅/座位/坐垫/车座)，由于“座椅“的两个字与小组2的”座椅“的两个字完全匹配，根据该匹配结果计算分词数据中的”座椅“在预设分组数据中小组2的匹配度值为2/2。

将“坐垫”这个词匹配到小组2：(座椅/座位/坐垫/车座)，由于“坐垫“的两个字与小组2的”坐垫“的两个字完全匹配，根据该匹配结果计算分词数据中的”坐垫“在预设分组数据中小组2的匹配度值为2/2。

将“通风”这个词匹配到小组3：(通风/通气)，由于“通风“的两个字与小组3的”通风“的两个字完全匹配，根据该匹配结果计算分词数据中的”通风“在预设分组数据中小组3的匹配度值为2/2。

对各小组的匹配度值进行求和，得到该语音请求的匹配度值为：(2+2+2+2+2)/(2+2+2+2+2)，即是10/10。

在某些实施方式中，小组通过预设的结构化格式进行标识。如此，可以使得匹配度值计算效率更高、计算结果更准确。

具体地，预设的结构化格式可进行预先标定并存储在服务器本地，或其它终端。服务器可以从其它终端获取。

对每个小组进行标识，为了说明清楚是属于某个实体词的某个部分。对具有相同标识(ID)的小组，进行求和并计算出该语音请求的匹配度值。

在一个实施方式中，预设的结构化格式，如下：

其中，id：表示实体词id，它和实体词名字一一对应。

name：表示实体词名字。

total_idx：表示实体词总共可以分成几个小组。

current_idx：表示当前这个小组是实体词小组的第几个。

在某些实施方式中，对各小组的匹配度值进行求和，得到语音请求的匹配度值，包括：

对具有相同标识的各小组的匹配度值进行求和，得到语音请求的匹配度值。如此，可以计算出匹配度值。

具体地，通过预设的结构式格式对小组进行标识，每个组具有一个标识(ID)。在计算匹配度值时，对具有相同标识的各小组的匹配度值进行求和，以得到准确的匹配度值。

在某些实施方式中，语音处理方法，包括：

利用分词数据的每个分词搜索与分词相同或相近的短语；

确定查找到的短语所在的小组及计算小组的匹配度值；

根据查找到的短语所在的小组，确定小组的实体词标识；

对具有相同标识的各小组的匹配度值进行求和，得到语音请求的匹配度值。

如此，实现了分词的搜索过程，最终计算得到语音请求的匹配度值。

以实体词”最近充电桩”和”主驾座椅通风”为例子，小组信息入下表1所示：

“最近”和”充电桩”的ID相同，计算匹配度值的时候，对小组1和小组2的匹配度值进行求和。

“最近”和”主驾”的ID不相同，计算总匹配度的时候，不进行求和。

表1

在一个例子中，用户语音请求的文本数据为：最近充电桩。

其中，根据自定义分词表，可获取到的分词数据为：最近/充电桩。分词数据包括两个分词：最近、充电桩。预设分组数据为：小组2:(充电站/充电桩/快充桩/充电点)，小组1:(最近/附近/旁边/周围)。

对于分词“最近”，搜索时，利用分词“最近，搜索与“最近”相同或相近的短语，确定查找到的短语为“最近”，短语“最近”所在小组为组1，组1的匹配度值为2/2。组1所对应的ID为1。

对于分词“充电桩”，搜索时，利用分词“充电桩”，搜索与“充电桩”相同或相近的短语，确定查找到的短语为“充电桩”，短语“充电桩”所在小组为组2，组2的匹配度值为3/3。组2所对应的ID为1。

则计算语音请求“最近充电桩”的匹配度值是对同为ID为1的组2的匹配度值3/3和组1的匹配度值2/2进行求和，计算结果为5/5。

请参图2，本发明实施方式提供的一种服务器100，包括：

转换模块102，用于转换语音请求为文本数据，并对文本数据分词以获取分词数据；

匹配模块104，用于匹配分词数据与预设分组数据，预设分组数据的获得包括：将实体词分成若干小组，每个小组包括若干短语，短语之间是同义词或者近义词关系，各个小组中任意一个短语可按原语序构成实体词；

计算模块106，用于根据匹配结果计算语音请求的匹配度值；

理解模块108，用于在语音请求的匹配度值大于预设匹配度值时，对语音请求进行自然语言理解。

具体地，语音请求可由客户端200上传至服务器。

请参图3，本发明实施方式提供的一种语音处理系统300，包括车辆400和上述实施方式的服务器100，车辆400用于与服务器100通信。

具体地，在图示的实施方式中，客户端200可以安装在车辆400上，以采集用户的语音请求，并上传至服务器100。服务器100返回操作指令，客户端200执行操作指令来控制车辆400的运行。可以理解的是，在其它实施方式中，车辆可以作为客户端本身。

本发明实施方式的一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现上述任一实施方式的语音处理方法。

具体地，在一个实施方式，计算机程序被处理器执行时，实现的语音处理方法包括：

步骤S16，根据匹配结果计算语音请求的匹配度值；

步骤S18，在语音请求的匹配度值大于预设匹配度值时，对语音请求进行自然语言理解。

可以理解的是，上述对语音处理方法的实施方式和有益效果的解释说明，也适用于本发明实施方式的语音处理系统300、服务器100及计算机可读存储介质，为避免冗余，在此不作详细展开。

综上，本发明实施方式的语音处理方法、语音处理系统300、服务器100及计算机可读存储介质，通过将语音请求的分词数据与预设分组数据进行匹配并计算每个小组的匹配度求和的方式来增强自然语言理解，这样可在预设分组数据中添加较少相似的说法，就可支持用户的泛化说法，提高了自然语言理解的泛化效果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音处理方法，用于服务器，其特征在于，所述语音处理方法包括：

根据匹配结果计算所述语音请求的匹配度值；

2.根据权利要求1所述的语音处理方法，其特征在于，对所述文本数据分词以获取分词数据，包括：

根据短语规则对所述文本数据分词。

3.根据权利要求2所述的语音处理方法，其特征在于，所述短语规则包括自定义分词表。

4.根据权利要求1所述的语音处理方法，其特征在于，匹配所述分词数据与预设分组数据，包括：

5.根据权利要求4所述的语音处理方法，其特征在于，根据匹配结果计算所述语音请求的匹配度值，包括：

6.根据权利要求5所述的语音处理方法，其特征在于，所述小组通过预设的结构化格式进行标识。

7.根据权利要求6所述的语音处理方法，其特征在于，对各小组的匹配度值进行求和，得到所述语音请求的匹配度值，包括：

8.根据权利要求7所述的语音处理方法，其特征在于，所述语音处理方法，包括：

9.根据权利要求1所述的语音处理方法，其特征在于，在所述预设分组数据中，每个小组以择一的方式选择本小组的一个短语和其他小组的任意一个短语形成泛化结果。

10.一种服务器，其特征在于，包括：

11.一种语音处理系统，其特征在于，包括车辆和权利要求10所述的服务器，所述车辆用于与所述服务器通信。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一项所述的语音处理方法。