CN109410926A

CN109410926A - 语音语义识别方法及系统

Info

Publication number: CN109410926A
Application number: CN201811426239.XA
Authority: CN
Inventors: 马晓威
Original assignee: Hengda Faraday Future Intelligent Vehicle (guangdong) Co Ltd
Current assignee: FAFA Automobile (China) Co., Ltd.
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-03-01

Abstract

本发明公开了一种语音语义识别方法和系统，属于语音技术领域。该语音语义识别方法，包括：接收被识别文本数据；在语义聚合引擎中对所述输入数据进行识别，得到语义意图，其中，所述语义聚合引擎包括至少两种语义引擎。由于本发明提出的语音语义识别方法中，语义聚合引擎包括至少两种语义引擎，解决了现有各个语义引擎的处理能力和开放深度有限的问题，降低了无法识别出用户意图的概率。

Description

语音语义识别方法及系统

技术领域

本发明涉及语音技术领域，尤其涉及一种语音语义识别方法及系统。

背景技术

传统的语音语义引擎中，各个厂商都有自有的一套语义识别引擎，且各个引擎的处理能力和对外开放的深度均有限且有所差异。例如，以导航为主的对话语义引擎中，用户说出要听一首歌的歌名，则该对话语义引擎无法识别用户意图。

发明内容

为了解决上述问题，本发明提供一种语音语义识别方法及系统。

第一方面，本发明提供了一种语音语义识别方法，包括：接收被识别文本数据；在语义聚合引擎中对所述输入数据进行识别，得到语义意图，其中，所述语义聚合引擎包括至少两种语义引擎。

第二方面，本发明提供了一种语音语义识别系统，包括：数据接收模块，用于接收输入数据；聚合识别模块，用于在语义聚合引擎中对所述输入数据进行识别，得到语义意图，其中，所述语义聚合引擎包括至少两种语义引擎。

由于本发明提出的语音语义识别方法中，语义聚合引擎包括至少两种语义引擎，解决了现有各个语义引擎的处理能力和开放深度有限的问题，降低了无法识别出用户意图的概率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一示范性实施例中的语音语义识别方法的流程图；

图2为本发明一示范性实施例中用户终端和语义聚合服务器的系统结构图；

图3为本发明一示范性实施例中的语音语义识别方法中按顺序调用语义引擎的流程图；

图4为本发明一示范性实施例中的语音语义识别方法中按顺序调用语义引擎的具体处理流程图；

图5为本发明又一示范性实施例中的语音语义识别方法的模块图。

附图说明：

100-语音语义识别系统；10-数据接收模块；20-聚合识别模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一示范性实施例中的语音语义识别方法的流程图。该语音语义识别方法包括：

S2：接收输入数据；

S3：在语义聚合引擎中对输入数据进行识别，得到语义意图，其中，语义聚合引擎包括至少两种语义引擎。

本发明实施例提出的语音语义识别方法中，语义聚合引擎包括至少两种语义引擎，解决了现有各个语义引擎的处理能力和开放深度有限的问题，降低了无法识别出用户意图的概率。例如，以导航为主的对话语义引擎中，用户说出要听一首歌的歌名，则该对话语义引擎无法识别用户意图，而本申请中由于设置两种语义引擎，在第一种语义引擎无法识别用户意图时，可以利用第二种甚至第三种语义引擎识别用户意图。

在S2之前，还可以包括S1。

S1：当输入数据为语音数据时，将接收到的语音数据发送至语音识别器进行识别，得到文本数据。得到的文本数据可以被接收后在语义聚合引擎中进行识别。其中，被识别的数据可以是来自客户端。

S2中所接收的输入数据可以为文本数据。且该文本数据可以来自客户端，或者是语音识别器，或者其他能够将非文本数据转换为文本数据的装置，不再赘述。

S3中，包括基于预设规则，将被识别的数据发送到至少一种语义引擎进行识别，直到得到至少一个中间意图。预设规则可以是多种语义引擎按顺序排列后，对被识别的数据进行识别，直到得到一个中间意图则退出语义引擎的识别；也可以是多个语义引擎同时对被识别的数据进行识别，得到多个中间意图后筛选一个中间意图作为语义意图。得到的至少一个中间意图中选择一个意图可以作为语义意图。

图2为本发明实施例中用户终端与语义聚合服务器的系统结构图。如图2所示，用户终端在语音监听模块监听到语音输入后，将语音信息发送至语音识别服务器，语义服务器识别语义内容后将语音识别结果反馈给终端用户。由用户终端将语音识别结果发生至语义聚合服务器，语义聚合服务器将各语音识别结果发送至至少两个语义识别引擎进行语义识别，具体的，经由语义聚合服务器中的各语义组件发送至各语义识别引擎得到语义识别结果，并将语义识别结果返回各语义组件。语义聚合服务器根据返回的语义识别结果判断用户意图，并将用户意图反馈给用户终端。用户终端接收到返回的用户意图调用用户终端上的APP或功能语句。

百度UNIT、讯飞AIUI和腾讯AI中均配置有各自的语义识别引擎，用于识别语义。上述语义识别引擎包括但不限于百度UNIT、讯飞AIUI和腾讯AI。百度UNIT、讯飞AIUI和腾讯AI中可以配置不同的第三方资源意图，使得语义识别服务器可以调用多种资源数据。

S3中包括S31和S32两种方法。

S31：将至少两种语义引擎按权重顺序排列，输入数据依次在至少一种语义引擎中进行识别，直到得到一个中间意图。具体的，可以是将输入数据发送至第一语义引擎进行识别；若第一语义引擎生成第一中间意图，将第一中间意图作为语义意图，S3结束；若第一语义引擎未生成第一中间意图，将输入数据发送至第二语义引擎进行识别；若第二语义引擎生成第二中间意图，则将第二中间意图作为语义意图，S3结束；若第二语义引擎为生成第二中间意图，则将输入数据发送至第三语义引擎。

S31中多种语义引擎可以随机排列，也可以根据各个语义引擎的权重进行排列。例如，第一语义引擎的权重大于第二语义引擎的权重，第二语义引擎的权重大于第三语义引擎，则输入数据可以按第一语义引擎、第二语义引擎及第三语义引擎的顺序进行语义识别。

图3为按顺序调用语义引擎一示范性实施例的流程图，图3中ALServer即图2中的语义聚合服务器。在该图中，调用语义识别引擎的顺序依次为百度UNIT、讯飞AIUI和腾讯AI，即依次利用百度UNIT、讯飞AIUI和腾讯AI中的语义识别引擎进行语义识别。具体的，用户说话后，APP将声音进行语音识别，得到对应文字；后将文字发送到语义聚合服务器进行语义识别。在语义聚合服务器中先调用至百度UNIT进行语义识别，若识别出意图，则调用相应模块进行处理，若未识别出意图，则调用讯飞AIUI进行语义识别；在讯飞AIUI中,若识别出意图，则调用相应模块进行处理，若否，则将调用腾讯AI进行语义识别。由于腾讯AI的作用主要是闲聊，不管输入什么文字，都能返回结果，因此可以将此结果作为托底数据返回给用户。

S32包括S321和S322。

S321：将输入数据同时发送至至少两种语义引擎进行识别。即多种语义引擎同时对输入数据进行识别，则可能得到至少两个中间意图。当得到的中间意图数量为一个时，则该中间意图可以直接作为语义意图。

S322：当生成至少两个中间意图时，根据每个中间意图所对应的语音引擎的权重，和/或根据至少两个中间意图生成的时间顺序，选择至少两个中间意图中之一作为语义意图。

当有多个中间意图时，可以选择最先生成的中间意图作为语义意图，则S6结束，进而可以以较短的时间处理语音语义识别。有多个中间意图时，也可以根据每个中间意图所对应的语义引擎的权重选择语中间意图作为语义意图，通常选择权重最大的语义引擎的中间意图作为语义意图。

其中，多种引擎的权重可以各个语义引擎是使用信息相关联，使用信息包括使用频率、更新时间等等。使用频率较高，说明该语义引擎可以较容易得到语义意图。更新时间越新，则该语义引擎相对更完善。

在S3之后，还可以包括S4。

S4：根据语义意图，调用资源数据并返回至客户端。从而使得客户端能够在发出请求后，准确地获资源数据。

具体的，S4中的资源数据可以包括语义聚合服务器的资源数据，或第三方服务器的资源数据。

第三方服务器的资源数据包括但不限于喜马拉雅模块、空调模块、座椅模块、天窗模块、打电话模块、导航模块或FM模块等等。

S4中，当调用的资源为文本数据时，可以将文本数据转换为语音数据并返回至客户端。使得客户端可以在发出语音请求后，得到语音数据，进而在客户端可以将该语音数据进行播报。

图4为按顺序调用语义引擎一示范性实施例的具体处理流程图，图4中ALServer即图2中的语义聚合服务器。在图4中，客户端的小程序可以经由ALServer发送语音到百度语音识别中进行语音识别，将识别后得到的文本经由ALServer返回客户端。

客户端的小程序将该文本发送到ALServer中，在ALServer中先调用百度UNIT进行语音解析，根据百度UNIT返回的识别结果，判断百度UNIT是否识别出意图，若识别出意图，根据意图调用资源。若在百度UNIT中未识别出意图，则可以查找下一语义识别引擎(讯飞AIUI)，利用讯飞AIUI的语义识别解析引擎识别语义，根据讯飞AIUI返回的识别结果，判断讯飞AIUI组是否识别出意图，若识别出意图，则根据意图调用资源。若在讯飞AIUI中未识别出意图，则可以查找下一语义识别引擎(腾讯AI)，利用腾讯AI的语义识别解析引擎识别语义，并返回的识别结果，根据该识别结果识别出意图，利用该意图调用资源。

具体的，可以将识别出的意图对应的文本发送至百度语音合成进行处理，并将合成后的语义发送到客户端的小程序进行通报；同时，若需要第三方资源，则向第三方发送调用请求后，得到返回的资源数据并将其发送至客户端的小程序进行播放

需要说明的是，本发明实施例提供的多种语义引擎中各个语义引擎所善于识别的语义类别不同，从而可以形成语义识别互补，提高通过语义使得得到语义意图的概率。

图5为本发明又一示范性实施例中的语音语义识别系统的模块图。该语音语义识别系统100包括：

数据接收模块10，用于接收输入数据；

聚合识别模块20，用于在语义聚合引擎中对输入数据进行识别，得到语义意图，其中，语义聚合引擎包括至少两种语义引擎。

在语音语义识别系统100中：

数据接收模块10，用于当输入数据为语音数据时，将接收到的语音数据发送至语音识别器进行识别，得到并接收文本数据；

聚合识别模块20，用于在语义聚合引擎中对文本数据进行识别。

聚合识别模块20，用于基于预设规则，将数据发送至至少一种语义引擎进行识别，得到至少一个中间意图。

聚合识别模块20可以包括：

串行识别模块，用于将至少两种语义引擎按权重顺序排列，输入数据依次在至少一种语义引擎中进行识别，直到得到一个中间意图。

聚合识别模块20可以包括：

并行识别模块，用于将数据同时发送至至少两种语义引擎进行识别；

选择意图模块，用于生成至少两个中间意图时，根据每个中间意图所对应的语音引擎的权重，和/或根据至少两个中间意图生成的时间顺序，选择至少两个中间意图中之一作为语义意图。

语义引擎的权重与语义引擎的使用信息相关，使用信息包括使用频率和/或更新时间。

语音语义识别系统100还可以包括：

资源调用模块，用于根据语义意图，调用资源数据并返回至客户端。

资源数据可以是来自服务器的资源数据，具体包括语义聚合服务器的资源数据，或是第三方服务器的资源数据。

资源调用模块中还包括转换子模块，用于当资源数据为文本数据时，将文本数据转换为语音数据并返回至客户端。

本申请实施例提供的语音语义识别系统还可以执行图1至图4中语音语义识别系统执行的方法，并实现语音语义识别系统在图1至图4所示实施例的功能，在此不再赘述。

以上的具体实例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音语义识别方法，其特征在于，包括：

接收输入数据；

在语义聚合引擎中对所述输入数据进行识别，得到语义意图，其中，所述语义聚合引擎包括至少两种语义引擎。

2.根据权利要求1所述的识别方法，其特征在于，在所述接收输入数据中，还包括：当所述输入数据为语音数据时，将接收到的语音数据发送至语音识别器进行识别得到文本数据，并接收所述文本数据；

在语义聚合引擎中将所述输入数据进行识别中，包括：在语义聚合引擎中对所述文本数据进行识别。

3.根据权利要求1所述的识别方法，其特征在于，所述在语义聚合引擎中对所述输入数据进行识别，包括：

基于预设规则，将所述输入数据发送至所述至少一种语义引擎进行识别，直到得到至少一个中间意图。

4.根据权利要求3所述的识别方法，其特征在于，所述在基于预设规则，将所述输入数据发送至所述至少一种语义引擎进行识别，直到得到至少一个中间意图中，包括：

将所述至少两种语义引擎按权重顺序排列，输入数据依次在至少一种语义引擎中进行识别，直到得到一个中间意图。

5.根据权利要求3所述的识别方法，其特征在于，所述基于预设规则，将所述输入数据发送至所述至少一种语义引擎进行识别，直到得到至少一个中间意图中，包括：

将所述输入数据同时发送至至少两种语义引擎进行识别；

当生成至少两个中间意图时，根据每个所述中间意图所对应的语音引擎的权重，和/或根据至少两个中间意图生成的时间顺序，选择所述至少两个中间意图中之一作为所述语义意图。

6.根据权利要求4或5所述的识别方法，其特征在于，所述语义引擎的权重与所述语义引擎的使用信息相关，所述使用信息包括使用频率和/或更新时间。

7.根据权利要求1所述的识别方法，其特征在于，所述识别方法在得到语义意图后，还包括：

根据所述语义意图，调用资源数据并返回至客户端。

8.根据权利要求7所述的识别方法，其特征在于，所述资源数据包括语义聚合服务器的资源数据，和/或第三方服务器的资源数据。

9.根据权利要求7所述的识别方法，其特征在于，在所述调用资源数据并返回至客户端中，包括：

当所述资源数据为文本数据时，将所述文本数据转换为语音数据并返回至客户端。

10.一种语音语义识别系统，其特征在于，包括：

数据接收模块，用于接收输入数据；

聚合识别模块，用于在语义聚合引擎中对所述输入数据进行识别，得到语义意图，其中，所述语义聚合引擎包括至少两种语义引擎。