CN110888642A

CN110888642A - 语音消息编译方法及装置

Info

Publication number: CN110888642A
Application number: CN201911188154.7A
Authority: CN
Inventors: 张�浩
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-03-17
Anticipated expiration: 2039-11-28
Also published as: CN110888642B

Abstract

本发明公开一种语音消息编译方法及装置。在该方法中，确定待处理的语音消息所对应的目标语义属性，基于语音语法编译网络确定所述目标语义属性所对应的目标语法编译网络路径，所述语音语法编译网络包括多个语法编译网络路径，且每一所述语法编译网络路径分别对应于唯一的语义属性，并基于所述目标语法编译路径来编译所述语音消息。由此，可以缩小编译范围，节约了编译操作所需要消耗的资源。

Description

语音消息编译方法及装置

技术领域

本发明属于互联网技术领域，尤其涉及一种语音消息编译方法及装置。

背景技术

语音识别系统试图确定语音输入的语义含义。典型地，概率有限状态语音模型用于确定与语音输入最对应的词序列。在语音识别任务包括多个不同的知识等级，从基本语音声音的声学形式，诸如所熟知的音素(phoneme)，到形成识别词汇中单词的音素序列，到形成识别语法中短语的单词序列。组织识别任务的一种有效且方便的方式是基于有限状态机的使用，诸如FST(Finite State Transducer,有限状态转换机)。如图1示出了一个简单FST的特定的示例，该FST解析单词等级符号集合为{AAA，BA，AAB}。

目前，在生成FST网络时，解析器解析出来的所有变量和值转成边和状态信息，由于网络中前后路径的相关性，这些信息在生成完整网络前不能释放，尤其在支持多领域的本地语音识别环境下，比如语法网络包含500条联系人信息，1000首歌曲，2000个位置信息，100个黄页号码，放在一起编译，需要占用大量的内存信息。并且，在实际应用中每个领域词条数量往往达到上千条，所有不同领域的语法放在同一个语法文件中进行一次编译，会占用大量内存，严重时甚至会导致系统宕机。

针对上述问题，目前业界暂无较佳的解决方案。

发明内容

本发明实施例提供一种语音消息编译方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音消息编译方法，包括：确定待处理的语音消息所对应的目标语义属性；基于语音语法编译网络确定所述目标语义属性所对应的目标语法编译网络路径，所述语音语法编译网络包括多个语法编译网络路径，且每一所述语法编译网络路径分别对应于唯一的语义属性；以及基于所述目标语法编译路径，编译所述语音消息。

第二方面，本发明实施例提供一种语音消息编译装置，包括：语义属性确定单元，被配置为确定待处理的语音消息所对应的目标语义属性；编译路径确定单元，被配置为基于语音语法编译网络确定所述目标语义属性所对应的目标语法编译网络路径，所述语音语法编译网络包括多个语法编译网络路径，且每一所述语法编译网络路径分别对应于唯一的语义属性；以及消息编译单元，被配置为基于所述目标语法编译路径，编译所述语音消息。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：在对语音消息进行编译处理时，依据语音消息所对应的语义属性来确定对应的目标语法编译网络路径，进而基于该目标语法编译路径来对语音消息进行编译，缩小了编译范围，可以节约编译时所消耗的资源。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了针对FST的一示例的示意图；

图2示出了根据本发明实施例的语音消息编译方法的一示例的流程图；

图3示出了根据本发明一实施例的确定语音语法编译网络的流程图；

图4示出了根据本发明一实施例的构建语音语法编译网络的示意图；

图5示出了根据本发明一实施例的针对语音语法编译网络的一示例的示意图；

图6示出了根据本发明一实施例的针对语音消息所对应语法编译路径进行搜索的一示例的示意图；

图7示出了根据本发明实施例的语音消息编译装置的一示例的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图2示出了根据本发明实施例的语音消息编译方法的一示例的流程图。

如图2所示，在步骤210中，确定待处理的语音消息所对应的目标语义属性。这里，可以识别语音消息所对应的语义，并且具有相同特征的语义可以被归类至相同的语义属性。示例性地，语义属性包括应用领域属性和/或应用场景。具体地，应用领域可以是诸如多媒体和位置之类的各种领域。另外，应用场景也可以是诸如打车应用场景、电话呼叫应用场景之类的各种场景，以将不同的语音语义归属到相应的分类中。

在步骤220中，基于语音语法编译网络确定目标语义属性所对应的目标语法编译网络路径。这里，语音语法编译网络包括多个语法编译网络路径，且每一语法编译网络路径分别对应于唯一的语义属性。

在步骤230中，基于目标语法编译路径，编译语音消息。示例性地，语音语法编译网络中具有多个路径，例如多媒体路径、电话号码路径等。这样，在语音消息属于多媒体属性时，仅需要利用多媒体路径进行编译，可以提高编译效率，并降低了编译处理资源消耗。

图3示出了根据本发明一实施例的确定语音语法编译网络的流程图。

如图3所示，在步骤310中，获取多个本地语法描述文件。这里，各个本地语法描述文件中的信息可以是多样化的，以使得假设从这些本地语法描述文件来进行编译会导致极大的资源编译消耗。

在步骤320中，基于设定的语义属性从多个本地语法描述文件确定管理语法文件和多个属性语法描述文件。这里，每一属性语法描述文件用于指示唯一的语义属性，管理语法文件包括与各个属性语法描述文件分别相对应的元数据，由此实现将本地文件针对相应的属性进行归类。

在步骤330中，基于管理语法文件和所述多个属性语法描述文件，确定语音语法编译网络。这里，每一属性语法描述文件被分别用来确定唯一的语法编译路径，以及管理语法文件被用来确定针对各个语法编译路径的交汇节点。

在一些实施方式中，可以基于语音语法编译网络中的交汇节点来确定与目标语义属性相对应的语法编译网络路径。图4示出了根据本发明一实施例的构建语音语法编译网络的示意图。如图4所示，基于Master语法的交汇节点可以实现将语音消息按照语义向对应的网络路径进行扩展和解析。这里，编译脚本可以采用Swift编译器中的高级别的中间语言sil而完成，sil会对Swift编译器进行较高级别的语义分析和优化。

为了不将是所有的语法(例如，语法)放在同一个语法文件里，提高编译效率。在本实施例中，把语法文件中的命令词按不同领域拆分出来成一个主语法文件和多个子领域语法文件(如图4所示，master语法文件。领域A语法文件和领域B语法文件)。

具体地，Master语法文件和各个子领域语法文件之间可以通过在主语法文件中通过特殊的符号进行联系，其能够方便在解码时能够动态扩展子网络，从而构成一个整体的搜索空间。并且，在解码编译时，可以对每个语法文件单独编译，由此避免一次编译大文件带来的内存问题。

图5示出了根据本发明一实施例的针对语音语法编译网络的一示例的示意图。这里，在编译过程中，可以通过在多个语法编译路径(#DA～#DZ)中选择对应的语法编译路径进行编译操作。图6示出了根据本发明一实施例的针对语音消息所对应语法编译路径进行搜索的一示例的示意图。这里，在编译过程中，当选择语法编译路径A进行编译时，可以利用语法编译路径A中的语法文件(例如，one～three)对完成编译操作。通过本发明实施例，可以解决在跨领域语音识别中语法网络路径庞杂和语法文件数量过多情况下编译时所导致的内存不足的问题。

在一些实施方式中，可以涉及本地语法描述文件，语法文件解析器和解码器等。对于本地语法描述文件的类型和数量，应不加不限。这里，能够支持将传统的一个语法文件拆分为一个Master语法文件和多个领域语法描述文件，并且，在Master语法文件中可以包含多个元数据(例如，特殊变量)，该变量应对应某个子领域语法文件。

进一步地，语法文件解析器能够将语法描述文件的所有句子语法解析成一个语法网络。支持对语法文件和子领域语法文件单独编译(如图4所示)。并且，解码器在对如图5所示的NET Master网络搜索过程中，如遇到输出为特殊变量#DA的边时，能够对该条边动态扩展，该条边应扩展为#DA这个特殊变量所对应的子领域网络NET A(如图6)，以便能够在含有子领域的路径上搜索，从而搜索出最优搜索路径。

如图7所示，语音消息编译装置700包括语义属性确定单元710、编译路径确定单元720和消息编译单元730。其中，语义属性确定单元710被配置为确定待处理的语音消息所对应的目标语义属性。编译路径确定单元720基于语音语法编译网络确定所述目标语义属性所对应的目标语法编译网络路径，所述语音语法编译网络包括多个语法编译网络路径，且每一所述语法编译网络路径分别对应于唯一的语义属性。消息编译单元730基于所述目标语法编译路径，编译所述语音消息。

在一些实施方式中，装置700还包括编译网络构建单元740，包括本地文件获取模块(未示出)、属性语法文件确定模块(未示出)和编译网络确定模块(未示出)。其中，本地文件获取模块被配置为获取多个本地语法描述文件。属性语法文件确定模块被配置为基于设定的语义属性从所述多个本地语法描述文件确定管理语法文件和多个属性语法描述文件，其中每一属性语法描述文件用于指示唯一的语义属性，所述管理语法文件包括与各个所述属性语法描述文件分别相对应的元数据。编译网络确定模块被配置为基于所述管理语法文件和所述多个属性语法描述文件，确定所述语音语法编译网络，每一所述属性语法描述文件被分别用来确定唯一的语法编译路径，以及所述管理语法文件被用来确定针对各个所述语法编译路径的交汇节点。

在一些实施方式中，编译路径确定单元720基于所述语音语法编译网络中的所述交汇节点，确定与所述目标语义属性相对应的语法编译网络路径。

上述本发明实施例的装置可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上的语音消息编译方法的步骤。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的客户端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音消息编译方法，包括：

确定待处理的语音消息所对应的目标语义属性；

基于语音语法编译网络确定所述目标语义属性所对应的目标语法编译网络路径，所述语音语法编译网络包括多个语法编译网络路径，且每一所述语法编译网络路径分别对应于唯一的语义属性；以及

基于所述目标语法编译路径，编译所述语音消息。

2.如权利要求1所述的方法，在基于语音语法编译网络确定所述目标语义属性所对应的目标语法编译网络路径之前，所述方法还包括：

获取多个本地语法描述文件；

基于设定的语义属性从所述多个本地语法描述文件确定管理语法文件和多个属性语法描述文件，其中每一属性语法描述文件用于指示唯一的语义属性，所述管理语法文件包括与各个所述属性语法描述文件分别相对应的元数据；

基于所述管理语法文件和所述多个属性语法描述文件，确定所述语音语法编译网络，每一所述属性语法描述文件被分别用来确定唯一的语法编译路径，以及所述管理语法文件被用来确定针对各个所述语法编译路径的交汇节点。

3.如权利要求2所述的方法，其中，基于语音语法编译网络确定所述目标语义属性所对应的目标语法编译网络路径包括：

基于所述语音语法编译网络中的所述交汇节点，确定与所述目标语义属性相对应的语法编译网络路径。

4.如权利要求1所述的方法，其中，所述语义属性包括应用领域属性和/或应用场景。

5.一种语音消息编译装置，包括：

语义属性确定单元，被配置为确定待处理的语音消息所对应的目标语义属性；

编译路径确定单元，被配置为基于语音语法编译网络确定所述目标语义属性所对应的目标语法编译网络路径，所述语音语法编译网络包括多个语法编译网络路径，且每一所述语法编译网络路径分别对应于唯一的语义属性；以及

消息编译单元，被配置为基于所述目标语法编译路径，编译所述语音消息。

6.如权利要求5所述的装置，其中，所述装置还包括编译网络构建单元，所述编译网络构建单元包括：

本地文件获取模块，被配置为获取多个本地语法描述文件；

属性语法文件确定模块，被配置为基于设定的语义属性从所述多个本地语法描述文件确定管理语法文件和多个属性语法描述文件，其中每一属性语法描述文件用于指示唯一的语义属性，所述管理语法文件包括与各个所述属性语法描述文件分别相对应的元数据；

编译网络确定模块，被配置为基于所述管理语法文件和所述多个属性语法描述文件，确定所述语音语法编译网络，每一所述属性语法描述文件被分别用来确定唯一的语法编译路径，以及所述管理语法文件被用来确定针对各个所述语法编译路径的交汇节点。

7.如权利要求6所述的装置，其中，所述编译路径确定单元基于所述语音语法编译网络中的所述交汇节点，确定与所述目标语义属性相对应的语法编译网络路径。

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。