CN112256837B

CN112256837B - 语义解析方法和装置

Info

Publication number: CN112256837B
Application number: CN202011223896.1A
Authority: CN
Inventors: 俞瑞隆; 方凯; 甘津瑞
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-07-12
Anticipated expiration: 2040-11-05
Also published as: CN112256837A

Abstract

本发明公开一种语义解析方法和装置，其中，语义解析方法，包括：将长语音识别文本实时送入文本缓存，在所述文本缓存上施加可变长度滑动窗口，将所述滑动窗口内的文本输入至语义解析系统进行语义解析；如果所述滑动窗口内的文本没有命中所述语义解析系统中的语义，则扩大所述滑动窗口的长度，然后将扩大长度后的滑动窗口内的文本再次输入至语义解析系统；以及如果所述滑动窗口内的文本命中所述语义解析系统中的语义，则处理语义结果。通过本方案的技术可以为长语音识别提供语义解析，实现长语音过程中实时的语义解析。

Description

语义解析方法和装置

技术领域

本发明属于语义解析领域，尤其涉及语义解析方法和装置。

背景技术

市面上已有短语音语义解析方法大致为基于短语音进行语音识别，把所述短语音全部转成文本后，直接把所有文本输入至语义解析系统，输出对所述所有文本的语义解析结果，还未有基于长语音利用滑动窗口实时进行语义解析的方法。

发明人在实现本申请的过程中发现：短语音的时长只有几秒，识别文本字数10个字以内，现有的短语音语义解析方法处理短语音语义解析是没有问题的。但是对于长语音这种是不适用的。长语音的音频几分钟至几十分钟不等，识别文本字数达上百、千字不等。若利用短语音语义解析方法进行语音识别出所有文本，将所有文本输入至语义解析系统，短语音语义解析系统无法支持文本长度，所以缺乏可用性。其次，假设某些语义解析系统支持文本长度，需要等待用户所有语音输出完成后才能进行语义解析，最后处理语义结果，所以缺乏实时性，严重影响用户体验。

发明内容

本发明实施例提供一种语义解析方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语义解析方法，包括：将长语音识别文本实时送入文本缓存，在所述文本缓存上施加可变长度滑动窗口，将所述滑动窗口内的文本输入至语义解析系统进行语义解析；如果所述滑动窗口内的文本没有命中所述语义解析系统中的语义，则扩大所述滑动窗口的长度，然后将扩大长度后的滑动窗口内的文本再次输入至语义解析系统；如果所述滑动窗口内的文本命中所述语义解析系统中的语义，则处理语义结果。

第二方面，本发明实施例提供一种语义解析装置，包括：滑动窗口模块，配置为将长语音识别文本实时送入文本缓存，在所述文本缓存上施加可变长度滑动窗口，将所述滑动窗口内的文本输入至语义解析系统进行语义解析；扩大长度模块，配置为如果所述滑动窗口内的文本没有命中所述语义解析系统中的语义，则扩大所述滑动窗口的长度，然后将扩大长度后的滑动窗口内的文本再次输入至语义解析系统；结果处理模块，配置为如果所述滑动窗口内的文本命中所述语义解析系统中的语义，则处理语义结果。

第三方面，提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行第一方面所述的语义解析方法的步骤。

第四方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

本申请实施例提供的方法通过本方案的技术可以为长语音识别提供语义解析，实现长语音过程中实时的语义解析。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语义解析方法的流程图；

图2为本发明一实施例提供的语义解析装置交互流程图；

图3为本发明实施例的语义解析的方案一具体实施例的语义解析流程图；

图4为本发明一实施例提供的一种语义解析装置的框图；

图5为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明的一种语义解析方法的一实施例的流程图。

如图1所示，在步骤101中，将长语音识别文本实时送入文本缓存，在所述文本缓存上施加可变长度滑动窗口，将所述滑动窗口内的文本输入至语义解析系统进行语义解析；

在步骤102中，如果所述滑动窗口内的文本没有命中所述语义解析系统中的语义，则扩大所述滑动窗口的长度，然后将扩大长度后的滑动窗口内的文本再次输入至语义解析系统；

在步骤103中，如果所述滑动窗口内的文本命中所述语义解析系统中的语义，则处理语义结果。

在本实施例中，对于步骤101，语义解析装置将长语音识别文本实时送入文本缓存，之后可以在该文本缓存上施加可变长度滑动窗口，然后将滑动窗口内包含的文本输入至语义解析系统进行语义解析。其中，长语音识别文本可以是几分钟到十几分钟的音频对应的识别文本，文本缓存可以是用于对长语音识别文本进行实时缓存的数据，长语音识别文本可以很长，但是文本缓存因为是实时的，所以不会太长。可变长度滑动窗口的长度可以随着解析而改变，可变长度滑动窗口的长度小于文本缓存中缓存的文本的长度，语义解析系统能够对文本进行解析，语义解析系统里面存储有很多固定的文本对应的语义。

之后，对于步骤102，如果滑动窗口内的文本没有命中所述语义解析系统中的语义，则可以扩大该滑动窗口的长度，然后将扩大长度后的滑动窗口内的文本再次输入至语义解析系统，例如，窗口内的文本为“导”时是无法命中具体语义的，“导航”、“导演”或“导出”则可以命中语义，在此不再赘述。

最后，对于步骤103，如果所述滑动窗口内的文本命中所述语义解析系统中的语义，则处理语义结果，例如，对“导航”进行语义处理可以是将“导航”处理成一个待执行的动作、指令，或者将“导航”识别成具体的意图，本申请在此没有限制。

例如，长语音识别文本可以是“导航去万达广场”，然后可变长度滑动窗口可以逐字滑动，例如刚开始窗口中可以只包含“导”字，但是“导”并不能对应一个明确的语义，不能命中语义解析系统中的语义，然后可以继续向前滑动，例如滑动至“导航”，这两个字可以命中语义解析系统中的语义，例如可以解析为用户具有“导航”意图，本申请在此没有限制。

在本实施例所述的方案中，通过将长语音识别的文本缓存实时利用滑动窗口送入语义解析系统，进一步语义解析，实现长语音过程中实时的语义解析。

在一些可选的实施例中，所述可变长度滑动窗口的初始长度包括设置为N字符，其中，所述N为非0的自然数。例如，滑动窗口初始长度可以为1或2，本申请在此没有限制。从而可以保证滑动窗口内有内容等待进行语义解析。

在一些可选的实施例中，所述可变长度滑动窗口具有左索引和右索引，其中，所述左索引指向所述文本缓存的首字符，所述右索引指向所述文本缓存的第N个字符。例如，“导航去万达广场”，其中，如果N为1，则左索引指向“导”，右索引也指向“导”。如果N为2，则左索引指向“导”，右索引指向“航”。N也可以为其他数值，在此不再赘述。虽然在本实施例中使用左右索引来限制，但是本领域技术人员可以理解这只是使用现有文字排版方向确定的，如果文字排版方向为上下，还可以限制为上索引、下索引，或者根据其他的文字排版方向确定对应的索引，在此不再赘述。

在一些可选的实施例中，在所述处理语义结果之后，将所述可变长度滑动窗口重置为N，然后将所述左索引指向所述文本缓存中未被所述语义解析系统处理的首字符，将所述右索引指向所述文本缓存中未被所述语义解析系统处理的第N个字符。此情况发生在滑动窗口内文本语义解析后命中语义之后，然后滑动窗口重置。例如，“导航去万达广场”，“导航”已命中语义，然后滑动窗口长度重置为N，左索引从原来的“导”重置为“去”，如果N为1，右索引从原来的“航”重置为“去”，继续判断后面的文本是否命中语义，在此不再赘述。

在一些可选的实施例中，所述扩大所述滑动窗口的长度包括每次按照预设长度间隔扩大所述滑动窗口的长度，所述预设长度间隔为M个字符，其中M为非0自然数，例如M为1或2，本申请在此没有限制，从而保证每次都有新的字符进入窗口，进行命中与否的判断。

在一些可选的实施例中，所述每次按照预设长度间隔扩大所述滑动窗口的长度包括：首次扩大长度时，将所述滑动窗口的右索引指向第N+M个字符；第X次扩大长度时，将所述滑动窗口的右索引指向第N+X*M个字符，其中，X为大于1的自然数。例如，X为2，M为1，本申请在此没有限制，则每次扩大长度时，滑动窗口向前滑动1个字符。

在一些可选的实施例中，N=1，M=1为优选实施例。例如，滑动窗口初始长度为1，预设长度间隔为1，则滑动窗口内初始为1字符，进行语义解析，若没有命中语义，则滑动窗口每次向前滑动1个字符进行语义解析，在此不再赘述。

请参考图2，其示出了本发明一实施例提供的语义解析装置交互图。文本缓存为“导航去万达广场”，施加初始长度为1的滑动窗口，则左索引指向“导”，右索引也指向“导”，滑动窗口内文本为“导”，判定未命中语义。然后滑动窗口向前滑动预设长度1，窗口左索引不变，右索引指向“航”，滑动窗口内文本为“导航”，判定命中语义，进行进一步解析。滑动窗口重置为初始长度1，则左索引指向“去”，右索引也指向“去”，滑动窗口内文本为“去”，再次执行前面的命中与否判定，在此不再赘述。

需要说明的是，以上实施例中虽然采用了步骤101、步骤102等具有明确先后顺序的数字，限定了步骤的先后顺序，但是在实际的应用场景中，有些步骤是可以并列执行的，有些步骤的先后顺序也不受到以上数字的限定，本申请在此没有限制，在此不再赘述。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

这些相似技术的缺陷：

一般一段短语音的时长只有几秒，并且短语音识别的语音识别出的文本很短，识别出的文本只有10个字以内。这种技术在对短语音这种音频较短，字数较短的文本进行语义解析是没有问题的。但是对于长语音这种是不适用的。因为长语音的音频很长，几分钟到几十分钟的都有，识别出的文本字数可能达到上百字，上千字等。如果利用上述技术等识别完成后把所有文本送入语义解析系统，一般语义解析系统是不支持这么长的文本的，所以缺乏可用性。其次，假设某些语义解析系统支持这么长的文本，但还是缺乏实时性，用户得等说完一大段话后再出语义解析结果，终端系统才会做出反应，那会严重影响用户体验，所以缺乏实时性。

为什么不容易想到原因：

从业人员一般会在产品上修改交互方式，改为短语音的交互，长语音只用于识别，会议记录等，不做语义和对话的逻辑。

因为对于文本的语义解析，技术人员都会陷入对语义解析系统的改善和优化。很少会想到对整个系统，或者对某个模块的其他边界去做优化和模块之间做配合来去解决这些缺陷。

请参考图3，其示出了本发明一实施例提供的语义解析流程图。

步骤一：将长语音识别出的文本实时的送入文本缓存，这里的实时是指说话的同时会有识别结果出现，并非等说完会后才会出现识别结果。

步骤二：对文本缓存初始化滑动窗口，窗口的初始大小为1，左索引指向第一个字符，右索引指向第一个字符。

步骤三：将窗口内的文本作为输入送入语义解析系统。

步骤四：如果没有命中语义，则扩大窗口，把右索引加1，然后重复步骤三。

步骤五：如果命中语义，则处理语义结果，并重置窗口范围，将左右索引同时指向右索引的下一个位置，窗口大小重新变成1，开始处理新一轮的文本，并重复步骤三。

发明人在实现本发明的过程中形成的beta版：

用短语音识别+语义解析的方案，循环串行地进行短语音识别+语义解析。但该方案整体识别效果会变不好，在每轮短语音识别+语义解析和下一轮中间的时间段会丢字。

更深层次的效果：

通过本方案的技术可以为长语音识别提供语义解析，实现长语音过程中实时的语义解析，可以为人工智能语音交互系统提供一些更加丰富的交互形式。

请参考图4，其示出了本发明一实施例提供的一种语义解析装置的框图。

如图4所示，滑动窗口模块410、扩大长度模块420和结果处理模块430。

其中，滑动窗口模块410，配置为将长语音识别文本实时送入文本缓存，在所述文本缓存上施加可变长度滑动窗口，将所述滑动窗口内的文本输入至语义解析系统进行语义解析；扩大长度模块420，配置为如果所述滑动窗口内的文本没有命中所述语义解析系统中的语义，则扩大所述滑动窗口的长度，然后将扩大长度后的滑动窗口内的文本再次输入至语义解析系统；以及结果处理模块430，配置为如果所述滑动窗口内的文本命中所述语义解析系统中的语义，则处理语义结果。

应当理解，图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如滑动窗口模块，配置为将长语音识别文本实时送入文本缓存，在所述文本缓存上施加可变长度滑动窗口，将所述滑动窗口内的文本输入至语义解析系统进行语义解析，另外，还可以通过硬件处理器来实现相关功能模块，例如滑动窗口模块可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语义解析方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将长语音识别文本实时送入文本缓存，在所述文本缓存上施加可变长度滑动窗口，将所述滑动窗口内的文本输入至语义解析系统进行语义解析；

如果所述滑动窗口内的文本没有命中所述语义解析系统中的语义，则扩大所述滑动窗口的长度，然后将扩大长度后的滑动窗口内的文本再次输入至语义解析系统；

如果所述滑动窗口内的文本命中所述语义解析系统中的语义，则处理语义结果。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语义解析装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语义解析装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语义解析方法。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器510为例。用于语义解析方法的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于语义解析装置方法。输入装置530可接收输入的数字或字符信息，以及产生与用于语义解析装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语义解析装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语义解析方法，包括：

将长语音识别文本实时送入文本缓存，在所述文本缓存上施加可变长度滑动窗口，将所述滑动窗口内的文本输入至语义解析系统进行语义解析，其中，所述长语音为几分钟到十几分钟的音频；

2.根据权利要求1所述的方法，其中，所述可变长度滑动窗口的初始长度包括设置为N字符，其中，所述N为非0的自然数。

3.根据权利要求2所述的方法，其中，所述可变长度滑动窗口具有左索引和右索引，其中，所述左索引指向所述文本缓存的首字符，所述右索引指向所述文本缓存的第N个字符。

4.根据权利要求3所述的方法，其中，在所述处理语义结果之后，所述方法还包括：

将所述可变长度滑动窗口重置为N；

将所述左索引指向所述文本缓存中未被所述语义解析系统处理的首字符，将所述右索引指向所述文本缓存中未被所述语义解析系统处理的第N个字符。

5.根据权利要求3所述的方法，其中，所述扩大所述滑动窗口的长度包括每次按照预设长度间隔扩大所述滑动窗口的长度，所述预设长度间隔为M个字符，其中M为非0自然数。

6.根据权利要求5所述的方法，其中，将所述每次按照预设长度间隔扩大所述滑动窗口的长度包括：

首次扩大长度时，将所述滑动窗口的右索引指向第N+M个字符；

第X次扩大长度时，将所述滑动窗口的右索引指向第N+X*M个字符，其中，X为大于1的自然数。

7.根据权利要求6所述的方法，其中，N=1，M=1。

8.一种语义解析装置，包括：

滑动窗口模块，配置为将长语音识别文本实时送入文本缓存，在所述文本缓存上施加可变长度滑动窗口，将所述滑动窗口内的文本输入至语义解析系统进行语义解析，其中，所述长语音为几分钟到十几分钟的音频；

扩大长度模块，配置为如果所述滑动窗口内的文本没有命中所述语义解析系统中的语义，则扩大所述滑动窗口的长度，然后将扩大长度后的滑动窗口内的文本再次输入至语义解析系统；

结果处理模块，配置为如果所述滑动窗口内的文本命中所述语义解析系统中的语义，则处理语义结果。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述方法的步骤。