CN111797632B

CN111797632B - 信息处理方法、装置及电子设备

Info

Publication number: CN111797632B
Application number: CN201910271177.8A
Authority: CN
Inventors: 韩伟
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2023-10-27
Anticipated expiration: 2039-04-04
Also published as: CN111797632A

Abstract

本发明实施例提供一种信息处理方法、装置及电子设备，获取输入智能设备的语音信息；对语音信息进行语音识别处理，得到语音信息对应的文本信息，文本信息包括至少一个词汇以及各词汇的时间信息；根据词汇的时间信息，对文本信息进行划分，得到至少一个文本片段；根据至少一个文本片段的语义识别结果，获取语音信息的有效语义信息；本实施例对语音信息不进行切分而直接识别为文本信息，在根据各词汇的时间信息对文本信息进行切分的过程考虑了自然语言理解，使得对文本信息的切分结果更加准确，进而根据切分后的文本片段的语义识别结果确定语音信息的有效语义信息，能够提高语义识别的准确率。

Description

信息处理方法、装置及电子设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种信息处理方法、装置及电子设备。

背景技术

随着人机交互技术的发展，语义识别技术显示出其重要性。语义识别是从人类发出的语音信号中提取特征信息并确定其语言含义的过程，主要包括语音识别过程和语义理解过程。语音识别过程是利用声学模型将人类的语音信号转换为文本的过程，语义理解过程是利用自然语言模型对文本的含义进行识别的过程。

现有技术中，在对用户输入的语音信号进行处理时，首先利用语音活动性检测(voice activity detection，VAD)技术，在连续的语音信号中确定出各个语音片段的起始点和终止点，实现对连续语音信号的切分，然后对切换后的语音片段进行语音识别和语义理解，以得到用户的语义。

然而，在实际应用中，由于不同用户的说话语速、说话习惯以及说话人所处场景的不同，通过VAD检测的方式对语句进行切分，使得对语句的切分不够准确，进而导致语义识别的准确率不高。

发明内容

本发明实施例提供一种信息处理方法、装置及电子设备，用以提高语义识别的准确率。

第一方面，本发明实施例提供一种信息处理方法，包括：

获取输入智能设备的语音信息；

对所述语音信息进行语音识别处理，得到所述语音信息对应的文本信息，所述文本信息包括至少一个词汇以及各所述词汇的时间信息，所述时间信息用于指示所述智能设备采集到所述词汇对应的语音帧的时间；

根据所述词汇的时间信息，对所述文本信息进行划分，得到至少一个文本片段；

根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息。

可选的，所述根据所述词汇的时间信息，对所述文本信息进行划分，得到至少一个文本片段，包括：

根据各所述词汇的时间信息，获取所述文本信息中相邻两个词汇之间的时间间隔；

若所述时间间隔满足设定条件，则确定在所述两个词汇之间设置切分点；

根据所确定的切分点，对所述文本信息进行切分，得到所述至少一个文本片段。

可选的，所述若所述时间间隔满足设定条件，则确定在所述两个词汇之间设置切分点，包括：

若所述时间间隔大于或等于目标阈值，则确定在所述两个词汇之间设置切分点。

可选的，所述方法还包括：

根据至少一个所述时间间隔，确定所述语音信息的语速等级；

根据语速等级与时间阈值之间的对应关系，将与所述语音信息的语速等级对应的时间阈值作为所述目标阈值。

可选的，所述方法还包括：

根据所述文本信息的各所述时间间隔，获取所述时间间隔的第一平均值，并将所述第一平均值确定为所述目标阈值；或者，

依次确定第一预设数量的词汇的时间间隔的第二平均值，并将所述第二平均值确定为所述第一预设数量的词汇之后的第二预设数量的词汇对应的目标阈值；或者，

针对所述文本信息中的任意词汇，获取所述文本信息中位于所述词汇之前的所有词汇的时间间隔的第三平均值，将所述第三平均值作为所述词汇对应的目标阈值。

可选的，所述语义识别结果包括：语义完整性概率得分和语义信息；所述根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息，包括：

将语义完整性概率得分满足预设条件的文本片段的语义信息，作为所述语音信息的有效语义信息。

可选的，所述将语义完整性概率得分满足预设条件的文本片段的语义信息，作为所述语音信息的有效语义信息，包括：

针对所述至少一个文本片段中的每个文本片段，若所述文本片段的语义完整性概率得分大于或等于预设阈值，则将所述文本片段的语义信息作为所述语音信息的有效语义信息；或者，

针对所述至少一个文本片段，将语义完整性概率得分最高的文本片段的语义信息作为所述语音信息的有效语义信息。

针对所述至少一个文本片段中的任一文本片段，获取已缓存的历史文本片段，所述历史文本片段为所述文本片段之前的语义完整性概率得分不满足所述预设条件的至少一个文本片段；

对所述历史文本片段和所述文本片段拼接得到的新的文本片段进行语义识别处理，获取所述新的文本片段的语义识别结果；

若所述新的文本片段的语义完整性概率得分大于或等于预设阈值，则将所述新的文本片段的语义信息作为所述语音信息的有效语义信息。

可选的，所述方法还包括：

若所述新的文本片段的语义完整性概率得分大于或等于预设阈值，将所述历史文本片段从缓存中删除。

可选的，所述方法还包括：

若所述新的文本片段的语义完整性概率得分小于预设阈值，则将所述新的文本片段作为历史文本片段存储至缓存中。

可选的，所述获取所述语音信息的有效语义信息之后，还包括：

根据所述有效语义信息，获取所述语音信息对应的回复信息；

控制所述智能设备输出所述回复信息。

第二方面，本发明实施例提供一种信息处理装置，包括：

获取模块，用于获取输入智能设备的语音信息；

第一识别模块，用于对所述语音信息进行语音识别处理，得到所述语音信息对应的文本信息，所述文本信息包括至少一个词汇以及各所述词汇的时间信息，所述时间信息用于指示所述智能设备采集到所述词汇对应的语音帧的时间；

切分模块，用于根据所述词汇的时间信息，对所述文本信息进行划分，得到至少一个文本片段；

第二识别模块，用于根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息。

可选的，所述切分模块具体用于：

可选的，所述切分模块还用于：

可选的，所述语义识别结果包括：语义完整性概率得分和语义信息；所述第二识别模块具体用于：

可选的，所述第二识别模块具体用于：

可选的，所述第二识别模块还用于：若所述新的文本片段的语义完整性概率得分大于或等于预设阈值，将所述历史文本片段从缓存中删除。

可选的，所述第二识别模块还用于：

控制所述智能设备输出所述回复信息。

第三方面，本发明实施例提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的方法。

第五方面，本发明实施例提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如上第一方面任一项所述的方法。

第六方面，本发明实施例提供一种芯片，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得安装有所述芯片的电子设备执行如上第一方面任一项所述的方法。

本发明实施例提供的技术方案：获取输入智能设备的语音信息；对所述语音信息进行语音识别处理，得到所述语音信息对应的文本信息，所述文本信息包括至少一个词汇以及各所述词汇的时间信息，所述时间信息用于指示所述智能设备采集到所述词汇对应的语音帧的时间；根据所述词汇的时间信息，对所述文本信息进行划分，得到至少一个文本片段；根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息。由此可见，本实施例对语音信息不进行切分而直接识别为文本信息，再根据文本信息中的各词汇的时间信息对文本信息进行切分，然后针对文本片段进行语义识别，得到语音信息的有效语义信息。由于根据各词汇的时间信息对文本信息进行切分的过程考虑了自然语言理解，使得对文本信息的切分结果更加准确，进而根据切分后的文本片段的语义识别结果确定语音信息的有效语义信息，能够提高语义识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中语义识别过程的示意图；

图2为本发明实施例提供的语义识别过程的示意图；

图3为本发明实施例提供的信息处理方法的流程示意图一；

图4为本发明实施例提供的信息处理方法的流程示意图二；

图5为本发明实施例提供的语义识别过程的示意图二；

图6为本发明实施例提供的信息处理方法的流程示意图三；

图7为本发明实施例提供的信息处理装置的结构示意图；

图8为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为现有技术中语义识别过程的示意图，如图1所示，在对用户输入的语音信息进行处理时，首先利用语音活动性检测(voice activity detection，VAD)技术，在连续的语音信息中确定出各个语音片段的起始点和终止点，实现对连续语音信息的切分，然后对切换后的语音片段进行语音识别和语义理解，以得到用户的语义。具体的，将语音片段输入自动语音识别(Automatic Speech Recognition，ASR)模型进行识别，得到语音片段对应的文本信息，然后将文本信息输入至自然语言处理(Natural Language Processing，NLP)模型中进行识别，得到文本信息对应的语义信息。

为了解决上述问题，本发明实施例提供一种信息处理方法。图2为本发明实施例提供的语义识别过程的示意图，如图2所示，本实施例中，对连续的语音信息不进行切分而直接输入ASR模型进行语音识别，得到连续语音信息对应的长文本信息，然后通过对长文本信息进行切分，得到多个文本片段，再将文本片段输入至NLP模型中，得到文本片段的语义信息。

本实施例中，通过先将语音信息识别为长文本信息，再对长文本信息进行切分得到文本片段，然后根据各个文本片段的语义识别结果得到语音信息的有效语义信息。由于在切分过程中可以考虑自然语言理解，能够提高语句切分的准确性，从而提高语义识别的准确率。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本发明实施例提供的信息处理方法的流程示意图一，本实施例的方法可以由服务器执行，还可以由智能设备的控制器执行。其中，智能设备可以是具有与用户进行人机对话功能的任意电子设备，包括但不限于：机器人、智能音箱、智能家居、智能穿戴设备、智能手机等。

需要说明的是，为了描述方便，本实施例以及后续实施例中，在涉及举例说明时仅以智能设备为例进行描述。

如图3所示，该信息处理方法，可以包括：

S301：获取输入智能设备的语音信息。

具体的，获取输入智能设备的语音信息时，可以通过智能设备的麦克风采集用户的语音信息，也可以通过网络或者蓝牙等方式接收其他设备获取的用户的语音信息。需要说明的是，本发明实施例只是以这两种可能的实现方式获取用户的语音信息为例进行说明，但并不代表本发明实施例仅局限于此。

S302：对所述语音信息进行语音识别处理，得到所述语音信息对应的文本信息，所述文本信息包括至少一个词汇以及各所述词汇的时间信息，所述时间信息用于指示所述智能设备采集到所述词汇对应的语音帧的时间。

具体的，获取到语音信息后，可以采用语音识别技术，将语音信息识别为文本信息。一种可选的实施方式中，将所述语音信息输入至自动语音识别ASR模型中，获取所述ASR模型输出的所述语音信息对应的文本信息。

可以理解的，本实施例中，由于获取到用户输入的语音信息后，并未对语音信息进行切分，而是直接进行语音识别得到文本信息，因此，本实施例识别得到的文本信息可以为长文本信息。

本实施例中，文本信息中包括至少一个词汇以及各词汇的时间信息。其中，词汇可以是一个文字，也可以是至少两个文字组成的词语或短语。各词汇的时间信息是指智能设备采集到该词汇对应的语音帧的时间。

可以理解的，输入智能设备的语音信息为音频信号，是具有时序的。本实施例中，将语音信息识别为文本信息的过程中，保留语音信息的时序信息。

具体的，语音信息中包括多个语音帧，各个语音帧之间按照时间顺序排列。在对语音信息进行识别时，一个或者多个语音帧对应一个词汇，将这一个或者多个语音帧对应的时间信息作为该词汇的时间信息。这样，对语音信息进行识别得到的文本信息中，包括多个词汇，并且，每个词汇对应有时间信息。

示例性的，假设用户输入的语音信息为“这首歌怎么样”，则经过ASR模型识别得到的文本信息中包括6个词汇以及各词汇的时间信息，如下：

这(0.1)、首(0.2)、歌(0.3)、怎(0.4)、么(0.5)、样(0.6)

其中，括号前面的文字为词汇，括号内的数字为该词汇的时间信息，单位为ms。也就是说，“这”对应的时间信息为0.1ms，“首”对应的时间信息为0.2ms，“歌”对应的时间信息为0.3ms，“怎”对应的时间信息为0.4ms，“么”对应的时间信息为0.5ms，“样”对应的时间信息为0.6ms。

可以理解的，各词汇的时间信息与用户的语速有关，不同的用户说同一句话时，识别到的各词汇对应的时间信息可能是不同的。上述举例中的时间信息仅为示例性说明。

S303：根据所述词汇的时间信息，对所述文本信息进行划分，得到至少一个文本片段。

虽然不同的用户说话速度快慢不同，但是同一用户在说话时，一般都会在有明显完整语义的地方有相对明显的停顿。因此，可以根据各词汇的时间信息，对文本信息进行划分，得到至少一个文本片段。示例性的，根据相邻词汇之间的时间间隔进行划分，得到文本片段。可以理解的，由于本实施例中是根据各词汇的时间信息进行划分，考虑了用户说话时的语义停顿，因此，划分得到的各文本片段具有相对完整的语义。

示例性的，假设对语音信息识别得到的文本信息如下：

今(0.1)、天(0.2)、天(0.3)、气(0.4)、怎(0.5)、么(0.6)、样(0.7)、会(1)、下(1.1)、雨(1.2)、吗(1.3)

可以看出，词汇“样”与词汇“会”之间的停顿时间相对较长，可以将“样”与“会”之间作为切分点，因此，得到的两个文本片段分别为：

“今天天气怎么样”、“会下雨吗”。

需要说明的是，根据词汇对应的时间信息，对文本信息进行划分得到文本片段，可以有多种实现方式，本实施例对此不作具体限定。

需要说明的是，上述举例中是以每个文字作为词汇进行示例，实际应用中，还可以将两字或者多字词语作为词汇，本发明实施例对此不作具体限定。

S304：根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息。

本实施例中，通过步骤S303将文本信息划分为多个文本片段后，可以对各个文本片段分别进行语义识别处理，得到语义识别结果。进一步的，可以根据各文本片段的语义识别结果，得到语音信息的有效语义信息。

一种可选的实施方式中，利用自然语言处理NLP模型对各文本片段的语义进行识别处理。具体的，针对待识别的当前文本片段，将当前文本片段输入NLP模型中，获取当前文本片段的语义识别结果。

NLP模型一般一次可以处理一定长度的文本片段，作为一种可能的实现方式，NLP模型对输入的文本片段进行分词处理，得到关键词序列，然后根据关键词序列获取具有上下文语义关系的词向量，然后将词向量输入分类模型中进行特征提取，分类模型根据提取的特征输出该文本片段的所属的语义类别的概率。

可选的，NLP模型中的分类模型可以为深度神经网络模型。

本实施例提供的信息处理方法中，获取输入智能设备的语音信息；对所述语音信息进行语音识别处理，得到所述语音信息对应的文本信息，所述文本信息包括至少一个词汇以及各所述词汇的时间信息，所述时间信息用于指示所述智能设备采集到所述词汇对应的语音帧的时间；根据所述词汇的时间信息，对所述文本信息进行划分，得到至少一个文本片段；根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息；由此可见，本实施例对语音信息不进行切分而直接识别为文本信息，再根据文本信息中的各词汇的时间信息对文本信息进行切分，然后针对文本片段进行语义识别，得到语音信息的有效语义信息。由于根据各词汇的时间信息对文本信息进行切分的过程考虑了自然语言理解，使得对文本信息的切分结果更加准确，进而根据切分后的文本片段的语义识别结果确定语音信息的有效语义信息，能够提高语义识别的准确率。

上述实施例中，步骤S303中根据各词汇的时间信息，对文本信息进行划分，得到至少一个文本片段，具体可以有多种实施方式，下面结合一种可选的实施方式为例进行描述。

一种可选的实施方式中，根据各所述词汇的时间信息，获取所述文本信息中相邻两个词汇之间的时间间隔，若所述时间间隔满足设定条件，则确定在所述两个词汇之间设置切分点，根据所确定的切分点，对所述文本信息进行切分，得到所述至少一个文本片段。

其中，时间间隔满足设定条件，可以具体是时间间隔大于或等于目标阈值。

一种可能的实施方式中，目标阈值可以是根据经验设置的一个时间阈值，例如：0.3ms。

另一种可能的实施方式中，由于不同用户说话的语速不同，因此，可以针对不同语速的用户的语音信息，采用不同的时间阈值。具体的，可以根据一个或者多个时间间隔，确定语音信息的语速等级，根据语速等级与时间阈值之间的对应关系，将与所述语音信息的语速等级对应的时间阈值作为所述目标阈值。然后通过比较相邻词汇之间的时间间隔与该目标阈值之间的关系，确定切分点的位置。

示例性的，按照用户语速的快慢，划分为4个语速等级。语速等级1对应的时间阈值为0.2ms，语速等级2对应的时间阈值为0.3ms，语速等级3对应的时间阈值为0.4ms，语速等级4对应的时间阈值为0.5ms。实际应用中，可以先获取前面几个词汇之间的时间间隔，根据这些时间间隔确定该用户的语音信息的语速等级。例如：语音信息的语速等级为等级3，则将目标阈值设置为0.4ms。本实施例中，由于是根据语速等级确定时间间隔的比较阈值，使得对文本信息的切分更加准确。

再一种可能的实施方式中，可以针对不同的文本信息确定不同的时间阈值。具体的，根据文本信息中各相邻词汇之间的时间间隔，获取时间间隔的第一平均值，将该第一平均值作为目标阈值。然后通过比较相邻词汇之间的时间间隔与该目标阈值之间的关系，确定切分点的位置。可以理解的，该实施方式中，目标阈值为当前文本信息中所有时间间隔的平均值。

示例性的，假设文本信息中包括10个词汇，则分别计算10个词汇中任意相邻两个词汇之间的时间间隔，共得到9个时间间隔。然后计算9个时间间隔的平均值，将该平均值作为目标阈值。在确定切分点的位置时，若相邻两个词汇之间的时间间隔大于或者等于该目标阈值，则确定在这两个词汇之间设置切分点。

又一种可能的实施方式中，依次确定第一预设数量的词汇的时间间隔的第二平均值，并将所述第二平均值确定为所述第一预设数量的词汇之后的第二预设数量的词汇对应的目标阈值。

其中，第一预设数量和第二预设数量可以根据进行配置，并且第一预设数量和第二预设数量可以相同，也可以不同。

示例性的，对于每个当前词汇，计算位于当前词汇之前的第一预设数量的词汇的时间间隔的平均值，若当前词汇与下一个词汇之间的时间间隔大于该平均值时，在当前词汇与下一个词汇之间设置切分点。该实施方式中，对于任一个或一些词汇，其对应的目标阈值是根据前面预设数量的词汇的时间间隔的平均值确定的，即目标阈值是动态确定的，使得对文本信息的切分更加准确。

下面结合一个举例进行说明。假设文本信息中包括10个词汇，分别为：词汇1、词汇2、…、词汇10。示例性的，以第一预设数量和第二预设数量均为3为例，将词汇1、词汇2和词汇3对应的时间间隔的平均值作为词汇4、词汇5和词汇6对应的目标阈值；将词汇2、词汇3和词汇4对应的时间间隔的平均值作为词汇5、词汇6和词汇7对应的目标阈值；将词汇3、词汇4和词汇5对应的时间间隔的平均值作为词汇6、词汇7和词汇8对应的目标阈值；以此类推。

又一种可能的实施方式中，针对所述文本信息中的任意词汇，获取所述文本信息中位于所述词汇之前的所有词汇的时间间隔的第三平均值，将所述第三平均值作为所述词汇对应的目标阈值。

示例性的，假设文本信息中包括10个词汇，分别为：词汇1、词汇2、…、词汇10。将词汇1和词汇2的时间间隔的平均值作为词汇3对应的目标阈值，将词汇1、词汇2和词汇3的时间间隔的平均值作为词汇4对应的目标阈值；将词汇1、词汇2、词汇3和词汇4的时间间隔的平均值作为词汇5对应的目标阈值；以此类推。该实施方式中，对于任一个或一些词汇，其对应的目标阈值是根据前面所有词汇的时间间隔的平均值确定的，即目标阈值是动态确定的，使得对文本信息的切分更加准确。

图4为本发明实施例提供的信息处理方法的流程示意图二，如图4所示，本实施例的方法，包括：

S401：获取输入智能设备的语音信息。

S402：对所述语音信息进行语音识别处理，得到所述语音信息对应的文本信息，所述文本信息包括至少一个词汇以及各所述词汇的时间信息，所述时间信息用于指示所述智能设备采集到所述词汇对应的语音帧的时间。

S403：根据所述词汇的时间信息，对所述文本信息进行划分，得到至少一个文本片段。

本实施例中，S401至S403的具体实施过程与上述实施例类似，此处不再赘述。

S404：将语义完整性概率得分满足预设条件的文本片段的语义信息，作为所述语音信息的有效语义信息。

本实施例中，文本片段的语义识别结果包括：语义完整性概率得分和语义信息。具体的，在利用NLP模型进行语义识别处理时，将当前文本片段输入NLP模型中，NLP模型对该文本片段进行语义识别处理，输出该文本片段的语义信息，同时还会输出该文本片段的语义完整性概率得分。

可以理解的，语义完整性概率得分用于指示文本片段所表达的语义的完整性。可以理解的，文本片段所表达的语义越完整，则对应的语义完整性概率得分越高；文本片段所表达的语义越不完整，则对应的语义完整性概率得分越低。例如：“今天天气”的语义完整性概率得分要小于“今天天气怎么样”的语义完整性概率得分。

本实施例中，在识别得到文本片段的语义完整性概率得分和语义信息之后，将语义完整性概率得分满足预设条件的文本片段的语义信息，作为所述语音信息的有效语义信息。

一种可选的实施方式中，在识别得到语音信息的有效语义信息之后，还可以包括：

S405：根据所述有效语义信息，获取所述语音信息对应的回复信息，控制所述智能设备输出所述回复信息。

具体的，根据有效语义信息，获取语音信息对应的回复信息可以有多种实施方式。一种可选的实施方式中，可以根据有效语义信息，查询知识库获取回复信息。其中，知识库中记录了不同语义信息对应的回复信息。

另外，智能设备输出的回复信息，可以是文本形式，也可以是音频、视频、图片等多媒体信息形式，还可以是语音形式，即TTS(英文全称：Text To Speech，中文全称：从文本到语音)。可以理解的，本实施例中智能设备在输出回复信息时，可以是上述中的任一种形式，还可以是上述中至少两种形式的结合，本实施例对此不作具体限定。

需要说明的是，本实施例中对语音信息进行回复时，对语音信息的语句句式不作具体限定。示例性的，可以为陈述语句，也可以为疑问语句，还可以是感叹语句等。也就是说，本实施例不仅对疑问句式的语音信息进行回复，对其他句式的语音信息也可以回复。

本实施例中，对语音信息不进行切分而直接识别为文本信息，然后再根据文本信息中的各词汇的时间信息实现对文本信息的切分，然后针对文本片段进行语义识别，得到语音信息的有效语义信息。由于根据各词汇的时间信息对文本信息进行切分的过程考虑了自然语言理解，使得对文本信息的切分结果更加准确，进而根据切分后的文本片段的语义识别结果确定语音信息的有效语义信息，能够提高语义识别的准确率。

上述实施例中，S404将语义完整性概率得分满足预设条件的文本片段的语义信息，作为所述语音信息的有效语义信息，可以有多种具体的实施方式。下面以三种具体的实施方式为例进行描述。需要说明的是，实际应用中，还可以存在其他的实施方式，本实施例不一一列举。

第一种可能的实施方式中，针对所述至少一个文本片段，将语义完整性概率得分最高的文本片段的语义信息作为所述语音信息的有效语义信息。

该实施方式中，针对多个文本片段，获取到各个文本片段的语义完整性概率得分之后，确定出语义完整性概率得分最高的文本片段，该文本片段的语义信息是最完整的，因此，可以将该文本片段的语义信息作为语音信息的有效语义信息。

第二种可能的实施方式中，针对所述至少一个文本片段中的每个文本片段，若所述文本片段的语义完整性概率得分大于或等于预设阈值，则将所述文本片段的语义信息作为所述语音信息的有效语义信息。

该实施方式中，根据语义完整性概率得分与预设阈值之间的关系，进行下述处理。

若当前文本片段的语义完整性概率得分大于或等于预设阈值，则说明当前文本片段所表达的语义是完整的，可以将当前文本片段的语义信息作为语音信息的有效语义信息。

若当前文本片段的语义完整性概率得分小于预设阈值，则说明当前文本片段所表达的语义是不完整的，可以忽略当前文本片段，继续处理下一个文本片段。

可以理解的，上述两种实施方式在实际应用中还可以结合使用。例如：在一些场景下，使用第一种实施方式，在另一些场景下使用第二种实施方式。

下面结合图5对上述的第二种可能的实施方式进行详细说明。图5为本发明实施例提供的语义识别过程的示意图二。如图5所示，待识别的文本信息为“你看这个机器人挺好的咱们试一下吧今天天气怎么样效果真不错吧”。

结合图5，根据上述文本信息中相邻词汇之间的时间间隔，对文本信息进行划分，得到四个文本片段，分别为：

“你看这个机器人挺好的”

“咱们试一下吧”

“今天天气怎么样”

“效果不错吧”

然后将四个文本片段分别输入NLP模型中，得到各文本片段对应的语义信息(图5未示出)和语义完整性概率得分。

结合图5，将第1个文本片段“你看这个机器人挺好的”输入NLP模型后得到的语义完整性概率得分为0.2。由于第1个文本片段的语义完整性概率得分小于预设阈值(假设预设阈值为0.75)，因此认为该文本片段的语义是不完整的，将该文本片段忽略，继续下一个文本片段的识别过程。

将第2个文本片段“咱们试一下吧”输入NLP模型后得到的语义完整性得分为0.1。由于第2个文本片段的语义完整性概率得分也小于预设阈值，因此认为该文本片段的语义是不完整的，将该文本片段忽略，继续下一个文本片段的识别过程。

将第3个文本片段“今天天气怎么样”输入NLP模型后得到的语义完整性得分为0.95。由于第3个文本片段的语义完整性概率得分大于预设阈值，因此，认为该文本片段的语义是完整的，将该文本片段的语义信息作为上述待识别文本信息的有效语义信息。

然后开始对第4个文本片段进行语义识别，将第4个文本片段“效果真不错吧”输入NLP模型后得到的语义完整性得分为0.3。由于第4个文本片段的语义完整性概率得分小于预设阈值，因此认为该文本片段的语义是不完整的，将该文本片段忽略。

需要说明的是，图5所示的各文本片段的语义完整性得分和预设阈值仅为示例性的说明。

图5所示的实施方式中，当文本片段的语义完整性概率得分小于预设阈值时，则忽略该文本片段，继续下一文本片段的识别。在某些场景下，可能存在这样的情况：当前文本片段的语义完整性得分虽然较低，但是当前文本片段可以作为下一文本片段的上下文信息。也就是说，当前文本片段与下一文本片段结合起来所表达的语义是完整。

基于上述场景，本实施例的步骤S404中，还可以采用第三种可能的实施方式。具体的，在当前文本片段的语义完整性概率得分较低的情况下，可以对当前文本片段进行缓存。在对下一文本片段进行语义识别时，将缓存的文本片段与下一文本片段组合起来进行识别，以提高语义识别结果的准确率。

下面结合一个具体的实施例进行描述。图6为本发明实施例提供的信息处理方法的流程示意图三，本实施例以任意一个文本片段的处理过程为例进行描述。如图6所示，该方法包括：

S601：针对所述至少一个文本片段中的任一文本片段，获取已缓存的历史文本片段，所述历史文本片段为所述文本片段之前的语义完整性概率得分不满足所述预设条件的至少一个文本片段。

可以理解的，已缓存的历史文本片段中各文本片段的语句顺序与原始的语音信息中的语句顺序是一致的。

另外，本实施例对于历史文本片段的缓存位置不做具体限定。可以理解的，历史文本片段可以是缓存在NLP模型的缓存中，还可以是缓存在NLP模型外部的缓存中。

S602：对所述历史文本片段和所述文本片段拼接得到的新的文本片段进行语义识别处理，获取所述新的文本片段的语义识别结果。

可以理解的，新的文本片段的语句顺序与原始的语音信息中的语句顺序是一致的。

S603：若所述新的文本片段的语义完整性概率得分大于或等于预设阈值，则将所述新的文本片段的语义信息作为所述文本信息的有效语义信息，并将所述历史文本片段从缓存中删除。

S604：若所述新的文本片段的语义完整性概率得分小于预设阈值，则将所述新的文本片段作为历史文本片段存储至缓存中。

下面结合举例进行说明。假设根据相邻词汇之间的时间间隔，将文本信息划分为三个文本片段，分别为：文本片段1、文本片段2、文本片段3。首先对文本片段1进行语义识别，由于这是第1个待识别的文本片段，缓存中没有历史文本片段，因此将文本片段1输入NLP模型中得到文本片段1的语义完整性概率得分和语义信息。下面分两种情况进行说明。

情况1：文本片段1的语义完整性概率得分大于或等于预设阈值，说明文本片段1的语义是完整的，因此，将文本片段1的语义信息作为文本信息的有效语义信息。然后继续进行文本片段2的语义识别，识别过程与文本片段1类似。

情况2：文本片段1的语义完整性概率得分小于预设阈值，说明文本片段1的语义不完整，因此，将文本片段1缓存到缓存中。该情况下，在对文本片段2进行识别时，先从缓存中获取历史文本片段(即，文本片段1)，将文本片段1和文本片段2进行拼接得到新的文本片段。

然后对新的文本片段进行语义识别处理，得到新的文本片段的语义完整性概率得分和语义信息。对新的文本片段进行语义识别处理时，又分为以下两种情况进行说明。

情况3：若新的文本片段的语义完整性概率得分大于或等于预设阈值，则将新的文本片段的语义信息作为所述文本信息的有效语义信息。该情况下，由于新的文本片段的语义信息中已包含文本片段1的语义信息，因此，将文本片段1从缓存中删除。然后继续进行文本片段3的语义识别，识别过程与文本片段1类似。

情况4：若新的文本片段的语义完整性概率得分小于预设阈值，则将文本片段2也存储至缓存中，作为历史文本片段，此时历史文本片段包括文本片段1和文本片段2。该情况下，在对文本片段3进行识别时，先从缓存中获取历史文本片段(即，文本片段1和文本片段2)，将文本片段1、文本片段2和文本片段3进行拼接得到新的文本片段。然后对新的文本片段进行语义识别处理，具体处理过程与上述过程类似，此处不再赘述。

图6所示的实施方式中，通过对语义完整性概率得分较低的当前文本片段进行缓存，作为下一文本片段的上下文信息，与下一文本片段一起进行语义识别处理，进一步提高了语义识别的准确率。

图7为本发明实施例提供的信息处理装置的结构示意图，本实施例的信息处理装置可以为软件和/或硬件形式，该装置可以具体设置与服务器中，或者设置于智能设备中。

如图7所示，本实施例的信息处理装置700，包括：获取模块701、第一识别模块702、切分模块703和第二识别模块704。

其中，获取模块701，用于获取输入智能设备的语音信息；

第一识别模块702，用于对所述语音信息进行语音识别处理，得到所述语音信息对应的文本信息，所述文本信息包括至少一个词汇以及各所述词汇的时间信息，所述时间信息用于指示所述智能设备采集到所述词汇对应的语音帧的时间；

切分模块703，用于根据所述词汇的时间信息，对所述文本信息进行划分，得到至少一个文本片段；

第二识别模块704，用于根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息。

可选的，所述切分模块703具体用于：

可选的，所述切分模块703还用于：

可选的，所述语义识别结果包括：语义完整性概率得分和语义信息；所述第二识别模块704具体用于：

可选的，所述第二识别模块704具体用于：

可选的，所述第二识别模块704还用于：

控制所述智能设备输出所述回复信息。

本发明实施例提供的信息处理装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8为本发明实施例提供的电子设备的硬件结构示意图，该电子设备可以是智能设备的控制器，还可以是服务器，本发明实施例对此不作具体限定。如图8所示，本实施例的电子设备800，包括：至少一个处理器801和存储器802。其中，处理器801、存储器802通过总线803连接。

在具体实现过程中，至少一个处理器801执行所述存储器802存储的计算机执行指令，使得至少一个处理器801执行上述任一方法实施例的技术方案。

处理器801的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图8所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一方法实施例中的技术方案。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如上任一方法实施例中的技术方案。

本发明实施例还提供一种芯片，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得安装有所述芯片的电子设备执行如上任一方法实施例的技术方案。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种信息处理方法，其特征在于，包括：

获取输入智能设备的语音信息；

根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息；

所述根据所述词汇的时间信息，对所述文本信息进行划分，得到至少一个文本片段，包括：

2.根据权利要求1所述的方法，其特征在于，所述若所述时间间隔满足设定条件，则确定在所述两个词汇之间设置切分点，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述语义识别结果包括：语义完整性概率得分和语义信息；所述根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取所述语音信息的有效语义信息之后，还包括：

控制所述智能设备输出所述回复信息。

7.一种信息处理装置，其特征在于，包括：

获取模块，用于获取输入智能设备的语音信息；

第二识别模块，用于根据所述至少一个文本片段的语义识别结果，获取所述语音信息的有效语义信息；

所述切分模块具体用于：

8.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至6任一项所述的方法。