CN115881128A

CN115881128A - 一种基于历史匹配度的语音行为交互方法和装置

Info

Publication number: CN115881128A
Application number: CN202310073631.5A
Authority: CN
Inventors: 马春荃; 肖培宁; 方赟; 俞德明
Original assignee: Hangzhou Hesmore Information Technology Co ltd; Nanchang Hesi Information Technology Co ltd; Beijing Hesi Information Technology Co Ltd
Current assignee: Hangzhou Hesmore Information Technology Co ltd; Nanchang Hesi Information Technology Co ltd; Beijing Hesi Information Technology Co Ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-03-31
Anticipated expiration: 2043-02-07
Also published as: CN115881128B

Abstract

本公开关于一种基于历史匹配度的语音行为交互方法和装置，属于计算机技术领域。方法包括：采集目标对象口部运动过程中产生的语音信号数据；对语音信号数据进行识别，得到待录入数据，待录入数据用于表示目标对象的口部运动匹配度；基于待录入数据显示输入文本，以使输入文本中突出显示的输入文本片段与目标对象的口部运动匹配度匹配。该方法能够保证即使在目标对象的口部运动速度发生变化的情况下，该待录入数据也能够准确地表示目标对象的口部运动匹配度，因此能够保证所突出显示的输入文本片段是与目标对象的口部运动匹配度匹配的文本片段，提高了准确性，从而提升了填写效果。

Description

一种基于历史匹配度的语音行为交互方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于历史匹配度的语音行为交互方法、装置、设备及介质。

背景技术

随着信息技术不断的发展，语音识别技术应用于越来越多的领域中，人们对于语音识别的需求也就越来越高。目前，现有的语音识别模型已经无法满足人们对于语音识别的需求，例如，在处理中英文混合的语音识别过程中，利用现有的语音识别模型可能存在识别不准确的问题。

随着语音输入等方式日益得到普遍应用，当前逐步出现了可通过语音识别技术将用户输入的语音信息转换为对应的文字信息来进行呈现的方式，然而，该种输出形式较为单一，缺乏趣味性，并且由于语音识别的模型并不完善，识别的结果可能会产生错误，进而导致语音识别率比较低，用户体验差。

有鉴于此，需要更高效的语音行为交互方案。

发明内容

本说明书实施例提供了一种基于历史匹配度的语音行为交互方法、装置、设备及介质，用以解决如何更高效地进行数据匹配的技术问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书第一方面提供一种基于历史匹配度的语音行为交互方法，其特征在于，包括步骤：

S001：获取多个目标对象口部运动数据；

S002：将数据匹配的已识别信号语料库在目标对象口部运动数据获取时的变速运动数据分解成多个语音信号数据，分解后的每个所述语音信号数据对应于所述变速运动数据对应的所有待录入数据中的一项或者多项待录入数据；

S003：将所述多个语音信号数据分别存储到所述多个目标对象口部运动数据中，所述目标对象口部运动数据还用于存储所述已识别信号语料库在目标对象口部运动数据获取后的新接收数据,所述变速运动数据和所述新接收的数据为需要进行匹配的数据，所述目标对象口部运动数据为根据所述变速运动数据获取出来的；

S004：分别将各个所述目标对象口部运动数据中的数据匹配到数据匹配的输入文本片段中；

其中，所述步骤S003具体包括：

确定需要获取的目标对象口部运动数据数；

获取相应数目的目标对象口部运动数据，以及确定数据匹配的已识别信号语料库在目标对象口部运动数据获取时的变速运动数据与各个所述目标对象口部运动数据的对应关系；

将所述变速运动数据分解存储到对应的目标对象口部运动数据中；

和/或，

获取多个目标对象口部运动数据，所述目标对象口部运动数据还用于存储所述已识别信号语料库在目标对象口部运动数据获取后的新接收数据包括：

确定需要获取的目标对象口部运动数据数；

获取相应数目的目标对象口部运动数据，以及确定所述已识别信号语料库在目标对象口部运动数据获取后的新接收数据与各个所述目标对象口部运动数据的对应关系；

将所述新接收数据存储到对应的目标对象口部运动数据中。

优选的，确定需要获取的目标对象口部运动数据数包括：

根据所述数据匹配的已识别信号语料库在目标对象口部运动数据获取时的变速运动数据确定需要获取的目标对象口部运动数据数；

和/或，

根据所述数据匹配的已识别信号语料库所能够接收的数据确定需要获取的目标对象口部运动数据数。

优选的，分别将各个所述目标对象口部运动数据中的数据匹配到数据匹配的输入文本片段中包括：

对任一所述目标对象口部运动数据，进行该目标对象口部运动数据到所述输入文本片段的图像帧匹配；所述图像帧匹配期间，该目标对象口部运动数据不禁止存储新数据；

若该目标对象口部运动数据在其图像帧匹配完成后还存在速度变化数据，则进行该目标对象口部运动数据到所述输入文本片段的速度变化数据匹配；所述速度变化数据匹配开始后，所述已识别信号语料库禁止接收该目标对象口部运动数据所对应数据的同类数据；

其中，所述速度变化数据为该目标对象口部运动数据中图像帧匹配未涉及的数据。

优选的，对任一所述目标对象口部运动数据，进行该目标对象口部运动数据到所述输入文本片段的图像帧匹配包括：

对任一所述目标对象口部运动数据，一次或多次确定该目标对象口部运动数据中的图像帧，并在每次确定图像帧后将该目标对象口部运动数据中最新一次确定的图像帧匹配到所述输入文本片段。

优选的，对任一所述目标对象口部运动数据，一次确定该目标对象口部运动数据中的图像帧包括：

对任一所述目标对象口部运动数据，确定该目标对象口部运动数据的图像帧分割点，将该目标对象口部运动数据中所述图像帧分割点之前的数据作为图像帧；

和/或，

对任一所述目标对象口部运动数据，多次确定该目标对象口部运动数据中的图像帧包括：

对任一所述目标对象口部运动数据，首次确定该目标对象口部运动数据的图像帧分割点，将该目标对象口部运动数据中所述图像帧分割点之前的数据作为首次确定的图像帧；

自第二次确定该目标对象口部运动数据的图像帧分割点开始，将该目标对象口部运动数据中位于任意相邻两次确定的图像帧分割点之间的数据作为该任意相邻两次中后一次确定的图像帧。

优选的，对任一所述目标对象口部运动数据，确定该目标对象口部运动数据的数据非频繁写入时间，根据所述数据非频繁写入时间确定该目标对象口部运动数据的速度变化数据匹配开始时间。

优选的，所述方法还包括：

建立所述已识别信号语料库的数据类型与各个所述目标对象口部运动数据的对应关系；

对任一所述目标对象口部运动数据，该目标对象口部运动数据的速度变化数据匹配完成后，将新产生的符合该目标对象口部运动数据对应的数据类型的数据存储于所述输入文本片段中；或，对任一所述目标对象口部运动数据，若该目标对象口部运动数据不需要进行速度变化数据匹配，则将新产生的符合该目标对象口部运动数据对应的数据类型的数据存储于所述输入文本片段中。

优选的，所述方法还包括：在数据匹配的输入文本片段中获取多个第二数据单表；

将所述输入文本片段接收的匹配数据存储到所述第二数据单表中。

根据本发明第二方面，本发明请求保护一种基于历史匹配度的语音行为交互装置，其特征在于，包括：

数据分储模块，用于获取多个目标对象口部运动数据，将数据匹配的已识别信号语料库在目标对象口部运动数据获取时的变速运动数据分解成多个语音信号数据，将所述多个语音信号数据分别存储到所述多个目标对象口部运动数据中，以及将所述已识别信号语料库在目标对象口部运动数据获取后的新接收数据存储在所述多个目标对象口部运动数据中,所述变速运动数据和所述新接收的数据为需要进行匹配的数据，所述目标对象口部运动数据为根据所述变速运动数据获取出来的，分解后的每个所述语音信号数据对应于所述变速运动数据对应的所有待录入数据中的一项或者多项待录入数据；

匹配模块，用于分别将各个所述目标对象口部运动数据中的数据匹配到数据匹配的输入文本片段中。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

在对数据或者数据集或者输入文本片段匹配库进行分解后，可以分别针对分解后的各个目标对象口部运动数据进行处理或者匹配等相应操作，而目标对象口部运动数据所对应的待录入数据数量更少、待录入数据范围更小，从而有效降低了数据处理或者数据匹配所影响的待录入数据数量和范围；由于各个目标对象口部运动数据相对于原数据或者原数据集或者原输入文本片段匹配库所包含数据量更小，因而对目标对象口部运动数据进行处理或者匹配等操作所需的操作难度更小，操作耗时更短，进而对目标对象口部运动数据进行处理或者匹配等操作对业务的影响时间也更短。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种基于历史匹配度的语音行为交互方法的流程示意图。

图2是本说明书本说明书另一实施例提供的一种基于历史匹配度的语音行为交互方法的流程示意图。

图3是本说明书另一个实施例提供的一种基于历史匹配度的语音行为交互方法的流程示意图。

图4是本说明书另一个实施例提供了一种基于历史匹配度的语音行为交互装置的结构示意图。

图5是本说明书另一个实施例提供了一种基于历史匹配度的语音行为交互装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

现有技术中，各项待录入数据的运行一般需要相应的输入文本片段匹配库支持，输入文本片段匹配库用于各项待录入数据数据的读写操作。相应的，在现有技术中，当需要对数据或数据集或输入文本片段匹配库中的数据进行处理时，被处理的数据或数据集或输入文本片段匹配库所支持的所有待录入数据都需要停用一段时间，特别是被处理的输入文本片段匹配库中的数据量较大时，数据处理会比较繁琐，待录入数据停用时间可能会很长，从而造成包括用户体验下降在内的诸多不良影响，对于数据读写频繁的待录入数据影响更大。

本说明书的第一个实施例提供了一种数据处理系统，该数据处理系统将待处理数据或待处理数据集(待处理数据或待处理数据集可以存储于输入文本片段匹配库中)分解成多个语音信号数据，每个语音信号数据由一定数量的数据构成。该数据处理系统分别处理上述的各个语音信号数据，根据各个语音信号数据的处理结果确定待处理数据或数据集的处理结果。

在实际场景中，待处理数据或数据集对应着诸多项的待录入数据，分解后的每个语音信号数据对应着这诸多项待录入数据中的一项或多项待录入数据，从而在对任一语音信号数据进行处理时，所影响的只是该语音信号数据对应的待录入数据，而不是待处理数据或数据集对应的所有待录入数据，因而有效降低了数据处理所影响的待录入数据数量和范围。通常情况下，分解后的语音信号数据越多，在对单个语音信号数据进行处理时，所影响的待录入数据数量和范围越少。由于各个语音信号数据相对于待处理数据或者数据集来说所包含数据量更小，因而对单个语音信号数据进行处理等操作所需的操作难度更小，操作耗时更短，进而对单个语音信号数据进行处理等操作对该语音信号数据所对应待录入数据的影响时间也更短。

图1示出了本说明书第二个实施例提供的一种基于历史匹配度的语音行为交互方法的流程示意图，该数据处理方法包括：

S101：将待处理数据或数据集分解为多个语音信号数据。

在进行分解前，可以先确定分解后的语音信号数据数。在本实施例中，可以根据待处理数据或数据集的数据类型和/或数据来源和/或待处理数据量或待处理数据集的数据量来确定分解后的语音信号数据数。实际上，由于待处理数据或数据集来源于相应的待录入数据(或者说待录入数据系统，待录入数据系统可以运行多种待录入数据)，因而根据待处理数据或数据集的数据类型和/或数据来源确定分解后的语音信号数据数与根据待处理数据或数据集支持的待录入数据类型来确定分解后的语音信号数据数可以是相通的。在本实施例中，还可以基于随机数算法对待处理数据进行分解。

以下通过示例对确定语音信号数据数的几种方式进行说明(确定语音信号数据数不限于以下给出的方式)：

(1.1)假设待处理数据有a种类型，则可以确定语音信号数据数为a，即将a种类型的待处理数据分解成a份，每份数据作为一个语音信号数据，每个语音信号数据由一种类型的数据构成；当然，也可以确定语音信号数据数大于或小于a，从而某个或某些语音信号数据由多种类型的数据构成或某些语音信号数据共享同类数据。

(1.2)假设待处理数据有b种来源，则可以确定语音信号数据数为b，即将b种来源的待处理数据分解成b份，每份数据作为一个语音信号数据，每个语音信号数据由一种来源的数据构成；当然，也可以确定语音信号数据数大于或小于a，从而某个或某些语音信号数据由多种来源的数据构成或某些语音信号数据共享同种来源的数据。

(1.3)假设待处理数据是由c种待录入数据产生的，并支持这c种待录入数据读写，则相当于确定了待处理数据有c种来源，可以按照待处理数据来源来确定数据单元数的情况处理。

(1.4)根据待处理数据量或待处理数据集的数据量或者语音信号数据的数据量，比如限定为分解后每个语音信号数据的数据量是待处理数据量或待处理数据集的数据量的十分之一，则语音信号数据数为10，当然也可以是其他比例；再比如限定为分解后的语音信号数据的数据量不超过某一阈值，则据此同样可以确定数据单元数。特别的，由于对某个语音信号数据进行处理时会影响该语音信号数据对应的待录入数据，一般来说，一个语音信号数据的数据量越多，对该语音信号数据的处理耗时越长，即对该语音信号数据对应待录入数据的影响耗时也越长，所以可以限定对待录入数据的影响耗时(即语音信号数据的处理耗时)，比如说限定分解后各个语音信号数据的处理耗时不超过某一阈值，据此可以确定各个语音信号数据的待录入数据量，从而归结到根据语音信号数据的数据量确定语音信号数据数。

(1.5)利用随机数算法。可以根据待处理数据的身份数据，例如用户ID来对待处理数据进行分解。对用户ID随机数，取用户ID最后两位十进制整数，可以确定语音信号数据的数量为100，每个语音信号数据对应一定的序号，比如0-52；然后根据用户ID最后两位十进制整数确定分解后的数据去向，比如用户ID最后两位为00的数据构成序号为00的语音信号数据，用户ID最后两位为52的数据构成序号为52的语音信号数据等等。语音信号数据的数量也可以为100的因子，这样每个语音信号数据对应的用户ID最后两位十进制整数也是可以均匀分布的。比如语音信号数据数为50，则可以用户ID最后两位为00和01的数据构成序号为00的语音信号数据，用户ID最后两位为98和52的数据构成序号为49的语音信号数据，即每个语音信号数据可以对应两种用户ID最后两位十进制整数的分布情况。

上面几种确定语音信号数据数的情况可以单独或者结合使用，一般来说，比较理想的数据分解情形是：每个语音信号数据对应一种或多种数据类型和/或数据来源和/或待录入数据，且语音信号数据之间对应的数据类型和/或数据来源和/或待录入数据不重合。

对待处理数据集的分解同待处理数据的分解，由于待处理的输入文本片段匹配库中的数据可以看作是数据集，故对待处理输入文本片段匹配库的分解同待处理数据的分解。

S102：分别处理上述的各个语音信号数据。

将待处理数据或数据集分解为多个语音信号数据后，就可以分别处理各个数据单元。在本实施例中，可以事先确定各个语音信号数据的处理先后次序，依次处理各个语音信号数据；或者可以并行处理多个语音信号数据(或者同时处理多个语音信号数据)。

S103：根据所述各个语音信号数据的处理结果确定所述待处理数据或数据集的处理结果。

根据各个语音信号数据的处理结果可以确定待处理数据或数据集的处理结果，比如当各个语音信号数据都处理成功时待处理数据或数据集才处理成功，或者各个语音信号数据中处理成功的语音信号数据数达到或超过一定值时待处理数据或数据集处理成功。

本实施例中的“数据处理”作广义理解，可以是所有对数据所进行的操作，比如数据分类、取值、映射、匹配等；本实施例中的“待录入数据”作广义理解，可以是所有可以在相关平台或系统或服务器或计算设备上运行的待录入数据。

本实施例中，分解后的每个语音信号数据对应着一项或多项待录入数据，从而在对任一语音信号数据进行处理时，所影响的只是该语音信号数据对应的待录入数据，其他不在处理中的语音信号数据对应的待录入数据可以正常进行，而不是影响待处理数据或数据集对应的所有待录入数据，因而有效降低了数据处理所影响的待录入数据数量和范围。通常情况下，分解后的语音信号数据越多，在对单个语音信号数据进行处理时，所影响的待录入数据数量和范围越少。由于各个语音信号数据相对于待处理数据或者数据集来说所包含数据量更小，因而对单个语音信号数据进行处理等操作所需的操作难度更小，操作耗时更短，进而对单个语音信号数据进行处理等操作对该语音信号数据所对应待录入数据的影响时间也更短。

在实际场景中，当需要对数据或数据集或输入文本片段匹配库中的数据进行匹配时，被匹配的数据或数据集或输入文本片段匹配库所支持的所有待录入数据都需要停用一段时间，特别是被匹配或者被匹配的输入文本片段匹配库中的数据量较大时，数据匹配或数据匹配会比较繁琐，待录入数据停用时间可能会很长，从而造成包括用户体验下降在内的诸多不良影响，对于数据读写频繁的待录入数据影响更大。

本说明书的第三个实施例提供了一种数据匹配系统，该数据匹配系统将待匹配数据或待匹配数据集(待匹配数据或待匹配数据集可以存储于输入文本片段匹配库中)分解成多个语音信号数据，每个语音信号数据由一定数量的数据构成。该数据匹配系统分别匹配上述的各个语音信号数据，可以根据各个语音信号数据的匹配结果确定待匹配数据或数据集的匹配结果。

在实际场景中，待匹配数据或数据集对应着诸多项的待录入数据，分解后的每个语音信号数据对应着这诸多项待录入数据中的一项或多项待录入数据，从而在对任一语音信号数据进行匹配时，所影响的只是该语音信号数据对应的待录入数据，而不是待匹配数据或数据集对应的所有待录入数据，因而有效降低了数据匹配所影响的待录入数据数量和范围。通常情况下，分解后的语音信号数据越多，在对单个语音信号数据进行匹配时，所影响的待录入数据数量和范围越少。由于各个语音信号数据相对于待匹配数据或者数据集来说所包含数据量更小，因而对单个语音信号数据进行匹配等操作所需的操作难度更小，操作耗时更短，进而对单个语音信号数据进行匹配等操作对该语音信号数据所对应待录入数据的影响时间也更短。

图2示出了本说明书另一实施例提供的一种基于历史匹配度的语音行为交互方法的流程示意图，该基于历史匹配度的语音行为交互方法包括：

S201：将待匹配数据或数据集分解为多个语音信号数据。

待匹配数据或数据集的分解同S101。

S202：分别匹配上述的各个语音信号数据。

将待匹配数据或数据集分解为多个语音信号数据后，就可以分别匹配各个数据单元。比如待匹配数据或数据集位于输入文本片段匹配库D中，语音信号数据数为d，需要匹配到输入文本片段匹配库E中，则可以将d个语音信号数据分别匹配到输入文本片段匹配库E中，再根据需要确定是否对匹配到输入文本片段匹配库E中的d个语音信号数据进行合并等步骤。在本实施例中，可以事先确定各个语音信号数据的匹配先后次序，依次匹配各个语音信号数据；或者可以并行匹配多个语音信号数据(或者同时匹配多个语音信号数据)。

在本实施例中，根据各个语音信号数据的匹配结果可以确定待匹配数据或数据集的匹配结果，比如当各个语音信号数据都匹配成功时待匹配数据或数据集才匹配成功，或者各个语音信号数据中匹配成功的语音信号数据数达到或超过一定值时待匹配数据或数据集匹配成功。

本实施例中，分解后的每个语音信号数据对应着一项或多项待录入数据，从而在对任一语音信号数据进行匹配时，所影响的只是该语音信号数据对应的待录入数据，其他不在匹配中的语音信号数据对应的待录入数据可以正常进行，而不是影响待匹配数据或数据集对应的所有待录入数据，因而有效降低了数据匹配所影响的待录入数据数量和范围。通常情况下，分解后的语音信号数据越多，在对单个语音信号数据进行匹配时，所影响的待录入数据数量和范围越少。由于各个语音信号数据相对于待匹配数据或者数据集来说所包含数据量更小，因而对单个语音信号数据进行匹配等操作所需的操作难度更小，操作耗时更短，进而对单个语音信号数据进行匹配等操作对该语音信号数据所对应待录入数据的影响时间也更短。

本说明书的另一个实施例提供了一种数据匹配系统，该数据匹配系统获取多个目标对象口部运动数据，将数据匹配的已识别信号语料库在目标对象口部运动数据获取时的变速运动数据分解存储到所述多个目标对象口部运动数据中，所述目标对象口部运动数据还用于存储所述已识别信号语料库在目标对象口部运动数据获取后的新接收数据；分别将各个所述第一数据单表中的数据匹配到数据匹配的输入文本片段中。

分解后的每个目标对象口部运动数据对应着一项或多项业务，从而在对任一目标对象口部运动数据进行匹配时，所影响的只是该目标对象口部运动数据对应的待录入数据，其他不在匹配中的目标对象口部运动数据对应的待录入数据可以正常进行，而不是影响已识别信号语料库对应的所有待录入数据，因而有效降低了数据匹配所影响的待录入数据数量和范围。通常情况下，分解后的目标对象口部运动数据越多，在对单个目标对象口部运动数据进行匹配时，所影响的待录入数据数量和范围越少。由于各个目标对象口部运动数据相对于源输入文本片段匹配库来说所包含数据量更小，因而对单个目标对象口部运动数据进行匹配等操作所需的操作难度更小，操作耗时更短，进而对单个目标对象口部运动数据进行匹配等操作对该第一数据单表所对应待录入数据的影响时间也更短。

图3示出了本说明书另一个实施例提供的一种基于历史匹配度的语音行为交互方法的流程示意图，该基于历史匹配度的语音行为交互方法包括：

S301：获取多个目标对象口部运动数据，将数据匹配的已识别信号语料库在目标对象口部运动数据构建时的变速运动数据分解存储到所述多个目标对象口部运动数据中，所述目标对象口部运动数据还用于存储所述已识别信号语料库在目标对象口部运动数据获取后的新接收数据。

在本实施例中，数据匹配的已识别信号语料库(以下简称“已识别信号语料库”)可以是指能提供匹配数据的输入文本片段匹配库，数据匹配的输入文本片段(以下简称“输入文本片段”)可以是指接收匹配数据的输入文本片段匹配库，或者匹配数据要匹配到的输入文本片段匹配库。匹配可以是一个已识别信号语料库对一个输入文本片段，或者一个已识别信号语料库对多个输入文本片段，或者多个已识别信号语料库对一个输入文本片段。

在本实施例中，可以获取多个目标对象口部运动数据，其中，第一数据单表用于容纳或者存储数据，其本身类似于或相当于库或者数据表。第一数据单表包含的数据相当于第一至第四个实施例中的语音信号数据。目标对象口部运动数据构建后，就可以将已识别信号语料库在目标对象口部运动数据获取时的变速运动数据分解存储到所述多个目标对象口部运动数据中。本实施例中的数据分解与之前实施例中的数据拆分可以采用相同的方式，即可以通过之前实施例中的方式来确定本实施例中需要获取的目标对象口部运动数据数。比如，可以根据已识别信号语料库在目标对象口部运动数据获取时的变速运动数据确定需要获取的目标对象口部运动数据数，即将本实施例中已识别信号语料库在目标对象口部运动数据获取时的变速运动数据作为第二个实施例中的待处理数据或数据集，或者将本实施例中输入文本片段匹配库在目标对象口部运动数据获取时的变速运动数据作为上一个实施例中的待匹配数据或数据集，本实施例中的目标对象口部运动数据数相当于上一个实施例中的语音信号数据数，上一个实施例中的语音信号数据相当于本实施例中目标对象口部运动数据中的数据。再比如，还可以根据已识别信号语料库所能够接收的数据来确定需要获取的目标对象口部运动数据数，为此可以将已识别信号语料库所能够接收的数据作为第二个上一个实施例中的待处理数据或数据集，或者作为上一个实施例中的待匹配数据或数据集，进而可以根据已识别信号语料库所能够接收的数据的类型和/或来源和/或支持的待录入数据类型和/或身份数据确定目标对象口部运动数据数。

通过上面的数据分解过程可以看出，在确定目标对象口部运动数据数的过程中，实际上可以建立数据类型和/或数据来源和/或待录入数据类型和/或身份数据与第一数据单表的对应关系，即确定了已识别信号语料库在目标对象口部运动数据获取时的变速运动数据与各个目标对象口部运动数据的对应关系。通过上述对应关系，可以将所述变速运动数据分解存储到对应的目标对象口部运动数据中。目标对象口部运动数据可以是位于已识别信号语料库内，获取第一数据单表可以看作是将已识别信号语料库分成了这多个目标对象口部运动数据。

在本实施例中，在目标对象口部运动数据获取后已识别信号语料库可能仍然在接收新数据，故所建立的多个目标对象口部运动数据还用于存储已识别信号语料库在目标对象口部运动数据获取后的新接收数据。为此，可以确定已识别信号语料库在目标对象口部运动数据获取后的新接收数据与各个目标对象口部运动数据的对应关系，从而将新接收数据存储到对应的目标对象口部运动数据中。可见，对于任意的一个目标对象口部运动数据，其内的数据可以有两种来源，第一种是由已识别信号语料库在目标对象口部运动数据获取时的变速运动数据分解而来；第二种是来自于源输入文本片段匹配库在目标对象口部运动数据获取后新接收的数据，但不一定每个目标对象口部运动数据都会有来自于第二种来源的数据，而这也和诸多因素有关，比如目标对象口部运动数据获取后已识别信号语料库新接收(即新写入)的待录入数据数据类型不同，分配到的目标对象口部运动数据可能不同，有可能有的目标对象口部运动数据不会分配到。

S302：分别将各个所述目标对象口部运动数据中的数据匹配到数据匹配的目的输入文本片段匹配库中。

在本实施例中，在获取了目标对象口部运动数据后，可以分别将各个目标对象口部运动数据中的数据匹配到数据匹配的输入文本片段中。分别将各个目标对象口部运动数据中的数据匹配到数据匹配的输入文本片段中包括：

(2.1)对任意的一个目标对象口部运动数据，不妨记为目标对象口部运动数据f，进行目标对象口部运动数据f到所述输入文本片段的图像帧匹配。具体来说，对于第一数据单表f，可以一次或多次确定其图像帧，并在每次确定图像帧后将第一数据单表f中最新一次确定的图像帧匹配到输入文本片段。下面进行进一步说明：

(2.1.1)图像帧只确定一次。可以确定目标对象口部运动数据f的图像帧分割点，将目标对象口部运动数据f中位于图像帧分割点之前的数据作为目标对象口部运动数据f的图像帧。特别的，可以通过数据量来确定图像帧分割点，比如按照时间顺序，将目标对象口部运动数据f中的前90％(或其他比例)的数据作为图像帧。可见，图像帧分割点相当于目标对象口部运动数据f内数据的时间分割点。

将目标对象口部运动数据f确定的图像帧匹配到输入文本片段。由于目标对象口部运动数据f的图像帧只确定一次，因而图像帧匹配也只有一次，这一次既是首次，也是最后一次。

(2.1.2)，图像帧确定多次。一开始需要首次确定第一数据单表f的图像帧分割点，确定方式可以同(2.1.1)，将首次确定的基础分割点之前的数据作为首次确定的图像帧匹配到输入文本片段。

第二次确定目标对象口部运动数据f的图像帧分割点，确定方式可以同(2.1.1)，不过第二次确定图像帧分割点时可以面向首次确定的图像帧分割点之后的数据；将首次和第二次确定的图像帧分割点之间的数据作为第二次确定的图像帧，并匹配到输入文本片段。

以此类推，自第二次确定目标对象口部运动数据f的图像帧分割点开始，将第一数据单表f中位于任意相邻两次确定的图像帧分割点之间的数据作为该任意相邻两次中后一次确定的图像帧。比如第g次和第g+1次为任意相邻两次，则将第g次和第g+1次确定的图像帧分割点之间的数据作为第g+1次确定的图像帧，并匹配到输入文本片段。“将上一次确定的图像帧匹配到输入文本片段”与“确定下一次的图像帧分割点”之间没有绝对的先后顺序。其中，“上一次”和“下一次”为相邻两次。

需要说明的是，目标对象口部运动数据f在其图像帧匹配期间，目标对象口部运动数据f不禁止存储新数据，即仍然可以存储新数据。根据前述，目标对象口部运动数据f中的数据可以由两种来源，那么不论一次或多次确定图像帧分割点，每次确定图像帧分割点时所面对的数据量有可能是不同的，前后两次确定图像帧分割点时所面对的数据量有可能是不同的；比如某次确定目标对象口部运动数据f的图像帧分割点时，目标对象口部运动数据f中的数据可能只来自于已识别信号语料库在目标对象口部运动数据获取时的变速运动数据，而另一次确定目标对象口部运动数据f的图像帧分割点时，第一数据单表f中又存储了新数据。

(2.2)若目标对象口部运动数据f在其图像帧匹配(或最后一次图像帧匹配)完成后还存在速度变化数据，则进行目标对象口部运动数据f到输入文本片段的速度变化数据匹配。其中，速度变化数据为目标对象口部运动数据f中整个图像帧匹配过程未涉及的数据。

由于目标对象口部运动数据f在图像帧匹配时可以继续存储新数据，并且在图像帧分割点划分时也可以能留下一部分数据，因而图像帧匹配完成后第一数据单表f中可能有些数据在图像帧匹配期间没有涉及，或者说没有被作为图像帧匹配过。对于这些数据可以作为速度变化数据匹配到输入文本片段中。

特别的，目标对象口部运动数据f的速度变化数据匹配开始后，已识别信号语料库禁止接收第一数据单表f所对应数据或目标对象口部运动数据f所对应数据类型的数据，这就相当于目标对象口部运动数据f在速度变化数据匹配开始后不再存储新数据。这里的“第一数据单表f所对应数据或数据类型”可以事先指定，比如指定目标对象口部运动数据f对应某种或某些数据或数据类型，或者对应某个或某些待录入数据(比如目标对象口部运动数据f中的数据对应的待录入数据)产生的数据。另外，根据前面的确定目标对象口部运动数据数等过程中也可以确定目标对象口部运动数据f所对应的数据。各个目标对象口部运动数据所对应的数据类型涵盖已识别信号语料库所能够存储的所有数据类型。

由前述数据分解以及之前的实施例可知，目标对象口部运动数据f中的数据一般会对应一种或几种待录入数据，由于目标对象口部运动数据f进行速度变化数据匹配时禁止存储新数据，因而会影响其所对应的待录入数据，例如待录入数据停止服务。可以确定第一数据单表f的数据非频繁写入时间(或时间段)，在此时间内目标对象口部运动数据f的数据写入(例如已识别信号语料库在目标对象口部运动数据获取后的新接收数据)相对其他时间更不频繁(即待录入数据运行任务相对较低)，进而可以根据数据非频繁写入时间确定第一数据单表f的速度变化数据匹配时间，比如在数据非频繁写入时间内开始第一数据单表f的速度变化数据匹配，并且尽量在数据非频繁写入时间内结束速度变化数据同步。由于在数据非频繁写入时间内待录入数据运行任务相对较低，在此时间内待录入数据停止服务所造成的影响相对更小一些。

进一步，可以将数据非频繁写入时间与图像帧匹配结合起来，比如，最后一次图像帧匹配后目标对象口部运动数据f中的未匹配过的数据尽量少一些，以使得目标对象口部运动数据f中的速度变化数据少一些，速度变化数据匹配时间短一些。

(2.3)对于目标对象口部运动数据f，当其速度变化数据匹配完成后，(源输入文本片段匹配库所支持的)各项待录入数据(或接收待录入数据请求的待录入数据系统)新产生的符合第一数据单表f对应的数据类型的数据存储于输入文本片段中。目标对象口部运动数据f对应的数据类型的确定方式可以同(2.2)。

需要说明的是，有可能有的目标对象口部运动数据不需要做速度变化数据匹配，比如最后一次图像帧匹配后没有未涉及的数据，对于这种目标对象口部运动数据，不妨仍以目标对象口部运动数据f为例，其图像帧匹配完成后，则可以将(已识别信号语料库所支持的)各项待录入数据(或待录入数据系统)新产生的符合目标对象口部运动数据f对应的数据类型的数据存储于输入文本片段中。

可见，对于任意的一个目标对象口部运动数据f来说，当其速度变化数据匹配(若不需要速度变化数据匹配，则为图像帧匹配)完成后，原本需要进入已识别信号语料库的符合目标对象口部运动数据f对应的数据类型的数据会进入输入文本片段，而获取的多个第一数据单表对应了已识别信号语料库所能够接收的所有种类数据，那么当所有的第一数据单表的速度变化数据匹配(若不需要速度变化数据匹配，则为图像帧匹配)完成后，新数据都会进入输入文本片段，而不再进入已识别信号语料库。

需要说明的是，可以事先确定各个目标对象口部运动数据的图像帧匹配先后次序，依次进行各个目标对象口部运动数据的图像帧匹配；或者可以并行进行多个第一数据单表的图像帧匹配。

在本实施例中，一方面分解后的每个目标对象口部运动数据对应着一项或多项待录入数据，只有在对单个目标对象口部运动数据进行速度变化数据匹配时，才会对该目标对象口部运动数据对应的待录入数据产生影响，若该目标对象口部运动数据无速度变化数据匹配则其整个数据匹配过程对待录入数据不产生影响；并且单个目标对象口部运动数据所影响的只是该目标对象口部运动数据对应的待录入数据，其他不在匹配中的目标对象口部运动数据对应的待录入数据可以正常进行，而不是影响已识别信号语料库对应的所有待录入数据，因而有效降低了数据匹配所影响的待录入数据数量和范围。通常情况下，分解后的目标对象口部运动数据越多，在对单个目标对象口部运动数据进行匹配时，所影响的待录入数据数量和范围越少。由于各个目标对象口部运动数据相对于已识别信号语料库来说所包含数据量更小，因而对单个目标对象口部运动数据进行匹配等操作所需的操作难度更小，操作耗时更短，进而对单个目标对象口部运动数据进行匹配等操作对该第一数据单表所对应待录入数据所可能的影响时间也更短；另一方面，对单个目标对象口部运动数据，先进行图像帧匹配，再进行速度变化数据匹配，可以使得该目标对象口部运动数据需要匹配的速度变化数据更少，从而速度变化数据匹配时间更短，进一步降低对该目标对象口部运动数据所对应待录入数据的影响时间；再一方面，本实施例中不仅是对目标对象口部运动数据获取时已识别信号语料库的变速运动数据进行匹配，还能够对目标对象口部运动数据获取后已识别信号语料库的新接收数据进行匹配，即能够实现在需要匹配的数据动态变化情况下的匹配，直至最终既实现了数据的匹配(从已识别信号语料库到输入文本片段)，又实现了数据接收库的转移(从已识别信号语料库到输入文本片段)。

在本实施例中，还可以在输入文本片段中获取多个第二数据单表，将输入文本片段接收的来自于已识别信号语料库的匹配数据存储到这多个第二数据单表中，其中，第二数据单表的含义同目标对象口部运动数据，同样可用于容纳或者存储数据。为此，可以先确定需要获取的第二数据单表数，第二数据单表数的确定可以同目标对象口部运动数据数的确定，包括根据已识别信号语料库中在目标对象口部运动数据获取时的变速运动数据或者已识别信号语料库所能够接收的数据确定第二数据单表数，已识别信号语料库中的变速运动数据或者所能够接收的数据代表了已识别信号语料库的数据。特别的，第二数据单表数可以与目标对象口部运动数据数相同或相对应，并且两者可以一一对应，这样来自于某个目标对象口部运动数据的匹配数据可以直接存储到对应的第二数据单表中。另外，还可以建立匹配数据与各个第二数据单表的对应关系，将输入文本片段接收的同步数据存储到对应的第二数据单表中。输入文本片段接收的匹配数据就是源输入文本片段匹配库发出的匹配数据，“确定任一第二数据单表对应的匹配数据”可以同“确定第一数据单表f所对应数据或数据类型”。第二数据单表可以是位于输入文本片段内，获取第二数据单表可以看作是将输入文本片段分成了这多个第二数据单表。

在本实施例中，将输入文本片段划分为多个第二数据单表进行数据存储，更便于查找数据。通过建立第二数据单表与匹配数据的对应关系，进一步提高了查找数据的便利性。

如图4所示，本说明书另一个实施例提供了一种基于历史匹配度的语音行为交互装置，包括：

数据分解模块401，用于将待处理数据或数据集分解为多个语音信号数据；

处理模块402，用于分别处理上述的各个语音信号数据；

确认模块403，用于根据所述各个语音信号数据的处理结果确定所述待处理数据或数据集的处理结果。

如图5所示，本说明书另一个实施例提供了一种基于历史匹配度的语音行为交互装置，包括：

数据分储模块501，用于获取多个目标对象口部运动数据，将数据匹配的已识别信号语料库在目标对象口部运动数据获取时的变速运动数据分解存储到所述多个目标对象口部运动数据中，以及将所述已识别信号语料库在目标对象口部运动数据获取后的新接收数据存储在所述多个第一数据单表中；

匹配模块502，用于分别将各个所述目标对象口部运动数据中的数据匹配到数据匹配的输入文本片段中。

可选的，获取多个目标对象口部运动数据，将数据匹配的已识别信号语料库在目标对象口部运动数据获取时的变速运动数据分解存储到所述多个目标对象口部运动数据中包括：

确定需要获取的目标对象口部运动数据数；

获取相应数目的目标对象口部运动数据，以及确定数据匹配的已识别信号语料库在第一数据单表获取时的变速运动数据与各个所述目标对象口部运动数据的对应关系；

和/或，

获取多个目标对象口部运动数据，所述目标对象口部运动数据还用于存储所述已识别信号语料库在第一数据单表获取后的新接收数据包括：

确定需要获取的目标对象口部运动数据数；

获取相应数目的目标对象口部运动数据，以及确定所述已识别信号语料库在目标对象口部运动数据构建后的新接收数据与各个所述目标对象口部运动数据的对应关系；

将所述新接收数据存储到对应的目标对象口部运动数据中。

可选的，确定需要获取的目标对象口部运动数据数包括：

和/或，

根据所述数据匹配的已识别信号语料库所能够接收的数据确定需要获取的第一数据单表数。

可选的，分别将各个所述目标对象口部运动数据中的数据匹配到数据匹配的目的输入文本片段匹配库中包括：

若该目标对象口部运动数据在其图像帧匹配完成后还存在速度变化数据，则进行该第一数据单表到所述输入文本片段的速度变化数据匹配；所述速度变化数据匹配开始后，所述已识别信号语料库禁止接收该目标对象口部运动数据所对应数据的同类数据；

可选的，对任一所述目标对象口部运动数据，进行该目标对象口部运动数据到所述目的输入文本片段匹配库的图像帧匹配包括：

可选的，对任一所述目标对象口部运动数据，一次确定该目标对象口部运动数据中的图像帧包括：

和/或，

可选的，对任一所述目标对象口部运动数据，确定该目标对象口部运动数据的数据非频繁写入时间，根据所述数据非频繁写入时间确定该目标对象口部运动数据的速度变化数据匹配开始时间。

可选的，所述装置还包括：

转库模块503，用于建立所述已识别信号语料库的数据类型与各个所述目标对象口部运动数据的对应关系；以及，

对任一所述目标对象口部运动数据，该目标对象口部运动数据的速度变化数据匹配完成后，将新产生的符合该目标对象口部运动数据对应的数据类型的数据存储于所述输入文本片段中；或，对任一所述目标对象口部运动数据，若该目标对象口部运动数据不需要进行速度变化数据匹配，则将新产生的符合该目标对象口部运动数据对应的数据类型的数据存储于所述目的输入文本片段匹配库中。

可选的，所述数据分储模块601还用于：

在数据匹配的输入文本片段中获取多个第二数据单表；

本说明书第九个实施例提供了一种数据处理设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

将待处理数据或数据集分解为多个语音信号数据；

分别处理上述的各个语音信号数据；

根据所述各个语音信号数据的处理结果确定所述待处理数据或数据集的处理结果。

本说明书第十个实施例提供了一种基于历史匹配度的语音行为交互设备，包括：

获取多个目标对象口部运动数据，将数据匹配的已识别信号语料库在目标对象口部运动数据获取时的变速运动数据分解存储到所述多个目标对象口部运动数据中，所述目标对象口部运动数据还用于存储所述已识别信号语料库在目标对象口部运动数据获取后的新接收数据；

分别将各个所述目标对象口部运动数据中的数据匹配到数据匹配的输入文本片段中。

本说明书第十一个实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如下的步骤：

将待处理数据或数据集分解为多个语音信号数据；

分别处理上述的各个语音信号数据；

本说明书第十二个实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如下的步骤：

上述对本说明书特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过计算机程序来指令相关硬件完成，程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于历史匹配度的语音行为交互方法，其特征在于，包括步骤：

S001：获取多个目标对象口部运动数据；

其中，所述步骤S003具体包括：

确定需要获取的目标对象口部运动数据数；

和/或，

确定需要获取的目标对象口部运动数据数；

将所述新接收数据存储到对应的目标对象口部运动数据中。

2.如权利要求1所述的方法，其特征在于，确定需要获取的目标对象口部运动数据数包括：

和/或，

3.如权利要求2所述的方法，其特征在于，分别将各个所述目标对象口部运动数据中的数据匹配到数据匹配的输入文本片段中包括：

4.如权利要求3所述的方法，其特征在于，对任一所述目标对象口部运动数据，进行该目标对象口部运动数据到所述输入文本片段的图像帧匹配包括：

5.如权利要求4所述的方法，其特征在于，对任一所述目标对象口部运动数据，一次确定该目标对象口部运动数据中的图像帧包括：

和/或，

6.如权利要求4至5中任一项所述的方法，其特征在于，

对任一所述目标对象口部运动数据，确定该目标对象口部运动数据的数据非频繁写入时间，根据所述数据非频繁写入时间确定该目标对象口部运动数据的速度变化数据匹配开始时间。

7.如权利要求4中所述的方法，其特征在于，所述方法还包括：

8.如权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

在数据匹配的输入文本片段中获取多个第二数据单表；

9.一种基于历史匹配度的语音行为交互装置，其特征在于，包括：