CN114175147A

CN114175147A - 语音处理设备、语音处理方法和记录介质

Info

Publication number: CN114175147A
Application number: CN202080055074.9A
Authority: CN
Inventors: 佐佐木和幸
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-08-02
Filing date: 2020-07-29
Publication date: 2022-03-11
Also published as: EP4009629A4; BR112022001300A2; US20220262363A1; JP7347511B2; JPWO2021024869A1; EP4009629A1; WO2021024869A1

Abstract

提供了一种语音处理设备，例如，语音处理设备能够考虑噪声相对于由人的话语所产生的语音的影响来执行处理。说话者提取单元从图像提取说话者区域。第一话语数据生成单元，基于说话者的嘴唇形状来生成指示说话者的话语内容的第一话语数据。第二话语数据生成单元，基于与说话者的话语相对应的语音信号来生成指示说话者的话语内容的第二话语数据。比较单元将第一话语数据和第二话语数据相互比较。

Description

语音处理设备、语音处理方法和记录介质

技术领域

本公开涉及一种语音处理设备、语音处理方法和记录介质，特别地涉及一种处理与话语相关联的语音的语音处理设备、语音处理方法和记录介质。

背景技术

在PTL1中公开了通过语音辨识从语音信号中再现话语内容。具体地说，在PTL1中描述了通过使用扩音器(麦克风)收集人发出的话语声音，并且从扩音器输出的语音信号被转换为文本数据(字符信息)。

在PTL2中公开了一种技术，其中说话者的嘴唇图案和语音与先前登记的数据进行核对，并且在从核对中得到匹配结果的情况下，输出特定字符信息。

作为相关文献，在PTL3中公开了一种技术，其中从包括由说话者发出的语音的运动图像中，学习嘴唇形状与音素之间的关系。

[引用列表]

[专利文献]

[PTL 1]JP 2008-160667 A

[PTL2]JP H08-009254 A

[PTL 3]JP 2011-013731 A

发明内容

技术问题

然而，在PTL 1和PTL 2每一个中描述的语音辨识技术中，没有假定考虑噪声相对于由人的话语所产生语音(说话)影响的大小。在这种情况下，例如，当话语内容从语音中再现时，很可能无法准确地再现话语内容。

考虑到上述问题，本发明的目的之一是提供一种语音处理设备等，其能够考虑噪声相对于人的话语所产生语音的影响而进行处理。

[问题解决方案]

根据本公开的一个方面的语音处理设备包括：说话者提取装置，说话者提取装置被配置为从图像提取说话者的区域；第一话语数据生成装置，第一话语数据生成装置被配置为基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据；第二话语数据生成装置，第二话语数据生成装置被配置为基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据；以及核对装置，核对装置被配置为核对第一话语数据与第二话语数据。

根据本公开的一个方面的语音处理方法包括：从图像提取说话者的区域；基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据；基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据；以及核对第一话语数据与第二话语数据。

根据本公开的一个方面的记录介质中存储有程序，该程序被配置为使计算机执行：从图像提取说话者的区域；基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据；基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据；以及核对第一话语数据与第二话语数据。

附图说明

图1是示出根据示例实施例1的语音处理设备的配置的一个示例的框图。

图2是示出根据示例实施例1的语音处理设备包括的第一话语数据生成单元的配置的一个示例的框图。

图3是示出根据示例实施例1的语音处理设备的操作流程的一个示例的流程图。

图4是示出根据示例实施例2的语音处理设备包括的第二话语数据生成单元的配置的一个示例的框图。

图5是示出根据示例实施例3的语音处理设备的第二话语数据生成单元的配置的一个示例的框图。

图6是示出根据示例实施例4的语音处理设备的配置的一个示例的框图。

图7是示出根据示例实施例4的语音处理设备的操作流程的一个示例的流程图。

图8是示出根据示例实施例5的语音处理设备的配置的一个示例的框图。

图9是示出根据示例实施例5的语音处理设备的一个修改示例的配置的一个示例的框图。

图10是示出根据示例实施例5的语音处理设备的操作流程的一个示例的流程图。

图11是示出根据示例实施例6的系统的配置的一个示例的框图。

图12是由根据示例实施例6的系统包括的显示器进行显示的一个示例。

图13是示出根据示例实施例7的信息处理设备的硬件配置的一个示例的图。

具体实施方式

[示例实施例1]

参考图1至3，将描述示例实施例1。

(语音处理设备1)

参考图1，将描述根据本示例实施例1的语音处理设备1的配置。图1是示出语音处理设备1的配置的一个示例的框图。如图1所示，语音处理设备1包括说话者提取单元20、第一话语数据生成单元30、核对单元40和第二话语数据生成单元50。根据本示例实施例1的语音处理设备1的各单元的功能(以及根据后面描述的示例实施例中每一个的语音处理设备)可以作为软件通过执行由处理器读取到存储器中的程序来实现，或者可以作为诸如智能相机的硬件来实现。

说话者提取单元20从图像提取说话者的区域。说话者提取单元20是说话者提取装置的一个示例。

具体地说，说话者提取单元20从未示出的相机等获取多条时间序列图像数据。例如，多条时间序列图像数据是某一时间段内的运动图像的图像帧。可替代地，多条时间序列图像数据可以是以预定时间间隔捕获的静止图像的多条数据。在通过智能相机实现说话者提取单元20的功能的情况下，智能相机自身捕获时间序列图像数据。

说话者提取单元20对获取的时间序列图像数据进行图像分析，由此从多条图像数据中提取说话者的区域。例如，说话者提取单元20通过使用具有已学习的人的特征(个性)的辨析器(也称为学习模型)从多条图像数据检测人的区域。所检测的人的区域是包括人的至少一部分的图像的区域。人的区域例如是在图像数据中包围人的面部部分的矩形区域。

此外，说话者提取单元20从检测到的人的区域的图像数据中识别人的嘴唇的一部分。说话者提取单元20通过例如面部认证(核对)或其他手段在多条时间序列图像数据中确定同一人。说话者提取单元20检测时间序列图像数据中的同一人的嘴唇形状的差异(即，变化)。在同一人的嘴唇形状在多条时间序列图像数据中发生变化的情况下，说话者提取单元20确定该人是说话者。

说话者提取单元20将包括被确定为说话者的人的区域(在下文中，可以存在将人的区域称为说话者的区域的情况)的图像数据(在下文中，可以存在将图像数据称为说话者的图像数据的情况)发送到第一话语数据生成单元30。

第一话语数据生成单元30基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据。第一话语数据生成单元30是第一话语数据生成装置的一个示例。第一话语数据生成单元30可以通过使用PTL3(JP 2011-13731A)中描述的技术来生成第一话语数据。可替代地，如下文所描述，第一话语数据生成单元30也可以直接从说话者的图像数据来生成第一话语数据。

图2是示出第一话语数据生成单元30的配置的一个示例的框图。如图2所示，第一话语数据生成单元30包括视素辨析单元31和视素-音素转换单元32。

视素辨析单元31从说话者提取单元20接收说话者的图像数据。视素辨析单元31基于说话者的图像数据来识别说话者的嘴唇形状。然后，视素辨析单元31从说话者的嘴唇形状中辨析视素。视素辨析单元31是视素辨析装置的一个示例。

视素是指说话者在说一个音素的瞬间嘴唇的形状。音素是一种语言中听者能够辨析的语音的最小单位。具体地说，音素示出在一种语言中辨析的元音、辅音或半元音。

视素辨析单元31将示出视素的信息发送到视素-音素转换单元32。

视素-音素转换单元32从视素辨析单元31接收示出视素的信息。视素-音素转换单元32将示出视素的信息转换为音素数据，并且生成包括一个音素或多个音素的时间序列数据的第一话语数据。视素-音素转换单元32是视素-音素转换装置的一个示例。

具体地说，参考示出视素与音素之间的对应关系的视素-音素对应表(未示出)，视素-音素转换单元32从说话者的嘴唇形状中检索与所辨析的视素相关联的音素数据，并且输出该数据。视素-音素对应表示出视素与音素之间的一一对应关系。如上文所描述，视素-音素转换单元32执行从视素到音素的转换。

视素-音素转换单元32将示出与从说话者的嘴唇形状辨析的一个或多个视素相关联的一个或多个音素(一个或多个音素的数据)以及一个或多个音素的排列顺序(即，一个或多个音素的时间序列顺序)的信息作为第一话语数据发送到核对单元40。例如，第一话语数据具有向一个音素或多个音素添加了顺序号(1，2，3，…)的数据结构。

可替代地，如上文所描述，第一话语数据生成单元30可以直接从说话者的图像数据生成第一话语数据。例如，通过使用深度学习方法，第一话语数据生成单元30可以训练模型(例如，神经网络)，以便可操作的从说话者的图像数据中辨析一个或多个相关联音素或语音信号。在这种情况下，第一话语数据生成单元30将说话者的图像数据输入到学习模型。学习模型从输入的说话者的图像数据中辨析一个或多个相关联音素或语音信号并且输出辨析结果。基于来自学习模型的输出，第一话语数据生成单元30生成第一话语数据。

在说话者提取单元20已经从时间序列图像数据中提取了多个不同说话者的区域的情况下，第一话语数据生成单元30为每一个说话者区域生成第一说话者数据。换言之，第一话语数据生成单元30生成与多个说话者相关联的多个多条第一话语数据。

第一话语数据生成单元30将生成的第一话语数据发送到图1所示的核对单元40。

基于与说话者的话语相关联的语音信号，图1所示的第二话语数据生成单元50生成示出说话者的话语内容的第二话语数据。第二话语数据生成单元50是第二话语数据生成装置的一个示例。

具体地说，首先，输入到第二话语数据生成单元50的是与说话者的话语相关联的语音信号。例如，第二话语数据生成单元50从扩音器接收与说话者的话语相关联的语音信号，该说话者的声音由扩音器收集。说话者提取单元20所接收的时间序列图像数据中包括说话者的图像，该说话者的话语声音被扩音器收集。

可替代地，第二话语数据生成单元50可以获取先前记录的语音信号。在这种情况下，在记录的时间序列图像数据中包括已经说话的说话者的图像。

第二话语数据生成单元50根据输入的语音信号来生成第二话语数据。

在第一方法中，第二话语数据生成单元50生成示出与输入的语音信号相关联的一个或多个音素以及一个或多个音素的排列顺序(即，一个或多个音素的时间序列顺序)的信息作为第二话语数据。

在第二方法中，第二话语数据生成单元50生成示出包括在输入语音信号中的一个或多个单音以及一个或多个单音的排列顺序(即，一个或多个单音的时间序列顺序)的信息作为第二话语数据。单音是构成一个音节的声音并且是语音的最小单位。通常，单音由基本频率的语音信号和基本频率的倍数的语音信号表示。

这里，上述音素的概念不同于单音的概念。音素是在一种语言中被辨析为一个单音的语音。存在一种情况，其中一些单音被辨析为相同的音素。例如，虽然[sh]和[s]是彼此不同的单音(辅音)，但由于在日语中不区分[sh]和[s]，所以[sh]和[s]被确定为相同的音素。

在下面给出的描述中，为了辨析在第一方法中生成的第二话语数据和在第二方法中生成的第二话语数据，前者被称为音素数据并且后者被称为单音数据。

第二话语数据生成单元50将生成的第二话语数据发送到核对单元40。

核对单元40核对第一话语数据与第二话语数据。核对单元40是核对装置的一个示例。

具体地说，核对单元40从第一话语数据生成单元30接收第一话语数据。核对单元40从第二话语数据生成单元50接收第二话语数据。核对单元40核对第一话语数据与第二话语数据。

在存在多条第一话语数据的情况下，核对单元40核对多条第一话语数据中的每一条与第二话语数据。

在本示例实施例1中，第二话语数据可以是上述音素数据和单音数据中的任何一个。首先，下面将描述第二话语数据是音素数据的情况，即，第二话语数据是示出与语音信号相关联的一个或多个音素以及一个或多个音素的排列顺序的信息的情况。

(核对方法：示例1)

在本示例1中，核对单元40生成第一特征向量，在该第一特征向量上根据添加到一个或多个音素的顺序号来排列包括在第一话语数据中的一个或多个音素的一个或多个特征。核对单元40生成第二特征向量，在该第二特征向量上根据添加到一个或多个音素的顺序号来排列包括在第二话语数据中的一个或多个音素的一个或多个特征。例如，音素的特征向量中的每一个是示出一个或多个音素的标准语音信号的振幅、功率、功率谱或梅尔频率倒谱系数(MFCC)。这些特征向量可以通过对示出一个或多个音素的语音信号进行各种转换而获得。

核对单元40计算第一特征向量与第二特征向量之间的距离。核对单元40基于计算出的距离的大小来计算第一特征向量与第二特征向量之间的相似度。相似度由一个数值表示，例如，从零(完全没有相似)到一(完全匹配)。

在相似度超过阈值的情况下，核对单元40确定第一话语数据与第二话语数据彼此相同(核对成功)。另一方面，在相似度等于或小于阈值的情况下，核对单元40确定第一话语数据与第二话语数据彼此不相同(核对失败)。

(核对方法：示例2)

在本示例2中，核对单元40执行包括在第一话语数据中的个别音素与包括在第二话语数据中的个别音素之间的匹配。

更具体地说，核对单元40确定包括在第一话语数据中添加了顺序号n(＝1,2,…)的音素，与包括在第二话语数据中如上述添加了相同顺序号n(＝1,2,...)的音素是否彼此相同。在包括在第一话语数据中的音素的数目为N1并且包括在第二话语数据中的音素的数目为N2(≤N1)的情况下，核对单元40确定包括在第一话语数据中的从第一个到第N1个音素中的每一个和包括在第二话语数据中的从第一个到第N1个音素中每一个是否彼此分别相同。

核对单元40计数匹配成功的次数，即，在第一话语数据与第二话语数据之间彼此相同的音素的数目。

在匹配成功的次数超过预定次数的情况下，核对单元40确定第一话语数据与第二话语数据彼此相同(核对成功)。另一方面，在匹配成功的次数等于或小于预定次数的情况下，核对单元40确定第一话语数据与第二话语数据彼此不相同(核对失败)。

随后，下面将描述第二话语数据是单音数据的情况，即，第二话语数据是示出语音信号中包括的一个或多个单音以及一个或多个单音的排列顺序的信息的情况。

(核对方法：示例3)

在本示例3中，在某一种语言中，校对单元40将一个单音或不互相区分的多个单音视为相同的音素。核对单元40在被认为与包括在第一话语数据中的个别音素中的每一个相同的一个单音或多个单音中的每一个与包括在第二话语数据中的个别单音中的每一个之间执行匹配。本示例3中的匹配方法与在第二话语数据是音素数据的情况下的匹配方法相同。

(核对方法：示例4)

在本示例4中，将描述在第一话语数据和第二话语数据中的每一个都是语音信号的情况下核对第一话语数据与第二话语数据这两者的方法。

在本示例4中，第一话语数据生成单元30进一步将视素-音素转换单元32已经从一个或多个视素转换的一个或多个音素转换成与一个或多个音素相关联的语音信号。

例如，参考示出一个或多个音素与语音信号之间的对应关系的表(未示出)，第一话语数据生成单元30将一个或多个音素转换为语音信号。第二话语数据生成单元50将输入的语音信号本身作为第二话语数据发送到核对单元40。

核对单元40将作为第一话语数据的语音信号与作为第二话语数据的语音信号中的每一个转换为频谱图。核对单元40执行示出第一话语数据的第一频谱图和与第二话语数据相关联的第二频谱图之间的图案匹配，并且计算第一频谱图和第二频谱图之间的相似度。

在相似度超过阈值的情况下，核对单元40确定第一话语数据与第二话语数据彼此匹配(核对成功)。另一方面，在相似度等于或小于阈值的情况下，核对单元40确定第一话语数据与第二话语数据彼此不匹配(核对失败)。

通过采用上述示例1至4的任何方法，核对单元40核对第一话语数据与第二话语数据。

核对单元40输出第一话语数据与第二话语数据之间的核对结果。例如，核对单元40将示出第一话语数据与第二话语数据之间的核对是否成功的信息输出为核对结果。

因此，语音处理设备1可以考虑到噪声相对于由说话者的话语产生的语音(即，说话)的影响来执行处理。

例如，核对单元40的核对结果被用于将说话者与说话者的话语进行关联(参考示例实施例4)。可替代地，核对单元40的核对结果可用于通过使用第一话语数据来校正第二话语数据(参考示例实施例5)。

(语音处理设备1的操作流程)

参考图3，将描述根据本示例实施例1的语音处理设备1的操作流程。图3是示出语音处理设备1的操作流程的一个示例的流程图。

如图3所示，说话者提取单元20获取多条时间序列图像数据，并且从多条图像数据中的每一条提取说话者的区域(S101)。说话者提取单元20将提取的说话者的图像数据发送到第一话语数据生成单元30。

第一话语数据生成单元30从说话者的图像数据提取说话者的嘴唇的一部分，并且基于提取的说话者的嘴唇形状来生成第一话语数据(S102)。

第一话语数据生成单元30将生成的第一话语数据发送到核对单元40。

第二话语数据生成单元50获取与说话者的话语相关联的语音信号(S103)。

基于与说话者的话语相关联的语音信号，第二话语数据生成单元50生成示出说话者的话语内容的第二话语数据(S104)。第二话语数据生成单元50将生成的第二话语数据发送到核对单元40。

核对单元40从第一话语数据生成单元30接收第一话语数据。核对单元40从第二话语数据生成单元50接收第二话语数据。然后，核对单元40核对第一话语数据与第二话语数据(S105)。

在步骤S105中，核对单元40输出核对结果。例如，核对单元40将示出第一话语数据与第二话语数据之间的核对是否成功的信息输出为核对结果。

然后，结束语音处理设备1的操作。

(本示例实施例的效果)

在本示例实施例的配置中，说话者提取单元20从图像提取说话者的区域。第一话语数据生成单元30基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据。第二话语数据生成单元50基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据。核对单元40核对第一话语数据与第二话语数据。

因此，例如，在从第二话语数据再现话语内容的情况下，通过使用核对单元40的核对成功的第一话语数据，可以校正第二话语数据。具体地说，例如，即使在第二话语数据中存在噪声的情况下，也可以基于第一话语数据来再现存在噪声的部分。换句话说，该语音处理设备可以进一步高准确度地从该语音信号再现该话语。因此，根据本示例性实施例1的语音处理设备表现出能够考虑噪声相对于由人话语所产生的语音的影响执行处理的效果。

[示例实施例2]

参考图4，将描述示例实施例2。在本示例实施例2中，关于第二话语数据是音素数据的情况(即，通过采用第一方法来生成第二话语数据的情况)，将描述第二话语数据生成单元的详细配置。

根据本示例实施例2的语音处理设备的配置与示例实施例1中描述的语音处理设备1(图1)的配置相同。根据本示例实施例2的语音处理设备包括第二话语数据生成单元250(图4)，而不是第二话语数据生成单元50(图1)。

根据本示例性实施例2的第二话语数据是示出与语音信号相关联的一个或多个音素以及一个或多个音素的排列顺序的信息。

(第二话语数据生成单元250)

图4是示出根据本示例性实施例2的第二话语数据生成单元250的配置的一个示例的框图。如图4所示，第二话语数据生成单元250包括特征提取单元252和语音信号-音素转换单元253。

特征提取单元252对输入的语音信号进行预处理，诸如采样(模拟-数字变换(A/D变换))和滤波，然后从输入的语音信号中提取一个或多个特征。特征提取单元252是特征提取装置的一个示例。语音信号的特征例如是语音信号的振幅或功率或语音信号关于某一频率的频谱(频谱包络)。

特征提取单元252将示出从语音信号提取的一个或多个特征的信息发送到语音信号-音素转换单元253。

语音信号-音素转换单元253从特征提取单元252接收示出语音信号的一个或多个特征的信息。语音信号-音素转换单元253将接收到的一个或多个特征输入到学习模型。

学习模型是被训练以便可操作的从语音信号的一个或多个特征中辨析一个音素或多个音素的模型(例如，神经网络)。如上文所描述，音素是一种语言中听者可以辨析的语音的最小单位。学习模型输出与所输入的语音信号相关联的音素的辨析结果。

基于来自学习模型的输出，语音信号-音素转换单元253将语音信号的一个或多个特征转换为一个或多个相关联音素，并且生成包括一个音素或多个音素的第二话语数据。语音信号-音素转换单元253是语音信号-音素转换装置的一个示例。

语音信号-音素转换单元253将示出与输入的语音信号相关联的一个或多个音素以及一个或多个音素的排列顺序的信息作为第二话语数据发送到核对单元40。在第二话语数据的数据结构中，顺序号(1，2，3，…)被添加到与语音信号相关联的一个音素或多个音素上。

核对单元40核对第一话语数据与第二话语数据。具体地说，通过采用示例实施例1中的示例1或示例2所述的核对方法，核对单元40可以核对第一话语数据与第二话语数据。在本示例实施例2中，省略了关于核对方法的描述。

(本示例实施例的效果)

在本示例实施例的配置中，说话者提取单元20从图像提取说话者的区域。第一话语数据生成单元30基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据。第二话语数据生成单元250基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据。

第二话语数据生成单元250包括特征提取单元252和语音信号-音素转换单元253。特征提取单元252从语音信号提取特征。语音信号-音素转换单元253将输入的语音信号转换为与输入的语音信号相关联的音素。核对单元40核对第一话语数据与第二话语数据。

因此，根据本示例性实施例2的语音处理设备能够考虑到噪音相对于由人的话语所产生的语音的影响来执行处理。例如，在核对单元40的核对成功的情况下，通过使用第一话语数据来校正第二话语数据，从而允许根据本示例实施例2的语音处理设备进一步高准确度地从语音信号再现话语。

[示例实施例3]

参考图5中，将描述示例实施例3。在本示例性实施例3中，关于第二话语数据是单音数据的情况(即，通过采用第二方法生成第二话语数据的情况)，将描述第二话语数据生成单元的细节。

根据本示例实施例3的语音处理设备(未示出)的配置与示例实施例1中描述的语音处理设备1(图1)的配置相同。根据本示例实施例3的语音处理设备包括第二话语数据生成单元350，而不是第二话语数据生成单元50。

根据本示例实施例3的第二话语数据是示出语音信号中包括的一个或多个单音以及一个或多个单音的排列顺序的信息。

(第二话语数据生成单元350)

在本示例性实施例3中，通过采用示例性实施例1中描述的第三方法，第二话语数据生成单元350从输入的语音信号生成第二话语数据。

图5是示出根据本示例实施例3的第二话语数据生成单元350的配置的一个示例的框图。如图5所示，第二话语数据生成单元350包括单音提取单元351。

单音提取单元351提取包括在输入的语音信号中的一个或多个单音，并且生成包括一个单音或多个单音的第二话语数据。单音提取单元351是单音提取装置的一个示例。如上文所描述，单音由基本频率的语音信号和基本频率的倍数的语音信号表示。

单音提取单元351将示出包括在输入的语音信号中的一个或多个单音以及一个或多个单音的排列顺序的信息作为第二话语数据发送到核对单元40。在第二话语数据的数据结构中，顺序号(1，2，3，…)被添加到与语音信号相关联的一个单音或多个单音上。

核对单元40核对第一话语数据与第二话语数据。具体地说，通过采用示例性实施例1中的示例3所描述的核对方法，核对单元40可以核对第一话语数据与第二话语数据。

(本示例实施例的效果)

在本示例实施例的配置中，说话者提取单元20从图像提取说话者的区域。第一话语数据生成单元30基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据。第二话语数据生成单元350基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据。

第二话语数据生成单元350包括提取包括在输入的语音信号中的一个或多个单音的单音提取单元351。单音提取单元351将示出包括在输入的语音信号中的一个或多个单音以及一个或多个单音的排列顺序的信息作为第二话语数据发送到核对单元40。核对单元40核对第一话语数据与第二话语数据。

因此，根据本示例性实施例3的语音处理设备能够考虑到噪声相对于由人的话语所产生的语音的影响来执行处理。例如，在核对单元40的核对成功的情况下，通过使用第一话语数据来校正第二话语数据，从而允许进一步高准确度地从语音信号再现话语。

[示例实施例4]

参考图6和7，将描述示例实施例4。在本示例性实施例4中，将描述基于第一话语数据与第二话语数据之间的核对结果，与说话者的话语相关联的语音信号相关联的第二话语数据和识别说话者的说话者信息彼此相关联的配置。

(语音处理设备4)

参考图6，将描述根据本示例实施例4的语音处理设备4的配置。图6是示出语音处理装置4的配置的一个示例的框图。

如图6所示，语音处理设备4包括说话者提取单元20、第一话语数据生成单元30、核对单元40、第二话语数据生成单元50和关联单元60。换句话说，根据本示例性实施例4的语音处理设备4的配置与根据示例性实施例1的语音处理设备1的配置的不同之处在于，语音处理设备4包括关联单元60。

关联单元60连接到存储单元300。存储单元300可以经由无线或有线网络连接到语音处理设备4。可替代地，存储单元300可以是语音处理设备4的一部分。存储单元300是存储装置的一个示例。

在本示例实施例4中，如示例实施例1所描述，说话者提取单元20从时间序列图像数据提取说话者的区域。此外，说话者提取单元20生成识别从时间序列图像数据提取的说话者的说话者信息。

例如，说话者提取单元20从时间序列图像数据提取说话者的面部区域。然后，说话者提取单元20生成说话者的面部图像数据作为说话者信息。可替代地，说话者提取单元20可以生成示出说话者面部的特征的特征向量作为说话者信息。

说话者信息例如是说话者的属性信息、说话者的位置信息、说话者的面部图像和第一话语数据中的至少一个。然而，只要说话者信息是识别说话者的信息，则说话者信息不限于这些信息。

在从时间序列图像数据中检测到多个说话者的情况下，说话者提取单元20生成每一个说话者的说话者信息。说话者提取单元20将生成的说话者信息发送到关联单元60。

第一话语数据生成单元30从说话者提取单元20接收说话者的图像数据。第一话语数据生成单元30基于图像数据通过示例实施例1中描述的图像分析来生成第一话语数据。第一话语数据生成单元30将生成的第一话语数据发送到核对单元40。

如示例性实施例1所描述，第二话语数据生成单元50生成第二话语数据。第二话语数据生成单元50将生成的第二话语数据发送到核对单元40。

在本示例实施例4中，第二话语数据可以是上述音素数据和单音数据中的任何一个。

核对单元40从第一话语数据生成单元30接收第一话语数据。核对单元40从第二话语数据生成单元50接收第二话语数据。核对单元40核对第一话语数据与第二话语数据。

例如，通过采用示例性实施例1中描述的示例1至4中的任何核对方法，核对单元40核对第一话语数据与第二话语数据。

核对单元40将核对结果发送到关联单元60。例如，核对单元40将指示第一话语数据与第二话语数据之间的核对是成功还是失败的信息或标志作为核对结果发送到关联单元60。

基于核对结果，关联单元60将用于识别图像中的说话者的说话者信息与第二话语数据关联起来。关联单元60是关联装置的一个示例。

具体地说，关联单元60从说话者提取单元20接收说话者信息。关联单元60从核对单元40接收上述核对结果。如上文所描述，核对结果例如是示出第一话语数据与第二话语数据之间的核对成功还是失败的信息或标志。

在核对结果示出第一话语数据与第二话语数据之间的核对成功的情况下，基于核对单元40的核对结果，关联单元60将从说话者提取单元20接收的说话者信息与从第二话语数据生成单元50接收的第二话语数据关联起来。例如，关联单元60为说话者信息与第二话语数据的组合提供标识(ID)。

关联单元60将说话者信息与第二话语数据的组合以及为该组合提供的ID一起存储在图6所示的存储单元300中。可替代地，关联单元60可以将关联的说话者信息和第二话语数据存储在未示出的网络服务器等上。可替代地，关联单元60可以将第二话语数据转换为与说话者的话语相关联的语音信号或文本数据，可以将转换后的语音信号或文本数据链接到说话者信息，并且可以将与其链接的转换后的语音信号或文本数据存储在存储单元300中。

(语音处理设备4的操作流程)

参考图7，将描述根据本示例实施例4的语音处理设备4的操作流程。图7是示出语音处理设备4的操作流程的一个示例的流程图。由于图7中所示的从步骤S101到步骤S105的操作流程与示例性实施例1中描述的操作流程相同，在本示例性实施例4中，省略关于S101至S105的描述。图中7所示的从步骤S206开始的操作流程将在下文中描述。

如图7所示，在核对单元40核对了第二话语数据与第一话语数据后(S105)，关联单元60从核对单元40接收核对结果。在核对单元40在第一话语数据与第二话语数据之间的核对失败的情况下(在S206中为否)，处理返回到图6所示的操作流程的初始步骤S101。

另一方面，在核对单元40在第一话语数据与第二话语数据之间的核对成功的情况下(S206)，关联单元60将从说话者提取单元20接收的说话者信息与从第二话语数据生成单元50接收的第二话语数据进行关联(S207)。

关联单元60将关联的说话者信息和第二话语数据存储在存储单元300中。然后，结束根据本示例实施例4的语音处理设备4的操作。

(本示例实施例的效果)

因此，可以考虑噪声相对于人的话语所产生的语音的影响来执行处理。

此外，基于核对结果，关联单元60将用于识别图像中的说话者的说话者信息与第二话语数据进行关联。因此，根据本示例性实施例4的语音处理设备可以容易地创建例如描述了哪个人或哪些人发言以及说了什么内容的会议纪要数据。即使在存在多人的情况下，根据本示例实施例4的语音处理设备也可以识别说话者。

[示例实施例5]

参考图8至图10将描述示例实施例5。在本示例实施例5中，将描述其中通过使用第一话语数据来校正第二话语数据的配置。

(语音处理设备5)

参考图8，将描述根据本示例实施例5的语音处理设备5的配置。图8是示出语音处理设备5的配置的一个示例的框图。如图8所示，除了说话者提取单元20、第一话语数据生成单元30、核对单元40和第二话语数据生成单元50之外，语音处理设备5还包括校正单元70。

换句话说，根据本示例性实施例5的语音处理设备5的配置与根据示例性实施例1的语音处理设备1的配置的不同之处在于，语音处理设备5包括校正单元70。

在本示例实施例5中，除了核对单元40，校正单元70也从第二话语数据生成单元50接收第二话语数据。此外，校正单元70从第一话语数据生成单元30接收第一话语数据。

在本示例性实施例5中，与示例性实施例1中一样，第二话语数据可以是上述音素数据和单音数据中的任何一个。

通过使用从第一话语数据生成单元30接收的第一话语数据，校正单元70校正第二话语数据。校正单元70是校正装置的一个示例。

校正单元70可以将校正后的第二话语数据存储在存储单元(未示出)中，存储在网络服务器上或者存储在这两者中和这两者上。

具体地说，下面将描述其中校正单元70通过使用第一话语数据来校正第二话语数据的方法的具体示例。

首先，下面将描述第二话语数据是音素数据的情况，即，第二话语数据是示出与语音信号相关联的一个或多个音素以及一个或多个音素的排列顺序的信息的情况。

(校正方法：示例1)

在本示例1中，校正单元70比较包括在第一话语数据中的一个或多个音素和包括在作为第二话语数据的音素数据中的一个或多个相关联音素。一个或多个相关联音素是其被添加的顺序号相同的一个或多个音素。特别地，校正单元70比较包括在第一话语数据中的元音与包括在作为第二话语数据的音素数据中的相关联元音。

在这两者(即，第一话语数据和第二话语数据)的元音彼此相同的情况下，校正单元70保持第二话语数据的元音原样。

另一方面，在这两者的元音彼此不同的情况下，校正单元70用第一话语数据的相关联元音替换第二话语数据中包括的元音。如上文所描述，校正单元70通过使用第一话语数据来校正第二话语数据。

(校正方法：示例2)

在本示例2中，校正单元70用第一话语数据的相关联音素替换包括在第二话语数据中的一个或多个音素中的SN比(S/N)或可能性小于阈值的音素。

随后，下面将描述第二话语数据是上述单音数据的情况，即，第二话语数据是示出语音信号中包括的一个或多个单音以及一个或多个单音的排列顺序的信息的情况。

(校正方法：示例3)

在本示例3中，校正单元70根据第一话语数据的相关联音素将权重添加到包括在第二话语数据中的单音的多个候选者中的每一个的可能性上，并且基于添加了权重的可能性，选择第二话语数据的单音的多个候选者中的一个。

例如，假定包括在第二话语数据中的某一单音的第一候选者的可能性为a，而同一单音的第二候选者的可能性为A。另一方面，假定第一话语数据的相关联音素与第一候选者的音素相同。在这种情况下，校正单元70为第一候选者的可能性提供权重X(>1)，并且为第二候选者的可能性提供权重y(≤1)。

校正单元70比较添加了权重的第一候选者的可能性大小x×a与添加了权重的第二候选者的可能性大小y×A。校正单元70选择添加了权重的可能性大小中较大的候选者。

(修改示例)

参考图9，将描述根据本示例实施例5的语音处理设备5的一个修改示例。图9是示出根据一个修改示例的语音处理设备5A的配置的一个示例的框图。

如图9所示，语音处理设备5A包括第一话语数据生成单元30、核对单元40、第二话语数据生成单元50、校正单元70和关联单元60。换句话说，根据本修改示例的语音处理设备A的配置与语音处理设备5的配置不同之处在于语音处理设备5A进一步包括关联单元60。

关联单元60将用于识别图像数据中的说话者的说话者信息与由校正单元70校正的第二话语数据进行关联。关联单元60是关联装置的一个示例。

具体地说，关联单元60从说话者提取单元20接收说话者信息。关联单元60从校正单元70接收校正后的第二话语数据。关联单元60从核对单元40接收示出第一话语数据与第二话语数据之间的核对已经成功的信息或标志。

在关联单元60已经从核对单元40接收到示出第一话语数据与第二话语数据之间的核对已经成功的信息或标志的情况下，关联单元60将从说话者提取单元20接收的说话者信息与从校正单元70接收的校正后的第二话语数据进行关联。

关联单元60将校正后的第二话语数据与从说话者提取单元20接收的说话者信息(例如，说话者的面部图像)进行关联，并且将关联的第二话语数据和说话者信息存储在存储单元300等中(参考示例性实施例4)。

在核对单元40核对多个说话者的多条第一话语数据和第二话语数据的情况下，关联单元60基于核对结果来识别仅一条相似度最高的第一话语数据与第二话语数据的组合。然后，关联单元60将说话者信息与第二话语数据进行关联，该说话者信息是关于与所识别的第一话语数据相关联的一个说话者的信息。

关联单元60将关联的说话者信息和第二话语数据存储在图6所示的存储单元300中。可替代地，关联单元60可以将关联的说话者信息和第二话语数据存储在未示出的网络服务器等上。

例如，关联单元60提供用于说话者信息与第二话语数据的组合的ID。然后，关联单元60将说话者信息与第二话语数据的组合以及为该组合提供的ID一起存储在存储单元300中、网络服务器上或这两者中和这两者上。

下面将描述不包括关联单元60(即，在上述修改示例中不包括关联单元60)的语音处理设备5。

(语音处理设备5的操作流程)

参考图10，将描述根据本示例实施例5的语音处理设备5的操作流程。图10是示出语音处理设备5的操作流程的一个示例的流程图。

在图10所示的流程图中，从步骤S101到步骤S105的操作流程与示例实施例1中描述的操作流程相同。随后的步骤S206中的操作流程与示例实施例4中描述的操作流程相同。

因此，在本示例性实施例5中，省略关于S101至S105和S206的描述。将在下文中描述紧接图10中所示的步骤S206之后的步骤。

如图10所示，在核对单元40在第一话语数据与第二话语数据之间的核对失败的情况下(S206中为否)，语音处理设备5的操作流程返回到步骤S101。另一方面，在核对单元40在第一话语数据与第二话语数据之间的核对成功的情况下(S206中为是)，校正单元70通过从第一话语数据生成单元30接收的第一话语数据来校正从第二话语数据生成单元50接收的第二话语数据(S307)。

此后，校正单元70可以输出校正后的第二话语数据。在上述一个修改示例中，校正单元70将校正后的第二话语数据发送到关联单元60。关联单元60将从说话者提取单元20接收的说话者信息(例如，说话者的面部图像数据)与由校正单元70校正的第二话语数据进行关联，并且将关联的说话者信息和第二话语数据存储在存储单元300(参见图6)等中。

然后，结束根据本示例实施例5的语音处理设备5的操作。

(本示例实施例的效果)

在本示例实施例的配置中，说话者提取单元20从图像提取说话者的区域。第一话语数据生成单元30基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据。第二话语数据生成单元50基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据。核对单元40核对第一话语数据与第二话语数据。因此，可以考虑噪声相对于人的话语所产生的语音的影响来执行处理。

此外，在第一话语数据与第二话语数据之间的核对成功的情况下，校正单元70通过使用第一话语数据来校正第二话语数据。因此，提高了从语音信号再现话语内容的准确度。

[示例实施例6]

参考图11和12中，将描述示例实施例6。在本示例实施例6中，将描述包括语音处理设备6的系统的配置。

系统可以包括示例性实施例1到示例性实施例5中描述的语音处理设备1到语音处理设备5中的任何一个，除了根据本示例性实施例6的语音处理设备6之外。

(系统的配置)

参考图11，将描述根据本示例实施例6的系统的配置。图11是示出系统配置的一个示例的框图。如图11所示，除了语音处理设备6之外，系统还包括麦克风100、相机200和显示器400。根据本示例性实施例6的系统的全部或部分可以通过智能相机(例如，其是内部包括分析功能的IP相机或网络相机，并且也被称为智慧型相机等)来实现。

(语音处理设备6)

除了说话者提取单元20、第一话语数据生成单元30和核对单元40之外，根据本示例实施例6的语音处理设备6还包括显示控制单元80。换句话说，根据本示例性实施例6的语音处理设备6的配置与根据示例性实施例1的语音处理设备1的配置的不同之处在于，语音处理设备6包括显示控制单元80。

麦克风100收集由说话者的话语所产生的语音(说话)的声音，并且生成与说话者的话语相关联的语音信号。麦克风100包括一个麦克风或多个麦克风。麦克风100将与由该话语所产生的语音相关联的语音信号发送到第二话语数据生成单元50。

相机200安装在用于成像的目标位置(例如，会议室的内部)。相机200对用于成像的目标位置和存在于用于成像的目标位置中的人进行成像，并将通过成像获得的时间序列图像数据(例如，在一定时间段内拍摄的运动图像的帧图像或以预定时间段的间隔拍摄的多个静止图像)发送到说话者提取单元20和显示控制单元80。

在本示例实施例6中，核对单元40将第一话语数据与第二话语数据之间的核对结果发送到说话者提取单元20。

在说话者提取单元20已经从核对单元40接收到示出核对单元40在第一话语数据与第二话语数据之间的核对成功的结果的情况下，说话者提取单元20生成用于叠加的图像数据，该图像数据包括示出包括说话者的区域的图形(以下称为子图像数据)。然后，说话者提取单元20将生成的子图像数据发送到显示控制单元80。

在说话者提取单元20已经从核对单元40接收到示出核对单元40在第一话语数据与第二话语数据之间的核对失败的结果的情况下，说话者提取单元20不生成子图像数据。

显示控制单元80从相机200接收时间序列图像数据。在显示控制单元80没有从说话者提取单元20接收到子图像数据的情况下，显示控制单元80将从相机200接收到的时间序列图像数据转换为显示器400可以显示的格式，并使显示器400显示显示图像。

另一方面，在显示控制单元80已经从说话者提取单元20接收到子图像数据的情况下，显示控制单元80将接收到的子图像数据叠加在时间序列图像数据上，将叠加的图像数据转换为显示器400可以显示的格式，并使叠加的图像显示在显示器400上。显示控制单元80是显示控制装置的示例。下面将描述叠加图像的具体示例。

(叠加图像的一个示例)

图12示出了由显示控制单元80生成并显示在显示器400上的叠加图像的一个示例。

在图12所示的叠加图像中，在说话者(图12中处于右上位置的人)的面部周围显示矩形图形。该矩形图形是上述子图像数据的一个示例。用户看到显示在显示器400上的叠加图像，从而允许用户容易地识别说话者。

在叠加图像中，指示说话者的图形的形状和图案(例如，图形中的阴影或构成图形的线的颜色、粗细或种类)不限于图12所示的矩形。在另一示例中，指示说话者的图形可以是面向说话者的箭头。

(本示例实施例的效果)

此外，显示控制单元80使具有图形的叠加图像显示在显示器400上，该图形示出包括说话者的区域并被叠加在图像上。因此，用户可以容易地从显示器400上的叠加图像中识别说话者。

[示例实施例7]

在下文中，参考图13，将描述示例实施例7。

(关于硬件配置)

在示例实施例1至6中描述的语音处理设备中的每一个的组成部件示出了功能单元的块。这些组成部件的一部分或全部由例如图13中所示的信息处理设备900实现。图13是示出信息处理设备900的硬件配置的一个示例的框图。例如，信息处理设备900示出了智能相机的内部配置。

如图13所示，作为一个示例，信息处理设备900包括以下组件。

·CPU(中央处理单元)901

·ROM(只读存储器)902

·RAM(随机存取存储器)903

·加载到RAM 903的程序904

·存储设备905，其存储程序904

·驱动设备907，其执行从记录介质906读取/向记录介质906写入

·通信接口908，其连接到通信网络909

·输入/输出接口910，其输入和输出数据

·总线911，其连接组成部件

CPU 901读取并执行程序904，程序904实现组成部件的功能，从而实现示例实施例1至6中描述的语音处理设备中每一个的组成部件。实现组成部件的功能的程序904已经被先前存储在例如存储设备905或ROM 902中，根据需要，CPU 901将程序904加载到RAM 903，并且执行程序904。程序904可以经由通信网络909供应给CPU 901，或者程序904可以被先前存储在记录介质906中，并且驱动设备907可以读取程序904并可以将程序904供应给CPU901。

(本示例实施例的效果)

在本示例实施例的配置中，示例实施例中的每一个描述的语音处理设备被实现为硬件。因此，可以展示与示例实施例中的每一个描述的效果相似的效果。

(附记)

尽管上述示例实施例(和示例)的一部分或全部可以在以下附记中描述，但以下附记仅仅是示例。上述示例实施例(和示例)的一部分或全部不限于以下附记中描述的配置。

(附记1)

一种语音处理设备，包括：

说话者提取装置，说话者提取装置被配置为从图像提取说话者的区域；

第一话语数据生成装置，第一话语数据生成装置被配置为基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据；

第二话语数据生成装置，第二话语数据生成装置被配置为基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据；和

核对装置，核对装置被配置为核对第一话语数据与第二话语数据。

(附记2)

根据附记1所述的语音处理设备，其中

第一话语数据生成装置包括：

视素辨析装置，视素辨析装置被配置为从说话者的嘴唇形状中辨析视素；和

视素-音素转换装置，视素-音素转换装置被配置为将视素转换为音素，并且生成包括一个音素或多个音素的第一话语数据。

(附记3)

根据附记1或2所述的语音处理设备，其中

第二话语数据生成装置包括：

特征提取装置，特征提取装置被配置为从输入的语音信号中提取特征；和

语音信号-音素转换装置，语音信号-音素转换装置被配置为将语音信号的特征转换为相关联的音素，并且生成包括一个音素或多个音素的第二话语数据。

(附记4)

根据附记1或2所述的语音处理设备，其中

第二话语数据生成装置包括

单音提取装置，单音提取装置被配置为提取包括在输入语音信号中的单音，并且生成包括一个单音或多个单音的第二话语数据。

(附记5)

根据附记1至4中的任一项所述的语音处理设备，其中：

说话者提取装置生成说话者信息以识别从图像中提取的说话者，语音处理设备还包括

关联装置，关联装置被配置为基于核对结果将说话者信息与第二话语数据进行关联。

(附记6)

根据附记5所述的语音处理设备，其中

第一话语数据生成装置基于图像中的多个说话者的嘴唇形状来生成多条第一话语数据，

核对装置核对多条第一话语数据中的每一条与第二话语数据，以及

关联装置基于核对结果将与多个说话者中的任何一个有关的说话者信息与第二话语数据进行关联。

(附记7)

根据附记1至6中任一项所述的语音处理设备，还包括

校正装置，校正装置被配置为在第一话语数据与第二话语数据之间的核对已经成功的情况下，通过使用第一话语数据来校正第二话语数据。

(附记8)

根据附记1至7中的任一项所述的语音处理设备，还包括

显示控制装置，显示控制装置被配置为使叠加图像显示在显示器上，示出被叠加在图像上的区域的图形在叠加图像中，该区域包括说话者。

(附记9)

一种语音处理方法，包括：

从图像提取说话者的区域；

基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据；

基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据；和

核对第一话语数据与第二话语数据。

(附记10)

一种记录介质，其中存储有程序，该程序被配置为使计算机执行：

从图像提取说话者的区域；

核对第一话语数据与第二话语数据。

(附记11)

根据附记5或6所述的语音处理设备，其中

说话者信息是说话者的属性信息、说话者的位置信息、说话者的面部图像和第一话语数据中的至少一个。

尽管已经参考本公开的示例性实施例特别示出和描述了本公开，但本公开不限于这些实施例。本领域普通技术人员将理解，在不脱离权利要求所定义的本公开的精神和范围的情况下，可以在形式和细节上进行各种改变。

本申请基于2019年8月2日提交的日本专利申请No.2019-142951并要求其优先权，该申请的全部内容通过引用全部并入本文。

[附图标记列表]

1 语音处理设备

2 语音处理设备

3,3A 语音处理设备

4,4A 语音处理设备

5,5A 语音处理设备

6 语音处理设备

20 说话者提取单元

30 第一话语数据生成单元

31 视素辨析单元

32 视素-音素转换单元

40 核对单元

50 第二话语数据生成单元

60 关联单元

70 校正单元

80 显示控制单元

250 第二话语数据生成单元

252 特征提取单元

253 语音信号-音素转换单元

300 存储单元

350 第二话语数据生成单元

351 单音提取单元

400 显示器

Claims

1.一种语音处理设备，包括：

说话者提取装置，所述说话者提取装置被配置为从图像提取说话者的区域；

第一话语数据生成装置，所述第一话语数据生成装置被配置为基于所述说话者的嘴唇的形状来生成示出所述说话者的话语的内容的第一话语数据；

第二话语数据生成装置，所述第二话语数据生成装置被配置为基于与所述说话者的所述话语相关联的语音信号来生成示出所述说话者的话语的内容的第二话语数据；以及

核对装置，所述核对装置被配置为核对所述第一话语数据与所述第二话语数据。

2.根据权利要求1所述的语音处理设备，其中，

所述第一话语数据生成装置包括：

视素辨析装置，所述视素辨析装置被配置为从所述说话者的所述嘴唇的形状来辨析视素；以及

视素-音素转换装置，所述视素-音素转换装置被配置为将所述视素转换为音素，并且生成包括一个音素或多个音素在内的所述第一话语数据。

3.根据权利要求1或2所述的语音处理设备，其中，

所述第二话语数据生成装置包括：

特征提取装置，所述特征提取装置被配置为从输入的语音信号来提取特征；以及

语音信号-音素转换装置，所述语音信号-音素转换装置被配置为将所述语音信号的所述特征转换为相关联的音素，并且生成包括一个音素或多个音素在内的所述第二话语数据。

4.根据权利要求1或2所述的语音处理设备，其中，

所述第二话语数据生成装置包括：

单音提取装置，所述单音提取装置被配置为提取被包括在输入语音信号中的单音，并且生成包括一个单音或多个单音在内的所述第二话语数据。

5.根据权利要求1至4中的任一项所述的语音处理设备，其中，

所述说话者提取装置生成用以识别从所述图像中被提取的所述说话者的说话者信息，

所述语音处理设备还包括：

关联装置，所述关联装置被配置为基于所述核对的结果将所述说话者信息与所述第二话语数据进行关联。

6.根据权利要求5所述的语音处理设备，其中，

所述第一话语数据生成装置基于所述图像中的多个说话者的嘴唇的形状来生成多条所述第一话语数据，

所述核对装置核对所述多条所述第一话语数据中的每一条与所述第二话语数据，以及

所述关联装置基于所述核对的结果，将与所述多个说话者中的任何一个说话者有关的所述说话者信息与所述第二话语数据进行关联。

7.根据权利要求1至6中的任一项所述的语音处理设备，还包括：

校正装置，所述校正装置被配置为：在所述第一话语数据与所述第二话语数据之间的核对已经成功的情况下，通过使用所述第一话语数据来校正所述第二话语数据。

8.根据权利要求1至7中的任一项所述的语音处理设备，还包括：

显示控制装置，所述显示控制装置被配置为：使叠加图像被显示在显示器上，在所述叠加图像中，在所述图像上叠加有示出包括有所述说话者在内的区域的图形。

9.根据权利要求5或6所述的语音处理设备，其中，

所述说话者信息是所述说话者的属性信息、所述说话者的位置信息、所述说话者的面部图像以及所述第一话语数据中的至少一个。

10.一种语音处理方法，包括：

从图像提取说话者的区域；

基于所述说话者的嘴唇的形状，来生成示出所述说话者的话语的内容的第一话语数据；

基于与所述说话者的所述话语相关联的语音信号，来生成示出所述说话者的话语的内容的第二话语数据；以及

核对所述第一话语数据与所述第二话语数据。

11.一种记录介质，在所述记录介质中存储有程序，所述程序被配置为使计算机执行：

从图像提取说话者的区域；

核对所述第一话语数据与所述第二话语数据。