CN110708600A

CN110708600A - 识别电视的有效观看者的方法和设备

Info

Publication number: CN110708600A
Application number: CN201911170326.8A
Authority: CN
Inventors: 吴梦渊; 赵世栋
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-01-17

Abstract

提供一种识别电视的有效观看者的方法和设备，所述方法包括：(A)采集环境中的语音信号；(B)过滤采集到的语音信号，并从过滤后的语音信号中获取人声音频信号；(C)从所述人声音频信号中分离出不同用户的人声音频信号；(D)提取每个用户的人声音频信号中的预定信息；(E)根据所述预定信息确定电视的有效观看者的身份。根据所述方法和设备，能够精确地识别出当前在电视的最佳观看区域的有效观看者的身份以及数量，进而向电视的有效观看者推荐相应的推荐服务，有效改善了用户体验。

Description

识别电视的有效观看者的方法和设备

技术领域

本发明总体来说涉及人工智能领域，更具体地讲，涉及一种识别电视的有效观看者的方法和设备。

背景技术

随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代进入了信息过载的时代，智能电视的推荐系统应运而生。智能电视推荐系统可以向用户推荐感兴趣的视频，拓展其观影体验。

具体说来，现有的推荐系统的推荐方式及其缺点如下所述：

一、通过人脸识别技术来识别不同的用户，从而推荐与识别的用户感兴趣的服务(例如，视频、消息等)，然而，并非所有的电子设备都具备用于人脸识别的摄像头，因此，该方案不具有普遍适用性。

二、通过在用户身边的近场/远场拾音设备接收并分析用户的语音信号，通过用户的声纹匹配来识别用户身份，从而推荐与用户身份匹配的感兴趣的服务，然而，由于在智能电视周围往往存在多个用户，并未观看电视的用户的声纹会影响最终的判断结果的准确性，使得推荐服务在准确性方面具有局限性。

可以看出，现有的智能电视推荐系统在多人环境中无法准确地针对智能电视的有效观看用户提供相应的推荐服务。

发明内容

本发明的示例性实施例在于提供一种推荐服务的方法和电子设备，其能够克服现有的推荐系统无法准确地针对不同用户提供相应的推荐服务的缺陷。

根据本发明的示例性实施例的一方面，提供一种识别电视的有效观看者的方法，包括：(A)采集环境中的语音信号；(B)过滤采集到的语音信号，并从过滤后的语音信号中获取人声音频信号；(C)从所述人声音频信号中分离出不同用户的人声音频信号；(D)提取每个用户的人声音频信号中的预定信息；(E)根据所述预定信息确定电视的有效观看者的身份，其中，电视的有效观看者是指处于电视的最佳观看区域中的用户。

可选地，所述方法还包括：(F)提供与所述电视的有效观看者的身份匹配的推荐服务。

可选地，所述方法还包括：(G)周期性地检测所述电视的有效观看者是否处于电视的最佳观看区域；(H)当检测到所述电视的有效观看者未处于电视的最佳观看区域时，暂停所述推荐服务的执行，并在检测到所述电视的有效观看者再次处于电视的最佳观看区域时，继续执行所述推荐服务。

可选地，过滤采集到的语音信号的步骤包括：对采集到的语音信号进行噪声消除和/或回声抑制。

可选地，所述预定信息包括以下项中的至少一项：用户相对于电视的位置、人声音频信号的传播方向和人声音频信号的持续时间。

可选地，步骤(E)包括：基于所述预定信息确定用户是否处于电视的最佳观看区域；将处于电视的最佳观看区域的用户确定为电视的有效观看者；提取所述电视的有效观看者的人声音频信号中的语音特征；基于所述语音特征确定所述电视的有效观看者的身份。

可选地，所述语音特征包括以下项中的至少一项：声纹特征、音高特征、音调特征、重音特征和语速特征。

可选地，所述电视的最佳观看区域是基于与电视型号对应的建议观看距离区间的两个端点距离值与电视的水平宽度值来确定的。

根据本发明示例性实施例的另一方面，提供一种识别电视的有效观看者的设备，包括：拾音单元，采集环境中的语音信号；获取单元，过滤采集到的语音信号，并从过滤后的语音信号中获取人声音频信号；分离单元，从所述人声音频信号中分离出不同用户的人声音频信号；信息提取单元，提取每个用户的人声音频信号中的预定信息；确定单元，根据所述预定信息确定电视的有效观看者的身份，其中，电视的有效观看者是指处于电视的最佳观看区域中的用户。

可选地，所述设备还包括：输出单元，向用户提供与所述电视的有效观看者的身份匹配的推荐服务。

可选地，确定单元周期性地检测所述电视的有效观看者是否还处于电视的最佳观看区域；当确定单元检测到所述电视的有效观看者未处于电视的最佳观看区域时，输出单元暂停所述推荐服务的执行，并在确定单元检测到所述电视的有效观看者再次处于电视的最佳观看区域时，继续执行所述推荐服务。

可选地，获取单元对采集到的语音信号进行噪声消除和/或回声抑制。

可选地，确定单元包括：第一确定子单元，基于所述预定信息确定用户是否处于电视的最佳观看区域；第二确定子单元，将处于电视的最佳观看区域的用户确定为电视的有效观看者；特征提取单元，提取所述电视的有效观看者的人声音频信号中的语音特征；第三确定子单元，基于所述语音特征确定所述电视的有效观看者的身份。

根据本发明示例性实施例的另一方面，提供一种电子设备，其中，所述电子设备包括：处理器；存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现根据本发明的识别电视的有效观看者的方法。

根据本发明示例性实施例的另一方面，提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序在被处理器执行时实现根据本发明的识别电视的有效观看者的方法。

根据本发明示例性实施例的识别电视的有效观看者的方法，能够精确地识别出当前在电视的最佳观看区域的有效观看者的身份以及数量，进而向电视的有效观看者推荐相应的推荐服务，有效改善了用户体验。

将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本发明总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的详细描述，本发明示例性实施例的上述和其他目的将会变得更加清楚，其中：

图1示出根据本发明示例性实施例的识别电视的有效观看者的方法的流程图；

图2示出了现有技术的各尺寸电视观看距离参考的示例；

图3A和图3B示出了根据本发明示例性实施例的电视的最佳观看区域的示意图；

图4示出根据本发明示例性实施例的确定电视的有效观看者的身份的步骤的流程图；

图5至图7示出根据本发明示例性实施例的向电视的有效观看者推荐服务的示例；

图8示出根据本发明示例性实施例的识别电视的有效观看者的设备的框图；

图9示出根据本发明示例性实施例的确定单元的框图。

具体实施方式

现将详细参照本发明的示例性实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

图1示出根据本发明示例性实施例的识别电视的有效观看者的方法的流程图。这里，所述方法可由识别电视的有效观看者的设备来实现，该识别电视的有效观看者的设备可以是电视本身，即相关部件或者模块集成在电视中，也可以是放置在电视使用空间中的固定设备，例如，所述设备可以是智能音箱等具有语音远程拾取和智能运算功能的电子设备。

如图1所示，在步骤S100，采集环境中的语音信号。

具体说来，可利用远场拾音设备(例如麦克风阵列等)采集电视使用环境中的语音信号。

在步骤S200，过滤采集到的语音信号，并从过滤后的语音信号中获取人声音频信号。

这里，由于环境中的语音信号中掺杂了很多电视伴音、回声以及其他噪声，因此，需要对采集到的语音信号进行过滤，以剔除环境中的电视伴音、回声和其他噪声等，关于步骤S200，作为示例，可对所述语音信号进行噪声消除和/或回声抑制，来消除环境中的噪声影响，例如，可利用自适应滤波器，将采集的语音信号经过回音函数滤波后与近端信号相减，以实现对回声的抑制，这里，应理解，可通过现有的任何方式来对采集到的语音信号进行噪声消除和回声抑制，本发明不做任何限定。

在步骤S300，从所述人声音频信号中分离出不同用户的人声音频信号。

具体说来，由于电视属于多人共享设备，因此，观看电视的人，或者在电视所在环境可能会存在多人，因此，需要将每个人的人声音频信号从获取的人声音频信号中分离出来，例如，可使用盲源分离(Blind Source Separation)方法对过滤后获取的人声音频信号进行处理，以分离出不同用户的人声音频信号。这里，本领域技术人员应理解，分离出不同用户的人声音频信号的方法可不局限于盲源分离技术，还可以是现有的任何可以分离不同用户的人声音频信号的方法，本发明在此不做任何限定。

在步骤S400，提取每个用户的人声音频信号中的预定信息。

这里，所述预定信息可包括以下项中的至少一项：用户相对于电视的位置、人声音频信号的传播方向和人声音频信号的持续时间。这里，可利用现有的方法来提取每个用户的人声音频信号中的上述预定信息。

在步骤S500，根据所述预定信息确定电视的有效观看者的身份，其中，电视的有效观看者是指处于电视的最佳观看区域中的用户。这里，电视的有效观看者的身份可包括识别出的电视的有效观看者的性别、年龄段、是否是电视的常用使用用户等，此外，如果确定出电视的有效观看者是电视的某个常用使用用户，电视的有效观看者的身份也可进一步包括该使用用户平时的观看偏好。

所述电视的最佳观看区域是基于该电视型号对应的建议观看距离区间的两个端点距离值与电视的水平宽度值来确定的。这里，电视的型号可包括电视的规格尺寸、品牌、屏类型、可视角度、分辨率等参数，这里，应理解，电视的型号的参数可包括上述参数，还可包括根据其他电视参数，本发明在此不做任何限定。

假设电视各尺寸的参考距离区间如图2所示，例如，某型号40寸的电视的建议观看距离区间为2m(米)-2.5m，某型号50寸的电视的建议观看距离区间为2.5m-3m。作为示例，如图3A所示，假设电视的水平宽度为w，与电视的尺寸对应的建议观看距离区间为[d1 d2]，则电视最佳观看区域的一种计算方法为以电视所在位置为起点，以宽度为w，距离电视d2-d1位置区间所在的区域，即图3A中的阴影的矩形形状区域所示。

在实际应用中，可根据对算法敏感性及应用场景的不同，可换用其他计算方法适当调整有效观看区域的范围，例如将[d1，d2]区间沿其中心线做一定比例的拓宽，例如，如图3B中的梯形形状区域，在另一例子中，电视的最佳观看区域还可以是用户相对于电视的位置与电视中心点之间的距离位于建议观看距离的区间之内，并且用户相对于电视的位置与电视中心点的连线与电视显示平面之间的角度在预定范围之内的扇环形状区域。

此外，通过图3A可看出，处于

位置的用户属于电视的有效观看者，处于×位置的用户属于电视的无效观看者。

图4示出根据本发明示例性实施例的确定电视的有效观看者的身份的步骤的流程图。

具体说来，如图4所示，在步骤S510中，可基于所述预定信息确定用户是否处于电视的最佳观看区域。

这里，可利用用户相对于电视的位置、人声音频信号的传播方向和人声音频信号的持续时间中的一个或者多个的组合来确定用户是否处于电视的最佳观看区域。

在步骤S520，将处于电视的最佳观看区域的用户确定为电视的有效观看者。

在步骤S530，提取所述电视的有效观看者的人声音频信号中的语音特征。

作为示例，所述语音特征包括以下项中的至少一项：声纹特征、音高特征、音调特征和重音特征和语速特征。这里，可利用现有的方法来提取每个用户的人声音频信号中的上述预定特征。此外，语音特征不局限于上述特征，也可以是其他语音特征，本发明在此不做任何限定。

在步骤S540，基于所述语音特征确定所述电视的有效观看者的身份。

此外，附加地，所述方法可还包括在确定了所述电视的有效观看者的身份后，向电视的有效观看者提供推荐服务的方案，具体说来，在确定了电视的有效观看者的身份之后，可提供与所述电视的有效观看者的身份匹配的推荐服务。这里，所述推荐服务可以包括以下项中的至少一项：播放视频、推送消息、播放语音、显示图片、播放音乐。

此外，附加地，所述方法可还包括根据电视的有效观看者的移动，控制推荐服务的执行的步骤。具体说来，可周期性地检测所述电视的有效观看者是否处于电视的最佳观看区域，例如，在确定了电视的有效观看者之后，可周期性地执行步骤(A)-(E)，以确定电视的有效观看者当前是否还处于电视的最佳观看区域，当检测到所述电视的有效观看者未处于电视的最佳观看区域时，暂停所述推荐服务的执行，并在检测到所述电视的有效观看者再次处于电视的最佳观看区域时，继续执行所述推荐服务。

此外，由于电视是多人共享设备，因此，基于所述语音特征很可能确定出多个电视的有效观看者，当基于所述语音特征确定出多个电视的有效观看者时，可基于预先的设定向多个电视的有效观看者的组合提供相应的推荐服务。可选择地，当基于所述语音特征确定出多个电视的有效观看时，可交替地向多个电视的有效观看者提供相应的推荐服务。可选择地，当基于所述语音特征确定出多个电视的有效观看时，可基于预先设置的优先级，向多个电视的有效观看者中的一个或者若干个电视的有效观看者提供相应的推荐服务。

下面，将结合图5至图7来详细向电视的有效观看者推荐服务的示例。

具体说来，如图5所示，在确定了电视的有效观看者的身份是一名成年男士时，可以基于预先的设定向该用户提供与成年男士的身份匹配的推荐服务，例如，推荐体育节目。若在该成年男士观看电视的过程中，有其他观看者加入，可以继续确定其他观看者是否在电视的最佳观看区域，若在电视的最佳观看区域中，可以进一步确定其他观看者也为电视的有效观看者，并确定其身份，并根据所有的电视的有效观看者的组合(例如，一家三口)来推荐服务，例如，当电视的有效观看者为一名成年女士、一名成年男士和一名儿童时，可以基于预先的设定向用户推荐服务，例如，推荐一家人喜欢观看的综艺节目等。

在另一个例子中，如果在电视的最佳观看区域确定存在电视的有效观看者，但是，基于机器学习算法，当确定电视的有效观看者的人声音频信号中的语音特征与电视预存的用户的声纹不匹配时，可将电视的有效观看者的身份确定为派对用户，并利用语音特征确定派对用户的性别和年龄，基于预先的设定向用户与派对相关的推荐服务，例如，如图6所示，当在电视的最佳观看区域确定存在电视的有效观看者是派对用户，且是多个儿童时，可利用电视向用户显示与派对相关的海报、音乐、视频等。

图8示出根据本发明示例性实施例的识别电视的有效观看者的设备的框图。这里，所述识别电视的有效观看者的设备可由识别电视的有效观看者的设备来实现，该识别电视的有效观看者的设备可以是电视本身，即相关部件或者模块集成在电视中，也可以是放置在电视使用空间中的固定设备，例如，作为示例，所述设备可以是智能音箱等具有语音远程拾取和智能运算功能的电子设备。

如图8所示，根据本发明示例性实施例的识别电视的有效观看者的设备包括：拾音单元100、获取单元200、分离单元300、信息提取单元400和确定单元500。

拾音单元100采集环境中的语音信号。这里，拾音单元可以是麦克风阵列等设备。

获取单元200过滤采集到的语音信号，并从过滤后的语音信号中获取人声音频信号。

这里，由于环境中的语音信号中掺杂了很多电视伴音、回声以及其他噪声，因此，需要对采集到的语音信号进行过滤，以剔除环境中的电视伴音、回声和其他噪声等，作为示例，获取单元200可对所述语音信号进行噪声消除和/或回声抑制，来消除环境中的噪声影响，例如，当获取单元为自适应滤波器时，可利用自适应滤波器，将采集的语音信号经过回音函数滤波后与近端信号相减，以实现对回声的抑制，这里，应理解，可通过现有的任何方式来对采集到的语音信号进行噪声消除和回声抑制，本发明不做任何限定。

分离单元300从所述人声音频信号中分离出不同用户的人声音频信号。

具体说来，由于电视属于多人共享设备，因此，观看电视的人，或者在电视所在环境可能会存在多人，因此，需要将每个人的人声音频信号从获取的人声音频信号中分离出来，例如，分离单元300可使用盲源分离(Blind Source Separation)方法对过滤后获取的人声音频信号进行处理，以分离出不同用户的人声音频信号。这里，本领域技术人员应理解，分离单元300分离出不同用户的人声音频信号的方法可不局限于盲源分离技术，还可以是现有的任何可以分离不同用户的人声音频信号的方法，本发明在此不做任何限定。

信息提取单元400提取每个用户的人声音频信号中的预定信息。

确定单元500根据所述预定信息确定电视的有效观看者的身份，其中，电视的有效观看者是指处于电视的最佳观看区域中的用户。这里，电视的有效观看者的身份可包括识别出的电视的有效观看者的性别、年龄段、是否是电视的常用使用用户等，此外，如果确定出电视的有效观看者是电视的某个常用使用用户，电视的有效观看者的身份也可进一步包括该使用用户平时的观看偏好。

图9示出根据本发明示例性实施例的确定单元500的框图。

如图9所示，确定单元500包括第一确定子单元510、第二确定子单元520、特征提取单元530和第三确定子单元540。

具体说来，第一确定子单元S510基于所述预定信息确定用户是否处于电视的最佳观看区域。

这里，可利用用户相对于电视的位置、人声音频信号的传播方向和人声音频信号的持续时间中的一个或者多个的组合来确定用户是否在电视的最佳观看区域。

第二确定子单元520将处于电视的最佳观看区域的用户确定为电视的有效观看者。

特征提取单元530提取所述电视的有效观看者的人声音频信号中的语音特征。

第三确定子单元540基于所述语音特征确定所述电视的有效观看者的身份。

此外，附加地，所述设备用于向电视的有效观看者提供推荐服务的输出单元(图8中未示出)，具体说来，在确定了电视的有效观看者的身份之后，输出单元可提供与所述电视的有效观看者的身份匹配的推荐服务。这里，所述推荐服务可以包括以下项中的至少一项：播放视频、推送消息、播放语音、显示图片、播放音乐。

此外，附加地，可还根据电视的有效观看者的移动，控制推荐服务的执行。具体说来，确定单元500可周期性地检测所述电视的有效观看者是否还处于电视的最佳观看区域。当确定单元500检测到所述电视的有效观看者未处于电视的最佳观看区域时，输出单元暂停所述推荐服务的执行，并在检测到所述电视的有效观看者再次处于电视的最佳观看区域时，继续执行所述推荐服务。

此外，由于电视是多人共享设备，因此，确定单元500基于所述语音特征很可能确定出多个电视的有效观看者，当确定单元500基于所述语音特征确定出多个电视的有效观看者时，输出单元可基于预先的设定向多个电视的有效观看者的组合提供相应的推荐服务。可选择地，当确定单元500基于所述语音特征确定出多个电视的有效观看时，输出单元可交替地向多个电视的有效观看者提供相应的推荐服务。可选择地，当确定单元500基于所述语音特征确定出多个电视的有效观看时，输出单元可基于预先设置的优先级，向多个电视的有效观看者中的一个或者若干个电视的有效观看者提供相应的推荐服务。

此外，应该理解，根据本发明示例性实施例的用于在电子设备中提供个性化服务的设备中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。

根据本发明的示例性实施例的计算机可读存储介质，存储有当被处理器执行时使得处理器执行上述示例性实施例的识别电视的有效观看者的方法的计算机程序。该计算机可读存储介质是可存储由计算机系统读出的数据的任意数据存储装置。计算机可读存储介质的示例包括：只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。

根据本发明的示例性实施例的电子设备包括：处理器(未示出)和存储器(未示出)，其中，存储器存储有计算机程序，当所述计算机程序被处理器执行时，实现如上述示例性实施例的识别电视的有效观看者的方法。

综上所述，在根据本发明示例性实施例的识别电视的有效观看者的方法和设备中，能够精确地识别出当前在电视的最佳观看区域的有效观看者的身份以及数量，进而向电视的有效观看者推荐相应的推荐服务，有效改善了用户体验。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种识别电视的有效观看者的方法，包括：

(A)采集环境中的语音信号；

(B)过滤采集到的语音信号，并从过滤后的语音信号中获取人声音频信号；

(C)从所述人声音频信号中分离出不同用户的人声音频信号；

(D)提取每个用户的人声音频信号中的预定信息；

(E)根据所述预定信息确定电视的有效观看者的身份，其中，电视的有效观看者是指处于电视的最佳观看区域中的用户。

2.如权利要求1所述的方法，还包括：

(F)提供与所述电视的有效观看者的身份匹配的推荐服务。

3.如权利要求2所述的方法，还包括：

(G)周期性地检测所述电视的有效观看者是否处于电视的最佳观看区域；

(H)当检测到所述电视的有效观看者未处于电视的最佳观看区域时，暂停所述推荐服务的执行，并在检测到所述电视的有效观看者再次处于电视的最佳观看区域时，继续执行所述推荐服务。

4.如权利要求1所述的方法，其中，过滤采集到的语音信号的步骤包括：对采集到的语音信号进行噪声消除和/或回声抑制。

5.如权利要求1所述的方法，其中，所述预定信息包括以下项中的至少一项：

用户相对于电视的位置、人声音频信号的传播方向和人声音频信号的持续时间。

6.如权利要求5所述的方法，其中，步骤(E)包括：

基于所述预定信息确定用户是否处于电视的最佳观看区域；

将处于电视的最佳观看区域的用户确定为电视的有效观看者；

提取所述电视的有效观看者的人声音频信号中的语音特征；

基于所述语音特征确定所述电视的有效观看者的身份。

7.如权利要求6所述的方法，其中，所述语音特征包括以下项中的至少一项：声纹特征、音高特征、音调特征、重音特征和语速特征。

8.如权利要求1所述的方法，其中，所述电视的最佳观看区域是基于与电视型号对应的建议观看距离区间的两个端点距离值与电视的水平宽度值来确定的。

9.一种识别电视的有效观看者的设备，包括：

拾音单元，采集环境中的语音信号；

获取单元，过滤采集到的语音信号，并从过滤后的语音信号中获取人声音频信号；

分离单元，从所述人声音频信号中分离出不同用户的人声音频信号；

信息提取单元，提取每个用户的人声音频信号中的预定信息；

确定单元，根据所述预定信息确定电视的有效观看者的身份，其中，电视的有效观看者是指处于电视的最佳观看区域中的用户。

10.如权利要求9所述的设备，还包括：

输出单元，向用户提供与所述电视的有效观看者的身份匹配的推荐服务。

11.如权利要求9所述的设备，其中，所述预定信息包括以下项中的至少一项：

12.如权利要求11所述的设备，其中，确定单元包括：

第一确定子单元，基于所述预定信息确定用户是否处于电视的最佳观看区域；

第二确定子单元，将处于电视的最佳观看区域的用户确定为电视的有效观看者；

特征提取单元，提取所述电视的有效观看者的人声音频信号中的语音特征；

第三确定子单元，基于所述语音特征确定所述电视的有效观看者的身份。

13.如权利要求9所述的设备，其中，所述电视的最佳观看区域是基于与电视的尺寸对应的预定参考距离区间的两个端点距离值与电视的水平宽度值来确定的。

14.一种电子设备，其中，所述电子设备包括：

处理器；

存储器，存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至8中的任意一项所述的识别电视的有效观看者的方法。

15.一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的识别电视的有效观看者的方法。