CN1591571A

CN1591571A - 提供个性化服务的音频/视频装置和方法

Info

Publication number: CN1591571A
Application number: CNA2004100740661A
Authority: CN
Inventors: 崔承亿; 郑善化; 明寅植; 李贞奉
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-09-03
Filing date: 2004-09-02
Publication date: 2005-03-09
Anticipated expiration: 2024-09-02
Also published as: KR20050023941A; US20050049862A1; JP2005078072A; EP1513136A1; CN1300765C

Abstract

一种通过话音和说话者识别提供个性化服务的音频/视频装置，其中，当用户通过遥控装置中的无线麦克风输入他的/她的话音时，执行对输入话音的话音识别和说话者识别，并且确定与输入话音相对应的命令，从而，给用户提供用户的个性化服务。此外，一种通过话音和说话者识别提供个性化服务的方法，包括以下步骤：由用户通过遥控装置中的麦克风输入他的/她的话音；如果输入话音，则识别输入话音和输入该话音的说话者；基于输入话音确定命令；以及根据确定结果提供服务。

Description

提供个性化服务的音频/视频装置和方法

技术领域

本发明涉及一种通过话音和说话者识别提供个性化服务的音频/视频(A/V)装置和方法，更具体地说，涉及这样一种通过话音和说话者识别提供个性化服务的A/V装置和方法，其中，当输入用户话音时，同时执行话音识别和说话者识别以提供根据说话者识别的个性化服务。

背景技术

在相关技术中，为了接收个性化服务，用户应该选择说话者识别模式，然后说出已经登记的密码(输入字)用于用户识别，最终说出相应的命令用于想要得到的服务。

这可能是不方便的，由于用户可能通过执行两个处理仅仅接收个性化服务，这两个处理包括：输入用于说话者识别的密码处理；以及输入用于话音识别的命令处理。另外，由于分别应用用于说话者识别的输入字(密码)和用于话音识别的输入字(命令)，用户应该记忆分别的输入字，这也是不方便的。

此外，如果另一个用户想要享受个性化服务，则应该输入“改变用户”命令，然后再次执行说话者和话音识别，这引起用户的不方便。

发明内容

本发明的目的在于解决前述的不方便之处。本发明的一方面提供一种通过话音和说话者识别提供个性化服务的A/V装置和方法，其中，依照用户的话音输入，同时执行话音和说话者识别而不需要分离的用户识别处理。

本发明的另一方面是提供一种通过话音和说话者识别提供个性化服务的A/V装置和方法，其中，通过均等地将输入字(命令)应用于话音识别和说话者识别来迅速提供想要得到的服务。

根据本发明的示例性实施例，提供了一种通过话音和说话者识别向用户提供个性化服务的音频/视频装置，其中，当用户通过遥控装置的无线麦克风输入他的/她的话音时，执行对输入话音的话音识别和说话者识别，并且确定对应于输入话音的命令，从而将用户的个性化服务提供给用户。

此外，A/V装置可包括：话音识别单元，用于识别通过话音输入单元输入的话音；说话者识别单元，用于基于通过话音输入单元输入的话音识别用户；确定单元，用于确定哪个命令对应于通过话音识别单元识别的话音；数据库，用于存储用户信息、话音信息、关于用户的个性化服务的信息、以及命令；和服务搜索单元，用于在数据库中搜索对应于已识别命令的服务和关于用户的个性化服务的信息。

此外，根据本发明的另一个示例性实施例，提供了一种通过话音和说话者识别提供个性化服务的方法，包括下述步骤：由用户通过遥控装置中的无线麦克风输入他的/她的话音；如果输入了话音，则识别输入话音和输入话音的说话者；基于输入话音确定命令；和根据确定结果提供服务。

附图说明

通过下面结合附图对给出的优选实施例进行的描述，本发明的上述和其他目的、特点、和优点将会变得清楚，其中：

图1是示意性地表示根据本发明的示例性实施例的通过话音和说话者识别提供个性化服务的A/V装置的方框图；

图2是示意性地表示根据本发明的另一个示例性实施例通过话音和说话者识别提供个性化服务的方法的流程图；

图3A和3B表示根据本发明实施例的命令表；

图4表示根据本发明的示例性实施例的通过话音和说话者识别提供个性化服务的方法；和

图5表示根据本发明的另一个示例性实施例的通过话音和说话者识别提供个性化服务的方法。

具体实施方式

以下，参照附图来详细描述本发明的示例性实施例。

图1是示意性地表示根据本发明的示例性实施例的通过话音和说话者识别提供个性化服务的A/V装置的方框图。A/V装置200包括话音识别单元210、说话者识别单元220、控制单元230、确定单元240，服务搜索单元250、和数据库260。

当通过遥控装置100中的无线麦克风输入用户话音时，A/V装置200执行对输入话音的话音和说话者识别，确定对应于输入话音的命令，然后向用户提供个性化服务。

话音识别单元210用于识别通过在遥控装置100中提供的话音输入单元110输入的话音，即，用于识别由用户输入的命令。

说话者识别单元220用于基于通过话音输入单元110输入的话音识别说话者，即，基于存储于数据库260中的关于用户的话音的信息，识别输入他的/她的话音的用户。

确定单元240用于确定哪个命令对应于话音识别单元210识别的话音，即，用于分析由话音识别单元210识别的命令，并且确定该命令是否需要用户信息。

数据库260用于存储关于用户，话音、以及用户的个性化服务的信息，以及可获得的命令。换句话说，当话音识别单元210和说话者识别单元220执行鉴别处理时，数据库提供存储在其中的命令和关于相关用户的信息。可获得的命令是指可由用户输入的所有命令，例如，包括“搜索频道”命令、“登记频道”命令、“删除频道”命令等。

此外，命令分类为需要用户鉴别的命令和不需要用户鉴别的命令。将在以后参考图3更详细地描述存储在数据库260中的命令。

服务搜索单元250用于根据确定单元240的确定结果在数据库260种搜索设计命令的信息和关于用于用户的个性化服务的信息，即，根据确定单元240的确定结果搜索相关的服务。

控制单元230用于提供由服务搜索单元250搜索的服务，即，提供与由用户输入的命令相对应的服务。这里，服务可被认为是从最喜欢的频道得到的广播节目的显示、关于推荐节目信息的显示、最喜欢的音乐的重放，选择的音乐流派的显示，或诸如此类。

其间，通过在遥控装置100中提供的话音输入单元110输入用户的话音。此时，无线麦克风用于用户话音的输入。

图2是示意性地表示根据本发明的另一示例性实施例的通过话音和说话者识别提供个性化服务的方法的流程图。首先，如果用户通过安装在遥控装置中的无线麦克风输入他的/她的话音(S100)，则话音输入单元110将通过无线麦克风输入的用户的话音(命令)发送到话音识别单元210。

然后，话音识别单元210识别从话音输入单元110发送的命令，说话者识别单元220同时基于输入话音执行说话者识别(S110)。换句话说，话音识别单元210识别由用户输入的命令，同时，说话者识别单元220基于输入话音执行对用户的说话者识别。明确地说，话音识别单元210将输入命令转换为文本，并且将该文本发送给确定单元240，说话者识别单元220从输入话音中提取特点，分析该提取的特点，然后在存储于数据库260中的用户话音之中搜索具有与输入话音的话音信号最接近的用户话音，从而识别出输入命令的用户。这里，用户应提前执行用户登记处理以为说话者识别做准备。通过用户登记处理，关于用户的具体信息在数据库260中登记。结果，基于话音的说话者识别被执行。此外，已经登记在数据库260中的登记字包括请求个性化服务的命令。因此，登记字和命令被平等的应用，以便话音和说话者识别可被同时执行。

此后，由话音识别单元210识别的命令被发送到轮流分析由话音识别单元210识别的命令的确定单元240(S120)。换句话说，确定单元240基于输入命令分析将执行哪个操作，并且确定分析的命令是否是用于用户的需要用户信息的个性化命令或者是不需要用户信息的普通命令。这里，用于用户的个性化命令是由用户根据他的/她的个人偏爱和品味频繁输入的命令，并且可以被认为是“最喜欢的频道”、“通知预订”、“通知列表”、“记录预订”、“预订列表”、“记录列表”、“推荐节目”、“按次付费频道”、“购物频道”、或诸如此类。普通命令是不会受到用户偏爱和品味影响的命令，并且可被认为是新闻、戏剧、运动、或诸如此类。

随后，如果确定单元240确定输入命令是请求个性化服务的命令(S130)，则服务搜索单元250确定输入他的/她的话音的用户是否是登记在数据库260中的用户并且被说话者识别单元220通过说话者识别而识别(S140)。

如果确定输入他的/她的话音的用户是登记在数据库260中的用户(S140)，则搜索关于由说话者识别单元220鉴别的用户的信息并从在用户基础上登记信息的数据库260中提取该信息(S150)。此后，在包含于提取的用户信息中的服务列表中搜索对应于用户输入的命令的个性化服务(S160)。

然后，控制单元230向用户提供由服务搜索单元250搜索的个性化服务(S170)。

另一方面，如果确定输入他的/她的话音的用户不是在数据库260中登记的用户(S140)，则服务搜索单元250向用户提供基本上在A/V装置内配置的基本服务(S190，S200)，或者通知用户没有用于该用户的登记的个性化服务并且请求用户执行用户登记处理(S210)。这里，基本服务是在A/V装置中默认配置的服务，并且如果输入他的/她的话音的用户尚未通过用于个性化服务的用户登记，则因此没有个性化服务提供给用户。换句话说，基本服务是临时提供给尚未在数据库260中登记的用户的服务。例如，如果用户输入“推荐节目”命令，则确定单元240分析输入命令。基于分析结果，确定结果，即用户输入命令是请求个性化服务命令，被发送到轮流确定输入他的/她的话音的用户是否是在数据库260中登记的用户的服务搜索单元250。

然后，如果确定已经输入命令(“推荐节目”)的用户是还未在数据库260中登记的用户，则给用户提供在A/V装置中默认配置的基本服务(例如，“MBC9点新闻”节目)，因为没有提供给用户的个性化服务。

另一方面，如果由确定单元240确定输入命令是请求普通服务的命令(S130)，则服务搜索单元250搜索数据库260以找到对应输入命令的普通服务(S180)。然后，控制单元230给用户提供由服务搜索单元250搜索的普通服务(S170)。

其间，如果另一个用户通过安装在遥控装置中的无线麦克风输入命令，则执行用于用户的话音和说话者识别，并将根据搜索到的关于用户的信息的个性化服务提供给用户。

图3A和3B表示本发明的个性化命令表。图3A表示当应用视频器件(数字TV)时可输入的个性化命令表，图3B表示应用音频器件(音频部件，MP3播放器，多媒体播放器，或诸如此类)时可输入的个性化命令表。

首先，参考图3A，将描述当应用视频器件时可输入的个性化命令表。

“最喜欢的频道”由用户配置，以提供在数据库260中登记的频道之一作为他的/她的最喜欢的频道。即，如果用户说“最喜欢的频道”作为命令，则来自存储在数据库260中的最喜欢的频道之一的图片显示在屏幕上。

“通知预订”被配置，以便在节目广播开始之前(或之后)向用户通知该用户想要接收关于其通知的任意节目广播的开始。即，如果用户预订/输入关于具体节目的信息(广播时间、频道信息、节目标题，等等)，则用户被通知具体节目的开始。

“通知列表”是用于在数据库260中登记和保持用户预订以被通知其开始的节目列表的列表。即，如果用户说“通知列表”作为命令，则登记的“通知列表”显示在屏幕上。这里，根据用户需要可以进行列表的操作和处理。

“记录预订”被配置，以便用户预订他/她想要观看的节目的记录。即，如果用户输入关于节目的信息(广播时间、频道信息、节目题目，等等)，则从设定的时间记录节目广播。

“预订列表”，是用于在数据库260中登记和保持，用户预订以被记录和通知的节目列表的列表。即，如果用户说“预订列表”作为命令，则登记的“预订列表”显示在屏幕上。这里，根据用户需要可以进行列表的操作和处理。

“记录列表”，是用于登记和保持记录在数据库260中的节目列表的列表。即，如果用户说“记录列表”作为命令，则登记的“记录列表”显示在屏幕上。这里，根据用户需要可以进行重放或删除节目。

“推荐节目”是以这种方式配置的，以便用户接收关于被该用户和其他与该用户具有相似品味的用户从内容提供者或广播站推荐的节目的信息，并且登记该信息。即，如果用户说“推荐节目”作为命令，则提供给用户推荐节目以及它上面的信息。

“按次付费频道”被配置，以当搜索或观看按次付费频道时根据通过用户鉴定(说话者识别)的用户个人信息来确定该用户是否已经被授权观看按次付费频道，并向该用户提供允许的信息。

“成人频道”被配置，以当搜索或观看有年龄限制的频道时根据通过用户鉴定(说话者识别)的用户个人信息来确定该用户是否已经被授权观看由年龄限制的频道，并仅当该用户是授权用户时向该用户提供相关的信息。

“购物频道”被配置，以当进行TV交易时根据通过用户鉴别(说话者识别)的用户个人信息来确定该用户是否已经被授权进行TV交易，并仅当该用户是授权用户时向该用户提供相关的信息。

其次，参考图3B，将描述当应用音频器件时可输入的个性化命令表。

“播放”被配置，已通过根据说出命令用户的特征信息用户鉴定(说话者识别)重放个性化歌曲列表中的歌曲。换句话说，如果用户说“播放”作为命令，重放登记在列表中的歌曲。

“依据流派选择”被配置，以依据流派例如韩国流行音乐，爵士乐，古典音乐和外国流行音乐提供个性化服务。具体地说，如果用户说出多个流派中的一种(例如，“韩国流行音乐”)作为命令，则重放该流派(韩国流行音乐)音乐。

“最喜欢的歌曲列表”，是一系列登记在数据库260中的用户最喜欢的歌曲。即，如果用户说“最喜欢的歌曲列表”作为命令，则重放登记的最喜欢的歌曲。

其间，用户能够输入并登记除前述命令之外的其它命令。

图4表示根据本发明的示例性实施例的通过话音和说话者识别提供个性化服务的方法。首先，当观看体育新闻频道时，如果用户对着安装在遥控装置中的无线麦克风说“最喜欢的频道”，话音输入单元110将由用户输入的“最喜欢的频道”命令发送给话音识别单元210。

然后，话音识别单元210识别输入命令，即“最喜欢的频道”，同时，说话者识别单元220基于输入话音执行说话者识别。

随后，话音识别单元210转发该输入命令(“最喜欢的频道”)给确定单元240，确定单元240轮流分析该转发的命令。这里，确定单元240分析该命令，并且通知服务搜索单元250转发的命令是对应于“最喜欢的频道”的命令并且已分析过的命令，即“最喜欢的频道”，是要求用户信息的个性化命令的事实。

相应地，服务搜索单元250从数据库260中提取说话者识别单元220识别的用户的信息，并且在包含于提取的用户信息中的服务列表之中搜索“最喜欢的频道”列表。

然后，控制单元230给用户提供其中一个搜索的最喜欢的频道(例如，“乡村时代”)。

其间，当观看“乡村时代”时，如果用户再一次说“最喜欢的频道”作为命令，频道变成在最喜欢的频道列表中的具有最靠近“乡村时代”的标号“午夜TV娱乐”(见图4中所示的表)。

此外，当观看“乡村时代”时，如果用户说“向下”(或“向上”)作为命令，则频道变为登记在它下面的“午夜TV娱乐”。

图5表示根据本发明的另一示例性实施例的通过话音和说话者识别提供个性化服务的方法，其中，通过话音输入提供给多个用户想要得到的频道服务。

首先，当用户看TV时，如果用户对安装在遥控装置中的无线麦克风说“最喜欢的频道”，则话音识别单元210和说话者识别单元220执行对应于输入命令“最喜欢的频道”的话音识别和说话者识别。

然后，确定单元240分析输入命令以确定用户想得到什么服务，并且将输入命令是请求个性化服务的“最喜欢的频道”确定结果通知给服务搜索单元250。

相应地，服务搜索单元250在存储在数据库260中的用户服务列表之中搜索“最喜欢的频道”的列表，并且向用户提供其中一个最喜欢的频道(例如，“滑稽音乐会”)。

其后，如果另一个用户对安装在遥控装置中的无线麦克风说“最喜欢的频道”则话音识别单元210和说话者识别单元220基于输入命令“最喜欢的频道”执行话音识别和说话者识别。此时，通过说话者识别确定已经输入命令的用户不是同一用户。

然后，确定单元240分析的用户输入的命令并且发送分析结果给服务搜索单元250，并且服务搜索单元250在存储在数据库260中的用户服务列表之中搜索“最喜欢的频道”的列表并且向用户提供其中一个最喜欢的频道(例如，“夏日气味”)。

作为本发明的另一示例性实施例，以下将描述用户通过音频部件收听音乐的情形。首先，如果该用户对安装在遥控装置中的无线麦克风说“爵士乐”作为命令，则话音输入单元110发送由用户输入的命令“爵士乐”给话音识别单元210。

然后，话音识别单元210识别该输入命令“爵士乐”，同时，说话者识别单元220基于输入话音执行用于用户的说话者识别。

随后，话音识别单元210转发输入命令(“爵士乐”)给轮流分析该转发命令的确定单元240。此时，确定单元240分析该命令(“爵士乐”)并且转发分析结果给服务搜索单元250。

相应地，服务搜索单元250从数据库260中提取由说话者识别单元220识别的关于用户的信息，并且在包含于提取的用户信息中的音乐流派之中搜索和重放爵士乐。

根据以上描述的本发明优选实施例，存在一个优点，即由于当用户通过无线麦克风输入他的/她的话音时，话音和说话者识别被同时执行，从而不用执行分离的用户鉴定处理而搜索个性化服务，并且迅速向用户提供想要得到的服务。

此外，存在另一个优点，即由于输入字(命令)可能被平等的应用到话音和说话者识别中，所以用户不需要记忆用于用户鉴别的输入字，并且不必分离地提供用于话音和说话者识别的器件。

尽管本发明是结合优选实施例来描述的，但是很明显对于本领域的技术人员，在不脱离由所附权利要求限定的本发明的精神和范围的情况下，可以对其进行各种修改和变换。因此，对本发明实施例的简单变换落于本发明的范围内。

Claims

1、一种通过话音和说话者识别向用户提供个性化服务的音频/视频装置，包括：

话音识别单元，用于识别话音命令；

说话者识别单元，用于基于话音命令识别用户；

其中，当用户输入话音命令时，执行对话音命令的话音识别和说话者识别。

2、如权利要求1所述的装置，其中，所说的话音命令被输入到具有用于接收话音命令的话音输入单元的遥控装置中。

3、如权利要求1所述的装置，还包括：

确定单元，确定哪个动作与话音识别单元识别的话音命令相对应。

4、如权利要求1所述的装置，还包括：

数据库，用于存储用户信息、话音信息、关于用户的个性化服务的信息、和动作；和

服务搜索单元，用于在数据库中搜索与识别的话音命令相对应的服务和关于用户的个性化服务的信息。

5、如权利要求1所述的装置，其中，同时执行用户的话音和说话者识别。

6、一种用于通过话音和说话者识别提供个性化服务的方法，包括：

由用户输入话音命令；

识别话音命令和已输入话音命令的用户；

基于话音命令确定将执行的动作；和

根据确定的动作执行服务。

7、如权利要求6所述的方法，其中，基于话音命令确定动作的步骤，包括：

确定哪个动作与话音命令相对应；

如果确定该动作请求个性化服务，则使用存储在数据库中的用户服务信息搜索相关的服务；和

如果确定该动作不请求个性化服务，则根据话音命令搜索服务。

8、如权利要求6所述的方法，其中，动作被均等地应用在话音和说话者识别。

9、如权利要求6所述的方法，其中，所说的话音命令被输入到遥控装置中的无线麦克风。

10、如权利要求6所述的方法，其中，同时执行识别话音命令和用户。

11、如权利要求6所述的方法，其中，使用同一话音命令识别话音命令和用户。

12、如权利要求1所述的装置，其中，话音识别单元和说话者识别单元使用同一话音命令。