CN101341531A

CN101341531A - 访问数字文件集合中的数字文件的方法和装置

Info

Publication number: CN101341531A
Application number: CNA2006800468015A
Authority: CN
Inventors: 朱志飞; 兴飞·路易斯·钟; 清伟·吉米·李; 梁康忠; 志伟·丹尼斯·魏; 威土·威廉·王
Original assignee: Creative Technology Ltd
Current assignee: Creative Technology Ltd
Priority date: 2005-12-12
Filing date: 2006-12-11
Publication date: 2009-01-07
Also published as: EP1969590A4; JP2009519538A; US8015013B2; EP1969590A1; RU2008128440A; TW200805251A; CA2633505A1; WO2007070013A1; KR20080083290A; AU2006325555A1; US20070136065A1; ZA200805567B; SG133419A1; NO20083087L; BRPI0619607A2; AU2006325555B2; NZ569291A

Abstract

本发明提供了一种用于访问电子设备中包括多于一个数字文件的集合中的至少一个数字文件的方法，该方法包括：生成一个包括从集合中的多于一个数字文件中的每一个得到的信息条目的索引，集合中的每个数字文件的信息被链接到至少一个信息条目；在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入；确定所述语音输入的语言；并且将语音接收模式设置为所述语音输入的语言；比较在语音接收模式期间接收的所述语音输入和索引中的条目。可以有利地在所述语音输入与索引中的至少一个信息条目一致时访问文件。本发明还公开了一种能够执行上述方法的装置。

Description

访问数字文件集合中的数字文件的方法和装置

技术领域

本发明涉及访问数字文件集合中的数字文件的方法和装置，并且尤其涉及使用语音输入访问文件。

背景技术

具有语音激活控制构件的设备变得越来越流行。具有“语音拨号”的移动电话和语音激活的玩具是当前可以很容易找到的这些设备中的一些设备。

然而，这些设备通常需要预编程来将语音输入和特定条目(在移动电话中，该条目是特定实体的联系电话)相关联。当涉及例如地址簿和媒体文件集合中的大量条目时，这可能会是一个令人厌烦的过程。这会因不便而使得用户不需要这样的特征。

在不需要预编程的现在的某些设备中结合有语音识别特征。然而，对于克服识别较重的口音或者含糊不清的英语的困难来说，技术还不够成熟。另外，虽然英语是被选择用于该数字时代的互联地球村的语言，但是英语不是所使用的唯一语言。例如中国和印度的世界上人口众多的国家不具有以讲英语为主的民众，并且这些具有智能语音识别特征的设备也可能不会在这些国家中被广泛采用。如果他们的需求没有被特别满足，则这些巨大的消费者市场则代表公司丧失的机会。

目前，这种“智能”设备不具有多种语言识别能力。因此，需要这些设备的制造者针对具有除了英语之外的语言能力的市场制造不同版本的相同产品，而这无意地增加了每个设备的制造成本，因为当需要生产其它版本时，需要专用的生产线/设备或者需要针对英语版本的生产线/设备进行更改。

正确地管理和执行不同字符代码集(例如，针对基于英语字符数字语言的ASCII，针对繁体中文的Big-5，针对简体中文的GB，针对日语的JIS，等等)对于具有多种语言识别能力的“智能”设备也是一个挑战。

发明内容

在本发明的第一方面中，提供了一种用于访问电子设备中包括多于一个数字文件的集合中的至少一个数字文件的方法，该方法包括：生成一个包括从集合中多于一个数字文件中的每一个得到的信息条目的索引，集合中的每个数字文件的信息被链接到至少一个信息条目；在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入；确定所述语音输入的语言；并且将语音接收模式设置为所述语音输入的语言；比较在语音接收模式期间接收的所述语音输入和索引中的条目。可以有利地在所述语音输入与索引中的至少一个信息条目一致时访问文件。所述数字文件可以存储到所述电子设备、与所述电子设备功能性地连接的任何设备或者前述设备的组合。所述至少一个数字文件可以是从选自包括以下内容的源接收的：存储设备、有线计算机网络或者无线计算机网络。

优选地，所述数字文件可以是诸如文档、电子数据表、播放列表、文件夹、音乐文件、图像文件和视频文件等的类型。另外优选地，所述信息条目包括至少一个字并且从数字文件得到诸如文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、经过翻译的歌曲标题或者可替代的歌曲标题的信息。所述信息条目可以是任何语言的。

所述语音输入可以是一种语言的或者是至少一种语言的语句。所述语音接收模式可以被手动或者自动设置。

优选地，所述电子设备可以是台式电脑、笔记本电脑、PDA、便携式媒体播放器或者移动电话。访问电子设备中至少一个数字文件的设备可以通过至少一次地按压预先确定的按钮来进行访问。

在本发明的第二方面中，提供了一种装置，用于访问在该装置中存储的包括多于一个数字文件的集合中的至少一个数字文件。该装置包括：索引器，该索引器用于生成包括从集合中多于一个数字文件中的每一个得到的信息条目的索引，集合中的每个数字文件的信息被链接到至少一个信息条目；语音接收装置，该语音接收装置用于在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入；处理器，该处理器用于确定所述语音输入的语言；并且所述处理器能够对在语音接收模式期间接收的所述语音输入和索引中的条目进行比较。有利的是，当所述语音输入与索引中的至少一个信息条目一致时，访问文件。所述装置可以选自包括以下内容的组：台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话。

优选地，所述语音接收装置是麦克风。所述语音输入的语言可以自动或者手动选择。所述语音输入可以是一种语言的或者是至少一种语言的语句。

所述信息条目可以优选地包括任意语言的一个字。所述信息条目可以从数字文件得到诸如文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、经过翻译的歌曲标题和可替代的歌曲标题的信息。

该装置可以包括至少一个按钮，以便通过至少一次地按压至少一个按钮来激活用于访问数字文件的设备。该装置可以优选地包括显示器。

附图说明

为了全面地理解本发明以及容易地实施本发明，现在将参考所附示意性示图通过非限制性示例来描述本发明的最优选的实施例。

图1示出本发明的优选实施例的处理的流程图；

图2示出本发明的优选实施例的装置的示意图；

图3示出对图1中的语音处理过程36的扩展。

具体实施方式

下面的描述旨在提供对可以实施本发明的适当计算环境的简明的、一般的描述。虽然不是必需的，但是将会以计算机可执行指令(例如，由个人计算机执行的程序模块)的一般情况来描述本发明。通常，程序模块包括执行特定任务或者实现特定的非具体数据类型的例程、程序、字符、组件、数据结构。正如本领域技术人员将会明白的，本发明可以以其它的计算机系统配置来实施，包括手持设备、微处理器系统、基于微处理器的可编程消费电子装置、网络PC、小型计算机、大型计算机，等等。本发明也可以在其中通过经由计算网络链接的远程处理设备执行任务的分布式计算环境中实施。在分布式计算环境中，程序模块既可以设置在本地存储器存储设备中，又可以设置在远程存储器存储设备中。

参考图1，公开了示出用于访问电子设备中包括多于一个的数字文件的集合中的至少一个数字文件的方法的优选实施例的流程图。所述电子设备可以是例如台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话。集合中的数字文件可以包括：文档、电子数据表、播放列表、文件夹、音乐文件和视频文件。在图1所示的本实施例中，存储在集合中的数字文件是媒体文件(图像、音乐和视频文件)。所述至少一个数字文件可以是从诸如存储设备、有线计算机网络或者无线计算机网络等的源接收的。所述数字文件的集合可以驻留于所述电子设备的存储器设备或者可连接到所述电子设备的存储器设备中。所述存储器设备可以是非易失性存储器，并且可以是快闪存储器或者硬盘驱动器。

首先，在电子设备中激活用于启用语音接收模式的设备20。该电子设备可以具有显示器，用于显示可从其选择所述设备的菜单，或者该电子设备可以具有快捷的开关/按钮，通过至少一次地按压开关/按钮可激活语音接收模式。此刻，用户可以手动地选择用于语音输入的一种特定语言或者多种语言22。这有助于所述设备处理语音输入。应当注意，特定语言的每种方言(例如，中国方言中的广东话、潮州话和闽南语)被认为是不同的语言。

在启用语音接收模式之后，用于访问电子设备中的集合中的数字文件的系统被初始化24，以对访问集合中的文件的语音输入的到来做好准备。在初始化处理期间，执行检查，以确认具有集合中的文件的信息的任何信息索引26的存在。

如果没有找到索引，检测到较少的数字文件(文件已经被删除)，或者检测到新的数字文件，则搜索该电子设备以及任何所连接的存储器设备中的媒体文件28。从每个文件提取25和索引出的信息包括以下内容中的至少一个：文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称以及可替代的歌曲标题。如果所述电子设备被连接到可替代源，则上述信息还可以从可替代源得到29，所述可替代源例如是因特网或者主机。每个信息条目应当包括至少一个字。所提取出的信息可以是任何语言的，并且不必是基于英语字符数字(Angloalphanumeric)字母表的。汉语字符的各种形式(简体的以及繁体的)、日语字符的各种形式(日本汉字、平假名和片假名)、韩语字符、伊斯兰语字符等等都是可以提取的并且都可以存储在信息索引中。上述非英语字符到英语的译音也可以存储在信息索引中。上述非英语字符到英语的译文也可以存储在信息索引中，如果文件元数据中包括这种信息。每个数字文件可以具有信息索引中的多个信息条目，以便使得文件可以通过多种路径而被访问，例如，通过艺术家名称、通过歌曲标题、通过文件名等等。在检测到较少文件的情况中，当创建索引时，不存在的文件的信息条目被移除。用户也可以为特定歌曲提供一个可替代的标题，并且此可替代的标题也可以包括在索引中。在将关于媒体文件的所有信息集合到一起之后，字符代码集标识功能27对每个媒体文件的信息进行分析并且标识出在每个文件中所使用的一个代码集或多个代码集。

然后，来自电子设备以及任何功能性连接的存储器设备的每个数字文件的所有信息条目的索引与字符代码集信息一起被形成在电子设备中30，并且在建立索引之后，该索引在电子设备中被加载32，以便使得索引中的所有信息条目都可以被访问。如果没有检测到新的数字文件并且自从信息索引被建立时起没有删除数字文件，则也可以在确认信息索引的存在26之后加载信息索引。

应当注意，上述步骤所需的持续时间依赖于数据处理速度、存储器I/O速度和网络/远程服务器延迟。很明显，数字文件越大，由于要被处理的数据量的原因，上述步骤所需的持续时间越长。

此时，电子设备准备好接收语音输入。电子设备可以发出可听警报或者示出可视警报，以提醒用户它已经准备好以语音接收模式接收语音。语音输入独立于讲话者。预先的录音是不要求的，并且电子设备基本是即取即用的(pick-and-use)。该方法中的语音处理足够健壮(robust)以能够不管任何特殊的浓重口音或者含糊的话而对语音输入进行区分。语音被输入到电子设备中34。语音输入可以是一种语言的。语音输入也可以是包括多于一种语言的语句。例如，类似“帝女flower”的歌曲标题是可以接受的并且可以被处理。对于在它们的元数据中具有翻译标题的数字文件，使用原始标题或者翻译标题都允许访问同一数字文件。例如，“爱是不保留”或者“No Reserve In Love”都允许访问同一数字文件。

在语音被输入电子设备之后，语音被处理36。如果之前没有进行手动语言选择22，则语音输入的语言被确定并且与该语音输入的语言相关的适当的语音接收模式被自动设置。如果语言选择被手动设置，则由用户指定的语言模型将被相应地加载。这使得可以正确地确定语音输入。参考图3，图3描述了语音被自动处理的序列。在25中得到的媒体头信息361、在27中得到的字符代码集362以及在29中从远程源搜集的媒体信息363都被输入语言识别标识功能364中，以便最合适的(一个或多个)语音识别标识模型将被加载365。例如，如果语言识别标识功能确定在媒体文件中使用的代码集为ASCII和GB，而来源国家为美国(USA)和中国

(PRC)，则USA英语语言模型和PRC普通话模型都将被加载用于语音识别。之后，语音输入进一步被“过滤”366，其中，有意义的媒体信息

(例如歌曲标题、艺术家和专辑)被从语音输入中提取出来并且作为用于语音识别的对象被提供给语音识别装置。例如，对于语音输入“播放Sharon Lau的爱是不保留”，“爱是不保留”将被提取作为歌曲标题信息，而“Sharon Lau”将被智能地提取作为艺术家信息。该所提取的信息然后被添加到语音识别库367。当进行了手动语言选择22时，对语音输入还进行过滤以确定进入到已识别的语音库中的条目。

在对语音输入进行处理并且确定进入到已识别的语音库中的条目之后，所述输入被与索引中的信息条目比较38。当所述输入与至少一个信息条目匹配时，链接到所述(一个或多个)信息条目的所述(一个或多个)数字文件被显示40，以供用户选择。所显示的(一个或多个)数字文件可以是结果列表，并且用户可以选择所期望的歌曲42、所期望的播放列表44或者来自所期望的艺术家46的歌曲。这些选项仅仅用于示意性目的而不是限制性的。

参考图2，示出了装置50，该装置用于访问存储在该装置50中的包括多于一个数字文件的集合中的至少一个数字文件。装置50可以是诸如台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话等的设备。所述数字文件可以是诸如文档、电子数据表、播放列表、文件夹、音乐文件或者视频文件等的文件。所述至少一个数字文件可以是从诸如存储器设备、有线计算机网络或者无线计算机网络等的源接收的。所述数字文件的集合可以驻留于装置50所包括的存储器设备58中，或者数字文件可以存在于可连接到装置50的独立的存储器设备中。所述存储器设备可以是非易失性存储器，并且可以是快闪存储器或者硬盘驱动器。为了激活用于访问数字文件的设备，装置50可以具有显示器54，用于显示允许启用该设备的菜单，或者装置50可以具有快捷的开关/按钮(未示出)，通过至少一次地按压开关/按钮可激活该设备。

装置50可以具有外壳52，用于容纳它的各个部件。装置50可以具有显示器54，用于显示装置50的信息，包括关于在装置50中存储的文件的信息或者可访问装置50的信息。可以具有索引器56，用于生成包括从集合中的多于一个的数字文件中的至少一个数字文件中得出的信息条目的索引。集合中的每个数字文件的信息可以被连接到至少一个信息条目。信息条目可以包括至少一个字并且可以是任何语言的。从每个文件提取和索引出的信息可以包括下述内容中的至少一种：文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、缩减的歌曲标题和可替代的歌曲标题。每个信息条目应当包括至少一个字。所提取出的信息可以是任何语言的，并且不必基于英语字符数字字母表。汉语字符的各种形式(简体的以及繁体的)、日语字符的各种形式(日本汉字、平假名和片假名)、韩语字符、伊斯兰语字符等等都是可以提取的。上述非英语字符到英语的译音也可以存储在信息索引中。上述非英语字符到英语的译文也可以存储在信息索引中，如果文件元数据中可以找到这种信息。每个数字文件可以具有信息索引中的多个信息条目，以便使得文件可以通过多种路径而被访问，例如，通过艺术家名称、通过歌曲标题、通过文件名等等。用户也可以为特定歌曲提供一个可替代的标题，并且此可替代的标题也可以包括在索引中。

此外，装置50可以包括语音接收装置60，用于在语音接收模式期间接收至少一种语言的语音输入。该语音接收装置可以是麦克风或者允许输入音频信号的任何其它设备。语音接收装置60将语音输入传递给处理器62。语音输入可以是一种语言的。语音输入也可以是包括多于一种语言的语句。例如，类似“帝女flower”的歌曲标题可以被理解。对于在它们的元数据中具有翻译标题的数字文件，使用原始标题或者翻译标题都允许访问同一数字文件。例如，“爱是不保留”或者“No Reserve In Love”都允许访问同一数字文件。处理器62可以自动确定语音输入的语言。装置50也可以手动设置语音输入的语言，以使得处理器62不必自动执行任务。处理器62也可以被用于比较在语音接收模式期间接收的语音输入和索引中的条目。语音输入独立于讲话者。预先的录音是不要求的，并且装置50基本是“即取即用”的。装置50中的语音识别模块可以足够健壮以能够不管任何特殊的浓重口音或者含糊的话而对语音输入进行区分。

当所述输入与至少一个信息条目匹配时，链接到所述(一个或多个)信息条目的所述(一个或多个)数字文件被显示在显示器54中，以供用户选择。所显示的(一个或多个)数字文件可以是结果列表，并且用户可以选择所期望的歌曲、所期望的播放列表或者来自所期望的艺术家的歌曲。这些选项仅仅用于示意性目的而不是限制性的。

应当注意，图2中的箭头表示装置50的各个组件之间的数据流的方向。

尽管在前面的描述中描述了本发明的优选实施例，但相关领域技术人员将会理解在不脱离本发明的情况下可以在设计细节或者结构上做出改变和修改。

Claims

1.一种用于访问电子设备中包括多于一个数字文件的集合中的至少一个数字文件的方法，该方法包括：

生成一个索引，所述索引包括从所述集合中的所述多于一个数字文件中的每一个得到的信息条目，所述集合中的每个数字文件的信息被链接到至少一个信息条目；

在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入；确定所述语音输入的语言；

将所述语音接收模式设置为所述语音输入的语言；并且

比较在所述语音接收模式期间接收的语音输入和所述索引中的条目，

其中，当所述语音输入与所述索引中的至少一个信息条目一致时，访问所述文件。

2.如权利要求1所述的方法，其中，所述数字文件选自包括以下内容的组：文档、电子数据表、播放列表、文件夹、音乐文件、图像文件和视频文件。

3.如权利要求1所述的方法，其中，所述信息条目包括至少一个字。

4.如权利要求1所述的方法，其中，所述信息条目从数字文件得到选自包括以下内容的组的信息：文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、经过翻译的歌曲标题、可替代的歌曲标题以及来自远程源的前述任何一种。

5.如权利要求1所述的方法，其中，所述信息条目是任意语言的并且依赖于至少一个字符代码集。

6.如权利要求1所述的方法，其中，所述语音输入是一种语言的或者是至少一种语言的语句。

7.如权利要求1所述的方法，其中，所述数字文件被存储在选自包括以下内容的组的源中：所述电子设备、与所述电子设备功能性地连接的任何设备以及前述设备的组合。

8.如权利要求1所述的方法，其中，所述语音接收模式的语言是通过选自包括以下内容的组的手段设置的：手动选择和自动选择。

9.如权利要求1所述的方法，其中，所述至少一个数字文件是从选自包括以下内容的源接收的：存储设备、有线计算机网络和无线计算机网络。

10.如权利要求1所述的方法，其中，所述电子设备选自包括以下内容的组：台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话。

11.如权利要求1所述的方法，其中，所述语音输入被过滤。

12.一种装置，用于访问在该装置中存储的包括多于一个数字文件的集合中的至少一个数字文件，该装置包括：

索引器，该索引器用于生成索引，所述索引包括从所述集合中的所述多于一个数字文件中的每一个得到的信息条目，所述集合中的每个数字文件的信息被链接到至少一个信息条目；

语音接收装置，该语音接收装置用于在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入；

处理器，该处理器用于确定所述语音输入的语言；并且

所述处理器能够对在所述语音接收模式期间接收的语音输入和所述索引中的条目进行比较，

13.如权利要求12所述的装置，其中，所述装置选自包括以下内容的组：台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话。

14.如权利要求12所述的装置，其中，所述语音接收装置是麦克风。

15.如权利要求12所述的装置，其中，所述用于确定所述语音输入的语言的手段选自包括以下内容的组：自动的和手动的。

16.如权利要求12所述的装置，其中，所述数字文件选自包括以下内容的组：文档、电子数据表、播放列表、文件夹、音乐文件、图像文件和视频文件。

17.如权利要求12所述的装置，其中，所述信息条目包括至少一个字。

18.如权利要求12所述的装置，其中，所述信息条目从数字文件得到选自包括以下内容的组的信息：文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、经过翻译的歌曲标题、可替代的歌曲标题以及来自远程源的前述任何一种。

19.如权利要求12所述的装置，其中，所述信息条目是任意语言的并且依赖于至少一个字符代码集。

20.如权利要求16所述的装置，其中，所述语音输入是一种语言的或者是至少一种语言的语句。

21.如权利要求12所述的装置，其中，所述至少一个数字文件是从选自包括以下内容的源接收的：存储设备、有线计算机网络和无线计算机网络。

22.如权利要求12所述的装置，还包括显示器。

23.如权利要求12所述的装置，其中，所述语音输入被过滤。