CN100495536C

CN100495536C - 利用语音识别访问和检索媒体文件的系统和方法

Info

Publication number: CN100495536C
Application number: CNB038213036A
Authority: CN
Inventors: 大卫·克瑞兹; 卢卡·里加兹; 帕特里克·恩伽元; 让-克劳德·容科
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2002-09-16
Filing date: 2003-09-12
Publication date: 2009-06-03
Anticipated expiration: 2023-09-12
Also published as: EP1543496A4; CN1682279A; AU2003272365A8; JP2005539254A; WO2004025623A3; US6907397B2; AU2003272365A1; WO2004025623A2; US20040054541A1; EP1543496A2

Abstract

一种用于播放媒体文件的嵌入式设备，可以基于用户的输入语音生成媒体文件播放列表。该嵌入式设备包括生成多个语音识别语法的索引器。根据本发明的一方面，索引器基于媒体文件的媒体文件头的内容生成语音识别语法。根据本发明的另一方面，索引器基于用于从用户位置检索媒体文件的文件路径中的种类生成语音识别语法。当语音识别器在选择模式中从用户接收输入语音(404)时，媒体文件选择器将在选择模式中接收到的输入语音与多个语音识别语法进行比较(410)，从而选择媒体文件(418)。

Description

利用语音识别访问和检索媒体文件的系统和方法

技术领域

本发明主要涉及索引与检索的方法和系统，更具体地，涉及基于文件的文本描述利用语音识别来选择媒体文件。

背景技术

诸如MP3播放器等用于播放媒体文件的嵌入式设备的显示和手动输入能力有限。例如，由于空间有限，显示空间因此不会很大，所以不能显示大量的信息。而且，由于空间有限，因此不能提供很多的功能键，所以完整的正文输入很困难和经常不可能有完整的正文输入。结果，查找、存储和检索MP3文件等任务的工作量就很大，并且经常使得用户执行起来很费劲。由于这些原因以及一些类似的原因，已经开发出使用语音识别来访问各种数据库的嵌入式设备。

遗憾的是，语音识别应用于嵌入式设备并没有使得语音识别不再仅仅作为一个人机交互中的输入，其中人机交互的范例主要有按键、微调度盘和触摸屏等。因此，在先前的应用中，只是将输入语音作为同使用微调度盘或某项功能的工作方式相类似的另一个操纵菜单的命令。因此，对于嵌入式设备来说，仍然需要围绕着语音识别和语音设别技术来获取信息。本发明提供了这样的设备。

发明内容

根据本发明，播放媒体文件的嵌入式设备可以基于用户的输入语音生成媒体文件播放列表。该嵌入式设备包括用于产生多个语音识别语法的索引器(indexer)。根据本发明的一个方面，索引器基于媒体文件的媒体文件头内容生成语音识别语法。根据本发明的另一方面，索引器基于用于从用户位置(user location)检索媒体文件的文件路径中的种类生成语音识别语法。当语音识别器在选择模式中从用户接收输入语音时，媒体文件选择器将在选择模式中接收到的输入语音与多个语音识别语法进行比较，从而选择媒体文件。

由于用户可以通过语音输入选择媒体文件，而不需要费劲去产生用于检索文件的索引系统，所以根据本发明的嵌入式设备比之前的媒体文件播放器更有优势。本发明在播放MP3格式的声音文件中特别具有优势，特别是播放音乐文件中具有优势，该类文件的文件头中通常包含了描述性文本(例如名称、艺术家、日期)。描述性文本对产生语音识别语法非常有帮助，其中语音识别语法有助于以对于用户是直觉的方式进行语音驱动搜索。不过，本发明并不局限于MP3格式的声音文件或者音乐文件，而对于选择多种内容类型、不同格式和多层的媒体文件都非常有用。根据下面的详细描述可以清楚了解本发明的其它应用范围。可以意识到，下面的详细说明以及特定的示例指明了本发明的较佳实施例，但仅仅用于对本发明进行说明，并不用于对本发明的范围进行限定。

附图说明

从下面的详细说明以及附图可以更好地理解本发明，其中：

图1为根据本发明的嵌入式设备访问计算机网络中媒体文件的局部结构图。

图2为根据本发明用于给媒体文件编索引而生成语法的方法的数据流程图。

图3A和图3B为根据本发明的给媒体文件编索引的可选方法的流程图。

图4为根据本发明产生临时播放列表的方法的流程图。

图5为根据本发明产生存储的、可编辑播放列表的方法的流程图。

具体实施方式

下面对优选实施例的详细说明实质上只是示范性的，并不用于对本发明及其应用或者使用进行限定。

根据本发明和参照图1，嵌入式设备100具有有限的用于显示播放列表的显示器102和多功能操作按钮104。连同音频输入108和音频输出110一起，还提供了微调度盘106。还提供了例如安全数码(Secure Digital，SD)卡等的数据存储器112。嵌入式设备100可以通过无线或者蓝牙等数据链接116访问诸如互联网等计算机网络114。

在操作中，用户利用语音输入和/或手动输入来浏览计算机网络114，并定位感兴趣的媒体文件118。例如，用户可以下载媒体文件118到数据存储器112，以便将来闲暇时进行访问。在另一个例子中，用户可以使用诸如由专有服务器122提供的电子活动指南(EAG)120来确定互联网上包含媒体文件的流媒体的可用性。用户可以选择保存用于发出流请求的信息，从而以流媒体的形式接收媒体文件118。

根据本发明，创建索引以检索包括语音识别语法的媒体文件，语音识别语法由媒体文件头124的内容，指向计算机网络上媒体文件的文件路径的描述性文本，比如描述性地对数据库内容进行分类的数据库126的名字，和/或例如由EAG 120提供的流派、致谢名单(作曲者，乐队组成，制作者)、和/或次要信息(视频拍摄位置、原产国、乐器类型)等补充信息127所生成。用户还可以进入声音绑定来描述媒体文件，这种方式对用户很有意义。另外，可以基于包含语音的媒体文件内容执行的语音识别产生用于生成语音识别语法的文本。根据可选实施方式和/或使用环境，由此产生的索引可以保存在数据存储器112、专有服务器122的用户账户数据库128、和/或本地服务器130。用户此后可以通过在选择模式中输入语音来选择媒体文件。嵌入式设备100的语音识别器通过产生多个语音识别假设(hypotheses)来识别该语音。把这些假设与索引的识别语法相比较，以选择媒体文件。如果需要，一些或者所有的语音识别假设都可以传送到本地服务器130和/或专有服务器122，从而可以在合适的位置进行比较。

图2所示为根据本发明产生语音识别语法索引200的数据流程图。其中，从多个源中提取出描述媒体文件内容的描述性文本。例如，从已定位媒体文件的文件头提取文本202，还可以从指向计算机网络上媒体文件的文件路径提取文本204。另外，也可以从例如EAG等补充源提取附加文本206。再另外，可以从媒体文件的内容提取已识别语音208。如果存在，同样可以使用来自于用户的已识别语音210。将由此获得的描述性文本传送到滤波函数212。

滤波函数212通过丢弃低音值的词来过滤已获得的描述性文本。例如，可以丢弃歌曲标题中的介词和不包括词的文件路径的内容。这样，将视为重要的词214传送到扩展函数216，扩展函数216产生同义词、和/或重要词的删节版本(可用作通配符)218。例如，视为重要的词“悲伤地(sadly)”可以扩展为同义词“不高兴地(unhappily)”、“悲惨地(miserably)”和/或删节为“悲伤(sad)”。删节词“悲伤(sad)”还可以进一步扩展为同义词来产生“不高兴的(unhappy)”和“悲惨的(miserable)”。扩展词“不高兴地(unhappily)”和/或“不高兴的(unhappy)”也可以删节为“unhap”，进一步扩展成“不高兴(unhappiness)”。

因此，基于视为重要的词214和/或从视为重要的词214获得的扩展(和/或删节)218可以生成关键字列表220。利用字母到声音规则224将关键字列表220中的每个词转化为音素串222。最后，隐马尔可夫模型(HMM)串接器226通过串接音素串222生成语音识别语法索引200，并且媒体文件由生成的语音识别语法索引200编索引。

图3A和图3B示出了根据本发明利用语音识别语法给媒体文件编索引的可选方法的流程图。例如，根据第一可选方法，在300A开始该方法，在302下载媒体文件。根据图2所示的方法在304A产生语音识别语法索引。在305A，进一步产生字段类型，并将字段类型与产生的语法相关联作为元数据。在306，下载的媒体文件存储在诸如数据存储器112(图1)、本地存储器130的存储器、或者数据库128等数据存储器中，并将保存的文件和产生的语音识别语法索引相关联。然后，第一可选方法在308A结束。另外，根据第二可选方法，在300B开始该方法，在310判定计算机网络上媒体文件的可用性。在304B，根据图2所示方法，基于可用媒体文件产生语音识别语法索引。在305B进一步生成字段类型，并将字段类型与生成的语法相关联作为元数据。在312，在诸如数据存储器112(图1)、本地存储器130的存储器、或者数据库128等数据存储器中存储文件的可用性记录，并且将该可用性记录与生成的语音识别语法索引相关联。然后，第二可选方法在308B结束(图3B)。

本发明使用户方便地使用嵌入式设备来播放多种媒体文件。图4示出了根据本发明利用本发明选择媒体文件的方法，产生临时播放列表的方法。其中，响应于用户播放某种类型文件的语音输入，该方法在400开始。例如，如果用户输入对应于“播放U2除了专辑血腥星期天的所有歌曲”，那么进入选择模式并在步骤402初始建立临时播放列表。在步骤404，接收剩下的语音输入“U2除了专辑血腥星期天的所有歌曲“，并且在步骤406生成语音识别假设。

在步骤408，基于某些关键字的识别生成搜索串，例如：“所有歌曲(指定对所有可选MP3文件的搜索)”“U2(指定为由于不被视为关键字而以多个语音识别假设的形式存在的搜索项的第一槽位)，“除了”(指定为布尔逻辑AND NOT)，“专辑”(指定为与后续搜索项槽位相关联的字段类型)，“血腥星期天”(指定为由于不被视为关键字而以多个语音识别假设的形式存在的搜索项的第二槽位)。因此，大概地产生了形式为“所有MP3文件＝＝第一槽位AND NOT(<专辑>AND第二槽位)”的搜索串。作为上述形成的搜索串的结果，在步骤410，当在选择过程中，非关键术语“U2”和“血腥星期天”的语音识别假设与可用文件的语法索引相比较时，选中了艺术家U2除了专辑血腥星期天之外的可选MP3文件。特别地，多个语音识别假设与根据本发明生成的识别语法的比较呈现出如先前所述的固有的“通配符”属性，其中识别语法也根据语音识别过程的特性而生成。例如，根据先前所述的查询，还可能选中不是U2的另一位艺术家的标题为“我也爱你”的歌曲，这样用户也许期望能够在第一槽位指明字段类型<艺术家>。因此，文件选择的质量某种程度上取决于可用文件以及形成搜索串的语音输入的质量。

根据本发明，如果在步骤410的选择尝试不能在步骤412找到很好的匹配，那么在步骤414利用生成的语音向用户建议可选的搜索和/或选择，并返回到步骤404。不过，如果在步骤412寻找到好的匹配，那么在步骤416可以根据流行性、作者姓名、轨道号来重新排序最佳匹配，或者也可以根据用户根据喜好而指定的其它标准来重新排序最佳匹配，其中可能根据属于输入语音的关键字来指定标准。那么，在步骤418，将多个选中的歌曲增加到临时播放列表。在这一步骤中，可以根据用户的喜好判定增加的选中歌曲数目，其中用户可以设定要选择的文件的最大数目。选择也可以由最小置信分数来确定，其中最小置信分数也可以由用户根据喜好改变。而且，用户可以根据属于输入语音的关键字来指定个人喜好，例如，通过声明“播放U2除了专辑血腥星期天最流行的5首音乐”来指定。已识别的关键字“最流行”和“5首音乐”由此可能导致在步骤410选择一些歌曲，接着在步骤416基于流行性重新排序选中的歌曲，并在步骤418中在临时播放列表中添加最前面的5首歌曲。一旦构建了临时播放列表，通过退出选择模式并基于在步骤404接收到的语音输入中的关键字“播放”自动进入播放模式，从而结束该方法。

本发明也方便了用户使用嵌入式设备建立和/或编辑媒体文件播放列表。图5示出了为根据本发明利用本发明选择媒体文件的方法产生存储的、可编辑播放列表的方法。当进入与播放列表生成模式相对应的选择模式时，在500开始该方法。其中，执行到步骤502，其中初始建立空的播放列表，并根据用户的语音输入给其命名。从某种意义来说，播放列表的名字构成语音绑定，用户通过语音绑定可以检索多个媒体文件。因此，当用户给播放列表命名为“我最喜欢的忧愁歌曲”时，那么便给列表当中的所有歌曲都创建了语音绑定，通过该语音绑定，可以随意检索并播放整个列表。

随着空的列表准备好接收媒体文件，该方法在步骤504进入插入模式，然后接着执行到步骤506来接收输入语音。利用语音识别器在步骤508生成语音识别假设，在步骤509基于输入语音中识别的关键字生成搜索串。在步骤510，取决于当前模式，如果如本例所示处于插入模式中，该方法执行到步骤512。因此，语音输入“黄色潜水艇”将产生几个语音识别假设，并且这些语音识别假设在步骤512中与不在播放列表中的文件的语法索引相比较。

如果在步骤514中找到好的匹配，那么在步骤515将最匹配的媒体文件重新排序，并在步骤516自动将最匹配的媒体文件加入到播放列表。如果在步骤514没有找到好的匹配，那么可以在步骤518提示给用户可选的搜索和/或选择建议。可选地，如果有多个文件，那么可以让用户通过手动或者语音输入从显示或者读出的文件中选择一个文件。

利用在步骤516至少部分获得的播放列表，该方法执行到步骤520，在此用户指定新的模式。例如，用户可以通过选择保存播放列表和/或播放该播放列表来指定非选择模式，在这种情况下该方法在522结束。而且，如果用户希望加入更多的歌曲到播放列表中，那么用户可以指定插入模式并且执行到步骤504。另外，如果用户希望从播放列表中删除一个或者多个媒体文件，那么用户可以指定删除模式，并执行到步骤524。然后，在步骤526，在步骤506中接收并在步骤508中识别的输入语音与播放列表中文件的语法索引相比较。如果在步骤528找到好的匹配，匹配的媒体文件在步骤530从列表中删除。如果没有发现好的匹配，那么提示给用户可选的搜索和/或选择的建议。根据在530所编辑的播放列表，用户可以指定新的模式，可以继续扩展播放列表或者进入非选择模式。

根据本发明，可以在不同的情况下进入不同种类的编辑模式。例如，假设用户已经创建了标题为“我的最爱”的播放列表，并且正在收听临时播放列表的情况，用户可以声明：“增加当前选择到我最喜欢的忧愁歌曲中”。这样，可以根据选择当前正在播放的歌曲来编辑相应的播放列表。如果用户正在听仅为随机选中的歌曲，而不是之前选定的歌曲，同样可以执行上述过程。另外，正在建立或者编辑播放列表的用户可以自然地选择增加一首或者多首选中的歌曲到别的已经存在的播放列表。因此，本发明提供了其它的和附加的选择模式。

除了产生播放列表，根据本发明选择媒体文件的方法还有其它进一步的应用。例如：用户可以浏览计算机网络中的可用流媒体，并根据多个不同附有定价的选项，从提供相同歌曲的不同提供者中进行选择。而且，可以用手动输入来执行最终的选择，这样可以使用混合模式的操作。还有，对于混合模式，可以使用手动输入来浏览播放列表和/或可选歌曲的一个或多个索引，并使用语音来执行最终选择。最后，应该意识到，本发明的描述在实质上只是示范性的，因此不脱离本发明主旨的各种变化应该包含在本发明的范围之内。

Claims

1、一种播放媒体文件并基于用户的输入语音生成媒体文件播放列表的嵌入式设备，包括：

索引器，适用于接收媒体文件并生成多个语音识别语法，包括：

(a)第一索引器，基于媒体文件的媒体文件头的已语法分析的内容生成第一语音识别语法；和

(b)第二索引器，基于用于从用户位置检索媒体文件的文件路径中的已语法分析的种类生成第二语音识别语法；

语音识别器，用于在选择模式中时从用户接收输入语音；和

媒体文件选择器，用于将从选择模式接收到的输入语音与多个语音识别语法进行比较，从而选择媒体文件。

2、根据权利要求1所述的设备，其中媒体文件包含语音，并且所述生成多个语音识别语法的索引器包括第三索引器，所述第三索引器识别媒体文件中的语音，并基于在媒体文件中所识别的语音生成第三语音识别语法。

3、根据权利要求1所述的设备，其中所述的索引器包括第五索引器，所述第五索引器基于与媒体文件相关联的补充描述文本生成第五语音识别语法，所述补充描述文本由计算机网络的数据存储器提供。

4、根据权利要求1所述的设备，包括：

数据链接，用于接收计算机网络上的媒体文件；和

数据存储器，用于存储接收到的与多个语音识别语法相关联的媒体文件。

5、根据权利要求1所述的设备，包括播放列表生成器，用于在插入模式中选择媒体文件时，将选中的媒体文件添加到播放列表。

6、根据权利要求1所述的设备，包括播放列表生成器，用于在删除模式中选择媒体文件时，将选中的媒体文件从播放列表中删除。

7、根据权利要求1所述的设备，其中所述索引器通过从文件头和文件路径获得描述性文本，语法分析从计算机网络上获得的媒体文件的文件头和语法分析指向计算机网络上的媒体文件的文件路径。

8、根据权利要求7所述的设备，其中所述索引器基于描述性文本生成语音识别语法索引，并根据该语音识别语法索引给媒体文件编索引。

9、根据权利要求8所述的设备，其中所述索引器用于生成字段类型，并将所述字段类型与语音识别语法索引相关联。

10、根据权利要求9所述的设备，其中所述媒体文件选择器基于在预先设定关键字的输入语音中对布尔算子和字段类型的识别生成搜索串，所述搜索串包括一个或多个用于接收与输入语音中不被视为所述预先设定关键字的词相对应的搜索项的槽位。

11、根据权利要求10所述的设备，进一步包括具有播放列表生成模式和播放列表编辑模式的播放列表管理器，通过在模式管理方式中所述媒体文件选择器包含或者排除播放列表内容的目标应用，所述播放列表编辑模式支持在预先生成的播放列表中通过语音来插入和删除媒体文件。

12、根据权利要求8所述的设备，其中所述索引器通过丢弃相对低音值的词来过滤描述性文本。

13、根据权利要求8所述的设备，其中所述索引器基于描述性文本生成关键字列表，利用字母到声音的规则将关键字转化为音素串，并通过串接所述音位串生成语音识别语法索引。

14、根据权利要求1所述的设备，其中所述索引器生成字段类型，并将所述字段类型与将媒体文件编索引的语音识别语法相关联作为元数据。

15、根据权利要求14所述的设备，其中所述媒体文件选择器基于在预先设定关键字的输入语音中对字段类型的识别生成搜索串，所述搜索串包括一个或多个用于接收与输入语音中不被视为所述预先设定关键字的词相对应的搜索项的槽位。

16、根据权利要求1所述的设备，其中所述媒体文选择器基于在预先设定关键字的输入语音中对布尔算子的识别生成搜索串，所述搜索串包括一个或多个用于接收与输入语音中不被视为所述预先设定关键字的词相对应的搜索项的槽位。

17、一种使用输入语音选择媒体文件的方法，包括：

生成多个语音识别语法，包括：

(a)基于媒体文件的媒体文件头的已语法分析的内容生成第一语音识别语法；

(b)基于用于从用户位置检索媒体文件的文件路径中的已语法分析的种类生成第二语音识别语法；

在选择模式中时从用户接收输入语音；和

将从选择模式接收到的输入语音和多个语音识别语法进行比较，从而选择媒体文件。

18、根据权利要求17所述的方法，其中媒体文件包含语音，该方法包括在语音文件中识别语音，其中所述生成多个语音识别语法包括基于在媒体文件中所识别的语音生成第三语音识别语法。

19、根据权利要求17所述的方法，包括基于与媒体文件相关联的补充描述文本生成第五语音识别语法，所述补充描述文本由计算机网络的数据存储器提供。

20、根据权利要求17所述的方法，包括：

接收计算机网络上的媒体文件；和

存储接收到的与多个语音识别语法相关联的媒体文件到数据存储器中。

21、根据权利要求17所述的方法，包括：

进入插入模式；和

在插入模式中选择媒体文件时，将选中的媒体文件添加到播放列表。

22、根据权利要求17所述的方法，包括：

进入删除模式；和

在删除模式中选择媒体文件时，将选中的媒体文件从播放列表中删除。

23、根据权利要求17所述的方法，进一步包括通过从文件头和文件路径获得描述性文本，语法分析从计算机网络上获得的媒体文件的文件头和语法分析指向计算机网络上的媒体文件的文件路径。

24、根据权利要求23所述的方法，进一步包括：

基于所述描述性文本生成语音识别语法索引；和

根据所述语音识别语法索引给媒体文件编索引。

25、根据权利要求24所述的方法，进一步包括：

生成字段类型；和

将所述字段类型与语音识别语法索引相关联。

26、根据权利要求25所述的方法，进一步包括基于在预先设定关键字的输入语音中对布尔算子和字段类型的识别生成搜索串，所述搜索串包括一个或多个用于接收与输入语音中不被视为所述预先设定关键字的词相对应的搜索项的槽位。

27、根据权利要求24所述的方法，进一步包括通过丢弃相对低音值的词过滤描述性文本。

28、根据权利要求24所述的方法，进一步包括：

基于描述性文本生成关键字列表；和

利用字母到声音的规则将关键字转化为音素串；和

通过串接所述音素串生成语音识别语法索引。

29、根据权利要求17所述的方法，进一步包括：

生成字段类型；和

将所述字段类型与将媒体文件编索引的语音识别语法相关联作为元数据。

30、根据权利要求29所述的方法，进一步包括：

基于在预先设定关键字的输入语音中对字段类型的识别生成搜索串；和

在所述搜索串中的槽位处填入与输入语音中不被视为所述预先设定关键字的词相对应的搜索项。