CN100495536C - 利用语音识别访问和检索媒体文件的系统和方法 - Google Patents

利用语音识别访问和检索媒体文件的系统和方法 Download PDF

Info

Publication number
CN100495536C
CN100495536C CNB038213036A CN03821303A CN100495536C CN 100495536 C CN100495536 C CN 100495536C CN B038213036 A CNB038213036 A CN B038213036A CN 03821303 A CN03821303 A CN 03821303A CN 100495536 C CN100495536 C CN 100495536C
Authority
CN
China
Prior art keywords
media file
speech recognition
file
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB038213036A
Other languages
English (en)
Other versions
CN1682279A (zh
Inventor
大卫·克瑞兹
卢卡·里加兹
帕特里克·恩伽元
让-克劳德·容科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1682279A publication Critical patent/CN1682279A/zh
Application granted granted Critical
Publication of CN100495536C publication Critical patent/CN100495536C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于播放媒体文件的嵌入式设备,可以基于用户的输入语音生成媒体文件播放列表。该嵌入式设备包括生成多个语音识别语法的索引器。根据本发明的一方面,索引器基于媒体文件的媒体文件头的内容生成语音识别语法。根据本发明的另一方面,索引器基于用于从用户位置检索媒体文件的文件路径中的种类生成语音识别语法。当语音识别器在选择模式中从用户接收输入语音(404)时,媒体文件选择器将在选择模式中接收到的输入语音与多个语音识别语法进行比较(410),从而选择媒体文件(418)。

Description

利用语音识别访问和检索媒体文件的系统和方法
技术领域
本发明主要涉及索引与检索的方法和系统,更具体地,涉及基于文件的文本描述利用语音识别来选择媒体文件。
背景技术
诸如MP3播放器等用于播放媒体文件的嵌入式设备的显示和手动输入能力有限。例如,由于空间有限,显示空间因此不会很大,所以不能显示大量的信息。而且,由于空间有限,因此不能提供很多的功能键,所以完整的正文输入很困难和经常不可能有完整的正文输入。结果,查找、存储和检索MP3文件等任务的工作量就很大,并且经常使得用户执行起来很费劲。由于这些原因以及一些类似的原因,已经开发出使用语音识别来访问各种数据库的嵌入式设备。
遗憾的是,语音识别应用于嵌入式设备并没有使得语音识别不再仅仅作为一个人机交互中的输入,其中人机交互的范例主要有按键、微调度盘和触摸屏等。因此,在先前的应用中,只是将输入语音作为同使用微调度盘或某项功能的工作方式相类似的另一个操纵菜单的命令。因此,对于嵌入式设备来说,仍然需要围绕着语音识别和语音设别技术来获取信息。本发明提供了这样的设备。
发明内容
根据本发明,播放媒体文件的嵌入式设备可以基于用户的输入语音生成媒体文件播放列表。该嵌入式设备包括用于产生多个语音识别语法的索引器(indexer)。根据本发明的一个方面,索引器基于媒体文件的媒体文件头内容生成语音识别语法。根据本发明的另一方面,索引器基于用于从用户位置(user location)检索媒体文件的文件路径中的种类生成语音识别语法。当语音识别器在选择模式中从用户接收输入语音时,媒体文件选择器将在选择模式中接收到的输入语音与多个语音识别语法进行比较,从而选择媒体文件。
由于用户可以通过语音输入选择媒体文件,而不需要费劲去产生用于检索文件的索引系统,所以根据本发明的嵌入式设备比之前的媒体文件播放器更有优势。本发明在播放MP3格式的声音文件中特别具有优势,特别是播放音乐文件中具有优势,该类文件的文件头中通常包含了描述性文本(例如名称、艺术家、日期)。描述性文本对产生语音识别语法非常有帮助,其中语音识别语法有助于以对于用户是直觉的方式进行语音驱动搜索。不过,本发明并不局限于MP3格式的声音文件或者音乐文件,而对于选择多种内容类型、不同格式和多层的媒体文件都非常有用。根据下面的详细描述可以清楚了解本发明的其它应用范围。可以意识到,下面的详细说明以及特定的示例指明了本发明的较佳实施例,但仅仅用于对本发明进行说明,并不用于对本发明的范围进行限定。
附图说明
从下面的详细说明以及附图可以更好地理解本发明,其中:
图1为根据本发明的嵌入式设备访问计算机网络中媒体文件的局部结构图。
图2为根据本发明用于给媒体文件编索引而生成语法的方法的数据流程图。
图3A和图3B为根据本发明的给媒体文件编索引的可选方法的流程图。
图4为根据本发明产生临时播放列表的方法的流程图。
图5为根据本发明产生存储的、可编辑播放列表的方法的流程图。
具体实施方式
下面对优选实施例的详细说明实质上只是示范性的,并不用于对本发明及其应用或者使用进行限定。
根据本发明和参照图1,嵌入式设备100具有有限的用于显示播放列表的显示器102和多功能操作按钮104。连同音频输入108和音频输出110一起,还提供了微调度盘106。还提供了例如安全数码(Secure Digital,SD)卡等的数据存储器112。嵌入式设备100可以通过无线或者蓝牙等数据链接116访问诸如互联网等计算机网络114。
在操作中,用户利用语音输入和/或手动输入来浏览计算机网络114,并定位感兴趣的媒体文件118。例如,用户可以下载媒体文件118到数据存储器112,以便将来闲暇时进行访问。在另一个例子中,用户可以使用诸如由专有服务器122提供的电子活动指南(EAG)120来确定互联网上包含媒体文件的流媒体的可用性。用户可以选择保存用于发出流请求的信息,从而以流媒体的形式接收媒体文件118。
根据本发明,创建索引以检索包括语音识别语法的媒体文件,语音识别语法由媒体文件头124的内容,指向计算机网络上媒体文件的文件路径的描述性文本,比如描述性地对数据库内容进行分类的数据库126的名字,和/或例如由EAG 120提供的流派、致谢名单(作曲者,乐队组成,制作者)、和/或次要信息(视频拍摄位置、原产国、乐器类型)等补充信息127所生成。用户还可以进入声音绑定来描述媒体文件,这种方式对用户很有意义。另外,可以基于包含语音的媒体文件内容执行的语音识别产生用于生成语音识别语法的文本。根据可选实施方式和/或使用环境,由此产生的索引可以保存在数据存储器112、专有服务器122的用户账户数据库128、和/或本地服务器130。用户此后可以通过在选择模式中输入语音来选择媒体文件。嵌入式设备100的语音识别器通过产生多个语音识别假设(hypotheses)来识别该语音。把这些假设与索引的识别语法相比较,以选择媒体文件。如果需要,一些或者所有的语音识别假设都可以传送到本地服务器130和/或专有服务器122,从而可以在合适的位置进行比较。
图2所示为根据本发明产生语音识别语法索引200的数据流程图。其中,从多个源中提取出描述媒体文件内容的描述性文本。例如,从已定位媒体文件的文件头提取文本202,还可以从指向计算机网络上媒体文件的文件路径提取文本204。另外,也可以从例如EAG等补充源提取附加文本206。再另外,可以从媒体文件的内容提取已识别语音208。如果存在,同样可以使用来自于用户的已识别语音210。将由此获得的描述性文本传送到滤波函数212。
滤波函数212通过丢弃低音值的词来过滤已获得的描述性文本。例如,可以丢弃歌曲标题中的介词和不包括词的文件路径的内容。这样,将视为重要的词214传送到扩展函数216,扩展函数216产生同义词、和/或重要词的删节版本(可用作通配符)218。例如,视为重要的词“悲伤地(sadly)”可以扩展为同义词“不高兴地(unhappily)”、“悲惨地(miserably)”和/或删节为“悲伤(sad)”。删节词“悲伤(sad)”还可以进一步扩展为同义词来产生“不高兴的(unhappy)”和“悲惨的(miserable)”。扩展词“不高兴地(unhappily)”和/或“不高兴的(unhappy)”也可以删节为“unhap”,进一步扩展成“不高兴(unhappiness)”。
因此,基于视为重要的词214和/或从视为重要的词214获得的扩展(和/或删节)218可以生成关键字列表220。利用字母到声音规则224将关键字列表220中的每个词转化为音素串222。最后,隐马尔可夫模型(HMM)串接器226通过串接音素串222生成语音识别语法索引200,并且媒体文件由生成的语音识别语法索引200编索引。
图3A和图3B示出了根据本发明利用语音识别语法给媒体文件编索引的可选方法的流程图。例如,根据第一可选方法,在300A开始该方法,在302下载媒体文件。根据图2所示的方法在304A产生语音识别语法索引。在305A,进一步产生字段类型,并将字段类型与产生的语法相关联作为元数据。在306,下载的媒体文件存储在诸如数据存储器112(图1)、本地存储器130的存储器、或者数据库128等数据存储器中,并将保存的文件和产生的语音识别语法索引相关联。然后,第一可选方法在308A结束。另外,根据第二可选方法,在300B开始该方法,在310判定计算机网络上媒体文件的可用性。在304B,根据图2所示方法,基于可用媒体文件产生语音识别语法索引。在305B进一步生成字段类型,并将字段类型与生成的语法相关联作为元数据。在312,在诸如数据存储器112(图1)、本地存储器130的存储器、或者数据库128等数据存储器中存储文件的可用性记录,并且将该可用性记录与生成的语音识别语法索引相关联。然后,第二可选方法在308B结束(图3B)。
本发明使用户方便地使用嵌入式设备来播放多种媒体文件。图4示出了根据本发明利用本发明选择媒体文件的方法,产生临时播放列表的方法。其中,响应于用户播放某种类型文件的语音输入,该方法在400开始。例如,如果用户输入对应于“播放U2除了专辑血腥星期天的所有歌曲”,那么进入选择模式并在步骤402初始建立临时播放列表。在步骤404,接收剩下的语音输入“U2除了专辑血腥星期天的所有歌曲“,并且在步骤406生成语音识别假设。
在步骤408,基于某些关键字的识别生成搜索串,例如:“所有歌曲(指定对所有可选MP3文件的搜索)”“U2(指定为由于不被视为关键字而以多个语音识别假设的形式存在的搜索项的第一槽位),“除了”(指定为布尔逻辑AND NOT),“专辑”(指定为与后续搜索项槽位相关联的字段类型),“血腥星期天”(指定为由于不被视为关键字而以多个语音识别假设的形式存在的搜索项的第二槽位)。因此,大概地产生了形式为“所有MP3文件==第一槽位AND NOT(<专辑>AND第二槽位)”的搜索串。作为上述形成的搜索串的结果,在步骤410,当在选择过程中,非关键术语“U2”和“血腥星期天”的语音识别假设与可用文件的语法索引相比较时,选中了艺术家U2除了专辑血腥星期天之外的可选MP3文件。特别地,多个语音识别假设与根据本发明生成的识别语法的比较呈现出如先前所述的固有的“通配符”属性,其中识别语法也根据语音识别过程的特性而生成。例如,根据先前所述的查询,还可能选中不是U2的另一位艺术家的标题为“我也爱你”的歌曲,这样用户也许期望能够在第一槽位指明字段类型<艺术家>。因此,文件选择的质量某种程度上取决于可用文件以及形成搜索串的语音输入的质量。
根据本发明,如果在步骤410的选择尝试不能在步骤412找到很好的匹配,那么在步骤414利用生成的语音向用户建议可选的搜索和/或选择,并返回到步骤404。不过,如果在步骤412寻找到好的匹配,那么在步骤416可以根据流行性、作者姓名、轨道号来重新排序最佳匹配,或者也可以根据用户根据喜好而指定的其它标准来重新排序最佳匹配,其中可能根据属于输入语音的关键字来指定标准。那么,在步骤418,将多个选中的歌曲增加到临时播放列表。在这一步骤中,可以根据用户的喜好判定增加的选中歌曲数目,其中用户可以设定要选择的文件的最大数目。选择也可以由最小置信分数来确定,其中最小置信分数也可以由用户根据喜好改变。而且,用户可以根据属于输入语音的关键字来指定个人喜好,例如,通过声明“播放U2除了专辑血腥星期天最流行的5首音乐”来指定。已识别的关键字“最流行”和“5首音乐”由此可能导致在步骤410选择一些歌曲,接着在步骤416基于流行性重新排序选中的歌曲,并在步骤418中在临时播放列表中添加最前面的5首歌曲。一旦构建了临时播放列表,通过退出选择模式并基于在步骤404接收到的语音输入中的关键字“播放”自动进入播放模式,从而结束该方法。
本发明也方便了用户使用嵌入式设备建立和/或编辑媒体文件播放列表。图5示出了为根据本发明利用本发明选择媒体文件的方法产生存储的、可编辑播放列表的方法。当进入与播放列表生成模式相对应的选择模式时,在500开始该方法。其中,执行到步骤502,其中初始建立空的播放列表,并根据用户的语音输入给其命名。从某种意义来说,播放列表的名字构成语音绑定,用户通过语音绑定可以检索多个媒体文件。因此,当用户给播放列表命名为“我最喜欢的忧愁歌曲”时,那么便给列表当中的所有歌曲都创建了语音绑定,通过该语音绑定,可以随意检索并播放整个列表。
随着空的列表准备好接收媒体文件,该方法在步骤504进入插入模式,然后接着执行到步骤506来接收输入语音。利用语音识别器在步骤508生成语音识别假设,在步骤509基于输入语音中识别的关键字生成搜索串。在步骤510,取决于当前模式,如果如本例所示处于插入模式中,该方法执行到步骤512。因此,语音输入“黄色潜水艇”将产生几个语音识别假设,并且这些语音识别假设在步骤512中与不在播放列表中的文件的语法索引相比较。
如果在步骤514中找到好的匹配,那么在步骤515将最匹配的媒体文件重新排序,并在步骤516自动将最匹配的媒体文件加入到播放列表。如果在步骤514没有找到好的匹配,那么可以在步骤518提示给用户可选的搜索和/或选择建议。可选地,如果有多个文件,那么可以让用户通过手动或者语音输入从显示或者读出的文件中选择一个文件。
利用在步骤516至少部分获得的播放列表,该方法执行到步骤520,在此用户指定新的模式。例如,用户可以通过选择保存播放列表和/或播放该播放列表来指定非选择模式,在这种情况下该方法在522结束。而且,如果用户希望加入更多的歌曲到播放列表中,那么用户可以指定插入模式并且执行到步骤504。另外,如果用户希望从播放列表中删除一个或者多个媒体文件,那么用户可以指定删除模式,并执行到步骤524。然后,在步骤526,在步骤506中接收并在步骤508中识别的输入语音与播放列表中文件的语法索引相比较。如果在步骤528找到好的匹配,匹配的媒体文件在步骤530从列表中删除。如果没有发现好的匹配,那么提示给用户可选的搜索和/或选择的建议。根据在530所编辑的播放列表,用户可以指定新的模式,可以继续扩展播放列表或者进入非选择模式。
根据本发明,可以在不同的情况下进入不同种类的编辑模式。例如,假设用户已经创建了标题为“我的最爱”的播放列表,并且正在收听临时播放列表的情况,用户可以声明:“增加当前选择到我最喜欢的忧愁歌曲中”。这样,可以根据选择当前正在播放的歌曲来编辑相应的播放列表。如果用户正在听仅为随机选中的歌曲,而不是之前选定的歌曲,同样可以执行上述过程。另外,正在建立或者编辑播放列表的用户可以自然地选择增加一首或者多首选中的歌曲到别的已经存在的播放列表。因此,本发明提供了其它的和附加的选择模式。
除了产生播放列表,根据本发明选择媒体文件的方法还有其它进一步的应用。例如:用户可以浏览计算机网络中的可用流媒体,并根据多个不同附有定价的选项,从提供相同歌曲的不同提供者中进行选择。而且,可以用手动输入来执行最终的选择,这样可以使用混合模式的操作。还有,对于混合模式,可以使用手动输入来浏览播放列表和/或可选歌曲的一个或多个索引,并使用语音来执行最终选择。最后,应该意识到,本发明的描述在实质上只是示范性的,因此不脱离本发明主旨的各种变化应该包含在本发明的范围之内。

Claims (30)

1、一种播放媒体文件并基于用户的输入语音生成媒体文件播放列表的嵌入式设备,包括:
索引器,适用于接收媒体文件并生成多个语音识别语法,包括:
(a)第一索引器,基于媒体文件的媒体文件头的已语法分析的内容生成第一语音识别语法;和
(b)第二索引器,基于用于从用户位置检索媒体文件的文件路径中的已语法分析的种类生成第二语音识别语法;
语音识别器,用于在选择模式中时从用户接收输入语音;和
媒体文件选择器,用于将从选择模式接收到的输入语音与多个语音识别语法进行比较,从而选择媒体文件。
2、根据权利要求1所述的设备,其中媒体文件包含语音,并且所述生成多个语音识别语法的索引器包括第三索引器,所述第三索引器识别媒体文件中的语音,并基于在媒体文件中所识别的语音生成第三语音识别语法。
3、根据权利要求1所述的设备,其中所述的索引器包括第五索引器,所述第五索引器基于与媒体文件相关联的补充描述文本生成第五语音识别语法,所述补充描述文本由计算机网络的数据存储器提供。
4、根据权利要求1所述的设备,包括:
数据链接,用于接收计算机网络上的媒体文件;和
数据存储器,用于存储接收到的与多个语音识别语法相关联的媒体文件。
5、根据权利要求1所述的设备,包括播放列表生成器,用于在插入模式中选择媒体文件时,将选中的媒体文件添加到播放列表。
6、根据权利要求1所述的设备,包括播放列表生成器,用于在删除模式中选择媒体文件时,将选中的媒体文件从播放列表中删除。
7、根据权利要求1所述的设备,其中所述索引器通过从文件头和文件路径获得描述性文本,语法分析从计算机网络上获得的媒体文件的文件头和语法分析指向计算机网络上的媒体文件的文件路径。
8、根据权利要求7所述的设备,其中所述索引器基于描述性文本生成语音识别语法索引,并根据该语音识别语法索引给媒体文件编索引。
9、根据权利要求8所述的设备,其中所述索引器用于生成字段类型,并将所述字段类型与语音识别语法索引相关联。
10、根据权利要求9所述的设备,其中所述媒体文件选择器基于在预先设定关键字的输入语音中对布尔算子和字段类型的识别生成搜索串,所述搜索串包括一个或多个用于接收与输入语音中不被视为所述预先设定关键字的词相对应的搜索项的槽位。
11、根据权利要求10所述的设备,进一步包括具有播放列表生成模式和播放列表编辑模式的播放列表管理器,通过在模式管理方式中所述媒体文件选择器包含或者排除播放列表内容的目标应用,所述播放列表编辑模式支持在预先生成的播放列表中通过语音来插入和删除媒体文件。
12、根据权利要求8所述的设备,其中所述索引器通过丢弃相对低音值的词来过滤描述性文本。
13、根据权利要求8所述的设备,其中所述索引器基于描述性文本生成关键字列表,利用字母到声音的规则将关键字转化为音素串,并通过串接所述音位串生成语音识别语法索引。
14、根据权利要求1所述的设备,其中所述索引器生成字段类型,并将所述字段类型与将媒体文件编索引的语音识别语法相关联作为元数据。
15、根据权利要求14所述的设备,其中所述媒体文件选择器基于在预先设定关键字的输入语音中对字段类型的识别生成搜索串,所述搜索串包括一个或多个用于接收与输入语音中不被视为所述预先设定关键字的词相对应的搜索项的槽位。
16、根据权利要求1所述的设备,其中所述媒体文选择器基于在预先设定关键字的输入语音中对布尔算子的识别生成搜索串,所述搜索串包括一个或多个用于接收与输入语音中不被视为所述预先设定关键字的词相对应的搜索项的槽位。
17、一种使用输入语音选择媒体文件的方法,包括:
生成多个语音识别语法,包括:
(a)基于媒体文件的媒体文件头的已语法分析的内容生成第一语音识别语法;
(b)基于用于从用户位置检索媒体文件的文件路径中的已语法分析的种类生成第二语音识别语法;
在选择模式中时从用户接收输入语音;和
将从选择模式接收到的输入语音和多个语音识别语法进行比较,从而选择媒体文件。
18、根据权利要求17所述的方法,其中媒体文件包含语音,该方法包括在语音文件中识别语音,其中所述生成多个语音识别语法包括基于在媒体文件中所识别的语音生成第三语音识别语法。
19、根据权利要求17所述的方法,包括基于与媒体文件相关联的补充描述文本生成第五语音识别语法,所述补充描述文本由计算机网络的数据存储器提供。
20、根据权利要求17所述的方法,包括:
接收计算机网络上的媒体文件;和
存储接收到的与多个语音识别语法相关联的媒体文件到数据存储器中。
21、根据权利要求17所述的方法,包括:
进入插入模式;和
在插入模式中选择媒体文件时,将选中的媒体文件添加到播放列表。
22、根据权利要求17所述的方法,包括:
进入删除模式;和
在删除模式中选择媒体文件时,将选中的媒体文件从播放列表中删除。
23、根据权利要求17所述的方法,进一步包括通过从文件头和文件路径获得描述性文本,语法分析从计算机网络上获得的媒体文件的文件头和语法分析指向计算机网络上的媒体文件的文件路径。
24、根据权利要求23所述的方法,进一步包括:
基于所述描述性文本生成语音识别语法索引;和
根据所述语音识别语法索引给媒体文件编索引。
25、根据权利要求24所述的方法,进一步包括:
生成字段类型;和
将所述字段类型与语音识别语法索引相关联。
26、根据权利要求25所述的方法,进一步包括基于在预先设定关键字的输入语音中对布尔算子和字段类型的识别生成搜索串,所述搜索串包括一个或多个用于接收与输入语音中不被视为所述预先设定关键字的词相对应的搜索项的槽位。
27、根据权利要求24所述的方法,进一步包括通过丢弃相对低音值的词过滤描述性文本。
28、根据权利要求24所述的方法,进一步包括:
基于描述性文本生成关键字列表;和
利用字母到声音的规则将关键字转化为音素串;和
通过串接所述音素串生成语音识别语法索引。
29、根据权利要求17所述的方法,进一步包括:
生成字段类型;和
将所述字段类型与将媒体文件编索引的语音识别语法相关联作为元数据。
30、根据权利要求29所述的方法,进一步包括:
基于在预先设定关键字的输入语音中对字段类型的识别生成搜索串;和
在所述搜索串中的槽位处填入与输入语音中不被视为所述预先设定关键字的词相对应的搜索项。
CNB038213036A 2002-09-16 2003-09-12 利用语音识别访问和检索媒体文件的系统和方法 Expired - Lifetime CN100495536C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/245,727 US6907397B2 (en) 2002-09-16 2002-09-16 System and method of media file access and retrieval using speech recognition
US10/245,727 2002-09-16

Publications (2)

Publication Number Publication Date
CN1682279A CN1682279A (zh) 2005-10-12
CN100495536C true CN100495536C (zh) 2009-06-03

Family

ID=31992179

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038213036A Expired - Lifetime CN100495536C (zh) 2002-09-16 2003-09-12 利用语音识别访问和检索媒体文件的系统和方法

Country Status (6)

Country Link
US (1) US6907397B2 (zh)
EP (1) EP1543496A4 (zh)
JP (1) JP2005539254A (zh)
CN (1) CN100495536C (zh)
AU (1) AU2003272365A1 (zh)
WO (1) WO2004025623A2 (zh)

Families Citing this family (196)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6934675B2 (en) * 2001-06-14 2005-08-23 Stephen C. Glinski Methods and systems for enabling speech-based internet searches
US20040064306A1 (en) * 2002-09-30 2004-04-01 Wolf Peter P. Voice activated music playback system
JP2004163590A (ja) * 2002-11-12 2004-06-10 Denso Corp 再生装置及びプログラム
US7346320B2 (en) * 2003-01-17 2008-03-18 International Business Machines Corporation Method and apparatus for dynamically tuning radio stations with user-defined play lists
JP2004289530A (ja) * 2003-03-24 2004-10-14 Orion Denki Kk 記録再生装置
US20050138069A1 (en) * 2003-12-19 2005-06-23 General Motors Corporation Providing a playlist package of digitized entertainment files for storage and playback
JP2007533235A (ja) * 2004-04-15 2007-11-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ メディアコンテンツ処理装置の制御方法及びメディアコンテンツ処理装置
US7725010B2 (en) * 2004-08-17 2010-05-25 Lg Electronics, Inc. Method and apparatus of reproducing data recorded on recording medium and local storage
US7609945B2 (en) * 2004-08-17 2009-10-27 Lg Electronics Inc. Recording medium, and method and apparatus for reproducing data from the recording medium
US7609939B2 (en) * 2004-08-17 2009-10-27 Lg Electronics Inc. Method and apparatus of reproducing data recorded on recording medium and local storage
US7613384B2 (en) * 2004-08-17 2009-11-03 Lg Electronics Inc. Method for configuring composite file structure for data reproduction, and method and apparatus for reproducing data using the composite file structure
US7599611B2 (en) * 2004-09-13 2009-10-06 Lg Electronics Co. Recording medium, and method and apparatus of reproducing data recorded on the same
US20060056804A1 (en) * 2004-09-13 2006-03-16 Seo Kang S Recording medium, and method and apparatus for reproducing data from the recording medium
WO2006031048A2 (en) * 2004-09-13 2006-03-23 Lg Electronics Inc. Method and apparatus for reproducing a data recorded in recording medium using a local storage
WO2006031049A2 (en) * 2004-09-13 2006-03-23 Lg Electronics Inc. Method and apparatus for reproducing data from recording medium using local storage
US20060077817A1 (en) * 2004-09-13 2006-04-13 Seo Kang S Method and apparatus for reproducing data from recording medium using local storage
EP1638336A1 (en) * 2004-09-17 2006-03-22 Korea Electronics Technology Institute Method for providing requested fields by get-data operation in TV-Anytime metadata service
KR20060047549A (ko) * 2004-10-12 2006-05-18 엘지전자 주식회사 로컬 스토리지를 이용한 기록매체 재생방법 및 재생장치
US7783161B2 (en) * 2004-11-08 2010-08-24 Lg Electronics Inc. Method and apparatus for reproducing data from recording medium using local storage
KR20060063601A (ko) * 2004-12-03 2006-06-12 엘지전자 주식회사 로컬 스토리지에 데이터를 다운로드/업데이트 하는 방법 및장치
KR20060065476A (ko) * 2004-12-10 2006-06-14 엘지전자 주식회사 기록매체, 기록매체 내의 콘텐츠 서치방법 및 기록매체재생방법과 재생장치
TWI258087B (en) * 2004-12-31 2006-07-11 Delta Electronics Inc Voice input method and system for portable device
KR20060081323A (ko) 2005-01-07 2006-07-12 엘지전자 주식회사 로컬 스토리지를 이용한 기록매체 재생방법 및 재생장치
CN100349109C (zh) * 2005-01-27 2007-11-14 台达电子工业股份有限公司 手持随身装置的语音输入方法及系统
EP1693829B1 (en) * 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Voice-controlled data system
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
CN1825431B (zh) * 2005-02-23 2010-12-29 台达电子工业股份有限公司 语音辨识方法及系统
US20060206339A1 (en) * 2005-03-11 2006-09-14 Silvera Marja M System and method for voice-enabled media content selection on mobile devices
US7634407B2 (en) * 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
WO2007008248A2 (en) * 2005-07-11 2007-01-18 Voicedemand, Inc. Voice control of a media player
CN1924996B (zh) * 2005-08-31 2011-06-29 台达电子工业股份有限公司 利用语音辨识以选取声音内容的系统及其方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7567904B2 (en) * 2005-10-17 2009-07-28 Kent Layher Mobile listing system
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
SG133419A1 (en) * 2005-12-12 2007-07-30 Creative Tech Ltd A method and apparatus for accessing a digital file from a collection of digital files
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
EP1818837B1 (en) * 2006-02-10 2009-08-19 Harman Becker Automotive Systems GmbH System for a speech-driven selection of an audio file and method therefor
KR100760301B1 (ko) * 2006-02-23 2007-09-19 삼성전자주식회사 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
EP1826686B1 (en) 2006-02-28 2013-08-28 Harman Becker Automotive Systems GmbH Voice-controlled multimedia retrieval system
US20070225970A1 (en) * 2006-03-21 2007-09-27 Kady Mark A Multi-context voice recognition system for long item list searches
US7855548B2 (en) * 2006-03-29 2010-12-21 Levinton Manufacturing Co., Inc. Low labor enclosure assembly
US7668721B2 (en) * 2006-05-22 2010-02-23 Microsoft Corporation Indexing and strong verbal content
KR100856407B1 (ko) * 2006-07-06 2008-09-04 삼성전자주식회사 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
US7620551B2 (en) 2006-07-20 2009-11-17 Mspot, Inc. Method and apparatus for providing search capability and targeted advertising for audio, image, and video content over the internet
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9087507B2 (en) * 2006-09-15 2015-07-21 Yahoo! Inc. Aural skimming and scrolling
US7831431B2 (en) 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
US7801729B2 (en) * 2007-03-13 2010-09-21 Sensory, Inc. Using multiple attributes to create a voice search playlist
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080312935A1 (en) * 2007-06-18 2008-12-18 Mau Ii Frederick W Media device with speech recognition and method for using same
JP4478892B2 (ja) * 2007-07-11 2010-06-09 ソニー株式会社 コンテンツ送信装置、コンテンツ送信方法及びコンテンツ送信プログラム
US8010345B2 (en) * 2007-12-18 2011-08-30 International Business Machines Corporation Providing speech recognition data to a speech enabled device when providing a new entry that is selectable via a speech recognition interface of the device
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090287626A1 (en) * 2008-05-14 2009-11-19 Microsoft Corporation Multi-modal query generation
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100036666A1 (en) * 2008-08-08 2010-02-11 Gm Global Technology Operations, Inc. Method and system for providing meta data for a work
US8078397B1 (en) 2008-08-22 2011-12-13 Boadin Technology, LLC System, method, and computer program product for social networking utilizing a vehicular assembly
US8265862B1 (en) 2008-08-22 2012-09-11 Boadin Technology, LLC System, method, and computer program product for communicating location-related information
US8073590B1 (en) 2008-08-22 2011-12-06 Boadin Technology, LLC System, method, and computer program product for utilizing a communication channel of a mobile device by a vehicular assembly
US8131458B1 (en) 2008-08-22 2012-03-06 Boadin Technology, LLC System, method, and computer program product for instant messaging utilizing a vehicular assembly
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
DE102009024570A1 (de) * 2009-06-08 2010-12-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Organisieren der Wiedergabe von Medienstücken
US8290780B2 (en) * 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
KR20110103626A (ko) * 2010-03-15 2011-09-21 삼성전자주식회사 휴대용 단말기에서 멀티미디어 데이터에 대한 태그 정보를 제공하기 위한 장치 및 방법
US20110231189A1 (en) * 2010-03-19 2011-09-22 Nuance Communications, Inc. Methods and apparatus for extracting alternate media titles to facilitate speech recognition
US10073920B1 (en) * 2010-03-26 2018-09-11 Open Invention Network Llc System and method for automatic posting to mediums with a users current interests
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8489398B1 (en) * 2011-01-14 2013-07-16 Google Inc. Disambiguation of spoken proper names
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN103200329A (zh) * 2013-04-10 2013-07-10 威盛电子股份有限公司 语音操控方法、移动终端装置及语音操控系统
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
KR102128107B1 (ko) * 2013-09-30 2020-06-29 에스케이플래닛 주식회사 WebRTC 기반의 음성정보검색 서비스 제공 시스템 및 그 방법
KR101537370B1 (ko) 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US11182431B2 (en) * 2014-10-03 2021-11-23 Disney Enterprises, Inc. Voice searching metadata through media content
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN104679855B (zh) * 2015-02-13 2019-04-05 Oppo广东移动通信有限公司 一种播放列表创建方法及终端设备
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9984115B2 (en) * 2016-02-05 2018-05-29 Patrick Colangelo Message augmentation system and method
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) * 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018056105A1 (ja) * 2016-09-26 2018-03-29 ソニー株式会社 情報処理装置、情報処理方法、プログラム、および情報処理システム
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107342082A (zh) * 2017-06-29 2017-11-10 北京小米移动软件有限公司 基于语音交互的音频处理方法、装置及音频播放设备
CN107480129A (zh) * 2017-07-18 2017-12-15 上海斐讯数据通信技术有限公司 一种基于视觉识别和语音识别的物品位置识别方法及系统
CN109446376B (zh) * 2018-10-31 2021-06-25 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5511213A (en) * 1992-05-08 1996-04-23 Correa; Nelson Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6334102B1 (en) * 1999-09-13 2001-12-25 International Business Machines Corp. Method of adding vocabulary to a speech recognition system
KR100339587B1 (ko) * 2000-01-26 2002-06-03 구자홍 Mp3 플레이어 겸용 휴대폰에서 음성 인식에 의한 선곡방법
US6434529B1 (en) * 2000-02-16 2002-08-13 Sun Microsystems, Inc. System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system

Also Published As

Publication number Publication date
EP1543496A4 (en) 2006-02-15
CN1682279A (zh) 2005-10-12
AU2003272365A8 (en) 2004-04-30
JP2005539254A (ja) 2005-12-22
WO2004025623A3 (en) 2004-07-15
US6907397B2 (en) 2005-06-14
AU2003272365A1 (en) 2004-04-30
WO2004025623A2 (en) 2004-03-25
US20040054541A1 (en) 2004-03-18
EP1543496A2 (en) 2005-06-22

Similar Documents

Publication Publication Date Title
CN100495536C (zh) 利用语音识别访问和检索媒体文件的系统和方法
US7680853B2 (en) Clickable snippets in audio/video search results
CN102549652B (zh) 信息检索装置
US7143102B2 (en) Autogenerated play lists from search criteria
US7546288B2 (en) Matching media file metadata to standardized metadata
RU2494476C2 (ru) Способ и система для предоставления речевого интерфейса
US20140075306A1 (en) Music search and retrieval system
CN101996627B (zh) 语音处理装置、语音处理方法和程序
US20040194611A1 (en) Music delivery system
KR20080043358A (ko) 재생 디바이스의 동작을 제어하는 방법 및 시스템
KR20080000203A (ko) 음성인식을 이용한 음악 파일 검색 방법
WO2011091402A1 (en) Voice electronic listening assistant
KR100676863B1 (ko) 음악 검색 서비스 제공 시스템 및 방법
EP1403852B1 (en) Voice activated music playback system
US20060253433A1 (en) Method and apparatus for knowledge-based music searching and method and apparatus for managing music file
CN110309345A (zh) 基于车载收音机的在线歌曲搜索方法与搜索引擎
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
US20080005673A1 (en) Rapid file selection interface
US20120304064A1 (en) Software Method to Create a Music Playlist and a Video Playlist from Upcoming Concerts
CN101925897A (zh) 建议用于与内容数据项同步再现的伴奏乐曲的方法
JP2004333605A (ja) 前後の検索結果利用型類似音楽検索装置,前後の検索結果利用型類似音楽検索処理方法,前後の検索結果利用型類似音楽検索プログラムおよびそのプログラムの記録媒体
JP4103715B2 (ja) 楽曲情報配信システム
JP2006243887A (ja) 情報検索装置および方法ならびにコンピュータプログラム
KR101576683B1 (ko) 히스토리 저장모듈을 포함하는 오디오 재생장치 및 재생방법
JP2002157255A (ja) 楽曲検索装置及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140709

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140709

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20090603