CN101341531A - 访问数字文件集合中的数字文件的方法和装置 - Google Patents
访问数字文件集合中的数字文件的方法和装置 Download PDFInfo
- Publication number
- CN101341531A CN101341531A CNA2006800468015A CN200680046801A CN101341531A CN 101341531 A CN101341531 A CN 101341531A CN A2006800468015 A CNA2006800468015 A CN A2006800468015A CN 200680046801 A CN200680046801 A CN 200680046801A CN 101341531 A CN101341531 A CN 101341531A
- Authority
- CN
- China
- Prior art keywords
- file
- language
- digital document
- phonetic entry
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013479 data entry Methods 0.000 claims description 37
- 230000009467 reduction Effects 0.000 claims description 12
- 238000013519 translation Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
本发明提供了一种用于访问电子设备中包括多于一个数字文件的集合中的至少一个数字文件的方法,该方法包括:生成一个包括从集合中的多于一个数字文件中的每一个得到的信息条目的索引,集合中的每个数字文件的信息被链接到至少一个信息条目;在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入;确定所述语音输入的语言;并且将语音接收模式设置为所述语音输入的语言;比较在语音接收模式期间接收的所述语音输入和索引中的条目。可以有利地在所述语音输入与索引中的至少一个信息条目一致时访问文件。本发明还公开了一种能够执行上述方法的装置。
Description
技术领域
本发明涉及访问数字文件集合中的数字文件的方法和装置,并且尤其涉及使用语音输入访问文件。
背景技术
具有语音激活控制构件的设备变得越来越流行。具有“语音拨号”的移动电话和语音激活的玩具是当前可以很容易找到的这些设备中的一些设备。
然而,这些设备通常需要预编程来将语音输入和特定条目(在移动电话中,该条目是特定实体的联系电话)相关联。当涉及例如地址簿和媒体文件集合中的大量条目时,这可能会是一个令人厌烦的过程。这会因不便而使得用户不需要这样的特征。
在不需要预编程的现在的某些设备中结合有语音识别特征。然而,对于克服识别较重的口音或者含糊不清的英语的困难来说,技术还不够成熟。另外,虽然英语是被选择用于该数字时代的互联地球村的语言,但是英语不是所使用的唯一语言。例如中国和印度的世界上人口众多的国家不具有以讲英语为主的民众,并且这些具有智能语音识别特征的设备也可能不会在这些国家中被广泛采用。如果他们的需求没有被特别满足,则这些巨大的消费者市场则代表公司丧失的机会。
目前,这种“智能”设备不具有多种语言识别能力。因此,需要这些设备的制造者针对具有除了英语之外的语言能力的市场制造不同版本的相同产品,而这无意地增加了每个设备的制造成本,因为当需要生产其它版本时,需要专用的生产线/设备或者需要针对英语版本的生产线/设备进行更改。
正确地管理和执行不同字符代码集(例如,针对基于英语字符数字语言的ASCII,针对繁体中文的Big-5,针对简体中文的GB,针对日语的JIS,等等)对于具有多种语言识别能力的“智能”设备也是一个挑战。
发明内容
在本发明的第一方面中,提供了一种用于访问电子设备中包括多于一个数字文件的集合中的至少一个数字文件的方法,该方法包括:生成一个包括从集合中多于一个数字文件中的每一个得到的信息条目的索引,集合中的每个数字文件的信息被链接到至少一个信息条目;在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入;确定所述语音输入的语言;并且将语音接收模式设置为所述语音输入的语言;比较在语音接收模式期间接收的所述语音输入和索引中的条目。可以有利地在所述语音输入与索引中的至少一个信息条目一致时访问文件。所述数字文件可以存储到所述电子设备、与所述电子设备功能性地连接的任何设备或者前述设备的组合。所述至少一个数字文件可以是从选自包括以下内容的源接收的:存储设备、有线计算机网络或者无线计算机网络。
优选地,所述数字文件可以是诸如文档、电子数据表、播放列表、文件夹、音乐文件、图像文件和视频文件等的类型。另外优选地,所述信息条目包括至少一个字并且从数字文件得到诸如文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、经过翻译的歌曲标题或者可替代的歌曲标题的信息。所述信息条目可以是任何语言的。
所述语音输入可以是一种语言的或者是至少一种语言的语句。所述语音接收模式可以被手动或者自动设置。
优选地,所述电子设备可以是台式电脑、笔记本电脑、PDA、便携式媒体播放器或者移动电话。访问电子设备中至少一个数字文件的设备可以通过至少一次地按压预先确定的按钮来进行访问。
在本发明的第二方面中,提供了一种装置,用于访问在该装置中存储的包括多于一个数字文件的集合中的至少一个数字文件。该装置包括:索引器,该索引器用于生成包括从集合中多于一个数字文件中的每一个得到的信息条目的索引,集合中的每个数字文件的信息被链接到至少一个信息条目;语音接收装置,该语音接收装置用于在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入;处理器,该处理器用于确定所述语音输入的语言;并且所述处理器能够对在语音接收模式期间接收的所述语音输入和索引中的条目进行比较。有利的是,当所述语音输入与索引中的至少一个信息条目一致时,访问文件。所述装置可以选自包括以下内容的组:台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话。
优选地,所述语音接收装置是麦克风。所述语音输入的语言可以自动或者手动选择。所述语音输入可以是一种语言的或者是至少一种语言的语句。
所述信息条目可以优选地包括任意语言的一个字。所述信息条目可以从数字文件得到诸如文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、经过翻译的歌曲标题和可替代的歌曲标题的信息。
该装置可以包括至少一个按钮,以便通过至少一次地按压至少一个按钮来激活用于访问数字文件的设备。该装置可以优选地包括显示器。
附图说明
为了全面地理解本发明以及容易地实施本发明,现在将参考所附示意性示图通过非限制性示例来描述本发明的最优选的实施例。
图1示出本发明的优选实施例的处理的流程图;
图2示出本发明的优选实施例的装置的示意图;
图3示出对图1中的语音处理过程36的扩展。
具体实施方式
下面的描述旨在提供对可以实施本发明的适当计算环境的简明的、一般的描述。虽然不是必需的,但是将会以计算机可执行指令(例如,由个人计算机执行的程序模块)的一般情况来描述本发明。通常,程序模块包括执行特定任务或者实现特定的非具体数据类型的例程、程序、字符、组件、数据结构。正如本领域技术人员将会明白的,本发明可以以其它的计算机系统配置来实施,包括手持设备、微处理器系统、基于微处理器的可编程消费电子装置、网络PC、小型计算机、大型计算机,等等。本发明也可以在其中通过经由计算网络链接的远程处理设备执行任务的分布式计算环境中实施。在分布式计算环境中,程序模块既可以设置在本地存储器存储设备中,又可以设置在远程存储器存储设备中。
参考图1,公开了示出用于访问电子设备中包括多于一个的数字文件的集合中的至少一个数字文件的方法的优选实施例的流程图。所述电子设备可以是例如台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话。集合中的数字文件可以包括:文档、电子数据表、播放列表、文件夹、音乐文件和视频文件。在图1所示的本实施例中,存储在集合中的数字文件是媒体文件(图像、音乐和视频文件)。所述至少一个数字文件可以是从诸如存储设备、有线计算机网络或者无线计算机网络等的源接收的。所述数字文件的集合可以驻留于所述电子设备的存储器设备或者可连接到所述电子设备的存储器设备中。所述存储器设备可以是非易失性存储器,并且可以是快闪存储器或者硬盘驱动器。
首先,在电子设备中激活用于启用语音接收模式的设备20。该电子设备可以具有显示器,用于显示可从其选择所述设备的菜单,或者该电子设备可以具有快捷的开关/按钮,通过至少一次地按压开关/按钮可激活语音接收模式。此刻,用户可以手动地选择用于语音输入的一种特定语言或者多种语言22。这有助于所述设备处理语音输入。应当注意,特定语言的每种方言(例如,中国方言中的广东话、潮州话和闽南语)被认为是不同的语言。
在启用语音接收模式之后,用于访问电子设备中的集合中的数字文件的系统被初始化24,以对访问集合中的文件的语音输入的到来做好准备。在初始化处理期间,执行检查,以确认具有集合中的文件的信息的任何信息索引26的存在。
如果没有找到索引,检测到较少的数字文件(文件已经被删除),或者检测到新的数字文件,则搜索该电子设备以及任何所连接的存储器设备中的媒体文件28。从每个文件提取25和索引出的信息包括以下内容中的至少一个:文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称以及可替代的歌曲标题。如果所述电子设备被连接到可替代源,则上述信息还可以从可替代源得到29,所述可替代源例如是因特网或者主机。每个信息条目应当包括至少一个字。所提取出的信息可以是任何语言的,并且不必是基于英语字符数字(Angloalphanumeric)字母表的。汉语字符的各种形式(简体的以及繁体的)、日语字符的各种形式(日本汉字、平假名和片假名)、韩语字符、伊斯兰语字符等等都是可以提取的并且都可以存储在信息索引中。上述非英语字符到英语的译音也可以存储在信息索引中。上述非英语字符到英语的译文也可以存储在信息索引中,如果文件元数据中包括这种信息。每个数字文件可以具有信息索引中的多个信息条目,以便使得文件可以通过多种路径而被访问,例如,通过艺术家名称、通过歌曲标题、通过文件名等等。在检测到较少文件的情况中,当创建索引时,不存在的文件的信息条目被移除。用户也可以为特定歌曲提供一个可替代的标题,并且此可替代的标题也可以包括在索引中。在将关于媒体文件的所有信息集合到一起之后,字符代码集标识功能27对每个媒体文件的信息进行分析并且标识出在每个文件中所使用的一个代码集或多个代码集。
然后,来自电子设备以及任何功能性连接的存储器设备的每个数字文件的所有信息条目的索引与字符代码集信息一起被形成在电子设备中30,并且在建立索引之后,该索引在电子设备中被加载32,以便使得索引中的所有信息条目都可以被访问。如果没有检测到新的数字文件并且自从信息索引被建立时起没有删除数字文件,则也可以在确认信息索引的存在26之后加载信息索引。
应当注意,上述步骤所需的持续时间依赖于数据处理速度、存储器I/O速度和网络/远程服务器延迟。很明显,数字文件越大,由于要被处理的数据量的原因,上述步骤所需的持续时间越长。
此时,电子设备准备好接收语音输入。电子设备可以发出可听警报或者示出可视警报,以提醒用户它已经准备好以语音接收模式接收语音。语音输入独立于讲话者。预先的录音是不要求的,并且电子设备基本是即取即用的(pick-and-use)。该方法中的语音处理足够健壮(robust)以能够不管任何特殊的浓重口音或者含糊的话而对语音输入进行区分。语音被输入到电子设备中34。语音输入可以是一种语言的。语音输入也可以是包括多于一种语言的语句。例如,类似“帝女flower”的歌曲标题是可以接受的并且可以被处理。对于在它们的元数据中具有翻译标题的数字文件,使用原始标题或者翻译标题都允许访问同一数字文件。例如,“爱是不保留”或者“No Reserve In Love”都允许访问同一数字文件。
在语音被输入电子设备之后,语音被处理36。如果之前没有进行手动语言选择22,则语音输入的语言被确定并且与该语音输入的语言相关的适当的语音接收模式被自动设置。如果语言选择被手动设置,则由用户指定的语言模型将被相应地加载。这使得可以正确地确定语音输入。参考图3,图3描述了语音被自动处理的序列。在25中得到的媒体头信息361、在27中得到的字符代码集362以及在29中从远程源搜集的媒体信息363都被输入语言识别标识功能364中,以便最合适的(一个或多个)语音识别标识模型将被加载365。例如,如果语言识别标识功能确定在媒体文件中使用的代码集为ASCII和GB,而来源国家为美国(USA)和中国
(PRC),则USA英语语言模型和PRC普通话模型都将被加载用于语音识别。之后,语音输入进一步被“过滤”366,其中,有意义的媒体信息
(例如歌曲标题、艺术家和专辑)被从语音输入中提取出来并且作为用于语音识别的对象被提供给语音识别装置。例如,对于语音输入“播放Sharon Lau的爱是不保留”,“爱是不保留”将被提取作为歌曲标题信息,而“Sharon Lau”将被智能地提取作为艺术家信息。该所提取的信息然后被添加到语音识别库367。当进行了手动语言选择22时,对语音输入还进行过滤以确定进入到已识别的语音库中的条目。
在对语音输入进行处理并且确定进入到已识别的语音库中的条目之后,所述输入被与索引中的信息条目比较38。当所述输入与至少一个信息条目匹配时,链接到所述(一个或多个)信息条目的所述(一个或多个)数字文件被显示40,以供用户选择。所显示的(一个或多个)数字文件可以是结果列表,并且用户可以选择所期望的歌曲42、所期望的播放列表44或者来自所期望的艺术家46的歌曲。这些选项仅仅用于示意性目的而不是限制性的。
参考图2,示出了装置50,该装置用于访问存储在该装置50中的包括多于一个数字文件的集合中的至少一个数字文件。装置50可以是诸如台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话等的设备。所述数字文件可以是诸如文档、电子数据表、播放列表、文件夹、音乐文件或者视频文件等的文件。所述至少一个数字文件可以是从诸如存储器设备、有线计算机网络或者无线计算机网络等的源接收的。所述数字文件的集合可以驻留于装置50所包括的存储器设备58中,或者数字文件可以存在于可连接到装置50的独立的存储器设备中。所述存储器设备可以是非易失性存储器,并且可以是快闪存储器或者硬盘驱动器。为了激活用于访问数字文件的设备,装置50可以具有显示器54,用于显示允许启用该设备的菜单,或者装置50可以具有快捷的开关/按钮(未示出),通过至少一次地按压开关/按钮可激活该设备。
装置50可以具有外壳52,用于容纳它的各个部件。装置50可以具有显示器54,用于显示装置50的信息,包括关于在装置50中存储的文件的信息或者可访问装置50的信息。可以具有索引器56,用于生成包括从集合中的多于一个的数字文件中的至少一个数字文件中得出的信息条目的索引。集合中的每个数字文件的信息可以被连接到至少一个信息条目。信息条目可以包括至少一个字并且可以是任何语言的。从每个文件提取和索引出的信息可以包括下述内容中的至少一种:文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、缩减的歌曲标题和可替代的歌曲标题。每个信息条目应当包括至少一个字。所提取出的信息可以是任何语言的,并且不必基于英语字符数字字母表。汉语字符的各种形式(简体的以及繁体的)、日语字符的各种形式(日本汉字、平假名和片假名)、韩语字符、伊斯兰语字符等等都是可以提取的。上述非英语字符到英语的译音也可以存储在信息索引中。上述非英语字符到英语的译文也可以存储在信息索引中,如果文件元数据中可以找到这种信息。每个数字文件可以具有信息索引中的多个信息条目,以便使得文件可以通过多种路径而被访问,例如,通过艺术家名称、通过歌曲标题、通过文件名等等。用户也可以为特定歌曲提供一个可替代的标题,并且此可替代的标题也可以包括在索引中。
此外,装置50可以包括语音接收装置60,用于在语音接收模式期间接收至少一种语言的语音输入。该语音接收装置可以是麦克风或者允许输入音频信号的任何其它设备。语音接收装置60将语音输入传递给处理器62。语音输入可以是一种语言的。语音输入也可以是包括多于一种语言的语句。例如,类似“帝女flower”的歌曲标题可以被理解。对于在它们的元数据中具有翻译标题的数字文件,使用原始标题或者翻译标题都允许访问同一数字文件。例如,“爱是不保留”或者“No Reserve In Love”都允许访问同一数字文件。处理器62可以自动确定语音输入的语言。装置50也可以手动设置语音输入的语言,以使得处理器62不必自动执行任务。处理器62也可以被用于比较在语音接收模式期间接收的语音输入和索引中的条目。语音输入独立于讲话者。预先的录音是不要求的,并且装置50基本是“即取即用”的。装置50中的语音识别模块可以足够健壮以能够不管任何特殊的浓重口音或者含糊的话而对语音输入进行区分。
当所述输入与至少一个信息条目匹配时,链接到所述(一个或多个)信息条目的所述(一个或多个)数字文件被显示在显示器54中,以供用户选择。所显示的(一个或多个)数字文件可以是结果列表,并且用户可以选择所期望的歌曲、所期望的播放列表或者来自所期望的艺术家的歌曲。这些选项仅仅用于示意性目的而不是限制性的。
应当注意,图2中的箭头表示装置50的各个组件之间的数据流的方向。
尽管在前面的描述中描述了本发明的优选实施例,但相关领域技术人员将会理解在不脱离本发明的情况下可以在设计细节或者结构上做出改变和修改。
Claims (23)
1.一种用于访问电子设备中包括多于一个数字文件的集合中的至少一个数字文件的方法,该方法包括:
生成一个索引,所述索引包括从所述集合中的所述多于一个数字文件中的每一个得到的信息条目,所述集合中的每个数字文件的信息被链接到至少一个信息条目;
在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入;确定所述语音输入的语言;
将所述语音接收模式设置为所述语音输入的语言;并且
比较在所述语音接收模式期间接收的语音输入和所述索引中的条目,
其中,当所述语音输入与所述索引中的至少一个信息条目一致时,访问所述文件。
2.如权利要求1所述的方法,其中,所述数字文件选自包括以下内容的组:文档、电子数据表、播放列表、文件夹、音乐文件、图像文件和视频文件。
3.如权利要求1所述的方法,其中,所述信息条目包括至少一个字。
4.如权利要求1所述的方法,其中,所述信息条目从数字文件得到选自包括以下内容的组的信息:文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、经过翻译的歌曲标题、可替代的歌曲标题以及来自远程源的前述任何一种。
5.如权利要求1所述的方法,其中,所述信息条目是任意语言的并且依赖于至少一个字符代码集。
6.如权利要求1所述的方法,其中,所述语音输入是一种语言的或者是至少一种语言的语句。
7.如权利要求1所述的方法,其中,所述数字文件被存储在选自包括以下内容的组的源中:所述电子设备、与所述电子设备功能性地连接的任何设备以及前述设备的组合。
8.如权利要求1所述的方法,其中,所述语音接收模式的语言是通过选自包括以下内容的组的手段设置的:手动选择和自动选择。
9.如权利要求1所述的方法,其中,所述至少一个数字文件是从选自包括以下内容的源接收的:存储设备、有线计算机网络和无线计算机网络。
10.如权利要求1所述的方法,其中,所述电子设备选自包括以下内容的组:台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话。
11.如权利要求1所述的方法,其中,所述语音输入被过滤。
12.一种装置,用于访问在该装置中存储的包括多于一个数字文件的集合中的至少一个数字文件,该装置包括:
索引器,该索引器用于生成索引,所述索引包括从所述集合中的所述多于一个数字文件中的每一个得到的信息条目,所述集合中的每个数字文件的信息被链接到至少一个信息条目;
语音接收装置,该语音接收装置用于在语音接收模式期间接收至少一种语言的独立于讲话者的语音输入;
处理器,该处理器用于确定所述语音输入的语言;并且
所述处理器能够对在所述语音接收模式期间接收的语音输入和所述索引中的条目进行比较,
其中,当所述语音输入与所述索引中的至少一个信息条目一致时,访问所述文件。
13.如权利要求12所述的装置,其中,所述装置选自包括以下内容的组:台式电脑、笔记本电脑、PDA、便携式媒体播放器和移动电话。
14.如权利要求12所述的装置,其中,所述语音接收装置是麦克风。
15.如权利要求12所述的装置,其中,所述用于确定所述语音输入的语言的手段选自包括以下内容的组:自动的和手动的。
16.如权利要求12所述的装置,其中,所述数字文件选自包括以下内容的组:文档、电子数据表、播放列表、文件夹、音乐文件、图像文件和视频文件。
17.如权利要求12所述的装置,其中,所述信息条目包括至少一个字。
18.如权利要求12所述的装置,其中,所述信息条目从数字文件得到选自包括以下内容的组的信息:文件名、文件扩展名、来自文件元数据的歌曲标题、来自文件元数据的艺术家名称、来自文件元数据的经过缩减的歌曲标题、来自文件元数据的经过缩减的艺术家名称、经过翻译的歌曲标题、可替代的歌曲标题以及来自远程源的前述任何一种。
19.如权利要求12所述的装置,其中,所述信息条目是任意语言的并且依赖于至少一个字符代码集。
20.如权利要求16所述的装置,其中,所述语音输入是一种语言的或者是至少一种语言的语句。
21.如权利要求12所述的装置,其中,所述至少一个数字文件是从选自包括以下内容的源接收的:存储设备、有线计算机网络和无线计算机网络。
22.如权利要求12所述的装置,还包括显示器。
23.如权利要求12所述的装置,其中,所述语音输入被过滤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SG200508000-7A SG133419A1 (en) | 2005-12-12 | 2005-12-12 | A method and apparatus for accessing a digital file from a collection of digital files |
SG2005080007 | 2005-12-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101341531A true CN101341531A (zh) | 2009-01-07 |
Family
ID=38140537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006800468015A Pending CN101341531A (zh) | 2005-12-12 | 2006-12-11 | 访问数字文件集合中的数字文件的方法和装置 |
Country Status (15)
Country | Link |
---|---|
US (1) | US8015013B2 (zh) |
EP (1) | EP1969590A4 (zh) |
JP (1) | JP2009519538A (zh) |
KR (1) | KR20080083290A (zh) |
CN (1) | CN101341531A (zh) |
AU (1) | AU2006325555B2 (zh) |
BR (1) | BRPI0619607A2 (zh) |
CA (1) | CA2633505A1 (zh) |
NO (1) | NO20083087L (zh) |
NZ (1) | NZ569291A (zh) |
RU (1) | RU2008128440A (zh) |
SG (1) | SG133419A1 (zh) |
TW (1) | TW200805251A (zh) |
WO (1) | WO2007070013A1 (zh) |
ZA (1) | ZA200805567B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100197255A1 (en) * | 2009-02-05 | 2010-08-05 | Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America | Method and apparatus for dynamic station preset configuration in a radio |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US20120221319A1 (en) * | 2011-02-28 | 2012-08-30 | Andrew Trese | Systems, Methods and Media for Translating Informational Content |
US20120284276A1 (en) * | 2011-05-02 | 2012-11-08 | Barry Fernando | Access to Annotated Digital File Via a Network |
US8983963B2 (en) * | 2011-07-07 | 2015-03-17 | Software Ag | Techniques for comparing and clustering documents |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
KR102081925B1 (ko) * | 2012-08-29 | 2020-02-26 | 엘지전자 주식회사 | 디스플레이 디바이스 및 스피치 검색 방법 |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
KR102115397B1 (ko) | 2013-04-01 | 2020-05-26 | 삼성전자주식회사 | 휴대 장치 및 휴대 장치의 재생목록 표시 방법 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4833714A (en) * | 1983-09-30 | 1989-05-23 | Mitsubishi Denki Kabushiki Kaisha | Speech recognition apparatus |
JPH0594512A (ja) * | 1991-10-02 | 1993-04-16 | Kobe Nippon Denki Software Kk | 電子フアイリング装置 |
CA2115088A1 (en) | 1993-02-08 | 1994-08-09 | David Michael Boyle | Multi-lingual voice response unit |
CA2091658A1 (en) * | 1993-03-15 | 1994-09-16 | Matthew Lennig | Method and apparatus for automation of directory assistance using speech recognition |
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
JP4036528B2 (ja) * | 1998-04-27 | 2008-01-23 | 富士通株式会社 | 意味認識システム |
US20020193989A1 (en) | 1999-05-21 | 2002-12-19 | Michael Geilhufe | Method and apparatus for identifying voice controlled devices |
JP4292646B2 (ja) * | 1999-09-16 | 2009-07-08 | 株式会社デンソー | ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体 |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
JP2001285759A (ja) * | 2000-03-28 | 2001-10-12 | Pioneer Electronic Corp | Av情報処理装置及びav情報処理用プログラムがコンピュータで読取り可能に記録された情報記録媒体 |
US20020099533A1 (en) * | 2001-01-23 | 2002-07-25 | Evan Jaqua | Data processing system for searching and communication |
FI20010644A (fi) * | 2001-03-28 | 2002-09-29 | Nokia Corp | Merkkisekvenssin kielen määrittäminen |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
US7974843B2 (en) * | 2002-01-17 | 2011-07-05 | Siemens Aktiengesellschaft | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer |
US6952691B2 (en) * | 2002-02-01 | 2005-10-04 | International Business Machines Corporation | Method and system for searching a multi-lingual database |
US7188066B2 (en) * | 2002-02-04 | 2007-03-06 | Microsoft Corporation | Speech controls for use with a speech system |
US6907397B2 (en) * | 2002-09-16 | 2005-06-14 | Matsushita Electric Industrial Co., Ltd. | System and method of media file access and retrieval using speech recognition |
US7046984B2 (en) * | 2002-11-28 | 2006-05-16 | Inventec Appliances Corp. | Method for retrieving vocabulary entries in a mobile phone |
US7321852B2 (en) * | 2003-10-28 | 2008-01-22 | International Business Machines Corporation | System and method for transcribing audio files of various languages |
US7725318B2 (en) * | 2004-07-30 | 2010-05-25 | Nice Systems Inc. | System and method for improving the accuracy of audio searching |
US7711542B2 (en) * | 2004-08-31 | 2010-05-04 | Research In Motion Limited | System and method for multilanguage text input in a handheld electronic device |
US7376648B2 (en) * | 2004-10-20 | 2008-05-20 | Oracle International Corporation | Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems |
TWI258087B (en) * | 2004-12-31 | 2006-07-11 | Delta Electronics Inc | Voice input method and system for portable device |
ATE385024T1 (de) | 2005-02-21 | 2008-02-15 | Harman Becker Automotive Sys | Multilinguale spracherkennung |
US7840399B2 (en) * | 2005-04-07 | 2010-11-23 | Nokia Corporation | Method, device, and computer program product for multi-lingual speech recognition |
-
2005
- 2005-12-12 SG SG200508000-7A patent/SG133419A1/en unknown
-
2006
- 2006-12-11 CA CA002633505A patent/CA2633505A1/en not_active Abandoned
- 2006-12-11 JP JP2008545547A patent/JP2009519538A/ja active Pending
- 2006-12-11 EP EP06835979A patent/EP1969590A4/en not_active Ceased
- 2006-12-11 BR BRPI0619607-1A patent/BRPI0619607A2/pt not_active IP Right Cessation
- 2006-12-11 KR KR1020087015673A patent/KR20080083290A/ko not_active Application Discontinuation
- 2006-12-11 WO PCT/SG2006/000384 patent/WO2007070013A1/en active Application Filing
- 2006-12-11 US US11/637,357 patent/US8015013B2/en active Active
- 2006-12-11 RU RU2008128440/09A patent/RU2008128440A/ru not_active Application Discontinuation
- 2006-12-11 AU AU2006325555A patent/AU2006325555B2/en not_active Ceased
- 2006-12-11 NZ NZ569291A patent/NZ569291A/en unknown
- 2006-12-11 CN CNA2006800468015A patent/CN101341531A/zh active Pending
- 2006-12-12 TW TW095146399A patent/TW200805251A/zh unknown
-
2008
- 2008-06-25 ZA ZA200805567A patent/ZA200805567B/xx unknown
- 2008-07-09 NO NO20083087A patent/NO20083087L/no not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
EP1969590A4 (en) | 2010-01-06 |
JP2009519538A (ja) | 2009-05-14 |
US8015013B2 (en) | 2011-09-06 |
EP1969590A1 (en) | 2008-09-17 |
RU2008128440A (ru) | 2010-01-20 |
TW200805251A (en) | 2008-01-16 |
CA2633505A1 (en) | 2007-06-21 |
WO2007070013A1 (en) | 2007-06-21 |
KR20080083290A (ko) | 2008-09-17 |
AU2006325555A1 (en) | 2007-06-21 |
US20070136065A1 (en) | 2007-06-14 |
ZA200805567B (en) | 2009-06-24 |
SG133419A1 (en) | 2007-07-30 |
NO20083087L (no) | 2008-09-01 |
BRPI0619607A2 (pt) | 2011-10-11 |
AU2006325555B2 (en) | 2012-03-08 |
NZ569291A (en) | 2010-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101341531A (zh) | 访问数字文件集合中的数字文件的方法和装置 | |
Huang et al. | Spoken language processing: A guide to theory, algorithm, and system development | |
US8903847B2 (en) | Digital media voice tags in social networks | |
US6864809B2 (en) | Korean language predictive mechanism for text entry by a user | |
CN109522538A (zh) | 表格内容的自动分列方法、装置、设备及存储介质 | |
CN101415259A (zh) | 嵌入式设备上基于双语语音查询的信息检索系统及方法 | |
TW200900967A (en) | Multi-mode input method editor | |
CN104135577A (zh) | 一种基于自定义语音实现快速查找联系人的方法和装置 | |
CN102262471A (zh) | 一种划屏智能感应系统 | |
CN101952824A (zh) | 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统 | |
CN101611403A (zh) | 用于移动通信设备中的语音搜索的方法和装置 | |
JP4872323B2 (ja) | Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体 | |
CN110325987B (zh) | 语境语音驱动深度书签 | |
US10360455B2 (en) | Grouping captured images based on features of the images | |
CN106648926A (zh) | 信息输入方法和装置 | |
TW201337911A (zh) | 電子裝置以及語音識別方法 | |
KR101421621B1 (ko) | 언어통역기능을 갖는 스마트폰 단말기 및 이를 포함하는 언어통역시스템 | |
CN103631784B (zh) | 页面内容检索方法和系统 | |
KR20010007210A (ko) | 음성 메시지 내의 키 세그먼트 스포팅 방법 | |
EP2851891B1 (fr) | Terminal mobile utilisateur et procédé de commande d'un tel terminal | |
JP6085149B2 (ja) | 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム | |
KR101858544B1 (ko) | 정보 처리 방법 및 장치 | |
CN106682188B (zh) | 田间科研数据随身读写方法 | |
CN102541911A (zh) | 手持设备上的信息检索方法 | |
KR20050071237A (ko) | 음성 인식 기술을 이용한 이미지 검색 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1128546 Country of ref document: HK |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20090107 |
|
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1128546 Country of ref document: HK |