CN1758211A - 把输入提供给计算设备的有效多方式的方法 - Google Patents
把输入提供给计算设备的有效多方式的方法 Download PDFInfo
- Publication number
- CN1758211A CN1758211A CNA2005101098224A CN200510109822A CN1758211A CN 1758211 A CN1758211 A CN 1758211A CN A2005101098224 A CNA2005101098224 A CN A2005101098224A CN 200510109822 A CN200510109822 A CN 200510109822A CN 1758211 A CN1758211 A CN 1758211A
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- dot matrix
- word
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims 1
- 230000037431 insertion Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013523 data management Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000007799 cork Substances 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000013549 information retrieval technique Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000013615 primer Substances 0.000 description 2
- 239000002987 primer (paints) Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000008689 nuclear function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- CPYIZQLXMGRKSW-UHFFFAOYSA-N zinc;iron(3+);oxygen(2-) Chemical compound [O-2].[O-2].[O-2].[O-2].[Fe+3].[Fe+3].[Zn+2] CPYIZQLXMGRKSW-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
Abstract
一种用于把输入提供到计算机中的方法和系统,包括从用户处接收输入语音并提供相应于输入语音的数据。所述数据用于搜索短语集并且从与数据有关的短语集中识别一个或多个短语。把所述一个或多个短语视觉锐化给所述用户。从用户处接收到一个短语选择的指示,并且把所述选定的短语提供给在计算设备上运行的应用程序。
Description
背景技术
本发明涉及把输入提供到计算设备中。更具体地,本发明涉及提供输入的多方式的方法,所述输入包括语音识别和从一组可替换的输入中确认期望的输入以提高效率。
在日常生活中,人们使用诸如个人信息管理器(PIM)这样的小型计算设备、装置和便携式电话的频率日益增高。随着用于运行这些设备的微处理器的处理能力的提高,这些设备的功能也在不断提高,在某些情况下出现了融合。例如,现在许多便携式电话不仅可以用于访问和浏览因特网,还可以存储诸如地址、电话号码等等这样的个人信息。
考虑到这样的计算设备用于不断增长的各种作业,因此有必要容易而高效的把信息输入到计算设备中。可惜地是,由于希望这些设备尽可能的小型以便容易携带,通常由于在计算设备外框所提供的有限表面而不可能设置字母表中所有字母作为独立按钮的传统键盘。同样地,手写识别要求具有可以方便输入字母的区域的一块手写板或者显示区,这样可能会增加计算设备的整体尺寸。此外,手写识别还是一种通常慢速的输入方法。
因此,现在急需改进把数据、命令等等输入到计算设备的方法。这种改进可以为诸如PIM、电话等等这样的小型计算设备提供方便的数据输入,同时也可以进一步用于诸如个人计算机、电视等等这样的其他设备。
发明概述
一种用于把输入提供到计算机中的方法和系统,包括从用户处接收输入语音并提供相应于输入语音的数据。所述数据用于搜索短语集并且从与数据有关的短语集中识别一个或多个短语。把所述一个或多个短语呈现给所述用户。从用户处接收到一个短语选择的指示,并且把所述选定的短语提供给在计算设备上运行的应用程序。
语音输入和视觉可见的备选短语的结合使用为用户提供了一种访问信息的高效方法,尤其是在使用手控输入设备困难的移动计算设备上。通过允许用户提供听得见的搜索查询,用户可以快速提供搜索项,使用所述搜索项可以搜索用户希望输入的包含内容多的可能的短语集。此外,由于用户可以轻松地扫描视觉可见的可能的短语,所以用户可以迅速找到期望的短语,并且例如使用定位设备选择作为其后在计算设备运行的应用程序的输入的短语。
附图的简要说明
图1是计算设备操作环境的第一实施例的平面图。
图2是图1的计算设备的框图。
图3是通用计算机的框图。
图4是数据输入系统的框图。
图5是点阵表示。
图6是在计算机系统中用于提供输入的方法的流程图。
发明的详细说明
在说明本发明的各个方面前,说明一下包含并受益于这些方面的计算设备是有用处的。现在参考图1,在30处举例说明了数据管理设备(PIM,PDA等等)的示例形式。然而,可以认为本发明也可以用于下述所涉及的计算设备,尤其是用于输入按钮等等的具有有限表面部分的那些计算设备。例如,电话和/或数据管理设备也将受益于本发明。所述设备将比现存的便携式个人信息管理设备和其它便携式电子设备具有增强的性能,并且所述设备的功能和压缩的尺寸将引导用户一直携带它们。因此,并不意味着在此说明的本发明的各个方面仅限于示例的数据管理或PIM设备、电话或在此举例的其它计算设备。
图1中示出了数据管理移动设备30的示例形式。所述移动设备30包括外框32并且具有包括显示区34的用户界面,所述显示区34使用手写笔33和接触敏感显示屏。使用所述手写笔33在指定坐标处按压或接触显示区34以选择一个区域,以便有选择地移动光标的起始位置,或者反过来提供诸如通过手势或手写这样的命令信息。可选择地,或者此外,在设备30上可以包括一个或多个按钮35用于导航。此外,也可以提供其它输入机构,例如滚动轮、滚轮(roller)等等。然而,值得注意的是,这并不意味着本发明仅限于这些输入机构。例如,其它形式的输入可以包括视觉输入,例如通过计算机视觉(computer vision)。
现在参考图2,框图举例说明了包括移动设备30的功能部件。中央处理单元(CPU)50执行软件控制功能。CPU50耦合到显示区34以便根据控制软件而产生的文本和图形图标可以显示在显示区34处。可以典型的使用数模转换器59而将扬声器43耦合到CPU50以便提供音频输出。由用户下载或输入到移动设备30的数据被存储在双向耦合到CPU50的非易失性读/写随机存储器54中。随机存储器54(RAM)为CPU50执行的指令和例如寄存器数据这样的临时数据提供易失性存储。配置选项和其它变量的默认值被存储在只读存储器(ROM)58中。也可以使用ROM58为控制移动设备30的所述设备存储操作系统软件和其它操作系统内核功能(例如,把软件部件载入到RAM54)。
RAM54也可以类似于PC中用于存储应用程序的硬驱动器的方式存储编码。值得一提的是,尽管使用非易失性存储器存储编码,但是也可以替换为存储在没有用于执行编码的易失性存储器中。
移动设备可以通过耦合到CPU50的无线电收发机发送/接收无线信号。如果期望的话,可以为直接从计算机(例如桌面计算机)或者从一个有线网络下载数据提供一个可选的通信界面60。因此,界面60可以包括各种形式的通信设备,例如红外线链接、调制解调器、网卡等等。
移动设备30包括麦克风29和模数(A/D)转换器37以及存储在存储器54中的可选识别程序(语音,DTMF,笔迹,手势或计算机视觉)。例如,响应于来自设备30的用户的听得见的信息、用户指令或命令,麦克风29提供由模数转换器37数字化的语音信号。语音识别程序可以在数字化后的语音信号上执行标准化和/或特征提取功能以便得到中间的语音识别结果。可以在移动设备30上和/或使用无线电收发机52或通信界面60完成语音识别,可以经由局域网或广域网把语音数据传送到远程识别服务器200,所述广域网包括如图4所示的因特网。
除了前述的便携式或移动计算设备外,应当清楚的是本发明也可以用于其它多种计算设备,比如通用桌面计算机。例如,当其它传统输入设备,例如全字母数字键盘,太困难而无法操作时,本发明允许用户以有限的体力而把文本输入或键入到计算机或其它计算设备中。
本发明在其它通用或专用计算系统、环境或配置中也是可操作的。本发明适用的公知的计算系统、环境或配置包括但不限于,常规的电话(不带屏幕)个人计算机、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、set top boxes、可编程的消费者电子产品、网络PC、微型计算机、主控计算机、包括前述任何一种系统或设备的分布式计算环境等等。
下面是图3所示的通用计算机120的简要说明。然而,计算机120还仅是本发明所适用的计算环境的一个例子,并不表示限制本发明的功能和适用范围。同样也不能将计算机120解释为与前述的任何一个部件或其结合有关的任何从属和必要条件。
本发明可以用如由计算机执行的程序模块这样通用的计算机可执行指令的语言描述。通常,程序模块包括完成特定任务或应用特定抽象数据类型的例行程序、程序、对象、组件、数据指令等等。本发明同样可以用于分布式计算环境,在该环境中经由通信网络链接的远程处理设备而完成任务。在分布式计算环境下,程序模块可以定位在包括存储器存储设备的本地和远程计算机存储介质中。下面借助附图说明由程序和模块执行的任务。本领域普通技术人员可以应用在此提供的说明书和附图作为处理器可执行的指令,所述指令可以写成任何一种计算机可读介质的形式。
参考图3,计算机120的部件可以包括但不限于一个处理单元140、一个系统存储器150、和一个把包括系统存储器在内的各种系统部件耦合到处理单元140的系统总线141。系统总线141可以是包括存储器总线或存储器控制区的几种总线体系的任何一种,也可以是并行总线和适用各种总线体系的本地总线。例如,但不限于,上述体系包括工业标准体系(ISA)总线、通用串行总线(USB)、微信道体系(MCA)总线、增强的ISA(EISA)总线、图像电子标准协会(VESA)本地总线和并行部件互联(PCI)总线,也称Mezzanine总线。计算机120典型的包括各种计算机可读介质。计算机可读介质可以是现存任何一种可以由计算机120访问的介质,并且包括易失性和非易失性介质、可删除和不可删除介质。例如,但不限于,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括应用在各种方法和技术中用于存储诸如计算机可读指令、数据结构、程序模块或者其它数据的信息存储的易失性和非易失性介质、可删除和不可删除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存和其它存储技术,CD-ROM、DVD或其它光盘存储器,磁盘、磁带、磁盘存储器或其它磁性存储器,或者可以用于存储所期望的信息且能够由计算机120访问的其它任何介质。
通信介质典型的体现为计算机可读指令、数据结构、程序模块或在调制后的数据信号中的其它数据,例如载波和其它传输机制,并且包括任何信息递送介质。术语“调制后的数据信号”是指一信号,该信号将其一个或多个特征以如此的方式设置或改变以至于在信号中编码信息。例如但不限于,通信介质包括诸如无线网络或直接有线连接这样的无线介质、诸如音频、FR、红外线和其它无线介质这样的无线介质。前述的任意组合也应该包括在本发明的计算机可读介质的范围内。
系统存储器150包括以易失性和/或非易失性存储器形式出现的计算机存储介质,例如只读存储器(ROM)151和随机存储器(RAM)152。包含帮助在计算机120的元件间传送数据的例行程序的基本输入/输出系统153(BIOS)被典型的存储在ROM151中,例如在启动阶段。RAM152典型的包含数据和/或程序模块,所述模块是立即可访问的和/或当前由处理单元140操作的。例如但不限于,图3举例说明了操作系统54、应用程序155、其它程序模块156和程序数据157。
计算机120也可以包括其它可删除/不可删除的易失性/非易失性的计算机存储介质。例如仅图3举例说明了读自或写入到不可删除的非易失性磁性介质的硬盘驱动器161、读自或写入到可删除的非易失性磁盘172的磁盘驱动器171、和读自或写入到例如CD-ROM或其它光盘介质这样的可删除的非易失性光盘176的光盘驱动器175。其它可以在示例性的操作环境下使用的可删除/不可删除的、易失性/非易失性的计算机存储介质包括但不限于磁带、闪存卡、DVD、数字视频磁带、固态RAM、固态ROM等等。硬盘驱动器161通过接口160这样的不可删除的存储器接口被典型的连接到系统总线141,而磁盘驱动器171以及光盘驱动器175则通过诸如接口170这样的可移除的存储器接口被典型的连接到系统总线141。
前述讨论和示例于图3的驱动器及其相关的计算机存储介质为计算机120提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如在图3中,硬盘驱动器161示例为存储操作系统164、应用程序165、其它程序模块166和程序数据167。注意:这些组件可以不同于也可以相同于操作系统154、应用程序155、其它程序模块156和程序数据157。操作系统164、应用程序165、其它程序模块166和程序数据167在此给出了不同的数字以便表明它们至少是不同的拷贝。
用户可以通过使用诸如键盘182、麦克风183这样的输入设备和诸如鼠标、滚动球或者触摸板这样的定位设备181将命令和信息输进计算机120中。其它输入设备(未示出)可以包括摇杆、游戏垫、圆盘式卫星电视天线、扫描仪等等。这些和其它的输入设备通常通过耦合到系统总线的用户接口180而连接到处理单元140,但是也可以通过其它接口和总线进行连接,例如并口、游戏端口或者通用串行总线(USB)连接。监视器184或者其它类型的显示设备也可以通过诸如视频接口185这样的接口而连接到系统总线141。除了监视器外,计算机也可以包括其它通过输出并行接口188而连接的并行输出设备,例如扬声器187和打印机186。
通过使用逻辑连接到一个或多个远程计算机,例如远程计算机194,所述计算机120也可以在网络环境下工作。远程计算机194可以是个人计算机、手持式计算机、服务器、路由器、网络PC、同等设备(peer device)和其它常用的网络节点,并且典型的包括许多或者所有与计算机120有关的前述元件。图3中所示的逻辑连接包括本地网络(LAN)191和广域网(WAN)193,但是也可以包括其它网络。这样的网络环境是在办公室、企业广域计算机网络、内联网和因特网中常用的。
当计算机120用于LAN网络环境时,它通常通过网络接口或者适配器190而连接到LAN191。当用于WAN网络环境时,计算机120典型的包括一个调制解调器192或者其它用于在WAN193下建立通信的装置,例如因特网。可能是内部或者外部的调制解调器192可以经由用户输入接口180或者其它适当的机制连接到系统总线141。在一个网络环境下,所述与计算机120或者与其它部件有关的程序模块可以被存储在远程存储器存储设备中。例如但不限于,图3举例说明了作为位于远程计算机194处的远程应用程序195。应当理解的是,示出的网络连接是示例性的,可以使用在计算机间建立链接的其它装置。
图4示意性的举例说明了适于实现本发明各个方面的部件或者模块。例如,在移动设备30上,把经由麦克风29输入且由音频捕获模块204恰当处理的语音输入提供给声音搜索服务器206。例如,可以PCM格式把数据传送到声音搜索服务器206。所述声音搜索服务器206把接收到的语音样本传递给本地语音识别模块208和/或远程语音识别模块200。可以应用大词汇量语音识别和/或应用特定语音识别。同样地,可以在电话标准、单词片断标准或者单词标准处应用语音识别。将识别结果返回到声音识别服务器206。所述声音识别服务器206随后使用识别结果为一信息检索技术形成数据查询(例如,模式),所述检索技术基于计算设备上存在的公知信息反过来提供相关项的分级列表,例如文本短语。
可以使用许多公知的信息检索技术。在一个实施例中,为了加速检索过程,创建一个将被搜索和可能检索的信息的索引220。例如,索引220可以基于计算设备可提供的内容222(例如地址、职位、电子邮件信息等等)以及另外人工输入到计算设备,在此指移动设备30,的输入224。尽管已经示出其中索引220可以用于内容222和输入224,但是应当清楚如果需要可以提供各自的索引。基于分类而使用各自索引或者使用适合于参考信息的索引220允许用户仅在某个期望的信息分类中确定搜索。
索引220可以采用许多形式。在一个优选实施例中,索引220包括预先计算的在内容222和或输入224中的单词的语音点阵。通过参考字典以便识别部件音素和语音片断可以实现在内容222和输入224中的单词转换为语音点阵。单词的多种读音可以包括在相应的点阵中,例如单词“either”,即在一个点阵的节点以“i”(如同“like”)作为“ei”的初始发音,在另一个点阵的节点以“ee”(如同“queen”)作为“ei”的初始发音,其后都跟随有“ther”。另一个例子是单词“primer”,其具有多个读音“prim-er”,其中“prim”的读音类似于“him”,或者“pri-mer”其中“pri”读音类似于“high”。
语音搜索服务器206包括点阵产生模块240,其接收来自语音识别器200和/或208以便根据字典识别语素和语音片断。使用来自语音识别器204的输出,点阵产生模块240构造语音假设的点阵,其中每一个假设包括相关的时间边界和准确性分数。
如果需要,可以使用各种方法为更多准确的和高效的搜索改变点阵。例如,可以改变点阵以便允许在语音片断间交叉。此外,可以增加错误后退路径以便允许在点阵中以不匹配在假设间过渡。由此,输出分数可以包括不一致的假设。为了减少点阵的尺寸,可以合并假设以便提高语素的连接性并且由此减少存储在点阵中的音频数据的数量。
所述语音识别器200、208基于语音单词片断的字典而工作。在一个实施例中,基于计算相邻单元v和w的共同信息(可能是语素或者语素的组合)而确定片断。共同信息MI定义如下:
具有大于特定阈值的MI的任意(v,w)对子可以被用作字典选择片断的候选。如果一个或者两个要素单元是具有较高MI值的对子的一部分,则可以从候选列表中删除单元对子。同样从列表中删除隔开单词边界的对子。剩余的候选对子vw被单个单元v-w替换在训练集中。确定候选对子的过程可以重复进行直到获得期望的片断号。从前述的共同信息过程中产生的片断的例子是/-k-ih-ng/(音节“-king”)、/ih-n-t-ax-r/(音节“inter-”)、/ih-z/(单词“is”)和/ae-k-ch-uw-ax-l-iy/(单词actually)。
声音搜索引擎206访问索引220以便确定语音输入在内容222和/或224内是否包括一个匹配。由声音搜索引擎206基于语音输入而产生的点阵可以是一个语音序列或者一个可选序列的语法。在匹配期间,匹配或者与语音输入较对应的点阵路径被识别并且基于在相关点阵中的识别分数而计算可能性。接着由声音识别引擎206把识别后的假设作为潜在匹配而输出。
如前所说,语音输入可以是相应于定义了多个语音可能性的可选项的语法。在一个实施例中,语法查询可以被表示为加权的有限态的网络。所述语法也可以被表示为例如脱离语境的语法、统一的语言模式、N-gram模式和/或前缀树。
在每一个这样的情况下,节点可以表示在语素单词片断间的可能的过渡并且在节点间的路径可以表示语素单词片断。可选地是,节点可以表示语素单词片断自身。此外,诸如电话号码和日期这样复杂的表达可以基于定义了表达的输入语法而被搜索。其它可选项也可以使用语法作为查询而被搜索,例如语音输入表明“保罗的地址”,其中可选项在圆括号内,“保罗的(地址|号码)”。
在进一步的实施例中,可以在执行搜索前给语音输入应用过滤以便移除命令信息。例如,包括“找到保罗的地址”、“给我看看保罗的地址”或者“搜索保罗的地址”的语音输入每一个将产生相同的查询结果“保罗的地址”,其中“找到”、“给我看看”和“搜索”将不会被用于模式匹配。这种过滤可以基于包括在从语音识别器200、208接收到的结果中的语义信息。
同样值得注意的是,可以使用混合的搜索方法。在一个混合的搜索方法中,可以为查询使用语音片断搜索,所述查询具有许多电话,例如七个或者更多的电话。对于较短的电话,可以使用基于单词的搜索。
图5举例说明了带有节点p-u和节点间路径的示例性的点阵250。每一个节点具有一个相关的时间值或与合时(timeline)260有关的时距。从一个节点到另一个节点的每一个路径表示语音单词片断(用Pn表示)并且包括表示给出的相应音频片段的路径假设的可能性的相关分数(用Sn表示)。语素假设集形成所述的语音单词片断,而从一个片断的语素假设到另一个片断的语素假设的路径提供在点阵中,并且形成从一个片断到另一个片断的过渡。
例如,从节点p到节点q的分数表示为s1。如果查询匹配节点r,则探测与分数s7和s8有关的路径到节点t以便察看是否有路径匹配。接着,将探测与分数s10和s11有关的路径到节点u。如果路径到了查询的末尾,则确定匹配了。沿所述路径的相关的分数被累计以便计算假设的分数。为了加速搜索的速度,如果匹配共享完全相同的或者几乎完全相同的时间界限,则无需探测路径。
搜索操作的结果是假设的列表(W、ts、te、P(Wtste|O)),所述假设在从ts到te的时间范围内匹配查询字符串W。公知的“后面的可能性”,即可能性P(Wtste|O)是匹配的接近程度的量度标准。W表示语素序列而O表示为特征矢量ot的听觉注意力的标志。将从ts到te的包含查询字符串W的所有路径可能性加在一起就产生了下述方程:
在此,W-和W+分别表示在ts前和te后的任何单词序列,而W’是任何单词序列。进而,值P(Otste|W-WW+)表示如下:
使用语音输入以形成具有视觉锐化(render)可选项及其选择的查询提供了一种简单高效的方法,该方法用于为任何计算设备输入期望的数据,尤其是为由于在背景技术部分提及的原因的移动设备。图6举例说明了把输入提供给计算机的方法400,其形成了本发明的另一个方面。方法400包括步骤402,在该步骤从用户接收输入语音并且提供相应于输入语音的模式。在步骤404,使用模式以所述文本短语(每一个短语是一个或多个字符)集以识别来自具有与模式有关的集合的一个或多个文本短语。
在步骤406,一个或多个文本短语视觉锐化后提供给用户。图1举例说明了一个示例性的锐化后的用户接口450,其具有可选项列表452。(在此实施例中,用户为确定会议日程而提供相应于用户名的语音输入。所述搜索是通过存储在移动设备30上的“联系人”数据库而进行的。)在步骤408从与一个或多个锐化后的文本短语有关的用户接收指示。所述指示从任何形式的输入设备提供,通常是定位设备,例如手写笔、鼠标、摇杆等等。然而,应该清楚步骤406也可以包括期望的文本短语的声音指示。例如,所述锐化的文本短语可以包括用于每一个文本短语的识别器。通过音频指示所述识别器,可以识别期望的文本短语。
如果已经在步骤408指示了期望的文本短语,则可以插入所期望的文本短语并且提供给应用程序在步骤410中进一步处理。典型的,这包括在计算设备视觉锐化的字段上插入选定的短语。在图1所示的实施例中,选定的姓名将被插入到“与会人员”字段。
组合使用语音输入和视觉锐化可选项的选择提供给用户一种高效访问信息的方法,因为用户在单独的句子或短语中提供了语义丰富的声音查询,而无需担心单词的准确顺序和短语的语法。所述语音输入不仅被转换为文本并且被正在移动设备上执行的应用程序使用,而且用于在移动设备上形成搜索已知内容的查询,所述移动设备具有此单词或类似的单词。由于无需全部锐化后提供给用户,所以搜索内容的数量现在可以复杂得多。而且,确定与语音输入有关的内容可以通过可视的介质以可选项列表的形式锐化。用户可以轻松地扫描可选项列表并且选择最恰当的选项。
尽管已经参考优选实施例描述了本发明,但是本领域普通技术人员将会理解在不脱离本发明的精神和范围的情况下,可以在形式和细节方面做出变化。
Claims (18)
1、一种具有计算机可执行指令的计算机可读介质,适合于把输入数据提供给计算机,所述指令包括:
一音频捕获模块,适合于提供表示输入语音的数据;
一语音搜索服务器,适合于接收来自音频捕获模块的数据,所述语音搜索服务器使用所述数据以搜索短语集合并且识别来自具有与所述数据有关的集合的一个或多个短语;
以及
一模块,适合于在计算机上视觉锐化一个或多个短语并且接收来自选定短语的所述用户的指示。
2、如权利要求1所述的计算机可读介质,其中所述语音搜索服务器适合于过滤数据以便移除在所述集合中的未搜索的至少一个单词。
3、如权利要求2所述的计算机可读介质,其中所述语音搜索服务器适合于移除至少一个表示命令的单词。
4、如权利要求1所述的计算机可读介质,其中所述语音搜索服务器适合于在所述数据中为至少一个单词添加可选项。
5、如权利要求1所述的计算机可读介质,其中所述语音搜索服务器包括一个适合于为输入语音形成语音点阵的点阵产生器,并且适合于使用所述数据以便通过把用于输入语音的语音点阵和用于所述集合的语音点阵进行比较以搜索所述集合。
6、一种用于把输入提供给计算机的方法,所述方法包括:
从用户处接收输入语音并且提供相应于输入语音的数据;
使用所述数据以搜索短语集合并且识别来自具有与所述数据有关的集合的一个或多个短语;
把所述一个或多个短语视觉锐化给所述用户;
接收来自所述短语中一个短语的用户的选择的指示;以及
把选定的短语提供给应用程序。
7、如权利要求6所述的方法,其中接收指示的步骤包括操作定位设备。
8、如权利要求6所述的方法,其中接收指示的步骤包括接收音频指示。
9、如权利要求6所述的方法,其中提供选定短语的步骤包括以在计算机上锐化后的形式字段插入选定的短语。
10、如权利要求6所述的方法,并且进一步包括过滤所述数据以移除在所述集合中至少一个未搜索的单词。
11、如权利要求10所述的方法,其中过滤步骤包括移除至少一个表示命令的单词。
12、如权利要求6所述的方法,并且进一步包括为在所述数据中的至少一个单词添加可选项。
13、如权利要求6所述的方法,其中提供数据的步骤包括为输入语音形成语音点阵,并且使用所述数据以搜索所述集合的步骤包括把用于输入语音的语音点阵和用于所述集合的语音点阵进行比较。
14、一种移动计算设备,包括:
一存储器,用于存储短语集合;
一音频捕获模块,适合于提供表示输入语音的数据;
一语音搜索服务器,适合于接收来自音频捕获模块的数据,所述语音搜索服务器使用所述数据以搜索短语集合并且识别来自具有与所述数据有关的集合的一个或多个短语;
以及
一显示/输入模块,用于在计算机上锐化一个或多个短语并且接收来自选定短语的所述用户的指示。
15、如权利要求14所述的移动计算设备,其中所述语音搜索服务器适合于过滤数据以便移除在所述集合中的未搜索的至少一个单词。
16、如权利要求15所述的移动计算设备,其中所述语音搜索服务器适合于移除至少一个表示命令的单词。
17、如权利要求14所述的移动计算设备,其中所述语音搜索服务器适合于在所述数据中为至少一个单词添加可选项。
18、如权利要求14所述的移动计算设备,其中所述语音搜索服务器包括一个适合于为输入语音形成语音点阵的点阵产生器,以及适合于使用所述数据以通过把用于输入语音的语音点阵和用于所述集合的语音点阵进行比较而搜索所述集合。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/889,822 | 2004-07-13 | ||
US10/889,822 US20060036438A1 (en) | 2004-07-13 | 2004-07-13 | Efficient multimodal method to provide input to a computing device |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1758211A true CN1758211A (zh) | 2006-04-12 |
Family
ID=35094176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005101098224A Pending CN1758211A (zh) | 2004-07-13 | 2005-07-13 | 把输入提供给计算设备的有效多方式的方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20060036438A1 (zh) |
EP (1) | EP1617409B1 (zh) |
JP (1) | JP2006053906A (zh) |
KR (1) | KR101183340B1 (zh) |
CN (1) | CN1758211A (zh) |
AT (1) | ATE506674T1 (zh) |
DE (1) | DE602005027522D1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102971725A (zh) * | 2010-01-05 | 2013-03-13 | 谷歌公司 | 语音输入的字词级纠正 |
CN102113004B (zh) * | 2008-07-31 | 2014-03-12 | 惠普开发有限公司 | 采集因特网内容 |
US10354647B2 (en) | 2015-04-28 | 2019-07-16 | Google Llc | Correcting voice recognition using selective re-speak |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7912699B1 (en) | 2004-08-23 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | System and method of lattice-based search for spoken utterance retrieval |
US8065316B1 (en) * | 2004-09-30 | 2011-11-22 | Google Inc. | Systems and methods for providing search query refinements |
US8942985B2 (en) | 2004-11-16 | 2015-01-27 | Microsoft Corporation | Centralized method and system for clarifying voice commands |
US7902447B1 (en) * | 2006-10-03 | 2011-03-08 | Sony Computer Entertainment Inc. | Automatic composition of sound sequences using finite state automata |
US8615388B2 (en) * | 2008-03-28 | 2013-12-24 | Microsoft Corporation | Intra-language statistical machine translation |
US8589157B2 (en) * | 2008-12-05 | 2013-11-19 | Microsoft Corporation | Replying to text messages via automated voice search techniques |
US20100153112A1 (en) * | 2008-12-16 | 2010-06-17 | Motorola, Inc. | Progressively refining a speech-based search |
US8660847B2 (en) | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US8972263B2 (en) * | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
US9330659B2 (en) | 2013-02-25 | 2016-05-03 | Microsoft Technology Licensing, Llc | Facilitating development of a spoken natural language interface |
DE102013007964B4 (de) | 2013-05-10 | 2022-08-18 | Audi Ag | Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung |
US10410635B2 (en) | 2017-06-09 | 2019-09-10 | Soundhound, Inc. | Dual mode speech recognition |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3106550B2 (ja) * | 1991-06-11 | 2000-11-06 | ブラザー工業株式会社 | 音声認識結果表示装置 |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
US6125347A (en) * | 1993-09-29 | 2000-09-26 | L&H Applications Usa, Inc. | System for controlling multiple user application programs by spoken input |
WO1995025326A1 (en) * | 1994-03-17 | 1995-09-21 | Voice Powered Technology International, Inc. | Voice/pointer operated system |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
WO1996037881A2 (en) * | 1995-05-26 | 1996-11-28 | Applied Language Technologies | Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system |
US5852801A (en) * | 1995-10-04 | 1998-12-22 | Apple Computer, Inc. | Method and apparatus for automatically invoking a new word module for unrecognized user input |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5995921A (en) * | 1996-04-23 | 1999-11-30 | International Business Machines Corporation | Natural language help interface |
US6311182B1 (en) * | 1997-11-17 | 2001-10-30 | Genuity Inc. | Voice activated web browser |
US6078914A (en) * | 1996-12-09 | 2000-06-20 | Open Text Corporation | Natural language meta-search system and method |
JPH11272662A (ja) * | 1998-03-20 | 1999-10-08 | Sharp Corp | 音声情報処理装置及び方法並びにその制御プログラムを記憶した媒体 |
US6085159A (en) * | 1998-03-26 | 2000-07-04 | International Business Machines Corporation | Displaying voice commands with multiple variables |
US7720682B2 (en) * | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US7206747B1 (en) * | 1998-12-16 | 2007-04-17 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands |
US6192343B1 (en) * | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
KR100310339B1 (ko) * | 1998-12-30 | 2002-01-17 | 윤종용 | 이동전화 단말기의 음성인식 다이얼링 방법 |
EP1045374B1 (en) * | 1999-04-13 | 2010-08-11 | Sony Deutschland GmbH | Merging of speech interfaces for concurrent use of devices and applications |
US6591236B2 (en) * | 1999-04-13 | 2003-07-08 | International Business Machines Corporation | Method and system for determining available and alternative speech commands |
US7069220B2 (en) * | 1999-08-13 | 2006-06-27 | International Business Machines Corporation | Method for determining and maintaining dialog focus in a conversational speech system |
EP1158799A1 (en) * | 2000-05-18 | 2001-11-28 | Deutsche Thomson-Brandt Gmbh | Method and receiver for providing subtitle data in several languages on demand |
GB0015233D0 (en) * | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
US7130790B1 (en) * | 2000-10-24 | 2006-10-31 | Global Translations, Inc. | System and method for closed caption data translation |
US20020094512A1 (en) * | 2000-11-29 | 2002-07-18 | International Business Machines Corporation | Computer controlled speech word recognition display dictionary providing user selection to clarify indefinite detection of speech words |
EP1215661A1 (en) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Mobile terminal controllable by spoken utterances |
US7085723B2 (en) * | 2001-01-12 | 2006-08-01 | International Business Machines Corporation | System and method for determining utterance context in a multi-context speech application |
WO2003042975A1 (en) * | 2001-11-16 | 2003-05-22 | Koninklijke Philips Electronics N.V. | Device to edit a text in predefined windows |
JP3762300B2 (ja) * | 2001-12-28 | 2006-04-05 | 株式会社東芝 | テキスト入力処理装置及び方法並びにプログラム |
US7174294B2 (en) * | 2002-06-21 | 2007-02-06 | Microsoft Corporation | Speech platform architecture |
US7197494B2 (en) * | 2002-10-15 | 2007-03-27 | Microsoft Corporation | Method and architecture for consolidated database search for input recognition systems |
JP4107093B2 (ja) * | 2003-01-30 | 2008-06-25 | 株式会社日立製作所 | 対話型端末装置及び対話アプリケーション提供方法 |
US20040243415A1 (en) * | 2003-06-02 | 2004-12-02 | International Business Machines Corporation | Architecture for a speech input method editor for handheld portable devices |
US20050027539A1 (en) * | 2003-07-30 | 2005-02-03 | Weber Dean C. | Media center controller system and method |
US20050075857A1 (en) * | 2003-10-02 | 2005-04-07 | Elcock Albert F. | Method and system for dynamically translating closed captions |
US20050108026A1 (en) * | 2003-11-14 | 2005-05-19 | Arnaud Brierre | Personalized subtitle system |
CN1697515A (zh) * | 2004-05-14 | 2005-11-16 | 创新科技有限公司 | 字幕翻译引擎 |
US20060136195A1 (en) * | 2004-12-22 | 2006-06-22 | International Business Machines Corporation | Text grouping for disambiguation in a speech application |
-
2004
- 2004-07-13 US US10/889,822 patent/US20060036438A1/en not_active Abandoned
-
2005
- 2005-07-12 AT AT05106352T patent/ATE506674T1/de not_active IP Right Cessation
- 2005-07-12 EP EP05106352A patent/EP1617409B1/en not_active Not-in-force
- 2005-07-12 DE DE602005027522T patent/DE602005027522D1/de active Active
- 2005-07-13 CN CNA2005101098224A patent/CN1758211A/zh active Pending
- 2005-07-13 KR KR1020050063343A patent/KR101183340B1/ko not_active IP Right Cessation
- 2005-07-13 JP JP2005204325A patent/JP2006053906A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102113004B (zh) * | 2008-07-31 | 2014-03-12 | 惠普开发有限公司 | 采集因特网内容 |
CN102971725A (zh) * | 2010-01-05 | 2013-03-13 | 谷歌公司 | 语音输入的字词级纠正 |
US9087517B2 (en) | 2010-01-05 | 2015-07-21 | Google Inc. | Word-level correction of speech input |
CN102971725B (zh) * | 2010-01-05 | 2015-08-26 | 谷歌公司 | 语音输入的字词级纠正 |
US9263048B2 (en) | 2010-01-05 | 2016-02-16 | Google Inc. | Word-level correction of speech input |
US9466287B2 (en) | 2010-01-05 | 2016-10-11 | Google Inc. | Word-level correction of speech input |
US9542932B2 (en) | 2010-01-05 | 2017-01-10 | Google Inc. | Word-level correction of speech input |
US9711145B2 (en) | 2010-01-05 | 2017-07-18 | Google Inc. | Word-level correction of speech input |
US9881608B2 (en) | 2010-01-05 | 2018-01-30 | Google Llc | Word-level correction of speech input |
US10672394B2 (en) | 2010-01-05 | 2020-06-02 | Google Llc | Word-level correction of speech input |
US11037566B2 (en) | 2010-01-05 | 2021-06-15 | Google Llc | Word-level correction of speech input |
US10354647B2 (en) | 2015-04-28 | 2019-07-16 | Google Llc | Correcting voice recognition using selective re-speak |
Also Published As
Publication number | Publication date |
---|---|
KR101183340B1 (ko) | 2012-09-14 |
DE602005027522D1 (de) | 2011-06-01 |
US20060036438A1 (en) | 2006-02-16 |
JP2006053906A (ja) | 2006-02-23 |
EP1617409B1 (en) | 2011-04-20 |
EP1617409A1 (en) | 2006-01-18 |
ATE506674T1 (de) | 2011-05-15 |
KR20060050139A (ko) | 2006-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1758211A (zh) | 把输入提供给计算设备的有效多方式的方法 | |
US11914925B2 (en) | Multi-modal input on an electronic device | |
US7277029B2 (en) | Using language models to expand wildcards | |
US7218781B2 (en) | System and method for chinese input using a joystick | |
US6864809B2 (en) | Korean language predictive mechanism for text entry by a user | |
JP2003015803A (ja) | 小型キーパッド用日本語入力メカニズム | |
US11416214B2 (en) | Multi-modal input on an electronic device | |
JPWO2008090606A1 (ja) | 情報検索プログラム、該プログラムを記録した記録媒体、情報検索装置、および情報検索方法 | |
CN1731511A (zh) | 用于对多语言的姓名进行语音识别的方法和系统 | |
CN1359514A (zh) | 多模式数据输入设备 | |
CN101137979A (zh) | 用于翻译器的短语构造器 | |
CN1755589A (zh) | 基于按键和语音识别的文字输入方法及装置 | |
JP4622861B2 (ja) | 音声入力システム、音声入力方法、および、音声入力用プログラム | |
CN1206581C (zh) | 混合输入方法 | |
JPH06314276A (ja) | 文書作成装置及び漢字混じりかな漢字変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20060412 |