CN104850575A - 用于将语音集成到系统中的方法和系统 - Google Patents

用于将语音集成到系统中的方法和系统 Download PDF

Info

Publication number
CN104850575A
CN104850575A CN201510085105.6A CN201510085105A CN104850575A CN 104850575 A CN104850575 A CN 104850575A CN 201510085105 A CN201510085105 A CN 201510085105A CN 104850575 A CN104850575 A CN 104850575A
Authority
CN
China
Prior art keywords
data
speech
display
feature
widget
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510085105.6A
Other languages
English (en)
Other versions
CN104850575B (zh
Inventor
S.麦卡洛
D.比拜
M.西瓦拉特里
M.安布肯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honeywell International Inc
Original Assignee
Honeywell International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honeywell International Inc filed Critical Honeywell International Inc
Publication of CN104850575A publication Critical patent/CN104850575A/zh
Application granted granted Critical
Publication of CN104850575B publication Critical patent/CN104850575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及用于将语音集成到系统中的方法和系统。提供了一种在系统中管理语音数据的方法。所述方法包括:接收由语音识别模块所生成的语音数据;基于语音数据而在定义文件的数据结构中搜索语音标签,其中数据结构定义显示屏的特征;以及确定与语音标签相关联的行动;以及基于行动而进行将数据传送到系统的应用和生成显示数据中的至少一个。

Description

用于将语音集成到系统中的方法和系统
技术领域
本公开一般地涉及用于将语音识别集成到系统中的方法和系统,并且更具体地涉及将语音识别集成到飞行器的计算系统中的方法和系统。
背景技术
语音系统除其它事情之外尤其执行基于系统的用户所发出的语音的语音识别。语音发声(utterance)典型地包括与系统的一个或多个特征通信或控制系统的一个或多个特征的命令。飞行器有关的应用的语音系统典型地需要特定语义用语、ATC类用语和/或特定语音命令。因而,为了使用系统,飞行机务人员需要记忆和学习用语,这是对飞行员的较大限制和繁重负担。
另外,这样的系统的开发可能是困难的。例如,为了识别特定的语音用语(phraseology),必须开发复杂且智能的解析器。在另一示例中,复杂且智能的解析器必须能够考虑用语的变型。例如,当飞行员处于压力下时,这些变型可能被引入。在仍另一示例中,每当应用中的新特征被引入时,语义用语改变,从而使复杂且智能的解析器需要修改。
因此,存在对用于将语音识别集成到现有系统中的改进的系统和方法的需要。从随后的具体实施方式和所附权利要求,结合附图以及前述技术领域和背景技术,其它合期望的特征和特性将变得显而易见。
发明内容
在一个实施例中,提供一种管理系统中的语音数据的方法。所述方法包括:接收由语音识别模块所生成的语音数据;基于语音数据而在定义文件的数据结构中搜索语音标签,其中数据结构定义显示屏的特征;以及确定与语音标签相关联的行动;以及基于行动而进行将数据传送到系统的应用和生成显示数据中的至少一个。
在另一实施例中,提供一种用于管理飞行器的计算系统中的语音数据的系统。所述系统包括信息数据存储库,其存储与飞行器有关应用相关联的定义文件,其中定义文件包括定义与飞行器有关应用相关联的显示屏的特征的数据结构。计算机模块接收语音数据,基于语音数据而在定义文件的数据结构中搜索语音标签,并且基于与语音标签相关联的行动而将数据传送到飞行器有关应用或生成显示数据。
此外,从随后的具体实施方式和所附权利要求,结合附图以及前述背景技术,方法和系统的其它合期望的特征和特性将变得显而易见。
附图说明
下文将结合以下各图来描述本发明,其中同样的附图标记表明同样的元件,并且其中:
图1是图示了根据示例性实施例的包括语音识别能力的飞行器计算系统的功能框图;
图2和3是图示了根据示例性实施例的计算系统的显示管理系统和语音识别系统的数据流图解;以及
图4是根据示例性实施例的由计算系统所使用的树结构的图示;以及
图5-7是图示了根据示例性实施例的可以由计算系统执行的方法的流程图。
具体实施方式
以下具体实施方式在性质上仅仅是示例性的并且不旨在限制公开或者公开的应用和使用。如本文中所使用的,词语“示例性”意味着“充当示例、实例或说明”。因而,本文描述为“示例性”的任何实施例不一定被解释为相对于其它实施例是优选或有利的。本文描述的所有实施例是示例性实施例,其被提供以使得本领域技术人员能够制成或使用本发明并且不限制由权利要求所限定的发明范围。此外,没有任何意图来通过在前述技术领域、背景技术、发明内容或以下具体实施方式中所呈现的任何所表达或隐含的理论来进行约束。
现在参考图1,本公开的示例性实施例针对一般以100示出的与飞行器10相关联的计算系统。如能够领会的,本文描述的计算系统100可以实现在具有显示设备的任何系统中。出于示例性目的,将在用于飞行器10的计算系统100的上下文中讨论本公开。
现在更详细地转到图1,示例性计算系统100被示出为包括计算机101。如能够领会的,计算系统100可以包括任何计算设备,包括但不限于台式计算机、膝上型计算机、服务器、便携式手持设备,或包括存储器和处理器的任何其它电子设备。为了易于讨论,将在飞行器10的计算机101的上下文中讨论本公开。如能够领会的,计算机101可以位于飞行器10的驾驶舱(未示出)中以供由例如飞行器10的飞行员使用,或者位于飞行器10的任何其它位置中以供由与飞行器10相关联的任何其他个体使用。
计算机101被示出为包括处理器102、耦合到存储器控制器106的存储器104、经由本地输入/输出控制器112而通信地耦合的一个或多个输入和/或输出(I/O)设备108、110(或外围设备),以及耦合到显示器116的显示控制器114。在示例性实施例中,常规键盘122、鼠标124和麦克风125以及任何其它输入设备可以耦合到输入/输出控制器112。在示例性实施例中,计算系统100还可以包括用于耦合到网络120的网络接口118。网络120在计算机101和外部系统(未示出)之间发送和接收数据。
在各种实施例中,存储器104存储可以由处理器102执行的指令。存储器104中所存储的指令可以包括一个或多个单独的程序,其中的每一个包括用于实现逻辑功能的可执行指令的有序列表。当计算机101处于操作中时,处理器102被配置成执行存储器104内所存储的指令,用以向和自存储器104传送数据,和用以一般地依据指令来控制计算机101的操作。处理器102可以是任何定制的或商业上可得到的处理器、中央处理单元(CPU)、在与计算机101相关联的若干处理器之中的辅助处理器、基于半导体的微处理器(以微芯片或芯片组的形式)、宏处理器、或一般地用于执行指令的任何设备。
在图1的示例中,存储器104中所存储的指令除其它系统或应用(未示出)之外尤其包括操作系统(OS)126、语音识别系统127、显示管理系统128、以及一个或多个飞行器有关应用130a-130-n。如能够领会的,在各种其它实施例中,语音识别系统127、显示管理系统128以及飞行器有关应用130a-130n的全部或部分可以实现在单独的存储介质(未示出)或诸如服务器或其它计算设备之类的其它计算设备(未示出)上,并且可以与计算机101通信。出于示例性目的,将在全部完全实现在计算机101上的系统和应用127-130n的上下文中讨论本公开。
一般而言,操作系统126基本上控制计算机程序的执行,并且提供调度、输入-输出控制、文件和数据管理、存储器管理和通信控制以及有关服务。语音识别系统127接收语音输入(例如,从与麦克风125交互的用户,或从其它系统),并且在语音输入上执行一个或多个语音识别方法,以识别语音输入。显示管理系统128基本上控制由显示控制器114和显示器116正显示什么内容。在当前示例中,显示管理系统128控制飞行器有关的交互式显示屏132,诸如但不限于飞行控制屏、飞行器维护屏、飞行器信息屏等。显示管理系统128还管理从经由输入设备122-125与交互式显示屏132进行交互的用户所接收的输入,并且基于输入而与飞行器有关应用130a-130n对接。
在各种实施例中,显示管理系统128接收来自语音识别系统127的输出,作为输入之一。来自语音识别系统127的输出例如可以是由计算系统100的用户所说的或由另一系统所提供的经识别命令的文本表示。显示管理系统128基于来自语音识别系统127的输出而管理交互式显示屏132的显示并且与飞行器有关应用130a-130n对接。因而,通过显示管理系统128的特征利用语音识别能力增强了飞行器10的计算系统100。通过利用语音识别、通过显示管理系统128来增强计算系统100,飞行器有关应用130a-130n不需要任何修改。
现在参考图2和3,并且继续参考图1,数据流图解图示显示管理系统128和语音识别系统127的各种实施例。根据本公开的显示管理系统128和语音识别系统127的各种实施例可以包括任何数目的模块。如能够领会的,图2和3中示出的模块可以被组合和/或进一步划分以类似地管理交互式显示屏132和用户输入。去往显示管理系统128和语音识别系统127的输入可以接收自其它模块(未示出),由其它子模块(未示出)确定/建模,和/或可以是用户输入,其基于用户通过一个或多个输入设备122-125与交互式显示屏132交互。
现在特别参考图2,在各种实施例中,显示管理系统128包括定义数据存储库140、显示管理器模块142和输入管理器模块144。定义数据存储库140存储定义文件146,所述定义文件146定义与飞行器有关应用130a-130n相关联的交互式显示屏132。定义文件146均包括一个或多个数据结构,其定义与飞行器有关应用130a-130n相关联的各种交互式显示屏132的特征。特征可以是静态的(例如,文本或图形显示特征)或动态的(例如,文本输入框或选择项)。特征可以是交互式显示屏的显示特征或者可以是与交互式显示屏相关联的功能(例如,可以由显示屏执行的隐藏功能,诸如重复命令功能、退格(backspace)功能或其它功能)。
在各种实施例中,特征可以实现为显示屏的小部件(widget)。在这样的实施例中,数据结构包括定义小部件的参数。例如,参数可以定义屏幕上小部件的位置,定义屏幕上小部件的外观,和/或可以定义与小部件相关联的任何行动。用于按钮类型小部件的示例性数据结构如下:
用于文本编辑框类型小部件的示例性数据结构如下:
用于滚动(scroll)面板类型小部件的示例性数据结构如下:
如所示出的,用于小部件的数据结构中的每一个都包括语音有关的属性或标记。语音标签定义与小部件的行动相关联的字符串。所述行动例如可以使某个功能被执行。在各种实施例中,所述串与小部件上所显示的名称或标签相关联,和/或可以是基于小部件类型可以利用小部件来执行的简单功能。通过使串保持简单(如相对于复杂用语),由语音识别系统127所执行的识别技术可以被简化和改进。例如,简单的串可以是:ENTER(录入)、CONFIRM(确认)、CHECK(检查)、SELECT(选择)、SCROLL UP(上滚)、SCROLL DOWN(下滚)或者由系统的用户在观看显示屏时可以容易识别的任何其它串。如以下将更详细描述的,所述串与来自语音识别系统127的输出相比较以确定适当的行动。
在各种实施例中,定义文件146基于其与特定交互式显示屏132的关系以分层次的方式存储数据结构或小部件。例如,如图4中所示,用于特定的飞行器有关应用130a的显示屏的数据结构或小部件148被存储为树数据结构(下文称为“小部件树”150),其具有各种关联层级152-156。如所示的,每个小部件148包括语音标签158以供与来自语音识别系统127(图1)的输出进行比较。加粗的小部件159指示当前可见的小部件148,如以下将更详细讨论的。
参考回图2,显示管理器模块142接收应用数据160、显示数据162、和语音系统错误数据163作为输入。应用数据160是例如从活动的飞行器有关应用130a接收的数据,并且指示要显示的特定显示屏或要在显示屏中显示的特定数据。要显示的特定显示屏可以基于例如活动的飞行器有关应用130a的状态。显示数据162是例如从输入管理器模块144接收的数据,其指示要显示的特定显示屏。在这种情况下要显示的特定显示屏可以基于例如来自经由输入设备122-125(图1)与交互式显示屏132(图1)进行交互的用户的输入。语音系统错误数据163是例如从语音识别系统127接收的数据并且指示要显示的特定交互式显示屏和/或要在交互式显示屏中显示的特定错误数据。
基于数据160-163,显示管理器模块142选择和加载与活动的飞行器有关应用130a相关联的定义文件146。显示管理器模块142然后选择性地显示用于活动的飞行器有关应用130a的交互式显示屏132,其包括任何供给的数据(通过应用数据160、显示数据162或语音系统错误数据163)。例如,显示管理器模块142生成小部件显示数据164-168,以使得某些小部件基于其在定义文件146中的定义而被显示。显示管理器模块142生成小部件显示数据164-168,这基于如在定义文件146中所定义的其与要显示的特定交互式显示屏132(图1)的关联。
显示管理器模块142还维护在定义文件146的加载期间所创建的所有小部件的状态170。例如,显示管理器模块142将每个小部件的状态170设置成可见或不可见。如果小部件当前正被显示,则状态170被设置成可见;并且如果小部件当前未被显示,则状态170被设置成不可见。显示管理器模块142还生成语音标签172的列表,其包括可见小部件的语音标签或者可替换地所有小部件的语音标签。语音标签172的该列表由语音识别系统127(图1)使用,如以下将更详细讨论的。
输入管理器模块144接收如输入设备数据174、语音数据176和小部件的状态170。基于用户与输入设备122-124(例如,键盘122、鼠标124等)的交互例如从一个或多个输入/输出控制器112接收输入设备数据174。语音数据176例如接收自语音识别系统127并且可以基于例如通过用户与麦克风125交互所生成的用户语音或由另一系统生成的语音而被生成。
在接收到输入设备数据174或语音数据176时,输入管理器模块144确定适当响应。响应可以是例如将信息传送到活动的飞行器有关应用130a,或者可以是使新的显示屏、特征、或与特征相关联的数据被显示。输入管理器模块144基于数据174、176与定义文件146中存储的小部件的标签的比较而确定适当响应。
在各种实施例中,输入管理器模块144通过针对第一可见小部件(如由小部件状态170所指示的(在图3中示出为加粗的小部件159))以分层次的方式遍历定义文件146的小部件树150(图3)来确定适当响应。如果输入是输入设备数据174,则输入管理器模块144遍历小部件树150(图3),在可见小部件159的数据结构中搜索与输入设备数据174匹配的输入标签。如果输入是语音数据176,则输入管理器模块144遍历小部件树150(图3),在可见小部件的数据结构中搜索与语音数据176匹配的语音标签。
在各种实施例中,输入管理器模块144通过以下动作来遍历小部件树150(图3):评估第一层级152(图3)处的可见小部件159(图3),并且如果没有找到匹配,则然后评估下一层级154(图3)处的可见小部件159(图3),并且如果没有找到匹配,则然后评估下一层级156(图3)处的可见小部件159(图3),并且以此类推直到找到匹配为止。然而,如果在可见小部件159(图3)中没有找到匹配,则输入管理器模块144可以生成显示数据162以使得错误消息可以由显示管理器模块142生成。
然而如果找到匹配,则输入管理器模块144生成显示数据162以供显示管理器模块142使用,或者生成应用数据178,其供活动的飞行器有关应用130a使用。例如,输入管理器模块基于针对匹配的标签的小部件的类型而确定与匹配的标签相关联的行动,并且基于所述行动而生成显示数据162或应用数据178。
例如,如果语音标签158(图3)是“APPLY(应用)”并且语音标签158(图3)与按钮类型小部件关联,则应用数据178可以包括事件选择数据,其被发送到飞行器有关应用130a,犹如它已经被选择(例如,通过使用鼠标或其它用户输入设备点击它)。在另一示例中,如果语音标签158(图3)是“ENTRY(输入)”并且语音标签与文本编辑框类型小部件相关联,则应用数据178可以包括事件输入数据,其被发送到飞行器有关应用130a,犹如它被用户录入(例如,通过使用键盘或其它用户输入设备键入它)。
在各种实施例中,输入管理器模块144保留最后匹配的标签(来自用户输入设备数据174或语音数据176),如果语音系统输入指示要重复之前的行动(例如,语音数据176是“AGAIN(再次)”或“REPEAT(重复)”)则使用最后匹配的标签。在这样的情况下,如果语音数据176匹配预定义的标签(例如,“AGAIN(再次)”或“REPEAT(重复)”),那么确定与最后匹配的标签相关联的行动并且生成显示数据162或应用数据178。
现在特别地参考图4,在各种实施例中,语音识别系统127包括静态文法和词汇数据存储库180、动态词汇数据存储库182、语音识别模块184和词汇管理器模块186。静态文法和词汇数据存储库180存储在语音发声192的处理中所使用的静态文法188和静态词汇190。文法188和词汇190是静态的,因为它们保持相对不变,除了由于可以在语音处理期间由语音识别模块184执行的学习技术所引起的更新之外。动态词汇数据存储库存储词汇194,其基于来自显示管理系统128(图2)的信息。例如,每当从显示管理系统128(图1)接收到指示交互式显示屏132(图1)的内容已经改变的输入时,存储新的词汇194。
语音识别模块184接收语音发声192作为输入,其由系统100(图1)的用户所说或者其从另一系统被提供到系统100(图1)。语音识别模块184基于本领域已知的语音识别技术而处理语音发声192。语音识别模块184通过使用在数据存储库180、182中所存储的文法188、静态词汇190和动态词汇194而处理语音发声192。如果语音识别模块184能够识别语音发声192,则语音识别模块184生成包括所识别的语音的语音数据176以供由显示管理系统128(图2)使用。然而,如果语音识别模块184不能识别语音发声192,则语音识别模块184生成语音错误显示数据163以供由显示管理系统128(图2)使用以显示错误消息。
词汇管理器模块186接收由显示管理系统128(图2)所生成的语音标签172的列表作为输入。词汇管理器模块186利用由语音标签172的列表所定义的词汇194来更新动态词汇数据存储库182。例如,在语音标签172的列表仅包括可见语音标签的情况下,词汇管理器模块186用与当前正显示的内容的语音标签相关联的新词汇来替换与之前显示的内容的语音标签相关联的所存储的词汇。
现在参考图5-7,并且继续参考图1到4,流程图图示了根据各种实施例可以由语音识别系统127和显示管理系统128执行的方法。如鉴于本公开能够领会的,方法内操作的次序不限于如图5-7中所图示的顺序执行,而是可以以如适用并且根据本公开的一种或多种变化的次序来执行。
在各种实施例中,方法可以被调度成基于预定的事件而运行,和/或可以在飞行器10的计算系统100的操作期间连续运行。特别参考图5,示出了可以由语音识别系统127执行的语音识别方法。
在一个示例中,方法可以开始于200。在210处接收小部件的语音标签(作为语音标签172的列表)。在220处,基于语音标签172的列表,用动态词汇194来更新动态词汇数据存储库。
其后,在230处接收语音发声192。在240处通过使用静态词汇、静态文法和动态词汇来处理语音发声192。在250处如果处理产生了经识别的结果,则在260处生成包括经识别的结果的语音数据176并且方法可以结束于270。然而,在250处如果处理未产生经识别的结果,则在280处生成语音错误显示数据。其后,方法可以结束于270。
特别参考图6,示出了可以由显示管理系统128的输入管理器模块144执行的语音输入处理方法。在一个示例中,方法可以开始于300。在310处接收语音数据176。在320处在搜索匹配语音数据176的语音标签158中遍历小部件树150。在330处如果找到匹配,则在340处评估与语音标签158相关联的行动。如果行动与飞行器有关应用130a的功能相关联,则在350处生成应用数据178以供由飞行器有关应用130a使用,并且方法可以结束于360。然而,在340处如果行动不与飞行器有关应用130a的功能相关联,而是行动与显示特征相关联,则在370处生成显示数据162以用于显示特征,并且方法可以结束于360。
在330处如果没有找到匹配,则在380处确定是否找到部分匹配。在380处如果找到部分匹配,则在390处生成显示数据,其包括可以被选择的可能的匹配的列表。其后,方法可以结束于360。
如果在330处没有找到匹配并且在380处没有找到部分匹配,则在395处确定之前匹配的标签是否需要后续输入(例如,在选择文本编辑框时的文本录入输入)。在395处如果之前匹配的标签需要后续输入,则在397处生成显示数据162,其包括用于显示输入的语音数据176,并且方法可以结束于360。然而,如果在330处和在380处没有找到匹配且在395处之前匹配的标签不需要后续输入,则方法可以结束于360。可选地,在399处可以生成显示数据,其包括错误消息(例如,“语音命令未被识别”)。
特别参考图7,示出了可以由显示管理系统128(图2)的显示管理器模块142执行的显示管理方法。在该示例中,显示管理系统在语音标签172的列表中仅包括可见小部件。在一个示例中,方法可以开始于400。在410处接收数据(应用数据160或显示数据162)。在420处从定义文件146获取数据结构。在420处基于数据结构而生成小部件显示数据164-168。在440处追踪针对可见和不可见小部件的状态170。如果小部件的状态已改变,则在450处基于可见小部件而生成语音标签172的列表,并且方法结束于460。然而,如果状态尚未改变,则方法可以简单地结束于460。
本领域技术人员将领会到,结合本文公开的实施例所描述的各种说明性逻辑块、模块和算法步骤可以实现为电子硬件、计算机软件或二者的组合。以上在功能和/或逻辑块组件(或模块)和各种处理步骤方面描述了实施例和实现方式中的一些。然而,应当领会的是,这样的块组件(或模块)可以由被配置成执行所指定功能的任何数目的硬件、软件和/或固件组件来实现。为了清楚地说明硬件和软件的该可互换性,以上已经一般地在其功能方面描述了各种说明性组件、块、模块、电路和步骤。这样的功能被实现为硬件还是软件取决于特定应用以及施加于总体系统上的设计约束。技术人员可以以针对每个特定应用的变化的方式来实现所述功能,但是这样的实现决策不应当被解释为引起从本发明的范围的偏离。例如,系统或组件的实施例可以采用各种集成电路组件,例如,存储器元件、数字信号处理元件、逻辑元件、查找表等,其在一个或多个处理器或其它控制设备的控制下可以执行各种功能。另外,本领域技术人员将领会到,本文描述的实施例仅仅是示例性实现方式。
结合本文公开的实施例所描述的各种说明性逻辑块、模块和电路可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、离散门或晶体管逻辑、离散硬件组件、或被设计成执行本文描述的功能的其任何组合来实现或执行。通用处理器可以是微处理器,但是在可替换方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、结合DSP核的一个或多个微处理器、或任何其它这样的配置。
结合本文公开的实施例描述的方法或算法的步骤可以直接体现在硬件中、由处理器执行的软件模块中、或二者的组合中。软件模块可以驻留在RAM存储器、闪速存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除盘、CD-ROM、或本领域已知的任何其它形式的存储介质。示例性存储介质耦合到处理器,这样处理器可以从存储介质读信息和向存储介质写信息。在可替换方案中,存储介质可以集成到处理器。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在可替换方案中,处理器和存储介质可以作为离散组件而驻留在用户终端中。
在本文档中,诸如第一和第二等的关系术语可以仅仅用于区别一个实体或行动与另一实体或行动,而不一定要求或隐含在这样的实体或行动之间的任何实际这样的关系或次序。诸如“第一”、“第二”、“第三”等数字序数仅仅表明多个中的不同的个体并且不隐含任何次序或顺序,除非由权利要求语言特别限定。任何权利要求中文本的顺序不隐含过程步骤必须以根据这样的顺序的时间或逻辑次序来执行,除非由权利要求语言特别限定。过程步骤可以以任何次序互换而不偏离本发明的范围,只要这样的互换不与权利要求语言矛盾并且不是逻辑上无意义的即可。
虽然已经在本发明的前述具体实施方式中呈现了至少一个示例性实施例,但是应当领会的是,存在大量变型。还应当领会的是,一个或多个示例性实施例仅仅是示例,并且不旨在以任何方式限制发明的范围、适用性或配置。相反,前述具体实施方式将为本领域技术人员提供用于实现本发明的示例性实施例的常规线路图。理解的是,可以在示例性实施例中描述的元件的功能和布置中进行各种改变,而不偏离如在所附权利要求中所阐述的发明范围。

Claims (10)

1.一种在系统中管理语音数据的方法,包括:
接收由语音识别模块所生成的语音数据;
基于语音数据而在定义文件的数据结构中搜索语音标签,其中数据结构定义显示屏的特征;以及
确定与语音标签相关联的行动;以及
基于行动而进行将数据传送到系统的应用和生成显示数据中的至少一个。
2.根据权利要求1所述的方法,其中所述搜索包括针对数据结构的语音标签而遍历以定义文件的树结构所布置的数据结构。
3.根据权利要求1所述的方法,还包括追踪正显示的特征的状态,并且其中所述搜索是基于特征的状态。
4.根据权利要求1所述的方法,基于语音标签而更新词汇。
5.根据权利要求1所述的方法,其中生成显示数据包括生成要在显示屏中显示的数据。
6.根据权利要求1所述的方法,其中生成显示数据包括生成用以显示新的显示屏的显示数据。
7.根据权利要求1所述的方法,其中生成显示数据包括生成用以变更显示屏的特征的外观的显示数据。
8.根据权利要求1所述的方法,其中语音标签包括与特征的名称或标记相关联的字符串。
9.根据权利要求1所述的方法,其中语音标签包括与特征的功能相关联的字符串。
10.根据权利要求1所述的方法,其中显示屏的特征是隐藏特征。
CN201510085105.6A 2014-02-19 2015-02-17 用于将语音集成到系统中的方法和系统 Active CN104850575B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/184,327 US9548049B2 (en) 2014-02-19 2014-02-19 Methods and systems for integration of speech into systems
US14/184327 2014-02-19

Publications (2)

Publication Number Publication Date
CN104850575A true CN104850575A (zh) 2015-08-19
CN104850575B CN104850575B (zh) 2020-10-23

Family

ID=52434689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510085105.6A Active CN104850575B (zh) 2014-02-19 2015-02-17 用于将语音集成到系统中的方法和系统

Country Status (3)

Country Link
US (1) US9548049B2 (zh)
EP (1) EP2911150A1 (zh)
CN (1) CN104850575B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033764A (zh) * 2019-03-08 2019-07-19 中国科学院深圳先进技术研究院 无人机的语音控制方法、装置、系统及可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10950235B2 (en) * 2016-09-29 2021-03-16 Nec Corporation Information processing device, information processing method and program recording medium
CN107170449A (zh) * 2017-06-14 2017-09-15 上海雍敏信息科技有限公司 智能家居系统及其控制方法
WO2019236444A1 (en) * 2018-06-05 2019-12-12 Voicify, LLC Voice application platform

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647023A (zh) * 2002-02-15 2005-07-27 Sap股份公司 语音控制的数据输入
CN1716256A (zh) * 2004-06-30 2006-01-04 微软公司 自动分类法的生成
US8234121B1 (en) * 2007-08-10 2012-07-31 Rockwell Collins, Inc. Voice recognition system for an avionics system using unique words to encode specific frequencies
CN103377028A (zh) * 2012-04-20 2013-10-30 纽安斯通讯公司 用于以语音启动人机界面的方法和系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7191119B2 (en) * 2002-05-07 2007-03-13 International Business Machines Corporation Integrated development tool for building a natural language understanding application
US8719244B1 (en) * 2005-03-23 2014-05-06 Google Inc. Methods and systems for retrieval of information items and associated sentence fragments
US7881832B2 (en) 2006-06-09 2011-02-01 Garmin International, Inc. Automatic speech recognition system and method for aircraft
US20080201148A1 (en) 2007-02-15 2008-08-21 Adacel, Inc. System and method for generating and using an array of dynamic grammar
ES2363037T3 (es) 2007-09-21 2011-07-19 The Boeing Company Control de vehículos.
JP5274481B2 (ja) * 2007-12-11 2013-08-28 パナソニック株式会社 自動フォーカス遷移装置及びその方法
US8180562B2 (en) 2008-06-04 2012-05-15 The Boeing Company System and method for taxi route entry parsing
US9009041B2 (en) * 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647023A (zh) * 2002-02-15 2005-07-27 Sap股份公司 语音控制的数据输入
CN1716256A (zh) * 2004-06-30 2006-01-04 微软公司 自动分类法的生成
US8234121B1 (en) * 2007-08-10 2012-07-31 Rockwell Collins, Inc. Voice recognition system for an avionics system using unique words to encode specific frequencies
CN103377028A (zh) * 2012-04-20 2013-10-30 纽安斯通讯公司 用于以语音启动人机界面的方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033764A (zh) * 2019-03-08 2019-07-19 中国科学院深圳先进技术研究院 无人机的语音控制方法、装置、系统及可读存储介质

Also Published As

Publication number Publication date
US20150235640A1 (en) 2015-08-20
US9548049B2 (en) 2017-01-17
EP2911150A1 (en) 2015-08-26
CN104850575B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
US11100295B2 (en) Conversational authoring of event processing applications
CN108369580B (zh) 针对屏幕上项目选择的基于语言和域独立模型的方法
CN108255290A (zh) 移动装置上的模态学习
CN111523326A (zh) 实体链指方法、装置、设备以及存储介质
CN105659194B (zh) 用于屏幕上键盘的快速任务
KR101935585B1 (ko) 게임 커맨드 인식 방법 및 장치
US20060155546A1 (en) Method and system for controlling input modalities in a multimodal dialog system
US20140181790A1 (en) Software Engineering System and Method for Self-Adaptive Dynamic Software Components
CN101689189A (zh) 各种领域中的使用部分选择的文本预测
US20200327189A1 (en) Targeted rewrites
US9460081B1 (en) Transcription correction using multi-token structures
CN108700996A (zh) 用于多输入管理的系统和方法
KR20100015899A (ko) 다국어 입력기 사용자 프로파일
US20180314343A1 (en) Text input system using evidence from corrections
CN104850575A (zh) 用于将语音集成到系统中的方法和系统
WO2021129074A1 (zh) 用于处理程序代码中的变量的引用的方法和系统
JP2022019524A (ja) モデリングパラメータの設定方法、装置、デバイス、コンピュータ記憶媒体、及びコンピュータプログラム
KR20210110604A (ko) 자연 솔루션 언어
US11899904B2 (en) Text input system with correction facility
US11816422B1 (en) System for suggesting words, phrases, or entities to complete sequences in risk control documents
US9471890B2 (en) Enterprise decision management
US8087003B1 (en) System, method, and computer program product for propagating an identified data validation error to a user interface
AU2017101087A4 (en) Interaction Language Design Pattern
US20230376833A1 (en) Hybrid model and system for predicting quality and identifying features and entities of risk controls
US20240054421A1 (en) Discriminative model for identifying and demarcating textual features in risk control documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant