CN1830025A - 驱动对话系统的方法 - Google Patents

驱动对话系统的方法 Download PDF

Info

Publication number
CN1830025A
CN1830025A CNA2004800221210A CN200480022121A CN1830025A CN 1830025 A CN1830025 A CN 1830025A CN A2004800221210 A CNA2004800221210 A CN A2004800221210A CN 200480022121 A CN200480022121 A CN 200480022121A CN 1830025 A CN1830025 A CN 1830025A
Authority
CN
China
Prior art keywords
audio
audio interface
feature
interface
controlled variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800221210A
Other languages
English (en)
Inventor
T·波尔特勒
F·蒂勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1830025A publication Critical patent/CN1830025A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明描述了一种用于驱动一个对话系统(1)的方法,所述对话系统(1)包括一个用以处理音频信号(3,6)的音频接口(11)。这一方法推断一个预期音频输入信号(3)的特征(2),并根据这些特征(2)生成音频接口控制参数(4)。基于音频接口控制参数(4)对音频接口(11)的性能进行优化。此外,本发明描述了一个对话系统(1),其包括一个音频接口(11)、一个对话控制单元(12)、一个用于推断预期音频输入信号(3)的特征(2)的预测器模块(13),以及一个通过基于特征(2)生成音频输入控制参数(4)来优化音频接口(11)性能的音频优化器(14)。

Description

驱动对话系统的方法
技术领域
本发明总的来说涉及一种驱动对话系统的方法,特别是驱动基于语音的对话系统的方法以及一种相应的对话系统。
背景技术
人机界面领域的最新进展带来了技术设备的广泛使用,这些设备通过设备与设备用户之间的对话来操作。某些对话系统基于在用户部分上面显示视觉信息和人工交互作用。例如,几乎每个移动电话都通过一种操作对话而被操作,所述操作对话基于在移动电话的显示器上示出选项和用户按下适当的按钮来选择一个特定选项。只有在用户可以自由观察显示器上的视觉信息并同对话系统进行交互的环境中,这一对话系统才可行。但是,在用户必须集中注意力于另一项任务(例如驾驶车辆)的环境中,要用户观看屏幕来确定他的选项是不可行的。此外,用户通常无法人工键入他的选择,或者如果他键入了选择他自身可能也陷入危险形势之中。
然而,一种至少部分基于语音的对话系统允许用户进入同对话系统的口述对话当中。用户可以发布口述命令并从对话系统接收可视和/或可听反馈。一个这样的例子可以是家电管理系统,其中用户发布口述命令来激活一个设备,例如视频记录器。另一个例子可以是操作车辆中的一个导航设备或另一种设备,其中用户向该设备咨询问题或者向该设备发布命令,该设备给出一个响应或反过来询问一个问题,由此用户和设备进入一个对话。使用中的还有被实现为电话对话的其它对话或会话系统,例如一个提供关于当地餐馆以及如何查找它们位置的信息的电话对话系统,或者一个提供飞行状态信息且使用户能够通过电话预定航班的电话对话。这些对话系统的一个共同特征是一个用于记录和处理包括语音在内的声音输入的音频接口,并且它可以通过各种参数进行配置,例如输入声音阀值、最终无声窗等。
此类对话系统的一个缺点是用户所提供的语音输入总是伴随着一定的背景噪声。因此,基于语音的对话系统的音频接口的一个控制参数也许会规定一个噪声级别,低于这一级别的任何声音都认为是无声。只有声音大于无声阀值时,即声音包含了高于无声阀值的信号能量时,才认为它是声音。不幸的是,背景噪声可能变化。背景噪声等级例如可能由于环境条件的改变而提高,例如车辆驾驶员加速导致发动机声音更大,或者驾驶员打开车窗使来自车辆外面的噪声加入到背景噪声当中。背景噪声等级中的改变也可由于对话系统响应于口述用户命令所采取的行动而提高,例如启动空调装置。作为结果产生的背景噪声增长具有降低音频输入信号的信噪比的效果。这可能还会导致这样一种情况,其中背景噪声超过了无声阀值,结果被错误地解释。另一方面,如果无声阀值过高,口述用户输入可能无法超过无声阀值,结果被忽略。
当前对话系统的另一个缺点是其它阀值控制参数也通常被配置来涵盖尽可能多的可能性,并且通常被设置为固定值。例如,最终无声窗(用户的最后有声发言和系统确定用户结束口述之间消逝的时间)具有固定长度,但是用户实际完成口述后消逝的时间长度在很大程度上依赖用户所述内容的特性。例如,对对话系统所提出的简单问句的一个简单的是/不是回答不需要一个长的最终无声窗。另一方面,对可自由回答问题的响应(例如,沿一个特定路线要访问哪个目的地)可以是任意持续时间,这依赖于用户所述的内容。因此,最终无声窗必须足够长来涵盖这些应答,因为一个短值可能导致用户响应在完成之前被切断。拼写输入同样要求一个相对长的最终无声窗,因为一个单词的拼写字母之间的停顿通常大于一个短语或句子中单词之间的停顿。但是,长的最终无声窗导致对话系统的响应时间更长,这在一系列期待简短是/不是回答的问题的情况中很可能会令人急躁。由于用户每次都必须至少等待最终无声窗的持续时间,用户很可能会觉得对话很不自然。
发明内容
因此,本发明的一个目的是提供一种简单且花费不多的方法来优化对话系统的性能、在困难条件下确保良好的语音识别,同时简单易用。
为此,本发明提供了一种驱动包括用于处理音频信号的音频接口的对话系统的方法,其通过推断一个预期音频输入信号的特征,根据这些特征生成音频接口控制参数,并应用这些参数自动优化该音频接口的性能。在此,所述预期音频输入信号可以是一个预期口述输入,例如对用户所述对话系统的一个输出(提示)所做出口述回答以及任何伴随的背景噪声。
根据本发明的一个对话系统包括一个音频接口、一个对话控制单元、一个预测器模块以及一个优化器单元。预测器模块推断预期音频输入信号的特征,所述预测器模块使用对话控制单元提供的信息。对话控制单元解析语音内容描述中的不明确处,根据一个给定的对话说明来控制对话,将语音数据发送到一个语音生成器以呈现给用户,并对口述用户输入做出提示。优化器模块随后根据预测器模块提供的特征生成音频接口控制参数。
因此,音频接口最优地适合于对音频输入信号的改变做出补偿,结果得到改进的语音识别和短的系统响应时间,同时保证舒适的使用。这样,系统用户无需发布具体要求就可以优化对话系统的性能。
音频接口可包括音频硬件、一个音频驱动器以及一个音频模块。音频硬件是接口的“前端”,连接到一个用于记录音频输入信号的设备,该设备可以是单机或可以被等价结合到诸如电话听筒的设备中。音频硬件可以例如是一个声卡、一个调制解调器等。
音频驱动器将音频输入信号转换为一种数字信号形式,并将该数字输入信号安排到音频输入数据块中。随后,音频驱动器将音频输入数据块传递到音频模块,该音频模块分析音频数据的信号能量来确定并提取语音内容。
在一个音频接口为输入/输出接口的系统中,音频模块、音频驱动器和音频硬件也能够处理音频输出。在此,音频模块例如从一个语音生成器接收数字音频信息,并将该适当形式的数字信息传递到音频驱动器,该音频驱动器将数字输出信号转换成一个音频输出信号。随后,音频硬件能够通过一个扬声器发射这一音频输出信号。这种情况下,音频接口允许用户通过对麦克风说话以及通过扬声器听取系统的输出提示来参与同一个系统的口述对话。但是,本发明不限于双向口述对话。它可以满足这样一种需要,音频接口处理包括口述命令在内的输入音频、同时一个分开的输出接口将输出提示给用户,例如在图形显示器上可视地呈现。
从属权利要求公开了本发明特别有益的实施例和特征,其中可以根据方法权利要求的特征进一步改进该系统。
优选地,控制参数包括音频接口的音频驱动器的记录和/或处理参数。音频驱动器为音频模块提供音频数据块。通常,这样一个音频数据块包括一个块首部和块数据,其中首部具有一个固定尺寸和格式,但数据块的尺寸是可变的。块尺寸可以较小,结果是迅速的系统响应时间但总开销提高。更大的块导致更慢的系统响应时间并导致更低的总开销。通常理想的是根据系统的瞬时容量调整音频块的尺寸。为此,音频驱动器通知优化器音频块的当前尺寸。根据对话控制模块提供的信息,优化器可以改变音频驱动器的参数,由此根据需要增大或减小音频块的尺寸。音频驱动器的其它参数可以是记录等级,即麦克风的敏感度。依赖关于输入语音质量的信息以及通过处理输入信号获得的或通过一个接口提供到外部应用的背景噪声等级,优化器可调整麦克风的敏感度以最佳适应当前情况。
控制参数还可包括音频接口的音频模块的阀值参数。此类阀值参数可以是语音或无声的能量等级,即音频模块在音频输入信号上检测语音时应用的无声阀值。语音检测算法考虑具有高于无声阀值的能量等级的任何信号。另一个阀值参数可以是超时值,它决定对话系统等待用户对一个输出提示做出反映的时长,例如用户从对话系统提供给他的多个选项中选择一个选项时可以使用的时间。预测器单元根据所参与的对话类型确定用户响应的特征,并且优化器相应地调整音频模块的超时值。另一个阀值参数涉及最终无声窗,即跟随在一个发言之后的消逝时间的长度,在最终无声窗之后,对话控制单元断定用户已经完成了讲话。优化器可根据所参与的对话类型增加或减小最终无声窗的长度。例如在预期拼写输入的情况下,增加最终无声窗的长度是有利的,由此所拼写单词的字母不会被忽略。
控制参数可被直接应用到音频接口的适当模块,或者可以在音频接口的模块的判决过程中将它们连同其它有关参数一起考虑。在当前参数之前,这些其它参数可能已经被优化器提供,或者已经从一个外部源处获得。
在本发明的一个优选实施例中,从当前可用的数据和/或从更早的输入数据推断预期音频输入信号的特征。
特别地,可以从输入音频信号语音内容的语义分析中推断预期音频输入信号的特征。例如,带有板上对话系统的车辆的驾驶员发布一个口述命令来开启空调装置并调解到某一特定温度,例如“开启空调装置到大约,嗯,22度”。一旦音频输入信号被处理且语音识别被执行,则口述单词的语义分析在一个语音理解模块中被执行,它识别有关的单词和短语,例如“开启”、“空调装置”以及“22度”,并忽略掉不相关的单词。随后,相关单词和短语被发送到对话控制单元以便激活适当的命令。根据本发明,预测器模块同样被告知这一行动,由此可以推断预期音频输入的特征。这种情况下,预测器模块从这些数据推断到未来输入信号的一个特征是由空调装置造成的相对高的噪声等级。优化器生成相应的输入音频控制参数,例如通过提高无声阀值,由此,在这一例子中,空调设备的嗡嗡声被对话系统视为无声。
优选地,也可从所确定的环境条件输入数据推断预期输入信号的特征。在本发明的这一方案中,为对话系统提供涉及外部环境的相关数据。例如,在配备有此类对话系统的车辆中,诸如rpm数值的信息通过一个适当接口被传递到对话系统中。随后预测器模块能够从rpm值的增长中推断到未来音频输入信号将被表征为音量提高。这一特征随后被传递到优化器,优化器反过来生成适当的音频输入控制参数。现在驾驶员通过人工启动适当按钮打开一个或多个车窗。一个板上应用将这一动作通知到对话控制单元,其为预测器模块提供必要的信息,由此优化器能够生成适当的控制参数,以便音频模块对所导致的背景噪声的提高做出补偿。
有利地,也可从对话系统当前提示的预期响应中推断预期音频输入信号的特征。例如,如果一个导航系统含有对话系统,车辆的驾驶员可咨询该导航系统“为我寻找到Llanelwedd最短的路径”。对话控制模块处理这一命令但无法识别目的地的名称,并相应地发布一个输出提示,要求驾驶员拼写目的地名称。预测器模块推断预期拼写音频输入将包括由相对长的无声分离开的短发言,并将这些特征通知到优化器。优化器反过来生成适当的输入控制参数,例如一个增大的最终无声窗参数,由此目的地的所有口述字母都能被成功地记录和处理。
附图说明
本发明的其它目的和特征将从下面结合附图的详述中变得明显。但是,应该理解附图仅仅是以说明为目的被设计的,而不是被设计为限制本发明的定义,对此应该参考附加的权利要求说明。
唯一的图1是根据本发明一个实施例的一个对话系统的示意框图。
所述附图不排除本发明其它可能的实现方式,在其描述中,系统被示为用户设备的一部分,例如一个汽车对话系统。
图1示出一个对话系统1,其包括一个音频接口11和用于处理音频信息的多个模块12,14,15,16,17。
具体实施方式
音频接口11可处理输入和输出音频信号,并包括一个音频硬件8、一个音频驱动器9和一个音频模块10。麦克风18检测到的一个音频输入信号3被音频硬件8(例如一种类型的声卡)记录下来。所记录的音频输入信号被传递到音频驱动器9,音频模块10进一步对它进行处理之前先在音频驱动器9中将其数字化。音频模块10能够确定语音内容21和/或背景噪声。另一个方向上,系统1的输出提示6以一个数字化音频信号的形式被音频模块10和音频驱动器9处理,然后被音频硬件8作为音频信号20输出,所述音频硬件8被连接到一个扬声器19。
音频输入3的语音内容21被传递到一个自动语音识别模块15,它从语音内容21生成数字文本5。随后,数字文本5被一个语义分析器或“语音理解”模块16进一步处理,它检查数字文本5并提取相关的语义信息22。相关词语22被发送到一个对话控制模块12。
对话控制模块12通过检查语义分析器16提供的语义信息22来确定对话的实质,将命令发送到一个合适的外部应用24,并按照一个给定的对话说明生成所要求的数字提示文本23。
在要求用户给出口述输入3的事件中,对话控制模块12生成数字输入提示文本23,它将被进一步发送到语音生成器17。这反过来生成一个音频输出信号6,它被传递到音频接口11并在扬声器19上被发布为一个语音输出提示20。
这一示例中,对话控制模块12通过一个适当的接口7被连接到一个外部应用24,此处为车辆的板上设备。这样,例如用户发出的打开车窗的口述命令被对话控制模块12适当编码,并通过接口7被传递到应用24,该应用24随后执行这一命令。
连接到对话控制单元12或在本例中集成到对话控制单元12中的预测器模块13确定这些动作的影响,作为对话的结果在一个预期音频输入信号3的特征上执行所述动作。例如,用户可能已经发布了一个命令来打开车窗。作为结果,预测器模块13推断未来输入音频信号的背景噪声将变得更高。随后,预测器模块13为优化器14提供预期输入音频信号的预测特征2,这一情况下的结果是背景噪声增长且具有更低的信噪比。
使用预测器13提供的特征2,优化器14能够为音频接口11生成适当的控制参数4。这一示例中,优化器14通过提高音频模块10的无声阀值来抵消噪声的增大。一旦已经打开车窗,音频模块9便利用优化参数4来处理数字化音频输入信号,这样提高的无声阀值补偿了增大的背景噪声。
音频接口11还为优化器14提供信息25,例如背景噪声的当前等级或音频块的当前尺寸。优化器14能够应用这一信息25来生成优化的控制参数4。
依赖输出提示20的类型,用户响应可以是一个短语、一个句子或拼写单词的形式。例如,输出提示20可以是一个简单问句的形式,用户只需对其回答“是”或“不是”。这一情况下,预测器模块13推断预期输入信号3将具有单个发声和短间断的特征,并且其将这些特征2通知给优化器14。优化器14例如通过为音频输入信号3规定一个短的超时值来相应地生成控制参数4。
外部应用也能够为对话系统1提供相关信息。例如,应用24能够不断地为对话系统1提供车辆的rpm值。预测器模块13预测由rpm值增大造成的发动机噪声增大,并相应地推断未来输入音频信号3的特征2。优化器14生成控制参数4来提高无声阀值,由此补偿噪声的增大。发动机rpm值的减小导致发动机噪声等级降低,预测器模块13由此推断输入音频信号3上的背景噪声等级降低。随后,优化器14相应地调整音频输入控制参数4。
除了音频硬件之外本发明的所有模块和单元都能够通过使用一个适当的处理器在软件中实现。
尽管以优选实施例及其变体的形式公布了本发明,但应该理解在不背离本发明范畴的前提下可在它们的基础上做出大量附加的修正和变化。本发明的一个实施例中,对话系统在处理少量发音之后便可以确定当前用户声音的音质,或者用户可以通过键入一个标识码来让系统了解自己,随后这些标识码将被用来访问存储的用户简档信息,而所述用户简档信息将被用来为音频接口生成适当的控制参数。
为了清楚,通篇申请中都应该理解“一”或“一个”的使用并不排除复数,且“包括”并不排除其它步骤或元件。“单元”或“模块”的使用不限于实现为单个单元或模块。

Claims (9)

1.一种用于驱动一个对话系统(1)的方法,所述系统包括一个用于处理音频信号(3,6)的音频接口(11),其中一个预期音频输入信号(3)的特征(2)被推断,根据这些特征(2)生成音频接口控制参数(4),基于音频接口控制参数(4)来优化音频接口(11)的性能。
2.权利要求1所述的方法,其中从当前和/或在先的输入数据中推断特征(2)。
3.权利要求2所述的方法,其中从输入音频信号(3)的语音内容(5)的语义分析中推断特征(2)。
4.权利要求2或3所述的方法,其中从所确定的环境条件数据推断特征(2)。
5.前述任一权利要求所述的方法,其中从对所述对话系统(1)的当前提示(6)的预期响应中推断特征(2)。
6.前述任一权利要求所述的方法,其中控制参数(4)包括音频接口(11)的一个音频驱动器(9)的记录和/或处理参数。
7.前述任一权利要求所述的方法,其中控制参数(4)包括音频接口(11)的一个音频模块(10)的阀值参数。
8.一个对话系统(1),其包括一个音频接口(11)、一个对话控制单元(12)、一个用于推断预期音频输入信号(3)的特征(2)的预测器模块(13)、一个通过基于特征(2)生成音频输入控制参数(4)来优化音频接口(11)性能的音频优化器(14)。
9.权利要求8所述的对话系统(1),其中音频接口(11)包括音频硬件(8)和/或音频驱动器(9)和/或音频模块(10)。
CNA2004800221210A 2003-08-01 2004-07-22 驱动对话系统的方法 Pending CN1830025A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03102402.9 2003-08-01
EP03102402 2003-08-01

Publications (1)

Publication Number Publication Date
CN1830025A true CN1830025A (zh) 2006-09-06

Family

ID=34112483

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800221210A Pending CN1830025A (zh) 2003-08-01 2004-07-22 驱动对话系统的方法

Country Status (5)

Country Link
US (1) US20070150287A1 (zh)
EP (1) EP1654728A1 (zh)
JP (1) JP2007501420A (zh)
CN (1) CN1830025A (zh)
WO (1) WO2005013262A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105378708A (zh) * 2013-06-21 2016-03-02 微软技术许可有限责任公司 环境感知对话策略和响应生成
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US10484872B2 (en) 2014-06-23 2019-11-19 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
US10497367B2 (en) 2014-03-27 2019-12-03 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US10572602B2 (en) 2013-06-21 2020-02-25 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI118549B (fi) * 2002-06-14 2007-12-14 Nokia Corp Menetelmä ja järjestelmä äänipalautteen järjestämiseksi digitaaliseen langattomaan päätelaitteeseen sekä vastaava päätelaite ja palvelin
US8181205B2 (en) 2002-09-24 2012-05-15 Russ Samuel H PVR channel and PVR IPG information
DE102005061365A1 (de) * 2005-12-21 2007-06-28 Siemens Ag Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
JP2007286356A (ja) * 2006-04-17 2007-11-01 Funai Electric Co Ltd 電子機器
US8355913B2 (en) * 2006-11-03 2013-01-15 Nokia Corporation Speech recognition with adjustable timeout period
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US10115392B2 (en) * 2010-06-03 2018-10-30 Visteon Global Technologies, Inc. Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system
EP2707872A2 (en) * 2011-05-12 2014-03-19 Johnson Controls Technology Company Adaptive voice recognition systems and methods
US8762154B1 (en) * 2011-08-15 2014-06-24 West Corporation Method and apparatus of estimating optimum dialog state timeout settings in a spoken dialog system
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
DE102013021861A1 (de) * 2013-12-20 2015-06-25 GM Global Technology Operations LLC (n. d. Ges. d. Staates Delaware) Verfahren zum Betrieb eines Kraftfahrzeuges mit einer Spracheingabevorrichtung, Kraftfahrzeug
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US10008201B2 (en) * 2015-09-28 2018-06-26 GM Global Technology Operations LLC Streamlined navigational speech recognition
CN111667831B (zh) * 2020-06-08 2022-04-26 中国民航大学 基于管制员指令语义识别的飞机地面引导系统及方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5730913A (en) * 1980-08-01 1982-02-19 Nissan Motor Co Ltd Speech recognition response device for automobile
US6125347A (en) * 1993-09-29 2000-09-26 L&H Applications Usa, Inc. System for controlling multiple user application programs by spoken input
JP3530591B2 (ja) * 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
FR2744277B1 (fr) * 1996-01-26 1998-03-06 Sextant Avionique Procede de reconnaissance vocale en ambiance bruitee, et dispositif de mise en oeuvre
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US5991726A (en) * 1997-05-09 1999-11-23 Immarco; Peter Speech recognition devices
JPH11224179A (ja) * 1998-02-05 1999-08-17 Fujitsu Ltd 対話インタフェース・システム
US6119088A (en) * 1998-03-03 2000-09-12 Ciluffo; Gary Appliance control programmer using voice recognition
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6182046B1 (en) * 1998-03-26 2001-01-30 International Business Machines Corp. Managing voice commands in speech applications
US6219644B1 (en) * 1998-03-27 2001-04-17 International Business Machines Corp. Audio-only user speech interface with audio template
US6240347B1 (en) * 1998-10-13 2001-05-29 Ford Global Technologies, Inc. Vehicle accessory control with integrated voice and manual activation
US6208971B1 (en) * 1998-10-30 2001-03-27 Apple Computer, Inc. Method and apparatus for command recognition using data-driven semantic inference
US6208972B1 (en) * 1998-12-23 2001-03-27 Richard Grant Method for integrating computer processes with an interface controlled by voice actuated grammars
US6192343B1 (en) * 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
DE10041456A1 (de) * 2000-08-23 2002-03-07 Philips Corp Intellectual Pty Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen
DE10046359A1 (de) * 2000-09-20 2002-03-28 Philips Corp Intellectual Pty Dialogsystem
US7340397B2 (en) * 2003-03-03 2008-03-04 International Business Machines Corporation Speech recognition optimization tool

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
CN105378708A (zh) * 2013-06-21 2016-03-02 微软技术许可有限责任公司 环境感知对话策略和响应生成
US10304448B2 (en) 2013-06-21 2019-05-28 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US10572602B2 (en) 2013-06-21 2020-02-25 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
CN105378708B (zh) * 2013-06-21 2020-03-27 微软技术许可有限责任公司 环境感知对话策略和响应生成
US10497367B2 (en) 2014-03-27 2019-12-03 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10484872B2 (en) 2014-06-23 2019-11-19 Microsoft Technology Licensing, Llc Device quarantine in a wireless network

Also Published As

Publication number Publication date
WO2005013262A1 (en) 2005-02-10
US20070150287A1 (en) 2007-06-28
JP2007501420A (ja) 2007-01-25
EP1654728A1 (en) 2006-05-10

Similar Documents

Publication Publication Date Title
CN1830025A (zh) 驱动对话系统的方法
JP4558074B2 (ja) 電話通信端末
EP2051241B1 (en) Speech dialog system with play back of speech output adapted to the user
JP6121842B2 (ja) 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム
US10176806B2 (en) Motor vehicle operating device with a correction strategy for voice recognition
EP4139816B1 (en) Voice shortcut detection with speaker verification
CN1346486A (zh) 用于语音启动装置的讲话用户接口
JP2007529831A (ja) 音声対話型メッセージング方法及び装置
JP5387416B2 (ja) 発話分割システム、発話分割方法および発話分割プログラム
CN113362828A (zh) 用于识别语音的方法和装置
KR100930039B1 (ko) 음성 인식기의 성능 평가 장치 및 그 방법
CN111883135A (zh) 语音转写方法、装置和电子设备
CN112420020B (zh) 信息处理装置及信息处理方法
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
US20010056345A1 (en) Method and system for speech recognition of the alphabet
EP3499500B1 (en) Device including a digital assistant for personalized speech playback and method of using same
CN110021295B (zh) 用于识别由语音识别系统生成的错误转录的方法和系统
EP2706528A2 (en) System and method to generate a narrator specific acoustic database without a predefined script
CN115552517A (zh) 自动化助理响应呈现的无热词抢占
US20240363122A1 (en) Voice shortcut detection with speaker verification
US11527247B2 (en) Computing device and method of operating the same
KR102444834B1 (ko) 운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치
EP4428854A1 (en) Method for providing voice synthesis service and system therefor
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US20190156834A1 (en) Vehicle virtual assistance systems for taking notes during calls

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication