CN111557030B - 用于处理语音输入的方法、设备和具有指令的计算机可读存储介质、具有语音处理的机动车和用户终端设备 - Google Patents

用于处理语音输入的方法、设备和具有指令的计算机可读存储介质、具有语音处理的机动车和用户终端设备 Download PDF

Info

Publication number
CN111557030B
CN111557030B CN201880085230.9A CN201880085230A CN111557030B CN 111557030 B CN111557030 B CN 111557030B CN 201880085230 A CN201880085230 A CN 201880085230A CN 111557030 B CN111557030 B CN 111557030B
Authority
CN
China
Prior art keywords
speech
speech input
input
processing
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880085230.9A
Other languages
English (en)
Other versions
CN111557030A (zh
Inventor
R.沃伊克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen AG
Original Assignee
Volkswagen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen AG filed Critical Volkswagen AG
Publication of CN111557030A publication Critical patent/CN111557030A/zh
Application granted granted Critical
Publication of CN111557030B publication Critical patent/CN111557030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Abstract

用于处理语音输入的方法、设备和具有指令的计算机可读存储介质。在第一步骤中,接收(10)用户的语音输入。紧接着,该语音输入针对两个或更多个可供使用的语音处理服务中的至少一个语音处理服务被预处理(11)。最后,将经预处理的语音输入传递(12)给这些可供使用的语音处理服务中的一个或多个语音处理服务。

Description

用于处理语音输入的方法、设备和具有指令的计算机可读存 储介质、具有语音处理的机动车和用户终端设备
技术领域
本发明涉及一种用于处理语音输入的方法、设备和具有指令的计算机可读存储介质。本发明还涉及一种具有语音处理的机动车和用户终端设备,在该机动车和该用户终端设备中使用按照本发明的方法或按照本发明的设备。
背景技术
利用语音处理系统,用户可以通过语音接口以在很大程度上自然的语音来进行部分自动化或完全自动化的对话。这样的语音处理系统例如从电话服务领域公知。在这样的应用中,整个语音处理都通过在附图提供商侧的计算机系统来进行。
语音处理系统的另一应用领域是“Smart-Home(智能家居)”设备、也就是说用于智能家居的设备。在上位概念Smart Home下归纳如下技术方法和系统,利用所述技术方法和系统应该实现更高的居住和生活质量、经提高的安全性以及更高效的能量利用。其基础是联网且可远程控制的设备以及可自动化的流程。这种设备部分地允许与智能私人助理的基于语音的交互。因为品质高值的语音处理需要高计算能力,所以在这种设备的情况下该语音处理主要通过在智能私人助理的提供商侧的计算机系统来进行。仅为了激活语音处理而由用户侧的设备进行受限的语音识别。
此外,也越来越多地使用设备集成的语音处理系统,例如在机动车中的可借助于语音输入来控制的导航系统的情况下或者在机动车中的通过其可以监控机动车的功能的免提装置的情况下越来越多地使用设备集成的语音处理系统。这种系统大多本地工作。
在该背景下,DE 10 2014 017 384 A1描述了一种用于运行机动车操作设备以便对于用户的语音输入借助于语音识别系统来确定至少一个识别结果并且将所述识别结果以结果列表的形式输出的方法。如果用户然后做出第二次语音输入,则检测该用户是否因为他并未在该结果列表中找出了所期望的识别结果而对其第一次语音输入在内容上进行重复或修正。
DE 10 2014 201 676 A1描述了一种用于控制语音系统的语音对话的方法。首先,接收语音系统的用户的第一个表达。接着,基于该第一个表达,确定可能结果的第一列表。于是,对第一列表的元素进行分析,以便确定这些元素的歧义。最后,基于部分正字法和歧义,生成对用户的语音请求,以便该用户可以分辨该歧义。
对于在机动车中使用来说,提高语音处理的可靠性恰恰是值得期望的。应该尽可能并不由此而使驾驶员从驾驶中分散注意力,即,因为语音输入未被理解而使得驾驶员必须将他注意力的一部分用于与语音处理的交互。
用于提高语音处理的可靠性的第一方案基于对上下文信息的考虑。
例如,DE 10 2015 213 722 A1描述了一种用于运行车辆中的语音识别系统的方法。在检测用户的语音输入时,附加地检测关于语音输入的上下文的数据。于是,首先生成语音输入的所识别出的文本并且执行对所识别出的文本的语义分析。根据该语义分析和关于语音输入的上下文的数据,确定所识别出的文本的识别质量并且从多个语音模型中选择一个语音模型。该语音模型被用于进一步的文本识别和进一步的语义分析。该方案被反复重复,直至达到足够的识别质量。接着,依据最后一次语义分析来执行功能。
用于提高语音处理的可靠性的另一方案除了本地语音处理之外还使用通过外部计算机系统进行的语音处理。
例如,EP 2 909 833 B1描述了一种用于机动车中的语音识别的方法。从用户接收语音输入并且将这些语音输入中的至少一个语音输入传递给车辆内部的车载语音识别系统。于是,语音识别系统生成第一识别结果。处理器单元也将语音输入整个或部分地传递给车辆外部的非车载语音识别系统,该车辆外部的非车载语音识别系统将第二识别结果传输给该处理器单元。在语音识别时,可以考虑上下文信息。接着,根据第一和第二识别结果,由分析单元来确定语音文本。
US 2015/0058018 A1描述了一种用于识别语音输入的方法,该语音输入包括自然语音和来自域特定的词汇的至少一个词。在第一次语音处理过程中,标识语音输入的第一部分和第二部分,该第一部分包含自然语音,该第二部分包含至少一个域特定的词。此外,在该轮次中对包含在第一部分中的自然语音进行处理。在第二次语音处理过程中,处理具有该至少一个域特定的词的第二部分。
用户终端设备、诸如智能电话、平板电脑、笔记本电脑或者PC的制造商自一段时间以来就使用自己的语音处理系统。为此的示例是Apple Siri[1]、Microsoft Cortana[2]或者Google Allo[3]。这些系统个性化地了解用户行为并且通过持续使用来优化其应答。例如Amazon Echo[4、5]的扩展方案可以通过语音来控制智能家居解决方案。部分地,具有语音处理系统的智能电话已经可以被纳入到机动车中。
例如,DE 10 2014 209 992 A1描述了一种车辆接口模块,该车辆接口模块可以与用户的移动设备并且与车辆进行通信。为此,该车辆接口模块包括用于与移动设备通信的无线收发器和用于与车辆数据总线的通信的车辆收发器。该车辆接口模块的处理器借助于车辆收发器从车辆数据总线接收信号,该信号是通过到车辆计算机系统中的用户输入所发动的。该处理器确定是否在移动设备上请求用于激活语音识别会话的信号。如果情况如此,则借助于无线收发器来向移动设备请求开始语音识别会话。
DE 10 2012 218 938 A1描述了一种用于标识和触发针对移动设备的基于语音的接口的服务的方法。该方法包含接收语音识别结果,该语音识别结果是在移动设备中的语音输入的内容。确定所期望的服务,其方式是,在使用服务标识语法的情况下对该语音识别结果进行处理。确定用户服务请求,其方式是,在使用服务特定的语法的情况下对该语音识别结果的一部分进行处理。该用户服务请求被释放并且服务应答被接收。根据该服务应答来生成音频消息。通过扬声器来将该音频消息展示给用户。
对于未来而言,应期望地而是对集成在机动车中的语音服务进行扩展,其中加强使用后端中的语音处理。为了该目的,车辆制造商估计将建立自己的后端系统或提供自己的后端系统。
当前的语音处理系统可以由用户以不同的方式来激活,其中这些语音处理系统也可以并行地提供多种用于激活的可能性。
第一方案在于:用户必须操纵按键,以便能够实现语音输入。在操纵该按键之后,首先进行系统的声音反馈,例如以信号音的形式或者通过语音输出来进行系统的声音反馈。紧接着,用户可以表达如下语音指令,该语音指令被该系统检测和处理。
在第二方案中,通过如下方式来激活该语音处理系统:用户说出信号词,该信号词被该系统检测和分析。该信号词并非强制性地是单个词,也可以是词序列。在成功识别出该信号词之后,通常首先进行该系统的声音反馈。如已经在第一方案的情况下那样,为此可以使用信号音或者语音输出。像之前那样,紧接着用户可以表达如下语音指令,该语音指令被该系统检测和处理。因为该语音处理系统通过说出该信号词来从休眠状态被唤醒,所以也开创了术语“Wake-Up-Phrase(唤醒短语)”或者“唤醒短语”,作为该信号词的替选的名称。
按照第三方案,用户在唯一一句话中在语音输入或语音指令之后紧接着说出该信号词。在这种情况下,并没有在识别出该信号词之后立即进行该系统的声音反馈。
如果现在考虑如下情况, 即,在车辆中除了车辆制造商自己的语音处理之外也提供由其他提供商进行的语音处理以及也提供了对移动用户终端设备连同其语音处理一并纳入,则提出了可以如何由用户来指定不同服务的问题。一个方案在于:不同的语音处理系统通过特定的按键或信号词来被指定。接着,在多功能方向盘上的按压按键例如启动了智能手机的语音处理,而利用信号词“你好大众汽车”来对车辆制造商的语音处理进行指定,在此情况下,在车辆中执行语音识别或者也部分地或完全在外部系统中执行语音识别。而相反,利用信号词“你好计算机”来对其他提供商的语音处理进行指定。
该方案的缺点是:用户必须知道他想要哪种功能性,以便决策他必须对哪个语音助理进行指定。用户还必须知道如何对相应的语音助理进行指定。
发明内容
本发明的任务是说明经改善的用于处理语音输入的解决方案。
该任务通过具有权利要求1的特征的方法、通过根据权利要求12所述的具有指令的计算机可读存储介质并且通过具有权利要求13的特征的设备来解决。本发明的优选的设计方案是从属权利要求的主题。
按照本发明的第一方面,用于处理语音输入的方法包括如下步骤:
- 接收用户的语音输入;
- 针对两个或更多个可供使用的语音处理服务中的至少一个语音处理服务来对该语音输入进行预处理,其中在对该语音输入进行预处理时生成一个或多个经预处理的语音输入,其方式是分别将信号词添加至该语音输入;而且
- 将经预处理的语音输入传递给可供使用的语音处理服务中的一个或多个语音处理服务。
按照本发明的另一方面,计算机可读存储介质包含如下指令,这些指令在通过计算机来执行时促使该计算机执行如下步骤来对语音输入进行处理:
- 接收用户的语音输入;
- 针对两个或更多个可供使用的语音处理服务中的至少一个语音处理服务来对该语音输入进行预处理,其中在对该语音输入进行预处理时生成一个或多个经预处理的语音输入,其方式是,分别将信号词添加至该语音输入;而且
- 将经预处理的语音输入传递给可供使用的语音处理服务中的一个或多个语音处理服务。
术语计算机在此应宽泛地来理解。尤其是,该计算机也包括控制设备和其它基于处理器的数据处理设备。
按照本发明的另一方面,用于处理语音输入的设备具有:
- 输入端,该输入端被设立为接收语音输入;
- 预处理模块,该预处理模块被设立为针对两个或更多个可供使用的语音处理服务中的至少一个语音处理服务来对该语音输入进行预处理,其中在对该语音输入进行预处理时生成一个或多个经预处理的语音输入,其方式是,分别将信号词添加至该语音输入;和
- 接口,该接口被设立为将经预处理的语音输入传递给可供使用的语音处理服务中的一个或多个语音处理服务。
在按照本发明的解决方案中,在将用户的语音输入传递给多个可供使用的语音处理服务中的至少一个语音处理服务之前首先对所述用户的语音输入进行预处理。在预处理的范畴内保证:不同的语音处理服务正确地被指定或联系合适的语音处理服务。因而,用户可以简单地说话并且不必思考他必须联系哪个语音处理服务以及他可以如何激活该语音处理服务。
按照本发明的一个方面,在针对两个或更多个可供使用的语音处理服务中的多个语音处理服务或每个语音处理服务对该语音输入进行预处理时,生成经预处理的语音输入,其方式是,分别将所属的信号词添加至该语音输入。接着,将相对应的经预处理的语音输入传递给所选择的语音处理服务中的每个语音处理服务。在该解决方案中,针对所选择的语音处理服务来给原始语音输入配备合适的信号词并且接着将其传送给相应的语音处理服务。该方案具有如下优点:从预处理方面只需要非常简单的预处理,该预处理只需要微小的计算能力。
按照本发明的一个方面,按照本发明的方法包括如下步骤作为其它步骤:
- 接收语音处理服务的应答;
- 对所接收到的应答进行分析;而且
- 输出在该分析之后保留的应答中的至少一个应答。
在经预处理的语音输入已经被传递给所选择的语音处理服务并且由该语音处理服务来处理之后,通过应答过滤器来进行对所接收到的应答的分析。该应答过滤器将有意义的或合理的应答、也就是说命中概率最高的应答传送给用户。在这种情况下,智能在于通过该应答过滤器来评价外部语音处理服务的不同的应答。对这些应答进行过滤的优点在于:用户不必关心无意义的或不可能的应答,由此提高了用户对该方案的接受度。
按照本发明的一个方面,如果在对所接收到的应答进行分析时两个或更多个应答被归为合理,则对用户进行询问。可能发生:接收到多个合理的应答。这里有意义的是:向用户进行如下询问:哪个应答对于所基于的语音输入来说与用户所期望的应答对应得最好。以这种方式,系统可以依据语义上类似的关联来进行学习并且更好地评价将来的应答。
按照本发明的一个方面,在分析时抑制如下应答,这些应答表明经预处理的语音输入不能被所指定的语音处理服务之一成功处理。通常,如果语音输入不能被处理,则语音处理服务的应答遵循一定的规则。例如,应答可能以“我没有明白……”为开始。因此,这样的应答可以相当简单地被过滤,使得这些应答完全不受到关于它们的合理性方面的检查。以这种方式,可以降低对于分析所接收到的应答来说所需的计算能力。
按照本发明的一个方面,对语音输入的预处理包括如下步骤:
- 关于语音输入的内容方面对该语音输入进行分析;
- 将该语音输入分配给可供使用的语音处理服务之一;而且
- 通过将属于所分配的语音处理服务的信号词添加至该语音输入来生成经预处理的语音输入。
在该解决方案中,语音输入按如下地被处理:首先进行语义识别并且例如确定该语音输入的主题。接着,根据该主题来确定适当的语音处理服务。紧接着,将对于该语音处理服务来说所需的信号词添加至该语音输入并且将这样预处理的语音输入传递给该语音处理服务。虽然该方案需要更智能且因此计算更密集的预处理,但是优点在于:作为回报,用户只获得唯一一个应答。因而,不需要对所接收到的应答进行进一步分析。
按照本发明的一个方面,在对语音输入进行分析时,将在该语音输入中所识别出的关键词与数据库进行对照,在该数据库中存放有关键词与语音处理服务之间的分配。通过使用关键词数据库,可以以简单的方式来将语音输入分配给语音处理服务。例如,关键词“购买”可以与第一语音处理服务相关联,关键词“天气”可以与第二语音处理服务相关联而关键词“更暖”可以与第三语音处理服务、例如基于该语音输入来调节空调设备的车辆自己的语音处理相关联。
按照本发明的一个方面,向用户提供对该语音输入到这些可供使用的语音处理服务之一的分配进行修正的可能性。在对语音输入进行内容上的分析的情况下,可能做出错误决策。因而有意义的是:用户能够以修正的方式进行干预。基于所进行的修正,对于该分配的决策基础可以动态地被适配,以便同一请求在下一次正确地被分配。以这种方式,该系统是能学习的。
按照本发明的一个方面,在对语音输入进行预处理时,首先移除可能存在于该语音输入中并且属于这些可供使用的语音处理服务之一的信号词。可能发生:用户习惯性地使用与具体的语音输入并不匹配的信号词。为了仍然可以对语音输入有意义地进行处理,有帮助的是:在预处理的范畴内首先将这种信号词移除。
按照本发明的一个方面,在对语音输入进行预处理时,探测存在于该语音输入中并且属于这些可供使用的语音处理服务之一的信号词。接着,将该语音输入分配给相对应的语音处理服务。在该解决方案中出发点是:在该语音输入中用户所说的信号词正确。基于此,该语音输入可以在没有进一步处理的情况下被传递给相对应的语音处理服务。
按照本发明的一个方面,在对语音输入进行预处理时,重新合成该语音输入。例如,可以移除多余的填充词或者将语音输入重新编写为使得这些语音输入被相应的语音处理服务更可靠地识别出。这样,可以将语音输入“我冷”例如作为“你好大众汽车,请提高我车辆中的温度”传递给车辆自己的语音处理。当然,语音输入在此可以针对不同的语音处理服务不一样地重新被合成。
特别有利地,按照本发明的方法或按照本发明的设备被用在车辆、尤其是机动车中。此外,按照本发明的方法或按照本发明的设备也可以在用户终端设备中使用,例如在智能电话、智能家居设备、PC和笔记本电脑等等中使用。
附图说明
本发明的其它特征结合附图从随后的描述以及附上的权利要求书中可见。
图1示意性地示出了用于处理语音输入的方法;
图2示意性地示出了对所接收到的应答的处理;
图3示出了用于处理语音输入的设备的第一实施方式;
图4示出了用于处理语音输入的设备的第二实施方式;
图5示意性地示出了机动车,在该机动车中实现按照本发明的解决方案;
图6示意性地示出了按照本发明的用于处理语音输入的解决方案的第一变型方案的系统设计;
图7示意性地示出了按照本发明的用于处理语音输入的解决方案的第二变型方案的系统设计;而
图8示出了对于由用户进行的语音输入和所属的经预处理的语音输入的一些示例。
具体实施方式
为了更好地理解本发明的原理,随后依据附图更详细地阐述了本发明的实施方式。易于理解的是:本发明并不限于这些实施方式而且所描述的特征也可以组合或者修改,而不脱离如在附上的权利要求书中限定的那样的本发明的保护范围。
图1示意性地示出了用于处理语音输入的方法。在第一步骤中,接收10用户的语音输入。紧接着,该语音输入针对两个或更多个可供使用的语音处理服务中的至少一个语音处理服务被预处理11。最后,将经预处理的语音输入传递12给这些可供使用的语音处理服务中的一个或多个语音处理服务。
在第一变型方案中,在针对两个或更多个可供使用的语音处理服务中的多个语音处理服务或每个语音处理服务对该语音输入进行预处理时,可以生成经预处理的语音输入,其方式是,分别将所属的信号词添加至该语音输入。接着,将所属的经预处理的语音输入传递给所选择的语音处理服务中的每个语音处理服务。紧接着,接收13并且分析14这些语音处理服务的应答。最后,输出15在该分析之后保留的应答中的至少一个应答。这示意性地在图2中示出。如果在分析所接收到的应答时有两个或更多个应答被归为合理,则可以向用户进行询问。此外,在分析时可以抑制如下应答,这些应答表明经预处理的语音输入不能被这些可供使用的语音处理服务之一成功处理。
在第二变型方案中,语音输入可以关于它们的内容方面被分析,例如通过在语音输入中所识别出的关键词与数据库的对照来分析,在该数据库中存放有关键词与语音处理服务之间的分配。基于该分析的结果,将该语音输入分配给这些可供使用的语音处理服务之一。最后,通过将属于所分配的语音处理服务的信号词添加至该语音输入,生成经预处理的语音输入。在此,可以向用户提供对该语音输入到这些可供使用的语音处理服务之一的分配进行修正的可能性。
在第三变型方案中,可以探测存在于该语音输入中并且属于这些可供使用的语音处理服务之一的信号词。接着,将该语音输入分配给相对应的语音处理服务。
优选地,用户可以规定使用哪种类型的预处理或者影响该预处理的特性。
在前两个变型方案中,必要时可以首先移除可能存在于该语音输入中并且属于这些可供使用的语音处理服务之一的信号词。在所有变型方案中,可以为了传递给这些语音处理服务来重新合成该语音输入。
还可以规定:用户必须首先通过适当的措施来激活语音处理,例如必须通过按压按键或者转发给语音处理服务来进行明确确认。以这种方式,可以排除例如车辆的乘客之间的交谈无意间触发由这些语音处理服务进行的行动。
图3示出了用于处理语音输入的设备20的第一实施方式的经简化的示意图。该设备20具有:输入端21,通过该输入端可以接收用户的语音输入,例如从麦克风或其它音频来源接收用户的语音输入;以及存储器26,在该存储器中可以存储所接收到的语音输入。预处理模块22针对两个或更多个可供使用的语音处理服务50_1, ..., 50_n中的至少一个语音处理服务来对语音输入进行预处理。在此,对语音输入的预处理可以如上文中结合图1所阐述的那样来进行。因而,该设备20可具有数据库24,在该数据库中存放有关键词与语音处理服务50_1, ..., 50_n之间的分配。通过接口27,将经预处理的语音输入传递给可供使用的语音处理服务50_1, ..., 50_n中的一个或多个语音处理服务。通过接口27,还接收语音处理服务50_1, ..., 50_n的应答,这些应答可以被应答过滤器23分析。对这些应答的分析可以如上面结合图2所阐述的那样来进行。
预处理模块22、应答过滤器23和数据库24可以由监控单元25来控制。通过用户接口28,必要时可以更改预处理模块22、应答过滤器23或监控单元25的设置或者向用户提出询问并由该用户来应答。通过用户接口28,还可以对数据库24的内容进行处理。在设备20中累积的数据可以在需要时被存放在存储器26中,例如为了稍后的分析或为了由设备20的组件来使用而被存放在存储器26中。预处理模块22、应答过滤器23以及监控单元25可以被实现为专用硬件,例如被实现为集成电路。但是,它们当然也可以部分地或者完全地组合或者被实现为在适当的处理器上、例如在CPU或GPU上运行的软件。输入端21和接口27可以实现为分开的接口或者可以实现为组合式双向接口。
图4示出了用于处理语音输入的设备30的第二实施方式的经简化的示意图。设备30具有处理器32和存储器31。例如,该设备30是计算机或者控制设备。在存储器31中存放有指令,所述指令在由处理器32执行时促使设备30执行按照所描述的方法之一的步骤。因此,存放在存储器31中的指令体现为能通过处理器32执行的程序,所述程序实现了按照本发明的方法。该设备30具有输入端33,用于接收音频数据、例如来自麦克风或其它音频来源的音频数据。由处理器32生成的数据通过输出端34来提供。这些数据还可以被存放在存储器31中。输入端33和输出端34可以合并成双向接口。
处理器32可包括一个或多个处理器单元,例如微处理器、数字信号处理器或者它们的组合。
所描述的实施方式的存储器26、31不仅可具有易失性存储区而且可具有非易失性存储区,而且可包括各种各样的存储设备和存储介质,例如硬盘、光学存储介质或者半导体存储器。
图5示意性地示出了机动车40,在该机动车中实现按照本发明的解决方案。机动车40具有操作设备41、例如具有触摸屏和语音操作可能性的信息娱乐系统。为了检测语音输入,在机动车40中安置有麦克风42。
机动车40还具有用于处理语音输入的设备20。该设备20也可以集成到操作设备41中。机动车40的其它组件是空调自动控制装置43和导航系统44,该空调自动控制装置和该导航系统可以由用户尤其通过语音输入来操作。借助于数据传输单元45,可以在需要时建立与外部语音处理服务的提供商的连接,例如经由移动无线电网来建立。为了存储数据,存在存储器46。通过网络47来进行机动车40的不同组件之间的数据交换。对用户的语音输入的应答可以通过扬声器48来输出。
随后,应该依据图6至8以在机动车中使用为例来更详细地阐述按照本发明的解决方案的工作方式。
图6示意性地示出了按照本发明的用于处理语音输入SE的解决方案的第一变型方案的系统设计。用于处理语音输入的设备20借助于安置在机动车40中的麦克风42来检测由用户进行的语音输入SE。该设备20的预处理模块22针对一系列语音处理服务50_1, ...,50_n对语音输入SE进行预处理。在此,语音输入SE可以在需要时重新被合成。在本例中,这些语音处理服务50_1, ..., 50_n具体是机动车40的制造商的服务50_1、智能家居解决方案50_2和购物应用程序50_3。作为最后的语音处理服务50_n示出了通用型服务。在此,制造商的服务50_1对信号词“你好大众汽车”做出反应,智能家居解决方案50_2作为智能私人助理对信号词“嘿皮娅”做出反应,购物应用程序50_3对信号词“计算机”做出反应,并且通用型服务50_n对信号词“你好xyz”做出反应。最终得到的经预处理的语音输入SE_1, ...,SE_n借助于机动车40的数据传输单元45通过数据网络60被传送给所期望的语音处理服务50_1, ..., 50_n。通过数据网络60和数据传输单元45,接收语音处理服务50_1, ..., 50_n的应答AN_1, ..., AN_n并且将这些应答传递给该设备20的应答过滤器23。该应答过滤器分析所接收到的应答AN_1, ..., AN_n并且将在该分析之后保留的应答中的至少一个应答作为语音输出SA经由机动车40的扬声器48输出给用户。在此,优选地,应答过滤器23仅传送语音处理服务50_1, ..., 50_n的有意义的应答。例如,作为最初语音输入“我冷。”的结果的智能家居解决方案50_2和购物应用程序50_3的应答“我没有明白你的意思。”被应答过滤器23拦截。而相反,机动车40的制造商的服务50_1的应答“我已经将车辆内的温度调高了两度。”则被应答过滤器23传送。
图7示意性地示出了按照本发明的用于处理语音输入SE的解决方案的第二变型方案的系统设计。该系统设计在很大程度上对应于图6中的系统设计,不过已针对语音输入SE的预处理实现了另一方案。预处理模块22关于语音输入SE的内容方面对该语音输入SE进行分析。为此,预处理模块22或除了该目的之外附加地提供的模块将在语音输入SE中所识别出的关键词与数据库24进行对照,在该数据库中存放有关键词与语音处理服务50_1, ...,50_n之间的分配。基于分析的结果,将语音输入SE分配给语音处理服务50_1, ..., 50_n之一、在本例中是机动车40的制造商的服务50_1。最后,通过将相对应的信号词添加至语音输入SE,生成经预处理的语音输入SE_1。在此,语音输入SE还可以重新被合成。经预处理的语音输入SE_1照常借助于数据传输单元通过数据网络60被传送给所分配的语音处理服务50_1。最后,通过数据网络60和数据处理单元45,接收语音处理服务50_1的应答AN_1并且将该应答作为语音输出SA经由扬声器48输出给用户。例如,最初的语音输入“我冷。”可以以“你好大众汽车,请提高我车辆中的温度!”的形式被转发给机动车40的制造商的服务50_1。于是,用户获得应答“我已经将车辆内的温度调高了两度。”相对应地,最初的语音输入“在家里打开暖气!”以“嘿皮娅,在家里打开暖气!”的形式被转发给智能家居解决方案50_2。于是,用户例如获得应答“我已经将暖气打开了。”
图8示出了由用户进行的语音输入SE和所属的经预处理的语音输入的一些示例。
在示例a)中,语音输入SE仅仅包括语音指令SB、在这种情况下是请求“在家里打开暖气!”。根据关键词KW“在家里”可以推导出:该语音输入是向用户所使用的智能家居解决方案提出的。因为该智能家居解决方案使用信号词SW_2“嘿皮娅”,所以在传递给该智能家居解决方案之前给语音输入SE补充该信号词SW_2。因此,经预处理的语音输入SE_2是“嘿皮娅,在家里打开暖气!”。
在示例b)中,除了已知的语音指令SB“在家里打开暖气”之外,语音输入SE还以表述“你好大众汽车”而包括信号词SW_1,该信号词属于与语音指令SB的内容不匹配的语音处理服务。在预处理的范畴内,将该信号词SW_1移除并且通过合适的信号词SW_2“嘿皮娅”来替换该信号词SW_1,使得经预处理的语音输入SE_2又是“嘿皮娅,在家里打开暖气!”。
在示例c)中,语音输入SE仅仅包括语音指令SB“我们需要的还有水”。根据关键词KW“需要”和“水”可以推断:用户比如想要针对购物来记下某物,为此用户使用如下应用程序,该应用程序使用信号词SW_n“你好xyz”。根据用户到目前为止的反馈,系统还知道用户的“水”指的是一箱矿泉水。因而,由该系统所产生的经预处理的语音输入SE_n是“你好xyz,我们需要一箱矿泉水。”。
参考文献
[1] https://de.wikipedia.org/wiki/Siri_(Software)
[2] https://de.wikipedia.org/wiki/Cortana_(Software)
[3] https://de.wikipedia.org/wiki/Google_Allo
[4] https://de.wikipedia.org/wiki/Amazon_Echo
[5] https://reverb.ai/
附图标记列表
10 接收语音输入
11 预处理语音输入
12 传递经预处理的语音输入
13 接收应答
14 分析所接收到的应答
15 输出至少一个保留的应答
20 设备
21 输入端
22 预处理模块
23 应答过滤器
24 数据库
25 监控单元
26 存储器
27 接口
28 用户接口
30 设备
31 存储器
32 处理器
33 输入端
34 输出端
40 机动车
41 操作设备
42 麦克风
43 空调自动控制装置
44 导航系统
45 数据传输单元
46 存储器
47 网络
48 扬声器
50_1, ..., 50_n 语音处理服务
60 数据网络
AN_1, ..., AN_n 应答
KW 关键词
SA 语音输出
SB 语音指令
SE 语音输入
SE_1, ..., SE_n 经预处理的语音输入
SW_1, ..., SW_n 信号词。

Claims (15)

1.一种用于处理语音输入(SE)的方法,所述方法具有如下步骤:
-接收(10)用户的语音输入(SE);
-针对两个或更多个可供使用的语音处理服务(50_1,...,50_n)中的至少一个语音处理服务来对所述语音输入(SE)进行预处理(11),其中在对所述语音输入(SE)进行所述预处理(11)时生成一个或多个经预处理的语音输入(SE_1,...,SE_n),其方式是,分别将属于所分配的语音处理服务的信号词(SW_1,...,SW_n)添加至所述语音输入(SE);和
-将经预处理的语音输入(SE_1,...,SE_n)传递(12)给所述可供使用的语音处理服务(50_1,...,50_n)中的一个或多个语音处理服务。
2.根据权利要求1所述的方法,其中在针对所述两个或更多个可供使用的语音处理服务(50_1,...,50_n)中的多个语音处理服务或每个语音处理服务来对所述语音输入(SE)进行预处理(11)时,生成经预处理的语音输入(SE_1,...,SE_n),其方式是,分别将所属的信号词(SW_1,...,SW_n)添加至所述语音输入(SE),而且其中将所属的经预处理的语音输入(SE_1,...,SE_n)传递(12)给所选择的语音处理服务(50_1,...,50_n)中的每个语音处理服务。
3.根据权利要求2所述的方法,所述方法还包括如下步骤:
-接收(13)所述语音处理服务(50_1,...,50_n)的应答(AN_1,...,AN_n);
-分析(14)所接收到的应答(AN_1,...,AN_n);和
-输出(15)在所述分析之后保留的应答中的至少一个应答(AN_1,...,AN_n)。
4.根据权利要求3所述的方法,其中如果在分析(14)所接收到的应答(AN_1,...,AN_n)时有两个或更多个应答(AN_1,...,AN_n)被归为合理,则向用户进行询问。
5.根据权利要求3或4所述的方法,其中在所述分析(14)时抑制如下应答(AN_1,...,AN_n),所述应答表明经预处理的语音输入(SE_1,...,SE_n)不能被所述可供使用的语音处理服务(50_1,...,50_n)之一成功处理。
6.根据权利要求1所述的方法,其中对所述语音输入(SE)的预处理(11)包括:
-关于所述语音输入(SE)的内容方面对所述语音输入进行分析;
-将所述语音输入(SE)分配给所述可供使用的语音处理服务(50_1,...,50_n)之一;和
-通过将属于所分配的语音处理服务(50_1,...,50_n)的信号词(SW_1,...,SW_n)添加至所述语音输入(SE)来生成经预处理的语音输入(SE_1,...,SE_n)。
7.根据权利要求6所述的方法,其中在对所述语音输入(SE)进行分析时将在所述语音输入(SE)中所识别出的关键词(KW)与数据库(23)进行对照,在所述数据库中存放有关键词(KW)与语音处理服务(50_1,...,50_n)之间的分配。
8.根据权利要求6或7所述的方法,其中向用户提供对所述语音输入(SE)到所述可供使用的语音处理服务(50_1,...,50_n)之一的分配进行修正的可能性。
9.根据权利要求1至4之一所述的方法,其中在对所述语音输入(SE)进行预处理(11)时,首先移除可能存在于所述语音输入(SE)中并且属于所述可供使用的语音处理服务(50_1,...,50_n)之一的信号词(SW_1,...,SW_n)。
10.根据权利要求1所述的方法,其中在对所述语音输入(SE)进行预处理(11)时,探测存在于所述语音输入(SE)中并且属于所述可供使用的语音处理服务(50_1,...,50_n)之一的信号词(SW_1,...,SW_n),并且将所述语音输入(SE)分配给相对应的所述语音处理服务(50_1,...,50_n)。
11.根据权利要求1至4之一所述的方法,其中在对所述语音输入(SE)进行预处理(11)时重新合成所述语音输入(SE)。
12.一种计算机可读存储介质,所述计算机可读存储介质具有如下指令,所述指令在通过计算机执行时促使所述计算机执行根据权利要求1至11之一所述的方法的步骤来用于处理语音输入(SE)。
13.一种用于处理语音输入(SE)的设备(20),所述设备具有:
-输入端(21),所述输入端被设立为接收(10)语音输入(SE);
-预处理模块(22),所述预处理模块用于针对两个或更多个可供使用的语音处理服务(50_1,...,50_n)中的至少一个语音处理服务来对所述语音输入(SE)进行预处理(11),其中在对所述语音输入(SE)进行所述预处理(11)时生成一个或多个经预处理的语音输入(SE_1,...,SE_n),其方式是,分别将属于所分配的语音处理服务的信号词(SW_1,...,SW_n)添加至所述语音输入(SE);和
-接口(27),所述接口被设立为将经预处理的语音输入(SE_1,...,SE_n)传递给所述可供使用的语音处理服务(50_1,...,50_n)中的一个或多个语音处理服务。
14.一种具有语音处理的机动车(40),其特征在于,所述机动车(40)具有根据权利要求13所述的设备(20)或者被设立为执行根据权利要求1至11之一所述的方法来用于处理语音输入(SE)。
15.一种具有语音处理的用户终端设备,其特征在于,所述用户终端设备具有根据权利要求13所述的设备(20)或者被设立为执行根据权利要求1至11之一所述的方法来用于处理语音输入(SE)。
CN201880085230.9A 2018-01-04 2018-11-26 用于处理语音输入的方法、设备和具有指令的计算机可读存储介质、具有语音处理的机动车和用户终端设备 Active CN111557030B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102018200088.3A DE102018200088B3 (de) 2018-01-04 2018-01-04 Verfahren, Vorrichtung und computerlesbares Speichermedium mit Instruktionen zum Verarbeiten einer Spracheingabe, Kraftfahrzeug und Nutzerendgerät mit einer Sprachverarbeitung
DE102018200088.3 2018-01-04
PCT/EP2018/082543 WO2019134774A1 (de) 2018-01-04 2018-11-26 Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung

Publications (2)

Publication Number Publication Date
CN111557030A CN111557030A (zh) 2020-08-18
CN111557030B true CN111557030B (zh) 2023-07-14

Family

ID=64477185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880085230.9A Active CN111557030B (zh) 2018-01-04 2018-11-26 用于处理语音输入的方法、设备和具有指令的计算机可读存储介质、具有语音处理的机动车和用户终端设备

Country Status (6)

Country Link
US (1) US11646031B2 (zh)
EP (1) EP3735688B1 (zh)
KR (1) KR102386040B1 (zh)
CN (1) CN111557030B (zh)
DE (1) DE102018200088B3 (zh)
WO (1) WO2019134774A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019213831A1 (de) * 2019-09-11 2021-03-11 Robert Bosch Gmbh Verfahren zum Steuern eines Rolling Chassis

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
DE102014109121A1 (de) * 2013-07-10 2015-01-15 Gm Global Technology Operations, Llc Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR200432373Y1 (ko) * 2006-08-26 2006-12-04 김용철 과일꼭지 건조방지 커버
JP5234160B2 (ja) * 2011-03-23 2013-07-10 株式会社デンソー 車両用装置および情報表示システム
US9159322B2 (en) 2011-10-18 2015-10-13 GM Global Technology Operations LLC Services identification and initiation for a speech-based interface to a mobile device
US9183835B2 (en) * 2011-10-18 2015-11-10 GM Global Technology Operations LLC Speech-based user interface for a mobile device
US9326088B2 (en) * 2011-10-21 2016-04-26 GM Global Technology Operations LLC Mobile voice platform architecture with remote service interfaces
CN104737226B (zh) 2012-10-16 2017-06-06 奥迪股份公司 机动车中的语音识别
US9202459B2 (en) 2013-04-19 2015-12-01 GM Global Technology Operations LLC Methods and systems for managing dialog of speech systems
US20140357248A1 (en) 2013-06-03 2014-12-04 Ford Global Technologies, Llc Apparatus and System for Interacting with a Vehicle and a Device in a Vehicle
EP2862164B1 (en) 2013-08-23 2017-05-31 Nuance Communications, Inc. Multiple pass automatic speech recognition
DE102014210716A1 (de) 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
DE102014017384B4 (de) 2014-11-24 2018-10-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
CN106034063A (zh) * 2015-03-13 2016-10-19 阿里巴巴集团控股有限公司 一种在通信软件中通过语音启动业务的方法及相应装置
DE102015213722B4 (de) 2015-07-21 2020-01-23 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Spracherkennungssystems in einem Fahrzeug und Spracherkennungssystem
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US10482904B1 (en) * 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
DE102014109121A1 (de) * 2013-07-10 2015-01-15 Gm Global Technology Operations, Llc Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes

Also Published As

Publication number Publication date
KR102386040B1 (ko) 2022-04-14
US11646031B2 (en) 2023-05-09
CN111557030A (zh) 2020-08-18
WO2019134774A1 (de) 2019-07-11
KR20200100142A (ko) 2020-08-25
US20200342876A1 (en) 2020-10-29
DE102018200088B3 (de) 2019-06-13
EP3735688A1 (de) 2020-11-11
EP3735688B1 (de) 2022-03-09

Similar Documents

Publication Publication Date Title
US11676601B2 (en) Voice assistant tracking and activation
CN105957522B (zh) 基于语音配置文件的车载信息娱乐身份识别
US20190019516A1 (en) Speech recognition user macros for improving vehicle grammars
US9502030B2 (en) Methods and systems for adapting a speech system
US20140136202A1 (en) Adaptation methods and systems for speech systems
WO2016006385A1 (ja) 音声認識装置及び音声認識システム
EP3226239B1 (en) Voice command system
US11929065B2 (en) Coordinating electronic personal assistants
US11593447B2 (en) Pre-fetch and lazy load results of in-vehicle digital assistant voice searches
CN111557030B (zh) 用于处理语音输入的方法、设备和具有指令的计算机可读存储介质、具有语音处理的机动车和用户终端设备
US10468017B2 (en) System and method for understanding standard language and dialects
US9715878B2 (en) Systems and methods for result arbitration in spoken dialog systems
US20140343947A1 (en) Methods and systems for managing dialog of speech systems
CN110400568B (zh) 智能语音系统的唤醒方法、智能语音系统及车辆
KR102485339B1 (ko) 차량의 음성 명령 처리 장치 및 방법
JP5376072B1 (ja) 車載情報システムおよび音声認識適応方法
JPWO2019202351A1 (ja) 機器制御装置及び機器を制御する制御方法
CN109389983B (zh) 用于处理移动终端设备的自动的在线-语音识别器的识别结果的方法以及交换设备
US20140128129A1 (en) Method and Apparatus for Passing Voice Between a Mobile Device and a Vehicle
JP2020060730A (ja) 音声認識装置
US20200219508A1 (en) Method for commanding a plurality of virtual personal assistants and associated devices
CN115312046A (zh) 具有语音识别系统的车辆及控制该车辆的方法
US20150317973A1 (en) Systems and methods for coordinating speech recognition
KR20220129366A (ko) 음성 인식 시스템 및 그 제어 방법
CN117392973A (zh) 用于场景上下文感知语音辅助自动激活的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant