CN101206857A

CN101206857A - 用于修改语音处理设置的方法和系统

Info

Publication number: CN101206857A
Application number: CNA2007101927429A
Authority: CN
Inventors: D·戴姆斯; F·戈梅斯; B·D·梅茨
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2006-12-19
Filing date: 2007-11-16
Publication date: 2008-06-25
Anticipated expiration: 2027-11-16
Also published as: CN101206857B; US20080147411A1

Abstract

一种基于诸如天气输入的非声音外部输入执行修改的语音处理系统和方法。在该系统中，声学环境可以包括麦克风和扬声器。麦克风可以接收语音输入至语音处理系统/扬声器可以从语音处理系统产生语音输出。外部输入处理器可以接收与声学环境相关的非声音输入，并将接收的输入与相关的配置文件匹配。设置调节器可以根据基于由所述外部输入处理器处理的输入的配置文件来动态调节所述语音处理系统的设置。例如，所述设置可以包括定制的噪声过滤算法、识别置信度阈值、输出能量等级和/或变换器增益设置。

Description

用于修改语音处理设置的方法和系统

技术领域

本发明涉及语音处理的领域，更具体地涉及根据不直接涉及工作声学环境中的声音的外部输入对语音处理系统的修改。

背景技术

语音处理系统利用各种基于声音的输入来调节语音处理环境的语音应用设置和音频特性。例如，可以对语音输入进行分析以确定讲话者的语言方言和/或性别，同时可以基于分析的结果对语音识别设置(例如，语言)进行调节。在另一实例中，可以对声学环境的周围噪声进行采样，并使用所述周围噪声来调节附加的设置，诸如麦克风灵敏度和扬声器音量。另外，可以利用来自多个方向的麦克风的输入来捕获声音，并且还可以在执行语音识别动作之前利用诸如滤波和减噪的数字信号处理技术来预处理所捕获的输入。

不管可以基于出现在语音识别系统的声学环境内的声音进行调节的宽度，传统上忽略了声学环境的非声音输入。与基于声音的因素相比，这些非声音输入通常可以对于语音处理系统或者利用这种系统的用户体验具有更大的影响。例如天气因素和/或用户特定因素可以对利用语音处理系统的用户体验具有重大影响。

例如，如果用户正站在雨中使用语音使能的自动柜员机(ATM)，则包括加强的但很少使用的选项的冗长提示可能会使得试图执行快速交易的淋雨用户非常恼火。另外，与清晰的环境相比，对于下雨环境可能非常难以得到最佳声学设置；变换器的性能尤其受到天气条件的影响。天气还可能影响语音处理环境的周围噪声特性。例如，较高的风力可能干扰用户语音命令的捕获并产生过强的背景噪声量。

需要的是一种用来捕获各种形式的外部输入并使用该输入调节语音应用设置和/或与语音处理系统相关联的声学模型的手段。理想的情况是，这种解决方案将会从特定声学环境的各种源收集不同类型的有关数据。即，为了调节系统以提供最佳服务，将对容纳有语音处理系统的工作声学环境内的条件进行检测。

发明内容

本发明提供了一种解决方案，该解决方案基于诸如天气的外部输入自动修改语音处理系统的特性。所述外部输入可以包括直接声音输入之外的输入，诸如周围噪声，一些传统语音处理系统为了声级调节的目的而利用所述直接声音输入之外的输入。如此处所使用的，外部输入可以包括影响用户与语音处理系统的交互体验的任何条件，诸如用户位置、用户心率、等候使用系统的队列的长度、影响该系统的天气条件等。例如，本发明可以允许语音处理系统加入来自当前环境的天气信息以及动态利用特定的声学模型和特别为检测的天气条件(例如，晴朗、刮风、下雨、暴风雨等)而定制的系统识别阈值，从而根据所述当前的天气条件来优化系统性能。

本发明可以根据与此处提供的材料一致的若干方面来实现。例如，本发明的一个方面可以包括基于诸如天气输入的非声音外部输入来执行修改的语音处理系统。在所述系统中，声学环境可以包括麦克风和扬声器。所述麦克风可以将语音输入接收至语音处理系统/所述扬声器可以从语音处理系统产生语音输出。外部输入处理器可以接收与所述声学环境相关的非声音输入，并将所接收的输入与相关的配置文件相匹配。设置调节器可以基于配置文件来动态调节所述语音处理系统的设置，所述配置文件基于由所述外部输入处理器处理的输入。例如，所述设置可以包括定制的噪声过滤算法、识别置信度阈值、输出能量等级和/或变换器增益设置。

本发明的另一方面可以包括一种用于修改语音处理设置的方法。所述方法可以包括接收与语音处理系统的用户和声学环境中的至少一个相关联的实时输入的步骤。所述实时输入可以是非语音输入。前面建立的配置文件可以根据与所接收的输入匹配的配置文件集来确定。所述配置文件可以与所述语音处理系统的至少一个设置相关联。可以根据所确定的配置文件的设置来动态地和自动地调节语音处理系统。

本发明的另一方面可以包括一种用于自动调节语音处理系统的设置的方法。在所述方法中，可以确定影响声学环境的至少一个天气条件，语音处理系统的语音输入从所述声学环境接收。可以根据所确定的天气条件来自动调节所述语音处理系统的至少一个设置以优化所述系统。

应当注意，本发明的各个方面可以作为用于控制计算设备实现此处描述功能的程序而实现，或者作为用于使计算设备能够执行与此处公开的步骤对应的处理的程序而实现。该程序可以通过在磁盘、光盘、半导体存储器或者任何其他记录介质中存储程序来提供。所述程序还可以作为经由载波传递的数字编码的信号来提供。所描述的程序可以是单个程序，或者可以作为多个子程序来实现，所述多个子程序中的每个都在单个计算设备内进行交互或者以分布的形式跨过网络空间进行交互。

还应当注意，此处描述的方法还可以是响应于服务请求至少部分由服务代理和/或由服务代理操纵的机器来执行的方法。

附图说明

在附图中示出了目前优选的实施例，然而应当理解，本发明并不限于示出的确切布置和手段。

图1是示出了根据此处公开的本发明布置的实施例的语音处理系统的示意图，所述语音处理系统可以基于与环境声音不直接相关的外部输入来修改操作。

图2是示出了根据此处公开的本发明布置的实施例的方法的流程图，其中语音处理系统可以基于外部输入来修改操作。

图3是示出了根据此处公开的本发明布置的实施例语音处理系统可以如何使用外部输入来调节操作的图示。

图4是示出了根据此处公开的本发明布置的实施例的方法的流程图，其中服务代理可以配置语音处理系统以基于与环境声音不直接相关的外部输入来修改其操作。

具体实施方式

图1是示出了根据此处公开的本发明布置的实施例的语音处理系统125的示意图，所述语音处理系统可以基于与环境声音不直接相关的外部输入来修改操作。在图1中，用户110可以与语音处理系统125进行交互。用户110可以位于声学环境105中，所述声学环境可以包括传感器112和113、麦克风115和扬声器117。在一个预期的配置中，麦克风115和扬声器117可以集成到容纳语音处理系统125的外壳中。

由用户110持有或位于用户110身上的传感器112可以收集用户110相关的数据，并将该数据作为输入143传送到语音处理系统125。例如，语音使能的手持装置(即，系统125)可以检测到蓝牙耳机正用于提供输出。指示该系统条件的输入142可以传送至系统125，该系统125能够相应地自动修改输出特性。在另一实例中，传感器112可以确定用户的脉搏率或者向系统125提供其他语言学输入143，该系统将基于输入143来进行调节。

定位在声学环境105中的另一传感器113可以收集环境数据，诸如风速或者大气压，并将该数据作为输入142传送到语音处理系统125。语音处理系统125还可以从一个或多个服务器120接收输入141。这些服务器120可以为系统125提供各种数据，诸如本地报告的天气条件、卫星雷达图、与用户110相关的配置文件特定信息等。

输入141、142和143可以通过语音处理系统125的外部输入处理器126进行处理。外部输入处理器126可以执行软件代码以识别与声学环境105中存在的当前条件相关的有关数据。一旦已经对输入141、142和143进行了处理，外部输入处理器126就可以调用输入至配置文件转换器127。

输入至配置文件转换器127可以访问包括在数据存储器135中的配置文件137，并基于处理的输入141-143来确定应当启动哪个配置文件。例如，与本地天气条件有关的输入的接收可以使得输入至配置文件转换器127访问天气配置文件138。如该实例所示，天气配置文件138可以包括诸如刮风和下雨的有关天气条件的值以及相关联的设置配置文件以基于处理的外部输入使用。应当注意的是，天气配置文件138中示出的内容仅仅是为了示例性目的，并非是对本发明进行限制。

确定哪些配置文件137可应用于声学环境105的条件之后，输入至配置文件转换器127可以将与确定的配置文件137相关联的设置130传送到语音处理引擎128。如该实例中所示，设置130可以包括诸如扬声器调节、麦克风调节、识别阈值、噪声消除设置、语音应用设置等的项目。可以通过语音处理引擎128对语音处理系统125的相关联部件来制定这些设置130。

在一种布置中，对于系统125而言，配置文件137可以在任一时刻都是激活的或者有效的，这将使得可以进行多种调节。例如，在雨天脉搏率高(输入143)的用户正在使用系统125的场景中，可以使“下雨”配置文件137和“匆忙用户”配置文件137都有效。另外，基于声音的条件可以与其他输入141-143结合，以生成更加准确的配置文件137和/或进一步优化系统125。例如，用户110的讲话速率可以是确定用户110处于激动状态还是放松状态的因素。在另一实例中，来自环境105的周围声音采样可以与天气输入141-142结合，以优化环境105条件的其他变换器115-117设置和增益。

通过语音处理系统125进行的调节可以影响系统接收和处理发声147的方式和/或可以影响提供语音输出156的方式。例如，刮风条件可以使得系统125增加麦克风115捕获发声147的灵敏度。此外，还可以对提供语音输出156至用户110的扬声器117的音量进行调节以对刮风条件进行补偿。

图2是示出了根据此处公开的本发明布置的实施例的方法200的流程图，其中语音处理系统可以基于外部输入对操作进行调节。方法200可以在系统100的场合下执行。

方法200以步骤205开始，在该步骤，可以在声学环境中检测与环境声音不直接相关的至少一个外部条件。在步骤210，检测的外部条件信息可以发送至语音处理系统。在步骤215，语音处理系统可以基于接收到的信息来确定环境配置文件。

在步骤220中，可以确定与配置文相关联的设置集和/或声学模型。在步骤225，语音处理系统可以基于步骤220中确定的声学模型/设置来调节需要的设置。为了基于声学环境中的改变来动态调节操作设置，则可以返回到步骤205以反复执行该方法。

图3是示出了根据此处公开的本发明布置的实施例语音处理系统可以如何使用外部输入来调节操作的图示300。图示300中示出的实例可以利用系统100和/或方法200。

在该图示300中，用户305可以试图与话音使能的ATM310执行交易。ATM310可以配备有用于收集语音输入的麦克风311、语音处理系统312、用于生成语音输出的扬声器313、摄像机314以及一个或多个传感器315。语音处理系统312可以代表系统100的语音处理系统125。ATM310可以使用这些部件来收集和处理数据，以根据用户和环境条件来调节操作。

传感器315可以代表用以检测各种环境条件的仪器。例如，传感器315可以包括湿度计，用以测量ATM310周围的湿度水平，从而确定当前的天气条件316是否是下雨。传感器315还可以包括用以测量ATM310正在经受的风速的风速计。传感器315收集的数据可以传送至语音处理系统312，以用于进一步处理。

许多ATM310已经配备有用于安全目的的摄像机314。摄像机314还可以用于收集可以由语音处理系统312利用的一般用户数据。如该实例中所示，摄像机314可以用于确定用户305的高度，由虚线指示。该信息可以指示用户305是个年轻人。可以通过对麦克风311捕获的话音输入进行采样来执行一般年龄分组的确定。诸如音调和音色的特征可以由语音处理系统312用来确定用户305诸如年龄和性别的特征。

在一个实施例中，摄像机314或者其他传感器315可以用于确定等待使用ATM310的人员的排队长度。当排队较长时，系统312可以从正常提示状态调节到简洁提示状态，该简洁提示状态可以与“匆忙用户”配置文件或者“加急服务”配置文件相关联。加急服务配置文件可以致使提供的ATM310选项最少、提示的冗长度降低、语音输出的讲话速率增加等。

由ATM310的部件收集的数据可以致使语音处理系统312确定年轻配置文件320和下雨配置文件325可应用于该用户305和天气条件316。如该实例所示，年轻配置文件320和下雨配置文件325可以具有诸如扬声器音量和提示冗长度的重叠的设置以及诸如麦克风位置和噪声消除的独特设置。

语音处理系统312可以将相关联的规则应用到这些配置文件，以确定结果设置330的集。正如该实例所示，结果设置330包括来自每个配置文件的所有项目以及在配置文件320和325都包含该项目时的最高设置。然后结果设置330可以用来调节ATM310的操作及其部件。

图4是示出了根据此处公开的本发明布置的实施例的方法400的流程图，其中服务代理可以配置语音处理系统以基于与环境声音不直接相关的外部输入来修改其操作。可以在系统100和/或方法200的场合下执行方法400。

当客户启动服务请求时，方法400可以在步骤405开始。服务请求可以是要求服务代理向客户提供新的语音处理系统的请求，所述新的语音处理系统可以基于与环境声音不直接相关的外部输入来修改其操作。服务请求还可以要求代理利用基于外部输入修改操作的能力来增强现有语音处理系统。服务请求还可以要求技术人员查找现有系统的问题的故障。

在步骤410，可以选择人工代理来响应服务请求。在步骤415，人工代理可以分析客户的当前系统和/或问题，并且可以响应性地得到解决方案。在步骤420，人工代理可以使用一个或多个计算设备来配置语音处理系统，以基于与环境声音不直接相关的外部输入来修改操作。该步骤可以包括输入至配置文件转换器和外部输入处理器的安装和配置以及操作配置文件的创建。

在步骤425，人工代理可以可选地维护使用外部输入来调节操作的语音处理系统或者查找该系统的故障。在步骤430，人工代理可以完成服务活动。

本发明可以以硬件、软件或者硬件和软件的结合来实现。本发明可以在一个计算机系统中以集中的方式来实现，也可以以其中不同元件跨过若干互连的计算机系统而分布的分布方式来实现。任何种类的计算机系统或者适用于实现在此描述的方法的其他装置都是适合的。软件和硬件的典型结合可以是具有计算机程序的通用计算机系统，当所述计算机程序被加载并执行时，控制所述计算机系统使其执行此处描述的方法。

本发明还可以嵌入在计算机程序产品中，所述计算机程序产品包括能够执行此处描述方法的所有特征，并且在加载入计算机系统时能够执行这些方法。在本发明的上下文中，计算机程序意味着任何语言、代码或符号的指令集表示，所述指令集旨在使得系统具有信息处理能力，以能够直接或者在下列处理任一个或者二者之后执行特定功能：a)至任何语言、代码或者符号的转换；b)以不同的材料形式再生。

在并未脱离本发明的精神或者基本属性的情况下，还可以以其他形式来体现本发明。因此，当表明本发明的范围时，应当参考下列权利要求书而不是前述说明。

Claims

1.一种语音处理系统，包括：

声学环境，所述声学环境包括用于接收语音输入的至少一个麦克风；

语音处理系统，所述语音处理系统配置用于接收语音输入、基于所述语音输入自动执行计划性动作集以及提供因所述计划性的动作而产生的输出；

外部输入处理器，所述外部输入处理器配置用于接收与所述声学环境相关的非声音输入以及将所接收的输入与相关的配置文件匹配；以及

设置调节器，所述设置调节器配置用于根据基于由所述外部输入处理器处理的输入而确定的配置文件来动态调节所述语音处理系统的设置。

2.根据权利要求1所述的系统，其中所述声学环境进一步包括用于以可听的方式提供语音输出的至少一个扬声器，并且其中所述语音处理系统的输出包括经由所述至少一个扬声器提供的语音输出。

3.根据权利要求1所述的系统，其中所述自动调节的设置包括建立定制的噪声过滤算法和建立定制的识别置信度阈值集中的至少一个。

4.根据权利要求1所述的系统，进一步包括：

供所述系统用户佩戴的传感器，所述传感器向所述语音处理系统提供用户特定的非声音输入，所述用户特定的非声音输入由所述外部输入处理器处理。

5.根据权利要求1所述的系统，进一步包括：

定位于所述声学环境中用于测量天气条件的传感器，其中所述传感器生成所述非声音输入，所述传感器包括湿度计、风速计、气压计和温度计中的至少一个。

6.根据权利要求1所述的系统，进一步包括：

离所述语音处理系统和所述声学环境远程定位的服务器，该服务器通信链接至所述语音处理系统，其中来自所述服务器的所述非语音输入包括专用于所述声学环境的临近位置的动态数据。

7.根据权利要求6所述的系统，其中所述动态数据与天气相关。

8.根据权利要求1所述的系统，其中所述非声音输入包括关于所述语音处理系统的用户的实时生理输入，其中所述用户位于所述声学环境中。

9.根据权利要求1所述的系统，其中所述非声音输入包括基于天气的输入。

10.根据权利要求9所述的系统，其中所述声学环境是室外环境，其中由所述设置调节器进行的调节包括优化与所述室外环境的天气条件对应的声学模型。

11.一种用于修改语音处理设置的方法，包括：

接收与语音处理系统的声学环境和用户中的至少一个相关联的实时输入，其中所述实时输入是非语音输入；

从配置文件集中确定与所接收的输入匹配的先前建立的配置文件，其中所述配置文件与所述语音处理系统的至少一个设置相关联；以及

动态地且自动地调节至少一个设置。

12.根据权利要求11所述的方法，进一步包括：

重复执行所述接收、确定和调节步骤。

13.根据权利要求11所述的方法，其中所述实时输入包括与所述用户相关联的生理输入和与所述声学环境相关联的天气输入中的至少一个。

14.根据权利要求11所述的方法，其中所述实时输入是从临近所述声学环境定位的传感器得到的与天气相关的输入，所述传感器包括湿度计、风速计、气压计和温度计中的至少一个。

15.根据权利要求11所述的方法，其中所述实时输入从离所述语音处理环境和所述语音处理服务器远程定位的服务器传送，所述实时输入专用于临近所述声学环境的位置。

16.根据权利要求11所述的方法，其中所述调节步骤进一步包括下列至少之一：

调节定制的噪声过滤算法；

调节所述语音处理系统的至少一个识别置信度阈值；以及

调节与所述声学环境相关的声学模型，所述语音处理系统的声学设置基于所述声学模型。

17.根据权利要求11所述的方法，其中权利要求11所述的步骤通过服务代理和所述服务代理操纵的计算设备中至少一个来执行，所述步骤响应于服务请求而执行。

18.根据权利要求11所述的方法，其中权利要求11的所述步骤由至少一个机器根据至少一个计算机程序来执行，所述计算机程序具有可由所述至少一个机器执行的多个代码部分。

19.一种自动调节语音处理系统的设置的方法，包括：

确定影响声学环境的至少一个天气条件，语音处理系统的语音输入从所述声学环境接收；以及

根据所确定的天气条件自动调节所述语音处理系统的至少一个设置以优化所述系统。

20.根据权利要求19所述的方法，进一步包括：

针对不同的天气条件建立多个配置文件，每个配置文件与语音处理设置集相关；以及

基于所确定的至少一个天气条件选择所述多个配置文件之一，其中所述调节步骤的所述至少一个设置是与所选择的配置文件相关联的语音处理设置集。