CN110277095B

CN110277095B - 语音服务控制装置及其方法

Info

Publication number: CN110277095B
Application number: CN201810325210.6A
Authority: CN
Inventors: 李金龙
Original assignee: Wistron Corp
Current assignee: Wistron Corp
Priority date: 2018-03-16
Filing date: 2018-04-12
Publication date: 2021-06-18
Anticipated expiration: 2038-04-12
Also published as: EP3540730A1; US10755696B2; CN110277095A; TWI682385B; US20190287518A1; TW201939482A; EP3540730B1

Abstract

本发明提供一种语音服务控制装置及其方法。在此方法中，取得语音数据。辨识该语音数据中的关键字，以决定该关键字对应的信心值，而此信心值是该关键字相对于对语音服务提出要求的唤醒关键字的符合程度。反应于信心值小于辨识门槛值，判断累计失败次数，而语音服务反应于检测到大于辨识门槛值的信心值而被要求提供，且累计失败次数是时间区间中语音数据与至少一个先前语音数据的信心值小于辨识门槛值的累计次数。依据累计失败次数、以及语音数据与先前语音数据的信心值的运算关系，调整辨识门槛值。藉此，便能让使用者顺利启动语音服务。

Description

语音服务控制装置及其方法

技术领域

本发明是有关于一种声控技术，且特别是有关于一种基于声控技术的语音服务控制装置及其方法。

背景技术

近年来，各家网络服务供应商纷纷推出语音助理及其相关语音服务，且家电业者亦推出具备声控功能的家电设备，还有其他电子设备业者亦将其产品结合声控功能，让使用者能通过声音控制各类型电子装置的运作行为(例如，开启电源、播报气象、播放音乐等)。而为了满足用户需求并提升产品可用价值，有些业者甚至开放相关原始码，让第三方开发者能自行客制化服务或结合周边应用服务。在这些原始码中，开发者可自行设定唤醒关键字(例如，Alexa、Cortana、Hey Siri、OK Google等)，以通过特定唤醒关键字来对服务器或程序提出要求，从而取得对应语音服务。

然而，不同地区的使用者对于唤醒关键字的发音方式及口音不尽相同，且不同声控装置(例如，电脑、手机、智能喇叭等)可能使用不同收音装置(例如，麦克风)或通过不同收音演算法辨识语音数据，因此同一位使用者对不同声控装置说出相同唤醒关键字可能会造成不同结果(例如，使用者对装置A呼叫可成功获得对应语音服务，但使用者对装置B呼叫却不能成功发出要求)。由此可知，现有语音服务控制技术仍存在缺陷。

发明内容

有鉴于此，本发明提供一种语音服务控制装置及其方法，其通过学习使用者几次对于唤醒关键字的呼叫，有效避免启动语音服务的失败情况。

本发明的语音服务控制方法，其包括下列步骤。取得语音数据。辨识该语音数据中的关键字，以决定该关键字对应的信心值，而此信心值是该关键字相对于对语音服务提出要求的唤醒关键字的符合程度。反应于信心值小于辨识门槛值，判断累计失败次数，而语音服务反应于检测到大于辨识门槛值的信心值而被要求提供，且累计失败次数是时间区间中语音数据与至少一个先前语音数据的信心值小于辨识门槛值的累计次数。依据累计失败次数、以及语音数据与先前语音数据的信心值的运算关系，调整辨识门槛值。

而本发明的语音服务控制装置，其包括收音装置及处理器。收音装置接收语音数据。处理器耦接收音装置，并经配置用以执行下列步骤。辨识该语音数据中的关键字，以决定该关键字对应的信心值，而此信心值是该关键字相对于对语音服务提出要求的唤醒关键字的符合程度。反应于信心值小于辨识门槛值，判断累计失败次数，而语音服务反应于检测到大于辨识门槛值的信心值而被要求提供，且累计失败次数是时间区间中语音数据与至少一个先前语音数据的信心值小于辨识门槛值的累计次数。依据累计失败次数、以及语音数据与先前语音数据的信心值的运算关系，调整辨识门槛值。

基于上述，辨识门槛值是影响启动语音服务的重要关键。而本发明实施例的语音服务控制及其方法，即是反应于多次未成功要求语音服务的情况，而基于这几次要求失败的语音数据对应的信心值来降低辨识门槛值，让使用者后续的呼叫能成功要求语音服务。另一方面，若发生使用者未呼叫却成功对语音服务提出要求的情况，本发明实施例更能适时地提高辨识门槛值，使外界声音较难以成功要求提供语音服务。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图式作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是依据本发明一实施例的语音服务系统的示意图。

图2是依据本发明一实施例的语音服务控制方法的流程图。

图3是一应用情境的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域相关技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护的范围。

图1是依据本发明一实施例的语音服务系统1的示意图。请参照图1，此语音服务系统1包括语音服务控制装置110及语音服务提供服务器150。

语音服务控制装置110可以是智能手机、平板电脑、台式电脑、笔记本电脑、语音助理、智能多媒体装置、智能喇叭、或智能家电等装置，语音服务控制装置110并包括但不仅限于收音装置111、输入输出接口112、处理器113及存储器114。

收音装置111包括但不仅限于全向性麦克风、指向性麦克风或其他可接收声波(例如，人声、环境声、机器运作声等)而转换为声音频号的电子元件、模拟至数字转换器、滤波器、及音频处理器，于本实施例中，收音装置111反应于声波的接收而产生数字的语音数据(或称音频数据)。

输入输出接口112可以是支援诸如Wi-Fi、行动通信、以太网络等通信技术的网络接口卡、或各类型串列或并列总线等传输接口，于本实施例中，输入输出接口112 与外界接收及发送数据。

处理器113耦接收音装置111及输入输出接口112，处理器并可以是中央处理单元(Central Processing Unit，CPU)，或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processing，DSP)、可程序化控制器、特殊应用集成电路(Application-Specific Integrated Circuit，ASIC)或其他类似元件或上述元件的组合。在本发明实施例中，处理器113用以执行语音服务控制装置 110的所有作业，可取得而处理收音装置111所产生的语音数据，并通过输入输出接口112进行传输数据。

存储器114耦接处理器113，存储器114并可以是任何型态的固定或可移动随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory， ROM)、闪存(Flash Memory)或类似元件或上述元件的组合的储存器，存储器114 并用于储存用于执行本发明实施例的语音服务控制方法(待后续实施例详述)的软件程序、相关语音数据、及相关数值(例如，信心值、辨识门槛值、各种变异值、最高界限值等，并待后续实施例详述)、信心值相关方程式等数据，而这些软件程序、数据、数值、方程式可供处理器113载入后执行或使用。

语音服务提供服务器150可以是个人电脑、笔记本电脑、工作站或各类型服务器。语音服务提供服务器150接收服务要求，并基于语音转文字及语意分析技术辨识服务要求内的语音数据，以理解服务要求的内容。语音服务提供服务器150会判断服务要求的内容是否与其所具备的语音功能(例如，关键字查询、播放音乐、行事历提醒等) 匹配，从而提供对应的语音服务。

为了方便理解本发明的操作流程，以下将举诸多实施例详细说明。图2是依据本发明一实施例说明一种语音服务控制方法的流程图。请参照图2，下文中，将搭配图 1中各装置及语音服务控制装置110中各项元件及模块说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而随之调整，且并不仅限于此。

处理器113通过收音装置111取得语音数据(步骤S210)之后，即可辨识此语音数据中的关键字，以决定此关键字对应的信心值(步骤S220)。于本实施例中，处理器 113通过语音转文字及语意分析技术对语音数据进行辨识，从而得出语音数据的语句内容。而此处理器113会检测此语句内容中是否是或具有符合特定唤醒关键字(例如， Alexa、Cortana、HeySiri、OK Google等)，且此特定唤醒关键字用于对语音服务提出要求的启动要件。然而，处理器113辨识到的语句内容难免会有些许误差。因此，处理器113需要先判断语句内容相对于唤醒关键字的符合程度(即，信心值，通常介于零到一)，再决定是否提出服务要求。假设收音装置111接收到使用者呼叫唤醒关键字的声波，则自声波转换成的语音数据将会包括相关于此唤醒关键字的关键字(包含于语句内容中)。处理器113会进一步判断此关键字相对于唤醒关键字的符合程度，以作为当次语音数据的信心值。

值得注意的是，此信心值是决定处理器113是否发出服务要求的重要关键。处理器113会判断当次语音数据的信心值是否大于辨识门槛值(介于零到一，例如，0.6、 0.55等)。若信心值大于辨识门槛值，则处理器113将发出服务要求。相反而言，若信心值小于辨识门槛值，处理器113不会(或忽略、禁能)发出服务要求。在现有技术中，此辨识门槛值是固定的。因此，若使用者通过呼叫唤醒关键字无法顺利让声控装置产生服务时，即使相同的使用者重复呼叫该唤醒关键字，则现有声控装置仍可能因为对应信心值皆小于固定的辨识门槛值而一直无法发出服务要求。

为了解决前述问题，本发明实施例通过对使用者数次对于唤醒关键字的呼叫进行训练，以学习使用者呼叫对应的信心值，再依据这些信心值调整辨识门槛值，以下将具体说明。

反应于信心值小于辨识门槛值，处理器113判断累计失败次数(步骤S230)。此累计失败次数是一段时间区间(例如，3秒、5秒等)中当次语音数据与至少一笔先前语音数据的信心值小于辨识门槛值的累计次数。其中，每当处理器113判断当次语音数据的信心值小于辨识门槛值，便将此累计失败次数加一。

需说明的是，在一些实施例中，累计失败次数是一段时间区间中语音数据与连续取得的至少一笔先前语音数据的信心值小于辨识门槛值的累计次数。也就是说，处理器113要连续检测到使用者呼叫唤醒关键字，才会累计此累计失败次数。不过，在一些实际情况下，使用者可能在某几次的呼叫中无意间参杂其他非唤醒关键字的语句内容，造成使用者需要再重复呼叫唤醒关键字几次。因此，连续检测的机制略为严格但较能避免误判情况，而应用本发明实施例者可视情况自行调整是否要设有连续性的条件。另一方面，每当某段时间区间到期时，处理器113会将累计失败次数归零，以重新累计此累计失败次数。

处理器113接着将依据累计失败次数、以及语音数据与先前语音数据的信心值的一运算关系，来调整辨识门槛值(步骤S240)。具体而言，处理器113会判断当前累计失败次数是否大于次数门槛值(大于一的整数，例如，2、3、5次等)。反应于于此累计失败次数未大于次数门槛值，处理器113将继续辨识后续的语音数据。而反应于此累计失败次数大于次数门槛值，处理器113将依据语音数据与先前语音数据的信心值的该运算关系降低辨识门槛值。

在一实施例中，处理器113会取得语音数据与数笔先前语音数据的信心值中最大的至少一者(例如，两者、三者等)，再将语音数据与先前语音数据中的至少一者(即，先前取得的信心值最大的至少一者)的信心值与辨识门槛值的平均值作为调整后的辨识门槛值。由于语音数据与数笔先前语音数据的信心值皆小于初始的辨识门槛值，因此处理器113将这些信心值与初始的辨识门槛值平均后所得的值会小于初始辨识门槛值，从而降低辨识门槛值。例如，这些信心值有0.5、0.56、0.45、0.3，则处理器 113从中取出最大的二个信心值0.5与0.56与当前辨识门槛值0.6予以平均而得出 0.53，以作为调整的辨识门槛值。

进一步地，在另一实施例中，处理器113取得语音数据与先前语音数据的信心值中大于最低界限值的至少一者，而此最低界限值为辨识门槛值减去第一变异值(介于零至一，例如，0.05、0.08等)。接着，处理器113可将挑选的上述信心值直接或再挑选其中最大的至少一者与辨识门槛值的平均值作为调整后的辨识门槛值。例如，假设这些信心值有0.2、0.5、0.56、0.45、0.3，而最低界限值为辨识门槛值0.6减去第一变异值0.05而为0.55，则处理器113将选择大于0.55的信心值0.56与当前辨识门槛值0.6予以平均而得出0.58，以作为调整的辨识门槛值。此实施例的作法特点在于进一步设定调降信心值的地板门槛值，以避免后续辨识门槛值不慎被调整过低而造成并没有正确说出关键字(或因环境噪音)但却能随意启动声控装置服务的误作动问题。

需说明的是，前述实施例以平均方式来决定辨识门槛值，然调整辨识门槛值的方式还可能有很多种。例如，对信心值与辨识门槛值分别赋予权重值、将这些信心值中的最大者减去第一变异值来作为辨识门槛值等方式，端视应用者的实际需求而调整，但采用的方式仍须考量取得的信心值，以避免处理器113需要进行更多次训练。

藉此，辨识门槛值经调降后将可能更加接近或小于使用者呼叫所对应语音数据的信心值，从而能提出语音服务的要求。

另一方面，前述说明是关于调降辨识门槛值。然而，在一些情况中，辨识门槛值可能过低，而导致环境声的信心值高于辨识门槛值，并使得声控装置误判而发出服务要求。而为了降低前述情况的发生机会，反应于语音数据的信心值未小于辨识门槛值，处理器113会通过输入输出接口112而对语音服务提供服务器150发送服务要求。此服务要求包括收音装置111取得的语音数据。而语音服务提供服务器150将确认此语音数据所记录的语句内容是否符合其所提供的语音功能(例如，明天天气如何？下午的行程有哪些？播放流行音乐等)，并将确认结果记录在对应于此服务要求的服务回应且发送到语音服务控制装置110。

处理器113通过输入输出接口112接收此服务回应，并判断此服务回应是否相关于语音数据未匹配语音服务提供服务器150所提供的语音功能。而反应于服务回应相关于语音数据未匹配语音功能，表示对于信心值的判断是误判情况，处理器113将会调整辨识门槛值。于本实施例中，处理器113设有一个最高界限值，此最高界限值是依据辨识门槛值所决定的且大于辨识门槛值。例如，最高界限值是辨识门槛值加上第二变异值(介于零至一，例如，0.05、0.03等，在一些实施例中相等于第一变异值)。反应于语音数据的信心值小于最高界限值，处理器113会将语音数据的信心值作为辨识门槛值。由于能成功提出服务要求对应的信心值须大于辨识门槛值，因此将辨识门槛值设为此信心值将能提高辨识门槛值。另一方面，反应于语音数据的信心值未小于最高界限值，处理器113会将最高界限值作为辨识门槛值，使辨识门槛值不会一次调整过高。也就是说，本发明实施例通过学习这些导致误判情况发生的信心值，来进一步调高辨识门槛值，往后具有此信心值的环境声将无法再启动语音服务。

需说明的是，调高辨识门槛值的方式还可能有很多种，例如，将信心值加上第二变异值来作为辨识门槛值、将辨识门槛值加上第二变异值的一半来作为调整后的辨识门槛值等，端视应用者的实际需求而调整。

另一方面，若语音数据有匹配语音功能，则此服务回应包括对应的语音服务(例如，传送天气信息、今日行程内容、音乐串流等)，使处理器113能执行此语音服务对应的语音功能(例如，显示天气信息、显示今日行程、播放音乐等)。

值得说明的是，前述实施例的语音服务控制装置110相关于远端或以有线连接的方式连接到语音服务提供服务器150。然而，在一些实施例中，语音服务控制装置110 可提供离线的语音服务，因此处理器113可直接判断语音数据是否匹配于语音功能，并能据以提供语音服务。也就是说，服务要求与服务回应都是通过处理器113所决定，且可不设置输入输出接口112。

而为了帮助读者更加理解本发明实施例的精神，以下将另举一应用情境说明。

请参照图3是此应用情境的流程图，并假设辨识门槛值为0.6，第一变异值及第二变异值皆为0.05，且次数门槛值为两次。收音装置111接收到使用者的呼叫而生成语音数据，处理器113便开始辨识语音数据(步骤S310)，并判断是否检测到唤醒关键字(步骤S315)。若没有检测到唤醒关键字，则返回步骤S310，处理器113继续辨识下一次接收的语音数据。若有检测到唤醒关键字，处理器113取得语音数据对应的信心值(步骤S320)，并判断此信心值是否大于辨识门槛值(步骤S325)。假设信心值为 0.5而未大于辨识门槛值，则代表未能成功(不用)提出服务要求(步骤S330)。处理器 113进一步判断累计失败次数是否大于次数门槛值(步骤S335)。假设累计失败次数为三次，则处理器113将依据方程式(1)来调整辨识门槛值(步骤S340)：

限制于LB-σ₁≤V_i,V_i-1,V_i-2≤LB

其中LB为辨识门槛值，

代表取最大的二者，V_i、V_i-1、V_i-2分别是当前语音数据及前两次成功检测到唤醒关键字的先前语音数据对应的信心值，而σ₁为第一变异值(即，0.05)。例如，V_i、V_i-1、V_i-2的值分别为0.56、0.55、0.5，则处理器将取得信心值V_i、V_i-1(0.56、0.55皆大于或等于LB-σ₁)，并将此两个信心值V_i、V_i-1代入方程式(1)中，以得出调整的辨识门槛值为0.57(相较于初始值0.6还低)。

另一方面，假设下一次接收到的语音数据对应的信心值为0.63，则此信心值大于调整的辨识门槛值(0.57)，代表处理器113会成功对语音服务提供服务器150提出服务要求(步骤S350)。处理器113通过输入输出接口112接收服务回应后，将判断此服务回应是否对应于任何语音功能 (步骤S355)。

假设此次语音数据是源自于环境声，因此无法对应到任何语音功能，则处理器113会依据方程式(2)与(3)来调整辨识门槛值(步骤S370)：

UB＝LB+σ₂…(2)

其中σ₂为第二变异值(即，0.05)，UB为最高界限值(即，辨识门槛值0.57加上第二变异值0.05而为0.62)，V则为当前语音数据的信心值(即，0.63)。由于当前语音数据的信心值大于最高界限值，因此最高界限值将作为调整的辨识门槛值。

另一方面，此次语音数据是源自于人声，且其语音数据能对应到一个语音功能，则处理器113将维持辨识门槛值，并执行对应语音功能(步骤S360)。

综上所述，本发明实施例的语音服务控制装置及其方法，判断使用者对于唤醒关键字的几次呼叫是否重复失败，再依据这些失败呼叫对应的信心值的运算关系来调低辨识门槛值，让使用者能成功启动语音服务。另一方面，为了避免辨识门槛值会一直低于环境声对应的信心值所造成的误判情况，本发明实施例还会判断语音数据是否真的对语音功能提出要求，并在未匹配于语音功能的情况下调高辨识门槛值。

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中相关技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视权利要求所界定者为准。

Claims

1.一种语音服务控制方法，其特征在于，包括：

取得一语音数据；

辨识该语音数据中的关键字，以决定该关键字对应的一信心值，其中该信心值是该关键字相对于对语音服务提出要求的唤醒关键字的符合程度；

反应于该信心值小于一辨识门槛值，判断一累计失败次数，其中该语音服务反应于检测到大于该辨识门槛值的信心值而被要求提供，且该累计失败次数是一时间区间中该语音数据与至少一先前语音数据的信心值小于该辨识门槛值的累计次数；以及

依据该累计失败次数、以及该语音数据与该至少一先前语音数据的信心值的一运算关系，调整该辨识门槛值；

其中，决定该关键字对应的该信心值之后，更包括：

反应于该语音数据的信心值未小于该辨识门槛值，发送一服务要求，其中该服务要求包括该语音数据；

接收回应于该服务要求的一服务回应；

判断该服务回应是否相关于该语音数据未匹配至少一语音功能；以及

反应于该服务回应相关于该语音数据未匹配该至少一语音功能，调整该辨识门槛值。

2.如权利要求1所述的语音服务控制方法，其特征在于，依据该累计失败次数、以及该语音数据与该至少一先前语音数据的信心值的该运算关系调整该辨识门槛值的步骤，包括：

判断该累计失败次数是否大于一次数门槛值，其中该次数门槛值大于一；以及

反应于该累计失败次数大于该次数门槛值，依据该语音数据与该至少一先前语音数据的信心值的该运算关系降低该辨识门槛值。

3.如权利要求2所述的语音服务控制方法，其特征在于，依据该语音数据与该至少一先前语音数据的信心值的该运算关系降低该辨识门槛值的步骤包括：

将该语音数据与该至少一先前语音数据中至少一者的信心值与该辨识门槛值的平均值作为调整后的该辨识门槛值。

4.如权利要求3所述的语音服务控制方法，其特征在于，将该语音数据与该至少一先前语音数据中至少一者的信心值与该辨识门槛值的平均值作为调整后的该辨识门槛值之前，更包括：

取得该语音数据与该至少一先前语音数据的信心值中最大的至少一者。

5.如权利要求3所述的语音服务控制方法，其特征在于，将该语音数据与该至少一先前语音数据中至少一者的信心值与该辨识门槛值的平均值作为更新后的该辨识门槛值之前，更包括：

取得该语音数据与该至少一先前语音数据的信心值中大于一最低界限值的至少一者，其中该最低界限值为该辨识门槛值减去一变异值。

6.如权利要求1所述的语音服务控制方法，其特征在于，该累计失败次数是该时间区间中该语音数据与连续取得的该至少一先前语音数据的信心值小于该辨识门槛值的累计次数。

7.如权利要求1所述的语音服务控制方法，其特征在于，调整该辨识门槛值的步骤包括：

依据该辨识门槛值决定一最高界限值，其中该最高界限值大于该辨识门槛值；以及

依据该最高界限值提高该辨识门槛值。

8.如权利要求7所述的语音服务控制方法，其特征在于，依据该最高界限值提高该辨识门槛值的步骤包括：

反应于该语音数据的信心值小于该最高界限值，将该语音数据的信心值作为该辨识门槛值；以及

反应于该语音数据的信心值未小于该最高界限值，将该最高界限值作为该辨识门槛值。

9.如权利要求7所述的语音服务控制方法，其特征在于，该最高界限值为该辨识门槛值加上一变异值。

10.一种语音服务控制装置，其特征在于，包括：

一收音装置，取得一语音数据；以及

一处理器，耦接该收音装置，并经配置用以执行：

其中，该语音服务控制装置，更包括：

一输入输出接口，耦接该处理器，并用以收发数据；而该处理器经配置用以执行：

反应于该语音数据的信心值未小于该辨识门槛值，通过该输入输出接口发送一服务要求，其中该服务要求包括该语音数据；

通过该输入输出接口接收回应于该服务要求的一服务回应；

11.如权利要求10所述的语音服务控制装置，其特征在于，该处理器经配置用以执行：

反应于该累计失败次数大于该次数门槛值，依据该语音数据与该至少一先前语音数据的信心值降低该辨识门槛值。

12.如权利要求11所述的语音服务控制装置，其特征在于，该处理器经配置用以执行：

13.如权利要求12所述的语音服务控制装置，其特征在于，其该处理器经配置用以执行：

14.如权利要求12所述的语音服务控制装置，其特征在于，该处理器经配置用以执行：

15.如权利要求10所述的语音服务控制装置，其特征在于，该累计失败次数是该时间区间中该语音数据与连续取得的该至少一先前语音数据的信心值小于该辨识门槛值的累计次数。

16.如权利要求10所述的语音服务控制装置，其特征在于，该处理器经配置用以执行：

依据该最高界限值提高该辨识门槛值。

17.如权利要求16所述的语音服务控制装置，其特征在于，该处理器经配置用以执行：

18.如权利要求16所述的语音服务控制装置，其特征在于，该最高界限值为该辨识门槛值加上一变异值。