CN110473570A

CN110473570A - 整合式语音辨识系统及方法

Info

Publication number: CN110473570A
Application number: CN201810502185.4A
Authority: CN
Inventors: 李杜荣; 李振忠; 陈俊宏; 洪建国
Original assignee: Quanta Computer Inc
Current assignee: Quanta Computer Inc
Priority date: 2018-05-09
Filing date: 2018-05-23
Publication date: 2019-11-19
Anticipated expiration: 2038-05-23
Also published as: US20190348047A1; TWI682386B; CN110473570B; TW201947580A

Abstract

本发明提供一种整合式语音辨识系统及方法，该整合式语音辨识系统，具有存储装置以及控制器。存储装置存储多个用户所分别对应到多个语音辨识服务的多个评比分数。控制器根据用户数据从多个用户群组中挑选一用户群组，取得语音辨识服务分别针对同一语音数据所产生的多个辨识结果，以及根据用户中属于决定的用户群组者所对应的评比分数将辨识结果进行排序以产生推荐清单。

Description

整合式语音辨识系统及方法

技术领域

本申请主要涉及语音辨识技术，特别涉及一种整合了多种语音辨识服务的语音辨识系统及方法。

背景技术

随着数字装置的日渐普及，各种人机接口也纷纷发展以让用户能够方便操作这些数字装置。举例来说，目前最被广泛使用的人机接口之一是触控式接口，其优点是，比起传统的键盘、鼠标的操作方式，触控式接口的操作相当直觉化。然而，在某些情况下，触控式接口可能并不容易或不方便使用，例如：当用户的双手都在忙(如：开车)、或需要输入复杂的操作指令、或需要输入一长串文字时。

相较之下，另一种人机接口－语音接口不仅具备直觉化的特性，还可弥补触控式接口在上述情况中的不足。因此，语音接口的应用相当广泛，特别是例如：用户在开车时可通过语音接口控制各式装置、以及通过语音接口下指令给语音移动助理进行复杂的操作等。一般来说，语音接口通过语音辨识服务将人说话的语音内容转换成文字或机器码/指令，然而，不同语言的特性、或同语言但不同口音都会对语音辨识的准确度有所影响。

目前市场上已有多种语音辨识服务，但由于所使用的语音辨识技术各有不同，因此即便是在相同语系(如：中文)的同一个句子，也会因为说话的人有不同口音，而导致每个语音辨识服务各自产生不同的辨识结果。

发明内容

为了解决上述问题，本申请提供了一种整合式语音辨识系统及方法，其通过用户分群的机制对不同语音辨识服务的评比分数进行分析，以推荐用户选用适合的语音辨识服务，从而获得较佳的语音辨识准确度。

本申请的一实施例提供了一种整合式语音辨识系统，包括一存储装置以及一控制器。上述存储装置用以存储多个用户所分别对应到多个语音辨识服务的多个第一评比分数。上述控制器用以根据一用户数据从多个用户群组中挑选一第一用户群组，取得上述语音辨识服务分别针对一语音数据所产生的多个辨识结果，以及根据上述用户中属于上述第一用户群组者所对应的上述第一评比分数将上述辨识结果进行排序以产生一推荐清单。

本申请的另一实施例提供了一种整合式语音辨识方法，适用于一服务器，上述服务器包括一存储装置用以存储多个用户所分别对应到多个语音辨识服务的多个第一评比分数。上述整合式语音辨识方法包括以下步骤：根据一用户数据从多个用户群组中挑选一第一用户群组；取得上述语音辨识服务分别针对一语音数据所产生的多个辨识结果；以及根据上述用户中属于上述第一用户群组者所对应的上述第一评比分数将上述辨识结果进行排序以产生一推荐清单。

关于本申请其他附加的特征与优点，本领域技术人员，在不脱离本申请的精神和范围内，当可根据本申请实施方法中所公开的整合式语音辨识系统及方法做些许的更动与润饰而得到。

附图说明

图1是根据本申请一实施例所述的网络通信环境的示意图。

图2是根据本申请一实施例所述的整合式语音辨识系统170的硬件架构示意图。

图3是根据本申请一实施例所述的整合式语音辨识方法的流程图。

图4A～4D是根据本申请一实施例所述以软件来实现整合式语音辨识方法的示意图。

【符号说明】

100 网络通信环境

110 用户装置

120 电信网络

121 接入网络

122 核心网络

130 无线局域网络

140 互联网

150～160 语音辨识服务器

170 整合式语音辨识系统

10 通信装置

20 控制器

30 存储装置

40 输入输出装置

410 前端输入模块

420 用户分群模块

430 语音辨识整合模块

440 推荐清单计算模块

450 选择及反馈模块

460 相似度计算模块

S310～S330、S501～S513 步骤编号

具体实施方式

本章节所叙述的是实施本申请的较佳方式，目的在于说明本申请的精神而非用以限定本申请的保护范围，当可理解的是，使用于本说明书中的“包含”、“包括”等词，用以表示存在特定的技术特征、数值、方法步骤、作业处理、元件和/或组件，但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、元件、组件，或以上的任意组合。

图1是根据本申请一实施例所述的网络通信环境的示意图。网络通信环境100包括用户装置110、电信网络120、无线局域网络130、互联网140、语音辨识服务器150～160、以及整合式语音辨识系统170。

用户装置110可为智能手机、平板计算机、笔记型计算机、桌上型计算机、或任何电子计算装置，只要其可支持电信网络120所使用的电信网络技术、和/或无线局域网络130所使用的无线局域网络技术。明确来说，用户装置110可选择性地连接至电信网络120或无线局域网络130，以取得网络连线至互联网140，并进一步通过互联网140连接到整合式语音辨识系统170。

电信网络120可使用任一电信网络技术，包括：全球移动通信系统(Global Systemfor Mobile communications，GSM)技术、通用分组无线服务(General Packet RadioService，GPRS)技术、全球增强型数据传输(Enhanced Data rates for GlobalEvolution，EDGE)技术、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)技术、码分多址-2000(Code Division Multiple Access 2000，CDMA-2000)技术、时分同步码分多址(Time Division-Synchronous Code Division Multiple Access，TD-SCDMA)技术、全球互通微波接入(Worldwide Interoperability for Microwave Access，WiMAX)技术、长期演进(Long Term Evolution，LTE)技术、长期演进强化(LTE Advanced，LTE-A)技术、、以及时分长期演进(Time-Division LTE，TD-LTE)技术等。

进一步说明，电信网络120包括接入网络121与核心网络122，其中接入网络121用以处理无线电信号、支持终端无线电协议、以及连接用户装置110与核心网络122，而核心网络122用以执行移动管理、网络端的验证、以及与公众网络(例如：互联网140)的介接。

无线局域网络130可由使用无线保真(Wireless Fidelity，WiFi)技术的接入点131所建立。明确来说，接入点131可通过以太网缆线连接至有线局域网络，进而连接至互联网140。接入点131通常用以接收、暂存、以及传送针对用户装置110的数据流量。当可理解的是，除了无线保真技术之外，接入点131也可使用其他的短距无线技术来建立无线局域网络130，例如：蓝牙技术、群蜂技术等，故本申请不在此限。

语音辨识服务器150～160分别为一云端服务器，其主要负责分别使用不同的语音辨识引擎提供语音辨识服务给互联网140上的其他连网装置(如：用户装置110、或整合式语音辨识系统170)。不同的语音辨识服务可包括：Google Cloud Speech、Microsoft AzureBing Speech、Amazon Alexa Voice Service、以及IBM Bluemix Watson等。举例来说，语音辨识服务器150可提供Google Cloud Speech服务，语音辨识服务器160可提供MicrosoftAzure Bing Speech服务。

当可理解的是，网络通信环境100还可再包括更多其他的语音辨识服务器，而不仅仅限于语音辨识服务器150～160。举例来说，还可包括：提供Amazon Alexa Voice Service服务的语音辨识服务器、以及提供IBM Bluemix Watson服务的语音辨识服务器。

整合式语音辨识系统170为一(云端)服务器，其主要负责提供整合式的语音辨识服务。当用户装置110需要使用语音辨识服务时，可将语音数据传送到整合式语音辨识系统170，由整合式语音辨识系统170来整合不同语音辨识服务器所产生的辨识结果。明确来说，整合式语音辨识系统170可根据用户分群的机制去分析所有用户分别对应到不同语音辨识服务的评比分数，以评选出最适合用户装置110的语音辨识服务。此外，整合式语音辨识系统170还可将辨识结果与用户的选择反馈进行比对，以调整用户分群机制中的权重比例参数。

在一实施例，整合式语音辨识系统170通过语音辨识服务的提供商所发布的应用程序接口(Application Programming Interface，API)去接入语音辨识服务器150～160所提供的语音辨识服务并取得各自的辨识结果。

当可理解的是，图1所示的网络通信环境仅用以提供一说明的范例，并非用以限制本申请的保护范围。举例来说，语音辨识服务器150～160可整合到整合式语音辨识系统170之中，也就是说，整合式语音辨识系统170本身即内建不同的语音辨识引擎；或者，整合式语音辨识系统170可直接通过内建/外接的存储装置来读取要进行辨识的语音数据。

图2是根据本申请一实施例所述的整合式语音辨识系统170的硬件架构示意图。整合式语音辨识系统170包括通信装置10、控制器20、存储装置30、输入输出装置40。

通信装置10用以提供连线至互联网140，并通过互联网140连接到用户装置110、以及语音辨识服务器150～160。通信装置10可通过有线的方式提供网络连线，例如：以太网(Ethernet)、光纤网络、或非对称数字式用户线路(Asymmetric Digital SubscriberLine，ADSL)等，或者，通信装置10也可通过无线的方式提供网络连线，例如使用无线保真技术、或其他电信网络技术。

控制器20可为通用处理器、微处理器(Micro Control Unit，MCU)、应用处理器(Application Processor，AP)、或数字信号处理器(Digital Signal Processor，DSP)等，其可包括各式电路逻辑，用以提供数据处理及运算的功能、控制通信装置10的运作以提供网络连线、从存储装置30读取或存储数据、以及从输入输出装置40接收管理者所输入的设定或输出信号。特别是，控制器20用以协调控制通信装置10、存储装置30、以及输入输出装置40的运作，以执行本申请的整合式语音辨识方法。

本领域技术人员当可理解，控制器20中的电路逻辑通常可包括多个晶体管，用以控制该电路逻辑的运作以提供所需的功能及作业。更进一步的，晶体管的特定结构及其之间的连接关系通常是由编译器所决定，例如：暂存器转移语言(Register TransferLanguage，RTL)编译器可由处理器所运作，将类似组合语言码的指令档(script)编译成适用于设计或制造该电路逻辑所需的形式。

存储装置30为非暂态(non-transitory)的计算机可读取存储介质，例如：随机存取存储器(Random Access Memory，RAM)、快闪存储器，或硬盘、光盘，或上述介质的任意组合，用以存储指令集、应用和/或通信协议的程序代码、以及本申请的整合式语音辨识方法的程序代码等。特别是，存储装置30还可维护一数据库用以存储多个用户分别对应到不同语音辨识服务的评比分数、每次分群推荐的准确度系数、以及分群规则。

输入输出装置40可包括一或多个按钮、键盘、鼠标、触碰板、视频镜头、麦克风、显示屏幕(例如：液晶显示器、发光二极管显示器、或电子纸显示器等)、和/或喇叭等，用以作为人机接口与管理者互动，包括：接收管理者所输入的设定(如：分群规则设定、权重比例参数设定、以及语音辨识服务的管理(新增/删除)设定)、以及输出反馈信号。

当可理解的是，图2所示的元件仅用以提供一说明的范例，并非用以限制本申请的保护范围。举例来说，整合式语音辨识系统170还可包括其他元件，例如：电源供应器、和/或全球定位系统(Global Positioning System，GPS)等。

图3是根据本申请一实施例所述的整合式语音辨识方法的流程图。在此实施例，整合式语音辨识方法适用于一云端服务器，如：整合式语音辨识系统170。

首先，整合式语音辨识系统根据一用户数据从多个用户群组中挑选一第一用户群组(步骤S310)，所选的用户群组即为当前用户的分群结果。

在一实施例，整合式语音辨识系统可以从互联网上的其他连网装置(如：用户装置110)接收上述用户数据。或者，在另一实施例，整合式语音辨识系统可以从内部/外接的存储装置中读取上述用户数据。用户数据可包括网络协议(Internet Protocol，IP)地址、位置信息、性别信息、年龄信息、或以上的任意组合。其中，位置信息可以是由用户装置内建的全球定位系统所提供的定位信息，或者，位置信息可以是由用户手动输入的居住地/所在地信息。

在一实施例，由于考虑到不同地理区域的用户会有相近的口音或说话习惯，所以可以根据用户的所在区域来将用户进行分群，举例来说，可根据网络协议地址、和/或位置信息来决定每个用户的所在区域，如：台北、台中、高雄、上海、或北京等。

接着，整合式语音辨识系统取得不同语音辨识服务分别针对同一语音数据所产生的多个辨识结果(步骤S320)。在一实施例，整合式语音辨识系统可以从互联网上的其他连网装置(如：用户装置110)接收上述语音数据。或者，在另一实施例，整合式语音辨识系统可以从内部/外接的存储装置中读取上述语音数据。

更进一步地，整合式语音辨识系统可以通过互联网分别连接到不同的语音辨识服务器以接入不同的语音辨识服务，或者，整合式语音辨识系统也可直接内建语音辨识引擎以提供这些语音辨识服务。

然后，整合式语音辨识系统根据第一用户群组中的用户所对应的评比分数将多个辨识结果进行排序以产生一推荐清单(步骤S330)，方法流程结束。

其中，图3整合式语音辨识方法的流程图的详细操作内容将在图4A～4D进一步说明。

图4A～4D是根据本申请一实施例所述以软件来实现整合式语音辨识方法的示意图。在此实施例，用以实现整合式语音辨识方法的软件架构包括有：前端输入模块410、用户分群模块420、语音辨识整合模块430、推荐清单计算模块440、选择及反馈模块450、以及相似度计算模块460。上述软件模块可由程序代码所组成并由整合式语音辨识系统170中的控制器20载入执行，从而实现整合式语音辨识方法。

首先，关于前端输入模块410，其主要负责提供整合式语音辨识系统170对用户装置110的接口。

通过此接口，可让整合式语音辨识系统170从用户装置110接收当前的一用户F的用户数据及语音数据(步骤S501)。在另一实施例，前端输入模块410还可进一步从用户装置110接收装置数据，例如：装置型号、以及操作系统版本等。

关于用户分群模块420，其主要负责从数据库中读取分群规则(步骤S502)，然后依据分群规则及用户数据将当前的用户进行分群归类(步骤S503)。

举例来说，分群规则可指示以用户的所在区域进行分群，所以可以先根据用户数据中的网络协议地址、和/或全球定位系统的定位信息来决定用户的所在区域，然后再将用户进行分群。

关于语音辨识整合模块430，其主要负责提供整合式语音辨识系统170对语音辨识服务器150～160的接口。

通过此接口，可让整合式语音辨识系统170将语音数据分别传送到语音辨识服务器150～160进行语音辨识(步骤S504)，并且从语音辨识服务器150～160分别接收辨识结果(步骤S505)。此接口在实作上，可使用语音辨识服务的提供商所发布的应用程序接口去接入语音辨识服务器150～160所提供的语音辨识服务并取得各自的辨识结果。

当可理解的是，语音辨识整合模块430还可对接更多其他的语音辨识服务器，而不仅仅限于语音辨识服务器150～160。

关于推荐清单计算模块440，其主要负责至数据库读取多个用户分别对应到不同语音辨识服务的评比分数(步骤S506)，并根据分群结果及评比分数计算出语音辨识服务的排名顺序(步骤S507)，然后再依照排名顺序产生推荐清单(步骤S508)。

明确来说，数据库中存储了多个用户先前使用整合式语音辨识系统170时的分群结果、该等用户对应到不同语音辨识服务的评比分数R_i(i为语音辨识服务的index)、以及每个用户当次的推荐准确度系数β，如以下表1所示。

表1.

在此范例中，分群的依据是用户的所在区域。其中，评比分数R_i越高代表该语音辨识服务的辨识越准确，而推荐准确度系数β则代表最后产生的推荐清单是否符合用户的选择，若符合，推荐准确度系数β的值为1，反之，若不符合，则推荐准确度系数β的值为0。关于评比分数R_i以及推荐准确度系数β的计算方式将在后续进一步说明。

步骤S507的具体内容可包括三个部分，在第一部分，先针对每个语音辨识服务计算出所有用户(多个用户先前)的平均评比分数AR_i，以表1的数据为例，语音辨识服务1～4的所有人综合评比分数AR_i、以及根据所有人综合评比分数AR_i所决定的排名顺序如表2所示。

表2.

接着，在第二部分，根据步骤S503的分群结果计算相同用户群组的用户对应到每个语音辨识服务的分群评比分数G_kR_i(k为用户群组的index)，假设步骤S503的分群结果是将当前的用户F依据其所在位置分群为“台北人”的用户群组，那么“台北人”群组的所有用户分别对应到每个语音辨识服务的平均评比分数、以及根据分群评比分数G_kR_i所决定的排名顺序如下表3所示。

表3.

然后，在第三部分，针对每个语音辨识服务以一权重比例α将所有人平均评比分数AR_i及群组平均评比分数G_kR_i加总计算出各自的综合评比分数FRi，并根据综合评比分数FRi决定综合推荐排名顺序，如以下表4所示(以权重比例α＝0.6为例)。

表4.

在一实施例，权重比例α可以是将数据库中所记录的每次推荐的推荐准确度系数β加总后取平均值所得到，以表1的数据为例，权重比例

步骤S508的具体内容即是根据综合推荐排名顺序将不同语音辨识服务的辨识结果进行排序以产生推荐清单。以表4的综合推荐排名顺序为例，推荐清单中的第一条目(entry)是语音辨识服务1的辨识结果、第二条目是语音辨识服务3的辨识结果、第三条目是语音辨识服务4的辨识结果、第四条目是语音辨识服务2的辨识结果。

关于选择及反馈模块450，其主要负责将推荐清单传送到用户装置110(步骤S509)，然后从用户装置110接收选择反馈(步骤S510)。

明确来说，若推荐清单中存在用户想要的辨识结果，则选择反馈可包括用户所选定的辨识结果。反之，若推荐清单中所有的辨识结果都不是用户想要的，则用户可自行修正辨识结果，而选择反馈则可包括修正后的辨识结果。

关于相似度计算模块460，其主要负责根据用户的选择反馈来回推计算出每个语音辨识服务的评比分数，并根据该等评比分数决定最后排名顺序(步骤S511)，接着，根据最后排名顺序决定当次推荐的准确度系数(步骤S512)，然后将这些评比分数存到数据库中(步骤S513)。

明确来说，相似度计算模块460计算每个语音辨识服务的辨识结果与用户的选择反馈之间的相似度(意即：比对两者是否相同)，并以相似度作为该次辨识的评比分数。

为方便说明，在此假设推荐清单中所有的辨识结果都不是用户想要的，所以用户的选择反馈包括了修正后的辨识结果：“亲子旅游大控诉”，而上述相似度的计算如以下表5所示。

表5.

其中，每个辨识结果与正确辨识结果之间的相似度以正确的字数除以所有字数而得到。

根据表5所示的范例，由于最后排名顺序的第一位与群组推荐排名顺序中的第一位相同，所以将当次推荐的准确度系数设为1。若最后排名顺序的第一位与群组推荐排名顺序中的第一位不同，则将当次推荐的准确度系数设为0。

在步骤S513之后，数据库就会新增一个条目用以存储用户F该次的评比分数及推荐准确度系数，如以下表6所示。

表6.

而下次推荐时所要使用的权重比例α就会变成(四舍五入到小数点后第一位)，也就是说，随着数据库里的样本数越来越多，权重比例α的值会不断修正。

根据上述实施例，当可理解的是，本申请的整合式语音辨识系统及方法的特征在于，通过用户分群的机制对不同语音辨识服务的评比分数进行分析，以推荐用户选用适合的语音辨识服务，从而获得较佳的语音辨识准确度。须注意的是，虽然上述表1～表6所示范例是以用户的所在位置为分群的依据，但本发明不在此限。举例来说，其他用户数据(如：性别、年龄)、和/或装置数据(如：装置型号、操作系统版本)也可作为分群的依据。

本申请虽以各种实施例公开如上，然而其仅为范例参考而非用以限定本申请的范围，本领域技术人员，在不脱离本申请的精神和范围内，当可做些许的更动与润饰。因此上述实施例并非用以限定本申请的范围，本申请的保护范围当视所附权利要求书界定范围为准。

在权利要求书中所使用的“第一”、“第二”等词用来修饰权利要求中的元件，并非用来表示之间具有优先权顺序，先行关系，或者是一个元件先于另一个元件，或者是执行方法步骤时的时间先后顺序，仅用来区别具有相同名字的元件。

Claims

1.一种整合式语音辨识系统，包括：

存储装置，用以存储多个用户所分别对应到多个语音辨识服务的多个第一评比分数；

控制器，用以根据用户数据从多个用户群组中挑选第一用户群组，取得上述语音辨识服务分别针对语音数据所产生的多个辨识结果，以及根据上述用户中属于上述第一用户群组者所对应的上述第一评比分数将上述辨识结果进行排序以产生推荐清单。

2.如权利要求1所述的整合式语音辨识系统，其中上述推荐清单的产生步骤还包括：针对每个语音辨识服务将所有上述用户所对应的上述第一评比分数加总后计算出各自的第一平均评比分数，根据所述第一平均评比分数决定第一排名顺序，针对每个语音辨识服务将上述用户中属于上述第一用户群组者所对应的上述第一评比分数加总后计算出各自的第二平均评比分数，根据所述第二平均评比分数决定第二排名顺序，针对每个语音辨识服务以权重比例将上述第一平均评比分数及上述第二平均评比分数加总计算出各自的综合评比分数，根据所述综合评比分数决定第三排名顺序。

3.如权利要求1所述的整合式语音辨识系统，其中上述控制器还计算上述辨识结果的每一个与新用户的选择反馈之间的相似度，以产生该新用户对应到上述语音辨识服务的多个第二评比分数，根据所述第二评比分数决定第四排名顺序，以及比对上述第四排名顺序以及上述第二排名顺序中的第一位是否相同以决定推荐准确度系数。

4.如权利要求2所述的整合式语音辨识系统，其中上述存储装置还存储分别对应至上述用户的多个推荐准确度系数，上述控制器还根据上述推荐准确度系数决定上述权重比例。

5.如权利要求1所述的整合式语音辨识系统，其中上述用户数据包括以下至少一个：网络协议(Internet Protocol，IP)地址、位置信息、性别信息、以及年龄信息。

6.一种整合式语音辨识方法，适用于服务器，上述服务器包括存储装置用以存储多个用户所分别对应到多个语音辨识服务的多个第一评比分数，上述整合式语音辨识方法包括：

根据用户数据从多个用户群组中挑选第一用户群组；

取得上述语音辨识服务分别针对语音数据所产生的多个辨识结果；以及根据上述用户中属于上述第一用户群组者所对应的上述第一评比分数将上述辨识结果进行排序以产生推荐清单。

7.如权利要求6所述的整合式语音辨识方法，其中上述推荐清单的产生步骤还包括：

针对每个语音辨识服务将所有上述用户所对应的上述第一评比分数加总后计算出各自的第一平均评比分数，并根据所述第一平均评比分数决定第一排名顺序；

针对每个语音辨识服务将上述用户中属于上述第一用户群组者所对应的上述第一评比分数加总后计算出各自的第二平均评比分数，并根据所述第二平均评比分数决定第二排名顺序；以及

针对每个语音辨识服务以权重比例将上述第一平均评比分数及上述第二平均评比分数加总计算出各自的综合评比分数，并根据所述综合评比分数决定第三排名顺序。

8.如权利要求6所述的整合式语音辨识方法，还包括：

计算上述辨识结果的每一个与新用户的选择反馈之间的相似度，以产生该新用户对应到上述语音辨识服务的多个第二评比分数，并根据所述第二评比分数决定第四排名顺序；以及

比对上述第四排名顺序以及上述第二排名顺序中的第一位是否相同以决定推荐准确度系数。

9.如权利要求7所述的整合式语音辨识方法，其中上述存储装置还存储分别对应至上述用户的多个推荐准确度系数，上述整合式语音辨识方法还包括：

根据上述推荐准确度系数决定上述权重比例。

10.如权利要求6所述的整合式语音辨识方法，其中上述用户数据包括以下至少一个：网络协议地址、位置信息、性别信息、以及年龄信息。