CN111312236A

CN111312236A - 语音识别系统的域管理方法

Info

Publication number: CN111312236A
Application number: CN201910514729.3A
Authority: CN
Inventors: 李京澈; 赵在珉
Original assignee: Hyundai Motor Co; Kia Motors Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2018-12-12
Filing date: 2019-06-14
Publication date: 2020-06-19
Also published as: US20200193985A1; KR20200072021A

Abstract

本公开提供一种语音识别系统的域管理方法。管理语音识别系统的域的方法可以包括：通过车辆功能分析模块从安装在车辆上的系统收集语音识别功能信息；通过车辆状况分析模块从安装在车辆上的系统收集状况信息；通过用户域管理模块基于收集的语音识别功能信息和状况信息来管理用户域。

Description

语音识别系统的域管理方法

相关申请的交叉引用

本申请要求于2018年12月12日提交的第10-2018-0159723号韩国专利申请的优先权和权益，其全部内容通过引用结合于此。

技术领域

本公开涉及一种用于管理用于语音识别的域的技术。

背景技术

该部分的内容仅提供与本公开有关的背景信息，并且可能不构成先有技术。

语音识别技术是一种用于从语音信号中提取特征，将模式识别算法应用于所提取的特征，然后对语音信号进行回溯以知道由说话者的话语生成哪个音素或词串的技术。

最近，已经提供了用于提高语音识别准确度的各种方案。使用言语行为信息的语音识别方案基于在主语音识别过程中获得的识别结果来估计语音行为，然后通过使用针对估计的语音行为指定的语言模型来搜索最终识别结果。然而，根据该方案，当由于伴随在主语音识别过程中获得的识别结果的错误而发生语音行为估计错误时，很可能导出不正确的最终识别结果。

作为另一种方案，例如，已经广泛使用基于域的语音识别技术，其中根据诸如天气、观光等主题对多个域进行分类，生成为每个域指定的声学模型和语言模型，然后通过使用声学和语言模型识别给定的语音信号。根据这一方案，当输入语音信号时，在多个域上并行执行语音识别以生成识别结果，然后最终选择多个识别结果中具有最高可靠性的识别结果。

由于基于域的语音识别技术需要对所有域执行语义分析，因此随着域数量的增加，处理速度会降低。在这种情况下，很可能不能准确地解释用户的语音命令，从而可能无法获得高精度的结果。因此，作为异常处理，向用户呈现诸如“无法识别，请再次输入”的引导消息或通过网络搜索获得的结果。在本例中，因为异常处理提供低精度结果，随着异常处理的数量增加，语音识别性能的可靠性劣化。

发明内容

本公开的一方面提供一种语音识别系统的域管理方法，通过基于车辆的功能和状况生成针对用户优化的域(在下文中，称为用户域)，并通过反映用户对通常没有识别出的异常处理结果的选择来管理用户域，其能够减少或防止由于对所有域执行语义分析而导致的处理速度延迟以及由于语义分析结果的低精度而导致的异常处理的增加。

本发明构思要解决的技术问题不限于上述问题，本发明所属领域的技术人员从以下描述中清楚地理解本文未提及的任何其他技术问题。

根据本公开的一方面，一种管理语音识别系统的域的方法包括以下步骤：通过车辆功能分析模块从安装在车辆上的系统收集语音识别功能信息；通过车辆状况分析模块从安装在车辆上的系统收集状况信息；通过用户域管理模块基于收集的语音识别功能信息和状况信息来管理用户域。

用户域可以包括多个主域，并且多个主域中的每个主域可以包括多个子域。

管理用户域的步骤可以包括：激活或去激活多个主域中的特定主域；并且激活或去激活多个子域中的特定子域。

该方法还可以包括：基于从安装在车辆上的系统收集的用户偏好信息来确定是否激活多个主域中的主域和多个子域中的子域。

确定是否激活主域和子域的步骤可以包括：基于作为用户偏好信息的用户的菜单优先级，确定是否激活主域和子域。

确定是否激活主域和子域的步骤可以包括：基于作为用户偏好信息的用户设置的喜好，确定是否激活主域和子域。

确定是否激活主域和子域的步骤可以包括：基于作为用户偏好信息的用户设置的菜单优先级和喜好，确定是否激活主域和子域。

多个主域可以包括通信、导航、媒体、知识、新闻、体育和天气中的至少一种。

收集状况信息的步骤可以包括：收集车辆的泊车状态或停止状态、导航设置状态、信息接收状态和电话连接状态中的至少一种。

该方法还可以包括：通过车辆状况分析模块基于收集的状况信息来分析每种状况下多个主域中的每个主域的使用频率，并且将权重赋予与分析的使用频率对应的每个主域。

收集语音识别功能信息的步骤可以包括：从车辆中设置的音频视频导航(AVN)系统收集语音识别功能信息。

管理用户域的步骤可以包括：管理关于多个用户的每个用户域。

该方法还可以包括：通过反映对于异常处理结果的用户选择，由异常处理管理模块进一步管理用户域。

通过反映用户选择来管理用户域的步骤可以包括：将权重赋予用户选择的域。

通过反映用户选择来管理用户域的步骤可以包括：基于对于模糊命令的异常处理结果的用户选择，生成异常处理模型‘1’；并且基于对于不支持的命令的异常处理结果的用户选择，生成异常处理模型‘2’。

根据本文提供的描述，其他适用领域将变得显而易见。应当理解说明书和特定实例意在仅用于说明的目的而不意在限制本发明的范围。

附图说明

为了能够很好地理解本发明，现在将参考所附的附图描述本发明的作为示例给出的各种形式，其中：

图1是示出语音识别系统的域管理过程的概念图；

图2是示出为多个用户生成的用户域模型的视图；

图3是示出异常处理管理模块的配置的视图；

图4是示出管理语音识别系统的域的方法的流程图；以及

图5是示出用于执行语音识别系统的域管理方法的计算系统的框图。

在这里描述的附图是仅用于说明的目的，且不意在以任意方式限制本发明的范围。

具体实施方式

实质上，以下的说明书仅是示例性的，而非用于限制本公开、应用和用途。应当理解的是，在所有附图中，对应的附图标记指示类似或对应的零件或部件。

此外，在描述本公开的形式时，将排除公知特征或功能的详细描述，以免不必要地模糊本公开的主旨。

在描述根据本公开的形式的组件时，可以使用诸如第一、第二、“A”、“B”、(a)、(b)等词语。这些词语仅旨在将一个组件与另一个组件区分开，并且这些词语不限制组成组件的性质、序列或顺序。除非另外定义，否则本文使用的所有术语，包括技术术语或科学术语，具有与本发明所属领域的技术人员通常理解的含义相同的含义。在通常使用的字典中定义的那些术语应被解释为具有与相关领域中的上下文含义相同的含义，并且不应被解释为具有理想或过分正式的含义，除非本申请明确定义为具有这样的含义。

图1是示出根据本公开的一种形式的语音识别系统的域管理过程的概念图，并且示出应用于车辆的语音识别系统的处理器的功能块。

首先，用户域分析模块110是用于基于车辆的功能和状况(车辆中设置的系统的操作状态)生成针对用户优化的域(以下称为用户域)的功能块，并通过反映对于通常没有识别出的异常处理结果的用户选择来管理用户域。用户域分析模块110可以包括车辆功能分析模块111、车辆状况分析模块112、用户域管理模块113和异常处理管理模块114。

车辆功能分析模块111是用于为每个功能构建模型集的功能块，具有与车辆提供的语音识别相关的功能集。也就是说，从安装在车辆中的各种系统收集与语音识别相关的功能信息。例如，可以配置用于与由车辆的音频视频导航(AVN)系统提供的语音识别相关的功能的域集。

车辆功能分析模块111可以包括基于车载系统支持的功能的主域和子域。在这种情况下，支持功能集可以如下构成。

1)呼叫功能--支持

2)发消息功能--连接Android手机时支持，连接I-phone时不支持

3)电子邮件功能--不支持

4)汽车手册提供--支持

5)在线音乐提供--当用户订阅在线音乐网站并允许链接时支持

车辆功能分析模块111可以包括反映用户设置的诸如菜单优先级、喜好等的用户偏好的域。例如，可以增加与高优先级菜单对应或者与喜好中包括的功能对应的域的权重。作为参考，域的权重越高，作为语音识别结果导出的概率越高。

车辆状况分析模块112是用于为每种情况构建模型集的功能块，可以从安装在车辆上的各种系统收集车辆状况信息。例如，可以收集状况信息，诸如行驶状态(停止、泊车)、导航设置状态(目的地、登记位置、喜好等)、信息(体育、新闻、天气等)接收状态、电话连接状态(电话簿、通话记录、喜好、数据下载)等。

车辆状况分析模块112可以分析与行驶状态对应的每个主域和每个子域的使用频率，并且向每个主域和每个子域赋予权重。

例如，当用户经常使用的域的使用频率为50％用于通信、30％用于媒体、10％用于新闻、10％用于导航时，可以对应于使用频率赋予权重。在这种情况下，在行驶期间禁用具有权重值“0(零)”的域。

作为另一示例，当在车辆停止的情况下用户经常使用的域的使用频率为50％用于导航搜索、30％用于知识搜索、20％用于新闻时，可以对应于使用频率赋予权重。在这种情况下，在行驶期间禁用具有权重值“0”的域。

作为又一示例，当电话未连接时禁用通信域，并且可以对应于在行驶时使用电话的频率来对相应的通信域和子域进行加权。

车辆状况分析模块112可以通过以组合方式分析上述状况来确定是否激活主域和子域，并且将权重赋予主域和子域。

用户域管理模块113是用于管理用户域的功能块，管理用户域模型。

如图1所示，用户域模型可以包括通信域、导航域、媒体域、知识域、新闻域、体育域、天气域等。在这种情况下，通信域可以包括作为子域的呼叫、发消息和电子邮件，并且导航域可以包括作为子域的感兴趣位置(POI)/地址、泊车和交通。媒体域可以包括作为子域的无线电、本地音乐、在线音乐，并且知识域可以包括作为子域的POI知识、一般(general)和车辆手册。在这种情况下，新闻域、体育域和天气域作为主域处于禁用状态，并且电子邮件、无线电和一般作为子域也处于禁用状态。

当在服务器中构建时，用户域管理模块113可以生成和管理针对多个用户中的对应用户优化的用户域模型。也就是说，如图2所示，用户域管理模块113可以生成和管理用于存储第二用户域模型的客户DB'2'、用于存储第三用户域模型的客户DB'3'等。

异常处理管理模块114是用于通过反映对于通常没有识别出的异常处理结果的用户选择来管理用户域的功能块，可以被分类为不支持的域和模糊命令，并且可以收集关于异常处理情况的数据。

异常处理管理模块114可以基于所收集的数据收集不支持的命令的语料库或可支持的域中的可支持但模糊的话语的语料库，并且通过使用语料库来区分不支持的和模糊的命令，从而当发出分隔作为不支持的命令的命令时，可以向用户提供引导。

当在异常处理的模糊话语的结果中存在用户选择时，异常处理管理模块114可以将额外的权重赋予对应的域，使得在对应的域中执行语义分析。

例如，需要用于掌握每个域的自然语言的意图的主关键词，诸如“请找星巴克”、“星巴克引导”、“星巴克地址”等，来识别相应的域。在用户的样本话语中没有诸如“星巴克？”之类的词汇来知道用户话语含义。在这种情况下，可以执行异常处理，并且当用户从异常结果中选择地图搜索或者通过导航搜索“星巴克”时，异常处理管理模块114可以向导航域赋予权重。因此，可以在输入“星巴克？”之后立即执行导航引导。

当由于发出不支持的命令而在异常处理的结果中存在用户选择时，异常处理管理模块114可以向对应的域赋予额外的权重，使得在对应的域中执行语义分析。

例如，尽管用户清楚地说出“春日(spring sky)”，但是当不能掌握该意图时，可以提供天气域的春季天气信息和搜索域的细粉尘信息。当用户选择天气域时，可以将权重赋予天气域，然后，当输入“春日”时，可以提供春季天气信息。通过扩展它，即使在发出诸如“秋日”、“夏季雨天”等类似的话语时，也可以通过天气域提供秋季天气或夏季天气。

毕竟，当响应于用户的语音命令的服务结果不满足用户的意图时，异常处理管理模块114可以基于用户的选择来管理用户域。

接下来，预处理模块120去除来自用户的语音输入的噪声。

接下来，语音识别装置130从输入的语音信号中识别用户发出的语音，并输出识别结果。从语音识别装置130输出的识别结果可以是文本类型的话语。

语音识别装置130可以包括自动语音识别(ASR)引擎。ASR引擎可以通过将语音识别算法应用于输入的语音来识别用户发出的语音，并且可以生成识别结果。

在这种情况下，输入语音可以被转换为更有用的语音识别形式，因此，可以在语音信号中检测起点和终点，以检测输入语音的实际语音部分。这称为端点检测(EPD)。此外，可以在检测到的部分内应用诸如倒谱(cepstrum)、线性预测编码(LPC)、Mel频率倒谱系数(MFCC)、滤波器组能量等特征向量提取技术，从而提取输入语音的特征向量。此外，可以通过将提取的特征向量与训练的参考模式进行比较来获得识别结果。到目前为止，可以使用用于建模和比较语音的信号特征的声学模型和用于对与识别词汇对应的单词或音节的语言顺序关系建模的语言模型。

语音识别装置130可以使用用于识别语音的任何方案。例如，可以使用应用了隐马尔可夫模型的声学模型，或者可以使用组合声学模型和语音模型的N-best搜索方案。在使用声学模型和语言模型选择多达N个识别结果候选之后，N-best搜索方案可以通过重新评估候选的排名来提高识别性能。

语音识别装置130可以计算置信度值以确保识别结果的可靠性。置信度值是语音识别结果可靠程度的度量。例如，作为识别结果的音素或单词可以被定义为该单词是从另一个音素或单词发出的概率的相对值。因此，置信度值可以表示为“0”和“1”之间的值，或者表示为“0”和“100”之间的值。

当置信度值超过预设阈值时，可以输出识别结果以执行与识别结果对应的操作。当置信度值等于或小于阈值时，可以拒绝识别结果。

作为语音识别装置130的识别结果的文本类型话语被输入到自然语言理解(NLU)引擎140。

NLU引擎140可以通过应用自然语言理解技术来掌握包括在话语中的用户的话语意图。也就是说，NLU引擎140可以分析话语语言的含义。

NLU引擎140对文本类型的话语执行语素分析。语素是含义的最小单位，代表不能再细分的最小语义元素。因此，语素分析是理解自然语言的第一步，其将输入字符串转换为语素字符串。

NLU引擎140基于语素分析结果从话语中提取域。该域是可以识别用户话语语音的主题的域，表示各种主题，诸如路线引导、天气搜索、交通搜索、日程管理、加油引导、空气控制等。

NLU引擎140可以从话语中识别实体名称。实体名称是专有名称，诸如姓名、地名、组织名称、时间、日期、货币等，实体名称识别是识别语句中的实体名称并确定一种实体名称的工作。可以通过实体名称识别从语句中提取重要关键词来掌握语句的含义。

NLU引擎140可以分析话语的行为。话语行为分析是分析用户话语意图的工作，掌握关于是否是用户询问问题、请求某事或简单表达情感的语句意图。

NLU引擎140提取与用户的话语意图相对应的行为。基于诸如与话语对应的域、实体名称、话语行为等的信息来掌握用户的话语意图，并且提取与话语意图相对应的行为。

NLU引擎140的处理结果可以包括例如对应于话语的域和关键字，并且还可以包括语素分析结果、实体名称、行为信息、话语行为信息等。

接下来，域处理模块150选择要由NLU引擎140参考的用户域模型和异常处理模型。在这种情况下，如图3所示，异常处理模型(其为由异常处理管理模块114管理的模型)意味着基于模糊命令的异常处理结果的用户选择而生成的异常处理模型‘1’和基于不支持命令的异常处理结果的用户选择而生成的异常处理模型‘2’。

域处理模块150可以基于NLU引擎140的识别结果(例如，意图(Intent)：搜索音乐，槽(Slot)：春天和驾驶)提出信息处理结果，提出服务，或者将识别结果确定为不支持的域或模糊命令。

接下来，服务处理模块160基于域处理模块150的处理结果推荐搜索，执行数据搜索，建议服务或执行异常处理。

服务处理模块160可以从内容提供方(CP)170获取内容并将内容提供给用户。

服务处理模块160可以执行web搜索180作为异常处理。在这种情况下，可以将根据异常处理的用户的最终选择190发送到异常处理管理模块114以生成异常处理模型。

图4是示出根据本公开的示例性形式的管理用于语音识别系统的域的方法的流程图，其可以由包括在语音识别系统中的处理器或单独的处理器执行。

首先，在操作401中，识别由车辆提供的语音识别功能。也就是说，从安装在车辆上的系统收集语音识别功能信息。

然后，在操作402中，掌握车辆的状况。也就是说，从安装在车辆上的系统收集状况信息。

此后，在操作403中，基于所掌握的语音识别功能和车辆的状况来管理用户域。也就是说，基于收集的语音识别功能信息和状况信息来管理用户域。

通过上述过程，可以防止由于对所有域执行语义分析而导致的处理速度延迟以及由于语义分析结果的低准确性导致的异常处理的增加。

图5是示出根据本公开的另一形式的用于执行语音识别系统的域管理方法的计算系统的框图。

参考图5，语音识别系统的域管理方法可以通过计算系统实现。计算系统1000可以包括至少一个处理器1100、存储器1300、用户界面输入装置1400、用户界面输出装置1500、存储装置1600或网络接口1700，它们经由总线1200彼此连接。

处理器1100可以是处理存储在存储器1300和/或存储装置1600中的指令的中央处理单元(CPU)或半导体器件。存储器1300和存储装置1600可以包括各种类型的易失性或非易失性存储介质。例如，存储器1300可以包括ROM(只读存储器)和RAM(随机存取存储器)。

因此，结合本文所揭示形式所描述的方法或算法的操作可以直接体现在可由处理器执行的硬件、软件模块或两者的组合中。软件模块可以驻留在存储介质(即，存储器1300和/或存储装置1600)上，诸如RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、固态驱动器(SSD)、可移动盘、CD-ROM。示例性的存储介质可以被耦合到处理器1100，处理器1100可以从存储介质中读取信息或者向存储介质中写入信息。替代地，存储介质可以与处理器1100集成。处理器1100和存储介质可以驻留于专用集成电路(ASIC)中。ASIC可以驻留在用户终端中。在另一种情况下，处理器1100和存储介质可以作为单独的组件驻留在用户终端中。

根据本公开的语音识别系统的域管理方法，可以基于车辆的功能和状况生成针对用户优化的域(用户域)，并且可以通过反映用户对通常没有识别出的异常处理结果的选择来管理用户域，使得可以防止由于对所有域执行语义分析而导致的处理速度延迟以及由于语义分析结果的低准确性而导致的异常处理的增加。

在上文中，尽管已经参考示例性形式和附图描述了本公开，但是本公开不限于此，而是可以由本公开所属领域的技术人员在不脱离本公开的精神和范围的情况下，进行各种修改和改变。

因此，提供本公开的示例性形式以解释而非限制本公开的精神和范围，使得本公开的精神和范围不受这些形式的限制。本公开的范围应当基于所附权利要求来解释，并且在等同于权利要求的范围内的所有技术构思应当包括在本公开的范围内。

Claims

1.一种管理语音识别系统的域的方法，所述方法包括以下步骤：

通过车辆功能分析模块从安装在车辆上的系统收集语音识别功能信息；

通过车辆状况分析模块从安装在所述车辆上的系统收集状况信息；以及

通过用户域管理模块基于收集的语音识别功能信息和状况信息来管理用户域。

2.如权利要求1所述的方法，其中，所述用户域包括多个主域，并且

其中，所述多个主域中的每个主域包括多个子域。

3.如权利要求2所述的方法，其中，管理用户域的步骤包括：

激活或去激活所述多个主域中的指定主域；和

激活或去激活所述多个子域中的指定子域。

4.如权利要求2所述的方法，还包括：

基于从安装在所述车辆上的系统收集的用户偏好信息，确定是否激活所述多个主域中的主域和所述多个子域中的子域。

5.如权利要求4所述的方法，其中，确定是否激活主域和子域的步骤包括：

基于作为所述用户偏好信息的用户设置的菜单优先级或喜好，确定是否激活主域和子域。

6.如权利要求2所述的方法，其中，所述多个主域包括通信、导航、媒体、知识、新闻、体育和天气中的至少一种。

7.如权利要求2所述的方法，其中，收集状况信息的步骤包括：

收集所述车辆的泊车状态或停止状态、导航设置状态、信息接收状态和电话连接状态中的至少一种。

8.如权利要求7所述的方法，还包括：

通过所述车辆状况分析模块基于收集的状况信息来分析每种状况下多个主域中的每个主域的使用频率，并且基于分析的使用频率向每个主域赋予权重。

9.如权利要求1所述的方法，其中，收集语音识别功能信息的步骤包括：

从所述车辆中设置的音频视频导航AVN系统收集所述语音识别功能信息。

10.如权利要求1所述的方法，其中，管理用户域的步骤包括：

管理关于多个用户的每个用户域。

11.如权利要求1所述的方法，还包括：

由异常处理管理模块通过反映对于异常处理结果的用户选择来管理所述用户域。

12.如权利要求11所述的方法，其中，通过反映用户选择来管理用户域的步骤包括：

向用户选择的域赋予权重。

13.如权利要求11所述的方法，其中，通过反映用户选择来管理用户域的步骤包括：

基于对于模糊命令的异常处理结果的用户选择，生成异常处理模型‘1’；和

基于对于不支持的命令的异常处理结果的用户选择，生成异常处理模型‘2’。