CN110111774A

CN110111774A - 机器人语音识别方法和装置

Info

Publication number: CN110111774A
Application number: CN201910394471.8A
Authority: CN
Inventors: 杨晓燕; 符华; 潘晖; 黄潜; 周平; 韦思思; 禤亮
Original assignee: Nanning Power Supply Bureau of Guangxi Power Grid Co Ltd
Current assignee: Nanning Power Supply Bureau of Guangxi Power Grid Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-08-09

Abstract

本发明涉及一种机器人语音识别方法和装置，所述语音识别方法包括检测并获取声音信号；屏蔽掉所述声音信号中预设频段的声音信号以获取特定频段的语音信号；提取和分析所述语音信号的语音特征，根据所述语音特征在预先训练的声学模型中搜索，获取与所述语音特征匹配的语音识别结果。本发明提供的机器人语音识别方法或装置具有很好的语音特征识别度，能够在嘈杂的环境中精准地识别语音信号，并能根据语音信号特征准确地识别相关行业专业信息并获取语音识别结果。

Description

机器人语音识别方法和装置

技术领域

本发明涉及语音技术领域，特别是涉及机器人语音识别方法和装置。

背景技术

随着机器人技术的发展，各种机器人出现在不同领域的服务场所中，尤其频现各种公众服务场所，比如电力营业厅、飞机场、银行营业厅、宾馆入口等等。由于公众服务场所普遍具有人数众多，环境比较嘈杂的特点，服务机器人在与客户进行语音交互的过程中，经常因各种噪声干扰，造成语音识别错误，或者导致机器人难以辨识正在与之交流的客户的语音信号。

机器人语音识别障碍，一方面来自于外界噪声对机器人语音识别技术形成的干扰，另一方面来源于不同行业的专业词汇复杂度。

发明内容

基于此，有必要提供一种机器人语音识别方法和装置，旨在至少在一定程度上解决相关技术中的技术问题之一。

本发明的一个目的在于提供一种机器人语音识别方法，包括：

检测并获取声音信号；

屏蔽处理所述声音信号，获取特定频段的语音信号；

提取和分析所述语音信号的语音特征，根据所述语音特征在预先训练的声学模型中搜索，获取与所述语音特征匹配的语音识别结果。

上述机器人语音识别方法具有很好的语音特征识别度，能够在嘈杂的环境中精准地识别语音信号，并能根据语音信号特征准确地识别相关行业专业信息。

在其中一个实施例中，对声音信号进行端点检测的步骤中包括：在确定有语音输入时记录语音输入的起始点，和在确定无语音输入时记录语音输入的终止点，以及获取所述语音输入的起始点和所述语音输入的终止点之间的声音信号数据。

在其中一个实施例中，屏蔽掉所述声音信号中预设频段的声音信号的步骤，包括对获取的声音信号数据进行带通滤波和/或频谱分析与处理，以获取所述特定频段的语音信号数据。

在其中一个实施例中，在对声音信号进行语音信号特征提取之前，对获取的语音信号进行放大，以便于更好地提取语音信号特征。

在其中一个实施例中，所述对所述声音信号进行带通滤波的步骤包括将所述声音信号经由串联的第一子滤波器和第二子滤波器进行滤波。

在其中一个实施例中，在获取语音识别结果后，重置语音识别的场景。

本发明的另一个目的在于提出一种机器人语音识别装置，包括：

声音信号检测单元，用于对声音信号进行端点检测以获取声音信号；

屏蔽单元，用于从所述声音信号中屏蔽掉预设频段的声音信号，以获取特定频段的语音信号；

处理单元，用于提取和分析所述语音信号的语音特征，根据所述语音特征在预先训练的声学模型中搜索，获取与所述语音特征匹配的语音识别结果。

所述机器人语音识别装置具有很好的语音特征识别度，能够在嘈杂的环境中精准的识别语音信号，并能根据声音信号特征准确的识别相关行业专业信息。

在其中一个实施例中，所述声音信号检测单元对声音信号进行端点检测的步骤中包括，在确定有语音输入时记录语音输入的起始点，和在确定无语音输入时记录语音输入的终止点，以及获取所述语音输入的起始点和所述语音输入的终止点之间的声音信号数据。

在其中一个实施例中，所述屏蔽单元屏蔽掉所述声音信号中预设频段的声音信号的步骤中，包括对获取的声音信号数据进行带通滤波和/或频谱分析与处理，以得到所述特定频段的语音信号数据。

在其中一个实施例中，在所述屏蔽单元与所述处理单元之间串联信号放大单元，以对获取的语音信号进行放大。

在其中一个实施例中，所述屏蔽单元包括串联的第一子滤波器和第二子滤波器，用于对所述声音信号进行带通滤波以获取所述特定频段的语音信号。

在其中一个实施例中，所述机器人语音识别装置还包括重置单元，用于在获取语音识别结果后，重置语音识别的场景。

附图说明

图1为本发明实施例中一种语音识别方法的流程示意图；

图2为本发明的实施例中一种对声音信号进行带通滤波的方法流程示意图；

图3为本发明实施例中另一种语音识别方法的流程示意图；

图4为本发明实施例中一种语音识别装置的结构示意图；

图5为本发明实施例中另一种语音识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

应当理解，尽管本文可以使用术语“第一”、“第二”等来描述各种元件，但是这些元件不应受这些术语的限制。这些术语仅用于将一个元件和另一个元件区分开。例如，在不脱离本发明的范围的情况下，第一元件可以被称为第二元件，并且类似地，第二元件可以被称为第一元件。

在使用本文中描述的“包括”、“具有”、和“包含”的情况下，除非使用了明确的限定用语，例如“仅”、“由……组成”等，否则还可以添加另一部件。除非相反地提及，否则单数形式的术语可以包括复数形式，并不能理解为其数量为一个。

图1绘示本发明的一个实施例中一种语音识别方法的流程示意图，参考图1，详述如下：

于步骤S110中，检测并获取声音信号；

该步骤中，在确定有语音信号输入时记录语音信号输入的起始点，在确定无语音信号输入时记录语音信号输入的终止点，以及获取所述语音信号输入的起始点和所述语音信号输入的终止点之间的声音信号数据。

于步骤S120中，屏蔽处理所述声音信号，获取特定频段的语音信号；

对获取的声音信号数据进行带通滤波和/或频谱分析与处理，屏蔽掉所述声音信号中预设频段的声音信号，以得到特定频段的语音信号数据。

例如在电力营业厅中采集到的声音信号中一般包括手机振动信号、按键信号、脚步声、机器嘈杂声和语音声等，人的语音频率范围则集中在80Hz～12kHz之间，而普通人声的声音频段为300Hz-500Hz，即普通人声所处的声音频段范围则更小，发动机噪音的声音频段为1600Hz-200KHz，所以通过特定的频带滤波器或者频谱分析与处理算法可以比较精准地获取语音信号频段。在声音获取单元中可以设置一个声音频段识别装置，该装置可以从采集到的声音中识别出屏蔽声音或非屏蔽声音所在的声音频段，进而将屏蔽声音所在的声音频段进行衰减处理，将除屏蔽声音所在的声音频段之外的其它声音频段不进行衰减处理。

在本实施例中，对声音信号进行带通滤波处理方法的流程示意图，参考图2本发明的一个实施例中一种对声音信号进行带通滤波方法的流程示意图所示，

于步骤S1201中，将获取的声音信号经由第一子滤波器进行处理，其中，第一子滤波器，具有在第一可调谐截止频率处的第一可调谐截止；

于步骤S1202中，将步骤S1201中的输出结果经由第二子滤波器进行滤波处理，其中，第二子滤波器，具有在第二可调谐截止频率处的第二可调谐截止。

于步骤S130中，提取和分析所述语音信号的语音特征，根据所述语音特征在预先训练的声学模型中搜索，获取与所述语音特征匹配的语音识别结果。

在一个实施例中，声学模型是经由语音数据库训练而得，在训练阶段中，系统的每一个说话者说若干训练语料，系统根据这些语料，通过训练学习得到描述该说话者发音的模版模型或者概率模型，并组织成一个说话人模型库。目前为止效能较高的声学模型大致分为下列几种：

(1)隐藏式马可夫模型(Hidden Markov Model，HMM)：主要方式是把每位语者的声音依语言学的分类，定义一个一个单独的音素(phone)，每个音素再用一个HMM来描述；

(2)高斯混合模型(Gaussian Mixture Model，GMM)：为HMM的简化版，主要是把语者的声音特性分群，之后每一群声学特性用一个高斯分布来描述；

(3)类神经网路(Neural Networks，NN)：如RNN、RBF网路等；

(4)声学知识基础模型：如专家系统。

本实施例中例如是采用隐藏式马可夫模型(Hidden Markov Model，HMM)进行建模，具体建模的方法可以参考腾讯科技(深圳)有限公司的授权专利文献(专利申请号为：201310288097.6)的说明书中记载的传统的声学模型建模方法。声学模型的内容可以根据机器人服务领域进行训练建立，包括所述机器人服务业务相关词汇，可以根据机器人服务的场景具体增加或优化声学模型内容。

举例而言，声学模型例如是针对电力服务行业而训练建立，因此声学模型中可例如记录有“电费”、“电费查询”、“电费缴纳”、“电费欠费缴纳”、“电费预缴”对应的信息，因此根据语音特征搜索声学模型中并得到匹配的信息，则经由声学模型获取语音识别结果。

由于不同领域的服务机器人面临着不同领域的行业词汇，而现有技术中的声学模型中涵盖的专业词汇较少。如果选择网络存储数据的方案，即把数据存储到服务器，不存储在本地，使用的时候直接从网络获取，可以避免硬件存储内容丢失问题以及其他安全隐患。如果选择涵盖较多专业词汇的声学模型，则占据内存较大的声学模型需要占据较大的网络存储空间，例如声学模型存储在服务器时，在网速较慢的情况下，机器人在声学模型中搜索匹配的时候可能费时较长，会影响机器人语音交互的效果。因此针对机器人的服务行业，对声学模型进行训练优化，一方面优化的声学模型占据内存较小，另一方面便于机器人精准快速地识别用户说出的专业词汇。

所述声学模型的内容可以根据机器人服务的场景具体增加专业词汇信息或优化，以提高机器人个性化、专业化服务的能力。例如电力服务行业主要包括电费记录查询、电费缴纳等业务，可以在声学模型中增加“电费查询”、“用电记录”、“电费缴纳”等相关专业词汇对应的信息。

由于人们经常会在距离机器人比较远的位置对机器人说话，因此机器人声音信号获取单元获取的声音信号比较微弱，为了便于声音检测单元更准确的获取语音片段信息以及处理单元更好地提取语音信号中的语音特征，在所述机器人语音识别方法的技术方案中增加信号放大的步骤，以对获取的语音信号进行放大。

在本发明的一个实施例中，参考图3绘示的本发明实施例中另一种语音识别方法的流程示意图，还包括步骤S140，对获取的语音信号进行放大。在对获取的声音信号数据进行屏蔽处理之后，以及在对声音信号进行语音信号特征提取之前，对获取的语音信号片段进行放大，以便于更好地提取语音信号特征。例如有些人说话音量较低，在嘈杂的环境中不利于机器人进行语音识别，但是人声的频率基本上是固定的，在将获取的声音信号片段进行放大后，可以将声音信号的振幅相应地提高，便于进行语音信号特征提取，以更好地进行语音识别。

在本发明的一个实施例中，在获取语音识别结果后，重置语音识别的场景。另外，初始化时还可以加载需要的语言模型和进行信号端点检测时需要的信号处理参数配置。例如在获取语音识别结果后，重新执行所述语音信号检测的步骤，重新进行语音信号端点检测，即重复本发明实施例中的语音识别方法步骤，不断地识别用户的语音并获取语音识别结果，实现人机语音交互的功能。

图4绘示本发明实施例中一种语音识别装置的结构示意图，参考图4，详述如下：

本发明中一个实施例中的一种语音识别装置包括：

声音信号检测单元210，用于获取声音信号片段。所述声音信号检测单元对声音信号进行端点检测的步骤中包括,在确定有语音输入时记录语音输入的起始点,和在确定无语音输入时记录语音输入的终止点，以及获取所述语音输入的起始点和所述语音输入的终止点之间的声音信号数据。

屏蔽单元220，用于从获取的声音信号中屏蔽掉预设频段的声音信号获取特定频段的语音信号。在本实施例中，声音信号屏蔽单元例如是通过滤波器组或者梅尔倒频谱系数(Mel-Frequency Cipstal Coefficients，MFCC)，以经由高斯混合模型(GaussianMixture Model，GMM)或深度神经网络(Deep Neural Networks，DNN)来进行分析以及处理而识别语音信号频段数据，以获得特定频段的信号数据。在一个实施例中可以将获取的声音信号进行相应地屏蔽处理以得到普通人声集中的频段信号，例如是频率为300Hz-500Hz的人的语音信号频段。

处理单元230，用于提取所述语音信号语音特征，根据所述语音特征在预先训练的声学模型中搜索，获取与所述语音特征匹配的语音识别结果。

声学模型的内容源于机器人服务领域，包括所述机器人服务业务相关词汇，可以根据机器人服务的场景具体增加或优化所述声学模型内容。

举例而言，声学模型例如是针对电力服务行业而训练建立，声学模型中记录有“电费”、“电费查询”、“电费缴纳”、“电费欠费缴纳”、“电费预缴”等电力服务相关关键词汇对应的信息，因此根据语音特征搜索声学模型中并得到匹配的信息，即经由声学模型获取语音识别结果。

图5绘示本发明实施例中另一种语音识别装置的结构示意图，参考图5，所述语音识别装置还包括信号放大单元240，在一个实施例中，在所述屏蔽单元与所述处理单元之间串联信号放大单元，以对获取的语音信号进行放大，以避免用户声音低弱且位于嘈杂的环境中，机器人难以识别所述用户的语音信号特征。

在其中一个实施例中，屏蔽单元220包括串联的第一子滤波器和第二子滤波器，用于对所述声音信号进行带通滤波以获取所述特定频段的语音信号。第一子滤波器，具有在第一可调谐截止频率处的第一可调谐截止；第二子滤波器，具有在第二可调谐截止频率处的第二可调谐截止。

在其中一个实施例中，还包括重置语音识别场景的重置单元，所述机器人语音识别装置在获取语音识别结果后，所述重置单元重置语音识别的场景。在初始化时还可以加载需要的语言模型以及进行信号端点检测时需要的信号处理参数配置。例如在获取语音识别结果后，重置语音信号检测模块，重新进行语音信号端点检测，即重复执行本发明实施例中的语音识别方法步骤，实现人机语音交互的功能。

本实施例中机器人语音识别方法具有很好的语音特征识别度，能够在嘈杂的环境中精准的识别语音信号，并能根据声音信号特征准确的识别相关行业专业信息。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，所述处理模块中的处理单元可以是中央处理单元(Central Processing Unit，CPU)，或是其他可编程的一般用途或特殊用途的微处理器(microprocessor)、可编程控制器、数字信号处理器(Digital Signal Processor，DSP)、特殊应用集成电路(Application SpecificIntegrated Circuits，ASIC)、可编程逻辑装置(Programmable Logic Device，PLD)及其他类似处理电路或这些装置的组合。也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是存储器，磁盘或光盘等，所述存储器例如是内嵌式多媒体存储卡(Embedded Multi Media Card，eMMC)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、电子抹除式复写只读存储器(Electrically-ErasableProgrammable Read-Only Memory，EEPROM)、快闪存储器(Flash memory)或非易失性随机存取存储器(Non-Volatile Random Access Memory，NVRAM)等。

上述实施例中具有的技术效果包括：

1.能够在嘈杂的环境中准确识别语音信号数据；

2.能够准确识别行业专业词汇，并快速获得语音识别结果；

3.声学模型的内容可以根据机器人具体服务的场景优化，提高了机器人个性化、专业化服务的能力。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种机器人语音识别方法，其特征在于，包括：

检测并获取声音信号；

屏蔽处理所述声音信号，获取特定频段的语音信号；以及

2.根据权利要求1中所述的机器人语音识别方法，其特征在于，所述检测并获取声音信号的步骤包括确定语音输入的起始点和终止点，以及获取所述起始点和所述终止点之间的声音信号。

3.根据权利要求1中所述的机器人语音识别方法，其特征在于，所述屏蔽所述声音信号中预设频段的声音信号的步骤包括对所述声音信号进行带通滤波和/或频谱分析，以获取所述特定频段的语音信号。

4.根据权利要求1中所述的机器人语音识别方法，其特征在于，还包括对所述特定频段的语音信号进行放大的步骤。

5.根据权利要求3所述的机器人语音识别方法，其特征在于，所述对所述声音信号进行带通滤波和/或频谱分析的步骤包括将所述声音信号经由串联的第一子滤波器和第二子滤波器进行滤波处理。

6.一种机器人语音识别装置，其特征在于，包括：

屏蔽单元，用于从所述声音信号中屏蔽掉预设频段的声音信号，以获取特定频段的语音信号；以及

7.根据权利要求6中所述的机器人语音识别装置，其特征在于，所述检测并获取声音信号的步骤包括确定语音输入的起始点和终止点，以及获取所述起始点和所述终止点之间的声音信号。

8.根据权利要求6中所述的机器人语音识别装置，其特征在于，所述屏蔽单元对所述声音信号中预设频段的声音信号进行屏蔽的步骤包括对所述声音信号进行带通滤波和/或频谱分析，以获取所述特定频段的语音信号数据。

9.根据权利要求6中所述的机器人语音识别装置，其特征在于，还包括串联在所述屏蔽单元与所述处理单元之间的信号放大单元，所述信号放大单元用于对所述语音信号进行放大。

10.根据权利要求6所述的机器人语音识别装置，其特征在于，所述屏蔽单元包括串联的第一子滤波器和第二子滤波器，用于对所述声音信号进行带通滤波以获取所述特定频段的语音信号。