CN107123420A

CN107123420A - 一种语音识别系统及其交互方法

Info

Publication number: CN107123420A
Application number: CN201610986916.8A
Authority: CN
Inventors: 南军
Original assignee: Xiamen Genesistalent Health & Technology Co ltd
Current assignee: Fish Watching Intelligent Technology Suzhou Co ltd
Priority date: 2016-11-10
Filing date: 2016-11-10
Publication date: 2017-09-01

Abstract

本发明公开了一种语音识别系统及其交互方法，包括音源评分、语音识别和无线控制模块，通过核心处理实时接收来自系统外部语音声控对系统下达指令，然后通过运算匹配后给予对应指令的声音与用户进行互动，使用户能够在一种全新的体验模式下轻松愉快的进行人机交流。系统可以利用无线控制模块变换语音种类，丰富人机交互的使用场景。

Description

一种语音识别系统及其交互方法

技术领域

本发明涉及人机交互技术领域，尤其是指一种基于语音识别的方法及系统。

背景技术

人机交互技术(Human-Computer Interaction Techniques) 是指通过计算机输入、输出设备，以有效的方式实现人与计算机对话的技术。它包括机器通过输出或显示设备给人提供大量有关信息及提示请示等，人通过输入设备给机器输入有关信息，回答问题及提示请示等。而在传统的人机交互系统中，人被认为是操作员，只是对机器进行操作，而无真正的交互活动。

目前语音识别只能识别单一人声，无法识别、区分多人的声音，在环境稍微嘈杂的环境中，就无法识别人的声音，也无法响应，给人的感觉就是语言识别系统反应迟钝，对于人机交互产品来说，就是无法真正为人服务，使得语音识别不能很好推广到市场上使用。

本发明技术系统是在识别系统中，采取了一种比对评分的算法，比如按照满分100分来评估。当采集的声音在50分以上时，视为有效声音，可以在语音库中搜索、比对相关字段，并按照字段对应的反馈指令，进行相应的程序执行。在评分为零时，为环境噪音，此时，对于待机状态的语音互动系统或者类似于语音识别，在一定时间内，从语音库中，调取预设好的声音片段播出。当评分在0-50分之间时，表示有微弱，嘈杂，或者多人的环境，无法识别其中的主要声音源，因而不能执行在语言库搜索的指令，此时，可以从特定的语音库中，调取预设好的声音片段播出。该分数就决定了系统语言识别的识别率，可以根据使用需求进行调整。这样，就可以很好的解决语音互动的问题，可以给使用者有很好的体验感。

目前语音识别和互动系统的应答声音比较单一，都是合成的，给人以生硬的感觉，本技术很好的考虑到这个问题，给系统中提前预置多种不同人的声音，比如儿童男声、女声，成年男声、女声等不同类型的声音，同时，可以不断给系统推送补充新的语音库，丰富人们的需求。同时，在系统中解决这种声音转换的技术，采用RFID触控技术，可以根据需求转换成不同的声音，使用方便。

发明内容

本发明解决的技术问题在于克服上述技术中存在不足，提供了一种基于语音识别的交互方法。

为解决上述技术问题，本发明采用了以下技术措施：

一种基于语音识别的交互方法，监控外部对象声控触发，并对采集语音与系统内部预存的语音库进行比对评分，当分数大于一定分数则视为有效声音，采集语音并将接收到的语音转化成相应处理指令后传送去进行核心处理的，当对采集语音进行评分后的分数低于一定分数时，则不进行语音转换，继而转为执行其他指令后传送去进行核心处理。接受外部RFID触发，将触发转化为相应处理指令后传送进行核心处理的步骤；触发后，根据内部指令控制执行模块，进行语音系统的转换的步骤。系统内部预存的语音库通过不断增加录制的声音源进行升级，以提高系统的识别率。所述的基于语音识别的交互方法，通过对比对分数的数值大小的调整，决定着系统语音的识别率。

本发明还可以通过以下技术措施进一步完善：

采用RFID触发方式，包括RFID触发和/ 或OID触发和/ 或红外感应器件触发。通过RFID触发转换的相应处理指令处理后的相应结果进行控制互动执行模块执行声音系统的转换。控制语音识别进行行为反应的指令包括从语音库中提取相应的语音的步骤。其中，

声控识别模块，用于监控外部对象声控触发，采集语音并将接收到的语音转化成相应处理指令后传送去进行核心处理；

触控识别模块，包括RFID和/ 或OID和/ 或红外感应器件，用于监控外部对象RFID触发，将触发转化为相应处理指令后传送进行核心处理；

核心处理模块，用于实时接收声控识别模块及触控识别模块送来的外部对象触控触发及声控触发，并根据指令控制语音识别进行行为反应从而达到与外部对象实时交互；

互动执行模块，用于接收核心处理模块的控制而后对外部对象进行实时的行为反应。

作为进一步改进，采用了声控识别模块，包括，

声学模型库，用于存放预设声学模型；

字典/ 词典库，用于存放预设的日常用语中的字、词信息；

识别语法信息库，用于存放预设的语言语法的信息；

识别任务的语法信息库，用于存放不同的识别任务，对应每种识别任务设置有对应的语法信息库；

语音检测单元，用于将采集的语音转换成标准格式而后通过语音检测算法，检测到语音的起始点和中止点；

特征提取单元，用于从语音中提取最反应其本质属性的信息；

识别搜索单元，用于根据语音的特征矢量流与预设的声学模型库、字典/ 词典库和识别语法信息库中内容进行匹配，得到最适合该语音的特征的词序列；

语义分析单元，用于基于预设的识别任务的语法信息，通过对搜索得到的词序列进行语法、语义分析，得到识别结果的语义信息；

核心处理模块包括，指令数据表，用于存储利用互动信息使互动期间得以进行的过程数据；

动作模式数据表，用于预存互动期间所产生行为反应的动作模式；

发声装置，用于根据核心处理模块控制对外部对象提供声音结果的交互展示；

语音识别动作单元，用于根据核心处理模块控制信号的交互展示。

由于采用了以上技术方案，本发明具有以下有益技术效果：

本发明采用声音比对评分技术法，可以预先处理不确定的声音指令，减少后续语义识别的误差率，提高反应速度，而且该语音库可以通过不断增加录制的声音源的方式进行升级，以提高系统的识别率，因而可以很好的解决语音互动的问题，可以给使用者有很好的体验感。

另外，本技术很好的考虑到语音对话声音单调这个问题，给系统中提前预置多种不同人的声音，比如儿童男声、女声，成年男声、女声等不同类型的声音，同时，可以不断给系统推送补充新的语音库，丰富人们的需求。同时，在系统中解决这种声音转换的技术，采用RFID触控技术，可以根据需求转换成不同的声音，使用方便。

附图说明

下面结合附图详述本发明的具体结构。

图1 为本发明的系统架构示意图。

图2 为本发明的关键词识别系统结构图。

图3 为本发明的语音识别系统结构图。

图4语音识别系统示意图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

按照附图1所示的，由MIC拾取声音的信号，内部语音识别模块首先与系统内部预存的语音库进行比对评分，当评分低于一定分数例如50分时，视为非有效声音信号，转为执行内部预录的语音处理。当评分大于50分时，视为有效声音信号，转为执行语义识别处理程序，并按照默认的人声回应。本发明的技术具有模糊场景处理能力，本语音识别就是试图创建一种能感知、识别和理解人及周围环境的场景，并能针对不同场景做出智能、灵敏、友好反应的语音识别系统。本发明涉及一种基于模糊处理的交互式系统使得外部对象通过语音声控即可操控，让语音识别用户发送的指令，并转化成相应的处理指令传递给核心处理模块，通过系统预置的声音等输出，达到高效人机互动的目的。请参阅图1，具体的系统包括：

按照附图1所示的，接受外部RFID触发，将触发转化为相应处理指令后传送进行核心处理的步骤；触发后，根据内部指令控制执行模块，进行语音系统的转换的步骤。所述触控识别模块包括RFID和/ 或OID和/ 或红外感应器件。

按照附图2所示的，语音识别系统的重要核心是关键词处理与识别，其中包括语音语料库收集，语音信号预处理，语音特征参数提取，语音特征参数分析，语音类别分类识别。语音信号的预处理是语音识别信号处理的第一步。这一步是后期识别效果好坏的关键，其预处理的所有步骤中主要包括语音信号的端点检测，语音信号的预加重，语音信号的加窗和分帧处理。所述端点检测是指在录制的语音信号中，原始的语音信号有一些语音段不含有信息，这就需要剔除这些不含有有用价值的信息，这些信号并非连续，一部分语音信息基本为零，含有信息的语音基本是分段的，为了能得到更多的有用信息，需要剔除这些冗余信息，这样在语音识别系统中，既减少计算量又能提高语音识别的正确率。由此可以看出端点检测在语音识别中是很重要的处理环节。端点检测是利用信号的本身特征来去除噪声。常用的端点检测方法有短时平均能量法，短时平均过零率法，还可以两种方法联合使用，如将短时平均过零率和短时平均能量两种方法相互联合的两阈值端点检测。第一步计算短时平均过零率和短时平均能量的两个阈值D1和D2，再通过短时波形的值和噪声的平均能量确定短时平均能量的大阈值D2和小阈值D1来判断语音信号的起始点，当语音信号的数值上升到大于大阈值D2时，这个时刻就是该段中包含有价值的语音信号，而小阈值D1数值相对比较小，则可以根据大阈值D2和小阈值D1大概确定语音所在的范围。

所述预加重是指，根据人的发声原理，在人的语音信号中包含的的高频部分在口鼻辐射和声门激励的现实影响下，可导致其幅度值会出现每频程衰落6dB，这样将影响语音信号的中高频部分的分析预处理，从而会使后续识别率降低。只需要一个高通滤波器就可以消除口鼻辐射和声门激励的影响，从而提高信号高频部分的数值增加其分辨率来提高识别率。这个预加重一般是用一阶的高通数字滤波器。针对语音信号进行分析处理的方法大都是针对平稳过程的信号，尽管语音信号中会有随机噪声，但还是具有短时平稳特性。所以，可以通过对语音信号进行分帧和加窗来分成一段一段的短时信号，每一个短时信号被称为一帧，遵循短时信号的原理，一般取10-30ms为一帧长进行处理，而帧移约为0到15ms。分帧一般采用交叠分帧，是为了保证相邻两帧之间的平滑过渡。帧移就是第i帧与第i+1帧的交叠部分，通常帧长和帧移的比值取为0到0.5之间。使分帧之后的短时语音信号平滑过渡，减小语音帧的截断效应，这就需要加窗，这样不至于在边界处值突降为零，以便减小对短时参数的分析造成的不好影响。

对实施办法的进一步补充，对语音识别做进一步处理，如附图3所示，采用如下步骤：

1）建立训练语音库：建立通过麦克风录音的训练语音库。采样率为8kHz，每样点16bit量化；

2）特征提取：将得到的数字信号用1− 0.96z −1进行预加重，分帧（帧长160，帧移80）和窗化（采用哈明窗），提取的特征参数包括短时能量、过零率、短时频带方差、16 维短时谱临界带特征矢量和12 维Mel 倒谱系数。其中，能量、过零率和频带方差用来进行特征提取，短时谱临界带特征矢量和Mel 倒谱系数用作建模时的特征矢量；

3）建模：将每个词汇重复朗读M 遍，每一遍录音提取上述28 维特征矢量，则每一遍录音就是在28 维特征空间中的一个点，因此重复朗读M 遍就是在此28 维空间中的M 个点，再根据这M 个点的坐标构造一个28 维的超椭球（或超球链）；

对于待识别语音同样要进行采样、量化并进行特征提取，这几步与训练部分类似。提取特征后，每一个待识别语音即为前述28 维特征空间中的一个点，识别的任务，就是判断这待识别的点属于样本空间中的哪一个超椭球（或椭球链），如果某个点同时属于两个（或更多）超椭球，则根据模糊模式识别来判断该点到底属于哪个超椭球。

对实施办法的进一步补充，对语音识别做进一步处理，如附图4所示，对采集语音与系统内部预存的语音库进行比对评分，当分数大于一定分数则视为有效声音，采集语音并将接收到的语音转化成相应处理指令后传送去进行核心处理，采用声控识别模块进行处理，用于监控外部对象声控触发，即外部用户是否通过语音方式与本系统之间发生的交互，若声控被判断有效，则模块采集语音并将接收到的语音转化成相应处理指令后传送去进行核心处理。声控识别模块功能实现，利用了智能传感器、语音识别技术，结合特定人及环境识别和关键词捕捉技术，当系统外部用户发送语音声控指令时，经由上述器件判断后回馈相应信息；具体说的说，为了完成语音的采集和转化，声控识别模块进一步包括。

语音检测单元，用于将采集的语音转换成标准格式而后通过语音检测算法。

特征提取单元，用于从语音中提取信号的特征矢量流，在对其进行数字信号处理技术，从而从语音信号中提取最反应其本质属性的信息。

识别搜索单元，用于根据语音的特征矢量流与预设的声学模型库、字典/ 词典库和识别语法信息库中内容进行匹配，得到最适合该语音的特征的词序列。这个模块是声控识别的核心，下面对涉及的几个库进行具体说明：

语音模型库，用于存放预设声学模型；该库是最核心的引擎资源文件，它包含了对于语音信号频谱和时间序列特征的精确描述，该声学模型库通过对大量说话人尤其在不同场景的语音数据库进行比对得到的。

资源库，用于存放预设的日常用语中的语音信息；该数据表是包含了数个场景的语音信息。

识别语法信息库，用于存放预设的语言语法的信息；进一步的说，识别语法包含了对于识别任务的描述，简单说，就是其中包含各种符合说话语法和任务场景的句子( 或者词序列) 信息。由于全脑全脑榜样幼教系统用户的特殊性，我们包含的各种说话语法和任务场景的句子都是基于日常对话的句子。

识别任务的语法信息库，用于存放不同的识别任务，对应每种识别任务设置有对应的语法信息库；具体的说，该库影响后续搜索算法，就是在未知句子( 或者词序列) 候选空间中，搜索得到具有最佳匹配结果的候选句子。

语义分析单元，用于基于预设的识别任务的语法信息，通过对搜索得到的词序列进行语法、语义分析，得到识别结果的语义信息。

如附图1所示的所述RFID触发，包括RFID触发和/ 或OID触发和/ 或红外感应器件触发。用于监控外部对象触发，即外部用户是否通过以上方式与本系统之间发生了交互，若被触发，则该模块通过RFID触发转换的相应处理指令，处理相应结果进行控制互动执行模块执行声音系统的转换。控制语音识别进行行为反应的指令包括从语音库中提取相应的语音的步骤。

Claims

1.一种基于语音识别的交互方法，其特征在于：

监控外部对象声控触发，并对采集语音与系统内部预存的语音库进行比对评分，当分数大于一定分数则视为有效声音，采集语音并将接收到的语音转化成相应处理指令后传送去进行核心处理的，当对采集语音进行评分后的分数低于一定分数时，则不进行语音识别转换，继而转为执行其他指令后传送去进行核心处理；接受外部RFID触发，将触发转化为相应处理指令后传送进行核心处理的步骤；触发后，根据内部指令控制执行模块，进行语音系统的转换的步骤。

2.如权利要求1 所述的基于语音识别的交互方法，其特征在于：监控外部对象声控触发，并对采集语音与系统内部预存的语音库进行比对评分，当分数大于一定分数则视为有效声音，该语音库通过不断增加录制的声音源进行升级，以提高系统的识别率；所述的基于语音识别的交互方法，通过对比对分数的数值大小的调整，决定着系统语音的识别率。

3.如权利要求1 所述的基于语音识别的方法，其特征在于：所述RFID触发包括RFID触发和/ 或OID触发和/ 或红外感应器件触发。

4.如权利要求1 所述的基于语音识别的交互方法，其特征在于：所述触发反应包括，通过RFID触发转换的相应处理指令处理后的相应结果进行控制互动执行模块执行声音系统的转换。

5.如权利要求1 所述的基于语音识别的交互方法，其特征在于：控制语音识别进行行为反应的指令包括从语音库中提取相应的语音的步骤。

6.一种基于语音识别的交互式互动系统，其特征在于：它包括，

触控识别模块，用于监控外部对象RFID触发，将触发转化为相应处理指令后传送进行核心处理；

7.如权利要求6 所述的基于语音识别的交互式系统，其特征在于：所述触控识别模块包括RFID和/ 或OID和/ 或红外感应器件。

8.如权利要求6 所述的基于语音识别的交互式系统，其特征在于：所述声控识别模块包括，声学模型库，用于存放预设声学模型；

字典/ 词典库，用于存放预设的日常用语中的字、词信息；

识别语法信息库，用于存放预设的语言语法的信息；

9.如权利要求6 所述的基于语音识别的系统，其特征在于：所述核心处理模块包括，指令数据表，用于存储利用互动信息使互动期间得以进行的过程数据；

动作模式数据表，用于预存互动期间所产生行为反应的动作模式。

10.如权利要求6 所述的基于语音识别的系统，其特征在于：所述发声装置，用于根据核心处理模块控制对外部对象提供声音结果的交互展示；