CN106448657A - 一种用于餐厅机器人服务员的连续语音识别系统 - Google Patents

一种用于餐厅机器人服务员的连续语音识别系统 Download PDF

Info

Publication number
CN106448657A
CN106448657A CN201610956144.3A CN201610956144A CN106448657A CN 106448657 A CN106448657 A CN 106448657A CN 201610956144 A CN201610956144 A CN 201610956144A CN 106448657 A CN106448657 A CN 106448657A
Authority
CN
China
Prior art keywords
module
voice signal
voice
knowledge base
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610956144.3A
Other languages
English (en)
Inventor
高陈陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Cloud Intelligent Technology Co Ltd
Original Assignee
Anhui Cloud Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Cloud Intelligent Technology Co Ltd filed Critical Anhui Cloud Intelligent Technology Co Ltd
Priority to CN201610956144.3A priority Critical patent/CN106448657A/zh
Publication of CN106448657A publication Critical patent/CN106448657A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于餐厅机器人服务员的连续语音识别系统,包括依次连接的语音输入模块、预处理模块、特征提取模块、模式匹配模块、后置处理模块和识别结果输出模块,模式匹配模块的输入端还连接有模型库和语言知识库,模型库的输入端与特征提取模块的输出端相连,语言知识库的输出端连接至后置处理模块。本发明通过预处理模块对语音信号进行预滤波、数字化、预加重、语音信号的加窗分帧、噪声抑制和端点检测等一系列的处理,有利于提高后续对语音信号识别的识别效率;通过配制语言知识库和模型库,有利于提高语音识别的准确度;通过后置处理模块对识别结果进一步确认,有利于减少出错率,确保识别结果的可靠性。

Description

一种用于餐厅机器人服务员的连续语音识别系统
技术领域
本发明属于语音识别技术领域,特别是涉及一种用于餐厅机器人服务员的连续语音识别系统。
背景技术
谈到机器人,公众首先想到的往往是类似变形金刚那样的人形机器,但实际上,绝大多数机器人都不是人形的。凡是工作流程可以被概括为"感知-决策-执行"三个步骤的机器设备,都可以被归为机器人的范畴。工业机器人在制造业的应用范围越来越广泛,其标准化、模块化、网络化和智能化程度越来越高,功能也越发强大,正朝着成套技术和装备的方向发展。
激烈竞争的餐饮市场中,机器人服务员和餐厅的有机结合为餐厅开创了一个新的方向,机器人餐厅将越来越受人们的欢迎。
发明内容
本发明的目的在于提供一种用于餐厅机器人服务员的连续语音识别系统,通过该系统的应用,解决了现有的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种用于餐厅机器人服务员的连续语音识别系统,包括依次连接的语音输入模块、预处理模块、特征提取模块、模式匹配模块、后置处理模块和识别结果输出模块,所述模式匹配模块的输入端还连接有模型库和语言知识库,所述模型库的输入端与特征提取模块的输出端相连,所述语言知识库的输出端连接至后置处理模块。
进一步地,所述语音输入模块用于接收自然语言的语音信号并将其传送至预处理模块;所述预处理模块用于对接收到的语音信号进行预处理并将处理后的语音信号传至特征提取模块,其中预处理包括语音信号的预滤波、语音信号的数字化、语音信号的预加重、语音信号的加窗分帧、语音信号的噪声抑制和语音信号的端点检测;所述特征提取模块用于对语音信号进行语音特征参数的提取,继而将提取到的语音特征参数分别传至模式匹配模块和模型库,其中语音特征包括帧特征矢量;所述模型库用于对收到的语音特征参数进行模型训练,模型训练用于使机器人从大量的真实语音中获取模型参数,继而形成语音参考模式库;所述模式匹配模块用于将待识别的语音特征与模型库中的模型参数进行匹配,继而根据匹配距离输出语音识别结果,并从语言知识库中调取相应的语言信息作为识别结果传至后置处理模块;所述后置处理模块将收到的语音信息与语言知识库进行再次对比确认,并将确认的结果输出至识别结果输出模块。
进一步地,所述语音输入模块为话筒。
本发明具有以下有益效果:
本发明通过预处理模块对语音信号进行预滤波、数字化、预加重、语音信号的加窗分帧、噪声抑制和端点检测等一系列的处理,有利于提高后续对语音信号识别的识别效率;通过配制语言知识库和模型库,有利于提高语音识别的准确度;通过后置处理模块对识别结果进一步确认,有利于减少出错率,确保识别结果的可靠性。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种用于餐厅机器人服务员的连续语音识别系统的组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种用于餐厅机器人服务员的连续语音识别系统,包括依次连接的语音输入模块、预处理模块、特征提取模块、模式匹配模块、后置处理模块和识别结果输出模块,模式匹配模块的输入端还连接有模型库和语言知识库,模型库的输入端与特征提取模块的输出端相连,语言知识库的输出端连接至后置处理模块。
其中,语音输入模块用于接收自然语言的语音信号并将其传送至预处理模块;预处理模块用于对接收到的语音信号进行预处理并将处理后的语音信号传至特征提取模块,其中预处理包括语音信号的预滤波、语音信号的数字化、语音信号的预加重、语音信号的加窗分帧、语音信号的噪声抑制和语音信号的端点检测;特征提取模块用于对语音信号进行语音特征参数的提取,继而将提取到的语音特征参数分别传至模式匹配模块和模型库,其中语音特征包括帧特征矢量;模型库用于对收到的语音特征参数进行模型训练,模型训练用于使机器人从大量的真实语音中获取模型参数,继而形成语音参考模式库;模式匹配模块用于将待识别的语音特征与模型库中的模型参数进行匹配,继而根据匹配距离输出语音识别结果,并从语言知识库中调取相应的语言信息作为识别结果传至后置处理模块;后置处理模块将收到的语音信息与语言知识库进行再次对比确认,并将确认的结果输出至识别结果输出模块。
其中,语音输入模块为话筒。
其中,语音信号的预滤波是采用带通滤波器,预滤波用于抑制输入信号各频域分量中频率超出采样频率一半的所有分量以及抑制50Hz或60Hz的电源工频信号。
其中,语音信号的数字化包括语音信号的采样和语音信号的量化,即首先对语音信号进行采样,然后再对语音信号进行量化,继而得到离散时域的语音信号。
其中,语音信号的预加重是用于提升语音信号中的高频信号的能量,以弥补声音的在唇部辐射时产生的高频部分能量的损失。
其中,语音信号的加窗分帧是将语音信号经过加窗分帧后被处理为短时语音帧,继而把每个短时语音帧看作平稳的随机信号,然后逐帧提取语音信号的特征矢量,最后得到由每一帧参数组成的语音特征参数序列。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
最后需要说明的是,以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (3)

1.一种用于餐厅机器人服务员的连续语音识别系统,其特征在于:包括依次连接的语音输入模块、预处理模块、特征提取模块、模式匹配模块、后置处理模块和识别结果输出模块,所述模式匹配模块的输入端还连接有模型库和语言知识库,所述模型库的输入端与特征提取模块的输出端相连,所述语言知识库的输出端连接至后置处理模块。
2.根据权利要求1所述的一种用于餐厅机器人服务员的连续语音识别系统,其特征在于:所述语音输入模块用于接收自然语言的语音信号并将其传送至预处理模块;
所述预处理模块用于对接收到的语音信号进行预处理并将处理后的语音信号传至特征提取模块,其中预处理包括语音信号的预滤波、语音信号的数字化、语音信号的预加重、语音信号的加窗分帧、语音信号的噪声抑制和语音信号的端点检测;
所述特征提取模块用于对语音信号进行语音特征参数的提取,继而将提取到的语音特征参数分别传至模式匹配模块和模型库,其中语音特征包括帧特征矢量;
所述模型库用于对收到的语音特征参数进行模型训练,模型训练用于使机器人从大量的真实语音中获取模型参数,继而形成语音参考模式库;
所述模式匹配模块用于将待识别的语音特征与模型库中的模型参数进行匹配,继而根据匹配距离输出语音识别结果,并从语言知识库中调取相应的语言信息作为识别结果传至后置处理模块;
所述后置处理模块将收到的语音信息与语言知识库进行再次对比确认,并将确认的结果输出至识别结果输出模块。
3.根据权利要求1所述的一种用于餐厅机器人服务员的连续语音识别系统,其特征在于:所述语音输入模块为话筒。
CN201610956144.3A 2016-10-26 2016-10-26 一种用于餐厅机器人服务员的连续语音识别系统 Pending CN106448657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610956144.3A CN106448657A (zh) 2016-10-26 2016-10-26 一种用于餐厅机器人服务员的连续语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610956144.3A CN106448657A (zh) 2016-10-26 2016-10-26 一种用于餐厅机器人服务员的连续语音识别系统

Publications (1)

Publication Number Publication Date
CN106448657A true CN106448657A (zh) 2017-02-22

Family

ID=58179448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610956144.3A Pending CN106448657A (zh) 2016-10-26 2016-10-26 一种用于餐厅机器人服务员的连续语音识别系统

Country Status (1)

Country Link
CN (1) CN106448657A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683676A (zh) * 2017-03-13 2017-05-17 安徽朗巴智能科技有限公司 一种机器人控制用语音识别系统
CN107742519A (zh) * 2017-10-31 2018-02-27 珠海市美瑞华医用科技有限公司 一种智能控制输液设备的语音输入系统
CN108601180A (zh) * 2018-06-04 2018-09-28 长江大学 基于声纹识别技术的电灯声控开关、控制系统及方法
CN110111774A (zh) * 2019-05-13 2019-08-09 广西电网有限责任公司南宁供电局 机器人语音识别方法和装置
CN111179925A (zh) * 2019-12-04 2020-05-19 北京永洪商智科技有限公司 一种基于语音识别的报告版面设计系统及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543073A (zh) * 2010-12-10 2012-07-04 上海上大海润信息系统有限公司 一种沪语语音识别信息处理方法
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN103440865A (zh) * 2013-08-06 2013-12-11 普强信息技术(北京)有限公司 语音识别的后处理方法
CN104050965A (zh) * 2013-09-02 2014-09-17 广东外语外贸大学 具有情感识别功能的英语语音发音质量评价系统及方法
KR20150107520A (ko) * 2014-03-14 2015-09-23 주식회사 디오텍 음성인식 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543073A (zh) * 2010-12-10 2012-07-04 上海上大海润信息系统有限公司 一种沪语语音识别信息处理方法
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别系统及其识别方法
CN103440865A (zh) * 2013-08-06 2013-12-11 普强信息技术(北京)有限公司 语音识别的后处理方法
CN104050965A (zh) * 2013-09-02 2014-09-17 广东外语外贸大学 具有情感识别功能的英语语音发音质量评价系统及方法
KR20150107520A (ko) * 2014-03-14 2015-09-23 주식회사 디오텍 음성인식 방법 및 장치

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683676A (zh) * 2017-03-13 2017-05-17 安徽朗巴智能科技有限公司 一种机器人控制用语音识别系统
CN107742519A (zh) * 2017-10-31 2018-02-27 珠海市美瑞华医用科技有限公司 一种智能控制输液设备的语音输入系统
CN108601180A (zh) * 2018-06-04 2018-09-28 长江大学 基于声纹识别技术的电灯声控开关、控制系统及方法
CN110111774A (zh) * 2019-05-13 2019-08-09 广西电网有限责任公司南宁供电局 机器人语音识别方法和装置
CN111179925A (zh) * 2019-12-04 2020-05-19 北京永洪商智科技有限公司 一种基于语音识别的报告版面设计系统及其方法

Similar Documents

Publication Publication Date Title
CN106448657A (zh) 一种用于餐厅机器人服务员的连续语音识别系统
CN106448654A (zh) 一种机器人语音识别系统及其工作方法
CN108847238B (zh) 一种服务机器人语音识别方法
CN104570835B (zh) 飞机驾驶舱语音指令控制系统及其操作方法
CN105261356A (zh) 一种语音识别系统及方法
CN110120227A (zh) 一种深度堆叠残差网络的语音分离方法
CN105448303A (zh) 语音信号的处理方法和装置
CN105118501A (zh) 语音识别的方法及系统
CN105895100A (zh) 一种厨房语音控制装置、系统和方法
CN107507623A (zh) 基于麦克风阵列语音交互的自助服务终端
CN107705791A (zh) 基于声纹识别的来电身份确认方法、装置和声纹识别系统
CN108172220B (zh) 一种新型语音除噪方法
CN109243466A (zh) 一种声纹鉴权训练方法及系统
CN106328151A (zh) 一种环噪消除系统及其应用方法
CN110176250A (zh) 一种基于局部学习的鲁棒声学场景识别方法
CN106683676A (zh) 一种机器人控制用语音识别系统
CN110473563A (zh) 基于时频特征的呼吸声检测方法、系统、设备及介质
Al-Kaltakchi et al. Study of statistical robust closed set speaker identification with feature and score-based fusion
CN106448676A (zh) 一种基于自然语言处理的机器人语音识别系统
CN205072656U (zh) 一种智能语音蒸箱
CN106782592A (zh) 一种用于消除网络声音传输的回音和啸叫的系统和方法
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
CN109036387A (zh) 视频语音识别方法及系统
CN108091327A (zh) 一种智能语音设备控制方法
CN205181130U (zh) 一种智能语音烤箱

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222

RJ01 Rejection of invention patent application after publication