CN111081218A - 一种语音识别方法及语音控制系统 - Google Patents

一种语音识别方法及语音控制系统 Download PDF

Info

Publication number
CN111081218A
CN111081218A CN201911343629.5A CN201911343629A CN111081218A CN 111081218 A CN111081218 A CN 111081218A CN 201911343629 A CN201911343629 A CN 201911343629A CN 111081218 A CN111081218 A CN 111081218A
Authority
CN
China
Prior art keywords
voice
information
processing
text information
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911343629.5A
Other languages
English (en)
Inventor
邵勇
孙嘉俊
朴明哲
严康建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911343629.5A priority Critical patent/CN111081218A/zh
Publication of CN111081218A publication Critical patent/CN111081218A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种语音识别方法包括以下步骤:步骤1、获取语音字符串;步骤2、将所述语音字符串转化为一文本信息;步骤3、采用预设的文本信息处理逻辑对所述文本信息进行基础语义分析和专业词汇语义分析,提取出文本信息中的关键信息;步骤4、将所述关键信息进行消除歧义处理,得到识别结果。本发明还提供一种语音控制系统。

Description

一种语音识别方法及语音控制系统
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音识别方法及语音控制系统。
背景技术
随着语音识别技术的发展,语义分析正在日益改变人类的生产和生活方式,被广泛应用于诸如语音输入系统、语音控制系统和智能语音助手系统等领域,如开车时的语音输入文字、智能音箱、智能家居等,语音识别与物联网技术的快速发展正在改变着我们的生活方式,为我们的生活提供了便利。
语音识别技术的具体过程包括:
(1)采集和预处理步骤:未知语音经过话筒变换成电信号后加在识别系统的输入端,经过预处理过程对电信号进行降噪和滤波等处理,以初步提高信噪比;
(2)识别步骤:对经过预处理的电信号进行识别处理,根据用户的语音特定建立语音模型,根据语音模型对电信号进行分析,抽取电信号中包括的语音特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中需要根据语音识别的模型,将计算机中预存储的语音模板和输入的语音特征进行匹配,按照预定的匹配策略找出最优的匹配模板;
(3)后处理步骤:根据模板的映射表和定义获知语音特征对应的文本信息。
其中,识别步骤作为语音识别的重要步骤通常有以下几个指标作为衡量标准:
(1)词汇表范围:语音设备能够识别的单词或词组的范围;
(2)说话人限制:语音设备能够识别指定语音、语调和音色的语音信息;
(3)训练要求:语音设备是否经过大量语音信号的识别训练过程;
(4)识别率:语音设备能够平均正确识别的百分数,取决于前三个参数。
针对上述语音识别参数而言存在以下问题:
(1)将语音信息分解为词素单位,语义识别过程较慢且针对特殊行业、专业词汇识别率不高;
(2)语音信息量大,受用户发出语音指令的方式影响,会对识别过程产生影响甚至误判;
(3)单个词、字的语义受上下文影响,会对识别率产生较大影响;
(4)语音录入后再处理语音信息,降低了整体识别的效率;
(5)环境噪声和干扰对语音识别过程产生严重影响。
因此,如何设计语音识别方案提高识别过程的准确率和识别效率成为亟待解决的技术问题。
发明内容
基于上述问题,本发明提供一种语音识别方法及语音控制系统。
为实现上述目的,本发明采用如下的技术方案:
一种语音识别方法,包括以下步骤:
步骤1、获取语音字符串;
步骤2、将所述语音字符串转化为一文本信息;
步骤3、采用预设的文本信息处理逻辑对所述文本信息进行基础语义分析和专业词汇语义分析,提取出文本信息中的关键信息;
步骤4、将所述关键信息进行消除歧义处理,得到识别结果。
作为优选,所述基础语义分析进行初次处理为:顺序分析语音字符串,根据预设的基础词汇库分析逻辑顺序,按照预设优先级,逐层提取词汇,建立语义信息树。
作为优选,专业词汇语义分析处理为:在初次提取的剩余字符串中,按照预设的专业词汇库,再次进行词汇提取,并将两次结果进行整合,按照预设逻辑进行顺序归类、组合。
作为优选,对于同一词语,既有动词属性,又有名词属性的情况,或者对于同一名词,既为时间信息,又为命令信息;根据预设定的处理逻辑,综合优先级、临近语素进行分析处理,若识别出其他命令信息,再根据临近语素间的关系、以及命令信息的优先级,确定该词汇的信息属性。
一种语音控制系统,包括:语音输入单元,用于获取用户语音字符串,同时进行初步降噪、截断处理;语音识别单元,用于将语音字符串分析处理,提取出有效的文本信息;命令处理单元,用于将所述文本信息转化为功能指令;模块化功能单元,用于根据功能指令,执行相应的功能需求。
所述模块化功能单元包含:空气质量检测模块、有害气体检测模块、温度湿度模块、物联网控制模块。
附图说明
图1示出了根据本发明的一个语音识别方法的示意流程图;
图2示出了根据本发明的实施例的语音控制系统的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
如图1所示,本发明提供一种语音识别方法,包括以下步骤:
步骤1、获取语音字符串;
步骤2、将所述语音字符串转化为一文本信息;
步骤3、采用预设的文本信息处理逻辑对所述文本信息进行基础语义分析和、专业词汇语义分析,提取出文本信息中的关键信息;
步骤4、将所述关键信息进行消除歧义处理,得到识别结果。
在语音识别方法中,首先将经过预处理的语音字符串上传至云端,云端进行语音文本转换,返回一个文本信息;然后将文本信息进行分割,提取词并进行分类整合。通过基础语义分析以及专业词汇分析进行两次处理;经处理后,提取出文本信息中的关键信息。具体地,如待识别的语音“小锤,星期一第一节是什么课”,首先进行语料分割,再通过语义分析模板和定制化分析模板,识别出时间信息“星期一”、“第一节”,命令信息“什么课”,解析出语音信息为时间信息和命令信息,再根据预定义的命令规则,进行匹配、模糊化矫正处理,最后,信息和匹配结果共同构成语义分析结果。
在上述技术方法中,所述基础语义分析,根据预定的语法规则,对语音信息进行初步识别,实现对语音信息的初步划分,区别可识别的词和不可识别的词。
在上述技术方法中,所述专业词汇语义分析,预设符合用户需求的定制化分析逻辑和词库,并将经过基础语义分析处理过的文本信息进行再处理。所述专业词汇语义分析是基础分析链的分支,如文本信息“星期一,第一节,什么课”,经基础语义分析处理后,提取到“星期一”、“第一节”、“什么”三个信息,再经专业词汇语义分析处理后,识别出“课”,并将此信息作为“什么”的子节点,由此,“什么”与“课”构成了完整的命令信息。
在上述方法中,所述文本信息处理逻辑,以语法信息为基础,命令均以动名词的结构构成,动词的优先级大于名词的优先级,如非正常语序“第一节课,查询”,方法优先查找“查询”,再处理“第一节课”。
在上述方法中,对于同一词语既有动词属性,又有名词属性的情况,或者同一名词既可以构成时间信息,又可以为命令信息的,根据预设定的处理逻辑,综合优先级、临近语素信息,综合分析进行处理,如“查询第一节课的备忘”,课此时紧跟在时间信息(“第一节“)后,并且识别出了其他命令信息(”备忘“),根据临近语素间的关系,以及命令信息的优先级,确定”课“在此属于时间信息。
如图2所示,根据本发明一种语音控制系统,包括:语音输入单元,用于获取用户语音字符串,同时进行初步降噪、截断处理;语音识别单元,用于将语音字符串分析处理,提取出有效的文本信息;命令处理单元,用于将所述文本信息转化为功能指令;模块化功能单元,用于根据功能指令,执行相应的功能需求。
所述语音输入单元,可以实现提高语音录入的效率和准确率的优化,通过对人声的实时监测处理,确定了录入的始止时间,并将降噪、滤波等处理在语音录入时同步进行,提高了录入语音的效率。具体的如:语音信息“你好,小锤(紧接着模糊噪音或背景音乐)”,首先识别人声部分,去除噪音。接着进行滤波再次降噪等,把背景音乐滤除。最后得到要输入的语音“你好,小锤”。
所述模块化功能单元包含:空气质量检测模块、有害气体检测模块、温度湿度模块、物联网控制模块。
本发明的语音控制系统中,首先通过语音识别单元将经过预处理的语音字符串上传至云端,云端进行语音文本转换,返回一个文本信息;然后将文本信息进行分割,提取词并进行分类整合;通过基础语义分析以及专业词汇分析进行两次处理;经处理后,提取出文本信息中的关键信息。再通过命令处理单元将所述关键信息转换为命令信息,对硬件进行控制(如启动空气质量检测模块等)或系统对此命令做出其他反应(如跳转至语音助手等)。
本发明的语音控制系统,采用多线程的方法,由一个主进程和多个辅进程组成。主进程负责接受各辅进程发来的信息并作出反应,同时也能够及时对用户的输入行为作出反应、直接执行录入与预处理和上述分析语义与应答的方法的实现。辅线程分为系统辅线程与模块辅线程。辅线程用于处理那些需常驻于系统中并主动反应的操作。系统辅线程负责检测该语音助手基础功能中需要主动进行反应的检测操作。模块辅线程负责附加模块中需要主动反应的检测操作,如客制化模块提醒功能。模块辅线程是为了满足硬件模块联入该系统的软体需要,因联入模块的不同而改变其功能类型和传达给主进程的信息。辅进程在常驻系统中时如遇到需主动反应的情况,会将反应的信息传给主进程进行相应操作。
主进程在不断接收辅进程传来的信息的同时,也要对用户的输入作出反应。当有用户进行输入时,主进程将执行该语音助手的主要控制流,即调用语音输入单元、语义识别处理单元、命令处理单元、语音输出单元以及模块化功能单元的一串操作。首先由用户唤醒设备,设备响应,录入单元开始收音并预处理音频,处理后将把音频压缩并上传云端,由语义识别与命令处理单元进行处理并反馈,然后通过语音输出单元再把操作结果以音频方式反馈给用户。这一连串操作是该语音助手对话一次的主要控制流。
以上结合附图详细说明了本发明的技术方案,考虑到如何设计语音识别方案提高识别过程的准确率和识别效率的技术问题。因此,本发明一种语音识别方法和装置,通过根据语音字符串创建单词查找树,实现了快速和准确查找,由于识别效率高且速度快,故识别过程受到环境噪声影响极小。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种语音识别方法,其特征在于,包括以下步骤:
步骤1、获取语音字符串;
步骤2、将所述语音字符串转化为一文本信息;
步骤3、采用预设的文本信息处理逻辑对所述文本信息进行基础语义分析和专业词汇语义分析,提取出文本信息中的关键信息;
步骤4、将所述关键信息进行消除歧义处理,得到识别结果。
2.如权利要求1所述的语音识别方法,其特征在于,所述基础语义分析进行初次处理为:顺序分析语音字符串,根据预设的基础词汇库分析逻辑顺序,按照预设优先级,逐层提取词汇,建立语义信息树。
3.如权利要求2所述的语音识别方法,其特征在于,专业词汇语义分析处理为:在初次提取的剩余字符串中,按照预设的专业词汇库,再次进行词汇提取,并将两次结果进行整合,按照预设逻辑进行顺序归类、组合。
4.如权利要求3所述的语音识别方法,其特征在于,对于同一词语,既有动词属性,又有名词属性的情况,或者对于同一名词,既为时间信息,又为命令信息;根据预设定的处理逻辑,综合优先级、临近语素进行分析处理,若识别出其他命令信息,再根据临近语素间的关系、以及命令信息的优先级,确定该词汇的信息属性。
5.采用权利要求1至4任意一项语音识别方法实现的语音控制系统,包括:语音输入单元,用于获取用户语音字符串,同时进行初步降噪、截断处理;语音识别单元,用于操将语音字符串分析处理,提取出有效的文本信息;命令处理单元,用于将所述文本信息转化为功能指令;模块化功能单元,用于根据功能指令,执行相应的功能需求。
6.如权利要求5的语音控制系统所述模块化功能单元包含:空气质量检测模块、有害气体检测模块、温度湿度模块、物联网控制模块。
CN201911343629.5A 2019-12-24 2019-12-24 一种语音识别方法及语音控制系统 Withdrawn CN111081218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911343629.5A CN111081218A (zh) 2019-12-24 2019-12-24 一种语音识别方法及语音控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911343629.5A CN111081218A (zh) 2019-12-24 2019-12-24 一种语音识别方法及语音控制系统

Publications (1)

Publication Number Publication Date
CN111081218A true CN111081218A (zh) 2020-04-28

Family

ID=70317045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911343629.5A Withdrawn CN111081218A (zh) 2019-12-24 2019-12-24 一种语音识别方法及语音控制系统

Country Status (1)

Country Link
CN (1) CN111081218A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284494A (zh) * 2021-05-25 2021-08-20 平安普惠企业管理有限公司 语音助手识别方法、装置、设备及计算机可读存储介质
CN113569565A (zh) * 2020-04-29 2021-10-29 北京字节跳动网络技术有限公司 一种语义理解方法、装置、设备和存储介质
WO2022134025A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 一种离线语音识别方法和装置、电子设备和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104485106A (zh) * 2014-12-08 2015-04-01 畅捷通信息技术股份有限公司 语音识别方法、语音识别系统和语音识别设备
JP2017134162A (ja) * 2016-01-26 2017-08-03 富士通株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
CN107146622A (zh) * 2017-06-16 2017-09-08 合肥美的智能科技有限公司 冰箱、语音交互系统、方法、计算机设备、可读存储介质
CN109377992A (zh) * 2018-10-10 2019-02-22 四川长虹电器股份有限公司 基于无线通信的全空间语音交互物联网控制系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104485106A (zh) * 2014-12-08 2015-04-01 畅捷通信息技术股份有限公司 语音识别方法、语音识别系统和语音识别设备
JP2017134162A (ja) * 2016-01-26 2017-08-03 富士通株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
CN107146622A (zh) * 2017-06-16 2017-09-08 合肥美的智能科技有限公司 冰箱、语音交互系统、方法、计算机设备、可读存储介质
CN109377992A (zh) * 2018-10-10 2019-02-22 四川长虹电器股份有限公司 基于无线通信的全空间语音交互物联网控制系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569565A (zh) * 2020-04-29 2021-10-29 北京字节跳动网络技术有限公司 一种语义理解方法、装置、设备和存储介质
WO2021218564A1 (zh) * 2020-04-29 2021-11-04 北京字节跳动网络技术有限公司 一种语义理解方法、装置、设备和存储介质
CN113569565B (zh) * 2020-04-29 2023-04-11 抖音视界有限公司 一种语义理解方法、装置、设备和存储介质
US11776535B2 (en) 2020-04-29 2023-10-03 Beijing Bytedance Network Technology Co., Ltd. Semantic understanding method and apparatus, and device and storage medium
WO2022134025A1 (zh) * 2020-12-25 2022-06-30 京东方科技集团股份有限公司 一种离线语音识别方法和装置、电子设备和可读存储介质
CN113284494A (zh) * 2021-05-25 2021-08-20 平安普惠企业管理有限公司 语音助手识别方法、装置、设备及计算机可读存储介质
CN113284494B (zh) * 2021-05-25 2023-12-01 北京基智科技有限公司 语音助手识别方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US11503155B2 (en) Interactive voice-control method and apparatus, device and medium
CN109196495B (zh) 用于细粒度自然语言理解的系统和方法
CN105869634B (zh) 一种基于领域的带反馈语音识别后文本纠错方法及系统
US9911413B1 (en) Neural latent variable model for spoken language understanding
CN108305634B (zh) 解码方法、解码器及存储介质
CN103700370B (zh) 一种广播电视语音识别系统方法及系统
US10170107B1 (en) Extendable label recognition of linguistic input
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN111081218A (zh) 一种语音识别方法及语音控制系统
CN108074576A (zh) 审讯场景下的说话人角色分离方法及系统
CN107403619A (zh) 一种应用于自行车环境的语音控制方法及系统
CN112151015B (zh) 关键词检测方法、装置、电子设备以及存储介质
CN109243460A (zh) 一种自动生成基于地方方言的讯或询问笔录的方法
CN111210829A (zh) 语音识别方法、装置、系统、设备和计算机可读存储介质
CN110853628A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN104485106B (zh) 语音识别方法、语音识别系统和语音识别设备
CN111489743A (zh) 一种基于智能语音技术的运营管理分析系统
JP2002215187A (ja) 音声認識方法及びその装置
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN117391095A (zh) 一种自然语言解析方法、装置、电子设备及存储介质
US11211056B1 (en) Natural language understanding model generation
CN107123420A (zh) 一种语音识别系统及其交互方法
CN106682642A (zh) 多面向语言行为识别方法及系统
JP2000250593A (ja) 話者認識装置及び方法
CN113887239A (zh) 基于人工智能的语句分析方法、装置、终端设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200428