CN112562652B - 一种基于Untiy引擎的语音处理方法及系统 - Google Patents
一种基于Untiy引擎的语音处理方法及系统 Download PDFInfo
- Publication number
- CN112562652B CN112562652B CN202011393005.7A CN202011393005A CN112562652B CN 112562652 B CN112562652 B CN 112562652B CN 202011393005 A CN202011393005 A CN 202011393005A CN 112562652 B CN112562652 B CN 112562652B
- Authority
- CN
- China
- Prior art keywords
- voice
- user
- data
- voice data
- binding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 17
- 238000003909 pattern recognition Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 238000013075 data extraction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 208000002173 dizziness Diseases 0.000 abstract description 13
- 230000009471 action Effects 0.000 abstract description 12
- 238000011161 development Methods 0.000 abstract description 12
- 238000007654 immersion Methods 0.000 abstract description 12
- 206010040007 Sense of oppression Diseases 0.000 abstract 1
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 230000006835 compression Effects 0.000 description 12
- 238000007906 compression Methods 0.000 description 12
- 230000018109 developmental process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于Untiy引擎的语音处理方法及系统,该方法包括以下步骤:收集用户语音数据;依据预设的文字对比阈值规则对收集到的用户语音数据进行处理;若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果。本发明提供的基于Untiy引擎的语音处理方法及系统,通过语音方式输入,操作快捷方便,减少对人造成的眩晕、压迫等不适感;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
Description
技术领域
本发明涉及虚拟现实技术领域,尤其公开了一种基于Untiy引擎的语音处理方法及系统。
背景技术
目前在教学、培训等可交互的VR体验中,多采用电脑+头戴式显示器+手柄的方式。在采用此方式时,用户的视觉被头戴式显示器所封闭,因此用户没有办法通过电脑的键盘进行文字录入操作。目前的解决方式是,通过手柄操作虚拟现实环境里的虚拟键盘完成文字输入,此方式文字输入效率低,变相的增加了体验的时间,从而加重了头戴式显示器对人造成的眩晕、压迫等不适感。目前,语音识别技术已经深入我们生活的方方面面,比如我们手机上使用的语音输入法、语音助手、语音检索等等应用;在智能家居场景中也有大量通过语音识别实现控制功能的智能电视、空调、照明系统等;智能可穿戴设备、智能车载设备也越来越多的出现一些语音交互的功能,这里面的核心技术就是语音识别;而一些传统的行业应用也正在被语音识别技术颠覆,比如医院里使用语音进行电子病历录入,法庭的庭审现场通过语音识别分担书记员的工作,此外还有影视字幕制作、呼叫中心录音质检、听录速记等等行业需求都可以用语音识别技术来实现。
专利文献(申请公布号CN107436749A)中公开了一种基于三维虚拟现实场景的文字输入方法及系统,文字输入系统包括电脑终端、手持控制单元、语音捕捉单元、语音捕捉控制单元、语音转换单元和文字显示与编辑单元,选中虚拟现实环境下的文字输入位置;控制语音捕获的开始与结束时间;捕获用户的语音信息,并传输到电脑终端;将语音信息实时转换成文字信息;在选中的文字输入位置中显示转换后的文字信息,并对识别错误的文字进行删除和修正。本发明根据需要文字输入的位置,直接将用户的语音信息转换成文字信息。但是本专利文献中并没有公开如何从语音发问,而得出文字解答结果。
因此,在VR教学和培训领域中,如果快速而准确地回复相关学员的提问,是一个亟待解决的技术问题。
发明内容
本发明提供了一种基于Untiy引擎的语音处理方法及系统,旨在VR教学和培训领域中,快速而准确地回复相关学员的提问。
本发明的一方面涉及一种基于Untiy引擎的语音处理方法,包括以下步骤:
收集用户语音数据;
依据预设的文字对比阈值规则对收集到的用户语音数据进行处理,文字对比阈值规则中预设有与语音输入数据相匹配的文字策略信息;
若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果,匹配度包括全局匹配和局部匹配。
进一步地,收集用户语音数据的步骤包括:
运用语音处理算法划分语音识别时间,在划分的语音识别时间内使用收集的用户语音数据;
采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息。
进一步地,采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息的步骤包括:
利用训练好的语音模型对用户说话的特征向量进行统计模式识别,得到用户语音数据中包含的用户文字信息,语音模型包括声学模型和语言模型;
对用户的语音进行自学习,对语音模型进行校正。
进一步地,依据预设的文字对比阈值规则对收集到的用户语音数据进行处理的步骤包括:
依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity;
接收Unity返回的匹配信息,匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对用户语音数据中的手势进行分割、区分和分类后,进行匹配。
进一步地,依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity的步骤包括:
定义委托绑定语音事件,绑定语音事件包括第一绑定语音事件和第二绑定语音事件,第一绑定语音事件为在场景运行时添加注册关键字绑定和一个重注册关键词,第二绑定语音事件为在场景结束时添加一个检测语音功能,检测语音是否可实例化或者可被调用,如果不可以实例化或者不可以被调用,则返回并且和一个注销关键字绑定;
在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并将重注册的关键词添加至语音库中;
若识别到用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于数据值规则表中的数据,则需要对识别到的用户语音数据按照数据值规则表进行重构;
如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设;
对识别到的用户语音数据进行语音假设时,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。
本发明的另一方面涉及一种基于Untiy引擎的语音处理系统,包括:
收集模块,用于收集用户语音数据;
处理模块,用于依据预设的文字对比阈值规则对收集到的用户语音数据进行处理,文字对比阈值规则中预设有与语音输入数据相匹配的文字策略信息;
输出模块,用于若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果,匹配度包括全局匹配和局部匹配。
进一步地,收集模块包括:
划分单元,用于运用语音处理算法划分语音识别时间,在划分的语音识别时间内使用收集的用户语音数据;
识别单元,用于采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息。
进一步地,识别单元包括:
训练子单元,用于利用训练好的语音模型对用户说话的特征向量进行统计模式识别,得到用户语音数据中包含的用户文字信息,语音模型包括声学模型和语言模型;
学习子单元,用于对用户的语音进行自学习,对语音模型进行校正。
进一步地,处理模块包括:
反馈单元,用于依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity;
接收单元,用于接收Unity返回的匹配信息,匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对用户语音数据中的手势进行分割、区分和分类后,进行匹配。
进一步地,反馈单元包括:
定义子单元,用于定义委托绑定语音事件,绑定语音事件包括第一绑定语音事件和第二绑定语音事件,第一绑定语音事件为在场景运行时添加注册关键字绑定和一个重注册关键词,第二绑定语音事件为在场景结束时添加一个检测语音功能,检测语音是否可实例化或者可被调用,如果不可以实例化或者不可以被调用,则返回并且和一个注销关键字绑定;
管理子单元,用于在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并将重注册的关键词添加至语音库中;
对比子单元,用于若识别到用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于数据值规则表中的数据,则需要对识别到的用户语音数据按照数据值规则表进行重构;
重构子单元,用于如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设;
提取子单元,用于对识别到的用户语音数据进行语音假设时,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。
本发明所取得的有益效果为:
本发明提供的基于Untiy引擎的语音处理方法及系统,通过收集用户语音数据;依据预设的文字对比阈值规则对收集到的用户语音数据进行处理,文字对比阈值规则中预设有与语音输入数据相匹配的文字策略信息;若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果,匹配度包括全局匹配和局部匹配。本发明提供的基于Untiy引擎的语音处理方法及系统,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
附图说明
图1为本发明提供的基于Untiy引擎的语音处理方法一实施例的流程示意图;
图2为语音处理系统中识别部分一实施例的框架图;
图3为图1中所示的收集用户语音数据的步骤的细化流程示意图;
图4为声波的传播格式图;
图5为声音分帧处理示意图;
图6为分帧状态示意图;
图7为图3中所示的采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息的步骤的细化流程示意图;
图8为图1中所示的依据预设的文字对比阈值规则对收集到的用户语音数据进行处理的步骤的细化流程示意图;
图9为图8中所示的接收Unity返回的匹配信息,匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对用户语音数据中的手势进行分割、区分和分类后,进行匹配的步骤的细化流程示意图;
图10为本发明提供的基于Untiy引擎的语音处理系统一实施例的框架图;
图11为图10中所示的收集模块一实施例的功能模块示意图;
图12为图11中所示的识别单元一实施例的功能模块示意图;
图13为图10中所示的处理模块一实施例的功能模块示意图;
图14为图13中所示的反馈单元一实施例的功能模块示意图。
附图标号说明:
10、收集模块;20、处理模块;30、输出模块;11、划分单元;12、识别单元;121、训练子单元;122、学习子单元;21、反馈单元;22、接收单元;211、定义子单元;212、管理子单元;213、对比子单元;214、重构子单元;215、提取子单元。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
如图1所示,本发明第一实施例提出一种基于Untiy引擎的语音处理方法,包括以下步骤:
步骤S100、收集用户语音数据。
语音识别本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个部分,基本结构如图2所示:用户语音数据经过话筒变换成电信号后加载在在头戴式显示器的输入端,对用户语音数据经过预处理。
步骤S200、依据预设的文字对比阈值规则对收集到的用户语音数据进行处理,文字对比阈值规则中预设有与语音输入数据相匹配的文字策略信息。
请见图2,根据人的语音特点预先建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的语音模型。而头戴式显示器在识别过程中要根据语音模型,将头戴式显示器中存放的语音模型与用户语音数据的特征进行比较,在语音模型中根据文字对比阈值规则中设定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模型。
步骤S300、若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果,匹配度包括全局匹配和局部匹配。
参见图2,根据语音模型的定义,通过查表就可以给出头戴式显示器的识别结果,从而根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果。其中,匹配度包括全局匹配和局部匹配。全局匹配比局部匹配的匹配率要高。
本实施例提供的基于Untiy引擎的语音处理方法,同现有技术相比,通过收集用户语音数据;依据预设的文字对比阈值规则对收集到的用户语音数据进行处理,文字对比阈值规则中预设有与语音输入数据相匹配的文字策略信息;若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果,匹配度包括全局匹配和局部匹配。本实施例提供的基于Untiy引擎的语音处理方法,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
进一步地,请见图3,图3为图1中所示的步骤S100的细化流程示意图,在本实施例中,步骤S100包括:
S110、运用语音处理算法划分语音识别时间,在划分的语音识别时间内使用收集的用户语音数据。
头戴式显示器运用相应的语音处理算法对语音识别时间进行划分,并在划分的语音识别时间内使用收集的用户语音数据。
S120、采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息。
头戴式显示器采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息。声波的传播格式如图4所示,放入虚拟现实场景中就是一个个的WAV文件,在开始语音识别之前,有时候需要切点首尾的静音切除,然后分成一个一个帧,获取语音状态然后矩阵编程文本,首先;把帧识别成状态;把状态组合成音素;把音素合成单词。要对声音进行分析,就需要进行分帧处理,每一个小段分成一帧,如图5所示。
请见图6;每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应的状态,语音数据中的用户文字信息就相应识别出来。
本实施例提供的基于Untiy引擎的语音处理方法,同现有技术相比,通过运用语音处理算法划分语音识别时间,在划分的语音识别时间内使用收集的用户语音数据;采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息。本实施例提供的基于Untiy引擎的语音处理方法,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
优选地,请见图7,图7为图3中所示的步骤S120的细化流程示意图,在本实施例中,步骤S100包括:
S121、利用训练好的语音模型对用户说话的特征向量进行统计模式识别,得到用户语音数据中包含的用户文字信息,语音模型包括声学模型和语言模型。
语音处理系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音处理系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。
语音识别是模式识别的一个分支,又从属于信号处理科学领域,同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器“听懂”人类口述的语言,包括了两方面的含义:其一是逐字逐句听懂并转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解,做出正确响应,而不拘泥于所有词的正确转换。
自动语音识别技术有三个基本原理:首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次语音是可以阅读的,即其声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示;第三语音交互是一个认知过程,因而不能与语言的语法、语义和语用结构割裂开来。
S122、对用户的语音进行自学习,对语音模型进行校正。
头戴式显示器对用户的语音进行自学习,对语音模型进行校正,其中,学习的过程如下所示:
声学模型:语音识别系统的语音模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。
搜索:连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。
系统实现:语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。
对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。
本实施例提供的基于Untiy引擎的语音处理方法,同现有技术相比,通过利用训练好的语音模型对用户说话的特征向量进行统计模式识别,得到用户语音数据中包含的用户文字信息,语音模型包括声学模型和语言模型;对用户的语音进行自学习,对语音模型进行校正。本实施例提供的基于Untiy引擎的语音处理方法,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
优选地,请见图8,图8为图1中所示的步骤S200的细化流程示意图,在本实施例中,步骤S200包括:
步骤S210、依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity。
头戴式显示器依据预设的文字对比阈值规则,对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity。其中,语音库包括全局语音识别库和局部语音识别库。
步骤S220、接收Unity返回的匹配信息,匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对用户语音数据中的手势进行分割、区分和分类后,进行匹配。
戴式显示器收Unity返回的匹配信息,匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对用户语音数据中的手势进行分割、区分和分类后,进行匹配。具体地,在C#脚本中写下与检视面板相匹配的语音按钮,当按下和抬起语音按钮时,判断是否为全局语音,若是,则调用自定义语音。其中,语音对应按钮按下和抬起都是一个数组,里面被定义为String,这个要求用户输入相应的文字,达到按钮被按下和抬起的条件时,制作成为数组的原因是因为可以输入多个文字,从而达到模糊查询的目的,如有普通话不标准或者文字多样的情况,可选取关键字,或者谐音字来达到一个搜索。是否全局语音和语音自调用的方法为Bool类型的值,把其放到Unity的检视面板中以便用户勾选,而便于制作时用户的便捷,针对如果需要全局语音的需求来说的话,就可将此按钮勾选,而自定义方法的抛出目的是为了用户可以创建其他的方法,根据输入的语音来达到别的效果。然后在这些抛出到检视面板的方法中,都加上一个[Header]函数来给相应的数据给出注释以便用户使用。
本实施例提供的基于Untiy引擎的语音处理方法,同现有技术相比,依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity;接收Unity返回的匹配信息,匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对用户语音数据中的手势进行分割、区分和分类后,进行匹配。本实施例提供的基于Untiy引擎的语音处理方法,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
优选地,请见图9,图9为图8中所示的步骤S220的细化流程示意图,在本实施例中,步骤S220包括:
步骤S221、定义委托绑定语音事件,绑定语音事件包括第一绑定语音事件和第二绑定语音事件,第一绑定语音事件为在场景运行时添加注册关键字绑定和一个重注册关键词,第二绑定语音事件为在场景结束时添加一个检测语音功能,检测语音是否可实例化或者可被调用,如果不可以实例化或者不可以被调用,则返回并且和一个注销关键字绑定。
头戴式显示器定义两个委托方法绑定语音事件,在场景运行时(OnEnable)添加一个注册关键字绑定和一个重注册关键词;在场景结束时(OnDisable)添加一个检测功能,检测语音是否实例化或者可被调用,如果不可以就返回return,和一个注销关键字绑定。
步骤S222、在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并将重注册的关键词添加至语音库中。
请见图9,头戴式显示器在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并添加至语音库中。
步骤S223、若识别到用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于数据值规则表中的数据,则需要对识别到的用户语音数据按照数据值规则表进行重构。
头戴式显示器若识别到的用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于数据值规则表中的数据,则需要对识别到的用户语音数据按照所述数据值规则表进行重构。
步骤S224、如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设。
头戴式显示器如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设。
步骤S225、对识别到的用户语音数据进行语音假设时,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。
头戴式显示器对识别到的用户语音数据进行语音假设,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。
本实施例提供的基于Untiy引擎的语音处理方法,同现有技术相比,定义委托绑定语音事件,绑定语音事件包括第一绑定语音事件和第二绑定语音事件,第一绑定语音事件为在场景运行时添加注册关键字绑定和一个重注册关键词,第二绑定语音事件为在场景结束时添加一个检测语音功能,检测语音是否可实例化或者可被调用,如果不可以实例化或者不可以被调用,则返回并且和一个注销关键字绑定;在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并将重注册的关键词添加至语音库中;若识别到用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于数据值规则表中的数据,则需要对识别到的用户语音数据按照数据值规则表进行重构;如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设;对识别到的用户语音数据进行语音假设时,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。本实施例提供的基于Untiy引擎的语音处理方法,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
如图10所示,图10为本发明提供的基于Untiy引擎的语音处理系统一实施例的框架图,在本实施例中,该基于Untiy引擎的语音处理系统,包括收集模块10、处理模块20和输出模块30,收集模块10,用于收集用户语音数据。处理模块20,用于依据预设的文字对比阈值规则对收集到的用户语音数据进行处理,文字对比阈值规则中预设有与语音输入数据相匹配的文字策略信息。输出模块30,用于若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果,匹配度包括全局匹配和局部匹配。
语音识别本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个部分,基本结构如图2所示:用户语音数据经过话筒变换成电信号后加载在在头戴式显示器的输入端,由收集模块10对用户语音数据经过预处理。
处理模块20根据人的语音特点预先建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的语音模型。而头戴式显示器在识别过程中要根据语音模型,将头戴式显示器中存放的语音模型与用户语音数据的特征进行比较,在语音模型中根据文字对比阈值规则中设定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模型。
输出模块30根据语音模型的定义,通过查表就可以给出头戴式显示器的识别结果,从而根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果。其中,匹配度包括全局匹配和局部匹配。全局匹配比局部匹配的匹配率要高。
本实施例提供的基于Untiy引擎的语音处理系统,同现有技术相比,采用收集模块10、处理模块20和输出模块30,收集模块10,用于收集用户语音数据;处理模块20,用于依据预设的文字对比阈值规则对收集到的用户语音数据进行处理,文字对比阈值规则中预设有与语音输入数据相匹配的文字策略信息;输出模块30,用于若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果,匹配度包括全局匹配和局部匹配。本实施例提供的基于Untiy引擎的语音处理系统,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
进一步地,请见图11,图11为图10中所示的收集模块一实施例的功能模块示意图,在本实施例中,收集模块10包括划分单元11和识别单元12,划分单元11,用于运用语音处理算法划分语音识别时间,在划分的语音识别时间内使用收集的用户语音数据。识别单元12,用于采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息。
划分单元11运用相应的语音处理算法对语音识别时间进行划分,并在划分的语音识别时间内使用收集的用户语音数据。
识别单元12采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息。声波的传播格式如图4所示,放入虚拟现实场景中就是一个个的WAV文件,在开始语音识别之前,有时候需要切点首尾的静音切除,然后分成一个一个帧,获取语音状态然后矩阵编程文本,首先;把帧识别成状态;把状态组合成音素;把音素合成单词。要对声音进行分析,就需要进行分帧处理,每一个小段分成一帧,如图5所示。
请见图6;每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应的状态,语音数据中的用户文字信息就相应识别出来。
本实施例提供的基于Untiy引擎的语音处理系统,同现有技术相比,采用划分单元11和识别单元12,划分单元11,用于运用语音处理算法划分语音识别时间,在划分的语音识别时间内使用收集的用户语音数据;识别单元12,用于采用语音识别插件识别输入的用户语音数据,识别出用户语音数据中的用户文字信息。本实施例提供的基于Untiy引擎的语音处理系统,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
优选地,参见图12,图12为图11中所示的识别单元一实施例的功能模块示意图,在本实施例中,识别单元12包括训练子单元121和学习子单元122,训练子单元121,用于利用训练好的语音模型对用户说话的特征向量进行统计模式识别,得到用户语音数据中包含的用户文字信息,语音模型包括声学模型和语言模型。学习子单元122,用于对用户的语音进行自学习,对语音模型进行校正。
训练子单元121构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音处理系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。
语音识别是模式识别的一个分支,又从属于信号处理科学领域,同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器“听懂”人类口述的语言,包括了两方面的含义:其一是逐字逐句听懂并转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解,做出正确响应,而不拘泥于所有词的正确转换。
自动语音识别技术有三个基本原理:首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次语音是可以阅读的,即其声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示;第三语音交互是一个认知过程,因而不能与语言的语法、语义和语用结构割裂开来。
训练子单元121对用户的语音进行自学习,对语音模型进行校正,其中,学习的过程如下所示:
声学模型:语音识别系统的语音模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。
搜索:连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。
系统实现:语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。
对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。
本实施例提供的基于Untiy引擎的语音处理系统,同现有技术相比,采用训练子单元121和学习子单元122,训练子单元121,用于利用训练好的语音模型对用户说话的特征向量进行统计模式识别,得到用户语音数据中包含的用户文字信息,语音模型包括声学模型和语言模型;学习子单元122,用于对用户的语音进行自学习,对语音模型进行校正。本实施例提供的基于Untiy引擎的语音处理系统,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
优选地,请见图13,图13为图10中所示的处理模块一实施例的功能模块示意图,在本实施例中,处理模块20包括反馈单元21和接收单元22,反馈单元21,用于依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity。接收单元22,用于接收Unity返回的匹配信息,匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对用户语音数据中的手势进行分割、区分和分类后,进行匹配。
头戴式显示器依据预设的文字对比阈值规则,对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity。其中,语音库包括全局语音识别库和局部语音识别库。
戴式显示器收Unity返回的匹配信息,匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对用户语音数据中的手势进行分割、区分和分类后,进行匹配。具体地,在C#脚本中写下与检视面板相匹配的语音按钮,当按下和抬起语音按钮时,判断是否为全局语音,若是,则调用自定义语音。其中,语音对应按钮按下和抬起都是一个数组,里面被定义为String,这个要求用户输入相应的文字,达到按钮被按下和抬起的条件时,制作成为数组的原因是因为可以输入多个文字,从而达到模糊查询的目的,如有普通话不标准或者文字多样的情况,可选取关键字,或者谐音字来达到一个搜索。是否全局语音和语音自调用的方法为Bool类型的值,把其放到Unity的检视面板中以便用户勾选,而便于制作时用户的便捷,针对如果需要全局语音的需求来说的话,就可将此按钮勾选,而自定义方法的抛出目的是为了用户可以创建其他的方法,根据输入的语音来达到别的效果。然后在这些抛出到检视面板的方法中,都加上一个[Header]函数来给相应的数据给出注释以便用户使用。
本实施例提供的基于Untiy引擎的语音处理系统,同现有技术相比,采用反馈单元21和接收单元22,反馈单元21,用于依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity。接收单元22,用于接收Unity返回的匹配信息,匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对用户语音数据中的手势进行分割、区分和分类后,进行匹配。本实施例提供的基于Untiy引擎的语音处理系统,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
进一步地,参见图13,图13为图10中所示的处理模块一实施例的功能模块示意图,在本实施例中,反馈单元21包括定义子单元211、管理子单元212、对比子单元213、重构子单元214和提取子单元215。定义子单元211,用于定义委托绑定语音事件,绑定语音事件包括第一绑定语音事件和第二绑定语音事件,第一绑定语音事件为在场景运行时添加注册关键字绑定和一个重注册关键词,第二绑定语音事件为在场景结束时添加一个检测语音功能,检测语音是否可实例化或者可被调用,如果不可以实例化或者不可以被调用,则返回并且和一个注销关键字绑定。管理子单元212,用于在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并将重注册的关键词添加至语音库中。对比子单元213,用于若识别到用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于数据值规则表中的数据,则需要对识别到的用户语音数据按照数据值规则表进行重构。重构子单元214,用于如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设。提取子单元215,用于对识别到的用户语音数据进行语音假设时,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。
定义子单元211定义两个委托方法绑定语音事件,在场景运行时(OnEnable)添加一个注册关键字绑定和一个重注册关键词;在场景结束时(OnDisable)添加一个检测功能,检测语音是否实例化或者可被调用,如果不可以就返回return,和一个注销关键字绑定。
请见图9,管理子单元212在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并添加至语音库中。
对比子单元213若识别到的用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于数据值规则表中的数据,则需要对识别到的用户语音数据按照所述数据值规则表进行重构。
重构子单元214如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设。
提取子单元215对识别到的用户语音数据进行语音假设,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。
本实施例提供的基于Untiy引擎的语音处理系统,同现有技术相比,采用定义子单元211、管理子单元212、对比子单元213、重构子单元214和提取子单元215。定义子单元211,用于定义委托绑定语音事件,绑定语音事件包括第一绑定语音事件和第二绑定语音事件,第一绑定语音事件为在场景运行时添加注册关键字绑定和一个重注册关键词,第二绑定语音事件为在场景结束时添加一个检测语音功能,检测语音是否可实例化或者可被调用,如果不可以实例化或者不可以被调用,则返回并且和一个注销关键字绑定。管理子单元212,用于在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并将重注册的关键词添加至语音库中。对比子单元213,用于若识别到用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于数据值规则表中的数据,则需要对识别到的用户语音数据按照数据值规则表进行重构。重构子单元214,用于如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设。提取子单元215,用于对识别到的用户语音数据进行语音假设时,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。本实施例提供的基于Untiy引擎的语音处理系统,通过语音方式输入,操作快捷方便,减少了头戴式显示器对人造成的眩晕、压迫等不适感;通过文本输出的方式在头戴式显示器中呈现出相关问题的解决策略;用户能够根据自己的想法设定语音数据的表意,实现了动态语音的配置,同时也能够进行固定语音的识别;有助于开发语音识别应用以及自定义语音动作;语音识别精度高、增强用户沉浸感和体验感。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种基于Untiy引擎的语音处理方法,其特征在于,包括以下步骤:
收集用户语音数据;
依据预设的文字对比阈值规则对收集到的用户语音数据进行处理,所述文字对比阈值规则中预设有与语音输入数据相匹配的文字策略信息;
若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果,所述匹配度包括全局匹配和局部匹配;
所述依据预设的文字对比阈值规则对收集到的用户语音数据进行处理的步骤包括:
依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity;
接收所述Unity返回的匹配信息,所述匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对所述用户语音数据中的手势进行分割、区分和分类后,进行匹配;
所述依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity的步骤包括:
定义委托绑定语音事件,所述绑定语音事件包括第一绑定语音事件和第二绑定语音事件,第一绑定语音事件为在场景运行时添加注册关键字绑定和一个重注册关键词,第二绑定语音事件为在场景结束时添加一个检测语音功能,检测语音是否可实例化或者可被调用,如果不可以实例化或者不可以被调用,则返回并且和一个注销关键字绑定;
在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并将重注册的关键词添加至语音库中;
若识别到用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于所述数据值规则表中的数据,则需要对识别到的用户语音数据按照所述数据值规则表进行重构;
如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设;
对识别到的用户语音数据进行语音假设时,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。
2.如权利要求1所述的基于Untiy引擎的语音处理方法,其特征在于,所述收集用户语音数据的步骤包括:
运用语音处理算法划分语音识别时间,在划分的所述语音识别时间内使用收集的用户语音数据;
采用语音识别插件识别输入的用户语音数据,识别出所述用户语音数据中的用户文字信息。
3.如权利要求2所述的基于Untiy引擎的语音处理方法,其特征在于,所述采用语音识别插件识别输入的用户语音数据,识别出所述用户语音数据中的用户文字信息的步骤包括:
利用训练好的语音模型对用户说话的特征向量进行统计模式识别,得到所述用户语音数据中包含的用户文字信息,所述语音模型包括声学模型和语言模型;
对用户的语音进行自学习,对语音模型进行校正。
4.一种基于Untiy引擎的语音处理系统,其特征在于,包括:
收集模块(10),用于收集用户语音数据;
处理模块(20),用于依据预设的文字对比阈值规则对收集到的用户语音数据进行处理,所述文字对比阈值规则中预设有与语音输入数据相匹配的文字策略信息;
输出模块(30),用于若收集到的用户语音数据与预设的文字对比阈值规则相匹配时,则根据匹配度和用户语音数据中的文字信息来触发相对应的策略,输出文本策略结果,所述匹配度包括全局匹配和局部匹配;
所述处理模块(20)包括:
反馈单元(21),用于依据预设的文字对比阈值规则对识别到的用户语音数据进行处理,以形成语音库,并将形成的语音库反馈给Unity;
接收单元(22),用于接收所述Unity返回的匹配信息,所述匹配信息为Unity运用语音识别算法对手势识别插件识别的用户文字信息进行整理和收集,判断用户语音数据,并对所述用户语音数据中的手势进行分割、区分和分类后,进行匹配;
所述反馈单元(21)包括:
定义子单元(211),用于定义委托绑定语音事件,所述绑定语音事件包括第一绑定语音事件和第二绑定语音事件,第一绑定语音事件为在场景运行时添加注册关键字绑定和一个重注册关键词,第二绑定语音事件为在场景结束时添加一个检测语音功能,检测语音是否可实例化或者可被调用,如果不可以实例化或者不可以被调用,则返回并且和一个注销关键字绑定;
管理子单元(212),用于在重注册关键词内运行注销关键字绑定和注册关键字绑定调用;在注销关键字绑定和注册关键字绑定中选用回调和输入的字典来管理语音,并将重注册的关键词添加至语音库中;
对比子单元(213),用于若识别到用户语音数据属实,则将识别到的用户语音数据与预设的数据值规则表进行对比,确认识别到的用户语音数据是否在数据值规则表中,如果识别到的用户语音数据不属于所述数据值规则表中的数据,则需要对识别到的用户语音数据按照所述数据值规则表进行重构;
重构子单元(214),用于如果在重构数据时,判断出识别到的用户语音数据不满足重构的条件时,则需要对识别到的用户语音数据进行语音假设;
提取子单元(215),用于对识别到的用户语音数据进行语音假设时,如果语音数据能够满足数据的匹配对应项,则进行语音的数据提取。
5.如权利要求4所述的基于Untiy引擎的语音处理系统,其特征在于,所述收集模块(10)包括:
划分单元(11),用于运用语音处理算法划分语音识别时间,在划分的所述语音识别时间内使用收集的用户语音数据;
识别单元(12),用于采用语音识别插件识别输入的用户语音数据,识别出所述用户语音数据中的用户文字信息。
6.如权利要求5所述的基于Untiy引擎的语音处理系统,其特征在于,所述识别单元(12)包括:
训练子单元(121),用于利用训练好的语音模型对用户说话的特征向量进行统计模式识别,得到所述用户语音数据中包含的用户文字信息,所述语音模型包括声学模型和语言模型;
学习子单元(122),用于对用户的语音进行自学习,对语音模型进行校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011393005.7A CN112562652B (zh) | 2020-12-02 | 2020-12-02 | 一种基于Untiy引擎的语音处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011393005.7A CN112562652B (zh) | 2020-12-02 | 2020-12-02 | 一种基于Untiy引擎的语音处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562652A CN112562652A (zh) | 2021-03-26 |
CN112562652B true CN112562652B (zh) | 2024-01-19 |
Family
ID=75047177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011393005.7A Active CN112562652B (zh) | 2020-12-02 | 2020-12-02 | 一种基于Untiy引擎的语音处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562652B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042867A (zh) * | 2006-03-24 | 2007-09-26 | 株式会社东芝 | 语音识别设备和方法 |
CN107301168A (zh) * | 2017-06-01 | 2017-10-27 | 深圳市朗空亿科科技有限公司 | 智能机器人及其情绪交互方法、系统 |
WO2018098932A1 (zh) * | 2016-12-01 | 2018-06-07 | 百度在线网络技术(北京)有限公司 | 一种基于语音识别的主动型搜索方法和装置 |
CN109147768A (zh) * | 2018-09-13 | 2019-01-04 | 云南电网有限责任公司 | 一种基于深度学习的语音识别方法及系统 |
CN109741748A (zh) * | 2019-03-11 | 2019-05-10 | 国网浙江省电力有限公司信息通信分公司 | 一种基于深度学习的智能语音转写方法及系统 |
CN110415689A (zh) * | 2018-04-26 | 2019-11-05 | 富泰华工业(深圳)有限公司 | 语音识别装置及方法 |
CN110955818A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
CN111402885A (zh) * | 2020-04-22 | 2020-07-10 | 北京万向新元科技有限公司 | 一种基于语音和空气成像技术的交互方法及其系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
CN109949814A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 语音识别方法、系统、计算机系统及计算机可读存储介质 |
CN109192202B (zh) * | 2018-09-21 | 2023-05-16 | 平安科技(深圳)有限公司 | 语音安全识别方法、装置、计算机设备及存储介质 |
CN110956956A (zh) * | 2019-12-13 | 2020-04-03 | 集奥聚合(北京)人工智能科技有限公司 | 基于策略规则的语音识别方法及装置 |
CN111241357B (zh) * | 2020-01-14 | 2024-09-03 | 中国平安人寿保险股份有限公司 | 对话训练方法、装置、系统及存储介质 |
-
2020
- 2020-12-02 CN CN202011393005.7A patent/CN112562652B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101042867A (zh) * | 2006-03-24 | 2007-09-26 | 株式会社东芝 | 语音识别设备和方法 |
WO2018098932A1 (zh) * | 2016-12-01 | 2018-06-07 | 百度在线网络技术(北京)有限公司 | 一种基于语音识别的主动型搜索方法和装置 |
CN107301168A (zh) * | 2017-06-01 | 2017-10-27 | 深圳市朗空亿科科技有限公司 | 智能机器人及其情绪交互方法、系统 |
CN110415689A (zh) * | 2018-04-26 | 2019-11-05 | 富泰华工业(深圳)有限公司 | 语音识别装置及方法 |
CN109147768A (zh) * | 2018-09-13 | 2019-01-04 | 云南电网有限责任公司 | 一种基于深度学习的语音识别方法及系统 |
CN109741748A (zh) * | 2019-03-11 | 2019-05-10 | 国网浙江省电力有限公司信息通信分公司 | 一种基于深度学习的智能语音转写方法及系统 |
CN110955818A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
CN111402885A (zh) * | 2020-04-22 | 2020-07-10 | 北京万向新元科技有限公司 | 一种基于语音和空气成像技术的交互方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112562652A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
CN111933129A (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
EP0376501A2 (en) | Speech recognition system | |
CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
CN106157956A (zh) | 语音识别的方法及装置 | |
CN110634469B (zh) | 基于人工智能的语音信号处理方法、装置及存储介质 | |
WO2024140434A1 (zh) | 基于多模态知识图谱的文本分类方法、设备及存储介质 | |
Potamianos et al. | Joint audio-visual speech processing for recognition and enhancement | |
CN113129867A (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
Këpuska | Wake-up-word speech recognition | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
Wang et al. | A research on HMM based speech recognition in spoken English | |
CN113593565B (zh) | 一种智能家庭设备管控方法和系统 | |
Rose et al. | Integration of utterance verification with statistical language modeling and spoken language understanding | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN114120979A (zh) | 语音识别模型的优化方法、训练方法、设备及介质 | |
CN112562652B (zh) | 一种基于Untiy引擎的语音处理方法及系统 | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及系统 | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
CN112199498A (zh) | 一种养老服务的人机对话方法、装置、介质及电子设备 | |
CN116564286A (zh) | 语音录入方法、装置、存储介质及电子设备 | |
CN116386633A (zh) | 一种适用于噪声条件下的智能终端设备控制方法及系统 | |
Chu et al. | Automatic speech recognition and speech activity detection in the CHIL smart room | |
EP0177854A1 (en) | Keyword recognition system using template-concatenation model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |