CN113270102A - 一种用于智能语音饮水机的多方言混合语音识别方法 - Google Patents
一种用于智能语音饮水机的多方言混合语音识别方法 Download PDFInfo
- Publication number
- CN113270102A CN113270102A CN202110540387.XA CN202110540387A CN113270102A CN 113270102 A CN113270102 A CN 113270102A CN 202110540387 A CN202110540387 A CN 202110540387A CN 113270102 A CN113270102 A CN 113270102A
- Authority
- CN
- China
- Prior art keywords
- voice
- dialect
- word segmentation
- recognized
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 133
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 11
- 238000003491 array Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于智能语音饮水机的多方言混合语音识别方法,包括:将初始待识别语音作为目标语音,通过一个或多个方言识别子系统对目标语音进行处理,得到语义文本;获取与语义文本对应的时序数列信息;获取各方言识别子系统对应方言的种类;将各语义文本及时序数列信息加入到相应方言识别子系统的历史分词集;获取未处理目标语音;循环执行对应目标语音的语义文本和时序数列信息的获取操作;根据方言识别子系统对应的历史分词集,结合语义文本和对应的时序数列信息,形成一条或多条分词序列;基于各分词序列构成相应方言识别子系统的分词序列集;从各方言识别子系统所对应的分词序列集中确定初始待识别语音的识别结果。
Description
技术领域
本发明涉及智能饮水机方言识别领域,更具体地说,本发明涉及一种用于智能语音饮水机的多方言混合语音识别方法。
背景技术
目前,语音识别技术对于各地方言的识别能力尚待提高;如何对目标语音进行处理,得到语义文本是一项技术关键点;方言的语音特点和常用的语音特点也不相同;如何通过方言的语音转化语义、并获取对应时序数列信息,是一项具有实际意义的创新研究方向;各种方言的多种表达方式和标准普通话存在着很大的不同,如何获取对应方言的种类是一项技术难点;将各语义文本及时序数列信息进行结合是一项较为关键的技术点,在方言识别时如何处理难以识别的部分一直以来都是本领域技术难点;如何高效率准确的进行对应目标语音的语义文本和时序数列信息的获取操作,并将方言识别子系统对应形成一条或多条分词序列是一项核心技术点;如何基于各分词序列,并从各方言识别子系统所对应的分词序列集中确定初始待识别语音的识别结果,是一项较有创新性的技术;因此,有必要提出一种用于智能语音饮水机的多方言混合语音识别方法,以至少部分地解决现有技术中存在的问题。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
为至少部分地解决上述问题,本发明提供了一种用于智能语音饮水机的多方言混合语音识别方法,包括:
S100、将初始待识别语音作为目标语音,通过一个或多个方言识别子系统对目标语音进行处理,得到语义文本;
S200、获取与语义文本对应的时序数列信息,获取各方言识别子系统对应方言的种类;
S300、将各语义文本及时序数列信息加入到相应方言识别子系统的历史分词集,获取各方言识别子系统对应的未处理目标语音得到新目标语音;
S400、循环执行S100-S300,直至各方言识别子系统均不存在未处理目标语音;
S500、根据方言识别子系统对应的历史分词集并形成一条或多条分词序列,基于分词序列构成相应方言识别子系统的分词序列集;
S600、从各方言识别子系统所对应的分词序列集中确定初始待识别语音的识别结果。
优选的,S100包括:
S101、在饮水机中搭载数据库存储器,并在存储器中预先存储数据,预存储数据包括:与饮水机功能相关词汇的语义文本、不同地区方言的初始分词集;
S102、当饮水机接收到用户语音时,将语音作为初始待识别语音进行处理,调用一个或多个方言识别子系统;
S103、将方言语音和标准语音进行对比计算,确定待识别语音的初始置信度;
S104、计算待识别语音的置信度系数,计算公式如下:
其中,S12是待识别语音的置信度系数;Z1和Z2是方言语音和标准语音两种语音特征,Pi和Qj是语音特征的两个序列特征元集,rZ1和rZ2是两种语音特征的初始置信度;识别待识别语音的置信度,包括:当待识别语音的置信度系数S12≥0.9时,方言语音和标准语音两种语音特征识别为符合一致性;当待识别语音的置信度系数S12<0.9时,返回S102循环调用执行,直至方言语音和标准语音两种语音特征识别为符合一致性;
S105、识别符合一致性后,获得方言语音和标准语音对应符合一致性的语义文本;
优选的,S200中,所述获取与语义文本对应的时序数列信息,包括:
S2011、对于用户语音中的信息进行处理,获得和不同语义文本相关的多类型信息;对多类型信息进行识别,提取出其中包含的事件因素;对事件因素进行进一步分析,从中挑选出时序要素;
S2012、对不同语义文本包含的各组事件因素进行进一步分析,按照时序要素建立多条用户时序数列,将各种事件因素以时序要素为基准排列在用户时序数列上;对用户语音的语气进行分析,根据不同语气选择不同操作;当分析得到用户语音为第一语气,则从用户时序数列过往记录中选择与用户语音的事件因素相符合的记录作为答案;
S2013、当分析得到用户语音为第二语气,则继续以时序要素为基准将事件因素排列在用户时序数列上;根据不同操作,通过将用户语音为第一语气时从用户时序数列过往记录中选择和用户语音为第二语气以时序要素为基准的事件因素排列,得到对应的时序数列信息。
优选的,S200中,所述获取各方言识别子系统对应方言的种类,包括:
S2021、对当前待处理用户语音进行处理以辨别语音中存在的音节与音素,通过预处理提取方言语音中的语音参数,包括:音节名称、音素名称、音素持续时间、音素共振峰;
S2022、通过对语音参数进行统计,计算语音参数统计平均值计算公式如下:
S2023、通过第一类方言的方言识别子系统对当前语音样本进行分析,当某段音节所具备的各项语音参数和方言识别子系统中所存储的各项参数值偏差小于设定范围,则判定为该待处理语音中含有该类方言;当某段音节所具备的各项语音参数和方言识别子系统中所存储的各项参数值偏差不小于设定范围,则判定为该待处理语音中不含有该类方言;
S2024、通过第二类方言的方言识别子系统,继续对当前待处理的语音样本进行分析,重复步骤S2021~S2023的分析过程,对用户语音是否含有方言种类进行判断;方言种类包括:初始待识别语音所包含方言的种类;
S2025、重复调用饮水机的方言识别子系统,直至语音样本中所有预先存储的方言种类都已被识别出来;
S2026、将语音样本的内容按照方言种类进行归类。
优选的,S300中,所述将各语义文本及时序数列信息加入到相应方言识别子系统的历史分词集,包括:
S3011、在各个方言识别子系统中分别建立相应方言的历史分词集,历史分词集中存储内容包括:来自用户语音方言部分;
S3012、将语义文本依据所属方言存储在历史分词集中;
S3013、当用户时序数列出现更新时,将历史分词集中的用户时序数列进行更新;
S3014、当待处理语音被处理和区分完毕时,将出现的新语义文本添加到历史分词集中。
优选的,S300中,所述获取各方言识别子系统对应的未处理目标语音得到新目标语音,包括:
S3021、当饮水机接收到新的用户语音时,将新的用户语音作为待处理语音,将待处理语音同存储器中已经识别过的语音片段所含有的语音参数进行对比,确定当前待处理语音是否已经被提取语义文本和分类到相应方言识别子系统下;
S3022、对于待处理语音中和已经识别过的语音片段的语音参数偏差小于设定偏差的部分,作为已经处理部分;
S3023、对于待处理语音中和已经识别过的语音片段的语音参数偏差不小于设定偏差的部分,进行提取作为新的目标语音。
优选的,S400,包括:
S401、针对新的目标语音,使用不同的方言识别子系统进行处理,识别出含有该种类方言的语音信号;
S402、对识别出的语音信号进行处理,划分为和不同语义文本相关的多类型信号;从多类型信号中提取出语义文本和事件因素;按照事件因素中的时序要素,更新相关的用户时序数列;
S403、通过各个方言识别子系统,继续对下一段新的目标语音进行处理,直到所有待处理的目标语音都被处理完毕,各方言识别子系统均不存在未处理目标语音。
优选的,S500中,所述根据方言识别子系统对应的历史分词集并形成一条或多条分词序列,包括:
S5011、对方言识别子系统的历史分词集进行整理,按照历史分词集中的语义文本和时序数列信息,整理成分词序列;
S5012、根据语义文本间的相关性,当一个语义文本同已有分词序列中的语义文本的相关度高于相关度设定值时,将语义文本加入分词序列;当一个语义文本同已有分词序列中的语义文本的相关度不高于相关度设定值时,建立一个新的分词序列,将语义文本加入新的分词序列;
S5013、对于一组分词序列,按照语义文本中的时序要素,按照时序要素的先后顺序对分词序列中的语义文本进行排序,形成一条或多条分词序列。
优选的,S500中,所述基于分词序列构成相应方言识别子系统的分词序列集,包括:
S5021、对于每个分词序列,选择其中具有更好类别区分能力的词汇,将词汇区分能力通过词频和逆文本频率的乘积进行计算
S5022、词频和逆文本频率的计算公式如下:
其中,TPi,j表示词频,i表示词汇,j表示当前语义文本,ci,j表示该词汇i在语义文本j中出现的次数,k表示全词汇量,ck,j表示全词汇在语义文本j中出现的次数;
其中,ITPi表示逆文本频率,N表示总的语义文本个数,ni表示ni个语义文本包括第i个词汇,α为经验参数;
S5023、根据分词序列的区分词汇,将区分词汇相同的分词序列合并成分词序列集。
优选的,S600包括:
S601、在饮水机存储器中预存储饮水机操作指令相关分词;
S602、当不再有新的用户语音指令时,将各个方言识别子系统对应的分词序列集分词同饮水机操作指令相关分词进行对比,当对比符合饮水机某个操作时,则初始待识别语音被确定,执行该操作;
S603、当方言识别子系统所对应的分词序列集分词同预存储的词汇不相同时,等待新的待处理用户语音出现;确定所述初始待识别语音的识别结果。
相比现有技术,本发明至少包括以下有益效果:
饮水机能够将用户语音指令作为初始待识别语音进行分析,利用方言识别子系统对初始待识别语音进行处理,得出一组语义文本,通过引入不同方言识别子系统,能够对用户语音中的方言针对性识别,提高识别效率;根据得到的语义文本在时序数列中进行查找,确定相关信息;根据初始待识别语音,查找出所对应方言所属的方言识别子系统的种类;将属于对应方言识别子系统的语义文本以及时序数列上的信息加入到历史分词集中,历史分词集能够将处理过的语音内容存储在存储器中,提高饮水机对用户语音指令的响应速度;继续获取新的目标语音,对未处理的目标语音进行提取,按照上述过程循环执行;通过不断加入新的语义文本与时序数列信息,能够持续完善历史分词集,增加对未识别语音的处理能力;结合收集的语义文本和时序数列信息,将历史分词集整理为分词序列最终形成分词序列集;通过不同方言识别子系统的分词序列集,能够更准确的判断当前用户语音同预存储的操作指令的相关度。本发明所述的一种用于智能语音饮水机的多方言混合语音识别方法,本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的一种用于智能语音饮水机的多方言混合语音识别方法步骤图。
具体实施方式
下面结合附图以及实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供了一种用于智能语音饮水机的多方言混合语音识别方法,包括:
S100、将初始待识别语音作为目标语音,通过一个或多个方言识别子系统对目标语音进行处理,得到语义文本;
S200、获取与语义文本对应的时序数列信息,获取各方言识别子系统对应方言的种类;
S300、将各语义文本及时序数列信息加入到相应方言识别子系统的历史分词集,获取各方言识别子系统对应的未处理目标语音得到新目标语音;
S400、循环执行S100-S300,直至各方言识别子系统均不存在未处理目标语音;
S500、根据方言识别子系统对应的历史分词集并形成一条或多条分词序列,基于分词序列构成相应方言识别子系统的分词序列集;
S600、从各方言识别子系统所对应的分词序列集中确定初始待识别语音的识别结果。
上述技术方案的工作原理:饮水机将用户语音指令作为初始待识别语音进行分析,利用方言识别子系统对初始待识别语音进行处理,得出一组语义文本;根据得到的语义文本在时序数列中进行查找,确定相关信息;根据初始待识别语音,查找出所对应方言所属的方言识别子系统的种类;将属于对应方言识别子系统的语义文本以及时序数列上的信息加入到历史分词集中;继续获取新的目标语音,对未处理的目标语音进行提取,按照上述过程循环执行;不断加入新的语义文本与时序数列信息以完善历史分词集,直到方言识别子系统不存在未处理目标语音;结合收集的语义文本和时序数列信息,将历史分词集整理为分词序列最终形成分词序列集;根据方言识别子系统的分词序列集,确定初始待识别语音的识别结果。
上述技术方案的有益效果:饮水机能够将用户语音指令作为初始待识别语音进行分析,利用方言识别子系统对初始待识别语音进行处理,得出一组语义文本,通过引入不同方言识别子系统,能够对用户语音中的方言针对性识别,提高识别效率;根据得到的语义文本在时序数列中进行查找,确定相关信息;根据初始待识别语音,查找出所对应方言所属的方言识别子系统的种类;将属于对应方言识别子系统的语义文本以及时序数列上的信息加入到历史分词集中,历史分词集能够将处理过的语音内容存储在存储器中,提高饮水机对用户语音指令的响应速度;继续获取新的目标语音,对未处理的目标语音进行提取,按照上述过程循环执行;通过不断加入新的语义文本与时序数列信息,能够持续完善历史分词集,增加对未识别语音的处理能力;结合收集的语义文本和时序数列信息,将历史分词集整理为分词序列最终形成分词序列集;通过不同方言识别子系统的分词序列集,能够更准确的判断当前用户语音同预存储的操作指令的相关度。
在一个实施例中,S100包括:
S101、在饮水机中搭载数据库存储器,并在存储器中预先存储数据,预存储数据包括:与饮水机功能相关词汇的语义文本、不同地区方言的初始分词集;
S102、当饮水机接收到用户语音时,将语音作为初始待识别语音进行处理,调用一个或多个方言识别子系统;
S103、将方言语音和标准语音进行对比计算,确定待识别语音的初始置信度;
S104、计算待识别语音的置信度系数,计算公式如下:
其中,S12是待识别语音的置信度系数;Z1和Z2是方言语音和标准语音两种语音特征,Pi和Qj是语音特征的两个序列特征元集,rZ1和rZ2是两种语音特征的初始置信度;识别待识别语音的置信度,包括:当待识别语音的置信度系数S12≥0.9时,方言语音和标准语音两种语音特征识别为符合一致性;当待识别语音的置信度系数S12<0.9时,返回S102循环调用执行,直至方言语音和标准语音两种语音特征识别为符合一致性;
S105、识别符合一致性后,获得方言语音和标准语音对应符合一致性的语义文本。
上述技术方案的工作原理:在饮水机中搭载数据库存储器,存储器中预先存储以下数据:与饮水机功能相关的词汇的语义文本、不同地区方言的初始分词集;通过将用户语音作为初始待识别语音进行处理,调用一个或多个方言识别子系统;对于初始待识别语音,考虑方言语音和标准语音相比带有不确定性,利用基于证据理论的不确定推理确定初始置信度;基于预先设定好的标准语音的语音特征,搭建一种基于特征元和初始置信度的置信度系数计算函数,对置信度系数的大小进行判定从而获得方言语音中的语义文本;考虑在语义的提取中各个语义的搭配具有随机性与不确定性,求取语音特征的特征元作为计算依据,通过语音特征的特征元,确定待处理语音中获得的文本的置信度系数的大小;通过方言识别子系统对初始待识别语音的处理,获得所需要的语义文本。
上述技术方案的有益效果:可以在饮水机中搭载数据库存储器,存储器中预先存储以下数据:与饮水机功能相关的词汇的语义文本、不同地区方言的初始分词集;通过将用户语音作为初始待识别语音进行处理,调用一个或多个方言识别子系统;对于初始待识别语音,可以针对方言语音和标准语音的差异,利用基于证据理论的不确定推理确定初始置信度,初始置信度能够对方言语音和标准语音的相似程度进行判断;基于预先设定好的标准语音的语音特征,搭建一种基于特征元和初始置信度的置信度系数计算函数,置信度系数计算函数能够对置信度系数的大小进行计算,从而判断方言语音中的语义文本与标准语音的相似程度;考虑在语义的提取中各个语义的搭配具有随机性与不确定性,求取语音特征的特征元作为计算依据,通过语音特征的特征元,能够确定待处理语音中获得的文本的置信度系数的大小;通过方言识别子系统对初始待识别语音的处理,获得所需要的语义文本。
在一个实施例中,S200中,所述获取与语义文本对应的时序数列信息,包括:
S2011、对于用户语音中的信息进行处理,获得和不同语义文本相关的多类型信息;对多类型信息进行识别,提取出其中包含的事件因素;对事件因素进行进一步分析,从中挑选出时序要素;
S2012、对不同语义文本包含的各组事件因素进行进一步分析,按照时序要素建立多条用户时序数列,将各种事件因素以时序要素为基准排列在用户时序数列上;对用户语音的语气进行分析,根据不同语气选择不同操作;当分析得到用户语音为第一语气,则从用户时序数列过往记录中选择与用户语音的事件因素相符合的记录作为答案;
S2013、当分析得到用户语音为第二语气,则继续以时序要素为基准将事件因素排列在用户时序数列上;根据不同操作,通过将用户语音为第一语气时从用户时序数列过往记录中选择和用户语音为第二语气以时序要素为基准的事件因素排列,得到对应的时序数列信息。
上述技术方案的工作原理:对于用户语音中的信息进行处理,获得和不同语义文本相关的多类型信号;对多种类型的信号进行识别,提取出其中包含的事件因素;对事件因素进行进一步分析,从中挑选出和时间相关的要素;对不同语义文本包含的各组事件因素进行进一步分析,按照时序要素建立多条用户时序数列,将各种事件因素以时序要素为基准排列在用户时序数列上;对用户语音的语气进行分析,根据不同语气选择不同操作;当分析得到用户语音为疑问型,则从用户时序数列过往记录中选择与用户语音的事件因素相符合的记录作为答案;当分析得到用户语音为陈述型,则继续以时序要素为基准将事件因素排列在用户时序数列上;根据不同操作,得到对应的时序数列信息。
上述技术方案的有益效果:能够对于用户语音中的信息进行处理,获得和不同语义文本相关的多类型信号;对多种类型的信号进行识别,提取出其中包含的事件因素;对事件因素进行进一步分析,从中挑选出和时间相关的要素;时序要素可以帮助对不同语义文本包含的各组事件因素进行进一步分析,建立多条用户时序数列,将各种事件因素以时序要素为基准排列在用户时序数列上;对用户语音的语气进行分析,根据不同语气选择不同操作;当分析得到用户语音为疑问型,则从用户时序数列过往记录中选择与用户语音的事件因素相符合的记录作为答案;当分析得到用户语音为陈述型,则继续以时序要素为基准将事件因素排列在用户时序数列上,根据不同操作,得到对应的时序数列信息;通过对用户语音的语气进行分析能够将不同语气的用户语音分开,有针对性的选择对应操作,提高处理的效率。
在一个实施例中,S200中,所述获取各方言识别子系统对应方言的种类,包括:
S2021、对当前待处理用户语音进行处理以辨别语音中存在的音节与音素,通过预处理提取方言语音中的语音参数,包括:音节名称、音素名称、音素持续时间、音素共振峰;
S2022、通过对语音参数进行统计,计算语音参数统计平均值计算公式如下:
S2023、通过第一类方言的方言识别子系统对当前语音样本进行分析,当某段音节所具备的各项语音参数和方言识别子系统中所存储的各项参数值偏差小于设定范围,则判定为该待处理语音中含有该类方言;当某段音节所具备的各项语音参数和方言识别子系统中所存储的各项参数值偏差不小于设定范围,则判定为该待处理语音中不含有该类方言;
S2024、通过第二类方言的方言识别子系统,继续对当前待处理的语音样本进行分析,重复步骤S2021~S2023的分析过程,对用户语音是否含有方言种类进行判断;方言种类包括:初始待识别语音所包含方言的种类;
S2025、重复调用饮水机的方言识别子系统,直至语音样本中所有预先存储的方言种类都已被识别出来;
S2026、将语音样本的内容按照方言种类进行归类。
上述技术方案的工作原理:对当前待处理用户语音进行处理以辨别语音中存在的音节与音素,通过预处理提取方言语音中的语音参数,例如音节名称、音素名称、音素持续时间、音素共振峰等;通过对以上语音参数进行统计,能够借助统计的平均值对不同地域的方言进行区分;用一类方言的方言识别子系统对当前语音样本进行分析,当某段音节所具备的各项语音参数和方言识别子系统中所存储的各项参数值偏差小于一定范围,则认为该待处理语音中含有该类方言;重复调用饮水机带有的各类方言识别子系统,直至语音样本中所有预先存储的方言种类都已被识别出来;将语音样本的内容按照方言种类进行归类。
上述技术方案的有益效果:能够对当前待处理用户语音进行处理以辨别语音中存在的音节与音素,通过预处理提取方言语音中的语音参数,例如音节名称、音素名称、音素持续时间、音素共振峰等;选择多个语音参数,可以对方言语音的特征进行综合考虑,提高辨别的全面性;通过对以上语音参数进行统计,能够借助统计的平均值对不同地域的方言进行区分;基于统计的平均值进行分析,能够降低决策误差,并通过扩大样本数目来提高精度;用一类方言的方言识别子系统对当前语音样本进行分析,当某段音节所具备的各项语音参数和方言识别子系统中所存储的各项参数值偏差小于一定范围,则认为该待处理语音中含有该类方言;重复调用饮水机带有的各类方言识别子系统,直至语音样本中所有预先存储的方言种类都已被识别出来;将语音样本的内容按照方言种类进行归类。
在一个实施例中,S300中,所述将各语义文本及时序数列信息加入到相应方言识别子系统的历史分词集,包括:
S3011、在各个方言识别子系统中分别建立相应方言的历史分词集,历史分词集中存储内容包括:来自用户语音方言部分;
S3012、将语义文本依据所属方言存储在历史分词集中;
S3013、当用户时序数列出现更新时,将历史分词集中的用户时序数列进行更新;
S3014、当待处理语音被处理和区分完毕时,将出现的新语义文本添加到历史分词集中。
上述技术方案的工作原理:在各个方言识别子系统中建立该种方言的历史分词集,历史分词集中存储内容均来自用户语音的该种方言部分;将语义文本以所属方言为凭据存储在历史分词集中,当待处理语音被处理和区分完毕时,将出现的新语义文本继续添加到历史分词集中;当用户时序数列出现新的更新时,将历史分词集中的用户时序数列进行更新。
上述技术方案的有益效果:能够在各个方言识别子系统中建立该种方言的历史分词集,历史分词集中可以存储来自用户语音的该种方言部分;能够将语义文本以所属方言为凭据存储在历史分词集中,当待处理语音被处理和区分完毕时,将出现的新语义文本继续添加到历史分词集中;随着饮水机不断接收新的用户语音,各个方言识别子系统中的历史分词集可以被不断完善;当用户时序数列出现新的更新时,将历史分词集中的用户时序数列进行更新;借助历史分词集的动态更新和完善,可以根据新出现的用户语音不断调整所识别语义文本的内容,使饮水机的处理更具灵活性。
在一个实施例中,S300中,所述获取各方言识别子系统对应的未处理目标语音得到新目标语音,包括:
S3021、当饮水机接收到新的用户语音时,将新的用户语音作为待处理语音,将待处理语音同存储器中已经识别过的语音片段所含有的语音参数进行对比,确定当前待处理语音是否已经被提取语义文本和分类到相应方言识别子系统下;
S3022、对于待处理语音中和已经识别过的语音片段的语音参数偏差小于设定偏差的部分,作为已经处理部分;
S3023、对于待处理语音中和已经识别过的语音片段的语音参数偏差不小于设定偏差的部分,进行提取作为新的目标语音。
上述技术方案的工作原理:当饮水机接收到新的用户语音时,将新的用户语音作为待处理语音,将待处理语音同存储器中已经识别过的语音片段所含有的语音参数进行对比,确定当前待处理语音是否已经被提取语义文本和分类到不同方言识别子系统下;对于待处理语音中和已经识别过的语音片段的语音参数偏差不大的部分,将其作为已经处理部分;对于待处理语音中和已经识别过的语音片段的语音参数偏差较大的部分,将其提取出来作为新的目标语音。
上述技术方案的有益效果:当饮水机接收到新的用户语音时,可以将新的用户语音作为待处理语音,将待处理语音同存储器中已经识别过的语音片段所含有的语音参数进行对比,确定当前待处理语音是否已经被提取语义文本并分类到不同方言识别子系统下;可以通过对待处理语音中和已经识别过的语音片段的语音参数偏差的大小,将新的目标语音从已经处理部分中区分出来;通过合理设置设定偏差的大小,能够改变筛选待处理语音的范围,当减小设定偏差,可以提高筛选新的目标语音的精确度;当增大设定偏差时,可以提高新的目标语音的速度。
在一个实施例中,S400,包括:
S401、针对新的目标语音,使用不同的方言识别子系统进行处理,识别出含有该种类方言的语音信号;
S402、对识别出的语音信号进行处理,划分为和不同语义文本相关的多类型信号;从多类型信号中提取出语义文本和事件因素;按照事件因素中的时序要素,更新相关的用户时序数列;
S403、通过各个方言识别子系统,继续对下一段新的目标语音进行处理,直到所有待处理的目标语音都被处理完毕,各方言识别子系统均不存在未处理目标语音。
上述技术方案的工作原理:针对新的目标语音,使用不同的方言识别子系统进行处理,识别出含有该种类方言的语音信号;对识别出的语音信号进行处理,划分为和不同语义文本相关的多类型信号;从多类型信号中提取出语义文本和事件因素;按照事件因素中的时序要素,更新相关的用户时序数列;使用各个方言识别子系统,继续对下一段新的目标语音进行处理,直到所有待处理的目标语音都被处理完毕。
上述技术方案的有益效果:能够针对新的目标语音,使用不同的方言识别子系统进行处理,识别出含有该种类方言的语音信号;对识别出的语音信号进行处理,划分为和不同语义文本相关的多类型信号;从多类型信号中提取出语义文本和事件因素;按照事件因素中的时序要素,更新相关的用户时序数列;使用各个方言识别子系统,继续对下一段新的目标语音进行处理,直到所有待处理的目标语音都被处理完毕。
在一个实施例中,S500中,所述根据方言识别子系统对应的历史分词集并形成一条或多条分词序列,包括:
S5011、对方言识别子系统的历史分词集进行整理,按照历史分词集中的语义文本和时序数列信息,整理成分词序列;
S5012、根据语义文本间的相关性,当一个语义文本同已有分词序列中的语义文本的相关度高于相关度设定值时,将语义文本加入分词序列;当一个语义文本同已有分词序列中的语义文本的相关度不高于相关度设定值时,建立一个新的分词序列,将语义文本加入新的分词序列;
S5013、对于一组分词序列,按照语义文本中的时序要素,按照时序要素的先后顺序对分词序列中的语义文本进行排序,形成一条或多条分词序列。
上述技术方案的工作原理:对方言识别子系统的历史分词集进行整理,按照历史分词集中的语义文本和时序数列信息,整理成分词序列;根据语义文本间的相关性,当一个语义文本同已有分词序列中的语义文本的相关度较高时,将语义文本加入分词序列;当一个语义文本同已有分词序列中的语义文本的相关度较低时,建立一个新的分词序列,将语义文本加入新的分词序列;对于一组分词序列,按照语义文本中的时序要素,按照时序要素的先后顺序对分词序列中的语义文本进行排序。
上述技术方案的有益效果:可以整理方言识别子系统的历史分词集,通过整理历史分词集中的语义文本和时序数列信息,能够得到一个或者多个分词序列,分词序列有助于帮助对用户语音和对应的饮水机操作指令进行进一步判断;根据语义文本间的相关性,当一个语义文本同已有分词序列中的语义文本的相关度较高时,将语义文本加入分词序列;当一个语义文本同已有分词序列中的语义文本的相关度较低时,建立一个新的分词序列,将语义文本加入新的分词序列;对于一组分词序列,按照语义文本中的时序要素,按照时序要素的先后顺序对分词序列中的语义文本进行排序,可以形成一条或多条分词序列。
在一个实施例中,S500中,所述基于分词序列构成相应方言识别子系统的分词序列集,包括:
S5021、对于每个分词序列,选择其中具有更好类别区分能力的词汇,将词汇区分能力通过词频和逆文本频率的乘积进行计算
S5022、词频和逆文本频率的计算公式如下:
其中,TPi,j表示词频,i表示词汇,j表示当前语义文本,ci,j表示该词汇i在语义文本j中出现的次数,k表示全词汇量,ckj表示全词汇在语义文本j中出现的次数;
其中,ITPi表示逆文本频率,N表示总的语义文本个数,ni表示ni个语义文本包括第i个词汇,α为经验参数;
S5023、根据分词序列的区分词汇,将区分词汇相同的分词序列合并成分词序列集。
上述技术方案的工作原理:对于每个分词序列,选择其中具有更好类别区分能力的词汇,将词汇区分能力通过词频和逆文本频率的乘积进行计算;根据分词序列的区分词汇,将区分词汇相同的分词序列合并成分词序列集。
上述技术方案的有益效果:对于每个分词序列,能够选择其中具有更好类别区分能力的词汇;将词汇区分能力通过词频和逆文本频率的乘积进行计算,词频能够判断词汇在单个分词序列中出现的次数,逆文本频率能够判断词汇在其他分词序列中出现的次数;通过词频和逆文本频率的乘积,能够对一组分词序列中词汇的区分能力进行判断;可以根据分词序列的区分词汇,将区分词汇相同的分词序列合并成分词序列集,分词序列集将具有相同特征的分词序列分类在一起。
在一个实施例中,S600包括:
S601、在饮水机存储器中预存储饮水机操作指令相关分词;
S602、当不再有新的用户语音指令时,将各个方言识别子系统对应的分词序列集分词同饮水机操作指令相关分词进行对比,当对比符合饮水机某个操作时,则初始待识别语音被确定,执行该操作;
S603、当方言识别子系统所对应的分词序列集分词同预存储的词汇不相同时,等待新的待处理用户语音出现;确定所述初始待识别语音的识别结果。
上述技术方案的工作原理:在饮水机存储器中预存储和饮水机操作指令相关的分词;当不再有新的用户语音被接收后,将各个方言识别子系统对应的分词序列集分词同存储器预存储的分词进行对比,当对比符合饮水机某个操作时,则初始待识别语音被确定,执行该操作;当方言识别子系统所对应的分词序列集分词同预存储的词汇不相同时,等待新的待处理用户语音出现。
上述技术方案的有益效果:可以在饮水机存储器中预存储和饮水机操作指令相关的分词;当不再有新的用户语音被接收后,将各个方言识别子系统对应的分词序列集中的分词同存储器预存储的分词进行对比,能够判断用户语音是否符合饮水机中预先存储的某个操作;当对比符合饮水机某个操作时,则初始待识别语音被确定,执行该操作;当方言识别子系统所对应的分词序列集分词同预存储的词汇不相同时,等待新的待处理用户语音出现。通过在方言识别子系统中建立分词序列集,能够提高同存储器预存储的分词的对比效率,从而缩短执行操作所需要的执行时间。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节与这里示出与描述的图例。
Claims (10)
1.一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,包括:
S100、将初始待识别语音作为目标语音,通过一个或多个方言识别子系统对目标语音进行处理,得到语义文本;
S200、获取与语义文本对应的时序数列信息,获取各方言识别子系统对应方言的种类;
S300、将各语义文本及时序数列信息加入到相应方言识别子系统的历史分词集,获取各方言识别子系统对应的未处理目标语音得到新目标语音;
S400、循环执行S100-S300,直至各方言识别子系统均不存在未处理目标语音;
S500、根据方言识别子系统对应的历史分词集并形成一条或多条分词序列,基于分词序列构成相应方言识别子系统的分词序列集;
S600、从各方言识别子系统所对应的分词序列集中确定初始待识别语音的识别结果。
2.根据权利要求1所述的一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,S100包括:
S101、在饮水机中搭载数据库存储器,并在存储器中预先存储数据,预存储数据包括:与饮水机功能相关词汇的语义文本、不同地区方言的初始分词集;
S102、当饮水机接收到用户语音时,将语音作为初始待识别语音进行处理,调用一个或多个方言识别子系统;
S103、将方言语音和标准语音进行对比计算,确定待识别语音的初始置信度;
S104、计算待识别语音的置信度系数,计算公式如下:
其中,S12是待识别语音的置信度系数;Z1和Z2是方言语音和标准语音两种语音特征,Pi和Qj是语音特征的两个序列特征元集,rZ1和rZ2是两种语音特征的初始置信度;识别待识别语音的置信度,包括:当待识别语音的置信度系数S12≥0.9时,方言语音和标准语音两种语音特征识别为符合一致性;当待识别语音的置信度系数S12<0.9时,返回S102循环调用执行,直至方言语音和标准语音两种语音特征识别为符合一致性;
S105、识别符合一致性后,获得方言语音和标准语音对应符合一致性的语义文本。
3.根据权利要求1所述的一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,S200中,所述获取与语义文本对应的时序数列信息,包括:
S2011、对于用户语音中的信息进行处理,获得和不同语义文本相关的多类型信息;对多类型信息进行识别,提取出其中包含的事件因素;对事件因素进行进一步分析,从中挑选出时序要素;
S2012、对不同语义文本包含的各组事件因素进行进一步分析,按照时序要素建立多条用户时序数列,将各种事件因素以时序要素为基准排列在用户时序数列上;对用户语音的语气进行分析,根据不同语气选择不同操作;当分析得到用户语音为第一语气,则从用户时序数列过往记录中选择与用户语音的事件因素相符合的记录作为答案;
S2013、当分析得到用户语音为第二语气,则继续以时序要素为基准将事件因素排列在用户时序数列上;根据不同操作,通过将用户语音为第一语气时从用户时序数列过往记录中选择和用户语音为第二语气以时序要素为基准的事件因素排列,得到对应的时序数列信息。
4.根据权利要求1所述的一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,S200中,所述获取各方言识别子系统对应方言的种类,包括:
S2021、对当前待处理用户语音进行处理以辨别语音中存在的音节与音素,通过预处理提取方言语音中的语音参数,包括:音节名称、音素名称、音素持续时间、音素共振峰;
S2022、通过对语音参数进行统计,计算语音参数统计平均值计算公式如下:
S2023、通过第一类方言的方言识别子系统对当前语音样本进行分析,当某段音节所具备的各项语音参数和方言识别子系统中所存储的各项参数值偏差小于设定范围,则判定为该待处理语音中含有该类方言;当某段音节所具备的各项语音参数和方言识别子系统中所存储的各项参数值偏差不小于设定范围,则判定为该待处理语音中不含有该类方言;
S2024、通过第二类方言的方言识别子系统,继续对当前待处理的语音样本进行分析,重复步骤S2021~S2023的分析过程,对用户语音是否含有方言种类进行判断;方言种类包括:初始待识别语音所包含方言的种类;
S2025、重复调用饮水机的方言识别子系统,直至语音样本中所有预先存储的方言种类都已被识别出来;
S2026、将语音样本的内容按照方言种类进行归类。
5.根据权利要求1所述的一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,S300中,所述将各语义文本及时序数列信息加入到相应方言识别子系统的历史分词集,包括:
S3011、在各个方言识别子系统中分别建立相应方言的历史分词集,历史分词集中存储内容包括:来自用户语音方言部分;
S3012、将语义文本依据所属方言存储在历史分词集中;
S3013、当用户时序数列出现更新时,将历史分词集中的用户时序数列进行更新;
S3014、当待处理语音被处理和区分完毕时,将出现的新语义文本添加到历史分词集中。
6.根据权利要求1所述的一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,S300中,所述获取各方言识别子系统对应的未处理目标语音得到新目标语音,包括:
S3021、当饮水机接收到新的用户语音时,将新的用户语音作为待处理语音,将待处理语音同存储器中已经识别过的语音片段所含有的语音参数进行对比,确定当前待处理语音是否已经被提取语义文本和分类到相应方言识别子系统下;
S3022、对于待处理语音中和已经识别过的语音片段的语音参数偏差小于设定偏差的部分,作为已经处理部分;
S3023、对于待处理语音中和已经识别过的语音片段的语音参数偏差不小于设定偏差的部分,进行提取作为新的目标语音。
7.根据权利要求1所述的一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,S400,包括:
S401、针对新的目标语音,使用不同的方言识别子系统进行处理,识别出含有该种类方言的语音信号;
S402、对识别出的语音信号进行处理,划分为和不同语义文本相关的多类型信号;从多类型信号中提取出语义文本和事件因素;按照事件因素中的时序要素,更新相关的用户时序数列;
S403、通过各个方言识别子系统,继续对下一段新的目标语音进行处理,直到所有待处理的目标语音都被处理完毕,各方言识别子系统均不存在未处理目标语音。
8.根据权利要求1所述的一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,S500中,所述根据方言识别子系统对应的历史分词集并形成一条或多条分词序列,包括:
S5011、对方言识别子系统的历史分词集进行整理,按照历史分词集中的语义文本和时序数列信息,整理成分词序列;
S5012、根据语义文本间的相关性,当一个语义文本同已有分词序列中的语义文本的相关度高于相关度设定值时,将语义文本加入分词序列;当一个语义文本同已有分词序列中的语义文本的相关度不高于相关度设定值时,建立一个新的分词序列,将语义文本加入新的分词序列;
S5013、对于一组分词序列,按照语义文本中的时序要素,按照时序要素的先后顺序对分词序列中的语义文本进行排序,形成一条或多条分词序列。
9.根据权利要求1所述的一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,S500中,所述基于分词序列构成相应方言识别子系统的分词序列集,包括:
S5021、对于每个分词序列,选择其中具有更好类别区分能力的词汇,将词汇区分能力通过词频和逆文本频率的乘积进行计算
S5022、词频和逆文本频率的计算公式如下:
其中,TPi,j表示词频,i表示词汇,j表示当前语义文本,ci,j表示该词汇i在语义文本j中出现的次数,k表示全词汇量,ck,j表示全词汇在语义文本j中出现的次数;
其中,ITPi表示逆文本频率,N表示总的语义文本个数,ni表示ni个语义文本包括第i个词汇,α为经验参数;
S5023、根据分词序列的区分词汇,将区分词汇相同的分词序列合并成分词序列集。
10.根据权利要求1所述的一种用于智能语音饮水机的多方言混合语音识别方法,其特征在于,S600包括:
S601、在饮水机存储器中预存储饮水机操作指令相关分词;
S602、当不再有新的用户语音指令时,将各个方言识别子系统对应的分词序列集分词同饮水机操作指令相关分词进行对比,当对比符合饮水机某个操作时,则初始待识别语音被确定,执行该操作;
S603、当方言识别子系统所对应的分词序列集分词同预存储的词汇不相同时,等待新的待处理用户语音出现;确定所述初始待识别语音的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110540387.XA CN113270102A (zh) | 2021-05-18 | 2021-05-18 | 一种用于智能语音饮水机的多方言混合语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110540387.XA CN113270102A (zh) | 2021-05-18 | 2021-05-18 | 一种用于智能语音饮水机的多方言混合语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113270102A true CN113270102A (zh) | 2021-08-17 |
Family
ID=77231555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110540387.XA Withdrawn CN113270102A (zh) | 2021-05-18 | 2021-05-18 | 一种用于智能语音饮水机的多方言混合语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113270102A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793597A (zh) * | 2021-09-15 | 2021-12-14 | 云知声智能科技股份有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN116484052A (zh) * | 2023-06-26 | 2023-07-25 | 广州宏途数字科技有限公司 | 一种基于大数据的教育资源共享系统 |
-
2021
- 2021-05-18 CN CN202110540387.XA patent/CN113270102A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793597A (zh) * | 2021-09-15 | 2021-12-14 | 云知声智能科技股份有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN116484052A (zh) * | 2023-06-26 | 2023-07-25 | 广州宏途数字科技有限公司 | 一种基于大数据的教育资源共享系统 |
CN116484052B (zh) * | 2023-06-26 | 2023-12-01 | 广州宏途数字科技有限公司 | 一种基于大数据的教育资源共享系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109151218B (zh) | 通话语音质检方法、装置、计算机设备及存储介质 | |
US8666744B1 (en) | Grammar fragment acquisition using syntactic and semantic clustering | |
CN108711422B (zh) | 语音识别方法、装置、计算机可读存储介质和计算机设备 | |
EP0708960B1 (en) | Topic discriminator | |
EP0380297B1 (en) | Method and apparatus for speech recognition | |
US6208971B1 (en) | Method and apparatus for command recognition using data-driven semantic inference | |
US6681206B1 (en) | Method for generating morphemes | |
US6272455B1 (en) | Method and apparatus for understanding natural language | |
US7725318B2 (en) | System and method for improving the accuracy of audio searching | |
US7412093B2 (en) | Hybrid apparatus for recognizing answer type | |
CN110704571B (zh) | 庭审辅助处理方法、审判辅助处理方法、装置、设备及介质 | |
EP2028645A1 (en) | Method and system of optimal selection strategy for statistical classifications in dialog systems | |
JPWO2008023470A1 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
CN113270102A (zh) | 一种用于智能语音饮水机的多方言混合语音识别方法 | |
CN109065020A (zh) | 多语言类别的识别库匹配方法及系统 | |
Gorin et al. | Learning spoken language without transcriptions | |
Berkling et al. | Language identification of six languages based on a common set of broad phonemes. | |
Lauria | Talking to machines: introducing robot perception to resolve speech recognition uncertainties | |
Bougrine et al. | LSTM Network based on Prosodic Features for the Classification of Injunction in French Oral Utterances. | |
Sarkar et al. | Audio mining: unsupervised spoken term detection over an audio database | |
Combrinck et al. | Automatic language identification: Resisting complexity | |
Ariki et al. | News dictation and article classification using automatically extracted announcer utterance | |
Mary et al. | Modeling and fusion of prosody for speaker, language, emotion, and speech recognition | |
CN115510191A (zh) | 一种新意图类别的确定方法及装置 | |
CN115775554A (zh) | 一种多音字消歧方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210817 |
|
WW01 | Invention patent application withdrawn after publication |