CN117219076A - 进行设备控制的语音识别方法及相关产品 - Google Patents
进行设备控制的语音识别方法及相关产品 Download PDFInfo
- Publication number
- CN117219076A CN117219076A CN202311346184.2A CN202311346184A CN117219076A CN 117219076 A CN117219076 A CN 117219076A CN 202311346184 A CN202311346184 A CN 202311346184A CN 117219076 A CN117219076 A CN 117219076A
- Authority
- CN
- China
- Prior art keywords
- basic unit
- voice
- sequence
- unit sequence
- base unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000012545 processing Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种进行设备控制的语音识别方法及相关产品,所述方法包括:确定针对待控制设备的自定义命令词对应的第一基本单元序列集合;根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列;将所述第二基本单元序列与所述第一基本单元序列集合进行匹配;根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音。采用本发明,可在设备控制场景下,通过在设备本地部署的与语音识别相关的模型自动化、智能化地识别出自定义命令词的语音。
Description
技术领域
本发明涉及设备控制领域,尤其涉及一种进行设备控制的语音识别方法及相关产品。
背景技术
对设备进行控制通常采用按键控制方式,例如,手动触控设备上的虚拟按键或手动操作设备上的实体按键,以控制设备执行相应的操作。采用按键控制的方式需要用户靠近设备后,手动进行操作才能有效控制设备,使得进行设备控制的效率受到影响。
发明内容
本申请实施例提供一种进行设备控制的语音识别方法及相关产品,可在设备控制场景下,通过在设备本地部署的与语音识别相关的模型自动化、智能化地识别出自定义命令词的语音。
为了解决上述技术问题,第一方面,本申请实施例提供一种进行设备控制的语音识别方法,所述方法包括:
确定针对待控制设备的自定义命令词对应的第一基本单元序列集合;
根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列;
将所述第二基本单元序列与所述第一基本单元序列集合进行匹配;
根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音。
第二方面,本申请实施例提供了一种语音识别装置,所述装置包括:
确定单元,用于确定针对待控制设备的自定义命令词对应的第一基本单元序列集合;
所述确定单元,还用于根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列;
匹配单元,用于将所述第二基本单元序列与所述第一基本单元序列集合进行匹配;
所述确定单元,还用于根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音。
第三方面,本申请实施例提供了一种语音识别设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令,执行如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被计算机执行时,如第一方面所述的方法被执行。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器,所述处理器执行如第一方面所述的方法。
第六方面,本申请实施例提供了一种芯片模组,所述芯片模组包括收发组件和芯片,所述收发模组和所述芯片相连,所述芯片包括处理器,所述处理器执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
本申请可在设备控制场景下,基于基本单元在设备本地有效部署与语音识别相关的模型,使得通过设备本地部署的与语音识别相关的模型能够自动化、智能化地有效识别出进行设备控制的自定义命令词的语音,提升根据自定义命令词的语音进行设备控制的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种可能的应用场景示意图;
图2为本申请实施例提供的一种可能的进行设备控制的语音识别方法的流程示意图;
图3为本申请实施例提供的另一种可能的进行设备控制的语音识别方法的流程示意图;
图4为本申请实施例提供的一种可能的基本单元语言模型的状态转换图;
图5为本申请实施例提供的一种可能的语音识别装置500的功能单元组成框图;
图6为本申请实施例提供的一种可能的用于设备控制的语音识别设备600的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请的说明书、权利要求书及附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的对应关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
下面对本申请实施例的应用场景进行介绍:
请参见图1,图1为本申请实施例提供的一种可能的应用场景示意图。该应用场景中,包括一个或多个设备。图1以设备101和设备102等两个设备为例,并不构成对该应用场景中可能存在的设备的数量的限定。
在该应用场景中,用户103在设备101中输入至少一个自定义命令词的文本。设备将该至少一个自定义命令词的文本转换为了第一基本单元序列,形成了第一基本单元序列集合;其中,一个第一基本单元序列与一个自定义命令词一一对应。
随后,用户103发出命令词的语音。设备101接收到该语音后,根据设备101本地部署的基本单元声学模型和基本单元语言模型对该语音进行语音识别,确定该语音对应的第二基本单元序列,将第二基本单元序列与第一基本单元集合进行匹配,根据匹配结果确定该语音是否为自定义命令词对应的语音。
在一种可选的实施方式中,设备101根据语音识别结果对自身进行控制,和/或对其他设备进行控制。例如,设备101根据语音识别结果对设备101和/或设备102进行控制。又如,设备101根据语音识别结果确定该语音为对设备102的自定义命令词,则向设备102发送控制命令,以使设备102根据该控制命令执行该自定义命令词对应的操作。再如,设备101根据语音识别结果确定该语音为对设备101的自定义命令词,则控制设备101执行该自定义命令词对应的操作。
可选地,该应用场景中的设备包括但不限于智能家电、智能音箱、智能手机、平板电脑、笔记本电脑、工业物联网设备等能够对用户语音进行识别的智能设备和/或能够根据语音识别结果执行操作的智能设备。
可选地,在该应用场景中包括的多个设备可以为相同类型的设备,也可以为不同类型的设备。不同类型的设备是指多个设备中部分设备的类型不同,或者多个设备中全部设备的类型不同。例如,多个设备均为智能手机。又如,多个设备包括一个智能手机和一个智能音箱。再如,多个设备包括一个智能手机和两个智能音箱。
为了更好地理解本申请提供的方案,下面先对本申请涉及的专业术语和技术名词进行介绍:
一、基本单元和基本单元序列
基本单元包括音素(phone)、拼音和谐音字符中的至少一种。
其中,音素是根据语音的自然属性划分出来的最小语音单位,依据音节的发音动作来分析,一个动作构成一个音素。音素分为元音和辅音两大类。例如,汉语音节ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。
拼音,又称汉语拼音,是一种辅助汉字读音的工具,共有63个拼音;其中,声母23个,韵母24个,整体认读16个。
谐音字符是指具有相同音素或拼音的字符,例如,字符“家”、“佳”的拼音均为“jia”,则将“家”和“佳”看作是同一谐音字符。
可选地,该谐音字符可以使用其对应的音素、音素序列、拼音或拼音序列表示,例如,“家”和“佳”所对应的同一谐音字符可以使用拼音“jia”表示。
在一种可选的实施方式中,可以将音素或拼音相同且声调相同的字符看作是同一谐音字符。例如,字符“家”、“佳”的拼音均为“jia”,拼音声调均为阴平,即第一声,可以将字符“家”、“佳”看作是同一谐音字符。又如,字符“家”和“甲”的拼音均为“jia”,“家”拼音声调为阴平,即第一声,字符“甲”拼音声调为上声,即第三声,字符“家”和“甲”的拼音声调不同,字符“家”和“甲”为不同的谐音字符。可选地,谐音字符可以使用其对应的音素、音素序列、拼音或拼音序列,以及音素、音素序列、拼音或拼音序列的声调表示,例如,“家”和“佳”所对应的同一谐音字符可以使用带有声调的拼音“jiā”表示。
在另一种可选的实施方式中,可以将音素或拼音相同且声调不同的字符看作是同一谐音字符。例如,字符“家”和“甲”的拼音均为“jia”,“家”拼音声调为阴平,即第一声,字符“甲”拼音声调为上声,即第三声,字符“家”和“甲”的拼音声调不同,字符“家”和“甲”为相同的谐音字符。该谐音字符可以使用其对应的音素、音素序列、拼音或拼音序列表示,例如,“家”和“甲”所对应的同一谐音字符可以使用拼音“jia”表示。
汉字字符可以拆分为100个左右的基本单元的组合,使得原本众多的汉字可以使用较少的基本单元来表示,从而能够降低建模时声学模型和语言模型的体积,使得建模得到的声学模型和语言模型能够有效地部署在资源有限的设备本地。
基本序列由至少一个基本单元组成。可选地,基本单元序列由至少一个基本单元按照语音的时序,例如,按照语音帧的时序组成。可选地,基本单元序列中在前基本单元的语音时序早于在后基本单元的语音时序
在一种可选的实施方式中,基本单元序列可以具体为第一基本单元序列,第一基本单元序列可以是用户输入的自定义命令词对应的基本单元序列,第一基本单元序列由至少一个基本单元组成;例如,用户在设备中输入自定义命令词的文本,设备将该自定义命令词的文本转换为第一基本单元序列;可选地,设备可以根据发音词典将该自定义命令词的文本转换为第一基本单元序列。
在另一种可选的实施方式中,基本单元序列还可以具体为第二基本单元序列,第二基本单元序列是待识别语音对应的基本单元序列,第二基本单元序列由至少一个第二基本单元组成。至少一个第二基本单元包含在至少一个第一基本单元中,至少一个第一基本单元是由声学模型输出的分类概率对应的基本单元,或者,至少一个第一基本单元是由声学模型输出的基本单元。
可选地,基本单元序列还可以具体为第三基本单元序列,第三基本单元序列是根据基本单元语言模型和至少一个第一基本单元的分类概率获取的基本单元序列,第三基本单元序列由至少一个第二基本单元组成。
需说明的是,第一基本单元序列、第二基本单元序列和第三基本单元序列所包括的基本单元可以部分相同、全部相同或者完全不同。
二、命令词和自定义命令词
命令词用于指示待控制设备执行特定操作。自定义命令词是指由用户自定义的命令词。
三、语音特征
语音特征是语音数据的特征。语音特征可以例如包括但不限于语音信号的梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)、梅尔频带能量(Filter Bank,简称Fbank)和线性预测系数(Linear Prediction Coefficient,简称LPC)等。其中,MFCC是在梅尔(Mel)标度频率域提取出来的倒谱参数,是一种在自动语音和说话人识别中广泛使用的特征。由于人耳对声音频谱的响应是非线性的,Fbank是一种获得语音信号的Fbank特征的前端处理算法,类似于人耳的方式对音频进行处理,Fbank可以提高语音识别的性能。LPC反映了语音信号的频率特征,表示语音信号可以用一个线性滤波器来逼近。
四、发音词典、声学模型(Acoustic Model)和语言模型(Language Model)
发音词典是语音识别中的字典,包含了从词到基本单元之间的映射,用来描述各个词的发音或者给出各个词和基本单元之间的关系,其可以用来连接声学模型和语言模型。可选地,发音词典是记录有各个字符和各个字符相对应的基本单元和/或基本单元序列的标准文件。
声学模型用于识别单个整词、单个字符和/或单个基本单元,例如,声学模型的输入为语音特征,输出为用户发出整词、字符和/或基本单元的概率,又称整词、字符和/或基本单元的多分类概率,每个整词、字符和/或基本单元对应一个分类概率,每个整词、字符和/或基本单元对应的分类概率也可以看作是整词、字符和/或基本单元的观察概率,每个分类概率用于表示其对应的整词、字符和/或基本单元在语音特征对应的待识别语音中出现的概率。本申请实施例中,声学模型可以是神经网络(Neural Networks,NN)模型,例如,循环神经网络(Recurrent Neural Network,RNN)或卷积神经网络(Convolutional NeuralNetwork,CNN)等深度神经网络(Deep Neural Networks,DNN)。
可选地,声学模型可以通过整词建模,例如,将一个命令词作为一个整体进行声学模型的训练,训练好的声学模型输出的各分类概率分别表示各个命令词以及其他类别语音的可能性大小。其中,每个命令词对应声学模型输出的一个分类概率,该分类概率可以看作是命令词的观察概率,命令词的分类概率表示了该命令词在待识别语音中出现的概率。
可选地,声学模型可以通过字符建模,即将一个字符作为一个整体进行声学模型的训练,训练好的声学模型输出的各分类概率分别表示各个字符以及其他类别语音的可能性大小。其中,每个字符对应声学模型输出的一个分类概率,该分类概率可以看作是字符的观察概率,字符的分类概率表示了该字符在待识别语音中出现的概率。
可选地,声学模型可以通过基本单元建模,即将一个基本单元作为一个整体进行声学模型的训练,训练好的声学模型为基本单元声学模型,基本单元声学模型输出的各分类概率分别表示各个基本单元以及其他类别语音的可能性大小。其中,每个基本单元对应声学模型输出的一个分类概率,该分类概率可以看作是基本单元的观察概率,基本单元的分类概率表示了该基本单元在待识别语音中出现的概率。
语言模型用于对声学模型的输出结果进行处理以获得符合日常用语规范的语音识别结果,即语言模型用于确定整词序列、字符序列和/或基本单元序列在语料库中出现的概率大小。其中,语言模型通过统计整词、字符和/或基本单元在日常用语中的使用习惯来构建,例如,“吃”这个字符后面出现“书”的概率远低于“饭”的概率,以此来影响声学模型输出的整词、字符和/或基本单元的组合结果。本申请实施例中,语言模型可以是n-gram模型。
在一种可选的实施方式中,进行设备控制的语言模型为基本单元语言模型,基本单元语言模型限制了基本单元序列中各基本单元之间的组织规则。
在另一种可选的实施方式中,进行设备控制的语言模型为字符语言模型,字符语言模型限制了字符序列中各字符之间的组织规则。
对设备进行控制通常采用按键控制方式,例如,手动触控设备上的虚拟按键或手动操作设备上的实体按键,以控制设备执行相应的操作。采用按键控制的方式需要用户靠近设备后,手动进行操作才能有效控制设备,使得进行设备控制的效率受到影响。
在一种可选的实施方式中,可以通过语音识别的方式,对用户发出的命令词的语音进行识别,以根据语音识别结果对待控制设备进行控制。
语音识别方案包括但不限于声学模型和语言模型等两个主要模型。声学模型对生活中众多的字符进行独立建模,其输入可以为语音特征,输出可以为上万数量的字符各自对应的分类概率,导致声学模型的体积很大。语言模型根据文本形式的日常用语和/或书面语言进行训练,其规整了各种字符序列的概率。为了识别用户输入的任意命令词的语音,语言模型会覆盖几乎全部的字符,导致语音模型的体积会达到MB甚至GB的数量级别。
由于设备的本地芯片的资源限定,导致与语音识别相关的声学模型和语言模型在设备本地部署困难,本地的进行设备控制的语音识别功能受到限制;而将与语音识别相关的声学模型和语言模型部署在云端,例如,部署在云端的服务器,则需要设备先将采集到的用户的语音发送到云端,在云端通过与语言识别相关的声学模型和语言模型等模型识别出语音对应的文本后,再将语音识别结果返回到设备本地,设备再根据语音识别结果执行相应的操作,其使得设备与云端之间需进行复杂的交互,才能有效地获取语音识别结果,这一过程需要网络支持,其反应速度受到了网络的影响,使得根据语音识别结果进行设备控制的效率受到影响。
基于此,本申请提出了一种进行设备控制的语音识别方法及相关产品,实现了可在设备控制场景下,基于基本单元在设备本地有效部署与语音识别相关的模型,使得通过设备本地部署的与语音识别相关的模型能够自动化、智能化地有效识别出进行设备控制的自定义命令词的语音,提升了根据自定义命令词的语音进行设备控制的效率。
下面对本申请提供的进行设备控制的语音识别方法及相关产品进行详细介绍:
请参阅图2,图2为本申请实施例提供的一种可能的进行设备控制的语音识别方法的流程示意图。如图2所示,该进行设备控制的语音识别方法包括如下步骤201至步骤204。图2所示的方法执行主体可以为设备。或者,图2所示的方法执行主体可以为设备中的芯片或芯片模组。图2以设备为例进行说明。后续流程图的执行主体同理,不再赘述。其中:
201、设备确定针对待控制设备的自定义命令词对应的第一基本单元序列集合。
在一种可选的实施方式中,设备接收用户输入的针对待控制设备的自定义命令词的文本。
可选地,用户可以预先通过设备上的虚拟按键和/或实体按键输入自定义命令词的文本,用户可以预先通过语音向设备输入自定义命令词的文本,和/或用户可以预先通过其他设备输入自定义命令词的文本以使其他设备通过有线的方式或无线网络将该文本传输给该设备;用户还可以通过其他方式向设备输入自定义命令词的文本,在此不对输入自定义命令词的方式进行限定。
可选地,用户可以同时输入一条自定义命令词,同时或在短时间内输入多条自定义命令词,或者分多次分别输入多条自定义命令词。
可选地,设备在将自定义命令词的文本转换为第一基本单元序列后,将各自定义命令词对应的第一基本单元序列形成第一基本单元序列集合,即第一基本单元序列集合包括与所述自定义命令词对应的第一基本单元序列,第一基本单元序列集合所包括的第一基本单元序列可以为一条或多条,所述第一基本单元序列由至少一个基本单元组成,所述基本单元包括音素、拼音和谐音字符中的至少一种。
关于基本单元、基本单元序列、音素、拼音和谐音字符的描述参见前述专业术语和技术名词的介绍,在此不作赘述。
202、设备根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列。
在一种可选的实施方式中,设备中配置有收录装置,可以通过该收录装置接收用户发出的待识别语音。或者设备可以从其他设备中获取待识别语音,例如,设备通过移动网络或本地网络从其他设备中获取待识别语音。设备还可以通过其他方式获取待识别语音,在此不对获取待识别语音的方式进行限定。
在一种可选的实施方式中,在执行步骤202之前,设备还执行根据发音词典和语料训练声学模型,得到所述基本单元声学模型。
其中,所述发音词典包括至少一个字符和所述至少一个字符对应的基本单元和/或基本单元序列;所述语料包括至少一个样本语音和所述至少一个样本语音对应的语音标签;所述语音标签包括所述样本语音对应的字符序列,所述字符序列由至少一个字符组成,字符包括关键词字符和非关键词字符。
可选地,发音词典记录的各个字符为相应语言体系所对应的常用的文字,对于极少出现的文字可以包含或不包含在该发音词典中,在此不作限定。
在一种可选的实施方式中,在执行步骤202之前,设备还执行根据发音词典,将训练文本转换为样本基本单元序列;设备根据样本基本单元序列,对语言模型进行训练,得到所述基本单元语言模型。
可选地,将训练文本转换为样本基本单元序列包括:将训练文本中的字符序列转换为样本基本单元序列。可选地,训练文本可以来自于语料,或其他日常用语库。
基于基本单元对语言模型进行训练,得到的基本单元语言模型的输入为基本单元和/或基本单元序列,输出为第二基本单元序列。
本申请实施例中,基于样本基本单元序列对语言模型进行训练,使得训练得到的基本单元语言模型的体积较小,基本单元语言模型的体积通常可以达到几十KB的数量级别。
203、设备将所述第二基本单元序列与所述第一基本单元序列集合进行匹配。
在一种可选的实施方式中,所述将所述第二基本单元序列与所述第一基本单元序列集合进行匹配包括:将所述第二基本单元序列与所述第一基本单元序列集合所包括的至少一条第一基本单元序列进行匹配,以确定所述第一基本单元序列集合中是否存在满足匹配条件的第一基本单元序列,若存在,则将满足匹配条件的第一基本单元序列确定为与第二基本单元序列匹配的目标第一基本单元序列。
在一种可选的实施方式中,所述匹配条件包括以下至少一项:
所述第二基本单元序列与第一基本单元序列相同;
所述第二基本单元序列与第一基本单元序列的相同基本单元的数量,与所述第二基本单元序列的基本单元数量的比例大于或等于第一阈值;
所述第二基本单元序列与第一基本单元序列的相同基本单元的数量,与第一基本单元序列的基本单元数量的比例大于或等于第二阈值;
所述第二基本单元序列与第一基本单元序列的不同基本单元的数量,与所述第二基本单元序列的基本单元数量的比例小于或等于第三阈值;
所述第二基本单元序列与第一基本单元序列的不同基本单元的数量,与第一基本单元序列的基本单元数量的比例小于或等于第四阈值。
其中,第一基本单元序列的基本单元数量是指组成第一基本单元序列的基本单元的总数量;第二基本单元序列的基本单元数量是指组成第二基本单元序列的基本单元的总数量。
可选地,所述第二基本单元序列与第一基本单元序列相同是指所述第二基本单元序列与第一基本单元序列中在相同排序位置上的基本单元均相同。第一基本单元与第二基本单元中各位置的排序根据待识别语音的语音时序,例如,待识别语音的语音帧时序确定,语音时序在前的基本单元在第一基本单元序列和/或第二基本单元序列中的位置排序在语音时序在后的基本单元的位置之前。
可选地,所述第二基本单元序列与第一基本单元序列的相同基本单元是指所述第二基本单元序列与第一基本单元序列在相同排序位置上的基本单元相同,例如,第二基本单元序列为A1、A2、A3,第一基本单元序列为B1、A2、A1,其中,第二基本单元序列中排序位置在第二位的基本单元与第一基本单元序列中排序位置在第二位的基本单元均为A2,则确定在第二基本单元序列和第一基本单元序列中,A2这一基本单元相同;第二基本单元序列中基本单元A1排序位置在第一位,第一基本单元序列中基本单元A1排序在第三位,A1在两个基本单元序列中的排序位置不同,则确定在第二基本单元序列和第一基本单元序列中A1这一基本单元不同。
可选地,所述第二基本单元序列与第一基本单元序列的不同基本单元是指所述第二基本单元序列与第一基本单元序列在相同排序位置上的基本单元不同,例如,第二基本单元序列为A1、A2、A3,第一基本单元序列为B1、A2、A1,其中,第二基本单元序列中排序位置在第一位的基本单元为A1,第一基本单元序列中排序位置在第一位的基本单元为B1,A1不同于B1,则确定第二基本单元序列与第一基本单元序列中第一位的排序位置上的基本单元不同。
可选地,第一阈值、第二阈值、第三阈值和第四阈值均为基本单元数量比例阈值;第一阈值、第二阈值、第三阈值和第四阈值可以完全相同,部分相同或者完全不同;第一阈值、第二阈值、第三阈值和/或第四阈值可以预设在设备中,例如在设备出厂时写入设备的存储器中,或者也可以由用户在设备中输入或更改第一阈值、第二阈值、第三阈值和/或第四阈值,还可以通过其他方式设置和更改第一阈值、第二阈值、第三阈值和/或第四阈值,在此不对第一阈值、第二阈值、第三阈值和/或第四阈值的设置和更改方式进行限定。
204、设备根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音。
在一种可选的实施方式中,执行步骤204包括:响应于确定所述第二基本单元序列与所述目标第一基本单元序列匹配,设备确定所述待识别语音为目标自定义命令词序列对应的语音。
其中,所述第一基本单元序列集合包括所述目标第一基本单元序列,所述目标自定义命令词与所述目标第一基本单元序列对应。
例如,目标第一基本单元序列为“tiao gao wen du”,目标自定义命令词“调高温度”与该目标第一基本单元序列对应,从而可以确定待识别语音为“调高温度”对应的语音。
在另一种可选的实施方式中,响应于确定所述第二基本单元序列与所述第一基本单元序列集合不匹配,将所述待识别语音发送至其他设备,以使所述其他设备对所述待识别语音进行语音识别处理。
其中,所述其他设备设置于在非公共网络(Non-Public Network,简称NPN)中和/或设置在公共网络(Public Land Mobile Network,简称PLMN)中。公共网络是指网络运营商建设,供公共用户使用的通信网络,根据3GPP协议的规定,当电子设备接入公共网络时,可以根据公共陆地移动网络标识(PLMN ID)确定公共网络的运营商名称,比如PLMN ID是35002、35003,其运营商名称对应的是运营商A。非公共网络区别于公共网络,是供特定用户提供服务的网络,比如一些政府专网或企业专网,通过NPN构建端到端的内部网络,从而可以将私有流量限制在非公共网络内部,而无需到达公共网络领域。非公共网络包括独立组网的非公共网络(Stand-alone Non-Public Network,简称SNPN)和非独立组网的非公共网络(Public Network Integrated Non-Public Network,简称PNI-NPN),其中,SNPN网络不依赖网络运营商的公共网络提供的功能,SNPN网络可以是一个隔离的不与PLMN之间交互的NPN网络;PNI-NPN网络可以完全或部分托管在PLMN基础设施上,依赖于一些网络运营商的功能。
可选地,所述第二基本单元序列与所述第一基本单元序列集合不匹配是指所述第一基本单元序列集合中不存在与第二基本单元序列匹配的第一基本单元序列。
可选地,可能是由于设备能力的原因,导致该设备无法有效进行语音识别,而确定出所述第二基本单元序列与所述第一基本单元序列集合不匹配,此时该设备可将待识别语音通过非公共网络和/或公共网络发送给其他设备,以通过其他设备再次尝试进行步骤201至204中至少一项步骤的语音识别过程。
在再一种可选的实施方式中,响应于确定所述第二基本单元序列与所述第一基本单元序列集合不匹配,确定待识别语音不是自定义命令词的语音,不作处理。
本申请实施例中,设备中的基本单元声学模型和基本单元语言模型只用预先训练一次。在向设备输入新的自定义命令词后,并不利用新的自定义命令词对设备本地部署的基本单元声学模型和/或基本单元语言模型进行更新,而是将自定义命令词转换为第一基本单元序列。仍利用原本训练好的基本单元声学模型和基本单元语言模型对后续用户输入的待识别语音进行基本单元序列转换,得到第二基本单元序列。根据第一基本单元序列与第二基本单元序列的匹配结果,确定待识别语音是否为自定义命令词对应的语音。其无需与云端联网、无需对设备本地的与语音识别相关的基本单元声学模型和基本单元语言模型进行再编译、再训练和更新等,支持用户个性化地自定义任意数量的任意命令词,以及能够通过设备本地的与语音识别相关的基本单元声学模型和基本单元语言模型有效地识别任意自定义命令词的语音。
本申请实施例,可在设备控制场景下,基于基本单元在设备本地有效部署与语音识别相关的模型,使得通过设备本地部署的与语音识别相关的模型能够自动化、智能化地有效识别出进行设备控制的自定义命令词的语音,提升了根据自定义命令词的语音进行设备控制的效率。
请参阅图3,图3为本申请实施例提供的另一种可能的进行设备控制的语音识别方法的流程示意图。如图3所示,该进行设备控制的语音识别方法包括如下步骤301至步骤309。图3所示的方法执行主体可以为设备。或者,图3所示的方法执行主体可以为设备中的芯片或芯片模组。图3以设备为例进行说明。后续流程图的执行主体同理,不再赘述。其中:
301、设备确定针对待控制设备的自定义命令词对应的第一基本单元序列集合。
302、设备提取所述待识别语音的语音特征。
在一种可选的实施方式中,设备可以对由待识别语音形成的语音信号进行直流去除、去噪等处理;从处理得到的语音信号中提取包括但不限于梅尔频率倒谱系数、梅尔频带能量和线性预测系数等语音特征。
在一种可选的实施方式中,待识别语音的语音特征按照待识别语音的语音时序提取,例如,待识别语音的语音时序为语音帧时序,每帧语音帧有10ms,从每帧语音帧中提取一组语音特征,按照待识别语音的语音帧时序,依次将各语音帧对应的各组语音特征输入到声学模型中。
关于待识别语音的获取方式可以参见图2所示方法实施例中步骤202的描述。
可选地,在设备提取待识别语音的语音特征后,设备根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列。可选地,设备根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列包括如下步骤303至步骤305。
303、设备根据所述基本单元声学模型对所述语音特征进行基本单元转换处理,得到至少一个第一基本单元的分类概率。
其中,第一基本单元是基本单元声学模型输出的基本单元,和/或第一基本单元是基本单元声学模型输出的分类概率对应的基本单元。其中,每个第一基本单元对应声学模型输出的一个分类概率,该分类概率可以看作是第一基本单元的观察概率,第一基本单元的分类概率表示了该第一基本单元在待识别语音中出现的概率。
可选地,输入到基本单元声学模型的语音特征是按照待识别语音的语音时序排列的,例如,按照待识别语音的语音帧时序排列。基本单元声学模型对每一组输入的语音特征的输出都是按照分类的不同有多种第一基本单元的结果。其中,每个第一基本单元会附有不同概率,即基本单元声学模型输出各第一基本单元的分类概率。
关于声学模型和基本单元声学模型的描述可以参见前述专业术语和技术名词的介绍,关于基本单元声学模型的训练可以参见图2所示方法实施例中的步骤202的描述,在此不作赘述。
304、设备根据所述基本单元音素语言模型和所述至少一个第一基本单元的分类概率,对所述至少一个第一基本单元进行序列转换,得到至少一个第三基本单元序列以及所述至少一个第三基本单元序列的权重。
其中,所述至少一个第三基本单元序列与所述至少一个第三基本单元序列的权重一一对应。
在一种可选的实施方式中,所述第三基本单元序列由至少一个第二基本单元按照待识别语音的语音时序组成,例如,按照待识别语音的语音帧时序组成;所述至少一个第一基本单元包括所述至少一个第二基本单元;所述第三基本单元序列的权重至少由所述至少一个第二基本单元的分类概率和所述第三基本单元序列在所述基本单元语言模型中的跳转概率叠加得到。
可选地,所述基本单元语言模型中的跳转概率,即基本单元语言模型处理过程中给出的基本单元语言模型概率,表示了基本单元序列中各基本单元组合的概率,即表示了基本单元序列在语料库中出现的概率大小。
可选地,所述至少一个第一基本单元包括所述至少一个第二基本单元是指组成第三基本单元序列的第二基本单元可以包括基本单元声学模型输出的分类概率对应的所有第一基本单元中的部分基本单元,或者也可以包括基本单元声学模型输出的分类概率对应的全部第一基本单元。
关于语言模型和基本单元语言模型的描述可以参见前述专业术语和技术名词的介绍,关于基本单元语言模型的训练可以参见图2所示方法实施例中的步骤202的描述,在此不作赘述。
305、设备将所述至少一个第三基本单元序列的权重中满足权重条件的权重对应的第三基本单元序列,确定为所述第二基本单元序列。
在一种可选的实施方式中,步骤305中的权重条件可以为以下权重条件中的至少之一:
至少一个第三基本单元序列对应的权重中的最大权重;
至少一个第三基本单元序列对应的权重中大于权重阈值的权重。
其中,权重阈值可以预先设置在设备中,例如,可以在设备出厂时设置在设备中,或者也可以由用户在设备中对权重阈值进行设置或更新,还可以通过其他方式设置权重阈值,在此不对权重阈值的设置和更新方式进行限定。
请参阅图4,图4为本申请实施例提供的一种可能的基本单元语言模型的状态转换图。如图4所示的基本单元语言模型用于将基本单元转换为基本单元序列。其中,该基本单元语言模型按照待识别语音的语音时序,例如,按照待识别语音的语音帧时序,对基本单元进行状态跳转,每次进行状态跳转的输入和输出都是相同的基本单元,每次进行状态跳转的权重w由基本单元声学模型输出的分类概率和基本语言模型固有的跳转概率叠加得到。将基本单元语言模型在各语音时序输出的基本单元,例如第二基本单元,进行组合,得到至少一个基本单元序列,例如,得到至少一个第三基本单元序列。随后输出该至少一个基本单元中最大的或者大于权重阈值的权重对应的基本单元序列,例如,输出第二基本单元序列。图4中,id表示不同的状态的索引,0表示初始状态,双圈表示结束状态,i表示状态跳转输入的基本单元,o表示状态跳转输出的基本单元,w表示状态跳转的权重。图4中的“输入基本单元:输出基本单元”仅是用于表示位于其下的方框中的“i”是状态跳转输入的基本单元,“o”是状态跳转输出的基本单元,并且状态跳转输出的基本单元携带有状态跳转的权重w;在实际的基本单元语言模型中不会出现针对“输入基本单元:输出基本单元”的相关信息。
举例而言,假设待识别语音的每个语音帧为10ms,每10ms会向基本单元声学模型输入一组语音特征。如此,针对第一组语音特征,基本单元声学模型输出基本单元A1、B1、C1、D1,其中A1、B1、C1、D1是并列关系,并且基本单元声学模型针对每个基本单元都对应输出了分类概率,将基本单元A1、B1、C1、D1及其分类概率输入到基本单元语言模型中。如此类推,针对第二组语音特征,基本单元声学模型输出基本单元A2、B2、C2、D2及其分类概率,并将基本单元A2、B2、C2、D2及其分类概率输入到基本单元语言模型中;针对第三组语音特征,声学模型输出基本单元A3、B3、C3、D3及其分类概率,并将基本单元A3、B3、C3、D3及其分类概率输入到基本单元语言模型中。30ms之后,就可以在基本单元语言模型中形成64组第三基本单元序列,例如,第三基本单元序列可以包括A1、A2、A3;A1、A2、B3;A1、B2、C3等,第三基本单元序列中在前基本单元的语音时序早于在后基本单元的语音时序,例如第三基本单元序列A1、A2、A3中,在前的A1的语音帧时序早于在后的A2的语音帧时序,在前的A2的语音帧时序早于在后的A3的语音帧时序。基本单元语言模型对第三基本单元序列进行状态转换,以为第三基本单元序列叠加基本单元语言模型的跳转概率,例如,A1、A2、A3等三个基本单元依次按照A1、A2、A3的顺序组合的概率较大,则为A1、A2、A3增加跳转概率,A1、A2、B3等三个基本单元依次按照A1、A2、B3的顺序组合的概率较小,则为A1、A2、B3减小跳转概率。基本单元语言模型将满足权重条件的第三基本单元序列输出,例如,将权重最大的第三基本单元序列输出,以作为第二基本单元序列。其中,第三基本单元序列的权重为第三基本单元序列中各第二基本单元的分类概率和第三基本单元序列在基本单元语言模型中的跳转概率的叠加。基本单元语言模型的跳转概率为先验概率。
关于第二基本单元序列、第三基本单元序列、待识别语音的语音时序的描述还可以参见前述专业术语和技术名词的介绍,在此不作赘述。
306、设备将所述第二基本单元序列与所述第一基本单元序列集合进行匹配。
307、设备根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音。
308、设备确定所述目标第一基本单元序列对应的控制指令。
其中,目标第一基本单元序列是第一基本单元序列集合中与第二基本单元序列匹配的第一基本单元序列。
可选地,目标第一基本单元序列与目标自定义命令词对应。在向设备输入自定义命令词的文本时,还可以在设备中将自定义命令词与针对待控制设备的相应的控制命令关联,或者在设备设定自定义命令词针对待控制设备所对应的控制命令,例如,设定自定义命令词与针对待控制设备的控制命令之间的对应关系。其中,针对待控制设备的控制命令用于指示待控制设备执行目标操作,例如,“调高温度”的控制命令可以指示待控制的智能空调执行调高温度的操作。
可选地,设备在确定目标第一基本单元序列后,可以确定与目标第一基本单元序列关联或对应的控制命令,例如,根据自定义命令词与针对待控制设备控制命令之间的对应关系,确定目标第一基本单元序列针对待控制设备所对应的控制命令。
309、设备按照所述控制指令控制待控制设备。
在一种可选的实施方式中,设备可以根据该控制命令控制自身执行目标操作,即该设备为控制命令所对应控制的待控制设备。
在另一种可选的实施方式中,设备可以根据该控制命令控制除该设备以外的其他设备执行目标操作,即其他设备为控制命令所对应控制的待控制设备。
在再一种可选的实施方式中,设备可以根据该控制命令控制该设备和除该设备以外的其他设备执行目标操作,即该设备和其他设备为控制命令所对应的待控制设备。
关于步骤301、306、307的描述可以参见图2所示方法实施例中的步骤201、203、204的描述,在此不作赘述。
本申请实施例中,设备中的基本单元声学模型和基本单元语言模型只用预先训练一次。在向设备输入新的自定义命令词后,并不利用新的自定义命令词对设备本地部署的基本单元声学模型和/或基本单元语言模型进行更新,而是将自定义命令词转换为第一基本单元序列。仍利用原本训练好的基本单元声学模型和基本单元语言模型对后续用户输入的待识别语音进行基本单元序列转换,得到第二基本单元序列。根据第一基本单元序列与第二基本单元序列的匹配结果,确定待识别语音是否为自定义命令词对应的语音。其无需与云端联网、无需对设备本地的与语音识别相关的基本单元声学模型和基本单元语言模型进行再编译、再训练和更新等,支持用户个性化地自定义任意数量的任意命令词,以及能够通过设备本地的与语音识别相关的基本单元声学模型和基本单元语言模型有效地识别任意自定义命令词的语音。
本申请实施例,可在设备控制场景下,基于基本单元在设备本地有效部署与语音识别相关的模型,使得通过设备本地部署的与语音识别相关的模型能够自动化、智能化地有效识别出进行设备控制的自定义命令词的语音,提升了根据自定义命令词的语音进行设备控制的效率。
上述主要从方法侧的角度对本申请实施例的方案进行了介绍。可以理解的是,设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件与计算机软件的结合形式来实现。某个功能究竟以硬件或计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对设备进行功能单元的划分。例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,只是一种逻辑功能划分,而实际实现时可以有另外的划分方式。
请参见图5,图5为本申请实施例提供的一种可能的语音识别装置500的功能单元组成框图,该语音识别装置500可以应用于设备中。该语音识别装置500包括:确定单元501和匹配单元502。确定单元501和匹配单元502可以是用于对信号、数据、信息等进行处理的模块单元,对此不作具体限制。
该语音识别装置500还可以包括存储单元,用于存储该语音识别装置500所执行的计算机程序代码或者指令。存储单元可以是存储器。
另外,需要说明的是,该语音识别装置500可以是芯片或者芯片模组。
确定单元501和匹配单元502可以集成在处理单元中。处理单元可以是处理器或控制器,例如可以是中央处理器(central processing unit,CPU)、通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application-specificintegrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框、模块和电路。处理单元也可以是实现计算功能的组合,例如包含一个或多个微处理器组合、DSP和微处理器的组合等等。
具体实现时,确定单元501和/或匹配单元502用于执行如上述方法实施例中由设备执行的任一步骤。下面进行详细说明。
确定单元501,用于确定针对待控制设备的自定义命令词对应的第一基本单元序列集合;
所述确定单元501,还用于根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列;
匹配单元502,用于将所述第二基本单元序列与所述第一基本单元序列集合进行匹配;
所述确定单元501,还用于根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音。
在一种可选的实施方式中,所述第一基本单元序列集合包括与所述自定义命令词对应的第一基本单元序列;所述第一基本单元序列由至少一个基本单元组成;所述基本单元包括音素、拼音和谐音字符中的至少一种。
在一种可选的实施方式中,所述语音识别装置500还可以包括:
提取单元,用于在所述根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列之前,提取所述待识别语音的语音特征;
可选地,所述提取单元可以集成在处理单元中。
所述确定单元501,在所述根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列方面,具体用于根据所述基本单元声学模型对所述语音特征进行基本单元转换处理,得到至少一个第一基本单元的分类概率;
根据所述基本单元语言模型和所述至少一个第一基本单元的分类概率,对所述至少一个第一基本单元进行序列转换,得到至少一个第三基本单元序列以及所述至少一个第三基本单元序列的权重,所述至少一个第三基本单元序列与所述至少一个第三基本单元序列的权重一一对应;
将所述至少一个第三基本单元序列的权重中满足权重条件的权重对应的第三基本单元序列,确定为所述第二基本单元序列。
在一种可选的实施方式中,所述第三基本单元序列由至少一个第二基本单元按照待识别语音的语音时序组成;所述至少一个第一基本单元包括所述至少一个第二基本单元;所述第三基本单元序列的权重至少由所述至少一个第二基本单元的分类概率和所述第三基本单元序列在所述基本单元语言模型中的跳转概率叠加得到。
在一种可选的实施方式中,所述确定单元501,在所述根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音方面,具体用于响应于确定所述第二基本单元序列与所述目标第一基本单元序列匹配,确定所述待识别语音为目标自定义命令词对应的语音,所述第一基本单元序列集合包括所述目标第一基本单元序列,所述目标自定义命令词与所述目标第一基本单元序列对应。
在一种可选的实施方式中,所述语音识别装置500还可以包括:
转换单元,用于在所述根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列之前,根据发音词典,将训练文本转换为样本基本单元序列;
训练单元,用于根据样本基本单元序列,对语言模型进行训练,得到所述基本单元语言模型。
可选地,所述转换单元和所述训练单元可以集成在处理单元中。
在一种可选的实施方式中,所述训练单元,在所述根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列之前,还用于根据发音词典和语料训练声学模型,得到所述基本单元声学模型;
其中,所述发音词典包括至少一个字符和所述至少一个字符对应的基本单元序列;所述语料包括至少一个样本语音和所述至少一个样本语音对应的语音标签;所述语音标签包括所述样本语音对应的字符序列,所述字符序列由至少一个字符组成。
在一种可选的实施方式中,所述确定单元501,在所述根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音之后,还用于确定所述目标第一基本单元序列对应的控制指令;
所述语音识别装置500还可以包括:
控制单元,用于按照所述控制指令控制待控制设备。
可选地,所述控制单元可以集成在处理单元中。
在一种可选的实施方式中,所述语音识别装置500还可以包括:
发送单元,用于响应于确定所述第二基本单元序列与所述第一基本单元序列集合不匹配,将所述待识别语音发送至其他设备,以使所述其他设备对所述待识别语音进行语音识别处理;
其中,所述其他设备设置于非公共网络和/或公共网络。
可选地,所述发送单元可以集成在处理单元中。
其中,该实施方式的相关内容可参见上述方法实施例的相关内容。此处不再详述。本申请实施例和上述方法实施例基于同一构思,其带来的技术效果也相同,具体原理请参照上述方法实施例的描述,在此不赘述。
请参阅图6,图6为本申请实施例提供的一种可能的用于设备控制的语音识别设备600的结构示意图,具体如图6所示,所述语音识别设备600,包括:处理器601和存储器602,所述处理器601和所述存储器602相互连接。可选的,还包括通信接口(图中未示出)。存储器602、处理器601和通信接口通过一条或多条通信总线连接。其中,通信接口受处理器601的控制用于收发信息。
所述存储器602可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。
所述通信接口用于接收或发送数据。
所述处理器601可以是中央处理器(Central Processing Unit,CPU),该处理器601还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器,可选的,该处理器601也可以是任何常规的处理器等。
该语音识别设备600可以用于执行上述方法实施例中设备的部分或全部功能。
所述存储器602,用于存储计算机程序603,所述计算机程序603包括程序指令;
所述处理器601,用于调用所述程序指令时,执行上述方法实施例中设备所执行的方法。
需说明的是,图6对应的实施例中未提及的内容以及各个步骤的具体实现方式可参见上述方法实施例的内容,这里不在赘述。
示例性地,本发明实施例还提供一种可能的计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被计算机执行时,例如所述程序指令被处理器或计算机执行时,上述设备执行的方法实施例的方法流程将被实现。所述设备的具体实现可参考前述实施例的相关内容的描述,这里不在赘述。可以理解的是,此处的计算机存储介质既可以包括设备中的内置存储介质,当然也可以包括设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了设备的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-VolatileMemory),例如至少一个磁盘存储器,还可以是Flash(闪存);可选的还可以是至少一个位于远离前述处理器的计算机存储介质。所述设备的具体实现可参考前述方法实施例的相关内容的描述,在此不作赘述。
示例性地,本申请实施例还提供一种可能的芯片,所述芯片包括处理器,所述处理器用于执行上述方法实施例中设备执行的相关步骤。所述设备的具体实现可参考前述方法实施例的相关内容的描述,在此不作赘述。
在一种可选的实施方式中,所述芯片还包括至少一个第一存储器和至少一个第二存储器;前述至少一个第一存储器和前述第一处理器通过线路互联,前述至少一个第一存储器和前述第二处理器通过线路互联,前述第一存储器存储有指令;前述至少一个第二存储器和前述第一处理器通过线路互联,前述至少一个第二存储器和前述第二处理器通过线路互联,前述第二存储器中存储上述方法实施例中需要存储的数据。
示例性地,本申请实施例还提供一种可能的芯片模组,所述芯片模组包括收发组件和芯片,所述收发模组和所述芯片相连,所述芯片包括处理器,所述处理器用于执行上述方法实施例中设备执行的相关步骤。可选的,所述芯片还可以包括存储器以及存储在存储器上的计算机程序或指令,所述处理器执行该计算机程序或指令以实现上述方法实施例所描述的步骤。所述设备的具体实现可参考前述方法实施例的相关内容的描述,在此不作赘述。
在一种可选的实施方式中,所述芯片与所述收发组件通过线路互联;通过所述收发组件,所述芯片模组可以和其他芯片模组、其他终端、服务器等模组或设备之间交互数据。
关于上述实施例中描述的各个装置、产品包含模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。例如,对于应用或集成芯片的各个装置、产品其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者至少部分模块/单元可以采用软件程序的方式实现,该运行于芯片内部集成处理器,剩余的部分模块/单元可以采用电路等硬件方式实现;对于应于或集成芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同模块/单元可以位于芯片模组的同一件(例如片、电路模块等)或者不同组件中,至少部分/单元可以采用软件程序的方式实现,该软件程运行于芯片模组内部集成处理器剩余部分模块/单元可以采用电路等硬件方式实现;对于应或集成终端的各个装置、产品,其包含的模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者至少部分模块/单元可以采用软件程序的方式实现,该序运行于终端内部集成的处理器,剩余分模块/单元可以采用电路等硬件方式实现。
本申请实施例所描述的方法或者算法的步骤可以以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-onlymemory,ROM)、可擦除可编程只读存储器(erasable programmable ROM,EPROM)、电可擦可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(applicationspecific integrated circuit,ASIC)中。另外,该ASIC可以位于用户设备或网络设备中。当然,处理器和存储介质也可以作为分立组件存在于用户设备或网络设备中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例所描述的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,数字视频光盘(digital video disc,DVD))或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述的具体实施方式,对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述为本申请实施例的具体实施方式而已,并不用于限定本申请实施例的保护范围,凡在本申请实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请实施例的保护范围之内。
Claims (14)
1.一种进行设备控制的语音识别方法,其特征在于,所述方法包括:
确定针对待控制设备的自定义命令词对应的第一基本单元序列集合;
根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列;
将所述第二基本单元序列与所述第一基本单元序列集合进行匹配;
根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音。
2.如权利要求1所述的方法,其特征在于,所述第一基本单元序列集合包括与所述自定义命令词对应的第一基本单元序列;所述第一基本单元序列由至少一个基本单元组成;所述基本单元包括音素、拼音和谐音字符中的至少一种。
3.如权利要求1或2所述的方法,其特征在于,所述根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列之前,所述方法还包括:
提取所述待识别语音的语音特征;
所述根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列,包括:
根据所述基本单元声学模型对所述语音特征进行基本单元转换处理,得到至少一个第一基本单元的分类概率;
根据所述基本单元语言模型和所述至少一个第一基本单元的分类概率,对所述至少一个第一基本单元进行序列转换,得到至少一个第三基本单元序列以及所述至少一个第三基本单元序列的权重,所述至少一个第三基本单元序列与所述至少一个第三基本单元序列的权重一一对应;
将所述至少一个第三基本单元序列的权重中满足权重条件的权重对应的第三基本单元序列,确定为所述第二基本单元序列。
4.如权利要求3所述的方法,其特征在于,所述第三基本单元序列由至少一个第二基本单元按照待识别语音的语音时序组成;所述至少一个第一基本单元包括所述至少一个第二基本单元;所述第三基本单元序列的权重至少由所述至少一个第二基本单元的分类概率和所述第三基本单元序列在所述基本单元语言模型中的跳转概率叠加得到。
5.如权利要求1或2所述的方法,其特征在于,所述根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音,包括:
响应于确定所述第二基本单元序列与目标第一基本单元序列匹配,确定所述待识别语音为目标自定义命令词对应的语音,所述第一基本单元序列集合包括所述目标第一基本单元序列,所述目标自定义命令词与所述目标第一基本单元序列对应。
6.如权利要求1或2所述的方法,其特征在于,所述根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列之前,所述方法还包括:
根据发音词典,将训练文本转换为样本基本单元序列;
根据样本基本单元序列,对语言模型进行训练,得到所述基本单元语言模型。
7.如权利要求1或2所述的方法,其特征在于,所述根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列之前,所述方法还包括:
根据发音词典和语料训练声学模型,得到所述基本单元声学模型;
其中,所述发音词典包括至少一个字符和所述至少一个字符对应的基本单元序列;所述语料包括至少一个样本语音和所述至少一个样本语音对应的语音标签;所述语音标签包括所述样本语音对应的字符序列,所述字符序列由至少一个字符组成。
8.如权利要求5所述的方法,其特征在于,所述根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音之后,所述方法还包括:
确定所述目标第一基本单元序列对应的控制指令;
按照所述控制指令控制待控制设备。
9.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
响应于确定所述第二基本单元序列与所述第一基本单元序列集合不匹配,将所述待识别语音发送至其他设备,以使所述其他设备对所述待识别语音进行语音识别处理;
其中,所述其他设备设置于非公共网络和/或公共网络。
10.一种语音识别装置,其特征在于,所述装置包括:
确定单元,用于确定针对待控制设备的自定义命令词对应的第一基本单元序列集合;
所述确定单元,还用于根据基本单元声学模型和基本单元语言模型,确定待识别语音对应的第二基本单元序列;
匹配单元,用于将所述第二基本单元序列与所述第一基本单元序列集合进行匹配;
所述确定单元,还用于根据匹配结果确定所述待识别语音为所述自定义命令词对应的语音。
11.一种语音识别设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令,执行如权利要求1至9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被计算机执行时,如权利要求1至9任一项所述的方法被执行。
13.一种芯片,其特征在于,所述芯片包括处理器,所述处理器执行如权利要求1至9任一项所述的方法。
14.一种芯片模组,其特征在于,所述芯片模组包括收发组件和芯片,所述收发模组和所述芯片相连,所述芯片包括处理器,所述处理器执行如权利要求1至9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311346184.2A CN117219076A (zh) | 2023-10-17 | 2023-10-17 | 进行设备控制的语音识别方法及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311346184.2A CN117219076A (zh) | 2023-10-17 | 2023-10-17 | 进行设备控制的语音识别方法及相关产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117219076A true CN117219076A (zh) | 2023-12-12 |
Family
ID=89042637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311346184.2A Pending CN117219076A (zh) | 2023-10-17 | 2023-10-17 | 进行设备控制的语音识别方法及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117219076A (zh) |
-
2023
- 2023-10-17 CN CN202311346184.2A patent/CN117219076A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
EP3770905B1 (en) | Speech recognition method, apparatus and device, and storage medium | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN108831439B (zh) | 语音识别方法、装置、设备和系统 | |
CN103280216B (zh) | 改进依赖上下文的语音识别器对环境变化的鲁棒性 | |
CN108305634A (zh) | 解码方法、解码器及存储介质 | |
CN110534099A (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN107195296A (zh) | 一种语音识别方法、装置、终端及系统 | |
CN110277088B (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
CN104969288A (zh) | 基于话音记录日志提供话音识别系统的方法和系统 | |
CN112349289B (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
CN113837299B (zh) | 基于人工智能的网络训练方法及装置、电子设备 | |
CN112562681B (zh) | 语音识别方法和装置、存储介质 | |
CN110019741A (zh) | 问答系统答案匹配方法、装置、设备及可读存储介质 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
Sahu et al. | A study on automatic speech recognition toolkits | |
CN114078472A (zh) | 一种低误唤醒率的关键词计算模型的训练方法及装置 | |
CN112216270B (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
CN113486661A (zh) | 一种文本理解方法、系统、终端设备和存储介质 | |
CN103474063B (zh) | 语音辨识系统以及方法 | |
CN113724698B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN117219076A (zh) | 进行设备控制的语音识别方法及相关产品 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN114708859A (zh) | 语音命令词识别训练方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |