具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明实施例提供了一种基于方言纠正模型的语音识别方法、装置、计算机设备及存储介质。
该基于方言纠正模型的语音识别方法的执行主体可以是本发明实施例提供的基于方言纠正模型的语音识别装置,或者集成了该基于方言纠正模型的语音识别装置的计算机设备,其中,该基于方言纠正模型的语音识别装置可以采用硬件或者软件的方式实现,该计算机设备可以为终端或服务器,该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。
请参阅图1,图1为本发明实施例提供的基于方言纠正模型的语音识别方法的应用场景示意图。该基于方言纠正模型的语音识别方法应用于图1中的终端10中,该终端10中预设有方言纠正模型,该方言纠正模型包括普通话识别子模型、语义通顺度计算子模型以及方言识别子模型,终端10在进行语音识别时,首先获取待识别语音;然后对所述待识别语音进行拼音解析处理,得到所述待识别语音对应的待识别拼音序列;将所述待识别拼音序列输入所述普通话识别子模型,得到所述待识别语音的普通话识别结果;再根据所述语义通顺度计算子模型确定所述普通话识别结果中通顺度值小于预设的通顺度阈值的待修改词语;将所述待修改词语对应的拼音输入所述方言识别子模型,得到所述待修改词语对应的方言词语;最后根据所述方言词语以及所述普通话识别结果确定目标识别结果。
本发明实施例提供了一种基于方言纠正模型的语音识别方法,该基于方言纠正模型的语音识别方法的执行主体可以是本发明实施例提供的基于方言纠正模型的语音识别装置,或者集成了该基于方言纠正模型的语音识别装置的计算机设备,其中,该基于方言纠正模型的语音识别装置可以采用硬件或者软件的方式实现,该计算机设备可以为终端或服务器,该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。
以下对本实施例中的基于方言纠正模型的语音识别方法进行详细说明,其中,本实施例中的方言纠正模型包括普通话识别子模型、语义通顺度计算子模型以及方言识别子模型,以下实施例以终端为执行主体为例进行说明,其中,图2是本发明实施例提供的基于方言纠正模型的语音识别方法的流程示意图。如图2所示,该方法包括以下步骤S110-160。
S110、获取待识别语音。
本实施例中,终端可以通过麦克风实时收录用户语音作为该待识别语音(此时,终端可以对用户语音进行实时的语音识别),也可以从本地数据库或者其他数据库提取该待识别语音。
其中,该待识别语音可以为普通话的语音数据、方言的语音数据或者普通话与方言夹杂的语音数据,即本实施例提供的基于方言纠正模型的语音识别方法可以识别普通话的语音数据以及方言的语音数据,特别是可以识别普通话中夹杂方言的语音数据。
S120、对待识别语音进行拼音解析处理,得到待识别语音对应的待识别拼音序列。
其中,待识别拼音序列中的拼音包括拼音数据以及音调数据。
在一些实施例中,方言纠正模型中还包括拼音识别子模型,此时,步骤S120包括:
通过分帧加窗的方法,对待识别语音进行音频转换,得到二维音频图像信息;将二维音频图像信息输入拼音识别子模型中的声学模块,声学模块提取二维音频图像信息的语音拼音特征,输出语音序列数组;其中,声学模块为基于Keras和TensorFlow训练的深度卷积神经网络模型;对语音序列数组进行解码,得到待识别语音的待识别拼音序列。
可理解地,分帧加窗的方法为先将待识别语音进行预加重(为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率),再将预加重后的待识别语音进行分成多个帧(即预设时间段)的语音信号,优选地,帧设置为10至30ms的时间段,然后将每个帧的语音信号进行加窗(即与一个窗函数相乘),加窗是为了更好的进行傅里叶展开,最后将每个帧展开的傅里叶函数输出对应的二维音频图像,将所有二维音频图像进行拼接即生成二维音频图像信息(即语谱图);窗函数指为了减少泄漏而寻找的函数,窗函数能够将原本没有周期性的语音信号呈现出周期函数的部分特征。
可见,本实施例可以通过分帧加窗的方法自动将待识别语音转换成待识别拼音序列,可以提高识别的准确性。
其中,拼音识别子模型可以为深度卷积神经网络模型,拼音识别子模型的网络结构可以根据需求进行设定,在一些实施例中,拼音识别模型的网络结构为VGG19模型的网络结构。
S130、将待识别拼音序列输入普通话识别子模型,得到待识别语音的普通话识别结果。
具体地,将待识别拼音序列输入普通话识别子模型中,通过普通话识别子模型提取出待识别拼音序列中所有拼音数据及其对应的音调数据的词义特征,普通话识别子模型根据词义特征预测出所有拼音数据及其对应的音调数据在普通话数据库中的预测汉字,得到普通话识别结果,其中,该普通话识别子模型可以为卷积神经网络模型。
在一些实施例中,普通话识别子模型中设置有普通话数据库以及场景关键词数据库,该场景关键词数据库中存有多个场景关键词,此时,步骤S130包括:将待识别拼音序列输入普通话识别子模型中,根据普通话数据库以及场景关键词数据库得到待识别语音的普通话识别结果。其中,相对于同一拼音,该场景关键词的权重比非场景关键词的权重大,在预测普通话识别结果时优先考虑该场景关键词,
例如,该场景数据库与待识别语音的对话或讲话场景相对应,该待识别语音的主题为对某系列产品进行讨论,则该场景数据库中包括该系列产品对应的关键词。
可见,本实施例可以结合具体的场景对语音进行识别,进一步提高语音识别的准确率。
S140、根据语义通顺度计算子模型确定普通话识别结果中通顺度值小于预设的通顺度阈值的待修改词语。
本实施例中,该语义通顺度计算子模型可以为基于长短期记忆网络(Long Short-Term Memory,LSTM)是循环神经网络模型。
请参阅图3,在一些实施例中,具体地,步骤S140包括:
S141、将普通话识别结果输入语义通顺度计算子模型,得到普通话识别结果中每个词语的通顺度值。
具体地,步骤S140包括:基于语义通顺度计算子模型,对普通话识别结果进行分词处理,得到普通话识别结果的多个词语;根据每个词语在普通话识别结果中的位置关系确定每个词语的词性信息以及语义信息;根据词性信息以及语义信息的匹配度确定每个词语的通顺度值。
即,首先对普通话识别结果进行分词处理,然后确定分词中每个词语的词性信息以及语义信息,然后根据对应的词性信息与语义信息的匹配度确定对应词语的通顺度值,具体地,可以根据词性信息对应的词性向量与语义信息对应的语义向量的匹配度确定对应词语的通顺度值,其中,词性向量与语义向量的匹配度越高,则说明通顺度值越高。
S142、将通顺度值小于通顺度阈值的词语确定为待修改词语。
本实施例中,通顺度值小于通顺度阈值的词语为待识别语音中不通顺的词语,其中,通顺度阈值可以根据具体的需求进行调整,具体数值此处不做限定。
需要说明的是,如果普通话识别结果中不存在通顺度值小于通顺度阈值的待修改词语,则说明输入的待识别语音中普通话比较标准,不存在方言语音,此时直接输出普通话识别结果作为目标识别结果;如果存在小部分的通顺度值小于通顺度阈值的待修改词语,则说明待识别语音中夹杂着方言语音;如果普通话识别结果大部分词语的通顺度值小于通顺度阈值,则说明此时待识别语音为方言语音。
例如,识别到的普通话识别结果为“我们今天中午去中餐厅写反”,此时根据语义通顺度计算子模型得到,“写反”为普通话识别结果中的待修改词语。
S150、将待修改词语对应的拼音输入方言识别子模型,得到待修改词语对应的方言词语。
其中,本实施例中的方言识别子模型可以为卷积神经网络模型,方言识别子模型中包括多个方言类型的方言数据库。
请参阅图4,在一些实施例中,待识别语音携带有对应用户的地域信息,此时,具体地,步骤S150包括:
S151、根据地域信息确定方言识别子模型的目标方言库。
此时,将方言识别子模型中与该地域信息对应的方言识别子模型确定为目标方言库,例如,如果根据该地域信息确定该待识别语音为来自江西南丰的语音,则此时,将江西南丰对应的方言库确定为目标方言库。
S152、根据目标方言库确定待修改词语对应的方言词语。
具体地,首先从待识别拼音序列提取该待修改词语对应的拼音,然后从目标方言库中查询与该待修改词语对应的拼音,将目标方言库中与待修改词语对应的拼音所对应的词语确定为待修改词语,其中,目标方言库中可能包含一个或多个与对应拼音对应的待修改词语。
例如,待修改词语“写范”对应的拼音为“xie(第三声)fan(第三声)”,此时在目标方言库中查找到对应的方言词语为“吃饭”。
在一些实施例中,如果目标方言库中不存在与对应拼音对应的待修改词语,此时,再判断其他方言库中是否存在对应的待修改词语。
在另一些实施例中,待识别词语不携带地域标签,此时需要针对各个方言库分别查找对应拼音的待修改词语。
S160、根据方言词语以及普通话识别结果确定目标识别结果。
具体地,将方言语言放入普通话识别结果中待修改词语对应的位置中替换待修改词语,得到修改后的识别结果,然后分别确定修改后的识别结果的通顺度以及普通话识别结果的通顺度,将通顺度高的识别结果确定为目标识别结果。
请参阅图5,在一些实施例中,上述方言词语包括多个方言类型分别对应的方言词语,此时,具体地,步骤S160包括:
S161、针对每个方言类型的方言词语,将普通话识别结果中的待修改词语替换为对应的方言词语,得到多个修改后识别结果。
其中,每个修改后识别结果只能对应一种类型的方言,本实施例中,得到每种方言类型待修改词语对应的方言词语之后,会将普通话识别结果中的对应的待修改词语替换为对应的方言词语,得到多个修改后识别结果。
S162、将各修改后识别结果分别输入语义通顺度计算子模型,得到各修改后识别结果的文本通顺度值。
具体地,针对每个修改后识别结果,将基于语义通顺度计算子模型,对修改后识别结果进行分词处理,得到修改后识别结果的多个词语;然后根据每个词语在修改后识别结果中的位置关系确定每个词语的词性信息以及语义信息;根据词性信息以及语义信息的匹配度确定每个词语的通顺度值,最后根据每个词语的通顺度值确定修改后识别结果的文本通顺度值。
S163、将文本通顺度值最大的修改后识别结果确定为目标识别结果。
在一些实施例中,除了需要考虑修改后识别结果的文本通顺度,还需要考虑普通话识别结果的文本通顺度,然后将修改后识别结果以及普通话识别结果中文本通顺度最大的识别结果确定为目标识别结果。
可见,就算待识别语音为方言语音或者为普通话与方言夹杂的语音,本实施例都可以准确地对语音进行识别。
在一些实施例中,根据方言词语以及普通话识别结果确定目标识别结果之后,方法还包括:对目标识别结果进行产品语义分析,得到与预设的产品库中对应的产品;将产品发送给与待识别语音对应的终端。
例如,在一些实施例中,本实施例可以应用在用户对产品的搜索场景,用户可以通过语音(可能夹杂方言)讲出对产品的需求,然后终端通过对用户的语音进行精准识别以及语义分析,最后再产品库中搜索出对应的产品,将搜索出来的产品推荐给用户,节省用户的时间,提高用户的满意度。
综上所述,本发明实施例可以获取待识别语音;然后对待识别语音进行拼音解析处理,得到待识别语音对应的待识别拼音序列;将待识别拼音序列输入普通话识别子模型,得到待识别语音的普通话识别结果;根据语义通顺度计算子模型确定普通话识别结果中通顺度值小于预设的通顺度阈值的待修改词语;再将待修改词语对应的拼音输入方言识别子模型,得到待修改词语对应的方言词语;最后根据方言词语以及普通话识别结果确定目标识别结果。本方案使用方言纠正模型对待识别语音进行识别,可以对待识别语音中的方言进行纠正处理,提高了语音识别的准确率。
需要说明的是,本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
需要说明的是,基于方言纠正模型的语音识别方法可应用于智能诊疗、远程会诊。
例如,患者通过患者终端登录就诊平台,然后在就诊平台上通过语音或文本输入需要医生进行解答的问题,如果患者输入的是语音,则就诊平台需要通过本实施例中的基于方言纠正模型的语音识别方法将患者的语音进行语音识别,得到语音对应的问诊文本,医生通过医生终端登录就诊平台,收到患者发来的问诊文本,然后可以通过语音或文本回答患者的问题,如果医生输入的是语音,则此时就诊平台也需要通过本实施例中的基于方言纠正模型的语音识别方法对医生的语音进行语音识别,得到语音对应的回答文本。
图6是本发明实施例提供的一种基于方言纠正模型的语音识别装置的示意性框图。如图6所示,对应于以上基于方言纠正模型的语音识别方法,本发明还提供一种基于方言纠正模型的语音识别装置。该基于方言纠正模型的语音识别装置包括用于执行上述基于方言纠正模型的语音识别方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中,并且该装置预设有方言纠正模型,所述方言纠正模型包括普通话识别子模型、语义通顺度计算子模型以及方言识别子模型。具体地,请参阅图6,该基于方言纠正模型的语音识别装置包括获取单元601、处理单元602、第一输入单元603、第一确定单元604、第二输入单元605以及第二确定单元606,其中:
获取单元601,用于获取待识别语音;
处理单元602,用于对所述待识别语音进行拼音解析处理,得到所述待识别语音对应的待识别拼音序列;
第一输入单元603,用于将所述待识别拼音序列输入所述普通话识别子模型,得到所述待识别语音的普通话识别结果;
第一确定单元604,用于根据所述语义通顺度计算子模型确定所述普通话识别结果中通顺度值小于预设的通顺度阈值的待修改词语;
第二输入单元605,将所述待修改词语对应的拼音输入所述方言识别子模型,得到所述待修改词语对应的方言词语;
第二确定单元606,用于根据所述方言词语以及所述普通话识别结果确定目标识别结果。
在一些实施例中,所述方言词语包括多个方言类型分别对应的方言词语,所述第二确定单元606具体用于:
针对每个方言类型的方言词语,将所述普通话识别结果中的待修改词语替换为对应的方言词语,得到多个修改后识别结果;
将各修改后识别结果分别输入所述语义通顺度计算子模型,得到各修改后识别结果的文本通顺度值;
将所述文本通顺度值最大的修改后识别结果确定为所述目标识别结果。
在一些实施例中,所述第一确定单元604具体用于:
将所述普通话识别结果输入所述语义通顺度计算子模型,得到所述普通话识别结果中每个词语的通顺度值;
将所述通顺度值小于所述通顺度阈值的词语确定为所述待修改词语。
在一些实施例中,所述第一确定单元604进一步具体用于:
基于所述语义通顺度计算子模型,对所述普通话识别结果进行分词处理,得到所述普通话识别结果的多个词语;
根据每个所述词语在所述普通话识别结果中的位置关系确定每个所述词语的词性信息以及语义信息;
根据所述词性信息以及所述语义信息的匹配度确定每个所述词语的通顺度值。
在一些实施例中,所述第二输入单元605具体用于:
根据所述地域信息确定所述方言识别子模型的目标方言库;
根据所述目标方言库确定所述待修改词语对应的方言词语。
在一些实施例中,所述第二输入单元605具体用于:
从所述方言识别子模型中的方言库中查询与所述待修改词语对应的拼音;
将所述方言库中与待修改词语对应的拼音对应的词语确定为所述待修改词语对应的方言词语。
在一些实施例中,所述方言纠正模型还包括拼音识别子模型,所述处理单元602具体用于:
基于所述拼音识别子模型,通过分帧加窗的方法对所述待识别语音进行音频转换处理,得到二维音频图像信息;
将所述二维音频图像信息输入所述拼音识别子模型中的声学模块中,提取所述二维音频图像信息的语音拼音特征,输出语音序列数组;
对所述语音序列数组进行解码,得到所述待识别拼音序列。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述基于方言纠正模型的语音识别装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述基于方言纠正模型的语音识别装置可以实现为一种计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图7,该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705,其中,存储器可以包括非易失性存储介质703和内存储器704。
该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032包括程序指令,该程序指令被执行时,可使得处理器702执行一种基于方言纠正模型的语音识别方法。
该处理器702用于提供计算和控制能力,以支撑整个计算机设备700的运行。
该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境,该计算机程序7032被处理器702执行时,可使得处理器702执行一种基于方言纠正模型的语音识别方法。
该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器702用于运行存储在存储器中的计算机程序7032,以实现如下步骤:
获取待识别语音;
对所述待识别语音进行拼音解析处理,得到所述待识别语音对应的待识别拼音序列;
将所述待识别拼音序列输入所述普通话识别子模型,得到所述待识别语音的普通话识别结果;
根据所述语义通顺度计算子模型确定所述普通话识别结果中通顺度值小于预设的通顺度阈值的待修改词语;
将所述待修改词语对应的拼音输入所述方言识别子模型,得到所述待修改词语对应的方言词语;
根据所述方言词语以及所述普通话识别结果确定目标识别结果。
在一些实施例中,所述方言词语包括多个方言类型分别对应的方言词语,处理器702在实现所述根据所述方言词语以及所述普通话识别结果确定目标识别结果步骤时,具体实现如下步骤:
针对每个方言类型的方言词语,将所述普通话识别结果中的待修改词语替换为对应的方言词语,得到多个修改后识别结果;
将各修改后识别结果分别输入所述语义通顺度计算子模型,得到各修改后识别结果的文本通顺度值;
将所述文本通顺度值最大的修改后识别结果确定为所述目标识别结果。
在一些实施例中,处理器702在实现所述根据所述语义通顺度计算子模型确定所述普通话识别结果中通顺度值小于预设的通顺度阈值的待修改词语步骤时,具体实现如下步骤:
将所述普通话识别结果输入所述语义通顺度计算子模型,得到所述普通话识别结果中每个词语的通顺度值;
将所述通顺度值小于所述通顺度阈值的词语确定为所述待修改词语。
在一些实施例中,处理器702在实现所述将所述普通话识别结果输入所述语义通顺度计算子模型,得到所述普通话识别结果中每个词语的通顺度值步骤时,具体实现如下步骤:
基于所述语义通顺度计算子模型,对所述普通话识别结果进行分词处理,得到所述普通话识别结果的多个词语;
根据每个所述词语在所述普通话识别结果中的位置关系确定每个所述词语的词性信息以及语义信息;
根据所述词性信息以及所述语义信息的匹配度确定每个所述词语的通顺度值。
在一些实施例中,所述待识别语音携带有对应用户的地域信息,处理器702在实现所述将所述待修改词语对应的拼音输入所述方言识别子模型,得到所述待修改词语对应的方言词语步骤时,具体实现如下步骤:
根据所述地域信息确定所述方言识别子模型的目标方言库;
根据所述目标方言库确定所述待修改词语对应的方言词语。
在一些实施例中,处理器702在实现所述将所述待修改词语对应的拼音输入所述方言识别子模型,得到所述待修改词语对应的方言词语步骤时,具体实现如下步骤:
从所述方言识别子模型中的方言库中查询与所述待修改词语对应的拼音;
将所述方言库中与待修改词语对应的拼音对应的词语确定为所述待修改词语对应的方言词语。
在一些实施例中,所述方言纠正模型还包括拼音识别子模型,处理器702在实现所述对所述待识别语音进行拼音解析处理,得到所述待识别语音对应的待识别拼音序列步骤时,具体实现如下步骤:
基于所述拼音识别子模型,通过分帧加窗的方法对所述待识别语音进行音频转换处理,得到二维音频图像信息;
将所述二维音频图像信息输入所述拼音识别子模型中的声学模块中,提取所述二维音频图像信息的语音拼音特征,输出语音序列数组;
对所述语音序列数组进行解码,得到所述待识别拼音序列。
应当理解,在本发明实施例中,处理器702可以是中央处理单元(CentralProcessing Unit,CPU),该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:
获取待识别语音;
对所述待识别语音进行拼音解析处理,得到所述待识别语音对应的待识别拼音序列;
将所述待识别拼音序列输入所述普通话识别子模型,得到所述待识别语音的普通话识别结果;
根据所述语义通顺度计算子模型确定所述普通话识别结果中通顺度值小于预设的通顺度阈值的待修改词语;
将所述待修改词语对应的拼音输入所述方言识别子模型,得到所述待修改词语对应的方言词语;
根据所述方言词语以及所述普通话识别结果确定目标识别结果。
在一些实施例中,所述方言词语包括多个方言类型分别对应的方言词语,所述处理器在执行所述程序指令而实现所述根据所述方言词语以及所述普通话识别结果确定目标识别结果步骤时,具体实现如下步骤:
针对每个方言类型的方言词语,将所述普通话识别结果中的待修改词语替换为对应的方言词语,得到多个修改后识别结果;
将各修改后识别结果分别输入所述语义通顺度计算子模型,得到各修改后识别结果的文本通顺度值;
将所述文本通顺度值最大的修改后识别结果确定为所述目标识别结果。
在一些实施例中,所述处理器在执行所述程序指令而实现所述根据所述语义通顺度计算子模型确定所述普通话识别结果中通顺度值小于预设的通顺度阈值的待修改词语步骤时,具体实现如下步骤:
将所述普通话识别结果输入所述语义通顺度计算子模型,得到所述普通话识别结果中每个词语的通顺度值;
将所述通顺度值小于所述通顺度阈值的词语确定为所述待修改词语。
在一些实施例中,所述处理器在执行所述程序指令而实现所述将所述普通话识别结果输入所述语义通顺度计算子模型,得到所述普通话识别结果中每个词语的通顺度值步骤时,具体实现如下步骤:
基于所述语义通顺度计算子模型,对所述普通话识别结果进行分词处理,得到所述普通话识别结果的多个词语;
根据每个所述词语在所述普通话识别结果中的位置关系确定每个所述词语的词性信息以及语义信息;
根据所述词性信息以及所述语义信息的匹配度确定每个所述词语的通顺度值。
在一些实施例中,所述待识别语音携带有对应用户的地域信息,所述处理器在执行所述程序指令而实现所述将所述待修改词语对应的拼音输入所述方言识别子模型,得到所述待修改词语对应的方言词语步骤时,具体实现如下步骤:
根据所述地域信息确定所述方言识别子模型的目标方言库;
根据所述目标方言库确定所述待修改词语对应的方言词语。
在一些实施例中,所述处理器在执行所述程序指令而实现所述将所述待修改词语对应的拼音输入所述方言识别子模型,得到所述待修改词语对应的方言词语步骤时,具体实现如下步骤:
从所述方言识别子模型中的方言库中查询与所述待修改词语对应的拼音;
将所述方言库中与待修改词语对应的拼音对应的词语确定为所述待修改词语对应的方言词语。
在一些实施例中,所述方言纠正模型还包括拼音识别子模型,所述处理器在执行所述程序指令而实现所述对所述待识别语音进行拼音解析处理,得到所述待识别语音对应的待识别拼音序列步骤时,具体实现如下步骤:
基于所述拼音识别子模型,通过分帧加窗的方法对所述待识别语音进行音频转换处理,得到二维音频图像信息;
将所述二维音频图像信息输入所述拼音识别子模型中的声学模块中,提取所述二维音频图像信息的语音拼音特征,输出语音序列数组;
对所述语音序列数组进行解码,得到所述待识别拼音序列。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。