CN111145734A - 一种语音识别方法及电子设备 - Google Patents

一种语音识别方法及电子设备 Download PDF

Info

Publication number
CN111145734A
CN111145734A CN202010127045.0A CN202010127045A CN111145734A CN 111145734 A CN111145734 A CN 111145734A CN 202010127045 A CN202010127045 A CN 202010127045A CN 111145734 A CN111145734 A CN 111145734A
Authority
CN
China
Prior art keywords
language model
slot position
identification
recognized
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010127045.0A
Other languages
English (en)
Inventor
卢露露
冯大航
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010127045.0A priority Critical patent/CN111145734A/zh
Publication of CN111145734A publication Critical patent/CN111145734A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

本发明提供一种语音识别方法及电子设备,该方法包括:获取待识别语音;根据待识别语音,获取待识别发音序列;根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。语言模型同时包括句式语言模型和槽位语言模型,通过句式语言模型对待识别发音序列的句式进行识别,通过槽位语言模型对槽位标识对应的发音子序列进行识别,可提高识别准确率。

Description

一种语音识别方法及电子设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音识别方法及电子设备。
背景技术
近年来,语音识别技术发展迅速,逐渐从实验室走向市场,形成产品。在信息处理、通信与电子系统、自动控制等领域相继出现了不同用途的语音识别系统,已经逐渐显露出其强大的技术优势和生命力。
现在,越来越多的语音识别技术被带入到人们的工作生活中,在信息处理、教育与商务、工业控制等方面,语音识别已经显露出巨大的优势。语言模型在语音识别中具有重要的作用,语言模型的作用可以简单的理解为解决多音字的问题,在声学模型给出发音序列之后,根据语言模型找出概率最大的字符串序列,并将该字符串序列作为语音识别的识别结果。
现有的语音识别技术,在有限的计算资源和存储空间的条件下,泛化能力较差,识别准确率较低。通过文本扩充提高模型泛化、支持多种说法的做法,会造成模型过大同时会给模型的训练过程带来很大的困难。
发明内容
本发明实施例提供一种语音识别方法及电子设备,以解决现有的语音识别技术识别准确率较低的问题。
为解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种语音识别方法,应用于电子设备,包括:
获取待识别语音;
根据待识别语音,获取待识别发音序列;
根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。
第二方面,本发明实施例还提供一种电子设备,包括:
第一获取模块,用于获取待识别语音;
第二获取模块,用于根据待识别语音,获取待识别发音序列;
识别模块,用于根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。
第三方面,本发明实施例还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述语音识别方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述语音识别方法的步骤。
在本发明实施例中,根获取待识别语音;根据待识别语音,获取待识别发音序列;根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。语言模型同时包括句式语言模型和槽位语言模型,通过句式语言模型对待识别发音序列的句式进行识别,通过槽位语言模型对槽位标识对应的发音子序列进行识别,可提高识别准确率。
附图说明
图1是本发明实施例提供的语音识别方法的流程图;
图2是本发明实施例提供的语言模型的识别结果示意图;
图3是本发明实施例提供的电子设备的结构图;
图4是本发明另一实施例提供的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的语音识别方法的流程图之一,如图1所示,本实施例提供一种语音识别方法,应用于电子设备,包括以下步骤:
步骤101、获取待识别语音。
待识别语音可为人发出的语音,也可为合成语音。合成语音为根据文本生成的语音。待识别语音为音频信号。
步骤102、根据待识别语音,获取待识别发音序列。
可将待识别语音输入至声学模型中,获得待识别发音序列。对于中文来说,待识别发音序列可为拼音。
步骤103、根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。
本实施例中,语言模型包括句式语言模型和槽位语言模型。句式语言模型可对待识别发音序列的句式进行识别,识别出槽位标识,槽位语言模型可对槽位标识对应的发音子序列进行识别。语言模型包括一个或多个槽位语言模型,每个槽位语言模型对应一种类别的槽位标识,不同类别的槽位标识对应不同的槽位语言模型。例如,对于歌曲名称类别的槽位标识,对应第一槽位语言模型,对于歌手名称类别的槽位标识,对应第二槽位语言模型。
槽位标识对应的槽位语言模型,采用相同分类的槽位语料进行训练,槽位语料可理解为一个或多个具体字或者词,例如,对于歌曲名称的槽位标识来说,槽位语料可为“龙的传人”、“我和我的祖国”或者“一条大河”等歌曲名称;对于歌手名称的槽位标识来说,槽位语料可为“张三”、“李四”或者“王五”等歌手名称。槽位标识预先设置。识别结果可理解为语言模型根据待识别发音序列获取的概率最大的文字序列。
本实施例中,根获取待识别语音;根据待识别语音,获取待识别发音序列;根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。语言模型同时包括句式语言模型和槽位语言模型,通过句式语言模型对待识别发音序列的句式进行识别,通过槽位语言模型对槽位标识对应的发音子序列进行识别,可提高识别准确率。
在本发明一个实施例中,所述槽位语言模型的获取过程包括:
获取槽位语料;
对所述槽位语料进行分词,获得第一分词结果;
将所述第一分词结果作为训练样本对第一基础模型进行训练,获得所述槽位标识对应的所述槽位语言模型。
具体的,在对槽位语言模型进行训练时,首选准备槽位语料。用于训练同一槽位语言模型的槽位语料属于相同类别,此处类别可根据实际需求进行分类,例如,歌曲类、歌手类、专辑类等等。不同类别的槽位语料对应不同的槽位语言模型,例如,可分别获取歌曲类、歌手类、专辑类的相关语料,并对获取的槽位语料进行清理规整分词。将分词后的三个类的语料作为训练样本,分别对第一基础模型进行训练,获得三个槽位语言模型,即一个类别对应一个槽位语言模型。不同类别的槽位语料用不同的槽位标识表示,在对槽位标识对应的发音子序列进行识别时,可采用与槽位标识对应的槽位语言模型进行识别。第一基础模型可为统计语言模型(即N-gram统计语言模型)。根据类别获取槽位语料,对第一基础模型进行训练,获得与类别有关的槽位语言模型,这样,在对槽位标识对应的发音子序列进行识别时,可采用槽位标识所对应的槽位语言模型进行识别,可提高识别的准确率。
在本发明一个实施例中,所述句式语言模型的获取过程包括:
获取句式语料;
对所述句式语料进行分词,获得第二分词结果;
将所述第二分词结果作为训练样本对第二基础模型进行训练,获得所述句式语言模型。
具体的,可根据用户的说法习惯,获取多种句式语料,对于同一个意思,表达的方式有多种。
例如,歌曲类的槽位标识定义为songtag,歌手类的槽位标识定义为singertag,专辑类的槽位标识为albumtag。获取用户使用播放歌曲功能的惯用句式说法,包括:“我想听singertag唱的songtag”、“播放singertag的songtag”、“来一首singertag唱的歌”、“播放歌曲songtag”、“我想听albumtag”、“放一首albumtag中的songtag”等句式。将槽位标识作为句式中的普通语料进行训练,获得句式语言模型。本实施例中,使用槽位标识对句式说法进行扩充,实现槽位语料的泛化,可避免句式语言模型的训练文本(即训练样本、句式语料)过大。
上述基于类的句式语言模型的训练样本,并未采用遍历填充的方式进行语料扩充,对于相同分类的槽位,并不采用槽位词典中的词进行替换,而是采用槽位标识,可降低训练文本量。例如,对于句式“我想听张三唱的一条大河”和“我想听李四唱的龙的传人”,将歌手类的槽位替换为槽位标识“singertag”,将歌曲类的槽位替换为槽位标识“songtag”,这样最终获得句式语料为“我想听singertag唱的songtag”,在有限的计算资源和存储空间的条件下,可尽可能的保证模型的泛化能力。同时,训练文本在进行扩充时,相同的句式说法不会重复很多次,可降低句式语言模型对核心词进行识别时的干扰。
进一步的,对句式语料进行分词,获得第二分词结果,将所述第二分词结果作为训练样本对第二基础模型进行训练,获得所述句式语言模型。第二基础模型也可为统计语言模型(即N-gram统计语言模型)。
根据句式语料,对第二基础模型进行训练,获得句式语言模型,便于对待识别发音序列的句式进行识别。
本发明提供的根据语言模型对待识别发音序列进行识别的过程包括两种,第一种:步骤203、根据对句式进行识别的句式语言模型和对预设的槽位标识进行识别的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果,包括:
根据所述句式语言模型对所述待识别发音序列的第一部分进行识别,获得第一识别结果,所述待识别发音序列包括第一部分和第二部分;
若所述第一识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第二识别结果;
根据所述句式语言模型对所述待识别发音序列的第二部分进行识别,获得第三识别结果;
根据所述第一识别结果、所述第二识别结果和所述第三识别结果,获得所述识别结果。
具体的,通过句式语言模型对待识别发音序列进行识别,若识别到槽位标识,获取第一识别结果,第一识别结果包括槽位标识。然后根据槽位标识,获取与槽位标识对应的槽位语言模型,利用该槽位语言模型对槽位标识对应的发音子序列进行识别,发音子序列为待识别发音序列中槽位标识对应的序列。例如,对于待识别发音序列“laiyishouyinxingdechibangba”,句式语言模型识别出的概率最大的句式为“来一首songtag”,由于识别出的“songtag”为槽位标识,则进一步的,使用“songtag”对应的槽位语言模型对槽位标识对应的发音子序列进行识别。槽位标识对应的发音子序列为“laiyishou(该部分已被识别出)”之后的部分,即“yinxingdechibangba”。槽位语言模型识别出“yinxingdechibang”为“隐形的翅膀”。
在获得第二识别结果后,继续使用句式语言模型对待识别发音序列的剩余部分(即第二部分)进行识别,获得第三识别结果。
进一步的,在对第二部分进行识别时,若识别到第二槽位标识,则通过与第二槽位标识对应的槽位语言模型对第二槽位标识对应的发音子序列进行识别。第一部分识别出的槽位标识可以与第二部分识别出的槽位标识相同,也可不同。电子设备每识别到槽位标识时,便通过与槽位标识对应的槽位语言模型对槽位标识对应的发音子序列进行识别,然后再通过句式语言模型对待识别发音序列中未进行识别的部分进行识别,若对待识别发音序列中所有部分均识别完成,再结合识别过程中获取的结果,获得最终的识别结果。
如图2所示,图2为对“laiyishouyinxingdechibangba”进行识别,识别结果中概率最大的路径的概率=P(来一首)+P(songtag)*P(隐形的翅膀)+P(吧)。其中“来一首”、“songtag”、“吧”的概率根据句式语言模型获取,“隐形的翅膀”的概率根据槽位语言模型获取。“songtag”表示槽位标识,对应的发音子序列为“yinxingdechibang”。
图2中,构图时,当对待识别语音进行识别时,遇到槽位标识就增加一条到槽位语言模型的边(即转到槽位语言模型,使用槽位语言模型对槽位标识对应的发音子序列进行识别),可减少核心关键词的概率损失。
第二种:步骤203、所述根据对句式进行识别的句式语言模型和对预设的槽位标识进行识别的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果,包括:
根据所述句式语言模型对所述待识别发音序列进行识别,获得第四识别结果;
若所述第四识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第五识别结果;
根据所述第四识别结果和所述第五识别结果,获得所述识别结果。
具体的,通过句式语言模型对待识别发音序列进行识别,即通过句式语言模型对待识别发音序列的全部部分进行识别,获得第四识别结果,然后对第四识别结果中的槽位标识,利用槽位标识对应的槽位语言模型进行识别,获得第五识别结果。最终将第四识别结果中识别的槽位标识替换为第五识别结果,以获得识别结果。
例如,对于待识别发音序列“laiyishouyinxingdechibangba”,句式语言模型识别出的概率最大的句式为“来一首songtag吧”,即第四识别结果。由于识别出的“songtag”为槽位标识,则进一步的,使用“songtag”对应的槽位语言模型对槽位标识对应的发音子序列进行识别。槽位标识对应的发音子序列为“yinxingdechibang”。槽位语言模型识别出“yinxingdechibang”为“隐形的翅膀”(“隐形的翅膀”为槽位语言模型中概率最大的路径)。然后,将“来一首songtag吧”中的“songtag”替换为“隐形的翅膀”,获得“来一首隐形的翅膀吧”,“来一首隐形的翅膀吧”为最终的识别结果。
本发明提供语言模型,在有限的资源条件下,支持更多的句式说法,保证模型的泛化能力;模型更新速度更快,缺乏的资源直接加入槽类中,训练槽位语言模型即可;对核心关键词的识别不会带来损失。
本发明提出了一种基于类别信息的槽位语言模型的构建方法,根据类别信息将关键词进行分类,训练统计语言模型,获得槽位语言模型;使用槽位标识代替属于同一类别的关键词,扩充句式说法时直接用槽位标识进行填充,避免语料扩充造成文本大小指数增加,同时避免重复句式对关键词的干扰。对待识别发音序列进行识别时,在识别到槽位标识就增加一条到槽语言模型的边,减小合并插值方法对模型概率造成的损失,提升语言模型的识别效果。
参见图3,图3是本发明实施例提供的电子设备的结构图,如图3所示,电子设备300包括:
第一获取模块,用于获取待识别语音;
第二获取模块,用于根据待识别语音,获取待识别发音序列;
识别模块,用于根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。
进一步的,所述识别模块,包括:
第一识别子模块,用于根据所述句式语言模型对所述待识别发音序列的第一部分进行识别,获得第一识别结果,所述待识别发音序列包括第一部分和第二部分;
第二识别子模块,用于若所述第一识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第二识别结果;
第三识别子模块,用于根据所述句式语言模型对所述待识别发音序列的第二部分进行识别,获得第三识别结果;
第一获取子模块,用于根据所述第一识别结果、所述第二识别结果和所述第三识别结果,获得所述识别结果。
进一步的,所述识别模块,包括:
第四识别子模块,用于根据所述句式语言模型对所述待识别发音序列进行识别,获得第四识别结果;
第五识别子模块,用于若所述第四识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第五识别结果;
第二获取子模块,用于根据所述第四识别结果和所述第五识别结果,获得所述识别结果。
进一步的,所述槽位语言模型的获取过程包括:
获取槽位语料;
对所述槽位语料进行分词,获得第一分词结果;
将所述第一分词结果作为训练样本对第一基础模型进行训练,获得所述槽位标识对应的所述槽位语言模型。
进一步的,所述句式语言模型的获取过程包括:
获取句式语料;
对所述句式语料进行分词,获得第二分词结果;
将所述第二分词结果作为训练样本对第二基础模型进行训练,获得所述句式语言模型。
电子设备300能够实现图1的方法实施例中电子设备实现的各个过程,为避免重复,这里不再赘述。
本发明实施例的电子设备300,根获取待识别语音;根据待识别语音,获取待识别发音序列;根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。语言模型同时包括句式语言模型和槽位语言模型,通过句式语言模型对待识别发音序列的句式进行识别,通过槽位语言模型对槽位标识对应的发音子序列进行识别,可提高识别准确率。
图4为实现本发明各个实施例的一种电子设备的硬件结构示意图,如图4所示,该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,处理器410,用于获取待识别语音;
根据待识别语音,获取待识别发音序列;
根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。
进一步的,处理器410,还用于根据所述句式语言模型对所述待识别发音序列的第一部分进行识别,获得第一识别结果,所述待识别发音序列包括第一部分和第二部分;
若所述第一识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第二识别结果,
根据所述句式语言模型对所述待识别发音序列的第二部分进行识别,获得第三识别结果;
根据所述第一识别结果、所述第二识别结果和所述第三识别结果,获得所述识别结果。
进一步的,处理器410,还用于根据所述句式语言模型对所述待识别发音序列进行识别,获得第四识别结果;
若所述第四识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第五识别结果;
根据所述第四识别结果和所述第五识别结果,获得所述识别结果。
进一步的,所述槽位语言模型的获取过程包括:
获取槽位语料;
对所述槽位语料进行分词,获得第一分词结果;
将所述第一分词结果作为训练样本对第一基础模型进行训练,获得所述槽位标识对应的所述槽位语言模型。
进一步的,所述句式语言模型的获取过程包括:
获取句式语料;
对所述句式语料进行分词,获得第二分词结果;
将所述第二分词结果作为训练样本对第二基础模型进行训练,获得所述句式语言模型。
电子设备400能够实现前述实施例中电子设备实现的各个过程,为避免重复,这里不再赘述。
本发明实施例的电子设备400,根获取待识别语音;根据待识别语音,获取待识别发音序列;根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。语言模型同时包括句式语言模型和槽位语言模型,通过句式语言模型对待识别发音序列的句式进行识别,通过槽位语言模型对槽位标识对应的发音子序列进行识别,可提高识别准确率。
应理解的是,本发明实施例中,射频单元401可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器410处理;另外,将上行的数据发送给基站。通常,射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元401还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块402为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。
输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。
电子设备400还包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度,接近传感器可在电子设备400移动到耳边时,关闭显示面板4061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。
用户输入单元407可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器410,接收处理器410发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071,用户输入单元407还可以包括其他输入设备4072。具体地,其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板4071可覆盖在显示面板4061上,当触控面板4071检测到在其上或附近的触摸操作后,传送给处理器410以确定触摸事件的类型,随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中,触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元408为外部装置与电子设备400连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部装置之间传输数据。
存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器409可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器410是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器409内的软件程序和/或模块,以及调用存储在存储器409内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元;优选的,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
电子设备400还可以包括给各个部件供电的电源411(比如电池),优选的,电源411可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备400包括一些未示出的功能模块,在此不再赘述。
优选的,本发明实施例还提供一种电子设备,包括处理器410,存储器409,存储在存储器409上并可在所述处理器410上运行的计算机程序,该计算机程序被处理器410执行时实现上述语音识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (12)

1.一种语音识别方法,应用于电子设备,其特征在于,包括:
获取待识别语音;
根据待识别语音,获取待识别发音序列;
根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果,包括:
根据所述句式语言模型对所述待识别发音序列的第一部分进行识别,获得第一识别结果,所述待识别发音序列包括第一部分和第二部分;
若所述第一识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第二识别结果,
根据所述句式语言模型对所述待识别发音序列的第二部分进行识别,获得第三识别结果;
根据所述第一识别结果、所述第二识别结果和所述第三识别结果,获得所述识别结果。
3.根据权利要求1所述的方法,其特征在于,所述根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果,包括:
根据所述句式语言模型对所述待识别发音序列进行识别,获得第四识别结果;
若所述第四识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第五识别结果;
根据所述第四识别结果和所述第五识别结果,获得所述识别结果。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述槽位语言模型的获取过程包括:
获取槽位语料;
对所述槽位语料进行分词,获得第一分词结果;
将所述第一分词结果作为训练样本对第一基础模型进行训练,获得所述槽位标识对应的所述槽位语言模型。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述句式语言模型的获取过程包括:
获取句式语料;
对所述句式语料进行分词,获得第二分词结果;
将所述第二分词结果作为训练样本对第二基础模型进行训练,获得所述句式语言模型。
6.一种电子设备,其特征在于,包括:
第一获取模块,用于获取待识别语音;
第二获取模块,用于根据待识别语音,获取待识别发音序列;
识别模块,用于根据对句式进行识别的句式语言模型和所述待识别发音序列中的槽位标识对应的槽位语言模型,对所述待识别发音序列进行识别,获得识别结果。
7.根据权利要求6所述的电子设备,其特征在于,所述识别模块,包括:
第一识别子模块,用于根据所述句式语言模型对所述待识别发音序列的第一部分进行识别,获得第一识别结果,所述待识别发音序列包括第一部分和第二部分;
第二识别子模块,用于若所述第一识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第二识别结果;
第三识别子模块,用于根据所述句式语言模型对所述待识别发音序列的第二部分进行识别,获得第三识别结果;
第一获取子模块,用于根据所述第一识别结果、所述第二识别结果和所述第三识别结果,获得所述识别结果。
8.根据权利要求6所述的电子设备,其特征在于,所述识别模块,包括:
第四识别子模块,用于根据所述句式语言模型对所述待识别发音序列进行识别,获得第四识别结果;
第五识别子模块,用于若所述第四识别结果包括槽位标识,则根据与所述槽位标识对应的槽位语言模型对所述槽位标识对应的发音子序列进行识别,获得第五识别结果;
第二获取子模块,用于根据所述第四识别结果和所述第五识别结果,获得所述识别结果。
9.根据权利要求6-8中任一项所述的电子设备,其特征在于,所述槽位语言模型的获取过程包括:
获取槽位语料;
对所述槽位语料进行分词,获得第一分词结果;
将所述第一分词结果作为训练样本对第一基础模型进行训练,获得所述槽位标识对应的所述槽位语言模型。
10.根据权利要求6-8中任一项所述的电子设备,其特征在于,所述句式语言模型的获取过程包括:
获取句式语料;
对所述句式语料进行分词,获得第二分词结果;
将所述第二分词结果作为训练样本对第二基础模型进行训练,获得所述句式语言模型。
11.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音识别方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音识别方法的步骤。
CN202010127045.0A 2020-02-28 2020-02-28 一种语音识别方法及电子设备 Pending CN111145734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010127045.0A CN111145734A (zh) 2020-02-28 2020-02-28 一种语音识别方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010127045.0A CN111145734A (zh) 2020-02-28 2020-02-28 一种语音识别方法及电子设备

Publications (1)

Publication Number Publication Date
CN111145734A true CN111145734A (zh) 2020-05-12

Family

ID=70528298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010127045.0A Pending CN111145734A (zh) 2020-02-28 2020-02-28 一种语音识别方法及电子设备

Country Status (1)

Country Link
CN (1) CN111145734A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326702A (zh) * 2021-06-11 2021-08-31 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质
CN117496972A (zh) * 2023-12-29 2024-02-02 广州小鹏汽车科技有限公司 一种音频识别方法、音频识别装置、车辆和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
US20190392005A1 (en) * 2018-06-22 2019-12-26 Hitachi, Ltd. Speech dialogue system, model creating device, model creating method
CN110827802A (zh) * 2019-10-31 2020-02-21 苏州思必驰信息科技有限公司 语音识别训练和解码方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
US20190392005A1 (en) * 2018-06-22 2019-12-26 Hitachi, Ltd. Speech dialogue system, model creating device, model creating method
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN110827802A (zh) * 2019-10-31 2020-02-21 苏州思必驰信息科技有限公司 语音识别训练和解码方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326702A (zh) * 2021-06-11 2021-08-31 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质
CN113326702B (zh) * 2021-06-11 2024-02-20 北京猎户星空科技有限公司 语义识别方法、装置、电子设备及存储介质
CN117496972A (zh) * 2023-12-29 2024-02-02 广州小鹏汽车科技有限公司 一种音频识别方法、音频识别装置、车辆和计算机设备
CN117496972B (zh) * 2023-12-29 2024-04-16 广州小鹏汽车科技有限公司 一种音频识别方法、音频识别装置、车辆和计算机设备

Similar Documents

Publication Publication Date Title
CN110288077B (zh) 一种基于人工智能的合成说话表情的方法和相关装置
KR102270394B1 (ko) 이미지를 인식하기 위한 방법, 단말, 및 저장 매체
CN108735209A (zh) 唤醒词绑定方法、智能设备及存储介质
CN109561211B (zh) 一种信息显示方法及移动终端
CN108959274B (zh) 一种应用程序的翻译方法及服务器
CN110827826B (zh) 语音转换文字方法、电子设备
CN107093423A (zh) 一种语音输入修正方法、装置及计算机可读存储介质
CN110830362B (zh) 一种生成内容的方法、移动终端
CN108733800A (zh) 一种全局搜索方法、终端及计算机可读存储介质
CN111445927B (zh) 一种音频处理方法及电子设备
CN111177180A (zh) 一种数据查询方法、装置以及电子设备
CN104281568B (zh) 一种释义显示方法和装置
CN110830368B (zh) 即时通讯消息发送方法及电子设备
CN111159338A (zh) 一种恶意文本的检测方法、装置、电子设备及存储介质
CN111372029A (zh) 视频显示方法、装置及电子设备
CN107643923B (zh) 复制信息的处理方法及移动终端
CN109992753B (zh) 一种翻译处理方法及终端设备
CN111145734A (zh) 一种语音识别方法及电子设备
CN109063076B (zh) 一种图片生成方法及移动终端
WO2020024788A1 (zh) 文字输入方法和终端
CN111292727B (zh) 一种语音识别方法及电子设备
CN108595107B (zh) 一种界面内容处理方法及移动终端
CN113782012A (zh) 一种唤醒模型训练方法、唤醒方法及电子设备
CN112395524A (zh) 一种词语标注、释义展示的方法、装置及存储介质
CN110136724A (zh) 一种数据处理方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200512

RJ01 Rejection of invention patent application after publication