CN109785838A - 语音识别方法、装置、设备及存储介质 - Google Patents

语音识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109785838A
CN109785838A CN201910081862.4A CN201910081862A CN109785838A CN 109785838 A CN109785838 A CN 109785838A CN 201910081862 A CN201910081862 A CN 201910081862A CN 109785838 A CN109785838 A CN 109785838A
Authority
CN
China
Prior art keywords
voice
server
confidence level
sound equipment
intelligent sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910081862.4A
Other languages
English (en)
Other versions
CN109785838B (zh
Inventor
周仁泉
何晓楠
鞠强
沈炜
张刚
刘冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910081862.4A priority Critical patent/CN109785838B/zh
Publication of CN109785838A publication Critical patent/CN109785838A/zh
Application granted granted Critical
Publication of CN109785838B publication Critical patent/CN109785838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本申请提供一种语音识别方法、装置、设备及存储介质,包括:服务器接收智能语音设备发送的第一语音,服务器提取第一语音的语音特征,服务器根据语音特征确定第一语音的置信度,服务器向智能语音设备发送第一语音的置信度,智能语音设备根据第一语音的置信度确定第一语音是否为语音查询请求。即通过该语音识别方法可以从本质上区分获取到的语音是语音查询请求还是噪声,从而可以提高智能语音设备的语音识别的准确率。

Description

语音识别方法、装置、设备及存储介质
技术领域
本申请实施例涉及语音技术领域,尤其涉及一种语音识别方法、装置、设备及存储介质。
背景技术
随着科学技术的不断发展,越来越多的智能语音设备出现在人们的生活中。
目前,大多数智能语音设备都需要用户对其进行唤醒,在唤醒智能语音设备之后,用户才能正常发起语音查询(query)请求,即用户与智能语音设备进行对话。这种用户每次在发起语音查询请求之前,都必须唤醒智能语音设备的情况,造成用户体验感较差的问题。
基于此,现有技术还提供一种免唤醒的技术方案:其中智能语音设备预先存储有一个语音查询请求集合,该集合中包括:多条语音查询请求,当智能语音设备在获取到语音时,智能语音设备将该语音与语音查询请求集合中的各个语音查询请求进行比对,若比对成功,则智能语音设备可以直接推送该语音对应的响应消息。
然而,上述免唤醒的技术方案存在如下弊端:由于语音查询请求集合中的语音查询请求有限,可能会造成当智能语音设备获取到真实的语音查询请求时,智能语音设备并不能推送相应的响应消息,即现有技术并不能从本质上区分获取到的语音是语音查询请求还是噪声,从而造成智能语音设备的语音识别的准确率较低的问题。
发明内容
本申请实施例提供一种语音识别方法、装置、设备及存储介质。通过本申请技术方案可以从本质上区分获取到的语音是语音查询请求还是噪声,从而可以提高智能语音设备的语音识别的准确率。
第一方面,本申请提供一种语音识别方法,包括:服务器接收智能语音设备发送的第一语音。服务器提取第一语音的语音特征。服务器根据语音特征确定第一语音的置信度。服务器向智能语音设备发送第一语音的置信度,第一语音的置信度用于确定第一语音是否为语音查询请求。
在一种可能的设计中,语音特征包括以下至少一项:第一语音与其他语音的语义相似性特征、第一语音与其他语音的语义连续性特征、第一语音的语言规范性特征、第一语音与其他语音之间的状态转移概率、第一语音与其他语音的拼音相似性特征、第一语音与其他语音的文本相似性特征、第一语音的语义结果特征、在第一语音之前的免唤醒对话轮数。
在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器确定第一语音与第二语音的语义相似度,第二语音为第一语音之前的任一条语音。服务器根据第一语音与第二语音的语义相似度、第一语音、第二语音确定第一语音与第二语音的语义连续性特征。
在一种可能的设计中,服务器确定第一语音与第二语音的语义相似度,包括:服务器通过第一神经网络层获取第一语音中的每个词以及第二语音中的每个词。服务器通过第一神经网络层将第一语音中的每个词转换为向量,并将第二语音中的每个词转换为向量,其中第一语音中所有词对应的向量构成第一矩阵,第二语音中所有词对应的向量构成第二矩阵。服务器通过第二神经网络层将第一矩阵转换为第一向量,并将第二矩阵转换为第二向量。服务器计算第一向量和第二向量的余弦相似度,将余弦相似度确定为第一语音与第二语音的语义相似度。
在一种可能的设计中,服务器根据第一语音与第二语音的语义相似度、第一语音、第二语音确定第一语音与第二语音的语义连续性特征,包括:服务器计算第一向量与语义相似度的乘积,得到第一向量在第二向量上的投影。服务器计算第一向量在第二向量上的投影与第二向量的和,得到目标向量。服务器根据目标向量确定第一语音与第二语音的语义连续性特征。
在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器获取第一语音的M个N元组,并对M个N元组进行排序,M为大于1的整数,N为大于或等于1的整数。服务器从M个N元组中第二个N元组开始计算每个N元组的条件概率,每个N元组的条件概率为在其之前的至少一个N元组出现时该N元组的出现概率。服务器计算M个N元组中从第二个N元组至第M个N元组的条件概率的乘积,得到目标条件概率。服务器根据目标条件概率确定第一语音的语言规范性特征。
在一种可能的设计中,服务器根据目标条件概率确定第一语音的语言规范性特征,包括:若目标条件概率小于预设条件概率,则服务器确定第一语音不规范。若目标条件概率大于或等于预设条件概率,则服务器确定第一语音规范。
在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器根据第一语音中的每个词,确定每个词的下一个词。服务器根据每个词的下一个词,确定第一语音的语言规范性特征。
在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器确定第一语音所属的领域信息以及第二语音所属的领域信息。服务器获取日志,日志包括:领域信息之间的状态转移概率。服务器根据日志确定第一语音所属的领域信息到第二语音所属的领域信息的状态转移概率。
在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器将第一语音转换为第一拼音字符串,并将第二语音转换为第二拼音字符串。服务器将第一拼音字符串和第二拼音字符串作为两个向量,并确定两个向量的距离。服务器根据两个向量的距离确定第一语音和第二语音的拼音相似性特征。
在一种可能的设计中,若两个向量的距离越小,则第一语音和第二语音的拼音相似性越高。若两个向量的距离越大,则第一语音和第二语音的拼音相似性越低。
在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器将第一语音转换为第一文本,将第二语音转换为第二文本。服务器确定第一文本与第二文本的相似度,以得到第一语音与第二语音的文本相似度特征。
在一种可能的设计中,服务器提取第一语音的语音特征,包括:服务器分析第一语音表示的意图。若服务器未分析出第一语音表示的意图,则确定第一语音的语义结果为噪声,并向智能语音设备发送提示信息,以提示用户第一语音为噪声。
在一种可能的设计中,还包括:若在第一语音之前的免唤醒对话轮数大于预设轮数,则服务器向智能语音设备发送提示信息,以提示用户第一语音为语音查询请求。
第二方面,本申请提供一种语音识别方法,包括:智能语音设备向服务器发送第一语音,以使服务器提取第一语音的语音特征,并根据语音特征确定第一语音的置信度。智能语音设备接收服务器发送的第一语音的置信度。智能语音设备根据第一语音的置信度确定第一语音是否为语音查询请求。
在一种可能的设计中,智能语音设备根据第一语音的置信度确定第一语音是否为语音查询请求,包括:若第一语音的置信度大于预设置信度,则智能语音设备确定第一语音为语音查询请求。若第一语音的置信度小于或等于预设置信度,则智能语音设备确定第一语音为噪音。
在一种可能的设计中,还包括:智能语音设备根据第一语音的置信度推送响应消息。
在一种可能的设计中,智能语音设备根据第一语音的置信度推送响应消息,包括:智能语音设备获取至少一个语音的置信度与至少一个响应消息的对应关系,至少一个语音的置信度包括第一语音的置信度。智能语音设备根据对应关系和第一语音的置信度推送响应消息。
第三方面,本申请提供一种语音识别装置,包括:
接收模块,用于接收智能语音设备发送的第一语音。
提取模块,用于提取第一语音的语音特征。
确定模块,用于根据语音特征确定第一语音的置信度。
发送模块,用于向智能语音设备发送第一语音的置信度,第一语音的置信度用于确定第一语音是否为语音查询请求。
第三方面,本申请提供一种语音识别装置,包括:
发送模块,用于向服务器发送第一语音,以使服务器提取第一语音的语音特征,并根据语音特征确定第一语音的置信度。
接收模块,用于接收服务器发送的第一语音的置信度。
确定模块,用于根据第一语音的置信度确定第一语音是否为语音查询请求。
第五方面,本申请提供一种服务器,包括:接收器、处理器和发送器。接收器用于接收智能语音设备发送的第一语音。处理器用于提取第一语音的语音特征,根据语音特征确定第一语音的置信度。发送器用于向智能语音设备发送第一语音的置信度,第一语音的置信度用于确定第一语音是否为语音查询请求。
第六方面,本申请提供一种智能语音设备,包括:发送器、接收器和处理器。发送器用于向服务器发送第一语音,以使服务器提取第一语音的语音特征,并根据语音特征确定第一语音的置信度。接收器用于接收服务器发送的第一语音的置信度。处理器用于根据第一语音的置信度确定第一语音是否为语音查询请求。
第七方面,本申请提供一种计算机存储介质,包括:计算机指令,计算机指令用于实现服务器执行的语音识别方法。
第八方面,本申请提供一种计算机存储介质,包括:计算机指令,计算机指令用于实现智能语音设备执行的语音识别方法。
第九方面,本申请提供一种计算机程序产品,包括:计算机指令,计算机指令用于实现服务器执行的语音识别方法。
第十方面,本申请提供一种计算机程序产品,包括:计算机指令,计算机指令用于实现智能语音设备执行的语音识别方法。
本申请提供一种语音识别方法、装置、设备及存储介质。通过本申请技术方案可以从本质上区分获取到的语音是语音查询请求还是噪声,从而可以提高智能语音设备的语音识别的准确率。进一步地,在本申请中,服务器还可以确定语音特征,更进一步地,智能语音设备可以根据第一语音的置信度自动推送响应消息,从而可以提高智能语音设备的智能性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请一实施例提供的应用场景示意图;
图2为本申请一实施例提供的语音识别方法的交互流程图;
图3为本申请另一实施例提供的语音识别方法的交互流程图;
图4为本申请一实施例提供的提取第一语音的语音特征的流程图;
图5为本申请一实施例提供的确定第一语音与第二语音的语义相似度和语义连续性特征的示意图;
图6为本申请另一实施例提供的提取第一语音的语音特征的流程图;
图7A为本申请再一实施例提供的提取第一语音的语音特征的流程图;
图7B为本申请一实施例提供的ELMO语音模型的示意图;
图8为本申请又一实施例提供的提取第一语音的语音特征的流程图;
图9为本申请一实施例提供的提取第一语音的语音特征的流程图;
图10为本申请另一实施例提供的提取第一语音的语音特征的流程图;
图11为本申请一实施例提供的一种语音识别装置1100的示意图;
图12为本申请一实施例提供的一种语音识别装置1200的示意图;
图13为本申请一实施例提供的一种服务器1300的示意图;
图14为本申请一实施例提供的一种智能语音设备1400的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
如上所述,由于语音查询请求集合中的语音查询请求有限,可能会造成当智能语音设备获取到真实的语音查询请求时,智能语音设备并不能推送相应的响应消息,即现有技术并不能从本质上区分获取到的语音是语音查询请求还是噪声,从而造成智能语音设备的语音识别的准确率较低的问题。为了解决该技术问题,本申请提供一种语音识别方法、装置、设备及存储介质。
其中,本申请技术方案应用于免唤醒场景,即用户在向智能设备发起语音查询请求时,无需唤醒智能语音设备,图1为本申请一实施例提供的应用场景示意图,如图1所示,服务器11可以从智能语音设备12获取语音,并对该语音进行处理,得到语音的置信度,并将语音的置信度返回给智能语音设备12,该智能语音设备12根据语音的置信度确定语音是否为语音查询请求,或者,确定该语音是噪音。
需要说明的是,一个服务器11可以与多个智能语音设备12实现通信,图1仅示例性地示出了一个服务器11与两个智能语音设备12进行通信。
在本申请中,语音查询请求用于实现用户与智能语音设备12之间的语音交互。噪音指的是除语音查询请求之外的其他语音。
基于上述应用场景,下面对本申请技术方案进行详细介绍:
图2为本申请一实施例提供的语音识别方法的交互流程图,如图2所示,该方法包括如下步骤:
步骤S201:服务器接收智能语音设备发送的第一语音。
步骤S202:服务器提取第一语音的语音特征。
步骤S203:服务器根据语音特征确定第一语音的置信度。
步骤S204:服务器向智能语音设备发送第一语音的置信度。
步骤S205:智能语音设备根据第一语音的置信度确定第一语音是否为语音查询请求。
其中,第一语音可以是语音查询请求或者噪音。
第一语音的语音特征包括以下至少一项:第一语音与其他语音的语义相似性特征、所述第一语音与其他语音的语义连续性特征、第一语音的语言规范性特征、第一语音与其他语音之间的状态转移概率、第一语音与其他语音的拼音相似性特征、第一语音与其他语音的文本相似性特征、第一语音的语义结果特征、在第一语音之前的免唤醒对话轮数、第一语音的历史语义结果特征、第一语音的意图分类结果特征、第一语音的长度特征、第一语音的依存结构特征、第一语音的峰值(Peak Value,PV)特征、第一语音与其他第一语音的结构相似性特征、在第一语音之前的所有对话轮数、第一语音的方向特征、第一语音的音量特征和第一语音的声纹特征。
例如:第二语音的语义是播放音乐,第一语音的语义是某首歌名,则第一语音与第二语音的语义相似性比较高,其中,本申请中的第二语音为第一语音之前的任一条语音,下面对此不再说明。
例如:第一语音之前的第二语音的语义是播放音乐,第一语音的语义是某歌手,则第一语音与第二语音的语义连续性比较高。
第一语音的语言规范性特征指的是:该第一语音是否符合语言逻辑,如果符合语音逻辑,则认为第一语言具有规范性,否则,则认为第一语言不具有规范性。比如:第一语音的语义是播放小鸟的叫声,这句话符合语言逻辑,这种情况下,则认为第一语言具有规范性。
例如:第一语音与第二语音之间的状态转移概率指的是:第一语音所属的领域信息以及第二语音所属的领域信息之间的状态转移概率。比如:第一语音所属的领域信息为音乐领域,第二语音所属的领域信息为音量调节领域,这种情况下,从第二语音到第一语音的状态转移概率比较高。
例如:第一语音与第二语音的拼音相似性特征指的是:服务器可以将第一语音转换为第一拼音字符串,将第二语音转换为第二拼音字符串,其中拼音字符串指的是由拼音构成的字符串,服务器确定第一拼音字符串和第二拼音字符串中的各个拼音的相似性。
例如:第一语音与第二语音的文本相似性特征指的是:服务器可以将第一语音转换为第一文本,将第二语音转换为第二文本,服务器确定第一文本和第二文本的相似性。
第一语音的语义结果特征指的是:第一语音所表示的语义结果。比如:第一语音的语义结果是播放某歌手的歌曲。
在第一语音之前的免唤醒对话轮数指的是:服务器针对用户与智能语音设备之间的每轮对话,服务器可以统计免唤醒对话轮数。通常若在第一语音之前的免唤醒对话轮数大于预设轮数,则该第一语音属于免唤醒对话的可能性较高,即第一语音是语音查询请求的可能性较高。
第一语音的历史语义结果特征指的是:假设第一语音与其之前的第二语音的语义相似性较高,这种情况下,第二语音的语义结果可以视为第一语音的语义结果。
例如:第一语音的语义是:播放某首歌,那么该第一语音的意图分类结果特征是听音乐。第一语音的语义是播放某视频,那么该第一语音的意图分类结果特征是看视频。
例如:第一语音的长度特征是服务器将第一语音转换为第一文本之后,该第一文本所包括的字符个数。
例如:第一语音为播放某首歌,基于此,第一语音的依存结构特征是唱这首歌的歌手。
例如:第一语音与第二语音的结构相似性特征为:假设第二语音是主谓宾结构,第二语音也是主谓宾结构,那么它们的结构相似性较高。
在第一语音之前的所有对话轮数指的是:针对用户与智能语音设备之间的每轮对话,服务器可以统计对话轮数。该对话包括:免唤醒对话和/或唤醒对话。
第一语音的方向特征指的是:用户在讲第一语音时,用户的朝向。比如:用户朝向智能语音设备讲第一语音,这种情况下,第一语音为语音查询请求的可能性较高。
在一种可能的设计中:在服务器获取到上述第一语音的语音特征之后,服务器可以将上述第一语音的语音特征作为逻辑回归(LogisticRegression,LR)模型的输入参数,得到第一语音的置信度,其中第一语音的置信度越大,则表示第一语音为语音查询请求的可能性越高,相反的,第一语音的置信度越小,则表示第一语音为语音查询请求的可能性越低。
在一种可能的设计中:若第一语音的置信度大于预设置信度,则智能语音设备确定第一语音为语音查询请求;若第一语音的置信度小于或等于预设置信度,则智能语音设备确定第一语音为噪音。
其中,预设置信度可以根据实际情况设置,本申请对此不做限制。
本实施例提供一种语音识别方法,包括:服务器接收智能语音设备发送的第一语音,服务器提取第一语音的语音特征,服务器根据语音特征确定第一语音的置信度,服务器向智能语音设备发送第一语音的置信度,智能语音设备根据第一语音的置信度确定第一语音是否为语音查询请求。即通过该语音识别方法可以从本质上区分获取到的语音是语音查询请求还是噪声,从而可以提高智能语音设备的语音识别的准确率。此外,该语音识别方法适用于大规模应用场景,而现有的免唤醒技术方案中由于语音查询请求集合中的语音查询请求有限,因此,并不适用于大规模应用场景。
在上一实施例的基础上,进一步地,智能语音设备还根据第一语音的置信度推送响应消息。具体地,图3为本申请另一实施例提供的语音识别方法的交互流程图,如图3所示,在上述步骤S205之后,该方法还包括如下步骤:
步骤S206:智能语音设备根据第一语音的置信度推送响应消息。
在一种可能的设计中:智能语音设备获取至少一个语音的置信度与至少一个响应消息的对应关系,所述至少一个语音的置信度包括所述第一语音的置信度;智能语音设备根据所述对应关系和所述第一语音的置信度推送响应消息。
其中,至少一个语音的置信度与至少一个响应消息可以是一一对应关系,也可以是多对一的关系,比如:当语音的置信度在某个置信度区间时,这个区间对应的响应消息是同一个。
例如:假设语音的置信度被划分为三个置信度区间【0,a】,(0,b】,(b,1】,每个置信度区间对应相应的响应消息,智能语音设备获取到第一语音的置信度之后,首先,判断该第一语音的置信度属于上述三个置信度区间中的哪一个置信度区间。其次,将该置信度区间对应的响应消息确定为第一语音对应的响应消息。
在另一种可能的设计中:智能语音设备不直接根据第一语音的置信度推送响应消息,智能语音设备首先判断本地或者云端当前是否保存有第一语音对应的响应消息,得到相应结果,其次,根据该结果和/或第一语音的置信度推送响应消息。例如:智能语音设备判断本地或者云端当前未保存第一语音对应的响应消息,而第一语音的置信度大于预设置信度,则智能语音设备根据语音的置信度与响应消息的对应关系,推送第一语音对应的响应消息。再例如:智能语音设备判断本地或者云端当前未保存第一语音对应的响应消息,而第一语音的置信度小于预设置信度,则智能语音设备不推送任何响应消息。又例如:智能语音设备判断本地或者云端当前保存有第一语音对应的响应消息,则智能语音设备直接推送该响应消息。
如下给出了用户与智能语音设备之间的对话:
用户:小度小度(首次唤醒),几天几号?
智能语音设备:今天是2018年12月1号。
用户:今天天气?
其他用户:走啊(噪声)
智能语音设备:(不做回复,继续监听)
用户:明天天气呢?
智能语音设备:明天天气晴,温度……
电视噪声:天天天
智能语音设备:(不做回复,继续监听)
用户:退下吧
智能语音设备:好的。
本实施例提供一种语音识别方法,包括:智能语音设备可以根据第一语音的置信度自动推送响应消息,从而可以提高智能语音设备的智能性。
在上面任一实施例的基础上,下面将对上述步骤S202进行详细说明:
图4为本申请一实施例提供的提取第一语音的语音特征的流程图,如图4所示,该方法包括如下步骤:
步骤S401:服务器确定第一语音与第二语音的语义相似度。
步骤S402:服务器根据第一语音与第二语音的语义相似度、第一语音、第二语音确定第一语音与第二语音的语义连续性特征。
图5为本申请一实施例提供的确定第一语音与第二语音的语义相似度和语义连续性特征的示意图,如图5所示,服务器通过第一神经网络层获取第一语音(用q1表示)中的每个词以及第二语音(用q2表示)中的每个词。服务器通过第一神经网络层将第一语音中的每个词转换为向量(用q1_word_vec表示),并将第二语音中的每个词转换为向量(用q2_word_vec表示),其中第一语音中所有词对应的向量构成第一矩阵,第二语音中所有词对应的向量构成第二矩阵。服务器通过第二神经网络层将第一矩阵转换为第一向量(用q1_encoder_vec表示),并将第二矩阵转换为第二向量(用q2_encoder_vec表示)。服务器通过第三神经网络层计算第一向量(用q1_encoder_vec表示)和第二向量(用q2_encoder_vec表示)的余弦相似度(用cos_score表示),将余弦相似度确定为第一语音与第二语音的语义相似度。
需要说明的是,上述第一神经网络层、第一神经网络层、第二神经网络层和第三神经网络层均为现有技术中的神经网络层,只要这些神经网络层具有上述对应的功能,这些神经网络层具体是什么神经网络层,本申请对此不做限制。例如:只要某神经网络层具有将词转换为向量的功能,该神经网络层就可以作为第一神经网络层。
此外,上述第一语音(用q1_encoder_vec表示)与第二语音的语义相似度即可以表征第一语音与第二语音的语义相似度特征。
进一步地,服务器通过第三神经网络层计算第一向量(用q1_encoder_vec表示)与语义相似度(用cos_score表示)的乘积,得到第一向量在第二向量上的投影(用q1_res表示)。服务器计算第一向量在第二向量上的投影(用q1_res表示)与第二向量(用q2_encoder_vec表示)的和,得到目标向量。服务器根据目标向量确定第一语音与第二语音的语义连续性特征。例如:目标向量的长度越大,则表示第一语音与第二语音的语义连续性更好。否则,目标向量的长度越小,则表示第一语音与第二语音的语义连续性更差。
例如:q1的语义是播放小鸟的叫声,q2的语义是播放小狗的叫声。这种情况下,q1和q2的语义相似度较高,基于此,服务器得到的q1对应的第一向量在q2对应的第二向量上的投影较大,进一步地,服务器计算得到的目标向量的长度也越大,即q1与q2的语义连续性越好。这种情况下,当q2是语音查询请求时,q1也很有可能是语音查询请求。
相反地,当q1的语义是播放歌曲,q2的语义是北京的天气怎么样时,这种情况下,q1和q2的语义相似度非常低,基于此,服务器得到的q1对应的第一向量在q2对应的第二向量上的投影较小,进一步地,服务器计算得到的目标向量的长度也越小,即q1与q2的语义连续性越差。这种情况下,当q2是语音查询请求时,q1可能会是噪音。
在本实施例中,服务器可以确定第一语音与第二语音的语义相似度。并根据第一语音与第二语音的语义相似度、第一语音、第二语音确定第一语音与第二语音的语义连续性特征。基于此,服务器可以将语义相似度和/或语义连续性特征作为LR模型的输入参数,得到第一语音的置信度。
图6为本申请另一实施例提供的提取第一语音的语音特征的流程图,如图6所示,该方法包括如下步骤:
步骤S601:服务器获取第一语音的M个N元组,并对M个N元组进行排序,M为大于1的整数,N为大于或等于1的整数。
步骤S602:服务器从M个N元组中第二个N元组开始计算每个N元组的条件概率,每个N元组的条件概率为在其之前的至少一个N元组出现时该N元组的出现概率。
步骤S603:服务器计算M个N元组中从第二个N元组至第M个N元组的条件概率的乘积,得到目标条件概率。
步骤S604:服务器根据目标条件概率确定第一语音的语言规范性特征。
如上所述,第一语音的语言规范性特征用于表征该第一语音是否符合语言逻辑。其中服务器可以通过基于N元组(N-GRAM)的语音模型确定第一语音的语言规范性特征。
具体地,基于N-GRAM的语音模型是通过统计第一语音中N元组的条件概率来确定该第一语音是否符合语言逻辑,并且根据马尔科夫假设,服务器假定当前词只与其前面相邻的N-1个词有关,其中N个词构成一个N元组。假设第一语音包括M个N元组。因此,第k个N元组(wk)的条件概率为:
例如:第2个二元组(w2)的条件概率为:
再例如:第3个三元组(w3)的条件概率为:
其中,上述的count为统计函数。
进一步地,还可以对上述N元组的条件概率做归一化处理。例如:
其中,N表示预料词表V中包含的单词总数量。
进一步地,服务器计算M个N元组中从第二个N元组至第M个N元组的条件概率的乘积,得到目标条件概率。
在一种可能的设计中:若目标条件概率小于预设条件概率,则服务器确定第一语音不规范。若目标条件概率大于或等于预设条件概率,则服务器确定第一语音规范。
在本实施例中,通过上述方法可以确定第一语音的语言规范性特征。基于此,服务器可以将语言规范性特征作为LR模型的输入参数,得到第一语音的置信度。
图7A为本申请再一实施例提供的提取第一语音的语音特征的流程图,如图7A所示,该方法包括如下步骤:
步骤S701:服务器根据第一语音中的每个词,确定每个词的下一个词。
步骤S702:服务器根据每个词的下一个词,确定第一语音的语言规范性特征。
具体地,图7B为本申请一实施例提供的ELMO语音模型的示意图,如图7B所示,服务器将第一语音中的所有词(E1,E2…EN)输入一个多层双向长短期记忆网络(Long Short-Term Memory,LSTM)进行编码,输出(T1,T2…TN)分别是(E1,E2…EN)对应的下一个词,ELMO的目标函数如下所示:
其中,Θx表示将词转换为向量所涉及的参数,表示LSTM涉及的参数。Θs表示softmax layer的参数。
其中,该目标函数和语言模型有关,该语言模型的训练目标是令目标函数值最大。
服务器可以根据该语音模型得到的困惑度确定第一语音的语言规范性特征。即该困惑度越小,则第一语音更加规范。
下表示出了语音及其对应的语言模型的困惑度。
表1
表2
老家今天几度 14.984981
请给我们唱歌上海滩 15.013984
唱一首昨夜星辰好吗 15.049944
宝宝我要听伤感的歌 15.251383
打开厕所台灯 15.322757
关闭厕所开关 15.654818
久流行歌曲 15.685812
风扇风速大一点 15.713961
内江的天气啊 15.772853
播放歌曲花花宇宙 15.852937
就是一句话吗 15.887467
氨故事 15.8994465
表3
在本实施例中,通过上述方法可以确定第一语音的语言规范性特征。基于此,服务器可以将语言规范性特征作为LR模型的输入参数,得到第一语音的置信度。
图8为本申请又一实施例提供的提取第一语音的语音特征的流程图,如图8所示,该方法包括如下步骤:
步骤S801:服务器确定第一语音所属的领域信息以及第二语音所属的领域信息。
步骤S802:服务器获取日志,日志包括:领域信息之间的状态转移概率。
步骤S803:服务器根据日志确定第一语音所属的领域信息到第二语音所属的领域信息的状态转移概率。
例如:当第二语音的领域信息(domain)是听音乐,那么第一语音的领域信息是听音乐的概率可能会比较高是0.4,第一语音的领域信息是调节音量的概率可能也比较高是0.35,第一语音的领域信息是问天气的概率相对较低只有0.05等等。
其中,服务器可以获取日志,日志包括:领域信息之间的状态转移概率,通常这些状态转移概率构成一个状态转移矩阵,矩阵中的元素Aij表示从领域信息i转移到领域信息j的概率。Aij的计算公式如下所示:
其中,count还表示统计函数,count(j|i)表示在领域信息i出现时,领域信息j的出现次数。
进一步地,第一语音所属的领域信息到第二语音所属的领域信息的状态转移概率越高,则当第二语音是语音查询请求时,第一语音是语音查询请求的概率就越高。
在本实施例中,通过上述方法可以确定第一语音所属的领域信息到第二语音所属的领域信息的状态转移概率。基于此,服务器可以将该状态转移概率作为LR模型的输入参数,得到第一语音的置信度。
图9为本申请一实施例提供的提取第一语音的语音特征的流程图,如图9所示,该方法包括如下步骤:
步骤S901:服务器将第一语音转换为第一拼音字符串,并将第二语音转换为第二拼音字符串。
步骤S902:服务器将第一拼音字符串和第二拼音字符串作为两个向量,并确定两个向量的距离。
步骤S903:服务器根据两个向量的距离确定第一语音和第二语音的拼音相似性特征。
其中,服务器可以通过自动语音识别(Automatic Speech Recognition,ASR)模块将第一语音转换为第一文本,再从第一文本中提取第一拼音字符串,并通过ASR模块将第二语音转换为第二文本,再从第二文本中提取第二拼音字符串。
其中,若两个向量的距离越小,则第一语音和第二语音的拼音相似性越高。若两个向量的距离越大,则第一语音和第二语音的拼音相似性越低。
当第一语音和第二语音的拼音相似性越高,且第二语音是语音查询请求时,第一语音是语音查询请求的概率就越高。相反地,当第一语音和第二语音的拼音相似性越低,且第二语音是语音查询请求时,第一语音是语音查询请求的概率就越低。
在本实施例中,通过上述方法可以确定第一语音和第二语音的拼音相似性特征。基于此,服务器可以将该拼音相似性特征作为LR模型的输入参数,得到第一语音的置信度。
图10为本申请另一实施例提供的提取第一语音的语音特征的流程图,如图10所示,该方法包括如下步骤:
步骤S1001:服务器将第一语音转换为第一文本,将第二语音转换为第二文本。
步骤S1002:服务器确定第一文本与第二文本的相似度,以得到第一语音与第二语音的文本相似度特征。
其中,服务器可以通过ASR模块将第一语音转换为第一文本,并通过ASR模块将第二语音转换为第二文本。
其中,第一文本与第二文本的相似度和第一文本与第二文本的编辑距离和/或第一文本与第二文本的拼音编辑距离有关,例如:第一文本与第二文本的编辑距离越大,则第一文本与第二文本的相似度越小,相反,第一文本与第二文本的编辑距离越小,则第一文本与第二文本的相似度越大。第一文本与第二文本的拼音编辑距离越大,则第一文本与第二文本的相似度越小,相反,第一文本与第二文本的拼音编辑距离越小,则第一文本与第二文本的相似度越大。
在本实施例中,通过上述方法可以确定第一语音与第二语音的文本相似度特征。基于此,服务器可以将该文本相似性特征作为LR模型的输入参数,得到第一语音的置信度。
在一种可能的设计中:服务器分析第一语音表示的意图。若服务器未分析出第一语音表示的意图,则确定第一语音的语义结果为噪声,并向智能语音设备发送提示信息,以提示用户第一语音为噪声。
在一种可能的设计中:若在第一语音之前的免唤醒对话轮数大于预设轮数,则服务器向智能语音设备发送提示信息,以提示用户第一语音为语音查询请求。
即服务器可以向智能语音设备发送提示信息,智能语音设备可以播报该提示信息,以提示用户第一语音为噪声或者语音查询请求。从而提高用户体验感。
图11为本申请一实施例提供的一种语音识别装置1100的示意图,其中该语音识别装置可以是服务器的部分或者全部,该装置1100包括:
接收模块1101,用于接收智能语音设备发送的第一语音。
提取模块1102,用于提取第一语音的语音特征。
确定模块1103,用于根据语是音特征确定第一语音的置信度。
第一发送模块1104,用于向智能语音设备发送第一语音的置信度,第一语音的置信度用于确定第一语音是否为语音查询请求。
在一种可能的设计中,所述语音特征包括以下至少一项:所述第一语音与其他语音的语义相似性特征、所述第一语音与其他语音的语义连续性特征、所述第一语音的语言规范性特征、所述第一语音与其他语音之间的状态转移概率、所述第一语音与其他语音的拼音相似性特征、所述第一语音与其他语音的文本相似性特征、所述第一语音的语义结果特征、在所述第一语音之前的免唤醒对话轮数。
在一种可能的设计中,提取模块1102具体用于:确定所述第一语音与所述第二语音的语义相似度;根据所述第一语音与所述第二语音的语义相似度、所述第一语音、所述第二语音确定所述第一语音与所述第二语音的语义连续性特征。
在一种可能的设计中,提取模块1102具体用于:通过第一神经网络层获取所述第一语音中的每个词以及第二语音中的每个词;通过第一神经网络层将所述第一语音中的每个词转换为向量,并将所述第二语音中的每个词转换为向量,其中所述第一语音中所有词对应的向量构成第一矩阵,所述第二语音中所有词对应的向量构成第二矩阵;通过第二神经网络层将所述第一矩阵转换为第一向量,并将所述第二矩阵转换为第二向量;计算所述第一向量和所述第二向量的余弦相似度,将所述余弦相似度确定为所述第一语音与所述第二语音的语义相似度。
在一种可能的设计中,提取模块1102具体用于:计算所述第一向量与所述语义相似度的乘积,得到所述第一向量在所述第二向量上的投影;计算所述第一向量在所述第二向量上的投影与所述第二向量的和,得到目标向量;根据所述目标向量确定所述第一语音与所述第二语音的语义连续性特征。
在一种可能的设计中,提取模块1102具体用于:获取所述第一语音的M个N元组,并对所述M个N元组进行排序,M为大于1的整数,N为大于或等于1的整数;从所述M个N元组中第二个N元组开始计算每个N元组的条件概率,每个N元组的条件概率为在其之前的至少一个N元组出现时该N元组的出现概率;计算所述M个N元组中从第二个N元组至第M个N元组的条件概率的乘积,得到目标条件概率;根据所述目标条件概率确定所述第一语音的语言规范性特征。
在一种可能的设计中,提取模块1102具体用于:若所述目标条件概率小于预设条件概率,则确定所述第一语音不规范;若所述目标条件概率大于或等于所述预设条件概率,则确定所述第一语音规范。
在一种可能的设计中,提取模块1102具体用于:根据所述第一语音中的每个词,确定所述每个词的下一个词;根据所述每个词的下一个词,确定所述第一语音的语言规范性特征。
在一种可能的设计中,提取模块1102具体用于:确定所述第一语音所属的领域信息以及所述第二语音所属的领域信息;获取日志,所述日志包括:领域信息之间的状态转移概率;根据所述日志确定所述第一语音所属的领域信息到所述第二语音所属的领域信息的状态转移概率。
在一种可能的设计中,提取模块1102具体用于:将所述第一语音转换为第一拼音字符串,并将所述第二语音转换为第二拼音字符串;将所述第一拼音字符串和所述第二拼音字符串作为两个向量,并确定所述两个向量的距离;根据所述两个向量的距离确定所述第一语音和所述第二语音的拼音相似性特征。
在一种可能的设计中,若所述两个向量的距离越小,则所述第一语音和所述第二语音的拼音相似性越高;若所述两个向量的距离越大,则所述第一语音和所述第二语音的拼音相似性越低。
在一种可能的设计中,提取模块1102具体用于:将所述第一语音转换为第一文本,将所述第二语音转换为第二文本;确定所述第一文本与所述第二文本的相似度,以得到所述第一语音与所述第二语音的文本相似度特征。
在一种可能的设计中,提取模块1102具体用于:分析所述第一语音表示的意图;若未分析出所述第一语音表示的意图,则确定所述第一语音的语义结果为噪声,并向所述智能语音设备发送提示信息,以提示用户所述第一语音为噪声。
在一种可能的设计中,还包括:第二发送模块1105,用于若在所述第一语音之前的免唤醒对话轮数大于预设轮数,则向所述智能语音设备发送提示信息,以提示用户所述第一语音为语音查询请求。
本实施例提供的语音识别装置可以用于执行上述服务器所执行的语音识别方法,其内容和效果可参考方法实施例部分,对此不再赘述。
图12为本申请一实施例提供的一种语音识别装置1200的示意图,其中该语音识别装置可以是智能语音设备的部分或者全部,该装置1200包括:
发送模块1201,用于向服务器发送第一语音,以使服务器提取第一语音的语音特征,并根据语音特征确定第一语音的置信度。
接收模块1202,用于接收服务器发送的第一语音的置信度。
确定模块1203,用于根据第一语音的置信度确定第一语音是否为语音查询请求。
在一种可能的设计中,确定模块1203具体用于:若所述第一语音的置信度大于预设置信度,则确定所述第一语音为语音查询请求;若所述第一语音的置信度小于或等于所述预设置信度,则确定所述第一语音为噪音。
在一种可能的设计中,还包括:推送模块1204,用于根据所述第一语音的置信度推送响应消息。
在一种可能的设计中,推送模块1204具体用于:获取至少一个语音的置信度与至少一个响应消息的对应关系,所述至少一个语音的置信度包括所述第一语音的置信度;根据所述对应关系和所述第一语音的置信度推送响应消息。
本实施例提供的语音识别装置可以用于执行上述智能语音设备所执行的语音识别方法,其内容和效果可参考方法实施例部分,对此不再赘述。
图13为本申请一实施例提供的一种服务器1300的示意图,该服务器1300包括:接收器1301、处理器1302、发送器1303以及存储器1304,其中存储器1304用于存在计算机指令,以使处理器执行该指令,实现上述服务器所执行的部分语音识别方法。
具体地,接收器1301用于接收智能语音设备发送的第一语音。
处理器1302用于提取第一语音的语音特征,根据语音特征确定第一语音的置信度。
发送器1303用于向智能语音设备发送第一语音的置信度,第一语音的置信度用于确定第一语音是否为语音查询请求。
在一种可能的设计中,语音特征包括以下至少一项:第一语音与其他语音的语义相似性特征、第一语音与其他语音的语义连续性特征、第一语音的语言规范性特征、第一语音的状态转移概率、第一语音与其他语音的拼音相似性特征、第一语音与其他语音的文本相似性特征、第一语音的语义结果特征、在第一语音之前的免唤醒对话轮数。
在一种可能的设计中,处理器1302具体用于:确定第一语音与第二语音的语义相似度。根据第一语音与第二语音的语义相似度、第一语音、第二语音确定第一语音与第二语音的语义连续性特征。
在一种可能的设计中,处理器1302具体用于:通过第一神经网络层获取第一语音中的每个词以及第二语音中的每个词。通过第一神经网络层将第一语音中的每个词转换为向量,并将第二语音中的每个词转换为向量,其中第一语音中所有词对应的向量构成第一矩阵,第二语音中所有词对应的向量构成第二矩阵。通过第二神经网络层将第一矩阵转换为第一向量,并将第二矩阵转换为第二向量。计算第一向量和第二向量的余弦相似度,将余弦相似度确定为第一语音与第二语音的语义相似度。
在一种可能的设计中,处理器1302具体用于:计算第一向量与语义相似度的乘积,得到第一向量在第二向量上的投影。计算第一向量在第二向量上的投影与第二向量的和,得到目标向量。根据目标向量确定第一语音与第二语音的语义连续性特征。
在一种可能的设计中,处理器1302具体用于:获取第一语音的M个N元组,并对M个N元组进行排序,M为大于1的整数,N为大于或等于1的整数。从M个N元组中第二个N元组开始计算每个N元组的条件概率,每个N元组的条件概率为在其之前的至少一个N元组出现时该N元组的出现概率。计算M个N元组中从第二个N元组至第M个N元组的条件概率的乘积,得到目标条件概率。根据目标条件概率确定第一语音的语言规范性特征。
在一种可能的设计中,处理器1302具体用于:若目标条件概率小于预设条件概率,则确定第一语音不规范。若目标条件概率大于或等于预设条件概率,则确定第一语音规范。
在一种可能的设计中,处理器1302具体用于:根据第一语音中的每个词,确定每个词的下一个词。根据每个词的下一个词,确定第一语音的语言规范性特征。
在一种可能的设计中,处理器1302具体用于:确定第一语音所属的领域信息以及第二语音所属的领域信息。获取日志,日志包括:领域信息之间的状态转移概率。根据日志确定第一语音所属的领域信息到第二语音所属的领域信息的状态转移概率。
在一种可能的设计中,处理器1302具体用于:将第一语音转换为第一拼音字符串,并将第二语音转换为第二拼音字符串。将第一拼音字符串和第二拼音字符串作为两个向量,并确定两个向量的距离。根据两个向量的距离确定第一语音和第二语音的拼音相似性特征。
在一种可能的设计中,若两个向量的距离越小,则第一语音和第二语音的拼音相似性越高。若两个向量的距离越大,则第一语音和第二语音的拼音相似性越低。
在一种可能的设计中,处理器1302具体用于:将第一语音转换为第一文本,将第二语音转换为第二文本。确定第一文本与第二文本的相似度,以得到第一语音与第二语音的文本相似度特征。
在一种可能的设计中,处理器1302具体用于:分析第一语音表示的意图。若未分析出第一语音表示的意图,则确定第一语音的语义结果为噪声,并向智能语音设备发送提示信息,以提示用户第一语音为噪声。
在一种可能的设计中,发送器1303还用于若在第一语音之前的免唤醒对话轮数大于预设轮数,则向智能语音设备发送提示信息,以提示用户第一语音为语音查询请求。
本实施例提供的服务器可以用于执行上述服务器所执行的语音识别方法,其内容和效果可参考方法实施例部分,对此不再赘述。
图14为本申请一实施例提供的一种智能语音设备1400的示意图,该智能语音设备1400包括:接收器1401、处理器1402、发送器1403以及存储器1304,其中存储器1404用于存在计算机指令,以使处理器执行该指令,实现上述智能语音设备所执行的部分语音识别方法。
具体地,发送器1403用于向服务器发送第一语音,以使服务器提取第一语音的语音特征,并根据语音特征确定第一语音的置信度。接收器1401用于接收服务器发送的第一语音的置信度。处理器1402用于根据第一语音的置信度确定第一语音是否为语音查询请求。
在一种可能的设计中,处理器1402具体用于:若第一语音的置信度大于预设置信度,则确定第一语音为语音查询请求。若第一语音的置信度小于或等于预设置信度,则所确定第一语音为噪音。
在一种可能的设计中,处理器1402还用于:根据第一语音的置信度推送响应消息。
在一种可能的设计中,处理器1402具体用于:获取至少一个语音的置信度与至少一个响应消息的对应关系,至少一个语音的置信度包括第一语音的置信度。根据对应关系和第一语音的置信度推送响应消息。
本实施例提供的语音识别设备可以用于执行上述智能语音设备所执行的语音识别方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本申请提供一种计算机存储介质,包括:计算机指令,计算机指令用于实现服务器执行的语音识别方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本申请提供一种计算机存储介质,包括:计算机指令,计算机指令用于实现智能语音设备执行的语音识别方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本申请提供一种计算机程序产品,包括:计算机指令,计算机指令用于实现服务器执行的语音识别方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本申请提供一种计算机程序产品,包括:计算机指令,计算机指令用于实现智能语音设备执行的语音识别方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(英文:read-only memory,缩写:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetictape)、软盘(英文:floppy disk)、光盘(英文:optical disc)及其任意组合。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (40)

1.一种语音识别方法,其特征在于,包括:
服务器接收智能语音设备发送的第一语音;
所述服务器提取所述第一语音的语音特征;
所述服务器根据所述语音特征确定所述第一语音的置信度;
所述服务器向所述智能语音设备发送所述第一语音的置信度,所述第一语音的置信度用于确定所述第一语音是否为语音查询请求。
2.根据权利要求1所述的方法,其特征在于,所述语音特征包括以下至少一项:所述第一语音与其他语音的语义相似性特征、所述第一语音与其他语音的语义连续性特征、所述第一语音的语言规范性特征、所述第一语音与其他语音之间的状态转移概率、所述第一语音与其他语音的拼音相似性特征、所述第一语音与其他语音的文本相似性特征、所述第一语音的语义结果特征、在所述第一语音之前的免唤醒对话轮数。
3.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:
所述服务器确定所述第一语音与第二语音的语义相似度,所述第二语音为第一语音之前的任一条语音;
所述服务器根据所述第一语音与所述第二语音的语义相似度、所述第一语音、所述第二语音确定所述第一语音与所述第二语音的语义连续性特征。
4.根据权利要求3所述的方法,其特征在于,所述服务器确定所述第一语音与所述第二语音的语义相似度,包括:
所述服务器通过第一神经网络层获取所述第一语音中的每个词以及第二语音中的每个词;
所述服务器通过所述第一神经网络层将所述第一语音中的每个词转换为向量,并将所述第二语音中的每个词转换为向量,其中所述第一语音中所有词对应的向量构成第一矩阵,所述第二语音中所有词对应的向量构成第二矩阵;
所述服务器通过第二神经网络层将所述第一矩阵转换为第一向量,并将所述第二矩阵转换为第二向量;
所述服务器计算所述第一向量和所述第二向量的余弦相似度,将所述余弦相似度确定为所述第一语音与所述第二语音的语义相似度。
5.根据权利要求4所述的方法,其特征在于,所述服务器根据所述第一语音与所述第二语音的语义相似度、所述第一语音、所述第二语音确定所述第一语音与所述第二语音的语义连续性特征,包括:
所述服务器计算所述第一向量与所述语义相似度的乘积,得到所述第一向量在所述第二向量上的投影;
所述服务器计算所述第一向量在所述第二向量上的投影与所述第二向量的和,得到目标向量;
所述服务器根据所述目标向量确定所述第一语音与所述第二语音的语义连续性特征。
6.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:
所述服务器获取所述第一语音的M个N元组,并对所述M个N元组进行排序,M为大于1的整数,N为大于或等于1的整数;
所述服务器从所述M个N元组中第二个N元组开始计算每个N元组的条件概率,每个N元组的条件概率为在其之前的至少一个N元组出现时该N元组的出现概率;
所述服务器计算所述M个N元组中从第二个N元组至第M个N元组的条件概率的乘积,得到目标条件概率;
所述服务器根据所述目标条件概率确定所述第一语音的语言规范性特征。
7.根据权利要求6所述的方法,其特征在于,所述服务器根据所述目标条件概率确定所述第一语音的语言规范性特征,包括:
若所述目标条件概率小于预设条件概率,则所述服务器确定所述第一语音不规范;
若所述目标条件概率大于或等于所述预设条件概率,则所述服务器确定所述第一语音规范。
8.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:
所述服务器根据所述第一语音中的每个词,确定所述每个词的下一个词;
所述服务器根据所述每个词的下一个词,确定所述第一语音的语言规范性特征。
9.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:
所述服务器确定所述第一语音所属的领域信息以及第二语音所属的领域信息,所述第二语音为第一语音之前的任一条语音;
所述服务器获取日志,所述日志包括:领域信息之间的状态转移概率;
所述服务器根据所述日志确定所述第一语音所属的领域信息到所述第二语音所属的领域信息的状态转移概率。
10.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:
所述服务器将所述第一语音转换为第一拼音字符串,并将第二语音转换为第二拼音字符串,所述第二语音为第一语音之前的任一条语音;
所述服务器将所述第一拼音字符串和所述第二拼音字符串作为两个向量,并确定所述两个向量的距离;
所述服务器根据所述两个向量的距离确定所述第一语音和所述第二语音的拼音相似性特征。
11.根据权利要求10所述的方法,其特征在于,若所述两个向量的距离越小,则所述第一语音和所述第二语音的拼音相似性越高;
若所述两个向量的距离越大,则所述第一语音和所述第二语音的拼音相似性越低。
12.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:
所述服务器将所述第一语音转换为第一文本,将第二语音转换为第二文本,所述第二语音为第一语音之前的任一条语音;
所述服务器确定所述第一文本与所述第二文本的相似度,以得到所述第一语音与所述第二语音的文本相似度特征。
13.根据权利要求2所述的方法,其特征在于,所述服务器提取所述第一语音的语音特征,包括:
所述服务器分析所述第一语音表示的意图;
若所述服务器未分析出所述第一语音表示的意图,则确定所述第一语音的语义结果为噪声,并向所述智能语音设备发送提示信息,以提示用户所述第一语音为噪声。
14.根据权利要求2所述的方法,其特征在于,还包括:
若在所述第一语音之前的免唤醒对话轮数大于预设轮数,则所述服务器向所述智能语音设备发送提示信息,以提示用户所述第一语音为语音查询请求。
15.一种语音识别方法,其特征在于,包括:
智能语音设备向服务器发送第一语音,以使所述服务器提取所述第一语音的语音特征,并根据所述语音特征确定所述第一语音的置信度;
所述智能语音设备接收所述服务器发送的所述第一语音的置信度;
所述智能语音设备根据所述第一语音的置信度确定所述第一语音是否为语音查询请求。
16.根据权利要求15所述的方法,其特征在于,所述智能语音设备根据所述第一语音的置信度确定所述第一语音是否为语音查询请求,包括:
若所述第一语音的置信度大于预设置信度,则所述智能语音设备确定所述第一语音为语音查询请求;
若所述第一语音的置信度小于或等于所述预设置信度,则所述智能语音设备确定所述第一语音为噪音。
17.根据权利要求15或16所述的方法,其特征在于,还包括:
所述智能语音设备根据所述第一语音的置信度推送响应消息。
18.根据权利要求17所述的方法,其特征在于,所述智能语音设备根据所述第一语音的置信度推送响应消息,包括:
所述智能语音设备获取至少一个语音的置信度与至少一个响应消息的对应关系,所述至少一个语音的置信度包括所述第一语音的置信度;
所述智能语音设备根据所述对应关系和所述第一语音的置信度推送响应消息。
19.一种语音识别装置,其特征在于,包括:
接收模块,用于接收智能语音设备发送的第一语音;
提取模块,用于提取所述第一语音的语音特征;
确定模块,用于根据所述语音特征确定所述第一语音的置信度;
发送模块,用于向所述智能语音设备发送所述第一语音的置信度,所述第一语音的置信度用于确定所述第一语音是否为语音查询请求。
20.一种语音识别装置,其特征在于,包括:
发送模块,用于向服务器发送第一语音,以使所述服务器提取所述第一语音的语音特征,并根据所述语音特征确定所述第一语音的置信度;
接收模块,用于接收所述服务器发送的所述第一语音的置信度;
确定模块,用于根据所述第一语音的置信度确定所述第一语音是否为语音查询请求。
21.一种服务器,其特征在于,包括:接收器、处理器和发送器;
所述接收器用于接收智能语音设备发送的第一语音;
所述处理器用于提取所述第一语音的语音特征,根据所述语音特征确定所述第一语音的置信度;
所述发送器用于向所述智能语音设备发送所述第一语音的置信度,所述第一语音的置信度用于确定所述第一语音是否为语音查询请求。
22.根据权利要求21所述的服务器,其特征在于,所述语音特征包括以下至少一项:所述第一语音与其他语音的语义相似性特征、所述第一语音与其他语音的语义连续性特征、所述第一语音的语言规范性特征、所述第一语音的状态转移概率、所述第一语音与其他语音的拼音相似性特征、所述第一语音与其他语音的文本相似性特征、所述第一语音的语义结果特征、在所述第一语音之前的免唤醒对话轮数。
23.根据权利要求22所述的服务器,其特征在于,所述处理器具体用于:
确定所述第一语音与第二语音的语义相似度,所述第二语音为第一语音之前的任一条语音;
根据所述第一语音与所述第二语音的语义相似度、所述第一语音、所述第二语音确定所述第一语音与所述第二语音的语义连续性特征。
24.根据权利要求23所述的服务器,其特征在于,所述处理器具体用于:
通过第一神经网络层获取所述第一语音中的每个词以及第二语音中的每个词;
通过第一神经网络层将所述第一语音中的每个词转换为向量,并将所述第二语音中的每个词转换为向量,其中所述第一语音中所有词对应的向量构成第一矩阵,所述第二语音中所有词对应的向量构成第二矩阵;
通过第二神经网络层将所述第一矩阵转换为第一向量,并将所述第二矩阵转换为第二向量;
计算所述第一向量和所述第二向量的余弦相似度,将所述余弦相似度确定为所述第一语音与所述第二语音的语义相似度。
25.根据权利要求24所述的服务器,其特征在于,所述处理器具体用于:
计算所述第一向量与所述语义相似度的乘积,得到所述第一向量在所述第二向量上的投影;
计算所述第一向量在所述第二向量上的投影与所述第二向量的和,得到目标向量;
根据所述目标向量确定所述第一语音与所述第二语音的语义连续性特征。
26.根据权利要求22所述的服务器,其特征在于,所述处理器具体用于:
获取所述第一语音的M个N元组,并对所述M个N元组进行排序,M为大于1的整数,N为大于或等于1的整数;
从所述M个N元组中第二个N元组开始计算每个N元组的条件概率,每个N元组的条件概率为在其之前的至少一个N元组出现时该N元组的出现概率;
计算所述M个N元组中从第二个N元组至第M个N元组的条件概率的乘积,得到目标条件概率;
根据所述目标条件概率确定所述第一语音的语言规范性特征。
27.根据权利要求26所述的服务器,其特征在于,所述处理器具体用于:
若所述目标条件概率小于预设条件概率,则确定所述第一语音不规范;
若所述目标条件概率大于或等于所述预设条件概率,则确定所述第一语音规范。
28.根据权利要求22所述的服务器,其特征在于,所述处理器具体用于:
根据所述第一语音中的每个词,确定所述每个词的下一个词;
根据所述每个词的下一个词,确定所述第一语音的语言规范性特征。
29.根据权利要求22所述的服务器,其特征在于,所述处理器具体用于:
确定所述第一语音所属的领域信息以及第二语音所属的领域信息,所述第二语音为第一语音之前的任一条语音;
获取日志,所述日志包括:领域信息之间的状态转移概率;
根据所述日志确定所述第一语音所属的领域信息到所述第二语音所属的领域信息的状态转移概率。
30.根据权利要求22所述的服务器,其特征在于,所述处理器具体用于:
将所述第一语音转换为第一拼音字符串,并将第二语音转换为第二拼音字符串,所述第二语音为第一语音之前的任一条语音;
将所述第一拼音字符串和所述第二拼音字符串作为两个向量,并确定所述两个向量的距离;
根据所述两个向量的距离确定所述第一语音和所述第二语音的拼音相似性特征。
31.根据权利要求30所述的服务器,其特征在于,若所述两个向量的距离越小,则所述第一语音和所述第二语音的拼音相似性越高;
若所述两个向量的距离越大,则所述第一语音和所述第二语音的拼音相似性越低。
32.根据权利要求22所述的服务器,其特征在于,所述处理器具体用于:
将所述第一语音转换为第一文本,将第二语音转换为第二文本,所述第二语音为第一语音之前的任一条语音;
确定所述第一文本与所述第二文本的相似度,以得到所述第一语音与所述第二语音的文本相似度特征。
33.根据权利要求22所述的服务器,其特征在于,所述处理器具体用于:
分析所述第一语音表示的意图;
若未分析出所述第一语音表示的意图,则确定所述第一语音的语义结果为噪声,并向所述智能语音设备发送提示信息,以提示用户所述第一语音为噪声。
34.根据权利要求22所述的服务器,其特征在于,
所述发送器,还用于若在所述第一语音之前的免唤醒对话轮数大于预设轮数,则向所述智能语音设备发送提示信息,以提示用户所述第一语音为语音查询请求。
35.一种智能语音设备,其特征在于,包括:发送器、接收器和处理器;
所述发送器用于向服务器发送第一语音,以使所述服务器提取所述第一语音的语音特征,并根据所述语音特征确定所述第一语音的置信度;
所述接收器用于接收所述服务器发送的所述第一语音的置信度;
所述处理器用于根据所述第一语音的置信度确定所述第一语音是否为语音查询请求。
36.根据权利要求35所述的智能语音设备,其特征在于,所述处理器具体用于:
若所述第一语音的置信度大于预设置信度,则确定所述第一语音为语音查询请求;
若所述第一语音的置信度小于或等于所述预设置信度,则所确定所述第一语音为噪音。
37.根据权利要求35或36所述的智能语音设备,其特征在于,所述处理器还用于:
根据所述第一语音的置信度推送响应消息。
38.根据权利要求37所述的智能语音设备,其特征在于,所述处理器具体用于:
获取至少一个语音的置信度与至少一个响应消息的对应关系,所述至少一个语音的置信度包括所述第一语音的置信度;
根据所述对应关系和所述第一语音的置信度推送响应消息。
39.一种计算机存储介质,其特征在于,包括:计算机指令,所述计算机指令用于实现权利要求1至14任一项所述的语音识别方法。
40.一种计算机存储介质,其特征在于,包括:计算机指令,所述计算机指令用于实现权利要求15至18任一项所述的语音识别方法。
CN201910081862.4A 2019-01-28 2019-01-28 语音识别方法、装置、设备及存储介质 Active CN109785838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910081862.4A CN109785838B (zh) 2019-01-28 2019-01-28 语音识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910081862.4A CN109785838B (zh) 2019-01-28 2019-01-28 语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109785838A true CN109785838A (zh) 2019-05-21
CN109785838B CN109785838B (zh) 2021-08-31

Family

ID=66502767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910081862.4A Active CN109785838B (zh) 2019-01-28 2019-01-28 语音识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109785838B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110646763A (zh) * 2019-10-10 2020-01-03 出门问问信息科技有限公司 一种基于语义的声源定位方法、装置及存储介质
CN110689878A (zh) * 2019-10-11 2020-01-14 浙江百应科技有限公司 一种基于XLNet的智能语音对话意图识别方法
CN111048073A (zh) * 2019-12-16 2020-04-21 北京明略软件系统有限公司 一种音频处理方法、装置、电子设备及可读存储介质
CN111191005A (zh) * 2019-12-27 2020-05-22 恒大智慧科技有限公司 社区查询方法及系统、社区服务器、计算机可读存储介质
CN111782896A (zh) * 2020-07-03 2020-10-16 深圳市壹鸽科技有限公司 语音识别后文本处理方法、装置和终端
CN112489644A (zh) * 2020-11-04 2021-03-12 三星电子(中国)研发中心 用于电子设备的语音识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105529030A (zh) * 2015-12-29 2016-04-27 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN107240398A (zh) * 2017-07-04 2017-10-10 科大讯飞股份有限公司 智能语音交互方法及装置
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN108320738A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108509619A (zh) * 2018-04-04 2018-09-07 科大讯飞股份有限公司 一种语音交互方法及设备
CN108538294A (zh) * 2018-04-27 2018-09-14 科大讯飞股份有限公司 一种语音交互方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105529030A (zh) * 2015-12-29 2016-04-27 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN107240398A (zh) * 2017-07-04 2017-10-10 科大讯飞股份有限公司 智能语音交互方法及装置
CN108320738A (zh) * 2017-12-18 2018-07-24 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108509619A (zh) * 2018-04-04 2018-09-07 科大讯飞股份有限公司 一种语音交互方法及设备
CN108538294A (zh) * 2018-04-27 2018-09-14 科大讯飞股份有限公司 一种语音交互方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110646763A (zh) * 2019-10-10 2020-01-03 出门问问信息科技有限公司 一种基于语义的声源定位方法、装置及存储介质
CN110689878A (zh) * 2019-10-11 2020-01-14 浙江百应科技有限公司 一种基于XLNet的智能语音对话意图识别方法
CN110689878B (zh) * 2019-10-11 2020-07-28 浙江百应科技有限公司 一种基于XLNet的智能语音对话意图识别方法
CN111048073A (zh) * 2019-12-16 2020-04-21 北京明略软件系统有限公司 一种音频处理方法、装置、电子设备及可读存储介质
CN111191005A (zh) * 2019-12-27 2020-05-22 恒大智慧科技有限公司 社区查询方法及系统、社区服务器、计算机可读存储介质
CN111782896A (zh) * 2020-07-03 2020-10-16 深圳市壹鸽科技有限公司 语音识别后文本处理方法、装置和终端
CN111782896B (zh) * 2020-07-03 2023-12-12 深圳市壹鸽科技有限公司 语音识别后文本处理方法、装置和终端
CN112489644A (zh) * 2020-11-04 2021-03-12 三星电子(中国)研发中心 用于电子设备的语音识别方法及装置
CN112489644B (zh) * 2020-11-04 2023-12-19 三星电子(中国)研发中心 用于电子设备的语音识别方法及装置

Also Published As

Publication number Publication date
CN109785838B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN109785838A (zh) 语音识别方法、装置、设备及存储介质
Sanabria et al. How2: a large-scale dataset for multimodal language understanding
US9812028B1 (en) Automated generation and presentation of lessons via digital media content extraction
Wayne Multilingual Topic Detection and Tracking: Successful Research Enabled by Corpora and Evaluation.
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
Gupta et al. Visual features for context-aware speech recognition
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
CN101309327A (zh) 语音聊天系统、信息处理装置、话语识别和关键字检测
Chen et al. Spoken Lecture Summarization by Random Walk over a Graph Constructed with Automatically Extracted Key Terms.
Liu et al. Speech summarization
Chen et al. Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features
CN107358947A (zh) 说话人重识别方法及系统
Xie et al. Integrating prosodic features in extractive meeting summarization
Moisio et al. Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks
Kaushik et al. Automatic audio sentiment extraction using keyword spotting.
CN113761268A (zh) 音频节目内容的播放控制方法、装置、设备和存储介质
US11817093B2 (en) Method and system for processing user spoken utterance
CN112446219A (zh) 一种中文请求文本意图分析方法
Ariki et al. Highlight scene extraction in real time from baseball live video
CN109783648B (zh) 一种利用asr识别结果改进asr语言模型的方法
Hori et al. Improvements in Automatic Speech Summarization and Evaluation
CN111968646A (zh) 一种语音识别方法及装置
Chen et al. Chinese spoken document summarization using probabilistic latent topical information
Milde et al. Ambient search: A document retrieval system for speech streams
Gillick et al. Please clap: Modeling applause in campaign speeches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210518

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant