CN115762497A

CN115762497A - 语音识别方法、装置、人机交互设备和存储介质

Info

Publication number: CN115762497A
Application number: CN202211394389.3A
Authority: CN
Inventors: 万根顺; 茆廷志; 潘嘉; 熊世富; 高建清; 刘聪; 胡国平; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-03-07

Abstract

本发明提供一种语音识别方法、装置、人机交互设备和存储介质，其中方法包括：确定待识别语音所处环境的环境视频；基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别。本发明提供的语音识别方法、装置、人机交互设备和存储介质，可以形成针对用户的个性化知识，能够拓展符合用户习惯或者匹配当前环境信息的文本语料，从而提高语音识别的准确性，提升语音命令交互成功率，改善用户体验。

Description

语音识别方法、装置、人机交互设备和存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、人机交互设备和存储介质。

背景技术

在语音命令交互场景中，通常以语音进行命令的传递。通过对语音进行语音识别，然后结合语音识别的文本进行意图的理解；或者直接采用语音到意图的端到端方式进行命令的传递。

目前，为了提高语音识别准确性，针对用户的口音问题一般采用个性化定制方案；针对噪声干扰问题通常是结合人脸信息，尤其是唇形信息进行语音增强。

但是，在服务型或者陪伴型语音命令交互场景下，即使采用了针对用户的口音定制或者针对环境噪声语音的多模态信息强化，语音识别的结果较差，导致意图的理解不准确，语音命令交互的成功率较低，影响用户的体验。

发明内容

本发明提供一种语音识别方法、装置、人机交互设备和存储介质，用以解决现有技术中语音识别的结果较差，导致意图的理解不准确，语音命令交互的成功率较低，影响用户体验的缺陷。

本发明提供一种语音识别方法，包括：

确定待识别语音所处环境的环境视频；

基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；

基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别。

根据本发明提供的语音识别方法，所述基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别，包括：

基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音的声学特征进行解码，得到语音识别结果。

根据本发明提供的语音识别方法，所述基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音的声学特征进行解码，得到语音识别结果，包括：

基于所述实体抽取结果和/或实体关系抽取结果，确定新增关键词；

基于所述新增关键词进行文本检索，得到新增文本语料，并基于所述新增文本语料，更新语言模型，所述语言模型用于对待识别语音的声学特征进行解码；

基于更新后的关键词库、更新后的知识图谱和更新后的语言模型中的至少一种，对所述待识别语音的声学特征进行解码，得到语音识别结果。

根据本发明提供的语音识别方法，所述基于更新后的关键词库，对所述待识别语音的声学特征进行解码，得到语音识别结果，包括：

基于更新后的关键词库中各关键词的时间标签，确定各关键词的热词激励权重；

基于所述各关键词的热词激励权重，对所述待识别语音的声学特征进行解码，得到语音识别结果。

根据本发明提供的语音识别方法，所述基于更新后的知识图谱，对所述待识别语音的声学特征进行解码，得到语音识别结果，包括：

将更新后的知识图谱的图谱特征与上一解码时刻的解码结果的编码特征进行融合，得到当前解码时刻的融合特征；

基于所述当前解码时刻的融合特征，以及上一解码时刻的解码结果，对所述待识别语音的声学特征进行解码，得到语音识别结果，所述语音识别结果即最终解码时刻的解码结果。

根据本发明提供的语音识别方法，所述基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，包括：

基于所述视频描述文本，对所述视频描述文本中的各语句进行实体抽取，得到所述各语句中包含的关键词；

在关键词库中不包括所述关键词的情况下，将所述关键词添加至所述关键词库中，得到更新后的关键词库。

根据本发明提供的语音识别方法，所述对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱，包括：

对所述视频描述文本中的各语句进行实体关系抽取，得到所述各语句的知识信息，所述知识信息包括实体、实体的属性和属性值；

在知识图谱中不包括所述知识信息的情况下，将所述知识信息添加至所述知识图谱中，得到更新后的知识图谱。

本发明还提供一种语音识别装置，包括：

环境视频确定单元，用于确定待识别语音所处环境的环境视频；

更新单元，用于基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；

语音识别单元，用于基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别。

本发明还提供一种人机交互设备，包括顺次连接的摄像头、麦克风和处理器；

所述麦克风，用于获取待识别语音；

所述摄像头，用于获取待识别语音所处环境的环境视频，并将所述环境视频传输至处理器；

所述处理器，用于基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别，并基于语音识别结果进行人机交互。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。

本发明提供的语音识别方法、装置、人机交互设备和存储介质，通过对环境视频的视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱。在此基础上，基于关键词库和/或知识图谱对待识别语音进行语音识别，可以形成针对用户的个性化知识，能够拓展符合用户习惯或者匹配当前环境信息的文本语料，从而提高语音识别的准确性，提升语音命令交互成功率，改善用户体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音识别方法的流程示意图之一；

图2是本发明提供的语音识别方法的流程示意图之二；

图3是本发明提供的语音识别方法的流程示意图之三；

图4是本发明提供的语音识别方法的流程示意图之四；

图5是本发明提供的语音识别方法中步骤120的流程示意图之一；

图6是本发明提供的语音识别方法中步骤120的流程示意图之二；

图7是本发明提供的语音识别方法的流程示意图之五；

图8是本发明提供的语音识别装置的结构示意图；

图9是本发明提供的人机交互设备的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于服务型或陪伴性的语音命令交互场景，语音命令中通常会与周边环境产生联系，即语音命令中周围环境的实体出现的频率较高。

而现有的语音识别技术方案缺少对于周边环境中存在的实体等相关信息的描述，如果语音命令交互场景与周边环境产生联系，则语音命令识别的效果完全依赖于语音识别模型本身对于该部分实体的覆盖，拓展性较差。

同时，因为不同用户所处的环境信息差别较大，如果不能够对用户的环境信息进行建模，对于该场景下的语音命令的使用个性化迁移能力较差，将直接影响用户的主观体验。

针对上述问题，本发明实施例提供了一种语音识别方法，该方法的技术构思在于，通过获取应用场所内的环境视频，基于环境视频对场所内的事物进行分类和描述，并结合用户的个性化知识存储进行语音识别，能够拓展符合用户习惯或者匹配当前环境信息的文本语料，从而提高语音识别的准确性，提升语音命令交互成功率，改善用户体验。

需要说明的是，本发明提供的语音识别方法可应用于各种语音识别场景，特别是智能家居、智能售货等服务型或陪伴型语音命令交互场景，能够提升该场景的语音命令交互成功率。

图1是本发明提供的语音识别方法的流程示意图之一，该方法中各步骤的执行主体可以是语音识别装置，该装置可以通过软件和/或硬件实现，该装置可以集成在电子设备中，该电子设备可以是人机交互设备本身；也可以是除该设备外的、进行语音识别并控制该设备进行人机交互的其他设备。其中，人机交互设备具体可以是移动终端、智能家居、智能售货机、智能陪护机器人等设备；进行语音识别并控制该设备进行人机交互的其他设备可以是服务器、个人电脑等。如图1所示，本发明实施例提供的语音识别方法可以包括如下步骤：

步骤110，确定待识别语音所处环境的环境视频。

具体地，待识别语音是指需要进行语音识别的语音，可通过声学采集组件采集得到，声学采集组件可以是单一的麦克风，也可以是包含多个麦克风的麦克风阵列，本发明实施例对此不作具体限定。待识别语音可以是截取的语音片段，也可以是用户语音流。此处的用户语音流即语音交互过程中获取的语音数据流，用户语音流是实时录制所得，具体可以是语音录制得到，也可以是视频录制得到。

需要说明的是，此处的待识别语音可以是用户为了语音交互所录入的语音数据流，例如用于唤醒语音交互的唤醒语音数据流，又例如在唤醒之后用于查询具体信息的语音数据流，也可以是在语音交互过程中用户打断语音交互系统播放的语音时录入的语音数据流，本发明实施例对此不作具体限定。

考虑到待识别语音的语音内容经常会与周边环境中存在的实体产生联系，比如在智能售货服务型场景中，用户会说：请问苹果在哪里？又比如在陪伴型语音交互场景，用户会说：请帮我拿一个苹果，此处的苹果即周边环境中存在的实体。

但是，现有的语音识别技术方案缺少对于周边环境中存在的实体等相关信息的描述，语音识别的效果完全依赖于语音识别模型本身对于该部分实体的覆盖，拓展性较差。

因此在本步骤中，除了获取待识别语音，还获取待识别语音所处环境的环境视频，此处的环境视频可以是实时视频流；也可以是对目标环境进行监控，所存储的最新视频片段，本发明实施例对此不作具体限定。例如可通过摄像头对用户存在的场景进行拍摄，获取环境视频。同时利用已知的目标跟踪算法，对场景环境进行实时监控，若发生目标的新增或者变化，则重新进行视频片段的更新。

可理解的是，环境视频可以表征用户所在的环境，环境视频里包含了环境里存在的实体，实体的属性等，比如实体的大小、位置、数量、颜色等各种属性。

步骤120，基于环境视频的视频描述文本，对视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱。

具体地，环境视频的视频描述文本可以表征视频中的场景存在实体的细节描述，例如“桌子上有三个红色的苹果，墙上挂着一幅向日葵的画”等等。可通过视频描述算法对视频描述文本进行文本提取，得到环境视频的视频描述文本。

在此基础上，为了与用户在交互过程中可能产生的语音命令建立联系，可以对视频描述文本进行实体抽取，此处的实体具体可以是实体词或关键词，得到视频描述文本的实体抽取结果之后，随即可基于实体抽取结果更新关键词库。关键词库中包含多个关键词，关键词既可以作为语音识别的热词信息，还可以用于后续语音意图理解过程中语料覆盖的扩展，从而能够提升语音命令交互成功率，改善用户体验。

为了得到关键词，可通过预先训练好的实体抽取模型进行实体抽取，还可以对视频描述文本中各语句进行分词，并基于各分词的词性进行实体抽取，本发明实施例对此不作具体限定。

视频描述文本不仅包含环境中存在的实体，同时包含丰富的知识信息，此处的知识信息即与各个实体相关的属性知识。例如，苹果的数量是三个，颜色是红色的，位置在桌子上。为了更加方便的存储该知识信息，可用知识图谱的形式进行描述。为了得到视频描述文本的知识信息，可通过预先训练好的实体关系抽取模型或者已知的关系抽取框架实现。

得到关键词和/或知识信息之后，即可根据得到的关键词和/或知识信息更新关键词库和/或知识图谱，此处的更新可以是新建一个初始关键词库和/或知识图谱，也可以是针对已经存在的初始关键词库和/或知识图谱进行更新，例如将新增的关键词和/或知识信息添加至初始关键词库和/或知识图谱中，得到更新后的关键词库和/或知识图谱。

步骤130，基于更新后的关键词库和/或更新后的知识图谱，对待识别语音进行语音识别。

具体地，更新后的关键词库，和/或更新后的知识图谱，均包含了用户所在场景的场景信息，能够形成针对用户的个性化知识。根据更新后的关键词库，和/或更新后的知识图谱，对待识别语音进行语音识别，可以提高针对用户语音的识别准确性，从而提高语音交互的成功率，提升用户体验感。

可理解的是，可以只根据关键词库中的关键词，进行语音识别；也可以是根据知识图谱进行语音识别；当然为了进一步提高语音识别的准确性，还可以同时基于关键词库和知识图谱进行语音识别。

本发明实施例提供的方法，通过对环境视频的视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱。在此基础上，基于关键词库和/或知识图谱对待识别语音进行语音识别，可以形成针对用户的个性化知识，能够拓展符合用户习惯或者匹配当前环境信息的文本语料，从而提高语音识别的准确性，提升语音命令交互成功率，改善用户体验。

基于上述实施例，步骤130具体包括：

步骤131，基于更新后的关键词库和/或更新后的知识图谱，对待识别语音的声学特征进行解码，得到语音识别结果。

具体地，一般情况下语音识别过程是首先基于声学模型，针对待识别语音进行声学特征提取，得到待识别语音的声学特征；然后对声学特征进行文本解码，得到识别结果。

在本实施例中，在对待识别语音的声学特征进行解码时，更新后的关键词库和/或更新后的知识图谱，均可作为辅助信息，可以辅助解码器更好的理解用户的意图，从而提高解码的成功率。

本发明实施例提供的方法，关键词库和/或知识图谱能够为声学特征解码时提供辅助信息，从而提高语音识别时的解码成功率，进一步提高语音识别的准确性。

基于上述任一实施例，图2是本发明提供的语音识别方法的流程示意图之二，如图2所示，步骤131具体包括：

步骤131-1，基于实体抽取结果和/或实体关系抽取结果，确定新增关键词；

步骤131-2，基于新增关键词进行文本检索，得到新增文本语料，并基于新增文本语料，更新语言模型，语言模型用于对待识别语音的声学特征进行解码；

步骤131-3，基于更新后的关键词库、更新后的知识图谱和更新后的语言模型中的至少一种，对待识别语音的声学特征进行解码，得到语音识别结果。

具体地，实体抽取结果和/或实体关系抽取结果，能够表征该视频描述信息中包含的实体，即基于实体抽取结果和/或实体关系抽取结果，能够得到关键词。

由于各关键词的标签可以包括关键词以及关键词的时间标签，此处的时间标签可以根据视频描述文本确定，例如可以是该关键词首次出现时的时间。由于各关键词均包含了时间标签，因此可根据时间标签确定新增关键词，例如时间标签在上一次更新时间之后的关键词，即可作为新增关键词。

得到新增关键词之后，随即可基于新增关键词进行文本检索，文本检索的检索源可以包括已有的文本库或者互联网资源等。经文本检索后得到新增文本语料。

在此基础上，根据新增的文本语料更新语言模型，此处的语言模型可用于对待识别语音的声学特征进行解码，语言模型可以是预先训练好的。可理解的是，每当获取得到新增的文本语料，即可对语言模型进行一次更新。具体更新过程可以是：将新增的文本语料与前一时刻的语言模型进行插值，得到当前时刻的语言模型，并将当前时刻的语言模型作为更新后的语言模型。更新后的语言模型可以作为语音识别过程中的语言模型。

因此，可基于更新后的关键词库、知识图谱和语言模型中的任意一种，对待识别语音的声学特征进行解码；还可基于其中的任意两种；当然还可以基于全部对待识别语音的声学特征进行解码，得到语音识别结果。

本发明实施例提供的方法，通过新增关键词，对语言模型进行更新，更新后的语言模型能够覆盖更多符合用户习惯，或者符合当前环境信息的文本语料，从而提高语音识别的准确性，提高语音交互的成功率。

基于上述任一实施例，图3是本发明提供的语音识别方法的流程示意图之三，如图3所示，步骤131具体包括：

步骤131-4，基于更新后的关键词库中各关键词的时间标签，确定各关键词的热词激励权重；

步骤131-5，基于各关键词的热词激励权重，对待识别语音的声学特征进行解码，得到语音识别结果。

具体地，基于关键词库对待识别语音的声学特征进行解码，可通过热词激励方案实现。可将关键词库中的关键词作为语音识别的热词信息，其中各关键词作为解码过程中的热词输入的权重，可以基于各关键词的时间标签确定。

可理解是，关键词的时间标签与当前时刻越接近，则该关键词作为热词的热词激励权重越大；反之，关键词的时间标签与当前时刻越不接近，即时间间隔越远，则该关键词作为热词的热词激励权重越小。

随即，可根据各关键词的热词激励权重，采用热词激励方案进行语音识别过程中的解码的热词输入。可理解的是，热词激励权重越高，则关键词作为热词输入的概率越高；反之，热词激励权重越低，则关键词作为热词输入的概率越低。

本发明实施例提供的方法，通过各关键词的时间标签，确定各关键词的热词激励权重，并基于热词激励权重进行解码，能够进一步提高语音识别过程中解码的准确性，从而提高语音交互的成功率。

基于上述任一实施例，图4是本发明提供的语音识别方法的流程示意图之四，如图4所示，步骤131具体包括：

步骤131-6，将更新后的知识图谱的图谱特征与上一解码时刻的解码结果的编码特征进行融合，得到当前解码时刻的融合特征；

步骤131-7，基于当前解码时刻的融合特征，以及上一解码时刻的解码结果，对待识别语音的声学特征进行解码，得到语音识别结果，语音识别结果即最终解码时刻的解码结果。

具体地，基于知识图谱进行声学特征解码，可将知识图谱作为语音识别解码过程中辅助的文本信息。在本实施例中，知识图谱的图谱特征可采用图卷积的方式，经过图卷积得到知识谱图的图谱特征。此处的历史解码结果是指针对待识别语音，在该解码时刻之前的解码过程中所产生的历史信息。

可采用特征拼接的方式将知识图谱的图谱特征与历史解码结果的编码特征进行融合，得到融合特征。且不同于常规意义上的特征融合，本发明实施例中的特征融合是动态的，其融合方式是随着特征解码的情况变化而变化的。

特征融合过程中，可以分析判断在当前解码时刻，应当重点关注图谱特征中的哪些信息，以及应当重点关注历史解码结果的编码特征中的哪些信息，还可以分析判断在当前解码时刻，应当更多关注图谱特征中的信息还是历史解码结果的编码特征中的信息，从而在进行特征融合的过程中，突出需要重点关注的信息，弱化不需要重点关注的信息，得到更适用于当前解码时刻的融合特征。

在得到当前解码时刻的融合特征后，解码层即可基于当前时刻的融合特征，以及上一解码时刻的解码结果进行解码，从而得到当前解码时刻的解码结果并输出。语音识别结果即最终解码时刻的解码结果。

以常见的端到端语音识别框架为例，可以将知识图谱作为辅助的信息进行解码。目标函数为：

其中，X表示语音的输入，Y_1,…i-1表示语音识别的历史解码结果，即上一解码时刻的解码结果；y_i表示当前解码时刻对应的解码结果输出，G表示知识图谱，θ表示训练参数。

知识图谱与语音识别模型的融合方式，可以采用图卷积的方式，将输出与历史解码结果的编码信息拼接结合。

本发明实施例提供的方法，通过将知识图谱与历史解码结果的编码特征进行融合，可以在语音识别解码过程中关注到知识图谱的重要信息，从而提高语音识别的准确性。

基于上述任一实施例，图5是本发明提供的语音识别方法中步骤120的流程示意图之一，如图5所示，步骤120中基于环境视频的视频描述文本，对视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，具体包括：

步骤121，基于视频描述文本，对视频描述文本中的各语句进行实体抽取，得到各语句中包含的关键词；

步骤122，在关键词库中不包括关键词的情况下，将关键词添加至关键词库中，得到更新后的关键词库。

具体地，为了得到视频描述文本中的关键词，可通过对视频描述文本中的各个语句进行实体抽取得到。例如，视频描述文本

针对其中的每一句描述内容

根据已知的分词工具进行分词以及词性的判断。因为生成的关键词主要用于后续语音意图理解过程中语料覆盖的扩展，所以实体词或者关键词的选取以名词为主，并加入关键词库中。

关键词库中的标签可以包括关键词和关键词的时间标签，可表示为如下形式：{关键词，关键词的时间标签}。例如，

中获取的关键词k的标签即为{K，t}。

在关键词库中已经存在了关键词K的情况下，该关键词K不存入关键词库中，同时关键词库中的关键词K依旧保留原始的关键词时间标签，即关键词库不做更新；在关键词库中不包括关键词K的情况下，将该关键词及关键词的时间标签及时添加至关键词库中，得到更新后的关键词库。

本发明实施例提供的方法，基于视频描述文本得到的关键词，及时更新关键词库，可以构建一个动态的解码网络，进一步提高了语音识别的解码准确性。

基于上述任一实施例，图6是本发明提供的语音识别方法中步骤120的流程示意图之二，如图6所示，步骤120中对视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱，包括：

步骤123，对视频描述文本中的各语句进行实体关系抽取，得到各语句的知识信息，知识信息包括实体、实体的属性和属性值；

步骤124，在知识图谱中不包括知识信息的情况下，将知识信息添加至知识图谱中，得到更新后的知识图谱。

具体地，为了得到视频描述文本的知识信息，可对视频描述文本中的各语句进行实体关系抽取。对于视频描述的文本内容

中存在的每一句内容描述

结合已知的关系抽取框架进行知识信息存储的建立，其中知识信息包含{实体、属性、属性值}的描述。例如，“桌子上有一个绿色的橘子”，产生包括{橘子、数量、一个}，{橘子、颜色、绿色}，{橘子、位置、桌子上}的知识信息进行存储。

在此基础上，在知识图谱中不包括该知识信息的情况下，此处的不包括是指知识图谱中不包括对应的实体或对应的实体属性。也就是说，实体、实体的属性和属性值中只要有一项不对应，则将该知识信息添加至知识图谱中，得到更新后的知识图谱。

本发明实施例提供的方法，通过对视频描述文本进行实体关系抽取，得到知识信息，并基于该知识信息更新知识图谱，从而可以将更新后的知识图谱作为语音识别解码中的辅助信息，进而提高语音识别的准确性。

基于上述任一实施例，图7是本发明提供的语音识别方法的流程示意图之五，如图7所示，提供一种语音识别方法：

S1，获取待识别语音环境的环境视频，以及获取环境视频的视频描述文本；

S2，针对生成的视频描述文本进行实体词或者关键词的抽取，并基于实体抽取结果更新关键词库；

针对生成的视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；

基于实体抽取结果和/或实体关系抽取结果，确定新增关键词；基于新增关键词进行文本检索，得到新增文本语料，并基于新增文本语料，更新语言模型；

基于更新后的关键词库、更新后的知识图谱和更新后的语言模型中的至少一种，对待识别语音的声学特征进行解码，得到语音识别结果。

其中，基于更新后的关键词库对待识别语音的声学特征进行解码，得到语音识别结果具体可包括：基于更新后的关键词库中各关键词的时间标签，确定各关键词的热词激励权重；基于各关键词的热词激励权重，对待识别语音的声学特征进行解码，得到语音识别结果。

基于更新后的知识图谱对待识别语音的声学特征进行解码，得到语音识别结果具体可包括：将更新后的知识图谱的图谱特征与上一解码时刻的解码结果的编码特征进行融合，得到当前解码时刻的融合特征；基于当前解码时刻的融合特征，以及上一解码时刻的解码结果，对待识别语音的声学特征进行解码，得到语音识别结果，语音识别结果即最终解码时刻的解码结果。

下面对本发明提供的语音识别装置进行描述，下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。

基于上述任一实施例，图8是本发明提供的语音识别装置的结构示意图，如图8所示，语音识别装置包括环境视频确定单元810，更新单元820和语音识别单元830，其中，

环境视频确定单元810，用于确定待识别语音所处环境的环境视频；

更新单元820，用于基于环境视频的视频描述文本，对视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；

语音识别单元830，用于基于更新后的关键词库和/或更新后的知识图谱，对待识别语音进行语音识别。

本发明实施例提供的语音识别装置，通过对环境视频的视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱。在此基础上，基于关键词库和/或知识图谱对待识别语音进行语音识别，可以形成针对用户的个性化知识，能够拓展符合用户习惯或者匹配当前环境信息的文本语料，从而提高语音识别的准确性，提升语音命令交互成功率，改善用户体验。

基于上述任一实施例，语音识别单元还用于：

基于上述任一实施例，更新单元还用于：

基于上述任一实施例，图9是本发明提供的人机交互设备的结构示意图，如图9所示，人机交互设备包括顺次连接的麦克风910、摄像头920和处理器930；

麦克风910，用于获取待识别语音；

摄像头920，用于获取待识别语音所处环境的环境视频，并将环境视频传输至处理器；

处理器930，用于基于环境视频的视频描述文本，对视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；基于更新后的关键词库和/或更新后的知识图谱，对待识别语音进行语音识别，并基于语音识别结果进行人机交互。

具体地，人机交互设备可用于与用户进行语音对话，交互过程可以拆分为语音识别操作、会话处理操作和语音合成操作三个阶段，而语音识别作为第一个阶段，语音识别的准确性极大的影响交互成功率以及用户的体验。该人机交互设备可应用于各种语音交互场景，特别是智能家居、智能售货等服务型或陪伴型语音命令交互场景，能够提升该场景的语音命令交互成功率。

该人机交互设备可包括麦克风和摄像头，其中麦克风用于获取待识别语音；摄像头用于获取待识别语音所处环境的环境视频，并将环境视频传输至处理器。

处理器在接收到环境视频之后，会首先获取环境视频的视频描述文本，对视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱。

在此基础上，基于更新后的关键词库和/或更新后的知识图谱，对待识别语音进行语音识别，并基于语音识别结果进行人机交互。

其中，各步骤的具体实现方式可参考上述实施例的描述，在此不再赘述。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行语音识别方法，该方法包括：确定待识别语音所处环境的环境视频；基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音识别方法，该方法包括：确定待识别语音所处环境的环境视频；基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音识别方法，该方法包括：确定待识别语音所处环境的环境视频；基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，和/或，对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱；基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

确定待识别语音所处环境的环境视频；

2.根据权利要求1所述的语音识别方法，其特征在于，所述基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音进行语音识别，包括：

3.根据权利要求2所述的语音识别方法，其特征在于，所述基于更新后的关键词库和/或更新后的知识图谱，对所述待识别语音的声学特征进行解码，得到语音识别结果，包括：

4.根据权利要求2所述的语音识别方法，其特征在于，所述基于更新后的关键词库对所述待识别语音的声学特征进行解码，得到语音识别结果，包括：

5.根据权利要求2所述的语音识别方法，其特征在于，所述基于更新后的知识图谱对所述待识别语音的声学特征进行解码，得到语音识别结果，包括：

6.根据权利要求1-5中任一项所述的语音识别方法，其特征在于，所述基于所述环境视频的视频描述文本，对所述视频描述文本进行实体抽取，并基于实体抽取结果更新关键词库，包括：

7.根据权利要求1-5中任一项所述的语音识别方法，其特征在于，所述对所述视频描述文本进行实体关系抽取，并基于实体关系抽取结果更新知识图谱，包括：

8.一种语音识别装置，其特征在于，包括：

9.一种人机交互设备，其特征在于，包括顺次连接的摄像头、麦克风和处理器；

所述麦克风，用于获取待识别语音；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音识别方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法。