CN113053363B

CN113053363B - 语音识别方法、语音识别装置和计算机可读存储介质

Info

Publication number: CN113053363B
Application number: CN202110518055.1A
Authority: CN
Inventors: 杨慕葵
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2024-03-01
Anticipated expiration: 2041-05-12
Also published as: CN113053363A

Abstract

本发明提出了一种语音识别方法、语音识别装置和计算机可读存储介质，其中，语音识别方法包括：获取语音指令；确定语音指令中的多个语音片段；确定每个语音片段在初始话术集中的命中结果；根据命中结果确定与语音片段对应的结束时间；在结束时间后，对已经确定命中结果的至少一个语音片段进行语义理解。根据本发明的技术方案，无需考虑语速的问题，仅对命中结果的语音片段的结束时间进行确定，当在某一语音片段命中初始话术集时，可直接利用初始话术集内部存储好的话术进行匹配对应，可提前识别到用户具体所表达的内容，提高识别速度。

Description

语音识别方法、语音识别装置和计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，具体而言，涉及一种语音识别方法、一种语音识别装置和一种计算机可读存储介质。

背景技术

现有的语音识别，在识别是否结束的判断时，主要是通过设置一定的延时检测，在延时过程中如果并未检测到新的指令，则认为当前语音流已经停止，需要进行语义理解。

在实现本发明的过程中，本发明的发明人发现：由于延时的设置，会导致整个语音识别的过程较长，反映较为迟钝，影响识别效率等问题。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

有鉴于此，本发明实施例的第一方面提供了一种语音识别方法。

本发明实施例的第二方面提供了一种语音识别装置。

本发明实施例的第三方面提供了一种计算机可读存储介质。

为了实现上述目的，本发明第一方面的实施例提供了一种语音识别方法。包括：获取语音指令；确定语音指令中的多个语音片段；确定每个语音片段在初始话术集中的命中结果；根据命中结果确定与语音片段对应的结束时间；在结束时间后，对已经确定命中结果的至少一个语音片段进行语义理解。

根据本发明提出的语音识别方法，先对语音指令进行获取，再将获取到的语音指令进行分解，将其分解成多个语音片段，通过对每个语音片段是否在初始话术集中的是否出现进行判断，也即确定每个语音片段的命中结果，若是命中，则认为当前判断的语音片段属于初始话术集，则可利用此前积累的数据进行更为准确且快速的识别。需要强调的是，在分析一段话时，也即分析整个语音指令时，识别的过程是逐渐的，根据不同人的语速的不同，判断该句是否截至的时间也会不同，而在本申请中，无需考虑语速的问题，仅对命中结果的语音片段的结束时间进行确定，当在某一语音片段命中初始话术集时，可直接利用初始话术集内部存储好的话术进行匹配对应，可提前识别到用户具体所表达的内容，提高识别速度。

具体地，在根据命中结果确定结束时间时，主要是在确定语音片段可在初始话术集中匹配的基础上，对该语音片段进行计时判断，以进行稳定性判断，在结束时间内若识别的结果并未发生本质变化，则在结束时间后，即可直接以当前的识别结果进行语义理解，也即对已经确定命中结果的一个火多个语音片段进行语义理解。

其中，在不同的场景下，语音指令可能存在不同的语气词等，在进行命中判断时，则可将语气词进行筛选，直接略过，以减少不必要的判断运算时间，提高语音的识别效率。

当然，在进行语音识别时，也会存在语音片段未命中初始话术集的情况，若是未命中，则可认为是用户的自创词，或是数据库中并未存储有释义，则需要后期对初始话术集进行进一步的扩充。

另外，本发明提供的上述方案中的语音识别方法还可以具有如下附加技术特征：

上述技术方案中，确定语音指令中的多个语音片段，具体包括：确定多个语音片段的接收顺序；确定每个语音片段在初始话术集中的命中结果，具体包括：根据接收顺序，依次确定每个语音片段的命中结果。

在该技术方案中，在确定语音指令中的多个语音片段时，需要先对多个语音片段的接收顺序进行确定，可以理解，不同的用户其表达同一概念的语序可能会发生变化，故而在进行语音片段的拆分时，很可能同样的语音片段的组合，会产生不同的语义理解，故而通过先对顺序进行确定，再根据顺序依次确定语音片段的命中结果，从而可在提高语音识别的效率的基础上，有效提高语音识别的准确率，极大的提高用户的使用体验。

上述技术方案中，根据命中结果确定与语音片段对应的结束时间，具体包括：在首次命中结果为是时，确定与命中结果为是的语音片段对应的结束时间。

在该技术方案中，在确定结束时间时，主要是根据多个命中结果中第一次为是，也即根据接收顺序进行命中结果的确定时，第一次出现命中结果为是时，可认为当前语音片段已经在初始话术集中匹配成功，确定首次命中结果为是所对应的语音片段，根据该语音片段开始计时，来确定相对应的结束时间。

可以理解，在进行语音识别时，当第一次识别命中后，可直接开始确定结束时间，若是在结束时间结束前无新的识别结果出现，则可认为当前的命中结果即为整个语音指令的识别内容，可直接进行下一步的语义理解。

上述技术方案中，根据命中结果确定与语音片段对应的结束时间，具体还包括：在结束时间内，若检测到其余语音片段的命中指令为是，则根据最后一个语音片段的命中结果，调整结束时间。

在该技术方案中，在确定结束时间时，还需对其余语音片段进行检测，若是在首次命中结果为是所对应的结束时间内，存在其他语音片段的命中结果也为是，则认为当前存在语音识别内容的更新，需要重新计时，故而，可在最后一个命中初始话术集的语音片段识别完成后，对结束时间进行调整，具体为，在最后一个命中初始话术集的语音片段识别完成后，重新计时，以判断接下来一端时间的识别内容是否保持不变。

上述技术方案中，在结束时间后，对已经确定命中结果的至少一个语音片段进行语义理解，具体包括：根据调整后的结束时间，对至少一个语音片段进行语义理解。

在该技术方案中，在对结束时间进行调整后，进行语义理解时，需要根据调整后的结束时间进行判断，在识别内容保证稳定的基础上，可认为当前对语音内容的识别已经结束，可进行下一步的语义理解。

其中，进行语义理解的语音片段的数量可以为一个也可以为多个。

上述技术方案中，初始话术集包括意图明确子集和意图模糊子集，语音识别方法还包括：在语音片段命中意图明确子集时，根据语音片段进行语义理解。

在该技术方案中，初始话术集主要包括两类，一类是意图明确子集，其内部的意图都是较为清晰明确，不存在歧义的，另一类则是意图模糊子集，其内部的意图就需要其他内容进行辅助判断。在语音片段所命中的子集为意图明确子集时，则可直接确定根据当前的语音片段足以完成语音内容的识别，故而可直接针对该语音片段进行语义理解，极大的缩短语音识别所需要的时间，提高识别效率。

上述技术方案中，还包括：在语音片段命中意图模糊子集时，对每个语音片段进行语义理解，确定识别结果；在相邻两个识别结果相同时，以前一识别结果作为语义理解的结果；在相邻两个识别结果不同时，以后一识别结果作为语义理解的结果。

在该技术方案中，在语音片段所命中的子集为意图模糊子集时，则需要其他语音片段进行辅助配合理解，故而需要对每个语音片段均需要进行语义理解，得到对应于不同语音片段的识别结果，需要强调的是，语义理解的识别结果是随着语音片段进行的，语音片段的接收顺序存在先后关系，故而识别结果的确定也存在时间上的先后。在相邻两个识别结果不同时，可认为语义理解的结果发生了变化，需要根据后一识别结果进行后续语音识别的进行，例如打开对应的程序，或搜索特定的内容，甚至设定特定的闹钟等，而在相邻的两个识别结果相同时，则认为当前语音指令的语义理解部分已经完成，达到一定的准确率，故而可直接将前一识别结果作为语义理解的结果，直接向外输出，也提高了语音识别的效率。

上述技术方案中，确定语音指令中的多个语音片段，具体包括：确定语音指令的起始时刻，以及多个终止时刻；根据起始时刻和每个终止时刻确定对应于每个终止时刻的语音片段。

在该技术方案中，在对语音指令的语音片段进行确定时，需要先确定语音指令的起始时刻，具体可以为接收到特定的唤醒词的时刻，或是接收到第一个语音字节的时刻等，在此基础上，需要根据语音指令的长度确定不同的终止时刻，具体而言可根据语句的语法划分确定，可在主语后划分一个终止时刻，谓语后划分一个终止时刻，宾语后划分一个终止时刻，定语后划分一个终止时刻等。通过根据起始时刻以及不同的终止时刻，可确定多个语音片段，从而对语音指令进行不同长度的划分，以便于后续根据语音片段的接收顺序对初始话术集的命中与否进行判断。

可以理解，根据上述划分方法，多个语音片段之间存在一定的重合，具体为，越靠近起始时刻的语音片段的重合概率越高。

本发明第二方面的实施例提供了一种语音识别装置，包括：存储器，存储器中存储有计算机程序；处理器用于在执行计算机程序时，实现上述第一方面实施例中任一语音识别方法的步骤。

根据本发明的语音识别装置的实施例，包括处理器和存储器，由于处理器可执行存储在存储器上的计算机程序或指令，并在执行计算机程序或指令时实现上述第一方面的任一语音识别方法，因而本发明的语音识别装置具有上述任一技术方案中的语音识别方法的全部有益效果，在此不再赘述。

本发明第三方面的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现语音识别方法的步骤。

通过本发明的计算机可读存储介质的实施例，其上存储有计算机程序，在计算机程序被处理器执行时实现上述任一实施例中的语音识别方法的步骤，因而具有上述任一实施例中的语音识别方法的全部有益效果，在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

图1示出了根据本发明的一个实施例的语音识别方法的流程示意图；

图2示出了根据本发明的一个实施例的语音识别方法的流程示意图；

图3示出了根据本发明的一个实施例的语音识别方法的流程示意图；

图4示出了根据本发明的一个实施例的语音识别方法的流程示意图；

图5示出了根据本发明的一个实施例的语音识别装置的结构示意图。

其中，图5中附图标记与部件名称之间的对应关系为：

100：语音识别装置；102：存储器；104：处理器。

具体实施方式

为了能够更清楚地理解本发明的实施例的上述目的、特征和优点，下面结合附图和具体实施方式对本发明的实施例进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是，本发明的实施例还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不限于下面公开的具体实施例的限制。

下面参照图1至图5描述根据本发明的一些实施例。

实施例一：

如图1所示，本发明的一个实施例中提供了一种语音识别方法，包括：步骤S1002，获取语音指令；步骤S1004，确定语音指令中的多个语音片段；步骤S1006，确定每个语音片段在初始话术集中的命中结果；步骤S1008，根据命中结果确定与语音片段对应的结束时间；步骤S1010，在结束时间后，对已经确定命中结果的至少一个语音片段进行语义理解。

先对语音指令进行获取，再将获取到的语音指令进行分解，将其分解成多个语音片段，通过对每个语音片段是否在初始话术集中的是否出现进行判断，也即确定每个语音片段的命中结果，若是命中，则认为当前判断的语音片段属于初始话术集，则可利用此前积累的数据进行更为准确且快速的识别。需要强调的是，在分析一段话时，也即分析整个语音指令时，识别的过程是逐渐的，根据不同人的语速的不同，判断该句是否截至的时间也会不同，而在本申请中，无需考虑语速的问题，仅对命中结果的语音片段的结束时间进行确定，当在某一语音片段命中初始话术集时，可直接利用初始话术集内部存储好的话术进行匹配对应，可提前识别到用户具体所表达的内容，提高识别速度。

实施例二：

如图2所示，本发明的一个实施例中提供了一种语音识别方法，包括：步骤S2002，获取语音指令；步骤S2004，确定多个语音片段的接收顺序；步骤S2006，根据接收顺序，依次确定每个语音片段的命中结果；步骤S2008，根据命中结果确定与语音片段对应的结束时间；步骤S2010，在结束时间后，对已经确定命中结果的至少一个语音片段进行语义理解。

在确定语音指令中的多个语音片段时，需要先对多个语音片段的接收顺序进行确定，可以理解，不同的用户其表达同一概念的语序可能会发生变化，故而在进行语音片段的拆分时，很可能同样的语音片段的组合，会产生不同的语义理解，故而通过先对顺序进行确定，再根据顺序依次确定语音片段的命中结果，从而可在提高语音识别的效率的基础上，有效提高语音识别的准确率，极大的提高用户的使用体验。

在对语音指令的语音片段进行确定时，需要先确定语音指令的起始时刻，具体可以为接收到特定的唤醒词的时刻，或是接收到第一个语音字节的时刻等，在此基础上，需要根据语音指令的长度确定不同的终止时刻，具体而言可根据语句的语法划分确定，可在主语后划分一个终止时刻，谓语后划分一个终止时刻，宾语后划分一个终止时刻，定语后划分一个终止时刻等。通过根据起始时刻以及不同的终止时刻，可确定多个语音片段，从而对语音指令进行不同长度的划分，以便于后续根据语音片段的接收顺序对初始话术集的命中与否进行判断。

实施例三：

如图3所示，本发明的一个实施例中提供了一种语音识别方法，包括：步骤S3002，获取语音指令；步骤S3004，确定多个语音片段的接收顺序；步骤S3006，根据接收顺序，依次确定每个语音片段的命中结果；步骤S3008，在首次命中结果为是时，确定与命中结果为是的语音片段对应的结束时间；步骤S3010，在结束时间内，若检测到其余语音片段的命中指令为是，则根据最后一个语音片段的命中结果，调整结束时间；步骤S3012，根据调整后的结束时间，对至少一个语音片段进行语义理解。

在确定结束时间时，主要是根据多个命中结果中第一次为是，也即根据接收顺序进行命中结果的确定时，第一次出现命中结果为是时，可认为当前语音片段已经在初始话术集中匹配成功，确定首次命中结果为是所对应的语音片段，根据该语音片段开始计时，来确定相对应的结束时间。

在确定结束时间时，还需对其余语音片段进行检测，若是在首次命中结果为是所对应的结束时间内，存在其他语音片段的命中结果也为是，则认为当前存在语音识别内容的更新，需要重新计时，故而，可在最后一个命中初始话术集的语音片段识别完成后，对结束时间进行调整，具体为，在最后一个命中初始话术集的语音片段识别完成后，重新计时，以判断接下来一端时间的识别内容是否保持不变。

在对结束时间进行调整后，进行语义理解时，需要根据调整后的结束时间进行判断，在识别内容保证稳定的基础上，可认为当前对语音内容的识别已经结束，可进行下一步的语义理解。

实施例四：

如图4所示，本发明的一个实施例中提供了一种语音识别方法，包括：步骤S4002，获取语音指令；步骤S4004，确定语音指令中的多个语音片段；步骤S4006，在语音片段命中意图明确子集时，根据语音片段进行语义理解；步骤S4008，在语音片段命中意图模糊子集时，对每个语音片段进行语义理解，确定识别结果；步骤S4010，在相邻两个识别结果相同时，以前一识别结果作为语义理解的结果；步骤S4012，在相邻两个识别结果不同时，以后一识别结果作为语义理解的结果。

初始话术集主要包括两类，一类是意图明确子集，其内部的意图都是较为清晰明确，不存在歧义的，另一类则是意图模糊子集，其内部的意图就需要其他内容进行辅助判断。在语音片段所命中的子集为意图明确子集时，则可直接确定根据当前的语音片段足以完成语音内容的识别，故而可直接针对该语音片段进行语义理解，极大的缩短语音识别所需要的时间，提高识别效率。

在语音片段所命中的子集为意图模糊子集时，则需要其他语音片段进行辅助配合理解，故而需要对每个语音片段均需要进行语义理解，得到对应于不同语音片段的识别结果，需要强调的是，语义理解的识别结果是随着语音片段进行的，语音片段的接收顺序存在先后关系，故而识别结果的确定也存在时间上的先后。在相邻两个识别结果不同时，可认为语义理解的结果发生了变化，需要根据后一识别结果进行后续语音识别的进行，例如打开对应的程序，或搜索特定的内容，甚至设定特定的闹钟等，而在相邻的两个识别结果相同时，则认为当前语音指令的语义理解部分已经完成，达到一定的准确率，故而可直接将前一识别结果作为语义理解的结果，直接向外输出，也提高了语音识别的效率。

实施例五：

如图5，本发明的实施例提供一种语音识别装置100。该语音识别装置100包括存储器102；处理器104，由于处理器可执行存储在存储器上的计算机程序或指令，并在执行计算机程序或指令时实现上述任一语音识别方法，因而语音识别装置具有上述任一实施例中的语音识别方法的全部有益效果，在此不再赘述。

实施例六：

本发明的实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例中的控制方法的步骤。

在一个具体的实施例中，线上系统经过一段时间运行后，已经沉淀了大量用户的话术。筛选其中较高频的话术，排除多轮、追问语境下产生的部分，剔除易受尾部内容追加而语义改变的部分、如“我想听”，作为初始话术集。对于意图明确的指令话术标记为A类，如“下一首”、“现在几点钟”；其他标为B类。话术集内容可离线整理后写入缓存中，供语音交互系统读取、后续匹配。在语音交互系统内，随着片段持续输送，识别服务会持续返回中间识别结果直到VAD判定结束后、最终识别确认。

把每次返回的识别结果记为Qi,Q0为第一次返回非空的有字识别。每次的Qi在话术集中进行匹配，命中后则启动一个定时器，追记接下来的T*n时间内的稳定性。其中，T表示当前时间序列下该语音流增加一个字大概需要的时间，参考实验系数×返回时间(Qi-Q0)/返回内容长度(Qi-Q0)；n可根据实验情况调整，参考为2。

如果在目标时间内，识别出了Qi+x且内容已改变，相对Qi不仅追加了单元语气词(e.g.呢、呀、吗)或标点符号，视作内容更新，随Qi启动的定时取消、重新检查Qi+x是否触发条件。

如果经过目标时间后，未返回新的识别结果、或者识别结果与Qi一致或是仅尾部单元语气词/标点的变化，视作内容一致，随Qi启动的定时结束，触发提前语义理解。

如果Qi是A类意图明确的话术，本次语音识别视为结束，相当于提前判定VAD尾端点，直接进行后续的流程。

如果Qi是B类话术，Qi的结果进行语义理解并缓存结果、同时本次语音识别继续、直到默认的VAD结束识别出Qn。在Qn与Qi内容一致或仅有单元语气词/标点差别的情况下，将Qi语义理解的结果继续向后处理进行服务能力，相当于节省了语义理解的时间。

如果Qn与Qi不一致，舍弃Qi提前触发的效果、按原流程继续，相当于未加速。

冷启动阶段可开启分层实验，逐步验证效果后再打开流量；最初标记为A类可直接加速的话术集可随线上沉淀调整比例。

其中，冷启动指线上流量较低，筛选出来初始话术集较少。

分层实验，或AB实验，指的是在全流量里抽取一部分流量去验证效果，而不是直接对所有线上流量实施能力。

以上结合附图详细说明了本发明的技术方案，无需考虑语速的问题，仅对命中结果的语音片段的结束时间进行确定，当在某一语音片段命中初始话术集时，可直接利用初始话术集内部存储好的话术进行匹配对应，可提前识别到用户具体所表达的内容，提高识别速度。

在本发明中，术语“第一”、“第二”、“第三”仅用于描述的目的，而不能理解为指示或暗示相对重要性；术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的描述中，需要理解的是，术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作，因此，不能理解为对本发明的限制。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

获取语音指令；

确定所述语音指令中的多个语音片段；

确定每个所述语音片段在初始话术集中的命中结果；

根据所述命中结果确定与所述语音片段对应的结束时间；

在所述结束时间后，对已经确定所述命中结果的至少一个语音片段进行语义理解；

其中，所述确定所述语音指令中的多个语音片段，具体包括：

确定多个所述语音片段的接收顺序；

所述确定每个所述语音片段在初始话术集中的命中结果，具体包括：

根据所述接收顺序，依次确定每个所述语音片段的命中结果；

所述根据所述命中结果确定与所述语音片段对应的结束时间，具体包括：

在首次所述命中结果为是时，确定与所述命中结果为是的语音片段对应的结束时间；

在所述结束时间内，若检测到其余所述语音片段的命中结果为是，则根据最后一个所述语音片段的命中结果，调整所述结束时间；

其中，所述确定每个所述语音片段在初始话术集中的命中结果，包括：

确定每个所述语音片段是否在初始话术集中出现；

所述确定与所述命中结果为是的语音片段对应的结束时间，包括：

根据首次命中结果为是的语音片段开始计时，确定对应的结束时间；

所述根据最后一个所述语音片段的命中结果，调整所述结束时间，包括：

根据最后一个命中结果为是的语音片段重新计时，确定调整后的结束时间。

2.根据权利要求1所述的语音识别方法，其特征在于，所述在所述结束时间后，对已经确定所述命中结果的至少一个语音片段进行语义理解，具体包括：

根据调整后的所述结束时间，对至少一个所述语音片段进行语义理解。

3.根据权利要求1所述的语音识别方法，其特征在于，所述初始话术集包括意图明确子集和意图模糊子集，所述语音识别方法还包括：

在所述语音片段命中所述意图明确子集时，根据所述语音片段进行语义理解。

4.根据权利要求3所述的语音识别方法，其特征在于，还包括：

在所述语音片段命中所述意图模糊子集时，对每个所述语音片段进行语义理解，确定识别结果；

在相邻两个所述识别结果相同时，以前一所述识别结果作为语义理解的结果；

在相邻两个所述识别结果不同时，以后一所述识别结果作为语义理解的结果。

5.根据权利要求1至4中任一项所述的语音识别方法，其特征在于，所述确定所述语音指令中的多个语音片段，具体包括：

确定所述语音指令的起始时刻，以及多个终止时刻；

根据所述起始时刻和每个所述终止时刻确定对应于每个所述终止时刻的语音片段。

6.一种语音识别装置，其特征在于，包括：

存储器，所述存储器中存储有计算机程序；

处理器，所述处理器用于在执行所述计算机程序时实现如权利要求1至5中任一项所述的语音识别方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音识别方法的步骤。