CN117894321B

CN117894321B - 一种语音交互方法、语音交互提示系统、装置

Info

Publication number: CN117894321B
Application number: CN202410296001.9A
Authority: CN
Inventors: 张卫平
Original assignee: Fudi Technology Nanjing Co ltd
Current assignee: Fudi Technology Nanjing Co ltd
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-05-17
Anticipated expiration: 2044-03-15
Also published as: CN117894321A

Abstract

本发明公开了一种语音交互方法、语音交互提示系统、装置，涉及语音交互技术领域，根据特定环境中人员数量的分析，和是否为惯性用户的情况下，同时产生贴近信号和独处信号时，之后会自动启动对待分人声的每一段语音进行分析，当语音中存在特定语句时，自动识别该段语音中的指令并进行执行；通过上述方式，可以不通过特定唤醒词在部分场景下根据用户习惯直接唤醒语音交互系统，进行指令下达；同时通过对用户的每一条指令进行分析和保留，以及后续语音内容，能够在产生关联对话时，自动唤醒并执行相关指令；本发明简单有效，且易于实用。

Description

一种语音交互方法、语音交互提示系统、装置

技术领域

本发明属于语音交互技术领域，具体是一种语音交互方法、语音交互提示系统、装置。

背景技术

针对于语音交互这一过程，在启动过程中，语音唤醒，也称为关键词检测（KWS），是启动语音交互过程的第一步；用户通过说出预设的唤醒词，使得设备从待机状态进入工作状态，开始对用户的语音指令进行监听、识别和响应；

在语音交互这一过程中，通常都是依据于一个唤醒词来唤醒系统，唤醒后根据录入的语音内容来识别用户指令，进行交互；

公开号为CN113253970A的专利公开了一种语音交互方法，包括：预先创建用于应用程序的UI控件库，当应用程序的图形用户界面显示时，获取图形用户界面的控件列表，按照预定策略自UI控件库中获取控件的语音交互属性并根据语音交互属性生成与控件对应的场景元素信息，根据场景元素信息构建语音交互场景，以及接收场景事件进行语音交互，场景事件根据语音请求及语音交互场景生成。本申请的语音交互方法可将图形用户界面自动转换为语音交互场景，实现了语音交互场景的自动构建，进而可实现交通工具与用户之间的语音交互。

但是，上述专利公开的语音交互系统存在如下问题，首先，没有给出一种能够根据用户习惯而不需要特定唤醒词来进行唤醒，导致每次都需要说设定唤醒词，从而不够智能，影响用户使用体验；其次，对于借助唤醒词进行交互的，在交互相同问题时，需要反复录入唤醒词，这种方式过于繁杂，不够智能，而且不能形成对话；基于此，现提供一种解决方案。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一；

为此，本发明提出了一种语音交互方法，该方法具体包括如下步骤：

获取到特定环境下的惯性声纹组，每个惯性声纹对应一个用户；之后在特定环境下产生人员声音时，自动生成新增信号；

获取到新增的人声，将其标记为待分人声，当待分人声属于惯性声纹组中任意一条惯性声纹时，获取到此时对应待分人声的用户，将其标记为待分用户，并产生贴近信号；

之后根据特定环境中声纹个数确定特定环境存在的人数，当仅存在待分用户时，产生独处信号；

在同时产生贴近信号和独处信号时，会自动启动对待分人声的每一段语音进行分析，当语音中存在特定语句时，自动识别该段语音中的指令并进行执行；

特定语句借助对待分用户过往的语音指令分析得到。

进一步地，在特定环境下的语音交互之前，首先进行声纹备份，将惯性用户的声纹进行备份存储，得到惯性声纹组，惯性用户指代为在特定环境下经常使用的，或者特定语音交互设备的所有人。

进一步地，人员声音大产生通过下述方式判定：

在特定环境下进行声音样本采集，借助语音活动检测技术判定是否产生人员声音。

进一步地，对特定环境进行持续监控，监控时长为一个周期，此处一个周期时长由管理员预设；

对监控到的所有的人声的声纹进行分析，获取到存在几个不同的声纹，表示为存在人数，当存在人数为一个人时，产生独处信号。

进一步地，在同时产生贴近信号和独处信号时，会自动启动对待分人声的语音进行实时获取，对用户说出的每一个独段语音进行分析，具体为：

首先对独段语音进行识别，当其中存在待分用户的特定语句时，自动启动语音交互，开始识别用户指令并对应执行。

进一步地，待分用户的特定语句通过对用户的语惯分析得到，语惯分析具体方式为：

首先，获取到所有对应的待分用户过往在进行语音交互时，近T2时间内所有发出的语音指令，将其标记为过往指令，对过往指令进行转文字处理，得到若干条的过往文字；

对所有的进行分词处理，得到若干个过往分词，将过往分词里面的常规分词去除，常规分词由用户设置，剩余标记为可靠分词；

获取到所有的可靠分词出现次数，将出现次数超过X1的标记为个性唤词；此处X1为预设数值；个性唤词对应的语音即为特定语句。

进一步地，独段语音具体划分方式为：当检测用待分人声对应人员在说话时，会自动进行语音获取，直到对应人员在T1时间内没有录入新的语音时，将录入到的语音标记为一个独段语音；此处T1为预设数值。

进一步地，在没有同时产生贴近信号和独处信号时，此时依据唤醒词进行语音交互的唤醒过程，在检测到唤醒词时自动进行语音交互，当用户发出指令，且执行完之后，会进行保留分析，保留分析具体方式为：

保留上一条语音指令，并将该语音指令转化为文字并存储为缓态文字，缓态文字自动存储设定时间，设定时间由用户预设，一般为半个小时；得到所有的缓态文字；

之后持续获取产生的语音，每获取到一个独段语音时，会自动将其转化为文字，将其标记为独段文字；

将独段文字与所有的缓态文字进行比较，当独段文字与任一条缓态文字的相似度超过X2时，产生反应信号，此时会将当下独段文字对应的独段语音标记为指令语音，对指令语音进行识别并执行。

进一步地，独段文字与缓态文字的相似度通过下述方式获取得到：

获取到独段文字中与缓态文字一致的字符，得到一致的字符数，将该字符数除以独段文字的总字符数，得到的数值标记为相似度。

语音交互提示系统，该系统用于按照前述任一项的语音交互提示方法来进行语音交互。

与现有技术相比，本发明的有益效果是：

一种语音交互方法，根据特定环境中人员数量的分析，和是否为惯性用户的情况下，同时产生贴近信号和独处信号时，之后会自动启动对待分人声的每一段语音进行分析，当语音中存在特定语句时，自动识别该段语音中的指令并进行执行；通过上述方式，可以不通过特定唤醒词在部分场景下根据用户习惯直接唤醒语音交互系统，进行指令下达；

同时通过对用户的每一条指令进行分析和保留，以及后续语音内容，能够在产生关联对话时，自动唤醒并执行相关指令；本发明简单有效，且易于实用。

附图说明

图1为本发明实施例一的语音交互方法的流程图；

图2为本发明实施例二的语音交互方法的流程图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本申请提供了一种语音交互方法，该方法具体包括如下步骤：

步骤一：在特定环境下的语音交互之前，首先进行声纹备份，将惯性用户的声纹进行备份存储，得到惯性声纹组，惯性用户指代为在特定环境下经常使用的，或者特定语音交互设备的所有人，这类特定环境指代为车里、家里等使用人数有限，且特定环境一般存在持有人的环境区域；

步骤二：在特定环境内进行增音检测，增音检测具体方式为：

在特定环境下进行声音样本采集，借助语音活动检测技术（VAD）判定是否产生人员声音，此处的语音活动检测技术一般可以采用下述方式：

能量阈值法：通过设置一个能量阈值，当语音信号的能量超过这个阈值时，判断为语音活动；否则，认为是背景噪声或无声部分；

零交叉率法：通过计算语音信号的零交叉率，即信号从一个正数变为负数或从负数变为正数的次数，来判断语音的存在与否；

最小二乘周期估计法：这种方法通过估计语音信号的基频周期来检测语音活动；

几何自适应能量阈值法：根据语音信号的特性动态调整能量阈值，以提高检测的准确性。

上述均为现有技术，此处不做具体公开，仅仅用来检测是否存在人员声音，当然也并不局限于通过上述技术实现，凡是现有技术中能够检测人声是否存在的技术都可用于此处；

在产生人员声音时，生成新增信号；

步骤三：在新增信号产生时，自动进行启动分析，启动分析具体方式为：

首先，获取到新增的人声，将其标记为待分人声，将待分人声与惯性声纹组进行比较，比较到一致时，获取到此时对应待分人声的用户，将其标记为待分用户，并产生贴近信号；

之后根据对特定环境进行持续监控，监控时长为一个周期，此处一个周期时长由管理员预设，一般为十到十五分钟，当然管理员可以根据需求设置为其他数值；

对监控到的所有的人声的声纹进行分析，获取到存在几个不同的声纹，表示为存在几个人，得到存在的人数，当存在人数为一个人时，产生独处信号；

在同时产生贴近信号和独处信号时，会自动启动对待分人声的语音进行实时获取，对用户说出的每一个独段语音进行分析；

独段语音具体划分方式为：当检测用待分人声对应人员在说话时，会自动进行语音获取，直到对应人员在T1时间内没有录入新的语音时，将录入到的语音标记为一个独段语音；此处T1为预设数值；

对独段语音进行分析具体为：首先对独段语音进行识别，当其中存在待分用户的特定语句时，自动启动语音交互，开始识别用户指令并对应执行；

待分用户的特定语句通过对用户的语惯分析得到，语惯分析具体方式为：

首先，获取到所有对应的待分用户过往在进行语音交互时，近T2时间内所有发出的语音指令，将其标记为过往指令，对过往指令进行转文字处理，得到若干条的过往文字，T2为预设值；

对所有的进行分词处理，分词处理采用现有技术，此处不做具体赘述，得到若干个过往分词，将过往分词里面的常规分词去除，常规分词由用户设置，剩余标记为可靠分词；

获取到所有的可靠分词出现次数，将出现次数超过X1的标记为个性唤词；此处X1为预设数值；个性唤词对应的语音即为特定语句；

当然作为本发明的实施例二，本实施例在实施例一的基础上进行，与实施例一不同之处在于，如图2，本实施例中在没有同时产生贴近信号和独处信号时，此时依据唤醒词进行语音交互的唤醒过程，在检测到唤醒词时自动进行语音交互，当用户发出指令，且执行完之后，会进行保留分析，保留分析具体方式为：

保留上一条语音指令，并将该语音指令转化为文字并存储为缓态文字，缓态文字自动存储设定时间，之后会自动删除；设定时间由用户预设，一般为半个小时；得到所有的缓态文字；

将独段文字与所有的缓态文字进行比较，当独段文字与任一条缓态文字的相似度超过X2时，产生反应信号，此时会将当下独段文字对应的独段语音标记为指令语音，对指令语音进行识别并执行，X2为预设值；

独段文字与缓态文字的相似度通过下述方式获取得到：

本申请还提供一种语音交互提示系统，该系统用于依据上述语音交互方法来进行语音交互；

当然本申请还提供一种语音交互装置，该装置包括存储器和执行器，存储器用于存储计算机程序，该计算机程序用于实现前述语音交互方法，执行器用于执行存储器内存储的计算机程序。

上述公式中的部分数据均是去除量纲取其数值计算，公式是由采集的大量数据经过软件模拟得到最接近真实情况的一个公式；公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者通过大量数据模拟获得。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种语音交互方法，其特征在于，该方法具体包括如下步骤：

在特定环境下的语音交互之前，首先进行声纹备份，将惯性用户的声纹进行备份存储，得到惯性声纹组，惯性用户指代为在特定环境下经常使用的，或者特定语音交互设备的所有人；获取到特定环境下的惯性声纹组，每个惯性声纹对应一个用户；之后在特定环境下产生人员声音时，自动生成新增信号；

特定语句借助对待分用户过往的语音指令分析得到。

2.根据权利要求1所述的一种语音交互方法，其特征在于，人员声音的产生通过下述方式判定：

3.根据权利要求1所述的一种语音交互方法，其特征在于，对特定环境进行持续监控，监控时长为一个周期，此处一个周期时长由管理员预设；

4.根据权利要求1所述的一种语音交互方法，其特征在于，在同时产生贴近信号和独处信号时，会自动启动对待分人声的语音进行实时获取，对用户说出的每一个独段语音进行分析，具体为：

5.根据权利要求4所述的一种语音交互方法，其特征在于，待分用户的特定语句通过对用户的语惯分析得到，语惯分析具体方式为：

6.根据权利要求4所述的一种语音交互方法，其特征在于，独段语音具体划分方式为：当检测用待分人声对应人员在说话时，会自动进行语音获取，直到对应人员在T1时间内没有录入新的语音时，将录入到的语音标记为一个独段语音；此处T1为预设数值。

7.根据权利要求1所述的一种语音交互方法，其特征在于，

在没有同时产生贴近信号和独处信号时，此时依据唤醒词进行语音交互的唤醒过程，在检测到唤醒词时自动进行语音交互，当用户发出指令，且执行完之后，会进行保留分析，保留分析具体方式为：

保留上一条语音指令，并将该语音指令转化为文字并存储为缓态文字，缓态文字自动存储设定时间，设定时间由用户预设；得到所有的缓态文字；

独段文字与缓态文字的相似度通过下述方式获取得到：

8.语音交互提示系统，其特征在于，该系统用于按照如权利要求1-7任一项所述的语音交互提示方法来进行语音交互。

9.一种语音交互装置，其特征在于，该装置包括存储器和执行器，存储器用于存储计算机程序，该计算机程序用于实现权利要求1-7任一项所述的语音交互方法，执行器用于执行存储器内存储的计算机程序。