CN117975951A

CN117975951A - 人机交互方法、系统、终端及存储介质

Info

Publication number: CN117975951A
Application number: CN202311784707.1A
Authority: CN
Inventors: 桂维忠; 黄盼
Original assignee: Yunzhisheng Hangzhou Intelligent Technology Co ltd; Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Yunzhisheng Hangzhou Intelligent Technology Co ltd; Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2023-12-23
Filing date: 2023-12-23
Publication date: 2024-05-03

Abstract

本发明提供了一种人机交互方法、系统、终端及存储介质，该方法包括：对用户语音进行断句和语音识别得到第一语音文本；将第一语音文本输入自然语言理解引擎进行语义匹配，若语义匹配失败，将第一语音文本输入预训练后的大模型进行语义分析；根据语义分析结果进行人机交互，在预设时长内对用户进行语音交互检测；若语音交互检测成功，则停止人机交互，对用户进行语音采集得到采集语音；若采集语音的语义匹配失败，则对第一语音文本进行文本拼接；根据文本拼接后的第一语音文本，返回执行将第一语音文本输入自然语言理解引擎进行语义匹配的步骤及后续步骤。本发明实施例，无需用户手动的进行用户语音的录制，方便了用户的人机交互操作。

Description

人机交互方法、系统、终端及存储介质

技术领域

本发明涉及人机交互技术领域，尤其涉及一种人机交互方法、系统、终端及存储介质。

背景技术

将大模型接入人机交互设备，可以提升用户体验，但是大模型无法判断用户是否说完一句话，使用传统语音端点检测(Voice Activity Detection,VAD)断句方法，根据固定断句时间断句，可能用户只是中途停顿，大模型便会出现“抢答”现象，因此，人机交互过程中，如何避免“抢答”现象的问题越来越受人们所重视。

现有的人机交互过程中，一般采用人工手动点击开始和点击结束的方式录制用户交互语音，导致用户操作繁琐，降低了用户的人机交互体验。

发明内容

本发明实施例的目的在于提供一种人机交互方法、系统、终端及存储介质，旨在解决现有的人机交互体验低下的问题。

本发明实施例是这样实现的，一种人机交互方法，所述方法包括：

对用户语音进行断句，得到第一断句语音，并对所述第一断句语音进行语音识别，得到第一语音文本；

将所述第一语音文本输入自然语言理解引擎进行语义匹配，若所述第一语音文本的语义匹配失败，则将所述第一语音文本输入预训练后的大模型进行语义分析；

根据语义分析结果进行人机交互，并在预设时长内对用户进行语音交互检测；

若所述语音交互检测成功，则停止所述人机交互，并对用户进行语音采集，得到采集语音；

对所述采集语音进行断句，得到第二断句语音，并对所述第二断句语音进行语音识别，得到第二语音文本；

将所述第二语音文本输入所述自然语言理解引擎进行语义匹配，若所述第二语音文本的语义匹配失败，则根据所述第二语音文本对所述第一语音文本进行文本拼接；

根据文本拼接后的所述第一语音文本，返回执行所述将所述第一语音文本输入自然语言理解引擎进行语义匹配的步骤及后续步骤。

优选的，在预设时长内对用户进行语音交互检测，包括：

获取所述第一断句语音的语音终点，并以所述语音终点为拾音起点、时长阈值为拾音时长，对用户当前所处环境进行拾音，得到拾音语音；

获取所述用户语音中的用户语音特征，并对所述拾音语音进行去噪处理；

将所述用户语音特征与去噪处理后的所述拾音语音进行特征匹配；

若所述特征匹配成功，则判定所述语音交互检测成功；

若所述特征匹配失败，则判定所述语音交互检测失败。

优选的，返回执行所述将所述第一语音文本输入自然语言理解引擎进行语义匹配的步骤及后续步骤之后，还包括：

若文本拼接后的所述第一语音文本的文本拼接次数大于次数阈值，则在文本拼接后的所述第一语音文本中，删除所述第一断句语音对应的语音文本。

优选的，将所述第一语音文本输入自然语言理解引擎进行语义匹配，包括：

将所述第一语音文本与所述自然语言理解引擎中的预设文本进行匹配；

若所述第一语音文本与任一所述预设文本相匹配，则判定所述第一语音文本的语义匹配成功；

若所述第一语音文本与所述预设文本均未匹配，则判定所述第一语音文本的语义匹配失败。

优选的，所述方法还包括：

若所述第一语音文本的语义匹配成功，则根据所述第一语音文本的语义匹配结果进行人机交互；

若所述第二语音文本的语义匹配成功，则根据所述第二语音文本的语义匹配结果进行人机交互；

若所述语音交互检测失败，继续执行所述人机交互。

优选的，根据所述第一语音文本的语义匹配结果进行人机交互，包括：

根据所述第一语音文本的语义匹配结果，确定所述第一语音文本相匹配的预设文本，并获取确定到的所述预设文本的文本标识；

获取所述文本标识对应的交互语音，并将所述交互语音进行答案播报和/或信息显示。

本发明实施例的另一目的在于提供一种人机交互系统，所述系统包括：

第一语音识别模块，用于对用户语音进行断句，得到第一断句语音，并对所述第一断句语音进行语音识别，得到第一语音文本；

第一语义匹配模块，用于将所述第一语音文本输入自然语言理解引擎进行语义匹配，若所述第一语音文本的语义匹配失败，则将所述第一语音文本输入预训练后的大模型进行语义分析；

交互检测模块，用于根据语义分析结果进行人机交互，并在预设时长内对用户进行语音交互检测；

语音采集模块，用于若所述语音交互检测成功，则停止所述人机交互，并对用户进行语音采集，得到采集语音；

第二语音识别模块，对所述采集语音进行断句，得到第二断句语音，并对所述第二断句语音进行语音识别，得到第二语音文本；

第二语义匹配模块，将所述第二语音文本输入所述自然语言理解引擎进行语义匹配，若所述第二语音文本的语义匹配失败，则根据所述第二语音文本对所述第一语音文本进行文本拼接；

本发明实施例的另一目的在于提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

本发明实施例的另一目的在于提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例，能自动对用户语音进行断句，无需用户手动的进行用户语音的录制，方便了用户的人机交互操作，通过将第一语音文本输入自然语言理解引擎进行语义匹配、输入大模型进行语义分析，能有效地识别第一断句语音的语义，通过在预设时长内对用户进行语音交互检测，以检测用户是否完成人机交互需求的描述，若语音交互检测成功，则判定用户未完成人机交互需求的描述，通过停止人机交互，以防止出现打断用户说话的现象，提高了用户的人机交互体验，通过将第二语音文本输入自然语言理解引擎进行语义匹配，以识别采集语音对应的语义，若第二语音文本的语义匹配失败，通过将第二语音文本对第一语音文本进行文本拼接，有效地保障了对用户人机交互语义识别的完整性。

附图说明

图1是本发明第一实施例提供的人机交互方法的流程图；

图2是本发明第二实施例提供的人机交互方法的流程图；

图3是本发明第三实施例提供的人机交互系统的结构示意图；

图4是本发明第四实施例提供的终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的人机交互方法的流程图，该人机交互方法可以应用于任一终端设备或系统，该人机交互方法包括步骤：

步骤S10，对用户语音进行断句，得到第一断句语音，并对所述第一断句语音进行语音识别，得到第一语音文本；

其中，可以使用VAD断句的方式，基于固定的VAD时长，例如500ms，对用户的说话内容进行断句，得到第一断句语音，对第一断句语音进行自动语音识别(Automatic SpeechRecognition，ASR)，得到第一语音文本A1。

步骤S20，将所述第一语音文本输入自然语言理解引擎进行语义匹配，若所述第一语音文本的语义匹配失败，则将所述第一语音文本输入预训练后的大模型进行语义分析；

其中，通过将第一语音文本A1输入自然语言理解引擎(NLU)进行语义匹配，以查询自然语言理解引擎中是否存在第一语音文本对应的语义结果，该步骤中，将第一语音文本A1送入NLU引擎，若NLU能识别第一语音文本A1，输出NLU结果，并对答案进行TTS播报、页面展示。若NLU不能识别第一语音文本A1，将第一语音文本A1送入预训练后的大模型，在预训练后的大模型中根据问题生成答案，并对答案进行展示和TTS播报。

可选的，将所述第一语音文本输入自然语言理解引擎进行语义匹配，包括：

将所述第一语音文本与所述自然语言理解引擎中的预设文本进行匹配；其中，通过将第一语音文本与自然语言理解引擎中的预设文本进行文本匹配，以判断第一语音文本是否为预设文本；

若所述第一语音文本与任一所述预设文本相匹配，则判定所述第一语音文本的语义匹配成功；其中，若第一语音文本与任一预设文本相匹配，则判定存在第一语义文本对应的语义结果；

进一步地，若所述第一语音文本的语义匹配成功，则根据所述第一语音文本的语义匹配结果进行人机交互。

更进一步地，根据所述第一语音文本的语义匹配结果进行人机交互，包括：

获取所述文本标识对应的交互语音，并将所述交互语音进行答案播报和/或信息显示；

其中，将文本标识与语音查询表进行匹配，得到该交互语音，该语音查询表中存储有不同文本标识与对应交互语音之间的对应关系。

步骤S30，根据语义分析结果进行人机交互，并在预设时长内对用户进行语音交互检测；

其中，通过在预设时长内对用户进行语音交互检测，以检测用户是否完成人机交互需求的描述，该预设时长可以根据用户需求进行设置，例如，该预设时长可以设置为1秒、1.5秒或2秒等，即，断句后，若1.5秒内用户不继续说话，语音交互检测失败，则认为用户已经说完上句话，继续进行答案播报。

可选的，若所述语音交互检测失败，继续执行所述人机交互。

步骤S40，若所述语音交互检测成功，则停止所述人机交互，并对用户进行语音采集，得到采集语音；

其中，若语音交互检测成功，则判定用户未完成人机交互需求的描述，通过停止人机交互，以防止出现打断用户说话的现象，提高了用户的人机交互体验，即，当检测到1.5秒内用户继续说话，语音交互检测成功，对用户进行语音采集，得到采集语音。

步骤S50，对所述采集语音进行断句，得到第二断句语音，并对所述第二断句语音进行语音识别，得到第二语音文本；

其中，可以使用VAD断句的方式，基于固定的VAD时长，对采集语音进行断句，得到第二断句语音，对第二断句语音进行自动语音识别，得到第二语音文本A2。

该步骤中，断句后，若一定时间内用户继续说话(例如1.5s)，则认为用户并为结束说话，打断已经进行的答案播报，并继续收音、断句、进行ASR识别，将识别结果记为A2。

步骤S60，将所述第二语音文本输入所述自然语言理解引擎进行语义匹配，若所述第二语音文本的语义匹配失败，则根据所述第二语音文本对所述第一语音文本进行文本拼接；

其中，若NLU不理解A2，则将A1和A2拼接，前后视为一整句话，并将拼接后的第一语音文本记为新的A1。

可选的，若所述第二语音文本的语义匹配成功，则根据所述第二语音文本的语义匹配结果进行人机交互；其中，将A2送入NLU，检测NLU是否理解，若理解，返回A2的答案，对答案进行TTS播报、页面展示。

步骤S70，根据文本拼接后的所述第一语音文本，返回执行所述将所述第一语音文本输入自然语言理解引擎进行语义匹配的步骤及后续步骤；

其中，根据新的A1返回继续执行将第一语音文本输入自然语言理解引擎进行语义匹配的步骤及后续步骤，以达到将用户完整语音重新进行语义匹配的效果。

可选的，返回执行所述将所述第一语音文本输入自然语言理解引擎进行语义匹配的步骤及后续步骤之后，还包括：

若文本拼接后的所述第一语音文本的文本拼接次数大于次数阈值，则在文本拼接后的所述第一语音文本中，删除所述第一断句语音对应的语音文本；其中，该次数阈值可以根据需求进行设置，若文本拼接后的第一语音文本的文本拼接次数大于次数阈值，则判定当前识别错误，通过在文本拼接后的第一语音文本中，删除第一断句语音对应的语音文本，有效的提高了文本拼接后的第一语音文本的准确性。

本实施例中，能自动对用户语音进行断句，无需用户手动的进行用户语音的录制，方便了用户的人机交互操作，通过将第一语音文本输入自然语言理解引擎进行语义匹配、输入大模型进行语义分析，能有效地识别第一断句语音的语义，通过在预设时长内对用户进行语音交互检测，以检测用户是否完成人机交互需求的描述，若语音交互检测成功，则判定用户未完成人机交互需求的描述，通过停止人机交互，以防止出现打断用户说话的现象，提高了用户的人机交互体验，通过将第二语音文本输入自然语言理解引擎进行语义匹配，以识别采集语音对应的语义，若第二语音文本的语义匹配失败，通过将第二语音文本对第一语音文本进行文本拼接，有效地保障了对用户人机交互语义识别的完整性。

本实施例更加符合人与人交互的情况，在与其他人交互过程中，如果打断了对方说话，会选择结束正在说的话，让对方继续说完上述方式更符合人们日常交互习惯，提升用户体验。本实施例是在VAD方案的基础上进行优化，不会破坏常规交互逻辑。本实施例能在一定程度上解决用户说话停顿时间较长的问题，当回答问题与用户继续说话冲突，会停止说话，等待用户继续说，并联系之前已经说的内容，给出整体回答，极大提升了用户整体交互的体验。

实施例二

请参阅图2，是本发明第二实施例提供的人机交互方法的流程图，该实施例用于对第一实施例中的步骤S30作进一步细化，包括步骤：

步骤S31，获取所述第一断句语音的语音终点，并以所述语音终点为拾音起点、时长阈值为拾音时长，对用户当前所处环境进行拾音，得到拾音语音；

其中，该时长阈值可以根据需求进行设置，通过以语音终点为拾音起点、时长阈值为拾音时长，对用户当前所处环境进行拾音，能有效的获取到断句后用户当前所处环境中的语音信息。

步骤S32，获取所述用户语音中的用户语音特征，并对所述拾音语音进行去噪处理；

其中，通过对拾音语音进行去噪处理，能有效地去除拾音语音中的噪声，提高了拾音语音的准确性，提高了后续语音特征匹配的准确性。

步骤S33，将所述用户语音特征与去噪处理后的所述拾音语音进行特征匹配；

其中，通过将用户语音特征与去噪处理后的拾音语音进行特征匹配，以判断拾音语音中是否存在用户语音特征对应的语音段，该步骤中，计算用户语音特征与去噪处理后的拾音语音中语音特征之间的特征相似度，若特征相似度大于相似度阈值，则判定特征匹配成功，特征相似度小于或等于相似度阈值，则判定特征匹配失败。

步骤S34，若所述特征匹配成功，则判定所述语音交互检测成功；

其中，若语音交互检测成功，则判定拾音语音中存在用户的说话内容，即，用户在时长阈值内有继续说话。

步骤S35，若所述特征匹配失败，则判定所述语音交互检测失败；

其中，若语音交互检测失败，则判定拾音语音中不存在用户的说话内容，即，用户在时长阈值内没有继续说话。

本实施例中，能有效地获取到时长阈值内用户所处环境中的语音信息，通过对拾音语音进行去噪处理，能有效地去除拾音语音中的噪声，提高了拾音语音的准确性，通过将用户语音特征与去噪处理后的拾音语音进行特征匹配，以判断拾音语音中是否存在用户语音特征对应的语音段。

实施例三

请参阅图3，是本发明第三实施例提供的人机交互系统100的结构示意图，包括：

第一语音识别模块10，用于对用户语音进行断句，得到第一断句语音，并对所述第一断句语音进行语音识别，得到第一语音文本。

第一语义匹配模块11，用于将所述第一语音文本输入自然语言理解引擎进行语义匹配，若所述第一语音文本的语义匹配失败，则将所述第一语音文本输入预训练后的大模型进行语义分析。

可选的，第一语义匹配模块11还用于：将所述第一语音文本与所述自然语言理解引擎中的预设文本进行匹配；

交互检测模块12，用于根据语义分析结果进行人机交互，并在预设时长内对用户进行语音交互检测。

可选的，交互检测模块12还用于：获取所述第一断句语音的语音终点，并以所述语音终点为拾音起点、时长阈值为拾音时长，对用户当前所处环境进行拾音，得到拾音语音；

若所述特征匹配成功，则判定所述语音交互检测成功；

若所述特征匹配失败，则判定所述语音交互检测失败。

进一步地，交互检测模块还12还用于：若所述第一语音文本的语义匹配成功，则根据所述第一语音文本的语义匹配结果进行人机交互。

更进一步地，交互检测模块12还用于：根据所述第一语音文本的语义匹配结果，确定所述第一语音文本相匹配的预设文本，并获取确定到的所述预设文本的文本标识；

语音采集模块13，用于若所述语音交互检测成功，则停止所述人机交互，并对用户进行语音采集，得到采集语音。

第二语音识别模块14，对所述采集语音进行断句，得到第二断句语音，并对所述第二断句语音进行语音识别，得到第二语音文本。

第二语义匹配模块15，将所述第二语音文本输入所述自然语言理解引擎进行语义匹配，若所述第二语音文本的语义匹配失败，则根据所述第二语音文本对所述第一语音文本进行文本拼接；

可选的，第二语义匹配模块15还用于：若文本拼接后的所述第一语音文本的文本拼接次数大于次数阈值，则在文本拼接后的所述第一语音文本中，删除所述第一断句语音对应的语音文本。

本实施例，。

实施例四

图4是本申请第四实施例提供的一种终端设备2的结构框图。如图4所示，该实施例的终端设备2包括：处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22，例如人机交互方法的程序。处理器20执行所述计算机程序22时实现上述各个人机交互方法各实施例中的步骤。

示例性的，所述计算机程序22可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器21中，并由所述处理器20执行，以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。所述终端设备可包括，但不仅限于，处理器20、存储器21。

所称处理器20可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器21可以是所述终端设备2的内部存储单元，例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备，例如所述终端设备2上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。其中，计算机可读存储介质可以是非易失性的，也可以是易失性的。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种人机交互方法，其特征在于，所述方法包括：

2.如权利要求1所述的人机交互方法，其特征在于，在预设时长内对用户进行语音交互检测，包括：

若所述特征匹配成功，则判定所述语音交互检测成功；

若所述特征匹配失败，则判定所述语音交互检测失败。

3.如权利要求1所述的人机交互方法，其特征在于，返回执行所述将所述第一语音文本输入自然语言理解引擎进行语义匹配的步骤及后续步骤之后，还包括：

4.如权利要求1所述的人机交互方法，其特征在于，将所述第一语音文本输入自然语言理解引擎进行语义匹配，包括：

5.如权利要求4所述的人机交互方法，其特征在于，所述方法还包括：

若所述语音交互检测失败，继续执行所述人机交互。

6.如权利要求5所述的人机交互方法，其特征在于，根据所述第一语音文本的语义匹配结果进行人机交互，包括：

7.一种人机交互系统，其特征在于，所述系统包括：

8.如权利要求7所述的人机交互系统，其特征在于，所述交互检测模块还用于：

若所述特征匹配成功，则判定所述语音交互检测成功；

若所述特征匹配失败，则判定所述语音交互检测失败。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。