CN116913277B

CN116913277B - 基于人工智能的语音交互服务系统

Info

Publication number: CN116913277B
Application number: CN202311143602.8A
Authority: CN
Inventors: 周丽宁
Original assignee: Beijing Huilang Times Technology Co Ltd
Current assignee: Beijing Huilang Times Technology Co Ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-11-21
Anticipated expiration: 2043-09-06
Also published as: CN116913277A

Abstract

本发明公开了基于人工智能的语音交互服务系统，包括数据采集单元、预处理单元、位置分析单元、角度控制单元、信息存储库、声纹分析单元和互动回应单元，本发明涉及智能交互技术领域。该基于人工智能的语音交互服务系统，通过位置分析单元分析得出声源的位置，进而使得机器人可以面向声源位置进行回应，从而和用户进行面对面交流，提高互动效果，同时还将多组声音采集模块沿纵向的平面设置在机器人四周，进而使得机器人转动俯仰角度，便于提高机器人应对不同身高的用户，进一步提高互动效果，使得用户的交互体验更好。本发明克服了现有技术中的语音交互服务系统功能简单，而且不够人性化，从而导致客户与其之间的交互体验差的问题。

Description

基于人工智能的语音交互服务系统

技术领域

本发明涉及智能交互技术领域，具体为基于人工智能的语音交互服务系统。

背景技术

语音交互是与机器进行语言交流，让机器明白你说的是什么，并给出相应的答案，当输入语音信号时，机器先通过识别和理解过程把语音信号转变为相应的文本或命令，然后归为不同的类别，最后根据不同的类别信息分析出对应的答案。

目前语音交互服务系统还可以根据上下文语义环境分析当前用户输入的语句的意思，从而给出适配的回应，但是这种方式的语音交互服务系统在面对不同用户群体共同交流时，不能有效区别回应各个用户，会导致和多个用户沟通时，产生错误信息，同时语音交互系统功能简单，交互欠缺人性化，从而导致客户与其之间的交互体验差。

因此，提供一种在使用过程中可以智能识别用户的声纹和位置，根据不同的用户，进行不同的信息交互，从而使得客户的体验更好的机器人交互系统是本发明亟须解决的问题。

发明内容

针对现有技术的不足，本发明提供了基于人工智能的语音交互服务系统，解决了背景技术中所提出的问题。

为实现以上目的，本发明通过以下技术方案予以实现：基于人工智能的语音交互服务系统，包括：

数据采集单元，用于在机器人的接收范围内采集声音数据，并将声音数据发送至预处理单元；

其中，数据采集单元包括指定数量的声音采集模块，且声音数据包含通过指定数量的声音采集模块在机器人的接收范围内采集相应数量的声音信号；

预处理单元，用于通过模数转换器将声音数据中各个声音信号转换成相应的数字信号，随后通过数字滤波器对数字信号进行滤波处理，随后将通过滤波处理后的各个数字信号发送至位置分析单元；

位置分析单元，用于对各个数字信号中的数据参数按照从大到小的方式对其进行排序，并得出顺序表，随后对顺序表进行比较，得出声源的位置，并获得相应的方位调整信号，同时生成声纹分析信号，随后将方位调整信号发送至机器人角度控制单元中，并将声纹分析信号发送至声音分析单元；

角度控制单元，用于根据方位调整信号将机器人调整为面向至声源方向；

声纹分析单元，用于根据声纹分析信号获取其相对应的数字信号，并对数字信号进行声纹分析，得到声纹特征，随后将声纹特征导入预训练的对比模型中，并从信息存储库中，获取前一时段采集的声音数据得到的声纹特征依次导入对比模型与其进行比对，根据比对结果并结合AI语音交互技术，生成相应的回应文字，并将回应文字发送至互动回应单元；

信息存储库，用于存储数据采集单元采集的存储声音数据；

互动回应单元，用于将回应文字转化为语音数据，并从机器人面向声源的方向发出。

优选的，其中，多组声音采集模块分别设置于机器人横向水平位置的四周以及机器人纵向平面位置的四周，同时对各个声音采集模块的位置进行方位标记。

优选的，所述位置分析单元的具体分析方式如下：

SA1、将各个数字信号分别划分为若干个标准时间节点，随后在各个标准时间节点上获取各个数字型号的数字参数，随后将各个数字信号内同一标准时间节点上的数字参数标记为S_i，j，i=1、2、……、n，j=1、2、……、m，n表示标准时间节点的数量，m表示数字信号的数量，数字参数为声音信号转换成相应的数字信号后，数字信号内的具体值；

SA2、随后令i的值为1；

之后在各个数据信号中提取指定标准时间节点的数字参数；

接着将提取的数字参数按照从大到小的顺序对其进行排序，并生成相应的顺序表，并将其标记为B1；

之后令i值加一，重复上述步骤，对所有的i值处理完毕，得到对应所有的顺序表，并对应标记为Bi；

SA3、随后从各个顺序表中提取第一位数字参数的全部数字信号，同时获取该全部数字信号在各个顺序表中排在第j位的数据参数数量，并将其标记为vj，其中vj≤n；

随后判断该全部数字信号中各个数字信号内vj与n之间的关系，随后根据判断结果，生成相应的方位标记，随后生成相应的方位调整信号以及声纹分析信号。

优选的，在步骤SA3中，相应数字信号中各个数字信号内vj与n之间关系的判断方式如下：

首先令j的值为1；

若n/2＜v1≤n，则判断该数字信号对应声音采集模块的位置最近，并获取该位置的方位标记，随后生成相应的方位调整信号，并将方位调整信号发送至机器人角度控制单元中；同时，还生成声纹分析信号，并将声纹分析信号发送至声音分析单元；

若v1=n/2，则判断该全部数字信号中其他数字信号内v1与n之间的关系；

当其他数字信号内v1与n之间的关系中包含v1=n/2时，则随后从各个顺序表中提取下一位数字参数的全部数字信号，同时获取该全部数字信号在各个顺序表中排在下一位的数据参数数量，并将其标记为v1，其中v1≤n，随后令j的值加1，判断该全部数字信号中各个数字信号内v2与n之间的关系，其判断方式与v1与n之间关系的判断方式相同，直至生成方位调整信号，若未生成方位调整信号，则表示v1、v2、……、vn均等于n/2，随后获取所有顺序表中排在第一位数字信号对应的所有声音采集模块，即两组声音采集模块，随后获取该两组声音采集模块的方位标记，随后取该两组方位标记之间最小夹角的中间位置并生成相应的方位调整信号；

当其他数字信号内v1与n之间的关系中不包含v1=n/2时，则判断该数字信号对应声音采集模块的位置最近，并获取该位置的方位标记，随后生成相应的方位调整信号，同时生成声纹分析信号。

优选的，若v1＜n/2，则判断该全部数字信号中其他数字信号内v1与n之间的关系：

当其他数字信号内v1与n之间的关系中包含n/2＜v1≤n时，则判断其他相应的数字信号对应声音采集模块的位置最近，并获取其位置的方位标记，随后生成相应的方位调整信号，同时生成声纹分析信号；

当其他数字信号内v1与n之间的关系中均为v1＜n/2，则获取该全部数字信号内值最大的v1，并将最大的v1判断为其相应的数字信号对应声音采集模块的位置最近，并获取其位置的方位标记，随后生成相应的方位调整信号，同时生成声纹分析信号。

优选的，标准时间节点表示为在同一时间段内按照声音发出的时间确定，且在各个数字信号内同一标准时间节点相同，同时各个数字信号内标准时间节点的数量相同。

优选的，所述声纹分析单元的具体分析方式如下：

SS1、通过声纹识别技术获得该声音数据的声纹特征，随后将声纹特征导入预训练的对比模型中，同时从信息存储库中，获取前一时段采集的声音数据得到的声纹特征进行比对；

若信息存储库中含有与该声音数据相同声纹特征的声音数据，则从信息存储库中获取同一声纹特征的声音数据，同时该声音数据属于前一时段内的声音数据，并将其标记为互动数据；

SS2、随后通过AI语音交互技术分析互动数据的语义，记为历史语义，同时获取当前声音数据的语义，记为当前语义，随后将基于LSTM技术将当前语义和历史语义结合，生成提问语句，随后根据提问语句生成回应文字。

优选的，在步骤SS1中，若信息存储库中不含有与该声音数据相同声纹特征的声音数据，则直接通过AI语音交互技术分析出该声音数据的回应文字。

本发明提供了基于人工智能的语音交互服务系统。与现有技术相比具备以下有益效果：

本发明通过位置分析单元分析得出声源的位置，进而使得机器人可以面向声源位置进行回应，从而和用户进行面对面交流，便于在多用户的场景下回应指定用户发出的问题，促进多用户互动环境下的精准回应，提高互动效果，同时还将多组声音采集模块沿纵向的平面设置在机器人四周，进而使得机器人转动俯仰角度，便于提高机器人应对不同身高的用户，进一步提高互动效果，使得用户的交互体验更好。本发明克服了现有技术中的语音交互服务系统功能简单，而且不够人性化，从而导致客户与其之间的交互体验差的问题；

本发明通过声纹分析单元分析出不同用户的声纹特征，随后提取同一声纹用户的历史声音数据，当信息存储库含有同一声纹特征的声音数据时，将历史声音数据结合当前声音数据进行分析，并生成相应的回应文字，便于承接上下文并回答指定用户提出的问题。

附图说明

图1为本发明的系统框图；

图2为本发明位置分析单元的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为本发明的实施例一

请参阅图1-图2，本发明提供技术方案：基于人工智能的语音交互服务系统，该系统基于一种机器人实现，机器人包含用于移动的底座部分、用于转动交互的头脑部位和用于连接底座部分和头脑部位的身体部位，该机器人为现有技术，故不作详细赘述；

该机器人包括：

数据采集单元，用于采集指定区域内的声音数据，并将声音数据发送至预处理单元；

其中，声音数据包含通过指定数量的声音采集模块在机器人的接收范围内采集相应数量的声音信号，且所有声音信号为同一时间段内且在机器人的接收范围内采集得到的声音；

其中，多组声音采集模块分别设置于机器人横向水平位置的四周，同时对各个声音采集模块的位置进行方位标记，在该实施例中，声音采集模块的数量为4个，在机器人的身体部位依据东南西北依次4个方位标记，方位标记依次为东向、南向、西向和北向，随后将4个声音采集模块分别设置在机器人身体部位的4个方位标记处，且一个声音采集模块对应的一个方位标记，多个声音采集模块处于同一水平线上。

其中，声音采集模块为本领域人员现有技术，其收集方式为：首先捕捉声源处的声波，随后将声波的振动转化为声音信号，接着将多组声音采集模块采集的声音信号作为声音数据；

位置分析单元，用于对各个数字信号进行对比分析得出顺序表，随后对顺序表进行比较，得出声源的位置，并获得相应的方位调整信号，同时生成声纹分析信号，随后将方位调整信号发送至机器人角度控制单元中，并将声纹分析信号发送至声音分析单元；

位置分析单元的具体分析方式如下：

SA1、将各个数字信号分别划分为若干个标准时间节点，随后在各个标准时间节点上获取各个数字型号的数字参数，随后将各个数字信号内同一标准时间节点上的数字参数标记为S_i，j，i=1、2、……、n，j=1、2、……、m，n表示标准时间节点的数量，m表示数字信号的数量，i表示第几个标准时间节点，j表示第几个数字信号，且Si表示第几个标准时间节点的数字参数，S_i，j表示第几个数字信号中第几个标准时间节点的数字参数；

其中，数字参数为声音信号转换成相应的数字信号后，数字信号内的具体值；

标准时间节点表示为在同一时间段内按照声音发出的时间确定，且在各个数字信号内同一标准时间节点相同，同时各个数字信号内标准时间节点的数量相同；

在该实施例中，m的具体值为4；

SA2、随后令i的值为1；

之后在各个数据信号中提取指定标准时间节点的数字参数；

SA3、随后从各个顺序表中提取第一位数字参数的全部数字信号，同时获取该全部数字信号在各个顺序表中排在第一位的数据参数数量，并将其标记为v1，其中v1≤n；

随后判断该全部数字信号中各个数字信号内v1与n之间的关系；

当其他数字信号内v1与n之间的关系中包含v1=n/2时，则随后从各个顺序表中提取下一位数字参数的全部数字信号，同时获取该全部数字信号在各个顺序表中排在下一位的数据参数数量，并将其标记为v1，其中v1≤n，随后判断该全部数字信号中各个数字信号内v2与n之间的关系，其判断方式与v1与n之间关系的判断方式相同，直至生成方位调整信号，若未生成方位调整信号，则表示v1、v2、……、vn均等于n/2，随后获取所有顺序表中排在第一位数字信号对应的所有声音采集模块，即两组声音采集模块，随后获取该两组声音采集模块的方位标记，随后取该两组方位标记之间最小夹角的中间位置并生成相应的方位调整信号；

当其他数字信号内v1与n之间的关系中不包含v1=n/2时，则判断该数字信号对应声音采集模块的位置最近，并获取该位置的方位标记，随后生成相应的方位调整信号，同时生成声纹分析信号；

若v1＜n/2，则判断该全部数字信号中其他数字信号内v1与n之间的关系：

当其他数字信号内v1与n之间的关系中均为v1＜n/2，则获取该全部数字信号内值最大的v1，并将最大的v1判断为其相应的数字信号对应声音采集模块的位置最近，并获取其位置的方位标记，随后生成相应的方位调整信号，同时生成声纹分析信号；

角度控制单元，用于根据方位调整信号将机器人的头部对话位置调整至声源方向，该技术为现有技术，故此处不做赘述；

该实施例通过位置分析单元分析得出声源的位置，进而使得机器人可以面向声源位置进行回应，便于在多用户的场景下回应指定用户发出的问题，促进多用户互动环境下的精准回应，提高互动效果；

声纹分析单元的具体分析方式如下：

若信息存储库中不含有与该声音数据相同声纹特征的声音数据，则直接通过AI语音交互技术分析出该声音数据的回应文字；

SS2、随后通过AI语音交互技术分析互动数据的语义，记为历史语义，同时获取当前声音数据的语义，记为当前语义，随后将基于LSTM技术将当前语义和历史语义结合，生成提问语句，随后根据提问语句生成回应文字，该技术为现有技术，故此不作具体赘述，随后将回应文字发送至互动回应单元；

在该实施例中，对回应文字的生成进行举例说明：

假设同一用户当前发出的声音为：“他是何时登基的？”，同时该假设同一用户前期发出的声音按照时间的先后顺序依次为：“乾隆是谁啊？”、“他是何时登基的呢？”、“他和嘉庆是什么关系？”、“嘉庆的爷爷是谁？”，同时该用户当前发出的声音为：“那他的爷爷是什么时候登基的呢？”；

基于LSTM技术对前后文分析得出“他是何时登基的呢？”中的“他”指代“乾隆”，“他和嘉庆是什么关系？”中的“他”为“乾隆”，“嘉庆的爷爷是谁？”中的“爷爷”，根据上文的回应文字，可知，“乾隆与嘉庆为父子关系。”因此此句中的“爷爷”指代为乾隆的父亲，同时“那他的爷爷是什么时候登基的呢？”中的“他的爷爷”，根据前后文，得知人物为“乾隆”、“嘉庆”和“嘉庆的爷爷”分析结果得知他的爷爷为“嘉庆的爷爷”，因此得到提问语句为“嘉庆的爷爷是什么时候登基的呢？”，随后根据提问语句从网络上搜索相应的结果生成相应的回应文字；

信息存储库，用于存储数据采集单元采集的存储声音数据；

互动回应单元，用于将回应文字转化为语音数据，并播报发出，进而回应声源发出位置的用户；

该实施例通过声纹分析单元分析出不同用户的声纹特征，随后提取同一声纹用户的历史声音数据，当信息存储库含有同一声纹特征的声音数据时，将历史声音数据结合当前声音数据进行分析，并生成相应的回应文字，便于承接上下文并回答指定用户提出的问题；

作为本发明的实施例二

本实施例与实施例的不同之处在于：本实施例中，声音采集模块的数量为12个，在机器人的身体部位依据时钟标记方位角的方式，设定12个方位标记，方位标记依次为1点方向、2点方向、……、12点方向、并将12个声音采集模块分别设置在机器人身体部位的12个方位标记处，且一个声音采集模块对应的一个方位标记，多个声音采集模块处于同一水平线上，即m的具体值为12；

该实施相对于实施例一，设置相对较多的声音采集模块，便于提高机器人转动角度的精确度；

作为本发明的实施例三

本实施例与实施例的不同之处在于：本实施例中，多组声音采集模块分别设置于机器人纵向平面位置的四周，同时对各个声音采集模块的位置进行方位标记；

该实施相对于实施例一，将多组声音采集模块沿纵向的平面设置在机器人四周，进而使得机器人转动俯仰角度，便于提高机器人应对不同身高的用户，提高互动效果；

作为本发明的实施例四

本实施例将实施一和实施例三融合实施；

作为本发明的实施例五

本实施例将实施二和实施例三融合实施；

同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

以上对本发明的一个实施例进行了详细说明，但内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.基于人工智能的语音交互服务系统，其特征在于，包括：

数据采集单元，用于在机器人的接收范围内采集声音数据，并将声音数据发送至预处理单元；其中，所述数据采集单元包括指定数量的声音采集模块，且声音数据包含通过指定数量的声音采集模块在机器人的接收范围内采集相应数量的声音信号；

所述位置分析单元的具体分析方式如下：

SA2、随后令i的值为1；

之后在各个数据信号中提取指定标准时间节点的数字参数；

随后判断该全部数字信号中各个数字信号内vj与n之间的关系，随后根据判断结果，生成相应的方位标记，随后生成相应的方位调整信号以及声纹分析信号；

信息存储库，用于存储数据采集单元采集的存储声音数据；

2.根据权利要求1所述的基于人工智能的语音交互服务系统，其特征在于：其中，多组声音采集模块分别设置于机器人横向水平位置的四周以及机器人纵向平面位置的四周，同时对各个声音采集模块的位置进行方位标记。

3.根据权利要求1所述的基于人工智能的语音交互服务系统，其特征在于：在步骤SA3中，相应数字信号中各个数字信号内vj与n之间关系的判断方式如下：

首先令j的值为1；

4.根据权利要求3所述的基于人工智能的语音交互服务系统，其特征在于：若v1＜n/2，则判断该全部数字信号中其他数字信号内v1与n之间的关系：

5.根据权利要求1所述的基于人工智能的语音交互服务系统，其特征在于：标准时间节点表示为在同一时间段内按照声音发出的时间确定，且在各个数字信号内同一标准时间节点相同，同时各个数字信号内标准时间节点的数量相同。

6.根据权利要求1所述的基于人工智能的语音交互服务系统，其特征在于：所述声纹分析单元的具体分析方式如下：

7.根据权利要求6所述的基于人工智能的语音交互服务系统，其特征在于：在步骤SS1中，若信息存储库中不含有与该声音数据相同声纹特征的声音数据，则直接通过AI语音交互技术分析出该声音数据的回应文字。