CN117217238B

CN117217238B - 一种基于大型语言模型的智能交互系统及方法

Info

Publication number: CN117217238B
Application number: CN202311483026.1A
Authority: CN
Inventors: 雷昊宇; 吴媛媛; 张灵炀
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2024-01-30
Anticipated expiration: 2043-11-09
Also published as: CN117217238A

Abstract

本发明公开了一种基于大型语言模型的智能交互系统，包括：将用户输入转化为系统能够理解的结构化数据的自然语言理解模块；接收结构化数据并发送到训练好的大型语言模型，并根据大型语言模型的处理结果输出响应的执行模块；根据该用户需求训练好的大型语言模型；根据响应并将其转化为自然语言文本的自然语言生成模块；接收自然语言文本并展示给用户的用户界面模块。本方案使用多通道人机交互技术，对用户的各种形式输入分别进行分析后整合，使得本系统能够更适应人在聊天时的输入习惯，能够更好地和用户进行智能交互聊天。

Description

一种基于大型语言模型的智能交互系统及方法

技术领域

本发明属于自然语言处理领域，涉及一种基于大型语言模型的智能交互方法及系统。

背景技术

ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具，使用了Transformer神经网络架构，基于互联网可用数据训练的文本生成深度学习模型，形成大型语言模型。它用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI。ChatGPT进一步推动了AI人工智能的发展。ChatGPT可以根据用户输入文字的含义，做出对应的行为，例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。具体地例如，为用户在网络上查找相应的内容；生成一个用户所需标签的文章等。现有的ChatGPT或类ChatGPT软件，都是需要用户发送给ChatGPT软件或类ChatGPT软件的文字偏向于指令，ChatGPT软件或类ChatGPT软件才能更好地识别。

现有的即时通讯软件，中国境内的如QQ、微信等，其主要功能均以真人用户与真人用户之间的即时文字、语音、图片、gif动图、视频等交流为主。用户在使用这些即时通讯软件时，不仅会发送文字，还会发送图片或gif图片形成的表情包，或者发送图片和视频，甚至发送语音，用户发送的内容形式十分复杂，并且，用户在正常使用ChatGPT软件或类ChatGPT软件时，由于知道该类软件的识别习惯，会不自主地发送适用于该类软件的识别习惯的内容，而用户在使用即时通讯软件时，心态会比较放松，因此可能发送闲聊文字内容、仅情绪表达的文字内容、表达情绪的表情包、开玩笑的文字或表情包等内容，对于人工智能技术驱动的自然语言处理工具来说，识别难度大大提高。

人机交互技术是研究计算机的使用者人、计算机及它们相互影响的技术，人机交互的目的就是让人和计算机相互理解，目前总的趋势也是从以前的以计算机为中心向以人为中心的方向发展，简单来说就是要让计算机来适应人的操作习惯和输入习惯。

目前，部分即时通讯软件用户，希望有AI人工智能的聊天机器人，能够和真人用户一样同用户交流。但是目前的聊天机器人相对比较呆板，而ChatGPT软件或类ChatGPT软件之类的人工智能技术驱动的自然语言处理工具，又很难理解用户在即时通讯软件中的一些内容，因此目前亟需一个更智能地基于大型语言模型的能够和用户像真人用户一样聊天的智能交互系统。

发明内容

本发明的目的在于：提供了一种基于大型语言模型的智能交互系统及方法，接入ChatGPT软件或类ChatGPT软件等大型语言模型，并使用多通道人机交互技术，对用户的各种形式输入分别进行分析后整合，使得本系统能够和用户进行智能交互，解决了上述问题。

本发明采用的技术方案如下：

一种基于大型语言模型的智能交互系统，包括：

将用户输入转化为系统能够理解的结构化数据的自然语言理解模块；

接收结构化数据并发送到训练好的大型语言模型，并根据大型语言模型的处理结果输出响应的执行模块；

根据该用户需求训练好的大型语言模型；

根据响应并将其转化为自然语言文本的自然语言生成模块；

接收自然语言文本并展示给用户的用户界面模块。

为了更好地实现本方案，进一步地，所述自然语言理解模块包括：

将一定时间内的每次用户输入分别进行抽象处理，简化成任务字符串并加入到任务队列中的整合模块；

在任务队列中获得所有已经生成完的完整的任务，并将这些任务分别发送到大型语言模型的解释模块。

为了更好地实现本方案，进一步地，所述整合模块针对每次用户输入分别进行抽象处理，包括：

分别使用识别引擎将用户输入中的所有文字输入进行识别，并将识别出的文字使用ALM增强语言模型将识别结果抽象成任务字符串的形式发送到任务列表中的任务槽中；

将筛选出的所有用户输入中的非文字输入抽象成任务字符串的形式发送到任务列表中的任务槽中。

这里说的分别识别，具体包括可以同时进行的以下途径：

使用语言识别引擎对用户输入中的用户文字输入进行识别，并使用ALM增强语言模型将识别结果抽象成任务字符串的形式提交到任务列表；

使用语音识别引擎对用户输入中的用户语音输入进行识别，并使用ALM增强语言模型将识别结果抽象成任务字符串的形式提交到任务列表；

使用文字识别引擎对用户输入中的用户图像输入中的文字进行识别，并使用ALM增强语言模型将识别结果抽象成任务字符串的形式提交到任务列表；

使用图像识别引擎对用户输入中的用户图像输入进行识别，并将识别结果抽象成任务字符串的形式提交到任务列表。我们这里将用户输入中的图像输入分出文字和图像两方面分别识别，是因为目前在聊天中很多人会习惯使用表情包，这些表情包中的文字才是该图像要表达的重点，另外也有一些图像中的文字比较重要，亦或图像和文字要表达的含义的关联性不大，故而我们需要将用户图像输入中的文字单独摘出来识别。

另外，我们使用ALM增强语言模型对所有类型的文字进行识别，ALM增强语言模型有较强的归纳语言模型的推理能力，擅长将复杂任务分解为更简单的子任务，会将用户输入的文字部分分解抽象成简单的字符串的形式，即前文提及的任务字符串。

为了更好地实现本方案，进一步地，所述任务列表中的每个任务包括以下任务槽：任务动作，任务对象，任务参数；

基于用户输入中的文字输入抽象出的任务字符串所产生的任务包含一个唯一的标志：任务ID，在基于用户输入中的文字输入抽象出的任务字符串产生新任务时，赋予新任务一个任务ID；

使用类变量modal记录每个任务字符串的来源；

使用类变量time记录每个任务字符串的时间；

使用类变量type记录每个任务字符串的分类。

将所有新任务产生完毕后，将用户输入中的非文字输入抽象成的任务字符串、用户输入中的文字输入抽象出的未产生新任务的任务字符串，添加到已产生的任务的任务槽中。

为了更好地实现本方案，进一步地，判定用户输入中的文字输入抽象出的是否为未产生新任务的任务字符串的方法为：

判断该任务字符串是否包括任务动作：

若该任务字符串不包括任务动作，则判定该任务字符串为未产生新任务的任务字符串；

若该任务字符串包括任务动作，则判定该任务字符串为产生新任务的任务字符串。

为了更好地实现本方案，进一步地，判断任务字符串属于任务列表中的哪个任务槽，采用的方法是：

用Smith Waterman算法使用迭代方法计算出用户输入抽象成的任务字符串Si形成的序列S和每个预设的标准任务槽的任务字符串Ti形成的序列T，然后通过动态规划回溯确定针对相似度最高的序列Tn，并判断属于该任务Tn所属的任务槽。

Smith Waterman算法起源于生物信息学。在生物信息学中，生物学家用于序列的片段测定、拼接，基因的表达式分析，RNA和蛋白质的结构功能预测，和物种亲缘树的构建。对于两个序列S和T，先进行相似性比较。在Smith Waterman算法中，若序列S和序列T相同，则必须满足以下两个条件：

（1）序列中的字符长度相同：|S|=|T|；

（2）序列中的每个字符都相同：S(i)=T(i) （0 < i <|S|）。

在比较每个字符是否相同时，设x和y是两个字符，那么记分函数γ(x,y)表示x和y在进行比较时的分值，需要说明的是，当x或y是空字符时，使用空字符来表示。

对于序列S和T的相似性比较A的得分可以用序列S’和T’来表示，其中：

（1）字符长度|S'|=|T'|；

（2）将序列S’和T’中的空字符去除后，得到的序列分别和序列S、T相同。

相似性比较A就是将序列S、T用空字符扩充到字符长度相同后，再对字符进行一一对比得到一个比分

其中t=|S'|=|T'|，S'(i)、T'(i)分别表示序列S’、T’中的第i个字符。

Smith Waterman算法先用迭代方法计算出两个序列S和T的所有可能的相似性比较的分值，然后使用动态规划的方法回溯寻找最优近似性比较。

为了更好地实现本方案，进一步地，确定将未产生新任务的任务字符串添加到哪个已产生任务的任务槽中的方法为：

判断该任务字符串所属的任务槽类型；

根据该任务字符串产生的时间中相近的、缺失或尚未完整所属该项任务槽类型的任务；简称完整原则。

根据该任务字符串和欲添加任务的任务动作的吻合程度；简称吻合原则。

综合判断选取应添加到的任务的任务槽，将该未产生新任务的任务字符串添加进去。

这里的综合判断，是将完整原则和吻合原则“串并联”起来的。若该项任务字符串a属于任务对象，任务A缺失任务对象，任务字符串a能够使得原本缺失任务对象的任务A的任务对象变的完整，并且和任务A的任务动作吻合程度高，那么就将任务字符串a添加到任务A的任务对象中；

若该项任务字符串a属于任务对象，任务A缺失任务对象，任务字符串a能够使得原本缺失任务对象的任务A的任务对象变的完整，但是和任务A的任务动作吻合程度低，那么就不能将任务字符串a添加到任务A的任务对象中；

若该项任务字符串a属于任务对象，任务A缺失任务对象，任务B不缺失任务对象，任务字符串a能够使得原本缺失任务对象的任务A的任务对象变的完整，但是和任务A的任务动作吻合程度低且和任务B的任务对象吻合程度高，那么就不能将任务字符串a添加到任务A的任务对象中，而应该将任务字符串a添加到任务B的任务对象中。

为了更好地实现本方案，进一步地，所述大型语言模型通过以下方式获得：

提供数个非常用知识库供用户选择，并由用户选择的非常用知识库结合常用知识库形成结合语言训练模型训练形成预训练模型；

在每个用户与智能交互系统进行交互后提供评分由用户对该次交互进行打分，根据每次打分结果优化预训练模型，形成针对该用户特有的大型语言模型。

根据上述方案所述的系统形成的一种基于大型语言模型的智能交互方法，包括：

将用户输入转化为系统能够理解的结构化数据；

接收结构化数据并发送到训练好的大型语言模型，并根据大型语言模型的处理结果输出响应；

根据该用户需求训练大型语言模型；

将响应其转化为自然语言文本并展示给用户。

为了更好地实现本方法，进一步地，还包括：

在一定时间内，分别使用识别引擎将用户输入中的所有文字输入进行识别，并将识别出的文字使用ALM增强语言模型将识别结果抽象成任务字符串的形式发送到任务列表中的任务槽中；

将筛选出的所有用户输入中的非文字输入抽象成任务字符串的形式发送到任务列表中的任务槽中；

在任务队列中获得所有已经生成完的完整的任务，并将这些任务分别发送给大型语言模型；

其中：

所述任务列表中的每个任务包括以下任务槽：任务动作，任务对象，任务参数；

其中，判定用户输入中的文字输入抽象出的是否为未产生新任务的任务字符串的方法为：

判断该任务字符串是否包括任务动作：

若该任务字符串包括任务动作，则判定该任务字符串为产生新任务的任务字符串；

将所有新任务产生完毕后，将用户输入中的非文字输入抽象成的任务字符串、用户输入中的文字输入抽象出的未产生新任务的任务字符串，添加到已产生的任务的任务槽中；

其中，判断任务字符串属于任务列表中的哪个任务槽，采用的方法是：

用Smith Waterman算法使用迭代方法计算出用户输入抽象成的任务字符串Si形成的序列S和每个预设的标准任务槽的任务字符串Ti形成的序列T，然后通过动态规划回溯确定针对相似度最高的序列Tn，并判断属于该任务Tn所属的任务槽；

其中，确定将任务字符串添加到哪个任务槽中的方法为：

判断该任务字符串所属的任务槽类型；

根据该任务字符串产生的时间中相近的、缺失或尚未完整所属该项任务槽类型的任务；

根据该任务字符串和欲添加任务的任务动作的吻合程度；

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明所述的一种基于大型语言模型的智能交互系统，内设有大型语言模型，并使用多通道人机交互技术，对用户的各种形式输入分别进行分析后整合，使得本系统能够更适应人在聊天时的输入习惯，能够更好地和用户进行智能交互聊天。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，其中：

图1是一种基于大型语言模型的智能交互系统的系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

一种基于大型语言模型的智能交互系统，包括：

根据该用户需求训练好的大型语言模型；

根据响应并将其转化为自然语言文本的自然语言生成模块；

接收自然语言文本并展示给用户的用户界面模块。

实施例二

本实施例在实施例一的基础上，所述自然语言理解模块包括：

所述整合模块针对每次用户输入分别进行抽象处理，包括：

这里说的分别识别，具体包括可以同时进行的以下途径：

使用类变量modal记录每个任务字符串的来源；

使用类变量time记录每个任务字符串的时间；

使用类变量type记录每个任务字符串的分类；

在具体实现的时候我们把用户输入抽象成的字符串变成任务动作时，分为几个大类的意义：

1、表示询问意义的事件；

2、表示创建意义的事件；

3、表示沟通意义的事件；

4、表示操作意义的事件；

5、表示见解意义的事件。

于是用户输入就变成了上述五个意义的抽象表达的字符串，任务动作类的用户输入就变成了集合ξ={‘1’，‘2’，‘3’，‘4’，‘5’}中的字符组成的字符串了。

判定用户输入中的文字输入抽象出的是否为未产生新任务的任务字符串的方法为：

判断该任务字符串是否包括任务动作：

判断任务字符串属于任务列表中的哪个任务槽，采用的方法是：

（1）序列中的字符长度相同：|S|=|T|；

（2）序列中的每个字符都相同：S(i)=T(i) （0 < i <|S|）。

（1）字符长度|S'|=|T'|；

对于两个序列S和T，S(i)表示序列S中的第i个字符，T(j) 表示序列T中的第j个字符，其中0 < i <|S|，0 < j <|T|，S(i)和T(j)均属于字符集Ω，对Ω中的任何元素和空符号，他们两两之间都有一个记分值γ(x,y)，用f(i,j)表示序列S的前i个字符S(1)S(2)…S(i-1)S(i)和序列T的前j个字符T(1)T(2)…T(j-1)T(j)之间的最优相似性比较的得分，则有下列公式

其中-w是公式构成的矩阵在该方向上的移动过程得分的惩罚值，w一般设置一个固定的正整数，一般来说，我们把w设为1或2。公式中i和j从0开始，f(0,0)=0。则通过上述公式，可以得到一个矩阵，将矩阵列表如下：

表1：最优相似性比较得分矩阵表

在得到这个矩阵后，就可以根据其中的得分高低来找到两个字符串之间的最佳对应了，在这个矩阵中，找两个字符串的最佳对应就变成了从f(i,j)这个点开始找到一条到f(0,0)的路径。

判断该任务字符串所属的任务槽类型；

若该项任务字符串a属于任务对象，任务A缺失任务对象，任务B不缺失任务对象，任务字符串a能够使得原本缺失任务对象的任务A的任务对象变的完整，但是和任务A的任务动作吻合程度低且和任务B的任务对象吻合程度高，那么就不能将任务字符串a添加到任务A的任务对象中，而应该将任务字符串a添加到任务B的任务对象中；

我们可以预设完整原则及吻合原则的阈值及他们两个原则在综合判断中的权重，并且可以进一步设置完整原则中时间相近及是否缺失该任务槽这两项的权重。我们通过实验，选择采用正态分布函数判断该任务字符串产生的时间中相近关系：

其中，x为未产生新任务的任务字符串a与产生任务字符串a欲添加进的任务A的任务字符串a1的时间差，取毫秒单位，故x≥0，其中α和δ为常数，α根据不同网络延迟及识别引擎的反应时间不同故而选择不同，若我们将时间相近关系f（x）的范围设为0~1，那么α常取100左右，δ常取200左右。需要注意的是，若未产生新任务的任务字符串a的类变量modal即来源是语音或图像，那么α的取值要更大。

实施例三

本实施例是实施例二的进一步补充，所述大型语言模型通过以下方式获得：

这里提供的非常用知识库是日常中并非大部分人都使用的例如篮球知识、书法知识等知识库，并根据用户的选择形成一个预训练模型，这样设定的目的是为了契合该用户的聊天习惯，比如用户P是一个足球球迷，他日常与智能交互系统聊天的时候可能开玩笑也都是足球相关的，那么对于该用户P选择的足球相关的非常用知识库，关联的权重就会高很多。

并且我们还会不定期根据用户对近期或本次交互进行打分，根据每次打分结果优化预训练模型，以便形成针对该用户特有的大型语言模型。

实施例四

根据上述实施例一到实施例三中任一个实施例的方案所述的系统形成的一种基于大型语言模型的智能交互方法，包括：

将用户输入转化为系统能够理解的结构化数据；

根据该用户需求训练大型语言模型；

将响应其转化为自然语言文本并展示给用户。

实施例五

本实施例在实施例四的基础上，还包括：

其中：

判断该任务字符串是否包括任务动作：

其中，确定将任务字符串添加到哪个任务槽中的方法为：

判断该任务字符串所属的任务槽类型；

根据该任务字符串和欲添加任务的任务动作的吻合程度；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明的保护范围，任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大型语言模型的智能交互系统，其特征在于，包括：

将用户输入转化为系统能够理解的结构化数据的自然语言理解模块；所述自然语言理解模块包括：将一定时间内的每次用户输入分别进行抽象处理，简化成任务字符串并加入到任务队列中的整合模块；在任务队列中获得所有已经生成完的完整的任务，并将这些任务分别发送到大型语言模型的解释模块；所述整合模块针对每次用户输入分别进行抽象处理，包括：分别使用识别引擎将用户输入中的所有文字输入进行识别，并将识别出的文字使用ALM增强语言模型将识别结果抽象成任务字符串的形式发送到任务列表中的任务槽中；将筛选出的所有用户输入中的非文字输入抽象成任务字符串的形式发送到任务列表中的任务槽中；

根据该用户需求训练好的大型语言模型；

根据响应并将其转化为自然语言文本的自然语言生成模块；

接收自然语言文本并展示给用户的用户界面模块。

2.根据权利要求1所述的一种基于大型语言模型的智能交互系统，其特征在于，所述任务列表中的每个任务包括以下任务槽：任务动作，任务对象，任务参数；

3.根据权利要求2所述的一种基于大型语言模型的智能交互系统，其特征在于，判定用户输入中的文字输入抽象出的是否为未产生新任务的任务字符串的方法为：

判断该任务字符串是否包括任务动作：

4.根据权利要求2所述的一种基于大型语言模型的智能交互系统，其特征在于，判断任务字符串属于任务列表中的哪个任务槽，采用的方法是：

5.根据权利要求3或4所述的一种基于大型语言模型的智能交互系统，其特征在于，确定将任务字符串添加到哪个任务槽中的方法为：

判断该任务字符串所属的任务槽类型；

根据该任务字符串和欲添加任务的任务动作的吻合程度；

6.根据权利要求1所述的一种基于大型语言模型的智能交互系统，其特征在于，所述大型语言模型通过以下方式获得：

7.采用权利要求1-6任一项的一种基于大型语言模型的智能交互系统实现的一种基于大型语言模型的智能交互方法，其特征在于：

将用户输入转化为系统能够理解的结构化数据；

根据该用户需求训练大型语言模型；

将响应其转化为自然语言文本并展示给用户。

8.根据权利要求7所述的一种基于大型语言模型的智能交互方法，其特征在于，还包括：

其中：

判断该任务字符串是否包括任务动作：

其中，确定将任务字符串添加到哪个任务槽中的方法为：

判断该任务字符串所属的任务槽类型；

根据该任务字符串和欲添加任务的任务动作的吻合程度；