CN116610776A

CN116610776A - 车联网智能问答系统

Info

Publication number: CN116610776A
Application number: CN202211721178.6A
Authority: CN
Inventors: 叶飞; 杨柯; 张�杰; 王俊岭; 林娟
Original assignee: Moss Zhilian Technology Co ltd
Current assignee: Moss Zhilian Technology Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-08-18

Abstract

本发明提供一种车联网智能问答系统，语料入库时，数据结构化处理模块将车联网常用问答对数据作为开源数据，对其进行结构化处理，进入离线索引处理后，问答语料库基于收集的开源数据集训练深度学习模型，基于训练好网络参数的深度学习模型，结合车联网问答数据，微调神经网络连接权值，采用SimCSE训练模型进一步扩增样本，之后依据问答语料库训练好的深度模型，部署语义向量抽取模块的模型服务；语义向量抽取模块获取问答对数据的语义向量，对语义向量数据建模，形成离线语义索引库。系统通过问答服务模块接收用户请求，对用户请求进行多路召回处理，将查询的向量与召回的向量做相似度计算，向客户发送相似度高的模型答案。

Description

车联网智能问答系统

技术领域

本发明涉及一种智能交互系统，具体涉及一种应用于车联网的智能问答系统。

背景技术

车联网日渐兴起，为了提升车机车联网功能的司乘使用体验，行业内提供了多种问答解决方案，从应用上分类，例如：在陪护领域的广泛使用的闲聊智能问答系统，在陪伴等非生产领域使用，无法用于特定领域，同时，闲聊机器人的对话语料要求广泛，对话语料数量非常巨大；针对特定行业垂直领域的智能问答机器人，例如车机助手、金融问答机器人，指向性非常明确，无法有效泛化到其他行业。从技术上分类，例如：基于字面检索的问答机器人，根据query中字面匹配的重复度，返回相似问答语句，无法实现否定语句的有效召回；基于向量的问答机器人，根据query获取其对应的embedding向量，再通过向量检索相同或相似的问答语句，向量机器人在训练深度模型时对领域的问答语料量要求较大。

目前市面上还没有一款针对车联网领域的智能问答系统，满足该场景需自研方案。

发明内容

本发明目的是提供一款针对车联网领域的智能问答系统，满足车联网场景需求。

为了实现上述目的，本发明提供一种车联网智能问答系统，包括如下模块：数据结构化处理模块、问答语料库、语义向量抽取模块、向量建模、语义索引库，上述模块应用于如下过程：语料入库、离线索引、在线查询，其中，其中，

语料入库时：

数据结构化处理模块对已有的车联网常用问答对数据进行结构化处理，作为语义向量抽取模块的深度学习模型的微调训练数据；

问答语料库是Elasticsearch库，收集数据结构化处理模块处理后的问答对数据形成问答数据集，用于构建离线索引以及关键字查询；

离线索引时：

问答语料库基于收集的开源数据集训练深度学习模型，将车联网常用的问答数据，通过中英互译、模型语义改写实现语料数据增长后，再通过数据结构化模块结构化处理的车联网问答数据微调深度学习模型参数；将微调后的深度学习模型，部署模型服务，作为语义向量抽取模块；

语义向量抽取模块抽取问答语料库中的车联网问答数据，获取车联网问答数据对应的语义向量，将对应的语义向量通过向量建模模块实现稠密向量建模，形成语料库中所有车辆网问答数据的语义索引库；

用户进行在线查询时：

系统通过问答服务模块接收用户查询语句后，对用户查询语句通过Elasticsearch库，实现字检索，检索出字面与用户查询语句相似的句子，形成候选集，候选集通过语义向量抽取模块获取候选集的语义向量；

向量检索模块在用户查询语句的语义索引库中快速查找到与候选集的语义向量相似的语义向量，并进行相似度排序；

向量检索模块选取相似度高的作为模型答案TopN，通过问答服务模块向客户返回模型答案TOPN。

优选的，所述问答数据是中、英文、中英夹杂的问答数据。

更优选，结合车联网问答语料中中英文比例，调整中、英文、中英夹杂的语料比例为80:3:17。该比例与车联网问答语料中，中英文比例接近，是通过该语料训练的模型在车联网语料上的分类效果确定的该比例。虽然车联网问答语料中不包含全英文语料，训练模型的语料中，添加全英文语料有助于大模型的泛化性能。

优选的，所述深度学习模型是Bert深度神经网络语义模型。基于Bert的模型在NLP领域，各项测评任务重均取得了最优效果，所以本文选择Bert作为深度模型。

优选的，语料数据增长至1.5倍。

本发明设计的优势包括以下几点：针对特定的车联网垂直领域，对话语料区别于其他问答机器人。同时，在车联网垂直领域问答语料有限的情况下，通过迁移学习很好实现少样本情况下的embedding向量抽取。

车联网问答系统满足业务需求：问答检索准召率83％，远高于其他领域直接应用在车联网领域的问答机器人；处理流程分层结构清晰，模块耦合度低，稳定性高，灵活性和扩展性强。

附图说明

图1为本发明的一种车联网智能问答系统的整体结构图

图2为本发明的一种车联网智能问答系统的查询逻辑图

图3为本发明的一种车联网智能问答系统的实际展示效果图

具体实施方式

为清楚描述本发明，现结合附图进一步详细说明。

如图1所示的一种车联网智能问答系统，整体结构包括如下模块：数据结构化处理模块、问答语料库、语义向量抽取模块、向量建模、语义索引库，上述模块应用于如下过程：语料入库、离线索引、在线查询。

如图1及图2的车联网智能问答系统的查询逻辑图所示，其中：

语料入库时：

问答语料库是Elasticsearch库，收集数据结构化处理模块处理后的问答对数据形成问答数据集，用于构建离线索引以及关键字查询。

离线索引时：

用户进行在线查询时：

语义向量抽取模块获取用户查询语句对应的语义向量，将其通过向量建模模块实现稠密向量建模，形成用户查询语句的语义索引库；

本发明的系统，通过问答服务模块接收用户查询语句后，对用户查询语句进行了三路召回：

(1)通过字检索，召回字面相似问答对至候选集；

(2)通过语义向量抽取模块获取用户请求的语义向量，召回答案字面相似问答对数据至候选集；系统将候选集中的相似问答对数据通过查询向量模块获取语义向量发送到向量检索模块；

(3)通过语义向量抽取模块获取用户请求的语义向量，对用户请求的语义向量数据建模，查询离线语义索引库，发送查询结果到向量检索模块；

向量检索模块将：来自候选集的语义向量相似的语义向量，与，在用户查询语句的语义索引库中快速查找到的，进行相似度排序后，选取相似度高的作为模型答案TopN，通过问答服务模块向客户返回模型答案TOPN。

该方式使向客户返回的答案更精确和快速。

如图3所示，为本发明的一种车联网智能问答系统的实际展示效果图。

车联网问题举例如下表：

车联网问答数据量前期较少，不满足深度学习模型训练要求。

由上表可见，车辆网问题中存在专业领域词汇、中英文夹杂、特殊字符等问题。

以“寻车功能出现异常怎么办”为例，语料入库时：

数据结构化处理模块收集“寻车功能出现异常怎么办”作为车联网常用问答对数据，对其进行结构化处理后插入Elasticsearch库。

离线索引处理时：

问答语料库基于收集的开源数据集训练深度学习模型：先将原车联网问答数据，通过人工改写、中英互译、模型语义改写实现语料数据增长，具体做法如下：

人工改写成：寻车异常怎么办？、寻找车辆的功能出现问题怎么办、寻车功能失效怎么办。

中英互译的方式，调用翻译API，将语句翻译成英文：What to do if the carsearch function is abnormal，再将该英文句子经过翻译API，将其翻译成中文：如果汽车寻找功能异常怎么办。

模型语义改写语句可以使用开源的工具(SimBert等)，输入原始语句，通过SimBert得到模型的改写结果：

('寻车功能异常怎么办',0.9830989241600037)

('寻车功能异常怎么办？',0.9764386415481567)

('车辆寻车功能异常怎么办',0.972146213054657)

('汽车寻车功能异常怎么办',0.9634849429130554)

('汽车显示寻车功能异常怎么办？',0.9543412923812866)

('寻车功能异常是怎么回事',0.9250564575195312)

('寻车功能出现问题怎么办？',0.8986475467681885)

('寻车功能出现异常是什么意思',0.8868089914321899)。

对上述结果进行筛选，保留有效改写。

结合车联网问答语料中中英文比例，调整中、英文、中英夹杂的语料比例为80:3:17，通过中英互译、模型语义改写实现语料数据增长至1.5倍；之后，基于训练好网络参数的深度学习模型，结合车联网的问答数据，微调神深度学习模型，训练过程中采用SimCSE无监督方法训练模型，进一步扩增样本，存储所有车辆网相关问答对数据，最后，依据问答语料库训练好的深度学习模型，部署语义向量抽取模块的模型服务；

语义向量抽取模块获取问答对数据的语义向量，对语义向量数据建模，形成离线语义索引库。

问答服务模块获取用户查询语句：“寻车功能出现了异常怎么办呢？”

通过语义向量抽取模块，获得用户查询语句的语义向量，本系统中该向量是1x256维的稠密语义向量；

通过Elasticsearch库实现字检索，检索出语料库中与用户查询语句字面相似的句子，作为候选集，比如：“寻车功能异常怎么办”、“小程序功能异常怎么办”、“寻车功能出现error”

将字检索候选集通过语义向量抽取模块，分别获取3个不同1x256维的稠密语义向量；

通过向量检索模块，通过用户查询语句的语义向量，与离线索引查询出语料库中与用户查询语句相似较高的向量，及其对应的句子；用户查询语句的语义向量与候选集语义向量做同样的相似度计算，分别将向量检索与字检索句子相似排序

返回相似较高的topN。

Claims

1.一种车联网智能问答系统，其特征在于，包括如下模块：数据结构化处理模块、问答语料库、语义向量抽取模块、向量建模、语义索引库，上述模块应用于如下过程：语料入库、离线索引、在线查询，其中，

语料入库时：

数据结构化模块对已有的车联网常用的问答对数据进行结构化处理，作为语义向量抽取模块的深度学习模型的微调训练数据；

问答语料库是Elasticsearch库，收集数据结构化处理模块处理后的问答数据形成数据集，用于构建离线索引以及关键字查询；

离线索引时：

问答语料库基于事先采集的网络开源问答数据训练深度学习模型；将车联网常用的问答数据，通过中英互译、模型语义改写实现语料数据增长后，再通过数据结构化模块结构化处理的车联网问答数据微调深度学习模型参数，将微调后的深度学习模型，部署模型服务，作为语义向量抽取模块；

在线查询时：

2.如权利要求1所述的车联网智能问答系统，其特征在于，还包括：系统用户问题日志，数据结构化模块对审核后的系统用户问题日志数据进行结构化处理。

3.如权利要求1所述的车联网智能问答系统，其特征在于，所述结构化处理包括：将句子中大写统一转化为小写等操作。

4.如权利要求1所述的车联网智能问答系统，其特征在于，所述问答数据是中、英文、中英夹杂的问答数据。

5.如权利要求4所述的车联网智能问答系统，其特征在于，结合车联网问答语料中中英文比例，调整中、英文、中英夹杂的语料比例为80:3:17。

6.如权利要求1所述的车联网智能问答系统，其特征在于，所述深度学习模型是Bert深度神经网络语义模型。

7.如权利要求1所述的车联网智能问答系统，其特征在于，语料数据增长至1.5倍。