CN116150345A

CN116150345A - 一种用于城市自助服务的多模态识别方法及系统

Info

Publication number: CN116150345A
Application number: CN202310436731.XA
Authority: CN
Inventors: 李浩浩; 马亚中; 王静宇; 李建华; 李蹊; 赵丽媛
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-05-23

Abstract

本发明公开了一种用于城市自助服务的多模态识别方法及系统，涉及人工智能领域，所述方法包括：得到预设用户的预设旅游规划信息，其中包括预设规划文本、预设规划视频、预设规划语音；对预设规划文本进行分析并组建旅游特征集，其中包括时间特征、用户特征、目的特征；训练旅游规划模型得到输出结果；对预设规划视频和预设规划语音进行分析，得到预设分析结果；确定目标旅游规划方案，基于预设分析结果得到目标旅游规划方案调整结果；根据目标旅游规划方案调整结果为预设用户的自助旅游提供规划参考。解决了现有智能规划针对性不强，无法满足自助旅游者的旅游需求的问题。达到了提高自助旅游个性化程度，提高自助旅游体验感、幸福感的效果。

Description

一种用于城市自助服务的多模态识别方法及系统

技术领域

本发明涉及人工智能领域，尤其涉及一种用于城市自助服务的多模态识别方法及系统。

背景技术

在旅游市场日趋成熟、旅游者需求不断变化的背景下，旅游者通过旅行社购买旅游产品，参加团体旅游的传统旅游方式已经向自助旅游方式转变。自助旅游者不仅注重旅游活动的观光和休闲，更注重旅游活动中的体验过程。随着城市旅游功能的完善，选择城市作为旅游目的地的自助旅游者既要求旅游服务全面化，也注重个性化。现有技术中无法通过对目标旅游者进行表情、语音和文字的多模态旅游规划识别，导致得到的智能规划方案无法满足目标旅游者的旅游需求，影响目标旅游者的自助旅游质量的技术问题。示范性的如仅对目标旅游者旅游规划的文字信息进行分析得到自助旅游规划方案，无法顾及目标旅游者未意识到的交通、时间等问题，最终影响自助旅游体验感。因此，通过计算机技术对自助旅游者的旅游规划进行全方面的多模态识别分析，进而满足自助旅游者的旅游目标，提高旅游规划方案的可靠性，成为一个亟待解决的问题。

然而，现有技术仅在采集到自助旅游者的旅游目的地后进行通用性的旅游推荐和规划，得到的智能规划存在针对性不强，无法满足自助旅游者的旅游需求的技术问题。

发明内容

本发明的目的是提供一种用于城市自助服务的多模态识别方法及系统，用以解决现有技术仅在采集到自助旅游者的旅游目的地后进行通用性的旅游推荐和规划，得到的智能规划存在针对性不强，无法满足自助旅游者的旅游需求的技术问题。

鉴于上述问题，本发明提供了一种用于城市自助服务的多模态识别方法及系统。

第一方面，本发明提供了一种用于城市自助服务的多模态识别方法，所述方法通过一种用于城市自助服务的多模态识别系统实现，其中，所述方法包括：通过智能识别设备得到预设用户的预设旅游规划信息，其中，所述预设旅游规划信息包括预设规划文本、预设规划视频、预设规划语音；对所述预设规划文本进行分析，并根据分析结果组建旅游特征集，其中，所述旅游特征集包括时间特征、用户特征、目的特征；基于历史自助旅游数据训练旅游规划模型，并将所述时间特征、所述用户特征以及所述目的特征作为所述旅游规划模型的输入信息，得到输出结果；对所述预设规划视频和所述预设规划语音进行联合分析，得到预设分析结果；根据所述输出结果确定目标旅游规划方案，并基于所述预设分析结果对所述目标旅游规划方案进行调整，得到目标旅游规划方案调整结果；根据所述目标旅游规划方案调整结果，为所述预设用户的自助旅游提供规划参考。

第二方面，本发明还提供了一种用于城市自助服务的多模态识别系统，用于执行如第一方面所述的一种用于城市自助服务的多模态识别方法，其中，所述系统包括：采集模块，其用于通过智能识别设备得到预设用户的预设旅游规划信息，其中，所述预设旅游规划信息包括预设规划文本、预设规划视频、预设规划语音；第一分析模块，其用于对所述预设规划文本进行分析，并根据分析结果组建旅游特征集，其中，所述旅游特征集包括时间特征、用户特征、目的特征；规划模块，其用于基于历史自助旅游数据训练旅游规划模型，并将所述时间特征、所述用户特征以及所述目的特征作为所述旅游规划模型的输入信息，得到输出结果；第二分析模块，其用于对所述预设规划视频和所述预设规划语音进行联合分析，得到预设分析结果；规划调整模块，其用于根据所述输出结果确定目标旅游规划方案，并基于所述预设分析结果对所述目标旅游规划方案进行调整，得到目标旅游规划方案调整结果；执行模块，其用于根据所述目标旅游规划方案调整结果，为所述预设用户的自助旅游提供规划参考。

第三方面，一种电子设备，其中，包括处理器和存储器；

该处理器，用于处理执行任一上述第一方面中方法的步骤；

该存储器，该存储器与该处理器耦合，用于存储程序，当该程序被该处理器执行时，使系统以执行任一上述第一方面中方法的步骤。

第四方面，一种计算机可读存储介质，其中，该计算机可读存储介质上存储有计算机程序，该计算机程序在执行时实现任一上述第一方面中方法的步骤。

本发明中提供的一个或多个技术方案，至少具有如下技术效果或优点：

通过智能识别设备得到预设用户的预设旅游规划信息，其中，所述预设旅游规划信息包括预设规划文本、预设规划视频、预设规划语音；对所述预设规划文本进行分析，并根据分析结果组建旅游特征集，其中，所述旅游特征集包括时间特征、用户特征、目的特征；基于历史自助旅游数据训练旅游规划模型，并将所述时间特征、所述用户特征以及所述目的特征作为所述旅游规划模型的输入信息，得到输出结果；对所述预设规划视频和所述预设规划语音进行联合分析，得到预设分析结果；根据所述输出结果确定目标旅游规划方案，并基于所述预设分析结果对所述目标旅游规划方案进行调整，得到目标旅游规划方案调整结果；根据所述目标旅游规划方案调整结果，为所述预设用户的自助旅游提供规划参考。实现了为预设用户的自助旅游提供合理、有效的规划指导，满足用户旅游需求的技术目标，达到了提高预设用户的自助旅游个性化程度，进而提高预设用户的自助旅游体验感、幸福感的技术效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种用于城市自助服务的多模态识别方法的流程示意图；

图2为本发明一种用于城市自助服务的多模态识别方法中组成所述预设旅游规划信息的流程示意图；

图3为本发明一种用于城市自助服务的多模态识别方法中基于所述目标预设分析结果得到所述预设分析结果的流程示意图；

图4为本发明一种用于城市自助服务的多模态识别方法中将所述对应语音信息添加至所述目标预设分析结果的流程示意图；

图5为本发明一种用于城市自助服务的多模态识别系统的结构示意图。

附图标记说明：

采集模块M100，第一分析模块M200，规划模块M300，第二分析模块M400，规划调整模块M500，执行模块M600。

具体实施方式

本发明通过提供一种用于城市自助服务的多模态识别方法及系统，解决了现有技术仅在采集到自助旅游者的旅游目的地后进行通用性的旅游推荐和规划，得到的智能规划存在针对性不强，无法满足自助旅游者的旅游需求的技术问题。实现了为预设用户的自助旅游提供合理、有效的规划指导，满足用户旅游需求的技术目标，达到了提高预设用户的自助旅游个性化程度，进而提高预设用户的自助旅游体验感、幸福感的技术效果。

本发明技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

下面，将参考附图对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部。

实施例一

请参阅附图1，本发明提供了一种用于城市自助服务的多模态识别方法，其中，所述方法应用于一种用于城市自助服务的多模态识别系统，所述方法具体包括如下步骤：

步骤S100：通过所述智能识别设备得到预设用户的预设旅游规划信息，其中，所述预设旅游规划信息包括预设规划文本、预设规划视频、预设规划语音；

进一步的，如附图2所示，本发明步骤S100还包括：

步骤S110：组建所述智能识别设备，其中，所述智能识别设备包括文字识别设备、视频识别设备、声音识别设备；

步骤S120：获得预设规划模板，并将所述预设规划模板存储至所述文字识别设备；

步骤S130：通过所述文字识别设备采集用户规划文字，并将所述用户规划文字渲染至所述预设规划模板，得到所述预设规划文本；

步骤S140：通过所述视频识别设备采集所述预设规划视频；

步骤S150：通过所述声音识别设备采集所述预设规划语音；

步骤S160：所述预设规划文本、所述预设规划视频以及所述预设规划语音组成所述预设旅游规划信息。

具体而言，所述多模态识别方法应用于一种用于城市自助服务的多模态识别系统，可以通过融合预设规划视频、预设规划语音以及预设规划文本的规划数据识别分析结果，最终得到目标旅游规划方案调整结果，从而实现为预设用户的自助旅游提供合理、有效的规划指导，满足用户旅游需求的目标。其中，所述预设用户是指任意一个准备自助旅游，并通过所述多模态识别系统对其自助旅游进行智能化分析和规划的旅游用户。

通过与所述多模态识别系统通信连接的所述智能识别设备，对所述预设用户在自助旅游之前的旅游规划及目标需求等进行采集，从而得到所述预设规划文本、预设规划视频、预设规划语音。其中，所述智能识别设备包括文字识别设备、视频识别设备、声音识别设备。所述文字识别设备用于对所述预设用户的自助旅游文字规划数据进行采集识别。所述视频识别设备用于对所述预设用户的自助旅游视频规划数据进行采集识别。所述声音识别设备用于对所述预设用户的自助旅游声音规划数据进行采集识别。在通过所述文字识别设备采集识别到预设用户的文字规划数据后，将其对应性填至所述文字识别设备中的预设规划模板中，形成标准化的文字规划。其中，所述预设规划模板是指由相关旅游规划专家统筹分析自助旅游后确定考虑指标，进而设计制作的规划模板。示范性的如自助旅游的出行方式、出行人数、是否带有儿童、老人、宠物、计划旅行时间等旅游规划指标。最后将所述文字识别设备识别到的所述预设规划文本、所述视频识别设备识别到的所述预设规划视频以及所述声音识别设备识别到的所述预设规划语音进行组合，即得到所述预设旅游规划信息。

通过智能识别设备对预设用户的预设旅游规划信息进行多模态的识别，从而得到旅游规划文本、视频和语音，实现了未后续分析预设用户的旅游规划提供全面、可靠的数据基础的技术目标。

步骤S200：对所述预设规划文本进行分析，并根据分析结果组建旅游特征集，其中，所述旅游特征集包括时间特征、用户特征、目的特征；

具体而言，在采集得到所述预设规划文本之后，通过分析即得到所述预设用户此次自助旅游的相关基本信息。示范性的如用户A预计于国庆假期带妻子、儿子、父母去城市B自驾游，则此次旅游的城市B、主要要去的城市B的景区、计划游玩的时间日期为国庆七天、共同前行去旅游的人为其家人等。即得到此次旅游的时间特征、用户特征、目的特征。通过对预设用户的文本规划进行分析，得到预设用户的旅游规划时间、旅游用户及旅游目的等特征，实现了对预设用户的旅游需求的初步识别分析的技术目标。

步骤S300：基于历史自助旅游数据训练旅游规划模型，并将所述时间特征、所述用户特征以及所述目的特征作为所述旅游规划模型的输入信息，得到输出结果；

进一步的，本发明还包括如下步骤：

步骤S310：获得所述预设用户的预设目的地；

步骤S320：组建所述预设目的地的预设景区集合，其中，所述预设景区集合包括多个具有类别标识的景区；

步骤S330：组建景区评价指标集，其中，所述景区评价指标集包括等级指数、运动指数、交通指数；

步骤S340：基于所述景区评价指标集对所述多个具有类别标识的景区依次进行评价，得到景区评价数据库；

步骤S350：将所述景区评价数据库存储至所述旅游规划模型。

具体而言，在对预设规划文本的分析得到的所述预设旅游规划信息之后，结合所述多模态识别系统中的历史自助旅游记录数据，利用计算机监督学习得到所述旅游规划模型。其中，提取历史自助旅游数据中的时间特征、用户特征、目的特征，并匹配记录中的旅游规划方案，从而组建得到一组数据，接着利用提取到的多组数据作为训练数据，训练得到所述旅游规划模型。

进一步的，在训练得到所述旅游规划模型之后，根据目的特征对目的地的景区情况进行针对性分析，并建立所述预设目的地的预设景区集合，其中，集合中的各个景区均带有景区类别标记。示范性的如免费公园、寺庙、人文景观、自然景观等标记。然后基于大数据采集用户对景区评价的方面指标，对应的组建包括等级指数、运动指数、交通指数等在内的景区评价指标集，并依次对预设景区集合中的各个预设景区进行评价，得到景区及其评价之间的对应列表，即得到所述景区评价数据库。最后将所述景区评价数据库存储至所述旅游规划模型中。通过对历史自助旅游数据进行分析，并训练得到旅游规划模型，从而为智能化得到预设用户的旅游规划方案提供模型基础，实现了提高旅游规划智能化程度的技术目标。

接下来，将所述预设旅游规划信息中的所述时间特征、所述用户特征以及所述目的特征作为所述旅游规划模型的输入信息，通过所述旅游规划模型的智能化分析得到所述输出结果。其中，所述输出结果包括多个智能旅游规划方案。

进一步的，本发明还包括如下步骤：

步骤S361：获得所述预设目的地的预设酒店集合；

步骤S362：对所述预设酒店集合中各预设酒店进行特征采集，并根据采集结果组建酒店数据库；

步骤S363：获得所述预设目的地的预设餐饮集合；

步骤S364：对所述预设餐饮集合中各预设餐饮进行特征采集，并根据采集结果组建餐饮数据库；

步骤S365：获得所述预设目的地的交通数据库；

步骤S366：将所述酒店数据库、所述餐饮数据库与所述交通数据库存储至所述旅游规划模型。

具体而言，在构建得到旅游规划模型之后，再次对所述预设目的地的住宿、饮食、交通等方便进行分析。首先统计得到预设目的地的所述预设酒店集合，并对所述预设酒店集合中各预设酒店进行特征采集，示范性的如酒店星级、酒店位置、酒店价格等特征参数，进而根据采集结果组建酒店数据库。然后，对所述预设目的地的酒店餐馆等饮食信息进行采集，得到预设餐饮集合，并对所述预设餐饮集合中各预设餐饮进行特征采集，示范性的如餐饮饭店位置、菜色特征、饭店风格等，并根据采集结果组建餐饮数据库。最后对所述预设目的地的交通线路数据进行采集，并组建得到交通数据库。最终，将所述酒店数据库、所述餐饮数据库与所述交通数据库均存储至所述旅游规划模型中。

步骤S400：对所述预设规划视频和所述预设规划语音进行联合分析，得到预设分析结果；

进一步的，如附图3所示，本发明步骤S400还包括：

步骤S410：对所述预设规划语音进行划分得到语音阶段集，其中，所述语音阶段集包括多个语音段；

步骤S420：基于所述多个语音段对所述预设规划视频进行划分，得到视频阶段集，其中，所述语音阶段集包括多个视频段，且所述多个视频段与所述多个语音段具备映射关系；

步骤S430：提取所述多个语音段中的目标语音段，并获得所述目标语音段的目标语音信息序列；

步骤S440：基于所述目标语音段，匹配所述多个视频段中的目标视频段，并对所述目标视频段进行分析，得到目标视频信息序列；

步骤S450：将所述目标语音信息序列与所述目标视频信息序列进行对比，并根据对比结果得到目标预设分析结果；

进一步的，如附图4所示，本发明步骤S450还包括：

步骤S451：组建赞成表情图像集，并将所述赞成表情图像集作为预设表情；

步骤S452：将所述目标视频信息序列进行拆解，得到目标图像帧序列；

步骤S453：依次判断所述目标图像帧集合中各图像帧中的用户表情是否满足所述预设表情；

步骤S454：若是，获得标记指令，并基于所述标记指令对图像帧进行满足标记，得到目标图像帧序列标记结果；

步骤S455：基于所述目标图像帧序列标记结果，统计各图像帧中的满足标记数，并筛选得到最高满足标记数对应的图像帧；

步骤S456：基于所述最高满足标记数对应的所述图像帧，反向匹配得到对应语音信息，并将所述对应语音信息添加至所述目标预设分析结果。

步骤S460：基于所述目标预设分析结果得到所述预设分析结果。

具体而言，在通过所述智能识别设备中的所述视频识别设备得到所述预设规划视频、通过所述声音识别设备得到所述预设规划语音之后，为提高所述多模态识别系统的识别可靠性和准确性，再次对所述预设规划视频和所述预设规划语音进行联合分析。

首先对所述预设规划语音进行划分得到语音阶段集，其中，所述语音阶段集包括多个语音段。示范性的如各个语音段讨论此次旅游的不同方便，如第一个语音段讨论旅游的目的地，第二个语音段讨论去目的地的出行方式，大巴、高铁还是自驾等，第三个语音段讨论去该目的地后，主要旅游观光的景区等。然后，基于所述多个语音段对所述预设规划视频进行划分，得到视频阶段集，其中，所述语音阶段集包括多个视频段，且所述多个视频段与所述多个语音段具备映射关系。进一步的，提取所述多个语音段中的目标语音段，并获得所述目标语音段的目标语音信息序列。也就是说，将所述目标语音段中的规划信息按照讨论顺序进行排列，即得到目标语音信息序列。接下来，基于所述目标语音段，匹配所述多个视频段中的目标视频段，并对所述目标视频段进行分析，得到目标视频信息序列。其中，目标视频信息序列包括多个具备时间标识的图像。最后，将所述目标语音信息序列与所述目标视频信息序列进行对比分析，并根据对比结果得到目标预设分析结果。

进一步的，在将所述目标语音信息序列与所述目标视频信息序列进行对比分析时，主要对讨论所述目标语音信息序列中各个规划信息时，各个参与用户的表情动作等进行分析。首先根据表情研究理论和实际经验等组建赞成表情图像集，并将所述赞成表情图像集作为预设表情。示范性的如点头、故障、点赞、微笑等表情作为认同讨论内容的表情，即作为预设表情。然后，对所述目标视频信息序列进行拆解，得到视频信息中的所有图像帧，并组成目标图像帧序列。接着，依次判断所述目标图像帧集合中各图像帧中的用户表情是否满足所述预设表情。其中，当所述目标图像帧集合中各图像帧中的用户表情满足所述预设表情时，系统自动获得标记指令，并基于所述标记指令对图像帧进行满足标记，得到目标图像帧序列标记结果。接下来，基于所述目标图像帧序列标记结果，统计各图像帧中的满足标记数，并筛选得到最高满足标记数对应的图像帧。示范性的如某帧图像中共有3个用户参与规划讨论，系统对其中两个用户进行了满足标记，也就是说该三个用户中有两个用户赞成当前提议。最后，基于所述最高满足标记数对应的所述图像帧，反向匹配得到对应语音信息，并将所述对应语音信息添加至所述目标预设分析结果。最终得到所述预设规划视频和所述预设规划语音的预设分析结果。

通过对采集到的预设规划视频和预设规划语音进行联合分析，实现了对预设用户的旅游需求进一步确认和分析的技术目标，达到了提高规划数据采集全面性、准确性的技术效果。

步骤S500：根据所述输出结果确定目标旅游规划方案，并基于所述预设分析结果对所述目标旅游规划方案进行调整，得到目标旅游规划方案调整结果；

步骤S600：根据所述目标旅游规划方案调整结果，为所述预设用户的自助旅游提供规划参考。

进一步的，本发明还包括如下步骤：

步骤S710：基于所述预设用户，对所述目标旅游规划方案调整结果进行人工调整，得到人工调整结果；

步骤S720：将所述人工调整结果作为自助旅游方案，其中，所述自助旅游方案用于为所述预设用户的自助旅游提供基础。

具体而言，根据所述旅游规划模型的输出结果，随机提取其中一个方案，并将其作为目标旅游规划方案。接着，基于所述预设规划视频和所述预设规划语音的预设分析结果，对所述目标旅游规划方案进行调整，得到目标旅游规划方案调整结果。示范性的如预设规划文本中未注明此次旅游用户包括老人和孩子，因此得到的所述目标旅游规划方案中可能存在不适合老人和孩子游览的部分，如行走距离过长、存在高危项目等。进一步的，由所述预设用户对所述目标旅游规划方案调整结果进行人工调整，并得到人工调整结果，最终将所述人工调整结果作为自助旅游方案。其中，所述自助旅游方案用于为所述预设用户的自助旅游提供基础。通过融合预设规划视频、预设规划语音以及预设规划文本的规划数据识别分析结果，最终得到目标旅游规划方案调整结果，实现了为预设用户的自助旅游提供合理、有效的规划指导，满足用户旅游需求的技术目标，达到了提高预设用户的自助旅游个性化程度，进而提高预设用户的自助旅游体验感、幸福感的技术效果。

综上所述，本发明所提供的一种用于城市自助服务的多模态识别方法具有如下技术效果：

实施例二

基于与前述实施例中一种用于城市自助服务的多模态识别方法，同样发明构思，本发明还提供了一种用于城市自助服务的多模态识别系统，请参阅附图5，所述系统包括：

采集模块M100，其用于通过智能识别设备得到预设用户的预设旅游规划信息，其中，所述预设旅游规划信息包括预设规划文本、预设规划视频、预设规划语音；

第一分析模块M200，其用于对所述预设规划文本进行分析，并根据分析结果组建旅游特征集，其中，所述旅游特征集包括时间特征、用户特征、目的特征；

规划模块M300，其用于基于历史自助旅游数据训练旅游规划模型，并将所述时间特征、所述用户特征以及所述目的特征作为所述旅游规划模型的输入信息，得到输出结果；

第二分析模块M400，其用于对所述预设规划视频和所述预设规划语音进行联合分析，得到预设分析结果；

规划调整模块M500，其用于根据所述输出结果确定目标旅游规划方案，并基于所述预设分析结果对所述目标旅游规划方案进行调整，得到目标旅游规划方案调整结果；

执行模块M600，其用于根据所述目标旅游规划方案调整结果，为所述预设用户的自助旅游提供规划参考。

进一步的，所述系统中的所述采集模块M100还用于：

组建所述智能识别设备，其中，所述智能识别设备包括文字识别设备、视频识别设备、声音识别设备；

获得预设规划模板，并将所述预设规划模板存储至所述文字识别设备；

通过所述文字识别设备采集用户规划文字，并将所述用户规划文字渲染至所述预设规划模板，得到所述预设规划文本；

通过所述视频识别设备采集所述预设规划视频；

通过所述声音识别设备采集所述预设规划语音；

所述预设规划文本、所述预设规划视频以及所述预设规划语音组成所述预设旅游规划信息。

进一步的，所述系统中的所述规划模块M300还用于：

获得所述预设用户的预设目的地；

组建所述预设目的地的预设景区集合，其中，所述预设景区集合包括多个具有类别标识的景区；

组建景区评价指标集，其中，所述景区评价指标集包括等级指数、运动指数、交通指数；

基于所述景区评价指标集对所述多个具有类别标识的景区依次进行评价，得到景区评价数据库；

将所述景区评价数据库存储至所述旅游规划模型。

进一步的，所述系统中的所述规划模块M300还用于：

获得所述预设目的地的预设酒店集合；

对所述预设酒店集合中各预设酒店进行特征采集，并根据采集结果组建酒店数据库；

获得所述预设目的地的预设餐饮集合；

对所述预设餐饮集合中各预设餐饮进行特征采集，并根据采集结果组建餐饮数据库；

获得所述预设目的地的交通数据库；

将所述酒店数据库、所述餐饮数据库与所述交通数据库存储至所述旅游规划模型。

进一步的，所述系统中的所述第二分析模块M400还用于：

对所述预设规划语音进行划分得到语音阶段集，其中，所述语音阶段集包括多个语音段；

基于所述多个语音段对所述预设规划视频进行划分，得到视频阶段集，其中，所述语音阶段集包括多个视频段，且所述多个视频段与所述多个语音段具备映射关系；

提取所述多个语音段中的目标语音段，并获得所述目标语音段的目标语音信息序列；

基于所述目标语音段，匹配所述多个视频段中的目标视频段，并对所述目标视频段进行分析，得到目标视频信息序列；

将所述目标语音信息序列与所述目标视频信息序列进行对比，并根据对比结果得到目标预设分析结果；

基于所述目标预设分析结果得到所述预设分析结果。

进一步的，所述系统中的所述第二分析模块M400还用于：

组建赞成表情图像集，并将所述赞成表情图像集作为预设表情；

将所述目标视频信息序列进行拆解，得到目标图像帧序列；

依次判断所述目标图像帧集合中各图像帧中的用户表情是否满足所述预设表情；

若是，获得标记指令，并基于所述标记指令对图像帧进行满足标记，得到目标图像帧序列标记结果；

基于所述目标图像帧序列标记结果，统计各图像帧中的满足标记数，并筛选得到最高满足标记数对应的图像帧；

基于所述最高满足标记数对应的所述图像帧，反向匹配得到对应语音信息，并将所述对应语音信息添加至所述目标预设分析结果。

进一步的，所述系统还包括人工调整模块，所述人工调整模块用于：

基于所述预设用户，对所述目标旅游规划方案调整结果进行人工调整，得到人工调整结果；

将所述人工调整结果作为自助旅游方案，其中，所述自助旅游方案用于为所述预设用户的自助旅游提供基础。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，前述图1实施例一中的一种用于城市自助服务的多模态识别方法和具体实例同样适用于本实施例的一种用于城市自助服务的多模态识别系统，通过前述对一种用于城市自助服务的多模态识别方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种用于城市自助服务的多模态识别系统，所以为了说明书的简洁，在此不再详述。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本申请还提供一种电子设备，其中，包括处理器和存储器；

该处理器，用于处理执行上述实施例一中任一项所述方法的步骤；

该存储器，该存储器与该处理器耦合，用于存储程序，当该程序被该处理器执行时，使系统以执行上述实施例一中任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其中，该计算机可读存储介质上存储有计算机程序，该计算机程序在执行时实现上述实施例一中任一项所述方法的步骤。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于城市自助服务的多模态识别方法，其特征在于，所述多模态识别方法应用于多模态识别系统，所述多模态识别系统与智能识别设备通信连接，所述多模态识别方法包括：

通过所述智能识别设备得到预设用户的预设旅游规划信息，其中，所述预设旅游规划信息包括预设规划文本、预设规划视频、预设规划语音；

对所述预设规划文本进行分析，并根据分析结果组建旅游特征集，其中，所述旅游特征集包括时间特征、用户特征、目的特征；

基于历史自助旅游数据训练旅游规划模型，并将所述时间特征、所述用户特征以及所述目的特征作为所述旅游规划模型的输入信息，得到输出结果；

对所述预设规划视频和所述预设规划语音进行联合分析，得到预设分析结果；

根据所述输出结果确定目标旅游规划方案，并基于所述预设分析结果对所述目标旅游规划方案进行调整，得到目标旅游规划方案调整结果；

根据所述目标旅游规划方案调整结果，为所述预设用户的自助旅游提供规划参考。

2.根据权利要求1所述的多模态识别方法，其特征在于，所述通过所述智能识别设备得到预设用户的预设旅游规划信息，包括：

通过所述视频识别设备采集所述预设规划视频；

通过所述声音识别设备采集所述预设规划语音；

3.根据权利要求1所述的多模态识别方法，其特征在于，在所述基于历史自助旅游数据训练旅游规划模型，并将所述时间特征、所述用户特征以及所述目的特征作为所述旅游规划模型的输入信息，得到输出结果之前，还包括：

获得所述预设用户的预设目的地；

将所述景区评价数据库存储至所述旅游规划模型。

4.根据权利要求3所述的多模态识别方法，其特征在于，还包括：

获得所述预设目的地的预设酒店集合；

获得所述预设目的地的预设餐饮集合；

获得所述预设目的地的交通数据库；

5.根据权利要求1所述的多模态识别方法，其特征在于，所述对所述预设规划视频和所述预设规划语音进行联合分析，得到预设分析结果，包括：

基于所述目标预设分析结果得到所述预设分析结果。

6.根据权利要求5所述的多模态识别方法，其特征在于，所述将所述目标语音信息序列与所述目标视频信息序列进行对比，并根据对比结果得到目标预设分析结果，包括：

将所述目标视频信息序列进行拆解，得到目标图像帧序列；

7.根据权利要求1所述的多模态识别方法，其特征在于，还包括：

8.一种用于城市自助服务的多模态识别系统，其特征在于，所述多模态识别系统包括：

采集模块，其用于通过智能识别设备得到预设用户的预设旅游规划信息，其中，所述预设旅游规划信息包括预设规划文本、预设规划视频、预设规划语音；

第一分析模块，其用于对所述预设规划文本进行分析，并根据分析结果组建旅游特征集，其中，所述旅游特征集包括时间特征、用户特征、目的特征；

规划模块，其用于基于历史自助旅游数据训练旅游规划模型，并将所述时间特征、所述用户特征以及所述目的特征作为所述旅游规划模型的输入信息，得到输出结果；

第二分析模块，其用于对所述预设规划视频和所述预设规划语音进行联合分析，得到预设分析结果；

规划调整模块，其用于根据所述输出结果确定目标旅游规划方案，并基于所述预设分析结果对所述目标旅游规划方案进行调整，得到目标旅游规划方案调整结果；

执行模块，其用于根据所述目标旅游规划方案调整结果，为所述预设用户的自助旅游提供规划参考。

9.一种电子设备，其特征在于，包括处理器和存储器；

所述处理器，用于处理执行权利要求1-7中任一项所述方法；

所述存储器，所述存储器与所述处理器耦合，用于存储程序，当所述程序被所述处理器执行时，使系统以执行权利要求1-7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在执行时实现权利要求1-7中任一项所述方法的步骤。