CN116308682A

CN116308682A - 提供商品信息的方法及电子设备

Info

Publication number: CN116308682A
Application number: CN202310546725.XA
Authority: CN
Inventors: 周晨颖; 郭淑明
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-06-23
Anticipated expiration: 2043-05-12
Also published as: CN116308682B

Abstract

本申请实施例公开了提供商品信息的方法及电子设备，所述方法包括：接收用户输入的第一语音内容；通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息；通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容，所述文本内容用于描述关于所述推荐商品的推荐理由；将所述文本内容转换为第二语音内容，以便通过所述第二语音内容提供关于所述推荐商品的信息。通过本申请实施例，能够进行更精准的商品推荐，并降低用户对商品信息的理解成本。

Description

提供商品信息的方法及电子设备

技术领域

本申请涉及商品信息推荐技术领域，特别是涉及提供商品信息的方法及电子设备。

背景技术

信息无障碍是指无论健全人还是残疾人都能够方便地、无障碍地获取信息、利用信息，并从信息技术中获益。为了达到该目的，很多主流产品都实现了特殊人群的无障碍功能，例如，为了帮助视力障碍人群获取信息，一些产品中提供了读屏功能，也即，在用户打开某个页面后，可以通过语音的方式从上向下读出页面中的文本内容，以使得视障人群可以通过听觉来获取到页面中的信息。但是，这种简单的读屏能力通常只能解决部分场景需求，如信息类、文字类的页面等。而在购物等比较复杂的场景中，每个商品会具有卖点、商品细节、用户评价等等信息，商品的信息复杂度高，且页面中会包含很多诸如图片、视频等非文字类信息，此时，普通用户可以通过一屏一屏地查看，获取到具体的信息，但是，视障人士看不到页面，而简单的读屏功能又只能读出文本内容，因此，难以帮助视障人群获取到有效的商品信息，进而更加难以帮助视障人群完成下单等更复杂的操作链路。

发明内容

本申请提供了提供商品信息的方法及电子设备，能够进行更精准的商品推荐，并降低用户对商品信息的理解成本。

本申请提供了如下方案：

一种提供商品信息的方法，包括：

接收用户输入的第一语音内容；

通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息；

通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容，所述文本内容用于描述关于所述推荐商品的推荐理由；

将所述文本内容转换为第二语音内容，以便通过所述第二语音内容提供关于所述推荐商品的信息。

其中，所述通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息，包括：

将所述第一语音内容转换为通过自然语言表达的文本内容，并基于该文本内容进行自然语言理解，以获取用户的购物需求信息。

其中，还包括：

根据所述用户输入的第一语音内容对应的自然语言理解结果，提供第三语音内容，以便通过所述第三语音内容与所述用户进行多轮对话的方式，获取关于所述购物需求的更多信息。

其中，还包括：

在输出所述第二语音内容后，通过对所述用户进一步输入的第四语音内容进行自然语言理解，获取所述用户进一步的需求信息，并对所述进一步的需求信息进行处理后生成第五语音内容。

其中，所述进一步的需求信息包括：对所述推荐商品中的指定商品进行详细介绍的需求，或者，针对所述推荐商品中的指定商品完善交易链路的需求。

其中，所述进一步的需求信息包括：针对所述推荐商品中的指定商品，向客服人员发起咨询的需求；

所述对所述进一步的需求信息进行处理后生成第五语音内容，包括：

根据所述指定商品向对应的客服人员客户端转发咨询信息，并根据所述客服人员客户端返回的答复内容生成所述第五语音内容。

其中，通过调用人工智能AI模型，进行对所述第一语音内容的自然语言理解、推荐商品的确定、文本内容的生成、和/或从文本内容到所述第二语音内容的转换。

一种提供商品信息的方法，包括：

接收用户输入的第一语音内容；

将所述第一语音内容提交到服务端，以便所述服务端通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息，通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容后转换为第二语音内容，所述文本内容用于描述关于所述推荐商品的推荐理由；

通过播放所述第二语音内容提供关于所述推荐商品的信息。

一种提供商品信息的方法，包括：

接收用户通过自然语言表达的第一文本内容；

通过对所述第一文本内容进行自然语言理解，获取用户的购物需求信息；

通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的第二文本内容，所述第二文本内容用于描述关于所述推荐商品的推荐理由；

将所述至少一个推荐商品以及对应的所述第二文本内容返回给客户端进行展示。

一种提供商品信息的方法，包括：

接收用户通过自然语言表达的第一文本内容；

将所述第一文本内容提交到服务端，以便所述服务端通过对所述第一文本内容进行自然语言理解，获取用户的购物需求信息，通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的第二文本内容，所述第二文本内容用于描述关于所述推荐商品的推荐理由；

将所述服务端返回的所述至少一个推荐商品以及对应的所述第二文本内容进行展示。

一种提供商品信息的装置，包括：

第一语音内容接收单元，用于接收用户输入的第一语音内容；

自然语音理解单元，用于通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息；

商品推荐及内容生成单元，用于通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容，所述文本内容用于描述关于所述推荐商品的推荐理由；

第二语音内容生成单元，用于将所述文本内容转换为第二语音内容，以便通过所述第二语音内容提供关于所述推荐商品的信息。

一种提供商品信息的装置，包括：

提交单元，用于将所述第一语音内容提交到服务端，以便所述服务端通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息，通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容后转换为第二语音内容，所述文本内容用于描述关于所述推荐商品的推荐理由；

语音播放单元，用于通过播放所述第二语音内容提供关于所述推荐商品的信息。

一种提供商品信息的装置，包括：

第一文本内容接收单元，用于接收用户通过自然语言表达的第一文本内容；

自然语言理解单元，用于通过对所述第一文本内容进行自然语言理解，获取用户的购物需求信息；

推荐商品及文本内容生成单元，用于通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的第二文本内容，所述第二文本内容用于描述关于所述推荐商品的推荐理由；

第二文本内容返回单元，用于将所述至少一个推荐商品以及对应的所述第二文本内容返回给客户端进行展示。

一种提供商品信息的装置，包括：

提交单元，用于将所述第一文本内容提交到服务端，以便所述服务端通过对所述第一文本内容进行自然语言理解，获取用户的购物需求信息，通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的第二文本内容，所述第二文本内容用于描述关于所述推荐商品的推荐理由；

展示单元，用于将所述服务端返回的所述至少一个推荐商品以及对应的所述第二文本内容进行展示。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

在本申请实施例中，由于用户可以通过语音的方式以自然语言表达自己的购物需求，在推荐商品时，可以对用户的需求进行理解，同时还可以对商品的多模态信息转换为模型对商品的理解，并以此确定出满足所述购物需求的至少一个推荐商品，这样，可以实现基于用户输入的更复杂的购物需求，进行更精准的商品推荐。同时还可以生成通过自然语言表达的文本内容，所述文本内容用于描述关于所述推荐商品的推荐理由。进而，可以将所述文本内容转换为第二语音内容，以便通过所述第二语音内容提供关于所述推荐商品的信息。也即，可以对具体推荐商品的信息进行一些转译，在向用户提供商品推荐信息时，还可以提供这种转译后的文本内容对应的语音合成结果，从而可以降低用户对商品信息的理解成本。

在可选的方式下，还可以通过多轮对话等方式，获取到关于用户购物需求的更详细的信息，以实现更精准的商品推荐，另外还可以通过多轮对话等方式，帮助用户提供基于某具体商品的更多信息，或者完成具体的购物链路，还可以作为桥梁，帮助用户实现与客服人员的沟通咨询，等等。

另外，关于具体实现过程中涉及到的对语音内容的自然语言理解、推荐商品的确定、推荐理由文本内容的生成、从文本内容到语音内容的转换等，都可以通过AI大模型来完成，这样，可以通过AI大模型的能力获得更准确的推荐结果，以及更优质的推荐理由内容；并且，可以通过同一模型完成上述多项任务，而不需要分别针对不同的任务训练多个模型。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的第二方法的流程图；

图4是本申请实施例提供的第三方法的流程图；

图5是本申请实施例提供的第四方法的流程图；

图6是本申请实施例提供的第一装置的示意图；

图7是本申请实施例提供的第二装置的示意图；

图8是本申请实施例提供的第三装置的示意图；

图9是本申请实施例提供的第四装置的示意图；

图10是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，首先针对面向视障人群或者文字编辑及阅读能力有限、信息理解能力有限的人群（例如，儿童，老人等）的购物场景，提供了相应的解决方案，在该方案中，可以利用AI（Artificial Intelligence，人工智能）模型等相关模型的能力，为用户提供更有效的商品信息，使得用户可以获得更流畅的购物体验。

为便于理解，下面首先对AI模型（尤其是AI大模型，在下文中主要以AI大模型为例进行介绍）的相关概念进行简单的介绍。AI大模型也可以称为AI大规模参数模型，可以是指一类基础模型（Foundation Model），具体可以指在使用海量数据下训练出来的参数量巨大的、能适应一系列下游任务的模型。对于AI大模型而言，不仅在参数规模上存在参数量巨大（随着模型的不断迭代，参数量通常也会呈指数级增长，从亿到万亿，再到百万亿，甚至还可以更多）的特点，并且，从模态支持上看，AI大模型也从支持图片、图像、文本、语音、视频等单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。也即，大型模型通常还具备多种模态信息的高效理解能力、跨模态的感知能力以及跨差异化任务的迁移与执行能力等，甚至可能会具备如人类大脑体现的多模态信息感知能力。

从另一角度而言，AI大模型是“人工智能预训练大型模型”的简称，包含了“预训练”和“大模型”两层含义，二者结合产生了一种新的人工智能模式，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能支撑各类下游应用。也就是说，AI大模型得益于其“大规模预训练﹢微调”的范式，可以很好地适应不同下游任务，展现出它强大的通用性。这种具有通用性的AI大模型，在共享参数的情况下，只需在不同下游应用场景中做出相应微调就能得到优越的表现，突破传统AI模型难以泛化到其他任务上的局限性。

从处理结果的角度而言，上述AI大模型还属于一种生成式模型（GenerativeModel）。因为这类模型不但能根据特征预测结果，还能“理解”数据是如何产生的，并以此为基础“创造”数据。

在AI大模型所具备的上述能力的支持下，本申请实施例可以在购物场景中，为视障人群、儿童、老人等用户群体提供更优质的服务。具体的，在本申请实施例中，首先可以由用户以语音的方式输入自己的购物需求信息，并且可以直接以自然语言的方式进行描述，而不需要考虑使用怎样的关键词等。之后，服务端可以对所述第一语音内容进行自然语言理解，并以此获取用户的购物需求信息，还可以将商品库中多个商品关联的多模态信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容，该文本内容可以用于描述关于所述推荐商品的推荐理由。然后，还可以将上述文本内容转换为第二语音内容，并提供给客户端进行播放。

其中，关于对商品的理解，以便确定出上述推荐商品，生成文本内容的过程，可以通过调用具体的AI大模型的方式来实现，由于相比于传统的机器学习模型，AI大模型最显式的差别就是使用数据量和生产模型参数量上的“大”，这意味着它可以处理更复杂的任务。另外，AI大模型通常采用更加复杂的机制来实现其功能。例如，大型模型通常采用注意力机制来实现对输入的选择性关注，或者采用残差连接来加速模型的训练和优化过程。因此，在本申请实施例的场景下使用这种AI大模型时，可以充分利用AI大模型拥有的更多参数和更强的学习能力。

另外，关于对第一语音内容的理解、文本内容到第二语音内容的生成等过程，可以使用普通的自然语言理解模型或者语音合成模型来实现，或者，为了获得更优的效果，也可以通过调用前述AI大模型的方式来实现。例如，在将文本内容转换成第二语音内容的过程中，通过AI大模型可以更准确地模拟人类语音的细节和音调变化，从而提升声音的自然度和真实性。另外，AI大模型通过从大量的语音样本中学习并模拟出不同情感下的语音表现，如愉悦、悲伤、惊喜等情感状态，因此，相比于传统的语音合成模型可以提升语音合成的情感表达能力。

这里需要说明的是，关于上述AI大模型，可以是具体系统内部自研的AI大模型，或者，也可以使用第三方开源的AI大模型。当然，在使用第三方开源的大模型时，可以基于具体应用场景的需求，对AI大模型进行一些微调。例如，在本申请实施例中，为了使得具体的AI大模型在商品理解、第二文本内容的生成等方面的能力更为突出，并使得推荐出的商品是实际可购买的商品实例，而不是仅仅进行商品类目的推荐，可以在具体应用该AI大模型之前，将商品信息系统中的海量商品信息输入到AI大模型中进行训练，然后再部署到具体的应用中。

从系统架构角度而言，参见图1，本申请实施例可以应用于商品信息服务系统中，该系统可以包括客户端以及服务端，服务端主要可以部署于云端服务器或者本地服务器等多种了类型的服务器中，另外，服务器中还可以预先部署AI大模型等相关的算法模型。其中，客户端主要用于实现与用户的交互，包括接收用户输入的信息，并将服务端返回的信息进行输出等。服务端主要用于通过数据支持，例如，包括对用户输入的语音内容的自然语言理解，对商品多模态信息的理解，推荐商品的确定，推荐理由内容的生成，从文本内容到语音内容的生成，等等。

下面对本申请实施例提供的具体技术方案进行详细介绍。

实施例一

首先，该实施例一从服务端的角度，提供了一种提供商品信息的方法，参见图2，该方法具体可以包括：

S201：接收用户输入的第一语音内容。

其中，第一语音内容具体可以是在用户说出自己的购物需求过程中，对用户的说话内容进行音频信号采集而获得的。具体实现时，可以在商品信息服务系统的应用程序客户端中提供语音输入功能，其中，在面向视障人群等用户时，可以在客户端启动后，自动启动终端设备中的麦克风进入到语音信号采集状态，或者，在客户端启动后首先提供语音提示，“请说出你的购物需求”，然后启动终端设备中的麦克风并进入语音信号采集状态。或者，也可以在客户端首页等页面中提供相关的操作入口，例如，在搜索框附近提供语音输入选项，等等，用户可以通过该操作入口进入到基于AI交互的购物模式，等等。

客户端在接收到用户输入的第一语音内容后，可以提交到服务端，也就是说，服务端可以通过客户端间接的接收到用户输入的第一语音内容，进而可以通过调用具体的模型等进行处理，以便进行具体的处理并给出商品推荐结果。

S202：通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息。

在接收到用户输入的第一语音内容后，可以对第一语音内容进行自然语言理解，以获取用户的购物需求信息。具体实现时，可以直接对第一语音内容对应的音频信号进行自然语言理解，以获取用户的购物需求信息，或者，在另一种方式下，还可以首先将第一语音内容转换为通过自然语言表达的文本内容，然后，基于对该文本内容进行自然语言理解，获取用户的购物需求信息。也就是说，首先进行从语音内容到文本内容的转换，然后再对转换得到的文本内容进行自然语言理解。

其中，如前文所述，关于对上述文本内容进行自然语言理解的过程，可以通过普通的自然语言处理类的模型来完成，或者，还可以通过调用AI大模型的方式来实现。

另外，具体实现时，可能存在用户首次输入的第一语音内容对其购物需求描述的不够具体等情况，以至于难以进行精确的商品推荐。因此，针对这种情况，还可以根据所述用户输入的第一语音内容对应的自然语言理解结果，提供第三语音内容，以便通过所述第三语音内容与所述用户进行多轮对话的方式，获取关于所述购物需求的更多更详细或更具体的信息。其中，关于上述第三语音内容，同样可以通过调用AI大模型的方式来生成。

例如，假设用户输入的第一语音内容是：“我身高一米六，体重100斤，上半身偏瘦，身处于杭州，给我推荐适合夏天穿的衬衣”，此时，还可以通过AI大模型等方式生成对话文本内容，并转换成第三语音内容后进行输出，以便对用户更具体的需求进行询问。例如，具体的第三语音内容可以是：“请问您想要在什么场合穿着，比如通勤还是日常？”，这样，用户在听到这种语音内容后可以做出回答，例如，回答说：“我需要上班穿”；之后，还可以通过AI大模型继续提问：“好的，那么您喜欢修身一些的，还是比较廓形一些的？”，用户可以继续回答：“我喜欢廓形的”，等等。总之，可以通过上述方式进行多轮问答式交互，每一轮问答之后，都可以将新获取到的用户需求信息与之前已经获取到的信息融合，从而获取到更详细更具体的购物需求信息。

S203：通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容，所述文本内容用于描述关于所述推荐商品的推荐理由。

在理解了用户的购物需求信息后，由于通过自然语言方式描述的购物需求信息，可能是比较具体的、复杂的、描述了多方面需求的信息，在这种情况下，通常难以通过预先对商品进行打标并通过标签匹配的方式来进行准确的商品推荐，因此，在本申请实施例中，可以利用AI大模型的能力，实现将商品库中多个商品关联的多模态信息转化为对商品的理解，进而可以根据模型对商品的理解，确定出满足具体用户购物需求的至少一个推荐商品，同时，还可以生成通过自然语言表达的文本内容，这种文本内容可以用于描述关于所述推荐商品的推荐理由。

也就是说，在本申请实施例中，具体在进行商品推荐时，是通过AI大模型将商品关联的文本、图片、视频、用户评价等多模态的商品描述信息转化为模型对商品的理解，这样，再结合对用户购物需求的理解，可以给出更精确化的商品推荐结果。具体的，这种精确化的商品推荐结果中包括的推荐商品数量可以不必太多，减少用户在大量的推荐商品中继续选择时的操作成本。另外，除了可以给出商品推荐结果，考虑到视障人群、儿童等在文本阅读等方面可能存在障碍等情况，还可以生产出文本内容，该文本内容可以是在前述模型对商品的理解的基础上，由AI大模型进行创作生成的。这样，生产出的文本内容不是简单地罗列或者堆砌一些商品属性字段，而是具有连贯性、逻辑一致性、上下文的相关性，等等。这样生产出的文本内容具有便于用户理解的特点，因此，在向用户提供这种内容时，也可以降低用户对商品多模态信息的理解成本，从而更便于帮助用户做出购物决策。

例如，假设用户通过语音方式或者多轮对话等方式输入的购物需求信息包括：“我身高一米六，体重100斤，上半身偏瘦，身处于杭州，给我推荐适合夏天上班穿的衬衣。我不喜欢花哨的，喜欢简约一些的，廓形一点的，不喜欢太紧身”。之后，服务端可以通过调用AI大模型实现对上述内容的自然语言理解。在该过程中，AI大模型并不是仅从中提取出一些关键词等，然后与商品库中的商品具有的标签等进行匹配，而是扮演了“导购员”等角色，对用户表达的信息进行的理解，以便充分了解用户的购物需求，之后，再对商品进行推荐。其中，具体在对商品进行推荐时， AI大模型将商品的文本、图片、视频、直播、评论等多种模态的信息转化为对商品的理解，也即，AI大模型能够从商品的图片、视频等信息中，理解出商品的一些信息。例如，某服装类商品关联的某图片是海边等背景，则可能从图片中识别出某商品适合海边度假时穿着，等等。然后，可以基于模型对商品的理解，确定出具体的推荐商品。另外，还可以基于对商品的理解，能创造出关于推荐理由的文本内容，这种文本内容像是一个导购员在了解了顾客需求之后，选择出推荐的商品，并用自然语言对具体的商品为何适合该顾客进行介绍一样，而不仅仅是摘取或罗列商品的一些关键属性信息。例如，在前述例子中，AI大模型理解用户的购物需求后，可能会推荐出三款商品，并分别为这几件商品生成对应的文本内容，以表达出具体的推荐理由。例如，AI大模型生产出的文本内容可以是：“根据您的需求，我认为以下三款商品比较适合您：第一款，款式属于比较简单的廓形，正式又不失设计感，有白色和黄色两种颜色可选，有很多用户都说它很透气，适合在杭州夏天来穿，也很适合通勤，但是，这件衣服尺码偏大，根据您的身高体重，推荐您穿着S码；第二款……”。

S204：将所述文本内容转换为第二语音内容，以便通过所述第二语音内容提供关于所述推荐商品的信息。

在通过AI大模型等生产出上述文本内容之后，考虑到具体的用户可能是视障人群或者儿童等，因此，还可以将文本内容转换为第二语音内容，并返回给客户端进行输出。这样，对于用户而言，可以获取到在线下实体店铺中有导购员帮助其挑选商品的购物体验。

在具体实现时，在输出上述第二语音内容后，还可以通过对所述用户进一步提交的第四语音内容进行自然语言理解，以此获取到用户进一步的需求信息，并对所述进一步的需求进行处理后生成第五语音内容，通过这种方式与用户进行进一步的交互。

其中，具体用户进一步的需求信息可以包括：对所推荐的推荐商品中的指定商品进行详细介绍的需求，或者，针对所推荐的推荐商品中的指定商品完善交易链路的需求，等等。例如，假设在根据用户的需求信息推荐出三款商品，并对每件商品对应的推荐理由进行播放后，用户可能对其中第二件比较感兴趣，需要进一步了解该商品的更详细信息，包括价格、发货时间等等。此时，该用户可以继续通过语音的方式提出需求，例如，“给我详细介绍一下第二款，容易起皱吗，价格多少，什么时候能发货”，然后，可以进一步调用AI大模型等，来生产出用于回答该问题的文本内容，并转换成语音内容进行播放。例如，“好的，给您看了一下，这件衣服使用了特殊工艺，不容易起皱；价格方面，原价是××，现在可以享受××优惠，优惠后的价格是××；另外，这件衣服有现货，拍下之后48小时之内即可发货哦”，等等。之后，如果用户需要购买该商品，则可以通过语音方式提出该需求，例如：“好的，帮我拍下这件衣服吧，我要S码”，之后，可以触发下单流程，在下单流程中，也可以通过语音交互的方式向用户进行相关的收货地址、支付方式等信息的确认，等等。

这里需要说明的是，具体实现时，上述进一步的需求信息还可以包括：针对指定商品向客服人员发起咨询的需求。例如，用户可能需要由客服人员帮忙推荐码数，或者，确认某商品是否参加未来的某大型促销活动，等等。此时，还可以根据所述指定商品向对应的客服人员客户端转发咨询信息，然后，还可以根据所述客服人员客户端返回的答复内容，生成具体的文本内容，并转换成语音内容进行播放。例如，用户的进一步需求是：“帮我问一下客服，这件衣服会参加近期将会开始的××活动吗？”，客服回复后，则可以对客服回复的内容进行组织，并生产出文本内容，例如，具体可以为：“客服说，这件衣服会参加××活动，您可以等到活动开始之后再拍，或者现在拍下，活动开始之后可以退给您差价”，等等。

总之，在本申请实施例中，由于用户可以通过语音的方式以自然语言表达自己的购物需求，在推荐商品时，可以对用户的需求进行理解，同时还可以对商品的多模态信息转换为模型对商品的理解，并以此确定出满足所述购物需求的至少一个推荐商品，这样，可以实现基于用户输入的更复杂的购物需求，进行更精准的商品推荐。同时还可以生成通过自然语言表达的文本内容，所述文本内容用于描述关于所述推荐商品的推荐理由。进而，可以将所述文本内容转换为第二语音内容，以便通过所述第二语音内容提供关于所述推荐商品的信息。也即，可以对具体推荐商品的信息进行一些转译，在向用户提供商品推荐信息时，还可以提供这种转译后的文本内容对应的语音合成结果，从而可以降低用户对商品信息的理解成本。

需要说明的是，关于本申请实施例中涉及到的对语音内容的自然语言理解、推荐商品的确定、文本内容的生成、和/或从文本内容到语音内容的转换，都可以通过AI大模型来完成，或者，也可以分别通过普通算法模型来完成。当然，在使用AI大模型的情况下，可以获得更优的效果，并且，可以通过同一模型完成上述多项任务，而不需要分别针对不同的任务训练多个模型（例如，在使用普通算法模型的情况下，自然语言理解模型，语音合成模型等通常都对应着不同的模型，需要分别进行训练）。

实施例二

该实施例二是与实施例一相对应的，从客户端的角度，提供了一种提供商品信息的方法，参见图3，该方法具体可以包括：

S301：接收用户输入的第一语音内容；

S302：将所述第一语音内容提交到服务端，以便所述服务端通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息，通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容后转换为第二语音内容，所述文本内容用于描述关于所述推荐商品的推荐理由；

S303：通过播放所述第二语音内容提供关于所述推荐商品的信息。

实施例三

在前述实施例一、二中，主要针对视障人群或者儿童等用户，提供了帮助用户选择商品，或者完成购物等功能的实现方案。但在实际应用中，上述功能也可以为其他的普通用户所用。另外，对于普通用户而言，上述功能的实现也可以不依赖于语音交互，例如，具体输入购物需求时可以直接输入自然语言表达的文本内容，算法在返回推荐结果时，关于推荐理由的文本内容，也可以直接展示在界面中，而不需要进行语音合成。因此，在该实施例三中，还从服务端的角度，提供了一种提供商品信息的方法，参见图4，该方法具体可以包括：

S401：接收用户通过自然语言表达的第一文本内容；

S402：通过对所述第一文本内容进行自然语言理解，获取用户的购物需求信息；

S403：通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的第二文本内容，所述第二文本内容用于描述关于所述推荐商品的推荐理由；

S404：将所述至少一个推荐商品以及对应的所述第二文本内容返回给客户端进行展示。

通过该方式，使得用户可以通过自然语言表达自己的购物需求，而不是关键词等信息，因此，可以将自己的购物需求表达的更详细，从而便于实现更精准的商品推荐。但也正是由于用户表达的购物需求信息比较详细，且可能比较复杂，因此，难以通过传统的商品打标方式实现商品的匹配，因此，在本申请实施例中，在商品推荐时，可以采用将商品关联的多模态信息转化为模型对商品的理解的方式，来给出更准确的推荐商品信息。另外，还可以生产出通过自然语言表达的文本内容，以用于描述具体的推荐理由。该文本内容也可以是通过对具体商品多模态信息进行模型理解之后生产出来的，因此，相当于通过AI大模型等算法模型实现了对商品多模态信息的转译，用户可以通过这种转译后的信息，实现对商品信息更高效的浏览，同时降低用户的理解成本。

实施例四

该实施例四是与实施例三相对应的，从客户端的角度，提供了一种提供商品信息的方法，参见图5，该方法可以包括：

S501：接收用户通过自然语言表达的第一文本内容；

S502：将所述第一文本内容提交到服务端，以便所述服务端通过对所述第一文本内容进行自然语言理解，获取用户的购物需求信息，通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的第二文本内容，所述第二文本内容用于描述关于所述推荐商品的推荐理由；

S503：将所述服务端返回的所述至少一个推荐商品以及对应的所述第二文本内容进行展示。

关于上述实施例二至实施例四中的未详述部分内容，可以参见本申请实施例一以及本说明书中其他部分的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下（例如，用户明确同意，对用户切实通知，等），在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应，本申请实施例还提供了一种提供商品信息的装置，参见图6，该装置可以包括：

第一语音内容接收单元601，用于接收用户输入的第一语音内容；

自然语音理解单元602，用于通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息；

商品推荐及内容生成单元603，用于通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容，所述文本内容用于描述关于所述推荐商品的推荐理由；

第二语音内容生成单元604，用于将所述文本内容转换为第二语音内容，以便通过所述第二语音内容提供关于所述推荐商品的信息。

具体的，所述自然语音理解单元具体可以用于：

另外，该装置还可以包括：

第三语音内容提供单元，用于根据所述用户输入的第一语音内容对应的自然语言理解结果，提供第三语音内容，以便通过所述第三语音内容与所述用户进行多轮对话的方式，获取关于所述购物需求的更多信息。

再者，该装置还可以包括：

第五语音内容提供单元，用于在输出所述第二语音内容后，通过对所述用户进一步输入的第四语音内容进行自然语言理解，获取所述用户进一步的需求信息，并对所述进一步的需求进行处理后生成第五语音内容。

或者，所述进一步的需求信息包括：针对所述推荐商品中的指定商品，向客服人员发起咨询的需求；

此时，所述第五语音内容提供单元具体可以用于：

具体的，可以通过调用人工智能AI大模型，进行对所述第一语音内容的自然语言理解、推荐商品的确定、文本内容的生成、和/或从文本内容到所述第二语音内容的转换。

与实施例二相对应，本申请实施例还提供了一种提供商品信息的装置，参见图7，该装置可以包括：

第一语音内容接收单元701，用于接收用户输入的第一语音内容；

提交单元702，用于将所述第一语音内容提交到服务端，以便所述服务端通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息，通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的文本内容后转换为第二语音内容，所述文本内容用于描述关于所述推荐商品的推荐理由；

语音播放单元703，用于通过播放所述第二语音内容提供关于所述推荐商品的信息。

与实施例三相对应，本申请实施例还提供了一种提供商品信息的装置，参见图8，该装置可以包括：

第一文本内容接收单元801，用于接收用户通过自然语言表达的第一文本内容；

自然语言理解单元802，用于通过对所述第一文本内容进行自然语言理解，获取用户的购物需求信息；

推荐商品及文本内容生成单元803，用于通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的第二文本内容，所述第二文本内容用于描述关于所述推荐商品的推荐理由；

第二文本内容返回单元804，用于将所述至少一个推荐商品以及对应的所述第二文本内容返回给客户端进行展示。

与实施例四相对应，本申请实施例还提供了一种提供商品信息的装置，参见图9，该装置可以包括：

第一文本内容接收单元901，用于接收用户通过自然语言表达的第一文本内容；

提交单元902，用于将所述第一文本内容提交到服务端，以便所述服务端通过对所述第一文本内容进行自然语言理解，获取用户的购物需求信息，通过将商品库中多个商品关联的多模态的商品描述信息转化为对商品的理解，确定满足所述购物需求信息的至少一个推荐商品，并生成通过自然语言表达的第二文本内容，所述第二文本内容用于描述关于所述推荐商品的推荐理由；

展示单元903，用于将所述服务端返回的所述至少一个推荐商品以及对应的所述第二文本内容进行展示。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图10示例性的展示出了电子设备的架构，例如，设备1000可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，飞行器等。

参照图10，设备1000可以包括以下一个或多个组件：处理组件1002，存储器1004，电源组件1006，多媒体组件1008，音频组件1010，输入/输出（I/O）的接口1012，传感器组件1014，以及通信组件1016。

处理组件1002通常控制设备1000的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令，以完成本公开技术方案提供的方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在设备1000的操作。这些数据的示例包括用于在设备1000上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电源组件1006为设备1000的各种组件提供电力。电源组件1006可以包括电源管理系统，一个或多个电源，及其他与为设备1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在设备1000和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括一个前置摄像头和/或后置摄像头。当设备1000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括一个麦克风（MIC），当设备1000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中，音频组件1010还包括一个扬声器，用于输出音频信号。

I/O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为设备1000提供各个方面的状态评估。例如，传感器组件1014可以检测到设备1000的打开/关闭状态，组件的相对定位，例如所述组件为设备1000的显示器和小键盘，传感器组件1014还可以检测设备1000或设备1000一个组件的位置改变，用户与设备1000接触的存在或不存在，设备1000方位或加速/减速和设备1000的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1016被配置为便于设备1000和其他设备之间有线或无线方式的通信。设备1000可以接入基于通信标准的无线网络，如WiFi，或2G、3G、4G/LTE、5G等移动通信网络。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，设备1000可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1004，上述指令可由设备1000的处理器1020执行以完成本公开技术方案提供的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的提供商品信息的方法及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种提供商品信息的方法，其特征在于，包括：

接收用户输入的第一语音内容；

2.根据权利要求1所述的方法，其特征在于，

所述通过对所述第一语音内容进行自然语言理解，获取用户的购物需求信息，包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，

所述进一步的需求信息包括：对所述推荐商品中的指定商品进行详细介绍的需求，或者，针对所述推荐商品中的指定商品完善交易链路的需求。

6.根据权利要求4所述的方法，其特征在于，

所述进一步的需求信息包括：针对所述推荐商品中的指定商品，向客服人员发起咨询的需求；

7.根据权利要求1至5任一项所述的方法，其特征在于，

通过调用人工智能AI大规模参数模型，进行对所述第一语音内容的自然语言理解、推荐商品的确定、文本内容的生成、和/或从文本内容到所述第二语音内容的转换。

8.一种提供商品信息的方法，其特征在于，包括：

接收用户输入的第一语音内容；

通过播放所述第二语音内容提供关于所述推荐商品的信息。

9.一种提供商品信息的方法，其特征在于，包括：

接收用户通过自然语言表达的第一文本内容；

10.一种提供商品信息的方法，其特征在于，包括：

接收用户通过自然语言表达的第一文本内容；

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10任一项所述的方法的步骤。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10任一项所述的方法的步骤。