CN117316470A

CN117316470A - 基于数字人的人机交互方法、装置、电子设备及存储介质

Info

Publication number: CN117316470A
Application number: CN202311233578.7A
Authority: CN
Inventors: 袁艺; 李凡; 张二义
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-29

Abstract

本公开提供了一种基于数字人的人机交互方法、装置、电子设备及存储介质，涉及人工智能领域。具体实现方案为：响应于用户的提问信息，确定与所述提问信息对应的回应文本信息；其中，所述提问信息表征用户针对目标对象所提出的问题，所述回应文本信息表征针对提问信息所表征的问题的回复答案；对所述回应文本信息进行文本分析处理，得到数字人播报信息；其中，所述数字人播报信息包括数字人的语音信息、动作信息以及表情信息中的至少一项；基于预设的数字人形象，播报所述数字人播报信息。实现了通过数字人，灵活、便捷、直观地为用户提供问题的回复答案，提升用户的人机交互体验。

Description

基于数字人的人机交互方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能领域中的人机交互领域，尤其涉及一种基于数字人的人机交互方法、装置、电子设备及存储介质。

背景技术

随着终端设备的发展，人们常常需要通过终端设备来获取信息。终端设备可以为用户提供用户提出的问题的回复答案。

进而，亟需一种可以灵活、便捷、直观地为用户提供回复答案的方法，以提高用户的体验。

发明内容

本公开提供了一种基于数字人的人机交互方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种基于数字人的人机交互方法，包括：

响应于用户的提问信息，确定与所述提问信息对应的回应文本信息；其中，所述提问信息表征用户针对目标对象所提出的问题，所述回应文本信息表征针对提问信息所表征的问题的回复答案；

对所述回应文本信息进行文本分析处理，得到数字人播报信息；其中，所述数字人播报信息包括数字人的语音信息、动作信息以及表情信息中的至少一项；

基于预设的数字人形象，播报所述数字人播报信息。

根据本公开的第二方面，提供了一种基于数字人的人机交互装置，包括：

确定模块，用于响应于用户的提问信息，确定与所述提问信息对应的回应文本信息；其中，所述提问信息表征用户针对目标对象所提出的问题，所述回应文本信息表征针对提问信息所表征的问题的回复答案；

分析模块，用于对所述回应文本信息进行文本分析处理，得到数字人播报信息；其中，所述数字人播报信息包括数字人的语音信息、动作信息以及表情信息中的至少一项；

播报模块，用于基于预设的数字人形象，播报所述数字人播报信息。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开第一方面所述方法的步骤。

根据本公开的技术，提供了一种可以灵活、便捷、直观地为用户提供回复答案的方法，提高了用户的人机交互体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种基于数字人的人机交互方法的流程示意图；

图2是本公开实施例提供的一种基于数字人的人机交互方法的流程示意图；

图3是本公开实施例提供的一种基于数字人的人机交互方法的流程示意图；

图4是本公开实施例提供的可视化界面的示意图；

图5是本公开实施例提供的一种基于数字人的人机交互方法的流程示意图；

图6是本公开实施例提供的一种基于数字人的人机交互装置的结构框图；

图7是本公开实施例提供的一种基于数字人的人机交互装置的结构框图；

图8是用来实现本公开实施例的基于数字人的人机交互方法的电子设备的框图；

图9是用来实现本公开实施例的基于数字人的人机交互方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

用户在使用终端设备的过程中，常常需要通过终端设备获取目标对象的相关信息，例如，可以获取各种药品、家用电器、日用品等目标对象的说明书，从而方便对目标对象进行使用。

以获取药品说明书为例，目前的相关技术中，用户在获取药品的说明书时，终端设备将药品说明书的文字进行朗读和显示。这种方式可以解决有阅读障碍的用户无法阅读用药说明的问题，但只是将说明书上的文字念出来。若用户对阐述专业的医学术语、不易理解的词语、或用药规则等提出疑问，则无法进行解答，缺少答疑环节，用户只能通过寻求专业人士或医院挂号的方式才能解决。即，无法灵活、便捷、直观地为用户提供问题的答案，用户的体验感较差。

本公开提供一种基于数字人的人机交互方法、装置、电子设备及存储介质，应用于人工智能领域中的人机交互领域，以实现灵活、便捷、直观地为用户提供回复答案，提高用户的体验。

需要说明的是，本实施例中的模型并不是针对某一特定用户，并不能反映出某一特定用户的个人信息。需要说明的是，本实施例中的数据来自于公开数据集。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

为使读者更深刻地理解本公开的实现原理，现结合以下图1-图9对实施例进行进一步细化。

图1为根据本公开实施例提供的一种基于数字人的人机交互方法的流程示意图，该方法可以由一种基于数字人的人机交互装置执行。如图1所示，该方法包括以下步骤：

S101、响应于用户的提问信息，确定与提问信息对应的回应文本信息；其中，提问信息表征用户针对目标对象所提出的问题，回应文本信息表征针对提问信息所表征的问题的回复答案。

示例性地，用户通过终端设备发出提问信息，例如，用户可以通过语音或文字等形式输入提问信息。提问信息是用户针对目标对象所提出的问题，目标对象是具有说明书的物体，例如，目标对象可以是药品、家用电器、化妆品等。以目标对象是药品A为例，用户所提处的问题可以是药品A服用后的不良反正是什么、药品A的成分是什么、或药品A的适用人群是什么等等。

不同的提问信息可以对应不同的回应文本信息，回应文本信息是指针对提问信息所表征的问题的回复答案。即，用户通过发出提问信息来提出问题，回应文本信息为用户所提出的问题的答案。回应文本信息是目标对象的说明书中的内容，即，可以从目标对象的说明书中查找到对应的回应文本信息。

响应到用户的提问信息，确定与该提问信息对应的回应文本信息。例如，可以预设不同的提问信息与回应文本信息之间的关联关系，根据预设的关联关系，查找与提问信息对应的回应文本信息。

提问信息可以对应有一个问题，也可以对应有多个问题。即，用户在向终端设备输入提问信息时，可以一次输入一个问题的提问信息，也可以一次输入多个问题的提问信息。用户在输入多个问题的提问信息时，各问题之间可以采用预设的符号间隔开，例如，可以用逗号、问号、顿号等进行间隔。响应用户的提问信息，根据预设的间隔符号，获取到各个问题。对于每一个问题，都可以确定对应的回应文本信息。例如，用户的提问信息为“我想知道药物A怎么吃？吃了以后会不会有什么不良反应？”，则可以确定出“我想知道药物A怎么吃？”的回应文本信息，以及“吃了以后会不会有什么不良反应？”的回应文本信息。

S102、对回应文本信息进行文本分析处理，得到数字人播报信息；其中，数字人播报信息包括数字人的语音信息、动作信息以及表情信息中的至少一项。

示例性地，回应文本信息是目标对象的说明书中的文本内容，说明书中可能存在专业的医学术语等用户不易理解的语句。因此，在得到回应文本信息后，可以对回应文本信息进行文本分析处理，得到更易于用户理解的数字人播报信息。数字人播报信息可以包括数字人的语音信息、动作信息以及表情信息等中的至少一项。语音信息是指数字人所播放的语音，动作信息是指数字人的手势动作，表情信息是指数字人的面部表情。

对于不同的回应文本信息，数字人可以采用不同的语气、动作或表情来播放对应的回应文本信息。例如，回应文本信息为“过敏人群禁止服用本药物”，则数字人的表情信息和语气信息可以为严肃的表情和语气，动作信息可以是摆手的动作；回应文本信息为“该药物在餐后服用”，则数字人的表情信息和语气信息可以为平和的表情和语气。

本实施例中，可以采用预设的神经网络模型来对回应文本信息进行文本分析处理。例如，可以采用NLP(Natural Language Processing，自然语言处理)模型来进行文本分析。本实施例对预设的神经网络模型的模型结构不做具体限定。

S103、基于预设的数字人形象，播报数字人播报信息。

示例性地，预先设置数字人的形象，例如，可以设置数字人的性别、发型、着装和五官等，还可以预先设置数字人的声音。在得到数字人播报信息后，可以通过数字人形象，播报数字人播报信息。例如，可以采用预设的数字人的声音来阅读回应文本信息对应的语音信息、通过动作信息改变数字人的手势、以及通过表情信息改变数字人的面部表情。例如，动作信息为摆手的动作，预先存储摆手的动作所对应的手部的运动轨迹，按照预设的手部的运动轨迹，实现数字人的手部动作改变。

本实施例中，基于预设的数字人形象，播报数字人播报信息，包括：根据用户对数字人形象的选定操作，确定用户所选定的数字人形象；通过用户所选定的数字人形象，在可视化界面上显示动作信息对应的动作和表情信息对应的表情，并播放语音信息。

具体的，可以预先设置多种数字人形象，用户在进行人机交互时，可以对数字人形象进行选择。例如，用户可以通过终端设备的可视化界面看到各种数字人形象，选定其中一个数字人形象，实现通过用户选定的数字人形象，来播报数字人播报信息。

用户可以对某一个数字人形象做出选定操作，例如，用户可以点击一个数字人形象，表示选定了该数字人形象。根据用户对数字人形象的选定操作，确定用户所选定的数字人形象。在可视化界面上显示用户选定的数字人形象，根据数字人播报信息对应的表情信息和动作信息，改变该数字人形象的表情和动作。并采用预设的该数字人形象的声音，播放数字人播报信息的语音信息。

这样设置的有益效果在于，用户可以选择不同的数字人形象，将动作与表情通过数字人进行表现，实现对回应文本信息的灵活和直观展示，提升用户的人机交互体验。

本实施例中，该方法还包括：根据预设的文本滚动速度，在可视化界面的预设区域内，对回应文本信息进行滚动式播放。

具体的，回应文本信息可以以语音的形式播放出来，也可以以文本的形式显示在终端设备的可视化界面上。回应文本信息可以在可视化界面的预设区域内进行播放。例如，可以预设一个会话框区域，会话框区域用于显示提问信息和回应文本信息。

由于预设区域的大小有限，回应文本信息可能不能全部显示在预设区域内。可以预设文本滚动速度，文本滚动速度是指回应文本信息的文字在预设区域内的滚动速度。回应文本信息可以显示为多行文本，文本滚动速度可以是行的滚动速度，使回应文本信息可以从第一行开始依次出现在预设区域内。例如，文本滚动速度为2秒/行，即每两秒钟移动一行文本。文本滚动速度可以预先设定，可以与语音的播放速度相关，使预设区域内显示的文本是数字人当前播放的语音所对应的文本。

这样设置的有益效果在于，对回应文本信息进行滚动式播报，使用户可以随着语音的播放看到全部的回应文本信息，避免预设区域较小，影响对回应文本信息展示的问题，帮助用户更方便快捷地获取问题的回复答案，提升用户体验。

本公开实施例通过响应用户的提问信息，确定与提问信息对应的回应文本信息，可以实现用户与终端设备之间的答疑。用户可以根据实际情况提出问题，得到问题的回复答案，即回应文本信息。通过对回应文本信息进行文本分析处理，得到数字人播报信息，数字人播报信息可以包括语音信息、动作信息以及表情信息等多种形式的信息，通过数字人形象播报这些信息。解决了物品说明书字小且不易理解的问题，以及有阅读障碍人群无法阅读说明书的问题。在用户有疑问时，通过人机交互获得有价值的解答，帮助用户更方便快捷的获取答案，实现了一种可以灵活、便捷、直观地为用户提供回复答案的方式，提高用户的体验。

图2为本公开实施例提供的一种基于数字人的人机交互方法的流程示意图，该实施例是在上述实施例基础上的可选实施例。

本实施例中，响应于用户的提问信息，确定与提问信息对应的回应文本信息，可细化为：响应于用户的提问信息，基于目标对象所匹配的预设结构化数据，确定与提问信息对应的回应文本信息；其中，预设结构化数据表征目标对象的解释文本信息对应的结构化数据，预设结构化数据的格式为键值对的格式，预设结构化数据表征提问信息与回应文本信息之间的关系，解释文本信息表征对目标对象的解释说明的文本。

如图2所示，该方法包括以下步骤：

S201、响应于用户的提问信息，基于目标对象所匹配的预设结构化数据，确定与提问信息对应的回应文本信息；其中，预设结构化数据表征目标对象的解释文本信息对应的结构化数据，预设结构化数据的格式为键值对的格式，预设结构化数据表征提问信息与回应文本信息之间的关系，解释文本信息表征对目标对象的解释说明的文本。

示例性地，用户通过终端设备输入语音或文本形式的提问信息，对目标对象的使用方法或注意事项等发起提问。响应于用户的提问信息，确定用户所提出的问题。获取与目标对象所匹配的预设结构化数据，根据该预设结构化数据，确定与提问信息对应的回应文本信息。预设结构化数据的格式可以是键值对的格式，即为KV(Key-Value，关键字-键值)结构。预设结构化数据是目标对象的解释文本信息对应的结构化数据，表征提问信息与回应文本信息之间的关系。解释文本信息是对目标对象进行解释说明的文本，即，为目标对象的说明书的文本。

将目标对象的解释文本信息转换为KV结构的结构化数据，KV结构中的Key是用户针对解释文本信息可能提出的提问信息，Value是提问信息对应的回复答案，即回应文本信息。从解释文本信息中提取出用户可能提出的问题，并从解释文本信息中确定该问题的答案，将问题和答案关联为结构化数据进行存储。当响应到用户的提问信息后，从结构化数据中查找与用户的提问信息对应的回应文本信息。

用户可以针对某目标对象，根据实际需求进行提问。根据用户的提问信息，可以确定出与提问信息对应的回应文本信息，而不是将全部的说明书展示给用户。通过预设的结构化数据，可以快速找到回应文本信息，解决了只能对说明书整体进行播报的问题，实现对用户的问题进行答疑，便于用户对说明书进行理解，提升用户的体验感。

本实施例中，该方法还包括：响应于用户发起的咨询请求，确定咨询请求所指示的目标对象的标识信息；其中，咨询请求表征用户对目标对象进行咨询；获取与标识信息对应的目标对象所匹配的预设结构化数据。

具体的，用户在发出提问信息时，可以是针对某一目标对象进行咨询。用户可以通过终端设备发起咨询请求，咨询请求是指用户对目标对象的说明书进行咨询。咨询请求中可以包括提问信息，也可以不包括提问信息。例如，用户可以先发起咨询请求，表明要对目标对象进行咨询，再输入提问信息进行提问。

咨询请求可以指示对某目标对象进行咨询，即，可以根据咨询请求，确定用户想要咨询的目标对象。目标对象可以采用标识信息进行表示，每一个目标对象对应有唯一的标识信息。例如，标识信息可以是目标对象的名称、编码等。在响应到咨询请求后，可以确定咨询请求所指示的目标对象的标识信息。例如，咨询请求中含有标识信息，可以直接对咨询请求进行解析，得到标识信息。

不同目标对象对应有不同的预设结构化数据，在确定标识信息后，可以获取与该标识信息对应的预设结构化数据，即得到与该标识信息对应的目标对象所匹配的预设结构化数据。例如，预先确定各个对象的预设结构化数据，将各个标识信息与对应的结构化数据进行关联存储，在确定咨询请求的标识信息后，根据预设的关联关系，找到匹配的结构化数据。

这样设置的有益效果在于，用户可以根据实际需求对不同的目标对象进行咨询，通过确定标识信息，可以精确找到对应的结构化数据，从而可以根据结构化数据确定回应文本信息，提高答复问题的针对性和精确性。

本实施例中，响应于用户发起的咨询请求，确定咨询请求所指示的目标对象的标识信息，包括：响应于用户发出的咨询请求，从咨询请求中获取目标对象的图像；其中，咨询请求中携带有目标对象的图像；从目标对象的图像中识别出目标对象的标识信息；或者，响应于用户发出的咨询请求，从咨询请求中获取目标对象的标识信息；其中，咨询请求为文本信息或者语音信息，咨询请求中写携带有目标对象的标识信息。

具体的，用户在发起咨询请求时，可以上传目标对象的图像，例如，用户可以通过拍摄药盒封面，得到封面图像。咨询请求中可以包括目标对象的图像。在响应到用户发出的咨询请求后，可以从咨询请求中获取目标对象的图像。根据预设的图像识别算法，从目标对象的图像中识别出目标对象的标识信息。例如，可以识别出图像中的二维码或物品名称等作为标识信息。本实施例中，对预设的图像识别算法不做具体限定。

或者，用户在发起咨询请求时，直接将目标对象的标识信息发给终端设备，即咨询请求中可以包括目标对象的标识信息。在响应到用户发出的咨询请求后，可以从咨询请求中获取目标对象的标识信息。咨询请求可以是文本信息或者语音信息，例如，用户可以通过键盘输入目标对象的名称或编码等标识信息，也可以通过语音输入目标对象的标识信息。

这样设置的有益效果在于，用户在发起咨询请求后，可以根据咨询请求确定标识信息，从而针对目标对象为用户进行答复。用户发起咨询请求的形式可以有多种，提高人机交互的灵活性，提升用户的体验感。

本实施例中，获取与标识信息对应的目标对象所匹配的预设结构化数据，包括：根据预设的标识信息与解释文本信息之间的关联关系，确定与咨询请求所指示的目标对象的标识信息对应的解释文本信息，为目标解释文本；对目标解释文本进行数据结构的转换处理，得到与标识信息对应的目标对象所匹配的预设结构化数据。

具体的，预先对各个对象的说明书进行存储，即存储各个对象的解释文本信息。一个标识信息可以对应有自己的解释文本信息，预先设置标识信息与解释文本信息之间的关联关系。在确定目标对象的标识信息后，可以根据预设的关联关系，确定与标识信息对应的解释文本信息。将确定出的解释文本信息，确定为目标解释文本。

目标解释文本表示说明书整体的文本内容，需要将目标解释文本转换为预设数据结构的结构化数据。可以通过预设的大语言模型，对目标解释文本进行数据结构的转换处理，得到KV结构的结构化数据。一个目标解释文本可以转换出多个KV结构，将目标解释文本对应的所有的KV结构，确定为标识信息对应的结构化数据。大语言模型还可以将阐述专业的目标解释文本转换为通俗易懂的语言，使结构化数据中的Value更易于理解。本实施例中，对大语言模型的模型结构不做具体限定。

这样设置的有益效果在于，确定对应的目标解释文本，将目标解释文本转换为结构化数据，便于后续根据结构化数据为用户进行答疑，用户更容易对说明书进行理解，可以更灵活、便捷、直观地为用户提供回复答案。

本实施例中，对目标解释文本进行数据结构的转换处理，得到与标识信息对应的目标对象所匹配的预设结构化数据，包括：对目标解释文本进行拆分处理，得到至少一个文本块；其中，文本块用于表示目标解释文本中局部的文本内容；将文本块对应的文本内容确定为问题的回复答案，对文本块对应的文本内容进行语义分析处理，得到文本块对应的问题；根据文本块对应的文本内容和文本块对应的问题，确定文本块对应的键值对结构；其中，键值对结构中的关键字为文本块对应的问题，键值对结构中的键值为文本块对应的文本内容；将目标解释文本的所有文本块对应的键值对结构，确定为与标识信息对应的目标对象所匹配的预设结构化数据。

具体的，在得到目标解释文本后，可以基于预设的大语言模型，生成与目标解释文本对应的结构化数据。大语言模型可以对目标解释文本进行语义分析等处理，例如，可以对目标解释文本进行拆分处理，将目标解释文本拆为多个部分，一个部分为一个文本块，可以得到至少一个文本块。文本块可以用于表示目标解释文本中局部的文本内容，例如，目标解释文本中的一个段落为一个文本块。

将文本块对应的文本内容确定为问题的回复答案，根据问题的回复答案推导出对应的问题。即，可以通过预设的大语言模型，对文本块对应的文本内容进行语义分析处理，得到文本块对应的问题。例如，文本块的文本内容是药物服用的注意事项，则可以确定出该文本块对应的问题是“药物服用时的注意事项是什么”。

根据文本块对应的文本内容和文本块对应的问题，确定该文本块对应的键值对结构。键值对结构中的Key为文本块对应的问题，键值对结构中的Value为文本块对应的文本内容。一个目标解释文本可以拆分出多个文本块，即可以得到多个KV结构。将目标解释文本的所有文本块对应的KV结构，确定为与标识信息对应的目标对象所匹配的预设结构化数据。

可以在响应到用户的咨询请求后，生成对应的结构化数据，也可以预先生成各个对象的结构化数据，在响应到咨询请求后，查找与标识信息对应的结构化数据。若响应到用户的咨询请求后生成目标对象对应的结构化数据，则可以对生成的结构化数据进行存储，后续若再对目标对象进行咨询，则可以直接获取已经生成的结构化数据，提高人机交互的效率。

这样设置的有益效果在于，对目标解释文本进行拆解，拆解出的每一部分都是一个问题的答案。分析答案得到对应的问题，将问题作为Key，答案作为Value，便于后续对用户提出的不同问题进行针对性解答，提高人机交互的效率，提升用户的人机交互体验。

本实施例中，基于目标对象所匹配的预设结构化数据，确定与提问信息对应的回应文本信息，包括：将提问信息确定为关键字，若预设结构化数据中存在与提问信息对应的键值，则将与提问信息对应的键值确定为与提问信息对应的回应文本信息。

具体的，在确定预设的结构化数据后，可以从咨询请求中获取用户的提问信息，也可以接收用户新发出的提问信息。在接收到用户的提问信息后，从预设的结构化数据中，查找与提问信息对应的回应文本信息。

可以将提问信息作为Key，从预设结构化数据中查找是否存在与提问信息对应的Value，若是，则将与提问信息对应的Value确定为与提问信息对应的回应文本信息；若否，则确定预设结构化数据中不存在提问信息的回复答案，可以在终端设备的可视化界面上向用户发出提示信息，提示用户没有答案，或提示用户换一个问题。

在查找预设结构化数据中是否存在与提问信息对应的Value时，可以将提问信息与预设结构化数据中的各个Key进行比对，判断预设结构化数据中是否存在Key与提问信息一致。若是，则确定该Key对应的Value为与提问信息对应的Value。也可以计算提问信息与预设结构化数据中的各个Key的相似度，若相似度超过预设的相似度阈值，则认为提问信息与预设结构化数据中的Key一致，或者将最高相似度所对应的Key，确定为与提问信息一致的Key。本实施例中，可以采用预设的NLP算法来对提问信息进行分析，从而确定提问信息与预设结构化数据中的各个Key的相似度。

这样设置的有益效果在于，通过结构化数据进行查找，可以实现对用户提出的不同问题进行答疑，提高人机交互的灵活性以及回复答案的精确性。

本实施例中，该方法还包括：若预设结构化数据中不存在与提问信息对应的键值，则对提问信息进行联网查询，得到与提问信息对应的回应文本信息。

具体的，若预设结构化数据中不存在与提问信息对应的Value，则确定无法根据预设结构化数据为用户提供回应文本信息。可以向用户发出提示信息，告知用户无法得到答案，也可以针对用户的提问信息进行联网查询，将联网查询的结果确定为回应文本信息。例如，可以基于医典等大数据的支持来回答问题。可以从预设的数据库中查找与提问信息相匹配的信息，作为回应文本信息。

这样设置的有益效果在于，若没有对应的Value，则进行联网查询，确保能够为用户提供答案，帮助用户更方便快捷的获取用药说明等相关信息，提升用户的体验感。

S202、对回应文本信息进行文本分析处理，得到数字人播报信息；其中，数字人播报信息包括数字人的语音信息、动作信息以及表情信息中的至少一项。

示例性地，本步骤可以参见上述步骤S102，不再赘述。

S203、基于预设的数字人形象，播报数字人播报信息。

示例性地，本步骤可以参见上述步骤S103，不再赘述。

本公开实施例通过响应用户的提问信息，确定与提问信息对应的回应文本信息，可以实现用户与终端设备之间的答疑。用户可以根据实际情况提出问题，得到问题的回复答案。通过对回应文本信息进行文本分析处理，得到数字人播报信息，数字人播报信息可以包括语音信息、动作信息以及表情信息等多种形式的信息，通过数字人形象播报这些信息。解决了物品说明书字小且不易理解的问题，以及有阅读障碍人群无法阅读说明书的问题。在用户有疑问时，通过人机交互获得有价值的解答，帮助用户更方便快捷的获取答案，实现了一种可以灵活、便捷、直观地为用户提供回复答案的方式，提高用户的体验。

图3为本公开实施例提供的一种基于数字人的人机交互方法的流程示意图，该实施例是在上述实施例基础上的可选实施例。

本实施例中，该方法可追加：确定当前播放的语音信息所对应的语言单元；在可视化界面的预设区域内，采用预设的阅读标识对当前播放的语音信息所对应的语言单元进行标记处理。

如图3所示，该方法包括以下步骤：

S301、响应于用户的提问信息，确定与提问信息对应的回应文本信息；其中，提问信息表征用户针对目标对象所提出的问题，回应文本信息表征针对提问信息所表征的问题的回复答案。

示例性地，本步骤可以参见上述步骤S101，不再赘述。

S302、对回应文本信息进行文本分析处理，得到数字人播报信息；其中，数字人播报信息包括数字人的语音信息、动作信息以及表情信息中的至少一项。

示例性地，数字人播报信息可以包括语音信息、动作信息和表情信息。回应文本信息为文本形式的信息，即，可以将文本形式的信息转换为语音信息、动作信息和表情信息。对回应文本信息进行文本分析处理，可以是基于预设的NLP模型对回应文本信息进行语义分析等处理，得到动作信息和表情信息，以及对回应文本信息进行TTS(Text To Speech，从文本到语音)处理，得到语音信息。

本实施例中，数字人播报信息为语音信息；对回应文本信息进行文本分析处理，得到数字人播报信息，包括：对回应文本信息进行分词处理，将回应文本信息分割为至少一个语言单元；其中，语言单元表征回应文本信息中的局部文本；对语言单元进行文本到语音的转换处理，得到与回应文本信息对应的语音信息。

具体的，在确定回应文本信息对应的语音信息时，可以对回应文本信息进行分词处理，即，对回应文本信息进行切割。将回应文本信息分割为至少一个语言单元，语言单元表征回应文本信息中的局部文本，是回应文本信息在切割后的一个部分。例如，可以根据预设的NLP模型，对回应文本信息进行语义分析，确定回应文本信息中的词语，将回应文本信息切割为单个的词语，每个分割出来的词语为一个语言单元，回应文本信息可以切割出多个语言单元。

在得到语言单元后，对每个语言单元进行TTS的转换处理，即，将语言单元的文本转换为音频数据。各个语言单元的音频数据按照顺序相连，得到与回应文本信息对应的语音信息。

这样设置的有益效果在于，将文本内容切割为TTS的语言单元，便于确定每一个语言单元的语音，从而得到完整的回应文本信息的语音，提高语音信息的确定效率和精度。

本实施例中，数字人播报信息为动作信息；对回应文本信息进行文本分析处理，得到数字人播报信息，包括：对语言单元进行语义分析，确定语言单元的情感信息；其中，情感信息表征语言单元所表达的情感；根据预设的情感信息与动作信息之间的关联关系，确定与语言单元的情感信息对应的动作信息，为与回应文本信息对应的动作信息。

具体的，对于不同的回应文本信息，数字人可以做出不同的动作。不同的动作可以用于表示不同的情绪，数字人通过展示动作，可以帮助用户理解回应文本信息所表达的含义。

在确定回应文本信息对应的动作信息时，可以对语言单元进行语义分析，例如，可以采用预设的NLP进行语义分析。语义分析可以包括情感分析，即，可以确定语言单元的情感信息。情感信息可以表示语言单元所表达的情感，例如，语言单元对应的情感信息可以是较为严肃的情绪，或较为轻松的情绪。情感信息可以是表示情感的情感标识，例如，情感信息为01，表示严肃的情绪；情感信息为02，表示轻松的情绪。

预先设置情感信息与动作信息之间的关联关系，在确定语言单元对应的情感信息后，可以根据预设的关联关系，确定与语言单元的情感信息对应的动作信息。将所有语言单元的动作信息，确定为与回应文本信息对应的动作信息。例如，回应文本信息中的一个语言单元为“禁止饮酒”，该语言单元所表达的情绪较为严肃，对应的动作信息可以是摆手的动作。

这样设置的有益效果在于，分析回应文本信息的内容，根据内容分析出语句情感，得到对应的动作信息，使用户可以更直观地理解回应文本信息，提升用户的体验感。

本实施例中，数字人播报信息为表情信息；对回应文本信息进行文本分析处理，得到数字人播报信息，包括：根据预设的情感信息与表情信息之间的关联关系，确定与语言单元的情感信息对应的表情信息，为与回应文本信息对应的表情信息。

具体的，表情信息用于表示数字人的面部表情，对于不同的回应文本信息，数字人可以做出不同的表情。不同的表情可以用于表示不同的情绪，数字人通过展示表情，可以帮助用户理解回应文本信息所表达的含义。

在确定回应文本信息对应的表情信息时，可以对语言单元进行语义分析，例如，可以采用预设的NLP进行语义分析。语义分析可以包括情感分析，即，可以确定语言单元的情感信息。情感信息可以表示语言单元所表达的情感，例如，语言单元对应的情感信息可以是较为严肃的情绪，或较为轻松的情绪。情感信息可以是表示情感的情感标识，例如，情感信息为01，表示严肃的情绪；情感信息为02，表示轻松的情绪。

预先设置情感信息与表情信息之间的关联关系，在确定语言单元对应的情感信息后，可以根据预设的关联关系，确定与语言单元的情感信息对应的表情信息。将所有语言单元的动作信息，确定为与回应文本信息对应的表情信息。例如，回应文本信息中的一个语言单元为“禁止饮酒”，该语言单元所表达的情绪较为严肃，对应的表情信息可以是皱眉的表情。

这样设置的有益效果在于，分析回应文本信息的内容，根据内容分析出语句情感，得到对应的表情信息，使用户可以更直观地理解回应文本信息，提升用户的体验感。

S303、基于预设的数字人形象，播报数字人播报信息。

示例性地，本步骤可以参见上述步骤S103，不再赘述。

采用预设的数字人的声音，播报语音信息，以及采用预设的数字人的外貌形象，播放数字人四肢的动作信息和面部的表情信息。语音信息、动作信息、以及表情信息的播放时间相互对应，当播放到某个语言单元时，数字人做出相应的动作和表情，便于用户更好地理解。

S304、确定当前播放的语音信息所对应的语言单元；在可视化界面的预设区域内，采用预设的阅读标识对当前播放的语音信息所对应的语言单元进行标记处理。

示例性地，在通过数字人形象播报数字人播报信息时，可以实时确定当前播放的语音信息所对应的语言单元，即，确定当前播放的语音是哪个语言单元。

在可视化界面上设计有一个预设区域，用于显示回应文本信息。预先设置阅读标识，实时改变阅读标识在预设区域中的位置，使阅读标识始终跟随当前播放的语言单元。例如，阅读标识可以是矩形框或高亮标识。以高亮标识为例，当前播放的语言单元可以在预设区域内高亮展示，使用户可以直观地看到当前的播放进度。回应文本信息可以在预设区域内滚动播放，当前播报的文本内容始终高亮显示在屏幕上，帮助用户更方便快捷地获取提问信息的回复答案，提升用户进行人机交互的体验感。

图4为本实施例提供的可视化界面的示意图。图4中，用户提出的提问信息为“吃药物A的注意事项是什么”，回应文本信息为“需要按时按量用药，不能随意停药或改变药剂用量。饮食方面，要避免喝酒，因为可能导致恶心、无力的症状，影响药效，甚至出现乳酸性中毒的风险”。其中，“需要按时按量用药，不能随意停药或改变药剂用量”在界面显示为加粗以及有下划线，加粗和下划线为预设的阅读标识，表示当前播放的语音为“需要按时按量用药，不能随意停药或改变药剂用量”。

图5为本公开实施例提供的一种基于数字人的人机交互方法的流程示意图，该实施例是在上述实施例基础上的可选实施例。

本实施例中，目标对象为药品，解释文本信息为药品说明书；响应于用户的提问信息，基于目标对象所匹配的预设结构化数据，确定与提问信息对应的回应文本信息，可细化为：响应于用户针对药品发出的提问信息，确定药品的药品标识；其中，药品标识用于表征药品；获取与药品标识对应的药品说明书；根据与药品标识对应的药品说明书，确定与药品所匹配的预设结构化数据；根据与药品所匹配的预设结构化数据，确定与提问信息对应的回应文本信息。

如图5所示，该方法包括以下步骤：

S501、响应于用户针对药品发出的提问信息，确定药品的药品标识；其中，药品标识用于表征药品。

示例性地，用户可以针对某药品进行咨询，例如，用户对某药品的使用说明不太清楚，则可以针对该药品提出提问信息。提问信息中可以包括药品的药品标识，每中药品可以对应有唯一的药品标识，例如，药品标识可以是药品名称。

响应到用户发出的提问信息，从提问信息中获取药品的药品标识。例如，用户发出的提问信息为“药品A的服用方式是什么”，则可以得到药品标识为“药品A”。

本实施例中，确定药品的药品标识，包括：获取用户上传的药品的药盒封面图像；根据预设的图像识别算法，从药盒封面图像中识别出药品名称，将药品名称确定为药品的药品标识。

具体的，用户在发出提问信息时，可以采用终端设备上的摄像头对药品的药盒封面进行拍照，得到药盒封面图像，在发出提问信息时上传该药盒封面图像。

在响应到用户针对药品的提问信息后，获取用户上传的药品的药盒封面图像。药盒封面图像中含有药品的药品标识，例如，药盒封面上可以印有药品名称。基于预设的图像识别算法，对药盒封面图像进行药品标识的识别，例如，可以进行药品名称的识别。从药盒封面图像中识别出药品名称，将识别出的药品名称确定为该药品的药品标识。本实施例中，对预设的图像识别算法不做具体限定。

这样设置的有益效果在于，用户通过拍照上传药盒封面图像，自动对药品标识进行识别，不需要用户手动输入药品标识，减少用户操作。有效避免用户输入错误的药品标识，提高药品标识的确定精度和效率，进而提高回应文本信息的确定精度和效率，提高用户的人机交互体验。

S502、获取与药品标识对应的药品说明书。

示例性地，每种药品都对应有自己的药品说明书，药品说明书为文本形式的信息，药品说明书中包括对药品的介绍和药品的使用说明等信息。预先将不同药品的药品说明书存储在预设的数据库中。当确定出用户所要咨询的药品后，可以从预设的数据库中获取对应的药品说明书。

本实施例中，获取与药品标识对应的药品说明书，包括：根据预设的药品名称与药品说明书之间的关联关系，确定与药品的药品名称所关联的药品说明书。

具体的，预先设置药品标识与药品说明书之间的关联关系，例如，可以设置药品名称与药品说明书之间的关联关系。在确定药品名称后，可以根据预设的关联关系，查找到与该药品名称对应的药品说明书。

这样设置的有益效果在于，根据预设的关联关系，可以快速找到所需的药品说明书，便于通过药品说明书对用户进行解答，提高人机交互的效率和精度。

S503、根据与药品标识对应的药品说明书，确定与药品所匹配的预设结构化数据。

示例性地，预设结构化数据为键值对结构，在得到药品说明书后，将药品说明书转换为键值对结构的数据，作为与用户所咨询的药品相匹配的预设结构化数据。一个药品说明书可以对应有多个键值对结构，每个键值对结构表示用户可能提出的问题和问题对应的答案。问题对应的答案是从药品说明书中提取出的信息，用户可能提出的问题是根据问题的答案推测出的问题。

本实施例中，根据与药品标识对应的药品说明书，确定与药品所匹配的预设结构化数据，包括：根据预设的大语言模型，对药品说明书进行拆分处理，得到至少一个文本块；其中，文本块用于表示药品说明书中局部的文本内容；获取文本块中的医学术语，将医学术语转换为预设的通用语言；其中，医学术语与对应的通用语言的语义相同；将转换后的文本块对应的文本内容确定为问题的回复答案，对文本块对应的文本内容进行语义分析处理，得到文本块对应的问题；根据转换后的文本块对应的文本内容和文本块对应的问题，确定文本块对应的键值对结构；其中，键值对结构中的关键字为文本块对应的问题，键值对结构中的键值为转换后的文本块对应的文本内容；将药品说明书的所有文本块对应的键值对结构，确定为与药品所匹配的预设结构化数据。

具体的，预先训练并构建一个大语言模型，大语言模型可以用于对文本数据进行分析和处理。根据预设的大语言模型，对药品说明书进行拆分处理，拆分得到至少一个文本块。每个文本块中的内容是药品说明书中的一部分，即，文本块可以用于表示药品说明书中局部的文本内容。

药品说明书中可能存在专业的医学术语，用户对医学术语的理解可能存在困难。为了便于用户更好理解药品说明书，可以获取每个文本块中的医学术语。例如，可以预设医学术语数据库，医学术语数据库中存放多种医学术语，将文本块中的内容与医学术语数据库中的医学术语进行匹配，得到文本块中的医学术语。根据预设的大语言模型，将医学术语转换为预设的通用语言，即将医学术语转换为更通俗易懂的说法。医学术语与对应的通用语言的语义相同，即，在对医学术语进行转换时，并不改变医学术语的含义。也可以预设不同医学术语与通用语言之间的关联关系，根据该关联关系，查找文本块中的医学术语所对应的通用语言。

将转换后的文本块对应的文本内容确定为问题的回复答案，使得问题的回复答案更易于用户理解。根据预设的大语言模型，对文本块对应的文本内容进行语义分析处理，得到文本块对应的问题。可以是对转换后的文本块的内容进行语义分析，也可以是对转换前的文本块的内容进行语义分析。根据文本块的内容，确定该内容对应的问题，即确定什么样的问题对应的回复答案是文本块的内容。

根据转化后的文本块对应的文本内容和文本块对应的问题，确定文本块对应的键值对结构。键值对结构中的关键字为文本块对应的问题，键值对结构中的键值为转换后的文本块对应的文本内容。将药品说明书的所有键值对结构，确定为与药品所匹配的预设结构化数据。

这样设置的有益效果在于，将药品说明书转换为键值对结构，使用户可以针对药品说明书的不同部分进行提问，实现了为用户进行针对性解答，且通过对医学术语进行转换，使得回复答案更易于理解，提升用户的人机交互体验。

S504、根据与药品所匹配的预设结构化数据，确定与提问信息对应的回应文本信息。

示例性地，从用户所针对的药品的预设结构化数据中，查找与提问信息对应的回应文本信息，查找到的回应文本信息可以是药品说明书中的一部分内容。

本实施例中，提问信息表征用户针对药品说明书所提出的问题；根据与药品所匹配的预设结构化数据，确定与提问信息对应的回应文本信息，包括：将用户针对药品说明书所提出的问题确定为关键字，若预设结构化数据中存在与问题对应的键值，则将与问题对应的键值确定为与问题对应的回应文本信息。

具体的，用户针对药品进行提问，提问信息是关于药品说明书的问题。在确定用户所提出的问题后，可以从预设结构化数据中，查找是否存在与该问题对应的回复答案。预设结构化数据中，关键字为用户可能提出的问题，键值对为问题的回复答案。可以将提问信息的问题与预设结构化数据中的关键字进行比对，查找是否存在与提问信息的问题相似或一致的关键字，若是，则将该关键字的键值确定为提问信息对应的回应文本信息；若否，则确定药品说明书中没有用户想要的答案。

这样设置的有益效果在于，可以对用户提出的不同问题进行针对性答复，通过预设结构化数据，提高答复的效率和精度。且不需要将完整的药品说明书展示给用户，提高人机交互的灵活性和便捷性。

S505、对回应文本信息进行文本分析处理，得到数字人播报信息；其中，数字人播报信息包括数字人的语音信息、动作信息以及表情信息中的至少一项。

示例性地，本步骤可以参见上述步骤S102，不再赘述。

S506、基于预设的数字人形象，播报数字人播报信息。

示例性地，本步骤可以参见上述步骤S103，不再赘述。

图6为本公开实施例提供的一种基于数字人的人机交互装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图6，基于数字人的人机交互装置600包括：确定模块601、分析模块602和播报模块603。

确定模块601，用于响应于用户的提问信息，确定与所述提问信息对应的回应文本信息；其中，所述提问信息表征用户针对目标对象所提出的问题，所述回应文本信息表征针对提问信息所表征的问题的回复答案；

分析模块602，用于对所述回应文本信息进行文本分析处理，得到数字人播报信息；其中，所述数字人播报信息包括数字人的语音信息、动作信息以及表情信息中的至少一项；

播报模块603，用于基于预设的数字人形象，播报所述数字人播报信息。

图7为本公开实施例提供的一种基于数字人的人机交互装置的结构框图，如图7所示，基于数字人的人机交互装置700包括确定模块701、分析模块702和播报模块703，其中，确定模块701包括信息确定单元7011。

信息确定单元7011，用于响应于用户的提问信息，基于所述目标对象所匹配的预设结构化数据，确定与所述提问信息对应的回应文本信息；其中，所述预设结构化数据表征目标对象的解释文本信息对应的结构化数据，所述预设结构化数据的格式为键值对的格式，所述预设结构化数据表征提问信息与回应文本信息之间的关系，所述解释文本信息表征对目标对象的解释说明的文本。

一个示例中，该装置还包括：

咨询模块，用于响应于用户发起的咨询请求，确定所述咨询请求所指示的目标对象的标识信息；其中，所述咨询请求表征用户对目标对象进行咨询；

数据获取模块，用于获取与所述标识信息对应的目标对象所匹配的预设结构化数据。

一个示例中，咨询模块，包括：

标识识别单元，用于响应于用户发出的咨询请求，从所述咨询请求中获取目标对象的图像；其中，所述咨询请求中携带有目标对象的图像；从所述目标对象的图像中识别出所述目标对象的标识信息；

或者，标识确定单元，用于响应于用户发出的咨询请求，从所述咨询请求中获取所述目标对象的标识信息；其中，所述咨询请求为文本信息或者语音信息，所述咨询请求中写携带有目标对象的标识信息。

一个示例中，数据获取模块，包括：

文本确定单元，用于根据预设的标识信息与解释文本信息之间的关联关系，确定与所述咨询请求所指示的目标对象的标识信息对应的解释文本信息，为目标解释文本；

结构转换单元，用于对所述目标解释文本进行数据结构的转换处理，得到与所述标识信息对应的目标对象所匹配的预设结构化数据。

一个示例中，结构转换单元，包括：

拆分子单元，用于对所述目标解释文本进行拆分处理，得到至少一个文本块；其中，所述文本块用于表示所述目标解释文本中局部的文本内容；

语义分析子单元，用于将所述文本块对应的文本内容确定为问题的回复答案，对所述文本块对应的文本内容进行语义分析处理，得到所述文本块对应的问题；

键值对确定子单元，用于根据所述文本块对应的文本内容和所述文本块对应的问题，确定所述文本块对应的键值对结构；其中，所述键值对结构中的关键字为所述文本块对应的问题，所述键值对结构中的键值为所述文本块对应的文本内容；

数据确定子单元，用于将所述目标解释文本的所有文本块对应的键值对结构，确定为与所述标识信息对应的目标对象所匹配的预设结构化数据。

一个示例中，信息确定单元7011，具体用于：

将所述提问信息确定为关键字，若所述预设结构化数据中存在与所述提问信息对应的键值，则将与所述提问信息对应的键值确定为与所述提问信息对应的回应文本信息。

一个示例中，该装置还包括：

联网模块，用于若所述预设结构化数据中不存在与所述提问信息对应的键值，则对所述提问信息进行联网查询，得到与所述提问信息对应的回应文本信息。

一个示例中，数字人播报信息为语音信息；分析模块702，包括：

分词单元，用于对所述回应文本信息进行分词处理，将所述回应文本信息分割为至少一个语言单元；其中，所述语言单元表征所述回应文本信息中的局部文本；

第一获得单元，用于对所述语言单元进行文本到语音的转换处理，得到与所述回应文本信息对应的语音信息。

一个示例中，数字人播报信息为动作信息；分析模块702，包括：

情感确定单元，用于对所述语言单元进行语义分析，确定所述语言单元的情感信息；其中，所述情感信息表征语言单元所表达的情感；

第二获得单元，用于根据预设的情感信息与动作信息之间的关联关系，确定与所述语言单元的情感信息对应的动作信息，为与所述回应文本信息对应的动作信息。

一个示例中，数字人播报信息为表情信息；分析模块702，包括：

第三获得单元，用于根据预设的情感信息与表情信息之间的关联关系，确定与所述语言单元的情感信息对应的表情信息，为与所述回应文本信息对应的表情信息。

一个示例中，该装置还包括：

单元确定模块，用于确定当前播放的语音信息所对应的语言单元；

标记模块，用于在可视化界面的预设区域内，采用预设的阅读标识对所述当前播放的语音信息所对应的语言单元进行标记处理。

一个示例中，播报模块703，包括：

形象选定单元，用于根据用户对数字人形象的选定操作，确定用户所选定的数字人形象；

显示单元，用于通过用户所选定的数字人形象，在可视化界面上显示所述动作信息对应的动作和所述表情信息对应的表情，并播放所述语音信息。

一个示例中，该装置还包括：

文本滚动模块，用于根据预设的文本滚动速度，在可视化界面的预设区域内，对所述回应文本信息进行滚动式播放。

根据本公开的实施例，本公开还提供了一种电子设备。

一个示例中，目标对象为药品，所述解释文本信息为药品说明书；所述信息确定单元，包括：

标识确定子单元，用于响应于用户针对药品发出的提问信息，确定所述药品的药品标识；其中，所述药品标识用于表征药品；

说明书获取子单元，用于获取与所述药品标识对应的药品说明书；

说明书转换子单元，用于根据所述与所述药品标识对应的药品说明书，确定与所述药品所匹配的预设结构化数据；

信息查找子单元，用于根据与所述药品所匹配的预设结构化数据，确定与所述提问信息对应的回应文本信息。

一个示例中，标识确定子单元，具体用于：

获取用户上传的所述药品的药盒封面图像；

根据预设的图像识别算法，从所述药盒封面图像中识别出药品名称，将所述药品名称确定为所述药品的药品标识。

一个示例中，说明书获取子单元，具体用于：

根据预设的药品名称与药品说明书之间的关联关系，确定与所述药品的药品名称所关联的药品说明书。

一个示例中，说明书转换子单元，具体用于：

根据预设的大语言模型，对所述药品说明书进行拆分处理，得到至少一个文本块；其中，所述文本块用于表示所述药品说明书中局部的文本内容；

获取所述文本块中的医学术语，将所述医学术语转换为预设的通用语言；其中，所述医学术语与对应的所述通用语言的语义相同；

将转换后的所述文本块对应的文本内容确定为问题的回复答案，对所述文本块对应的文本内容进行语义分析处理，得到所述文本块对应的问题；

根据转换后的所述文本块对应的文本内容和所述文本块对应的问题，确定所述文本块对应的键值对结构；其中，所述键值对结构中的关键字为所述文本块对应的问题，所述键值对结构中的键值为转换后的所述文本块对应的文本内容；

将所述药品说明书的所有文本块对应的键值对结构，确定为与所述药品所匹配的预设结构化数据。

一个示例中，提问信息表征用户针对药品说明书所提出的问题；所述信息查找子单元，具体用于：

将用户针对药品说明书所提出的问题确定为关键字，若所述预设结构化数据中存在与所述问题对应的键值，则将与所述问题对应的键值确定为与所述问题对应的回应文本信息。

图8为本公开实施例提供的一种电子设备的结构框图，电子设备可以是微控制器，如图8所示，电子设备800包括：至少一个处理器802；以及与所述至少一个处理器802通信连接的存储器801；其中，存储器存储有可被所述至少一个处理器802执行的指令，所述指令被所述至少一个处理器802执行，以使所述至少一个处理器802能够执行本公开的基于数字人的人机交互方法。

电子设备800还包括接收器803和发送器804。接收器803用于接收其他设备发送的指令和数据，发送器804用于向外部设备发送指令和数据。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如基于数字人的人机交互方法。例如，在一些实施例中，基于数字人的人机交互方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的基于数字人的人机交互方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于数字人的人机交互方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于数字人的人机交互方法，包括：

基于预设的数字人形象，播报所述数字人播报信息。

2.根据权利要求1所述的方法，其中，所述响应于用户的提问信息，确定与所述提问信息对应的回应文本信息，包括：

响应于用户的提问信息，基于所述目标对象所匹配的预设结构化数据，确定与所述提问信息对应的回应文本信息；其中，所述预设结构化数据表征目标对象的解释文本信息对应的结构化数据，所述预设结构化数据的格式为键值对的格式，所述预设结构化数据表征提问信息与回应文本信息之间的关系，所述解释文本信息表征对目标对象的解释说明的文本。

3.根据权利要求2所述的方法，还包括：

响应于用户发起的咨询请求，确定所述咨询请求所指示的目标对象的标识信息；其中，所述咨询请求表征用户对目标对象进行咨询；

获取与所述标识信息对应的目标对象所匹配的预设结构化数据。

4.根据权利要求3所述的方法，其中，所述响应于用户发起的咨询请求，确定所述咨询请求所指示的目标对象的标识信息，包括：

响应于用户发出的咨询请求，从所述咨询请求中获取目标对象的图像；其中，所述咨询请求中携带有目标对象的图像；从所述目标对象的图像中识别出所述目标对象的标识信息；

或者，响应于用户发出的咨询请求，从所述咨询请求中获取所述目标对象的标识信息；其中，所述咨询请求为文本信息或者语音信息，所述咨询请求中写携带有目标对象的标识信息。

5.根据权利要求3或4所述的方法，其中，所述获取与所述标识信息对应的目标对象所匹配的预设结构化数据，包括：

根据预设的标识信息与解释文本信息之间的关联关系，确定与所述咨询请求所指示的目标对象的标识信息对应的解释文本信息，为目标解释文本；

对所述目标解释文本进行数据结构的转换处理，得到与所述标识信息对应的目标对象所匹配的预设结构化数据。

6.根据权利要求5所述的方法，其中，所述对所述目标解释文本进行数据结构的转换处理，得到与所述标识信息对应的目标对象所匹配的预设结构化数据，包括：

对所述目标解释文本进行拆分处理，得到至少一个文本块；其中，所述文本块用于表示所述目标解释文本中局部的文本内容；

将所述文本块对应的文本内容确定为问题的回复答案，对所述文本块对应的文本内容进行语义分析处理，得到所述文本块对应的问题；

根据所述文本块对应的文本内容和所述文本块对应的问题，确定所述文本块对应的键值对结构；其中，所述键值对结构中的关键字为所述文本块对应的问题，所述键值对结构中的键值为所述文本块对应的文本内容；

将所述目标解释文本的所有文本块对应的键值对结构，确定为与所述标识信息对应的目标对象所匹配的预设结构化数据。

7.根据权利要求6所述的方法，其中，所述基于所述目标对象所匹配的预设结构化数据，确定与所述提问信息对应的回应文本信息，包括：

8.根据权利要求7所述的方法，还包括：

若所述预设结构化数据中不存在与所述提问信息对应的键值，则对所述提问信息进行联网查询，得到与所述提问信息对应的回应文本信息。

9.根据权利要求1-8中任一项所述的方法，其中，所述数字人播报信息为语音信息；所述对所述回应文本信息进行文本分析处理，得到数字人播报信息，包括：

对所述回应文本信息进行分词处理，将所述回应文本信息分割为至少一个语言单元；其中，所述语言单元表征所述回应文本信息中的局部文本；

对所述语言单元进行文本到语音的转换处理，得到与所述回应文本信息对应的语音信息。

10.根据权利要求9所述的方法，其中，所述数字人播报信息为动作信息；所述对所述回应文本信息进行文本分析处理，得到数字人播报信息，包括：

对所述语言单元进行语义分析，确定所述语言单元的情感信息；其中，所述情感信息表征语言单元所表达的情感；

根据预设的情感信息与动作信息之间的关联关系，确定与所述语言单元的情感信息对应的动作信息，为与所述回应文本信息对应的动作信息。

11.根据权利要求10所述的方法，其中，所述数字人播报信息为表情信息；所述对所述回应文本信息进行文本分析处理，得到数字人播报信息，包括：

根据预设的情感信息与表情信息之间的关联关系，确定与所述语言单元的情感信息对应的表情信息，为与所述回应文本信息对应的表情信息。

12.根据权利要求9-11中任一项所述的方法，还包括：

确定当前播放的语音信息所对应的语言单元；

在可视化界面的预设区域内，采用预设的阅读标识对所述当前播放的语音信息所对应的语言单元进行标记处理。

13.根据权利要求1-12中任一项所述的方法，其中，所述基于预设的数字人形象，播报所述数字人播报信息，包括：

根据用户对数字人形象的选定操作，确定用户所选定的数字人形象；

通过用户所选定的数字人形象，在可视化界面上显示所述动作信息对应的动作和所述表情信息对应的表情，并播放所述语音信息。

14.根据权利要求1-13中任一项所述的方法，还包括：

根据预设的文本滚动速度，在可视化界面的预设区域内，对所述回应文本信息进行滚动式播放。

15.根据权利要求2所述的方法，其中，所述目标对象为药品，所述解释文本信息为药品说明书；所述响应于用户的提问信息，基于所述目标对象所匹配的预设结构化数据，确定与所述提问信息对应的回应文本信息，包括：

响应于用户针对药品发出的提问信息，确定所述药品的药品标识；其中，所述药品标识用于表征药品；

获取与所述药品标识对应的药品说明书；

根据所述与所述药品标识对应的药品说明书，确定与所述药品所匹配的预设结构化数据；

根据与所述药品所匹配的预设结构化数据，确定与所述提问信息对应的回应文本信息。

16.根据权利要求15所述的方法，其中，所述确定所述药品的药品标识，包括：

获取用户上传的所述药品的药盒封面图像；

17.根据权利要求15或16所述的方法，其中，所述获取与所述药品标识对应的药品说明书，包括：

18.根据权利要求15-17中任一项所述的方法，其中，所述根据所述与所述药品标识对应的药品说明书，确定与所述药品所匹配的预设结构化数据，包括：

19.根据权利要求15-18中任一项所述的方法，其中，所述提问信息表征用户针对药品说明书所提出的问题；所述根据与所述药品所匹配的预设结构化数据，确定与所述提问信息对应的回应文本信息，包括：

20.一种基于数字人的人机交互装置，包括：

21.根据权利要求20所述的装置，其中，所述确定模块，包括：

信息确定单元，用于响应于用户的提问信息，基于所述目标对象所匹配的预设结构化数据，确定与所述提问信息对应的回应文本信息；其中，所述预设结构化数据表征目标对象的解释文本信息对应的结构化数据，所述预设结构化数据的格式为键值对的格式，所述预设结构化数据表征提问信息与回应文本信息之间的关系，所述解释文本信息表征对目标对象的解释说明的文本。

22.根据权利要求21所述的装置，还包括：

23.根据权利要求22所述的装置，其中，所述咨询模块，包括：

24.根据权利要求22或23所述的装置，其中，所述数据获取模块，包括：

25.根据权利要求24所述的装置，其中，所述结构转换单元，包括：

26.根据权利要求25所述的装置，其中，所述信息确定单元，具体用于：

27.根据权利要求26所述的装置，还包括：

28.根据权利要求20-27中任一项所述的装置，其中，所述数字人播报信息为语音信息；所述分析模块，包括：

29.根据权利要求28所述的装置，其中，所述数字人播报信息为动作信息；所述分析模块，包括：

30.根据权利要求29所述的装置，其中，所述数字人播报信息为表情信息；所述分析模块，包括：

31.根据权利要求28-30中任一项所述的装置，还包括：

32.根据权利要求20-31中任一项所述的装置，其中，所述播报模块，包括：

33.根据权利要求20-32中任一项所述的装置，还包括：

34.根据权利要求21所述的装置，其中，所述目标对象为药品，所述解释文本信息为药品说明书；所述信息确定单元，包括：

35.根据权利要求34所述的装置，其中，所述标识确定子单元，具体用于：

获取用户上传的所述药品的药盒封面图像；

36.根据权利要求34或35所述的装置，其中，所述说明书获取子单元，具体用于：

37.根据权利要求34-36中任一项所述的装置，其中，所述说明书转换子单元，具体用于：

38.根据权利要求34-37中任一项所述的装置，其中，所述提问信息表征用户针对药品说明书所提出的问题；所述信息查找子单元，具体用于：

39.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-19中任一项所述的方法。

40.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-19中任一项所述的方法。

41.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-19中任一项所述方法的步骤。