CN108877795B

CN108877795B - 用于呈现信息的方法和装置

Info

Publication number: CN108877795B
Application number: CN201810589730.8A
Authority: CN
Inventors: 毛竹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2020-03-10
Anticipated expiration: 2038-06-08
Also published as: CN108877795A

Abstract

本申请实施例公开了用于呈现信息的方法和装置。该用于呈现信息的方法的一具体实施方式包括：获取语音输入信号；基于语音输入信号，确定对应语音输入信号的文本信息；响应于文本信息指示会话模式，基于文本信息，确定应答会话信息和应答灯光信息；经由呈现终端同时呈现应答会话信息和应答灯光信息。该实施方式实现了可以根据用户的语音输入信号，生成应答会话信息以及生成应答灯光信息，从而从多个维度向用户呈现应答信息，提高了向用户呈现的应答信息的精准度。

Description

用于呈现信息的方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及智能终端技术领域，尤其涉及用于呈现信息的方法和装置。

背景技术

随着网络时代的来临，越来越多的用户倾向于接受智能化的服务。以视听服务为例，人们希望智能终端能够理解用户的语音输入，并基于对用户语音的理解，向用户提供一些个性化的视听服务。采用人工智能的智能终端，是提供智能化的服务的佼佼者。

这里的人工智能(Artificial Intelligence，AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。

目前，在智能终端的视听语音交互场景中，对于用户的语音互动需求，智能终端可以进行互动的语音应答。

发明内容

本申请实施例提供了用于呈现信息的方法和装置。

第一方面，本申请实施例提供了一种用于呈现信息的方法，包括：获取语音输入信号；基于语音输入信号，确定对应语音输入信号的文本信息；响应于文本信息指示会话模式，基于文本信息，确定应答会话信息和应答灯光信息；经由呈现终端同时呈现应答会话信息和应答灯光信息。

在一些实施例中，基于语音输入信号，确定对应语音输入信号的文本信息包括以下任意一项：基于语音输入信号以及基于声道模型和语音知识的技术，确定对应语音输入信号的文本信息；基于语音输入信号以及模板匹配的技术，确定对应语音输入信号的文本信息；以及基于语音输入信号以及预先训练的语义识别模型，确定对应语音输入信号的文本信息。

在一些实施例中，基于文本信息，确定应答会话信息和应答灯光信息包括以下任意一项：基于文本信息和预先存储的应答规则数据库，确定应答会话信息和应答灯光信息；基于文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息。

在一些实施例中，基于文本信息，确定应答会话信息和应答灯光信息包括：基于文本信息，确定用户状态信息；基于文本信息，确定文本应答信息；基于文本应答信息，确定应答会话信息；基于用户状态信息、文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息。

在一些实施例中，基于文本信息，确定用户状态信息包括以下任意一项：从文本信息中提取用户状态信息；将文本信息所匹配的用户状态查询规则中的文本信息所对应的用户状态信息，确定为用户状态信息；将文本信息输入用户状态预测模型，得到用户状态预测模型预测的用户状态信息。

在一些实施例中，基于用户状态信息、文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息包括以下至少一项：若用户状态信息为沮丧、文本应答信息的类别为振奋，根据人体对橙色光线的生理反应为振奋，确定应答灯光信息为橙色光线；若用户状态信息为压力，文本应答信息的类别为放松，根据人体对粉色光线的生理反应为放松，确定应答灯光信息为粉色光线；若用户状态信息为疲劳，文本应答信息的类别为生机，根据人体对绿色光线的生理反应为生机，确定应答灯光信息为绿色光线；若用户状态信息为疼痛，文本应答信息的类别为安抚，根据人体对紫色光线的生理反应为安抚，确定应答灯光信息为紫色光线；若用户状态信息为焦躁，文本应答信息的类别为平静，根据人体对白色光线的生理反应为平静，确定应答灯光信息为白色光线。

在一些实施例中，方法还包括：获取样本对话集，样本对话集包括多段样本对话信息，样本对话信息包括文本信息、文本应答信息和文本灯光信息；其中，文本应答信息对应文本信息且用于确定应答会话信息，文本灯光信息对应文本信息且用于确定应答灯光信息；将样本对话信息中的文本信息、文本应答信息和文本灯光信息作为训练样本，采用机器学习方法对语义应答模型进行训练。

在一些实施例中，样本对话集基于以下步骤确定：搜集包含预设文本信息的对话语料；从各对话语料中提取出各预设文本信息对应的文本应答信息和文本灯光信息；将各预设文本信息、各预设文本信息对应的文本应答信息和文本灯光信息组合生成多段样本对话，以形成样本对话集。

在一些实施例中，呈现应答会话信息包括：以视频或音频呈现应答会话信息。

第二方面，本申请实施例提供了一种用于呈现信息的装置，包括：语音信号获取单元，被配置成获取语音输入信号；文本信息确定单元，被配置成基于语音输入信号，确定对应语音输入信号的文本信息；应答信息确定单元，被配置成响应于文本信息指示会话模式，基于文本信息，确定应答会话信息和应答灯光信息；应答信息呈现单元，被配置成经由呈现终端同时呈现应答会话信息和应答灯光信息。

在一些实施例中，文本信息确定单元进一步被配置成以下任意一项：基于语音输入信号以及基于声道模型和语音知识的技术，确定对应语音输入信号的文本信息；基于语音输入信号以及模板匹配的技术，确定对应语音输入信号的文本信息；以及基于语音输入信号以及预先训练的语义识别模型，确定对应语音输入信号的文本信息。

在一些实施例中，应答信息确定单元进一步被配置成以下任意一项：基于文本信息和预先存储的应答规则数据库，确定应答会话信息和应答灯光信息；基于文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息。

在一些实施例中，应答信息确定单元包括：状态信息确定子单元，被配置成基于文本信息，确定用户状态信息；应答文本确定子单元，被配置成基于文本信息，确定文本应答信息；应答会话确定子单元，被配置成基于文本应答信息，确定应答会话信息；应答灯光确定子单元，被配置成基于用户状态信息、文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息。

在一些实施例中，状态信息确定子单元进一步被配置成以下任意一项：从文本信息中提取用户状态信息；将文本信息所匹配的用户状态查询规则中的文本信息所对应的用户状态信息，确定为用户状态信息；将文本信息输入用户状态预测模型，得到用户状态预测模型预测的用户状态信息。

在一些实施例中，应答灯光确定子单元进一步被配置成以下至少一项：若用户状态信息为沮丧、文本应答信息的类别为振奋，根据人体对橙色光线的生理反应为振奋，确定应答灯光信息为橙色光线；若用户状态信息为压力，文本应答信息的类别为放松，根据人体对粉色光线的生理反应为放松，确定应答灯光信息为粉色光线；若用户状态信息为疲劳，文本应答信息的类别为生机，根据人体对绿色光线的生理反应为生机，确定应答灯光信息为绿色光线；若用户状态信息为疼痛，文本应答信息的类别为安抚，根据人体对紫色光线的生理反应为安抚，确定应答灯光信息为紫色光线；若用户状态信息为焦躁，文本应答信息的类别为平静，根据人体对白色光线的生理反应为平静，确定应答灯光信息为白色光线。

在一些实施例中，装置还包括：样本对话获取单元，被配置成获取样本对话集，样本对话集包括多段样本对话信息，样本对话信息包括文本信息、文本应答信息和文本灯光信息；其中，文本应答信息对应文本信息且用于确定应答会话信息，文本灯光信息对应文本信息且用于确定应答灯光信息；应答模型训练单元，被配置成将样本对话信息中的文本信息、文本应答信息和文本灯光信息作为训练样本，采用机器学习装置对语义应答模型进行训练。

在一些实施例中，样本对话获取单元中的样本对话集基于以下步骤确定：搜集包含预设文本信息的对话语料；从各对话语料中提取出各预设文本信息对应的文本应答信息和文本灯光信息；将各预设文本信息、各预设文本信息对应的文本应答信息和文本灯光信息组合生成多段样本对话，以形成样本对话集。

在一些实施例中，应答信息呈现单元中呈现应答会话信息包括：以视频或音频呈现应答会话信息。

第三方面，本申请实施例提供了一种设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上任一的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一的方法。

本申请实施例提供的用于呈现信息的方法和装置，通过获取语音输入信号，然后基于语音输入信号，确定对应语音输入信号的文本信息；之后响应于文本信息指示会话模式，基于文本信息，确定应答会话信息和应答灯光信息；最后同时呈现应答会话信息和应答灯光信息。在这一过程中，可以根据用户的语音输入信号，生成应答会话信息以及生成应答灯光信息，从而从多个维度向用户呈现应答信息，提高了向用户呈现的应答信息的精准度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于呈现信息的方法的一个实施例的流程示意图；

图3是根据本申请实施例的一个应用场景示意图；

图4是根据本申请的用于呈现信息的方法的另一个实施例的流程示意图；

图5是本申请的用于呈现信息的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于呈现信息的方法或用于呈现信息的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102，网络103、以及服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102通过网络103与服务器104互，以接收或发送消息等。终端设备101、102上可以安装有各种语音交互类应用。

终端设备101、102可以是具有音频输入接口和音频输出接口并支持互联网访问的各种电子设备，包括但不限于智能手机、平板电脑、智能手表、电子书、智能音箱灯等。

服务器104可以是为应答会话信息提供支持的应答服务器，应答服务器可以接收终端设备101、102发出的语音交互请求，并对语音交互请求进行解析，然后查找相应的服务数据，生成应答数据，并将生成的应答数据返回给终端设备101、102。

需要说明的是，本申请实施例所提供的用于呈现信息的方法可以由服务器104执行，相应地，用于呈现信息的装置可以设置于服务器104中。

应该理解，图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器。

继续参考图2，示出了根据本申请的用于呈现信息的方法的一个实施例的流程200。该用于呈现信息的方法，包括以下步骤：

步骤201，获取语音输入信号。

在本实施例中，上述用于呈现信息的方法运行于其上的电子设备(例如图1所示的服务器)可以通过网络获取根据用户发出的语音信息生成的语音输入信号。具体地，上述电子设备可以通过网络与具有音频输入接口的终端设备(例如图1所示终端设备)建立连接，终端设备可以通过音频输入接口获取用户发出的语音信息，并进行编码生成语音输入信号，然后通过网络传输至上述用于呈现信息的方法运行于其上的电子设备。

通常，具有音频输入装置(例如麦克风)的终端设备上可以安装有语音交互应用，用户可以通过手势、特定按键或特定音频信号唤醒语音助手，然后终端设备可以检测用户发出的声音，并根据检测到的声音进行编码生成语音输入信号。之后，为了获取对语音输入信号的应答数据，终端设备可以请求与应答服务器连接，并将语音输入信号发送至应答服务器。则应答服务器可以通过网络接收该终端设备生成的语音输入信号。

步骤202，基于语音输入信号，确定对应语音输入信号的文本信息。

在本实施例中，上述电子设备可以在本实施例中，上述电子设备可以采用基于声道模型和语音知识的技术、模板匹配的技术以及利用语义识别模型的技术来识别语音输入信号对应的文本信息。其中，模板匹配的方法又包括动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。

以采用基于隐马尔科夫(HMM)理论的语音识别技术为例，上述电子设备可以对于语音输入信号分帧，之后提取各帧的声学特征，得到观察序列，之后基于声学模型中的参数，识别将帧转化为状态的概率，之后将观察序列中的各帧识别成状态，再将识别的状态组合成音素，最后将音素组合成单词，得到对应语音输入信号的文本信息。

在本实施例的一些可选实现方式中，基于语音输入信号，确定对应语音输入信号的文本信息可以包括：基于语音输入信号以及预先训练的语义识别网络，确定对应语音输入信号的文本信息。

在本实现方式中，上述电子设备可以利用已训练的语义识别模型对语音输入信号中的语音内容进行识别。上述语义识别模型可以是预先采用机器学习算法训练好的模型。具体可以采用基于决策树、支持向量机、神经网络、深度神经网络等的机器学习算法，利用训练样本训练上述语义识别模型。语义识别模型的输入可以为语音输入信号，输出可以为将语音输入信号转换后的文本信息。

上述语义识别模型，可以基于已标记的训练样本训练得出。用于训练语义识别模型的设备，可以为上述电子设备，或者其它用于训练语义识别模型的设备。该用于训练语义识别模型的设备，可以采集会话模式下的各种语音信号，作为样本语音信号，然后人工标记样本语音信号对应的文本信息，之后将样本语音信号作为语义识别模型的输入、对应的文本信息作为语义识别模型的输出，不断调整优化语义识别模型的结构和参数，使语义识别模型的识别结果逼近人工标记的结果。

步骤203，响应于文本信息指示会话模式，基于文本信息，确定应答会话信息和应答灯光信息。

在本实施例中，上述电子设备可以基于文本信息和预先存储的应答规则数据库，确定应答会话信息和应答灯光信息。

在本实施例的一些可选实现方式中，上述电子设备可以基于文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息。首先，上述电子设备可以根据语义识别模型识别出的文本信息包括的唤醒词，确定用户输入的语音输入信息的是否指示会话模式。例如，若语音输入信号所确定的文本信息为：“小A小A，我觉得好累啊”，那么上述电子设备根据文本信息中的内容包括“小A”这一唤醒词，可以确定该文本信息指示会话模式。并且，在确定文本信息指示会话模式后，若后续的各次语音输入与之前一次语音输入的间隔时间不超过预设时间，那么可以确定后续每次语音输入信号仍处于会话模式中。

在确定文本信息指示会话模式之后，可以经由以下步骤基于文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息：将文本信息输入可预先训练的语义应答模型，得到文本应答信息和文本灯光信息。之后，基于文本应答信息，采用文本正则化将文本应答信息转换为语音数据，并将该语音数据和/或文本应答信息添加至应答会话信息；基于文本灯光信息，生成指示灯光颜色和灯光亮度的控制指令，并将该控制指令确定为应答灯光信息。其中，文本正则化可以采用基于深度学习框架的模型来执行。这里的语义应答模型是基于已标记的训练样本训练得出的。在训练上述语义应答模型时，可以采集会话模式下的各种语音输入信号，作为样本语音信号，然后人工标记样本语音信号对应的文本应答信息和文本灯光信息，之后将样本语音信号作为语义应答模型的输入、文本应答信息和文本灯光信息作为语义应答模型的输出，不断调整优化语义应答模型的结构和参数，使语义应答模型的识别结果逼近人工标记的结果。

在本实施例的一些可选实现方式中，上述用于呈现信息的方法还包括：获取样本对话集，样本对话集包括多段样本对话信息，样本对话信息包括文本信息、文本应答信息和文本灯光信息；其中，文本应答信息对应文本信息且用于确定应答会话信息，文本灯光信息对应文本信息且用于确定应答灯光信息；将文本信息、文本应答信息和文本灯光信息作为训练样本，采用机器学习方法对语义应答模型进行训练。

在本实施例的一些可选实现方式中，样本对话集基于以下步骤确定：搜集包含预设文本信息的对话语料；从各对话语料中提取出各预设文本信息对应的文本应答信息和文本灯光信息；将各预设文本信息、各预设文本信息对应的文本应答信息和文本灯光信息组合生成多段样本对话，以形成样本对话集。

步骤204，经由呈现终端同时呈现应答会话信息和应答灯光信息。

在本实施例中，可以通过与上述电子设备连接的同一呈现终端(例如图1所示的终端设备)的音频输出接口(例如扬声器)和/或视频输出接口(例如显示屏)呈现应答会话信息，并同时在该呈现终端的光照输出接口(例如灯具)呈现应答灯光信息。

应当理解，这里的呈现终端，为同时具备呈现音频功能和发光功能的终端，可以与上述获取语音输入信号的终端为同一终端，并且呈现终端呈现的音频的内容、音量的大小和发光的颜色、亮度均可控。例如，该呈现终端可以呈现一种颜色、两种颜色或多种颜色，还可以呈现不同的亮度。可选地，呈现应答会话信息可以包括：以视频或音频呈现应答会话信息。

请参考图3，其示出了根据本申请实施例的一个应用场景示意图。如图3所示，在智能音箱灯A被唤醒之后，用户C可以与智能音箱灯B进行智能交互。当用户C说：“小A小A，我觉得好累啊”时，智能音箱灯A可以将采集到的用户的语音信号传输给后台应答服务器B。应答服务器B在接收到语音信号之后，可以采用语义识别模型识别出用户的文本输入信息为“小A小A，我觉得好累啊”。应答服务器B可以将“小A小A，我觉得好累啊”输入语义应答模型，将语义应答模型输出的文本应答信息“累，可能是你在成长啊，痛苦的蜕变是成长的契机哦”，通过文本正则化将文本应答信息转换为语音数据形式的应答会话信息，并将语义应答模型输出的文本灯光信息“橙色闪烁灯光”转换为指示灯光颜色和灯光亮度的控制指令形式的应答灯光信息，以期用于振奋用户C的精神。之后，应答服务器B将应答会话信息和应答灯光信息回传至智能音箱灯A。智能音箱灯A可以对应答会话信息进行解码并播放，并对应答灯光信息进行呈现。

本申请上述实施例的用于呈现信息的方法，通过获取语音输入信号，然后基于语音输入信号以及预先训练的语义识别模型，确定对应语音输入信号的文本信息，之后响应于文本信息指示会话模式，基于文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息，最后经由呈现终端同时呈现应答会话信息和应答灯光信息，能够在提供会话应答服务时同时呈现应答会话信息和应答灯光信息，从而准确针对用户的语音输入进行响应，提升了会话应答服务与用户需求的匹配度，实现了更精准的会话应答服务。

请参考图4，其示出了根据本申请的用于呈现信息的方法的另一个实施例的流程图。如图4所示，本实施例的用于呈现信息的方法的流程400，可以包括以下步骤：

步骤401，获取语音输入信号。

步骤402，基于语音输入信号，确定对应语音输入信号的文本信息。

在本实现方式中，上述电子设备可以利用已训练的语义识别模型对语音输入信号中的语音内容进行识别。上述语义识别模型可以是预先采用机器学习算法训练好的模型。具体可以采用基于决策树、支持向量机、神经网络、深度神经网络等的机器学习算法，利用训练样本训练上述语义识别模型。在本实施例中，语义识别模型的输入可以为语音输入信号，输出可以为将语音输入信号转换后的文本信息。

步骤403，基于文本信息，确定用户状态信息。

在本实施例中，可以根据文本信息，来确定用户状态信息。具体地，可以直接从文本信息中提取用户状态信息。备选地或附加地，可以采用文本信息来匹配用户状态查询规则中的文本信息，若这两个文本信息的相似度超过阈值，那么可以将用户状态查询规则中的文本信息所对应的用户状态信息作为所确定的用户状态信息进行输出，其中，用户状态查询规则包括相关联的文本信息以及与文本信息对应的用户状态信息。备选地或附加地，可以预先采用各种文本信息以及对应文本信息的用户状态信息作为样本，训练用户状态预测模型，在训练完成后，可以将需要确定用户状态信息的文本信息输入用户状态预测模型，得到用户状态预测模型所预测的用户状态信息。

步骤404，基于文本信息，确定文本应答信息。

在本实施例中，上述电子设备可以基于文本信息和预先存储的应答文本规则数据库，确定文本应答信息。

在本实施例的一些可选实现方式中，上述电子设备可以基于文本信息和预先训练的语义文本应答模型，确定文本应答信息。这里的语义文本应答模型，可以是基于已标记的训练样本训练得出的。在训练上述语义文本应答模型时，可以采集会话模式下的各种语音输入信号，作为样本语音信号，然后人工标记样本语音信号对应的文本应答信息，之后将样本语音信号作为语义文本应答模型的输入、文本应答信息作为语义文本应答模型的输出，不断调整优化语义文本应答模型的结构和参数，使语义文本应答模型的识别结果逼近人工标记的结果。

在基于文本信息和预先训练的语义文本应答模型，确定文本应答信息时，可以将文本信息输入预先训练的语义文本应答模型，将语义应答模型的输出确定为文本应答信息。

步骤405，基于文本应答信息，确定应答会话信息。

在本实施例中，可以利用步骤404输出的文本应答信息，可以采用从文本到语音(Text To Speech)技术，将文本应答信息转换为语音数据，将语音数据添加至应答会话信息，备选地或附加地，可以将文本应答信息添加至应答会话信息。从而得到包括语音形式和/或文本形式的应答会话信息，在采用从文本到语音技术时，可以采用文本正则化将文本中的数字、符号、缩写等转换成语言文字，再将转换后的文本转换为语音数据。

步骤406，基于用户状态信息、文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息。

在本实施例中，可以首先根据用户状态信息和文本应答信息的内容，确定文本应答信息的类别。该文本应答信息的类别，用于指示文本应答信息的呈现效果。之后，根据该用户状态信息、文本应答信息的类别和人体对光线、色彩的生理反应，采用预先确定的回复模板或回复预测模型，确定文本灯光信息，再将文本灯光信息转换为应答灯光信息。例如，若基于语音输入信号所确定的文本信息为“小A，我最近总是做错事，好丧啊”，可以确定用户状态信息为沮丧，并根据文本应答信息“漫漫前程路，谁不错几步？振奋精神向前走，胜利在向你招手！”，确定文本应答信息的类别为振奋，再根据人体对橙色光线的生理反应为振奋，确定文本灯光信息为橙色光线，最后将文本“橙色光线”转换为“放射状的橙色光线”这一灯光控制指令，从而得到“放射状的橙色光线”这一应答灯光信息。

在本实施例的一些可选实现方式中，基于用户状态信息、文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息至少包括以下一项、两项或多项：若用户状态信息为沮丧、文本应答信息的类别为振奋，根据人体对橙色光线的生理反应为振奋，确定应答灯光信息为橙色光线。若用户状态信息为压力，文本应答信息的类别为放松，根据人体对粉色光线的生理反应为放松，确定应答灯光信息为粉色光线。若用户状态信息为疲劳，文本应答信息的类别为生机，根据人体对绿色光线的生理反应为生机，确定应答灯光信息为绿色光线。若用户状态信息为疼痛，文本应答信息的类别为安抚，根据人体对紫色光线的生理反应为安抚，确定应答灯光信息为紫色光线。若用户状态信息为焦躁，文本应答信息的类别为平静，根据人体对白色光线的生理反应为平静，确定应答灯光信息为白色光线。若用户状态信息为发热，文本应答信息的类别为冷却，根据人体对蓝色光线的生理反应为冷却，确定应答灯光信息为蓝色光线。若用户状态信息为害怕，文本应答信息的类别为勇敢，根据人体对红色光线的生理反应为勇敢，确定应答灯光信息为红色光线。若用户状态信息为犹豫，文本应答信息的类别为坚定，根据人体对棕色光线的生理反应为坚定，确定应答灯光信息为棕色光线。

应当理解，上述仅为基于用户状态信息、文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息的示例性说明，并不代表对本申请的限定。例如，随着科学研究中人体对光线、色彩的生理反应的进展，上述的基于用户状态信息、文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息可以根据该进展，指定新的确定方法。

步骤407，经由呈现终端同时呈现应答会话信息和应答灯光信息。

在本实施例中，在步骤405、406分别确定应答会话信息和应答灯光信息后，可以通过与上述电子设备连接的同一呈现终端(例如图1所示的终端设备)的音频输出接口(例如扬声器)和/或视频输出接口(例如显示屏)呈现应答会话信息，并同时在该呈现终端的光照输出接口(例如灯具)呈现应答灯光信息。

应当理解，上述方法流程中的步骤401、步骤402和步骤407，分别与前述实施例中的步骤201、步骤202和步骤204相同，上文针对步骤201、步骤202和步骤204的描述也适用于本实施中的步骤401、步骤402、步骤407，此处不再赘述。

从图4可以看出，与图2所示实施例相比，本实施例在基于文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息时，首先基于文本信息，确定了用户状态信息；然后基于文本信息和预先训练的语义应答模型，确定了文本应答信息；之后基于文本应答信息，确定了应答会话信息；最后基于用户状态信息、文本应答信息和人体对光线、色彩的生理反应，确定了应答灯光信息。由此，本实施例提供的用于呈现信息的方法提供了一种具体的确定应答会话信息和应答灯光信息的方法，通过文本应答信息，确定了应答会话信息，并通过确定用户状态信息和确定文本应答信息的类别，最终确定应答灯光信息，提升了应答服务所提供的应答会话信息和应答灯光信息的精准度。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于呈现信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于呈现信息的装置500可以包括：语音信号获取单元501，被配置成获取语音输入信号；文本信息确定单元502，被配置成基于语音输入信号，确定对应语音输入信号的文本信息；应答信息确定单元503，被配置成响应于文本信息指示会话模式，基于文本信息，确定应答会话信息和应答灯光信息；应答信息呈现单元504，被配置成经由呈现终端同时呈现应答会话信息和应答灯光信息。

在本实施例的一些可选实现方式中，文本信息确定单元502进一步被配置成以下任意一项：基于语音输入信号以及基于声道模型和语音知识的技术，确定对应语音输入信号的文本信息；基于语音输入信号以及模板匹配的技术，确定对应语音输入信号的文本信息；以及基于语音输入信号以及预先训练的语义识别模型，确定对应语音输入信号的文本信息。

在本实施例的一些可选实现方式中，应答信息确定单元503进一步被配置成以下任意一项：基于文本信息和预先存储的应答规则数据库，确定应答会话信息和应答灯光信息；基于文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息。

在本实施例的一些可选实现方式中，应答信息确定单元503包括(图中未示出)：状态信息确定子单元，被配置成基于文本信息，确定用户状态信息；应答文本确定子单元，被配置成基于文本信息和预先训练的语义应答模型，确定文本应答信息；应答会话确定子单元，被配置成基于文本应答信息，确定应答会话信息；应答灯光确定子单元，被配置成基于用户状态信息、文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息。

在本实施例的一些可选实现方式中，状态信息确定子单元进一步被配置成以下任意一项：从文本信息中提取用户状态信息；将文本信息所匹配的用户状态查询规则中的文本信息所对应的用户状态信息，确定为用户状态信息；将文本信息输入用户状态预测模型，得到用户状态预测模型预测的用户状态信息。

在本实施例的一些可选实现方式中，应答灯光确定子单元进一步被配置成以下至少一项：若用户状态信息为沮丧、文本应答信息的类别为振奋，根据人体对橙色光线的生理反应为振奋，确定应答灯光信息为橙色光线；若用户状态信息为压力，文本应答信息的类别为放松，根据人体对粉色光线的生理反应为放松，确定应答灯光信息为粉色光线；若用户状态信息为疲劳，文本应答信息的类别为生机，根据人体对绿色光线的生理反应为生机，确定应答灯光信息为绿色光线；若用户状态信息为疼痛，文本应答信息的类别为安抚，根据人体对紫色光线的生理反应为安抚，确定应答灯光信息为紫色光线；若用户状态信息为焦躁，文本应答信息的类别为平静，根据人体对白色光线的生理反应为平静，确定应答灯光信息为白色光线。

在本实施例的一些可选实现方式中，装置还包括(图中未示出)：样本对话获取单元，被配置成获取样本对话集，样本对话集包括多段样本对话信息，样本对话信息包括文本信息、文本应答信息和文本灯光信息；其中，文本应答信息对应文本信息且用于确定应答会话信息，文本灯光信息对应文本信息且用于确定应答灯光信息；应答模型训练单元，被配置成将样本对话信息中的文本信息、文本应答信息和文本灯光信息作为训练样本，采用机器学习装置对语义应答模型进行训练。

在本实施例的一些可选实现方式中，样本对话获取单元中的样本对话集基于以下步骤确定：搜集包含预设文本信息的对话语料；从各对话语料中提取出各预设文本信息对应的文本应答信息和文本灯光信息；将各预设文本信息、各预设文本信息对应的文本应答信息和文本灯光信息组合生成多段样本对话，以形成样本对话集。

在本实施例的一些可选实现方式中，应答信息呈现单元540中呈现应答会话信息包括：以视频或音频呈现应答会话信息。

本申请实施例的用于呈现信息的装置500，通过获取语音输入信号，然后基于语音输入信号以及预先训练的语义识别模型，确定对应语音输入信号的文本信息；之后响应于文本信息指示会话模式，基于文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息；最后同时呈现应答会话信息和应答灯光信息。在这一过程中，可以根据用户的语音输入信号，生成应答会话信息以及生成应答灯光信息，从而从多个维度向用户呈现应答信息，提高了向用户呈现的应答信息的精准度。

应当理解，装置500中记载的诸单元可以与参考图2和图4描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

下面参考图6，其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括语音信号获取单元、文本信息确定单元、应答信息确定单元和应答信息呈现单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，语音信号获取单元还可以被描述为“获取语音输入信号的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取语音输入信号；基于语音输入信号，确定对应语音输入信号的文本信息；响应于文本信息指示会话模式，基于文本信息，确定应答会话信息和应答灯光信息；经由呈现终端同时呈现应答会话信息和应答灯光信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于呈现信息的方法，包括：

获取语音输入信号；

基于所述语音输入信号，确定对应所述语音输入信号的文本信息；

响应于所述文本信息指示会话模式，基于所述文本信息，确定应答会话信息和应答灯光信息，包括：基于所述文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息；在训练上述语义应答模型时，采集会话模式下的各种语音输入信号，作为样本语音信号；然后人工标记样本语音信号对应的文本应答信息和文本灯光信息；之后将样本语音信号作为语义应答模型的输入、文本应答信息和文本灯光信息作为语义应答模型的输出，不断调整优化语义应答模型的结构和参数，使语义应答模型的识别结果逼近人工标记的结果；

经由呈现终端同时呈现所述应答会话信息和所述应答灯光信息。

2.根据权利要求1所述的方法，其中，所述基于所述语音输入信号，确定对应所述语音输入信号的文本信息包括以下任意一项：

基于所述语音输入信号以及基于声道模型和语音知识的技术，确定对应所述语音输入信号的文本信息；

基于所述语音输入信号以及模板匹配的技术，确定对应所述语音输入信号的文本信息；以及

基于所述语音输入信号以及预先训练的语义识别模型，确定对应所述语音输入信号的文本信息。

3.根据权利要求1所述的方法，其中，所述基于所述文本信息，确定应答会话信息和应答灯光信息包括：

基于所述文本信息和预先存储的应答规则数据库，确定应答会话信息和应答灯光信息。

4.根据权利要求1所述的方法，其中，所述基于所述文本信息，确定应答会话信息和应答灯光信息包括：

基于所述文本信息，确定用户状态信息；

基于所述文本信息，确定文本应答信息；

基于文本应答信息，确定应答会话信息；

基于所述用户状态信息、所述文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息。

5.根据权利要求4所述的方法，其中，所述基于所述文本信息，确定用户状态信息包括以下任意一项：

从所述文本信息中提取用户状态信息；

将所述文本信息所匹配的用户状态查询规则中的文本信息所对应的用户状态信息，确定为用户状态信息；

将所述文本信息输入用户状态预测模型，得到用户状态预测模型预测的用户状态信息。

6.根据权利要求4或5任意一项所述的方法，其中，所述基于所述用户状态信息、所述文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息包括以下至少一项：

若所述用户状态信息为沮丧、所述文本应答信息的类别为振奋，根据人体对橙色光线的生理反应为振奋，确定应答灯光信息为橙色光线；

若所述用户状态信息为压力，所述文本应答信息的类别为放松，根据人体对粉色光线的生理反应为放松，确定应答灯光信息为粉色光线；

若所述用户状态信息为疲劳，所述文本应答信息的类别为生机，根据人体对绿色光线的生理反应为生机，确定应答灯光信息为绿色光线；

若所述用户状态信息为疼痛，所述文本应答信息的类别为安抚，根据人体对紫色光线的生理反应为安抚，确定应答灯光信息为紫色光线；

若所述用户状态信息为焦躁，所述文本应答信息的类别为平静，根据人体对白色光线的生理反应为平静，确定应答灯光信息为白色光线；

若所述用户状态信息为发热，所述文本应答信息的类别为冷却，根据人体对蓝色光线的生理反应为冷却，确定应答灯光信息为蓝色光线；

若所述用户状态信息为害怕，所述文本应答信息的类别为勇敢，根据人体对红色光线的生理反应为勇敢，确定应答灯光信息为红色光线；

若所述用户状态信息为犹豫，所述文本应答信息的类别为坚定，根据人体对棕色光线的生理反应为坚定，确定应答灯光信息为棕色光线。

7.根据权利要求3所述的方法，其中，所述方法还包括：

获取样本对话集，所述样本对话集包括多段样本对话信息，所述样本对话信息包括文本信息、文本应答信息和文本灯光信息；其中，所述文本应答信息对应所述文本信息且用于确定应答会话信息，所述文本灯光信息对应所述文本信息且用于确定应答灯光信息；

将所述样本对话信息中的文本信息、文本应答信息和文本灯光信息作为训练样本，采用机器学习方法对所述语义应答模型进行训练。

8.根据权利要求7所述的方法，其中，所述样本对话集基于以下步骤确定：

搜集包含预设文本信息的对话语料；

从各所述对话语料中提取出各所述预设文本信息对应的文本应答信息和文本灯光信息；

将各所述预设文本信息、各所述预设文本信息对应的文本应答信息和文本灯光信息组合生成多段样本对话，以形成所述样本对话集。

9.根据权利要求1所述的方法，其中，所述呈现所述应答会话信息包括：

以视频或音频呈现所述应答会话信息。

10.一种用于呈现信息的装置，包括：

语音信号获取单元，被配置成获取语音输入信号；

文本信息确定单元，被配置成基于所述语音输入信号，确定对应所述语音输入信号的文本信息；

应答信息确定单元，被配置成响应于所述文本信息指示会话模式，基于所述文本信息，确定应答会话信息和应答灯光信息，包括：基于所述文本信息和预先训练的语义应答模型，确定应答会话信息和应答灯光信息；在训练上述语义应答模型时，采集会话模式下的各种语音输入信号，作为样本语音信号；然后人工标记样本语音信号对应的文本应答信息和文本灯光信息；之后将样本语音信号作为语义应答模型的输入、文本应答信息和文本灯光信息作为语义应答模型的输出，不断调整优化语义应答模型的结构和参数，使语义应答模型的识别结果逼近人工标记的结果；

应答信息呈现单元，被配置成经由呈现终端同时呈现所述应答会话信息和所述应答灯光信息。

11.根据权利要求10所述的装置，其中，所述文本信息确定单元进一步被配置成以下任意一项：

12.根据权利要求10所述的装置，其中，所述应答信息确定单元进一步被配置成：

13.根据权利要求10所述的装置，其中，所述应答信息确定单元包括：

状态信息确定子单元，被配置成基于所述文本信息，确定用户状态信息；

应答文本确定子单元，被配置成基于所述文本信息，确定文本应答信息；

应答会话确定子单元，被配置成基于文本应答信息，确定应答会话信息；

应答灯光确定子单元，被配置成基于所述用户状态信息、所述文本应答信息和人体对光线、色彩的生理反应，确定应答灯光信息。

14.根据权利要求13所述的装置，其中，所述状态信息确定子单元进一步被配置成以下任意一项：

从所述文本信息中提取用户状态信息；

15.根据权利要求13或14任意一项所述的装置，其中，所述应答灯光确定子单元进一步被配置成以下至少一项：

16.根据权利要求12所述的装置，其中，所述装置还包括：

样本对话获取单元，被配置成获取样本对话集，所述样本对话集包括多段样本对话信息，所述样本对话信息包括文本信息、文本应答信息和文本灯光信息；其中，所述文本应答信息对应所述文本信息且用于确定应答会话信息，所述文本灯光信息对应所述文本信息且用于确定应答灯光信息；

应答模型训练单元，被配置成将所述样本对话信息中的文本信息、文本应答信息和文本灯光信息作为训练样本，采用机器学习装置对所述语义应答模型进行训练。

17.根据权利要求16所述的装置，其中，所述样本对话获取单元中的所述样本对话集基于以下步骤确定：

搜集包含预设文本信息的对话语料；

18.根据权利要求10所述的装置，其中，所述应答信息呈现单元中所述呈现所述应答会话信息包括：

以视频或音频呈现所述应答会话信息。

19.一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。