CN116881404A

CN116881404A - 基于对话的提词方法、装置以及存储介质

Info

Publication number: CN116881404A
Application number: CN202310972788.1A
Authority: CN
Inventors: 张焱; 张华宾; 李娟�; 林铭
Original assignee: Beijing Dushi Technology Co ltd
Current assignee: Beijing Dushi Technology Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-10-13

Abstract

本申请公开了一种基于对话的提词方法、装置以及存储介质。其中，一种基于对话的提词方法，包括：在对话过程中，采集第一用户的语音信息；通过预先设定的对话机器人生成与语音信息对应的回复信息；以及将回复信息发送至与第一用户对话的第二用户的显示器。

Description

基于对话的提词方法、装置以及存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于对话的提词方法、装置以及存储介质。

背景技术

网络直播作为新媒体的代表，也是一种新兴行业，随着网络建设与部署的进一步加速发展，网络直播这一种在互联网上公开播出即时影像的娱乐形式正在被越来越多的人们接受。由于网络直播有着高实时性与高互动性等特点，也成为各大在线影音平台扩大影响力，以及吸引用户的重要方式。

在直播过程中，一般通过提词器来提醒主播接下来的流程以及台词，但是提词器中显示的台词都是根据剧本提前输入的。因此当主播遇到不在剧本中的话题时，则无法根据提词器来进行回答，影响直播效果。并且这种情况也会出现在线上会议等其他的线上对话的场景上。

在这种情况下，可以根据人工现场提示来回应不在剧本中的话题。但是，无论是在提词板上书写进行提示，还是临时修改提词器中的内容，都会延长回复时间，从而导致无法及时回复，影响直播或者会议效率。

针对上述的现有技术中存在的线上对话过程中提词器内容僵化，用户无法根据提词器及时回复，造成的线上对话效率低以及效果差的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请的实施例提供了一种基于对话的提词方法、装置以及存储介质，以至少解决现有技术中存在的线上对话过程中提词器内容僵化，用户无法根据提词器及时回复，造成的线上对话效率低以及效果差的技术问题。

根据本申请实施例的一个方面，提供了一种基于对话的提词方法，包括：在对话过程中，采集第一用户的语音信息；通过预先设定的对话机器人生成与语音信息对应的回复信息；以及将回复信息发送至与第一用户对话的第二用户的显示器。

根据本申请实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本申请实施例的另一个方面，还提供了一种基于对话的提词装置，包括：信息采集模块，用于在对话过程中，采集第一用户的语音信息；信息生成模块，用于通过预先设定的对话机器人生成与语音信息对应的回复信息；以及信息发送模块，用于将回复信息发送至与第一用户对话的第二用户的显示器。

根据本申请实施例的另一个方面，还提供了一种基于对话的提词装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：在对话过程中，采集第一用户的语音信息；通过预先设定的对话机器人生成与语音信息对应的回复信息；以及将回复信息发送至与第一用户对话的第二用户的显示器。

在本申请实施例中，语音采集模块采集第一用户的语音信息，预先根据第二用户的语料信息进行训练的对话机器人，生成符合第二用户的性格的回复信息，从而第二用户可以根据生成的回复信息回应第一用户。相应的，语音采集模块采集第二用户的语音信息，预先根据第一用户的语料信息进行训练的对话机器人生成符合第一用户的性格的回复信息，从而第一用户可以根据生成的回复信息回应第二用户。

综上，在多个用户进行直播或者线上会议等线上对话的情况下，通过提词系统的对话机器人自动生成回复信息，从而分别为多个用户进行现场提词。从而当某个用户遇到知识盲区等无法回应的情况时，可以根据生成的回复信息，及时回应其他用户，避免了因无法回应而拖慢直播或者会议进度的情况，保证了直播或者会议效率。并且由于对话机器人生成的回复信息符合用户性格，在用户根据回复信息进行回应时，也不会发生回复生硬而影响直播或者会议效果的情况。进而解决了现有技术中存在的线上对话过程中提词器内容僵化，用户无法根据提词器及时回复，造成的线上对话效率低以及效果差的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是用于实现根据本申请实施例1所述的方法的计算设备的硬件结构框图；

图2A是根据本申请实施例1所述的基于对话的提词系统的示意图；

图2B是根据本申请实施例1所述的基于对话的提词系统的又一个示意图；

图3是根据本申请实施例1所述的基于对话的提词系统的模块图；

图4是根据本申请实施例1的第一个方面所述的基于对话的提词方法的流程示意图；

图5A是根据本申请实施例1所述的第二用户的显示器的界面图；

图5B是根据本申请实施例1所述的第一用户的显示器的界面图；

图6是根据本申请实施例1所述的基于对话的提词系统的另一个模块图；

图7是根据本申请实施例2所述的基于对话的提词装置的示意图；以及

图8是根据本申请实施例3所述的基于对话的提词装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例，提供了一种基于对话的提词方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现基于对话的提词方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本申请实施例中的基于对话的提词方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的基于对话的提词方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

图2A以及图2B是根据本实施例所述的提词系统的示意图，图3是根据本实施例所述的提词系统的模块图，参照图2A、图2B以及图3所示，该系统包括：语音采集模块311、语音识别模块312、语音/文本转换模块313、对话机器人314以及文本输出模块315。

并且该系统还包括：语音采集模块321、语音识别模块322、语音/文本转换模块323、对话机器人324以及文本输出模块325。

其中，用户130使用麦克风110与显示器120，用户230使用麦克风210和显示器220。并且麦克风110、显示器120、麦克风210以及显示器220分别与提词系统300连接。

并且图2A是根据本实施例所述的多个用户在同一个房间中进行直播对话的示意图，图2B是根据本实施例所述的多个用户在不同房间中进行直播对话的示意图。参考图2A以及图2B所示，用户130和用户230可以在一个房间的一个镜头中进行直播对话，也可以在不同房间中进行线上连麦，此处不作具体限定。

此外，本技术方案除了应用于直播的场景中，还可以应用于线上会议等线上对话的场景中，此处不作具体限定。

其中语音采集模块311与麦克风110连接，用于采集麦克风110收录的音频信息，并将采集的音频信息发送至语音识别模块312。

语音识别模块312接收到语音采集模块采集的音频信息，并从音频信息中识别出用户130的语音信息，并将识别到的用户130的语音信息发送至语音/文本转换模块313。

语音/文本转换模块313接收到语音识别模块312发送的用户130的语音信息，并将该语音信息进行文本转换，从而得到相应的第一文本信息。之后语音/文本转换模块313将第一文本信息分别发送给对话机器人314和文本输出模块315。

对话机器人314接收到语音/文本转换模块313发送的第一文本信息，根据第一文本信息生成相应的符合用户230用户特征的回复信息，并将回复信息发送至文本输出模块315。其中对话机器人314是预先根据用户230与其他人对话的语料信息进行训练生成的。

文本输出模块315接收到语音/文本转化模块313发送的第一文本信息和对话机器人314发送的回复信息，之后将第一文本信息和回复信息生成第二文本信息，并将该第二文本信息发送至用户230的显示器220进行显示。

此外，语音采集模块321与麦克风210连接，文本输出模块325与显示器220连接，从而语音采集模块321、语音识别模块322、语音/文本转换模块323、对话机器人324以及文本输出模块325，依照上述的语音采集模块311、语音识别模块312、语音/文本转换模块313、对话机器人314以及文本输出模块315生成第二文本信息的操作，根据麦克风210收录的音频信息生成相应的第三文本信息，并将第三文本信息发送至显示器120，此处不再赘述。

需要说明的是，系统中的麦克风110、显示器120、麦克风210、显示器220以及提词系统300均可适用上面所述的硬件结构。

在上述运行环境下，根据本实施例的第一个方面，提供了一种基于对话的提词方法，该方法由图2A图2B中所示的提词系统实现。图4示出了该方法的流程示意图，参考图4所示，该方法包括：

S402：在对话过程中，采集第一用户的语音信息；

S404：通过预先设定的对话机器人生成与语音信息对应的回复信息；以及

S406：将回复信息发送至与第一用户对话的第二用户的显示器。

具体地，例如，第一用户(例如，用户130)和第二用户(例如，用户230)正在同一个线上直播间进行直播对话。其中用户130(即，第一用户)的麦克风110收录用户130(即，第一用户)的语音信息，用户230(即，第二用户)的麦克风210收录用户230(即，第二用户)的语音信息。

当用户130(即，第一用户)使用麦克风110向用户230(即，第二用户)进行提问，例如“XXXXXXXX1”。则语音采集模块311采集到用户130(即，第一用户)的语音信息(即，“XXXXXXXX1”)，之后将该语音信息发送至语音识别模块312(S402)。

进一步地，语音识别模块312根据预先标记的用户130的声纹信息，识别接收到的语音信息的声纹是否为用户130的声纹一致。在语音信息的声纹与用户130的声纹一致的情况下，语音识别模块312判定该语音信息是用户130的发出的，则将该语音信息发送给语音/文本转换模块313。

进一步地，语音/文本转换模块313接收到语音信息后，将语音信息转换为相应的文本信息(即，第一文本信息)。之后语音/文本转换模块313将第一文本信息发送给对话机器人314。

进一步地，对话机器人314接收到第一文本信息(即，“XXXXXXXX1”)，之后对话机器人314根据用户230(即，第二用户)的用户特征，生成符合用户230(即，第二用户)性格的回复信息。其中用户230(即，第二用户)的用户特征至少包括用户230(即，第二用户)的语言特征和性格特征。并且其中对话机器人314为预先根据用户230(即，第二用户)的语料信息进行训练的。

例如，用户230(即，第二用户)的性格较为活泼，则对话机器人314针对用户130(即，第一用户)的提问“XXXXXXXX1”，生成符合用户230(即，第二用户)的性格的回复信息，例如回复信息为“XXXXXXXX2”(S404)。

进一步地，对话机器人314将生成的回复信息(即，“XXXXXXXX2”)发送给文本输出模块315。

文本输出模块315接收对话机器人314发送的回复信息(即，“XXXXXXXX2”)。之后文本输出模块315将回复信息发送给用户230(即，第二用户)的显示器220，从而在显示器220进行显示，为用户230(即，第二用户)进行提词(S406)。

之后用户230(即，第二用户)可以根据显示器220显示的回复信息(即，“XXXXXXXX2”)，回复用户130(即，第一用户)。

当用户230(即，第二用户)通过麦克风210回复用户130(即，第一用户)，例如，回复的语音信息为“XXXXXXXX2”。则语音采集模块321采集用户230(即，第二用户)的语音信息(即，“XXXXXXXX2”)，之后将该语音信息发送至语音识别模块322。

之后依照上述的语音采集模块311、语音识别模块312、语音/文本转换模块313、对话机器人314以及文本输出模块315生成回复信息的操作，语音采集模块321、语音识别模块322、语音/文本转换模块323、对话机器人324以及文本输出模块325生成符合用户130(即，第一用户)性格的回复信息，例如回复信息为“XXXXXXXX3”。并且文本输出模块325将回复信息“XXXXXXXX3”发送至用户130(即，第一用户)的显示器120，从而在显示器120进行显示，为用户130(即，第一用户)进行提词。则用户130(即，第一用户)可以根据回复信息(即，“XXXXXXXX3”)，回复用户230(即，第二用户)。

从而提词系统300依次为用户130(即，第一用户)和用户230(即，第二用户)提供回复信息进行提词，直到直播结束。

正如背景技术中所述的，在直播过程中，一般通过提词器来提醒主播接下来的流程以及台词，但是提词器中显示的台词都是根据剧本提前输入的。因此当主播遇到不在剧本中的话题时，则无法根据提词器来进行回答，影响直播效果。并且这种情况也会出现在线上会议等其他的线上对话的场景上。在这种情况下，可以根据人工现场提示来回应不在剧本中的话题。但是，无论是在提词板上书写进行提示，还是临时修改提词器中的内容，都会延长回复时间，从而导致无法及时回复，影响直播或者会议效率。

针对以上所述的技术问题，通过本申请实施例的技术方案，语音采集模块采集第一用户的语音信息，预先根据第二用户的语料信息进行训练的对话机器人，生成符合第二用户的性格的回复信息，从而第二用户可以根据生成的回复信息回应第一用户。相应的，语音采集模块采集第二用户的语音信息，预先根据第一用户的语料信息进行训练的对话机器人生成符合第一用户的性格的回复信息，从而第一用户可以根据生成的回复信息回应第二用户。

此外，尽管此处以将用户130作为第一用户，并将用户230作为第二用户为例说明本技术方案中的提词过程，但是也可以将用户230作为第一用户，并将用户130作为第二用户。此处不再赘述。

可选地，通过预先设定的对话机器人生成与语音信息对应的回复信息的操作，包括：通过语音/文本转换模块根据语音信息生成相应的第一文本信息；以及通过对话机器人根据第二用户的用户特征，生成与第一文本信息对应的回复信息。

具体地，语音/文本转换模块313接收到语音识别模块312发送的语音信息后，利用预设的语音转文字工具将语音信息转换为相应的文本信息(即，第一文本信息)。之后语音/文本转换模块313将第一文本信息发送给对话机器人314。

进一步地，对话机器人314接收到第一文本信息(即，“XXXXXXXX1”)，之后对话机器人314根据用户230(即，第二用户)的语言特征与性格特征，生成符合用户230(即，第二用户)性格的回复信息。

此外，尽管此处以语音/文本转换模块313和对话机器人314为例说明对语音信息进行处理的过程，对于语音/文本转换模块323和对话机器人324也同样适用于该过程。此处不再赘述。

从而，本技术方案通过将语音信息转换为第一文本信息，并将该第一文本信息进行分析，从而加快回复信息的生成速度，进而通过对话机器人生成相应的回复信息，提高了回复效率。

可选地，通过对话机器人根据第二用户的用户特征，生成与第一文本信息对应的回复信息的操作，包括：利用预先设置的自然语言处理模型分析第一文本信息；以及根据第二用户的用户特征以及第一文本信息的分析结果，生成符合第二用户的用户特征的回复信息。

具体地，对话机器人314利用预先设置的自然语言处理模型，对第一文本信息进行意图分类，确定第一文本信息相应的意图。例如，第一文本信息用于询问年龄，则对话机器人314通过自然语言处理模块对第一文本信息进行意图分类，从而对话机器人314确定的第一文本信息的意图为询问年龄。

进一步地，对话机器人314预先设置的自然语言处理模型对第一文本信息进行情感识别，例如判断第一文本信息是气话或者反话。

进一步地，对话机器人314根据第一文本信息的意图和情感，在预设的模板库中进行检索，当对话机器人314检索到对应的回复模板时，例如回复模板为“XXXXXXXX2”。则对话机器人314将该回复模板“XXXXXXXX2”作为回复信息。其中模板库中的回复模板为根据与用户230(即，第二用户)日常对话对应的语料信息所生成的，因此模板库中的回复模板符合用户230(即，第二用户)的用户特征。

当对话机器人314未在预设的模板库中检索到对应的回复模板时，则通过对话生成模型，根据第一文本信息的意图与情感，生成符合用户230(即，第二用户)性格的回复信息。

此外，尽管此处以对话机器人314为例说明生成回复信息的过程，对于对话机器人324也同样适用于该过程。此处不再赘述。

从而本技术方案通过对用户的语音信息进行分析，可以准确判断用户的意图和情感，从而可以准确生成回复信息。进而使得生成的回复信息更加合理以及适应场景。

可选地，将回复信息发送至与第一用户对话的第二用户的显示器的操作，包括：根据第一文本信息和回复信息，生成第二文本信息；以及将第二文本信息发送至第二用户的显示器。

具体地，语音/文本转换模块313将第一文本信息发送给对话机器人314的同时，还将第一文本信息发送给文本输出模块315。

进一步地，对话机器人314根据第一文本信息生成相应的回复信息后，将该回复信息发送给文本输出模块315。

进一步地，文本输出模块315依次接收到语音/文本转换模块313发送的第一文本信息(即，“XXXXXXXX1”)，以及对话机器人314发送的回复信息(即，“XXXXXXXX2”)。参考图5A所示，第一文本信息“XXXXXXXX1”对应于用户130(即，第一用户)，回复信息“XXXXXXXX2”对应于对话机器人314，之后文本输出模块315将第一文本信息以及回复信息进行组合以及排版，从而生成第二文本信息。

进一步地，文本输出模块315将第二文本信息发送给用户230(即，第二用户)的显示器220。从而显示器220显示如图5A所示的内容。

此外，依照上述生成第二文本信息的方式，文本输出模块325根据用户230(即，第二用户)的语音信息以及对话机器人324生成的相应的回复信息，生成第三文本信息，并通过用户130(即，第一用户)的显示器120进行显示，具体如图5B所示。

从而，本技术方案通过对第一文本信息和回复信息进行版式上的处理，生成易于用户理解的第二文本信息，方便用户快速分辨并获取信息。

可选地，方法还包括：通过语音采集模块采集通过相应的麦克风收录的音频信息；以及通过语音识别模块在麦克风收录的音频信息中确定第一用户的语音信息。

具体地，麦克风110设置于用户130的直播间，在直播过程中，麦克风110进行收音，则语音采集模块311采集麦克风110收录的音频信息。其中音频信息包括用户130的语音信息以及房间内其他人的语音信息。之后语音采集模块311将采集的音频信息发送至语音识别模块312。

进一步地，语音识别模块312接收到语音采集模块311发送的音频信息后，根据用户130的声纹信息，从音频信息中识别出用户130的语音信息。

此外，麦克风210设置于用户230的直播间，在直播过程中，麦克风210进行收音，则语音采集模块321采集麦克风210收录的音频信息。其中音频信息包括用户230的语音信息以及房间内其他人的语音信息。之后语音采集模块321将采集的音频信息发送至语音识别模块322。

进一步地，语音识别模块322接收到语音采集模块321发送的音频信息后，根据用户230的声纹信息，从音频信息中识别出用户230的语音信息。

从而，本技术方案通过语音识别模块容易地识别出相应用户的语音信息，可以准确地将用户的语音信息转换为文本信息，并且避免了将采集的所有信息都生成文本，减少了文本的生成时间。

可选地，方法还包括：在对话开始前，采集第一用户的声纹信息；以及将第一用户的声纹信息进行标记。

具体地，例如，在直播开始之前，语音采集模块311采集用户130(即，第一用户)的语音信息，并将该语音信息发送至语音识别模块312。

语音识别模块312接收到语音采集模块311发送的用户130(即，第一用户)的语音信息，将该语音信息作为用户130(即，第一用户)的声纹信息，并将该声纹信息进行标记。从而语音识别模块312可以根据标记的声纹信息从语音采集模块311采集的音频信息中确定用户130(即，第一用户)的语音信息。

此外，在直播开始之前，语音采集模块321采集用户230(即，第二用户)的语音信息，并将该语音信息发送至语音识别模块322。

语音识别模块322接收到语音采集模块321发送的用户230(即，第二用户)的语音信息，将该语音信息作为用户230(即，第二用户)的声纹信息，并将该声纹信息进行标记。从而语音识别模块322可以根据标记的声纹信息从语音采集模块321采集的音频信息中确定用户230(即，第二用户)的语音信息。

从而本技术方案通过语音识别模块预先对相应的用户的声纹信息进行标记以产生记忆，从而可以轻易从音频信息中确定相应用户的语音信息，提高了语音信息的识别速度。

可选地，方法还包括：在对话开始前，获取第二用户的语料信息；以及根据语料信息，对对话机器人进行训练。

具体地，例如在直播开始前，对话机器人314收集用户230(即，第二用户)的在预定时间内(例如六个月内)的对话信息，并将该对话信息作为语料信息。

进一步地，对话机器人314通过对语料信息进行词法分析、句法分析及语义分析等操作，从而对对话机器人进行训练，确定用户230(即，第二用户)用户特征。从而使对话机器人生成的回复信息符合用户230(即，第二用户)的性格。

此外，例如在直播开始前，对话机器人324收集用户130(即，第一用户)的在预定时间内(例如六个月内)的对话信息，并将该对话信息作为语料信息。

进一步地，对话机器人324通过对语料信息进行词法分析、句法分析及语义分析等操作，从而对对话机器人进行训练，确定用户130(即，第一用户)的用户特征。从而使对话机器人生成的回复信息符合用户130(即，第一用户)的性格。

从而，本技术方案通过对话机器人预先根据相应用户的语料信息进行训练，从而使得对话机器人在生成回复信息时，可以根据用户的性格进行生成，提高了回复信息的生成速度。

图6是根据本实施例所述的提词系统的另一个模块图。在另一个实施例中，参考图2A、图2B以及图6所示，用户130可以为主播助理，用户230为主播。在直播过程中，麦克风110采集用户130音频信息。其中该音频信息为用户130身为主播助理为主播(即，用户230)提供的直播内容。之后提词系统300的语音采集模块311采集麦克风110收录的用户130的音频信息，并将该音频信息发送至语音识别模块312。语音识别模块312接收到语音采集模块311发送的音频信息后，根据用户130的声纹信息，从音频信息中识别出用户130的语音信息。之后语音识别模块312将该语音信息发送至语音/文本转换模块313。语音/文本转换模块313将接收到的语音信息转换为文本信息，之后将该文本信息发送至文本输出模块315。之后文本输出模块315将接收到的文本信息发送至用户230的显示器220。从而用户230可以根据显示器220显示的文本信息进行直播。

从而本技术方案可以将主播助理(即，用户130)的语音信息直接转换为文本信息，并将该文本信息在主播(即，用户230)的显示器上进行显示。从而主播(即，用户230)可以根据显示器上显示的主播助理(即，用户130)提示的内容进行直播，从而可以保持直播的进度，提高了直播的效率，保证了直播效果。

此外，在另一个实施例中，参考图2A、图2B以及图6所示，用户130可以为主播助理，用户230为主播。在直播过程中，麦克风110采集用户130音频信息。其中该音频信息为用户130身为主播助理为主播(即，用户230)提供的直播大纲。之后提词系统300的语音采集模块311采集麦克风110收录的用户130的音频信息，并将该音频信息发送至语音识别模块312。语音识别模块312接收到语音采集模块311发送的音频信息后，根据用户130的声纹信息，从音频信息中识别出用户130的语音信息。之后语音识别模块312将该语音信息发送至语音/文本转换模块313。语音/文本转换模块313将接收到的语音信息转换为文本信息(即，第一文本信息)，之后将该文本信息(记，第一文本信息)分别发送至文本输出模块315和对话机器人314。

由于该文本信息(即，第一文本信息)为用户130提供的直播大纲，因此对话机器人314接收到文本信息(即，第一文本信息)之后，对该文本信息(即，第一文本信息)进行补充，从而得到一个完整的补充文本。例如直播大纲(即，第一文本信息)为“故宫的历史背景”，则对话机器人314则会根据该直播大纲(即，“故宫的历史背景”)进行补充操作，例如补充后得到的补充文本为“北京故宫现在是“故宫博物院”，历史上则是明清两朝的皇宫，北京故宫的建造有三个不可不知的历史背景，第一，故宫是按照《周礼·考工记》帝都营建原则建造……”。之后对话机器人314将补充文本发送给文本输出模块315。

文本输出模块315分别接收到对话机器人314发送的补充文本和语音/文本转换模块313发送的直播大纲(即，第一文本信息)，之后将补充文本和直播大纲(即，第一文本信息)进行组合，生成用于直播的第二文本信息。

之后文本输出模块将第二文本信息发送至用户230的显示器220。从而用户230可以根据显示器220显示的第二文本信息进行直播。

从而本技术方案可以将主播助理(即，用户130)的提供的直播大纲进行智能补充，从而得到一个可以用于直播的文本信息，并将该文本信息在主播(即，用户230)的显示器上进行显示。从而主播(即，用户230)可以根据显示器上显示的文本信息进行直播，从而可以保持直播的进度，提高了直播的效率，保证直播效果。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。

从而根据本实施例，语音采集模块采集第一用户的语音信息，预先根据第二用户的语料信息进行训练的对话机器人，生成符合第二用户的性格的回复信息，从而第二用户可以根据生成的回复信息回应第一用户。相应的，语音采集模块采集第二用户的语音信息，预先根据第一用户的语料信息进行训练的对话机器人生成符合第一用户的性格的回复信息，从而第一用户可以根据生成的回复信息回应第二用户。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图7示出了根据本实施例所述的基于对话的提词装置700，该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示，该装置700包括：信息采集模块710，用于在对话过程中，采集第一用户的语音信息；信息生成模块720，用于通过预先设定的对话机器人生成与语音信息对应的回复信息；以及信息发送模块730，用于将回复信息发送至与第一用户对话的第二用户的显示器。

可选地，信息生成模块720，包括：第一生成子模块，用于通过语音/文本转换模块，根据语音信息生成相应的第一文本信息；以及第二生成子模块，用于通过对话机器人，根据第二用户的用户特征，生成与第一文本信息对应的回复信息。

可选地，第二生成子模块，包括：信息分析单元，用于利用预先设置的自然语言处理模型，分析第一文本信息；以及第一生成单元，用于根据第二用户的用户特征以及第一文本信息的分析结果，生成符合第二用户的用户特征的回复信息。

可选地，信息发送模块730，包括：第三生成子模块，用于根据第一文本信息和回复信息，生成第二文本信息；以及信息发送子模块，用于将第二文本信息发送至第二用户的显示器。

可选地，装置700还包括：第二信息采集模块，用于通过语音采集模块采集通过相应的麦克风收录的音频信息；以及第一信息确定模块，用于通过语音识别模块在麦克风收录的音频信息中确定第一用户的语音信息。

可选地，装置700还包括：第三信息采集模块，用于在对话开始前，采集第一用户的声纹信息；以及信息标记模块，用于将第一用户的声纹信息进行标记。

可选地，装置700还包括：信息获取模块，用于在对话开始前，获取第二用户的语料信息；以及第二信息确定模块，用于根据语料信息，对对话机器人进行训练。

实施例3

图8示出了根据本实施例的第一个方面所述的基于对话的提词装置800，该装置800与根据实施例1的第一个方面所述的方法相对应。参考图8所示，该装置800包括：处理器810；以及存储器820，与处理器810连接，用于为处理器810提供处理以下处理步骤的指令：在对话过程中，采集第一用户的语音信息；通过预先设定的对话机器人生成与语音信息对应的回复信息；以及将回复信息发送至与第一用户对话的第二用户的显示器。

可选地，通过预先设定的对话机器人生成与语音信息对应的回复信息的操作，包括：通过语音/文本转换模块，根据语音信息生成相应的第一文本信息；以及通过对话机器人，根据第二用户的用户特征，生成与第一文本信息对应的回复信息。

可选地，通过对话机器人，根据第二用户的用户特征，生成与第一文本信息对应的回复信息的操作，包括：利用预先设置的自然语言处理模型，分析第一文本信息；以及根据第二用户的用户特征以及第一文本信息的分析结果，生成符合第二用户的用户特征的回复信息。

可选地，装置800还包括：通过语音采集模块采集通过相应的麦克风收录的音频信息；以及通过语音识别模块在麦克风收录的音频信息中确定第一用户的语音信息。

可选地，装置800还包括：在对话开始前，采集第一用户的声纹信息；以及将第一用户的声纹信息进行标记。

可选地，装置800还包括：在对话开始前，获取第二用户的语料信息；以及根据语料信息，对对话机器人进行训练。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于对话的提词方法，其特征在于，包括：

在对话过程中，采集第一用户的语音信息；

通过预先设定的对话机器人生成与所述语音信息对应的回复信息；以及

将所述回复信息发送至与所述第一用户对话的第二用户的显示器。

2.根据权利要求1所述的方法，其特征在于，通过预先设定的对话机器人生成与所述语音信息对应的回复信息的操作，包括：

通过语音/文本转换模块根据所述语音信息生成相应的第一文本信息；以及

通过所述对话机器人根据所述第二用户的用户特征，生成与所述第一文本信息对应的回复信息。

3.根据权利要求2所述的方法，其特征在于，通过所述对话机器人根据所述第二用户的用户特征，生成与所述第一文本信息对应的回复信息的操作，包括：

利用预先设置的自然语言处理模型分析所述第一文本信息；以及

根据所述第二用户的用户特征以及第一文本信息的分析结果，生成符合所述第二用户的用户特征的回复信息。

4.根据权利要求3所述的方法，其特征在于，将所述回复信息发送至与所述第一用户对话的第二用户的显示器的操作，包括：

根据所述第一文本信息和回复信息生成第二文本信息；以及

将所述第二文本信息发送至所述第二用户的显示器。

5.根据权利要求1所述的方法，其特征在于，还包括：

通过语音采集模块采集通过相应的麦克风收录的音频信息；以及

通过语音识别模块在所述麦克风收录的音频信息中确定所述第一用户的语音信息。

6.根据权利要求5所述的方法，其特征在于，还包括：

在对话开始前，采集所述第一用户的声纹信息；以及

将所述第一用户的声纹信息进行标记。

7.根据权利要求1所述的方法，其特征在于，还包括：

在对话开始前，获取所述第二用户的语料信息；以及

根据所述语料信息，对所述对话机器人进行训练。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。

9.一种基于对话的提词装置，其特征在于，包括：

信息采集模块，用于在对话过程中，采集第一用户的语音信息；

信息生成模块，用于通过预先设定的对话机器人生成与所述语音信息对应的回复信息；以及

信息发送模块，用于将所述回复信息发送至与所述第一用户对话的第二用户的显示器。

10.一种基于对话的提词装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

在对话过程中，采集第一用户的语音信息；