CN114302028A

CN114302028A - 提词方法、装置以及电子设备、存储介质、程序产品

Info

Publication number: CN114302028A
Application number: CN202111599894.7A
Authority: CN
Inventors: 刘妍; 李鑫
Original assignee: Shell Housing Network Beijing Information Technology Co Ltd
Current assignee: Shell Housing Network Beijing Information Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-08

Abstract

本公开提供了一种提词方法、装置以及电子设备、存储介质、计算机程序产品，涉及计算机技术领域，其中的方法包括：将采集的语音信息转化为对应的文字信息；对文字信息进行分析处理，获得与文字信息相对应的识别信息；根据识别信息确定与语音信息相对应的动作执行信息；基于识别信息和动作执行信息生成与语音信息相对应的提词内容信息；本公开的方法、装置以及电子设备、存储介质，解决了传统题词器提词信息固定的问题，能够根据对话信息的意图实时生成题词内容，可以提高经纪人等服务人员的讲解水平，节约服务人员的时间和精力，提高服务质量，提高用户的使用感受度。

Description

提词方法、装置以及电子设备、存储介质、程序产品

技术领域

本公开涉及计算机技术领域，尤其涉及一种提词方法、装置以及电子设备、存储介质、计算机程序产品。

背景技术

目前，网络直播技术已经较为成熟，且被广泛应用，主播与用户可以在网络直播间讨论产品等。网络直播技术可以在多个领域中应用。例如，用户在买房或租房的过程中，实地看房是一种较为常规的方式，但是这种方式比较耗费时间和精力。目前，线上直播带看平台成为经纪人重要的辅助工具，为用户看房节省了大量的时间和精力。但是，平台经纪人在直播带看中由于从业年限、地域、经历等不同，带来带看能力不均、无辅助信息靠脑力记忆、无标准流程临场发挥等问题，并且，题词器提供的是固定文案，导致客户看房体验不佳，影响了线上带看的效果。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种提词方法、装置以及电子设备、存储介质、计算机程序产品。

根据本公开实施例的第一方面，提供一种提词方法，包括：将采集的语音信息转化为对应的文字信息；对所述文字信息进行分析处理，获得与所述文字信息相对应的识别信息；根据所述识别信息确定与所述语音信息相对应的动作执行信息；基于所述识别信息和所述动作执行信息生成与所述语音信息相对应的提词内容信息。

可选地，所述将采集的语音信息转化为对应的文字信息包括：通过ASR模型对所述语音信息进行识别处理获得所述文字信息；其中，所述ASR模型包括：训练好的声学模型和语音模型。

可选地，所述对所述文字信息进行分析处理，获得与所述文字信息相对应的识别信息包括：通过训练好的NLU模型对所述文字信息进行识别处理，获得所述识别信息；其中，所述识别信息包括：句式、情绪、情感、槽位、标签中的至少一种信息。

可选地，所述根据所述识别信息确定与所述语音信息相对应的动作执行信息包括：通过对话管理模型对所述识别信息进行对话状态分析处理，确定所述动作执行信息；其中，所述对话管理模型包括：对话状态追踪模型、对话策略模型。

可选地，所述基于所述识别信息和所述动作执行信息生成与所述语音信息相对应的提词内容信息包括：基于所述动作执行信息和所述识别信息获取对应的答复模板；通过训练好的NLG模型并基于所述识别信息，从知识库中确定所述答复模板中的待填充内容信息；使用所述待填充内容信息在所述答复模板中进行填充处理，生成所述提词内容信息。

可选地，所述语音信息包括：经纪人与用户的对话语音信息；其中，采集所述语音信息的场景包括：直播带看场景。

根据本公开实施例的第二方面，提供一种提词装置，包括：文字转换模块，用于将采集的语音信息转化为对应的文字信息；意图获取模块，用于对所述文字信息进行分析处理，获得与所述文字信息相对应的识别信息；动作确定模块，用于根据所述识别信息确定与所述语音信息相对应的动作执行信息；提词生成模块，用于基于所述识别信息和所述动作执行信息生成与所述语音信息相对应的提词内容信息。

可选地，所述文字转换模块，用于通过ASR模型对所述语音信息进行识别处理获得所述文字信息；其中，所述ASR模型包括：训练好的声学模型和语音模型。

可选地，所述意图获取模块，用于通过训练好的NLU模型对所述文字信息进行识别处理，获得所述识别信息；其中，所述识别信息包括：句式、情绪、情感、槽位、标签中的至少一种信息。

可选地，所述动作确定模块，用于通过对话管理模型对所述识别信息进行对话状态分析处理，确定所述动作执行信息；其中，所述对话管理模型包括：对话状态追踪模型、对话策略模型。

可选地，所述提词生成模块，用于基于所述动作执行信息和所述识别信息获取对应的答复模板；通过训练好的NLG模型并基于所述识别信息，从知识库中确定所述答复模板中的待填充内容信息；使用所述待填充内容信息在所述答复模板中进行填充处理，生成所述提词内容信息。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述的方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述的方法。

基于本公开上述实施例提供的提词方法、装置以及电子设备、存储介质、计算机程序产品，将采集的语音信息转化为对应的文字信息并获得识别信息，根据识别信息确定动作执行信息，用以生成提词内容信息；解决了传统题词器提词信息固定的问题，能够根据对话信息的意图实时生成题词内容，可以提高经纪人等服务人员的讲解水平，节约服务人员的时间和精力，提高服务质量，提高用户的使用感受度。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。图1为本公开的提词方法的一个实施例的流程图；

图1为本公开的提词方法的一个实施例的流程图；

图2为ASR模型的结构示意图；

图3为本公开的提词方法的一个实施例中的生成提词内容信息的流程图；

图4为本公开的提词装置的一个实施例的结构示意图；

图5是本公开的电子设备的一个实施例的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，现有的提词方法纠错准确性较低，并且所需的训练语料庞大，训练成本高昂，在线纠错阶段延时比较严重。

本公开提供的提词方法，将采集的语音信息转化为对应的文字信息并获得识别信息，根据识别信息确定动作执行信息，基于识别信息和动作执行信息生成与语音信息相对应的提词内容信息。本公开提供的提词方法解决了传统题词器提词信息固定的问题，能够根据对话信息的意图实时生成题词内容，可以提高经纪人等服务人员的讲解水平，节约服务人员的时间和精力，提高服务质量，提高用户的使用感受度。

示例性方法

图1为本公开的提词方法的一个实施例的流程图，如图1所示的方法包括步骤：S101-S106。下面对各步骤分别进行说明。

S101，将采集的语音信息转化为对应的文字信息。

在一个实施例中，采集语音信息的场景包括直播带看场景等，语音信息包括经纪人与用户的对话语音信息等。例如，当经纪人在线上直播带看平台与用户进行互动时，采集经纪人与用户的对话语音信息。虽然在本公开中以直播带看场景为例对本公开实施例的技术方案进行了介绍，然而应理解本公开的实施例并不限于此，例如还可以是VR带看场景等，本公开实施例对此不做限制。此外，应理解，本公开的实施例对采集的经纪人和用户的对话语音信息的获得方式不作限制，例如可以是在用户和经纪人授权的情况下在例如直播带看场景中直接采集用户和经纪人的对话语音。

S102，对文字信息进行分析处理，获得与文字信息相对应的识别信息。

S103，根据识别信息确定与语音信息相对应的动作执行信息。

S104，基于识别信息和动作执行信息生成与语音信息相对应的提词内容信息。

本公开的提词方法，能够根据语音信息获取用户的识别信息，实时智能地给出与用户意图相对应的题词内容，可以提高经纪人等服务人员的讲解水平，节约服务人员的时间和精力，提高用户的使用感受度。

在一个实施例中，可以采用多种方法将采集的语音信息转化为对应的文字信息。例如，通过ASR(Automatic Speech Recognition，自动语音识别)模型对语音信息进行识别处理获得文字信息，ASR模型包括训练好的声学模型和语音模型。通过ASR模型能够自动进行语音转换，将经纪人和用户对话的语音信息转化为文字，可以使用现有的多种ASR模型。

ASR模型通过语音增强结合基于大数据训练的声学模型和语言模型提高语音识别效果。ASR模型是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言，结构如图2所示。ASR模型的构建过程包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的声学模型和语言模型；而识别过程通常是在线完成的，对用户实时的语音进行自动识别。

识别过程通常又可以分为前端和后端两大模块：前端模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等；后端模块的作用是利用训练好的声学模型和语言模型对用户说话的特征向量进行统计模式识别(又称解码)，得到其包含的文字信息。后端模块还存在一个自适应的反馈模块，可以对用户的语音进行自学习，从而对声学模型和语音模型进行必要的校正，进一步提高识别的准确率。

前端模块进行的语音端点检测又称VAD，从信号中检测有效语音的起始点和终止点，并把静音和噪声作为干扰信号从原始数据中去除。在用VAD算法确定静音和语音数据的开始和起止点之前，需要对语音数据进行处理，再计算语音数据的开始和起止点，此过程称为数据的预处理，VAD算法基于能量计算和过零检测实现。

声学模型把语音的声学特征分类对应到(即对声学特征进行解码等处理)音素或字词。声学特征可以有多种，例如为MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)。在求音素分界点的过程中，以及在有了分界点后计算时，声学模型需要计算一个音素与一段语音信号的匹配程度。把语音信号分成许多帧，对于每一帧通过傅里叶变换等一系列操作，转换成一个特征向量。声学模型主要用来构建输入语音和输出声学单元之间的概率映射关系。

语言模型把音素或字词解成一个完整的句子。汉语语言模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音(或笔划串，或数字串)的重码问题。

语言模型可以用来描述不同字词之间的概率搭配关系，使得识别出的句子更像自然文本。解码器结合声学单元概率数值和语言模型在不同搭配上的打分进行筛选，最终得到最可能的识别结果。

在一个实施例中，可以采用多种方法获得与文字信息相对应的识别信息。例如，通过训练好的NLU(Natural Language Understanding，自然语言理解)模型对文字信息进行识别处理，获得识别信息，识别信息包括用户意图以及其他信息。例如，识别信息包括句式、情绪、情感、槽位、标签等信息中的一种或多种信息。

自然语言处理模型(NLP模型)包括自然语言理解NLU模型和自然语言生成NLG(Natural Language Generation)模型。NLU模型负责理解内容，获取识别信息，NLG模型负责生成内容。例如，当用户在线上直播带看平台的语音信息为“银行卡还贷时如何自动扣款”，首先需要利用NLU模型获得用户识别信息，理解用户的意图是什么，例如，利用NLG模型确定用户的意图是想了解“如何开通自动还款功能”。

NLU模型可以使用现有的多种模型，可以采用现有的多种方法进行训练。NLU模型进行自然语言理解对语音转化的文字通过主动学习、置信度学习等，通过单轮到多轮意图转变处理等进行意图、句式、情感、槽位的分析，识别出句式、情绪、情感、槽位、标签等。

NLU模型的识别部分采用主动学习+置信度学习+单轮到多轮意图转变处理完成，能够提高模型的训练效率，提高对文字信息进行识别处理的理解度和准确度。在NLU模型的训练时，主动学习在保证NLU模型的分类器精度不降低的情况下尽可能的降低人工的标注成本。通过迭代方式在样本集中挑选能够最大程度提升模型效果和泛化能力的样本，由标注专家进行标注，采用基于池策略进行样例选择，训练出较准确的识别模型。

置信度学习(confident learning,简写为CL)能够提高NLU模型识别的准确率，更好地识别出错误标签。CL基于噪声数据剪枝的原理，通过计数对噪声进行评估，并对实例进行排序以进行置信训练。CL仅依赖于潜在的正确类别，而不依赖于数据。CL通过估计给定带噪标签与潜在正确标签之间的条件概率分别来识别错误标签。单轮到多轮意图识别解决的是单轮无法准确理解用户的意图问题，能够使NLU模型更好地理解用户的意图。

在一个实施例中，根据识别信息确定与语音信息相对应的动作执行信息可以采用多种方法。可以通过现有的多种对话管理(dialogue management，简写为DM)模型对识别信息进行对话状态分析处理，确定动作执行信息；对话管理模型包括对话状态追踪模型、对话策略模型。

DM模型可以采用现有的多种DM模型。DM模型可以根据对话历史上下文、对话进展信息、用户特征信息等对识别信息进行分析处理，更新本轮对话状态，推断用户意图，确定动作执行信息，用以确定合适的动作。DM模型由DST(dialog state tracking，对话状态追踪)和DP(dialog policy，对话策略)两个模型组成。

对话状态是过去到现在对话的一个详细描述，能够提供足够的信息的一种结构化的数据。对话状态可以有三种方式表达：维护所有状态的一个分布，这种方式状态数程指数增加；使用状态分组和状态分割减少跟踪复杂度，不断的减少不确定性；假设不同槽值的转移概率是相互独立的，或者具有非常简单的依赖关系，能够就将状态数从意图和槽值数的指数减少到了线性。

对话状态追踪DST模型的作用是基于识别信息确定对话状态信息，并追踪当前的状态等。将0～(t-n)之前的对话轮次看成一个整体，属于历史信息，认为是既定事实，分析(t-n+1)～t这个区间的对话状态，对这个区间的对话依次处理识别对话状态并且更新对话状态。DP模型用于确定动作执行信息，确定合适的动作等。

在一个实施例中，可以采用多种方法基于识别信息和动作执行信息生成与语音信息相对应的提词内容信息。图3为本公开的提词方法的一个实施例中的生成提词内容信息的流程图，如图3所示的方法包括步骤：S301-S303。下面对各步骤分别进行说明。

S301，基于动作执行信息和识别信息获取对应的答复模板。例如，如果动作执行为房屋所在楼层等，对应的识别信息为楼层等，则基于提供房价信息和对应的识别信息获取用于提供房价信息的模板。

S302，通过训练好的NLG模型并基于识别信息，从知识库中确定答复模板中的待填充内容信息。

在一个实施例中，知识库包括知识图谱等，根据识别信息在建立的知识图谱中返回查找到的待填充内容信息，使用待填充内容信息填充对应的答复模板，生成提词内容信息。通过对话语句式、情感、意图和上下文以及交互场景、用户信息等分析，结合知识图谱各个子图的知识点，使用NLG技术完成不同场景知识点的文本描述，生成呈现给经纪人端的提词内容信息。

NLG模型通过模板+模型的生成内容，并根据预设的规则排序得到最终的结果。为了丰富句子表达方式，进行多模板挖掘，由于初级聚类效果不理想，单独类别中的句子类型差异较大，因此采用二级聚类方式对一级聚类结果进行再次聚类进行优化。一级聚类采用k_means和word2vec结合的方式，用word2vec训练句子词向量，然后用k_means对句子向量进行聚类(这种方式能够较好的保留句子的结构信息)；二级聚类采用k_means和tf_idf的方式，聚类更精准(k_means和+f_idf初级聚类会丢失长句子结构，但是在数据量级较少时聚类效果更精准)。最终采用模板+rank(规则+模型)的方式生成完整回答。

在一个实施例中，采集用户在线上直播带看平台上与经纪人的对话语音，通过ASR模型对语音信息进行识别处理获得文字信息“这房子在几楼”。通过训练好的NLU模型对“这房子在几楼”进行识别处理，获得识别信息为用户想要的“楼层”信息；通过对话管理模型对识别信息进行对话状态分析处理，确定动作执行信息为需要做出“房屋所在楼层”的动作。

基于动作执行信息和识别信息获取对应的答复模板，通过训练好的NLG模型并基于识别信息从知识库中确定答复模板中的待填充内容信息：“总共6层，房子在第5层”。将待填充内容信息：“总共6层，房子在第5层”在答复模板中进行填充处理，生成提词内容信息“楼栋内总共6层，房子在第5层”，将提词内容信息发送给经纪人，作为提示答案，让经纪人采纳作为专业的回答。

示例性装置

在一个实施例中，如图4所示，本公开提供一种提词装置，包括：文字转换模块41、意图获取模块42、动作确定模块43和提词生成模块44。文字转换模块41将采集的语音信息转化为对应的文字信息。意图获取模块42对文字信息进行分析处理，获得与文字信息相对应的识别信息。动作确定模块43根据识别信息确定与语音信息相对应的动作执行信息。提词生成模块44基于识别信息和动作执行信息生成与语音信息相对应的提词内容信息。

在一个实施例中，文字转换模块41通过ASR模型对语音信息进行识别处理获得文字信息，ASR模型包括训练好的声学模型和语音模型。意图获取模块42通过训练好的NLU模型对文字信息进行识别处理，获得识别信息，识别信息包括：句式、情绪、情感、槽位、标签中的至少一种信息。

动作确定模块43通过对话管理模型对识别信息进行对话状态分析处理，确定动作执行信息；对话管理模型包括对话状态追踪模型、对话策略模型。提词生成模块44基于动作执行信息和识别信息获取对应的答复模板，通过训练好的NLG模型并基于识别信息，从知识库中确定答复模板中的待填充内容信息；使用待填充内容信息在答复模板中进行填充处理，生成提词内容信息。

图5是本公开的电子设备的一个实施例的结构图，如图5所示，电子设备51包括一个或多个处理器511和存储器512。

处理器511可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备51中的其他组件以执行期望的功能。

存储器512可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器511可以运行程序指令，以实现上文的本公开的各个实施例的提词方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备51还可以包括：输入装置513以及输出装置514等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入设备513还可以包括例如键盘、鼠标等等。该输出装置514可以向外部输出各种信息。该输出设备514可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备51中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备51还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的提词方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的提词方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在一个实施例中，本公开提供一种计算机程序，包括计算机可读代码，其特征在于，当计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上任一实施例中的提词方法。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

上述实施例中的提词方法、装置以及电子设备、存储介质、计算机程序产品，将采集的语音信息转化为对应的文字信息并获得识别信息，根据识别信息确定动作执行信息，用以生成提词内容信息；解决了传统题词器提词信息固定的问题，能够根据对话信息的意图实时生成题词内容，可以提高经纪人等服务人员的讲解水平，节约服务人员的时间和精力，提高服务质量，提高用户的使用感受度。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种提词方法，其特征在于，包括：

将采集的语音信息转化为对应的文字信息；

对所述文字信息进行分析处理，获得与所述文字信息相对应的识别信息；

根据所述识别信息确定与所述语音信息相对应的动作执行信息；

基于所述识别信息和所述动作执行信息生成与所述语音信息相对应的提词内容信息。

2.如权利要求1所述的方法，所述将采集的语音信息转化为对应的文字信息包括：

通过ASR模型对所述语音信息进行识别处理获得所述文字信息；

其中，所述ASR模型包括：训练好的声学模型和语音模型。

3.如权利要求1所述的方法，所述对所述文字信息进行分析处理，获得与所述文字信息相对应的识别信息包括：

通过训练好的NLU模型对所述文字信息进行识别处理，获得所述识别信息其中，所述识别信息包括：句式、情绪、情感、槽位、标签中的至少一种信息。

4.如权利要求1所述的方法，所述根据所述识别信息确定与所述语音信息相对应的动作执行信息包括：

通过对话管理模型对所述识别信息进行对话状态分析处理，确定所述动作执行信息；

其中，所述对话管理模型包括：对话状态追踪模型、对话策略模型。

5.如权利要求1所述的方法，所述基于所述识别信息和所述动作执行信息生成与所述语音信息相对应的提词内容信息包括：

基于所述动作执行信息和所述识别信息获取对应的答复模板；

通过训练好的NLG模型并基于所述识别信息，从知识库中确定所述答复模板中的待填充内容信息；

使用所述待填充内容信息在所述答复模板中进行填充处理，生成所述提词内容信息。

6.如权利要求1至5任一项所述的方法，其中，

所述语音信息包括：经纪人与用户的对话语音信息；

其中，采集所述语音信息的场景包括：直播带看场景。

7.一种提词装置，其特征在于，包括：

文字转换模块，用于将采集的语音信息转化为对应的文字信息；

意图获取模块，用于对所述文字信息进行分析处理，获得与所述文字信息相对应的识别信息；

动作确定模块，用于根据所述识别信息确定与所述语音信息相对应的动作执行信息；

提词生成模块，用于基于所述识别信息和所述动作执行信息生成与所述语音信息相对应的提词内容信息。

8.一种电子设备，其特征在于，所述电子设备包括：

处理器；用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一项所述的方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，当所述计算机指令被处理器执行时实现权利要求1-6中任一项所述的方法。