CN117076635A

CN117076635A - 信息处理的方法、装置、设备和存储介质

Info

Publication number: CN117076635A
Application number: CN202311040839.3A
Authority: CN
Inventors: 陈献钊; 唐昌礼; 于文一; 孙广智; 谭天; 李伟; 卢璐; 马泽君
Original assignee: Tsinghua University; Beijing Youzhuju Network Technology Co Ltd
Current assignee: Tsinghua University; Beijing Youzhuju Network Technology Co Ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-11-17

Abstract

本公开的实施例涉及信息处理的方法、装置、设备和存储介质。在本公开的一些方面，该方法包括获取音频内容和提示项；基于音频内容的音频特征表示和提示项的文本特征表示，确定第一中间特征表示；利用一组预设的查询特征表示，将第一中间特征表示转换为第二中间特征表示；以及至少基于第二中间特征表示，生成用于响应提示项的内容。以此方式，本公开的实施例能够支持对于音频内容的理解，从而提高内容生成的质量。

Description

信息处理的方法、装置、设备和存储介质

技术领域

本公开的示例实施例总体涉及计算机领域，特别地涉及信息处理的方法、装置、设备和存储介质。

背景技术

随着计算机技术的发展，机器学习等技术已经被广泛地应用到人们生活中的各个方面。人们可以利用基于机器学习实现的各种类型的模型来完成多种类型的任务。在一个典型的应用场景中，人们例如可以通过向语言模型来提供提示项(也称为提示词或引导词)，来指引语言模型生成期望的内容。然而，这样的语言模型的处理能力较为单一，其仅能够分析或处理用户输入的文本内容，这很难全面满足用户的交互需求。

发明内容

在本公开的第一方面，提供了一种信息处理方法。该方法包括：获取第一音频内容和针对第一音频内容的第一提示项，第一提示项用于指示目标模型响应第一音频内容中包括的目标请求；以及提供针对目标请求的响应内容，其中响应内容是由目标模型根据目标请求并基于第一音频内容所生成。

在本公开的第二方面，提供了一种信息处理方法。该方法包括：获取第二音频内容和针对第二音频内容的第二提示项，第二提示项用于指示目标模型基于第二音频内容来响应第二提示项；以及提供目标内容，其中目标内容是由目标模型至少基于第二音频内容的非话语部分所生成。

在本公开的第三方面，提供了一种信息处理方法。该方法包括：获取音频内容和提示项；基于音频内容的音频特征表示和提示项的文本特征表示，确定第一中间特征表示；利用一组预设的查询特征表示，将第一中间特征表示转换为第二中间特征表示；以及至少基于第二中间特征表示，生成用于响应提示项的内容。

在本公开的第四方面，提供了一种信息处理装置。该装置包括：获取模块，被配置为获取第一音频内容和针对第一音频内容的第一提示项，第一提示项用于指示目标模型响应第一音频内容中包括的目标请求；以及提供模块，被配置为提供针对目标请求的响应内容，其中响应内容是由目标模型根据目标请求并基于第一音频内容所生成。

在本公开的第五方面，提供了一种信息处理装置。该装置包括：获取模块，被配置为获取第二音频内容和针对第二音频内容的第二提示项，第二提示项用于指示目标模型基于第二音频内容来响应第二提示项；以及提供模块，被配置为提供目标内容，其中目标内容是由目标模型至少基于第二音频内容的非话语部分所生成。

在本公开的第六方面，提供了一种信息处理装置。该装置包括：获取模块，被配置为获取音频内容和提示项；确定模块，被配置为基于音频内容的音频特征表示和提示项的文本特征表示，确定第一中间特征表示；转换模块，被配置为利用一组预设的查询特征表示，将第一中间特征表示转换为第二中间特征表示；以及生成模块，被配置为至少基于第二中间特征表示，生成用于响应提示项的内容。

在本公开的第七方面，提供了一种电子设备。该电子设备包括：至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到所述至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令在由至少一个处理单元执行时使电子设备执行第一方面、第二方面和/或第三方面的方法。

在本公开的第八方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第一方面、第二方面和/或第三方面的方法。

应当理解，本内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其它特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的示例交互界面；

图3A至图3C示出了根据本公开的一些实施例的示例场景；

图4示出了根据本公开的一些实施例的目标模型的示例结构的示意图；

图5A至图5C示出了根据本公开的一些实施例的信息处理的过程的流程图；

图6A至图6C示出了根据本公开的一些实施例的信息处理的装置的框图；以及

图7示出了能够实施本公开的多个实施例的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其它明确的和隐含的定义。

在本文中，除非明确说明，“响应于A”执行一个步骤并不意味着在“A”之后立即执行该步骤，而是可以包括一个或多个中间步骤。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获得、使用、存储或删除)应当遵循相应法律法规及相关规定的要求。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当根据相关法律法规通过适当的方式对本公开所涉及信息的类型、使用范围、使用场景等告知相关用户并获得相关用户的授权，其中，相关用户可以包括任何类型的权利主体，例如个人、企业、团体。

例如，在响应于接收到用户的主动请求时，向相关用户发送提示信息，以明确地提示相关用户，其请求执行的操作将需要获得和使用到相关用户的信息，从而使得相关用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供信息。

作为一种可选的但非限制性的实现方式，响应于接收到相关用户的主动请求，向相关用户发送提示信息的方式，例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或“不同意”向电子设备提供信息的选择控件。

可以理解的是，上述通知和获得用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联关系，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

如前文所提及的，传统的语言模型通常仅能够分析或处理用户输入的文本内容。这导致模型所获取的信息通常仅为文本模态，然而，在一些场景中，人们期望模型能够理解并分析其它模态的内容，例如，音频内容。

根据本公开的第一方面，本公开实施例提供一种信息处理方案。该方案中，可以获取第一音频内容和针对该第一音频内容的第一提示项。该第一提示项用于指示目标模型响应第一音频内容中包括的目标请求(例如，用户可以通过音频内容来进行提问)。进一步地，可以提供针对目标请求的响应内容，其中响应内容是由目标模型根据目标请求并基于第一音频内容所生成。以此方式，模型可以基于提示项的指引，对音频内容中所包含的各类请求进行相应的响应。

根据本公开的第二方面，本公开的实施例还提供一种信息处理方案。该方案中，可以获取第二音频内容和针对该第二音频内容的第二提示项。该第二提示项用于指示目标模型基于第二音频内容来响应第二提示项。进一步地，可以提供目标内容，其中目标内容是由目标模型至少基于第二音频内容的非话语部分所生成。以此方式，可以根据在利用模型生成内容的过程中，对音频内容的非话语部分进行理解和分析，从而提高内容生成的准确性和有效性。

根据本公开的第三方面，本公开实施例还提供了一种信息处理方案。该方案中，可以获取音频内容和提示项，并可以基于音频内容的音频特征表示和提示项的文本特征表示确定第一中间特征表示。进一步地，可以利用一组预设的查询特征表示，将第一中间特征表示转换为第二中间特征表示。进而可以至少基于第二中间特征表示，生成用于响应提示项的内容。以此方式，本公开的实施例能够实现音频信息和提示项信息的交叉融合，从而提高内容的生成质量。

以下将参考附图详细描述本公开的一些示例实施例。

示例环境

图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。如图1所示，环境100可以包括终端设备115，该终端设备115可以是与用户相关联的任何适当电子设备。

终端设备115可以获取音频内容105和提示项110。这样的音频内容105可以包括由用户上传的音频文件或者用户通过音频采集设备(例如，麦克风等)所录制的音频内容。相应地，提示项110(也称为prompt)可以是用户输入到终端设备115中的文本内容。或者，用户也可以通过输入语音内容并由终端设备115将其转换为文本类型的提示项。

进一步地，终端设备115可以与电子设备120进行交互，以利用电子设备120中所部署的目标模型125来处理音频内容105和提示项110。

在一些实施例中，这样的目标模型125可以是基于机器学习技术所实现。关于该目标模型125的具体实现细节将在下文参考图4详细描述，在此暂不详叙。

此外，电子设备120可以包括用于部署目标模型125的单独电子设备或者多个分离或集中部署的电子设备。本公开不旨在对电子设备120的形态进行限定。

进一步地，目标模型125可以基于音频内容105和提示项110来生成内容130，并将该内容130发送至终端设备115。相应地，终端设备115例如可以通过交互界面来向用户提供内容130。

在一些实施例中，内容130例如可以包括文本内容。备选地或附加地，内容130例如也可以包括诸如音频内容等适当类型的媒体内容。

在一些实施例中，终端设备115可以是任意类型的移动终端、固定终端或便携式终端，包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、个人通信系统(PCS)设备、个人导航设备、个人数字助手(PDA)、音频/视频播放器、数码相机/摄像机、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。在一些实施例中，终端设备115也能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。电子设备120可以是能够提供计算能力的各种类型的计算系统/服务器，包括但不限于大型机、边缘计算节点、云环境中的计算设备，等等。

应当理解，仅出于示例性的目的描述环境100中各个元素的结构和功能，而不暗示对于本公开的范围的任何限制。

示例界面

如参考图1所讨论的，终端设备115例如可以利用交互界面来获取音频内容105和提示项110，并相应地提供由目标模型125所生成的内容130。图2示出了根据本公开的一些实施例的示例界面200，该界面200例如可以是由终端设备115所提供。

如图2所示，界面200可以包括用于输入音频内容的控件220和控件230。示例性地，用户可以通过触发控件220来调用终端设备115的音频采集设备，并可以实时获取一定时长的音频内容210。作为另一示例，用户例如还可以通过触发控件230可以重新输入一段新的音频内容。

备选地或附加地，除利用音频采集设备来获取实时音频外，用户例如还可以通过适当的操作(例如，拖拽等方式)来上传音频文件。

在一些实施例中，用户例如可以仅被允许输入一段音频内容或上传一段音频文件。备选地或附加地，用户例如可以被允许上传多段音频内容。在一些实施例中，可以对输入的音频内容的总时长进行限制。

此外，如图2所示，界面200还可以包括输入控件250，以用于接收用户输入的提示项。示例性地，用户可以通过在输入控件250中键入提示项。或者，用户例如还可以通过语音录入的方式，并由终端设备将录入的语音转换为文本提示项。

在一些实施例中，界面200还可以包括用于调整目标模型的生成的参数调整控件240。这样的参数调整控件例如可以用于控制目标模型的内容生成。例如，这样的示例参数可以包括“温度”参数，以控制目标模型生成内容的随机性和创造性。

示例性地，在用户通过输入控件250完成提示项的输入，并输入了相应音频内容210的情况下，终端设备115可以利用目标模型125来生成相应的内容。

以图2作为示例，输入的提示项261可以被呈现在内容区域260中。该内容区域260可以呈现由目标模型125根据提示项261和音频内容210所生成的内容262。

在一些实施例中，这样的内容262可以包括文本内容，其可以通过类似对话的样式在内容区域260中被呈现。

在一些实施例中，这样的内容262可以包括适当的媒体内容，其可以在内容区域260中被呈现或播放。例如，在内容262为音频内容的情况下，终端设备115可以自动地或响应于用户触发来播放所生成的音频内容。

基于以上所讨论的示例界面，本公开的实施例能够支持用户输入多模态的信息，以用于与目标模型交互，从而提高目标模型的信息分析和理解能力，并提升内容的生成质量。

示例交互场景

在一些场景中，提示项可能难以准确地表达用户的交互请求。根据本公开的实施例，可以在上传或录制的音频内容中指示相应的目标请求，并可以通过输入提示项来指示目标模型来对音频内容中所包括的目标请求进行响应。以此方式，本公开的实施例能够丰富信息输入的方式，并依靠目标模型的音频分析和理解能力来提高响应的准确度。

音频问答

图3A示出了根据本公开的一些实施例的示例交互场景300A。如图3A所示，终端设备115可以接收音频内容310，这样的音频内容310例如可以包括请求311。以图3A作为示例，该请求311可以是问询请求以指示目标模型回答相应的问题，例如，“请问XXX是怎么形成的”。

此外，终端设备115还可以获取提示项312(例如，“请详细回答问题”)，以用于指示目标模型125对音频内容310中所包括的请求311进行响应。

相应地，终端设备115可以提供由目标模型125基于音频内容310和提示项312所生成的内容313。基于这样的方式，本公开的实施例可以通过音频内容来确定目标模型待执行的动作。例如，目标模型125可以实现基于音频内容的语音问答。

通过提供这样的语音问答能力，本公开的实施例能够提高用户与目标模型交互的友好程度。例如，在诸如会议讨论等场景中，用户可以通过录制其它讨论方的提问，并通过输入提示项来获取与该提问相关的内容，从而提高提高用户参与讨论的效率。应当理解，这样的语音问答能力还可以适用其它适当的场景，从而提升用户与模型交互以获取内容的效率，并可以提高模型生成内容的质量。

音频推理

图3B示出了根据本公开的一些实施例的示例交互场景300B。如图3B所示，终端设备115可以接收音频内容320，这样的音频内容320例如可以包括请求321。以图3B作为示例，该请求321可以为推理请求，以指示目标模型125根据音频内容进行推理，例如，“请猜一猜我现在身处何种环境”。

此外，终端设备115还可以获取提示项322(例如，“请详细回答问题”)，以用于指示目标模型125对音频内容320中所包括的请求311进行响应。

相应地，终端设备115可以提供由目标模型125基于音频内容320和提示项322所生成的内容323。

在一些实施例中，这样的内容323可以是基于目标模型125对音频内容320进行分析所生成的。这样的音频内容320例如可包括用于指示请求321的请求部分以及其它的背景部分。

在一些实施例中，目标模型125例如可以基于与背景部分相关联的音频特征来生成内容323，而不是简单地通过将音频内容320转换为文本内容来进行分析和处理。

在一些实施例中，这样的音频特征例如可以包括非话语特征，也即其不与文本内容对应。例如，用户可能在地铁环境中采集了一段音频内容，并请求目标模型125来推理用户所处的环境。相应地，目标模型125在推理的过程可以基于该音频内容的背景部分(例如，周围人群的人声部分、或诸如地铁运行声相关的非话语部分)，来推理用户当前处于地铁环境中。

由此，本公开的实施例能够为用户提供基于音频内容的语音推理能力，从而提高用户与目标模型交互的友好程度。应当理解，这样的语音推理能力可以适用于任何适当的场景，以提升用户与模型交互以获取内容的效率，并可以提高模型生成内容的质量。

根据本公开的实施例，还可以获取音频内容和对应的提示项，并由目标模型基于音频内容的非话语特征来生成针对音频内容和提示项的目标内容。以此方式，本公开的实施例可以利用目标模型对于音频内容的分析能力，从而提高内容生成的质量。

故事生成

图3C示出了根据本公开的一些实施例的示例交互场景300A。如图3C所示，终端设备115可以接收音频内容331和对应的提示项332。这样的提示项332例如可以用于指示目标模型125基于音频内容331进行分析和创作。例如，提示项332可以为“基于音频，详细写个故事。你的故事应当和音频高度关联”。

相应地，终端设备115可以提供由目标模型125基于音频内容331和提示项332所生成的内容333。在生成内容333的过程中，目标模型125可以考虑音频内容331的非话语特征。

例如，音频内容331可以是下雨天所录制的音频，目标模型125可以基于提示项332并对该音频内容进行分析，从而生成对应的一段故事。

通过提供这样的故事生成能力，本公开的实施例能够协助用户进行内容的创作，并为用户在诸如写作等场景中提供灵感。

以上列出了根据本公开的实施例的一些示例交互场景，但是应当理解，本公开的精神还可以应用于其它适当的场景，例如，语音识别、语音翻译、音频字幕等基于语音的适当场景中。

还应当理解，虽然图3A至图3C仅示出了将一段音频内容作为输入，但是用户例如也可以输入多段音频内容以作为目标模型生成内容的基础。

此外，虽然图3A至图3C以文本内容作为示例来示出目标模型所生成的内容，但是应当理解的是，这样的内容也可以为其它适当类型的媒体内容。

示例模型架构

以下将参考图4来示出根据本公开的一些实施例的示例模型架构。图4示出了根据本公开的一些实施例的目标模型125的示例架构图400。

如图4所示，目标模型125可以包括音频编码模块420和文本编码模块450。音频编码模块420可以用于将用户输入的音频内容410编码为对应的音频特征表示。文本编码模块450则可以将用户输入的提示项440编码为对应的文本特征表示。应当理解，在包括多个音频内容410的情况下，其可以被拼接后进行编码，也可以分别编码后进行拼接。

应当理解，可以采用任何适当的编码模型来实现音频编码模块420和文本编码模块450，本公开不旨在对此进行限定。

进一步地，为了方便后续处理，还可以将文本特征表示460投影至与音频特征表示430对应的特征维度。进一步地，可以基于音频特征表示430和投影后的文本特征表示460来确定输入到转换器模块470的第一中间特征表示。例如，可以通过将音频特征表示430和投影后的文本特征表示460连接来确定第一中间特征表示。

进一步地，如图4所示，转换器模块470可以利用一组预设的查询特征表示471来将第一中间特征表示转换为第二中间特征表示480。这样的一组预设的查询特征表示471可以是基于下文所介绍的训练过程所确定的。在一些场景中，这样的一组预设的查询特征表示471可以包括预定数目的查询特征表示。

具体地，转换器模块470可以确定第一中间特征表示与该组预设的查询特征表示471之间的一组注意力(也称为交叉注意力)。进一步地，转换器模块470可以基于所确定一组注意力，并利用注意力机制来将第一中间特征表示转换为第二中间特征表示。

应当理解，可以利用适当的转换器模型来实现转换器模块470，其示例可以包括但不限于：Q-Former和线性变化器等。

附加地，如图4所示，第二中间特征表示480可以被提供至语言处理模块491，以用于生成针对音频内容410和提示项440的目标内容。

在一些实施例中，还可以基于第二中间表示480和提示项440来确定到语音处理模块491的第一输入。示例性地，可以确定与提示项440所对应的一个或多个令牌，并将第二中间表示与该一个或多个令牌组合为到语言处理模块491的输入信息。

在一些实施例中，提供至语言处理模块491的输入信息还可以包括第二输入，例如，微调模块492的一组微调参数。这样的微调模块492可以用于降低模型的训练成本并加速模型的收敛。示例性的，这样的微调模块492例如可以包括诸如Lora、P-tuning等任何适当的微调模型，本公开不旨在对此进行限定。

以此方式，通过设置一组预设的查询特征表示，本公开的实施例能够基于提示项来更为有效地获取音频内容中需要重点关注的特征，从而能够提高目标模型对于音频内容的分析和推理能力，从而提高内容生成的质量和效率。

以下将介绍目标模型125的训练过程。在一些实施例中，目标模型125中的音频编码模块420和语言处理模块491可以是已训练的模型，其参数在训练过程中可以保持固定。在一些实施例中，可以通过两轮训练过程来完成对目标模型125的训练。

在首轮训练过程中，可以在固定除查询特征表示471和转换器模块470外的其它参数的情况下，利用第一组训练数据来训练目标模型125。在一些实施例中，第一组训练数据可以包括与语音识别任务对应的第一组音频样本。

示例性地，在第一轮训练过程中，可以不输入提示项，而仅是将音频样本输入至目标模型400中以执行语音识别任务，并基于语音处理模块491的输出文本与该组音频样本的标注数据进行对比，并经由诸如交叉熵等损失函数来调整转换器模块的参数和该组查询特征表示。

在完成第一轮训练过程后，经调整的查询特征表示可以称为一组中间查询特征表示，转换器模块470的调整后参数称为第一组参数。

进一步地，可以利用第二组训练数据来执行第二训练过程。具体地，可以利用第二组训练数据来更新该组中间查询特征表示、转换器模块470的第一组参数和文本编码模块450的第二组参数。在利用了微调模块492的情况下，第二轮训练过程来可以协同地更新微调模块492的参数。

类似于第一轮训练过程，可以基于语音处理模块491的输出文本与该组音频样本的标注数据进行对比，并经由诸如交叉熵等损失函数来调整目标模型中未被固定的参数。

在一些实施例中，第二组训练数据可以包括与语音处理任务对应的第二组音频样本和一组训练提示项。也即，与第一轮训练数据过程不同，第二训练数据可以向目标模型125提供训练提示项，以进行全流程的训练。

在一些实施例中，第二轮训练过程中的语音处理任务也可以比第一轮训练过程更加丰富。示例性地，第二轮训练过程中的语音处理任务可以包括但不限于：语音识别任务、语音翻译任务、语音问答任务、音素识别任务、音频字幕任务等。

由此，可以通过语音识别任务来来固定目标模型的主体参数，并可以通过类型更加丰富的微调过程来进一步协同地确定目标模型的全部参数，由此，可以提高模型训练的效率和精度。

此外，由于语言处理模块491在训练过程中的参数保持固定，本公开的实施例还能够利用语言处理模块491的发散能力来支持未被训练的特定类型任务。例如，虽然第二训练训练过程可能不包括与故事生成场景对应的训练数据，但可以基于语言处理模块491的发散能力来支持这样的任务的处理。

基于以上所讨论的过程，本公开的实施例能够实现音频模态与文本模态的统一，使得目标模型能够更好地感知并理解音频内容，提高内容生成的质量。

示例过程

图5A示出了根据本公开的一些实施例的信息处理的过程500A的流程图。过程500A可以被实现在终端设备115处。下面参考图5A描述过程500A。

在框510，终端设备115获取第一音频内容和针对第一音频内容的第一提示项，第一提示项用于指示目标模型响应第一音频内容中包括的目标请求。

在框520，终端设备115提供针对目标请求的响应内容，其中响应内容是由目标模型根据目标请求并基于第一音频内容所生成。

在本公开的一些实施例中，目标请求包括问询请求和/或推理请求。

在本公开的一些实施例中，第一音频内容包括请求部分和背景部分，请求部分用于指示目标请求，并且响应内容至少基于与背景部分相关联的音频特征而被生成。

在本公开的一些实施例中，其中音频特征包括非话语特征。

图5B示出了根据本公开的一些实施例的信息处理的过程500B的流程图。过程500B可以被实现在终端设备115处。下面参考图5B描述过程500B。

在框530，终端设备115获取第二音频内容和针对第二音频内容的第二提示项，第二提示项用于指示目标模型基于第二音频内容来响应第二提示项。

在框540，终端设备115提供目标内容，其中目标内容是由目标模型至少基于第二音频内容的非话语特征所生成。

图5C示出了根据本公开的一些实施例的信息处理的过程500C的流程图。过程500C可以被实现在电子设备120处。下面参考图5C描述过程500C。

在框550，电子设备120获取音频内容和提示项。

在框560，电子设备120基于音频内容的音频特征表示和提示项的文本特征表示，确定第一中间特征表示。

在框570，电子设备120利用一组预设的查询特征表示，将第一中间特征表示转换为第二中间特征表示。

在框580，电子设备120至少基于第二中间特征表示，生成用于响应提示项的内容。

在本公开的一些实施例中，至少基于第二中间特征表示生成用于响应提示项的内容包括：基于第二中间特征表示和提示项，生成用于输入到语言处理模块的第一输入；以及由语言处理模块至少基于第一输入生成用于响应提示项的内容。

在本公开的一些实施例中，由语言处理模块至少基于第一输入生成用于响应提示项的内容包括：获取用于输入到语言处理模块的第二输入，第二输入包括与语言处理模块相关联的一组微调参数；以及由语言处理模块基于第一输入和第二输入生成用于响应提示项的内容。

在本公开的一些实施例中，基于音频内容的音频特征表示和提示项的文本特征表示确定第一中间特征表示包括：将文本特征表示投影至与音频特征表示对应的特征维度；以及基于音频特征表示和经投影的文本特征表示，确定第一中间特征表示。

在本公开的一些实施例中，利用一组预设的查询特征表示将第一中间特征表示转换为第二中间特征表示包括：确定第一中间特征表示与一组预设的查询特征表示之间的一组注意力；以及基于一组注意力，将第一中间特征表示转换为第二中间特征表示。

在本公开的一些实施例中，信息处理方法是由目标模型所执行，目标模型包括转换器模块，转换器模块用于将第一中间特征表示转换为第二中间特征表示，并且目标模型至少基于以下过程而被训练：确定一组初始的查询特征表示；以及在固定目标模型除转换器模块和和查询特征表示以外的其它参数的情况下，利用第一组训练数据来训练目标模型，以确定转换器模块的第一组参数和一组中间查询特征表示。

在本公开的一些实施例中，第一组训练数据包括与语音识别任务对应的第一组音频样本。

在本公开的一些实施例中，目标模型还包括文本编码模块，文本编码模块用于生成提示项的文本特征表示，并且目标模型还基于以下过程而被训练：利用第二组训练数据来训练目标模型，以至少更新转换器模块的第一组参数、一组中间查询特征表示、文本编码模块的第二组参数。

在本公开的一些实施例中，其中第二组训练数据包括与语音处理任务对应的第二组音频样本和一组训练提示项。

在本公开的一些实施例中，其中语音处理任务包括以下至少一项：语音识别任务、语音翻译任务、语音问答任务、音素识别任务、音频字幕任务。

示例装置和设备

图6A示出了根据本公开的某些实施例的信息处理装置600A的示意性结构框图。装置600A可以被实现为或者被包括在终端设备115中。装置600A中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图6A所示，装置600A包括第一获取模块610，被配置为获取第一音频内容和针对第一音频内容的第一提示项，第一提示项用于指示目标模型响应第一音频内容中包括的目标请求。装置600A还包括第一提供模块620，被配置为提供针对目标请求的响应内容，该响应内容是由目标模型根据目标请求并基于第一音频内容所生成。

在本公开的一些实施例中，其中音频特征包括非话语特征。

图6B示出了根据本公开的某些实施例的信息处理装置600B的示意性结构框图。装置600B可以被实现为或者被包括在终端设备115中。装置600B中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图6B所示，装置600B包括第二获取模块630，被配置为获取第二音频内容和针对第二音频内容的第二提示项，第二提示项用于指示目标模型基于第二音频内容来响应第二提示项。装置600B还包括第二提供模块640，被配置为提供目标内容，其中目标内容是由目标模型至少基于第二音频内容的非话语特征所生成。

图6C示出了根据本公开的某些实施例的信息处理装置600C的示意性结构框图。装置600C可以被实现为或者被包括在电子设备120中。装置600C中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图6C所示，装置600C包括第三获取模块650，被配置为获取音频内容和提示项。装置600C还包括确定模块660，被配置为基于音频内容的音频特征表示和提示项的文本特征表示，确定第一中间特征表示。装置600C还包括转换模块670，被配置为利用一组预设的查询特征表示，将第一中间特征表示转换为第二中间特征表示。装置600C还包括生成模块680，被配置为至少基于第二中间特征表示，生成用于响应提示项的内容。

在本公开的一些实施例中，生成模块680还被配置为基于第二中间特征表示和提示项，生成用于输入到语言处理模块的第一输入；以及由语言处理模块至少基于第一输入生成用于响应提示项的内容。

在本公开的一些实施例中，生成模块680还被配置为获取用于输入到语言处理模块的第二输入，第二输入包括与语言处理模块相关联的一组微调参数；以及由语言处理模块基于第一输入和第二输入生成用于响应提示项的内容。

在本公开的一些实施例中，确定模块660还被配置为将文本特征表示投影至与音频特征表示对应的特征维度；以及基于音频特征表示和经投影的文本特征表示，确定第一中间特征表示。

在本公开的一些实施例中，转换模块670还被配置为确定第一中间特征表示与一组预设的查询特征表示之间的一组注意力；以及基于一组注意力，将第一中间特征表示转换为第二中间特征表示。

图7示出了可以实施本公开的一个或多个实施例的电子设备700的框图。应当理解，图7所示出的电子设备700仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图7所示出的电子设备700可以用于实现图1的终端设备115、电子设备120和/或图6A至图6C所示的装置600A至600C。

如图7所示，电子设备700是通用计算设备的形式。电子设备700的组件可以包括但不限于一个或多个处理器或处理单元710、存储器720、存储设备730、一个或多个通信单元740、一个或多个输入设备750以及一个或多个输出设备760。处理单元710可以是实际或虚拟处理器并且能够根据存储器720中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高电子设备700的并行处理能力。

电子设备700通常包括多个计算机存储介质。这样的介质可以是电子设备700可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器720可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备730可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其它介质，其可以能够用于存储信息和/或数据并且可以在电子设备700内被访问。

电子设备700可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图7中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器720可以包括计算机程序产品725，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元740实现通过通信介质与其它电子设备进行通信。附加地，电子设备700的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，电子设备700可以使用与一个或多个其它服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备750可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备760可以是一个或多个输出设备，例如显示器、扬声器、打印机等。电子设备700还可以根据需要通过通信单元740与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与电子设备700交互的设备进行通信，或者与使得电子设备700与一个或多个其它电子设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实施例，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实施例，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文公开的各个实施例。

Claims

1.一种信息处理方法，包括：

获取第一音频内容和针对所述第一音频内容的第一提示项，所述第一提示项用于指示目标模型响应所述第一音频内容中包括的目标请求；以及

提供针对所述目标请求的响应内容，其中所述响应内容是由所述目标模型根据所述目标请求并基于所述第一音频内容所生成。

2.根据权利要求1所述的方法，其中所述目标请求包括问询请求和/或推理请求。

3.根据权利要求1所述的方法，其中所述第一音频内容包括请求部分和背景部分，所述请求部分用于指示所述目标请求，并且所述响应内容至少基于与所述背景部分相关联的音频特征而被生成。

4.根据权利要求3所述的方法，其中所述音频特征包括非话语特征。

5.一种信息处理方法，包括：

获取第二音频内容和针对所述第二音频内容的第二提示项，所述第二提示项用于指示目标模型基于所述第二音频内容来响应所述第二提示项；以及

提供目标内容，其中所述目标内容是由所述目标模型至少基于所述第二音频内容的非话语特征所生成。

6.一种信息处理方法，包括：

获取音频内容和提示项；

基于所述音频内容的音频特征表示和所述提示项的文本特征表示，确定第一中间特征表示；

利用一组预设的查询特征表示，将所述第一中间特征表示转换为第二中间特征表示；以及

至少基于所述第二中间特征表示，生成用于响应所述提示项的内容。

7.根据权利要求6所述的方法，其中至少基于所述第二中间特征表示生成用于响应所述提示项的内容包括：

基于所述第二中间特征表示和所述提示项，生成用于输入到语言处理模块的第一输入；以及

由所述语言处理模块至少基于所述第一输入生成用于响应所述提示项的内容。

8.根据权利要求7所述的方法，其中由所述语言处理模块至少基于所述第一输入生成用于响应所述提示项的内容包括：

获取用于输入到语言处理模块的第二输入，所述第二输入包括与所述语言处理模块相关联的一组微调参数；以及

由所述语言处理模块基于所述第一输入和所述第二输入生成用于响应所述提示项的内容。

9.根据权利要求6所述的方法，其中基于所述音频内容的音频特征表示和所述提示项的文本特征表示确定第一中间特征表示包括：

将所述文本特征表示投影至与所述音频特征表示对应的特征维度；以及

基于所述音频特征表示和经投影的所述文本特征表示，确定所述第一中间特征表示。

10.根据权利要求6所述的方法，其中利用一组预设的查询特征表示将所述第一中间特征表示转换为第二中间特征表示包括：

确定所述第一中间特征表示与所述一组预设的查询特征表示之间的一组注意力；以及

基于所述一组注意力，将所述第一中间特征表示转换为所述第二中间特征表示。

11.根据权利要求6所述的方法，其中所述信息处理方法是由目标模型所执行，所述目标模型包括转换器模块，所述转换器模块用于将所述第一中间特征表示转换为第二中间特征表示，并且所述目标模型至少基于以下过程而被训练：

确定一组初始的查询特征表示；以及

在固定所述目标模型除所述转换器模块和查询特征表示以外的其它参数的情况下，利用第一组训练数据来训练所述目标模型，以确定所述转换器模块的第一组参数和一组中间查询特征表示。

12.根据权利要求11所述的方法，其中所述第一组训练数据包括与语音识别任务对应的第一组音频样本。

13.根据权利要求11所述的方法，其中所述目标模型还包括文本编码模块，所述文本编码模块用于生成所述提示项的所述文本特征表示，

并且所述目标模型还基于以下过程而被训练：利用第二组训练数据来训练所述目标模型，以至少更新所述转换器模块的所述第一组参数、所述一组中间查询特征表示、所述文本编码模块的第二组参数。

14.根据权利要求13所述的方法，其中所述第二组训练数据包括与语音处理任务对应的第二组音频样本和一组训练提示项。

15.根据权利要求14所述的方法，其中所述语音处理任务包括以下至少一项：

语音识别任务、语音翻译任务、语音问答任务、音素识别任务、音频字幕任务。

16.一种信息处理装置，包括：

第一获取模块，被配置为获取第一音频内容和针对所述第一音频内容的第一提示项，所述第一提示项用于指示目标模型响应所述第一音频内容中包括的目标请求；以及

第一提供模块，被配置为提供针对所述目标请求的响应内容，其中所述响应内容是由所述目标模型根据所述目标请求并基于所述第一音频内容所生成。

17.一种信息处理装置，包括：

第二获取模块，被配置为获取第二音频内容和针对所述第二音频内容的第二提示项，所述第二提示项用于指示目标模型基于所述第二音频内容来响应所述第二提示项；以及

第二提供模块，被配置为提供目标内容，其中所述目标内容是由所述目标模型至少基于所述第二音频内容的非话语部分所生成。

18.一种信息处理装置，包括：

第三获取模块，被配置为获取音频内容和提示项；

确定模块，被配置为基于所述音频内容的音频特征表示和所述提示项的文本特征表示，确定第一中间特征表示；

转换模块，被配置为利用一组预设的查询特征表示，将所述第一中间特征表示转换为第二中间特征表示；以及

生成模块，被配置为至少基于所述第二中间特征表示，生成用于响应所述提示项的内容。

19.一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述电子设备执行根据权利要求1至4中任一项所述的方法或权利要求5所述的方法或权利要求6-15任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至4中任一项所述的方法或权利要求5所述的方法或权利要求6-15任一项所述的方法。