CN109542389B

CN109542389B - 用于多模态故事内容输出的音效控制方法及系统

Info

Publication number: CN109542389B
Application number: CN201811375439.7A
Authority: CN
Inventors: 贾志强; 俞晓君
Original assignee: Beijing Guangnian Infinite Technology Co ltd
Current assignee: Beijing Guangnian Infinite Technology Co ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2022-11-22
Anticipated expiration: 2038-11-19
Also published as: CN109542389A

Abstract

本发明提供一种用于多模态故事内容输出的音效控制方法，其包含以下步骤：获取输出故事内容指令并响应；对待输出文本进行文本处理，提取文本处理结果中的场景信息，场景信息包括：对话场景；若检测到当前场景信息为预设场景，调整输出数据中的音乐参数及音效参数，音乐参数包括：背景音乐参数；音效参数包括角色音效参数。本发明提供了一种儿童专用智能设备，具备讲故事能力，能够向用户输出故事内容。并且，本发明还能够根据不同的故事内容以及故事场景，改变输出的音效效果，配合故事情节的发展，提升了用户的绘本阅读等内容获取的使用体验。

Description

用于多模态故事内容输出的音效控制方法及系统

技术领域

本发明涉及人工智能领域，具体地说，涉及一种用于多模态故事内容输出的音效控制方法及系统。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。因此，提升智能机器人的交互能力，改善机器人的类人性和智能性，是现在亟需解决的重要问题。

因此，本发明提供了一种用于多模态故事内容输出的音效控制方法及系统。

发明内容

为解决上述问题，本发明提供了一种用于多模态故事内容输出的音效控制方法，所述方法包含以下步骤：

获取输出故事内容指令并响应；

对待输出文本进行文本处理，提取文本处理结果中的场景信息，所述场景信息包括：对话场景；

若检测到当前场景信息为预设场景，调整输出数据中的音乐参数及音效参数，所述音乐参数包括：背景音乐参数；所述音效参数包括角色音效参数。

根据本发明的一个实施例，若检测到当前场景信息为预设场景，调整输出数据中的音乐参数及音效参数，包含以下步骤：

当所述预设场景为对话场景时，降低当前背景音乐参数的媒体音量；

当所述故事人物对话场景中的角色结束对话时，恢复当前背景音乐参数的媒体音量至预设音量。

根据本发明的一个实施例，还包含以下步骤：当所述预设场景为对话场景时，插入文本中实体对应的音效参数。

根据本发明的一个实施例，所述方法还包含以下步骤：对所述音效参数的循环播放次数进行设定。

根据本发明的一个实施例，所述音效参数包含：落石音效、大海音效、风声音效、雨声音效以及打雷音效。

根据本发明的另一个方面，还提供了一种程序产品，其包含用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种用于多模态故事内容输出的音效控制装置，所述装置包含：

响应模块，其用于获取输出故事内容指令并响应；

提取模块，其用于对待输出文本进行文本处理，提取文本处理结果中的场景信息，所述场景信息包括：对话场景；

调整模块，其用于若检测到当前场景信息为预设场景，调整输出数据中的音乐参数及音效参数，所述音乐参数包括：背景音乐参数；所述音效参数包括角色音效参数。

根据本发明的一个实施例，所述调整模块包含：

降低单元，其用于当所述预设场景为对话场景时，降低当前背景音乐参数的媒体音量；

恢复单元，其用于当所述故事人物对话场景中的角色结束对话时，恢复当前背景音乐参数的媒体音量至预设音量。

根据本发明的另一个方面，还提供了一种儿童专用智能设备，用于执行如上任一项所述的方法步骤的一系列指令。

根据本发明的另一个方面，还提供了一种用于多模态故事内容输出的音效控制系统，所述系统包含：

如上所述的儿童专用智能设备；

云端大脑，其具备语义理解、视觉识别、认知计算以及情感计算，以决策所述儿童专用智能设备输出多模态数据。

本发明提供的用于多模态故事内容输出的音效控制方法及系统提供了一种儿童专用智能设备，具备讲故事能力，能够向用户输出故事内容。并且，本发明还能够根据不同的故事内容以及故事场景，改变输出的音效效果，配合故事情节的发展，提升了用户的绘本阅读等内容获取的使用体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1显示了根据本发明的一个实施例的用于多模态故事内容输出的音效控制方法流程图；

图2显示了根据本发明的另一个实施例的用于多模态故事内容输出的音效控制方法流程图；

图3显示了根据本发明的一个实施例的用于多模态故事内容输出的音效控制装置的模块框图；

图4显示了根据本发明的一个实施例的用于多模态故事内容输出的音效控制系统的结构框图；

图5显示了根据本发明的另一个实施例的用于多模态故事内容输出的音效控制系统的结构框图；以及

图6显示了根据本发明的一个实施例的用于多模态故事内容输出的音效控制方法的另一流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

为表述清晰，需要在实施例前进行如下说明：

本发明提到的儿童专用智能设备支持多模态人机交互，具备自然语言理解、视觉感知、语言语音输出、情感表情动作输出等AI能力；可配置社会属性、人格属性、人物技能等，使用户享受智能化及个性化流畅体验。在具体的实施例中，儿童专用智能设备可以是儿童故事机、儿童平板、儿童手表以及儿童AI机器人等。

儿童专用智能设备获取用户多模态数据，在云端大脑的能力支持下，对多模态数据进行语义理解、视觉识别、认知计算、情感计算，以完成决策输出的过程。

所提到的云端大脑为提供所述儿童专用智能设备对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端，实现与用户的交互，以决策所述儿童专用智能设备输出多模态数据。

下面结合附图对本发明的各个实施例进行详细描述。

图1显示了根据本发明的一个实施例的用于多模态故事内容输出的音效控制方法流程图。

如图1所示，在步骤S101中，获取输出故事内容指令并响应。在本发明的一个实施例中，儿童专用智能设备在启动后获取用户或周边环境输出的故事内容指令，在获取故事内容指令后，对故事内容指令进行响应。输出故事内容指令所指向的故事内容。

需要说明的是，故事内容指令的形式为多模态的，可以是语音指令、动作指令、感知指令以及表情指令等多模态的指令。为了获取多模态的故事内容指令，儿童专用智能设备上也配备相应的输入输出装置。

根据本发明的一个实施例，儿童专用智能设备上可以配置有虚拟人物“阿Q姐姐”，阿Q姐姐基于人工智能的虚拟角色，可以通过文本转语音的方式给小朋友讲故事，在小朋友听故事的过程中，如果小朋友有什么疑问，可以直接向阿Q姐姐提问，阿Q姐姐通过云端大脑决策答案，并使用小朋友能够易于接受的语音合成结果为小朋友输出故事内容。

接着，在步骤S102中，对待输出文本进行文本处理，提取文本处理结果中的场景信息，场景信息包括：对话场景。所述文本的拾取可通过云端获取、本地内容库提取或绘本视觉识别进行，并不局限。在本步骤中，对于故事内容的文本进行文本处理，提取文本处理结果中的场景信息，为了对不同场景的音效进行区别控制，需要获知当前的场景。在一个实施例中，场景信息包括对话场景。在对话场景下，包含不同的角色，角色与角色之间展开对话，展现故事的内容。

最后，在步骤S103中，若检测到当前场景信息为预设场景，调整输出数据中的音乐参数及音效参数，音乐参数包括：背景音乐参数；音效参数包括角色音效参数。

在本步骤中，根据本发明的一个实施例，当预设场景为对话场景时，降低当前背景音乐参数的媒体音量。当故事人物对话场景中的角色结束对话时，恢复当前背景音乐参数的媒体音量至预设音量。

另外，在一个实施例中，当预设场景为对话场景时，插入文本中实体对应的音效参数。音效参数包含：落石音效、大海音效、风声音效、雨声音效以及打雷音效。在一个实施例中，对音效参数的循环播放次数进行设定。

根据本发明的一个实施例，获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中，用户的类别包含：儿童用户。本发明面向的用户群主要是儿童用户，因此需要确定用户的身份属性。判断用户身份的方式是有很多种，一般来说，可以通过面部识别功能或者指纹识别方式来辨别用户的身份。其他能够判断用户身份的方式也可以运用到本发明中来，本发明不对此做出限制。

儿童专用智能设备的社会属性、人格属性以及人物技能也不限于一种或是一类。智能机器人可以具备多种社会属性、多种人格属性以及多种人物技能。这些社会属性、人格属性以及人物技能可以分别搭配，并不固定于一种搭配方式，用户可以根据需要进行选择与搭配。

具体来说，社会属性可以包括：外貌、姓名、服饰、装饰、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性；人格属性可以包括：性格、气质等属性；人物技能可以包括：唱歌、跳舞、讲故事、培训等专业技能，并且人物技能展示不限于肢体、表情、头部和/或嘴部的技能展示。

在本申请中，儿童专用智能设备的社会属性、人格属性和人物技能等可以使得更倾向或更为适合该儿童专用智能设备。

图2显示了根据本发明的另一个实施例的用于多模态故事内容输出的音效控制方法流程图。

在讲故事的时候，需要背景音乐和音效的参与，这样才会使得讲的故事比较精彩。在步骤S202中，首先判断当前故事是否进入到了预设场景，在实施例中，故事中的场景信息包含对话场景。当故事内容为预设场景，则在步骤S203中，降低背景音乐参数的媒体音量。例如，当预设场景为对话场景，故事进行至对话场景，故事中的角色进行对话时，需要降低背景音乐参数的媒体音量。步骤S203的目的是为了在处理讲故事中，当出现多个角色的时候，处理背景音乐和音效的逻辑关系。

需要说明的是，可以将当前的背景音乐参数的媒体音量降低1倍，也可以降低其他数值，降低的范围可以根据用户的意愿以及实际情况进行改变，本发明不对此作出限制。

如果没有进入预设场景，则进入步骤S206，维持当前的正常背景音乐。

步骤S203结束后，在步骤S204中，判断是否需要插入音效。需要对输出故事的文本内容进行判断，当预设场景为对话场景时，需要插入文本中实体对应的音效参数。

如果判断结果为是，则进入步骤S205，停止背景音乐，播放相应音效。根据本发明的一个实施例，音效参数包含落石音效、大海音效、风声音效、雨声音效以及打雷音效。例如，当故事中的文本出现“这时天空中突然下起了雨”等相似的文本片段时，需要停止当前的背景音乐，输出雨声音效，雨声音效播完完毕之后，恢复播放背景音乐。

在一个实施例中，还可以对音效参数的循环播放次数进行设定。

步骤S205执行完成后，返回至步骤S202，继续判断是否为预设场景

在一个实施例中，对音效进行调整的过程可以是：当出现人物对话之后，则降低1倍的背景音乐音量，当人物对话结束的时候恢复背景音乐的音量，在人物对话期间，若有背景音乐，则停止音乐的播放，并播放当前场景的音效，音效播完完毕之后，恢复播放背景音乐。

需要说明的是，为了更好地提升交互的体验，需要确定用户的身份信息。可以获取当前用户的身份特征信息，对当前用户的用户属性进行判断，确定当前用户的类别，其中当前用户的类别包含：儿童用户。

图3显示了根据本发明的一个实施例的用于多模态故事内容输出的音效控制装置的模块框图。

如图3所示，装置包含响应模块301、获取模块302以及调整模块303。其中，响应模块301包含获取单元3011以及指令响应单元3012。获取模块302包含处理单元3021以及场景单元3022。调整模块303包含降低单元3031以及恢复单元3032。

响应模块301用于获取输出故事内容指令并响应。其中，获取单元3011在音效控制装置启动后实时获取用户以及周边环境输出的故事内容指令。指令响应单元3012在获取单元3011获取到故事内容指令后，根据故事内容的指令进行响应。

提取模块302用于对待输出文本进行文本处理，提取文本处理结果中的场景信息，场景信息包括：对话场景。所述文本的拾取可通过云端获取、本地内容库提取或绘本视觉识别进行，并不局限。其中，处理单元3021用于对故事中的待输出文本进行处理。场景单元3022用于根据文本处理结果提取故事中的场景信息。

调整模块303用于若检测到当前场景信息为预设场景，调整输出数据中的音乐参数及音效参数，音乐参数包括：背景音乐参数；音效参数包括角色音效参数。其中，降低单元3031用于当预设场景为对话场景时，降低当前背景音乐参数的媒体音量。恢复单元3032用于当故事人物对话场景中的角色结束对话时，恢复当前背景音乐参数的媒体音量至预设音量。

图4显示了根据本发明的一个实施例的用于多模态故事内容输出的音效控制系统的结构示意图。如图4所示，完成音效控制需要用户401、儿童专用智能设备402以及云端大脑403的共同参与。其中，儿童专用智能设备402包含输入输出装置4021、数据处理单元4022以及接口单元4023。云端大脑403所具备的接口包含语义理解接口4031、视觉识别接口4032、认知计算接口4033以及情感计算接口4034。

本发明提供的用于多模态故事内容输出的音效控制系统包含儿童专用智能设备402以及云端大脑403。儿童专用智能设备402包括支持感知、控制等输入输出模块的智能设备，例如平板电脑、机器人、手机、故事机或绘本阅读机器人，能够给小朋友讲故事，实时解答小朋友提出的问题以及具备丰富的表现力。云端大脑403具备语义理解、视觉识别、认知计算以及情感计算，以决策儿童专用智能设备输出多模态数据。

输入输出装置4021用于获取多模态输入数据以及输出多模态输出数据。多模态输入数据可以是用户401输入的，也可以是周边环境输入的。输入输出装置4021的例子包括用于语音操作的麦克风、扫描仪、摄像头、感控设备，如采用可见或不可见波长射线、信号、环境数据等等。可以通过以上提到的输入设备来获取多模态数据。多模态数据可以包含文本、音频、视觉以及感知数据中的一种，也可以包含多种，本发明不对此作出限制。

数据处理单元4022用于处理进行音效控制中产生的数据。所用的处理器可以为数据处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端的控制中心，利用各种接口和线路连接整个终端的各个部分。

儿童专用智能设备402中包含存储器，存储器主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据儿童专用智能设备402的使用所创建的数据(比如音频数据、浏览记录等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

云端大脑403包含语义理解接口4031、视觉识别接口4032、认知计算接口4033以及情感计算接口4034。以上这些接口与儿童专用智能设备402中的接口单元4023展开通信。并且，云端大脑403还包含与语义理解接口4031对应的语义理解逻辑、与视觉识别接口4032对应的视觉识别逻辑、与认知计算接口4033对应的认知计算逻辑以及与情感计算接口4034对应的情感计算逻辑。

如图4所示，各个能力接口分别调用对应的逻辑处理。以下为各个接口的说明：

语义理解接口，其接收从接口单元4023转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能、决策功能和具体应用功能；

其中，图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等功能。

认知计算接口，其接收从接口单元4023转发的多模态数据，认知计算接口4033用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

情感计算接口，其接收从接口单元4023转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。

情感计算接口是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

此外，本发明提供的用于多模态故事内容输出的音效控制系统还可以配合一种程序产品，其包含用于执行完成用于多模态故事内容输出的音效控制方法步骤的一系列指令。程序产品能够运行计算机指令，计算机指令包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

程序产品可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，程序产品包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，程序产品不包括电载波信号和电信信号。

图5显示了根据本发明的另一个实施例的用于多模态故事内容输出的音效控制系统的结构框图。完成音效控制用户401、儿童专用智能设备402以及云端大脑403。其中，儿童专用智能设备402包含声音信号采集器件501、摄像头502、声音信号输出器件503以及中央处理器504。

声音信号采集器件501用于采集用户或外界环境输出的声音信号。声音信号采集器件501可以是麦克风等能够采集声音信号的设备。显示屏502可以展示故事内容。声音信号输出器件503用于输出音频数据。声音信号输出器件503可以是功放和喇叭等能够输出音频数据的设备。中央处理器504可以对音效控制过程中产生的数据进行处理。

根据本发明的一个实施例，儿童专用智能设备402包括支持感知、控制等输入输出模块的智能设备，例如平板电脑、机器人、手机、故事机或绘本阅读机器人，能够给小朋友讲故事，实时解答小朋友提出的问题以及具备丰富的表现力。

如图5所示，在一个实施例中，儿童专用智能设备可以通过声音信号采集器件501采集用户的指令，当用户输出“播放河马大叔开店的故事”的音频指令时，儿童专用智能设备上的声音信号采集器件501获取到用户输出的音频，经云端大脑403进行分析处理后，通过儿童专用智能设备402的显示屏502和声音信号输出器件503进行故事的输出。

河马大叔开店的故事如下：

翻斗乐开张了，河马大叔站在翻斗乐门前迎接客人，小兔一蹦一跳地跑来了(播放正常背景音乐)。河马大叔笑眯眯地说：“欢迎小兔，请进，请进”(降低背景音乐媒体音量)。小乌龟一步一步地爬过来(播放正常背景音乐)。河马大叔笑眯眯地说：“欢迎小乌龟，请进，请进”(降低背景音乐媒体音量)。袋鼠、刺猬、松鼠、小狗、猫也来了(播放正常背景音乐)。河马大叔笑眯眯地说：“欢迎你们，请进，请进”(降低背景音乐媒体音量)。小动物们玩得真高兴(播放正常背景音乐)。天下起了大雨(停止播放背景音乐，插入雨声特效)，小动物们回不了家了。这可怎么办呢(播放正常背景音乐)？

袋鼠妈妈跑来了，说到：“孩子们，快过来，我送你们回家”(降低背景音乐媒体音量)。河马大叔把小动物们送到了门口(播放正常背景音乐)。小动物们说：“谢谢河马大叔，河马大叔再见”(降低背景音乐媒体音量)。说完，他们一个接一个地跳进袋鼠妈妈的口袋里(播放正常背景音乐)。袋鼠妈妈把小兔、乌龟、刺猬、松鼠、小狗、小猫送回了家，袋鼠呢？留在妈妈的口袋里睡着了(播放正常背景音乐)。

如图6所示，在步骤S601中，儿童专用智能设备402向云端大脑403发出请求。之后，在步骤S602中，儿童专用智能设备402一直处于等待云端大脑403回复的状态。在等待的过程中，儿童专用智能设备402会对返回数据所花费的时间进行计时操作。

在步骤S603中，如果长时间未得到返回的应答数据，比如，超过了预定的时间长度5S，则儿童专用智能设备402会选择进行本地回复，生成本地常用应答数据。然后，在步骤S604中，输出本地常用应答，并调用语音播放设备进行语音播放。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于多模态故事内容输出的音效控制方法，其特征在于，基于人工智能的虚拟角色，通过文本转语音的方式给用户讲故事，在用户听故事的过程中，如果用户有什么疑问，可以直接向虚拟角色提问，虚拟角色通过云端大脑决策答案，所述方法包含以下步骤：

获取用户输出的故事内容指令并响应，所述故事内容指令的形式包含表情指令，所述云端大脑包含情感计算接口，所述情感计算接口在进行视觉情绪识别时，收集人类面部表情图像，而后转换成可分析数据，再利用图像处理技术进行表情情绪分析，理解面部表情需要对表情的微妙变化进行检测，包含脸颊肌肉、嘴部的变化以及挑眉；

若检测到当前场景信息为预设场景，调整输出数据中的音乐参数及音效参数，所述音乐参数包括：背景音乐参数；所述音效参数包括角色音效参数；

若检测到当前场景信息为预设场景，调整输出数据中的音乐参数及音效参数，包含以下步骤：

当所述预设场景为对话场景时，降低当前背景音乐参数的媒体音量，以在处理讲故事中，当出现多个角色的时候，处理背景音乐和音效的逻辑关系；当故事人物对话场景中的角色结束对话时，恢复当前背景音乐参数的媒体音量至预设音量；

当所述预设场景为对话场景时，若需要插入文本中实体对应的音效参数，则停止播放当前背景音乐参数，播放文本中实体对应的音效参数；当所述音效参数播放结束后，恢复当前背景音乐参数的媒体音量至预设音量。

2.如权利要求1所述的方法，其特征在于，所述方法还包含以下步骤：对所述音效参数的循环播放次数进行设定。

3.如权利要求1-2中任一项所述的方法，其特征在于，所述音效参数包含：落石音效、大海音效、风声音效、雨声音效以及打雷音效。

4.一种存储介质，其包含用于执行如权利要求1-3中任一项所述的方法步骤的一系列指令。

5.一种用于多模态故事内容输出的音效控制装置，其特征在于，执行如权利要求1-3中任一项所述的方法，所述装置包含：

响应模块，其用于获取输出故事内容指令并响应；

调整模块，其用于若检测到当前场景信息为预设场景，调整输出数据中的音乐参数及音效参数，所述音乐参数包括：背景音乐参数；所述音效参数包括角色音效参数；

所述调整模块包含：

6.一种儿童专用智能设备，其特征在于，用于执行如权利要求1-3中任一项所述的方法步骤的一系列指令。

7.一种用于多模态故事内容输出的音效控制系统，其特征在于，所述系统包含：

如权利要求6所述的儿童专用智能设备；