CN110085227B

CN110085227B - 编辑语音技能文件的方法和装置、电子设备、可读介质

Info

Publication number: CN110085227B
Application number: CN201910345936.0A
Authority: CN
Inventors: 戚耀文
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2021-08-06
Anticipated expiration: 2039-04-26
Also published as: CN110085227A

Abstract

本公开提供了一种编辑语音技能文件的方法，该方法包括：获取对应任意功能的插入指令；根据所述插入指令，在可编辑的语音技能源文本的当前编辑位置生成对应所述功能的预制点；将所述语音技能源文本转变为由能被声音播放设备识别并播放的代码构成的语音技能文件，在所述语音技能文件中所述预制点被转变为对应的功能；其中，所述功能包括槽位，在所述语音技能文件被播放的过程中，当播放至所述槽位时，播放预先获取的、对应所述槽位的指定内容。本公开还提供了一种编辑语音技能文件的装置、电子设备、可读介质。

Description

编辑语音技能文件的方法和装置、电子设备、可读介质

技术领域

本公开实施例涉及语音技能技术领域，特别涉及编辑语音技能文件的方法和装置、电子设备、计算机可读介质。

背景技术

语音技能文件是一种可被智能音箱等声音播放设备播放的声音文件，其具体可为语音故事等形式。语音技能文件的形式是声音播放设备可识别的代码，而其实质内容包括文本和功能。在播放过程中，文本被直接播放(朗读)出来，而当播放至功能时，则执行与功能对应的操作。例如，功能包括槽位，在开始播放语音技能文件前，声音播放设备先要获取槽位对应的指定内容(如询问用户男孩的名字)，在接到用户输入的指定内容(如用户回答的名字)后，则在播放至槽位时，实际播放以上指定内容(如实际播放播放以上名字)。

现有技术中，只能通过直接改变代码的方式对语音技能文件进行编辑，故其开发难度大、可视化效果差、效率低、容易产生错误。

发明内容

本公开实施例提供一种编辑语音技能文件的方法和装置、电子设备、

计算机可读介质。

第一方面，本公开实施例提供一种编辑语音技能文件的方法，其包括：

获取对应任意功能的插入指令；

根据所述插入指令，在可编辑的语音技能源文本的当前编辑位置生成对应所述功能的预制点；

将所述语音技能源文本转变为由能被声音播放设备识别并播放的代码构成的语音技能文件，在所述语音技能文件中所述预制点被转变为对应的功能；

其中，所述功能包括槽位，在所述语音技能文件被播放的过程中，当播放至所述槽位时，播放预先获取的、对应所述槽位的指定内容。

在一些实施例中，所述功能还包括以下任意一项或多项：

暂停，在所述语音技能文件被播放的过程中，当播放至所述暂停时，在所述暂停对应的时间内停止发声；

表达，在所述语音技能文件被播放的过程中，当播放至所述表达时，播放所述表达对应的声音；

音效，在所述语音技能文件被播放的过程中，当播放至所述音效时，播放所述音效对应的声音效果；

音频链接，在所述语音技能文件被播放的过程中，当播放至所述音频链接时，播放所述音频链接对应的音频；

视频链接，在所述语音技能文件被播放的过程中，当播放至所述视频链接时，播放所述视频链接对应的视频。

在一些实施例中，所述获取对应任意功能的插入指令包括：

接收对对应任意功能的图标的点击操作；

根据所述点击操作生成对应该功能的插入指令。

在一些实施例中，所述获取对应任意功能的插入指令包括：

接收对应任意功能的指令文本；

将所述指令文本转变为对应该功能的插入指令。

在一些实施例中，在所述将所述语音技能源文本转变为由能被声音播放设备识别并播放的代码构成的语音技能文件前，还包括：

接收文本编辑操作；

根据所述文本编辑操作，对所述语音技能源文本进行编辑。

第二方面，本公开实施例提供一种编辑语音技能文件的装置，其包括：

获取模块，用于获取对应任意功能的插入指令；

预制点模块，用于根据所述插入指令，在可编辑的语音技能源文本的当前编辑位置生成对应所述功能的预制点；

转变模块，用于将所述语音技能源文本转变为由能被声音播放设备识别并播放的代码构成的语音技能文件，在所述语音技能文件中所述预制点被转变为对应的功能；

在一些实施例中，所述功能还包括以下任意一项或多项：

在一些实施例中，所述获取模块包括：

点击操作接收子模块，用于接收对对应任意功能的图标的点击操作；

插入指令生成子模块，用于根据所述点击操作生成对应该功能的插入指令。

在一些实施例中，所述获取模块包括：

指令文本接收子模块，用于接收对应任意功能的指令文本；

插入指令转变子模块，用于将所述指令文本转变为对应该功能的插入指令。

在一些实施例中，所述编辑语音技能文件的装置还包括：

文本编辑接收模块，用于接收文本编辑操作；

编辑模块，用于根据所述文本编辑操作，对所述语音技能源文本进行编辑。

第三方面，本公开实施例提供一种电子设备，其包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任意一种编辑语音技能文件的方法。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任意一种编辑语音技能文件的方法。

可见，本公开实施例的编辑语音技能文件的方法是基于可编辑的语音技能源文本进行的，故在编辑过程中可直观的看到语音技能源文本的内容，且其中的功能可通过非代码的指令(如点击图标或输入伪代码)实现，而不必输入复杂的代码；由此，本公开实施例的方法不必直接编辑代码即可实现语音技能文件的编辑，开发难度小、可视化效果好、效率高、不容易产生错误。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其它特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种编辑语音技能文件的方法的流程图；

图2为本公开实施例提供的另一种编辑语音技能文件的方法中部分步骤的流程图；

图3为本公开实施例提供的另一种编辑语音技能文件的方法中部分步骤的流程图；

图4为本公开实施例提供的一种编辑语音技能文件的方法中部分预制点对应的图形的示意图；

图5为本公开实施例提供的另一种编辑语音技能文件的方法中部分步骤的流程图；

图6为本公开实施例提供的一种编辑语音技能文件的装置的组成框图；

图7为本公开实施例提供的另一种编辑语音技能文件的装置的组成框图；

图8为本公开实施例提供的另一种编辑语音技能文件的装置的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的编辑语音技能文件的方法和装置、电子设备、计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本公开阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本公开所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本公开所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本公开所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。

当本公开中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

本公开所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。

本公开的实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本公开所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本公开明确如此限定。

本公开实施例涉及语音技能文件的编辑。

其中，语音技能文件是一种可被声音播放设备播放的声音文件，其具体可为语音故事等形式。语音技能文件的形式是声音播放设备可识别的代码，而其实质内容包括文本和功能。在播放过程中，文本被直接播放(朗读)出来，而当播放至功能时，则执行与功能对应的操作。

其中，语音技能文件的编辑是指通过某种方式改变语音技能文件的代码，以使其具有所期望的内容(文本和功能)。在现有技术中，通过直接改变代码的方式对语音技能文件进行编辑，故其开发难度大、可视化效果差、效率低、容易产生错误。

其中，编辑的实质是改变语音技能文件的代码，其具体可包括新增代码、删除代码、改变代码等；且编辑既可用于生成新的语音技能文件，也可用于修改已有的语音技能文件。

其中，声音播放设备是指具有数据处理能力和发声能力的设备(还可具有接收声音、接收文本输入、显示图像等能力)；具体的，声音播放设备可为智能音箱、智能电视等单独的设备，也可为电脑加音箱等设备的组合。

图1为本公开实施例的一种编辑语音技能文件的方法的流程图。

第一方面，参照图1，本公开实施例提供一种编辑语音技能文件的方法，其包括：

S101、获取对应任意功能的插入指令。

本步骤中，获取最终用于在语音技能文件中插入某项功能的插入指令。该插入指令不是直接对应功能的、可被声音播放设备识别的代码；而是通过插入指令可产生相应的预制点(后续详细描述)，而在最终的语音技能文件中，该预制点可被转变为对应功能的代码，即该代码被声音播放设备识别并执行后可实现相应功能。

其中，功能是指在语音技能文件被播放过程中，可实现特定播放效果的内容，其有多种不同的具体形式。

其中，功能包括槽位，在语音技能文件被播放的过程中，当播放至槽位时，播放预先获取的、对应槽位的指定内容。

具体的，槽位(Slot)是一种在语音技能文件被播放时，可被替换为用户输入的指定内容的结构，其可在语音技能(如语音故事)中插入用户参与的内容，改善用户的使用体验。例如，语音技能文件中对应故事发生时间和男孩名字的位置可分别被设定为故事发生时间槽位和男孩名字槽位，这样，在开始播放语音技能文件前，声音播放设备会向用户发出语音提问“请问故事发生在什么时候”和“请问男孩的名字是什么”；之后声音播放设备接收用户通过语音输入设备(如麦克风)回答的时间和名字(指定内容)，再继续播放语音技能文件，且其中故事发生时间槽位和男孩名字槽位分别被替换为以上的指定内容，即在实际被播放出的故事中，时间和人物变成用户设定的内容。

在一些实施例中，功能还包括以下任意一项或多项：

(1)暂停，在语音技能文件被播放的过程中，当播放至暂停时，在暂停对应的时间内停止发声。

具体的，暂停用于将语音技能文件的播放暂停预定的时间，故暂停实际根据对应时间的不同分为多种。

(2)表达，在语音技能文件被播放的过程中，当播放至表达时，播放表达对应的声音。

具体的，表达是用于表明特定意思一个声音或多个声音的集合，其可为某种语气或文字等，例如，表达可分为“叹气表达”、“赞同表达”、“称赞表达”等多种。

(3)音效，在语音技能文件被播放的过程中，当播放至音效时，播放音效对应的声音效果。

音效用于播放某种人工或自然的特定声音效果，例如敲击键盘音效，笔划纸音效等。

(4)音频链接，在语音技能文件被播放的过程中，当播放至音频链接时，播放音频链接对应的音频。

音频链接是指向特定地址的音频文件的链接，当其被播放时，实际播放相应链接指向的音频文件。

(5)视频链接，在语音技能文件被播放的过程中，当播放至视频链接时，实际播放视频链接对应的视频文件。

视频链接是指向特定地址的视频文件的链接，当其被播放时，可播放相应链接指向的视频。

当然，语音文件实际包括的功能也不限于以上列举的具体例子，其它种类的功能也是可行的，在此不再逐一列举。

作为本公开实施例的一种方式，参照图2，在一些实施例中，本步骤(S101)包括：

S10111、接收对对应任意功能的图标的点击操作。

S10112、根据点击操作生成对应该功能的插入指令。

也就是说，可在用于进行语音技能文件编辑的界面中设置可点击的、对应不同功能的图标，如“槽位图标”、“暂停图标”等，从而只要对某图标进行点击，即可生成相应的插入指令。

具体的，以上图标可以是图形形式，也可以是文字形式，也可以是图形与文字相结合的形式，只要每个图标在用于进行语音技能文件编辑的界面中可占据一个位置，通过点击该位置能实现对相应图标的点击即可。

当然，对应所有功能的图标可以是同时显示的；或者，也可以是人为定义图标的显示与隐藏；或者，也可以是将图标分类，在选择某个类后，会显示对应该类的图标，例如在选择“音效类”后，可出现“火车音效图标”、“汽车音效图标”等具体图标；当然，以上的类也可分为更多层次，例如在选择“音效类”后，可出现“自然音效类”、“办公室音效类”等进一步的类，而在选择“办公室音效类”后，可再出现“敲击键盘音效图标”，“笔划纸音效图标”等具体图标。

作为本公开实施例的另一种方式，参照图3，在一些实施例中，本步骤(S101)包括：

S10121、接收对应任意功能的指令文本。

S10122、将指令文本转变为对应该功能的插入指令。

也就是说，也可为各功能设置相应的指令文本(或者说“伪代码”)，故当通过文本输入设备(如键盘)等输入指令文本后，指令文本可被转变为相应的插入指令(也可认为伪代码本身就是插入指令，故以上转变可以只是逻辑上的识别和转变)。

例如，暂停对应的伪代码(插入指令)可为：“@pause(暂停时间的秒数)”的形式，即若通过键盘等输入“@pause(1.5)”，即相当于输入了对应“暂停1.5秒”的功能的插入指令。

而其它功能也可有相应的伪代码，例如：

槽位对应的伪代码可为：“@slot(槽位名称)”；

音效对应的伪代码可为：“@ssml(音效名称)”；

表达对应的伪代码可为：“@exp(表达名称)”；

音频链接对应的伪代码可为：@music(音频链接)；

视频链接位功能的伪代码可为：@video(视频链接)。

当然，以上各功能对应的伪代码的具体形式(如符号、字母、结构等)也可为其它的具体形式，只要其不是直接对应功能的、可被声音播放设备识别的代码即可。

当然，以上S10111步骤中对图标的点击操作的结果，实际也可以是生成对应的伪代码，进而伪代码被转变为相应的插入指令。

S102、根据插入指令，在可编辑的语音技能源文本的当前编辑位置生成对应功能的预制点。

其中，可编辑的语音技能源文本是指直接以语言文本(非代码)形式存在的、可视的、可被编辑的内容，其具体内容与语音技能文件的内容是对应的。

其中，当前编辑位置是指若当前对语音技能源文本进行编辑操作，则编辑操作生效的位置。例如，当前编辑位置可为当前光标所在的位置等；显然，通过移动光标等，可改变当前编辑位置。

在语音技能源文本中，对应语音技能文件的文本的内容直接以文字(包括子和格式符)形式存在，而对应功能的内容则以预制点的形式存在。其中，以上文字在后续的转变过程中会变为与文本对应的代码，而预制点则会变为与功能对应的代码。

例如，一段语音技能源文本的例子可如下：

(汽车音效的预制点)我今天第一天上班，做一名产品经理。

(暂停1.5秒的预制点)

我曾经想做一名作家(笔划纸音效的预制点)，现在却写着需求文档(敲击键盘音效的预制点)。我想或许很多人都曾经想成为一名作家，但这看起来真的很难(叹气表达的预制点)。

现在我才明白，有时我们不是想成为作家，而只是想写下自己的故事，但这很难，是不是(音频链接的预制点)。

但现在，通过编辑语音技能文件的方法，你可以轻松写下属于自己的故事。我叫(男孩名字槽位的预制点)，我写下自己的故事。

其中，语音技能源文本中的文字可直接显示为文字形式。而语音技能源文本中的预制点，可如以上例子显示为特定的文本，或者，也显示为特定的图形等；例如，参照图4，其中示出了部分预制点对应的图形，即以上例子中括号内的预制点，可直接显示为图4中的图形。

S103、将语音技能源文本转变为由能被声音播放设备识别并播放的代码构成的语音技能文件，在语音技能文件中预制点被转变为对应的功能。

也就是说，将以上包括文字和预制点的语音技能源文本转变为代码的形式，即转变为能被声音播放设备识别、播放的语音技能文件，完成语音技能文件的编辑。具体的，语音技能源文本中的文字被转变为对应文本的代码，而预制点被转变为对应功能的代码。

其中，进行以上转变的时机是多样的。例如，可在每次保存语音技能源文本时，即将其转变为代码并以语音技能文件的形式保存；或者，也可是语音技能源文本平时就以文本的形式存在，而在需要时(如确定编辑全部完成时)，才根据用户的命令将其转变为语音技能文件。

相应的，当要对已有的语音技能文件进行进一步的编辑时，则可将语音技能文件打开并转变为语音技能源文本的形式，之后对语音技能源文本进行编辑，编辑完成后再将其转变为语音技能文件。

参照图5，在一些实施例中，在将语音技能源文本转变为由能被声音播放设备识别并播放的代码构成的语音技能文件前，还包括：

S104、接收文本编辑操作。

S105、根据文本编辑操作，对语音技能源文本进行编辑。

也就是说，除输入预制点的操作外，还也可对语音技能源文本进行其它的编辑，如新增文字、删除已有文字、修改已有文字、进行文字的复制/剪切/粘贴、删除已有的预制点等。以上操作可通过鼠标、键盘等已有的输入设备实现(如采用类似于对word文档的编辑的方式)，故在此不再详细描述。

当然，应当理解，以上S104、S105只是示意性的编号，而并不代表相应步骤必然在S103步骤之后进行。

图6为本公开实施例的一种编辑语音技能文件的装置的组成框图。

第二方面，参照图6，本公开实施例的编辑语音技能文件的装置包括：

获取模块，用于获取对应任意功能的插入指令；

预制点模块，用于根据插入指令，在可编辑的语音技能源文本的当前编辑位置生成对应功能的预制点；

转变模块，用于将语音技能源文本转变为由能被声音播放设备识别并播放的代码构成的语音技能文件，在语音技能文件中预制点被转变为对应的功能；

在一些实施例中，功能还包括以下任意一项或多项：

暂停，在语音技能文件被播放的过程中，当播放至暂停时，在暂停对应的时间内停止发声；

表达，在语音技能文件被播放的过程中，当播放至表达时，播放表达对应的声音；

音效，在语音技能文件被播放的过程中，当播放至音效时，播放音效对应的声音效果；

音频链接，在语音技能文件被播放的过程中，当播放至音频链接时，播放音频链接对应的音频；

视频链接，在语音技能文件被播放的过程中，当播放至视频链接时，播放视频链接对应的视频。

参照图7，在一些实施例中，获取模块包括：

插入指令生成子模块，用于根据点击操作生成对应该功能的插入指令。

参照图8，在一些实施例中，获取模块包括：

指令文本接收子模块，用于接收对应任意功能的指令文本；

插入指令转变子模块，用于将指令文本转变为对应该功能的插入指令。

参照图7、图8，本公开实施例的装置还包括：

文本编辑接收模块，用于接收文本编辑操作；

编辑模块，用于根据文本编辑操作，对语音技能源文本进行编辑。

第三方面，本公开实施例提供一种电子设备，其包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述任意一种编辑语音技能文件的方法。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现上述任意一种编辑语音技能文件的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

本公开已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种编辑语音技能文件的方法，其包括：

获取对应任意功能的插入指令；

其中，在所述语音技能文件被播放的过程中，当播放至所述功能时，执行与所述功能对应的操作；所述功能包括槽位，在所述语音技能文件被播放的过程中，当播放至所述槽位时，播放预先获取的、对应所述槽位的指定内容。

2.根据权利要求1所述的方法，其中，所述功能还包括以下任意一项或多项：

3.根据权利要求1所述的方法，其中，所述获取对应任意功能的插入指令包括：

接收对对应任意功能的图标的点击操作；

根据所述点击操作生成对应该功能的插入指令。

4.根据权利要求1所述的方法，其中，所述获取对应任意功能的插入指令包括：

接收对应任意功能的指令文本；

将所述指令文本转变为对应该功能的插入指令。

5.根据权利要求1所述的方法，其中，在所述将所述语音技能源文本转变为由能被声音播放设备识别并播放的代码构成的语音技能文件前，还包括：

接收文本编辑操作；

根据所述文本编辑操作，对所述语音技能源文本进行编辑。

6.一种编辑语音技能文件的装置，其包括：

获取模块，用于获取对应任意功能的插入指令；

7.根据权利要求6所述的装置，其中，所述功能还包括以下任意一项或多项：

8.根据权利要求6所述的装置，其中，所述获取模块包括：

9.根据权利要求6所述的装置，其中，所述获取模块包括：

指令文本接收子模块，用于接收对应任意功能的指令文本；

10.根据权利要求6所述的装置，其中，还包括：

文本编辑接收模块，用于接收文本编辑操作；

11.一种电子设备，其包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至5任意一项所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至5任意一项所述的方法。