CN111161735A

CN111161735A - 一种语音编辑方法及装置

Info

Publication number: CN111161735A
Application number: CN201911425567.2A
Authority: CN
Inventors: 韩子天; 李立标; 刘子鸽
Original assignee: Angtong Technology Macau Co Ltd
Current assignee: Angtong Technology Macau Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-15

Abstract

本发明公开了一种语音编辑方法及装置，涉及语音识别领域。用以解决现有语音数据转换成文本之后存在难以进行二次编辑的问题。该方法包括：将收到的语音数据转换为文本数据；若收到语音编辑器的唤醒信息，则将所述文本数据存入所述语音编辑器内进行语音编辑；对所述语音编辑器内的所述文本数据进行初始化处理，得到编辑文本；根据所述语音编辑器内存储语言编辑指令表，对所述编辑文件进行添加以及删除处理，得到与所述语言数据相匹配的文字信息。

Description

一种语音编辑方法及装置

技术领域

本发明涉及语音识别领域，更具体的涉及一种语音编辑方法及装置。

背景技术

随着语音对话技术的成熟和发展，其应用的深度和广度都在不断提升。目前大部分的智能终端设备、智能车载设备都集成了智能语音对话系统，用户通过集成在智能终端及车机上的应用，比如微信、车载语音助理等，通过语音的方式进行交互。现有的语音交互方式，要么是输入语音数据后直接将音频元数据发送或取消；要么是现将语音识别成文本，经确认或手动编辑修改进行发送或取消。

语音交互方式在特定场景越来越重要，尤其是车载场景，目前已经有取代传统按键和触控交互方式的趋势。对于上述语音交互方式，语音被识别成书面文本后，用户一般只能选择发送或取消，无法对于内容进行二次编辑的，这带来一定的不便利性。

综上所述，现有的语音数据转换成文本之后存在难以进行二次编辑的问题。

发明内容

本发明实施例提供一种语音编辑方法及装置，用以解决现有语音数据转换成文本之后存在难以进行二次编辑的问题。

本发明实施例提供了一种语音编辑方法，包括：

将收到的语音数据转换为文本数据；

若收到语音编辑器的唤醒信息，则将所述文本数据存入所述语音编辑器内进行语音编辑；

对所述语音编辑器内的所述文本数据进行初始化处理，得到编辑文本；

根据所述语音编辑器内存储语言编辑指令表，对所述编辑文件进行添加以及删除处理，得到与所述语言数据相匹配的文字信息。

优选地，所述初始化处理包括以下一项或者多项处理：

根据语义和词槽的理解方式对所述文本数据所包括的文字进行分词处理；和/或者

根据语义和词槽的理解方式对所述文本数据所包括的文字进行断句处理；和/或者

根据语义和词槽的理解方式对所述文本数据所包括的文字增加标点符号；

其中，所述词槽至少包括时间、地点。

优选地，所述语言编辑指令表至少包括：

光标移动指令；和/或者

查找指令；和/或者

删除指令；和/或者

添加指令；和/或者

保存指令；和/或者

退出指令；和/或者

学习指令；和/或者

优选地，所述根据所述语音编辑器内存储语言编辑指令表，对所述编辑文件进行添加以及删除处理，主要包括：

通过所述光标移动指令将光标移到至所述编辑文件待编辑位置，通过所述删除指令、所述添加指令和所述替换指令在所述待编辑位置进行词语、标点符号的编辑；和/或者

通过所述查找指令在所述编辑文件中找到与所述查找指令相匹配的待编辑词语，通过所述删除指令、所述添加指令和所述替换指令对所述待编辑词语进行编辑；所述查找指令包括词槽匹配查询和指定词语查询。

优选地，还包括：

通过所述学习指令进入所述语音编辑器内；

根据所述语音编辑器提供了新增指令示范，输入与所述新增指令示范格式一致的第一指令；

将所述第一指令添加到所述语言编辑指令表。

本发明实施例还提供了一种语音编辑装置，包括：

转换单元，用于将收到的语音数据转换为文本数据；

存入单元，用于若收到语音编辑器的唤醒信息，则将所述文本数据存入所述语音编辑器内进行语音编辑；

得到单元，用于对所述语音编辑器内的所述文本数据进行初始化处理，得到编辑文本；

编辑单元，用于根据所述语音编辑器内存储语言编辑指令表，对所述编辑文件进行添加以及删除处理，得到与所述语言数据相匹配的文字信息。

优选地，所述初始化处理包括以下一项或者多项处理：

其中，所述词槽至少包括时间、地点。

优选地，所述语言编辑指令表至少包括：

光标移动指令；和/或者

查找指令；和/或者

删除指令；和/或者

添加指令；和/或者

保存指令；和/或者

退出指令；和/或者

学习指令；和/或者

优选地，所述得到单元主要用于：

优选地，还包括学习单元；

所述学习单元用于通过所述学习指令进入所述语音编辑器内；

将所述第一指令添加到所述语言编辑指令表。

本发明实施例提供了一种语音编辑方法，包括：将收到的语音数据转换为文本数据；若收到语音编辑器的唤醒信息，则将所述文本数据存入所述语音编辑器内进行语音编辑；对所述语音编辑器内的所述文本数据进行初始化处理，得到编辑文本；根据所述语音编辑器内存储语言编辑指令表，对所述编辑文件进行添加以及删除处理，得到与所述语言数据相匹配的文字信息。该方法通过获取用户输入的语音信息，将该语音信息转换为书面文本数据信息，通过语音编辑器的唤醒信息进入到语音编辑器内，对文本数据进行初始化，进一步地对初始化后的文本数据根据语言编辑指令表进行添加和删除处理，最后得到与输入的语音信息数据相匹配的文字信息。该方法解决了现有语音数据转换成文本之后存在难以进行二次编辑的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音编辑方法流程示意图；

图2为本发明实施例提供的语音编辑器编辑文本流程示意图；

图3为本发明实施例提供的光标移动流程示意图；

图4为本发明实施例提供的词槽匹配查找和编辑文本流程示意图；

图5为本发明实施例提供的指定词语查找和编辑文本流程示意图；

图6为本发明实施例提供的新指令增加流程示意图；

图7为本发明实施例提供的一种语音编辑装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示例性的示出了本发明实施例提供的一种语音编辑方法流程示意图，该方法至少可以应用于智能车载语音助理、智能终端设备等交互场景。

如图1所示，该方法主要包括以下步骤：

步骤101，将收到的语音数据转换为文本数据；

步骤102，若收到语音编辑器的唤醒信息，则将所述文本数据存入所述语音编辑器内进行语音编辑；

步骤103，对所述语音编辑器内的所述文本数据进行初始化处理，得到编辑文本；

步骤104，根据所述语音编辑器内存储语言编辑指令表，对所述编辑文件进行添加以及删除处理，得到与所述语言数据相匹配的文字信息。

需要说明的是，在实际应用中，该方法的执行主体为智能终端，该终端用于接收语音数据，通过一系列处理过程，将接收到的语音数据最后转换为文字信息。

在步骤101中，终端通过音频采集器接收到用户发送的语音数据，对接收到的语音数据进行ASR(英文为：Automatic Speech Recognition，中文为：自动语音识别)，然后将语音数据转换为文本数据。需要说明的是，在实际应用中，音频采集器可以是设置在终端内的一个器件，也可以是独立使用的一个器件，但是该独立使用的器件与终端之间通过网络进行连接，并且终端可以对该音频采集器的工作情况进行控制。

在步骤102中，当终端将接收到的语音数据转换为文本数据之后，包括两种处理方式，一种处理方式是直接将该文本数据通过终端的显示设备进行显示；另一种处理方式是对该文本数据进行二次编辑，然后再通过终端的显示设备进行显示。

本发明实施例提供的语音编辑方法主要是针对第二种处理方式，即对文本数据进行二次编辑，然后再通过与终端联接的显示设备进行显示。

具体地，当需要对文本数据进行处理时，则需要唤醒语音编辑器。在本发明施实施例中，唤醒语音编辑器的方式一般采用语音方式进行唤醒，比如，若唤醒信息为“打开语音编辑器”，则当终端接收到“打开语音编辑器”的音频信息之后，则将于终端连接或者设置在终端内的语音编辑器打开，进一步地，将文本数据存储至语音编辑器内。

需要说明的是，在本发明实施例中，唤醒信息是通过预设的方式存储至终端内的一种音频信息，即该唤醒信息可以通过用户设置，随时进行修改。在本发明实施例中，对唤醒信息的具体内容不做限定。

进一步地，当通过唤醒信息将与终端连接或者设置在终端内的语音编辑器唤醒之后，则终端会将文本数据存储至语音编辑器内。

在步骤103中，语音编辑器会对存储的文本数据进行初始化处理，具体地，初始化处理包括通过离线的NLP(英文为：natural language processing，中文为自然语言处理)对文本数据进行语句的解析，即通过NLP对文本数据进行语义、词槽等进行理解，进一步地，根据语义和词槽的理解方式对文本数据所包括的文字进行分词处理；在分词处理的基础上，还可以根据语义和词槽的理解方式对文本数据所包括的文字进行断句处理；对文本数据完成分词处理，断句处理之后，还可以根据语义和词槽的理解方式对文本数据所包括的文字增加标点符号。需要说明的是，在本发明实施例中，词槽至少可以包括有时间，地点等名词。

在本发明实施例中，通过NLP方式，实现了对文本数据的初步处理，再者，根据语义和词槽的理解方式对文本数据进行处理，提升原始文本的可理解性、易编辑性。另外，由于对语义、词槽的解析理解，在后续的文本编辑操作中，词语的查找匹配变得更加智能简易。

在步骤104中，根据处理化处理后得到的编辑文本，还可以根据语音编辑器内存储的语音编辑指令表，对编辑文本进行进一步地处理，上述处理包括添加、删除或者替换处理，编辑文本在语音编辑器内完成编辑之后，则成为与语言数据相匹配的文字信息。

具体地，语音编辑指令表主要包括有以下指令：光标移动指令、查找指令、删除指令、添加指令、替换指令、保存指令、退出指令、学习指令等。

在语音编辑器内，光标移动指令默认设置在待编辑文本的末尾，可以通过光标移动指令对光标实现向上、向下、向左和向右的移动。举例来说，光标移动指令可以是“上上”对应光标向上移动一行；“下下”对应光标向下移动一行；“左左”对应光标向左移动一个字符；“右右”对应光标向右移动一个字符。

在语音编辑器内，查找指令为通过语音直接说出要查找的词语，或者通过语音说出要查找的词槽。举例来说，若查找指令为通过语音直接说出要查找的词语为“找到小米”，则语音编辑器会将上述编码文本内全部包括“小米”的词语找到，并且对找到的词语“小米”进行标亮处理；若查找指令为通过语音说出要查找的词槽为“找到时间”，则语音编辑器会将上述编码文本内全部包括时间的词语找到，并对找到的“时间”进行标亮处理。

在语音编辑器内，添加指令、删除指令和替换指令是与查找指令和光标指令一块使用的两个指令，比如，通过查找指令找到编辑文本中全部“小米”之后，若需要将全部的“小米”删除掉时，则可以“下一个”指令来移动光标直至找到“小米”，然后通过删除指令将“小米”一一删除；若需要在全部的“小米”之后添加“黑米”时，则可以通过“下一个”指令来移动光标直至找到“小米”，然后通过添加指令在“小米”之后添加“黑米”；通过查找指令找到编辑文本中全部“小米”之后，若需要将全部的“小米”修改为“大米”时，则可以通过“下一个”指令来移动光标直至找到“小米”，然后通过替换指令将“小米”一一替换为“大米”。

在语音编辑器内，保存指令是指当前编辑文本已经完成编辑之后，则需要对编辑文本进行保存，通过保存指令将上述编辑文本完成保存；退出指令则指完成编辑并且保存之后，则可以退出语音编辑器模式的指令。

进一步地，在本发明实施例中，还提供了学习指令，即用户可以通过语音指令进入到学习模式，实现新增指令的编辑。举例来说，用户可以通过学习指令进入到语音编辑器内，然后根据语音编辑器所提供的新增指令示范来学生如何生成新增指令，比如，新增指令示范为“请说什么什么等于什么什么算子”，其中，算子为语音编辑器内已有的指令，用户可以说“减减”等于“删除”算子，则语音编辑器成功识别新增指令的语句，然后确认反馈：我学会了，“减减”就是“删除”的意思，正确请回答“是”，若用户回答是“是”，则完成新指令的新增。

为了更清楚的介绍本发明实施例提供的一种语音编辑方法，以下结合图2～图6，一一介绍该语音编辑方法内所涉及到的具体内容。

图2为本发明实施例提供的语音编辑器编辑文本流程示意图；图3为本发明实施例提供的光标移动流程示意图；图4为本发明实施例提供的词槽匹配查找和编辑文本流程示意图；图5为本发明实施例提供的指定词语查找和编辑文本流程示意图；图6为本发明实施例提供的新指令增加流程示意图；如图2所示，该语音编辑器编辑文本的流程主要包括以下步骤：

步骤201，获取用户输入的语音信息；

步骤202，将获取到的语音信息通过自动语音识别转换为文本数据；

步骤203，判断是否需要对文本数据进行编辑，若需要对文本数据进行编辑，则执行步骤204；如不需要对文本数据进行编辑，则执行步骤209；

步骤204，通过唤醒信息唤醒语音编辑器；

步骤205，唤醒语音编辑器之后，将文本数据存储至语音编辑器内，并对文本数据进行初始化处理，这里的初始化处理主要包括有文本数据进行语句的解析，然后根据语句的解析，对文本数据进行分词处理，断句处理和增加标点符号等操作；

步骤206，在语音编辑器内获取语音编辑指令表；

步骤207，对初始化处理的编辑文件通过语音编辑指令表进行进一步地处理；这里的进一步处理包括通过：查找指令、删除指令、添加指令、替换指令等指令进行处理，而上述指令的执行均需要结合光标移动指令进行。

步骤208，对编辑文件完成编辑；

步骤209，结束。

以下分别介绍上述指令的处理过程：

如图3所示，步骤301中，用户输入光标移动指令，在一般情况下，光标移动指令默认设置在待编辑文本的末尾；

在步骤302中，用户通过语音控制光标移动指令移动到指定的位置，比如，通过“上上”将光标向上移动一行；通过“下下”将光标向下移动一行；通过“左左”将光标向左移动一个字符；通过“右右”将光标向右移动一个字符。

在步骤303中，当确认光标移动到指定位置之后，则可以进一步地通过删除指令、添加指令或者替换指令对该位置的内容进行处理；

步骤304，通过光标移动指令结合删除指令、添加指令和替换指令可以完成对整个编辑文件的编辑。

查找指令可以通过以下图4和图5所示的流程进行：

如图4所示，在步骤401之前，若输入的文本数据为“我这个星期四要坐高铁去北京旅游星期六回来”，当进入到语音编辑器内进行初始化处理之后，则输出的编辑文本为“这个星期四要做高铁去北京旅游，星期六回来。”

在步骤401中，用户输入了指定词语查找指令为“找到(高铁)”；

在步骤402中，语音编辑器根据接收到的词语音频，可以在编辑文本中查找到全部的“高铁”；

在步骤403中，语音编辑器对查找到的指定“高铁”进行标亮显示；需要说明的是，这里的标亮显示可以是在指定词语底部增加鲜艳颜色，可以是将指定词语变粗显示，可以是在指定词语下方增加下划线显示，可以是将指定词语换一种颜色显示，在本发明实施例中，对标亮显示的具体形式不做限定。

在步骤404中，若编辑文本中包括多个指定“高铁”，则可以通过光标移动指令，依次找到需要编辑的指定词语。

在步骤405中，对指定词语通过删除指令、添加指令或者替换指令一一进行处理。比如，若需要将“高铁”替换为“飞机”则可以通过替换指令将全部的“高铁”修改为“飞机”。

在步骤406中，通过上述步骤405提供的方式完成整个编辑文件的处理，编辑完的文字信息为“我这个星期四要坐飞机去北京旅游，星期六回来”。

如图5所示，在步骤501之前，若输入的文本数据为“我这个星期四要坐高铁去北京旅游星期六回来”，当进入到语音编辑器内进行初始化处理之后，则输出的编辑文本为“这个星期四要做高铁去北京旅游，星期六回来。”

在步骤501中，用户输入了词槽查找指令为日期。

在步骤502中，语音编辑器根据接收到的词槽，将与词槽匹配的所有词语标亮，编辑文本中的“星期四”和“星期六”这个表示日期的词语将被标亮。

在步骤503中，通过移动光标指令，在编辑文本中依次找到上述标亮的词语；

在步骤504中，对标亮的词语通过替换指令将“星期六”修改为“星期五”，

在步骤505中，完成对编辑文件的编辑，最终的编辑结果为“我这个星期四要做高铁去北京旅游，星期六回来”。

学习指令可以通过图6提供的流程进行：

如图6所示，在步骤601中，在语音编辑器模式下，用户说出“进入指令学习”，语音编辑器识别该指令，进入到指令学习流程中；

在步骤602中，语音编辑器进入到指令学习新增的模式下，首先是主动播报语料新增的示范：“请说什么什么等于什么什么算子”进行新指令的增加，其中“算子”是语音编辑器中已有的指令；

在步骤603中，用户根据示范直接说：“减减”等于“删除”算子；

在步骤604中，语音编辑器成功识别新指令增加的语句后，进行确认反馈：我学会了，“减减”就是“删除”的意思，正确请回答是。

在步骤605中，用户回答“是”完成新指令的新增。

基于同一发明构思，本发明实施例提供了一种语音编辑装置，由于该装置解决技术问题的原理与一种语音编辑方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

图7为本发明实施例提供的一种语音编辑装置结构示意图，如图7所示，该装置主要包括：转换单元701，存入单元702，得到单元703和编辑单元704。

转换单元701，用于将收到的语音数据转换为文本数据；

存入单元702，用于若收到语音编辑器的唤醒信息，则将所述文本数据存入所述语音编辑器内进行语音编辑；

得到单元703，用于对所述语音编辑器内的所述文本数据进行初始化处理，得到编辑文本；

编辑单元704，用于根据所述语音编辑器内存储语言编辑指令表，对所述编辑文件进行添加以及删除处理，得到与所述语言数据相匹配的文字信息。

优选地，所述初始化处理包括以下一项或者多项处理：

其中，所述词槽至少包括时间、地点。

优选地，所述语言编辑指令表至少包括：

光标移动指令；和/或者

查找指令；和/或者

删除指令；和/或者

添加指令；和/或者

保存指令；和/或者

退出指令；和/或者

学习指令；和/或者

优选地，所述得到单元703主要用于：

优选地，还包括学习单元705；

将所述第一指令添加到所述语言编辑指令表。

应当理解，以上一种语音编辑装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分，实际应用中，可以进行上述单元的叠加或拆分。并且该实施例提供的一种语音编辑装置所实现的功能与上述实施例提供的一种语音编辑方法一一对应，对于该装置所实现的更为详细的处理流程，在上述方法实施例一中已做详细描述，此处不再详细描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音编辑方法，其特征在于，包括：

将收到的语音数据转换为文本数据；

2.如权利要求1所述的方法，其特征在于，所述初始化处理包括以下一项或者多项处理：

其中，所述词槽至少包括时间、地点。

3.如权利要求1所述的方法，其特征在于，所述语言编辑指令表至少包括：

光标移动指令；和/或者

查找指令；和/或者

删除指令；和/或者

添加指令；和/或者

替换指令；和/或者

保存指令；和/或者

退出指令；和/或者

学习指令；和/或者。

4.如权利要求3所述的方法，其特征在于，所述根据所述语音编辑器内存储语言编辑指令表，对所述编辑文件进行添加以及删除处理，主要包括：

5.如权利要求1所述的方法，其特征在于，还包括：

通过所述学习指令进入所述语音编辑器内；

将所述第一指令添加到所述语言编辑指令表。

6.一种语音编辑装置，其特征在于，包括：

转换单元，用于将收到的语音数据转换为文本数据；

7.如权利要求6所述的装置，其特征在于，所述初始化处理包括以下一项或者多项处理：

其中，所述词槽至少包括时间、地点。

8.如权利要求6所述的装置，其特征在于，所述语言编辑指令表至少包括：

光标移动指令；和/或者

查找指令；和/或者

删除指令；和/或者

添加指令；和/或者

保存指令；和/或者

退出指令；和/或者

学习指令；和/或者。

9.如权利要求8所述的方法，其特征在于，所述得到单元主要用于：

10.如权利要求1所述的方法，其特征在于，还包括学习单元；

将所述第一指令添加到所述语言编辑指令表。