CN112732139A

CN112732139A - 录音处理方法、装置、移动终端及存储介质

Info

Publication number: CN112732139A
Application number: CN202110037226.9A
Authority: CN
Inventors: 刘妙
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-04-30

Abstract

本申请公开了一种录音处理方法、装置、移动终端及存储介质，该录音处理方法包括：展示录音播放界面，所述录音播放界面包括指定录音文件转换为的文本的至少部分内容；响应用于对所述文本进行编辑的第一操作，展示文本编辑界面，所述文本编辑界面包括对所述文本进行分段后的多个文本段落；响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改。本方法可以方便用户对录音转换的文本的编辑。

Description

录音处理方法、装置、移动终端及存储介质

技术领域

本申请涉及移动终端技术领域，更具体地，涉及一种录音处理方法、装置、移动终端及存储介质。

背景技术

随着科技水平和生活水平的快速进步，移动终端，例如手机、平板电脑等，已经成为人们日常生活中最常用的消费型电子产品之一。随着科技水平的发展，移动终端通常具备录音功能，并且移动终端在录音完成后，可以利用语音识别技术将录音文件转换为文本文件，以便用户查看录音内容。另外，由于语音识别所转换的文本会存在不准确的问题，许多移动终端会提供录音转换的文本的编辑功能，但是对录音文本的编辑存在操作繁琐的问题。

发明内容

鉴于上述问题，本申请提出了一种录音处理方法、装置、移动终端及存储介质。

第一方面，本申请实施例提供了一种录音处理方法，应用于移动终端，所述方法包括：展示录音播放界面，所述录音播放界面包括指定录音文件转换为的文本的至少部分内容；响应用于对所述文本进行编辑的第一操作，展示文本编辑界面，所述文本编辑界面包括对所述文本进行分段后的多个文本段落；响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改。

第二方面，本申请实施例提供了一种录音处理装置，应用于移动终端，所述装置包括：第一界面展示模块、第二界面展示模块以及文本修改模块，其中，所述第一界面展示模块用于展示录音播放界面，所述录音播放界面包括指定录音文件转换为的文本的至少部分内容；所述第二界面展示模块用于响应用于对所述文本进行编辑的第一操作，展示文本编辑界面，所述文本编辑界面包括对所述文本进行分段后的多个文本段落；所述文本修改模块用于响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改。

第三方面，本申请实施例提供了一种移动终端，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面提供的录音处理方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的录音处理方法。

本申请提供的方案，通过展示录音播放界面，该录音播放界面包括指定录音文件转换为的文本的至少部分内容，响应用于对文本进行编辑的第一操作，展示文本编辑界面，该文本编辑界面包括对文本进行分段后的多个文本段落，响应用于对处于选中状态的文本段落进行修改的第二操作，对处于选中状态的文本段落的文本内容进行相应的修改。从而通过在文本编辑界面中展示分段后的文本段落，使得用户可以直接对需要的文本段落进行修改，方便了用户对录音转换为的文本的编辑，提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请一个实施例的录音处理方法流程图。

图2示出了本申请实施例提供的一种界面示意图。

图3示出了根据本申请另一个实施例的录音处理方法流程图。

图4示出了本申请实施例提供的另一种界面示意图。

图5示出了根据本申请又一个实施例的录音处理方法流程图。

图6示出了本申请实施例提供的又一种界面示意图。

图7示出了本申请实施例提供的再一种界面示意图。

图8示出了根据本申请一个实施例的录音处理装置的一种框图。

图9是本申请实施例的用于执行根据本申请实施例的录音处理方法的移动终端的框图。

图10是本申请实施例的用于保存或者携带实现根据本申请实施例的录音处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

当前，移动终端在日常生活使用中，普及率已近乎全民覆盖，其中，相机模块，已成为智能终端主要功能点，用户可通过移动终端的麦克风功能，进行语音通话、视频通话等。另外，还可以利用麦克风功能对需求的语音内容进行录音。

随着科技的进步，语音识别技术组件应用到移动终端中。移动终端利用语音识别技术可以实现语音控制、语音转文本等。在一些场景中，可以通过语音识别技术将录音文件转换为文本，以供用户直接查看录音内容。由于实际应用中，会存在语音识别不准确的问题，因此录音文件所转换为的文本内容可能需要用户手动进行编辑。在相关技术中，部分移动终端会提供对录音转换成的文本的编辑功能，在录音文件的播放界面中，用户可以对需求修改的文字所在位置进行点击，在弹出编辑界面后，可以在编辑界面中对该位置处的文本进行修改；当用户需要继续对其他位置处的文本进行修改时，则需要退出编辑界面后，再对其他位置处的文本进行操作，重复进入编辑界面的流程，然后进行修改。但是这样的方式中，若用户需求修改的文本较多时，就需要重复操作，从而造成操作较为繁琐的问题，进而用户体验不佳。

针对上述问题，发明人提出了本申请实施例提供的录音处理方法、装置、电子设备以及存储介质，可以实现通过在文本编辑界面中展示分段后的文本段落，使得用户可以直接对需要的文本段落进行修改，方便了用户对录音转换为的文本的编辑，提升用户体验。其中，具体的录音处理方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的录音处理方法的流程示意图。在具体的实施例中，所述录音处理方法应用于如图8所示的录音处理装置400以及配置有所述录音处理装置400的移动终端100(图9)。下面将以移动终端为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的移动终端可以为智能手机、平板电脑、智能手表等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述录音处理方法具体可以包括以下步骤：

步骤S110：展示录音播放界面，所述录音播放界面包括指定录音文件转换为的文本的至少部分内容。

在本申请实施例中，移动终端在完成录音后，可以将录音文件进行展示。具体地，移动终端可以在接收到对指定录音文件的播放操作时，展示录音播放界面，该录音播放界面中可以至少包括录音转文本的展示区域。该展示区域可以包括该指定录音文件转换为的文本的至少部分内容。从而，移动终端在录音完成后，对录音文件进行播放时，用户可以听录音的同时，查看转换为的文本内容。其中，指定录音文件为移动终端存储的任一音频文件，该指定录音文件可以为移动终端录音获得的音频文件，也可以为从其他设备获取的音频文件等，在此不做限定。

在一些实施方式中，以上指定录音文件转换为的文本的至少部分内容可以为当前正在播放的录音对应的文本内容。例如，指定录音文件的第一时刻到第二时刻之间恰好分割为一段录音，并且当前正在播放该段录音，则可以展示该段录音对应的文本内容。

在另一些实施方式中，展示的文本内容可以是已经播放的录音对应的文本内容。其中，移动终端可以播放录音的同时，对播放的录音转换为的文本进行展示，且展示的文本内容的进度可以与录音的播放进度对应，例如，当前播放进度对应的时刻为第三时刻，并且第三时刻对应转换为的文字为“会议”，而在第三时刻之前的录音转换为的文本为“明天下午三点进行”，则展示的文本为“明天下午三点进行会议”，在第三时刻以后的录音对应的文本内容则不进行显示。从而用户可以查看到已播放的录音对应的文本内容，以便用户确认转换为的文本是否准确。

在一些实施方式中，录音播放界面中也还可以包括其他内容，例如，请参阅图2，录音播放界面A1中可以包括录音转文本的展示区域11，还可以包括录音播放的进度显示区域12、录音文件的总时长13、当前播放进度对应的时刻14、标记文本的控件15、重新转写的控件16、倍速控制的控件17、裁切音频文件的控件18、播放控件19、快进控件20、倒退控件21等。其中，进度显示区域12用于展示录音文件的播放进度；标记文本的控件15，用于对转换为的文本进行标记；重新转写的控件16，用于对录音文件重新转换为文本；倍速控制的控件17用于切换录音文件的播放速度；裁切音频文件的控件18用于对音频文件进行裁剪；播放控件19用于控制录音播放以及暂停播放；快进控件20用于控制录音播放的进度前进；倒退控件21用于控制录音播放的进度倒退。当然，录音播放界面A1中包括的具体内容可以不做限定。

步骤S120：响应用于对所述文本进行编辑的第一操作，展示文本编辑界面，所述文本编辑界面包括对所述文本进行分段后的多个文本段落。

在本申请实施例中，移动终端可以检测录音播放界面中用户进行的操作，检测的操作可以包括作用于录音播放界面中的按压操作、点击操作、滑动操作等。当检测到录音播放界面中的操作时，可以确定该操作是否为用于对文本进行编辑的第一操作。

在一些实施方式中，录音播放界面中可以包括用于编辑文本的编辑控件。第一操作可以为录音播放界面中对该编辑控件的点击操作。也就是说，移动终端在检测到用户对该编辑控件的点击操作时，可以展示文本编辑界面。

在一些实施方式中，第一操作也可以为录音播放界面中的指定滑动操作。该指定滑动操作可以为预先设置的满足相应的滑动条件的滑动操作，例如，可以为滑动轨迹满足预设滑动轨迹，和/或，滑动距离达到预设阈值的滑动操作。当然，具体的指定滑动操作可以不做限定。

在本申请实施例中，移动终端在检测到用于对录音转换为的文本进行编辑的第一操作之后，则可以展示文本编辑界面。该文本编辑界面中可以包括对以上录音转换为的文本进行分段后的多个文本段落。在一些实施方式中，由于指定录音文件转换为的文本内容可能较多，分段后的文本段落也较多，因此在文本编辑界面中可以展示分段后的所有文本段落中的多个文本段落。也就是说，在文本编辑界面的可显示区域内展示多个文本段落，移动终端可以检测对多个文本段落的操作，以执行对文本段落的编辑；另外，移动终端可以检测对这多个文本段落的切换，对其他的文本段落进行展示，例如，在检测到对文本段落所在的区域的上滑操作时，将其他未被展示的段落从底部逐渐进行展示，并且隐藏顶部位置此前展示的段落。

步骤S130：响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改。

在本申请实施例中，移动终端可以在展示文本编辑界面中，检测对处于选中状态的文本段落的操作，以在检测到用于对文本段落进行修改的第二操作时，执行对处于选中状态的文本段落的文本内容的修改。

在一些实施方式中，移动终端在文本编辑界面中展示的文本段落中，可以根据用户对不同段落的选取操作，而使不同的段落处于选中状态，以便用户对不同的文本段落进行相应地修改。

在一些实施方式中，以上对文本内容的修改可以至少包括：删除文字、添加文字、替换文字、改变文字的位置、添加标点符号、替换标点符号等。具体对文本内容的修改可以根据实际的需求而定。

在一些实施方式中，移动终端在展示编辑界面时，也可以对处于选中状态的文本段落对应的录音文件进行播放，以便用户修改该文本段落的同时，可以听到录音，给用户对文本内容的修改提供参考。

本申请实施例提供的录音处理方法，通过展示录音播放界面，该录音播放界面包括指定录音文件转换为的文本的至少部分内容，响应用于对文本进行编辑的第一操作，展示文本编辑界面，该文本编辑界面包括对文本进行分段后的多个文本段落，响应用于对处于选中状态的文本段落进行修改的第二操作，对处于选中状态的文本段落的文本内容进行相应的修改。从而通过在文本编辑界面中展示分段后的多个文本段落，使得用户可以直接对需要的文本段落进行修改，这样的话，用户可以在同一编辑界面中对不同段落进行编辑，简化了用户的操作，方便了用户对录音转换为的文本的编辑，提升用户体验。

请参阅图3，图3示出了本申请另一个实施例提供的录音处理方法的流程示意图。该录音处理方法应用于上述移动终端，下面将针对图3所示的流程进行详细的阐述，所述录音处理方法具体可以包括以下步骤：

步骤S210：展示录音播放界面，所述录音播放界面包括指定录音文件转换为的文本的至少部分内容。

步骤S220：响应用于对所述文本进行编辑的第一操作，展示文本编辑界面，所述文本编辑界面包括对所述文本进行分段后的多个文本段落。

在本申请实施例中，步骤S210以及步骤S220可以参阅前述实施例的内容，在此不再赘述。

步骤S230：响应用于对处于选中状态的文本段落进行切换的第三操作，切换相应的文本段落处于选中状态。

在本申请实施例中，移动终端可以控制文本编辑界面中不同的文本段落处于选中状态。其中，移动终端可以检测对文本段落的操作，以在检测到用于对处于选中状态的文本段落进行切换的第三操作，切换相应的文本段落处于选中状态，从而实现根据用户的操作，控制不同的文本段落处于选中状态，满足用户对不同段落的文本内容进行编辑的需求。

在一些实施方式中，处于选中状态的段落可以处于可编辑状态，而不处于选中状态的段落可以处于不可编辑状态。具体地，移动终端响应用于对处于选中状态的文本段落进行切换的第三操作，可以控制当前处于选中状态的文本段落处于不可编辑状态，以及控制待切换至选中状态的文本段落处于可编辑状态。

示例性地，请参阅图4，在文本编辑界面A2中，处于选中状态的文本段落31可以处于正常显示状态，而不处于选中状态的文本段落可以处于置灰状态。

在一些实施方式中，请参阅图4，文本编辑界面A2中可以包括换行控件32。移动终端可以检测文本编辑界面A2中的操作，在检测到对换行控件32的触发操作时，响应该触发操作，将当前处于选中状态的文本段落的下一文本段落切换为选中状态。也就是，控制当前处于选中状态的文本段落切换不处于选中状态，而该文本段落的下一文本段落处于选中状态。其中，触发操作可以为对换行控件的点击操作。可以理解地，若用户对当前处于选中状态的文本段落已经编辑完成，或者用户不需要对当前处于选中状态的文本段落进行修改，则用户可以点击换行控件，而使下一文本段落处于选中状态。由此可以实现用户通过对换行控件进行操作，即可在编辑界面中对不同的文本段落进行编辑，完成用户对不同段落的编辑需求，简化用户操作，提升用户体验。

在另一些实施方式中，移动终端响应用于对处于选中状态的文本段落进行切换的第三操作，切换相应的文本段落处于选中状态，包括：在检测所述文本编辑界面中的滑动操作时，判断所述滑动操作是否满足预设滑动条件；若满足预设滑动条件，基于所述滑动操作的滑动方向，将当前处于选中状态的文本段落的下一文本段落或者上一文本段落切换为选中状态。在该实施方式中，移动终端检测到文本编辑界面中的滑动操作，可以为文本段落所在区域中的滑动操作。以上预设滑动条件可以包括：滑动距离大于指定距离，和/或，滑动方向为预设方向。其中，移动终端可以是基于第一滑动方向，控制选中状态的下一文本段落切换为选中状态；基于第二滑动方向，控制选中状态的上一文本段落切换为选中状态，第一滑动方向与第二滑动方向相反。

示例性地，预设滑动条件可以为滑动距离大于指定距离的上滑操作或者下滑操作。移动终端在检测到滑动距离大于指定距离的上滑操作时，则可以控制当前处于选中状态的文本段落的下一文本段落切换为选中状态；移动终端在检测到滑动距离大于指定距离的下滑操作时，则可以控制当前处于选中状态的文本段落的上一文本段落切换为选中状态。

在又一些实施方式中，移动终端也可以检测对不同文本段落的选取操作。该选取操作可以为满足设定按压条件的按压操作，其中，设定按压条件可以包括：按压面积大于指定面积以及按压时长达到指定时长中的至少一种。示例性地，移动终端在检测到对目标文本段落的按压时长达到指定时长的按压操作，则可以控制目标文本段落处于选中状态，而此前处于选中状态的文本段落处于未被选中的状态。

当然，在本申请实施例中，以上对文本段落的切换操作的具体形式可以不做限定。

步骤S240：响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改。

在本申请实施例中，移动终端在根据用户的操作，切换处于选中状态的文本段落之后，则可以响应对处于选中状态的文本段落进行修改的第二操作，以执行对文本内容的相应的修改。

本申请实施例提供的录音处理方法，通过在文本编辑界面中展示分段后的多个文本段落，使得用户可以直接对需要的文本段落进行修改，这样的话，用户可以在同一编辑界面中对不同段落进行编辑，简化了用户的操作，方便了用户对录音转换为的文本的编辑。另外，展示的文本段落中，用户可以通过对处于选中状态的文本段落进行切换，而使得不同的文本段落处于选中状态，进而满足用户对不同文本段落的内容的编辑需求，简化用户的操作，提升用户体验。

请参阅图5，图5示出了本申请又一个实施例提供的录音处理方法的流程示意图。该录音处理方法应用于上述移动终端，下面将针对图5所示的流程进行详细的阐述，所述录音处理方法具体可以包括以下步骤：

步骤S310：基于语音活动检测VAD对指定录音文件对应的文本进行分段，获得所述多个文本段落。

在本申请实施例中，移动终端在展示录音播放界面之前，可以对指定录音文件进行音频转文本的转换，获得指定录音文件对应的文本。另外，移动终端可以基于语音活动检测(Voice Activity Detection，VAD)，识别指定录音文件中的人声停顿处，并根据人声停顿，来对文本进行分段。其中，分段的文本段落中可以包括一句话，也可以包括多句话，在此不做限定。

步骤S320：展示录音播放界面，所述录音播放界面包括指定录音文件转换为的文本的当前播放的录音对应的目标文本段落。

在本申请实施例中，移动终端展示录音播放界面时，在录音播放界面中展示的文本内容可以为当前播放的录音对应的目标文本段落。可以理解地，请再次参阅图2，移动终端在展示的录音播放界面A1中，可以仅展示正在播放的录音对应的段落(即展示区域11的内容)。

在一些实施方式中，移动终端可以根据以上通过VAD，对文本进行分段时，检测到的人声停顿，也对指定录音文件进行划分，从而得到多个录音片段，并且每个录音片段与其中一个文本段落对应。从而，移动终端在播放指定录音文件时，可以确定出当前播放的录音对应的目标文本段落。另外，移动终端在录音播放界面中还可以显示当前播放的文本段落对应的语音的开始时刻，以便用户知晓当前播放的录音在整个指定录音文件中对应的起始时间。

步骤S330：响应用于展开所述文本的第四操作，于所述录音播放界面中展示对所述文本进行分段后的多个文本段落。

在本申请实施例中，由于移动终端展示的录音播放界面中，对当前播放的录音对应的文本段落进行展示，若用户需要在播放指定录音文件时，查看更多的文本段落，则可以于录音播放界面中对文本进行用于展开文本的第四操作。移动终端在检测到用于展开文本的第四操作之后，则可以于录音播放界面中展示对文本进行分段后的多个文本段落。

在一些实施方式中，录音播放界面中还可以包括用于展开文本的控件，例如，如图1所示，录音播放界面中A1可以包括用于展开文本的控件22。移动终端在检测到对用于展开文本的控件22的触发操作时，于录音播放界面中展示对文本进行分段后的多个文本段落，从而实现对更多文本段落的展示。可以理解地，录音播放界面中展示的多个文本段落可以包括此前的目标文本段落。如图6所示，在录音播放界面A1中可以展示多个文本段落。

另外，录音播放界面中的多个文本段落中，移动终端可以控制正在播放的录音对应的目标文本段落处于第一显示状态，控制除目标文本段落以外的其他文本段落处于第二显示状态。其中，第一显示状态与第二显示状态可以在显示颜色、显示亮度等状态上进行区分，以便用户知晓当前播放的录音对应的目标文本段落。例如，如图6所示，处于选中状态的文本段落处于加黑状态，而其他段落处于正常显示的状态。

在一些实施方式中，移动终端可以在录音播放界面中展示多个文本段落之后，还可以在每个文本段落的位置处展示其对应的录音片段的起始时刻。该起始时刻指的是录音片段在指定录音文件中的开始时刻。

在一些实施方式中，移动终端可以检测对录音播放界面中对不同文本段落的选取操作，而控制相应的文本段落对应的录音片段处于播放状态。例如，请同时参阅图6及图7，用户在对其他段落选取后，则可以控制其他段落对应的录音片段处于播放状态。从而，用户可以直接根据录音转文本结果中不同文本段落的选取，而控制不同的录音片段进行播放。其中，移动终端控制选取操作对应的文本段落所对应的录音片段处于播放状态，即切换到相应录音片段对应的起始时刻播放指定录音文件。

步骤S340：响应用于对所述文本进行编辑的第一操作，展示包括所述多个文本段落的文本编辑界面，并控制所述目标文本段落处于选中状态。

在本申请实施例中，移动终端在展示包括多个文本段落的以上录音播放界面后，则可以检测对文本进行编辑的第一操作。在检测到对文本进行编辑的第一操作时，可以展示包括多个文本段落的文本编辑界面，并控制以上当前正在播放的录音对应的目标文本段落处于选中状态。

步骤S350：循环播放所述处于选中状态的文本段落对应的语音。

在本申请实施例中，移动终端在由录音播放界面，展示文本编辑界面之后，还可以循环播放处于选中状态的文本段落对应的语音。例如，移动终端展示文本编辑界面时，最初处于选中状态的文本段落为以上目标文本段落，则可以控制该目标文本段落对应的语音进行播放。

在一些实施方式中，若检测到对处于选中状态的文本段落的切换操作之后，则可以循环播放最新处于选中状态的文本段落对应的录音。从而，用户可以在对文本段落进行编辑的同时，听该文本段落对应的录音，给用户对文本段落的修改提供参考。

在一些实施方式中，文本编辑界面中可以包括控制录音播放的控件，以便用户控制录音文件的播放、以及暂停播放。

步骤S360：响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改。

在本申请实施例中，移动终端在展示文本编辑界面之后，则可以响应对处于选中状态的文本段落进行修改的第二操作，以执行对文本内容的相应的修改。

在一些实施方式中，请参阅图4，文本编辑界面中还可以包括用于切换光标的第一控件以及第二控件。其中，第一控件用于控制光标向左移动一个字符，第二控件用于控制光标向左移动一个字符。从而用户可以通过对第一控件以及第二控件进行操作，就可以实现对不同位置处的文字进行修改。

在该实施方式下，当文本编辑界面中的光标移动至下一文本段落之后，则可以控制下一文本段落处于选中状态，并且自动播放该文本段落对应的录音。同理，当文本编辑界面中的光标移动至上一文本段落之后，则可以控制上一文本段落处于选中状态，并且自动播放该文本段落对应的录音。

在一些实施方式中，文本编辑界面中还可以包括撤销编辑的控件，以恢复编辑之前的文本段落，从而方便用户在修改出现错误时，能够重新对文本段落进行编辑。

另外，移动终端还可以根据用户对文本段落进行修改的操作，执行对文本段落的修改时，判断修改后的文本段落的字数与修改前的文本段落的字数的差值是否达到字数阈值，若达到字数阈值时，移动终端还可以在文本编辑界面中输出提示信息，以提示用户达到输入上限。

在一些实施方式中，移动终端在根据用户的操作，完成对指定录音文件对应的所有文本的编辑之后，还可以确定对转换为的文本的修改幅度；在修改幅度大于指定幅度时，移动终端可以将其进行记录。若连续多次进行的录音转文本后，对文本的修改幅度都大于指定幅度，则移动终端可以向服务器上报语音转文本出错；另外，还可以将录音文件、转换为的文本以及修改后的文本发送至服务器，以使服务器根据这些内容，对语音转文本的模型进行更新，并将更新后的模型下发至移动终端。从而移动终端可以获得更为准确地语音转文本的模型，提升后续进行语音转文本的准确率。

在一些实施方式中，移动终端若采用本地的语音转文本的模型，对以上录音文件进行文本转换。若针对部分语音内容，例如一些词对应的语音，在连续多次的录音文件转换为文本的结果中，都被用户进行了修改。则移动终端可以将该部分语音内容标注为用户修改后的文本，并据此对模型进行校正训练，以获得更为准确的模型。

本申请实施例提供的录音处理方法，通过在文本编辑界面中展示分段后的多个文本段落，使得用户可以直接对需要的文本段落进行修改，这样的话，用户可以在同一编辑界面中对不同段落进行编辑，简化了用户的操作，方便了用户对录音转换为的文本的编辑。另外，在展示录音播放界面时，对多个文本段落进行展示，从而方便用户对不同文本段落进行选取，而播放不同的文本段落对应的录音。

请参阅图8，其示出了本申请实施例提供的一种录音处理装置400的结构框图。该录音处理装置400应用上述的移动终端，该录音处理装置400包括：第一界面展示模块410、第二界面展示模块420以及文本修改模块430。其中，所述第一界面展示模块410用于展示录音播放界面，所述录音播放界面包括指定录音文件转换为的文本的至少部分内容；所述第二界面展示模块420用于响应用于对所述文本进行编辑的第一操作，展示文本编辑界面，所述文本编辑界面包括对所述文本进行分段后的多个文本段落；所述文本修改模块430用于响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改。

在一些实施方式中，该录音处理装置400还可以包括：段落切换模块。段落切换模块用于在所述响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改之前，响应用于对处于选中状态的文本段落进行切换的第三操作，切换相应的文本段落处于选中状态。

在该实施方式下，段落切换模块可以具体用于：响应用于对处于选中状态的文本段落进行切换的第三操作，控制当前处于选中状态的文本段落处于不可编辑状态，以及控制待切换至选中状态的文本段落处于可编辑状态。

在该实施方式下，述文本编辑界面可以包括换行控件。段落切换模块可以具体用于：响应对所述换行控件的触发操作，将当前处于选中状态的文本段落的下一文本段落切换为选中状态。

在该实施方式下，段落切换模块可以具体用于：在检测所述文本编辑界面中的滑动操作时，判断所述滑动操作是否满足预设滑动条件；若满足预设滑动条件，基于所述滑动操作的滑动方向，将当前处于选中状态的文本段落的下一文本段落或者上一文本段落切换为选中状态。

在一些实施方式中，所述至少部分内容包括当前播放的录音对应的目标文本段落。该录音处理装置400还可以包括：文本展开模块。文本展开模块可以用于在所述响应用于对所述文本进行编辑的第一操作，展示文本编辑界面之前，响应用于展开所述文本的第四操作，于所述录音播放界面中展示对所述文本进行分段后的多个文本段落。第二展示模块可以用于响应用于对所述文本进行编辑的第一操作，展示包括所述多个文本段落的文本编辑界面，并控制所述目标文本段落处于选中状态。

在一些实施方式中，该录音处理装置400还可以包括：语音播放模块。语音播放模块用于在所述响应用于对所述文本进行编辑的编辑操作，展示文本编辑界面之后，循环播放所述处于选中状态的文本段落对应的语音。

在一些实施方式中，该录音处理装置400还可以包括：文本分段模块。文本分段模块用于在所述响应用于对所述文本进行编辑的第一操作，展示文本编辑界面之前，基于语音活动检测VAD对所述指定录音文件对应的文本进行分段，获得所述多个文本段落。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请提供的方案，通过展示录音播放界面，该录音播放界面包括指定录音文件转换为的文本的至少部分内容，响应用于对文本进行编辑的第一操作，展示文本编辑界面，该文本编辑界面包括对文本进行分段后的多个文本段落，响应用于对处于选中状态的文本段落进行修改的第二操作，对处于选中状态的文本段落的文本内容进行相应的修改。从而通过在文本编辑界面中展示分段后的文本段落，使得用户可以直接对需要的文本段落进行修改，方便了用户对录音转换为的文本的编辑，提升用户体验。

请参考图9，其示出了本申请实施例提供的一种移动终端的结构框图。该移动终端100可以是智能手机、平板电脑、智能手表、智能手环等能够运行应用程序的移动终端。本申请中的移动终端100可以包括一个或多个如下部件：处理器110、存储器120、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个移动终端100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行移动终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储移动终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种录音处理方法，其特征在于，应用于移动终端，所述方法包括：

展示录音播放界面，所述录音播放界面包括指定录音文件转换为的文本的至少部分内容；

响应用于对所述文本进行编辑的第一操作，展示文本编辑界面，所述文本编辑界面包括对所述文本进行分段后的多个文本段落；

响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改。

2.根据权利要求1所述的方法，其特征在于，在所述响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改之前，所述方法还包括：

响应用于对处于选中状态的文本段落进行切换的第三操作，切换相应的文本段落处于选中状态。

3.根据权利要求2所述的方法，其特征在于，所述响应用于对处于选中状态的文本段落进行切换的第三操作，切换相应的文本段落处于选中状态，包括：

响应用于对处于选中状态的文本段落进行切换的第三操作，控制当前处于选中状态的文本段落处于不可编辑状态，以及控制待切换至选中状态的文本段落处于可编辑状态。

4.根据权利要求2所述的方法，其特征在于，所述文本编辑界面包括换行控件，所述响应用于对处于选中状态的文本段落进行切换的第三操作，切换相应的文本段落处于选中状态，包括：

响应对所述换行控件的触发操作，将当前处于选中状态的文本段落的下一文本段落切换为选中状态。

5.根据权利要求2所述的方法，其特征在于，所述响应用于对处于选中状态的文本段落进行切换的第三操作，切换相应的文本段落处于选中状态，包括：

在检测所述文本编辑界面中的滑动操作时，判断所述滑动操作是否满足预设滑动条件；

若满足预设滑动条件，基于所述滑动操作的滑动方向，将当前处于选中状态的文本段落的下一文本段落或者上一文本段落切换为选中状态。

6.根据权利要求1所述的方法，其特征在于，所述至少部分内容包括当前播放的录音对应的目标文本段落，在所述响应用于对所述文本进行编辑的第一操作，展示文本编辑界面之前，所述方法还包括：

响应用于展开所述文本的第四操作，于所述录音播放界面中展示对所述文本进行分段后的多个文本段落；

所述响应用于对所述文本进行编辑的第一操作，展示文本编辑界面，包括：

响应用于对所述文本进行编辑的第一操作，展示包括所述多个文本段落的文本编辑界面，并控制所述目标文本段落处于选中状态。

7.根据权利要求1-6任一项所述的方法，其特征在于，在所述响应用于对所述文本进行编辑的编辑操作，展示文本编辑界面之后，所述方法还包括：

循环播放所述处于选中状态的文本段落对应的语音。

8.根据权利要求1-6任一项所述的方法，其特征在于，在所述响应用于对所述文本进行编辑的第一操作，展示文本编辑界面之前，所述方法还包括：

基于语音活动检测VAD对所述录音文件对应的文本进行分段，获得所述多个文本段落。

9.一种录音处理装置，其特征在于，应用于移动终端，所述装置包括：第一界面展示模块、第二界面展示模块以及文本修改模块，其中，

所述第一界面展示模块用于展示录音播放界面，所述录音播放界面包括指定录音文件转换为的文本的至少部分内容；

所述第二界面展示模块用于响应用于对所述文本进行编辑的第一操作，展示文本编辑界面，所述文本编辑界面包括对所述文本进行分段后的多个文本段落；

所述文本修改模块用于响应用于对处于选中状态的文本段落进行修改的第二操作，对所述处于选中状态的文本段落的文本内容进行相应的修改。

10.一种移动终端，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-8任一项所述的方法。

11.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。