CN104240703A

CN104240703A - 语音信息处理方法和装置

Info

Publication number: CN104240703A
Application number: CN201410415839.1A
Authority: CN
Inventors: 颜启超
Original assignee: Samsung Guangzhou Mobile R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Guangzhou Mobile R&D Center; Samsung Electronics Co Ltd
Priority date: 2014-08-21
Filing date: 2014-08-21
Publication date: 2014-12-24
Anticipated expiration: 2034-08-21
Also published as: CN104240703B

Abstract

本申请公开了语音信息处理方法和装置。所述方法的一具体实施方式包括：获取语音信息；将根据所述语音信息得到的文字信息进行显示；根据所述文字信息处理所述语音信息。该实施方式拓展了终端处理语音信息的能力。

Description

语音信息处理方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及终端技术领域，尤其涉及语音信息处理方法和装置。

背景技术

语音信息是一种信息表现形式，通过将想要说的话进行录音可以生成语音信息，然后再将语音信息发给一个或多个用户进行收听，就实现了信息的传递。与传统的文字信息相比，语音信息的录入更加方便，并且还能传递发送者特有的声音、语气等信息，因此被越来越广泛地使用在各类通信应用中。现有技术中，对于接收到的语音消息只能进行收听、保存或转发等操作。

发明内容

本申请提供了一种语音信息处理方法和装置。

一方面，本申请提供了一种语音信息处理方法，所述方法包括：获取语音信息；将根据所述语音信息得到的文字信息进行显示；根据所述文字信息处理所述语音信息。

在某些实施方式中，所述根据所述文字信息处理所述语音信息包括：接收对所述文字信息的选择操作，得到被选中的文字片段；获取所述语音信息中与所述被选中的文字片段对应的语音片段。

在某些实施方式中，当被选中的文字片段为多个时，所述获取所述语音信息中与所述文字片段对应的语音片段包括：获取所述语音信息中与所述文字片段对应的多个语音片段；将所述多个语音片段进行组合。

在某些实施方式中，所述将根据所述语音信息得到的文本信息进行显示包括：将所述语音信息进行语音识别得到文字信息；将所述文字信息进行显示。

在某些实施方式中，所述文字信息与所述语音信息按照时间关系相互对应。

在某些实施方式中，所述方法还包括：将所述语音信息对应的音频波形进行显示。

在某些实施方式中，所述文字信息中文字的显示位置与所述音频波形的显示位置按照时间关系相互对应。

在某些实施方式中，所述方法还包括：当接收对所述文字信息的选择操作时，将被选中的文字片段和与所述文字片段对应的被选中的音频波形片段同时或先后显示为被选中状态；和/或当接收对所述音频波形的选择操作时，将被选中的音频波形片段和与所述音频波形片段对应的被选中的文字片段同时或先后显示为被选中状态。

在某些实施方式中，所述接收对所述音频波形的选择操作包括：获取时间杆在所述音频波形上的位置信息；根据所述位置信息，获取对所述音频波形的选择操作。

在某些实施方式中，所述获取所述语音信息中与所述被选择中的文字片段对应的语音片段，包括：获取所述语音信息中与所述被选中的音频波形片段对应的语音片段。

在某些实施方式中，所述方法还包括：获取生成所述语音信息的用户信息；将所述用户信息与所述语音片段进行关联。

在某些实施方式中，所述方法还包括：将所述语音片段保存为语音文件，其中，所述语音文件的属性信息包括所述用户信息。

在某些实施方式中，所述关联的表现形式包括视觉关联和/或听觉关联。

在某些实施方式中，所述方法还包括：将所述语音片段进行试听、保存、转发、共享操作或设置为铃声。

第二方面，本申请提供了一种语音信息处理装置，所述装置包括：语音信息获取模块，用于获取语音信息；文字信息显示模块，用于将根据所述语音信息得到的文字信息进行显示；语音信息处理模块，用于根据所述文字信息处理所述语音信息。

在某些实施方式中，所述语音信息处理模块包括：文字信息选择单元，用于接收对所述文字信息的选择操作，得到被选中的文字片段；语音片段获取单元，用于获取所述语音信息中与所述被选中的文字片段对应的语音片段。

在某些实施方式中，当被选中的文字片段为多个时，所述语音片段获取单元包括：语音片段获取子单元，用于获取所述语音信息中与所述文字片段对应的多个语音片段；语音片段组合子单元，用于将所述多个语音片段进行组合。

在某些实施方式中，所述文字信息显示模块包括：语音信息识别单元，用于将所述语音信息进行语音识别得到文字信息；文字信息显示单元，用于将所述文字信息进行显示。

在某些实施方式中，所述装置还包括：音频波形显示模块，用于将所述语音信息对应的音频波形进行显示。

在某些实施方式中，所述装置还包括：第一显示模块，用于当接收对所述文字信息的选择操作时，将被选中的文字片段和与所述文字片段对应的被选中的音频波形片段同时或先后显示为被选中状态；第二显示模块，用于当接收对所述音频波形的选择操作时，将被选中的音频波形片段和与所述音频波形片段对应的被选中的文字片段同时或先后显示为被选中状态。

在某些实施方式中，所述语音片段获取单元包括：波形片段获取单元，用于获取所述语音信息中与所述被选中的音频波形片段对应的语音片段。

在某些实施方式中，所述装置还包括：用户信息获取模块，用于获取生成所述语音信息的用户信息；用户信息关联模块，用于将所述用户信息与所述语音片段进行关联。

在某些实施方式中，所述装置还包括：语音片段保存模块，用于将所述语音片段保存为语音文件，其中，所述语音文件的属性信息包括所述用户信息。

在某些实施方式中，所述装置还包括：语音片段处理模块，用于将所述语音片段进行试听、保存、转发、共享操作或设置为铃声。

本申请提供的语音信息处理方法和装置，通过获取语音信息，然后将根据所述语音信息得到的文字信息进行显示，最后根据所述文字信息处理所述语音信息，实现了通过文字信息获取语音信息内容并进一步对语音信息进行处理的目的，拓展了终端处理语音信息的能力。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请语音信息处理方法的一个实施例的流程图；

图2是本申请语音信息处理方法的另一个实施例的流程图；

图3A是图2所示实施例的一个应用场景的示意图；

图3B是图3A所述应用场景中语音信息与文字信息的对应关系示意图；

图4是本申请语音信息处理方法的再一个实施例的流程图；

图5A是图4所示实施例的一个应用场景的示意图；

图5B是图4所示实施例的另一个应用场景的示意图；

图6是本申请语音信息处理装置的一个实施例的结构示意图；

图7是本申请语音信息处理装置的另一个实施例的结构示意图；

图8是本申请语音信息处理装置的再一个实施例的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了语音信息处理的一个实施例的流程100。本实施例主要以该方法应用于包含有显示屏的终端中来举例说明，该终端可以包括智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。所述在全屏应用下使用小组件的方法，包括以下步骤：

步骤101、获取语音信息。

在本实施例中，所述语音信息中承载的语音是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音。在获取语音信息时，可以由上述终端通过有线连接方式或者无线连接方式来获取语音信息，也可以直接获取预先存储在所述终端本地的语音信息。

在由上述终端通过有线连接方式或者无线连接方式来获取语音信息时，可以是通过即时通信软件来接收对方发送的语音信息，也可以是从网络服务器上下载暂存的语音信息，其中，所述无线连接方式包括但不限于3G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接或者其它未来将开发的无线连接方式。

步骤102、将根据所述语音信息得到的文字信息进行显示。

在本实施例中，上述终端可以根据预定的语音判别规则对获取到的语音消息中的音频数据进行识别，识别出音频数据中包含的字词，然后将其转换为文本形式，从而得到了上述文字信息。如果所述语音信息是从一首歌曲中截取的部分片段，也可以首先根据所述歌曲的名称等信息来获取相应的歌词，然后将歌词中与所述部分片段对应的语句作为所述文字信息。在获取到文字信息后，还可以在所述终端的显示屏上显示所述文字信息。

步骤103、根据所述文字信息处理所述语音信息。

在本实施例中，可以根据文字信息来确定所述语音信息要传递的具体内容，然后再根据所述具体内容的特点选择不同的处理方式来处理所述语音信息。例如，当用户正在开会时，不方便随时收听接收到的语音信息，此时就可以根据所述文字信息来获取所述语音信息的具体内容，然后直接用文字进行回复，从而避免了因无法及时收听语音信息造成的误解或损失。

本申请的上述实施例提供的方法通过获取语音信息，然后将根据所述语音信息得到的文字信息进行显示，最后根据所述文字信息处理所述语音信息，实现了通过文字信息获取语音信息内容并进一步对语音信息进行处理的目的，拓展了终端处理语音信息的能力。

进一步参考图2，其示出了语音信息处理方法的另一个实施例的流程200。该语音信息处理方法的流程200，包括以下步骤：

步骤201、获取语音信息。

步骤202、将根据所述语音信息得到的文字信息进行显示。

在本实施例的一个可选实现方式中，所述将根据所述语音信息得到的文本信息进行显示可以包括：将所述语音信息进行语音识别得到文字信息；将所述文字信息进行显示。其中，所述语音识别是一种以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述语言的技术。语音识别一般分为两个步骤：学习阶段和识别阶段，其中，学习阶段的任务是建立识别基本单元的声学模型以及语言模型，识别阶段是将输入的目标语音的特征参数和模型进行比较，得到识别结果。本实施例中所述语言识别主要利用识别阶段的方法将所述语音信息识别为文字信息，进行识别的主要方法包括预处理、特征提取、模式匹配等步骤，最终的匹配结果就是语音识别结果，也就是本实施例中的文字信息，然后在将所述文字信息转换为文本形式，并显示在所述终端的显示屏上。

在本实施例的一个可选实现方式中，所述文字信息与所述语音信息可以按照时间关系相互对应。现有技术在进行语音识别时，通常只关心语音所对应的文字是什么，而不会记录语音中每个音节在语音信息中的具体位置。而本实施例在进行语音识别时，不但识别到了语音信息的文字内容，而且可以将文字信息与语音信息按照时间关系相互对应。

具体地说，本实施例的语音信息处理方法在进行语音识别时，把语音信号按时间分成离散的多个段，每个段称为一帧，然后进行语音识别。在识别时，首先把帧识别成状态，通常多个帧会被识别为一个状态，然后再把状态组合成音素，最后结合预先设置的语音数据库、上下文语境等因素，将所述音素组合为字，其中，所述字在英语中指单词，在汉语中指汉字；所述音素代表字的发音，例如，汉语中可以将全部声母和韵母作为音素集；所述状态是指比音素更细致的语音单位。这样通过语音识别得到的文字信息中的每一个字，都可以在所述语音信息中找到对应的多个帧，从而实现了文字信息与语音信息在时间关系上的相互对应。

步骤203、接收对所述文字信息的选择操作，得到被选中的文字片段。

在本实施例中，在接收对上述文字信息的选择操作时，可以首先通过上述终端接收在所述文字信息的显示位置上的选择轨迹，其中，所述选择轨迹可以通过接收鼠标的点击和移动轨迹得到；当所述终端的显示屏幕为触控屏时，所述选择轨迹还可以通过接收人的手指或触控笔在所述显示屏幕上的滑动轨迹得到。然后可以根据所述选择轨迹的位置与所述文字信息的显示位置获取前述两个位置的重叠部分，此时位于所述重叠部分的文字信息就是被选中的文字片段。

在本实施例中，在获取被选中的文字片段时，还可以进一步在被选中的文字片段上同时显示特殊标识，以便用户判断选中的内容是否为想选的内容，其中特殊标识的表现形式可以是加粗文字、改变文字颜色或改变文字底色等。

步骤204、获取所述语音信息中与所述被选中的文字片段对应的语音片段。

在本实施例中，当通过步骤203得到被选中的文字片段后，就可以对所述文字片段进行分析，由于所述文字信息与语音信息是按照时间关系相互对应的，因此可以根据所述被选中的文字片段中第一个字和最后一个字，得到在所述语音信息中所述第一个字起始发音的位置和所述最后一个字结束发音的位置，在这两个位置之间的语音片段，就是与所述被选中的文字片段处于相同时间段的语音片段，也就是与所述被选中的文字片段对应的语音片段。

在本实施例的一个可选实现方式中，当被选中的文字片段为多个时，所述获取所述语音信息中与所述文字片段对应的语音片段包括：获取所述语音信息中与所述文字片段对应的多个语音片段；将所述多个语音片段进行组合。在本实施例中，如果上述选择轨迹的位置与上述文字信息的显示位置相互重叠的部分有多个，就可以认为有多个文字片段被选中。此时若要获取与所述多个文字片段对应的语音片段，就需要获取所述多个文字片段中的每一个文字片段的第一个字和最后一个字在所述语音信息中的位置，然后将这两个位置之间的语音片段作为被选中的语音片段，由于每个文字片段都对应一个语音片段，因此可以得到多个语音片段。在本实施例中，为了方便用户进一步对所述多个语音片段进行保存或转发等操作，还可以进一步将所述多个语音片段进行组合，得到组合后的语音片段。在对所述多个语音片段进行组合时，还可以在语音片段中每句话的句首、句末或句与句之间添加适当的空白停顿时间，以避免句与句之间突兀的转换，使得所述组合后的语音片段听起来更加自然流畅。

图3给出了本实施例的一个应用场景，如图3A所示，终端301为具有触摸屏幕的智能手机，获取的语音信息可以显示在所述智能手机上。当需要获取所述音信信息中的语音片段时，可以首先对所述语音信息进行语音识别得到并显示文字信息302，然后接收用户对所述文字信息302的选择操作，同时将用户选中的文字片段“今天天气很好，去白云山玩”和“十点钟在门口等”的底色上添加阴影，以表示这两个片段被选中。

图3B给出了本实施例中进行语音识别时，语音信息与文字信息的时间对应关系，如图3B所示，语音信息可以按时间分成离散的段，每段可以称为帧303，多个帧会被识别为一个状态304，然后再把状态组合成音素305，最后结合预先设置的语音数据库、上下文语境等因素，将所述音素组合为字306。下面以被选中的文字片段“今天天气很好，去白云山玩”中的第一个字为“今”为例，具体说明文字与语音的对应关系。如图3B所示，组成“今”字的音素有“j”，“i”和“n”,为了获取“今”在语音信息中的起始位置，需要进一步分析第一个音素“j”，而组成第一个音素“j”的状态有S1209，S124和S561这三个，接下来进一步分析第一个状态S1209，从图中可以看到S1209由5个帧组成，那么第一个帧所在的位置T1就是“今”的起始位置，也就是语音片段的起始位置。同理，“玩”的最后一帧所在的位置T2就是语音片段的结束位置，那么在T1和T2之间的语音片段就是与文字片段“今天天气很好，去白云山玩”对应的语音片段。

需要特别说明的是，在确定所述语音片段的起始或结束位置时，为了避免了句与句之间突兀的转换，还可以将语音片段中第一个字与之前语音的最后一个字中间的帧作为起始帧，或者将语音片段中第一个字与之后语音的第一个字中间的帧作为结束帧。例如，图3B中的语音片段以“玩”字结尾，如果以“玩”的最后一帧作为结尾，那么语音片段就会产生一种戛然而止的突兀感，此时就可以获取语音片段的下一句话“你带小孩去吗”的第一个字“你”的第一帧，然后将“玩”的最后一帧和“你”的第一帧中间的那一帧作为语音片段的最后一帧，以获得流畅自然的语音片段。

在图3A所示的应用场景中，用户一共选择了两个文字片段，因此可以得到两个语音片段，在“今天天气很好，去白云山玩”对应的语音片段中包含了重要的地点信息“白云山”，而在语音片段“十点钟在门口等”对应的语音片段中包含了重要的时间信息“十点钟”和地点信息“门口”。当用户需要同时保留这三个重要信息时，就可以将所述两个语音片段进行组合，得到合并后的一个语音片段，其对应的内容应该是“今天天气很好，去白云山玩，十点钟在门口等”。为了使合并后的语音片段听起来更加自然流畅，还可以在“去白云山玩”与“十点钟在门口等”之间添加适当的空白停顿时间。

从图2中可以看出，与图1对应的实施例不同的是，本实施例中的语音信息处理方法的流程200多出了接收对所述文字信息的选择操作，得到被选中的文字片段的步骤203，以及获取所述语音信息中与所述被选中的文字片段对应的语音片段的步骤204。通过增加的步骤203和步骤204，本实施例描述的方案可以通过选择部分文字实现对语音信息的部分截取，有助于从整段语音信息获取需要的语音片段，从而提高了语音信息的可编辑性。

进一步参考图4，其示出了语音信息处理方法的再一个实施例的流程400。该语音信息处理方法，包括以下步骤：

步骤401，获取语音信息；

在本实施例中，获取语音信息时，可以由上述终端通过有线连接方式或者无线连接方式来获取语音信息，也可以直接获取预先存储在所述终端本地的语音信息。

步骤402，将根据所述语音信息得到的文字信息进行显示；。

在本实施例中，上述终端可以根据预定的语音判别规则对获取到的语音消息中的音频数据进行识别，识别出音频数据中包含的字词，然后将其转换为文本形式，从而得到了上述文字信息。在获取到文字信息后，还可以在所述终端的显示屏上显示所述文字信息。

步骤403，将所述语音信息对应的音频波形进行显示。

在本实施例中，所述语音信息中的语音，其物理基础主要有音高、音强、音长和音色，这四者是构成语音四要素，其中，音高指声波频率，即每秒钟振动次数的多少；音强指声波振幅的大小；音长指声波振动持续时间的长短，也称为"时长"；音色指声音的特色和本质，也称作“音质”。根据所述语音四要素在所述语音信息中的变化情况，可以得到与所述语音信息对应的音频波形，例如音高不同时，波形表现出弹簧式的伸缩；音强不同时，波形表现出山峰式的起伏；音长不同时，波形持续的时间不同；音色不同时，对应不同的波形。

在本实施例的一个可选实现方式中，所述文字信息中文字的显示位置与所述音频波形的显示位置按照时间关系相互对应。由于步骤402中得到的文字信息与所述语音信息可以是按照时间关系相互对应的，因此所述文字信息与所述音频波形也是按照时间关系相互对应的。在同时显示所述文字信息和所述音频波形的时候，可以根据二者的时间对应关系，将它们的显示位置相互对应，以便用户直观的获得文字和波形的关系。

步骤404，当接收对所述文字信息的选择操作时，将被选中的文字片段和与所述文字片段对应的被选中的音频波形片段同时或先后显示为被选中状态。

在本实施例中，在接收对上述文字信息的选择操作时，可以首先通过上述终端接收在所述文字信息的显示位置上生成的选择轨迹，其中，所述选择轨迹可以通过接收鼠标的点击和移动轨迹得到；当所述终端的显示屏幕为触控屏时，所述选择轨迹还可以通过接收人的手指或触控笔在所述显示屏幕上的滑动轨迹的得到。然后可以根据所述选择轨迹的位置与所述文字信息的显示位置获取前述两个位置的重叠部分，位于所述重叠部分的文字信息就是被选中的文字片段。由于所述文字信息与所述音频波形是按照时间关系相互对应的，因此在获得被选中的文字片段的同时，也可以获得与所述文字片段处于相同时间段的音频波形片段，并将其作为被选中的音频波形片段。

在获取被选中的文字片段时，还可以进一步在被选中的文字片段和与所述文字片段对应的被选中的音频波形片段上显示特殊标识，使得所述被选中的文字片段和被选中的音频波形片段显示为被选中状态，所述被选中的音频波形片段可以与所述被选中的文字片段同时显示为被选中状态，也可以在完成对文字片段的选择操作后显示为被选中状态。

步骤405，当接收对所述音频波形的选择操作时，将被选中的音频波形片段和与所述音频波形片段对应的被选中的文字片段同时或先后显示为被选中状态。

在本实施例中，在接收对上述音频波形的选择操作时，可以首先通过上述终端接收在所述音频波形的显示位置上生成的选择轨迹，其中，所述选择轨迹可以通过接收鼠标的点击和移动轨迹得到；当所述终端的显示屏幕为触控屏时，所述选择轨迹还可以通过接收人的手指或触控笔在所述显示屏幕上的滑动轨迹的得到。然后可以根据所述选择轨迹的位置与所述音频波形的显示位置获取前述两个位置的重叠部分，位于所述重叠部分的音频波形就是被选中的音频波形片段。由于所述音频波形与所述文字信息是按照时间关系相互对应的，因此在获得被选中的音频波形片段的同时，也可以获得与所述音频波形片段处于相同时间段的文字片段，并将其作为被选中的文字片段。

在获取被选中的音频波形片段时，还可以进一步在被选中的音频波形片段和与所述音频波形片段对应的被选中的文字片段上显示特殊标识，使得所述被选中的音频波形片段和被选中的文字片段显示为被选中状态，所述被选中的文字片段可以与所述被选中的音频波形片段同时显示为被选中状态，也可以在完成对音频波形片段的选择操作后显示为被选中状态。需要说明的是，在接收对音频波形的选择操作时，只有当一个字在音频波形中所对应的所有帧都被选中时，这个字才能被显示为被选中状态。

在本实施例的一个可选实现方式中，上述接收对所述音频波形的选择操作包括：获取时间杆在所述音频波形上的位置信息；根据所述位置信息，获取对所述音频波形的选择操作。其中，所述时间杆可以用于确定一个精准的时间点，本实施例可以在所述音频波形上设置至少一对时间杆，并将成对的时间杆之间的音频波形片段作为上述被选中的音频波形片段，还可以进一步通过调整时间杆在所述音频波形上的位置，对所述被选中的音频波形片段的起始和结束时间做出精确调整，还可以根据选择需要增加或减少时间杆的数量。

需要说明的是，对于步骤404和步骤405来说，对文字进行选择和对音频波形进行选择是可以相互对应的，在实际的选择过程中，用户可以只选择文字，也可以只选择音频波形，还可以既选择文字又选择音频波形，最终都可以实现本实施例获取音频波形片段的目的，本申请对此不做具体限制。

步骤406，获取所述语音信息中与所述被选中的音频波形片段对应的语音片段。

在本实施例中，上述音频波形是根据所述语音信息中语音的音高、音强、音长和音色的变化情况得到的，因此，所述音频波形片段实际上就是所述语音信息的组成部分，所以可以直接根据所述被选中的音频波形片段得到所述语音信息中与所述被选中的音频波形片段对应的语音片段。

图5给出了本实施例的一个应用场景，如图5所示为对音频波形片段进行选择的界面501的示意图，此时界面501中同时显示有文字信息502和音频波形503，并且所述文字信息502中文字的显示位置与所述音频波形503的显示位置按照时间关系相互对应。如图5A所示，为用户直接选择音频波形时的示意图，用户手指划过的音频波形会被选中，并且被选中的音频波形片段及相应的文字片段的底色都被显示为阴影状态。如图5B所示，为利用时间杆504选择音频波形时的示意图，用户可以左右移动所述时间杆505在音频波形503上的位置，成对的时间杆504之间的音频波形会被选中，从而可以有效地去除语音信息中无用的空白段，并且被选中的音频波形片段及相应的文字片段的底色都被显示为阴影状态。此外，用户还可以通过按钮505来增加或减少时间杆505的数量，以满足不同的选择需求。

从图4中可以看出，与图1对应的实施例不同的是，本实施例中的语音信息处理方法的流程400通过接收对音频波形的选择操作，获得了被选中的音频波形片段，然后获取所述语音信息中与所述被选中的音频波形片段对应的语音片段。因此，本实施例描述的方案可以显示语音信息对应的音频波形，并直接通过选择音频波形得到相应的语音片段，不但可以有效地去除语音信息中无用的空白段，而且有助于提高截取语音片段的精度。

在本实施例的一个可选实现方式中，所述语音信息处理方法还可以包括：获取生成所述语音信息的用户信息；将所述用户信息与所述语音片段进行关联。具体地，可以根据所述语音信息的发送端的标识信息获取生成所述语音信息的用户信息，然后再将所述用户信息与所述语音片段进行关联，也就是将所述用户信息与语音片段进行对应，以确保其他接收到所述语音片段的终端能够识别出所述语音片段的原始来源。

在本实施例的一个可选实现方式中，所述方法还包括：将所述语音片段保存为语音文件，其中，所述语音文件的属性信息包括所述用户信息。当用户对所述语音信息进行截取，得到需要的语音片段之后，还可以直接将所述语音片段保存为语音文件，并将所述用户信息添加为所述语音文件的属性信息之一，这样无论后期对所述语音文件做何种处理，只要能够获取到语音文件，就可以从它的属性信息提取出生成所述语音文件的用户信息，进一步确保了语音片段的可追溯性。

在本实施例的一个可选实现方式中，所述关联的表现形式包括视觉关联和/或听觉关联。其中，所述视觉的关联，主要是指在显示形式上的关联，例如，在对所述语音片段进行转发时，可以在发送的语音片段上显示特殊标记，所述特殊标记包括但不限于“转自XX”这样的文字描述。所述听觉的关联，主要是指在所述语音片段中加入能够标识出用户信息的语音，所述语音包括但不限于在语音片段的结尾加入“来自XX”这样的音频信息。这样使得语音片段的接收方可以方便地辨别出该语音片段的来源，提高了语音片段的可识别性。

在本实施例的一个可选实现方式中，所述方法还包括：将所述语音片段进行试听、保存、转发、共享操作或设置为铃声。用户得到上述语音片段后，可以进行试听，以确认该语音片段的内容是否满足要求；还可以直接将其进行保存，以便反复使用；还可以将其转发给相关联系人或在各类网络平台中进行共享；也可以直接将其设置为铃声，从而扩展了语音信息的适用范围。

进一步参考图6，其示出了语音信息处理装置的一个实施例的结构示意图。

如图6所示，本实施例所述的语音信息处理装置600包括：语音信息获取模块610，文字信息显示模块620和语音信息处理模块630。

语音信息获取模块610，用于获取语音信息。

文字信息显示模块620，用于将根据所述语音信息获取模块610获取的语音信息得到的文字信息进行显示。

语音信息处理模块630，用于根据所述文字信息显示模块620显示的文字信息处理所述语音信息。

在本实施例中可以通过语音信息获取模块610获取语音信息，然后语音信息处理模块630将根据所述语音信息获取模块610获取的语音信息得到的文字信息进行显示，最后语音信息处理模块630根据所述文字信息显示模块620显示的文字信息处理所述语音信息，实现了通过文字信息获取语音信息内容并进一步对语音信息进行处理的目的，拓展了终端处理语音信息的能力。

在一些可选实施方式，如图7所示，所述语音信息处理模块630包括：文字信息选择单元631和语音片段获取单元632。

文字信息选择单元631，用于接收对所述文字信息显示模块620显示的文字信息的选择操作，得到被选中的文字片段。

语音片段获取单元632，用于获取所述语音信息中与所述文字信息选择单元631得到的被选中的文字片段对应的语音片段。

在一些可选实施方式中，当被选中的文字片段为多个时，所述语音片段获取单元632包括：语音片段获取子单元和语音片段组合子单元(图中未示出)。

语音片段获取子单元，用于获取所述语音信息中与所述文字片段对应的多个语音片段。

语音片段组合子单元，用于将所述语音片段获取子单元获取的多个语音片段进行组合。

在一些可选实施方式中，所述文字信息显示模块620包括：语音信息识别单元621和文字信息显示单元622。

语音信息识别单元621，用于将所述语音信息进行语音识别得到文字信息。

文字信息显示单元622，用于将所述语音信息识别单元621得到的文字信息进行显示。

在一些可选实施方式中，所述文字信息与所述语音信息按照时间关系相互对应。

本实施例描述的方案可以通过选择部分文字实现对语音信息的部分截取，有助于从整段语音信息获取需要的语音片段，从而提高了语音信息的可编辑性。

在一些可选实施方式中，如图8所示，所述装置600还包括：

音频波形显示模块640，用于将所述语音信息获取模块610获取的语音信息对应的音频波形进行显示。

在一些可选实施方式中，所述文字信息中文字的显示位置与所述音频波形的显示位置按照时间关系相互对应。

在一些可选实施方式中，所述装置600还包括：

第一显示模块650，用于当接收对所述文字信息的选择操作时，将被选中的文字片段和与所述文字片段对应的被选中的音频波形片段同时或先后显示为被选中状态。

第二显示模块660，用于当接收对所述音频波形的选择操作时，将被选中的音频波形片段和与所述音频波形片段对应的被选中的文字片段同时或先后显示为被选中状态。

在一些可选实施方式中，所述接收对所述音频波形的选择操作包括：

获取时间杆在所述音频波形上的位置信息；

根据所述位置信息，获取对所述音频波形的选择操作。

在一些可选实施方式中，所述语音片段获取单元632包括：

波形片段获取子单元(图中未示出)，用于获取所述语音信息中与所述被选中的音频波形片段对应的语音片段。

在一些可选实施方式中，所述装置还600包括：

用户信息获取模块(图中未示出)，用于获取生成所述语音信息的用户信息。

用户信息关联模块(图中未示出)，用于将所述用户信息获取模块670获取的用户信息与所述语音片段进行关联。

在一些可选实施方式中，所述装置600还包括：

语音片段保存模块(图中未示出)，用于将所述语音片段保存为语音文件，其中，所述语音文件的属性信息包括所述用户信息。

在一些可选实施方式中，所述关联的表现形式包括视觉关联和/或听觉关联。

在一些可选实施方式中，所述装置600还包括：

语音片段处理模块(图中未示出)，用于将所述语音片段进行试听、保存、转发、共享操作或设置为铃声。

本实施例描述的方案可以显示语音信息对应的音频波形，并直接通过选择音频波形得到相应的语音片段，不但可以有效地去除语音信息中无用的空白段，而且有助于提高截取语音片段的精度。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括语音信息获取模块，文字信息显示模块和语音信息处理模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，语音信息获取模块还可以被描述为“用于获取语音信息的模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的语音信息处理方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音信息处理方法，其特征在于，所述方法包括：

获取语音信息；

将根据所述语音信息得到的文字信息进行显示；

根据所述文字信息处理所述语音信息。

2.根据权利要求1所述的语音信息处理方法，其特征在于，所述根据所述文字信息处理所述语音信息包括：

接收对所述文字信息的选择操作，得到被选中的文字片段；

获取所述语音信息中与所述被选中的文字片段对应的语音片段。

3.根据权利要求2所述的语音信息处理方法，其特征在于，当被选中的文字片段为多个时，所述获取所述语音信息中与所述文字片段对应的语音片段包括：

获取所述语音信息中与所述文字片段对应的多个语音片段；

将所述多个语音片段进行组合。

4.根据权利要求1所述的语音信息处理方法，其特征在于，所述将根据所述语音信息得到的文本信息进行显示包括：

将所述语音信息进行语音识别得到文字信息；

将所述文字信息进行显示。

5.根据权利要求4所述的语音信息处理方法，其特征在于，所述文字信息与所述语音信息按照时间关系相互对应。

6.根据权利要求5所述的语音信息处理方法，其特征在于，所述方法还包括：

将所述语音信息对应的音频波形进行显示。

7.根据权利要求6所述的语音信息处理方法，其特征在于，所述文字信息中文字的显示位置与所述音频波形的显示位置按照时间关系相互对应。

8.根据权利要求6或7所述的语音信息处理方法，其特征在于，所述方法还包括：

当接收对所述文字信息的选择操作时，将被选中的文字片段和与所述文字片段对应的被选中的音频波形片段同时或先后显示为被选中状态；

和/或当接收对所述音频波形的选择操作时，将被选中的音频波形片段和与所述音频波形片段对应的被选中的文字片段同时或先后显示为被选中状态。

9.根据权利要求8所述的语音信息处理方法，其特征在于，所述接收对所述音频波形的选择操作包括：

获取时间杆在所述音频波形上的位置信息；

根据所述位置信息，获取对所述音频波形的选择操作。

10.根据权利要求8所述的语音信息处理方法，其特征在于，所述获取所述语音信息中与所述被选择中的文字片段对应的语音片段，包括：

获取所述语音信息中与所述被选中的音频波形片段对应的语音片段。

11.根据权利要求1所述的语音信息处理方法，其特征在于，所述方法还包括：

获取生成所述语音信息的用户信息；

将所述用户信息与所述语音片段进行关联。

12.根据权利要求11所述的语音信息处理方法，其特征在于，所述方法还包括：

将所述语音片段保存为语音文件，其中，所述语音文件的属性信息包括所述用户信息。

13.根据权利要求11或12所述的语音信息处理方法，其特征在于，所述关联的表现形式包括视觉关联和/或听觉关联。

14.根据权利要求1所述的语音信息处理方法，其特征在于，所述方法还包括：

将所述语音片段进行试听、保存、转发、共享操作或设置为铃声。

15.一种语音信息处理装置，其特征在于，所述装置包括：

语音信息获取模块，用于获取语音信息；

文字信息显示模块，用于将根据所述语音信息得到的文字信息进行显示；

语音信息处理模块，用于根据所述文字信息处理所述语音信息。

16.根据权利要求15所述的语音信息处理装置，其特征在于，所述语音信息处理模块包括：

文字信息选择单元，用于接收对所述文字信息的选择操作，得到被选中的文字片段；

语音片段获取单元，用于获取所述语音信息中与所述被选中的文字片段对应的语音片段。

17.根据权利要求16所述的语音信息处理装置，其特征在于，当被选中的文字片段为多个时，所述语音片段获取单元包括：

语音片段获取子单元，用于获取所述语音信息中与所述文字片段对应的多个语音片段；

语音片段组合子单元，用于将所述多个语音片段进行组合。

18.根据权利要求15所述的语音信息处理装置，其特征在于，所述文字信息显示模块包括：

语音信息识别单元，用于将所述语音信息进行语音识别得到文字信息；

文字信息显示单元，用于将所述文字信息进行显示。

19.根据权利要求18所述的语音信息处理装置，其特征在于，所述文字信息与所述语音信息按照时间关系相互对应。

20.根据权利要求19所述的语音信息处理装置，其特征在于，所述装置还包括：

音频波形显示模块，用于将所述语音信息对应的音频波形进行显示。

21.根据权利要求20所述的语音信息处理装置，其特征在于，所述文字信息中文字的显示位置与所述音频波形的显示位置按照时间关系相互对应。

22.根据权利要求20或21所述的语音信息处理装置，其特征在于，所述装置还包括：

第一显示模块，用于当接收对所述文字信息的选择操作时，将被选中的文字片段和与所述文字片段对应的被选中的音频波形片段同时或先后显示为被选中状态；

第二显示模块，用于当接收对所述音频波形的选择操作时，将被选中的音频波形片段和与所述音频波形片段对应的被选中的文字片段同时或先后显示为被选中状态。

23.根据权利要求22所述的语音信息处理装置，其特征在于，所述接收对所述音频波形的选择操作包括：

获取时间杆在所述音频波形上的位置信息；

根据所述位置信息，获取对所述音频波形的选择操作。

24.根据权利要求22所述的语音信息处理装置，其特征在于，所述语音片段获取单元包括：

波形片段获取子单元，用于获取所述语音信息中与所述被选中的音频波形片段对应的语音片段。

25.根据权利要求15所述的语音信息处理装置，其特征在于，所述装置还包括：

用户信息获取模块，用于获取生成所述语音信息的用户信息；

用户信息关联模块，用于将所述用户信息与所述语音片段进行关联。

26.根据权利要求25所述的语音信息处理装置，其特征在于，所述装置还包括：

语音片段保存模块，用于将所述语音片段保存为语音文件，其中，所述语音文件的属性信息包括所述用户信息。

27.根据权利要求25或26所述的语音信息处理装置，其特征在于，所述关联的表现形式包括视觉关联和/或听觉关联。

28.根据权利要求15所述的语音信息处理装置，其特征在于，所述装置还包括：

语音片段处理模块，用于将所述语音片段进行试听、保存、转发、共享操作或设置为铃声。