CN111785271A

CN111785271A - 语音识别处理方法及系统、电子设备

Info

Publication number: CN111785271A
Application number: CN202010413074.3A
Authority: CN
Inventors: 覃建淇; 罗修樟
Original assignee: Shenzhen Aoni Electronic Co ltd
Current assignee: Shenzhen Aoni Electronic Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-10-16

Abstract

本发明提供了一种语音识别处理方法及系统、电子设备。所述语音识别处理方法，其包括以下步骤：获取待处理语音数据；将所述待处理语音数据中至少两个不同对象的语音数据分离；将每个对象的语音数据转换为文本数据；及显示所述文本数据的文字信息及对应的对象标识。

Description

语音识别处理方法及系统、电子设备

技术领域

本发明涉及语音处理技术领域，特别涉及一种语音识别处理方法及系统、电子设备。

背景技术

随着各种智能语音助手及智能语音软件的逐渐普及，语音识别处理技术已经成为一项重要的技术，然而，现有一些智能语音助手及软件较难满足人们日益增加的语音翻译及/或文字记录等要求，特别是在多人发言的会议环境下的语音翻译及/或文字记录等要求，有必要改善。

发明内容

本发明提供一种语音识别处理方法与系统、电子设备。

根据本发明的一种实施例，一种语音识别处理方法，其包括以下步骤：

获取待处理语音数据；

将所述待处理语音数据中至少两个不同对象的语音数据分离；

将每个对象的语音数据转换为文本数据；

显示所述文本数据的文字信息及对应的对象标识。

根据本发明的一种实施例，所述对象标识为所述文字信息的颜色，所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色。

根据本发明的一种实施例，所述对象标识为所述文字信息的颜色、字体或字体大小，所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色、字体或字体大小。

根据本发明的一种实施例，所述方法还包括以下步骤：将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。

根据本发明的一种实施例，所述方法还包括以下步骤：所述方法还包括以下步骤，将每个对象的语音数据存储为预定格式，并将所述预定格式的每个对象的语音数据的存储链接嵌入所述电子记录档案中的文本数据的文字后。

根据本发明的另一种实施例，一种语音识别处理系统包括：

获取单元，用于获取待处理语音数据；

分离单元，用于将所述待处理语音数据中至少两个不同对象的语音数据分离；

转换单元，用于将每个对象的语音数据转换为文本数据；

显示单元，用于显示所述文本数据的文字信息及对应的对象标识。

根据本发明的一种实施例，所述系统还包括签名单元，用于获取并显示所述至少两个不同对象的签名信息。

根据本发明的一种实施例，所述系统还包括记录档案生成单元，用于将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。

根据本发明的一种实施例，所述系统还包括存储单元及链接嵌入单元，所述存储单元用于将每个对象的语音数据存储，所述链接嵌入单元用于将每个对象的语音数据存储链接嵌入所述电子记录档案中的文本数据的文字后。

根据本发明的一种实施例，一种电子设备包括处理器及显示屏，所述处理器用于获取待处理语音数据、将所述待处理语音数据中至少两个不同对象的语音数据分离、将每个对象的语音数据转换为文本数据及控制所述显示屏显示所述文本数据的文字信息及对应的对象标识。

本发明语音识别处理方法及系统中，可以将待处理语音数据中至少两个不同对象的语音数据分离；以及将每个对象的语音数据转换为文本数据并显示所述文本数据的文字信息及对应的对象标识，可以满足多人发言时的语音数据分离、文本显示等，可方便的使用在会议环境中，自动记录会议记录，提高工作效率。通过对象标识可以识别不同对象的发言，增加各对象签名的步骤也可以方便各对象确认记录是否正确，以及生成电子记录档案及嵌入每个对象的语音数据在电子记录档案中，有助于确认记录的文字信息及修改，均有较高的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明一种实施例的语音识别处理方法的流程图。

图2是本发明一种实施例的语音识别处理系统的方框图。

图3是本发明一种实施例的电子设备的方框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本发明一种实施例的语音识别处理方法的流程图。所述语音识别处理方法可以运行在手机、个人电脑、平板电脑、录音笔等电子设备中。所述语音识别处理方法可以包括以下步骤S11、S12、S13、S14。

步骤S11，获取待处理语音数据。具体地，所述步骤S11中，可以由所述电子设备的麦克风获取所述待处理的语音数据，也可以通过所述电子设备接收到的外部设备传输的或者所述电子设备自行在网络中下载的语音数据作为待处理的语音数据。

步骤S12，将所述待处理语音数据中至少两个不同对象的语音数据分离。可以通过语义分析，或者振幅及/或频率分析，将所述待处理语音数据中的不同对象的语音数据分离。如，一般地，不同对象由于距离麦克风远近的不同，二者的音频数据振幅及/或频率有所不同，特别是振幅，因此，可以依据振幅的差别将二者分离，如振幅较大的为用户语音数据，振幅较小的为对象语音数据。另外，也可以依据正常的语音对话模板将所述语音数据分离成两个语音数据，如一个人问，一个人回答的对话模式，将不同对象的语音数据分离是非常容易的。

步骤S13，将每个对象的语音数据转换为文本数据。可以理解，通过语音文字转换技术，可以将每个对象的语音数据转换为文本数据。

步骤S14，显示所述文本数据的文字信息及对应的对象标识。可以理解，所述电子设备可以控制在其显示屏上显示所述文本数据的文字信息及对应的对象标识。其中。所述对象标识为所述文字信息的颜色、字体或字体大小，即所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色、字体或字体大小。

进一步地，所述方法还可以包括以下步骤S15，获取并显示所述至少两个不同对象的签名信息。具体地，每个对象可以通过所述电子设备的触摸屏输入前面信息，使得所述电子设备获取并显示所述至少两个不同对象的签名信息。

更进一步地，所述方法还包括以下步骤S16：将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。其中，所述预设模板文件可以为WORD档、PDF档或图片档。

此外，所述方法还包括以下步骤S17，将每个对象的语音数据存储为预定格式，并将所述预定格式的每个对象的语音数据的存储链接嵌入所述电子记录档案中的文本数据的文字信息后。所述预定格式可以为MP3或WMA等，从而当所述电子记录档案被开启后，可以通过开启所述存储链接获取并播放所述语音数据以确认文本数据的文字信息是否准确。

请参阅图2，图2是本发明一种实施例的语音识别处理系统的方框图。所述语音识别处理系统20可以为一应用软件，运行于手机、个人电脑、平板电脑、录音笔等电子设备上，被电子设备的处理器执行时可以执行上述语音识别处理方法的各步骤。具体地，所述语音识别处理系统20可以包括获取单元21、分离单元22、转换单元23、显示单元24、签名生成单元25、档案生成单元26、及链接嵌入单元27。

所述获取单元21用于获取待处理语音数据。具体地，可以由所述电子设备的麦克风获取所述待处理的语音数据，也可以通过所述电子设备20接收到的外部设备传输的或者所述电子设备自行在网络中下载的语音数据作为待处理的语音数据。

所述分离单元22用于将所述待处理语音数据中至少两个不同对象的语音数据分离。具体地，可以通过语义分析，或者振幅及/或频率分析，将所述待处理语音数据中的不同对象的语音数据分离。如，一般地，不同对象由于距离麦克风远近的不同，二者的音频数据振幅及/或频率有所不同，特别是振幅，因此，可以依据振幅的差别将二者分离，如振幅较大的为用户语音数据，振幅较小的为对象语音数据。另外，也可以依据正常的语音对话模板将所述语音数据分离成两个语音数据，如一个人问，一个人回答的对话模式，将不同对象的语音数据分离是非常容易的。

所述转换单元23用于将每个对象的语音数据转换为文本数据。可以理解，通过语音文字转换技术，可以将每个对象的语音数据转换为文本数据。

所述显示单元24用于显示所述文本数据的文字信息及对应的对象标识。可以理解，所述电子设备的处理器可以控制在其显示屏上显示所述文本数据的文字信息及对应的对象标识。其中。所述对象标识为所述文字信息的颜色、字体或字体大小，即所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色、字体或字体大小。

进一步地，所述签名生成单元25用于获取并显示所述至少两个不同对象的签名信息。具体地，每个对象可以通过所述电子设备的触摸屏输入前面信息，使得所述电子设备获取并显示所述至少两个不同对象的签名信息。

所述档案生成单元26用于将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。其中，所述预设模板文件可以为WORD档、PDF档或图片档。

所述链接嵌入单元27将每个对象的语音数据存储为预定格式，并将所述预定格式的每个对象的语音数据的存储链接嵌入所述电子记录档案中的文本数据的文字信息后。所述预定格式可以为MP3或WMA等，从而当所述电子记录档案被开启后，可以通过开启所述存储链接获取并播放所述语音数据以确认文本数据的文字信息是否准确。

如图3所示，本发明还提高一种电子设备30，所述电子设备30包括麦克风31、处理器32、存储器33、显示屏24。所述麦克风31、所述存储器33、显示屏24可以均通过总线与所述处理器32耦接。所述存储器33中可以存储计算机程序指令，所述处理器32通过执行所述存储器33中的程序指令可以运行上述语音识别处理方法。可以理解，所述处理器32可以通过所述麦克风31获取所述待处理语音数据。所述显示屏24可以为触摸显示屏，所述处理器32也可以通过控制所述触摸显示屏实现上述步骤S14、S15、S16及S17，此处就不再赘述。

本发明语音识别处理方法及系统20及电子设备30中，可以将待处理语音数据中至少两个不同对象的语音数据分离；以及将每个对象的语音数据转换为文本数据并显示所述文本数据的文字信息及对应的对象标识，可以满足多人发言时的语音数据分离、文本显示等，可方便的使用在会议环境中，自动记录会议记录，提高工作效率。通过对象标识可以识别不同对象的发言，增加各对象签名的步骤也可以方便各对象确认记录是否正确，以及生成电子记录档案及嵌入每个对象的语音数据在电子记录档案中，有助于确认记录的文字信息及修改，均有较高的实用性。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音识别处理方法，其包括以下步骤：

获取待处理语音数据；

将每个对象的语音数据转换为文本数据；及

显示所述文本数据的文字信息及对应的对象标识。

2.如权利要求1所述的方法，其特征在于：所述对象标识为所述文字信息的颜色、字体或字体大小，所述至少两个不同对象对应的文本数据的文字信息具有不同的颜色、字体或字体大小。

3.如权利要求1所述的方法，其特征在于：所述方法还包括以下步骤：获取并显示所述至少两个不同对象的签名信息。

4.如权利要求3所述的方法，其特征在于：所述方法还包括以下步骤：将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。

5.如权利要求4所述的方法，其特征在于：所述方法还包括以下步骤：所述方法还包括以下步骤，将每个对象的语音数据存储为预定格式，并将所述预定格式的每个对象的语音数据的存储链接嵌入所述电子记录档案中的文本数据的文字后。

6.一种语音识别处理系统，其特征在于：所述语音识别处理系统包括：

获取单元，用于获取待处理语音数据；

转换单元，用于将每个对象的语音数据转换为文本数据；

7.如权利要求6所述的系统，其特征在于：所述系统还包括签名单元，用于获取并显示所述至少两个不同对象的签名信息。

8.如权利要求7所述的系统，其特征在于：所述系统还包括记录档案生成单元，用于将所述文字信息、所述签名信息加载到预设格式的模版文件中生成预设格式的电子记录档案。

9.如权利要求8所述的系统，其特征在于：所述系统还包括存储单元及链接嵌入单元，所述存储单元用于将每个对象的语音数据存储，所述链接嵌入单元用于将每个对象的语音数据存储链接嵌入所述电子记录档案中的文本数据的文字后。

10.一种电子设备，其特征在于：所述电子设备包括处理器及显示屏，所述处理器用于获取待处理语音数据、将所述待处理语音数据中至少两个不同对象的语音数据分离、将每个对象的语音数据转换为文本数据及控制所述显示屏显示所述文本数据的文字信息及对应的对象标识。