CN111462742A

CN111462742A - 基于语音的文本显示方法、装置、电子设备及存储介质

Info

Publication number: CN111462742A
Application number: CN202010146813.7A
Authority: CN
Inventors: 张国超; 陈孝良; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-07-28
Anticipated expiration: 2040-03-05
Also published as: CN111462742B

Abstract

本申请提供了一种基于语音的文本显示方法、装置、电子设备及存储介质，属于计算机技术领域。所述方法包括：按照语音来源将接收到的语音信号划分为属于不同语音来源的至少两个目标语音；分别对所述至少两个目标语音进行语音识别，得到至少两个文本信息，一个语音来源对应一个文本信息；在实时显示区域包括的至少两个显示控件中分别显示所述至少两个文本信息，一个显示控件显示一个语音来源对应的文本信息。上述技术方案，使得多个人同时说话时，可以分别显示不同的人对应的文本信息，避免输出的文本信息出现丢失或者错乱的情况。

Description

基于语音的文本显示方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种基于语音的文本显示方法、装置、电子设备及存储介质。

背景技术

日常生活中，人们通常会参加各种各样的会议、培训、讲座以及采访等等。以参加会议为例，会议记录人员通常需要记录整个会议的内容，这就要求会议记录人员具有较高的专业技能，可以实时将会议内容记录下来，如速打技能等，如果不具备这些专业技能，也可以通过记笔记和录音的方式来进行记录，会议结束后再进行整理，显然整理整个会议内容的需要很大的工作量。

随着语音识别技术的日趋成熟，语音识别技术被应用在越来越多的领域。会议记录人员可以通过基于语音识别技术的电子设备，实现边采集语音边进行识别，实时输出文本信息，既不需要专业技能又极大的减轻了整理内容的工作量。

上述相关技术中存在的问题是，该基于语音识别的电子设备在采集说话人的语音时，如果另一个人也开始说话，则输出的文本信息可能出现丢失或者错乱的情况。

发明内容

本申请实施例提供了一种基于语音的文本显示方法、装置、电子设备及存储介质，使得多个人同时说话时，可以分别显示不同的人对应的文本信息，避免输出的文本信息出现丢失或者错乱的情况。所述技术方案如下：

一方面，提供了一种基于语音的文本显示方法，所述方法包括：

按照语音来源将接收到的语音信号划分为属于不同语音来源的至少两个目标语音；

分别对所述至少两个目标语音进行语音识别，得到至少两个文本信息，一个语音来源对应一个文本信息；

在实时显示区域包括的至少两个显示控件中分别显示所述至少两个文本信息，一个显示控件显示一个语音来源对应的文本信息。

另一方面，提供了一种基于语音的文本显示装置，所述装置包括：

语音划分模块，用于按照语音来源将接收到的语音信号划分为属于不同语音来源的至少两个目标语音；

语音识别模块，用于分别对所述至少两个目标语音进行语音识别得到至少两个文本信息，一个语音来源对应一个文本信息；

文本显示模块，用于在实时显示区域包括的至少两个显示控件中分别显示所述至少两个文本信息，一个显示控件显示一个语音来源对应的文本信息。

在一种可选的实现方式中，所述语音划分模块，还用于响应于接收到至少两个音频采集设备发送的语音信号，获取所述至少两个音频采集设备的至少两个设备标识，一个设备标识对应一个语音来源；按照所述至少两个设备标识将接收到的语音信号划分为属于不同语音来源的至少两个目标语音。

在一种可选的实现方式中，所述语音划分模块，还用于响应于接收到一个音频采集设备发送的语音信号，对所述语音信号进行角色分离，得到属于不同语音来源的至少两个目标语音，所述角色分离用于将语音信号按照作为语音来源的说话人进行划分。

在一种可选的实现方式中，所述文本显示模块，还用于对于任一语音来源，若已存储有所述语音来源对应的音源标识，则在所述实时显示区域包括的所述音源标识对应的第一显示控件中，显示所述语音来源对应的文本信息；若未存储有所述语音来源对应的音源标识，则在所述实时显示区域创建第二显示控件，在所述第二显示控件中显示所述语音来源对应的文本信息。

在一种可选的实现方式中，所述文本显示模块，还用于当所述实时显示区域中存在空闲区域时，在所述空闲区域创建所述第二显示控件；当所述实时显示区域中不存在空闲区域时，扩大所述实时显示区域，在扩大后的实时显示区域的空闲区域创建所述第二显示控件。

在一种可选的实现方式中，所述装置还包括：

显示区域控制模块，用于当所述空闲区域的尺寸大于目标尺寸时，缩小所述实时显示区域，缩小后的实时显示区域中空闲区域的尺寸不大于所述目标尺寸。

在一种可选的实现方式中，所述装置还包括：

移除模块，用于若已存储的任一音源标识对应的语音来源不包括在所述语音信号中，移除所述音源标识，取消在所述实时显示区域显示所述音源标识对应的显示控件。

在一种可选的实现方式中，所述装置还包括：

记录显示模块，用于将所述音源标识对应的显示控件中显示的文本信息显示在记录显示区域，所述记录显示区域用于显示至少一条文本信息。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储至少一段程序代码，所述至少一段程序代码由所述处理器加载并执行以实现本申请实施例中的基于语音的文本显示方法中所执行的操作。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一段程序代码，所述至少一段程序代码用于执行本申请实施例中的基于语音的文本显示方法。

本申请实施例提供的技术方案带来的有益效果是：

在本申请实施例中，通过将接收到的语音信号按照语音来源划分为每个语音来源对应的目标语音，然后在实时显示区域的不同控件上，分别显示不同语音来源对应目标语音识别得到的文本信息。上述技术方案，使得多个人同时说话时，可以分别显示不同的人对应的文本信息，避免输出的文本信息出现丢失或者错乱的情况。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的基于语音的文本显示系统的结构框图；

图2是根据本申请实施例提供的一种基于语音的文本显示方法的流程图；

图3是根据本申请实施例提供的一种实时显示区域的示意图；

图4是根据本申请实施例提供的一种记录显示区域的示意图；

图5是根据本申请实施例提供的一种调整实时显示区域大小的示意图；

图6是根据本申请实施例提供的一种调整实时显示区域的流程图；

图7是根据本申请实施例提供的另一种基于语音的文本显示方法的流程图；

图8是根据本申请实施例提供的一种基于语音的文本显示装置的框图；

图9是根据本申请实施例提供的一种终端的结构框图；

图10是根据本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例提供的基于语音的文本显示方法，可以应用在需要对语音信号进行语音识别，输出识别得到的文本信息的场景。例如通过支持语音识别的电子设备进行会议内容的记录、通过支持语音识别的电子设备进行采访内容的记录以及通过支持语音识别的电子设备进行培训内容的记录以及将对采集到的语音信号进行可视化展示等。在上述场景中，通过本申请实施例提供的基于语音的文本显示方法，电子设备可以对实时采集到语音信号进行识别，将识别得到的文本信息显示在电子设备的屏幕上。

下面简单介绍一下本申请实施例提供的基于语音的文本显示方法的主要步骤。首先按照语音来源将接收到的语音信号划分为属于不同语音来源的至少两个目标语音。然后分别对该至少两个目标语音进行语音识别，得到至少两个文本信息，一个语音来源对应一个文本信息。最后在实时显示区域包括的至少两个显示控件中分别显示至少两个文本信息，一个显示控件显示一个语音来源对应的文本信息。通过对接收到的语音信号按照语音来源分离得到每个语音来源对应的目标语音，然后在实时显示区域的不同控件上，分别显示不同语音来源对应目标语音识别得到的文本信息。上述技术方案，使得多个人同时说话时，可以分别显示不同的人对应的文本信息，避免输出的文本信息出现丢失或者错乱的情况。

图1是根据本申请实施例提供的基于语音的文本显示系统100的结构框图。该语音识别系统100包括：终端110和语音识别平台120。

终端110通过无线网络或有线网络与语音识别平台120相连。终端110可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有支持语音识别功能的应用程序，显示对采集到的语音信号进行语音识别得到的文本信息。该应用程序可以是多媒体类应用程序、社交类应用程序以及办公类应用程序等。示意性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账户。

语音识别平台120包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。语音识别平台120用于为支持语音识别功能的应用程序提供后台服务。可选地，语音识别平台120承担主要识别工作，终端110承担次要识别工作；或者，语音识别平台120承担次要识别工作，终端110承担主要识别工作；或者，语音识别平台120或终端110分别可以单独承担识别工作。

可选地，语音识别平台120包括：接入服务器、语音识别服务器和数据库。接入服务器用于提供终端110提供接入服务。语音识别服务器用于提供语音识别有关的后台服务。语音识别服务器可以是一台或多台。当语音识别服务器是多台时，存在至少两台语音识别服务器用于提供不同的服务，和/或，存在至少两台语音识别服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。语音识别服务器中可以设置有语音识别模型。在本申请实施例中，该语音识别模型可以是基于注意力机制所构建的语音识别模型。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述语音识别系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

图2是根据本申请实施例提供的一种基于语音的文本显示方法的流程图，如图2所示，在本申请实施例中以应用于电子设备为例进行说明。该基于语音的文本显示方法包括以下步骤：

201、电子设备按照语音来源将接收到的语音信号划分为属于不同语音来源的至少两个目标语音。

在本申请实施例中，电子设备可以通过音频采集设备进行语音信号的实时采集，对于采集到的语音信号，电子设备可以按照语音来源对语音信号进行划分，每种语音来源对应一个划分得到的目标语音。其中，该音频采集设备可以是该电子设备的一部分，也可以是电子设备的外接的设备，本申请实施例对此不进行限制。

在一种可选的实现方式中，电子设备可以外接有多个音频采集设备，实时接收该多个音频采集设备发送的语音信号。相应的，电子设备对语音信号进行划分的方式可以为：电子设备响应于接收到至少两个音频采集设备发送的语音信号，各音频设备发送的语音信号中可以包含有各音频采集设备的设备标识，电子设备可以获取该至少两个音频采集设备的至少两个设备标识。电子设备可以将不同的音频采集设备作为不同的语音来源，一个设备标识对应一个语音来源，按照该至少两个设备标识将接收到的语音信号划分为属于不同语音来源的至少两个目标语音。电子设备还可以建立设备标识与划分得到的目标语音的对应关系，也即建立语音来源与目标语音的对应关系，一个语音来源对应一个目标语音。由于设备标识可以用于指示语音来源，因此也可以将设备标识称为音源标识。需要说明的是，电子设备可以是同时接收到至少两个音频采集设备发送的语音信号，也可以是在时间间隔阈值内接收到至少两个音频采集设备发送的语音信号，本申请实施例对此不进行限制。由于将不同音频采集设备发送的语音信号按照设备标识进行划分，使得不同音频采集设备发送的语音信号不会出现混淆的情况，从而后续语音识别得到的文本信息也不会出现错乱的情况，保证了文本信息的准确性。

例如，电子设备同时接收到设备标识为i的音频采集设备、设备标识为j的音频采集设备以及设备标识为k的音频采集设备发送的语音信号，电子设备按照设备标识将接收到的三个语音信号划分为三个目标语音。设备标识i、设备标识j以及设备标识k与该三个目标语音分别对应。

在一种可选的实现方式中，电子设备可以接收到一个音频采集设备发送的语音信号，该语音信号由该音频采集设备同时采集至少两个说话人的声音得到。相应的，电子设备对语音信号进行划分的方式可以为：电子设备响应于接收到一个音频采集设备发送的语音信号，对该语音信号进行角色分离，得到属于不同语音来源的至少两个目标语音，电子设备可以将不同的说话人作为不同的语音来源，则一个说话人对应一个语音来源。其中，角色分离用于将语音信号按照作为语音来源的说话人进行划分。由于采用角色分离的方式来对接收到的语音信号进行划分，可以在多个说话人共用一个音频采集设备同时说话时，将各说话人的目标语音分离出来，避免将不同说话人的语音混淆，导致后续语音识别得到的文本信息出现错乱的情况，从而保证了文本信息的准确性。

在一种可选的实现方式中，电子设备实现角色分离的方式可以为对语音信号进行声纹识别来区分不同的说话人，相应的，实现步骤可以为：电子设备获取所述语音信号的声波频谱，从该声波频谱中提取至少一个语音来源的声纹特征，根据声纹特征对语音信号中包括的至少一个语音来源进行分离。或者电子设备实现角色分离的方式可以为根据角色分离模型来区分不同的说话人，相应的实现步骤为：电子设备将该语音信号输入角色分离模型，由该角色分离模型对该语音信号进行角色分离，电子设备获取分离得到的至少一个语音来源，以及每一个语音来源对应的目标语音。其中，该角色分离模型为基于深度学习技术训练得到的模型。另外，本申请实施例对实现角色分离的方式不进行限制，任一可以实现角色分离的方式均可。

例如，说话人A正通过音频采集设备说话，音频采集设备采集到说话人A的声音，当说话人B在说话人A说话的同时开始说话时，音频采集设备同时采集到说话人A和说话人B的声音，则电子设备对接收到的语音信号进行角色分离后得到说话人A对应的目标语音和说话人B对应的目标语音。

在一种可选的实现方式中，电子设备还可以为分离得到的各说话人分配人员标识，建立各人员标识与分离得到的目标语音的对应关系，也即建立语音来源与目标语音的对应关系，一个语音来源对应一个目标语音。由于人员标识可以指示语音来源，因此也可以将人员标识称为音源标识。

需要说明的是，即使电子设备外接了多个音频设备，但是在每次仅有一个音频设备向电子设备发送语音信号时，则电子设备可以按照接收到一个音频采集设备发送的语音信号的方式进行处理。

202、电子设备分别对至少两个目标语音进行语音识别，得到至少两个文本信息，一个语音来源对应一个文本信息。

在本申请实施例中，电子设备可以通过语音识别技术分别对上述划分得到的至少两个目标语音进行语音识别，如电子设备可以将待识别的目标语音输入语音识别模型，由该语音识别模型对该待识别的目标语音进行语音识别，得到该目标语音对应的文本信息，从而电子设备可以对每个目标语音进行语音识别得到该目标语音对应的文本信息；或者，电子设备可以将待识别的目标语音上传至语音识别服务器，由该语音识别服务器对该待识别的目标语音进行语音识别，电子设备接收该语音识别服务器返回的识别结果，得到该目标语音对应的文本信息；或者电子设备与语音识别服务器协同对该待识别的目标语音进行语音识别，得到该目标语音对应的文本信息。可选的，电子设备还可以将识别得到的文本信息发送给其他电子设备。另外，由于一个语音来源对应一个目标语音，而一个目标语音对应一个文本信息，则一个语音来源对应一个文本信息。电子设备可以分别建立语音来源和语音识别得到的文本信息的对应关系。由于语音识别可以由电子设备独立进行，也可以由电子设备与语音识别服务器协同进行，还可以由语音识别服务器独立进行，使得语音识别不再受到电子设备处理能力的限制，从而可以应用到更多类型的电子设备中。

在一种可选的实现方式中，电子设备中可以存储有不同语音来源对应的音源标识，当有新的语音来源时，电子设备可以生成并存储该语音来源对应的音源标识。相应的，电子设备可以通过建立语音识别得到的文本信息与音源标识的对应关系的方式，来指示各语音来源和各文本信息之间的对应关系。同理，各语音来源与各目标语音之间的对应关系，也可以由电子设备建立的音源标识与目标语音的对应关系来指示。由于电子设备存储有不同语音来源对应的音源标识，使得电子设备可以根据音源标识来指示语音来源、目标语音以及文本信息之间的对应关系，从而避免对应关系不清晰导致的文本信息与语音来源混淆的问题。

例如，说话人A对应的音源标识为A，说话人B对应的音源标识为B，电子设备建立该音源标识A与分离得到的说话人A的目标语音的对应关系，建立该音源标识B与分离得到的说话人B的目标语音的对应关系。当有新的说话人C时，电子设备可以生成音源标识C，建立该音源标识C与分离得到的说话人C的目标语音的对应关系。

203、电子设备在实时显示区域包括的至少两个显示控件中分别显示上述至少两个文本信息，一个显示控件显示一个语音来源对应的文本信息。

在本申请实施例中，电子设备可以在屏幕上显示实时显示区域，该实时显示区域用于显示至少一个显示控件。该显示控件用于显示上述语音识别得到的文本信息。

在一种可选的实现方式中，该实时显示区域中显示的显示控件数量，跟随电子设备分离得到的语音来源的数量的变化而改变。语音来源对应的音源标识与实时显示区域中显示的显示控件一一对应。对于任一语音来源，若电子设备中已存储有该语音来源对应的音源标识，则电子设备可以在该实时显示区域包括的该音源标识对应的第一显示控件中，显示该语音来源对应的文本信息；若电子设备中未存储有该语音来源对应的音源标识，则电子设备可以在该实时显示区域创建第二显示控件，在该第二显示控件中显示该语音来源对应的文本信息。由于电子设备根据是否存储语音来源对应的音源标识来显示文本信息，使得具有相同音源标识，即属于同一语音来源的文本信息可以显示在同一显示控件中，从而避免出现在不同显示控件中显示同一语音来源的文本信息的情况，并且，由于新增的语音来源对应的文本信息在新增的显示控件中进行显示，从而可以通过显示控件来直观的区分不同的语音来源。

例如，参见图3所示，图3是根据本申请实施例提供的一种实时显示区域的示意图。在图3中，电子设备的屏幕301中显示有实时显示区域302，该实时显示区域302中包括第一显示控件303和第二显示控件304，该实时显示区域302示例性的显示在屏幕301的上半部分。可选的，屏幕301中可以仅显示该实时显示区域302，也可以同时显示实时显示区域302和显示其他内容，本申请实施例对此不进行限制。对于该实时显示区域302，由于电子设备中存储有说话人A对应的音源标识A，且第一显示控件为该音源标识A所对应的显示控件，则电子设备在该第一显示控件中显示音源标识A对应的文本信息。由于电子设备中未存储有说话人B对应的音源标识B，则电子设备在该实时显示区域中创建该第二显示控件，并在该第二显示控件中显示该音源标识B对应的文本信息。

在一种可选的实现方式中，电子设备还可以在屏幕上显示记录显示区域，该记录显示区域用于显示至少一条文本信息，该至少一条文本信息为电子设备在历史时间通过语音识别得到的文本信息。由于电子设备将历史时间语音识别得到的文本信息显示在记录显示区域，使得用户可以方便的查阅历史信息，避免遗漏重要的信息，也方便用户结合上下文更好的理解文本信息所包含的含义，提高了用户体验。

例如，参见图4所示，图4是根据本申请实施例提供的一种记录显示区域的示意图。在图4中，电子设备的屏幕301中显示有记录显示区域401、文本信息402以及实时显示区域302。该记录显示区域401位于该屏幕301的上半部分，显示有两条文本信息402，该实时显示区域302位于该屏幕301的下半部分，且该实时显示区域302为空，未显示任一显示控件。可选的，该记录显示区域401还位于该屏幕301的下半部分，该实时显示区域302还可以位于该屏幕301的上半部分。可选的，在该实时显示区域302为空时，还可以仅显示该记录显示区域401。本申请实施例对此不进行限制。

在一种可选的实现方式中，该实时显示区域的尺寸可以随着显示的显示控件的数量的变化而变化。实时显示区域中包括的显示控件越多，实时显示区域的尺寸则越大；实时显示区域中包括的显示控件越少，实时显示区域的尺寸则越小。可选的，当实时显示区域不包括显示控件时，可以取消显示该实时显示区域。可选的，实时显示区域的最小尺寸不小于预设尺寸，本申请实施例对预设尺寸不进行限制。相应的，记录显示区域的大小也可以随着实时显示区域的变化而变化。电子设备可以根据空间显示区域中空闲区域的尺寸来调整实时显示区域的尺寸。在实时显示区域的空闲区域的尺寸小于预设尺寸时，电子设备可以扩大该实时显示区域，扩大后的实时显示区域中空闲区域的尺寸不小于预设尺寸；而在实时显示区域的空闲区域的尺寸大于目标尺寸时，电子设备可以缩小该实时显示区域，缩小后的实时显示区域中空闲区域的尺寸不大于该目标尺寸。可选的，电子设备还可以在创建新的显示控件时确定是否存在空闲区域，在不存在空闲区域时，扩大该实时显示区域。相应的，对于上述电子设备在实时显示区域创建第二显示控件的步骤，当该实时显示区域中存在空闲区域时，电子设备可以在该空闲区域创建第二显示控件；当该实时显示区域中不存在空闲区域时，电子设备可以扩大该实时显示区域，则扩大后的实时显示区域中包括空闲区域，电子设备可以在扩大后的实时显示区域的空闲区域创建该第二显示控件。由于电子设备可以根据显示控件的数量来对应调整实时显示区域的尺寸，使得用户可以直观的确定语音来源的数量，以及各语音来源对应的文本信息。

例如，参见图5所示，图5是根据本申请实施例提供的一种调整实时显示区域大小的示意图。在图5中，电子设备在调整实时显示区域302之前，实时显示区域中显示有第一显示控件303，此时实时显示区域302不存在空闲区域。电子设备在创建第二显示控件304之前，确定该实时显示区域302不存在空闲区域，则电子设备对该实时显示区域302进行调整，扩大该实时显示区域302，在扩大后的实时显示区域302的空闲区域创建第二显示控件304。

需要说明的是，上述空闲区域的尺寸的确定方式有多种，如根据已显示的显示控件的尺寸和实时显示区域当前的尺寸在确定空闲区域的尺寸，或者将距离实时显示区域的底边框最近的显示控件的底边框与实时显示区域的底边框之间的区域作为空闲区域等，本申请实施例对此不进行限制。例如，电子设备可以确定实时显示区域的底边框在竖直方向上的第一坐标，然后确定距离实时显示区域的底边框最近的显示控件的底边框在竖直方向上的第二坐标，根据第一坐标和第二坐标之间的差值，确定空闲区域的尺寸。

204、若电子设备已存储的任一音源标识对应的语音来源不包括在语音信号中，移除该音源标识，取消在实时显示区域显示该音源标识对应的显示控件。

在本申请实施例中，电子设备在检测到新的语音来源时，创建并存储该语音来源对应的音源标识，当电子设备已存储的任一音源标识对应的语音来源不包括在语音信号中，即该语音来源不再发声时，电子设备可以取消在实时显示区域显示该语音来源对应的音源标识所对应的显示控件。

例如，电子设备在实时显示区域显示有说话人A对应的音源标识A所对应的第一显示控件和说话人B对应的音源标识B所对应的第二显示控件，电子设备中存储有音源标识A和音源标识B。电子设备对新接收到的语音信号进行分离处理后，得到属于说话人A的目标语音和属于说话人C的目标语音，则电子设备创建并存储说话人C对应的音源标识C。由于电子设备已存储的音源标识B对应的说话人B不包括在该语音信号中，则电子设备移除该音源标识B，取消在实时显示区域显示该音源标识B对应的第二显示控件。

需要说明的是，若电子设备取消显示的显示控件大于新创建的显示控件的数量，则实时显示区域中的空闲区域的尺寸缩小；相反，若电子设备取消显示的显示控件的数量小于新创建的显示控件的数量，则实时显示区域中的空闲区域的尺寸扩大。相应的，电子设备还可以根据实时显示区域中空闲区域的尺寸对实时显示区域进行调整。由于电子设备可以根据空闲区域的尺寸来调整实时显示区域的尺寸，使得实时显示区域始终存在可以创建新的显示控件的区域，从而避免由于在需要创建新的显示控件而没有空闲区域，需要实时调整实时显示区域的大小，影响文本信息的显示。

例如，参见图6所示，图6是根据本申请实施例提供的一种调整实时显示区域的流程图。在图6中，首先，电子设备对语音信号按照语音来源进行划分。然后判断是否存在需要移除的音源标识，如果存在需要移除的音源标识时，移除该音源标识对应的显示控件。然后，如果不存在需要移除的音源标识时，判断是否存在新增的语音来源，如果存在新增的语音来源时，创建新的显示控件。然后，判断是否存在充足的空闲区域，如果不存在空闲区域或者空闲区域尺寸不满足新创建的显示控件的尺寸，则扩大实时显示区域，在空闲区域显示该显示控件，该显示控件中显示文本信息；如果空闲区域尺寸大于目标尺寸，则缩小实时显示区域。

205、电子设备将移除的音源标识对应的显示控件中显示的文本信息显示在记录显示区域，该记录显示区域用于显示至少一条文本信息。

在本申请实施例中，电子设备在移除显示控件后，可以将该显示控件中的文本信息显示在屏幕上的记录显示区域，该记录显示区域与上述实时显示区域相邻，且随着实时显示区域尺寸的变化而变化。该记录显示区域中显示的至少一条文本信息为电子设备在历史时间语音识别得到的文本信息，电子设备可以标注有该文本信息对应的音源标识。并且，该记录显示区域中包括的文本信息可以进行导出，以其他形式进行存储。

例如，电子设备可以将移除的音源标识对应的显示控件从实时显示区域转移至记录显示区域进行显示，则该显示控件中显示的文本信息也显示在记录显示区域中。电子设备还可以在记录显示区域新建用于显示文本信息的控件，将移除的音源标识对应的显示控件中显示的文本信息，显示在该新建的控件中。本申请实施例对此不进行限定。

需要说明的是，上述步骤201至步骤205是本申请实施例提供的基于语音的文本显示方法的可选实现方式。相应的，该基于语音的文本显示方法还有其他的可选实现方式，示例性的，可以参见图7所示，图7是根据本申请实施例提供的另一种基于语音的文本显示方法的流程图，步骤701是通过音频采集模块进行语音信号的采集；步骤702是通过降噪模块对采集到的语音信号进行降噪处理；步骤703是通过角色分离模块对降噪后的语音信号进行划分；步骤704是通过语音识别模块对分离得到的目标语音进行语音识别；步骤705是通过文本信息显示模块对语音识别得到的文本信息进行显示。其中上述提到的各模块，可以是电子设备中按照功能划分得到的功能模块，也可以是与电子设备连接的独立设备，本申请实施例对此不进行限制。

在本申请实施例中，通过将接收到的语音信号按照语音来源划分为每个语音来源对应的目标语音，然后在实时显示区域的不同控件上，分别显示不同语音来源对应目标语音识别得到的文本信息。使得多个人同时说话时，可以分别显示不同的人对应的文本信息，并根据显示的显示控件的多少，实时调整实时显示区域的大小，从而避免输出的文本信息出现丢失或者错乱的情况。

图8是根据本申请实施例提供的一种基于语音的文本显示装置的框图。该装置用于执行上述基于语音的文本显示方法执行时的步骤，参见图8，装置包括：语音划分模块801、语音识别模块802以及文本显示模块803。

语音划分模块801，用于按照语音来源将接收到的语音信号划分为属于不同语音来源的至少两个目标语音；

语音识别模块802，用于分别对至少两个目标语音进行语音识别得到至少两个文本信息，一个语音来源对应一个文本信息；

文本显示模块803，用于在实时显示区域包括的至少两个显示控件中分别显示至少两个文本信息，一个显示控件显示一个语音来源对应的文本信息。

在一种可选的实现方式中，语音划分模块801，还用于响应于接收到至少两个音频采集设备发送的语音信号，获取至少两个音频采集设备的至少两个设备标识，一个设备标识对应一个语音来源；

按照至少两个设备标识将接收到的语音信号划分为属于不同语音来源的至少两个目标语音。

在一种可选的实现方式中，语音划分模块801，还用于响应于接收到一个音频采集设备发送的语音信号，对语音信号进行角色分离，得到属于不同语音来源的至少两个目标语音，角色分离用于将语音信号按照作为语音来源的说话人进行划分。

在一种可选的实现方式中，文本显示模块803，还用于对于任一语音来源，若已存储有语音来源对应的音源标识，则在实时显示区域包括的音源标识对应的第一显示控件中，显示语音来源对应的文本信息；若未存储有语音来源对应的音源标识，则在实时显示区域创建第二显示控件，在第二显示控件中显示语音来源对应的文本信息。

在一种可选的实现方式中，文本显示模块803，还用于当实时显示区域中存在空闲区域时，在空闲区域创建第二显示控件；当实时显示区域中不存在空闲区域时，扩大实时显示区域，在扩大后的实时显示区域的空闲区域创建第二显示控件。

在一种可选的实现方式中，装置还包括：

显示区域控制模块，用于当空闲区域的尺寸大于目标尺寸时，缩小实时显示区域，缩小后的实时显示区域中空闲区域的尺寸不大于目标尺寸。

在一种可选的实现方式中，装置还包括：

移除模块，用于若已存储的任一音源标识对应的语音来源不包括在语音信号中，移除音源标识，取消在实时显示区域显示音源标识对应的显示控件。

在一种可选的实现方式中，装置还包括：

记录显示模块，用于将音源标识对应的显示控件中显示的文本信息显示在记录显示区域，记录显示区域用于显示至少一条文本信息。

需要说明的是：上述实施例提供的基于语音的文本显示装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于语音的文本显示装置与基于语音的文本显示方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述电子设备可以实施为终端，图9是根据本申请实施例提供的一种终端900的结构框图。该终端图9示出了本发明一个示例性实施例提供的终端900的结构框图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的基于语音的文本显示方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述电子设备可以实施为服务器，图10是根据本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1001和一个或一个以上的存储器1002，其中，所述存储器1002中存储有至少一条指令，所述至少一条指令由所述处理器1001加载并执行以实现上述各个方法实施例提供的冲突检测方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质应用于电子设备，该计算机可读存储介质中存储有至少一段程序代码，该至少一段程序代码用于被处理器执行并实现本申请实施例中的基于语音的文本显示方法中电子设备所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于语音的文本显示方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述按照语音来源将接收到的语音信号划分为属于不同语音来源的至少两个目标语音，包括：

响应于接收到至少两个音频采集设备发送的语音信号，获取所述至少两个音频采集设备的至少两个设备标识，一个设备标识对应一个语音来源；

按照所述至少两个设备标识将接收到的语音信号划分为属于不同语音来源的至少两个目标语音。

3.根据权利要求1所述的方法，其特征在于，所述按照语音来源将接收到的语音信号划分为属于不同语音来源的至少两个目标语音，包括：

响应于接收到一个音频采集设备发送的语音信号，对所述语音信号进行角色分离，得到属于不同语音来源的至少两个目标语音，所述角色分离用于将语音信号按照作为语音来源的说话人进行划分。

4.根据权利要求1所述的方法，其特征在于，所述在实时显示区域包括的至少两个显示控件中分别显示所述至少两个文本信息，包括：

对于任一语音来源，若已存储有所述语音来源对应的音源标识，则在所述实时显示区域包括的所述音源标识对应的第一显示控件中，显示所述语音来源对应的文本信息；

若未存储有所述语音来源对应的音源标识，则在所述实时显示区域创建第二显示控件，在所述第二显示控件中显示所述语音来源对应的文本信息。

5.根据权利要求4所述的方法，其特征在于，所述在所述实时显示区域创建第二显示控件，包括：

当所述实时显示区域中存在空闲区域时，在所述空闲区域创建所述第二显示控件；

当所述实时显示区域中不存在空闲区域时，扩大所述实时显示区域，在扩大后的实时显示区域的空闲区域创建所述第二显示控件。

6.根据权利要求5所述的方法，其特征在于，所述在扩大后的实时显示区域的空闲区域创建所述第二显示控件之后，所述方法还包括：

当所述空闲区域的尺寸大于目标尺寸时，缩小所述实时显示区域，缩小后的实时显示区域中空闲区域的尺寸不大于所述目标尺寸。

7.根据权利要求1至6任一权利要求所述的方法，其特征在于，所述方法还包括：

若已存储的任一音源标识对应的语音来源不包括在所述语音信号中，移除所述音源标识，取消在所述实时显示区域显示所述音源标识对应的显示控件。

8.根据权利要求7所述的方法，其特征在于，所述取消在所述实时显示区域显示所述音源标识对应的显示控件之后，所述方法还包括：

将所述音源标识对应的显示控件中显示的文本信息显示在记录显示区域，所述记录显示区域用于显示至少一条文本信息。

9.一种基于语音的文本显示装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储至少一段程序代码，所述至少一段程序代码由所述处理器加载并执行权利要求1至8任一权利要求所述的基于语音的文本显示方法。

11.一种存储介质，其特征在于，所述存储介质用于存储至少一段程序代码，所述至少一段程序代码用于执行权利要求1至8任一权利要求所述的基于语音的文本显示方法。