CN112908337A

CN112908337A - 语音识别文本的展示方法、装置、设备和存储介质

Info

Publication number: CN112908337A
Application number: CN202110132060.9A
Authority: CN
Inventors: 王利平; 陈吉胜
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-01-31
Filing date: 2021-01-31
Publication date: 2021-06-04
Anticipated expiration: 2041-01-31
Also published as: CN112908337B

Abstract

本发明涉及一种语音识别文本的展示方法、装置、设备和存储介质，方法包括：利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本；根据当前识别文本的类型，确定可展示文本；按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示，实现了持续、不间断地展示语音信息的识别结果，避免识别文本在展示过程中出现卡顿现象，提高了人机交互的质量。

Description

语音识别文本的展示方法、装置、设备和存储介质

技术领域

本发明涉及语音识别技术领域，具体涉及一种语音识别文本的展示方法、装置、设备和存储介质。

背景技术

在人机交互过程中，通常在进行语音识别的同时往往通过显示设备将语音识别出的识别文本展示给用户，以提高人机交互效率。

现有技术，显示设备在显示识别文本时，通常会待识别的语音信息全部识别后，再将识别文本的全部文字展示。由于网络、语音信息长短等原因，可能造成较长的时间才能对语音信息进行识别和展示对应的识别文本，使得识别文本在展示过程中出现卡顿现象，降低了人机交互的质量。

发明内容

本发明提供一种语音识别文本的展示方法、装置、设备和存储介质，能够解决现有技术中因识别文本在展示过程中出现卡顿现象，导致人机交互质量较低的技术问题。

本发明解决上述技术问题的技术方案如下：

一种语音识别文本的展示方法，包括：

利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本；所述当前词组根据所述语音识别模型对应的词组颗粒度对所述语音信息进行分词得到；

根据当前识别文本的类型，确定可展示文本；

按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示。

进一步地，上述所述的语音识别文本的展示方法中，根据当前识别文本的类型，确定可展示文本，包括：

若所述当前识别文本的类型为可变类文本，将已确定的不可变文本和下一段已解码文本作为所述可展示文本；

若所述当前识别文本的类型为不可变类文本，将已确定的不可变文本、所述当前识别文本累加和下一段已解码文本作为所述可展示文本。

进一步地，上述所述的语音识别文本的展示方法中，根据当前识别文本的类型，确定可展示文本之后，还包括：

将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理，得到目标风格的文字；

对应地，按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次展示于显示屏，包括：

按照预设的时间间隔和预设的字符长度，将所述目标风格的文字依次展示于显示屏。

进一步地，上述所述的语音识别文本的展示方法中，将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理，得到目标风格的文字，包括：

利用所述多风格字幕生成模型的编码器对所述可展示文本中的文字进行编码得到文字向量，并将所述文字向量与预设的主题分词特征向量进行重组，得到重组向量；

将所述重组向量输入所述多风格字幕生成模型对应的对抗生成网络，得到所述目标风格的文字。

进一步地，上述所述的语音识别文本的展示方法中，所述主题分词特征向量按照如下方式设定：

从预设主题分词中提取所述主题分词特征向量，并设定所述主题分词特征向量；

从自定义主题分词中提取所述主题分词特征向量，并设定所述主题分词特征向量；其中，所述自定义主题分词为对所述预设主题分词进行重新编辑得到，或者，所述自定义主题分词为在自创建模式下用户自创建得到。

进一步地，上述所述的语音识别文本的展示方法中，所述预设的字符长度按照如下方式设定：

响应于配置的文字显示参数设定；或者，按照所述可展示文本中文字的词性确定。

本发明还提供一种语音识别文本的展示装置，包括：

语音识别模块，用于利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本；所述当前词组根据所述语音识别模型对应的词组颗粒度对所述语音信息进行分词得到；

确定模块，用于根据当前识别文本的类型，确定可展示文本；

展示模块，用于按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示。

进一步地，上述所述的语音识别文本的展示装置中，所述确定模块，还用于：

对应地，所述展示模块，还用于：

本发明还提供一种语音识别文本的展示设备，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的语音识别文本的展示方法的程序，以实现上述任一项所述的语音识别文本的展示方法。

本发明还提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述任一项所述的语音识别文本的展示方法。

本发明的有益效果是：

利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本后，根据当前识别文本的类型，确定可展示文本，并按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示，实现了持续、不间断地展示语音信息的识别结果，避免识别文本在展示过程中出现卡顿现象，提高了人机交互的质量。

附图说明

图1为本发明实施例提供的一种语音识别文本的展示方法的流程图；

图2为本发明实施例提供的另一种语音识别文本的展示方法的流程图；

图3为本发明实施例的语音识别文本的展示装置的结构示意图；

图4为本发明实施例提供的语音识别文本的展示设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种语音识别文本的展示方法的流程图，如图1所示，本实施例的语音识别文本的展示方法具体可以包括如下步骤：

100、利用预先构建的语音识别模型对获取的语音信息进行识别，得到当前识别文本；

本实施例中，可以通过扬声器等语音采集设备采集用户的语音信息，并在获取到用户的语音信息后，将用户的语音信息输入预先构建的语音识别模型，按照预设的词组颗粒度对用户的语音信息进行分词得到当前词组后，对当前词组进行识别，从而得到当前词组对应的当前识别文本。其中，预设的词组颗粒度尽可能的小，例如，可以将超过3个字的语音分割成更小的词组颗粒度，从而提高识别速率。

101、根据当前识别文本的类型，确定可展示文本；

在一个具体实现过程中，可以将识别文本的类型划分为可变类文本和不可变类文本。例如，对于当前词组而言，其对应的语音可能对应多个词组，从而可以识别出多个文本，本实施例中将这类文本定义为可变类文本，例如，当前词组对应的语音为“shanghai”，可以得到的当前词组对应的当前识别文本为“上海”、“伤害”等。通过上下文语义等因素进行识别后，可以毫无异议确定当前词组实际为“上海”后，可以将这类识别文本定义为不可变类文本。

本实施例中，在得到当前词组对应的当前识别文本后，可以检测当前词组对应的当前识别文本的类型，若当前识别文本的类型为可变类文本，将已确定的不可变文本和下一段已解码文本作为可展示文本；若当前识别文本的类型为不可变类文本，将已确定的不可变文本、当前识别文本累加和下一段已解码文本作为可展示文本。

在一些实施例中，语音信息为“查询上海今天的天气情况”。若已识别词组为“查询”且为不可变类文本，当前词组为“shanghai”，当前识别文本“上海”、“伤害”，为可变类文本。此时，将“查询今天”作为可展示文本，并在进行下一词组识别时，可以根据“查询今天”确定当前识别文本实际应为“上海”，此时，将当前识别文本的类型转化为不可变类文本，并将“上海”添加至“查询”后面。若已识别词组为“查询”且为不可变类文本，当前词组为“shanghai”，当前识别文本“上海”，为不可变类文本。此时，将“查询上海今天”作为可展示文本。

102、按照预设的时间间隔和预设的字符长度，将可展示文本中的文字依次通过显示设备进行展示。

在实际应用过程中，可以根据实际需求设置该时间间隔和字符长度，并按照预设的时间间隔和预设的字符长度，将可展示文本中的文字依次通过显示设备进行展示，从而使用户感觉到文字是持续地、不间断地进行的展示。其中，可以响应于配置的文字显示参数设定该字符长度，例如，配置的文字显示参数为1个字符，该字符长度则为1个字符。本实施例中，也可以按照所述可展示文本中文字的词性确定。例如“查询”作为一个字符长度，“上海”作为一个字符长度，“的”作为一个字符长度，“天气”作为一个字符长度，“情况”作为一个字符长度。

在一个具体实现过程中，预设的时间间隔优选为40～50ms，预设的字符长度优选为1个字符，若语音信息为“查询上海今天的天气情况”，最终会每隔40～50ms显示一个文字。0ms时显示“查”，40ms时，显示“询”……依次类推，这样，就相当于逐字打字似的显示各个子，且中间隔了一段时间，在语音识别时，即使当前识别文本为可变类文本，由于经过上下文的理解，可以将可变文本进行纠正，并不会影响最终展示的结果。

本实施例的语音识别文本的展示方法，利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本后，根据当前识别文本的类型，确定可展示文本，并按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示，实现了持续、不间断地展示语音信息的识别结果，避免识别文本在展示过程中出现卡顿现象，提高了人机交互的质量。

图2为本发明实施例提供的另一种语音识别文本的展示方法的流程图，如图2所示，本实施例的语音识别文本的展示方法具体可以包括如下步骤：

200、利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本；

201、根据当前识别文本的类型，确定可展示文本；

202、将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理，得到目标风格的文字；

在一个具体实现过程中，可以预先基于对抗生成网络训练后得到本实施例的多风格字幕生成模型，这样，在确定可展示文本后，可以利用多风格字幕生成模型的编码器对可展示文本中的文字进行编码得到文字向量，并将文字向量与预设的主题分词特征向量进行重组，得到重组向量，将重组向量输入多风格字幕生成模型对应的对抗生成网络，得到目标风格的字幕，这样，视频中的字幕更具个性化的呈现给用户，给视频欣赏者带来更独特的体验。例如，在儿童视频中，可以个性化生成卡通样式字幕，提升视频带来的效果。

在一些实施例中，可以从预设主题分词中提取主题分词特征向量，并设定主题分词特征向量。

在一些实施例中，为了进一步满足不同用户的需求，还可以从自定义主题分词中提取主题分词特征向量，并设定主题分词特征向量。具体地，对于预设主题分词而言，可能只是部分风格不满足用户需求，这样，用户仅需要对预设主题分词进行少部分调整即可达到自己需求，因此，本实施例中，可以对预设主题分词进行重新编辑得到自定义主题分词。

在一些实施例中，用户还可以自己创建自定义主题分词，具体地，用户触发自创建指令，并在自创建模式下用户自创建自定义主题分词。例如，用户可以将自己的绘画作为字幕式样，在自创建模式下，用户将自己的绘画上传作为定义主题分词，并从中提取主题分词特征向量后，设定该主题分词特征向量。

203、按照预设的时间间隔和预设的字符长度，将所述目标风格的文字依次展示于显示屏。

在实际应用过程中，可以根据实际需求设置该时间间隔和字符长度，并按照预设的时间间隔和预设的字符长度，将可展示文本中的目标风格的文字依次通过显示设备进行展示，从而使用户感觉到文字是持续地、不间断地进行的展示。

本实施例的语音识别文本的展示方法，实现了持续、不间断地展示语音信息的识别结果，避免识别文本在展示过程中出现卡顿现象，提高了人机交互的质量。同时，能够实时动态的以用户所需式样进行显示，从而使得视频能够适用不同用户，提高了视频的适应性。

图3为本发明实施例的语音识别文本的展示装置的结构示意图，如图3所示，本实施例的语音识别文本的展示装置可以包括语音识别模块30、确定模块31和展示模块32。

语音识别模块30，用于利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本；所述当前词组根据所述语音识别模型对应的词组颗粒度对所述语音信息进行分词得到；

确定模块31，用于根据当前识别文本的类型，确定可展示文本；

具体地，若所述当前识别文本的类型为可变类文本，将已确定的不可变文本和下一段已解码文本作为所述可展示文本；若所述当前识别文本的类型为不可变类文本，将已确定的不可变文本、所述当前识别文本累加和下一段已解码文本作为所述可展示文本。

展示模块32，用于按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示。

其中，预设的字符长度按照如下方式设定：响应于配置的文字显示参数设定；或者，按照所述可展示文本中文字的词性确定。

本实施例的语音识别文本的展示装置，利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别，得到所述当前词组对应的当前识别文本后，根据当前识别文本的类型，确定可展示文本，并按照预设的时间间隔和预设的字符长度，将所述可展示文本中的文字依次通过显示设备进行展示，实现了持续、不间断地展示语音信息的识别结果，避免识别文本在展示过程中出现卡顿现象，提高了人机交互的质量。

在一个具体实现过程中，确定模块31，还用于：将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理，得到目标风格的文字；

具体地，利用所述多风格字幕生成模型的编码器对所述可展示文本中的文字进行编码得到文字向量，并将所述文字向量与预设的主题分词特征向量进行重组，得到重组向量；将所述重组向量输入所述多风格字幕生成模型对应的对抗生成网络，得到所述目标风格的文字。

其中，主题分词特征向量按照如下方式设定：从预设主题分词中提取所述主题分词特征向量，并设定所述主题分词特征向量；从自定义主题分词中提取所述主题分词特征向量，并设定所述主题分词特征向量；其中，所述自定义主题分词为对所述预设主题分词进行重新编辑得到，或者，所述自定义主题分词为在自创建模式下用户自创建得到。

展示模块32，还用于：按照预设的时间间隔和预设的字符长度，将所述目标风格的文字依次展示于显示屏。

本实施例的语音识别文本的展示装置，实现了持续、不间断地展示语音信息的识别结果，避免识别文本在展示过程中出现卡顿现象，提高了人机交互的质量。同时，能够实时动态的以用户所需式样进行显示，从而使得视频能够适用不同用户，提高了视频的适应性。

图4为本发明实施例提供的语音识别文本的展示的结构示意图，如图4所示，本实施例的通行设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种存储介质，其存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述实施例的语音识别文本的展示方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别文本的展示方法，其特征在于，包括：

根据当前识别文本的类型，确定可展示文本；

2.根据权利要求1所述的语音识别文本的展示方法，其特征在于，根据当前识别文本的类型，确定可展示文本，包括：

3.根据权利要求1所述的语音识别文本的展示方法，其特征在于，根据当前识别文本的类型，确定可展示文本之后，还包括：

4.根据权利要求3所述的语音识别文本的展示方法，其特征在于，将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理，得到目标风格的文字，包括：

5.根据权利要求4所述的语音识别文本的展示方法，其特征在于，所述主题分词特征向量按照如下方式设定：

6.根据权利要求1-5任一项所述的语音识别文本的展示方法，其特征在于，所述预设的字符长度按照如下方式设定：

7.一种语音识别文本的展示装置，其特征在于，包括：

8.根据权利要求7所述的语音识别文本的展示装置，其特征在于，所述确定模块，还用于：

对应地，所述展示模块，还用于：

9.一种语音识别文本的展示设备，其特征在于，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的语音识别文本的展示方法的程序，以实现权利要求1-6任一项所述的语音识别文本的展示方法。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现权利要求1-6任一项所述的语音识别文本的展示方法。