CN103544140A

CN103544140A - 一种数据处理方法、展示方法和相应的装置

Info

Publication number: CN103544140A
Application number: CN201210241787.1A
Authority: CN
Inventors: 张世磊; 刘�文; 包胜华; 陈健; 施勤; 苏中; 秦勇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-07-12
Filing date: 2012-07-12
Publication date: 2014-01-29
Also published as: US9158753B2; US9158752B2; US20140019121A1; US20140019133A1

Abstract

本发明属于语音识别领域，公开了一种数据处理方法，所述方法包括：获取展示内容对应的文本信息，所述展示内容包括多个区域；对所述文本信息进行文本分析，得到第一关键词序列，所述第一关键词序列包括与所述多个区域中至少一个区域关联的区域关键词；获取与所述展示内容相关的语音信息，所述语音信息至少包括当前语音片断；使用第一模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的区域，其中所述第一模型网络包括所述第一关键词序列。相应的本发明还公开了一种展示方法、以及相应的用于数据处理的装置和用于展示的装置。通过本发明提供的技术方案，可以实现语音片断与展示内容不同区域的关联，进而实现展示内容按照区域的自动跳转。

Description

一种数据处理方法、展示方法和相应的装置

技术领域

本发明涉及语音识别领域，更具体地，涉及一种数据处理的方法、展示方法和相应的装置。

背景技术

随着现代社会的不断发展，在越来越多的场合，为了方便听众或者观众的理解或者吸引注意力，人们常常需要配合讲解/演讲进行展示。例如，销售人员为客户介绍产品或者方案时，就常常需要通过电子幻灯片、音视频等展示；技术人员在讲解技术方案的时候也常常使用这些技术手段进行展示；远程教学时，老师更需要依靠这些技术手段向学生传播信息。

现在，人们在进行上述展示的同时，展示内容无法随着展示者的讲解，自动跳转到与当前的讲解相对应的区域，也即，无法将展示者现场的讲解与展示内容不同的区域关联起来。这就导致了对于展示内容不同区域的跳转，需要人工的干预，从而提高了展示的人力成本，也容易使得整个的展示被打断，显得不够完整和流畅。

针对现有技术中的上述问题，需要一种将现场的语音信息与展示内容的不同区域关联起来的技术。

发明内容

为了实现语音信息与展示内容的关联，本发明提供了一种数据处理方法、一种展示方法、一种用于数据处理的装置以及一种用于展示的装置。

根据本发明的一个方面，提供了一种数据处理方法，所述方法包括：获取展示内容对应的文本信息，所述展示内容包括多个区域；对所述文本信息进行文本分析，得到第一关键词序列，所述第一关键词序列包括与所述多个区域中至少一个区域关联的区域关键词；获取与所述展示内容相关的语音信息，所述语音信息至少包括当前语音片断；使用第一模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的区域，其中所述第一模型网络包括所述第一关键词序列。

根据本发明的另一个方面，提供了一种展示方法，所述方法包括：获取展示内容对应的文本信息，所述展示内容包括多个区域；对所述文本信息进行文本分析，得到多个第二关键词序列，其中所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，至少一个所述第二关键词序列包括至少一个关键词；获取与所述展示内容相关的语音信息，所述语音信息至少包括当前语音片断；得到所述第二关键词序列中至少一个第二关键词序列的至少一个关键词的置信度，其中与所述当前语音片断的相似度越高的关键词的置信度越大；根据所述关键词的置信度，得到所述多个区域中当前区域所对应的第二关键词序列的置信度；响应于所述当前区域所对应的第二关键词序列的置信度小于第十阈值，跳转离开所述当前区域。

根据本发明的又一个方面，提供了一种用于数据处理的装置，所述装置包括：文本获取模块，被配置为获取展示内容对应的文本信息，其中所述展示内容包括多个区域；文本分析模块，被配置为对所述文本信息进行文本分析，得到第一关键词序列，所述第一关键词序列包括与所述多个区域中至少一个区域关联的区域关键词；语音获取模块，被配置为获取与所述展示内容相关的语音信息，所述语音信息至少包括当前语音片断；第一语音分析模块，被配置为使用第一模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的区域，其中所述第一模型网络包括所述第一关键词序列。

根据本发明的再一个方面，提供了一种用于展示的装置，所述装置包括：

文本获取模块，被配置为获取展示内容对应的文本信息，其中，所述展示内容包括多个区域；文本分析模块，被配置为对所述文本信息进行文本分析，得到多个第二关键词序列，其中所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，至少一个所述第二关键词序列包括至少一个关键词；语音获取模块，被配置为获取与所述展示内容相关的语音信息，所述语音信息至少包括当前语音片断；第一置信度模块，被配置为得到所述第二关键词序列中至少一个第二关键词序列的至少一个关键词的置信度，其中与所述当前语音片断的相似度越高的关键词的置信度越大；第二置信度模决，被配置为根据所述关键词的置信度，得到所述多个区域中当前区域所对应的第二关键词序列的置信度；跳转模块，被配置为响应于所述当前区域所对应的第二关键词序列的置信度小于第二十三阈值，跳转离开所述当前区域。

本发明所提供的技术方案可以实现语音与展示内容中区域的关联，从而能够实现展示内容按照区域的自动跳转。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了适于用来实现本发明实施方式的示例性计算系统100的框图；

图2示出了本发明实施例中一种数据处理方法的流程示意图；

图3示出了本发明实施例中第一模型网络和第二模型网络的一个示例；

图4示出了本发明实施例一种展示方法的流程示意图；

图5示出了本发明实施例一种用于数据处理装置的结构示意图；

图6示出了本发明实施例一种用于展示装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了适于用来实现本发明实施方式的示例性计算系统100的框图。如图1所示，计算机系统100可以包括：CPU(中央处理单元)101、RAM(随机存取存储器)102、ROM(只读存储器)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。在这些设备中，与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合，键盘111与键盘控制器106耦合，串行外部设备112与串行接口控制器107耦合，并行外部设备113与并行接口控制器108耦合，以及显示器114与显示控制器109耦合。应当理解，图1所述的结构框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些设备。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是--但不限于--电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括--但不限于--电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括--但不限于--无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序占领可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品(manufacture)。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

现在参看图2，图2示出了本发明实施例提供的一种数据处理方法。该方法包括以下步骤：步骤210，获取展示内容对应的文本信息；步骤220，对该文本信息进行文本分析，得到第一关键词序列；步骤230，获取与展示内容相关的语音信息；步骤240，使用第一模型网络对当前语音片断进行分析，以判断当前语音片断所对应的区域。

对于本发明的一实施例，步骤210中，该展示内容包括多个区域。其中，区域可以按照不同的标准划分，例如可以按照不同的主题划分，或者可以按照固定的尺寸划分，或者可以按照页、段落等划分，本发明在此并不加以限制。以介绍产品的电子幻灯片作为展示内容为例，产品的功能可以构成一个区域，产品的结构可以构成一个区域等；以展示内容为文档为例，每个段落或者每个一级标题可以构成一个区域；以展示内容为图片为例，图片中不同的人可以构成不同的区域，或者每张图片构成一个区域；以展示内容为视频或者音频为例，固定时长的片断可以构成区域，或者不同主题内容的片断可以构成不同的区域。本发明一实施例中，若展示内容为电子幻灯片等以文本为主的对象，则步骤210可以直接将展示内容中的文本信息作为展示内容对应的文本信息；若展示内容为音频或者视频，则步骤210可以通过对展示者的预演进行语音识别得到该展示内容对应的文本信息，或者根据与音频或者视频对应的字幕得到文本信息，或者还可以根据与音频或者视频对应的文字稿得到文本信息。本领域技术人员可以理解，对于区域的划分和文本信息，都可以进行人工的调整。

步骤220中的文本分析可以采用现有技术中的文本分析技术，此处不再赘述。步骤220的第一关键词序列包括与展示内容的区域关联的区域关键词。区域关键词是能够用于识别区域的关键词，区域关键词例如是各级的标题、区域高频词或者控制命令词等。其中，作为区域关键词的区域高频词通常不会出现在不同的区域中。本领域技术人员可以理解，在使用区域高频词作为区域关键词时，会对常用词进行过滤，从而避免常用词由于出现频率高而作为区域关键词。常见词例如是连词、代词等。在本发明的一实施例中，可以对区域关键词进行人工的调整或者指定，从而使得区域关键词可以更好的与区域关联。以介绍某一森林的展示为例，该展示内容包括多个区域，分别为森林的位置，森林所包括的树种，森林所包括的动物资源，森林对周边气候的调节等。如图3所示的示例中，第一关键词序列例如包括：地理位置、吉林省、植物资源、白松、动物资源、金雕、气候影响、湿度等。其中，地理位置、吉林省这两个区域关键词都与森林的位置这一区域相关联。

其中，第一模型网络还可以包括第一音素序列。第一音素序列由多个音素构成。本领域技术人员可知，音素为最小的语音单元，对于中文例如为声母和韵母，而对于英文例如为音标。本发明的一实施例中，第一音素序列包括了一种语言的所有音素，例如包括了中文的所有声母和韵母。

在步骤230中，语音信息至少包括当前语音片断。本发明并不具体限制语音片断的切割方法，可以使用现有技术中的语音切割方法。与展示内容相关的语音信息通常是展示者现场在展示中的话语。在本发明的一实施例中，该话语可以是展示者的自然语言，而非发出的特定命令语句。

在步骤240中，使用第一模型网络对当前语音片断进行分析后可以得到相应的输出。若判断当前语音片断为第一关键词序列中的某一个区域关键词，则该输出可以为该区域关键词；若判断当前语音片断非第一关键词序列中的任何区域关键词，则该输出为根据第一音素序列得到的该语音片断的音素。在本发明的一实施例中，上述判断可以基于第一关键词序列和第一音素序列中所包含元素的置信度的竞争结果作出。

在本发明一实施例中，若输出为区域关键词，则可以判断当前语音片断所对应的区域即为与该区域关键词关联的区域。

本发明一实施例中，步骤240之后还可以包括跳转步骤：将展示内容跳转到当前语音片断所对应的区域。这样可以实现展示内容按照区域的自动跳转，减少了人工操作。可选的，若当前语音片断所对应的区域与当前区域是相同的，则可以不进行该跳转，仍然展示当前区域；若当前语音片断所对应的区域与当前区域是不同的，则进行该跳转，从而展示该当前语音片断所对应的区域，此时，该当前语音片断所对应的区域为当前区域。在具体进行跳转时，对于文档或者电子幻灯片等，可以直接跳转到区域对应的页或者段；而对于视频、音频等，可以直接跳转到区域对应的时间戳。与不同区域对应的页、段或者时间戳的信息可以是预设的，也可以是通过文本分析得到的。

本领域技术人员可以理解，本发明实施例提供的数据处理方法不仅可以用于展示内容按照区域的自动跳转，还具有其它应用，例如对于展示内容进行处理，对当前语音片断所对应的区域进行删除、移动等操作。

通过上述实施例提供的方法，可以根据展示者的语言实现对于展示内容按照区域的自动跳转，避免了在展示中展示者或者其他人进行人工的跳转，使得展示可以更加完整、流畅，也不需要展示者和其他操作人员之间的配合。进一步的，由于上述方法可以对展示者的自然语言进行处理，而不限于命令语句，使得整个展示更加的完整、自然，并且无需展示者记住特定的命令语句，减少方法实施的复杂度。特别是在展示者进行远程展示时，现场只能听到展示者的声音，通过本发明上述实施例提供的方案可以对展示者的语音信息进行分析，从而实现展示内容的自动跳转，避免了远程展示时，对于展示内容难以控制的问题。

在本发明一实施例中，步骤240具体可以包括：得到所述第一关键词序列中至少一个区域关键词的置信度，其中与当前语音片断的相似度越高的区域关键词的置信度越大；若一个区域关键词的置信度达到一阈值，则确定当前语音片断所对应的区域为该区域关键词所关联的区域。在本发明的另一实施例中，可以是若与同一区域关联的多个区域关键词的置信度均达到一阈值，则确定当前语音片断所对应的区域为该区域。其中，多个置信度达到一阈值的同一区域所关联的区域关键词的具体数量，可以是预设的。在本发明的另一实施例中，还可以是若与同一区域关联的多个区域关键词的置信度的和达到一阈值，则确定当前语音片断所对应的区域为该区域。其中，多个区域关键词的置信度的和可以是直接的加和，也可以是加权和。在采用多个区域关键词的置信度进行判断时，更有利于准确的判断区域，减少了误判的可能。本领域技术人员可以理解，上述实施例提供的具体实现方式仅仅是一个示例，还可以使上述实现方式的结合，或者还可以通过其他的方式利用第一模型网络进行语音分析。

在本发明一实施例中，可以是得到第一关键词序列中所有区域关键词的置信度。在进行语音分析时，可以判断当前语音片断与第一关键词序列中所有区域关键词的相似度，相似度越高的置信度越大，得到置信度最大的区域关键词，判断这个区域关键词的置信度是否达到了一个阈值，若达到则判断当前语音片断所对应的区域为该区域关键词所关联的区域。另一实现方式可以是将当前语音片断与第一关键词序列中的区域关键词进行顺序比对，当某一区域关键词的置信度达到一个阈值时，就直接判断当前语音片断所对应的区域为该区域关键词所关联的区域。本领域技术人员可以理解，区域关键词语当前语音片断的相似度可以是发音相似度，也可以是文本相似度。

在本发明一实施例中，进一步可以计算当前语音片断与第一音素序列中的音素的相似度，相似度越高的音素置信度越大，得到置信度最大的音素或者置信度达到一个阈值的音素。若根据上述方法得到的区域关键词的置信度与得到的音素的置信度相比，差距达到一个阈值，则判断当前语音片断中并没有包括任何区域关键词。

在本发明一实施例中，步骤240中还可以借助第一音素序列判断当前语音片断所对应的区域。具体的，在语音分析中可以根据第一音素序列得到与当前语音片断相邻的至少一个音素；判断该至少一个音素与该至少一个区域关键词的相应文本信息的发音相似度，该至少一个区域关键词的相应文本信息包括该至少一个区域关键词在文本信息中的上下文；若该至少一个音素与至少一个区域关键词的相应文本信息的发音相似度达到一个阈值，则提高该发音相似度达到阈值的区域关键词的置信度。在本发明实施例中，可以是无论当前语音片断中是否包括区域关键词都得到当前语音片断相邻的至少一个音素，或者可以是在当前语音片断中可能包括区域关键词时，例如区域关键词的置信度高于一个阈值时，得到当前语音片断相邻的至少一个音素。可选的，为了更准确的判断该相邻的音素与上下文的发音相似度，可以获得较多的相邻的音素。第一关键词序列中的区域关键词在文本信息中会有其上下文，也即其相应的文本信息，可以将得到的相邻的音素与这些相应的文本信息进行比较，并在其发音相似度达到一个阈值时提高相应的区域关键词的置信度。本领域技术人员可以理解，该方案具有其他的实现方式，例如只选择发音相似度最高的相应的文本信息，并提高该相应的文本信息所对应的区域关键词的置信度。或者，根据不同的发音相似度，对于置信度的调整不同，发音相似度越高，则置信度被提高的越大。通过对区域关键词的置信度的调整，可以使得区域的确定更加的准确。并且，由于是对发音相似度的判断而非文本相似度，所以在展示者可能读音不准时，或者存在口音时，也能够使用该方法进行判断。

本领域技术人员可以理解，上述实施例中均以相似度越高置信度越大为例进行说明，但是置信度也可以进行相反的设置，即相似度越高置信度越低，那么相应的判断条件也会相反。

本发明的一实施例中，不但可以通过上述方式建立一层的模型网络，还可以建立二层模型网络，通过二层模型网络的构建，不但可以实现对于展示内容中关键词的判断，还可以进一步的提高区域识别的准确度。图3中示出了第二模型网络的一个示例。下面详细说明二层模型网络的建立。

图2所示的实施例中，该方法可以进一步包括：得到多个第二关键词序列，所述第二关键词序列中的至少一个第二关键词序列与多个区域中至少一个区域对应，且至少一个第二关键词序列包括至少一个关键词；根据所述多个第二关键词序列，得到所述多个第二关键词序列中至少一个第二关键词序列的至少一个关键词的置信度，其中与当前语音片断的相似度越高的关键词的置信度越大。相应的，判断当前语音片断所对应的区域时，不仅仅要判断区域关键词的置信度，还要判断当前区域所对应的第二关键词序列的置信度。具体的，判断当前区域所对应的第二关键词序列的置信度是否小于一个阈值，若小于该一个阈值，且当前语音片断所对应的区域关键词的置信度满足上述实施例中所描述的要求，则判断当前语音片断所对应的区域为满足条件的区域关键词所关联的区域。第二关键词序列的置信度根据第二关键词序列中所包括的关键词的置信度得到，例如是所包括的关键词的置信度的加和或者加权和等。可以看到，通过利用第二模型网络中的第二关键词序列辅助区域的确认，可以进一步加强区域确认的准确度。

本发明一实施例中，还可以利用第二模型网络中的第二音素序列辅助进行区域的确认。其中，需要判断在使用第二模型网络对语音信息进行分析时，根据第二音素序列得到输出的次数是否达到一个阈值，若达到且区域关键词的置信度满足上述实施例中所描述的要求，则判断当前语音片断所对应的区域为满足条件的区域关键词所关联的区域。

为了能够对展示内容中所包含的关键词以及当前语音片断进行关联，本发明一实施例中，该数据处理方法还包括：使用所述第二模型网络对当前语音片断进行分析，以判断当前语音片断所对应的关键词。使用第二模型网络对语音信息进行分析时可以参照上述实施例，例如得到第二关键词序列中至少一个关键词的置信度，其中与当前语音片断的相似度越高的关键词的置信度越大，并根据关键词的置信度判断当前语音片断所对应的关键词。通过上述方法，可以根据展示者的语音，对展示内容中的关键词进行关联，而无须展示者或者其他人进行人工标注。可选的，本实施例中还可以进一步包括标注的步骤，也即，在展示内容中标注当前语音片断所对应的关键词。通过对展示内容中的关键词进行自动的标注，保证了展示的完整性，也节省了人力。例如，展示者在讲到森林的地理位置这一区域时，在提到经度的时候，可以对展示内容中的经度进行标注，从而引起听众或者观众的注意。本领域技术人员可以理解，对于关键词具体的标注技术可以采用现有技术，并且方式多样，例如对关键词进行高亮，或者在关键词下标注下划线，或者在视频内容中显示关键词等。并且，二层模型网络的构建可以避免关键词过多而导致的语音识别速度过慢问题，还可以提高语音识别的粒度。本领域技术人员可以理解，在确定了当前语音片断所对应的关键词之后，还可以有其它的应用方法，例如将关键词进行记录、统计等。

上述实施例中，第一关键词序列是针对区域设定的，而第二关键词序列包括的每个区域中的关键词。可以理解第二关键词序列和区域并不一定是一一对应的关系，例如有的区域可能没有对应的第二关键词序列，而有的第二关键词序列可能与多个区域相对应，例如多个区域对应关键词都一样，就可以使用同一个第二关键词序列。在之前的示例中提到过，对于多个区域中都出现的高频词通常不会被作为区域关键词，但是这种高频词可以作为第二关键词序列中的关键词，因为第二关键词序列是针对每个区域的。并且，对于第二关键词序列中的关键词可以进行人工的调整和设定，例如展示者希望着重强调的词也可以作为第二关键词序列中的关键词。通常，第二关键词序列中的关键词可以是该区域中的高频词，或者其他展示者希望在展示中被标注或者强调的词。

本发明的一实施例中，第二模型网络还可以包括第二音素序列。第二音素序列可以与第一音素序列相同，也可以不同。同样的，第二音素序列也是由音素构成的。第二模型网络中可以包括一个或者多个第二音素序列，例如多个第二关键词序列对应一个第二音素序列，或者每个第二关键词序列都对应一个第二音素序列，其中多个第二音素序列可以相同也可以不同。

本发明的一实施例中，通过语音分析确定了当前语音片断所对应的区域之后，可以使用该区域对应的第二模型网络对该当前语音片断进行分析，从而实现对关键词的确定。在本发明的另一实施例中，可以同时使用第一模型网络和第二模型网络对当前语音片断进行分析，并在多个区域都包括同一关键词时，结合确定的区域判断应当是哪一个区域中的关键词。

本发明的一实施例中，也可以通过第二音素序列对关键词的置信度加以改变。例如根据所述第二音素序列，得到与当前语音片断相邻的至少一个音素；判断所述至少一个音素与所述至少一个关键词的相应文本信息的发音相似度，所述至少一个关键词的相应文本信息包括该至少一个关键词在文本信息中的上下文；若所述至少一个音素与至少一个关键词的相应文本信息的发音相似度达到一个阈值，则提高该发音相似度达到阈值的关键词的置信度。

本发明的一实施例中，由于一个区域的展示内容中一个关键词可能会出现多次，为了更为准确的判断应当标注哪一个关键词，可以利用第二音素序列进行辅助判断。具体的可以实施为：根据所述第二音素序列，得到与当前语音片断相邻的至少一个音素；若至少一个关键词的置信度达到第一阈值，则确定该置信度达到第一阈值的关键词为候选关键词；判断所述至少一个音素与该候选关键词的相应文本信息的发音相似度，所述候选关键词的相应文本信息包括该候选关键词在文本信息中的上下文；若所述至少一个音素与该候选关键词的相应文本信息中的一个的发音相似度达到第二阈值，则确定所述当前语音片断所对应的关键词为以该发音相似度达到第二阈值的文本信息为上下文的关键词。上述方法步骤中，得到候选关键词和得到与当前语音片断相邻的至少一个音素之间没有特定的执行顺序，可以先后执行，也可以同时执行。例如，在展示者讲述森林的动物资源时，文本信息中在两个位置都出现了东北虎，一个位置是“森林中存在的哺乳动物资源有：东北虎、梅花鹿”，另一个位置是“其中国家一级保护动物有：东北虎、金雕”。可以看到在同一区域中有两个位置都出现了同一关键词，那么就需要通过与当前语音片断相邻的音素来判断当前语音片断所对应的关键词究竟是哪个。通过利用第二音素序列，可以对文本信息中的关键词进行更为细致、准确地判断。

本发明的一实施例中，可以在对文本信息进行文本分析得到第一关键词序列的同时也得到第二关键词序列；或者第二关键词序列可以在得到第一关键词序列生成之后得到根据文本分析得到。

本发明的一实施例中，可以将预先设定的文本信息作为关键词或者区域关键词的上下文。这样可以使得区域的判断和关键词的确定更加的灵活，例如展示者在展示前进行预演，发现某些区域的识别错误或者关键词判断错误，则可以将其预演时的语音信息或者其他更有利于判断的文本信息作为发生错误的区域关键词或者关键词的上下文，从而提高了正式展示时识别的准确性。

上述各方法实施例之间可以彼此结合和参照，得到更多的实施例。通过上述实施例提供的方法，可以实现对于区域的自动跳转，并且还能够实现对于展示内容中关键词的标注。并且，利用第二音素序列的输出，可以对需要标注的关键词进行更为准确的定位，由于该输出本来就会在语音分析中得出，所以并不增加额外的工作量。利用第二音素序列还可以辅助判断是否进行区域的跳转。利用第一音素序列可以更加准确地判断当前语音片断所对应的关键词，从而更为准确的得到当前语音片断所对应的区域，并进行区域的跳转。因此，根据上述实施例不但能够实现展示内容跳转、标注的自动化，还可以提高语音识别的精确度，同时并不会增加具体的计算量，不会消耗更多的资源。

上述实施例以及下述各实施例中多处均出现了阈值，这些阈值可以相同也可以不同，本发明不进行具体的限制。

图4示出了本发明实施例提供的一种展示方法。该方法包括：步骤410，获取展示内容对应的文本信息，该展示内容包括多个区域；步骤420，对获取的文本信息进行文本分析，得到多个第二关键词序列，该多个第二关键词序列中的至少一个第二关键词序列与多个区域中至少一个区域对应，至少一个第二关键词序列包括至少一个关键词；步骤430，获取与展示内容相关的语音信息；步骤440，根据第二关键词序列，得到至少部分第二关键词序列中至少部分关键词的置信度；步骤450，响应于当前区域所对应的第二关键词序列的置信度小于一个阈值，跳转离开当前区域。

本实施例中，具体实施细节可以参照图2所示的实施例。与图2所示实施例不同的是，图2所示实施例的区域的识别主要是依靠第一关键词序列中的区域关键词的判断，而图4所示实施例的区域的识别主要是依靠第二关键词序列中的关键词的判断。可以看到，由于第二关键词序列对应着区域，所以若与当前区域对应的第二关键词序列的置信度过低，则可以判断展示者的讲解已经离开了当前区域，进入了下一个区域，因此，进行区域的跳转。通过上述方法，可以实现对于展示内容的自动的区域跳转，节省了人工操作的人力，并且提高了展示的完整性。

本发明一实施例中，还可以结合第一关键词序列中的区域关键词对区域的跳转进行控制。具体的，可以根据图2所示的实施例得到第一关键词序列中至少一个区域关键词的置信度，并且当第一条件满足时，跳转到与第一条件所涉及的区域关键词所关联的区域。该第一条件为以下至少之一：一个区域关键词的置信度达到一个阈值；与同一区域关联的多个区域关键词的置信度均达到一个阈值；与同一区域关联的多个区域关键词的置信度的和达到一个阈值。

本发明一实施例中，还可以结合第一关键词序列中的区域关键词一起确认区域，具体的方法可以参照图2所示实施例。

本发明一实施例中，还可以根据其他第二关键词序列的置信度对区域的跳转进行控制。例如，若一第二关键词序列的置信度达到一个阈值，则跳转到该第二关键词序列所对应的区域。由于当前区域对应的第二关键词序列的置信度已经很低，而另一第二关键词序列的置信度较高，这是可以判断，应当离开当前区域跳转到该另一第二关键词序列所对应的区域。

本发明一实施例中，还可以对展示内容中的关键词进行标注。具体的，若一关键词的置信度达到一个阈值，则确定当前语音片断所对应的关键词为该关键词，并在展示内容中标注该关键词。

本发明一实施例中，还可以根据第二音素序列改变关键词的置信度。具体方法可以参照图2所示的实施例。

如图4所示实施例，也可以具有二层模型网络所具有的优点，其具体的实现方式可以参照图2所示的实施例，此处不再赘述。

如图5所示，本发明实施例提供了一种用于数据处理的装置500。该装置500包括：文本获取模块510，被配置为获取展示内容对应的文本信息，其中所述展示内容包括多个区域；文本分析模块520，被配置为对所述文本信息进行文本分析，得到第一关键词序列，所述第一关键词序列包括与所述多个区域中至少一个区域关联的区域关键词；语音获取模块530，被配置为获取与所述展示内容相关的语音信息，所述语音信息至少包括当前语音片断；第一语音分析模块540，被配置为使用第一模型网络对当前语音片断进行分析，以判断当前语音片断所对应的区域，其中所述第一模型网络包括所述第一关键词序列。

根据本发明一实施例，第一语音分析模块540包括：第一置信度子模块，被配置为根据所述第一关键词序列，得到所述第一关键词序列中至少一个区域关键词的置信度，其中，与当前语音片断的相似度越高的区域关键词的置信度越大；区域确定子模块，被配置为若第一条件满足，则确定所述当前语音片断所对应的区域为所述第六条件所涉及的区域关键词所关联的区域；其中，所述第六条件包括以下至少之一：一个区域关键词的置信度达到一个阈值；与同一区域关联的多个区域关键词的置信度均达到一个阈值；与同一区域关联的多个区域关键词的置信度的和达到一个阈值。

根据本发明一实施例，第一模型网络进一步包括第一音素序列。述第一语音分析模块540进一步包括：第一音素子模块，被配置为根据所述第一音素序列，得到与当前语音片断相邻的至少一个音素；第一相似度判断子模块，被配置为判断所述至少一个音素与所述至少一个区域关键词的相应文本信息的发音相似度，所述至少一个区域关键词的相应文本信息包括该至少一个区域关键词在文本信息中的上下文；第一调整子模块，被配置为若所述至少一个音素与至少一个区域关键词的相应文本信息的发音相似度达到一个阈值，则提高该发音相似度达到阈值的区域关键词的置信度。

根据本发明一实施例，装置500进一步包括：关键词模块，被配置为得到多个第二关键词序列，其中，所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，且至少一个所述第二关键词序列包括至少一个关键词；第二语音分析模块，被配置为使用第二模型网络对当前语音片断进行分析，以判断当前语音片断所对应的关键词，所述第二模型网络包括所述第二关键词序列。

本发明一实施例中，第二模型网络进一步包括第二音素序列。并且，第二语音分析模块包括：第二音素子模块，被配置为根据所述第二音素序列，得到与当前语音片断相邻的至少一个音素；第二置信度子模块，被配置为得到所述第二关键词序列中至少一个关键词的置信度，其中与所述当前语音片断的相似度越高的关键词的置信度越大；候选判断子模块，被配置为若至少一个关键词的置信度达到第五阈值，则确定该置信度达到第五阈值的关键词为候选关键词；第二相似度判断子模块，被配置为判断所述至少一个音素与该候选关键词的相应文本信息的发音相似度，所述确定的关键词的相应文本信息包括该候选关键词在文本信息中的上下文；关键词确定子模块，被配置为若所述至少一个音素与该候选关键词的相应文本信息中的一个的发音相似度达到第六阈值，则确定所述当前语音片断所对应的关键词为以该发音相似度达到第六阈值的文本信息为上下文的关键词。

本发明一实施例中，装置500还可以包括跳转模块和/或标注模块。跳转模块被配置为将展示内容跳转到当前语音信息所对应的区域。标注模块被配置为在展示内容中标注当前语音信息所对应的关键词。

本发明一实施例中，装置500还可以包括其他模块，被配置来执行图2所示实施例的其他步骤，具体可以参照图2所示实施例，此处不再赘述。并且，装置500所包括的模块以及模块之间关系所带来的技术效果可以参照图2所示的实施例。

上述图5所示实施例之间可以彼此参照、结合得到更多的实施例。

如图6所示，本发明实施例提供了一种用于展示的装置600。该装置600包括：文本获取模块610，被配置为获取展示内容对应的文本信息，其中，所述展示内容包括多个区域；文本分析模块620，被配置为对所述文本信息进行文本分析，得到多个第二关键词序列，其中所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，至少一个所述第二关键词序列包括至少一个关键词；语音获取模块630，被配置为获取与所述展示内容相关的语音信息，所述语音信息至少包括当前语音片断；第一置信度模块640，被配置为得到所述第二关键词序列中至少一个第二关键词序列的至少一个关键词的置信度，其中与当前语音片断的相似度越高的关键词的置信度越大；第二置信度模块650，被配置为根据所述关键词的置信度，得到当前区域所对应的第二关键词序列的置信度；跳转模块660，被配置为响应于所述当前区域所对应的第二关键词序列的置信度小于一个阈值，跳转离开所述当前区域。

本发明一实施例中，该装置600还包括：区域关键词模块，被配置为得到第一关键词序列，所述第一关键词序列包括与所述多个区域中至少一个区域关联的区域关键词；第三置信度模块，被配置为得到所述第一关键词序列中至少一个区域关键词的置信度，其中与当前语音片断的相似度越高的区域关键词的置信度越大。并且跳转模块660，具体被配置为，若第三条件满足，则跳转到与所述第三条件所涉及的区域关键词所关联的区域；其中，所述第三条件包括以下至少之一：一个区域关键词的置信度达到一个阈值；与同一区域关联的多个区域关键词的置信度均达到一个阈值；与同一区域关联的多个区域关键词的置信度的和均达到一个阈值。

本发明一实施例中，跳转模块660具体被配置为，若第二条件满足，则跳转到与所述第二条件所涉及的第二关键词序列对应的区域；其中，所述第二条件包括：第二关键词序列的置信度达到一个阈值。

本发明一实施例中，装置600进一步包括：确定模块，被配置为若一关键词的置信度达到一个阈值，则确定当前语音片断所对应的关键词为该关键词；标注模块，被配置为在所述展示内容中标注该关键词。

本发明一实施例中，装置600进一步包括：音素模块，被配置为根据第二音素序列，得到与当前语音片断相邻的至少一个音素；相似度判断模块，被配置为，判断所述至少一个音素与所述至少一个关键词的相应文本信息的发音相似度，所述至少一个关键词的相应文本信息包括该至少一个关键词在文本信息中的上下文；置信度调整模块，被配置为，若所述至少一个音素与至少一个关键词的相应文本信息的发音相似度达到一个阈值，则提高该发音相似度达到阈值的关键词的置信度。

图6所示的各实施例之间可以彼此参照、结合，得到更多的实施例。并且，上述装置实施例中的实现细节可以参照图4所示的实施例。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据处理方法，所述方法包括：

获取展示内容对应的文本信息，所述展示内容包括多个区域；

对所述文本信息进行文本分析，得到第一关键词序列，所述第一关键词序列包括与所述多个区域中至少一个区域关联的区域关键词；

获取与所述展示内容相关的语音信息，所述语音信息至少包括当前语音片断；

使用第一模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的区域，其中所述第一模型网络包括所述第一关键词序列。

2.根据权利要求1所述的方法，所述使用所述第一模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的区域，包括：

得到所述第一关键词序列中至少一个区域关键词的置信度，其中与所述当前语音片断的相似度越高的区域关键词的置信度越大；

若第一条件满足，则确定所述当前语音片断所对应的区域为所述第一条件中涉及的区域关键词所关联的区域；

其中所述第一条件包括以下至少之一：

一个区域关键词的置信度达到第一阈值；

与同一区域关联的多个区域关键词的置信度均达到第二阈值；

与同一区域关联的多个区域关键词的置信度的和达到第三阈值。

3.根据权利要求2所述的方法，

所述第一模型网络进一步包括第一音素序列；

所述使用所述第一模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的区域，进一步包括：

根据所述第一音素序列，得到与所述当前语音片断相邻的至少一个音素；

判断所述至少一个音素与所述至少一个区域关键词的相应文本信息的发音相似度，所述至少一个区域关键词的相应文本信息包括该至少一个区域关键词在所述文本信息中的上下文；

若所述至少一个音素与至少一个区域关键词的相应文本信息的发音相似度达到第四阈值，则提高该发音相似度达到第四阈值的区域关键词的置信度。

4.根据权利要求2所述的方法，

所述方法进一步包括：得到多个第二关键词序列，所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，且至少一个所述第二关键词序列包括至少一个关键词；得到所述第二关键词序列中至少一个第二关键词序列的至少一个关键词的置信度，其中与所述当前语音片断的相似度越高的关键词的置信度越大；

所述若第一条件满足，则确定所述当前语音片断所对应的区域为所述第一条件中涉及的区域关键词所关联的区域，包括：若第一条件满足且第二条件也满足，则确定所述当前语音片断所对应的区域为所述第一条件涉及的区域关键词所关联的区域，且将所述当前语音片断所对应的区域作为当前区域；

其中，所述第二条件包括：当前区域所对应的第二关键词序列的置信度小于第五阈值，所述当前区域所对应的第二关键词序列的置信度根据所述当前区域所对应的第二关键词序列中所包括的关键词的置信度得到。

5.根据权利要求2所述的方法，

所述方法进一步包括：得到多个第二关键词序列，所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，且至少一个所述第二关键词序列包括至少一个关键词；使用第二模型网络对所述语音片断进行分析，所述第二模型网络包括所述第二关键词序列以及第二音素序列；

所述若第一条件满足，则确定所述当前语音片断所对应的区域为所述第一条件中涉及的区域关键词所关联的区域，包括：若第一条件满足且第三条件也满足，则确定所述当前语音片断所对应的区域为所述第一条件涉及的区域关键词所关联的区域；

其中，所述第三条件包括：在使用所述第二模型网络对所述当前语音片断进行分析时，根据所述第二音素序列得到输出的次数达到第六阈值。

6.根据权利要求1所述的方法，所述方法进一步包括：

得到多个第二关键词序列，所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，且至少一个所述第二关键词序列包括至少一个关键词；

使用第二模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的关键词，所述第二模型网络包括所述第二关键词序列。

7.根据权利要求6所述的方法，所述使用所述第二模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的关键词，包括：

得到所述第二关键词序列中至少一个关键词的置信度，其中与所述当前语音片断的相似度越高的关键词的置信度越大；

若至少一个关键词的置信度达到第七阈值，则确定所述当前语音片断所对应的关键词为该置信度达到第七阈值的关键词。

8.根据权利要求7所述的方法，

所述第二模型网络进一步包括第二音素序列；

所述使用所述第二模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的关键词，包括：

根据所述第二音素序列，得到与所述当前语音片断相邻的至少一个音素；

判断所述至少一个音素与所述至少一个关键词的相应文本信息的发音相似度，所述至少一个关键词的相应文本信息包括该至少一个关键词在文本信息中的上下文；

若所述至少一个音素与至少一个关键词的相应文本信息的发音相似度达到第八阈值，则提高该发音相似度达到第八阈值的关键词的置信度。

9.根据权利要求7所述的方法，

所述第二模型网络进一步包括第二音素序列；

所述若至少一个关键词的置信度达到第七阈值，则确定所述当前语音片断所对应的关键词为该置信度达到第七阈值的关键词，包括：

若至少一个关键词的置信度达到第七阈值，则确定该置信度达到第七阈值的关键词为候选关键词；

判断所述至少一个音素与该候选关键词的相应文本信息的发音相似度，所述候选关键词的相应文本信息包括所述候选关键词在文本信息中的上下文；

若所述至少一个音素与所述候选关键词的相应文本信息中的一个的发音相似度达到第九阈值，则确定所述当前语音片断所对应的关键词为以该发音相似度达到第九阈值的文本信息为上下文的关键词。

10.一种展示方法，所述方法包括：

对所述文本信息进行文本分析，得到多个第二关键词序列，其中所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，至少一个所述第二关键词序列包括至少一个关键词；

得到所述第二关键词序列中至少一个第二关键词序列的至少一个关键词的置信度，其中与所述当前语音片断的相似度越高的关键词的置信度越大；

根据所述关键词的置信度，得到所述多个区域中当前区域所对应的第二关键词序列的置信度；

响应于所述当前区域所对应的第二关键词序列的置信度小于第十阈值，跳转离开所述当前区域。

11.根据权利要求10所述的方法，所述方法进一步包括：

得到第一关键词序列，所述第一关键词序列包括与所述多个区域中至少一个区域关联的区域关键词；

根据所述第一关键词序列，得到所述第一关键词序列中至少一个区域关键词的置信度，其中与所述当前语音片断的相似度越高的区域关键词的置信度越大；

所述跳转离开所述当前区域包括：若第四条件满足，则跳转到与所述第四条件中涉及的区域关键词所关联的区域，并将与所述第四条件中涉及的区域关键词所关联的区域作为当前区域；

其中，所述第四条件包括以下至少之一：

一个区域关键词的置信度达到第十一阈值；

与同一区域关联的多个区域关键词的置信度均达到第十二阈值；

与同一区域关联的多个区域关键词的置信度的和达到第十三阈值。

12.根据权利要求10所述的方法，所述跳转离开所述当前区域包括：若第五条件满足，则跳转到与所述第五条件所涉及的第二关键词序列对应的区域，并将与所述第五条件中涉及的区域关键词所关联的区域作为当前区域；其中，所述第五条件包括：

至少一个第二关键词序列的置信度达到第十四阈值。

13.根据权利要求10所述的方法，所述方法进一步包括：

若至少一个关键词的置信度达到第十五阈值，则确定所述当前语音片断所对应的关键词为该置信度达到第十五阈值的关键词；

在所述展示内容中标注该置信度达到第十五阈值的关键词。

14.根据权利要求10至13中任一项所述的方法，所述方法进一步包括：

根据第二音素序列，得到与所述当前语音片断相邻的至少一个音素；

判断所述至少一个音素与所述至少一个关键词的相应文本信息的发音相似度，所述至少一个关键词的相应文本信息包括该至少一个关键词在所述文本信息中的上下文；

若所述至少一个音素与至少一个关键词的相应文本信息的发音相似度达到第十六阈值，则提高该发音相似度达到第十六阈值的关键词的置信度。

15.一种用于数据处理的装置，所述装置包括：

文本获取模块，被配置为获取展示内容对应的文本信息，其中所述展示内容包括多个区域；

文本分析模块，被配置为对所述文本信息进行文本分析，得到第一关键词序列，所述第一关键词序列包括与所述多个区域中至少一个区域关联的区域关键词；

语音获取模块，被配置为获取与所述展示内容相关的语音信息，所述语音信息至少包括当前语音片断；

第一语音分析模块，被配置为使用第一模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的区域，其中所述第一模型网络包括所述第一关键词序列。

16.根据权利要求15所述的装置，所述第一语音分析模块包括：

第一置信度子模块，被配置为得到所述第一关键词序列中至少一个区域关键词的置信度，其中，与所述当前语音片断的相似度越高的区域关键词的置信度越大；

区域确定子模块，被配置为若第六条件满足，则确定所述当前语音片断所对应的区域为所述第六条件中涉及的区域关键词所关联的区域；

其中，所述第六条件包括以下至少之一：

一个区域关键词的置信度达到第十七阈值；

与同一区域关联的多个区域关键词的置信度均达到第十八阈值；

与同一区域关联的多个区域关键词的置信度的和达到第十九阈值。

17.根据权利要求16所述的装置，

所述第一模型网络进一步包括第一音素序列；

所述第一语音分析模块进一步包括：

第一音素子模块，被配置为根据所述第一音素序列，得到与所述当前语音片断相邻的至少一个音素；

第一相似度判断子模块，被配置为判断所述至少一个音素与所述至少一个区域关键词的相应文本信息的发音相似度，所述至少一个区域关键词的相应文本信息包括该至少一个区域关键词在文本信息中的上下文；

第一调整子模块，被配置为若所述至少一个音素与至少一个区域关键词的相应文本信息的发音相似度达到第二十阈值，则提高该发音相似度达到第二十阈值的区域关键词的置信度。

18.根据权利要求15所述的装置，所述装置进一步包括：

关键词模块，被配置为得到多个第二关键词序列，其中，所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，且至少一个所述第二关键词序列包括至少一个关键词；

第二语音分析模块，被配置为使用第二模型网络对所述当前语音片断进行分析，以判断所述当前语音片断所对应的关键词，所述第二模型网络包括所述第二关键词序列。

19.根据权利要求18所述的装置，

所述第二模型网络进一步包括第二音素序列；

所述第二语音分析模块包括：

第二音素子模块，被配置为根据所述第二音素序列，得到与所述当前语音片断相邻的至少一个音素；

第二置信度子模块，被配置为得到所述第二关键词序列中至少一个关键词的置信度，其中与所述当前语音片断的相似度越高的关键词的置信度越大；

候选判断子模块，被配置为若至少一个关键词的置信度达到第二十一阈值，则确定该置信度达到第二十一阈值的关键词为候选关键词；

第二相似度判断子模块，被配置为判断所述至少一个音素与该候选关键词的相应文本信息的发音相似度，所述候选关键词的相应文本信息包括该候选关键词在所述文本信息中的上下文；

关键词确定子模块，被配置为若所述至少一个音素与该候选关键词的相应文本信息中的一个的发音相似度达到第二十二阈值，则确定所述当前语音片断所对应的关键词为以该发音相似度达到第二十二阈值的文本信息为上下文的关键词。

20.一种用于展示的装置，所述装置包括：

文本获取模块，被配置为获取展示内容对应的文本信息，其中，所述展示内容包括多个区域；

文本分析模块，被配置为对所述文本信息进行文本分析，得到多个第二关键词序列，其中所述第二关键词序列中至少一个第二关键词序列与所述多个区域中至少一个区域对应，至少一个所述第二关键词序列包括至少一个关键词；

第一置信度模块，被配置为得到所述第二关键词序列中至少一个第二关键词序列的至少一个关键词的置信度，其中与所述当前语音片断的相似度越高的关键词的置信度越大；

第二置信度模块，被配置为根据所述关键词的置信度，得到所述多个区域中当前区域所对应的第二关键词序列的置信度；

跳转模块，被配置为响应于所述当前区域所对应的第二关键词序列的置信度小于第二十三阈值，跳转离开所述当前区域。