CN108536654A

CN108536654A - 识别文本展示方法及装置

Info

Publication number: CN108536654A
Application number: CN201810330612.5A
Authority: CN
Inventors: 胡尹
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-09-14
Anticipated expiration: 2038-04-13
Also published as: CN108536654B

Abstract

本发明实施例提供一种识别文本展示方法及装置，属于语音识别和自然语言处理技术领域。方法包括：获取识别文本中每一分词的分类特征；将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识别文本中文本内容的同时，还可以通过展示方式来体现分词在识别文本中的重要程度和/或在识别文本中的异常情况，从而承载发言人发言时的情感色彩和/或发言时的语义。因此，满足了发言人个性化展示其发言的需求。

Description

识别文本展示方法及装置

技术领域

本发明实施例涉及语音识别和自然语言处理技术领域，更具体地，涉及一种识别文本展示方法及装置。

背景技术

近年来，随着语音技术的飞速发展，语音识别技术凭借其智能、高效和人性化的优势，被广泛应用于生产、生活的各个领域，越来越受到大众的欢迎。

目前的语音识别技术，其目标是将语音数据转换为文本进行展示，一般通篇采用同一种格式，形式显得单一刻板。通过现有技术获取的识别文本，仅通过固定的展现形式，无法直观地为用户展现语音数据的关键信息，缺乏针对语音数据的个性化展示形式。因此，如何对识别文本进行个性化展示，仍是目前业界亟待解决的课题。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的一种识别文本展示方法及装置。

根据本发明实施例的第一方面，提供了一种识别文本展示方法，该方法包括：

获取识别文本中每一分词的分类特征，识别文本是对语音数据进行语音识别后得到的；

将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；

根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。

本发明实施例提供的方法，通过获取识别文本中每一分词的分类特征，将每一分词的分类特征输入至分类模型，输出每一分词的分类标记。根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识别文本中文本内容的同时，还可以通过展示方式来体现分词在识别文本中的重要程度和/或在识别文本中的异常情况，从而承载发言人发言时的情感色彩和/或发言时的语义。因此，满足了发言人个性化展示其发言的需求。

根据本发明实施例的第二方面，提供了一种识别文本展示装置，该装置包括：

特征获取单元，用于获取识别文本中每一分词的分类特征，识别文本是对语音数据进行语音识别后得到的；

分类获取单元，用于将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；

展示单元，用于根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。

根据本发明实施例的第三方面，提供了一种识别文本展示设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的识别文本展示方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的识别文本展示方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种识别文本展示方法的流程示意图；

图2为本发明实施例的一种识别文本展示装置的框图；

图3为本发明实施例的一种识别文本展示设备的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

目前在对语音识别结果进行展示时，通常是对语音数据进行语音识别，再采用固定的形式直接对识别文本进行展示。由于采用固定的形式对识别文本进行展示，从而导致展示形式较为单一。而人在发言时，除了发言的内容之外，发言的声音可能会带有情感色彩，发言的内容中可能会有一些特定语义。因此，目前存在基于上述因素，对识别文本进行个性化展示的需求。基于该需求，本发明实施例提供了一种识别文本展示方法，该方法可以用于语音识别场景，也可以用于需要用到语音识别的其它场景，如直播时的字幕显示，本发明实施例对此不作具体限定。参见图1，该方法包括：

101，获取识别文本中每一分词的分类特征，识别文本是对语音数据进行语音识别后得到的。

在执行步骤101之前，可先获取语音数据，如通过会议录音、采访录音获取语音数据。在获取到语音数据后，可对语音数据进行识别得到识别文本。由于获取到的语音数据可能是包含多位发言人的发言，从而在执行步骤101之前，可先对语音数据进行端点检测，分别确定多个语音段的起始点和结束点。根据每一语音段的起始点和结束点，即可得到多个语音段。其中，每一语音段即对应一位发言人的一次发言，后续可将每一语音段作为语音识别的处理对象。为了便于说明，以语音数据不包含多位发言人的发言，而是包含一位发言人的一次发言为例，可先对该语音数据进行特征提取，如提取MFCC(Mel FrequencyCepstrum Coefficient，MFCC)特征；再利用提到的特征及预先训练的声学模型和语言模型进行解码操作；最后根据解码结果得到该语音数据对应的识别文本。

在上述步骤101中，分类特征可以用于表征识别文本中分词在语音上的感情色彩和/或文本内容上的语义。例如，对于任一分词，若分类特征用于表征语音的感情色彩，则该分词的分类特征可以包括语音数据的强度等信息；若分类特征用于表征文本内容的语义，则该分词的分类特征可包括该分词的词性等信息。基于上述内容，在获取识别文本中分词的分类特征时，可通过语音数据分析和/或分词语义解析的方式获取，本发明实施例对此不作具体限定。

在获取识别文本中分词的分类特征时，可以是以识别文本中分词的前后文语义作为依据，也可以是以分词在语音数据中对应的语音段的音高、音强、音长或音色等语音要素作为依据，还可以是两种依据相互结合，本发明实施例对此不作具体限定。

102，将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况。

在步骤102中，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况。对于任一分词，关于该分词对应的分类标记的类型及数量，本发明实施例对此不作具体限定。例如，该分词可以只具有表示分词在识别文本中重要程度的分类标记，或者只具有表示分词在识别文本中异常情况的分类标记，又或者两者同时具有。另外，分类标记可通过字符串表示，如中文词语，也可以为单个字符表示，如数字，本发明实施例对此也不作具体限定。

以分类标记通过字符串表示为例，若分类标记用于表示分词在识别文本中的重要程度，则分类标记可分别为“普通”、“强调”或“特别强调”等。其中，“普通”表示分词在识别文本中的重要程度最低； “强调”表示分词在识别文本中的重要程度较高；“特别强调”表示分词在识别文本中的重要程度最高。

若分类标记用于表示分词在识别文本中的异常情况，则分类标记可分别为“正常”、“异常”或“严重异常”等。其中，“正常”表示分词本身无误且与符合识别文本中的语境；“异常”表示分词本身有可能存在错误或不符合识别文本中的语境；“严重异常”表示分词本身可能存在错误或不符合识别文本中的语境，且这种可能性较高。

需要说明的是，由上述内容可知，本发明实施例不对识别文本中的任一分词其分类标记的类型及数量作具体限定。结合上述内容，该分词的分类标记可以仅为“普通”，或者仅为“异常”，或者同时具有“普通”、“正常”这两种分类标记。

另外，本发明实施例不对分类模型的训练方式作具体限定，具体可通过如下方式训练得到：首先，收集大量样本语音数据，并对样本语音数据进行语音识别，得到样本识别文本。接着，获取样本识别文本中每一分词的样本分类特征，并提前标注样本识别文本中每一分词的分类标记。最后，基于样本识别文本中每一分词的分类标记以及样本识别文本中每一分词的样本分类特征对初始模型进行训练，从而得到分类模型。其中，初始模型优选为深度学习模型，如长短期记忆网络模型或双向长短期记忆网络模型，本发明实施例不对初始模型的类型作具体限定。

103，根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。

由上述步骤102的内容可知，分类标记的类型以及具体表示的含义是确定的。为了便于根据分类标记确定分词的展示方式，可预先建立分类标记与展示方式的对应关系，从而在本步骤中可基于预先确定的对应关系以及每一分词的分类标记，来确定每一分词的展示方式。在确定每一分词的展示方式后，即可基于每一分词的展示方式对识别文本中每一分词进行展示。

例如，通过加粗字体以展示分类标记为“强调”的分词，通过加粗并增大字号以展示分类标记为“特别强调”的分词。又例如，通过将字体颜色设置为红色以展示分类标记为“异常”的分词，通过将字体颜色设置为红色并在分词上增加删除线以展示分类标记为“严重异常”的分词。

由上述实施例的内容可知，分类特征可以用于表征识别文本中分词在语音上的感情色彩和/或文本内容上的语义。基于上述实施例的内容，作为一种可选实施例，分类特征包括声学分类特征和/或语义分类特征。

其中，声学分类特征是指基于语音数据获取的，且可用于表征发言人发言时的个性化特征。具体地，发言人发言时的个性化特征可以为发言人发言时的语气或语调，也可以为发言人发言时的语速或前后停顿时长，本发明实施例对此不作具体限定。以发言人发言时的前后停顿时长为例，若发言人的发言中某分词在语音数据中的前后停顿时间较长，则说明发言人可能希望通过停顿以强调该分词。通过将分词在语音数据中的前后停顿时长作为该分词的声学分类特征，可以用于表征发言人强调该分词的意图，以体现该分词的重要程度，并后续可体现至该分词的展示方式上。

语义分类特征是指根据识别文本获取的，且用于表征识别文本中分词在发言人发言中的语义及语境特征和/或分词在识别文本中的上下文特征。以分词在发言人发言中的语义为例，由于从语义角度上，发言人在发言时通常会有确定的主题，从而发言人的发言中有些分词会是关键词。若提前将识别文本中为关键词的分词进行标识，并将关键词表示作为该分词的语义分类特征，则可凸显发言人发言时的主题，并后续可体现至该分词的展示方式上。

本发明实施例提供的方法，由于分类特征可包括声学分类特征和/ 或语义分类特征，在表征分词在语音上的感情色彩的同时，还可表征分词在文本内容上的语义，从而后续可更加准确地获取分类标记。另外，后续对分词进行展示时，展示方式能够更好地承载发言时的感情色彩和/或语义，从而进一步满足了发言人个性化展示其发言的需求。

基于上述实施例的内容，作为一种可选实施例，对于识别文本中的任一分词，该分词的声学分类特征至少包括以下四种信息中的任意一种，以下四种信息分别为该分词在语音数据中对应的语音段能量、该分词在语音数据中对应的语音段时长，该分词对应的语音段与该分词的前一个分词对应的语音段之间的时间间隔、该分词对应的语音段与该分词的后一个分词对应的语音段之间的时间间隔。

其中，语音段能量的高低能够在一定程度上反映用户在讲该分词时的声强、响度和音高等特征。通常，发言人会通过提高声音或者加重语气来提示听众注意当前的发言内容，从而可将语音能量作为分词的声学分类特征，以作为后续确定分词在识别文本中的重要程度(即分类标记)的依据。

语音段能量的获取方法有多种，例如根据任一分词的识别边界获取该识别边界对应的语音段内的声学特征，并利用上述声学特征计算该分词在语音数据中对应的语音段的能量。其中，和分别为分词w_i在语音数据中对应的语音段的起始时间和结束时间。此处，可以通过filter bank提取语音段内的声学特征，但不限于此。

语音段时长是指分词对应的的语音数据中的语音段的时间长度。例如分词w_i的识别边界为则分词w_i的语音段时长为通常，发言人在讲述关键内容或者能够引起听众共鸣和互动的内容时，会放慢语速，在讲述非重要内容或者和前述内容重复的内容时，会加快语速。此外，发言人在加快语速讲述的情况下，出现口误的概率也高于放慢语速讲述的情况，从而可将语音段时长作为分词的声学分类特征，以作为后续确定分词在识别文本中的重要程度和/或异常情况(即分类标记)的依据。

当任一分词w_i的识别边界为该分词的前一个分词w_i-1的识别边界为该分词w_i的后一个分词w_i+1的识别边界为时，该分词w_i对应的语音段与w_i的前一个分词w_i-1对应的语音段之间的时间间隔为任一分词w_i对应的语音段与w_i的后一个分词w_i+1对应的语音段之间的时间间隔为通常在发言过程中，发言人会通过分词间的停顿来强调分词表达的内容，或者通过分词间的停顿指示发言内容的转折。此外，任一分词对应的语音段与该分词的前一个分词和/或后一个分词对应的语音段之间的时间间隔较长，可能是由于发言人在发言过程中存在口误，导致了发言内容的不连贯，从而，可将任一分词对应的语音段与前一个分词和/或后一个分词对应的语音段之间的时间间隔作为该分词的声学分类特征，以作为后续确定分词在识别文本中的重要程度和/或异常情况(即分类标记)的依据。

基于上述实施例的内容，作为一种可选实施例，一种识别文本展示方法，任一分词的语义分类特征至少包括以下八种信息中的任意一种，八种信息分别为该分词的词向量、该分词的情感极性、该分词的词性、高分词在识别文本中出现的频率、该分词的关键词标识、该分词在文档分页对应的文本中出现的频率、该分词在文档分页中的显示字体大小，以及该分词的特殊符号标识；其中，文档分页对应的文本包含识别文本对应的文本内容。

其中，词向量，即分词对应的向量表示，通常用于自然语言处理领域。词向量可以根据预先生成的词向量表查表获取，也可以通过 word2vec等现有的词训练模型获取，并不限于此。本发明实施例中，由于词向量表达了识别文本中分词的语义，可将词向量作为分词的语义分类特征，以作为后续确定分词在识别文本中的重要程度和/或异常情况(即分类标记)的依据。

情感极性是通过分析识别文本，获取的语音数据所表达的情感信息。任一分词的情感极性是指该分词所在识别文本中分句的情感极性。通常，情感极性可以分为正向、中性和负向三种，并存在多种表示方式，例如通过“1”、“0”和“-1”对应表示正向、中性和负向，本发明实施例对此不作具体限定。

情感极性的获取方法有多种，例如基于情感词典、否定词典、程度副词词典和停用词典等对识别文本中每一语句中的每一分词进行打分，并计算每一语句中分词的分数之和，根据每一语句中分词的分数之和获取每一语句的情感极性；又例如基于情感词典、否定词典、程度副词词典和停用词典等提取识别文本每一语句中的情感词特征，并输入预先构建的情感极性分类模型，对每一语句进行情感极性预测，并根据情感极性分类模型输出的结果获取每一语句的情感极性，对此本发明实施例不作具体限定。通常，发言人在发言过程中，会将感情色彩融入表述用词，以便于向听众展示自身的主观意见，因而，可将情感极性作为语义分类特征，以作为后续确定分词在识别文本中的重要程度(即分类标记)的依据。

词性为以词的特点作为划分词类的根据，例如现代汉语共分为两类14中词性，一类是实词，包括名词、动词、形容词、区别词、代词、数词和量词，另一类是虚词，包括词、介词、连词、助词、语气词、拟声词和叹词。词性可以通过现有的分词工具直接获取，但不限于此。在识别文本中，不同词性的同一分词可能包含不同的语义，表征不同的情感。例如，语句A“这部电影真垃圾”中分词“垃圾”词性是形容词，语句B“垃圾分类”中分词“垃圾”是名词，语句A中分词“垃圾”表现强烈的贬义，语句B中分词“垃圾”表示中性，因而，可将词性作为语义分类特征，以作为后续确定分词在识别文本中的重要程度(即分类标记)的依据。

通常发言人在发言过程中频繁使用的词语可能是发言内容的主题或者发言强调的重点，因而，任一分词在识别文本中出现的频率在一定程度上表征了该分词在语音数据中的重要程度，可将该分词在识别文本中出现的频率作为语义分类特征，以作为后续确定分词在识别文本中的重要程度(即分类标记)的依据。需要说明的是，若识别文本中任一分词为停用词，则将该分词在识别文本中出现的频率设置为0。其中，停用词是指在处理自然语言数据之前或之后会自动过滤掉某些无意义字或词。

分词的关键词标识为用于指示该分词是否为关键词的标识。可以通过预先设定的关键词表，判断识别文本中任一分词是否为关键词，并对应设置该分词的关键词标识。此处的关键词表可以包含语音数据的主题或者重要程度较高的分词，还可以包含任意需要提示听众注意的分词，且不限于此。例如，语音数据的主题是手机，语音数据中提及的手机厂商均可列入关键词表。任一分词的关键词标识在一定程度上表征了该分词在语音数据中的重要程度，因而，可将关键词标识作为语义分类特征，以作为后续确定分词在识别文本中的重要程度(即分类标记)的依据。

分词在文档分页对应的文本中出现的频率，和/或分词在文档分页中的显示字体大小，同样在一定程度上表征了该分词在语音数据中的重要程度。此处的文档分页指发言人在发言过程中讲述内容对应的文档页面，例如发言人在对照ppt发言时，语音数据对应的ppt分页即文档分页，又例如发言人在对照演讲稿发言人，语音数据对应的演讲稿分页即文档分页。本发明实施例中，可以通过光学字符识别(Optical Character Recognition，OCR)技术实现对任一分词在文档分页对应的文本中出现的频率和/或在文档分页中显示字体大小的提取。

通常，在文档中频繁出现的分词和/或字体较大的分词，均可能是文档中重要程度较高的分词，因而，可将分词在文档分页对应的文本中出现的频率，和/或分词在文档分页中的显示字体大小作为语义分类特征，以作为后续确定分词在识别文本中的重要程度(即分类标记) 的依据

特殊符号标识是用于指示该分词是否为特殊符号的标识。此处的特殊符号包括数字、公式和数字符号等，例如“第1名”。可将特殊符号标识作为语义分类特征，以作为后续确定分词在识别文本中的重要程度(即分类标记)的依据。

本发明实施例中，从语音数据的语气、语速和停顿，以及识别文本的语义、感情色彩、重要程度和出现频率等多个角度提取声学和/或语义分类特征，以作为后续确定分词在识别文本中的重要程度和/或异常情况(即分类标记)的依据从而后续可更加准确地获取分类标记。

基于上述实施例的内容，作为一种可选实施例，一种识别文本展示方法，将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，包括：对于识别文本中的任一分词，将该分词的分类特征输入至所述分类模型，输出该分词的分类标记；或者，将该分词的分类特征、该分词的前一个分词对应的分类特征和该分词的后一个分词对应的分类特征同时输入至分类模型，输出该分词的分类标记。

具体地，此处的分类模型为预先训练好的，以识别文本中任一分词的分类特征为输入，或以识别文本中任一分词的分类特征、该分词的前一个分词的分类特征和该分词的后一个分词的分类特征为输入，对该分词进行分类并输出对应的分类标记的模型。需要说明的是，将识别文本中任一分词的分类特征、该分词的前一个分词的分类特征和该分词的后一个分词的分类特征输入分类模型的分类方法，相比仅将该分词的分类特征输入分类模型的分类方法，在将该分词的分类特征作为分类依据的基础上，还将该分词的上下文语义作为分类依据，使得分类模型输出的该分词的分类标记能够更加准确地表示该分词在识别文本中的重要程度和/或异常情况。此处，分类模型优选为深度学习模型，例如长短期记忆网络和双向长短期记忆网络，本发明实施例不对分类模型的类型作具体限定。

另外，本发明实施例不对分类模型的训练方式作具体限定，具体可通过如下方式训练得到：首先，收集大量样本语音数据，并对样本语音数据进行语音识别，得到样本识别文本。接着，获取样本识别文本中每一分词的样本分类特征，并提前标注样本识别文本中每一分词的分类标记。最后，基于样本识别文本中每一分词与该分词的前一个分词和后一个分词各自的分类标记，以及样本识别文本中每一分词与该分词的前一个分词和后一个分词各自的样本分类特征，对初始模型进行训练，从而得到分类模型。

本发明实施例中，通过分类模型获取任一分词的分类标记，为根据分类标记确定该分词的展示方式，进而实现识别文本的个性化展示提供了条件。

考虑到识别文本中一些分词的表达形式可能不太符合用户的阅读习惯，和/或识别文本中未能预先添加标点，这会降低识别文本的易读性。基于上述实施例的内容，作为一种可选实施例，一种识别文本展示方法，基于每一分词的展示方式对识别文本中每一分词进行展示之前，还包括：基于预设表达规则，对识别文本中分词的表达形式进行规整；和/或，获取识别文本中相邻分词之间的标点添加概率，若标点添加概率大于预设阈值，则在相邻分词之间添加标点。

在上述第一种处理方式中，预设表达规则指代的是符合日常表达习惯的词语表达形式。例如，由于在日常生活中，手机号、商品价格、身份证号等用数字表示能够更加便于人们阅读，从而预设表达规则可以具体地为“手机号、商品价格、身份证号等用数字表示而非用汉字表示”。当识别文本中出现内容为数字且用汉字表示的分词时，可按照预设表达规则，对识别文本中分词的表达形式进行规整。例如，十九点五元，按照预设表达规则可表示为19.5元。

需要说明的是，预设表达规则不限于上述示例，还可以为“公式相关的内容用公式表达而非用汉字表达”，本发明实施例对此不作具体限定。例如，“三X加二Y等于十”实则为一个公式，按照预设表达规则可表示为3X+2Y＝10。

在基于预设表达规则对识别文本中分词的表达形式进行规整时，可先从大量语料中整理总结出预设表达规则。基于ABNF文法规则为每一种预设表达规则编写匹配策略，根据匹配策略即可从识别文本中匹配出需要规整的分词。在确定识别文本中需要规整的分词后，可根据每一种预设表达规则建立相应的处理函数，以用于规整识别文本。其中，预设表达规则对应的规整目标类型可以为表示数量大小的数值 (如商品价格、商品数目等)、不分数量大小的字符串(如手机号、身份证号、银行卡号等)、用于特征场景的数字表达式(如日期、时间、数学公式等)等，本发明实施例对此不作具体限定。在上述第二种处理方式中，根据识别文本中相邻分词之间的标点添加概率，在相邻分词之间添加标点。相邻分词之间的标点添加概率可以通过条件随机场获取。其中，条件随机场(conditionalrandom fields，CRF)，是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。作为优选，在设置标点添加概率的阈值时，为提高标点添加的准确率，可以减小在语音段间添加标点的阈值，加大在语音段中相邻分词间添加标点的阈值，从而增加在语音段间添加标点的可能性，降低在语音段中添加标点的可能性。

本发明实施例中，通过规整表达形式和/或添加标点对识别文本进行了预处理，有助于提高识别文本的易读性，优化用户体验感。

需要说明的是，上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

为了更好地理解与应用本发明提出的识别文本展示方法，现结合上述实施例的内容，本发明以如下示例对识别文本的展示过程进行解释说明，具体阐述如下：

首先，对语音数据进行语音识别，获取如下识别文本：二零一七年是人工智能发展史上既有里程碑意义的一年不仅AI技术和算法得到了快速发展人工智能更是上升为重要项目。

其次，对识别文本中分词的表达形式进行规整，将“二零一七年” 转换为“2017年”，并在相邻分词之间添加标点。经过预处理后的识别文本如下：2017年是人工智能发展史上既有里程碑意义的一年，不仅 AI技术和算法得到了快速发展，人工智能更是上升为重要项目。

随后，获取上述识别文本中每一分词的分类特征，并根据分类模型，对应获取每一分词的分类标记。此处，预设的分类标记包括“普通”、“强调”和“异常”。识别文本中，分词“既有”的分类标记为 “异常”，分词“人工智能”和“重要项目”的分类标记为“强调”，其余分词的分类标记为“普通”。

根据分类标记对应的展示方式，确定每一分词的展示方式。此处，预设“普通”的展示方式为仿宋四号，“强调”的展示方式为黑体加粗三号，“异常”的展示方式为仿宋删除线四号。据此，识别文本根据如下展示方式进行展示：

2017年是人工智能发展史上既有里程碑意义的一年，不仅AI技术和算法得到了快速发展，人工智能更是上升为重要项目。

本发明实施例中，通过获取识别文本中每一分词的分类特征，将每一分词的分类特征输入至分类模型，输出每一分词的分类标记。根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识别文本中文本内容的同时，还可以通过展示方式来体现分词在识别文本中的重要程度和/或在识别文本中的异常情况，从而承载发言人发言时的情感色彩和/或发言时的语义。因此，满足了发言人个性化展示其发言的需求。

基于上述实施例的内容，本发明实施例提供了一种识别文本展示装置，该识别文本展示装置用于执行上述方法实施例中提供的识别文本展示方法。参见图2，该装置包括：

特征获取单元201，用于获取识别文本中每一分词的分类特征，识别文本是对语音数据进行语音识别后得到的；

分类获取单元202，用于将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；

展示单元203，用于根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。

作为一种可选实施例，一种识别文本展示装置，分类特征包括声学分类特征和/或语义分类特征。

作为一种可选实施例，一种识别文本展示装置，对于识别文本中的任一分词，任一分词的声学分类特征至少包括以下四种信息中的任意一种，四种信息分别为该分词在语音数据中对应的语音段能量、该分词在语音数据中对应的语音段时长、该分词在语音数据中对应的语音段与该分词的前一个分词在语音数据中对应的语音段之间的时间间隔，以及该分词在语音数据中对应的语音段与该分词的后一个分词在语音数据中对应的语音段之间的时间间隔；

任一分词的语义分类特征至少包括以下八种信息中的任意一种，八种信息分别为该分词的词向量、该分词的情感极性、该分词的词性、该分词在识别文本中出现的频率、该分词的关键词标识、该分词在文档分页对应的文本中出现的频率、该分词在文档分页中的显示字体大小，以及该分词的特殊符号标识；其中，文档分页对应的文本包含识别文本对应的文本内容。

作为一种可选实施例，一种识别文本展示装置，分类获取单元用于：对于识别文本中的任一分词，将该分词的分类特征、该分词的前一个分词对应的分类特征和该分词的后一个分词对应的分类特征同时输入至分类模型，输出该分词的分类标记。

作为一种可选实施例，一种识别文本展示装置，还包括预处理单元；预处理单元用于：

基于预设表达规则，对识别文本中分词的表达形式进行规整；和/ 或，

获取识别文本中相邻分词之间的标点添加概率，若标点添加概率大于预设阈值，则在相邻分词之间添加标点。

本发明实施例提供的装置，通过获取识别文本中每一分词的分类特征，将每一分词的分类特征输入至分类模型，输出每一分词的分类标记。根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识别文本中文本内容的同时，还可以通过展示方式来体现分词在识别文本中的重要程度和/或在识别文本中的异常情况，从而承载发言人发言时的情感色彩和/或发言时的语义。因此，满足了发言人个性化展示其发言的需求。

其次，由于分类特征可包括声学分类特征和/或语义分类特征，在表征分词在语音上的感情色彩的同时，还可表征分词在文本内容上的语义，从而后续可更加准确地获取分类标记。另外，后续对分词进行展示时，展示方式能够更好地承载发言时的感情色彩和/或语义，从而进一步满足了发言人个性化展示其发言的需求。

再次，从语音数据的语气、语速和停顿，以及识别文本的语义、感情色彩、重要程度和出现频率等多个角度提取声学和/或语义分类特征，以作为后续确定分词在识别文本中的重要程度和/或异常情况(即分类标记)的依据从而后续可更加准确地获取分类标记。

从次，通过分类模型获取任一分词的分类标记，为根据分类标记确定该分词的展示方式，进而实现识别文本的个性化展示提供了条件。

另外，通过规整表达形式和/或添加标点对识别文本进行了预处理，有助于提高识别文本的易读性，优化用户体验感。

本发明实施例提供了一种识别文本展示设备。参见图3，该设备包括：处理器(processor)301、存储器(memory)302和总线303；

其中，处理器301及存储器302分别通过总线303完成相互间的通信；处理器301用于调用存储器302中的程序指令，以执行上述实施例所提供的识别文本展示方法，例如包括：获取识别文本中每一分词的分类特征，识别文本是对语音数据进行语音识别后得到的；将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的识别文本展示方法，例如包括：获取识别文本中每一分词的分类特征，识别文本是对语音数据进行语音识别后得到的；将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对识别文本中每一分词进行展示。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的识别文本展示设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种识别文本展示方法，其特征在于，包括：

获取识别文本中每一分词的分类特征，所述识别文本是对语音数据进行语音识别后得到的；

将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，所述分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；

根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对所述识别文本中每一分词进行展示。

2.根据权利要求1所述的方法，其特征在于，所述分类特征包括声学分类特征和/或语义分类特征。

3.根据权利要求2所述的方法，其特征在于，对于所述识别文本中的任一分词，所述任一分词的声学分类特征至少包括以下四种信息中的任意一种，所述四种信息分别为所述任一分词在所述语音数据中对应的语音段能量、所述任一分词在所述语音数据中对应的语音段时长、所述任一分词在语音数据中对应的语音段与所述任一分词的前一个分词在语音数据中对应的语音段之间的时间间隔，以及所述任一分词在语音数据中对应的语音段与所述任一分词的后一个分词在语音数据中对应的语音段之间的时间间隔；

所述任一分词的语义分类特征至少包括以下八种信息中的任意一种，所述八种信息分别为所述任一分词的词向量、所述任一分词的情感极性、所述任一分词的词性、所述任一分词在所述识别文本中出现的频率、所述任一分词的关键词标识、所述任一分词在文档分页对应的文本中出现的频率、所述任一分词在所述文档分页中的显示字体大小，以及所述任一分词的特殊符号标识；其中，所述文档分页对应的文本包含所述识别文本对应的文本内容。

4.根据权利要求1所述的方法，其特征在于，所述将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，包括：

对于所述识别文本中的任一分词，将所述任一分词的分类特征输入至所述分类模型，输出所述任一分词的分类标记；或者，

将所述任一分词的分类特征、所述任一分词的前一个分词对应的分类特征和所述任一分词的后一个分词对应的分类特征同时输入至所述分类模型，输出所述任一分词的分类标记。

5.根据权利要求1所述的方法，其特征在于，所述基于每一分词的展示方式对所述识别文本中每一分词进行展示之前，还包括：

基于预设表达规则，对所述识别文本中分词的表达形式进行规整；和/或，

获取所述识别文本中相邻分词之间的标点添加概率，若所述标点添加概率大于预设阈值，则在所述相邻分词之间添加标点。

6.一种识别文本展示装置，其特征在于，包括：

特征获取单元，用于获取识别文本中每一分词的分类特征，所述识别文本是对语音数据进行语音识别后得到的；

分类获取单元，用于将每一分词的分类特征输入至分类模型，输出每一分词的分类标记，所述分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况；

展示单元，用于根据每一分词的分类标记，确定每一分词的展示方式，并基于每一分词的展示方式对所述识别文本中每一分词进行展示。

7.根据权利要求6所述的装置，其特征在于，所述分类特征包括声学分类特征和/或语义分类特征。

8.根据权利要求7所述的装置，其特征在于，对于所述识别文本中的任一分词，所述任一分词的声学分类特征至少包括以下四种信息中的任意一种，所述四种信息分别为所述任一分词在所述语音数据中对应的语音段能量、所述任一分词在所述语音数据中对应的语音段时长、所述任一分词在语音数据中对应的语音段与所述任一分词的前一个分词在语音数据中对应的语音段之间的时间间隔，以及所述任一分词在语音数据中对应的语音段与所述任一分词的后一个分词在语音数据中对应的语音段之间的时间间隔；

9.一种识别文本展示设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。