CN114398463B

CN114398463B - 一种语音跟踪方法及装置、存储介质、电子设备

Info

Publication number: CN114398463B
Application number: CN202111653252.0A
Authority: CN
Inventors: 司马华鹏; 华冰涛; 汤毅平; 汪成
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-08-11
Anticipated expiration: 2041-12-30
Also published as: CN114398463A

Abstract

本申请提供了一种语音跟踪方法及装置、存储介质、电子设备。本申请具体采用排除无关文本—模糊定位—精确定位的语音跟踪方式，并进一步提出了纠错处理和相似度匹配的相关算法，以在实现准确语音识别的同时，提升了系统的响应速度。实现了实时跟进用户读取待跟踪文本位置的效果。解决了相关技术中在进行语音跟踪数据处理时不能兼顾数据处理速度和语音识别准确率的技术问题。

Description

一种语音跟踪方法及装置、存储介质、电子设备

技术领域

本申请涉及电子设备技术领域，具体而言，涉及一种语音跟踪方法及装置、存储介质、电子设备。

背景技术

在用户进行录播或直播的过程中需要电子设备辅助提示用户相关的目标文本，以实现提词功能的同时帮助用户顺利的进行相应的工作。通常提词功能可以通过独立的电子设备实现，也可以通过电子设备中以应用程序的形式实现。在用户使用提词功能的过程中，目标文本会实时显示在电子设备的屏幕上供用户浏览，同时电子设备会根据用户发言时的语音，在显示目标文本的过程中实时标记用户的当前发言位置，以便于用户获取下一刻所需的提示文本。进而在实现提词功能的同时进行语言跟踪。

目前，在实现语音跟踪时，电子设备内部进行数据处理时通常会减少模型的运用，以提高数据的处理速度。但基于非模型实现的语音跟踪会导致语音识别准确率降低，进而降低用户体验感。针对相关技术中，电子设备在工作过程中无法实现理想语音跟踪的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音跟踪方法及装置、存储介质、电子设备，以至少解决相关技术中无法实现理想语音跟踪的技术问题。

在本申请的一个实施例中，提出了一种语音跟踪方法，方法包括：对待跟踪文本进行文本预处理，待跟踪文本包括至少一个字符；利用第一预设公式对预处理后待跟踪文本中的每个字符进行概率计算；根据概率构建语言模型。语言模型为当前待跟踪文本对应的语言模型。识别用户输入的语音数据得到识别文本，对识别文本进行纠错处理，并根据语言模型判断识别文本是否与待跟踪文本关联。在识别文本与待跟踪文本关联的情况下，将识别文本与待跟踪文本进行第一相似度匹配，得到目标文本片段。依次按照从首端至末端的顺序将识别文本中的字符逐一与目标文本片段进行第二相似度匹配，得到每个字符在目标文本片段中的位置；将识别文本末端的字符对应在目标文本片段中的位置确定为实时跟踪位置。

在本申请的一个实施例中，对待跟踪文本进行文本预处理，待跟踪文本包括至少一个字符；包括：将待跟踪文本中特殊类型文本转换成标准形式文本，特殊类型文本包括数字和符号，标准形式文本是指使用正则表达式提取并处理后的文本；将待跟踪文本转换为拼音形式文本；设定预设字符窗口，预设字符窗口在待跟踪文本上滑动，并获取待跟踪字段，待跟踪字段为滑动窗口中的拼音形式文本，预设字符窗口用于对待跟踪文本中的每个字符进行概率计算；其中，多个连续预设字符窗口在待跟踪文本上滑动，连续预设字符窗口每次向后滑动一个字符。

在本申请的一个实施例中，对识别文本进行纠错处理，包括：统计数据文本中所有普通词汇出现频率，其中，数据文本为预先获取的文本数据；将频率作为每个普通词汇对应的第一权重值；构建专有词汇词汇表，设定每个专有词汇对应的第二权重值，其中，第二权重值大于第一权重值；根据普通词汇和专有词汇构建单词查找树，生成多个切分文本片段；利用第一权重值和第二权重值计算每个切分文本片段的概率，将概率最高的切分文本片段作为纠错处理完成的识别文本。

在本申请的一个实施例中，对识别文本进行纠错处理，还包括：获取不同拼音数据对应的等级，拼音数据是由不同人物的发音特征确定的，其中，每个等级对应有等级分值；对切分文本片段和专有词汇进行等级划分，得到当前等级以及对应的当前等级分值，将当前等级分值设定为第三权重值；获取切分文本片段和专有词汇之间的编辑距离；根据编辑距离和第三权重值得到相似度值。

在本申请的一个实施例中，在识别文本与待跟踪文本关联的情况下，将识别文本与待跟踪文本进行第一相似度匹配，得到目标文本片段；包括：将识别文本中两端字符与待跟踪文本中两端字符进行相似度匹配，判断相似度匹配是否成功，其中，两端字符为首端字符和末端字符；若匹配成功，即得到目标文本片段；若匹配失败，根据识别文本中两端字符的前一个单个字符与对应的待跟踪文本进行相似度匹配，再次判断相似度匹配是否成功；其中，若再次匹配失败则使用上一次匹配两端失败字符的前一个字符进行相似度匹配循环步骤；直至匹配成功，得到至少一个待跟踪文本片段；利用第二预设公式将至少一个待跟踪文本片段进行计算，即得到目标文本片段。

在本申请的一个实施例中，第二预设公式为：

其中，*(x)为识别文本字符个数；*sim(x,y)为待跟踪文本中字符与识别文本中字符相似个数，*phrase(x,y)为待跟踪文本与识别文本中片段相似个数。

在本申请的一个实施例中，依次按照从首端至末端的顺序将识别文本中的字符逐一与目标文本片段进行第二相似度匹配，包括：按照从首端至末端的顺序将识别文本中的字符逐一与目标文本片段中连续预设字符窗口中的字符进行匹配；判断识别文本中的当前字符是否匹配成功，若匹配成功，获取待跟踪文本中当前字符的位置；继续匹配下一个字符直至末端字符，将末端的字符对应在目标文本片段中的位置确定为实时跟踪位置；若匹配失败，跳过当前字符的匹配，在预设字符窗口中添加待跟踪文本首端字符之外前一个字符；继续将下一个字符与添加后的连续预设字符窗口中的字符进行匹配，直至末端字符匹配成功，将末端的字符对应在目标文本片段中的位置确定为实时跟踪位置。

在本申请的一个实施例中，还提出了一种语音跟踪装置，装置包括：处理模块，处理模块被配置为对待跟踪文本进行文本预处理，待跟踪文本包括至少一个字符；利用第一预设公式对预处理后待跟踪文本中的每个字符进行概率计算；根据概率构建语言模型。语言模型为当前待跟踪文本对应的语言模型；自动语音识别模块，自动语音识别模块被配置为识别用户输入的语音数据得到识别文本，并将识别文本提供至语音跟踪功能模块。语音跟踪模块，语音跟踪模块被配置为对识别文本进行纠错处理，并根据语言模型判断识别文本是否与待跟踪文本关联。在识别文本与待跟踪文本关联的情况下，将识别文本与待跟踪文本进行第一相似度匹配，得到目标文本片段。依次按照从首端至末端的顺序将识别文本中的字符逐一与目标文本片段进行第二相似度匹配，得到每个字符在目标文本片段中的位置。将末端的字符对应在目标文本片段中的位置确定为实时跟踪位置。显示模块，显示模块被配置为显示实时跟踪位置。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述方法中的步骤。

在本申请的一个实施例中，还提出了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述方法中的步骤。

通过本申请实施例，本申请提供了一种语音跟踪方法及装置、存储介质、电子设备。解决了相关技术中在进行语音跟踪数据处理时不能兼顾数据处理速度和语音识别准确率的技术问题，本申请具体采用排除无关发言—模糊定位—精确定位的语音跟踪方式，并进一步提出了纠错处理和相似度匹配的相关算法，以在实现准确语音识别的同时，提升了系统的响应速度，实现了实时跟进用户读取待跟踪文本位置的效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的语音跟踪方法流程图；

图2是根据本申请实施例的一种可选的判断识别文本是否与待跟踪文本关联的方法流程图；

图3是根据本申请实施例的一种可选的纠错处理的方法流程图；

图4是根据本申请实施例的一种可选的相似度匹配的方法流程图；

图5是根据本申请实施例的一种可选的语音跟踪装置的结构示意图；

图6是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

首先对本申请实施例的应用场景进行说明。在用户进行主持、表演、录播或直播的过程中需要电子设备辅助提示用户相关的目标文本，以实现提词功能的同时帮助用户顺利的进行相应的工作。通常提词功能可以通过独立的电子设备实现如提词器，也可以通过电子设备中以应用程序的形式实现。在用户使用提词功能的过程中，目标文本会实时显示在电子设备的屏幕上供用户浏览，同时电子设备会根据用户发言时的语音，在显示目标文本的过程中实时标记用户的当前发言位置，以便于用户获取下一刻所需的提示文本。进而在实现提词功能的同时进行语言跟踪。为便于后续描述，将用户使用的目标文本称为待跟踪文本。

示例性的，具体的提词功能的实现如下：当待跟踪文本显示至提词器的用户界面中后，待跟踪文本为：《老友记》是一部美国电视情景喜剧，由大卫·克莱恩和玛塔·卡芙曼创作，珍妮佛·安妮斯顿、柯特妮·考克斯、丽莎·库卓、马特·勒布朗、马修·派瑞和大卫·史威默主演。故事以生活在纽约曼哈顿的六个老友为中心，描述他们携手走过的十年风雨历程。全剧共10季236集，于1994年9月22日至2004年5月6日在全国广播公司(NBC)播映……。用户可以根据显示的文字进行跟读，在朗读的过程中以一句话为单位或一个字符为单位进行语音跟踪标记。例如用户跟读到“《老友记》是一部”中的“部”，在用户界面中会实时对“部”的位置进行标记。再例如用户朗读到“《老友记》是一部美国电视情景喜剧”中的“剧”后，在用户界面中会实时对“剧”的位置进行标记，并自动对下一句进行跟踪标记。若在用户跟读为当前页面的最后一个字的情况下，控制显示当前显示文本的下一页文本，继续进行实时标记。

在上述场景中，针对上述提词功能的实现需求，提词器应在使用过程中保证良好的实时性，以确保提词器的显示位置始终与用户的发言的速度一致。因此，在提词器的提词功能的系统框架中，应尽量减少模型的运用，以提高系统的处理速度。但基于非模型实现的系统会引起语音识别准确率的降低，进而令提词器在提词功能实现过程中无法很好的展示。如出现1)识别文本出现较多误差；2)待跟踪文本显示与用户发音存在冲突、不一致；3)用户跟读文本后，传入到后台的文本长度不定，并且其中可能包含无关文本，或者识别错误文本；4)用户在跟读时会经常进行跳句、或者多字、少字的情况。为了优化上述问题，在提高提词器的识别准确率的基础上，本申请进一步提供了一种语音跟踪方法，保证数据处理速度的同时提高语音识别的准确率，以实现提词器的语音跟踪的实时性。

图1是根据本申请实施例的一种可选的语音跟踪方法流程图，参见图1，本申请提供的一种语音跟踪方法，具体过程如下：

S1：判断识别文本是否与待跟踪文本关联。

在本实施例中，识别文本为根据用户输入的语音数据进行识别后的文本，即用户当前发言的文本内容。待跟踪文本为用户创作设定的文本，如在场景下中辅助提示用户相关的台词、台本。其中，当用户根据显示的待跟踪文本进行跟读时，识别文本需与待跟踪文件关联，才能实时对用户跟读的文本位置在待跟踪文本中进行跟踪，以实现实时语音跟踪以及提词功能。

图2是根据本申请实施例的一种可选的判断识别文本是否与待跟踪文本关联的方法流程图，参见图2，在本实施例中，执行S1的具体过程包括：

S11：对待跟踪文本进行文本预处理，待跟踪文本包括至少一个字符。其中，预处理包括：将待跟踪文本中特殊类型文本转换成标准形式文本，特殊类型文本包括数字和符号，标准形式文本是指使用正则表达式提取并处理后的文本。

示例性的，通过预先获取的数据文本，数据文本为大规模的文本数据。数据文本的获取方式可以在互联网中进行获取。在数据文本中检索所有特殊类型文本(数字以及标点符号)出现的情况，并对各种类型的数字、标点符号进行对应的文本类型标注。部分示例参见表1，特殊类型文本为“http://www.anti-spam.cn”即对应的文本类型为邮箱，特殊类型文本为“+1.866.783.2145”即对应的文本类型为电话，特殊类型文本为“1.1.4”即对应的文本类型为版本号，特殊类型文本为“13-24”即对应的文本类型为区间。其中，可将电话、版本号等文本类型均归类为数字文本类型。需要说明的是，本申请包括并不限于上述特殊类型文本以及对应的文本类型，可根据实际情况自行设计。

表1

进一步地，根据不同的特殊类型文本以及对应的文本类型，构建不同的转化方式。提取待跟踪文本中的特殊类型文本，并将其转化为标准形式文本，标准形式文本是指使用正则表达式提取并处理后的文本。部分示例参见表2，例如特殊类型文本为“1927.7.2”，则转化的标准形式文本为“一九二七年七月二号/一九二七年七月二日”；特殊类型文本为“1378”，则转化的标准形式文本为“一千三百七十八”；特殊类型文本为“3:2”，则转化的标准形式文本为“三比二”；特殊类型文本为“13-24”，则转化的标准形式文本为“十三到二十四/十三至二十四”。需要说明的是，在当前场景下使用的均是各类正则表达式用以提取其中的年份、邮箱、比分等。本申请不对转化方式和标准形式文本进行限定，可根据实际情况自行设计。

文本类型	特殊类型文本	标准形式文本
			年份	1927.7.2	一九二七年七月二号/一九二七年七月二日
数字	1378	一千三百七十八
			比分	3:2	三比二
区间	13-24	十三到二十四/十三至二十四

表2

进一步地，将预处理后的待跟踪文本转换为拼音形式文本。将待跟踪文本转换成拼音形式文本的目的是为了降低后续将识别文本与待跟踪文本对比时产生的误差。示例性的，因为识别文本的内容可能会出现误差，如待跟踪文本中“放气”，用户跟读后识别为“放弃”，如果比较中文形式两个词语不相同，如果以拼音形式文本比较，则两个词语相同。进而，转换为拼音形式文本后提高对比时的准确率。

进一步地，将预处理后的待跟踪文本转换为拼音形式文本后进行预设字符窗口的设定。预设字符窗口在待跟踪文本上滑动，并获取待跟踪字段，待跟踪字段为滑动窗口中的拼音形式文本，预设字符窗口用于对待跟踪文本中的每个字符进行概率计算。多个连续预设字符窗口在待跟踪文本上滑动，连续预设字符窗口每次向后滑动一个字符。

其中，预设字符窗口可以理解为处理单元，滑动预设字符窗口表示用于对待跟踪文本进行处理(例如，概率计算)的处理单元。通过预设字符窗口以预设步长进行滑动，得到待跟踪字段。预设步长通常为窗口中字符数量，示例性的，将窗口中字符数量设置为2，则预设步长为2，即为2个字符。待跟踪文本为“今天天气不错。”则连续预设字符窗口为：【今天】、【天天】、【天气】、【气不】、【不错】、【错。】。多个连续预设字符窗口在待跟踪文本上滑动，每个预设字符窗口之间间隔一个字符。需要说明的是，本申请不对窗口中字符数量以及连续预设字符窗口的间隔进行具体限定，可根据实际情况自行设置。上述每个字符可以为一个字也可以为一个词，但每个字符在处理过程中均为拼音形式文本，在本实施例中仅以中文形式进行实例。例如一个字符为中文一个字，即对应的拼音形式文本为【今天】-【jintian】，下一个预设字符窗口为【tiantian】。

S12：利用第一预设公式对预处理后待跟踪文本中的每个字符进行概率计算，其中，该概率为待跟踪文本中的每个字符由前一个预设字符窗口中字符构成的概率。示例性的，比如当前预设字符窗口为【天气】，则前一个预设字符窗口就是【今天】，则当前预设字符窗口中“天”字的出现就是由【今天】这个前一个预设字符窗口决定的。

第一预设公式如下：

其中，W_i、W_i-1、W_i-2为三个连续字符；*(w_i-1)表示w_i-1在待跟踪文本中出现的次数；*(w_i-1,w_i)表示连续两个字符w_i-1,w_i在待跟踪文本中出现的次数；*(w_i-2,w_i)表示两个字符w_i-2,w_i在待跟踪文本中出现的次数。需要说明的是，w_i-2,w_i两个字符之间隔一个字符，此处默认间隔字符数量为1，也可以兼容多字少字的情况本申请不进行具体限定。

通过设置第一预设公式，并不限于两个连续字符的场景下使用，还可以在连续字符中出现多字少字的场景下进行使用。基于第一预设公式的概率后构建语言模型；语言模型为当前待跟踪文本对应的语言模型。统计语言模型是自然语言处理(Natural LanguageProcessing，NLP)的基础模型，是从概率统计角度出发，解决自然语言上下文相关的特性的数学模型。统计语言模型的核心就是判断一个句子在文本中出现的概率。

S13：识别用户输入的语音数据得到识别文本，对识别文本进行纠错处理。需要说明的是，本申请中待跟踪文本和识别文本均可以通过工具包转化成拼音形式文本。

图3是根据本申请实施例的一种可选的纠错处理的方法流程图。参见图3，在具体实现时，执行S13的具体过程包括：

S131：统计数据文本中所有普通词汇出现的频率，其中，数据文本为预先获取的文本数据。并将频率作为每个普通词汇对应的第一权重值。普通词汇的定义为：通过收集海量的词汇，这些词汇来自于各种数据源，包括新闻、论坛和/或微博等，或者是不同技术领域或者不同业务领域的数据。这些词汇从数据源切分出来后，就成为普通词汇。

示例性的，统计的数据文本中为大规模的文本数据。数据文本的获取方式可以在互联网中进行获取。统计数据文本中所有词语出现的频率，并将频率作为普通词汇的权重值，归一化至1-1000，并形成普通词汇表。

如识别用户输入的语音数据结果为：老友季是一部美国电视情景喜剧。

普通词汇表，如：

S132：构建专有词汇词汇表，设定每个专有词汇对应的第二权重值，其中，第二权重值大于第一权重值。专有词汇包括命名实体，例如，语言中具有特定意义的实体，包括人名、地名以及机构名等均称为专有词汇。

示例性的，人工动态扩建领域词典，作为专有词汇，并将对应的权重设置为第二权重值。其中，第二权重值为较高的值需远高于第一权重值，如1000等，并形成专有词汇表；

专有词汇表，如：

S133：根据普通词汇和专有词汇构建单词查找树，生成多个切分文本片段。

具体实现时，根据普通词汇表与专有词汇表生成单词查找树，即生成有向无环图DAG。通过有向无环图DAG生成所有可能的句子切分。示例性的，对于普通词汇，将切分文本片段根据给定的普通词汇表进行查询操作。对于专有词汇，比较专有词汇与切分文本片段之间的相似度值，当相似度值大于第一预设阈值时，则作为构建单词查找树的一部分，并保留其相似度值。其中，第一预设阈值本申请不进行具体限定，可根据实际需求自行设置。

图4是根据本申请实施例的一种可选的相似度匹配的方法流程图。参见图4，相似度匹配方式如下：

S1331：获取不同拼音数据对应的等级，拼音数据是由不同人物的发音特征确定的，其中，每个等级对应有等级分值。

示例性的，根据人类发音习惯，将相似度分为以下5个等级：同音同调、同音不同调、平翘舌音、前后鼻音、发音时n、l音不分。每个相似度等级对应有等级分值。

S1332：对切分文本片段和专有词汇进行等级划分，得到当前等级以及对应的当前等级分值，将当前等级分值设定为第三权重值。在本申请中，通过将切分文本片段与专有词汇进行对比，得出切分文本片段属于哪个相似度等级，即获得当前等级的等级分值。

S1333：获取切分文本片段和专有词汇之间的编辑距离；根据编辑距离和第三权重值得到相似度值。其中，编辑距离为是指两个字符之间，由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个字符的相似度越大。

示例性的，生成多个切分文本片段，如下：

经过相似度匹配可以得到“老友季”与“老友记”的相似度值较高，“美国”与“美国”的相似度值较高，因此可以得到以下多个句子切分：

Sent1:老友季是一部美国电视情景喜剧

Sent2:老友季是一部美国电视情景喜剧

Sent3:老友季是一部美国电视情景喜剧

……

S134：利用第一权重值和第二权重值计算每个切分文本片段的概率，将概率最高的切分文本片段作为纠错处理完成的识别文本。

在一些实施例中，根据有向无环图DAG对识别文本中的每个词汇从右往左反向计算最大概率，以每个词汇的权重(第一权重值或第二权重值)作为其概率，同时与专有词汇的相似度值作为损失值，公式如下：

P(node_N)＝1；P(node_N-1)＝P(node_N)*max(F(word_pre))

其中，f(w)表示每个词汇的权重；表示所以词汇权重之和；sim(w,word_pref)表示与专有词汇的相似度值；P(node_N)表示为第N个节点(词汇)的概率；P(node_N-1)表示为第N-1个节点(词汇)的概率。

根据上述公式，以此类推，最后可以得到最大概率路径，得到最大切分概率的切分组合，即可获取其中出现的专有词汇，作为纠错完成的词汇。

示例性的，P(sent1)＝0.32；P(sent2)＝0.76；P(sent3)＝0.15……

将概率最高的设为最大路径即sent2,sent2中涉及到的专有词汇有“老友季”(“老友记”)，“美国”(“美国”)。因此对识别文本中进行纠错的结果为：老友记是一部美国电视情景喜剧。“老友记”、“美国”为纠错完成的词汇。

基于上述计算最大概率的公式可知，由于存在识别文本与待跟踪文本出现偏差的情况，进而，本申请提出了与专有词汇的相似度这一概念。相似度程度不同会影响文本中每个完整语句的概率以及对应的值。识别文本中专有词汇与待跟踪文本中的词汇可能并不完全对应，示例性的：老友季与老友记相似但不完全相同，存在一种是否相似的概率，上述公式结合这种相似的概率并综合考虑整个语句的信息确定最终的结果，即老友季是不是确定指代老友记这一过程，最后结果为：老友季确定指代老友记。

本申请通过引入相似度这一概念，优化了识别文本与待跟踪文本出现偏差的情况，为后续实现语音跟踪功能提供了基础，同时提高了语音识别的准确率。

S14：根据语言模型判断识别文本是否与待跟踪文本关联。基于上述构建的语言模型，将纠错完成的识别文本进行概率计算，计算识别文本中所有字符出现的概率，公式如下：

p(w₁,w₂,w₃,w₄…w_n)＝p(w₁)·p(w₂|w₁)·max(p(w₃|w₂),p(w₃|w₁))·max(p(w₄|w₃),p)…

其中，W₁、W₂、W₃......为识别文本中的多个连续字符；P(w₁)为w₁出现的概率，即识别文本中w₁这个字符占整个识别文本的比重；P(w₂/w₁)为w₂在w₁之后出现的概率，即识别文本中w₂在w1之后出现次数的占比；Max(a,b)为a,b值中数值大对应的字符。

当识别文本中所有字符出现的概率小于第二预设阈值时，则认为识别文本为与待跟踪文本无关，不进行后续实时跟踪处理。其中，第二预设阈值本申请不进行具体限定，可根据实际需求自行设置。

S2：在识别文本与待跟踪文本关联的情况下，将识别文本与待跟踪文本进行第一相似度匹配，得到目标文本片段。

具体地，将识别文本中两端字符与待跟踪文本中两端字符进行相似度匹配，判断相似度匹配是否成功，其中，两端字符为首端字符和末端字符。

示例性的，待跟踪文本为：今天天气真好，我想出去玩。识别文本为：今好。识别文本的相似度匹配的就是“今”、“好”两个字符，匹配待跟踪文本的片断即【今天天气真好】(待跟踪文本的片断的首端和末端即识别文本的首端和末端的单个字)。需要说明的是，此处第一相似度匹配与上述纠错处理中的相似度匹配处理方法一致，在此不再赘述。在相似度匹配过程需要保证匹配待跟踪文本中字符个数不能过度小于识别文本中的字符个数，其中，字符阈值默认设置为1。字符阈值为待跟踪文本字符个数与识别文本中字符个数的差值。也就是说，本实施例中待跟踪文本字符个数与识别文本中字符个数相差不能超过1个字符。本申请不对字符阈值进行具体限定，可根据实际情况自行设置。

若匹配成功，即得到目标文本片段。目标文本片段即为后续进行实时位置标记的片段。

若匹配失败，根据识别文本中两端字符的前一个单个字符与对应的待跟踪文本进行相似度匹配，再次判断相似度匹配是否成功；其中，若再次匹配失败则使用上一次匹配两端失败字符的前一个字符进行相似度匹配循环步骤。示例性的，匹配失败的情况如下：待跟踪文本为：今天天气真好，我想出去玩。识别文本为：今再(识别文本会出现误差)，则只能匹配到待跟踪文本中的“今”字，无法匹配到待跟踪文本的两端(片断)。

直至匹配成功，得到至少一个待跟踪文本片段；利用第二预设公式将至少一个待跟踪文本片段进行计算，即得到目标文本片段。

第二预设公式为：

由上述方案可知，本申请通过将识别文本与待跟踪文本进行第一相似度匹配，对文本进行模糊定位，将获取最优的待跟踪文本中确定为目标文本片段，进一步通过在该目标文本片段中精确跟踪识别文本的位置。

S3：依次按照从首端至末端的顺序将识别文本中的字符逐一与目标文本片段进行第二相似度匹配，得到每个字符在目标文本片段中的位置；将识别文本末端的字符对应在目标文本片段中的位置确定为实时跟踪位置。

具体地，按照从首端至末端的顺序将识别文本中的字符逐一与目标文本片段中连续预设字符窗口中的字符进行匹配。

示例性的，设置预设字符窗口的字符数量为3，将识别文本逐字与目标文本片段中连续预设字符窗口的片段进行相似度匹配，识别文本与目标文本片段位置保持同步。需要说明的是，此处第二相似度匹配与上述纠错处理中的相似度匹配处理方法一致，在此不再赘述。

进一步地，判断识别文本中的当前字符是否匹配成功，若匹配成功，获取待跟踪文本中当前字符的位置。继续匹配下一个字符直至末端字符，将末端的字符对应在目标文本片段中的位置确定为实时跟踪位置。

示例性的，目标文本片段为：今天天气真好，我想出去玩。识别文本为：真好。首先对识别文本中的“真”依次与连续预设字符窗口的片断进行相似度匹配，如【今天天】、【天天气】、【天气真】。若匹配成功，将目标文本片段的“真”进行位置标记，继续对识别文本中的“好”依次与连续预设字符窗口的片断进行相似度匹配，如【今天天】、【天天气】、【天气真】、【气真好】，以此类推直至末端字符匹配成功，即将目标文本片段的“好”进行位置标记，并确定为实时跟踪位置。

进一步地，若匹配失败，跳过当前字符的匹配，在预设字符窗口中添加待跟踪文本首端字符之外前一个字符；继续将下一个字符与添加后的连续预设字符窗口中的字符进行匹配，直至末端字符匹配成功，将末端的字符对应在目标文本片段中的位置确定为实时跟踪位置。

示例性的，目标文本片段为：今天天气真好，我想出去玩。识别文本为：一今。首先对识别文本中的“一”依次与连续预设字符窗口的片断进行相似度匹配，如【今天天】、【天天气】、【天气真】。若匹配失败，在预设字符窗口中添加待跟踪文本中目标文本片段首端字符之外前一个字符，目标文本片段为：星期一今天天气真好，我想出去玩。则预设字符窗口为【一今天】、【今天天】、【天天气】。继续进行相似度匹配，同上述一致，直至末端字符匹配成功，将目标文本片段的“今”进行位置标记，并确定为实时跟踪位置。

由上述方案可知，依次按照从首端至末端的顺序将识别文本中的字符逐一与目标文本片段进行第二相似度匹配，进行了逐字的精确定位，以实现完整的语音跟踪功能。

以上为对本申请提供的一种语音跟踪方法中步骤细节描述。下面为本申请提供的具体实施例。

实施例：

待跟踪文本为：《老友记》是一部美国电视情景喜剧，由大卫·克莱恩和玛塔·卡芙曼创作，珍妮佛·安妮斯顿、柯特妮·考克斯、丽莎·库卓、马特·勒布朗、马修·派瑞和大卫·史威默主演。故事以生活在纽约曼哈顿的六个老友为中心，描述他们携手走过的十年风雨历程。全剧共10季236集，于1994年9月22日至2004年5月6日在全国广播公司(NBC)播映……

对待跟踪文本进行文本预处理，提取的字符为：10季236集，于1994年9月22日至2004年5月6日。并将其转化为标准形式文本：十季二百三十六集，于一九九四年九月二十二日至二零零四年五月六日。

对识别文本进行纠错处理，如识别文本的结果为：老友季是一部美国电视情景喜剧。则纠错完成的结果为：老友记是一部美国电视情景喜剧。

判断识别文本是否与待跟踪文本关联，即排除无关文本。如识别文本的结果为：老友季是一部美国电视情景喜剧，我想等会在说。根据计算得到p(我想等会再说)＝p(我)*p(想|我)*p(等|想)*p(等|我)*…＝0.002<<0.6(第二预设阈值)故判断识别文本与待跟踪文本无关联。当判断无关联后直接返回当前位置：视情景喜剧。当判断识别文本与待跟踪文本关联后继续进行如下步骤。

对识别文本进行模糊定位，如识别文本的结果为：老友季是一部美国电视情景喜剧，我想等会在说，这部剧是由大卫克莱恩和玛塔卡芙曼创作珍妮佛安妮斯顿等主演们走过…。经过模糊匹配可能会匹配到们走过对应了他们携手走过即《老友记》是一部美国电视……们携手走过。

对识别文本进行精确定位，在模糊定位的基础上，在《老友记》是一部美国电视……们携手走过这段台本中进行精确匹配，最终匹配得到《老友记》是一部美国电视情景喜剧，由大卫·克莱恩和玛塔·卡芙曼创作，珍妮佛·安妮斯顿、柯特妮·考克斯、丽莎·库卓、马特·勒布朗、马修·派瑞和大卫·史威默主演。

由以上实施例可知，经过测试，从检测用户输入识别文本至在待跟踪文本中跟踪用户跟读总耗时为3ms。相较之下，若采用文本相似度的方式直接进行判断，如将识别文本转化为句向量与待跟踪文本中所有片段进行相似度匹配(计算方式使用余弦相似度)，其需要的时间为220ms。而使用ESIM短文本匹配模型进行识别文本与待跟踪文本中所有片段进行相似度匹配，其需要的时间为190ms。本申请提供的语音跟踪方法在实际使用过程中的实时性得到了显著改善。同时，可支持用户跟读时多字少字以及跳句的情况，并且当用户跟读一些与待跟踪文本无关联的文本时可暂停跟进，而使得用户无需严格依据待跟踪文本的顺序或内容发言，令提词器提词功能的适用性得以显著改善。

应该理解的是，虽然图1至图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一些实施例中，图5是根据本申请实施例的一种可选的语音跟踪装置的结构示意图。参见图5，语音跟踪装置包括：处理模块，处理模块被配置为对待跟踪文本进行文本预处理，待跟踪文本包括至少一个字符；利用第一预设公式对预处理后待跟踪文本中的每个字符进行概率计算；根据概率构建语言模型；语言模型为当前待跟踪文本对应的语言模型。自动语音识别模块，自动语音识别模块被配置为识别用户输入的语音数据得到识别文本，并将识别文本提供至语音跟踪模块。语音跟踪模块，语音跟踪模块被配置为对识别文本进行纠错处理，并根据语言模型判断识别文本是否与待跟踪文本关联；在识别文本与待跟踪文本关联的情况下，将识别文本与待跟踪文本进行第一相似度匹配，得到目标文本片段；依次按照从首端至末端的顺序将识别文本中的字符逐一与目标文本片段进行第二相似度匹配，得到每个字符在目标文本片段中的位置；将末端的字符对应在目标文本片段中的位置确定为实时跟踪位置。显示模块，显示模块被配置为显示实时跟踪位置。

根据本申请实施例的又一个方面，还提供了一种用于实施上述一种语音跟踪方法的电子设备，上述电子设备可以但不限于应用于服务器中。如图6所示，该电子设备包括存储器602和处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1：判断识别文本是否与待跟踪文本关联。

其中，执行S1的具体过程包括：

S12：利用第一预设公式对预处理后待跟踪文本中的每个字符进行概率计算，其中，该概率为待跟踪文本中的每个字符由前一个预设字符窗口中字符构成的概率。

S13：识别用户输入的语音数据得到识别文本，对识别文本进行纠错处理，并根据语言模型判断识别文本是否与待跟踪文本关联。

其中，执行S13的具体过程包括：

S131：统计数据文本中所有普通词汇出现的频率，其中，数据文本为预先获取的文本数据。并将频率作为每个普通词汇对应的第一权重值。

S132：构建专有词汇词汇表，设定每个专有词汇对应的第二权重值，其中，第二权重值大于第一权重值。

S135：根据语言模型，将纠错完成的识别文本进行概率计算。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图6其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本申请实施例中的语音跟踪方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音跟踪方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于储存语音跟踪方法的程序步骤。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器608，用于显示语音跟踪方法过程；和连接总线610，用于连接上述电子设备中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1：判断识别文本是否与待跟踪文本关联。

其中，执行S1的具体过程包括：

其中，执行S13的具体过程包括：

S135：根据语言模型，将纠错完成的识别文本进行概率计算。

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

本申请提供了一种语音跟踪方法及装置、存储介质、电子设备。解决了相关技术中在进行语音跟踪数据处理时不能兼顾数据处理速度和语音识别准确率的技术问题，本申请具体采用排除无关发言—模糊定位—精确定位的语音跟踪方式，并进一步提出了纠错处理和相似度匹配的相关算法，以在实现准确语音识别的同时，提升了系统的响应速度，实现了实时跟进用户读取待跟踪文本位置的效果。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其他的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音跟踪方法，其特征在于，方法包括：

对待跟踪文本进行文本预处理，所述待跟踪文本包括至少一个字符；

利用第一预设公式对预处理后所述待跟踪文本中的每个所述字符进行概率计算；

第一预设公式如下：

；

其中，W_i、W_i-1、W_i-2为三个连续字符；表示/>在待跟踪文本中出现的次数；/>表示连续两个字符/>在待跟踪文本中出现的次数；表示两个字符/>在待跟踪文本中出现的次数；

根据所述概率构建语言模型，所述语言模型为当前所述待跟踪文本对应的语言模型；

对识别文本进行纠错处理，所述对识别文本进行纠错处理包括：统计数据文本中所有普通词汇出现频率，其中，所述数据文本为预先获取的文本数据；将所述频率作为每个所述普通词汇对应的第一权重值；

构建专有词汇的词汇表，设定每个所述专有词汇对应的第二权重值，其中，所述第二权重值大于第一权重值；

根据所述普通词汇和所述专有词汇构建单词查找树，生成多个切分文本片段；

识别用户输入的语音数据得到识别文本，并根据所述语言模型判断所述识别文本是否与所述待跟踪文本关联，其中，所述识别文本为概率最高的切分文本片段，所述概率根据所述第一权重值和所述第二权重值计算得到；

在所述识别文本与所述待跟踪文本关联的情况下，将所述识别文本与所述待跟踪文本进行第一相似度匹配，得到目标文本片段；

依次按照从首端至末端的顺序将所述识别文本中的字符逐一与所述目标文本片段进行第二相似度匹配，得到每个所述字符在所述目标文本片段中的位置；将所述识别文本末端的所述字符对应在所述目标文本片段中的位置确定为实时跟踪位置。

2.根据权利要求1所述的方法，其特征在于，对待跟踪文本进行文本预处理，所述待跟踪文本包括至少一个字符；包括：

将所述待跟踪文本中特殊类型文本转换成标准形式文本，所述特殊类型文本包括数字和符号，所述标准形式文本是指使用正则表达式提取并处理后的文本；

将所述待跟踪文本转换为拼音形式文本；

设定预设字符窗口，所述预设字符窗口在所述待跟踪文本上滑动，并获取待跟踪字段，所述待跟踪字段为滑动窗口中的所述拼音形式文本，所述预设字符窗口用于对所述待跟踪文本中的每个字符进行概率计算；其中，多个连续预设字符窗口在所述待跟踪文本上滑动，所述连续预设字符窗口每次向后滑动一个字符。

3.根据权利要求2所述的方法，其特征在于，所述对所述识别文本进行纠错处理，还包括：

获取不同拼音数据对应的等级，所述拼音数据是由不同人物的发音特征确定的，其中，每个等级对应有等级分值；

对所述切分文本片段和所述专有词汇进行等级划分，得到当前等级以及对应的当前等级分值，将所述当前等级分值设定为第三权重值；

获取所述切分文本片段和所述专有词汇之间的编辑距离；

根据所述编辑距离和所述第三权重值得到相似度值。

4.根据权利要求3所述的方法，其特征在于，在所述识别文本与所述待跟踪文本关联的情况下，将所述识别文本与所述待跟踪文本进行第一相似度匹配，得到目标文本片段；包括：

将所述识别文本中两端字符与所述待跟踪文本中两端字符进行相似度匹配，判断所述相似度匹配是否成功，其中，两端字符为首端字符和末端字符；

若匹配成功，即得到所述目标文本片段；

若匹配失败，根据所述识别文本中两端字符的前一个单个字符与对应的所述待跟踪文本进行相似度匹配，再次判断所述相似度匹配是否成功；其中，若再次匹配失败则使用上一次匹配两端失败字符的前一个字符进行相似度匹配循环步骤；

直至匹配成功，得到至少一个所述待跟踪文本片段；

利用第二预设公式将至少一个所述待跟踪文本片段进行计算，即得到所述目标文本片段。

5.根据权利要求4所述的方法，其特征在于，所述第二预设公式为：

；

其中，为识别文本字符个数；/>为待跟踪文本中字符与识别文本中字符相似个数，/>为待跟踪文本与识别文本中片段相似个数。

6.根据权利要求5所述的方法，其特征在于，依次按照从首端至末端的顺序将所述识别文本中的字符逐一与所述目标文本片段进行第二相似度匹配，包括：

按照从首端至末端的顺序将所述识别文本中的字符逐一与所述目标文本片段中连续所述预设字符窗口中的字符进行匹配；

判断所述识别文本中的当前字符是否匹配成功，若匹配成功，获取所述待跟踪文本中当前字符的位置；继续匹配下一个字符直至末端字符，将末端的所述字符对应在所述目标文本片段中的位置确定为实时跟踪位置；

若匹配失败，跳过所述当前字符的匹配，在所述预设字符窗口中添加所述待跟踪文本首端字符之外前一个字符；

继续将下一个字符与添加后的连续所述预设字符窗口中的字符进行匹配，直至末端字符匹配成功，将末端的所述字符对应在所述目标文本片段中的位置确定为实时跟踪位置。

7.一种语音跟踪装置，其特征在于，所述装置包括：

处理模块，所述处理模块被配置为对待跟踪文本进行文本预处理，所述待跟踪文本包括至少一个字符；利用第一预设公式对预处理后所述待跟踪文本中的每个所述字符进行概率计算；根据所述概率构建语言模型；所述语言模型为当前所述待跟踪文本对应的语言模型；

第一预设公式如下：

；

自动语音识别模块，所述自动语音识别模块被配置为识别用户输入的语音数据得到识别文本，并将所述识别文本提供至语音跟踪功能模块；

语音跟踪模块，所述语音跟踪模块被配置为对所述识别文本进行纠错处理，所述对所述识别文本进行纠错处理包括：统计数据文本中所有普通词汇出现频率，其中，所述数据文本为预先获取的文本数据；将所述频率作为每个所述普通词汇对应的第一权重值；

识别用户输入的语音数据得到识别文本，并根据所述语言模型判断所述识别文本是否与所述待跟踪文本关联，其中，所述识别文本为概率最高的切分文本片段，所述概率根据所述第一权重值和所述第二权重值计算得到；在所述识别文本与所述待跟踪文本关联的情况下，将所述识别文本与所述待跟踪文本进行第一相似度匹配，得到目标文本片段；依次按照从首端至末端的顺序将所述识别文本中的字符逐一与所述目标文本片段进行第二相似度匹配，得到每个所述字符在所述目标文本片段中的位置；将末端的所述字符对应在所述目标文本片段中的位置确定为实时跟踪位置；

显示模块，所述显示模块被配置为显示所述实时跟踪位置。

8.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至6中任一项中所述的方法。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项中所述的方法。