CN114625857A

CN114625857A - 一种提词器及英文文本跟踪方法、存储介质、电子设备

Info

Publication number: CN114625857A
Application number: CN202210291791.2A
Authority: CN
Inventors: 司马华鹏; 李慧水; 汤毅平; 汪成; 张亚萍
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-14
Anticipated expiration: 2042-03-23
Also published as: CN114625857B

Abstract

本申请提供了一种提词器及英文文本跟踪方法、存储介质、电子设备。在目标文本为英文文本的场景下，本申请提供的提词器通过识别用户输入的语音数据得到识别文本并基于识别文本确定待匹配文本列表。利用两种相似度匹配处理方式将待匹配文本列表与识别文本进行匹配，进一步实现理想文本位置跟踪。解决了相关技术中用户在基于提词器进行跟读时存在串行等情况，以及无法保证流畅的跟读效果的问题。

Description

一种提词器及英文文本跟踪方法、存储介质、电子设备

技术领域

本申请涉及电子设备技术领域，具体而言，涉及一种提词器及英文文本跟踪方法、存储介质、电子设备。

背景技术

在用户录制视频、直播以及参加朗读比赛的场景中，尤其是在目标文本为英文文本时，用户在短时间内无法将目标文本全部背诵，进而需要使用如提词器等电子设备进行辅助。目前，提词器可以匀速滚动显示用户所需要的目标文本，以实现通过显示的目标文本进行跟读的功能。

然而，由于目标文本为英文文本，用户在跟读的过程中会出现语速变化或口误的情况。此时，提词器展示的目标文本为匀速显示，导致无法及时跟踪用户的跟读位置。同时，用户在基于提词器进行跟读时，也会存在串行等问题，无法保证流畅的跟读效果，降低用户的使用体验。针对相关技术中，提词器在工作过程中无法实现理想位置跟踪的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种提词器及英文文本跟踪方法、存储介质、电子设备，以至少解决相关技术中无法实现理想位置跟踪的技术问题。

在本申请的一个实施例中，提出了一种提词器，包括：

显示器，显示器被配置为显示待跟踪文本；

与显示器连接的控制器，被配置为：

采集并识别当前用户输入的语音数据，得到识别文本；其中，识别文本包括至少一个单词，每个单词由至少一个字母构成；

基于预设位置对识别文本进行预处理，生成待匹配文本列表；其中，待匹配文本列表包括多个待匹配文本片段，每个待匹配文本片段按照预设顺序位于待匹配文本列表中；

将每个待匹配文本片段中的单词与识别文本进行单词相似度匹配和/或重合相似度匹配，生成匹配结果；

基于匹配结果确定目标位置，以指示显示器将目标位置显示在待跟踪文本中。

在本申请的一个实施例中，将每个待匹配文本片段中的单词与识别文本进行单词相似度匹配；控制器进一步被配置为：

将每个待匹配文本片段中每个单词与识别文本中对应的单词进行比对，输出第一数值或第二数值；其中，若两个单词相同输出第一数值，若两个单词不相同输出第二数值；

基于输出的第一数值或第二数值以及每个单词位于待匹配文本片段的位置设置每个单词的位置权重值，得到第一匹配值；其中，靠近待匹配文本片段末位的位置权重值高于靠近待匹配文本片段首位的位置权重值；

基于每个待匹配文本片段在待匹配文本列表的顺序对每个待匹配文本片段赋予顺序权重值，得到每个待匹配文本对应的第二匹配值；其中，靠近待匹配文本列表首位的顺序权重值高于靠近待匹配文本列表末位的顺序权重值；

基于第一匹配值和第二匹配值生成匹配结果。

在本申请的一个实施例中，将每个待匹配文本片段中的字母与识别文本进行重合相似度匹配；控制器进一步被配置为：

将待匹配文本片段中每个单词对应的字母与识别文本中对应的字母按照从前至后的顺序进行比对，输出第三数值或第四数值；其中，若两个字母相同输出第三数值，若两个字母不相同输出第四数值；

将单词中每个字母对应输出的第三数值或第四数值进行叠加，得到第三匹配值；

将待匹配文本片段中每个单词的全部字母与识别文本中单词的全部字母进行比对，确定两个单词中字母相同的比例，以生成第四匹配值；

基于每个待匹配文本片段在待匹配文本列表的顺序，对每个待匹配文本片段赋予顺序权重值，得到每个待匹配文本对应的第五匹配值；其中，靠近待匹配文本列表首位的顺序权重值高于靠近待匹配文本列表末位的顺序权重值；

基于第三匹配值、第四匹配值和第五匹配值生成匹配结果。

在本申请的一个实施例中，基于单词相似度匹配以及重合相似度匹配生成每个待匹配文本片段对应的单词相似值和重合相似值；将每个待匹配文本片段中的单词与识别文本进行单词相似度匹配和重合相似度匹配，以确定匹配结果；控制器进一步被配置为：

将单词相似值与重合相似值之间的最大值确定为匹配结果，或将单词相似值与重合相似值的平均值确定为匹配结果。

在本申请的一个实施例中，采集并识别当前用户输入的语音数据之前，控制器还被配置为：

判断待跟踪文本中是否存在数字文本；

在待跟踪文本中存在数字文本的情况下，采用预设NLP模型对待跟踪文本进行检测，确定数字文本对应的数字类型，以根据不同的数字类型进行对应的相似度匹配。

在本申请的一个实施例中，在数字类型为第一类数字类型的情况下，控制器还被配置为：

识别用户输入的语音数据，得到识别数字文本；

对数字文本进行数字相似度匹配，以确定匹配结果；

在本申请的一个实施例中，在数字类型为第二类数字类型的情况下，控制器还被配置为：

识别用户输入的语音数据，得到识别数字文本；

对数字文本进行重合相似度匹配，以确定匹配结果；

在本申请的一个实施例中，还提出了一种英文文本跟踪方法，方法具体包括以下步骤：

基于匹配结果确定目标位置，以指示将目标位置显示在待跟踪文本中。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述方法中的步骤。

在本申请的一个实施例中，还提出了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述方法中的步骤。

通过本申请实施例，本申请提供了一种提词器及英文文本跟踪方法、存储介质、电子设备。在目标文本为英文文本的场景下，本申请提供的提词器通过识别用户输入的语音数据得到识别文本并基于识别文本确定待匹配文本列表。接着，利用两种相似度匹配处理方式将待匹配文本列表与识别文本进行匹配，进一步实现理想文本位置跟踪。解决了相关技术中用户在基于提词器进行跟读时存在串行等情况，以及无法保证流畅的跟读效果的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的英文文本跟踪方法流程图；

图2是根据本申请实施例的一种可选的生成待匹配文本列表过程的流程图；

图3是根据本申请实施例的另一种可选的生成待匹配文本列表过程的流程图；

图4是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

首先对本申请实施例的应用场景进行说明。在用户进行主持、表演、录播或直播的过程中需要电子设备辅助提示用户相关的目标文本，以实现提词功能的同时帮助用户顺利的进行相应的工作。通常提词功能可以通过独立的电子设备实现如提词器，也可以通过电子设备中以应用程序的形式实现。

在用户使用提词功能的过程中，目标文本会实时显示在提词器屏幕的用户界面中供用户浏览，同时提词器会根据用户发言时的语音，在显示目标文本的过程中实时标记用户的当前发言位置，以便于用户获取下一刻所需的提示文本。进而在实现提词功能的同时进行语言跟踪。为便于后续描述，将用户使用的目标文本称为待跟踪文本。

示例性的，待跟踪文本为“learning should be a never-ending process,fromthe cradle to the grave.With the world ever changing so fast，the cease fromlearning for just a few days will make a person lag behind.What's worse,theanimalistic instinct dormant deep in our subconsciousness will come to life，weakening our will to pursue our noble ideal,sapping our determination tosweep away obstacles to our success and strangling our desire for therefinement of our character……”。用户可以根据显示的文字进行跟读，在朗读的过程中以一句话为单位或一个单词为单位进行语音跟踪标记。例如用户跟读到“the ceasefrom learning for just a few days will make……”中的“make”，在用户界面中会实时对“make”的位置进行标记。再例如用户朗读到“our desire for the refinement of ourcharacter”中的“make”后，在用户界面中会实时对“make”的位置进行标记，并自动对下一句进行跟踪标记。若在用户跟读为当前页面的最后一个单词的情况下，控制显示当前显示文本的下一页文本，继续进行实时标记。

在相关技术中提词器实现语音跟踪功能时，通常仅支持中文以及用户匀速发音的语境。通常，在语音识别的过程中，受限于ASR模型自身的识别误差以及提词器通常采用匀速播放的形式，例如用户的语音为英文和/或用户在发言时存在语速变化、停顿发言或出现口误的场景下，均会出现无法准确识别用户发言位置，以及无法及时更新跟踪位置的问题，进而降低用户的使用体验。

为优化上述问题，本申请提供了一种提词器及英文文本跟踪方法、存储介质、电子设备，英文文本跟踪方法应用于提词器中，以至少解决相关技术中无法在待跟踪文本为英文文本时实现理想语音跟踪的技术问题。

本申请提供的一种提词器，包括：显示器，显示器被配置为显示待跟踪文本。为了方便用户看到跟踪位置，显示器将显示待跟踪文本以及将跟踪位置显示在待跟踪文本中。

以下针对本申请提供的一种提词器及英文文本跟踪方法进行具体阐述。

图1根据本申请实施例的一种可选的一种英文文本跟踪方法的流程图。参见图1，本申请实施例提供的一种提词器，其配置的与显示器连接的控制器在执行英文文本跟踪方法时，被配置为执行下述步骤：

S1、采集并识别当前用户输入的语音数据，得到识别文本；其中，识别文本包括至少一个单词，每个单词由至少一个字母构成。

在本实施例中，识别文本为根据用户输入的语音数据进行识别后的文本，即用户当前发言的文本内容。待跟踪文本为用户创作设定的文本，如在场景下中辅助提示用户相关的台词、台本。其中，当用户根据显示的待跟踪文本进行跟读时，识别文本需与待跟踪文件关联，才能实时对用户跟读的文本位置在待跟踪文本中进行跟踪，以实现语音跟踪以及提词功能。需要说明的是，本申请中的待跟踪文本与识别文本可以为英文文本，进而，文本中至少包括一个英文单词，每个单词由至少一个字母构成。当然，待跟踪文本与识别文本中还可以包括数字文本，在数字文本为第一类数字类型如电话号码等没有大小、顺序、位数概念的数字，一般用户会直接读每一位的数字即识别文本为每一位的数字。而在数字文本为第二类数字类型如金额、计数等有大小、顺序、位数概念的数字，一般用户会在发言中加入“hundred、thousand、million”等其他内容即识别文本为每一个位数字对应的单词单位。

S2、基于预设位置对识别文本进行预处理，生成待匹配文本列表；其中，待匹配文本列表包括多个待匹配文本片段，每个待匹配文本片段按照预设顺序位于待匹配文本列表中。

在本实施例中，将上一时刻进行语音跟踪后所定位的位置定义为当前时刻的预设位置。需要说明的是，本申请中提供的英文文本跟踪方法是不同推进的。即上一时刻的跟踪结果作为当前时刻的预设位置，当前时刻的跟踪结果也作为下一时刻的预设位置，依次进行迭代。

示例性的，若用户上一时刻发言的文本内容为“sapping our determination tosweep away obstacles”中的“obstacles”单词，即上一时刻的语音跟踪结果也为“obstacles”的位置。进而，当前时刻的预设位置为“obstacles”。

具体实现时，基于预设位置、待匹配顺序总数以及预设文本长度，确定多个待匹配顺序以及每个待匹配顺序对应的待匹配文本片段。其中，待匹配顺序总数用于指示待匹配顺序的数量，文本长度用于指示每一待匹配文本片段的文本长度。

在本实施例中，基于预设位置的基础上构建待匹配文本列表，具体地，每个待匹配文本片段按照待匹配顺序呈现在待匹配文本列表中。每个待匹配文本片段的文本长度相同且每个待匹配文本片段对应一个待匹配顺序。

需要说明的是，待匹配顺序总数、预设文本长度以及待匹配文本片段的设置本申请不进行具体限定，可根据实际情况自行设计。

以下针对本申请提供的生成待匹配文本列表过程进行具体阐述。

图2根据本申请实施例的一种可选的生成待匹配文本列表过程的流程图。参见图2，

S21、根据待匹配顺序总数选取待匹配单词集合，待匹配单词集合包括多个第一单词；其中，第一单词为预设位置之后的多个连续的单词，第一单词的数量与待匹配顺序总数相等；每一第一单词分别对应一个待匹配顺序。

S22、根据预设文本长度与第一单词确定待匹配文本片段；其中，待匹配文本片段包括文本长度对应数量的多个连续的单词；第一单词位于对应的待匹配文本片段的末位。

示例性的，待匹配顺序总数N为10，每一个待匹配顺序对应的文本长度K为5。以下述文本作为示例：“sapping our determination to sweep away obstacles to oursuccess and strangling our desire for the refinement of our character……”。预设位置为“away”。则第一单词是以“away”为出发点，选取“away”之后的10个单词，分别对应为“obstacles、to、our、success、and、strangling、our、desire、for和the”。上述10个单词对应10个待匹配顺序。进一步，以上述每个单词为出发点，向前逐字截取K-1个单词，以得到每一个待匹配顺序。

在“obstacles、to、our、success、and、strangling、our、desire、for和the”，上述每一个单词的基础上，向前截取4个单词，如“obstacles”之前的单词为“determination tosweep away”，则“to”对应的待匹配顺序为“to sweep away obstacles”；又如“our”之前的单词为“sweep away obstacles to”。以此类推，所有的待匹配顺序为：

待匹配顺序1：determination to sweep away obstacles；

待匹配顺序2：to sweep away obstacles to；

待匹配顺序3：sweep away obstacles to our；

待匹配顺序4：away obstacles to our success；

……

待匹配顺序10：strangling our desire for the。

S23、将每个待匹配文本片段按照对应的待匹配顺序构成待匹配文本列表；其中，靠近预设位置的待匹配文本片段位于待匹配文本列表前列，即待匹配顺序靠前。

因此，每个待匹配顺序对应一个待匹配文本片段，每个待匹配文本片段的文本长度相同。

需要说明的是，在提词器实际运用过程中，也会存在部分用户对之前的内容反复诵读的情况，对此，本申请还提供了另一种生成待匹配文本列表的实现方式。图3是根据本申请实施例的一种可选的生成待匹配文本列表的流程图，参见图3，具体过程如下：

S31、根据待匹配顺序总数选取待匹配单词集合，待匹配单词集合包括多个第一单词与第二单词；其中，第一单词为预设位置之后的多个连续的单词，第二单词包括预设位置对应的单词以及预设位置之前的多个连续的单词，第一单词与第二单词的数量与待匹配顺序总数相等；每一第一单词以及第二单词分别对应一个待匹配顺序。

S32、根据预设文本长度与第一单词和第二单词确定待匹配文本片段；其中，待匹配文本片段包括预设文本长度对应数量的多个连续的单词；第一单词位于对应的待匹配文本片段的末位，第二单词位于对应的待匹配文本片段的末位。

示例性的，待匹配顺序总数N为10，每一个待匹配顺序对应的文本长度K为5。以下述文本作为示例：“sapping our determination to sweep away obstacles to oursuccess and strangling our desire for the refinement of our character……”。预设位置为“away”。设定第二单词为M，则第一单词为N-M。仍以上述示例进行说明，设定M为4，则以“away”为出发点，选取“away”之前的“our、determination、to、sweep”以及“away”之后的“obstacles、to、our、success、and”。即一共10个单词“our、determination、to、sweep、away、obstacles、to、our、success、and”，上述10个单词对应10个待匹配顺序。一般而言，M的设置要远小于N-M。

进一步，以上述每个单词为出发点，向前逐字截取K-1个单词，以得到每一个待匹配顺序。

S33、将每个待匹配文本片段按照对应的待匹配顺序构成待匹配文本列表；其中，靠近预设位置的待匹配文本片段位于待匹配文本列表前列，即待匹配顺序靠前。

S3、将每个待匹配文本片段中的单词与识别文本进行单词相似度匹配和/或重合相似度匹配，生成匹配结果。

以下针对本申请提供的两种相似度匹配方式包括单词相似度匹配和重合相似度匹配进行具体阐述。

具体的，将每个待匹配文本片段中的单词与识别文本进行单词相似度匹配；控制器进一步被配置为：

将每个待匹配文本片段中每个单词与识别文本中对应的单词进行比对，输出第一数值或第二数值；其中，若两个单词相同输出第一数值，若两个单词不相同输出第二数值。

具体实现时，采用第一公式得出第一数值或第二数值

第一公式如下：

其中，

表示识别文本中第i个单词；

表示第j个待匹配顺序中第i个单词；

表示针对识别文本中的第i个单词与第j个待匹配顺序中的第i个单词进行比较，如相同则输出1，反之不同则输出0。

进一步地，基于输出的第一数值或第二数值以及每个单词位于待匹配文本片段的位置设置每个单词的位置权重值，得到第一匹配值；其中，靠近待匹配文本片段末位的位置权重值高于靠近待匹配文本片段首位的位置权重值；

本申请实施例，将第j个待匹配文本片段中的每一个单词与识别文本中对应位置的单词进行字母的比对，如相同则输出1，如不同则输出0。在输出结果的基础上进一步引入位置权重，该位置权重用于指示根据该单词在待匹配顺序对应待匹配文本片段中的位置所分配的权重。为了进行语音跟踪，故文本末尾是否相似较于文本其它位置是否相似更为重要。具体而言，该单词越靠近文本的末端，权重越高，反之权重越低。

上述i则表示单词在识别文本或待匹配文本片段中的位置，以文本末端为起点，例如上述示例中的待匹配顺序1“determination to sweep away obstacles”，“obstacles”对应的i应为1，“away”对应的i应为3。需要说明的是，每个待匹配文本片段中的位置i均以文本末尾为起点。

进一步地，基于每个待匹配文本片段在待匹配文本列表的顺序对每个待匹配文本片段赋予顺序权重值，得到每个待匹配文本对应的第二匹配值；其中，靠近待匹配文本列表首位的顺序权重值高于靠近待匹配文本列表末位的顺序权重值。

在本实施例中，根据多个待匹配顺序，确定每个待匹配文本片段对应的第二匹配值，第二匹配值用于表征待匹配顺序与预设位置之间的文本距离。

其中，通常用户的发言是连贯的，所以当前时刻用户发言的位置，在理论上不应与预设位置相隔过远。进而对于待匹配文本列表中位置较为靠前的待匹配顺序(j较小的待匹配顺序)赋予较高优先级，对位置较为靠后的待匹配顺序(j较大的待匹配顺序)赋予较低优先级。即对于j较小的待匹配顺序，则第二匹配值较小，对相似度结果的影响小。对j较大的待匹配顺序，则第二匹配值较大，对相似度结果的影响大。也可以理解为，越靠近预设位置对应的第二匹配值越小，远离预设位置对应的第二匹配值越大。

最终，基于第一匹配值和第二匹配值生成匹配结果。

具体实现时，采用第二公式得出匹配结果，第二公式如下：

j_best＝argmax(sim_j)；

其中，j表示从0到j_max之间的多个待匹配顺序；j_max表示最后的待匹配顺序，即待匹配文本列表中最后一个待匹配顺序；k表示第j个待匹配顺序对应的文本长度；

为第一匹配值；α表示允许最大的顺序权重值，一般取0.1；

表示第二匹配值。j_best为匹配结果，表示匹配目标最好的待匹配顺序，即与识别文本最相似的待匹配顺序。

具体的，将每个待匹配文本片段中的字母与识别文本进行重合相似度匹配；控制器进一步被配置为：

将待匹配文本片段中每个单词对应的字母与识别文本中对应的字母按照从前至后的顺序进行比对，输出第三数值或第四数值；其中，若两个字母相同输出第三数值，若两个字母不相同输出第四数值。

具体实现时，采用第三公式得出第三数值或第四数值

第三公式如下：

其中，

表示第j个待匹配顺序中第i个单词(下文中的

)中第g个字母；

表示识别文本中第i个单词(下文中的

)中第g个字母。需要说明的是，上述第i个单词与第g个字母，均是从文本末尾单词/字母为起点向前推算，即文本的末尾单词/字母对应的i或g记为1，倒数第二个单词/字母对应的i或g记为2，以此类推。

表示针对识别文本中的第i个单词与第j个待匹配顺序对应文本中的第i个单词进行比较，如上述两个单词中第g个字母相同则输出1，反之不同则输出0。

进一步地，将单词中每个字母对应输出的第三数值或第四数值进行叠加，得到第三匹配值。并将待匹配文本片段中每个单词的全部字母与识别文本中单词的全部字母进行比对，确定两个单词中字母相同的比例，以生成第四匹配值。

具体实现时，采用第四公式基于第三匹配值和第四匹配值得到l(w¹,w^j)，第四公式如下：

其中，

表示识别文本中第i个单词，i，g为从单词末尾起点；

表示第j个待匹配顺序中第i个单词，

为第三匹配值，表示针对识别文本中的第i个单词与第j个待匹配顺序对应文本中的第i个单词，计算两个单词中第g个字母相同的比例，其中，z表示第i个单词的字母总数；

为第四匹配值，表示针对识别文本中的第i个单词与第j个待匹配顺序对应文本中的第i个单词，计算两个单词中存在相同字母占字母总数的比例，即将两个单词所包含的字母分别构建两个集合，比较上述两个集合中字母重合的比例；intersection函数表示w¹和w^j中的字母集合的重合个数；len函数表示w¹与w^j对应的字母集合中的字母个数。

需要说明的是，由于英文受时态、单复数等语法影响，提词器产品在实际使用过程中存在以下情况：用户发言时由于口误，将待跟踪文本中某个单词读成另一个单词，进而造成识别文本与待跟踪文本不同。但从语音跟踪的角度，其所需跟踪的位置仍然是待跟踪文本中对应单词的位置。示例性的，用户将待跟踪文本中的throw读成threw。虽然单词不同，但该不同是因为用户口误造成的，其需要跟踪的位置仍然是待跟踪文本中throw对应的位置。

对此，本申请在将第j个待匹配顺序对应文本中的每一个单词与识别文本中对应位置的单词进行字母的比对的过程中，并非单纯的一一比较，而是采取了顺序比较与非顺序比较综合计算的方式。其中，顺序比较指的是上述公式中得到的第三匹配值，非顺序比较指的是上述公式中得到的第四匹配值。

具体而言，在计算l(w¹,w^j)的过程中，首先对于识别文本中的第j个单词(称为单词1)与第j个待匹配顺序对应文本中的第j个单词(称为单词2)，按照字母的顺序进行一一比较。如单词1与单词2中，同一位置的字母相同，则

输出1，反之则输出0。而对于单词1与单词2中的全部字母，通过

将上述结果叠加，即可确定顺序比较中单词1与单词2的相似度。在此基础上，进一步将单词1与单词2中的所有字母分别构建一集合，通过比较两个集合中字母重合的比例，即通过

即可确定非顺序比较中单词1与单词2的相似度。最后，根据不同的权重赋值，进而最终确定单词1与单词2的相似度。

进一步地，基于每个待匹配文本片段在待匹配文本列表的顺序，对每个待匹配文本片段赋予顺序权重值，得到每个待匹配文本对应的第五匹配值；其中，靠近待匹配文本列表首位的顺序权重值高于靠近待匹配文本列表末位的顺序权重值。

最终，基于第三匹配值、第四匹配值和第五匹配值生成匹配结果。

具体实现时，采用第五公式得出匹配结果，第五公式如下：

j_best＝argmax(sim_j)；

其中，j表示从0到j_max之间的多个待匹配顺序；j_max表示最大的待匹配顺序，即待匹配文本列表最后一个待匹配顺序；k表示第j个待匹配顺序对应的文本长度(单词个数)；α表示允许最大的顺序权重值，一般取0.1；

表示第五匹配值；j_best为匹配结果，表示匹配目标最好的待匹配顺序，即与识别文本最相似的待匹配顺序。

需要说明的是，基于单词相似度匹配以及重合相似度匹配生成每个待匹配文本片段对应的单词相似值和重合相似值。即采用单词相似度匹配和/或重合相似度匹配均可确定最后的匹配结果。特别地，本申请可以将单词相似值与重合相似值之间的最大值确定为匹配结果，或将单词相似值与重合相似值的平均值确定为匹配结果。本申请不对相似度匹配过程进行具体限定，可根据实际情况进行设计。

S4、基于匹配结果确定目标位置，以指示显示器将目标位置显示在待跟踪文本中。

示例性的，若“待匹配顺序3：sweep away obstacles to our”为最相似的待匹配顺序，则当前时刻的目标位置为“sweep away obstacles to our”中的最后“our”。并将目标位置呈现在用户界面中。即待跟踪文本“sapping our determination to sweep awayobstacles to our success and strangling our desire for the refinement of ourcharacter……”中“sweep away obstacles to our”的最后“our”。

本申请实施例中，待完成上述目标位置的确定后，考虑到提词器在实现过程中，提词器进行语音识别以及上述相似度计算均需要一定的时间。进而，在该时间内用户可能又存在后续发言，故将目标位置呈现在用户界面中时，其标记显示的位置是上述目标位置之后。示例性的，目标位置为“sweep away obstacles to our”的最后“our”。在实际计算得到结果时，用户很有可能往后继续诵读，故在用户界面呈现的最终跟踪位置为在“our”的基础上直接向后跨越预设数量单词/字母。其中，预设数量单词/字母可根据实际情况自行设置。由上述方案可知，本申请通过上述提前机制，提词器在实际使用过程中不会出现用户实际发言位置提前于显示在用户界面的语音跟踪位置，避免了用户出现延迟感受。

在本实施例中，采集并识别当前用户输入的语音数据之前，控制器还被配置为：

判断待跟踪文本中是否存在数字文本；在待跟踪文本中存在数字文本的情况下，采用预设NLP模型对待跟踪文本进行检测，确定数字文本对应的数字类型，以根据不同的数字类型进行对应的相似度匹配。

具体实现时，在数字文本为第一类数字类型如电话号码等没有大小、顺序、位数概念的数字，一般用户会直接读每一位的数字即识别文本为每一位的数字。而在数字文本为第二类数字类型如金额、计数等有大小、顺序、位数概念的数字，一般用户会在发言中加入“hundred、thousand、million”等其他内容即识别文本为每一个位数字对应的单词单位。进而，可以事先对数字类型进行识别后采用对应的相似度匹配处理。

在数字类型为第一类数字类型的情况下，识别用户输入的语音数据，得到识别数字文本；对数字文本进行数字相似度匹配，以确定匹配结果。基于匹配结果确定目标位置，以指示显示器将目标位置显示在待跟踪文本中。其中，数字相似度匹配与上述单词相似度匹配类似，在此不再赘述。

在数字类型为第二类数字类型的情况下，识别用户输入的语音数据，得到识别数字文本；对数字文本进行重合相似度匹配，以确定匹配结果；基于匹配结果确定目标位置，以指示显示器将目标位置显示在待跟踪文本中。其中，重合相似度匹配与上述对字母进行重合相似度匹配类似，在此不再赘述。

应该理解的是，虽然图1至图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其他的顺序执行。而且，图1至图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

根据本申请实施例的又一个方面，还提供了一种英文文本跟踪方法，方法具体包括以下步骤：采集并识别当前用户输入的语音数据，得到识别文本；其中，识别文本包括至少一个单词，每个单词由至少一个字母构成。基于预设位置对识别文本进行预处理，生成待匹配文本列表；其中，待匹配文本列表包括多个待匹配文本片段，每个待匹配文本片段按照预设顺序位于待匹配文本列表中。将每个待匹配文本片段中的单词与识别文本进行单词相似度匹配和/或重合相似度匹配，生成匹配结果。基于匹配结果确定目标位置，以指示将目标位置显示在待跟踪文本中。

根据本申请实施例的又一个方面，还提供了一种用于实施上述英文文本跟踪方法的电子设备，上述电子设备可以为提词器且不限于应用于服务器中。如图4所示，该电子设备包括存储器402和处理器404，该存储器402中存储有计算机程序，该处理器404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行上述任一项方法实施例中的步骤，在此不再赘述。

可选地，本领域普通技术人员可以理解，图4所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图4其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图4中所示更多或者更少的组件(如网络接口等)，或者具有与图4所示不同的配置。

其中，存储器402可用于存储软件程序以及模块，如本申请实施例中的语音跟踪方法和装置对应的程序指令/模块，处理器404通过运行存储在存储器402内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音跟踪方法。存储器402可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器402可进一步包括相对于处理器404远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器402具体可以但不限于用于储存英文文本跟踪方法的程序步骤。

可选地，上述的传输装置406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置406包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置406为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器408，用于显示语音跟踪方法过程；和连接总线410，用于连接上述电子设备中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

本申请提供了一种提词器及英文文本跟踪方法、存储介质、电子设备。在目标文本为英文文本的场景下，本申请提供的提词器通过识别用户输入的语音数据得到识别文本并基于识别文本确定待匹配文本列表。接着，利用两种相似度匹配处理方式将待匹配文本列表与识别文本进行匹配，进一步实现理想文本位置跟踪。解决了相关技术中用户在基于提词器进行跟读时存在串行等情况，以及无法保证流畅的跟读效果的问题。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其他的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种提词器，其特征在于，包括：

显示器，所述显示器被配置为显示待跟踪文本；

与所述显示器连接的控制器，被配置为：

采集并识别当前用户输入的语音数据，得到识别文本；其中，所述识别文本包括至少一个单词，每个所述单词由至少一个字母构成；

基于预设位置对所述识别文本进行预处理，生成待匹配文本列表；其中，所述待匹配文本列表包括多个待匹配文本片段，每个所述待匹配文本片段按照预设顺序位于所述待匹配文本列表中；

将每个所述待匹配文本片段中的单词与所述识别文本进行单词相似度匹配和/或重合相似度匹配，生成匹配结果；

基于所述匹配结果确定目标位置，以指示所述显示器将所述目标位置显示在所述待跟踪文本中。

2.根据权利要求1所述的提词器，其特征在于，将每个所述待匹配文本片段中的所述单词与所述识别文本进行单词相似度匹配；所述控制器进一步被配置为：

将每个所述待匹配文本片段中每个单词与所述识别文本中对应的单词进行比对，输出第一数值或第二数值；其中，若两个单词相同输出第一数值，若两个单词不相同输出第二数值；

基于输出的第一数值或第二数值以及每个所述单词位于所述待匹配文本片段的位置设置每个单词的位置权重值，得到第一匹配值；其中，靠近所述待匹配文本片段末位的所述位置权重值高于靠近所述待匹配文本片段首位的所述位置权重值；

基于每个所述待匹配文本片段在所述待匹配文本列表的顺序对每个所述待匹配文本片段赋予顺序权重值，得到每个所述待匹配文本对应的第二匹配值；其中，靠近所述待匹配文本列表首位的所述顺序权重值高于靠近所述待匹配文本列表末位的所述顺序权重值；

基于所述第一匹配值和所述第二匹配值生成所述匹配结果。

3.根据权利要求1所述的提词器，其特征在于，将每个所述待匹配文本片段中的所述字母与所述识别文本进行重合相似度匹配；所述控制器进一步被配置为：

将所述待匹配文本片段中每个单词对应的字母与所述识别文本中对应的字母按照从前至后的顺序进行比对，输出第三数值或第四数值；其中，若两个字母相同输出第三数值，若两个字母不相同输出第四数值；

将所述单词中每个字母对应输出的第三数值或第四数值进行叠加，得到第三匹配值；

将所述待匹配文本片段中每个单词的全部字母与所述识别文本中单词的全部字母进行比对，确定两个所述单词中字母相同的比例，以生成第四匹配值；

基于每个所述待匹配文本片段在所述待匹配文本列表的顺序，对每个所述待匹配文本片段赋予顺序权重值，得到每个所述待匹配文本对应的第五匹配值；其中，靠近所述待匹配文本列表首位的所述顺序权重值高于靠近所述待匹配文本列表末位的所述顺序权重值；

基于所述第三匹配值、所述第四匹配值和所述第五匹配值生成所述匹配结果。

4.根据权利要求1所述的提词器，其特征在于，基于所述单词相似度匹配以及所述重合相似度匹配生成每个所述待匹配文本片段对应的单词相似值和重合相似值；将每个所述待匹配文本片段中的所述单词与所述识别文本进行单词相似度匹配和重合相似度匹配，以确定匹配结果；所述控制器进一步被配置为：

将所述单词相似值与所述重合相似值之间的最大值确定为所述匹配结果，或将所述单词相似值与所述重合相似值的平均值确定为所述匹配结果。

5.根据权利要求2-4任一项中所述的提词器，其特征在于，所述采集并识别当前用户输入的语音数据之前，所述控制器还被配置为：

判断所述待跟踪文本中是否存在数字文本；

在所述待跟踪文本中存在所述数字文本的情况下，采用预设NLP模型对所述待跟踪文本进行检测，确定所述数字文本对应的数字类型，以根据不同的所述数字类型进行对应的相似度匹配。

6.根据权利要求5所述的提词器，其特征在于，在所述数字类型为第一类数字类型的情况下，所述控制器还被配置为：

识别用户输入的所述语音数据，得到识别数字文本；

对所述数字文本进行数字相似度匹配，以确定所述匹配结果；

7.根据权利要求5所述的提词器，其特征在于，在所述数字类型为第二类数字类型的情况下，所述控制器还被配置为：

识别用户输入的所述语音数据，得到识别数字文本；

对所述数字文本进行重合相似度匹配，以确定所述匹配结果；

8.一种英文文本跟踪方法，其特征在于，所述方法具体包括以下步骤：

基于所述匹配结果确定目标位置，以指示将所述目标位置显示在所述待跟踪文本中。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求8中所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求8中所述的方法。