CN113448430B

CN113448430B - 文本纠错的方法、装置、设备和计算机可读存储介质

Info

Publication number: CN113448430B
Application number: CN202010222088.7A
Authority: CN
Inventors: 谭敏
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Chengdu ICT Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Chengdu ICT Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2023-02-28
Anticipated expiration: 2040-03-26
Also published as: CN113448430A

Abstract

本发明实施例提供一种文本纠错的方法、装置、设备和计算机可读存储介质。该文本纠错方法包括：显示语音识别文本；接收用户眼睛在语音识别文本的聚焦点，确定聚焦点的驻留信息，驻留信息包括驻留时长；当驻留时长满足预设条件时，确定聚焦点对应的待修改文本，并显示待修改文本的候选文本；当聚焦点移动时，确定对应聚焦点移动时刻的候选文本；将待修改文本修改为对应聚焦点移动时刻的候选文本。本发明实施例能够在无需用户输入的情况下，方便、快捷的纠正文本出现的错误识别，并且能够实现快速、准确的纠正文本错误。

Description

文本纠错的方法、装置、设备和计算机可读存储介质

技术领域

本发明涉及语音识别领域，尤其涉及一种文本纠错的方法、装置、设备和计算机可读存储介质。

背景技术

随着社会的不断发展和进步，在很多领域和场景下都会用到语音识别。例如：工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

由于每个人语速、语调和发音都不一样，在语音识别出现错误的情况下，一种是传统的纠错方式，人工手动输入来纠正，通过手动输入纠正错误文本，尤其是对于长段文本的情况操作太繁琐，不方便用户的使用；另一种是需要模型训练，需要根据历史输入或者历史数据来提高语音识别率或纠错率，但是，在识别结果之前进行处理，还是存在较高的语音识别错误率。因此，无论是传统的纠错方式还是智能的纠错方式，都会出现无法纠错或者纠错不理想的问题，为用户的使用带来不便。

发明内容

本发明实施例提供了一种文本纠错的方法、装置、设备和计算机可读存储介质，无需用户输入，能够方便、快捷的纠正文本出现的错误识别，并且能够实现快速、准确的纠正。

第一方面，本发明提供一种文本纠错的方法，方法包括：

显示语音识别文本；

接收用户眼睛在语音识别文本的聚焦点，确定聚焦点的驻留信息，所述驻留信息包括驻留时长；

当驻留时长满足预设条件时，确定聚焦点对应的待修改文本，并显示待修改文本的候选文本；

当聚焦点移动时，确定对应聚焦点移动时刻的候选文本；

将待修改文本修改为对应聚焦点移动时刻的候选文本。

在第一方面的一些可实现方式中，在显示待修改文本的候选文本之后，方法还包括：若聚焦点不移动，则继续显示待修改文本的候选文本。

在第一方面的一些可实现方式中，显示待修改文本的候选文本，包括：根据预先设置显示方式，循环显示待修改文本的候选文本。

在第一方面的一些可实现方式中，在显示待修改文本的候选文本之前，方法还包括：设置候选文本的显示优先级，以用于根据显示优先级显示候选文本。

在第一方面的一些可实现方式中，在显示语音识别文本之前，方法还包括：接收语音信息；

将语音信息识别为语音识别文本。

第二方面，本发明提供一种文本纠错的装置，该装置包括：显示模块，用于显示语音识别文本；

接收模块，用于接收用户眼睛在语音识别文本的聚焦点，确定聚焦点的驻留信息，驻留信息包括待修改文本和驻留时长；

当驻留时长满足预设条件时，显示模块，还用于显示待修改文本的候选文本；

确定模块，用于当聚焦点移动时，确定对应聚焦点移动时刻的候选文本；

纠错模块，将待修改文本修改为对应聚焦点移动时刻的候选文本。

在第二方面的一些可实现方式中，若聚焦点不移动，显示模块，还用于继续显示待修改文本的候选文本。

在第二方面的一些可实现方式中，显示模块，还用于根据预先设置显示方式，循环显示待修改文本的候选文本。

第三方面，本发明提供一种文本纠错的设备，该设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现第一方面或者第一方面任一可实现方式中所述的文本纠错方法。

第四方面，本发明提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面或者第一方面任一可实现方式中的文本纠错方法。

本发明实施例提供了一种文本纠错方法，显示语音识别文本后，通过接收用户眼睛在语音识别文本的聚焦点，并确定聚焦点的驻留信息，无需用户动手确定需纠错的文本位置，能够减少用户手动操作，然后根据驻留信息中的待修改文本和驻留时长，若判断聚焦点的文本需要修改，则通过显示待修改文本的候选文本，然后根据聚焦点的移动情况确定待修改文本的候选文本，通过本发明实施例提供的文本纠错方法，有效解决了文本较多且有纠错需求，需要手动输入的痛点，实现快速、准确的纠正文本错误。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本纠错方法的流程示意图；

图2是本发明实施例提供的另一种文本纠错方法的流程示意图；

图3是本发明实施例提供的一种文本纠错装置的结构示意图；

图4是本发明实施例提供的一种文本纠错设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和 B，单独存在B这三种情况。

由于每个人语速、语调和发音都不一样，在语音识别出现错误的情况下，一种是传统的纠错方式，人工手动输入来纠正，通过手动输入纠正错误文本，尤其是对于长段文本的情况操作太繁琐，不方便用户的使用。

另一种是需要模型训练，需要根据历史输入或者历史数据来提高语音识别率或纠错率，但是，在识别结果之前进行处理，还是存在较高的语音识别错误率。

此外，还有对语音识别后的文本进行识错分析，通过确定文本语句所属领域，然后根据预定义的语法规则对识别文本的句子进行切分，再利用搜索引擎进行字符串模糊匹配确定识别文本中是否存在错误，然后对错误部分输出纠错结果。

由上述可知，无论是传统的纠错方式还是智能的纠错方式，都会出现无法纠错或者纠错不理想的问题，为用户的使用带来困扰和不便。例如：对于长段文本，通过手动输入纠正错误文本，操作太繁琐；或者，通过确定文本所属的领域进行文本纠错，如果领域覆盖不全，仍会出现无法纠错或者纠错不理想的问题。

针对于此，本发明实施例提供了一种文本纠错的方法、装置、设备和计算机可读存储介质，无需用户输入，能够方便、快捷的纠正文本出现的错误识别，并且能够实现快速、准确的纠正。下面结合附图对本发明实施例所提供的文本纠错的方法进行介绍。

图1是本发明实施例提供的一种文本纠错的方法的流程示意图。该方法可以应用于能够识别语音的用户设备，如图1所示，该文本纠错方法可以包括S101-S105。

在执行S101-S105之前，用户设备可以根据接收语音信息，将语音信息识别为语音识别文本。

在用户设备接收到用户输入的语音信息后，经过处理器将输入的语音信息识别为文本信息；或者是，将用户输入的语音信息发送到处理单元，由处理单元识别语音信息为文本信息后，将文本信息返回至用于显示文本信息的用户设备上。

当用户设备获取到语音识别文本后，执行S101。

S101、显示语音识别文本。

在一些实施例中，语音识别文本在用户设备的显示界面显示后，用户会对检查显示的语音识别文本是否存在识别错误。

S102、用户设备接收用户眼睛在语音识别文本的聚焦点，确定聚焦点的驻留信息。

其中，驻留信息可以包括聚焦点的驻留时长。

在一些实施例中，用户通过眼睛查看语音识别文本，用户设备接收到的聚焦点包括移动状态和驻留状态，根据接收到的用户眼睛在语音识别文本的聚焦点，确定用户眼睛在不同位置的聚焦点的驻留时长。

在一些实施例中，当用户在查看文本发现有错误时，用户眼睛的聚焦点会在文本有错误的位置驻留。

S103、当驻留时长满足预设条件时，确定聚焦点对应的待修改文本，并显示待修改文本的候选文本。

在一些实施例中，用户设备可以提前设置用于判断聚焦点所在的文本位置是否为有误文本的时间阈值。

当用户眼睛的聚焦点所在位置的驻留时长超过预先设置的时间阈值时，将聚焦点所在位置的文本确定为待修改文本。

在一些实施例中，用户设备根据待修改文本，获取并显示待修改文本的候选文本。

在一些实施例中，用户设备可以根据预先设置显示方式，显示待修改文本的候选文本，例如，预先设置候选文本的显示方式为循环显示，则在确定了需要修改的待修改文本后，用户设备循环显示待修改文本的候选文本。

作为一个具体的实例，候选文本在显示时，可以直接替换待修改文本，并在用户做出对候选文本的选择之前，候选文本循环替换待修改文本。

在一些实施例中，用户设备还可以设置候选文本的显示优先级，以用于根据显示优先级显示候选文本。

作为一个具体的实例，候选文本可以是一些常用组合词或者是常用字，在待修改文本需要显示候选文本时，会优先显示待修改文本对应的候选文本中优先级高的候选文本。

当聚焦点移动时，用户设备可以执行S104。

S104、当聚焦点移动时，确定对应聚焦点移动时刻的候选文本。

S105、将待修改文本修改为对应聚焦点移动时刻的候选文本。

在待修改文本对应的候选文本中，若出现用户需要的候选文本时，则用户眼睛的聚焦点移动，并将待修改文本修改为用户眼睛聚焦点移动时刻的候选文本。

在待修改文本对应的候选文本中，若未出现用户需要的候选文本时，则用户眼睛的聚焦点不移动，因此，继续显示待修改文本的候选文本。

在一些实施例中，在待修改文本修改正确以后，若用户未检查完语音识别文本，则用户会继续查看语音识别文本，即用户眼睛的聚焦点会继续在语音识别文本移动或者驻留，则继续执行S102-S105，直到整个语音识别文本全部检查完成，对语音识别文本后的纠错过程结束。

本发明实施例提供的文本纠错方法，在语音识别文本的过程中引入眼睛聚焦技术，当语音识别完成后，在用户查看语音文本识别结果时如果出现错误文本，采用眼睛聚焦的方式来进行纠错，而无需用户手动输入来修改错误文本，同时在眼睛聚焦纠错的过程中，使用眼睛移动和停留的阈值来决定是否需要纠错，以及是否纠正正确。操作简单易上手，在语音识别能够解放用户双手的同时，也使纠正语音识别的文本错误的过程进一步的减少了用户的操作量，解放用户双手，为用户带来便利和快捷。

图2是本发明实施例提供的另一种可以应用于用户设备的文本纠错的方法的流程示意图；下面对图2所示的文本纠错方法做进一步的说明，该用于用户设备的文本纠错方法可以包括步骤S201-S207。

S201、识别语音。

用户设备录取待识别的语音数据，用户设备可以将待识别的语音数据上传到语音识别的处理单元；处理单元接收到待识别的语音数据，对待识别的语音数据进行识别，得到识别结果，即待识别语音数据对应的文本信息，然后将识别获得的文本信息返回给用户设备。

S202、用户设备展示识别结果。

用户设备将识别获得的语音的识别结果展示在显示界面后，执行S203。

S203、接收眼睛聚焦扫描。

由于用户会对识别的语音识别结果进行查看，即用户对展示的语音识别结果通过眼睛聚焦扫描，因此，用户设备可以通过接收到用户眼睛的聚焦点，并根据接收到的用户眼睛的聚焦点，判断语音识别结果是否有错误。

当判断语音识别结果没有错误时，继续执行S203。

当判断语音识别结果存在错误时，执行S204。

S204、修改聚焦点字或词。

当用户发现语音识别结果存在错误，有文本需要修改时，用户设备根据用户的眼睛聚焦的待修改文本的位置，以及预设的时间阈值，对当前聚焦位置的待修改文本进行循环修改，在修改时可以优先显示优先级高的待修改文本的候选文本，并根据聚焦点的移动时刻判断显示的候选文本是否为用户所需的候选文本。

当显示的候选文本不是用户所需的候选文本，则继续执行S204。

当显示的候选文本为用户所需的候选文本时，执行S205。

S205、将待修改文本修改为用户所需的修改文本。

在完成上述对待修改文本的修改后，则继续执行S203。

若用户眼睛的聚焦点不再继续扫描语音识别结果，则确定文本纠错过程结束。

本发明实施例提供的文本纠错方法，在语音识别文本的过程中引入眼睛聚焦技术，当语音识别完成后，在用户查看语音文本识别结果时如果出现错误文本，采用眼睛聚焦的方式来进行纠错，而无需用户手动输入来修改错误文本，同时在眼睛聚焦纠错的过程中，使用眼睛移动和停留的阈值来决定是否需要纠错，以及是否纠正正确，操作简单易上手，在语音识别能够解放用户双手的同时，也使纠正语音识别的文本错误的过程进一步的减少了用户的操作量，解放用户双手，为用户带来便利和快捷。

基于本发明实施例提供的一种文本纠错方法的具体实现方式，本发明还提供了一种文本纠错装置的具体实现方式。图3是本发明实施例提供的一种文本纠错装置的结构示意图；如图3所示，该文本纠错装置可以包括：显示模块301、接收模块302、确定模块303、纠错模块304。

具体的，显示模块301，用于显示语音识别文本；

接收模块302，用于接收用户眼睛在语音识别文本的聚焦点，确定聚焦点的驻留信息，驻留信息包括待修改文本和驻留时长；

当驻留时长满足预设条件时，显示模块301，还用于显示待修改文本的候选文本；

确定模块303，用于当聚焦点移动时，确定对应聚焦点移动时刻的候选文本；

若聚焦点不移动，显示模块，还用于继续显示待修改文本的候选文本。

其中，显示模块301，还用于根据预先设置显示方式，循环显示待修改文本的候选文本。

纠错模块304，将待修改文本修改为对应聚焦点移动时刻的候选文本。

文本纠错装置还可以包括处理模块，用于设置候选文本的显示优先级，以用于显示模块301根据显示优先级显示候选文本。

文本纠错装置还可以包括识别模块，用于接收语音信息，将语音信息识别为语音识别文本。

可以理解的是，本发明实施例的文本纠错装置，可以对应于本发明实施提供的文本纠错方法的执行主体，文本纠错装置的各个模块/单元的操作和/或功能的具体细节可以参见上述本发明实施例提供的文本纠错方法中的相应部分的描述，为了简洁，在此不再赘述。

本发明实施例提供的文本纠错装置，在语音识别文本的过程中引入眼睛聚焦技术，当语音识别完成后，在用户查看语音文本识别结果时如果出现错误文本，采用眼睛聚焦的方式来进行纠错，而无需用户手动输入来修改错误文本，同时在眼睛聚焦纠错的过程中，使用眼睛移动和停留的阈值来决定是否需要纠错，以及是否纠正正确，操作简单易上手，在语音识别能够解放用户双手的同时，也使纠正语音识别的文本错误的过程进一步的减少了用户的操作量，解放用户双手，为用户带来便利和快捷。

基于本发明实施例提供的文本纠错方法的具体实现方式，本发明还提供了一种文本纠错设备的结构示意图。图4是本发明实施例提供的一种文本纠错设备的结构示意图。

如图4所示，本实施例中的文本纠错设备400包括输入设备401、输入接口402、中央处理器403、存储器404、输出接口405、以及输出设备406。其中，输入接口402、中央处理器403、存储器404、以及输出接口405通过总线410相互连接，输入设备401和输出设备406分别通过输入接口402 和输出接口405与总线410连接，进而与文本纠错设备400的其他组件连接。

具体地，输入设备401接收来自外部的输入信息，并通过输入接口402 将输入信息传送到中央处理器403；中央处理器403基于存储器404中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器404中，然后通过输出接口405将输出信息传送到输出设备406；输出设备406将输出信息输出到文本纠错设备400的外部供用户使用。

也就是说，图4所示的文本纠错设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现本发明实施例提供的文本纠错方法。

在一个实施例中，图4所示的文本纠错设备400包括：存储器404，用于存储程序；中央处理器403，用于运行存储器中存储的程序，以执行本发明实施例提供的文本纠错方法。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现本发明实施例提供的文本纠错方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，例如，其可以是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory， ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种文本纠错的方法，其特征在于，所述方法包括：

显示语音识别文本；

接收用户眼睛在所述语音识别文本的聚焦点，确定所述聚焦点的驻留信息，所述驻留信息包括驻留时长；

当所述驻留时长满足预设条件时，确定所述聚焦点对应的待修改文本，并显示所述待修改文本的候选文本；

当所述聚焦点移动时，确定对应所述聚焦点移动时刻的候选文本；

将所述待修改文本修改为对应所述聚焦点移动时刻的候选文本；

候选文本在显示时，直接替换待修改文本，并在用户做出对候选文本的选择之前，候选文本循环替换待修改文本。

2.根据权利要求1所述的方法，其特征在于，在所述显示所述待修改文本的候选文本之后，所述方法还包括：

若所述聚焦点不移动，则继续显示所述待修改文本的候选文本。

3.根据权利要求2所述的方法，其特征在于，所述显示所述待修改文本的候选文本，包括：

根据预先设置显示方式，循环显示所述待修改文本的候选文本。

4.根据权利要求1所述的方法，其特征在于，在所述显示所述待修改文本的候选文本之前，所述方法还包括：

设置所述候选文本的显示优先级，以用于根据所述显示优先级显示所述候选文本。

5.根据权利要求1所述的方法，其特征在于，在所述显示语音识别文本之前，所述方法还包括：

接收语音信息；

将所述语音信息识别为所述语音识别文本。

6.一种文本纠错的装置，其特征在于，所述装置包括：

显示模块，用于显示语音识别文本；

接收模块，用于接收用户眼睛在所述语音识别文本的聚焦点，确定所述聚焦点的驻留信息，所述驻留信息包括驻留时长；

当所述驻留时长满足预设条件时，所述显示模块，还用于确定所述聚焦点对应的待修改文本，并显示所述待修改文本的候选文本；

确定模块，用于当所述聚焦点移动时，确定对应所述聚焦点移动时刻的候选文本；

纠错模块，将所述待修改文本修改为对应所述聚焦点移动时刻的候选文本；

7.根据权利要求6所述的装置，其特征在于，若所述聚焦点不移动，所述显示模块，还用于继续显示所述待修改文本的候选文本。

8.根据权利要求7所述的装置，其特征在于，所述显示模块，还用于根据预先设置显示方式，循环显示所述待修改文本的候选文本。

9.一种文本纠错的设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-5任意一项所述的文本纠错方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的文本纠错方法。