CN107622054B

CN107622054B - 文本数据的纠错方法及装置

Info

Publication number: CN107622054B
Application number: CN201710884649.8A
Authority: CN
Inventors: 刘迪源; 潘嘉; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2020-12-22
Anticipated expiration: 2037-09-26
Also published as: CN107622054A

Abstract

本发明实施例提供一种文本数据的纠错方法及装置，属于文本处理领域。该方法包括：获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息；纠错信息至少包括错误词和/或纠错词；根据纠错特征词匹配对应的自定义纠错规则，根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错。由于自定义纠错规则为用户自定义的个性化语音纠错规则，从而用户可根据自身的语言习惯定义纠错规则，而不用按照基本纠错规则的固定形式说出纠错语音指令，从而纠错过程比较智能方便，提高了用户体验。

Description

文本数据的纠错方法及装置

技术领域

本发明实施例涉及文本处理领域，更具体地，涉及一种文本数据的纠错方法及装置。

背景技术

随着人工智能相关技术的日益成熟，越来越多的智能设备进入用户的生活中，人与机器的交互日渐平常。其中，语音输入是人机交互中最自然且最便捷的方式，它可以解放人的双手，从而使用范围越来越广泛。目前，语音输入的过程通常是由智能设备将用户输入的语音数据转化为文本数据，从而对文本数据进行显示或者基于文本数据执行相应的指令。另外，现在许多的智能设备还提供语音纠错的功能，即让用户可以通过语音输入的方式对智能设备显示的文本数据进行纠错，从而可进一步解放了人的双手，大大提高了用户体验。

相关技术中在对文本数据进行纠错时，通常需要预先设置较多的纠错规则，用户必需按照预先设置的规则说出相应的纠错语音指令，系统才可正确找到错误词或纠错词，从而对待纠错文本数据进行纠错。当用户说的纠错语音指令在纠错系统中没有找到匹配的预先设置的纠错规则时，则无法对待纠错文本数据进行纠错。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文本数据的纠错方法及装置。

根据本发明实施例的第一方面，提供了一种文本数据的纠错方法，该方法包括：

获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息；纠错信息至少包括错误词和/或纠错词；

根据纠错特征词匹配对应的自定义纠错规则，根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错；

其中，自定义纠错规则为用户自定义的个性化语音纠错规则，自定义纠错规则与纠错系统中预先设置的基本纠错规则各自所包括的纠错特征词不同。

本发明实施例提供的方法，通过获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息。根据纠错特征词匹配对应的自定义纠错规则，根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错。由于自定义纠错规则为用户自定义的个性化语音纠错规则，从而用户可根据自身的语言习惯定义纠错规则，而不用按照基本纠错规则的固定形式说出纠错语音指令，从而纠错过程比较智能方便，提高了用户体验。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，该方法还包括：

若判断获知首次使用自定义纠错规则纠错失败且使用纠错系统中的基本纠错规则纠错成功，将自定义纠错规则与纠错成功所使用的基本纠错规则作为同一功能的纠错规则，并在纠错系统中添加自定义纠错规则；和/或，

获取自定义纠错规则对应的添加指令，根据添加指令在纠错系统中添加自定义纠错规则。

结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，该方法还包括：

对待纠错文本数据进行分词，获取第一分词结果；

基于自定义指代词库，若判断获知第一分词结果对应的各分词中存在自定义指代词，确定各分词中存在的自定义指代词在自定义指代词库中所对应的替换词，并基于替换词替换待纠错文本数据中对应的分词。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，该方法还包括：

根据历史操作记录，生成对应的自定义指代词及替换词，并添加至自定义指代词库中。

结合第一方面的第一种可能的实现方式，在第五种可能的实现方式中，该方法还包括：

对待纠错文本数据进行分词处理，获取第二分词结果；

将第二分词结果中各分词与历史纠错记录进行匹配，根据得到的匹配结果对待纠错文本数据进行纠错。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，历史纠错记录至少包括纠错词及错误词；相应地，将第二分词结果中各分词与历史纠错记录进行匹配，根据得到的匹配结果对待纠错文本数据进行纠错，包括：

若判断获知各分词中存在与历史纠错记录中的错误词相匹配的分词，根据历史纠错记录中的纠错词，对待纠错文本数据中对应的分词进行纠错。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，根据历史纠错记录中的纠错词，对待纠错文本数据中对应的分词进行纠错，包括：

若判断获知历史纠错记录对应的纠错操作次数大于预设阈值，将历史纠错记录中的纠错词替换待纠错文本数据中对应的分词；和/或，

在将历史纠错记录中的纠错词替换待纠错文本数据中对应的分词后，将得到的替换结果输入至预设语言模型中输出得到第一分值，将待纠错文本数据输入至预设语言模型中输出得到第二分值，若第一分值大于第二分值，则将替换结果作为对待纠错文本数据进行纠错后的结果。

根据本发明实施例的第二方面，提供了一种文本数据的纠错装置，包括：

第一获取模块，用于获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息；纠错信息至少包括错误词和/或纠错词；

第一纠错模块，用于根据纠错特征词匹配对应的自定义纠错规则，根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错；

根据本发明实施例的第三方面，提供了一种文本数据的纠错设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文本数据的纠错方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文本数据的纠错方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种文本数据的纠错方法的流程示意图；

图2为本发明实施例的一种文本数据的纠错装置的框图；

图3为本发明实施例的一种文本数据的纠错设备的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

随着语音识别技术的发展，语音识别技术的应用领域越来越广，使用语音发起搜索或发起其它操作的用户也越来越多。目前，语音输入的过程通常是由智能设备对用户输入的语音数据进行识别，并将该语音数据转化为文本数据，从而对文本数据进行显示或者基于文本数据执行相应的操作。由于识别语音数据时可能会存在识别错误，从而转化的文本数据也可能会存在错误。

针对上述情形，本发明实施例提供了一种文本数据的纠错方法。该方法可应用于带有语音识别功能的智能设备或系统，本发明实施例对此不作具体限定。为了便于描述，本发明实施例以执行主体为智能设备为例。该方法适用于对语音数据转化后的文本数据进行纠错的情形，还适用于直接对文本数据进行纠错的情形，本发明实施例对此不作具体限定。参见图1，该方法包括：101、获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息；102、根据纠错特征词匹配对应的自定义纠错规则，根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错。

在上述步骤101中，待纠错文本数据可以为用户输入语音数据后，由语音数据转化后的初始文本数据。但由于纠错过程可能会分几次进行，待纠错文本数据除了为上述初始文本数据之外，还可以为对初始文本数据进行若干次纠错后所得到的文本数据，本发明实施例对此不作具体限定。纠错语音指令可以为用户输入的用于对待纠错文本数据进行纠错的语音数据，为了便于执行后续纠错过程，可先将纠错语音指令也转化为相应的文本数据，并对该文本数据进行分词。将分词结果与自定义纠错规则进行匹配后得到纠错语音指令对应的纠错特征词和纠错信息。其中，纠错信息可至少包括错误词和/或纠错词。

纠错规则主要用于指示在文本数据不同的错误情形下，采用什么样的方式来修改文本数据。在本发明实施例中，纠错规则可以分为自定义纠错规则及预先设置的基本纠错规则。其中，自定义纠错规则与基本纠错规则可预先存储在纠错系统中，本发明实施例对此不作具体限定。自定义纠错规则为用户自定义的个性化语音纠错规则，自定义纠错规则与基本纠错规则各自所包括的纠错特征词不同。

为了便于理解纠错规则，现以基本纠错规则为例，对文本数据的纠错过程以及相关术语进行解释说明：

基本纠错规则一般分为三种类型，分别为替换性纠错规则、删除性纠错规则及插入性纠错规则，下面分别对上述三种基本纠错规则进行阐述。

替换性纠错主要是将文本数据中的错误词替换成相应的纠错词，替换性纠错规则可通过如下方式表示：把/将**改成/修改成**。

其中，“把/将”以及“改成/修改成”即为替换性纠错规则的纠错特征词。纠错特征词除了上述列举的内容之外，还可以为其它内容，如“改成”可以替换为“改为”。另外，前一个“**”代表错误词，后一个“**”代表纠错词。

替换性纠错规则对应的示例可如下所示：

待纠错文本数据：合肥到北京的火车票；

替换性纠错规则对应的纠错语音指令：把“合肥”修改为“南京”；

纠错后的文本数据：南京到北京的火车票。

在上述示例中，“合肥”为错误词，“南京”为纠错词。对于示例中的纠错语音指令，纠错特征词即为“把…改为”。错误词“合肥”及纠错词“南京”为纠错信息。另外，在上述示例及后续示例中，“/”表示前后两个词是或者的关系。

插入性纠错主要是在待纠错文本数据中插入纠错词，插入性纠错规则可通过如下方式表示：在**后面/前面加入/加上**。

其中，“在”、“后面/前面”及“加入/加上”为替换性纠错规则的纠错特征词。同理，对于插入性纠错而言，纠错特征词也不限于上述列举的内容。另外，前一个“**”代表纠错位置信息，后一个“**”代表纠错词。

插入性纠错规则对应的示例可如下所示：

待纠错文本数据：我想去打篮球；

插入性纠错规则对应的纠错语音指令：在“打篮球”前面加入“东校区体育馆”；

纠错后的文本数据：我想去东校区体育馆打篮球。

在上述示例中，“打篮球”为纠错位置信息，“东校区体育馆”为纠错词。对于示例中的纠错语音指令，纠错特征词即为“在…前面加入…”，纠错词“东林区体育馆”及纠错位置信息“打篮球”为纠错信息。

删除性纠错主要是将待纠错文本数据中的错误词删除，删除性纠错规则可通过如下方式表示：删除/去掉**后面/前面的“**”。

其中，“删除/去掉”及“后面/前面的”为删除性纠错规则的纠错特征词。同理，对于删除性纠错而言，纠错特征词也不限于上述列举的内容。另外，前一个“**”代表纠错位置信息，后一个“**”代表错误词。

删除性纠错规则对应的示例可如下所示：

待纠错文本数据：我的电话是五一二六八八八八；

删除性纠错规则对应的纠错语音指令：删除“六”后面的“八”；

纠错后的文本数据：我的电话是五一二六八八八。

在上述示例中，“六”为纠错位置信息，“八”为错误词。对于示例中的纠错语音指令，纠错特征词即为“删除…后面的…”。错误词“八”及纠错位置信息“六”为纠错信息。

上述三种基本纠错规则在对待纠错文本数据进行纠错时，可先识别纠错语音指令对应的文本数据中是否包含基本纠错规则对应的纠错特征词，如果包含的话，可根据包含的纠错特征词确定该纠错语音指令对应的纠错类型，如替换性、插入性或删除性。根据确定的纠错类型所对应的基本纠错规则与纠错语音指令对应的文本数据进行字符串匹配，从而确定相应的错误词和/或纠错词。当然，还可以将每种基本纠错规则直接与纠错语音指令对应的文本数据进行字符串匹配，从而确定错误词和/或纠错词。在确定错误词和/或纠错词后，可先找到待纠错文本数据中相应的纠错位置，以根据纠错位置、错误词和/或纠错词实现纠错。

由上述内容可知，纠错特征词用于指示对待纠错文本数据作什么类型的修改，错误词即为待纠错文本数据中多余或出现错误的字词，纠错词即为修改替换的目标，纠错位置信息即为对待纠错文本进行替换、插入或者删除时对应的修改位置。相应地，纠错信息可至少包括纠错位置信息，以及错误词和/或纠错词，本发明实施例对此不作具体限定。

由于用户在按照基本纠错规则对待纠错文本数据进行纠错时，需要按照基本纠错规则说出相应的纠错语音指令，而基本纠错规则可能会不符合用户的语言习惯，且当用户不清楚基本纠错规则的具体内容时，则无法对待纠错文本数据进行纠错，从而纠错过程不够智能方便。针对单一采用基本纠错规则进行纠错的弊端，本发明实施例可基于自定义纠错规则实现文本数据的纠错。其中，自定义纠错规则可同样至少包含纠错特征词，本发明实施例对此不作具体限定。

基于上述内容，在获取到用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词后，本发明实施例不对根据该纠错特征词匹配对应的自定义纠错规则的方式作具体限定，包括但不限于：若判断获知存在自定义纠错规则包含该纠错词特征，则将包含该纠错词特征的自定义纠错规则作为匹配的自定义纠错规则。

在确定纠错语音指令对应的纠错特征词所匹配的自定义纠错规则后，可根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错。其中，自定义纠错规则按照功能划分，同样可至少分为替换性、插入性及删除性这三种类型，本发明实施例对此不作具体限定。下面以若干具体示例对每种类型的自定义纠错规则进行解释说明：

替换性自定义纠错规则可通过如下方式表示：不是**而是**。

其中，“不是”以及“而是”即为替换性自定义纠错规则的纠错特征词。纠错特征词除了上述列举的内容之外，还可以为其它内容，如“不是”可以替换为“并非”，本发明实施例对此不作具体限定。前一个“**”代表错误词，后一个“**”代表纠错词。

替换性自定义纠错规则对应的示例可如下所示：

待纠错文本数据：合肥到北京的火车票；

替换性自定义纠错规则对应的纠错语音指令：不是“合肥”而是“南京”；

纠错后的文本数据：南京到北京的火车票。

在上述示例中，“合肥”为错误词，“南京”为纠错词。对于示例中的纠错语音指令，纠错特征词即为“不是…而是…”。错误词“合肥”及纠错词“南京”为纠错信息。

插入性自定义纠错规则可通过如下方式表示：在句尾/句首添加一个**。

其中，“在…添加”即为插入性自定义纠错规则的纠错特征词。同理，对于插入性纠错而言，纠错特征词也不限于上述列举的内容。“句尾/句首”代表纠错位置信息，“**”代表纠错词，“一个”代表纠错词数量。在本示例中，纠错信息还可以包括纠错词数量，本发明实施例对此不作具体限定。

插入性自定义纠错规则对应的示例可如下所示：

待纠错文本数据：我想去打篮球；

插入性自定义纠错规则对应的纠错语音指令：在句首前面加入一个“今天”；

纠错后的文本数据：今天我想去打篮球。

在上述示例中，“句首”为纠错位置信息，“今天”为纠错词，“一个”为纠错词数量。对于示例中的纠错语音指令，纠错特征词即为“在…添加”。纠错词“今天”，纠错词数量“一个”及纠错位置信息“句首”为纠错信息。

删除性自定义纠错规则可通过如下方式表示：不要**。

其中，“不要”为删除性自定义纠错规则的纠错特征词。同理，对于删除性纠错而言，纠错特征词也不限于上述列举的内容，如“不要”可换为“去掉”。另外，“**”代表错误词。

删除性自定义纠错规则对应的示例可如下所示：

待纠错文本数据：我的电话是五一二六八八八八；

删除性自定义纠错规则对应的纠错语音指令：不要“六”；

纠错后的文本数据：我的电话是五一二八八八八。

在上述示例中，“六”为错误词。对于示例中的纠错语音指令，纠错特征词即为“不要…”，错误词“六”为纠错信息。

需要说明的是，由上述示例可知，鉴于自定义纠错规则个性化定制的随意性，不同形式的自定义纠错规则所对应的纠错信息中包含的信息类型也不相同，如可只包含错误词，还可包含错误词及纠正位置信息，还可包含错误词、纠正词及纠正位置信息，本发明实施例不对纠错信息所包含的内容作具体限定。另外，上述过程主要提供了一种基于自定义纠错规则实现文本数据纠错的方式，该方式可以与基于基本纠错规则实现纠错的方式同时实施，也可以单独实施，本发明实施例对此不作具体限定。

基于上述实施例的内容，考虑到需要在纠错系统中添加自定义纠错规则。作为一种可选实施例，本发明实施例还提供了一种自定义纠错规则的添加方法，包括但不限于：若判断获知首次使用自定义纠错规则纠错失败且使用纠错系统中的基本纠错规则纠错成功，将自定义纠错规则与纠错成功所使用的基本纠错规则作为同一功能的纠错规则，并在纠错系统中添加自定义纠错规则；和/或，

对于上述第一种自定义纠错规则的添加方式，主要是纠错系统根据用户的纠错行为自行添加。具体地，对于用户输入的纠错语音指令所对应的自定义纠错规则，可先判断该自定义纠错规则是否是首次使用。本发明实施例不对判断该自定义纠错规则是否为首次使用的方式作具体限定，包括但不限于：将该自定义纠错规则对应的纠错特征词与已有自定义纠错规则对应的纠错特征词进行比对，确定是否存在纠错特征词与该自定义纠错规则对应的纠错特征词相同的已有自定义纠错规则；若判断获知不存在，则确定该自定义纠错规则为首次使用，若判断获知存在，则确定该自定义纠错规则不为首次使用。

在确定该自定义纠错规则为首次使用后，可提示用户使用基本纠错规则实现纠错。用户在通过基本纠错规则纠错成功后，可将该自定义纠错规则与纠错成功所使用的基本纠错规则作为同一功能的纠错规则，并在纠错系统中添加该自定义纠错规则。

例如，当用户首次使用的自定义纠错规则“不是A，而是B”时，会导致纠错失败。智能设备在提示用户使用基本纠错规则“把A修改成B”来实现纠错。在成功纠错后，可分别匹配“不是A，而是B”和“把A修改成B”中的A与B，确定前者中的A与后者中的A，以及前者中的B与后者中的B是否一致。若一致，则可确定该自定义纠错规则与该基本纠错规则为同一功能的纠错规则，并将自定义纠错规则“不是A，而是B”添加至纠错系统中。

对于上述第二种自定义纠错规则的添加方式，主要是用户自行添加。具体可通过手动输入添加或者语音输入添加等，本发明实施例不对用户自行添加自定义纠错规则的方式作具体限定。需要说明的是，上述两种添加方式可以择一执行，也可以同时执行，本发明实施例对此不作具体限定。另外，本发明实施例所提供的自定义纠错规则添加方法对应的执行时序，可穿插在上述实施例及后续实施例对应的任一步骤之前或之后，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过根据用户的纠错行为自行添加自定义纠错规则，而不需要用户手动添加自定义纠错规则，从而为用户提供了便利，提高了用户体验。另外，还提供了一种用户自行添加自定义纠错规则的方式，可实时满足用户各种各样的纠错需求。

基于上述实施例的内容，考虑到实际语音识别中通常会有谐音难以识别，或者用户可能会说出简略用语，如“程”与“陈”难以分清，用户可能称呼“王国立”为“老王”。为了将上述情况下的待纠错文本数据进行纠错或还原，作为一种可选实施例，本发明实施例还提供了一种基于自定义指代词的纠错方式，包括但不限于：对待纠错文本数据进行分词，获取第一分词结果；基于自定义指代词库，若判断获知第一分词结果对应的各分词中存在自定义指代词，确定各分词中存在的自定义指代词在自定义指代词库中所对应的替换词，并基于替换词替换待纠错文本数据中对应的分词。

其中，自定义指代词可以为用户为了防止语音识别混淆的别称或者用户对不同事物或人的简略称谓，本发明实施例对此不作具体限定。例如，自定义指代词可以为“耳东陈”，从而防止“程”与“陈”混淆。自定义指代词还可以为“老王”以作为“王国立”的简略称谓。其中，“陈”即为“耳东陈”的替换词，“王国立”即为“老王”的替换词。自定义指代词库中可存储不同的自定义指代词及对应的替换词。

另外，自定义指代词还可以为用户经常操作的事物所对应的概括术语。例如，自定义指代词可以为“浏览器”，而用户经常使用的是IE浏览器，从而“IE浏览器”可作为自定义指代词“浏览器”的替换词。

以待纠错文本数据为“我师弟的名字叫耳东陈刚”为例，对该待纠错文本数据进行分词可得到其中一个分词为“耳东陈”，将该分词与自定义指代词库中的所有自定义指代词进行比对，可确定自定义指代词库中也存储有“耳东陈”，从而基于自定义指代词库可确定对应的替换词为“陈”。在进行替换后，替换得到的文本数据为“我师弟的名字叫陈刚”。

以待纠错文本数据为“打电话给老王”为例，对该待纠错文本数据进行分词可得到其中一个分词为“老王”，将该分词与自定义指代词库中的所有自定义指代词进行比对，可确定自定义指代词库中也存储有“老王”，从而基于自定义指代词库可确定对应的替换词为“王国立”。在进行替换后，替换得到的文本数据为“打电话给王国立”。

以待纠错文本数据为“打开浏览器”为例，对该待纠错文本数据进行分词可得到其中一个分词为“浏览器”，将该分词与自定义指代词库中的所有自定义指代词进行比对，可确定自定义指代词库中也存储有“浏览器”，从而基于自定义指代词库可确定对应的替换词为“IE浏览器”。在进行替换后，替换得到的文本数据为“打开IE浏览器”。

需要说明的是，在进行上述替换过程之前，待纠错文本数据中的自定义指代词本身可能存在错误。例如，用户说的是“打电话给老王”，但识别出的文本数据为“打电话给老汪”。基于此，在执行上述替换过程之前，可先按照上述实施例提供的自定义规则纠错或基本纠错规则对待纠错文本数据实现第一次纠错，第一次纠错完成后，再按照上述替换过程实现第二次纠错，本发明实施例对此不作具体限定。

例如，若原始的待纠错文本数据为“打电话给老汪”，则可通过上述实施例中的替换性自定义纠错规则或基本纠错规则，对原始的待纠错文本数进行第一次纠错，得到“打电话给老王”。再按照上述替换过程实现第二次纠错，得到“打电话给王国立”。

需要说明的是，本发明实施例所提供的基于自定义指代词的纠错方法所对应的执行时序，可穿插在上述实施例及后续实施例对应的任一步骤之前或之后，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过对待纠错文本数据进行分词，获取第一分词结果。基于自定义指代词库，若判断获知第一分词结果对应的各分词中存在自定义指代词，确定各分词中存在的自定义指代词在自定义指代词库中所对应的替换词，并基于替换词替换待纠错文本数据中对应的分词。由于提供了一种基于自定义指代词对语音识别中易混淆词语进行纠错的方式，从而提高了文本数据纠错的准确性。另外，由于可根据用户的语言习惯预先建立自定义指代词库，在用户按照语言习惯说出自定义指代词时，也能够精准地定位对应的真实文本数据，从而为用户提供了便利，提高了用户体验。

基于上述实施例的内容，由于用户在下达语音指令对一些事物进行操作时，可能说的是这些事物的概括术语，而非实际操作的事物所对应的术语。为了深刻理解用户下达语音指令的含义，除了用户自行在自定义指代词库中添加自定义指代词及替换词之外，作为一种可选实施例，本发明实施例还提供了一种自动在自定义指代词库中添加自定义指代词及替换词的方法，包括但不限于：根据历史操作记录，生成对应的自定义指代词及替换词，并添加至自定义指代词库中。

例如，基于历史操作记录，若判断获知用户使用IE浏览器的次数明显大于其他浏览器的次数。则可将“浏览器”作为“自定义指代词”，将“IE浏览器”作为替换词添加至自定义指代词库中。相应地，当用户说出“打开浏览器”时，按照上述实施例的替换过程，可得到替换后的文本数据“打开IE浏览器”，即智能设备可更深刻地理解用户下达语音指令的含义，从而按照用户使用浏览器的习惯，执行替换过程，进而后续可直接打开IE浏览器，而不用向用户进行二次确认。

需要说明的是，本发明实施例所提供的自动在自定义指代词库中添加自定义指代词及替换词的方法所对应的执行时序，可穿插在上述实施例及后续实施例对应的任一步骤之前或之后，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过根据历史操作记录，生成对应的自定义指代词及替换词，并添加至自定义指代词库中，从而后续可按照用户的操作习惯实现文本数据的纠错，进而后续可自动执行用户隐含代指的操作指令。因此，为用户提供了便利，提高了用户体验。

基于上述实施例的内容，考虑到用户可能会经常对同一类型的错误对文本数据进行纠错，从而对于经常出现的同一类型错误，可根据用户以往的纠错行为实现纠错。基于上述原理，作为一种可选实施例，本发明实施例还提供了一种基于历史纠错记录自动纠错的方法，包括但不限于：对待纠错文本数据进行分词处理，获取第二分词结果；将第二分词结果中各分词与历史纠错记录进行匹配，根据得到的匹配结果对待纠错文本数据进行纠错。

其中，用户的一次历史纠错行为所使用的纠错词及错误词，可生成一条历史纠错记录。相应地，每条历史纠错记录可至少包括纠错词及错误词。例如，若用户作出如下纠错行为：通过上述自定义纠错规则或基本纠错规则对应的纠错方式，将待纠错文本数据“下周我要出差去安徽毫州”中的“毫州”改正为“亳州”，则可产生一条包括错误词“毫州”以及纠错词“亳州”的历史纠错记录。

基于上述内容，本发明实施例不对将第二分词结果中各分词与历史纠错记录进行匹配，根据得到的匹配结果对待纠错文本数据进行纠错的方式作具体限定，包括但不限于：若判断获知各分词中存在与历史纠错记录中的错误词相匹配的分词，根据历史纠错记录中的纠错词，对待纠错文本数据中对应的分词进行纠错。

例如，以待纠错文本数据为“下周我要去毫州”为例。对待纠错文本数据进行分词处理后，可将各分词与历史纠错记录中的错误词进行匹配，从而可确定分词“毫州”与历史纠错记录中的错误词“毫州”相匹配。根据历史纠错记录中的纠错词“亳州”，可将上述待纠错文本数据纠正为“下周我要去亳州”。需要说明的是，在实际实施过程中，需要将各分词与每条历史纠错记录中的错误词进行匹配，以定位匹配的历史纠错记录，从而后续基于定位的历史纠错记录实现纠错。

由于只有当历史纠错记录对应的纠错操作重复执行的次数达到一定值时，该历史纠错记录对于后续纠错才具有指导意义，再者，按照历史操作记录实现自动纠错需要有相应的监测手段以避免产生错误的纠错操作，从而基于上述两点可对纠错操作进行检测。相应地，本发明实施例不对根据历史纠错记录中的纠错词，对待纠错文本数据中对应的分词进行纠错的方式作具体限定，包括但不限于：若判断获知历史纠错记录对应的纠错操作次数大于预设阈值，将历史纠错记录中的纠错词替换待纠错文本数据中对应的分词；和/或，

例如，若上述示例中包含错误词“毫州”及纠正词“亳州”的历史纠错记录所对应的纠错操作次数为3次，而预设阈值为2次，则可按照上述自动纠错过程将待纠错文本数据中的“毫州”替换为“亳州”。若该历史纠错记录对应的纠错操作次数为1次，则不执行上述替换操作。

若将待纠错文本数据中的“毫州”替换为“亳州”后，将得到的替换结果输入至预设语言模型中输出得到的第一分值大于将待纠错文本数据输入至预设语言模型中输出得到第二分值，则可将替换结果作为对待纠错文本数据进行纠错后的结果，即维持上述替换结果不变。若第一分值不大于第二分值，则可撤回上述替换操作，即维持待纠错文本数据不变。

需要说明的是，本发明实施例所提供的基于历史纠错记录自动纠错的方法所对应的执行时序，可穿插在上述实施例对应的任一步骤之前或之后，本发明实施例对此不作具体限定。

本发明实施例提供的方法，由于可基于用户的历史纠错记录自动纠错，从而提高了纠错效率。另外，由于在根据历史纠错记录进行自动纠错时，可采用检测手段对纠错操作的可靠性进行检测，从而提高了纠错准确性。

上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

其次，通过根据用户的纠错行为自行添加自定义纠错规则，而不需要用户手动添加自定义纠错规则，从而为用户提供了便利，提高了用户体验。另外，还提供了一种用户自行添加自定义纠错规则的方式，可实时满足用户各种各样的纠错需求。

从次，通过对待纠错文本数据进行分词，获取第一分词结果。基于自定义指代词库，若判断获知第一分词结果对应的各分词中存在自定义指代词，确定各分词中存在的自定义指代词在自定义指代词库中所对应的替换词，并基于替换词替换待纠错文本数据中对应的分词。由于提供了一种基于自定义指代词对语音识别中易混淆词语进行纠错的方式，从而提高了文本数据纠错的准确性。另外，由于可根据用户的语言习惯预先建立自定义指代词库，在用户按照语言习惯说出自定义指代词时，也能够精准地定位对应的真实文本数据，从而为用户提供了便利，提高了用户体验。

另外，通过根据历史操作记录，生成对应的自定义指代词及替换词，并添加至自定义指代词库中，从而后续可按照用户的操作习惯实现文本数据的纠错，进而后续可自动执行用户隐含代指的操作指令。因此，为用户提供了便利，提高了用户体验。

最后，由于可基于用户的历史纠错记录自动纠错，从而提高了纠错效率。另外，由于在根据历史纠错记录进行自动纠错时，可采用检测手段对纠错操作的可靠性进行检测，从而提高了纠错准确性。

基于上述实施例所提供的文本数据的纠错方法，本发明实施例提供了一种文本数据的纠错装置。参见图2，该装置包括：

第一获取模块201，用于获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息；纠错信息至少包括错误词和/或纠错词；

第一纠错模块202，用于根据纠错特征词匹配对应的自定义纠错规则，根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错；

作为一种可选实施例，该装置还包括

第一添加模块，用于当判断获知首次使用自定义纠错规则纠错失败且使用纠错系统中的基本纠错规则纠错成功时，将自定义纠错规则与纠错成功所使用的基本纠错规则作为同一功能的纠错规则，并在纠错系统中添加自定义纠错规则；和/或，

第二添加模块，用于获取自定义纠错规则对应的添加指令，根据添加指令在纠错系统中添加自定义纠错规则。

作为一种可选实施例，该装置还包括：

第二获取模块，用于对待纠错文本数据进行分词，获取第一分词结果；

替换模块，用于基于自定义指代词库，若判断获知第一分词结果对应的各分词中存在自定义指代词，确定各分词中存在的自定义指代词在自定义指代词库中所对应的替换词，并基于替换词替换待纠错文本数据中对应的分词。

作为一种可选实施例，该装置还包括：

第三添加模块，用于根据历史操作记录，生成对应的自定义指代词及替换词，并添加至自定义指代词库中。

作为一种可选实施例，该装置还包括：

第三获取模块，用于对待纠错文本数据进行分词处理，获取第二分词结果；

第二纠错模块，用于将第二分词结果中各分词与历史纠错记录进行匹配，根据得到的匹配结果对待纠错文本数据进行纠错。

作为一种可选实施例，历史纠错记录至少包括纠错词及错误词；相应地，第二纠错模块，用于当判断获知各分词中存在与历史纠错记录中的错误词相匹配的分词时，根据历史纠错记录中的纠错词，对待纠错文本数据中对应的分词进行纠错。

作为一种可选实施例，第二纠错模块，用于当判断获知历史纠错记录对应的纠错操作次数大于预设阈值时，将历史纠错记录中的纠错词替换待纠错文本数据中对应的分词；和/或，

本发明实施例提供的装置，通过获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息。根据纠错特征词匹配对应的自定义纠错规则，根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错。由于自定义纠错规则为用户自定义的个性化语音纠错规则，从而用户可根据自身的语言习惯定义纠错规则，而不用按照基本纠错规则的固定形式说出纠错语音指令，从而纠错过程比较智能方便，提高了用户体验。

本发明实施例提供了一种文本数据的纠错设备。参见图3，该文本数据的纠错设备包括：处理器(processor)801、存储器(memory)302和总线303；

其中，处理器301及存储器302分别通过总线303完成相互间的通信；

处理器301用于调用存储器302中的程序指令，以执行上述实施例所提供的文本数据的纠错方法，例如包括：获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息；纠错信息至少包括错误词和/或纠错词；根据纠错特征词匹配对应的自定义纠错规则，根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错；

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的文本数据的纠错方法，例如包括：

获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息；纠错信息至少包括错误词和/或纠错词；根据纠错特征词匹配对应的自定义纠错规则，根据自定义纠错规则以及错误词和/或纠错词，对待纠错文本数据进行纠错；

其中，自定义纠错规则为用户自定义的个性化语音纠错规则，所述自定义纠错规则与纠错系统中预先设置的基本纠错规则各自所包括的纠错特征词不同。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的信息交互设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种文本数据的纠错方法，其特征在于，所述方法应用于纠错系统，所述方法包括：

获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息；所述纠错信息至少包括错误词和/或纠错词；

根据所述纠错特征词匹配对应的自定义纠错规则，根据所述自定义纠错规则以及所述错误词和/或所述纠错词，对所述待纠错文本数据进行纠错；

其中，所述自定义纠错规则为用户自定义的个性化语音纠错规则，所述自定义纠错规则与纠错系统中预先设置的基本纠错规则各自所包括的纠错特征词不同；

若判断获知首次使用所述自定义纠错规则纠错失败且使用所述纠错系统中的基本纠错规则纠错成功，将所述自定义纠错规则与纠错成功所使用的基本纠错规则作为同一功能的纠错规则，并在所述纠错系统中添加所述自定义纠错规则；

判断所述自定义纠错规则是否为首次使用，具体包括：

将所述自定义纠错规则对应的纠错特征词与已有自定义纠错规则对应的纠错特征词进行比对，确定是否存在纠错特征词与所述自定义纠错规则对应的纠错特征词相同的已有自定义纠错规则；若判断获知不存在，则确定所述自定义纠错规则为首次使用，若判断获知存在，则确定所述自定义纠错规则不为首次使用；

所述将所述自定义纠错规则与纠错成功所使用的基本纠错规则作为同一功能的纠错规则，具体包括：

若所述自定义纠错规则与所述纠错成功所使用的基本纠错规则的纠错信息一致，则将所述自定义纠错规则与所述纠错成功所使用的基本纠错规则的纠错特征词作为同一功能的纠错特征词。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述待纠错文本数据进行分词，获取第一分词结果；

基于自定义指代词库，若判断获知所述第一分词结果对应的各分词中存在自定义指代词，确定所述各分词中存在的自定义指代词在所述自定义指代词库中所对应的替换词，并基于所述替换词替换所述待纠错文本数据中对应的分词。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

根据历史操作记录，生成对应的自定义指代词及替换词，并添加至所述自定义指代词库中。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述待纠错文本数据进行分词处理，获取第二分词结果；

将所述第二分词结果中各分词与历史纠错记录进行匹配，根据得到的匹配结果对所述待纠错文本数据进行纠错；

所述历史纠错记录是根据用户的历史纠错行为所使用的纠错词及错误词生成的。

5.根据权利要求4所述的方法，其特征在于，所述历史纠错记录至少包括纠错词及错误词；相应地，将所述第二分词结果中各分词与历史纠错记录进行匹配，根据得到的匹配结果对所述待纠错文本数据进行纠错，包括：

若判断获知所述各分词中存在与所述历史纠错记录中的错误词相匹配的分词，根据所述历史纠错记录中的纠错词，对所述待纠错文本数据中对应的分词进行纠错。

6.根据权利要求5所述的方法，其特征在于，所述根据所述历史纠错记录中的纠错词，对所述待纠错文本数据中对应的分词进行纠错，包括：

若判断获知所述历史纠错记录对应的纠错操作次数大于预设阈值，将所述历史纠错记录中的纠错词替换所述待纠错文本数据中对应的分词；和/或，

在将所述历史纠错记录中的纠错词替换所述待纠错文本数据中对应的分词后，将得到的替换结果输入至预设语言模型中输出得到第一分值，将所述待纠错文本数据输入至所述预设语言模型中输出得到第二分值，若所述第一分值大于所述第二分值，则将所述替换结果作为对所述待纠错文本数据进行纠错后的结果。

7.一种文本数据的纠错装置，其特征在于，包括：

第一获取模块，用于获取用于对待纠错文本数据进行纠错的纠错语音指令所对应的纠错特征词和纠错信息；所述纠错信息至少包括错误词和/或纠错词；

第一纠错模块，用于根据所述纠错特征词匹配对应的自定义纠错规则，根据所述自定义纠错规则以及所述错误词和/或所述纠错词，对所述待纠错文本数据进行纠错；

第一添加模块，用于当判断获知首次使用所述自定义纠错规则纠错失败且使用所述纠错系统中的基本纠错规则纠错成功时，将所述自定义纠错规则与纠错成功所使用的基本纠错规则作为同一功能的纠错规则，并在所述纠错系统中添加所述自定义纠错规则；

判断所述自定义纠错规则是否为首次使用，具体包括：

判断所述自定义纠错规则与纠错成功所使用的基本纠错规则为同一功能的纠错规则，具体包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于对所述待纠错文本数据进行分词，获取第一分词结果；

替换模块，用于基于自定义指代词库，若判断获知所述第一分词结果对应的各分词中存在自定义指代词，确定所述各分词中存在的自定义指代词在所述自定义指代词库中所对应的替换词，并基于所述替换词替换所述待纠错文本数据中对应的分词。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

第三添加模块，用于根据历史操作记录，生成对应的自定义指代词及替换词，并添加至所述自定义指代词库中。

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于对所述待纠错文本数据进行分词处理，获取第二分词结果；

第二纠错模块，用于将所述第二分词结果中各分词与历史纠错记录进行匹配，根据得到的匹配结果对所述待纠错文本数据进行纠错；

11.根据权利要求10所述的装置，其特征在于，所述历史纠错记录至少包括纠错词及错误词；相应地，第二纠错模块，用于当判断获知所述各分词中存在与所述历史纠错记录中的错误词相匹配的分词时，根据所述历史纠错记录中的纠错词，对所述待纠错文本数据中对应的分词进行纠错。

12.根据权利要求11所述的装置，其特征在于，所述第二纠错模块，用于当判断获知所述历史纠错记录对应的纠错操作次数大于预设阈值时，将所述历史纠错记录中的纠错词替换所述待纠错文本数据中对应的分词；和/或，

13.一种文本数据的纠错设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

14.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。