CN112016305A

CN112016305A - 文本纠错方法、装置、设备及存储介质

Info

Publication number: CN112016305A
Application number: CN202010939914.XA
Authority: CN
Inventors: 付桂振
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-01
Anticipated expiration: 2040-09-09
Also published as: WO2021159743A1; CN112016305B

Abstract

本申请实施例公开了一种文本纠错方法、装置、设备及存储介质，应用于数字医疗领域，包括：获取初始文本信息的文本特征，并根据上述文本特征确定待检索文本；基于上述待检索文本从领域智库中确定出目标领域知识；根据上述待检索文本以及上述目标领域知识生成待纠错文本序列，并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。采用本申请实施例，可关联领域知识对文本进行纠错，提升文本纠错正确率。

Description

文本纠错方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理领域，尤其涉及一种文本纠错方法、装置、设备及存储介质。

背景技术

文本纠错是检索系统对用户输入的待检索文本中的错误进行感知，并根据用户的搜索意图将其修正为正确的待检索文本的过程。文本纠错作为检索系统中必不可少的一部分，在语言处理领域中的文本纠错主要由文本检错和错误纠正两部分组成，现有技术主要利用基于规则的算法进行纠错或者利用深度学习模型进行纠错。然而，基于规则的算法进行纠错仅依据待检索文本的字面特征，并没有考虑到待检索文本的所属领域，容易造成进行文本纠错后的待检索文本语义发生改变的问题，适用性差。基于深度学习模型的纠错算法需要进行大量的训练，但在待检索文本过短或者训练语料不足的情况下，难以进行有效的文本纠错。

发明内容

本申请实施例提供一种文本纠错方法、装置、设备及存储介质，可关联领域知识对文本进行纠错，提升文本纠错正确率。

第一方面，本申请实施例供了一种文本纠错方法，该方法包括：

获取初始文本信息的文本特征，并根据上述文本特征确定待检索文本；

基于上述待检索文本从领域智库中确定出目标领域知识；

根据上述待检索文本以及上述目标领域知识生成待纠错文本序列，并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。

在本申请实施例中，根据初始文本信息的文本特征确定待检索文本，进而从领域智库中确定出待检索文本的目标领域知识。根据带检索文本和目标领域知识生产待纠错文本序列，并给予待纠错文本序列对待检索文本进行纠错从而对初始文本信息进行纠错。基于上述待检索文本从领域智库中确定出目标领域知识，可以在待检索文本过短的时候确定出待检索文本所处的目标领域，并在语义方面对待检索文本进行关联，得到与待检索文本有关的目标领域知识，极大地补充了待检索文本的语义特征。根据待检索文本以及目标领域知识生成待纠错文本序列，并基于待纠错文本序列对待检索文本进行纠错，使得纠错过程与语义关联程度更大，更贴近初始文本信息的语义，提高了文本纠错正确率。

结合第一方面，在一种可能的实施方式中，上述基于上述待检索文本从领域智库中确定出目标领域知识包括：

基于上述待检索文本从领域智库中确定出上述待检索文本所属的目标领域，从上述目标领域中确定出与上述待检索文本相关的领域文本信息并确定各领域文本信息与上述待检索文本的相关度；

将上述各领域文本信息中与上述待检索文本的相关度大于或等于预设相关度阈值的领域文本信息确定为上述待检索文本的目标领域知识。

结合第一方面，在一种可能的实施方式中，上述根据上述待检索文本以及上述目标领域知识生成待纠错文本序列，并基于上述待纠错文本序列对上述待检索文本进行纠错，包括：

将上述待检索文本与上述目标领域知识分割为多个短序列文本，在各个短序列文本之间添加分割符并生成待纠错文本序列；

对上述待纠错文本序列中的各短序列文本进行语义标注，得到上述待纠错文本序列的语义标注；

基于上述待检索文本以及上述待纠错文本序列的语义标注，对上述待检索文本进行纠错。

在本申请实施例中，将与待检索文本的相关度大于或等于预设相关度阈值的领域文本信息确定为待检索文本的目标领域知识。可以按照相关度提炼出与待检索文本密切相关的目标领域知识，从而在领域智库中合理匹配待检索文本的目标领域知识，使待检索文本的语义特征更明确。对待纠错文本序列中的各短序列文本进行语义标注，得到待纠错文本序列的语义标注；并基于待检索文本以及待纠错文本序列的语义标注，对待检索文本进行纠错。使得纠错过程与语义关联程度更大，使得纠错结果更贴近初始文本信息的语义，提高了文本纠错正确率。同时因为对目标领域知识按照相关度进行了筛选，缩短了纠错时间，提升了纠错效率。

结合第一方面，在一种可能的实施方式中，上述基于上述待检索文本以及上述待纠错文本序列的语义标注，对上述待检索文本进行纠错，包括：

基于上述待检索文本以及上述待纠错文本序列的语义标注，利用预设纠错算法确定上述待检索文本中各字符对应位置的备选字符；

根据上述待检索文本中各字符以及各字符对应位置的备选字符，确定上述待检索文本中的各字符的置信概率；

将置信概率小于预设概率阈值的字符确定为错别字符，并对上述错别字符进行纠正。

在本申请实施例中，根据上述待检索文本中各字符以及各字符对应位置的备选字符，将置信概率小于预测概率比阈值的字符确定为错别字符。减少了将原本正确的字符错误地确定为错别字符的可能，减少了误检率，提升了纠错正确率。

结合第一方面，在一种可能的实施方式中，上述基于上述待检索文本以及上述待纠错文本序列的语义标注，对上述待检索文本序列进行纠错，包括：

基于上述待检索文本以及上述待纠错文本序列的语义标注，利用预设纠错算法确定上述待检索文本中各字符对应位置的备选字符以及备选字符的相关概率；

根据上述待检索文本中各字符以及各字符对应位置的备选字符进行字符编码，确定上述待检索文本中的各字符的置信概率；

根据上述待检索文本中的各字符的置信概率以及上述各字符对应的备选字符的相关概率，确定上述待检索文本中各字符的置信概率比；

将置信概率比小于预测概率比阈值的字符确定为错别字符，并对上述错别字符进行纠正。

结合第一方面，在一种可能的实施方式中，上述对上述错别字符进行纠正包括：

若上述错别字符的对应位置只有一个备选字符，则将上述备选字符作为上述错别字符对应的备选纠正字符；

若上述错别字符在对应位置有多个备选字符，则获取上述多个备选字符中各备选字符的相关概率，将相关概率大于或等于阈值的备选字符确定为上述错别字符对应的备选纠正字符。

在本申请实施例中，根据上述待检索文本中各字符以及各字符对应位置的备选字符，将置信概率比小于预测概率比阈值的字符确定为错别字符。进一步减少了将原本正确的字符错误地确定为错别字符的可能，进一步减少了误检率。同时因为对备选字符按照相关概率进行了筛选，缩短了对错别字符进行纠正的时间，提升了纠错效率。

结合第一方面，在一种可能的实施方式中，上述领域智库包括医疗器械领域、病理研究领域、疾病检测领域以及疾病治疗领域中的至少一种。

第二方面，本申请实施例提供了一种文本纠错装置，该装置包括：

文本确定模块，用于获取初始文本信息的文本特征，并根据上述文本特征确定待检索文本；

领域检索模块，用于基于上述文本确定模块确定的上述待检索文本从领域智库中确定出目标领域知识；

字符纠错模块，用于根据上述文本确定模块确定的上述待检索文本以及上述文本检索模块确定的上述目标领域知识生成待纠错文本序列，并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。

第三方面，本申请实施例提供了一种终端设备，该终端设备包括处理器和存储器，该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用上述程序指令，执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本纠错方法的一流程示意图；

图2是本申请实施例提供的错别字符纠正的流程示意图；

图3是本申请实施例提供的文本纠错装置的结构示意图；

图4是本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

文本纠错是检索系统对用户输入的待检索文本中的错误进行感知，并根据用户的搜索意图将其修正为正确的检索文本的过程，然而检索系统难以在正确关联检索文本语义的同时进行高效的文本纠错。而在相关领域确定与文本相关联的知识再进行纠错，可以提高文本纠错正确率，降低纠错难度。例如在医疗领域，很多医用的专有名词或相关词汇的文本组合在其他领域其实并不常见，但在医疗领域中，组合较为固定。此外，由于普通用户对医疗领域的知识通常是不够准确的，这就很容易最终导致用户搜索不到想要的结果而降低用户体验。如果在对用户输入的初始文本信息进行检索之前，先对初始文本信息与目标领域知识进行关联，确定初始文本信息所属的目标领域及目标领域知识之后，再对初始文本信息进行纠错，则可以极大地提示文本纠错的正确率，提升用户体验。

例如，当用户想要检索“新型冠状病毒”，但实际输入的初始文本信息为“新型罐装病毒”，由于“罐装”这种词语组合的检索频率远远大于“冠状”，从而无法对错误的初始文本信息进行合理的纠正。或者当用户想要检索“右旋糖苷铁口服溶液”，但实际输入的初始文本信息为“右旋糖苷铁口服液”，因为“口服溶液”与“口服液”都是常用的词语组合，从而无法对错误的初始文本信息进行合理的纠正。当用户想要检索一种抗纤维蛋白溶解药“氨基己酸”，但实际输入的初始文本信息为“氨基已酸”，因为“己”与“已”的字形非常相近且读音“ji”和“yi”也非常相近，从字形层面无法识别错误；或者由于词组“乙酸”的检索频率大于“已酸”的检索频率，故而将“氨基已酸”错误地纠正为“氨基乙酸”，从而无法对错误的文本进行正确的纠正。但如果首先对初始文本信息进行分析，得到待检索文本，并在领域智库中进行检索，确定目标领域知识，情况则会大有不同。本申请仅以在医疗领域对医疗相关信息的文本纠错为应用场景进行说明，对其他领域或医疗领域的其他信息进行文本纠错与本申请提供的实施例本质相同，在此不再赘述。

以在医疗领域对医疗相关信息的文本纠错为例，医疗领域包括但不限于医疗器械领域、病理研究领域、疾病检测领域以及疾病治疗领域等知识领域，为表述方便，本申请仅以疾病检测领域以及疾病治疗领域为例进行说明。确定初始文本信息的目标领域知识，包括对初始文本信息的目标领域进行确定，得到初始文本信息的所属领域，还包括对该领域与初始文本信息有关的信息，然后联合目标领域知识，完成对初始文本信息进行纠错。纠错过程为：获取用户输入的初始文本信息“晨起时脚步拇指疼痛明显”，并得到初始文本信息的文本特征。上述文本特征包括但不限于分词特征、拼音特征、笔画数特征等特征，确定待检索文本。例如，“晨起时脚步拇指疼痛明显”的分词特征是“晨起时/脚步/拇指/疼痛/明显”。“晨起时”的拼音特征是‘chen，qi，shi’，笔画数特征是‘11，10，7’；“脚步”的拼音特征是‘jiao，bu’，笔画数特征是‘11，7’；“拇指”的拼音特征是‘mu，zhi’，笔画数特征是‘8，9’；“疼痛”的拼音特征是‘teng，tong’，笔画数特征是‘10，12’；“明显”的拼音特征是‘ming，xian’，笔画数特征是‘8，9’。基于初始文本信息“晨起时脚步拇指疼痛明显”的文本特征可以得到待检索文本为：“晨起时(chen，qi，shi)(11，10，7)、脚步(jiao，bu)(11，7)、拇指(mu，zhi)(8，9)、疼痛(teng，tong)(10，12)、明显(ming，xian)(8，9)”。在领域智库检索引擎(例如，Elastic Search检索引擎)中对待检索文本进行检索，从领域智库中确定出待检索文本属于疾病检测领域，得到领域文本信息：“早晨(90％)，起床后(85％)，拇趾(60％)，脚趾(75％)，指头(65％)，趾头(60％)，脚疼(80％)，显著(70％)，阵发性(30％)，胀痛(40％)”等等，按照领域文本信息与待检索文本的相关度确定目标领域知识为：“早晨，起床后，脚疼，脚趾，显著”。基于“晨起时(chen，qi，shi)(11，10，7)、脚步(jiao，bu)(11，7)、拇指(mu，zhi)(8，9)、疼痛(teng，tong)(10，12)、明显(ming，xian)(8，9)”和“早晨，起床后，脚疼，脚趾，显著”，对待检索文本进行纠错，检测出“脚步”中的“步”应为“部”，“拇指”中的“指”应为“趾”，得到纠正后的文本信息“晨起时脚部拇趾疼痛明显”完成对初始文本信息的纠错。

具体请参阅图1，图1本申请实施例提供的文本纠错方法的一流程示意图。本申请实施例提供的方法可包括获取初始文本信息的文本特征，并根据上述文本特征确定待检索文本；基于上述待检索文本从领域智库中确定出目标领域知识；根据上述待检索文本以及上述目标领域知识生成待纠错文本序列，并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。为方便描述，下面将以疾病检测领域以及疾病治疗领域为例，对本申请实施例提供的方法进行说明。下面将结合步骤S101、S102、S103和S104对本申请实施例提供的方法进行说明。

S101：获取初始文本信息的文本特征，并根据文本特征确定待检索文本。

在一些可行的实施方式中，获取用户输入的初始文本信息，并得到初始文本信息的文本特征，上述文本特征包括但不限于分词特征、拼音特征、笔画数特征等特征，确定待检索文本。

例如，获取用户输入的初始文本信息“晨起时脚步拇指疼痛明显”，并得到初始文本信息的文本特征，上述文本特征包括分词特征、拼音特征、笔画数特征，确定待检索文本为：“晨起时(chen，qi，shi)(11，10，7)”、“脚步(jiao，bu)(11，7)”、“拇指(mu，zhi)(8，9)”、“疼痛(teng，tong)(10，12)”、“明显(ming，xian)(8，9)”。

S102：基于待检索文本从领域智库中确定出目标领域知识。

在一些可行的实施方式中，基于待检索文本从领域智库中确定出目标领域知识包括：基于待检索文本从领域智库中确定出待检索文本所属的目标领域，从目标领域中确定出与待检索文本相关的领域文本信息并确定各领域文本信息与待检索文本的相关度；将各领域文本信息中与待检索文本的相关度大于或等于预设相关度阈值的领域文本信息确定为上述待检索文本的目标领域知识。

例如，在领域智库检索引擎(例如，Elastic Search检索引擎)中对待检索文本进行检索，待检索文本为：“晨起时(chen，qi，shi)(11，10，7)、脚步(jiao，bu)(11，7)、拇指(mu，zhi)(8，9)、疼痛(teng，tong)(10，12)、明显(ming，xian)(8，9)”。从领域智库中确定出待检索文本属于疾病检测领域，得到领域文本信息“早晨(90％)，起床后(85％)，拇趾(60％)，脚趾(75％)，指头(65％)，趾头(60％)，脚疼(80％)，显著(70％)，阵发性(30％)，胀痛(40％)”等等，将与待检索文本的相关度大于或等于70％的领域文本信息确定目标领域知识：“早晨，起床后，脚疼，脚趾，显著”。

S103：根据待检索文本以及目标领域知识生成待纠错文本序列。

在一些可行的实施方式中，可以将待检索文本与目标领域知识分割为多个短序列文本，在各个短序列文本之间添加分割符并生成待纠错文本序列。其中，待检索文本与目标领域知识之间可用特殊分隔符进行分割，并生成待纠错文本序列，例如：“晨起时/脚步/拇指/疼痛/明显”//(早晨/起床后/脚疼/脚趾/显著)。其中，括号内的内容为目标领域知识的短文本，与待检索文本中的短文本利用双斜线分隔开。或者将待检索文本的短序列和目标领域知识的短序列用不同的分隔符进行分割，并生成待纠错文本序列，例如：“晨起时/脚步/拇指/疼痛/明显”(早晨//起床后//脚疼//脚趾//显著)。其中，括号内的内容为目标领域知识的短文本，目标领域知识中的短文本利用双斜线分隔开。

在一些可行的实施方式中，目标领域知识的短序列文本可以作为待纠错文本序列的解释说明拼接在待纠错文本之后，待检索文本的短文本与目标领域知识的短文本会有相应的标识进行区分，并不需要对目标领域知识的短文本进行纠错，从而提升纠错效率。

在一些可行的实施方式中，可以对上述待纠错文本序列中的各短序列文本进行语义标注，例如Bert语义标注，得到上述待纠错文本序列的语义标注。其中，语义标注包括但不限于对待纠错文本序列的拼音特征、笔画数特征等特征进行标注，例如：“晨(chen，11)起(qi，10)时(shi，7)/脚(jiao，11)步(bu，7)/拇(mu，8)指(zhi，9)/疼(teng，10)痛(tong，12)/明(ming，8)显(xian，9)”//(早晨/起床后/脚疼/脚趾/显著)。或者：“晨(chen，11)起(qi，10)时(shi，7)/脚(jiao，11)步(bu，7)/拇(mu，8)指(zhi，9)/疼(teng，10)痛(tong，12)/明(ming，8)显(xian，9)”(早晨//起床后//脚疼//脚趾//显著)。

S104：基于待纠错文本序列对待检索文本进行纠错以实现对初始文本信息的纠错。

基于待纠错文本序列对待检索文本进行纠错以实现对初始文本信息的纠错包括确定错别字符以及对错别字符进行纠正。在一些可行的实施方式中，请一并参阅图2，图2是本申请实施例提供的错别字符纠正的流程示意图。上述确定错别字符方法可包括如下步骤S201至S203中各个步骤所提供的实现方式。

S201：基于待检索文本以及待纠错文本序列的语义标注，利用预设纠错算法确定上述待检索文本中各字符对应位置的备选字符。

在一些可行的实施方式中，基于待检索文本以及待纠错文本序列的语义标注，可以利用纠错算法确定上述待检索文本中各字符对应位置的备选字符。例如，基于“晨(chen，11)起(qi，10)时(shi，7)/脚(jiao，11)步(bu，7)/拇(mu，8)指(zhi，9)/疼(teng，10)痛(tong，12)/明(ming，8)显(xian，9)”//(早晨/起床后/脚疼/脚趾/显著)。可以得到待检索文本及待检索文本中各字符对应的备选字符“晨(早)起(跑)时(后，前)/脚(跑，迈)步(部，背)/拇(母，手)指(趾)/疼(头，病，压)痛(痒)/明(凸，彰)显(亮，早)”//(早晨/起床后/脚疼/脚趾/显著)。其中，引号中括号里为对应的备选字符，比如“跑”为“起”对应的备选字符，(早晨/起床后/脚疼/脚趾/显著)为待检索文本中目标领域知识的短文本，用于标注待检索文本的语义范围，对备选字符进行初步筛选。例如，确定未进行语义范围标注的待检索文本的备选字符时，“疼痛”中“痛”的位置的备选字符应该还有“疼爱”的“爱”，但在进行了(早晨/起床后/脚疼/脚趾/显著)等语义范围标注后，可以在“疼痛”一词中“痛”字位置的备选字符中将“爱”字排除，而保留“痒”作为备选字符。

S202：根据待检索文本中各字符以及各字符对应位置的备选字符，确定待检索文本中的各字符的置信概率。

在一些可行的实施方式中，根据待检索文本中各字符以及各字符对应位置的备选字符，可以确定待检索文本中的各字符的置信概率。例如，根据“晨(早)起(跑)时(后，前)/脚(跑，迈)步(部，背)/拇(母，手)指(趾)/疼(头，病，压)痛(痒)/明(凸，彰)显(亮，早)”//(早晨/起床后/脚疼/脚趾/显著)，确定待检索文本中各字符的置信概率为：“晨(66％)起(80％)时(70％)/脚(85％)步(40％)/拇(70％)指(55％)/疼(75％)痛(85％)/明(90％)显(72％)”//(早晨/起床后/脚疼/脚趾/显著)。

S203：将置信概率小于预设概率阈值的字符确定为错别字符，并对错别字符进行纠正。

在一些可行的实施方式中，可以将置信概率小于预设概率阈值的字符确定为错别字符，例如，预设概率阈值为60％，则将“步”、“指”标注为错别字符。

在一些可行的实施方式中，若错别字符的对应位置只有一个备选字符，则将备选字符作为错别字符对应的备选纠正字符；若错别字符在对应位置有多个备选字符，则获取多个备选字符中各备选字符的相关概率，将相关概率大于或等于阈值的备选字符确定为错别字符对应的备选纠正字符。

例如，将错别字符对应位置的备选字符作为修改后的字符对待检索文本进行纠正，得到修改后的待检索文本为：“晨起时/脚部/拇趾/疼痛/明显”//(早晨/起床后/脚疼/脚趾/显著)以及“晨起时/脚背/拇趾/疼痛/明显”//(早晨/起床后/脚疼/脚趾/显著)。因为错别字符“指”的备选字符只有一个“趾”，则直接将“趾”作为备选纠正字符。而错别字符“步”的备选字符有“部”和“背”，则获取“部”和“背”的相关概率为“部(60％)”，“背(40％)”，因为“部”的相关概率最高，则将“部”作为备选纠正字符，进而得到纠错后的文本信息为：“晨起时/脚部/拇趾/疼痛/明显”。

在本申请实施例中，根据上述待检索文本中各字符以及各字符对应位置的备选字符，将置信概率小于预测概率比阈值的字符确定为错别字符，减少了将原本正确的字符错误地确定为错别字符的可能，减少了误检率，提升了纠错正确率。

在一些可行的实施方式中，可以将所有纠错后的文本信息输出给用户进行选择，得到最终纠错后的文本信息为：“晨起时/脚部/拇趾/疼痛/明显”。或者进行进一步的筛选步骤，例如，在步骤S202之后，可以执行步骤S204-S205，将置信概率比小于预测概率比阈值的字符确定为错别字符。进一步减少了将原本正确的字符错误地确定为错别字符的可能，进一步减少了误检率。同时因为对备选字符按照相关概率进行了筛选，缩短了对错别字符进行纠正的时间，提升了纠错效率。

S204：根据待检索文本中的各字符的置信概率以及上述各字符对应的备选字符的相关概率，确定待检索文本中各字符的置信概率比。

在一些可行的实施方式中，根据待检索文本中的各字符的置信概率以及各字符对应的备选字符的相关概率。例如，根据“晨(早)起(跑)时(后，前)/脚(跑，迈)步(部，背)/拇(母，手)指(趾)/疼(头，病，压)痛(痒)/明(凸，彰)显(亮，早)”//(早晨/起床后/脚疼/脚趾/显著)，确定待检索文本中各字符对应的备选字符的相关概率为：“晨(早，77％)起(跑，73％)时(后，68％，前，65％)/脚(跑，88％，迈，56％)步(部，60％，背，40％)/拇(母，65％，手，80％)指(趾，70％)/疼(头，80％，病，70％，压，60％)痛(痒，70％)/明(凸，55％，彰，43％)显(亮，76％，早，53％)”//(早晨/起床后/脚疼/脚趾/显著)。

在一些可行的实施方式中，可以将待检索文本中的各字符的置信概率对应的备选字符中相关概率最大值的比值，确定为待检索文本中各字符的置信概率比。例如，“脚”的备选字符中相关概率最大值为备选字符“跑”的概率88％，那么“脚”的置信概率比为：85％比88％，即0.966。则待检索文本中各字符对应的备选字符的相关概率为：“晨(0.857)起(1.096)时(1.029)/脚(0.966)步(0.667)/拇(0.875)指(0.786)/疼(0.938)痛(1.214)/明(1.636)显(0.947)”//(早晨/起床后/脚疼/脚趾/显著)。

S205：将置信概率比小于预测概率比阈值的字符确定为错别字符，并对错别字符进行纠正。

在一些可行的实施方式中，可以将置信概率比小于预设概率比阈值的字符确定为错别字符，例如，预设概率比阈值为0.85，则将“步”、“指”标注为错别字符。

在一些可行的实施方式中，可以将错别字符对应位置的备选字符中相关概率最大的备选字符作为该错别字符修改后的字符，对待检索文本进行纠正，得到修改后的待检索文本为：“晨起时/脚部/拇趾/疼痛/明显”//(早晨/起床后/脚疼/脚趾/显著)，进而得到纠错后的文本信息为：“晨起时/脚部/拇趾/疼痛/明显”。

请参阅图3，图3是本申请实施例提供的文本纠错装置的结构示意图。本申请实施例提供的文本纠错装置可包括：

文本确定模块401，用于获取初始文本信息的文本特征，并根据上述文本特征确定待检索文本。

在一些可行的实施方式中，文本确定模块401可以获取用户输入的初始文本信息，并得到初始文本信息的文本特征，上述文本特征包括但不限于分词特征、拼音特征、笔画数特征等特征，确定待检索文本。

例如，获取用户输入的初始文本信息“晨起时脚步拇指疼痛明显”，并得到初始文本信息的文本特征，上述文本特征包括分词特征、拼音特征、笔画数特征，确定待检索文本为：“晨起时(chen，qi，shi)(11，10，7)、脚步(jiao，bu)(11，7)、拇指(mu，zhi)(8，9)、疼痛(teng，tong)(10，12)、明显(ming，xian)(8，9)”。

领域检索模块402，用于基于上述文本确定模块401确定的上述待检索文本从领域智库中确定出目标领域知识。

在一些可行的实施方式中，领域检索模块402可以基于待检索文本从领域智库中确定出目标领域知识包括：基于待检索文本从领域智库中确定出待检索文本所属的目标领域，从目标领域中确定出与待检索文本相关的领域文本信息并确定各领域文本信息与待检索文本的相关度；将各领域文本信息中与待检索文本的相关度大于或等于预设相关度阈值的领域文本信息确定为上述待检索文本的目标领域知识。

例如，在Elastic Search检索引擎中对待检索文本进行检索，待检索文本为：“晨起时(chen，qi，shi)(11，10，7)、脚步(jiao，bu)(11，7)、拇指(mu，zhi)(8，9)、疼痛(teng，tong)(10，12)、明显(ming，xian)(8，9)”。确定出待检索文本属于疾病检测领域，得到领域文本信息：“早晨(90％)，起床后(85％)，拇趾(60％)，脚趾(75％)，指头(65％)，趾头(60％)，脚疼(80％)，显著(70％)，阵发性(30％)，胀痛(40％)”等等，将与待检索文本的相关度大于或等于70％的领域文本信息确定目标领域知识：“早晨，起床后，脚疼，脚趾，显著”。

文字纠错模块403，用于根据上述文本确定模块401确定的上述待检索文本以及上述文本检索模块402确定的上述目标领域知识生成待纠错文本序列，并基于上述待纠错文本序列对上述待检索文本进行纠错以实现对上述初始文本信息的纠错。

在一些可行的实施方式中，文字纠错模块403可以将待检索文本与目标领域知识分割为多个短序列文本，在各个短序列文本之间添加分割符并生成待纠错文本序列。其中，待检索文本与目标领域知识之间可用特殊分隔符进行分割，并生成待纠错文本序列，例如：“晨起时/脚步/拇指/疼痛/明显”//(早晨/起床后/脚疼/脚趾/显著)。其中，括号内的内容为目标领域知识的短文本，与待检索文本中的短文本利用双斜线分隔开。或者将待检索文本的短序列和目标领域知识的短序列用不同的分隔符进行分割，并生成待纠错文本序列，例如：“晨起时/脚步/拇指/疼痛/明显”(早晨//起床后//脚疼//脚趾//显著)。其中，括号内的内容为目标领域知识的短文本，目标领域知识中的短文本利用双斜线分隔开。

在一些可行的实施方式中，文字纠错模块403还包括语义标注单元，可以对上述待纠错文本序列中的各短序列文本进行语义标注，例如Bert语义标注，得到上述待纠错文本序列的语义标注。其中，语义标注包括但不限于对待纠错文本序列的拼音特征、笔画数特征等特征进行标注，例如：“晨(chen，11)起(qi，10)时(shi，7)/脚(jiao，11)步(bu，7)/拇(mu，8)指(zhi，9)/疼(teng，10)痛(tong，12)/明(ming，8)显(xian，9)”//(早晨/起床后/脚疼/脚趾/显著)。或者：“晨(chen，11)起(qi，10)时(shi，7)/脚(jiao，11)步(bu，7)/拇(mu，8)指(zhi，9)/疼(teng，10)痛(tong，12)/明(ming，8)显(xian，9)”(早晨//起床后//脚疼//脚趾//显著)。

在一些可行的实施方式中，文字纠错模块403还包括备选字符生成单元，基于待检索文本以及待纠错文本序列的语义标注，可以利用纠错算法确定上述待检索文本中各字符对应位置的备选字符。例如，基于“晨(chen，11)起(qi，10)时(shi，7)/脚(jiao，11)步(bu，7)/拇(mu，8)指(zhi，9)/疼(teng，10)痛(tong，12)/明(ming，8)显(xian，9)”//(早晨/起床后/脚疼/脚趾/显著)。可以得到待检索文本及待检索文本中各字符对应的备选字符“晨(早)起(跑)时(后，前)/脚(跑，迈)步(部，背)/拇(母，手)指(趾)/疼(头，病，压)痛(痒)/明(凸，彰)显(亮，早)”//(早晨/起床后/脚疼/脚趾/显著)。其中，引号中的括号里为对应的备选字符，后面括号为待检索文本中目标领域知识的短文本，用于标注待检索文本的语义范围，对备选字符进行初步筛选。例如，确定未进行语义范围标注的待检索文本的备选字符时，“疼痛”中“痛”的位置的备选字符应该还有“疼爱”的“爱”，但在进行了(早晨/起床后/脚疼/脚趾/显著)等语义范围标注后，可以在“疼痛”一词中“痛”字位置的备选字符中将“爱”字排除，而保留“痒”作为备选字符。

在一些可行的实施方式中，文字纠错模块403还包括错别字符确认单元，可以根据待检索文本中各字符以及各字符对应位置的备选字符，确定待检索文本中的各字符的置信概率，并将置信概率小于预设概率阈值的字符确定为错别字符。例如，根据“晨(早)起(跑)时(后，前)/脚(跑，迈)步(部，背)/拇(母，手)指(趾)/疼(头，病，压)痛(痒)/明(凸，彰)显(亮，早)”//(早晨/起床后/脚疼/脚趾/显著)，确定待检索文本中各字符的置信概率为：“晨(66％)起(80％)时(70％)/脚(85％)步(40％)/拇(70％)指(55％)/疼(75％)痛(85％)/明(90％)显(72％)”//(早晨/起床后/脚疼/脚趾/显著)。可以将置信概率小于预设概率阈值的字符确定为错别字符，例如，预设概率阈值为60％，则将“步”、“指”标注为错别字符。

在一些可行的实施方式中，文字纠错模块403还包括文字纠正单元，可以将错别字符对应位置的备选字符作为修改后的字符对待检索文本进行纠正，得到修改后的待检索文本为：“晨起时/脚部/拇趾/疼痛/明显”//(早晨/起床后/脚疼/脚趾/显著)以及“晨起时/脚背/拇趾/疼痛/明显”//(早晨/起床后/脚疼/脚趾/显著)，进而得到纠错后的文本信息为：“晨起时/脚部/拇趾/疼痛/明显”以及“晨起时/脚背/拇趾/疼痛/明显”。

在一些可行的实施方式中，可以将所有纠错后的文本信息输出给用户进行选择，得到最终纠错后的文本信息为：“晨起时/脚部/拇趾/疼痛/明显”。

参见图4，图4是本申请实施例提供的终端设备的结构示意图。如图4所示，本实施例中的终端设备可以包括：一个或多个处理器501和存储器502。上述处理器501和存储器502通过总线503连接。存储器502用于存储计算机程序，该计算机程序包括程序指令，处理器501用于执行存储器502存储的程序指令，执行如下操作：

基于上述待检索文本从领域智库中确定出目标领域知识；

在一些可行的实施方式中，上述处理器501还用于：

在一些可行的实施方式中，上述处理器501用于：

在一些可行的实施方式中，上述处理器501用于：基于上述待检索文本以及上述待纠错文本序列的语义标注，利用预设纠错算法确定上述待检索文本中各字符对应位置的备选字符以及备选字符的相关概率；

在一些可行的实施方式中，上述处理器501用于：若上述错别字符的对应位置只有一个备选字符，则将上述备选字符作为上述错别字符对应的备选纠正字符；

在一些可行的实施方式中，上述领域智库包括医疗器械领域、病理研究领域、疾病检测领域以及疾病治疗领域中的至少一种。

在一些可行的实施方式中，上述处理器501可以是中央处理单元(centralprocessing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器502可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失性随机存取存储器。例如，存储器502还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图1至图3中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1至图3中各个步骤所提供的基于预测模型的用户行为识别方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的基于预测模型的用户行为识别装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种文本纠错方法，其特征在于，所述方法包括：

获取初始文本信息的文本特征，并根据所述文本特征确定待检索文本；

基于所述待检索文本从领域智库中确定出目标领域知识；

根据所述待检索文本以及所述目标领域知识生成待纠错文本序列，并基于所述待纠错文本序列对所述待检索文本进行纠错以实现对所述初始文本信息的纠错。

2.根据权利要求1所述的方法，其特征在于，所述基于所述待检索文本从领域智库中确定出目标领域知识，包括：

基于所述待检索文本从领域智库中确定出所述待检索文本所属的目标领域，从所述目标领域中确定出与所述待检索文本相关的领域文本信息并确定各领域文本信息与所述待检索文本的相关度；

将所述各领域文本信息中与所述待检索文本的相关度大于或等于预设相关度阈值的领域文本信息确定为所述待检索文本的目标领域知识。

3.根据权利要求2所述的方法，其特征在于，所述根据所述待检索文本以及所述目标领域知识生成待纠错文本序列，并基于所述待纠错文本序列对所述待检索文本进行纠错，包括：

将所述待检索文本与所述目标领域知识分割为多个短序列文本，在各个短序列文本之间添加分割符并生成待纠错文本序列；

对所述待纠错文本序列中的各短序列文本进行语义标注，得到所述待纠错文本序列的语义标注；

基于所述待检索文本以及所述待纠错文本序列的语义标注，对所述待检索文本进行纠错。

4.根据权利要求3所述的方法，其特征在于，所述基于所述待检索文本以及所述待纠错文本序列的语义标注，对所述待检索文本进行纠错，包括：

基于所述待检索文本以及所述待纠错文本序列的语义标注，利用预设纠错算法确定所述待检索文本中各字符对应位置的备选字符；

根据所述待检索文本中各字符以及各字符对应位置的备选字符，确定所述待检索文本中的各字符的置信概率；

将置信概率小于预设概率阈值的字符确定为错别字符，并对所述错别字符进行纠正。

5.根据权利要求3所述的方法，其特征在于，所述基于所述待检索文本以及所述待纠错文本序列的语义标注，对所述待检索文本序列进行纠错，包括：

基于所述待检索文本以及所述待纠错文本序列的语义标注，利用预设纠错算法确定所述待检索文本中各字符对应位置的备选字符以及备选字符的相关概率；

根据所述待检索文本中各字符以及各字符对应位置的备选字符进行字符编码，确定所述待检索文本中的各字符的置信概率；

根据所述待检索文本中的各字符的置信概率以及所述各字符对应的备选字符的相关概率，确定所述待检索文本中各字符的置信概率比；

将置信概率比小于预测概率比阈值的字符确定为错别字符，并对所述错别字符进行纠正。

6.根据权利要求4或5所述的方法，其特征在于，所述对所述错别字符进行纠正包括：

若所述错别字符的对应位置只有一个备选字符，则将所述备选字符作为所述错别字符对应的备选纠正字符；

若所述错别字符在对应位置有多个备选字符，则获取所述多个备选字符中各备选字符的相关概率，将相关概率大于或等于阈值的备选字符确定为所述错别字符对应的备选纠正字符。

7.根据权利要求1中所述的方法，其特征在于，所述领域智库包括医疗器械领域、病理研究领域、疾病检测领域以及疾病治疗领域中的至少一种。

8.一种文本纠错装置，其特征在于，所述装置包括：

文本确定模块，用于获取初始文本信息的文本特征，并根据所述文本特征确定待检索文本；

领域检索模块，用于基于所述文本确定模块确定的所述待检索文本从领域智库中确定出目标领域知识；

字符纠错模块，用于根据所述文本确定模块确定的所述待检索文本以及所述领域检索模块确定的所述目标领域知识生成待纠错文本序列，并基于所述待纠错文本序列对所述待检索文本进行纠错以实现对所述初始文本信息的纠错。

9.一种文本纠错设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，执行权利要求1-7任一项所述的方法。