CN109901727A

CN109901727A - 一种获取文字纠错信息的方法和装置

Info

Publication number: CN109901727A
Application number: CN201910168419.0A
Authority: CN
Inventors: 倪浩; 郑永升; 陶一凡; 梁辉
Original assignee: SHANGHAI YIZHI MEDICAL TECHNOLOGY Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-06-18

Abstract

本申请提供了一种获取文字纠错信息的方法和装置，所述方法包括：获取第一文字信息；将所述第一文字信息转变成采用字符音节表示的第一信息；判断所述第一信息中是否包括与预设同音词数据集的第二信息相关联的第三信息；其中，所述预设同音词数据集，至少包括：第一同音词和与所述第一同音词相关联的字符音节表示的第二信息；若是，则建立所述第一同音词与第四信息的第一关联关系；所述第四信息，是从所述第一文字信息中获取的与所述第三信息相关联的信息。本申请解决了纠正文本输入错误的问题。

Description

一种获取文字纠错信息的方法和装置

技术领域

本申请涉及文字输入领域，具体涉及获取文字纠错信息的方法，以及获取文字纠错信息的装置。

背景技术

输入法(IME)，是指为了将各种符号输入计算机或其他设备(如手机)而采用的编码方法。汉字输入的编码方法，基本上都是采用将音、形、义与特定的键相联系，再根据不同汉字进行组合来完成汉字的输入的。

随着手机的普及，立足于义务教育的拼音知识、汉字知识和普通话水平之上的拼音输入法成为国内用户人机交互的主要信息输入工具。

拼音输入法，是按照拼音规定来进行输入汉字的，不需要特殊记忆，符合人的思维习惯，只要会拼音就可以输入汉字。

但是由于拼音输入法只有声母和韵母，没有声调，容易产生大量的同音词。因此，常常造成输入错误。例如：“我得了训麻疹”的正确输入为：“我得了荨麻疹”。

发明内容

本申请提供一种获取文字纠错信息的方法，一种获取文字纠错信息的装置；以解决文本输入错误的问题。

为了解决上述技术问题，本申请实施例提供了如下的技术方案：

本申请提供了一种获取文字纠错信息的方法，包括：

获取第一文字信息；

将所述第一文字信息转变成采用字符音节表示的第一信息；

判断所述第一信息中是否包括与预设同音词数据集的第二信息相关联的第三信息；其中，所述预设同音词数据集，至少包括：第一同音词和与所述第一同音词相关联的字符音节表示的第二信息；

若是，则建立所述第一同音词与第四信息的第一关联关系；所述第四信息，是从所述第一文字信息中获取的与所述第三信息相关联的信息。

优选的，在所述建立所述第一同音词与第四信息的第一关联关系前，还包括：

确定所述第四信息与所述第一同音词的相似度匹配结果符合预设通过条件。

进一步的，所述将所述第一文字信息转变成采用字符音节表示的第一信息，包括：

根据预设字符音节规则将所述第一文字信息转变成采用字符音节表示的第一信息。

优选的，在所述建立所述第一同音词与第四信息的第一关联关系后，还包括：

在所述第一文字信息中，获取所有与所述第四信息相关联信息的第一位置信息。

进一步的，在所述获取所述第四信息在所述第一文字信息中的至少一个第一位置信息后，还包括：

将所述第一同音词、所述第四信息、所述第一位置信息及所述第一关联关系保存在预设结果数据集中。

优选的，在所述将所述第一同音词、所述第四信息及所述第一关联关系保存在预设结果数据集中后，还包括：

采用第一组合替换所述第一文字信息中所述第一位置信息处与所述第四信息相关联的信息；所述第一组合，是由所述第四信息长度相同的预设第一特定字符组成的字符串。

优选的，在所述获取第一文字信息前，还包括：

获取第一初始文字信息；

采用第二组合替换所述第一初始文字信息中的无关信息，生成所述第一文字信息；所述第二组合，是由所述无关信息长度相同的预设第二特定字符组成的字符串；所述无关信息，包括：非汉字信息和汉字的程度副词。

利用所述第一同音词在所述第一初始文字信息中所述第一位置信息处替换与所述第四信息相关联的信息。

优选的，所述字符音节，包括无声调字符音节和/或有声调字符音节。

本申请提供了一种获取文字纠错信息的装置，包括：

获取单元，用于获取第一文字信息；

转变单元，用于将所述第一文字信息转变成采用字符音节表示的第一信息；

判断单元，用于判断所述第一信息中是否包括与预设同音词数据集的第二信息相关联的第三信息；其中，所述预设同音词数据集，至少包括：第一同音词和与所述第一同音词相关联的字符音节表示的第二信息；

建立关系单元，用于若所述判断单元的输出结果为“是”，则建立所述第一同音词与第四信息的第一关联关系；所述第四信息，是从所述第一文字信息中获取的与所述第三信息相关联的信息。基于上述实施例的公开可以获知，本申请实施例具备如下的有益效果：

附图说明

图1为本申请实施例提供的获取文字纠错信息的方法的流程图；

图2为本申请实施例提供的获取文字纠错信息的装置的单元框图。

具体实施方式

下面，结合附图对本申请的具体实施例进行详细的描述，但不作为本申请的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所公开的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请提供一种获取文字纠错信息的方法；本申请还提供一种获取文字纠错信息的装置。在下面的实施例中逐一进行详细说明。

对本申请提供的第一实施例，即一种获取文字纠错信息的方法的实施例。

下面结合图1对本实施例进行详细说明，其中，图1为本申请实施例提供的获取文字纠错信息的方法的流程图。

步骤S101，获取第一文字信息。

所述文字信息，是指可在文字编辑器中或阅读器中或显示器中显示的可见信息，包括：汉字、数字、字母和符号。

所述第一文字信息，可以是一行文字，或一句文字，或一段文字，或一页文字、或一个词组。本实施例对所述第一文字信息不做限制。

为了保证获取文字纠错信息的有效性，以及提高获取文字纠错信息的效率，优选的，在所述获取第一文字信息前，还包括：

步骤S100-1，获取第一初始文字信息。

所述第一初始文字信息，同样包括：汉字、数字、字母和符号。可以是一行文字，或一句文字，或一段文字，或一页文字、或一个词组。本实施例对所述第一初始文字信息不做限制。

步骤S100-2，采用第二组合替换所述第一初始文字信息中的无关信息，生成所述第一文字信息；所述第二组合，是由所述无关信息长度相同的预设第二特定字符组成的字符串。

所述无关信息，包括：非汉字信息和汉字的程度副词。本实施例将所述无关信息提前清洗，以保证获取文字纠错信息的有效性，以及提高获取文字纠错信息的效率。

所述预设第二特定字符，是在文字信息中区别于汉字的单字节的可见字符，以便在匹配时，迅速提取出与汉字相关联的信息。例如，所述预设第二特定字符为空格字符，或“#”字符，或“*”字符。

所述第二组合，由至少一个所述预设第二特定字符组成。

例如，本实施例中，所述预设第二特定字符为“#”字符，所述第一初始文字信息为“朋友A得了点训麻疹，而训麻疹难治疗。”，其中，字母“A”为所述无关信息，其占用1个字节长度，则生成所述第二组合为“#”；汉字“点”和“难”是程度副词，为所述无关信息，其作为单个汉字占用两个字节长度，则生成所述第二组合为“##”；标点符号“，”和“。”为非汉字信息，其作为全角符号也占用两个字节长度，则生成所述第二组合为“##”；因此，生成所述第一文字信息为“朋友#得了##训麻疹##而训麻疹##治疗##”。

在步骤S100-2后，所述第一文字信息中的每个汉字的位置与其在所述第一初始文字信息中的位置相同。

步骤S102，将所述第一文字信息转变成采用字符音节表示的第一信息。

音节，是语音中最自然的结构单位。确切地说，音节是音位组合构成的最小的语音结构单位。它的构成分头腹尾三部分，因而音节之间具有明显可感知的界限。在汉语中一般一个汉字的读音即为一个音节。

所述字符音节，就是采用字符表示汉字音节的读音规律。例如，汉语拼音，其每个基本音节由声母、韵母和声调三个部分组成，有的可以没有声母或声调，但一定有韵母；比如，汉字“查”的字符音节为“chá”，声母为“ch”，韵母为“a”，声调为二声，拼音是拼读音节的过程，就是按照普通话音节的构成规律，把声母、韵母迅速连续拼合并加上声调从而成为一个音节。

当前书面表示所述字符音节时，包括无声调字符音节和/或有声调字符音节。例如，有声调的汉语拼音作为所述有声调字符音节，常用于手写书面文字中，有时也用在智能终端中，比如，汉字“查”的字符音节为“chá”；而无声调的汉语拼音作为所述无声调字符音节，常用于智能体终端的输入中，比如，搜狗拼音输入法中，汉字“查”的字符音节为“cha”。本实施例以所述无声调字符音节作为例子，但所述有声调字符音节的用法与所述无声调字符音节的用法相同，且还可以通过预设字符音节规则，同时使用无声调字符音节和有声调字符音节。

优选的，所述将所述第一文字信息转变成采用字符音节表示的第一信息，包括：根据预设字符音节规则将所述第一文字信息转变成采用字符音节表示的第一信息。

当前，所述字符音节，包括：汉语拼音表示的字符音节、台湾拼音表示的字符音节及粤语拼音表示的字符音节。

所述预设字符音节规则，包括，汉语拼音规则、台湾拼音规则及粤语拼音规则。

本实施例对采用的所述字符音节及所述预设字符音节规则不做限制。下面主要以汉语拼音规则的无声调字符音节作为本实施例描述的基础。其他所述字符音节均与此类似，在此不再叙述。

例如，继续上面的例子，所述第一文字信息为“朋友#得了##训麻疹##而训麻疹##治疗##”，则所述第一信息为“pengyou#dele##xunmazhen##erxunmazhen##zhiliao##”。

步骤S103，判断所述第一信息中是否包括与预设同音词数据集的第二信息相关联的第三信息。

所述预设同音词数据集，至少包括：第一同音词和与所述第一同音词相关联的字符音节表示的第二信息。例如，所述预设同音词数据集中保存：所述第一同音词为“荨麻疹”，所述第二信息为“xunmazhen”。

所述第一同音词，是正确的词。

所述第三信息，包含在所述第一信息中，属于所述第一信息的一部分。

所述判断所述第一信息中是否包括与预设同音词数据集的第二信息相关联的第三信息，也就是将所述预设同音词数据集的第二信息依次与所述第一信息比较，判断所述第一信息中是否包含与所述第二信息相同的所述第三信息。例如，继续上述的例子，所述第一信息为“pengyou#dele##xunmazhen##erxunmazhen##zhiliao##”，所述预设同音词数据集中保存的所述第二信息包括“xunmazhen”，判断后可知，所述第一信息中包含与所述第二信息相同的所述第三信息“xunmazhen”。

步骤S104，若是，则建立所述第一同音词与第四信息的第一关联关系。

所述第四信息，是从所述第一文字信息中获取的与所述第三信息相关联的信息。

在所述将所述第一文字信息转变成采用字符音节表示的第一信息时，可以建立所述第一文字信息的每个汉字与所述第一信息的每个字符音节的位置索引关系。通过所述位置索引关系可以方便的从所述第一文字信息中获取与所述第三信息相关联的所述第四信息。建立索引的方式多种多样，比如，将第一字节长度与第二字节长度的对应关系建立位置索引关系；所述第一字节长度，是所述第一文字信息中每个汉字的起始位置距离所述第一文字信息的起始位置的字节长度，所述第二字节长度，是所述第一信息中每个字符音节的起始位置距离所述第一信息的起始位置的字节长度。在此，本领域技术人员可以通过简单的方法实现所述位置索引关系，本实施例不对建立位置索引关系的方法进行限制。

所述第一同音词，与所述预设同音词数据集的第二信息相关联。

例如，继续上述例子，在获取所述第一信息中包含的所述第三信息“xunmazhen”后，通过所述位置索引关系获取所述第一文字信息中所述第四信息“训麻疹”；根据所述预设同音词数据集的所述第二信息“xunmazhen”，获取与所述第二信息相关联第一同音词“荨麻疹”；由此，可以建立所述第一同音词“荨麻疹”与所述第四信息“训麻疹”的第一关联关系，此处所述第一关联关系为一一对应的关系。

但是，一些情况下，在所述第三信息与所述第二信息相同的情况下，所述第一同音词并不一定是所述第四信息的正确信息。例如，所述第四信息“寻马震”，所述第一同音词“荨麻疹”，所述第三信息与所述第二信息都是“xunmazhen”，但是所述第一同音词并不是所述第四信息的正确信息。

为了提高获取文字纠错信息的准确性，优选的，在所述建立所述第一同音词与第四信息的第一关联关系前，还包括：

例如，所述预设通过条件为相似度匹配结果大于或等于50％；如果所述第四信息“寻马震”，所述第一同音词“荨麻疹”，相似度匹配结果为0，不符合所述预设通过条件，则所述第一同音词不是所述第四信息的正确信息；如果所述第四信息“训麻疹”，所述第一同音词“荨麻疹”，相似度匹配结果为66.67％，符合所述预设通过条件，则所述第一同音词是所述第四信息的正确信息。

为了在所述第一文字信息中提高处理所述第四信息的速度，进一步的，在所述建立所述第一同音词与第四信息的第一关联关系后，还包括：

在所述第一文字信息中，获取所有与所述第四信息相关联信息的第一位置信息。从而减少了在所述第一文字信息中同一词获取文字纠错信息的步骤。

例如，继续上述的例子，所述第一文字信息为“朋友#得了##训麻疹##而训麻疹##治疗##”，所述第四信息为“训麻疹”，则第一个所述第一位置信息为起始位置在所述第一文字信息的第12字节处，第二个所述第一位置信息为起始位置在所述第一文字信息的第22字节处。

进一步的，将所述第一同音词、所述第四信息、所述第一位置信息及所述第一关联关系保存在预设结果数据集中。以便从所述预设结果数据集中提取纠错信息，集中纠正第一初始文字信息种的错误信息。

进一步的，采用第一组合替换所述第一文字信息中所述第一位置信息处与所述第四信息相关联的信息；所述第一组合，是由所述第四信息长度相同的预设第一特定字符组成的字符串。

所述预设第一特定字符，是在文字信息中区别于汉字的单字节的可见字符，以便在匹配时，迅速提取出与汉字相关联的信息。例如，所述预设第一特定字符为空格字符，或“#”字符，或“*”字符。

所述预设第一特定字符，可以与所述预设第二特定字符相同，也可以不同。

所述第一组合，由至少一个所述预设第一特定字符组成的字符串。

例如，所述预设第一特定字符为“*”字符，继续上面的例子，所述第四信息为“训麻疹”的长度为6个字节，所述第一组合为“******”，则在所述第一文字信息的第12字节和第22字节处，采用所述第一组合替换与所述第四信息相关联的信息，也就是替换所述第一文字信息中的“训麻疹”信息，因此，在替换后，所述第一文字信息为“朋友#得了##******##而******##治疗##”。

每一次采用所述第一组合替换所述第一文字信息中的信息后，所述第一文字信息中的汉字不断减少，从而可以减少获取文字纠错信息的步骤。

列举本实施例的一个具体应用实例。

在所述获取所述第四信息在所述第一文字信息中的至少一个第一位置信息后，还包括以下步骤：

由于所述第一文字信息中的每个汉字的位置与其在所述第一初始文字信息中的位置相同，在所述第一文字信息中获取的所述第一位置信息，同样可以应用在所述第一初始文字信息中。

因所述第一同音词与所述第四信息间存在第一关联关系，则通过所述第四信息及所述第一关联关系可以获取所述第一同音词。

例如，继续上面的例子，所述第一初始文字信息“朋友A得了点训麻疹，而训麻疹难治疗。”，所述第四信息为“训麻疹”，所述第一同音词“荨麻疹”，所述第一关联关系为一一对应的关系，所述第一初始文字信息的所述第一位置信息为第12字节和第22字节，则替换后，所述第一初始文字信息“朋友A得了点荨麻疹，而荨麻疹难治疗。”。

本实施例解决了纠正文本输入错误的问题。

与本申请提供的第一实施例相对应，本申请还提供了第二实施例，即一种获取文字纠错信息的装置。由于第二实施例基本相似于第一实施例，所以描述得比较简单，相关的部分请参见第一实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

图2示出了本申请提供的一种获取文字纠错信息的装置的实施例。图2为本申请实施例提供的获取文字纠错信息的装置的单元框图。

请参见图2所示，本申请提供一种获取文字纠错信息的装置，包括：获取单元201，转变单元202，判断单元203，建立关系单元204；

获取单元201，用于获取第一文字信息；

转变单元202，用于将所述第一文字信息转变成采用字符音节表示的第一信息；

判断单元203，用于判断所述第一信息中是否包括与预设同音词数据集的第二信息相关联的第三信息；其中，所述预设同音词数据集，至少包括：第一同音词和与所述第一同音词相关联的字符音节表示的第二信息；

建立关系单元204，用于若所述判断单元的输出结果为“是”，则建立所述第一同音词与第四信息的第一关联关系；所述第四信息，是从所述第一文字信息中获取的与所述第三信息相关联的信息。

优选的，在所述建立关系单元204中，还包括：

确定通过子单元，用于确定所述第四信息与所述第一同音词的相似度匹配结果符合预设通过条件；

建立关系子单元，用于建立所述第一同音词与第四信息的第一关联关系。

进一步的，在所述转变单元202中，包括：

转变子单元，用于根据预设字符音节规则将所述第一文字信息转变成采用字符音节表示的第一信息。

优选的，在所述建立关系单元204中，还包括：

获取位置子单元，用于在所述第一文字信息中获取所有与所述第四信息相关联信息的第一位置信息。

进一步的，在所述建立关系单元204中，还包括：

保存子单元，用于将所述第一同音词、所述第四信息、所述第一位置信息及所述第一关联关系保存在预设结果数据集中。

可选的，在所述建立关系单元204中，还包括：

第一替换子单元，用于采用第一组合替换所述第一文字信息中所述第一位置信息处与所述第四信息相关联的信息；所述第一组合，是由所述第四信息长度相同的预设第一特定字符组成的字符串。

可选的，在所述获取单元201前，还包括：初始单元；

在所述初始单元中，包括：

获取第一初始文字信息子单元，用于获取第一初始文字信息；

第二替换子单元，用于采用第二组合替换所述第一初始文字信息中的无关信息，生成所述第一文字信息；所述第二组合，是由所述无关信息长度相同的预设第二特定字符组成的字符串；所述无关信息，包括：非汉字信息和汉字的程度副词。

进一步的，在所述建立关系单元204中，还包括：

第三替换子单元，用于利用所述第一同音词在所述第一初始文字信息中所述第一位置信息处替换与所述第四信息相关联的信息。

本实施例解决了纠正文本输入错误的问题。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种获取文字纠错信息的方法，其特征在于，包括：

获取第一文字信息；

将所述第一文字信息转变成采用字符音节表示的第一信息；

2.根据权利要求1所述的方法，其特征在于，在所述建立所述第一同音词与第四信息的第一关联关系前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第一文字信息转变成采用字符音节表示的第一信息，包括：

4.根据权利要求2所述的方法，其特征在于，在所述建立所述第一同音词与第四信息的第一关联关系后，还包括：

5.根据权利要求4所述的方法，其特征在于，在所述获取所述第四信息在所述第一文字信息中的至少一个第一位置信息后，还包括：

6.根据权利要求4所述的方法，其特征在于，在所述将所述第一同音词、所述第四信息及所述第一关联关系保存在预设结果数据集中后，还包括：

7.根据权利要求4所述的方法，其特征在于，在所述获取第一文字信息前，还包括：

获取第一初始文字信息；

8.根据权利要求7所述的方法，其特征在于，在所述获取所述第四信息在所述第一文字信息中的至少一个第一位置信息后，还包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述字符音节，包括无声调字符音节和/或有声调字符音节。

10.一种获取文字纠错信息的装置，其特征在于，包括：

获取单元，用于获取第一文字信息；

建立关系单元，用于若所述判断单元的输出结果为“是”，则建立所述第一同音词与第四信息的第一关联关系；所述第四信息，是从所述第一文字信息中获取的与所述第三信息相关联的信息。