CN108921103B

CN108921103B - 用于校对的标记同步方法、计算设备及计算机存储介质

Info

Publication number: CN108921103B
Application number: CN201810730039.7A
Authority: CN
Inventors: 张恒; 李铭瀚
Original assignee: Zhangyue Technology Co Ltd
Current assignee: Zhangyue Technology Co Ltd
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2019-04-16
Anticipated expiration: 2038-07-05
Also published as: CN108921103A

Abstract

本发明公开了一种用于校对的标记同步方法、计算设备及计算机存储介质，方法包括：对第一文档进行识别，将各个字符的字符信息及其键值对应记录到识别结果字典中；得到第二文档，并为第二文档的各个字符建立标签；建立第一文档的字符与第二文档的字符的对应关系；利用对应关系保持校对过程中第一文档的特定字符与第二文档的特定字符的标记同步。本发明提供了一种全新的用于校对的标记同步方案，通过建立第一文档和第二文档中的各个字符的对应关系，使得第一文档和第二文档中当前正在校对的特定字符可以标记同步。利用本发明方案，用户可以根据同步的标记进行校对，为校对工作提供了便利，降低了校对的难度，进而有利于提升校对的准确度和效率。

Description

用于校对的标记同步方法、计算设备及计算机存储介质

技术领域

本发明涉及文件处理技术领域，具体涉及一种用于校对的标记同步方法、计算设备及计算机存储介质。

背景技术

版式文档是指版面呈现效果固定的电子文档，其呈现效果不因软硬件环境、操作者的变化而变化，在版式、版面、字体、字号等方面与纸质文件保持完全一致，版式文档的这些特点使它成为电子文档发布、数字化信息传播和存档的理想文档格式。在业内，较为典型的版式文档包括Adobe公司的PDF版式文档。

与此同时，由于版式文档的上述特点，使得版式文档的文档内容不能适应于阅读设备的特性，以最适于阅读的排版形式显示出来。因此，为了能够适应不同的阅读设备进行显示，需要获取版式文档的源内容，然后根据该源内容生成流文档。

但是，由于各种客观原因的存在，导致大量版式文档的源内容无法直接获取到，此时，则须采用图片文字识别技术，对版式文档中的文档内容进行转取。例如，采用OCR识别技术对PDF图片中的内容进行识别。然而，由于图片文字识别技术的识别准确率有限，通常情况下，在得到识别结果之后，需要人工对识别结果进行校对，以提高最终显示在阅读设备上的文本内容的准确性。

现有技术中，一般是由校对人员通过肉眼查找识别结果和版式文档中的对应内容，并进行逐字校对，这种校对方式容易造成校对错误，并且校对效率低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用于校对的标记同步方法、计算设备及计算机存储介质。

根据本发明的一个方面，提供了一种用于校对的标记同步方法，包括：

对第一文档进行识别，将识别结果中的各个字符的字符信息及其键值对应记录到识别结果字典中；其中，字符信息包括字符文本和字符位置；

根据所述识别结果，得到第二文档，并为所述第二文档的各个字符建立标签；

根据识别结果字典中各个字符的键值建立第一文档的字符与第二文档的字符的对应关系；

利用所述对应关系保持校对过程中第一文档的特定字符与第二文档的特定字符的标记同步。

根据本发明的另一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行以下操作：

根据本发明的又一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：

根据本发明的用于校对的标记同步方法、计算设备及计算机存储介质，方法包括：对第一文档进行识别，将各个字符的字符信息及其键值对应记录到识别结果字典中；得到第二文档，并为第二文档的各个字符建立标签；建立第一文档的字符与第二文档的字符的对应关系；利用对应关系保持校对过程中第一文档的特定字符与第二文档的特定字符的标记同步。本发明提供了一种全新的用于校对的标记同步方案，通过建立第一文档和第二文档中的各个字符的对应关系，使得第一文档和第二文档中当前正在校对的特定字符可以标记同步。利用本发明方案，用户可以根据同步的标记进行校对，为为校对工作提供了便利，降低了校对的难度，进而有利于提升校对的准确度和效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的用于校对的标记同步方法的流程图；

图2示出了根据本发明另一个实施例的用于校对的标记同步方法的流程图；

图3a示出了本发明一个具体实施例的第一文档的文档内容示意图；

图3b示出了对应图3a的识别结果字典的示意图；

图3c示出了对应图3a的第二文档的示意图；

图3d示出了对应图3c的修改后的第二文档的示意图；

图3e示出了对应图3c至图3d的修改操作的修正的识别结果字典的示意图；

图3f示出了对应图3c至图3d的修改操作后新建的标签的示意图；

图4示出了一个具体实施例中新增对应第二字符的记录的方法的流程图；

图5示出了根据本发明实施例的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的用于校对的标记同步方法的流程图。

如图1所示，该方法包括：

步骤S101：对第一文档进行识别，将识别结果中的各个字符的字符信息及其键值对应记录到识别结果字典中。

其中，第一文档为待识别的文档，可选的，第一文档为图片格式的文档，或者，第一文档为排版固定的版式文档；该第一文档的源内容无法直接获取，需通过识别和校对过程，得到第一文档对应的文档内容。其中，字符信息包括字符文本和字符位置。

具体地，识别第一文档中的文本内容，得到识别结果，在本发明中，不对所采用的识别技术做具体限定，本领域技术人员可根据第一文档的类型，或者根据实际情况，选择相应的识别技术；其中，识别结果中包括文本内容对应的各个字符的字符文本，以及包括各个字符在第一文档中的字符位置；针对每个字符，生成对应的键值；在识别结果字典中，将该键值与字符文本和字符位置对应记录。

举例来说，第一文档为待识别的PDF图片，利用OCR识别技术识别出PDF中的第一个字符为w1，以及，识别出的该第一个字符在PDF图片中的字符位置分别为p1。在为该第一个字符生成对应的键值k1后，在识别结果字典中针对该第一个字符，记录一条数据{w1，p1，k1}。此处的记录数据的格式仅为示例性的，本发明并不以此为限。

步骤S102：根据识别结果，得到第二文档，并为第二文档的各个字符建立标签。

其中，第二文档中的文本内容为与识别结果中的字符信息一致的文档；校对人员可在该第二文档中进行字符文本的修改。

具体地，根据识别结果中的各个字符的字符文本和字符位置，得到第二文档。然后，为第二文档中的各个字符建立一一对应的标签，即一个字符对应一个独立的标签。

步骤S103：根据识别结果字典中各个字符的键值建立第一文档的字符与第二文档的字符的对应关系。

其中，第一文档的字符与第二文档的字符的对应关系指第一文档的字符的字符位置与第二文档的字符的字符标签的对应关系。

具体地，识别结果字典中，一个键值唯一对应第一文档中一个字符位置的字符；在第二文档中，一个标签唯一对应第二文档中的一个字符。基于此，通过将识别结果字典中各个字符的键值和第二文档中的各个标签对应，即可建立第一文档的字符与第二文档的字符的对应关系。

步骤S104：利用对应关系保持校对过程中第一文档的特定字符与第二文档的特定字符的标记同步。

在校对人员通过移动光标进行校对的过程中，利用该对应关系，可以使第一文档和第二文档中当前正在校对的特定字符标记同步，在本发明中，不对标记的方式做具体限定。可选的，标记为高亮显示，则第一文档和第二文档中当前正在校对的特定字符会同步高亮显示。

根据本实施例提供的用于校对的标记同步方法，对第一文档进行识别，将识别结果中的各个字符的字符信息及其键值对应记录到识别结果字典中；根据识别结果，得到第二文档，并为第二文档的各个字符建立标签；根据识别结果字典中各个字符的键值建立第一文档的字符与第二文档的字符的对应关系；利用对应关系保持校对过程中第一文档的特定字符与第二文档的特定字符的标记同步。由此可见，本实施例提供了一种全新的用于校对的标记同步方案，通过建立第一文档和第二文档中的各个字符的对应关系，使得第一文档和第二文档中当前正在校对的特定字符可以标记同步。利用本实施例方案，用户可以根据同步的标记进行校对，为校对工作提供了便利，降低了校对的难度，进而有利于提升校对的准确度和效率。

图2示出了根据本发明另一个实施例的用于校对的标记同步方法的流程图。如图2所示，该方法包括：

步骤S201：对第一文档进行识别，将识别结果中的各个字符的字符信息及其键值对应记录到识别结果字典中。

图3a示出了本发明一个具体实施例的第一文档的文档内容示意图。图3b示出了对应图3a的识别结果字典的示意图。如图3a所示，第一文档中的文本内容为“六一儿童节快乐”，如图3b所示，识别出的第一文档中的8个字符为“六”，“一”，“1”，“L”，“童”，“节”，“快”，“乐”，同时字典中对应记录有8个字符的键值及其字符信息，其中，k1至k8分为为各个字符的键值，p1至p8分别为各个字符的字符位置，即图3a中第一文档的各个字符所在的矩形区域的位置。此处，用矩形区域表示各个字符的字符位置，仅为示意性的，具体实施时，不会显示出来。并且，图3b中的记录数据的格式是示例性的，本发明并不以此为限。

步骤S202：根据识别结果，得到第二文档，并为第二文档的各个字符建立标签。

具体地，第二文档为流文档(flow document)，以便于校对人员的修改处理。在初始得到的流文档中，为各个字符建立标签，使初始时每个字符对应一个唯一的原标签。

图3c示出了对应图3a的第二文档的示意图。如图3c所示，根据识别结果，将“六”，“一”，“1”，“L”，“童”，“节”，“快”，“乐”8个字符在第二文档中显示，并且，为该8个字符分别建立标签为t1至t8。此处的标签t1至t8也仅为示意性的，实际不会显示。

步骤S203：将识别结果字典中各个字符的键值赋值给第二文档中对应字符的标签的标签值，建立第一文档的字符与第二文档的字符的对应关系。

具体地，将识别结果字典中各个字符的键值赋值给对应字符的标签的标签值。通过将第二文档中各个字符的标签的标签值与识别结果字典中各个字符的键值进行匹配，即可确定与键值对应的标签，进而确定与键值对应的第二文档中的字符；以及，识别结果字典中的键值与第一文档中唯一的字符位置对应，进而可以确定与键值对应的第一文档中的字符，基于此，则可以建立第一文档的字符与第二文档的字符的对应关系。并且，在建立对应关系之后，利用对应关系保持校对过程中第一文档的特定字符与第二文档的特定字符的标记同步，以为校对工作提供便利。

仍以图3a至图3c对应的具体实施例为例，将k1赋值给第二文档中的字符“六”的标签t1的标签值，即tag1＝k1，将k2赋值给第二文档中的字符“一”的标签t2的标签值，即tag2＝k2，将k3赋值给第二文档中的字符“1”的标签t3的标签值，即tag＝k3…将k8赋值给第二文档中的字符“乐”的标签t8的标签值，即tag8＝k8。以键值k2为例，则可以在第一文档确定与键值k2对应的字符位置p2，同时，可以在第二文档中确定与键值k2对应的标签t2，进而建立了第一文档中的字符位置p2与第二文档中的标签t2的对应关系，并且，该字符位置p2的文本内容为字符“一”，该标签t2对应字符“一”，也即建立了第一文档中的字符“一”与第二文档中的字符“一”的对应关系。当校对光标在第二文档的标签t2和标签t3之间时，默认对字符“一”进行校对，则在第二文档中高亮显示字符“一”，根据对应关系，在第一文档中高亮显示字符“一”，高亮效果如图3a和图3c中的阴影所示，进而可以便于校对人员根据同步高亮显示的区域进行校对。此处需要说明的是，具体实施时，并且不以该示例中的校对方式为限。在本发明的另一些具体实施例中，校对人员也可以通过在第一文档中移动光标来进行校对，该校对方式对应的标记同步原理，与在第二文档中移动光标校对的原理相似，在此不再赘述。

步骤S204：根据光标位置，监测用户对第二文档中的当前字符的修改操作。

在校对人员(即用户)进行校对的过程中，若确定第一文档和第二文档中同步标记的当前字符不一致，则表明第二文档中的当前字符有误，即识别结果有误。校对人员根据第一文档中的标记处的文本内容，在第二文档中对当前字符进行修改操作，以将识别有误的字符修改为正确的字符。其中，修改操作包括删除字符操作和/或新增字符操作。

具体地，监测校对人员的修改操作，以便在监测到修改操作后，根据修改操作前后的字符差异修正识别结果字典中记录的数据，以保证识别结果字典中的数据正确性，并且更新对应关系。

步骤S205：保存修改前的包含当前字符的第一字符集合；获取修改后的光标位置处的第二字符集合。

其中，通过对修改前的第二文档的字符和修改后的第二文档的字符进行字符匹配，并根据匹配结果确定第一字符集合和第二字符集合。进一步的，预设第一字符数量，并依次将修改前的当前字符之后的字符与修改后的光标位置之后的字符进行匹配，当连续匹配成功的字符数量达到该第一字符数量时，则确定最后一个匹配成功的字符为第一字符集合和第二字符集合的末字符；同理，预设第二字符数量，并依次将修改前的当前字符之前的字符与修改后的光标位置之前的字符进行匹配，当连续匹配成功的字符数量达到该第二字符数量时，则确定最后一个匹配成功的字符为第一字符集合和第二字符集合的首字符。然后，根据第一字符集合的首字符和末字符得到第一字符集合对应的修改前的字符区间，进而得到第一字符集合；根据第二字符集合的首字符和末字符得到第二字符集合对应的修改后的字符区间，进而得到第二字符集合。

图3d示出了对应图3c的修改后的第二文档的示意图。以图3c和图3d为例，说明一种具体的确定第一字符集合和第二字符集合的过程。图3c中，在校对的过程中，校对人员确定对应第一文档中的字符“儿”的识别结果是错误的，即字符“1”和字符“L”是错误的识别结果。当监测到将第二文档中的字符“1”和字符“L”的修改操作时(修改为字符“儿”)，则确定在修改前的第二文档中，当前字符为字符“L”，在修改后的第二文档中，光标位置在字符“儿”之后(即图3d中字符“儿”和字符“童”之间的竖线)。假设第一字符数量为3，则通过将修改前的字符“L”之后的字符依次与修改后的光标位置之后的字符进行字符匹配，确定连续的字符“童”、字符“节”以及字符“快”匹配成功，则确定最后一个匹配成功(即远离当前字符或远离光标位置)的字符“快”为第一字符集合和第二字符集合的末字符；假设第二字符数量为2，则通过将修改前的当前字符“L”之前的字符依次与修改后的光标位置之前的字符进行字符匹配，确定连续的字符“一”和字符“六”匹配成功，则确定最后一个匹配成功(即远离当前字符或远离光标位置)的字符“六”为第一字符集合和第二字符集合的首字符。然后，在修改前的第二文档中(图3c中)，根据首字符“六”和末字符“快”对应的字符区间确定第一字符集合为{“六”，“一”，“1”，“L”，“童”，“节”，“快”}；以及，在修改后的第二文档中(图3d中)，根据首字符“六”和末字符“快”对应的字符区间确定第二字符集合为{“六”，“一”，“儿”，“童”，“节”，“快”}。

具体地，确定第一字符集合，并保存第一字符集合中各个字符的标签及其标签信息，标签信息进一步包括字符文本和标签值。以图3c为例，保存第一字符集合{“六”，“一”，“1”，“L”，“童”，“节”，“快”}中的7个字符对应的标签t1至t7，以及保存t1至t7对应的字符文本和标签值。

步骤S206：将第二字符集合与第一字符集合进行比对，根据比对结果，对对应关系进行更新。

在监测到修改操作后，其一：由于对第二文档的修改操作，会导致第二文档中的标签发生不可预估的改变，包括标签的继承、合并和/或拆分，使得一个原标签不能唯一对应一个字符，进而破坏了之前建立的第一文档中的字符和第二文档的字符的对应关系，不利于校对人员的校对。例如，当删除图3c中的字符“1”和字符“L”之后，字符“1”之前的字符“一”对应的标签t2，字符“L”之后的字符“童”对应的标签t5发生合并，而在新增图3d中的字符“儿”之后，字符串“一儿童”(图3d中虚线内对应的字符串)共有一个标签tx。其二：由于第一字符集合中包括识别错误的当前字符，第二字符集合中包括修改后的正确字符，使得第一字符集合和第二字符集合中的字符存在差异，第二字符集合相较于第一字符集合，可能缺少识别错误的第一字符，新增正确的第二字符，和/或具有相同的未被修改的第三字符，相应的，则识别结果字典中的字符记录相较于第二字符集合也存在多余的第一字符的记录、或缺失第二字符的记录。

基于上述两点，在监测到修改操作后，将第一字符集合和第二字符集合进行字符比对，在本发明中，不限定第二字符集合与第一字符集合进行比对时的比对顺序，但是，优选的，按照如下顺序进行比对：首先从第二字符集合的末字符至光标位置对应的字符进行匹配，然后从第二字符集合的首字符至光标位置对应的字符进行匹配。根据该顺序进行匹配，可以避免同一字符集合中存在相同字符等因素的干扰，提高比对结果的准确性。然后，根据第一字符集合和第二字符集合的字符差异情况，以及根据字符和字符标签的对应情况，重新确定第二字符集合中的各个字符的标签以及标签值，以使一个字符与一个标签唯一对应；并且，修正识别结果字典中的字符记录，以保证识别结果字典中的字符记录的正确性，进而可以更新第一文档中的字符和修改后的第二文档中的对应关系。

下面分别针对三种比对结果，详述本发明一些具体实施中更新对应关系的具体方案：

情况一，比对结果为：第一字符集合包含至少一个第一字符，且至少一个第一字符不包含在第二字符集合中，则在识别结果字典中删除至少一个第一字符的记录。

具体地，在校正的过程中，若执行了删除当前字符(即第一字符)的操作，则会出现情况一对应的比对结果，即表明校对后的正确的识别结果中不存在第一字符，则删除识别结果字典中对应第一字符的记录。其中，第一字符可以为一个或多个。

图3e示出了对应图3c至图3d的修改操作的修正的识别结果字典的示意图。如图3e所示，对应图3c至图3d的修改操作，执行了删除字符“1”和字符“L”的操作，相应的，则删除识别结果字典中对应字符“1”和字符“L”的记录，即图3e中画斜线的两条记录。

情况二，比对结果为：第二字符集合包含至少一个第二字符，且至少一个第二字符不包含在第一字符集合中，则在第二文档中为至少一个第二字符分别新建标签，并根据新建的标签，在识别结果字典中增加至少一个第二字符的记录。

具体地，在校正的过程中，若执行了新增字符的操作，例如，新增图3d中的字符“儿”，则会出现情况二对应的比对结果。新增的第二字符在第二文档中没有与之对应的标签，则首先为第二字符新建标签，使一个第二字符对应一个标签；并且，新增的第二字符在识别结果字典中没有与之对应的记录，则在识别结果字典中增加对应各个第二字符的记录。其中，第二字符也可以为一个或多个。

图4示出了一个具体实施例中新增对应第二字符的记录的方法的流程图。如图4所示，通过以下步骤确定对应第二字符的记录中的键值、字符文本以及字符位置，并在识别结果字典中新增对应第二字符的记录：

步骤S401：针对每个第二字符，在新建的标签中为第二字符赋值新的标签值，并将该新的标签值作为第二字符的键值。

在为每个第二字符新建了标签之后，为新建的标签分别赋予新的标签值，并将该新的标签值作为识别结果字典中对应第二字符的记录中的键值，使得修改后的第二文档中的第二字符的标签与识别结果字典中的第二字符的记录对应。

图3f示出了对应图3c至图3d的修改操作后新建的标签的示意图。如图3f所示，对应图3c至图3d的修改操作，执行了新增字符“儿”的操作，相应的，则在修改后的第二文档中，为字符“儿”新建标签t9，,赋予新的标签值tag9给标签t9，并将tag9作为识别结果字典中字符“儿”的记录中的键值，即图3e中k9＝tag9，则标签t9对应识别结果字典中的字符“儿”对应的记录。

步骤S402：获取在第二字符集合中与第二字符临近的至少一个第四字符。

其中，该至少一个第四字符包含在第一字符集合中，该至少一个第四字符包括与第二字符临近的、且在第二字符之前的已经校对完成的字符，和/或，与第二字符临近的、且在第二字符之后的未进行校对的字符。

例如，若第一字符集合为{“六”，“一”，“1”，“L”，“童”，“节”，“快”}，第二字符集合为{“六”，“一”，“儿”，“童”，“节”，“快”}，第二字符为“儿”，则至少一个第四字符可以为字符“一”和/或字符“童”。

步骤S403：根据识别结果字典中记录的至少一个第四字符的字符位置，确定第二字符的字符位置。

其中，第二字符的字符位置指第二字符在第一文档中的位置，

具体地，第二字符的字符位置与邻近的至少一个第四字符的字符位置相关。在本发明的一些具体实施例中，根据一个第四字符的字符位置和第二文档的格式信息，确定第二字符的字符位置。可选的，当第四字符在第二字符之前，则根据第四字符的字符位置的右边缘值确定第二字符的左边缘值，以及根据第二字符的左边缘值、第二字符的数量以及第二字符的字体大小，确定第二字符的右边缘值，进而得到第二字符的字符位置；当第四字符在第二字符之后，其确定原理同当第四字符在第二字符之前的原理，在此不再赘述。

以图3f为例，第二字符为一个字符“儿”，根据字符“一”在第一文档中的字符位置的右边缘值，确定字符“儿”的左边缘值，然后将该左边缘值与字符“儿”的字体大小对应的字符宽度值相加，得到字符“儿”的右边缘值，进而确定了字符“儿”的字符位置为对应字符“儿”的左边缘值和右边缘值之间的区域，也即图3e中的p9。而当第二字符为多个时，只需在得到的一个第二字符的右边缘值的基础上，多次加上第二字符的字体大小对应的字符宽度值，即可得到各个第二字符的左边缘值和右边缘值，进而得到各个第二字符的字符位置。

在本发明的另一些具体实施例中，根据前后临近的两个第四字符的字符位置确定第二字符的字符位置。可选的，根据前后临近的两个第四字符的左右边缘值确定第二字符的左右边缘值，然后根据第二字符的字符数量将第二字符的左右边缘值的区间进行平均划分，进而得到每个第二字符的字符位置。

仍以图3f为例，根据字符“一”在第一文档中的字符位置的右边缘值和字符“童”在第一文档中的字符位置的左边缘值，确定字符“儿”的左边缘值和右边缘值。

上述涉及的字符位置仅考虑了字符的左右边缘值，而在其他一些具体实施例中，字符位置还包括字符的上下边缘值，或者，字符位置中包括行段信息。

步骤S404：根据第二字符的键值、字符文本以及字符位置，在识别结果字典中增加第二字符的记录。

针对每个第二字符，将第二字符的键值、字符文本以及字符位置作为一条数据记录到识别结果字典中，进而建立了第二文档中修改后的第二字符与第一文档中的相应字符的对应关系。例如，得到图3e中新增的记录{k9，“儿”，p9}。

需要在次说明的是，对应情况二的比对结果，上述图4的新增对应第二字符的记录的方法仅为一种优选的方案，本发明并不以此为限，具体实施时，本领域技术人员也可以采用其它可行的方案，确定第二字符的键值以及字符位置。可选的，在本发明的一些其他实施例中，根据删除的第一字符的字符位置确定第二字符的字符位置；并在识别结果字典中新增对应第二字符的记录。

情况三，针对既包含在第一字符集合又包含在第二字符集合的每个第三字符，判断修改后的第二文档中的该第三字符的原标签是否与第二字符集合中其它字符的原标签发生了合并；若是，则为该第三字符重建标签，并将该第三字符的原标签值赋值给新建的标签的标签值。

具体地，在校正的过程中，即使是没有被执行修改操作的第一字符集合中的第三字符，其对应的标签也可能发生改变，使得一个原标签不能唯一对应一个字符。针对这一部分标签发生改变的第三字符，判断修改后的第二文档中的该第三字符的原标签是否与第二字符集合中其它字符的原标签发生了合并，若发生了合并，表明修改后的第二文档中的第三字符不与修改前的第三字符的原标签唯一对应，则为该第三字符重建标签，并将该第三字符的原标签值赋值给重建的标签的标签值，进而再次建立了该第三字符与第一文档中相应字符的对应关系，以便校对人员据此进行校对。

仍以图3c至图3d的修改操作为例，字符“一”和字符“童”未被执行修改操作，但是修改后，字符“一”和字符“童”的标签发生了合并，则为字符“一”和字符“童”分别重建标签t10和t11(如图3f所示)，并将字符“一”的原标签t2的原标签值tag2赋值给标签t10的标签值tag10，即tag10＝tag2，则建立t10与识别结果字典中对应字符“一”的记录的对应关系，即再次建立了第二文档中的字符“一”和第一文档中的字符“一”的对应关系；以及，将字符“童”的原标签t5的原标签值tag5赋值给标签t11的标签值tag11，即tag11＝tag5，则建立t11与识别结果字典中对应字符“童”的记录的对应关系，即再次建立了第二文档中的字符“童”和第一文档中的字符“童”的对应关系。

需要再次说明的是，对应情况三的更新对应关系的方案仅为本发明的一种优选的方案，但是本发明并不以此为限，在具体实施时，本领域技术人员也可以采用其他合理的方案来针对情况三中的第三字符更新对应关系。可选的，在本发明的一些其他实施例中，将第三字符的原标签和原标签值作为修改后的第二文档中的第三字符的标签和标签值。

在本发明中，仅以图3c至图3d对应的将多个字符修改为一个字符的修改操作为例，进行了更新对应关系的说明，本领域技术人员应该理解的是，本发明方案同样适用于将一个字符修改为多个字符，或者将一个字符修改为另一个字符的情况，其更新对应关系的原理同上，在此不再赘述。

根据本实施例提供的用于校对的标记同步方法，通过建立第一文档和第二文档中的各个字符的对应关系，使得第一文档和第二文档中当前正在校对的特定字符可以标记同步；以及，根据光标位置，监测用户对第二文档中的当前字符的修改操作；保存修改前的包含当前字符的第一字符集合；获取修改后的光标位置处的第二字符集合；将第二字符集合与第一字符集合进行比对，根据比对结果，对对应关系进行更新。由此可见，利用本实施例方案，校对人员可以根据同步的标记进行校对，为校对工作提供了便利，降低了校对的难度，进而有利于提升校对的准确度和效率；并且，可以在监测到修改操作后，根据修改前后的第一字符集合和第二字符集合的比对结果，重新建立对应关系，使修改后的第二文档中的特定字符与第二文档的特定字符依然可以标记同步。

本申请实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于校对的标记同步方法。

可执行指令具体可以用于使得处理器执行以下操作：

在一种可选的实施方式中，可执行指令具体可以进一步用于使得处理器执行以下操作：

将识别结果字典中各个字符的键值赋值给第二文档中对应字符的标签的标签值。

根据光标位置，监测用户对所述第二文档中的当前字符的修改操作；保存修改前的包含所述当前字符的第一字符集合；

获取修改后的光标位置处的第二字符集合；

将所述第二字符集合与所述第一字符集合进行比对，根据比对结果，对所述对应关系进行更新。

若所述比对结果为：所述第一字符集合包含至少一个第一字符，且所述至少一个第一字符不包含在所述第二字符集合中，则在所述识别结果字典中删除所述至少一个第一字符的记录。

若所述比对结果为：所述第二字符集合包含至少一个第二字符，且所述至少一个第二字符不包含在所述第一字符集合中，则在所述第二文档中为所述至少一个第二字符分别新建标签，并根据新建的标签，在所述识别结果字典中增加所述至少一个第二字符的记录。

针对既包含在第一字符集合又包含在第二字符集合的每个第三字符，判断修改后的第二文档中的该第三字符的原标签是否与第二字符集合中其它字符的原标签发生了合并；

若是，则为该第三字符重建标签，并将该第三字符的原标签值赋值给重建的标签的标签值。

针对每个第二字符，在新建的标签中为第二字符赋值新的标签值，并将该新的标签值作为第二字符的键值；

获取在所述第二字符集合中与第二字符临近的至少一个第四字符，其中该至少一个第四字符包含在所述第一字符集合中；

根据所述识别结果字典中记录的至少一个第四字符的字符位置，确定第二字符的字符位置；

根据第二字符的键值、字符文本以及字符位置，在所述识别结果字典中增加所述第二字符的记录。

图5示出了根据本发明实施例的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图5所示，该计算设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述用于校对的标记同步方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：

在一种可选的实施方式中，程序510具体可以用于使得处理器502执行以下操作：

获取修改后的光标位置处的第二字符集合；

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种用于校对的标记同步方法，包括：

2.根据权利要求1所述的方法，其中，所述根据识别结果字典中各个字符的键值建立第一文档的字符与第二文档的字符的对应关系进一步包括：

3.根据权利要求1所述的方法，其中，所述方法还包括：

获取修改后的光标位置处的第二字符集合；

4.根据权利要求3所述的方法，其中，所述根据比对结果，对所述对应关系进行更新进一步包括：

5.根据权利要求3所述的方法，其中，所述根据比对结果，对所述对应关系进行更新进一步包括：

6.根据权利要求3所述的方法，其中，所述根据比对结果，对所述对应关系进行更新进一步包括：

7.根据权利要求5所述的方法，其中，所述在所述第二文档中为所述至少一个第二字符分别新建标签，并根据新建的标签，在所述识别结果字典中增加所述至少一个第二字符的记录进一步包括：

根据所述识别结果字典中记录的该至少一个第四字符的字符位置，确定第二字符的字符位置；

8.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

9.根据权利要求8所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：

10.根据权利要求8所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：

获取修改后的光标位置处的第二字符集合；

11.根据权利要求10所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：

12.根据权利要求10所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：

13.根据权利要求10所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：

14.根据权利要求12所述的计算设备，所述可执行指令进一步使所述处理器执行以下操作：

15.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行以下操作：

16.根据权利要求15所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

17.根据权利要求15所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

获取修改后的光标位置处的第二字符集合；

18.根据权利要求17所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

19.根据权利要求17所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

20.根据权利要求17所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：

21.根据权利要求19所述的计算机存储介质，所述可执行指令进一步使所述处理器执行以下操作：