CN115204182A

CN115204182A - 一种待校对电子书数据的识别方法及系统

Info

Publication number: CN115204182A
Application number: CN202211098465.6A
Authority: CN
Inventors: 雷燕芳; 秦余伟; 冯兴旺
Original assignee: Shandong Tiancheng Book Industry Co ltd
Current assignee: Shandong Tiancheng Book Industry Co ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-10-18
Anticipated expiration: 2042-09-09
Also published as: CN115204182B

Abstract

本发明涉及语言校正技术领域，尤其涉及一种待校对电子书数据的识别方法及系统，包括：步骤S1，获取模块获取待校对电子书的样稿，同时根据待校对电子书的样稿信息对存储于储存模块的原稿进行调取，并将样稿与原稿输送至数据识别模块以生成数据识别任务；步骤S2，进行段落数据识别；步骤S3，进行语言数据识别；步骤S4，进行语义数据识别，本发明通过分步数据识别，并在每一步数据识别后提交审核模块进行人工审核，本发明把数据识别工作分步进行，在系统数据识别完成后提交至人工审核，减少了工作人员的数据识别工作，提高了数据识别效率，同时，对于样稿中系统无法判定的地方进行人工确认，增加了数据识别的准确率。

Description

一种待校对电子书数据的识别方法及系统

技术领域

本发明涉及语言校正技术领域，尤其涉及一种待校对电子书数据的识别方法及系统。

背景技术

随着计算机技术的快速发展，电子书越来越多的出现在人们的视野中，成为公众获知知识的重要渠道，然而大多数的电子书由于缺乏严格的审核和校对，导致电子书中存在较多的错误，如果单纯依靠原人工编辑的方式来进行排版纠错，则效率低，易出错，且成本较高。

中国专利公开号：CN106776527B公开了一种电子书数据的显示方法、装置及终端设备，其中，所述电子书数据的显示方法包括：按照设定分析规则对电子书数据进行分析，根据分析结果确定待显示的中文诗词数据；根据所述中文诗词数据中每行诗词的文字数量和电子书的排版宽度，确定每行诗词的字体大小，使每行诗词在一行完整显示；根据所述字体大小显示所述中文诗词数据。通过本发明实施例实现了每行中文诗词可以在一行内完整显示，优化了中文诗词的排版显示效果，提升了用户阅读电子书的体验。

然而，在实际电子书的数据识别过程中，为了能够使整个电子书的结构更加合理，能够使作者表达的观点更加明确，还要对整体的文章布局进行调整；另一方面，中文表达的意思通常需要结合上下语境进行全面的理解，在现有技术中，对文本的自动数据识别时，缺乏对语义的分析，经常导致数据识别不准确，所以，在电子书数据识别时语义分析技术的应用至关重要，为保证电子书数据识别的准确性，在软件数据识别完成后，有必要进行人工审核。

发明内容

为此，本发明提供一种待校对电子书数据的识别方法及系统，用以克服现有技术中在电子书的数据识别时缺乏文章布局的调整以及数据识别准确率低的问题。

一方面，本发明提供一种待校对电子书数据的识别方法，包括：

步骤S1，获取模块获取待校对电子书的样稿，同时根据待校对电子书的样稿信息对存储于储存模块的原稿进行调取，并将样稿与原稿输送至数据识别模块以生成数据识别任务；

步骤S2，所述数据识别模块对样稿与原稿进行段落数据识别，数据识别模块将数据识别结果形成段落数据识别意见，并提交至审核模块进行人工审核；

在所述步骤S2中，所述数据识别模块对样稿与原稿进行段落数据识别，中控模块计算样稿中的任一段落中的内容与原稿中各段落内容的相似度X并根据X对段落数据识别意见做出判定；

步骤S3，在完成对所述段落数据识别意见的人工审核后，进行语言数据识别，数据识别模块将数据识别结果形成语言数据识别意见，并提交至审核模块进行人工审核；

在所述步骤S3中，所述语言数据识别包括语法错误数据识别、不规范用词数据识别、常见错误数据识别以及标点符号错误数据识别，所述常见错误包括重复字、颠倒字和错别字；在针对不规范用词的数据识别时，所述中控模块计算建议修改词的匹配度A并根据A判定建议修改词是否符合语义，在判定建议修改词不符合语义时列出备选词语并计算备选词语的匹配度，中控模块根据备选词语的匹配度和数量对备选词语进行确定；

步骤S4，在完成对所述语言数据识别意见的人工审核后，进行语义数据识别，所述数据识别模块将数据识别结果形成语义数据识别意见，并提交至审核模块进行人工审核；

在所述步骤S4中，所述数据识别模块对语义进行数据识别时，数据识别模块通过语义分析提取语义存在歧义的语句，将上述语句按照自然语言的使用习惯进行语句结构的划分，提取导致语义存在歧义的词语进行数据识别并修正，所述数据识别模块根据存在歧义的词语进行词义关联搜索，对搜索出的关联词计算在相似语义中的应用的应用频率并根据应用频率判定是否将搜索出的关联词作为替换词进行保留。

进一步地，在所述步骤S2中，所述数据识别模块对样稿与原稿进行段落数据识别时，数据识别模块对原稿的段落按顺序进行编码，同时，数据识别模块对样稿的段落按顺序进行编码，在完成对原稿的段落的编码后，数据识别模块按顺序选取样稿中的段落与原稿进行比对，对于样稿中的任一段落，数据识别模块根据样稿中的任一段落中的内容在原稿中进行提取，在原稿中提取该段落时，中控模块计算样稿中的任一段落中的内容与原稿中各段落内容的相似度X并取其中的最大值Xmax，中控模块将Xmax与预设相似度X0进行比对，

当Xmax≤X0时，所述中控模块判定原稿中不存在与样稿中选取的段落相对应的段落，所述数据识别模块将样稿中选取的段落标注为新增段落；

当Xmax＞X0时，所述中控模块判定原稿中相似度Xmax对应的段落为样稿中选取的段落，中控模块进一步判断原稿中相似度Xmax对应的段落的段落编码与样稿中选取的段落的段落编码是否对应，若不对应，所述数据识别模块则在样稿中标注为段落顺序调整；

所述数据识别模块完成样稿中的任一段与原稿的比对时，若原稿中存在未被提取比对过的段落，所述数据识别模块则将该未被提取比对过的段落在原稿中标注为删除段落；

所述数据识别模块将样稿与原稿比对，标注出样稿中的新增段落和段落顺序调整，同时标注出原稿中的删除段落，数据识别模块将在样稿与原稿中的段落标注形成段落数据识别意见，并将段落数据识别意见传输至所述审核模块进行人工审核。

进一步地，在所述步骤S3中，在针对不规范用词数据识别时，所述数据识别模块采用逐句识别的方式进行数据识别，数据识别模块应用自然语言处理技术进行语义分析，根据语义分析识别不规范用词并给出建议修改词，所述中控模块根据语义分析结果计算建议修改词与语义的匹配度A，中控模块将计算的匹配度A与预设匹配度A0进行比对，

当A≥A0时，所述中控模块判定建议修改词符合语义，所述数据识别模块自动进行修改；

当A＜A0时，所述中控模块判定建议修改词不符合语义，所述数据识别模块对该处不规范用词进行标注，同时列出备选词语；

所述中控模块将不规范用词所在的语句称作目标语句；所述数据识别模块在给出建议修改词时，首先根据不规范用词进行词义关联搜索以搜索出关联词，所述中控模块提取目标语句中的主谓宾结构，将提取的主谓宾结构在数据库模块中进行搜索以获取语言应用模型，数据识别模块对搜索出的语言应用模型进行语境分析以进行语境分类，数据识别模块将目标语句的语境分类与搜索出的语言应用模型的语境分类进行匹配并筛选出与目标语句相同语境的语言应用模型，统计匹配结果数量Q，在匹配结果数量Q中统计不规范用词的任一关联词的数量Qi，中控模块选取Qi中的最高值Qmax对应的词语作为建议修改词，并计算该建议修改词与语义的匹配度A，设定A=Qmax/Q；对于不规范用词的任一关联词的匹配度Ai，设定Ai=Qi/Q。

进一步地，在所述数据识别模块确定备选词语时，所述数据识别模块根据不规范用词进行词义关联搜索，所述中控模块计算不规范用词的任一关联词的匹配度Ai与预设匹配度A0的差值ΔA，设定ΔA=A0-Ai，中控模块将ΔA与预设标准差值ΔAb进行比对，

当ΔA≥ΔAb时，所述中控模块判定该关联词不可作为备选词语；

当ΔA＜ΔAb时，所述中控模块判定该关联词可作为备选词语。

进一步地，所述中控模块统计可作为备选词语的数量N，中控模块将N与预设数量N0进行对比，

当N≥N0时，所述中控模块将每一个可作为备选词语的匹配度进行降序排列，选取匹配度排序在前的N0个词语作为备选词语；

当N＜N0时，所述中控模块将备选词语数量设置为N；

当所述中控模块完成对备选词语的确定时，所述数据识别模块形成语言数据识别意见，并传输至所述审核模块进行人工审核。

进一步地，在所述步骤S4中，所述数据识别模块对语义进行数据识别时，通过语义分析提取语义存在歧义的语句，将上述语句按照自然语言的使用习惯进行语句结构的划分，提取导致语义存在歧义的词语进行数据识别并修正；

针对导致语义存在歧义的词语，所述数据识别模块根据存在歧义的词语进行词义关联搜索，搜索该存在歧义的词语在相似语境中的相似语义中的语言应用模型，所述中控模块统计搜索出的语言应用模型的数量Kz，同时中控模块统计该存在歧义的词语在搜索出的语言应用模型中的应用次数K，以及统计与该存在歧义的词语相关联的任一关联词在搜索出的语言应用模型中的应用次数Ki，中控模块计算该存在歧义的词语的应用频率Z，设定Z=K/Kz，同时计算与该存在歧义的词语相关联的任一关联词的应用频率Zi，设定Zi=Ki/Kz，中控模块将Z与Zi进行对比，

当Zi≥Z时，所述中控模块对该关联词作为替换词进行保留；

当Zi＜Z时，所述中控模块不对该关联词进行保留；

当所述中控模块完成对替换词的确定时，所述数据识别模块形成语义数据识别意见，并传输至所述审核模块进行人工审核。

进一步地，在所述替换词中，所述中控模块计算Zi和Z的比值B，设定Bi=Zi/Z，中控模块中设有第一比值B1和第二比值B2，其中1＜B1＜1.5＜B2＜2，

当Bi≤B1时，所述数据识别模块对该替换词进行第一颜色标识；

当B1＜Bi≤B2时，所述数据识别模块对该替换词进行第二颜色标识；

当Bi＞B2时，所述数据识别模块自动进行修改；

进一步地，在所述步骤S1中，所述获取模块根据待校对电子书的样稿信息对存储于所述储存模块的原稿进行调取时，所述获取模块通过第一关键词进行一次调取，若一次调取结果中原稿匹配的数量等于1，则调取工作结束，若一次调取结果中原稿匹配的数量大于1，则在一次调取结果中，获取模块通过增加第二关键词进行二次调取，若二次调取结果中原稿匹配的数量等于1，则调取工作结束，若二次调取结果中原稿匹配的数量大于1，则获取模块通过原稿中的一段文本进行原稿的调取。

另一方面，本发明还提供一种应用待校对电子书数据的识别方法的系统，包括：

储存模块，用以对原稿进行储存；

获取模块，其与所述储存模块相连，用以获取待校对电子书的样稿，同时根据待校对电子书的信息对原稿进行调取；

数据识别模块，其与所述获取模块和数据库模块相连，用以对样稿进行数据识别并将数据识别结果形成数据识别意见，将数据识别意见提交至审核模块；所述数据库模块用以对自然语言的词库进行存储；

所述审核模块与所述数据识别模块相连，用以接收数据识别模块数据识别后的样稿以进行人工审核；

中控模块，其与所述储存模块和所述数据识别模块相连，用以在数据识别过程中对产生的数据进行计算和判断；

输出模块，其与所述审核模块相连，对数据识别完成的样稿进行输出，并将数据识别完成的样稿标记为已数据识别。

进一步地，对于所述数据库模块，对于任一数据库模块中的词语，建立与该词语对应的关联词库，用以在数据识别时作为不规范用词和表达存在歧义的词语的建议修改词或备选词语；在所述数据库模块中，对于任一数据库模块中的词语，建立与该词语对应的语言应用模型，在语义相同的语言应用模型中，将该词语的应用和其对应的关联词库的应用进行关联，同时，在对于任一数据库模块中的语言应用模型进行语境的分类。

与现有技术相比，本发明的有益效果在于，本发明通过分步数据识别，首先进行段落数据识别，然后进行语言数据识别，最后进行语义数据识别，并在每一步数据识别后提交审核模块进行人工审核，本发明把数据识别工作分步进行，在系统数据识别完成后提交至人工审核，减少了工作人员的数据识别工作，提高了数据识别效率，同时，对于样稿中系统无法判定的地方进行人工确认，增加了数据识别的准确率。

进一步地，本发明在对电子书进行数据识别时，首先将样稿与原稿在整体上进行段落数据识别，以此获取样稿在整体布局上的变化，数据识别模块将在样稿与原稿中的段落标注形成段落数据识别意见，并将段落数据识别意见传输至审核模块进行人工审核，工作人员对段落数据识别意见进行确认并进一步优化电子书的布局，增加了整个电子书的结构合理性，能够更加贴切的表达作者的观点，同时，提高了读者的阅读体验。

进一步地，本发明在完成段落数据识别后进行语言数据识别，在针对不规范用词数据识别时，数据识别模块采用逐句识别的方式进行数据识别，数据识别细致全面，保证了数据识别质量，所述数据识别模块应用自然语言处理技术进行语义分析，数据识别模块根据语义分析识别不规范用词并给出建议修改词，本发明采用语义识别的技术进行不规范用词的数据识别，识别精度高，保证了数据识别的准确度。

进一步地，本发明所述数据识别模块在识别不规范用词后给出建议修改词，中控模块根据语义分析结果计算建议修改词与语义的匹配度并根据匹配度判定建议修改词是否符合语义，在判定建议修改词不符合语义时列出备选词语，一方面，根据匹配度判定建议修改词是否符合语义，保证了校准的的准确度，另一方面，提供了备选词语，为工作人员在审核时提供了便捷，降低了工作强度，提高了工作效率。

进一步地，本发明所述数据识别模块确定备选词语时，首先根据不规范用词进行词义关联搜索，然后根据语义分析计算搜索出的词语的匹配度，中控模块根据备选词语的匹配度和限定的备选词语的数量对备选词语进行确定，在提高备选词语的精准度的同时限定了备选词语的数量，一方面，进一步提高了数据识别的准确度，另一方面，进一步提高了工作人员在审核时的工作效率。

进一步地，本发明所述数据识别模块对语义进行数据识别时，针对导致语义存在歧义的词语，所述中控模块根据存在歧义的词语进行词义关联搜索，所述中控模块在语言库中搜索该存在歧义的词语及其关联词在相似语境中的相似语义中的语言应用模型，所述中控模块计算该存在歧义的词语在搜索出的语言应用模型中的应用频率Z，中控模块根据应用频率判定是否对关联词作为替换词进行保留，通过语义搜索及应用频率的计算，进一步提高了数据识别的准确度。

进一步地，本发明在所述替换词中，所述中控模块计算Zi和Z的比值B，所述数据识别模块根据比值B进行自动修改或是对该替换词进行不同的颜色标识，一方面，进一步提高了数据识别的准确度，另一方面，进一步提高了工作人员在审核时的工作效率。

进一步地，本发明中获取模块在储存模块中调取原稿时，首先通过第一关键词进行一次调取，若一次调取结果符合要求，则调取工作结束，否则，在一次调取结果的基础上增加第二关键词进行二次调取，在二次调取时缩小了搜索范围，减少了运算时间，进一步的，若二次调取结果不符合要求，则获取模块通过原稿中的一段文本进行原稿的调取，增加了运算精度，避免多次调取原稿精准度低的情况，提高了数据识别效率。

附图说明

图1为本发明实施例待校对电子书数据的识别方法的流程图；

图2为本发明实施例应用待校对电子书数据的识别方法的系统的结构框图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

请参阅图1所示，其为本发明实施例待校对电子书数据的识别方法的流程图，本发明所述的待校对电子书数据的识别方法包括：

本发明通过分步数据识别，首先进行段落数据识别，然后进行语言数据识别，最后进行语义数据识别，并在每一步数据识别后提交审核模块进行人工审核，本发明把数据识别工作分步进行，在系统数据识别完成后提交至人工审核，减少了工作人员的数据识别工作，提高了数据识别效率，同时，对于样稿中系统无法判定的地方进行人工确认，增加了数据识别的准确率。

具体而言，在所述步骤S2中，所述数据识别模块对样稿与原稿进行段落数据识别时，数据识别模块对原稿的段落按顺序进行编码，同时，数据识别模块对样稿的段落按顺序进行编码，在完成对原稿的段落的编码后，数据识别模块按顺序选取样稿中的段落与原稿进行比对，对于样稿中的任一段落，数据识别模块根据样稿中的任一段落中的内容在原稿中进行提取，在原稿中提取该段落时，中控模块计算样稿中的任一段落中的内容与原稿中各段落内容的相似度X并取其中的最大值Xmax，中控模块将Xmax与预设相似度X0进行比对，

本发明在对电子书进行数据识别时，首先将样稿与原稿在整体上进行段落数据识别，以此获取样稿在整体布局上的变化，数据识别模块将在样稿与原稿中的段落标注形成段落数据识别意见，并将段落数据识别意见传输至审核模块进行人工审核，工作人员对段落数据识别意见进行确认并进一步优化电子书的布局，增加了整个电子书的结构合理性，能够更加贴切的表达作者的观点，同时，提高了读者的阅读体验。

具体而言，在所述步骤S3中，在针对不规范用词数据识别时，所述数据识别模块采用逐句识别的方式进行数据识别，数据识别模块应用自然语言处理技术进行语义分析，根据语义分析识别不规范用词并给出建议修改词，所述中控模块根据语义分析结果计算建议修改词与语义的匹配度A，中控模块将计算的匹配度A与预设匹配度A0进行比对，

当A＜A0时，所述中控模块判定建议修改词不符合语义，所述数据识别模块对该处不规范用词进行标注，同时列出备选词语。

本发明在完成段落数据识别后进行语言数据识别，在针对不规范用词数据识别时，数据识别模块采用逐句识别的方式进行数据识别，数据识别细致全面，保证了数据识别质量，所述数据识别模块应用自然语言处理技术进行语义分析，数据识别模块根据语义分析识别不规范用词并给出建议修改词，本发明采用语义识别的技术进行不规范用词的数据识别，识别精度高，保证了数据识别的准确度。

具体而言，在所述数据识别模块确定备选词语时，所述数据识别模块根据不规范用词进行词义关联搜索，所述中控模块根据语义分析计算搜索出的词语的匹配度Ai，中控模块计算Ai与预设匹配度A0的差值ΔA，设定ΔA=A0-Ai，中控模块将ΔA与预设标准差值ΔAb进行比对，

当ΔA＜ΔAb时，所述中控模块判定该关联词可作为备选词语。

本发明所述数据识别模块在识别不规范用词后给出建议修改词，中控模块根据语义分析结果计算建议修改词与语义的匹配度并根据匹配度判定建议修改词是否符合语义，在判定建议修改词不符合语义时列出备选词语，一方面，根据匹配度判定建议修改词是否符合语义，保证了校准的的准确度，另一方面，提供了备选词语，为工作人员在审核时提供了便捷，降低了工作强度，提高了工作效率。

具体而言，所述中控模块统计可作为备选词语的数量N，中控模块将N与预设数量N0进行对比，

当N＜N0时，所述中控模块将备选词语数量设置为N；

本发明所述数据识别模块确定备选词语时，首先根据不规范用词进行词义关联搜索，然后根据语义分析计算搜索出的词语的匹配度，中控模块根据备选词语的匹配度和限定的备选词语的数量对备选词语进行确定，在提高备选词语的精准度的同时限定了备选词语的数量，一方面，进一步提高了数据识别的准确度，另一方面，进一步提高了工作人员在审核时的工作效率。

具体而言，在所述步骤S4中，所述数据识别模块对语义进行数据识别时，通过语义分析提取语义存在歧义的语句，将上述语句按照自然语言的使用习惯进行语句结构的划分，提取导致语义存在歧义的词语进行数据识别并修正；

当Zi≥Z时，所述中控模块对该关联词作为替换词进行保留；

当Zi＜Z时，所述中控模块不对该关联词进行保留。

本发明所述数据识别模块对语义进行数据识别时，针对导致语义存在歧义的词语，所述中控模块根据存在歧义的词语进行词义关联搜索，所述中控模块在语言库中搜索该存在歧义的词语在相似语境中的相似语义中的语言应用模型，所述中控模块计算该存在歧义的词语在搜索出的语言应用模型中的应用频率Z，中控模块根据应用频率判定是否对关联词作为替换词进行保留，通过语义搜索及应用频率的计算，进一步提高了数据识别的准确度。

具体而言，在所述替换词中，所述中控模块计算Zi和Z的比值B，设定Bi=Zi/Z，中控模块中设有第一比值B1和第二比值B2，其中1＜B1＜1.5＜B2＜2，

当Bi＞B2时，所述数据识别模块自动进行修改；

本发明在所述替换词中，所述中控模块计算Zi和Z的比值B，所述数据识别模块根据比值B进行自动修改或是对该替换词进行不同的颜色标识，一方面，进一步提高了数据识别的准确度，另一方面，进一步提高了工作人员在审核时的工作效率。

具体而言，在所述步骤S1中，所述获取模块根据待校对电子书的样稿信息对存储于所述储存模块的原稿进行调取时，所述获取模块通过第一关键词进行一次调取，若一次调取结果中原稿匹配的数量等于1，则调取工作结束，若一次调取结果中原稿匹配的数量大于1，则在一次调取结果中，获取模块通过增加第二关键词进行二次调取，若二次调取结果中原稿匹配的数量等于1，则调取工作结束，若二次调取结果中原稿匹配的数量大于1，则获取模块通过原稿中的一段文本进行原稿的调取。

本发明中获取模块在储存模块中调取原稿时，首先通过第一关键词进行一次调取，若一次调取结果符合要求，则调取工作结束，否则，在一次调取结果的基础上增加第二关键词进行二次调取，在二次调取时缩小了搜索范围，减少了运算时间，进一步的，若二次调取结果不符合要求，则获取模块通过原稿中的一段文本进行原稿的调取，增加了运算精度，避免多次调取原稿精准度低的情况，提高了数据识别效率。

请参阅图2所示，其为本发明实施例应用待校对电子书数据的识别方法的系统的结构框图，本发明提供一种应用待校对电子书数据的识别方法的系统，所述系统包括：

储存模块，用以对原稿进行储存；

具体而言，对于所述数据库模块，对于任一数据库模块中的词语，建立与该词语对应的关联词库，用以在数据识别时作为不规范用词和表达存在歧义的词语的建议修改词或备选词语；在所述数据库模块中，对于任一数据库模块中的词语，建立与该词语对应的语言应用模型，在语义相同的语言应用模型中，将该词语的应用和其对应的关联词库的应用进行关联，同时，在对于任一数据库模块中的语言应用模型进行语境的分类。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种待校对电子书数据的识别方法，其特征在于，包括：

2.根据权利要求1所述的待校对电子书数据的识别方法，其特征在于，在所述步骤S2中，所述数据识别模块对样稿与原稿进行段落数据识别时，数据识别模块对原稿的段落按顺序进行编码，同时，数据识别模块对样稿的段落按顺序进行编码，在完成对原稿的段落的编码后，数据识别模块按顺序选取样稿中的段落与原稿进行比对，对于样稿中的任一段落，数据识别模块根据样稿中的任一段落中的内容在原稿中进行提取，在原稿中提取该段落时，中控模块计算样稿中的任一段落中的内容与原稿中各段落内容的相似度X并取其中的最大值Xmax，中控模块将Xmax与预设相似度X0进行比对，

3.根据权利要求1所述的待校对电子书数据的识别方法，其特征在于，在所述步骤S3中，在针对不规范用词数据识别时，所述数据识别模块采用逐句识别的方式进行数据识别，数据识别模块应用自然语言处理技术进行语义分析，根据语义分析识别不规范用词并给出建议修改词，所述中控模块根据语义分析结果计算建议修改词与语义的匹配度A，中控模块将计算的匹配度A与预设匹配度A0进行比对，

4.根据权利要求3所述的待校对电子书数据的识别方法，其特征在于，在所述数据识别模块确定备选词语时，所述中控模块计算不规范用词的任一关联词的匹配度Ai与预设匹配度A0的差值ΔA，设定ΔA=A0-Ai，中控模块将ΔA与预设标准差值ΔAb进行比对，

当ΔA＜ΔAb时，所述中控模块判定该关联词可作为备选词语。

5.根据权利要求4所述的待校对电子书数据的识别方法，其特征在于，所述中控模块统计可作为备选词语的数量N，中控模块将N与预设数量N0进行对比，

当N＜N0时，所述中控模块将备选词语数量设置为N；

6.根据权利要求1所述的待校对电子书数据的识别方法，其特征在于，在所述步骤S4中，所述数据识别模块对语义进行数据识别时，通过语义分析提取语义存在歧义的语句，将上述语句按照自然语言的使用习惯进行语句结构的划分，提取导致语义存在歧义的词语进行数据识别并修正；

针对导致语义存在歧义的词语，所述数据识别模块根据存在歧义的词语进行词义关联搜索，进一步搜索该存在歧义的词语及其关联词在相似语境中的相似语义中的语言应用模型，所述中控模块统计搜索出的语言应用模型的数量Kz，同时中控模块统计该存在歧义的词语在搜索出的语言应用模型中的应用次数K，以及统计与该存在歧义的词语相关联的任一关联词在搜索出的语言应用模型中的应用次数Ki，中控模块计算该存在歧义的词语的应用频率Z，设定Z=K/Kz，同时计算与该存在歧义的词语相关联的任一关联词的应用频率Zi，设定Zi=Ki/Kz，中控模块将Z与Zi进行对比，

当Zi≥Z时，所述中控模块对该关联词作为替换词进行保留；

当Zi＜Z时，所述中控模块不对该关联词进行保留；

7.根据权利要求6所述的待校对电子书数据的识别方法，其特征在于，在所述替换词中，所述中控模块计算Zi和Z的比值B，设定Bi=Zi/Z，中控模块中设有第一比值B1和第二比值B2，其中1＜B1＜1.5＜B2＜2，

当Bi＞B2时，所述数据识别模块自动进行修改；

8.根据权利要求1所述的待校对电子书数据的识别方法，其特征在于，在所述步骤S1中，所述获取模块根据待校对电子书的样稿信息对存储于所述储存模块的原稿进行调取时，所述获取模块通过第一关键词进行一次调取，若一次调取结果中原稿匹配的数量等于1，则调取工作结束，若一次调取结果中原稿匹配的数量大于1，则在一次调取结果中，获取模块通过增加第二关键词进行二次调取，若二次调取结果中原稿匹配的数量等于1，则调取工作结束，若二次调取结果中原稿匹配的数量大于1，则获取模块通过原稿中的一段文本进行原稿的调取。

9.一种应用权利要求1-8任一项所述方法的系统，其特征在于，包括：

储存模块，用以对原稿进行储存；

10.根据权利要求9所述的系统，其特征在于，对于所述数据库模块，对于任一数据库模块中的词语，建立与该词语对应的关联词库，用以在数据识别时作为不规范用词和表达存在歧义的词语的建议修改词或备选词语；在所述数据库模块中，对于任一数据库模块中的词语，建立与该词语对应的语言应用模型，在语义相同的语言应用模型中，将该词语的应用和其对应的关联词库的应用进行关联，同时，在对于任一数据库模块中的语言应用模型进行语境的分类。