CN111695342B

CN111695342B - 基于语境信息的文本内容校正方法

Info

Publication number: CN111695342B
Application number: CN202010536286.0A
Authority: CN
Inventors: 陈刚; 张成洪; 黄丽华
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2023-04-25
Anticipated expiration: 2040-06-12
Also published as: CN111695342A

Abstract

本发明提供一种基于语境信息的文本内容校正方法，用于对经过OCR转换形成的文本内容进行内容校正，其特征在于，包括：步骤S1，获取文本内容作为待核验文本；步骤S2，依次将待核验文本中的各个位置词作为当前待核验词；步骤S3，使用多个预先根据不同语境训练得到的语境模型同时预测当前待核验词得到多个预测结果；步骤S4，通过主投票策略将预测结果融合形成语境词语；步骤S5，计算语境词语在所有预测结果中的出现频率，并在出现频率高于预设的校验阈值时将语境词语替换待核验文本中的当前待核验词；步骤S6，重复步骤S2至步骤S5直到待核验文本中的所有位置词都被核验完成。

Description

基于语境信息的文本内容校正方法

技术领域

本发明属于文本识别领域，涉及一种基于语境信息的文本内容校正方法。

背景技术

OCR(Optical Character Recognition，光学字符识别)识别是目前常用的对图片进行文字识别的技术，该技术可以将图片转换为可以编辑的文字，广泛应用于各种领域。例如医药行业，做药品推荐、疾病诊断等研究，通常需要对药品说明书、病例等纸质化的资料进行扫描录入，通过OCR识别转化为电子文档数据，以便开展数据挖掘建模。

然而，经OCR识别转换后的文本数据通常含有大量噪声，例如OCR将图像中形态近似的字识别错误、产生识别不完全(遗漏)、识别带来一些错误噪声(如黑点、表情、图像)，重复识别(同一个字连续、重复在输出结果中出现)等。这些噪声会极大地影响文本数据的质量，对后续转换为电子文档数据等处理造成不良影响。

为了减少噪声影响，通常需要人工核验转化内容的准确性，这种核验过程不仅耗时耗力，同时还会因为人工处理而导致核验遗漏等意外情况，最终依旧对文本数据的质量造成影响。

发明内容

为解决上述问题，提供一种能够自动对经过OCR转换形成的文本内容进行内容校正，从而形成正确的文本内容校正方法，本发明采用了如下技术方案：

本发明提供了一种基于语境信息的文本内容校正方法，用于对经过OCR转换形成的文本内容进行内容校正，其特征在于，包括：步骤S1，获取文本内容作为待核验文本；步骤S2，依次将待核验文本中的各个位置词作为当前待核验词；步骤S3，使用多个预先根据不同语境训练得到的语境模型同时预测当前待核验词得到多个预测结果；步骤S4，通过主投票策略将预测结果融合形成语境词语；步骤S5，计算语境词语在所有预测结果中的出现频率，并在出现频率高于预设的校验阈值时将语境词语替换待核验文本中的当前待核验词；步骤S6，重复步骤S2至步骤S5直到待核验文本中的所有位置词都被核验完成。

本发明提供的基于语境信息的文本内容校正方法，还可以具有这样的技术特征，其中，步骤S3包括如下子步骤：步骤S3-1，依次选择各个语境模型作为当前语境模型；步骤S3-2，根据当前语境模型的窗口尺寸在当前待核验词前后获取对应数量的邻居词作为待输入词；步骤S3-3，将待输入词输入当前语境模型得到预测结果；步骤S3-4，重复步骤S3-1至步骤S3-3直至所有语境模型都对当前待核验词完成预测。

本发明提供的基于语境信息的文本内容校正方法，还可以具有这样的技术特征，其中，语境模型的训练过程为：步骤T1，从含有多个标准语料的标准语料库中获取复数个标准文本内容；步骤T2，设定多个具有不同窗口尺寸的待训练语境模型；步骤T3，将各个标准文本内容中的每一个位置词作为训练标签，并根据各个窗口尺寸分别将该位置词前后对应数量的邻居词语作为对应训练标签且对应窗口尺寸的训练样本；步骤T4，基于训练标签以及训练样本分别对对应窗口尺寸的待训练语境模型进行训练形成语境模型。

本发明提供的基于语境信息的文本内容校正方法，还可以具有这样的技术特征，其中，标准语料库还包括校验准确语料，校验准确语料的获取方法为：计算待核验文本中所有未被替换的位置词的数量占所有位置词的数量的比率作为该待核验文本的文本核验率；判断文本核验率是否高于预设的核验阈值；将文本核验率高于核验阈值的待核验文本作为校验准确语料。

本发明提供的基于语境信息的文本内容校正方法，还可以具有这样的技术特征，其中，标准语料为不含有噪声的句子、段落和篇章中的任意一种或几种。

本发明提供的基于语境信息的文本内容校正方法，还可以具有这样的技术特征，其中，语境模型包括word2vector模型以及LSTM模型，LSTM模型的embedding层为word2vector模型输出的向量化结果。

发明作用与效果

根据本发明的基于语境信息的文本内容校正方法，由于在获取待核验文本后，通过多个基于不同语境训练的语境模型依次对该待核验文本中的每一个位置词进行多次预测，最后通过主投票融合为一个语境词语，因此可以解决一个词在不同语境下可能会对应不同的推断导致预测容易出现错误的问题，从而准确、有效地根据位置词前后的邻近词分析语境并预测出相应的语境词语。进一步，由于在语境词语与位置词的匹配率高于预设阈值时将语境词语对位置词进行替换，从而完成了对待核验文本的自动校正。通过本发明的文本内容校正方法，可以实现对大量文本内容的自动化文本内容填补和校验，提高OCR转化数据的使用效率。

附图说明

图1是本发明实施例中基于语境信息的文本内容校正方法的流程图；

图2是本发明实施例中基于语境信息的文本内容校正方法的架构图；以及

图3是本发明实施例中语境模型的训练过程的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的评分与评论内容的倾向不一致性检测系统作具体阐述。

<实施例>

本实施例中，基于语境信息的文本内容校正方法通过一台计算机实现，用于对该计算机中运行的OCR软件输出的文本内容进行自动校正。

图1是本发明实施例中基于语境信息的文本内容校正方法的流程图，图2是本发明实施例中基于语境信息的文本内容校正方法的架构图。

如图1及图2所示，基于语境信息的文本内容校正方法具体包括如下步骤：

步骤S1，获取文本内容作为待核验文本。

本实施例中，文本内容为图像经过OCR识别后输出的可编辑文本。以对药品说明书的识别为例，待核验文本中通常会存在如下错误：

(1)识别错误

错误的文本为“...吗丁林胄痛…”；

正确的文本应该为“…吗丁啉胃痛…”。

(2)识别遗漏

错误的文本为“…【X应症：本品适用于风寒引起的感XX疗、预防】…”；

正确的文本应该为“…【适应症：本品适用于风寒引起的感冒治疗、预防】…”。

(3)重复

错误的文本为“...【适适适适应症：…”。

(4)字符噪声

错误的文本为“...●适●应症…”。

上述错误会降低文本内容的质量，对后续文本内容的应用造成影响，接下来会通过步骤S2至步骤S6对这些错误进行校正。

步骤S2，依次将待核验文本中的各个位置词作为当前待核验词。

本实施例中，待核验文本为一个N个词(对应N个位置)的集合，第N个位置词即待核验文本中第N个位置的词。在步骤S2中，会按照从前至后的顺序，依次将各个位置词作为当前待核验词。

步骤S3，使用多个预先根据不同语境训练得到的语境模型同时预测当前待核验词得到多个预测结果。

本实施例中，语境模型由word2vector模型以及LSTM模型组成，以word2vector模型的向量化结果作为LSTM的embedding层。

如图2所示，图中Mm个LSTM模型就是所需要训练的语境模型的总数。这样做的目的在于：对于一个位置的词语的校正，可以生成多个判定(多个语境模型的预测输出)。每个语境模型会根据不同的语境进行训练，例如，第一个语境模型是根据前后5个词建模，第二个语境模型根据前后10个词建模，如果二者得到的判定结果都认为当前待核验词错误，判定结果就会更加稳定和准确。

图3是本发明实施例中语境模型的训练过程的流程图。

如图3所示，语境模型通过如下步骤完成训练：

步骤T1，从标准语料库中获取多个标准文本内容。

本实施例中，标准语料库中含有标准语料以及校验准确语料。

标准语料可以是预先通过人工标记得到，也可以从与领域相关的现成的标准知识库中获得。例如，药品说明书扫描，文本中会出现一些特定的名词(药品名称)、描述(适应症、禁忌等)，很多描述的逻辑和表达都是固定的、专业的，可以通过专门的药品知识库中获取这些专业的语料信息。

校验准确语料为本发明基于语境信息的文本内容校正方法对待核验文本校验得到，具体将在下文详述。

在建模时，可以先收集一部分现有数据、构建标准知识库，再让模型去学习其中的标准的表达模式。例如，以下语境关联模式：阿莫西林—消炎；999牌—感冒；吗丁啉—胃胀、胃酸。

步骤T2，设定多个具有不同窗口尺寸的待训练语境模型。

步骤T3，将各个标准文本内容中的每一个位置词作为训练标签，并根据各个窗口尺寸分别将该位置词前后对应数量的邻居词作为对应训练标签且对应窗口尺寸的训练样本。

本实施例中，语境模型的窗口尺寸为该语境模型所要输出的邻居词的数量，例如，对于标准文本内容中的第K个位置词，语境模型的窗口尺寸为M1，训练(K-M1)模型，即，利用第K个位置词前连续M1个词(即邻居词)的序列来预测第K个位置词；同时训练(K+M1)模型，即，利用第K个位置词后连续M1个词(即邻居词)的序列来预测第K个位置词。(K-M1)模型以及(K+M1)模型即图2中示出的两个LSTM模型(M1)。通过变换窗口尺寸就能够设定出多个不同语境的语境模型。

在构建训练样本时，将待训练的位置词隐去并作为训练标签，并将该位置词前后的邻居词作为该位置词的训练样本。

步骤T4，基于训练标签以及训练样本分别对对应窗口尺寸的待训练语境模型进行训练形成语境模型。

在通过本实施例的步骤T3得到训练样本以及训练标签后，会在步骤T4中基于语境参数N和K训练LSTM模型，例如(N,K)＝(10,2)表示输入模型的语境序列(即训练样本)长度为10个词语，并且基于十个词语的训练标签是后两个词(第12个词)。

本实施例的步骤T3中，在利用每一个位置词进行训练时，会将该位置词对应的训练样本输入各个语境模型，从而让各个语境模型对该位置词进行预测，进一步在预测出预测结果后，根据训练标签分别对各个语境模型进行损失计算以及反向传递，从而更新各个语境模型的参数。

在训练得到语境模型后，即可用在步骤S3中对当前待核验词进行预测，具体地，该步骤S3包括如下子步骤：

步骤S3-1，依次选择各个语境模型作为当前语境模型；

步骤S3-2，根据当前语境模型的窗口尺寸在当前待核验词前后获取对应数量的邻居词作为待输入词；

步骤S3-3，将待输入词输入当前语境模型得到预测结果；

步骤S3-4，重复步骤S3-1至步骤S3-3直至所有语境模型都对当前待核验词完成预测。

步骤S4，通过主投票策略将预测结果融合形成语境词语。

例如，步骤S3预测出的当前待核验词所在的药品说明书为：“…注意事项：忌烟、酒及辛辣、生冷、油腻食物。不？在服药期间同时服用滋补性中药…”。其中，“？”为当前待核验词。各个语境模型输入的邻居词为：

语境模型1：“油腻食物。不X在服药期间”

语境模型2：“生冷、油腻食物。不X在服药期间同时”

语境模型3：“酒及辛辣、生冷、油腻食物。不X在服药期间同时服用滋补。”

上述三段文字中，X为隐去的当前待核验词，如果上述三种语境模型的预测结果均为X＝‘宜’，则通过主投票策略进行融合后，该位置词所预测出的语境词语为“宜”。

步骤S5，计算预测结果在所有预测结果中的出现频率，并在出现频率高于预设的校验阈值时将预测结果替换待核验文本中的当前待核验词。

本实施例中，在步骤S4预测出语境词语后，即可通过步骤S5计算该语境词语的出现频率，具体地：多个预警模型对当前待核验词做出多个预测值，这些预测值中出现相同语境词语的最大次数除以预测值个数就是出现频率。若出现频率高于预设阈值，则将预测结果替换当前待核验词；若出现频率低于预设阈值，则将当前待核验词作为正确内容，不做改变。

步骤S6，重复步骤S2至步骤S3直到待核验文本中的所有位置词都被核验完成。

通过上述步骤S6的循环过程，即可遍历一篇待核验文本的所有词语，并在每次迭代中，用前后若干个邻居词校验当前词语是否正确，最终实现对整篇待核验文本的校正。

另外，在每一次完成待核验文本的校正后，还可以将核验可靠的文本作为校验准确语料进行入库，从而对标准语料库进行扩充，有助于后续基于该标准语料库对语境模型进行更好的训练。

上述校验准确语料的核验方法为：计算待核验文本中所有位置词的未被替换率(即所有未被替换的位置词的数量占所有位置词数量的比率)作为该待核验文本的文本核验率，并在文本核验率高于预设的核验阈值时将该待核验文本作为校验准确语料。

实施例作用与效果

根据本实施例提供的基于语境信息的文本内容校正方法，由于在获取待核验文本后，通过多个基于不同语境训练的语境模型依次对该待核验文本中的每一个位置词进行多次预测，最后通过主投票融合为一个语境词语，因此可以解决一个词在不同语境下可能会对应不同的推断导致预测容易出现错误的问题，从而准确、有效地根据位置词前后的邻近词分析语境并预测出相应的语境词语。进一步，由于在语境词语与位置词的匹配率高于预设阈值时将语境词语对位置词进行替换，从而完成了对待核验文本的自动校正。通过本发明的文本内容校正方法，可以实现对大量文本内容的自动化文本内容填补和校验，提高OCR转化数据的使用效率。

实施例中，由于在待核验文本的文本核验率高于核验阈值时，将待核验文本设定为准确内容并加入标准语料库中，因此本发明在实现自动化文本校正的同时，还能够自动构建面向特定领域的知识库，使得校验后的内容入库支持模型的增强训练，整个训练-校验过程形成增强迭代的闭环，从而节省大量的人工。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

在上述实施例中，训练模型时采用的文本为标准文本内容，其不含有任何噪声。在本发明的其他方案中，训练模型时也可以采用含有噪声的文本数据，从而降低本发明方法对训练数据的要求，更便于搭建，但是语境模型的预测效果会受输入数据质量的极大影响。

Claims

1.一种基于语境信息的文本内容校正方法，用于对经过OCR转换形成的文本内容进行内容校正，其特征在于，包括：

步骤S1，获取所述文本内容作为待核验文本；

步骤S2，依次将所述待核验文本中的各个位置词作为当前待核验词；

步骤S3，使用多个预先根据不同语境训练得到的语境模型同时预测所述当前待核验词得到多个预测结果；

步骤S4，通过主投票策略将所述预测结果融合形成语境词语；

步骤S5，计算所述语境词语在所有所述预测结果中的出现频率，并在所述出现频率高于预设的校验阈值时将所述语境词语替换所述待核验文本中的所述当前待核验词；

步骤S6，重复所述步骤S2至所述步骤S5直到所述待核验文本中的所有所述位置词都被核验完成。

2.根据权利要求1所述的基于语境信息的文本内容校正方法，其特征在于：

其中，所述步骤S3包括如下子步骤：

步骤S3-1，依次选择各个所述语境模型作为当前语境模型；

步骤S3-2，根据所述当前语境模型的窗口尺寸在所述当前待核验词前后获取对应数量的邻居词作为待输入词；

步骤S3-3，将所述待输入词输入所述当前语境模型得到所述预测结果；

步骤S3-4，重复所述步骤S3-1至所述步骤S3-3直至所有所述语境模型都对所述当前待核验词完成预测。

3.根据权利要求1所述的基于语境信息的文本内容校正方法，其特征在于：

其中，所述语境模型的训练过程为：

步骤T1，从含有多个标准语料的标准语料库中获取复数个标准文本内容；

步骤T2，设定多个具有不同窗口尺寸的待训练语境模型；

步骤T3，将各个所述标准文本内容中的每一个位置词作为训练标签，并根据各个所述窗口尺寸分别将该位置词前后对应数量的邻居词语作为对应所述训练标签且对应所述窗口尺寸的训练样本；

步骤T4，基于所述训练标签以及所述训练样本分别对对应所述窗口尺寸的所述待训练语境模型进行训练形成所述语境模型。

4.根据权利要求3所述的基于语境信息的文本内容校正方法，其特征在于：

其中，所述标准语料库还包括校验准确语料，

所述校验准确语料的获取方法为：

计算所述待核验文本中所有未被替换的所述位置词的数量占所有所述位置词的数量的比率作为该待核验文本的文本核验率；

判断所述文本核验率是否高于预设的核验阈值；

将所述文本核验率高于所述核验阈值的所述待核验文本作为所述校验准确语料。

5.根据权利要求3所述的基于语境信息的文本内容校正方法，其特征在于：

其中，所述标准语料为不含有噪声的句子、段落和篇章中的任意一种或几种。

6.根据权利要求1所述的基于语境信息的文本内容校正方法，其特征在于：

其中，所述语境模型包括word2vector模型以及LSTM模型，

所述LSTM模型的embedding层为所述word2vector模型输出的向量化结果。