CN115331248A

CN115331248A - 结合语音识别与ocr识别的文档图像结构化录入平台

Info

Publication number: CN115331248A
Application number: CN202210957645.9A
Authority: CN
Inventors: 王一哲; 向宇; 向飞; 焦龙; 李仁清
Original assignee: Chengdu Knowledge Vision Technology Co ltd
Current assignee: Chengdu Knowledge Vision Technology Co ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-11-11

Abstract

本发明公开了结合语音识别与OCR识别的文档图像结构化录入平台，包括录入平台、数据库、OCR识别系统、语音补录模块和审核系统，所述OCR识别系统的输出端与语音补录模块的输入端电性连接，所述OCR识别系统和语音补录模块的输出端均与数据库的输入端电性连接，本发明通过在OCR识别系统内部加入的内容标记模块可以对未能识别部分进行标记，并在语音补录模块的配合下进行识别，同时能通过人工进行语音输入，并在语音转换模块的作用下将语音转化为文字填充在未能识别的位置，从而使整个文档贯通，通过在录入平台中设置的文本审查系统，可以对识别后的文本进行二次复审，从而减少文档录入的错字以及语句不通顺的问题，极大提高了录入平台的使用效果。

Description

结合语音识别与OCR识别的文档图像结构化录入平台

技术领域

本发明属于文档信息录入技术领域，具体为结合语音识别与OCR识别的文档图像结构化录入平台。

背景技术

OCR识别是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程,即针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术，但是现有的OCR识别录入平台不具有遗留检测以及人工填词的功能，容易出现识别内容不全面导致的信息不全信息，从而现有设备的准确性，而且现有OCR不具有复审功能，录入的内容存在错字以及语句不通的问题。

发明内容：

本发明的目的就在于为了解决上述问题而提供结合语音识别与OCR识别的文档图像结构化录入平台，解决了背景技术中提到的问题。

为了解决上述问题，本发明提供了一种技术方案：

结合语音识别与OCR识别的文档图像结构化录入平台，包括录入平台、数据库、OCR识别系统、语音补录模块和审核系统，所述OCR识别系统的输出端与语音补录模块的输入端电性连接，所述OCR识别系统和语音补录模块的输出端均与数据库的输入端电性连接，所述审核系统的输出端与语音补录模块的输入端电性连接，所述OCR识别系统和语音补录模块的输出端均与审核系统的输入端电性连接，所述数据库的输出端与录入平台的输入端电性连接，所述审核系统包括身份验证系统和文本审查系统，所述身份验证系统的输出端与文本审查系统的输入端电性连接；所述录入平台用于对数据库、OCR识别系统、语音补录模块和审核系统进行集中控制；所述数据库用于对录入以及输出的文本信息进行存储以及管理；所述OCR识别系统用于通过OCR识别技术对输入文档以及图片上的文字信息进行识别；所述语音补录模块用于对OCR识别系统未能识别的文字信息通过人工语音录入的方式进行填充；所述身份验证系统用于对审查人员的身份信息进行识别确认；所述文本审查系统用于对输入文本内容进行验证审查。

作为优选，所述OCR识别系统包括文档录入模块、二值化处理模块、文档纠正模块、文档处理模块、内容识别模块、内容标记模块、图像上传模块和文档输出模块，所述文档录入模块的输出端与二值化处理模块的输入端电性连接，所述二值化处理模块的输出端与文档纠正模块的输入端电性连接，所述文档纠正模块的输出端与文档处理模块的输入端电性连接，所述文档处理模块的输出端与内容识别模块的输入端电性连接，所述内容识别模块的输出端与内容标记模块的输入端电性连接，所述内容标记模块的输出端与图像上传模块的输入端电性连接，所述图像上传模块的输出端与文档输出模块的输入端电性连接。

作为优选，所述文档录入模块用于对需要录入的文档进行扫描或拍摄；所述二值化处理模块用于对扫描或拍摄的图像信息进行二值黑白化处理；所述文档纠正模块用于消除图像上的噪点以及黑线，还用于调整图像的倾斜度以及对版面进行分析；所述文档处理模块用于对文档内容进行分段处理；所述内容识别模块用于对文字进行识别，并根据上下文进行初步纠正；所述内容标记模块用于对未能识别的文字部分进行标记。

作为优选，所述语音补录模块包括图像接收模块、标记识别模块、图像显示模块、语音录入模块、语音转换模块、文字填充模块、文字修正模块和文本上传模块，所述图像接收模块的输出端与标记识别模块的输入端电性连接，所述标记识别模块的输出端与图像显示模块的输入端电性连接，所述图像显示模块的输出端与语音录入模块的输入端电性连接，所述语音录入模块的输出端与语音转换模块的输入端电性连接，所述语音转换模块的输出端与文字填充模块的输入端电性连接，所述文字填充模块的输出端与文字修正模块的输入端电性连接，所述文字修正模块的输出端与文本上传模块的输入端电性连接。

作为优选，所述图像上传模块的输出端与图像接收模块的输入端电性连接，所述文档输出模块的输出端与文字填充模块的输入端电性连接。

作为优选，所述图像接收模块用于接触来自图像上传模块上传的含标记图像；所述标记识别模块用于对图像标记内容进行获取；所述图像显示模块用于对标记内容进行显示；所述语音录入模块用于录入工作人员的语音内容；所述语音转换模块用于根据语音内容转化为文字；所述文字填充模块用于接收文档输出模块发出的文档，还用于将语音识别后的文字填充在未能识别的位置；所述文字修正模块用于根据上下文对填充的文字进行修正；所述文本上传模块用于将修正后的文本发送给文本审查系统。

作为优选，所述身份验证系统包括登录模块、对比模块和身份信息库，所述登录模块的输出端与对比模块的输入端电性连接，所述对比模块的输出端与身份信息库的输入端电性连接；所述登录模块用于提供身份信息的登录窗口；所述对比模块用于将登录的身份信息与身份信息库中的存储信息进行对比。

作为优选，所述登录模块的登录窗口包括ID登录、人脸识别登录以及指纹识别登录。

作为优选，所述文本审查系统包括文本接收模块、内容对照模块、内容浏览模块和文本输出模块，所述文本接收模块的输出端与内容对照模块的输入端电性连接，所述内容对照模块的输出端与内容浏览模块的输入端电性连接；所述内容浏览模块的输出端与文本输出模块的输入端电性连接。

作为优选，所述文本接收模块用于接收文本上传模块发送的文本，并将文本发送给内容对照模块；所述内容对照模块用于将文本内容与文档录入模块录入的文档进行对比；所述内容浏览模块用于对文本内容进行浏览，还用于判断文本内容的通顺性；所述文本输出模块用于将浏览后的文本输出成纸质文件。

本发明的有益效果是：通过在OCR识别系统内部加入的内容标记模块可以对未能识别部分进行标记，并在语音补录模块的配合下进行识别，同时能通过人工进行语音输入，并在语音转换模块的作用下将语音转化为文字填充在未能识别的位置，从而使整个文档贯通，通过在录入平台中设置的文本审查系统，可以对识别后的文本进行二次复审，从而减少文档录入的错字以及语句不通顺的问题，极大提高了录入平台的使用效果。

附图说明：

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1是本发明工作流程拓扑图；

图2是本发明身份验证系统流程的拓扑图；

图3是本发明文本审查系统流程的拓扑图。

具体实施方式：

如图1-3所示，本具体实施方式采用以下技术方案：

实施例：

结合语音识别与OCR识别的文档图像结构化录入平台，包括录入平台、数据库、OCR识别系统、语音补录模块和审核系统，OCR识别系统的输出端与语音补录模块的输入端电性连接，OCR识别系统和语音补录模块的输出端均与数据库的输入端电性连接，审核系统的输出端与语音补录模块的输入端电性连接，OCR识别系统和语音补录模块的输出端均与审核系统的输入端电性连接，数据库的输出端与录入平台的输入端电性连接，审核系统包括身份验证系统和文本审查系统，身份验证系统的输出端与文本审查系统的输入端电性连接；录入平台用于对数据库、OCR识别系统、语音补录模块和审核系统进行集中控制；数据库用于对录入以及输出的文本信息进行存储以及管理；OCR识别系统用于通过OCR识别技术对输入文档以及图片上的文字信息进行识别；语音补录模块用于对OCR识别系统未能识别的文字信息通过人工语音录入的方式进行填充；身份验证系统用于对审查人员的身份信息进行识别确认；文本审查系统用于对输入文本内容进行验证审查；通过OCR识别系统与语音补录模块的配合，可以使录入平台具有OCR识别以及语音补录两套系统，从而形成互补的作用，能防止录入的遗漏，从而使整个文档贯通，同时在录入平台中设置的文本审查系统，可以对识别后的文本进行二次复审，从而减少文档录入的错字以及语句不通顺的问题，极大提高了录入平台的使用效果。

其中，OCR识别系统包括文档录入模块、二值化处理模块、文档纠正模块、文档处理模块、内容识别模块、内容标记模块、图像上传模块和文档输出模块，文档录入模块的输出端与二值化处理模块的输入端电性连接，二值化处理模块的输出端与文档纠正模块的输入端电性连接，文档纠正模块的输出端与文档处理模块的输入端电性连接，文档处理模块的输出端与内容识别模块的输入端电性连接，内容识别模块的输出端与内容标记模块的输入端电性连接，内容标记模块的输出端与图像上传模块的输入端电性连接，图像上传模块的输出端与文档输出模块的输入端电性连接。

其中，文档录入模块用于对需要录入的文档进行扫描或拍摄；二值化处理模块用于对扫描或拍摄的图像信息进行二值黑白化处理；文档纠正模块用于消除图像上的噪点以及黑线，还用于调整图像的倾斜度以及对版面进行分析；文档处理模块用于对文档内容进行分段处理；内容识别模块用于对文字进行识别，并根据上下文进行初步纠正；内容标记模块用于对未能识别的文字部分进行标记，通过二值化处理模块将图像进行黑白化可以将图像识别成印刷体，从而方便时序的识别，通过文档纠正模块消除图像上的噪点和黑线以及对图像的倾斜度进行调整，可以避免图像上的无关信息影响识别效果，并在文档处理模块与内容识别模块的作用下对待补录的内容进行识别以及展示，从而方便工作人员件语音补录，从而使整个文档贯通。

其中，语音补录模块包括图像接收模块、标记识别模块、图像显示模块、语音录入模块、语音转换模块、文字填充模块、文字修正模块和文本上传模块，图像接收模块的输出端与标记识别模块的输入端电性连接，标记识别模块的输出端与图像显示模块的输入端电性连接，图像显示模块的输出端与语音录入模块的输入端电性连接，语音录入模块的输出端与语音转换模块的输入端电性连接，语音转换模块的输出端与文字填充模块的输入端电性连接，文字填充模块的输出端与文字修正模块的输入端电性连接，文字修正模块的输出端与文本上传模块的输入端电性连接。

其中，图像上传模块的输出端与图像接收模块的输入端电性连接，可以直接将含标记信息的图像直接发送给图像接收模块，文档输出模块的输出端与文字填充模块的输入端电性连接，可以将待补录的文档发送给文字填充模块。

其中，图像接收模块用于接触来自图像上传模块上传的含标记图像；标记识别模块用于对图像标记内容进行获取；图像显示模块用于对标记内容进行显示；语音录入模块用于录入工作人员的语音内容；语音转换模块用于根据语音内容转化为文字；文字填充模块用于接收文档输出模块发出的文档，还用于将语音识别后的文字填充在未能识别的位置；文字修正模块用于根据上下文对填充的文字进行修正；文本上传模块用于将修正后的文本发送给文本审查系统，可以根据待补录信息进行语音填充，从而确保文档录入的全面效果。

其中，身份验证系统包括登录模块、对比模块和身份信息库，登录模块的输出端与对比模块的输入端电性连接，对比模块的输出端与身份信息库的输入端电性连接；登录模块用于提供身份信息的登录窗口；对比模块用于将登录的身份信息与身份信息库中的存储信息进行对比，可以对管理人员的身份信息进行识别，从而确保数据库中文件的安全。

其中，登录模块的登录窗口包括ID登录、人脸识别登录以及指纹识别登录。

其中，文本审查系统包括文本接收模块、内容对照模块、内容浏览模块和文本输出模块，文本接收模块的输出端与内容对照模块的输入端电性连接，内容对照模块的输出端与内容浏览模块的输入端电性连接；内容浏览模块的输出端与文本输出模块的输入端电性连接。

其中，文本接收模块用于接收文本上传模块发送的文本，并将文本发送给内容对照模块；内容对照模块用于将文本内容与文档录入模块录入的文档进行对比；内容浏览模块用于对文本内容进行浏览，还用于判断文本内容的通顺性；文本输出模块用于将浏览后的文本输出成纸质文件，可以对识别后的文本进行二次复审，从而减少文档录入的错字以及语句不通顺的问题，极大提高了录入平台的使用效果。

具体的，通过文档录入模块对文档进行拍照或扫描录入OCR识别系统的系统中，并通过二值化处理模块将图片进行黑白化处理，在文档纠正模块的作用下对图片上的噪点以及黑线进行消除，同时对图片的清晰度进行调整，从而方便后的识别处理，并对图片的版面进行分析，通过文档处理模块对文档图片上的内容进行分段，然后在内容识别模块的作用下对文档图片上的段落进行逐一识别，从而生成文字，并根据识别的前后文对内容进行调纠正整，若文档图片上的内容全部识别完毕，则直接通过文档输出模块将文档输出至审核系统中，若有未识别部分，则通过内容标记模块对未识别部分进行标记，同时通过图像上传模块将含标记内容的图像发送给图像接收模块，通过图像接收模块将接收到的文档发送给标记识别模块，此时标记识别模块对图像标记处的内容进行获取，并通过图像显示模块对标记内容进行显示，这时工作人员根据显示的图片内容并结合上下文进行判断，从而进行语音录入，通过语音转换模块将录入的语音化为文字，并通过文字填充模块将语音识别后的文字填充在文档未能识别的位置，从而使整个文档内容贯通，通过文字修正模块根据上下文对填充的文字进行修正，从而降低填充的错误率，通过文本上传模块将填充文字后的文本送给文本审查系统，在对文本进行审查时，管理人员通过ID登录、人脸识别以及指纹识别的方式进行登录，通过对比模块将登录信息与身份信息库中的原始插槽信息进行对比，若对比不符，则直接退出身份验证系统，若对比符合，则通过身份验证系统进入到文本审查系统内部，在文本接收模块的作用下可以对上传的文本接收，在内容对照模块与管理员的配合下对文本内容与原始文档进行对照，并在内容浏览模块与管理员的配合下对文本内容是否通顺合理进行二次判断，然后通过文本输出模块将浏览后的文本输出成纸质文件，同时在数据库的作用下可以对电子文本进行备份储存。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，包括录入平台、数据库、OCR识别系统、语音补录模块和审核系统，所述OCR识别系统的输出端与语音补录模块的输入端电性连接，所述OCR识别系统和语音补录模块的输出端均与数据库的输入端电性连接，所述审核系统的输出端与语音补录模块的输入端电性连接，所述OCR识别系统和语音补录模块的输出端均与审核系统的输入端电性连接，所述数据库的输出端与录入平台的输入端电性连接，所述审核系统包括身份验证系统和文本审查系统，所述身份验证系统的输出端与文本审查系统的输入端电性连接；所述录入平台用于对数据库、OCR识别系统、语音补录模块和审核系统进行集中控制；所述数据库用于对录入以及输出的文本信息进行存储以及管理；所述OCR识别系统用于通过OCR识别技术对输入文档以及图片上的文字信息进行识别；所述语音补录模块用于对OCR识别系统未能识别的文字信息通过人工语音录入的方式进行填充；所述身份验证系统用于对审查人员的身份信息进行识别确认；所述文本审查系统用于对输入文本内容进行验证审查。

2.根据权利要求1所述的结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，所述OCR识别系统包括文档录入模块、二值化处理模块、文档纠正模块、文档处理模块、内容识别模块、内容标记模块、图像上传模块和文档输出模块，所述文档录入模块的输出端与二值化处理模块的输入端电性连接，所述二值化处理模块的输出端与文档纠正模块的输入端电性连接，所述文档纠正模块的输出端与文档处理模块的输入端电性连接，所述文档处理模块的输出端与内容识别模块的输入端电性连接，所述内容识别模块的输出端与内容标记模块的输入端电性连接，所述内容标记模块的输出端与图像上传模块的输入端电性连接，所述图像上传模块的输出端与文档输出模块的输入端电性连接。

3.根据权利要求2所述的结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，所述文档录入模块用于对需要录入的文档进行扫描或拍摄；所述二值化处理模块用于对扫描或拍摄的图像信息进行二值黑白化处理；所述文档纠正模块用于消除图像上的噪点以及黑线，还用于调整图像的倾斜度以及对版面进行分析；所述文档处理模块用于对文档内容进行分段处理；所述内容识别模块用于对文字进行识别，并根据上下文进行初步纠正；所述内容标记模块用于对未能识别的文字部分进行标记。

4.根据权利要求2所述的结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，所述语音补录模块包括图像接收模块、标记识别模块、图像显示模块、语音录入模块、语音转换模块、文字填充模块、文字修正模块和文本上传模块，所述图像接收模块的输出端与标记识别模块的输入端电性连接，所述标记识别模块的输出端与图像显示模块的输入端电性连接，所述图像显示模块的输出端与语音录入模块的输入端电性连接，所述语音录入模块的输出端与语音转换模块的输入端电性连接，所述语音转换模块的输出端与文字填充模块的输入端电性连接，所述文字填充模块的输出端与文字修正模块的输入端电性连接，所述文字修正模块的输出端与文本上传模块的输入端电性连接。

5.根据权利要求4所述的结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，所述图像上传模块的输出端与图像接收模块的输入端电性连接，所述文档输出模块的输出端与文字填充模块的输入端电性连接。

6.根据权利要求4所述的结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，所述图像接收模块用于接触来自图像上传模块上传的含标记图像；所述标记识别模块用于对图像标记内容进行获取；所述图像显示模块用于对标记内容进行显示；所述语音录入模块用于录入工作人员的语音内容；所述语音转换模块用于根据语音内容转化为文字；所述文字填充模块用于接收文档输出模块发出的文档，还用于将语音识别后的文字填充在未能识别的位置；所述文字修正模块用于根据上下文对填充的文字进行修正；所述文本上传模块用于将修正后的文本发送给文本审查系统。

7.根据权利要求1所述的结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，所述身份验证系统包括登录模块、对比模块和身份信息库，所述登录模块的输出端与对比模块的输入端电性连接，所述对比模块的输出端与身份信息库的输入端电性连接；所述登录模块用于提供身份信息的登录窗口；所述对比模块用于将登录的身份信息与身份信息库中的存储信息进行对比。

8.根据权利要求7所述的结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，所述登录模块的登录窗口包括ID登录、人脸识别登录以及指纹识别登录。

9.根据权利要求1所述的结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，所述文本审查系统包括文本接收模块、内容对照模块、内容浏览模块和文本输出模块，所述文本接收模块的输出端与内容对照模块的输入端电性连接，所述内容对照模块的输出端与内容浏览模块的输入端电性连接；所述内容浏览模块的输出端与文本输出模块的输入端电性连接。

10.根据权利要求9所述的结合语音识别与OCR识别的文档图像结构化录入平台，其特征在于，所述文本接收模块用于接收文本上传模块发送的文本，并将文本发送给内容对照模块；所述内容对照模块用于将文本内容与文档录入模块录入的文档进行对比；所述内容浏览模块用于对文本内容进行浏览，还用于判断文本内容的通顺性；所述文本输出模块用于将浏览后的文本输出成纸质文件。