CN103559512B - 一种文字识别输出方法及系统 - Google Patents
一种文字识别输出方法及系统 Download PDFInfo
- Publication number
- CN103559512B CN103559512B CN201310534918.XA CN201310534918A CN103559512B CN 103559512 B CN103559512 B CN 103559512B CN 201310534918 A CN201310534918 A CN 201310534918A CN 103559512 B CN103559512 B CN 103559512B
- Authority
- CN
- China
- Prior art keywords
- cloud server
- text region
- hand
- fractional scanning
- scanning image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Abstract
本发明公开了一种文字识别输出方法系统,本发明中由手写板终端完成对手写文字的分段扫描,而由云服务器并行完成对扫描后分段扫描图像的文字识别及合并,实现了在手写板终端手写输入的同时进行文字识别,缩短了文字识别的处理时间,实时地完成了对手写文稿的识别输出;而且,由于云服务器相对于手写板终端来讲,功能更为强大,比如通过保存多个手写板终端的历史识别样本库,结合多种语言样本库,以及多段落语义识别,保证了文字识别正确率。
Description
技术领域
本发明涉及手写体技术,尤指一种文字识别输出方法及系统。
背景技术
目前,手写体文字识别输出包括联机文字识别输出和脱机文字识别输出两种。其中,联机文字识别输出是通过辨别文字书写轨迹并结合用户的选择确认完成的文字识别输出,脱机文字识别输出则是通过光学扫描等形成图像后,再通过计算机的文字识别完成的文字识别输出。
对于联机文字识别输出,往往需要用户逐字或者几个字一起选择确认,对于手写文字来说,联机书写速度较慢。而脱机文字识别输出则由于对样本数据库和处理能力的要求较高,因此,其对处理计算机的要求较高,而且通常处理时间较长,因此通常仅适用于非实时处理的大批量文稿。
如果用户希望能够在手写板上流畅书写中等大小篇幅的文字,比如一篇博客日记、一篇新闻稿等,同时,又希望能够在书写结束后实时得到标准印刷体文字输出。这显然需要文字识别输出的处理时间短且识别正确率高,而现有联机文字识别输出或脱机文字识别输出均无法同时满足处理时间短且识别正确率高的要求。
发明内容
为了解决上述技术问题,本发明提供了一种文字识别输出方法及系统,能够缩短文字识别的处理时间,而且保证识别正确率。
为了达到本发明目的,本发明提供了一种文字识别输出方法,包括:手写板终端将输入的文字信息进行分段并生成分段扫描图像后发送给云服务器;
云服务器根据统计识别和结构识别方法,完成对分段扫描图像的文字识别,合并从各分段扫描图像识别出的文字并发送给手写板终端显示。
所述分段的大小根据手写所用时长、扫描图像传输时长和文字识别处理时长来决定。
在所述分段扫描图像发送给云服务器之前,该方法还包括:
对每个所述分段顺序进行编号,并为最后一个分段的分段扫描图像的编号设置结束标识。
所述合并从各分段扫描图像识别出的文字包括:
所述云服务器按照分段的编号,将识别出的印刷体文字顺序排列,直到最后一个分段文字。
该方法还包括:
所述手写板终端存储手写输入的文字,各分段扫描图像和云服务器返回的印刷体文字;
所述云服务器存储来自手写板终端的分段扫描图像,和分段文字识别后的印刷体文字。
本发明还提供一种文字识别输出系统,至少包括手写板终端,云服务器,其中,
手写板终端,用于接收手写输入,并将输入的文字信息进行分段并分段扫描成图像后发送给云服务器;显示来自云服务器的文字信息;
云服务器,用于根据统计识别和结构识别方法,完成对分段扫描图像的文字识别,合并从各分段扫描图像识别出的文字并发送给手写板终端。
所述手写板终端至少包括第一输入模块、第一处理模块、第一输出模块,以及显示模块;其中,
第一输入模块,用于接收来自外部的手写输入;接收来自云服务器的印刷体文字;
第一处理模块,用于将输入的文字信息进行分段并分段扫描成图像;
第一输出模块,用于将分段扫描成图像输出给云服务器;
显示模块,用于显示云服务器返回的印刷体文字信息。
所述手写板终端还包括第一存储模块,用于存储手写输入的文字,各分段扫描图像和云服务器返回的印刷体文字。
所述云服务器至少包括第二输入模块、第二处理模块,第二输出模块;其中,
第二输入模块,用于接收来自手写板终端的分段扫描图像;
第二处理模块,用于根据统计识别和结构识别方法,完成对分段扫描图像的文字识别,合并从各分段扫描图像识别出的印刷体文字;
第二输出模块,用于将识别出的印刷体文字输出给手写板终端。
所述云服务器还包括第二存储模块,用于存储来自手写板终端的分段扫描图像,和分段文字识别后的印刷体文字。
与现有技术相比,本发明文字识别方法中,由手写板终端完成对手写文字的分段扫描,而由云服务器并行完成对扫描后分段扫描图像的文字识别及合并,实现了在手写板终端手写输入的同时进行文字识别,缩短了文字识别的处理时间,实时地完成了对手写文稿的识别输出;而且,由于云服务器相对于手写板终端来讲,功能更为强大,比如通过保存多个手写板终端的历史识别样本库,结合多种语言样本库,以及多段落语义识别,进一步保证了文字识别正确率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明文字识别输出方法的流程图;
图2为本发明文字识别输出系统的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明文字识别输出方法的流程图,如图1所示,包括:
步骤100:手写板终端将输入的文字信息进行分段并生成分段扫描图像后发送给云服务器。
本步骤中,用户在手写板终端上输入的手写字,可包括多语言文字、数字、符号等。
本步骤中,分段的大小可以根据手写所用时长、扫描图像传输时长和文字识别处理时长来决定。特别地,对于某个分段,在手写所用时长约等于分段的扫描图像传输时长和文字识别处理时长之和时,系统处理时间最短。生成分段扫描图像的具体实现属于本领域技术人员的常用技术手段,这里不再赘述。
进一步地,还包括对每个分段顺序进行编号,并且在手写文字完成全部输入后,最后一个分段的扫描图像的编号设置有结束(end)标识。
步骤101:云服务器根据统计识别和结构识别方法,完成对分段扫描图像的文字识别。
本步骤中,统计识别和结构识别方法是现有技术,本领域技术人员都知道,统计识别和结构识别是针对单个字的识别,因此本发明在此基础上,加入语义识别,并结合多个样本库,比如多语言样本库、符号库、数字库、多手写板终端的历史样本库,对分段扫描图像的文字识别,以实现结合句子的上下文语境、语义进行文字的进一步识别。语义识别的具体实现属于本领域技术人员的惯用技术手段,这里不再赘述。
步骤102:云服务器合并从各分段扫描图像识别出的文字并发送给手写板终端显示。
本步骤中,云服务器按照分段的编号,将识别出的印刷体文字顺序排列,直到最后一个分段文字。
从本发明方法可见,本发明文字识别方法中,由手写板终端完成对手写文字的分段扫描,而由云服务器并行完成对扫描后分段扫描图像的文字识别及合并,实现了在手写板终端手写输入的同时进行文字识别,缩短了文字识别的处理时间,实时地完成了对手写文稿的识别输出;而且,由于云服务器相对于手写板终端来讲,功能更为强大,比如通过保存多个手写板终端的历史识别样本库,结合多种语言样本库,以及多段落语义识别,进一步保证了文字识别正确率。
本发明还包括:
手写板终端存储手写输入的文字,各分段扫描图像和云服务器返回的印刷体文字。
云服务器存储来自手写板终端的分段扫描图像,和分段文字识别后的印刷体文字。
需要说明的是,本申请提供的方法还可以与对印刷体文字的识别一同使用,对于如何区分手写体及印刷体文字属于现有技术。
图2为本发明文字识别输出系统的组成结构示意图,如图2所示,至少包括手写板终端,云服务器,其中,
手写板终端,用于接收手写输入,并将输入的文字信息进行分段并分段扫描成图像后发送给云服务器;显示来自云服务器的文字信息;
云服务器,用于根据统计识别和结构识别方法,完成对分段扫描图像的文字识别,合并从各分段扫描图像识别出的文字并发送给手写板终端。
手写板终端,还用于存储手写输入的文字,各分段扫描图像和云服务器返回的印刷体文字。
云服务器,还用于存储来自手写板终端的分段扫描图像,和分段文字识别后的印刷体文字。
其中,手写板终端至少包括第一输入模块、第一处理模块、第一输出模块,以及显示模块;其中,
第一输入模块,用于接收来自外部的手写输入;接收来自云服务器的印刷体文字;
第一处理模块,用于将输入的文字信息进行分段并分段扫描成图像;
第一输出模块,用于将分段扫描成图像输出给云服务器;
显示模块,用于显示云服务器返回的印刷体文字信息;
手写板终端还包括第一存储模块,用于存储手写输入的文字,各分段扫描图像和云服务器返回的印刷体文字。
云服务器至少包括第二输入模块、第二处理模块,第二输出模块;其中,
第二输入模块,用于接收来自手写板终端的分段扫描图像;
第二处理模块,用于根据统计识别和结构识别方法,完成对分段扫描图像的文字识别,合并从各分段扫描图像识别出的印刷体文字;
第二输出模块,用于将识别出的印刷体文字输出给手写板终端;
云服务器还包括第二存储模块,用于存储来自手写板终端的分段扫描图像,和分段文字识别后的印刷体文字。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (8)
1.一种文字识别输出方法,其特征在于,包括:手写板终端将输入的文字信息进行分段并生成分段扫描图像后发送给云服务器;
云服务器根据统计识别和结构识别方法,完成对分段扫描图像的文字识别,合并从各分段扫描图像识别出的文字并发送给手写板终端显示;
在所述分段扫描图像发送给云服务器之前,该方法还包括:
对每个所述分段顺序进行编号,并为最后一个分段的分段扫描图像的编号设置结束标识;
所述对分段扫描图像的文字识别具体包括:结合多个样本库,对分段扫描图像的文字识别;
所述分段的大小根据手写所用时长、扫描图像传输时长和文字识别处理时长来决定;
云服务器完成对分段扫描图像的文字识别,具体包括:云服务器并行完成对扫描后分段扫描图像的文字识别。
2.根据权利要求1所述的文字识别输出方法,其特征在于,所述合并从各分段扫描图像识别出的文字包括:
所述云服务器按照分段的编号,将识别出的印刷体文字顺序排列,直到最后一个分段文字。
3.根据权利要求1~2任一项所述的文字识别输出方法,其特征在于,该方法还包括:
所述手写板终端存储手写输入的文字,各分段扫描图像和云服务器返回的印刷体文字;
所述云服务器存储来自手写板终端的分段扫描图像,和分段文字识别后的印刷体文字。
4.一种文字识别输出系统,其特征在于,至少包括手写板终端,云服务器,其中,
手写板终端,用于接收手写输入,并将输入的文字信息进行分段并分段扫描成图像后发送给云服务器;显示来自云服务器的文字信息;
云服务器,用于根据统计识别和结构识别方法,完成对分段扫描图像的文字识别,合并从各分段扫描图像识别出的文字并发送给手写板终端;
手写板终端,还用于在所述分段扫描图像发送给云服务器之前,对每个所述分段顺序进行编号,并为最后一个分段的分段扫描图像的编号设置结束标识;
所述对分段扫描图像的文字识别具体包括:结合多个样本库,对分段扫描图像的文字识别;
所述分段的大小根据手写所用时长、扫描图像传输时长和文字识别处理时长来决定;
云服务器完成对分段扫描图像的文字识别,具体包括:云服务器并行完成对扫描后分段扫描图像的文字识别。
5.根据权利要求4所述的文字识别输出系统,其特征在于,所述手写板终端至少包括第一输入模块、第一处理模块、第一输出模块,以及显示模块;其中,
第一输入模块,用于接收来自外部的手写输入;接收来自云服务器的印刷体文字;
第一处理模块,用于将输入的文字信息进行分段并分段扫描成图像;
第一输出模块,用于将分段扫描成图像输出给云服务器;
显示模块,用于显示云服务器返回的印刷体文字信息。
6.根据权利要求5所述的文字识别输出系统,其特征在于,所述手写板终端还包括第一存储模块,用于存储手写输入的文字,各分段扫描图像和云服务器返回的印刷体文字。
7.根据权利要求4所述的文字识别输出系统,其特征在于,所述云服务器至少包括第二输入模块、第二处理模块,第二输出模块;其中,
第二输入模块,用于接收来自手写板终端的分段扫描图像;
第二处理模块,用于根据统计识别和结构识别方法,完成对分段扫描图像的文字识别,合并从各分段扫描图像识别出的印刷体文字;
第二输出模块,用于将识别出的印刷体文字输出给手写板终端。
8.根据权利要求7所述的文字识别输出系统,其特征在于,所述云服务器还包括第二存储模块,用于存储来自手写板终端的分段扫描图像,和分段文字识别后的印刷体文字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310534918.XA CN103559512B (zh) | 2013-11-01 | 2013-11-01 | 一种文字识别输出方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310534918.XA CN103559512B (zh) | 2013-11-01 | 2013-11-01 | 一种文字识别输出方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103559512A CN103559512A (zh) | 2014-02-05 |
CN103559512B true CN103559512B (zh) | 2017-11-03 |
Family
ID=50013753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310534918.XA Active CN103559512B (zh) | 2013-11-01 | 2013-11-01 | 一种文字识别输出方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103559512B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096222A (zh) * | 2015-07-24 | 2015-11-25 | 苏州点通教育科技有限公司 | 智能笔系统及其操作方法 |
CN105160958A (zh) * | 2015-07-24 | 2015-12-16 | 苏州点通教育科技有限公司 | 智能笔答题系统及方法 |
CN105184329A (zh) * | 2015-08-27 | 2015-12-23 | 鲁东大学 | 一种基于云平台的脱机手写识别方法 |
CN106971638B (zh) * | 2016-01-14 | 2020-09-29 | 北京新唐思创教育科技有限公司 | 交互式无线教学方法 |
CN113220430A (zh) * | 2021-04-28 | 2021-08-06 | 上海交大慧谷通用技术有限公司 | 一种电子卷宗材料上传和识别并行的方法及系统 |
CN113608656A (zh) * | 2021-08-20 | 2021-11-05 | 掌阅科技股份有限公司 | 笔记处理方法、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976148A (zh) * | 2010-10-28 | 2011-02-16 | 广东开心信息技术有限公司 | 一种手写输入系统和方法 |
CN102063611A (zh) * | 2010-01-21 | 2011-05-18 | 汉王科技股份有限公司 | 一种文字输入方法和系统 |
CN102122360A (zh) * | 2011-03-01 | 2011-07-13 | 华南理工大学 | 一种基于云计算的移动终端手写识别方法 |
CN102360427A (zh) * | 2011-09-30 | 2012-02-22 | 汉王科技股份有限公司 | 可调节扫描模式的文字采集方法和扫描装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100492403C (zh) * | 2001-09-27 | 2009-05-27 | 佳能株式会社 | 文字图像分行方法和装置以及文字图像识别方法和装置 |
US20110044554A1 (en) * | 2009-08-21 | 2011-02-24 | Konica Minolta Systems Laboratory, Inc. | Adaptive deblurring for camera-based document image processing |
CN102385700B (zh) * | 2010-09-01 | 2013-05-29 | 汉王科技股份有限公司 | 脱机手写识别的方法及装置 |
-
2013
- 2013-11-01 CN CN201310534918.XA patent/CN103559512B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063611A (zh) * | 2010-01-21 | 2011-05-18 | 汉王科技股份有限公司 | 一种文字输入方法和系统 |
CN101976148A (zh) * | 2010-10-28 | 2011-02-16 | 广东开心信息技术有限公司 | 一种手写输入系统和方法 |
CN102122360A (zh) * | 2011-03-01 | 2011-07-13 | 华南理工大学 | 一种基于云计算的移动终端手写识别方法 |
CN102360427A (zh) * | 2011-09-30 | 2012-02-22 | 汉王科技股份有限公司 | 可调节扫描模式的文字采集方法和扫描装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103559512A (zh) | 2014-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103559512B (zh) | 一种文字识别输出方法及系统 | |
US10521513B2 (en) | Language generation from flow diagrams | |
US10127221B2 (en) | Detection and reconstruction of East Asian layout features in a fixed format document | |
US7167585B2 (en) | Interfacing with ink | |
US9081412B2 (en) | System and method for using paper as an interface to computer applications | |
KR102473543B1 (ko) | 디지털 잉크 상호작용을 위한 시스템 및 방법 | |
JP4461769B2 (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
CN109685052A (zh) | 文本图像处理方法、装置、电子设备及计算机可读介质 | |
KR20160132842A (ko) | 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법 | |
US20170039192A1 (en) | Language generation from flow diagrams | |
CN111695518B (zh) | 结构化文档信息标注的方法、装置及电子设备 | |
CN101561725B (zh) | 一种手写快速输入的方法和系统 | |
CN106599001A (zh) | 网页内容获取方法和系统 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
JP6055065B1 (ja) | 文字認識プログラム、文字認識装置 | |
US10067926B2 (en) | Image processing system and methods for identifying table captions for an electronic fillable form | |
JP2022160662A (ja) | 文字認識方法、装置、機器、記憶媒体、スマート辞書ペン及びコンピュータプログラム | |
CN110909123A (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN109685061A (zh) | 适用于结构化的数学公式的识别方法 | |
Ayesh et al. | A robust line segmentation algorithm for Arabic printed text with diacritics | |
CN114241501B (zh) | 影像文档处理方法、装置及电子设备 | |
CN109902687A (zh) | 一种图像识别方法及用户终端 | |
EP3942459A1 (en) | Object detection and segmentation for inking applications | |
US11341353B2 (en) | Preserving styles and ink effects in ink-to-text | |
JP2006164259A (ja) | コンテクスト・ツリーにおける分析代替案 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |