CN1381799A - 文书检索装置 - Google Patents

文书检索装置 Download PDF

Info

Publication number
CN1381799A
CN1381799A CN 02105715 CN02105715A CN1381799A CN 1381799 A CN1381799 A CN 1381799A CN 02105715 CN02105715 CN 02105715 CN 02105715 A CN02105715 A CN 02105715A CN 1381799 A CN1381799 A CN 1381799A
Authority
CN
China
Prior art keywords
retrieval
character
document
mentioned
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 02105715
Other languages
English (en)
Other versions
CN1266632C (zh
Inventor
龟代泰三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN1381799A publication Critical patent/CN1381799A/zh
Application granted granted Critical
Publication of CN1266632C publication Critical patent/CN1266632C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

以往,由于书写的字符没有考虑是铅字还是手写字符,因此存在着不能够实现高精度的检测这样的课题,本发明具备识别由文书输入装置1输入的文书中记载的字符,从输入文书的图像作为检索辅助信息抽取出有关字符的品质,状态的信息的字符识别装置2;存储字符的标准图形的特征的字符辞典3;作为检索用文书数据存储字符识别结果和检索辅助信息的文书存储装置4;存储上述检索用文书数据的检索用文书数据库7;输入文书检索的关键字的关键字输入装置5;在上述检索用文书数据与关键字字符的对照时,实施对应于上述字符识别装置抽取出的上述检索辅助信息的对照的文书检索装置6;输出上述检索结果的检索结果输出装置8,由此能够实现高精度的检索处理,能够削减检索遗落、检索噪声。

Description

文书检索装置
技术领域
本发明涉及电子保存并检索·阅览文书或图面等图像的文书检索装置,特别是涉及从通过识别记载在文书图像或者图面上的字符而生成·存储的文书图面数据,使用任意的关键字进行全文检索的文书检索装置。
背景技术
为了把纸文书作为计算机可读取的文书图像进行电子登录·保存,检索·显示,以往,有在文书登录时,对于文书图像人工添加关键字信息的方法,或者使OCR(光学文书读取装置)识别文书图像中的字符,把所生成的文书文本与文书图像一起保存的方法。
前者的方法在文书登录时的关键字添加方面需要极多的劳力和时间。另一方面,后者的方法由于字符识别性能不完全因此不能避免误识别,如果不修正通过字符识别得到的字符代码,则在关键字检索时具有作为检索结果将发生不显示所希望文书的「检索遗落」,或者作为检索结果显示与检索关键字不同的字符行的「检索噪声」这样的问题。在用人工进行的误识别的修正方面与前者的方法一样需要极多的劳力。
解决后者方法的问题的方法之一,有即使存在字符分割错误·字符识别错误,也能够降低「字符遗落」,实现高精度的字符检索的方法(特开2000-057315号公报)。该方法是除去用字符行处理得到的字符代码以外,从字符图像生成·保持表现各字符形状的特征量(形状特征),在检索时并用字符代码与形状特征进行对照的方法。
参照附图说明以往的文书检索装置。图18示出例如在特开2000-057315号公报中示出的以往的文书检索装置的结构。
图18中,101是输入装置,102是控制装置,103是字符识别装置,104是特征生成装置,105是显示装置,106是检索装置,107是特征对照判定装置,108是检索特征生成装置,109是识别辞典,110是检索数据存储单元,111是形状特征辞典。
下面,参照附图说明以往的文书检索装置的动作。
首先说明文书登录。图19(a)是登录的文书图像,把字符识别装置103识别了图19(a)的结果示于图19(b)中。
然后,特征生成装置104生成识别了的各字符的形状特征。形状特征如图20所示,通过抽取把各文书图像8分割了的各区域中的字符外部轮廓部分的水平,垂直,右上,右下的各方向成分而生成。其结果示与图21中。
然后,使用图22,说明关键字「字符识别」与检索数据[文宇识别」的对照处理。
检索装置106首先进行使用了字符代码的对照。在图22中,虽然输入的关键字中的字符「文」「识」「别」与检索数据一致,但是「字」不一致。
接着,检索装置106进行基于不一致的字符之间的形状特征的对照。具体地讲,进行不一致的关键字中的「字」的形状特征122与输出了检索数据中的「宇」的识别结果的字符图像的形状特征123的对照。对于关键字中的字符「字」中的形状特征,使用存储在形状特征辞典111中的标准图形的特征值。
如果把字符代码之间的距离记为C,把形状特征之间的距离记为D,则用公式(1)表示关键字与检索数据之间的距离。
         Dist=(∑D+∑C)/关键字字符数
                                                公式(1)
其中,在Cij=α(α:常数)时,关键字的第i个字符与检索数据的第j个字符的字符代码不一致。在Cij=0时,关键字的第i个字符与检索数据的第j个字符的字符代码一致。
D[dic(i),img(j)]=∑∑|Fdic(k1)-Fimg(k1)|
                                                公式(2)
式中,第1个∑的范围是k=1~K,第2个∑的范围是1=1~L。
这里,Fdic是存储在形状特征辞典111中的关键字的第i个字符的特征值,Fimg是检索数据的第i个字符的特征值,K是方向成分数,L是每个方向成分的特征数。在满足Dist<TH(TH:阈值)的情况下,视为字符行与关键字一致,输出为检索结果。
进行形状特征对照的字符书在关键字与检索数据不同的情况下,能够通过使用动态设计法进行对照。由此,实现具有允许字符分割错误·字符识别错误的模糊性的对照。
在上述那样的以往的文书检索装置中,为了实现允许字符识别错误·字符分割错误的检索,进行具有模糊性的对照。因此,例如如果对于在具有每个单字符的字符框(以下记为单字符框)的记入栏中写入的字符等的不存在字符分割错误的字符行进行检索,则与不允许字符分割错误的检索相比较存在着增加误抽取(检索噪声)这样的问题点。
另外,在没有单字符框的字段中写入的手写字符与铅字相比较,字符的大小或者字符间隔的分散性大,在字符识别中难以正确检测1行中的字符的间隔。因此,手写字符与铅字相比较,增加了字符分割错误,降低了识别率。其结果,如果从识别手写字符生成的文书数据进行检索,则存在着检索遗落增多的问题点。
这样,根据有无字符框或者所写的字符是铅字还是手写字符,字符识别中的错误倾向不同,在文书检索时如果不考虑这些方面则存在着不能够实现高精度的检索这样的问题。
发明内容
本发明是为解决以上的问题点而产生的,目的在于获得文书检索装置,该文书检索装置在文书登录时与识别结果一起保存检索辅助信息,在检索时根据检索辅助信息进行对照,对应于各文书数据能够进行高精度的检索处理,由此,与不使用检索辅助信息的情况相比较能够削减检索遗落·检索噪声。
本发明方案1的文书检索装置具备输入文书的文书输入装置;识别由上述文书输入装置输入的文书中所记载的字符的同时,作为检索辅助信息从输入文书的图像抽取出有关字符的品质或者状态的信息的字符识别装置;存储字符的标准图形的特征的字符辞典;作为检索用文书数据存储上述字符识别装置的字符识别结果和检索辅助信息的文书存储装置;存储上述检索用文书数据的检索用文书数据库;输入文书检索的关键字的关键字输入装置;在上述检索用文书数据库中的检索用文书数据与关键字字符的对照时,实施对应于上述字符识别装置抽取出的上述检索辅助信息的对照的文书检索装置;输出上述文书检索装置的检索结果的检索结果输出装置。
本发明方案2的文书检索装置把上述检索辅助信息作为判断上述输入文书中记载的字符是手写还是铅字的信息。
本发明方案3的文书检索装置中,上述文书存储装置在对应于上述检索辅助信息的检索用文书数据库中保持检索用文书数据,上述文书检索装置按照在每个检索用文书数据库中所指定的对照方法进行对照。
本发明方案4的文书检索装置具备输入文书的输入文书输入装置;保持对于文书的区域信息以及区域的属性信息所记述的字段信息的格式定义文件;使用上述格式定义文件识别由上述文书输入装置输入的文书中记载的字符的同时,作为检索辅助信息从文书输入的图像抽取出有关字符的品质或者状态的信息的字符识别装置;存储字符的标准图形的特征的字符辞典;存储上述字符识别装置的字符识别结果,检索辅助信息以及在上述格式定义文件中记述的字段信息的文书存储装置;存储上述文书存储装置存储的检索用文书数据的检索用文书数据库;输入文书检索的关键字的关键字输入装置;在上述检索用文书数据与关键字的对照时,按照对应于上述检索辅助信息以及上述字段信息的对照方法实施对照的文书检索装置;输出上述文书检索装置的检索结果的检索结果输出装置。
本发明方案5的文书检索装置把上述检索辅助信息作为判断上述输入文书中记载的字符是手写还是铅字的信息。
本发明方案6的文书检索装置中,上述文书检索装置使用上述格式定义文件中的有无单字符框的信息进行检索处理,在与来自存在单字符框的字段的识别结果字符的对照时进行不允许字符分割错误的对照,在与来自不存在单字符框的字段的识别结果字符的对照时进行允许字符分割错误的对照。
本发明方案7的文书检索装置中,上述文书存储装置在对应于上述检索辅助信息以及上述字段信息的检索用文书数据库中保持检索用文书数据,上述文书检索装置通过上述每个检索辅助信息以及字段信息的对照输出检索结果。
附图的简单说明
图1示出本发明实施形态1的文书检索装置的结构。
图2是示出本发明实施形态1的文书检索装置的文书登录动作的流程图。
图3是示出本发明实施形态1的文书检索装置的文书检索动作的流程图。
图4是示出本发明实施形态1的文书检索装置的文书检索动作的流程图。
图5示出本发明实施形态1的文书检索装置的检索辅助信息与对照方式的对应关系。
图6示出本发明实施形态1的文书检索装置的文书登录用纸。
图7示出本发明实施形态1的文书检索装置的文书登录用纸的格式信息。
图8示出由本发明实施形态1的文书检索装置的手写字符的记入例。
图9示出本发明实施形态1的文书检索装置的铅字的记入例。
图10示出图8的文书数据。
图11示出图9的文书数据。
图12示出本发明实施形态1的文书检索装置的检索辅助信息,字段信息与对照方式的对应关系。
图13示出图8的字符数据的其它例子。
图14示出图9的字符数据的其它例子
图15示出本发明实施形态1的文书检索装置的手写文书的字符索引的例子。
图16示出本发明实施形态1的文书检索装置的印刷文书的没有单字符框的字段的字符索引的例子。
图17示出本发明实施形态1的文书检索装置的印刷文书的具有单字符框的字段的字符索引的例子。
图18示出以往的文书检索装置的结构。
图19示出以往的文书检索装置的字符图形和字符识别结果。
图20示出以往的文书检索装置中的生成形状特征的区域。
图21示出以往的文书检索装置的字符识别结果和形状特征。
图22用于说明以往的文书检索装置中的对照动作。
发明的具体实施方式
实施形态1
参照附图说明本发明实施形态1的文书检索装置。图1示出本发明实施形1的文书检索装置的结构。另外,在各个图中,相同的符号表示相同或者相当的部分。
图1中,1是字符输入装置,2是识别文书输入装置1输入的文书图像中的字符并从字符代码和字符图形抽取出检索辅助信息的字符识别装置,3是存储字符标准图形的图像特征的字符辞典,4是存储字符识别装置2输出的字符识别结果和检索辅助信息的文书存储装置,5是关键字输入装置,6是文书检索装置,7是存储由字符存储装置4输出的检索文书数据的检索用文书数据库,8是检索结果输出装置,9是格式定义文件。
接着,参照附图说明本发明实施形态1的文书检索装置的动作。
首先说明文书登录处理。这里,使用图6所示的定型纸进行登录。图6中,202示出姓名字段,203示出住址字段,204示出电话号码字段,205示出商品名字段。
图7示出在图6所示的表格纸的读取时使用的格式定义文件的例子。图7中,示出有无每个字段的单字符框,以及字段矩形坐标。图7所示的格式定义文件用人工生成。
图2示出本实施形态1的文书检索装置的登录处理的流程图。
使用该图2说明登录处理。首先,在图2的步骤S100中,文书输入装置1输入文书图像。该文书输入装置1能够通过使用扫描仪把纸文书进行光电变换而实现。另外,还能够把已经光电变换了的图像经过网络的读取而实现。图8以及图9示出由文书输入装置1读入的文书图像的例子。
接着,在图2的步骤S200中,进行字符识别。字符识别装置2从文书输入装置1输入的文书图像出取出字符图形,输出对应于各字符图像的字符代码。在本实施形态1中,字符识别装置2使用众所周知的图像处理技术实现。首先,根据格式定义文件9的字段矩形坐标和字符框信息,从文书图像抽取出每个单字符的图像。对于具有单字符框的字段,从图像的直线成分进行字符框抽取,把各字符框内图像分割为单字符进行识别。对于没有单字符框的字段,从矩形坐标内进行字符行抽取,使用字符行的周边分布按照每个单字符进行分割。
接着,从各个单字符图像抽取出字符识别中使用的特征,计算与字符辞典3内各字符的标准图形的图像特征的距离,按照距离减小的顺序把单字符以上输出为识别候选字符。
具体地讲,从具有单字符框的字段的字符框检测从字段矩形区域检测水平,垂直方向成分数为一定值以上的直线成分,把在其交点被包围的矩形作为单字符框。直线成分检测使用众所周知的图像处理技术进行。其结果把所得到的单字符框内的字符作为单字符。对于没有单字符框的字段进行字符行抽取和字符分割。字符行抽取首先对于输入图像(白像素值=0,黑像素值=1的二值图像)进行欧几里德距离为一定值以内的黑像素之间的耦合处理。接着,进行作为图像处理方法的标示处理,把各标记的形状是长方形的部分决定为字符行。
接着,从水平方向和垂直方向扫描各字符行,求黑像素数的周边分布,把黑体像素数为极小的位置作为字符分割候选点,把字符行分割到单字符图像中。
字符识别处理,对于单字符图像,作为字符的特征,例如使用纵8维×横8维的网孔特征。具体地讲,计算在8×8的围棋盘网孔形的各小区域中存在的黑像素数,从字符辞典3内的标准图形特征与各维的差分的绝对值和求距离,按照其减小的顺序,把1个或者多个字符输出为识别候选字符。
接着,字符识别装置2从识别的字符行的图像特征抽取出检索辅助信息。这里,判断字符是铅字还是手写字符。其判断方法,例如利用「1行中的手写字符与铅字相比较单字符的大小具有分散性,其分散性较大」这样的知识,计算1行内的各字符的字符外接矩形大小的平均以及分散,与从学习用铅字数据以及手写字符数据预先计算出的分散的阈值相比较,在分散比阈值大时,判断为是手写字符,在阈值以下时判断为是铅字。另外,字符辞典3中保持铅字和手写字符的标准图形,进行从字符图像抽取出的特征与手写字符以及铅字的标准图形特征的距离计算,还能够判断与字符图形距离最近的字符标准图形是手写字符还是铅字。
最后,在步骤S300中,文书存储装置4保存识别候选字符并结束。这里,除去字符识别装置2输出的字符代码以外还保存判断手写/印刷的检索辅助信息。
图10示出对于图8所示的文书图像的检索用文书数据,图11示出对于图9所示的文书图像的检索用文书数据。在图10以及图11的识别候选字符中用[ ]包围的字符示出从单字符图像输出的多个识别候选字符。通过保持多个识别候选字符,使包含在字符行中的正解字符数增加,其结果能够降低检索遗落。把图10,图11所示的检索用文书数据登录在检索用文书数据库7中后结束。
其次,根据图3,图4的流程图说明检索处理的顺序。
这里,在检索关键字中使用「一郎」以及「一朗」进行说明。首先,在图3的步骤S1100中,关键字输入装置5输入检索关键字。该关键字输入装置5能够用键盘或鼠标,笔或者复制品等实现。首先,作为检索关键字输入「一郎」。
接着,在步骤S1200中,文书检索装置6进行检索用文书数据库7与输入关键字的对照处理。使用图4的流程图说明对照处理的顺序。
在图4的步骤S1210中,从检索用文书数据库7抽取出1个检索用文书数据,把其检索辅助信息和识别候选字符装载到未图示缓冲器中。现在,在检索用文书数据库7中,存储着图10,图11所示的2个文书。首先,把图10所示的检索用文书数据装载到缓冲器中。
接着,在步骤S1220中,文书检索装置6进行字段内检索。
字段内检索,如图5所示那样,进行对应于检索辅助信息的检索。在图5中,在检索辅助信息是手写时,进行字符分割·识别错误对应检索151,是铅字时,进行字符分割错误对应检索152。
首先,从图10获得字段号码1(姓名)的检索辅助信息。这里由于是「手写」,因此进行字符切割·识别错误对应检索151。为实现字符切割·识别错误对应检索151,既可以是通过并用以往例中所示的字符代码和形状特征允许字符切割·识别错误的方法,也可以是把输入关键字的字符代码的部分一致视为对照成功,输出为检索结果,允许字符切割·识别错误的方法。
这里示出后者的例子。在后者的情况下,从连续的字符行,计算出一致度=(关键字字符与检索用文书数据中字符的一致字符数)/(关键字字符数),在其为一定值(这里取为0.5)以上时输出为检索结果。识别候选字符「川上一[朗郎]」与关键字「一郎」的第1位识别候选字符「郎」与「朗」虽然相互不一致,但由于在第2位候选中有「郎」因此一致。这时的一致度由于是2/2=1.0,因此作为检索结果输出候选。
接着,进入到步骤S1230,判断是否处理了所有的字段。由于在图10中还存在没有进行对照的字段因此进入到步骤S1220,进行与字段号码2(住址)的字段内对照。由于没有字段号码2的字符识别结果与关键字字符的一致字符,因此不存在输出的检索结果。
以下同样反复进行以上处理,如果全部字段内检索结束则进入到步骤S1240,检查在检索用文书数据库7中是否还存在没有进行对照处理的检索文书数据。现在,由于图11所示的检索用文书数据存在于检索用文书数据库7中,因此进入到步骤S1210,同样进行上述处理。
图5所示的检索用文书数据的检索辅助信息由于是「铅字」,因此进行字符分割错误对应检索152。所谓该字符分割错误对应检索152,在这里限定为字符识别的结果错误指的是错误地分割了字符的情况,在关键字字符与检索用文书数据中的识别候选第1位字符中进行对照,设为即使在对照中存在部分不一致的字符,在相对应的字符数不同时也视为对照成功的对照。
例如,在关键字「○×电机」与字符行「○酸机」的对照中,「○」以及「机」虽然相互一致,但是「×电」与「酸」不一致,字符数分别是「2」和「1」而不同。这种情况下,在字符分割错误对应检索152中字符识别装置2解释为「×电」错误,识别为「酸」而对照成功。进而为了提高精度,也可以与以往例相同,通过对照「×电」与「酸」的形状特征,检测不一致字符的形状,在判断为形状类似时作为对照成功。
图11中,作为输入关键字「一郎」和姓名字段的识别候选字符的「山田一[郎朗]」中,「一」以及「郎」由于相互一致因此输出为检索结果。以下直到没有未对照的字段为止反复进行步骤S1220到步骤S1240,如果与所有数据的对照结束则进入到步骤S1250,进行输出结果生成。检索结果输出装置8把图10,图11的检索用文书数据的任一个输出为检索结果。最后,在图3中进入到步骤S1300,输出检索结果。
其次,用本方式使用关键字「一朗」进行检索。在使用了「一朗」的检索中,图10,11的检索用文书数据的任一个都没有输出为检索结果是理想的结果。首先,进行图10和字符分割·识别错误对应检索151。图10的「川上一[朗郎]」由于与关键字的某单字符一致因此对照成功。其结果,图10的检索用文书数据输出为检索结果,成为检索噪声。
其次,进行图11与字符切割错误对应检索152。图11的「山田一[郎朗]」虽然与关键字字符「一」一致,但是关键字字符「朗」与字符行中的第1位候选字符「郎」不一致,而且不一致字符数都同为「1」,因此与关键字的对照失败。其结果,图11的检索用文书数据不作为检索结果输出。
根据以上处理,在本方法中,在关键字「一郎」中没有检索遗落,在关键字「一郎」中,检索噪声成为1个文书。
为了比较,对于图10,11,考虑不使用检索辅助条件,而用同一个方法进行检索的情况。如使用字符分割·识别错误对应检索151,在关键字「一郎」中进行检索,则由于与图10,11的任一个关键字字符都一致,因此对照成功。
同样,如果使用关键字「一朗」进行检索,则图10,图11的任一个都与关键字字符一致,因此对照成功,成为检索噪声。其结果,在由字符分割·识别错误对应检索151进行的检索中,虽然在关键字「一郎」中没有检索遗落,但是在「一朗」中检索噪声成为2个文书。
同样,考虑不使用检索辅助条件,而进行字符分割错误对应检索152的情况。在与关键字「一郎」的对照中,虽然与图11对照成功,但是在与图10的对照中,关键字字符「郎」与检索用文书数据中的「朗」不一致,而且由于不一致字符数相同,因此对照不成功,成为检索遗落。
另一方面,在基于关键字「一朗」的检索中,虽然图10对照成功成为检索噪声,然而在与图11的对照中,关键字字符「一」一致,但是「朗」不一致,不作为检索结果输出。其结果,在字符分割错误对应检索152中,在关键字「一郎」中检索遗落成为1个文书,在关键字组「一朗」中检索噪声成为1个文书。
在使用了关键字「一郎」「一朗」的检索中,本方法与仅用字符分割·识别错误对应检索151的情况相比较,检索噪声减少到1个文书。另外,与仅用字符分割错误对应检索152的情况相比较,字符遗落减少到1个文书。这样,通过使用检索辅助信息切换检索方法,能够减少检索噪声,实现高精度的检索。
作为本实施形态1的第2实现方法,除去文书检索装置6进行辅助检索信息是「手写」还是「铅字」的不同对照以外,通过把格式定义文件中的字段信息也用作为检索辅助信息,能够进行对应于更详细的条件的对照。
使用图12,13,14示出其例子。在图2的步骤S300中,文书存储装置4除去字符识别装置2输出的识别候选字符和检索辅助信息以外,还把图7的格式定义文件9中的有/无单字符框信息也作为检索辅助信息加入到检索用文书数据中,存储到检索用文书数据库7中。
图13,14示出其例子。在图13,图14中,检索辅助信息1指的是手写/铅字信息,检索辅助信息2指的是有/无单字符框信息。
在关键字与检索用文书数据库7的对照中,从印刷/手写信息和有无单字符框信息的组合设定4种方法。图12示出其例子。在与是铅字而且具有单字符框的字段的文书数据的对照中,由于几乎不存在字符识别错误·字符分割错误,因此设定为完全一致检索154。这是仅在输入关键字与检索用文书数据中的字符行完全一致时作为检索结果进行输出的方法。
在是铅字但是没有单字符框的情况下,采用与本发明实施形态1的第1实现方式相同的字符分割错误对应检索152。
另外,在是手写字符而且没有单字符框的情况下,也采取与本实施情态1的第1实现方法相同的字符分割·识别错误对应检索151。
在是手写字符而且具有单字符框的情况下,实施字符识别错误对应检索153。该字符识别错误对应检索153是允许输入关键字与检索用文书数据中的字符行中部分一致的检索,在相互对应的不一致字符的字符数相同时作为检索成功。
例如,如果考虑输入关键字「○×电机」与字符行「○×雷机」的对照,则「○」「×」「机」相互一致,对应的「电」「雷」不一致。这时不一致的字符由于同为单字符,因此把「○×雷机」输出为检索结果。这样,通过准备对应于检索辅助信息的检索方式,能够实现最佳地对应了各个识别错误的检索方式。
在本实施形态1的第2实现方式中,在检索中使用了检索辅助信息与格式定义文件中的字段信息,然而并不限定于此,例如也能够仅登录格式信息在检索中使用。
另外,在本实施形态1中,在辅助检索辅助信息中使用了印刷·手写的判断,而检索辅助信息并不限定于此,例如也能够使用文书图像的品质(噪声的多少),竖写·横写,字体的种类,字符尺寸等。
另外,在本实施形态1中,在1个检索用文书数据库7中混合保持着手写字符和铅字等检索用文书数据,然而并不限定于此,也能够按照手写字符,铅字等检索辅助信息的不同独立地生成检索用文书数据库7,以各个特定的检索方式进行检索。在本实施形态1的第2实现方式中,在图12中,在每个检索辅助信息中示出4种检索方式,而通过在各个检索方式生成最佳的检索用索引(字符位置索引信息)能够实现检索的高速化。
这里,图15,图16,图17示出检索用索引。在各个索引中,作为索引信息保持字符代码,字段号码,字符位置。由此,能够不把字符识别结果与关键字直接对照,高速地搜索存在于文书内的关键字。
图17是完全一致搜索154的检索用索引,从检索辅助信息是「铅字」而且是「具有单字符框」的字段,即图14的字段号码3,4生成。例如,从作为字段号码「4」的识别结果的「 」,「 」的字段号码为4,字符位置从字段的起始数起,由于是单字符,因此成为「1」。同样,「 」的字段号码是4,字符位置是2。以下同样地生成。另外,还生成与「 」的字符号码4,字符位置1,「 」的字符号码4,字符位置号码2连接的2个字符的索引。由于越增加连接字符数,越减少输入关键字字符的索引的读入和对照次数,因此能够实现完全一致检索154的高速化。
图15是字符识别错误对应检索153,以及字符分割·字符识别错误对应检索151的检索索引,从图13的字符识别结果生成。同样,图16是字符分割对应检索152的检索用索引的例子,从图14的字段号码1,2生成。图15,图16是具有模糊性的检索方式的索引,为了防止起因于字符分割错误·字符识别错误的检索遗落,仅使用单字符索引进行检索。由此,如图17那样与保持连接字符索引的情况相比较,能够削减索引容量,而且实现高速检索。在手写·印刷中进行同一检索时,还能够把图15,图16所示的检索用索引汇总为1个。
如以上所说明的那样,如果依据本实施形态1,则在文书登录时与识别结果一起保存检索辅助信息,在检索时通过根据检索辅助信息进行对照,能够对应于各文书数据进行高精度的检索处理。由此,与不使用检索辅助信息的情况相比较能够削减检索遗落·检索噪声。
本发明方案1的文书检索装置如以上说明的那样,由于具备输入文书的文书输入装置;识别由上述文书输入装置输入的文书中所记载的字符的同时,作为检索辅助信息从输入文书的图像抽取出有关字符的品质或者状态的信息的字符识别装置;存储字符的标准图形的特征的字符辞典;作为检索用文书数据存储上述字符识别装置的字符识别结果和检索辅助信息的文书存储装置;存储上述检索用文书数据的检索用文书数据库;输入文书检索的关键字的关键字输入装置;在上述检索用文书数据库中的检索用文书数据与关键字字符的对照时,实施对应于上述字符识别装置抽取出的上述检索辅助信息的对照的文书检索装置;输出上述文书检索装置的检索结果的检索结果输出装置,因此具有能够进行高精度的检索,能够削减检索遗落·检索躁声的效果。
本发明方案2的文书检索装置以上所说明的那样,由于把上述检索辅助信息作为判断上述输入文书中记载的字符是手写还是铅字的信息,因此具有能够进行高精度的检索,能够削减检索遗落·检索躁声的效果。
本发明方案3的文书检索装置以上所说明的那样,由于上述文书存储装置在对应于上述检索辅助信息的检索用文书数据库中保持检索用文书数据,上述文书检索装置按照在每个检索用文书数据库中所指定的对照方法进行对照,因此具有能够进行高精度的检索,能够削减检索遗落·检索躁声的效果。
本发明方案4的文书检索装置以上所说明的那样,由于具备输入文书的输入文书输入装置;保持对于文书的区域信息以及区域的属性信息所记述的字段信息的格式定义文件;使用上述格式定义文件识别由上述文书输入装置输入的文书中记载的字符的同时,作为检索辅助信息从文书输入的图像抽取出有关字符的品质或者状态的信息的字符识别装置;存储字符的标准图形的特征的字符辞典;存储上述字符识别装置的字符识别结果,检索辅助信息以及在上述格式定义文件中记述的字段信息的文书存储装置;存储上述文书存储装置存储的检索用文书数据的检索用文书数据库;输入文书检索的关键字的关键字输入装置;在上述检索用文书数据与关键字的对照时,按照对应于上述检索辅助信息以及上述字段信息的对照方法实施对照的文书检索装置;输出上述文书检索装置的检索结果的检索结果输出装置,因此具有能够进行高精度的检索,能够削减检索遗落·检索躁声的效果。
本发明方案5的文书检索装置以上所说明的那样,由于把上述检索辅助信息作为判断上述输入文书中记载的字符是手写还是铅字的信息,因此具有能够进行高精度的检索,能够削减检索遗落·检索躁声的效果。
本发明方案6的文书检索装置以上所说明的那样,由于上述文书检索装置使用上述格式定义文件中的有无单字符框的信息进行检索处理,在与来自存在单字符框的字段的识别结果字符的对照时进行不允许字符分割错误的对照,在与来自不存在单字符框的字段的识别结果字符的对照时进行允许字符分割错误的对照,因此具有能够进行高精度的检索,能够削减检索遗落·检索躁声的效果。
本发明方案7的文书检索装置以上所说明的那样,由于上述文书存储装置在对应于上述检索辅助信息以及上述字段信息的检索用文书数据库中保持检索用文书数据,上述文书检索装置通过上述每个检索辅助信息以及字段信息的对照输出检索结果,因此具有能够进行高精度的检索,能够削减检索遗落·检索躁声的效果。

Claims (7)

1.一种文书检索装置,其特征在于具备:
输入文书的文书输入装置;
识别由上述文书输入装置输入的文书中所记载的字符的同时,作为检索辅助信息从输入文书的图像抽取出有关字符的品质或者状态的信息的字符识别装置;
存储字符的标准图形的特征的字符辞典;
作为检索用文书数据存储上述字符识别装置的字符识别结果和检索辅助信息的文书存储装置;
存储上述检索用文书数据的检索用文书数据库;
输入文书检索的关键字的关键字输入装置;
在上述检索用文书数据库中的检索用文书数据与关键字字符的对照时,实施对应于上述字符识别装置抽取出的上述检索辅助信息的对照的文书检索装置;
输出上述文书检索装置的检索结果的检索结果输出装置。
2.根据权利要求1所述的文书检索装置,其特征在于:
上述检索辅助信息是判断上述输入文书中记载的字符是手写还是铅字的信息。
3.根据权利要求1所述的文书检索装置,其特征在于:
上述文书存储装置在对应于上述检索辅助信息的检索用文书数据库中保持检索用文书数据,
上述文书检索装置按照在每个检索用文书数据库中所指定的对照方法进行对照。
4.一种文书检索装置,其特征在于具备:
输入文书的输入文书输入装置;
保持对于文书的区域信息以及区域的属性信息所记述的字段信息的格式定义文件;
使用上述格式定义文件识别由上述文书输入装置输入的文书中记载的字符的同时,作为检索辅助信息从文书输入的图像抽取出有关字符的品质或者状态的信息的字符识别装置;
存储字符的标准图形的特征的字符辞典;
存储上述字符识别装置的字符识别结果,检索辅助信息以及在上述格式定义文件中记述的字段信息的文书存储装置;
存储上述文书存储装置存储的检索用文书数据的检索用文书数据库;
输入文书检索的关键字的关键字输入装置;
在上述检索用文书数据与关键字的对照时,按照对应于上述检索辅助信息以及上述字段信息的对照方法实施对照的文书检索装置;
输出上述文书检索装置的检索结果的检索结果输出装置。
5.根据权利要求4所述的文书检索装置,其特征在于:
上述检索辅助信息是判断上述输入文书中记载的字符是手写还是铅字的信息。
6.根据权利要求4所述的文书检索装置,其特征在于:
上述文书检索装置使用上述格式定义文件中的有无单字符框的信息进行检索处理,在与来自存在单字符框的字段的识别结果字符的对照时进行不允许字符分割错误的对照,在与来自不存在单字符框的字段的识别结果字符的对照时进行允许字符分割错误的对照。
7.根据权利要求4所述的文书检索装置,其特征在于:
上述文书存储装置在对应于上述检索辅助信息以及上述字段信息的检索用文书数据库中保持检索用文书数据,
上述文书检索装置通过上述每个检索辅助信息以及字段信息的对照输出检索结果。
CN 02105715 2001-04-16 2002-04-15 文书检索装置 Expired - Fee Related CN1266632C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001116751A JP3812719B2 (ja) 2001-04-16 2001-04-16 文書検索装置
JP116751/01 2001-04-16

Publications (2)

Publication Number Publication Date
CN1381799A true CN1381799A (zh) 2002-11-27
CN1266632C CN1266632C (zh) 2006-07-26

Family

ID=18967439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 02105715 Expired - Fee Related CN1266632C (zh) 2001-04-16 2002-04-15 文书检索装置

Country Status (2)

Country Link
JP (1) JP3812719B2 (zh)
CN (1) CN1266632C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101606155B (zh) * 2007-08-09 2013-03-13 松下电器产业株式会社 内容检索装置
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
CN105787415A (zh) * 2014-12-18 2016-07-20 富士通株式会社 文档图像的处理装置、方法以及扫描仪

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007094078A1 (ja) * 2006-02-14 2007-08-23 Hitachi, Ltd. 文字列検索方法およびその装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101606155B (zh) * 2007-08-09 2013-03-13 松下电器产业株式会社 内容检索装置
CN105787415A (zh) * 2014-12-18 2016-07-20 富士通株式会社 文档图像的处理装置、方法以及扫描仪
CN105302626A (zh) * 2015-11-09 2016-02-03 深圳市依伴数字科技有限公司 Xps结构化数据的解析方法
CN105302626B (zh) * 2015-11-09 2021-07-23 深圳市巨鼎医疗股份有限公司 Xps结构化数据的解析方法

Also Published As

Publication number Publication date
JP2002312398A (ja) 2002-10-25
CN1266632C (zh) 2006-07-26
JP3812719B2 (ja) 2006-08-23

Similar Documents

Publication Publication Date Title
US8566349B2 (en) Handwritten document categorizer and method of training
EP1598770B1 (en) Low resolution optical character recognition for camera acquired documents
CN1139884C (zh) 信息处理方法和装置
US8335381B2 (en) Handwritten word spotter using synthesized typed queries
EP2015228B1 (en) Retrieving electronic documents by converting them to synthetic text
CN1207664C (zh) 对语音识别结果中的错误进行校正的方法和语音识别系统
US8509537B2 (en) Learning weights of fonts for typed samples in handwritten keyword spotting
CN110135414B (zh) 语料库更新方法、装置、存储介质及终端
Tomai et al. Transcript mapping for historic handwritten document images
CN1269069C (zh) 字符识别装置及方法
US8977054B2 (en) Candidate identification by image fingerprinting and model matching
US20100008581A1 (en) Word detection method and system
CN1752992A (zh) 文字识别装置、文字识别方法及文字识别程序
CN1492377A (zh) 表格处理系统及方法
CN1258894A (zh) 用于识别字符的装置和方法
CN1226696C (zh) 用于检索草体手写注释的方法
CN1625741A (zh) 可以通过手写检索查询来检索的电子文件管理系统
CN1641646A (zh) 基于图像文档的索引和检索
CN1141666C (zh) 利用标准笔划识别输入字符的在线字符识别系统
CN1916940A (zh) 模板优化的字符识别方法和系统
CN1877578A (zh) 文档检索装置及方法
CN1266632C (zh) 文书检索装置
Padma et al. Identification of Telugu, Devanagari and English Scripts Using Discriminating Features
Srihari et al. Versatile search of scanned arabic handwriting
Zirari et al. A methodology to spot words in historical arabic documents

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060726

Termination date: 20110415