CN1118034C - 全文检索设备及全文检索方法 - Google Patents
全文检索设备及全文检索方法 Download PDFInfo
- Publication number
- CN1118034C CN1118034C CN00134962.7A CN00134962A CN1118034C CN 1118034 C CN1118034 C CN 1118034C CN 00134962 A CN00134962 A CN 00134962A CN 1118034 C CN1118034 C CN 1118034C
- Authority
- CN
- China
- Prior art keywords
- character
- candidate characters
- mentioned
- document
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
在根据字符识别结果作成的文本作成索引时,如果只用字符识别结果的第一位识别候选字符作成索引,则字符识别结果包含错误的概率增大,关键字和文本内的字符不一致,存在不能正确解释地检索的情况增加的课题。解决问题的方法是参照索引,检索与该关键字一致的识别候选字符的文书,另一方面对照字符图像的形状特征和构成关键字的字符的形状特征,检索符合检索条件的文书。
Description
技术领域
本发明涉及例如根据识别文书或附图上记载的字符图像作成的文书·附图数据,用任意的关键字进行全文检索的全文检索设备及全文检索方法。
背景技术
在蓄积了计算机能读取的电子化文本并用关键字进行电子化文本的检索处理的方法中,有以下两种方法:(1)对文本的内容和关键字一个字符一个字符地直接对照的方法、(2)预先抽出文本内出现的字符及其位置信息,作成索引,检索时用索引检验关键字和文本内的字符的位置关系的方法。
在上述(2)中根据作成索引的字符串的单位,能大致分为以下两种索引:连续的N(N为整数)个字符单位的索引;以及由包括单词、形态要素等文法要素的单位构成的索引。还有根据位置信息的记述内容来记述文本编号等的方法;以及除了文本编号以外记述文本内字符的出现位置的方法。
在上述(1)中,为了快速地进行文本和关键字的对照,需要在存储器中将文本展开,但如果保存的文本数增多,则在存储器中将文本展开的时间变长,所以发生不能快速检索的问题。可是,由于预先不作成索引也可以,所以在频繁地进行登录、删除的情况下较为方便。
上述(2)中,由于预先需要作成索引,所以与上述(1)相比,在删除时费时间,但一般说来,检索的处理时间比上述(1)少。因此,适合于不太频繁地进行登录、删除、处理大量文书的情况。
图21是表示例如特开平10-149367号公报所示的现有的全文检索设备(以下称现有例1)的结构图,该现有例1适用于有关上述(2)的索引作成方法。
图中,201是文本存储装置,202是主索引登录装置,203是副索引登录装置,204是主索引存储装置,205是副索引存储装置,206是副索引管理装置,207是主索引检索装置,208是副索引检索装置,209是关键字检索控制装置,210是关键字检索结果存储装置,211是检索条件输入装置,212是逻辑条件分析装置,213是检索结果输出装置。
其次说明工作情况。
用文本存储装置201存储的文本利用主索引登录装置202登录连续的N个字符的索引,利用主索引存储装置204进行存储。
检索时,利用从检索条件输入装置211获得的检索条件,通过关键字检索控制装置209检索主索引和副索引,获得检索结果。关键字检索结果存储装置210根据该检索结果,启动副索引作成装置206,对检索结果的件数(文本识别数)多的文本、或检索结果的文本内字符位置数和文本识别数之比大的文本,进行副索引的作成。
在现有例1中,除了N个字符索引的主索引以外,还保存副索引,开始时访问副索引,在副索引中不存在关键字的情况下,访问主索引。
主索引保存着文书编号和字符位置编号,副索引只保存文书编号。因此,与主索引相比,副索引的尺寸小,索引的检验处理也少。
在副索引内有关键字的N个字符索引的情况下,没有必要访问主索引,检索处理时间缩短。另外,根据检索履历,将检索的频度小的索引从副索引中删除,能缩小索引的尺寸。
其次,为了检索没有对文书进行字符编码(没有作成电子化文本)的文书图像,进行字符识别处理,从文书图像中抽出字符部分,由此来作成并保存电子化文本。例如,在特开平8-7033号公报中公开了这样的技术:作为字符识别的结果,保存多个各字符图像的识别候选字符,由此来提高包含正确解释的字符的比例。
图22是表示特开平8-7033号公报所示的现有的全文检索设备(以下称现有例2)的结构图,图中221是图像输入装置,222是输出装置,223是字符识别装置,224是文书检索装置,225是关键字输入装置,226是图像数据,227是文本信息,228是检索用文件。
其次说明工作情况。
在现有例2中,如果从图像输入装置221输入文书图像,便用字符识别装置223进行字符识别,将该识别候选字符存储在检索用文件228中。
由于存储多个识别候选字符,所以检索用文件228的记述使用识别候选字符数和识别候选字符,记述成[候选字符数]、[候选字符1]、[候选字符2]、…。
例如,对于称为“新文书编档”的字符图像来说,在存储多个识别候选字符的情况下,记述成:[1]新[4]丈文女交[1]书[1]フ[1]ア[1]イ[1]リ[1]ン[1]グ等。
检索时,文书检索装置224对检索用文件228内的文本和关键字进行对照,在识别候选字符中包含全部关键字和同一字符的情况下,认定对照成功。例如,对于“新文书编档”的文本来说,如果用关键字“文书”进行检索,则由于在[4][丈文女交[1][书]的识别候选字符内存在“文”及“书”,所以对照成功,并作为检索结果输出。
另外,通过将现有例1和现有例2组合起来,作成包含识别候选字符的索引,就能进行检索。例如,设N=2,在现有例2的“新文书编档)”的例中,通过作成使用“新丈”、“新文”、“新女”、“新交”、“丈书”、“文书”、“女书”、“交书”这样的识别候选字符的索引,就能适用于现有例1。
由于如上构成现有的全文检索设备,所以在根据字符识别结果作成的文本作成索引的情况下,如果作成只使用字符识别结果的第一位识别候选字符的索引,则字符识别结果包含错误的概率增大,关键字和文本内的字符不一致,存在不能正确解释地检索的情况增多的课题。
另外,如现有例2所示,在实际上对照使用了识别候选字符的文本的检索中,与只保存第一位识别候选字符的情况相比,文本中包含正解字符的概率虽然较高,但数据越多,将文本文件装入存储器所需要的时间越长,所以存在不能谋求高速检索的课题。
另外,在使用识别候选字符作成索引进行检索的情况下,如果识别候选字符内完全不包含正解字符,则不能正确解释地作成正解字符串的索引,存在检索时不能正确解释检索的课题。
例如,称为“字符识别”的字符图像的识别结果如“字符识别”所示z在将“字”错误地识别为“宇”的情况下,作成的索引变为“文宇”、“宇认”、“识别”,而不能作成本来的“字符”、“字认”的索引,其结果不能用“字符识别”的关键字正确解释地进行检索。
另外,例如如果对各字符每3个字符保存识别候选字符,则作成连续的两个字符的索引时的组合变为3×3=9组,是一个字符一个字符地保存识别候选字符时的9倍。连续的3个字符的组合为3×3×3=27组,所保存的识别候选字符越多,连续的N个字符的组合越多,其结果,存在索引的容量变得非常大的问题。
发明内容
本发明就是为了解决上述课题而完成的,其目的在于获得一种能高速且高精度地进行全文检索的全文检索设备及全文检索方法。
另外,本发明的目的还在于获得能使索引的容量小的全文检索设备。
本发明的一种全文检索设备,备有:识别包含在输入文书的输入图像中的各字符图像并输出对各字符图像的一个以上的识别候选字符和显示各相应识别候选字符的准确度的字符识别装置;输出表示上述字符识别装置输出的上述识别候选字符的上述文书内的位置关系的索引的索引作成装置;作为上述文书的检索条件输入关键字的输入装置;以作为由上述输入装置输入的检索条件的上述关键字为基础,检索与上述检索条件相符的文书的检索装置;和输出从上述检索装置得到的检索结果的输出装置;其特征在于还具有:
在包含于上述输入图像中的各字符图像中,对于各个具有基准的准确度以下的识别候选字符的字符图像,分成多个区域,将从各区域的像素特征计算出的值,作为形状特征抽出的特征抽出装置;
上述检索装置,参照上述索引,检索与从上述输入装置输入作为检索条件的上述关键字一致的上述识别候选字符的文书,并对照由上述特征抽出装置抽出的上述字符图像的上述形状特征,和构成上述关键字的字符的形状特征,检索符合检索条件的上述文书。
本发明的全文检索设备在索引的作成对象中包含组合了两个以上的识别候选字符的连接字符。
本发明的全文检索设备在字符识别装置输出的各识别候选字符中,将准确度比基准准确度低的识别候选字符从索引的作成对象中除去。
本发明的全文检索设备,即使在字符识别装置输出的识别候选字符的准确度比基准准确度低的情况下,在没有其准确度超过基准准确度的识别候选字符的与字符图像有关的识别候选字符时,索引的作成对象中包含该识别候选字符,同时对该识别候选字符附加与其他识别候选字符相区别的识别记号。
本发明的全文检索设备将字符图像的形状特征存储在数据库中,同时将该字符图像的各识别候选字符和有可能构成单词的字符的字符码存储在数据库中。
本发明的全文检索设备考虑语言信息或字符种类,判断各识别候选字符和有可能构成单词的字符。
本发明的全文检索设备计算由特征抽出装置抽出的字符图像的形状特征与构成关键字的字符的形状特征的距离,该距离满足规定的基准时,认定符合检索条件。
本发明的全文检索设备设有设定由检索装置进行的形状特征对照处理的有无的设定装置。
本发明的全文检索设备将包含与关键字一致的识别候选字符的文书从形状特征的对照对象中除去。
本发明的全文检索设备只在不存在与关键字一致的识别候选字符的情况下,对照由特征抽出装置抽出的字符图像的形状特征和构成关键字的字符的形状特征。
本发明的全文检索设备在确定关键字的形状特征的对照对象时,将附加了识别符号的识别候选字符作为通配符处理。
本发明的全文检索设备考虑了整个文书中出现组合了两个以上的识别候选字符的连接字符的出现概率,判断索引的作成对象中是否包含该连接字符。
本发明的全文检索设备,在构成连接字符的各识别候选字符是该字符图像的唯一的识别候选字符的情况下,对该连接字符的出现次数进行往上计数,更新出现概率。
本发明的全文检索设备对与关键字一致的连接字符的出现次数进行往上计数,更新出现概率。
本发明的全文检索设备在修正了字符识别装置输出的识别候选字符的情况下,对包含修正后的识别候选字符的连接字符的出现次数进行往上计数,更新出现概率。
本发明的全文检索方法参照索引,检索与关键字一致的识别候选字符的文书,另一方面,对照字符图像的形状特征和构成关键字的字符的形状特征,检索符合检索条件的文书。
附图说明
图1是表示本发明的实施例1的全文检索设备的结构图。
图2是表示文书的登录方法的流程图。
图3是表示输入图像的说明图。
图4是表示字符识别装置的识别结果的说明图。
图5是表示识别候选字符的减少结果的说明图。
图6是表示保持从字符图像抽出的形状特征的例的说明图。
图7是表示模糊文本的某文书编号的开始位置等的说明图。
图8是表示具体的形状特征的作成方法的说明图。
图9是表示两个字符的索引例的说明图。
图10是表示存储了一个字符索引的位置和识别顺序的表的说明图。
图11是表示文书的检索方法的流程图。
图12是表示索引对照的流程图。
图13是表示模糊文本对照的流程图。
图14是表示索引对照的流程图。
图15是表示本发明的实施例3的全文检索设备的结构图。
图16是表示字符连锁出现概率词典的说明图。
图17是表示文书的登录方法的流程图。
图18是表示识别结果的修正内容的说明图。
图19是表示文书的登录方法的流程图。
图20是表示文书的检索方法的流程图。
图21是表示现有的全文检索设备(现有例1)的结构图。
图22是表示现有的全文检索设备(现有例2)的结构图。
具体实施方式
以下,说明实施本发明的一种形态。
实施例1
图1是表示本发明的实施例1的全文检索设备的结构图,图中,1是输入图像的图像输入装置,2是识别输入图像中包含的各字符图像,输出各字符图像的一个以上的识别候选字符,同时输出各识别候选字符的准确度(类似度)的字符识别装置,3是作成表示字符识别装置2输出的各识别候选字符和字符位置的对应关系的索引的索引作成装置。
4是在输入图像中包含的各字符图像中存在没有其准确度超过基准准确度的识别候选字符的字符图像的情况下,抽出该字符图像的形状特征,同时考虑语言信息或字符种类,判断该字符图像的识别候选字符和有可能构成单词(字符串)的字符,将该字符串作为模糊文本抽出的模糊文本抽出装置(特征抽出装置),5是作为文书的检索条件输入关键字的检索条件输入装置(输入装置,设定装置),6是参照索引,检索与该关键字一致的识别候选字符的文书编号,另一方面对照由模糊文本抽出装置4抽出的字符图像的形状特征和构成关键字的字符的形状特征,检索符合文书的检索条件的文书编号的检索装置,7是输出检索装置6的检索结果的输出装置。
8是字符识别装置2进行字符识别时使用的字符识别词典,9是检索装置6进行关键字检索时使用的形状特征词典,10是存储由模糊文本抽出装置4抽出的模糊文本的模糊文本数据库,11是存储由索引作成装置3作成的索引的索引数据库,12是存储识别候选字符等的识别字符数据库。
其次说明工作情况。
最初,参照图2说明文书的登录方法。首先,在步骤ST100中,图像输入装置1输入能用计算机处理的文书图像。
作为图像输入装置1的结构,可以采用扫描器或数字摄像机,也可经由网络等输入预先作成的能用计算机处理的图像。这里,假定从图像输入装置1输入图3所示的文书图像。
其次,在步骤ST110中,字符识别装置2对从图像输入装置1输入的输入图像进行字符识别处理,输出表示字符码及其准确度的类似度。
字符识别方法能采用众所周知的技术,所以详细说明从略。字符识别装置2对于输入图像中包含的各字符图像,输出多个识别候选字符和各自的类似度。
图4是字符识别装置2的识别结果的一部分,这里,关于图3中的第一行至第二行的各字符图像的识别结果,示出了从识别候选第一位至第五位的识别候选字符及其类似度。
图4中识别候选字符中存在的“◆”意味着未存储对应的字符码。
其次,在步骤ST120中,索引作成装置3根据图4所示的识别结果,进行检索用的识别候选字符的收缩。
作为进行检索用的识别候选字符的收缩的方法,例如,根据预先学习数据,求得识别候选字符的类似度和该识别候选字符正解的准确率,设定正解的准确率高、而且能进行充分减少的阈值TH1,保存类似度在阈值TH1以上的识别候选字符。
在不存在类似度在阈值TH1以上的识别候选字符的情况下,由于不包含正解字符的准确率高,所以除了各识别候选字符外,还附加表示不包含正解字符的可能性高的“*”符号。
在该例中,虽然使用“*”符号,但也可以分配其他字符码,还可以分配字符码以外的值。
图5表示识别候选字符的收缩结果。例如,如果设定TH1=80,则对于字符位置编号4和字符位置编号9来说,不存在类似度在80以上的识别候选字符(参照图4),所以对它们附加“*”(参照图5中的符号23、24)。索引作成装置3将图5所示的收缩后的识别候选字符保存在识别字符数据库12中。
其次,在步骤ST130中,索引作成装置3作成索引。这里,根据图5所示的识别候选字符,作成每一个字符的索引和连续的两个字符的索引。
这里,具体地说明索引的作成方法。
图9表示索引作成装置3根据图5所示的识别候选字符作成的两个字符的索引。该作成方法是从图5中的第一个字符开始,依次对相邻的字符之间计算并保存相邻的两个字符的前一个字符和后一个字符的字符码、前一个字符的出现位置、前一个字符的识别候选顺序和后一个字符的识别候选顺序的积。出现位置记作“X-Y”,意味着从文书编号X的开头位置开始至第Y个字符。这里,将图3中的文书图像的文书编号作为“1”。
例如,根据图5中的“文”21和“书”22,作成图9中的“文书”25的索引。在此情况下,“文”21的位置信息是从文书1的开头的第一个字符,所以字符位置为“1-1”,“文”21和“书”22的识别候选顺序都是一位,所以识别候选顺序为1×1=1。
图10是存储字符索引的位置和识别顺序的表,用来保存字符码、字符出现位置及识别候选顺序。对于被断定为不包含正解字符码的字符来说,保存“*”31和字符位置32。
其次,在步骤ST140中,模糊文本抽出装置4抽出不包含正解字符码的字符。
即,模糊文本抽出装置4根据图5所示的识别候选字符,并根据带“*”的字符码的字符图像,作成字符的形状特征,与其前后的数个字符一起存储在模糊文本数据库10中。
前后字符的判断方法可以是例如进行众所周知的形态要素分析,从带“*”的字符码的前后开始作为形态要素分析中失败的字符,也可以作为与带“*”的字符码为同一类别(英文、汉字、数字、平假名、片假名中的任意一种)连续的字符,还可以固定字符数。这里,保存后一个字符。
图8表示具体的形状特征的作成方法,在图8中,将字符图像分成8个部分,求各区域的黑像素数。例如,对区域41求13个黑像素数(参照符号49),对区域42求10个黑像素数(参照符号50)。将这样作成的形状特征与识别候选字符一起保存。图6表示保存从第四字符和第九字符的字符图像抽出的形状特征的例。
另外,模糊文本抽出装置4将作成形状特征的字符的位置及其特征值存储在识别字符数据库12中(参照图5的下部)。
其次,说明文书的检索方法。
这里,文书登录处理的结果,只将与文书编号为1的文书有关的数据存储在索引数据库11及模糊文本数据库10中。图11是表示文书的检索方法的流程图。
首先,在步骤ST200中,使用者用检索条件输入装置5输入关键字。为了构成检索条件输入装置5,可以用计算机的键盘或鼠标,但不限于此,也可以是使用话筒、电话等的声音输入。这里是输入称为“字符”的关键字的装置。
其次,在步骤ST210中,检索装置6分割输入的关键字。这里,分解成一个字符及两个字符连接字符串的组。即,分割成“文”、“字”、“文字”。
其次,在步骤ST220中,检索装置6用索引进行文书的检索。图12是表示索引对照的流程图。
首先,在步骤ST221中,检索装置6进行取出该分割了的“文字”、“文”、“字”的各索引(参照图9中的符号26、图10中的符号27、28)的处理。具体地说,将各索引的内容装入图中未示出的存储器中。
其次,在步骤ST222中,进行字符位置的验证,检索文书编号。即分别验证“文”、“字”的字符位置,检索文书编号即可,但也可以用“文字”的索引26,检索文书编号。这里,用“文字”的索引26进行检索。在此情况下,由于“文字”的字符位置是“1-7”,所以文书编号1成为检索结果。
最后,在步骤ST224中,检索装置6输出用索引进行的检索结果。
其次,在图11所示的步骤ST230中,检索装置6用模糊文本进行检索。图13是表示模糊文本对照的流程图。
首先,在步骤ST231中进行检索对象文书的确定。这里,为了处理时节省时间,将由索引对照(步骤ST220)进行的检索结果、成为输出候选的文书编号的文书从检索对象中除去。
具体地说,抽出包含关键字“文字”的“文”、“字”中的某一个字符的文书编号,将从其中把在步骤ST220中输出的文书编号的文书除去后的文书作为检索对象。就是说,从图10取出“文”的索引27表示的文书编号和“字”的索引28表示的文书编号的OR,从其中将在步骤ST220中的检索结果除去。
在此情况下,“文”和“字”的文书编号的OR为1,在步骤ST220中,输出文书编号1,所以将文书编号1从文书编号1除去后作为非对象文书。
其次,在步骤ST232中,将对象文书装入存储器。这时,由于是非对象文书,所以不装入。接着,在步骤ST233中,进行使用字符码层次的对照,但由于是非对象文书,所以不进行对照。同样,在步骤ST234中,进行形状特征的对照,但由于是非对象文书,所以不进行对照。在步骤ST235中,进入Y(是),在步骤ST236中输出无结果后结束。
最后,在图11所示的步骤ST240中,输出各检索结果(文书编号1)后结束。
其次,说明使用者输入了“课题”作为关键字时的检索。
在图11所示的步骤ST200中,使用者从检索条件输入装置5输入“课题”作为关键字。在步骤ST210中,检索装置6进行关键字分割。这里,分割成“课”、“题”、“课题”。
其次,在步骤ST220中,检索装置6按照索引对照的方法进行检索。在图12所示的步骤ST221中,取出各索引,这时存在“题”的索引30,而不存在“课题”、“课”的索引。进入步骤ST222、步骤ST224,由于不存在“课题”的索引,所以无结果而结束。
其次,在图11所示的步骤ST230中,检索装置6检索模糊文本。首先,在图13所示的步骤ST231中,进行检索对象文书的确定。取出“课”的索引表示的文书编号和“题”的索引表示的文书编号的OR,进行从其中将在步骤ST220中的检索结果除去的处理。
“题”的索引30表示的文书编号为“1”,由于在步骤ST220中没有检索结果,所以对象文书的文书编号变为“1”。
其次,在步骤ST232中,将对象文书的模糊文本装入存储器。这里,将图6所示的文书编号1的文本及形状特征装入存储器。
其次,在步骤ST233中,检索装置6用字符码层次进行对照。这时,在检索关键字和一个字符一致的情况下,将一致的字符位置附近作为形状特征对照范围存储起来,然后继续进行。具体地说,将关键字“课题”的“课”或“题”中的任意一个字符存在的部分的附近作为形状特征对照范围。这里,在图6中由于“题”33一致,所以将它作为形状特征对照范围。
其次,在步骤ST234中,检索装置6进行使用形状特征的对照。这里,根据图6中的形状特征34和形状特征词典9,装入“课”的形状特征。在图8中,将41~48的区域分配给区域1~区域8。形状特征的计算如下所示,计算每个区域的特征的差分。
[式1]
式中,D是形状特征间的距离,Xi是模糊文本数据库10内的文本的第i号的形状特征,Yi是对应的关键字字符的第i号的形状特征(存储在形状特征词典9内)。
在距离D在某一阈值THR以下的情况下,形状特征的对照成功,将该文书作为检索结果输出。现在,假设形状特征词典9内的“课”的区域1~8的特征值分别为“10”、“7”、“12”、“12”、“10”、“5”、“10”、“9”,与图6中的形状特征34的距离D=30。
因此,THR≥D成立,所以该特征之间的对照成功,将文书编号1作为检索结果输出。
最后,在步骤ST240中,输出作为该检索结果的文书编号1。
在该实施例1中,说明了索引为一个字符和两个字符的情况,但不限于此,也可以使用连续的3个字符的索引,也可以是更多字符的索引。
另外,在该实施例1中,用索引和模糊文本两者进行了检索,但不限于此,如图20所示,不进行模糊文本的对照也可以输出检索结果。由于不使用模糊文本,所以不能进行字符识别中失败的部分的检索,但能谋求结果输出的高速化。
另外,由于使用模糊文本能进行高精度检索,所以将检索条件输入检索条件输入装置5时,指定是否进行使用模糊文本的检索,能自由地指定检索精度优先或检索速度优先。
另外,模糊文本虽然使用了图6,但如图7所示,也可以作成表示哪个文书中包含作为模糊文本的文书编号的开始位置和结束位置及模糊文本的字符码的表。
说明这时的工作情况。如上所述,登录时模糊文本抽出装置4将类似度包含TH1以下的字符的前后数个字符的字符串确定为模糊文本,保存该开始字符位置和结束字符位置及文书编号。现在,用图5中的“*”23进行说明,这里,假定包含该字符的后一个字符为模糊文本。在图7中保存开始字符位置4(参照符号500)、结束字符位置5(参照符号501)、文书编号1(参照符号502)。
另外,模糊文本抽出装置4作成图7(B)所示的出现模糊文本的字符表。现在,对在开始字符位置4和结束字符位置5处存在的全部识别候选字符保存文书编号1。从图5可知在该例中,对图7(B)中的“谍”503、“训”504、“诘”505、“语”506、“话”507、“题”508保存文书编号1。
检索处理直至图11中的步骤ST220与上述实施例1相同。在步骤ST230中,对关键字“课题”来说,检索装置6从图7(B)中的表装入“课”、“题”的索引确定该文书。
这里,由于不存在包含“课”的文书,而包含“题”的文书的文书编号为“1”,所以对文书编号1进行使用形状特征的检索。
在图7(A)中对文书编号1的第4至第5个字符、以及第9至第10个字符,从图5中的识别字符数据库12装入字符和形状特征,进行对照。以下与实施例1相同。
因此,能防止识别字符数据库12和模糊文本数据库10的双重保存,数据量越大,越能抑制数据保存用的容量。
从以上说明可知,如果采用该实施例1,则由于参照索引,检索与关键字一致的识别候选字符的文书编号,另一方面对照字符图像的形状特征和构成关键字的字符的形状特征,检索符合文书的检索条件的文书编号,所以具有能进行高速且高精度的全文检索的效果。
实施例2
在上述实施例1中,虽然给出了在字符码完全不一致的情况下,使用形状特征检索文书编号的例,但也可以不使用形状特征,而只用索引进行检索。
文书的登录方法与上述实施例1相同,所以说明文书的检索方法。
首先,在图11所示的步骤ST200中,进行输入关键字“课题”的操作。其次,在步骤ST210中,进行关键字分割。
这里,作成“课”、“题”、“课题”。其次,在步骤ST220中,进行对照索引的检索,但对照索引的流程采用图14所示的流程图。
在步骤ST221中,检索装置6进行取出各分割关键字字符串的索引的处理。由于不存在“课题”、“课”的索引,只存在“题”的索引,所以从图10取出“题”的索引30。
其次,在步骤ST222中,进行字符位置的对照。这里,由于不存在“课题”的索引,所以没有适合对照的文书,进入步骤ST223。在步骤ST223中,对一部分不一致的字符位置使用符号“*”进行对照。
该检索即使如“课题”所示与关键字完全不一致,但用“*题”、“课*”的字符串也能对照。处理的顺序是使用“课”、“题”的索引,根据“课”或“题”的索引,检索字符位置。虽然对“课”来说不存在索引,但存在“题”的索引30。
其次,装入“*”字符的索引31。用“*”的索引31验证“题”的索引30中是否存在连接的字符。由于“*”开始的字符位置“1-4”32位于“题”的1-5的一个字符前,所以满足条件。此外,由于不存在“题”的字符位置,所以在步骤ST224中,输出检索结果(文书编号1)后结束。
在图11中,不进行步骤ST230的模糊文本对照,进入步骤ST240,输出其检索结果(文书编号1)后结束。
在该实施例2中,对于被认为识别候选字符中不存在正解的字符来说,在识别候选字符中增加符号“*”,看看该字符与哪个字符对照一致,进行检索。但是,如“**”所示,在正解字符一个字符也不包含的情况下不成功。因此,具有能减少由于误识别造成的漏检索的效果。
实施例3
图15是表示本发明的实施例3的全文检索设备的结构图,图中与图1相同的符号表示相同或相当的部分,所以说明从略。
13是修正字符识别装置2的识别结果的识别结果修正装置,14是变更字符连锁出现概率的字符连锁出现概率词典更新装置(出现概率更新装置),15是存储字符连锁的出现概率的字符连锁出现概率词典,16是作成索引时,参照字符连锁出现概率词典15,判断索引的作成对象中是否包含两个以上的识别候选字符组合的连接字符的索引作成装置。
其次说明工作情况。
这里,说明使用字符连锁出现概率词典15作成索引的方法、以及字符连锁出现概率词典15的更新方法。
在文书的登录处理中,直到图2中的步骤ST120与上述实施例1的处理方法相同。
在图2所示的步骤ST130中,索引作成装置16与上述实施例1一样,进行识别候选字符的减少,根据图5所示的识别候选字符作成索引。这时,用字符连锁出现概率词典15,对识别候选字符的组合,确定是否作成索引。
图16表示字符连锁出现概率词典15的一例,在图15的“概率”中,预先根据多个学习文书,计算文书内连续的N个字符的组合的出现数,对全体文书求出现概率。总数是实际学习文书中出现的组合数。组合字符(连接字符)的开始字符相同的组的概率的和为“1”。例如,“文字”、“文学”、“文章”等从“文”开始的组合的概率的和为“1”。
定义下式,根据图5中的识别候选字符的组合计算E,根据该E的值确定是否作成索引。
[式2]
Eijk=α(Rij+R(i+1)k)+(1-α)·β·Pij(i+1)k
0≤α≤1
式中,R表示字符识别的类似度,Rij表示从开头第i个字符位置的第j位识别候选字符的类似度。同样,R(i+1)k表示从开头第(i+1)个字符位置的第k位识别候选字符的类似度。
Pij(i+1)k表示从开头第i个字符位置的第j位识别候选字符之后从开头第(i+1)个字符位置的第k位识别候选字符继续出现的概率。α、β是常数。
具体地说,在图5中,例如i=7时,对“文字”、“文字”、“文学”、“丈宇”、“丈字”、“丈学”6组进行E的计算,如果各值在某阈值以上,则在索引中作成其组合,如果在某阈值以下,则在索引中不残留。
现在,假设α=0.5,β=300,则E(文字)=0.5×(90+86)+(1-0.5)×300×0.001=88.15。同样计算,得E(文字)=102,E(文学)=86.5,E(丈宇)=78.15,E(丈字)=77.15,E(丈学)=75.15。
因此,在将E>85以上的字符组作为索引保存时,只登录“文字”、“文宇”、“文学”的组合。这时,在图9中的两个字符索引中,按照大小顺序分配E的值。这里,使“文字”保持1,使“文字”保持2,使“文学”保持3。
文书的检索方法与上述实施例1相同。
由于用字符识别中使用的类似度、以及文书中字符之间的组合连续出现的概率,算出值的大小,所以能排除作为字符的正解下降的可能性、或者作为字符串在文书中存在的概率低的组合,能紧凑地、而且正解字符被错误地删除少地作成检索用的索引。
实施例4
其次,说明变更字符连锁出现概率词典15的方法。
在内容、领域相同或相似的文书中,各文书内出现的重要单词相类似,较多地出现。因此,通过学习出现的字符的组合,更新每个领域的文书的字符连锁出现概率词典15,能并不怎么降低检索的精度,而使索引紧凑化。
在该实施例4中,说明根据字符识别结果,计数被认为正确解释的字符组合的出现数,使该值反映在字符连锁出现概率词典15中的例。
图17是表示文书的登录方法的流程图。文书登录中使用的文书与上述实施例1相同。
直到步骤ST120,与上述实施例1的处理方法相同。在步骤ST135中,与上述实施例1同样地作成索引。此后,字符连锁出现概率词典更新装置14从图5所示的识别候选字符中,计算候选数为一个字符连续的字符的组合的出现数。
在图5中,对“文书”、“识性”、“性能”、“能の”、“の向”、“向上”的组合,计数其出现数。字符连锁出现概率词典更新装置14将各组合及其数保存在图中未示出的缓冲器中,在某一时刻,例如在多次文书登录中用一次的比例更新图16中的字符连锁出现概率词典15。另外,使用者利用进行更新的命令进行更新。
以下,在步骤ST140中,与上述实施例1一样,抽出模糊文本后结束。
另外,在使用者用识别结果修正装置13,对识别候选字符修正字符识别错误的情况下,计算修正的字符的组合数,也能更新字符连锁出现概率词典15。
图19是表示文书的登录方法的流程图。在图19中直到步骤ST120,与上述实施例1的处理方法相同。
在步骤ST125中,用识别结果修正装置13进行字符的修正。例如,如图18中的60、61所示,使用者修正图5中的字符位置8、9。
其次,在步骤ST133中,索引作成装置16根据图18所示的识别候选字符作成索引。其次,在步骤ST143中,计数字符连锁出现频度。字符连锁出现概率词典更新装置14计数修正后的字符前后包含识别候选字符为一个字符的组合数。这里,在图18中对“字认”、“认识”计数组合数。字符连锁出现概率词典15的更新在某一时刻、例如修正了一定数之后进行更新。
另外,不限于误识别字符的修正,还能根据检索用的关键字,计数字符连锁出现频度,使其反映在字符连锁出现概率词典15中,登录时能更准确地残留用于关键字的字符串。
如上所述,如果采用本发明,则由于设有检索装置,它参照索引,检索与关键字一致的识别候选字符的文书,另一方面,对照由特征抽出装置抽出的字符图像的形状特征和构成关键字的字符的形状特征,检索符合检索条件的文书,所以具有能进行高速、且高精度的全文检索的效果。
如果采用本发明,则由于在索引的作成对象中包含两个以上的识别候选字符组合的连接字符,所以具有能进行高速、且高精度的全文检索的效果。
例如采用本发明,则由于在字符识别装置输出的各识别候选字符中,将准确度比基准准确度低的识别候选字符从索引的作成对象中除去,所以具有不会导致检索精度的劣化、能减少索引的容量的效果。
如果采用本发明,则由于即使在字符识别装置输出的识别候选字符的准确度比基准准确度低的情况下,在没有其准确度超过基准准确度的识别候选字符的与字符图像有关的识别候选字符时,索引的作成对象中包含该识别候选字符,同时对该识别候选字符附加与其他识别候选字符相区别的识别候选字符,所以在关键字和字符码不一致的检索中具有能只使用索引数据库进行检索的效果。
如果采用本发明,则由于将字符图像的形状特征存储在数据库中,同时将该字符图像的各识别候选字符和有可能构成字的字符的字符码存储在数据库中,所以具有能谋求提高检索精度的效果。
如果采用本发明,则由于考虑语言信息或字符种类,判断各识别候选字符和有可能构成字的字符,所以具有提高检索精度的效果。
如果采用本发明,则由于计算由特征抽出装置抽出的字符图像的形状特征和构成关键字的字符的形状特征的距离,该距离满足规定的基准时,认定符合检索条件,所以具有能定做形状特征词典的效果。
如果采用本发明,则由于设有设定由检索装置进行的形状特征对照处理的有无的设定装置,所以具有能考虑检索速度和检索精度的重要性,设定检索处理时的处理种类的优先度的效果。
如果采用本发明,则由于将包含与关键字一致的识别候选字符的文书从形状特征的对照对象中除去,所以具有能减少对照形状特征时无用的检索的效果。
如果采用本发明,则由于只在不存在与关键字一致的识别候选字符的情况下,对照由特征抽出装置抽出的字符图像的形状特征和构成关键字的字符的形状特征,所以具有能提高检索速度的效果。
如果采用本发明,则由于在特定关键字的形状特征的对照对象时,将附加了识别符号的识别候选字符作为通配符处理,所以具有能只用索引数据库进行检索的效果。
如果采用本发明,则由于考虑整个文书中出现两个以上的识别候选字符组合的连接字符的出现概率,判断索引的作成对象中是否包含该连接字符,所以具有能有效地削减索引的容量的效果。
如果采用本发明,则由于在构成连接字符的各识别候选字符是该字符图像的唯一的识别候选字符的情况下,对该连接字符的出现次数进行往上计数,更新出现概率,所以具有能降低不能检索重要的关键字的概率的效果。
如果采用本发明,则由于对与关键字一致的连接字符的出现次数进行往上计数,更新出现概率,所以具有能提高重要的字符的优先度、降低不能检索重要的字符的概率的效果。
如果采用本发明,则由于在修正了字符识别装置输出的识别候选字符的情况下,对包含修正后的识别候选字符的连接字符的出现次数进行往上计数,更新出现概率,所以具有能提高重要的字符的优先度、降低不能检索重要的字符的概率的效果。
如果采用本发明,则由于参照索引,检索与关键字一致的识别候选字符的文书,另一方面对照字符图像的形状特征和构成关键字的字符的形状特征,检索符合检索条件的文书,所以具有能进行高速且高精度的全文检索的效果。
Claims (15)
1.一种全文检索设备,备有:识别包含在输入文书的输入图像中的各字符图像并输出对各字符图像的一个以上的识别候选字符和显示各相应识别候选字符的准确度的字符识别装置;输出表示上述字符识别装置输出的上述识别候选字符的上述文书内的位置关系的索引的索引作成装置;作为上述文书的检索条件输入关键字的输入装置;以作为由上述输入装置输入的检索条件的上述关键字为基础,检索与上述检索条件相符的文书的检索装置;和输出从上述检索装置得到的检索结果的输出装置;其特征在于还具有:
在包含于上述输入图像中的各字符图像中,对于各个具有基准的准确度以下的识别候选字符的字符图像,分成多个区域,将从各区域的像素特征计算出的值,作为形状特征抽出的特征抽出装置;
上述检索装置,参照上述索引,检索与从上述输入装置输入作为检索条件的上述关键字一致的上述识别候选字符的文书,并对照由上述特征抽出装置抽出的上述字符图像的上述形状特征,和构成上述关键字的字符的形状特征,检索符合检索条件的上述文书。
2.根据权利要求1所述的全文检索设备,其特征在于:索引作成装置在索引的作成对象中包含组合了两个以上的识别候选字符的连接字符。
3.根据权利要求1所述的全文检索设备,其特征在于:索引作成装置在字符识别装置输出的各识别候选字符中,将准确度比基准准确度低的识别候选字符从索引的作成对象中除去。
4.根据权利要求3所述的全文检索设备,其特征在于:即使在字符识别装置输出的识别候选字符的准确度比基准准确度低的情况下,索引作成装置在没有其准确度超过基准准确度的识别候选字符的与字符图像有关的识别候选字符时,索引的作成对象中包含该识别候选字符,同时对该识别候选字符附加与其他识别候选字符相区别的识别记号。
5.根据权利要求1至权利要求4中的任意一项所述的全文检索设备,其特征在于:特征抽出装置将字符图像的形状特征存储在数据库中,同时将该字符图像的各识别候选字符和有可能构成单词的字符的字符码存储在数据库中。
6.根据权利要求1所述的全文检索设备,其特征在于:检索装置计算由特征抽出装置抽出的字符图像的形状特征和构成关键字的字符的形状特征的距离,该距离满足规定的基准时,认定符合检索条件。
7.根据权利要求1所述的全文检索设备,其特征在于:
检索装置对照由特征抽出装置抽出的字符图象的形状特征和构成作为由输入装置的检索条件的关键字的各字符的形状特征,而不执行检索与检索条件相符的文书的动作,
上述检索装置还设有设定参考索引,并执行只检索与作为检索条件的上述关键字一致的上述识别候选字符的文书的设定装置。
8.根据权利要求1所述的全文检索设备,其特征在于:检索装置将包含与关键字一致的识别候选字符的文书从形状特征的对照对象中除去。
9.根据权利要求1所述的全文检索设备,其特征在于:只在不存在与关键字一致的识别候选字符的情况下,检索装置对照由特征抽出装置抽出的字符图像的形状特征和构成关键字的字符的形状特征。
10.根据权利要求4所述的全文检索设备,其特征在于:在特定关键字的形状特征的对照对象时,检索装置将附加了识别符号的识别候选字符作为通配符处理。
11.根据权利要求2所述的全文检索设备,其特征在于:索引作成装置考虑整个文书中出现组合了两个以上的识别候选字符的连接字符的出现概率,判断索引的作成对象中是否包含该连接字符。
12.根据权利要求11所述的全文检索设备,其特征在于:
还具有出现概率更新装置,判断各构成连接字符的识别候选字符是否对于字符图象的唯一的识别候选字符,并在是唯一的上述识别候选字符时,将上述连接字符的出现次数计数,求出出现概率,并设定为新的出现概率。
13.根据权利要求11所述的全文检索设备,其特征在于:设有对与关键字一致的连接字符的出现次数进行往上计数并更新出现概率的出现概率更新装置。
14.根据权利要求11所述的全文检索设备,其特征在于:设有在修正了字符识别装置输出的识别候选字符的情况下,对包含修正后的识别候选字符的连接字符的出现次数进行往上计数并更新出现概率的出现概率更新装置。
15.一种全文检索方法,包括以下步骤:识别包含在输入文书的输入图像中的各字符图像并输出对各字符图像的一个以上的识别候选字符和显示各相应识别候选字符的准确度;输出表示输出的上述识别候选字符的在上述文书内的位置关系的索引;输入作为上述文书的检索条件的关键字;以作为输入的检索条件的上述关键字为基础,检索与上述检索条件相符的文书;和输出上述检索结果;其特征在于还具有:
在包含于上述输入图像中的各字符图像中,对于各个具有基准的准确度以下的识别候选字符的字符图像,分成多个区域,将从各区域的像素特征计算出的值,作为形状特征抽出的处理;
参照上述索引,检索与输入作为检索条件的上述关键字一致的上述识别候选字符的文书,并对照抽出的上述字符图像的上述形状特征,和构成上述关键字的字符的形状特征,检索符合检索条件的上述文书。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35477799A JP3803219B2 (ja) | 1999-12-14 | 1999-12-14 | 全文検索装置及び全文検索方法 |
JP354777/1999 | 1999-12-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1300026A CN1300026A (zh) | 2001-06-20 |
CN1118034C true CN1118034C (zh) | 2003-08-13 |
Family
ID=18439841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN00134962.7A Expired - Fee Related CN1118034C (zh) | 1999-12-14 | 2000-12-13 | 全文检索设备及全文检索方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP3803219B2 (zh) |
CN (1) | CN1118034C (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7996208B2 (en) * | 2004-09-30 | 2011-08-09 | Google Inc. | Methods and systems for selecting a language for text segmentation |
JP4470913B2 (ja) * | 2005-07-14 | 2010-06-02 | セイコーエプソン株式会社 | 文字列検索装置およびプログラム |
CN100424704C (zh) * | 2006-09-30 | 2008-10-08 | 华中科技大学 | 基于密文的全文检索系统 |
US20110106814A1 (en) * | 2008-10-14 | 2011-05-05 | Yohei Okato | Search device, search index creating device, and search system |
CN101477569B (zh) * | 2009-02-03 | 2011-02-02 | 传神联合(北京)信息技术有限公司 | 一种词典图片检索系统 |
JP5043074B2 (ja) * | 2009-07-30 | 2012-10-10 | 楽天株式会社 | インデックス生成方法 |
CN101866366B (zh) * | 2010-07-15 | 2012-01-18 | 哈尔滨工业大学 | 一种基于内容的图像格式中文文档检索方法 |
JP6545740B2 (ja) * | 2017-03-08 | 2019-07-17 | 株式会社東芝 | 生成装置、プログラム、認識システムおよび生成方法 |
CN107103075A (zh) * | 2017-04-24 | 2017-08-29 | 广东浪潮大数据研究有限公司 | 一种ftp文件的全文检索方法及装置 |
CN111291152A (zh) * | 2018-12-07 | 2020-06-16 | 北大方正集团有限公司 | 案例文书的推荐方法、装置、设备及存储介质 |
JP6780129B1 (ja) * | 2019-03-27 | 2020-11-04 | 三菱電機ビルテクノサービス株式会社 | 設備機器情報収集システム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2586372B2 (ja) * | 1993-01-22 | 1997-02-26 | 日本電気株式会社 | 情報検索装置及び情報検索方法 |
JP3405155B2 (ja) * | 1997-11-07 | 2003-05-12 | 松下電器産業株式会社 | 文書検索装置 |
JP3589007B2 (ja) * | 1998-02-18 | 2004-11-17 | 三菱電機株式会社 | 文書ファイリングシステムおよび文書ファイリング方法 |
-
1999
- 1999-12-14 JP JP35477799A patent/JP3803219B2/ja not_active Expired - Fee Related
-
2000
- 2000-12-13 CN CN00134962.7A patent/CN1118034C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001175661A (ja) | 2001-06-29 |
CN1300026A (zh) | 2001-06-20 |
JP3803219B2 (ja) | 2006-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1158627C (zh) | 用于字符识别的方法和装置 | |
CN1133127C (zh) | 文件检索系统 | |
CN1171162C (zh) | 基于字符分类检索字符串的装置和方法 | |
CN1118034C (zh) | 全文检索设备及全文检索方法 | |
CN1174332C (zh) | 转换表达方式的方法和装置 | |
CN1101032C (zh) | 相关词抽取设备和方法 | |
CN1288581C (zh) | 用缩减大小的索引进行文献检索的设备 | |
CN1109982C (zh) | 检索相关超文本文件的超文本文件检索装置 | |
CN1530926A (zh) | 语音识别词典制作装置及信息检索装置 | |
CN1215457C (zh) | 语句识别装置和方法 | |
CN1281191A (zh) | 信息检索方法和信息检索装置 | |
CN1728142A (zh) | 信息检索系统中的短语识别 | |
CN101030157A (zh) | 一种用户词库同步更新的方法和系统 | |
CN1728141A (zh) | 信息检索系统中基于短语的搜索 | |
CN1728140A (zh) | 信息检索系统中基于短语的索引编制 | |
CN1728143A (zh) | 基于短语产生文献说明 | |
CN1869992A (zh) | 人物检索装置、人物检索方法和入退场管理系统 | |
CN1217512A (zh) | 文件图象处理设备及其方法 | |
CN1215201A (zh) | 字符识别/修正方式 | |
CN1351310A (zh) | 联机文字识别装置、方法及程序和计算机可读存储介质 | |
CN1942877A (zh) | 信息提取系统 | |
CN1551017A (zh) | 图像检索装置、方法、程序及存储有该程序的存储介质 | |
CN1519753A (zh) | 程序、字符输入编辑方法、装置及记录媒体 | |
CN1156779C (zh) | 文献检索的方法和装置 | |
CN1786947A (zh) | 基于网页页面布局提取网页核心内容的系统、方法和程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20030813 Termination date: 20100113 |