CN1896997B - 字符串检索装置 - Google Patents

字符串检索装置 Download PDF

Info

Publication number
CN1896997B
CN1896997B CN2006101055257A CN200610105525A CN1896997B CN 1896997 B CN1896997 B CN 1896997B CN 2006101055257 A CN2006101055257 A CN 2006101055257A CN 200610105525 A CN200610105525 A CN 200610105525A CN 1896997 B CN1896997 B CN 1896997B
Authority
CN
China
Prior art keywords
literal
keyword
search window
window
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006101055257A
Other languages
English (en)
Other versions
CN1896997A (zh
Inventor
成泽敦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Publication of CN1896997A publication Critical patent/CN1896997A/zh
Application granted granted Critical
Publication of CN1896997B publication Critical patent/CN1896997B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

字符串检索装置,具备:文本存储单元,该单元存储表示包含了多个文字的文字串的文本数据;关键词输入单元,该单元输入关键词;文字抽出单元,该单元从包含在关键词中的文字中,抽出所定的数的文字作为判定对象文字;检索窗设定单元,该单元在文本存储单元存储的文本数据所示的文字串中设定包含比判定对象文字数多的文字的检索窗;以及关键词一致判定单元,该单元对由检索窗设定单元设定的检索窗中包含的文字,相应与判定对象文字进行比较的比较结果,判定检索窗是否包含关键词提供在规模比较小的、简易的结构中,即使在OCR的读取中有误识别时,也能根据抽出的文本信息,适当地检索字符串的字符串检索装置。

Description

字符串检索装置
技术领域
本发明涉及字符串检索装置及使计算机执行字符串检索方法的程序,特别涉及从用扫描器等文档读取装置获得的文本信息中抽出与关键词一致的语句的字符串检索装置及使计算机执行字符串检索方法的程序。
背景技术
现在,读取OCR(Optical Character Reader)等的印刷品、将该信息电子数据化的机器正在普及。这种电子数据,被作为图象数据生成。因此,在检索电子数据的文字时,需要进行文字识别图象数据的处理,抽出文本数据,作为透明数据或作为检索用数据嵌入图象数据中。
但是,文字识别的识别率,受到读取对象的图象的质量及读取状况等的影响。关于这一点,使用图9加以讲述。图9(a)是表示有污垢A的读取对象的图象的图形。图9(b)是表示用OCR读取图9(a)所示的图象时的文档的识别状态的图形。图9(c)是为了讲述在(b)所示的识别状态中产生的问题而绘制的图形。
图9(a)所示的图象,具有文档块904和文档块903,在各文档块中,有4行字符串。在这种图象中,如果在文档块904上有污垢A,OCR就往往如图9(b)所示的那样,将文档块904的1行作为别的行误识别。在图9(b)中所示的例子中,文档块904的第1行被识别为第1行和第5行,第2行被识别为第2行和第6行,第3行被识别为第4行和第7行。
发生行的误识别后,如图9(c)所示,在应该用箭头a表示的顺序识别本来的字符串的地方,有可能以用箭头b表示的顺序识别。这时,当然不能抽出正确的文本信息。因此,使用抽出的文本信息检索字符串时,就容易产生不能命中与关键词一致的字符串或者命中与关键词不同的字符串的问题。
作为提高字符串检索的精度的现有技术,例如可以列举专利文献1。专利文献1公布了如下技术:检索关键词包含的文字,抽出检索的结果获得的文字的位置。然后,根据该位置的信息,推定关键词位置,进而通过和文字图案对照等,进行检索。
【专利文献1】特开2001-337993号公报
可是,专利文献1的技术,为了关键词检索而需要的计算量比较大,不适合在软件执行资源有限的简易的机器中应用。就是说,从由N文字构成的文档中,使用m个文字抽出关键词文字时,需要m×N的计算量(假设几乎都没有命中)。
而且,在专利文献1的发明中,进而根据抽出的关键词文字,特定文字的区域,判定该区域有无关键词。因此,在文字数多的文档中,使用多个文字进行检索时,专利文献1的技术在特定文字区域的之前的处理中,用于计算的负荷已经很大。
发明内容
本发明就是针对这一点研制的,其目的在于提供在软件执行资源比较小的、简易的结构中,即使在OCR的读取中有误识别时,也能根据抽出的文本信息,适当地检索字符串,特别是没有漏检的字符串检索装置及使计算机执行字符串检索方法的程序。
为了解决上述课题,本发明的字符串检索装置,其特征在于,具备:文本存储单元,该文本存储单元存储表示包含了多个文字的文字串的文本数据;关键词输入单元,该单元输入关键词;文字抽出单元,该文字抽出单元从包含在所述关键词中的文字中,抽出所定的数的文字作为判定对象文字;检索窗设定单元,该检索窗设定单元在所述文本存储单元存储的文本数据所示的文字串中设定包含比判定对象文字数多的文字的检索窗;以及关键词一致判定单元,该单元对由所述检索窗设定单元设定的检索窗中包含的文字,相应与所述判定对象文字进行比较的比较结果,判定所述检索窗是否包含所述关键词。
采用这种发明后,因为按照由构成关键词的文字数以上的所定的数的文字构成的检索字符串判定关键词和文本数据的一致,所以即使在检索字符串中有不能够判读的地方,也能防止以该处为界,将检索字符串误识别为不连续的字符串,能够将检索字符串识别为连续的字符串。因此,在OCR的读取中,对字符串包含的文字有误识别时,也能根据抽出的文本信息,适当地检索字符串。
另外,本发明的字符串检索装置,其特征在于:还具有一览表存储单元,该一览表存储单元存储包含文字和表示与该文字对应的精确度的信息的精确度表,所述文字抽出单元,从包含在所述关键词中的文字中抽出所述一览表存储单元中存储的精确度表中所含的精确度满足事先确定的条件的文字,作为判定对象文字。
采用这种发明后,因为将构成关键词的文字中选出的一部分文字与检索字符串包含的文本数据进行对照,所以与例如将构成关键词的所有的文字和文本数据进行对照的结构相比,计算涉及的负荷变小,能够提供适合在软件执行资源比较小的、简易的机器中应用的字符串检索装置。
另外,因为将构成关键词的文字中的一部分文字与检索字符串包含的文本数据进行对照,判定关键词和文本数据的一致,所以即使检索字符串包含的文本数据的全体和关键词不一致时,也能够判定和关键词一致。因此,能够提供防止漏检的有效的字符串检索装置。
另外,本发明的字符串检索装置,其特征在于:还具有检索窗更新单元,该检索窗更新单元按照事先确定的算法更新所述检索窗。
采用这种发明后,能够从检索的对象中将正确识别的可能性低的文字除外。因此,能够减少发生关键词误检的可能性,还能减少关键词检索的计算量
另外,本发明的字符串检索装置,其特征在于:所述算法是将更新前的检索窗的前端文字的下一文字作为更新后的检索窗的前端文字。
采用这种发明后,文本数据的各文字被多次检索,能够在减少漏检的同时,提高检索的可靠性。
另外,本发明的字符串检索装置,其特征在于:所述算法是将自更新前的检索窗的前端文字起隔开所定文字数的文字作为更新后的检索窗的前端文字。
采用这种发明后,减少文本数据的各文字的检索次数,在使检索有效化的同时,还能缩短检索时间。
另外,本发明的字符串检索装置,其特征在于:所述算法是使位于更新前的检索窗的前端文字与更新后的检索窗的前端文字之间的文字都与所述判定对象文字不一致。
采用这种发明后,能够适当判定为了生成检索字符串的文字的抽出范围,进而能够毫无遗漏地抽出检索文字。
另外,本发明的字符串检索装置,其特征在于:所述检索窗设定单元,使用所述文本数据中的文字大小和文本数据所示的文字的描画位置中的至少一方,决定用于检索窗生成的文字的抽出范围。
另外,本发明的字符串检索装置,其特征在于:所述检索窗设定单元,根据以下公式决定所述检索窗的文字数,其中:window_size表示所述检索窗的文字数;keychar_idx表示所述关键词中一致判定对象文字的位置;keychar_num表示所述一致判定对象文字的文字数;margin表示文字数的冗余量。
window_size=(keychar_idx[keychar_num-1]+margin)
-(keychar_idx[0]-margin)+1
另外,使计算机执行字符串检索方法的程序,其特征在于,是使计算机执行从涉及文字的文本数据中,抽出由字符串构成的关键词的字符串检索方法的程序,具备:在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串的字符串生成步骤;抽出输入的关键词的文字中的一部分,只将抽出的文字与在所述字符串生成步骤中生成的检索字符串进行对照,判定关键词和文本数据的一致的关键词一致判定步骤。
采用这种发明后,因为按照构成关键词的文字数以上的所定的数的文字组成的检索字符串判定关键词和文本数据的一致,所以在检索字符串中存在不能判读的部位时,也能防止以该部位为界将检索字符串误识别为不连续的字符串,能够将检索字符串识别成1串字符串。因此,在OCR的读取中出现对被字符串包含的文字的误识别时,也能根据抽出的文本信息适当检索字符串。
另外,由于将关键词的一部分文字和被检索字符串包含的文本数据对照,所以与例如将构成关键词的文字都和文本数据对照的结构相比,能够减少涉及计算的负荷,能够提供使计算机执行适合于软件执行资源规模较小的简易的结构的字符串检索方法的程序。
附图说明
图1是为了讲述本发明的一种实施方式的字符串检索装置而绘制的功能方框图。
图2是为了讲述图1所示的检索窗设定部生成检索字符串的情况而绘制的图形。
图3是为了讲述使计算机执行本实施方式的字符串检索方法的程序而绘制的流程图。
图4是为了讲述图3所示的选出检索文字组的处理而绘制的流程图。
图5是为了讲述图3所示的决定文字窗长的处理而绘制的流程图。
图6是为了讲述图3所示的检索窗设定的处理而绘制的流程图。
图7是为了讲述图3所示的检索匹配判定的处理而绘制的流程图。
图8是为了讲述图3所示的窗口移位的处理而绘制的流程图。
图9是为了讲述文字识别的识别率受到读取对象的图象质量及读取的状况等的影响而绘制的说明图。
具体实施方式
下面,参照附图,讲述本发明涉及的字符串检索装置及使计算机执行字符串检索方法的程序的实施方式。
图1是为了讲述本发明的一种实施方式的字符串检索装置而绘制的功能方框图。在本实施方式中,在作为电子书等利用的电子文档的放映器(也记作“电子纸”)中,应用字符串检索装置。
另外,在本实施方式中,从被OCR等读取的文档的图象数据中,抽出文本信息后,暂时保存到卡媒体108等中。而且,将保存的文本信息读入电子纸并且显示。然后,用户将关键词输入电子纸,能够检索、抽出和输入电子纸的关键词一致的字符串。
图1所示的字符串检索装置,是从涉及文字的文本数据中,抽出由字符串构成的关键词的字符串检索装置。字符串检索装置,由下述部件构成:输入关键词的输入装置101;将输入的关键词和文本数据对照,判定关键词和文本数据的一致的字符串检索部100;显示字符串检索部100的检索结果的检索结果显示部106构成。此外,在电子纸中应用字符串检索装置的本实施方式中,将检索结果显示部106作为由记忆性液晶构成的显示器组成。
字符串检索部100,按照由构成关键词的文字数以上的所定数的文字构成的各检索字符串,判定关键词与文本数据的一致。另外,检索处理部104,在该判定中,将构成关键词的文字中的一部分文字,与检索字符串中包含的文本数据进行对照。
另外,字符串检索部100,具备检索窗设定部103和检索处理部104。检索窗设定部103,为了以检索字符串为单位,对一致判定对象文字与文本数据是否一致进行判定,而在文本数据中,每次按照所定的数目抽出连续的文字,生成检索字符串;检索处理部104,判定(检索)一致判定对象文字与检索字符串中包含的文本数据是否一致。并且,字符串检索部100,还具备直到检索结果显示部106显示检索结果为止,暂时保存检索结果的检索结果保持部105。
检索结果,作为与检索文字相一致(命中)的文本数据的显示位置而获得。文本数据的显示位置,例如使命中的文本数据与其它的文本数据在检索结果显示部106中的显示颜色不同等方法显示。
另外,本实施方式的字符串检索部100,具备作为文字选出单元发挥作用的对象文字选出部102,由对象文字选出部102选出在文本数据与关键词的一致判定中所使用的文字。在本实施方式中,如前所述,由OCR等读取文字的图象,生成文本数据。因此,对象文字选出部102根据在文字读取时适当地识别文字的概率(识别准确度),决定在判定中使用的文字(一致判定对象文字)。
为了实现这种结构,在本实施方式中,表示文字的识别准确度的数据——文字识别准确度表107,保存在电子纸中,对象文字选出部102参照文字识别准确度表107,判定关键词的识别准确度。然后,只使用关键词中识别准确度为所定的临界值以上的一致判定对象文字,检索与关键词一致的字符串。
图2是为了讲述检索窗设定部103生成检索字符串而绘制的图形。在图2的示例中,从包含“我国的专利为先申请制”的文字的文本数据中,检索关键词“专利”的文字。在本实施方式中,关键词“专利”中,只将“专”作为一致判定对象文字,没有将“利”作为一致判定对象文字。
这时,检索窗判定部103,作为冗余量,给关键词“专利”附加一个文字的量,将检索字符串的文字数设定成3个文字。在本实施方式中,将这种设定记作“窗口设定”。
另外,如图2(a)~(h)所示,检索窗设定部103将作为检索文字而抽出的文字,在文本数据中,以连续的顺序,错开一个文字,依次设定窗口。此外,具体的说,窗口设定是指在电子纸具备的存储器中,设定只记忆检索字符串的文字数的文字的区域,将该区域记忆的文字错开一个字地从图中的左方向右方进行的文字变更。此外,文本数据是竖排版时,窗口设定则将存储器的区域记忆的文字错开一个字地从上向下地进行文字变更。
在图2的示例中,一致判定对象文字——“专”的文字,被(b)所示的检索字符串包含。详细的说,对于检索候补文字“专”的一个文字而言,检索窗中的命中文字数是1(100%的关键词文字命中),所以得出关键词“专利”命中的结论,这时检索处理部104,将“专”的文字位置作为命中位置,存入、记忆到检索结果保持部105中。接着,检索窗判定部103,如(c)所示,设定窗口。这时也因为检索字符串包含“专”的文字,所以检索处理部104将“专”的文字的位置作为命中位置,存入检索结果保持部105中。但因为先前已经在该位置保存了,所以实际上并不进行保存处理。
进而,检索窗判定部103,如(d)所示,设定窗口。这时也因为检索字符串包含“专”的文字,所以检索处理部104将“专”的文字的位置作为命中位置,存入检索结果保持部105中。可是,同样因为先前已经在该位置保存了,所以实际上并不进行保存处理。然后,如(e)所示,设定了窗口时,因为检索字符串不包含一致判定对象文字,所以检索处理部104不进行命中检出。
另外,有更多的一致判定对象文字时,还可以在判定命中了的文字的种类是所定数以上时,判定为关键词命中。
如图2所示,各错开一个文字设定检索窗时,本实施方式使出现尽管有一致判定对象文字却不能作为命中检出、即所谓漏检的可能性变低。
另外,本实施方式并不局限于各错开一个文字来设定检索窗的结构。例如,作为检索字符串抽出的文字,既可以在文本数据中以连续的顺序而且各错开所定的数,也可以当在5个字的检索窗中只命中字符串的最后的2个文字,且因检索对象文字是4文字而在该窗口设定中没能检索命中时,可以将下一个窗口设定(窗口错开)前进3个文字,来实现窗口的高速移动。这样,本实施方式能够减少为了检索而进行的计算量,进一步减少涉及检索处理的资源的负荷,进而能够使用软件资源小型的装置进行文字检索。
图3是为了讲述以上介绍的本实施方式的使计算机执行字符串检索方法的程序而绘制的流程图。在该程序中,首先,操作人员使用输入装置101,输入需要检索的关键词(S301)。对象文字选出部102参照文字识别准确度表107,从关键词中选出检索使用的文字组(S302)。
接着,检索窗设定部103在包含选出的文字组的关键词的文字数中,添加冗余量等后,决定文字窗长(S303)。然后,将决定文字窗长与文本数据32加以对照,读入文字窗长的文字,设定检索窗(S304)。
检索处理部104,以设定检索窗为单位,进行检索匹配判定(S305)。然后,每当对一个窗口而言的检索匹配判定结束时,判定对所有的文档的检索匹配判定是否结束(S306)。判定的结果,对所有的文档的检索匹配判定尚未结束时(S306:No),在步骤S304中,移动设定的窗口(S308),再度设定检索窗(S304)。
另外,对所有的文档的检索匹配判定结束时(S306:Yes),输出检索结果,结束处理(S307)。
图4是为了讲述图3所示的步骤S302的选出检索文字组的处理而绘制的流程图。在选出检索文字组的处理中,对象文字选出部102将输入的关键词的文字数设定成kwd_num(S401)。在图2的示例中,因为关键词是“专利”,所以kwd_num被设定成2。
接着,对象文字选出部102,作为处理开始的设定,编制变量i=0(S402);作为变量Keychar_num=0(S403),进而编制排列Keychar_idx(S404)。然后,从文字识别准确度表107中求出关键词中第i个文字的识别准确度,与预先设定的识别准确度的临界值进行比较。
然后,判断识别准确度是否在临界值以上(S405),在临界值以下(S405:No)时,将i增加1(S408)。加1后的i小于Keychar_num时(S409:Yes),再次将第i个文字的识别准确度与临界值进行比较。另外kwd_num不大于i时(S409:No),结束处理。
另一方面,在步骤(S405)中,判断第i个文字的识别准确度在临界值以上时(S405:Yes),将i设定成排列Keychar_idx(S406)。接着,将Keychar_num增加1后(S407),将i增加1(S408)。
在这种处理中,如果关键词——“专利”的“专”这个字的识别准确度是临界值(例如80%)以上,“利”这个字的识别准确度是临界值以下,那么在步骤S405中,首先判断“专”这个字的识别准确度是临界值以上。因此,设定成被编制的排列Keychar_idx[0]=0、Keychar_num为1。进而,i被设定成1,因1小于kwd_num的2,进而比较“利”这个字的识别准确度与临界值。
在下面的处理中,因为“利”这个字的识别准确度是临界值以下,所以只有i被增加1而成为2。然后,由于2不小于kwd_num,所以结束处理。此外,识别准确度是临界值以上的文字——“专”,是本实施方式中的一致判定对象文字。另外,识别准确度是临界值以下的文字——“利”,是本实施方式中的一致判定对象外文字。
图5是为了讲述图3的步骤303所示的文字窗长决定的处理而绘制的流程图。检索窗设定部103,首先将文字宽度冗余量设定成变量margin(S501)。此外,文字宽度冗余量,既可以预先被检索窗设定部103设定,也可以由用户任意设定。
进而,检索窗设定部103利用步骤S502所示的运算式,设定被关键词文字数相加的冗余量,决定成为检索窗的文字数(Window_size)(S502)。
在这里,以将图2所示的“专利”作为关键词时为例,讲述决定Window_size的步骤。在该例中,将文字宽度冗余量固定成1。根据图4的流程图,Keychar_num是1。另外,由于关键词“专利”中的“专”的位置是0,所以Keychar_idx[0]是0。利用步骤S502所示的运算式计算该值后,可以得到以下结果。
Window_size=(Keychar_idx[Keychar_num-1]+margin)
-(Keychar_idx[0]-margin)+1
=(0+1)-(0-1)+1=3
图6是为了讲述图3的步骤304所示的检索窗设定的处理而绘制的流程图。检索窗设定部103,在作为工作区域等动作的未图示的存储器上,编制Window_size量的文字数的记忆区域(Window排列)(S601)。然后,从成为检索对象的文档的文本信息的前头行开始,依次抽出Window_size量的文字数(S602)。此外,所谓“Window排列”,相当于本实施方式中所说的检索窗。
接着,检索窗设定部103判定读入Window排列的文字数,是否达到Window_size量的文字数(S603)。该判断结果为读入的文字数达到Window_size量的文字数时(S603:No),将读入Window排列的文字数作为变量serched_token_size(S607)。
另一方面,在步骤S603中,判断读入Window排列的文字数小于Window_size量的文字数时(S603:Yes),检索是否存在成为检索候补的下一行(S604)。然后,在有成为检索候补的下一行时(S605:Yes),从下一行的前头起,依次将文字读入Window排列(S606)。另外,没有下一行时(S605:No),将读入Window排列的文字数作为变量serched_token_size(S607)。
图7是为了讲述图3的步骤305所示的检索匹配判定的处理而绘制的流程图。检索处理部104,为了进行检索匹配判定,首先设定成变量char_match_num=0(S701)、变量i=0(S702)、变量j=0(S703)。此外,char_match_num,是表示判定文档中的文字和一致判定对象文字一致的次数的变量。
接着,检索处理部104判断读入Window排列的文字(Window排列要素)中,第j+1行的文字与第Keychar_idx[i]+1行的文字是否一致(S704)。两者一致时(S704:Yes),暂时保存一致的文字在文本数据中的位置(S705)。然后,将char_match_num增加1(S706)。
接着,检索处理部104,将i增加1(S709),并判断增加1后的i是否达到Keychar_num、即是否达到一致判定对象文字的数量(S710)。判断的结果,j的值小于读入Window排列的文字数时(S710:Yes),将j的值再次设定成0(S703),调查第j+1个文字与第Keychar_idx[i]+1行的文字是否一致(S704)。
另外,在步骤S701中,判断j的值达到读入Window排列的文字数时(S710:No),求出用char_match_num/Keychar_num表示的一致的概率。然后,得到0.8以上的概率时(S711:Yes),作为该检索窗与关键词匹配,将变量match设定成1(S712)。进而,统一保存暂时保存的文本的位置(S713)。这时,在与已经保存的文本位置重复时,不必保存。
另外,在步骤S711的运算中,没有得到0.8以上的概率时(S711:No),作为检索窗不与关键词匹配,将变量match设定成0(S713)。
图8是为了讲述图3的步骤308所示的窗口移动的处理而绘制的流程图。经过图7所示的处理,结束一个检索窗的匹配判定后,检索处理部104如图2所示,使检索窗移动一个文字的量后,判定关键词与文档的一致。因此,检索处理部104首先清除读入Window排列的文字(S801)。
接着,在作为现在检索的对象的行中,检索处理部104变更设定,以便能够从上次读入Window排列的文字的检索窗的前头文字的下一个文字开始,抽出Window_size量的文字(S802)。将抽出的文字,读入Window排列(S803)。然后,判定读入的文字数,是否达到Window_size量的文字数(S804)。该判断结果为读入的文字数达到Window_size量的文字数时(S804:No),将读入Window排列的文字数作为变量serched_token_size(S808)。
另外,判断读入的文字数小于Window_size量的文字数时(S804:Yes),检索是否存在充当下一行的文字组(S806)。然后,在有下一行时从下一行的前头起,将文字读入Window排列的空闲区域(S401:Yes)。另外,没有下一行时将读入Window排列的文字数作为变量serched_token_size(S808)。
在步骤S802中,为上次读入Window排列的文字的检索窗的前头文字的下一个文字。但考虑到上次的检索结果·特别是不一致的文字的位置,Window排列的前头文字位置计算可以跳过它们后进行。就是说,上次的Window的状态,是图2的(a)时,可以跳过用窗口设定的文字没有命中关键词文字的文字后,进行将下一个窗口设定作为(d)那样的计算。采用上述计算后,初始状态是(b)时,也同样可以将下一个窗口状态作为(d)。
另外,在步骤S805中,寻找下一行的候补之际,作为继图9(b)第1行之后的行的候补,可以进行除了第2行外,还包含第5行的处理。这样,如图9所示,可以进行难以依存于起因于读取失真及污垢错误产生的区域识别错误的检索,提高命中率。例如,如果文档数据中包含文本行的位置信息,则在从左向右看的语言体系的横排版文档时的下一行候补,可以将位于行位置的下位置的第2行和位于右位置的第5行作为候补。
进而,本实施方式,在以上讲述的处理的基础上,检索窗设定部103还能够使用文本数据中的文字的尺寸、和描绘文本数据表示的文字的位置中的至少一个,决定为了生成检索字符串的文字的抽出范围。
就是说,考虑到文字尺寸后,就根据文字的尺寸和行距,判断图9所示的第1行和第5行的间隔是否是1、2文字左右。而且,是1、2文字左右时,作为下一行候补,采用第5行。另外,和下一行的间隔是2行以上时,可以判断该行是被其它的段落包含的行。
这种处理,是根据段落等文档的区块与区块之间,通常空开区块内的1行以上的间隔后描绘的情况进行的。就是说,在1、2行左右的间隔不存在文字时,在本实施方式中,认为该间隔不是文档的区块的分割,而是受到污垢等的影响而不能进行文字识别的结果。
综上所述,本实施方式由于能够使窗口的范围内包含关键词以上的文字,所以能够将因为区域误识别而遗漏的文字及被污垢A遮盖的文字,进而本来是一个文字却被OCR等误识别为多个文字的文字,也作为检索的对象。此外,关键词中附加的文字数,最好可以按照扫描器的能力及OCR的能力变更。
另外,考虑到文字描绘的位置时,例如可以将多行中的行端的文字的描绘开始或者结束的位置齐全的范围,看作文档的1个区块。这种处理,是根据区块开始行大多将首行缩进的情况进行的。

Claims (8)

1.一种字符串检索装置,其特征在于,具备:
文本存储单元,该文本存储单元存储表示包含了多个文字的文字串的文本数据;
关键词输入单元,该单元输入关键词;
文字抽出单元,该文字抽出单元从包含在所述关键词中的文字中,抽出所定的数的文字作为判定对象文字;
检索窗设定单元,该检索窗设定单元在所述文本存储单元存储的文本数据所示的文字串中设定包含比判定对象文字数多的文字的检索窗;以及
关键词一致判定单元,该关键词一致判定单元对由所述检索窗设定单元设定的检索窗中包含的文字,相应与所述判定对象文字进行比较的比较结果,判定所述检索窗是否包含所述关键词。
2.如权利要求1所述的字符串检索装置,其特征在于:还具有一览表存储单元,该一览表存储单元存储包含文字和表示与该文字对应的精确度的信息的精确度表,
所述文字抽出单元,从包含在所述关键词中的文字中抽出所述一览表存储单元中存储的精确度表中所含的精确度满足事先确定的条件的文字,作为判定对象文字。
3.如权利要求1所述的字符串检索装置,其特征在于:还具有检索窗更新单元,该检索窗更新单元按照事先确定的算法更新所述检索窗。
4.如权利要求3所述的字符串检索装置,其特征在于:所述算法是将更新前的检索窗的前端文字的下一文字作为更新后的检索窗的前端文字。
5.如权利要求3所述的字符串检索装置,其特征在于:所述算法是将自更新前的检索窗的前端文字起隔开所定文字数的文字作为更新后的检索窗的前端文字。
6.如权利要求3所述的字符串检索装置,其特征在于:所述算法是使位于更新前的检索窗的前端文字与更新后的检索窗的前端文字之间的文字都与所述判定对象文字不一致。
7.如权利要求1所述的字符串检索装置,其特征在于:所述检索窗设定单元,使用所述文本数据中的文字大小和文本数据所示的文字的描画位置中的至少一方,决定用于检索窗生成的文字的抽出范围。
8.如权利要求1所述的字符串检索装置,其特征在于:所述检索窗设定单元,根据公式
window_size=(keychar-idx[keychar_num-1]+margin)
-(keychar_idx[0]-margin)+1
决定所述检索窗的文字数,
其中:
window_size表示所述检索窗的文字数;
keychar_idx表示所述关键词中一致判定对象文字的位置;
keychar_num表示所述一致判定对象文字的文字数;
margin表示文字数的冗余量。
CN2006101055257A 2005-07-14 2006-07-14 字符串检索装置 Expired - Fee Related CN1896997B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2005-205810 2005-07-14
JP2005205810 2005-07-14
JP2005205810 2005-07-14
JP2006162376 2006-06-12
JP2006-162376 2006-06-12
JP2006162376A JP4470913B2 (ja) 2005-07-14 2006-06-12 文字列検索装置およびプログラム

Publications (2)

Publication Number Publication Date
CN1896997A CN1896997A (zh) 2007-01-17
CN1896997B true CN1896997B (zh) 2010-05-26

Family

ID=37662845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101055257A Expired - Fee Related CN1896997B (zh) 2005-07-14 2006-07-14 字符串检索装置

Country Status (3)

Country Link
US (1) US7756872B2 (zh)
JP (1) JP4470913B2 (zh)
CN (1) CN1896997B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7383882B2 (ja) * 2019-01-22 2023-11-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
JP7264240B2 (ja) * 2019-04-19 2023-04-25 日本電気株式会社 順序同型照合装置、順序同型照合方法、及び、プログラム
CN110414450A (zh) * 2019-07-31 2019-11-05 北京字节跳动网络技术有限公司 关键词检测方法、装置、存储介质及电子设备
US20230229683A1 (en) * 2020-07-22 2023-07-20 Showa Denko K.K. Document search device, document search system, document search program, and document search method
US20230359653A1 (en) * 2020-09-16 2023-11-09 Showa Denko K.K. Document retrieval device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1271131A (zh) * 1999-04-19 2000-10-25 三菱电机株式会社 文件编排装置
CN1300026A (zh) * 1999-12-14 2001-06-20 三菱电机株式会社 全文检索设备及全文检索方法
CN1589444A (zh) * 2001-11-14 2005-03-02 Jam株式会社 信息搜索支持系统,计算机程序和程序存储媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5051947A (en) * 1985-12-10 1991-09-24 Trw Inc. High-speed single-pass textual search processor for locating exact and inexact matches of a search pattern in a textual stream
JPH04104367A (ja) 1990-08-23 1992-04-06 Mitsubishi Electric Corp ファイルシステム
JP3400151B2 (ja) * 1994-12-08 2003-04-28 株式会社東芝 文字列領域抽出装置および方法
US5819261A (en) * 1995-03-28 1998-10-06 Canon Kabushiki Kaisha Method and apparatus for extracting a keyword from scheduling data using the keyword for searching the schedule data file
US6035268A (en) * 1996-08-22 2000-03-07 Lernout & Hauspie Speech Products N.V. Method and apparatus for breaking words in a stream of text
US6671404B1 (en) * 1997-02-14 2003-12-30 Hewlett-Packard Development Company, L.P. Method and apparatus for recognizing patterns
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6272456B1 (en) * 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
JP3917349B2 (ja) 2000-05-30 2007-05-23 富士通株式会社 文字認識結果を利用して情報を検索する検索装置および方法
US7003516B2 (en) * 2002-07-03 2006-02-21 Word Data Corp. Text representation and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1271131A (zh) * 1999-04-19 2000-10-25 三菱电机株式会社 文件编排装置
CN1300026A (zh) * 1999-12-14 2001-06-20 三菱电机株式会社 全文检索设备及全文检索方法
CN1589444A (zh) * 2001-11-14 2005-03-02 Jam株式会社 信息搜索支持系统,计算机程序和程序存储媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开2001-337993A 2001.12.07
JP特开2004-206521A 2004.07.22
JP特开2005-100246A 2005.04.14

Also Published As

Publication number Publication date
US7756872B2 (en) 2010-07-13
JP2007048272A (ja) 2007-02-22
CN1896997A (zh) 2007-01-17
JP4470913B2 (ja) 2010-06-02
US20070016567A1 (en) 2007-01-18

Similar Documents

Publication Publication Date Title
US8555155B2 (en) Reader mode presentation of web content
CN102890783B (zh) 识别图像块中文字的方向的方法和装置
CN102763104A (zh) 信息处理装置、信息处理方法、记录了信息处理程序的记录介质
CN101356541A (zh) 帐票处理程序以及帐票处理装置
CN1896997B (zh) 字符串检索装置
JP6737151B2 (ja) 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム
CN102141979B (zh) 文档图像生成装置、文档图像生成方法
RU2605078C2 (ru) Сегментация изображения для верификации данных
US9047533B2 (en) Parsing tables by probabilistic modeling of perceptual cues
JP2008021068A (ja) 帳票認識装置及び帳票認識プログラム
CN114036909A (zh) Pdf文档跨页表格合并方法、装置及相关设备
US20130322759A1 (en) Method and device for identifying font
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
KR101889007B1 (ko) 객체 속성을 이용한 도면관리 방법 및 도면관리 시스템
US20150253942A1 (en) Grasping contents of electronic documents
CN113205046A (zh) 题册识别方法、系统、装置及介质
CN113536874A (zh) 表格识别方法、模型训练方法、装置及设备
CN110378566B (zh) 信息核对方法、设备、存储介质及装置
EP2787448A1 (en) Method and device for determining font
CN103377187A (zh) 段落分割方法、装置以及程序
CN112541505B (zh) 文本识别方法、装置以及计算机可读存储介质
CN113139547B (zh) 文本识别方法、装置、电子设备及存储介质
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
US20090110280A1 (en) Image recognition apparatus, image recognition program, and image recognition method
JP5752073B2 (ja) データ修正装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20170714

CF01 Termination of patent right due to non-payment of annual fee