CN101493896A

CN101493896A - 文档图像处理装置及文档图像处理方法

Info

Publication number: CN101493896A
Application number: CN 200810000249
Authority: CN
Inventors: 窦建军; 乐宁; 吴波; 吴亚栋
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-01-24
Filing date: 2008-01-24
Publication date: 2009-07-29
Anticipated expiration: 2028-01-24
Also published as: CN101493896B; JP4772817B2; JP2009176264A

Abstract

抽取出文档图像中字符数为M的字符串，将其1个字符1个字符地分割，抽出各字符图像的图像特征，根据该图像特征，利用以1个字符为单位储存字符图像的图像特征的字形特征字典15，按照匹配度从高到低的顺序选择N个(N＞1的整数)字符图像作为候选字符，创建抽取出的字符串的字符数M×N维的第1索引矩阵。从创建的第1索引矩阵作成字符组合，根据基于概念词典的意义解析，抽出主题词。抽出的主题词按照基于规定的权重信息、统计信息决定的顺序进行一览显示。

Description

文档图像处理装置及文档图像处理方法

技术领域

本发明涉及将文档作为图像输入并存储的文档图像处理装置及文档图像处理方法，尤其涉及显示所存储的文档图像中包含的主题词的文档图像处理装置及文档图像处理方法。

背景技术

将文档用图像扫描仪等图像输入装置变换成图像以电子文档的形态存储，而后能进行检索的文档存档装置已得到实用化。与这样的文档存档装置相关的技术公开在中国发明专利申请公开号CN1402854A、中国发明专利申请公开号CN1535430A及中国发明申请专利公开号CN1851713A中。

对作为图像数据读取的文档图像进行检索，必须进行将用于检索的信息手动地赋予各文档图像的作业，非常费功夫。

另外，也提出了这样的装置：它对文档图像的字符区域(文本区域)进行定位，进行OCR(Optical Character Reader)字符识别，使得用文本内容进行全文检索成为可能。作为利用了OCR字符识别的现有技术，例如有日本特开平7-152774。

然而，OCR字符识别存在需要大量计算、花费时间的问题。还有，字符识别率也不高，故有可能发生误识别而不能检索，检索精度有问题。

另一方面，日本特开平10-74250公报中公开了不用OCR字符识别就能自动全文检索的技术。

上述公报的构成中预先准备根据图像特征将字符按类似字符分类为类似字符部类的部类词典。然后，在登记文档图像时，抽出图像特征而不对文本区域(字符区域)的各字符进行字符识别，根据图像特征分类至字符部类，将按各字符一个一个识别的部类列(串)与输入图像一并存储。进行检索时，将检索关键词的各字符转换为对应的部类，作为检索结果取出其一部分中包含经变换的部类列的文档图像。

上述公报中记载，作为上述构成的效果，可提供这样一种文档存档系统，在文档登记时能以较少的计算机功率高速地进行登记处理，并在检索时可实现遗漏少的检索。

中国发明专利申请公开号CN1339756中公开了一种文档图像的检索及分类装置，在对文档图像进行检索时执行检索结果的分类。该方法及装置所需检索时间过长，且没有主题词一览显示功能。

中国发明专利申请公开号CN1535433中公开了一种基于使文档产生关联的知识库，提供主题词一览表的技术。然而，该主题词一览表是从全文档中抽出的，故生成一览表需要很多时间和存储容量。

发明内容

本发明的目的在于，提供这样一种文档图像处理装置及文档图像处理方法，其能够显示文档图像中包含的主题词。

本发明是一种文档图像处理装置，其特征在于，具有：

字形特征字典，以1个字符为单位储存有字符图像的图像特征；

字符串抽出部，以由多个字符组成的字符串为单位抽取出输入的文档图像中的字符图像；

图像特征抽出部，将所述字符串抽出部所抽取出的字符串的字符图像1个字符1个字符地分割，抽出各字符图像的图像特征；

特征匹配部，基于所述图像特征抽出部抽出的字符图像的图像特征，利用所述字形特征字典，按照图像特征匹配度从高到低的顺序选择N个(N＞1的整数)字符图像作为候选字符，设所述字符串的字符数为M个(M＞1的整数)，创建M×N维的第1索引矩阵；

索引信息储存部，将由所述特征匹配部所创建的第1索引矩阵与所述输入的文档图像付与对应关系而储存；

字符组合作成部，将储存在所述索引信息储存部的第1索引矩阵中包含的候选字符多个组合，作成字符组合；

主题词抽出部，从由所述字符组合作成部作成的字符组合，抽出有意义的字符组合即主题词；

显示顺序决定部，决定由所述主题词抽出部抽出的主题词的显示顺序；

句子作成部，可从第1索引矩阵中抽取第一列的候选字符作成句子，表示本索引矩阵所对应标题的意义；

一览显示部，在规定的主题词显示区域中，以由所述显示顺序决定部决定的显示顺序将主题词一览显示。也可同时显示句子作成部作成的句子。

根据本发明，图像特征抽出部将在字符串抽出部定位、抽取出的文档图像中的字符串的图像1个字符1个字符地分割，抽出各字符图像的图像特征。特征匹配部根据该图像特征，利用以1个字符为单位储存字符图像的图像特征的字形特征字典，按照匹配度从高到低的顺序选择N个(N＞1的整数)字符图像作为候选字符，创建抽取出的字符串的字符数M×N维的第1索引矩阵。

创建的第1索引矩阵在索引信息储存部被付与与所述输入的文档图像的对应关系而储存。

字符组合作成部中，将储存在所述索引信息储存部的第1索引矩阵中包含的候选字符多个组合，作成字符组合，主题词抽出部对作成的字符组合用概念词典进行意义解析，抽出有意义的字符组合即主题词。

显示顺序决定部决定由所述主题词抽出部抽出的主题词的显示顺序，然后，一览显示部在规定的主题词显示区域中以决定的显示顺序将主题词一览显示。

由此，能够不用麻烦用户动手且不用OCR识别，就能够自动定位文档图像字符区域中的字符串，以定位的字符串的图像特征生成文档图像的索引信息。

而且，由于是抽出各字符图像的图像特征，选择多个图像特征相似的候选字符，因此通过适当设定选择的候选字符数，就不会像OCR那样在字符识别上花时间。

另外，字形特征字典是全部以单个字符的字符图像的图像特征为单位作成的，特征匹配部将抽取出的字符串的图像分割为单个字符的字符图像进行图像特征的匹配，故生成的索引矩阵的精度高。

由于从索引矩阵抽出的主题词成为表示文档图像的指标，因此通过一览显示主题词，用户能高效地了解文档内容的概略。

另外，本发明的特征在于，所述主题词抽出部对抽出的主题词设定基于意义解析的权重，

所述显示顺序决定部根据由所述主题词抽出部设定的基于意义解析的权重，决定主题词的显示顺序。

根据本发明，所述主题词抽出部对抽出的主题词设定基于意义解析的权重，所述显示顺序决定部根据由所述主题词抽出部设定的基于意义解析的权重，决定主题词的显示顺序。

由此，可将构成意义程度高的主题词等显示于上部，因此用户能高效地了解文档内容的概略。

另外，本发明的特征在于，所述显示顺序决定部，算出所作成的字符组合中主题词的统计信息，根据所算出的统计信息决定主题词的显示顺序。

根据本发明，所述显示顺序决定部，算出所作成的字符组合中主题词的统计信息，根据所算出的统计信息决定主题词的显示顺序。

由此，可将出现权重高的主题词等显示于上部，因此用户能高效地了解文档内容的概略。这里，权重综合了频度、主题词的意义、特征匹配度等信息。

另外，本发明的特征在于，具有：

选择部，从一览显示的主题词中选择一个主题词；

提示单元，提示与包含所述选择部选择的主题词的索引矩阵对应的文档图像。

根据本发明，选择部从一览显示的主题词中选择一个主题词后，提示单元就会提示与包含所选主题词的索引矩阵对应的文档图像。

由此，用户能即刻地了解所希望的内容的文档图像。

另外，本发明的特征在于，所述文档图像处理装置还具有检索部，在检索时，该检索部以构成输入的检索式中的检索关键词的1个检索字符为单位检索所述索引信息储存部，取出具有包含检索字符的第1索引矩阵的文档图像。

根据本发明，在检索时，检索部以构成输入的检索式中的检索关键词的1个检索字符为单位检索所述索引信息储存部，取出具有包含检索字符的索引矩阵的文档图像。

这样，通过以构成检索关键词的检索字符单位分析索引矩阵，检测出包含检索字符的索引矩阵，可通过单个字符检索确保全面检索。

另外，主题词被一览显示，故还可参考显示的主题词，输入检索关键词。

另外，本发明是这样一种文档图像处理方法，其特征在于，具有：

字符串抽出步骤，以由多个字符组成的字符串为单位，抽出输入的文档图像中的字符图像；

图像特征抽出步骤，将在所述字符串抽出步骤抽出的字符串的字符图像1个字符1个字符地分割，抽出各字符图像的图像特征；

特征匹配步骤，基于在所述图像特征抽出步骤抽出的字符图像的图像特征，从以1个字符为单位储存有字符图像的图像特征的字形特征字典，按照图像特征匹配度从高到低的顺序选择N个(N＞1的整数)字符图像作为候选字符，设所述字符串的字符数为M个(M＞1的整数)，创建M×N维的第1索引矩阵；

索引信息储存步骤，将在所述特征匹配步骤所创建的第1索引矩阵与所述输入的文档图像付与对应关系而储存；

字符组合作成步骤，将在所述索引信息储存步骤储存的第1索引矩阵中包含的候选字符多个组合，作成字符组合；

主题词抽出步骤，从在所述字符组合作成步骤作成的字符组合，抽出有意义的字符组合即主题词；

显示顺序决定步骤，决定由所述主题词抽出步骤抽出的主题词的显示顺序；

句子作成步骤，可从第1索引矩阵中抽取第一列的候选字符作成句子，表示本索引矩阵所对应标题的意义；

一览显示步骤，在规定的主题词显示区域，以由所述显示顺序决定步骤决定的显示顺序将主题词一览显示。也可同时显示句子作成步骤作成的句子。

根据本发明，在图像特征抽出步骤将在字符串抽出步骤定位、抽取出的文档图像中的字符串的图像1个字符1个字符地分割，抽出各字符图像的图像特征。并在特征匹配步骤，根据该图像特征，利用以1个字符为单位储存字符图像的图像特征的字形特征字典，按照匹配度从高到低的顺序选择N个(N＞1的整数)字符图像作为候选字符，创建所抽取出的字符串的字符数M×N维的第1索引矩阵。

使所创建的第1索引矩阵在索引信息储存步骤与所述输入的文档图像对应并予以储存。

在字符组合作成步骤，将在所述索引信息储存步骤所储存的第1索引矩阵中包含的候选字符多个组合，作成字符组合，在主题词抽出步骤，对所作成的字符组合，用概念词典进行意义解析，抽出有意义的字符组合即主题词。

在显示顺序决定步骤决定所抽出的主题词的显示顺序后，在一览显示步骤，在规定的主题词显示区域中，以所决定的显示顺序将主题词一览显示。

由此，不用麻烦用户动手且不用OCR识别就能够自动定位文档图像字符区域中的字符串，以所定位的字符串的图像特征生成文档图像的索引信息。

而且，由于是抽出各字符图像的图像特征，选择多个图像特征相似的候选字符，因此通过适当地设定选择的候选字符数，不会像OCR那样在字符识别上费时间。

另外，字形特征字典是全部以单个字符的字符图像的图像特征为单位作成的，在特征匹配步骤将所抽取出的字符串的图像分割为单个字符的字符图像、进行图像特征的匹配，故生成的索引矩阵的精度高。

附图说明

图1是文档图像处理装置10的构成的示意性框图。

图2是详细地示出文档图像处理装置10的构成的框图。

图3示出字体正规化处理部12制作字形样本DB13的处理。

图4是字符图像外围特征的说明图。

图5是网格方向特征的说明图。

图6示出由字符图像特征抽出部14制作字形特征字典15的处理。

图7示出了对文档图像50，作为标题区域定位了T1、T2、T3的3区域的情形。

图8示出制作索引信息DB17的处理。

图9示出由特征匹配部16创建索引矩阵的处理的一例。

图10示出用词汇解析法进行调整的具体例，该例中，调整所创建的索引矩阵，使第1列字符串成为有意义的字符串。

图11示出Bi-gram模型中使用的词典300的构成例。

图12示出用Bi-gram模型调整索引矩阵的方法的流程图。

图13是示出主题词的抽出处理及一览显示处理的说明图。

图14示出从索引矩阵抽出主题词的处理的流程图。

图15示出概念词典中所含的树型结构的例。

图16是示出类分类处理的流程图。

图17显示一览显示了主题词的显示画面例。

图18是示出检索部22的功能和检索处理的说明图。

图19是显示检索部22的检索程序的流程图。

图20是示出计算索引矩阵和检索关键词之间相关度的方法的说明图。

图21是用具体例示出索引矩阵和检索关键词之间相关度的算出的说明图。

图22示出带词汇解析功能的检索处理的说明图。

图23是示出文档图像管理部的处理的说明图。

图24示出的是文档图像显示部53上显示的、储存在文档图像DB19中的文档图像的阅览画面的一例。

图25是示出用N-gram模型调整索引矩阵的方法的流程图。

具体实施方式

本发明的目的、特色及优点从下述详细说明及附图变得进一步明确。

以下参照附图详细地说明本发明的优选实施方式。

图1是文档图像处理装置10的构成的示意性框图。文档图像处理装置10具有处理器4、以及储存用于使处理器4进行实际的处理的软件等的外部存储装置5。

处理器4实际进行以下处理：文档图像特征抽出处理，从文档图像抽出成为检索要点的标题区域；索引信息生成处理，生成使对文档图像的检索成为可能的索引信息；利用索引信息的检索处理；以及利用索引信息作成后述的有意义的文档名、管理文档图像的文档图像管理处理等。

处理器4的实际处理由储存在外部存储装置5中的软件来执行。处理器4例如由通常的计算机本体等构成。本实施方式中，处理器4也执行字形特征字典制作处理，该处理制作索引信息生成处理中所用的后述的字形特征字典15。

外部存储装置5例如可由能够进行高速访问的硬盘等构成。为了大量地保持文档图像，外部存储装置5也可是采用光盘等大容量设备的构成。后述的字形特征字典15、索引信息DB(数据库)17、文档图像DB19、字形样本DB13等在外部存储装置5上构成。

文档图像处理装置10上连接有键盘1并连接有显示装置3。键盘1用于输入检索关键词。另外，键盘1也用于在阅览文档图像时输入指令。还有，键盘1也用于后述的候选字符数、相关值、及行的相关度加权因数Q等的设定值变更。显示装置3输出文档图像等进行显示。显示于显示装置3的内容中包含相关度信息及图像名称等信息。

文档图像处理装置10上还连接有图像扫描仪2或数码摄像机6。图像扫描仪2或数码摄像机6用于取得文档图像。文档图像的取得不限于通过使用图像扫描仪2或数码摄像机6的途径，也可通过网络等进行通讯而取得。另外，也可用图像扫描仪2或数码摄像机6输入检索关键词。

图1是详细地示出文档图像处理装置10的构成的框图。文档图像处理装置10具有字符数据库输入部(字符DB输入部)11、字体正规化处理部12、字形样本DB13、字符图像特征抽出部(图像特征抽出部)14、字形特征字典15、特征匹配部16、索引信息DB17、标题区域初始处理部18、文档图像DB19、文档图像特征数据库(文档图像特征DB)20、文档图像输入部21、检索部22、词汇解析部23、关键词输入部24、检索结果显示部25、文档名创建部51、文档图像DB管理部52、文档图像显示部53和指令输入部54。

其中，由字符DB输入部11、字体正规化处理部12、字形样本DB13、字符图像特征抽出部14、字形特征字典15构成实施上述字形特征字典制作处理的字形特征字典生成部30。

首先，对构成字形特征字典生成部30的字符DB输入部11、字体正规化处理部12、字形样本DB13、字符图像特征抽出部14、字形特征字典15进行说明。

字符DB输入部11用于输入制作字形特征字典15所必需的、基本的字符数据库。例如，若本装置是汉语对应的装置，则输入中华人民共和国国标GB2312的全部6763个字符等。又，若本装置是日语对应的装置，则输入日本工业标准JIS第一水准的约3000个字种等。也就是说，这里所说的字符，也包含符号。这样的字符DB输入部11在处理器4上构成，字符数据库通过记录媒介，或者由通过网络的数据通信等提供。

字体正规化处理部12对通过字符DB输入部输入的字符数据库中包含的所有字符，制作不同字体及大小的字符图像。不同字体及大小的字符图像储存于字形样本DB13中。

图3示出字体正规化处理部12制作字形样本DB13的处理。若本装置是汉语对应的装置，则字体正规化处理部12具备例如宋体、仿宋体、黑体、楷体等的字形样本DB12a。又，若本装置是日语对应的装置，则具备明朝体、Gothic体等的字形样本。

字体正规化处理部12上的变形处理部12b将字符数据库的字符进行图像化，并对字符图像进行标准化处理。接下来，变形处理部12b参照字形样本DB12a，对经过标准化处理的字符图像实施变形处理，进一步得到不同字体及大小的字符图像。变形处理中有暧昧化处理、扩大·缩小化处理、微细化处理等。字体基准部12c将经过这样变形处理的字符图像作为标准字符图像储存于字形样本DB13中。

字形样本DB13中，对字符数据库的所有字符，即便是同一字符，也按每一由字体、尺寸大小所决定的字形储存有标准字符图像。举例来说，即便是同一字符种“中”，也存在选定字体数的形状不同的标准字符图像的“中”，另外，还储存有选定的尺寸数目的大小不同的标准字符图像的“中”。

字符图像特征抽出部14还抽出字符图像的特征(图像特征)，储存于字形特征字典15中。本实施方式中，字符图像特征抽出部14通过字符图像外围特征与网格方向的组合来抽出字符图像的特征，设为特征矢量。不过，字符图像的特征不限于此，也可抽出其他特征、形成特征矢量。

这里，对字符图像外围特征及网格方向特征进行说明。图4是字符图像外围特征的说明图。字符图像外围特征指的是从字符图像的外部看到的轮廓的特征。如图4中所示，从字符图像的外接矩形的4条边起扫描，以到从白像素变化至黑像素的点之间的距离为特征，取出最初变化的位置和第二次变化的位置。

例如，在将外接矩形分割为X行Y列的情况下，以行为单位分别从左方向和右方向扫描图像，以列为单位分别从上方向和下方向扫描。又，图4是以行为单位从左扫描的图。

另外，图4中，实线箭头A显示直至最初从白像素变化至黑像素的点为止的扫描轨迹。虚线箭头B显示直至第二次从白像素变化至黑像素的点为止的扫描轨迹。实线箭头C显示直至最后也没能检测出从白像素变化至黑像素的点的扫描轨迹，这样的没有变化点的情况下，距离值为零。

图5是网格方向特征的说明图。将字符图像分割成粗网格，对各格子区域内的黑像素，向预先确定的多个方向延伸触手。然后，对在各个方向上连接的黑像素的像素数进行计数，并将表示该黑像素按各方向成分的分布状况的方向影响度，作为识别函数采用欧几里德距离，并利用与黑像素数之差相应的值，对距离值进行除法运算，而计算出距离值。

图5(a)中，将字符图像分割为4×4的16个格子，且以在X轴方向上最接近于格子交点的从黑像素变化为白像素的点为中心，向X轴方向(0°)、45°方向、Y轴方向(90°)的3个方向伸展触手。

本实施例中，将字符图像分割为8×8的4角的网格，如图5(b)中所示，向0°、45°、90°、135°、180°、225°、270°、315°的8个方向伸展触手。

另外，作为网格方向特征的抽出方法，有按触手的伸展方向、放置伸展触手的中心点的方法等各种手法，例如，记载在日本特开2000-181994号公报等中。

字符图像特征抽出部14对储存于字形样本DB13中的标准字符图像的全部进行这样的字符图像特征的提取。并且，字符图像特征抽出部14将储存于字形样本DB13中的标准字符图像的抽出结果储存于字形特征字典15，生成字形特征字典15。

图6示出字符图像特征抽出部14制作字形特征字典15的处理。字符图像特征抽出部14中的字形标准化部14a从字形样本DB13抽出标准字符图像，字符图像特征取出部14b对字形标准化部14a取出的标准字符图像提取出其特征。接着，特征分类部14c参照字形样本DB13，将从各个标准字符图像中提取出的特征进行分类，储存在字形特征字典15中。

在字符图像特征取出部14b中，如上所述，对每一单个字符，求出因加权而不同的标准字符图像特征的适宜值，得到标准字符图像的标准特征。

字符图像特征取出部14b可通过对不同字体字号进行加权来制作不同的字形特征字典。通过融合多字体的图像特征，以单个字符图像特征为单位制作字形特征字典，能满足多字体·字号文档图像的自动索引和管理。

接下来，对构成实施文档图像特征抽出处理的文档图像特征抽出部31的文档图像DB19、文档图像特征DB20、标题区域初始处理部18、字符图像特征抽出部14进行说明。

文档图像DB19在有文档图像从文档图像输入部21输入时，会添上用于识别的文档ID加以保存。

新的文档图像保存至文档图像DB19后，标题区域初始处理部18就会通过其图像数据对文档图像中的标题区域进行定位并抽出，将字符图像送往前述字符图像特征抽出部14。

图7示出了对文档图像50，作为标题区域定位了T1、T2、T3的3区域的情形。从图7还可看出，将文档图像50中的标题部分作为标题区域T抽出。

在标题区域初始处理部18抽出、送往字符图像特征抽出部14的字符图像通常是包含多个字符的字符串的图像。因此，从这里开始，以从标题区域初始处理部18送出的字符图像为字符串的图像，进行说明。

本实施方式中，标题区域初始处理部18通过投影法和连通区域统计分析法进行标题区域T的定位和抽出。这样的标题区域T主要是标题部分，例如，可用日本特开平9-319747号公报、日本特开平8-153110号公报等中所记载的方法等以往的种种手法进行定位和抽出。

由于不是以文档图像的全部字符区域(文本区域)为对象，而是如上所述仅对标题区域T进行定位和抽出，故可减少成为检索对象的信息量，缩短检索时间。

但是，不对全部文本区域定位而仅对标题区域T定位这一点，就检索而言不是必须的构成要素，也可对全文文本区域定位而抽出。但是，就后述的有意义文档名的作成而言，仅对标题区域T定位是必须的构成要素。

字符图像特征抽出部14将由标题区域初始处理部18输入的字符串的图像分割为1字符的字符图像后，与制作字形特征字典15时同样，抽出各字符图像的特征。抽出的特征按各文档图像储存在文档图像特征DB20中。

文档图像特征DB20中，标题区域初始处理部18抽出的标题区域T中所含的字符串的图像的特征信息以构成字符串的各字符的各自特征(特征矢量)的形式储存。

如图7中所示，对于1个文档图像50，抽出的所有标题区域T1、T2、T3...中包含的字符串的字符图像的特征，即构成字符串的各字符的字符图像的特征，与文档图像50的文档ID一起储存。

接下来，对构成实施索引信息制作处理的索引信息生成部32的字符图像特征抽出部14、字形特征字典15、特征匹配部16、索引信息DB17、文档图像特征DB20进行说明。

字符图像特征抽出部14、字形特征字典15、文档图像特征DB20的功能如同已经说明的那样。

特征匹配部16根据文档图像特征DB20，读出文档图像的标题区域T中所含的字符图像的特征，根据该读出的特征，参照字形特征字典15，如后述那样创建索引矩阵，生成文档图像的索引信息。

这里，对一个文档图像，生成1个索引信息，索引信息中所含的索引矩阵，则对每一个标题区域T创建。因此，当1个文档图像内存在多个标题区域T时，该文档图像的索引信息中就包含多个索引矩阵。

图8示出制作索引信息DB17的处理。如上所述，当一文档图像被输入并储存至文档图像DB19中后，字符图像特征取出部14b就会抽出各标题区域T中所包含的字符串的字符图像的特征，储存于文档图像特征DB20中。

特征匹配部16根据文档图像特征DB20，读出各标题区域T中所包含的字符串的图像的特征，对每一单个字符与字形特征字典15内的标准字符图像进行匹配，创建标题区域T的各索引矩阵。

然后，特征匹配部16在这些索引矩阵中加入作为该文档图像其它信息的文档ID、该文档图像在文档图像DB19内的保存位置的信息等，作为索引信息储存于索引信息DB17内。

图9中示出由特征匹配部16创建索引矩阵的处理的一例。图9是说明图，说明对于图7标题区域T 3中所包含的字符串“去神仙居住的地方”这8个字符图像，创建索引矩阵的情景。

字符串“去神仙居住的地方”被分割成单字符图像，为“去”、“神”、“仙”、“居”、“住”、“的”、“地”、“方”。将这样的字符串的图像1个字符1个字符地分割的图像的处理可利用已有的分割方法。

对“去”、...、“方”的8个字符，按照排列顺序，付以1～8的号码，1付与“去”、2付与“神”、...、8付与“方”。该号码相当于索引矩阵的行号。

对这样的8个字符图像的全部，实施如图9中附图标记X所示的处理，从文档图像特征DB20取出储存的字符图像“去”的特征(S1)，参照字形特征字典15，按特征从近到远(匹配度从高到低)的顺序，选择N个候选字符(S2)。

对按匹配度从高到低的顺序抽出的N个候选字符给予与抽出顺序对应的号码，其相当于索引矩阵的列号。并且，与该列号对应，设定字符相关值，字符相关值表示检索关键词中所包含的各检索字符与候选字符两者之间的匹配度。

图9中，符号100所示的数据表显示字符串“去神仙居住的地方”的索引矩阵的内容。例如，对第5个字符“住”的字符图像，在行号5的行中从匹配度高的第1列起依次抽出了“任”、“佳”、“住”、...、“仁”的候选字符。在数据表100中，例如，候选字符“去”在索引矩阵内的位置为“1，1”，候选字符“屑”的位置为“4，2”，候选字符“仁”的位置为“5，N”。

另外，图9的表100中，为了帮助理解，对与字符串的各字符对应的候选字符加上○予以显示。

这样的索引矩阵的行数M由标题区域初始处理部18作为标题区域T而抽出的字符串的图像的字符数决定。又，列数N由对于1个字符而选出的候选字符数决定。因而，根据本发明，可通过改变索引矩阵的维度数(列数)，柔软地设定索引矩阵内的要素数，即候选字符数量。因此，进行文档图像检索时，可进行正确且几乎没有遗漏的检索。

在索引矩阵中，使选择的候选字符生成信息的方法可根据检索关键词的输入方法适当地设定。例如，假如是从键盘1输入检索关键词的构成，则以字符代码等信息储存候选字符，以便能对从键盘输入的检索关键词实施检索。

又，假如是用图像扫描仪2等以图像数据输入检索关键词的构成，则可以抽出检索关键词的特征(矢量特征)，以特征(矢量特征)的信息储存候选字符，以便能对各矢量比对。

回到图7，说明索引信息DB17中索引信息的数据配置例。存在多个标题区域T1、T2、T3、...、Tn的文档图像50的索引信息中，线形地配置针对多个标题区域T1、T2、T3、...、Tn而创建的索引矩阵。图7的例中，文档ID配置在最前面，接着是多个索引矩阵，最后配置保存位置的信息。这里，5×N是索引矩阵的尺寸大小，表明是5行N列。

通过将索引信息设成这样的数据配置，可迅速定位文档图像DB19内文档图像的储存位置和文档图像中标题区域T的位置，在检索结果的显示中使用。

另外，根据实际的要求，也可在索引信息中追加文档图像的其它属性。

本发明中，还对索引矩阵100用语言模型进行词汇解析，对构成候选字符串的各候选字符进行调整，使其成为有意义的候选字符串。

更具体地说，特征匹配部16基于所创建的索引矩阵100，创建一个候选字符串，该候选字符串是将位于该索引矩阵中第1列的各行的候选字符按顺序相连而成。然后，对构成该候选字符串的由连续的各行的候选字符构成的词的语义进行解析，调整各行第1列的候选字符，使得候选字符串有意义。

图10是示出一个利用词汇解析法进行调整的具体例的说明图，该例中，调整所创建的索引矩阵使得第1列的字符串成为有意义的字符串。

显示于图10上部的由调整前的索引矩阵100作成的候选字符串为“去神仙居任酌地方”，没有意义。

作为有意义的文档名而利用的候选字符串，其主语、陈述语、及目的语的连接词关系等在语义上必须是正确的。因此，利用词汇解析，将其变换成有意义的候选字符串。具体例中，对多个错误的候选字符，使用概念词典，分析多个错误候选字符和候选文本的其它词语之间的意义信息，将候选字符串修正为有意义的字符串。可将此有意义字符串作为句子，即“去神仙居住的地方”，进行一览显示。

这样的词汇解析中使用的语言模型61只要能提供所有的以汉字开始的活字的统计数据即可。也就是说，根据该语言模型61的主概念，能在技术上确立自动索引系统，可得到关于中文报纸(例如“People’s Daily(人民日报)”)的文稿的统计数据。

本实施方式中，作为语言模型使用Bi-gram模型(bigram model)。Bi-gram模型为2个字符、2个音节、或2个单词的组，作为文本的简单统计分析的基础非常普遍地被使用。

图11示出Bi-gram模型中使用的词典数据300的构成例。

词典数据的第1列301显示2个字组合中的第1个字符。第2列302为与第1个字符一起构成字符组合的字符数目。第3列303表示与第1个字符一起构成字符组合的字符，第4列304为构成字符组合的次数。再有，第5列305为字符组合的汉语的字符数。这里，因为使用Bi-gram模型，所以字符数均为2。

在候选字符串的调整中，根据马尔可夫过程，使用字符的推移及混合的几率等主要是单词内的上下文信息，进行Viterbi-style检索。

使用如上所述的中文词典的Help，自动地调整索引矩阵，全部的最适候选调整至第1行中。

基于仅由各字符的匹配度决定的索引矩阵100，首先，对第1列的字符串用前后检索式Bi-gram模型进行调整，由此可提高匹配的候选的正确性及高效性。

为了进一步提高其正确性，对字符串的一部分用基于单词的Bi-gram模型进行调整。这样做的话，处理速度会降低，但可得到高的正确性。

以下以索引矩阵100为例详细说明调整方法。

利用基于字符的Bi-gram模型，首先根据第2行和第3行之间的关系，以第2行的第2候选“神”替换“伸”，作为第1候选。又，根据第4行和第5行之间的关系，以第5行的第3候选“住”替换“任”，作为第1候选。

再用基于字符组合的Bi-gram模型进行调整，由“神仙”及“居住”的字符组合的属性及它们的关联性，以第6行的第2候选“的”替换“酌”，调整为第1候选。

经过这样调整的索引矩阵200的第1列中所含的候选字符串，变为“去神仙居住的地方”，成为有意义的字符串。另外，可通过特征匹配部16将这样的调整后的索引矩阵200储存在索引信息DB17中。

图12示出用Bi-gram模型调整索引矩阵的方法的流程图。

在步骤S1，判断是否到达了索引矩阵的最后一行。如果没有到达，则进至步骤S2，如果已到达，则进至步骤S5。

在步骤S2，取出现在所看到的行(即，第1次处理时为第1行)的第1候选。在步骤S3，应用Bi-gram模型，对现在所看到的行的第1候选和与其相邻的行的各候选的字符组合在词典内的出现频度统计地进行计数。

在步骤S4，将计数值与预先决定的阈值进行比较，将计数值超过阈值者置为第1候选。

在步骤S5，从最初的行起分析所决定的第1候选的连接关系，决定字符组合。在步骤S6，决定所决定的字符组合间的第1候选。

在步骤S7，判断现在所看到的第1候选字符串中的字符集合是否与词典数据的语义规则一致。如果一致的话，则进至步骤S8，结束处理，得到经过调整的索引矩阵。如果不一致，则进至步骤S9，调整不一致的行的第1候选，回到S6。

本发明中，利用这样得到的索引矩阵，抽出主题词，显示抽出的主题词的一览表。

以下，对主题词的抽出处理及一览显示进行说明。

图13是示出主题词的抽出处理及一览显示处理的说明图。

字符组合作成部40参照存储在索引信息DB17中的索引矩阵，从索引矩阵中所含的相邻行的各候选字符中取出多个字符，作成字符组合。

主题词抽出部41对作成的字符组合用概念词典44进行意义解析，抽出有意义的字符组合即主题词。

显示顺序决定部42根据对抽出的主题词所设定的权重信息决定显示顺序，一览显示部43在规定的主题词显示区域中，以决定的显示顺序对主题词进行一览显示。

·主题词的抽出

对于主题词的抽出，以抽出由汉字2个字符构成的主题词的例子进行说明，但不限于2个字符，用同样的处理方法也能抽出3个字符以上的主题词。

首先，从索引矩阵中所含的各候选字符中取出2个字符作成2字符的字符组合。如前所述，索引矩阵中，对于各字符图像，存在N个候选字符，抽出主题词时，考虑到处理速度等，对第1列～第M列(M＜N)列的M个候选字符进行抽出。

从1列中包含的字符串作成2个字符的字符组合时，由于字符组合仅从上下相邻的2个字符作成，在图10所示的索引矩阵中，由于字符串的字符数为8，故可作成7个字符组合。

图10所示的例中，由于每列由8个字符构成，故上下连续的2字符的组合，即2个字符的字符组合为7个。例如，第1行的“去”和第2行的“神”组成2字符的字符组合“去神”，第2行的“神”和第3行的“仙”组成2字符的字符组合“神仙”，第3行的“仙”...，不断重复，最终，字符组合的数目为7个。

仅从1列中包含的字符串作成字符组合时，由于列数为M，故作成7×M个字符组合。

构成字符组合的2个字符分别从不同的列取出时，从第1列取出第1个字符，第2个字符从第M-1列取出，因此，会制作成7×(M-1)个字符组合。第1个字符从第2列取出时作成的字符组合数也一样，重复上述操作直至第1个字符从第M列取出，作成的字符组合的总和为(7×(M-1))×M个。

从以上描述中可以知道，仅从1个列作成的字符组合和从不同的列作成的字符组合的总和为7×M+(7×(M-1))×M个。对作成的所有字符组合用概念词典进行意义解析，可抽出有意义的字符组合即主题词。

通过用概念词典进行意义解析，表示作为解析对象字符组合具有意义程度的匹配度会就一个一个字符组合决定下来，根据所决定的匹配度，设定权重(匹配权重)，并从作成的字符组合中抽出主题词。

对于抽出的主题词，进一步地，成为一览显示时的指标的字符组合的属性得到确定，每一属性的权重(属性权重)也得到确定。具体地，抽出的主题词确定属于名词、动词、形容词等中的哪一个属性。属性权重在主题词是名词时设定为W_Noun，主题词是动词时设定为W_Verb。

对抽出的各个主题词，分别设定综合权重信息，该综合权重信息是将匹配权重和属性权重相乘所得。

图14示出从索引矩阵抽出主题词的处理的流程图。

在步骤S11，从1个索引矩阵作成字符组合。字符组合是取出上下连续的2个以上的字符而作成的。

在步骤S12，对作成的所有字符组合进行利用概念词典的意义解析，决定每个字符组合的匹配度。另外，根据匹配度对每个字符组合设定匹配权重。

在步骤S13，根据匹配度决定主题词并抽出。

在步骤S14，对抽出的主题词，决定属性并设定与属性对应的属性权重。

另外，由于存在同一主题词分别从不同的列取出而作成的可能性，因此对各列设定权重，对主题词，对应取出各字符的列，算出权重。

设对各列设定的权重为WCol₁、WCol₂、...、WCol_M(WCol₁＞WCol₂＞...＞WCol_M)。抽出的主题词的权重Wi作为将第1字符的权重与第2字符的权重相乘的值而算出。在前述例的“神仙”的情况中，“神”及“仙”两者皆为第1列的字符，因此，主题词“神仙”的权重W_i＝WCol₁×WCol₁。这里，i是从1个文档图像作成的索引矩阵的数量(标题数)。例如，假如从1个文档图像作成了L个索引矩阵，则1个文档图像中主题词的权重WDoc_k是每一个索引矩阵的权重的总和，由WDoc_k＝W₁+W₂+W₃+...+W_L算出。

理想地，在如上所述地对所有的索引矩阵进行主题词的抽出以后，将抽出的多个主题词分类，汇总为相互具有意义相关性的主题词的集合即类(class)。

该类是通过使用概念词典决定主题词之间的词汇联系并根据词汇联系汇总关联性强的主题词而生成的。还从所生成的类内所包含的主题词中决定成为代表的主题词。成为代表的主题词的决定，例如可比较前述的WDoc_k，将WDoc_k最大的主题词作为代表决定。

各主题词之间的词汇联系，可如以下地决定。

词汇联系的决定时，算出被抽出的各主题词之间意义的类似度。为了算出2个主题词之间的类似度，利用意义解析中字符组合间的距离。

对2个主题词W1和W2，将W1和W2的字符组合的类似性定义为Sim(W1，W2)，将W1和W2的字符组合的距离定义为Dis(W1，W2)。此时，类似性Sim(W1，W2)用字符组合间距离Dis(W1，W2)，以Sim(W1，W2)＝α/(α+Dis(W1，W2)的算式算出。这里，α是可适当调整的参数，设主题词W1和W2为0.5时，则α是表示这2个字符组合W1、W2的距离的值，本实施方式中，设定为α＝1.6。

概念词典中，所有的概念由1个或多个树型结构构成。树型结构中，字符组合(主题词)构成1个节点，1个树型结构中连接2个节点间的路径仅有1个路径。将该路径的长度作为字符组合间的距离Dis(W1，W2)使用。

图15示出概念词典中所含的树型结构的例。例中所示的树型结构中，连接2个节点W1和W2的路径是由虚线所表的路径，距离为4。将其代入上述算式，以类似度Sim(W1，W2)＝1.6/(1.6+4)＝0.286算出。

根据这样算出的类似度Sim(W1，W2)，决定词汇联系，可将关联性强的主题词汇总在1个类中。

详细地，从抽出的主题词中选择总计权重TF最大的主题词，选择成为基准的主题词(基准语)。这里，总计权重TF指的是，在由多个文档图像组成的图像库中，将前述主题词的权重WDoc_k，对每个主题词合计算出的权重。

根据概念词典的树型结构，决定被选择的基准语和其他主题词之间的距离，并将预先决定的参数α、和决定的距离代入上述计算式算出类似度。

根据算出的类似度，生成词汇联系，汇总至类。

可从第1索引矩阵中抽取第一列候选字符作成的有意义字符串作为句子，表示本索引矩阵所对应标题的意义。

图16是示出类分类处理的流程图。

设n个的主题词为Sw₁、Sw₂、...、Sw_n，算出的类似度为S₁₂、S₁₃、...、S_(n-1)n。又，类似度S_ij表示主题词Sw_i与主题词Sw_j之间的类似度。

首先在步骤A1，将算出的类似度S_ij与第1阈值Th1比较，如果是阈值Th1或以上的类似度，则在步骤A2将主题词Sw₁设为单一的类。重复该处理，对所有的类似度进行阈值处理，得到M个单一类的主题词(步骤A3)。

在步骤A4，判断是否M＝n，如果是M＝n则在步骤A5将所有n个主题词分类为单一的类。

如果不是M＝n则进至步骤A6，从所有类似度中检测最小的类似度S_ij。在步骤A7，将成为最小类似度的2个主题词Sw_i与Sw_j作为1个类C_ij分类。

在步骤A8，从除去最小类似度S_ij的余下的类似度中检测出最大的类似度S_km。

在步骤A9，将((S_ki+S_kj)/S_km)与第2阈值Th2比较，如果是阈值Th2或以下，则在步骤A10将主题词Sw_k分类至类C_ij。在步骤A11，判断是否还有应分类的主题词。如有则返回步骤A6，对未经分类剩余的主题词重复进行处理。如没有剩余则说明所有的主题词已被分类，结束分类处理。

这样创建多个包含关联性强的主题词的类。进一步在所创建的类内，将权重WDoc_k最大的主题词作为代表决定。

如以上，进行主题词的抽出、汇总至类的处理，对每一个主题词，生成所属类、所属索引矩阵、所属文档图像、所属库等信息建立了关联的数据结构。库指的是，由一系列文档图像组成的文档图像群。

·主题词的一览显示

接下来，对抽出的主题词的一览显示进行说明。

从抽出的所有的主题词中，汇总同一的主题词，使其与数据结构关联。这里的数据结构，包含所属的文档图像、权重信息、所属的索引矩阵、索引矩阵的文档图像中的位置信息(标题的位置信息)。

关于权重信息，含某1个主题词的文档图像有k个时，该主题词的权重信息F，由F＝WDoc₁+WDoc₂+...+WDoc_k算出。这个权重信息F，由于是基于该主题词出现的次数的统计权重，故以下称为统计权重信息。

根据该统计权重信息、以及根据意义解析而设定的前述综合权重信息，决定主题词的显示顺序。

根据被决定的显示顺序，在显示图像的预先决定的主题词显示区域中一览显示主题词。

图17显示一览显示了主题词的显示画面例。图中所示的画面例中，在本发明文档图像处理程序执行时的窗口W的上部中央附近，设置付与了“Subject Words”字符的主题词显示区域SA，根据所决定的显示顺序，在该区域SA内显示主题词。

至于一览显示的主题词，可以是显示从整个库中抽出的所有主题词，也可以是显示仅从1个文档图像抽出的所有主题词。另外，可以显示抽出的所有主题词，也可以做成仅显示各类的代表的主题词。

又，可构成为，在主题词显示区域中不能显示所有的主题词时，在主题词显示区域内滚动，按照显示顺序依次显示。

也可是用户从这样地一览显示的主题词中选择任意的一个，由此提示包含有该主题词的文档图像。

也可同时显示句子作成步骤作成的句子。

将库中包含的所有主题词一览显示于主题词显示区域，一旦用户从该显示区域选择1个主题词，则依规定的顺序提示包含有被选择的主题词的文档图像。提示文档图像的顺序可以是参照对每个文档图像算出的WDoc_k，按照WDoc_k从大到小的顺序显示。

主题词、包含其的文档图像、及权重WDoc_k是被付与了相关关系的，可通过参照被存储的数据结构即刻取得。

这样，通过从库、文档图像抽出主题词并将其一览显示，用户可高效地了解库、文档图像中包含的文档的内容的概略，从而可以在进行后述的检索处理时对关键词输入起辅助作用，或者在关键词输入前预先缩小检索范围。

接下来，对实施利用索引信息的检索处理的检索部22进行说明。图18是示出检索部22的功能和检索处理的说明图。检索部22包括索引矩阵检索处理部22a、字符相关值保存部(保存部)22b、相关度算出部22c、显示顺序决定部(顺序决定部)22d、及文档图像抽出部22e。

从关键词输入部24输入检索关键词至索引矩阵检索处理部22a中。作为关键词输入部24，为前述键盘1或图像扫描仪等。

索引矩阵检索处理部22a对索引信息DB17进行检索，检出包含所输入的检索关键词的索引矩阵。索引矩阵检索处理部22a将检索关键词按每一字符分割，搜寻包含各检索字符的索引矩阵，包含有检索字符的情况下，取得该检索字符在索引矩阵内的匹配位置的信息。另外，对于索引矩阵的抽出规程例，将用图19的流程图后述。

字符相关值保存部22b保存在索引矩阵检索处理部22a取得的匹配位置信息、和与该匹配位置的列号对应的字符相关值。

相关度算出部22c当索引矩阵检索处理部22a对所有的索引矩阵检测结束时，算出检测出的索引矩阵和检索关键词之间的相关度。

相关度的算出，利用保存在字符相关值保存部22b中的匹配位置、和字符相关值的信息，根据预先设定的相关度算出方法算出。有关相关度的算出，将利用图20、图21后述。

另外，这里原先是这样的构成，即字符相关值保存部22b保存匹配位置的信息、和与该匹配位置的列号对应的字符相关值，但也可是这样的构成，即字符相关值保存部22b仅保存匹配位置，相关度算出部22c根据匹配位置的信息取得字符相关值。

显示顺序决定部22d根据在相关度算出部22c算出的相关度的信息，决定显示顺序。显示顺序决定部22d这样决定显示顺序，按照从包含相关度高的索引矩阵的文档图像起的顺序，在检索结果显示部25上显示文档图像的内容。

文档图像抽出部22e从文档图像DB19读出文档图像的图像数据，向检索结果显示部25输出显示，使得按照在显示顺序决定部22d决定的顺序显示文档图像。

检索结果显示部25按照显示顺序显示文档图像。也可是缩略图显示等。作为检索结果显示部25，为前述的显示装置3等。

这里对检索程序进行说明。图19是显示检索部22的检索程序的流程图。当输入由R个字符组成的检索关键词，指令检索时，索引矩阵检索处理部22a首先取出检索关键词的第1个检索字符(S21)。

接着，索引矩阵检索处理部22a对索引信息DB17内的所有的索引矩阵，检索第1个检索字符(S22)。

一旦对所有的索引矩阵的检索结束，则判断是否检索到了第1个检索字符，1个也没有检索到的情况下移至S29，检索到了的情况下则进至S24。

在S24，索引矩阵检索处理部22a将第1个检索字符在被包含的索引矩阵中的匹配位置和字符相关值，保存于字符相关值保存部22b。

接着，索引矩阵检索处理部22a取出包含第1个检索字符的所有索引矩阵(S25)。接着，取出检索关键词的下一个字符即第2个检索字符，对在S25取出的包含第1个检索字符的索引矩阵进行检索(S26)。

一旦对在S25取出的所有的索引矩阵的检索结束，则判断是否检索到了第2个检索字符(S27)，1个也没有检索到的情况下与上述同样移至S29，检索到了的情况下则进至S28。

在S28，索引矩阵检索处理部22a将第2个检索字符在被包含的索引矩阵中的匹配位置和字符相关值，保存于字符相关值保存部22b。

接着，索引矩阵检索处理部22a再次回到S26，取出检索关键词的再下一个字符即第3个检索字符，对在S25取出的包含第1个检索字符的索引矩阵进行检索。

这里也是，一旦检索结束，索引矩阵检索处理部22a判断是否检索到了第3个检索字符(S27)，1个也没有检索到的情况下与上述同样移至S29，检索到了的情况下则再次进至S28，进行检索关键词再下一个检索字符的检索。

索引矩阵检索处理部22a进行这样的S26～S28的处理，即，以在S25抽出的、包含第1个检索字符的索引矩阵为对象的、对第2个及以后的各检索字符的缩小检索，直至在S27判断为1个字符也没有检索到，或者判断为对检索关键词内全部检索字符的检索结束，其后，移至S29。

在S29，取出检索关键词中的下一字符即第2个检索字符。接着，判断检索字符是否结束，即，是不是对所有检索字符结束了检索(S30)，没有结束的情况下，回到S22。

接着，与上述同样，索引矩阵检索处理部22a对索引信息DB17内的所有的索引矩阵，检索第2个检索字符(S22)。检索成功时，则保存索引矩阵的匹配位置和字符相关值，进至S25，对包含第2个检索字符的所有索引矩阵，对检索关键词的下一个字符即第2个的下一个即第3个及以后的检索字符，重复S26～S28的处理进行缩小检索。

索引矩阵检索处理部22a对第3个及以后的检索字符也依次进行上述那样的检索处理，即在S29进至下一检索字符，取出包含该检索字符的索引矩阵，以其以后的检索字符进行缩小检索。

这样，当在S29取出了检索关键词内的所有检索字符，在S30判断为对所有的检索字符完成了检索时，进至S31。

在S31，相关度算出部22c如后述根据相关度基准算出检索关键词和各索引矩阵之间的相关度。

显示顺序决定部22d这样决定显示顺序，使得从包含相关度高的索引矩阵的文档图像起开始显示，文档图像抽出部22e从文档图像DB19取得文档图像的图像数据，检索结果显示部25以相关度从高到低的顺序显示文档图像(S32)。

接着利用图20、图21，说明在相关度算出部22c中依据相关度基准算出索引矩阵和检索关键词之间的相关度的相关度计算方法。

图20附图标记101的方框中记载了检索条件。另外附图标记102的方框中，记载了用于计算相关度的一个假定的检索关键词和索引矩阵之间的相对关系。以方框101中所示的检索条件，检索关键词和索引矩阵之间为方框102中所示的相对关系的情况下，检索关键词和索引矩阵之间的相关度，由方框103中所示的计算式算出。

首先，说明方框101的检索条件。检索关键词的字符数为R个，第1个检索字符为C1、第2个检索字符为C2、...、第R个检索字符为Cr。

成为检索对照的索引矩阵为M×N维的矩阵。也就是说，作为标题区域T抽取出的字符串图像的字符数为M，作为字符串各字符的候选被选择的候选字符数为N个。

由于作为检索字符与各候选字符之间的相关值的字符相关值，对应于索引矩阵的各位置而决定，因而是与索引矩阵相同维数的矩阵。也就是说，字符相关值矩阵Weight为M ×N维的矩阵。例如，Weight[i][j]表示，位于索引矩阵中位置[i，j](＝Index[i][j])的某候选字符匹配时的字符相关值。本实施方式中，如果索引矩阵的列号[j]相同，则不管行号[i]，字符相关值相同。

行的相关度加权因数Q是，索引矩阵中相邻2行中，检索字符匹配时，加在该2行的字符相关值上的加权。在相邻2行检索字符匹配时，包含检索关键词的连续2个字符的可能性高。

若将行的相关度加权因数Q较高地设定，则对相关度算出部22c算出的相关度的贡献度，连续地匹配的2行的字符相关值变大，而不相邻的2行的字符相关值变小。也就是说，通过将行的相关度加权因数Q较高地设定，就接近以词汇为1个单位检索的结果，相反，通过将行的相关度加权因数Q较小地设定，就接近以字为1个单位检索的结果。

以W1表检索字符C1匹配的字符相关值，以W2表检索字符C2匹配的字符相关值，...、以Wr表检索字符Cr匹配的字符相关值。

接着，对方框102中所示的、用于计算相关度而假定的、索引矩阵和检索关键词之间的相对关系进行说明。

检索关键词和索引矩阵之间存在所有检索字符C1、C2、...、Cr和索引矩阵内的某一候选字符匹配的关系。以[C1i，C1j]、[C2i，C2j]、...、[Cri，Crj]表检索字符C1、C2、...、Cr匹配的各检索字符在索引矩阵内的位置，即匹配位置。

作为进一步的相对关系，存在方框102中所示的式(1)的关系，即

C(k+1)i＝Cki+1，C(m+1)i＝Cmi+1(m＞k)

该式中，k、m表示构成检索关键词的各检索字符的相对位置。又，C(k+1)i表示检索关键词的第k+1个检索字符所匹配的候选字符在索引矩阵内的行号，Cki表示检索关键词的第k个检索字符所匹配的候选字符在索引矩阵内的行号。

因此，C(k+1)i＝Cki+1表明的是，检索关键词的第k+1个检索字符所匹配的候选字符在索引矩阵内的行号，等于检索关键词的第k个检索字符所匹配的候选字符在索引矩阵内的行号加1。换言之，C(k+1)i＝Cki+1表明的是，检索关键词的第k+1个检索字符和第k个检索字符处于在索引矩阵内相邻2行中分别匹配的关系。

C(m+1)i＝Cmi+1也同样，表明的是检索关键词的第m+1个检索字符和第m个检索字符处于在索引矩阵内相邻2行中分别匹配的关系。

检索关键词和索引矩阵之间处于这样的相对关系时，检索关键词和索引矩阵之间的相关度由方框103中所示的式(2)算出。

SimDegree＝W1+W2+...+W(k-1)+Q*(Wk+W(k+1))+...+W(m-1)+Q*(Wm+W(m+1))+...+Wr

该式中，W1是第1个检索字符C1所匹配的字符相关值，W2是第2个检索字符C2所匹配的字符相关值，W(k-1)是第(k-1)个检索字符C(k-1)所匹配的字符相关值。同样地，W(k)是第(k)个检索字符C(k)所匹配的字符相关值，W(k+1)是第(k+1)个检索字符C(k+1)所匹配的字符相关值。又，W(m-1)是第(m-1)个检索字符C(m-1)所匹配的字符相关值。同样地，W(m)是第m个检索字符Cm所匹配的字符相关值，W(m+1)是第(m+1)个检索字符C(m+1)所匹配的字符相关值。然后，最后的Wr是第r个的最后的检索字符C1所匹配的字符相关值。

这样，在相关度的算出中，对构成检索关键词的全部检索字符的字符相关值W进行积算(累计)。

还有，式(2)中的Q*(Wk+W(k+1))表明的是，由于检索关键词中第k个检索字符Ck和第(k+1)个检索字符C(k+1)在索引矩阵内相邻2行中分别匹配，因此，对字符相关值Wk和字符相关值W(k+1)，乘以行的相关度加权因数Q。对于Q*(Wm+W(m+1))也同样。

另外，检索关键词第k-1个检索字符和第k个检索字符，由于不是在相邻2行匹配的关系，因此对W(k-1)和Wk的两方，没有乘以相关度加权因数Q。对于W(m-1)和Wm也同样。

然而，在图20的方框102中所示的检索关键词和索引矩阵之间的相对关系中，已设定为所有检索字符C1、C2、...、Cr和索引矩阵内的某候选字符之间存在匹配的关系，故式(2)中，W1～Wr的所有检索字符的字符相关值W被累积。

然而，这是一例，例如，在虽然具有式(1)的相对关系，但检索字符C1和检索字符Cr不与索引矩阵内的任意候选字符匹配的情况下，其相关度的计算式就变为下式，累积项少，当然相应地其相关度也变低。

SimDegree＝W2+...+W(k-1)+Q*(Wk+W(k+1))+...+W(m-1)+Q*(Wm+W(m+1))+...+W(r-1)

另外，在所有的检索字符C1、C2、...、Cr和索引矩阵内的某一候选字符之间存在匹配的关系，且检索关键词的第k+1个检索字符和第k个检索字符，及第k+2个检索字符和第k+1个检索字符，分别在索引矩阵内相邻2行中存在匹配的关系的情况下，算出相关度的式为下式。

SimDegree＝W1+W2+...+W(k-1)+Q*(Wk+W(k+1)+W(k+2))+...+Wr

此时，由于检索关键词的第k-1个检索字符和第k个检索字符，不存在在相邻2行匹配的关系，因此对W(k-1)和Wk的两方，没有乘上行的相关度加权因数Q。

下面，利用图21，说明相关度计算的具体例。这里，计算图10中所示的、字符串“去神仙居住的地方”的索引矩阵(参照数据表200)和检索关键词“神仙”之间的相关度。

图21的方框104中示出检索条件。相关值矩阵Weight为M×N维，字符相关值为，Weight[i]＝[1，1-1/N，1-2/N，...，1/N](i＝0，1，...，M-1)，行的相关度加权因数是Q。

检索关键词“神仙”，分别地，分割为第1个检索字符即“神”和第2个检索字符即“仙”，对各检索字符对索引矩阵中的候选字符进行检索。

参照图10的数据表200可知，检索字符“神”与索引矩阵中位置[i，j]的[2，1]匹配，检索字符“仙”与索引矩阵中的[3，1]匹配。

因此，如方框105中所示，检索字符“神”的字符相关值为1，检索字符“仙”的字符相关值为1。

还有，检索字符“神”的行号为[2]，检索字符“仙”的行号为[3]，如图10的表200中所示，这2个检索字符，分别在索引矩阵的相邻2行中匹配。

因此，如方框106中所示，对于检索字符“神”的字符相关值1和检索字符“仙”的字符相关值1，乘以行的相关度加权因数Q，检索关键词的“神仙”与字符串“去神仙居住的地方”的索引矩阵之间的相关度SimDegree＝Q*(1+1)＝2Q。

检索关键词与索引矩阵之间的相关度，可根据用户的要求灵活地调整相关值矩阵中的权重(字符相关值)和行的相关度加权因数Q等参数，得到更为理想的检索结果。

用户可利用键盘1等，根据需要适宜地设定相关值矩阵中的权重(字符相关值)和行的相关度加权因数Q等参数。

还有，这样根据图像特征的与索引匹配的方式，可满足多语言文档图像的索引和检索，不进行字符识别，计算量少。本发明不限于汉语而可应用于各种语言的文档图像。

接下来，对带词汇解析功能(语义分析功能)的检索处理进行说明。如图18中所示，本实施方式的文档图像处理装置10中，在键盘输入部24和检索部22之间，设置有词汇解析部23。图22示出带词汇解析功能的检索处理。

词汇解析部23由语义分析处理部23a和语义词典23b构成。语义分析处理部23a当从键盘输入部24输入检索关键词时，参照语义词典23b，分析检索关键词的词汇。

例如，作为检索关键词输入“中日关系”时，语义分析处理部23a作为与“中日关系”关联的字符组合，例如向检索部22输入“中国”、“日本”、“关系”3个字符组合。这些“中国”、“日本”、“关系”是or的关系，检索式为“中国”or“日本”or“关系”。

该检索式“中国”or“日本”or“关系”输入检索部22，检索部22对索引信息DB17进行检索，抽出含“中国”的文档图像、含“日本”的文档图像、以及含“关系”的文档图像。

由此，不仅可检索直接包含被输入的检索关键词的文档图像，也可检索关联的的文档图像。

如前所述，从一览显示的主题词中选择主题词后，输入关键词进行检索，则由于被选择的主题词，文档图像的检索范围被缩小，由于以检索范围被缩小的文档图像为对象检索关键词，故能使检索处理高速化。

接下来，对实施文档图像管理处理的文档图像管理部57进行说明。文档图像管理部57由字符图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20、文档名创建部51、文档图像DB管理部52、文档图像显示部53和指令输入部54构成，对它们进行说明。

有关字符图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20的功能已经作了说明。这里，仅对用于创建有意义的文档名、实施管理文档图像特征DB20的文档图像的文档图像管理处理进一步所需的功能，适当地进行说明。

利用图23说明文档图像管理处理。从由图像扫描仪2、数码摄像机6构成的文档图像输入部21，输入文档图像1～N。

标题区域初始处理部18对输入的文档图像1～N，分析各自的文档图像的内容，抽取出标题区域并取得字符串。接着，虽然没有图示，与前述同样，字符图像特征抽出部14将抽取出的标题区域中所含的字符串的图像，1个字符1个字符地分割后，抽出各字符图像的特征。

接着，基于这样抽出的字符串图像的图像特征，由字形特征字典15及特征匹配部16构成的候选字符串生成部55，作为候选字符选择图像特征匹配度高的字符图像，作成与抽取出的标题区域中所含的字符串对应的候选字符串，如上述那样利用词汇分析法调整构成候选字符串的各候选字符，使之成为有意义的候选字符串。

在候选字符串生成部55这样生成的有意义的候选字符串，送往文档名创建部51。

文档名创建部51对输入的文档图像，创建包含了在候选字符串生成部55生成的有意义的候选字符串的文档名。该包含有意义的候选字符串的文档名，以下称为“有意义的文档名”。

从时间数据等发生部60，也向文档名创建部51输入表示文档图像被输入的时间及输入路径的数据等其它数据。文档名创建部51可使用至少包含从时间数据等发生部60输入的时间数据的其它数据，生成文件名。

例如，也可将有意义的文档名设为由时间数据和有意义的候选字符串组成的构成，将时间数据等其它数据内的时间数据，包含于有意义的文档名中。

或者，利用时间数据等其它数据，对同一文档图像，创建另外的文档名。以下，将由时间数据等其它数据等构成的文档名称为原始(original)文档名。

通过这样的构成，能用有意义的文档名、和由时间数据等其它数据构成的原始文档名来管理1个文档图像。

对各个文档图像生成的有意义的文档名、和由时间数据等其它数据等构成的原始文档名被送往文档图像DB管理部52，与文档图像的图像数据对应地储存在文档图像DB19中。

当由用户利用由键盘1等构成的图1中所示的指令输入部54，发出文档图像DB19中存储的文档图像的阅览指令等时，文档图像DB管理部52就在由显示装置3等构成的图1的文档图像显示部53上显示阅览画面。

图中，显示于左侧的画面201，示出存储的文档图像由原始文档名一览显示的状态。画面201的上部，显示各文档图像的输入顺序。纸面最前面的付与了“AR C262M 20060803 103140”的原始文档名的文档图像，是这个画面上最先输入的文档图像。“20060803”表示输入日(2006年8月3日)，“103140”表示时间(10点31分40秒)。

在这样的显示状态下，利用选择显示在画面上的“有意义的文档名”的标签等的操作，阅览画面的显示，向图中显示于右侧的画面202转移。画面202显示的是存储了的文档图像以有意义的文档名被一览显示的状态。

这个画面202与画面201对应，这里也是，画面201的上部显示的，纸面最前面的付与了“定格惠州西湖”的有意义的文档名的文档图像，是这个画面上最先输入的文档图像。

这样，以有意义的文档名进行阅览成为可能，由此能容易地实施由用户存储的文档图像的管理、检索。另外，通过一并作成原始文档名，也能与文件名同时看到时间数据等信息。

另外，本文档图像处理装置中，利用所创建的索引矩阵来创建索引信息，利用于检索处理。为此，标题区域初始处理部18抽出文档图像中所含的多个标题区域T，分别创建索引矩阵。但是，如果仅是给文档图像创建有意义的文档名的目的，则没有必要抽出文档图像中所含的多个主题并分别创建索引矩阵。

也就是说，这样构成即可，即对最好地表征文档图像的标题区域中所含的字符串(字符图像串)创建索引矩阵，基于此，使用特征匹配的字符串，创建具有意义的名称。

作为最好地表征文档图像的标题区域，例如，可从被抽出的多个标题区域之中，将存在于文档图像的最上面的行作为这样的标题区域。这是因为，重要的主题多配置于文档图像的最上面的行的缘故。

另外，也可将这样的标题区域作为上述最好地表征文档图像的标题区域，即标题区域中包含的字符的大小尺寸，比某一阈值大，比抽出的标题区域中包含的字符的大小尺寸大。这是因为，重要的主题多以比其它标题区域大的字符大小尺寸记载的缘故。

或者，也可将这样的标题区域作为上述最好地表征文档图像的标题区域，即标题区域中包含的字符的字体(字形)，与抽出的其他标题区域中包含的字符不同。这是因为，重要的主题多以与其它标题区域不同的字体(字形)记载的缘故。另外，也可附加除此以外的基准，还有，各基准可个别地使用，也可组合使用。

另外，在如本文档图像处理装置那样，对于1个文档图像抽出多个标题区域，分别地创建索引矩阵的构成中，可用标题区域的配置位置、字符尺寸、或者字体使最重要的标题区域的索引矩阵特性化。又，特别是，如果是这样的情况，最好这样创建，使得从被抽出的多个标题区域的索引矩阵中，最频繁出现的字符组合包含于候选字符串中。

作为本发明的其他实施方式，可取代Bi-gram模型而利用N-gram模型进行索引矩阵的调整。

上述实施方式指的是，在候选字符串的调整方法中，仅利用N-gram模型的情况不同，关于其他构成则为同样，因此省略详细的说明。

图25是示出一个利用N-gram模型的索引矩阵的调整方法的流程图。

在步骤S41，判断是否到达了索引矩阵的最后的行。如果没有到达则进至步骤S42，如果已到达则进至步骤S50。

在步骤S42，取出现在所看到的行，即在第1次处理时为第1行的第1候选。在步骤S43，应用N-gram模型，对现在所看到的行的第1候选和与其相邻的行的各候选的字符组合，统计地计数在词典内的出现频度。

在步骤S44，将计数值与预先决定的阈值进行比较，判断计数值是否超过了阈值。如果超过了阈值则进至步骤S35，如果没有超过阈值则进至步骤S46。

在步骤S45，决定相邻行的第1候选进至步骤S46。在步骤S46，再次应用N-gram模型，对现在所看到的行和其后的多个行的各候选的字符组合，统计地计数在词典内的出现频度。

在步骤S47，将计数值与预先决定的阈值进行比较，判断计数值是否超过了阈值。如果超过了阈值则进至步骤S48，决定现在所看到的行之后的多个行的第1候选。如果没有超过阈值则进至步骤S49，选择最大频度的字符，假定地决定第1候选。

在步骤S50，基于决定的词语、或语句间的关联性决定假定的第1候选。在步骤S51，判断第1候选字符串中的字符集合是否与词典数据的语义规则相一致。如果一致的话进至步骤S52结束处理，得到经调整的索引矩阵。如果不一致则进至步骤S53，调整不一致的行的第1候选结束处理。

这样，通过应用N-gram模型，与双字母组相比可作成更正确的候选字符串。

最后，文档图像处理装置的各模块，特别是，字体正规化处理部12、字符图像特征抽出部14、特征匹配部16、标题区域初始处理部18、检索部22、词汇解析部23、文档名创建部51、文档图像DB管理部52等，可由硬件逻辑构成，如以下那样利用CPU由软件实现也可。

即，文档图像处理装置10具有执行实现各功能的控制程序的命令的CPU(central processing unit)、储存上述程序的ROM(read only memory)、展开上述程序的RAM(random access memory)、以及储存上述程序及各种数据的存储器等存储装置(存储媒介)等。还有，本发明的目的也可通过将在计算机上可读地记录有实现上述功能的软件即文档图像处理装置10的控制程序的程序代码(执行形式程序、中间代码程序、源程序)的记录媒介，向文档图像处理装置10提供，该计算机(或CPU、MPU)读出记录于记录媒体上的程序代码并执行来达成。

作为上述记录媒介，例如，可使用磁带、盒式磁带等磁带类，包括软盘(日文：フロツピ一(注册商标)デイスク)、硬盘等磁盘、CD-ROM/MO/MD/DVD/CD-R等光盘的盘类，IC卡(包括存储卡)/光卡等卡类，或者掩模ROM/EPROM/EEPROM/FLASH ROM等半导体存储器类等。

另外，也可将文档图像处理装置10构成为可与通信网连接，通过通信网提供上述程序代码。作为该通信网，不受特别限定，例如，可利用互联网、内联网、外联网、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtualprivate network)、电话线网、移动通信网、卫星通信网等。又，构成通信网的传送媒介，不受特别限定，例如，也可利用IEEE1394、USB、电力线传播、有线电视线路、电话线、ADSL线等有线，也可利用IrDA、遥控器那样的红外线、Bluetooth(注册商标)、802.11无线、HDR、移动电话网、卫星线路、地上波数字网等无线。另外，本发明也能够以上述程序代码通过电子传送而具体化的被叠加在载波中的计算机数据信号的形式来实现。

本发明可不脱离其精神或主要特征而以其他种种形态实施。因此，前述的实施方式，在任何方面只不过是例示而已，本发明的范围是权利要求书中所示的范围，不受说明书本文的任何拘束。进而，属于权利要求书范围的变形、变更都属于本发明的范围。

Claims

1.一种文档图像处理装置，其特征在于，具有：

图像特征抽出部，将由所述字符串抽出部所抽取出的字符串的字符图像1个字符1个字符地分割，抽出各字符图像的图像特征；

特征匹配部，基于由所述图像特征抽出部抽出的字符图像的图像特征，利用所述字形特征字典，按照图像特征匹配度从高到低的顺序选择N个字符图像作为候选字符，设所述字符串的字符数为M个，创建M×N维的第1索引矩阵，其中M、N均为大于1的整数；

一览显示部，可在规定的主题词显示区域中，以由所述显示顺序决定部决定的显示顺序将主题词或句子一览显示。

2.如权利要求1所述的文档图像处理装置，其特征在于，所述主题词抽出部对被抽出的主题词，基于意义解析设定权重，

所述显示顺序决定部根据由所述主题词抽出部基于意义解析设定的权重，决定主题词的显示顺序。

3.如权利要求1所述的文档图像处理装置，其特征在于，所述显示顺序决定部算出所作成的字符组合中主题词的统计信息，根据所算出的统计信息决定主题词的显示顺序。

4.如权利要求1所述的文档图像处理装置，其特征在于，具有：

选择部，从一览显示出的主题词中选择一个主题词；

5.如权利要求1所述的文档图像处理装置，其特征在于，所述文档图像处理装置还具有检索部，该检索部在检索时，以构成输入的检索式中的检索关键词的1个检索字符为单位，检索所述索引信息储存部，取出具有包含检索字符的第1索引矩阵的文档图像。

6.如权利要求5所述的文档图像处理装置，其特征在于，具有从一览显示出的主题词中选择一个主题词的选择部，

所述检索部，将由所述选择部所选择的主题词作为所述检索关键词，检索所述索引信息储存部。

7.一种文档图像处理方法，其特征在于，具有：

字符串抽出步骤，以由多个字符组成的字符串为单位抽出输入的文档图像中的字符图像；

特征匹配步骤，基于在所述图像特征抽出步骤抽出的字符图像的图像特征，根据以1个字符为单位储存有字符图像的图像特征的字形特征字典，按照图像特征匹配度从高到低的顺序选择N个字符图像作为候选字符，设所述字符串的字符数为M个，创建M×N维的第1索引矩阵，其中M、N均为大于1的整数；

一览显示步骤，在规定的主题词显示区域中，以由所述显示顺序决定步骤决定的显示顺序将主题词或句子一览显示。