CN101354703A

CN101354703A - 文档图像处理装置和文档图像处理方法

Info

Publication number: CN101354703A
Application number: CNA2007101296065A
Authority: CN
Inventors: 吴波; 窦建军; 乐宁; 吴亚栋; 贾靖
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2007-07-23
Filing date: 2007-07-23
Publication date: 2009-01-28
Anticipated expiration: 2027-07-23
Also published as: JP4533920B2; US20090028446A1; US8208765B2; CN101354703B; JP2009026288A

Abstract

本发明提供一种文档图像处理装置及文档图像处理方法。其中，抽取出文档图像中的文字数为M的文字列的图像，将其以1个文字为单位进行分割，并抽出各文字图像的图像特征，基于该图像特征，从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中，按照匹配度从高到低的顺序选择N(N＞1的整数)个文字图像作为候补文字，而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且，对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列，通过适用基于预定的语言模型的词汇解析，来制作出调整成有意义的文字列的第2索引矩阵，并在语言模型的基础上统计后进行词汇解析。

Description

文档图像处理装置和文档图像处理方法

技术领域

本发明涉及将文档作为图像来输入并存储的文档图像处理装置和文档图像处理方法，特别是涉及具有对于所存储的文档的检索功能的文档图像处理装置和文档图像处理方法。

背景技术

一种利用图像扫描仪等图像输入装置将文档转换成图像，并以电子方式进行存储，且在之后可以检索的文档归档装置已得到实用化。关于这样的文档归档装置的技术已公开在中国公开专利公报CN1402854A、中国公开专利公报CN1535430A以及中国公开专利公报CN1851713A中。

在对于作为图像数据而读取的文档图像进行检索时，需要进行对各文档图像人工附加用于检索的索引信息的作业，因而非常消耗劳力。

另外，还提出了一种定位文档图像的文字区域(文本区域)，进行OCR(Optical Character Reader)识别，并可利用文本内容进行全文检索的装置。作为利用了OCR识别的以往技术，例如有日本专利特开平7-152774号公报所述的技术。

然而，在OCR识别中存在着需要进行大量的计算而消耗时间的问题。并且，由于文字识别率不高，所以还存在着因误识别而检索不到的可能性，在检索精度上存在问题。

另一方面，在日本专利特开平10-74250号公报中，公开了一种不使用OCR识别，而可自动进行全文检索的技术。

上述公报的构成中，准备好将预先利用图像特征对文字进行类似的每一个文字分类到类似文字类别中的类别字典。然后，在登记文档图像时，对文本区域(文字区域)的各文字不进行文字识别，而抽出图像特征，并根据图像特征分类到文字类别中，将对按照每一个文字识别出来的类别列与输入图像一同储存。在进行检索时，将检索关键词的各文字转换为对应的类别，且将在一部分中包含被转换的类别列的文档图像作为检索结果取出。

而且，作为基于该构成的效果，记载了可提供一种在文档登记时能够以少的计算机能力高速地进行登记处理，并且在检索时可实现遗漏少的检索的文档归档装置。

例如，在基于日本专利特开平10-74250号公报的技术，来制作用于进行检索的索引信息时，对于构成标题的各文字，将图像特征近似的文字，按照类似度的顺序，作为候补文字记载在索引信息中。

在将检索关键词与索引信息进行比较时，主要利用索引信息所具有的类似度。

由于类似度只不过是针对各文字分别独立设定的参数，标题语的作为惯用语的特征未反映在索引信息中，所以在检索精度上还不够充分。

发明内容

本发明的目的是，通过改进索引信息，而提供一种检索精度更高的文档图像处理装置、文档图像处理方法。

本发明提供一种文档图像处理装置，其特征在于，具有：

字形特征字典，其以单个文字为单位储存有文字图像的图像特征；

文字列抽出部，其以由两个或两个以上文字构成的文字列为单位，抽取出所输入的文档图像中存在的文字图像；

图像特征抽出部，其将由上述文字列抽出部抽取出的文字列的文字图像以1个文字为单位进行分割，并抽出各文字图像的图像特征；

特征匹配部，其以由上述图像特征抽出部抽出的文字图像的图像特征为基础，从上述字形特征字典中，按照图像特征的匹配度从高到低的顺序选择N个(N＞1的整数)文字图像作为候补文字，在将上述文字列的文字数设为M个(M＞1的整数)时，制作M×N维的第1索引矩阵，并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列，适用基于预定的语言模型的词汇解析，而制作出调整成有意义的文字列的第2索引矩阵；

索引信息储存部，其将由上述特征匹配部制作的第2索引矩阵与上述所输入的文档图像相对应地进行储存；

检索部，其在检索时，以所输入的检索式中的构成检索关键词的1个检索文字为单位，检索上述索引信息储存部，而取出具有包含检索文字的第2索引矩阵的文档图像。

根据本发明，图像特征抽出部将由文字列抽出部定位并抽取出的文档图像中的文字列的图像以1个文字为单位进行分割，并抽出各文字图像的图像特征。然后，特征匹配部基于该图像特征，从以单个文字为单位储存有文字图像的图像特征的字形特征字典中，按照图像特征的匹配度从高到低的顺序选择N个(N＞1的整数)文字图像作为候补文字，并制作抽取出的文字数为M×N维的第1索引矩阵。

并且，对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列，通过适用基于预定的语言模型的词汇解析，而制作出将候补文字列调整成有意义的文字列的第2索引矩阵。

制作的第2索引矩阵，与所输入的文档图像相对应地被储存在索引信息储存部中，在检索时，该索引矩阵被用作用于检索文档图像的索引信息。

由此，无须用户的人工操作，而且也无须使用OCR识别，即可自动地定位文档图像的文字区域中存在的文字列，利用定位的文字列的图像特征来生成文档图像的索引信息。

而且，由于抽出各文字图像的图像特征，并选择两个或两个以上图像特征近似的候补文字，所以通过适当地设定选择的候补文字数量，不会像OCR识别那样在文字识别中花费时间，可无识别遗漏地进行正确的检索。

并且，由于在检索关键词中输入有意义的文字列，所以通过使第2索引矩阵的候补文字列成为有意义的文字列，可进一步提高检索精度。

另外，由于字形特征字典将全部单个文字的文字图像的图像特征作为单位来制作，特征匹配部将抽取出的文字列的图像分割成单个文字的文字图像，来进行图像特征的匹配，所以，所生成的索引矩阵的精度高。

在检索时，检索部以所输入的检索式中的构成检索关键词的1个检索文字为单位，检索索引信息储存部，并取出具有包含检索文字的索引矩阵的文档图像。

这样，通过以构成检索关键词的检索文字为单位分析索引矩阵，并检索出包含检索关键词的索引矩阵，可保证基于单个文字检索的全面检索。

另外，根据本发明，上述特征匹配部，使用双字母组模型或多字母组模型来作为语言模型。

另外，根据本发明，上述特征匹配部，基于词汇解析，将上述第1索引矩阵的第1列的候补文字与同一行的其它候补文字进行替换，从而调整成有意义的候补文字列。

由此，能够以与第1索引矩阵的匹配度相同的匹配度来调整候补文字列。

并且，本发明的文档图像处理装置的特征在于，也可以使上述文字列抽出部抽取出上述所输入的文档图像中的标题区域。

根据上述的构成，由于上述文字列抽出部抽取出文档图像中的标题区域，所以针对文档图像的标题制作索引矩阵。

从而，与以文档图像的整个文本区域为对象制作索引矩阵的情况相比，可减少针对1个文档图像制作的索引矩阵的数量，能够以标题为对象进行文档图像的检索，从而能够实现高效率的关键词检索。

并且，本发明的文档图像处理装置，还具有如下特征，即：上述文字列抽出部利用投影法和连通区域统计分析法来抽取出文档图像中的重要区域。

由此，能够容易实现上述文字列抽出部对文档图像中的标题区域的抽取。

并且，本发明的文档图像处理装置，还具有如下特征，即：上述图像特征抽出部利用网格方向特征和文字图像外围特征的组合，来抽出文字图像的图像特征。

由此，可高效率地抽出基于不同字形的图像特征。

并且，本发明的文档图像处理装置，还具有如下特征，即：上述特征匹配部将所抽出的文字图像的图像特征与在上述字形特征字典中储存的全部文字图像进行匹配，并选择候补文字。

由此，可按照最正确的顺序选择候补文字，并制作索引矩阵。

并且，本发明的文档图像处理装置，还具有如下特征，即：上述特征匹配部选择的候补文字数N是可变更的。

通过使候补文字数N设为可变更的，可制作与用户的要求相应的索引矩阵。例如，通过减少候补文字数N，使索引矩阵的维数减少，可缩短检索时间，提高检索精度和查准率。反之，通过增加候补文字数N，使索引矩阵的维数增大，可减少检索遗漏，提高查全率。

并且，本发明的文档图像处理装置，还具有如下特征，即：上述检索部，从具有构成检索关键词的各检索文字在索引矩阵内的匹配位置高的索引矩阵的文档图像中，按顺序进行取出。

根据上述的专利文献2的构成，由于是将检索关键词转换成代表文字代码列的检索，所以不能进行具体到类似文字类别中的位置的分析。因此，属于同一类似文字类别内的各文字，无论是相似度高的文字还是低的都成为相同的关联程度，不能从关联性高的文档图像按顺序正确地进行提示。

然而，根据上述构成，由于从具有构成检索关键词的各检索文字在索引矩阵内的匹配位置高的索引矩阵的文档图像中，按顺序进行取出，所以能够从关联性高的文档图像按顺序提示检索结果。

并且，本发明的文档图像处理装置，也可以具有如下特征，即：对上述索引矩阵的各要素，设定有与位置相应的相关值，而且，上述检索部具有：索引矩阵检索处理部，其以构成检索关键词的1个检索文字为单位检索索引矩阵，而检索出包含检索文字的索引矩阵，并将该索引矩阵内的检索文字的匹配位置的信息，与具有索引矩阵的文档图像的信息一同储存在保存部中；相关度计算部，其根据在上述保存部中储存的匹配位置的信息，累计各检索文字的相关值，并计算出检索关键词与索引矩阵的相关度；顺序决定部，其基于上述相关度计算部的计算结果，来决定文档图像的取出顺序。

根据上述构成，对上述索引矩阵的各要素，设定有与位置相应的相关值。该相关值是检索文字与索引矩阵内的候补文字之间的相关值，其由特征匹配部按照选择的候补文字的顺序来设定，通常是列编号越小的要素设定为越大的值。

检索部的索引矩阵检索处理部，以构成检索关键词的1个检索文字为单位检索索引矩阵，而检索出包含检索文字的索引矩阵，并将该索引矩阵内的检索文字的匹配位置的信息，与具有索引矩阵的文档图像的信息一同保存在保存部中。

然后，检索部的相关度计算部利用在该保存部中储存的匹配位置的信息，累计各检索文字的相关值，并计算出检索关键词与索引矩阵之间的相关度，顺序决定部从相关度高的文档图像按顺序取出文档图像。

由此，能够从具有构成检索关键词的各检索文字在索引矩阵内的匹配位置高的索引矩阵的文档图像中，按顺序进行取出，从而可简单地实现从关联性高的文档图像按顺序提示检索结果的动作。

并且，还具有如下特征，上述相关度计算部在由上述匹配位置的信息而判断为与索引矩阵中的相邻的行相匹配时，对相邻的各行的相关值，在利用相关度加权因数进行了加权的基础上进行累计。

由此，上述相关度计算部在判断为与索引矩阵中的相邻的行相匹配时，对于对应的行的相关值，利用行的相关度加权因数进行加权。即，在以文字单位进行检索时，连续地包含有检索关键词的各检索文字的情况下，具有该索引矩阵的文档图像的检索结果具有更高的相关度。由此可通过简单的计算实施有效的检索。

在本发明的文档图像处理装置中，还具有如下特征，即：上述索引矩阵的各要素设定的相关值是可变更的。

通过将相关值设为可变更，可实现与用户要求相应的检索。例如，即使候补文字数N相同，也可以通过使与N个候补文字的列编号相应的相关值，以在第A个之前设定为高且之后为低的方式进行变化，使检索结果发生变化，因此可相应于用户的要求采取灵活的对策。

在本发明的文档图像处理装置，还具有如下的特征，即：上述行的相关度加权因数是可变更的。

通过使行的相关度加权因数设为可变更，可实现与用户的要求相应的检索。例如，通过增大行的相关度加权因数，使对于计算出的相关度的贡献度而言，连续匹配的2行的相关值中增大，接近以词汇作为1个单位进行检索的结果。反之，通过减小行的相关度加权因数，使其接近以字为1个单位进行检索的结果。由此，可采取灵活的对策，以便实现与用户的要求相应的检索。

并且，在本发明的文档图像处理装置中，还具有如下特征，即：具有使用上述图像特征抽出部来制作上述字形特征字典的字形特征字典生成部。

由此，由于字形特征字典生成部兼用图像特征抽出部，来制作字形特征字典，所以用户可简单地针对不同的字体、字号、字形，来抽出字形的特征，并制作字形特征字典。另外，不仅针对字体等，还针对不同语种的文字，也可以针对各字体、字号、字形来简单地制作字形特征字典。

另外，本发明提供一种文档图像处理方法，其特征在于，具有：

文字列抽出步骤，以由两个或两个以上文字构成的文字列为单位，抽出所输入的文档图像中存在的文字图像；

图像特征抽出步骤，将在上述文字列抽出步骤中抽出的文字列的文字图像以1个文字为单位进行分割，并抽出各文字图像的图像特征；

特征匹配步骤，以在上述图像特征抽出步骤中抽出的文字图像的图像特征为基础，从以单个文字为单位储存有文字图像的图像特征的字形特征字典中，按照图像特征的匹配度从高到低的顺序选择N个(N＞1的整数)文字图像作为候补文字，并且在将上述文字列的文字数设为M个(M＞1的整数)时，制作M×N维的索引矩阵，并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列，适用基于预定的语言模型的词汇解析，而制作出调整成有意义的文字列的第2索引矩阵；

索引信息储存步骤，将在上述特征匹配步骤中制作的第2索引矩阵，与上述所输入的文档图像相对应地进行储存；

检索步骤，在检索时，以所输入的检索式中的构成检索关键词的1个检索文字为单位，检索在上述索引信息储存步骤中储存的索引信息，并取出具有包含检索文字的第2索引矩阵的文档图像。

根据本发明，在图像特征抽出步骤中，将在文字列抽出步骤中定位并抽出的文档图像中的文字列的图像以1个文字为单位进行分割，并抽出各文字图像的图像特征。然后，在特征匹配步骤中，基于该图像特征，从以单个文字为单位储存有文字图像的图像特征的字形特征字典中，按照图像特征的匹配度从高到低的顺序选择N个(N＞1的整数)文字图像作为候补文字，而制作抽取出的文字数为M×N维的第1索引矩阵。

并且，对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列，适用基于预定的语言模型的词汇解析，而制作出调整成有意义的文字列的第2索引矩阵。

所制作的第2索引矩阵，在索引信息储存步骤中，与所输入的文档图像相对应地被储存，在检索时，该索引矩阵用作用于检索文档图像的索引信息。

由此，无须用户的人工操作，也无须使用OCR识别，即可自动地定位文档图像的文字区域中的文字列，利用定位的文字列的图像特征来生成文档图像的索引信息。

而且，由于抽出各文字图像的图像特征，并选择两个或两个以上图像特征近似的候补文字，所以通过适当地设定所选择的候补文字数，不会像OCR识别那样在文字识别时花费时间，可无识别遗漏地进行正确的检索。

另外，由于字形特征字典是以全部单个文字的文字图像的图像特征为单位进行制作的，且在特征匹配步骤中，将抽取出的文字列的图像分割成单个文字的文字图像，来进行图像特征的匹配，所以，所生成的索引矩阵的精度高。

在检索步骤中，以所输入的检索式中的构成检索关键词的1个检索文字为单位，检索上述索引信息储存部，并取出具有包含检索文字的索引矩阵的文档图像。

本发明的目的、特点及优点，可通过以下的详细说明和附图而变得更明确。

附图说明

图1是简要表示文档图像处理装置10的构成的方框图。

图2是详细表示文档图像处理装置10的构成的方框图。

图3是表示字体正规化处理部12制作字形样本DB13的处理的图。

图4是文字图像外围特征的说明图。

图5是网格方向特征的说明图。

图6是表示由文字图像特征抽出部14制作字形特征字典15的处理的图。

图7是表示对于文档图像50，将T1、T2、T3这3个区域作为标题区域进行了定位的状态的图。

图8是表示制作索引信息DB17的处理的图。

图9是表示由特征匹配部16制作索引矩阵的处理的一例的图。

图10是表示使用词汇解析法对制作的索引矩阵进行调整，而使第1列的文字列成为有意义的文字列的具体例的说明图。

图11是表示在双字母组模型中使用的字典数据300的构成例的图。

图12是表示使用了双字母组模型的索引矩阵的调整方法的流程图。

图13是表示检索部22的功能和检索处理的说明图。

图14是表示检索部22中的检索步骤的流程图。

图15是表示计算出检索关键词与索引矩阵的相关度的方法的说明图。

图16是使用具体例来表示检索关键词与索引矩阵的相关度的计算的说明图。

图17是表示具备词汇解析功能的检索处理的说明图。

图18是表示文档图像管理部中的处理的说明图。

图19表示文档图像显示部53中显示的被储存在文档图像DB19中的文档图像的阅览画面的一例。

图20是表示使用了多字母组模型的索引矩阵的调整方法的流程图。

具体实施方式

下面，参照附图，对本发明的优选实施方式进行详细说明。

图1是简要表示文档图像处理装置10的构成的方框图。文档图像处理装置10包括处理器4、和储存用于使处理器4进行实际处理的软件等的外部存储装置5。

处理器4在实际中进行：从文档图像中抽出进行检索所需要的标题区域的文档图像特征抽出处理；生成能够进行对于文档图像的检索的索引信息的索引信息生成处理；使用了索引信息的检索处理；使用索引信息来制作后述的有意义的文档名，并管理文档图像的文档图像管理处理等。

处理器4中的实际的处理，根据在外部存储装置5中储存的软件来执行。处理器4例如由通常的计算机主体等来构成。在本实施方式中，处理器4还执行制作在索引信息生成处理中使用的后述的字形特征字典15的字形特征字典制作处理。

外部存储装置5，例如可由能够进行高速访问的硬盘等来构成。为了大量保存文档图像，外部存储装置5也可以是使用光盘等的大容量设备的构成。后述的字形特征字典15、索引信息DB(数据库)17、文档图像DB19、字形样本DB13等由外部存储装置5构成。

文档图像处理装置10与键盘1连接，且与显示装置3连接。键盘1用于输入检索关键词。另外，键盘1还用于在阅览文档图像时输入指示。并且，键盘1还用于进行后述的候补文字数、相关值、以及行的相关度加权因数Q等的设定值的变更。显示装置3输出并显示文档图像等。在显示装置3中显示的内容中还包含相关度的信息、以及图像名称等信息。

文档图像处理装置10还与图像扫描仪2或数码相机6连接。图像扫描仪2和数码相机6用于取得文档图像。文档图像的取得不限于通过图像扫描仪2和数码相机6，也可以通过进行利用网络等的通信来取得。另外，也可以进行使用了图像扫描仪2或数码相机6的检索关键词的输入。

图2是详细表示文档图像处理装置10的构成的方框图。文档图像处理装置10包括：文字数据库输入部(文字DB输入部)11、文字正规化处理部12、字形样本DB13、文字图像特征抽出部(图像特征抽出部)14、字形特征字典15、特征匹配部16、索引信息DB17、标题区域初始处理部18、文档图像DB19、文档图像特征数据库(文档图像特征DB)20、文档图像输入部21、检索部22、词汇解析部23、关键词输入部24、检索结果显示部25、文档名制作部51、文档图像DB管理部52、文档图像显示部53、指示输入部54。

其中，由文字DB输入部11、字体正规化处理部12、字形样本DB13、文字图像特征抽出部14、字形特征字典15构成实施上述的字形特征字典制作处理的字形特征字典生成部30。

首先，对构成字形特征字典生成部30的文字DB输入部11、字体正规化处理部12、字形样本DB13、文字图像特征抽出部14、字形特征字典15进行说明。

文字DB输入部11用于输入为制作字形特征字典15所需的成为基本的文字数据库。如果本装置是例如中文对应的装置，则输入中华人民共和国GB2312的全部6763个文字等。另外，如果本装置是日语对应的装置，则输入JIS第1标准的约3,000个字种等。即，这里所说的文字中包含符号。这样的文字DB输入部11由处理器4构成，且文字数据库由记录媒体、或通过利用了网络的数据通信等来供给。

字体正规化处理部12用于对由文字DB输入部11输入的文字数据库中所包含的全部文字，制作不同字体和字号的文字图像。不同字体和字号的文字图像被储存在字形样本DB13中。

图3是表示字体正规化处理部12制作字形样本DB13的处理的图。在字体正规化处理部12中，如果本装置是中文对应的装置，则具备例如宋体、仿宋体、黑体、楷体等字形样本12a。另外，如果本装置是日语对应的装置，则具备明朝体、Gothic体…等字形样本。

字体正规化处理部12中的变形处理部12b，对文字数据库的文字进行图像化，并对文字图像进行标准化处理。然后，变形处理部12b参照字形样本12a，对标准化处理后的文字图像实施变形处理，并进一步改变为不同字体和大小的文字图像。变形处理中，包括例如模糊化处理、扩大/缩小化处理、细微化处理等。字体基准部12c将这样变形处理后的文字图像作为基准文字图像储存到字形样本DB13中。

在字形样本DB13中，针对文字数据库的所有文字，即使是相同的文字，也储存有对应每个由字体、大小决定的字形的基准文字图像。如果举例说明，则，即使文字种类都是“中”，也存在仅相当于所决定的字体的数量的不同形状的基准文字图像的“中”，另外，还储存有仅相当于所决定的大小的数量的不同大小的基准文字图像的“中”。

文字图像特征抽出部14是抽出文字图像的特征(图像特征)，并储存到字形特征字典15中的部分。在本实施方式中，文字图像特征抽出部14根据文字图像外围特征与网格方向的组合，来抽出文字图像的特征，并设为特征矢量。另外，文字图像的特征不限于这些，也可以抽出其他特征来形成特征矢量。

这里，预先对文字图像外围特征和网格方向特征进行说明。图4是文字图像外围特征的说明图。所谓文字图像外围特征是指从文字图像的外部观察的轮廓的特征。如图4所示，从文字图像的外接矩形的4边进行扫描，并将从白像素变化为黑像素时的点为止的距离作为特征，取出最初变化的位置和第二次变化的位置。

例如，在将外接矩形分割成X行Y列的场合下，以行为单位分别从左方向和右方向扫描图像，以列为单位分别从上方向和下方向扫描图像。另外，图4是表示以行为单位从左进行扫描的图。

另外，在图4中，用实线箭头A表示最初从白像素变化为黑像素时的点为止的扫描轨迹。虚线箭头B表示第二次从白像素变化为黑像素时的点为止的扫描轨迹。实线箭头C表示最终也未能检测到从白像素变化为黑像素的点的情况下的扫描轨迹，在这种没有变化点的场合下，距离值为0。

图5是网格方向特征的说明图。将文字图像分割成粗网格，对各格子区域内的黑像素，向预先确定的两个或两个以上方向延伸触手。然后，对在各方向上连接的黑像素的像素数进行计数，并将表示该黑像素按各方向成分的分布状况的方向影响度，作为识别函数采用欧几里得距离，并利用与黑像素数之差相应的值，对距离值进行除法运算，而计算出距离值。

在图5(a)中，将文字图像分割成4×4共16个格子，且以在X轴方向上最接近于格子交点的从黑像素变化为白像素的点为中心，向X轴方向(0°)、45°方向、Y轴方向(90°)的3个方向延伸触手。

在本实施例中，将文字图像分割成8×8的4角的网格，并如图5(b)所示，向0°、45°、90°、135°、180°、225°、270°、315°这8个方向延伸触手。

另外，作为网格方向的特征的抽出方法，有设置触手的延伸方向、延伸触手的中心点的方法等各种方法，例如记载在日本专利特开2000-181994号公报等中。

文字图像特征抽出部14，对储存在文字形状样本DB13中的所有的基准文字图像进行这样的文字图像的特征的抽出。然后，文字图像特征抽出部14将储存在字形样本DB13中的基准文字图像的抽出结果储存到字形特征字典15中，而生成字形特征字典15。

图6是表示制作基于文字图像特征抽出部14的字形特征字典15的处理的图。文字图像特征抽出部14中的字形标准化部14a从字形样本DB13中取出基准文字图像，文字图像特征取出部14b从由字形标准化部14a取出的基准文字图像中取出其特征。然后，特征分类部14c参照字形样本DB13，对从按每个基准文字图像抽出的特征进行分类，并储存到字形特征字典15中。

在文字图像特征取出部14b中，如上述那样，按每个单个文字，求出基于带加权的不同基准文字图像的特征的适应值，并取得基准文字图像的标准特征。

文字图像特征取出部14b通过对不同字体字号进行加权，可制作不同的字形特征字典。通过融合多字体的图像特征，且以单个文字图像特征为单位来制作字形特征字典，可满足多字体/字号文档图像的自动检索和管理。

下面，说明构成实施文档图像特征抽出处理的文档图像特征抽出部31的文档图像DB19、文档图像特征DB20、标题区域初始处理部18、文字图像特征抽出部14。

文档图像DB19是在由文档图像输入部21输入文档图像时，对其附加用于识别的文档ID并进行保存的数据库。

标题区域初始处理部18是在文档图像DB19中保存了新的文档图像时，根据其图像数据来定位并抽出文档图像中的标题区域，然后将文字图像送到上述的文字图像特征抽出部14的。

图7表示对文档图像50以T1、T2、T3这3个区域定位为标题区域的状态。根据该图7也可以看出，将文档图像50中的标题部分作为标题区域T抽出。

由标题区域初始处理部18抽出并送到文字图像特征抽出部14的文字图像，通常是包含两个或两个以上文字的文字列的图像。从而，在以下的说明中，将由标题区域初始处理部18送来的文字图像设为文字列的图像。

在本实施方式中，标题区域初始处理部18利用投影法和连通区域统计分析来进行标题区域T的定位和抽出。另外，这样的标题区域T主要相当于标题部分，例如可以采用在日本专利特开平9-319747号公报、日本专利特开平8-153110等所记载的方法等各种以往的方法。

由于不是将文档图像的全部文字区域(文本区域)作为对象，而是如上所述仅将标题区域T定位并抽出，所以可减少成为检索对象的信息量，并缩短检索时间。

其中，不是对全部的文本区域进行定位而仅对标题区域T进行定位的事项，对于检索而言并不是必须的构成要素，也可以对全文的文本区域进行定位并抽出。但是，对于后述的有意义的文档名的制作而言，仅对标题区域T进行定位是必须的构成要素。

文字图像特征抽出部14，对于从标题区域初始处理部18输入的文字列的图像，分割成单个文字的文字图像，然后与字形特征字典15的制作时同样，抽出各文字图像的特征。然后，将抽出的特征，在文档图像特征DB20中按每个文档图像进行储存。

在文档图像特征DB20中，由标题区域初始处理部18抽出的标题区域T中所包含的文字列的图像的特征信息，作为构成文字列的各文字的各自的特征(特征矢量)而被储存。

如图7所示，对于1个文档图像50，将在所抽出的全部标题区域T1、T2、T3…中所包含的文字列的文字图像的特征，即构成文字列的各文字的文字图像的特征，与文档图像50的文档ID一同储存。

下面，说明构成实施索引信息制作处理的索引信息生成部32的文字图像特征抽出部14、字形特征字典15、特征匹配部16、索引信息DB17、文档图像特征DB20。

文字图像特征抽出部14、字形特征字典15、文档图像特征DB20的功能，与上述的说明相同。

特征匹配部16是从文档图像特征DB20中读出在文档图像的标题区域T中所包含的文字图像的特征，基于该读出的特征，参照字形特征字典15，如后述那样制作索引矩阵，并生成文档图像的索引信息的部分。

这里，对应1个文档图像生成1个索引信息，并按每个标题区域T制作索引信息中所包含的索引矩阵。从而，在1个文档图像内存在两个或两个以上标题区域T的场合下，在该文档图像的索引信息中包含两个或两个以上索引矩阵。

图8表示制作索引信息DB17的处理。如上所述，当某个文档图像被输入并被储存到文档图像DB19中时，文字图像特征取出部14b抽出在各标题区域T中所包含的文字列的文字图像的特征，并储存到文档图像特征DB20中。

特征匹配部16从文档图像特征DB20中读出各标题区域T中所包含的文字列的图像的特征，且按每个单个文字与字形特征字典15内的基准文字图像进行匹配，而制作标题区域T各自的索引矩阵。

然后，特征匹配部16将该文档图像的其他信息，即文档ID和文档图像DB19内的该当的文档图像的保存位置的信息等包含在这些索引矩阵中，而作为索引信息储存到索引信息DB17中。

图9表示基于特征匹配部16的制作索引矩阵的处理的一例。图9是说明针对图7中的标题区域T3中所包含的文字列“去神仙居住的地方”这8个文字图像，制作索引矩阵的说明图。

文字列“去神仙居住的地方”被分割成单个文字图像“去”“神”“仙”“居”“住”“的”“地”“方”。将这样的文字列的图像分割成单个文字的图像的处理，可利用以往的方法。

在“去”...“方”这8个文字中，按照排列顺序附加1～8的编号，即对“去”附加1、对“神”附加2、...对“方”附加8。该编号相当于索引矩阵的行编号。

对这样的所有的8个文字图像，实施如下的处理，即：取出针对被储存在图9中参照符号X所示的文档图像特征DB20中的文字图像“去”的特征(S1)，并参照字形特征字典15，按照特征相近(匹配度高)的顺序，选择N个候补文字(S2)。

对按照匹配度从高到低的顺序抽出的N个候补文字，附加与抽出顺序相应的编号，该编号相当于索引矩阵的列编号。然后，根据该列编号，来设定表示检索关键词中所包含的各检索文字与候补文字之间的匹配度的文字相关值(相关值)。

在图9中，由参照符号100所表示的表表示文字列“去神仙居住的地方”的索引矩阵的内容。例如，对于第5个文字的“住”的文字图像，在行编号为5的行中，从匹配度高的第1列，顺序地抽出“任”、“佳”、“住”、…、“仁”的候补文字。在表100中，例如候补文字“去”的索引矩阵内的位置是[1，1]，候补文字“屑”的位置是[4，2]，候补文字“仁”的位置是[5，N]。

另外，在图9的表100中，为了有助于理解，对于与文字列的各文字对应的候补文字附加○进行表示。

对于这样的索引矩阵的行数M，根据由标题区域初始处理部18作为标题区域T而抽出的文字列的图像的文字数来决定。另外，列数N是根据针对1个文字所选择出的候补文字数来决定。从而，根据本发明，可通过改变索引矩阵的维数(列数)，来灵活地设定索引矩阵内的要素数，即候补文字数量。因此，在文档图像的检索中，可以进行正确且几乎无遗漏的检索。

在索引矩阵中，可以与检索关键词的输入方法相应地适当设定所选择的候补文字的信息赋予方式。例如，如果是由键盘1来输入检索关键词的构成，则以文字代码等信息的形式储存候补文字，从而能够对从键盘输入的检索关键词进行检索。

另外，如果是采用图像扫描仪2等以图像数据的形式输入检索关键词的构成，则也可以抽出检索关键词的特征(特征矢量)，以特征(特征矢量)信息的形式储存候补文字，从而能够对特征矢量彼此进行比较。

返回到图7，对索引信息DB17中的索引信息的数据配置例进行说明。在存在两个或两个以上标题区域T1、T2、T3、…、Tn的文档图像50的索引信息中，针对两个或两个以上标题区域T1、T2、T3、…、Tn制作的索引矩阵配置成线形。在图7的例中，文档ID被配置在先头，接下来配置两个或两个以上索引矩阵，最后配置保存位置的信息。这里，5×N表示索引矩阵的大小，表示5行N列的情况。

通过预先将索引信息进行这样的数据配置，可以迅速地定位文档图像DB19内的文档图像的储存位置、和文档图像中的标题区域T的位置，并用于检索结果的显示。

另外，也可以根据实际要求，在索引信息中追加文档图像的其它属性。

本发明中，进而对索引矩阵100适用使用了语言模型的词汇解析法，而调整构成候补文字列的各候补文字，使其成为有意义的候补文字列。

更具体地讲，特征匹配部16基于所制作的索引矩阵100，制作将位于该索引矩阵中的第1列的各行的候补文字按顺序排列的候补文字列。然后，对由构成该候补文字列的连续的各行的候补文字构成的单词的词义进行解析，并调整各行的第一列的候补文字，从而使候补文字列带有意义。

图10是表示调整所制作的索引矩阵而使第一列的文字列成为具有意义的文字列，为此采用词汇解析法来进行调整的具体例的说明图。

由图10的上部分所示的调整前的索引矩阵100制作成的候补文字列为“去伸仙居任酌地方”，不具有意义。

用作有意义的文档名的候补文字列中，主语、谓语、以及宾语的连接词关系等必须在意义上正确。在此，利用词汇解析，变换成有意义的候补文字列。具体地说，对于两个或两个以上错误候补文字，使用概念词典，分析两个或两个以上错误候补文字与候补文本的其它单词之间的意义信息，而将候补文字列修改为有意义的文字列。

在这种词汇解析中所采用的语言模型61，只要提供由所有的汉字开始的活字的统计数据即可。换言之，利用该语言模型61的主要概念，可以在技术上确立自动搜索系统，能够得到与中文报纸(例如“People’s Daily(人民日报)”)的稿本有关的统计数据。

在本实施方式中，使用双字母组(Bi-gram)模型来作为语言模型。

双字母组模型是两个文字、两个音节、或者两个单词的群(group)，且作为文本的简单统计分析的基础被广泛使用。

图11是表示使用双字母组模型的字典数据300的构成例的图。

字典数据的第1列301表示两字组合的第1个文字。第2行302表示与第1个文字共同构成了组合的文字的个数。第3行303表示与第1个文字共同构成了组合的文字，第4行304表示构成了组合的次数。并且，第5行305表示组合的中文的文字个数。这里，由于使用双字母组模型，所以文字个数全是2。

在候补文字列的调整中，基于马尔可夫过程，主要使用文字的推移以及混合的概率等单词内的上下文信息，来进行基于Viterbi算法的最优路径检索。

使用上述那样的中文字典的帮助，自动地调整索引矩阵，而将全部的最适合的候补调整到第1行。

基于只根据每个文字的匹配度决定的索引矩阵100，首先对第1列的文字列进行基于使用了前后检索的双字母组模型的调整，由此可提高匹配的候补的正确性和效率性。

并且为了提高其正确性，对文字列的一部分进行基于以单词为基础的双字母组模型的调整。由此，虽然处理速度下降，但可获得高正确性。

以下，以索引矩阵100为例说明具体的调整方法。

使用以文字为基础的双字母组模型，首先根据第2行与第3行的关系，将第2行的第2候补“神”与“伸”替换，作为第1候补。另外，根据第4行与第5行的关系，将第5行的第3候补“住”与“任”替换，作为第1候补。

并且，进行基于以单词为基础的双字母组模型的调整，根据“神仙”以及“居住”的单词的属性，以及它们的关联性，将第6行的第2候补“的”与“酌”替换，调整为第1候补。

在这样地被调整的索引矩阵200的第1列中所含的候补文字列成为“去神仙居住的地方”，成为具有意义的文字列。另外，特征匹配部16，也可以将这样的调整后的索引矩阵200储存到索引信息DB17中。

在步骤S1中，判断是否到达了索引矩阵的最后行。如果未到达，则进入步骤S2，如果已到达，则进入步骤S5。

在步骤S2中，对所关注的行，即第1次的处理的情况下，取出第1行的第1候补。在步骤S3中，适用双字母组模型，对于所关注的行的第1候补和与其相邻的行的各候补的组合，在字典内的出现频度进行统计性计数。

在步骤S4中，将计数值与预定的阈值进行比较，将计数值超过了阈值的组合作为第1候补。

在步骤S5中，从最初一行分析所决定的第1候补的连接关系，并决定单词。在步骤S6中，决定所决定的单词之间的第1候补。

在步骤S7中，判断在所关注的第1候补文字列中存在的文字集合是否符合字典数据的词义规则。如果符合，则进入步骤S8，结束处理，获得调整后的索引矩阵。如果不符合，则进入步骤S9，调整不符合的行的第1候补，并返回到步骤S6。

下面，对实施使用了索引信息的检索处理的检索部22进行说明。图13是表示检索部22的功能和检索处理的说明图。检索部22具有索引矩阵检索处理部22a、文字相关值保存部(保存部)22b、相关度计算部22c、显示顺序决定部(顺序决定部)22d、以及文档图像抽出部22e。

对于索引矩阵检索处理部22a，由关键词输入部24输入检索关键词。作为关键词输入部24，相当于上述的键盘1或图像扫描仪2等。

索引矩阵检索处理部22a是对索引信息DB17进行检索，而检索出包含所输入的检索关键词的索引矩阵的部分。索引矩阵检索处理部22a将检索关键词分割成单个文字，搜索包含各检索文字的索引矩阵，在包含检索文字的场合下，取得该检索文字在索引矩阵内的匹配位置的信息。另外，关于索引矩阵的抽出顺序例，将在下面采用图11的流程图来进行说明。

文字相关值保存部22b是保存由索引矩阵检索处理部22a取得的匹配位置的信息、和与该匹配位置的列编号相应的文字相关值的部分。

相关度计算部22c是在索引矩阵检索处理部22a中完成了对全部索引矩阵的检索时，计算出所检索出的索引矩阵与检索关键词之间的相关度的部分。

相关度的计算，是采用被保存在文字相关值保存部22b中的匹配位置和文字相关值的信息，并按照预先设定的相关度计算方法来进行计算的。关于相关度的计算，将在下面采用图15、图16来进行说明。

另外，这里，构成为文字相关值保存部22b保存匹配位置的信息、和与该匹配位置的列编号相应的文字相关值，但也可以构成为：文字相关值保存部22b只保存匹配位置，相关度计算部22c由匹配位置的信息取得文字相关值。

显示顺序决定部22d是基于由相关度计算部22c计算出的相关度的信息来决定显示顺序的部分。显示顺序决定部22d按如下方式决定显示顺序，即：从包含相关度高的索引矩阵的文档图像开始，依次在检索结果显示部25中显示文档图像的内容。

文档图像抽出部22e是，以按照由显示顺序决定部22d所决定的顺序显示文档图像的方式，从文档图像DB19中读出文档图像的图像数据，并输出到检索结果显示部25来进行显示。

检索结果显示部25按照显示顺序来显示文档图像。也可以采用缩略图显示等的方式。作为检索结果显示部25，相当于上述的显示装置3等。

这里，说明检索顺序。图14是表示检索部22中的检索顺序的流程图。当输入了由R个文字列构成的检索关键词，并指示进行检索时，索引矩阵检索处理部22a首先取出检索关键词的第1个检索文字(S11)。

然后，索引矩阵检索处理部22a对索引信息DB17内的全部索引矩阵进行第1个检索文字的检索(S12)。

在完成了对全部索引矩阵的检索时，判断是否检索到第1个检索文字，在1个也没有检索到的场合下，转移到S19，在检索到的场合下进入S14。

在S14中，索引矩阵检索处理部22a将包含第1个检索文字的索引矩阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。

接着，索引矩阵检索处理部22a取出包含有第1个检索文字的全部的索引矩阵(S15)。然后，取出作为检索关键词的下一个文字的第2个检索文字，并对在S15中取出的包含有第1个检索文字的索引矩阵进行检索(S16)。

在完成对在S15中取出的全部索引矩阵的检索时，判断是否检索到第2个检索文字(S17)。在1个也没有检索到的场合下，与上述同样地转移到S19，在检索到的场合下进入S18。

在S18中，索引矩阵检索处理部22a将包含有第2个检索文字的索引矩阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。

接下来，索引矩阵检索处理部22a再次返回到S16，取出作为检索关键词中的再下一个文字的第3个检索文字，并对在S15中取出的包含有第1个检索文字的索引矩阵进行检索。

然后，在这里，也在完成检索时，索引矩阵检索处理部22a判断是否检索到第3个检索文字(S17)，在1个也没有检索到的场合下，转移到S19，在检索到的场合下，再次进入S18，进行关于检索关键词的再下一个检索文字的检索。

索引矩阵检索处理部22a，一直进行这样的S16～S18的处理，即以在S15中抽出的包含有第1个检索文字的索引矩阵为对象的、第2个以后的各检索文字的收缩检索，直到在S17中判断为1个也没有检索到、或完成了对检索关键词内的全部检索文字的检索为止，然后转移到S19。

在S19中，取出作为检索关键词中的下一个文字的第2个检索文字。然后，判断检索文字是否都已被检索，即，是否完成了对全部的检索文字的检索(S20)，在未完成的场合下，返回到S12。

然后，与上述同样，索引矩阵检索处理部22a对索引信息DB17内的全部索引矩阵进行第2个检索文字的检索。在检索到的场合下，保存索引矩阵的匹配位置和文字相关值，然后进入S15，对包含有第2个检索文字的全部索引矩阵，针对检索关键词的下一个文字，即作为第2个之后的第3个以后的各检索文字，反复进行S16～S18，从而进行收缩检索。

索引矩阵检索处理部22a，对第3个以后的各检索文字依次进行如下处理，即：在S19中进行对一个检索文字的如上述的检索，并取出包含进行检索的检索文字的索引矩阵，且用其以后的检索文字来进行收缩检索。

然后，在由S19取出了检索关键词内的全部检索文字，并且由S20判断为完成了对全部检索文字的检索的场合下，进入S21。

在S21中，相关度计算部22c如后述那样根据相关度基准，来计算出检索关键词与各索引矩阵的相关度。

然后，显示顺序决定部22d以从包含相关度高的索引矩阵的文档图像开始进行显示的方式决定显示顺序，文档图像抽出部22e从文档图像DB19中取得文档图像的图像数据，检索结果显示部25按相关度高的顺序来显示文档图像(S22)。

接下来，采用图15、图16，对相关度计算部22c中的根据相关度基准来计算索引矩阵与检索关键词的相关度计算方法进行说明。

在图15的参照符号101的方框中，记载有检索条件。而且，在参照符号102的方框中，记载有用于计算相关度的某个假设的检索关键词与索引矩阵的相对关系。在方框101所示的检索条件下，在检索关键词与索引矩阵为如方框102所示的相对关系的场合下，可以通过由方框103所示的计算式来计算出检索关键词与索引矩阵的相关度。

首先，对方框101的检索条件进行说明。检索关键词的文字数为R个，第1个检索文字为C1、第2个为C2、…、第R个为Cr。

成为检索对象的索引矩阵为M×N维矩阵。即，作为标题区域T而抽取出的文字列图像的文字数为M个，作为文字列的各文字的各候补而选择出的候补文字数为N个。

由于作为检索文字与各候补文字的相关值的文字相关值，是相应于索引矩阵的各位置来决定的，所以成为与索引矩阵相同维数的矩阵。即，文字相关值矩阵的权重为M×N维矩阵。例如，权重[i][j]表示位于索引矩阵中的位置[i，j](＝Index[i，j])上的候补文字匹配的场合下的文字相关值。在本实施方式中，如果索引矩阵的列编号[j]相同，则与行编号[i]无关，文字相关值相同。

行的相关度加权因数Q是在索引矩阵中相邻的2行中检索文字匹配的场合下，对这些2行的文字相关值附加的加权。在相邻的2行中检索文字匹配的场合下，包含检索关键词的连续的2个文字的可能性大。

在将行的相关度加权因数Q设定得高时，对于相关度计算部22c计算出的相关度的影响度，在连续匹配的2行的文字相关值中变大，但是在不相邻的各行的文字相关值中变小。即，通过将行的相关度加权因数Q设定得高，接近以词汇为单位进行检索的结果，反之，通过将行的相关度加权因数Q设定得小，接近以单字为单位进行检索的结果。

将检索文字C1匹配的文字相关值表示为W1，将检索文字C2匹配的文字相关值表示为W2，…，将检索文字Cr匹配的文字相关值表示为Wr。

接下来，对方框图102所示的为了计算相关度而假设的检索关键词与索引矩阵之间的相对关系进行说明。

检索关键词与索引矩阵之间具有全部的检索文字C1，C2，…，Cr与索引矩阵内的任意候补文字相匹配的关系。将检索文字C1，C2，…，Cr匹配的各候补文字在索引矩阵内的位置，即匹配位置表示为[C1i，C1j]、[C2i，C2j]，…，[Cri，Crj]。

而且，作为进一步的相对关系，具有方框102所示的式(1)的关系，即：

C(k+1)i＝Cki+1，C(m+1)i＝Cmi+1(m＞k)

在该式中，k、m表示构成检索关键词的各检索文字的相对位置。另外，C(k+1)i表示与检索关键词的第k+1个检索文字匹配的候补文字的索引矩阵内的行编号，Cki表示与检索关键词的第k个检索文字匹配的候补文字的索引矩阵内的行编号。

从而，C(k+1)i＝Cki+1表示与检索关键词的第k+1个检索文字匹配的候补文字在索引矩阵内的行编号，和在与检索关键词的第k个检索文字匹配的候补文字在索引矩阵内的行编号上加1的编号相同。换言之，C(k+1)i＝Cki+1表示检索关键词的第k+1个检索文字和第k个检索文字具有分别与索引矩阵中的相邻的2行相匹配的关系。

C(m+1)i＝Cmi+1也同样，表示检索关键词的第m+1个检索文字和第m个检索文字具有分别与索引矩阵中的相邻的2行相匹配的关系。

在检索关键词与索引矩阵具有这样的相对关系的场合下，可以通过方框103所示的式(2)来计算出检索关键词与索引矩阵的相关度。

SimDegree＝W1+W2+…+W(k-1)+Q*(Wk+W(k+1))+…

+W(m-1)+Q*(Wm+W(m+1))+…+Wr

在该式中，W1是第1个检索文字C1匹配的文字相关值，W2是第2个检索文字C2匹配的文字相关值，W(k-1)是第(k-1)个检索文字C(k-1)匹配的文字相关值。同样，W(k)是第k个检索文字Ck匹配的文字相关值，W(k+1)是第(k+1)个检索文字C(k+1)匹配的文字相关值。另外，W(m-1)是第(m-1)个检索文字C(m-1)匹配的文字相关值。同样，W(m)是第(m)个检索文字C(m)匹配的文字相关值，W(m+1)是第(m+1)个检索文字C(m+1)匹配的文字相关值，另外，最后的Wr是第r个的最后的检索文字C1匹配的文字相关值。

这样，在相关度的计算中，构成检索关键词的全部检索文字的文字相关值W被累加(累计)计算。

而且，在式(2)中的Q*(Wk+W(k+1))表示：由于检索关键词中的第k个检索文字Ck和第(k+1)个检索文字C(k+1)分别与索引矩阵中的相邻的2行相匹配，所以对文字相关值Wk和文字相关值W(k+1)乘以行的相关度加权因数Q。关于Q*(Wm+W(m+1))也同样。

另外，检索关键词的第k-1个检索文字与第k个检索文字，由于不具有与相邻的2行相匹配的关系，所以对W(k-1)和Wk双方不乘以相关度加权因数Q。关于W(m-1)和Wm也同样。

另外，由于图15的方框102所示的检索关键词与索引矩阵的相对关系中，具有全部的检索文字C1、C2、…、Cr与索引矩阵内的任意候补文字相匹配的关系，所以在式(2)中，将W1～Wr的全部的检索文字的文字相关值累计计算。

但是，这只是一例，例如，在虽然具有式(1)的相对关系，但检索文字C1和检索文字Cr不与索引矩阵内的任意候补文字相匹配的场合下，计算相关度的计算式为如下计算式，相应于累积项的减少，当然其相关度会降低。

SimDegree＝W2+…+W(k-1)+Q*(Wk+W(k+1))+…

+W(m-1)+Q*(Wm+W(m+1))+…+W(r-1)

另外，在具有全部检索文字C1、C2、…、Cr与索引矩阵内的任意候补文字相匹配的关系，并且，具有检索关键词的第k+1个检索文字和第k个检索文字、以及第k+2个检索文字和第k+1个检索文字分别与相邻的2行相匹配的关系的场合下，计算相关度的计算式为如下计算式。

SimDegree＝W1+W2+…+W(k-1)

+Q*(Wk+W(k+1)+W(k+2))…+WR

在该场合下，由于检索关键词的第k-1个检索文字和第k个检索文字不具有与相邻的2行相匹配的关系，所以对W(k-1)和Wk双方不乘以相关度加权因数Q。

下面，采用图16，对相关度计算的具体例进行说明。这里，求出图10所示的文字列“去神仙居住的地方”的索引矩阵(参照表200)与检索关键词“神仙”的相关度。

图16的方框104表示检索条件。相关值矩阵Weight是M×N维，文字相关值是Weight[i]＝[1，1-1/N，1-2/N，…，1/N](i＝0，1，…，M-1)，行的相关度加权因数Q。

检索关键词“神仙”分别被分割成第1个检索文字“神”和第2个检索文字“仙”，对于这两个字，分别在索引矩阵内的候补文字中进行检索。

参照图10的表200可看出，检索文字“神”与索引矩阵中的位置[i、j]的[2、1]相匹配，检索文字“仙”与索引矩阵中的[3、1]相匹配。

从而，如方框105所示，检索文字“神”的文字相关值为1，检索文字“仙”的文字相关值为1。

而且，检索文字“神”的行编号为[2]，检索文字“仙”的行编号为[3]，如图10的表200所示，这2个检索文字分别与索引矩阵中的相邻的2行相匹配。

从而，如方框106所示那样，对检索文字“神”的文字相关值1和检索文字“仙”的文字相关值1乘以行的相关度加权因数Q，检索关键词的“神仙”与文字列“去神仙居住的地方”的索引矩阵之间的相关度为SimDegree＝Q*(1+1)＝2Q。

检索关键词与索引矩阵之间的相关度，通过按照用户的要求灵活地调整相关值矩阵中的加权(文字相关值)和行的相关度加权因数Q等的参数，可以获得更理想的检索结果。

用户可采用键盘1等，相应于需要而适当设定相关值矩阵中的加权(文字相关值)和行的相关度加权因数Q等的参数。

而且，基于这样的图像特征的索引和匹配方式，可以满足多种语言的文档图像的索引和检索。不需要进行文字识别，计算量少。本发明不限于中文，可以应用于各种语言的文档图像。

最后，对具备词汇解析功能(语义分析功能)的检索处理进行说明。如图13所示那样，在本实施方式的文档图像处理装置10中，在关键词输入部24与检索部22之间，设有词汇解析部23。图17中表示具备词汇解析功能的检索处理。

词汇解析部23由语义分析处理部23a和语义词典23b构成。语义分析处理部23a，在从关键词输入部24输入检索关键词时，参照语义词典23b，对检索关键词的词汇进行分析。

例如，在作为检索关键词输入“中日关系”时，语义分析处理部23a作为与“中日关系”相关的单词，将例如“中国”、“日本”、“关系”这3个输入到检索部22。这些“中国”、“日本”、“关系”具有或的关系，检索式为“中国”或“日本”或“关系”。

将该检索式“中国”或“日本”或“关系”输入到检索部22，检索部22对索引信息DB17进行检索，抽出包含“中国”的文档图像、包含“日本”的文档图像、和包含“关系”的文档图像。

由此，不仅能够检索出直接包含所输入的检索关键词的文档图像，而且还能够检索出相关的文档图像。

接下来，对实施文档图像管理处理的文档图像管理部57进行说明。文档图像管理部57由文字图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20、文档名制作部51、文档图像DB管理部52、文档图像显示部53、指示输入部54构成，下面对这些进行说明。

关于文字图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20的功能已进行了说明。在此，仅对为实施文档图像管理处理而进一步所需的功能进行适当说明，该文档图像管理处理中制作有意义的文档名并对文档图像特征DB20的文档图像进行管理。

采用图18说明文档图像管理处理。从由图像扫描仪2及数字摄影装置6构成的文档图像输入部21，输入文档图像1～N。

对于所输入的文档图像1～N，标题区域初始处理部18对各文档图像的内容进行分析，并抽取出标题区域获取文字列。接着，虽然未图示，但文字图像特征抽出部14与上述同样，将所抽取出的标题区域中包含的文字列的文字图像以1个文字为单位进行分割，并抽出各文字图像的图像特征。

然后，以这样抽出的文字图像的图像特征为基础，由字形特征字典15及特征匹配部16构成的候补文字列生成部55，选择图像特征的匹配度高的文字图像作为候补文字，并制作成与所抽取出的标题区域中包含的文字列相应的候补文字列，而且如上述那样采用词汇解析法来调整构成该候补文字列的各候补文字，并设为有意义的候补文字列。

由候补文字列生成部55这样生成的有意义的候补文字列被送到文档名制作部51。

文档名制作部51，对所输入的文档图像，制作出包含有由候补文字列生成部55生成的有意义的候补文字列的文档名。以下，将包含有该有意义的候补文字列的文档名称为“有意义的文档名”。

从时间数据等发生部60向文档名制作部51，还输入表示文档图像被输入的时间及输入路径的数据等其它数据。文档名制作部51还可以采用至少包含从时间数据等发生部60输入的时间数据的其它数据，来生成文档名。

例如，也可以构成为：将时间数据等其它数据之中的时间数据包含在有意义的文档名中，且将有意义的文档名由时间数据和有意义的候补文字列来构成。

或者，也可以采用时间数据等其它数据，来对相同的文档图像制作另外的文档名。以下，将由时间数据等其它数据等构成的文档名称为原始的文档名。

通过这样构成，对一个文档图像，可以利用有意义的文档名、以及由时间数据等其它数据等构成的原始的文档名来进行管理。

对于每一个文档图像生成的有意义的文档名、以及原始的文档名，被送到文档图像DB管理部52，且在文档图像DB19中，与文档图像的图像数据相对应地进行储存。

文档图像DB管理部52，当用户采用由键盘1等构成的图1所示的指示输入部54，来输入文档图像DB19中所存储的文档图像的阅览指示等时，在由显示装置3等构成的图1的文档图像显示部53上，显示阅览画面。

图19中表示在文档图像显示部53上显示的、文档图像DB19中所储存的文档图像的阅览画面的一个例子。

图中，左侧所示画面201表示所存储的文档图像按原始的文档名列表表示的状态。在画面201的上面，示出了各文档图像的输入顺序。在纸面上最靠前的带有“AR-C262M_20060803_103140”的原始的文档名的文档图像，是在该画面中最先被输入的文档图像。“20060803”表示输入的日期(2006年8月3日)，“103140”表示时间(10点31分40秒)。

在这样的显示状态下，通过选择画面上所显示的“有意义的文档名”的标识符等的操作，阅览画面的显示在图中将转移到右侧所示的画面202。画面202表示所存储的文档图像按有意义的文档名列表表示的状态。

该画面202与画面201对应，在此，画面201的上部所示的、纸面上最靠前的带有“定格惠州西湖”的有意义的文档名的文档图像，是在该画面中最先被输入的文档图像。

这样，能够按有意义的文档名来进行阅览，由此用户可容易实施所存储的文档图像的管理及搜索。此外，一并制作出原始的文档名，由此可同时看到时间数据等信息与文档名。

另外，在该文档图像处理装置中，采用制作成的索引矩阵来制作索引信息，并用于检索处理中。因此，标题区域初始处理部18抽出文档图像中包含的两个或两个以上标题区域T，并制作各自的索引矩阵。然而，如果仅仅以对文档图像制作有意义的文档名为目的的话，则没有必要抽出文档图像中包含的两个或两个以上标题并制作各自的索引矩阵。

换言之，可以构成为：对于最能表示出文档图像的标题区域中包含的标题的文字列(文字图像列)，制作出索引矩阵，并基于此，使用特征匹配的文字列，来制作带有意义的名称。

作为最能表示出文档图像的标题区域，例如可以设为所抽出的两个或两个以上标题区域之中、存在于文档图像的最上面一行的区域。这是因为重要的标题很多场合下配置在文档图像的最上面一行。

此外，也可以将标题区域中包含的文字的大小设为比某个阈值大，且比所抽出的其它标题区域中的文字大。这是因为重要的标题很多场合下用比其它标题大的文字大小来记载。

或者，也可以将标题区域中包含的文字的字体(字形)类型，设为与所抽出的其它标题区域的文字不同的字体类型。这是因为重要的标题很多场合下用与其它标题不同的字体(字形)来记载。此外，也可以附加其他基准，并且各基准可以分别采用，也可以组合来采用。

此外，如该文档图像处理装置那样，在对于一个文档图像抽出两个或两个以上标题区域，并制作出各自的索引矩阵的构成中，通过标题区域的配置位置、文字大小、或字体，来特定最重要的标题区域的索引矩阵即可。此外，如果是这种场合，则特别优选为，从所抽出的两个或两个以上标题区域的索引矩阵中，制作出最频繁出现的单词包含在候补文字列中的索引矩阵。

作为本发明的其它实施方式，也可以取代双字母组模型而使用多字母组模型进行索引矩阵的调整。

由于上述的实施方式，只是在候补文字列的调整方法中使用多字母组模型这一方面不同，其它构成相同，所以省略详细说明。

在步骤S31中，判断是否到达了索引矩阵的最后一行。如果未到达，则进入步骤S32，如果到达，则进入步骤S40。

在步骤S32中，取出所关注的行，即在第1次的处理的情况下，取出第1行的第1候补。在步骤S33中，适用多字母组模型，来对所关注的行的第1候补和与其相邻的行的各候补的组合，在字典内的出现频度进行统计性计数。

在步骤S34中，对计数值与预定的阈值进行比较，并判断计数值是否超过了阈值。如果超过了阈值，则进入步骤S35，如果未超过阈值，则进入步骤S36。

在步骤S35中，决定相邻的行的第1候补，然后进入步骤S36。在步骤S26中，再次适用多字母组模型，对所关注的行和与其连续的两个或两个以上行的各候补的组合，在字典内出现的频度进行统计性计数。

在步骤S37中，对计数值与预定的阈值进行比较，判断计数值是否超过了阈值。如果超过了阈值，则进入步骤S38，决定在所关注的行之后连续的两个或两个以上行的第1候补。如果未超过阈值，则选择表示最大频度的文字，暂定为第1候补。

在步骤S40中，基于所决定的词或语句之间的相关性，暂定第1候补。在步骤S41中，判断第1候补文字列中的文字集合是否符合字典数据的词义规则。如果符合，则进入步骤S42，结束处理，获得被调整的索引矩阵。如果不符合，则进入步骤S43，调整不符合的行的第1候补，并结束处理。

这样，通过适用多字母组模型，相比于双字母组模型，可制作更正确的候补文字列。

最后，文档图像处理装置的各部分，特别是字体正规化处理部12、文字图像特征抽出部14、特征匹配部16、标题区域初始处理部18、检索步22、词汇解析部23、文档名制作部51、以及文档图像DB管理部52等，可以由硬件逻辑电路构成，也可以如下那样使用CPU通过软件来实现。

即，文档图像处理装置10具有执行用于实现各功能的控制程序的命令的CPU(central processing unit)、储存有上述程序的ROM(read onlymemory)、展开上述程序的RAM(random access memory)、储存上述程序和各种数据的存储器等存储装置(记录媒体)等。而且，本发明的目的可通过如下过程来达到，即：将记录有计算机可读取的、实现上述的功能的软件即文档图像处理装置10的控制程序的程序代码(执行形式程序、中间代码程序、源程序)的记录媒体，提供给上述文档图像处理装置10，且由该计算机(或CPU、MPU)读出记录在记录媒体上的程序代码并执行。

作为上述的记录媒体，例如可以采用磁带或盒式磁带等的磁带类、包括软(注册商标)盘/硬盘等磁盘和CD-ROM/MO/MD/DVD/CD-R等光盘的盘类、IC卡(包括存储卡)/光卡等的卡类、或掩模ROM/EPROM/EEPROM/闪存ROM等的半导体存储器类等。

另外，也可以将文档图像处理装置10构成为能够与通信网络连接，通过通信网络来供给上述程序代码。作为该通信网络，没有特别的限定，例如可以利用互联网、内部网、外联网、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtual private network)、电话线路网、移动体通信网、卫星通信网等。另外，作为构成通信网络的传送媒体，没有特别的限定，例如既可以利用IEEE1394、USB、电力线输送、有线TV线路、电话线、ADSL线路等的有线，也可以利用IrDA、远程控制那样的红外线、Bluetooth(注册商标)、802.11无线、HDR、移动电话网、卫星线路、地面波数字网等的无线。另外，本发明也能够以上述程序代码通过电子传送而具体化的被叠加在载波中的计算机数据信号的形式来实现。

本发明在不脱离其精神或主要特征的范围内，能够以其它各种形式实施。从而，上述的实施方式只不过是在所有方面上的一种示例，本发明的范围由本发明的权利要求书来表示，不受本说明书的任何限定。并且，在权利要求书范围内的变形和变更，均属于本发明的范围内。

Claims

1.一种文档图像处理装置，其特征在于，具有：

特征匹配部，其以由上述图像特征抽出部抽出的文字图像的图像特征为基础，从上述字形特征字典中，按照图像特征的匹配度从高到低的顺序选择N个文字图像作为候补文字，其中N为N＞1的整数，在将上述文字列的文字数设为M个时，其中M为M＞1的整数，制作M×N维的第1索引矩阵，并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列，适用基于预定的语言模型的词汇解析，而制作出调整成有意义的文字列的第2索引矩阵；

2.根据权利要求1所述的文档图像处理装置，其特征在于，上述特征匹配部，使用双字母组模型或多字母组模型作为语言模型，来进行候补文字列的词汇解析。

3.根据权利要求1所述的文档图像处理装置，其特征在于，上述特征匹配部，基于词汇解析，将上述第1索引矩阵的第1列的候补文字与同一行的其它候补文字进行替换，由此调整成有意义的候补文字列。

4.根据权利要求1所述的文档图像处理装置，其特征在于，上述文字列抽出部抽取出上述被输入的文档图像中的标题区域。

5.根据权利要求1所述的文档图像处理装置，其特征在于，上述文字列抽出部基于连通域统计分析的方法来抽取出文档图像中的重要区域。

6.根据权利要求1所述的文档图像处理装置，其特征在于，上述图像特征抽出部利用网格方向特征和文字图像外围特征的组合，来抽出文字图像的图像特征。

7.根据权利要求1所述的文档图像处理装置，其特征在于，上述特征匹配部将所抽出的文字图像的图像特征与在上述字形特征字典中储存的全部文字图像进行匹配，并选择候补文字。

8.根据权利要求1所述的文档图像处理装置，其特征在于，上述特征匹配部选择的候补文字数N是可变更的。

9.根据权利要求1所述的文档图像处理装置，其特征在于，上述检索部，从具有构成检索关键词的各检索文字在索引矩阵内的匹配位置高的索引矩阵的文档图像中，按顺序进行取出。

10.根据权利要求1所述的文档图像处理装置，其特征在于，

对上述索引矩阵的各要素，设定有与位置相应的相关值，

上述检索部具有：

索引矩阵检索处理部，其以构成检索关键词的1个检索文字为单位检索索引矩阵，而检索出包含检索文字的第2索引矩阵，并将该第2索引矩阵内的检索文字的匹配位置的信息，与具有第2索引矩阵的文档图像的信息一同储存在保存部中；

相关度计算部，其根据在上述保存部中储存的匹配位置的信息，累计各检索文字的相关值，并计算出检索关键词与第2索引矩阵的相关度；

顺序决定部，其基于上述相关度计算部的计算结果，来决定文档图像的取出顺序。

11.根据权利要求10所述的文档图像处理装置，其特征在于，上述相关度计算部，在根据上述匹配位置的信息，而判断为与索引矩阵中的相邻行相匹配时，对相邻的各行的相关值，在利用行的相关度加权因数进行了加权的基础上，进行累计。

12.根据权利要求10所述的文档图像处理装置，其特征在于，上述第2索引矩阵的各要素设定的相关值是可变更的。

13.根据权利要求11所述的文档图像处理装置，其特征在于，上述行的相关度加权因数是可变更的。

14.根据权利要求1所述的文档图像处理装置，其特征在于，具有使用上述图像特征抽出部来制作上述字形特征字典的字形特征字典制作部。

15.一种文档图像处理方法，其特征在于，具有：

特征匹配步骤，以在上述图像特征抽出步骤中抽出的文字图像的图像特征为基础，从以单个文字为单位储存有文字图像的图像特征的字形特征字典中，按照图像特征的匹配度从高到低的顺序选择N个文字图像作为候补文字，其中N为N＞1的整数，并且在将上述文字列的文字数设为M个时，其中M为M＞1的整数，制作M×N维的索引矩阵，并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列，适用基于预定的语言模型的词汇解析，而制作出调整成有意义的文字列的第2索引矩阵；

检索步骤，在检索时，以所输入的检索式中的构成检索关键词的1个检索文字为单位，检索在上述索引信息储存步骤中储存的索引信息，并取出具有第2索引矩阵的文档图像，该第2索引矩阵包含检索文字。