CN101354746B - 文字图像抽出装置及文字图像抽出方法 - Google Patents

文字图像抽出装置及文字图像抽出方法 Download PDF

Info

Publication number
CN101354746B
CN101354746B CN2007101296050A CN200710129605A CN101354746B CN 101354746 B CN101354746 B CN 101354746B CN 2007101296050 A CN2007101296050 A CN 2007101296050A CN 200710129605 A CN200710129605 A CN 200710129605A CN 101354746 B CN101354746 B CN 101354746B
Authority
CN
China
Prior art keywords
key element
literal
division key
character image
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101296050A
Other languages
English (en)
Other versions
CN101354746A (zh
Inventor
吴波
窦建军
乐宁
吴亚栋
贾靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to CN2007101296050A priority Critical patent/CN101354746B/zh
Priority to JP2007246157A priority patent/JP2009026287A/ja
Priority to US11/963,613 priority patent/US8750616B2/en
Publication of CN101354746A publication Critical patent/CN101354746A/zh
Application granted granted Critical
Publication of CN101354746B publication Critical patent/CN101354746B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明提供一种文字图像抽出方法及文字图像抽出装置。在抽出步骤中,通过抽出部(401),对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从其中抽出由与连接成分外接的外接图形划分的划分要素。在改变步骤中,通过第一改变部(402),在上述抽出的划分要素中,将至少一部分相互重合的划分要素进行综合而作为新的划分要素。在下面的第一选择步骤中,通过第一选择部(403),预先确定基准大小,在第一改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。之后,可以按该顺序执行第二改变步骤及第二选择步骤。由此,可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像。

Description

文字图像抽出装置及文字图像抽出方法
技术领域
本发明涉及从排列两个或两个以上文字的文字列区域中抽出各文字的图像的文字图像抽出装置及文字图像抽出方法。
背景技术
一种利用图像扫描仪等图像输入装置将文档转换成图像,并以电子方式进行存储,且在之后可以检索的文档归档装置已得到实用化。在这样的文档归档装置中,为了之后能够检索,需要从文档图像中的文字列区域中抽出各文字的图像。
在文字列区域中,多数情况下除了文字以外还包含标点符号等,而且还有多数情况下包含噪声部分。标点符号及噪声部分对检索来说是不需要的。尽管如此,在以往的文档归档装置中,在从文字列区域中抽出各文字的图像时,不仅抽出包含文字的要素,也抽出包含标点符号的要素及包含噪声部分的要素。
发明内容
本发明的目的在于,提供一种可以从排列两个或两个以上文字的文字列区域中高精度地抽出各文字的图像的文字图像抽出方法及文字图像抽出装置。
本发明是一种文字图像抽出方法,其特征在于,包括:抽出步骤,对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从上述文字列区域中,抽出由与连接成分外接的外接图形划分的划分要素;
改变步骤,改变在抽出步骤中抽出的划分要素,且在抽出步骤中抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
选择步骤,预先确定基准大小,且在改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。
根据本发明,通过抽出步骤,从排列两个或两个以上文字的文字列区域中抽出划分要素。通过改变步骤,改变在抽出步骤中抽出的划分要素。通过选择步骤,选择改变步骤中改变的划分要素的一部分。
在抽出步骤中,对文字列区域,求出由相互连接的两个或两个以上像素构成的连接部分,并抽出由与连接成分外接的外接图形划分的划分要素。在该划分要素中,包含文字整体的要素、和包含文字一部分的要素。另外,在该划分要素中有包含标点符号的要素。所谓标点符号是指句点类、括弧类及中点类等描述记号。进而,在该划分要素中,还有包含不属于文字及标点符号任何一方的噪声部分的要素。
在改变步骤中,将至少一部分相互重叠的划分要素进行综合并作为新的划分要素。由此,可以对某些文字,将包含该文字的一部分的要素与包含该文字的另一部分的要素进行综合,而得到包含该文字整体的一个要素。另外,可以对某些文字,将包含该文字一部分的要素与包含该文字整体的要素进行综合,而得到包含该文字整体的一个要素。
而且在改变步骤中,将剩余的划分要素按原样作为新的划分要素。由此,可以防止包含标点符号的要素及包含噪声部分要素,并不是按所希望的方式被综合而变成较大的要素的情况。从而,可以防止在后述的选择步骤中意料之外地选择包含标点符号的要素及包含噪声部分的要素。
包含标点符号的要素及包含噪声部分的要素,比包含文字的要素小。利用这点,在选择步骤中,预先确定基准大小,在改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。由此,可以在改变步骤中改变的划分要素中选择包含文字的要素。换言之,可以从改变步骤中改变的划分要素中,将包含标点符号的要素及包含噪声部分的要素排除。
在这样的本发明中,可以从文字列区域中高精度地抽出包含文字的要素并作为文字图像。换言之,可以不会错误地从文字列区域中抽出包含标点符号的要素及包含噪声部分的要素,而抽出包含文字的要素。
另外,本发明的特征在于,还包括:第二改变步骤,改变上述选择步骤中选择的划分要素,且预先确定第一基准尺寸,并在上述选择步骤中选择的划分要素中,将与文字的排列方向有关的尺寸比上述第一基准尺寸还小且相互在文字的排列方向上相邻的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
第二选择步骤,预先确定第二基准尺寸,且在第二改变步骤中改变的划分要素中,选择与文字的排列方向有关的尺寸比上述第二基准尺寸还大的划分要素。
另外根据本发明,通过第二改变步骤,改变选择步骤中选择的划分要素。通过第二选择步骤,选择第二选择步骤中改变的划分要素的一部分。
文字列区域的各文字,有时大小互不相同。这种情况下,常有包含比较小的文字的两个或两个以上要素在文字的排列方向上相邻的情况。然而,包含标点符号的要素在文字的排列方向上相邻的情况较少,而且,包含噪声部分的要素在文字的排列方向上相邻的情况也较少。
利用这点,第二改变步骤,预先确定第一基准尺寸,且在上述选择步骤中选择的划分要素中,将与文字的排列方向有关的尺寸比上述第一基准尺寸还小且相互在文字的排列方向上相邻的划分要素进行综合而作为新的划分要素。由此,可以将包含比较小的文字的要素进行综合而作为较大的要素。从而,可以防止包含比较小的文字的要素在后述的第二选择步骤中意料之外地被排除的情况。
而且第二改变步骤,将剩余的划分要素按原样作为新的划分要素。由此,可以防止将包含标点符号的要素及包含噪声部分的要素并不是按所希望的方式综合而变成较大的要素。从而,可以防止将包含标点符号的要素及包含噪声部分的要素在后述的第二选择步骤中可靠地排除。
在第二选择步骤中,预先确定第二基准尺寸,且在第二改变步骤中改变的划分要素中,选择与文字的排列方向有关的尺寸比上述第二基准尺寸还大的划分要素。由此,可以在第二改变步骤中改变的划分要素中,选择包含文字的要素。换言之,可以从第二改变步骤中改变的划分要素中,排除包含标点符号的要素及包含噪声部分的要素。
在这样的本发明中,可以以更高的精度,从文字列区域中,抽出包含文字的要素并作为文字图像。换言之,在尽可能地防止从文字列区域中错误地抽出包含标点符号的要素及包含噪声部分的要素的情况的基础上,可还以可靠地抽出包含文字的要素。
另外本发明的特征在于,还包括分割步骤,其中,预先确定第三基准尺寸,且在上述第二选择步骤中选择的划分要素中,将与文字的排列方向有关的尺寸比上述第三基准尺寸还大的划分要素,基于上述第三基准尺寸来进行分割。
另外,根据本发明,在抽出步骤中抽出划分要素时,有时在一个划分要素中包含在文字的排列方向上相邻的两个或两个以上文字。另外,在改变步骤中改变了划分要素时,进而在第二改变步骤中改变了划分要素时,有时在一个划分要素中包含在文字的排列方向上相邻的两个或两个以上文字。在此,在分割步骤中,预先确定第三基准尺寸,且在第二选择步骤中选择的划分要素中,将与文字的排列方向有关尺寸比上述第三基准尺寸还大的划分要素,基于上述第三基准尺寸进行分割。由此,可以防止在一个划分要素中包含两个或两个以上文字的情况。换言之,可以从文字列区域中,按照一个文字抽出各文字图像。
另外本发明是一种文字图像抽出装置,其特征在于,包括:抽出部,对排列两个或两个以上文字的文字列区域,求出由相互连接的两个或两个以上像素构成的连接成分,并从上述文字列区域中,抽出由与连接成分外接的外接图形划分的划分要素;
改变部,改变由抽出部抽出的划分要素,并在由抽出部抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
选择部,预先确定基准大小,且在由改变部改变的划分要素中,选择比上述基准大小还大的划分要素。
根据本发明,通过抽出部,从排列两个或两个以上文字的文字列区域中抽出划分要素。通过改变部,改变由抽出部抽出的划分要素。通过选择部,选择由改变部改变的划分要素的一部分。
抽出部,对于文字列区域,求出由相互连接的两个或两个以上像素构成的连接部分,并抽出由与连接成分外接的外接图形划分的划分要素。在该划分要素中,有包含文字整体的要素和包含文字的一部分的要素。另外,在该划分要素中,有包含标点符号的要素。进而,在该划分要素中,还有包含不属于文字及标点符号任何一方的噪声部分的要素。
改变部,将至少一部分相互重叠的划分要素进行综合并作为新的划分要素。由此,可以对某些文字,将包含该文字的一部分的要素与包含该文字的另一部分的要素进行综合,而得到包含该文字整体的一个要素。另外,可以对某些文字,将包含该文字一部分的要素与包含该文字整体的要素进行综合,而得到包含该文字整体的一个要素。
而且改变部中,将剩余的划分要素按原样作为新的划分要素。由此,可以防止将包含标点符号的要素及包含噪声部分要素,并不是按所希望的方式进行综合而变成较大的要素。从而,可以防止在后述的选择部中意料之外地选择包含标点符号的要素及包含噪声部分的要素的情况。
包含标点符号的要素及包含噪声部分的要素,比包含文字的要素小。利用这点,选择部,预先确定基准大小,在改变部中改变的划分要素中,选择比上述基准大小还大的划分要素。由此,可以在改变部中改变的划分要素中,选择包含文字的要素。换言之,可以从由改变部改变的划分要素中,排除包含标点符号的要素及包含噪声部分的要素。
在这样的本发明中,可以从文字列区域中高精度地抽出包含文字的要素并作为文字图像。换言之,可以不会错误地从文字列区域中抽出包含标点符号的要素及包含噪声部分的要素,而抽出包含文字的要素。
本发明的目的、特点、及优点,可通过以下的详细说明和附图而变得更明确。
附图说明
图1是表示执行本发明的一实施方式即文字图像抽出方法的文字图像抽出装置400的构成的方框图。
图2是用于说明由文字图像抽出装置400执行的文字图像抽出方法的流程图。
图3是用于详细说明抽出步骤、第一改变步骤、第一选择步骤及第二改变步骤的图。
图4是用于说明第二选择步骤的图。
图5是用于说明第二选择步骤的图。
图6是用于说明分割步骤的图。
图7是简要表示文档图像处理装置10的构成的方框图。
图8是详细表示文档图像处理装置10的构成的方框图。
图9是表示制作字形样本数据库的处理的说明图。
图10是文字图像外围特征的说明图。
图11是网格方向特征的说明图。
图12是表示制作字形特征辞典的处理的说明图。
图13是表示制作索引信息数据库的处理的说明图。
图14是用具体例表示制作索引矩阵的处理的说明图。
图15是表示文档图像例、和索引信息数据库中的该文档图像的索引信息的数据配置例的说明图。
图16是表示检索部的功能和检索处理的说明图。
图17是表示检索部中的检索顺序的流程图。
图18是表示计算检索关键字和索引矩阵之间的相关度的方法的说明图。
图19是用具体例表示检索关键字和索引矩阵之间的相关度的计算的说明图。
图20是表示带有词汇解析功能的检索处理的说明图。
图21是表示文档图像管理部中的处理的说明图。
图22是用具体例表示调整已制作的索引矩阵而使第一列的文字列成为有意义的文字列的处理的说明图。
图23是表示文档图像表示部中表示的、在文档图像DB中储存的文档图像的阅览画面的说明图。
具体实施方式
以下,参考附图,对本发明的优选实施方式进行详细说明。
图1是表示执行本发明的一实施方式即文字图像抽出方法的文字图像抽出装置400的构成的方框图。文字图像抽出装置400,构成将文档作为图像输入并存储的文档图像处理装置10的一部分。文字图像抽出装置400用于从排列两个或两个以上文字的文字列区域即标题区域中,抽出各文字的图像。
在文字列区域中,两个或两个以上文字沿文字的宽度方向或文字的高度方向排列。所谓文字的宽度方向,是指文字的与字的朝向垂直的方向,所谓文字的高度方向,是指文字的与字的朝向平行的方向。换言之,文字的排列方向,与文字宽度方向或文字的高度方向一致。进而,换言之,文字呈现横向书写或纵向书写。本实施方式中,假定横向书写的文字来进行说明。文字是从左向右排成一列。文字列区域是二值图像。
文字图像抽出装置400,具有:抽出部401,从文字列区域中抽出划分要素;第一改变部402,为改变由抽出部401抽出的划分要素的改变部;第一选择部403,为选择由第一改变部402改变的划分要素的一部分的选择部;第二改变部404,为改变由第一选择部403选择的划分要素的第二改变部;第二选择部405,为选择由第二改变部404改变的划分要素的一部分的第二选择部;分割部406,分割由第二选择部405选择的划分要素。
图2是用于说明由文字图像抽出装置400执行的文字图像抽出方法的流程图。当提供文字列区域时,开始文字图像抽出处理。当开始文字图像抽出处理时,首先在步骤a1中执行抽出步骤。在抽出步骤中,通过抽出部401,从文字列区域中抽出划分要素。
在下面的步骤a2中,执行作为改变步骤的第一改变步骤。在第一改变步骤中,通过第一改变部402,改变由抽出部401抽出的划分要素。在下面的步骤a3中,执行作为选择步骤的第一选择步骤。在第一选择步骤中,通过第一选择部403,选择由第一改变部402改变的划分要素的一部分。
在下面的步骤a4中,执行作为第二个改变步骤的第二改变步骤。在第二改变步骤中,通过第二改变部404,改变由第一选择部403选择的划分要素。在下面的步骤a5中,执行作为第二个选择步骤的第二选择步骤。在第二选择步骤中,通过第二选择部405,选择由第二改变部404改变的划分要素的一部分。
在下面的步骤a6中,执行分割步骤。在分割步骤中,通过分割部406分割由第二选择部405选择的划分要素。执行分割步骤后,结束文字图像抽出处理。
图3是用于详细说明抽出步骤、第一改变步骤、第一选择步骤及第二改变步骤的图,图3中(a)表示由抽出步骤抽出的各划分要素,图3中(b)表示由第一改变步骤改变的各划分要素,图3中(c)表示由第一选择步骤选择的各划分要素,图3中(d)表示由第二改变步骤改变的各划分要素。
在抽出步骤中,抽出部401对文字列区域410,求出由相互连接的两个或两个以上像素构成的连接部分411,并将由与连接成分411外接的外接图形412划分的划分要素413从上述文字列区域410中抽出。在抽出步骤中,如图3中(a)所示,抽出各划分要素。
连接成分411,由相互连接的具有同一像素值的像素构成。在求出连接成分411时,关于连接性,也可以以八连接看待或以四连接看待。在本实施方式中,考虑到在文字列区域410中将文字从左向右排成一列,而从文字列区域410的左端向右端求出连接成分411。
外接图形412是矩形,由与文字的宽度方向D1平行的两个边416、417和与文字的高度方向D2平行的两个边418、419构成。划分要素413是这样的外接图形412的内侧的部分。在该划分要素中,有包含文字整体的要素和包含文字一部分的要素。另外,在该划分要素中有包含标点符号的要素。进而,在该划分要素中,还包含不属于文字及标点符号的任何一方的噪声部分的要素。
所谓标点符号是指句点类、括弧类及中点类等的描述记号。句点类是表示句子或文章结束的符号,例如句号。括弧类,包含开始括弧类及结束括弧类。开始括弧类,是指在文章中,用于包围某些部分以明确其与其它部分的区别的符号中表示段落开始的符号,例如双引号。结束括弧类是指,在文章中,用于包围某些部分以明确其与其它部分的区别的符号中的表示段落结束的符号,例如,关双引号。结束括弧类,也包含表示文章中的段落的符号,例如逗号。中点类,是用于文章及语句段落的符号,位于文字宽度的中心,例如冒号。
在第一改变步骤中,第一改变部402,在由抽出部401抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合并作为新的划分要素,将剩余的划分要素按原样作为新的划分要素。在第一改变步骤中,如图3(b)所示,得到各划分要素。
在新的划分要素中,将使至少一部分相互重叠的划分要素综合后的要素,利用与上述相互重叠的划分要素外接的外接图形来划分。该外接图形也是矩形,且由与文字的宽度方向平行的两个边和与文字的高度方向平行的两个边构成。
在这样的第一改变步骤中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素。由此,对某些文字,可以将包含该文字的一部分的要素与包含该文字的其它的一部分的要素进行综合,而得到包含该文字的整体的一个要素。另外,对某些文字,可以将包含该文字的一部分的要素与包含该文字的整体的要素进行综合,而得到包含该文字的整体的一个要素。
例如,对文字“男”而言,在抽出步骤中,如图3中(a)所示,抽出两个划分要素421、422。一个是包含文字的一部分的要素421,另一个是包含文字的另一部分的要素422。在第一改变步骤中,将这些两个划分要素421、422进行综合,而可得到如图3中(b)所示的一个划分要素423。
另外,例如对文字“治”而言,在抽出步骤中,如图3中(a)所示,抽出三个划分要素426、427、428。一个是包含文字整体的要素426,另一个是包含文字的一部分的427,还有一个是包含文字另一部分的要素428。在第一改变步骤中,将这些三个划分要素426~428进行综合,而可得到如图3中(b)所示的一个划分要素429。
而且,在第一改变步骤中,将剩余的划分要素按原样作为新的划分要素。由此,可以防止将包含标点符号的要素及包含噪声部分的要素,并不是按所希望的方式进行综合而变成较大的要素的情况。从而,可以防止包含标点符号的要素及包含噪声部分的要素,在后述的第一及第二选择步骤中意料之外地被选择的情况。
在本实施方式中,将至少一部分在文字的高度方向D2上相互重叠的划分要素综合。换言之,即使在文字的宽度方向D1上相互重叠,只要在文字的高度方向D2上不相互重叠,就不能使划分要素综合。从而,可以尽可能地防止对于包含标点符号的要素及包含噪声部分的要素,并不是按所希望的方式进行综合而变成较大的要素的情况。从而,可以尽可能地防止包含标点符号的要素及包含噪声部分的要素,在后述的第一及第二选择步骤中意料之外地被选择的情况。
在第一选择步骤中,第一选择部403,预先确定基准大小,在由第一改变部402改变的划分要素中,选择比上述基准大小还大的划分要素。在第一选择步骤中,如图3(c)所示,选择各划分要素。
包含标点符号的要素及包含噪声部分的要素,比包含文字的要素小。利用这点,在第一选择步骤中,在由第一改变部402改变的划分要素中,选择比上述基准大小还大的划分要素。由此,可以在由第一改变部402改变的划分要素中,选择包含文字的要素。换言之,可以从由第一改变部402改变的划分要素中,将包含标点符号的要素及包含噪声部分的要素排除。例如,对于包含双引号的要素431、432,在第一选择步骤中排除。
基于文字列区域的与垂直于文字的排列方向的方向有关的尺寸,或由第一改变部402改变的划分要素的大小,来设定上述基准大小。从而,可以适当地设定上述基准大小。由此,可以防止因上述基准大小过小,而不能排除包含标点符号的要素及包含噪声部分的要素的情况,或因上述基准大小过大而甚至将包含文字的要素也排除了的情况。
具体地讲,在第一选择步骤中,作为划分要素的大小,使用划分要素的、与文字的宽度方向D1有关的尺寸(以下称为“宽度尺寸”)及与文字的高度方向D2有关的尺寸(以下称为“高度尺寸”),作为上述基准大小,使用基准宽度尺寸及基准高度尺寸。
根据文字的不同,有时也有包含该文字的要素的宽度尺寸及高度尺寸的任何一方都不满足基准尺寸的情况。在此,在第一选择步骤中,将宽度尺寸比基准宽度尺寸还小且高度尺寸比基准高度尺寸还小的划分要素排除,并选择其以外的划分要素。由此,可以防止甚至将包含文字的要素也意料之外地排除的情况。
基于文字列区域的、与垂直于文字的排列方向的方向有关的尺寸,在本实施方式中,是基于文字列区域的高度尺寸来设定基准宽度尺寸及基准高度尺寸。由此,可以与各划分要素大小偏差无关地,适当地设定基准宽度尺寸及基准高度尺寸。
具体地讲,将基准宽度尺寸及基准高度尺寸,设定为以超过0不到1的规定比率与文字列区域的高度尺寸相乘后的值。将基准宽度尺寸及基准高度尺寸,选定为相对文字列区域的高度尺寸,例如是50%的值。
基准宽度尺寸及基准高度尺寸,也可以以其它设定方法来设定。例如,也可以将基准宽度尺寸,设定为以规定的比率与各划分要素的宽度尺寸的平均值相乘后的值。另外也可以将基准高度尺寸设定为以规定的比率与各划分要素的高度尺寸的平均值相乘后的值。
在第一选择步骤中,也可以基于划分要素的对角线的尺寸,来判定是否选择划分要素。另外,也可以基于划分要素的面积,来判定是否选择划分要素。
进而在第一选择步骤中,也可以基于划分要素的位置信息来判定是否选择划分要素。在这种情况下,划分要素,与其它划分要素相比,位于过上的位置或位于过下的位置,而且,比基准大小还小,此时,排除该划分要素,选择其以外的划分要素。另外,在这种情况下,对于文字的排列方向两端的划分要素,在判定为从其它划分要素远离时,也进行排除。
通过执行如上的抽出步骤、第一改变步骤及第一选择步骤,可以从文字列区域,将包含文字的要素作为文字图像高精度地进行抽出。换言之,可以从文字列区域,不会错误地抽出包含标点符号的要素及包含噪声部分的要素,而抽出包含文字的要素。
在第二改变步骤中,第二改变部404,预先确定第一基准尺寸,在由第一选择部403选择的划分要素中,将与文字的排列方向有关的尺寸比上述第一基准尺寸还小并相互在文字的排列方向上相邻的划分要素综合而作为新的划分要素,且将剩余的划分要素按原样作为新的划分要素。在第二改变步骤中,如图3(d)所示,得到各划分要素。
文字列区域的各文字,有大小相互不同的情况。在这种情况下,经常有包含比较小的文字的两个或两个以上要素在文字的排列方向上相邻的情况。然而,包含标点符号的要素在文字的排列方向上相邻的情况较少,而且包含噪声部分的要素在文字的排列方向上相邻的情况较少。
利用这点,在第二改变步骤中,将与文字的排列方向有关的尺寸比上述第一基准尺寸还小且相互在文字的排列方向上相邻的划分要素综合作为新的划分要素。具体地讲,在两个相邻的划分要素的各自的宽度尺寸,比上述第一基准尺寸还小的情况下,将这些划分要素作为综合的候补。而且,在成为综合的候补的各划分要素的宽度尺寸与这些划分要素之间的距离的合计值,比以规定的比率与上述第一基准尺寸相乘后的值,还小的情况下,使两个相邻的划分要素综合。由此,可以使包含比较小的文字的要素综合作为较大的要素。例如,如图3(c)所示那样,将包含比较小的文字的要素441、442综合,可以如图3(d)所示,得到一个较大的要素443。从而,可以防止包含比较小的文字的要素,在后述的第二选择步骤中意料之外地被排除的情况。
而且在第二改变步骤中,将剩余的划分要素按原样作为新的划分要素。由此,可以防止将包含标点符号的要素及包含噪声部分的要素,并不是按所希望的方式进行综合而变成较大的要素的情况。从而,可以在后述的第二选择步骤中可靠地排除包含标点符号的要素及包含噪声部分的要素。
基于由第一选择部403选择的划分要素的大小,来设定上述第一基准尺寸。从而,可适当地设定上述第一基准尺寸。由此,可防止因上述第一基准尺寸过小而不对包含比较小的文字的要素进行综合的情况,或因上述第一基准尺寸过大而甚至将包含比较大的文字的要素也进行综合的情况。
基于各划分要素的宽度尺寸或各划分要素的高度尺寸,来设定上述第一基准尺寸。由此,可以与各划分要素的大小偏差无关地,适当地设定上述第一基准尺寸。
具体地讲,将上述第一基准尺寸,设定为以超过0不到1的规定比率与各划分要素的宽度尺寸的平均值相乘后的值。也可以将上述第一基准尺寸,设定为以超过0不到1的规定比率与各划分要素的高度尺寸的平均值相乘后的值。也可以将上述第一基准尺寸,用其它的设定方法进行设定。
图4是用于说明第二选择步骤的图,图4中(a)表示在第二改变步骤中改变的各划分要素,图4中(b)表示在第二选择步骤中选择的各划分要素。图5是用于说明第二选择步骤的图,图5中(a)表示在第二改变步骤中改变的各划分要素,图5中(b)表示在第二选择步骤中选择的各划分要素。
在第二选择步骤中,第二选择部405,预先确定第二基准尺寸,并在由第二改变部404改变的划分要素中,选择比上述第二基准尺寸还大的划分要素。在第二选择步骤中,如图4中(b)及图5中(b)所示,选择各划分要素。
在这样的第二选择步骤中,在由第二改变部404改变的划分要素中,选择与文字的排列方向有关的尺寸比上述第二基准尺寸还大的划分要素。由此,可以从由第二改变部404改变的划分要素中,可靠地排除包含标点符号的要素及包含噪声部分的要素。
基于文字列区域的、与垂直于文字的排列方向的方向有关的尺寸,或基于由第二改变部404改变的划分要素大小,来设定上述第二基准尺寸。从而,可以适当地设定上述第二基准尺寸。由此,可以防止因上述第二基准尺寸过小而不排除包含标点符号的要素及包含噪声部分的要素的情况,或因上述第二基准尺寸过大而甚至排除了包含文字的要素的情况。
在第二选择步骤中,排除与文字的排列方向有关的尺寸比上述第二基准尺寸还小的划分要素,选择其以外的划分要素。换言之,即使与垂直于文字的排列方向的方向有关的尺寸比上述第二基准尺寸还大,只要与文字的排列方向有关的尺寸比上述第二基准尺寸还小,则排除该划分要素。这样,在第二选择步骤中,使选择条件严格。由此,可以可靠地排除包含标点符号的要素及包含噪声部分的要素。
例如,如图4所示,对于包含作为噪声部分的细线的要素445,在第二选择步骤中排除。另外,如图5所示,对于包含与其它文字相比非常小的文字的要素446,也在第二选择步骤中排除。
基于文字列区域的、与垂直于文字的排列方向的方向有关的尺寸,在本实施方式中是基于文字列区域的高度尺寸来设定上述第二基准尺寸。由此,与各划分要素的大小的偏差无关地,可适当地设定上述第二基准尺寸。
具体地讲,将上述第二基准尺寸,设定为以超过0不到1的规定比率与文字列区域的高度尺寸相乘后的值。第二选择步骤中的规定比率,也可以比第一选择步骤中的规定比率大。将上述第二基准尺寸选择为相对文字列区域的高度尺寸,例如是70%的值。
也可以用其它的设定方法来设定上述第二基准尺寸。例如,将上述第二基准尺寸设定为以规定的比率与各划分要素的宽度尺寸的平均值相乘后的值。另外,也可以将上述第二基准尺寸设定为以规定的比率与各划分要素的高度尺寸的平均值相乘后的值。
通过又执行如上述的第二改变步骤及第二选择步骤,可以以更高的精度,从文字列区域中,抽出包含文字的要素而作为文字图像。换言之,不会从文字列区域中错误地抽出包含标点符号的要素及包含噪声部分的要素,而可以可靠地抽出包含文字的要素。
图6是用于说明分割步骤的图,图6中(a)表示第二选择步骤中选择的各划分要素,图6中(b)表示分割步骤中分割的各划分要素。
在分割步骤中,分割部406,预先确定第三基准尺寸,并在第二选择部405中选择的划分要素中,将宽度尺寸比上述第三基准尺寸还大的划分要素,基于上述第三基准尺寸来进行分割。
在抽出步骤抽出了划分要素后,有时在文字的排列方向上相邻的两个或两个以上文字被包含在一个划分要素中。另外,即使在第一改变步骤中改变了划分要素后,进而在第二改变步骤中改变了划分要素后,有时在文字的排列方向上相邻的两个或两个以上文字被包含在一个划分要素中。
在此,在分割步骤中,在由第二选择部405选择的划分要素中,将与文字的排列方向有关的尺寸比上述第三基准尺寸还大有划分要素,基于上述第三基准尺寸来进行分割。具体地讲,计算出划分要素的宽度尺寸与上述第三基准尺寸的比例,基于该比例来决定分割数,以该分割数对划分要素进行等分割。例如,如图6所示,对于包含两个文字的要素451,分割成分别包含一个文字的两个要素452、453。由此,,可以防止在一个划分要素中包含两个或两个以上文字的情况。换言之,可以从文字列区域中将各文字图像按照一个文字进行抽出。
基于由第二选择部405选择的划分要素的大小,来设定上述第三基准尺寸。从而,可以适当地设定上述第三基准尺寸。由此,可以防止因上述第三基准尺寸过小而将不应该分割的划分要素意料之外地分割,或因上述第三基准尺寸过大而未将应该分割的划分要素分割的情况。
基于各划分要素的宽度尺寸的平均值或各划分要素的高度尺寸的平均值,来设定上述第三基准尺寸。由此,与各划分要素的大小的偏差无关地,可以适当地设定上述第三基准尺寸。
具体地讲,将上述第三基准尺寸,设定为以超过0不到1的规定比率与各划分要素的宽度尺寸的平均值相乘后的值。另外,也可以将上述第三基准尺寸设定为以超过0不到1的规定比率与各划分要素的高度尺寸的最大值相乘后的值。也可以用其它的设定方法来设定上述第三基准尺寸。
在上述的实施方式中,在第一选择步骤中,基于划分要素的大小,来判定是否选择划分要素,但是,在本发明的其它的实施方式中,在该第一选择步骤中,也可以基于划分要素的位置,来判定是否选择划分要素。例如,也可以排除位于相对其它的划分要素远离的位置的划分要素。
另外,在本发明的另外的其它实施方式中,也可以省略第二改变步骤及第二选择步骤。
图7是简要表示文档图像处理装置10的构成的方框图。文档图像处理装置10包括处理器4、和储存用于使处理器4进行实际处理的软件等的外部存储装置5。
处理器4在实际中进行:从文档图像中抽出进行检索所需要的标题区域的文档图像特征抽出处理;生成能够进行对于文档图像的检索的索引信息的索引信息生成处理;使用了索引信息的检索处理;使用索引信息来制作后述的有意义的文档名,并管理文档图像的文档图像管理处理等。
处理器4中的实际的处理,根据在外部存储装置5中储存的软件来执行。处理器4例如由通常的计算机主体等来构成。在本实施方式中,处理器4还执行制作在索引信息生成处理中使用的后述的字形特征字典15的字形特征字典制作处理。
外部存储装置5,例如可由能够进行高速访问的硬盘等来构成。为了大量保存文档图像,外部存储装置5也可以是使用光盘等的大容量设备的构成。后述的字形特征字典15、索引信息数据库(索引信息DB)17、文档图像数据库(文档图像DB)19、字形样本数据库(字形样本DB)13等由外部存储装置5构成。
文档图像处理装置10与键盘1连接,且与显示装置3连接。键盘1用于输入检索关键词。另外,键盘1还用于在阅览文档图像时输入指示。并且,键盘1还用于进行后述的候补文字数、相关值、以及行的相关度加权因数Q等的设定值的变更。显示装置3输出并显示文档图像等。在显示装置3中显示的内容中还包含相关度的信息、以及图像名称等信息。
文档图像处理装置10还与图像扫描仪2或数码相机6连接。图像扫描仪2和数码相机6用于取得文档图像。文档图像的取得不限于通过图像扫描仪2和数码相机6,也可以通过进行利用网络等的通信来取得。另外,也可以进行使用了图像扫描仪2或数码相机6的检索关键词的输入。
图8是详细表示文档图像处理装置10的构成的方框图。文档图像处理装置10包括:文字数据库输入部(文字DB输入部)11、文字正规化处理部12、字形样本DB13、文字图像特征抽出部(图像特征抽出部)14、字形特征字典15、特征匹配部16、索引信息DB17、标题区域初始处理部18、文档图像DB19、文档图像特征数据库(文档图像特征DB)20、文档图像输入部21、检索部22、词汇解析部23、关键词输入部24、检索结果显示部25、文档名制作部51、文档图像DB管理部52、文档图像显示部53、指示输入部54。
其中,由文字DB输入部11、字体正规化处理部12、字形样本DB13、文字图像特征抽出部14、字形特征字典15构成实施上述的字形特征字典制作处理的字形特征字典生成部30。
首先,对构成字形特征字典生成部30的上述功能模块11、12、13、14、15进行说明。
文字DB输入部11用于输入为制作字形特征字典15所需的成为基本的文字数据库。如果本装置是例如中文对应的装置,则输入中华人民共和国GB2312的全部6763个文字等。另外,如果本装置是日语对应的装置,则输入JIS第1标准的约3,000个字种等。即,这里所说的文字中包含符号。这样的文字DB输入部11由处理器4构成,且文字数据库由记录媒体、或通过利用了网络的数据通信等来供给。
字体正规化处理部12用于对由文字DB输入部11输入的文字数据库中所包含的全部文字,制作不同字体和字号的文字图像。不同字体和字号的文字图像被储存在字形样本DB13中。
图9表示字体正规化处理部12制作字形样本DB13的处理。在字体正规化处理部12中,如果本装置是中文对应的装置,则具备例如宋体、仿宋体、黑体、楷体等字形样本12a。另外,如果本装置是日语对应的装置,则具备MS明朝、MS Gothic…等字形样本。
字体正规化处理部12中的变形处理部12b,对文字数据库的文字进行图像化,并对文字图像进行标准化处理。然后,变形处理部12b参照字形样本12a,对标准化处理后的文字图像实施变形处理,并进一步改变为不同字体和大小的文字图像。变形处理中,包括例如模糊化处理、扩大/缩小化处理、细微化处理等。字体基准部12c将这样变形处理后的文字图像作为基准文字图像储存到字形样本DB13中。
在字形样本DB13中,针对文字数据库的所有文字,即使是相同的文字,也储存有对应每个由字体、大小决定的字形的基准文字图像。如果举例说明,则,即使文字种类都是“中”,也存在仅相当于所决定的字体的数量的不同形状的基准文字图像的“中”,另外,还储存有仅相当于所决定的大小的数量的不同大小的基准文字图像的“中”。
文字图像特征抽出部14是抽出文字图像的特征(图像特征),并储存到字形特征字典15中的部分。在本实施方式中,文字图像特征抽出部14根据文字图像外围特征与网格方向的组合,来抽出文字图像的特征,并设为特征矢量。另外,文字图像的特征不限于这些,也可以抽出其他特征来形成特征矢量。
这里,预先对文字图像外围特征和网格方向特征进行说明。图10是文字图像外围特征的说明图。所谓文字图像外围特征是指从文字图像的外部观察的轮廓的特征。如图10所示,从文字图像的外接矩形的4边进行扫描,并将从白像素变化为黑像素时的点为止的距离作为特征,取出最初变化的位置和第二次变化的位置。
例如,在将外接矩形分割成X行Y列的场合下,以行为单位分别从左方向和右方向扫描图像,以列为单位分别从上方向和下方向扫描图像。另外,图10是表示以行为单位从左进行扫描的图。
另外,在图10中,用实线箭头1表示最初从白像素变化为黑像素时的点为止的扫描轨迹。虚线箭头2表示第二次从白像素变化为黑像素时的点为止的扫描轨迹。实线箭头3表示最终也未能检测到从白像素变化为黑像素的点的情况下的扫描轨迹,在这种没有变化点的场合下,距离值为0。
另外图11(a)(b)是网格方向特征的说明图。将文字图像分割成粗网格,对各格子区域内的黑像素,向预先确定的两个或两个以上方向延伸触手。然后,对在各方向上连接的黑像素的像素数进行计数,并将表示该黑像素按各方向成分的分布状况的方向影响度,作为识别函数采用欧几里得距离,并利用与黑像素数之差相应的值,对距离值进行除法运算,而计算出距离值。
在图11(a)中,将文字图像分割成4×4共16个格子,且以在X轴方向上最接近于格子交点的从黑像素变化为白像素的点为中心,向X轴方向(0°)、45°方向、Y轴方向(90°)的3个方向延伸触手。
在本实施例中,将文字图像分割成8×8的4角的网格,并如图11(b)所示,向0°、45°、90°、135°、180°、225°、270°、315°这8个方向延伸触手。
另外,作为网格方向的特征的抽出方法,有设置触手的延伸方向、延伸触手的中心点的方法等各种方法,例如记载在日本专利特开2000-181994号公报等中。
文字图像特征抽出部14,对储存在文字形状样本DB13中的所有的基准文字图像进行这样的文字图像的特征的抽出。然后,文字图像特征抽出部14将储存在字形样本DB13中的基准文字图像的抽出结果储存到字形特征字典15中,而生成字形特征字典15。
图12是表示制作基于文字图像特征抽出部14的字形特征字典15的处理的图。文字图像特征抽出部14中的字形标准化部14a从字形样本DB13中取出基准文字图像,文字图像特征取出部14b从由字形标准化部14a取出的基准文字图像中取出其特征。然后,特征分类部14c参照字形样本DB13,对从按每个基准文字图像抽出的特征进行分类,并储存到字形特征字典15中。
在文字图像特征取出部14b中,如上述那样,按每个单个文字,求出基于带加权的不同基准文字图像的特征的适应值,并取得基准文字图像的标准特征。
文字图像特征取出部14b通过对不同字体字号进行加权,可制作不同的字形特征字典。通过融合多字体的图像特征,且以单个文字图像特征为单位来制作字形特征字典,可满足多字体/字号文档图像的自动检索和管理。
下面,说明构成实施文档图像特征抽出处理的文档图像特征抽出部31的文档图像DB19、文档图像特征DB20、标题区域初始处理部18、文字图像特征抽出部14。
文档图像DB19是在由文档图像输入部21输入文档图像时,对其附加用于识别的文档ID并进行保存的数据库。
标题区域初始处理部18是在文档图像DB19中保存了新的文档图像时,根据其图像数据来定位并抽出文档图像中的标题区域,然后将文字图像送到上述的文字图像特征抽出部14的。
图15表示对文档图像50以T1、T2、T3这3个区域定位为标题区域的状态。根据该图15也可以看出,将文档图像50中的标题部分作为标题区域T抽出。
由标题区域初始处理部18抽出并送到文字图像特征抽出部14的文字图像,通常是包含两个或两个以上文字的文字列的图像。从而,在以下的说明中,将由标题区域初始处理部18送来的文字图像设为文字列的图像。
在本实施方式中,标题区域初始处理部18利用投影法和连通区域统计分析来进行标题区域T的定位和抽出。另外,这样的标题区域T主要相当于标题部分,例如可以采用在日本专利特开平9-319747号公报、日本专利特开平8-153110等所记载的方法等各种以往的方法。
由于不是将文档图像的全部文字区域(文本区域)作为对象,而是如上所述仅将标题区域T定位并抽出,所以可减少成为检索对象的信息量,并缩短检索时间。
其中,不是对全部的文本区域进行定位而仅对标题区域T进行定位的事项,对于检索而言并不是必须的构成要素,也可以对全文的文本区域进行定位并抽出。但是,对于后述的有意义的文档名的制作而言,仅对标题区域T进行定位是必须的构成要素。
文字图像特征抽出部14,对于从标题区域初始处理部18输入的文字列的图像,利用上述的文字图像抽出方法,在抽出各文字图像的基础上,与字形特征字典15的制作时同样,抽出各文字图像的特征。然后,将抽出的特征,在文档图像特征DB20中按每个文档图像进行储存。
在文档图像特征DB20中,由标题区域初始处理部18抽出的标题区域T中所包含的文字列的图像的特征信息,作为构成文字列的各文字的各自的特征(特征矢量)而被储存。
如图15所示,对于1个文档图像50,将在所抽出的全部标题区域T1、T2、T3…中所包含的文字列的文字图像的特征,即构成文字列的各文字的文字图像的特征,与文档图像50的文档ID一同储存。
下面,说明构成实施索引信息制作处理的索引信息生成部32的文字图像特征抽出部14、字形特征字典15、特征匹配部16、索引信息DB17、文档图像特征DB20。
文字图像特征抽出部14、字形特征字典15、文档图像特征DB20的功能,与上述的说明相同。
特征匹配部16是从文档图像特征DB20中读出在文档图像的标题区域T中所包含的文字图像的特征,基于该读出的特征,参照字形特征字典15,如后述那样制作索引矩阵,并生成文档图像的索引信息的部分。
这里,对应1个文档图像生成1个索引信息,并按每个标题区域T制作索引信息中所包含的索引矩阵。从而,在1个文档图像内存在两个或两个以上标题区域T的场合下,在该文档图像的索引信息中包含两个或两个以上索引矩阵。
图13表示制作索引信息DB17的处理。如上所述,当某个文档图像被输入并被储存到文档图像DB19中时,文字图像特征取出部14b抽出在各标题区域T中所包含的文字列的文字图像的特征,并储存到文档图像特征DB20中。
特征匹配部16从文档图像特征DB20中读出各标题区域T中所包含的文字列的图像的特征,且按每个单个文字与字形特征字典15内的基准文字图像进行匹配,而制作标题区域T各自的索引矩阵。
然后,特征匹配部16将该文档图像的其他信息,即文档ID和文档图像DB19内的该当的文档图像的保存位置的信息等包含在这些索引矩阵中,而作为索引信息储存到索引信息DB17中。
图14表示基于特征匹配部16的制作索引矩阵的处理的一例。图14是说明针对图15中的标题区域T3中所包含的文字列“去神仙居住的地方”这8个文字图像,制作索引矩阵的说明图。
文字列“去神仙居住的地方”被分割成单个文字图像“去”“神”“仙”“居”“住”“的”“地”“方”。
在“去”...“方”这8个文字中,按照排列顺序附加1~8的编号,即对“去”附加1、对“神”附加2、...对“方”附加8。该编号相当于索引矩阵的行编号。
对这样的所有的8个文字图像,实施如下的处理,即:取出针对被储存在图14中参照符号A所示的文档图像特征DB20中的文字图像“去”的特征(S1),并参照字形特征字典15,按照特征相近(匹配度高)的顺序,选择N个候补文字(S2)。
对按照匹配度从高到低的顺序抽出的N个候补文字,附加与抽出顺序相应的编号,该编号相当于索引矩阵的列编号。然后,根据该列编号,来设定表示检索关键词中所包含的各检索文字与候补文字之间的匹配度的文字相关值(相关值)。
在图14中,由参照符号100所表示的表表示文字列“去神仙居住的地方”的索引矩阵的内容。例如,对于第5个文字的“住”的文字图像,在行编号为5的行中,从匹配度高的第1列,顺序地抽出“任”、“佳”、“住”、…、“仁”的候补文字。在表100中,例如候补文字“去”的索引矩阵内的位置是[1,1],候补文字“屑”的位置是[4,2],候补文字“仁”的位置是[5,N]。
另外,在图14的表100中,为了有助于理解,对于与文字列的各文字对应的候补文字附加○进行表示。
对于这样的索引矩阵的行数M,根据由标题区域初始处理部18作为标题区域T而抽出的文字列的图像的文字数来决定。另外,列数N是根据针对1个文字所选择出的候补文字数来决定。从而,根据本发明,可通过改变索引矩阵的维数(列数),来灵活地设定索引矩阵内的要素数,即候补文字数量。因此,在文档图像的检索中,可以进行正确且几乎无遗漏的检索。
在索引矩阵中,可以与检索关键词的输入方法相应地适当设定所选择的候补文字的信息赋予方式。例如,如果是由键盘1来输入检索关键词的构成,则以文字代码等信息的形式储存候补文字,从而能够对从键盘输入的检索关键词进行检索。
另外,如果是采用图像扫描仪2等以图像数据的形式输入检索关键词的构成,则也可以抽出检索关键词的特征(特征矢量),以特征(特征矢量)信息的形式储存候补文字,从而能够对特征矢量彼此进行比较。
图15表示索引信息DB17中的索引信息的数据配置例。在存在两个或两个以上标题区域T1、T2、T3、…、Tn的文档图像50的索引信息中,针对两个或两个以上标题区域T1、T2、T3、…、Tn制作的索引矩阵配置成线形。在图15的例中,文档ID被配置在先头,接下来配置两个或两个以上索引矩阵,最后配置保存位置的信息。这里,5×N表示索引矩阵的大小,表示5行N列的情况。
通过预先将索引信息进行这样的数据配置,可以迅速地定位文档图像DB19内的文档图像的储存位置、和文档图像中的标题区域T的位置,并用于检索结果的显示。
另外,也可以根据实际要求,在索引信息中追加文档图像的其它属性。
下面,对实施使用了索引信息的检索处理的检索部22进行说明。图16是表示检索部22的功能和检索处理的说明图。检索部22具有索引矩阵检索处理部22a、文字相关值保存部(保存部)22b、相关度计算部22c、显示顺序决定部(顺序决定部)22d、以及文档图像抽出部22e。
对于索引矩阵检索处理部22a,由关键词输入部24输入检索关键词。作为关键词输入部24,相当于上述的键盘1或图像扫描仪2等。
索引矩阵检索处理部22a是对索引信息DB17进行检索,而检索出包含所输入的检索关键词的索引矩阵的部分。索引矩阵检索处理部22a将检索关键词分割成单个文字,搜索包含各检索文字的索引矩阵,在包含检索文字的场合下,取得该检索文字在索引矩阵内的匹配位置的信息。另外,关于索引矩阵的抽出顺序例,将在下面采用图17的流程图来进行说明。
文字相关值保存部22b是保存由索引矩阵检索处理部22a取得的匹配位置的信息、和与该匹配位置的列编号相应的文字相关值的部分。
相关度计算部22c是在索引矩阵检索处理部22a中完成了对全部索引矩阵的检索时,计算出所检索出的索引矩阵与检索关键词之间的相关度的部分。
相关度的计算,是采用被保存在文字相关值保存部22b中的匹配位置和文字相关值的信息,并按照预先设定的相关度计算方法来进行计算的。关于相关度的计算,将在下面采用图18、图19来进行说明。
另外,这里,构成为文字相关值保存部22b保存匹配位置的信息、和与该匹配位置的列编号相应的文字相关值,但也可以构成为:文字相关值保存部22b只保存匹配位置,相关度计算部22c由匹配位置的信息取得文字相关值。
显示顺序决定部22d是基于由相关度计算部22c计算出的相关度的信息来决定显示顺序的部分。显示顺序决定部22d按如下方式决定显示顺序,即:从包含相关度高的索引矩阵的文档图像开始,依次在检索结果显示部25中显示文档图像的内容。
文档图像抽出部22e是,以按照由显示顺序决定部22d所决定的顺序显示文档图像的方式,从文档图像DB19中读出文档图像的图像数据,并输出到检索结果显示部25来进行显示。
检索结果显示部25按照显示顺序来显示文档图像。也可以采用缩略图显示等的方式。作为检索结果显示部25,相当于上述的显示装置3等。
这里,说明检索顺序。图14是表示检索部22中的检索顺序的流程图。当输入了由R个文字列构成的检索关键词,并指示进行检索时,索引矩阵检索处理部22a首先取出检索关键词的第1个检索文字(S11)。
然后,索引矩阵检索处理部22a对索引信息DB17内的全部索引矩阵进行第1个检索文字的检索(S12)。
在完成了对全部索引矩阵的检索时,判断是否检索到第1个检索文字,在1个也没有检索到的场合下,转移到S19,在检索到的场合下进入S14。
在S14中,索引矩阵检索处理部22a将包含第1个检索文字的索引矩阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。
接着,索引矩阵检索处理部22a取出包含有第1个检索文字的全部的索引矩阵(S15)。然后,取出作为检索关键词的下一个文字的第2个检索文字,并对在S15中取出的包含有第1个检索文字的索引矩阵进行检索(S16)。
在完成对在S15中取出的全部索引矩阵的检索时,判断是否检索到第2个检索文字(S17)。在1个也没有检索到的场合下,与上述同样地转移到S19,在检索到的场合下进入S18。
在S18中,索引矩阵检索处理部22a将包含有第2个检索文字的索引矩阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。
接下来,索引矩阵检索处理部22a再次返回到S16,取出作为检索关键词中的再下一个文字的第3个检索文字,并对在S15中取出的包含有第1个检索文字的索引矩阵进行检索。
然后,在这里,也在完成检索时,索引矩阵检索处理部22a判断是否检索到第3个检索文字(S17),在1个也没有检索到的场合下,转移到S19,在检索到的场合下,再次进入S18,进行关于检索关键词的再下一个检索文字的检索。
索引矩阵检索处理部22a,一直进行这样的S16~S18的处理,即以在S15中抽出的包含有第1个检索文字的索引矩阵为对象的、第2个以后的各检索文字的收缩检索,直到在S17中判断为1个也没有检索到、或完成了对检索关键词内的全部检索文字的检索为止,然后转移到S19。
在S19中,取出作为检索关键词中的下一个文字的第2个检索文字。然后,判断检索文字是否都已被检索,即,是否完成了对全部的检索文字的检索(S20),在未完成的场合下,返回到S12。
然后,与上述同样,索引矩阵检索处理部22a对索引信息DB17内的全部索引矩阵进行第2个检索文字的检索。在检索到的场合下,保存索引矩阵的匹配位置和文字相关值,然后进入S15,对包含有第2个检索文字的全部索引矩阵,针对检索关键词的下一个文字,即作为第2个之后的第3个以后的各检索文字,反复进行S16~S18,从而进行收缩检索。
索引矩阵检索处理部22a,对第3个以后的各检索文字依次进行如下处理,即:在S19中进行对一个检索文字的如上述的检索,并取出包含进行检索的检索文字的索引矩阵,且用其以后的检索文字来进行收缩检索。
然后,在由S19取出了检索关键词内的全部检索文字,并且由S20判断为完成了对全部检索文字的检索的场合下,进入S21。
在S21中,相关度计算部22c如后述那样根据相关度基准,来计算出检索关键词与各索引矩阵的相关度。
然后,显示顺序决定部22d以从包含相关度高的索引矩阵的文档图像开始进行显示的方式决定显示顺序,文档图像抽出部22e从文档图像DB19中取得文档图像的图像数据,检索结果显示部25按相关度高的顺序来显示文档图像(S22)。
接下来,采用图18、图19,对相关度计算部22c中的根据相关度基准来计算索引矩阵与检索关键词的相关度计算方法进行说明。
在图18的参照符号101的方框中,记载有检索条件。而且,在参照符号102的方框中,记载有用于计算相关度的某个假设的检索关键词与索引矩阵的相对关系。在方框101所示的检索条件下,在检索关键词与索引矩阵为如方框102所示的相对关系的场合下,可以通过由方框103所示的计算式来计算出检索关键词与索引矩阵的相关度。
首先,对方框101的检索条件进行说明。检索关键词的文字数为R个,第1个检索文字为C1、第2个为C2、…、第R个为Cr。
成为检索对象的索引矩阵为M×N维矩阵。即,作为标题区域T而抽取出的文字列图像的文字数为M个,作为文字列的各文字的各候补而选择出的候补文字数为N个。
由于作为检索文字与各候补文字的相关值的文字相关值,是相应于索引矩阵的各位置来决定的,所以成为与索引矩阵相同维数的矩阵。即,文字相关值矩阵的权重为M×N维矩阵。例如,权重[i][j]表示位于索引矩阵中的位置[i,j](=Index[i,j])上的候补文字匹配的场合下的文字相关值。在本实施方式中,如果索引矩阵的列编号[j]相同,则与行编号[i]无关,文字相关值相同。
行的相关度加权因数Q是在索引矩阵中相邻的2行中检索文字匹配的场合下,对这些2行的文字相关值附加的加权。在相邻的2行中检索文字匹配的场合下,包含检索关键词的连续的2个文字的可能性大。
在将行的相关度加权因数Q设定得高时,对于相关度计算部22c计算出的相关度的影响度,在连续匹配的2行的文字相关值中变大,但是在不相邻的各行的文字相关值中变小。即,通过将行的相关度加权因数Q设定得高,接近以词汇为单位进行检索的结果,反之,通过将行的相关度加权因数Q设定得小,接近以单字为单位进行检索的结果。
将检索文字C1匹配的文字相关值表示为W1,将检索文字C2匹配的文字相关值表示为W2,…,将检索文字Cr匹配的文字相关值表示为Wr。
接下来,对方框图102所示的为了计算相关度而假设的检索关键词与索引矩阵之间的相对关系进行说明。
检索关键词与索引矩阵之间具有全部的检索文字C1,C2,…,Cr与索引矩阵内的任意候补文字相匹配的关系。将检索文字C1,C2,…,Cr匹配的各候补文字在索引矩阵内的位置,即匹配位置表示为[C1i,C1j]、[C2i,C2j],…,[Cri,Crj]。
而且,作为进一步的相对关系,具有方框102所示的式(1)的关系,即:
C(k+1)i=Cki+1,C(m+1)i=Cmi+1(m>k)
在该式中,k、m表示构成检索关键词的各检索文字的相对位置。另外,C(k+1)i表示与检索关键词的第k+1个检索文字匹配的候补文字的索引矩阵内的行编号,Cki表示与检索关键词的第k个检索文字匹配的候补文字的索引矩阵内的行编号。
从而,C(k+1)i=Cki+1表示与检索关键词的第k+1个检索文字匹配的候补文字在索引矩阵内的行编号,和在与检索关键词的第k个检索文字匹配的候补文字在索引矩阵内的行编号上加1的编号相同。换言之,C(k+1)i=Cki+1表示检索关键词的第k+1个检索文字和第k个检索文字具有分别与索引矩阵中的相邻的2行相匹配的关系。
C(m+1)i=Cmi+1也同样,表示检索关键词的第m+1个检索文字和第m个检索文字具有分别与索引矩阵中的相邻的2行相匹配的关系。
在检索关键词与索引矩阵具有这样的相对关系的场合下,可以通过方框103所示的式(2)来计算出检索关键词与索引矩阵的相关度。
SimDegree=W1+W2+…+W(k-1)+Q*(Wk+W(k+1))+…
+W(m-1)+Q*(Wm+W(m+1))+…+Wr
在该式中,W1是第1个检索文字C1匹配的文字相关值,W2是第2个检索文字C2匹配的文字相关值,W(k-1)是第(k-1)个检索文字C(k-1)匹配的文字相关值。同样,W(k)是第k个检索文字Ck匹配的文字相关值,W(k+1)是第(k+1)个检索文字C(k+1)匹配的文字相关值。另外,W(m-1)是第(m-1)个检索文字C(m-1)匹配的文字相关值。同样,W(m)是第(m)个检索文字C(m)匹配的文字相关值,W(m+1)是第(m+1)个检索文字C(m+1)匹配的文字相关值,另外,最后的Wr是第r个的最后的检索文字C1匹配的文字相关值。
这样,在相关度的计算中,构成检索关键词的全部检索文字的文字相关值W被累加(累计)计算。
而且,在式(2)中的Q*(Wk+W(k+1))表示:由于检索关键词中的第k个检索文字Ck和第(k+1)个检索文字C(k+1)分别与索引矩阵中的相邻的2行相匹配,所以对文字相关值Wk和文字相关值W(k+1)乘以行的相关度加权因数Q。关于Q*(Wm+W(m+1))也同样。
另外,检索关键词的第k-1个检索文字与第k个检索文字,由于不具有与相邻的2行相匹配的关系,所以对W(k-1)和Wk双方不乘以相关度加权因数Q。关于W(m-1)和Wm也同样。
另外,由于图18的方框102所示的检索关键词与索引矩阵的相对关系中,具有全部的检索文字C1、C2、…、Cr与索引矩阵内的任意候补文字相匹配的关系,所以在式(2)中,将W1~Wr的全部的检索文字的文字相关值累计计算。
但是,这只是一例,例如,在虽然具有式(1)的相对关系,但检索文字C1和检索文字Cr不与索引矩阵内的任意候补文字相匹配的场合下,计算相关度的计算式为如下计算式,相应于累积项的减少,当然其相关度会降低。
SimDegree=W2+…+W(k-1)+Q*(Wk+W(k+1))+…
+W(m-1)+Q*(Wm+W(m+1))+…+W(r-1)
另外,在具有全部检索文字C1、C2、…、Cr与索引矩阵内的任意候补文字相匹配的关系,并且,具有检索关键词的第k+1个检索文字和第k个检索文字、以及第k+2个检索文字和第k+1个检索文字分别与相邻的2行相匹配的关系的场合下,计算相关度的计算式为如下计算式。
SimDegree=W1+W2+…+W(k-1)
+Q*(Wk+W(k+1)+W(k+2))…+WR
在该场合下,由于检索关键词的第k-1个检索文字和第k个检索文字不具有与相邻的2行相匹配的关系,所以对W(k-1)和Wk双方不乘以相关度加权因数Q。
下面,采用图19,对相关度计算的具体例进行说明。这里,求出图14所示的文字列“去神仙居住的地方”的索引矩阵(参照表100)与检索关键词“神仙”的相关度。
图19的方框104表示检索条件。相关值矩阵Weight是M×N维,文字相关值是Weight[i]=[1,1-1/N,1-2/N,…,1/N](i=0,1,…,M-1),行的相关度加权因数Q。
检索关键词“神仙”分别被分割成第1个检索文字“神”和第2个检索文字“仙”,对于这两个字,分别在索引矩阵内的候补文字中进行检索。
参照图14的表100可看出,检索文字“神”与索引矩阵中的位置[i、j]的[2、1]相匹配,检索文字“仙”与索引矩阵中的[3、1]相匹配。
从而,如方框105所示,检索文字“神”的文字相关值为1,检索文字“仙”的文字相关值为1。
而且,检索文字“神”的行编号为[2],检索文字“仙”的行编号为[3],如图14的表100所示,这2个检索文字分别与索引矩阵中的相邻的2行相匹配。
从而,如方框106所示那样,对检索文字“神”的文字相关值(1-1/N)和检索文字“仙”的文字相关值1乘以行的相关度加权因数Q,检索关键词的“神仙”与文字列“去神仙居住的地方”的索引矩阵之间的相关度为SimDegree=Q*((1-1/N)+1)。
检索关键词与索引矩阵之间的相关度,通过按照用户的要求灵活地调整相关值矩阵中的加权(文字相关值)和行的相关度加权因数Q等的参数,可以获得更理想的检索结果。
用户可采用键盘1等,相应于需要而适当设定相关值矩阵中的加权(文字相关值)和行的相关度加权因数Q等的参数。
而且,基于这样的图像特征的索引和匹配方式,可以满足多种语言的文档图像的索引和检索。不需要进行文字识别,计算量少。本发明不限于中文,可以应用于各种语言的文档图像。
最后,对具备词汇解析功能(语义分析功能)的检索处理进行说明。如图8所示那样,在本实施方式的文档图像处理装置10中,在关键词输入部24与检索部22之间,设有词汇解析部23。图20中表示具备词汇解析功能的检索处理。
词汇解析部23由词义分析处理部23a和语义词典23b构成。词义分析处理部23a,在从关键词输入部24输入检索关键词时,参照语义词典23b,对检索关键词的词汇进行分析。
例如,在作为检索关键词输入“中日关系”时,词义分析处理部23a作为与“中日关系”相关的单词,将例如“中国”、“日本”、“关系”这3个输入到检索部22。这些“中国”、“日本”、“关系”具有或的关系,检索式为“中国”或“日本”或“关系”。
将该检索式“中国”或“日本”或“关系”输入到检索部22,检索部22对索引信息DB17进行检索,抽出包含“中国”的文档图像、包含“日本”的文档图像、和包含“关系”的文档图像。
由此,不仅能够检索出直接包含所输入的检索关键词的文档图像,而且还能够检索出相关的文档图像。
接下来,对实施文档图像管理处理的文档图像管理部57进行说明。文档图像管理部57由文字图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20、文档名制作部51、文档图像DB管理部52、文档图像显示部53、指示输入部54构成,下面对这些进行说明。
关于文字图像特征抽出部14、字形特征字典15、特征匹配部16、标题区域初始处理部18、文档图像DB19、文档图像特征DB20的功能已进行了说明。在此,仅对为实施文档图像管理处理而进一步所需的功能进行适当说明,该文档图像管理处理中制作有意义的文档名并对文档图像特征DB20的文档图像进行管理。
采用图21说明文档图像管理处理。从由图像扫描仪2及数字摄影装置6构成的文档图像输入部21,输入文档图像1~N。
对于所输入的文档图像1~N,标题区域初始处理部18对各文档图像的内容进行分析,并抽取出标题区域获取文字列。接着,虽然未图示,但文字图像特征抽出部14与上述同样,将所抽取出的标题区域中包含的文字列的文字图像以1个文字为单位进行分割,并抽出各文字图像的图像特征。
然后,以这样抽出的文字图像的图像特征为基础,由字形特征字典15及特征匹配部16构成的候补文字列生成部55,选择图像特征的匹配度高的文字图像作为候补文字,并制作成与所抽取出的标题区域中包含的文字列相应的候补文字列,而且如上述那样采用词义解析法来调整构成该候补文字列的各候补文字,并设为有意义的候补文字列。
更具体地说,候补文字列生成部55,以由文字图像特征抽出部14抽出的文字图像的图像特征为基础,从字形特征字典15中,以图像特征的匹配度从高到低的顺序选择出N个(N>1的整数)文字图像作为候补文字,在上述文字列的文字数为M个(M>1的整数)的场合下,制作成M×N维的索引矩阵。这就是上述的特征匹配部16的处理。
接下来,特征匹配部16,基于制作的索引矩阵,来制作将位于该索引矩阵中的第一列的各行的候补文字按顺序排列的候补文字列。然后,对构成该候补文字列的连续的各行的候补文字所构成的单词的词义进行解析,并调整各行的第一列的候补文字,从而使候补文字列带有意义。
图22是表示调整所制作的索引矩阵而使第一列的文字列成为具有意义的文字列,为此采用词汇解析法来进行调整的具体例的说明图。
图22的上部分所示的调整前的索引矩阵109,与图8所示的表100中示出的索引矩阵相同。在索引信息DB17中是以该状态储存的。由这样的索引矩阵109制作成的候补文字列为“去伸仙居任酌地方”,不具有意义。
用作有意义的文档名的候补文字列中,主语、谓语、以及宾语的连接词关系等必须在意义上正确。在此,利用词汇解析,变换成有意义的候补文字列。具体地说,对于两个或两个以上错误候补文字,使用概念词典,分析两个或两个以上错误候补文字与候补文本的其它单词之间的意义信息,而将候补文字列修改为有意义的文字列。
在这种词汇解析中所采用的语言模型61,只要提供由所有的汉字开始的活字的统计数据即可。换言之,利用该语言模型61的主要概念,可以在技术上确立自动搜索系统,能够得到与中文报纸的稿本有关的统计数据。
例如,作为实例,可使用Bi-gram模型(语言模型)。Bi-gram是两个文字、两个音节、或者两个单词的群(group),且作为文本的简单统计分析的基础被广泛使用。以符号序列来示出的场合下,将各符号的外观设为独立事项,并将上述符号序列的概率如下定义。
并且,在上述功能的分解中,可以使用概率的链锁律。将中文设为(N-1)阶马尔可夫链(符号的概率以N-1阶符号的前出为条件)。该语言模型被称为N-gram模型。
确立性的N-gram模型的使用,包含长期带来良好结果的统计上的自然语言处理。N-gram通常由采用文本大的整个文档(语料库)中的文字及单词的共起而得到的统计来构成,且规定文字连锁或单词连锁的确立。N-gram中,与通常直接从语料库中抽出的场合相比,具有能够覆盖非常大的语言的优点。在对语言模型的应用中,由于计算机的限制和没有限制的语言的特性(文字、单词无限量地存在),所以将N设为N=2,且设为Bi-gram模型。
图22的下部分表示调整后的索引矩阵110。第2行的第1列的“伸”作为错误候补文字,被置换成第2列的“神”。同样,第5行的第1列的“任”被置换成第3列的“住”。然后,第6行的第1列的“酌”,鉴于其前后的“居住”和“地方”之间的关联性而被认为是错误候补文字,并被置换成第2列的“的”。
这样的索引矩阵110的第1列中包含的候补文字列变为“去神仙居住的地方”,从而具有意义。并且,特征匹配部16,也可以将这样的调整后的索引矩阵110储存在索引信息DB17中。
再次,返回到图21,由候补文字列生成部55如上生成的有意义的候补文字列被送到文档名制作部51。
文档名制作部51,对所输入的文档图像,制作出包含有由候补文字列生成部55生成的有意义的候补文字列的文档名。以下,将包含有该有意义的候补文字列的文档名称为“有意义的文档名”。
从时间数据等发生部60向文档名制作部51,还输入表示文档图像被输入的时间及输入路径的数据等其它数据。文档名制作部51还可以采用至少包含从时间数据等发生部60输入的时间数据的其它数据,来生成文档名。
例如,也可以构成为:将时间数据等其它数据之中的时间数据包含在有意义的文档名中,且将有意义的文档名由时间数据和有意义的候补文字列来构成。
或者,也可以采用时间数据等其它数据,来对相同的文档图像制作另外的文档名。以下,将由时间数据等其它数据等构成的文档名称为原始的文档名。
通过这样构成,对一个文档图像,可以利用有意义的文档名、以及由时间数据等其它数据等构成的原始的文档名来进行管理。
对于每一个文档图像生成的有意义的文档名、以及原始的文档名,被送到文档图像DB管理部52,且在文档图像DB19中,与文档图像的图像数据相对应地进行储存。
文档图像DB管理部52,当用户采用由键盘1等构成的图8所示的指示输入部54,来输入文档图像DB19中所存储的文档图像的阅览指示等时,在由显示装置3等构成的图8的文档图像显示部53上,显示阅览画面。
图23中表示在文档图像显示部53上显示的、文档图像DB19中所储存的文档图像的阅览画面的一个例子。
图中,左侧所示画面201表示所存储的文档图像按原始的文档名列表表示的状态。在画面201的上面,示出了各文档图像的输入顺序。在纸面上最靠前的带有“AR-C262M_20060803_103140”的原始的文档名的文档图像,是在该画面中最先被输入的文档图像。“20060803”表示输入的日期(2006年8月3日),“103140”表示时间(10点31分40秒)。
在这样的显示状态下,通过选择画面上所显示的“有意义的文档名”的标识符等的操作,阅览画面的显示在图中将转移到右侧所示的画面202。画面202表示所存储的文档图像按有意义的文档名列表表示的状态。
该画面202与画面201对应,在此,画面201的上部所示的、纸面上最靠前的带有“定格惠州西湖”的有意义的文档名的文档图像,是在该画面中最先被输入的文档图像。
这样,能够按有意义的文档名来进行阅览,由此用户可容易实施所存储的文档图像的管理及搜索。此外,一并制作出原始的文档名,由此可同时看到时间数据等信息与文档名。
另外,在该文档图像处理装置中,采用制作成的索引矩阵来制作索引信息,并用于检索处理中。因此,标题区域初始处理部18抽出文档图像中包含的两个或两个以上标题区域T,并制作各自的索引矩阵。然而,如果仅仅以对文档图像制作有意义的文档名为目的的话,则没有必要抽出文档图像中包含的两个或两个以上标题并制作各自的索引矩阵。
换言之,可以构成为:对于最能表示出文档图像的标题区域中包含的标题的文字列(文字图像列),制作出索引矩阵,并基于此,使用特征匹配的文字列,来制作带有意义的名称。
作为最能表示出文档图像的标题区域,例如可以设为所抽出的两个或两个以上标题区域之中、存在于文档图像的最上面一行的区域。这是因为重要的标题很多场合下配置在文档图像的最上面一行。
此外,也可以将标题区域中包含的文字的大小设为比某个阈值大,且比所抽出的其它标题区域中的文字大。这是因为重要的标题很多场合下用比其它标题大的文字大小来记载。
或者,也可以将标题区域中包含的文字的字体(字形)类型,设为与所抽出的其它标题区域的文字不同的字体类型。这是因为重要的标题很多场合下用与其它标题不同的字体(字形)来记载。此外,也可以附加其他基准,并且各基准可以分别采用,也可以组合来采用。
此外,如该文档图像处理装置那样,在对于一个文档图像抽出两个或两个以上标题区域,并制作出各自的索引矩阵的构成中,通过标题区域的配置位置、文字大小、或字体,来特定最重要的标题区域的索引矩阵即可。此外,如果是这种场合,则特别优选为,从所抽出的两个或两个以上标题区域的索引矩阵中,制作出最频繁出现的单词包含在候补文字列中的索引矩阵。
最后,文档图像处理装置的各方框,特别是字体正规化处理部12、文字图像特征抽出部14、特征匹配部16、标题区域初始处理部18、检索部22、词汇解析部23、文档名制作部51、文档图像DB管理部52等也可以由硬件逻辑电路构成,也可以如下那样采用CPU由软件来实现。
即,文档图像处理装置10具有执行用于实现各功能的控制程序的命令的CPU(central processing unit)、储存有上述程序的ROM(read onlymemory)、展开上述程序的RAM(random access memory)、储存上述程序和各种数据的存储器等存储装置(记录媒体)等。而且,本发明的目的可通过如下过程来达到,即:将记录有计算机可读取的、实现上述的功能的软件即文档图像处理装置10的控制程序的程序代码(执行形式程序、中间代码程序、源程序)的记录媒体,提供给上述文档图像处理装置,且由该计算机(或CPU、MPU)读出记录在记录媒体上的程序代码并执行。
作为上述的记录媒体,例如可以采用磁带或盒式磁带等的磁带类、包括软(注册商标)盘/硬盘等磁盘和CD-ROM/MO/MD/DVD/CD-R等光盘的盘类、IC卡(包括存储卡)/光卡等的卡类、或掩模ROM/EPROM/EEPROM/闪存ROM等的半导体存储器类等。
另外,也可以将文档图像处理装置10构成为能够与通信网络连接,通过通信网络来供给上述程序代码。作为该通信网络,没有特别的限定,例如可以利用互联网、内部网、外联网、LAN、ISDN、VAN、CATV通信网、虚拟专用网(virtual private network)、电话线路网、移动体通信网、卫星通信网等。另外,作为构成通信网络的传送媒体,没有特别的限定,例如既可以利用IEEE1394、USB、电力线输送、有线TV线路、电话线、ADSL线路等的有线,也可以利用IrDA、远程控制那样的红外线、Bluetooth(注册商标)、802.11无线、HDR、移动电话网、卫星线路、地面波数字网等的无线。另外,本发明也能够以上述程序代码通过电子传送而具体化的被叠加在载波中的计算机数据信号的形式来实现。
本发明在不脱离其精神或主要特征的范围内,能够以其它各种形式实施。从而,上述的实施方式只不过是在所有方面上的一种示例,本发明的范围由本发明的权利要求书来表示,不受本说明书的任何限定。并且,在权利要求书范围内的变形和变更,均属于本发明的范围内。

Claims (4)

1.一种文字图像抽出方法,其特征在于,包括:
抽出步骤,对排列被二值化了的两个或两个以上文字图像的文字列区域,求出具有同一像素值且由相互连接的两个或两个以上像素构成的连接成分,生成由与文字图像的宽度方向平行的两个边和与文字图像的高度方向平行的两个边构成且与上述连接成分外接的外接矩形,并从上述文字列区域中,抽出由外接矩形划分的内侧的部分即划分要素;
改变步骤,改变在抽出步骤中抽出的划分要素,即在抽出步骤中抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
选择步骤,预先确定基准大小,在改变步骤中改变的划分要素中,选择比上述基准大小还大的划分要素。
2.如权利要求1所述的文字图像抽出方法,其特征在于,还包括:
第二改变步骤,改变上述选择步骤中选择的划分要素,即预先确定第一基准尺寸,并在上述选择步骤中选择的划分要素中,将与文字图像的排列方向有关的尺寸比上述第一基准尺寸还小且相互在文字图像的排列方向上相邻的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
第二选择步骤,预先确定第二基准尺寸,且在第二改变步骤中改变的划分要素中,选择与文字图像的排列方向有关的尺寸比上述第二基准尺寸还大的划分要素。
3.如权利要求2所述的文字图像抽出方法,其特征在于,还包括分割步骤,该步骤中,预先确定第三基准尺寸,且在上述第二选择步骤中选择的划分要素中,将与文字图像的排列方向有关的尺寸比上述第三基准尺寸还大的划分要素,基于上述第三基准尺寸来进行分割。
4.一种文字图像抽出装置,其特征在于,包括:
抽出部,对排列被二值化了的两个或两个以上文字图像的文字列区域,求出具有同一像素值且由相互连接的两个或两个以上像素构成的连接成分,生成由与文字图像的宽度方向平行的两个边和与文字图像的高度方向平行的两个边构成且与上述连接成分外接的外接矩形,并从上述文字列区域中,抽出由外接矩形划分的内侧的部分即划分要素;
改变部,改变由抽出部抽出的划分要素,即在由抽出部抽出的划分要素中,将至少一部分相互重叠的划分要素进行综合而作为新的划分要素,并将剩余的划分要素按原样作为新的划分要素;
选择部,预先确定基准大小,且在由改变部改变的划分要素中,选择比上述基准大小还大的划分要素。
CN2007101296050A 2007-07-23 2007-07-23 文字图像抽出装置及文字图像抽出方法 Expired - Fee Related CN101354746B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2007101296050A CN101354746B (zh) 2007-07-23 2007-07-23 文字图像抽出装置及文字图像抽出方法
JP2007246157A JP2009026287A (ja) 2007-07-23 2007-09-21 文字画像抽出装置および文字画像抽出方法
US11/963,613 US8750616B2 (en) 2007-07-23 2007-12-21 Character image extracting apparatus and character image extracting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101296050A CN101354746B (zh) 2007-07-23 2007-07-23 文字图像抽出装置及文字图像抽出方法

Publications (2)

Publication Number Publication Date
CN101354746A CN101354746A (zh) 2009-01-28
CN101354746B true CN101354746B (zh) 2011-08-31

Family

ID=40295407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101296050A Expired - Fee Related CN101354746B (zh) 2007-07-23 2007-07-23 文字图像抽出装置及文字图像抽出方法

Country Status (3)

Country Link
US (1) US8750616B2 (zh)
JP (1) JP2009026287A (zh)
CN (1) CN101354746B (zh)

Families Citing this family (190)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US9495386B2 (en) 2008-03-05 2016-11-15 Ebay Inc. Identification of items depicted in images
US10936650B2 (en) 2008-03-05 2021-03-02 Ebay Inc. Method and apparatus for image recognition services
JP4626777B2 (ja) * 2008-03-14 2011-02-09 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP4952627B2 (ja) * 2008-03-21 2012-06-13 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8818978B2 (en) 2008-08-15 2014-08-26 Ebay Inc. Sharing item images using a similarity score
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8825660B2 (en) * 2009-03-17 2014-09-02 Ebay Inc. Image-based indexing in a network-based marketplace
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9164577B2 (en) 2009-12-22 2015-10-20 Ebay Inc. Augmented reality system, method, and apparatus for displaying an item image in a contextual environment
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10127606B2 (en) 2010-10-13 2018-11-13 Ebay Inc. Augmented reality system and method for visualizing an item
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8977059B2 (en) * 2011-06-03 2015-03-10 Apple Inc. Integrating feature extraction via local sequential embedding for automatic handwriting recognition
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8903175B2 (en) 2011-08-29 2014-12-02 Hewlett-Packard Development Company, L.P. System and method for script and orientation detection of images
US9449342B2 (en) 2011-10-27 2016-09-20 Ebay Inc. System and method for visualization of items in an environment using augmented reality
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9934522B2 (en) 2012-03-22 2018-04-03 Ebay Inc. Systems and methods for batch- listing items stored offline on a mobile device
US8891822B2 (en) 2012-04-10 2014-11-18 Hewlett-Packard Development Company, L.P. System and method for script and orientation detection of images using artificial neural networks
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9323726B1 (en) * 2012-06-27 2016-04-26 Amazon Technologies, Inc. Optimizing a glyph-based file
US10846766B2 (en) 2012-06-29 2020-11-24 Ebay Inc. Contextual menus based on image recognition
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP5831420B2 (ja) * 2012-09-28 2015-12-09 オムロン株式会社 画像処理装置および画像処理方法
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10713304B2 (en) * 2016-01-26 2020-07-14 International Business Machines Corporation Entity arrangement by shape input
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107103312A (zh) * 2017-06-07 2017-08-29 深圳天珑无线科技有限公司 一种图片处理方法及装置
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
CN108229483A (zh) * 2018-01-11 2018-06-29 中国计量大学 基于caffe与软触发下的门牌压印字符识别装置
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020203339A1 (ja) * 2019-03-29 2020-10-08 Arithmer株式会社 活字文字列認識装置、プログラム、及び方法。
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1201954A (zh) * 1997-03-04 1998-12-16 夏普公司 字符识别设备
CN1261190A (zh) * 1999-01-19 2000-07-26 株式会社理光 从彩色图像数据抽取文字方法、装置及记录媒体

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2977230B2 (ja) * 1990-05-10 1999-11-15 株式会社リコー 文字切り出し方法
JPH05174185A (ja) * 1991-01-24 1993-07-13 Matsushita Electric Ind Co Ltd 日本語文字認識装置
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JP2576079B2 (ja) * 1992-09-29 1997-01-29 エヌ・ティ・ティ・データ通信株式会社 文字切出し方法
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
DE69519323T2 (de) * 1994-04-15 2001-04-12 Canon Kk System zur Seitensegmentierung und Zeichenerkennung
EP0677818B1 (en) * 1994-04-15 2000-05-10 Canon Kabushiki Kaisha Image pre-processor for character recognition system
US5821929A (en) 1994-11-30 1998-10-13 Canon Kabushiki Kaisha Image processing method and apparatus
JPH08153110A (ja) 1994-11-30 1996-06-11 Canon Inc 文書ファイリング装置及び方法
JP2827960B2 (ja) * 1995-04-28 1998-11-25 日本電気株式会社 宛名行抽出装置
JP2765618B2 (ja) 1995-05-29 1998-06-18 株式会社エイ・ティ・アール音声翻訳通信研究所 言語解析装置
JPH09106437A (ja) * 1995-10-11 1997-04-22 Ricoh Co Ltd 文字切出し装置および文字切出し方法
US5768414A (en) * 1995-12-22 1998-06-16 Canon Kabushiki Kaisha Separation of touching characters in optical character recognition
JPH09319747A (ja) 1996-05-29 1997-12-12 Ricoh Co Ltd 文書画像の構造化方法
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
JP4170441B2 (ja) * 1997-11-28 2008-10-22 富士通株式会社 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
JP2000090201A (ja) 1998-09-11 2000-03-31 Masaki Nakagawa バイグラム辞書とその小型化方法並びに手書き文字の認識処理方法およびその装置
JP3375292B2 (ja) 1998-12-16 2003-02-10 日本電信電話株式会社 文字認識処理方法及びその装置及びその方法を記録した記録媒体
US7221795B2 (en) * 2000-06-02 2007-05-22 Japan Science And Technology Corporation Document processing method, recording medium having recorded thereon document processing program, document processing program, document processing apparatus, and character-input document
JP4204185B2 (ja) * 2000-11-17 2009-01-07 株式会社リコー 文字認識装置、文字認識方法、および記録媒体
JP2002245062A (ja) 2001-02-14 2002-08-30 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
US6826305B2 (en) * 2001-03-27 2004-11-30 Ncr Corporation Methods and apparatus for locating and identifying text labels in digital images
US7286718B2 (en) * 2004-01-26 2007-10-23 Sri International Method and apparatus for determination of text orientation
TWI284288B (en) * 2004-06-04 2007-07-21 Benq Corp Text region recognition method, storage medium and system
CN100369049C (zh) * 2005-02-18 2008-02-13 富士通株式会社 灰度字符的精确分割装置及方法
KR101035197B1 (ko) * 2005-05-26 2011-05-18 샤프 가부시키가이샤 특허 정보 분석 장치, 특허 정보 분석 방법, 및 특허 정보 분석 프로그램을 기록하고 있는 컴퓨터 판독 가능한 기록 매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1201954A (zh) * 1997-03-04 1998-12-16 夏普公司 字符识别设备
CN1261190A (zh) * 1999-01-19 2000-07-26 株式会社理光 从彩色图像数据抽取文字方法、装置及记录媒体
CN1133951C (zh) * 1999-01-19 2004-01-07 株式会社理光 从彩色图像数据中抽取文字的方法和装置

Also Published As

Publication number Publication date
US20090028435A1 (en) 2009-01-29
CN101354746A (zh) 2009-01-28
JP2009026287A (ja) 2009-02-05
US8750616B2 (en) 2014-06-10

Similar Documents

Publication Publication Date Title
CN101354746B (zh) 文字图像抽出装置及文字图像抽出方法
CN101354703B (zh) 文档图像处理装置和文档图像处理方法
CN101226595B (zh) 文档图像处理装置以及文档图像处理方法
CN101354704B (zh) 字形特征字典制作装置及具备该装置的文档图像处理装置
CN101226596B (zh) 文档图像处理装置以及文档图像处理方法
CN101354705B (zh) 文档图像处理装置和文档图像处理方法
US7801392B2 (en) Image search system, image search method, and storage medium
Jaderberg et al. Reading text in the wild with convolutional neural networks
EP2015228B1 (en) Retrieving electronic documents by converting them to synthetic text
US8533204B2 (en) Text-based searching of image data
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
US8577882B2 (en) Method and system for searching multilingual documents
CN101493896B (zh) 文档图像处理装置及文档图像处理方法
US20150199567A1 (en) Document classification assisting apparatus, method and program
WO2008032780A1 (fr) Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci
US20150294194A1 (en) Method of classifying a multimodal object
CN107291682A (zh) 一种基于跳转处理及双重校验的多篇电子文档分篇算法
CN112966117A (zh) 实体链接方法
En et al. New public dataset for spotting patterns in medieval document images
JP6017277B2 (ja) 特徴ベクトルの集合で表されるコンテンツ間の類似度を算出するプログラム、装置及び方法
Kaoua et al. Image Collation: Matching illustrations in manuscripts
CN113220936A (zh) 基于随机矩阵编码和简化卷积网络的视频智能推荐方法、装置及存储介质
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
Kasamwattanarote et al. Query bootstrapping: a visual mining based query expansion

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110831

Termination date: 20210723

CF01 Termination of patent right due to non-payment of annual fee