CN1122243C - 用于多种语言光字符识别的自动语言识别系统 - Google Patents

用于多种语言光字符识别的自动语言识别系统 Download PDF

Info

Publication number
CN1122243C
CN1122243C CN97182407A CN97182407A CN1122243C CN 1122243 C CN1122243 C CN 1122243C CN 97182407 A CN97182407 A CN 97182407A CN 97182407 A CN97182407 A CN 97182407A CN 1122243 C CN1122243 C CN 1122243C
Authority
CN
China
Prior art keywords
language
speech
zone
document
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN97182407A
Other languages
English (en)
Other versions
CN1276077A (zh
Inventor
伦纳德·K·庞
塔帕斯·卡努格
琼·杨
肯尼思·C·乔伊
敏迪·R·博克瑟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Scanning Software Corp.
Original Assignee
SCANNING SOFTWARE CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SCANNING SOFTWARE CORP filed Critical SCANNING SOFTWARE CORP
Publication of CN1276077A publication Critical patent/CN1276077A/zh
Application granted granted Critical
Publication of CN1122243C publication Critical patent/CN1122243C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明揭示的是利用基于字典的方法识别在多种语言的文档中的不同的区域内的语言。首先,利用适当的几何特性将文档图象划分成各种区域、地区和词标记。在每个区域中,将词标记与相关的各种候选语言的字典进行比较,而显示出最高的可信度因子的语言初始地被定义为该区域的语言。其次,将每个区域分成多个地区。然后,利用那个地区的词的可信度因子,识别每个地区的语言。对于具有低的可信度值的任何语言的判定,该区域以前所判定的语言被用于辅助该识别过程。

Description

用于多种语言光字符识别的自动语言识别系统
技术领域
本发明一般地被用于通信中的各种语言之间的识别,更具体地针对多种语言的文档中不同语言的自动识别,用于光字符识别的目的等。
背景技术
一般地讲,光字符识别涉及将文档图象划分析为单个符号和多组符号,以及将这些符号图象与代表和字母、数字等有关的各种字符的模式信息进行比较。为增加识别过程的精确度,OCR引擎采用基于特定语言的特征的技术。例如,能够利用语言信息选择合适的分类器、字典、双字母和三字母符号概率,以及识别语言特有的日期格式、数字格式等。
过去,如果OCR系统能够识别不同语言中的文本,那么需要用户人工地指定已被扫描的图象中的文本的语言,使OCR系统能够精确地识别文档图象中的符号和词。对于单语言文档,这个任务相对来说是简单的。然而,对于多种语言页的最佳OCR处理而言,在各种不同的语言中需要划分包含相应文本的不同区域,以及用正确的语言标记标识每个区域。对于这种人工干预的需要可能是强劳力的,这导致更大的费用并大大地降低了整个图象-文本的转换过程。
随着商业全球化的增长,多种语言文档正变得更加普通。这种文档的例子包括可能在一页上有多种语言的用于多个国家的用户手册,以及在各类的多种语言版面设计中提供简明的信息量的旅行小册子。在这类文档中,同种类的信息可能在不同的段落、栏目或页中被不同的语言所描述。多种语言文档的其他的例子包括定期航线杂志,为国际旅客、商业旅客提供信息的航行杂志,可能有以出发国的语言为标题和以到达国的语言为主体的国际商业通讯、以及包含多种语言的说明书的移民入境文档。因此,越来越需要能够自动地区分和识别在单个文档中的不同的语言。
过去,自动语言识别的工作一直利用两个一般方法之一。在其中的一种方法中,语言识别依赖于从词标记的图象中所抽取出的特征。描述这种方法的例子有,例如,T.Nakayama和A.L.Spitz的文章,″European Language Determination From Image″,发表在Proc.of Int.Conf.on Document Analysis and Recognition,Tsukuba,Japan,1993;及P.Sibun和A.L.Spitz的文章,″Language Determination:NaturalLanguage Processing From Scanned Document Images″,发表在Proc.of Conf.on App.Natural Language Processing,Stuttgart,Germany,1994;以及A.L.Spitz的文章,″Script And Language DeterminationFrom Document Images″,发表在Proc.of Symp.on DocumentAnalysis and Information Retrieval,Las Vegas,Nevada,1994。这些参考资料中所描述的这类技术需要在主题语言中的大量的文本,以便能可靠地加以识别。如果文本语言比较频繁地变化,例如,从行到行,那么不可能获得充分的基于特征的统计数据来将一种语言与另一种语言区分开。
语言识别的另一种方法是利用词频率和双字母概率。描述这种方法的例子有,例如,H.S.Baird,D.Gilbert,和D.J.Ittner的文章,″A FamilyOf European Page Readers″,发表在Proc.of Int.Conf.on PatternRecognition,Jerusalem,Israel,1994;以及D.Lee,C.Nohl和H.Baird的文章,″Language Identification In Complex,Unoriented,AndDegraded Document Images″,发表在Proc.of IAPR Workshop onDocument Analysis Systems,Malvern,PA,1996。这种方法仅适用于每页只包含一种语言的文本的这类文档。它不提供在同一页上区分两种不同的语言的能力,不存在事先的人工划分。而且,它要求具有较高的保真度的文档图象,以便给语言模型提供可靠的转移概率。
因此,理想的是为自动地区别多种语言和识别多种语言提供一个系统,该系统不需要事先的人工输入,并且能够将图象分成多个同一语言地区,以便在一页上可靠地识别多个不同的语言,并能够更快和更精确地进行光字符识别。
发明内容
追随前述的目标,本发明利用基于字典的方法将文档图象的不同部分划分成多个同一语言地区。利用由上至下的方法、和由下至上的方法、或者两者结合的方法能够划分该文档。在由上至下的方法中,利用适当的几何特性将文档图象划分成多个区域和词标记。在每个区域中将词标记与每个不同的候选语言关联的字典相比较,以便给每个语言定义一个可信度因子。具有最高的可信度因子的语言初始地被识别作为该区域的语言。每个区域被分成本地的地区,每个本地的地区能够包含一个词或一组词,例如一行。对于那个地区的词,利用基于字典的可信度因子识别每个局部地区的语言。然后,按照与每个地区相关的语言划分局部地区。
在由下至上的方法中,文档图象被分析为单个的词标识,而且为每个词和每个候选语言定义一个可信度因子。文档图象被分成局部地区,该局部地区又能够包含一个词或一组词,例如一行。对于该地区的词,利用基于字典的可信度因子识别每个局部地区的语言。然后,按照与每个地区相关的语言将具有共同语言的局部地区分组,以提供同一语言地区。
在两者混合的方法中,文档图象首先被划分成一个或多个区域,同时为每个区域识别一种语言。然后,执行由下至上的方法,在局部地区的分组定义中利用区域语言构成同一语言地区。
参照在后附的图中示出的示范实施例,本发明的特征及由此提供的优点详细地在后面加以描述。
附图说明
图1是本发明可能使用的这类计算机系统的方框图;
图2是描述在一个文档的光字符识别中所执行的一般步骤的方框图;
图3是多种语言文档的一个示意图;
图4是本发明的首选实施例的整个过程的流程图;
图5是用于确定词语言可信度统计量的子程序的流程图;
图6是用于定义地区语言可信度统计量的子程序的流程图;
图7是用于将地区聚集成子区域的子程序的流程图;
图8是本发明的次选实施例的整个过程的流程图;
图9是用于定义区域语言的子程序的流程图;
图10是用于定义地区语言的子程序的流程图;以及
图11是用于将地区划分成子区域的子程序的流程图。
具体的实施方式
为了方便地理解本发明,以后特别参照多语言中包含文本的文档页的光字符识别加以描述。尽管本发明是特别地适于这种应用,但是应理解它不局限于这种特殊的应用。而且,无论在何处需要在不同的语言之间区分及识别不同的语言,都能够在各种不同的上下文中使用构成本发明的原理。
语言的自动识别,更一般地说,光字符识别能够在各种计算机系统中被实现。尽管计算机系统的特定硬件不构成本发明的一部分,但是在此对它们的简单描述是为了提供对这种方式的完全的理解,该方式将本发明的特征与计算机系统的元件相互组合以产生理想的结果。
参照图1,一个示范计算机系统包括计算机10及与之相连的各种外部的外围设备12。计算机10包括一个中央处理器14和与之相连的存储器。该存储器一般地包括一个典型地以随机存取存储器16实现的主存储器或工作存储器、一个可由只读存储器18组成的静态存储器,以及永久性存储设备,例如磁盘或光盘20。CPU通过内部总线22与这些形式的存储器的每一个进行通信。外围设备12包括数据输入设备、例如键盘24,和指示或光标控制设备26、例如鼠标、笔等。显示设备28,例如CRT监视器或LCD屏幕,提供计算机内正在被处理的信息的可视显示,例如正在进行光字符识别的一个文档图象。通过打印机30或类似的这种设备能够提供信息的硬拷贝。通过调制解调器32和/或网络接口卡34能够与其它的计算机进行通信。扫描器36能用于将文档的硬拷贝转换成电子格式以便在计算机内存储、操作和处理。这些外部的外围设备的每一个利用计算机中的一个或多个输入/输出端口38与CPU14交换数据。
在操作过程中,用户可以通过扫描器36扫描文档,由此所产生的描述文档图象的数据文件被存储在主存储器16中。被扫描的文档也可以被显示在监视器28上。尽管在主存储器16中存储图象文件的内容,但是可以在主存储器中执行OCR处理,以便为图象的文本部分获得字符数据。光字符识别的结果是生成一个单独的数据文件,例如ASCII文件。图象文件和字符数据文件的任意一个或两者都可以被存储在永久性存储设备20中,和/或通过调制解调器32或网络被传输给另一个计算机。
图2示出在典型的光字符识别过程中由计算机的CPU 14所执行的基本步骤。参考此处,在步骤40,文档图象首先被输入到计算机,例如利用扫描器36或通过通信网络下载。在可选的预处理步骤42,校正文档图象的偏斜,不然就过滤掉可能干扰字符识别过程的人为因素。例如,如果有缺陷的扫描仪沿图象产生一条垂直的线,那么能够在进一步的处理之前检测并适当地去除该线。然后,在步骤44,文档图象被分成一些区域。这种划分的一个例子显示在图3中。在该图的例子中,页46包含文本的3个栏目,每一栏目包含两段。如果文档是一个多语言用户手册,例如,每一栏目或每一段可以包含不同语言的文本。图象的这种划分能够导致将文档分成3个区域48a、48b、48c,这3个区域分别对应3个栏目。根据所希望的精确度,文档能够更加精确地被分成更小的区域。例如,每一段、甚至每一行或半行可以构成不同的区域。一般地,区域可以是包含两个或更多的词标记的文档的任何部分。
用于校正和删除人为因素的预处理步骤、以及文档的划分能够按照任何的各种众所周知的技术来实现。这类技术的例子在L.O′Gorman和R.Kasturi的文章,Document Image Analysis,IEEE Comp.Soc.Press,1995中被描述,特别是第4章以及该章给出的参考资料。
一旦文档已经被分成多个段,那么用于显示构成个别词的字符符号的组合的词标记,再次使用传统的光字符识别技术来识别。对于每个词标记,利用符号分类器,在步骤50,为构成词标记的可能的字符串生成一个或多个推测。有关这种分类器的详细信息及其操作能够在Duda和Hart的文章Pattern Classification and Scene Analysis,Wiley&Sons 1973中查到。在步骤50,初始的OCR的结果是在每一个词标记中估算字符。每个词估算或推测能够有相关的识别概率,此概率表明相对于同一个词标记的其它的词估算而言其估算是正确的可能性。
一般地说,光字符识别使用识别相应于字母字符、数字和标点符号等的模式或符号的分类器。当已知被处理的文档的具体的语言时,分类器能够被定制成这种语言。然而,在图3的例子中,存在多种语言,而且事先可能并不知道。在这种情况下,用于生成初始的词推测的字符分类器最好是一个对将要被识别的所有候选语言通用的分类器。例如,如果光字符识别技术被设计用来识别和区分各种罗马语言,那么该通用的符号分类器能够被设置用来识别那些语言中所有或大部分的符号。作为通用分类器的另一种使用方法,能够使用针对某种语言的特定的分类器,但是,增加了后处理能力以识别不能用这种语言显示的符号。
一旦已经初始地估算了这些词,那么在步骤52,识别出各个区域中与文本相关的语言,这在下文中更加详细地描述。其结果是在步骤54中实现能提供更高精确度的更具挑战性的光字符识别,其中利用针对每个被识别的语言的特定的分类器。其处理的最终结果是一个代表在原图象中文本的单个字符的数据文件56,例如一个ASCII文件。
一般地说,本发明采用基于字典的方法,在该方法中,在特定语言中被查到的这些词的一个字典用于识别这种语言中的文本。对于每个将被识别的候选语言,为该这种语言中的词建立字典。因此,例如,如果基于罗马字母表的语言将被识别,那么可以为下栏目的每一种语言建立一个字典:美式英语、英式英语、法语、意大利语、德语、瑞典语、挪威语、芬兰语、丹麦语、葡萄牙语、巴西式葡萄牙语、西班牙语和荷兰语。每个字典可以是字典的一部分,它仅包含该语言中最常用的词,或是包含该语言中较完整的词的集合的一个完整字典。字典也可以包含这些词的统计信息,例如,这些词一般出现在语言中的频率。作为每个候选语言的使用各自字典的另一种方法,可以使用包含各种候选语言的所有的词的单个字典。在这种情况下,在字典中的每个条目返回说明那个词所代表的语言的数据。
在本发明的一个实施例中,为每种候选语言和文档的每个区域48a-48c计算一个可信度统计量。在本发明的一个比较简单的实施中,能够通过在区域中对在每个相关的字典中被查到的词的数量的统计计算出可信度统计量。另外,也可以使用较复杂的方法计算可信度统计量,这在下文中更加详细地描述。具有最高可信度统计量的语言被确定下来,并被用作该区域的语言的一个初始的估算。
根据所实现的精确度的大小,区域划分中可能出现一个区域中包含不止一种语言的情况。例如,在图3的例子中,在各个区域48a-48c中的每两个段可能使用不同的语言。因此,在初始区域语言已经被识别后,每个区域又被分成多个局部地区。一个局部地区能够象一个词标记一样小。然而,更优选地,一个局部地区由词的一个逻辑组构成,例如文档的一行或多行。利用基于字典的可信度统计量来识别每个地区的语言。然后,将具有同种语言标识的连续的地区合并。在任何已给定的地区,如果候选语言中没有一个具有高的语言可信度统计,那么与那个地区有关的区域语言被用作缺省的地区语言标识。
按照本发明,将一个文档分成多个同一语言地区的前述过程能够以不同的方法来实现。描述这些不同方法的本发明的实施例在图4-11的流程图中被更加详细地描绘。一般地说,这些不同的方法能够被分类为一种由下至上的方法、由上至下的方法和一种利用这两种方法的概念的混合方法。图4描述了按照由下至上的方法的整个语言的识别过程。在步骤100,扫描文档或将文档的图象输入到计算机的随机存取存储器16。对图象能够进行预处理,例如校正偏斜以便使文本的行处于水平方向,否则过滤掉明显的错误。在步骤102,使用常规技术根据图象的几何特性,将文档图象分成多个词标记和局部地区。为便于本发明的理解,下栏目实例将被描述,在该实例中,每个局部地区由文档中的一行文本组成。然而,我们知道局部地区可以是任意要求的大小,甚至象一个词一样小。
一旦已经完成了将文档分成词和局部地区,那么执行进程106,为每个词确定语言可信度统计量。然后,在步骤108,选择第一个地区,再执行另一个进程110以确定那个地区的语言可信度统计量。在步骤112,判断在文档中是否还有任何其他的地区,如果有,那么重复执行在步骤108和110以确定每个地区的语言可信度统计量。在给每个地区确定了可信度统计量之后,在进程114将已给定语言的具有足够高的可信度级别的相邻的地区,例如多个连续的行,聚集成子区域。在所有的地区已经按照这种方式被处理完后,在步骤118结束此处理过程。这个过程的结果是多个子区域的一个有序集合,其中每个区域具有同一语言标识。
在图5的流程图中,更加详细地描绘了在步骤106所执行的用以定义每个词的语言可信度统计量的子程序。在步骤124,选择区域中的第一个词标记,然后,在步骤128,选择第一种候选语言l。在步骤130,计算出统计量w(l),该统计量表明所选的词是否包含在所选语言的可信度级别内。在一个实施例中,该统计量可能简单地是1或0,这依赖于该词是否能够在该语言的字典中被查到。此外,也可以采用更复杂的方法。例如,能够根据该词的长度对每个词的可信度统计量w(l)进行加权。这种方法对于有较长的、唯一的词的语言,例如德语和挪威语,是特别有用的。另一个可以利用的因子是针对每个词所计算出的值进行加权,将其作为分类器识别出的与词标记中的一个字符相关的一个识别概率的函数。利用这种方法,具有较低的识别概率的词估计不会象那些较正确地被识别的词估计一样对语言可信度统计量有大的影响。除去标示所选择的词是否在字典中被查到以外,可信度统计量也能够考虑其他的因子。例如,可能希望利用n字母(n-gram)信息或词频率信息对可信度统计量加权,例如,它是一种描述词标记中的字符串出现在所选择的语言中的概率的因子。
在步骤140,针对所选的词判断是否还有其他的语言要处理。如果有,重复步骤128和130,直到已经将该词与每个候选语言的字典比较完了并且针对每个语言计算出可信度统计量。在已经检测完所有语言和计算出可信度因子之后,选择下一个词,重复步骤124-140。相对于每一种候选语言,一旦计算出每个词的可信度统计量,子程序返回到主程序。
在图6的流程图中详细地描绘了在步骤110所执行的用以确定一个地区的语言可信度统计量的子程序。参考那里,在步骤142,选择第一种候选语言l,并在步骤144初始化该地区的语言可信度统计量r(l),例如设置成0。在步骤146选择该地区中的第一个词,并在步骤148更新所选择的语言的地区可信度因子r(l)。例如,可以在累加器中存储该地区可信度因子。通过给存储在累加器中的数值增加该词的语言可信度统计量w(l)能够更新该因子。
然后,该过程执行步骤150以确定在该地区是否还有其他的词要被检测。对于该地区中的每个词,重复步骤146和148以获取与该地区中在被选择的语言l的字典中可查到的词有关的可信度统计量r(l)。在已经检测完所有的词之后,r(l)的更新值被存储为该地区中所选择的语言的可信度因子。在步骤152,判断该区域是否还有其他的语言要被处理。如果是,重复步骤142-150,直到该区域中的每一个词都已与每一种候选的语言的字典比较完了。作为这个处理的结果,为该地区内的每种语言确定可信度因子r(l)。在已经检测完所有语言和确定了可信度因子之后,子程序返回到主程序。
在图7的流程图中,更加详细地描绘了在步骤114所执行的用以将多个地区聚集成同一语言子区域的子程序。在步骤154,子区域集合Z′初始地被定义成空或null集合。在步骤156,当前子区域的一个临时变量u也被初始化地设置成null值,在步骤158,及当前子区域的语言uL被初始化地设置成任意缺省的语言。然后,在步骤160,选择第一个地区r,在步骤162,判断所选地区的语言的可信度因子r(l)是否表明当前的子区域语言uL可能就是该地区的语言rL。换句话说,比较每种候选语言的可信度因子,然后判断当前的子区域的语言的语言可信度因子r(l)是否是最高的,或者与该地区的其他的可信度因子相比是否至少是足够高的。如果是,在步骤164,将所选的地区r增加到当前子区域的地区集合R(u)中。
如果当前的子区域语言uL不是该地区的概率最大的语言,即该子区域语言的可信度因子r(l)在感兴趣的地区的可信度因子中不是足够高的,在步骤166,判断该地区的最大可信度因子r(l)max是否大于门限值Th。如果是,那么可以开始一个新的子区域。因此,在步骤168,子区域语言uL被修改为所选择的地区的最高的可信度语言。然后,在步骤170,将最新的子区域u增加到子区域集合Z′中,在步骤172,初始化当前的子区域变量u以开始新的子区域。然后,在步骤164,将当前所选择的地区r增加到新的当前子区域中。
如果在步骤166中,该地区最高的可信度因子没有超过门限值,那么开始一个新的子区域的概率较小。在流程图所描述的实施例中,将所选择的地区增加到当前的子区域中的地区集合R(u)中。选代地,当检测下一个地区时,能够临时地取消该地区。如果下一个地区的可信度因子表明正在开始一个新的子区域,那么能够重新检测上一个地区以说明是否应该在新的子区域中包含该地区。因此,在两个子区域之间的一个转换区中,能够利用一个预处理过程来确定这两个子区域的哪一个具有与转换区的语言最相近的一个相关的语言。
针对每个地区r,重复在步骤160-172的过程以定义子区域的一个集合Z′。每个子区域包含已经被识别作为包含同一种语言的文本的一个或多个连续的地区。因此,在每个地区是一行文本的情况下,子区域包含文本的多个连续的行。当遇到具有不同的语言的下一个连续的行时,例如一个新的段落的开始,那么创建一个新的子区域。
在本发明的前述实施例中,在确定各种语言字典的地区可信度因子时,利用每个词标记并且赋给每个词标记相等的加权值。在某些情况下,可能需要对各个不同词所赋予的值有更大的选择性,以提供更大的精确度。例如,可以不考虑只包含一个字符的词标记,因为它们可能代表噪声而不是实际的内容。
在前述的实施例的由下至上的方法中,用于分成不同语言地区的文档图象分析从最小的公共元素,即词标记开始。在另一个由上至下的方法中,首先可以创建较大区域的语言,然后将其分成较小的同一语言地区。在图8中给出了描绘本发明的这个实施例的整个过程的流程图。对此参考,在步骤200,将文档的图象输入到计算机的随机存取存储器16中,然后对该图象进行预处理以校正偏斜,同时过滤掉明显的错误。在步骤202,根据该图象的几何特性,将文档的图象分成多个区域、地区和词标记。在图3的实例中,根据分隔它们的白色粗线能够容易地识别文本的三个垂直栏目,以定义分隔的区域。在每个栏目中,文本的各个行由它们之间的水平白线来识别,以勾划不同的地区。类似地,在每行中,各个词标记由符号之间的相对间隔来识别。尽管图3的实例描绘了多个区域,但是有可能整个页只包含一个区域。
一旦已经完成了文档的分隔,在步骤204,选择一个区域。然后,执行进程206,以定义该区域的语言。然后,在步骤208,选择第一个地区,执行另一个进程210,以确定那个地区的语言可信度统计量。在步骤212,判断在该区域中是否还有任何其他的地区,如果有,重复步骤208和210,以确定每个地区的语言可信度统计量。在给每个地区确定了可信度统计量之后,在进程214中,针对已给定的语言,从与该语言无关的其他的地区分隔出来具有类似的可信度级别的地区。在步骤216,判断是否还有其他的区域要被处理。如果有,针对每个其他的区域,重复步骤204-214。在所有的区域已经按照这种方式被处理之后,在步骤218,结束此处理过程。该处理过程的结果是在每个区域内同一语言子区域的一个有序集合。
在图9的流程图中,更加详细地描绘了在步骤206所执行的用以定义区域语言的子程序。在步骤224,选择第一种候选语言l,在步骤226,初始化该语言的统计量z(l)。在步骤228,选择该区域中的第一个词,在步骤230,根据那个词标记中的字符串是否能够在所选择的语言l的字典中被查到来计算该词的可信度统计量w(l)。然后,在步骤232,根据所确定的可信度值更新语言统计量z(l)。例如,针对所选择的语言,语言统计量z(l)可以是该区域中多个词的各个可信度值w(l)的累加。然后,执行步骤234,以判定该区域中是否还有其他的词需要被检测。
针对该区域中的每个词,重复步骤228-232,以获得所选择的语言的z(l)的最终值。在一个比较简单的实施中,统计量可以是对该区域中可在所选择的语言l的字典中查到的词的数量的统计。在已经检测完所有的字之后,在步骤236,判断是否该区域中还有其他的语言需要被处理。如果是,重复步骤224-234,直到该区域中的每个词与每种候选语言的字典完成了比较。一旦已经按照这种方式检测了所有语言,在步骤240,根据代表最高的可信度值的语言统计量z(l)选择区域语言zL。在前述的简单的实施中,该区域中具有最高的词的频率的语言,也即产生最高统计值的语言,就是最终被选择作为那个区域的区域语言zL。在已经检测了所有语言和识别了区域语言之后,该子程序返回到主程序。
在图10的流程图中详细地描绘了在步骤210所执行的用以定义地区语言的子程序。对此参考,在步骤242,地区语言rL被初始化地设置成前述定义的区域语言zL。然后,在一个类似于图9的流程图中步骤224-236所执行的过程中,检测地区中的每个词以确定所选择的语言l的可信度值r(l)。
一旦给每个地区确定了可信度值,该过程返回到主程序。然后,在子程序214中,这些地区被分成同一语言子区域。例如,这能够用一种类似于在图7的流程图中所描绘的聚集过程的方法加以实现。然而,在这个实施例中,区域语言zL被用于确定多个子区域。图11描绘了这种差别。对此参考,在步骤266,当判断某个地区的可信度值r(l)不是高到足以转换为一个新的子区域时,在步骤267,一个新的子区域的子区域语言uL缺省地被设置成区域语言zL。换句话说,当不能确定某个地区的主语言时,假定那个地区以该区域的主语言来显示,并将与这种语言有关的某个子区域聚集。因此,区域语言的初始化判定允许聚集过程采用较为保守的关于当遇到低的可信度时是否转换子区域的规范。
参考混合的方法,本发明的第三个实施例采用在开始的两个实施例中的每一个所使用的某些技术。具体地,在本实施例中,如同在由上至下的方法中一样,首先给每个文档的区域确定区域语言。然后,按照由下至上的方法执行此处理以确定每个词的可信度因子,以及每个地区的地区语言。在这种情况下,如同在由上至下的方法中一样,该区域语言能够被用来辅助将多个地区聚集成子区域。
了解本领域技术的那些人知道在不背离本发明的实质或基本特征的情况下,本发明能够以其他的特定形式来实施。例如,在所附的流程图中所描述的具体的实现中,为区域中的每个词、每种候选语言计算出可信度统计量。然后,在区域语言和地区语言的判定中使用所有已计算出的可信度。然而,在首选的实现中,可能不需要为每个词或每种语言计算出可信度统计量。相反,如果一种语言的可信度统计量高到足以能可靠地确定已经正确地识别某个词的语言,那么,此时结束该计算,不再计算任何其他语言的可信度值。类似地,如果已经确定出某个区域或地区内足够多的词都是同一种语言,那么不需要再检测每个剩余的词就能够选出那个区域或地区的语言。因此,目前公开的实施例应认为是阐述性而不是限制性的。本发明的范围由后附的权利要求书来决定,而不是由前述的说明来决定,而且在那里将包含在同等意义和范围内的所有的修改。

Claims (12)

1.一种用来自动地确定与文档中的文本有关的一种或多种语言的方法,其中包括步骤:
-将文档分成多个词标记;
-在所述词标记中构成字符的至少一个推测;
-为多种语言的每一种语言定义一个字典;
-针对所述词推测的所述多种语言确定可信度因子,其中这些因子是根据各个字典是否包含这些词推测得出的;
-定义文档中的多个地区,其中每一个地区包含至少一个词;
-根据与该地区中的词有关的可信度因子确定每个地区的语言可信度因子;以及
-针对已给定的语言,将具有比较高的可信度因子的地区聚集成由已给定的语言来标识的一个子区域。
2.权利要求1的方法,其中一个推测仅由具有至少两个字符的最小长度的词构成。
3.权利要求1的方法,其中所述被推测的词的可信度因子按照所推测的词的长度进行加权。
4.权利要求1的方法还包括以下步骤:确定每个推测的识别概率和按照识别概率对所述的可信度因子加权。
5.权利要求1的方法,其中,按照被推测的词在各种语言中出现的频率对所述被推测的词的可信度因子进行加权。
6.权利要求1的方法,其中所述初始的推测通过用所述的多种语言中的每一种通用的分类器构成。
7.一种用来自动地将文档分成同一语言子区域的方法,包括步骤:
-在包含多个词的文档中定义至少一个区域;
-为多种语言的每一种语言定义一个字典;
-为区域中的每一个词,确定相对于所述的多种语言中的每一种语言的一个可信度因子,其中这些因子是根据各个字典是否包含该词得出的。
-根据与该区域中的词有关的可信度因子,识别区域中的区域语言;
-选择包含至少一个词的区域中的一个局部地区;
-根据与该地区中的词有关的可信度因子,识别局部地区中的地区语言;
-判定地区语言与区域语言是否相同;以及
-如果地区语言与区域语言是不相同的,那么将局部地区从区域中的其他的地区分离出来。
8.一种用来自动地确定与文档中的文本有关的一种或多种语言的方法,其中包括步骤:
-将文档分成包含词标记的多个地区的多个区域;
-在所述的词标记中构成字符的至少一个推测;
-为多种语言的每一种语言定义一个字典;
-为每一个被推测的词确定哪些所述字典包含该词的推测,并为每个语言确定可信度值;
-根据与该区域中的词有关的可信度值,识别每个区域的区域语言;
-根据与该地区中的词有关的可信度值,识别每个地区的地区语言;
-如果与地区中的词有关的可信度值是不够高,那么将该区域语言定义为地区语言;
-将具有相同的地区语言的某个区域中多个地区聚集成由某个特定的语言来标识的子区域。
9.权利要求8的方法,其中只为其预定最小字符数大于一的词构成推测。
10.权利要求8的方法,还包括根据被推测的词的长度来加权所述的可信度值的步骤。
11.权利要求8的方法,还包括确定每个推测的识别概率的步骤和根据识别概率来加权所述可信度值的步骤。
12.权利要求由8的方法,其中所述初始推测通过用所述的多种语言的每一种通用的分类器构成。
CN97182407A 1997-09-15 1997-11-20 用于多种语言光字符识别的自动语言识别系统 Expired - Fee Related CN1122243C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/929,788 1997-09-15
US08/929,788 US6047251A (en) 1997-09-15 1997-09-15 Automatic language identification system for multilingual optical character recognition

Publications (2)

Publication Number Publication Date
CN1276077A CN1276077A (zh) 2000-12-06
CN1122243C true CN1122243C (zh) 2003-09-24

Family

ID=25458457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97182407A Expired - Fee Related CN1122243C (zh) 1997-09-15 1997-11-20 用于多种语言光字符识别的自动语言识别系统

Country Status (8)

Country Link
US (1) US6047251A (zh)
EP (1) EP1016033B1 (zh)
CN (1) CN1122243C (zh)
AT (1) ATE243342T1 (zh)
AU (1) AU5424498A (zh)
DE (1) DE69722971T2 (zh)
EA (1) EA001689B1 (zh)
WO (1) WO1999014708A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103285360B (zh) * 2013-06-09 2014-09-17 王京涛 一种治疗血栓闭塞性脉管炎的中药制剂及其制备方法

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449718B1 (en) * 1999-04-09 2002-09-10 Xerox Corporation Methods and apparatus for partial encryption of tokenized documents
US20020023123A1 (en) * 1999-07-26 2002-02-21 Justin P. Madison Geographic data locator
KR100530475B1 (ko) 1999-11-10 2006-01-09 론치 미디어, 인크. 인터넷 라디오와 방송 방법
US6389467B1 (en) 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US6584469B1 (en) * 2000-03-16 2003-06-24 International Business Machines Corporation Automatically initiating a knowledge portal query from within a displayed document
US6567801B1 (en) 2000-03-16 2003-05-20 International Business Machines Corporation Automatically initiating a knowledge portal query from within a displayed document
EP1139231A1 (en) * 2000-03-31 2001-10-04 Fujitsu Limited Document processing apparatus and method
US6738745B1 (en) * 2000-04-07 2004-05-18 International Business Machines Corporation Methods and apparatus for identifying a non-target language in a speech recognition system
US7251665B1 (en) 2000-05-03 2007-07-31 Yahoo! Inc. Determining a known character string equivalent to a query string
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
US7024485B2 (en) * 2000-05-03 2006-04-04 Yahoo! Inc. System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback
US8352331B2 (en) * 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
US6678415B1 (en) * 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
JP4236922B2 (ja) * 2000-07-11 2009-03-11 ヤフー! インコーポレイテッド コミュニティの偏りを持たせたオンライン再生システム
US8271333B1 (en) 2000-11-02 2012-09-18 Yahoo! Inc. Content-related wallpaper
US7493250B2 (en) * 2000-12-18 2009-02-17 Xerox Corporation System and method for distributing multilingual documents
US7406529B2 (en) * 2001-02-09 2008-07-29 Yahoo! Inc. System and method for detecting and verifying digitized content over a computer network
US7574513B2 (en) 2001-04-30 2009-08-11 Yahoo! Inc. Controllable track-skipping
GB0111012D0 (en) 2001-05-04 2001-06-27 Nokia Corp A communication terminal having a predictive text editor application
DE10126835B4 (de) * 2001-06-01 2004-04-29 Siemens Dematic Ag Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache
US7191116B2 (en) * 2001-06-19 2007-03-13 Oracle International Corporation Methods and systems for determining a language of a document
US7707221B1 (en) 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
US7020338B1 (en) * 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US7305483B2 (en) 2002-04-25 2007-12-04 Yahoo! Inc. Method for the real-time distribution of streaming data on a network
RU2251737C2 (ru) * 2002-10-18 2005-05-10 Аби Софтвер Лтд. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
JP3919617B2 (ja) * 2002-07-09 2007-05-30 キヤノン株式会社 文字認識装置および文字認識方法、プログラムおよび記憶媒体
US6669085B1 (en) * 2002-08-07 2003-12-30 Hewlett-Packard Development Company, L.P. Making language localization and telecommunications settings in a multi-function device through image scanning
US20040078191A1 (en) * 2002-10-22 2004-04-22 Nokia Corporation Scalable neural network-based language identification from written text
FR2848688A1 (fr) * 2002-12-17 2004-06-18 France Telecom Identification de langue d'un texte
CN1875377A (zh) * 2003-09-10 2006-12-06 音乐匹配公司 音乐购买和播放系统及其方法
US7424672B2 (en) * 2003-10-03 2008-09-09 Hewlett-Packard Development Company, L.P. System and method of specifying image document layout definition
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
US8027832B2 (en) * 2005-02-11 2011-09-27 Microsoft Corporation Efficient language identification
JP4311365B2 (ja) * 2005-03-25 2009-08-12 富士ゼロックス株式会社 文書処理装置およびプログラム
JP4856925B2 (ja) * 2005-10-07 2012-01-18 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム
US8185376B2 (en) * 2006-03-20 2012-05-22 Microsoft Corporation Identifying language origin of words
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US9020811B2 (en) * 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US7912289B2 (en) 2007-05-01 2011-03-22 Microsoft Corporation Image text replacement
US9141607B1 (en) * 2007-05-30 2015-09-22 Google Inc. Determining optical character recognition parameters
GB0717067D0 (en) * 2007-09-03 2007-10-10 Ibm An Apparatus for preparing a display document for analysis
US8233726B1 (en) * 2007-11-27 2012-07-31 Googe Inc. Image-domain script and language identification
US8019596B2 (en) * 2008-06-26 2011-09-13 Microsoft Corporation Linguistic service platform
US8266514B2 (en) 2008-06-26 2012-09-11 Microsoft Corporation Map service
US8107671B2 (en) * 2008-06-26 2012-01-31 Microsoft Corporation Script detection service
US8073680B2 (en) * 2008-06-26 2011-12-06 Microsoft Corporation Language detection service
US8224641B2 (en) * 2008-11-19 2012-07-17 Stratify, Inc. Language identification for documents containing multiple languages
US8224642B2 (en) * 2008-11-20 2012-07-17 Stratify, Inc. Automated identification of documents as not belonging to any language
CN101751567B (zh) * 2008-12-12 2012-10-17 汉王科技股份有限公司 快速文本识别方法
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
US8468011B1 (en) * 2009-06-05 2013-06-18 Google Inc. Detecting writing systems and languages
CN102024138B (zh) * 2009-09-15 2013-01-23 富士通株式会社 字符识别方法和字符识别装置
US8756215B2 (en) * 2009-12-02 2014-06-17 International Business Machines Corporation Indexing documents
US20120035905A1 (en) * 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
US8635061B2 (en) * 2010-10-14 2014-01-21 Microsoft Corporation Language identification in multilingual text
JP5672003B2 (ja) * 2010-12-28 2015-02-18 富士通株式会社 文字認識処理装置及びプログラム
US8600730B2 (en) * 2011-02-08 2013-12-03 Microsoft Corporation Language segmentation of multilingual texts
CN102156889A (zh) * 2011-03-31 2011-08-17 汉王科技股份有限公司 一种识别手写文本行语言类别的方法及装置
US9519641B2 (en) * 2012-09-18 2016-12-13 Abbyy Development Llc Photography recognition translation
US9330086B2 (en) 2012-10-10 2016-05-03 Motorola Solutions, Inc. Method and apparatus for identifying a language used in a document and performing OCR recognition based on the language identified
US9411801B2 (en) * 2012-12-21 2016-08-09 Abbyy Development Llc General dictionary for all languages
CN103902993A (zh) * 2012-12-28 2014-07-02 佳能株式会社 文档图像识别方法和设备
US9269352B2 (en) * 2013-05-13 2016-02-23 GM Global Technology Operations LLC Speech recognition with a plurality of microphones
US9639521B2 (en) 2013-08-09 2017-05-02 Omni Ai, Inc. Cognitive neuro-linguistic behavior recognition system for multi-sensor data fusion
RU2613847C2 (ru) * 2013-12-20 2017-03-21 ООО "Аби Девелопмент" Выявление китайской, японской и корейской письменности
JP2015210683A (ja) * 2014-04-25 2015-11-24 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
US9798943B2 (en) * 2014-06-09 2017-10-24 I.R.I.S. Optical character recognition method
US10255250B2 (en) * 2014-07-31 2019-04-09 Rakuten, Inc. Message processing device, message processing method, recording medium, and program
US10963651B2 (en) 2015-06-05 2021-03-30 International Business Machines Corporation Reformatting of context sensitive data
JP6655331B2 (ja) * 2015-09-24 2020-02-26 Dynabook株式会社 電子機器及び方法
CN106598937B (zh) * 2015-10-16 2019-10-18 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN107092903A (zh) * 2016-02-18 2017-08-25 阿里巴巴集团控股有限公司 信息识别方法及装置
US10311330B2 (en) 2016-08-17 2019-06-04 International Business Machines Corporation Proactive input selection for improved image analysis and/or processing workflows
US10579741B2 (en) 2016-08-17 2020-03-03 International Business Machines Corporation Proactive input selection for improved machine translation
US10460192B2 (en) * 2016-10-21 2019-10-29 Xerox Corporation Method and system for optical character recognition (OCR) of multi-language content
US10579733B2 (en) 2018-05-10 2020-03-03 Google Llc Identifying codemixed text
US11720752B2 (en) * 2020-07-07 2023-08-08 Sap Se Machine learning enabled text analysis with multi-language support
WO2021081562A2 (en) * 2021-01-20 2021-04-29 Innopeak Technology, Inc. Multi-head text recognition model for multi-lingual optical character recognition

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3988715A (en) * 1975-10-24 1976-10-26 International Business Machines Corporation Multi-channel recognition discriminator
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5182708A (en) * 1990-12-11 1993-01-26 Ricoh Corporation Method and apparatus for classifying text
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103285360B (zh) * 2013-06-09 2014-09-17 王京涛 一种治疗血栓闭塞性脉管炎的中药制剂及其制备方法

Also Published As

Publication number Publication date
EA001689B1 (ru) 2001-06-25
EP1016033B1 (en) 2003-06-18
DE69722971T2 (de) 2003-12-04
WO1999014708A1 (en) 1999-03-25
DE69722971D1 (de) 2003-07-24
ATE243342T1 (de) 2003-07-15
EP1016033A1 (en) 2000-07-05
US6047251A (en) 2000-04-04
EA200000321A1 (ru) 2000-10-30
CN1276077A (zh) 2000-12-06
AU5424498A (en) 1999-04-05

Similar Documents

Publication Publication Date Title
CN1122243C (zh) 用于多种语言光字符识别的自动语言识别系统
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
US6009196A (en) Method for classifying non-running text in an image
US5889886A (en) Method and apparatus for detecting running text in an image
US5278920A (en) Optical character recognition method and apparatus
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
CN109189965A (zh) 图像文字检索方法及系统
JP2000315247A (ja) 文字認識装置
Lakshmi et al. An optical character recognition system for printed Telugu text
KR102572180B1 (ko) 텍스트 분류
Abuhaiba Arabic font recognition using decision trees built from common words
CN101350067A (zh) 行方向判定方法以及装置
Spitz et al. Palace: A multilingual document recognition system
Slavin et al. Algorithms of the tiger and cuneiform optical character recognition software
JP7532171B2 (ja) 画像判定装置、画像判定方法、及びプログラム
KR20040038384A (ko) 한자 영상 군집화를 통한 고문서 입력 및 교정 시스템
Takasu et al. Quality enhancement in information extraction from scanned documents
Padma et al. Script identification of text words from a tri lingual document using voting technique
Shin et al. Table recognition and evaluation
Mandal et al. Detection and segmentation of tables and math-zones from document images
CN1728159A (zh) 文件图像的文字区域识别方法及计算机存储媒体以及系统
Yeotikar et al. Script identification of text words from multilingual Indian document
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: CAERE CORP. TO: SCANNING SOFTWARE CO.,LTD.

CP03 Change of name, title or address

Address after: Massachusetts USA

Applicant after: Scanning Software Corp.

Address before: American California

Applicant before: Caere Corp.

C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee