CN1149502C - 标准化电子文档中字符信息的方法 - Google Patents

标准化电子文档中字符信息的方法 Download PDF

Info

Publication number
CN1149502C
CN1149502C CNB001216074A CN00121607A CN1149502C CN 1149502 C CN1149502 C CN 1149502C CN B001216074 A CNB001216074 A CN B001216074A CN 00121607 A CN00121607 A CN 00121607A CN 1149502 C CN1149502 C CN 1149502C
Authority
CN
China
Prior art keywords
font
electronic document
character
comparison sheet
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB001216074A
Other languages
English (en)
Other versions
CN1282071A (zh
Inventor
О
中居治彦
木户彰夫
榎本义彦
织田哲治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1282071A publication Critical patent/CN1282071A/zh
Application granted granted Critical
Publication of CN1149502C publication Critical patent/CN1149502C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种标准化电子文档中字符信息的方法,包含的步骤为:通过比较电子文档中所用的字体与作为替代字体提供的目标字体集内的字体,自动地生成一个在实际字体代换期间参考的字体比较表;将自动生成的字体比较表提交给用户,让用户修订字体比较表中的错误;根据修订后的字体比较表实际代换电子文档中的字体。它能对各种字体制作的电子文档的信息收集和交换中所用的字符进行标准化,而不损害信号的质量。

Description

标准化电子文档中字符信息的方法
本发明涉及一种标准化电子文档中字符信息的方法,该方法将电子文档中使用非标准字体集的字符代换为相应的标准字体集的字符。
一般来说,选择电子文档中采用的字体是这种文件的制作人员负责的事情。在诸如字处理器的电子文档处理装置中安装的字体,随具体机器的不同而不同,这些机器通常限于只能处理特定的语言。所以,希望制作含有多种语言的文档或者希望使用基本字体集中不含有的字符的文档制作人,只好为这类作为外部字符的字符定义字体,才能在电子文档中使用这种字体。这在对纸件上打印出来的文件的交换中倒不是一个问题,但对于增加因特网上电子文档的交换以及在电子图书馆中登记电子文档的过程中,这却变成了一个主要缺点。
要可靠地交换字符信息,电子文档的制作者和读者必须有相同的字体集和字符码。然而,在每个平台上能使用的字体集是不同的—信息交换中所用的格式(诸如经过因特网线路的格式)不同,在电子图书馆内部或者公司内部的集中式文件(centralized fi1es)中存储的数据的格式不同,鉴于这种现状,有必要对字符信息所用的标准字体进行标准化。
在相关的电子文档制作系统中,字体代换已经是可能的事情,但是在这种代换中,字符码信息要原封不动地保存,只是字体信息要用另一种字体代换。例如,外部字符字体通常被定义为独立的字体,通常要由字符的定义的顺序来决定字符的索引。所以,即使使用大型字体集一例如包括全世界主要的字符(包括一般电子文档制作系统不支持的涉及数千字的JIS辅助汉字集)的统一代码(Unicode)字体,也不能进行字体代换,原因是字体内部的字符索引(字符编码)是不同的。
用户在代换字体时就只得手工地改动电子文档内字符码的码值。为此,用户就需要知道原始电子文档中使用的字体索引和对应于要被代换的字符的字符的索引。当在电子图书馆中收集电子文档时,所收集文档的制作者的数量是个不断增长的数字,所以,要存储所有文档中使用的字体集并存储字体集内字符的索引,以便能每次一个地手工对文档进行标准化,实际上是不可能的。
结果,就在相关技术中处理电子文档的字符信息的电子图书馆和公司内部的集中式文件来说,一直只有唯一的选择,即原样地收集文档,基本上放弃对电子文档进行标准化的的努力。因此,由于电子文档的制作者与使用者之间的环境差别,就会出现不能识别的字符。这就为电子文档的交换带来不便,意味着限于0级(Tier-0)资源等的系统不能对其它系统制作的电子文档进行显示和处理。在已公开的公开号为319854/95(Hei7-319854)的日本专利中,披露了一种有效地制作和传播外部字符字体文件的外部字符管理系统。然而这个技术是用于管理封闭网络环境中的外部字体的,不能应用于作为本发明目的的对电子文档中字符信息的标准化。
本发明就是打算要解决上述问题,本发明的一个目的是提供一种对电子文档中出现的字符信息标准化的方法,该方法能标准化用因各平台或电子文档制作系统而异的各种字体制作的电子文档的信息收集和转换中所用的字体,同时不损害信息的质量。
本发明涉及一种标准化电子文档中字符信息的方法,该方法将电子文档中使用非标准字体集的字符代换为相应的字体集的字符,就是说,本发明是一种标准化电子文档中字符信息的方法,包含的步骤为:自动生成一个在通过将某电子文档中使用的字体与要作为替换字体的目标字体集内的字体进行比较而进行的实际字体代换期间被参考的字体比较表;将自动生成的字体比较表提交给用户,让用户修订比较表中的错误;根据修订后的字体比较表实际地代换电子文档中的字体。
按照本发明,用外部字符制作的电子文档向诸如统一代码字体的标准字体集的转换及含有一些外语段落的电子文档的转换是可能的,对相似字符和外语文档的信息的转换和收集是可能的。
在本发明的最佳实施例中,在自动生成字体比较表的步骤中,输入构成源的电子文档、电子文档中使用的字体集、用于进行标准化的目标字体集、在上一次转换中建立的比较表、描述限定字符比较的对象的规则集和关于每个汉字偏旁(kanji radical)的映射的规则集的字体对象信息,输出一个字体比较表候选列表。也可以将关于相似字符之间变换的权重信息作为参考文件输出。字体比较表候选列表是以各分组作为元素的列表—分组含有某源字体内的一个字符和与源字体兼容的某目标字体内的几个字符。可以添加该目标字体内的这几个字符的优先级信息。字体比较表可以是以一组源字体集和该源字体集内的字符码与一组目标字体集和该目标字体集内的字符码之间的对应关系作为元素的列表。这些情况的任何一例都可以应用到自动生成字体比较表的步骤。
在本发明的最佳实施例中,自动生成字体比较表步骤中的字体比较,可以用光学字符识别(OCR)技术自动执行。此外,修订字体比较表中错误的步骤可以是这样的过程,即逐项显示字体比较表的候选列表,用户从候选列表中选择一个字符。输入字体比较表和一个描述源电子文档的结构的规则集,然后就能在字体代换步骤中执行对源电子文档中使用的字体和字符码的标准化。作为替代而提供的字体集可以是统一代码字体的字体集。本发明适合这些情况的任何一例中的应用。
图1是表示本发明的标准化电子文档中字符信息的方法的原理的流程图。
图1是表示本发明的标准化电子文档中字符信息的方法的流程图。现在将按照图1来说明本发明。首先,执行字体比较表自动生成步骤,以自动生成在实际字体代换期间被参考的字体比较表,具体执行方法是,比较电子文档中所用的字体与要被替换的字体集范围内的字符(字体),以便建立字体比较表的候选列表。下一步,将自动生成的字体比较表提交给用户,用户执行修订字体比较表中错误的字体比较表修订阶段,建立新的字体比较表。最后,执行根据修订后的新的字体比较表实际代换电子文档中的字体的字体代换阶段,获得标准化的电子文档。
能采用本发明标准化电子文档中字符信息的方法的领域是电子图书馆、文档管理系统、支持诸如PDA等手持式设备(流行的计算环境)的中间服务器、万维网出版和万维网浏览器等等。现在考察一个将包含用户制作的外部字符的电子文档标准化为统一代码字体的案例。在这个案例中,用户不仅需要将用户独立定义的外部字符标准化成统一代码,还需要将常规字符标准化成统一代码。就常规字符而言,由于在用户已经制作的电子文档的字体之间—例如在MS mincho与统一代码字体之间—存在一个字体索引比较表,所以可以根据这个比较表直截了当地进行标准化。
本发明标准化电子文档中字符信息的方法也可用于外部字符的标准化。首先,对每个外部字体执行字体比较表自动生成阶段,获得每个外部字符的匹配的或相似的统一代码字体,以便建立字体比较表的一个候选列表,暂时作为字体比较表。字体比较表的候选列表一般是对应每个外部字符的若干统一代码字体。下一步,执行字体比较表修订阶段—字体比较表被提供给用户,用户修订比较表中的错误,即用户从候选列表种选择一个字体,如果没有对应某外部字符的统一代码字体,就分配一个相似的统一代码字体,并将其登记作为没有对应字体时的统一代码外部字符。统一代码也支持数千个JIS辅助汉字,这样就能将几乎所有由用户造出的外部字符与统一代码字体对应。最后,根据修改后的字体比较表执行实际代换电子文档中字体的字体代换阶段,获得标准化成统一代码字体的电子文档。
下面说明每个阶段的细节。
(1)字体比较表自动生成阶段:
在这个阶段中,输入一个有关作为源文档的电子文档的规则集、该电子文档中所用的字体集、用于进行标准化的目标字体、一个在此后的转换中建立的比较表、限制每个汉字偏旁的字符比较和映射的对象的规则集(“一笔画偏旁”和“两笔画偏旁”、汉字的某些部分是否分开、以及确定某字符是否被确定为是相同的偏旁、不同的偏旁或或是不同的字符的其它方面),作为前文所述的字体比较指定信息,输出一个字体比较表候选列表。在本发明的最佳实现中,将这个阶段的执行中评估出的相似字符之间的变换的权重信息,作为参考文件输出,它可以在下一次执行期间被参考。
字体比较表是以一组源字体集和该源字体集内的字符码(字体索引)与一组目标字体集和该目标字体集内对应字符的字符码之间的对应关系作为元素的列表。字体比较标志信息包含的信息,指定一个表明哪个源的哪个字体集对应于哪个目标的哪个字体集和源字体集内的哪些字符要进行比较的字体分组,指定一个构成目标字体内的比较的字体分组。字体比较表候选列表是以含有某源字体内的一个字符和目标字体内可能与这一字符对应的几个字符的分组作为元素的列表。在本发明的这个最佳实现中,为了帮助下一阶段中手工定义字体比较表,向目标字体范围内的字符添加优先级信息。
字符比较是采用OCR技术通过下列过程进行的。
<1>目标字体集建立要作比较的字符的分组的模式(pattern)。
<2>从电子文档中挑出一个字符并检查其代码值。
<3>如果代码值对应的字符是模式信息比较的目标:
           A.从源字体集建立该字符的模式。
           B.比较所获得的模式与<1>中获得的分组的模式,
       向比较表候选列表添加一个相似模式的分组。在这个最
       佳实现中,候选列表内的优先级信息是在此时添加的。
<4>重复<2>和<3>中的过程。
(2)字体比较表修订阶段:
在这个阶段,输入的是在上一个阶段获得的字体比较表的候选列表和因上一次执行本阶段而获得的字体比较表,输出的是最终字体比较表。本阶段的主要过程是,逐项地显示上一个阶段所获得的字体比较表的候选列表,用户然后从列表中选择一项。在本发明的最佳实现中,当用户所选择的候选项与上一次处理中建立的字体比较表中的某项冲突时,或者用户指定多/单或单/多变换时,本阶段的处理系统用一个警告通知用户这个情况,以便用户能重新考虑。此外,本发明的最佳实现也可以具有在向用户表示字体比较表的候选列表的同时显示候选字符的属性(字符名称、字符意思、字符类型以及在指定字符时可能涉及的其它信息)的功能。
(3)字体代换阶段:
输入作为上一个阶段的输出的字体比较表、描述源电子文档的结构的规则集和描述目标电子文档(目标电子文档可以与源电子文档有相同的格式)的结构的规则集,将源电子文档中所用的字体和字符码标准化。如果源电子文档与目标电子文档之间的格式和结构不同,则可以在这个阶段同时进行电子文档的格式的转换。
正如在本发明目的中所述的那样,以上详细说明的本发明对电子文档中的字符信息标准化的方法,能对用因各个平台或电子文档制作系统而异的各种字体制作的电子文档的信息收集和交换中所用的字符进行标准化,而不损害信号的质量,除此之外,也能用来达到以下所述的各种目的:
(1)用各种字符码制作的电子文档的字符码,通过转换成网际标准的普遍明白的字符码一统一代码,很容易就能变得符合诸如XML的网际标准文档描述语言,然后就能在万维网发表电子文档。
(2)通过将用各种字符码制作的电子文档的字符码标准化成特定的字符码,能提高电子图书馆中信息检索和公司中集中式文件的信息检索的效率。
(3)即使在没有在信息交换中所用字体的环境中,也能用类似的字符显示电子文档,方法是将用标准化字符码和字符字体收集和交换的电子文档,逆向转换成这个客户环境特有的字符码和字体。
(4)通过将用标准化字符码和字符字体收集和交换的电子文档逆向转换成客户环境特有的字符码和字体,能提高客户环境中信息处理的效率。
(5)用户工作负荷由于在字符码和字体的标准化期间所参考的比较表的半自动化而能得到实质性的减轻,标准化文档所需的工作量能减少到一个更加实际的水平。
(6)例如,当一个没有多少资源(即字体不多,或者没有转换表和功能用来有效地将文档从原始电子文档的字符码处理成本系统的字符码)的0级(Tier-0)系统要显示和处理另一个系统中制作的文档时,通过在访问这个电子文档期间将(对有待向没有多少资源的客户环境优化的文档的)标准化委托给访问路径上的某个中间服务器,进行电子文档的格式向客户环境中能处理的格式的改变。
(7)字符码和字体的比较表的自动生成的效率,能通过在参考以前被标准化的另外的文档的同时替换在相关技术中只能被独立地替换的字体和字符码而得到提高。
(8)通过利用过去的变换经验能降低在进行变换的同时出错的概率,方法是参考在过去标准化的另外的文档来自动生成字符码和字体变换表。以下情况可视为是变换错误的原因:
    ·当目标字体集中存在多个形式相似的相似字符时,就
有被变换成错误的的字符或者在字体变换中发生不一致的可能
性。
    ·当源字体集中存在多个形式相似的相似字符时,就有
将多于一种字符变换为一种目标字符的可能性。
(9)通过指定用于自动进行字符比较的字体分组,可以避免对源和目标字体集内已经为其定义过映射的字符(字体)进行比较。
(10)因为通过指定用于自动进行字符比较的字体分组,可以避免对源和目标字体集内已经为其定义过映射的字符(字体)进行比较,所以降低了生成用户原本不打算要生成的比较表(例如,某JISX0208 1级JIS字符被作为JIS X0208 2级字符变换)的危险性。
(11)通过定义用于比较源中包含的特定字体的目标字体,能降低变换的准确性由于不同字样(type faces)的字体的比较而降低的程度。
(12)通过留意语言与该语言所用字体集之间的关系,在比较表的自动生成期间引入语言规则是可能的。这样,通过比较字符信息而获得的作为转换的对象的字符,被当作与以前和以后的字符有联系的字,比较表的自动生成的准确性就能得到提高。
以上说明清楚地表明,按照本发明,用外部字符制作的电子文档向诸如统一代码字体的标准字体集的转换及转换含有一些外语段落的电子文档是可能的,对相似字符和外语文档的信息的转换和收集是可能的。

Claims (10)

1.一种标准化电子文档中字符信息的方法,包含的步骤为:
通过比较电子文档中所用的字体与作为替代字体提供的目标字体集内的字体,自动地生成一个在实际字体代换期间参考的字体比较表;
将自动生成的字体比较表提交给用户,让用户修订字体比较表中的错误;
根据修订后的字体比较表实际代换电子文档中的字体。
2.权利要求1的标准化电子文档中字符信息的方法,其中,在自动生成字体比较表的步骤中,输入构成源的电子文档、电子文档中所用的字体集、进行标准化的目标字体、上一次转换中产生的比较表、描述限制字符比较的对象的规则集和关于每个汉字偏旁的变换的规则集的字体对象信息,输出字体比较表候选列表。
3.权利要求2的标准化电子文档中字符信息的方法,其中,关于相似字符之间的映射的权重信息被作为参考文件输出。
4.权利要求2的标准化电子文档中字符信息的方法,其中,字体比较表候选列表是以含有源字体范围内的一个字符和与源字体兼容的目标字体范围内的几个字符的分组为元素的列表。
5.权利要求4的标准化电子文档中字符信息的方法,其中,添加对应目标字体内的几个字符的优先级信息。
6.权利要求1的标准化电子文档中字符信息的方法,其中,字体比较表是以一组源字体集和这个源字体集范围内的字符码与一组目标字体集和这个目标字体集范围内的字符码之间的对应关系作为元素的列表。
7.权利要求1的标准化电子文档中字符信息的方法,其中,自动生成字体比较表的步骤中的字体比较是用光学字符识别(OCR)技术进行的。
8.权利要求1的标准化电子文档中字符信息的方法,其中,修订字体比较表中错误的步骤是一个逐项显示字体比较表的候选列表、用户从候选列表中选择一个字符的过程。
9.权利要求1的标准化电子文档中字符信息的方法,其中,在字体代换步骤中,输入字体比较表和描述源电子文档的结构的规则集,执行对源电子文档中所用的字体和字符码的标准化。
10.权利要求1的标准化电子文档中字符信息的方法,其中,其作为替代所提供的字体集是统一代码字体的字体集。
CNB001216074A 1999-07-23 2000-07-20 标准化电子文档中字符信息的方法 Expired - Lifetime CN1149502C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP209094/1999 1999-07-23
JP11209094A JP2001043212A (ja) 1999-07-23 1999-07-23 電子文書における文字情報の正規化方法

Publications (2)

Publication Number Publication Date
CN1282071A CN1282071A (zh) 2001-01-31
CN1149502C true CN1149502C (zh) 2004-05-12

Family

ID=16567197

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB001216074A Expired - Lifetime CN1149502C (zh) 1999-07-23 2000-07-20 标准化电子文档中字符信息的方法

Country Status (6)

Country Link
US (1) US6954898B1 (zh)
JP (1) JP2001043212A (zh)
CN (1) CN1149502C (zh)
HK (1) HK1034349A1 (zh)
SG (1) SG92723A1 (zh)
TW (1) TW518480B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306601A (ja) * 2000-04-27 2001-11-02 Canon Inc 文書処理装置及びその方法、及びそのプログラムを格納した記憶媒体
US7197706B1 (en) * 2000-08-30 2007-03-27 Celartem Inc. Method and system for ensuring accurate font matching in documents
US7562295B1 (en) 2002-06-28 2009-07-14 Microsoft Corporation Representing spelling and grammatical error state in an XML document
US7523394B2 (en) * 2002-06-28 2009-04-21 Microsoft Corporation Word-processing document stored in a single XML file that may be manipulated by applications that understand XML
US7607081B1 (en) 2002-06-28 2009-10-20 Microsoft Corporation Storing document header and footer information in a markup language document
US7650566B1 (en) 2002-06-28 2010-01-19 Microsoft Corporation Representing list definitions and instances in a markup language document
US7533335B1 (en) 2002-06-28 2009-05-12 Microsoft Corporation Representing fields in a markup language document
US7584419B1 (en) 2002-06-28 2009-09-01 Microsoft Corporation Representing non-structured features in a well formed document
DE10260135B4 (de) * 2002-12-20 2006-11-09 OCé PRINTING SYSTEMS GMBH Verfahren, Computerprogrammprodukt und Dokumentenausgabesystem zur Verarbeitung eines Dokumentendatenstroms
JP2005332088A (ja) * 2004-05-18 2005-12-02 Canon Inc 文書生成装置およびファイル変換システム
CN101008940B (zh) * 2006-01-27 2012-08-01 北京书生国际信息技术有限公司 自动处理字体缺失的方法与装置
US7937658B1 (en) * 2006-04-21 2011-05-03 Adobe Systems Incorporated Methods and apparatus for retrieving font data
US8055945B2 (en) 2009-02-02 2011-11-08 International Business Machines Corporation Systems, methods and computer program products for remote error resolution reporting
JP5154533B2 (ja) * 2009-11-27 2013-02-27 株式会社エヌ・ティ・ティ・ドコモ プログラム生成装置およびプログラム
CN102081594B (zh) * 2009-11-27 2014-02-05 株式会社理光 从可移植电子文档中提取字符外接矩形的设备和方法
JP5645481B2 (ja) * 2010-05-28 2014-12-24 キヤノン株式会社 装置、方法、及びプログラム
KR101450435B1 (ko) * 2013-02-28 2014-10-13 서울시스템 주식회사 폰트 파일 수정 변환 방법, 그 시스템, 및 컴퓨터로 읽을 수 있는 기록매체
US20140281930A1 (en) * 2013-03-15 2014-09-18 Fuji Xerox Co., Ltd. System and methods for creating printouts that may be manipulated by mfd
CN104331391B (zh) * 2013-07-22 2018-02-02 北大方正集团有限公司 文档格式转换装置和文档格式转换方法
US9547629B2 (en) * 2013-11-29 2017-01-17 Documill Oy Efficient creation of web fonts
CN104850316B (zh) * 2015-04-29 2019-02-12 小米科技有限责任公司 电子图书字体调整方法及装置
JP2020086405A (ja) * 2018-11-30 2020-06-04 株式会社リコー 情報処理装置、情報処理システム及び情報処理プログラム
US11715317B1 (en) * 2021-12-27 2023-08-01 Konica Minolta Business Solutions U.S.A., Inc. Automatic generation of training data for hand-printed text recognition

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5167013A (en) * 1990-09-28 1992-11-24 Xerox Corporation User definable font substitutions with equivalency indicators
US5257323A (en) * 1991-05-29 1993-10-26 Canon Kabushiki Kaisha Selection agent for a symbol determination system with multiple character recognition processors
DE4305713A1 (de) * 1993-02-25 1994-09-01 Hoechst Ag Verfahren und Vorrichtung zur gleichmäßigen Verteilung einer kleinen Menge Flüssigkeit auf Schüttgütern
US5506940A (en) * 1993-03-25 1996-04-09 International Business Machines Corporation Font resolution method for a data processing system to a convert a first font definition to a second font definition
CA2125608A1 (en) * 1993-06-30 1994-12-31 George M. Moore Method and system for providing substitute computer fonts
JPH07121513A (ja) 1993-10-22 1995-05-12 Matsushita Electric Ind Co Ltd 外字処理方法および外字処理装置
JPH07141337A (ja) 1993-11-12 1995-06-02 Hitachi Ltd データ通信ネットワークシステム
JPH07271777A (ja) 1994-03-31 1995-10-20 Fujitsu Ltd 分散情報処理システムにおける文字コード管理方式
JPH07319854A (ja) 1994-05-25 1995-12-08 Hitachi Ltd 外字管理システム
US6389178B1 (en) * 1994-07-28 2002-05-14 Lucent Technologies Inc. Method of downsampling documents
JPH08230254A (ja) * 1995-02-24 1996-09-10 Brother Ind Ltd 印字装置
JP2000500887A (ja) * 1995-09-25 2000-01-25 アドビ システムズ インコーポレイテッド 電子文書への最適アクセス
US6038575A (en) * 1996-09-11 2000-03-14 Intel Corporation Method of sharing glyphs between computers having graphical user interfaces
JP3639713B2 (ja) 1997-03-19 2005-04-20 富士通株式会社 文字コード変換装置および記録媒体
US6360223B1 (en) * 1997-12-22 2002-03-19 Sun Microsystems, Inc. Rule-based approach to object-relational mapping strategies
US6426751B1 (en) * 1999-04-01 2002-07-30 Adobe Systems Incorporated Font feature file processing

Also Published As

Publication number Publication date
US6954898B1 (en) 2005-10-11
CN1282071A (zh) 2001-01-31
HK1034349A1 (en) 2001-10-19
JP2001043212A (ja) 2001-02-16
SG92723A1 (en) 2002-11-19
TW518480B (en) 2003-01-21

Similar Documents

Publication Publication Date Title
CN1149502C (zh) 标准化电子文档中字符信息的方法
US9141691B2 (en) Method for automatically indexing documents
US7386438B1 (en) Identifying language attributes through probabilistic analysis
US8020003B2 (en) Creation of electronically processable signature files
JP2957375B2 (ja) 文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法
US7461044B2 (en) It resource event situation classification and semantics
US7854376B2 (en) System and method for managing item interchange and identification in an extended enterprise
CN104769585B (zh) 递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统和方法
EP1128277A2 (en) Data processing method and system, program for realizing the method, and computer readable storage medium storing the program
CN100351849C (zh) 字符识别装置和字符识别方法
KR100627195B1 (ko) 광학문자인식으로 생성된 전자문서 검색방법 및 그 시스템
US7672958B2 (en) Method and system to identify records that relate to a pre-defined context in a data set
CN1713179A (zh) 在对象模型中的影响分析
CN1838148A (zh) 电子设备和记录介质
CN1254894A (zh) 字型访问,登记,显示,打印和文件处理方法及记录媒体
AU2002331728A1 (en) A method for automatically indexing documents
US6681217B1 (en) Boolean text search combined with extended regular expression search
CN1601524A (zh) 模糊查询系统及方法
CN112364169B (zh) 基于nlp的wifi识别方法、电子设备和介质
CN114385167A (zh) 前端页面生成方法、装置、设备及介质
US8271874B2 (en) Method and apparatus for locating and transforming data
AU2012258320B2 (en) A method for automatically indexing documents
JP4809024B2 (ja) 帳票読取装置、プログラム及び帳票読取システム
EP2717174A1 (en) A method and system for retrieving and providing requested data from hierarchical data structures
CN117688162A (zh) 一种基于ocr识别的全文检索方法及系统

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1034349

Country of ref document: HK

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20040512