CN102016837B - 中文型文字及文字偏旁的分类及检索的系统与方法 - Google Patents

中文型文字及文字偏旁的分类及检索的系统与方法 Download PDF

Info

Publication number
CN102016837B
CN102016837B CN200880125478.XA CN200880125478A CN102016837B CN 102016837 B CN102016837 B CN 102016837B CN 200880125478 A CN200880125478 A CN 200880125478A CN 102016837 B CN102016837 B CN 102016837B
Authority
CN
China
Prior art keywords
radical
word
stroke
radicals
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200880125478.XA
Other languages
English (en)
Other versions
CN102016837A (zh
Inventor
沃伦·丹尼尔·蔡尔德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN102016837A publication Critical patent/CN102016837A/zh
Application granted granted Critical
Publication of CN102016837B publication Critical patent/CN102016837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • User Interface Of Digital Computer (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

依据本发明实施例,在中文型文字中找到的重现偏旁可以被笔画数及自由端点数所识别及分类。在文字与其偏旁间的双向多对多关系可以被识别并以电子或非电子格式加以记录及重现偏旁可以依据笔画端点值对加以排序与取回。依据一个实施例,在简单与复合偏旁间的双向多对多关系可以被识别并以电子或非电子格式记录。一个实施例可以提供分类/取回方法与设备,用以根据笔画端点值对及偏旁与文字间的关系快速查找及取回中文字型文字及其偏旁。

Description

中文型文字及文字偏旁的分类及检索的系统与方法
相关申请
本申请要求以下申请的权益:
2007年11月26日提交的美国临时申请No.60/990,123,名称为“Method,Apparatus and Software For Classifying Chinese-TypeCharacters and Character Components to Facilitate Classification,Search and Retrieval”;
2007年11月26日提交的美国临时申请No.60/990,166,名称为“Modular Approach to Managing Chinese,Japanese,and KoreanLinguistic Data in Electronic Contexts”;以及
2007年11月29日提交的美国临时申请No.60/991,010,名称为“Method,Apparatus and Software for Classifying Chinese-TypeCharacters and Character Components to Facilitate Classification,Search and Retrieval”,
上述各申请通过引用而全部包含于此。
技术领域
本发明的实施例于总的涉及语言文字的分类与取回,尤其是,用以分类中文字型文字及其构成重复出现的偏旁(以下统称“重现偏旁”)的方法与设备,以使取回容易。
背景技术
中文、日文、韩文及越南文传统上均使用几千个中文起源的文字的书写系统。另外,在日文、韩文及越南文的学者也建立了母语起源的、类似中文文字的其他文字。这些后来的文字被称为国字(kokuji,日本起源)、汉字(gugja,韩国起源)及chunon(越南起源)文字。因为中文起源及中文状(国字、汉字及chunon)文字也有很多并且使用原理与西方表音字母的原理不同,但一直有将其系统分类的需求。(为了简明起见,中文起源与中文状文字将一起统称为“中文型文字”)。在仍使用此等文字的语言中,即中文、日文、韩文,这些需要在今日依旧存在。
在常用技术中,学者已经传统上使用称为部首的偏旁的常用组加以分类。目前的当代字典典型地使用214个部首。然而,所用部首的准确数量仍取决于书写体(script type)(简体中文字典有时列227、187或154)、目标读者(现今部分非母语者用的字典愈来愈少)、及/或是否异体部首形式可分开计算。字典表中列出的部首的顺序也取决于其笔画数,即用来构成部首的笔画的数目。具有相同笔画数的部首的顺序是根据习惯加以排序。
部首为初步查找关键字的一种形式,大致类似于西方语言字典中的词的开始字母。为了使用传统部首系统查找在字典中的文字,第一步为决定文字的哪一部分构成该部首,然后,计数在该文字中的剩余笔画。例如,为了查出“像”,首先识别出,其被分类在2画的人字旁[亻]。下一步为算出剩余笔画数。在此时,剩余笔画为12。最后,可以查找字典中包含人字旁的含有剩余12画的文字的部分。结果是以该部首与剩余笔画查找准则选择的一组文字。(由查询得到的文字选择简称为“查找结果组”或简称“结果组”。)例如,前述例子,一个主要字典有包含14个文字的查找结果组;文字的万国码(Unicode)表将得到超出40个文字的结果组。
部首系统的缺点之一为由部首与剩余笔画作为查找准则的组合所选择的文字数可能太多。(注意部分字典使用总笔画数,而不是剩余笔画数,但对于任意给定文字域,结果组相同)。第二缺点为很多文字并不像上面例子中那样直接。仍需要部分猜想工作,以决定文字的哪一部分构成部首;有时有一个以上的明显候选部首,有时则没有明显候选部首。
使用部首系统加速文字查找的第二传统方法已经将部首分类为在文字内所在的位置。因此,例如,新纳尔森日文字典表示分别在文字的左、右、上、及下所找到的部首的分开图。这使得我们可以较快找出部首,但对于以该部首参考的文字数并无影响,或对于文字的哪部分构成部首也没有帮助。
第三种分类中文型文字的传统方法是实施于Hadamitzky&Spahn的字典中并主要设计以协助非母语者,由此免除较少使用部首,然后,在被免除部首进入部分其他部首群下,使文字进行传统分类。虽然此方法可能协助降低少用部首的分类系统的异常,但这仍不会降低查找结果组的大小,事实上,可能增加该大小。
在第四种分类文字的传统方法中,即由Francis DeRoo所描述的2001汉字中,文字通过查找一组近似形状的上方及左上方,及另一组形状,以用于下方或右下方,由此决定对应于这些形状的数量。此方法需要部分技术,因为相较于实际想要文字形状时,并不是所有完形(gestalt)形状都很明显的。此方法已经开发,用于一小组的文字(2001中文文字)并不能如此迅速适用至较大组的文字。再者,此系统缺乏通用性。
称为四角分类的第五传统方法将文字依据其角落的基本形状加以分类文字,以各形状相关于数字0至9之一。此方法在决定应用哪一形状码时,完成很高层次的明确度,但极端难以操作。这也缺乏通用性。
实施在新纳尔森日文字典中的分类文字的第六传统方法为提供一中间表,使得用户猜想该部首的错偏旁,用户仍将再找出适当文字。虽然此类交叉参考协助免除有关猜想两个候选部首一样好的正确部首的问题,但它并无助于解决文字的偏旁看起来都不像标准部首的问题,或者,如何减少查找结果组的大小。这也在查找程序中间阶段中建立需求,以使得用户花费更多时间。
在很多字型中找到的第七传统方法为提供以其发音排序的文字列表,使得如果用户并不知哪一部首被使用作为关键字,该用户可以通过其发音找出它。当母语者确实知道文字的发音及该部首系统经常不适当时,他们经常通过读取简单的理由,而使用此等索引。不好的是,因为在中文型文字中,有大量同音异义文字,所以,为该系统所选择的文字数经常很大,因此查找时间仍旧很慢。再者,当用户不知如何发音此文字时,此索引用途很少或无用。这可能发生在该语言的母语及非母语者。
在部分软件应用程序中所找到的第八传统方法,如KanjiLite,是提供以表形式表示的部首图。用户可以点选在表中的一个或更多个部首,所输入的选择将构成包含有所选择部首的文字。不好的是,此方法除了日本外并未被用过,并且,当没有明显部首时,作用很少或无用。然而,如同在部分上述方法中,文字的查找结果组可能相当大。最后,有很多偏旁并没有构成部首,因而使此系统并不适用所有应用。
在近年来所想出的各种东亚语言输入法典型包含输入法,其想要将中文状文字映射至键盘或数字键,并不像本发明,它们不能被以非电子格式或上下文加以使用。再者,现今想出的输入法均未能使用由本发明所提供的特定分类技术。然而,应注意的是,输入法,如仓颉、大易、及无虾米均根据形状表示原理,藉以少数几个形状被使用以表示各种偏旁(字形)。因为这种系统为非直观的,所以它们需要很多时间才能精通,并只有为少数专业受训打字员所使用。
为了了解本发明如何克服上述限制,我们必须了解当现今部首系统由约200个偏旁所构成(214为标准),中文型文字包含很多重现偏旁,其并未包含在任一版的部首系统中。至今未有特殊有效方式,以认出所有形成在中文型文字中的重现偏旁,及专有字典编纂及语言学者并未完成用于部首的标准组。然而,因为非部首重现偏旁通常较部首少见,如果使用作为查找关键字,它们将造成所得文字的更少选择。若干来源在表中列出非部首偏旁。例如,L.Wieger的中文文字在非部首重现偏旁周围分类很多文字。不好的是,它并未提供方便方法,以使用该方法找出文字。R.Harbaugh的中文文字试图想要分类重现偏旁,如由简单部首形式导出。不好的是,此方法如同部首系统本身或由DeRoo所用的系统,有着相同的不规则及不明确性。一种明显缺点为这些方法它们不易处理,为了简单找出非部首重现偏旁,而以数百计偏旁替代214(日文、韩文、繁体中文)或224(简体中文),如同在部首系统一般。因此,在所得选择大小上的降低所节省的时间也在找寻正确查找关键字时浪费。
本发明的实施例通过提供远比先前所述任一方法更快的方式,寻找部首、非部首重现偏旁、及文字,而克服上述一个或更多个限制。结果,本发明更容易找出在任一系统中的文字,该系统加入有此分类及查找特性,并因此,可以用于各种电子及非电子上下文中,包含字典(印刷及电子)、辞汇数据库、及输入法。再者,本发明的实施例允许当查找一文字时,组合多个查找关键字,由此在决定正确部首时加入弹性及令其使用容易,并协助非母语者找出文字。
依据本发明的实施例,在中文型文字中所找出的重现偏旁被识别、被笔画数所分类、然后,进一步为它们包含的独立端点数所分类。随后,中文型文字被链结至呈关键字排序对形式的多个重复出现的,考量在文字与其构成偏旁间的多对多关系(或关系)的可能性。结果为直观并高效方法、系统、及/或软件,用以分类电子及非电子格式的中文型文字及应用程序,以使得用户可以容易找出目标偏旁及/或其相关文字。
发明内容
一个例示实施例包含在具有重现偏旁的文字域中,计算机化分类及取回文字的方法。该方法包含:提供包含文字域的数据库;及识别在文字域内的多个重现偏旁。该方法也包含识别每个重现偏旁的笔画并识别每个重现偏旁的端点数。一旦决定笔画及端点数,各个重现偏旁可以依据决定用于该重现偏旁、根据该笔画数的笔画端点值对及用于该重现偏旁的端点加以分类。在各个重现偏旁与一个或更多个文字间的关系可以被识别,当一个文字包含重现偏旁时,其关系被识别。
该方法可以包含:通过在数据库中储存多个关系输入项,把识别关系记录到数据库中,每个关系输入项对应于在重现偏旁与相应相关文字间的相关性;及经由用户介面接收输入笔画端点值对,并使用所接收的笔画端点值对存取该数据库并取回一组对应于所接收笔画端点值对的一个或更多个重现偏旁。
该方法可以包含产生对应于所接收笔画端点值对的一组一个或更多个重现偏旁,并经由用户介面接收从由对应于所述接收的笔画端点值对的所述重现偏旁的组中选择的目标重现偏旁的表示。
该方法也包含:取回在数据库中的文字,该数据库具有与目标重现偏旁的关系;及根据目标重现偏旁,产生文字列表,并提供该文字列表给用户介面作为输出。
另一实施例为电子字典,其包含:处理器、耦接至该处理器并储存有数据库的存储器。该数据库包含:多个文字记录;多个重现偏旁记录,各个记录包含主笔画端点值对;及多个关系输入项,相关于具有一个或更多个文字记录的重现偏旁。该电子字典也包含显示装置,耦接至该处理器;及输入装置,耦接至该处理器。
该存储器包含指令,当执行时,使得该处理器执行以下的一连串步骤:
经由该输入装置接收输入笔画端点值对并使用所接收的笔画端点值对,以存取该数据库并取回对应于所接收笔画端点值对的一组一个或更多个重现偏旁;
在显示装置上,显示该群重现偏旁;
经由该输入装置接收来自该显示群重现偏旁的选定目标重现偏旁的表示;
由该数据库取回文字,该数据库与该目标重现偏旁有关系;及
显示所取回的文字。
另一个实施例为一种在具有重现偏旁的文字域中,产生文字索引的方法。该方法包含提供文字域并识别出现在该文字域内的重现偏旁。对于各个重现偏旁,该方法更包含决定各个重现偏旁的笔画,并决定每一个重现偏旁的端点数。该方法更包含依据对应该笔画数的笔画端点值对及决定用于该重现偏旁的端点数,分类各个多个重复出现的文字;及识别于各个重现偏旁与一个或更多个文字间的关系,该关系当一个文字包含重复出现的文字元件时被识别。
该方法也包含通过在数据库中储存多个关系输入项,而在数据库中记录识别关系,该数据库识别重现偏旁与其相关文字间的相关性;及,对于笔画端点值对,存取数据库及取回一组对应于笔画端点值对的一个或更多个重现偏旁,及产生有关于相关于笔画端点值对的各个重现偏旁的文字列表。最后,该方法包含依据笔画端点值对产生索引顺序及具有多个部分,各个部分根据笔画端点值对之一并包含基于与该笔画端点值对相关联的重现偏旁的子部分,各个重现偏旁还包含与该重现偏旁向关联的文字列表。
附图说明
图1A显示“假连结”的例子;
图1B显示依据本发明所建立的端点传统的规则7中所述的“真连结”;
图1C显示用于“象”的端点的例示计数;
图2显示一个例示关系实施例,其使得基于手写体的偏旁变化可能以电子格式被交叉参考;
图3显示例示相关结构;
图4显示一个例示图形用户介面,用以使得用户输入查找数据并重阅输出结果组;
图5显示用于分类及取回文字的例示方法流程图;
图6为包含在部分例示方法、系统与数据间的关系的例示实施例的示意图;
图7为实施一个系统或方法的一个或更多个实施例的例示计算机系统的框图;及
图8为在文字、部首、核心偏旁及其他元件间的关系图。
具体实施方式
定义
于此所用“CJKV文字系统”表示文字系统,其使用包含现今简体与繁体中文的中文型文字;使用甲骨、青铜、小篆、大篆、及隶书的古中文及古日文、新及古韩文、及古越南文等等。
“中文型文字”表示中文起源或中文状文字。
“中文起源文字”表示任何起源自中国的文字,自从中文的演进,包含但并不限于甲骨文、青铜文、小篆、大篆、隶书、繁体及简体中文字,而不管该文字是用于中文、日文、韩文或越南文中。
“中文状文字”表示任何韩文、日文或越南起源的文字,在结构上组合中文起源文字,而分别被称为汉字(gugja)、国字(kokuji)、及chunon。
“文字域”表示任何由任一该CJKV文字系统所抽出文字组,包含但并不限于
a.在CJKV文字系统所有知道的文字;
b.为计算机文字组所识别的文字包含但并不限于万国码、shift-JIS、Big-5、国标及其他中文、韩文、或日文编码设计;
c.在一个或多个字典中找到的文字;
d.在一个或更多个文字语料库所找到的文字;及
e.特定目的所用的特定选择文字,包含但并不限于教育学目的。
“字形”表示具有表意、表音或其他重点的可识别图形单体,其可以重复出现的为在文字域中找到的中文型文字的构成分子;
“偏旁”或“重现偏旁”表示用以构成文字域中的文字的任意字形,包含但并不限于传统部首、在现今部首设计中的部首、非部首字形、复合旁、及单体字形。
“核心偏旁”表示一族文字可能可以依据于此所述的方法加以分组的任意偏旁。
“部首”表示传统或现代用以查找文字的部首查找设计所用的有限组偏旁的一员。
“笔画数”表示使用传统计数原理,用以构成中文字型文字或偏旁的笔画数。
“端点数”表示在说明书中所列的常规所述的中文字型文字或偏旁所包含独立端点数。
“笔画-端点值对”表示对于特定中文字型文字或偏旁的成对笔画数及端点数。
“笔画-端点分类”表示施加至一组中文字型文字或偏旁的笔画端点值对。
详细说明
中文字型文字可以被认为是由不同偏旁或概念层构成。在最低层为个别笔画,其可以为直线或曲线或弯角。次层概念层为笔画的组合,其产生一个重要偏旁。这种有时称为字形的偏旁被重复使用于称为文字的拼字单元体中,并于历史上倾向为表意或表音功能。最后,在次高概念层中,简单字形可以被组合以形成复合字或复合旁。复合旁也在CJKV文字系统体中重复出现并也可以提供有关于文字的表音或表意信息。
为了简明起见,笔画单单表示用以写字的直线、曲线或弯角的“笔或毛笔的笔画”,及重现偏旁表示任意字形,其根据重复为基础出现在中文字型文字体中,而不管该偏旁为单体(不可切割)或复合(字/旁)(由更小偏旁构成)。注意部分重现偏旁可以在构成文字内或本身即构成文字,后者为用以形成字的单元并通常作为词素。
为了解释于此所述的例示实施例,作为本发明的方法,其有助于解释核心偏旁的概念及决定核心偏旁的方法。文字的核心偏旁可以依据以下方法加以决定,参考表1:
决定文字的核心偏旁的方法
1)如果整个文字为重现偏旁,则整个文字为核心偏旁(表1,列1)。
2)如果文字为两个重复出现的偏旁构成,及如果这些偏旁之一为部首及另一为非部首,则核心偏旁为该文字的非部首部(表1,列2)。
3)如果文字有两个构成偏旁,两者均在该组偏旁中称为部首,则核心偏旁为
a.如果一个偏旁明显较另一个偏旁较少用作为重现偏旁,则两个偏旁中的较少见的偏旁为核心偏旁(表1,列3);
b.如果两者相等或接近相对常见用作为重现偏旁,则表音的重现偏旁将视为核心偏旁(表1,列4)。
4)如果文字有两个以上的偏旁,则构成偏旁的较少出现的偏旁将视为核心偏旁,假设其符合重现偏旁的定义的话(表1,列5)。
5)如果文字的字形构成分子均特有,则使其不可能将文字组合入一系列文字,共享一个常见字形,然后,整个文字为其本身核心偏旁(表1,列6)。
虽然上述规则的列表可以一眼看出核心偏旁的概念很复杂,但事实上,即使对于初学用户也可能相当直观。因为大量文字包含部首及非部首偏旁,识别这些文字的核心偏旁是相当地直接:核心偏旁为非部首偏旁。
通过使用本发明的核心偏旁系统,有可能分组文字为文字族,其被一个共同核心偏旁所共享。在表2中的行例示了根据本发明的核心偏旁原理所形成的示例文字族。注意当核心偏旁构成“表音”偏旁时,一个文字族可以对应于传统上称为谐声系列,其中文字分组在一个表音偏旁周围。然而,因为很多文字并没有表音偏旁,所以谐声系列的概念不能单独使用以系统地分组文字,用于本发明的目的。相反地,本发明的核心偏旁法能分组文字,以处理文字,而不管它们是否包含表音偏旁。
例如,如图5所示,采用五个步骤以建立本发明的第一及最基本实施例。第一步骤(502)为识别在中文字型文字选择域中找到的核心偏旁(或其他重现偏旁)。偏旁的实际数量取决于实施例所应用的文字域而定。例如,在多个大组的文字组中,可以期待有约800-900核心偏旁。实际上,可以有用以限制至所找到并在为部分预定文字体所识别的偏旁域内,例如包含但并不限于万国码、shift-JIS、Big-5、国标(GB)、韩文或越南文编码、在东亚语言字典中的文字、输入法所用的文字、或甚至用于教育目的所组合的文字域。换句话说,编码设计或其他预存在文字体可以形成文字群或域,其可以应用分类及取回实施例。
第二步骤(504)为量化在各个核心偏旁中所找出的笔画数及独立端点数。使用传统计算构成笔画的方式决定笔画数,因为该方法为已知并为常态使用。计算及决定独立端点的程序则被认为特有的并构成本发明的主要进步的一并详述如下。量化端点大量地降低为笔画计数所选择的偏旁数。同样地,使用非部首偏旁大量地降低根据笔画端点值对于查找中所选择的文字数。
第三步骤(506)识别及记录于核心偏旁与它们所找到的文字间的关系。此链结或关系相关可以采用各种形式,例如依据本发明方法所产生的打印列表并具有两个或更多行,其中一行列出核心偏旁及其他列表对应在该核心偏旁族中的对应文字;适当排序偏旁的表,对所得组文字,具有页码;或关系数据库,其建立前述关系,经由栏及链结表建立一对多关系。在完整实施法中,所有核心偏旁可以被识别,及所有文字可以以上述方法如所述地适当地标示以与核心偏旁相关。识别及记录在核心偏旁与文字间的关系结果是文字可以被视为分组为族,使得相对小组的文字被相关于各个核心偏旁。这是与典型相关于部首的大量文字完全不同。
第四步骤(508)提供一种手段,用以方便地存取核心偏旁。在纸为主格式中,存取手段可以由依据本发明实施例所产生的表所构成,其中核心偏旁被以笔画端点顺序加以列表。在电子格式中,存取手段可以通过提供用以输入笔画数及端点值的介面加以完成,该端点值包含有核心偏旁与其相关笔画端点值的记录表可以存取的点及被显示的对应候选结果组。介面包含图形用户介面(GUI)、基于文字的介面、另一类型的数字介面、输入装置介面(例如键盘、鼠标、电子笔等)及音频(例如麦克风)/视觉(例如摄影机)介面等等。适用于该方法的装置相对图8加以详细说明。
第五步骤(510)提供一种参考手段,其完成由核心偏旁至对应文字结果组的存取。在纸本格式中,参考手段可以例如当依据本发明实施例所产生的核心偏旁列表包含于一栏参考数或页码或属于该族的文字。在电子或基于计算机的实施例中,参考手段可以包含例如图形用户介面的,用户可以首先找出核心偏旁,并由核心偏旁取得该偏旁族中的文字列表。
用以决定端点的例示方法被说明如下:
决定端点数的方法
1.偏旁可以被其笔画数及其包含独立端点数(笔画-端点值对)加以分类。用于此说明书目的值的组合将被标示为{strokecount.endpoint}(缩写为{s.e})。因此,例如,{s.e}标示为{2.3}表示一个偏旁,其具有两笔画及三个独立端点。表达相同信息的其他标示可以被使用,包含但并不限于[2.3],[2-3],(2-3),(2,3),{2-3}等,及所有均想要代表笔画端点值对。
2.定义上,所有单一笔画偏旁具有两个端点,开始点与结束端(表3)。因此,它们被标示为{1,2}。
3.所有点状笔画通常被计数为构成短画。因此,在规则1后,它们被认为具有两个独立端点,即使开始及结束无法认出。
4.如果所有端点为独立,则独立端点数量等于笔画数的两倍。
5.当笔画通过附接至另一笔画而停止时,则由一个笔画“遗失”一个端点(表5)。对于找到接触点的例子中,独立端点的数量被发现为由两倍的笔画计数值减去接触点数量。
6.如果所有偏旁的笔画端对端接合,则所得偏旁没有独立端点(表6)。
7.如果两分离偏旁彼此接近以建立接近接触点的表现,此“假接触点”0101-0103被忽略(图1a)。传统上接合在一起的分离偏旁被视为具有真接触点0104(图1b)。
查找在字典或其他参考书中的字典型涉及使用一个或更多个查找关键字。查找关键字造成构成匹配启始查找准则的项的结果组。如果结果组具有匹配启始关键字的一个以上的候选,则使用任意适当方法,下一步骤为经由结果组查找准确项。
例如,在西方语言字典中,用户将使用被找的字的第一字母作为启始查找关键字。这将用户带至字典的对应至该字母的一部分。由该处,用户通过字母顺序,根据在字中的下一字母进行查找。此形成一类型的次要查找精链方法。
在使用中文字型文字的文字系统中,传统查找法已经使用部首作为关键字,以次选择法典型地是在文字中的总笔画或剩余笔画数。在多个字典中,在结果组内的文字顺序为随机的。如上所述,因为很多候选可能在施加两个步骤后仍保留,所以在随机顺序结果中寻找文字可能繁复。
在本发明的此实施例中,主要关键字为文字的核心偏旁。通过其笔画端点分类找出该核心偏旁,并造成包含想要文字的很短候选结果组。
在此方面,本发明的该分类法、系统及/或软件与传统部首系统的不同重要方式。例如,在部首系统中,有有限组的启始关键字(通常214),因此,查找结果通常很大。典型,会使用残留笔画数,以限缩结果组,然后,其可以相当大及费时,以查找想要文字。相反地,本发明的实施例可以包含较大量的关键字,但因为关键字本身为端点数所细分,所以找出启始关键字可能仍相当地快。再者,在平均上,候选结果组可以显著地小,由此加速查找程序。
为了查找文字,在例示实施例中,首先决定其核心偏旁。以先前所述的“像”为例,首先找到传统部首为“亻”,及剩余非部首部为核心偏旁,即“象”。此偏旁的笔画数为12,如图1c所示,端点数为8。一旦决定核心偏旁及计数其{s.e}值,我们可以列出意义以找出在数据中的核心偏旁,由该处,我们可以使用参考手段以找出对应结果组,其将会是三文字族(“象”、“像”及“橡”)。此短结果组对应于使用万国码文字(见表7)的部首法所产生的55文字结果组。虽然在结果组中的大小的准确降低将取决于偏旁、文字域及所涉及文字系统,但在查找结果组大小上的缩小可能通过本发明所完成,并且通常缩小一个量级,如上面示例所示。
上述实施例显示本发明主要特性的基本实施法。在上述另一例示实施例中,其他特性被加入至此基本架构,以加强末端用户的功能。
另一个方法例示实施例是参考表8a及8b进行描述,并包含只对部首施加笔画端点分类的步骤。部首的准确数取决于文字系统及所用的部首设计,但典型用于繁体中文、日文及韩文为214个。其他设计使用227个、187个及154个部首。虽然部首的准确数可能不同,但实施例的整个方法与操作均类似。
该方法也可以包含识别并记录在所有部首与实施例所应用的文字域间的关系。非部首偏旁可以不识别,或者,也不建立其与文字的关系。记录这些关系的方式可以通过在纸本及电子实施例中加以实现。
该方法也可以包含提供一种手段,以方便地依据笔画端点分类,存取部首。表9显示以此方式呈现的部首的部分列表。注意在纸本格式中,该部首的列表将类似于在表中所出现,但在本发明的实施例的电子应用中,可以提供用户介面,以使得用户输入笔画及端点数,以存取储存于存储器中的数据表中的某部分。
该方法也可以包含提供由部首至文字的参考表,使得用户可以使用上述的列表手段以找到目标部首,并由该部首,用户可以取得一部分的文字。文字可以以残留笔画顺序加以提供,但也可以使用其他顺序。
虽然相较于本发明的其他实施例,以上述施加笔画端点分类至部首的结果可能是降低容量的查找系统(或分类/取回系统),但本实施例也可以使其更容易找出部首,有时,即使传统查找系统的用户也会习惯地使用。再者,此实施例可以以对字典布局与内容作最小更换(在{s.e}顺序及文字可能需要的参考数中的部首的适当列表或电子数据库)容易地加入传统字典中(纸本或电子式),因此,对现行开发装置或公开材料是有价值的改良。换句话说,此实施例可以迅速地应用至纸本式或电子式格式的先前存在公开材料中。
为了显示应用笔画端点概念至部首的实施例,表8a显示用户将必须查找多少部首,以找出四画部首。因为结果组为37个文字,所以扫描目标部首相当费时。相反地,表8b显示用于每个逻辑可能端点数(0-8)所产生的不同结果组。可以由表看出,在四画部首中,在所得大小上的平均降低为82.3%。此在结果组大小上的显著降低可以使得用户可以节省扫描目标部首所用的时间。
为了使用前述例示实施例查找部首,首先决定想要部首的笔画及端点计数值。例如,为了查找部首“木”,注意其stroke.endpoint值为{4,6}。匹配{4,6}的{s.e}的部首的结果组包含9个部首,而不是只使用4的笔画数值的33个部首的传统结果组。一旦找出想要部首,则可以持续以传统方法,使用总文字笔画数或残留文字笔画数来查找想要文字。
结果,在所有4画部首中,所给的例子提供最少结果组的有效降低,明确地说是75.7%。其他四画部首将较此降更多,结果组降低范围由75.7%至97.3%(见表8b)。示于表中的显著减少的结果组显示实施例可能减少找出想要部首所需的时间。
参考表9及10所述的本发明的另一例示实施例可以实施为电子式或非电子格式中并包含分开的部首及核心偏旁列表。此方法可以提供用户选择,以使用混合法查找文字,该混合法中,以笔画端点分类法,和/或以核心偏旁法补充传统部首法。然而,在任一情形下,该关键字(不论是部首或非部首偏旁)的查找时间可以通过使用笔画端点对值被降低,以减少包含想要偏旁的结果组。
表9显示为笔画端点分类所排序的部首的选择,及表10显示以相同方式所排序的非部首的选择。例如,如果本实施例为实施为纸本格式,则表9及10可以显示页码或各个偏旁下的交叉参考号(页码并未示于表中)。如果以电子格式实施,则用户可以似乎点选或选择目标查找关键字,其可以是部首或非部首,以到达文字结果组。
此实施例的方法可以包含识别部首及非部首偏旁的步骤。该方法也包含指定笔画及端点数至所有在上述步骤中所列出的部首及非部首。该方法也可以包含决定及记录在核心偏旁与文字间的关系。决定及记录关系记录的实施可以为上述的纸本式或电子式。
该方法也可以包含经由其相关{s.e}对值,提供存取部首和/或核心偏旁。此步骤也可以为上述的纸本或电子式。
该方法也可以包含经由其相关{s.e}对值,提供用于存取核心偏旁的步骤。此步骤的实施也可以是上述的纸本或电子式。
该方法也可以包含提供由部首至文字的参考手段。此手段的实施可以如上述电子式或纸本式。
该方法也可以包含提供由核心偏旁至文字的参考手段。此手段的实施可以为上述的纸本式或电子式。
该方法也可以包含提供由文字至核心偏旁,并进一步由核心偏旁至文字的参考手段,使得用户可以通过输入类似外形的文字,共享核心偏旁而查找文字,找出想要的核心偏旁,然后,找出包含该核心偏旁的相关文字。
该方法也可以包含提供由文字至重现偏旁,及进一步由重现偏旁至文字的参考手段,使得用户可以通过输入该重现偏旁的类似外形文字,找出想要的重现偏旁,及找出包含该重现偏旁的相关文字,而查找文字。
查找实施例可以使用部首或非部首(核心)偏旁的端点值来得到一个较小的结果组,以快速查找文字。
在操作中,可以决定查找目标文字的核心偏旁。可以决定现行查找关键字的该笔画及端点数。如果查找关键字是部首,则可以查找在部首表(部分如表9所示)、列表或其他依据{stroke.endpoint}对值的列表手段。同样地,如果寻找的偏旁不是部首,则可以在非部首表(部分如表10所示)中进行查找。这两种方法均可以得到有效及少文字结果组,由该处可以找到目标文字。注意的是,如果以电子格式实现,则上述表可能可以采用计算机显示屏幕上的单元矩阵形式。如果实现在纸本上,则表可以显示为每一个偏旁的参考号或页码,造成想要查找关键字的结果组。
参考表11描述根据本发明的另一个实施例。表11显示多复合偏旁可以被细分为更简单偏旁。在进行这种细分时,在复合偏旁中所识别的单体可以不必是语源相关。用于中文字型文字中的偏旁的识别及笔画及端点数的指定至重现偏旁是以类似于上述方式来进行的。另外,在复合重现偏旁间的关系-即可以构建为更简单偏旁-及用以构成它们的简单偏旁系被识别并记录。在简单及复合偏旁间的关系典型为多对多关系,如同任意给定简单偏旁可以经常在多个复合偏旁中找到,及任意给定复合偏旁通常包含多个简单偏旁。结果,复合偏旁可以由简单偏旁通过在表或部分其他查找法中查找它而迅速找到,相反地,简单单体也可以经由使用它们的复合偏旁找到。如上所述,文字可以依据上述例示实施例的重要(例如核心)偏旁法加以分类及分组。然而,额外表可以被加入,使得文字可以由任意构成偏旁找出。后者的功能为更方便实现于电子式,但也可以在纸本形式中提供。
例示实施例的方法可以包含识别所有(或一部分)在想要文字域中找到的重现偏旁。注意偏旁的结果组可能较核心偏旁组为大,因为除了核心偏旁,也将会有重现偏旁,其并不符合上述核心偏旁的准则。
该方法也可以包含指定笔画及端点数至重现偏旁,而不管它们本质上为单体或复合的。
该方法也可以包含识别及记录在该偏旁与文字域间的所有关系(单向或双向)。
该方法也可以包含识别及记录(单向或双向)在单体偏旁与复合偏旁间的所有关系。
该方法也可以包含经由{s.e}值存取偏旁的步骤。
该方法也可以包含提供具有相关笔画及端点数的单体偏旁的列表。该方法可以包含提供由单体至复合偏旁的参考手段,及反之亦然,及由复合偏旁至单体偏旁的列表手段,及反之亦然。该方法也可以包含由偏旁至文字的参考手段。
如同上述的本发明实施例,关系的记录及各种列表及存取手段可以被以纸本及电子格式加以实现。同时,此实施例可以包含先前实施例的特性,例如存取核心偏旁的手段,或以部首存取文字的手段。为清楚及区分此特定法以实现本发明,这些额外、选用步骤未列出。应了解的是,特定实施例可以包含取决于该实施例的想要用途而进行一个或更多个实施例的各特性的适当组合。
此实施例可以使得用户根据更熟习、更简单单体偏旁找出未知的复合核心偏旁,或至少更容易由其{s.e}值找出。如果以电子格式实现,则此特别有效。
操作中,在上述实施例可以允许使用简单偏旁以找出复合偏旁。例如,为了找出偏旁“加”,我们可以查找在{2,4}下的“力”,或{3,0}下的“口”。当然,因为此实施例额外包含先前所述实施例的特性,所以我们可以直接查找复合偏旁“加”{5,4},因为“加”本身为核心偏旁。
本发明参考表12的另一实施例可以以电子或非电子格式实现。除了在上述各实施例的特性及功能的任意组合外,笔画端点值对可以应用至文字本身。这表示可以直接依据其{s.e}值查找文字,而不必使用部首或其他核心或单体偏旁作为中间查找步骤。在电子格式中,输入及输出栏将被提供作为显示所需及数据输入及输出目的。此实施例也可以与纸本查找法一起使用。
除了需要以在上述各实施例中实现上述的想要功能及步骤外,此实施例的方法也可以包含以下步骤。包含在文字域中的文字的笔画及端点数的本发明也可以计算。该方法可以包含提供一种手段,用以经由其笔画及端点数加以存取文字。
此实施例可以是当有很困难决定文字的部首或核心偏旁时特别有效。再者,当在包含少数笔画的简单文字时,直接使用其{s.e}值而查找,而不必使用部首或核心偏旁作为关键字似乎更为有效。
在使用此方法时,可以简单地计数在文字中的笔画及独立端点数,然后直接查找该文字,而无须中间的部首或重复出现的单体。例如,以常见文字“事”为例,其具有不少于四个候选单体(一、口、」、及彐),这些可能是传统分析中的查找部首。再者,其中并没有更明显偏旁,也没有清楚方法知道哪一偏旁为最常见。通过计数“事”的笔画及端点,可以取得{8,7}的{s.e}值对。对于纸本格式,可以查找在{8,7}下的文字列表的该文字。对于电子格式,只要设有用户介面,则使用此{s.e}值,以查找该文字,然后,检查目标文字的结果组。在后者中,有需输入笔画及端点值的手段与输出显示手段。输入手段可以包含键盘、鼠标、电子笔、音频输入装置、视觉输入装置、姿势为主的输入装置、信号输入装置等等。输出显示器可以包含视觉屏幕、打印、触觉输出装置、音频输出装置、信号输出装置、及/或其他适用以输出结果至个人或另一计算机或电子系统的输出。
此实施例可以特别有用于文字为简单(见有几画)并决定可能涉及猜想工作或很困难决定优先的部首或最重要偏旁。
参考表13及14描述另一实施例。部首及文字的传统笔画数已经在辞汇学上建立很多年。不好的是,偶而传统笔画计数似乎与所公开笔画计数原理有异。此实施例的方法可以把替代笔画数值与这种情况相关联,如表13所示。在该表中,行显示{s.e}值相关于在想要列上所示的偏旁。标示{s.e}#1的行提供前两个可能笔画计数值,及标示{s.e}#2的行显示替代笔画计数值。在这些情形下,我们可以观看在每一个{s.e}对的“s”(第一)值中的差异。
同样地,端点数可以取决于文字或偏旁所写出准确方式加以变化。因此,不同字型有时显示不同端点的计数。通过将替代端点值相关至想要的文字或偏旁,此实施例协助解决这种不明性。
经由替代端点计数的不明性的解决例子如表14所示。在表中,各个列对应于一个特定偏旁。标示{s.e}#1的行显示多个端点计数之一,及标示{s.e}#2及{s.e}#3的行显示替代端点计数。在这些情形下,可以为每一个{s.e}值对,观察在“e”(第二)值中的差异。
除了在各实施例中所述的步骤外,一个实施例也可以包含以下步骤:
识别及记录替代笔画数,其中,可能有部分有关笔画数的不明确;及
识别及记录替代端点数,其中有有关于端点数的不明确。
提供替代笔画及端点数的步骤可以施加至任一前述实施例,及可以以电子式及非电子格式完成。此替代笔画及端点值可以应用至所有偏旁及文字,至偏旁或文字的任意子组,包含部首偏旁、非部首偏旁、单体偏旁、复合偏旁等等。再者,虽然两个可能笔画计数的行被显示于表13中,及用于三个可能端点数的行被示于表14,但本发明的实施例并不限于此两个或三个替代计数,及理想上,提供足够给每一个文字。因此,因为很多偏旁及文字很明确,所以它们将不需要替代,而其他偏旁可能需要好几个。
选用地,该方法可以包含使得用户选择哪一个端点或笔画数替代字以额外地显示在查找结果中。因此,在起源查找结果显示包含为用户所选择的{s.e}值的复合旁或文字时,上一页将逐一地减少笔画或端点数(只要指定作变化),及下一页将逐一地增加笔画或端点。或者,分开GUI控制可以使得用户逐一地“上一页”或“下一页”笔画或端点数。此配置防止用户必须输入范围,及使得他简单地输入“最佳猜想”。
使用此实施例类似于前述的任一实施例。差异为其中可能为用以决定笔画或端点数时,有较大的误差边际。此误差边际保护了当传统笔画数为非直观,或者,端点数中的不明确性使得我们建立一个以上的可能性。
参考表15描述另一个实施例。此实施例可以通过指定名称、意义或两者至任一前述实施例所指明的偏旁加以实施。以此方式,偏旁可以被名称和/或意义所标示,并可以被记住。原理上,可以逻辑地将名称共相关至偏旁的语源。在非电子格式中,此数据的逻辑表示将是依据描述语言系统的表音顺序所名称或意义所索引的表。当为意义时,每个文字的多输入项本质上允许多个偏旁具有一个以上的意义。在电子格式中,将根据显示及数据输入及输出目的的需要而提供输入及输出栏。
除了进行先前实施例所述的任一步骤以完成于此所包含的功能外,本实施例也可以包含以下步骤:
识别用于查找关键字的每一个偏旁的语源意义。
注意虽然很多偏旁在传统上认为表音元件,但在文字语源的一点时,它们不可避免地描绘具体图或符号。此具体图或符号名称可以作为意义。
该方法也可以包含根据该意义将名称相关至该偏旁并记录。在电子格式中,名称理想上为唯一的,及相同意义的偏旁可以被标示为如表15所示(bird1,bird2等)。查找将不必花用记忆力,因为可以查找“bird#”,其中“#”计数为任意数目的通配符。当然,也可以使用其他通配符符号。
该方法也可以包含提供一种手段,用以通过其名称或意义存取偏旁。
该方法也可以包含参考及链结手段,用以经由使用作为查找关键字的偏旁存取该文字。
当中文、日文、韩文或古越南文的拼字学习者愈来愈熟习文字组成及语源时,自然地他们会更了解有关所用于文字中的偏旁的意义。本发明的此实施例可以使得用户以名称或意义查找偏旁,当记住名称及使用其作为查找手段时,比计数笔画及端点更快。其也可以有助于想要学习更多文字组成的学生。
使用此实施例涉及由表或等效存取手段中,通过使用组成名称或意义作为查找关键字,查找表或等效存取手段的偏旁。在纸本格式中,找出名称得到列表的一个或更多个文字(表15)。标示包含偏旁相关数据的区域的参考数或页码可以被显示用于每一个偏旁(未示于表中)。在数据库中,在输入名称或意义至适当图形用户介面后,一个或更多个偏旁列表可以被显示在屏幕上或其他输出装置上。由此,对文字数据的存取可以如上述地在本发明其他实施例完成。
另一实施例是参考表16加以描述的。由于各种文字系统改革,即日文于1945年的改革及中国于1949年改革,所以有些现今书写的文字及偏旁使用新字形加以书写。此等转变结果为偏旁及文字可以以替代版本表示。因此,例如[單]、[单]及[单]均为相同,它们为相同字但不同书写体。因此,能追溯于偏旁之间的图形改变有很大的好处。
除了在其他实施例的上述任一步骤外,一个实施例可以包含以下步骤:识别在偏旁或体间的多对多关系;提供存取手段,用以通过笔画端点分类,存取所有偏旁及其异体;及提供观看手段,用以观看为分类法所存取的偏旁的各版本,使得当异体字使用步骤2的手段存取时,所有相关变体可以显示在结果组中。
表16显示此数据可以在表中如何共相关,使用“字/语”部首“言”。图2显示可以用以储存此数据于关系数据库中的实施例。在电子格式中,各种图形用户介面可以使用以实现用户用来存取及显示字形异体的介面。
有各种可能交叉参考描述语言的实施例。在电子格式中,输入查找栏可以使得用户通过其{s.e}值查找偏旁。例如,使用{7,8}的{s.e}查找言将造成一组包含“言”的偏旁。通过选择“言”,显示手段可以显示“言”及其异体(如果有的话)。或者,有关于使用此等或体的语言的其他信息可以被显示。纸本版本实施例可以使用一表加以实施,该表列出以{s.e}顺序的偏旁并显示包含在其他描述法中的替代形式的栏。注意,在此实施例的电子及纸本格式中,额外栏或行可以被提供以处理有每描述语言有一个以上的异体的情形。为了清楚起见,此额外栏及行并未示于图或表中。
另一实施例可以提供能力以根据包含其中的任意单体找出文字,而不管该单体为单体式或复合式、部首或非部首、核心等等。除了上述实施例中的步骤外,此方法也可以包含识别存在于文字域中的偏旁,而不管其类型(部首、非部首、单体、复合或核心)。该方法也可以包含提供一种手段,用以通过{s.e}分类而存取所有偏旁;及提供一种参考手段,由该偏旁列表参考包含它们的文字,使得其有可能存取相关任意给定偏旁的文字。
本实施例对于给定查找可能造成较大文字结果组,但可以有利于稀少或不常见偏旁将精确造成文字域的有限次选择,而不管是否该单体为核心偏旁。再者,可以有利于研究者可能想要研读文字关系。最后,如果包含来自本发明先前实施例的功能,使得例如核心偏旁的更准确查找关键字可以被交替地使用,则此实施例可以使用为“最后手段”,其中不管何种理由,用户具有困难于识别哪一部首或核心偏旁被使用作为查找关键字。在电子本文中,此实施例可以被架构以使得多个偏旁可以被同时使用作为查找关键字,因此,进一步降低在查找程序中所产生的结果组。
使用此方法类似于其他实施例。为了找出目标文字,可以使用手段,用以依据笔画端点分类存取偏旁,并根据结果组,可以找出目标查找文字。因为列表手段类似于所示的其他表,只有在表中所包含单体数不同,所以,结果表或图可能类似于上述的一个或多个。
参考图3及4描述另一个实施例。此实施例组合先前所述的实施例的任一或全部的方法,但将之固定为电子格式。因此,显示装置或其他输出手段,键盘、电子笔、或其他输入手段,如短及长期存储器以储存数据、计算机处理器、及数据库查找及经由软件应用程序的取回功能可以被设置,以促成文字及偏旁的查找。图3显示例示数据结构,其可以实施在计算机可读取介质中及可以提供在上述各实施例中所完成的特性。在图3中,表名称被显示为大写,但粗体栏名称表示用于对应表的关键字栏,及具有箭头的线表示在表间的链结。在表间的关系结构使得箭头的头代表“一个文件”及尾(起点)代表“很多文件”。
例如,为了使用关联数据库,完成在先前实施例中的功能,可以使用四个表格,即CHARACTERS,CORE COMPONENTS,ELEMENT及CHAR_COMP_LINK。或者,以笔画端点标示法直接查找文字的能力也可以提供,及CHARACTERS表可以包含含文字本身的栏、笔画数栏、及端点栏。另外,为了当用户猜想文字笔画数时,提供额外误差边际,也可以加入替代笔画数栏,及替代端点栏(图3)。查找{s.e}值可以使用准确值(限制结果组大小)或使用范围(当用户察觉不明确时)加以进行。通过上述的部分形式的上一页及下一页功能,查找结果的显示可以使得匹配笔画或端点数的结果的观看较用户的猜想更高或更低些。
COMPONENTS表可以取得最小量的笔画数及端点栏,但额外包含一组替代笔画数及端点值(图3)。链结CHARACTERS与COMPONENTS表的是CHAR_COMP_LINK,其目的为实现在文字与偏旁间的多对多关系。
最后,为了实现上述偏旁的简单-复杂区分,可以提供包含ELEMENTS(简单偏旁)的额外表。逻辑上,一种方法为一个单体可以被认为是用以组成另一个更复杂偏旁的任一偏旁。因此,在ELEMENTS表中的单体栏可以包含偏旁列表,所述偏旁不能再进一步细分为更小字形。在COMPONENTS与ELEMENTS表间的关系也必然为多对多,因为各个偏旁可以相关于多个单体,及各个单体可以相关多个偏旁。
图4显示可以用以依据本发明所用的示例图形用户介面(GUI)例子。多用途介面是使得用户经由按钮选择查找目标,例如,选项是部首偏旁、非部首偏旁、任意偏旁或文字。用户然后可以选择一个或更多个查找准则,不论是单独笔画、笔画与端点、名称、或意义。如图4所示,结果组可以取栅格形状的单元矩阵。在结果组(所示为空白)中的偏旁上的点选可以表示该目标已经被找到。如果目标为部首或偏旁,则点选该目标可以产生一组新的包含该部首或偏旁的文字。此结果组可以经由图形用户介面被显示于另一视窗中,图形用户介面可以以各种方式实施,因为其他实施法也可以使用各实施例的一个或多个加以想出。包含但并不限于偏旁或文字意义、读音及使用说明的额外数据可以被与查找目标一起显示。图形用户介面或其他手段可以如图4所示,被提供以名称及/或意义查找偏旁及/或文字。
本质上也可以提供保有本案精神并有用于各实施例的替代图形用户介面。例如,有可能想出图形用户介面,使得部首及非部首偏旁可以被显示于分开表中,使得两种类型偏旁可以被分开使用或组合使用以查找。例如,可以使用查找端点关键字查找关键字以查找部首及非部首查找,并选择在该目标文字中所找到的该部首及非部首。有关于偏旁与文字的数据也可以显示在屏幕上。
此实施例可以包含将典型并未在标准电子文字组中找到偏旁映射作为分类法一部分的各种字形(偏旁、核心及非核心)所表明的象形文字。除了映射(编码)本身外,也可以准备一或更多特殊字型或字型附加。使用现今技术,为了使用非部首重现偏旁作为文字,典型将其编码为用户界定文字,使得它们可以显示在屏幕上。此技术为已知,并使用若干软件应用程序加以完成,该应用程序使得人们可以设计其字型或将文字加入现行字型中。上述实施例的实施电子格式可以包含偏旁象形文字映射及字型附加开发步骤。
在使用此实施例以查找文字时,用户可以决定想要哪一类型查找,例如,部首、非部首重现偏旁、或文字本身。选择对应于笔画端点对值的非部首偏旁或部首可以得到一组匹配该查找准则的文字,在此时,用户可以选择(或点选)想要文字。当查找目标为复合时,偏旁可以用以配合以进一步限缩查找结果组。查找结果被显示于屏幕上,一旦找到目标,则相关数据被显示。
因为其他实施例的特性也可以加入此实施例中,所以有可能通过输入其名称、键入其意义、通过键入或点选矩阵上的数字,而输入笔画及端点值,组合偏旁,或甚至简单地使用也可以使用笔画端点数找到的部首来查找偏旁。显示查找结果,在此时,用户可以选择或点选想要文字或偏旁,以进行至查找程序。
另一实施例包含在网络服务器上主管数据与具有本发明方法的设备,并经由因特网提供对该设备的取用。因此,除了存储器、输入装置、显示装置、文字映射、及字型附加外,字型可以下载至用户,或者,数据也可以呈现为非编码格式,例如PDF。随后,用户使用接取技术经由因特网加以接取。除了上述实施例外,本发明方法、系统或软件的另一个实施例可以包含使用网络服务,以提供相对于人类操作员或另一软件应用程序或计算机系统的输入和/或输出的实施例。
例如,如果用户想要存取文字或偏旁,则可以上网到查找法所在的统一资源定位器URL。为了在用户计算机上显示文字,字型可以由URL下载。或者,可以显示结果呈pdf格式或其他平台中性格式。查找的实施例可以使得系统及方法到处可以取用。
方法的另一个实施例可以提供一种手段,以依据本发明产生特定语料库查找图及分类表。此实施例可以完成如下:
识别所需偏旁并准备如上的映射。
该方法可以包含由准备有图及表的语料库取得文字列表;及由本发明使用语料库文字以产生子组文字、偏旁及关系,使得关系与复合旁与文字数据相关于语料库者。
该方法也可以包含根据对应于该语料库的关系的子组产生表。
基本上,此实施例由包含在整个实施中的偏旁、文字及关系的整体减去未包含在该语料库中的偏旁、文字及关系。(注意本发明的完成实施大致根据例如万国码,但也可以使用其他大文字组)一旦取得子组数据,则可以应用为电子文字(便携式电子字典、PDA、移动电话等)或可以还原为打印版本用以加入印刷介质公开,例如字典。
用以实施和/或使用此实施例的方式可以取决于所用的数据库及程序语言。例如,作为数据储存库的关系数据库可以用以构成一个实施例,人们可以简单使用语料库文字的电子列表,并经由例如一组描述语言产生表格数据的子选择。对于部分熟习于使用处理亚洲文字的关系数据库者是直接的。所得子选择可以然后被使用作为镜像一个结构实施例的新数据库的基础,但只包含属于该想要语料库的数据部分。然后,结果可以被转换为适当格式,用于想要电子文,或打印以作印刷介质字典使用。
另一个实施例可以包含教学系统的开发,其可以使用作为新用户和/或有经验用户的训练工具或教材。实施本发明的原型中的尝试和错误可以容易地识别用户有困难计数端点值的偏旁。另外,有可能识别端点值取决于所用字型而改变的偏旁。在此实施例中,那些不明确或困难可以放置在表中,以其真实端点被圈起来或加亮,而假的端点未标示。在表中的偏旁可以以笔画及真实端点值加以排序。困难表可以例如被使用作为研究协助。
包含困难及不明确的偏旁表可以为教导用户如何快速正确识别重要但不明确偏旁的正确端点数的训练工具的开始点。在此时,用户可以使用本发明中具有较大准确度及效率的实施例。在印刷介质中,也可以提供分开的困难表,以使得困惑于特定单体但不想要经过总体偏旁查找的用户可以使用。
使用困难及不明确的实施法包含软件猜想游戏、训练游戏等,并将保有本发明现今实施例的精神。
另一个实施例可以包含印刷字典、及建立方法,其内容是依据本发明的核心偏旁分类系统加以分类及安排的。因此,使用核心偏旁法把文字分组成族,及通过依据本发明笔画端点法分类的核心偏旁组织字典本身。结果,用户可以不使用核心偏旁的中间表,用户可以直接查找字典中的目标文字。
为了加速查找,表示笔画数值的缺口姆指标签可以沿著相对于绑线的侧面设置。在每一笔画计数部内,子标签或一些类似分段装置可以提供,以表示在笔画数部分内的端点子部分。在每一个{s.e}子部分的开始处,短表可以列出核心偏旁与其对应页码。该表可以交叉参考容易曲解具有该{s.e}值的核心偏旁。
在{s.e}子部分内的每一页的顶或外缘也可以列出具有该值的核心偏旁。核心偏旁的列表可以遵循出现在{s.e}子部分内的顺序。部分形式的加亮-包含但并不限于粗体、斜体或彩色-可以用以表示在现行页上找到在信头列表中的哪些核心偏旁。在前一页找到加亮前列出的核心偏旁,在下一页找到加亮后的核心偏旁。这使得用户可以容易决定是往上一页或下一页。
在共享相同核心偏旁的每一族文字内,文字可以以残留笔画顺序列表。如果两个或更多个文字具有相同残留笔画数,则如果残留部分事实上构成部首的话,则它们可以进一步以残留部分的传统部首加以排序。
在字典的结束及开始处可以设有特殊表,以列出困难情形,其中,笔画端点系统可能很难第一次就准确应用。也可以提供传统表示法,包含但并不限于以部首及读音表示。
对于提供给每一文字的数据类型并未有特别限制,依据本实施例的结构可以迅速应用至单语或双语文字字典。相关字可以与每一个文字与使用信息,例如语源学等列在一起。
例如,为了查找文字,用户可以决定文字的核心偏旁并决定笔画计数。使用笔画计数标签,用户可以快速地到达包含核心偏旁具有该笔画的文字的字典的该部分。子标签或部分类似装置可以进一步导引读者至适当端点值,在表内,各个{s.e}子部分以参考页码列出正确核心偏旁与容易误认的核心偏旁。用户然后可以使用在页顶的加亮关键字以将页码朝向下一页,直到找到该文字的核心偏旁为止。该文字将在所示文字的短列表中被足够迅速地找出。在核心偏旁族具有很多文字的少数情形下,文字的顺序被进一步以残留部分的笔画数及/或部首顺序加以决定。
图6为实施列的一个例子;本图显示其方法,系统及数据之间的关系。尤其,系统600包含查找模组602、数据库604、文字域606、核心偏旁识别法(或程序)608、笔画端点决定法(或程序)610、部首、读音、或其他方法(或程序)612、输入介面部分614、输出介面部分616、纸本输出格式618、电子输入/输出格式620、及重现偏旁文字编码622。
在操作时,查找模组602连接至数据库604。数据库604包含文字、核心偏旁、重现偏旁及笔画末端链结(相关或关系)数据。依据方法608-622,在数据库604中的数据是基于被处理的文字域606。
一旦核心偏旁/笔画端点/文字相关数据在数据库604中,则查找模组602可以回应于经由输入介面部分614接收的输入,接取数据库604。查找模组602可以根据来自数据库604的数据及重现偏旁文字编码622产生输出。重现偏旁文字编码622可以包含额外编码文字,以表示未被编码的核心偏旁或其他重现偏旁作为传统语言编码设计的一部分。例如,重现偏旁文字编码622可以包含核心偏旁及其他重现偏旁,如上所述,在部分情形下,核心偏旁是非部首偏旁(典型包含在传统编码中的偏旁)的偏旁。因此,重现偏旁文字编码622提供一种手段或机制,使得计算机系统可以参考及显示重现偏旁。
输出介面部分616可以有关纸本输出格式618(例如印刷标示、印刷字典等等)或电子格式620(例如计算机、手持电子字典等等)。通常,类似于图6所示的实施例可以典型包含用于重现偏旁的链结成为封装的一部分。换句话说,标示的页与页的问题可以电子式地避免。因此,对于最大自由度的选择,加强了用户弹性,用户应能以四种方式查找,包含至少有:
1)以部首;
2)以核心偏旁
3)以其他/任一重现偏旁;
4)以偏旁的名称/意义;
5)通过查找与目标共享有相同核心偏旁的文字,找出核心偏旁,然后,找出核心偏旁的家族。同时,一个实施例可以包含手段,用以表音地输入文字。当目标文字稀少和/或具有未知读音但共享普通已知文字的特性时,此功能特别有好处。
6)表音(例如传统方式)。
图7是可以用于实施方法或系统实施例的例示计算机系统的框图。图7的计算机系统700包含处理器702及存储器704。处理器702可以包含单一微处理器,或包含多个微处理器,用以架构计算机系统为多处理器系统。存储器704部分储存由处理器702所执行的指令及数据。如果本发明的系统整个或部分实施为软件,包含计算机程序,则存储器704可以用以储存在操作时可执行的代码。存储器704可以包含动态随机存储器(DRAM)与高速缓冲存储器。
图7的系统还包含大容量储存装置706、外围装置724、输入装置710、便携式储存介质驱动器712、计算机可读取介质714、图形子系统720及显示器708。为了简明起见,示于图7的元件被描绘经由单一总线716加以连接。然而,这些元件也可以经由一个或更多个数据传送装置加以连接。例如,处理器702及存储器704可以经由本地微处理器总线连接,以及大容量储存装置706、外围装置724、便携式储存介质驱动器712、及图形子系统720可以经由一个或多个输入/输出(I/O)总线加以连接。典型以磁盘机或光盘机实施的大容量储存装置706是非挥发储存装置,用以储存为处理器702所用的数据与指令。在另一个实施例中,大容量储存装置706储存计算机程序,其实施本发明的方法。本发明的方法也可以储存于处理器702中。
便携式储存介质驱动器712配合便携式非挥发储存介质一起操作,例如软盘,或其他计算机可读取介质,以输入及输出数据及码进出图7的计算机系统。在一个实施例中,本发明的方法储存于此便携式介质中,并经由便携式储存介质驱动器712被输入至计算机系统700中。外围装置724也可以包含任意类型的计算机支持装置,例如输入/输出(I/O)介面,以加入额外功能至计算机系统700。例如,外围装置724可以包含网络介面卡,用以将计算机系统700通过介面接口连接至网络、数据机等等。
输入装置710提供一部分的用户介面(UI)。输入装置710可以包含字数键盘,用以输入字数及其他键信息,或定点装置,例如鼠标、轨迹球、电子笔或游标方向键、或影像捕捉摄影机或OCR。这种装置提供额外手段,用以介接(interfacing)或执行本发明的方法。为了显示文字及图形信息,图7的计算机系统700包含图形子系统720及显示器708。显示器708可以包含阴极射线管(CRT)显示器、液晶显示器(LCD)、其他适当显示装置、或用以显示的手段,以使得用户可以观看本发明方法的执行。图形子系统720接收文字及图形信息并处理信息以输出至显示器708。显示器708可以被用以显示元件介面与/或显示为用户介面的一部分。显示器708提供本发明方法的实际用途,因为本发明的方法可以直接及实用地经由使用显示器708及输入装置710加以实施。图7的系统700也包含音频系统722。在一个实施例中,音频系统722包含声卡,其接收来自可以在外围装置724中找到的麦克风的声音。另外,图7的系统包含输出装置718。适当的输出装置例包含喇叭、打印机等等。
图7的系统也包含网络介面726,耦接至网络728(例如因特网)。远端用户或系统730可以由网络存取执行于处理器702上的分类与取回方法。
在图7的计算机系统中所包含的装置系可典型在通用目的计算机系统找到,并用以表示这种计算机元件的较宽类型,并为本领域技术人员所知。图7的系统显示一个平台,其可以用于实际执行本发明的方法。各种的其他平台也可以采用,例如由苹果电脑公司所购得的基于麦金塔的平台,具有不同总线架构的平台、网络平台、多处理器平台、其他个人计算机、便携式平台(例如手持电子字典、翻译机等等)、工作站、主机、导航系统等等。
配合计算机系统700的替代实施例还包含使用为监视的其他显示装置,例如CRT显示器、LCD显示器、投影显示器等等。同样地,也可以使用存储器704以外的类似类型的存储器。除了元件介面外,其他介面手段也可以使用,包含字数键盘、其他键信息或任意定点装置,例如鼠标、轨迹球、电子笔、游标或方向键。
另一个实施例包含一种计算机程序产品,其包括储存介质,该存储介质内储存有可以用以对计算机进行编程来执行本发明介接方法的指令。该储存介质可以包含但并不限于盘片类型,包含软盘、光盘、DVD、CD ROM、磁光盘、RAM、EPROM、EEPROM、磁或光学卡或任意类型的储存电子指令的介质。
储存于任一计算机可读取介质内的有用以控制一般目的/特殊计算机或微处理器的硬件的软件,用以使得计算机或微处理器与人类用户或利用本发明结果的其他机制互动。此软件可以包含但并不限于装置驱动程序、操作系统、及用户应用程序。最后,此计算机可读取介质还包含软件,用以执行与本发明介接的方法。
用以执行上述电子字典或LSC的方法的用户装置或系统可以为便携式电子装置,例如以下之一(或一个以上的组合):网络为主的装置;无线电话手机(例如苹果电脑的);个人数字助理(PDA),如 计算装置等;手持计算机;便携式电子字典;膝上型计算机(或其他类型的携带计算机,如平板计算机);智能电话;例如数字相机或数字摄影机的介质记录器;数字介质播放器,例如mp3播放器、电子书读卡机、手持游戏平台;个人导航装置;整合装置等等。用户装置可以为桌上型计算机,例如IBM相容个人计算机(PC)或苹果通常,任何已知或随后开发明的装置或装置组合均可以执行上述功能,并与本发明实施例一起使用。
本发明的软件实施例可以购买(或取决于应用程序提供者而定免费附送)并经由有线或无线网络下载给用户。苹果电脑的AppStore为下载软件至便携式装置的系统例。
一个实施例可以包含系统式分类在中文字型文字中所找到的重现偏旁,包含部首及非部首偏旁的方法。
至少一个实施例可以提供一种由具有相同笔画数的偏旁组识别重现偏旁的方法。
至少一个实施例可以提供一种方法,用以分类中文字型文字,使得当为重现偏旁所识别时,所得选择很少,因而促成查找。
至少一个实施例可以提供使用一个以上的构成偏旁,以查找文字的方法,而不管该偏旁是否为传统部首或非部首偏旁。
至少一个实施例可以提供当有困难于决定哪一个偏旁构成传统部首时,通过其{stroke.endpoint}计数查找文字。
至少一个实施例可以提供根据较简单偏旁来查找复合偏旁的方法,反之亦然。
至少一个实施例可以提供一种使用已知文字的方法,其与作为开始查找点的查找目标文字共享重现偏旁或核心偏旁,通过所述已知文字,取得构成偏旁,并由构成偏旁中,使用共享偏旁作为一种手段,以识别该查找目标文字。
至少一个实施例可以提供给不管该语言为母语或非母语语言学生的一种方法,以最佳了解文字组合。
至少一个实施例可以通过名称或意义,提供一种用以查找非部首偏旁方法。
至少一个实施例可以提供用于偏旁和/或文字分类的方法,其可以被该语言的新用户迅速掌握,并且其操作既不需要如何发音该文字的知识也不必对重现偏旁的语源状态的详细了解。
如同参考一个或更多个实施例所述,有可能产生查找表,通过交叉参考位在字典中的文字列表与笔画端点分类系统中的所有文字与偏旁的数据,而产生查找表。然而,实际问题为字典印刷者是否将额外文字及偏旁表加入到字典上。但可能在成本上仍不被允许。
当然,一个解决方案为建立一个独立的小册子,其包含必要偏旁与文字查找表,以被使用作为对现行字典或其他工作的补充。这些将使用如上所述实施例加以安排。不论偏旁或文字均可以在分开表上,或者,相关文字可以在与对应核心偏旁相同的页上。可以完成各种满意架构。
然而,另一种方法为使用一个实施例,以实施一个或更多个查找表,作为重组“动词轮盘”,有时在法文及西班牙文中用作为动词连接词。
本发明的方法,系统或软件的实施例可以包含圆盘(也称为“轮盘表”、“圆暂定字”、或“动词轮盘”),其可以为具有旋转部的纸结构。该圆盘可以由任何适当材料(例如纸卡、金属、塑胶等)所作成并包含旋转或线性动作(类似于计算尺)。自一个实施例输出的数据可以被周边、离心式、及/或径向安排。圆盘可以使用具有指标的多个同心圆并可以切块。
依据本发明的例示圆盘可以包含正方或圆形纸卡或厚纸板。笔画数可以径向表示在纸板旁,弧度愈大表示具有与其相关的更多偏旁的笔画数。由此纸板的中心旋转可以为略薄的圆形纸片,其一部分被切去。切去部分露出在其下的纸板。沿着该部分的侧面径向有端点值表示码。该部分将曝露出写在纸板上的偏旁或文字。使用此径向座标系统,有可能通过旋转内轮而指定笔画与端点值,使得该部分曝露出正确笔画数,然后沿著该部分的侧面看出端点表示码,以找出对应查找关键字。如果找出期待为核心偏旁,则可以成功指出其为核心偏旁,并也可以成功决定笔画端点值。下一步骤为找出对应文字。
圆盘的另一侧可以为类似配置。笔画可以径向表示在纸板旁及端点可以被标示为沿着剖面切割距离而增加或减少。差异为在圆盘侧上,显示对应于偏旁的文字。各个文字的下一个为例如包含目标文字的字典页码。
相当简单及便宜圆盘使用作为索引工具,因而可能使得字典印刷者印刷笔画端点查找手段,而不必重新排版。圆盘实施例也可以使用为单独一个实施例,与另一个参考工作或字典无关。
随著电子工业的进步及编码非标准文字并使用于相关数据库,本发明的实施例可以根据笔画端点数,分类中文字型文字及其重现偏旁,以降低查找时间并鼓励于此所述的笔画端点/重现偏旁分类系统的标准化。
虽然上述的各种例示实施例的说明包含很多细节,但这些并不应被解释为本发明范围的限制。它们只是显示本发明部分实施例用。例如,偏旁可以进一步通过位置分类,或表示法可以略微改变(x-y,而不是x.y),及在简单与复合偏旁间的自动链结可以合理化为包含阵列格的电子表。再者,上述实施例可以实现为纸本及电子格式。
应了解的是,上述步骤可以整个或部分重复,以执行想出的查找工作。再者,应了解的是,上述步骤可以执行在单一或分散处理器中。同时,于实施例中的各图所述的程序、模组及单元可以分布于多个计算机或系统中并可以一起位于单一处理器或系统中。
图8为文字、部首、核心偏旁及(单体)字形间的互动图。更明确地说,可以由图8看出,其中大多数都是文字。部分核心偏旁为文字。部分则由单体字形构成。甚至少数为部首。更少量同时也作为核心偏旁。字形为个别单体。很多可被使用作为核心偏旁(多于重叠部分所示意的)。部分也是文字。部首为字形的一个子组。原理上,部分部首可以为单体字形。注意,核心偏旁、(单体)字形、及部首可以被认为是重现偏旁,其可以为简单或复杂。
用于分类及查找的方法、系统与计算机程序产品(即储存于计算机可读取介质的软件)的实施例可以被实施在通用目的计算机上、特殊目的计算机上、编程的微处理器或微控制器及外围集成电路元件、ASIC或其他集成电路、数字信号处理器、接线电子或逻辑电路,如分立元件电路、编程的逻辑装置,例如PLD、PLA、FPGA、PAL等等上。总的来说,能执行此处描述的功能或步骤的任何处理都可以被用于实施分类及查找用的方法、系统或计算机程序产品的实施例。
再者,所揭示的用于分类及查找的方法、系统与计算机程序产品实施例可以迅速部分或整个地实施于软件,使用例如对象或面向对象软件开发环境,提供可以用于各种计算机平台上的便携式来源码。或者,所揭示用于分类及查找的方法、系统与计算机程序产品的实施例可以部分或整个被实施为硬件,例如使用标准逻辑电路或VLSI设计。取决于系统的速度及/或效率要求,也可以使用其他硬件或软件,利用特定功能,及/或特定软件或硬件系统、微处理器或微计算机系统。用于分类及查找的方法、系统与计算机程序产品的实施例可以以硬件及/或软件,以已知或随后开发的系统与结构、装置和/或软件,为本领域技术人员以于此所述的功能及通用计算机和/或语言学基础知识加以实施。
再者,所揭示的用于分类与查找的方法、系统与计算机程序产品可以被实施为执行于被编程的通用目的计算机、特殊目的计算机、微处理器等等中的软件。同时,本发明的分类及查找方法可以实施为内嵌于个人计算机上的例如或CGI描述语言程序的程序,作为在服务器或图形工作站上的资源,作为内嵌在专用处理系统中的例程等等。该方法与系统可以将用以分类及查找方法实际加入至软件及/或硬件系统,例如,计算机软件程序、电子字典及/或翻译机。
因此,明显地,依据本发明,提供有用于分类及查找或取回中文字型文字的方法、系统与计算机程序产品(计算机可读取介质)。虽然本发明已经配合若干实施例加以描述,但明显地,很多替换、修改及变化可以为本领域技术人员所熟知。因此,这种替换、修改、等效及变化都在本发明的精神与范围内。
表1以第一模式规划的原理例示的核心偏旁
表2样品核心偏旁与相关字元族
表3凡单画数为1的单体偏旁(定义上)具有两个端点。
表4无接触点的单休偏旁:端点数=2×笔画数
表5一个接触点的单体偏旁:端点数=((2×笔画数)-1)
表6无触立端点的单体偏旁
表7当搜寻〔像〕时使用于不同写入系统中的部首系统与使用本发明的笔画端点的结果组比较
注意:所有结果组以通用码作字元域
表8a传统四画部首的结果组
表8b依据本发明的四画及0-8端点的部首结果组
表9以第二及第三模式的{笔画·端点}排列的部首表
表10以第三模式所述的{笔画·端点}所排列的非部首偏旁表
表11将复合偏旁剖析成单体偏旁的例于
表12{笔画·端点}值应用至文字
表13笔画数不明确的例示解决方案
表14当端点不明时所适应的解决方案
表15指定至重现偏旁的例示名称及意义
表16描述语言为主的偏旁变化的纸本为主记录
  {笔画·端点}   RC   P   TC   SC   J   K   V
2.4   言   言   言   言
  ...
  ...
  7.8   言   言   言   言   言
RC重现偏旁
P原来源形式
TC繁体中文形
SC简体中文形
J日文形
K韩文形
V越南文形

Claims (20)

1.一种在具有重现偏旁的文字域中作进行文字的分类与取回的计算机系统,该计算机系统包括:
用于提供具有包括该所述文字域的数据库的装置;
用于识别在所述文字域中的多个重现偏旁的装置;
用于识别每个所述重现偏旁的笔画数的装置;
用于识别每个所述重现偏旁的端点数的装置;
用于依据针对每个所述重现偏旁确定的笔画端点值对,分类该重现偏旁的装置,其中所述笔画端点值对是基于针对所述重现偏旁识别的笔画数及端点;
用于识别在每个重现偏旁与一个或更多个文字间的关系的装置,其中当文字包含所述重现偏旁时识别所述关系;
用于通过在数据库中储存多个关系输入项,而在所述数据库中记录所识别的关系的装置,其中每个关系输入项对应于重现偏旁与相应相关文字间的双向相关性;
用于经由输入装置接收输入笔画端点值对,并使用接收的笔画端点值对存取所述数据库并取回对应于所述接收的笔画端点值对的一组一个或更多个所述重现偏旁的装置;
用于产生对应于所述接收的笔画端点值对的一组一个或更多个重现偏旁的装置;
用于经由所述输入装置接收从由对应于所述接收的笔画端点值对的所述重现偏旁的组中选择的目标重现偏旁的表示的装置;
用于在所述数据库中取回与所述目标重现偏旁具有关系的文字的装置;及
用于根据所述目标重现偏旁产生文字列表,并将所述文字列表提供给用户介面作为输出的装置。
2.根据权利要求1所述的计算机系统,其中所述重现偏旁构成部首。
3.根据权利要求1所述的计算机系统,其中所述重现偏旁构成核心偏旁。
4.根据权利要求1所述的计算机系统,其中所述重现偏旁包含部首、核心偏旁、及任意其它可识别的重现偏旁。
5.根据权利要求4所述的计算机系统,还包含:
用于确定在所述文字域中的每个所述文字的笔画数及端点值的装置;
用于将笔画端点值对与在所述文字域内的每个文字进行相关的装置。
6.根据权利要求1所述的计算机系统,其中所述用户介面包含:输入装置,适于从用户接收包含笔画端点值对与选择表示的输入;及显示装置,适于显示所述文字、笔画端点值对及重现偏旁。
7.根据权利要求1所述的计算机系统,其中所述用户介面包含软件介面,所述软件介面适于允许另一计算机由所述数据库查找并取回文字。
8.根据权利要求5所述的计算机系统,其中所述文字存取手段包含只使用所述文字的所述输入笔画端点值对来直接存取文字的手段。
9.根据权利要求1所述的计算机系统,还包含:用于产生文字编码,以补充现有文字编码并提供用于参考及显示重现偏旁的手段的装置。
10.根据权利要求1所述的计算机系统,还包含:
用于对于具有被解释为具有多个笔画端点值对的特性的那些重现偏旁,识别及记录可替换的笔画端点值对的装置。
11.根据权利要求1所述的计算机系统,还包含:
用于识别每个重现偏旁的语源意义的装置;
用于将名称与每个重现偏旁进行相关的装置,其中所述名称是基于所述语源意义;及
用于提供基于名称的存取手段,用以存取所述数据库,以根据经由所述用户介面输入的名称,取回重现偏旁的装置。
12.根据权利要求11所述的计算机系统,还包含:
用于识别及记录在被认为是互为重现偏旁和异体偏旁的重现偏旁之间的关系的装置;及
用于提供根据其相关异体字形版本之一来存取重现偏旁的手段的装置。
13.根据权利要求11所述的计算机系统,还包含:
用于提供自由与直接输入文字的手段的装置,其中所述文字与搜索目标文字共享重现偏旁;
用于提供用手产生所述文字的构成重现偏旁的列表的手段的装置;
用于提供用于选择所述构成重现偏旁的手段的装置;及
用于产生包含所选择的构成重现偏旁的文字列表的装置。
14.一种被配置为在具有重现偏旁的文字域中产生文字索引的计算机系统,该计算机系统包括:
用于提供从电子数据存储装置取回的文字域的装置;
用于识别在所述文字域内出现的重现偏旁的装置;
用于确定每个重现偏旁的笔画数的装置;
用于确定每个重现偏旁的端点数的装置;
用于根据对应于针对所述多个重现偏旁中的每一个确定的笔画数与端点数的笔画端点值对,分类该重现偏旁的装置;
用于识别每个重现偏旁与一个或更多个文字间的关系的装置,其中当文字包含所述重现偏旁时识别所述关系;
用于通过在数据库中储存多个关系输入项,而在所述数据库中记录所识别的关系的装置,其中所述关系输入项表明重现偏旁与其相应的相关文字间的相关性;
用于针对每个笔画端点值对,存取所述数据库并取回对应于所述输入笔画端点值对的一组一个或更多个所述重现偏旁,并产生文字列表的装置,其中所述文字列表与和所述笔画端点值对相关联的每个所述重现偏旁相关;及
用于产生依据笔画端点值对排序并具有多个部分的所述索引的装置,其中每个部分基于所述笔画端点值对之一并包含基于与所述笔画端点值对相关联的重现偏旁的子部分,每个重现偏旁还包含与所述重现偏旁相关联的所述文字列表。
15.根据权利要求14所述的计算机系统,其中所述重现偏旁构成部首。
16.根据权利要求14所述的计算机系统,其中所述重现偏旁构成核心偏旁。
17.根据权利要求14所述的计算机系统,其中所述重现偏旁包含部首及核心偏旁。
18.根据权利要求14所述的计算机系统,还包含:
用于确定在所述文字域中的每个文字的笔画端点值对的装置;
用于将所述笔画端点值对与对应文字进行相关的装置;及
用于产生依笔画端点值对排序并具有多个部分的文字索引的装置,其中每个部分列出对应于所述笔画端点值的所述文字。
19.一种电子字典,包含:
储存有数据库的存储器,所述数据库包含:多个文字记录;多个重现偏旁记录,每个重现偏旁记录包含主笔画端点值对;及多个关系输入项,所述关系输入项将重现偏旁与一个或更多个文字记录相关;
显示装置;
输入装置;
用于经由所述输入装置接收输入笔画端点值对,并使用所述接收的笔画端点值对以存取所述数据库并取回对应于所接收的笔画端点值对的一组一个或更多个所述重现偏旁的装置;
用于显示所述一组重现偏旁于所述显示装置上的装置;
用于经由所述输入装置,接收自被显示的所述一组重现偏旁选择的目标重现偏旁的表示的装置;
用于由所述数据库,取回与所述目标重现偏旁具有关系的文字的装置;及
用于显示所述取回的文字的装置。
20.根据权利要求19所述的电子字典,其中所述电子字典系为便携式电子字典。
CN200880125478.XA 2007-11-26 2008-11-25 中文型文字及文字偏旁的分类及检索的系统与方法 Active CN102016837B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US99016607P 2007-11-26 2007-11-26
US99012307P 2007-11-26 2007-11-26
US60/990,166 2007-11-26
US60/990,123 2007-11-26
US99101007P 2007-11-29 2007-11-29
US60/991,010 2007-11-29
PCT/US2008/084750 WO2009070615A1 (en) 2007-11-26 2008-11-25 System and method for classification and retrieval of chinese-type characters and character components

Publications (2)

Publication Number Publication Date
CN102016837A CN102016837A (zh) 2011-04-13
CN102016837B true CN102016837B (zh) 2014-08-20

Family

ID=40678958

Family Applications (2)

Application Number Title Priority Date Filing Date
CN200880125478.XA Active CN102016837B (zh) 2007-11-26 2008-11-25 中文型文字及文字偏旁的分类及检索的系统与方法
CN2008801254775A Expired - Fee Related CN102016836B (zh) 2007-11-26 2008-11-25 管理电子形式的中文、日文及韩文语言数据的模组系统与方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2008801254775A Expired - Fee Related CN102016836B (zh) 2007-11-26 2008-11-25 管理电子形式的中文、日文及韩文语言数据的模组系统与方法

Country Status (6)

Country Link
US (2) US8433709B2 (zh)
JP (4) JP5666307B2 (zh)
CN (2) CN102016837B (zh)
HK (2) HK1156418A1 (zh)
TW (2) TWI496012B (zh)
WO (2) WO2009070619A1 (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8564544B2 (en) 2006-09-06 2013-10-22 Apple Inc. Touch screen device, method, and graphical user interface for customizing display of content category icons
GB0624571D0 (en) * 2006-12-08 2007-01-17 Cambridge Silicon Radio Ltd Authenticating Devices for Communications
US8689132B2 (en) 2007-01-07 2014-04-01 Apple Inc. Portable electronic device, method, and graphical user interface for displaying electronic documents and lists
CN101286094A (zh) * 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
US8266514B2 (en) * 2008-06-26 2012-09-11 Microsoft Corporation Map service
US9824071B2 (en) * 2008-12-03 2017-11-21 Microsoft Technology Licensing, Llc Viewing messages and message attachments in different languages
US20120010870A1 (en) * 2010-07-09 2012-01-12 Vladimir Selegey Electronic dictionary and dictionary writing system
US20120038652A1 (en) * 2010-08-12 2012-02-16 Palm, Inc. Accepting motion-based character input on mobile computing devices
JP2012079252A (ja) * 2010-10-06 2012-04-19 Fujitsu Ltd 情報端末装置、文字入力方法および文字入力プログラム
US8914743B2 (en) * 2010-11-12 2014-12-16 Apple Inc. Device, method, and graphical user interface for navigating a list of identifiers
US20120156658A1 (en) * 2010-12-16 2012-06-21 Nicholas Fuzzell Methods for teaching and/or learning chinese, and related systems
WO2012174703A1 (en) * 2011-06-20 2012-12-27 Microsoft Corporation Hover translation of search result captions
JP2013041350A (ja) * 2011-08-12 2013-02-28 Panasonic Corp タッチテーブルシステム
KR101870729B1 (ko) * 2011-09-01 2018-07-20 삼성전자주식회사 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
US9229928B2 (en) * 2012-03-13 2016-01-05 Nulu, Inc. Language learning platform using relevant and contextual content
TWI449000B (zh) * 2012-03-23 2014-08-11 Chinese Foundation For Digitization Technology Multimedia Chinese Character Learning Method
US9274609B2 (en) 2012-07-23 2016-03-01 Mingyan Xie Inputting radical on touch screen device
US20140344670A1 (en) * 2013-05-14 2014-11-20 Pandaworks Inc. Dba Contentpanda Method and system for on-demand delivery of predefined in-context web content
KR20150028627A (ko) * 2013-09-06 2015-03-16 삼성전자주식회사 사용자 필기를 텍스트 정보로 변환하는 방법 및 이를 수행하기 위한 전자 기기
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
WO2015112250A1 (en) * 2014-01-22 2015-07-30 Speak Agent, Inc. Visual-kinesthetic language construction
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
TW201530357A (zh) * 2014-01-29 2015-08-01 Chiu-Huei Teng 用於電子裝置之中文輸入法
RU2640322C2 (ru) * 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов
WO2015167556A1 (en) * 2014-04-30 2015-11-05 Hewlett-Packard Development Company, L.P. Generating color similarity measures
CA2958684A1 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
US20160147741A1 (en) * 2014-11-26 2016-05-26 Adobe Systems Incorporated Techniques for providing a user interface incorporating sign language
US9740684B2 (en) * 2015-02-18 2017-08-22 Lenovo (Singapore) Pte. Ltd. Determining homonyms of logogram input
CN106997245A (zh) * 2016-01-24 2017-08-01 杨文韬 一种根据中文语言模型构建输入法词库的方法
US10031949B2 (en) * 2016-03-03 2018-07-24 Tic Talking Holdings Inc. Interest based content distribution
US10176623B2 (en) 2016-05-02 2019-01-08 Tic Talking Holdings Inc. Facilitation of depiction of geographic relationships via a user interface
CN108346426B (zh) * 2018-02-01 2020-12-08 威盛电子(深圳)有限公司 语音识别装置以及语音识别方法
TWI659411B (zh) * 2018-03-01 2019-05-11 大陸商芋頭科技(杭州)有限公司 一種多語言混合語音識別方法
CN109147784B (zh) 2018-09-10 2021-06-08 百度在线网络技术(北京)有限公司 语音交互方法、设备以及存储介质
US11017771B2 (en) * 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
US10964322B2 (en) 2019-01-23 2021-03-30 Adobe Inc. Voice interaction tool for voice-assisted application prototypes
TWI725608B (zh) * 2019-11-11 2021-04-21 財團法人資訊工業策進會 語音合成系統、方法及非暫態電腦可讀取媒體
CN111753556B (zh) * 2020-06-24 2022-01-04 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
CN113536005B (zh) * 2021-09-17 2021-12-24 网娱互动科技(北京)股份有限公司 一种相似图片或字体查找方法和系统
WO2023146416A1 (en) * 2022-01-28 2023-08-03 John Chu Character retrieval method and apparatus, electronic device and medium
CN116738966A (zh) * 2022-03-01 2023-09-12 衍利行资产有限公司 一种分析包括中文字文本的方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1144354A (zh) * 1995-04-25 1997-03-05 齐兰发展股份有限公司 增强的字符录入系统
CN1464430A (zh) * 2002-06-11 2003-12-31 富士施乐株式会社 区分亚洲语言写入系统中组织名称的系统
CN1581075A (zh) * 2003-07-31 2005-02-16 国际商业机器公司 中文/英文词汇学习工具

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01114976A (ja) * 1987-10-28 1989-05-08 Sharp Corp 文書処理装置の辞書構造
JPH0540747A (ja) * 1991-08-07 1993-02-19 Matsushita Electric Ind Co Ltd ワードプロセツサー
JPH05151197A (ja) * 1991-11-14 1993-06-18 Chinka Oka コンピユータに漢字を入力する方法
US5257938A (en) * 1992-01-30 1993-11-02 Tien Hsin C Game for encoding of ideographic characters simulating english alphabetic letters
US5923778A (en) * 1996-06-12 1999-07-13 Industrial Technology Research Institute Hierarchical representation of reference database for an on-line Chinese character recognition system
JP2000163418A (ja) * 1997-12-26 2000-06-16 Canon Inc 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体
US7257528B1 (en) * 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
CN1145872C (zh) * 1999-01-13 2004-04-14 国际商业机器公司 手写汉字自动分割和识别方法以及使用该方法的系统
US6625335B1 (en) * 2000-05-11 2003-09-23 Matsushita Electric Industrial Co., Ltd. Method and apparatus for assigning keywords to documents
JP3838857B2 (ja) * 2000-09-19 2006-10-25 沖電気工業株式会社 辞書装置
US20060139315A1 (en) * 2001-01-17 2006-06-29 Kim Min-Kyum Apparatus and method for inputting alphabet characters on keypad
CN1403960A (zh) * 2001-08-27 2003-03-19 无敌科技股份有限公司 通过电脑拼字的方法
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
JP2005157472A (ja) * 2003-11-20 2005-06-16 Sharp Corp 文字入力装置および文字入力方法
TW200527226A (en) * 2004-02-11 2005-08-16 Cheng-Fu Lee Chinese system for sorting and searching
KR20050092999A (ko) * 2004-03-17 2005-09-23 샤프전자(주) 전자사전에서의 한자검색방법
US7523102B2 (en) * 2004-06-12 2009-04-21 Getty Images, Inc. Content search in complex language, such as Japanese
US20070052868A1 (en) * 2005-09-02 2007-03-08 Charisma Communications, Inc. Multimedia accessible universal input device
JP2007087216A (ja) * 2005-09-22 2007-04-05 Toshiba Corp 階層型辞書作成装置、プログラムおよび階層型辞書作成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1144354A (zh) * 1995-04-25 1997-03-05 齐兰发展股份有限公司 增强的字符录入系统
CN1464430A (zh) * 2002-06-11 2003-12-31 富士施乐株式会社 区分亚洲语言写入系统中组织名称的系统
CN1581075A (zh) * 2003-07-31 2005-02-16 国际商业机器公司 中文/英文词汇学习工具

Also Published As

Publication number Publication date
US20100257173A1 (en) 2010-10-07
US20110320468A1 (en) 2011-12-29
WO2009070615A1 (en) 2009-06-04
TW200945066A (en) 2009-11-01
HK1156710A1 (zh) 2012-06-15
JP5666307B2 (ja) 2015-02-12
US8433709B2 (en) 2013-04-30
TWI496012B (zh) 2015-08-11
CN102016837A (zh) 2011-04-13
WO2009070619A1 (en) 2009-06-04
JP2014142951A (ja) 2014-08-07
US8521738B2 (en) 2013-08-27
TW200945065A (en) 2009-11-01
JP2011505040A (ja) 2011-02-17
JP2016186805A (ja) 2016-10-27
TWI468954B (zh) 2015-01-11
JP2011509442A (ja) 2011-03-24
CN102016836A (zh) 2011-04-13
HK1156418A1 (en) 2012-06-08
CN102016836B (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
CN102016837B (zh) 中文型文字及文字偏旁的分类及检索的系统与方法
US5586198A (en) Method and apparatus for identifying characters in ideographic alphabet
US6721451B1 (en) Apparatus and method for reading a document image
USRE45085E1 (en) System and method for linking streams of multimedia data to reference material for display
US8261200B2 (en) Increasing retrieval performance of images by providing relevance feedback on word images contained in the images
US8015203B2 (en) Document recognizing apparatus and method
CA2775879C (en) Systems and methods for processing data
JP2016186805A5 (zh)
US20110252062A1 (en) Electronic device for searching for entry word in dictionary data, control method thereof and program product
US10963717B1 (en) Auto-correction of pattern defined strings
CN101639734A (zh) 中文输入方法和装置
US20120109994A1 (en) Robust auto-correction for data retrieval
CN114780582A (zh) 基于表格问答的自然答案生成系统及其方法
JP2010055373A (ja) ノート評価装置またはノート評価プログラム
Gaubatz A Survivor's Guide to R: An Introduction for the Uninitiated and the Unnerved
CN112989011A (zh) 数据查询方法、数据查询装置和电子设备
JP2003029612A (ja) 学習システム
JP4004060B1 (ja) 文字検索方法
JP5233424B2 (ja) 検索装置およびプログラム
Tanaka-Ishii et al. Kansuke: A logograph look-up interface based on a few modified stroke prototypes
JP5741298B2 (ja) 辞書作成装置、辞書作成方法、およびプログラム
CN117917621A (zh) 汉字输入方法和系统以及键盘
Balasubramanian Document Annotation and Retrieval Systems
JP2008234099A (ja) 文字列検索装置及び文字列検索方法
JP2000348024A (ja) 文字入力装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1156710

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1156710

Country of ref document: HK