CN1464430A - 区分亚洲语言写入系统中组织名称的系统 - Google Patents

区分亚洲语言写入系统中组织名称的系统 Download PDF

Info

Publication number
CN1464430A
CN1464430A CN02122357A CN02122357A CN1464430A CN 1464430 A CN1464430 A CN 1464430A CN 02122357 A CN02122357 A CN 02122357A CN 02122357 A CN02122357 A CN 02122357A CN 1464430 A CN1464430 A CN 1464430A
Authority
CN
China
Prior art keywords
speech
identification
text
group
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN02122357A
Other languages
English (en)
Other versions
CN100485663C (zh
Inventor
王新凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US10/166,377 priority Critical patent/US7136805B2/en
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to CNB021223572A priority patent/CN100485663C/zh
Publication of CN1464430A publication Critical patent/CN1464430A/zh
Application granted granted Critical
Publication of CN100485663C publication Critical patent/CN100485663C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种用于区分汉语组织名称的系统,系统包括一个计算机。计算机至少具有一个输入端,一个输出端,一个处理器,和一个存储和寄存装置。数据可以由处理器存取,数据包括至少两个经常分别形成汉语组织名称的第一和最后词的词的组。系统包括软件,当计算机运行软件时,致使计算机执行处理,处理包括识别已经输入到计算机中的汉语文本中的对应于数据中的两个组中的那些词的词;比较来自两个组中的一个组的每个识别的词与来自另一个组的识别的词的汉语文本中的位置,如果满足了预定条件,那么确定来自一个组的识别的词与来自另一个组的识别的词一同形成了一个组织的名称。

Description

区分亚洲语言写入系统中组织名称的系统
技术领域
本发明涉及用于从其它字中区分文本中的名字的系统,特别是涉及在亚洲语言写入系统中从其它字中区分文本中组织名称的系统。
背景技术
亚洲语言写入系统,例如中国使用的写入系统,实际上与世界其它部分开发的写入系统不同。在大多数西方语言的写入系统中,使用字符代表口语字的发音。利用相对较少的字符,可以通过许多不同的组合排列字符,代表说话中使用的数千种发音组合。
相反,在汉语写入系统中,字符一般不代表口语字中的单个发音。而是用字符代表一种思想或概念。结果,在汉语写入系统中,对应于数千种不同的概念开发出数千不同的字符。由于大得多的数量的字符形成了汉语写入系统,所以汉语写入系统一般似乎要比大多数西方国家中使用的写入系统复杂得多。
进一步使汉语写入系统复杂化的问题在于,是以基本上不变的字符间的间隔将字符组合成句子的。尽管一个单一的汉语字符可以对应于一个完整的词,但是经常是两个或更多的字符对应于一个词。因此,在汉字写成的句子中单个词的相互区分可能是困难的,因为几乎不能识别一个词在哪里结束而另一个词从哪里开始,也就是说,词语之间没有间隔。可以把标点符号作为词语之间的定界符,例如,句号或逗号,以及通常用英文书写的并且出现在由汉字形成的句子中的词。尽管如此,汉语书写的句子中一个词与下一个词之间通常是没有定界符的。
在这方面,汉语可能比日语存在更多的问题。初看起来,日语似乎比汉语更复杂,因为日语写入系统使用三个字符集:(1)日本汉字;(2)平假名;和(3)片假名。此外,日语中一些字通常是用英语写出的。
在日语中,日本汉字字符相当大的部分是基于汉语写入系统。特别是,日语写入系统中使用的许多日本汉字字符实质上与代表对应概念的汉语字符相同,尽管发音通常是完全不同的。因此,在日语中,如同汉语一样,这种字符一般并不代表口语字中的单个的发音。因此,日语书写系统的复杂性在于它是由数千个不同字符形成的。
在书写出的日语中,如同汉语一样,句子在构成句子的字符之间的间隔上基本上没有变化,即,词之间没有间隔。尽管如此,在写出的日语句子中通常是很容易从其它词语中区分出一个词的,因为存在着另外两种日语字符集,平假名和片假名。
平假名和片假名都是语音字母。具体地讲,二者都使用了代表口语字中发音的一组字符。片假名一般在日语书写系统中用于拼写日语中使用的外来语词。除了其它用途之外,平假名一般用作没有日本汉字的起源于日语的词,作为主语或宾语的标记,显示“在...”,“在...中”,“在...旁”之类的位置,用于表示所有状态,和指示时态。在写出的日语句子中,平假名和/或片假名字符通常将日本汉字字符的字彼此分离,从而使比在类似的汉语句子中更容易从其它词语中区分出一个词。
例如,为了用日语写出“孩子的狗”,一个指示所有的平假名将出现在“孩子”和“狗”的日本汉字字符之间。因此,由于在日语书写系统中来自日语语音字符集的字符出现在句子中,所以相对于汉语,日语更容易使词相互区分。
在开发能够准确地处理诸如汉语、日语、韩国语之类的亚洲语书写系统的文章或文本的信息系统中,遇到了困难。尽管对于像日语这样的某些亚洲语言写入系统,这些困难可能不成问题,但是,对于这些亚洲语言写入系统一般都存在着困难。
特别是开发能够准确地从周围文字材料中区分出中文人名或组织名称的信息处理系统一直是一个难题。这种处理在诸如搜索文章中的关键字或相关短语以定位有关一个特定主题的文章和/或标引文章以便于将来文献检索的情形中是十分有用的。例如,有人可能希望定位和/或索引有关一个特定中国组织的文章。此外,对于将亚洲语言文本更准确地计算机翻译成英语之类的另一种语言,这种处理也是十分有用的。
发明内容
本发明提供了一种用于区分汉语文本中组织名称的系统。系统包括一个用于接收电子格式的汉语文本的计算机。计算机至少包括一个输入端,一个用于输出结果的输出端,一个用于处理指令和数据的处理器,和一个用于存储指令和数据的存储和寄存装置。
系统包括可以被处理器存取的数据。数据至少包括一个包括经常形成组织名称的第一个词的词的组,和包括经常用于形成汉语组织名称的最后词的词的另一个组。
系统进一步包括安装在计算机上的软件。当计算机执行软件时,致使处理器执行处理,处理包括识别已经输入到计算机中的汉语文本中的对应于数据中的组中的那些词的词。处理进一步包括比较来自另一个组的识别的每个词与来自一个组的识别的词的汉语文本中的位置,并且,如果满足预定的条件,那么确定来自另一个组的识别的词与来自一个组的识别的词形成了一个组织的名称。此外,处理包括输出结果。
在又一个方面,在上述比较中,一个预定的条件是,对应于另一个组的识别的词必须出现在文本中的对应于一个组的识别的词的后面。在再一个方面中,在这种比较中,只有当两个识别的词都出现在同一短语中时,才将每个识别词与一个不同识别词的位置比较。在再一个方面中,在比较中,预定条件包括对应于另一个组的两个词不能一同形成一个组织的名称。在再一个方面,预定的条件包括按顺序使用的多个规则。
在另一方面,包括在一个组中的词是专有名词。此外,处理包括识别出现在汉语文本中的任何英语文本。在这方面,处理比较对应于另一个组的每个识别词与识别的英语文本的位置,如果满足了预定条件,那么确定对应于另一个组的识别词形成了一个包括英语文本的组织名称。
在一个附加方面,处理包括根据数据识别文本中的指示符。指示符用于指出紧跟在文本中一个识别出的指示符之后的词是一个组织名称的开始的第一词,并且以对应于另一个组的识别词结束。
在有关方法或处理过程的方面,本发明提供了一种用于区分出现在汉语短语或句子中的组织名称的处理过程。处理过程包括建立数据,数据至少包括一个包括用于指示紧接着一个指示符之后的一个词是组织名称的第一个词的指示符的词的组,和包括经常用于形成汉语组织名称的最后词的词的另一个组。处理过程附加地包括识别汉字短语或句子中的对应于数据的词。此外,处理包括比较来自另一个组的每个识别的词与来自一个组的识别的词在汉语文本中的位置,并且,如果满足预定的条件,那么确定来自另一个组的识别的词与紧接着识别的词之前的并且直到,但不包括,来自一个组的识别的词的文本一同形成了一个组织的名称。在另一方面,指示符包括逗号,或汉语的所有或时态指示符。
在有关方法或处理过程的另一方面,处理过程进一步包括识别出现在汉语短语或句子中的任何英语文本,和比较对应于另一个组的每个识别的词与识别的英语文本的位置。如果比较中满足预定的条件,那么处理过程确定对应于另一个组的识别的词形成一个包括英语文本的组织名称。
在有关处理过程的又一个方面,一个预定的条件是对应于另一个组的识别的词必须出现在文本中的对应于一个组的一个识别的词的后面。在再一个方面中,预定条件包括对应于另一个组的两个词不能一同形成一个组织的名称。
在其它方面,处理过程进一步包括识别文本中专有名词,并且比较来自另一个组的每个识别的词与识别的专有名词在文本中的位置。如果在这种比较中满足预定的条件,那么处理过程确定来自另一个组的识别的词与一个识别的专有名词形成一个组织的名称。在再一个方面,专有名词的识别和比较来自另一个组的每个识别的词与识别的专有名词在文本中的位置是先于比较来自另一个组的每个识别的词与来自一个组的识别的词在汉语文本中的位置之前进行的。
在有关一种产品方面,本发明提供了一种用于区分输入到计算机中的汉语短语或句子中的组织名称的产品。产品包括一个具有计算机可读数据和记录在其上的程序逻辑的记录介质。计算机数据至少包括一包括专有名词的词的组,和包括经常用于形成汉语组织名称的最后的词的词的另一组。当计算机执行程序逻辑时,致使计算机执行处理。
上述处理包括识别已经输入到计算机中的汉语短语或句子中的对应于数据中的组中的那些词的词。处理进一步包括比较来自另一个组的每个识别的词与来自一个组的识别的词的在汉语短语或句子中的位置,如果满足预定的条件,那么确定来自另一个组的识别的词与来自一个组的识别的词一同形成了一个组织的名称。处理也包括输出结果。
附图说明
通过以下结合附图的详细说明,可以对本发明以及本发明的上述各个方面和许多附带优点有更清楚的理解,在附图中:
图1示意地示出了根据本发明的一个优选实施例的系统;
图2A至2G示出了一个显示汉语组织名称的后缀的例子的表;
图3示出了一个显示汉语专有名词的例子的表;
图4A和4B示出了一个显示不是通常形成汉语组织名称的文本的例子的表;
图5示出了一个显示不是通常形成汉语组织名称的词的特定情况的表;
图6和7示出了汉语句子的例子的表;
图8A和8B示出了一个显示汉语名词和名词短语的例子的表;和
图9示出了一个显示一个汉语短语的例子的表。
具体实施方式
图1示意地示出了根据本发明的一个系统10的优选实施例。系统10优选是在一个具有一种商业可用操作系统的计算机10上实现。在开发过程中,系统的一个优选实施例是在具有LINUX和WINDOWS操作系统的计算机上实现的,但是也可以使用其它操作系统,例如,UNIX,或可以从苹果机得到的操作系统。计算机12包括一个用于输入信息的输入端14,一个用于处理指令和数据的处理器16,和用于存储指令和数据的存储和寄存装置18,以及一个输出端20。
处理器16可以是一个中央处理单元(CPU),或可以是一个具有多个处理器装置的计算机中的多个处理器。存储和寄存装置18包括以下各种器件:例如,RAM,ROM,诸如硬盘和/或软盘之类的盘驱动器,诸如CD和/或DVD驱动器之类的光电驱动器,和闪存卡之类的用于数据寄存的其它介质,例如,COMPACT FLASH、SD(SECURE DIGITAL),MMC(MULTIMEDIA CARD),SMART MEDIA,等等。计算机程序逻辑,即,软件,安装在计算机12上,并且存储在存储和寄存装置18中,以便通过处理器16执行。
将信息输入到计算机12中包括输入通过存储和寄存装置18输入到系统10中的电子格式的文本。例如,以计算机可读格式寄存在软盘或其它介质上,并且经过一个盘驱动器读入到系统10中的文本。作为选择,文本可以通过一个经过调制解调器的因特网连接或网络连接下载到系统10中。此外,如果计算机操作系统适用于汉语文本的键盘输入,那么可以利用键盘经过计算机的输入端14或其它手工输入装置将文本键入系统。此外,文本也可以是印刷形式,并且扫描成输入计算机12的电子格式。也可以使用语音识别软件将口语或声频汉语转换成文本格式。通过任何一种上述技术和/或其它当前可用的技术,将电子格式的汉语文本输入到计算机12中,以便根据系统10处理。
系统10最好是使用当前可用的分词和词性标注软件工作。特别是,在处理汉语文本之前,通过分词软件将文本分割成分离的词。此外,分词软件最好也根据一个有关词语所对应的语言成分的词典标注或标记词语,例如,标记出名词、动词、形容词、副词、介词、连词等。在分割了文本之后,利用系统10识别文本中的组织名称。
在处理文本中,系统10依赖于大多数汉语组织名称所遵照的一些特有特征。这些特有特征之一是,形成大多数组织名称的最后的词是仅从几百个不同词中选择的。图2A至2G示出了一个显示来自这几百个词的例子的表。例如,许多组织的名称是以词“研究所(institute)”或“公司(company)”结尾的。
在系统10的开发中,进行了研究,以建立用于区分出现在汉语文本中的组织名称的数据22。为了容易和快速的搜索和检索,最好将数据安排在一个数据库22中。最好是将数据或数据库22存储在存储和寄存装置18中的硬盘上。但是,数据库22也可以存储在CD和其它介质上,或可以通过网络连接在另外的计算机上存取。
数据库22包括经常形成大多数汉语组织名称最后的词的词语。在这里为了便于讨论,将组织名称的最后词称为后缀。在区分组织名称中,系统10识别出现在文本中的对应于数据库22中的一个组织后缀的词。然后,系统10试图从一个识别的组织后缀找出形成可能出现在文本中的一个组织名称的第一个词或词组。
可能使用该词是因为当把一个组织的后缀识别为出现在一个句子中时,并不一定意味着存在一个组织的名称。更具体地讲,当没有将组织后缀用作一个特定组织的名称时,它一般具有一定的含义。因此,识别的组织后缀可能在句子中作为一个普通词使用。例如,词“公司”可以用于一般地表示一个公司,而不是在一个特定商业组织的名称中使用。
在试图确定对应于一个组织后缀的形成一个组织名称的第一个词的位置时,系统10应用一系列的尝试或规则。如果对于一个识别的组织后缀满足了一个规则的所有条件或要求,那么系统10确定已经识别出有关该识别组织后缀的一个组织名称。如果不存在一个满足了其所有要求的规则,那么系统确定这个识别的组织后缀在这种场合下不是作为一个名称使用的,也就是说,该后缀是作为一个普通词使用的。
在一个优选实施例中,使用了以后将说明的七个规则。在替代实施例中,可以使用更多或更少的规则。为了便于说明,在这里将这些规则称为规则1-7。最好是按照这里说明的顺序使用规则,根据这种顺序将能更准确地区分组织名称。但是,在替代实施例中,可以使用其它顺序。
在这方面,系统10首先使用规则1。规则1要求文本中识别的组织后缀之前有一个经常形成组织名称的第一个词的词。这些词的一个组是专有名词,也经常将它们称为专有名称。作为一个专有名词的替代,如果在识别的组织后缀之前有英语文本,也将满足规则1的条件。这里的目的是要确定可能形成一个组织名称的开始的一个字或词的位置。数据库22进一步包括形成许多组织名称的开始部分的字或词,即,专有名词。图3示出了一个显示系统10根据数据库22识别的作为专有名词的一些字的例子的表。
在识别专有名词时,系统10最好是使用一个电子格式的字典或词典,字典中的字或词是以诸如专有名词、动词、形容词之类的类型标注或标记的。因此,系统10可以搜索汉语文本中对应于词典中标记的特种特定类型的字或词的专有名词。词典最好包括在数据库22中。在替代实施例中,可以为专有名词建立一个独立数据库,而不是使用一个其中用类型标记字或词的字典。
对于英语文本,汉语文本中的西方组织的名称的一部分经常是用英文写出的,特别是在组织名称的开始部分。因此,系统10也寻找一个识别的组织后缀前面的英语文本。例如,“IBM公司”在汉语文本中经常是用英语和汉语写出的。如果汉语文本中一个识别的组织后缀前面存在任何英语文本,那么满足了规则1的上述条件。
如果在可能的第一词和组织后缀之间出现文本,并且其中可能的第一词是一个专有名词或英语文本时,规则1对这部分文本有额外的要求。具体地讲,插在后缀与可能的第一词之间的文本不可以是不符合组织名称的类型的。具体地讲,一个组织具有一个以上的后缀是不适当的。因此,规则1要求在可能的词和另一个组织后缀前面不出现其它组织后缀。
此外,在汉语组织名称中一般不出现名词和动词的所有指示符。图4A示出了列出规则1要求不出现在后缀与可能的第一词之间的所有指示符的例子的表的一部分。
此外,有关时间的词一般不出现在组织名称中。图4A所示的表的一部分也示出了这种时间词的例子。因此,规则1要求时间词不出现在后缀和可能的第一词之间。
另外,一般在组织名称中不会出现量词。英语中量词的例子是诸如“块”或“张”之类的词,例如,一块蛋糕或一张纸。“块”和“张”是量词,在汉语和日语中有大量的各种量词。图4A也示出了汉语中使用的量词的例子。因此,规则1要求量词不出现在插在可能的第一词与后缀之间的文本中。
此外,大多数组织名称中不出现代词。代词的例子对应于英语中的I(我)、they(他们)、this(这)、where(哪)、what(什么)和this(该)之类的词。图4A中所示的表的一部分也列出了对应于代词的汉字的例子。
同样,在大多数组织名称中不存在助动词。英语中助动词相当于诸如should(应该)、can(能)和may(可以)之类的词。图4A中所示的表的一部分也列出了汉语中对应于助动词的词的例子。
此外,汉语文本中的组织名称中一般不会出现像逗号、顿号、和引号之类的标点符号。因此,规则1要求可能的第一词与后缀之间不出现这种类型的标点符号。
另外,还有一些其它的不属于上述范畴的可能被识别为不适于形成汉语组织名称部分的词。图5中列出了在系统10的开发过程中发现的这类词的例子。规则1也要求一个组织名称的可能的第一词与后缀之间不插入这类词或词组。
如上所述,系统10最好利用一个包括一个电子格式的字典或词典的数据库22来实现,字典或词典规定了其中列出的每个词的类型,例如,助动词、专有名词、代词、量词、时间短语、等等。因此,系统10的软件可以指令计算机12搜索出现在汉语文本中的对应于词典或数据库22中的特定类型的词的词。词典可以不必列出一些作为专有名词或在某些情况下用作专有名称的类型的词。因此,规则1也对这类情况作出了规定,数据库也包括不应当插在一个组织的可能的第一词与后缀之间的词的词。
图6示出了一个具有一个作为规则1的应用示例的句子的表。示例显示了汉语句子,以及汉语句子下面一行中的英语翻译。此外,英语翻译下面的各列显示了从汉语到英语的逐字翻译。翻译成英语的示例句子是:“OnOctober 9th,Hua Run Chuang Ye announced that they had set up a joint-venturecompany with Sichuan Blue Sword Beer Group”。
对于这个句子,系统10使用规则1,并且注意到出现了用作组织名称的两个后缀,“公司”和“集团”。规则1的条件之一是,专有名词或英语文本必须出现在句子中的后缀前面。句子中没有出现英语文本,但是存在两个专有名词,“华”和“四川”。
规则1的一个附加要求是,一个组织名称的可能的第一词与后缀之间不能插入用作时间的词。在这个示例中,存在两个时间词,October和ninth。这两个词的汉字字面翻译分别是“10月”和“9日”。根据数据库22,系统10注意到“月”和“日”是时间词。此外,这两个词都插入在专有名词“华”与两个提到的后缀之间。因此,根据规则1,系统10将取消“华”作为两个识别出的后缀中的任何一个的可能的第一词的可能性。
尽管另一个专有名词“四川”出现在两个时间词之后,和两个提到的后缀之前。但是,规则1进一步的要求是,在一个组织名称的可能的第一词与后缀之间不能出现另一个后缀。因此,系统10不会将专有名词“四川”作为对应于后缀“公司”的可能的第一词。
根据规则1,专有名词“四川”在句子中只可能是与组织名称的后缀“集团,,有关的一个组织的名称的第一词。此外,在这个专有名词与后缀之间没有插入的不满足规则1的要求的其它词。因此,使用规则1,系统10能够区分出“四川蓝剑啤酒集团”是句子中的一个组织的名称。
除了一些差别之外,规则2与规则1相同。规则2用于通过确定文本中紧挨着组织名称的第一词之前的一个字或短语的位置,确定一个组织名称的第一词的位置。由于这个原因,规则2不需要后缀之前的专有名词或英语文本。规则2替代地需要一种在后缀之前的不是通常形成汉语组织名称的类型的文本。
具体地讲,规则2需要在一个后缀或组织名称之前,有一个逗号,或一个所有或时态指示符。时态指示符是指示过去时态的汉语字符。图4B的表的一部分示出了时态指示符的一些例子。
上述任何一种都不可能形成汉语组织名称。因此,如果它们出现在一个识别的后缀前面,那么它们的出现被用作指示紧接其后的词是一个组织名称的开始的指示符。规则2的其余条件与规则1相同,并且在此后应用到后缀前面的任何文本。
图7示出了一个具有一个作为规则2的使用示例的句子的表。示例显示了汉语的句子,以及紧靠汉语句子下方的一个英语翻译。此外,英语翻译下面的各列示出了从汉语到英语的逐字翻译,即,字面翻译。英语的示例句子是“Weng Fuliang is a research engineer at the Speech Technology and ResearchLaboratory of Stanford International Institute”。
对于这个示例句子,系统10会识别出两个对应于数据库22的后缀,“研究所”和“实验室”。系统将首先使用规则1,注意到句子中两个后缀前面的专有名词“斯坦福”。但是,规则1要求在作为一个组织的名称的可能的第一词的专有名词与后缀之间不插入其它后缀。因此,根据规则1,“斯坦福”可能能够形成一个具有后缀“研究所”的组织的名称的第一词。此外,词“国际”满足规则1的其余条件。因此,根据规则1,系统10将区分出“斯坦福国际研究所”是一个组织的名称。(作为替代,可以把“斯坦福国际研究所”列在数据库22中,作为系统10无需使用规则1就能区分出的一个组织名称)。
对于剩下的一个后缀“实验室”,根据规则1,句子中没有能够形成以后缀“试验室”结束的一个组织名称的第一词的专有名词或英语文本。因此,系统10接下来使用规则2。
规则2是要确定文本中一个紧挨着组织名称的第一词的前面,但不是形成组织名称的字或字符的位置。在目前场合下,一个满足规则2要求的类型的字是提到的后缀前面的一个后缀。在图7的示例中,在句子中后缀“研究所”在后缀“实验室”前面。根据规则2,紧跟在“研究所”之后的字可能是以后缀“实验室”结束的一个组织名称的第一个词。此外,插在“语音”和“实验室”之间的字满足规则2的所有其它要求。因此,系统将利用规则2区分出“语音技术和研究实验室”是一个组织的名称。
与规则2相同,使用规则3通过确定文本中紧挨着名称的第一个词的前面的一个字或短语的位置,确定一个组织名称的第一个词的位置。因此,规则3要求在一个提到的后缀前面的文本是一种不是通常形成一个汉语组织名称的类型的。
具体地讲,规则3要求在一个后缀或组织名称之前,有另一个后缀、一个组织名称、或一个使用在名词之间的连词。不可能从两个后缀形成一个组织的名称。因此,提到的后缀前面的另一个后缀是一个用于指示文本中紧随其后的词是提到的后缀的组织名称的开始的指示符。
同样地,一个提到的后缀前面的组织名称也可以指示提到的后缀的组织名称的开始位置。在这点,可能已经通过使用前面的规定识别出了一个或更多的组织名称。此外,数据库22包括少量的系统不用使用任何规则就能够识别的组织名称。
用于汉语名词的连词相当于英语的“and”或“with”之类的词。图4B中的表的一部分示出了一些汉语名词的连词的例子。这种类型的在名词之间使用的连词,可以指示提到的后缀的组织名称的开始位置。
对于紧跟在另一个后缀、组织名称、或一个名词的连词之后的文本,规则3除了规定了与规则1中对一个专有名词或英语之后的文本规定的的相同条件之外,还附加了五个额外条件。具体地讲,这额外的条件是:文本不能是(1)一个名词的连词,(2)一个时态指示符,(3)一个介词,(4)一个与数字或名词组合的量词,或(5)一个组织名称。这些条件是要取消不符合形成带有提到的后缀的组织名称的第一部分的文本。
汉语中的介词相当于英语中的in,of,by,near,with,at,from之类的词。图4B中的表的一部分进一步示出了对应于介词的汉字。量词在前面已经说明过。规则3进一步要求不出现与名词或数字组合的量词,例如,一个商店,两个报告,数十个报告,第一届,等等。图4B中所示的表的一部分示出了与名词和/或数字组合的量词的一些例子。
此后,规则3允许在提到的后缀前面有深一层的文本,或没有深一层的文本。但是,深一层的文本除了必须满足与前面文本相同的要求之外,还必须满足一个额外的条件。具体地讲,深一层的文本必须不是对应于通常用于人的头衔的文本,因为人的头衔通常并不形成组织名称的一部分。人的头衔相当于英语中的Mr.,Ms.,vice-principal,manager,director之类的词。图4B中所示的表的一部分示出了对应于人头衔的汉语词的例子。
规则4与规则2和3同样用于通过确定文本中紧挨着名称的第一词前面的一个字或短语的位置,而确定一个组织名称的的第一词的位置。在这方面,规则4需要在一个后缀或组织名称之前有一个介词或动词。通常既不用介词也不用动词形成组织名称。因此,一个介词或一个动词可以指示下一个字或字符是一个组织名称的开始。
除了四个例外,规则4对于在一个动词或介词后面的文本具有与规则2相同的要求。除了与规则2相同的要求之外,规则4额外地要求这个文本不是一个名词的连词,另一个组织的名称,一个介词,或一个人的头衔。
规则5需要文本中一个后缀或组织名称前面的一个专有名词。利用规则5,系统10试图识别一个可以形成一个组织的名称的第一个词的专有名词。除了两个额外要求之外,对于专有名词之后和后缀或组织名称之前的任何一个字或多个字,规则5具有与规则4对动词或介词之后的文本规定的相同的要求。即,这个文本不能是一个时态指示符或一个括号。括号不能是以下中的任何一种,无论是敞开的,还是闭合的:[,(,{,],),或}。如果满足了这些条件,那么系统10得出该专有名词是一个以识别的后缀或组织名称结束的一个组织的名称的第一个词的结论。此外,如果有的话,名称包括插在专有名词和后缀或组织名称之间的一个词或多个词。
规则6用于通过确定文本中紧挨着名称的第一个词的前面的一个词或短语的位置,确定一个组织的名称的第一词的位置。具体地讲,规则6要求在一个后缀或组织名的前面,一个动词的后面紧跟着一个不是连词的文本,然后是另一个动词。对于其后的文本,除了了两个额外的条件之外,规则6具有与规则5相同的要求。具体地讲,这个文本不能包括与名词或数字组合的量词。图4B中所示的表的一部分显示了与名词和/或数字组合的量词的一些例子。此外,文本不能包括使用在汉语非名词之间的连词,图4B中所示的表中的一部分显示了汉语非名词连词的一些例子。
为了满足规则7的要求,必须有一个组织的名称或一个名词或名词的某种组合的短语。图8A和8B示出了一个显示名词或名词短语的一些例子的表。但是,规则7对名词短语规定了几个要求。具体地讲,形成名词短语的文本必须满足规则6对在第二动词之后的文本的要求的相同条件。在名词短语之后,规则7需要一个括号或无括号,然后是一个后缀或一个组织的名称。括号不能是以下中的任何一种,无论是敞开的还是闭合的:[,(,{,],),或}。
图9示出了一个用作使用包括规则7在内的上述规则的例子的,具有一个短语的表。例子示出了一个汉语短语,以及表的下一行中的英语翻译。英语翻译下面的各列示出了从汉语到英语的逐字翻译,即,字面翻译。译成英语的例句是:“At that time,Board Chairman and Administrational President ofNescafe(China)Co.Ltd.,Mu Li,said that...”。
利用这个短语,系统10将首先使用规则1。规则1要求在短语中的一个组织名称的后缀之前(或一个组织名称之前)有一个专有名词或英语文本。短语中有一个后缀,“有限公司”。短语中再没有任何系统最初会识别为一个后缀或一个组织名称的部分。
规则1额外地要求句子中的识别的后缀或名称前存在一个专有名词。根据数据库22,句子中仅有一个系统10会识别为一个专有名词的词,即,词“中国”。可以把“雀巢”考虑为是一个专有名词,但是,在数据库22将“雀巢”识别为一个名词短语。因此,系统10不会把“雀巢”识别为一个专有名词。
至于专有名词“中国”,它出现在短语中的后缀“有限公司”的前面。在汉语短语中,一个封闭的圆括号插在专有名词“中国”和后缀“有限公司”之间。但是,括号并不违反规则1对插在后缀与一个专有名词之间的文本规定的任何条件。因此,根据规则1,系统10确定“中国)有限公司”是示例短语中的一个组织的名称。
接下来,系统10使用规则2。规则2要求在一个后缀或组织名称之前有一个逗号或所有或时态指示符。在示例短语中,图9中的示例短语中不存在这些。因此,系统10不根据规则2进行进一步的确定。
规则3要求在一个后缀或组织名称之前有另一个后缀,一个组织的名称,或一个使用在名词之间的连词。短语中不存在满足这些要求的任何东西。因此,系统10不根据规则3进行任何进一步的确定。
规则4要求在一个后缀或组织名称之前有一个介词或动词。短语中有一对动词。但是,示例短语中没有任何一个动词出现在后缀或组织名称之前。因此,系统10不根据规则4进行任何进一步的确定。
规则5要求文本中一个后缀或组织名称之前有一个专有名词。在本例中,后缀前面有一个专有名词。具体地讲,专有名词“中国”出现在后缀“有限公司”之前。但是,根据规则1,系统10前面已经确定这个后缀应当与“中国”和插在中间的括号组合成名称“中国)有限公司”。因此,在使用规则5中,系统10不再认为“有限公司”是一个后缀。而是系统10现在仅认为组合“中国)有限公司”是一个组织的名称。因此,由于没有满足规则5的条件,系统10将将不根据规则5进行任何进一步的确定。
规则6要求在一个后缀或组织名称前面,有一个后面跟随着一个不是连词的文本的动词,然后是另一个动词。在示例短语中有一对动词,但是两个动词中没有一个出现在一个后缀或组织名称之前。结果,系统10没有根据规则6作出任何进一步的确定。
系统10最后使用规则7,规则7要求出现在一个后缀或组织名称之前的一个组织的名称,或一个是一个名词或名词的某种组合的短语。在图9的示例短语中,系统10根据数据库22将“雀巢”识别为一个名词或名词的组合。此外,“雀巢”出现在一个组织名称的前面。具体地讲,系统10根据规则1确定“中国)有限公司”是一个组织的名称。
规则7对名词短语规定了额外的条件,例如,名词短语不得包括括号。在示例中,名词短语“雀巢”不包括括号或圆括号,尽管它后面跟随着一个打开的圆括号。但是,规则7允许名词短语后面有括号或圆括号。因此,满足了规则7的要求。根据规则7,系统10确定“雀巢(中国)有限公司,,是一个名称,而不是“中国)有限公司”。
这里说明的数据库22被设计为包括一个带有语言成分标记软件的字典或词典。具体地讲,系统10最好尽可能地依靠根据当前可用的语言成分标记软件执行的标记。因此,系统10的软件可以依靠这些标记,识别通常的语言成分,例如,介词和连词,所有指示符,时态标志,代词,量词,等等。
对于像名词短语、经常构成汉语组织名称的最后词的后缀、某些汉语组织名称之类的语言成分标记软件没有识别出或没有准确识别出的其它语言成分,数据库22包括前面说明过的附加信息。可以通过在其中标记这类词将附加信息添加到用于语言成分标记软件的字典或词典中,或用字典形成和组合成另一个数据库,从而使数据库22包括多个子数据库,或集成形成一个大的数据库。
可以进行修改、替换或其它替代。例如,根据规则7,系统能够区分包括在括号或圆括号之间的一部分名称的名称。因此,规则1可以被修改为额外地要求在后缀和可能的第一词之间不出现括号或圆括号,并且系统10应当仍然提供相同的结果。此外,通过组合或分割规则,可以使用更多或更少的规则。例如,可以用两个规则替代规则1,即,一个搜索专有名称的规则,和另一个搜索英语文本的规则,而不是在规则1中进行二者。考虑到熟悉本领域的普通技术人员可以进行替代、替换和修改,将来授权专利的文件范围将仅受附属的权利要求的定义的限制。

Claims (20)

1、一种用于区分汉语文本中组织名称的系统,包括:
(a)一个用于接收电子格式的汉语文本的计算机,计算机至少包括一个输入端,一个输出结果的输出端,一个处理指令和数据的处理器,和一个存储指令和数据的存储和寄存装置;
(b)处理器可存取的数据,数据至少包括一个包括经常形成组织名称的第一词的词的组,和另一个包括经常用于形成汉语组织名称的最后词的词的组;和
(c)安装在计算机上的软件,当计算机执行软件时,致使处理器执行处理,执行的处理包括:
(i)识别已经输入到计算机中的汉语文本中的对应于数据中的组中的那些词的词;和
(ii)比较来自另一个组的每个识别的词与来自一个组中的识别词的在汉语文本中的位置,如果满足预定的条件,那么确定来自另一个组的识别的词与来自一个组的识别的词形成了一个组织的名称;和
(iii)输出结果。
2、根据权利要求1所述的系统,其中构成所述一个组的词是专有名词,并且处理包括识别出现在汉语文本中的任何英语文本,和比较对应于另一个组的每个识别的词与识别的英语文本的位置,如果满足预定的条件,那么确定对应于另一个组的识别的词形成了一个包括英语文本的组织名称。
3、根据权利要求1所述的系统,其中在所述比较中,预定的条件之一是识别的对应于另一个组的词在文本中必须出现在对应于一个组的识别的词的后面。
4、根据权利要求3所述的系统,其中在所述比较中,只有当两个识别的词出现在同一短语中时,才把每个识别的词与一个不同的识别的词的位置比较。
5、根据权利要求4所述的系统,其中在所述比较中,预定条件包括对应于另一个组的两个词不能一同形成一个组织的名称。
6、根据权利要求1所述的系统,其中预定条件包括按顺序使用的多个规则。
7、根据权利要求1所述的系统,其中处理进一步包括根据数据识别文本中的指示符,指示符用于指示紧跟在文本中一个识别的指示符之后的词是一个组织名称的开始的第一词并且以对应于另一个组的一个识别的词结束。
8、一种用于区分出现在一个汉语短语或句子中的组织名称的处理过程,包括:
(a)建立包括至少一个包括用于指示紧跟在一个指示符之后的一个词是一个组织的名称的第一词的指示符的词的组,和另一个包括经常用于形成汉语组织名称的最后词的词的组的数据;
(b)识别汉语短语或句子中对应于数据的词;和
(c)比较来自另一个组的每个识别的词与来自一个组的识别的词在汉语文本中的位置,如果满足预定的条件,那么确定来自另一个组的识别的词与紧挨着该识别的词的前面直到,但不包括,来自一个组的识别词的文本一同形成了一个组织的名称。
9、根据权利要求8所述的处理过程,进一步包括识别出现在汉语短语或句子中的任何英语文本,和包括比较对应于另一个组的每个识别的词与识别的英语文本的位置,如果满足了预定条件,那么确定对应于另一个组的识别的词形成了一个包括英语文本的组织名称。
10、根据权利要求8所述的处理过程,其中在所述比较中,预定条件之一是对应于另一个组的识别的词必须在文本中出现在对应于一个组的一个识别的词的后面。
11、根据权利要求8所述的处理过程,其中在所述比较中,预定的条件包括对应于另一个组的两个词不能一同形成一个组织的名称。
12、根据权利要求8所述的处理过程,进一步包括识别文本中的专有名词,和比较来自另一个组的每个识别的词与识别的专有名词在文本中的位置,如果满足了预定的条件,那么确定来自另一个组的识别的词与一个识别的专有名词一同形成了一个组织的名称。
13、根据权利要求12所述的处理过程,其中所述识别文本中专有名词和比较来自另一个组的每个识别的词与识别的专有名词在文本中的位置是在所述比较来自另一个组的每个识别的词与来自一个组的识别的词在汉语文本中的位置之前进行的。
14、根据权利要求8所述的处理过程,其中指示符包括一个逗号或一个汉语的所有或时态指示符。
15、一种用于区分输入到计算机的汉语短语或句子中的组织名称的产品,包括一个具有记录在其上的计算机可读数据和程序逻辑的记录介质,计算机数据至少包括一个包括专有名词的词的组,和另一个包括经常用于形成汉语组织名称的最后词的词的组,当计算机执行程序时导致计算机进行处理,处理包括:
(a)识别已经输入到计算机中的汉语短语或句子中的对应于数据中的组中那些词的词;和
(b)比较来自另一个组的每个识别词与来自一个组的识别的词在汉语短语或句子中的位置,如果满足了预定条件,那么确定来自另一个组的识别的词与来自一个组的识别的词一同形成了一个组织的名称;和
(c)输出结果。
16、根据权利要求15所述的产品,其中处理包括识别汉语短语或句子中的任何英语文本,和比较对应于另一个组的每个识别的词与识别的英语文本的位置,如果满足了预定条件,那么确定对应于另一个组的识别的词形成了一个包括英语文本的组织名称。
17、根据权利要求15所述的产品,其中在所述比较中,预定条件之一是对应于另一个组的识别的词必须出现在文本中的对应于一个组的一个识别的词的后面。
18、根据权利要求15所述的产品,其中在所述比较中,预定条件包括对应于另一个组的两个词不能一同形成一个组织的名称。
19、根据权利要求15所述的产品,其中数据进一步包括用于指示紧跟在汉语短语或句子中的一个识别的指示符之后的词是一个组织名称的开始的第一词的指示符,和所述处理过程进一步包括至少部分地根据数据识别短语或句子中的指示符。
20、根据权利要求15所述的产品,其中所述识别指示符是在所述比较之后进行的,并且所述指示符包括在所述比较中确定的并且出现在短语或句子中的一个对应于所述另一个组的、已经在所述比较中确定为不形成一个组织的名称的识别的词前面的任何一个组织名称。
CNB021223572A 2002-06-11 2002-06-14 用于区分汉语文本中组织名称的系统和方法 Expired - Fee Related CN100485663C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/166,377 US7136805B2 (en) 2002-06-11 2002-06-11 System for distinguishing names of organizations in Asian writing systems
CNB021223572A CN100485663C (zh) 2002-06-11 2002-06-14 用于区分汉语文本中组织名称的系统和方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/166,377 US7136805B2 (en) 2002-06-11 2002-06-11 System for distinguishing names of organizations in Asian writing systems
CNB021223572A CN100485663C (zh) 2002-06-11 2002-06-14 用于区分汉语文本中组织名称的系统和方法

Publications (2)

Publication Number Publication Date
CN1464430A true CN1464430A (zh) 2003-12-31
CN100485663C CN100485663C (zh) 2009-05-06

Family

ID=32108640

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021223572A Expired - Fee Related CN100485663C (zh) 2002-06-11 2002-06-14 用于区分汉语文本中组织名称的系统和方法

Country Status (2)

Country Link
US (1) US7136805B2 (zh)
CN (1) CN100485663C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102016837A (zh) * 2007-11-26 2011-04-13 沃伦·丹尼尔·蔡尔德 中文型文字及文字偏旁的分类及检索的系统与方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7212963B2 (en) * 2002-06-11 2007-05-01 Fuji Xerox Co., Ltd. System for distinguishing names in Asian writing systems
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
JP4473702B2 (ja) * 2004-11-02 2010-06-02 株式会社東芝 機械翻訳システム、機械翻訳方法及びプログラム
JP2006277103A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文書翻訳方法および文書翻訳装置
US20060286527A1 (en) * 2005-06-16 2006-12-21 Charles Morel Interactive teaching web application
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
KR20100029221A (ko) * 2007-06-01 2010-03-16 구글 인코포레이티드 명칭 엔터티와 신규 단어를 검출하는 것
US8478787B2 (en) * 2007-12-06 2013-07-02 Google Inc. Name detection
US8731901B2 (en) * 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
TWI608367B (zh) * 2012-01-11 2017-12-11 國立臺灣師範大學 中文文本可讀性計量系統及其方法
CN107870905B (zh) * 2017-12-04 2021-09-17 语联网(武汉)信息技术有限公司 一种特定词汇的识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
US6694055B2 (en) 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US6697801B1 (en) * 2000-08-31 2004-02-24 Novell, Inc. Methods of hierarchically parsing and indexing text
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems
US7212963B2 (en) * 2002-06-11 2007-05-01 Fuji Xerox Co., Ltd. System for distinguishing names in Asian writing systems

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102016837A (zh) * 2007-11-26 2011-04-13 沃伦·丹尼尔·蔡尔德 中文型文字及文字偏旁的分类及检索的系统与方法
CN102016837B (zh) * 2007-11-26 2014-08-20 沃伦·丹尼尔·蔡尔德 中文型文字及文字偏旁的分类及检索的系统与方法

Also Published As

Publication number Publication date
CN100485663C (zh) 2009-05-06
US20030229487A1 (en) 2003-12-11
US7136805B2 (en) 2006-11-14

Similar Documents

Publication Publication Date Title
US5680628A (en) Method and apparatus for automated search and retrieval process
US6978275B2 (en) Method and system for mining a document containing dirty text
US5873111A (en) Method and system for collation in a processing system of a variety of distinct sets of information
US7523102B2 (en) Content search in complex language, such as Japanese
EP0423683B1 (en) Apparatus for automatically generating index
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
Narayanaswamy et al. A biological named entity recognizer
US7823061B2 (en) System and method for text segmentation and display
US7809551B2 (en) Concept matching system
JP3690938B2 (ja) インデックスの作成装置および作成方法、ならびに記憶媒体
US20100161313A1 (en) Region-Matching Transducers for Natural Language Processing
WO2000004459A1 (en) Proper name identification in chinese
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US20100161314A1 (en) Region-Matching Transducers for Text-Characterization
Darwish et al. Term selection for searching printed Arabic
CN1464430A (zh) 区分亚洲语言写入系统中组织名称的系统
Schlesinger et al. Arabic/English multi-document summarization with CLASSY—the past and the future
KR20180105546A (ko) 클레임 요소 명사의 요소 명사 참조 번호를 획득하기 위한 요소 명사 참조 번호 획득방법
CN1464431A (zh) 区分亚洲语言写入系统中姓名的系统
US8041556B2 (en) Chinese to english translation tool
CN1542648A (zh) 用于词分析的系统和方法
Belaid et al. Part-of-speech tagging for table of contents recognition
EP1605371A1 (en) Content search in complex language, such as japanese
JPS61248160A (ja) 文書情報登録方式
Ohta et al. Bibliographic element extraction from scanned documents using conditional random fields

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090506

Termination date: 20140614

EXPY Termination of patent right or utility model