CN100474291C - 区分亚洲语言写入系统中姓名的系统 - Google Patents
区分亚洲语言写入系统中姓名的系统 Download PDFInfo
- Publication number
- CN100474291C CN100474291C CNB021223580A CN02122358A CN100474291C CN 100474291 C CN100474291 C CN 100474291C CN B021223580 A CNB021223580 A CN B021223580A CN 02122358 A CN02122358 A CN 02122358A CN 100474291 C CN100474291 C CN 100474291C
- Authority
- CN
- China
- Prior art keywords
- name
- surname
- character
- designator
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种区分汉语人名的系统,包括一个计算机。计算机至少包括一个输入端,一个输出端,一个处理器,和一个存储和寄存装置。数据可由处理器存取,数据至少包括当前汉语中使用的姓名,和分别指示可能存在和不存在一个姓名的姓名指示符和非姓名指示符。系统也包括用于执行计算机处理的软件,处理包括识别已经输入到计算机的汉语文本中的对应于当前汉语中使用的姓名的数据库中姓名的姓名,姓名指示符,和非姓名指示符。处理包括比较识别的姓名指示符和非姓名指示符在汉语文本中相对于文本中识别的姓名的位置,并且如果满足了预定的条件,那么确认一个识别的姓名正在文本中作为姓名使用。
Description
技术领域
本发明涉及用于从文本中其它字中区分姓名的系统,特别是涉及在亚洲语言写入系统中从文本中其它字中区分姓名的系统。
背景技术
亚洲语言写入系统,例如中国使用的写入系统,实际上与世界其它部分开发的写入系统不同。在大多数西方语言的写入系统中,使用字符代表口语字的发音。利用相对较少的字符,可以通过许多不同的组合排列字符,代表语言中使用的数千种发音组合。
相反,在汉语写入系统中,字符一般不代表口语字中的单个发音。而是用字符代表一种思想或概念。结果,在汉语写入系统中,对应于数千种不同的概念开发出数千不同的字符。由于大得多的数量的字符形成了汉语写入系统,所以汉语写入系统一般似乎要比大多数西方国家中使用的写入系统复杂得多。
进一步使汉语写入系统复杂化的问题在于,是以基本上不变的字符间的间隔将字符组合成句子的。尽管一个单一的汉语字符可以对应于一个完整的词,但是经常是两个或更多的字符对应于一个词。因此,在汉字写成的句子中单个词的相互区分可能是困难的,因为几乎不能识别一个词在哪里结束而另一个词从哪里开始,也就是说,词语之间没有间隔。可以把标点符号作为词语之间的定界符,例如,句号或逗号,以及通常用英文书写的并且出现在由汉字形成的句子中的字。尽管如此,汉语书写的句子中的一个词与下一个词之间通常是没有定界符的。
在这方面,汉语可能比日语存在更多的问题。初看起来,日语似乎比汉语更复杂,因为日语写入系统使用三个字符集:(1)日本汉字;(2)平假名;和(3)片假名。此外,日语中一些字通常是用英语写出的。
在日语中,日本汉字字符相当大的部分是基于汉语写入系统。特别是,日语写入系统中使用的许多日本汉字字符实质上与代表对应概念的汉语字符相同,尽管发音通常是完全不同的。因此,在日语中,如同汉语一样,这种字符一般并不代表口语字中的单个的发音。因此,日语书写系统的复杂性在于它是由数千个不同字符形成的。
在书写出的日语中,如同汉语一样,句子在构成句子的字符之间的间隔上基本上没有变化,即,词之间没有间隔。尽管如此,在写出的日语句子中通常是很容易从其它词语中区分出一个词的,因为存在着另外两种日语字符集,平假名和片假名。
平假名和片假名都是语音字母。具体地讲,二者都使用了代表口语字中发音的一组字符。片假名一般在日语书写系统中用于拼写日语中使用的外来语词。除了其它用途之外,平假名一般用作没有日本汉字的起源于日语的词,作为主语或宾语的标记,显示“在...”,“在...中”,“在...旁”之类的位置,用于表示所有状态,和指示时态。在写出的日语句子中,平假名和/或片假名字符通常将日本汉字字符的字彼此分离,从而使比在类似的汉语句子中更容易从其它词语中区分出一个词。
例如,为了用日语写出“孩子的狗”,一个指示所有的平假名将出现在“孩子”和“狗”的日本汉字字符之间。因此,由于在日语书写系统中来自日语语音字符集的字符出现在句子中,所以相对于汉语,日语更容易使词相互区分。
在开发能够准确地处理诸如汉语、日语、韩国语之类的亚洲语书写系统的文章或文本的信息系统中,遇到了困难。尽管对于像日语这样的某些亚洲语言写入系统,这些困难可能不成问题,但是,对于这些亚洲语言写入系统一般都存在着困难。
特别是开发能够准确地从周围文字材料中区分出中文人名或组织名称的信息处理系统一直是一个难题。这种处理在诸如搜索文章中的关键字或相关短语以定位有关一个特定主题的文章和/或标引文章以便于将来文献检索的情形中是十分有用的。例如,有人可能希望定位和/或索引有关一个知名中国人的文章。此外,对于将亚洲语言文本更准确地计算机翻译成英语之类的另一种语言,这种处理也是十分有用的。
在汉语和其它语言中,人的姓名在不用作人名的情况下,可以具有一定的含义。例如,在英语中,“king”是一个比较普通的姓,并且也是一个名词,意思是具有某种帝王政府形式的国家的国家首领。同样地,在汉语中,“王”(在英语中通常也写作“wong”)是一个普通的姓,但它也代表国王或皇帝的意思。准确的翻译需要一种能够可靠地区分何时这种字用作人名或何时用作表示某种其它意思的名词的系统。
发明内容
本发明提供了一种用于区分汉语文本中人名的系统。系统包括一个用于接收电子格式的汉语文本的计算机。计算机至少具有一个输入端,一个用于输出结果的输出端,一个用于处理指令和数据的处理器,和一个用于存储指令和数据的存储和寄存装置。
系统进一步包括处理器可存取的数据或数据库,数据/数据库至少包括当前汉语中使用的姓名,汉语文本使用的、指示可能存在一个姓名的姓名指示符,和指示汉语文本中的一个字不可能是姓名的非姓名指示符。
系统还包括安装在计算机中的软件。当计算机执行软件时,致使处理器执行处理,处理包括识别已经输入到计算机中的汉语文本中的对应于当前汉语中使用的姓名的数据库中姓名的姓名。处理也识别输入的汉语文本中的对应于数据的姓名指示符和非姓名指示符。
然后,处理比较识别的姓名指示符和非姓名指示符在汉语文本中相对于文本中识别的姓名的位置。如果比较中满足了预定的条件,那么处理确认一个识别的姓名在文本中是作为一个姓名使用的。处理进一步将结果输出。
在一个方面,数据包括姓和名。在这点上,预定条件要求文本中一个姓后面紧跟着一个名。另一方面,预定条件包括多个顺序使用的规则。在又一方面,数据包括单字符名,两字符名的第一字符,和两字符名的第二字符。
在另一方面,数据包括至少两种类型的姓,第一种类型是仅在用作姓名时才有意义的姓,第二种类型是在不用作姓名的场合下也有意义的姓。此外,数据指出每个姓的类型。如果在文本中不存在对应于一个识别的第二种类型的姓的姓名指示符,并且如果满足了预定的条件,那么处理在能够确认该姓名在文本中是作为姓名使用的之前,将这个识别的姓名标注为需要确认。
在又一方面,数据包括至少两种类型的姓名指示符,第一种类型是其中姓名指示符必须在文本中姓名指示符指出其可能存在的姓名之前,第二种类型是文本中可以在姓名指示符指示其可能存在的姓名之前或之后的姓名指示符。数据/数据库也指出每个姓名指示符的类型,并且预定条件考虑了一个识别的姓名相对于一个识别类型的姓名指示符的位置。在再一方面,姓名指示符包括表示一个人的身份的词。
在有关方法或处理过程方面,本发明提供了一种区分汉语文本中姓名的处理过程。处理步骤的初始步骤包括建立对应于当前汉语中使用的姓,汉语文本中使用的指示可能存在的姓名的姓名指示符,和指示一个字可能不是姓名的非姓名指示符的数据或数据库。根据建立的数据/数据库,处理过程根据数据识别姓、姓名指示符和非姓名指示符。处理过程进一步比较识别的姓名指示符和非姓名指示符在汉语文本中相对于文本中识别的姓名的位置。如果满足了预定的条件,那么处理过程确认识别的姓名是在文本用作姓名。
在有关产品方面,本发明提供了一种用于利用计算机区分汉语文本中姓名的产品。产品包括一个具有记录在其上的计算机可读数据/数据库和程序逻辑的记录介质。数据包括当前汉语中使用的姓、汉语文本中使用的指示一个可能存在的姓名的姓名指示符,和指示一个字可能不是姓名的非姓名指示符。
当计算机执行程序逻辑时,致使计算机执行处理。计算机处理包括识别已经输入到计算机中的汉语短语或句子中的对应于当前汉语中使用的姓名的数据中的姓名的姓名。计算机处理进一步识别输入的汉语文本中的对应于数据库的姓名指示符和非姓名指示符。此外,计算机处理比较识别的姓名指示符和非姓名指示符在汉语短语或句子中相对于短语或句子中识别的姓名的位置。如果满足了预定的条件,那么计算机处理确认识别的姓名是在短语或句子中用作一个姓名。处理也输出结果。
附图说明
通过以下结合附图的详细说明,可以对本发明以及本发明的上述各个方面和许多附带优点有更清楚的理解,在附图中:
图1示意地示出了根据本发明的一个优选实施例的系统;
图2示出了一个显示仅由两个字符组成的汉语姓的特殊情况的例子的表;
图3示出了一个显示仅有姓名意义的汉语姓的例子的表;
图4示出了一个显示在不用作姓名时也有意义的汉语姓的例子的表;
图5A和5B示出了一个显示汉语短语或句子的例子的表;
图6示出了一个显示汉语身份词的例子的表;和
图7示出了一个显示在大多数情况下不形成汉语姓名的一部分的文法词的例子的表。
具体实施方式
图1示意地示出了根据本发明的一个系统10的优选实施例。系统10优选是在一个具有一种商业可用操作系统的计算机12上实现。在开发过程中,系统的一个优选实施例是在具有LINUX和WINDOWS操作系统的计算机上实现的,但是也可以使用其它操作系统,例如,UNIX,或可以从苹果机得到的操作系统。计算机12包括一个用于输入信息的输入端14,一个用于处理指令和数据的处理器16,和用于存储指令和数据的存储和寄存装置18,以及一个输出端20。
处理器16可以是一个中央处理单元(CPU),或可以是一个具有多个处理器装置的计算机中的多个处理器。存储和寄存装置18包括以下各种器件:例如,RAM,ROM,诸如硬盘和/或软盘之类的盘驱动器,诸如CD和/或DVD驱动器之类的光电驱动器,和闪存卡之类的用于数据寄存的其它介质,例如,COMPACT FLASH,SD(SECURE DIGITAL),MMC(MULTIMEDIA CARD),SMART MEDIA,等等。计算机程序逻辑,即,软件,安装在计算机12上,并且存储在存储和寄存装置18中,以便通过处理器16执行。
将信息输入到计算机12中包括输入通过存储和寄存装置18输入到系统10中的电子格式的文本。例如,以计算机可读格式寄存在软盘或其它介质上,并且经过一个盘驱动器读入到系统10中的文本。作为选择,文本可以通过一个经过调制解调器的因特网连接或网络连接下载到系统10中。此外,如果计算机操作系统适用于汉语文本的键盘输入,那么可以利用键盘经过计算机的输入端14或其它手工输入装置将文本键入系统。此外,文本也可以是印刷形式,并且扫描成输入计算机12的电子格式。也可以使用语音识别软件将口语或声频汉语转换成文本格式。通过任何一种上述技术和/或其它当前可用的技术,将电子格式的汉语文本输入到计算机12中,以便根据系统10处理。
系统10最好是使用当前可用的分词和词性标注软件工作。特别是,在处理汉语文本之前,通过分词软件将文本分割成分离的词。此外,分词软件最好也根据一个有关词语所对应的语言成分的词典标注或标记词语,例如,标记出名词、动词、形容词、副词、介词、连词等。在分割了文本之后,利用系统10识别文本中的人名。
在处理汉语文本中,系统10依赖于大多数汉语姓名遵照的一些特有特征。这些特有特征之一是,在现代中国社会中,当前使用的仅有数百个姓。在中国的整个漫长历史中,可能使用过数千个姓。但是,现在只有不到一千个姓在使用,并且当前正在使用的姓可能不超过500个。
此外,中国的大多数姓是由单独一个汉语字符构成的,只有少数特殊情况是由两个汉语字符构成。图3和4示出了仅由一个字符构成的汉语姓的一些例子。图2示出了由两个字符构成的汉语姓的少数特殊情况的一些例子。
在系统的开发过程中,从24,720个现代汉语姓名的样本中提取了440个不同的单字符姓。用这440个姓建立了系统10的数据22,以在从周围字中区分出出现在汉语书写的文章或其它信息中的汉语姓名。为了容易和快速的搜索和检索,将数据排列在一个数据库22中。最好把数据或数据库22存储在存储和寄存装置18的硬盘上。但是,数据库22也可以存储在CD或其它介质上。
如上所述,大多数汉语姓是由一个单一字符构成的,只有少数特殊情况下是由两个字符构成的。由于大多数汉语姓是仅由一个单一字符构成的,最初的开发工作集中在建立用于识别由一个单一字符构成的中国姓的数据。但是,系统的优选实施例将包括也用于识别两个字符的特殊例外的处理步骤或规则和/或数据。
在数据库22的姓名中,一些姓名在用作普通字时,即,在不用作姓名时,具有特定的含义。其它的仅具有作为姓名的含义。例如,金、柳、白和钱都可以用作一个人的姓名,但是,这些字在不用作姓名时也具有含义。图3示出了来自数据库22的、仅具有作为人名意义的姓的一些例子。图4示出了在用作姓时和不用作姓名时都具有含义的例子。仅在作为姓名时才有意义的姓是系统依赖的另一个汉语命名惯例的特有特征。
更具体地讲,如果系统10识别出一个句子中的一个对应于数据库22中的一个姓的字,那么系统10根据数据标记或标注出该字是否仅能用作姓,或是否该字在不用作姓时也具有意义。例如,如果系统在句子中识别出“金”字,那么系统将这个字标注或标记为可能是一个姓,而且也是在不用作姓时可以具有意义的字的类型。此后,系统搜索句子中其它指示符,以试图确定上述标注或标记的字是否的确是一个姓名,或是在句子的上下文中不是作为姓使用的,例如,用来表示一种贵重金属。
一种类型的指示符是表示身份的字或词,例如,chief(长官),primeminister(总理),student(学生),father(父亲),mother(母亲)等等。一个词可以是由一个指示身份单一的字构成的,例如,chief,或由两个或更多的字构成的一个词,例如,prime minister。额外地标记或标注出现在可能是一个姓名的字之前或之后的表示身份的词,以确定标注为可能是一个姓的字是否的确是一个姓,和确定提到的字在句子的上下文中不是被用作姓名。身份词是指示如果满足特定的条件那么可能存在一个姓名的姓名指示符。
表示身份的词划分为至少两个种类。一种是仅能位于姓名之前的身份词,例如,用于指示父亲身份的词。也就是说,汉语中“父亲”这个词位于父亲的姓名前面。
另一种是可以出现在该字指出其身份的姓名之前或之后的身份词。例如,根据上下文关系,汉语中“主席”这个词可以出现在主席的姓名的之后或之前。图5A中示出了一个使用president(主席)这个词的例句。
具体地讲,图5A示出了撰写本说明书时的中国国家首脑的姓名,以及指示主席身份的词。更具体地讲,当前,江泽民是中国国家首脑。但是,在汉语中,写姓名时首先写出姓,然后是名。因此,中国的国家首脑,江泽民应当写为“江主席(President Jiang)”,而不是“泽民主席(President Zemin)”。如图5A中所示,汉语中指示主席身份的词可以出现在主席的姓名之前或之后。
图6示出了两个种类的身份词中的每一种的例子。具体地讲,图6中的表的第一列,列出了汉语中可以出现在所述字指出身份的人的姓名之前或之后的指示身份的词的一些例子,例如,用于指出“主席(chairman)”,“总理(prime minister)”,“总统(president)”等的词。图6中的表的第二列列出了汉语中只能出现在该字指出其身份的人的姓名之前的指示身份的词的一些例子,例如,用于“民警(policeman)”,“学生(student)”,“球星(football star)”,“父亲(father)”,“母亲(mother)”等的词。
系统10依赖身份词作为一个有关一个标注为可能是一个姓的姓名是的确用作姓名,还是在具有不是姓的意思的场合中使用的附加指示符。返回到图5A的示例,中国国家首脑的姓名是“江泽民”,其中“江”是主席的姓,而“泽民”是主席的名。
“江”在中国用作一个姓,但它也可以用来表示“河”的意思。如果系统10确定了这个字在句子中的位置,它把这个字标注为可能是一个姓,并且进一步寻找身份词。具体地讲,系统将搜索用于指示它是用作一个姓,还是在另一种场合中使用,例如,指示一条河,的附加指示符的身份词。
图5A还列出了一个作为示例的句子:“中国国家主席江泽民赴欧洲访问”。系统10将搜索句子中与数据库22中列出的姓匹配的字。根据数据库条目,系统10确定了“江”的位置,并且把“江”标记或标注为一个当在不是作为姓名使用的场合下也具有意义的类型的姓。
在这一点上,仍没有确定“江”是否是一个姓。在这种情况下,系统10搜索显示身份的词,作为进一步指示“江”是否是一个姓的指示符。在本例中,系统10将定位或识别出出现在“江”前面的词“主席”,这是一个表示“江”在句子中的确是用作一个姓的附加指示符。
但是,“主席”这个词是一个属于图6中的表的左面一列中的种类的身份词。具体地讲,“主席”在汉语中是一个可以出现在一个姓前面或后面的身份词。因此,系统10标记和标注“主席”这个字可能指示前面的字的身份,而不是后面的字的身份,后面的字是“江”。
在这一阶段,系统10考虑是否有其它的指示符存在,进一步地表示“江”是否是作为一个姓使用的。例如,系统10确定是否存在一个可能是名的字符或多个字符。如上所述,在汉语中,首先写出一个人的姓,然后是名。此外,汉语中没有中间名。如果在“江”后面有可能是名的一个字符或多个字符,那么这是“江”用作姓的一个进一步的指示。
如同姓一样,现代中国的名可以是仅由一个字符构成的,或是由两个字符构成的。但是,两个字符的名更普遍,并且不像姓一样仅限于有少数例外。此外,当前使用的不同的名的数量,大大多于姓。与姓相比,很难建立起一个中国当前使用的名的完整数据库。
从24,720个汉字名中抽样中,提取了1,040个不同的一个字符的名。此外,还提取了1,246个构成两个字符名的第一个字符的字符。另外,提取了1,136个构成两个字符名的第二个字符的字符。将所有这些字符用于构成一个用于从汉语书写的文章或信息中的周围字中区分名的数据库或字典。
返回到图5A中的“中国国家主席赴欧洲访问”的例句,系统10已经标注出“江”这个字可能用作一个姓。此外,系统10已经识别出例句中的可能作为姓的字“江”前面的身份词“主席”。但是,系统10标注身份词“主席”属于一个可以在一个该字指出其主席身份的人的姓名之前或之后的种类。因此,仍不能确定“江”是否用作一个姓,尽管已经识别出“江”前面的身份词“主席”。
规则1至3中的每个都要求姓的后面紧跟一个身份字或词。在这一点上,规则1至3中的每个假设身份词指示句子中身份字后面的人的姓名的身份。即使在身份字是可以出现在指示其身份的人名后面的种类的时候,也使用规则1至3。此外,即使在句子中识别的姓是现代汉语中仅具有姓的意义的类型的时候,也使用规则1至3。
如果满足了规则之一的所有条件,系统10确认在这种情况标注的可能的姓的确是用作姓。每个规则要求句子中有一个名跟随在标注的可能的姓之后的指示。规则3检查一个单字符名跟随在标注的姓后面的可能性。规则1和2都检查一个两字符名跟随在标注的姓后面的可能性。结果,规则1和2都要求在标注的可能的姓后面存在两个字符,因为一个两字符名必须是由一对字符构成的。
除了其它要求之外,规则1要求这对字符的第二个字符对应于数据库22中形成一个两字符名的第二个字符的一个字符。除了其它要求之外,规则2要求这对字符的第一个字符对应于数据库22中形成一个两字符名的第一个字符的一个字符。
规则最好是按照顺序执行,即,首先执行规则1,然后规则2,后面是规则3,等等。也可以有其它顺序,但是,对于这些规则,这里所述的使用顺序一般可以提供最佳的结果。
继续图5A中的中国国家主席赴欧洲访问的例子,系统10已经标注了一个可能的姓。此外,标注的可能的姓前面有一个身份词,系统10已经标注出这个身份词是身份词可以在身份词指出其身份的一个人的姓名的前面或后面的种类的。因此,系统10首先应用规则1确定是否满足了这个规则的所有要求。
如上所述,系统10使用规则1检查紧跟在标注的姓之后存在一个两字符名的可能性。规则1的条件之一是至少两个字符必须跟随在标注的可能的姓之后,因为一个两字符名要求存在至少一对字符。由于在图5A中的赴欧洲的例句中总共有五个字符跟随在标注的可能的姓后面,因而满足了这个条件。
规则1的另一个条件是,标注的可能的姓后面的字符对的第二个字符必须对应于数据库22中的可以是一个两字符名的第二个字符的一个字符。此外,第二字符必须不对应于一个汉语连词。
一个汉语句子中的姓名的前面和后面经常带有一个连词,例如,表示and,with,to,for之类意思的字符。在大多数情况下,作为连词的字不构成中国名的一部分。如果第二字符是一个连词,那么不满足规则1的要求。在图7中,示出了一个显示对应于连词的汉语字符的表。因此,一个连词是一个非姓名指示符,也就是说,当它存在时,它将指出一个特定的字不可能是一个姓名,或至少在这种场合下不能作为姓名使用。
此外,第二字符必须不是一个副词,例如,一个表示“非常(very much)”的字符,因为汉语姓名中一般不会有这类字符。像连词一样,副词的存在是一个非姓名指示符。图7的表中示出了对应着副词的汉语字符的例子。标注的可能的姓后面的一对字符的第二个字符满足了这些条件。即,它对应于数据库22中的可以形成中国的两字符名的第二字符的一个字符,并且它不对应于一个用作连词或副词的字符。
对于标注的可能的姓后面的字符对的第一字符,规则1的一个额外条件是,第一字符必须既不是一个连词,也不是一个介词。汉语中的介词包括表示“向(to)”和“给(by)”意思的字符。在大多数情况下,一个作为连词或介词的字不能构成中国名的一部分。如果第一字符对应于一个连词或一个介词,那么不满足规则1的条件。在图7中,表也示出了对应于介词的一些汉语字符。
有关跟随在标注的可能的姓后面的字符对的第一字符的再一个条件是,它必须不是一个不能构成汉语中姓名的一部分的动词。更具体地讲,例如,像“打”或“吃”之类的一些动词不能构成姓名的一部分,但是在汉语句子中经常紧跟在一个姓名后面。图7的表示出了不能在汉语中构成姓名部分的一些动词的汉语字符。与连词、介词和副词一样,这些动词是可以用于指示一个字不可以用作人的姓名,或至少在这种场合下不是用作姓名的非姓名指示符。
在本例中,标注的可能的姓后面的头两个字符的第一字符既不是汉语中不能构成姓名的一部分的连词,也不是介词,或动词。此外,标注的可能的姓名后面的头两个字符的第二字符对应于数据库22中的可以构成一个两字符名的第二个字符的一个字符。由于满足了规则1的所有条件,因此,既然满足了规则1的所有条件,系统10确认标注的可能的姓的确是作为一个姓使用的,并且与跟随在后面的作为一个两字符名使用的两个字符一同构成了姓名。
接下来,系统10使用规则2。除了其它用途之外,其余的规则用在一个短语或句子中存在一个以上的姓的场合。可能系统10能够根据规则1区分一个姓,但是,需要顺序地使用后面的规则来区分句子或短语中的其余姓。
为了讨论,假设没有满足规则1的全部条件。例如,可能没有满足规则1中的有关跟在标注的可能的姓后面的头两个字符的第二个字符的条件。也就是说,可能这头两个字符的第二个字符不对应于数据库22中的构成一个两字符名的第二个字符的一个字符。
除了其它条件之外,规则2对跟在标注的可能的姓后面的头两个字符的第一字符规定了一个条件。即,这两个字符的第一字符必须对应于数据库22中构成一个两字符名的第一个字符的一个字符。此外,规则2对两个字符的第二字符规则了一个要求。具体地讲,第二字符必须不是一个不能构成汉语姓名的一部分的连词、介词或动词的字符。
此外,第二字符必须不是一个时态标志或一个副词。时态标志是一个在汉语中用于指示过去时的字符。图7中的表也示出了对应于时态标志的汉语字符的一些例子。此外,第二字符必须不是一个标点符号的指示符,例如,逗号、句号等等。
规则2中没有第二字符必须对应于数据库22中的构成中国名的第二字符的一个字符的条件。已经发现这有利于识别某些特殊的姓名,或两字符名的情况,并且这也是最好按照上述顺序使用各个规则的原因之一。
为了结合规则3讨论,图5A示出了另一个例句:“国家队队员李铁为球迷签名”。对于这个句子,系统10将“李”字识别为一个用作姓的字。此外,系统10将“李”标记或标注为一个在现代汉语中不作为姓名时没有任何意义的类型的。
系统10在句子中“李”前面的“成员”一词与一个人名结合使用时,将其识别为一个用于表示身份的词。系统10进一步将“成员”一词识别为属于图6的表中的左栏指示的种类。即,“成员”一词可以出现在该字指出其身份的人名的前面或后面。因此,系统10把“成员”一词标记或标注为可能指示前面的字而不是后面的字的身份,后面的字是“李”。
系统10使用规则1和2都来检查标注的可能的姓,“李”,后面跟随着一个两字符名的可能性。因此,规则1和2都要求句子中标注的可能的姓后面至少有两个字符,这个条件被满足了。即,在以一个句号结束的句子之前,标注的可能的姓后面有总共六个字符。
但是,没有满足规则1的所有条件。除了其它要求之外,规则1要求标注的可能的姓后面的头两个字符的第二个字符对应于数据库22中的可以构成一个两字符名的第二字符的一个字符。在本例中,没有对应性。标注的可能的姓后面的头两个字符的第二字符是一个表示“为(for)”的介词,并且不构成汉语名的一部分。
也没有满足规则2的所有条件。除了其它要求之外,规则2要求标注的可能的姓后面的头两个字符的第二字符必须不是一个介词(图7示出了对应于介词的一些汉语字符)。如前面段落中所讨论的,标注的可能的姓后面的头两个字符的第二字符是一个表示“为”的介词。因此,至少没有满足规则2的这个条件。因此,系统10不能根据规则1或2中的任何一个确认标注的可能的姓是否的确是用作姓名。
系统10接下来使用规则3。如上所述,系统使用规则3检查标注的可能的汉语姓名后面跟随着一个单字符名的可能性。规则3规定了紧跟在标注的可能姓后面的字符必须不是一个不能构成汉语姓名的一部分的所有指示符,连词或动词的条件。所有指示符指示某物被占有,或拥有。图7中的表也示出了对应于一个所有指示符的汉语字符的例子。
规则3进一步规定了跟随在标注的可能的姓后面的字符必须是一个不能构成汉语姓名的一部分的连词或动词的条件。此外,跟随在标注的可能的姓后面的第二字符必须是一个连词、介词、或标点符号。连词和/或介词和标点符号不能构成姓名的一部分,因此,经常作为一个汉语句子或短语中的姓名的右边界的标记。如果满足了规则3的所有条件,那么系统10确定标注的可能的姓的确是一个姓,并且它后面跟随着一个单字符名。
规则1至3每个都要求汉语句子或短语中的一个姓的前面紧接着一个身份词。姓仅需要对应于数据库22中的一个用作现代汉语姓的字。也就是说,姓可以是只有作为姓意义的类型的,或在不用作姓的场合下也具有意义的类型的。此外,身份词仅需要在句子中紧接着姓的前面,这个条件在叁个规则的每个中都应当满足。即,身份词可能是仅可以在指出其身份的姓名前面的类型的,或身份词可以在指出其身份的姓名的前面或后面的类型的。
规则4至6的每个的一个条件是,在一个句子中,一个身份词必须跟随在一个姓的后面。在规则4-6中,与规则1-3一样,姓仅需要对应于对应于数据库22中的一个用作现代汉语姓的字。即,姓可以是仅作为姓时才有意义的类型的,或在不用作姓名的场合也可能有意义的类型的。但是,身份词必须是可以在指出其身份的姓名的后面或前面的类型的。此外,身份词不可以是与姓相邻。
图5A示出了例句:“朱镕基总理发表讲话”。在这个句子中,系统10将把“朱”识别为一个可以用作姓,但是也可以用于表示红色的字。此外,系统10将把“总理”一词标注为可以在句子中出现在指出其身份的姓名的前面或后面的类型的。此外,身份词不紧跟在姓的后面。具体地讲,用作名“镕基”的字符使身份词与姓“朱”分离。
规则4和5都检查一个两字符名跟随在标注的姓后面的可能性。为此,规则4和5都规定了必须严格地由两个字符将身份词与姓隔开的条件。由于“镕基”将身份词与姓隔开,并且“镕基”是由两个字符构成的,因而满足了规则4和5的条件。
规则4规定了额外的条件,跟随在姓后面的第一字符必须对应于数据库22中可以构成一个两字符名的第一字符的一个字符。对于跟随在姓后面的第二字符,有一个附加条件:这个字符必须不是一个不能构成汉语姓名的一部分的连词、所有指示符、或动词。
如果满足了所有这些条件,那么系统10确定存在一个跟随着一个两字符名的姓。朱镕基总理的例句满足了规则4的所有条件。因此,系统10确定,在例句中,“朱”是一个后面跟随着一个两字符名“镕基”的姓。
在规则4中,没有姓后面的第二字符对应于数据库22中能够构成一个两字符名的第二字符的一个字符的要求。这使得能够识别系统10的处理用别的方法不能识别的某些特殊两字符名的情况。
相反,规则5规定了条件:姓后面的第二字符应当对应于数据库22中能够构成一个两字符名的第二字符的一个字符。这是规则5对有关姓后面的第二字符规定的仅有的条件。对于姓后面的第一字符,规则5规定了这个字符必须不是一个所有指示符、或一个连词、或一个介词的条件。
规则6检查标注的姓后面跟随着一个单字符名的可能性。因此,规则6的一个条件是,必须用严格的一个字符将标注的姓与指示身份的一个字或多个字分割开。为了讨论规则6,图5A示出了例句“秘书给王石董事长汇报工作”。
对于这个句子,系统10将“王”标记或标注为在中国用作一个姓的字,并且是当在句子中不用作姓名时也具有意义的类型的,例如,当用来称呼一个国家的国王时。系统也把身份词“董事长”标注为是可以出现在指出其身份的一个人的姓名之前或之后的类型的。
对于这个例子,相对于英语翻译,实际使用在汉语中的字的顺序是不同的。具体地讲,身份词“董事长”在汉语中出现在姓名“王石”的后面。但是,没有满足规则4和5每个的至少一个条件。即,姓和身份词之间必须有严格的两个字符。在这里,只有一个字符。
由于没有满足规则4或5(以及规则1~3)的所有条件,系统10尚不能根据上述规则区分“王石”是否是一个姓名。系统10接下来使用规则6。规则6规定了条件:一个单字符将标注的姓与身份词隔离开。这个条件被满足。具体地讲,“石”字是一个插在姓“王”与身份词“董事长”之间的单字符。
规则6额外地规定了要求或条件:插入的字符不应当是一个不能构成汉语姓的一部分的所有指示符、连词、或动词类型的。插入字符“石”满足了这个条件。最后,规则6进一步规定了条件:紧接着标注的姓(在本例中是“王”)之前不能有另一个姓。这也被满足。如果满足了规则6的所有条件,那么系统确定存在一个后面跟随着一个单字符名的姓。
为了讨论规则7,图5B示出了例句“王安石是著名诗人”。规则7规定了必须不存在身份字或词的条件。规则7进一步要求,必须标注一个姓。标注的姓可以是仅具有作为姓的意义的类型的,或是当不用作姓名时也有意义的类型的。例句满足了所有这些条件。“王”是在数据库22中的一个标注或标记为在中国用作姓的字。此外,在句子中没有身份词存在。
规则7检查标注的姓后面跟随着一个两字符名的可能性。因此,规则7要求标注的姓后面有至少两个字符。这个条件也被满足。在例句以一个句号结束之前,标注的姓“王”的后面有总共五个字符。规则7要求,标注的姓后面的第一在字符应当对应于一个数据库22中可能构成中国的一个两字符名的第一字符的字符。在例句中,满足了这个条件。最后,规则7规定了标注的姓后面的第二字符必须对应于数据库22中的一个可以构成一个两字符名的第二字符的字符的条件。这个条件被满足。
如果满足了规则7的所有条件,那么系统10确定一个姓后面跟随着一个两字符名。规则7没有规定有关所有指示符、连词或所有词,副词、动词等的条件。上述要求第一和第二字符对应于数据库22中字符的条件的严谨性,一般足以避免不明确性。
为了讨论规则8,图5B示出了示例短语“雷峰的故事”。如规则7一样,规则8要求必须标注一个姓,并且必须不存在身份词。与规则7一样,标注的姓可以是仅作为一个姓时才有意义的类型的,或当不用作一个姓名时也有意义的类型的。在示例短语中满足了所有这些条件。“雷”是一个在数据库22中列出的、在中国用作一个姓的字。此外,句子中没有身份词或字。
规则8检查标注的姓后面跟随着一个单字符名的可能性。如果满足了规则8的所有条件,系统10确定存在一个后面跟随着一个单字符名的姓。由于规则8要检查一个单字符名的可能性,所以规则8要求一个可能的姓后面必须至少有一个字符。“雷峰的故事”的例子中满足了这个条件。在汉语中,这个短语是以出现在开头的姓名写出的,字面翻译成英语将是“Lei Feng′sStory”。因此,在汉语中,姓“雷”后面实际跟随着总共五个字符。具体地讲,跟随着字符“峰”,一个对应于所有指示符的字符,和两个构成汉语“故事”的字的字符。
规则8进一步要求,姓后面的第一个字符必须对应于一个在数据库22中的能够构成中国单字符名的第一字符的字符。在示例短语中,字“峰”满足了这个条件。但是,对于能够构成一个汉语单字符名,并且当在另外的场合下不用作姓名时也有意义的字符,数据库22中存在着许多这样的字符。因此,规则8对于可能的单字符名后面的字符规定了额外的条件。
如果紧跟在名后面的字符是一个不能构成汉语姓名的一部分的所有指示符,时态标志,连词或介词,或动词,那么满足规则8。如上所述,这些词一般不构成姓名的一部分,因此能够指示一个姓名的边界。在示例中,“峰”后面跟着一个所有指示符,因此,满足了规则8,并且系统10确定一个姓后面有一个单字符名。
作为替代,如果名后面紧跟着一个两字符字,那么也满足规则8。在这点上,一个可能的单字符名后面不会紧跟着一个两字符字。
如果满足了规则9的所有条件,那么系统确定一个姓能够跟随着一个两字符名。为了讨论规则9,图5B示出了例句“李春波的歌很好听”。如同规则7和8一样,规则9要求必须标注一个姓,并且不出现身份词。但是,与规则7和8相反,规则9规定了可能的姓必须是仅具有作为姓的意义的类型的条件。示例中的字“李”满足了这个要求。具体地讲,“李”是一个数据库22列出的、作为中国的姓的字,并且它仅具有作为姓的意义。此外,句子中没有可识别的身份词。
规则9检查可能的姓后面是否有一个两字符名。因此,规则9要求句子中可能的姓后面必须有至少两个字符,本例满足了这个条件。规则9进一步要求,紧跟在可能的姓后面的字符不能是一个不能构成汉语姓名的一部分的所有指示符、连词或介词、时态标志、或动词。规则9还要求,姓后面的第二字符必须对应于一个数据库22中的可以构成汉语两字符名的第二字符的字符,并且不能是一个副词或连词。示例中满足了所有这些条件。因此,系统10确定在例句中,“李”是一个姓,并且后面跟随着一个两字符名。
如同规则9一样,规则10要求必须标注一个姓,并且在考虑下的短语或句子中不存在身份词。规则10对于可能的姓必须是仅具有作为姓的意义的类型的条件,规定了与规则9相同的条件。规则10也检查一个姓后面跟随着一个两字符名的可能性。因此,规则9要求,句子中可能的姓后面至少有两个字符。
规则10要求紧跟在可能的姓后面的字符必须对应于数据库22中的一个可以形成一个两字符名的第一字符并且不是一个所有指示符的字符。对于可能的姓后面的第二字符,规则10要求不能是一个不能构成汉语姓名的一部分的副词、连词或介词、时态指示符、或动词。如果满足了规则10的所有这些条件,那么系统确定一个姓后面跟随着一个两字符名。
规则11要求存在一个姓并且没有一个身份词。此外,姓必须是当在另一种场合下使用时也有意义的类型的。此外,姓后面必须跟随着至少两个字符。姓后面的第一字符必须不是一个不能构成汉语姓名的一部分的所有或时态指示符、连词或介词、或动词。姓后面的第二字符必须对应于数据库22中的一个能够构成一个两字符名的第二字符的字符。
如果满足了规则11的所有这些要求,那么系统10得出存在着一个应当确认的、后面跟随着一个两字符名的姓的结论。为了结合规则11讨论,图5B示出了一个示例短语“梁山伯与祝英台”。在这里,“祝”具有与结合图5A中的“朱镕基总理”的例子讨论的“朱”相同的发音,但是使用了一个不同的汉语字符。在使用“祝英台”的例子中,“祝”是一个姓,并且也可以用作一个表示“希望”意思的动词。
姓名“祝英台”满足规则11的所有条件。具体地讲,“祝”是一个在不用作姓名时也具有意义的类型的姓。此外,“英台”是一个两字符名,其第一字符不是一个不能构成汉语姓名的一部分的所有或时态指示符、连词或介词、或动词。因此,系统10确定“祝英台”可能是一个后面跟随着一个两字符名的姓。系统10没有根据规则11作出最后的确定,因为存在着很大的不确定性。具体地讲,这个姓可以具有不作为姓名的意义,并且没有一个作为指示在这种场合下是否的确是一个姓名的意思的进一步的指示符的身份词。
像规则11一样,规则12要求存在一个姓并且不存在一个身份词。此外,姓必须是在另一种场合下不作为姓名使用时也有意义的类型的。此外,姓后面必须跟随着至少两个字符。规则12要求姓后面的第一个字符必须对应于数据库22中的可以构成一个两字符名的第一字符的一个字符,并且它不能是一个不能构成汉语姓名的一部分的所有指示符、介词、标点符号、副词、或动词。如果满足了规则12的所有这些条件,那么系统10确定存在一个系统要标志或标注以确认的后面跟随着一个两字符名的姓。
如同规则11和12一样,规则13要求存在一个姓并且不存在一个身份词。此外,姓必须是当在另一种场合下使用也有意义的类型的。但是,不像规则11和12那样,对于规则13,姓后面仅需要跟随至少一个字符。规则13要求紧跟在姓后面的字符必须对应于数据库22中的一个可以构成一个单字符名的字符,并且它不能是一个不能构成汉语姓名的一部分的所有指示符、介词、标点符号、或动词。
如果满足了规则13的所有这些条件,那么系统10确定存在一个应当确认的后面跟随着一个单字符名的姓。为了结合规则13讨论,图5B示出了一个示例短语“江涛非常聪明”。如上所述,“江”是一个姓,但也可以表示“河”的意思。因此,是一个当不用作姓名时也有意义的类型的姓。此外,在示例中不存在身份词。姓后面跟随着至少一个字符,在本例中是字符“涛”。此外,“涛”不是一个不能构成汉语姓名的一部分的所有指示符、介词、标点符号、或动词。因此,系统10确定存在着一个系统应当标记或标注以进行确认的后面跟随着一个单字符名的姓。
规则14要求存在一个姓和不存在一个身份词。此外,姓必须是当在另一种场合下使用时也具有意义类型的。规则14进一步要求姓后面紧跟着一个字符,并且这个字符必须不是一个不能构成汉语姓名的一部分的所有指示符、介词或连词、时态标志、或动词。此外,必须有一个跟随在姓后面的、是不能构成汉语姓名的一部分的连词或介词或动词的第二字符。
如果满足了规则14的所有这些条件,那么系统确定可能存在一个应当确认的、后面跟随着一个单字符名的姓。为了结合规则14讨论,图5B示出了一个例句“胡绳是著名的文学家”。在这个句子中,“胡”是一个姓,但是它也可以用作一个表示“外国的”的意思的形容词。因此,有了一个当不用作姓名时也有意义的类型的姓。此外,在这个例句中没有身份词存在。最后,姓后面跟随着至少一个字符,在本例中,是字符“绳”。此外,“绳”不是一个不能构成汉语姓名的一部分的所有指示符、介词、标点符号、或动词。因此,系统10根据规则14确定,可能存在一个系统标记或标注以确认的、后面跟随着一个单字符名的姓。
规则11和12都可以导致标注一个后面跟随着一个两字符名的可能的姓。规则13和14都可能导致标注一个能够跟随着一个单字符名的可能的姓。在这些场合,系统试图确认在考虑中的句子或短语中是否的确使用了一个人名。
如果文本是由几个句子构成的,那么一个人名经常要出现多次。在句子之一中,系统10可能已经能够根据一个规则确认,该人名的确被用作一个姓名。例如,该人名可能已经在一个具有身份词的句子中使用。如果存在另一种情况,其中系统10确定仅是可能使用了一个人名,即,在规则11~14的每种场合,那么系统将比较标注的可能姓名,以确定是否该姓名在其它场合出现,在这些其它场合中系统已经确认所述的相同姓名的确是用作一个姓名,即,规则1~10的每种场合。如果是这样,那么系统10确定标注的可能姓名应当确认,并且确认所述的姓名的确在这些其它场合中被用作一个姓名。
这里所述的数据库22被设计为包括一个带有语言成分标记软件的字典或词典。具体地讲,系统10最好尽可能地依赖根据当前可用的语言成分标记软件执行的标记。因此,系统10的软件可以依靠这些标记识别通常的语言成分,例如,介词和连词、所有指示符、时态标志、副词等等。对于语言成分标记软件没有识别或没有准确地识别的其它语言成分,例如,人的姓名或指示身份的词等等,数据库22包括如上所述的附加信息。
例如,附加信息包括姓和类型,即,是仅具有作为姓名意义的类型的还是当不用作姓名时也有意义类型的;名的字符;身份词和类型,即,是否身份词仅出现在指出其身份的姓名的前面类型的,还是可以出现在其前面和后面类型的;是否它是一个不能构成汉语姓名部分的动词;等等。可以通过把这些字标记在其中,将附加信息加入到用作语言成分标记软件的词典或词典中,或形成另外的数据库并与字典组合,以使数据库22包括多个子数据库,或集成构成一个大的数据库。
可以进行修改,替换或其它替代。例如,可以修改数据库22以列出完整的两字符名,而不是列出可以形成一个两字符名的第一字符和一个两字符名的第二字符的字符。此外,没有专门适合于直接识别少数特殊情况的两字符汉语姓的规则。也可以增加用作此目的的规则,和/或扩展数据/数据库22以包括两字符汉语姓。
一些规则只有在句子中识别的姓是在现代汉语中仅具有作为姓的意义的类型时才使用。可以修改这些规则,以便仅应用于在作为姓名时和在不用作姓名的场合中都有意义的姓,因为对于仅具有作为姓名的意义的姓几乎没有不确定性。结合这点,可以增加另一个规则,这个规则要求识别一个仅在用作姓名时才有意义的姓。此外,在特定情况下可以重新确定使用规则的顺序。考虑到熟悉本领域的普通技术人员可以进行替代、替换或修改,将来授权专利的文件范围将仅受附属的权利要求的定义的限制。
Claims (14)
1、一种用于区分汉语文本中人名的系统,包括:
(a)输入装置;
(b)用于建立数据的建立装置,数据对应于:
(i)当前汉语中使用的姓;
(ii)汉语文本中使用的、指示一个姓名的可能存在的姓名指示符;和
(iii)指示一个字不可能是一个姓名的非姓名指示符;
(c)第一识别装置,用于识别已经输入到系统中的汉语文本中的对应于当前汉语中使用的姓名的数据中的姓名的姓名;
(d)第二识别装置,用于识别输入的汉语文本中对应于数据的姓名指示符和非姓名指示符;
(e)比较装置,用于比较识别的姓名指示符和非姓名指示符在汉语文本中相对于文本中识别的姓名的位置,并且如果满足了位置条件,那么确认一个识别的姓名在文本中用作姓名;和
(f)输出装置,用于输出结果。
2、根据权利要求1所述的系统,其中数据包括至少两种类型的姓,第一种类型是仅当作为姓名使用时才有意义的姓,和第二种类型是当在不是作为姓名的场合下使用时也有意义的姓,并且数据指示每种姓的类型,并且如果文本中不存在一个对应于一个第二种类型的识别的姓名的姓名指示符,并且如果满足了位置条件,那么处理将这个识别的姓名标注为需要在能够把姓名确定为在文本中用作姓名之前确认。
3、根据权利要求1所述的系统,其中位置条件包括多个按顺序使用的规则。
4、根据权利要求1所述的系统,其中数据包括姓和名,并且位置条件要求确定文本中一个姓后面紧跟着一个名。
5.根据权利要求1所述的系统,其中数据包括至少两种类型的姓名指示符,第一类型是其中文本中姓名指示符必须在一个姓名指示符指出其可能存在的姓名之前的类型,第二种类型是文本中姓名指示符可以在一个姓名指示符指示其可能存在的姓名之前或之后的类型,并且数据指示每个姓名指示符的类型,并且所述位置条件考虑到一个识别的姓名相对于一个识别类型的姓名指示符的位置。
6、根据权利要求1所述的系统,其中姓名指示符包括表示一个人的身份的词。
7.根据权利要求1所述的系统,其中数据包括单字符名,两字符名的第一字符,和两字符名的第二字符。
8.一种用于区分汉语文本中人名的方法,包括:
(a)建立数据,数据对应于:
(i)当前汉语中使用的姓;
(ii)汉语文本中使用的、指示一个姓名可能存在的姓名指示符;和
(iii)指示一个字不可能是一个姓名的非姓名指示符;
(b)根据数据识别汉语文本中的姓、姓名指示符、和非姓名指示符;和
(c)比较识别的姓名指示符和非姓名指示符在汉语文本中相对于一个文本中识别的姓名的位置,并且如果满足了位置条件,确认一个识别的姓名在文本中用作一个姓名。
9、根据权利要求8所述的方法,其中姓名指示符包括至少两种类型,第一种类型是其中文本中姓名指示符必须在一个姓名指示符指出其可能存在的的姓名之前的类型,第二种类型是文本中姓名指示符可以在一个姓名指示符指示其可能存在的姓名之前或之后的类型,并且所述建立数据包括指示每个姓名指示符的类型,并且所述比较中的所述位置条件考虑到一个识别的姓名相对于一个识别类型的姓名指示符的位置。
10、根据权利要求8所述的方法,其中所述建立包括建立对应于名的数据,和位置条件要求确定文本中的一个姓后面紧跟着一个名。
11、根据权利要求10所述的方法,其中对应于名的数据包括单字符名,两字符名的第一字符,和两字符名的第二字符。
12、根据权利要求8所述的方法,其中姓包括至少两种类型,第一种类型是仅当作为姓名使用时才有意义的姓,和第二种类型是当在不是作为姓名的场合下使用时也有意义的姓,并且所述建立和所述建立数据包括指示每个姓的类型。
13、根据权利要求12所述的方法,其中如果识别出一个第二种类型的姓并且没有对应的识别的姓名指示符,如果满足了位置条件,所获比较不确认识别的姓名在文本中使用,并且将识别的姓名标注为需要在可能把姓名确认为是在文本中作为姓名使用的之前确认。
14、根据权利要求8所述的方法,其中姓名指示符包括表示一个人的身份的词。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/165,988 US7212963B2 (en) | 2002-06-11 | 2002-06-11 | System for distinguishing names in Asian writing systems |
CNB021223580A CN100474291C (zh) | 2002-06-11 | 2002-06-14 | 区分亚洲语言写入系统中姓名的系统 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/165,988 US7212963B2 (en) | 2002-06-11 | 2002-06-11 | System for distinguishing names in Asian writing systems |
CNB021223580A CN100474291C (zh) | 2002-06-11 | 2002-06-14 | 区分亚洲语言写入系统中姓名的系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1464431A CN1464431A (zh) | 2003-12-31 |
CN100474291C true CN100474291C (zh) | 2009-04-01 |
Family
ID=32108641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB021223580A Expired - Fee Related CN100474291C (zh) | 2002-06-11 | 2002-06-14 | 区分亚洲语言写入系统中姓名的系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7212963B2 (zh) |
CN (1) | CN100474291C (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7136805B2 (en) * | 2002-06-11 | 2006-11-14 | Fuji Xerox Co., Ltd. | System for distinguishing names of organizations in Asian writing systems |
US7212963B2 (en) * | 2002-06-11 | 2007-05-01 | Fuji Xerox Co., Ltd. | System for distinguishing names in Asian writing systems |
CN1835077B (zh) * | 2005-03-14 | 2011-05-11 | 台达电子工业股份有限公司 | 中文人名自动语音辨识输入方法及系统 |
KR100755678B1 (ko) * | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
CN101075228B (zh) * | 2006-05-15 | 2012-05-23 | 松下电器产业株式会社 | 识别自然语言中的命名实体的方法和装置 |
US20090060338A1 (en) * | 2007-09-04 | 2009-03-05 | Por-Sen Jaw | Method of indexing Chinese characters |
US8560298B2 (en) * | 2008-10-21 | 2013-10-15 | Microsoft Corporation | Named entity transliteration using comparable CORPRA |
US8326602B2 (en) * | 2009-06-05 | 2012-12-04 | Google Inc. | Detecting writing systems and languages |
US8731901B2 (en) * | 2009-12-02 | 2014-05-20 | Content Savvy, Inc. | Context aware back-transliteration and translation of names and common phrases using web resources |
US8949110B2 (en) * | 2011-09-23 | 2015-02-03 | Ancestry.Com Operations Inc. | System and method for extracting categories of data |
TW201403354A (zh) * | 2012-07-03 | 2014-01-16 | Univ Nat Taiwan Normal | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 |
US9858268B2 (en) * | 2013-02-26 | 2018-01-02 | International Business Machines Corporation | Chinese name transliteration |
US10089302B2 (en) | 2013-02-26 | 2018-10-02 | International Business Machines Corporation | Native-script and cross-script chinese name matching |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN112131871B (zh) * | 2020-09-22 | 2023-06-30 | 平安国际智慧城市科技股份有限公司 | 识别中文人名的方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6694055B2 (en) * | 1998-07-15 | 2004-02-17 | Microsoft Corporation | Proper name identification in chinese |
CN1159661C (zh) * | 1999-04-08 | 2004-07-28 | 肯特里奇数字实验公司 | 用于中文的标记和命名实体识别的系统 |
US7212963B2 (en) * | 2002-06-11 | 2007-05-01 | Fuji Xerox Co., Ltd. | System for distinguishing names in Asian writing systems |
US7136805B2 (en) * | 2002-06-11 | 2006-11-14 | Fuji Xerox Co., Ltd. | System for distinguishing names of organizations in Asian writing systems |
-
2002
- 2002-06-11 US US10/165,988 patent/US7212963B2/en not_active Expired - Fee Related
- 2002-06-14 CN CNB021223580A patent/CN100474291C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20030229634A1 (en) | 2003-12-11 |
US7212963B2 (en) | 2007-05-01 |
CN1464431A (zh) | 2003-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100474291C (zh) | 区分亚洲语言写入系统中姓名的系统 | |
EP0423683B1 (en) | Apparatus for automatically generating index | |
US7136806B2 (en) | Sentence segmentation method and sentence segmentation apparatus, machine translation system, and program product using sentence segmentation method | |
Palmer | Tokenisation and sentence segmentation | |
Zaghouani | RENAR: A rule-based Arabic named entity recognition system | |
Ravin et al. | Extracting names from natural-language text | |
Grefenstette | Tokenization | |
JPH0724055B2 (ja) | 単語分割処理方法 | |
WO1997004405A1 (en) | Method and apparatus for automated search and retrieval processing | |
Fung et al. | Statistical augmentation of a Chinese machine-readable dictionary | |
CN100485663C (zh) | 用于区分汉语文本中组织名称的系统和方法 | |
JP5390522B2 (ja) | 表示文書を解析に向けて準備する装置 | |
Fung | Extracting key terms from Chinese and Japanese texts | |
KR100435442B1 (ko) | 문서 요약 방법 및 시스템 | |
JPS63244259A (ja) | キ−ワ−ド抽出装置 | |
Belaid et al. | Part-of-speech tagging for table of contents recognition | |
Olinsky et al. | Non-standard word and homograph resolution for asian language text analysis. | |
US20090150141A1 (en) | Method and system for learning second or foreign languages | |
JPS61248160A (ja) | 文書情報登録方式 | |
Zeldes | A characterwise windowed approach to Hebrew morphological segmentation | |
Bolton | The Bard in bits: Electronic editions of Shakespeare and programs to analyze them | |
Brooks | Orthography as a fundamental impediment to online information retrieval | |
JP2004265440A (ja) | 未知語登録装置および方法並びに記録媒体 | |
Abbès et al. | AraConc, an Arabic concordance software based on the DIINAR. 1 language resource | |
Maynard et al. | MUSE: a MUlti-Source Entity recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090401 Termination date: 20180614 |