CN104424332A

CN104424332A - 无歧义日本人名列表构建方法、人名识别方法及装置

Info

Publication number: CN104424332A
Application number: CN201310412289.3A
Authority: CN
Inventors: 宋双永; 孟遥; 郑仲光; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-09-11
Filing date: 2013-09-11
Publication date: 2015-03-18

Abstract

本发明公开了无歧义日本人名列表构建方法、人名识别方法及装置。构建列表的方法包括：利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表；将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合；将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合；针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。利用该列表进行分词和人名角色标注，能够提高中文分词的整体准确率、整体的人名角色标注性能以及最终的人名识别结果。

Description

无歧义日本人名列表构建方法、人名识别方法及装置

技术领域

本发明涉及文本识别领域，尤其涉及一种日本人名的识别方法及装置。

背景技术

随着通讯技术的发展，各国交流变得日益广泛、信息传播也变得越来越方便迅速。因此，在中文文本中会包含大量的外国机构名、人名和地名等命名实体。然而，这些命名实体本身并不一定存在于传统的词典之中，属于未登录词（即Out Of Vocabulary，简称OOV），这就给很多以中文分词为基础的自然语言处理相关应用带来了困难。对这些命名实体进行有效识别，能够有效提高网络文本分类、实体关联网络构建以及话题检测与跟踪等应用效果的提高。

在识别该类命名实体的过程中，日本人名的识别难度较大，这是由于日本人名中包含的姓氏很多，并且其长度、用字等方面都没有很严格的限定。目前相关的研究主要分为两类：一类是基于中文分词结果，对词语进行类似“日本人名首字”、“日本人名中间部分”和“日本人名首字与上文成词”等等一系列标注，进而发现日本人名。例如“日本记者川口信一郎报道”一句中，根据分词结果“日本/记者/川/口信/一/郎/报道”，其中的“川”应该被标注为日本人名首字，“口信”和“一”都应该被标注为日本人名中间部分，而“郎”则应该被标记为日本人名尾字。但是由于“川”在除日本人名以外的中文文本中出现的概率也非常的大，因此在这里未能按照上述的正确标注结果对该句进行标注。可见，这是由于分词过程中未能够将“川口”正确识别为日本姓氏导致的，因为虽然“川”在中文文本中出现的概率非常大，但是“川口”则一般只出现在日本人名之中。

另一类日本人名识别方法则是通过发现可能出现的日本姓氏，以及日本人名后缀，并通过相应的概率计算来发现日本人名。例如“小渊惠三首相”中，小渊是日本姓氏，首相是人名后缀，如果计算得到“小渊”、“惠”、“三”组成日本人名的概率大于某阈值，“小渊惠三”就能够被识别为日本人名。但是该方法的局限性很多，首先，日本姓氏的发现对于“林”、“尹”这种中国和日本都存在的姓氏，或者“树下”、“大同”这种在中文文本中有非常大歧义的日本姓氏，都会产生错误的识别结果；其次，人名的后缀很多时候在日本人名之后并未出现，因此该人名后边界识别方式的覆盖范围也不是很高；另外，因为某些字在日本名字中出现的概率很小，也会导致日本人名的漏识别，例如，如果整个训练集中的日本人名都未出现“苇”，那么“大久保苇歌”就会因为“苇”的计算概率为0而无法被识别，然而，“大久保”一般只作为日本姓氏在中文文本中出现，所以即使通过训练数据集计算得到“苇”作为日本人名用字的概率为0，此处也应该被识别为日本人名。

发明内容

本发明针对日本人名的识别难点，设计了一种无歧义日本人名相关词语列表构建方法，并根据该方法得到的无歧义日本人名相关词语列表进行中文分词以及中文文本中的日本人名识别，能够改进上述日本人名识别方法中所存在的问题。

根据本发明的一方面，提供了一种构建无歧义日本人名相关词语列表的方法，所述方法包括：利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表；将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合；将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合；针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。

根据本发明的另一方面，在针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表的步骤中，在日本人名相关词语在训练语料中只作为日本人名相关词语出现，而不作为其他角色出现的情况下，判断该词语为无歧义日本人名相关词语，从而将该词语归并到相应的无歧义日本人名相关词语列表中。

根据本发明的另一方面，提供了一种利用无歧义日本人名相关词语列表的日本人名识别方法，所述日本人名识别方法包括：基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列；对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注；以及利用人名识别模型对所述待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注。

根据本发明的另一方面，所述日本人名识别方法还包括：对待标注序列中的词语进行角色标注之后所获得的标注结果执行包括日本人名识别结果检查和日本人名识别结果扩散的后处理。

根据本发明的另一方面，在基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列的步骤中，在待识别人名的语句中包含无歧义日本人名相关词语的情况下，先将所述无歧义日本人名相关词语分割出来，然后再对待识别人名的语句的其他部分进行分词。

根据本发明的另一方面，提供了一种构建无歧义日本人名相关词语列表的装置，所述装置包括：姓名分离装置，利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表；训练语料划分装置，将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合；日本人名相关词语合并装置，将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合，无歧义日本人名相关词语判断及列表建立装置，针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。

根据本发明的另一方面，无歧义日本人名相关词语判断及列表建立装置在日本人名相关词语在训练语料中只作为日本人名相关词语出现，而不作为其他角色出现的情况下，则判断该词语为无歧义日本人名相关词语，从而将该词语归并到相应的无歧义日本人名相关词语列表中。

根据本发明的另一方面，提供了一种利用无歧义日本人名相关词语列表的日本人名识别装置，所述日本人名识别装置包括：分词装置，基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列；预先标注装置，对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注；以及标注装置，利用人名识别模型对所述待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注。

根据本发明的另一方面，所述日本人名识别装置还包括：后处理装置，对待标注序列中的词语进行角色标注之后所获得的标注结果执行包括日本人名识别结果检查和日本人名识别结果扩散的后处理。

根据本发明的另一方面，所述分词装置在待识别人名的语句中包含无歧义日本人名相关词语的情况下，先将所述无歧义日本人名相关词语分割出来，然后再对待识别人名的语句的其他部分进行分词。

附图说明

图1是根据本发明实施例的构建无歧义日本人名相关词语列表的方法的流程图。

图2示出根据本发明实施例的利用带有日本人名相关标记的训练语料，以及日本常见人名列表和日本姓氏列表构建无歧义日本人名相关词语列表的示意图。

图3是根据本发明实施例的利用无歧义日本人名相关词语列表识别人名的方法的流程图。

图4示出了应用无歧义日本姓氏的前后情况对比的示例。

图5是根据本发明实施例的构建无歧义日本人名相关词语列表的装置的示意框图。

图6是根据本发明实施例的利用无歧义日本人名相关词语列表识别人名的装置的框图。

图7是示出可用来实现根据本发明实施例的构建无歧义人名列表的方法及装置或日本人名识别方法和装置的一种可能的信息处理设备的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

根据本发明实施例的构建无歧义日本人名相关词语列表的方法，所述方法包括：利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表；将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合；将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合，并针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。

在中文文本中，很多日本人名一般不会出现在其他语言环境之中，而只会作为日本人名相关词语出现，例如日本全名中的“小泉纯一郎”、“中村雄二郎”，日本姓氏中的“藤原”、“小泽”和“大久保”以及日本名字中的“美智子”、“森右卫门”等等。以往方法通过考虑整个语句中的分词概率最大化以及词语序列标注概率最大化的方式对该语句进行分词和角色标注，但是该类方法的缺陷是，其他词语分割或者标注的概率变化，有可能导致将上述无歧义的日本人名相关词语被错误分割或者被标注成其他角色，从而导致了日本人名识别的错误。

本发明将该类只作为日本人名相关词语出现的词语称为无歧义日本人名相关词语，并通过统计无歧义日本人名相关词语在中文文本中的出现情况，得到无歧义日本人名相关词语列表。所述无歧义日本人名相关词语列表可根据无歧义日本人名相关词语在日本人名中所处的位置，进一步划分为无歧义日本姓氏列表、无歧义日本名字列表和无歧义日本全名列表。相应地，本文中所述的日本人名相关词语包括日本姓氏、日本名字、日本全名。

在本发明中，将该类无歧义词语列表作为确定的词语从语句中分割出来，并标注成相应的日本人名相关角色，也就是说，将以往方法中的语句整体分词和角色标注转化为在该类无歧义词语的分割和角色标注已经确定的情况下对语句其他部分进行分割和角色标注，能够提高日本人名的识别精度。

下面将参考图1至图7对本发明进行详细描述。

图1示出了无歧义日本人名相关词语列表的构建方法。这里，用到的数据资源包括带有日本人名相关标记的训练语料，以及日本常见人名列表和日本姓氏列表。图2示出了根据本发明实施例的利用带有日本人名相关标记的训练语料，以及日本常见人名列表和日本姓氏列表构建无歧义日本人名相关词语列表的示意图。下面将结合图2对图1所示的无歧义日本人名相关词语列表的构建方法进行说明。

在步骤S110中，利用日本姓氏列表对日本常见人名列表进行姓名分离操作，得到日本名字列表。

在步骤S120中，将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合。这里，将带有日本人名相关标记的训练语料中包含的日本全名、日本姓氏和日本名字整理成日本人名相关词语集合，并将其他无关词语整理成其他词语集合。其中，需要注意的是，这两个集合中的词语有可能是重复的，例如“林”作为日本姓氏在训练语料中出现过，并且还作为其他词语也在训练语料中出现过，因此，“林”会同时出现在日本人名相关词语集合和其他词语集合中。

显然，执行所述步骤S110和步骤S120并不限于描述的顺序，步骤S110和步骤S120可以同时进行或者步骤S120比步骤S110先执行。

在步骤S130中，将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和日本名字列表合并为日本人名相关词语总集合；并在步骤S140中判断日本人名相关词语总集合中的日本人名相关词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。

仅作为示例，这里所述的日本人名相关词语包括日本全名、日本姓氏和日本名字。相应地，所述无歧义日本人名相关词语列表包括无歧义日本名字列表、无歧义日本姓氏列表和无歧义日本全名列表，并且无歧义日本名字列表由至少一个无歧义日本名字构成，无歧义日本姓氏列表由至少一个无歧义日本姓氏构成，而无歧义日本全名列表由至少一个无歧义日本全名构成。

关于日本人名相关词语总集合中的日本人名相关词语是否是无歧义日本人名相关词语的判断可以基于下面的原则进行：如果日本人名相关词语总集合中的某个日本人名相关词语在训练语料中只作为日本人名相关词语出现，而不作为其他角色出现，则可判断该词语为无歧义日本人名相关词语，从而归并到相应的无歧义日本人名相关词语列表中。

作为示例，可以通过计算角色概率来确定日本人名相关词语是否是无歧义的，即确定日本名字、日本姓氏或日本全名是否是无歧义的。下面给出计算角色概率的公式：

P_{J} = \frac{F_{J}}{F_{J} + F_{E}}

其中，P_J是指词语作为“日本人名相关词语”的角色出现的概率，F_J是指该词语作为“日本人名相关词语”的角色在训练语料中出现的次数，F_E是指该词语作为其他角色在训练语料中出现的次数。当P_J=1的情况下，该词语属于无歧义的日本人名相关词语，而归并到无歧义日本人名相关词语列表。此时，F_E=0，即该词语从未作为日本人名相关词语以外的角色出现过。

具体来讲，如果某一日本姓氏词语在训练语料中只作为日本姓氏出现，则将其归并到无歧义日本姓氏列表；如果某日本名字词语在训练语料中只作为日本名字出现，则将其归并到无歧义日本名字列表；如果某一全名词语在训练语料中只作为日本全名出现，则将其归并到无歧义日本全名列表。

例如日本姓氏“上米良”，在包括训练语料的中文文本中从来没有出现过同样的三字连续字串，另外，例如日本人名“真之助”只作为日本人名字在中文文本中出现过，则可以将它们分别归并到无歧义日本姓氏列表和无歧义日本名字列表。在这样的词语出现时，就能够认为它们是作为日本人名的组成部分而出现的，有助于对中文文本中包含的日本人名进行准确的判断和识别。

图3示出了基于无歧义日本人名相关词语列表的日本人名识别方法的流程图。下面将对图3的各个步骤进行详细描述。

在步骤S310，基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以得到待标注序列。这里，所提到的待识别人名的语句可以是句子，也可以是短语等。

传统的利用统计模型（例如语言模型）进行的基于词典的中文分词算法能够正确地识别通用词汇，但是却往往不具有良好的领域自适应性。在分词过程中，一些日本人名相关的词汇将会被分解成多个基础词汇，例如“稻盛”本为日本常见姓氏，但是在分词过程中，“稻”和“盛”将会被分成两个部分。因此不能正确识别日本姓氏。

根据本发明实施例，在分词过程中，如果待识别人名的语句中包含无歧义日本人名相关词语，则先将该类词语分割出来，然后再对语句的其他部分进行分词，这种对包含无歧义日本人名相关词语进行预先分割的过程能够防止这些无歧义日本人名相关词语被错误地分割，从而影响之后的日本人名识别过程。

因此，根据本发明实施例的将无歧义日本人名相关词语列表与基于通用词典的统计模型相结合进行分词，不仅提高了中文分词的准确率，也同时能在人名识别过程中有效提高日本人名的识别效果。在基于无歧义日本人名相关词语列表对待识别人名的语句进行分词的过程中，因为该类日本人名相关词语的无歧义性，因此将这些词语看做是分词过程的已知前提条件，在此基础上，进行前面提到的基于基础词典的统计模型分词过程。

图4示出了在对“稻盛先生”做分词处理时，考虑“稻盛”为无歧义日本姓氏的前后情况对比的一个直观的示例。在图4所示的左边的示图中，表示在做分词处理时由于没有将“稻盛”作为无歧义日本姓氏，需要要对图中示出的八种分词情况（“稻/盛/先/生”、“稻盛/先/生”、“稻/盛先/生”、“稻/盛/先生”、“稻/盛先生”、“稻盛先/生”、“稻盛/先生”、“稻盛先生”）求分词概率最大的值并将与该分词概率最大的值相应的分词情况作为最后的分词结果，而图4所示的右边的示图中，由于考虑了“稻盛”作为无歧义日本姓氏，则只需要对图中示出的两种分词情况（“稻盛/先/生”、“稻盛/先生”）求分词概率最大的值，进而得到与之相应的分词结果。为了理解方便，这里用Pmax表示从图4中“Pmax”右边示出的那些情况中计算出分词概率最大的一种。在该分词过程中，将基于无歧义日本人名相关词语列表考虑进来，从而改进了分词结果。

再如，基于中文词典的前向最大匹配方法得到的“日本大藏相宫泽喜一4日向国会参众两院递交了1998年第三次补充预算案”的分词结果为“日本/大/藏/相/宫/泽/喜/一/4/日/向/国会/参/众/两/院/递交/了/1/9/9/8/年/第/三/次/补充/预算/案/”，将上述无歧义日本人名相关词语列表考虑进来之后，分词结果被改为“日本/大/藏/相/宫泽/喜/一/4/日/向/国会/参/众/两/院/递交/了/1/9/9/8/年/第/三/次/补充/预算/案/”。可见，无歧义日本姓氏“宫泽”的分词结果被改正，这样就增大了该处日本人名“宫泽喜一”在后续过程中被识别出的概率。

在步骤S320中，先对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注。

在步骤S330中，在对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注的基础上，利用人名识别模型对待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注，从而完成人名识别。

作为示例，人名识别模型可以利用条件随机场（CRF）模型、隐马尔科夫模型或者其他类似的概率统计模型来对待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注。利用人名识别模型进行人名标注是利用模型训练结果，寻找给定待标注序列的最佳标注路径，该最佳路径对应着整体标注的最大概率组合。

为了方便理解，下面以CRF模型为例来对包括步骤S320和步骤S330的角色标注过程进行详细说明。在CRF模型中，该概率组合可表示为如下公式：

P (y | x) &Proportional; \exp [Σ_{k = 1}^{K} λ_{k} Σ_{i = 2}^{n} t_{k} (y_{i - 1}, y_{i}, x, i) + Σ_{d = 1}^{D} μ_{d} Σ_{i = 1}^{n} s_{d} (y_{i}, x, i)]

其中，x为表示为词语序列的中文语句，y为词语序列对应的可能的标注序列。P(y|x)表示给定输入序列x，对输出序列y预测的条件概率。等式右边，n为x和y序列的长度，i表示目前正在计算x序列中第i个词语。计算P(y|x)需要考虑两方面的因素，一是序列状态特征，即s_d，s_d依赖于当前位置，表示x被标注为y_i的情况；对于同一类型的序列状态特征s_d，其对应的权值系数为μ_d，D为序列状态特征的类别数目。需要考虑的第二方面因素，是状态转移特征，即t_k，t_k依赖于当前和前一个位置，表示由前一个状态y_i-1转移到当前状态y_i的情况。对于同一类型的状态转移特征t_k，其对应的权值系数为λ_k。K为状态转移特征的类别数目。

然而，最佳路径只是能够保证序列中尽量多的元素被正确标注，并不一定能够体现在人名识别过程中基于无歧义日本人名相关词语列表的应用效果。为此，需要在利用人名识别模型进行标注之前，将待标注序列中的无歧义日本人名相关词语给定对应的标注结果，例如“日本人名姓氏”、“日本人全名”等，在此基础上，建立一种“在部分元素的标注结果已经给定”的情况下的利用人名识别模型进行标注的方法。

仍然以条件随机场模型为例，在部分元素的标注结果已经给定的情况下的概率组合公式改写为如下形式：

P (y | x) &Proportional; \exp [Σ_{k = 1}^{K} λ_{k} Σ_{i = 2}^{n} t_{k} (y_{i - 1}, y_{i}, x, i) + Σ_{d = 1}^{D} μ_{d} Σ_{i = 1}^{n} s_{d} (y_{i}, x, i)], y_{a} = {tag}_{1}, y_{b} = {tag}_{2}, . . .

其中，a和b为已经确定标注的无歧义日本人名相关词语在序列中的位置，y和tag则对应该元素的观测值和标注结果。因此，将原来的最佳路径搜索问题转化为现在的条件限定下的最佳路径搜索问题。

当然，日本人名相关词语的标注名称可包括但不限于“日本姓氏”、“日本人名首部”或者“人名连接词”等。下表给出了日本人名相关词语的标注名称的列表及举例，在标注过程中，如果遇到分词中分割出来的无歧义日本人名相关词语，应该首先给出对应的正确标注，例如将“藤田”标注为“日本人名姓氏”，之后再对其他词语进行相应的标注，这样的过程能够使得训练出来的模型正确标注这些无歧义的日本人名相关词语。

例如对于句子“日本/大/藏/相/宫泽/喜/一/4/日/向/国会/参/众/两/院/递交/了/1/9/9/8/年/第/三/次/补充/预算/案/”，需要首先将“宫泽”标注为“日本姓氏”，之后再对其他词语进行基于序列标注概率最大化的标注。进一步地，将里面诸如“日本姓氏+日本名字”或者“日本姓氏+日本人名中部+日本人名尾部”等等序列组合进行合并，能够识别中语句中的日本人名。

优选地，根据本发明实施例的日本人名识别方法还可以包括步骤S340。在步骤S340中对在步骤S330中对待标注序列中的词语进行角色标注之后所获得的标注结果执行后处理。这里，后处理是指对在步骤S330中得到的角色标注结果进行进一步的处理，其包括日本人名识别结果检查处理和日本人名识别结果扩散处理，经过这种后处理之后得到最终的日本人名识别结果。

作为示例，日本人名识别结果检查操作是利用一些被大量正确识别的日本人名结果，改正一些错误的识别情况。该过程能够利用“查询词规则”进行处理，即：“如果识别结果中的日本人名x被另一日本人名y所包含，并且日本人名y的出现次数大于等于两次，那么，当日本人名x能够与其前面和/或后面的字词组成日本人名y时，对x进行改正”。例如，‘结城聪’作为日本人名在其他文本中被大量正确识别，但是却在“结城聪明日将战宋雪林”一句中被错误识别为‘结城’，基于上述规则，能够将该结果改正。

作为示例，日本人名识别结果扩散操作表示在文档中正确识别出至少一个某日本人名的情况下，如果该文档中还包括与识别出的该日本人名相同的词语，则将该词语识别为“日本人名”，这就减小同一日本人名因为语境不同而不能全部被识别的情况，提高整体识别结果的召回率。例如“中国选手金玲、中国台北的周俊昕分别败给了日本的太田阳子和美国的马塞尔.福拉提出局，未能进入第二轮。在该项目上太田阳子一把就过，而金玲则失败了两次。”一句中，第一个“太田阳子”被正确识别，但是第二个“太田阳子”由于前后语境中“上”作为人名前词以及“一把”作为人名后词的概率不高，所以第二个“太田阳子”未被识别。因此，采用“同一文档中的日本人名识别结果进行扩散”的规则，就能够同时将第二处日本人名正确识别。

需要注意的是，根据本发明的日本人名识别方法可以不包括步骤S340，而只执行步骤S310至步骤S330的操作。

根据本发明的示例性实施例，在图3的步骤S330中所使用的人名识别模型可以是根据现有技术所建立起来的人名识别模型，也可以是基于根据本发明示例性实施例的无歧义日本人名相关词语列表所建立起来的人名识别模型。两者之间的区别就在于人名语料的分词过程是否基于根据本发明示例性实施例的无歧义日本人名相关词语列表。如果基于根据本发明示例性实施例的无歧义日本人名相关词语列表对用于训练的人名语料进行分词并得到分词语料，则对所得到的分词语料进行人名角色标注。例如上面的“日本/大/藏/相/宫泽/喜/一/4/日/向/国会/参/众/两/院/递交/了/1/9/9/8/年/第/三/次/补充/预算/案/”中，“宫泽”被标注为“日本姓氏”，“喜”被标注为“日本人名中部”，“一”被标注为“日本人名尾部”，除此以外的词语被标注为“其他词语”。然后对人名角色标注结果进行训练以得到人名识别模型。经过这种处理所得到的人名识别模型与传统方法所得到的人名识别模型相比，具有更精确的人名识别效果。

在得到了所述无歧义日本人名相关词语列表之后，能够将该列表应用于以下日本人名识别的步骤之中：首先，通过将所述无歧义人名相关词语列表添加到中文分词过程，能够正确分割无歧义日本人名相关词语（诸如“美智子”、“小泉纯一郎”等），然后在所述无歧义日本人名相关词语被正确分词的基础上，再对其他文本部分进行基于中文词典的中文分词。该过程能够提高中文分词的整体准确率。

其次，在对分词结果进行人名角色标注的过程中，因为上述无歧义日本人名相关词语在日本人名中的位置也已经确定，即可以是日本姓氏、日本名字或日本全名，因此在该类词语被正确标注的基础上，对其他部分的分词结果进行基于概率统计模型的人名角色标注，能够提高整体的人名角色标注性能，进而提高最终的人名识别结果，尤其是日本人名的识别结果。

本发明的实施例还提供了一种用于构建无歧义日本人名相关词语列表的装置，下面结合图5来描述根据本发明实施例的构建无歧义日本人名相关词语列表的装置。

如图5所示，根据本发明示例性实施例的构建无歧义日本人名相关词语列表的装置包括：姓名分离装置510、训练语料划分装置520、日本人名相关词语合并装置530和无歧义日本人名相关词语判断及列表建立装置540。根据本发明示例性实施例，所述姓名分离装置510被配置为利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表；训练语料划分装置520被配置为将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合；日本人名相关词语合并装置530被配置为将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合；所述无歧义日本人名相关词语判断及列表建立装置540被配置为针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。

需要注意的是，所述姓名分离装置510、训练语料划分装置520、日本人名相关词语合并装置530和无歧义日本人名相关词语判断及列表建立装置540分别执行如参照图1描述的步骤S110、S120、S130和S140的操作，为了简便起见，这里将不对其详细操作进行描述。

另外，根据本发明的另一实施例，本发明还提供了利用根据图5所述的构建无歧义日本人名相关词语列表的装置构建的无歧义日本人名相关词语列表的日本人名识别装置。图6描述了这种日本人名识别装置的示图。所述日本人名识别装置包括分词装置610、预先标注装置620、标注装置630。根据本发明的示例性实施例，所述分词装置610被配置为基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列；所述预先标注装置620被配置为对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注；而所述标注装置630被配置为利用人名识别模型对所述待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注。

作为示例，所述分词装置610在待识别人名的语句中包含无歧义日本人名相关词语的情况下，先将所述无歧义日本人名相关词语分割出来，然后再对待识别人名的语句的其他部分进行分词。

作为本发明的又一实施例，所述日本人名识别装置还可以包括后处理装置640，所述后处理装置640被配置为对待标注序列中的词语进行角色标注之后所获得的标注结果执行包括日本人名识别结果检查和日本人名识别结果扩散的后处理。

作为示例，后处理装置640执行的日本人名识别结果检查的操作利用被正确识别的日本人名改正被错误识别的日本人名,其中，在识别结果中的日本人名被另一日本人名所包含，并且所述另一日本人名的出现次数大于等于两次的情况下，后处理装置640在所述日本人名能够与其前面的和/或后面的字词组成所述另一日本人名时，对所述日本人名进行改正。

此外，后处理装置640执行的日本人名识别结果扩散操作表示在文档中正确识别出至少一个特定日本人名，并且该文档中还包括与识别出的所述特定日本人名相同的词语的情况下，后处理装置640将所述与识别出的所述特定日本人名相同的词语识别为所述特定日本人名。

需要注意的是，根据本发明实施例的日本人名识别装置中包括的所述日本人名识别装置包括分词装置610、预先标注装置620、标注装置630以及后处理装置640被配置为分别执行与参照图3的步骤S310、S320、S330和S340相同的操作。为了简便起见，这里将不对其详细操作进行描述。

图7是示出了可用来实现根据本发明实施例的构建无歧义人名列表的方法及装置或日本人名识别方法和装置的一种可能的信息处理设备的硬件配置的结构简图。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM703中，还根据需要存储当CPU701执行各种处理等等时所需的数据。CPU701、ROM702和RAM703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件也连接到输入/输出接口705：输入部分706（包括键盘、鼠标等等）、输出部分707（包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分708（包括硬盘等）、通信部分709（包括网络接口卡例如LAN卡、调制解调器等）。通信部分709经由网络例如因特网执行通信处理。根据需要，驱动器710也可连接到输入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上，使得从中读出的计算机程序可根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的用于修正图像角点的方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”，“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度，而仅仅是为了描述清楚起见而被配置用于在这些特征、要素、步骤或组件之间进行标识。

此外，本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

此外，显然，根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元（CPU）读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

最后，还需要说明的是，在本文中，诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

综上，在根据本发明的实施例中，本发明提供了（但是不限于）如下方案：

附记1、一种构建无歧义日本人名相关词语列表的方法，所述方法包括：利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表；将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合；将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合；针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。

附记2、如附记1所述的方法，其中，所述无歧义日本人名相关词语列表包括无歧义日本名字列表、无歧义日本姓氏列表和无歧义日本全名列表，并且无歧义日本名字列表由至少一个无歧义日本名字构成，无歧义日本姓氏列表由至少一个无歧义日本姓氏构成，而无歧义日本全名列表由至少一个无歧义日本全名构成。

附记3、如附记2所述的方法，其中，所述日本人名相关词语包括日本名字、日本姓氏以及日本全名。

附记4、如附记3所述的方法，其中，在针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表的步骤中，在日本人名相关词语在训练语料中只作为日本人名相关词语出现，而不作为其他角色出现的情况下，判断该词语为无歧义日本人名相关词语，从而将该词语归并到相应的无歧义日本人名相关词语列表中。

附记5、一种利用如附记1-4中的任一方法构建的无歧义日本人名相关词语列表的日本人名识别方法，所述日本人名识别方法包括：基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列；对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注；以及利用人名识别模型对所述待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注。

附记6、如附记5所述的日本人名识别方法，还包括：对待标注序列中的词语进行角色标注之后所获得的标注结果执行包括日本人名识别结果检查和日本人名识别结果扩散的后处理。

附记7、如附记6所述的日本人名识别方法，其中，在基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列的步骤中，在待识别人名的语句中包含无歧义日本人名相关词语的情况下，先将所述无歧义日本人名相关词语分割出来，然后再对待识别人名的语句的其他部分进行分词。

附记8、如附记6所述的日本人名识别方法，其中，日本人名识别结果检查的操作利用被正确识别的日本人名改正被错误识别的日本人名,其中，在识别结果中的日本人名被另一日本人名所包含，并且所述另一日本人名的出现次数大于等于两次的情况下，在所述日本人名能够与其前面的和/或后面的字词组成所述另一日本人名时，对所述日本人名进行改正。

附记9、如附记6所述的日本人名识别方法，其中，日本人名识别结果扩散操作表示在文档中正确识别出至少一个特定日本人名，并且该文档中还包括与识别出的所述特定日本人名相同的词语的情况下，将所述与识别出的所述特定日本人名相同的词语识别为所述特定日本人名。

附记10、如附记5所述的日本人名识别方法，其中，所述人名识别模型是基于无歧义日本人名相关词语列表建立的模型，其中，基于无歧义日本人名相关词语列表对用于训练的人名语料进行分词以得到用于训练的待标注序列，对所述用于训练的待标注序列进行人名角色标注，并对人名角色标注的结果进行训练以得到所述人名识别模型。

附记11、一种构建无歧义日本人名相关词语列表的装置，所述装置包括：姓名分离装置，利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表；训练语料划分装置，将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合；日本人名相关词语合并装置，将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合，无歧义日本人名相关词语判断及列表建立装置，针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。

附记12、如附记10所述的装置，其中，所述无歧义日本人名相关词语列表包括无歧义日本名字列表、无歧义日本姓氏列表和无歧义日本全名列表，并且无歧义日本名字列表由至少一个无歧义日本名字构成，无歧义日本姓氏列表由至少一个无歧义日本姓氏构成，而无歧义日本全名列表由至少一个无歧义日本全名构成。

附记13、如附记12所述的装置，其中，所述日本人名相关词语包括日本名字、日本姓氏以及日本全名。

附记14、如附记13所述的装置，其中，无歧义日本人名相关词语判断及列表建立装置在日本人名相关词语在训练语料中只作为日本人名相关词语出现，而不作为其他角色出现的情况下，则判断该词语为无歧义日本人名相关词语，从而将该词语归并到相应的无歧义日本人名相关词语列表中。

附记15、一种利用如附记11-14中的任一装置构建的无歧义日本人名相关词语列表的日本人名识别装置，所述日本人名识别装置包括：分词装置，基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列；预先标注装置，对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注；以及标注装置，利用人名识别模型对所述待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注。

附记16、如附记15所述的日本人名识别装置，还包括：后处理装置，对待标注序列中的词语进行角色标注之后所获得的标注结果执行包括日本人名识别结果检查和日本人名识别结果扩散的后处理。

附记17、如附记16所述的日本人名识别装置，其中，分词装置在待识别人名的语句中包含无歧义日本人名相关词语的情况下，先将所述无歧义日本人名相关词语分割出来，然后再对待识别人名的语句的其他部分进行分词。

附记18、如附记16所述的日本人名识别装置，其中，后处理装置执行的日本人名识别结果检查的操作利用被正确识别的日本人名改正被错误识别的日本人名,其中，在识别结果中的日本人名被另一日本人名所包含，并且所述另一日本人名的出现次数大于等于两次的情况下，后处理装置在所述日本人名能够与其前面的和/或后面的字词组成所述另一日本人名时，对所述日本人名进行改正。

附记19、如附记16所述的日本人名识别装置，其中，后处理装置执行的日本人名识别结果扩散操作表示在文档中正确识别出至少一个特定日本人名，并且该文档中还包括与识别出的所述特定日本人名相同的词语的情况下，后处理装置将所述与识别出的所述特定日本人名相同的词语识别为所述特定日本人名。

附记20、如附记15所述的日本人名识别装置，其中，所述人名识别模型是基于无歧义日本人名相关词语列表建立的模型，其中，基于无歧义日本人名相关词语列表对用于训练的人名语料进行分词以得到用于训练的待标注序列，对所述用于训练的待标注序列进行人名角色标注，并对人名角色标注的结果进行训练以得到所述人名识别模型。

尽管已经针对有限数目的实施方式描述了本公开的实施方式，但是要理解的是，可以做出对其作出许多变型、修改以及应用。

Claims

1.一种构建无歧义日本人名相关词语列表的方法，所述方法包括：

利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表；

将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合；

将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合；

针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。

2.如权利要求1所述的方法，其中，在针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表的步骤中，在日本人名相关词语在训练语料中只作为日本人名相关词语出现，而不作为其他角色出现的情况下，判断该词语为无歧义日本人名相关词语，从而将该词语归并到相应的无歧义日本人名相关词语列表中。

3.一种利用如权利要求1-2中的任一方法构建的无歧义日本人名相关词语列表的日本人名识别方法，所述日本人名识别方法包括：

基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列；

对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注；以及

利用人名识别模型对所述待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注。

4.如权利要求3所述的日本人名识别方法，还包括：对待标注序列中的词语进行角色标注之后所获得的标注结果执行包括日本人名识别结果检查和日本人名识别结果扩散的后处理。

5.如权利要求4所述的日本人名识别方法，其中，在基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列的步骤中，在待识别人名的语句中包含无歧义日本人名相关词语的情况下，先将所述无歧义日本人名相关词语分割出来，然后再对待识别人名的语句的其他部分进行分词。

6.一种构建无歧义日本人名相关词语列表的装置，所述装置包括：

姓名分离装置，利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表；

训练语料划分装置，将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合；

日本人名相关词语合并装置，将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合，

无歧义日本人名相关词语判断及列表建立装置，针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。

7.如权利要求6所述的装置，其中，无歧义日本人名相关词语判断及列表建立装置在日本人名相关词语在训练语料中只作为日本人名相关词语出现，而不作为其他角色出现的情况下，判断该词语为无歧义日本人名相关词语，从而将该词语归并到相应的无歧义日本人名相关词语列表中。

8.一种利用如权利要求6-7中的任一装置构建的无歧义日本人名相关词语列表的日本人名识别装置，所述日本人名识别装置包括：

分词装置，基于无歧义日本人名相关词语列表对待识别人名的语句进行分词以获得待标注序列；

预先标注装置，对待标注序列中包含的无歧义日本人名相关词语给定相应的角色标注；以及

标注装置，利用人名识别模型对所述待标注序列中除无歧义日本人名相关词语之外的其他词语进行角色标注。

9.如权利要求8所述的日本人名识别装置，还包括：

后处理装置，对待标注序列中的词语进行角色标注之后所获得的标注结果执行包括日本人名识别结果检查和日本人名识别结果扩散的后处理。

10.如权利要求9所述的日本人名识别装置，其中，分词装置在待识别人名的语句中包含无歧义日本人名相关词语的情况下，先将所述无歧义日本人名相关词语分割出来，然后再对待识别人名的语句的其他部分进行分词。