CN101520778A

CN101520778A - 用于确定中文词性的设备和方法

Info

Publication number: CN101520778A
Application number: CN200910008355A
Authority: CN
Inventors: 出羽达也
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-02-27
Filing date: 2009-02-26
Publication date: 2009-09-02
Also published as: US20090216522A1; JP2009205357A

Abstract

本发明涉及用于确定中文词性的设备和方法。单词序列存储单元对应地存储日文单词序列和日文单词序列中单词的日文词性。词性对应存储单元对应地存储日文词性和中文词性。翻译单元将输入的中文单词序列翻译成日文单词序列。搜索单元在单词序列存储单元中搜索相应对应于翻译的日文单词序列中的单词的日文词性。确定单元确定词性对应存储单元中存储的对应于在搜索中找到的日文词性的中文词性为被翻译成在搜索中找到的词性的日文单词的中文单词的词性。

Description

用于确定中文词性的设备和方法

技术领域

本发明涉及一种用于确定中文单词序列中每个单词词性的设备和方法。

背景技术

在例如机器翻译所使用的自然语言处理过程中，常常需要确定输入语句中单词的词性。为了确定词性，需要事先向词典中存储的单词赋予词性。JP-A H11-212974(特开)提供了一种技术，通过利用另一种语言的词性降低了向词典中存储的目标语言单词赋予词性所需的工作量。

一般而言，在诸如日文、英文和中文之类的很多语言中，一个单词可以具有多个词性而没有任何表面变化。于是，对于能具有多个词性的这种单词而言，必需要确定在输入语句中该单词使用的是哪个词性。

例如，含义为“to manage”的中文动词是用两个中文字符表达的。另一方面，还可以将相同的两个中文字符用作含义为“management”的名词。于是，有必要提出一种方法，来根据输入语句的语境，准确地确定这两个中文字符使用的是什么词性(即，动词或名词)。作为从多个词性候选中选择适当词性的方法范例，一般知道有诸如“隐藏马克波夫模型(Hi ddenMarkov Model)”之类的统计学方法。

然而，在使用这种统计学方法时，仍然有一个问题，即必需要获取大量的训练数据来充当用于获得统计值的正确答案范例。此外，为了创建训练数据，必需要人工检查涉及这种有多个词性的单词的所有范例。

发明内容

根据本发明的一个方面，一种确定每个中文单词词性的词性确定设备包括：单词序列存储单元，其对应地存储均由连接在一起使用的多个单词构成的日文单词序列以及在所述日文单词序列中包含的单词的日文词性；词性对应存储单元，其对应地存储日文词性和中文词性；输入单元，其接收中文单词序列的输入；翻译单元，其将所述中文单词序列翻译成日文的形式来生成经翻译的单词序列；搜索单元，其利用所述经翻译的单词序列中包含的连续日文单词作为关键词序列，从所述单词序列存储单元中搜索与所述日文单词序列中匹配于所述关键词序列的一个日文单词序列相对应的日文词性；获得单元，其从所述词性对应存储单元获得与在所述搜索中找到的所述日文词性相对应的两个或更多所述中文词性；以及确定单元，其确定所获得的中文词性是被翻译成所述关键词序列中包含的日文单词的相应的中文单词的词性。

根据本发明的另一个方面，一种由确定每个中文单词词性的词性确定设备实施的词性确定方法包括：接收中文单词序列的输入；通过将所述中文单词序列翻译成日文的形式来生成经翻译的单词序列；利用所述经翻译的单词序列中包含的连续日文单词作为关键词序列，从单词序列存储单元中搜索与日文单词序列中匹配于所述关键词序列的一个日文单词序列相对应的日文词性，所述单词序列存储单元对应地存储均由连接在一起使用的多个单词构成的所述日文单词序列以及在所述日文单词序列中包含的单词的日文词性；从词性对应存储单元获得与在所述搜索中找到的所述日文词性相对应的两个或更多所述中文词性，所述词性对应存储单元对应地存储日文词性和中文词性；以及确定所获得的中文词性是被翻译成所述关键词序列中包含的日文单词的相应的中文单词的词性。

附图说明

图1是充当根据本发明实施例的词性确定设备的词语提取设备的方框图；

图2是平行翻译词典数据结构范例的图示；

图3是平行翻译词典数据结构另一范例的图示；

图4是单词序列存储单元中所存数据的数据结构范例的图示；

图5为词性对应存储单元中所存数据的数据结构范例的图示；

图6是根据本发明实施例的词语提取过程总流程的流程图；

图7是处理表格范例的图示；

图8是处理表格另一范例的图示；

图9是处理表格另一范例的图示；以及

图10是用于解释根据本发明实施例的词性确定设备的硬件配置的图示。

具体实施方式

将参考附图详细描述根据本发明的设备和方法的示范性实施例。

为了确定中文单词的词性，根据本发明实施例的词性确定设备利用了与日文有关的如下特征(1)、(2)和(3)，日文是一种使用类似于中文所用字符的中文字符的语言：

(1)可以将一些既能用作动词又能用作名词的中文单词与日文中的“SA-hen”名词对应起来；

(2)确定日文中“SA-hen”名词的词性比确定对应中文单词的词性更容易；以及

(3)日文和中文中复合名词的构成(即词序)有一些相似性。

更具体而言，根据本实施例的词性确定设备事先以机械方式构建数据库，该数据库中存储日文单词序列，每个日文单词序列都如日文短语那样具有含义，且已经针对每个日文单词序列确定了词性。在确定即可以用作动词又可以用作名词的每一中文单词的词性时，该词性确定设备会参考数据库中存储的信息。通常，创建这种数据库需要人工检查数据；然而，如上面第(2)条所述，确定日文的词性比中文容易。于是，通过收集大量文本并自动将文本分成单词，且通过公知的词法分析过程为单词赋予词性，就能够创建该数据库，从而能够以高水平的精确度确定词性。

可以将根据本实施例的词性确定设备用于确定通过分析中文语句获得的每个单词词性的功能，该功能例如包含在从向其输入的中文语句提取词语(term)的词语提取设备中，对向其输入的中文语句进行语法分析的分析设备中、或将向其输入的中文语句翻译成另一种语言的机器翻译设备中。在下面的段落中，将解释这样的范例，其中将词性确定设备实现为从向其输入的中文语句中提取词语的词语提取设备。

如图1所示，词语提取设备100包括：词典存储单元121；单词序列存储单元122；词性对应存储单元123；输入单元101；翻译单元102；搜索单元103；获得单元104；确定单元105和词语提取单元106。

词典存储单元121中存储平行翻译词典，其中与日文字符对应地存储中文字符。如图2所示，平行翻译词典中存储中文的单词(即汉字)以及分别与各个中文单词处于平行翻译关系的日文单词(即日文翻译单词)，同时保持它们彼此对应。

平行翻译词典的数据结构不限于图2中所示的范例。平行翻译词典可以是任何其他格式，只要可以用该词典将中文转换成对应的日文即可。图3中所示的为平行翻译词典的另一范例(在下文中称为“中日字符对应表”)，其中将使用中文的单个中文字符与相应的使用日文的对应中文字符保持对应关系。

返回到图1的描述，单词序列存储单元122中存储(i)作为短语事先获得的日文单词序列，每个日文单词序列由连在一起使用的多个单词构成；以及(ii)日文词性序列，每个日文词性序列包括日文单词序列中对应一个中包含的单词的日文词性。单词序列存储单元122能够在其中存储均具有任意长度的日文单词序列。不过，根据本实施例，假设单词序列存储单元122中存储均由两个连续单词构成的单词序列。

为了收集大量如图4所示的日文单词序列和它们对应的日文词性序列，必需要获得大量文本，它们被分成单词，分别为这些单词赋予词性(即带词性标签的主体)。如果要人工检查将文本分成单词的过程的结果和为单词赋予词性的过程的结果，像常规方法中那样，将会需要大量的人工劳动。然而，在日文中，可以利用公知的词法分析技术，无需人工检查数据就获得具有充分高精确度的数据。

例如，图2中的日文翻译单词212被用作名词，并常伴有特定情形的小品词。或者，在伴有适应上下文的连接词结尾时，日文翻译单词212可以被用作动词。例如，图2中的日文翻译单词211是通过向日文翻译单词212增加结合(conjugation)词尾213获得的动词。如利用这些范例解释的，因为日语具有明确的形态特征，因此即使在由计算机机械地执行确定过程时，也能够以较高的精确度确定词性。

另一方面，与日文翻译单词212对应的中文单词201也可以既用作动词又用作名词。然而，中文没有日文中所用的结合词尾或情形小品词的等价物。于是，当计算机对中文机械地进行确定时，结果的精确水平低于对日文所执行的过程结果。

如上文第(2)条所述，对日文“SA-hen”名词执行的词性确定过程的精确水平很高。于是，根据本实施例，单词序列存储单元122中存储词性确定过程的结果，示出均仅由名词构成的这种单词序列。然而，所存储的日文单词序列中包含的单词词性不限于名词。另一种设置是可接受的，即单词序列存储单元122中存储均包含词性不是名词的一个或多个单词的日文单词序列。

返回到图1的描述，词性对应存储单元123中存储日文词性和中文词性，同时保持它们彼此对应。如图5所示，词性对应存储单元123中存储日文形式的词性(即日文词性)和相应对应于日文词性的中文形式的词性(即中文词性)，同时保持它们彼此对应。

可以利用各种类型的任何通用存储介质，例如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)，来配置词典存储单元121、单词序列存储单元122和词性对应存储单元123中的每一个。

返回到图1的描述，输入单元101接收中文单词序列输入。在被分成单词之后输入单词序列。

通过参考如图2所示的词典存储单元121，翻译单元102利用输入的中文单词作为关键字执行搜索，查找对应的日文翻译单词。通过这种方式，翻译单元102将输入的中文单词序列翻译成日文，以产生翻译的单词序列，即翻译过程的结果。在使用如图3所示的中日字符对应表时，翻译单元102利用中文单词序列中包含的每个字符作为关键字搜索对应的日文字符，从而将输入的中文单词序列翻译成日文。

例如，在给出图2所示的中文单词201作为关键字的情况下，翻译单元102从图2所示的词典存储单元121中获得日文翻译单词211和日文翻译单词212两者。

在使用如图3所示的中日字符对应表时，在给出图2所示的中文单词201作为关键字时，翻译单元102首先将中文单词201分成字符。结果，翻译单元102获得了如图3所示的中文字符301和中文字符302。接下来，翻译单元102利用每个字符作为关键字在中日字符对应表中进行搜索，获得日文字符311和日文字符312。之后，翻译单元102获得图2中所示的日文翻译单词212作为对应于中文单词201的日文翻译单词，这是通过将已经获得的日文字符311和日文字符312连接到一起获得的单词。

返回到图1的描述，搜索单元103在单词序列存储单元122中搜索分别对应于翻译单元102已经获得的作为输入中文单词序列翻译的翻译单词序列中所含单词的日文词性。更具体而言，在被翻译的单词序列中，搜索单元103依次选择由两个连续单词构成的单词序列(即关键词序列)用作搜索关键字，并在单词序列存储单元122中搜索与匹配所选关键词序列的日文单词序列相对应的日文词性序列。

对于输入中文单词序列中包含的任何中文单词，如果作为搜索结果，搜索单元103找到了通过翻译中文单词获得的日文单词的日文词性，获得单元104从词性对应存储单元123中获得对应于在搜索中找到的日文词性的中文词性。

确定单元105确定中文单词序列中包含的单词的词性。更具体而言，确定单元105确定由获得单元104获得的中文词性是对应中文单词的词性。确定单元105输出所确定的词性，同时保持它们与输入的中文单词序列中所含的单词对应。

词语提取单元106从输入的中文单词序列中提取词语，同时参考由确定单元105确定的词性。

接下来，将参考图6到9解释如上所述配置的根据本发明的词语提取设备100执行的词语提取过程。图7、8和9均为处理表格范例的图示，处理表格中存储词语提取过程中获得的各种类型的数据。

在下面的段落中，将解释这样的范例，其中输入了由图7中的“中文文字”栏中所示的四个单词构成的中文单词序列。

首先，输入单元101接收由四个单词构成的中文单词序列输入(步骤S601)。如图7所示，输入单元101将输入的中文单词序列分成单词，根据设置单词的顺序依次为每个单词赋予ID，并将单词设置到处理表格的“中文文字”一栏中。

之后，通过参考如图2所示的平行翻译词典，翻译单元102将中文单词序列翻译成对应的日文单词(步骤S602)。更具体而言，首先，翻译单元102利用第一个中文单词，即图7中标识为ID“0”的单词作为关键字在平行翻译词典的“中文单词”栏中搜索。在本范例中，因为中文单词204匹配该关键字，翻译单元102获得两个对应的日文翻译单词216和217。

在本实施例中，如上所述仅确定名词。于是，翻译单元102仅采用为名词的日文翻译单词。而且，因为在之后的过程中与词性相关的信息不是必需的，所以翻译单元102仅获得除括号中与词性相关的信息之外的部分。

之后，翻译单元102利用下一个中文单词，即图7中标识为ID“1”的单词作为关键字在平行翻译词典的“中文单词”栏中搜索。在本范例中，因为中文单词202匹配该关键字，翻译单元102获得对应的日文翻译单词214。对于图7中标识了ID“2”的中文单词，翻译单元102以类似方式获得对应于图2中的中文单词201的日文翻译单词212。此外，对于图7中标识了ID“3”的中文单词，翻译单元102获得对应于图2中的中文单词203的日文翻译单词215。

将所获得的日文翻译单词设置到处理表格的“日文文字”栏中。图8中所示的是已经如上所述将日文翻译单词设置到“日文文字”栏中之后获得的处理表格。以ID号的升序将日文翻译单词设置在“日文文字”栏中获得的单词序列对应于翻译输入的中文单词序列获得的翻译单词序列。

之后，搜索单元103从翻译单词序列中的第一个单词开始依次获得每个单词(步骤S603)。接下来，搜索单元103利用通过将位于所获得单词左侧的单词的日文文字与所获得单词的日文文字连接在一起获得的单词序列作为关键词序列，来在单词序列存储单元122中进行搜索(步骤S604)。假定单词序列存储单元122中存储如图4所示的数据。对于第一个单词而言，因为没有位于其左侧的单词，所以搜索单元103不针对第一个单词在单词序列存储单元122中进行搜索。

接下来，搜索单元103利用通过将所获单词的日文文字与位于所获单词右侧的单词的日文文字连接在一起获得的单词序列作为关键词序列，来在单词序列存储单元122中进行搜索(步骤S605)。例如，搜索单元103将通过把图8中标识为ID“0”的日文文字与位于其右侧且标识为ID“1”的日文文字连接起来获得的单词序列用作关键词序列。在本范例中，图4中所示的单词序列存储单元122未在其中登记与关键词序列匹配的日文单词序列。于是，搜索单元103未获得搜索结果。

在步骤S604和S605，将通过把单词和位于其左侧的单词或单词和位于其右侧的单词连接起来获得的单词序列用作关键词序列。然而，为了更高效地执行该过程，另一种设置也是可接受的，其中，仅利用通过将所获单词和位于其右侧的单词连接在一起获得的单词序列作为关键词序列来执行词性确定过程。

之后，搜索单元103确定，作为步骤S604或步骤S605的搜索结果，是否在单词序列存储单元122中找到了与关键词序列匹配的任何日文单词序列(步骤S606)。在未在搜索中找到任何日文单词序列的情况下(步骤S606：否)，搜索单元103确定是否已经处理过所有单词(步骤S610)。在尚未处理过所有单词的情况下(步骤S610：否)，搜索单元103获取下一个单词并重复该过程(步骤S603)。

在本范例中，搜索单元103未能针对第一个单词获得任何搜索结果。于是，该过程返回到步骤S603，从而搜索单元103获取下一个单词。对于第二个单词，即标识为ID“1”的单词，搜索单元103将通过把标识为ID“1”的日文文字与位于其左侧且标识为ID“0”的日文文字连接起来获得的单词序列用作关键词序列。在这种情况下，单词序列存储单元122中未登记这种与关键词序列匹配的日文单词序列，搜索单元103未获得搜索结果(步骤S604)。

在搜索单元103将通过把标识为ID“1”的日文文字与位于其右侧且标识为ID“2”的日文文字连接起来获得的单词序列用作关键词序列时，搜索单元103能够在单词序列存储单元122中找到与关键词序列匹配的日文单词序列401(步骤S605)。

当在本范例中在搜索中找到匹配的日文单词序列时(步骤S606：是)，搜索单元103从单词序列存储单元122中获得对应于在搜索中找到的日文单词序列的日文词性序列(步骤S607)。例如，在已经在搜索中找到日文单词序列401的情况下，搜索单元103从如图4所示的单词序列存储单元122中获得对应的日文词性序列411。然后搜索单元103根据设置单词的顺序将所获的词性序列设置到处理表格的“日文词性”栏中。

之后，获得单元104从词性对应存储单元123中获取相应对应于所获的日文词性的中文词性(步骤S608)。例如，对于日文词性“名词”而言，获得单元104从如图5所示的词性对应存储单元123中获得中文词性“名词”。然后获得单元104将所获的中文词性设置到对应单词的“中文词性”栏中。

之后，确定单元105确定所获得的中文词性是已经翻译成翻译单词序列中所含日文单词的中文单词的词性(步骤S609)。例如，“名词”设置在标识为ID“1”的单词的“中文词性”栏中。于是，确定单元105确定标识为ID“1”的中文单词的词性为“名词”。

对第三个单词，即标识为ID“2”的中文单词，以及第四个单词，即标识为ID“3”的中文单词，进行同样的处理。因此，确定单元105获得确定过程的结果，表明这两个单词都是名词。最终获得的处理结果在图9的处理表格中示出。在本范例中，词性确定过程的结果表明第一个中文单词不是名词，而第二到第四个中文单词都是名词。

尽管从图中省略了，但在有一个或多个单词不能利用上述方法确定词性的情况下，通过采用常规使用的方法来确定这种单词的词性。

在已经处理过所有单词且在步骤S610中确定已经处理过所有单词时(步骤S610：是)，词语提取单元106根据确定过程的结果对输入的中文单词序列执行词语提取过程(步骤S611)。例如，在词语提取单元106将一组连续名词作为词语提取出来的情况下，词语提取单元106将通过把图9中所示标识为ID“1”、“2”和“3”的中文文字连接在一起获得的一组名词作为词语提取出来。

如上所述，配置根据本实施例的词性确定设备以便将中文单词转换成日文单词并通过参考日文单词序列的词性信息确定中文单词的词性。一般而言，要为单词序列创建这种词性信息，需要带有词性标签的主体。不过，在日文中，利用公知的词法分析技术，无需太多人工劳动就可以构造出具有高准确度的带词性标签的这种主体。于是，能够实现这样一种词性确定设备，与使用中文的带词性标签的主体的常规方法中所需工作量相比，该词性确定设备能够以少得多的工作量确定中文中的词性。

接下来将参考图10解释根据本实施例的词性确定设备的硬件配置。

根据本实施例的词性确定设备包括：诸如中央处理单元(CPU)51之类的控制装置；诸如只读存储器(ROM)52和随机存取存储器(RAM)53之类的存储装置；建立通往网络的连接并进行通信的通信接口(I/F)54；以及将这些构成要素彼此连接的总线61。

提供了集成到ROM 52等之中的由根据本实施例的词性确定设备执行的词性确定计算机程序(在下文中称为“词性确定程序”)。

在另一种可接受的设置中，提供了一种以可安装格式或可执行格式的文件形式记录在计算机可读记录介质上的由根据本实施例的词性确定设备执行的词性确定程序，该计算机可读记录介质例如为紧致盘只读存储器(CD-ROM)、软盘(FD)、可记录紧致盘(CD-R)、数字多用盘(DVD)等。

此外，在另一种可接受的设置中，将根据本实施例的词性确定设备执行的词性确定程序存储在连接到诸如因特网之类的网络的计算机中，从而经网络下载来提供词性确定程序。此外，在又一种可接受的设置中，经由诸如因特网之类的网络提供或分布由根据本实施例的词性确定设备执行的词性确定程序。

由根据本实施例的词性确定设备执行的词性确定程序具有模块配置，其包括上述功能单元(例如输入单元、翻译单元、搜索单元、确定单元和词语提取单元)。作为实际硬件配置，在CPU 51从ROM 52读取并执行词性确定程序时将这些功能单元加载到主存储装置中，从而在主存储装置中产生这些功能单元。

本领域的技术人员将容易想到更多的优点和改进。因此，在其更宽的方面上，本发明不限于这里所示和所述的特定细节和代表性实施例。因此，在不脱离如所附权利要求及其等价要件定义的一般发明构思的精神或范围的情况下可以做出各种修改。

Claims

1、一种确定每个中文单词词性的词性确定设备，所述设备包括：

单词序列存储单元，其对应地存储均由连接在一起使用的多个单词构成的日文单词序列以及在所述日文单词序列中包含的单词的日文词性；

词性对应存储单元，其对应地存储日文词性和中文词性；

输入单元，其接收中文单词序列的输入；

翻译单元，其将所述中文单词序列翻译成日文单词序列；

搜索单元，其利用所述日文单词序列中包含的连续日文单词作为关键词序列，从所述单词序列存储单元中搜索与所述日文单词序列中匹配于所述关键词序列的一个日文单词序列相对应的日文词性；

获得单元，其从所述词性对应存储单元获得与由所述搜索单元搜索的所述日文词性相对应的两个或更多所述中文词性；以及

确定单元，其确定所获得的中文词性分别是被翻译成所述关键词序列中包含的日文单词的中文单词的词性。

2、根据权利要求1所述的设备，其中

所述单词序列存储单元对应地存储均由词性为名词的多个单词构成的日文单词序列以及所述日文单词序列中包含的单词的日文词性。

3、根据权利要求1所述的设备，其中

所述确定单元进一步使所确定的中文词性对应于所输入的中文单词序列中包含的单词，以及

所述设备还包括词语提取单元，所述词语提取单元从包含与所述中文词性相对应的单词的所述中文单词序列提取词语。

4、根据权利要求1所述的设备，其中

所述单词序列存储单元对应地存储均由预定数量的单词构成的日文单词序列以及所述日文单词序列中包含的单词的日文词性，以及

所述搜索单元选择均由所述日文单词序列中包含的连续的预定数量单词构成的关键词序列，并在所述单词序列存储单元中搜索与所述日文单词序列中匹配于所述关键词序列的一个日文单词序列相对应的日文词性。

5、根据权利要求4所述的设备，其中，所述搜索单元进行以下操作：

选择均由所述日文单词序列中包含的连续的预定数量单词构成的关键词序列，

在所述单词序列存储单元中进行第一搜索，以查找所述日文单词序列中匹配于所述关键词序列的一个日文单词序列，以及

在所述单词序列存储单元中进行第二搜索，以查找分别与所述第一搜索中找到的所述日文单词序列中的所述一个日文单词序列中包含的单词相对应的日文词性。

6、根据权利要求1所述的设备，还包括

对应地存储中文字符和日文字符的词典存储单元，其中

所述翻译单元通过从所述词典存储单元获得分别与所述输入的中文单词序列中包含的中文字符相对应的日文字符，来将所述输入的中文单词序列翻译成日文单词序列。

7、根据权利要求1所述的设备，还包括

对应地存储中文单词和日文单词的词典存储单元，其中

所述翻译单元通过从所述词典存储单元获得分别与所述输入的中文单词序列中包含的中文单词相对应的日文单词，来将所述输入的中文单词序列翻译成日文单词序列。

8、根据权利要求1所述的设备，其中

所述确定单元进一步使所确定的中文词性与所输入的中文单词序列中包含的单词相对应，以及

所述设备还包括分析单元，所述分析单元利用与所述输入的中文单词序列中包含的单词相对应的所述中文词性，来分析所述输入的中文单词序列的语法。

9、一种由确定每个中文单词词性的词性确定设备实施的词性确定方法，所述方法包括：

接收中文单词序列的输入；

将所述中文单词序列翻译成日文单词序列；

利用所述日文单词序列中包含的连续日文单词作为关键词序列，从单词序列存储单元中搜索与日文单词序列中匹配于所述关键词序列的一个日文单词序列相对应的日文词性，所述单词序列存储单元对应地存储均由连接在一起使用的多个单词构成的所述日文单词序列以及在所述日文单词序列中包含的单词的日文词性；

从词性对应存储单元获得与由搜索单元搜索的所述日文词性相对应的两个或更多所述中文词性，所述词性对应存储单元对应地存储日文词性和中文词性；以及

确定所获得的中文词性分别是被翻译成所述关键词序列中包含的日文单词的中文单词的词性。