CN100533431C

CN100533431C - 一种基于语素标注的自然语言成分识别、校正装置及方法

Info

Publication number: CN100533431C
Application number: CNB2005101035668A
Authority: CN
Inventors: 孟遥; 于浩; 西野文人
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-09-21
Filing date: 2005-09-21
Publication date: 2009-08-26
Anticipated expiration: 2025-09-21
Also published as: CN1936885A; JP2007087397A

Abstract

本发明为一种基于语素标注的自然语言成分识别、校正装置及方法，包括：输入部，用于输入待分析符号序列；语素学习部，用于生成语素属性，并从待分析自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律；语素属性标注部，用于对输入的待分析符号序列进行语素属性标注，生成语素属性标注序列；分析成分合成部，用于从语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记；输出部，用于输出所述分析成分合成部的识别结果。用以从输入的汉语、日语等自然语言或基因组等符号序列中识别出需要的语言成分或遗传因子等符号组，并标注出识别成分的分类属性。从而解决诸如汉语的未登录词等问题。

Description

一种基于语素标注的自然语言成分识别、校正装置及方法

技术领域

本发明涉及从输入的符号序列中识别某类成分的技术，其特别涉及基于语素属性标注的自然语言语法或语义成分的识别技术以及基因组序列分析的技术，具体的讲是一种基于语素标注的自然语言成分识别、校正装置及方法。

背景技术

语言是一种符号系统，语法系统里的基本符号是语素。自然语言虽然表面上看来只是语素的线性序列，但实际上具有一定的层次结构，即由语素构成高一级的成份，再由高一级成份构成更高级的成份，最终形成层次结构。识别输入句子包含的语法或语义成分及成分间的关系是自然语言处理的首要任务。关于这方面的研究已发表多篇论文和专利，例如：

中国专利，授权公告号CN1107276C，发明人：陈肇雄，黄河燕，提供了一种全自动汉语分析系统；

中国专利申请，公开号CN1471024A，发明人：陈桂林，陈芳，申请人：摩托罗拉公司，公开了一种中文分词方法；

以及参考文献[1]～[7]所公开的相关内容。

上述现有技术所提供的这些方法都以词汇或短语作为研究的最小单位，而并未对词汇以下的语言单位进行研究和分析。实际上，在某些语言体系中，词汇并非最小的有意义的语言单位，因此对这类语言而言，基于语素而不是基于词汇研究语法或语义成分的构成规律和成分间的关系更能揭示语法体系的本质，获得更好的语法分析效果。

发明内容

本发明的目的在于，提供一种基于语素标注的自然语言成分识别、校正装置及方法，用以从输入的汉语、日语等自然语言或基因组等符号序列中识别出需要的语言成分或遗传因子等符号组，并标注出识别成分的分类属性。从而解决诸如汉语的未登录词等问题。

本发明的技术方案为：一种基于语素标注的自然语言成分识别装置，包括：输入部，用于输入待分析符号序列；

语素学习部，用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从待分析自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律；

语素属性标注部，用于根据所述语素学习部学习得到的语素与语素属性之间的关系规律对输入的待分析符号序列进行语素属性标注，生成语素属性标注序列；

分析成分合成部，用于从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记；

输出部，用于输出所述分析成分合成部的识别结果。

所述的语素学习部进一步包括：

语素属性生成单元，用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置信息生成语素属性集，用语素属性表示自然语言成分及其分类信息；

语素属性转换单元，用于根据所述语素属性集将标注了待分析自然语言成分的样本转换为语素属性标注样本；

语素标注知识抽取单元，用于以语素为基本单元从所述的语素属性标注样本中学习待分析自然语言成分的内部构成及自然语言成分与上下文的关系，生成用统计模型描述的语素属性标注知识；

所述的语素属性标注部根据所述的语素属性标注知识对输入的待分析符号序列进行语素属性标注，生成语素属性标注序列。

所述的语素学习部还包括：

语素属性集存储单元，用于存储所述的语素属性集；

语素属性标注知识存储单元，用于存储所述的语素属性标注知识；

语言知识抽取单元，用于从分析自然语言成分标注样本中抽取待分析语言成分，生成待分析语言成分列表作为该语言成分的语言资源；

语言资源和知识存储单元，用于存储所述的语言资源，以及各种层次的与所述分析自然语言成分相关的语言资源和知识；

所述的语素属性标注部根据所述的语言资源和知识、语素属性标注知识对输入的待分析符号序列进行语素属性标注，生成语素属性标注序列；

所述的分析成分合成部，根据所述的语素属性集从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记。

所述的语素属性标注部进一步包括：

可能语素标注生成单元，采用语素属性标注知识生成语素标注候选；

错误候选剔除单元，采用语素、以及比语素高级的语言成分等各种层次的语言资源与知识对语素属性候选进行筛选，去除不合法的语素属性候选，实现对所述的可能语素标注生成单元传来的语素标注候选的错误过滤；

最优标注结果选择单元，生成待分析符号序列的最优语素属性标注序列，实现对所述的错误候选剔除单元传来的语素属性候选的最优化处理。

所述的自然语言包括汉语、日语等自然语言或基因符号。

所述的输入的待分析符号序列包括：自然语言文本序列、基因组序列。

本发明还提供了一种基于语素标注的自然语言成分校正装置，包括：输入部，用于接收来自其它自然语言成分识别系统输出的待校正符号序列；

语素学习部，用于根据待校正自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从待校正自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律；

错误位置发现部，用于对输入的待校正符号序列进行检查，发现错误的位置；

语素属性标注部，用于根据所述语素学习部学习得到的语素与语素属性之间的关系规律对输入的待校正符号序列中的错误位置进行语素属性标注，生成语素属性标注序列；

输出部，用于输出所述分析成分合成部的识别结果。

本发明还提供了一种基于字属性标注的汉语成分识别装置，包括：输入部，用于输入待分析汉语文本序列；

字属性学习部，用于根据待分析汉语的分词、词性标注语料生成字属性，并从待分析汉语的分词、词性的标注样本中学习得到字与所述字属性之间的关系规律；

字属性标注部，用于根据所述字属性学习部学习得到的字与字属性之间的关系规律对输入的待分析汉语文本序列进行字属性标注，生成字属性标注序列；

词及词性标注合成部，用于从所述字属性标注部生成的字属性标注序列中识别出需要的分类标记，生成输入汉语文本序列的切分和词性标注结果；

输出部，用于输出所述词及词性标注合成部生成的结果。

本发明还提供了一种基于语素标注的自然语言成分识别方法，其包括：

输入步骤，用于输入待分析符号序列；

语素学习步骤，用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从待分析自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律；

语素属性标注步骤，用于根据所述语素学习步骤学习得到的语素与语素属性之间的关系规律对输入的待分析符号序列进行语素属性标注，生成语素属性标注序列；

分析成分合成步骤，用于从所述语素属性标注步骤生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记；

输出步骤，用于输出所述分析成分合成部的识别结果。

本发明还提供了一种基于语素标注的自然语言成分校正方法，其包括：

输入步骤，用于接收来自其它自然语言成分识别系统输出的待校正符号序列；

语素学习步骤，用于根据待校正自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从待校正自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律；

错误位置发现步骤，用于对输入的待校正符号序列进行检查，发现错误的位置；

语素属性标注步骤，用于根据所述语素学习步骤学习得到的语素与语素属性之间的关系规律对输入的待校正符号序列中的错误位置进行语素属性标注，生成语素属性标注序列；

输出步骤，用于输出所述分析成分合成步骤的识别结果。

本发明还提供了一种基于字属性标注的汉语成分识别方法，其包括：

输入步骤，用于输入待分析汉语文本序列；

字属性学习步骤，用于根据待分析汉语的分词、词性标注语料生成字属性，并从待分析汉语的分词、词性的标注样本中学习得到字与所述字属性之间的关系规律；

字属性标注步骤，用于根据所述字属性学习步骤学习得到的字与字属性之间的关系规律对输入的待分析汉语文本序列进行字属性标注，生成字属性标注序列；

词及词性标注合成步骤，用于从所述字属性标注步骤生成的字属性标注序列中识别出需要的分类标记，生成输入汉语文本序列的切分和词性标注结果；

输出步骤，用于输出所述词及词性标注合成部生成的结果。

本发明的有益效果在于，基于语素研究语言成分的构成规律，并对该语言成分进行识别。本发明首先根据待分析语言成分的属性信息和语素在该语言成分中的位置关系构建语素的属性标注集，然后从语言成分的标注样本中习得语素与语素属性的关系规律。通过习得的语素属性标注规律，对输入文本进行语素属性标注，从语素属性标注序列中识别出需要的语言成分及该成分的分类标记。本发明可以作为一个独立的语法或语义成分识别系统对中文、日文等自然语言中的词、词性、短语及短语属性进行识别。同时也可以与其它语言成分识别系统结合，对其它识别系统输出的结果进行再分析，提高原有系统的分析精度。另外，本发明提出的方法也可用于对基因组序列分析或类似的从输入符号序列中识别某类成分的任务中。本发明尤其适合解决汉语的分词和词性标注问题，根据本发明实现的汉语词法分析系统获得了良好的分析效果。

附图说明

图1、基于语素的自然语言语法成分分析装置基本结构图；

图2、基于语素的自然语言语法成分分析装置具体实施结构图；

图3、语素属性标注部内部结构图；

图4、基于语素属性标注的语言成分识别后处理结构图；

图5、基于字属性标注的汉语词法分析装置结构图；

图6、字属性标注装置内部结构图；

图7、汉字序列“小明明天”的可能字属性候选图；

图8、汉字序列“小明明天将就BASIC程序错误进行分析”的最终字属性标注候选图；

图9、最优字属性标注链图；

图10、“小明明天将就Basic程序错误进行分析”的分词候选图；

图11、基于字属性标注合成的分词和词性标注结果图。

具体实施方式

下面结合附图说明本发明的具体实施方式。首先给出本发明中语素、语素属性集和语素属性标注定义：

定义1：语素：语言的最小的有意义的成分。

定义2：语素组：由语素构成的上级语法或语义成分，语素组的属性为其代表的语言成分的语法或语义分类信息。

定义3：语言成分分析：从输入句子中自动识别出需要的语素组、及该语素组的属性。

给定符号序列S，包含为n个语素，则该句子可表示为：c₁c₂...c_n-1c_n，设序列包含k个语言成分，其对应的属性分别为t₁～t_k，则S的语言成分分析结果可以表示为如下形式：

S' : [c_{1} . . . c_{l_{1}}] t_{1} [c_{i_{i} + 1} . . . c_{i_{2}}] t_{2} . . . [c_{i_{k - 1} + 1} . . . c_{n}] t_{k},

其中

为句子的第一个语素组，语素组属性为t₁，为句子的最后一个语素组，语素组属性为t_k。根据上述表示形式，给出下面三个定义：

定义4：语素位置属性：表示语素在语素组中的可能出现的位置。语素在语言成分中可出现于五种位置：该语素本身单独构成语素组；该语素为所构成语素组的第一个语素；该语素在语素组中间；该语素为语素组的最后一个；该语素不构成需要的语素组。此处我们用符号S，F，M，L，U表示，分别代表单语素语素组、首位语素、中间语素、末位语素和非语素组语素。

定义5：语素属性：为语素的位置属性和语素组属性的组合，表示从语素到语素组的构成规律。语素属性集＝{tp|tp∈{t×p}∪{U}}，其中t∈{语素组属性}，p∈{S，F，M，L}。

定义6：语素属性标注：给定输入句子，对句子中的每一个语素给出一个语素属性标记的过程。如上述句子，使用语素属性标记可表示为S″：c₁/tp₁c₂/tp₂...c_n-1/tp_n-1c_n/tp_n。

以汉语例，其中字为汉语语素，待分析成分为词时：

给定句子S，包含为n个字，表示为：c₁c₂...c_n-1c_n，设句子包含k个单词，词性分别为t₁～t_k，则S的词性标注结果可表示为：

[c_{1} . . . c_{l_{1}}] t_{1} [c_{i_{1} + 1} . . . c_{i_{2}}] t_{2} . . . [c_{i_{k - 1} + 1} . . . c_{n}] t_{k},

其中为句子的第一个语素组，词性为t₁，为句子的最后一个语素组，词性为t_k。

如图1所示，为本发明的一种基于语素标注的自然语言成分识别装置，包括：输入部，用于输入待分析符号序列；语素学习部，用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从待分析自然语言成分的标注样本中自动学习得到语素与所述语素属性之间的关系规律；语素属性标注部，用于根据所述语素学习部学习得到的语素与语素属性之间的关系规律对输入的待分析符号序列进行语素属性标注，生成语素属性标注序列；分析成分合成部，用于从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记；输出部，用于输出所述分析成分合成部的识别结果。

所述的输入部可以是计算机，通过计算机的键盘将所述的待分析符号序列输入。也可以通过网络(例如局域网及互联网)将待分析符号序列输入所述的输入部。在该情况下，输入部也可以为采用网络接口的结构。另外，也可以从扫描仪、存储装置(例如硬盘驱动装置)等将待分析符号序列输入所述的输入部。在该情况下，输入部可以为根据将存储装置等和本发明系统的输入部连接为可进行数据通信的规格〔例如USB(Universal Serial Bus)等有线连接及blue tooth等的无线连接的规格〕的结构。另外，也可以将存储介质〔例如各种闪存存储器及软盘(注册商标)、CD(Compact Disk)、DVD(Digital Versatile Disc、Digital Video Disc)〕所存储的待分析符号序列输入到所述的输入部。在该情况下，输入部可以为采用从存储介质中读出数据的装置(例如闪存存储器读出器及软盘驱动装置、CD驱动装置、DVD驱动装置)的结构。

另外，输入部也可以为适合上述多种情况的结构。

所述的输出部可以通过网络将所述分析成分合成部的识别结果输出。在该情况下，输出部为采用网络接口的结构。另外，也可以将所述分析成分合成部的识别结果输出到个人计算机等的其他的信息处理装置及存储装置中。在该情况下，输出部为根据将个人计算机等其他信息处理装置或存储装置等和本发明输出部连接为可进行数据通信的规格的结构。另外，也可以将所述分析成分合成部的识别结果输出(写入)到存储介质内。在该情况下，输出部为采用将数据写入到这些存储装置或存储介质内的装置(例如闪存存储器记录器及软盘驱动装置、CD—R驱动装置、DVD R驱动装置)的结构。

对于输出部所输出的所述分析成分合成部的识别结果的具体用途的例子也进行说明。例如，为了将所述分析成分合成部的识别结果输出到显示器等的显示装置中，也可以使用输出部所输出的数据。在此种情况下，输出部例如也可以为作为和显示器等的显示装置进行数据通信的接口的结构，也可以为作为与显示器等的显示装置相连接、或将数据提交给内置的信息处理装置的接口的结构。

另外，输出部也可以为适合上述的多种情况的结构。

实施例1

如图2所示，在基于语素属性标注的自然语言成分识别方法和装置的具体实施中，模块(单元)102、104为构成语素学习部的主要单元，语素属性转换部(单元)102应用语素属性生成部108生成的语素属性集(模块109)将标注了语言成分的样本转换为语素属性标注样本，模块104从语素属性标注样本中学习语素与语素属性的关系规律，形成用于语素属性标注的知识。模块112、113构成了识别部分，模块112利用模块104习得的语素属性标注知识，在人工总结或从标注样本中学得知识的指导下，对输入符号序列进行语素属性标注，模块113根据语素组合规律将语素属性标注结果合并生成待语言成分分析结果，并标注出分析出的语言成分的分类属性。模块102将语言成分标注样本转换为语素属性标注样本的过程如下：

对标注样本中任意由c₁...c_i个语素构成的语素组，设其语素属性为t。则：

i＝1时，c₁的语素属性为tS；

i＝2时，c₁的语素属性为tF，c₂的语素属性为tL；

i>2时，c₁的语素属性为tF，c₂...c_i-1的语素属性为tM，c_i的语素属性为tL；

不在任何语素组的语素，其语素属性为U。

以汉语分词和词性标注为例，标注样本：

“小明/nr明天/n将/d就/d Basic/nx程序/n错误/n进行/v分析/v”

字标注序列为：“小/nrF明/nrL明/nF天/nL将/dS就/dS B/nxF a/nxMs/nxM i/nxM c/nxL程/nF序/nL错/nF误/nL进/vF行/vL分/vF析/vL”。

模块104从语素属性标注样本中学习语素与语素属性的关系，获取语素属性标注知识，语素属性标注知识将用来对输入的语素序列进行语素属性标注。可以使用基于规则的、基于统计的、有指导或无指导等多种方法学习语素属性标注知识。作为具体例子，本发明使用隐马尔可夫模型学习语素与语素属性的关系。学习过程如下：

已知输入句子S：c₁c₂...c_n-1c_n，其对应的语素属性序列TP：tp₁tp₂...tp_n-1tp_n。

则

p (TP | S) = \underset{i = 1, n}{Π} p ({tp}_{i} | {tp}_{i - k} . . . {tp}_{i - 1}) \times p (c_{i} | {tp}_{i}),

(公式1)如使用最大似然估计转移概率和发射概率，则

p (c_{i} | {tp}_{i}) = \frac{count (c_{i}, {tp}_{i})}{count ({tp}_{i})},

p ({tp}_{i} | {tp}_{i - k} . . . {tp}_{i - 1}) = \frac{count ({tp}_{i - k} . . . {tp}_{i - 1}, {tp}_{i})}{count ({tp}_{i})} .

(公式2)

模块104从标注样本中获取的语素属性标注知识存入模块105(语素属性标注知识存储单元)。

模块106从分析成分标注样本中抽取待分析成分，形成待分析成分列表，作为该成分的语言资源存于模块107(语言资源和知识存储单元)，同时模块107中还存放各种层次的与该分析成分相关的资源和知识，比如待分析成分的语法、语义特征，该语言或符号系统的特点等。这些资源和知识将指导语素属性标注部进行语素标注。

模块108根据待分析成分的分类属性和语素在待分析成分中的位置信息生成语素属性集、成分分解规则和语素组合规则。并将生成的语素属性集存入语素属性集存储单元109。语素属性集生成过程为：

设t∈{成分分类标记}，p∈{S，F，M，L，U}，其中，S，F，M，L，U分别表示单语素为一独立成分、多语素成分首位语素、多语素成分中间语素、多语素成分末尾语素和未包括在成分中语素。语素属性形式为tp，tp∈{词性标注符}×{S，F，M，L}。

模块112根据模块105和模块107中提供的知识对输入文本进行语素标注。语素属性标注部(模块112)包含三个子部件，其结构如图3所示：

其中模块204为可能语素标注生成部，模块204查询存放在模块201中的语素属性标注知识，获得输入文本的每一个语素所有可能的语素属性，生成输入文本的可能语素标注候选。

模块205是对模块204生成结果的过滤部件，模块205根据模块202中存贮的语言知识对模块204生成的语素属性候选进行筛选，去除不符合语言学规律的属性候选。

模块205生成的结果进行模块206最优标注选择部，模块206根据语素与语素属性的关系对模块205输入的标注候选进行评价，输出最优语素属性标注结果。

最优结果选择模块(模块206)通常与学习模块配合使用，如学习模块使用Hidden Markov Model获取语素属性标注规律，则模块104的语素属性标注过程将使用Hidden Markov Model估计输入文本的语素标注候选，输入语素序列S：c₁c₂...c_n-1c_n，基于HMM的最佳语素属性标注序列为：

{TP}^{*} = \underset{TP}{\arg \max} \underset{i = 1, n}{Π} p ({tp}_{i} | {tp}_{i - k} . . . {tp}_{i - 1}) \times p (c_{i} | {tp}_{i})

(公式3)

模块112输出的语素属性标注序列进入模块113，由模块113根据语素组合规则合并语素，生成待分析的语法或语义成分并标注该成分对应的分类标记。

由语素标注序列合并待分析语言成分的过程为：

a.语素属性为tS的语素本身构成一个语言成分，其语法或语义属性为t；

b.以语素属性为tF的语素开始，中间包含0个或多个语素属性为tM的语素，至语素属性为tL的语素的一段语素序列合并为一个语言成分，其语法或语义属性为t；

c.语素属性为U的语素不构成待分析语言成分。

实施例2

在本发明的一种基于语素标注的自然语言成分校正装置及方法的具体实施中，包括：输入部，用于接收来自其它自然语言成分识别系统输出的待校正符号序列；语素学习部，用于根据待校正自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从待校正自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律；错误位置发现部，用于对输入的待校正符号序列进行检查，发现错误的位置；语素属性标注部，用于根据所述语素学习部学习得到的语素与语素属性之间的关系规律对输入的待校正符号序列中的错误位置进行语素属性标注，生成语素属性标注序列；分析成分合成部，用于从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记；输出部，用于输出所述分析成分合成部的识别结果。

可见本发明可以作为一个独立的语法或语义成分识别系统对中文、日文等自然语言中的词、词性、短语及短语属性进行识别。同时也可以与其它语言成分识别系统结合，对其它识别系统输出的结果进行再分析，提高原有系统的分析精度。基于语素属性标注的自然语言成分识别后处理装置如图4所示：由其它语言成分识别装置产生的初始分析结果作为本发明的后处理装置的输入，进入基于语素属性标注的成分识别装置，该装置针对原输出结果中可能出错的部分进行再分析，校正原结果的一些错误。

模块302利用错误分析中获得的知识，对初始分析结果进行分析，确定初始分析结果中可能出错的范围，随后进入语素标注候选生成部根据初始结果和易错位置信息生成语素标注候选。

模块303的语素标注候选的生成原则如下：

a.初始分析结果中未包括在可能出错位置的语言成分，认为是识别正确的成分。

b.正确成分中的所有语素的语素属性候选不能与语素在正确成分中的位置和正确成分的属性冲突。

c.包括在可能出错位置的语素，根据语素属性标注知识生成所有可能的语素标注候选。

模块303生成的所有语素标注候选进入最优标注结果选择部选择最优标注候选。最优标注结果选择部与图3中模块206为同一功能的部件。

最优标注结果进入分析成分合成部，图4中分析成分合成部与图2模块113为同一功能的部件。

由分析成分合成部输出的结果即为对初始分析结果的校对结果。

本发明提出的后处理方法可处理原有方法误识、漏误的语言成分，因其描述了从语素到待分析语言成分的生成规律，所以尤其适合解决标注样本中未出现语言成分的识别。

实施例3

在本发明的一种基于字属性标注的汉语成分识别装置及方法的具体实施方式中，包括：输入部，用于输入待分析汉语文本序列；字属性学习部，用于根据待分析汉语的分词、词性标注语料生成字属性，并从待分析汉语的分词、词性的标注样本中学习得到字与所述字属性之间的关系规律；字属性标注部，用于根据所述字属性学习部学习得到的字与字属性之间的关系规律对输入的待分析汉语文本序列进行字属性标注，生成字属性标注序列；词及词性标注合成部，用于从所述字属性标注部生成的字属性标注序列中识别出需要的分类标记，生成输入汉语文本序列的切分和词性标注结果；输出部，用于输出所述词及词性标注合成部生成的结果。

由于汉语词与词之间没有标记，所以汉语词法分析是汉语语法成分分析的首要问题。本发明提出的基于语素的自然语言语法成分分析方法，可以用来解决汉语的词法分析问题。作为基于语素的自然语言语言成分识别方法的实例，我们实现了一个基于字属性标注的隐马尔可夫模型的汉语词法分析装置。

在本发明的汉语词法分析中，语素为汉字；词为待分析语言成分；此时，语素组标注集即为汉语的词性标注集；语素属性即为字属性，形式为tp，其中t∈{词性标注符}，p∈{S，F，M，L}，S，F，M，L分别表示单字为词、多字词首字、多字词中间字和多字词尾字。tp∈{词性标注符}×{S，F，M，L}。

基于字属性标注的汉语词法分析装置的结果如图5所示：

该装置也是基于语素的自然语言成分识别装置的更为具体的例子，其运行过程与本发明的基于语素的自然语言成分识别装置完全一致。

模块401将分词和词性标注语料映射为字性标注语料，转换过程为：

设语料中某词由c₁...c_i个汉字构成，词性为t。则：

i＝1时，c₁的字性标注为tS

i＝2时，c₁的字性标注为tF，c₂的字性标注为tL

i>2时，c₁的字性标注为tF，c₂...c_i-1的字性标注为tM，c_i的字性标注为tL

例如，标注句子“小明/nr明天/n将/d就/d Basic/nx程序/n错误/n进行/v分析/v”，映射为字标注序列为：“小/nrF明/nrL明/nF天/nL将/dS就/dS B/nxF a/nxM s/nxM i/nxM c/nxL程/nF序/nL错/nF误/nL进/vF行/vL分/vF析/vL”。

模块404字属性标注训练器，采用隐马尔可夫模型抽取由字到字属性的关系。输入的汉字序列，抽象为隐马尔可夫过程的观察链，求取最优字属性序列的过程抽象为已知观察链时求马尔可夫隐藏链的过程。基本建模过程为：

已知输入句子S：c₁c₂...c_n-1c_n，对应的字属性标注序列TP：tp₁tp₂...tp_n-1tp_n。

则，

p (TP | S) = \underset{i = 1, n}{Π} p ({tp}_{i} | {tp}_{i - k} . . . {tp}_{i - 1}) \times p (c_{i} | {tp}_{i}),

p (c_{i} | {tp}_{i}) = \frac{count (c_{i}, {tp}_{i})}{count ({tp}_{i})}, p ({tp}_{i} | {tp}_{i - k} . . . {tp}_{i - 1}) = \frac{count ({tp}_{i - k} . . . {tp}_{i - 1}, {tp}_{i})}{count ({tp}_{i})} .

隐马尔可夫模型建模获得的字与字属性标注间的概率分布存贮到模块405(字属性标注知识存储单元)，以备分析时使用。

模块409给输入汉语文本的每个词标注一个当前上下文情况下最适合的字属性，输出文本的字属性标注序列。模块409主要包含字属性生成部、错误候选剔除部和最优结果选择部。其内部结构如图6所示：

模块501中存贮的字属性标注知识由图5中模块404从字属性标注样本中训练获得，如模块404采用隐马尔可夫模型学习字属性标注知识，则图6模块501中将存放每个汉字可能出现的字属性、字属性到字的发射概率、字属性与字属性间的转移概率。

图6中的字属性生成部(模块504)查询模块501中包含的字属性标注知识，给出输入句子的每个字可能的字属性候选。

由于汉语的构词规律非常灵活，因此每个字具有的字属性候选也较多，因此模块502依靠构词规则和高频词词典，过滤大部分不合法的字属性候选。其过滤过程如下：

a.去掉当前上下文情况下，不能组合为词的字属性。比如首字的字属性候选中所有xM和xL类的字属性，尾字的字属性候选中所有xM，xF类属性等。(其中x为这的任意词属性)

b.根据字的位置属性生成输入句子的所有可能词候选，对于每个词，查询词典，如词典中包含该词，则其可能词性已经规定，根据该词词性，去掉字属性中不能产生词典指定词性的候选字属性。如词典中没有该词，则该词可能为未登录词，保留其所有字属性候选。

经过模块505过滤后保留的字属性候选进入最优标注候选选择部(模块506)由模块506根据字属性标注知识选择最优字属性标注结果。如采用隐马尔可夫模型评价字属性标注结果，则输入句子c₁c₂...c_n-1c_n的最佳字属性标注序列为：

{TP}^{*} = \underset{TP}{\arg \max} \underset{i = 1, n}{Π} p ({tp}_{i} | {tp}_{i - k} . . . {tp}_{i - 1}) \times p (c_{i} | {tp}_{i})

输出的字属性标注序列由图4模块405合成输入文本的分词和词性标注结果。合成过程为：

a.所有字属性为tS，映射为单字词，词性为t；

b.所有字属性为tF，为词首字，字属性为tM，为词中间字，字属性为tL

为词尾字，共同组成一个单词，词性为t.

下面通过例子具体描述本发明各装置及方法的分析过程。

待分析句子：“小明明天将就Basic程序错误进行分析”

该句含有若干切分歧义，在图10中每条弧线代表一种切分形式，其中只有实线弧所对应的切分形式是正确的。

句中“将就”是一个比较典型的组合歧义，它有两种切分可能“将就/v”和“将/d就/d”，在本句中“将/d就/d”是正确的切分。切分为“将/d就/d”的词结点个数多于切分为“将就/v”时的结点个数，如采用基于词的分析模型，由于基于词的模型倾向于选择结点个数少的切分结果，很难获得正确的切分结果。而采用本发明的基于字属性标注的方法，可以避免切分偏向的问题(bias)，能够获得正确的结果。

本发明的分析过程如下：

根据字的字属性候选表，获得每个字可能的字属性标注候选：

如：‘小’‘明’‘天’3字包含的可能字属性候选如图7所示：

查询核心词典，对字属性候选进行粗选，去除当前上下文情况下，不可能出现的候选，形成最终字属性标注候选如图8所示：

采用公式(3)对所有可能的字属性标注链，进行评价，获得最优结果。本例中最优字属性标注链如图9所示：

其所对应的分词和词性标注结果如图11所示。

本发明的保护范围，描述在权利要求书中。本发明以汉语为实例阐述本发明的实现步骤，但是，使用本发明描述的步骤可同样对其它语言中的语法或语义成分进行识别，本发明方法也可用于对基因组序列的分析或类似的从输入符号序列中识别某类成分的任务。因此可以理解，凡应用于其它语言或符号系统，不超出本发明的构思要领的变化都应归于本发明的保护范围之中。

参考文献：

[1]Andi Wu；Stephen D.Richardson；Zixin Jiang；6,640,006 Oct.28，2003 Wordsegmentation in chinese text[patent]；

[2]Toshihiko Yokogawa；5,225,981 Jul.6，1991，language analyzer for morphemicallyanalyzing by using block analysis and composite morphemes[patent]；

[3]Sproat，Richard and Tom Emerson.2003.The first international Chinese wordsegmentation bakeoff.In：SIGHAN 2003；

[4]Sproat，Richard and Chilin Shih.2002.Corpus-based methods in Chinese morphologyand phonology.In：COLING 2002；

[5]Hua-Ping Zhang，Hong-Kui Yu，De-Yi Xiong and Qun Liu，HHMM-based ChineseLexical Analyzer ICTCLAS，proceedings of 2nd SigHan Workshop，July 2003，pp.184-187

[6]Jianfeng Gao，Andi Wu，Mu Li，et al.2004.Adaptive Chinese word segmentation.InACL 2004；

[7]Michael Collins Threee Generative，Lexicalised Models for Statistical Parsing.InACL 1997。

Claims

1.一种基于语素标注的自然语言成分识别装置，包括：输入部，用于输入待分析符号序列；其特征在于还包括：

语素学习部，用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从在语素上标注了语素属性的样本中学习得到语素与所述语素属性之间的关系规律；

输出部，用于输出所述分析成分合成部的识别结果。

2.根据权利要求1所述的装置，其特征在于，所述的语素学习部进一步包括：

语素属性生成单元，用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置信息生成语素属性集，以用语素属性表示自然语言成分及其分类信息；

语素属性转换单元，用于根据所述语素属性集将标注了待分析自然语言成分的样本转换为在语素上标注了语素属性的样本；

语素标注知识抽取单元，用于以语素为基本单元从所述的在语素上标注了语素属性的样本中学习待分析自然语言成分的内部构成及自然语言成分与上下文的关系，生成用统计模型描述的语素属性标注知识；

3.根据权利要求2所述的装置，其特征在于，所述的语素学习部还包括：

语素属性集存储单元，用于存储所述的语素属性集；

语言知识抽取单元，用于从标注了待分析自然语言成分的样本中抽取待分析语言成分，生成待分析语言成分列表作为该语言成分的语言资源；

4.根据权利要求1所述的装置，其特征在于，所述的语素学习部还包括：语素属性生成单元、语素属性转换单元、语素标注知识抽取单元、语言知识抽取单元、语素属性集存储单元、语素属性标注知识存储单元、自然语言资源和知识存储单元；其中：

所述的语素属性生成单元，用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置信息生成语素属性集，并将所述的语素属性集存入所述的语素属性集存储单元；

所述的语素属性转换单元，用于根据所述语素属性集将标注了待分析自然语言成分的样本转换为在语素上标注了语素属性的样本；

语素标注知识抽取单元，用于以语素为基本单元从所述的在语素上标注了语素属性的样本中学习待分析自然语言成分的内部构成及自然语言成分与上下文的关系，生成用统计模型描述的语素属性标注知识，并将所述的语素属性标注知识存入所述的语素属性标注知识存储单元；

所述的语言知识抽取单元，用于从标注了待分析自然语言成分的样本中抽取待分析语言成分，生成待分析语言成分列表作为该语言成分的语言资源，并将所述的语言资源以及各种层次的与所述分析自然语言成分相关的语言资源和知识存入所述的语言资源和知识存储单元；

5.根据权利要求1或4所述的装置，其特征在于，所述的语素属性标注部进一步包括：

6.根据权利要求1所述的装置，其特征在于，所述的自然语言包括汉语、日语等自然语言或基因符号。

7.根据权利要求1所述的装置，其特征在于，所述的输入的待分析符号序列包括：自然语言文本序列、基因组序列。

8.一种基于语素标注的自然语言成分校正装置，包括：输入部，用于接收来自其它自然语言成分识别系统输出的待校正符号序列；其特征在于包括：

语素学习部，用于根据待校正自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从在语素上标注了语素属性的样本中学习得到语素与所述语素属性之间的关系规律；

输出部，用于输出所述分析成分合成部的识别结果。

9.根据权利要求8所述的装置，其特征在于，所述的语素属性标注部进一步包括：

语素标注候选生成单元，用于对输入的待校正符号序列保留正确的原有分析结果，对出错部分的语素则生成该语素所有可能的标注候选；

最优结果选择单元，用于对语素标注序列保留了原有结果中正确的分析信息，而对出错的位置进行重新标注。

10.根据权利要求8或9所述的装置，其特征在于，所述的语素学习部还包括：语素属性生成单元、语素属性转换单元、语素标注知识抽取单元、语素属性集存储单元、语素属性标注知识存储单元、错误分析知识存储单元；

其中：

所述的语素属性生成单元，用于根据待校正自然语言成分的分类信息和语素在该自然语言成分中的位置信息生成语素属性集，并将所述的语素属性集存入所述的语素属性集存储单元；

所述的语素属性转换单元，用于根据所述语素属性集将标注了待校正自然语言成分的样本转换为在语素上标注了语素属性的样本；

语素标注知识抽取单元，用于以语素为基本单元从所述的在语素上标注了语素属性的样本中学习待校正自然语言成分的内部构成及自然语言成分与上下文的关系，生成用统计模型描述的语素属性标注知识，并将所述的语素属性标注知识存入所述的语素属性标注知识存储单元；

错误分析知识存储单元，用于存储待校正语言成分的错误分析知识；

所述的错误位置发现部，根据所述的错误分析知识对输入的待校正符号序列进行检查，发现错误的位置；

所述的语素属性标注部根据所述的语素属性标注知识对输入的待校正符号序列进行语素属性标注，生成语素属性标注序列；

11.根据权利要求8所述的装置，其特征在于，所述的自然语言包括汉语、日语等自然语言或基因符号。

12.根据权利要求8所述的装置，其特征在于，所述的输入的待校正符号序列包括：自然语言文本序列、基因组序列。

13.一种基于字属性标注的汉语成分识别装置，包括：输入部，用于输入待分析汉语文本序列；其特征在于还包括：

输出部，用于输出所述词及词性标注合成部生成的结果。

14.根据权利要求13所述的装置，其特征在于，所述的字属性学习部进一步包括：

字属性转换单元，用于根据字属性组成词及词性规则将汉语分词、词性标注语料的样本转换为字属性标注样本；

字标注知识训练单元，用于以字为基本单元从所述的字属性标注样本中学习待分析汉语分词、词性的内部构成及该分词、词性与上下文的关系，生成用统计模型描述的字属性标注知识；

所述的字属性标注部根据所述的字属性标注知识对输入的待分析汉语文本序列进行字属性标注，生成字属性标注序列。

15.根据权利要求14所述的装置，其特征在于，所述的字学习部还包括：

字属性组成词及词性规则存储单元，用于存储字属性组成词及词性规则；

字属性标注知识存储单元，用于存储所述的字属性标注知识；

词典及词结构规则存储单元，用于存储汉语的语言资源，以及各种层次的与汉语成分相关的语言资源和知识；

所述的字属性标注部根据所述的语言资源和知识、字属性标注知识对输入的待分析汉语文本序列进行字属性标注，生成字属性标注序列；

所述的词及词性标注合成部，根据所述的字属性组成词及词性规则从所述字属性标注部生成的字属性标注序列中识别出需要的汉语成分及该成分的分类标记。

16.根据权利要求13或15所述的装置，其特征在于，所述的字属性标注部进一步包括：

字属性标注生成单元，采用字属性标注知识生成字属性标注候选；

错误候选剔除单元，采用构词规则和高频词词典对字属性标注候选进行筛选，去除不合法的字属性标注候选，实现对所述的字属性标注生成单元传来的字属性标注候选的错误过滤；

最优标注结果选择单元，生成待分析汉语文本序列的最优字属性标注序列，实现对所述的错误候选剔除单元传来的字属性标注候选的最优化处理。

17.一种基于语素标注的自然语言成分识别方法，其特征在于包括：

输入步骤，用于输入待分析符号序列；

语素学习步骤，用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从在语素上标注了语素属性的样本中学习得到语素与所述语素属性之间的关系规律；

输出步骤，用于输出所述分析成分合成步骤的识别结果。

18.根据权利要求17所述的方法，其特征在于，所述的语素学习步骤进一步包括：

语素属性生成步骤，用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置信息生成语素属性集，以用语素属性表示自然语言成分及其分类信息；

语素属性转换步骤，用于根据所述语素属性集将标注了待分析自然语言成分的样本转换为在语素上标注了语素属性的样本；

语素标注知识抽取步骤，用于以语素为基本单元从所述的在语素上标注了语素属性的样本中学习待分析自然语言成分的内部构成及自然语言成分与上下文的关系，生成用统计模型描述的语素属性标注知识；

所述的语素属性标注步骤根据所述的语素属性标注知识对输入的待分析符号序列进行语素属性标注，生成语素属性标注序列。

19.根据权利要求18所述的方法，其特征在于，所述的语素学习步骤还包括：

语素属性集存储步骤，用于存储所述的语素属性集；

语素属性标注知识存储步骤，用于存储所述的语素属性标注知识；

语言知识抽取步骤，用于从标注了待分析自然语言成分的样本中抽取待分析语言成分，生成待分析语言成分列表作为该语言成分的语言资源；

语言资源和知识存储步骤，用于存储所述的语言资源，以及各种层次的与所述分析自然语言成分相关的语言资源和知识；

所述的语素属性标注步骤，根据所述的语言资源和知识、语素属性标注知识对输入的待分析符号序列进行语素属性标注，生成语素属性标注序列；

所述的分析成分合成步骤，根据所述的语素属性集从所述语素属性标注步骤生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记。

20.根据权利要求17所述的方法，其特征在于，所述的语素属性标注步骤进一步包括：

可能语素标注生成步骤，采用语素属性标注知识生成语素标注候选；

错误候选剔除步骤，采用语素、以及比语素高级的语言成分等各种层次的语言资源与知识对语素属性候选进行筛选，去除不合法的语素属性候选，实现对所述的可能语素标注生成步骤传来的语素标注候选的错误过滤；

最优标注结果选择步骤，生成待分析符号序列的最优语素属性标注序列，实现对所述的错误候选剔除步骤传来的语素属性候选的最优化处理。

21.根据权利要求17所述的方法，其特征在于，所述的自然语言包括汉语、日语等自然语言或基因符号。

22.根据权利要求17所述的方法，其特征在于，所述的输入的待分析符号序列包括：自然语言文本序列、基因组序列。

23.一种基于语素标注的自然语言成分校正方法，其特征在于包括：

语素学习步骤，用于根据待校正自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性，并从在语素上标注了语素属性的样本中学习得到语素与所述语素属性之间的关系规律；

输出步骤，用于输出所述分析成分合成步骤的识别结果。

24.根据权利要求23所述的方法，其特征在于，所述的语素属性标注步骤进一步包括：

语素标注候选生成步骤，用于对输入的待校正符号序列保留正确的原有分析结果，对出错部分的语素则生成该语素所有可能的标注候选；

最优结果选择步骤，用于对语素标注序列保留了原有结果中正确的分析信息，而对出错的位置进行重新标注。

25.根据权利要求23所述的方法，其特征在于，所述的自然语言包括汉语、日语等自然语言或基因符号。

26.根据权利要求23所述的方法，其特征在于，所述的输入的待校正符号序列包括：自然语言文本序列、基因组序列。

27.一种基于字属性标注的汉语成分识别方法，其特征在于包括：

输入步骤，用于输入待分析汉语文本序列；

输出步骤，用于输出所述词及词性标注合成步骤生成的结果。

28.根据权利要求27所述的方法，其特征在于，所述的字属性学习步骤进一步包括：

字属性转换步骤，用于根据字属性组成词及词性规则将汉语分词、词性标注语料的样本转换为字属性标注样本；

字标注知识训练步骤，用于以字为基本单元从所述的字属性标注样本中学习待分析汉语分词、词性的内部构成及该分词、词性与上下文的关系，生成用统计模型描述的字属性标注知识；

所述的字属性标注步骤根据所述的字属性标注知识对输入的待分析汉语文本序列进行字属性标注，生成字属性标注序列。

29.根据权利要求28所述的方法，其特征在于，所述字学习步骤还包括：

字属性组成词及词性规则存储步骤，用于存储字属性组成词及词性规则；

字属性标注知识存储步骤，用于存储所述的字属性标注知识；

词典及词结构规则存储步骤，用于存储汉语的语言资源，以及各种层次的与汉语成分相关的语言资源和知识；

所述的字属性标注步骤根据所述的语言资源和知识、字属性标注知识对输入的待分析汉语文本序列进行字属性标注，生成字属性标注序列；

所述的词及词性标注合成步骤，根据所述的字属性组成词及词性规则从所述字属性标注步骤生成的字属性标注序列中识别出需要的汉语成分及该成分的分类标记。

30.根据权利要求27或29所述的方法，其特征在于，所述的字属性标注步骤进一步包括：

字属性标注生成步骤，采用字属性标注知识生成字属性标注候选；

错误候选剔除步骤，采用构词规则和高频词词典对字属性标注候选进行筛选，去除不合法的字属性标注候选，实现对所述的字属性标注生成步骤传来的字属性标注候选的错误过滤；

最优标注结果选择步骤，生成待分析汉语文本序列的最优字属性标注序列，实现对所述的错误候选剔除步骤传来的字属性标注候选的最优化处理。