CN103077164B

CN103077164B - 文本分析方法及文本分析器

Info

Publication number: CN103077164B
Application number: CN201210581448.8A
Authority: CN
Inventors: 戴明洋
Original assignee: Sina Technology China Co Ltd
Current assignee: Sina Technology China Co Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2016-05-11
Anticipated expiration: 2032-12-27
Also published as: CN103077164A

Abstract

本发明公开了一种文本分析方法及文本分析器。该方法包括：对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。应用本发明，可以提高实体词的文本分析准确率。

Description

文本分析方法及文本分析器

技术领域

本发明涉及数据挖掘技术，尤其涉及一种文本分析方法及文本分析器。

背景技术

目前，在自然语言处理技术中，对文本进行词法分析是其他中文信息处理的基础，例如，目前广泛应用的搜索引擎、机器翻译、语音合成、自动分类、自动摘要、自动校对等，都需要基于词法分析技术。对语句或文本进行词法分析的目的有两个：分词及词性标注，分词就是将字与字之间紧密相连的文本序列按词进行划分，从而将文本序列转化为词语序列；词性标注在分词的基础上，根据句子的上下文信息，给划分的词语进行词性标记，例如，将词语标记为动词、名词、副词或形容词等。其中，词是最小的能够独立活动的有意义的语言成分，在汉语中，词与词之间不存在分隔符，词本身也缺乏明显的形态标记，因此，中文信息处理就是如何将汉语的字串分割为合理的词语序列，即分词。

现有的文本分析器，基于规则或基于统计的算法，采用一体化的分词及词性标注，可以对输入的文本实现分词、词性标注、实体识别等功能，即对文本进行分词、词性标注、实体识别等功能处理。

现有技术中，在进行一体化的分词及词性标注时，均是在标注语料时，对分词信息及词性标注信息进行联合标注，即对分词语料与词性标注语料，采用同一份标注，也就是说，在每个字上，既标注分词信息又标注词性标注信息，在进行一体化处理后，将处理结果（文本分析结果）输出。

但现有对文本采用一体化的分词及词性标注进行分析时，采用统一的分词策略对文本进行分词及词性标注后，没有考虑实体词和非实体词对于分词的差异，即在实际应用中，对于常用的文本分析器，要求对非实体词采用小粒度分割，而对于实体词，例如，人名、地名、机构名，应该以大粒度进行分词和词性标注，举例来说，对于非实体词人民大众，进行小粒度的分词及词性标注后，得到的结果为：人民n；大众n，其中，n表示名词；而对于实体词，例如，人名、地名、机构名等，需要得到粗粒度的分词及词性标注结果，举例来说，对于实体词人民大会堂，期望得到粗粒度的分词及词性标注结果为：人民大会堂nt，其中，nt表示机构名，而非期望得到小粒度的分词及词性标注结果为：人民n；大会堂n，因为，对于实体词，小粒度的分词及词性标注结果（人民n；大会堂n）显然与实际应用（人民大会堂nt）不相一致。

由上述可见，现有的文本分析方法，采用统一的策略对文本进行分析，没有区分实体词与非实体词，使得实体词的文本分析准确率较低。

发明内容

本发明的实施例提供一种文本分析方法，提高实体词的文本分析准确率。

本发明的实施例还提供一种文本分析器，提高实体词的文本分析准确率。

为达到上述目的，本发明实施例提供的一种文本分析方法，包括：

对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；

按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；

根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；

根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；

确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。

其中，所述分词模型的预先构建包括：

采集语料；

对语料以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；

通过条件随机场CRF算法，对特征字串采用分类标签方式进行训练，得到分词模型。

其中，所述词性标注模型的预先构建包括：

基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；

将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型。

其中，所述字符特征包括：汉字、英文字符、数字、时间以及符号；

所述对切分得到的字符按照预先设置的字符特征进行特征标注包括：

对文本中的各字符分别进行字符特征的标注，将各字符及其字符特征相连，形成特征字串；

所述对合并得到的词按照预先设置的字符特征进行特征标注，包括：

以词的最后一个字符的字符特征作为词的字符特征，对文本中的各词分别进行字符特征的标注，将各词及其字符特征相连，形成特征词串。

其中，所述对实体词进行词性标注包括：

按照实体词的词性，分别标注实体词中的每个单元词，每个单元词的词性与实体词的词性相同。

其中，所述方法进一步包括：

如果词性标注结果中不包含实体词词性标注，则直接输出词性标注结果作为文本分析结果。

一种文本分析器，该文本分析器包括：分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块，其中，

分词模型模块，用于预先构建分词模型并存储构建的分词模型；

词性标注模型模块，用于预先构建词性标注模型并存储构建的词性标注模型；

特征字串生成模块，用于对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词处理模块；

分词处理模块，用于根据分词模型模块中预先构建的分词模型，对接收的特征字串进行分词处理，得到包含字序的分词结果，输出至特征词串生成模块；

特征词串生成模块，用于根据接收的分词结果中的字序，进行合并处理，并对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；

词性标注模块，用于根据词性标注模型模块中预先构建的词性标注模型，对接收的特征词串进行词性标注，输出词性标注结果至实体词合并模块；

实体词合并模块，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果并输出；如果否，将词性标注结果作为文本分析结果输出。

较佳地，所述分词模型模块包括：语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元，其中，

语料采集单元，用于采集语料；

特征字串生成单元，用于对语料采集单元采集的语料，以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串，输出至分词训练单元；

分词训练单元，通过CRF算法，对接收的特征字串采用分类标签方式进行训练，得到分词模型，输出至分词模型存储单元；

分词模型存储单元，用于存储分词训练单元训练得到的分词模型。

较佳地，所述词性标注模型模块包括：特征词串生成单元、词性标注模型单元以及词性标注模型存储单元，其中，

特征词串生成单元，用于基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；

词性标注模型单元，用于将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型，输出至词性标注模型存储单元；

词性标注模型存储单元，用于存储词性标注模型单元形成的词性标注模型。

较佳地，所述实体词合并模块包括：判断单元以及实体词合并单元，其中，

判断单元，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，将词性标注结果输出至实体词合并单元；否则，将接收的词性标注结果输出；

实体词合并单元，用于按照相邻相同规则，合并接收的词性标注结果中包含实体词词性标注的实体词并输出。

由上述技术方案可见，本发明实施例提供的一种文本分析方法及文本分析器，对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。这样，通过对分词及词性标注的实体词进行合并处理，从而可以进行粗粒度的分词及词性标注，使输出结果更符合应用需求，提高了实体词的文本分析准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，以下描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员而言，还可以根据这些附图所示实施例得到其它的实施例及其附图。

图1为本发明实施例文本分析方法流程示意图。

图2为本发明实施例文本分析器结构示意图。

具体实施方式

以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

现有的文本分析方法，采用统一的策略对文本进行分析，没有区分实体词与非实体词，即对实体词以及非实体词均采用小粒度进行分词及词性标注，而在实际应用中，对于实体词，进行分词及词性标注的结果不能满足应用需求，使得进行分词及词性标注的结果的准确性较低，实体词的文本分析准确率较低。

本发明实施例中，考虑到分词及词性标注的准确性，对前述提及的应用来说，具有十分重要的作用。例如，对于包括字、词、句子或段落的原始文本，互联网应用中数据对分词及词性标注的一般要求是，对于非实体词，需要得到小粒度的分词及词性标注结果，而对于实体词，例如，人名、地名、机构名等，需要得到粗粒度的分词及词性标注结果，举例来说，对于实体词人民大会堂，期望得到粗粒度的分词及词性标注结果为：人民大会堂nt，其中，nt表示机构名，而非期望得到小粒度的分词及词性标注结果为：人民n；大会堂n。

基于上述分析和考虑，通过训练以及条件随机场（CRF，ConditionalRandomFields）的方法，分别生成分词的语料库及词性标注的语料库，并对实体词与非实体词的分词及词性标注分别进行相关处理，训练出相关的分词模型及词性标注模型，从而对于文本中的非实体词，可以进行小粒度的分词及词性标注，对于文本中的实体词，可以进行粗粒度的分词及词性标注，提高实体词的分词与词性标注的性能，提升输出的对实体词进行分词与词性标注的结果的准确性。

图1为本发明实施例文本分析方法流程示意图。本发明实施例中，采用CRF进行分词及词性标注的概率与路径分析，参见图1，该流程包括：

步骤101，预先构建分词模型以及词性标注模型；

本步骤中，构建分词模型包括：

A11，采集语料；

本步骤中，语料为文本集合，由于在统计自然语言处理中，实际上不可能观测到大规模的语言实例，因而，可以简单地用文本集合作为替代，并将文本集合中的上下文关系作为实际语言的上下文关系。

较佳地，采集公开的6个月的人民日报语料。

A12，对语料以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；

本步骤中，字符特征包括：汉字（HAN）、英文字符（ALPHA）、数字（NUM）、时间（TIME）、符号（SIG）以及其他（OTHER）。

特征字串包括：切分得到的字符及其字符特征。例如，语料人民大会堂，经过切分后，得到切分字：人；民；大；会；堂。五个切分字的字符特征均为汉字，因而，其特征字串表示为：人HAN；民HAN；大HAN；会HAN；堂HAN。

对切分得到的字符按照预先设置的字符特征进行特征标注包括：

对文本中的各字符分别进行字符特征的标注，将各字符及其字符特征相连，形成特征字串。

A13，通过CRF算法，对特征字串采用分类标签（6Tag）方式进行训练，得到分词模型。

本步骤中，分词模型的训练方式采用6Tag方式，B表示词的开头，即词首，E表示词的最后一个字，即词尾；M表示词中间最靠近词尾E的字，M1、M2分别表示词中间的第一及第二个字。

其中，实体词（人名、地名、机构）按照小粒度的成词规律进行标注，小粒度成词标注是指以切分得到的字符及字符特征对文本进行标注，即以字符为单位，对文本中的实体词和非实体词分别进行字符特征标注。举例来说，对于文本中包含的机构“人民大会堂”，进行训练得到的分词模型中，标注为“人HANB；民HANE；大HANB；会HANM；堂HANE；”，而非标注为“人HANB；民HANM1；大HANM2；会HANM；堂HANE；”；对于文本中包含的人名，进行训练得到的分词模型中，按照名与姓分开标注，例如，人名“刘德华”标注为“刘HANB；德HANB；华HANE”，关于文本中的非实体词标注，以切分得到的字符及字符特征进行标注，详细可参见相关技术文献，在此不再赘述。

本发明实施例中，分词模型以CRF为分类器，以字符特征为特征，利用CRF算法，采用6Tag方式进行训练，能够给出小粒度的实体词与非实体词分词结果。

关于CRF算法、采用6Tag方式进行训练的详细流程，具体可参见相关技术文献，在此不再赘述。

构建词性标注模型包括：

A21，基于分词模型，进行特征提取，形成词，以词的最后一个字符的字符特征作为词的字符特征，形成特征词串；

本步骤中，根据分词模型中的分词结果，进行特征提取，形成词。例如，对于分词模型中的“人HANB；民HANE；大HANB；会HANM；堂HANE；”，进行特征提取后，形成词“人民；大会堂”，对于“人民”以及“大会堂”，词最后一个字“民”、“堂”的字符特征均为汉字，则形成的特征词串为“人民HAN；大会堂HAN”。

A22，将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型。

本步骤中，词性库中存储有43种词性，例如，名词（n）、动词（vn）、机构名（nt）、地名（ns）等。

本发明实施例中，每一词在不同的语境中，具有不同的词性，通过提取实体词以及非实体词的特征值，通过CRF算法训练，可以确定每一词的词性，其中，对于非实体词，其词性标注与现有技术相同，而对于实体词，按照实体词的属性，分别标注其中的每个单元词，每个单元词的词性与实体词的词性相同，例如，均为机构词性（nt）。例如，对于非实体词“人民大众”，词性标注为“人民HANn；大众HANn”，对于实体词“人民大会堂”，词性标注为“人民HANnt；大会堂HANnt”，再例如，实体词“中国国际广播电台”，词性标注为“中国HANnt；国际HANnt；广播HANnt；电台HANnt”，而非采用非实体词的词性标注“中国HANns；国际HANn；广播HANvn；电台HANn”。

关于提取实体词以及非实体词的特征值，通过CRF算法训练的详细处理流程，具体可参见相关技术文献，在此不再赘述。

在本发明实施例的文本分析方法中，步骤101只需执行一次，而非在每次进行文本分析时，都需要执行。

步骤102，对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；

本步骤中，对用户输入的文本进行预处理，即以字符为单位，对预先获取的文本进行切分处理，得到字符，计算其字符特征，并以字符为单位，对文本中的实体词和非实体词分别进行字符特征标注。

切分得到的字符及其字符特征组成特征字串，例如，对于输入的文本“人民大会堂”，特征字串为“人HAN；民HAN；大HAN；会HAN；堂HAN”。

步骤103，按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果；

本步骤中，通过预先存储的分词模型，对形成的特征字串进行分词处理。例如，对于特征字串“人HAN；民HAN；大HAN；会HAN；堂HAN”，按照构建的分词模型，进行分词处理，得到分词结果为“人HANB；民HANE；大HANB；会HANM；堂HANE”，其中，人为词的词首，民为词的词尾；大为另一词的词首，会为该另一词的词中，堂为该另一词的词尾。

步骤104，根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；

本步骤中，根据接收的分词结果中的字序，合并分词结果，得到合并的词，并按照预先设置的字符特征进行特征标注，形成特征词串。也就是说，根据分词结果中的字序，对分词结果进行再次预处理，其中，对合并得到的词按照预先设置的字符特征进行特征标注，包括：以词的最后一个字符的字符特征作为词的字符特征，对文本中的各词分别进行字符特征的标注，将各词及其字符特征相连，形成特征词串。例如，将分词结果“人HANB；民HANE；大HANB；会HANM；堂HANE”进行合并处理，得到词，并以合并得到的词的最后一个字符的字符特征作为该词的字符特征，将词与字符特征结合，形成特征词串，即“人民HAN；大会堂HAN”。

步骤105，根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果；

本步骤中，将特征词串通过词性标注模型进行词性标注，得到词性标注结果。

本发明实施例中，对特征词串“人民HAN；大会堂HAN”进行词性标注后，得到词性标注结果“人民HANnt；大会堂HANnt”；再例如，对于特征词串“人民HAN；大众HAN”进行词性标注后，得到词性标注结果“人民HANn；大众HANn”。

步骤106，确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。

本步骤中，确定词性标注结果中是否包含实体词词性标注，如果包含实体词词性标注，对包含的实体词词性标注，按照相邻相同规则合并词性标注结果中的实体词，然后输出；如果不包含实体词词性标注，则直接输出词性标注结果。例如，对于词性标注结果“人民HANn；大众HANn”，不包含有实体词词性标注，将该结果直接输出；而对于词性标注结果“人民HANnt；大会堂HANnt”，包含有实体词（机构）词性标注nt，按照相邻相同规则，合并包含实体词词性标注的实体词，即合并为“人民大会堂HANnt”。这样，通过对具有“相邻相同”实体词属性词进行合并，即可完成对实体词的识别，而对于非实体词，则保留原标注状态，即对实体词进行平滑处理。

在对实体词完成平滑处理之后，可将其作为分词结果输出，即可完成对非实体词的小粒度分词，而对实体词的大粒度分词。

关于按照相邻相同规则进行合并的详细描述，具体可参见相关技术文献，在此不再赘述。

由上述可见，本发明实施例的文本分析方法，通过在训练分词模型时，在语料中考虑对实体词的处理，并通过在词性标注模型中，对实体词中各单元词采用该实体词的标注方式，在词性标注中为单元实体词进行识别工作，并在平滑处理中，通过相邻相同规则合并词性标注中的单元实体词，最终完成对实体词的识别，从而可以有效提高实体词识别的准确率，提高实体词的分词与词性标注的性能，提升输出结果中对实体词进行分词与词性标注的准确性；同时，融合分词、词性标注、实体识别，在分词阶段与词性标注阶段，实体词与非实体词均采用小粒度标注，与现有技术不同的是，在词性标注的模型训练阶段，以每个实体词的属性来标注其内部各单元词，而不是以各单元词固有的词性进行标注，可以有效利用并改善了文本分析器对非实体词与实体词不同粒度的要求。

图2为本发明实施例文本分析器结构示意图。参见图2，该文本分析器包括：分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块，其中，

本发明实施例中，字符特征包括：汉字（HAN）、英文字符（ALPHA）、数字（NUM）、时间（TIME）、符号（SIG）以及其他（OTHER）。

其中，分词模型模块包括：语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元（图中未示出），其中，

语料采集单元，用于采集语料；

本发明实施例中，语料采集单元采集公开的6个月的人民日报语料。

分词训练单元，通过CRF算法，对接收的特征字串采用分类标签（6Tag）方式进行训练，得到分词模型，输出至分词模型存储单元；

词性标注模型模块包括：特征词串生成单元、词性标注模型单元以及词性标注模型存储单元（图中未示出），其中，

词性标注模型单元，将特征词串分类为实体词以及非实体词，根据预先存储的词性库，分别提取实体词以及非实体词的特征值，通过CRF算法训练，对实体词以及非实体词进行词性标注，形成词性标注模型，输出至词性标注模型存储单元；

实体词合并模块包括：判断单元以及实体词合并单元（图中未示出），其中，

本发明实施例中，将接收的词性标注结果输出，以向用户返回词性标注结果。

显然，本领域技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也包含这些改动和变型在内。

Claims

1.一种文本分析方法，包括：

确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果；

其中，所述词性标注模型的预先构建包括：

2.根据权利要求1所述的方法，其中，所述分词模型的预先构建包括：

采集语料；

3.根据权利要求1所述的方法，其中，所述字符特征包括：汉字、英文字符、数字、时间以及符号；

4.根据权利要求1所述的方法，其中，所述对实体词进行词性标注包括：

按照实体词的属性，分别标注实体词中的每个单元词，每个单元词的词性与实体词的词性相同。

5.根据权利要求1所述的方法，其中，所述方法进一步包括：

6.一种文本分析器，其特征在于，该文本分析器包括：分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块，其中，

实体词合并模块，用于判断接收的词性标注结果中是否包含实体词词性标注，如果是，按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果并输出；如果否，将词性标注结果作为文本分析结果输出；

其中，所述词性标注模型模块包括：特征词串生成单元、词性标注模型单元以及词性标注模型存储单元，其中，

7.根据权利要求6所述的文本分析器，其特征在于，所述分词模型模块包括：语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元，其中，

语料采集单元，用于采集语料；

8.根据权利要求6和7任一项所述的文本分析器，其特征在于，所述实体词合并模块包括：判断单元以及实体词合并单元，其中，