CN103077164B - 文本分析方法及文本分析器 - Google Patents

文本分析方法及文本分析器 Download PDF

Info

Publication number
CN103077164B
CN103077164B CN201210581448.8A CN201210581448A CN103077164B CN 103077164 B CN103077164 B CN 103077164B CN 201210581448 A CN201210581448 A CN 201210581448A CN 103077164 B CN103077164 B CN 103077164B
Authority
CN
China
Prior art keywords
word
character
speech tagging
feature
entity word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210581448.8A
Other languages
English (en)
Other versions
CN103077164A (zh
Inventor
戴明洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201210581448.8A priority Critical patent/CN103077164B/zh
Publication of CN103077164A publication Critical patent/CN103077164A/zh
Application granted granted Critical
Publication of CN103077164B publication Critical patent/CN103077164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种文本分析方法及文本分析器。该方法包括:对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;按照预先构建的分词模型,对特征字串进行分词处理,得到包含字序的分词结果;根据分词结果中的字序进行合并处理,对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;根据预先构建的词性标注模型,对特征词串进行词性标注,得到词性标注结果;确认词性标注结果中包含实体词词性标注,则按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果。应用本发明,可以提高实体词的文本分析准确率。

Description

文本分析方法及文本分析器
技术领域
本发明涉及数据挖掘技术,尤其涉及一种文本分析方法及文本分析器。
背景技术
目前,在自然语言处理技术中,对文本进行词法分析是其他中文信息处理的基础,例如,目前广泛应用的搜索引擎、机器翻译、语音合成、自动分类、自动摘要、自动校对等,都需要基于词法分析技术。对语句或文本进行词法分析的目的有两个:分词及词性标注,分词就是将字与字之间紧密相连的文本序列按词进行划分,从而将文本序列转化为词语序列;词性标注在分词的基础上,根据句子的上下文信息,给划分的词语进行词性标记,例如,将词语标记为动词、名词、副词或形容词等。其中,词是最小的能够独立活动的有意义的语言成分,在汉语中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此,中文信息处理就是如何将汉语的字串分割为合理的词语序列,即分词。
现有的文本分析器,基于规则或基于统计的算法,采用一体化的分词及词性标注,可以对输入的文本实现分词、词性标注、实体识别等功能,即对文本进行分词、词性标注、实体识别等功能处理。
现有技术中,在进行一体化的分词及词性标注时,均是在标注语料时,对分词信息及词性标注信息进行联合标注,即对分词语料与词性标注语料,采用同一份标注,也就是说,在每个字上,既标注分词信息又标注词性标注信息,在进行一体化处理后,将处理结果(文本分析结果)输出。
但现有对文本采用一体化的分词及词性标注进行分析时,采用统一的分词策略对文本进行分词及词性标注后,没有考虑实体词和非实体词对于分词的差异,即在实际应用中,对于常用的文本分析器,要求对非实体词采用小粒度分割,而对于实体词,例如,人名、地名、机构名,应该以大粒度进行分词和词性标注,举例来说,对于非实体词人民大众,进行小粒度的分词及词性标注后,得到的结果为:人民n;大众n,其中,n表示名词;而对于实体词,例如,人名、地名、机构名等,需要得到粗粒度的分词及词性标注结果,举例来说,对于实体词人民大会堂,期望得到粗粒度的分词及词性标注结果为:人民大会堂nt,其中,nt表示机构名,而非期望得到小粒度的分词及词性标注结果为:人民n;大会堂n,因为,对于实体词,小粒度的分词及词性标注结果(人民n;大会堂n)显然与实际应用(人民大会堂nt)不相一致。
由上述可见,现有的文本分析方法,采用统一的策略对文本进行分析,没有区分实体词与非实体词,使得实体词的文本分析准确率较低。
发明内容
本发明的实施例提供一种文本分析方法,提高实体词的文本分析准确率。
本发明的实施例还提供一种文本分析器,提高实体词的文本分析准确率。
为达到上述目的,本发明实施例提供的一种文本分析方法,包括:
对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;
按照预先构建的分词模型,对特征字串进行分词处理,得到包含字序的分词结果;
根据分词结果中的字序进行合并处理,对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;
根据预先构建的词性标注模型,对特征词串进行词性标注,得到词性标注结果;
确认词性标注结果中包含实体词词性标注,则按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果。
其中,所述分词模型的预先构建包括:
采集语料;
对语料以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;
通过条件随机场CRF算法,对特征字串采用分类标签方式进行训练,得到分词模型。
其中,所述词性标注模型的预先构建包括:
基于分词模型,进行特征提取,形成词,以词的最后一个字符的字符特征作为词的字符特征,形成特征词串;
将特征词串分类为实体词以及非实体词,根据预先存储的词性库,分别提取实体词以及非实体词的特征值,通过CRF算法训练,对实体词以及非实体词进行词性标注,形成词性标注模型。
其中,所述字符特征包括:汉字、英文字符、数字、时间以及符号;
所述对切分得到的字符按照预先设置的字符特征进行特征标注包括:
对文本中的各字符分别进行字符特征的标注,将各字符及其字符特征相连,形成特征字串;
所述对合并得到的词按照预先设置的字符特征进行特征标注,包括:
以词的最后一个字符的字符特征作为词的字符特征,对文本中的各词分别进行字符特征的标注,将各词及其字符特征相连,形成特征词串。
其中,所述对实体词进行词性标注包括:
按照实体词的词性,分别标注实体词中的每个单元词,每个单元词的词性与实体词的词性相同。
其中,所述方法进一步包括:
如果词性标注结果中不包含实体词词性标注,则直接输出词性标注结果作为文本分析结果。
一种文本分析器,该文本分析器包括:分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块,其中,
分词模型模块,用于预先构建分词模型并存储构建的分词模型;
词性标注模型模块,用于预先构建词性标注模型并存储构建的词性标注模型;
特征字串生成模块,用于对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串,输出至分词处理模块;
分词处理模块,用于根据分词模型模块中预先构建的分词模型,对接收的特征字串进行分词处理,得到包含字序的分词结果,输出至特征词串生成模块;
特征词串生成模块,用于根据接收的分词结果中的字序,进行合并处理,并对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;
词性标注模块,用于根据词性标注模型模块中预先构建的词性标注模型,对接收的特征词串进行词性标注,输出词性标注结果至实体词合并模块;
实体词合并模块,用于判断接收的词性标注结果中是否包含实体词词性标注,如果是,按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果并输出;如果否,将词性标注结果作为文本分析结果输出。
较佳地,所述分词模型模块包括:语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元,其中,
语料采集单元,用于采集语料;
特征字串生成单元,用于对语料采集单元采集的语料,以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串,输出至分词训练单元;
分词训练单元,通过CRF算法,对接收的特征字串采用分类标签方式进行训练,得到分词模型,输出至分词模型存储单元;
分词模型存储单元,用于存储分词训练单元训练得到的分词模型。
较佳地,所述词性标注模型模块包括:特征词串生成单元、词性标注模型单元以及词性标注模型存储单元,其中,
特征词串生成单元,用于基于分词模型,进行特征提取,形成词,以词的最后一个字符的字符特征作为词的字符特征,形成特征词串;
词性标注模型单元,用于将特征词串分类为实体词以及非实体词,根据预先存储的词性库,分别提取实体词以及非实体词的特征值,通过CRF算法训练,对实体词以及非实体词进行词性标注,形成词性标注模型,输出至词性标注模型存储单元;
词性标注模型存储单元,用于存储词性标注模型单元形成的词性标注模型。
较佳地,所述实体词合并模块包括:判断单元以及实体词合并单元,其中,
判断单元,用于判断接收的词性标注结果中是否包含实体词词性标注,如果是,将词性标注结果输出至实体词合并单元;否则,将接收的词性标注结果输出;
实体词合并单元,用于按照相邻相同规则,合并接收的词性标注结果中包含实体词词性标注的实体词并输出。
由上述技术方案可见,本发明实施例提供的一种文本分析方法及文本分析器,对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;按照预先构建的分词模型,对特征字串进行分词处理,得到包含字序的分词结果;根据分词结果中的字序进行合并处理,对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;根据预先构建的词性标注模型,对特征词串进行词性标注,得到词性标注结果;确认词性标注结果中包含实体词词性标注,则按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果。这样,通过对分词及词性标注的实体词进行合并处理,从而可以进行粗粒度的分词及词性标注,使输出结果更符合应用需求,提高了实体词的文本分析准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,以下描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员而言,还可以根据这些附图所示实施例得到其它的实施例及其附图。
图1为本发明实施例文本分析方法流程示意图。
图2为本发明实施例文本分析器结构示意图。
具体实施方式
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
现有的文本分析方法,采用统一的策略对文本进行分析,没有区分实体词与非实体词,即对实体词以及非实体词均采用小粒度进行分词及词性标注,而在实际应用中,对于实体词,进行分词及词性标注的结果不能满足应用需求,使得进行分词及词性标注的结果的准确性较低,实体词的文本分析准确率较低。
本发明实施例中,考虑到分词及词性标注的准确性,对前述提及的应用来说,具有十分重要的作用。例如,对于包括字、词、句子或段落的原始文本,互联网应用中数据对分词及词性标注的一般要求是,对于非实体词,需要得到小粒度的分词及词性标注结果,而对于实体词,例如,人名、地名、机构名等,需要得到粗粒度的分词及词性标注结果,举例来说,对于实体词人民大会堂,期望得到粗粒度的分词及词性标注结果为:人民大会堂nt,其中,nt表示机构名,而非期望得到小粒度的分词及词性标注结果为:人民n;大会堂n。
基于上述分析和考虑,通过训练以及条件随机场(CRF,ConditionalRandomFields)的方法,分别生成分词的语料库及词性标注的语料库,并对实体词与非实体词的分词及词性标注分别进行相关处理,训练出相关的分词模型及词性标注模型,从而对于文本中的非实体词,可以进行小粒度的分词及词性标注,对于文本中的实体词,可以进行粗粒度的分词及词性标注,提高实体词的分词与词性标注的性能,提升输出的对实体词进行分词与词性标注的结果的准确性。
图1为本发明实施例文本分析方法流程示意图。本发明实施例中,采用CRF进行分词及词性标注的概率与路径分析,参见图1,该流程包括:
步骤101,预先构建分词模型以及词性标注模型;
本步骤中,构建分词模型包括:
A11,采集语料;
本步骤中,语料为文本集合,由于在统计自然语言处理中,实际上不可能观测到大规模的语言实例,因而,可以简单地用文本集合作为替代,并将文本集合中的上下文关系作为实际语言的上下文关系。
较佳地,采集公开的6个月的人民日报语料。
A12,对语料以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;
本步骤中,字符特征包括:汉字(HAN)、英文字符(ALPHA)、数字(NUM)、时间(TIME)、符号(SIG)以及其他(OTHER)。
特征字串包括:切分得到的字符及其字符特征。例如,语料人民大会堂,经过切分后,得到切分字:人;民;大;会;堂。五个切分字的字符特征均为汉字,因而,其特征字串表示为:人HAN;民HAN;大HAN;会HAN;堂HAN。
对切分得到的字符按照预先设置的字符特征进行特征标注包括:
对文本中的各字符分别进行字符特征的标注,将各字符及其字符特征相连,形成特征字串。
A13,通过CRF算法,对特征字串采用分类标签(6Tag)方式进行训练,得到分词模型。
本步骤中,分词模型的训练方式采用6Tag方式,B表示词的开头,即词首,E表示词的最后一个字,即词尾;M表示词中间最靠近词尾E的字,M1、M2分别表示词中间的第一及第二个字。
其中,实体词(人名、地名、机构)按照小粒度的成词规律进行标注,小粒度成词标注是指以切分得到的字符及字符特征对文本进行标注,即以字符为单位,对文本中的实体词和非实体词分别进行字符特征标注。举例来说,对于文本中包含的机构“人民大会堂”,进行训练得到的分词模型中,标注为“人HANB;民HANE;大HANB;会HANM;堂HANE;”,而非标注为“人HANB;民HANM1;大HANM2;会HANM;堂HANE;”;对于文本中包含的人名,进行训练得到的分词模型中,按照名与姓分开标注,例如,人名“刘德华”标注为“刘HANB;德HANB;华HANE”,关于文本中的非实体词标注,以切分得到的字符及字符特征进行标注,详细可参见相关技术文献,在此不再赘述。
本发明实施例中,分词模型以CRF为分类器,以字符特征为特征,利用CRF算法,采用6Tag方式进行训练,能够给出小粒度的实体词与非实体词分词结果。
关于CRF算法、采用6Tag方式进行训练的详细流程,具体可参见相关技术文献,在此不再赘述。
构建词性标注模型包括:
A21,基于分词模型,进行特征提取,形成词,以词的最后一个字符的字符特征作为词的字符特征,形成特征词串;
本步骤中,根据分词模型中的分词结果,进行特征提取,形成词。例如,对于分词模型中的“人HANB;民HANE;大HANB;会HANM;堂HANE;”,进行特征提取后,形成词“人民;大会堂”,对于“人民”以及“大会堂”,词最后一个字“民”、“堂”的字符特征均为汉字,则形成的特征词串为“人民HAN;大会堂HAN”。
A22,将特征词串分类为实体词以及非实体词,根据预先存储的词性库,分别提取实体词以及非实体词的特征值,通过CRF算法训练,对实体词以及非实体词进行词性标注,形成词性标注模型。
本步骤中,词性库中存储有43种词性,例如,名词(n)、动词(vn)、机构名(nt)、地名(ns)等。
本发明实施例中,每一词在不同的语境中,具有不同的词性,通过提取实体词以及非实体词的特征值,通过CRF算法训练,可以确定每一词的词性,其中,对于非实体词,其词性标注与现有技术相同,而对于实体词,按照实体词的属性,分别标注其中的每个单元词,每个单元词的词性与实体词的词性相同,例如,均为机构词性(nt)。例如,对于非实体词“人民大众”,词性标注为“人民HANn;大众HANn”,对于实体词“人民大会堂”,词性标注为“人民HANnt;大会堂HANnt”,再例如,实体词“中国国际广播电台”,词性标注为“中国HANnt;国际HANnt;广播HANnt;电台HANnt”,而非采用非实体词的词性标注“中国HANns;国际HANn;广播HANvn;电台HANn”。
关于提取实体词以及非实体词的特征值,通过CRF算法训练的详细处理流程,具体可参见相关技术文献,在此不再赘述。
在本发明实施例的文本分析方法中,步骤101只需执行一次,而非在每次进行文本分析时,都需要执行。
步骤102,对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;
本步骤中,对用户输入的文本进行预处理,即以字符为单位,对预先获取的文本进行切分处理,得到字符,计算其字符特征,并以字符为单位,对文本中的实体词和非实体词分别进行字符特征标注。
切分得到的字符及其字符特征组成特征字串,例如,对于输入的文本“人民大会堂”,特征字串为“人HAN;民HAN;大HAN;会HAN;堂HAN”。
步骤103,按照预先构建的分词模型,对特征字串进行分词处理,得到包含字序的分词结果;
本步骤中,通过预先存储的分词模型,对形成的特征字串进行分词处理。例如,对于特征字串“人HAN;民HAN;大HAN;会HAN;堂HAN”,按照构建的分词模型,进行分词处理,得到分词结果为“人HANB;民HANE;大HANB;会HANM;堂HANE”,其中,人为词的词首,民为词的词尾;大为另一词的词首,会为该另一词的词中,堂为该另一词的词尾。
步骤104,根据分词结果中的字序进行合并处理,对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;
本步骤中,根据接收的分词结果中的字序,合并分词结果,得到合并的词,并按照预先设置的字符特征进行特征标注,形成特征词串。也就是说,根据分词结果中的字序,对分词结果进行再次预处理,其中,对合并得到的词按照预先设置的字符特征进行特征标注,包括:以词的最后一个字符的字符特征作为词的字符特征,对文本中的各词分别进行字符特征的标注,将各词及其字符特征相连,形成特征词串。例如,将分词结果“人HANB;民HANE;大HANB;会HANM;堂HANE”进行合并处理,得到词,并以合并得到的词的最后一个字符的字符特征作为该词的字符特征,将词与字符特征结合,形成特征词串,即“人民HAN;大会堂HAN”。
步骤105,根据预先构建的词性标注模型,对特征词串进行词性标注,得到词性标注结果;
本步骤中,将特征词串通过词性标注模型进行词性标注,得到词性标注结果。
本发明实施例中,对特征词串“人民HAN;大会堂HAN”进行词性标注后,得到词性标注结果“人民HANnt;大会堂HANnt”;再例如,对于特征词串“人民HAN;大众HAN”进行词性标注后,得到词性标注结果“人民HANn;大众HANn”。
步骤106,确认词性标注结果中包含实体词词性标注,则按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果。
本步骤中,确定词性标注结果中是否包含实体词词性标注,如果包含实体词词性标注,对包含的实体词词性标注,按照相邻相同规则合并词性标注结果中的实体词,然后输出;如果不包含实体词词性标注,则直接输出词性标注结果。例如,对于词性标注结果“人民HANn;大众HANn”,不包含有实体词词性标注,将该结果直接输出;而对于词性标注结果“人民HANnt;大会堂HANnt”,包含有实体词(机构)词性标注nt,按照相邻相同规则,合并包含实体词词性标注的实体词,即合并为“人民大会堂HANnt”。这样,通过对具有“相邻相同”实体词属性词进行合并,即可完成对实体词的识别,而对于非实体词,则保留原标注状态,即对实体词进行平滑处理。
在对实体词完成平滑处理之后,可将其作为分词结果输出,即可完成对非实体词的小粒度分词,而对实体词的大粒度分词。
关于按照相邻相同规则进行合并的详细描述,具体可参见相关技术文献,在此不再赘述。
由上述可见,本发明实施例的文本分析方法,通过在训练分词模型时,在语料中考虑对实体词的处理,并通过在词性标注模型中,对实体词中各单元词采用该实体词的标注方式,在词性标注中为单元实体词进行识别工作,并在平滑处理中,通过相邻相同规则合并词性标注中的单元实体词,最终完成对实体词的识别,从而可以有效提高实体词识别的准确率,提高实体词的分词与词性标注的性能,提升输出结果中对实体词进行分词与词性标注的准确性;同时,融合分词、词性标注、实体识别,在分词阶段与词性标注阶段,实体词与非实体词均采用小粒度标注,与现有技术不同的是,在词性标注的模型训练阶段,以每个实体词的属性来标注其内部各单元词,而不是以各单元词固有的词性进行标注,可以有效利用并改善了文本分析器对非实体词与实体词不同粒度的要求。
图2为本发明实施例文本分析器结构示意图。参见图2,该文本分析器包括:分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块,其中,
分词模型模块,用于预先构建分词模型并存储构建的分词模型;
词性标注模型模块,用于预先构建词性标注模型并存储构建的词性标注模型;
特征字串生成模块,用于对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串,输出至分词处理模块;
本发明实施例中,字符特征包括:汉字(HAN)、英文字符(ALPHA)、数字(NUM)、时间(TIME)、符号(SIG)以及其他(OTHER)。
分词处理模块,用于根据分词模型模块中预先构建的分词模型,对接收的特征字串进行分词处理,得到包含字序的分词结果,输出至特征词串生成模块;
特征词串生成模块,用于根据接收的分词结果中的字序,进行合并处理,并对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;
词性标注模块,用于根据词性标注模型模块中预先构建的词性标注模型,对接收的特征词串进行词性标注,输出词性标注结果至实体词合并模块;
实体词合并模块,用于判断接收的词性标注结果中是否包含实体词词性标注,如果是,按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果并输出;如果否,将词性标注结果作为文本分析结果输出。
其中,分词模型模块包括:语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元(图中未示出),其中,
语料采集单元,用于采集语料;
本发明实施例中,语料采集单元采集公开的6个月的人民日报语料。
特征字串生成单元,用于对语料采集单元采集的语料,以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串,输出至分词训练单元;
分词训练单元,通过CRF算法,对接收的特征字串采用分类标签(6Tag)方式进行训练,得到分词模型,输出至分词模型存储单元;
分词模型存储单元,用于存储分词训练单元训练得到的分词模型。
词性标注模型模块包括:特征词串生成单元、词性标注模型单元以及词性标注模型存储单元(图中未示出),其中,
特征词串生成单元,用于基于分词模型,进行特征提取,形成词,以词的最后一个字符的字符特征作为词的字符特征,形成特征词串;
词性标注模型单元,将特征词串分类为实体词以及非实体词,根据预先存储的词性库,分别提取实体词以及非实体词的特征值,通过CRF算法训练,对实体词以及非实体词进行词性标注,形成词性标注模型,输出至词性标注模型存储单元;
词性标注模型存储单元,用于存储词性标注模型单元形成的词性标注模型。
实体词合并模块包括:判断单元以及实体词合并单元(图中未示出),其中,
判断单元,用于判断接收的词性标注结果中是否包含实体词词性标注,如果是,将词性标注结果输出至实体词合并单元;否则,将接收的词性标注结果输出;
本发明实施例中,将接收的词性标注结果输出,以向用户返回词性标注结果。
实体词合并单元,用于按照相邻相同规则,合并接收的词性标注结果中包含实体词词性标注的实体词并输出。
显然,本领域技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也包含这些改动和变型在内。

Claims (8)

1.一种文本分析方法,包括:
对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;
按照预先构建的分词模型,对特征字串进行分词处理,得到包含字序的分词结果;
根据分词结果中的字序进行合并处理,对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;
根据预先构建的词性标注模型,对特征词串进行词性标注,得到词性标注结果;
确认词性标注结果中包含实体词词性标注,则按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果;
其中,所述词性标注模型的预先构建包括:
基于分词模型,进行特征提取,形成词,以词的最后一个字符的字符特征作为词的字符特征,形成特征词串;
将特征词串分类为实体词以及非实体词,根据预先存储的词性库,分别提取实体词以及非实体词的特征值,通过CRF算法训练,对实体词以及非实体词进行词性标注,形成词性标注模型。
2.根据权利要求1所述的方法,其中,所述分词模型的预先构建包括:
采集语料;
对语料以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串;
通过条件随机场CRF算法,对特征字串采用分类标签方式进行训练,得到分词模型。
3.根据权利要求1所述的方法,其中,所述字符特征包括:汉字、英文字符、数字、时间以及符号;
所述对切分得到的字符按照预先设置的字符特征进行特征标注包括:
对文本中的各字符分别进行字符特征的标注,将各字符及其字符特征相连,形成特征字串;
所述对合并得到的词按照预先设置的字符特征进行特征标注,包括:
以词的最后一个字符的字符特征作为词的字符特征,对文本中的各词分别进行字符特征的标注,将各词及其字符特征相连,形成特征词串。
4.根据权利要求1所述的方法,其中,所述对实体词进行词性标注包括:
按照实体词的属性,分别标注实体词中的每个单元词,每个单元词的词性与实体词的词性相同。
5.根据权利要求1所述的方法,其中,所述方法进一步包括:
如果词性标注结果中不包含实体词词性标注,则直接输出词性标注结果作为文本分析结果。
6.一种文本分析器,其特征在于,该文本分析器包括:分词模型模块、词性标注模型模块、特征字串生成模块、分词处理模块、特征词串生成模块、词性标注模块以及实体词合并模块,其中,
分词模型模块,用于预先构建分词模型并存储构建的分词模型;
词性标注模型模块,用于预先构建词性标注模型并存储构建的词性标注模型;
特征字串生成模块,用于对获取的文本以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串,输出至分词处理模块;
分词处理模块,用于根据分词模型模块中预先构建的分词模型,对接收的特征字串进行分词处理,得到包含字序的分词结果,输出至特征词串生成模块;
特征词串生成模块,用于根据接收的分词结果中的字序,进行合并处理,并对合并得到的词按照预先设置的字符特征进行特征标注,形成特征词串;
词性标注模块,用于根据词性标注模型模块中预先构建的词性标注模型,对接收的特征词串进行词性标注,输出词性标注结果至实体词合并模块;
实体词合并模块,用于判断接收的词性标注结果中是否包含实体词词性标注,如果是,按照相邻相同规则,合并词性标注结果中包含实体词词性标注的实体词,得到文本分析结果并输出;如果否,将词性标注结果作为文本分析结果输出;
其中,所述词性标注模型模块包括:特征词串生成单元、词性标注模型单元以及词性标注模型存储单元,其中,
特征词串生成单元,用于基于分词模型,进行特征提取,形成词,以词的最后一个字符的字符特征作为词的字符特征,形成特征词串;
词性标注模型单元,用于将特征词串分类为实体词以及非实体词,根据预先存储的词性库,分别提取实体词以及非实体词的特征值,通过CRF算法训练,对实体词以及非实体词进行词性标注,形成词性标注模型,输出至词性标注模型存储单元;
词性标注模型存储单元,用于存储词性标注模型单元形成的词性标注模型。
7.根据权利要求6所述的文本分析器,其特征在于,所述分词模型模块包括:语料采集单元、特征字串生成单元、分词训练单元以及分词模型存储单元,其中,
语料采集单元,用于采集语料;
特征字串生成单元,用于对语料采集单元采集的语料,以字符为单位进行切分处理,对切分得到的字符按照预先设置的字符特征进行特征标注,形成特征字串,输出至分词训练单元;
分词训练单元,通过CRF算法,对接收的特征字串采用分类标签方式进行训练,得到分词模型,输出至分词模型存储单元;
分词模型存储单元,用于存储分词训练单元训练得到的分词模型。
8.根据权利要求6和7任一项所述的文本分析器,其特征在于,所述实体词合并模块包括:判断单元以及实体词合并单元,其中,
判断单元,用于判断接收的词性标注结果中是否包含实体词词性标注,如果是,将词性标注结果输出至实体词合并单元;否则,将接收的词性标注结果输出;
实体词合并单元,用于按照相邻相同规则,合并接收的词性标注结果中包含实体词词性标注的实体词并输出。
CN201210581448.8A 2012-12-27 2012-12-27 文本分析方法及文本分析器 Active CN103077164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210581448.8A CN103077164B (zh) 2012-12-27 2012-12-27 文本分析方法及文本分析器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210581448.8A CN103077164B (zh) 2012-12-27 2012-12-27 文本分析方法及文本分析器

Publications (2)

Publication Number Publication Date
CN103077164A CN103077164A (zh) 2013-05-01
CN103077164B true CN103077164B (zh) 2016-05-11

Family

ID=48153695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210581448.8A Active CN103077164B (zh) 2012-12-27 2012-12-27 文本分析方法及文本分析器

Country Status (1)

Country Link
CN (1) CN103077164B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239355B (zh) * 2013-06-21 2018-09-11 高德软件有限公司 面向搜索引擎的数据处理方法及装置
CN104656938B (zh) * 2013-11-19 2018-07-06 阿尔派株式会社 文字输入装置及文字输入方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN103886051A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于实体及特征的评论分析方法
CN106294473B (zh) * 2015-06-03 2020-11-10 北京搜狗科技发展有限公司 一种实体词挖掘方法、信息推荐方法及装置
CN105243130A (zh) * 2015-09-29 2016-01-13 中国电子科技集团公司第三十二研究所 面向数据挖掘的文本处理系统及方法
CN106815203B (zh) * 2015-12-01 2021-03-30 北京国双科技有限公司 一种裁判文书中的金额解析方法及装置
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
CN105653519A (zh) * 2015-12-30 2016-06-08 贺惠新 一种领域专有词的挖掘方法
CN105740359B (zh) * 2016-01-26 2018-12-07 中国人民解放军国防科学技术大学 个股识别的方法及装置
CN105975454A (zh) * 2016-04-21 2016-09-28 广州精点计算机科技有限公司 一种网页文本的中文分词方法和装置
CN107729309B (zh) * 2016-08-11 2022-11-08 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN108228676B (zh) 2016-12-22 2021-08-13 腾讯科技(深圳)有限公司 信息抽取方法和系统
CN106778887B (zh) * 2016-12-27 2020-05-19 瑞安市辉煌网络科技有限公司 基于条件随机场确定句子标记序列的终端及方法
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
TW201828104A (zh) * 2017-01-26 2018-08-01 雲拓科技有限公司 申請專利範圍之解析紀錄方法
CN107341685A (zh) * 2017-05-24 2017-11-10 百度在线网络技术(北京)有限公司 数据分析方法及装置
CN107273357B (zh) * 2017-06-14 2020-11-10 北京百度网讯科技有限公司 基于人工智能的分词模型的修正方法、装置、设备和介质
CN107247706B (zh) * 2017-06-16 2021-06-25 中国电子技术标准化研究院 文本断句模型建立方法、断句方法、装置及计算机设备
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN107608966A (zh) * 2017-09-14 2018-01-19 武汉光谷信息技术股份有限公司 一种中文分词方法及系统
CN110263318B (zh) * 2018-04-23 2022-10-28 腾讯科技(深圳)有限公司 实体名称的处理方法、装置、计算机可读介质及电子设备
CN108595430B (zh) * 2018-04-26 2022-02-22 携程旅游网络技术(上海)有限公司 航变信息提取方法及系统
CN109063046A (zh) * 2018-07-17 2018-12-21 广州资宝科技有限公司 搜索方法、装置及智能终端
CN110134949B (zh) * 2019-04-26 2022-10-28 网宿科技股份有限公司 一种基于教师监督的文本标注方法和设备
CN110058838B (zh) * 2019-04-28 2021-03-16 腾讯科技(深圳)有限公司 语音控制方法、装置、计算机可读存储介质和计算机设备
CN110309513B (zh) * 2019-07-09 2023-07-25 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置
CN110837735B (zh) * 2019-11-17 2023-11-03 内蒙古中媒互动科技有限公司 一种数据智能分析识别方法及系统
CN111222325A (zh) * 2019-12-30 2020-06-02 北京富通东方科技有限公司 一种双向栈式循环神经网络的医疗语义标注方法和系统
CN111160034B (zh) * 2019-12-31 2024-02-27 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111353295A (zh) * 2020-02-27 2020-06-30 广东博智林机器人有限公司 序列标注方法、装置、存储介质及计算机设备
CN111539209B (zh) * 2020-04-15 2023-09-15 北京百度网讯科技有限公司 用于实体分类的方法和装置
CN111859951B (zh) * 2020-06-19 2024-03-26 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN112732743B (zh) * 2021-01-12 2023-09-22 北京久其软件股份有限公司 一种基于中文自然语言的数据分析方法及装置
CN113609860B (zh) * 2021-08-05 2023-09-19 湖南特能博世科技有限公司 文本切分方法、装置及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246472A (zh) * 2008-03-28 2008-08-20 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
CN101287229A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的自然语言处理技术及装置
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
CN102737039A (zh) * 2011-04-07 2012-10-17 北京百度网讯科技有限公司 索引建立方法、搜索方法和搜索结果排序方法及对应装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762293B2 (en) * 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246472A (zh) * 2008-03-28 2008-08-20 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
CN101287229A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的自然语言处理技术及装置
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
CN102737039A (zh) * 2011-04-07 2012-10-17 北京百度网讯科技有限公司 索引建立方法、搜索方法和搜索结果排序方法及对应装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《一种基于字词联合解码的中文分词方法》;宋彦 等;《软件学报》;20090930;第20卷(第9期);第2366-2375页 *
《字标注汉语词法分析中上文和下文孰重孰轻》;于江德 等;《计算机科学》;20121130;第39卷(第11期);第201-203,236页 *

Also Published As

Publication number Publication date
CN103077164A (zh) 2013-05-01

Similar Documents

Publication Publication Date Title
CN103077164B (zh) 文本分析方法及文本分析器
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN100595760C (zh) 一种获取口语词条的方法、装置以及一种输入法系统
CN103324609B (zh) 文本校对装置和文本校对方法
CN103123618B (zh) 文本相似度获取方法和装置
CN105718586B (zh) 分词的方法及装置
CN101887414B (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN105243129A (zh) 商品属性特征词聚类方法
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
US20180190270A1 (en) System and method for semantic analysis of speech
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN102279890A (zh) 基于微博的情感词提取收集方法
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN101079025B (zh) 一种文档相关度计算系统和方法
CN102663139A (zh) 一种情感词典构建方法及系统
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN102214166A (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN101093478A (zh) 一种根据实体的汉语简称识别汉语全称的方法及系统
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN104317965A (zh) 基于语料的情感词典构建方法
CN101556596A (zh) 一种输入法系统及智能组词的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230406

Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Sina Technology (China) Co.,Ltd.

Address before: 100080, International Building, No. 58 West Fourth Ring Road, Haidian District, Beijing, 20 floor

Patentee before: Sina.com Technology (China) Co.,Ltd.