CN111950274A

CN111950274A - 一种专业领域语料的中文分词方法及装置

Info

Publication number: CN111950274A
Application number: CN202010759836.5A
Authority: CN
Inventors: 江明旭; 张丹; 胡屹
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-17

Abstract

本发明提供一种专业领域语料的中文分词方法及装置，涉及人工智能技术领域。所述方法包括：基于专业领域词典对待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料；对专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料；对第二待处理专业领域语料中的非专业领域字进行特征提取，获得每个非专业领域字的特征信息；基于每个非专业领域字的特征信息以及标注类别识别模型，识别每个非专业领域字的标注类别；基于待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。所述装置用于执行上述方法。本发明实施例提供的专业领域语料的中文分词方法及装置，提高了专业领域语料分词的准确性。

Description

一种专业领域语料的中文分词方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种专业领域语料的中文分词方法及装置。

背景技术

中文分词(Chinese Word Segmentation)是将汉字序列切分成一个个单独的词的过程，是进行中文自然语言处理的基础，在词性标注、命名实体识别、语音合成、自动分类、机器翻译等领域得到广泛应用。

现有技术中，较为流行的中文分词算法主要为基于字标注的算法，例如条件随机场和最大熵模型，这些算法都是先通过训练语料进行训练，参数估计得出模型，然后利用该模型对文本进行分词处理，但该类模型的训练语料一般都是通用型训练语料，训练出来的模型在处理通用型文章时效果不错，但在处理专业领域文章时，因涉及大量的专业词汇，如在处理金融领域文章时，文章会涉及大量的金融词汇，利用通用型训练语料训练出来的模型对该专业领域文章进行分词处理，效果会比较差，分词的准确性降低。

发明内容

针对现有技术中的问题，本发明实施例提供一种专业领域语料的中文分词方法及装置，能够至少部分地解决现有技术中存在的问题。

一方面，本发明提出一种专业领域语料的中文分词方法，包括：

获取待切分专业领域语料；

基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料；

对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料；所述第二待处理专业领域语料包括每个专业领域字的标注类别；

对所述第二待处理专业领域语料中的非专业领域字进行特征提取，获得所述第二待处理专业领域语料中每个非专业领域字的特征信息；

基于每个非专业领域字的特征信息以及标注类别识别模型，识别每个非专业领域字的标注类别；其中，所述标注类别识别模型是基于通用型训练语料预先训练获得的；

基于所述待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。

另一方面，本发明提供一种专业领域语料的中文分词装置，包括：

获取单元，用于获取待切分专业领域语料；

切分单元，用于基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料；

离散化单元，用于对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料；所述第二待处理专业领域语料包括每个专业领域字的标注类别；

第一提取单元，用于对所述第二待处理专业领域语料中的非专业领域字进行特征提取，获得所述第二待处理专业领域语料中每个非专业领域字的特征信息；

识别单元，用于基于每个非专业领域字的特征信息以及标注类别识别模型，识别每个非专业领域字的标注类别；其中，所述标注类别识别模型是基于通用型训练语料预先训练获得的；

获得单元，用于基于所述待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。

再一方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述专业领域语料的中文分词方法的步骤。

又一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述专业领域语料的中文分词方法的步骤。

本发明实施例提供的专业领域语料的中文分词方法及装置，获取待切分专业领域语料，基于专业领域词典对待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料，对第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料，对第二待处理专业领域语料中的非专业领域字进行特征提取，获得第二待处理专业领域语料中每个非专业领域字的特征信息，基于每个非专业领域字的特征信息以及标注类别识别模型，获得每个非专业领域字的标注类别，基于待切分专业领域语料中每个字的标注类别，获得待切分专业领域语料的分词结果，提高了专业领域语料分词的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明一实施例提供的专业领域语料的中文分词方法的流程示意图。

图2是本发明另一实施例提供的专业领域语料的中文分词方法的流程示意图。

图3是本发明又一实施例提供的专业领域语料的中文分词方法的流程示意图。

图4是本发明一实施例提供的专业领域语料的中文分词装置的结构示意图。

图5是本发明另一实施例提供的专业领域语料的中文分词装置的结构示意图。

图6是本发明又一实施例提供的专业领域语料的中文分词装置的结构示意图。

图7是本发明一实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

为了便于理解本申请提供的技术方案，下面先对本申请技术方案的研究背景进行简单说明。在对专业领域文章分词时，因涉及大量的专业词汇，如金融领域文章，会涉及大量的金融词汇，若在训练模型阶段使用专业领域的训练语料，训练语料建设成本较大，实现起来较难，且针对不同专业领域准备不同专业领域的训练语料，也不易实现；若利用通用型训练语料训练出来的模型对专业领域文章进行分词处理，效果会比较差，分词不够准确，进而影响了后续的文本深入分析。为此，本发明实施例提供一种专业领域语料的中文分词方法，适用于对不同专业领域语料进行分词，并提高了专业领域语料分词的准确性，进而有利于专业领域文章语义分析等后续文本分析效果。

图1是本发明一实施例提供的专业领域语料的中文分词方法的流程示意图，如图1所示，本发明实施例提供的专业领域语料的中文分词方法，包括：

S101、获取待切分专业领域语料；

具体地，用户可以通过手动输入或者文件的形式提供待切分专业领域语料，服务器可以获取所述待切分专业领域语料，所述待切分专业领域语料为包括专业领域词汇的中文语料。所述专业领域包括但不限于金融领域、机械领域、计算机领域、通信领域等。

例如，所述待切分专业领域语料A为：芯片卡客户增长率高于磁条卡，芯片卡交易更为频繁。2012年6月末，借记磁条卡、借记芯片卡客户数分别较年初增长5.2％、 66％，芯片卡客户增长率明显高于磁条卡。

S102、基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料；

具体地，所述服务器在获取所述待切分专业领域语料之后，可以基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料，所述第一待处理专业领域语料包括经过分词的专业词汇以及未经过分词的非专业词。其中，所述专业领域词典是预设的，包括专业词汇。所述专业领域词典根据实际需要进行设置，本发明实施例不做限定。

例如，专业领域词典X包括芯片卡、磁条卡、借记磁条卡、借记芯片卡等专业词汇。所述服务器基于专业领域词典X对待切分专业领域语料A进行专业领域词切分，获得如下第一待处理专业领域语料，其中分词后的专业词汇之前和/或之后加空格作为分隔符。待切分专业领域语料A对应的第一待处理专业领域语料如下：

芯片卡客户增长率高于磁条卡，芯片卡交易更为频繁。2012年6月末，借记磁条卡、借记芯片卡客户数分别较年初增长5.2％、66％，芯片卡客户增长率明显高于磁条卡。

S103、对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料；所述第二待处理专业领域语料包括每个专业领域字的标注类别；

具体地，所述服务器在获得所述第一待处理专业领域语料之后，会对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，对专业领域词进行字标注处理就是标注所述第一待处理专业领域语料中的专业领域词的每个字的标注类别，在标注完每个字之后可以在每个字后添加分隔符实现字与字的分离，以便于后续所述服务器对标注后的字的识别。所述服务器对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，可以获得第二待处理专业领域语料，所述第二待处理专业领域语料包括每个专业领域字的标注类别，所述专业领域字是指专业领域词中的每个字。其中，所述分隔符包括但不限于空格，根据实际需要进行设置，本发明实施例不做限定。

例如，所述服务器对待切分专业领域语料A对应的第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得的第二待处理专业领域语料如下：

芯/B片/M卡/E客户增长率高于磁/B条/M卡/E，芯/B片/M卡/E交易更为频繁。2012年6月末，借/B记/M磁/M条/M卡/E、借/B记/M芯/M片/M卡/E客户数分别较年初增长5.2％、66％，芯/B片/M卡/E客户增长率明显高于磁/B条/M 卡/E。

其中，标注类别包括首词位、中间词位、尾词位和单字成词。首词位表示为B，即字在词首的位置上标注为B，比如词为“中华人民”，则“中”是该词的第一个字，则标注为首词位B；中间词表示为M，字在该词的中间位置上标注为M，比如词为“中华人民”，“华”和“人”是该词的中间两个字，则均标注为中间词位M。尾词位表示为E，字为该词的最后一个字，比如词为“中华人民”，“民”是该词的最后一个字，则将“民”标注为尾词位E。单字成词表示为S，单个字比如“的”，标点符号“，”、“；”、“。”等，标注为单字成词S。分隔符可以采用空格。

S104、对所述第二待处理专业领域语料中的非专业领域字进行特征提取，获得所述第二待处理专业领域语料中每个非专业领域字的特征信息；

具体地，在获得所述第二待处理专业领域语料之后，所述服务器对所述第二待处理专业领域语料中的非专业领域字进行特征提取，可以获得所述第二待处理专业领域语料中每个非专业领域字的特征信息。其中，所述非专业领域字是指所述第二待处理专业领域语料中除了专业领域词以外的语料中的字、标点符号等。

例如，所述服务器可以基于每个非专业领域字、每个非专业领域字之前的两个字以及每个非专业领域字之后的两个字，获得每个非专业领域字的单一字特征和混合特征，并基于每个非专业领域字之前的两个字的标注类别，获得每个非专业领域字的类别特征。

S105、基于每个非专业领域字的特征信息以及标注类别识别模型，获得每个非专业领域字的标注类别；其中，所述标注类别识别模型是基于通用型训练语料预先训练获得的；

具体地，所述服务器在获得所述第二待处理专业领域语料中每个非专业领域字的特征信息之后，将每个非专业领域字的特征信息输入到标注类别识别模型中，经过所述标注类别识别模型的处理，可以输出每个非专业领域字的标注类别。其中，所述标注类别识别模型是基于通用型训练语料预先训练获得的，所述通用型训练语料是预先获得的。

S106、基于所述待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。

具体地，所述服务器获得了每个专业领域字的标注类别和每个非专业领域字的标注类别，从而得到所述待切分专业领域语料中每个字的标注类别，那么可以基于所述待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。

例如，所述服务器获得待切分专业领域语料A的每个字的标注类别如下：

芯/B片/M卡/E客/B户/E增/B长/M率/E高/B于/E磁/B条/M卡/E，/S 芯/B片/M卡/E交/B易/E更/B为/E频/B繁/E。/S 2/B 0/M 1/M 2/M年/E 6/B 月/M末/E，/S借/B记/M磁/M条/M卡/E、/S借/B记/M芯/M片/M卡/E客 /B户/M数/E分/B别/E较/S年/B初/E增/B长/E 5/B./M 2/M％/E、/S 6/B 6/M％/E，/S芯/B片/M卡/E客/B户/E增/B长/M率/E明/B显/E高/B于/E 磁/B条/M卡/E。/S

所述服务器会根据每个字的标注类别，依次将首词位B、中间词位M和尾词位E 对应字的组成词，将首词位B和尾词位E对应字的组成词，将单字成词S对应字单独成词，比如“客”字的标注类别为B，其为词首字，“户”字的标注类别为E，则其为词尾字，则将“客”字与“户”字组成词“客户”。所述服务器基于待切分专业领域语料A的每个字的标注类别，可以获得待切分专业领域语料A的分词结果如下：

芯片卡客户增长率高于磁条卡，芯片卡交易更为频繁。2012年6 月末，借记磁条卡、借记芯片卡客户数分别较年初增长5.2％、66％，芯片卡客户增长率明显高于磁条卡。

本发明实施例提供的专业领域语料的中文分词方法，获取待切分专业领域语料，基于专业领域词典对待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料，对第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料，对第二待处理专业领域语料中的非专业领域字进行特征提取，获得第二待处理专业领域语料中每个非专业领域字的特征信息，基于每个非专业领域字的特征信息以及标注类别识别模型，获得每个非专业领域字的标注类别，基于待切分专业领域语料中每个字的标注类别，获得待切分专业领域语料的分词结果，提高了专业领域语料分词的准确性。此外，在使用通用型训练语料训练的标注类别识别模型的基础上引入专业领域词典对专业领域词进行分词，无需使用专业领域语料训练专用的分词模型，能够适用于不同的专业领域语料的分词，提高了专业领域语料分词的全面性。

图2是本发明另一实施例提供的专业领域语料的中文分词方法的流程示意图，如图2所示，在上述各实施例的基础上，进一步地，基于所述通用型训练语料训练获得所述标注类别识别模型的步骤包括：

S201、对所述通用型训练语料进行字标注处理以及离散化处理，获得离散化的通用型训练语料以及每个字的标注类别；其中，所述通用型训练语料是经过分词的语料；

具体地，所述服务器可以获取所述通用型训练语料，然后对所述通用型训练语料进行字标注处理以及离散化处理，可以获得离散化的通用型训练语料以及每个字的标注类别。其中，所述通用型训练语料是预先获得的，可以是包括千万级别的中文语句的语料，所述通用型训练语料是经过分词的语料。

例如，通用型训练语料C的部分训练语料如下：

迈向充满希望的新世纪——一九九八年新年讲话(附图片1张)

(一九九七年十二月三十一日)

12月31日，发表1998年新年讲话《迈向充满希望的新世纪》。 (新华社记者兰红光摄)

同胞们、朋友们、女士们、先生们：

所述服务器对通用型训练语料C的上述部分训练语料进行字标注处理以及离散化处理，获得的离散化的通用型训练语料C的部分训练语料以及每个字的标注类别如下：

迈/B向/B充/B满/E希/B望/E的/S新/S世/B纪/E-/B-/E-/B九/M九/M 八/M年/E新/B年/E讲/B话/E(/S附/S图/B片/E 1/S张/S)/S

(/S一/B九/M九/M七/M年/E十/B二/M月/E三/B十/M一/M日/E)/S

1/B 2/M月/E 3/B 1/M日/B，/S发/B表/E 1/B 9/M 9/M 8/M年/E新/B年/E 讲/B话/E《/S迈/B向/B充/B满/E希/B望/E的/s新/s世/B纪/E》/S。/S(/S新 /B华/M社/E记/B者/E兰/S红/B光/E摄/S)/S

同/B胞/E们/S、/S朋/B友/E们/S、/S女/B士/E们/S、/S先/B生/E们 /S:/S

S202、基于离散化的通用型训练语料以及每个字的标注类别进行特征提取，获得每个字的特征信息；

具体地，所述服务器在获得离散化的通用型训练语料以及每个字的标注类别之后，基于离散化的通用型训练语料以及每个字的标注类别进行特征提取，可以获得每个字的特征信息。

例如，每个字的特征信息可以包括单一字特征、混合特征和类别特征。单一字特征为字本身及该字的前后各两个字形成单一的特征，可以将单一字特征形式化描述为 C_i(i＝-2,-1,0,1,2)，C_i表示C₀的单一字特征。在离散化的通用型训练语料C的部分训练语料中，若当前字为“充”，则其前面第一个字为“向”，前面第二个字为“迈”，其后第一个字为“满”，后面第二个字为“希”，则“迈”、“向”、“充”、“满”和“希”是当前字“充”的单一字特征，如表1所示。

混合特征为字本身和该字的前后各两个字分别组成的字串特征，可以将混合特征形式化描述为C_iC_i+1(i＝-2,-1,0,1)和C_iC_i+2(i＝-1,0)，C_iC_i+1和C_iC_i+2表示C₀的混合特征。如表1所示，当前字“充”和前后各两个字分别组成的字串特征为“迈向”、“向充”、“充满”、“满希”“向满”、“充希”。

字本身的前面两个字的标注类别构成字的类别特征，可以将类别特征形式化描述为Type(C_i)(i＝-2,-1)。当前字“充”前面的第一个字“向”的标注类别为“E”，前面第二个字“迈”的标注类别为“B”，那么“E”和“B”是当前字“充”的类别特征，如表1所示。

表1“充”字的特征信息

S203、基于每个字的特征信息以及最大熵模型，训练获得所述标注类别识别模型。

具体地，所述服务器在获得每个字的特征信息之后，将每个字的特征信息输入到最大熵模型中进行训练，确定最大熵模型中的参数，可以训练获得所述标注类别识别模型。

所述最大熵模型为：

其中，P_w(y|x)表示输入为x时输出y的概率，z_w(x)表示归一化因子，x表示输入数据，y表示输出数据，f_i(x,y)表示特征函数，w_i表示特征函数对应的权重值， y∈{1,2,…,K}，K表示y的种类，i为正整数且i小于等于n。

图3是本发明又一实施例提供的专业领域语料的中文分词方法的流程示意图，如图3所示，在上述各实施例的基础上，进一步地，所述基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料包括：

S1021、基于所述专业领域词典对所述待切分专业领域语料进行正向最大匹配切分，获得所述待切分专业领域语料的第一专业词集合；其中，所述第一专业词集合包括各个第一专业词以及对应的位置信息；

具体地，所述服务器可以基于所述专业领域词典对所述待切分专业领域语料进行正向最大匹配切分，获得所述待切分专业领域语料的第一专业词集合，所述第一专业词结合中包括各个第一专业词以及对应的位置信息，每个第一专业词是所述专业领域词典中的专业词汇，每个第一专业词的位置信息可以采用每个第一专业词的第一字和最后一个字在所属句子中的位置进行表示。

例如，采用正向最大匹配算法对所述待切分专业领域语料进行切分，先设定扫描的窗口大小maxLen(一般为专业领域词典最长的专业领域词的长度)，从所述待切分专业领域语料的首行开始，从左向右取maxLen个字符作为匹配字段，查找专业领域词典并进行字段匹配。若匹配成功，则将这个匹配的字段作为一个第一专业词切分出来，并记录这个第一专业词的第一个字和最后一个字是所属句子的第几个字，作为这个第一专业词的位置信息。然后将窗口向右移动这个第一专业词的长度。若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，再次进行匹配，重复以上过程，直到切分出所述待切分专业领域语料的所有专业领域词为止。

S1022、基于所述专业领域词典对所述待切分专业领域语料进行逆向最大匹配切分，获得所述待切分专业领域语料的第二专业词集合；其中，所述第二专业词集合包括各个第二专业词以及对应的位置信息；

具体地，所述服务器可以基于所述专业领域词典对所述待切分专业领域语料进行逆向最大匹配切分，获得所述待切分专业领域语料的第二专业词集合，所述第二专业词结合中包括各个第二专业词以及对应的位置信息，每个第二专业词是所述专业领域词典中的专业词汇，每个第二专业词的位置信息可以采用每个第二专业词的第一字和最后一个字在所属句子中的位置进行表示。

例如，采用反向最大匹配算法对所述待切分专业领域语料进行切分，先设定扫描的窗口大小maxLen(一般为专业领域词典最长的专业领域词的长度)，所述待切分专业领域语料的最后一行开始，从右向左取maxLen个字符作为匹配字段，查找专业领域词典并进行字段匹配。若匹配成功，则将这个匹配字段作为一个第二专业词切分出来，并记录这个第二专业词的第一个字和最后一个字是所属句子的第几个字，作为这个第二专业词的位置信息。然后将窗口向左移动这个第二专业词的长度。若匹配不成功，则将这个匹配字段的最左一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所述待切分专业领域语料的所有专业领域词为止。

S1023、若判断获知所述第一专业词集合的第一专业词和所述第二专业词集合的第二专业词相同且对应的位置信息相同，则将相同的第一专业词和第二专业词作为所述第一待处理专业领域语料的专业领域词。

具体地，所述服务器会遍历所述第一专业词集合和第二专业词集合，将所述第一专业词集合中的第一专业词和所述第二专业词集合的第二专业词进行比较，并且将第一专业词的位置信息和第二专业词的位置信息进行比较，如果第一专业词和第二专业词相同并且第一专业词对应的位置信息和第二专业词对应的位置信息也相同，那么第一专业词和第二专业词为相同的第一专业词和第二专业词。所述服务器会将相同的第一专业词和第二专业词作为所述第一待处理专业领域语料的专业领域词。其中，位置信息相同可以是根据第一专业词的第一字的位置与第二专业词的第一个字的位置相同并且第一专业词的最后一个字的位置第二专业词的最后一个字的位置相同确定的。

在上述各实施例的基础上，进一步地，所述对所述第二待处理专业领域语料中的非专业领域字进行特征提取，获得所述第二待处理专业领域语料中每个非专业领域字的特征信息包括：

基于当前字、所述当前字之前的两个字以及所述当前字之后的两个字，获得所述当前字的单一字特征和混合特征，并基于所述当前字之前的两个字的标注类别，获得所述当前字的类别特征。

具体地，所述服务器会基于当前字、所述当前字之前的两个字以及所述当前字之后的两个字，获得所述当前字的单一字特征。所述服务器会基于当前字、所述当前字之前的两个字以及所述当前字之后的两个字，获得当前字的混合特征。所述服务器会基于所述当前字之前的两个字的标注类别，获得所述当前字的类别特征。其中，在对所述第二待处理专业领域语料中的非专业领域字进行特征提取时，当前字为每个非专业领域字。

例如，待切分专业领域语料A对应的第二待处理专业领域语料如下：

所述服务器在对待切分专业领域语料A对应的第二待处理专业领域语料中的非专业领域字进行特征提取时，会跳过已经识别出的专业领域词，比如对“芯片卡”不会进行特征提取。“客”字为非专业领域字，可以对“客”字提取单一字特征、混合特征和类别特征，获得“客”字的特征信息，如表2所示，“客”字的特征提取的具体过程与步骤S202中特征提取过程类似，此处不进行赘述。

表2“客”字的特征信息

图4是本发明一实施例提供的专业领域语料的中文分词装置的结构示意图，如图4所示，本发明实施例提供的专业领域语料的中文分词装置包括获取单元401、切分单元402、离散化单元403、第一提取单元404、识别单元405和获得单元406，其中：

获取单元401用于获取待切分专业领域语料；切分单元402用于基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料；离散化单元403用于对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料；所述第二待处理专业领域语料包括每个专业领域字的标注类别；第一提取单元404用于对所述第二待处理专业领域语料中的非专业领域字进行特征提取，获得所述第二待处理专业领域语料中每个非专业领域字的特征信息；识别单元405用于基于每个非专业领域字的特征信息以及标注类别识别模型，识别每个非专业领域字的标注类别；其中，所述标注类别识别模型是基于通用型训练语料预先训练获得的；获得单元406用于基于所述待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。

具体地，用户可以通过手动输入或者文件的形式提供待切分专业领域语料，获取单元401可以获取所述待切分专业领域语料，所述待切分专业领域语料为包括专业领域词汇的中文语料。所述专业领域包括但不限于金融领域、机械领域、计算机领域、通信领域等。

在获取所述待切分专业领域语料之后，切分单元402可以基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料，所述第一待处理专业领域语料包括经过分词的专业词汇以及未经过分词的非专业词。其中，所述专业领域词典是预设的，包括专业词汇。所述专业领域词典根据实际需要进行设置，本发明实施例不做限定。

在获得所述第一待处理专业领域语料之后，离散化单元403会对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，对专业领域词进行字标注处理就是标注所述第一待处理专业领域语料中的专业领域词的每个字的标注类别，在标注完每个字之后可以在每个字后添加分隔符实现字与字的分离，以便于后续所述服务器对标注后的字的识别。离散化单元403对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，可以获得第二待处理专业领域语料，所述第二待处理专业领域语料包括每个专业领域字的标注类别，所述专业领域字是指专业领域词中的每个字。其中，所述分隔符包括但不限于空格，根据实际需要进行设置，本发明实施例不做限定。

在获得所述第二待处理专业领域语料之后，第一提取单元404对所述第二待处理专业领域语料中的非专业领域字进行特征提取，可以获得所述第二待处理专业领域语料中每个非专业领域字的特征信息。其中，所述非专业领域字是指所述第二待处理专业领域语料中除了专业领域词以外的语料中的字、标点符号等。

在获得所述第二待处理专业领域语料中每个非专业领域字的特征信息之后，识别单元405将每个非专业领域字的特征信息输入到标注类别识别模型中，经过所述标注类别识别模型的处理，可以输出每个非专业领域字的标注类别。其中，所述标注类别识别模型是基于通用型训练语料预先训练获得的，所述通用型训练语料是预先获得的。

获得单元406获得了每个专业领域字的标注类别和每个非专业领域字的标注类别，从而得到所述待切分专业领域语料中每个字的标注类别，那么可以基于所述待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。

本发明实施例提供的专业领域语料的中文分词装置，获取待切分专业领域语料，基于专业领域词典对待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料，对第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料，对第二待处理专业领域语料中的非专业领域字进行特征提取，获得第二待处理专业领域语料中每个非专业领域字的特征信息，基于每个非专业领域字的特征信息以及标注类别识别模型，获得每个非专业领域字的标注类别，基于待切分专业领域语料中每个字的标注类别，获得待切分专业领域语料的分词结果，提高了专业领域语料分词的准确性。此外，在使用通用型训练语料训练的标注类别识别模型的基础上引入专业领域词典对专业领域词进行分词，无需使用专业领域语料训练专用的分词模型，能够适用于不同的专业领域语料的分词，提高了专业领域语料分词的全面性。

图5是本发明另一实施例提供的专业领域语料的中文分词装置的结构示意图，如图5所示，在上述各实施例的基础上，进一步地，本发明实施例提供的专业领域语料的中文分词装置还包括处理单元407、第二提取单元408和训练单元409，其中：

处理单元407用于对所述通用型训练语料进行字标注处理以及离散化处理，获得离散化的通用型训练语料以及每个字的标注类别；其中，所述通用型训练语料是经过分词的语料；第二提取单元408用于基于离散化的通用型训练语料以及每个字的标注类别进行特征提取，获得每个字的特征信息；训练单元409用于基于每个字的特征信息以及最大熵模型，训练获得所述标注类别识别模型。

具体地，处理单元407可以获取所述通用型训练语料，然后对所述通用型训练语料进行字标注处理以及离散化处理，可以获得离散化的通用型训练语料以及每个字的标注类别。其中，所述通用型训练语料是预先获得的，可以是包括千万级别的中文语句的语料，所述通用型训练语料是经过分词的语料。

在获得离散化的通用型训练语料以及每个字的标注类别之后，第二提取单元408基于离散化的通用型训练语料以及每个字的标注类别进行特征提取，可以获得每个字的特征信息。

在获得每个字的特征信息之后，训练单元409将每个字的特征信息输入到最大熵模型中进行训练，确定最大熵模型中的参数，可以训练获得所述标注类别识别模型。

图6是本发明又一实施例提供的专业领域语料的中文分词装置的结构示意图，如图6所示，在上述各实施例的基础上，进一步地，切分单元402包括第一切分子单元 4021、第二切分子单元4022和作为子单元4023，其中：

第一切分子单元4021用于基于所述专业领域词典以及对所述待切分专业领域语料进行正向最大匹配切分，获得所述待切分专业领域语料的第一专业词集合；其中，所述第一专业词集合包括各个第一专业词以及对应的位置信息；第二切分子单元 4022用于基于所述专业领域词典对所述待切分专业领域语料进行逆向最大匹配切分，获得所述待切分专业领域语料的第二专业词集合；其中，所述第二专业词集合包括各个第二专业词以及对应的位置信息；作为子单元4023用于在判断获知所述第一专业词集合的第一专业词和所述第二专业词集合的第二专业词相同且对应的位置信息相同之后，将相同的第一专业词和第二专业词作为所述第一待处理专业领域语料的专业领域词。

具体地，第一切分子单元4021可以基于所述专业领域词典对所述待切分专业领域语料进行正向最大匹配切分，获得所述待切分专业领域语料的第一专业词集合，所述第一专业词结合中包括各个第一专业词以及对应的位置信息，每个第一专业词是所述专业领域词典中的专业词汇，每个第一专业词的位置信息可以采用每个第一专业词的第一字和最后一个字在所属句子中的位置进行表示。

第二切分子单元4022可以基于所述专业领域词典对所述待切分专业领域语料进行逆向最大匹配切分，获得所述待切分专业领域语料的第二专业词集合，所述第二专业词结合中包括各个第二专业词以及对应的位置信息，每个第二专业词是所述专业领域词典中的专业词汇，每个第二专业词的位置信息可以采用每个第二专业词的第一字和最后一个字在所属句子中的位置进行表示。

作为子单元4023会遍历所述第一专业词集合和第二专业词集合，将所述第一专业词集合中的第一专业词和所述第二专业词集合的第二专业词进行比较，并且将第一专业词的位置信息和第二专业词的位置信息进行比较，如果第一专业词和第二专业词相同并且第一专业词对应的位置信息和第二专业词对应的位置信息也相同，那么第一专业词和第二专业词为相同的第一专业词和第二专业词。作为子单元4023会将相同的第一专业词和第二专业词作为所述第一待处理专业领域语料的专业领域词。其中，位置信息相同可以是根据第一专业词的第一字的位置与第二专业词的第一个字的位置相同并且第一专业词的最后一个字的位置第二专业词的最后一个字的位置相同确定的。

在上述各实施例的基础上，进一步地，第一提取单元404具体用于：

具体地，第一提取单元404会基于当前字、所述当前字之前的两个字以及所述当前字之后的两个字，获得所述当前字的单一字特征。第一提取单元404会基于当前字、所述当前字之前的两个字以及所述当前字之后的两个字，获得当前字的混合特征。第一提取单元404会基于所述当前字之前的两个字的标注类别，获得所述当前字的类别特征。其中，在对所述第二待处理专业领域语料中的非专业领域字进行特征提取时，当前字为每个非专业领域字。

本发明实施例提供的服务器的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图7是本发明一实施例提供的电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令，以执行如下方法：获取待切分专业领域语料；基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料；对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料；所述第二待处理专业领域语料包括每个专业领域字的标注类别；对所述第二待处理专业领域语料中的非专业领域字进行特征提取，获得所述第二待处理专业领域语料中每个非专业领域字的特征信息；基于每个非专业领域字的特征信息以及标注类别识别模型，识别每个非专业领域字的标注类别；其中，所述标注类别识别模型是基于通用型训练语料预先训练获得的；基于所述待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。

此外，上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取待切分专业领域语料；基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料；对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料；所述第二待处理专业领域语料包括每个专业领域字的标注类别；对所述第二待处理专业领域语料中的非专业领域字进行特征提取，获得所述第二待处理专业领域语料中每个非专业领域字的特征信息；基于每个非专业领域字的特征信息以及标注类别识别模型，识别每个非专业领域字的标注类别；其中，所述标注类别识别模型是基于通用型训练语料预先训练获得的；基于所述待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取待切分专业领域语料；基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料；对所述第一待处理专业领域语料中的专业领域词进行字标注处理以及离散化处理，获得第二待处理专业领域语料；所述第二待处理专业领域语料包括每个专业领域字的标注类别；对所述第二待处理专业领域语料中的非专业领域字进行特征提取，获得所述第二待处理专业领域语料中每个非专业领域字的特征信息；基于每个非专业领域字的特征信息以及标注类别识别模型，识别每个非专业领域字的标注类别；其中，所述标注类别识别模型是基于通用型训练语料预先训练获得的；基于所述待切分专业领域语料中每个字的标注类别，获得所述待切分专业领域语料的分词结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种专业领域语料的中文分词方法，其特征在于，包括：

获取待切分专业领域语料；

2.根据权利要求1所述的方法，其特征在于，基于所述通用型训练语料训练获得所述标注类别识别模型的步骤包括：

对所述通用型训练语料进行字标注处理以及离散化处理，获得离散化的通用型训练语料以及每个字的标注类别；其中，所述通用型训练语料是经过分词的语料；

基于离散化的通用型训练语料以及每个字的标注类别进行特征提取，获得每个字的特征信息；

基于每个字的特征信息以及最大熵模型，训练获得所述标注类别识别模型。

3.根据权利要求1所述的方法，其特征在于，所述基于专业领域词典对所述待切分专业领域语料进行专业领域词切分，获得第一待处理专业领域语料包括：

基于所述专业领域词典以及对所述待切分专业领域语料进行正向最大匹配切分，获得所述待切分专业领域语料的第一专业词集合；其中，所述第一专业词集合包括各个第一专业词以及对应的位置信息；

基于所述专业领域词典对所述待切分专业领域语料进行逆向最大匹配切分，获得所述待切分专业领域语料的第二专业词集合；其中，所述第二专业词集合包括各个第二专业词以及对应的位置信息；

若判断获知所述第一专业词集合的第一专业词和所述第二专业词集合的第二专业词相同且对应的位置信息相同，则将相同的第一专业词和第二专业词作为所述第一待处理专业领域语料的专业领域词。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述对所述第二待处理专业领域语料中的非专业领域字进行特征提取，获得所述第二待处理专业领域语料中每个非专业领域字的特征信息包括：

基于当前字、所述当前字之前的两个字以及所述当前字之后的两个字，获得所述当前字的单一字特征和混合特征，并基于所述当前字之前的两个字的标注类型，获得所述当前字的类别特征。

5.一种专业领域语料的中文分词装置，其特征在于，包括：

获取单元，用于获取待切分专业领域语料；

6.根据权利要求5所述的装置，其特征在于，还包括：

处理单元，用于对所述通用型训练语料进行字标注处理以及离散化处理，获得离散化的通用型训练语料以及每个字的标注类别；其中，所述通用型训练语料是经过分词的语料；

第二提取单元，用于基于离散化的通用型训练语料以及每个字的标注类别进行特征提取，获得每个字的特征信息；

训练单元，用于基于每个字的特征信息以及最大熵模型，训练获得所述标注类别识别模型。

7.根据权利要求6所述的装置，其特征在于，所述切分单元包括：

第一切分子单元，用于基于所述专业领域词典以及对所述待切分专业领域语料进行正向最大匹配切分，获得所述待切分专业领域语料的第一专业词集合；其中，所述第一专业词集合包括各个第一专业词以及对应的位置信息；

第二切分子单元，用于基于所述专业领域词典对所述待切分专业领域语料进行逆向最大匹配切分，获得所述待切分专业领域语料的第二专业词集合；其中，所述第二专业词集合包括各个第二专业词以及对应的位置信息；

作为子单元，用于在判断获知所述第一专业词集合的第一专业词和所述第二专业词集合的第二专业词相同且对应的位置信息相同之后，将相同的第一专业词和第二专业词作为所述第一待处理专业领域语料的专业领域词。

8.根据权利要求5至7任一项所述的装置，其特征在于，所述第一提取单元具体用于：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。