CN115146630B

CN115146630B - 基于专业领域知识的分词方法、装置、设备及存储介质

Info

Publication number: CN115146630B
Application number: CN202210639394.XA
Authority: CN
Inventors: 欧阳升; 王健宗; 李志韬; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2023-05-30
Anticipated expiration: 2042-06-08
Also published as: CN115146630A

Abstract

本发明涉及人工智能技术领域，提供一种基于专业领域知识的分词方法、装置、设备及存储介质，用于解决现有的文本分词方法无法满足在专业领域内提升精度且满足速度性能的需求问题。基于专业领域知识的分词方法包括：通过语言表征模型结构对待处理文本进行基于上下文信息的特征融合得到预融合文本特征；通过双向门控循环单元模型结构对预融合文本特征进行双向的语义信息融合得到目标文本编码向量；通过预置的专业领域分词词典和条件随机场模型结构对目标文本编码向量进行词性识别得到最优分词信息；通过最优分词信息对待处理文本进行分词得到目标分词。此外，本发明还涉及区块链技术，目标分词可存储于区块链中。

Description

基于专业领域知识的分词方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的分词模型领域，尤其涉及一种基于专业领域知识的分词方法、装置、设备及存储介质。

背景技术

分词任务在自然语言处理中始终占据重要且基础的位置。其主要作用在于对文本按照词性完成拆分，其对于文本分类、信息抽取、知识图谱等众多自然语言下游任务都有着重要的影响。

目前主流的分词算法主要有基于规则、机器学习(如：隐马尔可夫模型(HiddenMarkov Model，HMM))或深度预训练模型BERT的方法。这些方法中基于规则的方法在速度上能满足业务需求，但是精度无法满足要求：机器学习方法在速度上基本也能满足需求，但是精度上依然无法满足；深度预训练模型则在精度上能满足但是在速度上和分词稳定性上却有待提升，例如，结巴jieba分词在速度上能达到深度模型的5-10倍，然而精度上却相差甚远。因此，现有的文本分词方法存在无法满足专业领域内提升精度且满足速度性能的需求的缺陷。

发明内容

本发明提供一种基于专业领域知识的分词方法、装置、设备及存储介质，用于解决现有的文本分词方法无法满足在专业领域内提升精度且满足速度性能的需求问题。

本发明第一方面提供了一种基于专业领域知识的分词方法，包括：

获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征，所述目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；

通过所述双向门控循环单元模型结构，对所述预融合文本特征进行双向的语义信息融合，得到目标文本编码向量；

通过预置的专业领域分词词典和所述条件随机场模型结构，对所述目标文本编码向量进行词性识别，得到最优分词信息；

通过所述最优分词信息，对所述待处理文本进行分词，得到目标分词。

可选的，在本发明第一方面的第一种实现方式中，所述通过预置的专业领域分词词典和所述条件随机场模型结构，对所述目标文本编码向量进行词性识别，得到最优分词信息，包括：

通过预置的专业领域分词词典，对所述目标文本编码向量进行分词的词性匹配，得到未匹配分词；

通过所述条件随机场模型结构，对所述未匹配分词进行全局最优分词路径检索，得到最优分词信息。

可选的，在本发明第一方面的第二种实现方式中，所述通过所述条件随机场模型结构，对所述未匹配分词进行全局最优分词路径检索，得到最优分词信息，包括：

通过所述条件随机场模型结构，基于预置的词性转换得分矩阵，计算所述未匹配分词的全局得分最大值，所述词性转换得分矩阵用于指示词性到词性的转换得分矩阵；

基于文本序列中词的顺序，获取所述目标文本编码向量中与所述全局得分最大值对应的词性解，得到最优分词信息。

可选的，在本发明第一方面的第三种实现方式中，所述通过预置的专业领域分词词典，对所述目标文本编码向量进行分词的词性匹配，得到未匹配分词，包括：

通过预置的专业领域分词词典，基于预置双向最大匹配算法，对所述目标文本编码向量进行切分并进行专业领域词典前缀树的词性匹配，得到分词结果，所述分词结果用于指示目标文本编码向量切分后的各词与专业领域分词词典中的词是否未能匹配；

根据所述分词结果从目标文本编码向量切分后的各词中获取未匹配分词。

可选的，在本发明第一方面的第四种实现方式中，所述获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征之前，还包括：

获取经过逐字标注的专业领域文本样本集，并构建初始分词模型，所述初始分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；

通过所述语言表征模型结构和所述双向门控循环单元模型结构，对所述专业领域文本样本集进行语义信息特征融合，得到融合文本样本集；

通过所述条件随机场模型结构，对所述融合文本样本集进行全局最优分词路径搜索，得到词性预测结果；

基于所述词性预测结果对所述专业领域文本样本集进行分词，得到分词信息；

基于所述分词信息获取损失值，通过所述损失值对所述初始分词模型进行调整优化，得到目标分词模型。

可选的，在本发明第一方面的第五种实现方式中，所述获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征之前，还包括：

获取专业领域文本数据，通过所述目标分词模型对所述专业领域文本数据进行分词，得到待处理分词；

按照词频顺序将所述待处理分词进行词典存储，得到初始词典；

根据预设清除词对所述初始词典进行筛选和删除，得到处理后的词典；

通过预置的前缀树模型，对所述处理后的词典进行保存，得到专业领域分词词典。

可选的，在本发明第一方面的第六种实现方式中，所述通过所述词性识别结果，对所述待处理文本进行分词，得到目标分词之后，还包括：

获取基于所述目标分词的校验信息，基于所述校验信息，对所述专业领域分词词典进行词汇扩充，并对所述目标分词模型进行优化。

本发明第二方面提供了一种基于专业领域知识的分词装置，包括：

第一融合模块，用于获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征，所述目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；

第二融合模块，用于通过所述双向门控循环单元模型结构，对所述预融合文本特征进行双向的语义信息融合，得到目标文本编码向量；

识别模块，用于通过预置的专业领域分词词典和所述条件随机场模型结构，对所述目标文本编码向量进行词性识别，得到最优分词信息；

第一分词模块，用于通过所述最优分词信息，对所述待处理文本进行分词，得到目标分词。

可选的，在本发明第二方面的第一种实现方式中，所述识别模块包括：

匹配单元，用于通过预置的专业领域分词词典，对所述目标文本编码向量进行分词的词性匹配，得到未匹配分词；

检索单元，用于通过所述条件随机场模型结构，对所述未匹配分词进行全局最优分词路径检索，得到最优分词信息。

可选的，在本发明第二方面的第二种实现方式中，所述检索单元具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述匹配单元具体用于：

可选的，在本发明第二方面的第四种实现方式中，所述基于专业领域知识的分词装置，还包括：

构建模块，用于获取经过逐字标注的专业领域文本样本集，并构建初始分词模型，所述初始分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；

第三融合模块，用于通过所述语言表征模型结构和所述双向门控循环单元模型结构，对所述专业领域文本样本集进行语义信息特征融合，得到融合文本样本集；

搜索模块，用于通过所述条件随机场模型结构，对所述融合文本样本集进行全局最优分词路径搜索，得到词性预测结果；

第二分词模块，用于基于所述词性预测结果对所述专业领域文本样本集进行分词，得到分词信息；

调整优化模块，用于基于所述分词信息获取损失值，通过所述损失值对所述初始分词模型进行调整优化，得到目标分词模型。

可选的，在本发明第二方面的第五种实现方式中，所述基于专业领域知识的分词装置，还包括：

第三分词模块，用于获取专业领域文本数据，通过所述目标分词模型对所述专业领域文本数据进行分词，得到待处理分词；

存储模块，用于按照词频顺序将所述待处理分词进行词典存储，得到初始词典；

删除模块，用于根据预设清除词对所述初始词典进行筛选和删除，得到处理后的词典；

保存模块，用于通过预置的前缀树模型，对所述处理后的词典进行保存，得到专业领域分词词典。

可选的，在本发明第二方面的第六种实现方式中，所述基于专业领域知识的分词装置，还包括：

扩充优化模块，用于获取基于所述目标分词的校验信息，基于所述校验信息，对所述专业领域分词词典进行词汇扩充，并对所述目标分词模型进行优化。

本发明第三方面提供了一种基于专业领域知识的分词设备，包括：存储器和至少一个处理器，所述存储器中存储有计算机程序；所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述基于专业领域知识的分词设备执行上述的基于专业领域知识的分词方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述的基于专业领域知识的分词方法。

本发明提供的技术方案中，获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征，所述目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；通过所述双向门控循环单元模型结构，对所述预融合文本特征进行双向的语义信息融合，得到目标文本编码向量；通过预置的专业领域分词词典和所述条件随机场模型结构，对所述目标文本编码向量进行词性识别，得到最优分词信息；通过所述最优分词信息，对所述待处理文本进行分词，得到目标分词。本发明实施例中，通过目标分词模型中的语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构，对待处理文本进行基于上下文信息的特征融合、双向的语义信息融合和词性识别，通过命名实体识别的方式、专业领域内专有词和高频词词库，能够有效地覆盖在专业领域的文本中出现的高频词和专有词，以及有效地提升了在该专业领域下的分词精度，实现了在专业领域内文本的高精度分词、分词模型高鲁棒和高速度分词的效果，从而解决了现有的文本分词方法无法满足在专业领域内提升精度且满足速度性能的需求问题。

附图说明

图1为本发明实施例中基于专业领域知识的分词方法的一个实施例示意图；

图2为本发明实施例中基于专业领域知识的分词方法的另一个实施例示意图；

图3为本发明实施例中基于专业领域知识的分词装置的一个实施例示意图；

图4为本发明实施例中基于专业领域知识的分词装置的另一个实施例示意图；

图5为本发明实施例中基于专业领域知识的分词设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于专业领域知识的分词方法、装置、设备及存储介质，解决了现有的文本分词方法无法满足在专业领域内提升精度且满足速度性能的需求问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于专业领域知识的分词方法的一个实施例包括：

101、获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对待处理文本进行基于上下文信息的特征融合，得到预融合文本特征，目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构。

可以理解的是，本发明的执行主体可以为基于专业领域知识的分词装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器可通过以下实现方式获得待处理文本：获取待处理语音数据，通过预置的语音处理模型对待处理语音数据进行语音识别文本转换得到待处理文本；或者，获取待处理图像，通过预置的图像处理模型对待处理图像进行图像识别和目标文本框的字符识别，得到初始文本；或者，接收专业领域系统发送或者输入框输入的文本数据，从而得到初始文本。

其中，待处理文本可为经过数据预处理后的已标记专业领域标签的文本数据，也可为数据预处理后的未标记专业领域标签的文本数据。服务器获得初始文本后，若初始文本为已标记专业领域标签的文本数据，则直接对初始文本进行数据预处理，得到待处理文本，通过待处理文本中的专业领域标签从数据库中存储的专业领域分词词典集合中匹配对应的专业领域分词词典，该数据预处理可为数据清洗、数据变换和安全性检测，在此不做限定，数据预处理用于提高待处理文本的质量和数据安全；若初始文本为未标记专业领域标签的文本数据，则对初始文本进行数据预处理得到待处理文本后，提取待处理文本中的目标关键词，从数据库中存储的专业领域分词词典集合中匹配与目标关键词对应的专业领域分词词典。其中，专业领域可为金融领域、医疗领域，在此不做限定。

服务器调用预置的目标分词模型中的语言表征模型结构，对待处理文本进行字与字之间的自注意力处理(可为自注意力的矩阵计算)，以实现对待处理文本进行的基于上下文信息的特征融合，从而得到预融合文本特征，其中，目标分词模型包括语言表征模型结构(Bidirectional Encoder Representation from Transformers，BERT)、双向门控循环单元模型结构(Bidirectional Gated Recurrent Units，BiGRU)和条件随机场模型结构(Conditional Random Field，CRF)。

102、通过双向门控循环单元模型结构，对预融合文本特征进行双向的语义信息融合，得到目标文本编码向量。

服务器通过双向门控循环单元模型结构BiGRU，基于文本序列维度的时序，对预融合文本特征进行双向的语义信息融合，从而得到目标文本编码向量。

在一种可行的实现方式中，服务器通过双向门控循环单元模型结构BiGRU，基于文本序列维度的时序，对预融合文本特征进行双向的语义信息融合，并调用预置的基于多头自我注意机制的卷积神经网络，对预融合文本特征进行语义信息融合得到待校验综合特征；通过待校验综合特征对双向的语义信息融合后的特征进行对比分析，将与待校验综合特征相同的双向的语义信息融合后的特征确定为目标文本编码向量，对将与待校验综合特征不相同的双向的语义信息融合后的特征替换为对应的待校验综合特征，并将替换后的特征确定为目标文本编码向量，以提高目标文本编码向量的准确性。

103、通过预置的专业领域分词词典和条件随机场模型结构，对目标文本编码向量进行词性识别，得到最优分词信息。

服务器调用待处理文本对应的预置的专业领域分词词典，对目标文本编码向量进行词性识别，并获取未能与专业领域分词词典进行词性对应的字/词，得到目标词；调用条件随机场模型结构CRF，对目标词进行最优分词的词性识别，从而得到最优分词信息。通过专业领域分词词典和条件随机场模型结构的二次词性识别，解决了专业领域分词词典中未匹配词出现漏词的问题。

其中，专业领域分词词典的词性识别可通过分词、前缀树的词性检索的实现手段来实现对目标文本编码向量的词性识别，其中，专业领域分词词典的词性识别也可通过预置的结巴jieba分词工具进行分词，以实现高速快捷的分词工具调用，提高分词效果。条件随机场模型结构的词性识别可通过计算词性类别分数和最大值、并基于词性类别分数和最大值确定对应的词性解的实现手段来实现对目标词进行的最优分词的词性识别。

需要说明的是，最优分词信息用于指示按照词的时序对待处理文本进行最优分词的各词的词性，最优分词信息包括待处理文本最优分词后的各词以及各词对应的词性。

其中，调用条件随机场模型结构CRF，对目标词进行最优分词的词性识别，从而得到最优分词信息，可采用以下公式：给定一个线性链条件随机场，当x＝x1|x2...时，y＝y1|y2...的概率P(可理解为最优分词的概率)如下：

P(Y＝y|x)表示线性链条件随机场，x表示观测序列，y表示状态序列，Z(x)表示归一化因子，i表示当前位置，t_k表示转移特征函数，s_i表示状态特征函数，λ_k表示转移特征的权值，μ_k表示状态特征的权值。基于最优分词的概率确定最优分词信息。

104、通过最优分词信息，对待处理文本进行分词，得到目标分词。

服务器根据最优分词信息，对待处理文本进行分词，从而得到目标分词。其中，为了高速快捷的分词工具调用，以及提高分词效果，可通过调用预置的目标分词工具，基于最优分词信息，对待处理文本进行分词，作为示例而非限定的是，目标分词工具可为结巴分词工具，在此不做限定，为能够实现高速快捷的分词工具调用，以及提高分词效果的分词工具即可。

本发明实施例中，通过目标分词模型中的语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构，对待处理文本进行基于上下文信息的特征融合、双向的语义信息融合和词性识别，通过命名实体识别的方式、专业领域内专有词和高频词词库，能够有效地覆盖在专业领域的文本中出现的高频词和专有词，以及有效地提升了在该专业领域下的分词精度，实现了在专业领域内文本的高精度分词、分词模型高鲁棒和高速度分词的效果，从而解决了现有的文本分词方法无法满足在专业领域内提升精度且满足速度性能的需求问题。

请参阅图2，本发明实施例中基于专业领域知识的分词方法的另一个实施例包括：

201、获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对待处理文本进行基于上下文信息的特征融合，得到预融合文本特征，目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构。

服务器获得待处理文本后，调用预置的目标分词模型中的语言表征模型结构BERT，基于预置的自注意力机制，对待处理文本的相邻两字分别进行注意力矩阵计算，得到第一字注意力矩阵和第二字注意力矩阵，将第一字注意力矩阵和第二字注意力矩阵进行融合，得到预融合文本特征；或者服务器获得待处理文本后，调用预置的目标分词模型中的语言表征模型结构BERT，基于预置的多个权重矩阵，对待处理文本的相邻两字分别进行计算，得到各字对应的多个计算矩阵，基于预置的自注意力机制，将两字分别对应的多个计算矩阵进行归一化的融合处理，得到预融合文本特征。

需要说明的是，语言表征模型结构BERT中的自注意力机制可为多头自注意力机制。服务器通过预置的多头自注意力机制对待处理文本进行基于上下文信息的特征融合，得到预融合文本特征。

具体的，服务器获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对待处理文本进行基于上下文信息的特征融合，得到预融合文本特征之前，还包括：获取经过逐字标注的专业领域文本样本集，并构建初始分词模型，初始分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；通过语言表征模型结构和双向门控循环单元模型结构，对专业领域文本样本集进行语义信息特征融合，得到融合文本样本集；通过条件随机场模型结构，对融合文本样本集进行全局最优分词路径搜索，得到词性预测结果；基于词性预测结果对专业领域文本样本集进行分词，得到分词信息；基于分词信息获取损失值，通过损失值对初始分词模型进行调整优化，得到目标分词模型。

其中，经过逐字标注的专业领域文本样本集用于指示对各字进行字位置和词性进行标注的多个专业领域文本样本，例如，逐字标注的专业领域文本样本“深圳市”对应B-N，I-N，I-N，其中，B表示该词的开始，I表示该词处开头之外的位置，N表示名词。语言表征模型结构BERT、双向门控循环单元模型结构BiGRU和条件随机场模型结构CRF的连接方式为串联，即语言表征模型结构的输出为双向门控循环单元模型结构的输入，双向门控循环单元模型结构的输出为条件随机场模型结构的输入。初始分词模型用于对每个token的标签预测(词性预测)。通过条件随机场模型结构CRF搜索融合文本样本集中各融合文本样本分词的全局最优路径，从而得到最优分词方案，即词性预测结果，其中，词性预测结果为依照各融合文本样本的词序的词的词性识别结果。根据每个词的词性(词性预测结果)对专业领域文本样本集各融合文本样本分词进行分词，得到分词信息。通过预置的损失函数计算分词信息的损失值，通过损失值对初始分词模型进行权重或网络结构的调整优化，从而得到目标分词模型。

在一种可行的实现方式中，服务器获得分词信息后，将分词信息发送至审核端，通过审核端基于词性校验策略对分词信息进行词性校验，得到自动词性校验结果，或者通过审核端的审核人员对分词信息进行词性校验，得到人工词性校验结果；基于自动词性校验结果或人工词性校验结果，对逐字标注的专业领域文本样本集进行修正，得到修正后的专业领域文本样本集。此外，服务器还会通过预置的损失函数基于分词信息计算损失值。通过损失值对初始分词模型进行调整优化，并基于修正后的专业领域文本样本集，对调整优化的初始分词模型进行基于半监督的训练，以实现半自动化的版本迭代和优化过程，直至训练后的初始分词模型符合预设要求，得到目标分词模型。

通过上述的训练过程得到目标分词模型，提高了目标分词模型对于专业领域内的文本分词的精度和速度。

具体的，服务器获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对待处理文本进行基于上下文信息的特征融合，得到预融合文本特征之前，还包括：获取专业领域文本数据，通过目标分词模型对专业领域文本数据进行分词，得到待处理分词；按照词频顺序将待处理分词进行词典存储，得到初始词典；根据预设清除词对初始词典进行筛选和删除，得到处理后的词典；通过预置的前缀树模型，对处理后的词典进行保存，得到专业领域分词词典。

服务器获取大量的专业领域的文本数据，对大量的专业领域的文本数据进行数据清洗、数据转换等，得到专业领域文本数据。通过目标分词模型对专业领域文本数据进行分词，得到待处理分词后，将待处理分词按照词频顺序以预设形式进行词典存储，得到初始词典，其中，该预设形式为词、词频和词性，在此不做限定。由于专业领域词通常为长而复杂的名词，因此着重保留名词，因而，需根据预设清除词对初始词典进行筛选和删除，得到处理后的词典，其中，预设清除词可为垃圾词汇、错误词汇以及数字中文词汇和乱码词，在此不做限定，数字中文词汇为以数字开头加上中文的词汇；服务器可通过预置的正则匹配算法，对初始词典中的数字中文词汇和乱码词进行匹配和清楚。

专业领域知识的构建，极大地提升了词典的丰富性和全面性，相比于现有技术中使用传统机器学习模型和规则的方法能极大提升分词的精确度。专业领域分词词典以前缀树的形式建立模型，能有效提升搜索字典中词语的速度，并节约词典占用空间。

通过预置的前缀树模型将处理后的词典保存，能够将相同前缀的词保存到一起，进而能够有效提升分词时对专业领域分词词典的搜索速度。通过上述步骤构建的专业领域分词词典，提高了专业领域分词词典的词汇质量、词汇丰富性和分词时的检索速度。

202、通过双向门控循环单元模型结构，对预融合文本特征进行双向的语义信息融合，得到目标文本编码向量。

203、通过预置的专业领域分词词典，对目标文本编码向量进行分词的词性匹配，得到未匹配分词。

具体的，服务器通过预置的专业领域分词词典，基于预置双向最大匹配算法，对目标文本编码向量进行切分并进行专业领域词典前缀树的词性匹配，得到分词结果，分词结果用于指示目标文本编码向量切分后的各词与专业领域分词词典中的词是否未能匹配；根据分词结果从目标文本编码向量切分后的各词中获取未匹配分词。

服务器通过预置的专业领域分词词典，基于预置双向最大匹配算法，对目标文本编码向量进行切分，得到初始分词，即目标文本编码向量切分后的各，其中，专业领域分词词典的分词可支持结巴jieba分词等能够提升分词效果和高速快捷的调用的工具。通过预置双向最大匹配算法，对目标文本编码向量进行切分得到初始分词，通过各初始分词对专业领域分词词典中的专业领域词典前缀树进行检索并进行词性匹配，得到分词结果，以分析各初始分词在专业领域分词词典中的专业领域词典前缀树中是否存在能匹配的词，并从分词结果中获取目标分词结果，目标分词结果用于指示初始分词(即目标文本编码向量切分后的各)与专业领域分词词典中的词未能匹配；根据目标分词结果对初始分词(即目标文本编码向量切分后的各)进行分类(或筛选)从而得到未匹配分词，以实现根据分词结果从初始分词中获取未匹配分词。

最后通过双向最大匹配算法完成待处理文本(目标文本编码向量)中所有词语的搜索和分词功能，实线了在高效提速的同时尽可能避免前向或后向最大匹配算法出现的错误，解决了直接基于深度模型分词存在的不稳定性和低效性。

204、通过条件随机场模型结构，对未匹配分词进行全局最优分词路径检索，得到最优分词信息。

具体的，服务器通过条件随机场模型结构，基于预置的词性转换得分矩阵，计算未匹配分词的全局得分最大值，词性转换得分矩阵用于指示词性到词性的转换得分矩阵；基于文本序列中词的顺序，获取目标文本编码向量中与全局得分最大值对应的词性解，得到最优分词信息。

服务器通过条件随机场模型结构预先创建一个词性到词性的转换得分矩阵，即词性转换得分矩阵；通过词性转换得分矩阵，计算未匹配分词基于待处理文本的词性分值、词性标签转换分数和词性类别分数，词性分值用于指示按照时序到未匹配分词中的当前词的词性的分数，词性标签转换分数用于指示未匹配分词的上一个字的词性到当前字时的词性标签转换的分数，词性类别分数用于指示未匹配分词的当前字的词性类别预测最高得分；将未匹配分词的词性分值确定为词性标签转换分数与词性类别分数之和的最大值，得到未匹配分词的全局得分最大值；基于文本序列中词的顺序，获取目标文本编码向量中与全局得分最大值对应的词性解，得到最优分词信息。

通过条件随机场模型结构对未识别词(未匹配分词)进行词性识别，解决了专业领域分词词典未匹配词而出现漏词的问题。

205、通过最优分词信息，对待处理文本进行分词，得到目标分词。

在一种可行的实现方式中，服务器根据最优分词信息，对待处理文本进行分词后，将分词后的待处理文本发送至预置的审核端，通过审核端，基于预置的分词校验机制，对分词后的待处理文本进行分词验证和分词词性校正，得到校正后的分词，将校正后的分词确定为目标分词。

具体的，服务器通过最优分词信息，对待处理文本进行分词，得到目标分词之后，还包括：获取基于目标分词的校验信息，基于校验信息，对专业领域分词词典进行词汇扩充，并对目标分词模型进行优化。

服务器获得目标分词后，基于预置的校验机制对目标分词以及目标分词的词性进行正确性校验，从而得到校验信息，其中，校验信息包括但正确的目标分词以及不正确的目标分词经过重新分词和词性重新标记后对应的词。

服务器基于校验信息对专业领域分词词典进行词汇扩充，以实现无监督高精度的扩充专业领域分词词典，让专业领域分词词典尽可能地覆盖专业领域内全部专有词汇，并基于校验信息对目标分词模型进行权重调整和/或网络结构调整，以实现对目标分词模型的优化。扩大了专业领域分词词典的专有词汇的覆盖面，以及提高了目标分词模型的精度，从而更进一步实现了在专业领域内文本的高精度分词、分词模型高鲁棒和高速度分词的效果。

上面对本发明实施例中基于专业领域知识的分词方法进行了描述，下面对本发明实施例中基于专业领域知识的分词装置进行描述，请参阅图3，本发明实施例中基于专业领域知识的分词装置一个实施例包括：

第一融合模块301，用于获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对待处理文本进行基于上下文信息的特征融合，得到预融合文本特征，目标分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；

第二融合模块302，用于通过双向门控循环单元模型结构，对预融合文本特征进行双向的语义信息融合，得到目标文本编码向量；

识别模块303，用于通过预置的专业领域分词词典和条件随机场模型结构，对目标文本编码向量进行词性识别，得到最优分词信息；

第一分词模块304，用于通过最优分词信息，对待处理文本进行分词，得到目标分词。

上述基于专业领域知识的分词装置中各个模块的功能实现与上述基于专业领域知识的分词方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

请参阅图4，本发明实施例中基于专业领域知识的分词装置的另一个实施例包括：

其中，识别模块303具体包括：

匹配单元3031，用于通过预置的专业领域分词词典，对目标文本编码向量进行分词的词性匹配，得到未匹配分词；

检索单元3032，用于通过条件随机场模型结构，对未匹配分词进行全局最优分词路径检索，得到最优分词信息；

可选的，检索单元3032还可以具体用于：

通过条件随机场模型结构，基于预置的词性转换得分矩阵，计算未匹配分词的全局得分最大值，词性转换得分矩阵用于指示词性到词性的转换得分矩阵；

基于文本序列中词的顺序，获取目标文本编码向量中与全局得分最大值对应的词性解，得到最优分词信息。

可选的，匹配单元3031还可以具体用于：

通过预置的专业领域分词词典，基于预置双向最大匹配算法，对目标文本编码向量进行切分并进行专业领域词典前缀树的词性匹配，得到分词结果，分词结果用于指示目标文本编码向量切分后的各词与专业领域分词词典中的词是否未能匹配；

根据分词结果从目标文本编码向量切分后的各词中获取未匹配分词。

可选的，基于专业领域知识的分词装置，还包括：

构建模块305，用于获取经过逐字标注的专业领域文本样本集，并构建初始分词模型，初始分词模型包括语言表征模型结构、双向门控循环单元模型结构和条件随机场模型结构；

第三融合模块306，用于通过语言表征模型结构和双向门控循环单元模型结构，对专业领域文本样本集进行语义信息特征融合，得到融合文本样本集；

搜索模块307，用于通过条件随机场模型结构，对融合文本样本集进行全局最优分词路径搜索，得到词性预测结果；

第二分词模块308，用于基于词性预测结果对专业领域文本样本集进行分词，得到分词信息；

调整优化模块309，用于基于分词信息获取损失值，通过损失值对初始分词模型进行调整优化，得到目标分词模型。

可选的，基于专业领域知识的分词装置，还包括：

第三分词模块310，用于获取专业领域文本数据，通过目标分词模型对专业领域文本数据进行分词，得到待处理分词；

存储模块311，用于按照词频顺序将待处理分词进行词典存储，得到初始词典；

删除模块312，用于根据预设清除词对初始词典进行筛选和删除，得到处理后的词典；

保存模块313，用于通过预置的前缀树模型，对处理后的词典进行保存，得到专业领域分词词典。

可选的，基于专业领域知识的分词装置，还包括：

扩充优化模块314，用于获取基于目标分词的校验信息，基于校验信息，对专业领域分词词典进行词汇扩充，并对目标分词模型进行优化。

上述基于专业领域知识的分词装置中各模块和各单元的功能实现与上述基于专业领域知识的分词方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于专业领域知识的分词装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于专业领域知识的分词设备进行详细描述。

图5是本发明实施例提供的一种基于专业领域知识的分词设备的结构示意图，该基于专业领域知识的分词设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于专业领域知识的分词设备500中的一系列计算机程序操作。更进一步地，处理器510可以设置为与存储介质530通信，在基于专业领域知识的分词设备500上执行存储介质530中的一系列计算机程序操作。

基于专业领域知识的分词设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于专业领域知识的分词设备结构并不构成对基于专业领域知识的分词设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于专业领域知识的分词设备，包括：存储器和至少一个处理器，所述存储器中存储有计算机程序，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述基于专业领域知识的分词设备执行上述基于专业领域知识的分词方法中的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行基于专业领域知识的分词方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于专业领域知识的分词方法，其特征在于，所述基于专业领域知识的分词方法包括：

通过预置的专业领域分词词典和所述条件随机场模型结构，对所述目标文本编码向量进行词性识别，得到最优分词信息，所述最优分词信息包括待处理文本最优分词后的各词以及各词对应的词性；

通过所述最优分词信息，对所述待处理文本进行分词，得到目标分词；

所述通过预置的专业领域分词词典和所述条件随机场模型结构，对所述目标文本编码向量进行词性识别，得到最优分词信息，包括：

通过所述条件随机场模型结构，对所述未匹配分词进行全局最优分词路径检索，得到最优分词信息；

所述通过所述条件随机场模型结构，对所述未匹配分词进行全局最优分词路径检索，得到最优分词信息，包括：

基于文本序列中词的顺序，获取所述目标文本编码向量中与所述全局得分最大值对应的词性解，得到最优分词信息；

所述通过预置的专业领域分词词典，对所述目标文本编码向量进行分词的词性匹配，得到未匹配分词，包括：

通过预置的专业领域分词词典，基于预置双向最大匹配算法，对所述目标文本编码向量进行切分并进行专业领域分词词典前缀树的词性匹配，得到分词结果，所述分词结果用于指示目标文本编码向量切分后的各词与专业领域分词词典中的词是否未能匹配；

2.根据权利要求1所述的基于专业领域知识的分词方法，其特征在于，所述获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征之前，还包括：

3.根据权利要求2所述的基于专业领域知识的分词方法，其特征在于，所述获取待处理文本，通过预置的目标分词模型中的语言表征模型结构，对所述待处理文本进行基于上下文信息的特征融合，得到预融合文本特征之前，还包括：

4.根据权利要求1-3中任一项所述的基于专业领域知识的分词方法，其特征在于，所述通过所述最优分词信息，对所述待处理文本进行分词，得到目标分词之后，还包括：

5.一种基于专业领域知识的分词装置，其特征在于，所述基于专业领域知识的分词装置包括：

识别模块，用于通过预置的专业领域分词词典和所述条件随机场模型结构，对所述目标文本编码向量进行词性识别，得到最优分词信息，所述最优分词信息包括待处理文本最优分词后的各词以及各词对应的词性；

第一分词模块，用于通过所述最优分词信息，对所述待处理文本进行分词，得到目标分词；

所述识别模块包括：

检索单元，用于通过所述条件随机场模型结构，对所述未匹配分词进行全局最优分词路径检索，得到最优分词信息；

所述检索单元具体用于：

所述匹配单元具体用于：

6.一种基于专业领域知识的分词设备，其特征在于，所述基于专业领域知识的分词设备包括：存储器和至少一个处理器，所述存储器中存储有计算机程序；

所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述基于专业领域知识的分词设备执行如权利要求1-4中任意一项所述的基于专业领域知识的分词方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述基于专业领域知识的分词方法。