CN115759087B

CN115759087B - 中文分词的方法、装置及电子设备

Info

Publication number: CN115759087B
Application number: CN202211494410.7A
Authority: CN
Inventors: 叶松林; 王天祥; 刘楚雄; 胡昌菊
Original assignee: Chongqing Selis Phoenix Intelligent Innovation Technology Co ltd
Current assignee: Chongqing Selis Phoenix Intelligent Innovation Technology Co ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2024-02-20
Anticipated expiration: 2042-11-25
Also published as: CN115759087A

Abstract

本申请提供了一种中文分词的方法、装置、电子设备及存储介质，所述方法包括：通过获取待分词文本及领域词典，利用领域词典对待分词文本构建词图；利用预设分词模型对待分词文本进行分词处理，并依据得到的第一分词结果对词图进行修正；依据领域词典确定修正后的词图中的概率最大路径，并依据概率最大路径确定待分词文本的第二分词结果。本申请先通过利用领域词典对待分词文本构建词图，并利用预设分词模型对待分词文本进行分词处理得到的第一分词结果对词图进行修正，避免了分词过程受限于领域词典无法识别未记载词的情况，降低了出现分词错误的概率，极大地提高了中文分词的准确率。

Description

中文分词的方法、装置及电子设备

【技术领域】

本申请涉及中文分词领域，具体而言，涉及一种中文分词的方法、装置、电子设备及计算机可读存储介质。

【背景技术】

中文分词是中文自然语言处理中的重要组成部分，是中文词性标注、纠错、搜索引擎等许多下游应用的重要基础，其任务是将中文文本分割成有意义的词语序列。

当前应用于垂直任务领域的中文分词方法可以分为两大类，一是基于领域词典融合语言模型的机械切分方法，二是基于机器学习模型的序列标注方法。然而，基于模型的序列标注方法在对新文本句子进行序列标注预测时，若出现分词错误，模型难以修改，分词效果难以修正，不得不更新语料，重新训练模型。而基于领域词典融合语言模型的机械切分方法受限于领域词典，无法识别未记载的词，且分词准确率低。

因此，如何提高中文分词的准确率为本领域需要解决的技术问题。

【发明内容】

为了解决现有技术中中文分词的准确率低的问题，本申请提供一种中文分词的方法。

一种中文分词的方法，包括：

获取待分词文本及领域词典，利用所述领域词典对所述待分词文本构建词图；

利用预设分词模型对所述待分词文本进行分词处理，并依据得到的第一分词结果对所述词图进行修正；

依据所述领域词典确定修正后的词图中的概率最大路径，并依据所述概率最大路径确定所述待分词文本的第二分词结果。

优选地，所述领域词典包括垂直任务领域词典和通用领域词典；

利用所述领域词典对所述待分词文本构建词图，包括：

利用所述通用领域词典依据所述待分词文本构建所述词图；

基于垂直任务领域词典对所述待分词文本进行识别，并将识别得到的领域特有词作为词节点添加到所述词图中。

优选地，所述依据所述领域词典确定修正后的词图中的概率最大路径，包括：

针对所述修正后的词图中的每个词节点，确定所述词节点在所述通用领域词典中的第一词频，以及所述词节点在所述垂直任务领域词典中的第二词频；其中，依据所述第一分词结果确定的词节点的词频为默认词频；

依据所述第一词频、所述第二词频及所述默认词频确定所述词节点的总词频；

利用预设语言模型依据所述词图中每个词节点的总词频确定所述修正后的词图中的概率最大路径。

优选地，所述预设语言模型包括一元语言模型和/或二元语言模型。

优选地，所述方法还包括：

响应于输入的修改指令，对所述垂直任务领域词典进行修改，所述修改指令包括词修改指令和/或词频修改指令。

优选地，在利用预设分词模型对所述待分词文本进行分词处理之前，所述方法还包括：

获取垂直任务领域训练集，并利用所述垂直任务领域训练集对预设神经网络模型进行训练，得到所述预设分词模型。

优选地，所述预设神经网络模型包括双向门控循环单元-条件随机场-深度模型和/或双向门控循环单元-条件随机场-预训练语言模型。

一种中文分词的装置，包括：

获取模块，用于获取待分词文本及领域词典，利用所述领域词典对所述待分词文本构建词图；

第一分词模块，用于利用预设分词模型对所述待分词文本进行分词处理，并依据得到的第一分词结果对所述词图进行修正；

第二分词模块，用于依据所述领域词典确定修正后的词图中的概率最大路径，并依据所述概率最大路径确定所述待分词文本的第二分词结果。

一种电子设备，包括：

处理器和存储器，所述存储器用于存储至少一条指令，所述指令由所述处理器加载并执行时以实现如上述的中文分词的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的中文分词的方法。

本申请实施例提供的中文分词的方法，通过获取待分词文本及领域词典，利用领域词典对待分词文本构建词图；利用预设分词模型对待分词文本进行分词处理，并依据得到的第一分词结果对词图进行修正；依据领域词典确定修正后的词图中的概率最大路径，并依据概率最大路径确定待分词文本的第二分词结果。本申请先通过利用领域词典对待分词文本构建词图，并利用预设分词模型对待分词文本进行分词处理得到的第一分词结果对词图进行修正，避免了分词过程受限于领域词典无法识别未记载词的情况，降低了出现分词错误的概率，极大地提高了中文分词的准确率。

【附图说明】

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例所提供的一种中文分词的方法的流程图；

图2为本申请实施例所提供的一种基于通用领域词典构建的词图；

图3为依据垂直任务领域词典对图2所示词图进行补充的示意图；

图4为本申请实施例所提供的第一种语句序列标注的示意图；

图5为本申请实施例所提供的第二种语句序列标注的示意图；

图6为本申请实施例所提供的一种中文分词装置的结构示意图。

【具体实施方式】

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

当前应用于垂直任务领域的中文分词方法可以分为两大类，一是基于领域词典融合语言模型的机械切分方法，二是基于机器学习模型的序列标注方法。然而，基于模型的序列标注方法在对新文本句子进行序列标注预测时，若出现分词错误，模型难以修改，分词效果难以修正，不得不更新语料，重新训练模型。而基于领域词典融合语言模型的机械切分方法受限于领域词典，无法识别未记载的词，且分词准确率低。故本申请提供了一种中文分词的方法，用于解决上述问题。

请参考图1，为本申请实施例所提供的一种中文分词的方法的流程图，该方法可以包括如下步骤：

步骤S01，获取待分词文本及领域词典，利用所述领域词典对所述待分词文本构建词图。

在一些实施例中，待分词文本为需要对其进行分词操作的文本，待分词文本可以包括但不限于输入的一段文字或一份文档，该待分词文本的获取方式可以为用户直接输入至电子设备或通过有线或无线连接方式将待分词文本传输至电子设备中，本申请对待分词文本的形式及获取方式不作具体限定。

在一些实施例中，领域词典是指特定领域特有的术语或表达方式的集合。领域词典是自然语言处理的基本资源，领域知识被广泛应用于机器翻译、信息检索、数据挖掘以及文本分类等多种任务的词义消歧、句法分析等环节，领域词典的规模及质量直接关系到相关应用的性能。不同领域的领域词典为以不同领域中专用词语为收录单位的工具书。在本实施例中，该领域词典可以用于对待分词文本进行分词处理，按照待分词文本中的每个字的出现顺序划分为领域词典中对应的专用词语，得到该词图。

在一些实施例中，领域词典一般由该领域专业人士编写形成，若在该垂直任务领域存在已公开的领域词典，则可以直接获取该领域词典并进行应用即可；进一步的，若在该领域不存在专业的领域词典，则还可以收集领域语料并进行新词挖掘，经该领域专业人士审核后得到该领域词典。

例如，针对经济金融领域的分词任务，互联网上已存在公开领域词典，包含经济学、金融学等专业词汇，获取领域词典即可。

进一步地，如针对车载语音对话领域的分词任务，不存在已公开领域词典，则可收集领域语料，采用如基于互信息和左右熵的方法进行词挖掘，得到候选领域词集，与通用分词领域词典对比，再经领域专业人士审核，得到如“中控屏”、“组合仪表”、“能量流”等车载领域词汇，形成车载领域词典。

在一些实施例中，该领域词典可以包括垂直任务领域词典和通用领域词典；

其中，垂直任务领域词典是为限定群体提供特定服务的词典，例如上述实施例中提到的经济金融领域、车载语音对话领域等。通用领域词典为依据通用语料建立的领域词典，通用领域词典中存储的词汇为不含专业领域词汇的通用词汇。

在此基础上，在一些实施例中，由于通用领域词典中的词汇通常为通用词汇，因此可以先利用通用领域词典构建范围足够大的词图，然后利用垂直任务领域词典对该词图进行补充。

利用所述领域词典对所述待分词文本构建词图，其具体可以包括：

利用所述通用领域词典依据所述待分词文本构建所述词图；

例如，请参考图2及图3，图2为本申请实施例所提供的一种基于通用领域词典构建的词图；图3为依据垂直任务领域词典对图2所示词图进行补充的示意图。其中，A为待识别文本的开始标识符，B为待识别文本的开始标识符。

以垂直任务领域词典为车载语音对话领域词典为例，当待分词文本为“组合仪表换成里程”时，本申请先利用通用领域词典依据待分词文本构建词图，得到“组”、“合”、“仪”、“表”、“换”、“成”、“里”、“程”八个单字，以及“组合”、“仪表”、“换成”、“里程”四个常用词语。然后本申请基于垂直任务领域词典对待分词文本进行识别，得到车载语音对话领域的专业词汇“组合仪表”。最后本申请将“组合仪表”作为词节点添加到词图中。

在一些实施例中，也可以先利垂直任务领域词典构建词图，然后利用通用领域词典构建.该词图进行补充。

步骤S02，利用预设分词模型对所述待分词文本进行分词处理，并依据得到的第一分词结果对所述词图进行修正。

在一些实施例中，本申请利用预设分词模型对待分词文本进行分词处理得到的第一分词结果对词图进行修正，以避免分词过程受限于领域词典无法识别未记载词的情况，进而降低出现分词错误的概率，并提高中文分词的准确率。

在一些实施例中，以垂直任务领域词典为车载语音对话领域词典为例，当待分词文本为“组合仪表换成里程”时，本申请在利用领域词典对待分词文本构建词图之后，利用预设分词模型对“组合仪表换成里程”进行分词处理，可能得到第一分词结果“组合仪”，此时可以依据得到的第一分词结果对所述词图进行修正，将“组合仪”作为词节点添加到词图中。

在一些实施例中，该预设分词模型可以为直接获取得到的已经训练好的分词模型，也可以为利用垂直任务领域训练集对预设神经网络模型进行训练得到的。

在利用预设分词模型对所述待分词文本进行分词处理之前，所述方法还包括：

在一些实施例中，该垂直任务领域训练集可以基于垂直任务领域语料进行标注得到。例如，请参考图4及图5，图4为本申请实施例所提供的第一种语句序列标注的示意图；图5为本申请实施例所提供的第二种语句序列标注的示意图。其中，B表示一个词的开始位置，M表示一个词的中间位置，E表示一个词的结束位置，S表示单字成词。

如图4及图5所示，以车载语音对话领域语料为例，针对于语料为“组合仪表左侧显示能耗曲线信息”、“打开相机的设置”的情况，本申请将该语料标记为BMES序列，并将其作为垂直任务领域训练集对预设神经网络模型进行训练，得到预设分词模型。

在一些实施例中，所述预设神经网络模型包括双向门控循环单元-条件随机场-深度(Deep-BIGRU-CRF)模型和/或双向门控循环单元-条件随机场-预训练语言(BERT-BIGRU-CRF)模型。

步骤S03，依据所述领域词典确定修正后的词图中的概率最大路径，并依据所述概率最大路径确定所述待分词文本的第二分词结果。

在一些实施例中，在对词图进行修正之后，可以依据领域词典确定词图中的概率最大路径为待分词文本的第二分词结果，例如，针对于待分词文本为“组合仪表换成里程”时，若计算得到的概率最大路径为“组合”→“仪表”→“换”→“成”→“里程”，则确定第二分词结果为[组合、仪表、换、成、里程]。

在一些实施例中，在利用第一分词结果对词图进行修正，将第一分词结果作为词节点添加到词图中之后，还可以将得到的第一分词结果的词频设置为默认词频。

在一些实施例中，可以先依据领域词典确定词图中每个词节点的概率，再将概率最大的词节点连接，得到该概率最大路径。

所述依据所述领域词典确定修正后的词图中的概率最大路径，其具体可以为：

其中，通用领域词典的词频和垂直任务领域词典中的词频可以为词典在编撰过程中自动生成的，如流行的中文分词工具jieba中包含的jieba_dict.txt，从中直接获取即可。例如将通用领域词典词集标记为集合A＝{a1，a2，…}，则可以直接从通用领域词典中得到a1:x1，a2:x2，…，其中x1，x2等代表a1，a2等的词频。

进一步的，通用领域词典的词频和垂直任务领域词典中的词频也可以为用户或研发人员依据语料统计得到，例如可以将垂直任务领域词典标记为集合B＝{b1，b2，…}。其中，对于集合B中的各词b1，b2，…，可以从垂直任务领域语料中进行统计，得到词频b1:y1，b2:y2，…

在本实施例中，可以依据第一词频、第二词频及默认词频确定词节点的总词频，例如，针对于词图中只出现在通用领域词典中的词节点，则可以确定该词节点的第二词频为0且不具备默认词频，此时该词节点的总词频为第一词频；针对于词图中只出现在垂直任务领域词典中的词节点，则可以确定该词节点的第一词频为0且不具备默认词频，此时该词节点的总词频为第二词频；针对于依据第一分词结果添加到词图中的词节点，可知该词节点既未出现在通用领域词典中，也未出现在垂直任务领域词典中，则可以确定该词节点的第一词频及第二词频均为0，此时该词节点的总词频为默认词频。

进一步的，针对于词图中的某个词节点可能既出现在通用领域词典中，又出现在垂直任务领域词典中，此时该词节点的总词频可以依据第一词频及第二词频来确定。例如，可以取第一词频和第二词频的平均值为词节点的总词频，也可以依据通用领域词典确定第一词频的第一分子和第一分母，并依据垂直任务领域词典确定第二词频的第二分子和第二分母，最后确定词节点的总词频为(第一分子+第二分子)/(第一分母+第二分母)。本申请对此不作具体限定。

在一些实施例中，由于对垂直任务领域内待分词文本进行分词可能出现得不到期望结果的情况(即分词错误发生)，此时还可以通过调整词的词频或通过添加新词及其词频快速纠正分词结果。

即所述方法还可以包括如下步骤：

例如，对于车载对话垂直任务领域待分词文本“帮我把车辆控制打开”，若采用上述分词方法得到分词结果为：[帮，我，把，车辆，控制，打开]，但在该领域“车辆控制”为专有词，开发者可以通过往垂直任务领域词典或当前词图中添加词“车辆控制”及其词频或加大词频，重新计算词图中的概率最大路径，便可以快速纠正分词结果，得到[帮，我，把，车辆控制，打开]的正确结果。

在一些实施例中，该预设语言模型具体可以为一元语言模型和/或二元语言模型。

例如，以预设语言模型为一元语言模型为例，当待分词文本为“组合仪表换成里程”时，针对于图3所示的词图，可以得到路径：

路径1：[A，组，合，仪，表，换，成，里，程，B]；

路径2：[A，组合仪表，换，成，里，程，B]；

路径3：[A，组合仪表，换，成，里程，B]；

路径4：[A，组合仪表，换成，里程，B]……

进一步地，针对于上述路径，其发生的概率分别为：

路径1：[S，组，合，仪，表，换，成，里，程，E]的发生概率为P(路径1)＝P(组)P(合)P(仪)P(表)P(换)P(成)P(里)P(程)；

路径2：[S，组合仪表，换，成，里，程，E]的发生概率为P(路径2)＝P(组合仪表)P(换)P(成)P(里)P(程)；

路径3：[S，组合仪表，换，成，里程，E]的发生概率为P(路径3)＝P(组合仪表)P(换)P(成)P(里程)；

路径4：[S，组合仪表，换成，里程，E]的发生概率为P(路径4)＝P(组合仪表)P(换成)P(里程)。

在本实施例中，P(路径4)>MAX{P(路径1)，P(路径2)，P(路径3)，P(词图中的其他路径)}，故得到“组合仪表换成里程”的分词结果为[组合仪表，换成，里程]。

在一些实施例中，也可以利用二元语法语言模型计算词图中的概率最大路径，得到分词结果。

例如，当待分词文本为“组合仪表换成里程”时，针对于图3所示的词图中各路径发生的概率分别为：

路径1：[S，组，合，仪，表，换，成，里，程，E]的发生概率为P(路径1)＝P(组)P(合|组)P(仪|合)P(表|仪)P(换|表)P(成|换)P(里|成)P(程|里)；

路径2：[S，组合仪表，换，成，里程，E]的发生概率为P(路径2)＝P(组合仪表)P(换|组合仪表)P(换|表)P(成|换)P(里|成)P(程|里)；

路径3：[S，组合仪表，换，成，里程，E]的发生概率为P(路径3)＝P(组合仪表)P(换|组合仪表)P(换|表)P(成|换)P(里程|成)；

路径4：[S，组合仪表，换成，里程，E]的发生概率为P(路径4)＝P(组合仪表)P(换成|组合仪表)P(里程|换成)。

在本例中，P(路径4)>MAX{P(路径1)，P(路径2)，P(路径3)，P(词图中的其他路径)}，故得到“组合仪表换成里程”的分词结果为[组合仪表，换成，里程]。

请参考图6，为本申请实施例所提供的一种中文分词装置的结构示意图，该装置包括：

获取模块100，用于获取待分词文本及领域词典，利用所述领域词典对所述待分词文本构建词图；

第一分词模块200，用于利用预设分词模型对所述待分词文本进行分词处理，并依据得到的第一分词结果对所述词图进行修正；

第二分词模块300，用于依据所述领域词典确定修正后的词图中的概率最大路径，并依据所述概率最大路径确定所述待分词文本的第二分词结果。

在上述实施例的基础上，在一些实施例中，所述领域词典包括垂直任务领域词典和通用领域词典；

该获取模块100具体可以用于：

利用所述通用领域词典依据所述待分词文本构建所述词图；

在上述实施例的基础上，在一些实施例中，该第二分词模块300具体可以用于：

在上述实施例的基础上，在一些实施例中，所述预设语言模型包括一元语言模型和/或二元语言模型。

在上述实施例的基础上，在一些实施例中，该第二分词模块300还可以用于：

在上述实施例的基础上，在一些实施例中，该第一分词模块200还可以用于：

在上述实施例的基础上，在一些实施例中，所述预设神经网络模型包括双向门控循环单元-条件随机场-深度模型和/或双向门控循环单元-条件随机场-预训练语言模型。

本申请实施例提供一种电子设备，包括处理器和存储器，存储器用于存储至少一条指令，指令由处理器加载并执行时以实现上述的中文分词的方法，其执行方式和有益效果类似，在这里不再赘述。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的中文分词的方法，其执行方式和有益效果类似，在这里不再赘述。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种中文分词的方法，其特征在于，包括：

依据所述领域词典确定修正后的词图中的概率最大路径，并依据所述概率最大路径确定所述待分词文本的第二分词结果；

其中，所述领域词典包括垂直任务领域词典和通用领域词典；

所述依据所述领域词典确定修正后的词图中的概率最大路径，包括：

2.根据权利要求1所述的方法，其特征在于，

利用所述领域词典对所述待分词文本构建词图，包括：

利用所述通用领域词典依据所述待分词文本构建所述词图；

3.根据权利要求1所述的方法，其特征在于，所述预设语言模型包括一元语言模型和/或二元语言模型。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，在利用预设分词模型对所述待分词文本进行分词处理之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述预设神经网络模型包括双向门控循环单元-条件随机场-深度模型和/或双向门控循环单元-条件随机场-预训练语言模型。

7.一种中文分词的装置，其特征在于，包括：

第二分词模块，用于依据所述领域词典确定修正后的词图中的概率最大路径，并依据所述概率最大路径确定所述待分词文本的第二分词结果；

8.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储至少一条指令，所述指令由所述处理器加载并执行时以实现如权利要求1-6中任意一项所述的中文分词的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任意一项所述的中文分词的方法。