CN111597807A

CN111597807A - 分词数据集生成方法、装置、设备及其存储介质

Info

Publication number: CN111597807A
Application number: CN202010362495.8A
Authority: CN
Inventors: 徐程程
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-28
Anticipated expiration: 2040-04-30
Also published as: CN111597807B

Abstract

本申请公开了分词数据集生成方法、装置、设备及其存储介质。该方法包括对输入文本按照不同的分词方式进行分词处理，得到分词语料；按照分词组合统计结果对分词语料进行去重采样处理，得到采样结果；基于采样结果的词性预测结果对采样结果进行切分修正，得到分词数据集。本申请实施例通过对输入文本进行多种分词处理来增加分词语料的数量，并通过分词组合统计结果来保证分词结果的有效性，最后基于采样结果的词性预测结果对采样结果进行切分修正，来保证分词的准确性。

Description

分词数据集生成方法、装置、设备及其存储介质

技术领域

本申请一般涉及计算机技术领域，尤其涉及分词数据集生成方法、装置、设备及其存储介质。

背景技术

在中文自然语言处理领域，大多数针对分词算法进行优化改进，但是无论采用何种分词工具，如果不能保证训练数据的数量足够大，尽可能覆盖更多的词语组合情形，则不能保证训练结果的准确性。

现有公开的分词数据集，根据各自的分词工具构建的，但是不同的分词工具对词粒度的切分处理是不同的，各自分词工具处理的数据来源也是比较单一的。因为来源较为单一，可能这些数据集不能涵盖一些新的词语，例如“抖音”、“微视”等。在不同的训练场景中，如果期望利用现有的分词数据集进行模型训练，则需要对现有的分词数据集进行复杂的处理才能使用，则导致分词数据集可利用性较差，数据处理的效率较低。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种分词数据集生成方法、装置、设备及其存储介质，通过对分词进行抽取。

一方面，本申请实施例提供了一种分词数据集生成方法，该方法包括：

对输入文本按照不同的分词方式进行分词处理，得到分词语料；

按照分词组合统计结果对分词语料进行去重采样处理，得到采样结果；

基于采样结果的词性预测结果对采样结果进行切分修正，得到分词数据集。

一方面，本申请实施例提供了一种分词数据集生成装置，该装置包括：

分词处理单元，用于对输入文本按照不同的分词方式进行分词处理，得到分词语料；

分词采样单元，用于按照分词组合统计结果对分词语料进行去重采样处理，得到采样结果；

分词修正单元，用于基于采样结果的词性预测结果对采样结果进行切分修正，得到分词数据集。

一方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如本申请实施例描述的方法。

一方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序用于：

该计算机程序被处理器执行时实现如本申请实施例描述的方法。

本申请实施例提供的分词数据集生成方法、装置、设备及其存储介质，该方法通过对输入文本按照不同的分词方式进行分词处理，得到分词语料；按照分词组合统计结果对分词语料进行去重采样处理，得到采样结果；基于采样结果的词性预测结果对采样结果进行切分修正，得到分词数据集。本申请实施例通过对输入文本按照不同的分词方式进行分词处理，来增加分词数量，然后利用去重采样处理来减少分词语料中初始分词的噪音，从而增加分词数据集的有效性；最后利用采样结果的词性预测结果对采样结果所包含的初始分词进行分词修正，来克服相关技术的分词数量较少，分词粒度不一致的问题，并有效地提高分词有效性和准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请实施例提供的分词数据集生成系统的架构示意图；

图2示出了本申请实施例提供的分词数据集生成方法的流程示意图；

图3示出了本申请实施例提供的分词数据集生成的流程示意图；

图4示出了本申请实施例提供的分词数据集生成的流程示意图；

图5示出了本申请实施例提出的分词修正处理的流程示意图；

图6示出了根据本申请实施例提供的分词数据集生成装置的示例性结构框图；

图7示出了适于用来实现本申请实施例的电子设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关公开，而非对该公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与公开相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在中文自然语言处理过程中，中文分词是所有任务的基础关键。

不同的分词工具可能是基于不同的分词粒度对待处理的文本进行分词处理，其分词粒度的不一致，导致多种分词工具生成的分词数据集，不能兼容使用。如果采用单独构建的分词数据集，其数据来源比较单一，构建的分词数据集的数量较小，且重复分词可能比较多，则导致分词数据集可能不能满足模型训练的需求。

本申请为了解决上述问题，提出了一种分词数据集生成方法来为各种模型训练场景提供较为准确的且覆盖全面的分词数据集，从而提供分词模型训练的效率，该方法可以应用在模型训练前，在不同的业务场景生成不同的分词数据集，为分词模型的构建提供分词准确率较高的分词数据集。该方法可以由实施分词方法的服务器或者处理装置来实施。

本申请提供的分词数据集生成方法，可以应用于如图1所示的应用环境中。请参考图1，图1是本申请实施例提供的分词数据集生成系统的架构示意图。如图1所示，其中，用户终端101可以通过网络102与服务器103进行通信。其中，用户终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。

网络102可以是广域网或者局域网，又或者是二者的组合。

服务器103可以用独立的服务器或者是多个服务器组成的服务器集群来实现。当接收到用户终端102发送的分词数据集获取请求时，服务器103接收用户终端的分词数据集获取请求后，响应于该请求向用户终端102提供满足其需求的分词数据集。

下面请参考图2，图2示出了本申请实施例提供的分词数据集生成方法的流程示意图。如图2所示，该方法包括：

步骤202，对输入文本按照不同的分词方式进行分词处理，得到分词语料；

步骤203，按照分词组合统计结果对分词语料进行去重采样处理，得到采样结果；

步骤204，基于采样结果的词性预测结果对采样结果进行切分修正，得到分词数据集。

在执行上述步骤之前，先获取输入文本，输入文本可以是通过网络爬虫技术获取得到多个的网络文本，例如获取网页HTML形式的文本，也可以是从文本数据库中获取得到多个的文本数据作为输入文本。还可以是利用上述两种获取方式得到的所有文本数据作为输入文本集合。

输入文本可以包括不同来源的各种类型的文本数据，例如在互联网上获取的各种形式的文本，网页文本，微博内容，论坛回帖、问题查询等。长文本如新闻正文、百科简介等，短文本如微博内容、论坛回帖等。输入文本还可以根据其所属专业技术领域来划分，例如军事领域的专业文本、中医药领域的专业文本。利用丰富的文本资源构建的分词数据集，可以在不同的业务场景中使用，不需要再针对不同的业务场景单独地构建分词数据集。

其中，输入文本涵盖网络文本，其可以有效地覆盖网络中出现新的网络词语，并提供数量充足的分词集合，从而达到覆盖全面的效果。但是新的网络词语在粗训练语料中出现次数相对较少，如果采用现有的分词工具可能无法有效地识别，为了保证分词结果的准确性，可以在分词组合词典中通过人工直接添加的方式增加分词组合，以满足新的网络词语分词需求。

在获取输入文本之后，对每篇输入文本分别进行多种分词处理，可以得到大量的分词结果。分词处理，可以大致分为基于规则分词和基于统计分词。

基于规则分词是通过预先构建词典按照匹配方式进行分词切分。该词典可以是多元文法N-gram词典，其可以按照分词策略将未知句子所包含的字符串与预先构建的多元文法N-gram词典进行匹配，得到每个字符所有的可能切分结果，然后采用基于多元文法N-gram的最短路径方法，计算出最终的切分结果。

基于统计分词是利用经过标注的语料训练构建的分类器来进行分词处理。分类器可以是利用机器学习或深度学习算法进行训练构建的，这类算法通常可以采用HMM(隐马尔可夫模型)，CRF(条件随机场)，深度学习等。

也可以直接通过调用多种不同的分词工具作为分词模型，分别调用类型不同的分词工具对输入文本进行分词处理，得到分词语料。该分词语料也可以称为粗分语料。调用类型不同的分词工具对输入文本进行初步分词处理，得到与不同的分词工具对应的多个初始分词，将多个的初始分词合并成初始分词集合。此时初始分词集合所包含的初始分词数据量较大，可以通过对每个初始分词进行投票，按照分词工具进行统计。例如对于某个初始分词，三种分词工具均可以从输入文本中切分得到该初始分词，则该初始分词作为分词语料。如果三种分词工具对于该初始分词的分词结果不一致，则直接丢弃该初始分词。如果两种分词工具对于该初始分词的分词结果一致，另外一种分词工具对于该初始分词的分词结果不一致，则根据投票结果，该初始分词可以作为分词语料。通过投票结果初步缩小初始分词集合中初始分词数量，并保证分词结果的有效性。

调用分词工具对输入文本进行分词时可以对输入文本进行分词标注，得到与输入文本对应的原始标注序列。由于输入文本经过多种分词工具的切分处理后，其数据量非常大。对于分词标注如果采用人工标注，可以降低标准错误率，但是其处理效率非常低。如果仅利用分词工具的分词标注结果，每种分词工具的分词粒度不一致，其分词的标注结果是不同的。

分词工具，可以采用开源中文分词工具，如结巴中文分词，Hanlp分词器、哈工大语言技术平台(Language Technology Platform，LTP)、由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包(THU Lexical Analyzer for Chinese，THULAC)、斯坦福分词器、自然语言处理与信息检索共享平台NLPIR等，这些分词工具分别具备各自的分词特点。可选地，调用多种分词工具分别对输入文本进行分词处理可以包括：调用LTP、THULAC和NLPIR三种分词工具对这些输入文本进行分词处理。

LTP的分词模块基于条件随机场(Conditional Random Field，CRF)模型进行训练和解码，它在观测序列的基础上对目标序列进行建模，其采用的数据来源是1998年1-6月人民日报，数据规模：1～6月数据作为训练集。通过获取文件路径分词接口进行初始化，调用分词接口对输入文本的待分词句子进行分词处理，得到分词结果序列。

THULAC工具包自带模型训练原始语料，但是它需要获得授权。THULAC工具包的中文分词和词性标注功能具有能力强、准确率高的特点。可以通过配置接口参数，调用分词语句来对输入文本所包含的句子或者输入文本整体进行分词处理，得到分词结果序列。

NLPIR工具是一个全链条的分析工具，其可以对原始语料进行分词。在具体分词过程中，需要导入预先构建的词典，通过调用词典来进行初次切分，得到切分结果。再使用概率统计方法和简单规则消除歧义词语，对于未登录词识别则利用词频信息，经过消除歧义和识别未登录词后，得到分词结果序列。

调用NLPIR(中科院自然语言处理包)、LTP(哈工大中文语言技术组件)、THULAC(清华大学中文词法分析包)对每篇输入文本进行分词处理，得到多个分词结果。利用上述不同的分词工具进行分词处理，可能会得到很多重复的分词。这样的分词结果直接作为分词训练集训练机器学习模型会导致拟合效果较差。

可选地，还可以基于现有公开的多个训练数据集分别进行训练训练学习来构建新的分词模型，利用新的分词模型来对输入文本进行分词处理，得到分词语料。

在分词处理之前，需要对输入文本进行分句处理。分句处理可以利用中文标点符号把长句划分成多个短句。标点符号可以采用句号、逗号、省略号、问号、叹号、顿号等。然后对分句处理后的输入文本进行归一化处理和文本去重处理，得到预处理结果；经过预处理步骤之后，再调用多种分词工具对预处理结果进行分词处理，得到分词语料。其中，归一化处理可以包括以下步骤：

调用词处理工具对输入文本所包含的繁体字进行字体转换处理，将输入文本所包含的繁体字转换成简体字；

调用词处理工具对输入文本所包含的英文字符进行字符形式归一化处理，将英文字符统一修改为小写形式的英文字符。

文本去重处理可以包括以下步骤：

获取任意两篇输入文本；

将每篇输入文本映射成64位二进制数字串；

利用64位二进制数字串的海明距离确定两篇输入文本的相似度。

在两篇输入文本相似时，保留其中一篇。还可以直接调用分词工具中的文本去重功能对文本进行去重处理。

在经过归一化和文本去重处理后，得到预处理结果；再调用至少两种分词工具对预处理结果进行分词处理得到分词语料。

在获得海量的输入文本后，基于输入文本的分词处理结果的数据量是极大的，为了进一步缩小处理数据的范围，本申请实施例提出通过对初始分词集合进行投票处理，来保证分词结果的有效性。

然后，通过去重采样处理进一步缩小处理数据的范围。去重采样处理可以基于分词组合统计结果来对分词语料筛选，得到采样结果。例如，在大量的分词语料中，可能某些初始分词出现次数极少，如晦涩的词语，在整个分词语料中可能偶尔出现几次，与其他初始分词相比，这些晦涩词语对于后期数据训练结果的影响很小，因此可以通过预测次数阈值将其从处理数据中“剔除”。在与预测次数阈值比较之后，对于分词语料中剩余的初始分词，需要进一步判断是否需要对其进行切分修正处理。若以句子为单位，判断是否留存分词语料中的初始分词，从而提高分词结果的有效性。

可选地，可以通过多元文法N-gram模型对分词语料所包含的分词进行组合，得到多个分词组合和与每个分词组合对应的出现次数，出现次数可以表示分词组合所包含的多个分词同时出现的频率。基于分词组合的出现次数确定是否保留包含该分词组合的句子，可以有效地缩小分词语料的数据处理范围。

在经过去重采样处理之后，基于采样结果的词性预测结果对采样结果进行修正，得到分词数据集。虽然经过去重采样处理在分词语料中确定待处理的数据范围作为采样结果，其仅保证分词的有效性，对于初始分词结果的准确性，其仍旧不能克服分词模型自身导致的分词错误问题。因此，本申请实施例还提出通过对采样结果进行词性预测，基于采样结果的词性预测结果来对采样结果所包含的初始分词进行切分修正，从而有效地提升分词结果的准确性。

本申请实施例通过调用多种分词处理方法来获得大量的分词结果，从而克服相关技术中分词数据量较少的问题，又通过去重采样处理和基于采样结果的词性预测结果对采样结果所包含的初始分词进行切分修正，来提升分词数据集有效性和准确性。

在上述实施例基础上，本申请还提供了一种分词数据集生成方法。请参考图3，图3示出了本申请实施例提供的分词数据集生成的流程示意图。该方法包括：

步骤302，对输入文本按照不同的分词方式进行分词处理，得到分词语料；

步骤303，调用分词组合模型对分词语料所包含的初始分词进行组合处理，得到多个分词组合和与每个分词组合对应的出现次数；

步骤304，基于与每个分词组合对应的出现次数确定分词语料中期望留存的初始分词作为采样结果；

步骤305，基于采样结果的词性预测结果对采样结果进行切分修正，得到分词数据集。

在上述步骤，在获取大量的输入文本之后，调用多种不同的分词模型对输入文本进行分词处理，得到分词语料。然后，调用分词组合模型对分词语料进行去重采样处理。

分词组合模型可以是基于多元文法N-gram模型构建的。N的取值可以是2或者3。根据需要也可以是可以取值为4。

调用预先构建的词粒度N-gram模型对分词语料中的分词进行组合处理，得到多个分词组合和与每个分词组合对应的出现次数。以词粒度bi-gram为例，即从分词语料中按照对相邻两个分词进行组合，得到多个分词组合，和与每个分词组合对应的出现次数。在对输入文本按照不同的分词方式进行分词处理得到分词语料之后，调用预先构建的词粒度bi-gram模型对分词语料中分词进行组合得到多个分词组合和与每个分词组合对应的出现次数。

可选地，可以基于多个分词组合与每个分词组合对应的出现次数构建分词组合词典。将分词组合词典中与每个分词组合对应的出现次数与预设次数阈值进行比较，在与每个分词组合对应的出现次数大于等于预设阈值时，基于出现次数计算其对应的分词组合的留存概率值。在与每个分词组合对应的出现次数小于预设次数阈值时，不进行任何处理。上述预设次数阈值是根据输入文本所属的专业领域设置的。例如，在分词阶段该预设次数阈值可以设置为100。在中药领域中，预设次数阈值可以为50。

当分词语料中相邻两个初始分词同时出现的次数小于100，则说明该相邻两个初始分词同时出现的概率很小。不用对出现次数较少的分词组合进行任何处理。

当分词语料中相邻两个初始分词同时出现的次数大于等于100，则需要进一步基于出现次数计算每个分词组合的留存概率值。假设第i个分词组合对应的留存概率值p_i，计算公式如下：

其中，A表示期望留存的分词组合的数量。通常取值为1，其可以表示期望分词语料所包含的分词组合至少出现1次；

B_i表示分词组合在分词语料中的全部出现次数。

假设输入文本包括多个句子{句子1，句子2，句子3，…，句子N}。其中，第i个句子所包含的分词组合为{{A,B},{B,C},{C,D}}。

其中分词组合{A,B}总共出现次数为12次，分词组合{B,C}总共出现次数为3次，分词组合{C,D}总共出现次数为4次。如果预设次数阈值为3次，则上述分词组合都需要计算留存概率值，按照上述公式计算留存概率值，得到分词组合{A,B}对应的留存概率值为1/12，分词组合{B,C}对应的留存概率值为1/3，分词组合{C,D}对应的留存概率值为1/4。

对于第i个句子，构建该句子所包含的分词组合对应的留存概率值集合为{1/12,1/3,1/4}。确定该留存概率值集合中的最大值为1/3。即第i个句子对应的句子留存概率值为上述分词组合中留存概率值的最大值。当确定该句子对应的留存概率值大于预设概率阈值，则在分词语料中保留该句子所包含的分词A,B,C,D。预设概率阈值可以根据构建分词数据集的专业领域设置，也可以根据分词训练数据集的应用阶段进行设置。

下面以分词语料为“我”“爱”“中国”为例，将分词语料输入预先构建的bi-gram模型，输出“我爱”和“爱中国”两个分词组合，和与每个分词组合分别对应的出现次数。假设预设次数阈值为100，如果按照bi-gram模型进行组合得到“我爱”和“爱中国”，假设“我爱”对应的出现次数为98，则其小于100，认为“我”和“爱”两个词同时出现的次数太少，可以认为其属于噪音分词。通过预设次数阈值可以有效地缩小分词语料中待处理数据的范围。“爱中国”对应的出现次数为200，则其大于等于100，认为“爱”和“中国”两个词同时出现次数较多。对于该句子“我爱中国”其对应的句子留存概率值以其包含的分词组合“爱中国”所对应的留存概率值来确定；“爱中国”对应的留存概率值确定为1/200。再判断该句子留存概率值是否大于预设概率阈值，若大于等于预设概率阈值，则留存句子“我爱中国”所包含的分词“我”“爱”“中国”作为采样结果。

本申请实施例通过上述去重采样处理，有效地减少分词语料的数据处理量，缩短对输入文本的分词处理所需的时间。

在上述实施例基础上，本申请实施例还提出了一种分词数据集生成方法，请参考图4，图4示出了本申请实施例提供的分词数据集生成的流程示意图。该方法包括：

步骤402，对输入文本按照不同的分词方式进行分词处理，得到分词语料；

步骤403，调用分词组合模型对分词语料所包含的初始分词进行组合处理，得到多个分词组合和与每个分词组合对应的出现次数；

步骤404，基于与每个分词组合对应的出现次数确定分词语料中期望留存的初始分词作为采样结果；

步骤405，调用深度学习模型对采样结果进行词性预测，得到与采样结果对应的预测序列标注，该深度学习模型是利用分词语料进行训练构建的；

步骤406，在预测序列标注与采样结果的原始序列标注不一致时，将预测序列标注作为采样结果的新的序列标注；转入步骤408；

步骤407，在预测序列标注与采样结果的原始序列标注一致时，不对采样结果进行任何处理。

步骤408，按照预测序列标注将采样结果所包含的初始分词进行切分修正，得到分词数据集。

在上述步骤中，对输入文本进行分词处理后得到分词语料，通过调用分词组合模型对分词语料进行去重采样处理后，得到采样结果。然后调用深度学习模型预测采样结果的序列标注，通过预测序列标注与原始序列标注进行比较来识别采样结果所包含的初始分词的切分是否正确。如果预测序列标注与原始序列标注一致，则保留采样结果所包含的初始分词。如果预测序列标注与原始序列标注不一致，则按照预测序列标注对采样结果所包含的初始分词重新进行分词，得到最终的分词数据集。

可选地，上述深度学习模型可以是预先构建BERT(Bidirectional EncoderRepresentations from Transformers)模型。BERT模型是通过步骤302获取的分词语料作为训练数据集和测试数据集进行训练构建，可以先将该分词语料划分为训练数据集和验证数据集，利用训练数据集对BERT模型进行训练，利用验证数据集对训练得到的BERT模型进行验证，从而得到构建的BERT模型。在构建BERT模型之后，调用BERT模型对采样结果所包含的初始分词进行词性预测，得到与采样结果对应的预测序列标注。调用BERT模型对采样结果所包含的初始分词进行词性标注预测，词性标注预测可以采用不同的词性标注方式。其通过对每个字在分词中的位置进行分类来识别分词之间的边界，序列标注方法可以理解为将分词过程作为一个分类问题。

可选地，还可以调用BERT模型对采样结果进行预测得到与采样结果对应的预测概率集合，再调用浅层模型对该预测概率集合进行拟合，输出词性预测结果。

将BERT模型输出的预测序列标注与采样结果对应的原始序列标注进行比较。若二者比较结果为一致，则无需对采样结果所包含的初始分词进行切分修正。若二者比较结果为不一致，则按照预测序列标注对采样结果所包含的初始分词进行切分修正，得到分词数据集。该分词数据集中的分词是与预测序列标注相对应的。

或者，基于词性预测结果与采样结果所包含的初始分词对应的预测概率结果相比较，若二者比较结果为一致，则无需对采样结果所包含的初始分词进行切分修正。若二者比较结果为不一致，则按照预测序列标注对采样结果所包含的初始分词进行切分修正，得到分词数据集。该分词数据集中的分词是与预测序列标注相对应的。

按照预测序列标注或者词性预测结果对采样结果进行重新切分处理，得到切分修正后的分词。将切分修正后的分词作为分词数据集，其可以有效地解决原始分词语料中部分词语组合模式错误的问题，提高了分词结果的准确性。

下面结合图5对词性标注的处理进一步展开说明，图5示出了本申请实施例提出的分词修正处理的流程示意图。如图5所示，获取粗训练语料。假设原始句子为：风景色彩。调用分词工具对原始句子进行分词处理后得到粗训练语料：风/景色/彩。

利用粗训练语料对深度学习模型进行训练得到词性预测模型，将经过去重采样处理的数据输入到词性预测模型，输出去重采样处理后的数据对应的预测序列标注。可选地，深度学习模型可以为BERT模型。假设粗训练语料经过去重采样处理后的数据仍然为粗训练语料，即粗训练语料是满足留存概率最大值的句子，输出“风景/色彩”对应的预测标注序列。

其按照IOBES标记法对粗训练语料进行标注的原始序列标注为(S，B，E，S)，经过词性预测模型输出的预测序列标注为(B，E，B，E)。

判断预测序列标注和去重采样处理后的数据对应的原始序列标注是否一致，如果一致，则不对去重采样处理后的数据进行处理，如果不一致则按照预测序列标注对去重采样处理后的数据进行修正。按照预测序列标注(B，E，B，E)将“风景色彩”进行分词修正，得到修正后的分词结果“风景/色彩”。通过上述预测序列标注方式进行修正之后得到的分词结果为：风景/色彩。上述序列标注方式为IOBES方式，在序列标注中：

B，即Begin，表示开始

I，即Intermediate，表示中间

E，即End，表示结尾

S，即Single，表示单个字符

O，即Other，表示其他，用于标记无关字符。

可选地，也可以通过四位标记法BMES或者六位标记法BMiMES(i＝1,2，…)对粗训练语料进行标注。假设按照四位标记法BMES，对“风景色彩”进行标注的原始序列标注为(B,M,M,E)，输入到词性预测模型，输出预测序列标注为(B,E,B,E)。

假设按照六位标记法BMiMES(i＝1,2，…)，对“风景色彩”进行标注的原始序列标注为(B,M1,M2,E)，输入到词性预测模型，输出预测序列标注为(B,E,B,E)。

本申请实施例通过深度学习模型预测采样结果的序列标注，来对采样结果的分词结果进行修正处理，以克服现有分词工具分词粒度不一致的问题。

下面进一步地请参考图6，图6示出了根据本申请实施例提供的分词数据集生成装置的示例性结构框图。如图6所示，该装置包括：

分词处理单元602，用于对输入文本按照不同的分词方式进行分词处理，得到分词语料；

分词采样单元603，用于按照分词组合统计结果对分词语料进行去重采样处理，得到采样结果；

分词修正单元604，用于基于采样结果的词性预测结果对采样结果进行切分修正，得到分词数据集。

进一步的，分词处理单元还进一步包括：

分句处理子单元，用于对输入文本进行分句处理；

归一化去重子单元，用于对分句处理后的输入文本进行归一化处理和文本去重处理，得到预处理结果；

分词子单元，用于调用至少两种分词模型对预处理结果进行分词处理，得到分词语料。

分词子单元还用于：

分别调用每种分词模型对预处理结果进行分词处理，得到与每种分词模型对应的多个初始分词；

将多个初始分词合并成初始分词集合；

基于初始分词集合中的每个初始分词的投票结果确定分词语料所包含的初始分词。

分词采样单元还包括：

采样子单元，用于调用分词组合模型对分词语料所包含的初始分词进行组合处理，得到多个分词组合和与每个分词组合对应的出现次数；

抽取子单元，用于基于与每个分词组合对应的出现次数确定分词语料中期望留存的初始分词作为所述采样结果。

抽取子单元还用于：

基于多个分词组合和与每个分词组合对应的出现次数构建分词组合词典；

将与每个分词组合对应的出现次数与预设次数阈值进行比较，该预设次数阈值是根据输入文本所属的专业领域预先设置的；

在与每个分词组合对应的出现次数大于等于预设次数阈值时，基于出现次数计算其对应的分词组合的留存概率值；

基于留存概率值确定是否留存包含分词组合的句子作为采样结果。

抽取子单元还用于：

构建句子所包含的分词组合对应的留存概率值集合；

确定留存概率值集合中的最大值作为句子对应的句子留存概率值；

在句子留存概率值大于等于预设概率阈值时，确定留存句子所包含的初始分词作为采样结果。

分词修正单元还包括：

预测子单元，用于调用深度学习模型对采样结果进行词性预测，得到与采样结果对应的预测序列标注，该深度学习模型是利用分词语料进行训练构建的；

在预测序列标注与采样结果的原始序列标注不一致时，按照预测序列标注将采样结果所包含的分词进行切分修正，得到分词数据集。

应当理解，装置中记载的诸单元或模块与上述描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作指令和特征同样适用于装置及其中包含的单元，在此不再赘述。装置可以预先实现在电子设备的浏览器或其他安全应用中，也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。

在上文详细描述中提及的若干模块或者单元，这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

下面参考图7，图7示出了适于用来实现本申请实施例的计算机设备或服务器的计算机系统的结构示意图。

如图7所示，计算机系统包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统操作指令所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括分词处理单元、分词采样单元以及分词修正单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，分词处理单元，还可以被描述为“用于对输入文本进行多种分词处理得到分词语料的单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的会话式信息管理方法。

例如，电子设备可以实现如图2所示的：步骤202，对输入文本按照不同的分词方式进行分词处理，得到分词语料；步骤203，按照分词组合统计结果对分词语料进行去重采样处理，得到采样结果；步骤204，基于采样结果的词性预测结果对采样结果进行切分修正，得到分词数据集。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种分词数据集生成方法，其特征在于，该方法包括：

按照分词组合统计结果对所述分词语料进行去重采样处理，得到采样结果；

基于所述采样结果的词性预测结果对所述采样结果进行切分修正，得到分词数据集。

2.根据权利要求1所述的方法，其特征在于，所述对输入文本按照不同的分词方式进行分词处理，包括：

对所述输入文本进行分句处理；

对分句处理后的输入文本进行归一化处理和文本去重处理，得到预处理结果；

调用至少两种分词模型对所述预处理结果进行分词处理，得到所述分词语料。

3.根据权利要求2所述的方法，其特征在于，所述调用至少两种分词模型对所述预处理结果进行分词处理，得到所述分词语料，包括：

分别调用每种所述分词模型对所述预处理结果进行分词处理，得到与每种所述分词模型对应的多个初始分词；

将所述多个初始分词合并成初始分词集合；

基于所述初始分词集合中的每个初始分词的投票结果确定所述分词语料所包含的初始分词。

4.根据权利要求1所述的方法，其特征在于，所述按照分词组合统计结果对所述分词语料进行去重采样处理，包括：

调用分词组合模型对所述分词语料所包含的初始分词进行组合处理，得到多个分词组合和与每个所述分词组合对应的出现次数；

基于与每个所述分词组合对应的出现次数确定所述分词语料中期望留存的初始分词作为所述采样结果。

5.根据权利要求4所述的方法，其特征在于，所述基于与每个所述分词组合对应的出现次数确定所述分词语料中期望留存的初始分词作为所述采样结果，包括：

基于所述多个分词组合和与每个所述分词组合对应的出现次数构建分词组合词典；

将与每个所述分词组合对应的出现次数与预设次数阈值进行比较，所述预设次数阈值是根据所述输入文本所属的专业领域预先设置的；

在与每个所述分词组合对应的出现次数大于等于所述预设次数阈值时，基于所述出现次数计算其对应的分词组合的留存概率值；

基于所述留存概率值确定是否留存包含所述分词组合的句子作为所述采样结果。

6.根据权利要求5所述的方法，其特征在于，所述基于所述留存概率值确定是否留存包含所述分词组合的句子作为所述采样结果，包括：

构建所述句子所包含的分词组合对应的留存概率值集合；

确定所述留存概率值集合中的最大值作为所述句子对应的句子留存概率值；

在所述句子留存概率值大于等于预设概率阈值时，确定留存所述句子所包含的初始分词作为所述采样结果。

7.根据权利要求1所述的方法，其特征在于，所述基于所述采样结果的词性预测结果对所述采样结果进行切分修正，包括：

调用深度学习模型对所述采样结果进行词性预测，得到与所述采样结果对应的预测序列标注，所述深度学习模型是利用所述分词语料进行训练构建的；

在所述预测序列标注与所述采样结果的原始序列标注不一致时，按照所述预测序列标注对所述采样结果所包含的初始分词进行切分修正，得到所述分词数据集。

8.一种分词数据集生成装置，其特征在于，该装置包括：

分词采样单元，用于按照分词组合统计结果对所述分词语料进行去重采样处理，得到采样结果；

分词修正单元，用于基于所述采样结果的词性预测结果对所述采样结果进行切分修正，得到分词数据集。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。