CN111291195A

CN111291195A - 一种数据处理方法、装置、终端及可读存储介质

Info

Publication number: CN111291195A
Application number: CN202010071396.4A
Authority: CN
Inventors: 王业全; 魏望; 马腾; 王莉峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-16
Anticipated expiration: 2040-01-21
Also published as: CN111291195B

Abstract

本发明实施例公开了一种数据处理方法，包括：获取待处理文本，所述待处理文本包括至少一个第一分词；调用关键词预测模型和词典数据库对所述待处理文本中的第一分词进行编码及关键词预测，得到所述待处理文本对应的关键词集合，所述关键词集合中的关键词为所述至少一个第一分词中的分词，和/或根据词典数据库学习得到的；利用所述关键词集合对所述词典数据库进行更新，得到更新后的词典数据库；当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果。采用本发明实施例，所述关键词预测模型可基于词典数据库进行关键词的主动学习，提高关键词的提取质量。

Description

一种数据处理方法、装置、终端及可读存储介质

技术领域

本发明涉及深度学习领域，尤其涉及一种数据处理方法、装置、终端及可读存储介质。

背景技术

随着人工智能技术的不断发展，深度学习逐渐出现在人们的视野范围内，深度学习在搜索技术，数据挖掘，机器学习，自然语言处理等多个领域都取得了很多成果。其中，在自然语言处理中，通过自动对文本关键词进行识别提取在各个搜索引擎的作用也越来越大。

目前，提取关键词一般采用无监督的学习方法，利用文档中词语的统计信息抽取文档的候选关键词，然后对文档的候选关键词进行评分，将评分高的N个候选关键词作为最终的关键词。然而上述无监督的关键词提取方法所提取的关键词往往质量不高，提取效果较差。

发明内容

本发明实施例提供了一种数据处理方法、装置、终端及可读存储介质，所述关键词预测模型可基于词典数据库进行关键词的主动学习，提高关键词的提取质量。

一方面，本发明实施例提供了一种数据处理方法，包括：

获取待处理文本，所述待处理文本包括至少一个第一分词；

调用关键词预测模型和词典数据库对所述待处理文本中的第一分词进行编码及关键词预测，得到所述待处理文本对应的关键词集合，所述关键词集合中的关键词为所述至少一个第一分词中的分词，和/或根据所述词典数据库学习得到的；利用所述关键词集合对所述词典数据库进行更新，得到更新后的词典数据库；当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果。

另一方面，本发明实施例还提供了一种数据处理装置，包括：

获取模块，用于获取待处理文本，所述待处理文本包括至少一个第一分词；

处理模块，用于调用关键词预测模型和词典数据库对所述待处理文本中的第一分词进行编码及关键词预测，得到所述待处理文本对应的关键词集合，所述关键词集合中的关键词为所述至少一个第一分词中的分词，和/或根据词典数据库学习得到的；

更新模块，用于利用所述关键词集合对所述词典数据库进行更新，得到更新后的词典数据库；

匹配模块，用于当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果。

又一方面，本发明实施例提供了一种计算机设备，该计算机设备包括：

存储器，该存储器包括计算机可读指令；

与存储器相连的处理器，该处理器用于执行所述计算机可读指令，从而使得计算机设备执行上述所涉及的数据处理方法。

再一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行上述所涉及的数据处理方法。

在本发明实施例中，获取待处理文本，待处理文本包括至少一个分词；然后调用关键词预测模型和词典数据库对所述待处理文本进行编码及关键词预测，得到与所述待处理文本对应的关键词集合，其中，所述关键词集合中的关键词为待处理文本中的分词，和/或根据词典数据库学习得到的分词，通过关键词集合对词典数据库进行更新，当检测到局部检索词时，利用更新后的词典数据库确定出与该局部检索词匹配的检索结果；基于上述方式，能够根据词典数据库进行关键词的主动学习，提高关键词的提取质量，并实时更新实时词典数据库，扩大了词典数据库范围。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据处理方法的流程图；

图2a为本发明实施例提供的另一种数据处理方法的流程图；

图2b为本发明实施例提供的一种数据处理模型结构示意图；

图2c为本发明实施例提供的一种关键词搜索的界面图；

图3a为本发明实施例提供的又一种数据处理方法的流程图；

图3b为本发明实施例提供的一种分词编码模型结构示意图；

图4为本发明实施例提供的一种数据处理装置的结构示意图；

图5是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，终端可以为PC(Personal Computer，个人计算机)、笔记本电脑、手机、PAD(平板电脑)、智能可穿戴设备等设备。终端中可安装运行各类应用程序，包括但不限于：即时通信应用程序、SNS(Social Networking Services，社会性网络服务)应用程序、游戏应用程序、安全应用程序等等。

深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

基于上述描述，下面请参见图1，图1是本发明实施例提供了一种数据处理方法的流程图。本发明实施例的所述方法可以由智能终端或者服务器来执行，智能终端例如可以是智能手机、平板电脑、智能可穿戴设备、车载系统、电视等终端。

S101、终端设备获取待处理文本，所述待处理文本包括至少一个第一分词；

本发明待处理文本是指等待进行关键词提取的一个句子或多个句子的组合。待处理文本可以是收集的公开通用的数据库、学术领域的论文、专利数据等数据，也可以是实时获取各个网站上输入的文本集合。其中，待处理文本既可以包括中文文本、英文文本以及其他国家语言或者不同表达形式的语言文本。

待处理文本包括至少第一分词，其中，第一分词是指将待处理文本经过分词系统进行分词处理后得到的文本。其中，分词系统是基于一定粒度对待处理文本进行分词处理的，具体的，文本的粒度一般包括单字(一般可简称为字)、词语(一般可简称为词)、句子，段落，篇章等级别。举例，“人工智能是计算机科学的重要组成部分”。单字级别“人”、“工”、“智”、“能”等；词语级别为“人工”、“智能”、“是”、“计算机”、“科学”、“的”、“重要”、“组成”、“部分”。句子级别则是整个文本。段落和篇章级别均是针对更广泛的定义。分词系统用于对输入文本进行指定粒度级别的划分，将输入文本以相应粒度级别的表示形式。

在英语中，还有一种处于单词和词语之间的级别，称之为“subword”级别，也就是亚词级别，亚词级别在中文中表示不明显，但在英文中可以做很好的区分。比如说，“tencent”被切分为“te”、“##nce”、“##nt”三个，这不是字和词的级别，是属于亚词的级别。本发明对文本的最小切分粒度就是亚词级别。

S102、终端设备调用关键词预测模型和词典数据库对所述待处理文本中的第一分词进行编码及关键词预测，得到所述待处理文本对应的关键词集合；所述关键词集合中的关键词为所述至少一个第一分词中的分词，和/或根据所述词典数据库学习得到的。

所述关键词是指在文本中对理解文本内容起着重要作用的词汇。比如“人工智能是计算机科学的重要组成部分”，这句话的关键词包括了“人工智能”和“计算机科学”两个关键词。其中，中文文本的关键词一般由若干个词语组成，英文文本的关键词一般由一个或者多个单词组成。

词典数据库是指预先已经构建的好的用于进行关键词预测的大数据关键词文本集合或者短文本集合。该词典数据库的关键词可以包括中文文本(各个不同地方的不同方言文本)、英文文本等语言文本。该词典数据库的建立过程可以是，通过将任意一个或者多个数据库中的文本信息按照常见标点符号切分为短文本，所述常见标点符符号可以为顿号、逗号、封号、冒号、句号以及英文形式的间隔号(“.”)等等。需要注意的是，在实际应用中，可能包含在关键词中的标点不用来切分文档，比如用于连接关键词所使用的破折号等等。然后进行标点符号对大量数据库中的文本进行处理之后，采用遍历的方案抽取每条文本中的关键词，在最基础的词典数据库构建过程中，所述关键词可以包括词语、短文本等文本形式。

关键词预测模型为用于对文本进行关键词提取或预测的模型，本发明终端设备将待处理文本输入到关键词模型中进行关键词预测，得到关键词集合。该关键词集合中的关键词可以包括该待处理文本中的第一分词或者第一分词的组合，也可以包括在词典数据库中进行学习得到的关键词集合。

关键词预测模型可以包括两个网络(也可成为网络模型)。一是分词编码网络，用于对待处理文本进行分词处理或者编码处理，得到待处理文本的语义特征向量。二是卷积神经网络(Convolutional Neural Networks,CNN)，用于对经过编码的待处理文本进行特征提取，获得关键词集合。在实际应用中，关键词预测模型可包括但不限于LSTM、BERT、CNN、BERTCNN。本实施例关键词预测模型是利用远程监督的方式，将已有的词典数据库对应到丰富的非结构化数据中，生成大量的训练数据，从而缓解人工标注语料不足的问题，该方法可以降低对标注数据的依赖性，从而有效地减少人力成本。

在一个实施例中，分词编码网络是经过预训练得到的双向语言模型，包括但不限于ELMO网络(Embedding from Language Models)、BERT网络(Bidirectional EncoderRepresentation from Transformers)。在本实施例中，分词编码网络模型需要基于所构建的词典数据库进行预先训练的深度双向语言模型，通过该模型的内部状态学习得到所输入文本对应的词向量(Word embedding)，其中词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言，词嵌入是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，即是将Word嵌入是自然语言处理中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。可以理解的是，通过该深度双向语言模型得到的词向量不是一层不变的，而是根据上下文随时变化。其中，ELMO模型是基于双向语言模型，用各层之间的线性组合来表示词向量的一种方式；BERT模型，是用双向编码器transformer进行编码表示，与最近的其他语言表示模型不同，BERT旨在联合调节所有层的上下文来预先训练深度双向表示，因此，预训练的BERT表示可以通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建。

在一个实施例中，神经网络模型可以包括但不限于LSTM和CNN等，本实施例中优先选用卷积神经网络应用到所述自然语言处理中对待处理文本进行特征提取。在实际应用中卷积神经网络包括但不限于传统的词袋模型、连续词袋模型(CBOW模型)或N-gram模型等。其中N-gram模型用于利用上下文中相邻词间的搭配信息，将连续的两个词作为一个整体纳入模型中进行语义分析的处理，最终得到关键词。

S103、利用所述关键词集合对所述词典数据库进行更新，得到更新后的词典数据库。

根据关键词预测模型和词典数据库对待处理文本进行关键词提取，得到关键词集合。若该关键词集合不为空集，则该关键词集合所包含的关键词可以是词典数据库已有的关键词，也可以是词典数据库中没有出现的关键词。通过将在该关键词集合中且未出现在词典数据库中的关键词添加到词典数据库中，更新该词典数据库，以使在大数据基础上，针对大规模的文本进行关键词提取，并将每一次提取到的关键词且未出现在词典数据库中进行更新，不断扩大词典数据库的覆盖范围，有效弥补了目前词典数据库覆盖不全面的问题，同时基于持续的关键词提取过程以及词典数据库实时更新的过程，进一步提高了词典数据库关键词质量。

S104、当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果。

在基于对大规模的待处理文本进行关键词提取过程中，得到更新后的词典数据库。当终端检索到根据该词典数据库进行关键词匹配的操作指令时，终端响应并获取用于进行关键词匹配的局部检索词，然后基于该词典数据库进行筛选和匹配，其中，该局部检索词可以是中文的字级别或者词语级别的字符或者字符组合，也可以是中文的句子级别的字符串；同时该局部检索词还可以是英文的亚词、单词级别的字符，也可以是英文的句子别的字符串；可以理解的是，该局部检索词还可以是其他形式或者其他国家的语言。

进一步的，终端基于该词典数据库进行筛选和匹配后，得到与该局部检索词相匹配的检索结果，并根据需要输出该检索结果，其中，查找方式可以采用遍历词典数据库等方式。检索结果是指与局部检索词相匹配的至少一个文本信息，具体的，该文本信息可以是该词典数据库中已有的关键词或者关键词组合，也可以是基于该词典数据库中与局部检索词满足匹配度阈值的文本信息，该文本信息可以是短文本或者句子，该匹配度阈值可以是已有关键词与检索结果的相似度计算，匹配度阈值可以是系统自定义的阈值范围，也可以是用户自定义的阈值范围。

在实际应用中，更新后的词典数据库往往会被应用在各个场景中，包括但不限于：信息检索系统、推荐系统(例如电商推荐系统等)、广告系统、对话系统等。

当应用场景为信息检索系统时，终端设备检测到用户输入的局部检索词时，获取该局部检索词，通过在更新后的词典数据库中查找与该局部检索词相匹配的检索结果，并输出在检索页面上。可选的，输出方式可以是在检索页面的检索框内以下拉框的形式对至少一个检索结果进行显示，其中，若存在多个检索结果，可以通过匹配度的大小进行排序；可选的，输出方式还可以是通过直接在检索框内对检索结果进行显示，显示格式本申请在此不做限制。在实际应用中，用户在进行信息检索时，终端设备需要实时检测用户输入的局部检索词，并相应的得到检索结果，在检索框内实时更新与当前所输入的局部检索词匹配的检索结果，有助于用户实时根据需要选择相对应的关键词或者关键句进行检索。

当应用场景为推荐系统或者广告系统时，终端设备可以将对推荐系统或者广告系统的推荐语或者广告语进行关键词提取，提取到该推荐语或者广告语的关键词，其中，此处的关键词提取方法可以采用本发明实施例的关键词提取方法，具体实现方式可以参见步骤的S101-S102，并将提取到的关键词更新到词典数据库，同时终端设备可以记录含有该关键词的推荐语或者广告语，用户定向向有需求的用户进行推荐。具体的，在基于该更新后的词典数据库建立推荐系统或者广告系统时，系统检测到用户输入的局部检索词时，并将局部检索词与该词典数据库进行匹配，查询到与该局部检索词匹配的推荐语或者广告语，将输入该局部检索词的终端设备确定为推荐对象，并向该推荐对象所在终端推荐该推荐语或者广告语。在上述应用场景中，能够通过关键词匹配的方式定向锁定有需求的用户，并向满足推荐语或者广告语推荐需求的用户推荐相关广告和推荐消息，有助于用户实时获取到满足其需求的信息，提高用户体验感。

当应用场景为对话系统时，终端设备检测到用户输入的文本时，获取该输入文本，其中，输入文本可以是用户通过虚拟键盘输入的文本内容，也可以是用户语音输出的语音内容，再通过语音识别技术将其转化为文本内容。终端设备可以基于更新后的词典数据库对输入文本进行匹配，得到检索结果；也可以是终端设备对用户输入的文本内容进行再次关键词提取，提取方法可以参照本实施例提及的关键词提取方法，具体实现方式可以参见步骤的S101-S102，还可以是其他关键词提取方式，通过将再次提取得到的关键词与更新后的词典数据库进行匹配，当再次提取的关键词与词典数据库内的任意一个或者多个关键词、短文本的，根据该关键词或者短文本组织完整的语言进行输出，以供信息交互。该该应用场景下，能够通过关键词的提取和识别智能识别用户交互的主旨思想和需求，从而进一步的进行高效、有目的、智能的交互过程。

需要注意的是，上述实施例仅仅是本发明所提供的部分实施例，并不构成对本发明实施例的限制，在实际应用中只要使用到本发明实施例所提供的词典数据库时进行关键词匹配的实现方式，均在本发明的保护范围中。

本发明所描述的实施例中，通过调取关键词预测模型对获取的待处理文本进行关键词的分词编码和预测，得到关键词集合。其中，所述关键词集合中的关键词为待处理文本中的分词，和/或根据词典数据库学习得到的分词。进一步通过关键词集合对词典数据库进行更新，当检测到局部检索词时，利用更新后的词典数据库确定出与该局部检索词匹配的检索结果。基于上述方式，能够根据词典数据库进行关键词的主动学习，提高关键词的提取质量，并实时更新实时词典数据库，扩大了词典数据库范围。

再请参见图2a，图2a是本发明实施例提供了一种数据处理方法的流程图。本发明实施例的所述方法可以由终端或者服务器来执行，终端可以是智能手机、平板电脑、智能可穿戴设备、车载系统、电视等终端。

S201、终端设备获取待处理文本，所述待处理文本包括至少一个第一分词，S210步骤具体实现方式请参见S101；

S202、终端设备调用所述分词编码网络，基于目标粒度对所述待处理文本中的至少一个第一分词进行编码，得到至少一个第二分词，所述第二分词为对所述至少一个第一分词中的任一个或多个第一分词重组得到的；

在本实施例中，关键词预测模型以BertCNN模型为例，请参见图2b，图2b为本发明实施例提供的一种关键词提取模型结构示意图，相应地分词编码网络为BERT网络模型，卷积神经网络模型以N-gram模型举例。其中，BERT网络模型是国际先进的文本表示方法，可以将输入的文本表示为一个低维密度的向量。在计算机中，低维密度向量，一般不超过一千维，向量中每个元素均不是0，而是处于0和1之间的一个小数。对应的高维稀疏向量一般超过一千维，可达数百万维乃至上亿维，向量中绝大部分元素都是0。同时，BERT模型是深层双向语义模型，其是用Transformer的双向编码器表示，可以通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建，比如问答任务和语言推理，无需针对具体任务做大幅架构修改。

在一个实施例中，在进行关键词提取之前，需要对BERT模型进行预训练，首先需要在词典数据库中选择一部分的语料进行作为验证集合测试集，然后剩下的为训练集，其中，训练集、测试集和验证集的比例可以为7:1:2，在数据量较大的时候，也可以为其他自定义比例。进一步的，通过将测试集中语料任务随机遮蔽输入token的某些部分，该模型的任务目的在于预测被遮住的token。进一步的，在对语料进行遮挡时，其中80％的词被mask，10％的词被随机替换成任意词汇，10％的词不变，然后BERT模型根据上下文学习句子与句子之间、词与词之间的关系预测到带有mask的词。对应遮蔽token的最终隐藏向量会输入到softmax函数中，预测得到遮蔽token对应的单词或者文本内容。可以理解的是，BERT模型通过上述的预训练过程，可以为下游任务引入通过的求解框架，不再为任务做模型定制。

在一个实施例中，请参见图2b中的步骤①-③，BERT模型在进行编码时，首先是将待处理文本基于目标粒度对至少一个第一分词进行编码处理，得到至少一个第二分词的词向量特征(Word Representation)，所述第二分词是由所述第一分词重组得到的。其中，第一分词是指以亚词或者单字的粒度进行切分，在实际应用中，按照亚词或者单字的粒度进行切分而导致数据量庞大且数据模糊，再经过BERT进行编码，容易造成编码的工作量大，降低关键词处理的效率。因此通过BERT模型直接对词或者单词为目标粒度进行重组的第二分词序列进行编码，获取所述第二分词序列对应的词向量特征，第二分词序列就是指将多个第一分词按照切分前各分词之间的顺序进行排列所形成第二分词集合，其中，序列是指被排成一列的对象(或事件)，每个元素不是在其他元素之前，就是在其他元素之后。

S203、终端设备调用所述卷积神经网络，对所述至少一个第二分词进行学习和关键词预测，得到所述待处理文本对应的关键词集合。

在一个实施例中，根据所述词典数据库，对所述至少一个第二分词进行深层语义学习，得到候选词集合，所述候选词集合中包括至少一个候选词；

请参见图2b中步骤④-⑤，接收所述第二分词序列中对应的词向量集合，调用CNN卷积神经网络模型进行关键词预测，一般的，CNN的基本结构为特征提取层和特征映射层，特征提取层可采用N-gram模型进行卷积操作，其基本思想是将文本里面的内容按照字节大小为N的滑动窗口进行字节提取操作，形成了长度是N的字节片段序列，其中，N是指将第二分词序列中连续的N个第二分词进行提取，其中，N可以为1、2、3等正整数，但N-gram常见的有1-gram(一元模型)，2-gram(二元模型),3-gram(三元模型)。可以理解的是，每个卷积层后面是一个动态池化层和非线性的特征映射表，为丰富每一层的表述，通过不同的卷积窗口应用到句子上计算出多重特征映射表，在输入的第二分词序列的基础上进行多层卷积和动态池化产生一张结构化的特征图，然后可以获取非连续的相距较远的词组的句法和语义关系，得到候选的gram列表以及gram对应的向量特征(Gram(s)Representation)，也就是第二分词序列对应的向量特征表示，列表中的每一种gram(s)就是一个特征向量维度。上述N-gram模型可以进行文本的相似度比较，模糊查询，对待处理文本句子的合理性判断以及句子矫正等。

举例来说，第二文本序列可以是““小熊”“家电”“双十一”“热卖””，从该序列中通过N-gram模型提取得到的候选词集合可以是2-grams形式的“小熊家电”和“小熊榨汁机”，其中“小熊榨汁机”是根据所述N-gram模型根据语义分析和合理性判断学习到的2-grams。

在一个实施例中，请参见图2b中步骤⑥-⑦，对所述候选词集合中的候选词进行关键词分类，得到所述关键词集合。具体的，得到候选的N-gram(s)列表后，将所述候选词对应的深层语义向量进行分类处理，在本实施例中，可采用Softmax函数候选词对应的深层语义向量进行降维处理，也就是对该向量对进行概率运算，将所述候选词的对应的深层语义特征向量中的每个实数映射为0-1之间的实数，并且输出的候选词对应的向量中所有的实数之和为1，这些实数表示相应种类的概率大小，得出的概率预测向量P＝{p1,p2,......,pn}，其中，pn表示该候选词在第n类的概率。在优选的实施例中，可以将候选词对应的深层语义向量进行降维处理，得到该候选词的二维概率向量P＝{p1,p2}，其中，当p1>p2时或者p1>0.5时，判定该向量P所对应的候选词为关键词。

举例来说，第二文本序列可以是““小熊”“家电”“双十一”“热卖””，提取的1-gram候选词为“小熊”、“家电”、“双十一”、“热卖”，其对应的二维特征向量为{0.8,0.2}、{0.9,0.1}、{0.7,0.3}、{0.2，0.8}，其中将p1>p2的候选词“小熊”、“家电”、“双十一”列为关键词，“热卖”中p1<p2，即“热卖”不作为关键词，具体的2-grams、3-grams的判断方法与前述一致，在此不做累述。

S204、在第一关键词不位于所述词典数据库时，终端设备将所述第一关键词添加至词典数据库中存储，所述第一关键词为关键词集合中的任一个关键词；其中，当得到关键词集合后，判断该关键词集合中的任一个第一关键词，判断所述第一关键词是否在该词典数据库中，若不在，将该第一关键词添加到该词典数据库中，并更新所述词典数据库。

S205、当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果。

可选的，终端设备在检索到局部检索词时，还可以包括以下步骤：获取局部检索词；从所述更新后的词典数据库中匹配出与所述局部检索词相关联的目标文本；将所述目标文本作为与所述局部检索词匹配的检索结果。具体的，当检索到局部检索词时，将该局部检索词与词典数据库中的文本内容进行匹配，其中，匹配方式可以包括将局部检索词与词典数据库中的文本内容进行相似度计算，经过计算得到词典数据库中与所述局部检索词相似度满足相似度阈值的目标文本，该目标文本包括词典数据库中已有的任意一个或多个关键词，也可以包括词典数据库中已有的一个或多个短文本或句子，也可以是关键词、短文本、句子中一个或者多个的组合。

在实际应用中，更新后的词典数据库往往会被应用在各个场景中，包括但不限于：信息检索系统、推荐系统(例如电商推荐系统等)、广告系统、对话系统等。举例来说，在信息检索系统中，请参见图2c，图2c为本发明实施例提供的一种关键词搜索的界面图，获取到所述检索词为“王者”，词典数据库中与“王者”的匹配度满足阈值的第二关键词有“王者荣耀”“王者天下”“王者天下621”等，即输出上述匹配度满足阈值的第二关键词，其输出的先后顺序可以是按照匹配度的大小关系或者按照第二关键词的检索频率大小进行排序。

本发明所描述的实施例中，通过调取BertCNN关键词预测模型，其中通过BERT对获取的待处理文本进行关键词进行分词处理并编码，通过BERT模型能够根据待处理文本的上下文进行语义分析，得到第二分词序列的词向量，所述第二分词的词向量不仅体现了每个单词或者词汇的特征，还体现了单词与单词之间，词语与词语之间，句子与句子之间的联系。然后调用CNN卷积神经网络模型进行关键词预测，得到关键词集合，其中，所述关键词预测模型可基于词典数据库进行关键词的主动学习，增大关键词的获取范围，同时基于BertCNN所提取的关键词边界更加准确，所提取的关键词质量更高。进一步的还可以将未出现在所述词典数据库中的关键词进行实时更新，有效弥补了词典数据库覆盖不够全面的问题。

再请参见图3a，图3a是本发明实施例提供了一种数据处理方法的流程图。本发明实施例的所述方法可以由智能终端或者服务器来执行，智能终端例如可以是智能手机、平板电脑、智能可穿戴设备、车载系统、电视等终端。

S301、终端设备获取待处理文本，所述待处理文本包括至少一个第一分词；该步骤可参见图3b步骤a，图3b为本发明实施例提供的一种分词编码模型结构示意图，具体内容可对应参照步骤S101。

S302、终端设备调用所述分词编码网络，基于第一粒度对所述待处理文本中的至少一个第一分词进行词根提取，得到每个所述第一分词包括的至少一个词根，并记录每个所述第一分词的分词顺序；

在本实施例中，请参见图3b步骤b，通过BertWord对待处理文本进行分词处理和编码处理。具体的，将所述待处理文本按照第一粒度进行分词处理，得到第一分词序列并记录切分顺序，其中，第一粒度是指将待处理文本按照词根粒度进行文本片段切分。一般来说，在中文中，每个字为一个词根，即在当识别到待处理文本中含有中文文本信息，将所述中文文本信息按照字界别进行划分，如将“小熊家电”切分得到“小”、“熊”、“家”、“电”四个字按照切分顺序组成的第一分词序列等；在英文中，此处所说的词根是指将英文文本切分为词缀形式或者亚词形式，比如“Tencent”被切分为“te”、“##nce”、“##nt”三个亚词。

S303、终端设备按照每个所述第一分词的分词顺序，基于第二粒度对每个所述第一分词包括的至少一个词根进行编码和重组，得到至少一个第二分词。

在一个实施例中，首先需要对每个所述第一分词包括的至少一个词根进行编码，得到每个词根对应的词根向量。基于第二粒度获取n个词根的词根向量。第二粒度是指将至少一个第一分词进行重组的粒度，第二粒度在中文中可以表示为一个词或者多个词的组合形式，在英文中可以是一个单词或者多个单词组合形式。其中，重组方法可以是BERT可以是根据词典数据库对至少一个第一分词进行语义识别，其中，进行识别的顺序应当是按照第一分词序列进行依次滑动进行识别。将识别到所述至少一个第一分词进行组合后的词语或者单词与词典数据库中的文本信息进行比较，当所组合的单词或者词语的组合概率满足预设阈值时，判定所组成的单词或者词语边界清晰，确定将该至少一个第一分词进行重组得到第二分词。所述重组方法还可以是，按照第一分词序列进行依次滑动进行识别，然后通过遍历的方式词典数据库的方式，当识别到至少一个第一分词进行组合后的单词或者词组在所述词典数据库中的关键词库中已存在时，自动判定所组成的单词或者词语边界清晰，将该至少一个第一分词进行重组得到第二分词。

举例来说，所述第一分词序列为“小”“熊”“家”“电”“双”“十”“一”“热”“卖”，BERT模型按照第一分词序列提取到“小熊”、“熊家”、“家电”、“电双”、“熊家电”、“双十一”等词语，然后根据词典数据库进行语义分析后，认为“小熊”“家电”、“双十一”在词典数据库中出现概率满足预设阈值，可以被组合为第二分词，然而“熊家”、“熊家电”未满足预设阈值，不进行重组。

在一个实施例中，进一步的，需要按照一定计算规则对所确定重组的至少一个分词进行计算得到第二分词。请参见图3b步骤c-d，当识别到需要进行组合的至少一个第一分词时，查找将待处理文本基于第一粒度进行切分时的切分顺序，比如“Tencentdvertising腾讯广告”切分为“te，##nce，##nt，ad，##ver，##tis，##ing，腾，讯，广，告”的第一分词序列，欲将其进行重组得到“Tencent，advertising，腾讯，广告”的第二分词序列，识别到“Tencent”被分为3个亚词级别的第一分词，“腾讯”被分为2个字级别的第一分词，以此类推，得到其切分顺序为“3，4，2，2”。获取第一分词序列中每个第一分词对应的词向量，然后按照切分顺序将第一分词序列中前3个第一分词的词向量按照预设的重组规则进行重组计算，得到“Tencent”的词向量；其中，按照一定计算规则对向量进行重组可以是将n个第一分词对应的词向量矩阵做平均处理，还可以是将n个第一分词对应的词向量矩阵进行相加或者相减，还可以是将至少一个n个第一分词对应的词向量矩阵进行矩阵计算后，取其中最大或者最小的词向量矩阵作为第二分词的词向量。其中，优选为对n个词根的词根向量进行求平均处理，该种计算方式在实际应用中的处理效果最好。

S304、终端设备根据所述词典数据库，对所述至少一个第二分词进行深层语义学习，得到候选词集合，所述候选词集合中包括至少一个候选词；

S305、终端设备对所述候选词集合中的候选词进行关键词分类，得到所述关键词集合。

S306、终端设备在第一关键词不位于所述词典数据库时，将所述第一关键词添加至词典数据库中存储，所述第一关键词为关键词集合中的任一个关键词；可选的，当得到关键词集合后，判断该关键词集合中的任一个第一关键词，判断所述第一关键词是否在该词典数据库中，若不在，将该第一关键词添加到该词典数据库中，并更新所述词典数据库。

S307、当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果。

可选的，终端设备在检索到局部检索词时，还可以包括以下步骤：获取局部检索词；从所述更新后的词典数据库中匹配出与所述局部检索词相关联的目标文本；将所述目标文本作为与所述局部检索词匹配的检索结果。

需要说明的是，上述步骤S304-S307可参见图2b，具体实施方式可对应参照步骤S203-S205中的相关介绍，此处不再赘述。

本发明所描述的实施例中，通过调取BertCNN关键词预测模型，其中通过WordBert对获取的待处理文本进行关键词进行分词处理并编码。其中WordBert能够根据待处理文本的上下文进行语义分析，将已经按照第一粒度进行切分处理的第一分词进行重组并编码，得到第二分词序列的词向量，所述第二分词的词向量不仅体现了每个单词或者词汇的特征，还体现了单词与单词之间，词语与词语之间，句子与句子之间的联系。进而避免因切分粒度过细而引起的关键词提取的边界不清楚的弊端，提高关键词的提取质量。同时然后调用CNN卷积神经网络模型进行关键词预测，得到关键词集合，其中，所述关键词预测模型可基于词典数据库进行关键词的主动学习，增大关键词的获取范围。同时基于BertCNN所提取的关键词边界更加准确，所提取的关键词质量更高。进一步的还可以将未出现在所述词典数据库中的关键词进行实时更新，有效弥补了词典数据库覆盖不够全面的问题，扩大了词典数据库范围。

再请参见图4，图4是本发明实施例提供一种数据处理装置的结构示意图。

获取模块401，用于获取待处理文本，所述待处理文本包括至少一个第一分词；

处理模块402，用于调用关键词预测模型，对所述待处理文本中的第一分词进行编码及关键词预测和词典数据库得到所述待处理文本对应的关键词集合；所述关键词集合中的关键词为所述至少一个第一分词中的分词，和/或根据所述词典数据库学习得到的。

更新模块403，用于利用所述关键词集合对所述词典数据库进行更新，得到更新后的词典数据库；

匹配模块404，用于当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果。

在一个实施例中，若所述关键词预测模型包括分词编码网络和卷积神经网络，当调用关键词预测模型，对所述待处理文本中的第一分词进行编码及关键词预测，得到所述待处理文本对应的关键词集合时，所述处理模块402还用于调用所述分词编码网络，基于目标粒度对所述待处理文本中的至少一个第一分词进行编码，得到至少一个第二分词，所述第二分词为对所述至少一个第一分词中的任一个或多个第一分词重组得到的；调用所述卷积神经网络，对所述至少一个第二分词进行学习和关键词预测，得到所述待处理文本对应的关键词集合。

在一个实施例中，所述处理模块402具体用于基于第一粒度对所述待处理文本中的至少一个第一分词进行词根提取，得到每个所述第一分词包括的至少一个词根，并记录每个所述第一分词的分词顺序；按照每个所述第一分词的分词顺序，基于第二粒度对每个所述第一分词包括的至少一个词根进行编码和重组，得到至少一个第二分词。

在一个实施例中，所述处理模块402具体用于对每个所述第一分词包括的至少一个词根进行编码，得到每个词根对应的词根向量；基于第二粒度获取n个词根的词根向量；对所述n个词根的词根向量进行求平均，得到第二分词对应的分词向量，所述第二分词为对n个词根进行重组得到。

在一个实施例中，所述处理模块402还用于根据所述词典数据库，对所述至少一个第二分词进行深层语义学习，得到候选词集合，所述候选词集合中包括至少一个候选词对所述候选词集合中的候选词进行关键词分类，得到所述关键词集合。

在一个实施例中，所述更新模块403具体用于在第一关键词不位于所述词典数据库时，将所述第一关键词添加至词典数据库中存储，所述第一关键词为关键词集合中的任一个关键词。

在一个实施例中，所述匹配模块404具体用于获取局部检索词；从所述更新后的词典数据库中匹配出与所述局部检索词相关联的目标文本；将所述目标文本作为与所述局部检索词匹配的检索结果。

可以理解的是，本发明实施例中各个功能模块的具体实现可参考前述方法项实施例的相关描述，在此不赘述。

本发明所描述的实施例中，通过调取关键词预测模型对获取的待处理文本进行关键词的分词编码和预测，得到关键词集合，其中，所述关键词集合中的关键词为待处理文本中的分词，和/或根据词典数据库学习得到的分词。进一步通过关键词集合对词典数据库进行更新，当检测到局部检索词时，利用更新后的词典数据库确定出与该局部检索词匹配的检索结果。基于上述方式，能够根据词典数据库进行关键词的主动学习，提高关键词的提取质量，并实时更新实时词典数据库，扩大了词典数据库范围。

基于上述方法实施例以及装置实施例的描述，再请参见图5，图5为本发明实施例提供的一种终端设备的结构示意图。该终端设备50至少包括处理器501、输入设备502、输出设备503以及计算机存储介质504。其中，终端设备内的处理器501、输入设备502、输出设备503以及计算机存储介质504可通过总线或其他方式连接。

计算机存储介质504可以存储在终端设备的存储器中，所述计算机存储介质504用于存储计算机程序，所述计算机程序包括程序指令，所述处理器501用于执行所述计算机存储介质504存储的程序指令。处理器501(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能。

本发明实施例还提供了一种计算机可读存储介质(Memory)，所述计算机存储介质是终端设备的记忆终端设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端设备的操作系统。并且，在该存储空间中还存放了适于被处理器501加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

处理器501被配置用于调用所述程序指令，用于执行如图1、图2a、图3a所示的数据处理方法。该处理器501可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，硬件芯片或者其任意组合，上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)等。上述PLD可以是现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)等。

在一个实施例中，可由处理器501加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关场景切换实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器501加载并执行如下步骤：

获取待处理文本，所述待处理文本包括至少一个第一分词；

调用关键词预测模型和词典数据库对所述待处理文本中的第一分词进行编码及关键词预测，得到所述待处理文本对应的关键词集合，所述关键词集合中的关键词为所述至少一个第一分词中的分词，和/或根据词典数据库学习得到的；利用所述关键词集合对所述词典数据库进行更新，得到更新后的词典数据库；当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果。

在一个实施例中，所述处理器501具体用于执行调用所述分词编码网络，基于目标粒度对所述待处理文本中的至少一个第一分词进行编码，得到至少一个第二分词，所述第二分词为对所述至少一个第一分词中的任一个或多个第一分词重组得到的；调用所述卷积神经网络，对所述至少一个第二分词进行学习和关键词预测，得到所述待处理文本对应的关键词集合。

在一个实施例中，所述处理器501具体用于执行基于第一粒度对所述待处理文本中的至少一个第一分词进行词根提取，得到每个所述第一分词包括的至少一个词根，并记录每个所述第一分词的分词顺序；按照每个所述第一分词的分词顺序，基于第二粒度对每个所述第一分词包括的至少一个词根进行编码和重组，得到至少一个第二分词。

在一个实施例中，所述处理器501具体用于执行对每个所述第一分词包括的至少一个词根进行编码，得到每个词根对应的词根向量；基于第二粒度获取n个词根的词根向量；对所述n个词根的词根向量进行求平均，得到第二分词对应的分词向量，所述第二分词为对n个词根进行重组得到。

在一个实施例中，所述处理器501具体用于执行根据所述词典数据库，对所述至少一个第二分词进行深层语义学习，得到候选词集合，所述候选词集合中包括至少一个候选词；对所述候选词集合中的候选词进行关键词分类，得到所述关键词集合。

在一个实施例中，所述处理器501具体用于执行在第一关键词不位于所述词典数据库时，将所述第一关键词添加至词典数据库中存储，所述第一关键词为关键词集合中的任一个关键词。

在一个实施例中，所述处理器501具体用于执行获取局部检索词；从所述更新后的词典数据库中匹配出与所述局部检索词相关联的目标文本；将所述目标文本作为与所述局部检索词匹配的检索结果。

可以理解的是，本发明实施例中所述的处理器501的具体实现可参考前述方法项实施例的相关描述，在此不赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理文本，所述待处理文本包括至少一个第一分词；

调用关键词预测模型和词典数据库对所述待处理文本中的第一分词进行编码及关键词预测，得到所述待处理文本对应的关键词集合，所述关键词集合中的关键词为所述至少一个第一分词中的分词，和/或根据所述词典数据库学习得到的；

利用所述关键词集合对所述词典数据库进行更新，得到更新后的词典数据库；

当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果。

2.根据权利要求1所述的方法，其特征在于，所述关键词预测模型包括分词编码网络和卷积神经网络，所述调用关键词预测模型和词典数据库对所述待处理文本中的第一分词进行编码及关键词预测，得到所述待处理文本对应的关键词集合包括：

调用所述分词编码网络，基于目标粒度对所述待处理文本中的至少一个第一分词进行编码，得到至少一个第二分词，所述第二分词为对所述至少一个第一分词中的任一个或多个第一分词重组得到的；

调用所述卷积神经网络，对所述至少一个第二分词进行学习和关键词预测，得到所述待处理文本对应的关键词集合。

3.根据权利要求2所述的方法，其特征在于，所述基于目标粒度对所述待处理文本中的至少一个第一分词进行编码，得到至少一个第二分词包括：

基于第一粒度对所述待处理文本中的至少一个第一分词进行词根提取，得到每个所述第一分词包括的至少一个词根，并记录每个所述第一分词的分词顺序；

按照每个所述第一分词的分词顺序，基于第二粒度对每个所述第一分词包括的至少一个词根进行编码和重组，得到至少一个第二分词。

4.根据权利要求3所述的方法，其特征在于，所述基于第二粒度按照每个所述第一分词的分词顺序，对每个所述第一分词包括的至少一个词根进行编码和重组，得到至少一个第二分词包括：

对每个所述第一分词包括的至少一个词根进行编码，得到每个词根对应的词根向量；

基于第二粒度获取n个词根的词根向量；

对所述n个词根的词根向量进行求平均，得到第二分词对应的分词向量，所述第二分词为对n个词根进行重组得到。

5.根据权利要求4所述的方法，其特征在于，所述对所述至少一个第二分词进行学习和关键词预测，得到所述待处理文本对应的关键词集合包括：

根据所述词典数据库，对所述至少一个第二分词进行深层语义学习，得到候选词集合，所述候选词集合中包括至少一个候选词；

对所述候选词集合中的候选词进行关键词分类，得到所述关键词集合。

6.根据权利要求1-5所述的方法，其特征在于，所述利用所述关键词集合对所述词典数据库进行更新，得到更新后的词典数据库，包括：

在第一关键词不位于所述词典数据库时，将所述第一关键词添加至词典数据库中存储，所述第一关键词为关键词集合中的任一个关键词。

7.根据权利要求1所述的方法，其特征在于，所述当检测到局部检索词时，利用所述更新后的词典数据库确定出与所述局部检索词匹配的检索结果，包括：

获取局部检索词；

从所述更新后的词典数据库中匹配出与所述局部检索词相关联的目标文本；

将所述目标文本作为与所述局部检索词匹配的检索结果。

8.一种数据处理装置，其特征在于，包括：

处理模块，用于调用关键词预测模型和词典数据库对所述待处理文本中的第一分词进行编码及关键词预测，得到所述待处理文本对应的关键词集合，所述关键词集合中的关键词为所述至少一个第一分词中的分词，和/或根据所述词典数据库学习得到的；

9.一种计算机设备，其特征在于，所述计算机设备包括：

存储器，所述存储器包括计算机可读指令；

与所述存储器相连的处理器，所述处理器用于执行所述计算机可读指令，从而使得所述设备执行权利要求1～7任一项所述的数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1～7中任意一项所述的数据处理方法。