CN110309504B

CN110309504B - 基于分词的文本处理方法、装置、设备及存储介质

Info

Publication number: CN110309504B
Application number: CN201910433622.6A
Authority: CN
Inventors: 郑立颖; 徐亮; 阮晓雯
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2023-10-31
Anticipated expiration: 2039-05-23
Also published as: CN110309504A

Abstract

本发明公开了一种基于分词的文本处理方法、装置、设备及存储介质，其中，该基于分词的文本处理方法包括：获取原始文本，采用分词工具的搜索引擎分词模式对原始文本进行文本分词，获取文本分词结果，文本分词结果包括至少n个一级分词；若任意连续k个一级分词中连续k‑1个一级分词的叠加等于第k个一级分词，且连续k‑1个一级分词中存在至少两个二级分词的结合等于第k个一级分词，则仅保留至少两个二级分词，获取分词优化结果。该方法可删除重复语义或无实际意义的分词，提高分词工具的分词准确性，简化分词结果，利于后续基于正确的分词结果继续对原始文本进行语义分析。

Description

基于分词的文本处理方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于分词的文本处理方法、装置、设备及存储介质。

背景技术

文本相似度对比可以应用于多个场景，如文书评审、智能对话等，在上述场景中都涉及将两个句子或者段落进行文本相似度对比，即将文本内容与标准内容进行对比。一般文本相似度对比方法都基于词向量，而分词是否准确也是影响最终词向量准确性的重要因素。

结巴分词是常用的分词工具，而结巴分词在搜索引擎模式下可能出现分词不准确的结果。其中，搜索引擎模式是指对分词得到的长词再次切分，并将长分词切分后的短分词放在长分词之前，比如：“您的职业规划是什么”。采用结巴分词的搜索引擎模式对该句进行分词后得到的结果为“您”，“的”，“职业”，“规划”，“职业规划”，“是”和“什么”。通过上述分词结果可看出，搜索引擎模式下进行分词造成“职业”和“规划”与“规划”之后的“职业规划”构成语义重复的三个一级分词，从而造成结巴分词结果不准确。如何提高结巴分词的分词准确性成为亟待解决的问题。

发明内容

本发明实施例提供一种基于分词的文本处理方法、装置、设备及存储介质，以解决提高结巴分词的分词准确性问题。

一种基于分词的文本处理方法，包括：

获取原始文本，采用分词工具的搜索引擎分词模式对原始文本进行文本分词，获取文本分词结果，文本分词结果包括至少n个一级分词；

若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词，且连续k-1个一级分词中存在至少两个二级分词的结合等于第k个一级分词，则仅保留至少两个二级分词，获取分词优化结果。

一种基于分词的文本处理装置，包括：

获取原始文本模块，用于获取原始文本，采用分词工具的搜索引擎分词模式对原始文本进行文本分词，获取文本分词结果，文本分词结果包括至少n个一级分词；

获取优化结果模块，用于若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词，且连续k-1个一级分词中存在至少两个二级分词的结合等于第k个一级分词，则仅保留至少两个二级分词，获取分词优化结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于分词的文本处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于分词的文本处理方法。

上述基于分词的文本处理方法、装置、设备及存储介质，通过分词工具的搜索引擎模式将原始文本进行分词后的结果进行再分析，当任意连续k个一级分词中连续k-1个一级分词的叠加等于所述第k个一级分词，且连续k-1个一级分词中存在至少两个二级分词的结合等于第k个一级分词时，仅仅保留至少两个二级分词，删除重复语义或无实际意义的分词，可提高分词工具的分词准确性，简化分词结果，利于后续基于正确的分词结果继续对原始文本进行语义分析。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于分词的文本处理方法的应用环境示意图；

图2是本发明一实施例中基于分词的文本处理方法的流程图；

图3是本发明一实施例中基于分词的文本处理方法的另一流程图；

图4是本发明一实施例中基于分词的文本处理方法的另一流程图；

图5是本发明一实施例中获取目标意图的实现过程示意图；

图6是本发明一实施例中基于分词的文本处理装置的示意图；

图7是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于分词的文本处理方法，可应用在如图1的应用环境中，该基于分词的文本处理方法应用在基于分词的文本处理系统中，该基于分词的文本处理系统包括客户端和服务器，其中，客户端通过网络与服务器进行通信。客户端又称为用户端，是指与服务器相对应，为客户端提供本地服务的程序。该客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等计算机设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于分词的文本处理方法，以该方法应用在图1中的服务器为例进行说明，具体包括如下步骤：

S10.获取原始文本，采用分词工具的搜索引擎分词模式对原始文本进行文本分词，获取文本分词结果，文本分词结果包括至少n个一级分词。

其中，原始文本是用于进行文本对比或智能对话等的原始待进行中文分词的文本。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词方法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

于本实施例中，分词工具为现有市面常用语于对原始文本进行分词的开源工具-结巴分词。结巴中文分词支持的三种分词模式包括：

(1)精确模式：试图将句子最精确地切开，适合文本分析；

(2)全模式：把句子中所有的可以成词的词语都扫描出来, 分词速度快，但是不能解决歧义问题；

(3)搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。本实施例就是基于该搜索引擎分词模式进行改进的。

文本分词结果是采用分词工具的搜索引擎分词模式对原始文本进行文本分词后得到的结果，该结果应包括长词和对长词进行再切分的若干分词。并且，由结巴分词设定的显示规则可知，对长词进行再切分的若干分词放置在对应的长词之前。

一级分词是将原始文本进行文本分词后得到的每组最小单位的词语。

具体地，本实施例中，服务器通过分词工具中的搜索引擎模式可将原始文本分割为多个分词，举例如下：

原始文本：您的职业规划是什么。

分词结果（包括七个一级分词）：

1./您/,2./的/,3./职业/,4./规划/,5./职业规划/,6./是/,7./什么/。（为了便于说明，本实施例中所有分词结果中每一个一级分词或二级分词均以符号“//”作为划分标识。）

上述分词结果可知，由搜索引擎分词模式得到的分词结果中：连续三个一级分词（从第三个一级分词到第五个一级分词）中的第三个一级分词/职业/和第四个一级分词/规划/结合后与第五个一级分词/职业规划/意义重复，也即为本实施例即将解决的技术问题。其中，上述举例中一级分词的“结合”是指将相邻两个一级分词直接进行合并，不去除重复汉字的分词合并形式。比如，两个一级分词分别为/管理/和/工作/，将前述两个一级分词进行合并后可得/管理工作/。

步骤S10中，服务器可采用分词工具的搜索引擎分词模式将原始文本切分为至少n个一级分词，用以后续服务器基于该n个一级分词的结合或叠加进行分析，准备数据基础。

S20.若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词，且连续k-1个一级分词中存在至少两个二级分词的结合等于第k个一级分词，则仅保留至少两个二级分词，获取分词优化结果。

于本实施例中，k<=n。其中，n是步骤S10中得到的一级分词的总个数，本步骤中，k是在n个一级分词中，符合任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词，且连续k-1个一级分词中存在至少两个二级分词的结合等于第k个一级分词的情形的一级分词的分词个数。

“叠加”是指相邻的两个一级分词中，前一个一级分词的尾部的至少一个汉字，和后一个一级分词前端的至少一个汉字重合，也即两个相邻的两个一级分词可以依据重合的汉字进行拼接，仅保留一个重叠的字或词形成拼接词的过程，举例如下：

连续三个一级分词分别为：/管理/,/理工/,/工作/，其中，/管理/和/理工/两个一级分词中重叠的汉字为/理/，/理工/和/工作/重叠的汉字为/工/。

将前述三个一级分词/管理/,/理工/和/工作/进行叠加后可形成新的拼接词：/管理工作/。

本实施例中“结合”是指将相邻两个一级分词直接进行合并，不去除重复汉字的分词合并形式。比如，两个一级分词分别为/管理/和/工作/，将前述两个一级分词进行合并后可得/管理工作/这一合成词。

二级分词是将作为长词的一级分词进行继续分词后得到的词语，并且将每一个二级分词按序放置在该一级分词之前。

具体地，服务器可将步骤S10得到的按序排列的文本分词结果中的每一一级分词进行分析。举例说明分析过程：

原始文本：您是如何开展管理工作的。

分词结果：1./您/,2./是/,3./如何/,4./开展/,5./管理/,6./理工/,7./工作/,8./管理工作/,9./的/。

上述文本分词结果包括九个（n=9）一级分词，其中，由连续排列的第五个一级分词至第七个一级分词经叠加后得到的拼接词为/管理工作/，与第七个一级分词紧跟的第八个一级分词(第五个一级分词至第八个一级分词共包括四个一级分词，也即k=4。)/管理工作/相同，即可判定此时出现重复意义的第八个一级分词，或者说第五个一级分词至第七个一级分词是将第八个一级分词进行再分词得到的三个二级分词。

并且，将第五个二级分词/管理/和第七个二级分词/工作/直接结合后可得到第八个一级分词，此时，可判定第六个二级分词/理工/为多余的二级分词。

基于避免分词语义重复的原则，应将第六个二级分词/理工/和第八个一级分词/管理工作/同时删除，并保留第五个二级分词/管理/和第七个二级分词/工作/。

此时，原始文本对应的分词优化结果为：

1./您/,2./是/,3./如何/,4./开展/,5./管理/,6./工作,7./的/。

服务器将初步分词结果中的九个一级分词删除两个多余的一级分词后，形成新的优化分词结果，形成包括七个一级分词的分词优化结果。

步骤S20中，服务器通过分析连续排列的k-1个一级分词中每两个一级分词之间的叠加或结合关系与紧跟的第k个长词的关系，可获取多余一级分词，将多余一级分词和长词删除，避免出现语义重复的一级分词，简单快捷。

步骤S10至S20中，服务器采用分词工具的搜索引擎分词模式将原始文本进行分词后，对连续的一级分词进行分析，判定是否存在由连续一级分词的结合或叠加可构成连续的一级分词后紧跟的长词，并依据连续的一级分词不同的结合或叠加情况对一级分词或最后的长词进行处理，可获得更为精准的分词结果，减少重复词或无用词。

优选地，在步骤10之后，即在获取文本分词结果之后，基于分词的文本处理方法还具体包括如下步骤：

S110.若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词，且任意连续k个一级分词中不存在至少两个二级分词的结合等于第k个一级分词，则保留第k个一级分词并删除前k-1个一级分词，获取分词优化结果。

具体地，举例说明本实施例：

原始文本：/仅限于有行业经验的候选人/。

分词结果：1./仅/,2./针对/,3./同业/,4./经验/,5./候选/,6./选人/,7./候选人/。

分析过程：n=7（分词结果得到的总的一级分词个数。）；

k=3（k个一级分词包括：/候选/,/选人/和/候选人/三个连续的一级分词，其中，/候选/和/选人/放置在/候选人/前面，作为一级分词/候选人/对应的两个二级分词。）。

本实施例中，第五个二级分词/候选/和第六个二级分词/选人/，两个连续二级分词进行叠加和结合后分别得到的结果为：

叠加结果：/候选/叠加/选人/等于/候选人/；

结合结果：/候选/结合/选人/等于/候选选人/，且/候选选人/不等于第七个连续的一级分词/候选人/。

此时，为了避免语义出现重复，服务器应保留第七个一级分词/候选人/，同时删除第五个二级分词/候选/和第六个二级分词/选人/这两个二级分词。

步骤S110中，服务器采用分词工具的搜索引擎分词模式将原始文本进行分词后，对连续的一级分词进行分析，判定是否存在由连续一级分词的结合或叠加可构成连续的一级分词后紧跟的长词，并依据连续的一级分词不同的结合或叠加情况对一级分词或最后的长词进行处理，可获得更为精准的分词结果，减少重复词或无用词。

优选地，在步骤S10之后，即在获取文本分词结果之后，基于分词的文本处理方法还具体包括如下步骤：

S120.若任意连续k个一级分词中连续k-1个一级分词的结合等于第k个一级分词，则保留前k-1个一级分词并删除第k个一级分词，获取分词优化结果。

其中，结合是指将相邻两个一级分词直接进行合并，不去除重复汉字的分词合并形式。比如，两个一级分词分别为/管理/和/工作/，将前述两个一级分词进行合并后可得/管理工作/，又比如，/候选/和/选人/的结合等于/候选选人/，而不去除重复的汉字/选/。

具体地，举例说明本实施例：

原始文本：您的职业规划是什么。

分词结果：1./您/,2./的/,3./职业/,4./规划/,5./职业规划/,6./是/,7./什么/。

分析过程：n=7（将原始文本进行分词后得到的一级分词总数）,

k=3（k等于第三个一级分词/职业/至第五个一级分词/职业规划/这三个连续一级分词的数量）。

其中，第三个一级分词/职业/和第四个一级分词/规划/的结合等于/职业规划/，而第五个连续的一级分词为/职业规划/，也即三个连续的一级分词中，前两个连续的一级分词的结合等于第三个一级分词，此时应保留连续的前两个一级分词并删除第三个一级分词/职业规划/。

步骤S120中，服务器采用分词工具的搜索引擎分词模式将原始文本进行分词后，对连续的一级分词进行分析，判定是否存在由连续一级分词的结合可构成连续的一级分词后紧跟的长词，并依据连续的一级分词的结合情况对每一个一级分词或最后的长词进行处理，可获得更为精准的分词结果，减少重复词或无用词。

进一步地，如图3所示，在步骤20之后，即在获取分词优化结果之后，基于分词的文本处理方法还具体包括如下步骤：

S211.获取原始文本对应的标准文本，采用文本对比工具对比标准文本和分词优化结果，获取文本相似度。

其中，标准文本是用以与原始文本进行对比的文本，用以对比原始文本和标准文本的文本相似度。具体地，分词的应用场景之一就是做文本对比，获取原始文本和标准文本的文本相似度。在诸如对话系统(Dialog system)和信息检索(Information retrieval)等问题中，如何度量句子或者短语之间的文本相似度尤为重要。

具体地，本实施例可采用N-Gram模型对比原始文本和标准文本的文本相似度。基于N-Gram模型定义文本相似度是一种模糊匹配方式，通过两个相似的文本（原始文本和标准文本）间的“差异”来衡量相似度。

N-Gram模型的文本相似度的计算是指按长度N切分原句得到词段，也就是获取原句中所有长度为N的子字符串。对于原始文本S和标准文本T，则可以从共有子串的数量上去定义上述两个句子的文本相似度。

Similarity=|G_N(S)|+|G_N(T)|−2∗|G_N(S)∩G_N(T)|

其中，G_N(S)和G_N(T)分别表示原始文本S和标准文本T中N-Gram的集合，N一般取2或3。两个句子中的字符串距离越近，它们就越相似，当两个句子中的字符串完全相等时，距离为0，文本相似度为100%。

以下举例进行说明：

标准文本：“您对职业有什么规划？”

原始文本：”您的职业规划是什么？”

服务器可将原始文本依据本实施例提出的文本处理方法将原始文本进行分词优化后得到的分词优化结果与标准文本采用N-Gram模型进行对比，获取文本对比相似度，以此来判定原始文本和标准文本是否为相同文本。经N-Gram模型计算后得到两个句子的文本相似度为0.7。

步骤S211中，服务器采用N-Gram模型可获取标准文本和分词优化结果的文本相似度，用以后续判定标准文本和分词优化结果是否为相同文本准备数据基础。

S212.若文本相似度超过相似度阈值，则原始文本和标准文本为相同文本。

其中，相似度阈值是判定标准文本和分词优化结果是否为相同文本的最低相似度百分比。举例说明，于本实施例，可将相似度阈值设定为65%，也即当标准文本和分词优化结果的文本相似度达到65%时，可判定标准文本和分词优化结果为相同文本。

步骤S212中，服务器通过设定相似度阈值即可判定原始文本和标准文本为相同文本，简单快捷。

步骤S211至S212中，服务器采用N-Gram模型可获取标准文本和分词优化结果的文本相似度，用以后续判定标准文本和分词优化结果是否为相同文本准备数据基础。服务器通过设定相似度阈值即可判定原始文本和标准文本为相同文本，简单快捷。

进一步地，如图4所示，在步骤20之后，即在输出分词优化结果之后，基于分词的文本处理方法还具体包括如下步骤：

S221.采用意图识别模型对分词优化结果进行识别，获取原始文本对应的目标意图，目标意图包括至少一个目标参数和参数优先级顺序。

具体地，本实施例还可应用于智能对话场景中，服务器将用户通过客户端在当前轮次输入的原始文本进行分词优化后得到分词优化结果，基于分词优化结果对用户输入的原始文本进行意图分析，得到当前轮次对话中服务器应回复给客户端的文本信息。

其中，目标意图是用户在当前轮次输入的原始文本中表达的目的，可分为“显式意图”和“隐式意图”，它们两者间的差异十分明显：

（一）显式意图：

所谓显式意图，也就是在用户的话语中明确出现了表达意图的一类词汇，比如：“希望”、“想要”、“需要”等等。对于服务器来说这种显示意图的判断难度较低，只需要识别出这些固定的意图词汇，再与句子中的其他成分作联系即可。比如用户输入“我想预定到北京的机票”，服务器可以识别出意图词汇“想”，从而得到该句的目标参数为我预定机票，机票行程包括从当前位置到北京。其中，目标参数是将分词优化结果转换为对应的分词优化结果后，从该分词优化结果中提取的含有实际意义的动词和名词（去停用词），以最简洁的方式表达的用户目的。

停用词主要包括英文字符、数字、数学字符、标点符号及使用频率高的功能词等。比如，分词优化结果为“今天天气真不错啊”，从该分词优化结果中提取的目标参数包括：今天、天气和不错（去除停用词“真”和“啊”）。

（二）隐式意图：

隐式意图与显式意图相反，用户的话语没有出现直接反映意图的词汇，需要服务器根据分词优化结果来判断用户意图。对于服务器来说隐式意图比较难以判断，目前用得比较多的一种方法是先把隐式意图转化成显式意图再处理。比如用户在表达“我饿了”这种隐式意图时，先转化成对应的“我想吃东西”这种显式意图形式，然后再让服务器按照显式意图进行处理。

意图识别模型是预设于服务器的，用以将输入该模型的分词优化结果进行分析，获取分析结果也即目标意图。于本实施例，服务器可采用LSTM（Long Short-Term Memory，长短期记忆网络）模型和softmax分类器的组合作为意图识别模型。

服务器可将智能聊天场景设定多级目标意图，比如一级目标意图包括聊天和提问；一级目标意图又可继续划分多个二级目标意图，对于一级目标意图中的聊天意图可继续划分为生活、工作和休闲；基于二级目标意图，可继续划分为三级目标意图，根据智能聊天场景需要继续细化等。

具体地，如图5所示，服务器通过分词优化结果获取目标意图的实现过程如下：

1.将分词优化结果进行预处理，包括去除语料的标点符号，去除停用词（无实际含义的词）等。

2.将预处理后的分词优化结果，采用word2vec工具生成词向量。

其中，word2vec工具是一个NLP（NaturalLanguage Processing，自然语言处理）工具，它可以将所有的自然语言中的字词向量化，转为计算机可以理解的稠密向量（DenseVector），用以定量地度量词与词之间的关系，挖掘词与词之间的联系。可以理解地，对于相似的词，其对应的词向量也相近。

3.采用LSTM模型对词向量进行特征提取。

其中，LSTM模型可解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题，旨在发现词和词之间的相关关系，在数据分析中增加时间文本内容，记住之前发生了什么，然后应用于神经网络，观察与神经网络接下来所发生的事情之间的联系，从而得出目标意图。

LSTM的特点就是在RNN（RecurrentNeural Network，循环神经网络）模型以外添加了各层的阀门节点，如图5所示。阀门节点有3类：遗忘阀门（forget gate），输入阀门（inputgate）和输出阀门（output gate）。这些阀门节点可以打开或关闭，用于将判断RNN模型的记忆态（之前网络的状态）在上一输出层的结果是否达到阈值从而加入到当前该层的计算中。

阀门节点利用sigmoid函数将在RNN模型中该阀门节点对应的上一输出层运算结果作为输入计算；如果计算结果达到阈值则将该阀门节点输出与当前层的计算结果相乘作为下一层的输入；如果没有达到阈值则将该阀门节点对应的上一输出层运算结果遗忘掉。

LSTM模型的记忆功能就是由这些阀门节点实现的。当阀门节点打开的时候，前面RNN模型的训练结果就会关联到当前的RNN模型进行计算，而当阀门节点关闭的时候之前的计算结果就不再影响当前的计算。因此，通过调节阀门节点的开关可以实现历史意图对最终获取目标意图的影响。当不希望历史意图对之后的意图分析产生影响，比如自然语言处理中开始分析新段落或新章节，则关掉阀门节点即可。其中，历史意图是历史聊天轮次中产生的目标意图。为了获得更准确的当前轮次聊天的目标意图，服务器可调用历史意图帮助分析当前轮次聊天中的目标意图。

4.采用softmax完成意图分类工作。

最后，将LSTM模型对词向量进行特征提取后，在神经网络中引入softmax分类器可定义一个新的输出层（目标意图概率分布）。基于神经网络的LSTM模型的输出层不一定是一个概率分布层，所以可给LSTM模型在最后引入softmax分类器，softmax分类器能够作为一个额外的处理层把神经网络的输出（LSTM模型的最后输出层）变成一个概率分布，也就是每一个输出都是0至1之间的小数，并且所有输出的结果之和为1。举例说明，若LSTM模型的最后输出层为y1,y2,y3和y4，服务器可采用softmax分类器对该LSTM模型的最后输出层进行处理，采用如下公式：

,

通过softmax分类器可以计算出的值，其中，/>是每一目标意图的输出概率。可以理解地，/>中数值最大的输出对应的目标意图就是分词优化结果对应的目标意图。比如，步骤S20获得分词优化结果“我最近看了某导演的新电影某某某某”，经步骤S221中预设的意图识别模型进行识别后获得的目标意图是：用户讨论电影，其中，目标参数包括：电影名为某某某某。

进一步地，本实施例还可为目标参数设置参数优先级顺序，也即给动词后的指定动作的对象对应的名词设置较高的参数优先级顺序，给动作执行人设置次级参数优先级顺序。对于多数讨论场景，人们谈论事件的重点在于动作执行的对象，也即动作执行的对象的参数优先级顺序一般高于动作执行人。给不同的目标参数设置参数优先级顺序，利于后续基于不同的参数优先级顺序进行概念扩展。

或者，服务器还可设置将包括目标参数个数最多的目标意图的参数优先级的值也最高。比如，步骤S20得到的分词优化结果为“查询龙岗租房信息，面积20平米，价格便宜的”。服务器可分析该分词优化结果得到目标意图：龙岗租房，将该分词优化结果进行拆分分析：

1）“查询龙岗租房信息”包括的目标参数是龙岗租房；

2）“查询龙岗租房信息，面积20平米”包括的目标参数是龙岗租房和面积；

3）“查询龙岗租房信息，面积20平米，价格便宜的”包括的目标参数是龙岗租房、面积和价格。

由上述分析可以看出，第三组包括的目标参数最多，也即第三组的参数优先级顺序为3，依次类推，第二组的参数优先级顺序为2，第一组的参数优先级顺序为1。服务器基于参数优先级顺序进行回复时，可按参数优先级顺序的从大到小的顺序进行查找，也即将第三组查询到的租房结果首先返回给客户端。

举例说明在本实施例中，服务器通过目标意图获取目标参数的实现过程：

比如，分词优化结果“我最近看了某导演的新电影某某某某”，经步骤S221的识别后可确认该分词优化结果对应的目标意图为动作人谈休闲活动，目标参数为“动作人”和“休闲活动”。在分词优化结果“我最近看了某导演的新电影某某某某”中提取与上述目标参数分别对应的词语：动作人对应“我”（也即用户），休闲活动“电影某某某某”。其中，动作人对应的参数优先级顺序为1级，休闲活动对应的参数优先级顺序为2级，则在后续将目标参数作为回复信息回复给客户端时，选取参数优先级顺序的值最大的目标参数先回复给客户端。

步骤S221中，服务器通过步骤S20得到的分词优化结果可提取出至少一个目标参数，过滤掉分词优化结果中无实际意义的功能词，可直接获取分词优化结果中至少一个有效的目标参数和参数优先级顺序，为后续给客户端返回更准确的检索文本准备数据基础。

S222.基于每一目标参数查询检索文本数据库，获取与每一目标参数相对应的检索文本。

其中，检索文本数据库即为本地或在线存储由相关文本内容的数据库，比如，在线数据库包括百度、搜狗、谷歌或360搜索等，本地数据库可为保存由于本地组织相关内容的数据库，比如用户信息数据库或保险成交数据库等。

检索文本是与目标参数对应的回复文本，比如，目标参数为“今天天气”，服务器通过检索文本数据库查询在线天气可获“今天天气”对应的天气查询结果，该天气查询结果就是检索文本。

步骤S222中，服务器可通过检索文本数据库获取目标参数对应的检索文本，给用户提供与分词优化结果对应的目标意图对应的文本信息，提高回复客户端的检索文本的回复内容准确性。

S223.依据参数优先级顺序向客户端输出至少一个检索文本。

具体地，服务器可设置依据参数优先级顺序回复客户端检索文本的个数。于本实施例，可将该回复客户端检索文本的个数设置为两个，也即服务器可基于参数优先级顺序回复客户端两个优先级较高的，经步骤S222检索后的到的检索文本。

步骤S223中，服务器可按照参数优先级顺序将检索文本对应的当前回复信息返回给客户端，利于针对用户的关注点回复检索文本，及时给客户端返回准确地可供参考的当前回复信息，以提高服务器和用户之间的聊天内容的关联性和趣味性。

步骤S221至S223中，服务器通过步骤S20得到的分词优化结果可提取出至少一个目标参数，过滤掉分词优化结果中无实际意义的功能词，可直接获取分词优化结果中至少一个有效的目标参数和参数优先级顺序，为后续给客户端返回更准确的检索文本准备数据基础。服务器可通过检索文本数据库获取目标参数对应的检索文本，给用户提供与分词优化结果对应的目标意图对应的文本信息，提高回复客户端的检索文本的回复内容准确性。服务器可按照参数优先级顺序将检索文本对应的当前回复信息返回给客户端，利于针对用户的关注点回复检索文本，及时给客户端返回准确地可供参考的当前回复信息，以提高服务器和用户之间的聊天内容的关联性和趣味性。

优选地，在步骤S221之前，即在采用意图识别模型对分词优化结果进行识别之前，基于分词的文本处理方法还具体包括如下步骤：

S220.对分词优化结果进行文本清洗，其中，文本清洗包括去标点符号、去停用词、简称替换、英文和数字大小写转换中的至少一种。

对所述优化分词结果进行文本清洗，其中，所述文本清洗包括去标点符号、去停用词、简称替换、英文和数字大小写转换中的至少一个。

步骤S220中，服务器对优化分词结果进行去标点符号、去停用词(例如帮我、电话等这些词)、简称替换(例如，中行转成中国银行)、英文和数字大小写的转换等操作，以数字大小写转换为例，大写“一”可以转换为小写“1”，大写“九”可以转换为小写“9”等。在实际应用中，可以根据实际情况对输入的文本进行清洗操作，可以去除输入优化分词结果中不必要的信息，使得匹配结果的更加精准。

本实施例提供的基于分词的文本处理方法的实施例，服务器采用分词工具的搜索引擎分词模式将原始文本进行分词后，对连续的一级分词进行分析，判定是否存在由连续一级分词的结合或叠加可构成连续的一级分词后紧跟的长词，并依据连续的一级分词不同的结合或叠加情况对一级分词或最后的长词进行处理，可获得更为精准的分词结果，减少重复词或无用词。

进一步地，服务器采用N-Gram模型可获取标准文本和分词优化结果的文本相似度，用以后续判定标准文本和分词优化结果是否为相同文本准备数据基础。服务器通过设定相似度阈值即可判定原始文本和标准文本为相同文本，简单快捷。

进一步地，服务器通过步骤S20得到的分词优化结果可提取出至少一个目标参数，过滤掉分词优化结果中无实际意义的功能词，可直接获取分词优化结果中至少一个有效的目标参数和参数优先级顺序，为后续给客户端返回更准确的检索文本准备数据基础。服务器可通过检索文本数据库获取目标参数对应的检索文本，给用户提供与分词优化结果对应的目标意图对应的文本信息，提高回复客户端的检索文本的回复内容准确性。服务器可按照参数优先级顺序将检索文本对应的当前回复信息返回给客户端，利于针对用户的关注点回复检索文本，及时给客户端返回准确地可供参考的当前回复信息，以提高服务器和用户之间的聊天内容的关联性和趣味性。

进一步地，服务器对优化分词结果进行去标点符号、去停用词(例如帮我、电话等这些词)、简称替换(例如，中行转成中国银行)、英文和数字大小写的转换等操作，以数字大小写转换为例，大写“一”可以转换为小写“1”，大写“九”可以转换为小写“9”等。在实际应用中，可以根据实际情况对输入的文本进行清洗操作，可以去除输入优化分词结果中不必要的信息，使得匹配结果的更加精准。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于分词的文本处理装置，该基于分词的文本处理装置与上述实施例中基于分词的文本处理方法一一对应。如图6所示，该基于分词的文本处理装置包括获取原始文本模块10和获取优化结果模块20。各功能模块详细说明如下：

获取原始文本模块10，用于获取原始文本，采用分词工具的搜索引擎分词模式对原始文本进行文本分词，获取文本分词结果，文本分词结果包括至少n个一级分词；

获取优化结果模块20，用于若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词，且连续k-1个一级分词中存在至少两个二级分词的结合等于第k个一级分词，则仅保留至少两个二级分词，获取分词优化结果。

优选地，该文本处理装置还包括获取分词结果模块110。

获取分词结果模块110，用于若任意连续k个一级分词中连续k-1个一级分词的叠加等于第k个一级分词，且任意连续k个一级分词中不存在至少两个二级分词的结合等于第k个一级分词，则保留第k个一级分词并删除前k-1个一级分词，获取分词优化结果。

优选地，该文本处理装置还包括保留分词模块。

保留分词模块，用于若任意连续k个一级分词中连续k-1个一级分词的结合等于第k个一级分词，则保留前k-1个一级分词并删除第k个一级分词，获取分词优化结果。

优选地，该文本处理装置还包括获取标准文本模块和相似度阈值模块。

获取标准文本模块，用于获取原始文本对应的标准文本，采用文本对比工具对比标准文本和分词优化结果，获取文本相似度。

相似度阈值模块，用于若文本相似度超过相似度阈值，则原始文本和标准文本为相同文本。

优选地，该文本处理装置还包括获取目标意图模块、获取检索文本模块和输出检索文本模块。

获取目标意图模块，用于采用意图识别模型对分词优化结果进行识别，获取原始文本对应的目标意图，目标意图包括至少一个目标参数和参数优先级顺序。

获取检索文本模块，用于基于每一目标参数查询检索文本数据库，获取与每一目标参数相对应的检索文本。

输出检索文本模块，用于依据参数优先级顺序向客户端输出至少一个检索文本。

优选地，该文本处理装置还包括文本清洗模块。

文本清洗模块，用于对分词优化结果进行文本清洗，其中，文本清洗包括去标点符号、去停用词、简称替换、英文和数字大小写转换中的至少一种。

关于基于分词的文本处理装置的具体限定可以参见上文中对于基于分词的文本处理方法的限定，在此不再赘述。上述基于分词的文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于基于分词的文本处理方法相关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于分词的文本处理方法。

在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例基于分词的文本处理方法，例如图2所示S10至步骤S20。或者，处理器执行计算机程序时实现上述实施例中基于分词的文本处理装置的各模块/单元的功能，例如图6所示模块10至模块20的功能。为避免重复，此处不再赘述。

在一实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例基于分词的文本处理方法，例如图2所示S10至步骤S20。或者，该计算机程序被处理器执行时实现上述装置实施例中基于分词的文本处理装置中各模块/单元的功能，例如图6所示模块10至模块20的功能。为避免重复，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于分词的文本处理方法，其特征在于，包括：

获取原始文本，采用分词工具的搜索引擎分词模式对所述原始文本进行文本分词，获取文本分词结果，所述文本分词结果包括至少n个一级分词；

若任意连续k个所述一级分词中连续k-1个所述一级分词的叠加等于第k个一级分词，且连续k-1个所述一级分词中存在至少两个二级分词的结合等于第k个一级分词，则仅保留至少两个所述二级分词，获取分词优化结果；

若任意连续k个所述一级分词中连续k-1个所述一级分词的叠加等于所述第k个一级分词，且任意连续k个所述一级分词中不存在至少两个二级分词的结合等于第k个一级分词，则保留第k个一级分词并删除前k-1个所述一级分词，获取分词优化结果。

2.如权利要求1所述的基于分词的文本处理方法，其特征在于，在所述获取文本分词结果之后，所述基于分词的文本处理方法还包括：

若任意连续k个所述一级分词中连续k-1个一级分词的结合等于第k个一级分词，则保留前k-1个所述一级分词并删除第k个一级分词，获取分词优化结果。

3.如权利要求1至2中任一项所述的基于分词的文本处理方法，其特征在于，在所述获取分词优化结果之后，所述基于分词的文本处理方法还包括：

获取所述原始文本对应的标准文本，采用文本对比工具对比所述标准文本和所述分词优化结果，获取文本相似度；

若所述文本相似度超过相似度阈值，则所述原始文本和所述标准文本为相同文本。

4.如权利要求1至2中任一项所述的基于分词的文本处理方法，其特征在于，在输出分词优化结果之后，所述基于分词的文本处理方法还包括：

采用意图识别模型对所述分词优化结果进行识别，获取所述原始文本对应的目标意图，所述目标意图包括至少一个目标参数和参数优先级顺序；

基于每一所述目标参数查询检索文本数据库，获取与每一所述目标参数相对应的检索文本；

依据所述参数优先级顺序向客户端输出至少一个所述检索文本。

5.如权利要求4所述的基于分词的文本处理方法，其特征在于，在所述采用意图识别模型对所述分词优化结果进行识别之前，所述基于分词的文本处理方法还包括：

对所述分词优化结果进行文本清洗，其中，所述文本清洗包括去标点符号、去停用词、简称替换、英文和数字大小写转换中的至少一种。

6.一种基于分词的文本处理装置，其特征在于，所述文本处理装置包括：

获取原始文本模块，用于获取原始文本，采用分词工具的搜索引擎分词模式对所述原始文本进行文本分词，获取文本分词结果，所述文本分词结果包括至少n个一级分词；

获取优化结果模块，用于若任意连续k个所述一级分词中连续k-1个所述一级分词的叠加等于第k个一级分词，且连续k-1个所述一级分词中存在至少两个二级分词的结合等于第k个一级分词，则仅保留至少两个所述二级分词，获取分词优化结果；

获取分词结果模块，用于若任意连续k个所述一级分词中连续k-1个所述一级分词的叠加等于所述第k个一级分词，且任意连续k个所述一级分词中不存在至少两个二级分词的结合等于第k个一级分词，则保留第k个一级分词并删除前k-1个所述一级分词，获取分词优化结果。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于分词的文本处理方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于分词的文本处理方法。