CN112632292A

CN112632292A - 业务关键词的提取方法、装置、设备及存储介质

Info

Publication number: CN112632292A
Application number: CN202011544588.9A
Authority: CN
Inventors: 赵焕丽; 徐国强
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-09
Also published as: WO2022134575A1

Abstract

本发明涉及人工智能技术领域，提供一种业务关键词的提取方法、装置、设备及存储介质，用于提高业务关键词的提取准确性。业务关键词的提取方法包括：通过预置业务字典树对待处理文本信息进行业务词汇匹配，得到文本业务词汇；根据文本业务词汇对待处理文本信息进行分词处理，得到分词信息；通过预置神经网络模型中的嵌入层，将分词信息进行字词向量转换得到目标分词向量；通过预置神经网络模型中特征提取层，对目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征；根据目标语义编码特征，对待处理文本信息依次进行分类和关键词提取，得到目标业务关键词。此外，本发明还涉及区块链技术，待处理文本信息可存储于区块链中。

Description

业务关键词的提取方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的自然语言处理领域，尤其涉及一种业务关键词的提取方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，诸多业务事项都需要用到关键词提取的处理方式，比如：对业务领域的业务关键词的提取。现有的自动抽取业务关键词一般都是使用命名实体识别(named entity recognition，NER)任务的模型，命名实体识别是指识别文本中具有特定意义的实体，如人名和地名，而命名实体识别任务的模型采用的是基于词汇字符的方法对识别文本进行分词，然后提取其关键词。

但是，由于中文分词存在误差，且没有利用业务领域的词汇信息，以及结合词汇边界对识别文本进行分词，因而，导致了分词存在误差，提取的关键词不适于业务领域，从而，导致了业务关键词的提取准确性较低。

发明内容

本发明提供一种业务关键词的提取方法、装置、设备及存储介质，用于提高业务关键词的提取准确性。

本发明第一方面提供了一种业务关键词的提取方法，包括：

获取待处理文本信息，通过预置业务字典树，对所述待处理文本信息进行业务词汇匹配，得到文本业务词汇；

根据所述文本业务词汇，对所述待处理文本信息进行分词处理，得到分词信息；

通过预置神经网络模型中的嵌入层，将所述分词信息进行字词向量转换，得到目标分词向量，所述预置神经网络模型包括嵌入层和特征提取层；

通过所述特征提取层，对所述目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征；

根据所述目标语义编码特征，对所述待处理文本信息依次进行分类和关键词提取，得到目标业务关键词。

可选的，在本发明第一方面的第一种实现方式中，所述获取待处理文本信息，通过预置业务字典树，对所述待处理文本信息进行业务词汇匹配，得到文本业务词汇之前，还包括：

获取业务词汇集，并计算所述业务词汇集中每个业务词汇的词频-逆文本频率指数值；

根据所述词频-逆文本频率指数值，对所述业务词汇集进行排序，得到业务词汇序列；

对所述业务词汇序列进行字符串分割处理，得到分词字符集，并创建所述业务词汇序列的反向索引信息；

将所述反向索引信息作为根结点，将所述分词字符集作为叶节点，根据所述根结点和所述叶节点，创建预置业务字典树。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述目标语义编码特征，对所述待处理文本信息依次进行分类和关键词提取，得到目标业务关键词，包括：

通过所述预置神经网络模型中的输出层，对所述目标语义编码特征进行业务词汇分类和概率值筛选，得到目标分类概率值；

基于所述目标分类概率值，提取所述待处理文本信息中对应的业务关键词，得到目标业务关键词。

可选的，在本发明第一方面的第三种实现方式中，所述通过所述预置神经网络模型中的输出层，对所述目标语义编码特征进行业务词汇分类和概率值筛选，得到目标分类概率值，包括：

通过所述预置神经网络模型中的输出层，对所述目标语义编码特征进行业务词汇分类，得到初始分类概率值；

按照值从大到小的顺序，对所述初始分类概率值进行排序，将排序第一的初始分类概率值确定为候选分类概率值，并判断所述候选分类概率值是否大于预设阈值；

若所述候选分类概率值大于所述预设阈值，则将所述候选分类概率值确定为目标分类概率值；

若所述候选分类概率值小于或等于所述预设阈值，则重新获取所述待处理文本信息的待处理分类概率值；

将所述待处理分类概率值与所述预设阈值进行对比分析，得到目标分类概率值。

可选的，在本发明第一方面的第四种实现方式中，所述基于所述目标分类概率值，提取所述待处理文本信息中对应的业务关键词，得到目标业务关键词，包括：

基于所述目标分类概率值，提取所述待处理文本信息中对应的业务关键词，得到初始业务关键词；

对所述初始业务关键词依次进行拼接、词性过滤和字典树匹配，得到目标业务关键词。

可选的，在本发明第一方面的第五种实现方式中，所述通过预置神经网络模型中的嵌入层，将所述分词信息进行字词向量转换，得到目标分词向量，包括：

通过预置神经网络模型中嵌入层的预训练字向量，将所述分词信息进行字词向量转换，得到文本字向量；

获取所述文本业务词汇的目标词向量，并判断所述文本字向量中是否存在所述目标词向量；

若所述文本字向量中存在所述目标词向量，则按照所述目标词向量，将所述文本字向量对应的字向量进行拼接，得到目标分词向量。

可选的，在本发明第一方面的第六种实现方式中，所述根据所述目标语义编码特征，对所述待处理文本信息依次进行分类和关键词提取，得到目标业务关键词之后，还包括：

获取基于所述目标业务关键词的目标误差值和修正业务词，根据所述目标误差值和所述修正业务词，对所述预置神经网络模型进行优化。

本发明第二方面提供了一种业务关键词的提取装置，包括：

匹配模块，用于获取待处理文本信息，通过预置业务字典树，对所述待处理文本信息进行业务词汇匹配，得到文本业务词汇；

分词模块，用于根据所述文本业务词汇，对所述待处理文本信息进行分词处理，得到分词信息；

转换模块，用于通过预置神经网络模型中的嵌入层，将所述分词信息进行字词向量转换，得到目标分词向量，所述预置神经网络模型包括嵌入层和特征提取层；

编码模块，用于通过所述特征提取层，对所述目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征；

提取模块，用于根据所述目标语义编码特征，对所述待处理文本信息依次进行分类和关键词提取，得到目标业务关键词。

可选的，在本发明第二方面的第一种实现方式中，所述业务关键词的提取装置，还包括：

计算模块，用于获取业务词汇集，并计算所述业务词汇集中每个业务词汇的词频-逆文本频率指数值；

排序模块，用于根据所述词频-逆文本频率指数值，对所述业务词汇集进行排序，得到业务词汇序列；

分割模块，用于对所述业务词汇序列进行字符串分割处理，得到分词字符集，并创建所述业务词汇序列的反向索引信息；

创建模块，用于将所述反向索引信息作为根结点，将所述分词字符集作为叶节点，根据所述根结点和所述叶节点，创建预置业务字典树。

可选的，在本发明第二方面的第二种实现方式中，所述提取模块包括：

分类筛选单元，用于通过所述预置神经网络模型中的输出层，对所述目标语义编码特征进行业务词汇分类和概率值筛选，得到目标分类概率值；

提取单元，用于基于所述目标分类概率值，提取所述待处理文本信息中对应的业务关键词，得到目标业务关键词。

可选的，在本发明第二方面的第三种实现方式中，所述分类筛选单元具体用于：

可选的，在本发明第二方面的第四种实现方式中，所述提取单元具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述转换模块具体用于：

可选的，在本发明第二方面的第六种实现方式中，所述业务关键词的提取装置，还包括：

优化模块，用于获取基于所述目标业务关键词的目标误差值和修正业务词，根据所述目标误差值和所述修正业务词，对所述预置神经网络模型进行优化。

本发明第三方面提供了一种业务关键词的提取设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述业务关键词的提取设备执行上述的业务关键词的提取方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的业务关键词的提取方法。

本发明提供的技术方案中，获取待处理文本信息，通过预置业务字典树，对待处理文本信息进行业务词汇匹配，得到文本业务词汇；根据文本业务词汇，对待处理文本信息进行分词处理，得到分词信息；通过预置神经网络模型中的嵌入层，将分词信息进行字词向量转换，得到目标分词向量，预置神经网络模型包括嵌入层和特征提取层；通过特征提取层，对目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征；根据目标语义编码特征，对待处理文本信息依次进行分类和关键词提取，得到目标业务关键词。本发明实施例中，通过采用预置业务字典树的业务词汇匹配、文本业务词汇的分词处理、目标分词向量的语义特征提取和上下文语义编码，以及目标语义编码特征的分类和关键词提取，结合了业务词汇的词汇边界对待处理文本信息进行分词，提高了待处理文本信息的业务词汇匹配的准确性，从而提高了业务关键词的提取准确性。

附图说明

图1为本发明实施例中业务关键词的提取方法的一个实施例示意图；

图2为本发明实施例中业务关键词的提取方法的另一个实施例示意图；

图3为本发明实施例中业务关键词的提取装置的一个实施例示意图；

图4为本发明实施例中业务关键词的提取装置的另一个实施例示意图；

图5为本发明实施例中业务关键词的提取设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种业务关键词的提取方法、装置、设备及存储介质，提高了业务关键词的提取准确性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中业务关键词的提取方法的一个实施例包括：

101、获取待处理文本信息，通过预置业务字典树，对待处理文本信息进行业务词汇匹配，得到文本业务词汇。

可以理解的是，本发明的执行主体可以为业务关键词的提取装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器调用预置的语音采集器采集用户输入的语音信息，通过预置的语音识别模型对语音信息进行语音识别和文本转换，得到识别文本，检测识别文本是否存在数据缺失，若是，则对识别文本进行缺失值填补，得到处理后的识别文本，并对处理后的识别文本进行安全性度量，得到待处理文本信息，若否，则直接对识别文本进行安全性度量，得到待处理文本信息。或者，服务器可以接收预置界面输入的文本信息，从而得到待处理文本信息。

服务器可通过创建待处理文本信息的目标键，通过目标键遍历预置业务字典树，从预置业务字典树中匹配得到对应的文本业务词汇；服务器也可通过预置的最近公共祖先算法和倍增算法，从预置业务字典树中匹配待处理文本信息对应的文本业务词汇。

102、根据文本业务词汇，对待处理文本信息进行分词处理，得到分词信息。

服务器将待处理文本信息中与文本业务词汇对应的字符进行标记token替换处理，得到初始文本信息，将初始文本信息中的字符进行单字分割，得到分词信息，例如：以待处理文本信息为“我名下有个人和保险，交了3年了”为例说明，文本业务词汇为“人和保险”，将文本业务词汇“人和保险”token替换，得到初始文本信息，将初始文本信息中的字符进行单字分割，得到分词信息“我/名/下/有/个/人和保险/，/交/了/3/年/了”。其中，服务器将初始文本信息中的字符进行单字分割后，可以对分割后的词进行语法检测和敏感词判断，将符合语法以及为非敏感词的分词确定为分词信息；也可按照预置的词性过滤规则对分割后的词进行词性过滤，得到分词信息。

103、通过预置神经网络模型中的嵌入层，将分词信息进行字词向量转换，得到目标分词向量，预置神经网络模型包括嵌入层和特征提取层。

其中，预置神经网络模型包括嵌入层和特征提取层，嵌入层embedding使用的是预先训练的字向量。服务器获取文本业务词汇对应的业务词汇向量，判断嵌入层中预先训练的字向量中是否存在与业务词汇向量一致的词向量，若是，则将分词信息映射到预置的与业务词汇向量对应的维度空间，从而得到目标分词向量，若否，则将分词信息映射到预置的字向量对应的维度空间，从而得到目标分词向量，例如：若嵌入层中预先训练的字向量中存在业务词汇向量“人和保险”，则将分词信息映射到预置的与业务词汇向量对应的维度空间，从而得到目标分词向量“人和保险”，若嵌入层中预先训练的字向量中不存在业务词汇向量“人和保险”，则将分词信息映射到预置的字向量对应的维度空间，从而得到目标分词向量“人”“和”“保”“险”。

在另一实施例中，服务器也可通过嵌入层中预先训练的字向量，将分词信息映射到预置的维度空间，从而得到字词向量，该字词向量包括字向量和词向量，并获取分词信息中文本业务词汇对应的文本业务词汇向量，计算文本业务词汇向量与字词向量的余弦距离值，判断各余弦距离值是否大于预置的目标值，若是，则判定字词向量存在与文本业务词汇向量对应的向量，将字词向量确定为目标分词向量，若否，则判定字词向量不存在与文本业务词汇向量对应的向量，则将字词向量中对应文本业务词汇位置的向量替换为文本业务词汇向量，从而得到目标分词向量。

104、通过特征提取层，对目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征。

其中，特征提取层可为双向长短期记忆网络层(bi-directional long short-term memory，BiLSTM)、卷积神经网络(convolutional neural networks，CNN)和/或变压模型transformer等，特征提取层具有普适性，其网络结构不受限制。服务器得到目标分词向量后，将目标分词向量输入至预置神经网络模型，服务器通过预置神经网络模型中的特征提取层，对目标分词向量进行语义特征分析和语义特征分类，得到第一信息，对目标分词向量进行义素分析，得到第二信息，可按照预设的权重比例或注意力机制，将第一信息和第二信息进行融合得到综合信息，根据综合信息提取目标分词向量的特征，从而得到初始语义特征，对初始语义特征进行降维处理，得到候选语义特征，提取候选语义特征的上下文向量，通过预置的语义编码模型，对候选语义特征进行基于上下文向量的编码，得到目标语义编码特征。

105、根据目标语义编码特征，对待处理文本信息依次进行分类和关键词提取，得到目标业务关键词。

服务器通过预置神经网络模型中的分类器，对目标语义编码特征进行业务词汇分类，得到多个分类值，按照从大到小的顺序将多个分类值进行排序，将待处理文本信息中排序第一的分类值对应的字确定为目标字，从待处理文本信息中提取目标字，按照待处理文本信息中对应的序列将目标字进行组合，得到目标业务关键词，其中，预置神经网络模型可以包括一个或一个以上的分类器，若输出层包含多个分类器，则多个分类器的网络结构可为并列连接的网络结构，即相同的输入，也可为按照预置连接方式所连接的网络结构，即下一个分类器的输入可为上一个分类器的输出。

本发明实施例中，通过采用预置业务字典树的业务词汇匹配、文本业务词汇的分词处理、目标分词向量的语义特征提取和上下文语义编码，以及目标语义编码特征的分类和关键词提取，结合了业务词汇的词汇边界对待处理文本信息进行分词，提高了待处理文本信息的业务词汇匹配的准确性，从而提高了业务关键词的提取准确性。

请参阅图2，本发明实施例中业务关键词的提取方法的另一个实施例包括：

201、获取待处理文本信息，通过预置业务字典树，对待处理文本信息进行业务词汇匹配，得到文本业务词汇。

该步骤201的执行过程与上述步骤101的执行过程类似，在此不再赘述。

具体地，服务器获取待处理文本信息，通过预置业务字典树，对待处理文本信息进行业务词汇匹配，得到文本业务词汇之前，获取业务词汇集，并计算业务词汇集中每个业务词汇的词频-逆文本频率指数值；根据词频-逆文本频率指数值，对业务词汇集进行排序，得到业务词汇序列；对业务词汇序列进行字符串分割处理，得到分词字符集，并创建业务词汇序列的反向索引信息；将反向索引信息作为根结点，将分词字符集作为叶节点，根据根结点和叶节点，创建预置业务字典树。

服务器从网页中爬取业务领域词汇集，并从预置数据库中提取业务词汇列表，将业务领域词汇和业务词汇列表中的业务词汇进行合并去重，得到业务词汇集。计算业务词汇集中每个业务词汇，基于预置查询语料文本和预置文章的词频-逆文本频率指数(termfrequency–inverse document frequency，TF-IDF)值，该预置查询语料文本和预置文章为各业务领域和/或业务需求对应的文本和文章，按照每个业务词汇的TF-IDF值从大到小的顺序，对业务词汇集中的业务词汇进行排序，从而得到业务词汇序列，以提高检索效率。

服务器根据词汇第一个字，对业务词汇序列中的各业务词汇进行归类，得到归类业务词汇，并对归类业务词汇进行字符串分割处理，得到分词字符集。通过预置的倒排索引算法创建业务词汇序列的反向索引信息。将反向索引信息作为根结点，将归类业务词汇的相同字的字符作为父节点，将其他的字的分词字符作为叶节点，根据根结点、父节点和叶节点创建字典树，从而得到预置业务字典树，例如：以保险产品“人和保险”、“健康险”和“健利宝”为例说明，“人和保险”的第一个词为“人”，“健康险”的第一个词为“健”，“健利宝”的第一个词为“健”，则将“人和保险”归为一类，将“健康险”和“健利宝”归为一类，对“人和保”险、“健康险”和“健利宝”进行字符串分割处理，得到“人/和/保/险、健/康/险和健/利/宝”对应的分词字符集，将“人和保”险、“健康险”和“健利宝”的反向索引信息作为预置业务字典树根结点，以“人”和“健”作为父节点，父节点为根结点的下一层级结点，将“和”、“保”和“险”依次作为父节点“人”的叶节点，将“康”和“险”依次作为父节点“健”的第一分支的叶节点，将“利”和“宝”依次作为父节点“健”的第二分支的叶节点，从而得到预置业务字典树。

202、根据文本业务词汇，对待处理文本信息进行分词处理，得到分词信息。

该步骤202的执行过程与上述步骤102的执行过程类似，在此不再赘述。

203、通过预置神经网络模型中的嵌入层，将分词信息进行字词向量转换，得到目标分词向量，预置神经网络模型包括嵌入层和特征提取层。

具体地，服务器通过预置神经网络模型中嵌入层的预训练字向量，将分词信息进行字词向量转换，得到文本字向量；获取文本业务词汇的目标词向量，并判断文本字向量中是否存在目标词向量；若文本字向量中存在目标词向量，则按照目标词向量，将文本字向量对应的字向量进行拼接，得到目标分词向量。

例如，以分词信息为“我/名/下/有/个/人和保险/”为例，服务器通过预置神经网络模型中嵌入层的预训练字向量，该嵌入层的预训练字向量为他人已经预训练好的字向量，包含几百万的字词，将分词信息进行字词向量转换，得到文本字向量，文本业务词汇的目标词向量为“人和保险”对应的词向量，判断文本字向量是否存在“人和保险”对应的词向量(即目标词向量)，若是(即文本字向量为“我/名/下/有/个/人和保险/”对应的字向量)，则按照“人和保险”对应的词向量，将“人/和/保险/”对应的字向量进行拼接，从而得到目标分词向量“我/名/下/有/个/人和保险/”，若否(即文本字向量为“我/名/下/有/个/人/和/保险/”对应的字向量)，则将文本字向量确定为目标分词向量。

在另一实施例中，服务器可预先获取业务词汇语料，并获取业务词汇语料的表征信息和上下文特征，通过预置的连续跳跃元语法Skip-Gram模型，基于业务词汇语料、业务词汇语料的表征信息和上下文特征，进行字向量训练，从而得到预训练字向量。

204、通过特征提取层，对目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征。

具体地，服务器通过特征提取层，提取目标分词向量的上下文向量和语义特征，并将语义特征进行矩阵相乘，得到初始语义编码特征；根据上下文向量，对初始语义编码特征进行编码处理，得到目标语义编码特征。

服务器通过特征提取层中的双向长短期记忆网络层BiLSTM，提取目标分词向量的上下文向量，并通过特征提取层中的卷积神经网络，对目标分词向量进行语义特征的句法分析和语义分类，得到语义特征，将语义特征进行矩阵转换，得到语义矩阵，将语义矩阵之间进行矩阵相乘，得到初始语义编码特征，以删除冗余的语义特征。通过特征提取层中的融合网络和注意力机制网络，将上下文向量自上而下进行融合，得到初始向量，服务器通过特征提取层中的变压模型transformer，根据初始向量对初始语义编码特征进行编码处理，得到目标语义编码特征。

205、通过预置神经网络模型中的输出层，对目标语义编码特征进行业务词汇分类和概率值筛选，得到目标分类概率值。

具体地，服务器通过预置神经网络模型中的输出层，对目标语义编码特征进行业务词汇分类，得到初始分类概率值；按照值从大到小的顺序，对初始分类概率值进行排序，将排序第一的初始分类概率值确定为候选分类概率值，并判断候选分类概率值是否大于预设阈值；若候选分类概率值大于预设阈值，则将候选分类概率值确定为目标分类概率值；若候选分类概率值小于或等于预设阈值，则重新获取待处理文本信息的待处理分类概率值；将待处理分类概率值与预设阈值进行对比分析，得到目标分类概率值。

例如，通过预置神经网络模型中的输出层，对目标语义编码特征进行业务词汇分类，得到初始分类概率值A1、A2和A3，按照值从大到小的顺序对A1、A2和A3进行排序为A2、A1和A3，则A2为候选分类概率值，若候选分类概率值A2大于预设阈值，则将A2确定为目标分类概率值，若候选分类概率值A2小于或等于预设阈值，则根据上述101-104的执行过程重新获取待处理文本信息的待处理语义编码特征，以及获取待处理语义编码特征的待处理分类概率值B，若B大于预设阈值，则将B确定为目标分类概率值，若B小于或等于预设阈值，则可将B和A2中最大值对应的B或A2确定为目标分类概率值；也可迭代重新获取待处理文本信息的待处理语义编码特征，以及获取待处理语义编码特征的待处理分类概率值C，直至C大于预设阈值，从而得到目标分类概率值。

其中，预置神经网络模型还包括输出层，输出层用于对目标语义编码特征进行业务词汇分类和概率值筛选，输出层也可包括一个或一个以上的分类器，若输出层包含多个分类器，则多个分类器的网络结构可为并列连接的网络结构，即相同的输入，也可为按照预置连接方式所连接的网络结构，即下一个分类器的输入可为上一个分类器的输出。

206、基于目标分类概率值，提取待处理文本信息中对应的业务关键词，得到目标业务关键词。

具体地，服务器基于目标分类概率值，提取待处理文本信息中对应的业务关键词，得到初始业务关键词；对初始业务关键词依次进行拼接、词性过滤和字典树匹配，得到目标业务关键词。

服务器根据目标分类概率值对待处理文本信息中的各个字进行标记，提取待处理文本信息中标记的字或者将待处理文本信息中非标记的字删除，从而得到初始词，例如，以目标业务关键词为保险名，以待处理文本信息为“华彩人生如何”为例说明，服务器根据目标分类概率值对待处理文本信息中的各个字进行标记，得到“保险名保险名保险名保险名oo”，提取待处理文本信息中标记(即“保险名”)的字或者将待处理文本信息中非标记(即“o”)的字删除，从而得到初始业务关键词“华”“彩”“人”“生”，服务器得到初始词之后，按照预设拼接规则对初始词进行拼接，得到拼接词，通过预置词性过滤规则对拼接词进行过滤，得到候选业务关键词，通过预置字典树对候选业务关键词进行匹配，若从预置字典树中匹配到对应的业务词，则说明候选业务关键词符合业务词，将候选业务关键词确定为目标业务关键词，若从预置字典树中匹配到不对应的业务词，则说明候选业务关键词不符合业务词或不存在预置字典树中，服务器可将待处理文本信息和候选业务关键词发送至预置审核端，由预置审核端的审核员或预置模型对待处理文本信息进行业务词汇提取，得到目标业务关键词，以提高目标业务关键词的准确性。

207、获取基于目标业务关键词的目标误差值和修正业务词，根据目标误差值和修正业务词，对预置神经网络模型进行优化。

服务器从预置数据库中获取初始历史文本信息和初始历史文本信息对应的初始历史业务词，从初始历史文本信息中匹配与待处理文本信息对应的目标历史文本信息，并获取目标历史文本信息对应的目标历史业务词，直接按文本匹配结果赋值，即若目标历史业务词与目标业务关键词完全相同，则赋值第一误差值为0，若目标历史业务词与目标业务关键词不相同，则赋值第一误差值为1，并获取基于人工评审的目标业务关键词的第二误差值，计算第一误差值和第二误差值的和值，或者计算第一误差值和第二误差值的权重和值，得到目标误差值，判断目标误差值是否大于预设修正阈值，若是，则服务器获取基于人工修正的修正业务词，若否，则生成目标业务关键词的修正业务词的空字符，将目标业务关键词的目标误差值和修正业务词存储至预设存储空间，并根据目标误差值和修正业务词，对预置神经网络模型的网络层、网络结构和模型参数进行调整和优化，以提高预置神经网络模型的准确性。

在另一实施例中，服务器可通过从预置数据库中获取初始历史文本信息和初始历史文本信息对应的初始历史业务词，从初始历史文本信息中匹配与待处理文本信息对应的目标历史文本信息，并获取目标历史文本信息对应的目标历史业务词，计算目标历史业务词和目标业务关键词之间的相似度，将相似度与1之间的差值绝对值作为目标业务关键词的第一误差值。

本发明实施例中，不仅通过采用预置业务字典树的业务词汇匹配、文本业务词汇的分词处理、目标分词向量的语义特征提取和上下文语义编码，以及基于输出层和目标语义编码特征的业务词汇分类和概率值筛选，和基于目标分类概率值的业务关键词，结合了业务词汇的词汇边界对待处理文本信息进行分词，提高了待处理文本信息的业务词汇匹配的准确性，从而提高了业务关键词的提取准确性，还通过根据目标误差值和修正业务词，对预置神经网络模型进行优化，提高了预置神经网络模型的准确性。

上面对本发明实施例中业务关键词的提取方法进行了描述，下面对本发明实施例中业务关键词的提取装置进行描述，请参阅图3，本发明实施例中业务关键词的提取装置一个实施例包括：

匹配模块301，用于获取待处理文本信息，通过预置业务字典树，对待处理文本信息进行业务词汇匹配，得到文本业务词汇；

分词模块302，用于根据文本业务词汇，对待处理文本信息进行分词处理，得到分词信息；

转换模块303，用于通过预置神经网络模型中的嵌入层，将分词信息进行字词向量转换，得到目标分词向量，预置神经网络模型包括嵌入层和特征提取层；

编码模块304，用于通过特征提取层，对目标分词向量进行语义特征提取和上下文语义编码，得到目标语义编码特征；

提取模块305，用于根据目标语义编码特征，对待处理文本信息依次进行分类和关键词提取，得到目标业务关键词。

上述业务关键词的提取装置中各个模块的功能实现与上述业务关键词的提取方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

请参阅图4，本发明实施例中业务关键词的提取装置的另一个实施例包括：

提取模块305，用于根据目标语义编码特征，对待处理文本信息依次进行分类和关键词提取，得到目标业务关键词；

其中，提取模块305具体包括：

分类筛选单元3051，用于通过预置神经网络模型中的输出层，对目标语义编码特征进行业务词汇分类和概率值筛选，得到目标分类概率值；

提取单元3052，用于基于目标分类概率值，提取待处理文本信息中对应的业务关键词，得到目标业务关键词；

优化模块306，用于获取基于目标业务关键词的目标误差值和修正业务词，根据目标误差值和修正业务词，对预置神经网络模型进行优化。

可选的，业务关键词的提取装置，还包括：

计算模块307，用于获取业务词汇集，并计算业务词汇集中每个业务词汇的词频-逆文本频率指数值；

排序模块308，用于根据词频-逆文本频率指数值，对业务词汇集进行排序，得到业务词汇序列；

分割模块309，用于对业务词汇序列进行字符串分割处理，得到分词字符集，并创建业务词汇序列的反向索引信息；

创建模块310，用于将反向索引信息作为根结点，将分词字符集作为叶节点，根据根结点和叶节点，创建预置业务字典树。

可选的，分类筛选单元3051还可以具体用于：

通过预置神经网络模型中的输出层，对目标语义编码特征进行业务词汇分类，得到初始分类概率值；

按照值从大到小的顺序，对初始分类概率值进行排序，将排序第一的初始分类概率值确定为候选分类概率值，并判断候选分类概率值是否大于预设阈值；

若候选分类概率值大于预设阈值，则将候选分类概率值确定为目标分类概率值；

若候选分类概率值小于或等于预设阈值，则重新获取待处理文本信息的待处理分类概率值；

将待处理分类概率值与预设阈值进行对比分析，得到目标分类概率值。

可选的，提取单元3052还可以具体用于：

基于目标分类概率值，提取待处理文本信息中对应的业务关键词，得到初始业务关键词；

对初始业务关键词依次进行拼接、词性过滤和字典树匹配，得到目标业务关键词。

可选的，转换模块303还可以具体用于：

通过预置神经网络模型中嵌入层的预训练字向量，将分词信息进行字词向量转换，得到文本字向量；

获取文本业务词汇的目标词向量，并判断文本字向量中是否存在目标词向量；

若文本字向量中存在目标词向量，则按照目标词向量，将文本字向量对应的字向量进行拼接，得到目标分词向量。

上述业务关键词的提取装置中各模块和各单元的功能实现与上述业务关键词的提取方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

上面图3和图4从模块化功能实体的角度对本发明实施例中的业务关键词的提取装置进行详细描述，下面从硬件处理的角度对本发明实施例中业务关键词的提取设备进行详细描述。

图5是本发明实施例提供的一种业务关键词的提取设备的结构示意图，该业务关键词的提取设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对业务关键词的提取设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在业务关键词的提取设备500上执行存储介质530中的一系列指令操作。

业务关键词的提取设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的业务关键词的提取设备结构并不构成对业务关键词的提取设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行业务关键词的提取方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种业务关键词的提取方法，其特征在于，所述业务关键词的提取方法包括：

2.根据权利要求1所述的业务关键词的提取方法，其特征在于，所述获取待处理文本信息，通过预置业务字典树，对所述待处理文本信息进行业务词汇匹配，得到文本业务词汇之前，还包括：

3.根据权利要求1所述的业务关键词的提取方法，其特征在于，所述根据所述目标语义编码特征，对所述待处理文本信息依次进行分类和关键词提取，得到目标业务关键词，包括：

4.根据权利要求3所述的业务关键词的提取方法，其特征在于，所述通过所述预置神经网络模型中的输出层，对所述目标语义编码特征进行业务词汇分类和概率值筛选，得到目标分类概率值，包括：

5.根据权利要求3所述的业务关键词的提取方法，其特征在于，所述基于所述目标分类概率值，提取所述待处理文本信息中对应的业务关键词，得到目标业务关键词，包括：

6.根据权利要求1所述的业务关键词的提取方法，其特征在于，所述通过预置神经网络模型中的嵌入层，将所述分词信息进行字词向量转换，得到目标分词向量，包括：

7.根据权利要求1-6中任一项所述的业务关键词的提取方法，其特征在于，所述根据所述目标语义编码特征，对所述待处理文本信息依次进行分类和关键词提取，得到目标业务关键词之后，还包括：

8.一种业务关键词的提取装置，其特征在于，所述业务关键词的提取装置包括：

9.一种业务关键词的提取设备，其特征在于，所述业务关键词的提取设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述业务关键词的提取设备执行如权利要求1-7中任意一项所述的业务关键词的提取方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述业务关键词的提取方法。