CN114662477B

CN114662477B - 基于中医对话的停用词表生成方法、装置及存储介质

Info

Publication number: CN114662477B
Application number: CN202210238354.4A
Authority: CN
Inventors: 金晓辉; 阮晓雯; 陈远旭
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2024-02-02
Anticipated expiration: 2042-03-10
Also published as: CN114662477A

Abstract

本发明涉及人工智能技术领域，揭露一种基于中医对话的停用词表生成方法，包括：获取中医问诊的对话的文本数据；将对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；将待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将筛选获得的词向量所对应的待处理文本作为目标停用词，将初筛停用词和目标停用词合并形成基于中医对话的停用词表。本发明达到了能够有效针对中医领域中的中医对话识别场景，自动完成停用词的智能生成，达到提高中医意图识别的准确率的技术效果。

Description

基于中医对话的停用词表生成方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于中医对话的停用词表生成方法、装置及计算机可读存储介质。

背景技术

在中医智能诊疗系统中，需要通过与患者进行对话，以采集病症信息。在中医对话意图识别的场景中，具有文本短、专业名词较多、语义词汇信息复杂、且存在大量的停用词的特点。其中，停用词不仅携带较少的文本信息，而且，在文本处理过程中会对其他词语产生抑制作用，因此，需要对对话文本进行停用词预处理，以提高文本处理效率和精准度。

目前，针对于中文场景下的停用词认定方法为通过词频、特定符号剔除、领域归纳、词性删除、互信息等方法归纳所得到的通用汉语停用词表来进行判定；现有的通用汉语停用词表有百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表等；在中医对话识别这一特定专业场景中，以上通用词表存在适用性不足的弊端。

因此，亟需一种适用于中医对话场景的停用词表生成方法。

发明内容

本发明提供一种基于中医对话的停用词表生成方法、系统、电子设备及存储介质，其主要目的在于解决现有的中医智慧医疗场景中，中医问诊对话中停用词的筛选的问题。

为实现上述目的，本发明提供的一种基于中医对话的停用词表生成方法，应用于电子装置，包括：

获取中医问诊的对话的文本数据；

将所述对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；其中，所述初筛停用词包括英文、标点和数字字符；

将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；

将所述筛选获得的词向量所对应的待处理文本作为目标停用词，将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。

进一步，优选的，所述将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量的方法包括：

利用互信息和熵进行特征提取获得待处理文本的词向量；

利用熵阈值和互信息阈值对所述词向量进行筛选；

获得满足熵阈值和互信息阈值的词向量。

进一步，优选的，所述熵阈值和互信息阈值的确定方法包括：

将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量；其中，所述预获取的目标停用词筛选模型为通过skip-gram算法进行词嵌入表示，并运用word2vec方法进行词向量训练后获得；

将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量；并将所述待处理文本的所有句子对应的句向量形成句向量数据集；

将所述句向量数据集按照7:3划分为训练集和测试集；

通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；其中，所述停用词过滤阈值Ψ1为熵阈值，所述停用词过滤阈值Ψ2为互信息阈值。

进一步，优选的，将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量的方法包括：

运用One-Hot算法对待处理词语进行编码，将编码后的待处理词语输入目标停用词筛选模型的输入层；

利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量；

利用Softmax函数对所述向量进行归一化，获得某个词对应的词向量。

进一步，优选的，通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2的方法包括，

建立基于xgboost算法的意图识别模型；

根据互信息阈值参数的优化范围以及熵阈值参数的优化范围，将测试集上的预测结果准确率为模型拟合效果的评价指标，定义xgboost预测准确率为目标函数，运用贝叶斯全局优化方法优化停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；

获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2。

进一步，优选的，所述熵阈值参数的优化范围通过以下公式获得，

其中，P_i(w)为词w在待处理文本中i中出现的概率，n代表待处理文本中词的数量。

进一步，优选的，所述预设的中医分词模型为利用中医专业词库对LAC分词工具，利用深度学习进行训练获得。

为了解决上述问题，本发明还提供一种基于中医对话的停用词表生成系统，包括：

获取单元，用于获取中医问诊的对话的文本数据；

初筛单元，用于将所述对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；其中，所述初筛停用词包括英文、标点和数字字符；

筛选单元，用于将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将所述筛选获得的词向量所对应的待处理文本作为目标停用词；

停用词表形成单元，用于将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的基于中医对话的停用词表生成方法中的步骤。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于中医对话的停用词表生成方法。

本发明提供的上述基于中医对话的停用词表生成方法，将待处理文本作为输入，基于word2vec的目标停用词筛选模型获得熵和互信息满足预设值的词向量，从而极大降低停用词筛选的人力成本，快速得到适用于中医场景的停用词库；能够有效针对中医领域中的中医对话识别场景，自动完成停用词的智能生成，达到提高中医意图识别的准确率的技术效果。

附图说明

图1为根据本发明实施例的基于中医对话的停用词表生成方法的流程示意图；

图2为根据本发明实施例的基于中医对话的停用词表生成系统的逻辑结构框图；

图3为根据本发明实施例的实现基于中医对话的停用词表生成方法的电子设备的内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。本申请中的人工智能软件技术为基于卷积神经网络的机器学习技术。基于卷积神经网络能够应用于多种不同的领域中，如语音识别、医疗诊断、应用程序的测试等。

针对现有技术中已有的通用停用词表仅局限于专业性不强的领域，对于中医这类专业性较强的领域无法适用，以及已有的停用词认定方法如文档频度、词频、术语强度等方法未考虑到短文本特征下的适用性的技术问题，本提案提出的中医对话意图识别场景下的短文本停用词生成方法，能够有效针对中医领域，中医意图识别场景，自动完成停用词的智能生成，并提高中医意图识别的准确率。首先利用预训练的LAC工具进行分词处理，获得待处理文本；然后将待处理文本作为输入基于word2vec的目标停用词筛选模型获得熵和互信息满足预设值的词向量；其中，所述基于word2vec的目标停用词筛选模型包含采用主动学习(Active Learning)来训练的XGboost分类器，从而极大降低停用词筛选的人力成本，快速得到适用于中医场景的停用词库。

名词解释：

LAC全称Lexical Analysis of Chinese，是百度NLP(自然语言处理部)研发的一款词法分析工具，可实现中文分词、词性标注、专名识别等功能。

word2vec模型的其中输入层是一个one-hot向量，隐层是一个N维稠密向量，输出层是一个V维稠密向量，W表示词典的向量化矩阵，也是输入到隐层以及隐层到输出的权重参数；因此输入层到隐层表示对上下文词进行向量化，而隐层到输出层，表示计算上下文词与词典的每个目标词进行点积计算(softmax过程)。word2vec模型中常见的模型有：CBOW(Continuous Bag Of Words Model)，Skip-gram(Continuous Skip-gram Model)。

Skip-Gram算法(Continuous Skip-gram Model)：使用目标词向量作为输入，求得其与输出词空间的相关性分布，进而使用softmax函数得到在整个输出词空间上的命中概率，与one-hot编码的上下文词逐一计算交叉熵，求和后即为loss值，通过loss针对输入和输出词向量的梯度，即可使用梯度下降(gradient descent)法得到一次针对输入和输出词向量的迭代调整。

XGBoost(eXtreme Gradient Boosting，极端梯度提升)是大规模并行boostedtree的工具，XGBoost所应用的算法是GBDT(gradient boosting decision tree)的改进，既可以用于分类也可以用于回归问题中，是特征(feature)到结果/标签(label)之间的映射。

softmax函数，又称归一化指数函数。

具体的，作为示例，图1为本发明一实施例提供的基于中医对话的停用词表生成方法的流程示意图。参照图1所示，本发明提供一种基于中医对话的停用词表生成方法，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于中医对话的停用词表生成方法包括：步骤S110～S140。

S110、获取中医问诊的对话的文本数据。

具体地说，将实际业务中的医生与患者的意图对话文本作为语料，在基于深度学习训练得到的百度LAC分词工具中添加中医专业词库，运用LAC工具针对对话文本进行分词，将文本中的英文、标点、数学字符进行剔除并纳入停用词词库。

S120、将所述对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；其中，所述初筛停用词包括英文、标点和数字字符。

所述预设的中医分词模型为利用中医专业词库对LAC分词工具，利用深度学习进行训练获得。

具体地说，服务器根据最短路径分词算法对目标文本数据进行分词，得到分词结果；服务器基于预设词标注模型对分词结果进行词标注，得到标注后的待处理文本。其中，中医分词模型可以为条件随机场CRF模型，也可以为其他词标注模型，具体此处不做限定，提高了词标注的准确性。所述中医分词模型为利用中医专业词库对现有的LAC分词工具，利用深度学习进行训练获得。具体的实现方式可以但不限于为BiLSTM+CRF、BERT++LAC；在一个具体的实施例中，利用中医专业词库训练过的中文开源词法分析工具LAC框架对知识信息进行文本标注，得到待处理文本。

S130、将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量。

具体地说，将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量的方法包括：利用互信息和熵进行特征提取获得待处理文本的词向量；利用熵阈值和互信息阈值对所述词向量进行筛选；获得满足熵阈值和互信息阈值的词向量。总的来说，目标停用词筛选模型的训练方法包括：所述目标停用词筛选模型通过贝叶斯优化算法、训练数据集以及测试数据集对预获取的模型进行训练，测试及筛选，输出目标停用词筛选模型。

需要说明的是，目标停用词筛选模型利用词向量完成文本表示、特征提取、文本分类多个环节。特征提取可看作降维的过程，从特征空间中筛选出主要特征，新的特征子集能够更简洁准确的表现文本类别差异，提高分类性能，常用的特征提取算法有TF-IDF、期望交叉熵、互信息、信息增益、卡方检验等方法，此外文本证据权、基尼指数、特征聚类等方法也常被用于特征降维。

在具体的实施过程中利用互信息与熵相结合进行特征提取；互信息(PMI)主要考虑相邻两个字词之间的凝聚度，通过比较相邻两个字词共现的概率和两个字词单独出现的概率，来判断这两个字词是否是一个成词。除互信息外，还需要考虑熵。而熵其侧重于词语组合的自由程度。一个固定的新词，其与前后文字的组合应该是非常丰富的，若出现了非常固定的组合，则表明该词应该进一步合并。

在具体的实施的过程中，基于熵与互信息两个指标进行停用词筛选,其中，熵计算和互信息是并列计算的两个标准。熵计算是一个词出现的平均信息量，可以对词的有效性进行计算，待计算完成后统计其最大值最小值，进而确定阈值寻优范围Ψ1。

所述熵阈值参数的优化范围通过以下公式获得，

基于上述公式中，进行词的平均信息量进行计算，并按照信息量的大小进行排序。熵计算的结果可以代表词的平均信息量，相对于传统的词频指标能够更加准确的度量文本的准确性，更适用于短文本与中医领域的停用词场景。

互信息衡量的是某个词和类别之间的统计独立关系，类别即某段对话文本所属于的意图类别标签c。设t为某个词，c为对话所属于的意图类别，它们的互信息定义如下:

其中，C(t,c)是c类文本中出现t的文档数；C(t)、C(c)是c类的文档数；N为训练语料中总的文档数。互信息的优点是考虑了低频词带有信息量的情况，对于短文本的适用性更好。

所述熵阈值和互信息阈值的确定方法包括：

S131、将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量；其中，所述预获取的目标停用词筛选模型为通过skip-gram算法进行词嵌入表示，并运用word2vec方法进行词向量训练后获得。

将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量的方法包括：

S1311、运用One-Hot算法对待处理词语进行编码，将编码后的待处理词语输入目标停用词筛选模型的输入层；也就是说，Skip-Gram开始时通过输入层输入一个One-Hot的表示形式，即对句子序列中的词语按照顺序进行排列，每个词语对应的One-Hot就是将该词出现的位置的实数值1，其余各个位置均置0，组成一个长度为句子序列长度的向量。

S1312、利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量；其中，所述隐含层的节点数即为词向量的维度。具体地说，输入层之后为隐含层，隐含层的节点个数自行设置，设置的节点个数就是所生成词向量的维度；其中，如果句子序列相对较长时，那么每个词语对应的One-Hot形式的向量维度也会较大，而且所表示的语义特征也比较稀疏，那么就需要通过隐含层对其进行降维，从而降低计算的复杂度。在降维的过程中，起到关键作用的就是输入层与隐含层的权重矩阵，假设有某文本中词汇量为1000，其中每个词语的One-Hot形式的向量均为1000维，如果想要将其训练生成300维的词向量，那么隐含层的节点个数就可以设置为300，在隐含层形成一个[1000，300]的参数矩阵，根据矩阵之间的乘法，某一One-Hot形式的行向量和矩阵相乘，得到的就是矩阵的某一行，这样就成功的将1000维降成了300维。本质上来讲，这个参数矩阵就对应了整个文本所对应的词向量。

S1313、利用Softmax函数对所述向量进行归一化，获得某个词对应的词向量。具体地说，在输入层，神经元的节点个数为文本中词语的总数，在隐含层和输入层之间存在一个参数矩阵，词向量在经过矩阵计算后进行Softmax归一化，重新形成一个向量，即生成了一个文本的词向量。依然假设为1000，那么在隐含层与输出层之间会存在一个大小为[300，1000]的参数矩阵，词向量会在这里经过矩阵计算之后进行Softmax归一化，重新形成一个1000维的向量，其实际意义就是获得了1000个维度为300的归一化向量，至此，就生成了一个文本的词向量。

S132、将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量；并将所述待处理文本的所有句子对应的句向量形成句向量数据集。

S133、将所述句向量数据集按照7:3划分为训练集和测试集。

S134、通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；其中，所述停用词过滤阈值Ψ1为熵阈值，所述停用词过滤阈值Ψ2为互信息阈值。

通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2的方法包括：S1341、建立基于xgboost算法的意图识别模型；需要说明的是，根据互信息阈值参数的优化范围以及熵阈值参数的优化范围；需要说明的是，对待处理文本，词频数据和频率数据，获取所述待处理文本的熵值和互信息值；并根据所述熵值的范围确定熵阈值参数的优化范围；根据所述互信息值的范围确定互信息阈值参数的优化范围。S1342、根据互信息阈值参数的优化范围以及熵阈值参数的优化范围，将测试集上的预测结果Accuracy(测试集上的预测结果准确率)为模型拟合效果的评价指标，定义xgboost预测Accuracy(定义xgboost预测准确率为目标函数)为目标函数，运用贝叶斯全局优化方法优化停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；S1343、获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2。

需要说明的是，Xgboost是boosting的集成学习，以分类回归树(CART树)进行组合。Xgboost分类算法是一次迭代完才能进行下一次迭代的。通过基于预设的样本筛选策略的主动学习算法对XGboost分类模型进行分类训练，直至XGboost分类模型收敛，使用XGboost分类模型对词库中的词汇进行标注。使用Word2Vec算法对目标词汇进行词向量训练，获得词向量，将词向量作为特征训练XGboost分类模型，分类的每个类别对应一个词语类型标签，采用基于贝叶斯优化的Active Learning方式来迭代训练该XGboost分类模型，直至XGboost分类模型收敛。

具体地说，基于word2vec训练所得到的文本句向量，按照7：3的比例划分为训练集与测试集；采用xgboost算法构建意图识别模型，将测试集上的预测结果准确率为模型拟合效果的评价指标，结合熵阈值参数Ψ1，Ψ2，定义xgboost预测准确率为目标函数，运用贝叶斯全局优化方法优化阈值Ψ1，Ψ2，进而得到停用词过滤阈值Ψ1，Ψ2。其中，Ψ1，Ψ2可看作xgboost意图识别模型中的待优化超参数，该参数的优化通过贝叶斯优化目标函数Accuracy来进行求解。也就是说，通过句向量和xgboost分类器得到贝叶斯模型，而贝叶斯模型反过来提升训练所述xgboost分类器的参数，进而迭代循环，xgboost分类器继续融合贝叶斯模型，形成一个闭环。其中，所预设的优化阈值让这个闭环循环多次，使得xgboost分类器无限接近贝叶斯模型，进而获得了具有监督学习功能的目标停用词筛选模型。

S140、将所述筛选获得的词向量所对应的待处理文本作为目标停用词，将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。

具体地说，Word2Vec是用来产生词向量的相关模型，为浅而双层的神经网络。使用现有的Word2Vec算法对目标词汇进行词向量训练完成之后，Word2Vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。基于贝叶斯全局优化结果得到的阈值Ψ1，Ψ2，分别把熵、互信息值中低于Ψ1，Ψ2的词作为停用词，并与之前剔除的英文、标点、数学字符合并，即可得到中医对话意图识别场景下的停用词表。总体而言，中医对话意图识别场景下的短文本停用词的智能生成方法包括上述4个步骤，整个步骤已按照上述流程图封装成自动化程序，仅需输入对话文本意图数据，即可自动生成文本停用词。

综上，本发明的基于中医对话的停用词表生成方法，在充分考虑到中医场景与短文本的场景下，立足于大量真实问诊意图数据，将中医专业词汇添加进LAC句法分析词库进行精准分词，通过熵计算、互信息指标衡量词的有效性并设定停用词过滤阈值参数Ψ1，Ψ2，构建xgboost意图识别模型，以意图识别准确率为目标函数，通过贝叶斯全局优化方法确定阈值Ψ1，Ψ2，进而完成停用词的认定；进而达到中医意图识别停用词认定的自动化，提升中医意图识别精准率的技术效果。

与上述基于中医对话的停用词表生成方法相对应，本发明还提供一种基于中医对话的停用词表生成系统。图2示出了根据本发明实施例的基于中医对话的停用词表生成系统的功能模块。

如图2所示，本发明提供的基于中医对话的停用词表生成系统200可以安装于电子设备中。根据实现的功能，所述基于中医对话的停用词表生成系统200可以包括获取单元210、初筛单元220、筛选单元230和停用词表形成单元240。本发明所述单元也可以称之为模块，指的是一种能够被电子设备的处理器所执行，并且能够完成某一固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

获取单元210，用于获取中医问诊的对话的文本数据；

初筛单元220，用于将所述对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；其中，所述初筛停用词包括英文、标点和数字字符；

筛选单元230，用于将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将所述筛选获得的词向量所对应的待处理文本作为目标停用词；

停用词表形成单元240，用于将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。

本发明所提供的上述基于中医对话的停用词表生成系统的更为具体的实现方式，均可以参照上述对基于中医对话的停用词表生成方法的实施例表述，在此不再一一列举。

通过上述实施例可以看出，本发明提出的基于中医对话的停用词表生成系统，在充分考虑到中医场景与短文本的场景下，立足于大量真实问诊意图数据，将中医专业词汇添加进LAC句法分析词库进行精准分词，通过熵计算、互信息指标衡量词的有效性并设定停用词过滤阈值参数Ψ1，Ψ2，构建xgboost意图识别模型，以意图识别准确率为目标函数，通过贝叶斯全局优化方法确定阈值Ψ1，Ψ2，进而完成停用词的认定；进而达到中医意图识别停用词认定的自动化，提升中医意图识别精准率的技术效果。

如图3所示，本发明提供一种基于中医对话的停用词表生成方法的电子设备3。

该电子设备3可以包括处理器30、存储器31和总线，还可以包括存储在存储器31中并可在所述处理器30上运行的计算机程序，如基于中医对话的停用词表生成程序32。

其中，所述存储器31至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器31在一些实施例中可以是电子设备3的内部存储单元，例如该电子设备3的移动硬盘。所述存储器31在另一些实施例中也可以是电子设备3的外部存储设备，例如电子设备3上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器31还可以既包括电子设备3的内部存储单元也包括外部存储设备。所述存储器31不仅可以用于存储安装于电子设备3的应用软件及各类数据，例如基于中医对话的停用词表生成程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器30在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器30是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块(例如基于中医对话的停用词表生成程序等)，以及调用存储在所述存储器41内的数据，以执行电子设备3的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器31以及至少一个处理器30等之间的连接通信。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备3的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备3还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器30逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备3还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备3与其他电子设备之间建立通信连接。

可选地，该电子设备3还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备3中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备3中的所述存储器31存储的基于中医对话的停用词表生成程序32是多个指令的组合，在所述处理器30中运行时，可以实现：获取中医问诊的对话的文本数据；将所述对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；其中，所述初筛停用词包括英文、标点和数字字符；将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将所述筛选获得的词向量所对应的待处理文本作为目标停用词，将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。

具体地，所述处理器30对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述基于中医对话的停用词表生成程序的私密和安全性，上述基于中医对话的停用词表生成程序存储于本服务器集群所处区块链的节点中。

进一步地，所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明实施例还提供一种计算机可读存储介质，所述存储介质可以是非易失性的，也可以是易失性的，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：获取中医问诊的对话的文本数据；将所述对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；其中，所述初筛停用词包括英文、标点和数字字符；将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将所述筛选获得的词向量所对应的待处理文本作为目标停用词，将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。

进一步，优选的，所述将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量的方法包括：利用互信息和熵进行特征提取获得待处理文本的词向量；利用熵阈值和互信息阈值对所述词向量进行筛选；获得满足熵阈值和互信息阈值的词向量。

进一步，优选的，所述熵阈值和互信息阈值的确定方法包括：将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量；其中，所述预获取的目标停用词筛选模型为通过skip-gram算法进行词嵌入表示，并运用word2vec方法进行词向量训练后获得；将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量；并将所述待处理文本的所有句子对应的句向量形成句向量数据集；将所述句向量数据集按照7:3划分为训练集和测试集；通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；其中，所述停用词过滤阈值Ψ1为熵阈值，所述停用词过滤阈值Ψ2为互信息阈值。

进一步，优选的，将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量的方法包括：运用One-Hot算法对待处理词语进行编码，将编码后的待处理词语输入目标停用词筛选模型的输入层；利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量；利用Softmax函数对所述向量进行归一化，获得某个词对应的词向量。

进一步，优选的，通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2的方法包括，建立基于xgboost算法的意图识别模型；根据互信息阈值参数的优化范围以及熵阈值参数的优化范围，将测试集上的预测结果准确率为模型拟合效果的评价指标，定义xgboost预测准确率为目标函数，运用贝叶斯全局优化方法优化停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2。

具体地，所述计算机程序被处理器执行时具体实现方法可参考实施例基于中医对话的停用词表生成方法中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等区块链可以存储医疗数据，如个人健康档案、厨房、检查报告等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于中医对话的停用词表生成方法，应用于电子装置，其特征在于，所述方法包括：

获取中医问诊的对话的文本数据；

将所述筛选获得的词向量所对应的待处理文本作为目标停用词，将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表；

其中，所述将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量的方法包括：利用互信息和熵进行特征提取获得待处理文本的词向量；利用熵阈值和互信息阈值对所述词向量进行筛选；获得满足熵阈值和互信息阈值的词向量；

所述熵阈值和互信息阈值的确定方法包括：将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量；其中，所述预获取的目标停用词筛选模型为通过skip-gram算法进行词嵌入表示，并运用word2vec方法进行词向量训练后获得；将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量；并将所述待处理文本的所有句子对应的句向量形成句向量数据集；将所述句向量数据集按照7:3划分为训练集和测试集；通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；其中，所述停用词过滤阈值Ψ1为熵阈值，所述停用词过滤阈值Ψ2为互信息阈值；

将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量的方法包括：运用One-Hot算法对待处理词语进行编码，将编码后的待处理词语输入目标停用词筛选模型的输入层；利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量；利用Softmax函数对所述向量进行归一化，获得某个词对应的词向量；

通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2的方法包括，建立基于xgboost算法的意图识别模型；根据互信息阈值参数的优化范围以及熵阈值参数的优化范围，将测试集上的预测结果准确率为模型拟合效果的评价指标，定义xgboost预测准确率为目标函数，运用贝叶斯全局优化方法优化停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2。

2.如权利要求1所述的基于中医对话的停用词表生成方法，其特征在于，

所述熵阈值参数的优化范围通过以下公式获得，

3.如权利要求1所述的基于中医对话的停用词表生成方法，其特征在于，

4.一种基于中医对话的停用词表生成系统，其特征在于，包括：

获取单元，用于获取中医问诊的对话的文本数据；

筛选单元，用于将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将所述筛选获得的词向量所对应的待处理文本作为目标停用词；其中，所述将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量的方法包括：利用互信息和熵进行特征提取获得待处理文本的词向量；利用熵阈值和互信息阈值对所述词向量进行筛选；获得满足熵阈值和互信息阈值的词向量；所述熵阈值和互信息阈值的确定方法包括：将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量；其中，所述预获取的目标停用词筛选模型为通过skip-gram算法进行词嵌入表示，并运用word2vec方法进行词向量训练后获得；将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量；并将所述待处理文本的所有句子对应的句向量形成句向量数据集；将所述句向量数据集按照7:3划分为训练集和测试集；通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；其中，所述停用词过滤阈值Ψ1为熵阈值，所述停用词过滤阈值Ψ2为互信息阈值；将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量的方法包括：运用One-Hot算法对待处理词语进行编码，将编码后的待处理词语输入目标停用词筛选模型的输入层；利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量；利用Softmax函数对所述向量进行归一化，获得某个词对应的词向量；通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2的方法包括，建立基于xgboost算法的意图识别模型；根据互信息阈值参数的优化范围以及熵阈值参数的优化范围，将测试集上的预测结果准确率为模型拟合效果的评价指标，定义xgboost预测准确率为目标函数，运用贝叶斯全局优化方法优化停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；

5.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至3中任一所述的基于中医对话的停用词表生成方法中的步骤。

6.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一所述的基于中医对话的停用词表生成方法。