CN112927807B

CN112927807B - 一种食源性检测模型训练方法、疾病检测方法

Info

Publication number: CN112927807B
Application number: CN202011528368.7A
Authority: CN
Inventors: 高望; 董晓坤; 周静; 陶俊; 曾鹏; 曾凡综
Original assignee: Jianghan University
Current assignee: Jianghan University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-03-26
Anticipated expiration: 2040-12-22
Also published as: CN112927807A

Abstract

本发明涉及一种食源性检测模型训练方法、疾病检测方法，该训练方法包括：获取包含标注信息的社交文本数据训练集，标注信息包括社交文本数据对应的实际主题标签；将社交文本数据训练集输入至食源性检测模型，依次进行主题抽取处理、词嵌入处理和归一化处理，确定对应的预测文本标签；根据实际文本标签与预测文本标签之间的误差，确定损失函数的值；根据损失函数的值调整食源性检测模型的参数直至满足收敛条件，完成对食源性检测模型的训练，并将食源性检测模型进行存储。本发明提供的模型依次进行主题抽取处理、词嵌入处理和归一化处理，对文本信息进行了有效的智能检测，为进一步食源性疾病的管理与防治提供有力支撑。

Description

一种食源性检测模型训练方法、疾病检测方法

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种食源性检测模型训练方法、疾病检测方法。

背景技术

食源性疾病是指通过摄食而进入人体的有毒有害物质(包括生物性病原体)等致病因子所造成的疾病，已经成为当前我国食品安全的焦点问题。随着我国经济的高速发展，人们的生活水平不断提高，公众对食源性疾病的认知和关注度越来越高。近年来，社交媒体已经融入到人们的日常生活中，改变着人们的生活和行为方式，各个社交媒体平台所产生大量的数据中含有各种有关食源性疾病的信息。因此，如何利用短文本事件检测的关键技术识别出社交媒体数据中与食源性疾病事件有关的信息，具有广泛的研究价值和应用前景。

现有技术中，基于传统神经网络的事件检测模型存在以下弊端：一方面，网络参数的数量过多，从而需要消耗大量内存资源，此外，这类方法的结构和参数都和训练语料紧密相关，并且在训练完成后无法更改，因此，它们难以检测训练语料之外的文本数据；另一方面，短文本是社交媒体平台上文本信息的主要形式，这是因为社交媒体文本长度较短并且特征稀疏，而传统神经网络难以获得高质量的全局表示，因而对于短文本的检测效果不佳。

综上，如何利用社交媒体进行高效精准的食源性疾病检测是亟待解决的问题。

发明内容

有鉴于此，有必要提供一种食源性检测模型训练方法、疾病检测方法，用以解决现有技术中如何利用社交媒体进行高效精准的食源性疾病检测的问题。

本发明提供一种食源性检测模型训练方法，包括：

获取包含标注信息的社交文本数据训练集，所述标注信息包括社交文本数据对应的实际主题标签；

将所述社交文本数据训练集输入至食源性检测模型，依次进行主题抽取处理、词嵌入处理和归一化处理，确定对应的预测文本标签；

根据所述实际文本标签与所述预测文本标签之间的误差，确定损失函数的值；

根据所述损失函数的值调整所述食源性检测模型的参数直至满足收敛条件，完成对所述食源性检测模型的训练，并将所述食源性检测模型进行存储。

进一步地，所述获取包含标注信息的社交文本数据训练集包括：

爬取网页中含有食源性疾病关键词的媒体文本；

根据所述食源性疾病关键词，对社交媒体文本进行预处理，确定所述社交文本数据；

根据对所述社交文本数据的人工标注结果，确定所述社交文本数据的所述实际主题标签；

将所述实际主题标签作为对应的所述社交文本数据的标注信息，生成所述包含标注信息的社交文本数据训练集。

进一步地，所述根据所述食源性疾病关键词，对所述社交文本数据进行预处理包括：

根据所述食源性疾病关键词，对所述媒体文本进行分词；

去除所述媒体文本中的非中文字符；

去除词数量小于三的所述媒体文本。

进一步地，所述将所述社交文本数据训练集输入至食源性检测模型，依次进行主题抽取处理、词嵌入处理和归一化处理，确定对应的预测文本标签包括：

通过CRFTM主题模型对所述社交文本数据进行主题抽取，确定对应的组成词向量和主题标签向量，其中，所述CRFTM模型为在LDA模型的潜在主题层上增加了一个条件随机场层而生成的模型；

通过图卷积将所述组成词向量和所述主题标签向量输入至文本级图的节点和边长，确定所述文本级图更新后的输出向量；

根据所述文本级图更新后的输出向量进行词嵌入处理和归一化处理，确定对应的预测主题标签。

进一步地，所述通过CRFTM主题模型对所述社交文本数据进行主题抽取，确定对应的组成词向量和主题标签向量包括：

根据预设的最小平均距离，将所述社交文本数据中的短文本聚合为具有常规长度的伪长文本，其中，所述伪长文本包括多个组成词；

根据所述伪长文本，建立每个所述组成词的分布特征模型，以及所述伪长文本的主题标签模型；

根据所述分布特征模型和所述主题标签模型，确定每个所述社交文本数据的所述组成词向量和所述主题标签向量。

进一步地，所述食源性检测模型中的节点和边长表示如下：

其中，为所述社交文本数据的所述组成词向量，N_S为所述社交文本数据S中组成词的数目，w_i是第i个组成词的向量表示，/>是所述社交文本数据S的所述主题标签向量，t_i为第i个所述组成词对应的主题标签的向量表示，/>为所述文本级图中的节点的向量表示的集合，ε为所述文本级图中的边长权重的集合，c为窗口大小，/>为第i个组成词的向量表示w_i对应的节点和第j个组成词的向量表示 w_j对应的节点之间的边长权重，/>为第i个组成词的向量表示w_i对应的节点和第i个组成词的主题标签的向量表示t_i对应的节点之间的边长权重。

进一步地，所述通过图卷积将所述社交文本数据训练集输入至食源性检测模型中文本级图的节点和边长，确定所述文本级图更新后的输出向量包括：

针对所述文本级图，根据每个所述节点对应的所述边长权重和接收到的相邻节点的向量信息，更新每个所述节点的原始向量表示，其中，所述原始向量表示包括第i个组成词的向量表示w_i、第i个组成词的主题标签的向量表示t_i；

根据每个所述节点更新后的原始向量表示，确定所述文本级图更新后的输出向量。

进一步地，所述文本级图更新后的输出向量表示如下：

其中，I_n为第n个节点对应的所述接收到的相邻节点的向量信息， N_n为第n个节点对应的所有相邻节点的数目，e_nj为第n个节点和第j 个节点之间的边长权重，r_j为第j个节点的原始向量表示，r′_n为第n个节点对应的更新后的输出向量，λ_n为权衡参数，O_G为所述文本级图更新后的输出向量。

进一步地，所述根据所述文本级图更新后的输出向量进行词嵌入处理和归一化处理，确定对应的预测主题标签包括：

根据BERT模型层，初始化词嵌入向量；

将所述文本级图中每个所述节点的原始向量表示作为所述BERT模型层的输入，通过所述BERT模型层对每个所述节点的原始向量表示和所述词嵌入向量进行拼接处理，确定所述BERT模型层输出的嵌入向量；

将所述BERT模型层输出的嵌入向量作为BiGRU分类层的输入，确定所述BiGRU分类层的输出向量；

将所述文本级图更新后的输出向量和所述BiGRU分类层输出的输出向量输入至softmax层，经所述softmax层的归一化处理，输出所述预测主题标签。

本发明还提供一种食源性疾病检测方法，包括：

获取社交文本数据；

将所述社交文本数据输入至食源性检测模型，确定对应的预测文本标签，其中，所述食源性检测模型采用如上所述的食源性检测模型训练方法进行训练得到。

与现有技术相比，本发明的有益效果包括：在本发明提供的食源性检测模型训练方法中，首先，获取包含实际主题标签的社交文本数据训练集，以便后续进行有效训练；然后，通过食源性检测模型对其中的社交文本数据，进行主题抽取处理、词嵌入处理和归一化处理，以此利用行主题抽取处理抽取出其中的主题词，利用词嵌入处理进行有效的词嵌入，避免短文本的稀疏性，利用归一化处理进行快速便捷的数据映射，以此高效确定对应的预测文本标签；最后，利用实际文本标签与预测文本标签之间的误差进行参数调节，保证建立高效准确的食源性检测模型，利用该食源性检测模型即可快速检测社交文本数据，智能判断相应的食源性疾病发生的情况。综上，本发明提供的食源性检测模型训练方法，利用主题抽取处理、词嵌入处理和归一化处理，进行快速简便的模型建立，有效解决了短文本的稀疏性问题，基于社交文本数据，实现了高效的食源性疾病的查找。在本发明提供的食源性疾病检测方法中，利用上述食源性检测模型，自动帮用户检测社交文本数据，有效地查找其中的食源性疾病发生事件，为进一步食源性疾病的管理与防治提供了有力支撑。

附图说明

图1为本发明提供的食源性检测模型训练方法的流程示意图；

图2为本发明提供的获取社交文本数据训练集的流程示意图；

图3为本发明提供的确定预测文本标签的流程示意图；

图4为本发明提供的主题抽取的流程示意图；

图5为本发明实施例提供的文本级图的总体架构图；

图6为本发明提供的确定文本级图更新后的输出向量的流程示意图；

图7为本发明提供的词嵌入处理和归一化处理的流程示意图；

图8为本发明提供的模型结构示意图；

图9为本发明提供的实验结果示意图；

图10为本发明提供的食源性检测模型训练装置的结构示意图；

图11为本发明提供的食源性疾病检测方法的流程示意图；

图12为本发明提供的食源性疾病检测装置的结构示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

本发明实施例提供了一种食源性检测模型训练方法，结合图1来看，图1为本发明提供的食源性检测模型训练方法的流程示意图，上述食源性检测模型训练方法包括步骤S101至步骤S104，其中：

在步骤S101中，获取包含标注信息的社交文本数据训练集，标注信息包括社交文本数据对应的实际主题标签；

在步骤S102中，将社交文本数据训练集输入至食源性检测模型(下文可简称为EDGNN模型)，依次进行主题抽取处理、词嵌入处理和归一化处理，确定对应的预测文本标签；

在步骤S103中，根据实际文本标签与预测文本标签之间的误差，确定损失函数的值；

在步骤S104中，根据损失函数的值调整食源性检测模型的参数直至满足收敛条件，完成对食源性检测模型的训练，并将食源性检测模型进行存储。

在本发明实施例中，首先，获取包含实际主题标签的社交文本数据训练集，以便后续进行有效训练；然后，通过食源性检测模型对其中的社交文本数据，进行主题抽取处理、词嵌入处理和归一化处理，以此利用行主题抽取处理抽取出其中的主题词，利用词嵌入处理进行有效的词嵌入，避免短文本的稀疏性，利用归一化处理进行快速便捷的数据映射，以此高效确定对应的预测文本标签；最后，利用实际文本标签与预测文本标签之间的误差进行参数调节，保证建立高效准确的食源性检测模型，利用该食源性检测模型即可快速检测社交文本数据，智能判断相应的食源性疾病发生的情况。综上，本发明提供的食源性检测模型训练方法，利用主题抽取处理、词嵌入处理和归一化处理，进行快速简便的模型建立，有效解决了短文本的稀疏性问题，基于社交文本数据，实现了高效的食源性疾病的查找。

需要说明的是，本发明中利用了CRFTM主题模型、BERT模型层、 BiGRU分类层，对应解释如下：

CRFTM(Conditional Random Field regularized Topic Model，辅以条件随机场的主题模型)主题模型：是一个辅以条件随机场的主题模型，来同时解决短文本主题建模过程中的稀疏性和词义消歧问题，CRFTM模型在LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)模型的潜在主题层上增加了一个条件随机场层(Conditional RandomField，CRF)以提高语义相关词归属于同一主题的概率，从而提高生成主题的质量。其中，在CRFTM模型中，定义了如下两种类型的语义关联关系:全局语义关联用于提高语义相关词共享同一主题标签的概率，从而提高生成主题的主题一致性；局部语义关联用于识别多义词的不同语义，从而减少主题推断过程中由歧义词造成的噪声。两种语义关联分别使用不同的特征函数进行建模。

BERT(Bidirectional Encoder Representations from Transformers，深度语言表示模型)模型层：BERT模型的网络架构使用的是多层Transformer 结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。其中，BERT模型的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。

BiGRU(双向门控循环神经网络)层：BiGRU是BiLSTM的一种变体，它在BiLSTM的基础上进行了简化，将LSTM中的输入门和遗忘门合并成了单一的更新门，同时也将细胞状态和隐藏层状态混合在了一起。

优选地，结合图2来看，图2为本发明提供的获取社交文本数据训练集的流程示意图，上述步骤S101包括步骤S1011至步骤S1014，其中：

在步骤S1011中，爬取网页中含有食源性疾病关键词的媒体文本；

在步骤S1012中，根据食源性疾病关键词，对社交媒体文本进行预处理，确定社交文本数据；

在步骤S1013中，根据对社交文本数据的人工标注结果，确定社交文本数据的实际主题标签；

在步骤S1014中，将实际主题标签作为对应的社交文本数据的标注信息，生成包含标注信息的社交文本数据训练集。

由此，本发明通过爬取媒体文本，并对媒体文本进行预处理，确定社交文本数据，进而通过人工标注，确定社交文本数据的实际主题标签，以此生成有效的社交文本数据训练集。

需要说明的是，爬虫收集大量含有食源性疾病关键词的社交媒体文本数据，含有关键词的短文本不表示该短文本与食源性疾病事件一定相关，这些短文本可能来自提供专业健康建议的社交媒体账户。例如，“呕吐”和“恶心”是食源性疾病关键词，但是这些账户可能会发布诸如“喝酒恶心怎么快速缓解”或“如何在怀孕期间避免呕吐”等文本内容。因此，还需要对这些社交媒体文本数据进一步处理，才能高效检测出社交媒体文本中的食源性疾病事件。

优选地，步骤S1012具体包括：根据食源性疾病关键词，对媒体文本进行分词；去除媒体文本中的非中文字符；去除词数量小于三的媒体文本。由此，通过分词、过滤的数据处理，去除其中的无效数据，保证社交文本数据训练集的有效性，以便后续模型的准确建立。

优选地，结合图3来看，图3为本发明提供的确定预测文本标签的流程示意图，上述步骤S102包括步骤S1021至步骤S1023，其中：

在步骤S1021中，通过CRFTM主题模型对社交文本数据进行主题抽取，确定对应的组成词向量和主题标签向量；

在步骤S1022中，通过图卷积将组成词向量和主题标签向量输入至文本级图的节点和边长，确定文本级图更新后的输出向量；

在步骤S1023中，根据文本级图更新后的输出向量进行词嵌入处理和归一化处理，确定对应的预测主题标签。

由此，通过CRFTM主题模型进行有效的主题抽取，并利用主题抽取的结果作为文本级图的输入并进行更新，进一步进行词嵌入处理和归一化处理，以此保证预测主题标签的准确性。

优选地，结合图4来看，图4为本发明提供的主题抽取的流程示意图，上述步骤S1021包括步骤S10211至步骤S10213，其中：

在步骤S10211中，根据预设的最小平均距离，将社交文本数据中的短文本聚合为具有常规长度的伪长文本，其中，伪长文本包括多个组成词；

在步骤S10212中，根据伪长文本，建立每个组成词的分布特征模型，以及伪长文本的主题标签模型；

在步骤S10213中，根据分布特征模型和主题标签模型，确定每个社交文本数据的组成词向量和主题标签向量。

由此，首先，现将短文本聚合为具有常规长度的伪长文本，以此避免数据的稀疏性；然后，利用组成词的分布特征模型以及伪长文本的主题标签模型，有效反映文本的构成和主题；最后，利用分布特征模型和主题标签模型，确定组成词向量和主题标签向量，利用图卷积，将其作为文本级图的输入。

需要说明的是，诸如LDA之类的传统主题模型已广泛应用于从文本语料中提取主题。但是，传统主题建模算法在规范地长文本上已经取得了巨大的成功，但是在短文本上效果却不尽如人意。这主要是因为传统主题模型通过捕获文本级词共现信息来抽取潜在主题，而短文本的数据稀疏性导致词共现信息不足，从而影响主题建模性能。为了解决稀疏性问题，本发明利用CRFTM主题模型抽取短文本中每个词的主题标签。 CRFTM主题模型首先将短文本聚合成较长的伪长文本，然后提高语义相关词归属于同一主题标签的概率。

在本发明一个具体的实施例中，CRFTM主题模型首先利用基于词嵌入的最小平均距离EMAD将短文本聚合为常规长度的伪长文本，其中， EMAD距离能够在可能属于同一主题的两个短文本中找到语义相关的词对。其次，对于每个主题k，CRFTM主题模型针对整个语料进行采样主题—词分布φ_k～Dir(β)和主题—文档分布θ～Dir(α)，其中a和β表示狄里克雷先验。对于每个伪长文本m，CRFTM主题模型采样每个词并且每个伪长文本m的主题标签z_m可定义为：

其中，N_m表示m中词的数量，x_mi表示第i个词的上下文词，Ψ表示势函数。CRFTM主题模型将生成整个语料中每个词的主题标签以及主题 —词矩阵，该矩阵表示每个主题中词的分布。在EDGNN模型中，图中每个词节点和它对应主题节点之间都会存在一条边，该边的初始权重从主题—词矩阵中获得。

具体地，食源性检测模型中的节点和边长表示如下：

其中，为社交文本数据的组成词向量，N_S为社交文本数据S中组成词的数目，w_i是第i个组成词的向量表示，/>是社交文本数据S的主题标签向量，t_i为第i个组成词对应的主题标签的向量表示，v为文本级图中的节点的向量表示的集合，ε 为文本级图中的边长权重的集合，c为窗口大小，/>为第i个组成词的向量表示w_i对应的节点和第j个组成词的向量表示w_j对应的节点之间的边长权重，/>为第i个组成词的向量表示w_i对应的节点和第i个组成词的主题标签的向量表示t_i对应的节点之间的边长权重。

由此，利用图卷积，将组成词向量和主题标签向量作为文本级图的输入，有效地衡量每个主题词之间的相关性。其中，词节点之间边的权重使用点对互信息PMI初始化，这也是衡量词相关性的常用方法。

在本发明一个具体的实施例中，结合图5来看，图5为本发明实施例提供的文本级图的总体架构图。为了便于显示，在图5中，窗口大小c 设置为2，如该图底部所示，文本级图的所有参数均从全局共享矩阵中获得。

需要说明的是，仍结合图5来看，令表示一条社交文本数据(形式为短文本)，其中N_S表示S中词的数目，w_i是第i个词的向量表示。/>是S中每个词的主题标签向量，其中t_i是第 i个主题的向量表示。由于，社交文本数据S中的多个词可能属于同一主题，因此主题标签向量T中存在重复项，并且w_i和t_i可以在训练过程中动态更新。对于给定社交文本数据S，EDGNN模型将社交文本数据S中出现的所有词和相应主题视为文本级图/>中的节点。在文本级图/>中，社交文本数据S中固定大小窗口中的每个词与它相邻词之间都存在一条边，并且每个词节点和它对应的主题节点之间也存在一条边。

优选地，结合图6来看，图6为本发明提供的确定文本级图更新后的输出向量的流程示意图，上述步骤S1022包括步骤S10221至步骤 S10222，其中：

在步骤S10221中，针对文本级图，根据每个节点对应的边长权重和接收到的相邻节点的向量信息，更新每个节点的原始向量表示，其中，原始向量表示包括第i个组成词的向量表示w_i、第i个组成词的主题标签的向量表示t_i；

在步骤S10222中，根据每个节点更新后的原始向量表示，确定文本级图更新后的输出向量。

由此，利用文本级图的消息传递机制，使每个节点表示的更新受相邻节点的影响，这使每个节点能够从上下文中收集信息，因而，结合相邻节点的向量信息和边长权重对文本级图进行有效地更新，反馈更新后的输出向量。

具体地，文本级图更新后的输出向量表示如下：

其中，I_n为第n个节点对应的接收到的相邻节点的向量信息，N_n为第n个节点对应的所有相邻节点的数目，e_nj为第n个节点和第j个节点之间的边长权重，r_j为第j个节点的原始向量表示，r′_n为第n个节点对应的更新后的输出向量，λ_n为权衡参数，O_G为文本级图更新后的输出向量。

需要说明的是，表示节点n从它相邻节点接收到的信息，/>表示节点n的所有相邻节点。max表示归约函数，该函数将每个维度中的最大值合并以创建新的嵌入向量。/>表示节点n与j之间边的权重，该权重使用PMI或主题—词矩阵进行初始化，并在训练过程中进行更新。/>和r'_n是节点n的原始向量表示和更新后的向量表示。可训练的权衡参数λ_n控制着r_n中应保留信息量的程度。消息传递机制使每个节点表示的更新受相邻节点的影响，这使每个节点能够从上下文中收集信息。因此，即使对于多义词，EDGNN模型也可以通过来自相邻词和主题的信息来辨析它们的准确含义。此外，由于图中的所有参数都可以从全局共享矩阵中获得，因此EDGNN模型在训练过程中引入了全局信息。

优选地，结合图7、图8来看，图7为本发明提供的词嵌入处理和归一化处理的流程示意图，图8为本发明提供的模型结构示意图，上述步骤S1023包括步骤S10231至步骤S10234，其中：

在步骤S10231中，根据BERT模型层，初始化词嵌入向量；

在步骤S10232中，将文本级图中每个节点的原始向量表示作为 BERT模型层的输入，通过BERT模型层对每个节点的原始向量表示和词嵌入向量进行拼接处理，确定BERT模型层输出的嵌入向量；

在步骤S10233中，将BERT模型层输出的嵌入向量作为BiGRU分类层的输入，确定BiGRU分类层的输出向量；

在步骤S10234中，将文本级图更新后的输出向量和BiGRU分类层输出的输出向量输入至softmax层，经softmax层的归一化处理，输出预测主题标签。

由此，将BERT模型用于面向社交媒体文本的食源性疾病事件检测， BERT模型的输出并不直接用于事件检测，BERT模型隐藏层生产的词向量v可以表示上下文相关的词嵌入，与仅使用图神经网络或BERT相比，本发明提供的EDGNN模型将图向量文本级图与BERT模型生成的词嵌入相结合，从而实现更好的食源性疾病事件检测性。结合图8来看，图8中，O为文本级图更新后的输出向量，将文本级图更新后的输出向量和BiGRU分类层的输出向量一起输入至softmax层进行归一化处理。

优选地，步骤S10234的过程表示如下：

其中，表示预测主题标签，K_G表示文本级图/>的输出向量和 BiGRU分类层输出的输出向量形成softmax层的输入向量，W和b表示权重矩阵和偏置项，Relu是激活函数。

其中，损失函数表示如下：

其中，表示第i个主题词的实际预测标签，/>表示预测主题标签。需要说明的是，本发明使用的数据集是根据相关关键词从新浪微博平台爬取的短文本数据集，经过人工标注后，本发明随机选择30％的数据作为测试数据集，剩余的数据作为训练数据集，并从训练数据集随机选择 10％作为验证数据集。

在本发明一个具体的实施例中，结合图9来看，图9为本发明提供的实验结果示意图，在文本级图的训练中，EDGNN模型使用随机向量初始化图节点表示并将维度设置为300，窗口大小c设置为3，主题数目设置为30，在图的训练过程中，EDGNN模型使用Adam优化器，并将Dropout概率和初始学习率分别设置为0.5和0.01。当连续10个时间段验证集的损失都未减少时，训练过程将停止。对于BERT模型，EDGNN使用BERT-base(Chinese)，隐藏层大小为768，头数和层数设置为12。实验结果如图9所示，本发明所提出的方法在3个评价指标上均要优于4种基准模型，从而验证了本发明的先进性，其中，基准模型包括CNN模型、LSTM模型、TextGCN模型和BERT模型。

实施例2

本发明实施例提供了一种食源性检测模型训练装置，结合图10来看，图10为本发明提供的食源性检测模型训练装置的结构示意图，其中食源性检测模型训练装置1000包括：

第一获取单元1001，用于获取包含标注信息的社交文本数据训练集，标注信息包括社交文本数据对应的实际主题标签；

第一处理单元1002，用于将社交文本数据训练集输入至食源性检测模型，依次进行主题抽取处理、词嵌入处理和归一化处理，确定对应的预测文本标签；还用于根据实际文本标签与预测文本标签之间的误差，确定损失函数的值；

训练单元1003，用于根据损失函数的值调整食源性检测模型的参数直至满足收敛条件，完成对食源性检测模型的训练，并将食源性检测模型进行存储。

实施例3

本发明实施例提供了一种食源性疾病检测方法，结合图11来看，图 11为本发明提供的食源性疾病检测方法的流程示意图，上述食源性疾病检测方法包括步骤S201至步骤S202，其中：

在步骤S201中，获取社交文本数据；

在步骤S202中，将社交文本数据输入至食源性检测模型，确定对应的预测文本标签，其中，食源性检测模型采用如上所述的食源性检测模型训练方法进行训练得到。

在本发明实施例中，利用上述食源性检测模型，自动帮用户检测社交文本数据，有效地查找其中的食源性疾病发生事件，为进一步食源性疾病的管理与防治提供了有力支撑。

实施例4

本发明实施例提供了一种食源性疾病检测装置，结合图12来看，图 12为本发明提供的食源性疾病检测装置的结构示意图，其中，食源性疾病检测装置1200包括：

第二获取单元1201，用于获取社交文本数据；

第二处理单元1202，用于将社交文本数据输入至食源性检测模型，确定对应的预测文本标签，其中，食源性检测模型采用如上所述的食源性检测模型训练方法进行训练得到。

实施例5

本发明实施例提供了一种食源性检测模型训练设备，包括处理器以及存储器，存储器上存储有计算机程序，计算机程序被处理器执行时，实现如上所述的食源性检测模型训练方法。

实施例6

本发明实施例提供了一种食源性疾病检测设备，包括处理器以及存储器，存储器上存储有计算机程序，计算机程序被处理器执行时，实现如上所述的食源性疾病检测方法。

实施例7

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机该程序被处理器执行时，实现如上所述的食源性检测模型训练方法，或实现如上所述的食源性疾病检测方法。

本发明公开了一种食源性检测模型训练方法、疾病检测方法，在本发明提供的食源性检测模型训练方法中，首先，获取包含实际主题标签的社交文本数据训练集，以便后续进行有效训练；然后，通过食源性检测模型对其中的社交文本数据，进行主题抽取处理、词嵌入处理和归一化处理，以此利用行主题抽取处理抽取出其中的主题词，利用词嵌入处理进行有效的词嵌入，避免短文本的稀疏性，利用归一化处理进行快速便捷的数据映射，以此高效确定对应的预测文本标签；最后，利用实际文本标签与预测文本标签之间的误差进行参数调节，保证建立高效准确的食源性检测模型，利用该食源性检测模型即可快速检测社交文本数据，智能判断相应的食源性疾病发生的情况。在本发明提供的食源性疾病检测方法中，利用上述食源性检测模型，自动帮用户检测社交文本数据，有效地查找其中的食源性疾病发生事件，为进一步食源性疾病的管理与防治提供了有力支撑。

本发明技术方案，利用主题抽取处理、词嵌入处理和归一化处理，进行快速简便的模型建立，有效解决了短文本的稀疏性问题，基于社交文本数据，实现了高效的食源性疾病的查找。除此之外，本发明利用主题抽取社交媒体文本的主题信息，用于丰富短文本的语义，便于构建一个边和内存消耗较少的文本级图；同时，利用词嵌入处理和归一化处理将图的输出和BERT生成的词向量拼接起来用于事件检测，以此有效降低了模型复杂度，便于模型的实际应用。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种食源性检测模型训练方法，其特征在于，包括：

将所述社交文本数据训练集输入至食源性检测模型，依次进行主题抽取处理、词嵌入处理和归一化处理，确定对应的预测主题标签；

根据所述实际主题标签与所述预测主题标签之间的误差，确定损失函数的值；

根据所述损失函数的值调整所述食源性检测模型的参数直至满足收敛条件，完成对所述食源性检测模型的训练，并将所述食源性检测模型进行存储；

所述将所述社交文本数据训练集输入至食源性检测模型，依次进行主题抽取处理、词嵌入处理和归一化处理，确定对应的预测主题标签包括：

根据所述文本级图更新后的输出向量进行词嵌入处理和归一化处理，确定对应的所述预测主题标签；

所述通过CRFTM主题模型对所述社交文本数据进行主题抽取，确定对应的组成词向量和主题标签向量包括：

根据所述分布特征模型和所述主题标签模型，确定每个所述社交文本数据的所述组成词向量和所述主题标签向量；

所述根据所述文本级图更新后的输出向量进行词嵌入处理和归一化处理，确定对应的预测主题标签包括：

根据BERT模型层，初始化词嵌入向量；

2.根据权利要求1所述的食源性检测模型训练方法，其特征在于，所述获取包含标注信息的社交文本数据训练集包括：

爬取网页中含有食源性疾病关键词的媒体文本；

3.根据权利要求2所述的食源性检测模型训练方法，其特征在于，所述根据所述食源性疾病关键词，对社交媒体文本进行预处理包括：

根据所述食源性疾病关键词，对所述社交媒体文本进行分词；

和/或去除所述社交媒体文本中的非中文字符；

和/或去除词数量小于三的所述社交媒体文本。

4.根据权利要求1所述的食源性检测模型训练方法，其特征在于，所述食源性检测模型中的节点和边长表示如下：

其中，为所述社交文本数据的所述组成词向量，/>为所述社交文本数据/>中组成词的数目，/>是第/>个组成词的向量表示，/>是所述社交文本数据/>的所述主题标签向量，/>为第/>个所述组成词对应的主题标签的向量表示，/>为所述文本级图中的节点的向量表示的集合，/>为所述文本级图中的边长权重的集合，/>为窗口大小，/>为第/>个组成词的向量表示/>对应的节点和第j个组成词的向量表示/>对应的节点之间的边长权重，/>为第/>个组成词的向量表示/>对应的节点和第/>个组成词的主题标签的向量表示/>对应的节点之间的边长权重。

5.根据权利要求4所述的食源性检测模型训练方法，其特征在于，所述通过图卷积将所述社交文本数据训练集输入至食源性检测模型中文本级图的节点和边长，确定所述文本级图更新后的输出向量包括：

针对所述文本级图，根据每个所述节点对应的所述边长权重和接收到的相邻节点的向量信息，更新每个所述节点的原始向量表示，其中，所述原始向量表示包括第个组成词的向量表示/>、第/>个组成词的主题标签的向量表示/>；

6.根据权利要求5所述的食源性检测模型训练方法，其特征在于，所述文本级图更新后的输出向量表示如下：

其中，为第n个节点对应的所述接收到的相邻节点的向量信息，/>为第n个节点对应的所有相邻节点的数目，/>为第n个节点和第j个节点之间的边长权重，/>为第j个节点的原始向量表示，/>为第n个节点对应的更新后的输出向量，/>为权衡参数，/>为所述文本级图更新后的输出向量。

7.一种食源性疾病检测方法，其特征在于，包括：

获取社交文本数据；

将所述社交文本数据输入至食源性检测模型，确定对应的预测主题标签，其中，所述食源性检测模型采用如权利要求1-6中任一项所述的食源性检测模型训练方法进行训练得到。