CN112927807B - 一种食源性检测模型训练方法、疾病检测方法 - Google Patents
一种食源性检测模型训练方法、疾病检测方法 Download PDFInfo
- Publication number
- CN112927807B CN112927807B CN202011528368.7A CN202011528368A CN112927807B CN 112927807 B CN112927807 B CN 112927807B CN 202011528368 A CN202011528368 A CN 202011528368A CN 112927807 B CN112927807 B CN 112927807B
- Authority
- CN
- China
- Prior art keywords
- text
- social
- food
- vector
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 238000012549 training Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 61
- 201000010099 disease Diseases 0.000 title abstract description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 63
- 208000019331 Foodborne disease Diseases 0.000 claims abstract description 48
- 238000010606 normalization Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 145
- 238000010586 diagram Methods 0.000 claims description 45
- 239000000470 constituent Substances 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000002265 prevention Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013506 data mapping Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 206010028813 Nausea Diseases 0.000 description 2
- 229920006934 PMI Polymers 0.000 description 2
- 206010047700 Vomiting Diseases 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008693 nausea Effects 0.000 description 2
- 230000008673 vomiting Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种食源性检测模型训练方法、疾病检测方法,该训练方法包括:获取包含标注信息的社交文本数据训练集,标注信息包括社交文本数据对应的实际主题标签;将社交文本数据训练集输入至食源性检测模型,依次进行主题抽取处理、词嵌入处理和归一化处理,确定对应的预测文本标签;根据实际文本标签与预测文本标签之间的误差,确定损失函数的值;根据损失函数的值调整食源性检测模型的参数直至满足收敛条件,完成对食源性检测模型的训练,并将食源性检测模型进行存储。本发明提供的模型依次进行主题抽取处理、词嵌入处理和归一化处理,对文本信息进行了有效的智能检测,为进一步食源性疾病的管理与防治提供有力支撑。
Description
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种食源性检测模型训 练方法、疾病检测方法。
背景技术
食源性疾病是指通过摄食而进入人体的有毒有害物质(包括生物性 病原体)等致病因子所造成的疾病,已经成为当前我国食品安全的焦点 问题。随着我国经济的高速发展,人们的生活水平不断提高,公众对食 源性疾病的认知和关注度越来越高。近年来,社交媒体已经融入到人们 的日常生活中,改变着人们的生活和行为方式,各个社交媒体平台所产生大量的数据中含有各种有关食源性疾病的信息。因此,如何利用短文 本事件检测的关键技术识别出社交媒体数据中与食源性疾病事件有关的 信息,具有广泛的研究价值和应用前景。
现有技术中,基于传统神经网络的事件检测模型存在以下弊端:一 方面,网络参数的数量过多,从而需要消耗大量内存资源,此外,这类 方法的结构和参数都和训练语料紧密相关,并且在训练完成后无法更改, 因此,它们难以检测训练语料之外的文本数据;另一方面,短文本是社 交媒体平台上文本信息的主要形式,这是因为社交媒体文本长度较短并且特征稀疏,而传统神经网络难以获得高质量的全局表示,因而对于短 文本的检测效果不佳。
综上,如何利用社交媒体进行高效精准的食源性疾病检测是亟待解 决的问题。
发明内容
有鉴于此,有必要提供一种食源性检测模型训练方法、疾病检测方 法,用以解决现有技术中如何利用社交媒体进行高效精准的食源性疾病 检测的问题。
本发明提供一种食源性检测模型训练方法,包括:
获取包含标注信息的社交文本数据训练集,所述标注信息包括社交 文本数据对应的实际主题标签;
将所述社交文本数据训练集输入至食源性检测模型,依次进行主题 抽取处理、词嵌入处理和归一化处理,确定对应的预测文本标签;
根据所述实际文本标签与所述预测文本标签之间的误差,确定损失 函数的值;
根据所述损失函数的值调整所述食源性检测模型的参数直至满足收 敛条件,完成对所述食源性检测模型的训练,并将所述食源性检测模型 进行存储。
进一步地,所述获取包含标注信息的社交文本数据训练集包括:
爬取网页中含有食源性疾病关键词的媒体文本;
根据所述食源性疾病关键词,对社交媒体文本进行预处理,确定所 述社交文本数据;
根据对所述社交文本数据的人工标注结果,确定所述社交文本数据 的所述实际主题标签;
将所述实际主题标签作为对应的所述社交文本数据的标注信息,生 成所述包含标注信息的社交文本数据训练集。
进一步地,所述根据所述食源性疾病关键词,对所述社交文本数据 进行预处理包括:
根据所述食源性疾病关键词,对所述媒体文本进行分词;
去除所述媒体文本中的非中文字符;
去除词数量小于三的所述媒体文本。
进一步地,所述将所述社交文本数据训练集输入至食源性检测模型, 依次进行主题抽取处理、词嵌入处理和归一化处理,确定对应的预测文 本标签包括:
通过CRFTM主题模型对所述社交文本数据进行主题抽取,确定对 应的组成词向量和主题标签向量,其中,所述CRFTM模型为在LDA模型的潜在主题层上增加了一个条件随机场层而生成的模型;
通过图卷积将所述组成词向量和所述主题标签向量输入至文本级图 的节点和边长,确定所述文本级图更新后的输出向量;
根据所述文本级图更新后的输出向量进行词嵌入处理和归一化处 理,确定对应的预测主题标签。
进一步地,所述通过CRFTM主题模型对所述社交文本数据进行主 题抽取,确定对应的组成词向量和主题标签向量包括:
根据预设的最小平均距离,将所述社交文本数据中的短文本聚合为 具有常规长度的伪长文本,其中,所述伪长文本包括多个组成词;
根据所述伪长文本,建立每个所述组成词的分布特征模型,以及所 述伪长文本的主题标签模型;
根据所述分布特征模型和所述主题标签模型,确定每个所述社交文 本数据的所述组成词向量和所述主题标签向量。
进一步地,所述食源性检测模型中的节点和边长表示如下:
其中,为所述社交文本数据的所述组成词向量,NS为所述社交文本数据S中组成词的数目,wi是第i个组成词的向量表示,/>是所述社交文本数据S的所述主题标签向量,ti为第i个 所述组成词对应的主题标签的向量表示,/>为所述文本级图中的节点的 向量表示的集合,ε为所述文本级图中的边长权重的集合,c为窗口大小,/>为第i个组成词的向量表示wi对应的节点和第j个组成词的向量表示 wj对应的节点之间的边长权重,/>为第i个组成词的向量表示wi对应的 节点和第i个组成词的主题标签的向量表示ti对应的节点之间的边长权 重。
进一步地,所述通过图卷积将所述社交文本数据训练集输入至食源 性检测模型中文本级图的节点和边长,确定所述文本级图更新后的输出 向量包括:
针对所述文本级图,根据每个所述节点对应的所述边长权重和接收 到的相邻节点的向量信息,更新每个所述节点的原始向量表示,其中, 所述原始向量表示包括第i个组成词的向量表示wi、第i个组成词的主题 标签的向量表示ti;
根据每个所述节点更新后的原始向量表示,确定所述文本级图更新 后的输出向量。
进一步地,所述文本级图更新后的输出向量表示如下:
其中,In为第n个节点对应的所述接收到的相邻节点的向量信息, Nn为第n个节点对应的所有相邻节点的数目,enj为第n个节点和第j 个节点之间的边长权重,rj为第j个节点的原始向量表示,r′n为第n个节 点对应的更新后的输出向量,λn为权衡参数,OG为所述文本级图更新后 的输出向量。
进一步地,所述根据所述文本级图更新后的输出向量进行词嵌入处 理和归一化处理,确定对应的预测主题标签包括:
根据BERT模型层,初始化词嵌入向量;
将所述文本级图中每个所述节点的原始向量表示作为所述BERT模 型层的输入,通过所述BERT模型层对每个所述节点的原始向量表示和 所述词嵌入向量进行拼接处理,确定所述BERT模型层输出的嵌入向量;
将所述BERT模型层输出的嵌入向量作为BiGRU分类层的输入,确 定所述BiGRU分类层的输出向量;
将所述文本级图更新后的输出向量和所述BiGRU分类层输出的输出 向量输入至softmax层,经所述softmax层的归一化处理,输出所述预测 主题标签。
本发明还提供一种食源性疾病检测方法,包括:
获取社交文本数据;
将所述社交文本数据输入至食源性检测模型,确定对应的预测文本 标签,其中,所述食源性检测模型采用如上所述的食源性检测模型训练 方法进行训练得到。
与现有技术相比,本发明的有益效果包括:在本发明提供的食源性 检测模型训练方法中,首先,获取包含实际主题标签的社交文本数据训 练集,以便后续进行有效训练;然后,通过食源性检测模型对其中的社 交文本数据,进行主题抽取处理、词嵌入处理和归一化处理,以此利用 行主题抽取处理抽取出其中的主题词,利用词嵌入处理进行有效的词嵌入,避免短文本的稀疏性,利用归一化处理进行快速便捷的数据映射, 以此高效确定对应的预测文本标签;最后,利用实际文本标签与预测文 本标签之间的误差进行参数调节,保证建立高效准确的食源性检测模型, 利用该食源性检测模型即可快速检测社交文本数据,智能判断相应的食 源性疾病发生的情况。综上,本发明提供的食源性检测模型训练方法,利用主题抽取处理、词嵌入处理和归一化处理,进行快速简便的模型建立,有效解决了短文本的稀疏性问题,基于社交文本数据,实现了高效 的食源性疾病的查找。在本发明提供的食源性疾病检测方法中,利用上 述食源性检测模型,自动帮用户检测社交文本数据,有效地查找其中的 食源性疾病发生事件,为进一步食源性疾病的管理与防治提供了有力支撑。
附图说明
图1为本发明提供的食源性检测模型训练方法的流程示意图;
图2为本发明提供的获取社交文本数据训练集的流程示意图;
图3为本发明提供的确定预测文本标签的流程示意图;
图4为本发明提供的主题抽取的流程示意图;
图5为本发明实施例提供的文本级图的总体架构图;
图6为本发明提供的确定文本级图更新后的输出向量的流程示意图;
图7为本发明提供的词嵌入处理和归一化处理的流程示意图;
图8为本发明提供的模型结构示意图;
图9为本发明提供的实验结果示意图;
图10为本发明提供的食源性检测模型训练装置的结构示意图;
图11为本发明提供的食源性疾病检测方法的流程示意图;
图12为本发明提供的食源性疾病检测装置的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本 申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用 于限定本发明的范围。
实施例1
本发明实施例提供了一种食源性检测模型训练方法,结合图1来看, 图1为本发明提供的食源性检测模型训练方法的流程示意图,上述食源 性检测模型训练方法包括步骤S101至步骤S104,其中:
在步骤S101中,获取包含标注信息的社交文本数据训练集,标注信 息包括社交文本数据对应的实际主题标签;
在步骤S102中,将社交文本数据训练集输入至食源性检测模型(下 文可简称为EDGNN模型),依次进行主题抽取处理、词嵌入处理和归 一化处理,确定对应的预测文本标签;
在步骤S103中,根据实际文本标签与预测文本标签之间的误差,确 定损失函数的值;
在步骤S104中,根据损失函数的值调整食源性检测模型的参数直至 满足收敛条件,完成对食源性检测模型的训练,并将食源性检测模型进 行存储。
在本发明实施例中,首先,获取包含实际主题标签的社交文本数据 训练集,以便后续进行有效训练;然后,通过食源性检测模型对其中的 社交文本数据,进行主题抽取处理、词嵌入处理和归一化处理,以此利 用行主题抽取处理抽取出其中的主题词,利用词嵌入处理进行有效的词 嵌入,避免短文本的稀疏性,利用归一化处理进行快速便捷的数据映射,以此高效确定对应的预测文本标签;最后,利用实际文本标签与预测文 本标签之间的误差进行参数调节,保证建立高效准确的食源性检测模型, 利用该食源性检测模型即可快速检测社交文本数据,智能判断相应的食 源性疾病发生的情况。综上,本发明提供的食源性检测模型训练方法, 利用主题抽取处理、词嵌入处理和归一化处理,进行快速简便的模型建立,有效解决了短文本的稀疏性问题,基于社交文本数据,实现了高效 的食源性疾病的查找。
需要说明的是,本发明中利用了CRFTM主题模型、BERT模型层、 BiGRU分类层,对应解释如下:
CRFTM(Conditional Random Field regularized Topic Model,辅以条 件随机场的主题模型)主题模型:是一个辅以条件随机场的主题模型, 来同时解决短文本主题建模过程中的稀疏性和词义消歧问题,CRFTM模 型在LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型的潜在 主题层上增加了一个条件随机场层(Conditional RandomField,CRF)以 提高语义相关词归属于同一主题的概率,从而提高生成主题的质量。其 中,在CRFTM模型中,定义了如下两种类型的语义关联关系:全局语义 关联用于提高语义相关词共享同一主题标签的概率,从而提高生成主题 的主题一致性;局部语义关联用于识别多义词的不同语义,从而减少主题推断过程中由歧义词造成的噪声。两种语义关联分别使用不同的特征 函数进行建模。
BERT(Bidirectional Encoder Representations from Transformers,深度 语言表示模型)模型层:BERT模型的网络架构使用的是多层Transformer 结构,其最大的特点是抛弃了传统的RNN和CNN,通过Attention机制 将任意位置的两个单词的距离转换成1,有效的解决了NLP中棘手的长 期依赖问题。其中,BERT模型的本质上是通过在海量的语料的基础上运 行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指 在没有人工标注的数据上运行的监督学习。
BiGRU(双向门控循环神经网络)层:BiGRU是BiLSTM的一种变 体,它在BiLSTM的基础上进行了简化,将LSTM中的输入门和遗忘门合并成了单一的更新门,同时也将细胞状态和隐藏层状态混合在了一起。
优选地,结合图2来看,图2为本发明提供的获取社交文本数据训 练集的流程示意图,上述步骤S101包括步骤S1011至步骤S1014,其中:
在步骤S1011中,爬取网页中含有食源性疾病关键词的媒体文本;
在步骤S1012中,根据食源性疾病关键词,对社交媒体文本进行预 处理,确定社交文本数据;
在步骤S1013中,根据对社交文本数据的人工标注结果,确定社交 文本数据的实际主题标签;
在步骤S1014中,将实际主题标签作为对应的社交文本数据的标注 信息,生成包含标注信息的社交文本数据训练集。
由此,本发明通过爬取媒体文本,并对媒体文本进行预处理,确定 社交文本数据,进而通过人工标注,确定社交文本数据的实际主题标签, 以此生成有效的社交文本数据训练集。
需要说明的是,爬虫收集大量含有食源性疾病关键词的社交媒体文 本数据,含有关键词的短文本不表示该短文本与食源性疾病事件一定相 关,这些短文本可能来自提供专业健康建议的社交媒体账户。例如,“呕 吐”和“恶心”是食源性疾病关键词,但是这些账户可能会发布诸如“喝 酒恶心怎么快速缓解”或“如何在怀孕期间避免呕吐”等文本内容。因此,还需要对这些社交媒体文本数据进一步处理,才能高效检测出社交 媒体文本中的食源性疾病事件。
优选地,步骤S1012具体包括:根据食源性疾病关键词,对媒体文 本进行分词;去除媒体文本中的非中文字符;去除词数量小于三的媒体 文本。由此,通过分词、过滤的数据处理,去除其中的无效数据,保证 社交文本数据训练集的有效性,以便后续模型的准确建立。
优选地,结合图3来看,图3为本发明提供的确定预测文本标签的 流程示意图,上述步骤S102包括步骤S1021至步骤S1023,其中:
在步骤S1021中,通过CRFTM主题模型对社交文本数据进行主题 抽取,确定对应的组成词向量和主题标签向量;
在步骤S1022中,通过图卷积将组成词向量和主题标签向量输入至 文本级图的节点和边长,确定文本级图更新后的输出向量;
在步骤S1023中,根据文本级图更新后的输出向量进行词嵌入处理 和归一化处理,确定对应的预测主题标签。
由此,通过CRFTM主题模型进行有效的主题抽取,并利用主题抽 取的结果作为文本级图的输入并进行更新,进一步进行词嵌入处理和归 一化处理,以此保证预测主题标签的准确性。
优选地,结合图4来看,图4为本发明提供的主题抽取的流程示意 图,上述步骤S1021包括步骤S10211至步骤S10213,其中:
在步骤S10211中,根据预设的最小平均距离,将社交文本数据中的 短文本聚合为具有常规长度的伪长文本,其中,伪长文本包括多个组成 词;
在步骤S10212中,根据伪长文本,建立每个组成词的分布特征模型, 以及伪长文本的主题标签模型;
在步骤S10213中,根据分布特征模型和主题标签模型,确定每个社 交文本数据的组成词向量和主题标签向量。
由此,首先,现将短文本聚合为具有常规长度的伪长文本,以此避 免数据的稀疏性;然后,利用组成词的分布特征模型以及伪长文本的主 题标签模型,有效反映文本的构成和主题;最后,利用分布特征模型和 主题标签模型,确定组成词向量和主题标签向量,利用图卷积,将其作 为文本级图的输入。
需要说明的是,诸如LDA之类的传统主题模型已广泛应用于从文本 语料中提取主题。但是,传统主题建模算法在规范地长文本上已经取得 了巨大的成功,但是在短文本上效果却不尽如人意。这主要是因为传统主题模型通过捕获文本级词共现信息来抽取潜在主题,而短文本的数据 稀疏性导致词共现信息不足,从而影响主题建模性能。为了解决稀疏性 问题,本发明利用CRFTM主题模型抽取短文本中每个词的主题标签。 CRFTM主题模型首先将短文本聚合成较长的伪长文本,然后提高语义相 关词归属于同一主题标签的概率。
在本发明一个具体的实施例中,CRFTM主题模型首先利用基于词嵌 入的最小平均距离EMAD将短文本聚合为常规长度的伪长文本,其中, EMAD距离能够在可能属于同一主题的两个短文本中找到语义相关的词对。其次,对于每个主题k,CRFTM主题模型针对整个语料进行采样主 题—词分布φk~Dir(β)和主题—文档分布θ~Dir(α),其中a和β表示狄里 克雷先验。对于每个伪长文本m,CRFTM主题模型采样每个词并且每个伪长文本m的主题标签zm可定义为:
其中,Nm表示m中词的数量,xmi表示第i个词的上下文词,Ψ表示 势函数。CRFTM主题模型将生成整个语料中每个词的主题标签以及主题 —词矩阵,该矩阵表示每个主题中词的分布。在EDGNN模型中,图中 每个词节点和它对应主题节点之间都会存在一条边,该边的初始权重从主题—词矩阵中获得。
具体地,食源性检测模型中的节点和边长表示如下:
其中,为社交文本数据的组成词向量,NS为社交 文本数据S中组成词的数目,wi是第i个组成词的向量表示,/>是社交文本数据S的主题标签向量,ti为第i个组成词对 应的主题标签的向量表示,v为文本级图中的节点的向量表示的集合,ε 为文本级图中的边长权重的集合,c为窗口大小,/>为第i个组成词的 向量表示wi对应的节点和第j个组成词的向量表示wj对应的节点之间的 边长权重,/>为第i个组成词的向量表示wi对应的节点和第i个组成词的 主题标签的向量表示ti对应的节点之间的边长权重。
由此,利用图卷积,将组成词向量和主题标签向量作为文本级图的 输入,有效地衡量每个主题词之间的相关性。其中,词节点之间边的权 重使用点对互信息PMI初始化,这也是衡量词相关性的常用方法。
在本发明一个具体的实施例中,结合图5来看,图5为本发明实施 例提供的文本级图的总体架构图。为了便于显示,在图5中,窗口大小c 设置为2,如该图底部所示,文本级图的所有参数均从全局共享矩阵中 获得。
需要说明的是,仍结合图5来看,令表示一条社 交文本数据(形式为短文本),其中NS表示S中词的数目,wi是第i个词 的向量表示。/>是S中每个词的主题标签向量,其中ti是第 i个主题的向量表示。由于,社交文本数据S中的多个词可能属于同一主 题,因此主题标签向量T中存在重复项,并且wi和ti可以在训练过程中动 态更新。对于给定社交文本数据S,EDGNN模型将社交文本数据S中出 现的所有词和相应主题视为文本级图/>中的节点。在文本级图/>中,社 交文本数据S中固定大小窗口中的每个词与它相邻词之间都存在一条边, 并且每个词节点和它对应的主题节点之间也存在一条边。
优选地,结合图6来看,图6为本发明提供的确定文本级图更新后 的输出向量的流程示意图,上述步骤S1022包括步骤S10221至步骤 S10222,其中:
在步骤S10221中,针对文本级图,根据每个节点对应的边长权重和 接收到的相邻节点的向量信息,更新每个节点的原始向量表示,其中, 原始向量表示包括第i个组成词的向量表示wi、第i个组成词的主题标签 的向量表示ti;
在步骤S10222中,根据每个节点更新后的原始向量表示,确定文本 级图更新后的输出向量。
由此,利用文本级图的消息传递机制,使每个节点表示的更新受相 邻节点的影响,这使每个节点能够从上下文中收集信息,因而,结合相 邻节点的向量信息和边长权重对文本级图进行有效地更新,反馈更新后 的输出向量。
具体地,文本级图更新后的输出向量表示如下:
其中,In为第n个节点对应的接收到的相邻节点的向量信息,Nn为 第n个节点对应的所有相邻节点的数目,enj为第n个节点和第j个节点 之间的边长权重,rj为第j个节点的原始向量表示,r′n为第n个节点对应 的更新后的输出向量,λn为权衡参数,OG为文本级图更新后的输出向量。
需要说明的是,表示节点n从它相邻节点接收到的信息,/>表 示节点n的所有相邻节点。max表示归约函数,该函数将每个维度中的最 大值合并以创建新的嵌入向量。/>表示节点n与j之间边的权重,该 权重使用PMI或主题—词矩阵进行初始化,并在训练过程中进行更新。/>和r'n是节点n的原始向量表示和更新后的向量表示。可训练的权衡 参数λn控制着rn中应保留信息量的程度。消息传递机制使每个节点表示的 更新受相邻节点的影响,这使每个节点能够从上下文中收集信息。因此, 即使对于多义词,EDGNN模型也可以通过来自相邻词和主题的信息来辨 析它们的准确含义。此外,由于图中的所有参数都可以从全局共享矩阵中获得,因此EDGNN模型在训练过程中引入了全局信息。
优选地,结合图7、图8来看,图7为本发明提供的词嵌入处理和归 一化处理的流程示意图,图8为本发明提供的模型结构示意图,上述步 骤S1023包括步骤S10231至步骤S10234,其中:
在步骤S10231中,根据BERT模型层,初始化词嵌入向量;
在步骤S10232中,将文本级图中每个节点的原始向量表示作为 BERT模型层的输入,通过BERT模型层对每个节点的原始向量表示和词 嵌入向量进行拼接处理,确定BERT模型层输出的嵌入向量;
在步骤S10233中,将BERT模型层输出的嵌入向量作为BiGRU分 类层的输入,确定BiGRU分类层的输出向量;
在步骤S10234中,将文本级图更新后的输出向量和BiGRU分类层 输出的输出向量输入至softmax层,经softmax层的归一化处理,输出预 测主题标签。
由此,将BERT模型用于面向社交媒体文本的食源性疾病事件检测, BERT模型的输出并不直接用于事件检测,BERT模型隐藏层生产的词向 量v可以表示上下文相关的词嵌入,与仅使用图神经网络或BERT相比, 本发明提供的EDGNN模型将图向量文本级图与BERT模型生成的词嵌 入相结合,从而实现更好的食源性疾病事件检测性。结合图8来看,图8中,O为文本级图更新后的输出向量,将文本级图更新后的输出向量和BiGRU分类层的输出向量一起输入至softmax层进行归一化处理。
优选地,步骤S10234的过程表示如下:
其中,表示预测主题标签,KG表示文本级图/>的输出向量和 BiGRU分类层输出的输出向量形成softmax层的输入向量,W和b表示 权重矩阵和偏置项,Relu是激活函数。
其中,损失函数表示如下:
其中,表示第i个主题词的实际预测标签,/>表示预测主题标签。 需要说明的是,本发明使用的数据集是根据相关关键词从新浪微博平台 爬取的短文本数据集,经过人工标注后,本发明随机选择30%的数据作 为测试数据集,剩余的数据作为训练数据集,并从训练数据集随机选择 10%作为验证数据集。
在本发明一个具体的实施例中,结合图9来看,图9为本发明提供 的实验结果示意图,在文本级图的训练中,EDGNN模型使用随机向量初 始化图节点表示并将维度设置为300,窗口大小c设置为3,主题数目设 置为30,在图的训练过程中,EDGNN模型使用Adam优化器,并将Dropout概率和初始学习率分别设置为0.5和0.01。当连续10个时间段验 证集的损失都未减少时,训练过程将停止。对于BERT模型,EDGNN使 用BERT-base(Chinese),隐藏层大小为768,头数和层数设置为12。实验 结果如图9所示,本发明所提出的方法在3个评价指标上均要优于4种 基准模型,从而验证了本发明的先进性,其中,基准模型包括CNN模型、LSTM模型、TextGCN模型和BERT模型。
实施例2
本发明实施例提供了一种食源性检测模型训练装置,结合图10来看, 图10为本发明提供的食源性检测模型训练装置的结构示意图,其中食源 性检测模型训练装置1000包括:
第一获取单元1001,用于获取包含标注信息的社交文本数据训练集, 标注信息包括社交文本数据对应的实际主题标签;
第一处理单元1002,用于将社交文本数据训练集输入至食源性检测 模型,依次进行主题抽取处理、词嵌入处理和归一化处理,确定对应的 预测文本标签;还用于根据实际文本标签与预测文本标签之间的误差, 确定损失函数的值;
训练单元1003,用于根据损失函数的值调整食源性检测模型的参数 直至满足收敛条件,完成对食源性检测模型的训练,并将食源性检测模 型进行存储。
实施例3
本发明实施例提供了一种食源性疾病检测方法,结合图11来看,图 11为本发明提供的食源性疾病检测方法的流程示意图,上述食源性疾病 检测方法包括步骤S201至步骤S202,其中:
在步骤S201中,获取社交文本数据;
在步骤S202中,将社交文本数据输入至食源性检测模型,确定对应 的预测文本标签,其中,食源性检测模型采用如上所述的食源性检测模 型训练方法进行训练得到。
在本发明实施例中,利用上述食源性检测模型,自动帮用户检测社 交文本数据,有效地查找其中的食源性疾病发生事件,为进一步食源性 疾病的管理与防治提供了有力支撑。
实施例4
本发明实施例提供了一种食源性疾病检测装置,结合图12来看,图 12为本发明提供的食源性疾病检测装置的结构示意图,其中,食源性疾 病检测装置1200包括:
第二获取单元1201,用于获取社交文本数据;
第二处理单元1202,用于将社交文本数据输入至食源性检测模型, 确定对应的预测文本标签,其中,食源性检测模型采用如上所述的食源 性检测模型训练方法进行训练得到。
实施例5
本发明实施例提供了一种食源性检测模型训练设备,包括处理器以 及存储器,存储器上存储有计算机程序,计算机程序被处理器执行时, 实现如上所述的食源性检测模型训练方法。
实施例6
本发明实施例提供了一种食源性疾病检测设备,包括处理器以及存 储器,存储器上存储有计算机程序,计算机程序被处理器执行时,实现 如上所述的食源性疾病检测方法。
实施例7
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机 程序,计算机该程序被处理器执行时,实现如上所述的食源性检测模型 训练方法,或实现如上所述的食源性疾病检测方法。
本发明公开了一种食源性检测模型训练方法、疾病检测方法,在本 发明提供的食源性检测模型训练方法中,首先,获取包含实际主题标签 的社交文本数据训练集,以便后续进行有效训练;然后,通过食源性检 测模型对其中的社交文本数据,进行主题抽取处理、词嵌入处理和归一 化处理,以此利用行主题抽取处理抽取出其中的主题词,利用词嵌入处理进行有效的词嵌入,避免短文本的稀疏性,利用归一化处理进行快速 便捷的数据映射,以此高效确定对应的预测文本标签;最后,利用实际 文本标签与预测文本标签之间的误差进行参数调节,保证建立高效准确 的食源性检测模型,利用该食源性检测模型即可快速检测社交文本数据, 智能判断相应的食源性疾病发生的情况。在本发明提供的食源性疾病检测方法中,利用上述食源性检测模型,自动帮用户检测社交文本数据, 有效地查找其中的食源性疾病发生事件,为进一步食源性疾病的管理与 防治提供了有力支撑。
本发明技术方案,利用主题抽取处理、词嵌入处理和归一化处理, 进行快速简便的模型建立,有效解决了短文本的稀疏性问题,基于社交 文本数据,实现了高效的食源性疾病的查找。除此之外,本发明利用主 题抽取社交媒体文本的主题信息,用于丰富短文本的语义,便于构建一 个边和内存消耗较少的文本级图;同时,利用词嵌入处理和归一化处理将图的输出和BERT生成的词向量拼接起来用于事件检测,以此有效降 低了模型复杂度,便于模型的实际应用。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围 并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范 围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种食源性检测模型训练方法,其特征在于,包括:
获取包含标注信息的社交文本数据训练集,所述标注信息包括社交文本数据对应的实际主题标签;
将所述社交文本数据训练集输入至食源性检测模型,依次进行主题抽取处理、词嵌入处理和归一化处理,确定对应的预测主题标签;
根据所述实际主题标签与所述预测主题标签之间的误差,确定损失函数的值;
根据所述损失函数的值调整所述食源性检测模型的参数直至满足收敛条件,完成对所述食源性检测模型的训练,并将所述食源性检测模型进行存储;
所述将所述社交文本数据训练集输入至食源性检测模型,依次进行主题抽取处理、词嵌入处理和归一化处理,确定对应的预测主题标签包括:
通过CRFTM主题模型对所述社交文本数据进行主题抽取,确定对应的组成词向量和主题标签向量,其中,所述CRFTM模型为在LDA模型的潜在主题层上增加了一个条件随机场层而生成的模型;
通过图卷积将所述组成词向量和所述主题标签向量输入至文本级图的节点和边长,确定所述文本级图更新后的输出向量;
根据所述文本级图更新后的输出向量进行词嵌入处理和归一化处理,确定对应的所述预测主题标签;
所述通过CRFTM主题模型对所述社交文本数据进行主题抽取,确定对应的组成词向量和主题标签向量包括:
根据预设的最小平均距离,将所述社交文本数据中的短文本聚合为具有常规长度的伪长文本,其中,所述伪长文本包括多个组成词;
根据所述伪长文本,建立每个所述组成词的分布特征模型,以及所述伪长文本的主题标签模型;
根据所述分布特征模型和所述主题标签模型,确定每个所述社交文本数据的所述组成词向量和所述主题标签向量;
所述根据所述文本级图更新后的输出向量进行词嵌入处理和归一化处理,确定对应的预测主题标签包括:
根据BERT模型层,初始化词嵌入向量;
将所述文本级图中每个所述节点的原始向量表示作为所述BERT模型层的输入,通过所述BERT模型层对每个所述节点的原始向量表示和所述词嵌入向量进行拼接处理,确定所述BERT模型层输出的嵌入向量;
将所述BERT模型层输出的嵌入向量作为BiGRU分类层的输入,确定所述BiGRU分类层的输出向量;
将所述文本级图更新后的输出向量和所述BiGRU分类层输出的输出向量输入至softmax层,经所述softmax层的归一化处理,输出所述预测主题标签。
2.根据权利要求1所述的食源性检测模型训练方法,其特征在于,所述获取包含标注信息的社交文本数据训练集包括:
爬取网页中含有食源性疾病关键词的媒体文本;
根据所述食源性疾病关键词,对社交媒体文本进行预处理,确定所述社交文本数据;
根据对所述社交文本数据的人工标注结果,确定所述社交文本数据的所述实际主题标签;
将所述实际主题标签作为对应的所述社交文本数据的标注信息,生成所述包含标注信息的社交文本数据训练集。
3.根据权利要求2所述的食源性检测模型训练方法,其特征在于,所述根据所述食源性疾病关键词,对社交媒体文本进行预处理包括:
根据所述食源性疾病关键词,对所述社交媒体文本进行分词;
和/或去除所述社交媒体文本中的非中文字符;
和/或去除词数量小于三的所述社交媒体文本。
4.根据权利要求1所述的食源性检测模型训练方法,其特征在于,所述食源性检测模型中的节点和边长表示如下:
其中,为所述社交文本数据的所述组成词向量,/>为所述社交文本数据/>中组成词的数目,/>是第/>个组成词的向量表示,/>是所述社交文本数据/>的所述主题标签向量,/>为第/>个所述组成词对应的主题标签的向量表示,/>为所述文本级图中的节点的向量表示的集合,/>为所述文本级图中的边长权重的集合,/>为窗口大小,/>为第/>个组成词的向量表示/>对应的节点和第j个组成词的向量表示/>对应的节点之间的边长权重,/>为第/>个组成词的向量表示/>对应的节点和第/>个组成词的主题标签的向量表示/>对应的节点之间的边长权重。
5.根据权利要求4所述的食源性检测模型训练方法,其特征在于,所述通过图卷积将所述社交文本数据训练集输入至食源性检测模型中文本级图的节点和边长,确定所述文本级图更新后的输出向量包括:
针对所述文本级图,根据每个所述节点对应的所述边长权重和接收到的相邻节点的向量信息,更新每个所述节点的原始向量表示,其中,所述原始向量表示包括第个组成词的向量表示/>、第/>个组成词的主题标签的向量表示/>;
根据每个所述节点更新后的原始向量表示,确定所述文本级图更新后的输出向量。
6.根据权利要求5所述的食源性检测模型训练方法,其特征在于,所述文本级图更新后的输出向量表示如下:
其中,为第n个节点对应的所述接收到的相邻节点的向量信息,/>为第n个节点对应的所有相邻节点的数目,/>为第n个节点和第j个节点之间的边长权重,/>为第j个节点的原始向量表示,/>为第n个节点对应的更新后的输出向量,/>为权衡参数,/>为所述文本级图更新后的输出向量。
7.一种食源性疾病检测方法,其特征在于,包括:
获取社交文本数据;
将所述社交文本数据输入至食源性检测模型,确定对应的预测主题标签,其中,所述食源性检测模型采用如权利要求1-6中任一项所述的食源性检测模型训练方法进行训练得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011528368.7A CN112927807B (zh) | 2020-12-22 | 2020-12-22 | 一种食源性检测模型训练方法、疾病检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011528368.7A CN112927807B (zh) | 2020-12-22 | 2020-12-22 | 一种食源性检测模型训练方法、疾病检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927807A CN112927807A (zh) | 2021-06-08 |
CN112927807B true CN112927807B (zh) | 2024-03-26 |
Family
ID=76162698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011528368.7A Active CN112927807B (zh) | 2020-12-22 | 2020-12-22 | 一种食源性检测模型训练方法、疾病检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927807B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110704626A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种用于短文本的分类方法及装置 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN111598710A (zh) * | 2020-05-11 | 2020-08-28 | 北京邮电大学 | 社交网络事件的检测方法和装置 |
-
2020
- 2020-12-22 CN CN202011528368.7A patent/CN112927807B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110704626A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种用于短文本的分类方法及装置 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN111598710A (zh) * | 2020-05-11 | 2020-08-28 | 北京邮电大学 | 社交网络事件的检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
Enhangcing Short Text Topic Modeling with FastText Embeddings;Fan Zhang 等;2020 International Conference on Big Data, Artificial Intelligence and Internet of Things Engineering;全文 * |
食源性疾病事件智能探测与预警平台;王德强;郭旦怀;张舒;曹荣强;王彦棡;计算机系统应用;第28卷(第009期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112927807A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
Abdelrazek et al. | Topic modeling algorithms and applications: A survey | |
US9613024B1 (en) | System and methods for creating datasets representing words and objects | |
Qiu et al. | Geoscience keyphrase extraction algorithm using enhanced word embedding | |
CN110134925A (zh) | 一种中文专利文本相似度计算方法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
Liu et al. | Social network sentiment classification method combined Chinese text syntax with graph convolutional neural network | |
CN112597302B (zh) | 基于多维评论表示的虚假评论检测方法 | |
Song et al. | Text sentiment analysis based on convolutional neural network and bidirectional LSTM model | |
Wang et al. | Incorporating linguistic knowledge for learning distributed word representations | |
Hourrane et al. | Using deep learning word embeddings for citations similarity in academic papers | |
Xu et al. | BERT gated multi-window attention network for relation extraction | |
Rathi et al. | The importance of Term Weighting in semantic understanding of text: A review of techniques | |
Yang et al. | News text mining-based business sentiment analysis and its significance in economy | |
Deng et al. | Text classification with attention gated graph neural network | |
He et al. | From context-aware to knowledge-aware: Boosting OOV tokens recognition in slot tagging with background knowledge | |
Li et al. | News headline generation based on improved decoder from transformer | |
WO2024015323A1 (en) | Methods and systems for improved document processing and information retrieval | |
Mahmoud et al. | Hybrid Attention-based Approach for Arabic Paraphrase Detection | |
Zhang et al. | Convolution neural network based syntactic and semantic aware paraphrase identification | |
CN112927807B (zh) | 一种食源性检测模型训练方法、疾病检测方法 | |
Du et al. | Multiple userids identification with deep learning | |
Jiang et al. | An effective gated and attention-based neural network model for fine-grained financial target-dependent sentiment analysis | |
Xiao et al. | Research on multimodal emotion analysis algorithm based on deep learning | |
Teng | [Retracted] Using the Ship‐Gram Model for Japanese Keyword Extraction Based on News Reports |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |