CN117520800A - 一种营养学文献模型训练方法、系统、电子设备及介质 - Google Patents

一种营养学文献模型训练方法、系统、电子设备及介质 Download PDF

Info

Publication number
CN117520800A
CN117520800A CN202311587819.8A CN202311587819A CN117520800A CN 117520800 A CN117520800 A CN 117520800A CN 202311587819 A CN202311587819 A CN 202311587819A CN 117520800 A CN117520800 A CN 117520800A
Authority
CN
China
Prior art keywords
literature
preset
nutrition
set data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311587819.8A
Other languages
English (en)
Inventor
王宇翔
王铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Douguo Information Technology Co ltd
Original Assignee
Beijing Douguo Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Douguo Information Technology Co ltd filed Critical Beijing Douguo Information Technology Co ltd
Priority to CN202311587819.8A priority Critical patent/CN117520800A/zh
Publication of CN117520800A publication Critical patent/CN117520800A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/60ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Nutrition Science (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种营养学文献模型训练方法、系统、电子设备及介质,涉及数据处理技术领域。该方法包括:获取营养学文献信息;通过预设处理算法,清洗所述营养学文献信息得到目标营养学文本;根据预设划分规则,将所述目标营养学文本中的文字内容分成若干个词语;提取所述若干个词语中的特征信息,并将所述特征信息分为训练集数据、验证集数据和测试集数据存入预设样本库,并调取所述样本库中的测试集数据作为模型输入特征输入预设初始训练模型,得到输出结果;根据预设误差公式,计算所述输出结果与所述预设样本库中验证集数据的损失值;判断所述损失值是否大于预置损失阈值;若否,则将所述初始训练模型作为营养学文献识别模型。实施本申请提供的技术方案,通过获取营养学文献信息对卷积神经网络模型进行训练,得到营养学文献识别模型,达到了快速准确对营养学文献进行评估的效果。

Description

一种营养学文献模型训练方法、系统、电子设备及介质
技术领域
本申请涉及数据处理技术领域,具体涉及一种营养学文献模型训练方法、系统、电子设备及介质。
背景技术
随着互联网技术的不断发展,世界上各大公司和组织都在进行大语言模型的训练。已经发布的大模型都是通用的,训练的数据基本上来源于公共语料库和互联网内容。在营养学领域,关于大数据的利用并没有普及,基于这个原因,需要通过对各种营养学领域的资料进行收集来实现模型化的分析。
目前,传统的营养学评估方法包括膳食记录、食物频率问卷、24小时回忆法等,这些方法通常需要收集大量的食品数据和人体数据,并对收集到的数据进行人为分析。
但是在实际应用中,传统的营养学评估方法需要工作人员输入大量有关营养学特征信息,存在时间耗费大且输入营养学数据的准确性低的问题,从而目前用于营养学评估的模型训练方法亟待改进。
发明内容
本申请提供了一种营养学文献模型训练方法、系统、电子设备及介质,具有快速准确对营养学文献进行评估的效果。
第一方面,本申请提供了一种营养学文献模型训练方法,包括:
获取营养学文献信息;
通过预设处理算法,清洗所述营养学文献信息得到目标营养学文本;
根据预设划分规则,将所述目标营养学文本中的文字内容分成若干个词语;
提取所述若干个词语中的特征信息,将所述特征信息作为模型输入特征输入初始训练模型,得到文献输出结果;
根据所述文献输出结果和预设误差公式,计算得到损失值;
判断所述损失值是否大于预置损失阈值;
若否,则将所述初始训练模型作为营养学文献识别模型。
通过采用上述技术方案,在互联网上多渠道自动获取营养学文献信息,并对这些营养学文献信息进行清洗得到便于后续识别的目标营养学文本,然后根据预设划分规则将目标营养学文本切分成若干个词语,经过预设算法处理,提取若干个词语中的特征信息并将该特征信息输入初始训练模型训练,得到文献输出结果,之后根据该文献输出结果和预设误差公式计算损失值,对模型训练准确性进行判断,直到满足训练要求,得到营养学文献识别模型,可有效提高营养学文献评估准确性。
可选的,通过互联网获取文献资料;根据预设识别算法,筛选所述文献资料得到所述文献资料中的营养学文献;根据预设文献工具,将所述营养学文献的文件格式转换为预设标准格式,得到所述营养学文献信息,所述文献工具为EasyBib。
通过采用上述技术方案,通过互联网获取文献资料,并根据预设识别算法识别该文献资料中的文本信息,从而筛选出营养学文献。然后根据EasyBib文献工具对收集到的营养学文献进行格式转换,将这些营养学文献转换为统一预设标准格式,得到营养学文献信息,能够对获取到的大量文献资料进行筛选,得到营养学文献资料,并转化成统一预设标准格式,便于后续对营养学文献进行数据处理。
可选的,通过预设正则表达式,去除所述营养学文献信息中的特殊字符、停用词、数字和标点符号,得到所述目标营养学文本。
通过采用上述技术方案,根据预设正则表达式对营养学文献信息进行数据处理,去除营养学文献信息中的特殊字符、停用词、数字和标点符号,使得营养学文献信息转变为目标营养学文本,便于后续对目标营养学文本进行分词操作,防止特殊字符等信息对分词产生干扰。
可选的,将所述目标营养学文本输入预设文本分句模型,得到若干个句子;根据预设最大匹配算法,将所述若干个句子分成对应的若干个词语。
通过采用上述技术方案,经过预设文本分局模型处理,将目标营养学文本切分成若干个句子,然后通过预设最大匹配算法,对若干个句子进行处理,从句子的起始位置开始,选择一个最长的词语作为候选词,将候选词与句子进行匹配,重复匹配步骤,将句子分为若干个词语,便于后续提取特征信息,提高目标营养学文本识别的准确性。
可选的,根据所述若干个词语,计算得到所述若干个词语中各词语对应的词频向量;根据预设TF-IDF权重算法,计算得到所述各词语的TF-IDF权重向量;将所述词频向量、TF-IDF权重向量按照预设比例分为训练集数据、测试集数据和验证集数据并存入所述预设样本库。
通过采用上述技术方案,系统提取各词语在文本中出现的词频信息,然后将该词频信息转换为词频向量,并根据预设TF-IDF权重算法计算得到各词语的TF-IDF权重向量,之后将该TF-IDF权重向量和词频向量按照比例分为训练集数据、测试集数据和验证集数据,存入预设样本库,能够将营养学文献数据结构化存储,为后续训练模型提供数据基础。
可选的,所述预设误差公式包括:
式中,M为损失值,n为营养学文献样本数量,Yt为标准营养成分值,Yp为营养成分预测值。
通过采用上述技术方案,结合营养学文献样本数量、标准营养成分值以及营养成分预测值对模型训练结果进行评估,可有效提高模型训练的准确性。
可选的,所述预设初始训练模型为卷积神经网络模型。
通过采用上述技术方案,将卷积神经网络模型作为预设初始训练模型,该模型的训练过程通常使用反向传播算法和梯度下降来最小化损失函数,使得营养学文献信息结构化,提高了对营养学文献信息评估的准确性。
在本申请的第二方面提供了一种营养学文献模型训练方法的系统。
信息获取模块,用于获取营养学文献信息;
信息处理模块,用于通过预设处理算法,清洗所述营养学文献信息得到目标营养学文本;根据预设划分规则,将所述目标营养学文本中的文字内容分成若干个词语;
模型训练模块,用于提取所述若干个词语中的特征信息,并将所述特征信息分为训练集数据、验证集数据和测试集数据存入预设样本库,并调取所述样本库中的测试集数据作为模型输入特征输入预设初始训练模型,得到输出结果;
误差分析模块,用于根据预设误差公式,计算所述输出结果与所述预设样本库中验证集数据的损失值;判断所述损失值是否大于预置损失阈值;若否,则将所述初始训练模型作为营养学文献识别模型。
在本申请的第三方面提供了一种电子设备。
一种营养学文献模型训练方法的系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现一种营养学文献模型训练方法。
在本申请的第四方面提供了一种计算机可读存储介质。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现一种营养学文献模型训练方法。
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、本申请通过获取营养学文献信息,并对这些营养学文献信息进行清洗得到便于后续识别的目标营养学文本,然后根据预设划分规则将目标营养学文本切分成若干个词语,经过预设算法处理,提取若干个词语中的特征信息并将该特征信息输入初始训练模型训练,得到文献输出结果,之后根据该文献输出结果和预设误差公式计算损失值,对模型训练准确性进行判断,直到满足训练要求,得到营养学文献识别模型,根据这种方法提高了营养学评估的准确性。
2、本申请通过最大匹配算法,对若干个句子进行处理,从句子的起始位置开始,选择一个最长的词语作为候选词,将候选词与句子进行匹配,重复匹配步骤,将句子分为若干个词语,便于后续提取特征信息,提高目标营养学文本识别的准确性。
3、本申请通过采用卷积神经网络模型作为初始训练模型,能够提高营养学文献识别模型的稳定性以及准确性,使得用户体验感得到提升。
附图说明
图1是本申请实施例提供的一种营养学文献模型训练方法的流程示意图。
图2是本申请实施例提供的一种营养学文献模型训练方法的分词流程示意图。
图3是本申请实施例公开的一种营养学文献模型训练系统的结构示意图。
图4是本申请实施例的公开的一种电子设备的结构示意图。
附图标记说明:301、信息获取模块;302、信息处理模块;303、模型训练模块;304、误差分析模块;400、电子设备;401、处理器;402、存储器;403、用户接口;404、网络接口;405、通信总线。
具体实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
为了便于理解本申请实施例提供的方法及系统,在介绍本申请实施例之前,先对本申请实施例的背景进行介绍。
目前,传统的营养学评估方法包括膳食记录、食物频率问卷、24小时回忆法等,通过工作人员对收集到的营养学相关资料进行人为分析,然而传统的营养学评估方法往往耗费时间较长,且工作人员在处理和分析大量营养学资料时,存在对营养学文献评估不准确的问题。
本申请实施例公开了一种营养学文献模型训练方法,通过互联网收集大量营养学文献资料,并根据大数据模型自动识别营养学文献资料,得到营养学评估结果,主要用于解决人工对营养学文献评估慢且不准确的问题。
经过上述背景内容相关介绍,本领域技术人员可以了解现有技术中存在的问题,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细的描述,描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
参照图1,一种营养学文献模型训练方法,该方法包括S10至S50,具体包括以下步骤:
S10:获取营养学文献信息。
具体的,系统在互联网上自动收集大量文献资料,例如在学术搜索引擎PubMed上获取文献资料、在互联网上的学术论坛和社区获取文献资料以及国家公开出版社的文献资料等。在收集到的大量文献资料之后,系统通过现有NLP自然语言识别算法,获取该文献资料中的关键词和摘要信息,从而确定文献类型,筛选出营养学文献,之后系统采用文献工具EasyBib将该营养学文献的文件格式进行统一,得到相同格式的营养学文献信息,例如统一文献中的数字格式、缩写、数据单位等参数,该EasyBib为一款在线引文生成工具和学术写作工具,用于根据用户的选择生成符合特定引文样式规范的引文,可以根据用户提供的信息自动创建引文和参考文献,包括作者姓名、标题、出版日期、出版商等,支持多种引文样式,如APA、MLA、Chicago、Harvard等。
S20:通过预设处理算法,清洗营养学文献信息得到目标营养学文本。
具体的,系统根据预设正则表达式,匹配该营养学文献信息中的特殊字符、停用词、数字和标点符号,并将匹配到的特殊字符、停用词、数字和标点符号替换为空格或删除,得到一个不包含特殊字符、停用词、数字和标点符号的清洁文本,然后将该清洁文本作为目标营养学文本,该正则表达式是一种用于匹配和处理文本模式的字符串表达式,提供了一种灵活的方式来搜索、替换和验证文本数据。系统采用通过预设正则表达式,对营养学文献信息进行清洗,去除该营养学文献中的特殊字符、HTML标签、停用词、数字以及标点符号等。
S30:根据预设划分规则,将目标营养学文本中的文字内容分成若干个词语。
具体的,为了便于后续词性标注和分词,系统会将该目标营养学文献进行分句,然后将得到的若干个句子进一步分成词语。
参照图2,具体步骤可以包括S31至S32:
S31:将目标营养学文本输入预设文本分句模型,得到若干个句子。
示例性地,该预设文本分句模型为现有循环神经网络模型经过大量句型、语法、边界特征等数据训练得到,可用于学习文本中的语法和上下文信息,并预测句子的边界,对文本信息进行分句。系统将目标营养学文本输入该预设文本分句模型,经过模型处理得到该目标营养学文本中各位置的句子边界概率,判断当前句子边界概率是否大于预置阈值,如果当前句子边界概率大于预置阈值,则会在当前位置进行切分,待识别完所有文本信息,该目标营养学文本切分为若干个句子。
S32:根据预设最大匹配算法,将若干个句子分成对应的若干个词语。
示例性地,最大匹配算法是一种常用的中文分词算法,用于将一个没有明确分词标记的中文句子切分成词语序列,该算法基于字典,在每个位置上选择最长的匹配词语作为切分点。在将目标营养学文本切分成若干个句子之后,对句子进一步拆分得到若干个词语。该拆分过程具体包括:系统构建词典,该词典可通过人工收集整理和编辑,将常用的词语、词语和专业术语等添加到词典中,或通过使用语料库、网络文本或其他大规模文本数据作为输入,通过统计和计算词频、词语共现等信息来构建词典,常见的自动构建方法包括统计法、信息熵法、互信息法等。将待分词的若干个句子输入该词典,从句子的起始位置开始,选择一个最长的词语作为候选词,将候选词与句子进行匹配。如果候选词与句子的开头部分匹配成功,则将该词作为分词结果,并将匹配部分从句子中去除。在剩余的句子中,选择最长的词语作为下一个候选词。将候选词与剩余句子进行匹配,将匹配成功的部分作为分词结果,并继续处理剩余的句子。重复选择候选词的步骤,直到没有剩余的句子或无法匹配到更长的词语为止,通过不断选择最长的匹配词语作为分词点,最大匹配算法可以将句子切分成一系列词语。例如:系统需要将句子“我爱伟大的祖国”进行拆分,词典中包含了词语“我”、“爱”、“伟大的”、“祖国”。选择该句子中最长的词语“伟大的”,将该词语作为候选词。将候选词与句子进行匹配,如果候选词与句子的开头部分匹配成功,则将该词作为分词结果,并将匹配部分从句子中去除,分词结果为“伟大的”,则去除该匹配部分后,剩余句子为“我爱祖国”。选择下一个候选词,在剩余的句子中选择最长的词语“祖国”作为下一个候选词,重复分词步骤,剩余句子为“我爱”,将候选词与剩余句子进行匹配,将匹配成功的部分作为分词结果,并继续处理剩余的句子,直到没有剩余的句子或无法匹配到更长的词语为止,最终分词结果为“伟大的”、“祖国”、“我”、“爱”。
S40:提取若干个词语中的特征信息,并将特征信息分为训练集数据、验证集数据和测试集数据存入预设样本库,并调取样本库中的测试集数据作为模型输入特征输入预设初始训练模型,得到输出结果。
具体的,在将若干个句子分为若干个词语之后,系统将提取各词语的特征信息,该特征信息包括词频向量、TF-IDF权重向量。其中提取词频向量的过程具体包括:系统遍历若干个词语并统计若干个词语中各词语在文本中的出现次数,从而得到各词语的词频,之后创建一个大小为词典大小的零向量,每个位置代表词典中的一个词语,将每个词语的频次映射到对应词典中的位置,更新词频向量。例如:一个文本的句子为“鸡蛋是一种营养丰富的食物,富含蛋白质、维生素B12和维生素D。”词典中包含词语“鸡蛋”、“是”、“一种”、“营养丰富的”、“食物”、“富含”、“蛋白质”、“维生素B12”、“和”、“维生素D”。系统遍历该文本,对每个词语进行统计并记录各词语出现的次数,得到统计结果“鸡蛋”出现1次、“是”出现1次、“一种”出现1次、“营养丰富的”出现1次、“食物”出现1次、“富含”出现1次、“蛋白质”出现1次、“维生素B12”出现1次、“和”出现1次、“维生素D”出现1次,然后创建一个零向量,每个位置代表该句子中的一个词语,初始化的词频向量为{0,0,0,0,0,0,0,0,0,0},将词语频次映射到词频向量的对应位置,更新词频向量,更新后的词频向量为{1,1,1,1,1,1,1,1,1,1}。
其中提取TF-IDF权重向量的过程具体包括:系统遍历文本,对每个词语进行统计,记录它在文本中出现的次数,得到各词语词频TF,然后计算逆文档频率,对于每个词语,计算它在整个文本集合中的逆文档频率。逆文档频率可以通过以下公式计算:
式中,IDF为逆文档频率,N为总文本数,df为包含该词语的文本数。
在得到逆文档频率之后,计算TF-IDF权重,对于每个词语,将它的词频与逆文档频率相乘,得到它的TF-IDF权重值,可以通过以下公式计算:
T=TF*IDF
式中T为TF-IDF权重值,TF为词频,IDF为逆文档频率。
计算得到TF-IDF权重值后,创建一个零向量,将词语的TF-IDF权重映射到权重向量的对应位置,更新权重向量,得到TF-IDF权重向量。
经过计算得到该词频向量和TF-IDF向量之后,系统将该词频向量和TF-IDF向量按照预设比例分为训练集数据、测试集数据和验证集数据,例如预设训练集数据占比为百分之八十、预设测试集数据占比为百分之十,预设验证集数据占比为百分之十。然后将该训练集数据、测试集数据和验证集数据存入预设样本库,该样本库用于存储特征信息,便于后续模型训练以及验证模型预测准确性。之后,在训练模型时,调用该预设样本库中的词频向量、TF-IDF权重向量作为模型输入特征输入初始训练模型,该初始训练模型为卷积神经网络模型,经过模型训练输出得到营养成分预测值,该营养成分预测值所处不同大小区间对应有不同的营养方案,该营养方案包括饮食建议等信息,营养评成分预测值与营养方案之间的对应关系可通过查询营养方案映射表获得。
需要说明的是,为减小计算词频产生的误差,系统还可根据预设LDA算法,计算得到各词语的主题向量,根据预设StanfordNER命名实体工具,提取各词语的实体关键词,得到实体向量和根据预设TextBlob情感分析工具,提取各词语的情感关键词,得到情感向量,并将该主题向量、实体向量以及情感向量作为模型输入特征输入卷积神经网络模型进行模型训练,提高模型预测的准确性。
S50:根据预设误差公式,计算输出结果与预设样本库中验证集数据的损失值;判断损失值是否大于预置损失阈值;若否,则将初始训练模型作为营养学文献识别模型。
具体的,调取预设样本库中的验证集数据,系统将模型训练输出的营养成分预测值与该验证集数据中对应的标准营养成分值进行比较,并结合预设误差公式,通过计算得到损失值,并根据该损失值,监测该损失值对应的损失函数随着训练迭代的误差,根据训练次数的不断叠加,输出预测营养成分预测值越接近预设真实值,损失值随着迭代越来越小,系统判断该损失值是否小于预置损失阈值,如果该损失值小于预置损失阈值,则判定模型收敛于标准营养成分值,损失函数趋于稳定并且不再显著变化时,可以认为该初始训练模型训练完成,将训练后的初始训练模型作为营养学文献识别模型。该预设误差公式具体包括:
其中,M为损失值,n为营养学文献样本数量,Yt为标准营养成分值,Yp为营养成分预测值。
例如系统获取到的营养学文献样本数量为4,样本1系统标准营养成分值:苹果热量为52卡路里,样本2系统标准营养成分值:香蕉热量为96卡路里,样本3系统标准营养成分值:牛奶热量122卡路里,样本4系统标准营养成分值:鸡蛋热量为155卡路里,样本1营养成分预测值:苹果热量为50卡路里,样本2营养成分预测值:香蕉热量为90卡路里,样本3营养成分预测值:牛奶热量为40卡路里,样本4营养成分预测值:鸡蛋热量为150卡路里。则经过计算得到该样本对应的损失值为32.25。系统预置损失值阈值为35,经过比较得到该样本损失值小于预置损失值阈值,则判定该模型收敛于标准营养成分值,将该初始训练模型作为营养学文献识别模型。
在上述实施例的基础上,还存在模型部署维护的操作,具体步骤包括:
示例性地,在得到营养学文献识别模型后,为了搭建运行模型的环境,系统安装Python解释器、数据库和框架、Web服务器等现有条件。为了便于用户方与模型进行交互,需要设计一套接口,使用现有RESTful-API,通过HTTP请求和响应来传递数据实现。部署模型后需要定期进行监控和维护,并按照预设周期,通过历史数据对该模型进行更新迭代,从而提高模型预测的准确性,例如预设周围为5天。
下述为本申请的系统实施例,可以用于执行本申请方法实施例。对于本申请平台实施例中未披露的细节,参照本申请方法实施例。
参照图3,为本申请实施例提供的一种基于多通道的像素滤波缺陷测量方法的系统,该系统包括:信息获取模块301、信息处理模块302、模型训练模块303,误差分析模块304,其中:
信息获取模块301,用于获取营养学文献信息;
信息处理模块302,用于通过预设处理算法,清洗营养学文献信息得到目标营养学文本;根据预设划分规则,将目标营养学文本中的文字内容分成若干个词语;
模型训练模块303,用于提取若干个词语中的特征信息,并将特征信息分为训练集数据、验证集数据和测试集数据存入预设样本库,并调取样本库中的测试集数据作为模型输入特征输入预设初始训练模型,得到输出结果;
误差分析模块304,用于根据预设误差公式,计算输出结果与预设样本库中验证集数据的损失值;判断损失值是否大于预置损失阈值;若否,则将初始训练模型作为营养学文献识别模型。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请还公开一种电子设备。参照图4,图4是本申请实施例的公开的一种电子设备的结构示意图。该电子设备400可以包括:至少一个处理器401,至少一个网络接口404,用户接口403,存储器402,至少一个通信总线405。
其中,通信总线405用于实现这些组件之间的连接通信。
其中,用户接口403可以包括显示屏(Display)、摄像头(Camera),可选用户接口403还可以包括标准的有线接口、无线接口。
其中,网络接口404可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器402内的指令、程序、代码集或指令集,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据。可选的,处理器401可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面图和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器401中,单独通过一块芯片进行实现。
其中,存储器402可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器402包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器402可用于存储指令、程序、代码、代码集或指令集。存储器402可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器402可选的还可以是至少一个位于远离前述处理器401的存储装置。参照图4,作为一种计算机存储介质的存储器402中可以包括操作系统、网络通信模块、用户接口模块以及一种营养学文献模型训练方法的应用程序。
在图4所示的电子设备400中,用户接口403主要用于为用户提供输入的接口,获取用户输入的数据;而处理器401可以用于调用存储器402中存储一种营养学文献模型训练方法的应用程序,当由一个或多个处理器401执行时,使得电子设备400执行如上述实施例中一个或多个的方法。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几种实施方式中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。
本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限。

Claims (10)

1.一种营养学文献模型训练方法,其特征在于,包括
获取营养学文献信息;
通过预设处理算法,清洗所述营养学文献信息得到目标营养学文本;
根据预设划分规则,将所述目标营养学文本中的文字内容分成若干个词语;
提取所述若干个词语中的特征信息,并将所述特征信息分为训练集数据、验证集数据和测试集数据存入预设样本库,并调取所述样本库中的测试集数据作为模型输入特征输入预设初始训练模型,得到输出结果;
根据预设误差公式,计算所述输出结果与所述预设样本库中验证集数据的损失值;
判断所述损失值是否大于预置损失阈值;
若否,则将所述初始训练模型作为营养学文献识别模型。
2.根据权利要求1所述的一种营养学文献模型训练方法,其特征在于,所述获取营养学文献信息中,包括:
通过互联网获取文献资料;
根据预设识别算法,筛选所述文献资料得到所述文献资料中的营养学文献;
根据预设文献工具,将所述营养学文献的文件格式转换为预设标准格式,得到所述营养学文献信息,所述文献工具为EasyBib。
3.根据权利要求1所述的一种营养学文献模型训练方法,其特征在于,所述通过预设处理算法,清洗所述营养学文献信息得到目标营养学文本中,包括:
通过预设正则表达式,去除所述营养学文献信息中的特殊字符、停用词、数字和标点符号,得到所述目标营养学文本。
4.根据权利要求1所述的一种营养学文献模型训练方法,其特征在于,所述根据预设划分规则,将所述营养学文本中的文字内容分成若干个词语中,包括:
将所述目标营养学文本输入预设文本分句模型,得到若干个句子;
根据预设最大匹配算法,将所述若干个句子分成对应的若干个词语。
5.根据权利要求1所述的一种营养学文献模型训练方法,其特征在于,所述提取所述若干个词语中的特征信息,并将所述特征信息分为训练集数据、验证集数据和测试集数据存入预设样本库中,包括:
根据所述若干个词语,计算得到所述若干个词语中各词语对应的词频向量;
根据预设TF-IDF权重算法,计算得到所述各词语的TF-IDF权重向量;
将所述词频向量、TF-IDF权重向量按照预设比例分为训练集数据、测试集数据和验证集数据并存入所述预设样本库。
6.根据权利要求1所述的一种营养学文献模型训练方法,其特征在于,所述预设误差公式,计算得到损失值中,包括:
其中,M为损失值,n为营养学文献样本数量,Yt为标准营养成分值,Yp为营养成分预测值。
7.根据权利要求1所述的一种营养学文献模型训练方法,其特征在于,所述预设初始训练模型为卷积神经网络模型。
8.一种基于权利要求1-7的营养学文献模型训练方法的系统,其特征在于,所述系统包括:信息获取模块(301),用于获取营养学文献信息;
信息处理模块(302),用于通过预设处理算法,清洗所述营养学文献信息得到目标营养学文本;根据预设划分规则,将所述目标营养学文本中的文字内容分成若干个词语;
模型训练模块(303),用于提取所述若干个词语中的特征信息,并将所述特征信息分为训练集数据、验证集数据和测试集数据存入预设样本库,并调取所述样本库中的测试集数据作为模型输入特征输入预设初始训练模型,得到输出结果;
误差分析模块(304),用于根据预设误差公式,计算所述输出结果与所述预设样本库中验证集数据的损失值;判断所述损失值是否大于预置损失阈值;若否,则将所述初始训练模型作为营养学文献识别模型。
9.一种电子设备,其特征在于,包括处理器(401)、存储器(402)、用户接口(403)及网络接口(404),所述存储器(402)用于存储指令,所述用户接口(403)和网络接口(404)用于给其他设备通信,所述处理器(401)用于执行所述存储器(402)中存储的指令,以使所述电子设备(400)执行如权利要求1-7任意一项所述的一种营养学文献模型训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的一种营养学文献模型训练方法步骤。
CN202311587819.8A 2023-11-25 2023-11-25 一种营养学文献模型训练方法、系统、电子设备及介质 Pending CN117520800A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311587819.8A CN117520800A (zh) 2023-11-25 2023-11-25 一种营养学文献模型训练方法、系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311587819.8A CN117520800A (zh) 2023-11-25 2023-11-25 一种营养学文献模型训练方法、系统、电子设备及介质

Publications (1)

Publication Number Publication Date
CN117520800A true CN117520800A (zh) 2024-02-06

Family

ID=89751100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311587819.8A Pending CN117520800A (zh) 2023-11-25 2023-11-25 一种营养学文献模型训练方法、系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN117520800A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891959A (zh) * 2024-03-15 2024-04-16 中国标准化研究院 一种基于贝叶斯网络的文献元数据储存方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891959A (zh) * 2024-03-15 2024-04-16 中国标准化研究院 一种基于贝叶斯网络的文献元数据储存方法及系统
CN117891959B (zh) * 2024-03-15 2024-05-10 中国标准化研究院 一种基于贝叶斯网络的文献元数据储存方法及系统

Similar Documents

Publication Publication Date Title
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN107329995B (zh) 一种语义受控的答案生成方法、装置及系统
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN110032639A (zh) 将语义文本数据与标签匹配的方法、装置及存储介质
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
JP2008198132A (ja) 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
US20190130030A1 (en) Generation method, generation device, and recording medium
EP3968245A1 (en) Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus
CN117520800A (zh) 一种营养学文献模型训练方法、系统、电子设备及介质
CN107239564A (zh) 一种基于监督主题模型的文本标签推荐方法
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN112217207A (zh) 一种暂态电压稳定裕度预测方法及装置
EP3968244A1 (en) Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects
CN107077640A (zh) 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN114969387A (zh) 文献作者信息消歧方法、装置及电子设备
US20130202208A1 (en) Information processing device and information processing method
JP2011039575A (ja) コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム
CN110852064B (zh) 关键句提取方法及装置
CN113515699A (zh) 信息推荐方法及装置、计算机可读存储介质、处理器
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN111639494A (zh) 案件事理关系确定方法及系统
CN116795978A (zh) 一种投诉信息处理方法、装置、电子设备及介质
JP2011039576A (ja) 特定情報検出装置、特定情報検出方法および特定情報検出プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination