CN116936024A - 一种基于ai的中医疗养方案的数据处理系统 - Google Patents
一种基于ai的中医疗养方案的数据处理系统 Download PDFInfo
- Publication number
- CN116936024A CN116936024A CN202311134844.0A CN202311134844A CN116936024A CN 116936024 A CN116936024 A CN 116936024A CN 202311134844 A CN202311134844 A CN 202311134844A CN 116936024 A CN116936024 A CN 116936024A
- Authority
- CN
- China
- Prior art keywords
- traditional chinese
- text
- chinese medicine
- data processing
- scheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003814 drug Substances 0.000 title claims abstract description 116
- 238000012545 processing Methods 0.000 title claims abstract description 75
- 238000000605 extraction Methods 0.000 claims abstract description 51
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 230000000474 nursing effect Effects 0.000 claims description 34
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 description 11
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 238000001467 acupuncture Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000004789 organ system Anatomy 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/60—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Nutrition Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及一种基于AI的中医疗养方案的数据处理系统,包括用以获取中医疗养方案的文本的数据获取模块,与所述数据获取模块相连,用以根据中医疗养方案的文本复杂度确定中医疗养方案的文本在数据库中检索的若干检索方式,在第一检索方式下,根据所述中医疗养方案的文本字数确定对所述中医疗养方案的文本提取关键词的提取方式,在第二检索方式下,根据中医疗养方案的文本中专业词汇与非专业词汇之间的相似性确定所述文本的预处理方式的数据处理模块,用以存储中医疗养方案的文本的数据集的数据库,本发明克服了现有技术中中医疗养方案的检索精确度差,效率低的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于AI的中医疗养方案的数据处理系统。
背景技术
随着社会的发展,人们逐渐意识到中医药在疾病防治和健康养生方面的独特优势。中医药讲究“治未病”,强调预防为主,与当前社会“重治轻防”的现状形成对比。因此,中医药在疾病康复过程中的运用越来越受到重视。中医学关注整体观念,认为人体是一个有机整体,器官系统之间存在着协调互动关系。在疾病康复过程中,中医药凭借其整体观念的理论优势,可以针对不同人群或不同病症制定出科学系统的中医药疗养方案。这些方案往往包含中药、推拿、针灸、食疗等多种治疗手段的综合运用。然而,现有中医药疗养方案存在的问题是方案设计者对方案的科学性和系统性重视不够,方案的制定多依赖于个人经验,缺乏理论支撑和数据验证。同时,现有中医药疗养方案编写规范性不强,语言描述存在模糊不清等问题,不利于方案的检索、分析和应用,为了提高中医药疗养方案的科学性,需要对其进行规范化设计和表达。同时,需要建立中医药疗养知识库,对不同人群制定系统化、标准化的中医药疗养方案,并进行存储、表达、检索和应用。如何设计一个高效合理的中医药疗养知识表达和管理系统,是当前亟待解决的问题。
中国专利公开号:CN114141361A公开了一种基于症状术语映射与深度学习的中医处方推荐方法,包括,对患者的所有症状词,经过症状术语映射、网络嵌入表示、症状特征融合、卷积神经网络学习、全连接网络训练以及激活层激活后,得到对每种候选中药的预测概率;将每味中药的预测概率进行降序排列,并将降序后对应的中药顺序作为最终的推荐顺序。
由此可见,现有技术存在以下问题:现有中医疗养方案编写规范性不强,语言描述存在模糊不清等问题,在进行中医疗养的相关方案检索时精确度差,效率低。
发明内容
为此,本发明提供一种基于AI的中医疗养方案的数据处理系统,用以克服现有技术中中医疗养方案的检索精确度差,效率低的问题。
为实现上述目的,本发明提供一种基于AI的中医疗养方案的数据处理系统,包括:
数据获取模块,用以获取中医疗养方案的文本;
数据处理模块,与所述数据获取模块相连,用以根据中医疗养方案的文本复杂度确定中医疗养方案的文本在数据库中检索的若干检索方式,并在第一检索方式下,根据所述中医疗养方案的文本字数确定对所述中医疗养方案的文本提取关键词的提取方式,在第二检索方式下,根据中医疗养方案的文本中专业词汇与非专业词汇之间的相似性确定所述文本的预处理方式;
数据库,用以存储中医疗养方案的文本的数据集。
进一步,所述数据处理模块根据中医疗养方案的文本复杂度确定中医疗养方案的文本在数据库中检索的若干检索方式,若干所述检索方式包括对所述中医疗养方案的文本提取关键词进行检索的第一检索方式以及根据中医疗养方案的语义进行检索的第二检索方式。
进一步,所述数据处理模块计算中医疗养方案的文本复杂度F的公式为
,
其中,N1表示专业词汇数量,L1表示平均句子长度,D1表示句法树最大深度,N2表示逻辑关系数量,R2表示模糊语言词汇量占比。
进一步,所述数据处理模块在确定中医疗养方案的文本在数据库中检索的方式为第一检索方式下,所述数据处理模块根据所述中医疗养方案的文本字数确定对所述中医疗养方案的文本提取关键词的若干提取方式,若干所述提取方式包括根据专业词汇在所述文本中出现的频率提取关键词的第一提取方式以及根据专业词汇的词汇等级评价值提取关键词的第二提取方式。
进一步,所述数据处理模块在确定对所述中医疗养方案的文本提取关键词的提取方式为第一提取方式下,所述数据处理模块根据专业词汇在所述文本中出现的频率确定所述专业词汇是否提取为关键字。
进一步,所述数据处理模块在确定对所述中医疗养方案的文本提取关键词的提取方式为第二提取方式下,所述数据处理模块计算专业词汇的词汇等级评价值W,
,
其中,N表示为所述中医疗养方案的文本中的句子总数,Nt表示为所述中医疗养方案的文本中出现专业词汇的句子的数量。
进一步,所述数据处理模块在确定对所述中医疗养方案的文本提取关键词的提取方式为第二提取方式下,所述数据处理模块根据专业词汇的词汇等级评价值W确定所述专业词汇是否提取为关键字。
进一步,所述数据处理模块在确定中医疗养方案的文本在数据库中检索的方式为第二检索方式下,所述数据处理模块根据中医疗养方案的文本中专业词汇与非专业词汇之间的相似性确定所述中医疗养方案的文本的若干预处理方式,若干所述预处理方式包括将所述文本中的非专业词汇删除的第一预处理方式以及将所述文本中的模糊语言词汇删除的第二预处理方式。
进一步,所述数据处理模块在以第二检索方式检索完成时,所述数据处理模块根据检索结果的文本与中医疗养方案的文本之间的距离确定是否对预设文本复杂度进行调整。
进一步,所述数据处理模块在确定对预设文本复杂度进行调整时,所述数据处理模块计算距离与预设距离的相对差,并根据相对差确定对预设文本复杂度进行调整的若干调整系数。
与现有技术相比,本发明的有益效果在于,本发明设置文本复杂度预设值便于采用不同的检索方式,针对文本复杂度不同的文本采取相应的检索方式,更加准确的检索到适配文本,同时节约计算资源。
进一步地,本发明使用预设字数以将文本集合分割为长文本和短文本两个类别,便于采用不同的关键词提取方式,更精确地选择合适的关键词的提取方式。
进一步地,本发明过滤掉词频过低的不适合作为关键词的词汇,基于词频提取关键词简单直接,计算效率高,易于实现,词频直接反映了一个词汇在文本中重要程度和主题相关性,使用词频以快速精确地提取主题关键词。
进一步地,本发明评估词汇的重要程度,不仅考虑词频,还综合词汇在文本中的位置进行评价,以更准确判断一个词汇对文本主题的重要性,相比单一词频法,能提取质量更高、更具代表性的关键词以更精确地检索出目标文本。
进一步地,本发明根据专业词汇与非专业词汇的语义关系,选择合适的预处理操作以提高后续对所述中医疗养方案的文本进行向量化的精确度。
进一步地,本发明根据实际检索效果,判断当前预设文本复杂度是否合理,实现闭环调控以更精确的进行检索,当距离较小表示可以找到相关文本,当前阈值合理,不需要调整,当距离较大说明结果偏离查询意图,则需要修改阈值以改善检索效果。
进一步地,本发明通过相对差比判断阈值偏差的大小,对预设文本复杂度进行调整,设置两个系数k1和k2以控制调整幅度,避免调节过大导致震荡,相比固定预设文本复杂度,能够实现动态调整,提高系统鲁棒性。
附图说明
图1为本发明实施例基于AI的中医疗养方案的数据处理系统的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,图1为本发明实施例基于AI的中医疗养方案的数据处理系统的结构示意图。
本发明实施例基于AI的中医疗养方案的数据处理系统,包括:
数据获取模块,用以获取中医疗养方案的文本;
数据处理模块,与所述数据获取模块相连,用以根据中医疗养方案的文本复杂度F确定中医疗养方案的文本在数据库中检索的若干检索方式,并在第一检索方式下,根据所述中医疗养方案的文本字数Z确定对所述中医疗养方案的文本提取关键词的提取方式,在第二检索方式下,根据中医疗养方案的文本中专业词汇与非专业词汇之间的相似性L确定所述文本的预处理方式;
数据库,用以存储中医疗养方案的文本的数据集。
具体而言,所述数据处理模块计算中医疗养方案的文本复杂度F的公式为
,
其中,N1表示专业词汇数量,L1表示平均句子长度,D1表示句法树最大深度,N2表示逻辑关系数量,R2表示模糊语言词汇量占比。
具体而言,所述数据处理模块根据中医疗养方案的文本复杂度F与预设文本复杂度F0的比对结果确定中医疗养方案的文本在数据库中检索的检索方式;
若F≤F0,所述数据处理模块确定中医疗养方案的文本在数据库中检索的方式为第一检索方式;
若F>F0,所述数据处理模块确定中医疗养方案的文本在数据库中检索的方式为第二检索方式。
其中,第一检索方式为对所述中医疗养方案的文本提取关键词进行检索,第二检索方式为根据中医疗养方案的语义进行检索。
本发明实施例中,预设文本复杂度F0是根据数据库中的文本的复杂度取均值得到的,所述第二检索方式是通过对数据库中的文本建立BERT语义索引,对中医疗养方案的文本也提取其语义表示,计算QUERY语义表示与索引语义表示的余弦相似度,返回与QUERY最相似的Top1个文本作为检索结果。
具体而言,本发明设置文本复杂度预设值便于采用不同的检索方式,针对文本复杂度不同的文本采取相应的检索方式,更加准确的检索到适配文本,同时节约计算资源。
具体而言,所述数据处理模块在确定中医疗养方案的文本在数据库中检索的方式为第一检索方式下,所述数据处理模块根据所述中医疗养方案的文本字数Z与预设字数Z0的比对结果确定对所述中医疗养方案的文本提取关键词的提取方式;
若Z≤Z0,所述数据处理模块确定对所述中医疗养方案的文本提取关键词的提取方式为第一提取方式;
若Z>Z0,所述数据处理模块确定对所述中医疗养方案的文本提取关键词的提取方式为第二提取方式。
其中,所述第一提取方式为根据专业词汇在所述文本中出现的频率提取关键词,所述第二提取方式为根据专业词汇的词汇等级评价值提取关键词。
本发明实施例中,预设字数Z0是根据数据库中的文本的字数取均值得到的。
具体而言,本发明使用预设字数以将文本集合分割为长文本和短文本两个类别,便于采用不同的关键词提取方式,更精确地选择合适的关键词的提取方式。
具体而言,所述数据处理模块在确定对所述中医疗养方案的文本提取关键词的提取方式为第一提取方式下,所述数据处理模块根据专业词汇在所述文本中出现的频率P与预设频率P0的比对结果确定所述专业词汇是否提取为关键字;
若P≤P0,所述数据处理模块确定所述专业词汇不提取为关键字;
若P>P0,所述数据处理模块确定所述专业词汇提取为关键字。
本发明实施例中,预设频率P0是根据所述中医疗养方案的文本中不同专业词汇出现的频率取第一四分位数得到的。
具体而言,本发明过滤掉词频过低的不适合作为关键词的词汇,基于词频提取关键词简单直接,计算效率高,易于实现,词频直接反映了一个词汇在文本中重要程度和主题相关性,使用词频以快速精确地提取主题关键词。
具体而言,所述数据处理模块在确定对所述中医疗养方案的文本提取关键词的提取方式为第二提取方式下,所述数据处理模块计算专业词汇的词汇等级评价值W,设定
,
其中,N表示为所述中医疗养方案的文本中的句子总数,Nt表示为所述中医疗养方案的文本中出现专业词汇的句子的数量。
具体而言,所述数据处理模块在确定对所述中医疗养方案的文本提取关键词的提取方式为第二提取方式下,所述数据处理模块根据专业词汇的词汇等级评价值W与预设词汇等级评价值W0的比对结果确定所述专业词汇是否提取为关键字;
若W≤W0,所述数据处理模块确定所述专业词汇不提取为关键字;
若W>W0,所述数据处理模块确定所述专业词汇提取为关键字。
本发明实施例中,预设词汇等级评价值W0是根据所述中医疗养方案的文本中不同专业词汇的词汇等级评价值取第一四分位数得到的。
具体而言,本发明评估词汇的重要程度,不仅考虑词频,还综合词汇在文本中的位置进行评价,以更准确判断一个词汇对文本主题的重要性,相比单一词频法,能提取质量更高、更具代表性的关键词以更精确地检索出目标文本。
具体而言,所述数据处理模块在确定中医疗养方案的文本在数据库中检索的方式为第二检索方式下,所述数据处理模块计算中医疗养方案的文本中专业词汇与非专业词汇之间的相似性L
,
其中,∑G1表示专业词汇的向量和,∑G2表示非专业词汇的向量和。
具体而言,所述数据处理模块在确定中医疗养方案的文本在数据库中检索的方式为第二检索方式下,所述数据处理模块根据中医疗养方案的文本中专业词汇与非专业词汇之间的相似性L与预设相似性L0的比对结果确定所述文本的预处理方式,其中,L0∈[-1,1];
若L≤L0,所述数据处理模块确定所述文本的预处理方式为第一预处理方式;
若L>L0,所述数据处理模块确定所述文本的预处理方式为第二预处理方式。
其中,所述第一预处理方式为将所述文本中的非专业词汇删除,所述第二预处理方式为将所述文本中的模糊语言词汇删除。
本发明实施例中,预设相似性L0取值为0,本领域技术人员可以根据具体情况对所述预设相似性L0进行调整。
具体而言,本发明根据专业词汇与非专业词汇的语义关系,选择合适的预处理操作以提高后续对所述中医疗养方案的文本进行向量化的精确度。
具体而言,所述数据处理模块在以第二检索方式检索完成时,所述数据处理模块计算检索结果的文本与中医疗养方案的文本之间的距离M,
,
其中,g1表示中医疗养方案的文本的文本向量,g2表示检索结果的文本的文本向量,表示g1与g2的协方差矩阵的逆矩阵。
具体而言,所述数据处理模块在以第二检索方式检索完成时,所述数据处理模块根据检索结果的文本与中医疗养方案的文本之间的距离M与预设距离M0的比对结果确定是否对预设文本复杂度F0进行调整;
若M≤M0,所述数据处理模块确定不对预设文本复杂度F0进行调整;
若M>M0,所述数据处理模块确定对预设文本复杂度F0进行调整。
本发明实施例中,预设距离M0是根据数据库中每两个文本间的距离并取均值得到的。
具体而言,本发明根据实际检索效果,判断当前预设文本复杂度是否合理,实现闭环调控以更精确的进行检索,当距离较小表示可以找到相关文本,当前阈值合理,不需要调整,当距离较大说明结果偏离查询意图,则需要修改阈值以改善检索效果。
具体而言,所述数据处理模块在确定对预设文本复杂度F0进行调整时,所述数据处理模块计算距离M与预设距离M0的相对差△M,并根据相对差△M与预设相对差△M0的比对结果确定对预设文本复杂度F0进行调整的调整系数ki,所述数据处理模块设有第一调整系数k1,第二调整系数k2,设定△M=(M-M0)/M0;
若△M≤△M0,所述数据处理模块确定以第一调整系数k1调整预设文本复杂度F0;
若△M>△M0,所述数据处理模块确定以第二调整系数k2调整预设文本复杂度F0。
将调整后的预设文本复杂度设定为F01=F0×ki,i=1,2。
其中,第一调整系数以及第二调整系数。
本发明实施例中,预设相对差△M0是根据在数据库中计算出的每两个文本间的距离,将每两个距离进行相对差的计算,再将计算结果取均值得到的。
具体而言,本发明通过相对差比判断阈值偏差的大小,对预设文本复杂度进行调整,设置两个系数k1和k2以控制调整幅度,避免调节过大导致震荡,相比固定预设文本复杂度,能够实现动态调整,提高系统鲁棒性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于AI的中医疗养方案的数据处理系统,其特征在于,包括:
数据获取模块,用以获取中医疗养方案的文本;
数据处理模块,与所述数据获取模块相连,用以根据中医疗养方案的文本复杂度确定中医疗养方案的文本在数据库中检索的若干检索方式,并在第一检索方式下,根据所述中医疗养方案的文本字数确定对所述中医疗养方案的文本提取关键词的提取方式,在第二检索方式下,根据中医疗养方案的文本中专业词汇与非专业词汇之间的相似性确定所述文本的预处理方式;
数据库,用以存储中医疗养方案的文本的数据集;
其中,所述数据处理模块根据中医疗养方案的文本复杂度确定中医疗养方案的文本在数据库中检索的若干检索方式,若干所述检索方式包括对所述中医疗养方案的文本提取关键词进行检索的第一检索方式以及根据中医疗养方案的语义进行检索的第二检索方式。
2.根据权利要求1所述的基于AI的中医疗养方案的数据处理系统,其特征在于,所述数据处理模块根据中医疗养方案的文本复杂度与预设文本复杂度的比对结果确定中医疗养方案的文本在数据库中检索的检索方式,其中检索方式包括在所述文本复杂度小于等于预设文本复杂度时对中医疗养方案的文本在数据库中检索的第一检索方式以及在所述文本复杂度大于预设文本复杂度时对中医疗养方案的文本在数据库中检索的第二检索方式。
3.根据权利要求2所述的基于AI的中医疗养方案的数据处理系统,其特征在于,所述数据处理模块计算中医疗养方案的文本复杂度F的公式为
,
其中,N1表示专业词汇数量,L1表示平均句子长度,D1表示句法树最大深度,N2表示逻辑关系数量,R2表示模糊语言词汇量占比。
4.根据权利要求3所述的基于AI的中医疗养方案的数据处理系统,其特征在于,所述数据处理模块在确定中医疗养方案的文本在数据库中检索的方式为第一检索方式下,所述数据处理模块根据所述中医疗养方案的文本字数确定对所述中医疗养方案的文本提取关键词的若干提取方式,若干所述提取方式包括根据专业词汇在所述文本中出现的频率提取关键词的第一提取方式以及根据专业词汇的词汇等级评价值提取关键词的第二提取方式。
5.根据权利要求4所述的基于AI的中医疗养方案的数据处理系统,其特征在于,所述数据处理模块在确定对所述中医疗养方案的文本提取关键词的提取方式为第一提取方式下,所述数据处理模块根据专业词汇在所述文本中出现的频率确定所述专业词汇是否提取为关键字。
6.根据权利要求5所述的基于AI的中医疗养方案的数据处理系统,其特征在于,所述数据处理模块在确定对所述中医疗养方案的文本提取关键词的提取方式为第二提取方式下,所述数据处理模块计算专业词汇的词汇等级评价值W,设定
,
其中,N表示为所述中医疗养方案的文本中的句子总数,Nt表示为所述中医疗养方案的文本中出现专业词汇的句子的数量。
7.根据权利要求6所述的基于AI的中医疗养方案的数据处理系统,其特征在于,所述数据处理模块在确定对所述中医疗养方案的文本提取关键词的提取方式为第二提取方式下,所述数据处理模块根据专业词汇的词汇等级评价值W确定所述专业词汇是否提取为关键字。
8.根据权利要求7所述的基于AI的中医疗养方案的数据处理系统,其特征在于,所述数据处理模块在确定中医疗养方案的文本在数据库中检索的方式为第二检索方式下,所述数据处理模块根据中医疗养方案的文本中专业词汇与非专业词汇之间的相似性确定所述中医疗养方案的文本的若干预处理方式,若干所述预处理方式包括将所述文本中的非专业词汇删除的第一预处理方式以及将所述文本中的模糊语言词汇删除的第二预处理方式。
9.根据权利要求8所述的基于AI的中医疗养方案的数据处理系统,其特征在于,所述数据处理模块在以第二检索方式检索完成时,所述数据处理模块根据检索结果的文本与中医疗养方案的文本之间的距离确定是否对预设文本复杂度进行调整。
10.根据权利要求9所述的基于AI的中医疗养方案的数据处理系统,其特征在于,所述数据处理模块在确定对预设文本复杂度进行调整时,所述数据处理模块计算距离与预设距离的相对差,并根据相对差确定对预设文本复杂度进行调整的若干调整系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311134844.0A CN116936024B (zh) | 2023-09-05 | 2023-09-05 | 一种基于ai的中医疗养方案的数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311134844.0A CN116936024B (zh) | 2023-09-05 | 2023-09-05 | 一种基于ai的中医疗养方案的数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116936024A true CN116936024A (zh) | 2023-10-24 |
CN116936024B CN116936024B (zh) | 2023-12-15 |
Family
ID=88377391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311134844.0A Active CN116936024B (zh) | 2023-09-05 | 2023-09-05 | 一种基于ai的中医疗养方案的数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116936024B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109616219A (zh) * | 2018-12-04 | 2019-04-12 | 首都医科大学附属北京中医医院 | 一种突发急性传染病的中医预案数据处理方法和系统 |
CN115982222A (zh) * | 2023-01-06 | 2023-04-18 | 上海镁信健康科技股份有限公司 | 一种基于特病特药场景的搜索方法 |
US20230136368A1 (en) * | 2020-03-17 | 2023-05-04 | Aishu Technology Corp. | Text keyword extraction method, electronic device, and computer readable storage medium |
CN116543406A (zh) * | 2023-05-15 | 2023-08-04 | 中国医学科学院医学信息研究所 | 多特征融合的双目标自监督医疗问题文本聚类方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299239B (zh) * | 2018-09-29 | 2021-11-23 | 福建弘扬软件股份有限公司 | 一种基于es的电子病历检索方法 |
-
2023
- 2023-09-05 CN CN202311134844.0A patent/CN116936024B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109616219A (zh) * | 2018-12-04 | 2019-04-12 | 首都医科大学附属北京中医医院 | 一种突发急性传染病的中医预案数据处理方法和系统 |
US20230136368A1 (en) * | 2020-03-17 | 2023-05-04 | Aishu Technology Corp. | Text keyword extraction method, electronic device, and computer readable storage medium |
CN115982222A (zh) * | 2023-01-06 | 2023-04-18 | 上海镁信健康科技股份有限公司 | 一种基于特病特药场景的搜索方法 |
CN116543406A (zh) * | 2023-05-15 | 2023-08-04 | 中国医学科学院医学信息研究所 | 多特征融合的双目标自监督医疗问题文本聚类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116936024B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | Transformer-based neural network for answer selection in question answering | |
CN106682397B (zh) | 一种基于知识的电子病历质控方法 | |
US6766316B2 (en) | Method and system of ranking and clustering for document indexing and retrieval | |
WO2020211275A1 (zh) | 基于预训练模型与微调技术的医疗文本关系抽取方法 | |
US7548910B1 (en) | System and method for retrieving scenario-specific documents | |
EP3376400A1 (en) | Dynamic context adjustment in language models | |
CN117573843B (zh) | 一种基于知识校准和检索增强的医疗辅助问答方法及系统 | |
CN111370102A (zh) | 科室导诊方法、装置以及设备 | |
CN112307190B (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN116092699A (zh) | 一种基于预训练模型的癌症问答交互方法 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
CN111402092A (zh) | 一种基于多层次语义解析的法律法规检索系统 | |
Ha et al. | Utilizing sbert for finding similar questions in community question answering | |
CN116936024B (zh) | 一种基于ai的中医疗养方案的数据处理系统 | |
CN117591655A (zh) | 基于中药知识图谱的智能问答系统 | |
Berrios | Automated indexing for full text information retrieval. | |
CN106354715B (zh) | 医疗词汇处理方法及装置 | |
CN116737911A (zh) | 基于深度学习的高血压问答方法及系统 | |
CN114496231B (zh) | 基于知识图谱的体质识别方法、装置、设备和存储介质 | |
Moen et al. | Care episode retrieval | |
CN112133391B (zh) | 一种基于人体异常眉毛的疾病认知系统 | |
Matykiewicz et al. | Nonambiguous concept mapping in medical domain | |
Ren et al. | Extraction of transitional relations in healthcare processes from Chinese medical text based on deep learning | |
CN115171870A (zh) | 一种基于m-BERT预训练模型的就诊引导提示方法及系统 | |
Zhu et al. | Topic judgment helps question similarity prediction in medical faq dialogue systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |