CN113554053A - 一种比较中药处方相似性的方法 - Google Patents

一种比较中药处方相似性的方法 Download PDF

Info

Publication number
CN113554053A
CN113554053A CN202110553551.0A CN202110553551A CN113554053A CN 113554053 A CN113554053 A CN 113554053A CN 202110553551 A CN202110553551 A CN 202110553551A CN 113554053 A CN113554053 A CN 113554053A
Authority
CN
China
Prior art keywords
vector
word segmentation
prescription
short text
prescriptions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110553551.0A
Other languages
English (en)
Other versions
CN113554053B (zh
Inventor
李天泉
杨建明
史晓雨
张好霞
郭诗琦
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Kangzhou Pharmaceutical Big Data Development And Application Research Institute
Chongqing Kangzhou Big Data Co ltd
Original Assignee
Chongqing Kangzhou Pharmaceutical Big Data Development And Application Research Institute
Chongqing Kangzhou Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Kangzhou Pharmaceutical Big Data Development And Application Research Institute, Chongqing Kangzhou Big Data Co ltd filed Critical Chongqing Kangzhou Pharmaceutical Big Data Development And Application Research Institute
Priority to CN202110553551.0A priority Critical patent/CN113554053B/zh
Publication of CN113554053A publication Critical patent/CN113554053A/zh
Application granted granted Critical
Publication of CN113554053B publication Critical patent/CN113554053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种比较中药处方相似性的方法,包括:对中药处方数据库中的中药处方文本进行分词,生成词汇表;根据所述词汇表生成药材分词向量;计算每个处方中的药材分词向量的分词权重;根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量;获取短文本向量之间的相互关联程度;根据所述短文本向量之间的相互关联程度计算处方相似度。本发明提供一种比较中药处方相似性的方法,用one‑hot编码处理处方中药材的词向量,再利用TF‑IDF和Word2Vec进行处方短文本特性向量,最后采用计算信息增益的方法计算处方短文本向量的关联程度,归一化后得到处方之间的相似度,将比较结果和解释展示给用户,实现了更加高效、快捷、准确的实现中药处方的相似度比较功能。

Description

一种比较中药处方相似性的方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种比较中药处方相似性的方法。
背景技术
当前,中医药的振兴发展迎来发展的大好时机,坚持传承精华,做到守正创新,加快推进中医药现代化产业化。目前中药处方(包括中成药处方/中药方剂)有几万个品种,实际上临床不需要那么多。但处方类似、功能主治相同的中药处方之间,由于处方中的药品名、处方数量、处方中的药材名、用量等关键信息出现写法不一致,不规范、一义多词、多词一义或别称的情况,导致医生重复开药、加重患者负担。如何充分利用现有处方对中成药或中药方剂进行二次开发,避免低水平重复研发,有必要对不同的中成药处方或中药方剂之间的相似性进行分析。
利用大数据挖掘方法研究中医药学,建立模型,规避研究人员本身的经验或者知识结构固化的限制,挖掘出现有中医药学的之外的潜在信息,大大提高研究思路的创新性和多样性,从而更快更优的挖掘出分散的传统中药数据背后潜藏的价值,对于推动创新中医药发展,传承中医精神有重要意义。
发明内容
有鉴于此,本发明的目的在于提供一种比较中药处方相似性的方法,能够更加高效、快捷、准确的实现中药处方的相似度比较功能。
本发明的目的是通过以下技术方案来实现的:一种比较中药处方相似性的方法,包括:
对中药处方数据库中的中药处方文本进行分词,生成词汇表;
根据所述词汇表生成药材分词向量;
计算每个处方中的药材分词向量的分词权重;
根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量;
获取短文本向量之间的相互关联程度;
根据所述短文本向量之间的相互关联程度计算处方相似度。
可选地,所述根据所述词汇表生成药材分词向量,包括:
将所述词汇表中的每个分词进行one-hot编码,生成分词向量;
按照某个词在所述词汇表中出现的位置,将所述分词向量中对应的位置的值设置为1,其他位置的值设置为0;如果所述词汇表中没有某个词,则向量为全0向量;
确定分词向量的维数。
可选地,所述计算每个处方中的药材分词向量的分词权重,包括:
采用TF-IDF公式计算每个处方中的药材分词向量的分词权重。
可选地,所述分词向量的TF-IDF权重归一化公式为:
Figure RE-GDA0003261614530000021
分词向量的TF-IDF权重归一化公式包括:TF词频tf公式和IDF逆文件频率idfi公式,TF 词频tf公式为:
Figure RE-GDA0003261614530000022
其中li,j表示药材ti在处方dj中的用量,∑klk,j表示处方dj中所有药材的用量之和;IDF逆文件频率idfi的公式为:
Figure RE-GDA0003261614530000023
其中|D|表示中处方的总数,|{j:ti∈dj}|表示包含药材ti的处方数量。
可选地,所述根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量,包括:
根据所述药材的分词向量与对应的所述分词权重将所述分词向量进行线性相加,生成处方的短文本向量;
每个处方dj的短文本向量:
Figure RE-GDA0003261614530000024
其中wt表示药材ti的分词向量经过 Word2Vec模型训练出来的词向量,tf-idfi表药材ti的分词向量引入的分词权重因子。
可选地,所述获取短文本向量之间的相互关联程度,包括:
计算短文本向量TA中某一药材的分词向量t与短文本向量TB的相互关联程度I(t;T),
Figure RE-GDA0003261614530000025
其中p(t)是指分词向量t在短文本向量中出现的概率,p(Ti) 表示中药处方数据库中的处方属于处方Ti的概率,p(t,Ti)表示处方Ti中出现分词向量t的处方数目与整个中药处方数据库中处方数目之比;
将短文本向量TA中所有的药材的分词向量ta与短文本向量TB的关联程度进行求和,得到短文本向量之间的相互关联程度,所述短文本向量之间的相互关联程度为:
Figure RE-GDA0003261614530000031
其中,ta是指处方短文本向量TA中出现的分词向量,
Figure RE-GDA0003261614530000032
是指分词向量ta的用量关联度。
可选地,所述用量关联度的计算公式为:
Figure RE-GDA0003261614530000033
其中lmax是指药材分词向量ti在短文本向量TA或短文本向量TB中用量的最大值,lmin是指药材分词向量ti在短文本向量TA或短文本向量TB中用量的最小值。
可选地,所述根据所述短文本向量之间的相互关联程度计算处方相似度,包括:
将短文本向量之间的相互关联程度进行非线性归一化得到处方相似度,归一化公式为:
Figure RE-GDA0003261614530000034
可选地,还包括:对中药处方数据库中的数据进行数据清洗处理。
由于采用了上述技术方案,本发明具有如下的优点:
本发明提供一种比较中药处方相似性的方法,用one-hot编码处理处方中药材的词向量,再利用TF-IDF和Word2Vec进行处方短文本特性向量,最后采用计算信息增益的方法计算处方短文本向量的关联程度,归一化后得到处方之间的相似度,将比较结果和解释展示给用户,实现了更加高效、快捷、准确的实现中药处方的相似度比较功能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本发明一实施例中比较中药处方相似性的方法的流程图;
图2为本发明一实施例中one-Hot编码示意图;
图3为本发明一实施例中实施范例的框架图;
图4为本发明一实施例中Word2Vec网络模型图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
针对已有的中药处方,本申请实施例提供了一种比较中药处方相似性的方法
如图1所示,包括以下步骤:
步骤S1,对中药处方数据库中的中药处方文本进行分词,生成词汇表;
其中,根据所收集的中药处方,选取中药处方的属性和中药处方的所含的药材种类,提取所需的处方和药材数据信息,建立中药处方数据库,中药处方数据库包含了三张数据表:处方数据表、药材数据表、病症数据表。处方数据表包含了:处方名、所含药品及用量、主治病症字段;药材数据表包含了:药材名、药材功效字段;病症中药处方数据库包含了:病名、病因、症状字段。
在一实施例中,还包括对中药处方数据库中的处方数据进行数据清洗,针对不规范写法、一义多词、多词一义、别称的情况,基于设计聚合、拆分规则,纠正错误用语,保证药材名、病症名及其描述、药材用量计量单位、主治功能信息的唯一性和准确性。清洗的必要处理包括了:统一同一药材的不同名称;同一病因的不同名称;同一症状的描述和名称;药材用量的计量单位;同效处方的不同名称。
在完成数据清洗后,将处方中的每一个药品的名称及其对应的药材用量提取出来,形成一张词汇表;
步骤S2,根据所述词汇表生成药材分词向量;
具体地,如图2,结合图2,采用one-hot编码对词汇表中的每个分词进行预处理,生成多个分词向量,按照某个词在所述词汇表中出现的位置,将所述分词向量中对应的位置的值设置为1,其他位置的值设置为0;如果所述词汇表中没有某个词,则向量为全0向量;确定分词向量的维数。具体为,对处方中的不同药材种类和用量进行one-hot编码,按药材种类化为1200 维,按药材用量化为300种。由于各个类别之间是相互独立的,所以使用one-hot编码对这个信息进行编码。其中,one-hot编码,又称为一位有效编码,主要是采用N位状态向量来对N 个状态进行编码,每个状态都由它独立的状态位,并且在任意时候只有一位有效。one-hot编码首先要求将分类值映射到整数值,然后,每个整数值被表示为二进制向量,除了整数的索引之外,其它都是零值,则被标记为1。例如:对有两种药材的处方进行one-hot编码,则第一个药材的one-hot编码值为[1,0],第二个药材的编码值为[0,1]。
步骤S3,计算每个处方中的药材分词向量的分词权重;
采用TF-IDF(term frequency–inverse document frequency,TF-IDF,是一种用于信息检索与数据挖掘的常用加权技术)公式计算每个处方中的药材分词向量的分词权重。
具体地,所述分词向量的TF-IDF权重归一化公式为:
Figure RE-GDA0003261614530000051
分词向量的TF-IDF权重归一化公式包括:TF词频tf公式和IDF逆文件频率idfi公式,TF 词频tf公式为:
Figure RE-GDA0003261614530000052
其中li,j表示药材ti在处方dj中的用量,∑klk,j表示处方dj中所有药材的用量之和;IDF逆文件频率idfi的公式为:
Figure RE-GDA0003261614530000053
其中|D|表示中处方的总数,|{j:ti∈dj}|表示包含药材ti的处方数量。
步骤S4,根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量,包括:
根据所述药材的分词向量与对应的所述分词权重将所述分词向量进行线性相加,生成处方的短文本向量;
每个处方dj的短文本向量:
Figure RE-GDA0003261614530000054
其中wt表示药材的分词向量ti经过 Word2Vec网络模型训练出来的词向量,tf-idfi表药材的分词向量ti引入的分词权重因子。
结合图4具体来说,Word2Vec网络模型根据公式
Figure RE-GDA0003261614530000055
结合层次化softmax函数和负采样技术后对Word2Vec采用随机梯度下降算法进行求解最优化参数,在公式中vw和v'w分别代表词w的输入输出词向量。
步骤S5,获取短文本向量之间的相互关联程度;
得到短文本向量后,使用互信息(信息增益)来衡量两个处方短文本向量TA、TB之间相互关联程度,首先计算短文本向量TA中某一药材的分词向量t与短文本向量TB的相互关联程度 I(t;T),所述计算关联程度I(t;T)的公式为:
Figure RE-GDA0003261614530000056
其中p(t)是指分词向量t在短文本向量中出现的概率,p(Ti)表示中药处方数据库中的处方属于处方Ti的概率,p(t,Ti)表示处方Ti中出现分词向量t的处方数目与整个中药处方数据库中处方数目之比;
然后再将处方短文本向量TA中所有的药材的分词向量ta与处方短文本向量TB的关联程度进行求和,所述关联程度求和公式为:
Figure RE-GDA0003261614530000057
其中
Figure RE-GDA0003261614530000058
为用量关联度,计算公式为:
Figure RE-GDA0003261614530000059
其中lmax是指药材词向量ti在处方短文本向量TA或TB中用量的最大值,lmin是指药材分词向量ti在短文本向量TA或短文本向量TB中用量的最小值。
步骤S6,根据所述短文本向量之间的相互关联程度计算处方相似度。
将关联程度进行非线性归一化得到处方短文本向量的相似度,归一化公式为:
Figure RE-GDA0003261614530000061
得到相似度后,按相似度从高到低进行对处方进行排序,将排序后的处方列表展现给用户,并标明列表中每一个处方与比较处方的相似点,例如标明与被处方相同的药材、标明与被比较处方中相同药材相近的药材用量。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的保护范围当中。

Claims (9)

1.一种比较中药处方相似性的方法,其特征在于,包括:
对中药处方数据库中的中药处方文本进行分词,生成词汇表;
根据所述词汇表生成药材分词向量;
计算每个处方中的药材分词向量的分词权重;
根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量;
获取短文本向量之间的相互关联程度;
根据所述短文本向量之间的相互关联程度计算处方相似度。
2.根据权利要求1所述的比较中药处方相似性的方法,其特征在于,所述根据所述词汇表生成药材分词向量,包括:
将所述词汇表中的每个分词进行one-hot编码,生成分词向量;
按照某个词在所述词汇表中出现的位置,将所述分词向量中对应的位置的值设置为1,其他位置的值设置为0;如果所述词汇表中没有某个词,则向量为全0向量;
确定分词向量的维数。
3.根据权利要求1所述的比较中药处方相似性的方法,其特征在于,所述计算每个处方中的药材分词向量的分词权重,包括:
采用TF-IDF公式计算每个处方中的药材分词向量的分词权重。
4.根据权利要求3所述的比较中药处方相似性的方法,其特征在于,
所述分词向量的TF-IDF权重归一化公式为:
Figure FDA0003076247940000011
分词向量的TF-IDF权重归一化公式包括:TF词频tf公式和IDF逆文件频率idfi公式,TF词频tf公式为:
Figure FDA0003076247940000012
其中li,j表示药材ti在处方dj中的用量,∑klk,j表示处方dj中所有药材的用量之和;IDF逆文件频率idfi的公式为:
Figure FDA0003076247940000013
其中|D|表示中处方的总数,|{j:ti∈dj}|表示包含药材ti的处方数量。
5.根据权利要求3所述的比较中药处方相似性的方法,其特征在于,所述根据所述药材的分词向量与对应的所述分词权重生成处方的短文本向量,包括:
根据所述药材的分词向量与对应的所述分词权重将所述分词向量进行线性相加,生成处方的短文本向量;
每个处方dj的短文本向量:
Figure FDA0003076247940000021
其中wi表示药材ti的分词向量经过Word2Vec模型训练出来的词向量,tf-idfi表药材ti的分词向量引入的分词权重因子。
6.根据权利要求5所述的比较中药处方相似性的方法,其特征在于,所述获取短文本向量之间的相互关联程度,包括:
计算短文本向量TA中某一药材的分词向量t与短文本向量TB的相互关联程度I(t;T),
Figure FDA0003076247940000022
其中p(t)是指分词向量t在短文本向量中出现的概率,p(Ti)表示中药处方数据库中的处方属于处方Ti的概率,p(t,Ti)表示处方Ti中出现分词向量t的处方数目与整个中药处方数据库中处方数目之比;
将短文本向量TA中所有的药材的分词向量ta与短文本向量TB的关联程度进行求和,得到短文本向量之间的相互关联程度,所述短文本向量之间的相互关联程度为:
Figure FDA0003076247940000023
其中,ta是指处方短文本向量TA中出现的分词向量,
Figure FDA0003076247940000024
是指分词向量ta的用量关联度。
7.根据权利要求6所述的比较中药处方相似性的方法,其特征在于,所述用量关联度的计算公式为:
Figure FDA0003076247940000025
其中lmax是指药材分词向量ti在短文本向量TA或短文本向量TB中用量的最大值,lmin是指药材分词向量ti在短文本向量TA或短文本向量TB中用量的最小值。
8.根据权利要求7所述的比较中药处方相似性的方法,其特征在于,所述根据所述短文本向量之间的相互关联程度计算处方相似度,包括:
将短文本向量之间的相互关联程度进行非线性归一化得到处方相似度,归一化公式为:
Figure FDA0003076247940000026
9.根据权利要求1所述的比较中药处方相似性的方法,其特征在于,还包括:对中药处方数据库中的数据进行数据清洗处理。
CN202110553551.0A 2021-05-20 2021-05-20 一种比较中药处方相似性的方法 Active CN113554053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110553551.0A CN113554053B (zh) 2021-05-20 2021-05-20 一种比较中药处方相似性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110553551.0A CN113554053B (zh) 2021-05-20 2021-05-20 一种比较中药处方相似性的方法

Publications (2)

Publication Number Publication Date
CN113554053A true CN113554053A (zh) 2021-10-26
CN113554053B CN113554053B (zh) 2023-06-20

Family

ID=78101836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110553551.0A Active CN113554053B (zh) 2021-05-20 2021-05-20 一种比较中药处方相似性的方法

Country Status (1)

Country Link
CN (1) CN113554053B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175329A (ja) * 2000-12-07 2002-06-21 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
WO2018183952A1 (en) * 2017-03-31 2018-10-04 Alibaba Group Holding Limited Method, apparatus, and electronic devices for searching images
CN108763477A (zh) * 2018-05-29 2018-11-06 厦门快商通信息技术有限公司 一种短文本分类方法及系统
US20180373751A1 (en) * 2017-06-21 2018-12-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing a low-quality news resource, computer device and readable medium
CN109165382A (zh) * 2018-08-03 2019-01-08 南京工业大学 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
WO2019029723A1 (zh) * 2017-08-11 2019-02-14 腾讯科技(深圳)有限公司 文本问题的数学化处理方法、装置、设备和存储介质
CN109885813A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法
CN110489759A (zh) * 2019-09-12 2019-11-22 人和未来生物科技(长沙)有限公司 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN111144109A (zh) * 2019-12-27 2020-05-12 北京明略软件系统有限公司 文本相似度确定方法和装置
CN111444387A (zh) * 2020-03-27 2020-07-24 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
US20200242140A1 (en) * 2019-01-30 2020-07-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and medium for determining text relevance
WO2021000391A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 文本智能化清洗方法、装置及计算机可读存储介质
CN112380350A (zh) * 2021-01-14 2021-02-19 北京崔玉涛儿童健康管理中心有限公司 一种文本分类方法和装置
CN112527971A (zh) * 2020-12-25 2021-03-19 华戎信息产业有限公司 一种相似文章的检索方法和系统
WO2021072850A1 (zh) * 2019-10-15 2021-04-22 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175329A (ja) * 2000-12-07 2002-06-21 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
WO2018183952A1 (en) * 2017-03-31 2018-10-04 Alibaba Group Holding Limited Method, apparatus, and electronic devices for searching images
CN107273913A (zh) * 2017-05-11 2017-10-20 武汉理工大学 一种基于多特征融合的短文本相似度计算方法
US20180373751A1 (en) * 2017-06-21 2018-12-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing a low-quality news resource, computer device and readable medium
WO2019029723A1 (zh) * 2017-08-11 2019-02-14 腾讯科技(深圳)有限公司 文本问题的数学化处理方法、装置、设备和存储介质
CN108763477A (zh) * 2018-05-29 2018-11-06 厦门快商通信息技术有限公司 一种短文本分类方法及系统
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法
CN109165382A (zh) * 2018-08-03 2019-01-08 南京工业大学 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
US20200242140A1 (en) * 2019-01-30 2020-07-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and medium for determining text relevance
CN109885813A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
WO2021000391A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 文本智能化清洗方法、装置及计算机可读存储介质
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN110489759A (zh) * 2019-09-12 2019-11-22 人和未来生物科技(长沙)有限公司 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
WO2021072850A1 (zh) * 2019-10-15 2021-04-22 平安科技(深圳)有限公司 特征词提取方法、文本相似度计算方法、装置和设备
CN111144109A (zh) * 2019-12-27 2020-05-12 北京明略软件系统有限公司 文本相似度确定方法和装置
CN111444387A (zh) * 2020-03-27 2020-07-24 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN112527971A (zh) * 2020-12-25 2021-03-19 华戎信息产业有限公司 一种相似文章的检索方法和系统
CN112380350A (zh) * 2021-01-14 2021-02-19 北京崔玉涛儿童健康管理中心有限公司 一种文本分类方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
颜伟: "心脏病电子病历中问答对抽取方法研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *
颜伟: "心脏病电子病历中问答对抽取方法研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》, no. 5, 15 May 2021 (2021-05-15), pages 25 - 27 *

Also Published As

Publication number Publication date
CN113554053B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
Gligic et al. Named entity recognition in electronic health records using transfer learning bootstrapped neural networks
WO2021159640A1 (zh) 基于人工智能的药品推荐方法及相关设备
CN108595614A (zh) 应用于his系统的数据表映射方法
CN109949936A (zh) 一种基于深度学习混合模型的再住院风险预测方法
CN111709233A (zh) 基于多注意力卷积神经网络的智能导诊方法及系统
Beller et al. Computing the longest common prefix array based on the Burrows–Wheeler transform
CN105184052A (zh) 一种药品信息的自动编码方法及系统
CN107103048A (zh) 药品信息匹配方法及系统
CN113723056B (zh) Icd编码转化方法、装置、计算设备和存储介质
CN114005509B (zh) 一种治疗方案推荐系统、方法、装置和存储介质
Stylianou et al. EBM+: Advancing Evidence-Based Medicine via two level automatic identification of Populations, Interventions, Outcomes in medical literature
CN113793696A (zh) 一种基于相似性的新药副作用发生频率预测方法、系统、终端及可读存储介质
Schäfer et al. UMLS mapping and Word embeddings for ICD code assignment using the MIMIC-III intensive care database
Kim et al. Order-preserving pattern matching with scaling
Wang et al. Adverse drug reaction detection from social media based on quantum bi-LSTM with attention
Leng et al. Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data
CN111563139B (zh) Ocr识别发票药品名的校验方法、装置及计算机设备
Shree et al. Sensitivity context aware privacy preserving text document summarization
CN113554053A (zh) 一种比较中药处方相似性的方法
CN107194143A (zh) 药品信息数据处理方法及系统
Majali et al. Data mining techniques for diagnosis and prognosis of breast cancer
Rusyana et al. The lasso binary logistic regression method for selecting variables that affect the recovery of Covid-19 patients in China
CN116522944A (zh) 基于多头注意力的图片生成方法、装置、设备及介质
Indrawan et al. Multi-class svm classification comparison for health service satisfaction survey data in bahasa
Benício et al. Applying Text Mining and Natural Language Processing to Electronic Medical Records for extracting and transforming texts into structured data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant