CN110287337A - 基于深度学习和知识图谱获取医学同义词的系统及方法 - Google Patents
基于深度学习和知识图谱获取医学同义词的系统及方法 Download PDFInfo
- Publication number
- CN110287337A CN110287337A CN201910530633.6A CN201910530633A CN110287337A CN 110287337 A CN110287337 A CN 110287337A CN 201910530633 A CN201910530633 A CN 201910530633A CN 110287337 A CN110287337 A CN 110287337A
- Authority
- CN
- China
- Prior art keywords
- medicine
- vector
- term vector
- synonym
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 38
- 238000013507 mapping Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013135 deep learning Methods 0.000 title claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 238000011109 contamination Methods 0.000 claims 1
- 238000013480 data collection Methods 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000012549 training Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000005075 mammary gland Anatomy 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
一种基于深度学习和知识图谱获取医学同义词的系统及方法,包括:知识图谱生成模块、词向量计算模块、相似度计算模块以及公共元素统计模块,知识图谱生成模块与公共元素统计模块相连并传输知识图谱信息,词向量计算模块从对输入文本进行分析并识别出医学实体并将词向量信息输出至相似度计算模块,相似度计算模块根据知识图谱信息和医学实体的词向量信息及其互相之间的相似度得到候选同义词并输出至公共元素统计模块,公共元素统计模块通过统计公共元素的方式从中选出最终同义词。本发明利用知识图谱更加准确的定位到同义词,从而获取的同义词准确度有很大的提升。
Description
技术领域
本发明涉及的是一种语义识别领域的技术,具体是一种基于深度学习和知识图谱获取医学同义词的系统及方法。
背景技术
随着人工智能技术在医疗领域越来越广泛的应用,越来越多的产品使用人机交互的方式来帮助病人进行病情分析,从而提高医生的诊断效率和准确度。主要为获取病人的主诉信息,并对主诉信息进行语义分析,选择合适的流程进行问诊,并得出结论。这其中,对主诉信息的理解主要表现为病人主诉信息中所涉及的医学实体和内部数据库中的标准医学实体的匹配,即寻找医学同义词,这是当前技术的一个主要难点。
对于获取同义词问题,现有方法主要是采用word2vec模型和计算余弦相似度,但是word2vec模型是基于上下文相似的词所表达的词义也是相似的这种假设,所以最后得到的相似度只能说明这两个单词在语料中的上下文的相似程度,并不是这两个词的语义相似度。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于深度学习和知识图谱获取医学同义词的系统及方法,利用主诉中的相关信息在知识图谱中更加准确的定位到同义词,从而获取的同义词准确度有很大的提升。
本发明是通过以下技术方案实现的:
本发明涉及一种基于深度学习和知识图谱获取医学同义词的系统,包括:知识图谱生成模块、词向量计算模块、相似度计算模块以及公共元素统计模块,其中:知识图谱生成模块与公共元素统计模块相连并传输知识图谱信息,词向量计算模块从对输入文本进行分析并识别出医学实体并将词向量信息输出至相似度计算模块,相似度计算模块根据医学实体的词向量信息及其互相之间的相似度得到候选同义词并输出至公共元素统计模块,公共元素统计模块通过统计公共元素的方式从中选出最终同义词。
附图说明
图1为本发明流程示意图;
图2为实施例深层双向语言模型示意图;
图3为实施例从候选词中选择同义词示意图。
具体实施方式
如图3所示,本实施例包括以下步骤:
步骤101,获取医学数据:各大医学网站和移动客户端进行爬虫和下载医学论文、医学书籍、医学词典、电子病历、医学标准术语集(例如medDRA,ICD-10)等。
所述的爬虫是指:按照一定的规则,自动地抓取万维网信息的程序或者脚本。
步骤102,数据预处理:利用所获得的医学词典和标准术语集构建分词词典和停用词表,结合分词技术和命名实体识别技术(ner)对医学文本进行准确分词。
所述的分词技术采用但不限于基于Python的中文分词组件”Jieba”得以实现,其具体如:https://github.com/fxsjy/jieba中记载的方法。
所述的命名实体识别技术采用但不限于《Chinese NER Using Lattice LSTM》(Zhang,Yue,Yang,Jie,ACL 2018)中记载的方法实现。
步骤103,构建医学知识图谱:利用从医学文本中所提取的医学实体和关系构建医学知识图谱。
步骤104,获得中心词和特征词:当获得输入信息时,通过命名实体识别技术对输入文本进行分析并识别出若干个医学实体,当某个医学实体不存在于内部数据库时,定义该实体为中心词A,同时将其他医学实体定义为特征词(C1,C2,C3,…Cm)。
所述的内部数据库是指:通过整合ICD-10,medDRA,SNOMED中的标准医学术语构造的数据集。
步骤105,利用百度百科、维基百科等大量通用文本,训练通用词向量模型并保留通用词向量模型中的参数,再利用医学语料集对通用词向量模型的参数进行微调,获得医学实体的词向量信息。
所述的通用词向量模型如图2所示,为深层双向语言模型,在学习每个词对应的词向量时,会利用该词上下文中其他所有词对应的语义信息,不仅可以获得句子上下文更远距离的语言信息,还真正考虑到左右两侧的上下文信息,预训练模型数据规模大,即使医学数据不充足的情况下也可以获得很好的性能;该深层双向语言模型包括:输入层1051、中间层1052、1053,以及输出层1054,其中:中间层为12层变形(Transformer)模型,每个词的输入由词向量、分割向量、位置向量组成,训练每一个词的词向量时都充分的利用了上下文的语义信息。
所述的变形模型,为《Attention Is All You Need》(Ashish Vaswani,NoamShazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.Gomez,Lukasz Kaiser,Illia Polosukhin12Jun 2017)中记载的基于注意力机制的网络结构。
所述的医学语料集通过爬虫方式得到。
所述的通用词向量模型的参数优选为:Transformer模型的层数为12,Transformer模型的内部维度为768,heads的数量为12。
所述的微调是指:利用通用词向量模型的参数作为初始化参数,并在同一模型中输入医学语料集进行训练。
例如:取自用户输入的词A对应的词向量为w1=(x1,x2,x3,x4,x5,…,xn-2,xn-1,xn),词B对应的词向量为w1′=(x′1,x′2,x′3,x′4,x′5,…x′n-2,x′n-1,x′n)。
步骤106,根据字符编辑距离、拼音编辑距离和公共部首生成A,B两词之间的特征向量w2=(y1,y2,y3),其中字符编辑距离拼音编辑距离拼音编辑距离指的是将词A,B转化为对应的拼音,然后对拼音计算编辑距离,公共部首公共部首指的是例如词A为糖尿病,B为乳腺癌,其中对应的“糖”,“乳”部首不相同,“尿”,“腺”部首不相同,“病”,“癌”部首相同,则分子部首相同的个数为1,分母A,B的最大长度为3。
步骤107,将医学实体A,B的词向量和特征向量拼接后计算A和B之间的相似度,具体为:将步骤105,106获得的词向量w1和特征向量w2进行拼接,组成α=(y1,y2,y3,x1,x2,x3,x4,x5,…,xn-2,xn-1,xn),β=(1,1,1,x′1,x′2,x′3,x′4,x′5,…x′n-2,x′n-1,x′n),其中α为中心词A拼接后的向量,β为内部数据库中标准医学实体B拼接后的向量,需要对A和所有的B分别计算余弦相似度,从而在内部数据库中获得与A相似度较高的前三个医学词汇(A1,A2,A3)。
所述的余弦相似度其中:*表示两个向量每一维度对应元素相乘的总和,||表示向量各维度的平方和然后开根号,i的取值范围是[1,n],n表示向量的总维度,α、β为拼接后的向量。
通过以上方法,对中心词A,特征词(C1,C2,C3,…Cm)分别获得三个相似词,(A1,A2,A3),(C11,C12,C13),(C21,C22,C23),(C31,C32,C33),…,(Cm1,Cm2,Cm3),最终获得3*(m+1)个医学词汇,其中前3个是中心词的相似词,剩下的为特征词的相似词。
步骤108,如图3所示,结合知识图谱,获得同义词,具体步骤包括:
步骤1081,根据步骤103得到知识图谱;
步骤1082,在知识图谱中找到医学词汇A1所在的子图;
步骤1083,以A1为中心,找到与A1相连的所有节点;
步骤1084,将步骤1083找到的所有节点存放在数组中,即节点数组D;
步骤1085,采集m个特征词并从词向量模型中获得m个特征词的词向量;
步骤1086,通过计算特征向量和词向量拼接后的向量余弦相似度在内部数据库中分别获得每个特征词对应的3个相似词;
步骤1087,将步骤1085和步骤1086获得的(3+1)*m个特征词{(C1,C2,C3,…Cm),(C11,C12,C13),(C21,C22,C23),(C31,C32,C33),…,(Cm1,Cm2,Cm3)}进行排列组合,得到4m种组合方式,使得每一种组合方式都包括每个特征词中的一种情况;
步骤1088,依次选择所有的特征词组合;
所述的组合方式包括:当m为2,特征词则变为{(C1,C11,C12,C13),(C2,C21,C22,C23)},组合方式即为(C1,C2),(C11,C2),(C12,C2),(C13,C2),(C1,C21),(C1,C22),(C1,C23),(C11,C21),(C11,C22),(C11,C23),(C12,C21),(C12,C22),(C12,C23),(C13,C21),(C13C22),(C13,C23);
步骤1089,将选择的组合方式和节点数组D进行比较,统计公共元素;
所述的比较是指:比较两个数组中是否有相同的元素;
所述的公共元素是指:一个元素同时出现在步骤1088中的特征词组合和节点数组D中,即为公共元素。
步骤10810,记录不同的特征词组合和节点数组D公共元素的个数,取公共元素的平均值,对医学词汇A2,A3重复步骤1082~步骤10810执行相同操作;
步骤10811以A1,A2,A3中公共元素的平均值最大的一个医学词汇作为最终同义词。
本实施例利用主诉中的相关信息在知识图谱中更加准确的定位到同义词,从而获取的同义词准确度有很大的提升。
经过具体实际实验,在Linux操作系统,32G内存的环境下,以L=12,H=768,A=12参数运行上述方法,能够得到的实验数据是:本模型的准确度为0.85,Spearman系数为0.76,Pearson系数为0.74,在同一测试集下word2vec准确度为0.76,Spearman系数为0.54,Pearson系数为0.60。与现有技术相比,本方法的性能指标提升在于:利用了深层双向语言模型训练词向量,并在知识图谱上对候选相似词进行筛选。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (9)
1.一种基于深度学习和知识图谱获取医学同义词的系统,其特征在于,包括:知识图谱生成模块、词向量计算模块、相似度计算模块以及公共元素统计模块,其中:知识图谱生成模块与公共元素统计模块相连并传输知识图谱信息,词向量计算模块从对输入文本进行分析并识别出医学实体并将词向量信息输出至相似度计算模块,相似度计算模块根据医学实体的词向量信息及其互相之间的相似度得到候选同义词并输出至公共元素统计模块,公共元素统计模块通过统计公共元素的方式从中选出最终同义词。
2.根据权利要求1所述的系统,其特征是,所述的知识图谱信息,通过医学词典和标准术语集构建分词词典和停用词表,结合分词技术和命名实体识别技术对医学文本进行准确分词提取的医学实体和关系构建得到。
3.根据权利要求1所述的系统,其特征是,所述的医学实体的词向量信息,通过命名实体识别技术对输入文本进行分析并识别出若干个医学实体,当某个医学实体不存在于标准医学数据集时,定义该实体为中心词A,同时将其他医学实体定义为特征词(C1,C2,C3,…Cm);然后利用通用文本训练通用词向量模型并保留通用词向量模型中的参数;最后利用医学语料集对通用词向量模型的参数进行微调,获得医学实体的词向量信息。
4.根据权利要求3所述的系统,其特征是,所述的通用词向量模型为深层双向语言模型,该模型利用该词上下文中其他所有词对应的语义信息获得句子上下文更远距离的语言信息,该深层双向语言模型包括:输入层、中间层以及输出层,其中:中间层为12层Transformer模型,每个词的输入由词向量、分割向量、位置向量组成。
5.根据权利要求3所述的系统,其特征是,所述的微调是指:利用通用词向量模型的参数作为初始化参数,并在同一模型中输入医学语料集进行训练。
6.根据权利要求1所述的系统,其特征是,所述的相似度,通过将两个医学实体的词向量和特征向量拼接得到新的向量后计算两者之间的余弦相似度,其中:
余弦相似度其中:*表示两个向量每一维度对应元素相乘的总和,||表示向量各维度的平方和然后开根号,i的取值范围是[1,n],n表示向量的总维度,其中:中心词A的拼接后的向量
α=(y1,y2,y3,x1,x2,x3,x4,x5,…,xn-2,xn-1,xn),内部数据库中的标准医学实体的新的向量β=(1,1,1,x′1,x′2,x′3,x′4,x′5,…x′n-2,x′n-1,x′n);
特征向量w2=(y1,y2,y3),字符编辑距离拼音编辑距离公共部首距离其中:中心词A对应的词向量为w1=(x1,x2,x3,x4,x5,…,xn-2,xn-1,xn),内部数据库中的标准医学实体词B对应的词向量为w′1=(x′1,x′2,x′3,x′4,x′5,…,x′n-2,x′n-1,x′n)。
7.根据权利要求1所述的系统,其特征是,所述的候选同义词,即词向量和特征向量拼接后的向量计算余弦相似度获得的相似度最高的前三个医学词汇(A1,A2,A3)作为候选同义词。
8.根据权利要求1所述的系统,其特征是,所述的最终同义词,通过将用户输入中的中心词A在内部数据库中获得与其相似度最高的前三个医学词汇(A1,A2,A3)作为候选同义词,并分别将这三个候选同义词所在子图中的其他节点和特征词的组合统计公共元素,公共元素平均值最大的候选同义词作为最终同义词;
所述的公共元素,即特征词的排列组合和医学词汇的节点数组的交集。
9.一种基于深度学习和知识图谱获取医学同义词的方法,其特征在于,基于上述任一权利要求所述系统实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910530633.6A CN110287337A (zh) | 2019-06-19 | 2019-06-19 | 基于深度学习和知识图谱获取医学同义词的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910530633.6A CN110287337A (zh) | 2019-06-19 | 2019-06-19 | 基于深度学习和知识图谱获取医学同义词的系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110287337A true CN110287337A (zh) | 2019-09-27 |
Family
ID=68005236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910530633.6A Pending CN110287337A (zh) | 2019-06-19 | 2019-06-19 | 基于深度学习和知识图谱获取医学同义词的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287337A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941612A (zh) * | 2019-11-19 | 2020-03-31 | 上海交通大学 | 基于关联数据的自治数据湖构建系统及方法 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN111274794A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 一种基于传递的同义词扩展方法 |
CN111738001A (zh) * | 2020-08-06 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 同义词识别模型的训练方法、同义词确定方法及设备 |
CN111785383A (zh) * | 2020-06-29 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 数据处理方法及相关设备 |
CN111814463A (zh) * | 2020-08-24 | 2020-10-23 | 望海康信(北京)科技股份公司 | 国际疾病分类编码推荐方法、系统及相应设备和存储介质 |
CN112017776A (zh) * | 2020-10-27 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于动态图和医学知识图谱的疾病预测方法及相关设备 |
CN112331338A (zh) * | 2021-01-06 | 2021-02-05 | 北京小白世纪网络科技有限公司 | 中医标准症状匹配方法及装置 |
CN112711642A (zh) * | 2019-10-24 | 2021-04-27 | 阿里巴巴集团控股有限公司 | 一种药物名称匹配方法和装置 |
CN113221578A (zh) * | 2021-04-30 | 2021-08-06 | 平安科技(深圳)有限公司 | 疾病实体检索方法、装置、设备及介质 |
CN113360677A (zh) * | 2021-07-08 | 2021-09-07 | 北京明略昭辉科技有限公司 | 基于知识图谱的快速定位方法及系统 |
CN113377897A (zh) * | 2021-05-27 | 2021-09-10 | 杭州莱迈医疗信息科技有限公司 | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 |
WO2021189971A1 (zh) * | 2020-10-26 | 2021-09-30 | 平安科技(深圳)有限公司 | 基于知识图谱表征学习的医疗方案推荐系统及方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
WO2014033799A1 (ja) * | 2012-08-27 | 2014-03-06 | 株式会社日立製作所 | 単語意味関係抽出装置 |
CN105095204A (zh) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 同义词的获取方法及装置 |
WO2016081170A1 (en) * | 2014-11-20 | 2016-05-26 | Oracle International Corporation | Automatic generation of contextual search string synonyms |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106933806A (zh) * | 2017-03-15 | 2017-07-07 | 北京大数医达科技有限公司 | 医疗同义词的确定方法和装置 |
CN107608953A (zh) * | 2017-07-25 | 2018-01-19 | 同济大学 | 一种基于不定长上下文的词向量生成方法 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN108520780A (zh) * | 2018-03-07 | 2018-09-11 | 中国科学院计算技术研究所 | 一种基于迁移学习的医学数据处理和系统 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
-
2019
- 2019-06-19 CN CN201910530633.6A patent/CN110287337A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
WO2014033799A1 (ja) * | 2012-08-27 | 2014-03-06 | 株式会社日立製作所 | 単語意味関係抽出装置 |
CN105095204A (zh) * | 2014-04-17 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 同义词的获取方法及装置 |
WO2016081170A1 (en) * | 2014-11-20 | 2016-05-26 | Oracle International Corporation | Automatic generation of contextual search string synonyms |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106933806A (zh) * | 2017-03-15 | 2017-07-07 | 北京大数医达科技有限公司 | 医疗同义词的确定方法和装置 |
CN107608953A (zh) * | 2017-07-25 | 2018-01-19 | 同济大学 | 一种基于不定长上下文的词向量生成方法 |
CN108520780A (zh) * | 2018-03-07 | 2018-09-11 | 中国科学院计算技术研究所 | 一种基于迁移学习的医学数据处理和系统 |
CN108491382A (zh) * | 2018-03-14 | 2018-09-04 | 四川大学 | 一种半监督生物医学文本语义消歧方法 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN109684440A (zh) * | 2018-12-13 | 2019-04-26 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
Non-Patent Citations (1)
Title |
---|
LI Y等: "Component-enhanced chinese character embeddings", 《EMNLP2015》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711642A (zh) * | 2019-10-24 | 2021-04-27 | 阿里巴巴集团控股有限公司 | 一种药物名称匹配方法和装置 |
CN110941612A (zh) * | 2019-11-19 | 2020-03-31 | 上海交通大学 | 基于关联数据的自治数据湖构建系统及方法 |
CN110941612B (zh) * | 2019-11-19 | 2020-08-11 | 上海交通大学 | 基于关联数据的自治数据湖构建系统及方法 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN111160012B (zh) * | 2019-12-26 | 2024-02-06 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN111274794A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 一种基于传递的同义词扩展方法 |
CN111274794B (zh) * | 2020-01-19 | 2022-03-18 | 浙江大学 | 一种基于传递的同义词扩展方法 |
CN111785383A (zh) * | 2020-06-29 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 数据处理方法及相关设备 |
CN111785383B (zh) * | 2020-06-29 | 2024-07-05 | 深圳平安医疗健康科技服务有限公司 | 数据处理方法及相关设备 |
CN111738001A (zh) * | 2020-08-06 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 同义词识别模型的训练方法、同义词确定方法及设备 |
CN111814463A (zh) * | 2020-08-24 | 2020-10-23 | 望海康信(北京)科技股份公司 | 国际疾病分类编码推荐方法、系统及相应设备和存储介质 |
CN111814463B (zh) * | 2020-08-24 | 2020-12-15 | 望海康信(北京)科技股份公司 | 国际疾病分类编码推荐方法、系统及相应设备和存储介质 |
WO2021189971A1 (zh) * | 2020-10-26 | 2021-09-30 | 平安科技(深圳)有限公司 | 基于知识图谱表征学习的医疗方案推荐系统及方法 |
CN112017776B (zh) * | 2020-10-27 | 2021-01-15 | 平安科技(深圳)有限公司 | 基于动态图和医学知识图谱的疾病预测方法及相关设备 |
CN112017776A (zh) * | 2020-10-27 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于动态图和医学知识图谱的疾病预测方法及相关设备 |
CN112331338A (zh) * | 2021-01-06 | 2021-02-05 | 北京小白世纪网络科技有限公司 | 中医标准症状匹配方法及装置 |
CN113221578A (zh) * | 2021-04-30 | 2021-08-06 | 平安科技(深圳)有限公司 | 疾病实体检索方法、装置、设备及介质 |
CN113221578B (zh) * | 2021-04-30 | 2022-11-25 | 平安科技(深圳)有限公司 | 疾病实体检索方法、装置、设备及介质 |
CN113377897A (zh) * | 2021-05-27 | 2021-09-10 | 杭州莱迈医疗信息科技有限公司 | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 |
CN113377897B (zh) * | 2021-05-27 | 2022-04-22 | 杭州莱迈医疗信息科技有限公司 | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 |
CN113360677A (zh) * | 2021-07-08 | 2021-09-07 | 北京明略昭辉科技有限公司 | 基于知识图谱的快速定位方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287337A (zh) | 基于深度学习和知识图谱获取医学同义词的系统及方法 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN111401066B (zh) | 基于人工智能的词分类模型训练方法、词处理方法及装置 | |
US11749264B2 (en) | System and methods for training task-oriented dialogue (TOD) language models | |
CN111831789A (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
Santander-Cruz et al. | Semantic feature extraction using SBERT for dementia detection | |
Kumar et al. | A deep learning approaches and fastai text classification to predict 25 medical diseases from medical speech utterances, transcription and intent | |
AI-Atroshi et al. | RETRACTED ARTICLE: Automated speech based evaluation of mild cognitive impairment and Alzheimer’s disease detection using with deep belief network model | |
Asif et al. | An approach for pronunciation classification of classical arabic phonemes using deep learning | |
Ziafat et al. | Correct pronunciation detection of the arabic alphabet using deep learning | |
CN111985612A (zh) | 一种提高视频文本描述准确性的编码器网络模型设计方法 | |
Chowdhury et al. | Indian language identification using time-frequency image textural descriptors and GWO-based feature selection | |
Somogyi | The Application of Artificial Intelligence | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN112732910A (zh) | 跨任务文本情绪状态评估方法、系统、装置及介质 | |
Wadud et al. | Non-autoregressive end-to-end neural modeling for automatic pronunciation error detection | |
Ba Wazir et al. | Design and implementation of fast spoken foul language recognition with different end-to-end deep neural network architectures | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN117877660A (zh) | 基于语音识别的医学报告获取方法及系统 | |
Rizhinashvili et al. | Gender neutralisation for unbiased speech synthesising | |
Yue | English spoken stress recognition based on natural language processing and endpoint detection algorithm | |
CN117151102A (zh) | 一种基于本地路径增强的中医药文档级关系抽取方法、系统、电子设备及介质 | |
US11783244B2 (en) | Methods and systems for holistic medical student and medical residency matching | |
Sarasola et al. | Application of pitch derived parameters to speech and monophonic singing classification | |
CN114491265B (zh) | 一种经营性空间平台运营服务系统的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190927 |
|
WD01 | Invention patent application deemed withdrawn after publication |