CN113377897B - 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 - Google Patents

基于深度对抗学习的多语言医疗术语规范标准化系统及方法 Download PDF

Info

Publication number
CN113377897B
CN113377897B CN202110588841.9A CN202110588841A CN113377897B CN 113377897 B CN113377897 B CN 113377897B CN 202110588841 A CN202110588841 A CN 202110588841A CN 113377897 B CN113377897 B CN 113377897B
Authority
CN
China
Prior art keywords
term
module
medical
candidate
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110588841.9A
Other languages
English (en)
Other versions
CN113377897A (zh
Inventor
任元凯
江振荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Laimai Medical Information Technology Co ltd
Original Assignee
Hangzhou Laimai Medical Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Laimai Medical Information Technology Co ltd filed Critical Hangzhou Laimai Medical Information Technology Co ltd
Priority to CN202110588841.9A priority Critical patent/CN113377897B/zh
Publication of CN113377897A publication Critical patent/CN113377897A/zh
Application granted granted Critical
Publication of CN113377897B publication Critical patent/CN113377897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开基于深度对抗学习的多语言医疗术语规范标准化系统,包括标准医学术语库、文件预处理模块、候选术语集生成模块及候选术语集重排模块;所述文件预处理模块,用于统一真实世界的医学术语字符串的格式,以及将长字符串开分成单个的中文及英文词token;所述候选术语集生成模块,用于从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语;所述候选术语集重排模块:用于将真实世界医学术语与筛选出来的候选术语组成术语对,根据匹配程度标注成正例和负例,作为深度学习模型的输入,模型通过迭代优化生成自动术语匹配模型。

Description

基于深度对抗学习的多语言医疗术语规范标准化系统及方法
技术领域
本发明涉及基于深度对抗学习的多语言医疗术语规范标准化系统及方法,属于医疗技术领域。
背景技术
国内医学领域,尤其是电子病历的书写中,术语种类繁多,不规范化情况严重,以往的方案是对电子病历进行信息提取以后,根据中文字符串匹配出相似的标准术语,再由医学领域的专家对这些术语进行全人工的或者半自动的校对。医疗术语规范化的工作费时费力,效率不高。
经检索,公开号CN109446340A,一种医学标准术语本体管理系统及方法、设备和存储介质,该专利公开了构建医学标准术语本体管理系统所需的术语概念体系、结构化定义和分类,侧重于术语标准的数量保证和质量评价。
公开号CN110349639A,一种基于通用医疗术语库的多中心医疗术语标准化系统,该专利公开了在多个医疗数据中心之间管理医疗术语标准化的流程,以解决多家医疗机构术语表达不一致的问题。
公开号CN112101014A,一种混合特征融合的中文化工文献分词方法,公开了构造word2vec语言模型,通过CNN和BiLSTM模型抽取文本特征,利用融合后的特征提高中文化工文献分词效果的方法,主要解决化工文献中、英文术语的识别和分割问题。
目前,中文医疗术语标准化的工作仍存在以下问题:
1.由于中文医疗信息化建设的历史较短,包含中文医疗标准术语、同义词及其他重要语义关系,如疾病与药品关系,等信息的知识库和知识图谱资源有限。
2.以同义词作为主要匹配方式的术语标准化方法不足以涵盖真实世界数据中大量出现的、多样化的术语不规范表达。
3.目前工作主要集中在中文医疗术语表达之间的映射,缺乏灵活的自动模型,可以灵活支持中文到中文、中文到英文、中文到其他语言的术语映射,为医学研究、应用和我国医学信息化技术与产品的国际化输出造成障碍。
针对此类情况,本发明提供了一种基于多语种医疗知识图谱特征和对抗学习的自动化术语规范化系统及方法。以英文为主的国际医疗术语标准库相对较为丰富(如SNOMED-CT,UMLS,ICD等),可以在构建自动术语标准化模型时作为中文资源的重要补充,对抗学习模型抽取的多语种公共特征,有助于减少人工标注的数据量,增加模型的通用型,并且保持术语规范化的准确率在可接受范围内,再结合人工进行少量的校对,以此达到高精度的目的。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于深度对抗学习搜索召回率及查全率高的多语言医疗术语规范标准化系统及方法。
技术方案:基于深度对抗学习的多语言医疗术语规范标准化系统,包括标准医学术语库,其特征在于:还包括文件预处理模块、候选术语集生成模块、候选术语集重排模块以及输出模块;
所述文件预处理模块,用于统一真实世界的医学术语字符串的格式,以及将长字符串开分成单个的中文及英文词token;
所述候选术语集生成模块,用于从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语;
所述候选术语集重排模块:用于将真实世界医学术语与筛选出来的候选术语组成术语对,根据匹配程度标注成正例和负例,作为深度学习模型的输入,模型通过迭代优化生成自动术语匹配模型;
所述输出模块,用于向用户返回生成的术语对数据的相似度概率,用户可以通过设定相似度的阈值来判断该非规范化术语得到的规范化术语是否需要进行进一步的人工校验。
本发明进一步限定的技术方案为:所述文件预处理模块具体包括医学术语标注语料、编码、字符统一模块及第一分词模块;
所述医学术语标注语料:用于为训练基于深度学习的自动术语匹配模型,将人工构建的真实世界医学术语与标准医学术语的语义对应关系作为训练语料输入到所述候选术语集重排模块中;
所述编码、字符统一模块:用于去除真实世界的医学术语字符串中的噪音;
所述第一分词模块:用于将待规范化术语的长字符串开分成单个的中文及英文词token,以方便在所述候选术语集生成模块中与标准术语进行匹配。
作为优选,所述候选术语集生成模块具体包括第二分词模块、标准术语索引及语义搜索模块;
所述第二分词模块:用于将标准医学术语的长字符串开分成单个的中文及英文词token;
所述标准术语索引:用于将已经分好词的标准术语建成索引;
所述语义搜索模块:用于从标准医学术语的索引中,基于语义匹配搜索出前n个与真实世界医学术语最相似的标准术语,以在所述候选术语集重排模块中形成候选的匹配术语对。
作为优选,所述候选术语集重排模块具体包括训练术语对集合、中文自注意力深度神经网络模块、第一医学知识图谱嵌入模块、第一参数优化模块、第一训练误差计算模块、双语种自注意力深度学习模块、第三参数优化模块、第三训练误差计算模块、英文自注意力深度神经网络模块、第二医学知识图谱嵌入模块、第二参数优化模块、第二训练误差计算模块及自动术语匹配模型;
所述训练术语对集合:根据所述语义搜索模块中搜索得到的候选标准术语集合,以及所述医学术语标注语料中的人工标注,生成用于模型训练的正例对和负例对集合,作为深度神经网络模块的输入;
所述中文自注意力深度神经网络模块:将中文术语对输入表示成分布式语义嵌入向量的形式,并根据自注意力模型调整向量各维度单元的权重;
所述第一医学知识图谱嵌入模块:为中文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量;
所述第一参数优化模块:通过迭代逐步优化中文深度神经网络的参数;
所述第一训练误差计算模块:用于计算每次中文模型迭代的误差,并通过后向反馈调整深度神经网络参数;
所述双语种自注意力深度学习模块:用于将中文术语对和英文术语对输入表示成分布式语义嵌入向量的形式,并根据自注意力模型同时调整双语向量的各维度单元的权重;
所述第三参数优化模块:通过迭代逐步优化双语种深度神经网络的参数;
所述第三训练误差计算模块:用于计算每次双语种模型迭代的误差,并通过后向反馈调整深度神经网络参数;
所述英文自注意力深度神经网络模块:用于将英文术语对输入表示成分布式语义嵌入向量的形式,并根据自注意力模型调整向量各维度单元的权重;
所述第二医学知识图谱嵌入模块:为英文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量;
所述第二参数优化模块:通过迭代逐步优化英文深度神经网络的参数;
所述第二训练误差计算模块:用于计算每次英文模型迭代的误差,并通过后向反馈调整深度神经网络参数;
所述自动术语匹配模型:在训练阶段,模型通过迭代优化生成自动术语匹配的模型,为真实世界医学术语匹配对应的标准医学术语。
本发明还公开了一种基于深度对抗学习的多语言医疗术语规范标准化方法,其特征在于:包括文件预处理步骤、候选术语集生成步骤、候选术语及重排步骤以及输出步骤;
所述文件预处理步骤,统一真实世界的医学术语字符串的格式以及将长字符串开分成单个的中文及英文词token;
所述候选术语集生成步骤,从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语;
所述候选术语及重排步骤,将真实世界医学术语与筛选出来的候选术语组成术语对,根据匹配程度标注成正例和负例,作为深度学习模型的输入,模型通过迭代优化生成自动术语匹配模型;
所述输出步骤,向用户返回生成的术语对数据的相似度概率,用户可以通过设定相似度的阈值来判断该非规范化术语得到的规范化术语是否需要进行进一步的人工校验。
有益效果:与现有技术相比,本发明所提供具有以下优点:
1)基于注意力机制的深度神经网络,通过自监督学习从大量的医学术语中学习分布式语言嵌入的向量特征,提高后续训练得到统计模型的通用型,进而提升医学术语自动映射系统的性能。
2)针对医学领域英文标准术语和知识图谱丰富的特点,利用从多种语言的文本中训练得到的医学语言模型,借助基于对抗学习获得中英文中的共同特征,借助英文知识的迁移缓解中文标准术语资源相对匮乏的问题,进而减少人工中文语料的标准,同时提高系统性能。
3)设计的深度神经网络具有很强的可扩展性和和适应性,可以增量式添加其他语种的标注资源和领域知识以不断提升性能,也可应用于除中文以外的其他医学资源匮乏的语种的医学术语自动映射系统的自动构建,具有很大的市场和商业价值。
附图说明
图1为本发明实施例的模块架构示意图;
图2为本发明实施例的流程示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明。
如图1所示,本实施例提供一种基于深度对抗学习的多语言医疗术语规范标准化系统,本系统框架依赖于bert-base multilingual预训练模型即一种由多种语言语料训练而成的语言模型,其包括标准医学术语库、文件预处理模块、候选术语集生成模块、候选术语集重排模块以及输出模块。
文件预处理模块,用于统一真实世界的医学术语字符串的格式,以及将长字符串开分成单个的中文及英文词token。文件预处理模块具体包括医学术语标注语料、编码、字符统一模块及第一分词模块;医学术语标注语料:用于为训练基于深度学习的自动术语匹配模型,将人工构建的真实世界医学术语与标准医学术语的语义对应关系作为训练语料输入到候选术语集重排模块中;编码、字符统一模块:用于去除真实世界的医学术语字符串中的噪音;第一分词模块:用于将待规范化术语的长字符串开分成单个的中文及英文词token,以方便在候选术语集生成模块中与标准术语进行匹配;如表1所示:
表1
待映射术语 SNOMEDCT标准术语
恶性高血压 Malignant Hypertension
临界性高血压 Borderline hypertension
Heart tumor Heart Neoplasm
Ventricular false tendons False tendon-heart
候选术语集生成模块,用于从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语。候选术语集生成模块具体包括第二分词模块、标准术语索引及语义搜索模块;第二分词模块:用于将标准医学术语的长字符串开分成单个的中文及英文词token;标准术语索引:用于将已经分好词的标准术语建成索引;首先,利用elasticsearch(搜索引擎)对标准化的术语进行搜索引擎的构建。新建搜索引擎索引时,采用短语的一系列特征来对搜索引擎进行优化,提高搜索结果的召回率。
在本实施例中,为了保证查全率,取K=10,也就是说,当输入一条待规范化术语的时候,系统会返回10条最相似标准术语的列表,如表2所示:
表2
Figure GDA0003531365950000061
语义搜索模块:用于从标准医学术语的索引中,基于语义匹配搜索出前n个与真实世界医学术语最相似的标准术语,以在候选术语集重排模块中形成候选的匹配术语对。
候选术语集重排模块,用于将真实世界医学术语与筛选出来的候选术语组成术语对,根据匹配程度标注成正例和负例,作为深度学习模型的输入,模型通过迭代优化生成自动术语匹配模型。
候选术语集重排模块具体包括训练术语对集合、中文自注意力深度神经网络模块、第一医学知识图谱嵌入模块、第一参数优化模块、第一训练误差计算模块、双语种自注意力深度学习模块、第三参数优化模块、第三训练误差计算模块、英文自注意力深度神经网络模块、第二医学知识图谱嵌入模块、第二参数优化模块、第二训练误差计算模块及自动术语匹配模型。
训练术语对集合:根据语义搜索模块中搜索得到的候选标准术语集合,以及医学术语标注语料中的人工标注,生成用于模型训练的正例对和负例对集合,作为深度神经网络模块的输入。
中文自注意力深度神经网络模块:将中文术语对输入表示成分布式语义嵌入向量的形式,并根据自注意力模型调整向量各维度单元的权重。
第一医学知识图谱嵌入模块:为中文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量。
第一参数优化模块:通过迭代逐步优化中文深度神经网络的参数。
第一训练误差计算模块:用于计算每次中文模型迭代的误差,并通过后向反馈调整深度神经网络参数。
双语种自注意力深度学习模块:用于将中文术语对和英文术语对输入表示成分布式语义嵌入向量的形式,并根据自注意力模型同时调整双语向量的各维度单元的权重。
第三参数优化模块:通过迭代逐步优化双语种深度神经网络的参数。
第三训练误差计算模块:用于计算每次双语种模型迭代的误差,并通过后向反馈调整深度神经网络参数。
英文自注意力深度神经网络模块:用于将英文术语对输入表示成分布式语义嵌入向量的形式,并根据自注意力模型调整向量各维度单元的权重。
第二医学知识图谱嵌入模块:为英文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量;
第二参数优化模块:通过迭代逐步优化英文深度神经网络的参数;
第二训练误差计算模块:用于计算每次英文模型迭代的误差,并通过后向反馈调整深度神经网络参数。
自动术语匹配模型:在训练阶段,模型通过迭代优化生成自动术语匹配的模型,为真实世界医学术语匹配对应的标准医学术语。
如图2所示:在本实施例中术语映射框架核心部分包括三大部分:公共特征抽取层、独立特征抽取层及额外信息抽取层。
公共特征抽取层通过预训练语言模型分别对输入层传入的中文和英文数据进行表征,分别得到对应的词向量,然后通过一个公共的BILSTM双向长度记忆网络层来对这两类数据交替进行特征的抽取,然后在此基础上添加一个self-attention自注意力机制层,来对句子进行特征权重的抽取。通过该层,可以学习到不同语种的共同信息。
公共特征抽取层主要基于对抗学习的机制,该层的参数训练目的是准确预测当前输入的特征来自两个数据源中的哪一个,是中文还是英文。因此,公共特征抽取层保留的是不同数据源、不同任务共有的主要特征。这类特征同时分别参与优化基于单个数据源的单个任务的性能。
公共双向LSTM结构如下:
Figure GDA0003531365950000081
Figure GDA0003531365950000082
Figure GDA0003531365950000083
这里的
Figure GDA0003531365950000084
Figure GDA0003531365950000085
分别为前向和后向的LSTM抽取的特征,然后经过拼接生成句子信息hi
自注意力机制结构如下:
Figure GDA0003531365950000086
这里的Q(query),K(key),V(value)均表示经过了公共双向LSTM层抽取后得到的信息,再经过一个softmax层后得到句子中不同词语的权重。
本实施例在公共特征抽取层之后构造一个独立特征抽取层,具体的,当不同语种的数据经过了公共特征抽取模块的表示以后,对这两类语种分别添加了一个BILSTM层和自注意力层,以此来达到对不同语种各自独立信息抽取的目的。独立特征抽取层中BILSTM层和自注意力层的结构同公共特征抽取层中的结构一致。
除此之外,本实施例还定义了一层可以添加额外信息的embedding嵌入层,当输入数据中包括了一些额外的信息,例如该术语的标签,词性等特征,就可以通过该embedding嵌入层来对额外的数据进行表征,然后拼接在各自的BILSTM层之后,以此来得到输入数据的额外信息。以此提高术语映射模型的准确性。当进行模型预测的时候,输入可以是中文、英文或者同时对这两类进行处理。
输出模块,用于向用户返回生成的术语对数据的相似度概率,用户可以通过设定相似度的阈值来判断该非规范化术语得到的规范化术语是否需要进行进一步的人工校验。以之前的k=10来举例,输出模块会对这10条结果进行概率评分,并降序排列,返回一个列表给用户。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

Claims (2)

1.基于深度对抗学习的多语言医疗术语规范标准化系统,包括标准医学术语库,其特征在于:还包括文件预处理模块、候选术语集生成模块、候选术语集重排模块以及输出模块;
所述文件预处理模块,用于统一真实世界的医学术语字符串的格式,以及将长字符串开分成单个的中文及英文词token;
所述候选术语集生成模块,用于从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语;
所述候选术语集重排模块:用于将真实世界医学术语与筛选出来的候选术语组成术语对,根据匹配程度标注成正例和负例,作为深度学习模型的输入,模型通过迭代优化生成自动术语匹配模型;
所述输出模块,用于向用户返回生成的术语对数据的相似度概率,用户可以通过设定相似度的阈值来判断非规范化术语得到的规范化术语是否需要进行进一步的人工校验;
所述文件预处理模块具体包括医学术语标注语料、编码、字符统一模块及第一分词模块;
所述医学术语标注语料:用于为训练基于深度学习的自动术语匹配模型,将人工构建的真实世界医学术语与标准医学术语的语义对应关系作为训练语料输入到所述候选术语集重排模块中;
所述编码、字符统一模块:用于去除真实世界的医学术语字符串中的噪音;
所述第一分词模块:用于将待规范化术语的长字符串开分成单个的中文及英文词token,以方便在所述候选术语集生成模块中与标准术语进行匹配;
所述候选术语集生成模块具体包括第二分词模块、标准术语索引及语义搜索模块;
所述第二分词模块:用于将标准医学术语的长字符串开分成单个的中文及英文词token;
所述标准术语索引:用于将已经分好词的标准术语建成索引;
所述语义搜索模块:用于从标准医学术语的索引中,基于语义匹配搜索出前n个与真实世界医学术语最相似的标准术语,以在所述候选术语集重排模块中形成候选的匹配术语对;
所述候选术语集重排模块具体包括训练术语对集合、中文自注意力深度神经网络模块、第一医学知识图谱嵌入模块、第一参数优化模块、第一训练误差计算模块、双语种自注意力深度学习模块、第三参数优化模块、第三训练误差计算模块、英文自注意力深度神经网络模块、第二医学知识图谱嵌入模块、第二参数优化模块、第二训练误差计算模块及自动术语匹配模型;
所述训练术语对集合:根据所述语义搜索模块中搜索得到的候选标准术语集合,以及所述医学术语标注语料中的人工标注,生成用于模型训练的正例对和负例对集合,作为深度神经网络模块的输入;
所述中文自注意力深度神经网络模块:将中文术语对输入表示成分布式语义嵌入向量的形式,并根据自注意力模型调整向量各维度单元的权重;
所述第一医学知识图谱嵌入模块:为中文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量;
所述第一参数优化模块:通过迭代逐步优化中文深度神经网络的参数;
所述第一训练误差计算模块:用于计算每次中文模型迭代的误差,并通过后向反馈调整深度神经网络参数;
所述双语种自注意力深度学习模块:用于将中文术语对和英文术语对输入表示成分布式语义嵌入向量的形式,并根据自注意力模型同时调整双语向量的各维度单元的权重;
所述第三参数优化模块: 通过迭代逐步优化双语种深度神经网络的参数;
所述第三训练误差计算模块: 用于计算每次双语种模型迭代的误差,并通过后向反馈调整深度神经网络参数;
所述英文自注意力深度神经网络模块:用于将英文术语对输入表示成分布式语义嵌入向量的形式,并根据自注意力模型调整向量各维度单元的权重;
所述第二医学知识图谱嵌入模块:为英文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量;
所述第二参数优化模块: 通过迭代逐步优化英文深度神经网络的参数;
所述第二训练误差计算模块:用于计算每次英文模型迭代的误差,并通过后向反馈调整深度神经网络参数;
所述自动术语匹配模型:在训练阶段,模型通过迭代优化生成自动术语匹配的模型,为真实世界医学术语匹配对应的标准医学术语。
2.一种基于深度对抗学习的多语言医疗术语规范标准化方法,采用权利要求1所述的多语言医疗术语规范标准化系统,其特征在于:该方法具体包括文件预处理步骤、候选术语集生成步骤、候选术语及重排步骤以及输出步骤;
所述文件预处理步骤,统一真实世界的医学术语字符串的格式以及将长字符串开分成单个的中文及英文词token;
所述候选术语集生成步骤,从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语;
所述候选术语及重排步骤,将真实世界医学术语与筛选出来的候选术语组成术语对,根据匹配程度标注成正例和负例,作为深度学习模型的输入,模型通过迭代优化生成自动术语匹配模型;
所述输出步骤,向用户返回生成的术语对数据的相似度概率,用户可以通过设定相似度的阈值来判断非规范化术语得到的规范化术语是否需要进行进一步的人工校验。
CN202110588841.9A 2021-05-27 2021-05-27 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 Active CN113377897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110588841.9A CN113377897B (zh) 2021-05-27 2021-05-27 基于深度对抗学习的多语言医疗术语规范标准化系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110588841.9A CN113377897B (zh) 2021-05-27 2021-05-27 基于深度对抗学习的多语言医疗术语规范标准化系统及方法

Publications (2)

Publication Number Publication Date
CN113377897A CN113377897A (zh) 2021-09-10
CN113377897B true CN113377897B (zh) 2022-04-22

Family

ID=77572335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110588841.9A Active CN113377897B (zh) 2021-05-27 2021-05-27 基于深度对抗学习的多语言医疗术语规范标准化系统及方法

Country Status (1)

Country Link
CN (1) CN113377897B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656604B (zh) * 2021-10-19 2022-02-22 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法
CN114416966B (zh) * 2022-01-24 2022-08-26 山东大学第二医院 一种基于Simhash-BERT网络的医用耗材合理使用分析方法
CN116166698B (zh) * 2023-01-12 2023-09-01 之江实验室 一种基于通用医疗术语的快速构建队列方法及系统
CN116680377B (zh) * 2023-06-01 2024-04-23 广州中康数字科技有限公司 基于日志反馈的中文医学术语自适应对齐方法
CN117540734B (zh) * 2024-01-10 2024-04-09 中南大学 一种中文医学实体标准化方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582955A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 医疗术语的标准化方法、装置及介质
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110349639A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN110580339A (zh) * 2019-08-21 2019-12-17 华东理工大学 一种医疗术语知识库完善的方法和装置
CN112711652A (zh) * 2021-01-15 2021-04-27 清华大学 术语标准化方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582955A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 医疗术语的标准化方法、装置及介质
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110349639A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN110580339A (zh) * 2019-08-21 2019-12-17 华东理工大学 一种医疗术语知识库完善的方法和装置
CN112711652A (zh) * 2021-01-15 2021-04-27 清华大学 术语标准化方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中西医诊断术语的差异性比较研究;李永等;《天津中医药》;20200912(第09期);全文 *
谈中医药术语标准化;曾凡,吴泽扬;《安徽文学》;20170825;全文 *

Also Published As

Publication number Publication date
CN113377897A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
WO2021164199A1 (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN108304372A (zh) 实体提取方法和装置、计算机设备和存储介质
CN111832293B (zh) 基于头实体预测的实体和关系联合抽取方法
US11170169B2 (en) System and method for language-independent contextual embedding
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
CN111191464A (zh) 基于组合距离的语义相似度计算方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN115048447A (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN114004236B (zh) 融入事件实体知识的汉越跨语言新闻事件检索方法
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN114757184A (zh) 实现航空领域知识问答的方法和系统
Araujo How evolutionary algorithms are applied to statistical natural language processing
CN114943216B (zh) 基于图注意力网络的案件微博属性级观点挖掘方法
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant