CN106933806A - 医疗同义词的确定方法和装置 - Google Patents

医疗同义词的确定方法和装置 Download PDF

Info

Publication number
CN106933806A
CN106933806A CN201710152584.8A CN201710152584A CN106933806A CN 106933806 A CN106933806 A CN 106933806A CN 201710152584 A CN201710152584 A CN 201710152584A CN 106933806 A CN106933806 A CN 106933806A
Authority
CN
China
Prior art keywords
word
synonym
participle
term
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710152584.8A
Other languages
English (en)
Inventor
邓侃
孙风磊
邱鹏飞
李丕勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Large Number Of Medical Science And Technology Co Ltd
Original Assignee
Beijing Large Number Of Medical Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Large Number Of Medical Science And Technology Co Ltd filed Critical Beijing Large Number Of Medical Science And Technology Co Ltd
Priority to CN201710152584.8A priority Critical patent/CN106933806A/zh
Publication of CN106933806A publication Critical patent/CN106933806A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种医疗同义词的确定方法和装置。其中,该方法包括:获取病历样本中至少一个自然语句,并对所述自然语句进行分词;在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。采用本发明的技术方案,先在医学知识库中获取病历样本中各词语对应的医学标准化术语,确定出各词语的候选同义词,进而通过与各词语相关的词语以及与各医学标准化术语相关的医学标准化术语,从候选同义词中确定出目标同义词,从而精准地确定出各词语的目标同义词。

Description

医疗同义词的确定方法和装置
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种医疗同义词的确定方法和装置。
背景技术
病历是医务人员对患者疾病的发生、发展、转归,进行检查、诊断、治疗等医学活动过程所作的文字记录。病历既是临床实践工作的总结,又是探索疾病规律及处理医学纠纷的法律依据,是国家的宝贵财富。
在临床医学中,有效整理病历,从中挖掘医生临床经验,对医学进步具有重大意义。但是,由于医务人员录入病历的时候,经常混杂大量不规范的同义词表述、缩写用法,甚至还有错别字,而且使用的句型不仅多样化,还可能不规范,给病历整理工作带来极大不便。若单纯依靠人工整理的方式,工作量较大,且效率较低。因此,如何识别病历中的各项内容的准确表述显得尤为重要。
发明内容
本发明提供了一种医疗同义词的确定方法和装置,以解决现有的病历中表述不规范而造成的病历中的内容识别困难的问题。
第一方面,本发明实施例提供了一种医疗同义词的确定方法,该方法包括:
获取病历样本中至少一个自然语句,并对所述自然语句进行分词;
在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;
根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。
第二方面,本发明实施例还提供了一种医疗同义词的确定装置,该装置包括:
病历分词模块,用于获取病历样本中至少一个自然语句,并对所述自然语句进行分词;
候选同义词获取模块,用于在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;
目标同义词确定模块,用于根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。
本发明实施例的技术方案,通过对病历样本中的自然语句进行分词,进而在医学知识库中获取分词后各词语对应的各医学标准化术语,确定出各词语可能的候选同义词,进而通过同一病历中与各词语相关的词语,以及医学知识库中与各医学标准化术语相关的各医学标准化术语,从而进一步从各候选的各医学标准化术语中,更加精确地确定出各词语对应的医学标准化用语,即从候选同义词中确定出目标同义词,不仅解决了现有的病历中表述不规范而造成的病历中的内容识别困难的问题,能够结合医学知识,更加准确、高效地确定出各词语的目标同义词。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1为本发明实施例一所提供的一种医疗同义词的确定方法的流程示意图;
图2A为本发明实施例二所提供的一种医疗同义词的确定方法的流程示意图;
图2B为本发明实施例二所提供的一种字向量生成方法的流程示意图;
图3为本发明实施例三所提供的一种医疗同义词的确定装置的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一所提供的一种医疗同义词的确定方法的流程示意图。如图1所示,本实施例的方法可以由医疗同义词的确定装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可独立的配置在服务器中或者由终端和服务器配合实现本实施例的方法。,
本实施例的方法具体包括:
S110、获取病历样本中至少一个自然语句,并对所述自然语句进行分词。
自然语句一般可以理解为采用自然语言撰写的句子。其中,至少一个自然语句可以是一个自然语句,也可以是两个及两个以上的自然语句。考虑到在病例样本中所记载的内容往往前后相关,可选是获取病历样本中包括两个及两个以上自然语句的段落,譬如,病历样本中所记录的现病史、病程记录以及检查报告等。可以理解的是,病历样本可以是文本病历,也可以是电子化的病历。
对自然语句进行分词,首先可以是对待处理的自然语句进行预处理,其中,预处理包括对去标点符号,去停用词等。在本实施例中,可基于字符串匹配的分词方法对自然语句进行分词,也可以基于理解的分词方法对自然语句进行分词,还可以基于统计的分词方法对自然语句进行分词。
对所述自然语句进行分词的方法有很多种,例如可以基于判别式机器学习技术来解决分词问题。判别式机器学习技术解决分词问题基于由字构词理念,将分词问题转化为分类问题,通过定义每个字的在词中的位置来确定字类别的序列预测。具体地,判别式机器学习技术主要代表有条件随机场,最大熵/隐马尔科夫最大熵、感知机,支撑向量机等。
以采用条件随机场算法进行分词为例,对自然语句进行分词具体可以是:采用条件随机场(Conditional Random Fields,CRF)算法统计所述自然语句中字与字的连缀概率,并根据所述连缀概率对所述自然语句进行分词。
S120、在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词。
示例性地,可以请医学专业人士预先人工整理出或者借助人工智能技术整理出各种医学标准化术语,以及各医学标准化术语的各种属性等医学知识,先录入数据库中,然后建立搜索索引,并且把相关知识条目连缀起来,生成医学知识库。即,医学知识库中存储有各医学标准化用语以及各医学标准化用语之间的拓扑关系的数据库,将各种医学术语及其拓扑关系,组成网状结构,方便存储和调用。为了便于查询,医学知识库还可以增加智能文字处理与检索功能。其中,医学知识一般有两个来源,医学文献和某一领域专家的临床经验。
医学知识库可以理解为一个)由点(Vertex)和边(Edge)组成的初级的医学知识图谱,其中,点用来描述医学知识库中的各医学标准化术语,譬如各种症状、各种器官和组织等;边用来描述各医学标准化术语之间的关系,,譬如“位于”、“包含”以及“数量”等等。点和边都是预先定义的有限集合。其中,各医学标准化用语之间的拓扑关系可以理解为医学知识库的边。用于描述各医学标准化用语之间的关联关系。例如,各个器官之间的位置关系以及各种症状的数量关系等。
可以理解的是,随着医学检验、医学影像、临床诊断以及康复治疗等医学技术的不断发展,医学知识也会不断的充实,为了充分发挥医学知识库的作用,可以不断地采集新生医学知识,更新医学知识库。
其中,获取与分词后的词语所对应的医学标准化用语具体可以是获取分词后的各词语的目标词向量,并计算各所述词语的所述目标词向量与预先建立的医学知识库中的医学标准化用语的词向量之间的余弦距离;根据所述余弦距离确定与所述词语所对应的医学标准化用语。需要说明的是,与分词后的词语所对应的医学标准化用语可以是一个、两个也可以是多个,即各词语的候选同义词可以是一个、两个也可以是多个。
S130、根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。
其中,同一病历样本中各词语的关联关系可以是根据各词语的语义向量进行确定,也可以是在在解析病历样本时统计医学词的共现关系。以同一病历样在解析病历样本时统计医学词的共现关系为例,假设在同一份病历中,既出现了症状词“食欲不振”,也出现了疾病词“胃炎”,与化验指标“白细胞计数超标”,与药品“三九胃泰”,则表示“食欲不振”与“胃炎”有共现关系,“食欲不振”与“白细胞计数超标”有共现关系,“食欲不振”与“三九胃泰”有共现关系,进而可以将该病历样本称为共现病历。
进一步地,如果“食欲不振”与“胃炎”的共现病历的数量很高,则可表示“食欲不振”与“胃炎”有很强的共现关系。我们把共现关系很强的关键词,称为邻居。在这个例子中,“食欲不振”的邻居是“胃炎”、“白细胞计数超标”、“三九胃泰”。其中,共线关系的强弱可以通过判断共现病历的数量是否达到或者超过预设的数量阈值来确定,若是,则确定共现关系很强。
各医学标准化术语之间的拓扑关系可以在解析完病历样本后,从医学知识库中进行查询。若发现症状词“纳差”与疾病“胃炎”,症状词“纳差”与化验指标“白细胞计数超标”,症状词“纳差”与药品“三九胃泰”,之间有直接或间接的连边,则可以确定为“纳差”与“胃炎”有拓扑关系,“纳差”与“白细胞计数超标”有拓扑关系,“纳差”与“三九胃泰”有拓扑关系。
我们把有拓扑关系的各个医学知识库里的点也称为邻居。在上述例子中,医学知识库中的“纳差”的邻居是“胃炎”、“白细胞计数超标”、“三九胃泰”。
由此判断,“纳差”与“食欲不振”的邻居很相似,所以,“纳差”与“食欲不振”具有较强的相互替换的可能性。
本实施例的技术方案,通过对病历样本中的自然语句进行分词,进而在医学知识库中获取分词后各词语对应的各医学标准化术语,确定出各词语可能的候选同义词,进而通过同一病历中与各词语相关的词语,以及医学知识库中与各医学标准化术语相关的各医学标准化术语,从而进一步从各候选的各医学标准化术语中,更加精确地确定出各词语对应的医学标准化用语,即从候选同义词中确定出目标同义词,不仅解决了现有的病历中表述不规范而造成的病历内容识别困难的问题,能够结合医学知识,更加准确、高效地确定出各词语的目标同义词。
实施例二
图2A为本发明实施例二所提供的一种医疗同义词的确定方法的流程示意图,如图2A所示,本实施例在上述实施例的基础上,可选是所述对所述自然语句进行分词包括:采用条件随机场算法统计所述自然语句中字与字的连缀概率,并根据所述连缀概率对所述自然语句进行分词。
在上述技术方案的基础上,进一步地,所述获取与分词后的词语所对应的医学标准化用语可包括:获取分词后的各词语的目标词向量,并计算各所述词语的所述目标词向量与预先建立的医学知识库中的医学标准化用语的词向量之间的余弦距离;根据所述余弦距离确定与所述词语所对应的医学标准化用语。
为了便于查询各词语对应的目标同义词,可选地,,在所述从所述候选同义词中确定出目标同义词之后,还包括:记录并存储各所述词语与各所述目标同义词之间的对应关系,生成医疗同义词词库。
具体地,本实施例的方法包括:
S210、获取病历样本中至少一个自然语句,并采用条件随机场算法统计所述自然语句中字与字的连缀概率,并根据所述连缀概率对所述自然语句进行分词。
条件随机场(Conditional Random Fields)由John Lafferty主要用于序列标注问题,如分词、实体识别、词性标注、浅层句法分析等问题。本实施例中,采用条件随机场算法对自然语句进行分词,具体的可以是先采用条件随机场算法统计所述自然语句中字与字的连缀概率,然后基于统计出的连缀概率对所述自然语句进行分词。
其中,统计字与字的连缀概率,具体可以是先确定当前已经出现的字之后出现的下一个字的连缀概率,由于包括相同字的词语有多个,因此可以理解的是,当前已经出现的字之后出现的下一个字有多种可能;然后,根据连缀概率确定当前已经出现的字和出现的下一个字所组成的词语是否为相同的词的概率。譬如,可以采用条件随机场先统计出“咳”字后面出现“嗽”和“痰”的连缀概率,进而可根据连缀概率判断“咳嗽”和“咳痰”是两个词的概率。
由于存在多个字即可以连缀成一个词也可以分开成为多个词的情况,此时可选是选择多个字即可以连缀成一个词的情况,即选择多个字能够连缀成的最长词。譬如,“痰中带血”四个字可以组成一个词,也可以采用“痰|中|带血”的划分方法分成“痰”、“中”、“带血”三个词,这时可选择多个字能够连缀成的最长词,即“痰中带血”。
考虑到字数越多的词,连缀概率越低,所以可不以连缀概率来分词,将连缀概率结合奖励函数,共同作为分词标准。其中,奖励函数可以根据实际需求进行选择,例如可以是,字数越多奖励函数的分值越高。
S220、获取分词后的各词语的目标词向量,并计算各所述词语的目标词向量与预先建立的医学知识库中的各医学标准化用语的词向量之间的余弦距离。
示例性地,可以采用现有的词向量获取方法直接获取分词后的各词语的目标词向量,例如可以采用Word2Vec、CBOW(Continuous bag-of-words,连续词袋模型)等语言模型获取分词后的各词语的目标词向量。
具体地,获取分词后的各词语的目标词向量可包括:采用语言模型获取分词后的词语中每个字的字向量以及该词语的词向量;将词语中每个字的字向量以及该词语的词向量进行拼接,生成所述词语的目标词向量。具体地,可以预先给病历样本中出现的每一个字,设置一个字向量,其中,字向量的初始值可以根据实际需求进行设定,也可随机取值;然后使用语言模型Language Model根据先前出现的预设数量的字的字向量,预测下一个最有可能出现哪一个字的字向量;反复调整每一个字的字向量的取值,使得预测的准确性最高,从而得到所有字的字向量。其中,预设数量可以由根据实际情况进行设定或调整,具体数值在此并不做限定。
其中,预测可以理解为估算词库中所有词语,哪一个词语在下一个出现的概率最大。若当前预测的词语与下一个出现的词语相同,即预测很准,则语言模型中的诸多参数就不需要调整。若预测不准确,则可以通过调整相应的参数,提高后续预测的精准度。
如图2B所示,采用语言模型获取分词后的词语中每个字的字向量具体可以是,首先采用一位有效编码方法随机设置病例样本中每个字的初级字向量;然后,根据将各个字的初级字向量输入卷积神经网络,经过预先设置好的隐藏层的处理,生成并输出中级字向量;进而,以卷积神经网络输出的中级字向量作为输入量,输入LSTM模型,经过LSTM模型隐藏层的处理,输出各个字的高级字向量,作为分词后的词语中每个字的字向量。
类似地,可以预先给海量病历中出现的每一个词语,设置一个词向量;然后采用语言模型Language Model反复调整每一个词的词向量的取值,从而获得所有词的词向量。采用语言模型将词语对应到词向量的好处在于,词向量是数字向量,能够较为方便地通过计算数字向量之间的余弦距离,确定出各词语中的同义词。
把每一个词语中所有字的字向量整合起来,再与该词语的词向量拼接在一起,生成能够反映用字特点的目标词向量。采用本技术方案获取的目标词向量,与没有拼接字向量而直接获取的词向量相比,不仅能够反映该词语的语义,也能反映该词语的用字特点。
考虑到病例样本的自然语句中,可能会出现大量的相同的词语表述,为了避免重复计算同一词语的词向量,具体地,可预先建立的医学词向量词库,在医学词向量词库中,查询获取自然语句中每一个词语的词向量。具体地,预先建立的医学词向量词库可包括:采集历史病历样本,计算所述历史病历样本中的每个字的字向量;基于分词器将所述历史病历样本中的每个历史语句进行分词,并根据所述字向量计算分词后各历史词语的词向量;根据各所述历史词语的词向量建立所述医学词向量词库。
类似地,可以获取预先建立的医学知识库中的各医学标准化用语,计算出各医学标准化用语的词向量,进而根据各历史词语的词向量建立医学术语词向量词库。当然,可以将各历史词语的词向量以及各医学标准化用语的词向量存储于同一词向量词库中。
S230、根据所述余弦距离确定与所述词语所对应的医学标准化用语,作为所述词语的候选同义词。
余弦距离也可称为余弦相似度,是用向量空间中两个向量夹角的余弦值衡量两个个体间差异的大小,通过余弦定理计算两个向量的夹角,确定两个向量方向是否一致。如果夹角越接近零,那么这两个向量就越相近。可以理解为,各词语的目标词向量与各医学标准化用语的词向量之间的余弦距离越接近于零,则表示该词语与该医学标准化用语之间互为近义词的可能性越大。本实施例中,根据各词语的目标词向量与各医学标准化用语的词向量之间的余弦距离,计算词与词之间的相似性,把相似的词聚类在一起,作为候选的同义词。
S240、根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。
S250、记录并存储各所述词语与各所述目标同义词之间的对应关系,生成医疗同义词词库。
由于在不同的病例样本中,自然语句表达方式可能存在差异,用词也不一定统一,因此,可以理解的是,各词语与各目标同义词之间的对应关系可以是一一对应的关系,也可以是多对一、一对多或者多对多的关系。可以根据预设的规则记录并存储各词语与各目标同义词之间的对应关系,进一步地,还可以结合预设搜索方法以及搜索结果推荐方法,方便用户进行查询使用。
类似地,随着医学检验、医学影像、临床诊断以及康复治疗等医学技术的不断发展,医学知识也会不断的充实,同时病例样本也在不断地增加,为了充分发挥医疗同义词词库的作用,可以不断地更新医疗同义词词库。
在本发明实施例的技术方案的基础上,可以进一步地,对获取到的各词语以及各词语对应的目标同义词进行校对。既可以采用人工校对的方式,也可以采用人工智能技术进行校正,还可将人工智能技术与人工校对有效结合,以保证准确率的同时,大幅度降低人工校对的工作量。
本实施例的技术方案,不仅能够达到上述各技术方案的有益效果,而且通过自然语句中字与字的连缀概率对所述自然语句进行分词,能够充分结合用字习惯对自然语句的分词,进而基于各词语的目标词向量与各医学标准化术语的词向量之间的余弦距离,然后各词语对应的医学标准化术语作为候选同义词,能够快速便捷地确定出候选同义词,进而再从候选同义词中选出目标同义词,最后,基于各词语与各目标同义词之间的对应关系生成医疗同义词词库,以便进行同义词查询或者额各词语对应的医学标准化用语查询,有利于病历记载地标准化、规范化发展。
实施例三
图3为本发明实施例三所提供的一种医疗同义词的确定装置的结构示意图。该装置可通过硬件和/或软件的方式实现,并一般可独立的配置在服务器中或者由终端和服务器配合实现本实施例的方法。如图3所示,本实施例的医疗同义词的确定装置包括:病历分词模块310、候选同义词获取模块320和目标同义词确定模块330。
其中,病历分词模块310,用于获取病历样本中至少一个自然语句,并对所述自然语句进行分词;候选同义词获取模块320,用于在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;目标同义词确定模块330,用于根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。
本实施例的技术方案,通过对病历样本中的自然语句进行分词,进而在医学知识库中获取分词后各词语对应的各医学标准化术语,确定出各词语可能的候选同义词,进而通过同一病历中与各词语相关的词语,以及医学知识库中与各医学标准化术语相关的各医学标准化术语,从而进一步从各候选的各医学标准化术语中,更加精确地确定出各词语对应的医学标准化用语,即从候选同义词中确定出目标同义词,不仅解决了现有的病历中表述不规范而造成的病历内容识别困难的问题,能够结合医学知识,更加准确、高效地确定出各词语的目标同义词。
在上述各技术方案的基础上,所述病历分词模块具体可用于:
采用条件随机场算法统计所述自然语句中字与字的连缀概率,并根据所述连缀概率对所述自然语句进行分词在上述各技术方案的基础上所述候选同义词获取模块具体可用于:
余弦距离计算单元,用于获取分词后的各词语的目标词向量,并计算各所述词语的所述目标词向量与预先建立的医学知识库中的医学标准化用语的词向量之间的余弦距离;
医学标准化用语确定单元,用于根据所述余弦距离确定与所述词语所对应的医学标准化用语。
在上述各技术方案的基础上,所述余弦距离计算单元具体可用于:
采用语言模型获取分词后的词语中每个字的字向量以及该词语的词向量;
将词语中每个字的字向量以及该词语的词向量进行拼接,生成所述词语的目标词向量。
在上述各技术方案的基础上,所述医疗同义词的确定装置还可以包括:
医疗同义词词库生成模块340,用于在从所述候选同义词中确定出目标同义词之后,记录并存储各所述词语与各所述目标同义词之间的对应关系,生成医疗同义词词库。
上述装置可执行本发明实施例一和实施例二所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例一和实施例二所提供的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种医疗同义词的确定方法,其特征在于,包括:
获取病历样本中至少一个自然语句,并对所述自然语句进行分词;
在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;
根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。
2.根据权利要求1所述的方法,其特征在于,所述对所述自然语句进行分词包括:
采用条件随机场算法统计所述自然语句中字与字的连缀概率,并根据所述连缀概率对所述自然语句进行分词。
3.根据权利要求1所述的方法,其特征在于,所述获取与分词后的词语所对应的医学标准化用语包括:
获取分词后的各词语的目标词向量,并计算各所述词语的所述目标词向量与预先建立的医学知识库中的医学标准化用语的词向量之间的余弦距离;
根据所述余弦距离确定与所述词语所对应的医学标准化用语。
4.根据权利要求3所述的方法,其特征在于,所述获取分词后的各词语的目标词向量包括:
采用语言模型获取分词后的词语中每个字的字向量以及该词语的词向量;
将词语中每个字的字向量以及该词语的词向量进行拼接,生成所述词语的目标词向量。
5.根据权利要求1-4任一所述的方法,其特征在于,在所述从所述候选同义词中确定出目标同义词之后,还包括:
记录并存储各所述词语与各所述目标同义词之间的对应关系,生成医疗同义词词库。
6.一种医疗同义词的确定装置,其特征在于,包括:
病历分词模块,用于获取病历样本中至少一个自然语句,并对所述自然语句进行分词;
候选同义词获取模块,用于在预先建立的医学知识库中,获取与分词后的词语所对应的医学标准化用语,作为所述词语的候选同义词;
目标同义词确定模块,用于根据同一病历样本中各词语的关联关系以及所述医学知识库中各所述医学标准化术语之间的拓扑关系,从所述候选同义词中确定出各所述词语的目标同义词。
7.根据权利要求6所述的装置,其特征在于,所述病历分词模块用于:
采用条件随机场算法统计所述自然语句中字与字的连缀概率,并根据所述连缀概率对所述自然语句进行分词。
8.根据权利要求6所述的装置,其特征在于,所述候选同义词获取模块具体用于:
余弦距离计算单元,用于获取分词后的各词语的目标词向量,并计算各所述词语的所述目标词向量与预先建立的医学知识库中的医学标准化用语的词向量之间的余弦距离;
医学标准化用语确定单元,用于根据所述余弦距离确定与所述词语所对应的医学标准化用语。
9.根据权利要求8所述的装置,其特征在于,所述余弦距离计算单元具体用于:
采用语言模型获取分词后的词语中每个字的字向量以及该词语的词向量;
将词语中每个字的字向量以及该词语的词向量进行拼接,生成所述词语的目标词向量。
10.根据权利要求6-9任一所述的装置,其特征在于,还包括:
医疗同义词词库生成模块,用于在从所述候选同义词中确定出目标同义词之后,记录并存储各所述词语与各所述目标同义词之间的对应关系,生成医疗同义词词库。
CN201710152584.8A 2017-03-15 2017-03-15 医疗同义词的确定方法和装置 Pending CN106933806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710152584.8A CN106933806A (zh) 2017-03-15 2017-03-15 医疗同义词的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710152584.8A CN106933806A (zh) 2017-03-15 2017-03-15 医疗同义词的确定方法和装置

Publications (1)

Publication Number Publication Date
CN106933806A true CN106933806A (zh) 2017-07-07

Family

ID=59432525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710152584.8A Pending CN106933806A (zh) 2017-03-15 2017-03-15 医疗同义词的确定方法和装置

Country Status (1)

Country Link
CN (1) CN106933806A (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480135A (zh) * 2017-07-31 2017-12-15 京东方科技集团股份有限公司 数据处理方法、医学用语处理系统和医学诊疗系统
CN107480131A (zh) * 2017-07-25 2017-12-15 李姣 中文电子病历症状语义提取方法及其系统
CN107506351A (zh) * 2017-08-18 2017-12-22 武汉红茶数据技术有限公司 一种基于字符卷积网络的推特语义相似性分析方法
CN108170677A (zh) * 2017-12-27 2018-06-15 北京嘉和美康信息技术有限公司 一种医疗术语抽取方法及装置
CN108320781A (zh) * 2018-03-15 2018-07-24 安徽科大讯飞医疗信息技术有限公司 一种基于语音的医疗报告生成方法及装置
CN108595416A (zh) * 2018-03-27 2018-09-28 义语智能科技(上海)有限公司 字符序列处理方法及设备
CN108733837A (zh) * 2018-05-28 2018-11-02 杭州依图医疗技术有限公司 一种病历文本的自然语言结构化方法及装置
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN109190125A (zh) * 2018-09-14 2019-01-11 广州达美智能科技有限公司 医学语言文本的处理方法、装置和存储介质
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109509517A (zh) * 2018-10-16 2019-03-22 华东理工大学 一种医学检验检查指标自动修正的方法
CN109522552A (zh) * 2018-11-09 2019-03-26 天津开心生活科技有限公司 一种医疗信息的归一化方法、装置、介质及电子设备
CN109522413A (zh) * 2018-11-21 2019-03-26 上海依智医疗技术有限公司 一种导诊医学术语库的构建方法及装置
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109582955A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 医疗术语的标准化方法、装置及介质
CN109783490A (zh) * 2018-12-25 2019-05-21 杭州数梦工场科技有限公司 数据融合方法、装置、计算机设备及存储介质
CN109785959A (zh) * 2018-12-14 2019-05-21 平安医疗健康管理股份有限公司 一种疾病编码方法和装置
CN109783813A (zh) * 2018-12-29 2019-05-21 北京航天云路有限公司 一种数据清洗方法及系统
CN109918661A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 同义词获取方法及装置
CN109949938A (zh) * 2017-12-20 2019-06-28 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN110032728A (zh) * 2019-02-01 2019-07-19 阿里巴巴集团控股有限公司 疾病名称标准化的转换方法和装置
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110598200A (zh) * 2018-06-13 2019-12-20 北京百度网讯科技有限公司 语义识别方法及装置
CN110675924A (zh) * 2019-08-19 2020-01-10 医渡云(北京)技术有限公司 病例报告表自动生成的方法、装置、可读介质及电子设备
CN110688493A (zh) * 2019-09-26 2020-01-14 京东方科技集团股份有限公司 一种关联关系构建方法、装置及电子设备
CN110929511A (zh) * 2018-09-04 2020-03-27 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN111078884A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 一种关键词提取方法、装置及介质
CN111160012A (zh) * 2019-12-26 2020-05-15 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111161817A (zh) * 2019-12-31 2020-05-15 医渡云(北京)技术有限公司 医疗数据标准化处理方法、装置、介质及电子设备
WO2020124856A1 (zh) * 2018-12-18 2020-06-25 众安信息技术服务有限公司 一种基于词向量的诊断标准化方法及装置
CN111383773A (zh) * 2018-12-28 2020-07-07 医渡云(北京)技术有限公司 医学实体信息的处理方法、装置、存储介质及电子设备
CN111753096A (zh) * 2020-06-05 2020-10-09 牛张明 生物医学知识图谱实体清洗装置、方法、系统及存储器
CN111753072A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 一种分诊的方法、装置、设备以及存储介质
CN111785383A (zh) * 2020-06-29 2020-10-16 平安医疗健康管理股份有限公司 数据处理方法及相关设备
CN111859942A (zh) * 2020-07-02 2020-10-30 上海森亿医疗科技有限公司 医学名称归一化方法、装置、存储介质及终端
CN112541056A (zh) * 2020-12-18 2021-03-23 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质
CN112699227A (zh) * 2020-12-29 2021-04-23 医渡云(北京)技术有限公司 基于知识图谱的数据获取方法及相关设备
CN113111660A (zh) * 2021-04-22 2021-07-13 脉景(杭州)健康管理有限公司 数据处理方法、装置、设备和存储介质
CN113496124A (zh) * 2021-07-08 2021-10-12 上海信医科技有限公司 医疗文书的语义分析方法、装置、电子设备及存储介质
CN114691826A (zh) * 2022-03-10 2022-07-01 南京云设智能科技有限公司 基于共现分析和谱聚类的医疗数据信息检索方法
CN112541056B (zh) * 2020-12-18 2024-05-31 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622451A (zh) * 2012-04-16 2012-08-01 上海交通大学 电视节目标签自动生成系统
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106126494A (zh) * 2016-06-16 2016-11-16 上海智臻智能网络科技股份有限公司 同义词发现方法及装置、数据处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622451A (zh) * 2012-04-16 2012-08-01 上海交通大学 电视节目标签自动生成系统
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106126494A (zh) * 2016-06-16 2016-11-16 上海智臻智能网络科技股份有限公司 同义词发现方法及装置、数据处理方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PHILIPPE MULLER ET AL.: "Synonym extraction using a semantic distance on a dictionary", 《1 PROCEEDINGS OF THE FIRST WORKSHOP ON GRAPH BASED METHODS FOR NATURAL LANGUAGE PROCESSING》 *
殷希红 等: "利用术语定义的汉语同义词发现", 《现代图书情报技术》 *
钟伟金: "基于共现"互斥互信"原理的同义词识别", 《中华医学图书情报杂志》 *

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480131A (zh) * 2017-07-25 2017-12-15 李姣 中文电子病历症状语义提取方法及其系统
CN107480135B (zh) * 2017-07-31 2022-01-07 京东方科技集团股份有限公司 数据处理方法、医学用语处理系统和医学诊疗系统
CN107480135A (zh) * 2017-07-31 2017-12-15 京东方科技集团股份有限公司 数据处理方法、医学用语处理系统和医学诊疗系统
US11501178B2 (en) 2017-07-31 2022-11-15 Beijing Boe Technology Development Co., Ltd. Data processing method, medical term processing system and medical diagnostic system
CN107506351A (zh) * 2017-08-18 2017-12-22 武汉红茶数据技术有限公司 一种基于字符卷积网络的推特语义相似性分析方法
CN109949938B (zh) * 2017-12-20 2024-04-26 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN109949938A (zh) * 2017-12-20 2019-06-28 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN108170677A (zh) * 2017-12-27 2018-06-15 北京嘉和美康信息技术有限公司 一种医疗术语抽取方法及装置
CN108170677B (zh) * 2017-12-27 2022-01-04 北京嘉和海森健康科技有限公司 一种医疗术语抽取方法及装置
CN108320781A (zh) * 2018-03-15 2018-07-24 安徽科大讯飞医疗信息技术有限公司 一种基于语音的医疗报告生成方法及装置
CN108320781B (zh) * 2018-03-15 2022-05-06 中国人民解放军总医院 一种基于语音的医疗报告生成方法及装置
CN108595416A (zh) * 2018-03-27 2018-09-28 义语智能科技(上海)有限公司 字符序列处理方法及设备
CN108733837B (zh) * 2018-05-28 2021-04-27 上海依智医疗技术有限公司 一种病历文本的自然语言结构化方法及装置
CN108733837A (zh) * 2018-05-28 2018-11-02 杭州依图医疗技术有限公司 一种病历文本的自然语言结构化方法及装置
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN108804423B (zh) * 2018-05-30 2023-09-08 深圳平安医疗健康科技服务有限公司 医疗文本特征提取与自动匹配方法和系统
CN110598200B (zh) * 2018-06-13 2023-05-23 北京百度网讯科技有限公司 语义识别方法及装置
CN110598200A (zh) * 2018-06-13 2019-12-20 北京百度网讯科技有限公司 语义识别方法及装置
CN110929511A (zh) * 2018-09-04 2020-03-27 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN110929511B (zh) * 2018-09-04 2021-12-17 清华大学 一种基于语义相似性的个性化中医诊疗信息和中药信息智能匹配方法
CN109190125A (zh) * 2018-09-14 2019-01-11 广州达美智能科技有限公司 医学语言文本的处理方法、装置和存储介质
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109509517A (zh) * 2018-10-16 2019-03-22 华东理工大学 一种医学检验检查指标自动修正的方法
CN109522552B (zh) * 2018-11-09 2023-08-29 天津开心生活科技有限公司 一种医疗信息的归一化方法、装置、介质及电子设备
CN109522552A (zh) * 2018-11-09 2019-03-26 天津开心生活科技有限公司 一种医疗信息的归一化方法、装置、介质及电子设备
CN109522551B (zh) * 2018-11-09 2024-02-20 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109582955B (zh) * 2018-11-14 2023-04-07 金色熊猫有限公司 医疗术语的标准化方法、装置及介质
CN109582955A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 医疗术语的标准化方法、装置及介质
CN109522413A (zh) * 2018-11-21 2019-03-26 上海依智医疗技术有限公司 一种导诊医学术语库的构建方法及装置
CN109785959A (zh) * 2018-12-14 2019-05-21 平安医疗健康管理股份有限公司 一种疾病编码方法和装置
WO2020124856A1 (zh) * 2018-12-18 2020-06-25 众安信息技术服务有限公司 一种基于词向量的诊断标准化方法及装置
CN109783490A (zh) * 2018-12-25 2019-05-21 杭州数梦工场科技有限公司 数据融合方法、装置、计算机设备及存储介质
CN109783490B (zh) * 2018-12-25 2021-09-10 杭州数梦工场科技有限公司 数据融合方法、装置、计算机设备及存储介质
CN111383773A (zh) * 2018-12-28 2020-07-07 医渡云(北京)技术有限公司 医学实体信息的处理方法、装置、存储介质及电子设备
CN109783813A (zh) * 2018-12-29 2019-05-21 北京航天云路有限公司 一种数据清洗方法及系统
CN110032728A (zh) * 2019-02-01 2019-07-19 阿里巴巴集团控股有限公司 疾病名称标准化的转换方法和装置
CN109918661A (zh) * 2019-03-04 2019-06-21 腾讯科技(深圳)有限公司 同义词获取方法及装置
CN109918661B (zh) * 2019-03-04 2023-05-30 腾讯科技(深圳)有限公司 同义词获取方法及装置
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110675924A (zh) * 2019-08-19 2020-01-10 医渡云(北京)技术有限公司 病例报告表自动生成的方法、装置、可读介质及电子设备
CN110675924B (zh) * 2019-08-19 2023-03-10 医渡云(北京)技术有限公司 病例报告表自动生成的方法、装置、可读介质及电子设备
CN110688493A (zh) * 2019-09-26 2020-01-14 京东方科技集团股份有限公司 一种关联关系构建方法、装置及电子设备
CN111078884A (zh) * 2019-12-13 2020-04-28 北京小米智能科技有限公司 一种关键词提取方法、装置及介质
CN111078884B (zh) * 2019-12-13 2023-08-15 北京小米智能科技有限公司 一种关键词提取方法、装置及介质
CN111160012B (zh) * 2019-12-26 2024-02-06 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111160012A (zh) * 2019-12-26 2020-05-15 上海金仕达卫宁软件科技有限公司 医学术语识别方法、装置和电子设备
CN111161817B (zh) * 2019-12-31 2023-09-19 医渡云(北京)技术有限公司 医疗数据标准化处理方法、装置、介质及电子设备
CN111161817A (zh) * 2019-12-31 2020-05-15 医渡云(北京)技术有限公司 医疗数据标准化处理方法、装置、介质及电子设备
CN111753096A (zh) * 2020-06-05 2020-10-09 牛张明 生物医学知识图谱实体清洗装置、方法、系统及存储器
CN111753072A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 一种分诊的方法、装置、设备以及存储介质
CN111785383A (zh) * 2020-06-29 2020-10-16 平安医疗健康管理股份有限公司 数据处理方法及相关设备
CN111859942B (zh) * 2020-07-02 2021-07-13 上海森亿医疗科技有限公司 医学名称归一化方法、装置、存储介质及终端
CN111859942A (zh) * 2020-07-02 2020-10-30 上海森亿医疗科技有限公司 医学名称归一化方法、装置、存储介质及终端
CN112541056B (zh) * 2020-12-18 2024-05-31 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质
CN112541056A (zh) * 2020-12-18 2021-03-23 卫宁健康科技集团股份有限公司 医学术语标准化方法、装置、电子设备及存储介质
CN112699227A (zh) * 2020-12-29 2021-04-23 医渡云(北京)技术有限公司 基于知识图谱的数据获取方法及相关设备
CN113111660A (zh) * 2021-04-22 2021-07-13 脉景(杭州)健康管理有限公司 数据处理方法、装置、设备和存储介质
CN113496124A (zh) * 2021-07-08 2021-10-12 上海信医科技有限公司 医疗文书的语义分析方法、装置、电子设备及存储介质
CN114691826B (zh) * 2022-03-10 2022-12-09 南京云设智能科技有限公司 基于共现分析和谱聚类的医疗数据信息检索方法
CN114691826A (zh) * 2022-03-10 2022-07-01 南京云设智能科技有限公司 基于共现分析和谱聚类的医疗数据信息检索方法

Similar Documents

Publication Publication Date Title
CN106933806A (zh) 医疗同义词的确定方法和装置
CN104699730B (zh) 用于识别候选答案之间的关系的方法和系统
Yu et al. Beyond Word Attention: Using Segment Attention in Neural Relation Extraction.
Branavan et al. Learning document-level semantic properties from free-text annotations
CN108875768A (zh) 数据标注方法、装置和系统及存储介质
CN110147457A (zh) 图文匹配方法、装置、存储介质及设备
CN110770850B (zh) 在实体之间学习和应用背景相似性
Zhang et al. Big data versus the crowd: Looking for relationships in all the right places
Castano et al. Multimedia interpretation for dynamic ontology evolution
Cho et al. Adversarial tableqa: Attention supervision for question answering on tables
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
US11625935B2 (en) Systems and methods for classification of scholastic works
Wang et al. Document-level biomedical relation extraction using graph convolutional network and multihead attention: algorithm development and validation
Ambalavanan et al. Using contextual representations for suicide risk assessment from Internet forums
Sun et al. Gaussian word embedding with a wasserstein distance loss
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
Lv Data Preprocessing and Apriori Algorithm Improvement in Medical Data Mining
Wang et al. Automatic scoring of Chinese fill-in-the-blank questions based on improved P-means
CN116610592B (zh) 基于自然语言处理技术的可定制软件测试评价方法及系统
US20230342601A1 (en) Evaluating input data using a deep learning algorithm
Gollapalli Literature review of attribute level and structure level data linkage techniques
Jiang et al. BaKGraSTeC: A background knowledge graph based method for short text classification
Hassanpour et al. Clustering rule bases using ontology-based similarity measures
CN115439919B (zh) 模型更新方法、装置、设备、存储介质及程序产品
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Deng Kan

Inventor after: Sun Fenglei

Inventor after: Qiu Pengfei

Inventor after: Li Pixun

Inventor before: Deng Kan

Inventor before: Sun Fenglei

Inventor before: Qiu Pengfei

Inventor before: Li Pixun

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707

RJ01 Rejection of invention patent application after publication