CN114254083A - 医疗专用术语无监督聚类方法、装置和系统 - Google Patents

医疗专用术语无监督聚类方法、装置和系统 Download PDF

Info

Publication number
CN114254083A
CN114254083A CN202111632912.7A CN202111632912A CN114254083A CN 114254083 A CN114254083 A CN 114254083A CN 202111632912 A CN202111632912 A CN 202111632912A CN 114254083 A CN114254083 A CN 114254083A
Authority
CN
China
Prior art keywords
word
semantic
words
matrix
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111632912.7A
Other languages
English (en)
Inventor
陈冠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haoxinqing Mobile Medical Technology Co ltd
Original Assignee
Beijing Haoxinqing Mobile Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haoxinqing Mobile Medical Technology Co ltd filed Critical Beijing Haoxinqing Mobile Medical Technology Co ltd
Priority to CN202111632912.7A priority Critical patent/CN114254083A/zh
Publication of CN114254083A publication Critical patent/CN114254083A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种专用术语无监督聚类方法、装置和系统,对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词‑单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词‑单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。

Description

医疗专用术语无监督聚类方法、装置和系统
本申请是申请日为2021年8月12日,申请号为CN202110921653.3,发明名称为“专用术语无监督聚类方法、装置和系统”的中国发明专利申请的分案申请。
技术领域
本发明涉及人工智能技术领域,应用于专业术语文本智能聚类方向,尤其涉及一种医疗专用术语无监督聚类方法、装置和系统。
背景技术
随着互联网技术的普及,越来越多的应用应运而生,各种“互联网+”层出不穷,而人工智能技术也伴随着互联网应用找到了很多应用场景,基于移动互联网技术的智慧服务很多,但这些应用方面的专业性和各种知识的疑难性同时对技术提出了很大挑战。比如各种疾病、化学、医药、珠宝等专业词汇非常多,门类繁杂,有些术语更加难以识别,而这些工作也是整个应用领域中最复杂、占据时间成本最多的部分。
发明内容
针对上述缺陷,本发明要解决的技术问题是如何借助人工智能技术对业务专用术语进行聚类和提取实现快速高效地建立专业数据库。
针对上述缺陷,本发明的目的在于提供一种专用术语无监督聚类方法、应用在服务器端,对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,上述预处理包括分词、去重、删除停用词。
优选的,上述单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
优选的,上述模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
优选的,上述方法遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素Sij为1,否则为0。
优选的,上述方法计算单词-单词词序关系矩阵W,设定窗口值为5,对整个输入文本采用大小为窗口值的滑动窗口,若两个单词i和j在同一个窗口共现一次或以上,则认为当前两个单词对应的矩阵元素Wij为1,否则为0;当上述滑动窗口滑过整个文本,得到单词-单词词序关系矩阵W。
优选的,上述方法先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本发明提供一种专用术语无监督聚类方法,应用于互联网平台,基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,上述单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
优选的,上述模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
优选的,上述方法先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,还包括基于提取的单词类别进行数据融合和二次加工,并将信息同步给云端数据库。
优选的,上述互联网平台的预处理包括分词、去重、删除停用词。
本发明提供一种专用术语无监督聚类系统,包括至少一终端设备、至少一互联网平台以及至少一服务器,所述终端设备采集用户上传的文本信息,所述互联网平台基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
优选的,对用户上传的文本信息进行分词可以在互联网平台端服务器执行或在后台服务器的数据中心处理系统执行。
优选的,上述文本信息包括OCR的文字识别和图像识别后的文字输出。
本发明提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本发明提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
本发明提供一种电子设备,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本发明利用语义相似度得到了单词-单词的语义关系矩阵,实现了单词语义信息的利用。通过基于滑动窗口的文本遍历算法得到了单词-单词的词序关系矩阵,实现了单词词序信息的利用,提高了原始信息的利用率。本方案在不同维度的单词关系矩阵的基础上,利用了IRM算法,从而避免了Kmeans算法需要事先设定类别数目K的缺点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明专用术语无监督聚类方法一实施例流程示意图;
图2示出了本发明专用术语无监督聚类方法另一实施例流程示意图;
图3示出了本发明专用术语无监督聚类方法另一实施例流程示意图;
图4示出了本发明专用术语无监督聚类系统一实施例结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本说明书的一个实施例提供的一种专用术语无监督聚类方法,应用在服务器端,对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取,预处理包括分词、去重、删除停用词,单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
在一个具体的例子中,遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素Sij为1,否则为0。
在一个具体的例子中,方法计算单词-单词词序关系矩阵W,设定窗口值为5,对整个输入文本采用大小为窗口值的滑动窗口,若两个单词i和j在同一个窗口共现一次或以上,则认为当前两个单词对应的矩阵元素Wij为1,否则为0;当上述滑动窗口滑过整个文本,得到单词-单词词序关系矩阵W。
在一个具体的例子中,先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
如图2所示,本说明书的一个实施例提供的一种专用术语无监督聚类方法,应用在服务器端,包括:
S101、对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成;
S102、建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵;
S103、计算单词-单词的词序关系矩阵;
S104、通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类;
S105、将单词的语义信息和词序信息通过关系矩阵的方式进行提取;
S106、利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
在一个具体例子中,基于语义信息和词序信息进行数据的融合处理,比如心慌、胸闷、心悸,结合高血压、睡眠障碍、心理疾病等形成对应的数据库,从单词类别的提取到数据的融合应用,可以自动实现对疾病的映射分类。
在一个具体例子中,文本中包括“心跳加快”、“心里面不舒服”、“胸闷”、“喘不上气”等,其中有描述性语言,有短句,有长句,通过分词、去重和删除一些停用词。
为了充分利用词汇的语义信息和词序信息,词汇的基本组成是单词,建立单词-单词的关系矩阵。第一个单词-单词关系矩阵S是语义矩阵,矩阵每个元素Sij的值取0或1作为是否逻辑判断。Sij表示了当前元素对应的两个单词i和j是否存在语义相似性。通过BERT预训练模型来得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。然后遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素Wij为1,否则为0;经过上面的操作后,就可以得到单词-单词语义关系矩阵。继续计算单词-单词词序关系矩阵W。设定窗口值为5,对整个输入文本采用大小为窗口值的滑动窗口,若两个单词i和j在同一个窗口共现一次或以上,则认为当前两个单词对应的矩阵元素Wij为1,否则为0;当上述滑动窗口滑过整个文本,就可以得到单词-单词词序关系矩阵。
在实施例中,进一步地,模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
得到两个矩阵,包括单词语义关系矩阵和单词词序关系矩阵,这两个矩阵分别代表了单词的语义信息和单词的词序信息。
利用上述两个矩阵进行聚类,选择一种不需要事先设定类别数据K的无监督聚类算法(无限相关模型IRM算法,Infinite Relational Model)
IRM算法是一个基于贝叶斯统计方法的聚类算法,基于如下假设:
z|Y~CRP(Y)
η(a,b)|β~Beta(β,β)
R(i,j)|z,η~Bernoulli(η(zi,zj))
从上述三个公式中可以得出,在整体框架中,IRM算法认为每个单词的类别分布服从于CRP(Chinese Restaurant Process)。
类别之间存在某种关系分布,服从于参数为的β,β的贝塔分布(Beta)。
最后单词与单词之间的关系矩阵服从于参数为η(zi,zj)的Bernoulli分布。存在两个单词-单词关系,所以存在两个η矩阵和两个R矩阵,进行联合建模。之后,IRM算法采用了Gibbs采样进行求解,完成了类别分布z的计算。
经过上述过程,先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,之后利用IRM算法对两个关系矩阵进行无监督分类,完成了单词类别的提取。
本说明书的一个实施例提供的一种专用术语无监督聚类方法,应用于互联网平台,基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
在一些实施例中,单词-单词语义矩阵S包括多个元素,单词i和单词j,元素的值Sij表示了当前元素对应的两个单词i和单词j是否存在语义相似性,Sij取值0或1。
在一些实施例中,模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
在一些实施例中,先将单词的语义信息和词序信息通过关系矩阵的方式进行了充分提取,再通过IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
在一些实施例中,还包括基于提取的单词类别进行数据融合和二次加工,并将信息同步给云端数据库。
在一些实施例中,互联网平台的预处理包括分词、去重、删除停用词。
如图3所示,本说明书的一个实施例提供的一种专用术语无监督聚类方法,应用在服务器端,包括:
S201、对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成;
S202、建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵;
S203、计算单词-单词的词序关系矩阵;
S204、通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类;
S205、将单词的语义信息和词序信息通过关系矩阵的方式进行提取;
S206、利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取;
S207、基于提取的单词类别进行数据融合和二次加工,用于信息交叉验证。
如图4所示,本说明书的一个实施例提供的一种专用术语无监督聚类专用术语无监督聚类系统,包括至少一终端设备、至少一互联网平台以及至少一服务器,所述终端设备采集用户上传的文本信息,所述互联网平台基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
在一些具体是实施例中,对用户上传的文本信息进行分词可以在互联网平台端服务器执行或在后台服务器的数据中心处理系统执行。
在一些具体是实施例中,文本信息包括OCR的文字识别和图像识别后的文字输出。
在一些具体的例子中,系统基于图像检测和识别技术识别图片上的具体时间、就医医院、患者姓名、医生姓名、临床诊断结果,对图片进行全文本识别,进一步得到文字内容提取后,通过语义识别形成逻辑性上下文,对文本信息进行采集后分类。
本说明书的一个实施例提供的一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现以下方法:对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本说明书的一个实施例提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现以下方法:对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本说明书的一个实施例提供的一种电子设备,包括:
处理器;以及
被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。
本发明利用BERT算法计算的语义相似度得到了单词-单词的语义关系矩阵,实现了单词语义信息的利用。通过基于滑动窗口的文本遍历算法得到了单词-单词的词序关系矩阵,实现了单词词序信息的利用。
本发明避免了仅仅依赖于BERT编码而产生的文本词序信息的丢失,从多维度上提高了原始信息的利用率。
本发明在两个维度的单词关系矩阵的基础上,利用了IRM算法,从而避免了Kmeans算法需要事先设定类别数目K的缺点,从而实现了类别数目的自动推断。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种医疗专用术语无监督聚类方法,应用在服务器端,基于语义信息和词序信息进行数据的融合处理,对疾病症状结合相关疾病形成对应的数据库,从单词类别的提取到数据的融合应用,自动实现对疾病的映射分类,包括:对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取。所述单词-单词的语义矩阵S包括多个元素,元素的值Sij表示了当前元素对应的两个单词i和j是否存在语义相似性,Sij取值0或1,遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素Sij为1,否则为0。
2.根据权利要求1所述的医疗专用术语无监督聚类方法,所述预处理包括分词、去重、删除停用词。
3.根据权利要求1所述的医疗专用术语无监督聚类方法,所述模型预训练采用BERT模型训练得到语义关系矩阵,用BERT模型倒数第二层的输出隐向量的平均值作为编码向量,对单词集合中的每个单词进行编码。
4.根据权利要求1-3之一所述的方法,还包括基于提取的单词类别进行数据融合和二次加工,并将信息同步给云端数据库。
5.根据权利要求3或4所述的方法,所述预处理包括分词、去重、删除停用词。
6.一种医疗专用术语无监督聚类系统,包括至少一终端设备、至少一互联网平台以及至少一服务器,所述终端设备采集用户上传的文本信息,所述互联网平台基于终端设备获取用户授权许可,采集用户上传的文本信息并发送到后台服务器的数据中心处理系统,数据中心处理系统对文本进行预处理,基于语义信息和词序信息进行数据的融合处理,对心理疾病症状结合相关疾病形成对应的数据库,从单词类别的提取到数据的融合应用,自动实现对疾病的映射分类,包括:对文本进行预处理,建立业务专用术语词汇集合,所述集合包括词汇的语义信息和词序信息,词汇由单词组成,建立单词-单词的语义矩阵,对语义矩阵进行模型预训练得到语义关系矩阵,计算单词-单词的词序关系矩阵,通过无监督聚类算法对语义关系矩阵和词序关系矩阵进行聚类,将单词的语义信息和词序信息通过关系矩阵的方式进行提取,利用IRM算法对两个关系矩阵进行无监督分类,完成单词类别的提取;所述单词-单词的语义矩阵S包括多个元素,元素的值Sij表示了当前元素对应的两个单词i和j是否存在语义相似性,Sij取值0或1,遍历单词集合中的两两单词i和j,计算当前两个单词的余弦相似度,如果当前相似度大于90%,则这两个单词对应的矩阵元素Sij为1,否则为0。
7.根据权利要求6所述的系统,对用户上传的文本信息进行分词在互联网平台端服务器执行或在后台服务器的数据中心处理系统执行。
8.根据权利要求6或7所述的系统,文本信息包括OCR的文字识别和图像识别后的文字输出。
9.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-5之一所述方法的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-5之一所述方法的步骤。
CN202111632912.7A 2021-08-12 2021-08-12 医疗专用术语无监督聚类方法、装置和系统 Pending CN114254083A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111632912.7A CN114254083A (zh) 2021-08-12 2021-08-12 医疗专用术语无监督聚类方法、装置和系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111632912.7A CN114254083A (zh) 2021-08-12 2021-08-12 医疗专用术语无监督聚类方法、装置和系统
CN202110921653.3A CN113377929B (zh) 2021-08-12 2021-08-12 专用术语无监督聚类方法、装置和系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202110921653.3A Division CN113377929B (zh) 2021-08-12 2021-08-12 专用术语无监督聚类方法、装置和系统

Publications (1)

Publication Number Publication Date
CN114254083A true CN114254083A (zh) 2022-03-29

Family

ID=77576781

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202111632912.7A Pending CN114254083A (zh) 2021-08-12 2021-08-12 医疗专用术语无监督聚类方法、装置和系统
CN202110921653.3A Active CN113377929B (zh) 2021-08-12 2021-08-12 专用术语无监督聚类方法、装置和系统
CN202111633005.4A Pending CN114254084A (zh) 2021-08-12 2021-08-12 心理疾病专业术语无监督聚类方法、装置和系统

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202110921653.3A Active CN113377929B (zh) 2021-08-12 2021-08-12 专用术语无监督聚类方法、装置和系统
CN202111633005.4A Pending CN114254084A (zh) 2021-08-12 2021-08-12 心理疾病专业术语无监督聚类方法、装置和系统

Country Status (1)

Country Link
CN (3) CN114254083A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090466A (zh) * 2022-12-16 2023-05-09 上海美嘉林软件科技股份有限公司 技术信息文档语义单元构建方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065744A (zh) * 2021-11-19 2022-02-18 北京邮电大学 中文电子病历手术操作文本的icd自动编码方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508117B1 (ko) * 2014-05-09 2015-04-08 고광철 영어 어순 지도를 이용한 영어 학습방법 및 그 시스템
CN108763214B (zh) * 2018-05-30 2021-09-24 河海大学 一种针对商品评论的情感词典自动构建方法
CN109299270B (zh) * 2018-10-30 2021-09-28 云南电网有限责任公司信息中心 一种基于卷积神经网络的文本数据无监督聚类方法
CN111639175B (zh) * 2020-05-29 2023-05-02 电子科技大学 一种自监督的对话文本摘要方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090466A (zh) * 2022-12-16 2023-05-09 上海美嘉林软件科技股份有限公司 技术信息文档语义单元构建方法及系统

Also Published As

Publication number Publication date
CN113377929A (zh) 2021-09-10
CN113377929B (zh) 2021-12-10
CN114254084A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN107577826B (zh) 基于原始诊断数据的疾病分类编码方法及系统
CN107731269B (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN107705839B (zh) 疾病自动编码方法及系统
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN112632980B (zh) 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN113377929B (zh) 专用术语无监督聚类方法、装置和系统
CN107203775B (zh) 一种图像分类的方法、装置和设备
CN107145485B (zh) 用于压缩主题模型的方法和装置
CN110866110A (zh) 基于人工智能的会议纪要生成方法、装置、设备及介质
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
CN112580362A (zh) 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质
CN114330499A (zh) 分类模型的训练方法、装置、设备、存储介质及程序产品
Saranya et al. Intelligent medical data storage system using machine learning approach
CN112580616B (zh) 人群数量确定方法、装置、设备及存储介质
CN116861859A (zh) 基于多语言模型的目标语种模型的构建方法、装置及设备
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN113742498B (zh) 一种知识图谱的构建更新方法
CN112765353B (zh) 一种基于科研文本的生物医学学科分类方法及装置
CN113972009A (zh) 一种基于临床检验医学大数据的医学检验咨询系统
CN113610080A (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN112597862A (zh) 一种用于人脸数据清洗的方法与设备
CN114764437A (zh) 用户意图识别方法、装置以及电子设备
Jing et al. The application of social media image analysis to an emergency management system
CN110413899A (zh) 服务器存储新闻的存储资源优化方法及系统
CN117373034A (zh) 一种识别背景信息的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Rooms 1601 and 1602, 16th floor, No. 52, North Fourth Ring West Road, Haidian District, Beijing 100080

Applicant after: Good Feeling Health Industry Group Co.,Ltd.

Address before: Rooms 1601 and 1602, 16th floor, No. 52, North Fourth Ring West Road, Haidian District, Beijing 100080

Applicant before: BEIJING HAOXINQING MOBILE MEDICAL TECHNOLOGY CO.,LTD.