CN105808712A - 将文本类医疗报告转换为结构化数据的智能系统及方法 - Google Patents

将文本类医疗报告转换为结构化数据的智能系统及方法 Download PDF

Info

Publication number
CN105808712A
CN105808712A CN201610126150.6A CN201610126150A CN105808712A CN 105808712 A CN105808712 A CN 105808712A CN 201610126150 A CN201610126150 A CN 201610126150A CN 105808712 A CN105808712 A CN 105808712A
Authority
CN
China
Prior art keywords
medical
dimension
text
frequency
medical report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610126150.6A
Other languages
English (en)
Inventor
陈宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Infervision Technology Co Ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610126150.6A priority Critical patent/CN105808712A/zh
Publication of CN105808712A publication Critical patent/CN105808712A/zh
Priority to PCT/CN2017/075404 priority patent/WO2017152802A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

一种可供数据模型识别的将文本类医疗报告转换为结构化数据的智能系统及方法。包括以计算机为基础的数据模型,该系统还设有维度构建单元、维度赋值单元和医疗信息转换单元。本发明将患者的非结构化文本类的医疗诊断报告中具有医疗诊断意义的特征字词进行排序、建立筛选维度和赋值,以此获得计算机可以识别且与所述非结构化文本类的医疗诊断报告相对应的结构化数据,再将该结构化数据与相对应的放射图像类报告相关联后送入计算机或深度学习模型中进行机器自学习,为实现医疗信息全智能化分析奠定基础。本发明可大大降低医生的工作压力,提高其工作效率,使其从繁重的对医疗数据的分析工作中解脱出来,从而将更多的精力用于其它更重要的工作中。

Description

将文本类医疗报告转换为结构化数据的智能系统及方法
技术领域
本发明涉及一种人工智能分析系统,特别涉及一种可将文本类医疗诊断报告转换为医疗人工智能机器可识别的结构化数据的智能系统与分析方法。
背景技术
人工智能和机器学习技术随着深度学习技术的爆炸式发展走进各行各业,在医疗领域也不例外。在核心机器学习的模型(又称数据模型)当中,分析的目标数据和预测数据都必须是计算机可以识别的结构化数据,而日常的医疗诊断报告当中所产生的绝大部分数据信息基本上是医疗影像、文本类诊断报告等计算机无法识别的非结构化数据,因此,该类数据信息是无法直接提供给智能机器学习算法与模型当中进行运算的。
目前人工智能和大数据领域中,深度学习模型的出现带来了众多领域的变革,以往许多不可被解决的问题如无人驾车都已成为现实。效果良好的机器学习和深度学习模型需要大量结构化数据支撑,而目前人工智能领域因为深度学习而成功的应用案例无一不是拥有海量训练数据或者可以由建模工程师自行模拟生成海量数据的领域。
医疗领域每天产生海量信息,但是大部分信息都是病理放射、图像与诊断文本等非结构化数据。图像数据可以直接以像素的形式强行作为结构化数据进入模型当中,但医生所撰写的文本类诊断报告就不能直接进入深度学习等机器学习模型当中。因此目前大部分的医疗领域的机器学习都停留在只应用图像进行自挖掘(无监督学习)、分割,或者由人为对医疗图像进行结构化数据标记、或者通过类专家型系统对于模型进行预加工,任何一种形式都不能充分利用海量诊疗数据来对模型进行指导与优化,给医疗人工智能和大数据的发展造成了很大的瓶颈。
发明内容
本发明要解决的技术问题是提供一种可供数据模型识别的将文本类医疗报告转换为结构化数据的智能系统及方法。
为了解决上述技术问题,本发明采用的技术方案为:
本发明的将文本类的医疗报告转换为结构化数据的智能系统,包括以计算机为基础的数据模型,该系统还设有维度构建单元、维度赋值单元和医疗信息转换单元,其中,
维度构建单元,采集海量的所述数据模型无法识别的非结构化数据的包含医疗诊断报告和/或医疗诊断事件记录在内的文本类的医疗报告,将其中可自然联系在一起且属同一类别的文本设置为一个信息单元,通过对每个信息单元中的由单个字、单个词、组字和/或组词构成的特征字词出现在该信息单元中的频次及以该频次为基础按设定计算方法获取的数值大小进行筛选,继而将筛选结果中具有医疗诊断意义的特征字词设定为该医疗报告的维度;
维度赋值单元,将所述信息单元中包含的所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为所述维度在该信息单元中的赋值并形成以该信息单元编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的结构化数据表;
医疗信息转换单元,将已获得的海量的所述结构化数据表中的数据内容送入所述的数据模型中通过机器学习继而建立可对所述医疗报告进行归纳、汇总以及将该医疗报告与对应的图像数据进行关联的智能分析模型单元。
该系统还包括由日常诊断和/或治疗过程中形成的目标医疗报告输入单元,该输入单元将所述目标医疗报告中所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为该维度在该目标医疗报告中的赋值并形成以该目标医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的目标结构化数据表,之后,该输入单元将该目标结构化数据表送入所述的医疗信息转换单元。
所述同一类别的文本可以为某个患者当日诊断或整个诊断、治疗过程中形成的文本,或者为某类患者整个诊断、治疗过程中形成的文本,或者为某个和/或某类患者某个治疗阶段形成的文本。
所述信息单元为一件完整且独立的非结构文本,或者为若干件完整且独立的非结构文本,或者为以天、月、年为单位获取的所有完整且独立的非结构文本。
所述维度对应的特征字词还包含处于同一文本的单句或段落中为相邻搭配关系、间隔搭配关系或者常见匹配关系且具医疗诊断意义的常常同时出现的字词。
本发明的将文本类医疗报告转化为结构化数据的方法,其步骤如下:
1)采集包含医疗诊断报告和/或医疗诊断事件记录在内的数据模型无法直接识别的非结构化文本类医疗报告;
2)对该医疗报告中的由单个字、单个词、组字和/或组词构成的特征字词出现在该医疗报告中的频次及以该频次为基础按设定计算方法获取的数值大小进行筛选;
3)将筛选出来的结果中具有医疗诊断意义的特征字词设定为该医疗报告的维度;
4)再将所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为所述维度在该医疗报告中的赋值;
5)形成以该医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的结构化数据表。
本发明的将文本类医疗报告转化为结构化数据的方法中,所述计算方法包含tf-idf算法或其他词频为基础的计算方法。
本发明的将文本类医疗报告转化为结构化数据的方法中,所述维度对应的特征字词还包含处于同一文本的单句或段落中为相邻搭配关系、间隔搭配关系或者常见匹配关系且具医疗诊断意义的常常同时出现的字词。
本发明将医疗研究机构进行病理研究的和/或医院获得的有关就医患者的非结构化文本类的医疗诊断报告中具有医疗诊断意义的特征字词进行排序、建立筛选维度和赋值,以此获得计算机可以识别且与所述非结构化文本类的医疗诊断报告相对应的结构化数据,再将该结构化数据与相对应的放射图像类报告相关联后送入计算机或深度学习模型中进行机器自学习,为实现医疗信息全智能化分析奠定基础。
本发明的主要应用场景为机器学习模型运算以前,先由本发明的方法将非结构化的文本类医疗信息转化成为结构化数据维度,并对训练数据当中的非结构化文本进行赋值,让机器学习模型更加便捷智能地在医疗文本当中进行特征提取与赋值。本发明利用文本挖掘技术,自动在海量需要分析的医疗文本当中挖掘有意义的维度,并迅速比对原始数据和构建出来的维度,进行挖掘,大大加快机器学习原始文本数据预处理的速度,也有助于医疗从业者从海量影像诊断数据当中挖掘出有价值的信息维度。本发明可大大降低医生的工作压力,提高其工作效率,使其从繁重的对医疗数据的分析工作中解脱出来,从而将更多的精力用于其它更重要的工作中。
附图说明
图1为本发明智能系统的方框示意图。
具体实施方式
如图1所示,本发明的将文本类医疗报告转换为结构化数据的智能系统包括计算单元(即以计算机这基础的机械学习数据模型)、维度构建单元、维度赋值单元和医疗信息转换单元。
所述维度构建单元,采集海量的所述数据模型无法识别的非结构化数据的包含医疗诊断报告和/或医疗诊断事件记录在内的文本类的医疗报告,将其中可自然联系在一起且属同一类别的文本设置为一个信息单元,通过对每个信息单元中的由单个字、单个词、组字和/或组词构成的特征字词出现在该信息单元中的频次及以该频次为基础按设定计算方法(该计算方法包含tf-idf算法或以其他词频为基础的计算方法)获取的数值大小进行筛选,继而将筛选结果中具有医疗诊断意义的特征字词设定为该医疗报告的维度。
所述维度赋值单元,将所述信息单元中包含的所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为所述维度在该信息单元中的赋值并形成以该信息单元编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的结构化数据表。
所述医疗信息转换单元,将已获得的海量的所述结构化数据表中的数据内容送入所述的数据模型中通过机器学习继而建立可对所述医疗报告进行归纳、汇总以及将该医疗报告与对应的图像数据进行关联的智能分析模型单元。
当所述的智能分析模型单元建立后,即可将日常诊断和/或治疗过程中形成的医疗报告送入设置于该系统中的目标医疗报告输入单元。该输入单元可将所述目标医疗报告中具有的智能分析模型单元已确定的所述维度对应的特征字词出现的频次或者以该频次为基础按设定计算方法(该计算方法包含tf-idf算法或以其他词频为基础的计算方法)获取的数值作为该维度在该目标医疗报告中的赋值并形成以该目标医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的目标结构化数据表,之后,该输入单元将该目标结构化数据表中的数据内容送入所述的医疗信息转换单元。再由医疗信息转换单元将目标结构化数据表数据内容送入智能分析模型单元快速获取针对该目标医疗报告对应的病症分析判断结果或者快速与该目标医疗报告对应的已获取的为结构化数据的影像数据匹配。
所述同一类别的文本可以为某个患者当日诊断或整个诊断、治疗过程中形成的文本,或者为某类患者整个诊断、治疗过程中形成的文本,或者为某个和/或某类患者某个治疗阶段形成的文本。
所述信息单元为一件完整且独立的非结构文本,或者为若干件完整且独立的非结构文本,或者为以天、月、年为单位获取的所有完整且独立的非结构文本。
所述维度对应的特征字词还包含处于同一文本的单句或段落中为相邻搭配关系、间隔搭配关系或者常见匹配关系且具医疗诊断意义的常常同时出现的字词。
本发明的将文本类医疗诊断报告转化为结构化数据的方法,其步骤如下:
1)采集包含医疗诊断报告和/或医疗诊断事件记录在内的数据模型无法直接识别的非结构化文本类医疗报告;
2)对该医疗报告中的由单个字、单个词、组字和/或组词构成的特征字词出现在该医疗报告中的频次及以该频次为基础按设定计算方法(该计算方法包含tf-idf算法或以其他词频为基础的计算方法)获取的数值大小进行筛选;
3)将筛选出来的结果中具有医疗诊断意义的特征字词设定为该医疗报告的维度;
4)再将所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为所述维度在该医疗报告中的赋值;
5)形成以该医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的结构化数据表。
本发明进一步的说明如下:
1.可由人为或自动定义在医疗文本当中需要关注的文本规律与文本样式,从医疗诊断非结构化文本当中排列出所有符合特定规律的文本样式。
2.对于挖掘出来的文本样式根据某种规则进行排序与筛选,建立维度构建模块。
3.对比排序和筛选之后的每个文本样式与医疗原始文本,根据文本样式与医疗原始文本的给定匹配关系计算出数值,以此为每一条非结构化医疗文本数据进行赋值。
4.机器学习或者人工智能数据模型可直接将构建出来的结构化维度纳入整体框架当中。
维度构建和赋值:
根据具体应用场景,维度构建模块主要利用原始文本当中的不同语句出现频率作为基础来构建维度。以下举例说明。假设一个医疗报告中有以下三个文本:
维度构建可利用以下方法进行维度构建:
一、词频维度构建:
此为最基本的维度构建方法,此处根据需求可以调整特征字词的词长特征,比如我们可以重点分析单字词出现频率,则以上三个文本当中,“肺”字出现次数最大,为3次,“两”“纹”“理”三个字均出现2次,“增”“多”“清”“晰”“左”“见”“炎”“症”字出现次数为一次,在维度构建的过程当中,可人为选择“出现超过1次的字词”作为维度筛选标准,则维度构建模块将产生以下可作为该医疗报告维度的特征字词:
“肺”字出现的频率(或以其他词频为基础的计算方法获取的数值)
“两”字出现的频率(或以其他词频为基础的计算方法获取的数值)
“纹”字出现的频率(或以其他词频为基础的计算方法获取的数值)
“理”字出现的频率(或以其他词频为基础的计算方法获取的数值)
之后,可在其中选择具有医疗诊断意义的“肺、纹”作为该医疗报告的维度。从而,形成该医疗报告的结构化数据表(如下表):
文本编号 “肺”频率 “纹”频度
1011 1 0
1022 1 1
1033 1 1
我们亦可以再引入二字词出现频率,则以上三个文本当中,有以下出现频率:“两肺”2次,“肺纹”2次,“纹理”2次,“理增”1次,“增多”1次,“理清”1次,“清晰”1次,“左肺”1次,“肺见”1次,“见炎”1次,“炎症”1次,继续沿用之前保留出现超过1次的维度特征,则维度构建模块将产生以下可作为该医疗报告维度的特征字词:
“两肺、肺纹、纹理、理增、增多、理清、清晰、左肺、肺见、见炎、炎症”。
之后,可在其中选择具有医疗诊断意义的“两肺、肺纹、增多、清晰、左肺、炎症”作为该医疗报告的维度。从而,形成该医疗报告的结构化数据表(如下表):
除中文以外,如英文则一般将单词本身作为一个独立个体进行计算。
二、数值维度构建:
如上述特征字词“肺、两、纹、理”后缀括号中内容所述,我们所关心的维度不一定非得是其出现的频率,可以是以tf-idf(见下文)计算方法获取的等其他特征值。
注释
tf-idf计算方法:
tf-idf方法主要改进简单词频筛选当中大量无意义助词(如“的”“是”“就”等)会有非常高的出现频率,但是一般不带有实际医疗诊断信息意义,因此,在所有文本当中多次出现的助词将不会被过分强调。Tf-idf的具体计算方式如下:
其中a为idf参数,可以根据需求随意调整。而如公式所述,如“是”“的”这类在每一个文本当中都会经常出现的助词tf-idf值将会被上述公式的分母所降低,而具体降低多少,将由参数a来控制。因此以上公式可以保留多次在文本当中出现的概念同时,将意义不大但是多次出现的助词筛查掉。
假设一个医疗报告中有以下两个文本:
文本编号非结构化文本内容
2011肺部有阴影,疑似肺炎
2022肾有积水,排除肾癌可能性,建议进一步病理检查癌变
比如在以上实例当中,选择“癌、肺、肾、有”特征字词,假设a=1,按照上述tf-idf计算方法对选择的特征字词进行赋值,并经筛选可以构建该医疗报告中的维度:
“癌”在一个文本中出现过两次,其总值为2/1=2,依理可得出“肺”的总值为2/1=2,“肾”的总值为2/1=2,“有”的总值为2/2=1。由此结果可见虽然“有”字出现2次,较为频繁,但是因为它为两个文件的常见字,所以在信息上并不为我们带来多余信息,而“肺”字和“肾”字出现频率较高,但也并不是在多个文件当中出现的共同概念。由此,可根据赋值大小最终选择什么样的特征字词作为该医疗报告的维度。在本例中即可选择“癌、肺、肾”特征字词作为本医疗报告的维度。同理,可以生成该医疗报告的结构化数据表(见下表):
文本编号 “癌”tfidf “肺”tfidf “肾”tfidf
2011 0 2 0
2022 2 0 2
而我们对于df的定义也可以较为灵活,一般情况下我们将单个文本定义为df的基础数量,也就是说df主要计算单词在多少个独立文本当中出现,可是我们也可以将df定义成为一天内的所有文本,或者其他的自然归组类别,那么我们df实际在计算的则是某词在多少天内出现过,或者多少个自然归组当中出现过,这样即可根据实际应用情况自由调整。
自定义:根据具体建模需求,比如最近深度学习学术界当中非常流行的word2vec算法等,使用者还可以根据分析需求对于维度构建模块的订立规则进行设立,比如可以选择某些文字元素附近的特征(比如“阴影”距离为1的文字,或者说如与“癌”字同句当中出现的词等)。
同理个性化定制的维度构建模块也会将每一个医疗文本转换成为如上的数据维度。新构建的数据表将被作为对原有医疗文本的整理和概括,并被使用在进一步的数据分析当中,而医疗文本转换单元所生成的结构化数据表将可直接被所有机器学习、人工智能和统计模型作为输入所识别。
注释:
tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
原理
tf-idf的主要思想是:如果某个词或短语在一篇文章中出现的频率tf高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。tf-idf实际上是:tf*idf,tf词频(TermFrequency),idf逆向文件频率(InverseDocumentFrequency)。tf表示词条在文档d中出现的频率。idf的主要思想是:如果包含词条t的文档越少,也就是n越小,idf越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照idf公式得到的idf的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。

Claims (8)

1.一种将文本类的医疗报告转换为结构化数据的智能系统,包括以计算机为基础的数据模型,其特征在于:该系统还设有维度构建单元、维度赋值单元和医疗信息转换单元,其中,
维度构建单元,采集海量的所述数据模型无法识别的非结构化数据的包含医疗诊断报告和/或医疗诊断事件记录在内的文本类的医疗报告,将其中可自然联系在一起且属同一类别的文本设置为一个信息单元,通过对每个信息单元中的由单个字、单个词、组字和/或组词构成的特征字词出现在该信息单元中的频次及以该频次为基础按设定计算方法获取的数值大小进行筛选,继而将筛选结果中具有医疗诊断意义的特征字词设定为该医疗报告的维度;
维度赋值单元,将所述信息单元中包含的所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为所述维度在该信息单元中的赋值并形成以该信息单元编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的结构化数据表;
医疗信息转换单元,将已获得的海量的所述结构化数据表中的数据内容送入所述的数据模型中通过机器学习继而建立可对所述医疗报告进行归纳、汇总以及将该医疗报告与对应的图像数据进行关联的智能分析模型单元。
2.根据权利要求1所述的智能系统,其特征在于:该系统还包括由日常诊断和/或治疗过程中形成的目标医疗报告输入单元,该输入单元将所述目标医疗报告中所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为该维度在该目标医疗报告中的赋值并形成以该目标医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的目标结构化数据表,之后,该输入单元将该目标结构化数据表送入所述的医疗信息转换单元。
3.根据权利要求1所述的智能系统,其特征在于:所述同一类别的文本可以为某个患者当日诊断或整个诊断、治疗过程中形成的文本,或者为某类患者整个诊断、治疗过程中形成的文本,或者为某个和/或某类患者某个治疗阶段形成的文本。
4.根据权利要求3所述的智能系统,其特征在于:所述信息单元为一件完整且独立的非结构文本,或者为若干件完整且独立的非结构文本,或者为以天、月、年为单位获取的所有完整且独立的非结构文本。
5.根据权利要求1所述的智能系统,其特征在于:所述维度对应的特征字词还包含处于同一文本的单句或段落中为相邻搭配关系、间隔搭配关系或者常见匹配关系且具医疗诊断意义的常常同时出现的字词。
6.一种将文本类医疗报告转化为结构化数据的方法,其步骤如下:
1)采集包含医疗诊断报告和/或医疗诊断事件记录在内的数据模型无法直接识别的非结构化文本类医疗报告;
2)对该医疗报告中的由单个字、单个词、组字和/或组词构成的特征字词出现在该医疗报告中的频次及以该频次为基础按设定计算方法获取的数值大小进行筛选;
3)将筛选出来的结果中具有医疗诊断意义的特征字词设定为该医疗报告的维度;
4)再将所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为所述维度在该医疗报告中的赋值;
5)形成以该医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的结构化数据表。
7.根据权利要求6所述的将文本类医疗报告转化为结构化数据的方法,其特征在于:所述计算方法包含tf-idf算法或其他词频为基础的计算方法。
8.根据权利要求6所述的将文本类医疗报告转化为结构化数据的方法,其特征在于:所述维度对应的特征字词还包含处于同一文本的单句或段落中为相邻搭配关系、间隔搭配关系或者常见匹配关系且具医疗诊断意义的常常同时出现的字词。
CN201610126150.6A 2016-03-07 2016-03-07 将文本类医疗报告转换为结构化数据的智能系统及方法 Pending CN105808712A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610126150.6A CN105808712A (zh) 2016-03-07 2016-03-07 将文本类医疗报告转换为结构化数据的智能系统及方法
PCT/CN2017/075404 WO2017152802A1 (zh) 2016-03-07 2017-03-02 将文本类医疗报告转换为结构化数据的智能系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610126150.6A CN105808712A (zh) 2016-03-07 2016-03-07 将文本类医疗报告转换为结构化数据的智能系统及方法

Publications (1)

Publication Number Publication Date
CN105808712A true CN105808712A (zh) 2016-07-27

Family

ID=56467774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610126150.6A Pending CN105808712A (zh) 2016-03-07 2016-03-07 将文本类医疗报告转换为结构化数据的智能系统及方法

Country Status (2)

Country Link
CN (1) CN105808712A (zh)
WO (1) WO2017152802A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228023A (zh) * 2016-08-01 2016-12-14 清华大学 一种基于本体和主题模型的临床路径挖掘方法
CN107025369A (zh) * 2016-08-03 2017-08-08 北京推想科技有限公司 一种对医疗图像进行转换学习的方法和装置
WO2017152802A1 (zh) * 2016-03-07 2017-09-14 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
WO2018120447A1 (zh) * 2016-12-28 2018-07-05 北京搜狗科技发展有限公司 一种医案信息的处理方法、装置和设备
CN108447528A (zh) * 2018-02-05 2018-08-24 龙马智芯(珠海横琴)科技有限公司 信息处理方法和装置、设备、计算机可读存储介质
CN108766513A (zh) * 2018-06-01 2018-11-06 安徽八千里科技发展股份有限公司 一种智慧健康医疗数据结构化处理系统
CN109698018A (zh) * 2018-12-24 2019-04-30 广州天鹏计算机科技有限公司 医疗文本处理方法、装置、计算机设备和存储介质
CN109712680A (zh) * 2019-01-24 2019-05-03 易保互联医疗信息科技(北京)有限公司 基于hl7规范的医疗数据生成方法及系统
CN109754886A (zh) * 2019-01-07 2019-05-14 广州达美智能科技有限公司 治疗方案智能生成系统、方法及可读存储介质、电子设备
CN109920506A (zh) * 2019-01-23 2019-06-21 平安科技(深圳)有限公司 医疗统计报告生成方法、装置、设备及存储介质
CN109947751A (zh) * 2018-12-29 2019-06-28 医渡云(北京)技术有限公司 一种医疗数据处理方法、装置、可读介质及电子设备
CN110019491A (zh) * 2017-07-27 2019-07-16 北大医疗信息技术有限公司 可视化方法、可视化装置、计算机设备和存储介质
CN110348019A (zh) * 2019-07-17 2019-10-18 南通大学 一种基于注意力机制的医疗实体向量转化方法
CN110364236A (zh) * 2019-07-22 2019-10-22 卫宁健康科技集团股份有限公司 放射影像报告的智能随访方法、系统、设备及存储介质
CN110968234A (zh) * 2018-09-28 2020-04-07 智龄科技股份有限公司 智能护理文本生成系统以及使用其的智能护理信息平台
CN111857935A (zh) * 2020-07-29 2020-10-30 北京字节跳动网络技术有限公司 文字生成方法和装置
CN112395292A (zh) * 2020-11-25 2021-02-23 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026799B (zh) * 2019-12-06 2023-07-18 安翰科技(武汉)股份有限公司 胶囊内窥镜检查报告文本结构化方法、设备及介质
CN111863268B (zh) * 2020-07-19 2024-01-30 杭州美腾科技有限公司 一种适用于医学报告内容提取与结构化方法
CN112037909B (zh) * 2020-08-31 2023-08-01 康键信息技术(深圳)有限公司 诊断信息复核系统
CN113254433A (zh) * 2021-05-27 2021-08-13 深圳市第二人民医院(深圳市转化医学研究院) 医疗数据治理方法、装置、计算机设备和存储介质
CN114003791B (zh) * 2021-12-30 2022-04-08 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN104866727A (zh) * 2015-06-02 2015-08-26 陈宽 基于深度学习对医疗数据进行分析的方法及其智能分析仪

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4234740B2 (ja) * 2006-08-03 2009-03-04 株式会社東芝 キーワード提示装置、プログラムおよびキーワード提示方法
CN102193994B (zh) * 2011-04-22 2013-07-24 武汉大学 一种根据用户非功能性需求搜索Web服务的方法
CN102708096B (zh) * 2012-05-29 2014-10-15 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN105808712A (zh) * 2016-03-07 2016-07-27 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN104866727A (zh) * 2015-06-02 2015-08-26 陈宽 基于深度学习对医疗数据进行分析的方法及其智能分析仪

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁帅: "病理文本数据的结构化处理系统研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017152802A1 (zh) * 2016-03-07 2017-09-14 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
CN106228023B (zh) * 2016-08-01 2018-08-28 清华大学 一种基于本体和主题模型的临床路径挖掘方法
CN106228023A (zh) * 2016-08-01 2016-12-14 清华大学 一种基于本体和主题模型的临床路径挖掘方法
CN107025369A (zh) * 2016-08-03 2017-08-08 北京推想科技有限公司 一种对医疗图像进行转换学习的方法和装置
CN107025369B (zh) * 2016-08-03 2020-03-10 北京推想科技有限公司 一种对医疗图像进行转换学习的方法和装置
WO2018120447A1 (zh) * 2016-12-28 2018-07-05 北京搜狗科技发展有限公司 一种医案信息的处理方法、装置和设备
CN110019491A (zh) * 2017-07-27 2019-07-16 北大医疗信息技术有限公司 可视化方法、可视化装置、计算机设备和存储介质
CN110019491B (zh) * 2017-07-27 2023-07-04 北大医疗信息技术有限公司 可视化方法、可视化装置、计算机设备和存储介质
CN108447528A (zh) * 2018-02-05 2018-08-24 龙马智芯(珠海横琴)科技有限公司 信息处理方法和装置、设备、计算机可读存储介质
CN108766513A (zh) * 2018-06-01 2018-11-06 安徽八千里科技发展股份有限公司 一种智慧健康医疗数据结构化处理系统
CN108766513B (zh) * 2018-06-01 2022-04-12 安徽八千里科技发展有限公司 一种智慧健康医疗数据结构化处理系统
CN110968234A (zh) * 2018-09-28 2020-04-07 智龄科技股份有限公司 智能护理文本生成系统以及使用其的智能护理信息平台
CN109698018A (zh) * 2018-12-24 2019-04-30 广州天鹏计算机科技有限公司 医疗文本处理方法、装置、计算机设备和存储介质
CN109947751A (zh) * 2018-12-29 2019-06-28 医渡云(北京)技术有限公司 一种医疗数据处理方法、装置、可读介质及电子设备
CN109947751B (zh) * 2018-12-29 2023-04-07 医渡云(北京)技术有限公司 一种医疗数据处理方法、装置、可读介质及电子设备
CN109754886A (zh) * 2019-01-07 2019-05-14 广州达美智能科技有限公司 治疗方案智能生成系统、方法及可读存储介质、电子设备
CN109920506A (zh) * 2019-01-23 2019-06-21 平安科技(深圳)有限公司 医疗统计报告生成方法、装置、设备及存储介质
CN109920506B (zh) * 2019-01-23 2024-03-08 平安科技(深圳)有限公司 医疗统计报告生成方法、装置、设备及存储介质
CN109712680B (zh) * 2019-01-24 2021-02-09 易保互联医疗信息科技(北京)有限公司 基于hl7 规范的医疗数据生成方法及系统
CN109712680A (zh) * 2019-01-24 2019-05-03 易保互联医疗信息科技(北京)有限公司 基于hl7规范的医疗数据生成方法及系统
CN110348019A (zh) * 2019-07-17 2019-10-18 南通大学 一种基于注意力机制的医疗实体向量转化方法
CN110364236A (zh) * 2019-07-22 2019-10-22 卫宁健康科技集团股份有限公司 放射影像报告的智能随访方法、系统、设备及存储介质
CN111857935A (zh) * 2020-07-29 2020-10-30 北京字节跳动网络技术有限公司 文字生成方法和装置
CN111857935B (zh) * 2020-07-29 2023-12-22 抖音视界有限公司 文字生成方法和装置
CN112395292A (zh) * 2020-11-25 2021-02-23 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置
CN112395292B (zh) * 2020-11-25 2024-03-29 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置

Also Published As

Publication number Publication date
WO2017152802A1 (zh) 2017-09-14

Similar Documents

Publication Publication Date Title
CN105808712A (zh) 将文本类医疗报告转换为结构化数据的智能系统及方法
López-Robles et al. Understanding the intellectual structure and evolution of Competitive Intelligence: A bibliometric analysis from 1984 to 2017
US11972567B2 (en) System and method for analyzing medical images to detect and classify a medical condition using machine-learning and a case pertinent radiology atlas
Malibari et al. Optimal deep neural network-driven computer aided diagnosis model for skin cancer
Sheng et al. A blood cell dataset for lymphoma classification using faster R-CNN
CN106897572A (zh) 基于流形学习的肺结节病例匹配辅助检测系统及其工作方法
CN112466462B (zh) 一种基于图深度学习的emr信息关联及演化方法
Wang et al. Visual genealogy of deep neural networks
Livieris et al. Identification of blood cell subtypes from images using an improved SSL algorithm
CN108920446A (zh) 一种工程文本的处理方法
CN116775897A (zh) 知识图谱构建和查询方法、装置、电子设备及存储介质
CN110543594A (zh) 一种基于知识库的服刑人员个性化循证矫正推荐方法
Shao et al. Research on a new automatic generation algorithm of concept map based on text clustering and association rules mining
Anholcer et al. A simplified implementation of the least squares solution for pairwise comparisons matrices
CN109360658A (zh) 一种基于词向量模型的疾病模式挖掘方法及装置
Sharma et al. Biomedical data classification using fuzzy clustering
CN109840275B (zh) 一种医疗搜索语句的处理方法、装置和设备
Herr et al. The NIH visual browser: An interactive visualization of biomedical research
Kalaivani et al. A Deep Ensemble Model for Automated Multiclass Classification Using Dermoscopy Images
Mayer et al. PhonMatrix: Visualizing co-occurrence constraints of sounds
CN111584089A (zh) 患者数据搜索方法、装置及存储介质
Müller et al. Determining the relative importance of figures in journal articles to find representative images
Nishom et al. Pillar Algorithm in K-Means Method for Identification Health Human Resources Availability Profile in Central Java
Bansal et al. Machine Learning Methods for Predictive Analytics in Health Care
CN111161824A (zh) 自动化报告解读方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170930

Address after: 100025, Beijing Chaoyang District East Fourth Ring Road International Ocean Center C seat 11 layer

Applicant after: Beijing imagine Technology Co., Ltd.

Address before: Shenzhen City, Guangdong Province, 518000 Shennan Road 10128 Nanshan digital and cultural industry base East Tower No. 2804

Applicant before: Chen Kuan

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160727