CN105808712A

CN105808712A - 将文本类医疗报告转换为结构化数据的智能系统及方法

Info

Publication number: CN105808712A
Application number: CN201610126150.6A
Authority: CN
Inventors: 陈宽
Original assignee: Individual
Current assignee: Beijing Infervision Technology Co Ltd
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2016-07-27
Also published as: WO2017152802A1

Abstract

一种可供数据模型识别的将文本类医疗报告转换为结构化数据的智能系统及方法。包括以计算机为基础的数据模型，该系统还设有维度构建单元、维度赋值单元和医疗信息转换单元。本发明将患者的非结构化文本类的医疗诊断报告中具有医疗诊断意义的特征字词进行排序、建立筛选维度和赋值，以此获得计算机可以识别且与所述非结构化文本类的医疗诊断报告相对应的结构化数据，再将该结构化数据与相对应的放射图像类报告相关联后送入计算机或深度学习模型中进行机器自学习，为实现医疗信息全智能化分析奠定基础。本发明可大大降低医生的工作压力，提高其工作效率，使其从繁重的对医疗数据的分析工作中解脱出来，从而将更多的精力用于其它更重要的工作中。

Description

将文本类医疗报告转换为结构化数据的智能系统及方法

技术领域

本发明涉及一种人工智能分析系统，特别涉及一种可将文本类医疗诊断报告转换为医疗人工智能机器可识别的结构化数据的智能系统与分析方法。

背景技术

人工智能和机器学习技术随着深度学习技术的爆炸式发展走进各行各业，在医疗领域也不例外。在核心机器学习的模型(又称数据模型)当中，分析的目标数据和预测数据都必须是计算机可以识别的结构化数据，而日常的医疗诊断报告当中所产生的绝大部分数据信息基本上是医疗影像、文本类诊断报告等计算机无法识别的非结构化数据，因此，该类数据信息是无法直接提供给智能机器学习算法与模型当中进行运算的。

目前人工智能和大数据领域中，深度学习模型的出现带来了众多领域的变革，以往许多不可被解决的问题如无人驾车都已成为现实。效果良好的机器学习和深度学习模型需要大量结构化数据支撑，而目前人工智能领域因为深度学习而成功的应用案例无一不是拥有海量训练数据或者可以由建模工程师自行模拟生成海量数据的领域。

医疗领域每天产生海量信息，但是大部分信息都是病理放射、图像与诊断文本等非结构化数据。图像数据可以直接以像素的形式强行作为结构化数据进入模型当中，但医生所撰写的文本类诊断报告就不能直接进入深度学习等机器学习模型当中。因此目前大部分的医疗领域的机器学习都停留在只应用图像进行自挖掘(无监督学习)、分割，或者由人为对医疗图像进行结构化数据标记、或者通过类专家型系统对于模型进行预加工，任何一种形式都不能充分利用海量诊疗数据来对模型进行指导与优化，给医疗人工智能和大数据的发展造成了很大的瓶颈。

发明内容

本发明要解决的技术问题是提供一种可供数据模型识别的将文本类医疗报告转换为结构化数据的智能系统及方法。

为了解决上述技术问题，本发明采用的技术方案为：

本发明的将文本类的医疗报告转换为结构化数据的智能系统，包括以计算机为基础的数据模型，该系统还设有维度构建单元、维度赋值单元和医疗信息转换单元，其中，

维度构建单元，采集海量的所述数据模型无法识别的非结构化数据的包含医疗诊断报告和/或医疗诊断事件记录在内的文本类的医疗报告，将其中可自然联系在一起且属同一类别的文本设置为一个信息单元，通过对每个信息单元中的由单个字、单个词、组字和/或组词构成的特征字词出现在该信息单元中的频次及以该频次为基础按设定计算方法获取的数值大小进行筛选，继而将筛选结果中具有医疗诊断意义的特征字词设定为该医疗报告的维度；

维度赋值单元，将所述信息单元中包含的所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为所述维度在该信息单元中的赋值并形成以该信息单元编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的结构化数据表；

医疗信息转换单元，将已获得的海量的所述结构化数据表中的数据内容送入所述的数据模型中通过机器学习继而建立可对所述医疗报告进行归纳、汇总以及将该医疗报告与对应的图像数据进行关联的智能分析模型单元。

该系统还包括由日常诊断和/或治疗过程中形成的目标医疗报告输入单元，该输入单元将所述目标医疗报告中所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为该维度在该目标医疗报告中的赋值并形成以该目标医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的目标结构化数据表，之后，该输入单元将该目标结构化数据表送入所述的医疗信息转换单元。

所述同一类别的文本可以为某个患者当日诊断或整个诊断、治疗过程中形成的文本，或者为某类患者整个诊断、治疗过程中形成的文本，或者为某个和/或某类患者某个治疗阶段形成的文本。

所述信息单元为一件完整且独立的非结构文本，或者为若干件完整且独立的非结构文本，或者为以天、月、年为单位获取的所有完整且独立的非结构文本。

所述维度对应的特征字词还包含处于同一文本的单句或段落中为相邻搭配关系、间隔搭配关系或者常见匹配关系且具医疗诊断意义的常常同时出现的字词。

本发明的将文本类医疗报告转化为结构化数据的方法，其步骤如下：

1)采集包含医疗诊断报告和/或医疗诊断事件记录在内的数据模型无法直接识别的非结构化文本类医疗报告；

2)对该医疗报告中的由单个字、单个词、组字和/或组词构成的特征字词出现在该医疗报告中的频次及以该频次为基础按设定计算方法获取的数值大小进行筛选；

3)将筛选出来的结果中具有医疗诊断意义的特征字词设定为该医疗报告的维度；

4)再将所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为所述维度在该医疗报告中的赋值；

5)形成以该医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的结构化数据表。

本发明的将文本类医疗报告转化为结构化数据的方法中，所述计算方法包含tf-idf算法或其他词频为基础的计算方法。

本发明的将文本类医疗报告转化为结构化数据的方法中，所述维度对应的特征字词还包含处于同一文本的单句或段落中为相邻搭配关系、间隔搭配关系或者常见匹配关系且具医疗诊断意义的常常同时出现的字词。

本发明将医疗研究机构进行病理研究的和/或医院获得的有关就医患者的非结构化文本类的医疗诊断报告中具有医疗诊断意义的特征字词进行排序、建立筛选维度和赋值，以此获得计算机可以识别且与所述非结构化文本类的医疗诊断报告相对应的结构化数据，再将该结构化数据与相对应的放射图像类报告相关联后送入计算机或深度学习模型中进行机器自学习，为实现医疗信息全智能化分析奠定基础。

本发明的主要应用场景为机器学习模型运算以前，先由本发明的方法将非结构化的文本类医疗信息转化成为结构化数据维度，并对训练数据当中的非结构化文本进行赋值，让机器学习模型更加便捷智能地在医疗文本当中进行特征提取与赋值。本发明利用文本挖掘技术，自动在海量需要分析的医疗文本当中挖掘有意义的维度，并迅速比对原始数据和构建出来的维度，进行挖掘，大大加快机器学习原始文本数据预处理的速度，也有助于医疗从业者从海量影像诊断数据当中挖掘出有价值的信息维度。本发明可大大降低医生的工作压力，提高其工作效率，使其从繁重的对医疗数据的分析工作中解脱出来，从而将更多的精力用于其它更重要的工作中。

附图说明

图1为本发明智能系统的方框示意图。

具体实施方式

如图1所示，本发明的将文本类医疗报告转换为结构化数据的智能系统包括计算单元(即以计算机这基础的机械学习数据模型)、维度构建单元、维度赋值单元和医疗信息转换单元。

所述维度构建单元，采集海量的所述数据模型无法识别的非结构化数据的包含医疗诊断报告和/或医疗诊断事件记录在内的文本类的医疗报告，将其中可自然联系在一起且属同一类别的文本设置为一个信息单元，通过对每个信息单元中的由单个字、单个词、组字和/或组词构成的特征字词出现在该信息单元中的频次及以该频次为基础按设定计算方法(该计算方法包含tf-idf算法或以其他词频为基础的计算方法)获取的数值大小进行筛选，继而将筛选结果中具有医疗诊断意义的特征字词设定为该医疗报告的维度。

所述维度赋值单元，将所述信息单元中包含的所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为所述维度在该信息单元中的赋值并形成以该信息单元编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的结构化数据表。

所述医疗信息转换单元，将已获得的海量的所述结构化数据表中的数据内容送入所述的数据模型中通过机器学习继而建立可对所述医疗报告进行归纳、汇总以及将该医疗报告与对应的图像数据进行关联的智能分析模型单元。

当所述的智能分析模型单元建立后，即可将日常诊断和/或治疗过程中形成的医疗报告送入设置于该系统中的目标医疗报告输入单元。该输入单元可将所述目标医疗报告中具有的智能分析模型单元已确定的所述维度对应的特征字词出现的频次或者以该频次为基础按设定计算方法(该计算方法包含tf-idf算法或以其他词频为基础的计算方法)获取的数值作为该维度在该目标医疗报告中的赋值并形成以该目标医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的目标结构化数据表，之后，该输入单元将该目标结构化数据表中的数据内容送入所述的医疗信息转换单元。再由医疗信息转换单元将目标结构化数据表数据内容送入智能分析模型单元快速获取针对该目标医疗报告对应的病症分析判断结果或者快速与该目标医疗报告对应的已获取的为结构化数据的影像数据匹配。

本发明的将文本类医疗诊断报告转化为结构化数据的方法，其步骤如下：

2)对该医疗报告中的由单个字、单个词、组字和/或组词构成的特征字词出现在该医疗报告中的频次及以该频次为基础按设定计算方法(该计算方法包含tf-idf算法或以其他词频为基础的计算方法)获取的数值大小进行筛选；

本发明进一步的说明如下：

1.可由人为或自动定义在医疗文本当中需要关注的文本规律与文本样式，从医疗诊断非结构化文本当中排列出所有符合特定规律的文本样式。

2.对于挖掘出来的文本样式根据某种规则进行排序与筛选，建立维度构建模块。

3.对比排序和筛选之后的每个文本样式与医疗原始文本，根据文本样式与医疗原始文本的给定匹配关系计算出数值，以此为每一条非结构化医疗文本数据进行赋值。

4.机器学习或者人工智能数据模型可直接将构建出来的结构化维度纳入整体框架当中。

维度构建和赋值：

根据具体应用场景，维度构建模块主要利用原始文本当中的不同语句出现频率作为基础来构建维度。以下举例说明。假设一个医疗报告中有以下三个文本：

维度构建可利用以下方法进行维度构建：

一、词频维度构建：

此为最基本的维度构建方法，此处根据需求可以调整特征字词的词长特征，比如我们可以重点分析单字词出现频率，则以上三个文本当中，“肺”字出现次数最大，为3次，“两”“纹”“理”三个字均出现2次，“增”“多”“清”“晰”“左”“见”“炎”“症”字出现次数为一次，在维度构建的过程当中，可人为选择“出现超过1次的字词”作为维度筛选标准，则维度构建模块将产生以下可作为该医疗报告维度的特征字词：

“肺”字出现的频率(或以其他词频为基础的计算方法获取的数值)

“两”字出现的频率(或以其他词频为基础的计算方法获取的数值)

“纹”字出现的频率(或以其他词频为基础的计算方法获取的数值)

“理”字出现的频率(或以其他词频为基础的计算方法获取的数值)

之后，可在其中选择具有医疗诊断意义的“肺、纹”作为该医疗报告的维度。从而，形成该医疗报告的结构化数据表(如下表)：

文本编号	“肺”频率	“纹”频度
			1011	1	0
1022	1	1
			1033	1	1
…	…

我们亦可以再引入二字词出现频率，则以上三个文本当中，有以下出现频率：“两肺”2次，“肺纹”2次，“纹理”2次，“理增”1次，“增多”1次，“理清”1次，“清晰”1次，“左肺”1次，“肺见”1次，“见炎”1次，“炎症”1次，继续沿用之前保留出现超过1次的维度特征，则维度构建模块将产生以下可作为该医疗报告维度的特征字词：

“两肺、肺纹、纹理、理增、增多、理清、清晰、左肺、肺见、见炎、炎症”。

之后，可在其中选择具有医疗诊断意义的“两肺、肺纹、增多、清晰、左肺、炎症”作为该医疗报告的维度。从而，形成该医疗报告的结构化数据表(如下表)：

除中文以外，如英文则一般将单词本身作为一个独立个体进行计算。

二、数值维度构建：

如上述特征字词“肺、两、纹、理”后缀括号中内容所述，我们所关心的维度不一定非得是其出现的频率，可以是以tf-idf(见下文)计算方法获取的等其他特征值。

注释

tf-idf计算方法：

tf-idf方法主要改进简单词频筛选当中大量无意义助词(如“的”“是”“就”等)会有非常高的出现频率，但是一般不带有实际医疗诊断信息意义，因此，在所有文本当中多次出现的助词将不会被过分强调。Tf-idf的具体计算方式如下：

其中a为idf参数，可以根据需求随意调整。而如公式所述，如“是”“的”这类在每一个文本当中都会经常出现的助词tf-idf值将会被上述公式的分母所降低，而具体降低多少，将由参数a来控制。因此以上公式可以保留多次在文本当中出现的概念同时，将意义不大但是多次出现的助词筛查掉。

假设一个医疗报告中有以下两个文本：

文本编号非结构化文本内容

2011肺部有阴影，疑似肺炎

2022肾有积水，排除肾癌可能性，建议进一步病理检查癌变

比如在以上实例当中，选择“癌、肺、肾、有”特征字词，假设a＝1，按照上述tf-idf计算方法对选择的特征字词进行赋值，并经筛选可以构建该医疗报告中的维度：

“癌”在一个文本中出现过两次，其总值为2/1＝2，依理可得出“肺”的总值为2/1＝2,“肾”的总值为2/1＝2，“有”的总值为2/2＝1。由此结果可见虽然“有”字出现2次，较为频繁，但是因为它为两个文件的常见字，所以在信息上并不为我们带来多余信息，而“肺”字和“肾”字出现频率较高，但也并不是在多个文件当中出现的共同概念。由此，可根据赋值大小最终选择什么样的特征字词作为该医疗报告的维度。在本例中即可选择“癌、肺、肾”特征字词作为本医疗报告的维度。同理，可以生成该医疗报告的结构化数据表(见下表)：

文本编号	“癌”tfidf	“肺”tfidf	“肾”tfidf
				2011	0	2	0
2022	2	0	2
				…	…	…	…

而我们对于df的定义也可以较为灵活，一般情况下我们将单个文本定义为df的基础数量，也就是说df主要计算单词在多少个独立文本当中出现，可是我们也可以将df定义成为一天内的所有文本，或者其他的自然归组类别，那么我们df实际在计算的则是某词在多少天内出现过，或者多少个自然归组当中出现过，这样即可根据实际应用情况自由调整。

自定义：根据具体建模需求，比如最近深度学习学术界当中非常流行的word2vec算法等，使用者还可以根据分析需求对于维度构建模块的订立规则进行设立，比如可以选择某些文字元素附近的特征(比如“阴影”距离为1的文字，或者说如与“癌”字同句当中出现的词等)。

同理个性化定制的维度构建模块也会将每一个医疗文本转换成为如上的数据维度。新构建的数据表将被作为对原有医疗文本的整理和概括，并被使用在进一步的数据分析当中，而医疗文本转换单元所生成的结构化数据表将可直接被所有机器学习、人工智能和统计模型作为输入所识别。

注释：

tf-idf是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

原理

tf-idf的主要思想是：如果某个词或短语在一篇文章中出现的频率tf高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。tf-idf实际上是：tf*idf，tf词频(TermFrequency)，idf逆向文件频率(InverseDocumentFrequency)。tf表示词条在文档d中出现的频率。idf的主要思想是：如果包含词条t的文档越少，也就是n越小，idf越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照idf公式得到的idf的值会小，就说明该词条t类别区分能力不强。但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

Claims

1.一种将文本类的医疗报告转换为结构化数据的智能系统，包括以计算机为基础的数据模型，其特征在于：该系统还设有维度构建单元、维度赋值单元和医疗信息转换单元，其中，

2.根据权利要求1所述的智能系统，其特征在于：该系统还包括由日常诊断和/或治疗过程中形成的目标医疗报告输入单元，该输入单元将所述目标医疗报告中所述维度出现的频次或者以该频次为基础按设定计算方法获取的数值作为该维度在该目标医疗报告中的赋值并形成以该目标医疗报告编号、所述维度对应的特征字词和所述维度对应的赋值为对应关系的目标结构化数据表，之后，该输入单元将该目标结构化数据表送入所述的医疗信息转换单元。

3.根据权利要求1所述的智能系统，其特征在于：所述同一类别的文本可以为某个患者当日诊断或整个诊断、治疗过程中形成的文本，或者为某类患者整个诊断、治疗过程中形成的文本，或者为某个和/或某类患者某个治疗阶段形成的文本。

4.根据权利要求3所述的智能系统，其特征在于：所述信息单元为一件完整且独立的非结构文本，或者为若干件完整且独立的非结构文本，或者为以天、月、年为单位获取的所有完整且独立的非结构文本。

5.根据权利要求1所述的智能系统，其特征在于：所述维度对应的特征字词还包含处于同一文本的单句或段落中为相邻搭配关系、间隔搭配关系或者常见匹配关系且具医疗诊断意义的常常同时出现的字词。

6.一种将文本类医疗报告转化为结构化数据的方法，其步骤如下：

7.根据权利要求6所述的将文本类医疗报告转化为结构化数据的方法，其特征在于：所述计算方法包含tf-idf算法或其他词频为基础的计算方法。

8.根据权利要求6所述的将文本类医疗报告转化为结构化数据的方法，其特征在于：所述维度对应的特征字词还包含处于同一文本的单句或段落中为相邻搭配关系、间隔搭配关系或者常见匹配关系且具医疗诊断意义的常常同时出现的字词。