CN108491472A

CN108491472A - 一种基于crf++分词构建医疗特征库的方法和系统

Info

Publication number: CN108491472A
Application number: CN201810187001.XA
Authority: CN
Inventors: 吕军震; 尹建波; 于国方; 胥洪锋; 李长松; 武佳
Original assignee: XINBO ZHUOCHANG TECHNOLOGY (BEIJING) Co Ltd
Current assignee: XINBO ZHUOCHANG TECHNOLOGY (BEIJING) Co Ltd
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2018-09-04

Abstract

本发明提供一种基于CRF++分词构建医疗特征库的方法和系统，其中方法包括选取电子文本作为初始来源，包括以下步骤：从所述初始来源中提取特征信息；对所述特征信息进行分词和语义分析；在所述CRF++分词的模板中标注所述分词；使用所述模板对所述初始来源进行表述和特征提取，生成疾病特征库；重复上述3‑4，迭代使用新提取的特征信息进行再次标注，直到没有需要标注的特征。本发明提出一种基于CRF++分词构建医疗特征库的方法和系统，使用现在比较权威的临床诊断指南作为信息的最初来源，去除没有医学含义的无用词语，最终生成可以训练软件的数据集，然后使用CRF来标注模板并训练，生成医学特征成果。

Description

一种基于CRF++分词构建医疗特征库的方法和系统

技术领域

本发明涉及数据库分析的技术领域，特别是一种基于CRF++分词构建医疗特征库的方法和系统。

背景技术

现阶段人们的生活节奏很快，生活压力也很大，这就为人类的身体健康带来了很多的健康隐患。一旦人们身体出现了不适，当然首选是比较权威的机构来为自己诊断，但是权威的人士一般都在比较大型的医院。那问题就来了，所有的医院在任何时候都是人满为患的，哪怕小小的感冒都要花费一上午，甚至一天的时间。在当前快节奏的前提下，很多人都认为这是耽误时间，不愿意耽误那么多的时间去医院，以为是小病，可以根据自己以往的经验来买些药物服用就行了，但是往往因为这样贻误了病情，带来不可挽回的后果。

针对这种情况，利用技术手段为患者提供辅助能力，使其能够自主的根据病症情况，快速定位疑似疾病、准确选择就诊挂号的医院与科室，将会节约患者就诊时间、为患者答疑解惑增进对医护工作的理解，对人们产生巨大的帮助。甚至病情症状轻微的，可以根据工具的提示进行自我简单的处置，病征比较严重或者有某种严重疾病特征的时候，再去医院治疗。

但是疾病种类繁多，对症施治是根本，疾病特征更是错综复杂，怎么总结并整理疾病的特征，成为了难题，本工具的设计思路就在这种迫切需求的情形下，应运而生的。

公开号为CN104915561A的发明专利公开了一种疾病特征智能匹配方法，该方法利用患者的体征和检验检查数据来构建疾病特征的智能匹配模型。该方法是当提供一个病人病情信息时，根据模型匹配度，给出最可能的疾病来，对于相同症状、体征、检查结果给出相同的疾病诊断来，没有考虑不同病人个体的差异性，诊断可能会有漏洞。

公开号为CN104463754A的发明专利公开了一种基于疾病特征的医学信息本体数据库的建立方法，建立医学信息本体(Medical Ontology)数据库，即MO数据库；将疾病及其特征用Mo terms进行编号，每个MO terms代表一个顶点，两个terms之间的关系用有向边表示，这样将疾病和病症表示在一个有向无环图中；对有向边赋予权重，是计算的结果，没有权威资料的指导。

发明内容

为了解决上述的技术问题，本发明提出一种基于CRF++分词构建医疗特征库的方法和系统，使用现在比较权威的临床诊断指南作为信息的最初来源，去除没有医学含义的无用词语，最终生成可以训练软件的数据集，然后使用CRF来标注模板并训练，生成医学特征成果。

本发明的第一目的是提供一种基于CRF++分词构建医疗特征库的方法，包括选取电子文本作为初始来源，包括以下步骤：

步骤1：从所述初始来源中提取特征信息；

步骤2：对所述特征信息进行分词和语义分析；

步骤3：在所述CRF++分词的模板中标注所述分词；

步骤4：使用所述模板对所述初始来源进行表述和特征提取，生成疾病特征库；

步骤5：重复上述步骤3和步骤4，迭代使用新提取的特征信息进行再次标注，直到没有需要标注的特征。

优选的是，所述特征信息包括疾病特征语句和特征的描述信息中至少一种。

在上述任一方案中优选的是，所述步骤2包括以下子步骤：

步骤21：对所述特征信息进行多语义分析，得到至少一个单语义子句；

步骤22：对所述单语义子句进行特征短语提取；

步骤23：对所述特征短语进行同义词转换；

步骤24：对所述特征短语进行口语转换。

在上述任一方案中优选的是，所述多语义分析方法是指采用语义依存关系对所述特征信息记进行分析。

在上述任一方案中优选的是，所述语义依存关系包括ATT定中关系、HED核心关系、WP标点符号、SBV主谓关系、ADV状中结构、COB动宾关系、RAD右附加关系和COO并列关系中至少一种。

在上述任一方案中优选的是，所述步骤22包括删除无用修饰词。

在上述任一方案中优选的是，所述无用修饰词是指程度描述的副词和/或量词。

在上述任一方案中优选的是，所述无用修饰词的判断依据包括以下两个：

a)是否为基础词库中维护的一部分常用的可以去掉的修饰词；

b)通过语法分析梳理出句子的主干，筛选出依赖性的形容词和/或副词。

在上述任一方案中优选的是，所述同义词是指在所述基础词库中定义的语义相同或相近的词，包括部位、症状特征、疾病和药品中至少一种。

在上述任一方案中优选的是，所述步骤3包括使用BMES标注模板对模型进行标注。

在上述任一方案中优选的是，所述BMES是指使用B表示词首，使用M表示词中，使用E表示词尾，使用S表示单子词。

在上述任一方案中优选的是，所述步骤3还包括调用所述CRF++命令训练并生成模板。

在上述任一方案中优选的是，所述步骤5包括增加新的特征项并重新进行标注。

本发明的第二目的是提供基于CRF++分词构建医疗特征库的系统，包括用于选取电子文本作为初始来源的选取模块，包括以下模块：

信息提取模块：用于从所述初始来源中提取特征信息；

特征分析模块：用于对所述特征信息进行分词和语义分析；

数据处理模块：用于在所述CRF++分词的模板中标注所述分词；

特征提取模块：用于使用所述模板对所述初始来源进行表述和特征提取，生成疾病特征库；

校对模块：用于迭代使用新提取的特征信息进行再次标注，直到没有需要标注的特征。

在上述任一方案中优选的是，所述特征分析模块包括以下子模块：多语义分析子模块：对所述特征信息进行多语义分析，得到至少一个单语义子句；

特征短语提取子模块：对所述单语义子句进行特征短语提取；

同义词转换子模块：对所述特征短语进行同义词转换；

口语转换子模块：对所述特征短语进行口语转换。

在上述任一方案中优选的是，所述特征短语提取子模块具有删除无用修饰词的功能。

在上述任一方案中优选的是，所述数据处理模块具有使用BMES标注模板对模型进行标注的功能。

在上述任一方案中优选的是，所述数据处理模块还具有调用所述CRF++命令训练并生成模板的功能。

在上述任一方案中优选的是，所述校对模块具有增加新的特征项并重新进行标注的功能。

本发明提出基于CRF++分词构建医疗特征库的方法和系统，具有不断的自我完善、自我调节的功能，不断修改疾病诊断的误差，最后达到一种比较令人满意的效果。

附图说明

图1为按照本发明的基于CRF++分词构建医疗特征库的方法的一优选实施例的流程图。

图1A为按照本发明的基于CRF++分词构建医疗特征库的方法的如图1所示实施例的多语义关系图。

图2为按照本发明的基于CRF++分词构建医疗特征库的系统的一优选实施例的模块图。

图3为按照本发明的基于CRF++分词构建医疗特征库的方法的另一优选实施例的依存关系图。

图4为按照本发明的基于CRF++分词构建医疗特征库的方法的再一优选实施例的依存关系图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图2所示，本系统包括选取模块200、信息提取模块210、特征分析模块220、数据处理模块230、特征提取模块240和校对模块250，其中特征分析模块220包括多语义分析子模块221、特征短语提取子模块222、同义词转换子模块223和口语转换子模块224。

如图1所示，执行步骤100，选取模块200选取电子文本作为初始来源，电子文本包括各个医学疾病的临床诊断指南。执行步骤110，信息提取模块210从初始来源中提取特征信息。执行步骤120，特征分析模块220对特征信息进行分词和语义分析。在步骤120中包括以下子步骤：执行步骤121，多语义分析子模块221采用语义依存关系对特征信息进行多语义分析，把一个多语义的句子分解成至少一个单语义子句。例如：选取疾病特征语句“第四、五胸椎疼痛”，对该语句进行多语义分析，如图1A所示，通过分析，将该多语义语句分解为“第四胸椎疼痛”和“第五胸椎疼痛”。其中，ATT表示定中关系，WP表示标点符号，COO表示并列关系，SBV表示主谓关系，HED表示核心关系。执行步骤122，特征短语提取子模块222对单语义子句进行特征短语提取，例如，“肝相对较大”经过语义分析，去掉无用的修饰词，提取核心短语，变为“肝大”。无用的修饰词是指程度描述的副词和/或量词，无用修饰词的判断依据包括以下两个：是否为基础词库中维护的一部分常用的可以去掉的修饰词；通过语法分析梳理出句子的主干，筛选出依赖性的形容词和/或副词。执行步骤123，同义词转换子模块223对所述特征短语进行同义词转换，同义词是指在所述基础词库中定义的语义相同或相近的词，包括部位、症状特征、疾病和药品，比如“肢体无力”、“肢体虚弱”都转换为“肢体乏力”。执行步骤224，对所述特征短语进行口语转换。执行步骤130，在所述CRF++分词的模板中标注所述分词，使用BMES标注模板对模型进行标注。BMES是指使用B表示词首，使用M表示词中，使用E表示词尾，使用S表示单子词。执行步骤140，使用所述模板对所述初始来源进行表述和特征提取，生成疾病特征库,。执行步骤150，判断是否有未标注的分词。如果有未标注的分词，则重新执行步骤130，进行分词标注。如果没有未标注的分词，则执行步骤160，结束标注。

实施例二

本发明设计了一种提取疾病特征的工具软件，软件具有不断的自我完善、自我调节的功能，不断修改疾病诊断的误差，最后达到一种比较令人满意的效果。

疾病特征提取首先要解决的就是信息的来源，在这里我们使用现在比较权威的临床诊断指南作为信息的最初来源，当然这里面的数据是比较粗糙的不够精细，也是比较繁琐的。需要将信息简单化、清晰化，去除没有医学含义的无用词语，最终生成可以训练软件的数据集，然后使用CRF来标注模板并训练，生成医学特征成果。

CRF(Conditional Random Field)：条件随机场，一种机器学习技术(模型)。CRF由John Lafferty最早用于NLP技术领域，其在NLP技术领域中主要用于文本标注，并有多种应用场景，例如：

●分词(标注字的词位信息，由字构词)

●词性标注(标注分词的词性，例如：名词、动词、助词等)

●命名实体识别(识别人名、地名、机构名、商品名等具有一定内在规律的实体名词)

CRF代表了新一代的机器学习技术，其基本思路是对汉字进行标注即由字构词(组词)，不仅考虑了文字词语出现的频率信息，同时考虑上下文语境，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。

CRF分词原理

1.CRF把分词当做字的词位分类问题，通常定义字的词位信息如下：

词首，常用B表示

词中，常用M表示

词尾，常用E表示

单子词，常用S表示

2.CRF分词的过程就是对词位标注后，将B和E之间的字，以及S单字构成分词。

实施例三

多语义分析

关于多语义分析是指一个短语包含多个意思，比如说：“眼睑外翻、畸形”，这句话算是一个特征，但是包含两个语义：眼睑外翻和眼睑畸形。判断的依据就是分析语句的依存关系，短语中的“外翻”和“畸形”是并列关系，只要存在这种关系，肯定是存在多个语义的。本实施例使用了百度自然语言AI平台里面的语句依存关系软件包，来辅助进行自然语言的分析。但是有时也因为两个无意义的修饰词被误认为是多语义。例如：“有时头部出现连续的、不间断的疼痛”，这个时候，语句依存分析中认为：“连续的”和“不间断”是个并列关系，此时句子应该可以被分成“有时头出现不间断疼痛”和“有时头出现连续的疼痛”，这种情况下多语义的产生是因为不相关的修饰词产生的，利用下一个步骤，去掉无意义的修饰词，上面两个子句去掉无意义的修饰词以后，又都变成了“头疼痛”，这样就避免了因为过多修饰词而导致程序误认为多症状的问题。

同义词转换

口语转换

口语转换模块(FSM，有限状态机)，是在目标的输入中查找是否有目标短语(口语)，如有的话则替换成标准的用语。

如果出现口语的描述，大多数情况来说这个特征已经失去了意义，如果忽略的话，肯定是丢失信息了，此时需要经过口语转换模块，如：“脑袋有点晕”，转换后为“头晕”，“胸口憋闷”，转换后为：“胸闷”。

实施例四

在本实施例中，使用百度的自然语言处理工具包，辅助我们分析短语中依存关系。

例如：眼睑畸形、外翻

依存关系如图3所示，眼睑、外翻、畸形为名词，眼睑和外翻的关系是ATT定中关系，外翻和畸形是COO并列关系。

例如：有时头部出现连续的、不间断头疼

依存关系如图4所示。其中，ADV为状中结构，SBV为主谓关系，HED为核心关系，VOB为动宾关系，RAD为右附加关系，WP为标点符号，COO为并列关系，CMP为动补结构。

实施例五

无用的修饰词就是指程度描述的副词或者量词，例如：非常，很，特别，有点，不多，少量，去掉这些词以后，句子描述的症状特征依然完整。而这些无用修饰词的判断依据主要有两个：

1、基础词库维护了一部分常用的可以去掉的修饰词，例如：少量，不多，有点，很，特别等。

2、语法分析：通过语法分析可以梳理出句子的主干，对于那些依赖性的形容词，副词视情况删除，保留句子完整性，例如：“有时头部出现连续性疼痛”，句子分析：“头部”是部位名词，“疼痛”是症状名词，在基础词库中都存在，不应该去掉，“有时”是形容“出现”的，是个状语，“连续性”修饰的是“疼痛”，句子主干就是：头部出现疼痛，而其他的修饰词，“有时”，“连续性”都可以去掉了。

实施例六

BMES标注方法是指将一句话中的内容使用BMES来进行划分，其中，词首，常用B表示；词中，常用M表示；词尾，常用E表示；单子词，常用S表示。

例如，对“全身肌肉关节疼痛2天。血尿4天，行走无力1天，发现缺血缺氧性脑病3月余。”进行标注，如表1所示。

主诉	词性	CRF++标注
			全身	Bw	B
肌肉	Jbmc	M
			关节疼痛	zztz	M
2	m	E
			天	n	E
。	x	E
			血尿	zztz	B
4	m	E
			天	n	E
，	x	E
			行走	v	B
无力	zztz	M
			1	m	E
天	n	E
			，	x	E
发现	v	B
			缺血	zztz	M
缺氧性	xsc	M
			脑病	jbmc	M
3	m	E
			月余	n	E
。	x	E

表1

在表1中，第一列为主诉词，第二列为词性，第三列为CRF++标注。其中，bw表示部位，jbmc表示疾病名称，zztz表示疾病症状，m表示数量词，n表示名称。

实施例七

在训练中包括四个需要调整的主要参数：-a CRF-L2or CRF-L1、-c float、-f NUM和-p NUM。

训练模板：调用CRF++的命令

crf_learn-f 3-c 1.5template_file train_file model_fi le有四个主要的参数可以调整：

■-a CRF-L2or CRF-L1

规范化算法选择。默认是CRF-L2。L2算法效果要比L1算法好一点，然L1算法中非零特征的数值要比L2中大幅度的小。

■-c float

这个参数设置CRF的hyper-parameter。c的数值越大，CRF拟合训练数据的程度越高。这个参数可以调整过度拟合和不拟合之间的平衡度。这个参数可以通过交叉验证等方法寻找较优的参数。

■-f NUM

这个参数设置特征的cut-off threshold。CRF++使用训练数据中至少NUM次出现的特征。默认值为1。当使用CRF++到大规模数据时，只出现一次的特征可能会有几百万，这个选项就会在这样的情况下起到作用。

■-p NUM

对于多核心CPU，可以通过多线程提升训练速度，NUM是线程数量。

执行完上述命令后，会生成一个模板文件。

使用上述标注的模板，对中华医学会《临床诊疗指南》丛书进行标注、特征提取，形成包括疾病一般情况、临床表现、病史、治疗方法、检查检验结果、药品使用等方面的疾病特征库。

上述处理过程程序化，迭代使用新提取的特征信息再次标注，完善更新特征库成果。

实施例八

本申请实施后的最终效果如表2所示。

表2

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种基于CRF++分词构建医疗特征库的方法，包括选取电子文本作为初始来源，其特征在于，包括以下步骤：

步骤1：从所述初始来源中提取特征信息；

步骤2：对所述特征信息进行分词和语义分析；

步骤3：在所述CRF++分词的模板中标注所述分词；

2.如权利要求1所述的基于CRF++分词构建医疗特征库的方法，其特征在于：所述特征信息包括疾病特征语句和特征的描述信息中至少一种。

3.如权利要求2所述的基于CRF++分词构建医疗特征库的方法，其特征在于：所述步骤2包括以下子步骤：

步骤22：对所述单语义子句进行特征短语提取；

步骤23：对所述特征短语进行同义词转换；

步骤24：对所述特征短语进行口语转换。

4.如权利要求3所述的基于CRF++分词构建医疗特征库的方法，其特征在于：所述多语义分析方法是指采用语义依存关系对所述特征信息记进行分析。

5.如权利要求4所述的基于CRF++分词构建医疗特征库的方法，其特征在于：所述语义依存关系包括ATT定中关系、HED核心关系、WP标点符号、SBV主谓关系、ADV状中结构、COB动宾关系、RAD右附加关系和COO并列关系中至少一种。

6.如权利要求3所述的基于CRF++分词构建医疗特征库的方法，其特征在于：所述步骤22包括删除无用修饰词。

7.如权利要求6所述的基于CRF++分词构建医疗特征库的方法，其特征在于：所述无用修饰词是指程度描述的副词和/或量词。

8.如权利要求7所述的基于CRF++分词构建医疗特征库的方法，其特征在于：所述无用修饰词的判断依据包括以下两个：

9.一种基于CRF++分词构建医疗特征库的系统，包括用于选取电子文本作为初始来源的选取模块，其特征在于，包括以下模块：

信息提取模块：用于从所述初始来源中提取特征信息；

特征分析模块：用于对所述特征信息进行分词和语义分析；

10.如权利要求9所述的数据库表结构分析系统，其特征在于：所述特征分析模块包括以下子模块：

多语义分析子模块：对所述特征信息进行多语义分析，得到至少一个单语义子句；

同义词转换子模块：对所述特征短语进行同义词转换；

口语转换子模块：对所述特征短语进行口语转换。