CN105912856A - 一种中医症状结构化方法 - Google Patents

一种中医症状结构化方法 Download PDF

Info

Publication number
CN105912856A
CN105912856A CN201610221579.3A CN201610221579A CN105912856A CN 105912856 A CN105912856 A CN 105912856A CN 201610221579 A CN201610221579 A CN 201610221579A CN 105912856 A CN105912856 A CN 105912856A
Authority
CN
China
Prior art keywords
symptom
word
synonym
classical
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610221579.3A
Other languages
English (en)
Other versions
CN105912856B (zh
Inventor
谢永红
徐洋
张德政
刘宏岚
罗熊
栗辉
石川
曹天伟
万义飞
孙冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201610221579.3A priority Critical patent/CN105912856B/zh
Publication of CN105912856A publication Critical patent/CN105912856A/zh
Application granted granted Critical
Publication of CN105912856B publication Critical patent/CN105912856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • G06F19/324

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种中医症状结构化方法,能够降低人工的工作量及工作时间。所述方法包括:构建修饰词表、停用词表、舌诊和脉诊的症状要素表、人体部位表、标准症状词表及标准症状词的同义词表;若获取的中医症状数据为舌诊和脉诊的症状数据,则依据已构建的修饰词表、停用词表及症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到舌诊和脉诊症状数据的结构化结果;若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到普通部位的症状数据的结构化结果。本发明适用于中医症状技术领域。

Description

一种中医症状结构化方法
技术领域
本发明涉及中医症状技术领域,特别是指一种中医症状结构化方法。
背景技术
目前,中医已经被许多国家所认可,并得到传承,但并未被世界广泛的认同,出现这一现象的主要原因就在于文化的隔阂。中医已有的诊断标准大都是用中医的表述模式加以解读,而且只有少数学者对中医复杂的术语与典籍进行定量的信息化研究,也未达成统一的共识,例如,在现有的中医医案中,不同的医生对同一症状的描述常采用不同的描述词,而且会有一些口语化的表达,不利于中医临床经验的传承和学术思想的传播,这就限制了中医走向国际的步伐。因此,对中医数据进行结构化处理,使其达到规范化、标准化和科学化,才能从真正意义上,使中医文化走向世界。
中医的症状是诊病、辨证的主要依据,对中医症状的结构化就是把中医症状数据用统一的方式表示并存储,为中医辨证的挖掘做铺垫。症状之间存在着多种复杂的逻辑关系,一个症状名称可派生出许多具有逻辑相关的症状名称,如由头痛可派生出全头痛、偏头痛、后头痛,偏头痛又可派生出偏头胀痛、偏头刺痛、偏头阵发痛。中医症状应该选定正名,将实际含义相同的症状,选定最恰当者作为正名(标准症状词),其余作为别名(同义词),如选泄泻为正名,则腹泻、便溏等为别名。
现有技术中,已有研究对中医临床症状进行结构化处理,但是多数是依靠人工对中医症状进行结构化处理,耗时费力。
发明内容
本发明要解决的技术问题是提供一种中医症状结构化方法,以解决现有技术所存在的依靠人工对中医症状进行结构化处理,耗时费力的问题。
为解决上述技术问题,本发明实施例提供一种中医症状结构化方法,包括:
构建修饰词表、停用词表、舌诊和脉诊的症状要素表、人体部位表、标准症状词表及标准症状词的同义词表;
获取中医症状数据;
若获取的中医症状数据为舌诊和脉诊的症状数据,则依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果;
若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果;
其中,所述舌诊和脉诊症状数据的结构化结果包括:症状要素编码及修饰词编码;
所述普通部位的症状数据的结构化结果包括:标准症状词编码及修饰词编码。
进一步地,所述修饰词表包括:修饰词及各修饰词对应的修饰词编码;所述舌诊和脉诊的症状要素表包括:症状要素及各症状要素对应的症状要素编码;
所述若获取的中医症状数据为舌诊和脉诊的症状数据,则依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果,包括:
若获取的中医症状数据为舌诊和脉诊的症状数据,则删除所述舌诊和脉诊的症状数据中包含在所述停用词表中的停用词;
查询已删除所述停用词后的舌诊和脉诊的症状数据中是否包含有所述修饰词表中的修饰词;
若包含有所述修饰词表中的修饰词,则获取所述修饰词对应的修饰词编码,并去除已删除所述停用词后的舌诊和脉诊的症状数据中的修饰词;
依据已构建的舌诊和脉诊的症状要素表提取已去除所述停用词及修饰词后的舌诊和脉诊的症状数据中的症状要素或复合的症状要素,并获取所述症状要素对应的症状要素编码或复合的症状要素对应的症状要素编码组合。
进一步地,所述删除所述舌诊和脉诊的症状数据中包含在所述停用词表中的停用词,包括:
查询获取的所述舌诊和脉诊的症状数据中是否包含有所述停用词表中的停用词;
若包含有所述停用词表中的停用词,则删除所述舌诊和脉诊的症状数据中包含在所述停用词表中的停用词。
进一步地,所述依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果之前,包括:
构建标准症状词表及标准症状词的同义词表,其中,在所述标准症状词的同义词表中,一个标准症状词的所有同义词的编码与所述标准症状词的编码相同,所述标准症状词的同义词可以是所述标准症状词本身;
所述方法还包括:将所述标准症状词表中的标准症状词作为列,所述标准症状词的同义词表中的同义词作为行,构造0-1矩阵;其中,所述0-1矩阵中值“1”表示值“1”所在行对应的同义词与其所在列对应的标准症状词有同义关系,值“0”则表示值“0”所在行对应的同义词与其所在列对应的标准症状词不存在同义关系。
进一步地,所述依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果之前,包括:
依据中医知识构建人体部位表,并利用层次编码对所述人体部位表中的人体部位进行编码;
其中,所述人体部位表包括:人体部位及人体各部位对应的编码。
进一步地,所述若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果,包括:
按照预定的拆分方法对所述普通部位的症状数据进行拆分,得到至少一个症状词;
依次判断各症状词是否与所述标准症状词的同义词表中的某一同义词完全匹配;
若一症状词与所述标准症状词的同义词表中的某一同义词完全匹配,则用所述同义词对应的标准症状词的编码表示所述症状词。
进一步地,所述若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果,还包括:
若一症状词与所述标准症状词的同义词表中的任一同义词不完全匹配,则删除所述症状词中包含在所述停用词表中的停用词,并依据已构建的所述修饰词表提取已删除所述停用词后的症状词中的修饰词,并获取所述修饰词对应的修饰词编码;
判断已删除所述停用词及已提取所述修饰词后剩下的所述症状词是否与所述标准症状词的同义词表中的某一同义词完全匹配;
若所述症状词与所述标准症状词的同义词表中的某一同义词完全匹配,则用所述同义词对应的标准症状词的编码表示所述症状词。
进一步地,所述若所述症状词与所述标准症状词的同义词表中的某一同义词完全匹配,则用所述同义词对应的标准症状词的编码表示所述症状词之后,还包括:
若所述症状词与所述标准症状词的同义词表中的任一同义词不完全匹配,则结合症状词相似度算法,获取所述症状词与所述标准症状词的同义词表中的每一同义词的相似度值;
判定是否存在所述相似度值超过第一预定阈值的同义词;
若存在所述相似度值超过第一预定阈值的同义词,则按照相似度值由高到低获取预定个数的所述相似度值对应的同义词,并从获取的预定个数的所述相似度值对应的同义词中,依据构建的人体部位表获取与所述症状词的部位相同或与所述症状词的部位有从属关系的同义词;
判断获取的与所述症状词的部位相同或与所述症状词的部位有从属关系的同义词对应的标准症状词的编码是否一致;
若一致,则用所述同义词对应的标准症状词的编码表示所述症状词;
若不一致,则用所述同义词对应的标准症状词的编码的组合表示所述症状词。
进一步地,所述方法还包括:
若不存在相似度值超过第一预定阈值的同义词,则判断该症状词出现的次数是否超过第二预定阈值;
若超过第二预定阈值,则将所述症状词添加到标准症状词表及标准症状词的同义词表中;
若不超过第二预定阈值,则记录所述症状词出现的次数。
进一步地,所述结合症状词相似度算法,获取所述症状词与所述标准症状词的同义词表中的每一同义词的相似度值包括:
获取所述标准症状词的同义词表中的一同义词;
计算所述症状词和所述同义词中相同字的个数在所述症状词和所述同义词中的比重;
计算所述相同字在所述症状词和所述同义词中的位置;
根据所述症状词和所述同义词中相同字的个数在所述症状词和所述同义词中的比重及所述相同字在所述症状词和所述同义词中的位置,得到所述症状词和同义词的相似度值。
本发明的上述技术方案的有益效果如下:
上述方案中,通过构建的修饰词表、停用词表、舌诊和脉诊的症状要素表、人体部位表、标准症状词表及标准症状词的同义词表对获取的中医症状数据从不同角度进行分类处理;对获取的舌诊和脉诊的症状数据,则依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果;对获取的普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果,从而 形成一套对中医症状自动结构化的方法,能够大大降低人工的工作量及工作时间。
附图说明
图1为本发明实施例提供的中医症状结构化方法的流程示意图;
图2为本发明实施例提供的舌诊和脉诊的症状数据的结构化流程示意图;
图3为本发明实施例提供的普通部位的症状数据的结构化流程示意图;
图4为本发明实施例提供的症状词相似度算法的流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的依靠人工对中医症状进行结构化处理,耗时费力的问题,提供一种中医症状结构化方法。
实施例一
如图1所示,本发明实施例提供的一种中医症状结构化方法,包括:
步骤101:构建修饰词表、停用词表、舌诊和脉诊的症状要素表、人体部位表、标准症状词表及标准症状词的同义词表;
步骤102:获取中医症状数据;
步骤103:若获取的中医症状数据为舌诊和脉诊的症状数据,则依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果;
步骤104:若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果;
其中,所述舌诊和脉诊症状数据的结构化结果包括:症状要素编码及修饰词编码;
所述普通部位的症状数据的结构化结果包括:标准症状词编码及修饰词编 码。
本发明实施例所述的中医症状结构化方法,通过构建的修饰词表、停用词表、舌诊和脉诊的症状要素表、人体部位表、标准症状词表及标准症状词的同义词表对获取的中医症状数据从不同角度进行分类处理;对获取的舌诊和脉诊的症状数据,则依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果;对获取的普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果,从而形成一套对中医症状自动结构化的方法,能够大大降低人工的工作量及工作时间。
本发明实施例,可以参考中医方面权威书籍(例如,中医诊断学)并结合中医医案,构建修饰词表、停用词表、舌诊和脉诊的症状要素表,其中,所述修饰词表包括:程度词表、时间词表、频次词表和其他成分词表;其中,程度词表如表1所示、时间词表如表2所示、频次词表如表3所示和其他成分词表如表4所示,在表1-表4中,第一列为修饰词编码,第二列为修饰词;停用词表如表5所示,在表5中,第一列为停用词编码,第二列为停用词;舌诊和脉诊的症状要素表如表6所示,表6中,yaosu表示症状要素,symptomNum表示症状要素对应的编码。
表1程度词表
cd_id chengdu
cd13 轻度
cd14 严重
cd15 重度
cd18 加重
cd19 减少
cd1
cd2
cd3
cd4
cd5
cd9
cd10
cd6
cd20
表2时间词表
sj_id shijian
sj10 凌晨
sj11 五更
sj12 夜间
sj13 昼夜
sj14 晚上
sj15 晨起
sj39 中午
sj41 清晨
sj42 半夜
sj34
sj35
sj36
表3频次词表
pc_id pinci
pc127 间歇性
pc128 间歇
pc130 阵发
pc125 间断
pc112 反复
pc121 经常
pc131 偶尔
pc133 不时
pc122
pc123
pc2
表4其他成分词表
wz_id weizhi
wz86
wz45
wz56
wz57
wz49
wz94
wz46
wz50
wz101
wz61
wz65
wz48
表5停用词表
停用词id 停用词
sc1 相间
sc2 相兼
sc3 相夹
sc4 布有
sc5 按之
sc6 取之
sc7
sc8
sc9
sc10
sc11
sc12
sc13
sc14
sc15
表6舌诊和脉诊的症状要素表
symptomNum yaosu
sy199
sy198
sy196
sy445
sy452
sy453
sy454
sy455
sy194
sy321
sy298
sy298
sy298
sy305
sy304
sy299
sy299
sy299
sy439
sy313
sy317
sy325
sy318
在前述中医症状结构化方法的具体实施方式中,进一步地,所述修饰词表包括:修饰词及各修饰词对应的修饰词编码;所述舌诊和脉诊的症状要素表包括:症状要素及各症状要素对应的症状要素编码;
如图2所示,所述若获取的中医症状数据为舌诊和脉诊的症状数据,则依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果,包括:
步骤1021:若获取的中医症状数据为舌诊和脉诊的症状数据,则删除所述舌诊和脉诊的症状数据中包含在所述停用词表中的停用词;
步骤1022:查询已删除所述停用词后的舌诊和脉诊的症状数据中是否包含有所述修饰词表中的修饰词;
步骤1023:若包含有所述修饰词表中的修饰词,则获取所述修饰词对应的修饰词编码,并去除已删除所述停用词后的舌诊和脉诊的症状数据中的修饰词;
步骤1024:依据已构建的舌诊和脉诊的症状要素表提取已去除所述停用词及修饰词后的舌诊和脉诊的症状数据中的症状要素或复合的症状要素,并获取所述症状要素对应的症状要素编码或复合的症状要素对应的症状要素编码组合。
本发明实施例中,如表7所示为获取到的舌诊和脉诊的症状数据,并依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果。
表7舌诊和脉诊的症状数据
医案id 舌质 舌苔 脉象
24860 弦数
26732 稍红,边有齿印 稍黄厚 弦滑
14072 双脉颇沉,尺脉尤甚
26967 略胖边有齿痕 沉弦
28515 全舌红 苔白;苔质腻 双脉滑
本发明实施例中,所述依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对表7中所示的舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果具体包括:首先,查询表7中所示的舌诊和脉诊的症状数据中是否包含有表5所示的停用词表中的停用词,若包含有表5 所示的停用词表中的停用词,则删除表7中舌诊和脉诊的症状数据中包含在所述停用词表中的停用词;其次,查询已删除所述停用词后的剩余的舌诊和脉诊的症状数据中是否包含有表1-表4所示的修饰表(程度词表、时间词表、频次词表和其他成分词表)中的修饰词,若包含有所述修饰词表中的修饰词,则获取所述修饰词对应的修饰词编码,并去除已删除所述停用词后的舌诊和脉诊的症状数据中的修饰词;最后,依据已构建的舌诊和脉诊的症状要素表提取已去除所述停用词及修饰词后的舌诊和脉诊的症状数据中的症状要素或复合的症状要素,并获取所述症状要素对应的症状要素编码或复合的症状要素对应的症状要素编码组合,如表8和表9所示,表8-表9中以“sy”开头的编码是提取的症状要素的编码。
表8舌诊和脉诊症状数据结构化过程
医案id 部位 症状要素 修饰词
24860 舌质 红sy298
24860 舌苔 黄sy314
24860 脉象 弦sy459+数sy194
26732 舌质 红sy298+齿印sy308 边wz45;稍cd1
26732 舌苔 黄sy314+厚sy318 稍cd1
26732 脉象 弦sy459+滑sy457
14072 舌质 红sy298
14072 舌苔 白sy313
14072 脉象 沉sy199 双wz62+尺wz56;颇cd10+甚cd6
26967 舌质 胖sy302+齿痕sy308
26967 舌苔 少sy323
表9舌诊和脉诊症状数据结构化结果
医案id 症状要素 修饰词
24860 sy298
24860 sy314
24860 sy459+sy194
26732 sy298+sy308 wz45;cd1
26732 sy314+sy318 cd1
26732 sy459+sy457
14072 sy298
14072 sy313
14072 sy199 wz62+wz56;cd10+cd6
26967 sy302+sy308
26967 sy323
本发明实施例中,对于中医医案中的舌诊和脉诊之外的其他部位的异常症 状称为普通部位症状,对于普通部位症状采用另一种结构化方法,首先,可以参考中医症状领域权威工具书(例如,《中医症状学研究》)中采用的标准症状词作为正名,其派生词作为别名(同义词),建立标准症状词表(见表10)及标准症状词的同义词表(见表11),在所述标准症状词的同义词表中,一个标准症状词的所有同义词的编码与所述标准症状词的编码相同,特别地,所述标准症状词的同义词可以是所述标准症状词本身,表10-表11中,stdSymptom表示标准症状词,symptomNum表示标准症状词的编码,synonym表示标准症状词的同义词。
表10标准症状词表
symptomNum stdSymptom
sy1290 足心热
sy1291 手痒
sy1292 足痒
sy1293 手心汗
sy33 嗳气
sy363 鼻干
表11标准症状词的同义词表
symptomNum stdSymptom synonym
sy1290 足心热 足心热
sy1290 足心热 脚心热
sy1290 足心热 脚心烫
sy1291 手痒 手痒
sy1292 足痒 足痒
sy1292 足痒 脚痒
sy1293 手心汗 手心汗
sy33 嗳气 嗳呃
sy33 嗳气 嗳泛
sy33 嗳气 嗳逆
sy33 嗳气 嗳气
sy363 鼻干 鼻燥
sy363 鼻干 鼻干
本发明实施例中,在利用症状词相似度算法对所述普通部位的症状数据进行处理时,需将所述标准症状词表中的标准症状词作为列,所述标准症状词的同义词表中的同义词作为行,构造0-1矩阵(见表12);其中,所述0-1矩阵中值“1”表示值“1”所在行对应的同义词与其所在列对应的标准症状词有同义关系,值“0”则表示值“0”所在行对应的同义词与其所在列对应的标准症 状词不存在同义关系。
表12 0-1矩阵
在前述中医症状结构化方法的具体实施方式中,进一步地,所述依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果之前,包括:
依据中医知识构建人体部位表,并利用层次编码对所述人体部位表中的人体部位进行编码;
其中,所述人体部位表包括:人体部位及人体各部位对应的编码。
本发明实施例中,可以根据中医知识构造了人体部位表(见表13),并采用层次编码来体现人体部位之间的从属关系,例如,上肢属于四肢的一部分,同时上肢包括肩、臂,而肩包括肩胛、锁骨,臂包括上臂、肘、前臂、手等,同一层的编码长度相同。
表13人体部位表
bw_id buwei
bw0107 四肢
bw0107 肢体
bw0107
bw010701 上肢
bw0107011
bw01070111 肩胛
本发明实施例中,还可以对构建的修饰词表、停用词表、舌诊和脉诊的症状要素表、人体部位表、标准症状词表及标准症状词的同义词表进行修订和补充,对已经构建的表进一步进行完善。
如图3所示,在前述中医症状结构化方法的具体实施方式中,进一步地,所述若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果,包括:
按照预定的拆分方法对所述普通部位的症状数据进行拆分,得到至少一个症状词;
依次判断各症状词是否与所述标准症状词的同义词表中的某一同义词完全匹配;
若一症状词与所述标准症状词的同义词表中的某一同义词完全匹配,则用所述同义词对应的标准症状词的编码表示所述症状词。
本发明实施例中,如表14所示为获取的普通部位的症状数据,按照预定的拆分方法对所述普通部位的症状数据进行拆分,得到至少一个普通部位症状词(简称:症状词);例如,以医案id为“14799”的普通部位的症状数据为例,根据标点符号“,”对表14中“刻下症”列拆分,得到拆分结果如表15所示。
表14普通部位的症状数据
医案id 刻下症
14799 右胁下胀满,胃脘胀痛,嗳气
25850 面色晄白,便溏,下午两足跗肿
18338 腰痛,经常手足心发热,尿频
33018 腰痛,乏力,双下肢微肿
19776 阵发性胸闷,气短,后背沉重疼痛
21152 失眠,头晕,耳鸣眼花
31671 面色萎黄,头昏头闷,腿软
接着,将表15中的“症状词”列的内容与标准症状词的同义词表进行完全匹配,结果表明只有部分症状词能够完全匹配,其完全匹配结果如表16所示。
表15刻下症列的拆分结果
医案id 症状词
14799 右胁下胀满
14799 胃脘胀痛
14799 嗳气
25850 面色晄白
25850 精神疲乏
25850 便溏
18338 腰痛
18338 经常手足心发热
18338 尿频
33018 腰痛
33018 乏力
33018 双下肢微肿
19776 阵发性胸闷
19776 气短
19776 后背沉重疼痛
19776 阵发性胸闷
19776 气短
19776 后背沉重疼痛
31671 面色萎黄
31671 头昏头闷
31671 腿软
14799 右胁下胀满
14799 胃脘胀痛
14799 嗳气
表16部分症状词的完全匹配结果
医案id synonym symptomNum
14799 嗳气 sy33
25850 面色晄白 sy968
18338 尿频 sy130
18338 腰痛 sy170
33018 头痛 sy146
33018 腰痛 sy170
33018 乏力 sy207
19776 气短 sy64
31671 腿软 sy1011
31671 面色萎黄 sy954
如图3所示,在前述中医症状结构化方法的具体实施方式中,进一步地,所述若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果,还包括:
若一症状词与所述标准症状词的同义词表中的任一同义词不完全匹配,则删除所述症状词中包含在所述停用词表中的停用词,并依据已构建的所述修饰词表提取已删除所述停用词后的症状词中的修饰词,并获取所述修饰词对应的修饰词编码;
判断已删除所述停用词及已提取所述修饰词后剩下的所述症状词是否与所述标准症状词的同义词表中的某一同义词完全匹配;
若所述症状词与所述标准症状词的同义词表中的某一同义词完全匹配,则用所述同义词对应的标准症状词的编码表示所述症状词。
本发明实施例中,对没有完全匹配的症状词进行拆分,具体的,依次去掉所述症状词中的停用词,并根据修饰词表(程度词表、时间词表、频次词表和其他成分词表)提取出其中的修饰词,提取的修饰词用相应的修饰词编码表示,拆分结果见表17所示,并判断剩余的症状词(rest列中的每个症状词)是否与所述标准症状词的同义词表中的某一同义词完全匹配,若是,则用所述同义词对应的标准症状词的编码表示所述症状词,rest列的完全匹配结果(例如,“胁胀满”的最终结果就是“sy142”),见表18;否则,则利用本发明实施例提供的症状词相似度算法对rest列中没有完全匹配的症状词进行处理。
表17未完全匹配的症状词的拆分结果
症状词 其他成分 频次 时间 程度 rest
右胁下胀满 右wz65+下wz43 胁胀满
下午两足跗肿 两wz61 下午sj49 足跗肿
经常手足心发热 经常pc121 手足心发热
双下肢微肿 双wz62 微cd4 下肢肿
阵发性胸闷 阵发性pc126 胸闷
耳鸣眼花 耳鸣眼花
表18 rest列的部分内容的完全匹配结果
rest synonym symptomNum
胁胀满 胁胀满 sy142
下肢肿 下肢肿 sy983
胸闷 胸闷 sy165
如图3所示,在前述中医症状结构化方法的具体实施方式中,进一步地,所述若所述症状词与所述标准症状词的同义词表中的某一同义词完全匹配,则用所述同义词对应的标准症状词的编码表示所述症状词之后,还包括:
若所述症状词与所述标准症状词的同义词表中的任一同义词不完全匹配, 则结合症状词相似度算法,获取所述症状词与所述标准症状词的同义词表中的每一同义词的相似度值;
判定是否存在所述相似度值超过第一预定阈值的同义词;
若存在所述相似度值超过第一预定阈值的同义词,则按照相似度值由高到低获取预定个数的所述相似度值对应的同义词,并从获取的预定个数的所述相似度值对应的同义词中,依据构建的人体部位表获取与所述症状词的部位相同或与所述症状词的部位有从属关系的同义词;
判断获取的与所述症状词的部位相同或与所述症状词的部位有从属关系的同义词对应的标准症状词的编码是否一致;
若一致,则用所述同义词对应的标准症状词的编码表示所述症状词;
若不一致,则用所述同义词对应的标准症状词的编码的组合表示所述症状词。
本发明实施例中,以表17中rest列中“手足心发热”这一症状词为例,获取“手足心发热”与所述标准症状词的同义词表中的每一同义词的相似度值,选取所述相似度值高于第一预定阈值的前三个(最多三个,即First,Second,Third)同义词(足心热、手心热、心热),见表19,并从获取的前三个同义词中,依据构建的人体部位表获取与所述症状词的部位相同或与所述症状词的部位有从属关系的同义词;判断获取的与所述症状词的部位相同或与所述症状词的部位有从属关系的同义词对应的标准症状词的编码是否一致;若一致,则用所述同义词对应的标准症状词的编码表示所述症状词;若不一致,则用所述同义词对应的标准症状词的编码的组合表示所述症状词(例如,“手足心发热”的最终匹配结果是“sy1290+sy1298”,因为表19中第二行第四列中的“心热”的部位是“心”,与待匹配词的部位是“手足心”没有从属关系),最终,得到的未完全匹配症状词的规范化结果见表20所示。
表19症状词相似度算法计算结果
rest First Second Third
足跗肿 跗肿sy1249 足肿sy1123 足背肿sy1249
手足心发热 足心热sy1290 手心热sy1289 心热sy166
耳鸣眼花 眼花sy955 耳鸣sy380
表20未完全匹配症状词的规范化结果
症状词 医案id 标准症状词 修饰词
右胁下胀满 14799 sy142 wz65+wz43
下午两足跗肿 25850 sy1249 wz61;sj49
经常手足心发热 18338 sy1290+sy1289 pc121
双下肢微肿 33018 sy983 wz62;cd4
阵发性胸闷 19776 sy165 pc126
耳鸣眼花 21152 sy955+sy380
如图3所示,在前述中医症状结构化方法的具体实施方式中,进一步地,所述方法还包括:
若不存在相似度值超过第一预定阈值的同义词,即没有找到同义词,则判断该症状词出现的次数是否超过第二预定阈值;
若超过第二预定阈值,则将所述症状词添加到标准症状词表及标准症状词的同义词表中;
若不超过第二预定阈值,则记录所述症状词出现的次数。
如图4所示,在前述中医症状结构化方法的具体实施方式中,进一步地,所述结合症状词相似度算法,获取所述症状词与所述标准症状词的同义词表中的每一同义词的相似度值包括:
A11:获取所述标准症状词的同义词表中的一同义词;
A12:计算所述症状词和所述同义词中相同字的个数在所述症状词和所述同义词中的比重;
A13:计算所述相同字在所述症状词和所述同义词中的位置;
A14:根据所述症状词和所述同义词中相同字的个数在所述症状词和所述同义词中的比重及所述相同字在所述症状词和所述同义词中的位置,得到所述症状词和同义词的相似度值。
本发明实施例中,可以通过式(1)得到症状词wl和同义词wr的相似度值:
sim(wl,wr)=α×simα(wl,wr)+β×simβ(wl,wr) (1)
sim α ( w l , w r ) = 1 2 × ( | S | | w l | + | S | | w r | ) - - - ( 2 )
sim β ( w l , w r ) = 1 2 × ( Σ i = 1 | S | w l ( β i ) Σ m = 1 l e n ( w l ) w l ( e m ) + Σ j = 1 | S | w r ( β j ) Σ n = 1 l e n ( w r ) w r ( e n ) ) - - - ( 3 )
式中,w1i)表示症状词w1中与同义词wr的第i个相同字βi的位置,w1(em) 表示症状词w1中的第m个字em的位置,len(w1)表示症状词w1中汉字的总数;同理,wrj)表示同义词wr中与症状词w1的第j个相同字βj的位置,wr(en)表示同义词w1中的第n个字en的位置,len(wr)表示同义词wr中汉字的总数;simα(w1,wr)表示所述症状词和所述同义词中相同字的个数在所述症状词和所述同义词中的比重;simβ(w1,wr)表示依据相同字在所述症状词和所述同义词中的位置,统计相同字在所述症状词和所述同义词中的权重;α和β表示参数;S表示症状词w1和同义词wr中相同汉字的集合,|S|表示该集合中元素的个数;|w1|、|wr|分别表示症状词w1、同义词wr中汉字的总数。
本发明实施例中,参数α和β可以利用逻辑回归算法在中医症状数据中学习得到,逻辑回归算法的数据集取自构造的0-1矩阵中随机选取的数据,例如,当随机随选的数据为8000行时,可以得到参数α和β值分别是93.8和12.3。
本发明实施例中,通过对中医医案中脉诊、舌诊和刻下症的症状数据进行分析,采用两种不同的处理方案,完成了对医案中症状数据的结构化,把口语化的症状描述用更加规范的方式表达,并用修饰词尽可能的保留其丰富的信息,从而形成一套对中医症状自动结构化的方法,操作过程只有少量人工参与,能够大大降低人工的工作量及工作时间,能够为后续对中医症状的数据挖掘提供了结构化的数据,从而推进了中医症状信息化的步伐。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种中医症状结构化方法,其特征在于,包括:
构建修饰词表、停用词表、舌诊和脉诊的症状要素表、人体部位表、标准症状词表及标准症状词的同义词表;
获取中医症状数据;
若获取的中医症状数据为舌诊和脉诊的症状数据,则依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果;
若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果;
其中,所述舌诊和脉诊症状数据的结构化结果包括:症状要素编码及修饰词编码;
所述普通部位的症状数据的结构化结果包括:标准症状词编码及修饰词编码。
2.根据权利要求1所述的中医症状结构化方法,其特征在于,所述修饰词表包括:修饰词及各修饰词对应的修饰词编码;所述舌诊和脉诊的症状要素表包括:症状要素及各症状要素对应的症状要素编码;
所述若获取的中医症状数据为舌诊和脉诊的症状数据,则依据已构建的修饰词表、停用词表及舌诊和脉诊的症状要素表对所述舌诊和脉诊症状数据进行拆分和提取,得到所述舌诊和脉诊症状数据的结构化结果,包括:
若获取的中医症状数据为舌诊和脉诊的症状数据,则删除所述舌诊和脉诊的症状数据中包含在所述停用词表中的停用词;
查询已删除所述停用词后的舌诊和脉诊的症状数据中是否包含有所述修饰词表中的修饰词;
若包含有所述修饰词表中的修饰词,则获取所述修饰词对应的修饰词编码,并去除已删除所述停用词后的舌诊和脉诊的症状数据中的修饰词;
依据已构建的舌诊和脉诊的症状要素表提取已去除所述停用词及修饰词后的舌诊和脉诊的症状数据中的症状要素或复合的症状要素,并获取所述症状要素对应的症状要素编码或复合的症状要素对应的症状要素编码组合。
3.根据权利要求2所述的中医症状结构化方法,其特征在于,所述删除所述舌诊和脉诊的症状数据中包含在所述停用词表中的停用词,包括:
查询获取的所述舌诊和脉诊的症状数据中是否包含有所述停用词表中的停用词;
若包含有所述停用词表中的停用词,则删除所述舌诊和脉诊的症状数据中包含在所述停用词表中的停用词。
4.根据权利要求1所述的中医症状结构化方法,其特征在于,所述依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果之前,包括:
构建标准症状词表及标准症状词的同义词表,其中,在所述标准症状词的同义词表中,一个标准症状词的所有同义词的编码与所述标准症状词的编码相同,所述标准症状词的同义词可以是所述标准症状词本身;
所述方法还包括:将所述标准症状词表中的标准症状词作为列,所述标准症状词的同义词表中的同义词作为行,构造0-1矩阵;其中,所述0-1矩阵中值“1”表示值“1”所在行对应的同义词与其所在列对应的标准症状词有同义关系,值“0”则表示值“0”所在行对应的同义词与其所在列对应的标准症状词不存在同义关系。
5.根据权利要求1所述的中医症状结构化方法,其特征在于,所述依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果之前,包括:
依据中医知识构建人体部位表,并利用层次编码对所述人体部位表中的人体部位进行编码;
其中,所述人体部位表包括:人体部位及人体各部位对应的编码。
6.根据权利要求1所述的中医症状结构化方法,其特征在于,所述若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果,包括:
按照预定的拆分方法对所述普通部位的症状数据进行拆分,得到至少一个症状词;
依次判断各症状词是否与所述标准症状词的同义词表中的某一同义词完全匹配;
若一症状词与所述标准症状词的同义词表中的某一同义词完全匹配,则用所述同义词对应的标准症状词的编码表示所述症状词。
7.根据权利要求6所述的中医症状结构化方法,其特征在于,所述若获取的中医症状数据为普通部位的症状数据,则依据已构建的修饰词表、停用词表、人体部位表、标准症状词表及标准症状词的同义词表,结合症状词相似度算法对所述普通部位的症状数据进行拆分、匹配及组合,得到所述普通部位的症状数据的结构化结果,还包括:
若一症状词与所述标准症状词的同义词表中的任一同义词不完全匹配,则删除所述症状词中包含在所述停用词表中的停用词,并依据已构建的所述修饰词表提取已删除所述停用词后的症状词中的修饰词,并获取所述修饰词对应的修饰词编码;
判断已删除所述停用词及已提取所述修饰词后剩下的所述症状词是否与所述标准症状词的同义词表中的某一同义词完全匹配;
若所述症状词与所述标准症状词的同义词表中的某一同义词完全匹配,则用所述同义词对应的标准症状词的编码表示所述症状词。
8.根据权利要求7所述的中医症状结构化方法,其特征在于,所述若所述症状词与所述标准症状词的同义词表中的某一同义词完全匹配,则用所述同义词对应的标准症状词的编码表示所述症状词之后,还包括:
若所述症状词与所述标准症状词的同义词表中的任一同义词不完全匹配,则结合症状词相似度算法,获取所述症状词与所述标准症状词的同义词表中的每一同义词的相似度值;
判定是否存在所述相似度值超过第一预定阈值的同义词;
若存在所述相似度值超过第一预定阈值的同义词,则按照相似度值由高到低获取预定个数的所述相似度值对应的同义词,并从获取的预定个数的所述相似度值对应的同义词中,依据构建的人体部位表获取与所述症状词的部位相同或与所述症状词的部位有从属关系的同义词;
判断获取的与所述症状词的部位相同或与所述症状词的部位有从属关系的同义词对应的标准症状词的编码是否一致;
若一致,则用所述同义词对应的标准症状词的编码表示所述症状词;
若不一致,则用所述同义词对应的标准症状词的编码的组合表示所述症状词。
9.根据权利要求8所述的中医症状结构化方法,其特征在于,所述方法还包括:
若不存在相似度值超过第一预定阈值的同义词,则判断该症状词出现的次数是否超过第二预定阈值;
若超过第二预定阈值,则将所述症状词添加到标准症状词表及标准症状词的同义词表中;
若不超过第二预定阈值,则记录所述症状词出现的次数。
10.根据权利要求8所述的中医症状结构化方法,其特征在于,所述结合症状词相似度算法,获取所述症状词与所述标准症状词的同义词表中的每一同义词的相似度值包括:
获取所述标准症状词的同义词表中的一同义词;
计算所述症状词和所述同义词中相同字的个数在所述症状词和所述同义词中的比重;
计算所述相同字在所述症状词和所述同义词中的位置;
根据所述症状词和所述同义词中相同字的个数在所述症状词和所述同义词中的比重及所述相同字在所述症状词和所述同义词中的位置,得到所述症状词和同义词的相似度值。
CN201610221579.3A 2016-04-11 2016-04-11 一种中医症状结构化方法 Active CN105912856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610221579.3A CN105912856B (zh) 2016-04-11 2016-04-11 一种中医症状结构化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610221579.3A CN105912856B (zh) 2016-04-11 2016-04-11 一种中医症状结构化方法

Publications (2)

Publication Number Publication Date
CN105912856A true CN105912856A (zh) 2016-08-31
CN105912856B CN105912856B (zh) 2018-09-28

Family

ID=56745068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610221579.3A Active CN105912856B (zh) 2016-04-11 2016-04-11 一种中医症状结构化方法

Country Status (1)

Country Link
CN (1) CN105912856B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570319A (zh) * 2016-10-31 2017-04-19 北京科技大学 一种确定中医诊断模式的方法及装置
CN107330288A (zh) * 2017-07-10 2017-11-07 叮当(深圳)健康机器人科技有限公司 一种用药信息获取方法及装置
CN108319580A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 诊断词归一方法及装置
CN110263168A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 症状词分类方法、装置以及终端
CN113724884A (zh) * 2016-09-21 2021-11-30 北京大学 基于病例库的疾病症状及其权重知识的获取和处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615182A (zh) * 2008-06-27 2009-12-30 西门子公司 中医症状信息存储系统及中医症状信息存储方法
CN102156801A (zh) * 2011-03-04 2011-08-17 浙江大学 基于本体推理的中医药五行诊疗系统
CN102813555A (zh) * 2012-09-05 2012-12-12 王雷 一种中医病症辨证诊断系统
CN103177087A (zh) * 2013-03-08 2013-06-26 浙江大学 一种基于概率主题模型的相似中药检索方法
CN104199855A (zh) * 2014-08-13 2014-12-10 王和平 一种针对中医药学信息的检索系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615182A (zh) * 2008-06-27 2009-12-30 西门子公司 中医症状信息存储系统及中医症状信息存储方法
CN102156801A (zh) * 2011-03-04 2011-08-17 浙江大学 基于本体推理的中医药五行诊疗系统
CN102813555A (zh) * 2012-09-05 2012-12-12 王雷 一种中医病症辨证诊断系统
CN103177087A (zh) * 2013-03-08 2013-06-26 浙江大学 一种基于概率主题模型的相似中药检索方法
CN104199855A (zh) * 2014-08-13 2014-12-10 王和平 一种针对中医药学信息的检索系统和方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
孙静等: "中医临床症状结构化探究", 《世界科学技术-中医药现代化》 *
彭嘉宁: "基于多智体的中医肝病诊断专家系统研究", 《万方在线公开:HTTP://D.WANFANGDATA.COM.CN/THESIS/Y1024898》 *
朱庆文等: "基于脉诊、舌诊信息提取与识别的诊断集成技术研究策略", 《北京中医药大学学报》 *
杨艳: "一种非结构化数据中医知识抽取与关联的方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杨雪梅等: "中医症状术语体系库的建立", 《中国中西医结合学会诊断专业委员会2009年会论文集》 *
范玉妹等: "基于结构模型的知识发现技术", 《北京科技大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724884A (zh) * 2016-09-21 2021-11-30 北京大学 基于病例库的疾病症状及其权重知识的获取和处理方法
CN106570319A (zh) * 2016-10-31 2017-04-19 北京科技大学 一种确定中医诊断模式的方法及装置
CN106570319B (zh) * 2016-10-31 2019-10-22 北京科技大学 一种确定中医诊断模式的方法及装置
CN108319580A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 诊断词归一方法及装置
CN107330288A (zh) * 2017-07-10 2017-11-07 叮当(深圳)健康机器人科技有限公司 一种用药信息获取方法及装置
CN110263168A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 症状词分类方法、装置以及终端

Also Published As

Publication number Publication date
CN105912856B (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN105912856A (zh) 一种中医症状结构化方法
Hsu Innovation in Chinese medicine
Gowland et al. Human identity and identification
Parkin Demography and Roman society
CN109190113A (zh) 一种中医理论典籍的知识图谱构建方法
KR20110098286A (ko) 퍼지 추론기법을 이용한 한방 자가 진단방법
CN107491437A (zh) 一种基于自然语言的中医症候语义识别方法及装置
CN107506589A (zh) 一种中成药辅助推送方法及装置
CN112233804B (zh) 一种经方智能推荐方法及应用该方法的设备
Vasudev et al. Effect of Reiki on perceived stress among software professionals in Bangalore, India
Novenson The Pauline Epistles in Tertullian's Bible1
Shani-Gershoni et al. Knowledge and attitudes of internists compared to medical students regarding acupuncture
Atwood The Rawlinson Excidium Troie--A Study of Source Problems in Mediaeval Troy Literature
Pfister The sexual body techniques of early and medieval China–underlying emic theories and basic methods of a non-reproductive sexual scenario for non-same-sex partners
Chong The influence of Buddhist on the formation and development of Shaolin culture
Jung Francis Bacon's philosophy of nature: A postmodern critique
Allen Severus of Antioch: Heir of Saint John Chrysostom?
Black From Kabbalah to Psychology: The Allegorizing Isagoge of Paulus Ricius, 1509–41
Schroeder An Early Monastic Rule Fragment from the Monastery of Shenoute
Willoughby Difference and Disease: Medicine, Race, and the Eighteenth-Century British Empire
Wood et al. Traditional Western herbalism and pulse evaluation: a conversation
DK200400135U3 (da) Undervisningsredskab/hjælperedskab til brug i den alternative behandlerverden i form af en skive til illustration af de 5 elementer, meridianer og organur, jvf. den kinesiske filosofi
Anguyo Attrition and its risk factors among drug susceptible tuberculosis patients attending Kampala Capital City Authority health facilities in Kampala-Uganda.
Roberts The Health of Enslaved Workers in Dazille’s Observations
Janssens The retreat of death

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant