CN102184170A - 一种语素级临床汉语言解析的方法 - Google Patents
一种语素级临床汉语言解析的方法 Download PDFInfo
- Publication number
- CN102184170A CN102184170A CN2011101635037A CN201110163503A CN102184170A CN 102184170 A CN102184170 A CN 102184170A CN 2011101635037 A CN2011101635037 A CN 2011101635037A CN 201110163503 A CN201110163503 A CN 201110163503A CN 102184170 A CN102184170 A CN 102184170A
- Authority
- CN
- China
- Prior art keywords
- language
- morpheme
- literal
- entry
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种语素级临床汉语言解析的方法,包括步骤:1、将输入的语言文本分句分节;2、将语言文本中引号内的文字进行标记,标记其不可分割性;3、将词库中词条和语言文本中的内容进行匹配,获得各词条;4、对部位性词条再获得前后缀;5、将未匹配上的文字进行时间格式相似运算,获得文字中时间;6、根据语言组成匹配出多个组合的语言,并用组合好的语言集合再作为一个整体向上进行递归叠代匹配;7、将以上运算未处理的文字或叠代失败的文字作为描述性语言进行删除或合并。将临床汉语言的语素级解析方法应用于电子病历系统,能够对汉语言电子病历进行后台语素级的解析,实现电子病历的结构化,为实现电子病历的智能化利用奠定基础。
Description
技术领域
本发明涉及一种汉语言解析的方法,尤其涉及一种应用于电子病历的语素级临床汉语言解析的方法。
背景技术
电子病历文书的编辑是电子病历的重要内容。很多对电子病历软件的宣传时,重点在描述一个好的病历编辑器。如何输入,如何结构化,如何适应不同的格式,如何进行数据的存储等。把结构化作为电子病历的一个主要特点和要求。然而,目前电子病历的一个弊病就是结构化成本很高,以至于在实际应用中声称结构化的电子病历,多数并没有真正结构化。
非结构化的电子病历弊病非常明显,但结构化成本太高,效果差的问题很少有人提起。比如点选模式的电子病历,需要书写“无明显诱因,饮酒后,受凉后,劳累时……”,医生需要进行多次选择并确认。这种方式存在的问题很明显,严重干扰医生思维,书写这样一份结构化的病历花费的时间太长,浪费最昂贵的医疗资源——医生的时间;以至于很多医务人员弃之不用。而且更重要的是,这种选择性输入的电子病历,并不能真正保证结构化,因为这种方法,不能达到语义或素级的结构化水平,不能很好满足电子病历智能化的需求。
对于电子病历是否结构化、如何结构化,解决之道各有不同。在美国和英国,因为结构化成本太高,解决之道是通过便宜的资源(转录员)代替医生录入病历;在法国,干脆就规定少写病历;在我国,基本上是采用成本最高的选择性输入方法,来解决电子病历结构化的问题。
电子病历的结构化是智能化的基础。只有实现了电子病历的真正结构化,才能实现电子病历的智能化。如何解决这个难题。是否能考虑医生用自然语言输入电子病历,把复杂的结构化过程交给计算机完成,通过计算机的语义或素级解析实现电子病历的结构化、智能化。这是很多人都在思考或研究的问题。但这种方法的难度太大。因为语言的灵活、多变,给语义或素的解析造成了巨大障碍。我国的汉语言的多样性和灵活性更在其它语言之上。与英语等西方言的以词组句不同,汉语言是以字组词、句,更为复杂,更难实现汉语言计算机语义或素级的解析。
对于汉语言的解析研究和计算机软件开发,国内比较多。但是该软件实际上只有对词法的解析(动词,名词等)方面比较成熟。由于侧重点不同,该软件对词法的解析中,并未对词的具体逻辑含义进行解析。而语义或语素的解析算法更加复杂,还未真正实现。
发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种应用于电子病历中的语素级临床汉语言解析的方法。
为了解决上述技术问题,本发明采用如下技术方案:一种语素级临床汉语言解析的方法,包括以下步骤:
(1)分句分节:将语言文本按语言规范,利用文字中分句级的符号和分节级的符号将语言文本分成若干句和节;
(2)处理引号内文字:将语言文本中引号内的文字进行标记,标记其不可分割性;
(3)匹配词条:将词库中的词条和语言文本中的内容进行匹配,获得各词条;
(4)处理部位前后缀:对语言文本中部位性的词条再获得前后缀;
(5)处理时间:将语言文本中未匹配上的文字进行时间格式相似运算,获得文字中的时间;
(6)叠代匹配语言组成结构:根据语言的组成匹配出多个组合的语言,并用组合好的语言集合再作为一个整体向上进行递归叠代匹配;
(7)精简语言:将以上运算未处理的文字或叠代失败的文字作为描述性语言进行删除或合并。
作为优选,所述分句级的符号包括句号、分号,分节级的符号为逗号。
作为优选,所述部位性词条的前后缀包括上、下、左、右、双。
作为优选,所述语言组成结构包括部位+症状的结构。
与现有技术相比,本发明具有以下优点:通过对临床汉语言的语素级解析方法的研究,并应用于电子病历系统,能够对汉语言电子病历进行后台语素级的解析,随电子病历一起保存,实现电子病历的结构化,为实现电子病历的智能化利用奠定基础。
附图说明
图1为本发明的执行流程图。
具体实施方式
下面将结合附图及实施例对本发明作进一步的描述。
参见图1,一种语素级临床汉语言解析的方法,包括以下步骤:
(1)分句分节:将语言文本按语言规范,利用文字中的句号、分号等分句级的符号和逗号等分节级的符号将语言文本分成若干句和节;
(2)处理引号内文字:将语言文本中引号内的文字进行标记,标记其不可分割性;
(3)匹配词条:将词库中的词条和语言文本中的内容进行匹配,获得各词条;
(4)处理部位前后缀:对语言文本中部位性的词条再获得前后缀,如上、下、左、右、双等;
(5)处理时间:将语言文本中未匹配上的文字进行时间格式相似运算,获得文字中的时间;
(6)叠代匹配语言组成结构:根据语言的组成匹配出多个组合的语言,并用组合好的语言集合再作为一个整体向上进行递归叠代匹配,所述语言组成结构包括部位+症状的结构,如肢体活动不能;
(7)精简语言:将以上运算未处理的文字或叠代失败的文字作为描述性语言进行删除或合并。
输入范例,语言文本:“入院前2小时于晨起穿衣时突然出现左侧肢体活动不能,无法自行穿衣,言语欠清晰,无头昏、头痛,经头颅CT:颅内未见明显异常。”
首先说明输出结果中节点的语言类型:分句(C1),分节(C2),时间(SJ),部位(BW),症状(含体征)(ZZ),否定症状(NZZ),实验室结果指标(ZB),检查征象(ZX),量度(LD),检查(JC),属性(SX),描述性语言(MS),标准时间段(SJ.5),部位内容(BW.1),否定症状内容(NZZ.1);解析过程中XML节点属性说明如下:Dicbm:语素唯一码;OriText:标准同近义词;解析过程中出现的名称以EJ开始的节点是中间节点,是一个计算过程用到的节点。
1.先划分出句和节,分句分节和处理引号内文字后结果(C1:分句;C2:分节):
2.匹配词条后结果
3.叠代匹配语言组成结构后结果:
从以上解析出来的结构可见,除包括“头痛”、“头昏”等语素外,“入院前2小时”、“左侧肢体”等类似的语言也被语素化了。形成了语素级解析的结构化电子病历。如果要通过点选模式输入,达到这样的解析程度,是难以实现的。
语素级临床汉语言解析方法构成的语素级临床汉语言解析引擎,也考虑到对各种语言的适应性。在解析算法上只需要做词库扩展和语言算法逻辑重组(不需要修改核心算法,不修改引擎代码),就可以解析表意文字。对核心算法进行部分修改,则可以解析拼音文字(藏文,蒙文,英文等)。从这种意义上讲,语素级临床汉语言解析引擎是解决电子病历结构化和智能化具有革命性意义的解决方案。
根据分词引擎介绍的国际惯例,语素级临床汉语言解析引擎的关键技术指标如下:
指标一:每秒钟10000个汉字解析速度(特别的技术保证词库膨胀20倍,速度为每秒钟5000个汉字速度,完全可以满足实时输入处理);
指标二:96%以上有效语素的匹配度;
指标三:98.5%以上有效语素的匹配正确性。
将语素级临床汉语言解析引擎嵌入电子病历中。可以对入院记录,病程记录,会诊文书,死亡文书,检查报告等各方面文档进行解析,为医生提供更加精、准的语素级病历检索。医生可以检索咳嗽大于5年并且没有咳痰的病人,甚至可以检索咳粉红色痰的病人。可以实现对电子病历更加准确的病历质量监控管理,实现带逻辑分析功能的病历质量控制管理,严格区别有无某症状的逻辑。例如,可以分析出男病人的电子病历中有痛经这样逻辑错误。由于该引擎在设计上具有独立性,可以不依赖数据库运行,嵌入模式上可以只是一个COM或是一个WEB服务。在有条件的医院(可联入互联网),还可以提供云服务,时刻保持最新的引擎版本和词库,实现SaaS云服务。对于保存了的数据的电子病历,该云服务中还可以提供语素级的检索和科研统计分析功能等等,进行电子病历数据的深入挖掘。由于语素级临床汉语言解析引擎有后台结构化的巨大优势,还可以将过去的WORD文档、TXT文档病历处理成为结构化的病历;把大量的纸质病历扫描识别为电子文档后,处理成为结构化的病历。为病历资料增加巨大的财富。在语素级临床汉语言解析引擎技术支撑下,还可以进行以下研究:新药新疗法疗效分析,各种专病专家系统,全方位的疾病对比分析(同病对比等),智能化的病情变化的分析,疾病分析(不同年龄,不同时期症状等),电子病历科研辅助支持分析等高端电子病历应用,将复杂的工作交给计算机,将医生还给病人。
Claims (4)
1.一种语素级临床汉语言解析的方法,其特征在于,包括以下步骤:
(1)分句分节:将语言文本按语言规范,利用文字中分句级的符号和分节级的符号将语言文本分成若干句和节;
(2)处理引号内文字:将语言文本中引号内的文字进行标记,标记其不可分割性;
(3)匹配词条:将词库中的词条和语言文本中的内容进行匹配,获得各词条;
(4)处理部位前后缀:对语言文本中部位性的词条再获得前后缀;
(5)处理时间:将语言文本中未匹配上的文字进行时间格式相似运算,获得文字中的时间;
(6)叠代匹配语言组成结构:根据语言的组成匹配出多个组合的语言,并用组合好的语言集合再作为一个整体向上进行递归叠代匹配;
(7)精简语言:将以上运算未处理的文字或叠代失败的文字作为描述性语言进行删除或合并。
2.根据权利要求1所述的一种语素级临床汉语言解析的方法,其特征在于:所述分句级的符号包括句号、分号,分节级的符号为逗号。
3.根据权利要求1所述的一种语素级临床汉语言解析的方法,其特征在于:所述部位性词条的前后缀包括上、下、左、右、双。
4.根据权利要求1所述的一种语素级临床汉语言解析的方法,其特征在于:所述语言组成结构包括部位+症状的结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101635037A CN102184170A (zh) | 2011-06-17 | 2011-06-17 | 一种语素级临床汉语言解析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101635037A CN102184170A (zh) | 2011-06-17 | 2011-06-17 | 一种语素级临床汉语言解析的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102184170A true CN102184170A (zh) | 2011-09-14 |
Family
ID=44570347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101635037A Pending CN102184170A (zh) | 2011-06-17 | 2011-06-17 | 一种语素级临床汉语言解析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102184170A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468743A (zh) * | 2015-11-25 | 2016-04-06 | 钟岑 | 一种智能诊断手术编码检索方法 |
CN108711443A (zh) * | 2018-05-07 | 2018-10-26 | 成都智信电子技术有限公司 | 电子病历的文本数据解析方法和装置 |
CN109086285A (zh) * | 2017-06-14 | 2018-12-25 | 佛山辞荟源信息科技有限公司 | 基于语素的汉语智能处理方法和系统及装置 |
CN110019641A (zh) * | 2017-07-27 | 2019-07-16 | 北大医疗信息技术有限公司 | 一种医疗否定术语的检出方法及系统 |
CN110827931A (zh) * | 2020-01-13 | 2020-02-21 | 四川大学华西医院 | 一种临床术语的管理方法及装置、可读存储介质 |
-
2011
- 2011-06-17 CN CN2011101635037A patent/CN102184170A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468743A (zh) * | 2015-11-25 | 2016-04-06 | 钟岑 | 一种智能诊断手术编码检索方法 |
CN105468743B (zh) * | 2015-11-25 | 2018-12-28 | 钟岑 | 一种智能诊断手术编码检索方法 |
CN109086285A (zh) * | 2017-06-14 | 2018-12-25 | 佛山辞荟源信息科技有限公司 | 基于语素的汉语智能处理方法和系统及装置 |
CN109086285B (zh) * | 2017-06-14 | 2021-10-15 | 佛山辞荟源信息科技有限公司 | 基于语素的汉语智能处理方法和系统及装置 |
CN110019641A (zh) * | 2017-07-27 | 2019-07-16 | 北大医疗信息技术有限公司 | 一种医疗否定术语的检出方法及系统 |
CN110019641B (zh) * | 2017-07-27 | 2023-09-08 | 北大医疗信息技术有限公司 | 一种医疗否定术语的检出方法及系统 |
CN108711443A (zh) * | 2018-05-07 | 2018-10-26 | 成都智信电子技术有限公司 | 电子病历的文本数据解析方法和装置 |
CN108711443B (zh) * | 2018-05-07 | 2021-11-30 | 成都智信电子技术有限公司 | 电子病历的文本数据解析方法和装置 |
CN110827931A (zh) * | 2020-01-13 | 2020-02-21 | 四川大学华西医院 | 一种临床术语的管理方法及装置、可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mishra et al. | MAULIK: an effective stemmer for Hindi language | |
Goyal et al. | A distributed platform for Sanskrit processing | |
Al-Jumaily et al. | A real time Named Entity Recognition system for Arabic text mining | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
CN102253930A (zh) | 一种文本翻译的方法及装置 | |
CN102184170A (zh) | 一种语素级临床汉语言解析的方法 | |
CN112380864A (zh) | 一种基于回译的文本三元组标注样本增强方法 | |
Graën | Exploiting alignment in multiparallel corpora for applications in linguistics and language learning | |
Ahmed et al. | Biofid dataset: Publishing a german gold standard for named entity recognition in historical biodiversity literature | |
Dou et al. | Unisar: A unified structure-aware autoregressive language model for text-to-sql | |
KR20130097475A (ko) | 의료 프로세스 모델링 및 검증 방법 | |
Amato et al. | A lexicon-grammar based methodology for ontology population for e-health applications | |
Ahmed et al. | Evaluation of n‐gram conflation approaches for Arabic text retrieval | |
Rupp et al. | Flexible interfaces in the application of language technology to an eScience corpus | |
Davarpanah et al. | Farsi lexical analysis and stop word list | |
Awajan | Multilayer model for Arabic text compression. | |
Nguyen et al. | Korean morphological analysis for Korean-Vietnamese statistical machine translation | |
Tesema et al. | Towards the sense disambiguation of Afan Oromo words using hybrid approach (unsupervised machine learning and rule based) | |
Lehmberg | Web table integration and profiling for knowledge base augmentation | |
Shen et al. | Chinese word segmentation and unknown word extraction by mining maximized substring | |
Zhang et al. | An Extractive Text Summarization Model Based on Rhetorical Structure Theory | |
Cui et al. | Combine unsupervised learning and heuristic rules to annotate organism morphological descriptions | |
Buriachok et al. | Implantation of indexing optimization technology for highly specialized terms based on Metaphone phonetical algorithm | |
Gupta et al. | A new approach towards bibliographic reference identification, parsing and inline citation matching | |
CN111444318A (zh) | 一种文本纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110914 |