CN113901183A - 一种抽取医疗文本中实体间关系词的方法、装置及系统 - Google Patents
一种抽取医疗文本中实体间关系词的方法、装置及系统 Download PDFInfo
- Publication number
- CN113901183A CN113901183A CN202110961081.1A CN202110961081A CN113901183A CN 113901183 A CN113901183 A CN 113901183A CN 202110961081 A CN202110961081 A CN 202110961081A CN 113901183 A CN113901183 A CN 113901183A
- Authority
- CN
- China
- Prior art keywords
- words
- word
- relation
- entities
- effective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Catalysts (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了自然语言处理信息提取技术领域的一种抽取医疗文本中实体间关系词的方法、装置及系统,包括读取模块、计算模块和存储模块,读取模块主要是指系统读入一些中文医疗文本,计算模块主要包括关系词抽取单元,第一步:获取语料库,第二步:标识两个实体在句子中出现的先后顺序,第三步:利用自然语言处理工具对联合语素进行分词和词性标注,得到待抽取的词汇集合,第四步:保留词汇集合中动词、连词、介词等有效词汇,过滤非关系词词汇;第五步:将保留词存入有效词词典,第六步:对有效关系词词典中的词汇进行词性分类和规律分析,利用抽取规则,计算各词性比重和各字数比重,存储模块主要是对抽取到的关系词进行存储。
Description
技术领域
本发明涉及自然语言处理信息提取技术领域,具体为一种抽取医疗文本中实体间关系词的方法、装置及系统。
背景技术
在医疗数据中,由于人工标注的局限性,实体间的关系词可能总结不全,尤其是某些特殊表达中的特殊关系词。标注的关系词不够全面,就会导致有监督学习的精度和覆盖度都受到影响。
针对特定关系的关系词发现,存在以下难点:
1、特定实体间可能存在特定关系词,即固定搭配或固定说法,如“糖尿病性心脏病”中的“性”表示“糖尿病”引起“心脏病”,但“寒冷”和“心脏病”之间就没有这种表达,这些特定关系词如果不被发现,就会在人工标注中被忽略.
2、两个实体之间的关系有可能由两个以上词汇联合表达,但有时由于省略,只剩下一个词,此时这一个词也承担着该两个实体之间的关系表达。人工标注时,如果稍不注意,就会忽略这种关系词,因而导致标注不全面,由此引起机器不能识别这种语句的语义。如“肺结核患者有少量心包积液”中,“患者”和“有”这两个词联合起来共同表达“肺结核”这一“病因”导致“少量心包积液”这一结果的关系。但是,有时“患者”可能会被省略掉,出现“肺结核患者有少量心包积液”这种句子,此时应认定“有”这一词承担了该因果关系。
3、存在一义多词的现象,如“爆发”,“引爆”,“导致”等,都是表示因果关系这一类关系的词语且在普通语料中经常不互为同义词,如果仅靠人工标注构造关系词词典需要耗费大量人力财力资源。
发明内容
本发明的目的在于提供一种抽取医疗文本中实体间关系词的方法、装置及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种抽取医疗文本中实体间关系词的方法,包括以下步骤:
第一步:系统读入一些中文医疗文本;
第二步:关系词抽取:
(1)获取的语料库,并对句子进行预处理,获取待抽取的联合语素;
(2)标识两个实体在句子中出现的先后顺序;
(3)利用自然语言处理工具对联合语素进行分词和词性标注,得到待抽取的词汇集合;
(4)保留词汇集合中动词、连词、介词等有效词汇,过滤非关系词词汇;
(5)将保留词存入有效词词典,根据自然语言处理中的TF(Term Frequency)策略,计算有效词词典中词汇的词频,将高频词(词频>5)存储到有效关系词词典中;
(6)对有效关系词词典中的词汇进行词性分类和规律分析,利用抽取规则,计算各词性比重和各字数比重;
第三步:对抽取到的关系词进行存储。
作为优选,所述第二步中关系词的除杂是根据ANSJ分词工具进行分词和停用词过滤,然后加入特定阈值筛选条件进行筛选。
作为优选,一种抽取医疗文本中实体间关系词的装置,包括获取器、处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序。
作为优选,一种抽取医疗文本中实体间关系词的系统,包括读取模块、计算模块与存储模块,所述读取模块电性输出连接文本输入单元,所述计算模块电性输出连接关系词抽取单元,所述展示模块分别电性输出连接存储单元与展示单元。
与现有技术相比,本发明的有益效果是:本发明中利用读取模块、计算模块和存储模块对医疗文本中实体间关系词进行抽取、处理和组合,避免仅靠人工标注构造关系词词典需要耗费大量人力财力资源,也避免人工标注而容易出现问题。
附图说明
图1为本发明的关系词抽取算法流程图;
图2为本发明的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明提供一种技术方案:请参阅图1,一种抽取医疗文本中实体间关系词的方法,包括以下步骤:
第一步:系统读入一些中文医疗文本;
第二步:关系词抽取:
(1)获取的语料库,并对句子进行预处理,获取待抽取的联合语素;
(2)标识两个实体在句子中出现的先后顺序;
(3)利用自然语言处理工具对联合语素进行分词和词性标注,得到待抽取的词汇集合;
(4)保留词汇集合中动词、连词、介词等有效词汇,过滤非关系词词汇;
(5)将保留词存入有效词词典,根据自然语言处理中的TF(Term Frequency)策略,计算有效词词典中词汇的词频,将高频词(词频>5)存储到有效关系词词典中;
(6)对有效关系词词典中的词汇进行词性分类和规律分析,利用抽取规则,计算各词性比重和各字数比重;
第三步:对抽取到的关系词进行存储。
第二步中关系词的除杂是根据ANSJ分词工具进行分词和停用词过滤,然后加入特定阈值筛选条件进行筛选。
实施例2:
请参阅图2,一种抽取医疗文本中实体间关系词的装置,包括获取器、处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序,例如:关系词抽取程序,处理器执行计算机程序时实现上述关系词抽取方法实施例中的步骤,或者处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能,例如:文本输入单元、关系词提取单元、存储单元;
请参阅图2,一种抽取医疗文本中实体间关系词的系统,包括读取模块、计算模块与存储模块,读取模块电性输出连接文本输入单元,用于系统读取非结构化医疗文本,计算模块电性输出连接关系词抽取单元,通过两个实体抽取实体间的关系词,展示模块分别电性输出连接存储单元与展示单元,用于关系词的结构化存储。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种抽取医疗文本中实体间关系词的方法,其特征在于:包括以下步骤:
第一步:系统读入一些中文医疗文本;
第二步:关系词抽取:
(1)获取的语料库,并对句子进行预处理,获取待抽取的联合语素;
(2)标识两个实体在句子中出现的先后顺序;
(3)利用自然语言处理工具对联合语素进行分词和词性标注,得到待抽取的词汇集合;
(4)保留词汇集合中动词、连词、介词等有效词汇,过滤非关系词词汇;
(5)将保留词存入有效词词典,根据自然语言处理中的TF(Term Frequency)策略,计算有效词词典中词汇的词频,将高频词(词频>5)存储到有效关系词词典中;
(6)对有效关系词词典中的词汇进行词性分类和规律分析,利用抽取规则,计算各词性比重和各字数比重;
第三步:对抽取到的关系词进行存储。
2.根据权利要求1所述的一种抽取医疗文本中实体间关系词的方法,其特征在于:所述第二步中关系词的除杂是根据ANSJ分词工具进行分词和停用词过滤,然后加入特定阈值筛选条件进行筛选。
3.根据权利要求1所述的一种抽取医疗文本中实体间关系词的装置,其特征在于:包括获取器、处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序。
4.根据权利要求1所述的一种抽取医疗文本中实体间关系词的系统,其特征在于:包括读取模块、计算模块与存储模块,所述读取模块电性输出连接文本输入单元,所述计算模块电性输出连接关系词抽取单元,所述展示模块分别电性输出连接存储单元与展示单元。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961081.1A CN113901183A (zh) | 2021-08-20 | 2021-08-20 | 一种抽取医疗文本中实体间关系词的方法、装置及系统 |
PCT/CN2021/117942 WO2023019664A1 (zh) | 2021-08-20 | 2021-09-13 | 一种双过渡金属氧化物催化制备氮化硼纳米管的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961081.1A CN113901183A (zh) | 2021-08-20 | 2021-08-20 | 一种抽取医疗文本中实体间关系词的方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901183A true CN113901183A (zh) | 2022-01-07 |
Family
ID=79187698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110961081.1A Withdrawn CN113901183A (zh) | 2021-08-20 | 2021-08-20 | 一种抽取医疗文本中实体间关系词的方法、装置及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113901183A (zh) |
WO (1) | WO2023019664A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4534016B2 (ja) * | 2005-03-04 | 2010-09-01 | 独立行政法人物質・材料研究機構 | 高純度窒化ホウ素ナノチューブの製造方法 |
US9199854B2 (en) * | 2009-09-21 | 2015-12-01 | Deakin University | Method of manufacture |
CN107522180A (zh) * | 2016-06-21 | 2017-12-29 | 张家港市山牧新材料技术开发有限公司 | 一种氮化硼纳米管的制备方法 |
CN107673318B (zh) * | 2016-08-01 | 2020-11-27 | 中国科学院苏州纳米技术与纳米仿生研究所 | 氮化硼纳米管及其批量制备方法 |
CN106698527A (zh) * | 2016-11-25 | 2017-05-24 | 江苏大学 | 以乙二醇和水为溶剂体系水热法制备纳米钴酸镍的方法 |
CN108483517B (zh) * | 2018-04-03 | 2020-01-03 | 山东大学 | 一种铁酸镍纳米片及其制备方法和应用 |
CN113213438A (zh) * | 2021-06-23 | 2021-08-06 | 南京大学 | 氮化硼纳米管及其制备方法 |
-
2021
- 2021-08-20 CN CN202110961081.1A patent/CN113901183A/zh not_active Withdrawn
- 2021-09-13 WO PCT/CN2021/117942 patent/WO2023019664A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2023019664A1 (zh) | 2023-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684448B (zh) | 一种智能问答方法 | |
US9189473B2 (en) | System and method for resolving entity coreference | |
Zhou et al. | Approaches to text mining for clinical medical records | |
CN107818815B (zh) | 电子病历的检索方法及系统 | |
US20150278197A1 (en) | Constructing Comparable Corpora with Universal Similarity Measure | |
US10496756B2 (en) | Sentence creation system | |
US12039274B2 (en) | Entity recognition method and device, dictionary creating method, device and medium | |
US20150112664A1 (en) | System and method for generating a tractable semantic network for a concept | |
US20110213804A1 (en) | System for extracting ralation between technical terms in large collection using a verb-based pattern | |
CN106383814B (zh) | 一种英文社交媒体短文本分词方法 | |
CN108427702B (zh) | 目标文档获取方法及应用服务器 | |
CN102253930A (zh) | 一种文本翻译的方法及装置 | |
CN112613315B (zh) | 一种文本知识自动抽取方法、装置、设备及存储介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
US10606903B2 (en) | Multi-dimensional query based extraction of polarity-aware content | |
CN115424692A (zh) | 一种结构化电子病历的构建方法、电子设备及存储介质 | |
Albeer et al. | Automatic summarization of YouTube video transcription text using term frequency-inverse document frequency | |
CN113010593B (zh) | 非结构化文本的事件抽取方法、系统及装置 | |
Agung et al. | TRANSLATION PERFORMANCE OF GOOGLE TRANSLATE AND DEEPL IN TRANSLATING INDONESIAN SHORT STORIES INTO ENGLISH | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN117828042A (zh) | 用于金融服务的问答处理方法、装置、设备及介质 | |
CN112380877A (zh) | 一种用于篇章级英译中机器翻译测试集的构建方法 | |
CN110162615B (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
CN115828893B (zh) | 非结构化文档问答的方法、装置、存储介质和设备 | |
AU2021106432A4 (en) | An approach, device and system for extracting relational words between two entities. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220107 |
|
WW01 | Invention patent application withdrawn after publication |