CN108345584A - 一种基于规则的医患纠纷案件关键词提取方法 - Google Patents
一种基于规则的医患纠纷案件关键词提取方法 Download PDFInfo
- Publication number
- CN108345584A CN108345584A CN201810007166.4A CN201810007166A CN108345584A CN 108345584 A CN108345584 A CN 108345584A CN 201810007166 A CN201810007166 A CN 201810007166A CN 108345584 A CN108345584 A CN 108345584A
- Authority
- CN
- China
- Prior art keywords
- keyword
- rule
- doctor
- module
- patient dispute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于规则的医患纠纷案件关键词提取方法,包括:(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板;(2)按照标志词包含量将医患纠纷案件文书模块化;(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词;(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式;(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中;(6)根据规则待完善集合调整完善提取规则。本发明提高了关键词提取的准确率和召回率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于规则的医患纠纷案件关键词提取方法。
背景技术
医患纠纷是指基于医疗行为在医方(医疗机构)与患方(患者或者患者亲属)之间产生的,对医疗行为、结果及其原因、责任等在认识上产生分歧而引发的争议。近年来,人们对医疗服务需求在不断增长,对服务质量的要求和维权意识也在提高;而中国医疗卫生事业的改革与发展相对滞后,由此导致医患纠纷案件数量逐年上升,在很多地方甚至出现了多起因医患纠纷引发的恶性案件。医患纠纷类案推荐系统可以为用户推荐类似纠纷类案,其中,对能够精准表达医患纠纷特征的关键词提取是必不可少的一个重要环节。
通过对医患纠纷案件的文本中特征性较强的、便于作为分类/标识/统计的关键词进行提取,并做整理和语义抽取,可以为案件贴上相应维度的标签,在类案推荐、医患纠纷分类统计等工作中很大程度上提高匹配的准确度和提升匹配的时间性能。目前关键词提取方式主要是基于分词、词汇表匹配结合TFIDF计算的方法,由于医患纠纷案件所涉及的专业性词汇很多且较为繁杂,使词汇表的构建、中文分词以及TFIDF计算等阶段都存在或多或少的问题,从而导致整个类案推荐系统出现匹配准确率和召回率偏低的状况;且单纯的依靠分词+TFIDF来决定关键词的词比较局限和片面,对医患纠纷分类统计等工作很不利。
发明内容
发明目的:本发明针对现有技术存在的问题,提供一种基于规则的医患纠纷案件关键词提取方法,提高了关键词提取的准确率和召回率,从而满足提取的关键词高可用性的需求。
技术方案:本发明所述的基于规则的医患纠纷案件关键词提取方法包括:
(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板;
(2)按照标志词包含量将医患纠纷案件文书模块化;
(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词;
(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式;
(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中;
(6)根据规则待完善集合调整完善提取规则。
进一步的,步骤(1)中所述医患纠纷关键词提取规则的生成模板具体包括:
地理位置规则模板,内容为地理位置属性和对应的元素名称;
时间规则模板,内容为时间属性和对应的元素名称;
机构名称规则模板,内容为机构名称和对应的关键词;
普通规则模板,内容为标志词和对应的元素名称。
进一步的,步骤(2)具体包括:
(21)分别定义医患纠纷案件文书中基本情况说明、审查查明、法院认为和判决结果所对应的标志词;具体为下表:
名称 | 标志词 |
基本情况说明 | {1.上诉人2.原审审理3.被告} |
审查查明 | {1.经审查查明2.经查明3.经原审查查明} |
法院认为 | {1.法院认为} |
判决结果 | {1.判决如下2.原审判判决结果} |
(22)按照定义的标志词包含量将医患纠纷案件文书切割为:基本情况说明模块、审查查明模块、法院认为模块和判决结果模块。
进一步的,步骤(3)具体包括:
(31)对基本情况说明模块、审查查明模块、法院认为模块和判决结果模块分别定义关键词集合,具体如下表:
(32)分别按照定义的关键词集合从对应的模块中提取关键词,其中,关键词的提取范围仅限于对应模块内。
进一步的,步骤(5)具体包括:
(51)根据关键词所属模块以及对应的关键词集合判别提取的关键词是否正确;
(52)若正确,则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,存入格式为KeyName-Value的格式,KeyName指关键词,Value为所属文书和段落属性;
(53)若不正确,则将关键词存入规则待完善集合中。
进一步的,步骤(6)具体包括:
将步骤(5)中所得规则待完善集合中的结果进行分类,若结果为错则根据原文本内容重新调整规则,使用新规则覆盖旧规则,若某一关键词在此模块提取结果为空,但在同一文书其他模块中提取出正确结果,则跳过本步骤。
有益效果:本发明与现有技术相比,其显著优点是:本发明结合了专家规则的交互式关键词提取算法,以交互的方式获取领域内专家积累的知识/经验,然后将它们自动转换为机器可用的关键词提取规则,通过迭代的方式不断完善规则使得关键词提取的准确率与召回率逐步上升,从而对传统的关键词提取算法予以了补充和改进;且通过对医患纠纷文书模块化(分段)分割处理,从而缩小关键词匹配范围,可进一步提高关键词提取的准确率和召回率,从而满足提取的关键词高可用性的需求。
具体实施方式
本实施例提供了一种基于规则的医患纠纷案件关键词提取方法,包括:
(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板。
其中,生成模板主要是定义提取规则的结构,按照关键词的不同类别建立不同的规则结构;具体包括:地理位置规则模板、时间规则模板、机构名称规则模板和普通规则模板,每组模板都定义了规则生成所用到的符号,定义了标志词、关键词、长度等多个属性,如表1所示,地理位置规则模板内容为地理位置属性和对应的元素名称,地理位置属性为省名、市名、县名等,元素名称也就是对应的省,例如([省名](江苏省))为一个关键词规则;时间规则模板内容为时间属性和对应的元素名称;机构名称规则模板内容为机构名称和对应的关键词;普通规则模板内容为标志词和对应的元素名称。
表1
表1中的各个符号的定义如表2所示:
表2
(2)按照标志词包含量将医患纠纷案件文书模块化。
其中,医患纠纷案件的描述段落的关键词包含量差别很大,在需要提取最具有代表性的关键词的目标下,对案件进行模块化划分会将关键词提取界限更加清晰化;具体包括:
(21)分别定义医患纠纷案件文书中基本情况说明、审查查明、法院认为和判决结果所对应的标志词;具体为下表:
表3
名称 | 标志词 |
基本情况说明 | {1.上诉人2.原审审理3.被告} |
审查查明 | {1.经审查查明2.经查明3.经原审查查明} |
法院认为 | {1.法院认为} |
判决结果 | {1.判决如下2.原审判判决结果} |
(22)按照定义的标志词包含量将医患纠纷案件文书切割为:基本情况说明模块、审查查明模块、法院认为模块和判决结果模块。
(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词。具体包括:
(31)对基本情况说明模块、审查查明模块、法院认为模块和判决结果模块分别定义关键词集合,具体如下表:
表4
(32)分别按照定义的关键词集合从对应的模块中提取关键词,其中,关键词的提取范围仅限于对应模块内。
(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式。
例如,部分关键词的伪表达式和机器可识别表达式如下表所示:
表5
(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中。具体包括:
(51)根据关键词所属模块以及对应的关键词集合判别提取的关键词是否正确;
(52)若正确,则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,存入格式为KeyName-Value的格式,KeyName指关键词,Value为所属文书和段落属性;
(53)若不正确,则将关键词存入规则待完善集合中。
(6)根据规则待完善集合调整完善提取规则。具体包括:
将步骤(5)中所得规则待完善集合中的结果进行分类,若结果为错则根据原文本内容重新调整规则,使用新规则覆盖旧规则,若某一关键词在此模块提取结果为空,但在同一文书其他模块中提取出正确结果,则跳过本步骤。
以上所揭露的仅为本发明一种较佳实施例而已,不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (6)
1.一种基于规则的医患纠纷案件关键词提取方法,其特征在于该方法包括:
(1)按照关键词类别建立医患纠纷关键词提取规则的生成模板;
(2)按照标志词包含量将医患纠纷案件文书模块化;
(3)对医患纠纷案件文书的各模块定义关键词集合,并从各模块中提取对应关键词集合中的关键词;
(4)按照步骤(1)定义的生成模板,将步骤(3)提取的每个关键词编写为伪表达式,并自动化映射成机器可识别表达式;
(5)判别提取的关键词是否正确,若正确则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,若不正确则存入规则待完善集合中;
(6)根据规则待完善集合调整完善提取规则。
2.根据权利要求1所述的基于规则的医患纠纷案件关键词提取方法,其特征在于:步骤(1)中所述医患纠纷关键词提取规则的生成模板具体包括:
地理位置规则模板,内容为地理位置属性和对应的元素名称;
时间规则模板,内容为时间属性和对应的元素名称;
机构名称规则模板,内容为机构名称和对应的关键词;
普通规则模板,内容为标志词和对应的元素名称。
3.根据权利要求1所述的基于规则的医患纠纷案件关键词提取方法,其特征在于:所述步骤(2)具体包括:
(21)分别定义医患纠纷案件文书中基本情况说明、审查查明、法院认为和判决结果所对应的标志词;具体为下表:
(22)按照定义的标志词包含量将医患纠纷案件文书切割为:基本情况说明模块、审查查明模块、法院认为模块和判决结果模块。
4.根据权利要求3所述的基于规则的医患纠纷案件关键词提取方法,其特征在于:所述步骤(3)具体包括:
(31)对基本情况说明模块、审查查明模块、法院认为模块和判决结果模块分别定义关键词集合,具体如下表:
(32)分别按照定义的关键词集合从对应的模块中提取关键词,其中,关键词的提取范围仅限于对应模块内。
5.根据权利要求1所述的基于规则的医患纠纷案件关键词提取方法,其特征在于:所述步骤(5)具体包括:
(51)根据关键词所属模块以及对应的关键词集合判别提取的关键词是否正确;
(52)若正确,则将关键词对应的机器可识别表达式以及所属文书和段落属性进行存储,存入格式为KeyName-Value的格式,KeyName指关键词,Value为所属文书和段落属性;
(53)若不正确,则将关键词存入规则待完善集合中。
6.根据权利要求1所述的基于规则的医患纠纷案件关键词提取方法,其特征在于:所述步骤(6)具体包括:
将步骤(5)中所得规则待完善集合中的结果进行分类,若结果为错则根据原文本内容重新调整规则,使用新规则覆盖旧规则,若某一关键词在此模块提取结果为空,但在同一文书其他模块中提取出正确结果,则跳过本步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810007166.4A CN108345584A (zh) | 2018-01-04 | 2018-01-04 | 一种基于规则的医患纠纷案件关键词提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810007166.4A CN108345584A (zh) | 2018-01-04 | 2018-01-04 | 一种基于规则的医患纠纷案件关键词提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108345584A true CN108345584A (zh) | 2018-07-31 |
Family
ID=62960656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810007166.4A Pending CN108345584A (zh) | 2018-01-04 | 2018-01-04 | 一种基于规则的医患纠纷案件关键词提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108345584A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065050A (zh) * | 2021-03-26 | 2021-07-02 | 深圳供电局有限公司 | 一种电价政策文档采集方法及其系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160103823A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents |
CN106815206A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN106815207A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 用于法律裁判文书的信息处理方法及装置 |
CN107193798A (zh) * | 2017-05-17 | 2017-09-22 | 南京大学 | 一种基于规则的试题类自动问答系统中的试题理解方法 |
-
2018
- 2018-01-04 CN CN201810007166.4A patent/CN108345584A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160103823A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | Machine Learning Extraction of Free-Form Textual Rules and Provisions From Legal Documents |
CN106815206A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN106815207A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 用于法律裁判文书的信息处理方法及装置 |
CN107193798A (zh) * | 2017-05-17 | 2017-09-22 | 南京大学 | 一种基于规则的试题类自动问答系统中的试题理解方法 |
Non-Patent Citations (1)
Title |
---|
佘贵清 等: "审判案例自动抽取与标注模型研究", 《现代图书情报技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065050A (zh) * | 2021-03-26 | 2021-07-02 | 深圳供电局有限公司 | 一种电价政策文档采集方法及其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825876B (zh) | 电影评论观点情感倾向性分析方法 | |
US6823331B1 (en) | Concept identification system and method for use in reducing and/or representing text content of an electronic document | |
CN102866989B (zh) | 基于词语依存关系的观点抽取方法 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN105844424A (zh) | 基于网络评论的产品质量问题发现及风险评估方法 | |
CN108491512A (zh) | 新闻标题的摘要方法及装置 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN113076411B (zh) | 一种基于知识图谱的医疗查询扩展方法 | |
CN1687924A (zh) | 互联网人物信息搜索引擎的生成方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN103488627B (zh) | 全篇专利文献翻译方法及翻译系统 | |
CN107943514A (zh) | 一种软件文档中核心代码元素的挖掘方法及系统 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN108399265A (zh) | 基于搜索的实时热点新闻提供方法及装置 | |
CN108470026A (zh) | 新闻标题的句子主干内容提取方法及装置 | |
Katsis et al. | AIT-QA: Question answering dataset over complex tables in the airline industry | |
CN108363700A (zh) | 新闻标题的质量评估方法及装置 | |
CN107943786A (zh) | 一种中文命名实体识别方法及系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN104778157A (zh) | 一种多文档摘要句的生成方法 | |
CN110287493B (zh) | 风险短语识别方法、装置、电子设备及存储介质 | |
CN105354184A (zh) | 一种使用优化的向量空间模型实现文档自动分类的方法 | |
CN106844303A (zh) | 一种基于相似度匹配算法为待译稿件匹配译员的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180731 |