CN107491439B - 一种基于贝叶斯统计学习的医学古汉语句子切分方法 - Google Patents
一种基于贝叶斯统计学习的医学古汉语句子切分方法 Download PDFInfo
- Publication number
- CN107491439B CN107491439B CN201710800571.7A CN201710800571A CN107491439B CN 107491439 B CN107491439 B CN 107491439B CN 201710800571 A CN201710800571 A CN 201710800571A CN 107491439 B CN107491439 B CN 107491439B
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- ancient chinese
- data
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明属于语言处理领域,公开了一种基于贝叶斯统计学习的医学古汉语句子切分方法,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础之上,对于特征属性再添加二元组与三元组或者进行一元组、二元组、三元组多样特征属性组合得到多组实验数据结果,最后得出最佳模型;进而实现医学古汉语句子切分任务。本发明与实际处理文本内容相结合,通过本实验方法将现有技术各项特征的F值可提高至少25个百分点,本发明中系统地分析与归纳了医学古汉语文本句子识别规则,实现了可以应用于实际中医医学领域的处理方法,建立了医学古汉语文本的句子识别语料库,进一步让科研成果发挥出更大的作用。
Description
技术领域
本发明属于语言处理领域,尤其涉及一种基于贝叶斯统计学习的医学古汉语句子切分方法。
背景技术
自然语言处理技术具有很强的语言相关性,在国外已将较成熟的语言处理技应用于医疗信息与病人病例史的文本的处理中,以便帮助医生从巨大的医学相关信息数据中提取关键信息,并将其转化为有效的知识体系,再进一步加以应用到相关工作中,而在国内对于全国各省市的各大医疗机构关于其医学领域大数据现代智能化处理工作,也在紧罗密布的进行中。
在国内各地图书馆以及各大科研机构中收藏了大量的医学中文古籍,学者们为了便于研究者更好更方便地研究,已经对大部分的典籍进行数字化处理。于是对于这些医学中文古籍的现代化智能处理也顺理成章地被提上了日程,但典籍数字话后,没有确定的科学处理方法,导致典籍的实际处理成本提高。
古代的汉语以文本形式存在的历史,可以是从五·四运动追溯到有文字记载时期,超过了三千年的时间跨度了。可见古汉语文本的历史悠久,而对于其中医学领域的文本文献更是数不胜数。但现如今,将较成熟的现代汉语处理技应用于国内尚不成熟的中文医学文本处理技术中,这些方法在面向医学古汉语文本的处理性能时,是否像在现代文本中一样的良好,都有待进一步验证。而现已应用的技术,由于处理规定的不统一性和所需处理任务的语料库缺乏,而导致典籍处理的效果低下,这与原有将中医典籍现代提高效率、降低成本的科学化处理初衷相违背。
综上所述,现有技术存在的问题是:现有将较成熟的现代汉语处理技应用于国内尚不成熟的中文医学文本处理技术中,这些方法在面向医学古汉语文本的处理性能时,是否像在现代文本中一样的良好,都有待进一步验证。现在应用的技术,由于处理方法中的规定不统一和处理任务所需的语料库的大量缺乏而导致处理成本偏高,处理的效果低下的结果。
发明内容
针对现有技术存在的问题,本发明提供了一种基于贝叶斯统计学习的医学古汉语句子切分方法。
本发明是这样实现的,一种基于贝叶斯统计学习的医学古汉语句子切分方法,所述基于贝叶斯统计学习的医学古汉语句子切分方法在句子识别的朴素贝叶斯方法中再添加二元组与三元组的为特征属性或进行一元组、二元组、三元组多样特征属性组合,得出最佳模型;实现医学古汉语句子切分。
进一步,所述基于贝叶斯统计学习的医学古汉语句子切分方法,具体包括:
对一定量的数据文本进行手工标注:
将手工标注的数据文本用来训练朴素贝叶斯模型的分类器;将训练数据集通过朴素贝叶斯方法计算得到断句分类器;根据分类器的数据值,通过再朴素贝叶斯模型将新的数据集进行断句处理,最终得到分句结果;在实验最后,提出对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析数据结果;
使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析;
提取标注内容建立医学古汉语文本的句子识别语料。
进一步,对一定量的数据文本进行手工标注,具体包括:针对处理医学古文本中,句子识别的转化句子的标注;直接关注句子的开头和结尾处,之后在使用预先规定好的记号,进行标签标记;标签内为有效句子,标签外则无效;
制定文本处理的断句规则:提出的表示句子“开始”和“结尾”的特征是如何得到的,再接着,使用文本句子特征提取方法,制定文本处理的断句规则;
表征句子结束的归纳:根据标点的特性明确的说明对于句子的结束位置所对应的有符号标记,然而在根据这些特点对实际内容进行分析;
表征句子开始的归纳:分析开始特征时优先分析开始特征是否带有一些符号特征,从而在根据这些特征对句子开始像句子结束一样快速标记;
原文部分内容缺失:文本内容有所缺失根据原文本上下文关系,以及查阅资料后得出的一些断句规则。
进一步,数据集包括:将中国古代医学名著作为数据分析的基础数据库,采用随机抽取章节的方式提取了40%的章节作为实验数据集,然后人工的方式根据之前所定下的规则对其进行开始和结尾标注处理;标注完成以后将数据集按照不同比例分配进行实验;最后,测试实验模型是否有过拟合现象的出现;
所述性能指标的评估,包括:
利用标注的查准率LP、查全率LR和F1值LF用于评估断句三种标签的性能,对实验方法的性能进行有效的判断;
对标注间隙的查准率(LP)、查全率(LR)定义如下:
在实际应用中,只要一个值较高,另一个值就必然有所牺牲;所以在对一个分类器进行评估的时候,采用LF:
其中两个值的调和平均会更加接近两个数中较小的那个;因此,如果LF很高的话,那么LP和LR都会很高;
所述过拟合现象:在调试一个统计模型时,使用参数过多,当可选择的参数的自由度超过数据集中所包含内容时,会减少或破坏模型一般化的能力更甚于适应训练数据集;过拟合不只取决于参数个数和数据集,也跟模型架构与数据集的一致性有关。
进一步,所述朴素贝叶斯的方法,包括:
首先,朴素贝叶斯模型是基于贝叶斯准则与特征条件独立假设的分类的;而分类任务被看作为给定一个测试样例d后估计它的后验概率,计算式表达为
Pr=(C=cj|d);
接着,实验分析哪个类别cj对应概率最大,再将这个类别便赋予样例d;然后,认为在数据集D中,令其中各元素为用离散值表示的属性集合,令C为具有不通知的类别属性;再接着,给定一个测试样例d,得到其对应属性值,其表达式如下:
d=<A1=a1,…,A|A|=a|A|>;
由于预测类别是cj,那么Pr(C=cj|A1=a1,…,A|A|=a|A|)最大;
cj被称为最大后验概率MAP假设;根据贝叶斯准则,其中在此被表示为:
其中Pr(C=cj)是类别;cj的先验概率,用于训练样本估计;
对于Pr(A1=a1,…,A|A|=a|A||C=cj),展开得到:
Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)Pr(A2=a2,…,A|A|=a|A|C=cj);
再接着第二项Pr(A2=a2,…,A|A|=a|A||C=cj)递归展开;假设所有属性都是条件独立于类别C=cj,即准确的表示:
Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)=Pr(A1=a1|C=cj),
同理可推,得到:
之后,再从训练数据中统计的得到先验概率Pr(C=cj)和条件概率Pr(Ai=ai|C=cj),而这些的计算如下:
所以根据上面公式推导出,在给定测试样例的情况下,通过计算下面的式子来得出最有可能的类别:
本发明的优点及积极效果为:对于中文自然语言处理主要基础任务包括句子识别、分词、词性标注和句法识别,其中每一项都是基于前一项的任务结果而进行的;本文以已成熟的现代汉语处理技术方法为基础,在与实际处理文本内容相结合,系统的分析和归纳医学古汉语文本句子识别规则,之后,再采用最为广泛的自然语言处理技术之一的朴素贝叶斯模型为基础分析了现代自然语言处理技术对医学古汉语文本处理的性能。本次实验进展顺利,通过本实验方法将现有技术各项特征的F值可提高至少25个百分点,其中主要召回率提高近20个百分点。在实验中遇见的部分问题以及从得到数据结果进行分析,最后得到的结论对于现有对未来实验提出以下要求:对于句子识别的朴素贝叶斯方法,可以再添加二元组与三元组的为特征属性的实验,还可以开展一元组、二元组、三元组多样特征属性组合实验,验证不同组合的实验效果,进而可以得出最佳模型;实现可以应用于实际中医医学领域的处理方法,进一步让科研成果发挥出更大的作用。
附图说明
图1是本发明实施提供的基于贝叶斯统计学习的医学古汉语句子切分方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有将较成熟的现代汉语处理技应用于国内尚不成熟的中文医学文本处理技术中,这些方法在面向医学古汉语文本的处理性能时,是否像在现代文本中一样的良好,都有待进一步验证。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
本发明实施例提供的基于贝叶斯统计学习的医学古汉语句子切分方法,在句子识别的朴素贝叶斯方法中再添加二元组与三元组的为特征属性或进行一元组、二元组、三元组多样特征属性组合,得出最佳模型;实现医学古汉语句子切分。
如图1所示,本发明实施例提供的基于贝叶斯统计学习的医学古汉语句子切分方法,具体包括:
S101:对一定量的数据文本进行手工标注。
S102:将手工标注的数据文本用来训练朴素贝叶斯模型的分类器;将训练数据集通过朴素贝叶斯方法计算得到断句分类器;根据分类器的数据值,通过再朴素贝叶斯模型将新的数据集进行断句处理,最终得到分句结果;在实验最后,提出对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析数据结果;
S103:使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析;
S104:提取标注内容建立医学古汉语文本的句子识别语料。
下面结合具体实施例对本发明作进一步描述。
本发明实施例提供的基于贝叶斯统计学习的医学古汉语句子切分方法中,包括:
一、对一定量的数据文本进行手工标注。
(1)、句子识别的问题分析
针对处理医学古文本中,句子识别的问题可以转化句子的标注问题;关于标注问题根据如今已成熟的相关技术方法,可以提出简要的解决方案:直接关注句子的开头和结尾处,之后在使用预先规定好的记号,进行标签标记即可,标签内为有效句子,标签外则无效,从而达到句子识别效果。
就以上方案,本文根据现代文句子开头和结尾的定义及其特征表现与现如今的技术应用特点,便提出了两个实验要求:句子的正确识别问题,高效率文本处理问题。
句子的正确识别:本文的句子识别是按结构角度处理,因为在结构角度的句子分析中,提出“句子是由词、词组(短语)构成,进而表达一个完整的意思”,这样的理解方式有利于未来实验的分词与词性标注的工作。对于“表达一个完整的意思”可以具体理解为提出一个问题,述说一件事情,表示要求或者制止,表示一种感慨,表示对一段话的延续或者省略等等一系列的表达。现代中文识别中,已经明确的说明了对于句子的结束位置有明确的符号标记,即:问号,句号,省略号或者感叹号;然而在对文本实际内容进行分析时,本发明发现部分的分号也具有一定的断句效果。在实验分析文本时,本发明发现了这样一个问题:表达形式的不同会造成不同的工作人员对句子理解的不同。然而这一问题将会导致不同工作人员的断句质量发生一定偏差,为了减小这种偏差,本文对于断句方法,制定分歧句子的分句规则,用来统一断句效果,让不同人的处理同样文本事具有良好的统一性。
高效率文本处理:实验中,提出了一种简单而有效的监督学习模型,即基于部分标注数据来训练关于医学古文本断句的朴素贝叶斯模型,再根据训练得出的分类器来实现所有文本的断句实验,从而实现高效率文本处理。人工标注数据在自然语言处理中是极为常规的数据前期处理方法,而且对于之后的训练模型也有着非常好的效果,人工标注数据越多得到的数据特征也越多,效果自然更好,但是随之的问题也来了,数据越多预示着人工的消耗越大,不同工作者的数据标注偏差也就越多,最终的标注数据质量出现问题的几率也会增加。所以在本次实验中,针对上述问题,提出了“表征句子开始特征的归纳”与“表征句子结束特征的归纳”的断句方法来提高人工标注数据的效率与质量。
(2)、制定文本处理的断句规则
首先提出的表示句子“开始”和“结尾”的特征是如何得到的,再接着,使用最为常见的文本句子特征提取方法,即统计古汉语文本描述中的标点符号特征,具体对实验统计目的提出了以下几个要求:
1)文章有哪些标点符号?
2)其数量分布情况?
3)可以作为句子结尾的标点有哪些?
4)可以作为句子结束的标点还可能有哪些?
5)句子的开始是否都是以标点符号作为指示?
(3)、表征句子结束的归纳
现代中文识别中,由于标点符号的引入,根据标点的特性已经可以明确的说明对于句子的结束位置所对应的有符号标记,即:问号,句号,省略号或者感叹号;然而在根据这些特点对《本草纲目》实际内容进行分析时,发现部分的分号也具有一定的断句效果。
首先是文本符号的种类:“!”、“。”、“,”“:”、“;”、“?”、“\”、“、”、“《》”、“<>”、“()”、“【】”、“\n”、空格;其中在以上符号种类的基础上,还对其在文中的数量进行了统计,如表1所示。
其中有四种括号类的标点符号的统计数量为成对的数量。根据以上统计可以明确得到的结果为:在《本草纲目》中,“!”、“。”、“?”可以确切的表示出为结尾,可以使用程序代码进行快速标注,而“;”也有结尾的可能性,但需要后续的人工标注判断。
表1各标点符号数量
(4)、表征句子开始的归纳
根据以上符号的数量分布,在实验的数据准备时,分析开始特征时优先分析开始特征是否带有一些符号特征,从而在根据这些特征对句子开始像句子结束一样快速标记,分析结果为都具有一定的可能性,而且“:”的可能性很大,还有就是一个句子的结束很有可能就是下一句子的开始。这一分析为2.3节中,在构造朴素贝叶斯训练模型时,为其中的类别属性(Y)增添了一种“既是开始又是结束”的类别属性。虽然不能使用符号特点将文本进行快速处理,但是在进行处理之前对文本开始具有一定分歧句子进行了分句规则制定,用来统一断句效果,让不同人的处理文本由具有更好的统一性。
在制定规则时统一了一个概念“有效句子”,在这次实验验证中,由于处理的文本是医学古汉语文本,其中处理的目的是为了提取其中的有效或者说是具有实质用处的信息为优先,之后在未来的扩展实验中再去处理那些次要文本,所以本文中的“有效句子”是指在在最小的“有效片段”向前后扩展“有效片段”,最大扩展到有句子结束符号为止,其中有效片段是指能表示一个完整的意思的词组组合,“有效片段”越小越好。具体规则如下(“a”表示句子开始,“$”表示句子结束)。
常见句式:
药物+用药方法
青蒿(a虚疟寒热,捣汁服;$a或同桂心煎酒服。$a温疟,但热不寒,同黄丹末服。$a截疟,同常山、人参末酒服。$)
书籍(人物)+句子
《吴普本草》云∶a麻勃一名麻花,味辛无毒。$
时珍曰∶a观《齐民要术》有放勃时拔去雄者之文,则勃为花明矣。$
症状+人物(书籍)+药方
热毒湿疮∶宗曰∶a有人遍身生疮,痛而不痒,手足尤甚,粘着衣被,晓夕不得睡。$
痘疮倒∶钱氏小儿方∶a用人牙烧存性,入麝香少许,温酒服半钱。$
症状+药物+药方
又治连年积冷,流注心胸,及落马堕车,瘀血中恶等证∶九痛丸∶a用野狼毒(炙香)、吴茱萸(汤泡)、巴豆(去心,炒取霜)、干姜(炮)、人参各一两,附子(泡去皮)三两,为末,炼蜜丸梧子大。$
在标注时,以上四种句式经常会有分歧,所以需要提出规则说明,其中最需要说明的是后两种都是基于“症状+药方”这个句式构成,而在句子中间时常会插入一些次要内容导致前后片段分割,经讨论为了统一性,所有此种句式都以取药方为最好断句。
冒号与分号关联使用:
前文总说+后问多方面解释前文
a斑蝥二枚∶一枚末服;一枚烧至烟尽,研末,敷疮中,立瘥。$
a硫黄有二种∶石硫黄,生南海琉球山中;土硫黄,生于广南。$
a又能先下三尸虫∶上尸名彭质,好宝货,百日下;中尸,名彭矫,好五味,六十日下;下尸名彭居,好五色,三十日下,皆烂出也。$
分号用法第二种:
表示句子并列
a余粮、救穷,以功名也;$a鹿竹、菟竹,因叶似竹,而鹿兔食之也。$
a和银者性柔,试石则色青;$a和铜者性硬,试石则有声。$
下面还将介绍一些关于本次实验取得的文本内容有所缺失在由工作人员根据原文本上下文关系,以及查阅资料后得出的一些断句规则,这样做的目的也是为了标注数据的统一性。
1)句子结束符号缺失
此类错误多处需要根据原文上下文判断结束符号
2)内容不明确,标点符号可能有误
此类错误多处需要根据原文上下文判断结束位置
3)句子内容缺失
两种情况:一,若有明确的“《》”、“()”、“【】”、“<>”之类的括号类符号出现舍去整内容;二,无明显符号说明缺失需要根据原文上下文对此进行判断
(5)、原文部分内容缺失
下面还将介绍一些关于本次实验取得的文本内容有所缺失在由工作人员根据原文本上下文关系,以及查阅资料后得出的一些断句规则,这样做的目的也是为了标注数据的统一性。
1)句子结束符号缺失
此类错误多处需要根据原文上下文判断结束符号
2)内容不明确,标点符号可能有误
此类错误多处需要根据原文上下文判断结束位置
3)句子内容缺失
两种情况:一,若有明确的“《》”、“()”、“【】”、“<>”之类的括号类符号出现舍去整内容;二,无明显符号说明缺失需要根据原文上下文对此进行判断。
二、将手工标注的数据文本用来训练朴素贝叶斯模型的分类器。
将训练数据集通过朴素贝叶斯方法计算得到断句分类器,
根据分类器的数据值,通过再朴素贝叶斯模型将新的数据集进行断句处理,
最终得到分句结果。在实验最后,提出了对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析了数据结果。
三、使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析。
(1)、实验数据集
在本次试验中,将中国古代医学名著《本草纲目》作为数据分析的基础数据库,首先统计了《本草纲目》共1923章节,采用了随机抽取章节的方式提取了40%(769章)的章节作为实验数据集,然后人工的方式根据之前所定下的规则对其进行开始和结尾标注处理。标注完成以后将实验数据集按照不同比例分配进行实验,从而可以根据指标计算得出本次实验方法的性能。最后,测试实验模型是否有过拟合现象的出现,又添加了一组数据实验。
(2)、实验方法
对于本次实验提出的方法中,在实际操作时,采用了多组数据测试计算指标比较,得出在监督学习方法中训练数据集越大效果越好,但是在一定训练数据规模,效果不会出现明显的变化。表3是两组数据的详细情况,过拟合实验数据为75%的训练数据,再将这训练数据作为测试数据。
表2两组实验数据的组成
训练数据 | 测试数据 | |
1 | 25% | 75% |
2 | 75% | 25% |
(3)、评估指标
标注的查准率(LP)、查全率(LR)和F1值(LF):在本次实验中,按照最常规的自然语言处理中的实验效果数据分析方法,定义了三种类型的度量值来评估所提出的方法,这些指标(LP,LR,LF)用于评估断句三种标签(1:开始标签;2:结束标签;3:既是开始又是结束标签。由于句子中间和其他两个部分是没有实际标注的,所以在本次实验评估中没有对其进行分析)的性能,以便对实验方法的性能进行有效的判断,这样有利于之后才用开源工具的断句和词性分析处理。LP,LR和LF的实际表达下面将详细说明:
表3分类器的混合矩阵
测试数据有标注的间隙 | 测试数据未标注间隙 | |
实际上应该标注的间隙 | TP | FN |
实际上没有标注的间隙 | FP | TN |
根据上表,对标注间隙的查准率(P)、查全率(R)定义如下:
尽管在理论上查准率与查全率是不相关的,但是在实际应用中,只要一个值较高,另一个值就必然有所牺牲。所以在对一个分类器进行评估的时候,经常采用的是LF:
其中两个值的调和平均会更加接近两个数中较小的那个。因此,如果LF很高的话,那么LP和LR都会很高。
过拟合现象:是指在调试一个统计模型时,使用参数过多,当可选择的参数的自由度超过数据集中所包含内容时,会减少或破坏模型一般化的能力更甚于适应训练数据集。过拟合的可能性不只取决于参数个数和数据集,也跟模型架构与数据集的一致性有关。此外对比于数据集中预期的噪声或错误数量,跟模型错误的数量也有关。
(4)、实验结果分析
测试过拟合的数据组的结果指标对比可以说明在训练数据集上效果良好,有过拟合风险。
由于空间限制,只将三组数据中的各类标签的LF值单独抽出比较分析,得到了数据集,由此实验可以推测由于结束标签基于明显的符号特征之上,所以其标注获得的LF值就较为稳定,所以如果将分类器单独分为结束分类器,和开始分类器时,对于数据分类器的训练数据就可以适当的减少,而对于开始标签的LF可以推测,开始标签本身基于自定规则而得到的,那么开始标签的LF值可能会因为规则的详细度而提高,从曲线可以明显看出开始标签的得到的特征情况越多效果就会越好,对于即使开始又是结束标签而言,由于时前两种情况的综合共同情况导致,所以只要有一种偏向于提高,那么它也会随之提高。
由于在现代研究中,对于医学古汉语文本的实际处理实验比较少数,而且实验目的是为了建立对医学古汉语文本数据信息库的更加稀少,所以本身这次实验就为获取得到例如医学古汉语文本断句处理的相关详细规则,所以在本次探索性实验中获取了宝贵的数据材料,也制定了一些基础规则方便后续扩展医学古汉语文本数据集打下了坚实的基础。
四、提取标注内容建立医学古汉语文本的句子识别语料。
所述基于朴素贝叶斯的句子识别方法:
将训练数据集通过朴素贝叶斯方法计算得到断句分类器。
根据分类器的数据值,通过再朴素贝叶斯模型将新的数据集进行断句处理。
最终得到分句结果。在实验最后,提出了对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析了数据结果。
所述朴素贝叶斯模型:
朴素贝叶斯模型(Naive Bayesian Model,NBM)作为最为广泛的分类模型之一,也因为其实用性和易理解性,在本次试验本选为实验方法。接下来简单介绍一下。
首先,朴素贝叶斯模型是基于贝叶斯准则与特征条件独立假设的分类的。而分类任务可以被看作为给定一个测试样例d后估计它的后验概率,计算式表达为
Pr=(C=cj|d)
接着,实验需要考虑哪个类别cj对应概率最大,再将这个类别便赋予样例d。然后,可以认为在数据集D中,令其中各元素为用离散值表示的属性集合,令C为具有不通知的类别属性。再接着,给定一个测试样例d,得到其对应属性值,其表达式如下:
d=<A1=a1,…,A|A|=a|A|>
由于预测类别是cj,那么Pr(C=cj|A1=a1,…,A|A|=a|A|)最大。
cj被称为最大后验概率(MAP)假设。根据贝叶斯准则,其中可以在此被表示为:
其中Pr(C=cj)是类别cj的先验概率,用于训练样本估计。
对于Pr(A1=a1,…,A|A|=a|A||C=cj),可展开得到:
Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)Pr(A2=a2,…,A|A|=a|A||C=cj)
再接着第二项Pr(A2=a2,…,A|A|=a|A||C=cj)递归展开。但与此同时需要做出之前介绍朴素贝叶斯模型时除了贝叶斯准则外的另外一个条件,一个重要的假设,即条件独立假设。假设所有属性都是条件独立于类别C=cj,即准确的表示:
Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)=Pr(A1=a1|C=cj)
同理可推,可以得到:
之后,再从训练数据中统计的得到先验概率Pr(C=cj)和条件概率Pr(Ai=ai|C=cj),而这些的计算如下:
所以根据上面公式可以推导出,在给定测试样例的情况下,通过计算下面的式子来得出最有可能的类别:
所述基于朴素贝叶斯句子识别处理:
数据文本样例
《典术》云∶尧时天降精于庭为韭,感百阴之气为菖蒲。故曰尧韭。
建立样本的训练数据集
*《典术》云∶a尧时天降精于庭为韭,感百阴之气为菖蒲。$a故曰尧韭。$
此处在文本开始设置*为开始标志,$为结束标志;其中实验规定将类别集合C设置为Y,而集合Y={1,2,3,4,5},“1”代表开始,“2”代表结束,“3”代表即是开始又是结束位置,“4”代表句子中间,“5”代表其他;将集合D设置为X,特征属性设置提取是为间隙前后一元组而产生的,所以X=<p1_蒲,n1韭,p1_阴,p1_术,n1_曰,n1_时,p1_∶,n1_典,p1_为,p1_,p1_感,p1_庭,p1_尧,p1_*,p1_天,p1_云,n1_降,p1_气,p1_于,n1_菖,n1_精,p1_百,p1_。,p1_,,n1_故,n1_之,p1_》,p1_《,n1_术,n1_庭,n1_蒲,p1_曰,n1_∶,p1_典,n1_阴,p1_时,n1_为,n1_感,n1_#,n1_,n1_尧,p1_韭,n1_天,n1_于,n1_,,n1_云,n1_气,p1_菖,n1_百,p1_故,p1_精,n1_。,p1_降,n1_《,n1_》,p1_之>。
其中传入值为s为特征,S={0,1,2,3,4},其中0代表开始,1代表结束,2代表既是开始又是结束,3代表句中,4代表其他;x则是原文本的间隙位置。
如表2,所展示的定义为间隙前一位字符的类别属性矩阵的详细数据信息,如表3为特征集合X对于训练数据间隙前一字符的属性特征的二维矩阵,其中用1代表特征属性的存在,0代表不存在。
根据表4、表5的矩阵数据展示,经过统计便可以得到先验概率以及条件概率。之后,在得到测试样例的特征属性情况下,根据公式计算比较便可以得到测试样例的标签类别。
表4样例文本对应类别矩阵
表5样例间隙的前一字符特征矩阵
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础上,对于该方法所需的特征属性项再添加二元组与三元组为特征属性或者进行一元组、二元组、三元组多样特征属性组合,得到多组实验数据结果,最后得出最佳模型;进而完成医学古汉语句子切分任务;
所述基于贝叶斯统计学习的医学古汉语句子切分方法,具体包括:
对一定量的数据文本进行手工标注:
将手工标注的数据文本用来训练朴素贝叶斯模型的分类器;将训练数据集通过朴素贝叶斯方法计算得到断句分类器;根据分类器的数据值,再通过朴素贝叶斯模型将新的数据集进行断句处理,最终得到分句结果;在实验最后,提出对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析数据结果;
使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析;
使用提取标注的结果内容按照处理任务语料库所需的文本规则,建立医学古汉语文本的句子识别语料;
对一定量的数据文本进行手工标注,具体包括:针对医学古文本中句子识别的转化及句子的标注;直接关注句子的开头和结尾处,之后再使用预先规定好的记号,进行标签标记;标签内为有效句子,标签外则无效;
制定文本处理的断句规则:提出表示句子“开始”和“结尾”的特征如何得到,再接着,使用文本句子特征提取方法,制定文本处理的断句规则;
表征句子结束的归纳:根据标点的特性明确说明对于句子的结束位置所对应的符号标记,然而再根据这些特点对实际内容进行分析;
表征句子开始的归纳:分析开始特征时优先分析开始特征是否带有一些符号特征,从而再根据这些特征对句子开始像句子结束一样快速标记;
原文部分内容缺失:根据原文本上下文关系得到文本内容有所缺失,以及查阅资料后得出一些断句规则。
2.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,数据集包括:将中国古代医学名著作为数据分析的基础数据库,采用随机抽取章节的方式提取了40%的章节作为实验数据集,然后人工的方式根据之前所定下的规则对其进行开始和结尾标注处理;标注完成以后将数据集按照不同比例分配进行实验;最后,测试实验模型是否有过拟合现象的出现;
所述性能指标的评估,包括:
利用标注的查准率LP、查全率LR和F1值用于评估断句三种标签的性能,对实验方法的性能进行有效的判断;
利用标注的查准率LP、查全率LR定义如下:
在实际应用中,只要一个值较高,另一个值就必然有所牺牲;所以在对一个分类器进行评估的时候,采用LF:
其中两个值的调和平均会更加接近两个数中较小的那个;因此,如果LF很高的话,那么LP和LR都会很高;
所述过拟合现象:在调试一个统计模型时,使用参数过多,当可选择的参数的自由度超过数据集中所包含内容时,会减少或破坏模型一般化的能力更甚于适应训练数据集;过拟合不只取决于参数个数和数据集,也跟模型架构与数据集的一致性有关。
3.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,所述朴素贝叶斯的方法,包括:
首先,朴素贝叶斯模型是基于贝叶斯准则与特征条件独立假设分类的;而分类任务被看作为给定一个测试样例d后估计它的后验概率,计算式表达为
Pr(C=cj|d);
接着,实验分析哪个类别cj对应概率最大,再将这个类别便赋予样例d;然后,认为在数据集D中,令其中各元素为用离散值表示的属性集合,令C为具有不通知的类别属性;再接着,给定一个测试样例d,得到其对应属性值,其表达式如下:
d=<A1=a1,…,A|A|=a|A|>;
由于预测类别是cj,那么Pr(C=cj|A1=a1,…,A|A|=a|A|)最大;cj被称为最大后验概率MAP假设;根据贝叶斯准则,其中在此被表示为:
其中Pr(C=cj)是类别;cj为先验概率,用于训练样本估计;
对于Pr(A1=a1,…,A|A|=a|A|C=cj),展开得到:
Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)Pr(A2=a2,…,A|A|=a|A|C=cj);
再接着第二项Pr(A2=a2,…,A|A|=a|A||C=cj)递归展开;假设所有属性都是条件独立于类别C=cj,即准确的表示:
Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)=Pr(A1=a1|C=cj),
同理可推,得到:
之后,再从训练数据中统计的得到先验概率Pr(C=cj)和条件概率Pr(Ai=ai|C=cj),而这些的计算如下:
所以根据上面公式推导出,在给定测试样例的情况下,通过计算下面的式子来得出最有可能的类别:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710800571.7A CN107491439B (zh) | 2017-09-07 | 2017-09-07 | 一种基于贝叶斯统计学习的医学古汉语句子切分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710800571.7A CN107491439B (zh) | 2017-09-07 | 2017-09-07 | 一种基于贝叶斯统计学习的医学古汉语句子切分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107491439A CN107491439A (zh) | 2017-12-19 |
CN107491439B true CN107491439B (zh) | 2020-05-19 |
Family
ID=60651573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710800571.7A Active CN107491439B (zh) | 2017-09-07 | 2017-09-07 | 一种基于贝叶斯统计学习的医学古汉语句子切分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107491439B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009156B (zh) * | 2017-12-27 | 2020-05-19 | 成都信息工程大学 | 一种基于部分监督学习的中文概括性文本切分方法 |
CN108229462A (zh) * | 2018-01-22 | 2018-06-29 | 维沃移动通信有限公司 | 一种缺损内容的确定方法和移动终端 |
CN108519978A (zh) * | 2018-04-10 | 2018-09-11 | 成都信息工程大学 | 一种基于主动学习的中文正式文本分词方法 |
CN110020428B (zh) * | 2018-07-19 | 2023-05-23 | 成都信息工程大学 | 一种基于半马尔可夫的联合识别和规范化中医症状名的方法 |
CN109271630B (zh) * | 2018-09-11 | 2022-07-05 | 成都信息工程大学 | 一种基于自然语言处理的智能标注方法及装置 |
CN113111652B (zh) * | 2020-01-13 | 2024-02-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算设备 |
CN111259667A (zh) * | 2020-01-16 | 2020-06-09 | 上海国民集团健康科技有限公司 | 一种中医分词算法 |
CN111401004B (zh) * | 2020-03-28 | 2023-12-22 | 苏州机数芯微科技有限公司 | 一种基于机器学习的文章断句方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727462A (zh) * | 2008-10-17 | 2010-06-09 | 北京大学 | 中文比较句分类器模型生成、中文比较句识别方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10476908B2 (en) * | 2015-08-10 | 2019-11-12 | Allure Security Technology Inc. | Generating highly realistic decoy email and documents |
CN106126620A (zh) * | 2016-06-22 | 2016-11-16 | 北京鼎泰智源科技有限公司 | 基于机器学习的中文自动文摘方法 |
-
2017
- 2017-09-07 CN CN201710800571.7A patent/CN107491439B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727462A (zh) * | 2008-10-17 | 2010-06-09 | 北京大学 | 中文比较句分类器模型生成、中文比较句识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于属性相关的朴素贝叶斯分类算法;魏浩等;《河南科学》;20140131;第32卷(第1期);正文第43-45页 * |
基于贝叶斯分类器的混排文字切分与分类;肖波等;《计算机工程与应用》;20050401;正文第83-84页第2.2-2.4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107491439A (zh) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491439B (zh) | 一种基于贝叶斯统计学习的医学古汉语句子切分方法 | |
Quasthoff et al. | Corpus Portal for Search in Monolingual Corpora. | |
CN106897559B (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
CN108549639A (zh) | 基于多特征模板修正的中医医案命名识别方法及系统 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN102682120B (zh) | 一种网络评论精华文本的获取方法和装置 | |
Bellare et al. | Learning extractors from unlabeled text using relevant databases | |
TW200811673A (en) | Method for conversion between simplified and traditional Chinese characters and system thereof | |
Cui et al. | Dataset for the first evaluation on Chinese machine reading comprehension | |
Björkelund et al. | IMS at the CoNLL 2017 UD shared task: CRFs and perceptrons meet neural networks | |
CN109344403A (zh) | 一种增强语义特征嵌入的文本表示方法 | |
CN104598530B (zh) | 一种领域术语抽取的方法 | |
Liu et al. | Palaeoboganium gen. nov. from the Middle Jurassic of China (Coleoptera: Cucujoidea: Boganiidae): the first cycad pollinators? | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
Hapsari et al. | Cultural words and the translation in Twilight | |
CN110532538B (zh) | 财产纠纷裁判文书关键实体抽取算法 | |
Li et al. | Effective document-level features for Chinese patent word segmentation | |
Zhang et al. | Semi-automatic emotion recognition from textual input based on the constructed emotion thesaurus | |
CN100403240C (zh) | 计算机汉字编码输入方法 | |
CN114722829A (zh) | 一种基于语言模型的修辞古诗自动生成方法 | |
Li et al. | Modeling monolingual character alignment for automatic evaluation of Chinese translation | |
Graham | Using natural language processing to search for textual references | |
Yu et al. | If you even don’t have a bit of Bible: Learning delexicalized POS taggers | |
TWI541664B (zh) | Computer - aided selection of word - free input |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |