CN114444467A

CN114444467A - 一种中医文献内容分析方法和装置

Info

Publication number: CN114444467A
Application number: CN202111581455.3A
Authority: CN
Inventors: 冯岩松; 杨威; 胡楠; 贾爱霞
Original assignee: INSTITUTE OF BASIC THEORY CACMS; Peking University
Current assignee: INSTITUTE OF BASIC THEORY CACMS; Peking University
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-05-06

Abstract

本发明公开了一种中医文献内容分析方法和装置。本方法为：对获取的文言文本进行预处理，得到无监督预训练数据对所选大规模语言模型Bert进行预训练；将上述预训练后的模型Bert与条件随机场模型结合得到序列标注模型；用标注的中医文献内容分析数据对得到的序列标注模型进行训练；将待分析中医文献的每个段落切分成子句输入所述序列标注模型，得到每个子句的编码序列，根据子句的编码序列生成对应子句所属标签的概率分布序列；将子句的概率分布序列输入条件随机场模型，得到子句的序列标注为不同标签序列的概率；选择最大概率的标签序列作为预测结果，合并相邻预测为同标签的子句，连接文献各个段落，得到所述中医文献的内容分析结果。

Description

一种中医文献内容分析方法和装置

技术领域

本发明属于自然语言序列标注和检索领域，涉及一种基于大规模文言文预训练语言模型的中医文献内容分析方法。该方法能够利用大规模预训练语言模型和条件随机场对中医相关文本进行内容分析，分割文本段并标注每个文本段的属性标签，如当年的五运六气，相关作用，疾病的表现、症状和诊疗方法等。

背景技术

随着机器学习和人工智能技术的发展，机器在众多自然语言处理任务中取得了优秀的表现。尤其是在一些需要大量人力的重复工作中，机器取得了优异的成果，帮助人们节省了大量时间。机器序列标注任务要求模型自动对输入的自然语言序列的每一个元素都预测一个标签。序列标注任务是自然语言处理的重要任务之一，也是衡量机器理解人类语言能力的重要标准。

中医是在我国医疗的长期实践中逐步形成并发展成的医学理论体系，其基本理论在春秋战国时期已经形成，之后历代均有总结发展。中医以阴阳五行为理论基础，讲求“天人合一”、“天人相应”的整体观及辩证法，其内容包括精气学说、阴阳五行学说、气血津液、藏象、经络、体质、病因、发病、病机、治则、养生等。中医许多经验性方法在当代也得到了新的发展和支持。对中医重要典籍文献如黄帝内经等进行内容分析，对医学、历史和文化的研究，都有重要意义。

为了让机器解决该类文本内容分析问题，经常使用神经网络技术对其进行处理。神经网络是自然语言处理中被广泛使用的一种技术，能够通过巨大的网络结构抽取文本中的高层次特征。序列标注任务通常比较繁琐，并且需要一定的专业知识，很难得到大量的训练数据用于神经网络的训练。而大规模预训练语言模型能够从大量同类语料中使用无监督的方法较好地建模文本信息，并且迁移到具体的下游任务，具有稳定而优秀的表现。中医文献一般用文言的形式进行表述，同时也有其特有的术语和表达方式，利用中文互联网上可利用的大量文言文本进行预训练并迁移到中医文本上的序列标注任务进行调整，是对中医文献进行内容分析的有效方法。同时条件随机场模型可以用于建模各个序列标注的标签之间的转移概率，建立标签之间的上下文联系，提升序列标注效果，通常与大规模预训练语言模型结合使用。

发明内容

本发明的目的是提供一种使用基于文言文本的大规模预训练语言模型，结合条件随机场方法，对中医文献进行自动化的内容分析，解析标注出文句属性。从而使机器能协助中医研究者对于中国古代医学、人文、物候理论进行检索、归类、分析以及为中医从业者提供医疗建议。

为了达到上述目的，本发明的技术方案为：

一种基于大规模文言文预训练语言模型的中医文本内容分析方法，包括以下步骤：

利用中文互联网上的大量文言文本对设计一系列无监督任务，对大规模语言模型Bert(参考Devlin,Jacob et al.“BERT:Pre-training of Deep BidirectionalTransformers for Language Understanding.”NAACL(2019))进行预训练；

将上述预训练后的大规模语言模型Bert和条件随机场模型结合得到初始序列标注模型；

给定一篇以带标点的文本形式呈现的中医文献，将文章的每个段落切分成子句；

将中医文献以段落为单位输入序列标注模型，得到每个子句属于某个标签的原始概率；

将子句编码序列输入条件随机场，得到子句序列标注为不同标签序列的概率；

训练调优时，使用已标注的中医序列标注语料，采用最大似然损失函数，利用反向梯度传播，对初始序列标注模型进行参数调整；

预测时，选择最大概率的标签序列作为预测结果，合并相邻同标签子句，连接文献各个段落，得到输入的中医文献的内容分析结果。

进一步地，利用中文互联网上的大量文言文本对大规模语言模型Bert进行预训练，包括：利用殆知阁古代文献对Bert-Large模型进行预训练，预训练采用无监督的方式，即不需要人工对数据进行标注。预训练任务有断句、标点、专名标注和字词挖空补全等。模型需预测对于纯文本在何处进行断句，以及断句处加什么标点；对带标点的文本中的专有名词进行标识，以及预测被替换为“[MASK]”的位置应当是什么字。

进一步地，将上述预训练后的大规模语言模型Bert和条件随机场模型结合得到初始序列标注模型，包括：将文本经过上述预训练后的语言模型输出的字编码序列根据子句切分方式分组，对每组所有字编码序列取平均得到一组子句编码序列，这组子句编码序列作为条件随机场模型的输入，条件随机场模型将输出子句序列被标注为不同标签序列的概率。语言模型的参数初始化为预训练后的参数，条件随机场模型的参数随机初始化。

进一步地，给定一篇以带标点的文本形式呈现的中医文献，将文章的每个段落切分成子句，包括：一次将输入文本的一段作为输入序列，并在“，”，“。”，“；”处进行切分，将文本段落切分成一组有序的子句A＝{a₁,a₂,……,a_m-1,a_m}。m为输入的段落中包含的子句数目。

进一步地，将中医文献以段落为单位输入序列标注模型，得到每个子句属于某个标签的原始概率，包括：将原文本的每个段落切分成一个序列，序列前后分别加上“[CLS]”和“[SEP]”标识，序列的每个元素是一个字，这样通过语言模型后可以得到每个字的向量编码；将每个子句对应的所有字的编码向量取平均之后，得到每个子句的编码向量，将这个编码向量经过全连接层映射到n维，n为属性标签数目，这里的属性标签指五运六气、疾病和治疗方法等。考虑到标注数据量比较少，为了便于模型训练，不加BIO前缀。将每个子句得到的n维向量归一化得到其属于n个标签的概率，第i个子句对应的概率分布向量表示为p_i，输入子句序列得到的概率分布序列为{p₁,p₂,……,p_m-1,p_m}。p_i(r)表示第i个子句属性标签为r的概率。

进一步地，将子句编码序列输入条件随机场，得到子句序列标注为每个标签序列的概率，包括：标签A到标签B的转移概率定义为标签A之后跟着标签B的概率q(a,b)。将输出的每个子句的原始概率乘以条件随机场中的转移概率，得到将子句序列标记A为标签序列R＝{r₁,r₂,……,r_m-1,r_m}的概率

进一步地，训练调优时，使用已标注的中医序列标注语料，采用最大似然损失函数，利用反向梯度传播，对初始序列标注模型进行参数调整，包括：处理人工标注的中医文献数据，得到每个子句的属性标签，具体操作是将每个子句的属性标签标为其所属文本段的属性标签，得到标准的子句标签序列R_g。利用最大似然损失函数和梯度下降方法优化语言模型和条件随机场的参数，使得

最大。

进一步地，预测时，选择最大概率的标签序列作为预测结果，合并相邻同标签子句，连接文献各个段落，得到输入的中医文献的内容分析结果，包括：取使得

最大的属性标签序列最为最终的标注序列

如果最终的子句标签序列

中存在k,使得

那么新的输出句子序列

标签序列为

重复这个过程，直到

中不存在两个相邻且相同的标签。按照原文中的段落排列顺序排列各个段落的内容分析结果，得到输入的中医文献的内容分析结果。

上述装置中的部分模块并非必须，删除或修改部分组件后依然能够正常工作。例如删除条件随机场部分后，该装置依然能够进行中医文献序列标注和内容分析。

本发明的有益效果如下：

本发明通过设计一系列无监督任务，使用中文互联网上海量文言文本资源对大规模语言模型进行预训练，使得模型拥有基本的对文言文本建模的能力。然后将预训练好的语言模型与条件随机场模型结合，在标注的中医文献数据上进行任务相关的参数调整。与传统只用任务相关的标注数据进行训练的方法对比，本发明能在用于训练的中医文本序列标注数据很少的情况下，获得出色的中医文献内容分析结果。同时，经由字编码向子句编码的转换，采用子句粒度的序列标注替代传统方法中字粒度的标注，模型在中医文献不同属性文段分割效果上也获得了很大的提升。本发明中使用大规模文言预训练模型能提高模型对于文言建模的能力，在序列标注训练数据有限的前提下大大提高了模型的最终效果。本发明中使用的条件随机场能更好地优化处理子句标签之间的依赖关系，使得能在不使用BIO体系(将标签位置信息作为标签前缀)的前提下能够让子句粒度标注合成更长的语句。本发明中使用的子句粒度标注相对于单字标注能大大降低需要标注的标签数和出错概率，也解决了单句标注将句子从中间进行截断的问题，从而大大提升最后的标注效果和可读性。

附图说明

图1为本发明实施例中的中医文献序列标注内容分析方法的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实例基于专家对于黄帝内经中数个年份的文本进行内容分析标注得到的数据集。本领域技术人员应该清楚地明白，在具体实施过程中也可以采用其他候选信息集和问题集。

具体地，该实例来自于黄帝内经中甲子岁、乙丑岁、丙寅岁和庚子岁四篇。候选属性标签一共47个，涉及五运六气、天人影响和诊疗方案等。

步骤一：

从殆知阁古代文献资源获得大量文言语料并根据预训练任务的需求对语料进行处理获得无监督预训练数据：

●断句预测：序列标注任务。去掉文章中所有的标点符号，将剩下的文本连接起来。对于在原始文章中后面跟了标点的字符标签设置为1，其余设置为0。

●标点预测：将文章中所有标点替换为“[MASK]”，预测“[MASK]”位置原来是什么标点。

●专名预测：序列标注任务。识别文章中专有名词。使用BIO标签，专有名词的第一个字标注为“B-[专有名词类型]”，专有名词中其余字标注为“I-[专有名词类型]”，剩下的字标注为“O”。专有名词类型可以是人名、地名等。

●字词填空：挖掉输入字符中的某个字或连续几个字，预测这里应当是什么。

用无监督预训练数据对于大规模语言模型进行预训练。大规模语言模型的结构采用Bert-Large的结构。

步骤二：

生成输入数据。识别标注的语料中的所有属性标签，一共获得47个标签，且不存在没有标注标签的子句。因为标签比较多，且训练语料比较少，所以不采用一般序列标注问题会采用的BIO标签处理。将输入文献篇章根据原来的分段分成多个段落，每一个段落作为一个输入数据，如果输入段落长度大于510，则在最靠中间的句号位置截成两个段落，以满足Bert-Large的输入序列长度要求。在“，”、“。”、“；”和“？”位置对输入的段落进行切分，得到输入的段落对应的一组子句。如果是训练数据，每个子句对应的序列标注标签为子句所属的标注单元对应的标签。

步骤三：

获得预测概率。将子句序列输入大规模预训练语言模型，获得每个字对应的字向量，然后把每个子句包含的所有字的字向量取平均，得到子句的编码。将子句的编码通过一个维数为1024*47的全连接层，映射为47维向量，并通过Softmax获得归一化原始概率，即每个子句属于47个属性标签的概率。将原始概率序列输入条件随机场，获得和转移概率相乘后的最大序列概率对应的标签序列。训练时采用最大似然优化，优化函数为：

其中

代表第i个子句的真实标签，其余字符的含义与发明内容一节相同。

预测时，选取概率最大的标签序列。

步骤四：

合并相邻同标签子句。如果相邻的子句对应的标签相同，那么将这些子句拼接起来，标签是其共享的标签。这样就得到了中医文献内容分析的文段分割方式，以及每个文段对应的属性标签，方便后续进一步的搜索和分析。

我们采用4折交叉验证，每一次将标注的四篇文献其中三篇作为训练数据，剩下一篇作为测试数据，报告结果如下所示：

训练篇目	测试篇目	标签准确率	内容分析准确率	内容分析召回率	内容分析F1值
						乙丑岁,丙寅岁,庚子岁	甲子岁	79.2％	72.2％	72.9％	72.9％
甲子岁，丙寅岁，庚子岁	乙丑岁	78.5％	69.4％	74.6％	71.9％
						乙丑岁，甲子岁，庚子岁	丙寅岁	74.6％	65.0％	71.2％	67.9％
乙丑岁，丙寅岁，甲子岁	庚子岁	55.5％	55.1％	58.4％	56.7％

标签准确率指的是进行子句合并前每个子句预测标签和标注的子句标签对应的比例，如果标注时一个子句并非单独的内容分析单元，那么子句的标注标签为其所在的标注单元的标签。内容分析准确率，召回率和F1值是合并子句之后的内容分析结果和标注的结果之间进行比对。内容内容分析准确率为包含在标注结果之中的预测文本段(包含标签)占总预测文本段的比例；内容分析召回率为被预测出来的标注文本段(包括标签)占总标注文本段的比例。

每一个标签的内容分析F1值为

最后的内容分析F1值是所有标签内容分析F1值取平均。

上述各模块的具体实现方式参见前文对本发明方法的说明。

本发明的另一实施例提供一种电子装置(计算机、服务器等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

本发明未详细阐述的部分属于本领域技术人员的公知技术。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种中医文献内容分析方法，其步骤包括：

对获取的文言文本进行预处理，得到无监督预训练数据；然后利用所述无监督预训练数据对所选大规模语言模型Bert进行预训练；

将上述预训练后的大规模语言模型Bert与条件随机场模型结合得到序列标注模型；

用标注的中医文献内容分析数据对得到的序列标注模型进行训练，调整序列标注模型的参数；

对于一篇待分析中医文献，将所述中医文献的每个段落切分成子句；

将所述中医文献以段落为单位输入所述序列标注模型，得到段落中每个字的编码，然后通过编码向量平均的方式得到各段落中一组子句的编码序列，根据该组子句的编码序列生成该组子句所属标签的概率分布序列；

将子句的概率分布序列输入所述序列标注模型的条件随机场模型，得到所述子句的序列标注为不同标签序列的概率；选择最大概率的标签序列作为预测结果，合并相邻同标签子句，连接所述中医文献各个段落，得到所述中医文献的内容分析结果。

2.根据权利要求1所述的方法，其特征在于，对获取的文言文本进行预处理，得到无监督预训练数据的方法为：

断句预测：去掉待处理文言文本中的标点符号，将剩下的文本连接起来；对于在所述待处理文言文本中后面出现标点的字符标签设置为1，其余设置为0；

标点预测：将所述待处理文言文本中所有标点替换为设定符号“[MASK]”；

专名预测：识别所述待处理文言文本中的设定专有名词，将所述专有名词的第一个字标注为“B-[专有名词类型]”，专有名词中其余字标注为“I-[专有名词类型]”，剩下的字标注为“O”；

字词填空：挖掉所述待处理文言文本中的若干个连续字，用于预测所挖掉的信息。

3.根据权利要求1所述的方法，其特征在于，将所述中医文献中每个段落切分成一组有序的子句A＝{a₁,a₂,……,a_m-1,a_m}并输入所述序列标注模型；其中，m为输入的段落中包含的子句数目。

4.根据权利要求1或2或3所述的方法，其特征在于，得到每个子句所属标签的方法为：将所述子句输入所述序列标注模型中的预训练后的大规模语言模型Bert，得到所述子句中每个字的向量编码；将所述子句对应的所有字的编码向量取平均之后，得到所述子句的编码向量，将所述编码向量经过全连接层映射到n维，n为属性标签数目；将得到的n维向量归一化，得到所述子句所属标签的概率分布；然后通过条件随机场，以标签序列概率最大化为原则，预测子句序列所对应的标签序列。

5.根据权利要求1所述的方法，其特征在于，利用交叉熵损失和反向梯度传播，对大规模语言模型的参数进行预训练；使用已标注的中医序列标注语料，采用最大似然损失函数，利用反向梯度传播，对所述序列标注模型进行训练调优。

6.一种中医文献内容分析装置，其特征在于，包括数据预处理单元、模型训练单元、序列标注模型；其中，

所述数据预处理单元，用于对获取的文言文本进行预处理，得到无监督预训练数据；

所述模型训练单元，用于利用所述无监督预训练数据对所选大规模语言模型Bert进行预训练，得到预训练后的大规模语言模型Bert；

所述序列标注模型包括预训练后的大规模语言模型Bert与条件随机场模型，用于将待处理中医文献以段落为单位输入预训练后的大规模语言模型Bert，得到段落中每个字的编码，然后通过编码向量平均的方式得到各段落中一组子句的编码序列，根据该组子句的编码序列生成该组子句所属标签的概率分布序列并输入所述条件随机场模型，得到所述子句的序列标注为不同标签序列的概率；然后选择最大概率的标签序列作为预测结果，合并相邻同标签子句，连接所述中医文献各个段落，得到所述中医文献的内容分析结果。

7.根据权利要求6所述的中医文献内容分析装置，其特征在于，所述预训练后的大规模语言模型Bert对输入的子句进行处理，得到所述子句中每个字的向量编码；将所述子句对应的所有字的编码向量取平均之后，得到所述子句的编码向量，将所述编码向量经过全连接层映射到n维，n为属性标签数目；将得到的n维向量归一化，得到所述子句所属标签的概率分布。

8.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。