CN116092699A

CN116092699A - 一种基于预训练模型的癌症问答交互方法

Info

Publication number: CN116092699A
Application number: CN202111304894.XA
Authority: CN
Inventors: 童云飞; 张超仁; 邓天然
Original assignee: Shanghai Yanghe Huajian Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Yanghe Huajian Artificial Intelligence Technology Co ltd
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2023-05-09

Abstract

本发明涉及一种基于预训练模型的癌症问答交互方法，其中，包括：步骤1：收集并整理癌症和诱因数据，训练关于癌症的联合意图识别和实体槽位填充的BERT模型；步骤2：设置ERNIE模型参数，进行ERNIE模型训练；步骤3：收集癌症医疗数据，并对数据进行预处理，使用Transformer‑XL预训练模型进行微调训练，得到癌症的自然语言生成Transformer‑XL模型；步骤4：输入想要咨询的问题，然后将文本输入到训练好的BERT模型，进行癌症意图识别和实体槽位填充，以计算出获得的实体和意图置信度，使用训练好的文本相似度计算的ERNIE模型，计算出每一条的相似度，使用癌症的自然语言生成Transformer‑XL模型进行回答。

Description

一种基于预训练模型的癌症问答交互方法

技术领域

本发明专利涉及医疗智能问答领域，尤其涉及一种基于预训|练模型的癌症问答交互方法。

背景技术

近些年在″互联网+″的浪潮下，智能问诊技术蓬勃发展，患者或者家属可以在与医生沟通之前，通过手机或PC端进入医院智能问诊模块中，输入患者的基本信息、症状、既往病史、过敏史等信息，系统将初步形成诊断报告，以减少医生与患者的沟通时间，大大提升医患沟通效率，同时在患者的日常维护中，智能问诊也能够帮助患者看病和解决一些疑惑，从而达到心理安抚和辅助治疗的目的。从长远来看，也能拿帮助帮助患者记录和管理病情情况，从而给医生提供更全面的信息，帮助患者更好的治疗。

发明内容

本发明的目的在于提供一种基于预训练模型的癌症问答交互方法，用于解决癌症患者和医生之间沟通效率和患者长期维护难的问题。

本发明一种基于预训|练模型的癌症问答交互方法，其中，包括：步骤1：收集并整理癌症和诱因数据，设置BERT模型参数，训练关于癌症的联合意图识别和实体槽位填充的BERT模型；步骤2：对步骤1收集并整理癌症和诱因数据进行分型，对于同实体和意图的问句作为相似度为1数据，对没有关系的数据，定义相似度为0；设置 ERNIE模型参数，进行ERNIE模型训|练，保存最好的ERNIE模型和训练后的ERNIE模型，对比在测试集上效果好的ERNIE模型作为进行癌症文本相似度计算的ERNIE模型；步骤3：收集癌症医疗数据，并对数据进行预处理，使用Transformer-XL预训|练模型进行微调训l 练，得到癌症的自然语言生成Transformer-XL模型；步骤4：输入想要咨询的问题，然后将文本输入到训练好的BERT模型，进行癌症意图识别和实体槽位填充，以计算出获得的实体和意图置信度，当置信度大于一第一阈值，在数据库中获得答案并输出；当置信度小于等于该第一阈值，则从网上搜索答案，然后将句子和用户的问题进行匹配，使用训|练好的文本相似度计算的ERNIE模型，计算出每一条的相似度，将相似度最高的置信度与第二阈值进行比较，如果大于该第二阈值，则获取对应网站的答案并输出；如果置信度小于等于该第二阈值，则使用癌症的自然语言生成Transformer-XL模型进行回答。

根据本发明所述的基于预训练模型的癌症问答交互方法的一实施例，其中，癌症和诱因数据包括：癌症的意图和实体槽位，意图包括：买药、治疗方式、饮食注意事项以及疾病发病原因，实体槽位包括常见癌症类型；设置BERT模型参数包括：最大长度为50，批量大小为128，Adam用于优化，初始学习率为5e-5，Dropout为0.1，最大训练次数epoch为20。

根据本发明所述的基于预训练模型的癌症问答交互方法的一实施例，其中，步骤2的设置ERNIE模型参数包括：批量大小为128，文本最大长度：128，最大训|练次数epoch：10，初始学习率5e-5。

根据本发明所述的基于预训练模型的癌症问答交互方法的一实施例，其中，癌症医疗数据包括：癌症相关的文章、病历、报告、药物、问诊以及医疗开源数据集，癌症医疗数据的格式为{″prompt″：..，″text″：...}的json文件。

根据本发明所述的基于预训练模型的癌症问答交互方法的一实施例，其中，数据进行预处理包括：数据清洗，包括：全角与半角的转化、文本中大写数字转化为小写数字、文本中大写字母转化为小写字母、文本中的表情符号去除、去除文本中所有的字符、中文文本分词、繁体中文与简体中文转换、中文文本停用词过滤以及敏感词去除。

根据本发明所述的基于预训练模型的癌症问答交互方法的一实施例，其中，步骤3的使用Transformer-XL预训|练模型进行微调训l练的训练参数为：批量大小为16，文本最大长度：512，最大训l练次数epoch： 40，初始学习率1e-5。

根据本发明所述的基于预训练模型的癌症问答交互方法的一实施例，其中，第一阈值为0.8。

根据本发明所述的基于预训练模型的癌症问答交互方法的一实施例，其中，第二阈值为0.9。

根据本发明所述的基于预训练模型的癌症问答交互方法的一实施例，其中，在进行回答后，继续咨询用户是否愿意建立患者档案，如果不愿意则咨询结束或者咨询下一个问题，如果愿意，则咨询用户的：年龄、体重、性别、过敏情况、相关病史、家族病史、患病时间以及所使用的药物信息。

本发明可以解决癌症患者在日常生活中遇到问题不能解决的困境；记录患者日常问题形成档案，解决数据碎片化从而帮助医生更好制定治疗方案；也可以作为患者就诊前的预问诊，从而提升就诊效率。

附图说明

图1癌症问答交互方法流程图；

图2右侧未意图识别示意和左侧为实体槽位填充模型数据。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明使用中文医疗对话训|练预训|练语言模型，所使用的数据来自于开源数据，总对话数180万，其中本发明使用的癌症问答数据来自于开源数据集(Chinese medicaldialogue data)和其他开源医疗对话数据集中整理所得。使用上面开源数据，本发明开发一种结合预训练模型和癌症问答数据的癌症问答系统，本发明的重点是作为一种预问诊和患者关怀的手段，能够有效提升癌症患者和医生之间的沟通效率，同时对患者进行日常心理维护和疑问解答，在医疗系统中也可以帮助患者建立长期的病例存档，从而达到提升癌症患者的生存期，降低医疗资源消耗的目的。

基于自然语言处理中的深度学习算法，本发明提出一种基于预训练模型的癌症问答系统和方法。本发明流程图如图1所示，其中重点包括四部分；第一部分是基于预训练模型的意图识别和实体槽位填充；第二部分是基于预训练模型的文本相似度计算；第三部分是基于预训|练模型的问答生成；第四部分是为患者建档。

自然语言理解(NLU)对于面向目标的口语对话系统的性能至关重要。NLU通常包括意图识别和实体槽位填充任务，旨在为用户话语形成语义解析。意图识别侧重于预测查询的意图，而实体槽位填充则提取语义概念。常见的任务中，经常需要人工标注数据，但是直接识别小规模的人工标签训|练数据会导致泛化能力差，尤其是对于稀有单词。最近，一种新的语言表示模型BERT(Bidirectional Encoder Representations from Transformers：Transformer的双向编码器表示)有助于在大型未标记的语料库上进行预训|练深层的双向表示，并为广泛的语言模型创建预训|练模型。经过简单的微调，可以完成各种自然语言处理任务。如图2所示为本发明标注的数据，其中包括疾病的实体 (左)和意图(右)，本发明使用的是一种联合意图识别和槽位填充的BERT模型，网络结构由阿里巴巴语音实验室提出，其中本发明使用模型是基于中文语料训|练的bert-base-chinese，该模型具有12层，768个隐藏状态和12个头。最大长度为50，批量大小为128，Adam用于优化，初始学习率为5e-5，Dropout(随机裁剪)为0.1，最大训练次数epoch 为20。然后在本发明收集的癌症数据上进行微调，其中意图包括：买药、治疗方式、饮食注意事项、疾病发病原因等等50多种，实体槽位包括：肺癌、乳腺癌、胰腺癌等80多种常见实体类型，每一类型本发明均采用如图2的方式进行描述，其中左边为肺癌/肺部疾病的常见说法，右边为购买药物常见的说法。经过训练之后即可得到癌症的意图识别和实体槽位填充模型。

经过实体槽位填充和意图识别本发明就能在问题库里面找到对应的答案，并输出给用户，但是并不是用户的每一句话都能够有效的识别出来，因此本发明需要将未能识别到的用户咨询在网站或者数据库种进行搜索，其中网站包括百度知道、知乎、悟空问答和爱问知识人，通过计算用户问题和搜索到的第一条进行文本相似性搜索。文本相似性计算是自然语言处理中一个重要的基础问题，NLP领域的很多任务都可以抽象为文本相似性计算任务。例如，信息检索可以归结为查询项和文档的匹配，问答系统可以归结为问题和候选答案的匹配，对话系统可以归结为对话和回复的匹配。语义匹配在搜索优化、推荐系统、快速检索排序、智能客服上都有广泛的应用。如何提升文本匹配的准确度，是自然语言处理领域的一个重要挑战。本发明的文本相似性计算使用的预训练模型是ERNIE(EnhancedRepresentation through kNowledge IntEgration)，是百度提出的语义表示模型，基于Transformer Encoder，相较于BERT，ERNIE通过建模海量数据中的词、实体及实体关系，学习真实世界的语义知识。相较于BERT学习原始语言信号，ERNIE直接对先验语义知识单元进行建模，增强了模型语义表示能力。本发明使用ERNIE进行文本相似性计算，其中模型参数：批量大小为128，文本最大长度：128，最大训练次数epoch： 10，初始学习率5e-5。本发明收集的文本相似度计算数据案例

数据如表1所示，其中标签为1表示两种说法是同一个意思，标签为0的则相反。经过训|练之后得到癌症问答的文本相似性计算模型，用户的问题经过这一步之后，可能还存在不足的地方，因此本发明在第三部分通过自然语言生成模型进行答案生成。

text1	text2	label
			如何能治好肝部血管瘤？	得了肝血管瘤怎么治好	1
患上了血管瘤这种病能根治全愈的吗？	肝血管瘤用哪些方法能治愈	1
			怎样可以治愈肝部血管瘤？	哪些方法能治好血管瘤	1
肝血管瘤用哪些方法能治愈	要怎样才可以治好血管瘤	1
			血管瘤可以治好吗	血管瘤能用什么方法治愈	1
皮肤癌的病人吃什么食物有好处	有哪些方法能治愈血管瘤	0
			皮肤癌可以吃什么食物调节？	得了血管瘤能治愈吗	0
皮肤癌晚期患者饮食怎样护理	哪些方法能治好血管瘤	0
			皮肤癌晚期病人术后饮食	皮肤癌晚期病人饮食如何调理好	1
皮肤癌晚期吃什么好	皮肤癌晚期患者的饮食调理	1
			皮肤癌患者化疗时的饮食有哪些？	晚期皮肤癌吃哪些食物比较好？	1
皮肤癌晚期患者饮食怎么样调理	皮肤癌患者正在放疗期间，怎么用饮食疗法	1
			皮肤癌的早期饮食该怎么吃好呢？	皮肤癌的日常饮食食品有哪些	1
皮肤癌的饮食护理有哪些	皮肤癌放疗后饮食要注意哪些？	1
			皮肤癌的病人吃什么食物有好处	皮肤癌手术的费用	0
皮肤癌可以吃什么食物调节？	皮肤癌手术要多少费用	0
			皮肤癌晚期患者饮食怎样护理	皮肤癌要花多少钱	0
皮肤癌晚期患者饮食怎么样调理	皮肤癌微创手术价格	0

表1

自然语言生成(NLG)技术利用人工智能和语言学的方法来自动地生成可理解的自然语言文本。NLG降低了人类和计算机之间沟通的难度，被广泛应用于机器新闻写作、聊天机器人等领域。Transformer 作为一种特征提取器，在自然语言处理中有广泛的应用。但是需要对输入序列设置一个固定的长度，比如在BERT中，默认长度是512。如果文本序列长度短于固定长度，可以通过填充的方式来解决。如果序列长度超过固定长度，处理结果就比较差。Transformer-XL是对 Transformer的改进，主要是解决长序列的问题。Transformer-XL为了解决长序列的问题，对上一个segment做了缓存，可供当前segment使用，但是也带来了位置关系问题，为了解决位置问题，引入了相对位置编码。Transformer-XL模型是智源研究院发布。具体地，预训练模型使用来自百度百科、搜狗百科、知乎、百度知道的语料，一共303GB 数据。模型使用了GPT-3的训练结构，使用能够更好地处理长序列建模的Transformer-XL替代了GPT-3中的Transformer。模型的结构与 GPT-3(32层，隐表示维度2560，每层32个注意力头)基本相同。本发明使用的模型参数为批量大小为16，文本最大长度：512，最大训|练次数epoch：40，初始学习率1e-5。本发明使用收集到的数据对预训练模型进行微调，数据来至收集的癌症介绍、癌症相关的文章、癌症病历档案、医疗开源数据集等，数据格式如下：{″prompt″：宫颈腺癌简介，″text″：宫颈癌是指发生在子宫阴道部及宫颈管的恶性肿瘤，是最常见的妇科恶性肿瘤。原位癌高发年龄为30～35岁，浸润癌为45～55岁，近年来其发病有年轻化趋势。宫颈癌初期没有任何症状，后期可出现...}.数据经过训|练之后得到关于癌症问题的自然语言生成模型。

用户的问题经过解答之后，本发明需要咨询用户是否愿意建立档案，以便更好的回复用户的问题，档案内容包括性别、过敏史、体重、疾病史等等信息。档案的建立，可以有效帮助用户解决各个医院之间信息不通从而造成的反复检查问题，也能帮助患者记录重要的就诊和日常护理信息，从而提供更完整的信息给医生做出更合适的治疗方案。

通过以上四个部分，本发明能够获得一个癌症自动问答系统，其中前三部分均是在预训|练模型上进行微调得到的模型，不仅能够解决数据不足导致的模型泛化能力不足的问题，也能在后续数据增加的过程中不断的进行调整，使癌症问答系统具有不断优化的能力。

如图1所示，本发明使用一种包含四个部分，训|练关于癌症的联合意图识别和实体槽位填充的BERT模型，训|练癌症文本相似度计算的ERNIE模型，训l练癌症自然语言生成的Transformer-XL模型，模型验证和用户信息建档。

步骤1：训l练关于癌症的联合意图识别和实体槽位填充的BERT 模型。

步骤1.1：为了得到癌症的意图识别和实体槽位填充模型，本发明首先需要收集并且整理数据，数据收集格式如图2所示，其中意图包括：买药、治疗方式、饮食注意事项、疾病发病原因等等50多种，实体槽位包括：肺癌、乳腺癌、胰腺癌等80多种常见癌症类型，例子：″肺癌怎么治疗？”其中实体槽位是″肺癌″，意图是″治疗方案″，由于数据量过少，因此使用数据增强的方法：随机实体替换、近义近音字替换、随机字删除(内部细节：数字时间日期片段，内容不会删)、随机置换邻近的字：研表究明，汉字序顺并不定一影响文字的阅读理解、中文等价字替换(1一壹①，2二贰②)、翻译互转实现的增强、使用simbert做生成式相似句生成。数据准备之后就需要微调预训练模型。

步骤1.2：首先需要设置模型参数：最大长度为50，批量大小为 128，Adam用于优化，初始学习率为5e-5，Dropout(随机裁剪)为0.1，最大训练次数epoch为20。训练过程中保存在验证集上最好的模型和训|练20次的模型，然后对比在测试集上效果好的模型作为最后进行癌症意图识别和实体槽位填充的BERT模型。

步骤2：训|练癌症文本相似度计算的ERNIE模型。

步骤2.1：首先对步骤1.1中收集的数据，进行整理，对于同实体和意图的问句作为相似度为1数据，并且人工审核，并且对没有关系的数据，定义相似度为1，为了更好训练模型，本发明也收集了一些医疗相关的公开数据集，进一步增加模型的泛化能力，准备的数据如表1所示，然后收集到的数据进行步骤1.1中的数据增强。

步骤2.2：训练模型之前首先设置模型参数：批量大小为128，文本最大长度：128，最大训练次数epoch：10，初始学习率5e-5。经过训练保存最好的模型和训|练最终的模型，然后对比在测试集上效果好的模型作为最后进行癌症文本相似度计算的模型。

步骤3：训|练癌症自然语言生成的Transformer-XL模型。

步骤3.1：生成模型需要收集癌症相关的文章，病历，报告，药物，问诊，医疗开源数据集，数据格式为{″prompt″：..，″text″：...}的json 文件，然后进行数据清洗：全角与半角的转化、文本中大写数字转化为小写数字、文本中大写字母转化为小写字母、文本中的表情符号去除(只保留中英文和数字)、去除文本中所有的字符(只保留中文)、中文文本分词、繁体中文与简体中文转换、中文文本停用词过滤、敏感词去除。

步骤3.2：做好数据之后使用Transformer-XL预训|练模型进行微调训练，训|练参数为：批量大小为16，文本最大长度：512，最大训|练次数epoch：40，初始学习率1e-5，经过训练得到癌症的自然语言生成模型。

步骤4：模型验证和用户信息建档，如图1所示。

步骤4.1：常见问题回答(FAQ)，首先用户输入想要咨询的问题，然后将文本输入到训|练好的BERT模型，进行癌症意图识别和实体槽位填充，模型会计算出获得的实体和意图置信度，当置信度大于0.8，本发明将在数据库中获得已经准备好的答案，然后将答案输出给用户，即常见问答回答；但是当置信度小于等于0.8，说明匹配的意图或者实体不是很准确，需要采用社区回答。

步骤4.2：社区回答，当步骤4.1回答不好的时候，本发明将用户的问题输入到网站中进行搜索，网站包括百度知道、知乎、悟空问答和爱问知识人，此时会获得很多的答案，本发明只采用网站的第一条，然后将句子和用户的问题进行匹配，使用训|练好的文本相似度计算的模型，计算出每一条的相似度，将相似度最高的置信度与0.9进行比较。如果大于0.9，则获取对应网站的答案，然后输出答案即可。如果置信度小于等于0.9，则使用癌症生成模型进行回答。

步骤4.3：当用户获得答案之后，本发明会继续咨询用户是否愿意建立患者档案，如果不愿意则咨询结束或者咨询下一个问题，如果愿意，则本发明会咨询用户的：年龄，体重，性别，过敏情况，相关病史，家族病史，患病时间，所使用的药物等信息。然后可以进一步咨询下一个问题或者结束咨询。收集到的信息会在作为实体和下一次咨询的问题输入到自然语言生成模型中，也可以作为实体槽位填充中的实体，辅助BERT模型。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于预训练模型的癌症问答交互方法，其特征在于，包括：

步骤1：收集并整理癌症和诱因数据，设置BERT模型参数，训|练关于癌症的联合意图识别和实体槽位填充的BERT模型；

步骤2：对步骤1收集并整理癌症和诱因数据进行分型，对于同实体和意图的问句作为相似度为1数据，对没有关系的数据，定义相似度为0；设置ERNIE模型参数，进行ERNIE模型训练，保存最好的ERNIE模型和训练后的ERNIE模型，对比在测试集上效果好的ERNIE模型作为进行癌症文本相似度计算的ERNIE模型；

步骤3：收集癌症医疗数据，并对数据进行预处理，使用Transformer-XL预训练模型进行微调训练，得到癌症的自然语言生成Transformer-XL模型；

步骤4：输入想要咨询的问题，然后将文本输入到训练好的BERT模型，进行癌症意图识别和实体槽位填充，以计算出获得的实体和意图置信度，当置信度大于一第一阈值，在数据库中获得答案并输出；

当置信度小于等于该第一阈值，则从网上搜索答案，然后将句子和用户的问题进行匹配，使用训练好的文本相似度计算的ERNIE模型，计算出每一条的相似度，将相似度最高的置信度与第二阈值进行比较，如果大于该第二阈值，则获取对应网站的答案并输出；如果置信度小于等于该第二阈值，则使用癌症的自然语言生成Transformer-XL模型进行回答。

2.如权利要求1所述的基于预训练模型的癌症问答交互方法，其特征在于，癌症和诱因数据包括：癌症的意图和实体槽位，意图包括：买药、治疗方式、饮食注意事项以及疾病发病原因，实体槽位包括常见癌症类型；

设置BERT模型参数包括：最大长度为50，批量大小为128，Adam用于优化，初始学习率为5e-5，Dropout为0.1，最大训练次数epoch为20。

3.如权利要求1所述的基于预训练模型的癌症问答交互方法，其特征在于，步骤2的设置ERNIE模型参数包括：批量大小为128，文本最大长度：128，最大训练次数epoch：10，初始学习率5e-5。

4.如权利要求1所述的基于预训练模型的癌症问答交互方法，其特征在于，癌症医疗数据包括：癌症相关的文章、病历、报告、药物、问诊以及医疗开源数据集，癌症医疗数据的格式为{″prompt″：..，″text″：...}的json文件。

5.如权利要求1或4所述的基于预训练模型的癌症问答交互方法，其特征在于，数据进行预处理包括：

数据清洗，包括：全角与半角的转化、文本中大写数字转化为小写数字、文本中大写字母转化为小写字母、文本中的表情符号去除、去除文本中所有的字符、中文文本分词、繁体中文与简体中文转换、中文文本停用词过滤以及敏感词去除。

6.如权利要求1或4所述的基于预训练模型的癌症问答交互方法，其特征在于，步骤3的使用Transformer-XL预训练模型进行微调训练的训练参数为：批量大小为16，文本最大长度：512，最大训练次数epoch：40，初始学习率1e-5。

7.如权利要求1所述的基于预训l练模型的癌症问答交互方法，其特征在于，第一阈值为0.8。

8.如权利要求1所述的基于预训l练模型的癌症问答交互方法，其特征在于，第二阈值为0.9。

9.如权利要求1所述的基于预训l练模型的癌症问答交互方法，其特征在于，在进行回答后，继续咨询用户是否愿意建立患者档案，如果不愿意则咨询结束或者咨询下一个问题，如果愿意，则咨询用户的：年龄、体重、性别、过敏情况、相关病史、家族病史、患病时间以及所使用的药物信息。