CN116306687B

CN116306687B - 一种医疗咨询平台自检测系统及医疗咨询平台

Info

Publication number: CN116306687B
Application number: CN202310593809.9A
Authority: CN
Inventors: 吕文昊
Original assignee: Beijing Bangcle Technology Co ltd
Current assignee: Beijing Bangcle Technology Co ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-08-18
Anticipated expiration: 2043-05-25
Also published as: CN116306687A

Abstract

本发明涉及数字化医疗咨询领域，尤其涉及一种医疗咨询平台自检测系统及医疗咨询平台，本发明通过设置数据爬取模块、测试数据生成模块，数据爬取模块通过爬取医学文献数据构建医学语料数据库，结构生成单元通过马尔可夫模型生成符合自然语言逻辑的句子，并对应构建若干词性序列，对词性序列进行筛选后通过数据生成单元从医学语料数据库中筛选出符合已筛选词性序列的句子，并基于贝叶斯公式计算各句子的对应的后验概率分布参数，以获取符合自然语言逻辑但常规性较低的句子，在保证可靠性的前提下，提高测试语句诱导医疗咨询平台对话程序出现异常反馈的概率，快速发现医疗咨询平台运行中的错误反馈，提高检测的效率进而提高医疗咨询平台的可靠性。

Description

一种医疗咨询平台自检测系统及医疗咨询平台

技术领域

本发明涉及数字化医疗咨询领域，尤其涉及一种医疗咨询平台自检测系统及医疗咨询平台。

背景技术

随着人工智能技术的发展，人工智能已经被应用于各类领域，其中，人工智能技术在医疗行业迅速发展，各类用于医疗咨询的线上平台应运而生，该类线上平台能够基于自然语言模型自动生成回复信息，回复用户端对相关医疗知识的咨询。

例如，中国专利公开号：CN112417109A，公开了一种医疗咨询信息的推荐方法及系统，通过获取用户提供的咨询信息，咨询信息至少包括文本数据，并根据文本数据，确定对应的咨询问题类别；将文本数据输入自动识别模型中，得到文本数据中的目标数据；获取知识图谱数据库，根据目标数据和咨询问题类别，在知识图谱数据库中匹配对应的推荐信息，并将推荐信息返回给用户，以为用户就医提供便利，提高用户就医满意度。

但是，现有技术中还存在以下问题，

现有技术中，相关人机对话式医疗咨询平台未针对医疗咨询平台设置自检测系统持续性的检测医疗咨询平台反馈至用户端的反馈数据，并且，若采用随机枚举的方式生成测试语句对医疗咨询平台的反馈数据进行检测则效率较低。

发明内容

为解决现有技术中，相关人机对话式医疗咨询平台未针对医疗咨询平台设置自检测系统持续性的检测医疗咨询平台反馈至用户端的反馈数据，并且，若采用随机枚举的方式生成测试语句对医疗咨询平台的反馈数据进行检测则效率较低的问题，本发明提供一种医疗咨询平台自检测系统，其包括：

数据爬取模块，其内置爬虫程序，用以爬取文本数据构建医学语料数据库，所述文本数据为所述爬虫程序由开放医学文献数据库中爬取所得；

测试数据生成模块，其与所述数据爬取模块连接，包括结构生成单元以及数据生成单元，

所述结构生成单元用以基于马尔可夫模型根据所述医学语料数据库中存储的文本信息重新生成若干句子，获取并记录各所述句子的词性序列，将相同的词性序列归类后基于各类词性序列的出现概率对各所述词性序列进行筛选得到已筛选词性序列，其中，词性序列为若干词性代号按顺序组成的序列；

所述数据生成单元用以从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子，并计算各所述句子的后验概率分布参数，选取单次筛选中最小后验概率分布参数对应的句子作为测试语句，所述后验概率分布参数为基于单个句子中若干句子分段对应的后验概率参数计算所得；

测试模块，其与所述测试数据生成模块以及医疗咨询平台连接，用以获取测试语句并输入至所述医疗咨询平台的文本对话程序中，并接收所述文本对话程序返回的反馈文本信息。

进一步地，所述结构生成单元将相同的词性序列归类为一类，按照公式（1）计算各类词性序列的出现概率P，

（1），

公式（1）中，Nm表示全部词性序列的总数，N表示单类词性序列的数量。

进一步地，所述结构生成单元基于各类词性序列的出现概率对各所述词性序列进行筛选，其中，

若存在任一类词性序列的出现概率低于预设的概率阈值，则将该类词性序列筛选出，所述概率阈值为各类词性序列出现概率的平均值。

进一步地，所述结构生成单元获取各所述句子的词性序列，其中，所述结构生成单元将句子进行分词处理，得到若干关键词，并获取各所述关键词的词性类型，将关键词替换为与其词性类型关联的词性代号，以得到句子的词性序列。

进一步地，所述结构生成单元内存储有若干词性代号，各所述词性代号与不同的词性类型建立有关联关系。

进一步地，所述数据生成单元从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子，其中，

所述数据生成单元将医学语料数据库中各文本数据中的句子进行分词处理以获取各句子的词性序列，并将已获取的词性序列与所述已筛选词性序列进行对比，若存在已获取的词性序列与所述已筛选词性序列相同，则判定所述句子符合所述已筛选词性序列，并将所述句子从所述医学语料数据库中筛选出。

进一步地，所述数据生成单元基于所述医学语料数据库中的数据根据公式（2）计算已筛选出的句子中各句子分段对应的后验概率参数，

（2），

公式（2）中，P（A）表示医学语料数据库中与所述句子词性序列相同的其他句子出现的概率，P（B）表示所述句子中单个句子分段在医学语料数据库中出现的概率，P（A|B）表示所述医学语料数据库中包含所述句子分段的句子符合所述词性序列的概率。

进一步地，所述数据生成单元根据公式（3）计算所述句子对应的后验概率分布参数PE，

（3），

公式（3）中，nm表示所述句子中句子分段的数量，表示所述句子中第i个句子分段对应的后验概率参数。

进一步地，所述测试模块内还设置有语义分析模型，用以分析所述文本对话程序返回的反馈文本信息。

进一步地，本发明还提供一种医疗咨询平台，应用医疗咨询平台自检测系统，其包括：

文本对话程序，其用以基于输入的文本信息输出反馈文本信息。

与现有技术相比，本发明通过设置数据爬取模块、测试数据生成模块，数据爬取模块通过爬取数据构建医学语料数据库，结构生成单元通过马尔可夫模型生成符合自然语言逻辑的句子，并对应构建若干词性序列，在对词性序列进行筛选后，通过数据生成单元从医学语料数据库中筛选出符合已筛选词性序列的句子，并基于贝叶斯公式和医学语料数据库中的数据计算各句子的对应的后验概率分布参数，以获取符合自然语言逻辑但常规性较低的句子，进而在保证可靠性的前提下，提高测试语句诱导医疗咨询平台对话程序出现异常反馈的概率，快速发现医疗咨询平台运行过程中的错误反馈，提高检测的效率，进而提高医疗咨询平台的可靠性。

尤其，本发明通过马尔科夫模型构建符合自然语言逻辑的句子，并生成各句子对应的词性序列，在实际情况中，直接爬取的医疗文献数据库中的文本数据并不能作为测试数据，通过上述过程能够获取若干符合逻辑词性序列，并且，还基于各类词性序列的出现概率进行筛选，筛选出现概率较低词性序列，为后续从庞大的医学语料数据库中筛选出可用以测试数据的句子提供数据支持，并且，选用出现概率较低词性序列对应的句子，提高测试语句诱导医疗咨询平台对话程序出现异常反馈的概率，快速发现医疗咨询平台运行过程中的错误反馈，进而提高医疗咨询平台的可靠性。

尤其，本发明通过贝叶斯算法计算所筛选句子的后验概率分布参数，所筛选的句子是基于词性序列筛选所得，其符合自然语言逻辑框架，但是，在实际情况中，需要筛选出非常规表达但符合自然语言逻辑框架的语句，通过这些语句进行测试更易引导医疗咨询平台对话程序出现异常反馈，因此，通过引入贝叶斯公式进行计算，贝叶斯公式能够通过先验概率计算后验概率，先验概率是指根据以往经验和分析得到的概率，在通信系统中往往基于自然状态的资料测定所得，例如，本实施例中基于医学语料数据库现有的数据求得的句子分段在医学语料数据库中出现的概率等参数，而后验概率在统计学中是指事件已经发生后，发生的原因是由某个因素引起的概率，因此，通过求解句子对应的后验概率分布参数，能够表征在医学语料数据库的支持下，所筛选出句子出现的概率，即后验概率分布参数越小，表示句子常规性越低，因此通过上述过程能够筛选符合自然语言逻辑框架但常规性较低的句子，优先将这些句子作为文本对话程序的测试语句，更易引导医疗咨询平台对话程序出现异常反馈，进而在保证可靠性的前提下，快速发现医疗咨询平台运行过程中的错误反馈，进而提高医疗咨询平台的可靠性。

附图说明

图1为发明实施例的一种医疗咨询平台自检测系统结构示意图；

图2为发明实施例的测试数据生成模块结构示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1以及图2所示，图1为本发明实施例的一种医疗咨询平台自检测系统结构示意图，图2为测试数据生成模块结构示意图，本发明的一种医疗咨询平台自检测系统包括：

具体而言，本发明对数据爬取模块的具体结构不做限定，爬虫程序已经为成熟现有技术，本领域技术人员可根据应用环境的需要，在符合规定的前提下设定对应的爬虫程序爬取数据，其为现有技术，此处不再赘述。

具体而言，本发明对测试数据生成模块以及测试模块的具体结构不做限定，其本身或其中的各单元可使用逻辑部件构成，逻辑部件可以为现场可编程逻辑部件、微处理器、计算机中使用的处理器等，此处不再赘述。

具体而言，本发明对文本对话程序的具体形式不做限定，在医疗咨询平台中文本对话程序可以是基于自然语言模型架构的聊天程序，向文本对话程序输入文本信息后能够基于自身的自然语言模型生成反馈文本信息，此为成熟现有技术，此处不再赘述。

具体而言，马尔可夫模型为成熟现有技术，其被广泛应用于各领域，尤其是应用在自然语言分析上，本领域技术人员应当明白，马尔可夫模型是一种仅基于前一事件来预测下一事件的随机模型，应用在自然语言分析中的基本原理为第n个词的出现只与前面n-1个词相关，而与剩余词都不相关，因此，整句出现的概率就是各个词出现概率的乘积，基于上述原理，马尔可夫模型在自然语言分析上常被应用于对现有语料数据进行分析后预测句子出现的概率，在实际实施中，马尔可夫模块首先会选取一个随机的起始词并将其添加至一个列表，然后会在医学语料数据库中进行检索，生成潜在跟随词的列表，生成器会一直选择潜在跟随词直到找到结束词，然后会停止循环，输出生成的句子，生成的句子符合自然语言逻辑，本领域技术人员可根据具体应用环境，选取开源的马尔可夫模型基于医学语料数据库中的文本数据生成若干符合自然语言逻辑的语句，此为现有技术，此处不再赘述。

具体而言，所述结构生成单元将相同的词性序列归类为一类，按照公式（1）计算各类词性序列的出现概率P，

（1），

具体而言，所述结构生成单元基于各类词性序列的出现概率对各所述词性序列进行筛选，其中，

若存在任一类词性序列的出现概率低于预设的概率阈值，则将该类词性序列筛选出。

具体而言，在本实施例中，概率阈值可基于各类词性序列出现概率的平均值进行设定，可以将所述出现概率平均值设定为概率阈值。

具体而言，所述结构生成单元获取各所述句子的词性序列，其中，所述结构生成单元将句子进行分词处理，得到若干关键词，并获取各所述关键词的词性类型，将关键词替换为与其词性类型关联的词性代号，以得到句子的词性序列。

具体而言，所述结构生成单元内存储有若干词性代号，各所述词性代号与不同的词性类型建立有关联关系

具体而言，所述结构生成单元以及数据生成单元内均设置分词工具，分词工具在自然语言处理中已经广泛应用，其能够将自然语言分词后划分词性代号，本发明对分词工具的类型不做具体限定，其可以是现有任意一种分词工具，只需能够实现对自然语言分词并划分词性即可，当然，不同分词工具的词性划分类型也不同，由分词工具的类型决定，在本实施例中可以选用LAC分词工具，其词性类型以及词性类型关联的词性代号如表1所示；

表1 词性类型与所关联的词性代号表

当然，本领域技术人员也可以根据具体需要选用其他分词工具，此不再赘述。

具体而言，本发明通过马尔科夫模型构建符合自然语言逻辑的句子，并生成各句子对应的词性序列，在实际情况中，直接爬取的医疗文献数据库中的文本数据并不能作为测试数据，通过上述过程能够获取若干符合逻辑的词性序列，并且，还基于各类词性序列的出现概率进行筛选，筛选出现概率较低词性序列，为后续从庞大的医学语料数据库中筛选出可用以测试数据的句子提供数据支持，并且，选用出现概率较低词性序列，能够提升测试对象出现崩溃和异常反馈的概率，进而提高系统的测试效率。

具体而言，所述数据生成单元从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子，其中，

具体而言，所述数据生成单元将已筛选出的句子划分为若干等长的句子分段，其中，

所述数据生成单元将已筛选出的句子去除标点符号、数字以及特殊字符，将句子划分为若干等长的句子分段。

具体而言，所述数据生成单元基于所述医学语料数据库中的数据根据公式（2）计算已筛选出的句子中各句子分段对应的后验概率参数，

（2），

具体而言，所述数据生成单元根据公式（3）计算所述句子对应的后验概率分布参数，

（3），

具体而言，本发明通过贝叶斯算法计算所筛选句子的后验概率分布参数，所筛选的句子是基于词性序列筛选所得，其符合自然语言逻辑框架，但是，在实际情况中，需要筛选出非常规表达但符合自然语言逻辑框架的语句，通过这些语句进行测试更易引导医疗咨询平台对话程序出现异常反馈，因此，通过引入贝叶斯公式能够通过先验概率计算后验概率，先验概率是指根据以往经验和分析得到的概率，在通信系统中往往基于自然状态的资料测定所得，例如，本实施例中基于医学语料数据库现有的数据求得的句子分段在医学语料数据库中出现的概率等参数，而后验概率在统计学中是指事件已经发生后，发生的原因是由某个因素引起的概率，因此，通过求解句子对应的后验概率分布参数，能够表征在医学语料数据库的支持下，所筛选出句子出现的概率，即后验概率分布参数越小，表示句子常规性越低，因此通过上述过程能够筛选符合自然语言逻辑框架但常规性较低的句子，优先将这些句子作为文本对话程序的测试语句，更易引导医疗咨询平台对话程序出现异常反馈，进而在保证可靠性的前提下，快速发现医疗咨询平台运行过程中的错误反馈，进而提高医疗咨询平台的可靠性。

具体而言，所述测试模块内还设置有存储单元，用以存储测试语句以及文本对话程序返回的输出结果，本发明对存储单元的具体结构不做限定，其可以是存储硬盘或其他具备存储功能的部件，此为现有技术，此处不再赘述。

具体而言，所述数据生成单元内设置有数据筛选上限，所述数据生成单元从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子时，单次筛选量不高于所述数据筛选上限，本领域技术人员应当明白，由于受制于算力限制，数据生成单元单次筛选的句子数量是有上限的，在实际应用中对于数据的筛选可以采用sample函数进行筛选，本领域技术人员可以根据具体需要设定数据筛选上限保证系统能够稳定运行。

具体而言，所述测试模块内还设置有语义分析模型，用以分析所述文本对话程序返回的输出结果，语义分析模型在现有技术中已经被广泛应用，能够分析自然语言是否符合语义逻辑，此处不再赘述，在实际应用中，医疗咨询平台的文本对话程序基于测试语句会返回输出结果，当然，该输出结果是多样的，可能是符合语义逻辑的语句，可能是不符合语义逻辑的语句也可能是程序报错提示，本领域技术人员将程序报错提示以及不符合语义逻辑的语句记录后便于后续对医疗咨询平台的文本对话程序进行维护、修正等操作。

具体而言，本发明还提供一种医疗咨询平台，应用于医疗咨询平台自检测系统，其包括：

文本对话程序，其用以基于输入的文本信息输出反馈文本信息，医疗咨询平台为云端平台，云端平台的架构本发明不做具体限定，只需能实现云端数据交互即可，可以接收用户端发送的咨询文本，基于文本对话程序返回反馈文本信息。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种医疗咨询平台自检测系统，其特征在于，包括：

所述结构生成单元用以基于马尔可夫模型根据所述医学语料数据库中存储的文本信息重新生成若干符合自然语言逻辑的句子，获取并记录各所述句子的词性序列，将相同的词性序列归类后基于各类词性序列的出现概率对各所述词性序列进行筛选得到已筛选词性序列，其中，词性序列为若干词性代号按顺序组成的序列；

测试模块，其与所述测试数据生成模块以及医疗咨询平台连接，用以获取测试语句并输入至所述医疗咨询平台的文本对话程序中，并接收所述文本对话程序返回的反馈文本信息；

所述结构生成单元获取各所述句子的词性序列，其中，所述结构生成单元将句子进行分词处理，得到若干关键词，并获取各所述关键词的词性类型，将关键词替换为与其词性类型关联的词性代号，以得到句子的词性序列；

所述结构生成单元内存储有若干词性代号，各所述词性代号与不同的词性类型建立有关联关系；

所述数据生成单元从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子，其中，

所述数据生成单元将医学语料数据库中各文本数据中的句子进行分词处理以获取各句子的词性序列，并将已获取的词性序列与所述已筛选词性序列进行对比，若存在已获取的词性序列与所述已筛选词性序列相同，则判定所述句子符合所述已筛选词性序列，并将所述句子从所述医学语料数据库中筛选出；

所述数据生成单元基于所述医学语料数据库中的数据根据公式（2）计算已筛选出的句子中各句子分段对应的后验概率参数，

（2）

公式（2）中，P（A）表示医学语料数据库中与所述句子词性序列相同的其他句子出现的概率，P（B）表示所述句子中单个句子分段在医学语料数据库中出现的概率，P（A|B）表示所述医学语料数据库中包含所述句子分段的句子符合所述词性序列的概率；

所述数据生成单元根据公式（3）计算所述句子对应的后验概率分布参数PE，

（3）

2. 根据权利要求1所述的医疗咨询平台自检测系统，其特征在于，所述结构生成单元将相同的词性序列归类为一类，按照公式（1）计算各类词性序列的出现概率P，

（1）

3.根据权利要求2所述的医疗咨询平台自检测系统，其特征在于，所述结构生成单元基于各类词性序列的出现概率对各所述词性序列进行筛选，其中，

4.根据权利要求1所述的医疗咨询平台自检测系统，其特征在于，所述测试模块内还设置有语义分析模型，用以分析所述文本对话程序返回的反馈文本信息。

5.一种医疗咨询平台，应用权利要求1-4任一项所述的医疗咨询平台自检测系统，其特征在于，包括：