CN114936153A - 一种人工智能软件的图灵测试方法 - Google Patents
一种人工智能软件的图灵测试方法 Download PDFInfo
- Publication number
- CN114936153A CN114936153A CN202210537950.2A CN202210537950A CN114936153A CN 114936153 A CN114936153 A CN 114936153A CN 202210537950 A CN202210537950 A CN 202210537950A CN 114936153 A CN114936153 A CN 114936153A
- Authority
- CN
- China
- Prior art keywords
- artificial intelligence
- intelligence software
- test
- medical
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010998 test method Methods 0.000 title claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 100
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 238000011282 treatment Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 7
- 239000003814 drug Substances 0.000 claims description 4
- 229940079593 drug Drugs 0.000 claims description 4
- 239000000890 drug combination Substances 0.000 claims description 4
- 238000011277 treatment modality Methods 0.000 claims description 4
- 238000011269 treatment regimen Methods 0.000 claims description 2
- 238000003745 diagnosis Methods 0.000 abstract description 10
- 239000013598 vector Substances 0.000 description 13
- 206010028980 Neoplasm Diseases 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000013522 software testing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3688—Test management for test execution, e.g. scheduling of test suites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供的一种人工智能软件的图灵测试方法,包括:获取待检测的人工智能软件的输出数据;将输出数据与预设知识库的数据相比较,确定人工智能软件的结果准确度;当人工智能软件的结果准确度高于预定义准确度阈值时,计算人工智能软件的输出数据在预设学习模型中的通过性是否达到交叉熵阈值;若通过性达到交叉熵阈值,则采用聚类分析算法对与输出数据相对应的病例进行分组,并计算人工标注的病例组的比率;若人工标注的病例组的比率高于预定义图灵测试阈值,则确定人工智能软件通过人工智能的图灵测试,并生成测试报告。本发明的方案针对医疗人工智能软件产品,给出了一种完整而可靠的智能测试方案,实现了AI诊断系统判定结果准确性的有效测试。
Description
技术领域
本发明涉及软件测试领域,具体涉及一种人工智能软件的图灵测试方法。
背景技术
随着人工智能技术的发展,针对医疗场景和需求开发的人工智能软件逐渐增多。截至目前,基于机器学习和深度学习、用于辅助诊疗的医疗决策支持系统已经囊括了基础的医学问答、特定疾病的诊断、虚拟助手的开发、疾病预防、突发疾病预警等诸多医学场景。例如智能辅助诊疗应用通过人工智能将医疗大数据和专家知识进行收集与整合,给出特定个体疾病的精准诊疗建议,降低误诊和漏诊的概率;智能影像识别应用能够辅助医生对常见的数字化医疗影像提供的人体器官结构和功能信息进行挖掘和判断,从而评价人体健康状况;智能虚拟助手应用基于人工智能语音识别技术,能够通过围绕自然语言处理为核心的语义库训练与知识库搭建,生成针对医疗场景的自动问答系统,为患者提供优质的“家庭式”服务,减轻医务工作者的负担。
然而,在医疗信息化软件或人工智能软件真正应用到临床之前需要经过一定的评测,有些需要申请医疗器械的认证,但目前尚未实现统一的标准的针对医疗人工智能软件产品的智能测试方案。
发明内容
为了解决现有技术中所存在的问题,本发明提供一种人工智能软件的图灵测试方法,包括:
获取待检测的人工智能软件的输出数据;
将所述输出数据与预设知识库的数据相比较,确定所述人工智能软件的结果准确度;
当所述人工智能软件的结果准确度高于预定义准确度阈值时,计算所述人工智能软件的输出数据在预设学习模型中的通过性是否达到交叉熵阈值;
若所述通过性达到交叉熵阈值,则采用聚类分析算法对与所述输出数据相对应的病例进行分组,并计算人工标注的病例组的比率;
若所述人工标注的病例组的比率高于预定义图灵测试阈值,则确定所述人工智能软件通过人工智能的图灵测试,并生成测试报告。
优选地,所述确定所述人工智能软件的结果准确度,进一步包括:
通过对比所述预设知识库中的医疗专家判定结果与医疗人工智能软件的判定结果确定所述结果准确度P0。
优选地,结果准确度P0如以下公式所表示:
优选地,所述计算所述人工智能软件的输出数据在预设学习模型中的通过性是否达到交叉熵阈值,进一步包括:
根据病例属性和人工智能软件的类型,执行一致性判定过程,通过NLP分析人工智能软件与医疗专家的计算结果的相似性。
优选地,所述人工智能软件与医疗专家的计算结果的相似性包括以下各项的平均值:
诊断结论的一致程度、治疗方式的相似度、治疗方案或治疗计划的相似度以及药物或药物组合的相似度。
优选地,在一致性判定之后,对所述一致性结果通过交叉熵进行判定,所述交叉熵的损失值定义为:
Llog(y,p)=-log(pr(y|p)=-(ylog(p)+(1-y)log(1-p));
pr()为条件概率函数。
优选地,所述图灵测试方法还包括:
从多个医生用户和所述人工智能软件接收对医疗数据的决策结果;
计算所述决策结果之间的匹配度;
基于所计算的匹配度导出预定义映射表;
使用所导出的映射表对所述人工智能软件执行对比测试;
其中,所述匹配度为ICC统计量。
优选地,所述计算所述决策结果之间的匹配度,进一步包括:
计算多个医生用户之间的匹配度;以及计算医生用户与人工智能软件的匹配度;其中,所述医生用户之间的匹配度是两个医生用户的决策结果之间的相似度,并且所述医生用户与人工智能软件的匹配度是医生用户的决策结果与所述人工智能软件的决策结果之间的相似度。
基于同一发明构思,本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供的一种人工智能软件的图灵测试方法,包括获取待检测的人工智能软件的输出数据;将输出数据与预设知识库的数据相比较,确定所述人工智能软件的结果准确度;当人工智能软件的结果准确度高于预定义准确度阈值时,计算所述人工智能软件的输出数据在预设学习模型中的通过性是否达到交叉熵阈值;若通过性达到交叉熵阈值,则采用聚类分析算法对与所述输出数据相对应的病例进行分组,并计算人工标注的病例组的比率;若人工标注的病例组的比率高于预定义图灵测试阈值,则确定所述人工智能软件通过人工智能的图灵测试,并生成测试报告。本发明的方案针对医疗人工智能软件产品,给出了一种完整而可靠的智能测试方案,实现了AI诊断系统判定结果准确性的有效测试。
附图说明
图1为本发明的人工智能软件的图灵测试方法的流程图。
图2为本发明的医疗人工智能软件的图灵测试的过程的逻辑示意图。
图3为本发明由不同客户端实现的医疗人工智能软件的智能测试流程示意图。
具体实施方式
本发明基于计算机领域的图灵测试方法,结合医疗软件的类型和特点,建立了一种医疗人工智能软件的测试流程和方法,通过图灵测试评测医疗人工智能软件产品的智能程度,结合软件测试方法与流程评测其准确性,实现医疗人工智能软件的特性和质量评估。
图灵测试的核心思想是要求人工智能在没有直接物理接触的情况下接受人类的询问,并尽可能把自己伪装成人类。测试者向被测试者随机提问,若超过30%的答复不能被测试者分辨出哪个是人、哪个是机器的回答,那么这台机器就通过了测试,并被认为具有人类智能。但是考虑到医疗诊断的精准性,医疗人工智能软件的图灵测试标准应该具备更为完善的的测试标准,并具备可量化、可调节、可学习优化的特征。同时结合软件测试方法,各类医疗人工智能软件在图灵测试中体现的病例识别结果准确性应达到其产品规格中标注的准确性标准。
实施例1:
如图1所示,本发明提供一种人工智能软件的图灵测试方法包括:
S1、获取待检测的人工智能软件的输出数据;
S2、将所述输出数据与预设知识库的数据相比较,确定所述人工智能软件的结果准确度;
S3、当所述人工智能软件的结果准确度高于预定义准确度阈值时,计算所述人工智能软件的输出数据在预设学习模型中的通过性是否达到交叉熵阈值;
S4、若所述通过性达到交叉熵阈值,则采用聚类分析算法对与所述输出数据相对应的病例进行分组,并计算人工标注的病例组的比率;
S5、若所述人工标注的病例组的比率高于预定义图灵测试阈值,则确定所述人工智能软件通过人工智能的图灵测试,并生成测试报告。
具体地,参见图2,本发明中的测试方法包括三级评测体系,具体内容包括初级标准检测即准确率测试,用于确定人工智能判定结果的准确度达到人工智能软件预先声明的准确度;二级标准检测即匹配度测试,用于确定人工智能判定结果在集成学习模型中通过性算法达到设置的阈值,三级标准检测即智能等级测试,用于确定人工智能判定的病例组在随机抽样病例池中能否不会被专家组识别。
在所述步骤S2中,初级标准是软件产品的“个体”判定标准。通过对比专家判定结果与医疗人工智能软件的判定结果确定准确度P0。
准确度定义如以下公式所示。
人工智能软件在上传测试数据后,应同时给定该产品的相关性能参数,例如准确度、灵敏度、非确定性等。准确度标准下限一般设定为80%,仅当人工智能软件的标称准确度达到预设下限标准PK时,执行步骤S2进入初级测试。并且,仅当实际判定的准确度P0达到或超过人工智能软件的给定准确度阈值时,执行步骤S3的二级标准测试。
其中,在步骤S3中,二级标准通过集成学习模型对待测试人工智能软件进行计分,判定其通过性,是“量化”判定标准。举例而言,对于医疗人工智能软件,可以通过基础数据分配相关病例专家,在分配过程中生成专家科室与病例的匹配程度Xi、专家执业年限Yi以及专家专业职称Zi,专家所在医院类型Hi等重要参数。随后,针对不同病例、不同类型人工智能软件,提供一致性判定过程,通过NLP等分析诊断结论的一致程度C1、治疗方式的相似度C2、治疗方案或治疗计划的相似度C3以及药物或药物组合的相似度C4,并通过计算得到Cn的平均值。
根据病例的特征,针对不同量化参数设定权重。对于不必要的参数,其权重可以为0。判定结果通过集成模型进行量化,计算过程如下所示。
p=W1*Xi+W2*Yi+W3*Zi+W4*Hi+W5*Avg(∑Ci)
其中W1,W2,W3,W4,W5分别为各项权重。Avg为平均值运算。Ci中i的取值为1~n。
然后对一致性通过交叉熵进行判定。交叉熵损失值定义为:
Llog(y,p)=-log(pr(y|p)=-(ylog(p)+(1-y)log(1-p));
pr()为条件概率函数。
L值越趋近于0表示其预测结果与实际情况的匹配程度越高,即人工智能软件判定结论更为准确;越趋近于1,表示其预测结果越差,需要改进。在一个优选的实施例中,当L≤0.2时,判断所述人工智能软件通过二级标准。而当L≥0.2时,可以进一步将判定结果记录到日志中,记录其进化趋势。
在所述步骤S4中,三级标准是图灵测试标准的医疗应用。随机抽取同等数量的人工智能软件判定结果与专家判定结果,采用聚类分析对病例进行分组,并将所有病例组放入评测池中。从专家库中随机抽取医学专家对各分组加注标签。标签分为“医生”、“人工智能软件”两种类型。当超过图灵测试阈值比率的人工智能软件判定病例组被加注“医生”标签后,认定人工智能软件产品通过了三级标准。在一个优选的实施例中,图灵测试阈值比率可为30%。
以下肿瘤医疗辅助决策系统软件数据为例,结合图3的流程图,进一步阐述上述方法的实施过程。
A1、首先进行实验整体规划,通过搭建MAITT(Medical AI Turing Test)图灵测试平台,进行图灵测试方法的实验验证。首先通过模拟肿瘤医疗辅助决策系统软件的厂商端、专家端输入,结合管理端运行,建立一个完整的实验规划,实验流程规划如图3所示。
A2、执行肿瘤医疗辅助决策的初级标准测试,具体步骤进一步包括:
A21、读入肿瘤医疗辅助决策系统软件的参数说明,例如标称准确率为80%;准确度定义如公式1所示:
A22、判断肿瘤医疗辅助决策功能是否达到初级标准,当通过运算得到其实际准确率>80%时,确定通过初级标准测试,进入步骤A3,当实际准确率<80%时确定未通过初级标准测试,方法结束。
A3、执行肿瘤医疗辅助决策系统的二级标准测试,具体步骤进一步包括:
A31、由医学专家对无金标准的病例数据进行人工标注;
A32、由肿瘤医疗辅助决策系统对无金标准的病例数据进行诊断,给出决策结果;
A33、由实验平台计算每位参与判例的医学专家的专业匹配程度,计算方式考虑科室匹配程度、执业年限和职称,权重由手工进行设定,例如可以将科室匹配程度、执业年限、职称的初始权重分别设定为0.4,0.3,0.3;随后,针对不同病例、不同类型人工智能软件,提供一致性判定过程,通过NLP等分析诊断结论的一致程度C1、治疗方式的相似度C2、治疗方案或治疗计划的相似度C3以及药物或药物组合的相似度C4,并通过计算得到Cn的平均值。
根据病例的特征,针对不同量化参数设定权重。对于不必要的参数,其权重可以为0。判定结果通过集成模型进行量化,计算过程如下所示。
p=W1*Xi+W2*Yi+W3*Zi+W4*Hi+W5*Avg(∑Ci)
其中W1,W2,W3,W4,W5分别为各项权重。Avg为平均值运算。
然后对一致性通过交叉熵进行判定。交叉熵损失值定义为:
Llog(y,p)=-log(pr(y|p)=-(ylog(p)+(1-y)log(1-p));
pr()为条件概率函数。
A34、采用NLP处理技术,对医生和人工智能软件的决策结果进行一致性分析,具体包括使用jieba等工具包进行分词,并建立词频向量,通过建立TF-IDF矩阵来判定一致性指数。当通过运算得到其实际一致性指数达到交叉熵阈值时,确定通过二级标准测试,进入步骤A4,否则确定未通过二级标准测试,方法结束。
A4、执行肿瘤医疗辅助决策系统的三级标准测试,具体步骤进一步包括:
A41、对病例数据进行聚类,使用k-means方法,令参数k=5。在每个类别中,随机采样30%的数据,并分成10组,总计形成50个分组;
A42、获取所述50个分组的肿瘤医疗辅助决策系统软件决策结果和医生决策结果;
A43、医疗专家人工对各分组加注标签,即判定50个分组是否出自医生决策结果还是人工智能的决策结果;
A44、若50%的肿瘤病例分组被认定为医生诊断,则通过三级标准测试,可以生成图灵测试报告。可选地,图灵测试报告可包括肿瘤医疗辅助决策系统软件的原始数据描述、专家库组成描述、测试过程描述、测试结果描述。
在步骤A43中,具体可以从多个医生用户和人工智能软件接收对医疗数据的决策结果;计算所接收的决策结果之间的匹配度;基于所计算的匹配度导出预定义映射表;使用所导出的映射表对所述人工智能软件执行对比测试。其中,所述匹配度表示为ICC统计量。并且所导出的所述预定义映射表包括所述匹配度的加权平均值、切割平均值、或标准偏差。
其中计算所述匹配度包括:计算医生用户之间的匹配度;以及计算医生与人工智能软件的匹配度。其中,所述医生用户之间的匹配度是两个医生用户的决策结果之间的相似度,并且所述医生与人工智能软件的匹配度是医生用户的决策结果与所述人工智能软件的决策结果之间的相似度。
其中,导出映射表的过程包括,导出医生用户之间的平均匹配度和医生与人工智能软件的平均匹配度,所述医生用户之间的平均匹配度是所述医生用户之间的匹配度的平均值,所述医生与人工智能软件的平均匹配度是所述医生与人工智能软件的匹配度的平均值。
其中,执行对比测试包括,通过将所述医生用户之间的平均匹配度与所述医生与人工智能软件的平均匹配度进行比较来对所述人工智能软件执行所述对比测试。具体地,通过建立所述医生用户之间的平均匹配度U0小于或等于所述医生与人工智能软件的平均匹配度U1的原假设和医生用户之间的平均匹配度大于所述医生与人工智能软件的平均匹配度的备择假设。其中,当所述原假设未被拒绝时,将人工智能软件确定为通过对比测试。
所述医生与人工智能软件的平均匹配度U1是所述医生与人工智能软件的匹配度的平均值,并且执行对比测试包括通过将医生用户之间的匹配度的最小值与医生与人工智能软件的平均匹配度U1进行比较来对人工智能软件执行对比测试。
在执行对比测试中,将医生与人工智能软件的平均匹配度U1与通过向医生与人工智能软件的平均匹配度U1添加预设修正值或从医生与人工智能软件的平均匹配度U1减去预设修正值而获得的修正的医生用户之间的平均匹配度进行比较。
建立修正后的医生用户之间的平均匹配度U0大于或等于所述医生与人工智能软件的平均匹配度U1的原假设和修正后的医生用户之间的平均匹配度U0小于所述医生与人工智能软件的平均匹配度U1的备择假设。其中,当所述原假设未被拒绝时,确定所述人工智能软件通过对比测试。
在步骤S4的图灵测试标准可选定义方式中,通过逆向图灵测试生成器来预定义图灵测试标准。所述逆向图灵测试生成器被配置为通过使用第一参数和与所述第一参数相关联的第一答案组来生成逆向图灵测试质询。优选地,可以通过从第一答案组中随机选择答案来生成多个逆向图灵测试质询中的每个逆向图灵测试质询。
令医疗人工智能软件自动尝试解决所述逆向图灵测试质询;执行第一动作循环,所述第一动作循环包括:生成第一组图灵测试质询,从一组医疗专家用户中接收关于所述第一组图灵测试质询的第一子集的反馈,以及从医疗人工智能软件接收关于所述第一组图灵测试质询的第二子集的反馈;修改所述答案组中的第一答案的权重,所述修改基于来自所述一组医疗专家用户的反馈和来自所述医疗人工智能软件的反馈,所述修改用于提高医疗专家用户解决所述逆向图灵测试质询的命中率,并降低所述医疗人工智能软件解决所述逆向图灵测试质询的命中率。
其中所述第一参数、与所述第一参数相关联的所述第一答案组以及所述第一答案的权重存储在真值表中,并且将逆向图灵测试生成器进行参数化,以使用真值表中的信息来生成逆向图灵测试质询。
优选地,所述医疗人工智能软件解决所述逆向图灵测试质询的命中率是通过确定医疗人工智能软件正确识别逆向图灵测试质询内的各个字符的速度以及医疗人工智能软件正确解决逆向图灵测试质询的速度来测量的。
在所述修改所述答案组中的第一答案的权重之后,执行第二动作循环,其中所述第二动作循环包括,生成第二组图灵测试质询,并且通过使用修改后的权重来确定在生成第二组图灵测试质询时使用的答案的频率来生成第二组图灵测试质询。
本发明的优选实施例利用来自人工标注输入来确定病例特征,因此所得到的特征权重可代表专家库的一致性特征权重。
优选地,可使用深度学习方法来确定医疗人工智能软件决策结果的预测模型,表示为:
对于任意两个样本ci与cj和任一预测结果e1至en,满足:
Π(fi)为特征向量fi的模。权重包含样本的特征向量f中每个特征的对应权重,coni,j,k用于实现临界距离与训练误差之间的权衡,其中临界距离是最接近两个向量投影之间的距离。上述公式可视为将成对向量Π(fi)/Π(fj)进行分类的问题。
根据优选的实施例,对医疗人工智能软件的测试可以使用监督回归测试过程来执行;在接收到测试请求之后,确定所述医疗人工智能软件使用的诊断线程的类型;基于所述人工智能软件使用的诊断线程的类型,选择用于执行监督回归测试过程的多个对抗样本;接收测试所述人工智能软件的测试数据,所述测试数据基于所述多个对抗样本;使用多个对抗样本和测试数据来执行所述监督回归测试过程以验证所述人工智能软件的多个方面;并且在生成报告时,输出所述人工智能软件的所述多个方面的验证结果数据。
所述人工智能软件使用的诊断线程的类型包括,使用分类算法的第一类型的诊断线程、使用聚类算法的第二类型的诊断线程、或使用回归算法的第三类型的诊断线程。
其中,在选择所述多个对抗样本之前,确定医疗人工智能软件使用的多个类型的数据;选择要在将支持所述监督回归测试过程的执行的环境内使用的多个工具,该多个工具是基于由所述人工智能软件使用的所述多种类型的数据来选择的;配置所述环境以支持所述多个工具;并且验证医疗人工智能软件的多个方面包括:使用多个对抗样本和测试数据在所述上下文中执行监督回归测试。
在选择所述多个对抗样本时,基于由所述人工智能软件使用的诊断线程的类型以及人工智能软件的源代码与训练数据的兼容性来从多个对抗样本中选择所述多个对抗样本。
所述多个对抗样本包括用于测试训练医疗人工智能软件的多个特征的排列的第一样本集和用于测试所述多个特征的归一化的第二样本集。
其中,在生成报告之后,生成多个推荐,用于校正在医疗人工智能软件内识别的错误或用于提高人工智能软件的数据模型的准确性;生成包括验证结果数据的报告,识别多个对抗样本中的监督回归测试过程未通过的特定对抗样本的第一数据,或识别多个推荐的第二数据。
优选地,在利用用户标注输入确定用户的一致性判定模型之后,选择具有K个样本的未标注集合,以从用户获取进一步的标注输入。在完成当前标注之后,基于要选择的每个样本所确定的非确定性指数和典型性指数来选择K个样本。对于已标注与未标注的对象,确定非确定性指数。非确定性指数表示与某个样本相关的不确定性程度,即未标注样本为一致性训练过程提供的信息的估计值。若用户对于样本一致性的确定性较低,则将样本包含于协同标注的未标注集合中。可利用样本fs的一致性判定模型来确定对象的非确定性指数SPL,利用已标注样本的输入来学习一致性判定模型,如下所示:
SPL(fs)=-SP(fs)lgSP(fs)-(1-SP(fs))lg(1-SP(fs))
其中SP(fs)是对象fs的一致性判定分值。
本发明在上述治疗方案相似度的计算过程中,一方面以医疗文档为单位来获取和计算文档特征值,另一方面采用Levenshtein距离计算相似度。将多维特征向量映射到预设维数的向量空间,并根据该空间的向量产生m维特征值(m>1),将每个特征项在m维向量空间进行加权处理,最后将这个m维向量中每一维的权值按照预定义规则映射为二进制值,以此来计算文档向量的m位Hash值。并进行相似度计算过程:
(1)将一个m维的向量v初始化为0,m位的二进制数bi初始化为0。
(2)对文档集合中的医疗文本μi,使用MD5 Hash算法得到m位的Hash值。
(3)定义函数λ(hj(μi)):
其中hj(μi)表示μi第j位对应的二进制权重值;定义γj表示向量v的第j维,对1到m,计算γj的权值:
γj=γj+W(si)×λ(hj(μi))
其中,W(μi)表示医疗文本μi的权值。
(4)若文档集合中的医疗文本均处理完成,则定义bij表示bi中的第j位数值,对1到m,若γj>0,则bij=1;若γj≤0,则bij=0。
(5)将得到的m位二进制值bi作为当前文档的特征值;然后对于给定的医疗文档X和医疗文档Y,分别将每个文档的特征值组合形成文档特征值集合SX和SY,用|SX|和|SY|分别表示各文档中的元素个数,|SX*SY|表示两个文档中相近文本的个数,计算文档X和Y的相似度:
LK(X,Y)=|SX*SY|/(|SX|+|SY|-|SX*SY|)
其中相近文本的判断准则为,如果两个医疗文本a,b各自的特征值高于预定义阈值η,则判断为两个医疗文本为近似文本。
(6)若LK(X,Y)>θ,则确定文档X和Y相似,否则不相似。θ为预设相似度阈值。
实施例2:
为了实现上述方法,本发明还提供一种人工智能软件的图灵测试系统,包括:
获取模块201,用于获取待检测的人工智能软件的输出数据;
比较模块202,用于将所述输出数据与预设知识库的数据相比较,确定所述人工智能软件的结果准确度;
第一计算模块203,用于当所述人工智能软件的结果准确度高于预定义准确度阈值时,计算所述人工智能软件的输出数据在预设学习模型中的通过性是否达到交叉熵阈值;
第二计算模块204,用于若所述通过性达到交叉熵阈值,则采用聚类分析算法对与所述输出数据相对应的病例进行分组,并计算人工标注的病例组的比率;
确定模块205,用于若所述人工标注的病例组的比率高于预定义图灵测试阈值,则确定所述人工智能软件通过人工智能的图灵测试,并生成测试报告。
本实施例中的各功能模块所实现的功能同实施例1,这里不再赘述。
实施例3:
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
实施例4:
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本领域内的技术人员应当理解,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在多个其中包包含计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (10)
1.一种人工智能软件的图灵测试方法,其特征在于,包括:
获取待检测的人工智能软件的输出数据;
将所述输出数据与预设知识库的数据相比较,确定所述人工智能软件的结果准确度;
当所述人工智能软件的结果准确度高于预定义准确度阈值时,计算所述人工智能软件的输出数据在预设学习模型中的通过性是否达到交叉熵阈值;
若所述通过性达到交叉熵阈值,则采用聚类分析算法对与所述输出数据相对应的病例进行分组,并计算人工标注的病例组的比率;
若所述人工标注的病例组的比率高于预定义图灵测试阈值,则确定所述人工智能软件通过人工智能的图灵测试,并生成测试报告。
2.根据权利要求1所述的方法,其特征在于,所述确定所述人工智能软件的结果准确度,进一步包括:
通过对比所述预设知识库中的医疗专家判定结果与医疗人工智能软件的判定结果确定所述结果准确度P0。
4.根据权利要求1所述的方法,其特征在于,所述计算所述人工智能软件的输出数据在预设学习模型中的通过性是否达到交叉熵阈值,进一步包括:
根据病例属性和人工智能软件的类型,执行一致性判定过程,通过NLP分析人工智能软件与医疗专家用户的计算结果的相似性。
5.根据权利要求4所述的方法,其特征在于,所述人工智能软件与医疗专家的计算结果的相似性包括以下各项的平均值:
诊断结论的一致程度、治疗方式的相似度、治疗方案或治疗计划的相似度以及药物或药物组合的相似度。
6.根据权利要求5所述的方法,其特征在于,在一致性判定之后,对所述一致性结果通过交叉熵进行判定,所述交叉熵的损失值定义为:
Llog(y,p)=-log(pr(y|p)=-(ylog(p)+(1-y)log(1-p));
pr()为条件概率函数。
7.根据权利要求1所述的方法,其特征在于,所述图灵测试方法还包括:
从多个医生用户和所述人工智能软件接收对医疗数据的决策结果;
计算所述决策结果之间的匹配度;
基于所计算的匹配度导出预定义映射表;其中,所述匹配度为ICC统计量;
使用所导出的映射表对所述人工智能软件执行对比测试。
8.根据权利要求7所述的方法,其特征在于,所述计算所述决策结果之间的匹配度,进一步包括:
计算多个医生用户之间的匹配度;以及计算医生用户与人工智能软件的匹配度;其中,所述医生用户之间的匹配度是两个医生用户的决策结果之间的相似度,并且所述医生用户与人工智能软件的匹配度是医生用户的决策结果与所述人工智能软件的决策结果之间的相似度。
9.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210537950.2A CN114936153A (zh) | 2022-05-17 | 2022-05-17 | 一种人工智能软件的图灵测试方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210537950.2A CN114936153A (zh) | 2022-05-17 | 2022-05-17 | 一种人工智能软件的图灵测试方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114936153A true CN114936153A (zh) | 2022-08-23 |
Family
ID=82864959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210537950.2A Pending CN114936153A (zh) | 2022-05-17 | 2022-05-17 | 一种人工智能软件的图灵测试方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114936153A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994098A (zh) * | 2023-03-22 | 2023-04-21 | 成都大前研软件开发有限公司 | 一种基于人工智能的软件运行异常的分析方法和系统 |
-
2022
- 2022-05-17 CN CN202210537950.2A patent/CN114936153A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994098A (zh) * | 2023-03-22 | 2023-04-21 | 成都大前研软件开发有限公司 | 一种基于人工智能的软件运行异常的分析方法和系统 |
CN115994098B (zh) * | 2023-03-22 | 2024-01-16 | 天翼安全科技有限公司 | 一种基于人工智能的软件运行异常的分析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210342212A1 (en) | Method and system for identifying root causes | |
Khan et al. | Beyond activity recognition: skill assessment from accelerometer data | |
CN111402979B (zh) | 病情描述与诊断一致性检测方法及装置 | |
US11636951B2 (en) | Systems and methods for generating a genotypic causal model of a disease state | |
WO2023160264A1 (zh) | 医疗数据处理方法、装置及存储介质 | |
CN110503155A (zh) | 一种信息分类的方法及相关装置、服务器 | |
Golugula et al. | Evaluating feature selection strategies for high dimensional, small sample size datasets | |
Fergadiotis et al. | Algorithmic classification of five characteristic types of paraphasias | |
US20220367061A1 (en) | System and method for text-based conversation with a user, using machine learning | |
CN114936153A (zh) | 一种人工智能软件的图灵测试方法 | |
CN115050442A (zh) | 基于挖掘聚类算法的病种数据上报方法、装置及存储介质 | |
CN112071431B (zh) | 基于深度学习和知识图谱的临床路径自动生成方法及系统 | |
Saroja et al. | Data‐Driven Decision Making in IoT Healthcare Systems—COVID‐19: A Case Study | |
CN118312816A (zh) | 基于成员选择的簇加权聚类集成医学数据处理方法及系统 | |
CN111783473A (zh) | 医疗问答中最佳答案的识别方法、装置和计算机设备 | |
CN112259232A (zh) | 一种基于深度学习的vte风险自动评估系统 | |
Nnamoko et al. | Meta-classification model for diabetes onset forecast: A proof of concept | |
US11275903B1 (en) | System and method for text-based conversation with a user, using machine learning | |
Vanneschi et al. | Introduction to Machine Learning | |
Ardchir et al. | An Integrated Ensemble Learning Framework for Predicting Liver Disease. | |
Hulliyah et al. | Q-Madaline: Madaline Based On Qubit | |
CN117577348B (zh) | 一种循证医学证据的识别方法及相关装置 | |
CN116844717B (zh) | 一种基于分层多标签模型的医疗建议推荐方法、系统、设备 | |
CN113051373B (zh) | 文本分析方法、装置、电子设备和存储介质 | |
CN117936121A (zh) | 基于多特征融合的混合神经网络慢病诊疗问题分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 266000 Room 201, building 1, 88 Kaifeng Road, Shibei District, Qingdao City, Shandong Province Applicant after: Baiyang Intelligent Technology Group Co.,Ltd. Address before: 266000 Room 201, building 1, 88 Kaifeng Road, Shibei District, Qingdao City, Shandong Province Applicant before: Qingdao Baiyang Intelligent Technology Co.,Ltd. Country or region before: China |