发明内容
针对上述问题,本发明的目的在于提供一种放疗结构标准化命名方法、装置、终端设备及计算机可读存储介质,避免由命名的不一致或不适当而导致的混淆,防范剂量统计分析时的错误,进而提高医疗质量与安全。
第一方面,本发明实施例提供了一种放疗结构命名标准化方法,包括以下步骤:
接收输入的原始结构文件,并获取所述原始结构文件的第一原始结构命名;
对所述第一原始结构命名进行符号化预处理,以生成至少一个字符串;
根据所述至少一个字符串生成第一正则表达式;
根据训练好的标准化模型对所述第一正则表达式进行表达式匹配;
根据与所述第一正则表达式匹配的所述标准化模型中的第二正则表达式,及与所述第二正则表达式关联的结构词库,将所述第一原始结构命名转化为标准结构命名;其中,所述结构词库用于存储各个肿瘤放射治疗结构的标准化命名;
根据所述标准结构命名输出标准结构文件。
在第一方面的第一种实现方式中,所述对所述第一原始结构命名进行符号化预处理,以生成至少一个字符串,具体为:
当检测到所述第一原始结构命名中的特殊标签时,剔除所述第一原始结构命名中的特殊标签,以生成第一预处理结构命名;其中,所述特殊标签至少包括标点符号、下划线或者连字符中的任意一个或多个;
基于空格及大写字母将所述第一预处理结构命名拆成为至少一个标签;
根据标签关键字及首字母缩略词对所述至少一个标签进行排列组合,以生成至少一个初始字符串;
将所述至少一个初始字符串进行小写格式处理,并转化为预设字体格式,以生成预设格式的至少一个字符串。
根据第一方面的第一种实现方式,在第一方面的第二种实现方式中,所述根据所述至少一个字符串生成第一正则表达式,具体包括:
识别所述至少一个字符串中具有解剖位置的第一字符串;
根据所述第一字符串获取相应的标准首字母缩略词;
根据所述标准首字母缩略词,获取所述至少一个字符串中超过预设次数的至少一个首字母缩略词;
根据获取的所述至少一个首字母缩略组合,生成所述第一原始结构命名对应的第一正则表达式。
根据第一方面的第二种实现方式,在第一方面的第三种实现方式中,所述标准化模型的训练过程包括以下步骤:
对采集的原始结构样本文件对应的第二原始结构命名进行符号化预处理,以生成各个第二原始结构命名分别对应的至少一个样本字符串;
根据每个第二原始结构命名对应的所述至少一个样本字符串生成每个第二原始结构命名对应的第二正则表达式;
将所述各个第二原始结构命名对应的第二正则表达式,与建立的结构词库中存储的标准结构命名进行匹配关联;
重复以下步骤直到达到预设循环迭代次数或者所有所述第二原始结构命名均有对应关联的标准结构命名:
基于生成的所述各个第二正则表达式,对所述原始结构样本文件对应的第二原始结构命名进行交叉检查,以获取第二正则表达式不匹配的第二原始结构命名;
对所述正则表达式不匹配的第二原始结构命名重新进行符号化预处理、生成对应的第二正则表达式及标准结构命名匹配关联。
根据第一方面的第三种实现方式,在第一方面的第四种实现方式中,所述结构词库的建立过程包括:
对获取的所述原始结构样本文件进行解析,以获取子结构字段;
对所述子结构字段进行统计;
以靶区、危及器官及其他辅助结构为关键词对统计后的子结构字段进行结构归类,以构建包括各个肿瘤放射治疗结构的标准化命名的结构词库。
根据第一方面的以上任一种实现方式,在第一方面的第五种实现方式中,还包括:
当所述第一正则表达式与所述标准化模型中的第二正则表达式不匹配时,根据所述第一正则表达式更新所述标准化模型及所述结构词库。
第二方面,本发明实施例提供了一种放疗结构命名标准化装置,包括:
第一命名获取模块,用于接收输入的原始结构文件,并获取所述原始结构文件的第一原始结构命名;
预处理模块,用于对所述第一原始结构命名进行符号化预处理,以生成至少一个字符串;
第一表达式生成模块,用于根据所述至少一个字符串生成第一正则表达式;
表达式匹配模块,用于根据训练好的标准化模型对所述第一正则表达式进行表达式匹配;
标准化命名转化模块,用于根据与所述第一正则表达式匹配的所述标准化模型中的第二正则表达式,及与所述第二正则表达式关联的结构词库,将所述第一原始结构命名转化为标准结构命名;其中,所述结构词库用于存储各个肿瘤放射治疗结构的标准化命名;
标准文件输出模块,用于根据所述标准结构命名输出标准结构文件。
在第二方面的第一种实现方式中,所述预处理模块具体包括:
特殊标签剔除单元,用于当检测到所述第一原始结构命名中的特殊标签时,剔除所述第一原始结构命名中的特殊标签,以生成第一预处理结构命名;其中,所述特殊标签至少包括标点符号、下划线或者连字符中的任意一个或多个;
标签拆分单元,用于基于空格及大写字母将所述第一预处理结构命名拆成为至少一个标签;
初始字符串生成单元,用于根据标签关键字及首字母缩略词对所述至少一个标签进行排列组合,以生成至少一个初始字符串;
字符串生成单元,用于将所述至少一个初始字符串进行小写格式处理,并转化为预设字体格式,以生成预设格式的至少一个字符串。
根据第二方面的第一种实现方式,在第二方面的第二种实现方式中,所述第一表达式生成模块具体包括:
第一字符串识别单元,用于识别所述至少一个字符串中具有解剖位置的第一字符串;
标准缩略词获取单元,用于根据所述第一字符串获取相应的标准首字母缩略词;
首字母缩略词获取单元,用于根据所述标准首字母缩略词,获取所述至少一个字符串中超过预设次数的至少一个首字母缩略词;
第一正则表达式生成单元,用于根据获取的所述至少一个首字母缩略组合,生成所述第一原始结构命名对应的第一正则表达式。
根据第二方面的第二种实现方式,在第二方面的第三种实现方式中,所述标准化模型的训练过程包括以下步骤:
样本结构命名预处理模块,用于对采集的原始结构样本文件对应的第二原始结构命名进行符号化预处理,以生成各个第二原始结构命名分别对应的至少一个样本字符串;
第二正则表达式生成模块,用于根据每个第二原始结构命名对应的所述至少一个样本字符串生成每个第二原始结构命名对应的第二正则表达式;
标准命名关联模块,用于将所述各个第二原始结构命名对应的第二正则表达式,与建立的结构词库中存储的标准结构命名进行匹配关联;
重复以下步骤直到达到预设循环迭代次数或者所有所述第二原始结构命名均有对应关联的标准结构命名:
交叉检查模块,用于基于生成的所述各个第二正则表达式,对所述原始结构样本文件对应的第二原始结构命名进行交叉检查,以获取第二正则表达式不匹配的第二原始结构命名;
表达式补充模块,用于对所述正则表达式不匹配的第二原始结构命名重新进行符号化预处理、生成对应的第二正则表达式及标准结构命名匹配关联。
根据第二方面的第三种实现方式,在第二方面的第四种实现方式中,所述结构词库的建立过程包括:
样本文件解析模块,用于对获取的所述原始结构样本文件进行解析,以获取子结构字段;
字段统计模块,用于对所述子结构字段进行统计;
结构词库构建模块,用于以靶区、危及器官及其他辅助结构为关键词对统计后的子结构字段进行结构归类,以构建包括各个肿瘤放射治疗结构的标准化命名的结构词库。
根据第二方面的以上任一种实现方式,在第二方面的第五种实现方式中,还包括:
模型及词库更新模块,用于当所述第一正则表达式与所述标准化模型中的第二正则表达式不匹配时,根据所述第一正则表达式更新所述标准化模型及所述结构词库。
第三方面,本发明实施例提供了一种放疗结构命名标准化终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述中任意一项所述的放疗结构命名标准化方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的放疗结构命名标准化方法。
本发明实施例提供了一种放疗结构标准化命名方法、装置、终端设备及计算机可读存储介质,具有如下有益效果:
在接收用户输入的原始结构文件之后,获取所述原始结构文件的第一原始结构命名,然后对所述第一原始结构命名进行符号化预处理之后,根据生成的至少一个字符串生成第一正则表达式,将所述第一正则表达式与所述标准化模型中的第二正则表达式匹配成功后,根据与所述第二正则表达式关联的结构词库,将所述第一原始结构命名转化为标准结构命名,从而输出根据所述标准结构命名输出标准结构文件,实现肿瘤放射治疗结构命名的标准化转化,有助于临床试验的数据采集,使得机构之间的数据共享更安全,即使在一个机构内也能减少工作人员之间沟通的错误(如:医生与物理师之间、物理师与剂量师之间、多种计划系统之间),这也有利于治疗计划质量控制,避免由命名的不一致或不适当而导致的混淆,防范剂量统计分析时的错误,提高感兴趣区域的清晰度和一致性,进而提高医疗质量与安全,同时标准化的命名也有利于世界各地的统一无差错交流,对促进医疗发展有极大作用。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以鼻咽癌IMRT为例,在鼻咽癌IMRT中,OAR勾画无论在疗前计划设计、放疗实施前计划评估、疗程中修改治疗计划和影像引导等,都是一个至关重要的关键步骤,且OAR与靶区之间有着较为复杂的关系,鼻咽癌调强患者的内耳、口腔、腮腺等重要器官与靶区位置毗邻,在OAR勾画时对结构命名上没有统一的准则与策略,容易造成疏漏与混淆,也给计划设计带来一定的难度,在后期进行剂量统计分析时,也带来不少困难,因此,本申请基于AAPMTG-263的报告,提出一种放疗结构命名标准化方法,适用于各个肿瘤放射治疗计划。
请参阅图1,本发明第一实施例提供了一种放疗结构命名标准化方法,其可由终端设备来执行,并包括以下步骤:
S11,接收输入的原始结构文件,并获取所述原始结构文件的第一原始结构命名。
在本发明实施例中,所述终端设备可为电脑、手机、平板及云端服务器等计算设备,所述放疗结构命名标准化方法作为运行程序安装于所述终端设备中,由所述终端设备来执行所述放疗结构命名标准化方法。
在本发明实施例中,所述终端设备接收需要进行标准结构命名转化的原始结构文件,并从所述原始结构文件中获取所述原始结构文件的第一原始结构命名,以下以本地文件的读取为例进行说明:采用MATLAB软件对原始结构文件进行解析,首先,找到所述原始放疗结构文件的文件夹下的路径;然后调用函数dicominfo()读取路径下结构文件的信息,返回在一个结构体中(rtssheader);读取结构体下ROIContourSequence的结构数量(rtssheader.ROIContourSequence)后,在StructureSetROISequence下,依次读取ROIContourSequence结构数对应的感兴趣区域名字ROIName结构,返回结构字段于一个结构体中;最后调用函数xlswrite()输出结构文件所对应的子结构字段,即为所述终端设备获取的第一原始结构命名。
S12,对所述第一原始结构命名进行符号化预处理,以生成至少一个字符串。
在本发明实施例中,所述终端设备对所述第一原始结构命名进行符号化预处理过程,具体地,所述终端设备检测所述第一原始结构命名中是否存在特殊标签,当检测到所述第一原始结构命名中的特殊标签时,剔除所述第一原始结构命名中的特殊标签,以生成第一预处理结构命名,所述特殊标签至少包括标点符号、下划线或者连字符中的任意一个或多个,然后基于空格及大写字母将所述第一预处理结构命名拆成为至少一个标签,再根据标签关键字及首字母缩略词对所述至少一个标签进行排列组合,以生成至少一个初始字符串,最后将所述至少一个初始字符串进行小写格式处理,并转化为预设字体格式,比如转化成“驼峰体”的字体格式,以生成预设格式的至少一个字符串,请参阅图2为视交叉的不同写法统计,以“视交叉”为例,:Optic Chiasm在预处理后生成:′op′、′chi′、′optic′、′chiasm′、′chiasma′、′optic chiasm′、′optic chiasma′、′op chiasm′、′op chiasma′的字符串。
S13,根据所述至少一个字符串生成第一正则表达式。
在本发明实施例中,所述终端设备根据生成的至少一个字符串生成第一正则表达式,具体地,所述终端设备识别所述至少一个字符串中具有解剖位置的第一字符串,然后根据所述第一字符串获取相应的标准首字母缩略词,再根据所述标准首字母缩略词,获取所述至少一个字符串中超过预设次数的至少一个首字母缩略词,需要说明的是,本发明对于预设次数的设置方式不作任何限定,此如设置所述预设次数为:所有字符串中出现首字母缩略词的次数大于或者等于所有字符串数量的一半,或者60%等等,最后所述终端设备根据获取的所述至少一个首字母缩略组合,生成所述第一原始结构命名对应的第一正则表达式,以“视交叉”为例:Optic Chiasm在预处理后生成:′op′、′chi′、′optic′、′chiasm′、′chiasma′、′optic chiasm′、′optic chiasma′、′op chiasm′、′op chiasma′的字符串,则对应生成的正则表达式为:′^op$|^chi$|^op.*chi.*$′。
S14,根据训练好的标准化模型对所述第一正则表达式进行表达式匹配。
在本发明实施例中,所述终端设备根据训练好的标准化模型对所述第一正则表达式进行表达式匹配,具体地,所述终端设备根据优先级顺序,将所述第一正则表达式与训练好的标准化模型中存储的第二正则表达式进行匹配,需要说明的是,本发明对于所述优先级顺序的设置不做任何限定,例如可以根据字母顺序设置优先级顺序等等。
S15,根据与所述第一正则表达式匹配的所述标准化模型中的第二正则表达式,及与所述第二正则表达式关联的结构词库,将所述第一原始结构命名转化为标准结构命名;其中,所述结构词库用于存储各个肿瘤放射治疗结构的标准化命名。
在本发明实施例中,请参阅图3为标准化转化的示意图,当所述第一正则表达式与所述标准化模型中的第二正则表达式匹配成功时,所述终端设备根据对应的匹配成功的第二正则表达式及与所述第二正则表达式关联的结构词库,从所述结构词库中获取与所述第二正则表达式关联的标准结构命名,对所述第一原始结构命名进行转化,需要说明的是,所述结构词库用于存储各个肿瘤放射治疗结构的标准化命名,所述肿瘤放射治疗结构包括肝癌、肺癌、胰腺癌、乳腺癌、宫颈癌、子宫内膜癌、大肠癌、胃癌、肺癌、鼻咽癌、卵巢癌、前列腺癌症等等。
S16,根据所述标准结构命名输出标准结构文件。
在本发明实施例中,在实现标准化结构命名的转化之后,所述终端设备根据所述标准结构命名输出标准结构文件,转换后以标准DCM-RT的格式输出,标准化后的结构文件能让计划系统等放疗相关软件识别、打开并显示。
综上所述,本发明实施例提供了一种放疗结构标准化命名方法,在接收用户输入的原始结构文件之后,获取所述原始结构文件的第一原始结构命名,然后对所述第一原始结构命名进行符号化预处理之后,根据生成的至少一个字符串生成第一正则表达式,将所述第一正则表达式与所述标准化模型中的第二正则表达式匹配成功后,根据与所述第二正则表达式关联的结构词库,将所述第一原始结构命名转化为标准结构命名,从而输出根据所述标准结构命名输出标准结构文件,实现肿瘤放射治疗结构命名的标准化转化,有助于临床试验的数据采集,使得机构之间的数据共享更安全,即使在一个机构内也能减少工作人员之间沟通的错误(如:医生与物理师之间、物理师与剂量师之间、多种计划系统之间),这也有利于治疗计划质量控制,避免由命名的不一致或不适当而导致的混淆,防范剂量统计分析时的错误,提高感兴趣区域的清晰度和一致性,进而提高医疗质量与安全,同时标准化的命名也有利于世界各地的统一无差错交流,对促进医疗发展有极大作用。
为了便于对本发明的理解,下面将对本发明的一些优选实施例做更进一步的描述。
本发明第二实施例:
在本发明第一实施例的基础上,所述标准化模型的训练过程包括以下步骤:
a、对采集的原始结构样本文件对应的第二原始结构命名进行符号化预处理,以生成各个第二原始结构命名分别对应的至少一个样本字符串。
在本发明实施例中,所述终端设备获取近1000例患者的放射治疗计划,以作为原始结构样本文件进行训练,医生勾画所有结构并保存结构名称后,保存在计划系统中,所述终端设备从计划系统自动导出(可作为本地文件供本软件读取或发送至本软件接受读取),所述放射治疗计划包括2D(二维)放射治疗计划、3DCRT(三维适形放疗)放射治疗计划、dMLC(MLC动态调强)放射治疗计划、IMRT(三维适形调强放疗)放射治疗计划、VMAT(容积旋转调强放疗)放射治疗计划及IMPT(调强质子治疗)放射治疗计划等等,通过MATLAB软件的dicominfo()函数来读取DICOM图像源数据(metadata)的文件信息。读取结构文件“Structure.dcm”,从而获取各个原始结构样本文件对应的第二原始结构命名,然后对所述第二原始结构命名进行符号化预处理,与上述符号化预处理过程相同,所述终端设备检测所述第二原始结构命名中是否存在特殊标签,当检测到所述第二原始结构命名中的特殊标签时,剔除所述第一原始结构命名中的特殊标签,以生成第二预处理结构命名,所述特殊标签至少包括标点符号、下划线或者连字符中的任意一个或多个,然后基于空格及大写字母将所述第二预处理结构命名拆成为至少一个标签,再根据标签关键字及首字母缩略词对所述至少一个标签进行排列组合,以生成至少一个初始字符串,最后将所述至少一个初始字符串进行小写格式处理,并转化为预设字体格式,比如转化成“驼峰体”的字体格式,以生成各个第二原始结构命名分别对应的至少一个样本字符串。
b、根据每个第二原始结构命名对应的所述至少一个样本字符串生成每个第二原始结构命名对应的第二正则表达式。
在本发明实施例中,所述终端设备根据每个第二原始结构命名对应的所述至少一个样本字符串生成每个第二原始结构命名对应的第二正则表达式,具体地,所述终端设备根据生成的至少一个字符串生成第一正则表达式,具体地,所述终端设备识别所述至少一个字符串中具有解剖位置的第一字符串,然后根据所述第一字符串获取相应的标准首字母缩略词或者标准结构名字,再根据所述标准首字母缩略词或者标准结构名字,获取所述至少一个字符串中超过预设次数的至少一个首字母缩略词或者字符串,最后所述终端设备根据获取的所述至少一个首字母缩略组合或者字符串,生成所述第一原始结构命名对应的第一正则表达式,例如预处理后的精囊的字符串为:′sv′、′svs′、′精囊′、′精囊′、′semves′、′sem ves′、′sem vesicle′,则对应生成的生成正则表达式:′^sv$|^svs$|^sem.*Ves.*$′。
b、将所述各个第二原始结构命名对应的第二正则表达式,与建立的结构词库中存储的标准结构命名进行匹配关联。
在本发明实施例中,所述终端设备将所述各个第二原始结构命名对应的第二正则表达式,与建立的结构词库中存储的标准结构命名进行匹配关联,以便后续是实际应用过程中的匹配分析。
重复以下步骤直到达到预设循环迭代次数或者所有所述第二原始结构命名均有对应关联的标准结构命名:
d、基于生成的所述各个第二正则表达式,对所述原始结构样本文件对应的第二原始结构命名进行交叉检查,以获取第二正则表达式不匹配的第二原始结构命名。
e、对所述正则表达式不匹配的第二原始结构命名重新进行符号化预处理、生成对应的第二正则表达式及标准结构命名匹配关联。
在本发明实施例中,所述终端设备基于生成的所述各个第二正则表达式进行原始结构样本文件匹配,对所述原始结构样本文件对应的第二原始结构命名进行交叉检查,以获取第二正则表达式不匹配的原始结构样本文件,然后对所述原始结构样本文件对应的第二原始结构命名重新进行符号化预处理、生成对应的第二正则表达式及标准结构命名匹配关联的流程步骤,所述符号化预处理、生成对应的第二正则表达式及标准结构命名匹配关联的流程步骤的实现过程与上述样本训练过程的流程步骤相同,以补充之前因各种误差导致未识别辨识的原始结构样本文件,以“视交叉”为例:针对出现′Nerve-Chia′的结构,之前未识别辨识,补充其表达为:′^opt$|^chi$|^op.*chi.*$^nerve.*$|′。
本发明第三实施例:
在本发明第二实施例的基础上,所述结构词库的建立过程包括:
A、对获取的所述原始结构样本文件进行解析,以获取子结构字段。
在本发明实施例中,所述终端设备获取近1000例患者的放射治疗计划,医生勾画所有结构并保存结构名称后,保存在计划系统中,所述终端设备从计划系统自动导出(可作为本地文件供本软件读取或发送至本软件接受读取),所述终端设备对获取的所述原始结构样本文件进行解析,以获取子结构字段,即原始结构命名,以下以本地文件的读取为例进行说明:采用MATLAB软件对原始结构文件进行解析,首先,找到所述原始放疗结构文件的文件夹下的路径;然后调用函数dicominfo()读取路径下结构文件的信息,返回在一个结构体中(rtssheader);读取结构体下ROIContourSequence的结构数量(rtssheader.ROIContourSequence)后,在StructureSetROISequence下,依次读取ROIContourSequence结构数对应的感兴趣区域名字ROIName结构,返回结构字段于一个结构体中;最后调用函数xlswrite()输出结构文件所对应的子结构字段,并将所述子结构字段保存到表格中。
B、对所述子结构字段进行统计。
在本发明实施例中,所述终端设备对保存在表格中的所述子结构字段进行相同结构个数统计。
C、以靶区、危及器官及其他辅助结构为关键词对统计后的子结构字段进行结构归类,以构建包括各个肿瘤放射治疗结构的标准化命名的结构词库。
在本发明实施例中,所述终端设备以靶区、危及器官及其他辅助结构为关键词对统计后的子结构字段进行结构归类,再按照AAPM TG-263提供的标准化的放射肿瘤结构命名报告,制定结构标准化规则,最后根据所述结构归类的结果及结构标准化规则构建包括各个肿瘤放射治疗结构的标准化命名的结构词库,所述结构归类的规则如下:(a)靶区:按照国际规定的GTV、CTV、PTV为准;(b)危及器官(OAR):基于影像学,有实际临床意义的解剖结构;(c)其他辅助结构:除靶区和OAR以外的结构,一般为计划设计中临时生成的中间结构或用于计划评价的辅助结构,结构词库的建立,为标准化转化提供基础。
本发明第四实施例:
在本发明以上实施例的基础上,还包括:
当所述第一正则表达式与所述标准化模型中的第二正则表达式不匹配时,根据所述第一正则表达式更新所述标准化模型及所述结构词库。
在本发明实施例中,当所述第一正则表达式与所述标准化模型中的第二正则表达式匹配不成功时,所述终端设备根据所述第一正则表达式及结构标准化规则,更新所述标准化模型中存储的第二正则表达式及所述结构词库,建立所述第一正则表达式与所述结构词库的关联关系,以使得下一次再生成同样的第一正则表达式时,能够匹配到所述结构词库中对应的标准化命名,实现标准化模型及所述结构词库的可持续使用。
请参阅图4,本发明第五实施例提供了一种放疗结构命名标准化装置,包括:
第一命名获取模块11,用于接收输入的原始结构文件,并获取所述原始结构文件的第一原始结构命名。
预处理模块12,用于对所述第一原始结构命名进行符号化预处理,以生成至少一个字符串。
第一表达式生成模块13,用于根据所述至少一个字符串生成第一正则表达式。
表达式匹配模块14,用于根据训练好的标准化模型对所述第一正则表达式进行表达式匹配。
标准化命名转化模块15,用于根据与所述第一正则表达式匹配的所述标准化模型中的第二正则表达式,及与所述第二正则表达式关联的结构词库,将所述第一原始结构命名转化为标准结构命名;其中,所述结构词库用于存储各个肿瘤放射治疗结构的标准化命名。
标准文件输出模块16,用于根据所述标准结构命名输出标准结构文件。
在第五实施例的第一种实现方式中,所述预处理模块12具体包括:
特殊标签剔除单元,用于当检测到所述第一原始结构命名中的特殊标签时,剔除所述第一原始结构命名中的特殊标签,以生成第一预处理结构命名;其中,所述特殊标签至少包括标点符号、下划线或者连字符中的任意一个或多个。
标签拆分单元,用于基于空格及大写字母将所述第一预处理结构命名拆成为至少一个标签。
初始字符串生成单元,用于根据标签关键字及首字母缩略词对所述至少一个标签进行排列组合,以生成至少一个初始字符串。
字符串生成单元,用于将所述至少一个初始字符串进行小写格式处理,并转化为预设字体格式,以生成预设格式的至少一个字符串。
根据第五实施例的第一种实现方式,在第五实施例的第二种实现方式中,所述第一表达式生成模块13具体包括:
第一字符串识别单元,用于识别所述至少一个字符串中具有解剖位置的第一字符串。
标准缩略词获取单元,用于根据所述第一字符串获取相应的标准首字母缩略词。
首字母缩略词获取单元,用于根据所述标准首字母缩略词,获取所述至少一个字符串中超过预设次数的至少一个首字母缩略词。
第一正则表达式生成单元,用于根据获取的所述至少一个首字母缩略组合,生成所述第一原始结构命名对应的第一正则表达式。
根据第五实施例的第二种实现方式,在第五实施例的第三种实现方式中,所述标准化模型的训练过程包括以下步骤:
样本结构命名预处理模块,用于对采集的原始结构样本文件对应的第二原始结构命名进行符号化预处理,以生成各个第二原始结构命名分别对应的至少一个样本字符串。
第二正则表达式生成模块,用于根据每个第二原始结构命名对应的所述至少一个样本字符串生成每个第二原始结构命名对应的第二正则表达式。
标准命名关联模块,用于将所述各个第二原始结构命名对应的第二正则表达式,与建立的结构词库中存储的标准结构命名进行匹配关联。
重复以下步骤直到达到预设循环迭代次数或者所有所述第二原始结构命名均有对应关联的标准结构命名:
交叉检查模块,用于基于生成的所述各个第二正则表达式,对所述原始结构样本文件对应的第二原始结构命名进行交叉检查,以获取第二正则表达式不匹配的第二原始结构命名。
表达式补充模块,用于对所述正则表达式不匹配的第二原始结构命名重新进行符号化预处理、生成对应的第二正则表达式及标准结构命名匹配关联。
根据第五实施例的第三种实现方式,在第五实施例的第四种实现方式中,所述结构词库的建立过程包括:
样本文件解析模块,用于对获取的所述原始结构样本文件进行解析,以获取子结构字段。
字段统计模块,用于对所述子结构字段进行统计。
结构词库构建模块,用于以靶区、危及器官及其他辅助结构为关键词对统计后的子结构字段进行结构归类,以构建包括各个肿瘤放射治疗结构的标准化命名的结构词库。
根据第五实施例的以上任一种实现方式,在第五实施例的第五种实现方式中,还包括:
模型及词库更新模块,用于当所述第一正则表达式与所述标准化模型中的第二正则表达式不匹配时,根据所述第一正则表达式更新所述标准化模型及所述结构词库。
请参阅图5,本发明第六实施例提供了一种放疗结构命名标准化终端设备。该实施例的放疗结构命名标准化终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如放疗结构命名标准化程序。所述处理器执行所述计算机程序时实现上述各个放疗结构命名标准化方法实施例中的步骤,例如图1所示的步骤S11。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如第一命名获取模块。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述放疗结构命名标准化终端设备中的执行过程。
所述放疗结构命名标准化终端设备可以是桌上型计算机、笔记本、掌上电脑、手机、平板及云端服务器等计算设备。所述放疗结构命名标准化终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是放疗结构命名标准化终端设备的示例,并不构成对放疗结构命名标准化终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述放疗结构命名标准化终端设备还可以包括输入输出设备、网络接人设备等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述放疗结构命名标准化终端设备的控制中心,利用各种接口和线路连接整个放疗结构命名标准化终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述放疗结构命名标准化终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如标准化命名转化功能)等;存储数据区可存储根据手机的使用所创建的数据(比如放疗原始结构文件数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述放疗结构命名标准化终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。