CN107978315A

CN107978315A - 基于语音识别的对话式放射治疗计划系统及制定方法

Info

Publication number: CN107978315A
Application number: CN201711155984.0A
Authority: CN
Inventors: 徐榭; 陈少华; 刘天宇; 林卉; 王保东; 石成玉; 裴曦
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2018-05-01
Anticipated expiration: 2037-11-20
Also published as: CN107978315B

Abstract

本发明公开一种基于语音识别的对话式放射治疗计划系统及制定方法，包括语音数据采集模块、声学特征提取模块、训练声学模型模块、训练语言模型模块、解码器模块、放疗命令库比对模块、命令执行模块、自学习模块；本发明能快速、高效地通过放射治疗医师的语言命令控制放射治疗计划系统的操作执行，系统智能识别、理解放射治疗医师的语音命令，将语音信号转化为系统能够理解的计算机指令，通过对话式的新型交互方式，取代医师传统机械化人机交互方式，从而提放射治疗科医师的工作效率；通过人工智能和已有病例，提高准确率，改善放射治疗效果。

Description

基于语音识别的对话式放射治疗计划系统及制定方法

技术领域

本发明属于计算机技术在医学物理领域的应用，尤其涉及到放射治疗领域，具体说是一种基于语音识别的对话式放射治疗计划系统，可用于放射医师治疗肿瘤患者过程中的制定放射治疗计划环节。

背景技术

癌症是威胁人类健康的重要疾病，它是世界人口死亡的第一因素。2015年中国癌症新发病例为429.2万，死亡281万人，大约有70％的癌症患者在治疗癌症的过程中需要使用放射治疗，约有40％的癌症可以用放射治疗根治。目前我国癌症病人接受放射治疗的比例远低于发达国家，原因是有限的医生和物理师资源。患者确诊癌症，医师们将会集中讨论肿瘤患者适用的治疗类型，当确认患者需要接受放射治疗时，后续将需要拍摄大量患者肿瘤及其周围器官组织详细的影像数据，根据影像数据医师们将定位肿瘤靶区及周围危及器官，然后将这些影像数据导入TPS(治疗计划系统)中，医生将在患者前期拍摄的CT图中勾画肿瘤的靶区及危及器官的轮廓，医生根据多年经验设置好靶区的的处方剂量以及危及器官的剂量限值，然后物理师根据医生的剂量方案制定最优的放射治疗方案。在放射治疗前需要通过人体仿真体膜，核实体内所接受的射线照射剂量，从而验证治疗加护的合理性。治疗方案主要指设置病人实际放射治疗时放射源的能量、照射方向、照射野数目和权重等参数。

目前从影像数据导入TPS至放射治疗计划系统过程中，所有的人机交互模式均通过鼠标、键盘操作，这一人机交互方式已持续几十年，但是其中许多操作存在机械化、重复性操作动作。如：将影像数据导入TPS过程中，需从文件库中寻找目标患者的影像数据，每个患者均采用同样的操作模式，有时医师需要在个文件中找患者的影像，浪费时间。如为危及器官设置剂量限值时，需要在操作面板中一个个寻找添加然后设置剂量限额，系统软件无法记录过往的操作经验。这些机械性地操作均降低了医师的工作效率，宝贵的时间用于效率低下的操作中，单位时间内治疗病人的数量大幅降低。

随着语音识别、自然语言处理技术的发展，语音识别的准确性也在不断提高。进入21世纪，一种称为深度神经网络(Deep Neural Network,DNN)的深层结构成为声学模型建模技术中的研究热点。深度神经网络指的是具有多层隐藏层的表示非线性关系的深层结构，使用该模型结构理论上可以逼近复杂的函数。深度神经网络各神经单元的之间表示的是一种非线性关系，可以用来逼近复杂函数并拟合可观测数据，在学习数据的本质特征上显示了强大的建模能力及抽取能力，深度神经网络(Deep Neural Network,DNN)已经可以替代高斯混合模型(Gaussian Mixture Model,GMM)，并和隐马尔科夫模型(Hidden MarkovModel,HMM)结合组成DNN-HMM混合模型，基于DNN-HMM模型的语音识别系统使语音识别错误率大大降低，在微软2016年10月发布的Switchboard语音识别测试中，更是取得了5.9％的词错误率，第一次实现了和人类相当的识别水平。

与此同时随着互联网以及移动互联网的兴起，互联网用户和智能终端使用率呈指数级增长，因而产生了大量的语音数据，如：美国苹果公司的Siri语音助手、谷歌语音搜索(Google Now！)、亚马逊智能家居助手Alexa、科大讯飞、百度语音应用等。海量的数据为深度神经网络自学习提供了充分的养料，不断提高语音识别的准确度。

放射治疗治疗过程中虽然有个体差异性，但也有相当多的共性。放射治疗医师各种操作有其重复性、规律性的操作，目前的技术并没有有效收集这些操作行为，相当多的操作数据没得到有效利用，这就导致放射治疗物理师不断做大量重复性、低效率的工作，在单个患者花费的时间精力都非常大。年轻的放射治疗医师需要在前期经历多年的训练才有资质做放射治疗计划，放射治疗师漫长的训练周期也导致我国放射治疗师严重缺乏，相当多的患者没得到足够耐心、细致的治疗，严重还会因为放射治疗师经验的欠缺导致治疗计划不完善而发生正常组织癌变。

发明内容

为了解决上述现有放射治疗计划技术问题存在的不足，本发明提出一种基于语音识别的对话式放射治疗计划系统及制定方法，该治疗计划系统内嵌语音交互引擎通过人机对话、重复学习每次操作从而快速、准确、高效的协助放射治疗医师制定放射治疗计划，彻底变革放射治疗模式，提高放射治疗效率、改善放射治疗效果。

本发明的目的可以通过以下技术方案实现：

基于语音识别的对话式放射治疗计划系统，包括语音数据采集模块、声学特征提取模块、训练声学模型模块、训练语言模型模块、解码器模块、放疗命令库比对模块、命令执行模块、自学习模块；

所述语音数据采集模块用于实时收集并处理放疗物理师发出的语音命令信息；

所述声学特征提取模块用于从数字化后的语音中提取声学特征信息。

所述训练声学模型模块指根据不同人的语音特征(训练语音特征及其对应的标注信息)进行有监督的声学模型建模；

所述训练语言模型模块基于N—gram的统计语言模型，用一个马尔科夫链表示词序列的生成过程，统计训练集语料中出现的各词及相关词组合的频率，并以此为基础估计语言模型的相关参数。

所述解码器模块结合通过声学模型计算得到的语音特征声学概率和由语言模型计算出的语言模型概率，利用解码器通过相关搜索算法分析出最有可能性的词序列W*。

所述放疗命令库比对模块是指将解码器分析出来的词序列W*与命令库中的放射治疗命令比对，将语音结果与命令一一对应。

所述自学习模块用于将解码器解码识别处理后的命令与放疗物理师命令反馈，对信息的正确与否进行自学习；

所述命令执行模块用于放疗物理师确认命令信息后，根据放射治疗物理师发出的命令控制所述命令的执行。

所述语音命令由放射治疗物理师发出，声学特征提取、训练声学模型、训练语言模型、解码器模块提取医生的语音命令，将解析的命令与放射治疗命令库中的命令比对。

所述放疗命令库由早期医生录入关键词命令和通过医生的每次语音命令系统自学习产生。

所述早期医生录入的关键词由医生录入或有系统根据说明书籍学习得来，关键词对应放射计划系统每一个操作；所述通过医生的每次语音命令系统自学习产生的命令由系统根据语音命令与放射治疗命令库的医生确认结果确定。

所述自学习模块用于根据放射治疗物理师的语音信号与物理师确认的的命令结果反馈，正确的对应予以对应，错误的命令纠正，指导后续语音与命令库的对应关系。

基于语音识别的对话式放射治疗制定方法，包括如下步骤：

步骤1：语音数据采集；

步骤2：声学特征提取；

步骤3：训练声学模型；

步骤4：训练语言模型；

步骤5：解码器；

步骤6：放射治疗命令库比对；

步骤7：命令执行；

步骤1具体为：医师通过特定的语音命令发布语音指令，通过语音数据采集模块收集医师的语音指令信号。

步骤2具体为：声学特征提取模块负责从数字化后的语音中提取声学特征信息。为保证识别准确率，该特征应该对声学模型的建模单元具有较好的区分性。同时，为了能够高效的计算声学模型参数和进行解码识别，声学特征需要在尽量保留语音中文本信息的前提下，抑制诸如说话人、信道、环境噪声等干扰信息，并且维持一个适中的维度。

步骤3具体为：利用训练语音特征及其对应的标注信息进行有监督的声学模型建模。声学模型构建语音信号中的观测特征和语音建模单元间的映射关系，以此进行音素或音素状态的分类。HMM是马尔可夫链的一种，它的状态不能被直接观测到，但能通过可以被显式观察到的特征观测矢量进行推断，特征观测矢量被认为由服从某种概率密度函数的分布随机产生，不同的状态具有不同的概率密度函数且彼此之间存在一定的跳转关系，用于分析语音这样短时平稳的时序变化信号。

步骤4具体为：使用基于N—gram的统计语言模型用一个马尔科夫链表示词序列的生成过程，即将产生词序W的概率p(w)表示为如下公示所示的过程：

其中，W_k表示词序列中的第k个词。由公式可以看出，产生当前词的概率仅与其前面n一1个词有关。

语言模型的训练和评价指标通常是语言模型困惑度(Perplexity，PP)，它的定义是词序列生成概率几何平均的倒数，即：

从公式中可以看出，语言模型对生成词序列的期望困惑度越小，则该语言模型在给定历史词序列的情况下对产生何种当前词的预测准确度就越高，因此语言模型的训练目标就是最小化训练集语料的困惑度。在训练过程中，我们首先统计训练集语料中出现的各词及相关词组合的频率，并以此为基础估计语言模型的相关参数。

步骤5具体为：结合通过声学模型计算得到的语音特征声学概率和由语言模型计算出的语言模型概率，利用解码器通过相关搜索算法分析出最有可能性的词序列W*。

步骤6具体为：将解码器分析出来的词序列W*与命令库中的放射治疗命令比对，将语音结果与命令一一对应。

步骤7具体为：治疗计划系统的语音模块部分根据每次医师语音命令与实际动作匹配的准确情况，不断积累数据、学习不同医师的语音操作风格。细分的具体步骤为：

7.1放射靶区和危及器官的勾画：由电脑算法对具体病例和数据库中的病例进行匹配、融合，自动生成器官勾画。例如对于鼻咽癌，勾画腮腺、脑干、脊髓等危及器官和病灶靶区。完成勾画之后通过语音模块提醒医师，检查勾画的准确性。

7.2治疗计划优化参数的预设：根据数据库里类似病理的先例，自动预设靶区剂量和危及器官的耐受剂量；选择射束角度、弧度、能量等照射野的参数；开始执行自动优化。

7.3生成优化后的治疗计划：计算出三种治疗方案，分别是优先保护危及器官、优先保障足够的靶区剂量和介于以上两者之间的方案，之后通过语音模块提醒医师，比较并选择。

与现有技术相比，本发明的有益效果在于：

1.构建放射治疗命令数据库；每个放射治疗计划系统的操作均有命令对应，当语音识别识别出医师发出的语音时，通过语音转化为文字，然后将对应的文字提取关键信息转化为关键词指令，将指令与放射治疗命令数据库模糊比对，从而对应特定的命令。

2.对话式人机交互模式；当语音识别出的指令与放射治疗命令数据库的命令匹配度很高时，语音交互引擎将向医师语音确认命令是否准确，得到医师确认答复后，系统执行命令，医师否认命令后，语音交互引擎重新在命令库中选取最合适的命令寻求医师确认，直至正确。

3.反馈自学习；语音交互引擎在放射治疗计划的不同过程中根据医师确认出现的正确及错误反馈后不断学习优化系统，随着应用情形地增加，系统得首次识别错误率将会不断降低，直至100％，对于高频率且非重要的操作部分可根据医师的语音指令直接执行。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明基于语音识别的对话式放射治疗计划系统的整体流程图。

具体实施方式

基于语音识别的对话式放射治疗计划系统，如图1所示，包括语音数据采集模块、声学特征提取模块、训练声学模型模块、训练语言模型模块、解码器模块、放疗命令库比对模块、命令执行模块、自学习模块。

所述语音数据采集模块用于：

处理采集模块收集来的语音信号，识别出放疗物理师的语音信息，过滤周围环境中的噪声，将麦克风采集到的声波信息转化成特定长度的位元；

所述声学特征提取模块完成的任务包括：

(1)通过重采样、傅里叶变换对采集的声波信息进行预处理，将复杂的声波分解为包含不同的音频段及频率范围重要程度的声谱，这种声谱的预处理方式，相比于原始声波能够帮助深度神经网络更准确地找到数据中的模式和特征。

(2)将预处理得到的声谱进行特征提取并输入到深度神经网络模型中进行声学模型训练，以求出与当前声音数据对应的最有可能的输出音节序列。特征提取将声音信号从时域转换到频域，为声学模型的训练提取合适的特征向量序列。

在本系统中，用于进行特征提取的模型包括梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficient,MFCC)和感知线性预测(Perceptual Linear Prediction,PLP)。声学模型以特征提取模型输出的特征向量作为输入，根据声学特性为输入计算一个声学模型的分数。在本系统中，深度神经网络包括深度信念网络(DBN)和长期-短期记忆神经网络(LSTM)，用于区分语音基本单元的静态特征，隐马尔可夫模型(HMM)则用于描述不同的语音基本单元之间的过渡关系。相比传统的声学模型诸如GMM，深度神经网络模型(DNN)的优势在于：1.使用DNN时不需要对语音数据分布进行假设；2.DNN的输入可以包含相邻语音帧拼接形成的结构信息，可以是多种离散或连续特征的融合。

深度信念网络由多个受限玻尔兹曼机(RBM)堆叠构成进行逐层预训练，每一层隐藏神经网络层可以提取出与原始输入数据相关性更高阶的特征。在DBN中，通常神经网络层的大小会逐渐降低，使得网络可以提取出相当于输入更为紧凑的数据表达。将DBN用于语音识别时，DBN首先在训练数据集上进行自底层向上的无监督预训练，并将每一层的训练结果作为其高一层神经层的输入。该过程是DBN的特征学习过程；接下来在相同的训练数据集上进行自顶层向下的监督式训练，旨在用数据的真实标签对所有神经网络层的权值和阈值进行参数微调；最后由DBN最后一个神经网络层训练出来的分类器对该声音对应的音节/字母进行预测。

长期-短期记忆神经网络(LSTM)是一种特殊形式的循环神经网络(RNN),其记忆单元具有自连接和前馈连接的特性，可以充分处理语音信号的长时相关性特征。相比前馈型神经网络，RNN在隐藏层上增加了一个自连接，即RNN前一时刻的隐藏层输出会成为隐藏层当前时刻的输入的一部分，这使得RNN可以通过循环反馈连接看到前面所有时刻的信息，即赋予了RNN记忆功能，而LSTM通过引入输入门、遗忘门和输出门控制每一个记忆单元和周围神经元的反馈影响，解决了传统简单RNN的梯度爆炸和梯度消散问题。

所述解码器模块任务包括：

将训练好的基于深度神经网络的声学模型产生的声学模型分数和基于语言学信息计算出的词序列的可能性结合，输出对于输入的特征向量最有可能的词序列，将正在处理的声音和符合常识及医学知识的文字/指令形成准确的映射。考虑到数据量和模型复杂度将会随着自学习过程不断攀升，本系统的设计支持多个GPU来加速训练，具体方式是：CPU上除主线程外每个工作线程作为节点控制1个GPU节点。深度神经网络的初始化和参数存储由服务器的CPU完成，CPU的各个工作节点把模型参数和训练数据的小批量样本集(minibatch)同时发送给各个GPU从节点。为了保证GPU上线程的工作量平衡，采用持久线程的方法(persistent thread)，即在程序编译阶段利用CUDA应用程序接口确定GPU占用率最高时对应的最小线程个数Tm，在程序运行阶段将计算任务平均分配给Tm。各个GPU使用获得的训练数据的子集进行梯度计算然后再将梯度传回给CPU主节点。模型的参数更新由CPU主线程完成，更新参数时分别在不同的CPU工作线程各自异步更新模型而非同步加锁更新，从而降低各GPU从节点等待其他从节点完成梯度计算的时间，实现近线性的加速比。

为了保证语音信号的高效处理，本系统采用为人工智能应用而优化的NvidiaVolta代GPU。系统硬件有以下几个特点：其一，浮点运算能力高达120张量TFLOPS(10¹²TFLOPS)，为深度学习提供强大的计算平台。每个GPU具有84个流多处理器(SM)，每个流多处理器具有64个单精度运算核心、64个整数运算核心、32个双精度运算核心和8个张量核心。其二，缓存大，有效减小训练数据被重复读取时的内存访问延迟。每个GPU的L2级缓存高达6MB，每个SM的L1级缓存可高达96KB。其三，采用NVLink作为系统与GPU的互联，为模型参数与训练数据在系统内存与GPU全局内存之间的传输提供高带宽。其四，改进的GPU线程调度机制，允许处在不同分支的指令交织在一起执行，提升线程的总体运行效率。其五，GPU可调至最大性能模式，该模式下GPU运行于热设计功耗和最高频率。用水冷方式为GPU芯片和内存散热。

所述治疗控制模块用根据放射治疗物理师发出的命令控制所述命令的执行。

本发明能快速、高效地通过放射治疗医师的语言命令控制放射治疗计划系统的操作执行，系统智能识别、理解放射治疗医师的语音命令，将语音信号转化为系统能够理解的计算机指令，通过对话式的新型交互方式，取代医师传统机械化人机交互方式，从而提放射治疗科医师的工作效率，提高准确定，改善放射治疗效果。

如图1所示，本实施例中，基于语音识别的对话式放射治疗计划系统，应用于放射治疗医师制定放射治疗计划过程，在放射治疗医师通过治疗计划系统为肿瘤患者制定治疗技术时，按如下步骤，包括：1.语音数据采集、2.声学特征提取、3.训练声学模型、4.训练语言模型、5.解码器、6.放射治疗命令库比对、7.命令执行。

步骤1语音数据采集

医师通过特定的语音命令发布语音指令，通过语音数据采集模块收集医师的语音指令信号。

步骤2声学特征提取

声学特征提取模块负责从数字化后的语音中提取声学特征信息。为保证识别准确率，该特征应该对声学模型的建模单元具有较好的区分性。同时，为了能够高效的计算声学模型参数和进行解码识别，声学特征需要在尽量保留语音中文本信息的前提下，抑制诸如说话人、信道、环境噪声等干扰信息，并且维持一个适中的维度。

步骤3训练声学模型

利用训练语音特征及其对应的标注信息进行有监督的声学模型建模。声学模型构建语音信号中的观测特征和语音建模单元间的映射关系，以此进行音素或音素状态的分类。HMM是马尔可夫链的一种，它的状态不能被直接观测到，但能通过可以被显式观察到的特征观测矢量进行推断，特征观测矢量被认为由服从某种概率密度函数的分布随机产生，不同的状态具有不同的概率密度函数且彼此之间存在一定的跳转关系，用于分析语音这样短时平稳的时序变化信号。

步骤4训练语言模型

使用基于N—gram的统计语言模型用一个马尔科夫链表示词序列的生成过程，即将产生词序W的概率p(w)表示为如下公示所示的过程：

步骤5解码器

结合通过声学模型计算得到的语音特征声学概率和由语言模型计算出的语言模型概率，利用解码器通过相关搜索算法分析出最有可能性的词序列W*。

步骤6具体为：

将解码器分析出来的词序列W*与命令库中的放射治疗命令比对，将语音结果与命令一一对应。

步骤7命令执行

治疗计划系统的语音模块部分根据每次医师语音命令与实际动作匹配的准确情况，不断积累数据、学习不同医师的语音操作风格。细分的具体步骤为：

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.基于语音识别的对话式放射治疗计划系统，其特征在于，包括语音数据采集模块、声学特征提取模块、训练声学模型模块、训练语言模型模块、解码器模块、放疗命令库比对模块、命令执行模块、自学习模块；

所述声学特征提取模块用于从数字化后的语音中提取声学特征信息；

所述训练声学模型模块指根据不同人的语音特征进行有监督的声学模型建模；

所述训练语言模型模块基于N—gram的统计语言模型，用一个马尔科夫链表示词序列的生成过程，统计训练集语料中出现的各词及相关词组合的频率，并以此为基础估计语言模型的相关参数；

所述解码器模块结合通过声学模型计算得到的语音特征声学概率和由语言模型计算出的语言模型概率，利用解码器通过相关搜索算法分析出最有可能性的词序列W*；

所述放疗命令库比对模块用于将解码器分析出来的词序列W*与命令库中的放射治疗命令比对，将语音结果与命令一一对应；

2.根据权利要求1所述的基于语音识别的对话式放射治疗计划系统，其特征在于，所述语音命令由放射治疗物理师发出，声学特征提取、训练声学模型、训练语言模型、解码器模块提取医生的语音命令，将解析的命令与放射治疗命令库中的命令比对。

3.根据权利要求1所述的基于语音识别的对话式放射治疗计划系统，其特征在于，所述放疗命令库由早期医生录入关键词命令和通过医生的每次语音命令系统自学习产生。

4.根据权利要求3所述的基于语音识别的对话式放射治疗计划系统，其特征在于，所述早期医生录入的关键词由医生录入或有系统根据说明书籍学习得来，关键词对应放射计划系统每一个操作；所述通过医生的每次语音命令系统自学习产生的命令由系统根据语音命令与放射治疗命令库的医生确认结果确定。

5.根据权利要求1所述的基于语音识别的对话式放射治疗计划系统，其特征在于，所述自学习模块用于根据放射治疗物理师的语音信号与物理师确认的的命令结果反馈，正确的对应予以对应，错误的命令纠正，指导后续语音与命令库的对应关系。

6.基于语音识别的对话式放射治疗制定方法，其特征在于，包括如下步骤：

步骤1：语音数据采集；具体为：医师们通过患者的医学影像确定患者的肿瘤区域后，将会给患者制定治疗计划方案，医师通过特定的语音命令发布语音指令，实时收集并处理放疗物理师发出的语音命令信息；

步骤2：声学特征提取；具体为：声学特征提取模块用于从数字化后的语音中提取声学特征信息；

步骤3：训练声学模型；具体为：训练声学模型指训练语音特征及其对应的标注信息进行有监督的声学模型建模；

步骤4：训练语言模型；具体为：训练语言模型模块基于N—gram的统计语言模型用一个马尔科夫链表示词序列的生成过程，统计训练集语料中出现的各词及相关词组合的频率，并以此为基础估计语言模型的相关参数；

步骤5：解码器；具体为：解码器模块结合通过声学模型计算得到的语音特征声学概率和由语言模型计算出的语言模型概率，利用解码器通过相关搜索算法分析出最有可能性的词序列W*；

步骤6：放射治疗命令库比对；具体为：将解码器分析出来的词序列W*与命令库中的放射治疗命令比对，将语音结果与命令一一对应；

步骤7：命令执行；具体为：治疗计划系统的语音模块部分根据每次医师语音命令与实际动作匹配的准确情况，不断积累数据、学习不同医师的语音操作风格。

7.根据权利要求6所述的基于语音识别的对话式放射治疗制定方法，其特征在于，步骤7细分的具体步骤为：

7.1放射靶区和危及器官的勾画：由电脑算法对具体病例和数据库中的病例进行匹配、融合，自动生成器官勾画；

7.2治疗计划优化参数的预设：根据数据库里类似病理的先例，自动预设靶区剂量和危及器官的耐受剂量；选择射束角度、弧度、能量照射野的参数；开始执行自动优化；