CN104331600A

CN104331600A - 基于因子图模型的自诊模型训练方法和装置

Info

Publication number: CN104331600A
Application number: CN201410522719.1A
Authority: CN
Inventors: 李岱峰; 伊凯; 李子龙; 曾刚; 钱立伟; 陆彬; 全伟; 李理; 白晓航; 王浩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2015-02-04
Anticipated expiration: 2034-09-30
Also published as: CN104331600B

Abstract

本发明实施例公开了一种基于因子图模型的自诊模型训练方法和装置。所述基于因子图模型的自诊模型训练方法包括：从收集到的专业知识数据中提取专业知识特征数据，并从收集到的医患交流数据中提取医患交流特征数据，其中，所述专业知识特征数据以及所述医患交流特征数据中均存储有疾病与症状之间的对应关系；根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型；利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛。所述基于因子图模型的自诊模型训练方法和装置同时解决了领域知识偏差以及经验数据稀疏的问题。

Description

基于因子图模型的自诊模型训练方法和装置

技术领域

本发明实施例涉及计算机数据处理技术，尤其涉及一种基于因子图模型的自诊模型训练方法和装置。

背景技术

在互联网十分发达的今天，通过互联网向用户提供自诊服务的自诊系统十分流行。

现有的自诊系统大体上可以分为基于专业知识的自诊系统以及基于经验数据的自诊系统。基于专业知识的自诊系统参照领域知识为用户提供自诊建议。它给出的数据具有成熟的理论知识体系作支撑，因而非常权威。但是，实际的诊断过程中往往有一些领域知识不能预见的情况，比如患者所处的环境、患者自身体质。而实际诊断过程则需要综合考虑所有的情况对用户的患病情况给出准确的判断。因此，基于专业知识的自诊系统给出的自诊建议往往是存在偏差的。

基于经验数据的自诊系统依靠经验数据，没有成熟的理论体系作支撑。经验数据可以是实际诊断过程中患者与医生的交流数据。然而，实际的医患交流数据本身很可能是稀疏的。比如，医生在诊断过程中医生观察到病人的嗓音沙哑，并据此给出了诊断建议，但是并没有把他观察到的这一特征记录在医患交流数据中。所以，基于经验数据的自诊系统需要克服数据稀疏的问题。

发明内容

有鉴于此，本发明实施例提出一种基于因子图模型的自诊模型训练方法和装置，以同时解决领域知识偏差以及经验数据稀疏的问题。

第一方面，本发明实施例提供了一种基于因子图模型的自诊模型训练方法，所述方法包括：

从收集到的专业知识数据中提取专业知识特征数据，并从收集到的医患交流数据中提取医患交流特征数据，其中，所述专业知识特征数据以及所述医患交流特征数据中均存储有疾病与症状之间的对应关系；

根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型；

利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛。

第二方面，本发明实施例提供了一种基于因子图模型的自诊模型训练装置，所述装置包括：

特征提取模块，用于从收集到的专业知识数据中提取专业知识特征数据，并从收集到的医患交流数据中提取医患交流特征数据，其中，所述专业知识特征数据以及所述医患交流特征数据中均存储有疾病与症状之间的对应关系；

模型构建模块，用于根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型；

模型训练模块，用于利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛。

本发明实施例提供的基于因子图模型的自诊模型训练方法和装置通过从收集到的专业知识数据中提取专业知识特征数据，并从收集到的医患交流数据中提取医患交流特征数据，根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型，利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛，训练得到的稀疏因子图模型能够融合基于经验数据的自诊系统以及基于专业知识的自诊系统的优点，使用所述稀疏因子图模型向用户提供自诊建议能够同时解决领域知识偏差以及经验数据稀疏的问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明第一实施例提供的基于因子图模型的自诊模型训练方法的流程图；

图2是本发明第一实施例提供的稀疏因子图模型的结构图；

图3是本发明第一实施例提供的基于因子图模型的自诊模型训练方法中稀疏因子图模型构建的流程图；

图4是本发明第二实施例提供的基于因子图模型的自诊模型训练方法的流程图；

图5是本发明第二实施例提供的根据稀疏因子图模型给出自诊建议的流程示意图；

图6a是本发明第二实施例提供的不同自诊系统给出自诊建议的准确率的示意图；

图6b是本发明第二实施例提供的不同自诊系统给出自诊建议的召回率的示意图；

图6c是本发明第二实施例提供的不同自诊系统给出自诊建议的F1值的示意图；

图6d是本发明第二实施例提供的不同自诊系统给出自诊建议的AUC值的示意图；

图7是本发明第二实施例提供对8种呼吸系统疾病进行测试得到的准确率示意图；

图8是本发明第三实施例提供的基于因子图模型的自诊模型训练方法中模型训练的流程图；

图9是本发明第三实施例提供的模型训练过程中θ_ik以及Ω_kn的训练流程图；

图10是本发明第四实施例提供的基于因子图模型的自诊模型训练装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图1至图3示出了本发明的第一实施例。

图1是本发明第一实施例提供的基于因子图模型的自诊模型训练方法的流程图。参见图1，所述基于因子图模型的自诊模型训练方法包括：

S110，从收集到的专业知识数据中提取专业知识特征数据，并从收集到的医患交流数据中提取医患交流特征数据，其中，所述专业知识特征数据以及所述医患交流特征数据中均存储有疾病与症状之间的对应关系。

所述专业知识数据是一些根据专业知识构建的数据，它包括一些专家知识库、题库。所述专业知识数据的特点是数据的专业性强，比较权威。但是所述专业知识数据是不考虑实际情况的理论数据，所以，如果不加修改的直接利用所述专业知识数据构建自诊系统的话，自诊系统难免会出现诊断结果有偏差的缺陷。

所述医患交流数据是由记录真实的医患交流过程而得到的数据。正因为所述医患交流数据来自于实际的医患交流过程，所以所述医患交流数据更为贴合实际的诊断过程。但是，由于在实际的医患交流过程中，患者对于自身的症状描述往往是不全面，所以医患交流数据的需要解决的主要问题是数据稀疏问题。

所述专业知识数据和医患交流数据是从一些数据源中获取到的，没有经过处理的原始数据。所以，所述专业知识数据和医患交流数据的格式并不固定，表现在不同条目之间的差异常常较大。并且，所述专业知识数据和医患交流数据中还会经常出现一些对于构建自诊系统无用的数据。

为了方便对自诊系统的构建，需要提取所述专业知识数据和所述医患交流数据中的特征数据。具体的，可以从所述专业知识数据中提取专业知识特征数据，并且从所述医患交流数据中提取医患交流特征数据。

所述专业知识特征数据和所述医患交流特征数据均采用统一的数据格式。优选的，所述专业知识特征数据和所述医患交流特征数据均采用资源描述框架(Resource description framework,RDF)数据格式。并且，所述专业知识特征数据和所述医患交流特征数据中都存储着不同的症状与由这些症状最终确定的疾病。示例的，如果在一次医患交流的过程中，医生根据患者的症状“咳嗽”、“流涕”以及“打喷嚏”最终确定了患者的疾病是“感冒”，则在提取的医患交流特征数据中会记录症状“咳嗽”、“流涕”以及“打喷嚏”与疾病“感冒”之间的对应关系。

需要说明的是，所述专业知识特征数据中包含的症状不仅包括类似“咳嗽”、“流涕”这样的离散的症状数据，还有可能包含类似“体温36.7摄氏度到38摄氏度”、“舒张压90至140mmHg”这样的具有连续取值范围的症状数据。

所述专业知识特征数据与所述医患交流特征数据是以实例为单位而组织的数据。在所述专业知识特征数据和所述医患交流特征数据中记录的每一组症状与疾病的对应关系可以被称为是一个实例。

S120，根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型。

所述稀疏因子图模型是一种用于根据用户的症状向用户提供自诊建议的概率图模型。图2示出了所述稀疏因子图模型的结构。参见图2，所述稀疏因子图的数据源包括从所述专业知识数据中提取的专业知识特征数据250，以及从所述医患交流数据中提取的医患交流特征数据260。所述专业知识特征数据250与所述医患交流特征数据260均体现为症状和疾病之间的对应关系。

所述稀疏因子图模型包括圆点和方点。其中，圆点表示一个变量，方点表示一个因子。所述因子可以是不同变量的乘积，也可以是不同变量与其他因子的乘积，还可以是其他因子的乘积。

所述稀疏因子图模型包括输入层210、因子层220、潜藏层230、以及输出层240。所述输入层210由不同的输入单元构成，并且每个输入单元对应于特征数据中的一个症状。所述输入层210中的输入单元是通过对所述因子层220所代表的实例中的症状数据进行解析而得到的。

所述输入层210中的输入单元所对应的症状不仅可以是“咳嗽”、“流涕”这样的离散取值的症状，还可以是“体温是否在35.7摄氏度至38摄氏度之间”这样具有连续取值的症状。这样一来，所述输入单元能够接收的症状数据就不仅包括离散的症状数据，还包括类似化验单上的化验结果一样的连续的症状数据。

与所述输入层210类似，所述输出层240也由不同的输出单元构成。每个输出单元代表一种疾病。所述输出单元的输出值是所述稀疏因子图模型预测的患者患该输出单元所代表的疾病的概率。

所述因子层220与所述输入层210相连接，它由不同因子构成，每个因子代表所述专业知识特征数据或者所述医患交流特征数据中的一个实例，即因子与一个实例中所有症状对应的输入单元相连，且通过所述潜藏层230中的潜藏单元与该实例中的疾病所对应的输出单元相连。

所述潜藏层230处于所述输入层210与所述输出层240之间，与所述输出层240直接连接，并与所述输入层210通过所述因子层220相连接。与所述输入层210和所述输出层240类似，所述潜藏层230也包括若干潜藏单元。输入层210中的每个输入单元以一定的概率被投影至所述潜藏层中的每个潜藏单元，然后所述潜藏层中的每个潜藏单元又以一定的概率被投影至所述输出层的每个输出单元，最终所述输出单元给出输出值，提供给用户关于其所患疾病的概率判断。

所述潜藏层中潜藏单元的数量一般依据经验确定，并且一般不会设定的太高，以保证所述潜藏层具有低维度的属性。优选的，所述潜藏层中潜藏单元的数量为50个。由于所述潜藏层基于数据维度低的性质，所以通过将因子层数据投影至所述低维度的潜藏层，有利于解决输入数据的稀疏问题。

图3是本发明第一实施例提供的基于因子图模型的自诊模型训练方法中稀疏因子图模型构建的流程图。参见图3，优选的，根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型具体包括：

S121，将所述专业知识特征数据与所述医患交流特征数据中的每种症状对应为所述稀疏因子图模型中的一个输入单元，不同的输入单元构成所述稀疏因子图模型的输入层。

S122，将所述专业知识特征数据与所述医患交流特征数据每种疾病对应于所述稀疏因子图模型中的一个输出单元，并由不同的输出单元构成所述稀疏因子图模型的输出层。

S123，将所述专业知识特征数据与所述医患交流特征数据中的每个实例对应为一个因子，并由不同的因子构成所述因子层。

S124，确定潜藏层中潜藏单元的数量，所述潜藏单元用于将所述因子层中的因子与所述输出层中的输出单元连接。

所述潜藏层中潜藏单元的数量一般依据开发人员的开发经验而确定。优选的，潜藏单元的总数量可以是50个。

S130，利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛。

在本实施例中，采用最大似然(Maximum likelihood,ML)估计的方法对所述稀疏因子图模型进行迁移训练。假设所述稀疏因子图模型仅仅基于所述专业知识特征数据或者所述医患交流特征数据给出自诊建议，那么实例集合X和疾病集合Y之间的条件概率为：

P (y_{iD} | θ_{i}, x_{i}) = P (y_{iD} | θ_{i}) \times \underset{n}{Π} (Σ_{k = 1}^{K} θ_{ik} \cdot Ω_{kn}) - - - (1)

在式(1)中，i表示因子层上的实例的序号，y_iD表示输出层对因子层上第i个实例给出的患者所患疾病是否疾病D的概率输出,θ_i表示潜藏层上潜藏单元对于所述第i个实例的概率向量，x_i表示第i个实例。θ_ik表示输出单元y_iD在潜藏层上第k个潜藏单元的映射概率，Ω_kn表示潜藏层上第k个潜藏单元在输入层上第n个输入单元上的映射概率。

将P(y_iD|θ_i)称为特征因子，并定义所述特征因子的函数关系为：

P (y_{iD} | θ_{i}) = \frac{1}{Z_{f}} \times \exp {α \cdot f (θ_{i}, y_{iD})} - - - (2)

在式(2)中，f(θ_i,y_iD)＝y_iD·θ_i，α是所述特征因子的权值，Z_f是输出归一化参数。

另外，定义输出单元之间的相关性函数为：

P (y_{jD} {, y}_{jD}) = \frac{1}{Z_{s}} \exp (β \cdot g (y_{jD}, y_{jD})) - - - (3)

在式(3)中，β为相关性函数的参数，g(y_jD,y_jD)是关于输出单元之间相关性的指示性函数，Z_s是输出相关性归一化参数。

这样，目标对数似然函数为：

\begin{matrix} O (Φ) = \underset{i}{Σ} \log P (y_{iD} | θ_{i}, x_{i}) + \underset{j}{Σ} \underset{j > j}{Σ} \log P (y_{. j}, y_{j}) \\ = \underset{i}{Σα \cdot} f (y_{iD}, θ_{i}) + \underset{j}{Σ} \underset{j > j}{Σ} β \cdot g (y_{j}, y_{j}) \\ + \underset{i}{Σ} \underset{n}{Σ} \log \underset{k}{Σ} θ_{ik} \cdot Ω_{kn} - \log Z \end{matrix} - - - (4)

在式(4)中，Z＝Z_f×Z_s。Ф表示需要学习的参数的集合。具体的，上式中需要学习的参数包括α、β、θ_ik以及Ω_kn。

上述推导过程是针对仅建立在一个数据集上的稀疏因子图模型的，也就是说，所述稀疏因子图模型是仅基于专业知识特征数据的稀疏因子图模型，或者是仅基于医患交流特征数据的稀疏因子图模型。在所述稀疏因子图模型需要同时考虑所述专业知识特征数据和所述医患交流特征数据的情况下，则目标对数似然函数是：

\begin{matrix} O (Φ) = O_{s} (α, β, θ_{ik}, Ω_{kn}) + O_{T} (μ, β, θ_{ik}, Ω_{kn}) \\ = Σ_{i = 1}^{I_{S}} α \cdot f (y_{iD}, θ_{i}) + Σ_{i = 1}^{I_{T}} μ \cdot f (y_{iD}, θ_{i}) \\ + β (Σ_{j = 1}^{J_{S}} \underset{j > j}{Σ} \log P (y_{j}, y_{j}) + Σ_{j = 1}^{J_{T}} \underset{j > j}{Σ} \log P (y_{j}, y_{j}) + Σ_{l = 1}^{J_{S}} Σ_{j = 1}^{J_{T}} \log P (y_{j}, y_{j})) \\ + Σ_{i = 1}^{I_{S}} Σ_{n = 1}^{N_{S}} \log \underset{k}{Σ} θ_{ik} \cdot Ω_{kn} + Σ_{i = 1}^{I_{T}} Σ_{n = 1}^{N_{T}} \log \underset{k}{Σ} θ_{ik} \cdot Ω_{kn} \end{matrix} - - - (5)

在式(5)中，O_S(α,β,θ_ik,Ω_kn)表示单独基于专业知识特征数据的模型部分的目标对数似然函数，O_T(μ,β,θ_ik,Ω_kn)表示单独基于医患交流特征数据的模型部分的目标对数似然函数。P(y_j,y_j)表示输出单元之间的联合概率。I_S、J_S以及N_S分别表示基于专业知识的所述稀疏因子图模型中，实例输入、疾病输出以及症状特征的数量；I_T、J_T以及N_T分别表示基于医患交流的所述稀疏因子图模型中，实例输入、疾病输出以及症状特征的数量。

由于对数函数的单调性，求解使得上述对数似然函数的取值最大的α、β、μ、θ_ik以及Ω_kn，就可以获得所述稀疏因子图模型中的相应参数。

本实施例通过从收集到的专业知识数据中提取专业知识特征数据，并从收集到的医患交流数据中提取医患交流特征数据，根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型，以及利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，获得了融合专业知识数据以及医患交流数据的不同特征的稀疏因子图模型，同时解决了领域知识偏差和经验数据稀疏的问题。

图4至图7示出了本发明的第二实施例。

图4是本发明第二实施例提供的基于因子图模型的自诊模型训练方法的流程图。所述基于因子图模型的自诊模型训练方法以本发明第一实施例为基础，进一步的，在利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练之后，还包括：接收用户输入的症状，并根据所述稀疏因子图模型对输入症状的输出结果向用户反馈关于输入症状的自诊结果。

参见图4，所述基于因子图模型的自诊模型训练方法包括：

S410，从收集到的专业知识数据中提取专业知识特征数据，并从收集到的医患交流数据中提取医患交流特征数据，其中，所述专业知识特征数据以及所述医患交流特征数据中均存储有疾病与症状之间的对应关系。

S420，根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型。

S430，利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛。

S440，接收用户输入的症状，并根据所述稀疏因子图模型对输入症状的输出结果向用户反馈关于输入症状的自诊结果。

完成所述稀疏因子图模型的训练以后，可以接收用户输入的症状，并根据所述稀疏因子图模型对输入症状的输出结果向用户反馈关于输入症状的自诊结果。

优选的，可以根据用户输入的症状以及所述稀疏因子图模型根据该症状的输出设计向用户提问的问题，以便通过更少次数的交互确定用户所患的疾病。

图5是本发明第二实施例提供的根据稀疏因子图模型给出自诊建议的流程示意图。参见图5，假设用户输入的问题是“流鼻涕、嗓子痛怎么办”，自诊系统在接收到用户的问题以后，将“流鼻涕”501和“嗓子痛”502作为患者的症状输入至所述稀疏因子图模型。经过所述稀疏因子图模型的预测，用户最为有可能患的疾病是感冒。于是，所述自诊系统选择当前预测疾病的另一个症状“全身乏力”503作为新的问题，向用户询问是否还感觉到全身乏力。如果用户给出肯定的答案的话，所述自诊系统继续在感冒的症状中选择新的症状向用户提问；如果用户给出否定的答案，所述自诊系统选择新的症状的同时，重新对用户可能患的疾病进行预测。在图5示出的流程中，由于用户对自己是否全身乏力给出了否定的答案，所述自诊系统重新判断用户最为有可能患的疾病是支气管炎。

在所述稀疏因子图模型给出关于用户输入的症状的疾病预测的过程中，首先将用户的症状输入对应至所述稀疏因子图模型的输入层，然后根据所述输入层上的输入值以及潜藏层上的每个潜藏单元在输入层上每个输入单元上的映射概率确定每个潜藏单元的取值，最后根据所述潜藏单元的取值、输出单元在潜藏层上每个潜藏单元的映射概率、针对专业知识特征数据的输出值与潜藏层单元之间关系的权值、针对医患交流特征数据的输出值与潜藏层单元之间关系的权值，以及输出单元之间相关关系的权值最终确定所述输出单元的输出值。确定所述输出单元的输出值以后，可以选取输出值最大的一个输出单元，将该单元对应的疾病作为最终确诊的疾病。也可以选取所有输出单元中输出值最大的几个输出单元，将这些输出单元对应的疾病最为最终确诊的疾病。

图6a至图6d分别示出了根据所述稀疏因子图模型给出的疾病预测结果与根据其他方案给出的疾病预测结果在准确率、召回率、F1度量值(F1 measure)及曲线下面积(Average under curve,AUC)值的比较结果。分别比较了不同算法对10种疾病给出疾病预测结果的准确率、召回率、F1度量值以及AUC值。其中目标稀疏因子图(Target sparse factor graph,TSFG)模型代表本实施例提供的稀疏因子图模型，目标因子图(Target factor graph,TFG)模型代表仅有迁移学习，没有潜变量同分布映射的模型，稀疏因子图模型(Sparsefactor graph,SFG)代表包括潜藏层，但是仅学习医患交流特征数据而训练得到的稀疏因子图模型，蒙特卡洛-马尔可夫链(Monte carlo-markov chain,MCMC)代表利用MCMC对诊断结果进行评估而得到的模型，支持向量机(Support vectormachine,SVM)代表利用SVM对医患交流数据进行学习而得到的模型。从图中可以看出，本实施例提供的稀疏因子图模型的总体效果优于其他算法。潜藏层的设置对于提升疾病预测的召回率帮助较大，对于提升F1度量值和AUC值也有一定的帮助。

图7示出了不同模型对8种呼吸系统疾病进行测试得到的准确率。参见图7，本发明所提供的稀疏因子图模型给出的预测结果的准确率与TFG模型给出的准确率相近，并且明显优于其他模型给出的预测结果的准确率。

本实施例通过在模型收敛以后，接收用户输入的症状，并根据所述稀疏因子图模型对输入症状的输出结果向用户反馈关于输入症状的自诊结果，使得用户能够根据自身症状，获得自诊系统给出的疾病预测，从对不同疾病预测算法的测试结果来看，根据所述稀疏因子图模型给出的疾病预测的准确率优于其他算法。

图8示出了本发明的第三实施例。

图8是本发明第三实施例提供的基于因子图模型的自诊模型训练方法中模型训练的流程图。所述基于因子图模型的自诊模型训练方法以本发明上述实施例为基础，进一步的，利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛包括：固定α、β和μ，采用Jensen不等式确定所述稀疏因子图模型中的θ_ik和Ω_kn；待θ_ik和Ω_kn的取值收敛，保持θ_ik和Ω_kn参数的取值不变，采用环路信念传播(Loopy belief propagation,LBP)确定所述稀疏因子图模型中的α、β和μ。

参见图8，利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛包括：

S131，固定α、β和μ，采用Jensen不等式确定所述稀疏因子图模型中的θ_ik和Ω_kn。

固定所述稀疏因子图模型中，也就是上述式(5)中的变量α、β和μ,则所述稀疏因子图模型中需要确定的变量仅有θ_ik和Ω_kn。假设待定变量为Θ＝{θ_ik，Ω_kn}，并设k是第k个潜藏层变量，i表示第i个实例，n表示i中的症状具有全局索引n，k_i,n表示第i个实例以及第n个症状对应的第k个潜藏单元的取值，q(k_i,n)表示k_i,n对应的概率。这样通过对所有的实例X采用Jensen不等式，就有：

p (X | Θ) = \underset{k}{&Integral;} \frac{p (X, k_{i, n}, Θ)}{q (k_{i, n})} q (k_{i, n}) {dk}_{i, n} &GreaterEqual; Π_{i = 1}^{I \times N \times K} {(\frac{p (X, k_{i, n}, Θ)}{q (k_{i, n})})}^{q (k_{i, n})} - - - (6)

在式(6)中，k_i,n满足如下关系：

\underset{k_{i, n}}{&Integral;} q (k_{i, n}) {dk}_{i, n} = 1 - - - (7)

对式(7)中的右边部分计算对数，我们可以得到：

\begin{matrix} \log (Π_{i = 1}^{N} {(\frac{p (X, k_{i, n}, Θ)}{q (k_{i, n})})}^{q (z)}) \\ = \underset{z}{&Integral;} (q (k_{i, n}) \log p (X, k_{i, n}, Θ) - q (k_{i, n}) \log q (k_{i, n})) {dk}_{i, n} \end{matrix} - - - (8)

对常数q(k_i,n)采用拉格朗日乘子，就得到：

\begin{matrix} \log L = λ (1 - \underset{z}{&Integral;} q (k_{i, n}) {dk}_{i, n}) \\ + \underset{z}{&Integral;} q (k_{i, n}) \log p (X, k_{i, n}, Θ) - q (k_{i, n}) \log q (k_{i, n}) dz \end{matrix} - - - (9)

在式(9)中，λ是待定变量。

根据式(9)，可以得到：

\begin{matrix} \frac{dL}{dq (k_{i, n})} = - \underset{k_{i, n}}{&Integral;} λ {dk}_{i, n} + \underset{k_{i, n}}{&Integral;} (\log p (X, k_{i, n}, Θ) - \log q (k_{i, n}) - 1) {dk}_{i, n} \\ = \underset{k_{i, n}}{&Integral;} (λ + 1) {dk}_{i, n} + \underset{k_{i, n}}{&Integral;} (\log p (X, k_{i, n}, Θ) - \log q (k_{i, n})) {dk}_{i, n} = 0 \end{matrix} - - - (10)

所以，能够进一步得到：

λ+1＝log p(X,k_i,n,Θ)-log q(k_i,n) (11)

再进一步推导，可以有：

\underset{k_{i, n}}{&Integral;} q (k_{i, n}) {dk}_{i, n} = \underset{z}{&Integral;} \frac{p (X, k_{i, n}, Θ)}{10^{λ + 1}} {dk}_{i, n} = 1 - - - (12)

所以：

10^{λ + 1} = \underset{k_{i, n}}{&Integral;} p (X, k_{i, n}, Θ) {dk}_{i, n} - - - (13)

所以：

q (k_{i, n}) = \frac{p (X, k_{i, n}, Θ)}{10^{λ + 1}} = \frac{p (X, k_{i, n}, Θ)}{\underset{k_{i, n}}{&Integral;} p (X, k_{i, n}, Θ) {dk}_{i, n}} = p (k_{i, n} | X, Θ) - - - (14)

因此，所述目标对数似然函数可以被简化为：

\begin{matrix} O (θ, Ω) \approx Σ_{i = 1}^{I_{S} \cup I_{T}} (α \cdot f (y_{i}, θ_{i}) + μ \cdot f (y_{i}, θ_{i})) \\ + Σ_{i = 1}^{I_{S} \cup I_{T}} Σ_{n = 1}^{N_{S} \cup N_{T}} \log \underset{k}{Σ} (θ_{ik} \cdot Ω_{kn} \cdot p (k_{i, n} | X, Θ)) \end{matrix} - - - (15)

对简化后的目标对数似然函数中的θ_ik参数和Ω_kn参数分别应用拉格朗日乘子，再分别对θ_ik和Ω_kn求偏微分，就有：

θ_{ik} = \{\begin{matrix} \frac{\underset{n}{ΣP (k_{i, n} | x_{i}, θ_{ik}, Ω_{kn})}}{\underset{n}{Σ} \underset{i}{Σ} P (k_{i, m} | x_{i}, θ_{ik}, Ω_{kn})} + α_{k} \times y_{i}, if & i &Element; I_{S} \\ \frac{\underset{n}{Σ} P (k_{i, n} | x_{i}, θ_{ik}, Ω_{kn})}{\underset{n}{Σ} \underset{i}{Σ} P (k_{i, n} | x_{i}, θ_{ik}, Ω_{kn})} + μ_{k} \times y_{i}, if & i &Element; I_{T} \end{matrix} - - - (16)

Ω_{kn} = \frac{\underset{i}{Σ} P (k_{i, n} | x_{i}, θ_{ik}, Ω_{kn})}{\underset{i}{Σ} \underset{n}{Σ} P (k_{i, n} | x_{i}, θ_{ik}, Ω_{kn})} - - - (17)

P (k_{i, n} | x_{i}, θ_{ik}, Ω_{kn}) = \frac{θ_{ik} \cdot Ω_{kn}}{\underset{k}{Σ} θ_{ik} \cdot Ω_{kn}} - - - (18)

基于式(16)、(17)以及(18)，根据期望最大化(Expectation maximization,EM)算法就能够得到待定的θ_ik和Ω_kn。其中，式(16)中，α_k表示在针对专业知识特征数据的输出值与第k个潜藏层单元之间关系的权值，μ_k表示在针对医患交流特征数据的输出值与第k个潜藏层单元之间关系的权值。在这里，所述α_k以及μ_k都是常数。

图9是本发明第三实施例提供的模型训练过程中θ_ik以及Ω_kn的训练流程图。参见图9，优选的，固定α、β和μ，采用Jensen不等式确定所述稀疏因子图模型中的θ_ik和Ω_kn包括：

S1311，给θ_ik和Ω_kn随机赋初值。

S1312，根据公式(18)计算P(k_in|x_i,θ_ik,Ω_kn)。

S1313，根据公式(16)以及(17)分别计算θ_ik、Ω_kn以及O(θ_ik,Ω_kn)。

S1314，判断O(θ_ik,Ω_kn)的变化量是否小于预设的变化量阈值，若大于预设的变化量阈值，则返回执行S1312，若小于预设的变化量阈值，则模型收敛。

其中，所述O(θ_ik,Ω_kn)的变化量是指当前计算得到的O(θ_ik,Ω_kn)与前一次计算得到的O(θ_ik,Ω_kn)之间的差值。在第一次对O(θ_ik,Ω_kn)进行计算时，默认所述O(θ_ik,Ω_kn)的变化量大于所述变化量阈值。

S132，待θ_ik和Ω_kn的取值收敛，保持θ_ik和Ω_kn参数的取值不变，采用LBP确定所述稀疏因子图模型中的α、β和μ。

通过Jensen不等式确定所述稀疏因子图模型中的θ_ik和Ω_kn参数后，采用LBP算法确定所述稀疏因子图模型中的α、β和μ参数。

本实施例通过固定α、β和μ，采用Jensen不等式确定所述稀疏因子图模型中的θ_ik和Ω_kn，待θ_ik和Ω_kn的取值收敛，保持θ_ik和Ω_kn参数的取值不变，采用环路信念传播LBP确定所述稀疏因子图模型中的α、β和μ，使得构建的稀疏因子图模型中的模型参数被确定。

图10示出了本发明的第四实施例。

图10是本发明第四实施例提供的基于因子图模型的自诊模型训练装置的结构图。参见图10，所述基于因子图模型的自诊模型训练装置包括：特征提取模块1010、模型构建模块1020以及模型训练模块1030。

所述特征提取模块1010用于从收集到的专业知识数据中提取专业知识特征数据，并从收集到的医患交流数据中提取医患交流特征数据，其中，所述专业知识特征数据以及所述医患交流特征数据中均存储有疾病与症状之间的对应关系。

所述模型构建模块1020用于根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型。

所述模型训练模块1030用于利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛。

优选的，所述基于因子图模型的自诊模型训练装置还包括：自诊结果反馈模块1040。

所述自诊结果反馈模块1040用于在利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练之后，接收用户输入的症状，并根据所述稀疏因子图模型对输入症状的输出结果向用户反馈关于输入症状的自诊结果。

优选的，所述模型构建模块1020包括：输入层构建单元1021、输出层构建单元1022、因子层构建单元1023以及潜藏层构建单元1024。

所述输入层构建单元1021用于将所述专业知识特征数据与所述医患交流特征数据中的每种症状对应为所述稀疏因子图模型中的一个输入单元，不同的输入单元构成所述稀疏因子图模型的输入层。

所述输出层构建单元1022用于将所述专业知识特征数据与所述医患交流特征数据每种疾病对应于所述稀疏因子图模型中的一个输出单元，并由不同的输出单元构成所述稀疏因子图模型的输出层。

所述因子层构建单元1023用于将所述专业知识特征数据与所述医患交流特征数据中的每个实例对应为一个因子，并由不同的因子构成所述因子层。

所述潜藏层构建单元1024用于确定潜藏层中潜藏单元的数量，所述潜藏单元用于将所述输入层中的输入单元与所述输出层中的输出单元连接。

优选的，利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练时使用的对数似然函数如下：

\begin{matrix} O (α, β, μ, θ_{ik}, Ω_{ik}) = Σ_{i = 1}^{I_{S}} α \cdot f (y_{iD}, θ_{i}) + Σ_{i = 1}^{I_{T}} μ \cdot f (y_{iD}, θ_{i}) \\ + β \cdot (Σ_{j = 1}^{J_{S}} \underset{j > j}{Σ} \log P (y_{j}, y_{j}) + Σ_{j = 1}^{J_{T}} \underset{j > j}{Σ} \log P (y_{j}, y_{j}) + Σ_{j = 1}^{J_{S}} Σ_{j = 1}^{J_{T}} \log P (y_{j}, y_{j})) \\ + Σ_{i = 1}^{I_{S}} Σ_{n = 1}^{N_{S}} \log \underset{k}{Σ} θ_{ik} \cdot Ω_{kn} + Σ_{i = 1}^{I_{T}} Σ_{n = 1}^{N_{T}} \log \underset{k}{Σ} θ_{ik} \cdot Ω_{kn} \end{matrix} - - - (19)

其中，y_i表示所述稀疏因子图模型对于第i个疾病的输出估计值，θ_ik表示输出y_i在第k个潜层变量上的概率映射，Ω_kn表示第k个潜层变量在第n个输出变量上的概率映射，α表示在针对专业知识特征数据的输出值与潜藏层单元之间关系的权值，μ表示在针对医患交流特征数据的输出值与潜藏层单元之间关系的权值，β表示输出单元之间相关关系的权值。

优选的，所述模型训练模块1030包括：第一参数确定单元1031以及第二参数确定单元1032。

所述第一参数确定单元1031用于固定α、β和μ，采用Jensen不等式确定所述稀疏因子图模型中的θ_ik和Ω_kn。

所述第二参数确定单元1032用于待θ_ik和Ω_kn的取值收敛，保持θ_ik和Ω_kn参数的取值不变，采用环路信念传播LBP确定所述稀疏因子图模型中的α、β和μ。

优选的，所述专业知识特征数据以及所述医患交流特征数据均采用资源描述框架RDF格式。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于因子图模型的自诊模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练之后，还包括：

接收用户输入的症状，并根据所述稀疏因子图模型对输入症状的输出结果向用户反馈关于输入症状的自诊结果。

3.根据权利要求1或2所述的方法，其特征在于，根据所述专业知识特征数据以及所述医患交流特征数据的内容构建包括潜藏层的稀疏因子图模型包括：

将所述专业知识特征数据与所述医患交流特征数据中的每种症状对应为所述稀疏因子图模型中的一个输入单元，不同的输入单元构成所述稀疏因子图模型的输入层；

将所述专业知识特征数据与所述医患交流特征数据每种疾病对应于所述稀疏因子图模型中的一个输出单元，并由不同的输出单元构成所述稀疏因子图模型的输出层；

将所述专业知识特征数据与所述医患交流特征数据中的每个实例对应为一个因子，并由不同的因子构成所述因子层；

确定潜藏层中潜藏单元的数量，所述潜藏单元用于将所述因子层中的因子与所述输出层中的输出单元连接。

4.根据权利要求3所述的方法，其特征在于，利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练时使用的对数似然函数如下：

\begin{matrix} 0 (α, β, μ, θ_{ik}, Ω_{kn}) = Σ_{i = 1}^{I_{s}} α \cdot f (y_{iD}, θ_{i}) + Σ_{i = 1}^{I_{T}} μ \cdot f (y_{iD}, θ_{i}) \\ + β \cdot (Σ_{j = 1}^{J_{S}} \underset{j > j}{Σ} \log P (y_{j}, y_{j}) + Σ_{j = 1}^{J_{T}} \underset{j > j}{Σ} \log P (y_{j}, y_{j}) + Σ_{j = 1}^{J_{S}} Σ_{j = 1}^{J_{T}} \log P (y_{j}, y_{j})) \\ + Σ_{i = 1}^{I_{S}} Σ_{n = 1}^{N_{S}} \log \underset{k}{Σ} θ_{ik} \cdot Ω_{kn} + Σ_{i = 1}^{I_{T}} Σ_{n = 1}^{N_{T}} \log \underset{k}{Σ} θ_{ik} \cdot Ω_{kn} \end{matrix}

5.根据权利要求4所述的方法，其特征在于，利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练，直至所述稀疏因子图模型的参数全部收敛包括：

固定α、β和μ，采用Jensen不等式确定所述稀疏因子图模型中的θ_ik和Ω_kn；

待θ_ik和Ω_kn的取值收敛，保持θ_ik和Ω_kn参数的取值不变，采用环路信念传播LBP确定所述稀疏因子图模型中的α、β和μ。

6.根据权利要求5所述的方法，其特征在于，所述专业知识特征数据以及所述医患交流特征数据均采用资源描述框架RDF格式。

7.一种基于因子图模型的自诊模型训练装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

自诊结果反馈模块，用于在利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练之后，接收用户输入的症状，并根据所述稀疏因子图模型对输入症状的输出结果向用户反馈关于输入症状的自诊结果。

9.根据权利要求7或8所述的装置，其特征在于，所述模型构建模块包括：

输入层构建单元，用于将所述专业知识特征数据与所述医患交流特征数据中的每种症状对应为所述稀疏因子图模型中的一个输入单元，不同的输入单元构成所述稀疏因子图模型的输入层；

输出层构建单元，用于将所述专业知识特征数据与所述医患交流特征数据每种疾病对应于所述稀疏因子图模型中的一个输出单元，并由不同的输出单元构成所述稀疏因子图模型的输出层；

因子层构建单元，用于将所述专业知识特征数据与所述医患交流特征数据中的每个实例对应为一个因子，并由不同的因子构成所述因子层；

潜藏层构建单元，用于确定潜藏层中潜藏单元的数量，所述潜藏单元用于将所述因子层中的因子与所述输出层中的输出单元连接。

10.根据权利要求9所述的装置，其特征在于，利用所述专业知识特征数据以及所述医患交流特征数据对所述稀疏因子图模型进行迁移训练时使用的对数似然函数如下：

\begin{matrix} 0 (α, β, μ, θ_{ik}, Ω_{kn}) = Σ_{i = 1}^{I_{s}} α \cdot f (y_{iD}, θ_{i}) + Σ_{i = 1}^{I_{T}} μ \cdot f (y_{iD}, θ_{i}) \\ + β \cdot (Σ_{j = 1}^{J_{S}} \underset{j > j}{Σ} \log P (y_{j}, y_{j}) + Σ_{j = 1}^{J_{T}} \underset{j > j}{Σ} \log P (y_{j}, y_{j}) + Σ_{j = 1}^{J_{S}} Σ_{j = 1}^{J_{T}} \log P (y_{j}, y_{j})) \\ + Σ_{i = 1}^{I_{S}} Σ_{n = 1}^{N_{S}} \log \underset{k}{Σ} θ_{ik} \cdot Ω_{kn} + Σ_{i = 1}^{I_{T}} Σ_{n = 1}^{N_{T}} \log \underset{k}{Σ} θ_{ik} \cdot Ω_{kn} \end{matrix},

11.根据权利要求10所述的装置，其特征在于，所述模型训练模块包括：

第一参数确定单元，用于固定α、β和μ，采用Jensen不等式确定所述稀疏因子图模型中的θ_ik和Ω_kn；

第二参数确定单元，用于待θ_ik和Ω_kn的取值收敛，保持θ_ik和Ω_kn参数的取值不变，采用环路信念传播LBP确定所述稀疏因子图模型中的α、β和μ。

12.根据权利要求11所述的装置，其特征在于，所述专业知识特征数据以及所述医患交流特征数据均采用资源描述框架RDF格式。