CN110504026B

CN110504026B - 控制方法以及医学系统

Info

Publication number: CN110504026B
Application number: CN201910413304.3A
Authority: CN
Inventors: 彭宇劭; 汤凯富; 张智威; 林轩田
Original assignee: HTC Corp
Current assignee: HTC Corp
Priority date: 2018-05-18
Filing date: 2019-05-17
Publication date: 2022-07-26
Anticipated expiration: 2039-05-17
Also published as: TWI745693B; CN110504026A; US20190355471A1; US11600387B2; TW202004771A

Abstract

一种强化学习系统的控制方法包含下列步骤。强化学习系统获得有关互动系统的训练数据，互动系统与强化学习智能体互动。训练神经网络模型以最大化强化学习智能体对应多个序列行动所收集到的累积奖励，其中强化学习智能体使用神经网络模型从一系列的多个候选行动中挑选出所述序列行动。在神经网络模型的训练过程中，根据所述序列行动中的症状询问行动与确诊症状之间的比较结果提供累积奖励当中的多个辅助奖励给强化学习智能体。通过提供辅助奖励以鼓励强化学习智能体去选择症状询问行动当中潜在答案较有机会为是的询问行动，借此提高提出关键性询问行动的可能性。本公开还涉及一种医学系统。

Description

控制方法以及医学系统

技术领域

本公开涉及机器学习方法，更进一步而言，本公开涉及用于医学系统的强化学习方法。

背景技术

近年来已经出现了电脑辅助医学系统的概念以便于患者自我诊断。电脑辅助医学系统可请求患者提供一些信息，并随后基于与患者的互动来尝试诊断潜在疾病。

发明内容

本公开文件提供一种控制方法适用于强化学习系统，控制方法包含下列步骤。获得有关一互动系统的一训练数据，该互动系统与一强化学习智能体互动，该强化学习智能体用以选择多个序列行动，该训练数据包含一病历，该病历记载一确诊疾病以及与该确诊疾病有关的多个确诊症状之间的关系。训练一神经网络模型以最大化该强化学习智能体对应所述序列行动所收集到的一累积奖励，其中该强化学习智能体使用该神经网络模型从一系列的多个候选行动中挑选出所述序列行动，所述序列行动包含多个症状询问行动以及一结果预测行动。在该神经网络模型的训练过程中，根据所述症状询问行动与所述确诊症状之间的比较结果提供该累积奖励当中的多个辅助奖励给该强化学习智能体，以及，根据该结果预测行动与该确诊疾病之间的比较结果提供该累积奖励当中的一主要奖励给该强化学习智能体。

于一实施例中，其中提供所述辅助奖励的步骤包含：将所述症状询问行动每一者各自与该训练数据中的所述确诊症状比较；相对应于该症状询问行动其中一者符合该训练数据中所述确诊症状其中一者，提供一正值辅助奖励；以及相对应于该症状询问行动其中该者并未符合该训练数据中所述确诊症状任一者，提供一负值辅助奖励。

于一实施例中，提供所述辅助奖励的步骤包含：判断所述症状询问行动当中一当前选取行动是否与所述症状询问行动当中一先前选取行动指向一相同症状；以及相对应于该当前选取行动与该先前选取行动指向该相同症状，提供该负值辅助奖励。

于一实施例中，依照一序列顺序提供的所述辅助奖励具有逐渐提高的折扣率。

于一实施例中，提供所述辅助奖励当中的一第一辅助奖励的次序早于提供所述辅助奖励当中的一第二辅助奖励的次序，提供该第二辅助奖励时采用一折扣参数。

于一实施例中，该神经网络模型包含一共同神经网络部分、一第一分支神经网络部分以及一第二分支神经网络部分，该第一分支神经网络部分与该第二分支神经网络部分分别连接至该共同神经网络部分，该第一分支神经网络产生的一第一结果状态用以选择所述症状询问行动或该结果预测行动，该第二分支神经网络产生的一第二结果状态用以重建多个症状特征的一几率分布。

于一实施例中，在训练过程中该神经网络模型的一目标函数包含最大化该累积奖励以及最小化所述症状特征的该几率分布与所述确诊症状之间的一差距。

于一实施例中，该强化学习智能体所选择的所述序列行动使得该互动系统由一状态进入另一状态，该互动系统的一状态数据包含多个症状数据位元以及多个脉络数据位元，所述症状数据位元记载在该病历中一病患身上是否发生多个症状各自的一正状态、一负状态或是一未确认状态，所述脉络数据位元记载与该病历中该病患的相关信息。

于一实施例中，该结果预测行动包含一疾病预测行动以及对应该疾病预测行动的一医疗部门建议行动两者至少一者。

于一实施例中，在该神经网络模型的完成训练后，该控制方法还包含：利用该互动系统由一使用者收集一初始症状作为输入至该强化学习智能体的一初始状态；根据该神经网络模型选择所述序列行动；以及根据所述序列行动中的该结果预测行动，提供一疾病预测或者一医疗部门建议。

本公开文件进一步提供一种医学系统，医学系统包含互动系统、强化学习智能体以及神经网络模型。强化学习智能体与该互动系统互动，该强化学习智能体用以挑选出多个序列行动。强化学习智能体用以训练该神经网络模型，其训练参照该强化学习智能体与该互动系统之间的互动并且根据一训练数据，该训练数据包含一病历，该病历记载一确诊疾病以及与该确诊疾病有关的多个确诊症状之间的关系。强化学习智能体使用该神经网络模型从一系列的多个候选行动中挑选出所述序列行动，该神经网络模型被训练为最大化该强化学习智能体对应所述序列行动所收集到的一累积奖励，所述序列行动包含多个症状询问行动以及一结果预测行动。在该神经网络模型的训练过程中，该互动系统根据所述症状询问行动与所述确诊症状之间的比较结果提供该累积奖励当中的多个辅助奖励给该强化学习智能体，以及该互动系统根据该结果预测行动与该确诊疾病之间的比较结果提供该累积奖励当中的一主要奖励给该强化学习智能体。

于一实施例中，在提供所述辅助奖励的过程中，该互动系统将所述症状询问行动每一者各自与该训练数据中的所述确诊症状比较，该互动系统提供一正值辅助奖励相对应于该症状询问行动其中一者符合该训练数据中所述确诊症状其中一者，该互动系统提供一负值辅助奖励相对应于该症状询问行动其中该者并未符合该训练数据中所述确诊症状任一者。

于一实施例中，该互动系统判断所述症状询问行动当中一当前选取行动是否与所述症状询问行动当中一先前选取行动指向一相同症状，以及该互动系统提供该负值辅助奖励相对应于该当前选取行动与该先前选取行动指向该相同症状。

于一实施例中，该互动系统提供所述辅助奖励当中的一第一辅助奖励的次序早于提供所述辅助奖励当中的一第二辅助奖励的次序，该互动系统提供该第二辅助奖励时采用一折扣参数。

于一实施例中，该医学系统包含一决策智能体，在该神经网络模型的完成训练后，该该互动系统由一使用者收集一初始症状作为输入至该决策智能体的一初始状态，该决策智能体根据该神经网络模型选择所述序列行动，该决策智能体根据所述序列行动中的该结果预测行动提供一疾病预测或者一医疗部门建议。

部分实施例中，本公开文件提供辅助奖励以鼓励强化学习智能体，去选择症状询问行动当中潜在答案较有机会为是的询问行动，借此提高提出关键性询问行动的可能性，以提高医学系统进行症状询问的效率以及有助于提高疾病预测的正确性。

须说明的是，上述说明以及后续详细描述是以实施例方式例示性说明本公开，并用以辅助本公开所请求的发明内容的解释与理解。

附图说明

为让本公开内容的上述和其他目的、特征、优点与实施例能更明显易懂，附图的说明如下：

图1示出根据本公开的一实施例中在训练阶段中的医学系统的示意图；

图2A示出本公开文件一些实施例中关于图1的医学系统如何训练神经网络模型的控制方法的方法流程图；

图2B示出根据本公开文件另一实施例中的控制方法有关图1中的医学系统如何训练神经网络模型的方法流程图；

图3示出本公开文件一些实施例中训练数据的其中一笔病历的示意图；

图4A示出于一些实施例中控制方法决定的状态以及行动的示意图；

图4B示出于一些实施例中控制方法决定的状态以及行动的示意图；

图4C示出于一些实施例中控制方法决定的状态以及行动的示意图；

图4D示出于一些实施例中控制方法决定的状态以及行动的示意图；

图5示出根据本公开文件一些实施例中一种控制方法的流程图；

图6示出根据本公开文件一些实施例中神经网络模型的架构示意图；

图7示出一示范性举例中当输入至神经网络模型的输入状态为图4B及图4C所示的状态时所产生的第二结果状态的示意图；

图8示出本公开文件另一个实施例中一种控制方法的流程图；以及

图9示出在神经网络模型完成训练后医学系统的示意图。

其中，附图标记说明如下：

100、500 医学系统

120、520 互动系统

140、540 强化学习智能体

560 决策智能体

200a、200b、300、400 控制方法

S210～S228、S229a、S229b 操作

S310～S330 操作

S410～S430 操作

ST0～STt 状态

ACT0～ACTt 行动

RE 报酬

TD 训练数据

SQA 症状询问行动

SQ1～SQ9 候选行动

DPA 疾病预测行动

DP1～DP5 候选行动

TDS 确诊症状数据

S1～S9 症状

TDC 脉络数据

TDD 确诊疾病数据

D1～D5 疾病

DS 症状数据位元群

DS1～DS9 症状数据位元

DC 脉络数据位元群

DC1～DC3 脉络数据位元

CA 候选行动

REa0(-)、REa2(-) 负值辅助报酬

REa1(+) 正值辅助报酬

REm 主要报酬

NNL1～NNL4 神经网络层

T1～T4 中间张量

RST1 第一结果状态

RST2 第二结果状态

COM 共同神经网络部分

B1 第一分支神经网络部分

B2 第二分支神经网络部分

U1 使用者

Sini 初始症状

Sqry 症状询问

Sans 症状答复

具体实施方式

以下公开提供许多不同实施例或例证用以实施本公开文件的不同特征。特殊例证中的元件及配置在以下讨论中被用来简化本公开。所讨论的任何例证只用来作解说的用途，并不会以任何方式限制本公开文件或其例证的范围和意义。在适当的情况下，在图示之间及相应文字说明中采用相同的标号以代表相同或是相似的元件。

参考图1，其示出根据本公开的一实施例中在训练阶段中的医学系统100的示意图。在训练阶段中的医学系统100包括互动系统120以及强化学习智能体140。互动系统120与强化学习智能体140彼此互动以训练神经网络模型NNM。强化学习智能体140用以选择多个序列行动，上述序列行动使得互动系统120由一状态进入另一状态。强化学习智能体140训练神经网络模型NNM时是参照强化学习智能体140与互动系统120之间的互动并且根据训练数据TD而进行。

于部分实施例中，互动系统120及强化学习智能体140可以通过处理器、中央处理单元或是运算电路加以实现。在医学系统100的训练阶段中，强化学习智能体140可以训练用来挑选多个序列行动的神经网络模型NNM(例如调整神经网络模型NNM当中节点或者互连线路之间的权重或参数)。互动系统120可以作为上述强化学习智能体140所进行的训练流程的监督者，举例来说，互动系统120可以评估强化学习智能体140所挑选的序列行动，并且给予强化学习智能体140相应上述序列行动的奖励。于一些实施例中，强化学习智能体140训练神经网络模型NNM的目标在于，将强化学习智能体140由互动系统120所收集到的奖励最大化。

强化学习智能体140利用神经网络模型NNM由一系列的多个候选行动当中挑选出多个序列行动。强化学习智能体140所挑选出的多个序列行动包含数个症状询问行动以及在上述数个症状询问行动之后的一个结果预测行动。

于一些实施例中，结果预测行动包含疾病预测行动。于另一些实施例中，结果预测行动包含对应疾病预测行动的医疗部门建议行动。于再一些实施例中，结果预测行动包含疾病预测行动以及对应疾病预测行动的医疗部门建议行动。在下列示范性的举例当中，强化学习智能体140所选择的结果预测行动包含疾病预测行动。然而本公开文件并不以此为限。

当强化学习智能体140选择了适当的序列行动(例如适当的症状询问行动或是正确的疾病预测行动)，互动系统120将提供相对应的奖励给强化学习智能体140。于一些实施例中，强化学习智能体140训练神经网络模型NNM的目标在于将强化学习智能体140对应各个序列行动所收集到的累积奖励的总值最大化。如此一来，神经网络模型NNM将会被训练为尽可能地选择适当的症状询问行动以及正确的疾病预测行动。

请一并参阅图2A，其示出本公开文件一些实施例中关于图1的医学系统100如何训练的神经网络模型NNM的控制方法200a的方法流程图。

如图1及图2A所示，控制方法200a的操作S210，由互动系统120执行，以取得与互动系统120有关的训练数据TD。于一些实施例中，训练数据TD包含多个已确认的病历。训练数据TD利用训练数据TD中上述已确认的病历来训练神经网络模型NNM。于一例子中，训练数据TD可以是由美国疾病管制与预防中心(Centers for Disease Control and Prevention)所取得的数据与相关信息，上述美国疾病管制与预防中心的网页位址为https://www.cdc.gov/datastatistics/index.html。

请一并参阅图3，其示出本公开文件一些实施例中训练数据TD的其中一笔病历MR1的示意图。于图3所示的实施例中，训练数据TD当中的一笔病历MR1包含确诊症状数据TDS、脉络数据TDC以及确诊疾病数据TDD。在确诊症状数据TDS当中的数据位元“1”代表病历MR1当中所提到的病患遭遇到对应的确诊症状。在确诊症状数据TDS当中的数据位元“0”代表病历MR1当中所提到的病患并未遭遇到对应的确诊症状。如图3所示，确诊症状S1、S6、S8有发生在此病患身上，而其他症状S2-S5、S7及S9则没有发生在此病患身上。在确诊疾病数据TDD当中的数据位元“1”代表病历MR1当中所提到的病患遭遇到对应的确诊疾病。在确诊疾病数据TDD当中的数据位元“0”代表病历MR1当中所提到的病患遭遇到对应的确诊疾病。如图3所示，病历MR1当中所提到的病患具有确诊疾病D3。

如图3所示，病历MR1记载了确诊疾病D3以及与确诊疾病D3有关的多个确诊症状S1、S6及S8之间的关系。此例子中，病历MR1记载了患有确诊疾病D3的病患以及当病患患有确诊疾病D3时发生在病患身上相对应的多个症状(即确诊症状S1、S6及S8)。也就是说，病历MR1可以用来提示多个可能的疾病D1-D5与多个可能的症状S1-S9之间的交互关系。当另一份病历(图中未示出)当中的另一位病患具有另一个疾病时，病患将可能具有相对应于另一个疾病的多个不同症状。即使当两个病患患有相同的疾病时，两个病患各自遇到的症状也不一定完全相同。

需要特别注意的是，图3中所示出的病历MR1具有五个疾病D1-D5与九种症状S1-S9之间的交互关系仅仅是作为一种示范性举例。然而，本公开文件并不以此为限。于一些实施例中，训练数据TD当中的多个病历可以具有200至500个可能症状对应到200至500个可能疾病。病历MR1仅示出一小部分的可能症状S1-S9以及一小部分的可能疾病D1-D5以利简短说明。

图3中的病历MR1显示病患具有确诊疾病D3(而非其他疾病D1、D2、D4或D5)以及病患具有确诊症状S1、S6及S8(而未具有症状S2-S5、S7及S9)。当病患具有不同的确诊疾病以及不同的确诊症状时，病历当中的数据位元将会随之不同。

于图3所示的一些实施例中，病历MR1可以进一步具备病患的脉络数据(contextinformation)TDC，脉络数据TDC可以表示病患的性别、年龄、血压、心理状态、婚姻状态、DNA序列表或其他有关病患的相关信息。于一些实施例中，病历MR1中的脉络数据TDC也同时被用来训练神经网络模型NNM。

如图1及图2A所示，控制方法200a的操作S220，由互动系统120及强化学习智能体140执行，以根据图3中训练数据TD中的病历MR1对神经网络模型NNM进行训练。需注意的是，图3示出了训练数据TD当中用以训练神经网络模型NNM的一笔病历MR1。实际应用中，训练数据TD当中可以包含大约100笔至大约1000000笔病历。操作S220当中讨论的训练流程可以针对多笔病历重复进行多次以最佳化训练后的神经网络模型NNM。

如图2A所示的实施例中，控制方法200a的操作S220包含操作S221至S228。如图1及图2A所示，首先执行操作S221，由互动系统120根据训练数据TD的病历MR1决定一状态。请一并参阅图4A，其示出于一些实施例中控制方法200a决定的状态ST0、状态ST1以及行动ACT0的示意图。

于一示范例子中，互动系统120所决定的状态ST0示出于图4A的实施例中。状态ST0包含症状数据位元群DS以及脉络数据位元群DC。症状数据位元群DS中的每一个症状数据位元DS1至DS9可以被设定为1(正状态代表此症状有发生)、-1(负状态代表此症状未发生)或0(未确认状态代表尚未确认此症状是否发生)。脉络数据位元群DC的每一个脉络数据位元DC1至DC3可以代表病患的性别、年龄、血压、心理状态、婚姻状态、DNA序列表或其他有关病患的相关信息。举例来说，脉络数据位元DC1为“1”可以代表病患是男性，脉络数据位元DC3为“0”可以代表病患尚未结婚。于实际应用中，脉络数据位元群DC可以包含更多的数据位元(图中未示出)以记录年龄、血压、心理状态、DNA序列表或其他有关病患的相关信息。

于图4A的实施例中，脉络数据位元群DC的脉络数据位元DC1至DC3可以由图3当中病历MR1的脉络数据(context information)TDC复制而来。

于图4A的一些实施例中，症状数据位元群DS当中的症状数据位元DS6被互动系统120设定为“1”根据图3所示的病历MR1当中的确诊症状S6。于初始状态ST0当中，只有症状数据位元DS6已知为“1”，症状数据位元群DS中其他的症状数据位元DS1-DS5以及DS7-DS9目前仍未确认“0”。

如图1及图2A所示，强化学习智能体140配合神经网络模型NNM执行操作S222，根据状态ST0(其中包含症状数据位元DS6代表了第六个症状确认发生)由一系列的多个候选行动中挑选出一个行动。

如图4A所示，多个候选行动CA包含属于症状询问行动SQA中的九个候选行动SQ1-SQ9以及属于疾病预测行动DPA的五个候选行动DP1-DP5。当候选行动SQ1被选取时，关于第一个症状(对应到图3中的症状S1)的询问将被执行。当候选行动SQ2被选取时，关于第二个症状(对应到图3中的症状S2)的询问将被执行。当候选行动SQ3被选取时，关于第三个症状(对应到图3中的症状S3)的询问将被执行。相似地，当不同的症状询问行动SQA被选取时，将对相应的症状提出询问。

另一方面，当候选行动DP1被选取时，关于第一个疾病(对应到图3中的疾病D1)的疾病预测将被执行。当候选行动DP2被选取时，关于第二个疾病(对应到图3中的疾病D2)的疾病预测将被执行。相似地，当不同的疾病预测行动DPA被选取时，将会给出相应的疾病预测。

于图1及图2A的一些实施例中，在挑选出最终疾病预测(即由多个疾病预测行动DPA中选出一个疾病预测行动)之前，将先进行几次的症状询问(即由从多个症状询问行动SQA中依序选出多少个行动进行询问)是由套用在医学系统100上的预算“t”而决定。于后续的实施例中，预算“t”是以“3”作为举例说明。换句话说，强化学习智能体140会先由多个症状询问行动SQA挑选其中一个行动，进行三次循环之后，才会由多个疾病预测行动DPA选出一个行动。

另一方面，当预算“t”已用尽时，图1及图2A中强化学习智能体140将会由多个疾病预测行动DPA中的候选行动中选出一者。于一些实施例中，强化学习智能体140是利用神经网络模型NNM来决定如何挑选多个序列行动，以最大化强化学习智能体140由互动系统120所收集到的累积奖励，这些累积奖励是相对应于上述挑选出的多个序列行动。本公开文件并不限制于预算“t＝3”。预算“t”可以被设定为大于1的正整数。于一些实施例中，预算“t”可以被设定为5到9之间。

于另一些实施例中，预算“t”可以被视为在决定最终疾病预测(即由多个疾病预测行动DPA中选出一个疾病预测行动)之前将会进行的症状询问次数(也就是由多个症状询问行动SQA挑出几次行动)的最大数量。然而，强化学习智能体140并未被限定于在所有情况(例如对应训练数据TD当中所有的病患或所有的病历)下都必须询问“t”个症状询问。如果强化学习智能体140已经收集了足够的信息以便在多个疾病预测行动DPA选出其中一者，则即使在预算“t”尚未用尽时，强化学习智能体140就可以在多个疾病预测行动DPA选出一个行动。

于一些例子中，当多个疾病预测行动DPA中被选出的一个疾病预测是正确的时候(符合训练数据的病历中确诊疾病)，强化学习智能体140会收到正值报酬RE。另一方面，当多个疾病预测行动DPA中被选出的一个疾病预测是错误的时候(不符合训练数据的病历中确诊疾病)，强化学习智能体140会收到负值报酬RE。于上述提出的例子中，强化学习智能体140在选择症状询问行动SQA的过程中并不直接收到任何报酬。由训练数据TD的多个病历中可以观察到，具有一个特定确诊疾病的病患通常会遭遇到三到四个相应的确诊症状。根据一些病历的统计数据，一个病患平均遇到3.07个症状至3.19个症状。需注意的是，在一般的实际应用中，在多个疾病预测行动DPA存在有相当多个候选行动(例如300个或以上)，强化学习智能体140在做出疾病预测的前仅会从中挑选有限数量的症状询问行动加以询问。在上述情况下，大部分的症状询问行动SQA收到的答案将是“否”，只有极少比例的症状询问行动SQA收到的答案会是“是”。如此一来，需要鼓励尽可能挑选出症状询问行动SQA当中潜在答案较有机会为“是”的询问行动，因为这样对疾病预测而言可以提供较多信息(或者可以提供关键信息)。当强化学习智能体140所收集到的报酬RE仅仅考虑疾病预测行动DPA其挑选的正确性时，训练流程将不会直接鼓励强化学习智能体140去选择症状询问行动SQA当中潜在答案较有机会为“是”的询问行动。

因此，于一些实施例中，医学系统100将(在有关症状询问行动SQA的主要报酬之外)提供对应于症状询问行动SQA的辅助报酬。

如图4A的实施例所示，执行操作S222，由强化学习智能体140将症状询问行动SQA当中的候选行动SQ3选为行动ACT0。于操作S223当中，当前的行动被判定为症状询问行动SQA中的一者。相应地，互动系统120或强化学习智能体140执行操作S224，以验证目前选出的症状询问行动SQA的候选行动SQ3，选出的候选行动SQ3将与训练数据TD的病历MR1当中的确诊症状进行比较。

根据图3所示训练数据TD的病历MR1，对应症状询问行动SQA的候选行动SQ3的答复为“否”。对应于症状询问行动SQA之一者并未符合训练数据TD中的确诊症状，将执行操作S225，提供负值辅助报酬REa0(-)给强化学习智能体140，如图4A所示。因为此时预算“t”尚未用尽，控制方法200a将回到操作S221，由互动系统120判定更新后的状态ST1。如图4A所示，在状态ST1当中，症状数据位元群DS当中的症状数据位元DS3由未确认状态“0”改为负状态“-1”，其代表第三个症状并未发生在患者身上。控制方法200a将接着根据新的状态ST1进行操作S222。

请一并参阅图4B，其示出于一些实施例中控制方法200a决定的状态ST1、状态ST2以及另一行动ACT1的示意图。

如图1、图2A以及图4B所示，配合神经网络模型NNM的强化学习智能体140执行操作S222，由根据状态ST1(其中包含症状数据位元DS6代表了第六个症状确认发生，以及症状数据位元DS3代表了第三个症状并未发生)由一系列的多个候选行动中挑选出一个行动。

如图4B的实施例所示，在操作S222中，由强化学习智能体140将症状询问行动SQA当中的候选行动SQ8选为行动ACT1。于操作S223当中，当前的行动被判定为症状询问行动SQA中的一者。相应地，互动系统120或强化学习智能体140执行操作S224，以验证目前选出的症状询问行动SQA的候选行动SQ8，选出的候选行动SQ8将与训练数据TD的病历MR1当中的确诊症状进行比较。

根据图3所示训练数据TD的病历MR1，对应症状询问行动SQA的候选行动SQ8的答复为“是”。对应于症状询问行动SQA之一者符合训练数据TD中的确诊症状，将执行操作S225，提供正值辅助报酬REa1(+)给强化学习智能体140，如图4B所示。因为此时预算“t”尚未用尽，控制方法200a将回到操作S221，由互动系统120判定更新后的状态ST2。如图4B所示，在状态ST2当中，症状数据位元群DS当中的症状数据位元DS8由未确认状态“0”改为正状态“1”，其代表第八个症状确认发生在患者身上。控制方法200a将接着根据新的状态ST2进行操作S222。

请一并参阅图4C，其示出于一些实施例中控制方法200a决定的状态ST2、状态ST3以及另一行动ACT2的示意图。

如图1、图2A以及图4C所示，配合神经网络模型NNM的强化学习智能体140执行操作S222，由根据状态ST2由一系列的多个候选行动中挑选出一个行动。

如图4C的实施例所示，在操作S222中，由强化学习智能体140将症状询问行动SQA当中的候选行动SQ4选为行动ACT2。于操作S223当中，当前的行动被判定为症状询问行动SQA中的一者。相应地，互动系统120或强化学习智能体140执行操作S224，以验证目前选出的症状询问行动SQA的候选行动SQ4，选出的候选行动SQ4将与训练数据TD的病历MR1当中的确诊症状进行比较。

在上述实施例中，每个阶段所选出的当前行动，是由尚未确认的症状询问行动SQA当中选出。强化学习智能体140应当避免重复选出相同的症状询问行动，因为这将造成时间上的浪费并且无法提供有效的判断信息。互动系统120会验证强化学习智能体140是否重复选出相同的症状询问行动。于一些实施例中，互动系统120将当前选取的症状询问行动与所有先前曾经选取的症状询问行动进行比较，判断当前选取行动是否与任何一个先前选取行动指向相同症状。若当前选取行动与先前选取行动指向相同症状，互动系统120将提供负值辅助奖励至强化学习智能体140。

根据图3所示训练数据TD的病历MR1，对应症状询问行动SQA的候选行动SQ4的答复为“否”。对应于症状询问行动SQA之一者并未符合训练数据TD中的确诊症状，将执行操作S225，提供负值辅助报酬REa2(-)给强化学习智能体140，如图4C所示。控制方法200a将回到操作S221，由互动系统120判定更新后的状态ST3。如图4C所示，在状态ST3当中，症状数据位元群DS当中的症状数据位元DS4由未确认状态“0”改为负状态“-1”，其代表第四个症状并未发生在患者身上。控制方法200a将接着根据新的状态ST3进行操作S222。根据本示范性举例，在这个回合中已经到达了设定的预算“t”。

请一并参阅图4D，其示出于一些实施例中控制方法200a决定的状态ST3以及另一行动ACT3的示意图。

如图1、图2A以及图4D所示，配合神经网络模型NNM的强化学习智能体140执行操作S222，由根据状态ST3由多个疾病预测行动DPA的五个候选行动DP1-DP5中挑选出一个行动。

假设，当疾病预测行动DPA当中的候选行动DP3被选出为行动ACT3a，如图4D所示，将提供正值主要报酬“REm＝1”至强化学习智能体140。于此情况下，强化学习智能体140收集到的累积报酬将为：

RE a0(-)+REa 1(+)+REa2(-)+1

假设，当疾病预测行动DPA当中的候选行动DP1被选出为行动ACT3b，如图4D所示，将提供负值主要报酬“REm＝-1”至强化学习智能体140。于此情况下，强化学习智能体140收集到的累积报酬将为：

REa0(-)+REa1(+)+REa2(-)+(-1)

需特别说明的是，神经网络模型NNM被训练以最大化强化学习智能体140收集到的累积报酬。因此，神经网络模型NNM将被训练为尽可能做出正确的疾病预测以取得正值主要报酬“1”，于此同时，神经网络模型NNM也被训练为提出适当的症状询问(以利能够做出正确的疾病预测进而取得正值主要报酬)。即使控制方法200a在原始报酬(即主要报酬)之外提供额外的辅助报酬，控制方法200a可以通过给予辅助报酬适当的数值边界，以确保辅助报酬并未影响此强化学习原本的马可夫决策过程(Markov decision process,MDP)。

于一些其他的实施例中，对应一序列顺序的序列行动ACT0、ACT1、ACT2以及ACT3a/ACT3b所提供的多个辅助奖励具有逐渐提高的折扣率。

REa0(-)+[d*REa1(+)]+[d^2*REa2(-)]+[d^3*1]

在上述式子中，d为报酬的折扣参数，d为0到1之间的一个正值。举例来说，d可以是0.99、0.9、0.8或其他适当的数值。

于此例子中，对应行动ACT0的辅助报酬REa0(-)是在较早的阶段所提供，相对于对应另一行动ACT1的辅助报酬[d*REa1(+)]。于此例子中，辅助报酬REa0(-)并未受到折扣参数影响，而辅助报酬[d*REa1(+)]则根据折扣参数“d”而提供。

于此例子中，对应行动ACT1的辅助报酬[d*REa1(+)]是在较早的阶段所提供，相对于对应另一行动ACT2的辅助报酬[d^2*REa2(-)]。于此例子中，辅助报酬REa0(-)并未受到折扣参数影响，辅助报酬[d*REa1(+)]则根据折扣参数“d”而提供，辅助报酬[d^2*REa2(-)]则根据折扣参数的平方值“d^2”而提供。换句话说，折扣参数将逐渐降低较晚的阶段所提供的报酬。

于一些实施例中，辅助报酬适当的数值边界的做法如下段落所述，以确保辅助报酬并未影响此强化学习原本的马可夫决策过程。辅助报酬可以通过下列方式计算：

Υ*(更新状态中的确认存在症状的数量*λ)–(当前状态中的确认存在症状的数量*λ)

其中，参数Υ的数值范围介于K/(K+1)与1之间。其中，变数K等于确认存在症状的数量或者预算“t”两者之间的最小值。参数λ为正的常数。

于一些例子中，负值辅助报酬REa0(-)可以计算如下：

Υ*(1*λ)–(1*λ)

由于参数Υ的数值范围介于K/(K+1)与1之间。负值辅助报酬REa0(-)，即Υ*(1*λ)–(1*λ)计算结果将为负值，因此，负值辅助报酬REa0(-)便可视为选出答案为“否”的症状询问时的一种惩罚。

于一些例子中，正值辅助报酬REa1(+)可以计算如下：

Υ*(2*λ)–(1*λ)

由于参数Υ的数值范围介于K/(K+1)与1之间。正值辅助报酬REa1(+)，即Υ*(2*λ)–(1*λ)计算结果将为正值，因此，正值辅助报酬REa1(+)便可视为选出答案为“是”的症状询问时的一种奖励。

于一些例子中，负值辅助报酬REa2(-)可以计算如下：

Υ*(2*λ)–(2*λ)

由于参数Υ的数值范围介于K/(K+1)与1之间。负值辅助报酬REa2(-)，即Υ*(2*λ)–(2*λ)计算结果将为负值，因此，负值辅助报酬REa2(-)便可视为选出答案为“否”的症状询问时的一种惩罚。

为了鼓励强化学习智能体140更快速发现存在症状，简单的发想是当询问到存在的症状时提供给智能体一个辅助性质的奖励，并且在询问到不存在的症状时提供相对较少(或是负值)的奖励。上述图2A中的控制方法200a可以被视为奖励塑形的机制，其将马可夫决策过程中原本的目标函式改变为新的目标函式，以利强化学习能更好的解决当前的决策问题。由于某些重要的负向症状答复(也就是此症状未发生)也有助于区分疾病，在得到负向症状答复时直接惩罚智能体(通过给予非正值的辅助奖励)是违反直觉的。通过控制方法200a给予辅助奖励适当的数值边界，可以确保在提供辅助奖励的同时不影响强化学习的最佳化策略。如此一来，智能体虽然可能会收到非正值的辅助奖励，但智能体仍会学习去提出具有关键性且可能得到负向答复的症状询问。

于图1及图2A的实施例中，当预算“t”用尽时，强化学习智能体140将会从疾病预测行动DPA选出其中一个候选行动，而不会从症状询问行动SQA当中挑选。然而，本公开文件并不以此为限。请一并参阅图2B，其示出根据本公开文件另一实施例中的控制方法200b有关图1中的医学系统100如何训练神经网络模型NNM。相对于图2A所示的实施例，图2B中的控制方法200b进一步包含操作S229a以及S229b。在图2B所示的实施例中，不论预算“t”数值为何，强化学习智能体140可以从症状询问行动SQA以及疾病预测行动DPA当中选出一个行动。换句话说，当预算“t”用尽时，强化学习智能体140仍有可能由症状询问行动SQA当中选出一个行动。如图2B所示，在操作S223之后且在操作S224之前，执行操作S229a以判断预算“t”是否用尽。若当前选出的行动是症状询问行动SQA其中一者且预算“t”尚未用尽，控制方法200b便执行操作S224。

若当前选出的行动是症状询问行动SQA其中一者且预算“t”已用尽，控制方法200b便执行操作S229b，以提供负值的主要报酬(例如主要报酬设为-1)给强化学习智能体140。接着，执行操作S228，基于累积报酬训练神经网络模型NNM。于此例子中，在上述训练过程中负值的主要报酬将会建议强化学习智能体140避免在预算“t”已用尽时仍选出症状询问行动SQA其中一者。

请一并参阅图5，其示出根据本公开文件一些实施例中一种控制方法300的流程图。于图5的实施例中，操作S310以及操作S321至S327相似于先前图2A的实施例中操作S210以及操作S221至S227，在此不令赘述。

于图5所示，控制方法300还包含操作S328、S329以及S330。在图1及图5的实施例中，强化学习智能体140所使用的神经网络模型NNM可以是双重神经网络(dual neuralnetwork model)。请一并参阅图6，其示出根据本公开文件一些实施例中神经网络模型NNM的架构示意图。如图6所示，强化学习智能体140用来挑选序列行动的神经网络模型NNM包含共同神经网络部分COM、第一分支神经网络部分B1以及第二分支神经网络部分B2。

相较图2A中的控制方法200a，图5所示的控制方法300还包含操作S328、S329以及S330。然而，本公开文件并不此此为限。通过相似的方式，控制方法300的操作S328、S329以及S330也可以应用到如图2B所示的控制方法200b(其包含操作S229a以及S229b)。

如图6所示，共同神经网络部分COM包含神经网络层NNL1以及另一神经网络层NNL2。神经网络层NNL1用以转换输入状态ST0-STt至一个中间张量(intermediate tensor)T1，神经网络层NNL2用以将中间张量T1转换为另一个中间张量T2。于一实施例中，神经网络层NNL1以及神经网络层NNL2可以是全连接层(fully-connection layer)或是卷积运算层(convolution filter layer)。

如图6所示，第一分支神经网络部分B1与第二分支神经网络部分B2分别连接至共同神经网络部分COM。

如图6所示，第一分支神经网络部分B1包含神经网络层NNL3。神经网络层NNL3用以转换中间张量T2至另一个中间张量T3。于一实施例中，神经网络层NNL3可以是全连接层(fully-connection layer)或是卷积运算层(convolution filter layer)。于一些实施例中，第一分支神经网络部分B1的中间张量T3可以由一全连接层处理为第一结果状态RST1。第一分支神经网络部分B1产生的第一结果状态RST1可以用来选出一个症状询问行动或一个结果预测行动(包含疾病预测行动及/或对应疾病预测行动的医疗部分建议行动)，例如先前图2A或图2B的实施例当中提到的操作S221至S227、或是相似的图5中的实施例当中提到的操作S321至S327。

如图6所示，第二分支神经网络部分B2包含神经网络层NNL4。神经网络层NNL4用以转换中间张量T2至另一个中间张量T4。于一实施例中，神经网络层NNL4可以是全连接层(fully-connection layer)或是卷积运算层(convolution filter layer)。于一些实施例中，第二分支神经网络部分B2的中间张量T4可以由一全连接层处理为第二结果状态RST2。第二分支神经网络B2产生的第二结果状态RST2用以重建多个症状特征的几率分布。

请一并参阅图7，其示出一示范性举例中当输入至神经网络模型NNM的输入状态为图4B及图4C所示的状态ST2时所产生的第二结果状态RST2的示意图。如图4B、图4C以及图7所示，输入状态(即图4B及图4C所示的状态ST2)仅包含了有关两个症状的信息，其中第三个症状为不存在以及第六个症状为存在。此时，由于大部分的症状都还是未确认的状态(在图7的实施例中输入状态中仍有七个症状仍未确认)，较难以看出目前状态下症状分布的全貌。如图5、图6以及图7的实施例所示，执行操作S328，由神经网络模型NNM中第二分支神经网络部分B2根据输入状态ST2重建多个症状特征的几率分布，同时神经网络模型NNM中第一分支神经网络部分B1平行处理用以挑选序列行动(如操作S322至操作S327)。

如图7所示，基于第二分支神经网络部分B2产生的第二结果状态RST2显示多个症状特征的几率分布。如图7所示，第二分支神经网络部分B2对应第一个症状至第九个症状各自的几率分布计算的结果分别为0.7、0.2、0.1、0.2、0.5、0.9、0.3、0.6及0.1。如图5所示，由互动系统120或强化学习智能体140执行操作S329，计算症状特征的几率分布与病历MR1(视为基本事实)当中确诊症状之间的差距。于一些实施例中，症状特征的几率分布与病历MR1当中确诊症状之间的差距的计算方式，可以两者的相减后的平方值加总。举例来说，于图7中，针对第一个症状特征以及病历MR1当中第一个症状的差距计算可以是(0.7-1)^2。多个症状特征的几率分布与病历MR1当中确诊症状之间的加总差距可以通过下列方式计算：

(0.7-1)^2+(0.2-0)^2+(0.1-0)^2+…+(0.1-0)^2

当加总差距较大时，表示目前的神经网络模型NNM在重建症状特征的几率分布的效率较低。于此情况下，当前的神经网络模型在后续训练过程中将被更新调整。

在一些实施例中，症状特征的几率分布与病历MR1当中确诊症状之间的差距可以通过二进位交叉熵损失函数(Binary Cross Entropy loss function,BCE lossfunction)加以计算。但本公开文件并不仅限于上述计算方式。

于图5的实施例中，执行操作S330，以训练图1中的神经网络模型NNM，以最大化累积奖励(包含在操作S322至操作S327中得到的多个辅助奖励以及主要奖励的加总)以及同时最小化上述症状特征的几率分布与病历当中确诊症状之间的差距。

换句话说，神经网络模型NNM的目标函式可以设定为：

累积奖励-β*(BCE损失函数的累积值)

在上述目标函式中，β为一个超参数(hyper-parameter)，其用以控制重建任务的重要性。神经网络模型NNM被训练为最大化目标函式的总值，也就代表了最大化累积奖励以及最小化症状特征的几率分布与确诊症状之间的差距。于图5的实施例中，辅助奖励是由操作S325提供，而症状特征的几率分布的重建是由操作S328至操作S329所进行。然而本公开文件并不限定于必须进行上述全部操作。

请一并参阅图8，其示出本公开文件另一个实施例中一种控制方法400的流程图。其中，图8中的操作S410、S421、S422、S423、S424、S426以及S427相似于图2A的实施例中的操作S221、S222、S223、S224、S226以及S227，以及图8中的操作S428及S429相似于图5中的操作S328及S329。需特别注意的是，控制方法400并未提供任何辅助奖励。于此实施例中，执行操作S430训练图1中的神经网络模型NNM以最大化收到的主要报酬(于操作S427中取得)以及最小化症状特征的几率分布与确诊症状之间的差距(于操作S429中计算得知)。于此例子中，神经网络模型NNM的目标函式可以设定为：

累积奖励-β*(BCE损失函数的累积值)

＝主要奖励-β*(BCE损失函数的累积值)

当神经网络模型NNM通过上述图2A、图2B、图5或图8中的控制方法200a、200b、300或400训练完成之后，图1中的医学系统100可以与患者互动，并且根据患者提出的初始症状以及患者回答多个症状询问的答复，医学系统500能够提供相应的疾病预测。请一并参阅图9，其示出在神经网络模型NNM完成训练后医学系统500的示意图。于此例中，互动系统520可以进一步包含输入/输出接口，例如键盘、鼠标、麦克风、触控面板或其他等效的设备，以便与使用者U1进行互动。如图9所示，医学系统500进一步包含决策智能体560，决策智能体560可以使用强化学习智能体540训练完成的神经网络模型NNM。

医学系统500可以通过输入/输出接口与使用者U1互动(例如由使用者U1收集初始症状、提供一些症状询问至使用者U1及/或由使用者U1处收集相应的症状询问答复)。基于上述互动历程，医学系统500可以分析、诊断或预测使用者U1身上可能遭遇的潜在疾病。

于一些实施例中，医学系统500可以建立在电脑、服务器或是处理运算中心上。互动系统520、强化学习智能体540以及决策智能体560可以通过处理器、中央处理单元或是运算电路加以实现。于一些实施例中，互动系统520可以还包含输出接口(例如显示面板以显示信息)及输入装置(例如触控板、键盘、麦克风、扫描器或是闪存存储器读取装置)让使用者可以输入文件指令、给予语音指令或是上传相关数据(例如影像、病历或是个人检查报告)。

在一些实施例中，医学系统500的至少一部分是由分布式系统所建构。举例来说，互动系统520、强化学习智能体540以及决策智能体560可以建立在云端运算系统上。

如图9所示，使用者U1可以操作互动系统520的输入/输出接口。使用者U1可以看到输入/输出接口上显示的信息以及使用者U1可以在输入/输出接口进行输入。于一实施例中，输入/输出接口会显示一个提示询问使用者U1身上的症状。使用者U1所输入的第一个症状将被视为初始症状Sini。输入/输出接口将会收集使用者输入的初始症状Sini作为状态ST0，互动系统520将把状态ST0传送至决策智能体560。

决策智能体560用以选择序列行动ACT0-ACTt。序列行动ACT0-ACTt包含多个症状询问行动以及一个结果预测行动。结果预测行动可以是疾病预测行动及/或对应疾病预测行动的医疗部门建议行动。互动系统520会根据多个序列行动ACT0-ACTt产生相应的多个症状询问Sqry。多个症状询问Sqry会依序显示，使用者可以依序回答多个症状询问Sqry，互动系统520会收到对应症状询问Sqry的多个症状答复Sans，并转换多个症状答复Sans为状态ST1-STt。在数个症状询问之后(当预算用尽时)，图9中的医学系统500将会根据结果预测行动提供一个疾病预测或是对应疾病预测的一个医疗部门建议给使用者U1。

决策智能体560会基于训练后的神经网络模型NNM，根据初始症状Sini以及所有使用者先前回复的症状答复Sans(在当前的问题之前)，决定最适合的问题(即症状询问Sqry)对使用者U1进行询问。

虽然本发明的实施例已公开如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可做些许的变动与润饰，因此本发明的保护范围当以后附的权利要求所界定为准。

Claims

1.一种控制方法，其特征在于，该控制方法适用于一强化学习系统，该控制方法包含：

获得有关一互动系统的一训练数据，该互动系统与一强化学习智能体互动，该强化学习智能体用以选择多个序列行动，该训练数据包含一病历，该病历记载一确诊疾病以及与该确诊疾病有关的多个确诊症状之间的关系；

训练一神经网络模型以最大化该强化学习智能体对应所述序列行动所收集到的一累积奖励，其中该强化学习智能体使用该神经网络模型从一系列的多个候选行动中挑选出所述序列行动，所述序列行动包含多个症状询问行动以及一结果预测行动；以及

在该神经网络模型的训练过程中，根据所述症状询问行动与所述确诊症状之间的比较结果提供该累积奖励当中的多个辅助奖励给该强化学习智能体，以及，根据该结果预测行动与该确诊疾病之间的比较结果提供该累积奖励当中的一主要奖励给该强化学习智能体；

其中该神经网络模型包含一共同神经网络部分、一第一分支神经网络部分以及一第二分支神经网络部分，该第一分支神经网络部分与该第二分支神经网络部分分别连接至该共同神经网络部分，该第一分支神经网络产生的一第一结果状态用以选择所述症状询问行动或该结果预测行动，该第二分支神经网络产生的一第二结果状态用以重建多个症状特征的一几率分布。

2.如权利要求1所述的控制方法，其特征在于，其中提供所述辅助奖励的步骤包含：

将所述症状询问行动每一者各自与该训练数据中的所述确诊症状比较；

相对应于该症状询问行动其中一者符合该训练数据中所述确诊症状其中一者，提供一正值辅助奖励；以及

相对应于该症状询问行动其中该者并未符合该训练数据中所述确诊症状任一者，提供一负值辅助奖励。

3.如权利要求2所述的控制方法，其特征在于，其中提供所述辅助奖励的步骤包含：

判断所述症状询问行动当中一当前选取行动是否与所述症状询问行动当中一先前选取行动指向一相同症状；以及

相对应于该当前选取行动与该先前选取行动指向该相同症状，提供该负值辅助奖励。

4.如权利要求2所述的控制方法，其特征在于，其中依照一序列顺序提供的所述辅助奖励具有逐渐提高的折扣率。

5.如权利要求4所述的控制方法，其特征在于，其中提供所述辅助奖励当中的一第一辅助奖励的次序早于提供所述辅助奖励当中的一第二辅助奖励的次序，提供该第二辅助奖励时采用一折扣参数。

6.如权利要求1所述的控制方法，其特征在于，其中在训练过程中该神经网络模型的一目标函数包含最大化该累积奖励以及最小化所述症状特征的该几率分布与所述确诊症状之间的一差距。

7.如权利要求1所述的控制方法，其特征在于，其中该强化学习智能体所选择的所述序列行动使得该互动系统由一状态进入另一状态，该互动系统的一状态数据包含多个症状数据位元以及多个脉络数据位元，所述症状数据位元记载在该病历中一病患身上是否发生多个症状各自的一正状态、一负状态或是一未确认状态，所述脉络数据位元记载与该病历中该病患的相关信息。

8.如权利要求1所述的控制方法，其特征在于，其中该结果预测行动包含一疾病预测行动以及对应该疾病预测行动的一医疗部门建议行动两者至少一者。

9.如权利要求1所述的控制方法，其特征在于，其中在该神经网络模型的完成训练后，该控制方法还包含：

利用该互动系统由一使用者收集一初始症状作为输入至该强化学习智能体的一初始状态；

根据该神经网络模型选择所述序列行动；以及

根据所述序列行动中的该结果预测行动，提供一疾病预测或者一医疗部门建议。

10.一种医学系统，其特征在于，该医学系统包含：

一互动系统；

一强化学习智能体，与该互动系统互动，该强化学习智能体用以挑选出多个序列行动；以及

一神经网络模型，该强化学习智能体用以训练该神经网络模型，其训练参照该强化学习智能体与该互动系统之间的互动并且根据一训练数据，该训练数据包含一病历，该病历记载一确诊疾病以及与该确诊疾病有关的多个确诊症状之间的关系，

其中，该强化学习智能体使用该神经网络模型从一系列的多个候选行动中挑选出所述序列行动，该神经网络模型被训练为最大化该强化学习智能体对应所述序列行动所收集到的一累积奖励，所述序列行动包含多个症状询问行动以及一结果预测行动，

在该神经网络模型的训练过程中，该互动系统根据所述症状询问行动与所述确诊症状之间的比较结果提供该累积奖励当中的多个辅助奖励给该强化学习智能体，以及该互动系统根据该结果预测行动与该确诊疾病之间的比较结果提供该累积奖励当中的一主要奖励给该强化学习智能体；

11.如权利要求10所述的医学系统，其特征在于，其中在提供所述辅助奖励的过程中，该互动系统将所述症状询问行动每一者各自与该训练数据中的所述确诊症状比较，该互动系统提供一正值辅助奖励相对应于该症状询问行动其中一者符合该训练数据中所述确诊症状其中一者，该互动系统提供一负值辅助奖励相对应于该症状询问行动其中该者并未符合该训练数据中所述确诊症状任一者。

12.如权利要求11所述的医学系统，其特征在于，其中该互动系统判断所述症状询问行动当中一当前选取行动是否与所述症状询问行动当中一先前选取行动指向一相同症状，以及该互动系统提供该负值辅助奖励相对应于该当前选取行动与该先前选取行动指向该相同症状。

13.如权利要求11所述的医学系统，其特征在于，其中依照一序列顺序提供的所述辅助奖励具有逐渐提高的折扣率。

14.如权利要求13所述的医学系统，其特征在于，其中该互动系统提供所述辅助奖励当中的一第一辅助奖励的次序早于提供所述辅助奖励当中的一第二辅助奖励的次序，该互动系统提供该第二辅助奖励时采用一折扣参数。

15.如权利要求10所述的医学系统，其特征在于，其中在训练过程中该神经网络模型的一目标函数包含最大化该累积奖励以及最小化所述症状特征的该几率分布与所述确诊症状之间的一差距。

16.如权利要求10所述的医学系统，其特征在于，其中该强化学习智能体所选择的所述序列行动使得该互动系统由一状态进入另一状态，该互动系统的一状态数据包含多个症状数据位元以及多个脉络数据位元，所述症状数据位元记载在该病历中一病患身上是否发生多个症状各自的一正状态、一负状态或是一未确认状态，所述脉络数据位元记载与该病历中该病患的相关信息。

17.如权利要求10所述的医学系统，其特征在于，其中该结果预测行动包含一疾病预测行动以及对应该疾病预测行动的一医疗部门建议行动两者至少一者。

18.如权利要求10所述的医学系统，其特征在于，其中该医学系统包含一决策智能体，在该神经网络模型的完成训练后，该互动系统由一使用者收集一初始症状作为输入至该决策智能体的一初始状态，该决策智能体根据该神经网络模型选择所述序列行动，该决策智能体根据所述序列行动中的该结果预测行动提供一疾病预测或者一医疗部门建议。