CN111477320B - 治疗效果预测模型的构建系统、治疗效果预测系统及终端 - Google Patents

治疗效果预测模型的构建系统、治疗效果预测系统及终端 Download PDF

Info

Publication number
CN111477320B
CN111477320B CN202010167781.9A CN202010167781A CN111477320B CN 111477320 B CN111477320 B CN 111477320B CN 202010167781 A CN202010167781 A CN 202010167781A CN 111477320 B CN111477320 B CN 111477320B
Authority
CN
China
Prior art keywords
information
treatment effect
feature
module
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010167781.9A
Other languages
English (en)
Other versions
CN111477320A (zh
Inventor
朱丽
王玉辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Third Hospital Peking University Third Clinical Medical College
Original Assignee
Peking University Third Hospital Peking University Third Clinical Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Third Hospital Peking University Third Clinical Medical College filed Critical Peking University Third Hospital Peking University Third Clinical Medical College
Priority to CN202010167781.9A priority Critical patent/CN111477320B/zh
Publication of CN111477320A publication Critical patent/CN111477320A/zh
Application granted granted Critical
Publication of CN111477320B publication Critical patent/CN111477320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请提供了一种治疗效果预测模型的构建系统、治疗效果预测系统及终端,涉及诊疗仪器技术领域。通过深度神经网络模型、文本词向量转换模块、嵌入神经网络模型、特征拼接模块以及模型训练模块,对采集的样本患者信息进行处理,得到基于Multi‑Hot Embedding的文本词向量的治疗效果预测模型。通过本申请的治疗效果预测模型的构建系统,旨在解决模型构建中RNN模型对文本信息的时序相关性的依赖,致使不能有效捕捉患者信息的问题。

Description

治疗效果预测模型的构建系统、治疗效果预测系统及终端
技术领域
本申请涉及诊疗仪器技术领域,特别是涉及一种治疗效果预测模型的构建系统、治疗效果预测系统及终端。
背景技术
机器学习算法在教育、交通、金融等领域得到越来越广泛地应用。医疗相关的领域也在积极地使用机器学习技术,在辅助诊断、辅助检查等方面进行探索。而能否通过机器学习对患者治疗效果进行预测,以帮助医务人员在治疗前,采用更好的治疗手段显得尤为重要。但是在医学领域,由于患者的主诉等文本信息千差万别,导致机器学习在对患者的治疗效果进行预测时,存在较大误差。
虽然相关技术中提出了以RNN模型,对文本信息进行建模,但是RNN适用于对具有时序相关性的问题进行建模,而医学领域中的文本信息,不具有时序相关性。例如,患者描述:【流鼻涕、偶尔会鼻塞】,RNN建模时是会捕捉到先【流鼻涕】再【鼻塞】,然而【流鼻涕】和【鼻塞】在医学领域没有先后关系,如果根据时序相关性对医学领域的文本信息进行特征捕捉,将导致忽略特征信息之间的关联性问题。
因此,需要一种符合医学领域的文本信息捕捉手段,使之更有效地捕捉文本之间的信息,进而构建更准确的治疗效果预测模型。
发明内容
鉴于上述问题,本申请实施例提供了一种治疗效果预测模型的构建方法、治疗效果预测系统及终端,旨在解决模型构建中RNN模型对文本信息的时序相关性的依赖,致使不能有效捕捉患者信息的问题。
本申请实施例第一方面提供了一种治疗效果预测模型的构建系统,所述系统包括:样本信息采集模块、深度神经网络模型、文本词向量转换模块、嵌入神经网络模型、特征拼接模块和模型训练模块;
样本信息采集模块,用于采集样本患者的信息,所述样本患者的信息包括数值信息、文本信息以及预先标注的治疗效果标签;
深度神经网络模型,用于对所述数值信息进行特征提取,得到第一特征信息;
文本词向量转换模块,用于将所述文本信息转换为基于Multi-Hot的文本词向量;
嵌入神经网络模型,用于对所述基于Multi-Hot的文本词向量进行特征提取,得到第二特征信息;
特征拼接模块,用于将所述第一特征信息与所述第二特征信息进行拼接,得到所述样本患者的拼接特征;
模型训练模块,用于利用所述样本患者的拼接特征和对应的预先标注的治疗效果标签,对预设模型进行多次训练,得到治疗效果预测模型。
可选地,所述系统还包括:
分词模块,用于根据预设规则,对所述文本信息进行分词,得到多个样本特征词;
特征词库,用于存储多个特征词以及每个特征词对应的位置;
所述文本词向量转换模块,用于根据所述多个样本特征词各自匹配的特征词在所述特征词库中的位置,将所述文本信息转换为基于Multi-Hot的文本词向量。
可选地,所述系统还包括:
预设规则设置模块,用于根据所述特征词库和预设分词方式,设置所述预设规则;
所述分词模块包括:
分词子模块,用于根据所述预设规则,对所述文本信息进行分词,得到多个单词;
匹配子模块,用于将所述多个单词分别与所述特征词库中的各个特征词进行匹配,得到所述多个样本特征词。
可选地,所述特征词库中特征词的总数为N;所述文本词向量转换模块包括:
初始向量生成模块,用于生成长度为N的初始向量,且初始向量中每个元素的值均为第一预设值;
向量表示子模块,用于根据所述多个样本特征词各自匹配的特征词在所述特征词库中的位置,将所述初始向量中相应位置的元素的值更新为第二预设值,以得到所述基于Multi-Hot的文本词向量;
其中,所述第一预设值和所述第二预设值中一个值为0,另一个值为1。
可选地,所述系统还包括:
特征词库更新模块,用于根据所述样本信息采集模块实时采集到的样本患者信息,在所述特征词库中新增特征词,并记录新增的特征词在所述特征词库中的位置。
可选地,所述分词子模块包括:
分词工具,用于根据所述特征词库对所述文本信息进行分词,得到多个初始特征词;
删除子模块,用于根据去除规则,去除所述多个初始特征词中包含的无效词,得到所述多个单词,其中,所述无效词至少包括停用词。
本申请实施例第二方面提供了一种治疗效果预测系统,所述系统包括:
如上述第一方面中任一项所述的治疗效果预测模型的构建系统;
实时信息采集模块,用于实时采集患者的信息;
治疗效果预测模块,用于将实时采集的患者的信息输入所述治疗效果预测模型的构建系统所构建出的治疗效果预测模型,得到患者的治疗效果。
本申请实施例第三方面提供了一种治疗效果预测终端,所述治疗效果预测终端为包括如上述第二方面所述的治疗效果预测系统的部分或全部模块的集成终端。
可选地,所述治疗效果预测终端还包括:
显示屏,用于显示所述治疗效果预测系统输出的数据;
信息输入组件,用于供用户向所述治疗效果预测系统输入数据,并传输到所述实时信息采集模块。
综上,本申请实施例提供的治疗效果预测模型的构建系统,设置样本信息采集模块,将采集的样本患者信息,分类整理成数值信息、文本信息以及预先标注的治疗效果标签;然后,分别通过设置的深度神经网络模型和嵌入神经网络模型,对数值信息和文本信息进行特征提取,提高对患者信息处理的准确性和完整性;最后,通过特征拼接模块和模型训练模块,对提取的两部分特征信息进行特征拼接,得到样本患者的拼接特征,再结合该样本患者的预先标注的治疗效果标签,对预设的模型进行多次训练,最终得到治疗效果预测模型。其中,在采集到样本患者的文本信息时,需要先通过设置的文本词向量转换模块,对采集的文本信息进行转换,得到基于Multi-Hot的文本词向量,然后再由嵌入神经网络模型对基于Multi-Hot的文本词向量进行特征提取,以避免因所采集的文本信息中的文本词具有的时序相关性造成的误差,即避免RNN模型造成的对语义时序的依赖关系问题,进而忽略文本信息之间的综合性。通过本申请提供的治疗效果预测模型的构建系统,有效避免采集的文本信息中文本词之间存在的时序相关性问题,以使在治疗效果预测模型构建时有效捕捉患者信息。
除此之外,基于本申请实施例的治疗效果预测模型的构建系统,通过设置的特征词库和特征词库更新模块,医务人员还可以主动根据实时采集的样本患者信息,对特征词库进行补充、更新,再以更新的特征词库对患者信息进行分词和构建基于Multi-Hot的文本词向量,提高治疗效果预测的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例的治疗效果预测模型的构建系统的结构示意图;
图2是本申请另一个实施例的治疗效果预测模型的构建流程示意图;
图3是本申请实施例治疗效果预测终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
治疗效果预测仪器是指可以分析病例数据,并根据病例数据预测治疗效果的医疗仪器。治疗效果预测仪器中设置有预测模型,预测模型基于机器学习算法对病例数据进行分析、计算后得到预测的治疗效果。具体地可以利用神经网络(例如LSTM神经网络、卷积神经网络等)对病例数据中的特征进行学习,还可以利用监督学习、无监督学习和强化学习等机器学习方法基于大量“病例数据-治疗效果”样本对训练模型,得到可以基于病例数据预测出病情治疗效果的初始预测模型。
本申请实施例对通过本申请提供的模型构建系统所得到的预测模型的训练方法并不限定。
样本患者的信息是患者从进入门诊到病愈出院或未病愈出院的所有相关信息,具体可以包括患者基本情况、化验单、病情主诉、处方数据、手术范围等可量化的指标、病情检查数据等信息。例如,年龄、身高、血常规化验单中的白细胞数,脑CT数据,流鼻涕,咳嗽,青霉素,阿昔洛韦、左侧上颌窦开放等都可以作为样本患者的信息。参考图1,图1是本申请实施例提供的一种治疗效果预测模型的构建系统的结构示意图。
本申请实施例第一方面提供了一种治疗效果预测模型的构建系统,治疗效果预测模型的构建系统包括:样本信息采集模块1、深度神经网络模型2、文本词向量转换模块3、嵌入神经网络模型4、特征拼接模块5以及模型训练模块6;所述样本信息采集模块1连接所述深度神经网络模型2、所述文本词向量转换模块3和所述模型训练模块6;
所述样本信息采集模块1,用于采集样本患者的信息,所述样本患者的信息包括数值信息、文本信息以及预先标注的治疗效果标签;
样本信息采集模块1可以接收医务工作者通过交互页面录入的样本患者的信息。例如,医师录入患者的症状(如流鼻涕、咳嗽等)和药物信息(如处方青霉素等)等文本信息;医师录入针对该样本患者的病情所采取的手术范围等可量化的指标(如左侧上颌窦开放即为可量化的指标)和医生录入的数据(如化验检验单中的数据,例如血常规检验单中的白细胞数等)等数值信息;以及医生录入根据该样本患者的愈后效果,对该样本患者预先标注的治疗效果标签。
即本申请实施例,通过样本信息采集模块1,对输入模型的数据进行制约,得到三元组<文本信息,数值信息,预先标注的治疗效果标签>,其中,本申请实施例中所述的三元组可以根据实际应用场景进行调整,得到n元组,在本申请实施例中不做限定。
样本信息采集模块1还会将医务工作者录入的关于该样本患者的可量化的指标或愈后效果等信息转化为机器语言,以供深度神经网络模型或模型训练模块,进行特征提取或模型训练。
例如,样本信息采集模块1将医务工作者录入的左侧上颌窦开放手术映射成数值1,其中,如左侧上颌窦开放手术即可视为可量化的指标;样本信息采集模块1,将医务工作者录入的治愈映射成数值2。在实际应用场景中,患者的信息可能会更多,像患者的年龄、性别、血压之类的信息也可以映射成作为与1类似的信息输入,文本信息与2类似,在本申请实施例中,不再做统一说明,可根据实际情况进行调整和设置。
所述深度神经网络模型2,用于接收所述样本信息采集模块1发送的所述数值信息infonumerical,并对所述数值信息进行特征提取,得到第一特征信息featurenumerical;再将第一特征信息发送给所述特征拼接模块5。
所述文本词向量转换模块3,用于接收所述样本信息采集模块1发送的所述文本信息,并将所述文本信息转换为基于Multi-Hot的文本词向量;再将基于Multi-Hot的文本词向量发送给嵌入神经网络模型4。其中,所述文本词向量转换模块3,将所述文本信息转换为基于Multi-Hot的文本词向量的具体步骤如下:
S101,所述文本词向量转换模块3,接收到所述样本信息采集模块1发送的所述文本信息后,通过所述构建系统中的分词模块,根据预设规则,对所述文本信息进行分词,得到多个样本特征词;
S1011,在执行S101之前,先通过预设规则设置模块,设置所述预设规则,其中,设置依据可包括:特征词库和预设分词方式,其中,特征词库用于存储多个特征词以及每个特征词对应的位置,预设分词方式至少包括:分词工具和删除子模块;
本申请实施例中的所述预设规则可以但不限于于以下方式:
wordi={jieba(infotext|dict=define)}-{stop}
其中,wordi表示对一个样本患者i的文本信息进行分词后,所得到的多个单词;jieba(infotext|dict=define)表示在所述特征词库下进行分词;jieba表示选用的分词工具,用于根据所述特征词库对所述文本信息进行分词,得到多个初始特征词,其中,该分词工具可由工作者自行选用;{stop}表示分词过程中需要去除的无效词,所述无效词为所述多个初始特征词中包含的无效词,至少包括停用词,例如:“的”、“了”等。
-{stop}表示去除规则,由删除子模块执行,即根据去除规则,去除所述多个初始特征词中包含的无效词,得到所述多个单词;
其中,在所述特征词库下进行分词的目的是:避免文本信息中某些专业术语被分词工具(如jieba)误切分,导致初始特征词的信息错误,从而降低治疗效果预测模型的准确性,而所述特征词库可由相关医务人员提前预设。
S1012,该步骤由分词模块中的分词子模块执行,具体为根据步骤S1011中设置的预设规则,对所述文本信息进行分词,得到多个单词worai
示例地,对于样本患者i的主诉的文本信息为:我鼻塞,流鼻涕了。则根据所述预设规则,进行分词,得到的多个初始特征词为:我鼻塞、流鼻涕了,然后根据去除规则,去除“我鼻塞”和“流鼻涕了”中的无效词“我”和“了”,最后得到的多个单词wordi={鼻塞,流鼻涕}。
S1013,该步骤由分词模块中的匹配子模块执行,具体为将所述多个单词分别与所述特征词库中的各个特征词进行匹配,得到所述多个样本特征词featurei
示例地,将wordi={鼻塞,流鼻涕}中的每个单词分别与所述特征词库中的各个特征词进行匹配,得到多个样本特征词:鼻塞和流鼻涕,表示为featurei={鼻塞,流鼻涕}。
其中,所述特征词库为相关医务人员提前设置的特征词库,设置特征词库的方式为:将多个样本患者的所述单词,按照一定的顺序进行排序组成得到,例如,由如下公式得到:
Figure BDA0002408058690000081
其中,wordset表示由所有单词组合成的所述特征词库,wordi表示某一样本患者的多个所述单词,N为样本个数。
在本申请实施例中的所述特征词库中的每个单词都有一个位置编号,表示其位置,例如单词鼻塞,在所述特征词库中的位置编号5,则表示鼻塞排在所述特征词库中的第5位。
S102,所述文本词向量转换模块3,对于某一所述样本患者,根据所述多个样本特征词各自匹配的特征词在所述特征词库中的位置,将所述文本信息infotext转换为基于Multi-Hot的文本词向量。
S1021,具体实施时,该步骤由初始向量生成模块执行,初始向量生成模块根据所述特征词库中的特征词的总数N,生成所述样本患者的长度为N的初始向量,并且,所述初始向量中每个元素的值均为第一预设值。例如,所述特征词库中的特征词的总数为5,则所述样本患者对应的初始向量的长度为5,第一预设值为0,则该初始向量可表示为a=[0,0,0,0,0]。
S1022,具体实施时,该步骤由向量表示子模块执行,向量表示子模块根据所述多个样本特征词各自匹配的特征词在所述特征词库中的位置,将所述初始向量中相应位置的元素的值更新为第二预设值,以得到所述基于Multi-Hot的文本词向量。
例如,对于样本患者i,由上述步骤S101得到的2个样本特征词,如鼻塞和流鼻涕,则featurei={鼻塞,流鼻涕},所匹配的特征词库中的特征词总数为5,所述样本患者i的初始向量为a=[0,0,0,0,0],若鼻塞和流鼻涕在所匹配的特征词库中的位置分别为2和4,则对应在初始向量a中的第2个和第4个位置的元素,并将第2个和第4个位置的元素的第一预设值0更新为第二预设值1。最终,该样本患者i的Multi-Hot的文本词向量,表示为featuremulti-hot=[0,1,0,1,0]。
其中,所述向量模型中的向量元素的个数与所述位置的个数相等,且每个所述向量元素的位置号与所述位置的位置编号一一映射。
嵌入神经网络模型4,用于接收所述文本词向量转换模块3发送的基于Multi-Hot的文本词向量featuremulti-hot,并对所述基于Multi-Hot的文本词向量进行特征提取,得到第二特征信息featuretext,再将所述第二特征信息发送给特征拼接模块5;
特征拼接模块5,用于接收深度神经网络模型2和嵌入神经网络模型4发送的所述第一特征信息featurenumerical和所述第二特征信息featuretext,并将所述第一特征信息featurenumerical与所述第二特征信息featuretext进行拼接,得到所述样本患者的拼接特征featureconcat;并将所述样本患者的拼接特征发送给模型训练模块6;
示例地,拼接规则可以如下公式所示:
Figure BDA0002408058690000091
例如.
featurenumerical=[1,2,3,4]
featuretext=[5,6,7,8]
featureconcat=[1,2,3,4,5,6,7,8]
模型训练模块6,用于接收多个样本患者的拼接特征featureconcat和所述拼接特征对应的预先标注的治疗效果标签,对利用所述样本患者的拼接特征和对应的预先标注的治疗效果标签,对预设模型进行多次训练,得到治疗效果预测模型。本申请实施例中的模型训练方法可采用现有的任一训练方法进行模型训练。
其中,对于某样本患者的预先标注的治疗效果标签和拼接特征之间可采用唯一标记,实现预先标注的治疗效果标签和拼接特征的拟合。特征词库更新模块,用于根据所述样本信息采集模块实时采集到的样本患者信息,在所述特征词库中新增特征词,并记录新增的特征词在所述特征词库中的位置。
示例地,当所述样本信息采集模块实时采集到的样本患者信息中出现新文本信息时,可根据步骤S101-S102所述的方法,对所述新文本信息进行分词,得到新特征词,并通过提示模块,提醒医务工作者检查所得到的新特征词是否被分词工具错误切分;
若未被错误切分,则所述特征词库自动录入新特征词,并进行自我更新,其中更新内容包括:特征词库的特征词总数N和该新特征词的位置,并且所述新特征词被发送至文本词向量转换模块3,进行后续步骤以得到与所述新文本信息对应的基于Multi-Hot的文本词向量;
若被错误切分,则医务工作者可通过操作模块,对所述新文本信息进行人工切分,以得到符合相关专业的新特征词,并将所得到的新特征词录入特征词库中,实现特征词库的更新,同时将所述新特征词被发送至文本词向量转换模块3,进行后续步骤以得到与所述新文本信息对应的基于Multi-Hot的文本词向量。
本申请实施例提供的治疗效果预测模型的构建系统,设置样本信息采集模块,将采集的样本患者信息,分类整理成数值信息、文本信息以及预先标注的治疗效果标签;然后,分别通过设置的深度神经网络模型和嵌入神经网络模型,对数值信息和文本信息进行特征提取,提高对患者信息处理的准确性和完整性;最后,通过特征拼接模块和模型训练模块,对提取的两部分特征信息进行特征拼接,得到样本患者的拼接特征,再结合该样本患者的预先标注的治疗效果标签,对预设的模型进行多次训练,最终得到治疗效果预测模型;其中,在采集到样本患者的文本信息时,需要先通过设置的文本词向量转换模块,对采集的文本信息进行转换,得到基于Multi-Hot的文本词向量,然后再由嵌入神经网络模型对基于Multi-Hot的文本词向量进行特征提取,以避免因所采集的文本信息中的文本词具有的时序相关性造成的误差,即避免因为RNN带来的语义的依赖关系问题,进而忽略文本信息之间的综合性。通过本申请提供的治疗效果预测模型的构建系统,有效避免采集的文本信息中文本词之间存在的时序相关性问题,以使在治疗效果预测模型构建时有效捕捉患者信息。
除此之外,基于本申请实施例的治疗效果预测模型的构建系统,通过设置的特征词库和特征词库更新模块,医务人员还可以主动根据实时采集的样本患者信息,对特征词库进行补充、更新,,再以更新的特征词库对患者信息进行分词和构建基于Multi-Hot的文本词向量,提高治疗效果预测的准确性。
参考图2,图2是本申请另一个实施例的治疗效果预测模型的构建流程示意图。
基于同一构思,本申请实施例第二方面提供了一种治疗效果预测模型的构建流程,在实施该流程之前,医务工作者需要先设置特征词库、分词方式(至少包括分词工具和去除规则),实施时具体流程如下:
S201:构建如图2所示的深度学习模型。
S202:根据可量化的指标和不可量化的指标,以及预设的制约元组(三元组),将由样本信息采集模块采集的样本患者信息分类成三类,分别为:数字信息、文本信息、治愈效果,三元组的表示方式可为:<数字信息,文本信息,预先标注的治疗效果标签>。
其中,数字信息包括:可量化的指标和检验检查数据等,例如,左侧上颌窦开放可映射成1;文本信息包括:患者主诉和患者病历中的文本内容,例如,双侧鼻塞6月余;预先标注的治疗效果标签是指,根据愈后效果的信息(如良好、治愈等),将愈后效果映射成数字信息,例如,将“良好”映射成2。
S203:使用深度神经网络模型中的深度神经网络对数值信息进行特征提取得到第一特征信息featurenumerical。其中,数值信息也可视为可以转化为数值类的信息。
S204:使用嵌入神经网络模型中的嵌入神经网络,对由文本信息转换得到的基于Multi-Hot的文本词向量,进行特征提取,得到第二特征信息featuretext
S2041:通过分词模块,特征词库,分词工具,根据针对分词设置的预设规则,对文本信息进行分词,得到多个单词。
S2042:将分词后得到的多个单词与特征词库中的各个特征词进行匹配,以得到多个样本特征词。
S2043:根据所述多个样本特征词各自匹配的特征词在所述特征词库中的位置,将所述文本信息转换为基于Multi-Hot的文本词向量featuremulti-hot。然后将基于Multi-Hot的文本词向量featuremulti-hot输入到嵌入神经网络中,进行特征提取,得到第二特征信息featuretext
S205:通过拼接模块,对第一特征信息和第二特征信息进拼接,得到样本患者的拼接特征featureconcat。其中,拼接方式可采取如下公式进行:
Figure BDA0002408058690000121
S206:根据获取的所述样本患者的拼接特征与该患者的预先标注的治疗效果标签,对步骤S201中构建的深度学习模型进行训练,得到治疗效果预测模型。
基于同一构思,本申请实施例第三方面提供了一种治疗效果预测系统,所述系统包括:
如本申请实施例第一方面中所述的治疗效果预测模型的构建系统,实时信息采集模块,治疗效果预测模块;
其中,实时信息采集模块,用于实时采集患者的信息;治疗效果预测模块,用于将实时采集的患者的信息输入所述治疗效果预测模型的构建系统所构建出的治疗效果预测模型,得到患者的治疗效果。
基于同一构思,本申请实施例第四方面提供了一种治疗效果预测终端,所述治疗效果预测终端为,包括如本申请实施例第三方面所述的治疗效果预测系统的部分或全部模块的集成终端,显示屏,信息输入组件;
其中,显示屏,用于显示所述治疗效果预测系统输出的数据;信息输入组件,用于供用户向所述治疗效果预测系统输入数据,并传输到所述实时信息采集模块。
参考图3,图3是本申请实施例治疗效果预测终端的结构示意图。
所述治疗效果预测终端还包括显示屏和信息输入组件,所述显示屏用于显示所述治疗效果预测模型的构建方法输出的数据;所述信息输入组件用于供用户向所述治疗效果预测模型的构建方法输入数据。
信息输入组件可以是键盘;显示屏和信息输入组件也可以是一体结构的触控显示屏,或者移动电脑。
集成终端中包含的样本信息采集模块1、深度神经网络模型2、文本词向量转换模块3、嵌入神经网络模型4、特征拼接模块5以及模型训练模块6等模块执行的程序,和执行程序时使用的数据都可以利用存储介质进行存储。
样本信息采集模块1、深度神经网络模型2、文本词向量转换模块3、嵌入神经网络模型4、特征拼接模块5以及模型训练模块6等模块可以设置在不同的处理器组成的服务器集群中,也可以设置在同一个处理器中。
显示屏可以显示包括但不限于以下信息:样本信息采集模块1接收的医务人员录入的样本患者的初始信息和由样本信息采集模块1转换得到的数值信息、文本信息以及预先标注的治疗效果标签;特征词库更新模块,输出的提示医务工作者检查新文本信息是否被错误分词的提示信息;特征词库更新模块,输出的更新完成的更新信息。
本说明书中的各个实施例均采用递进或说明的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的装置、模型的构建方法或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种装置、模型的构建方法或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的装置、模型的构建方法或者终端中还存在另外的相同要素。
以上对本申请所提供的一种治疗效果预测模型的构建系统、治疗效果预测系统及终端,进行了详细介绍,以上实施例的说明只是用于帮助理解本申请核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种治疗效果预测模型的构建系统,其特征在于,所述系统包括:样本信息采集模块、深度神经网络模型、文本词向量转换模块、嵌入神经网络模型、特征拼接模块和模型训练模块;
所述样本信息采集模块,用于采集样本患者的信息,所述样本患者的信息包括数值信息、文本信息以及预先标注的治疗效果标签;
所述深度神经网络模型,用于对所述数值信息进行特征提取,得到第一特征信息;
所述文本词向量转换模块,用于将所述文本信息转换为基于Multi-Hot的文本词向量;
所述嵌入神经网络模型,用于对所述基于Multi-Hot的文本词向量进行特征提取,得到第二特征信息;
所述特征拼接模块,用于将所述第一特征信息与所述第二特征信息进行拼接,得到所述样本患者的拼接特征;
所述模型训练模块,用于对利用所述样本患者的拼接特征和对应的预先标注的治疗效果标签,对预设模型进行多次训练,得到治疗效果预测模型。
2.根据权利要求1所述的治疗效果预测模型的构建系统,其特征在于,所述系统还包括:
分词模块,用于根据预设规则,对所述文本信息进行分词,得到多个样本特征词;
特征词库,用于存储多个特征词以及每个特征词对应的位置;
所述文本词向量转换模块,用于根据所述多个样本特征词各自匹配的特征词在所述特征词库中的位置,将所述文本信息转换为基于Multi-Hot的文本词向量。
3.根据权利要求2所述的治疗效果预测模型的构建系统,其特征在于,所述系统还包括:
预设规则设置模块,用于根据所述特征词库和预设分词方式,设置所述预设规则;
所述分词模块包括:
分词子模块,用于根据所述预设规则,对所述文本信息进行分词,得到多个单词;
匹配子模块,用于将所述多个单词分别与所述特征词库中的各个特征词进行匹配,得到所述多个样本特征词。
4.根据权利要求2或3所述的治疗效果预测模型的构建系统,其特征在于,所述特征词库中特征词的总数为N;所述文本词向量转换模块包括:
初始向量生成模块,用于生成长度为N的初始向量,且初始向量中每个元素的值均为第一预设值;
向量表示子模块,用于根据所述多个样本特征词各自匹配的特征词在所述特征词库中的位置,将所述初始向量中相应位置的元素的值更新为第二预设值,以得到所述基于Multi-Hot的文本词向量;
其中,所述第一预设值和所述第二预设值中一个值为0,另一个值为1。
5.根据权利要求2或3所述的治疗效果预测模型的构建系统,其特征在于,所述系统还包括:
特征词库更新模块,用于根据所述样本信息采集模块实时采集到的样本患者信息,在所述特征词库中新增特征词,并记录新增的特征词在所述特征词库中的位置。
6.根据权利要求3所述的治疗效果预测模型的构建系统,其特征在于,所述分词子模块包括:
分词工具,用于根据所述特征词库对所述文本信息进行分词,得到多个初始特征词;
删除子模块,用于根据去除规则,去除所述多个初始特征词中包含的无效词,得到所述多个单词,其中,所述无效词至少包括停用词。
7.一种治疗效果预测系统,其特征在于,所述系统包括:
如权利要求1-6任一所述的治疗效果预测模型的构建系统;
实时信息采集模块,用于实时采集患者的信息;
治疗效果预测模块,用于将实时采集的患者的信息输入所述治疗效果预测模型的构建系统所构建出的治疗效果预测模型,得到患者的治疗效果。
8.一种治疗效果预测终端,其特征在于,所述治疗效果预测终端为包括如权利要求7所述的治疗效果预测系统的部分或全部模块的集成终端。
9.根据权利要求8所述治疗效果预测终端,其特征在于,所述治疗效果预测终端还包括:
显示屏,用于显示所述治疗效果预测系统输出的数据;
信息输入组件,用于供用户向所述治疗效果预测系统输入数据,并传输到所述实时信息采集模块。
CN202010167781.9A 2020-03-11 2020-03-11 治疗效果预测模型的构建系统、治疗效果预测系统及终端 Active CN111477320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010167781.9A CN111477320B (zh) 2020-03-11 2020-03-11 治疗效果预测模型的构建系统、治疗效果预测系统及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010167781.9A CN111477320B (zh) 2020-03-11 2020-03-11 治疗效果预测模型的构建系统、治疗效果预测系统及终端

Publications (2)

Publication Number Publication Date
CN111477320A CN111477320A (zh) 2020-07-31
CN111477320B true CN111477320B (zh) 2023-05-30

Family

ID=71748180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010167781.9A Active CN111477320B (zh) 2020-03-11 2020-03-11 治疗效果预测模型的构建系统、治疗效果预测系统及终端

Country Status (1)

Country Link
CN (1) CN111477320B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192598A (zh) * 2021-02-02 2021-07-30 中国中医科学院针灸研究所 taVNS疗法的疗效预测方法及系统
CN113270189B (zh) * 2021-05-19 2023-08-18 复旦大学附属肿瘤医院 一种基于强化学习的肿瘤治疗辅助决策方法
CN114398486B (zh) * 2022-01-06 2022-08-26 北京博瑞彤芸科技股份有限公司 一种智能定制获客宣传语的方法和装置
CN115410686B (zh) * 2022-08-22 2023-07-25 哈尔滨医科大学 转化治疗方案的选择方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110110318A (zh) * 2019-01-22 2019-08-09 清华大学 基于循环神经网络的文本隐写检测方法及系统
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110717019A (zh) * 2019-08-28 2020-01-21 厦门快商通科技股份有限公司 问答处理方法、问答系统、电子设备及介质
CN110866399A (zh) * 2019-10-24 2020-03-06 同济大学 一种基于增强字符向量的中文短文本实体识别与消歧方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503236B (zh) * 2016-10-28 2020-09-11 北京百度网讯科技有限公司 基于人工智能的问题分类方法以及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
CN110110318A (zh) * 2019-01-22 2019-08-09 清华大学 基于循环神经网络的文本隐写检测方法及系统
CN110021439A (zh) * 2019-03-07 2019-07-16 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置和计算机设备
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110717019A (zh) * 2019-08-28 2020-01-21 厦门快商通科技股份有限公司 问答处理方法、问答系统、电子设备及介质
CN110866399A (zh) * 2019-10-24 2020-03-06 同济大学 一种基于增强字符向量的中文短文本实体识别与消歧方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-Hot Compact Network Embedding;Chaozhuo Li;28th ACM international conference on information and knowledge management(CIKM);全文 *
一种基于深度学习的科普文章评论情感分析;姚彬;杜义华;;科研信息化技术与应用(第04期);全文 *

Also Published As

Publication number Publication date
CN111477320A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111477320B (zh) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN113241135B (zh) 一种基于多模态融合的疾病风险预测方法和系统
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
CN107705839B (zh) 疾病自动编码方法及系统
CN107731269B (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
US20220044812A1 (en) Automated generation of structured patient data record
EP3567605A1 (en) Structured report data from a medical text report
CN111564223B (zh) 传染病生存概率的预测方法、预测模型的训练方法及装置
CN106874643A (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
CN112860842A (zh) 病历标注方法、装置及存储介质
CN110532367A (zh) 一种信息提示方法及系统
CN113779179A (zh) 一种基于深度学习和知识图谱的icd智能编码的方法
CN113643825B (zh) 基于临床关键特征信息的医疗案例知识库构建方法和系统
US20230298589A1 (en) Ai platform for processing speech and video information collected during a medical procedure
CN117894439A (zh) 一种基于人工智能的导诊方法、系统、电子设备及介质
CN111477321B (zh) 具有自学习能力的治疗效果预测系统及治疗效果预测终端
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
US11923054B2 (en) AI platform for processing speech and video information collected during a medical procedure
CN116258136A (zh) 检错模型训练方法、医学影像报告检测方法、系统及设备
CN116543917A (zh) 一种针对异构时间序列数据的信息挖掘方法
CN116994689A (zh) 医疗数据的特征化处理方法、装置、设备、介质及产品
CN113010685B (zh) 医学术语标准化方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant