CN107480135B - 数据处理方法、医学用语处理系统和医学诊疗系统 - Google Patents

数据处理方法、医学用语处理系统和医学诊疗系统 Download PDF

Info

Publication number
CN107480135B
CN107480135B CN201710642037.8A CN201710642037A CN107480135B CN 107480135 B CN107480135 B CN 107480135B CN 201710642037 A CN201710642037 A CN 201710642037A CN 107480135 B CN107480135 B CN 107480135B
Authority
CN
China
Prior art keywords
information
gaussian distribution
similarity
medical
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710642037.8A
Other languages
English (en)
Other versions
CN107480135A (zh
Inventor
张振中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201710642037.8A priority Critical patent/CN107480135B/zh
Publication of CN107480135A publication Critical patent/CN107480135A/zh
Priority to US15/953,234 priority patent/US11501178B2/en
Application granted granted Critical
Publication of CN107480135B publication Critical patent/CN107480135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种数据处理方法、医学用语处理系统和医学诊疗系统,其中所述方法包括:获取用户输入的语句信息;利用预设算法将所述语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段;建立各个信息片段的高斯分布;利用相似度模型计算所述第一信息片段与数据库中的词语之间的相似度;获取至少一个用于描述所述第一信息片段的第二信息片段。本发明能够提供大众用语对应的医学用语,方便用户诊疗。

Description

数据处理方法、医学用语处理系统和医学诊疗系统
技术领域
本发明实施例涉及医学技术领域,特别涉及一种数据处理方法、医学用语处理系统和医学诊疗系统。
背景技术
我国每年就诊人数多,导致医院一直超负荷运行,给就诊人员以效率低下的感觉。如果使用人工智能系统来提高健康医疗服务的效率和自动化程度,就能一定程度上缓解这一情况。然而在使用人工智能系统来提高医疗服务效率时,通常会面临一个严重的问题:由于病人缺乏一定的医学知识以及语言的复杂性,病人在自述疾病症状时错误太多(如描述错误、用词错误、有意无意忽略),此时单纯匹配书面症状和医学名词会导致误诊。一个简单的例子,医学文献中描述感冒产生的症状时使用“鼻塞”,而现实中病人在描述症状时会用到“鼻子堵了”和“鼻腔不通气”。从这个例子中可以看到,医学用语和大众用语之间存在一定的差异,如果单纯地依靠字面词形匹配会导致误诊情况的发生。因此,如果能够提供一种能够根据病人提供的信息提供相关的医学专业用语,则能大大的提供就诊效率以及避免误诊的情况。
发明内容
本发明实施例提供了一种能够根据输入的语句而获得与该语句相近的医学专业用语的数据处理方法、医学用语处理系统和医学诊疗系统。
为了解决上述技术问题,本发明实施例提供了如下的技术方案:
一种数据处理方法,应用于诊疗系统中,其特征在于,包括:
获取用户输入的语句信息;
利用预设算法将所述语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段;
建立各个信息片段的高斯分布;
利用相似度模型计算所述第一信息片段与数据库中的词语之间的相似度;
获取至少一个用于描述所述第一信息片段的第二信息片段。
作为优选实施例,所述利用预设算法将所述语句信息划分为多个信息片段包括:
利用自然语言处理算法按照词性将所述语句信息划分成多个信息片段。
作为优选实施例,其中建立各信息片段的高斯分布包括:
以矩阵的形式表示各个所述信息片段的高斯分布;
利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值;
基于计算得到的协方差和期望值建立高斯分布。
作为优选实施例,其中,所述以矩阵的形式表示各个所述信息片段的高斯分布包括:
所述高斯分布为多维高斯分布,并且所述矩阵形式的多维高斯分布的表达式为N(μw,∑w),
其中,∑w表示信息片段w的高斯分布的协方差,uw表示信息片段w的高斯分布的期望。
作为优选实施例,其中利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值包括:
通过求解目标函数最小化的方式计算所述协方差和期望值,其中目标函数的表达式为:
L(w,cp,cn)=max(0,1-S1(w,cp)+S1(w,cn));
其中,w表示信息片段的信息,cp表示在语句中出现在w的上下文中的信息片段,cn表示在语句中没有出现在w的上下文中的词语,函数S1(w,cn)表示w和cn相似度函数,S1(w,cp)表示w和cp的相似度,max()表示最大值函数。
作为优选实施例,利用所述相似度模型计算所述第一信息片段与所述数据库中的词语之间的相似度包括:
根据计算得到的第一信息片段和所述数据库中的词语的高斯分布的协方差和期望值,建立相似度模型;
计算所述第一信息片段与所述数据库中的词语之间的相似度。
作为优选实施例,所述相似度模型的表达式为
Figure BDA0001366104510000031
其中,d为常数,u为期望,∑为信息片段的高斯分布的协方差,w1和w2为两个信息片段,N为信息片段的矩阵形式的多维高斯分布。
作为优选实施例,获取至少一个用于描述所述第一信息片段的第二信息片段包括:
根据所述数据库中的词语与所述第一信息片段的相似度,对所述数据库中的词语进行排序,得到相似度最大的预设数目个词语;
将所述预设数目个词语作为所述第二信息片段。
作为优选实施例,所述数据库包括:医学文献、医学知识库和电子病历中的至少一种。
本发明还提供了一种利用如上述实施例所提供的方法的医学用语处理系统,应用于医学信息处理系统中,其特征在于,包括:
数据库,其用于存储关于医学词语的信息;
数据处理模块,用于将用户输入的语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段;
高斯嵌入模块,用于建立各个信息片段的高斯分布;
相似度计算模块,所述相似度计算模块利用相似度模型计算所述第一信息片段与所述数据库中的词语之间的相似度,所述数据库中的词语包括所述多个信息片段;
输出模块,根据所述相似度计算模块的计算结果,获取至少一个用于描述所述第一信息片段的所述第二信息片段。
作为优选实施例,所述数据处理模块配置为利用自然语言处理算法按照词性将所述语句信息划分成多个信息片段。
作为优选实施例,所述高斯嵌入模块配置为将各个所述信息片段以矩阵形式表示其高斯分布,并利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值;并基于计算得到的协方差和期望值建立高斯分布。
作为优选实施例,所述相似度计算模块配置为根据计算得到的所述第一信息片段和所述数据库中的词语的高斯分布的协方差和期望值,建立相似度模型,计算所述第一信息片段与所述数据库中的词语之间的相似度,根据所述数据库中的词语与所述第一信息片段的相似度,对所述数据库中的词语进行排序;
所述输出模块根据对所述数据库中的词语进行排序,将所述预设数目个词语输出作为所述第二信息片段。
作为优选实施例,所述利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值包括:
通过求解目标函数最小化的方式计算所述协方差和期望值,其中目标函数为
L(w,cp,cn)=max(0,1-S1(w,cp)+S1(w,cn))
其中,w表示信息片段的信息,cp表示在语句中出现在w的上下文中的信息片段,cn表示在语句中没有出现在w的上下文中的词语,函数S1(w,cn)表示w和cn相似度函数,S1(w,cp)表示w和cp的相似度,max()表示最大值函数。
作为优选实施例,所述相似度模型的表达式为
Figure BDA0001366104510000041
其中,d为常数,μ为期望,∑为协方差,w1和w2为两个信息片段。
本发明实施例还提供了一种医学诊疗系统,其包括如上所述的医学用语处理系统,其包括:
接收设备,其接收用户输入的关于疾病特征的所述语句信息;
利用所述医学用语处理系统,将所述语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段,输出至少一个用于描述所述第一信息片段的所述第二信息片段。
与现有技术相比,本发明实施例的有益效果在于:
本发明实施例能够方便的输出与输入的大众用语相近的医学专用词语,能够解决医学专业用语和大众用语之间差异的问题,同时为用户提供方便。
附图说明
图1为本发明实施例中的一种数据处理方法的原理流程图;
图2为本发明实施例中建立各信息片段的高斯分布的方法流程图;
图3为本发明实施例中利用相似度模型计算第一信息片段与所述数据库中的词语之间的相似度的方法流程图;
图4为本发明实施例中获取至少一个用于描述所述第一信息片段的第二信息片段的原理流程图;
图5为本发明实施例中的医学处理系统的原理结构框图;
图6为本发明实施例中的医学诊疗系统的原理结构框图。
具体实施方式
下面,结合附图对本发明的具体实施例进行详细的描述,但不作为本发明的限定。
应理解的是,可以对此处公开的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
下面,结合附图详细的说明本发明实施例,本发明实施例提供了一种数据处理方法,该方法通过高斯嵌入将医学用语表示成多维高斯分布,然后通过多维高斯分布之间的相对熵来发现相似用语,从而快速准确的提供的输入语句相近的医学用语,能够解决医学专业用语和大众用语之间差异的问题。
如图1所示,为本发明实施例中的一种数据处理方法的原理流程图,其中该方法可以用于诊疗系统中,该诊疗系统可以为根据输入的病症提供药物推荐、或者病情解析的诊疗系统,但本发明的诊疗系统并不限于此。
具体的,本发明实施例中的数据处理方法可以包括:
获取用户输入的语句信息;
利用预设算法将所述语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段;
建立各个信息片段的高斯分布;
利用相似度模型计算所述第一信息片段与数据库中的词语之间的相似度,所述数据库中的词语包括所述多个信息片段;
获取至少一个用于描述所述第一信息片段的第二信息片段。
本发明实施例中,用户在查询疾病相关的治疗方案、用药或者具体其他相关信息时,可以在诊疗系统中输入相关的语句信息,该语句信息可以是一个句子,也可以是词语,如手麻、鼻子不通气等信息,用户可以根据病情对应的输入相关的语句信息。而诊疗系统可以获取该用户输入的语句信息,并利用预设算法将获取的语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段,例如当用户输入的语句信息为“我鼻子不通气”时,其中可以将该语句划分成“我”、“鼻子不通气”两个信息片段,或者也可以分成“我”、“鼻子”“不通气”三个信息片段,其中“鼻子不通气”或者“不通气”可以作为第一信息片段。具体的,本发明实施例中可以利用自然语言处理算法按照词性将获取的语句信息划分成多个信息片段。
另外,在将语句信息划分成多个信息片段后,可以建立各个信息片段的高斯分布,即,将各信息片段表示成高斯分布。并利用相似度模型计算第一信息片段与数据库中的词语之间的相似度,获取至少一个用于描述所述第一信息片段的第二信息片段。其中,数据库中包括医学专用词语,具体可以包括:医学文献、医学知识库和电子病历中的至少一种。在获取到第二信息片段后,也可以基于该第二信息片段生成与输入的语句相近的医学专用语句。诊疗系统还可以根据生成的第二信息片段或者生成的医学专用语句输出对应的信息。
通过上述配置,即可以获得与输入的语句相近的专业用语,例如可以获取上述“鼻子不通气”的相近用语为“鼻塞”,从而可以快速准确的提供的输入语句相近的医学用语,解决医学专业用语和大众用语之间差异的问题。
另外,如图2所示,为本发明实施例中建立各信息片段的高斯分布的方法流程图,其中可以包括:
以矩阵的形式表示各个所述信息片段的高斯分布;
利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值;
基于计算得到的协方差和期望值建立高斯分布。
首先说明一下使用的符号,设w表示一信息片段,c(w)i表示w上下文中的第i个信息片段。本发明实施例中可以将每个信息片段w都表示成一个多维高斯分布Ν(μw,∑w),其中μ和∑分别表示信息片段w对应的多维高斯分布的均值和协方差。为了简化模型和运算,本发明实施例将∑设置为对角矩阵。因此为了得到信息片段w对应的高斯分布则需要对每个信息片段对应的多维高斯分布的均值和方差进行求解。具体来说,本发明实施例中,以矩阵的形式表示各个所述信息片段的高斯分布包括:
所述高斯分布为多维高斯分布,并且所述矩阵形式的多维高斯分布的表达式为N(μw,∑w),
其中,∑w表示∑为信息片段w的高斯分布的协方差,uw表示信息片段w的高斯分布的期望。
另外,本发明实施例利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值可以包括:通过求解目标函数最小化的方式计算所述协方差和期望值,其中目标函数的表达式为:
L(w,cp,cn)=max(0,1-S1(w,cp)+S1(w,cn));
其中,w表示待求解高斯分布的信息片段,cp表示在语句中出现在w的上下文中的信息片段,cn表示在语句中没有出现在w的上下文中的词语,函数S1(w,cn)表示w和cn的相似度,S1(w,cp)表示w和cp的相似度,max()表示最大值函数。
最优化上述目标函数的意义是:出现在w上下文中的信息片段和w的相似度至少要比没有出现在w上下文中的词语和w的相似度高。
为了求解上述目标函数,本发明实施例中还定义了相似度函数,该相似度函数的表达式为:
Figure BDA0001366104510000081
其中,tr()表示对矩阵求迹,∑-1表示矩阵的逆,det表示求行列式的值,d表示常数。基于上述定义和表示,本发明采用随机梯度下降方法求解μ和∑,w1和w2为两个信息片段。
利用上述相似度函数,即可以得到每个信息片段的目标函数及其最小化时的均值和协方差,从而得到对应的信息片段的高斯分布。
具体的,如图3所示为本发明实施例中利用相似度模型计算第一信息片段与所述数据库中的词语之间的相似度的方法流程图,其中,可以包括:
根据计算得到的第一信息片段和所述数据库中的词语的高斯分布的协方差和期望值,建立相似度模型;
计算所述第一信息片段与所述数据库中的词语之间的相似度。
如上所述,其中,所述相似度模型的表达式为
Figure BDA0001366104510000082
其中,d为常数,μ为期望,∑为协方差,w1和w2为两个信息片段。
可以理解的是,此处计算两个信息片段的w1和w2的相似度模型的表达式S(w1,w2)与用来求解信息片段高斯分布时的相似度函数S1(w1,w2)可以相同,也可以不同,因为二者是在不同的求解过程中用来表示两个信息片段相似度的,在优选方案中中该两个相似度函数为相同的,此时计算出的信息片段之间的相似度更为精确。在此相似度模型S(w1,w2)中,用来比较相似度的两个信息片段w1和w2分别代表获取的用户输入的信息片段和数据库中的信息片段;在求解信息片段高斯分布时,用来比较相似度的两个信息片段w1和w2分别代表待求解高斯分布的信息片段,以及在语句中出现在该信息片段上下文的信息片段或未出现在该信息片段上下文的信息片段。
通过上述配置在获取第一信息片段的相近的词语时,可以按照相似度的大小输出。
具体的,如图4所示,为本发明实施例中获取至少一个用于描述所述第一信息片段的第二信息片段的原理流程图,其中可以包括:
根据数据库中的词语与所述第一信息片段的相似度,对所述数据库中的词语进行排序,得到相似度最大的预设数目个词语;
将所述预设数目个词语作为所述第二信息片段。
本发明实施例中,可以预先设置需要获取的相近的医学用语的数目,即上述预设数目,并在获取第一信息片段与其他用语的相似度之后,可以按照预设数目输出对应数目的医学用语(词语)。从而可以获取至少一个与输入的语句相近的医学专用词语,可以帮助用户利用医学专用词语进行查询疾病的信息。
在此基础上,本发明实施例还可以根据获取的医学专用词语进一步输出疾病所对应的科室、治疗方式或者用药信息等信息,提高用户的体验。
另外,本发明实施例还提供了一种医学用语处理系统,应用于医学信息处理系统,该医学信息处理系统可以应用上述数据处理方法,如图5所示,为本发明实施例中的医学处理系统的原理结构框图,其中可以包括:
数据库101,其用于存储医学用语,例如可以包括医学文献、医学知识库和电子病历中的至少一种。
数据处理模块103,其用于将接收到的语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段;
高斯嵌入模块104,其接收数据处理模块103输出的信息片段的信息,建立各个信息片段的高斯分布;
相似度计算模块105,其利用相似度模型计算信息片段中的第一信息片段与所述数据库101中的词语之间的相似度;
输出模块106,其根据所述相似度计算模块105的计算结果,获取至少一个用于描述所述第一信息片段的所述第二信息片段。
本发明实施例中,用户在查询疾病相关的治疗方案、用药或者具体其他相关信息时,可以在诊疗系统中输入相关的语句信息,数据处理模块103可以获取该输入的语句信息,另外输入的语句信息可以是一个句子,也可以是词语,如手麻、鼻子不通气等信息,用户可以根据病情对应的输入相关的语句信息。而数据处理模块103可以直接检测用户输入的信息,也可以通过与其他的接收设备通信获取该用户输入的语句信息,并利用预设算法将获取的语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段,例如当用户输入的语句信息为“我鼻子不通气”时,其中可以将该语句划分成“我”、“鼻子不通气”两个信息片段,或者也可以分成“我”、“鼻子”“不通气”三个信息片段,其中“鼻子不通气”或者“不通气”可以作为第一信息片段。具体的,本发明实施例中可以利用自然语言处理算法按照词性将获取的语句信息划分成多个信息片段。
另外,在数据处理模块103将语句信息划分成多个信息片段后,高斯嵌入模块104可以建立各个信息片段的高斯分布,即,将各信息片段表示成高斯分布。相似度计算模块105可以利用相似度模型计算第一信息片段与数据库中的词语之间的相似度,而输出模块106则可以获取至少一个用于描述所述第一信息片段的第二信息片段。其中,数据库101中包括医学专用词语,具体可以包括:医学文献、医学知识库和电子病历中的至少一种。输出模块106在获取与第二信息片段后,也可以基于该第二信息片段生成与输入的语句相近的医学专用语句。诊疗系统还可以根据生成的第二信息片段或者生成的医学专用语句输出对应的信息。
通过上述配置,即可以获得与输入的语句相近的专业用语,例如可以获取上述“鼻子不通气”的相近用语为“鼻塞”,从而可以快速准确的提供的输入语句相近的医学用语,解决医学专业用语和大众用语之间差异的问题。
另外,本发明实施例中,高斯嵌入模块104可以按照矩阵的形式表示各个所述信息片段的高斯分布;利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值;基于计算得到的协方差和期望值建立高斯分布。
首先说明一下使用的符号,设w表示一信息片段,c(w)i表示w上下文中的第i个信息片段。本发明实施例中可以将每个信息片段w都表示成一个多维高斯分布Ν(μw,∑w),其中μ和∑分别表示词语由高斯嵌入的多维高斯分布的均值和协方差。为了简化模型和运算,本发明实施例将∑设置为对角矩阵。因此需要对每个信息片段对应的多维高斯分布的均值和方差进行求解。具体来说,本发明实施例利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值可以包括:通过求解目标函数最小化的方式计算所述协方差和期望值,其中目标函数的表达式为:
L(w,cp,cn)=max(0,1-S1(w,cp)+S1(w,cn));
其中,w表示信息片段的信息,cp表示在语句中出现在w的上下文中的信息片段,cn表示在语句中没有出现在w的上下文中的词语,函数S1(w,cn)表示w和cn相似度函数,S1(w,cp)表示w和cp的相似度,max()表示最大值函数。
最优化上述目标函数的意义是:出现在w上下文中的信息片段和w的相似度至少要比没有出现在w上下文中的词语和w的相似度高。
为了求解上述目标函数,本发明实施例中还定义了相似度函数,该相似度函数的表达式为:
Figure BDA0001366104510000111
其中,tr()表示对矩阵求迹,∑-1表示矩阵的逆,det表示求行列式的值,d表示和μ以及∑无关的常数。基于上述定义和表示,本发明采用随机梯度下降方法求解μ和∑,w1和w2为两个信息片段。
利用上述相似度函数,即可以得到每个信息片段的目标函数及其最小化时的均值和协方差,从而得到对应的信息片段的高斯分布。
另外相似度计算模块105可以根据计算得到的第一信息片段和所述数据库中的词语的高斯分布的协方差和期望值,建立相似度模型;计算所述第一信息片段与所述数据库中的词语之间的相似度。
如上所述,其中,所述相似度模型的表达式为
Figure BDA0001366104510000121
其中,d为常数,μ为期望,∑为协方差,w1和w2为两个信息片段。
通过上述配置在获取第一信息片段的相近的词语时,可以按照相似度的大小输出。
可以理解的是,此处计算两个信息片段的w1和w2的相似度模型的表达式S(w1,w2)与用来求解信息片段高斯分布时的相似度函数S1(w1,w2)可以相同,也可以不同,因为二者是在不同的求解过程中用来表示两个信息片段相似度的,在优选方案中中该两个相似度函数为相同的,此时计算出的信息片段之间的相似度更为精确。在此相似度模型S(w1,w2)中,用来比较相似度的两个信息片段w1和w2分别代表获取的用户输入的信息片段和数据库中的信息片段;在求解信息片段高斯分布时,用来比较相似度的两个信息片段w1和w2分别代表待求解高斯分布的信息片段,以及在语句中出现在该信息片段上下文的信息片段或未出现在该信息片段上下文的信息片段。
输出模块106可以根据数据库101中的词语与所述第一信息片段的相似度,对所述数据库中的词语进行排序,得到相似度最大的预设数目个词语;将所述预设数目个词语作为所述第二信息片段。
本发明实施例中,可以预先设置需要获取的相近的医学用语的数目,即上述预设数目,并在获取第一信息片段与其他用语的相似度之后,可以按照预设数目输出对应数目的医学用语(词语)。从而可以获取至少一个与输入的语句相近的医学专用词语,可以帮助用户利用医学专用词语进行查询疾病的信息。
在此基础上,本发明实施例还可以根据获取的医学专用词语进一步输出疾病所对应的科室、治疗方式或者用药信息等信息,提高用户的体验。
另外,本发明实施例还提供了一种医学诊疗系统,如图6所示,其包括如上述实施例所述的医学用语处理系统,以及接收设备200,其中,接收设备200接收用户输入的关于疾病特征的所述语句信息。
医学用语处理系统100则可以将所述语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段,输出至少一个用于描述所述第一信息片段的所述第二信息片段。关于医学用语处理系统的相关配置如同上述实施例所述,在此不再赘述。
其中接收设备200,其用于接收用户输入的语句信息;其可以通过有线或无线通信的方式接收语句信息,也可以直接通过输入设备接收语句信息,同时语句信息可以是语音信息、也可以是文字信息,接收设备200可以将语音信息转换为文字信息进行后续的处理。
通过本发明实施例的上述配置,可以实现快速准确的提供的输入语句相近的医学用语,能够解决医学专业用语和大众用语之间差异的问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的数据处理方法所应用于的电子设备,可以参考前述产品实施例中的对应描述,在此不再赘述。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (11)

1.一种数据处理方法,应用于诊疗系统中,其特征在于,包括:
获取用户输入的语句信息;
利用预设算法将所述语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段;
建立各个信息片段的高斯分布;
利用相似度模型计算所述第一信息片段与数据库中的词语之间的相似度;其中,所述数据库用于存储关于医学词语的信息;
所述利用相似度模型计算所述第一信息片段与数据库中的词语之间的相似度,包括:根据计算得到的第一信息片段和所述数据库中的词语的高斯分布的协方差和期望值,建立相似度模型;所述相似度模型的表达式为
Figure FDA0003274599300000011
其中,d为常数,u信息片段的高斯分布的期望,∑为信息片段的高斯分布的协方差,w1和w2为两个信息片段,N为信息片段的矩阵形式的多维高斯分布;
计算所述第一信息片段与所述数据库中的词语之间的相似度;
获取至少一个用于描述所述第一信息片段的第二信息片段;
所述获取至少一个用于描述所述第一信息片段的第二信息片段包括:
根据所述数据库中的词语与所述第一信息片段的相似度,对所述数据库中的词语进行排序,得到相似度最大的预设数目个词语;
将所述预设数目个词语作为所述第二信息片段;
其中建立各信息片段的高斯分布包括:
以矩阵的形式表示各个所述信息片段的高斯分布;
利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值;
基于计算得到的协方差和期望值建立高斯分布。
2.根据权利要求1所述的方法,其中,所述利用预设算法将所述语句信息划分为多个信息片段包括:
利用自然语言处理算法按照词性将所述语句信息划分成多个信息片段。
3.根据权利要求1所述的方法,其中利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值包括:
通过求解目标函数最小化的方式计算所述协方差和期望值,其中目标函数的表达式为:
L(w,cp,cn)=max(0,1-S1(w,cp)+S1(w,cn));
其中,w表示信息片段的信息,cp表示在语句中出现在w的上下文中的信息片段,cn表示在语句中没有出现在w的上下文中的词语,函数S1(w,cn)表示w和cn相似度函数,S1(w,cp)表示w和cp的相似度,max()表示最大值函数。
4.根据权利要求1所述的方法,其中,所述以矩阵的形式表示各个所述信息片段的高斯分布包括:
所述高斯分布为多维高斯分布,并且所述矩阵形式的多维高斯分布的表达式为N(μw,∑w),
其中,∑w表示信息片段w的高斯分布的协方差,uw表示信息片段w的高斯分布的期望。
5.根据权利要求1所述的方法,其中,所述数据库包括:医学文献、医学知识库和电子病历中的至少一种。
6.一种利用如权利要求1-5中任一项所述的方法的医学用语处理系统,应用于医学信息处理系统中,其特征在于,包括:
数据库,其用于存储关于医学词语的信息;
数据处理模块,用于将用户输入的语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段;
高斯嵌入模块,用于建立各个信息片段的高斯分布;
相似度计算模块,所述相似度计算模块利用相似度模型计算所述第一信息片段与所述数据库中的词语之间的相似度,所述数据库中的词语包括所述多个信息片段;
输出模块,根据所述相似度计算模块的计算结果,获取至少一个用于描述所述第一信息片段的所述第二信息片段;
所述高斯嵌入模块具体配置为将各个所述信息片段以矩阵形式表示其高斯分布,并利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值;并基于计算得到的协方差和期望值建立高斯分布。
7.根据权利要求6所述的医学用语处理系统,其特征在于,所述数据处理模块配置为利用自然语言处理算法按照词性将所述语句信息划分成多个信息片段。
8.根据权利要求6所述的医学用语处理系统,其特征在于,所述相似度计算模块配置为根据计算得到的所述第一信息片段和所述数据库中的词语的高斯分布的协方差和期望值,建立相似度模型,计算所述第一信息片段与所述数据库中的词语之间的相似度,根据所述数据库中的词语与所述第一信息片段的相似度,对所述数据库中的词语进行排序;
所述输出模块根据对所述数据库中的词语进行排序,将预设数目个词语输出作为所述第二信息片段。
9.根据权利要求8所述医学用语处理系统,其特征在于,所述利用随机梯度下降算法计算各个所述信息片段的高斯分布的协方差和期望值包括:
通过求解目标函数最小化的方式计算所述协方差和期望值,其中目标函数为
L(w,cp,cn)=max(0,1-S1(w,cp)+S1(w,cn))
其中,w表示信息片段的信息,cp表示在语句中出现在w的上下文中的信息片段,cn表示在语句中没有出现在w的上下文中的词语,函数S1(w,cn)表示w和cn相似度函数,S1(w,cp)表示w和cp的相似度,max()表示最大值函数。
10.根据权利要求7所述的医学用语处理系统,其中,所述相似度模型的表达式为
Figure FDA0003274599300000031
其中,d为常数,u信息片段的高斯分布的期望,∑为信息片段的高斯分布的协方差,w1和w2为两个信息片段,N为信息片段的矩阵形式的多维高斯分布。
11.一种医学诊疗系统,其包括如权利要求6-10中任意一项所述的医学用语处理系统,其包括:
接收设备,其接收用户输入的关于疾病特征的所述语句信息;
利用所述医学用语处理系统,将所述语句信息划分为多个信息片段,所述多个信息片段包括第一信息片段,输出至少一个用于描述所述第一信息片段的所述第二信息片段。
CN201710642037.8A 2017-07-31 2017-07-31 数据处理方法、医学用语处理系统和医学诊疗系统 Active CN107480135B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710642037.8A CN107480135B (zh) 2017-07-31 2017-07-31 数据处理方法、医学用语处理系统和医学诊疗系统
US15/953,234 US11501178B2 (en) 2017-07-31 2018-04-13 Data processing method, medical term processing system and medical diagnostic system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710642037.8A CN107480135B (zh) 2017-07-31 2017-07-31 数据处理方法、医学用语处理系统和医学诊疗系统

Publications (2)

Publication Number Publication Date
CN107480135A CN107480135A (zh) 2017-12-15
CN107480135B true CN107480135B (zh) 2022-01-07

Family

ID=60596887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710642037.8A Active CN107480135B (zh) 2017-07-31 2017-07-31 数据处理方法、医学用语处理系统和医学诊疗系统

Country Status (2)

Country Link
US (1) US11501178B2 (zh)
CN (1) CN107480135B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949927A (zh) * 2019-02-18 2019-06-28 四川拾智联兴科技有限公司 一种基于深度神经网络的智能诊断方法及其系统
CN110246572B (zh) * 2019-05-05 2021-07-13 清华大学 一种基于词向量的医疗分诊方法及系统
CN110688414B (zh) * 2019-09-29 2022-07-22 京东方科技集团股份有限公司 时序数据的处理方法、装置和计算机可读存储介质
CN111737607B (zh) * 2020-06-22 2023-11-10 中国银行股份有限公司 数据处理方法、装置、电子设备以及存储介质
CN113487379B (zh) * 2021-06-24 2023-01-13 上海淇馥信息技术有限公司 一种基于对话式的产品推荐方法、装置和电子设备
CN113254658B (zh) * 2021-07-07 2021-12-21 明品云(北京)数据科技有限公司 文本信息处理方法、系统、介质和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838712A (zh) * 2013-11-18 2014-06-04 北京理工大学 一种针对词语级别的汉语情感词极性强度量化方法
CN104636496A (zh) * 2015-03-04 2015-05-20 重庆理工大学 基于高斯分布和距离相似度的混合聚类的推荐方法
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3682529B2 (ja) * 2002-01-31 2005-08-10 独立行政法人情報通信研究機構 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
JP5697202B2 (ja) * 2011-03-08 2015-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語の対応を見出す方法、プログラム及びシステム
US9575952B2 (en) * 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
US9875296B2 (en) * 2015-03-25 2018-01-23 Google Llc Information extraction from question and answer websites
WO2017161189A1 (en) * 2016-03-16 2017-09-21 Maluuba Inc. Parallel-hierarchical model for machine comprehension on small data
EP3270331A1 (en) * 2016-07-15 2018-01-17 Little Brain NV A medical consultation support tool

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838712A (zh) * 2013-11-18 2014-06-04 北京理工大学 一种针对词语级别的汉语情感词极性强度量化方法
CN104636496A (zh) * 2015-03-04 2015-05-20 重庆理工大学 基于高斯分布和距离相似度的混合聚类的推荐方法
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置

Also Published As

Publication number Publication date
CN107480135A (zh) 2017-12-15
US11501178B2 (en) 2022-11-15
US20190034810A1 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
CN107480135B (zh) 数据处理方法、医学用语处理系统和医学诊疗系统
CN108461151B (zh) 一种知识图谱的逻辑增强方法及装置
CN107016438B (zh) 一种基于中医辨证人工神经网络算法模型的系统
Cheng et al. Cost-utility of the cochlear implant in adults: a meta-analysis
CN110032728B (zh) 疾病名称标准化的转换方法和装置
CN112802575B (zh) 基于图形状态机的用药决策支持方法、装置、设备、介质
CN110069779B (zh) 医疗文本的症状实体识别方法及相关装置
CN111091906B (zh) 一种基于真实世界数据的辅助医疗诊断方法及系统
CN112331298B (zh) 开具药方的方法、装置、电子设备及存储介质
CN106251865A (zh) 一种基于语音识别的医疗健康记录自动填写方法
Barbour et al. Online machine learning audiometry
KR102424085B1 (ko) 기계-보조 대화 시스템 및 의학적 상태 문의 장치 및 방법
CN103440421B (zh) 医学数据处理方法和系统
CN111048167A (zh) 一种层级式病例结构化方法及系统
US10847261B1 (en) Methods and systems for prioritizing comprehensive diagnoses
CN113380234B (zh) 基于语音识别生成表单的方法、装置、设备及介质
CN110491503A (zh) 一种基于深度学习的胆石症智能辅助系统
CN115497616A (zh) 一种感染性疾病辅助决策的方法、系统、设备及存储介质
US20210134461A1 (en) Methods and systems for prioritizing comprehensive prognoses and generating an associated treatment instruction set
CN114416967A (zh) 智能推荐医生的方法、装置、设备及存储介质
CN111986793A (zh) 基于人工智能的导诊处理方法、装置、计算机设备及介质
Yueh et al. Development and validation of the effectiveness of auditory rehabilitation scale
CN115458135A (zh) 一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统
Södersten et al. A multidisciplinary approach to transgender health
CN112655054B (zh) 基于端到端学习的人工智能医学症状识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant