CN110442869A

CN110442869A - 一种医疗文本处理方法及其装置、设备和存储介质

Info

Publication number: CN110442869A
Application number: CN201910708710.2A
Authority: CN
Inventors: 刘续乐; 胡海峰; 孙钟前; 杨巍
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2019-11-12
Anticipated expiration: 2039-08-01
Also published as: CN110442869B

Abstract

本申请提供了一种医疗文本处理方法及其装置、设备和存储介质，所述方法包括：获取待处理医疗文本中的医疗实体，将医疗实体与第一语种医疗本体库基于人工智能的匹配模型进行匹配；当第一语种医疗本体库中未匹配到与医疗实体符合匹配条件的目标医疗术语时，将医疗实体进行分词处理，得到医疗实体分词；将医疗实体中具有同义分词的医疗实体分词，映射为对应的同义分词，得到映射后的医疗实体；基于第一语种医疗本体库中与映射后的医疗实体符合匹配条件的目标医疗术语，确定医疗实体对应的概念标识符，建立医疗实体与概念标识符之间的映射关系。通过本申请，能够以成熟的医疗本体作为载体，将医疗实体映射到医疗本体中，实现医疗实体的归一化工作。

Description

一种医疗文本处理方法及其装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，涉及但不限于一种医疗文本处理方法及其装置、设备和存储介质。

背景技术

目前，人工智能的发展日新月异，医疗行业正在融入更多人工智能、传感技术等高科技，使医疗服务走向真正意义的智能化和信息化。智慧医疗及在线医疗为广大用户提供了多元化的就诊体验，正在被越来越多的用户接纳并应用。

随着社交网络及智慧医疗的发展，医疗实体不断蕴含在各种类型的文本中，如医疗电子病历、医疗问答文本、医疗报告等。而在不同类型的文本中，相同医疗实体的表达也不尽相同，像“阿尔法细胞腺瘤”和“胰高血糖素瘤”、“手部湿疹”和“手湿疹”等，因此识别文本中的医疗实体只是理解医疗文本的第一步，如何将各种表达形式的医疗实体映射到规范的医疗本体中，在医疗文本理解中也起着至关重要的作用。

传统方法利用基于医学词典的近似匹配或者启发式的字符串匹配规则，将文本中术语映射到医学本体概念，但是如果医学本体自身不够规范完善就难以得到准确的映射关系，进而无法为用户提供准确的医疗信息。

发明内容

本申请实施例提供一种医疗文本处理方法及其装置、设备和存储介质，能够以成熟的医疗本体作为载体，准确地将医疗实体映射到医疗本体中，实现对文本中医疗实体的归一化工作。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种医疗文本处理方法，包括：

获取待处理医疗文本中的医疗实体，并将所述医疗实体与第一语种医疗本体库进行匹配；

当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时，对所述医疗实体进行分词处理，得到多个医疗实体分词；

将所述医疗实体中具有同义分词的医疗实体分词，映射为对应的同义分词，得到映射后的医疗实体；

从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语；

至少基于所述目标医疗术语，确定所述医疗实体对应的概念标识符，建立所述医疗实体与所述概念标识符的映射关系。

本申请提供一种基于人工智能的医疗文本处理方法，所述方法包括：

获取待处理医疗文本中的医疗实体；

将所述医疗实体输入基于人工智能的匹配模型，与第一语种医疗本体库进行匹配，以确定与所述医疗实体对应的概念标识符；其中：

从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语；至少基于所述目标医疗术语，确定所述医疗实体对应的概念标识符；

建立所述医疗实体与所述概念标识符的映射关系。

本申请实施例提供一种医疗文本处理装置，所述装置包括：

第一获取模块，用于获取待处理医疗文本中的医疗实体，并将所述医疗实体与第一语种医疗本体库进行匹配；

第一分词模块，用于当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时，对所述医疗实体进行分词处理，得到多个医疗实体分词；

映射模块，用于将所述医疗实体中具有同义分词的医疗实体分词，映射为对应的同义分词，得到映射后的医疗实体；

第一确定模块，用于从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语；

第一映射建立模块，用于至少基于所述目标医疗术语，确定所述医疗实体对应的概念标识符，建立所述医疗实体与所述概念标识符的映射关系。

本申请实施例提供一种医疗文本处理设备，所述设备至少包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的方法。

本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的方法。

本申请实施例具有以下有益效果：

在识别出医疗文本中的医疗实体后，基于相对完善的第一语种医疗本体库，当不能获取到医疗实体符合匹配条件的目标医疗术语时，将医疗实体进行切分，得到医疗实体分词，并将具有同义分词的医疗实体分词用对应的同义分词映射，得到映射后的医疗实体，并获取第一语种医疗本体库中与映射后的医疗实体符合匹配条件的目标医疗术语，再确定所述医疗实体对应的概念标识符，从而建立所述医疗实体与所述概念标识符的映射关系，通过分词映射的方式对医疗实体进行归一化，从而能够较为准确的将医疗实体映射到本体中，提升对医疗文本的理解。

附图说明

图1A为本申请实施例医疗文本处理方法的网络架构示意图；

图1B为本申请实施例医疗文本处理的另一网络架构示意图；

图2是本申请实施例提供的装置的一个可选的结构示意图；

图3是本申请实施例提供的乘车服务处理方法的一个实现流程示意图；

图4是本申请实施例对扩展医疗本体库进行歧义消除的实现流程示意图；

图5为本申请实施例医疗文本处理方法的另一种实现流程示意图；

图6为本申请实施例基于术语成分切分的标准化方法的实现流程示意图；

图7为本申请实施例医疗本体的体系组成示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)医疗实体，是指针对医学文献中的疾病、症状、身体部位、组织名等命名实体。

2)本体，是对概念化的精确描述。本体的核心价值在于定义了该领域内的术语和术语之间的逻辑推理关系。领域内的本体知识库是信息交互工程的基础，为信息交换的各方提供了一个对数据和概念的统一认识。

3)概念，在医疗领域中，概念是指临床观念，由唯一的数字字符串表示。

4)医疗术语，是对概念的语言指称。

5)同义词，表达相同概念的不同术语，为同义词。

6)医疗本体，医疗领域中概念的集合，医疗本体中存储有概念和医疗术语的对应关系。

7)医疗实体标准化，又可以称为医疗实体归一化，是指为识别出来的医疗实体分配一个医疗本体中概念的标识符，该标识符可以唯一地标识该医疗实体，从而可以将该医疗实体映射到相应的医疗本体中。

为了更好地理解本申请实施例中提供的医疗文本处理方法，首先对相关技术中医疗实体归一化的处理方案及存在的缺点进行说明。

近年来，现有的研究已经证实社交数据中的医疗信息对于理解患者的健康状况有很大的帮助，然而，不同文本中使用的语言的词汇和语法的变异性对于信息理解提出了挑战，尤其在归一化算法中需要考虑实体的不规范的语法和缩写。传统方法利用基于医学词典的近似匹配或者启发式的字符串匹配规则，将文本中术语映射到医学本体概念，例如，英文医疗实体归一化的元映射(MetaMap)算法，通过切分、产生变形体、生成候选词、候选词评价、建立映射等步骤，将生物医学文献中的文本术语映射到医学一体化语言系统(UMLS，Unified Medical Language System)中元同义词库(Metathesaurus)的概念中去。该算法通过不同参数的设置调节MetaMap的执行方式和处理结果。

除此之外，还可以利用机器学习的方法进行归一化工作，譬如可以利用训练数据对术语和概念之间的关系建模，通过对不同术语与概念之间的相似度进行pairwise的排序学习算法，最终得到疾病实体的归一化模型。

由于人工智能在医疗领域的逐步发展，医疗实体的归一化问题正在逐步受到研究者的更多关注。但是相对于英文，中文医疗实体归一化工作存在如下的两个缺点：

第一，中文医疗本体领域的工作不如英文医疗本体成熟，缺少一个公认的完整的医疗本体进行映射；

第二，中文领域缺少比较规范化的用于医疗实体标准化的语料进行训练和评测，现有的机器学习进行归一化研究方法都是公开的少量英文数据集或者自己标注的少量数据集，不具有通用性。

基于此，在本实施例中借助英文领域的医疗本体，通过机器翻译等方法转换为相应的中文医疗本体；对于缺少标注数据的问题，在本实施例中利用基于术语切分的无监督的匹配方法，将医疗实体映射到相关本体中，实现对文本中医疗实体的归一化。

下面说明实现本申请实施例的装置的示例性应用，本申请实施例提供的装置可以实施为服务器。下面，将说明装置实施为服务器时涵盖服务器的示例性应用。

参见图1A，图1A为本申请实施例医疗文本处理方法的网络架构示意图，如图1A所示，在该网络架构中至少包括用户终端100、医疗文本处理设备200和网络300。为实现支撑一个示例性应用，用户客户端100通过网络300连接医疗文本处理设备200，在本申请实施例中，医疗文本设备200可以是服务器，还可以是医生终端，在图1A中医疗文本处理设备200以服务器200为例示出。网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

在用户终端100中可以安装有智慧医疗的应用程序(Application，App)，用户可以通过该App进行在线问诊，或者获取医疗信息。例如用户可以通过该App输入要获取的医疗信息的文本，以获取该文本对应的医疗信息。用户在输入完成后，可以输入的文本发送给服务器200，服务器200在接收到文本后，识别文本中的医疗实体名称，并通过已构建好的医疗本体库确定该医疗实体名称对应的概念标识符，进而根据确定出的概念标识符获取相应的医疗信息，再将医疗信息发送给用户终端100。

当用户终端100没有安装智慧医疗的App时，还可以通过访问智慧医疗网站进行在线问诊或者获取医疗信息。

需要说明的是，在一些实施例中，用户还可以直接输入语音，用户终端100将语音信息发送给服务器200，服务器进行语音识别，获取对应的文本，再进一步确定文本中医疗实体名称的概念标识符，继而根据确定出的概念标识符获取相应的医疗信息，再将医疗信息发送给用户终端100。

图1B为本申请实施例医疗文本处理的另一网络架构示意图，如图1B所示，在该网络架构中至少包括用户终端101、服务器201、网络301和医生终端401。为实现支撑一个示例性应用，用户终端101通过网络301连接服务器201，网络301可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

在用户终端101中可以安装有智慧医疗的应用程序(App，Application)，用户可以通过该App进行在线问诊，或者获取医疗信息。例如用户可以通过该App输入要咨询的医疗问题。用户在输入完成后，可以将医疗问题发送给服务器201，服务器201在接收到文本后，识别文本中的医疗实体名称，并通过已构建好的医疗本体库确定该医疗实体名称对应的概念标识符，进而根据确定出的概念标识符获取医疗实体对应的首选医疗术语，在将用户咨询的问题发送给医生终端401的同时，将医疗实体对应的首选术语也同时发送给医生终端401，以使得医生能够更好地对医疗问题进行回复。医生终端401在接收到服务器201发送的医疗问题后，会进行回复，并将回复通过服务器201发送给用户终端。

同样地，服务器201在接收到医生的回复内容之后，还可以对回复内容中的医疗实体进行归一化，以确定出回复内容中医疗实体对应的概念标识符，进而根据确定出的概念标识符获取医疗实体对应的首选医疗术语，并在向用户终端101发送回复内容的同时，也将医疗实体对应的首选医疗术语发送给用户终端101，以便于用户理解。

同样地，当用户终端101没有安装智慧医疗的App时，还可以通过访问智慧医疗网站进行在线文字或者获取医疗信息。

需要说明的是，在该网络架构中，用户还可以直接输入语音进行咨询，医生也可以直接通过语音进行回复。

本申请实施例提供的装置可以实施为硬件或者软硬件结合的方式，下面说明本申请实施例提供的装置的各种示例性实施。

服务器200可以是单个的服务器，也可以是由多各服务器构成的服务器集群、云计算中心等，根据图2示出的服务器200的示例性结构，可以预见服务器200的其他的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

图2所示的服务器200包括：至少一个处理器210、存储器240、至少一个网络接口220和用户接口230。终端200中的每个组件通过总线系统250耦合在一起。可理解，总线系统250用于实现这些组件之间的连接通信。总线系统250除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统250。

用户接口230可以包括显示器、键盘、鼠标、触感板和触摸屏等。

存储器240可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。

本申请实施例中的存储器240能够存储数据以支持服务器200的操作。这些数据的示例包括：用于在服务器200上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本申请实施例提供的方法采用软件实施的示例，本申请实施例所提供的方法可以直接体现为由处理器210执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器240，处理器210读取存储器240中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器210以及连接到总线250的其他组件)完成本申请实施例提供的方法。

作为示例，处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

将结合前述的实现本申请实施例的装置的示例性应用和实施，说明实现本申请实施例的方法。

为了更好地理解本申请实施例提供的方法，首先对人工智能、人工智能的各个分支，以及本申请实施例提供的方法所涉及的应用领域进行说明。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。以下对各个方向分别进行说明。

计算机视觉技术(CV，Computer Vision)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，AutomaticSpeech Recognition)和语音合成技术(TTS，Text To Speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(NLP，Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(ML，Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明。

参见图3，图3是本申请实施例提供的医疗文本处理方法的一个实现流程示意图，可以应用于图1所示的服务器200，根据智慧医疗服务在用户终端100中实现方式，服务器200有各种差异性的部署方式。

例如，当智慧医疗服务在用户终端100中是以专用的智慧医疗服务APP的形式实现时，服务器200可以是专门用于实现本发明实施例提供的医疗文本处理方法的一个或多个服务器，其通过网络300直接与用户终端100通信以完成必要的数据和信息的传输。

再例如，当智慧医疗服务是在用户终端100中是以耦合到各种已有App(例如社交App)中的模块或插件(例如小程序)实现时，服务器200可以包括用于实现这些已有App的基本业务功能的业务服务器、以及用于实现本发明实施例提供的医疗文本处理方法的智慧医疗服务器，智慧医疗服务器直接与模块或插件通信，也可以间接通过业务服务器与模块或插件通信；当然，可以理解地，智慧医疗服务器和业务服务器的区别主要在于所承载业务逻辑，因此，智慧医疗服务器和业务服务器实际上也可以是同一服务器。

在下文的描述中，为了描述方便，将上述各种可能方式的服务器都统称为服务器，因此服务器200不应简单理解为一个或一类服务器，而是根据上述的示例，在实际应用中为了支撑智慧服务而部署的各种可能形式的服务器，将结合图3示出的步骤进行说明。

步骤S101，获取待处理医疗文本中的医疗实体，并将所述医疗实体与第一语种医疗本体库进行匹配。

这里，所述待处理医疗文本为第一语种。所述第一语种医疗本体库是基于第二语种医疗本体库创建的，而第二语种医疗本体库可以认为是相对完善、规范的医疗本体库，所述第二语种医疗本体库中至少包括医疗术语与概念标识符之间的对应关系，那么对应地，所述第一语种医疗本体库中至少包括医疗术语与概念标识符的对应关系。

例如，第一语种医疗本体库可以为中文医疗本体库，第二语种医疗本体库可以为英文医疗本体库。

步骤S101在实现时，可以是服务器识别待处理医疗文本中的医疗实体，并获取第一语种医疗本体库，进而将医疗实体与第一语种医疗本体库中的医疗术语进行匹配，以判断是否有与所述医疗实体符合匹配条件的目标医疗术语。

在一些实施例中，当匹配到与所述医疗实体符合匹配条件的目标医疗术语时，可以根据目标医疗术语，确定所述医疗实体对应的概念标识符，并建立医疗实体与概念标识符之间的映射关系，以实现医疗实体的归一化。

步骤S102，当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时，对所述医疗实体进行分词处理，得到多个医疗实体分词。

这里，对医疗实体进行分词处理可以是将医疗实体切分成一个个单独的词，例如，“原发性肺癌”可以被切分为“原发性”和“肺癌”这两个分词。在实际应用过程中可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等进行分词处理。

基于字符串匹配的分词方法又称机械分词方法，它是按照一定的策略将待分析的字符串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功，也即识别出一个词；基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象；基于统计的分词方法是在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律(称为训练)，从而实现对未知文本的切分。

基于理解的分词方法和基于统计的方法都可以是人工智能中自然语言处理的实际应用。

步骤S103，将所述医疗实体中具有同义分词的医疗实体分词，映射为对应的同义分词，得到映射后的医疗实体。

这里，步骤S103在实现时，可以获取具有同义词关系的术语分词，然后再将医疗实体分词与各个术语分词进行匹配，当匹配到与医疗实体分词符合匹配条件的术语分词时，该术语分词的同义分词也即为该医疗实体分词的同义分词。

将所述医疗实体中具有同义分词的医疗实体分词，映射为对应的同义分词，在实际实现过程中，可以是将所述医疗实体中具有同义分词的医疗实体分词，替换为对应的同义分词。例如，医疗实体为淋菌性腹膜炎，通过分词处理得到的医疗实体分词为淋菌性和腹膜炎，而在术语分词同义词库中，存在淋菌性和淋球菌性这一同义分词对，那么可以将医疗实体中的淋菌性替换为淋球菌性，从而得到替换后的医疗实体淋球菌性腹膜炎。

步骤S104，从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语。

这里，步骤S104在实现时，可以是将映射后的医疗实体与第一语种医疗本体库中的医疗术语进行匹配，确定与映射后的医疗实体符合匹配条件的目标医疗术语。

需要说明的是，当医疗实体中具有同义分词的医疗实体分词有至少两个时，可以依次替换一个医疗实体分词、如果仍然没有匹配到目标医疗术语时，则可以依次替换两个医疗实体分词，如果仍没有匹配到目标医疗术语时，可以再依次替换三个医疗实体分词，直至将医疗实体中具有同义分词的医疗实体都替换之后，如果仍然没有匹配到目标医疗术语，则认为第一语种医疗本体库中未匹配到与所述映射后的医疗实体符合匹配条件的目标医疗术语。在一些实施中，当第一语种医疗本体库中未匹配到与所述映射后的医疗实体符合匹配条件的目标医疗术语，可以利用实体切分类型进行匹配，以确定医疗实体对应的概念标识符。

步骤S105，至少基于所述目标医疗术语，确定所述医疗实体对应的概念标识符，建立所述医疗实体与所述概念标识符的映射关系。

这里，步骤S105在实现时，当目标医疗术语对应有一个概念标识符时，那么就将目标医疗术语对应的概念标识符确定为医疗实体对应的概念标识符，并建立医疗实体与概念标识符之间的映射关系；当目标医疗术语对应有至少两个概念标识符时，则需要根据医疗实体分词的类型和概念的类别确定医疗实体对应的概念标识符，并建立医疗实体与概念标识符之间的映射关系，如此能够提高医疗实体归一化的准确率。

在本申请实施例提供的医疗文本处理方法中，在识别出医疗文本中的医疗实体后，基于相对完善的第一语种医疗本体库，当不能获取到医疗实体符合匹配条件的目标医疗术语时，将医疗实体进行切分，得到医疗实体分词，并将具有同义分词的医疗实体分词用对应的同义分词映射，得到映射后的医疗实体，并获取第一语种医疗本体库中与映射后的医疗实体符合匹配条件的目标医疗术语，再确定所述医疗实体对应的概念标识符，从而建立所述医疗实体与所述概念标识符的映射关系，通过分词映射的方式对医疗实体进行归一化，从而能够较为准确的将医疗实体映射到本体中，提升对医疗文本的理解。

在一些实施例中，在步骤S101之前，还需要通过以下步骤生成第一语种医疗本体库：

步骤S001，获取第二语种医疗本体库。

这里，第二语种医疗本体库为相对完善、成熟、规范的医疗本体库，例如可以是英文医疗本体库。

步骤S002，将所述第二语种医疗本体库转换为第一语种，得到第一语种的初始医疗本体库。

这里，步骤S002在实现时，可以是利用机器翻译将第二语种医疗本体库翻译为第一语种，由于机器翻译会存在翻译错误的情况，因此可以认为得到的是第一语种的初始医疗本体库。

步骤S003，对所述初始医疗本体库进行过滤和同义词扩展，得到扩展医疗本体库。

这里，由于机器翻译会存在翻译错误或不准确的情况，因此需要将翻译错误的医疗术语过滤掉，也即将翻译错误的医疗术语从初始医疗本体库中删除。而为了使得医疗本体库更加丰富完善，还可以从网络中获取医疗相关数据，从而进一步获取初始医疗本体库中医疗术语的同义词，以对初始医疗本体库进行同义词扩展。

步骤S004，对所述扩展医疗本体库进行歧义消除，得到第一语种医疗本体库。

这里，在扩展医疗本体库中，可能会存在相同的医疗术语对应到多个概念标识符的情况，此时认为是存在歧义，因此需要进行歧义消除。在实现时，可以将一个医疗术语对应有多个概念标识符的医疗术语和对应的多个概念标识符作为分类器的输入，通过分类器的分类结果，将该医疗术语与正确的概念标识符建立对应关系。

在步骤S001至步骤S004所在的实施例中，通过对相对完善、规范的第二语种医疗本体库进行语种转换，得到第一语种的初始医疗本体库，为了消除在翻译转换过程中存在翻译错误，或者对应关系错误的情况，还需要对进行语种转换后的初始医疗本体库进行过滤以将翻译错误的医疗术语删除，并通过歧义消除，将对应关系错误的数据删除，还可以通过从网络中获取医疗术语的别名、缩写等同义词，对初始医疗本体库进行同义词扩展，最终得到了完善、准确的第一语种医疗本体库。

在一些实施例中，可以通过这样的方式来实现上述的步骤S003：

步骤S031，从所述初始医疗本体库中，获取对应有至少两个医疗术语的目标概念标识符。

这里，在实现时，可以获取每个概念标识符对应的医疗术语的个数，并将对应有至少两个医疗术语的概念标识符确定为目标概念标识符。

例如，概念标识符11对应有1个医疗术语，概念标识符12对应有2个医疗术语，概念标识符13对应有3个医疗术语，那么概念标识符12和13为目标概念标识符。

步骤S032，基于构造出的分类器，对所述每个目标概念标识符和对应的至少两个医疗术语进行分类，得到分类结果。

这里，在构造分类器时，可以使用词典特征、语义特征以及人工定义特征进行构造，所述分类器用于确定医疗术语是否确实对应目标概念标识符。

步骤S032在实现时，可以是基于所述分类器，计算每个目标概念标识符和对应的至少两个医疗术语之间的第一分类值；将第一分类值低于第一分类阈值的医疗术语确定为不对应所述目标概念标识符的医疗术语；将第一分类值高于或者等于所述第一分类阈值的医疗术语确定为对应所述目标概念标识符的医疗术语。

例如，概念标识符12对应的两个医疗术语为医疗术语A和医疗术语B，将概念标识符12、医疗术语A和医疗术语B输入到分类器中，得到医疗术语A的第一分类值，假设为0.7，医疗术语B的第一分类值，假设为0.3，第一分类阈值假设为0.6，那么将医疗术语A确定为对应概念标识符12的医疗术语，将医疗术语B确定为不对应概念标识符13的医疗术语。

步骤S033，基于所述分类结果，删除每个目标概念标识符对应的满足删除条件的医疗术语。

这里，步骤S033在实现时，可以是基于所述分类结果将不对应所述的目标概念标识符的医疗术语作为满足删除条件的医疗术语，并删除。

通过步骤S031至步骤S033，能够通过将概念标识符和第一语种的医疗术语相关联的方式，过滤掉因为机器翻译引入的错误医疗术语，从而达到提升医疗本体库质量的目的。

步骤S034，基于从网络中获取的与医疗相关的数据，确定初始医疗本体库中医疗术语的同义词。

这里，步骤S034在实现时，可以是从网络中，例如从医疗百科网站中获取所述初始医疗本体库中各个医疗术语对应的词条信息；当所述医疗术语对应有至少两条词条信息时，分别获取所述至少两条词条信息中的初始同义词；当所述初始同义词在所述至少两条词条信息中出现的次数大于次数阈值时，将所述初始同义词确定为所述医疗术语的同义词。

举例来说，医疗术语“胰高血糖素瘤”对应有两条词条信息，在第一条词条信息中，“胰高血糖素瘤”的初始同义词有“α细胞瘤”和“胰岛α细胞瘤”，在第二条词条信息中“胰高血糖素瘤”的初始同义词有“胰岛α细胞瘤”，那么

“α细胞瘤”出现次数为1，“胰岛α细胞瘤”出现次数为2，假设次数阈值为1，那么“胰岛α细胞瘤”出现次数大于次数阈值，因此将“胰岛α细胞瘤”确定为“胰高血糖素瘤”的同义词。

步骤S035，将所述同义词添加至初始医疗本体库，得到扩展医疗本体库。

在步骤S034和步骤S035中，通过网络中与医疗相关的数据，获取医疗实体的别名、缩写、英文名等同义词，同时利用多个网站的相互校验，保证添加至初始医疗本体库的同义词的可信度，从而实现对医疗本体库的完整性的进一步提升。

在一些实施例中，可以通过这样的方式来进行歧义消除，以实现上述的步骤S004：

步骤S041，从所述扩展医疗本体库中，确定对应有至少两个概念标识符的第一医疗术语。

这里，假设医疗术语C对应有概念标识符13和概念标识符14，那么将医疗术语C确定为第一医疗术语。

步骤S042，基于构造的分类器，计算所述第一医疗术语与所述第一医疗术语对应的各个概念标识符之间的第二分类值。

这里，步骤S042在实现过程中使用的分类器可以是与步骤S032在实现过程中使用的分类器是相同的。在一些实施例中，步骤S042中的分类器与步骤S032中的分类器也可以是不同的。

步骤S042在实现时，可以是将第一医疗术语和第一医疗是与对应的各个概念标识符输入到分类器中，以计算第一医疗术语与所述第一医疗术语对应的各个概念标识符之间的第二分类值。

举例来说，将医疗术语C、概念标识符13和概念标识符14输入到分类器，得到概念标识符13的第二分类值为0.8，概念标识符14的第二分类值为0.4。

步骤S043，将第二分类值低于第二分类阈值的概念标识符与第一医疗术语的之间的对应关系删除，得到第一语种医疗本体库。

这里，如果某一概念标识符的第二分类值小于第二分类阈值，那么认为第一医疗术语不应该对应于该概念标识符，也可以认为第一医疗术语与该概念标识符之间的对应关系是错误的，因此需要将该对应关系删除，在实际实现过程中，可以是将第一医疗术语从第二分类值低于第二分类阈值的概念标识符对应的医疗术语集合中删除。

承接步骤S042的举例，假设第二分类阈值为0.5，那么概念标识符14的第二分类值低于第二分类阈值，因此将概念标识符14与医疗术语C之间的对应关系删除，在实际实现过程中，可以将医疗术语C从概念标识符14对应的医疗术语集合中删除。

在一些实施例中，在得到相对完善、规范的第一语种医疗本体库后，还可以执行以下步骤：

步骤S005，将所述第一语种医疗本体库中的医疗术语进行分词处理，得到各个医疗术语的术语分词。

这里，对医疗术语进行分词处理时的实现过程是与对医疗实体进行分词处理的实现过程是类似的，因此可以参照对医疗实体进行分词处理的实现过程来实现步骤S005。

步骤S006，根据医疗术语间的同义词关系，确定具有同义词关系的术语分词。

这里，假设医疗术语A和医疗术语B为同义词关系，对医疗术语A进行分词处理后，得到术语分词A1和术语分词A2，对医疗术语B进行分词处理后，得到术语分词A1和术语分词B1，那么可以认为术语分词A2和术语分词B1是具有同义词关系的术语分词。

这样，在确定了具有同义词关系的术语分词后，当不能直接确定出与医疗实体符合匹配条件的医疗术语时，在将医疗实体进行分词处理后，可以借助术语分词间的同义词关系，确定医疗实体分词的同义词，进而进行分词映射，再进一步对映射得到的医疗实体进行匹配。

在一些实施例中，在确定出具有同义词关系的术语分词的基础上，可以通过以下步骤确定医疗实体分词的同义词：

步骤S007，将医疗实体分词与术语分词进行匹配，确定与医疗实体分词符合匹配条件的术语分词。

步骤S008，将与所述术语分词具有同义词关系的其他术语分词确定为所述医疗实体分词的同义分词。

换言之，当一个术语分词与一个医疗实体分词符合匹配条件时，那么这个术语分词的同义分词，也可以认为是这个医疗实体分词的同义分词。

这里，在确定出医疗分词的同义分词之后，可以执行步骤S103，以基于医疗分词的同义分词组成出新的医疗实体，并将新的医疗实体与第一语种医疗本体库中的医疗术语匹配，再进一步确定医疗实体对应的概念标识符，从而提高医疗实体归一化的准确性。

在一些实施例中，在步骤S102之后，还可以执行以下步骤：

步骤41，按照预设的词性分类规则，确定各个医疗实体分词的类型。

这里，各个医疗实体分词的类型可以包括但不限于异常词(yc)、部位(bw)、物质(wz)、体征(tz)、病原(by)、性质(xz)、人群(rq)、时机(sj)、专名(zm)、其他(qt)，其中：

异常词，是指与健康状态不同的词，是整个短语的中心，不带宾语，例如，骨折、障碍、炎；部位词，是指身体系统、部位、器官、细胞等，例如中枢神经系统、阑尾、心肌；物质，是指化学物质等，例如钾、钠、钙；体征，是对身体的观察依据，例如痰、血压；病原，是指导致疾病的病原体，例如弗郎西丝菌；性质，通常是修饰性的成分，通常带“性”、“型”、“化”等后缀，例如急性、慢性等；人群，是指特定的患病人群，例如儿童、老年人；时机，是指发生的时机，例如妊娠、酒后等；专名，通常以人命名的病、综合征；其它，是指“的”、“与”等。

需要说明的是，对于修饰性词，例如时机、性质、人群等，均不进行内部切分；对于名词性词，例如部位、体征、性质等也不进行内部切分。

步骤42，为所述各个医疗实体分词标注所述类型。

这里，步骤42在实现时，可以是将各个医疗实体分词用空格隔开，并在医疗实体分词后加斜杠再加上类型缩写。

举例来说，对“老年急性白血病”这一医疗实体进行术语切分后得到“老年”、“急性”、“白血病”这三个医疗实体分词，对这三个医疗实体分词进行类型标注后得到：“老年/rq急性/xz白血病/yc”。如此，通过步骤41和步骤42，将医疗实体分词标注好类型后，可以在目标医疗术语对应有多个概念标识符时，为确定医疗实体唯一的概念标识符时，提供必要的数据支撑和依据，从而保证医疗本体归一化的准确性。

在一些实施例中，参见图4可以通过这样的方式实现上述的步骤S104：

步骤S1041，获取所述目标医疗术语对应的概念标识符。

这里，由于第一语种医疗本体库中包括医疗术语和概念标识符之间的对应关系，那么，在确定出目标医疗术语后，即可根据第一语种医疗本体库获取到目标医疗术语对应的概念标识符。

步骤S1042，判断所述目标医疗术语是否对应有至少两个概念标识符。

这里，当目标医疗术语对应有至少两个概念标识符时，需要进一步确定医疗实体应该对应哪个概念标识符，此时进入步骤S1043；当目标医疗术语对应有一个概念标识符时，那么进入步骤S1045。

步骤S1043，当所述目标医疗术语对应有至少两个概念标识符时，获取所述至少两个概念标识符的类别信息。

这里，概念标识符的类别信息可以是解剖位置、疾病、症状等。

步骤S1044，基于各个医疗实体分词的类型和所述至少两个概念标识符的类别信息，确定所述医疗实体对应的概念标识符。

这里，步骤S1044在实现时，可以先从各个医疗实体分词中，确定出作为核心词的医疗实体分词，再进一步获取作为核心词的医疗实体分词的类型，并将作为核心词的医疗实体分词的类型和至少两个概念标识符的类别信息进行匹配，并将匹配成功的概念标识符确定为医疗实体对应的概念标识符。

步骤S1045，将所述目标医疗术语对应的概念标识符确定为所述医疗实体对应的概念标识符。

通过步骤S1041至步骤S1045，即确定出了医疗实体唯一对应的概念标识符，并且在目标医疗术语对应有多个概念标识符时，基于医疗实体分词的类型和概念标识符的类别信息，确定出医疗实体唯一的概念标识符，从而提高了医疗本体归一化的准确性。

本申请实施例再提供一种医疗文本处理方法，应用于图1A所示的网络架构，图5为本申请实施例医疗文本处理方法的另一种实现流程示意图，如图5所示，所述方法包括：

步骤S501，用户终端获取用户输入的医疗文本。

这里，用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等终端。用户可以通过用户终端的输入设备，输入医疗文本。

需要说明的是，在本实施例中，是以用户输入医疗文本为例进行说明，在其他实施例中，用户输入的还可以是语音信息。

步骤S502，用户终端基于用户操作将所述医疗文本发送给服务器。

这里，用户操作可以是用户点击了用户终端中的发送按钮控件，还可以是点击了发送功能对应的快捷键等，在本实施例中不进行限定。

步骤S503，服务器获取待处理的医疗文本，并识别所述医疗文本中的医疗实体。

这里，当用户终端发送的是医疗文本时，那么服务器接收到医疗文本即可获取，当用户终端发送的时语音信息时，服务器在接收到语音信息之后，可以通过语音识别来获取待处理的医疗文本。

在服务器获取到医疗文本之后，可以通过文本识别方式来识别医疗文本中的医疗实体。

步骤S504，服务器获取第一语种医疗本体库。

这里，第一语种医疗本体库可以是基于步骤S001至步骤S004所提供的方法，通过第二语种本体库创建的。在一些实施例中，第一语种医疗本体库还可以是通过深度学习等技术构建的。

步骤S505，服务器判断所述第一语种医疗本体库中是否匹配到与所述医疗实体满足匹配条件的目标医疗术语。

这里，当第一语种医疗本体库中匹配到与所述医疗实体满足匹配条件的目标医疗术语，进入步骤S510；当第一语种医疗本体库中未匹配到与所述医疗实体满足匹配条件的目标医疗术语，进入步骤S506。

步骤S506，服务器对所述医疗实体进行分词处理，得到各个医疗实体分词。

步骤S507，服务器获取各个医疗实体分词的同义分词。

步骤S508，服务器将所述医疗实体中存在同义分词的医疗实体分词，用所述同义分词映射，得到映射后的医疗实体。

步骤S509，服务器判断所述第一语种医疗本体库中是否匹配到与所述映射后的医疗实体满足匹配条件的目标医疗术语。

这里，当第一语种医疗本体库中匹配到与所述映射后的医疗实体满足匹配条件的目标医疗术语，进入步骤S510；当第一语种医疗本体库中未匹配到与所述医疗实体满足匹配条件的目标医疗术语，进入步骤S511。

步骤S510，服务器至少基于所述目标医疗术语，确定所述医疗实体对应的概念标识符。

需要说明的是，本实施例中与其它实施例中相同步骤或概念的解释可以参考其它实施例中的描述。

步骤S511，服务器将各个医疗实体分词按照在所述医疗实体中的顺序添加至分词集合。

这里，分词集合初始为空。在该步骤之后，分词集合中包括各个医疗实体分词。假设医疗实体分词为分词D、分词E和分词F，那么在该步骤之后，分词集合中即为{分词D，分词E，分词F}。

步骤S512，服务器将各个医疗实体分词与相邻的至少一个医疗实体分词进行组合，得到组合医疗实体分词。

这里，步骤S512在实现时，是将各个医疗实体分词与其后面相邻的至少一个医疗实体分词进行组合，得到组合医疗实体分词。假设一个医疗实体被划分为N个医疗实体分词，N至少大于1，那么，第1个医疗实体分词，可以与第2个医疗实体分词、第2个和第3个医疗实体分词、……、第2个、第3个至第N-1个医疗实体分词组合，也即第1个医疗实体分词可以组合出N-2个组合医疗实体分词，第2个医疗实体分词可以组合出N-2个组合医疗实体分词，第3个医疗实体分词可以组合出N-3个组合医疗实体分词，第N-1个医疗实体分词可以组合出1个组合医疗实体分词，第N给医疗实体分词不能组合出医疗实体分词，因此当有N个医疗实体分词时，可以组合出(N-2)(N+1)/2个组合医疗实体分词。

承接步骤S511的举例，将分词D，分词E，分词F进行组合后，得到分词D+分词E、分词E+分词F。

步骤S513，服务器确定各个组合医疗实体分词对应的概念标识符，并将所述各个组合医疗实体分词和对应的概念标识符添加至所述分词集合。

这里，步骤S513在实现时，首先要获取与每个组合医疗实体分词符合匹配条件的医疗术语，进而再根据医疗术语确定每个组合医疗分词对应的概念标识符，再将组合医疗实体分词和对应的概念标识符添加至所述分词集合。

需要说明的是，在该步骤中，当未匹配到与组合医疗实体分词符合匹配条件的医疗术语时，那么就不能确定出该组合医疗实体分词对应的概念标识符，此时不将这一组合医疗实体分词添加至分词集合中。

步骤S514，服务器从所述分词集合中，确定出能够组合成所述医疗实体的目标分词子集合。

这里，目标分词子集合为能够组合成所述医疗实体的所有分词子集合中，元素个数最少的子集合，并且当元素个数最少的子集合有至少两个时，目标子集合为最后一个元素包括的分词个数最多的子集合。

步骤S515，服务器将所述目标分词子集合中最后一个元素对应的概念标识符确定为所述医疗实体对应的概念标识符。

这里，由于一般在医疗实体中，核心词或者说异常词一般是位于实体后半部分，因此可以将目标分词子集合中最后一个元素对应的概念标识符确定为所述医疗实体对应的概念标识符。

通过步骤S511至步骤S515，能够在进行分词替换之后仍然不能确定出与医疗实体匹配的医疗术语时，可以通过分词匹配的方式，确定医疗实体对应的概念标识符，从而能够实现医疗实体的归一化。

步骤S516，服务器建立所述医疗实体与所述概念标识符之间的映射关系。

步骤S517，服务器获取所述概念标识符对应的医疗信息。

这里，服务器在确定出医疗实体对应的概念标识符之后，可以通过概念标识符确定对应的医疗信息。

步骤S518，服务器将所述医疗信息发送给用户终端。

这里，由于医疗信息时根据概念标识符查询确定出来的，因此当服务器在将医疗信息发送给用户终端时，可以将概念标识符对应的首选术语以标注的形式也发送给用户终端，以便于用户对医疗信息的理解。

在本实施例提供的医疗文本处理方法中，在用户需要查询医疗信息时，在将医疗文本发送给服务器后，服务器通过第一语种医疗本体库确定医疗文本中包括的医疗实体对应的概念标识符，当第一语种医疗本体库中匹配到与医疗实体符合匹配条件的医疗术语时，那么基于医疗术语确定医疗实体对应的概念标识符，当未匹配到与医疗实体符合匹配条件的医疗术语时，通过分词替换，得到替换后的医疗实体，通过替换后的医疗实体对应的医疗术语确定医疗实体对应的概念标识符，若第一语种医疗本体库中未匹配到与替换后的医疗实体符合匹配条件的医疗术语，那么通过医疗实体分词组合匹配的方式确定医疗实体对应的概念标识符，在确定出概念标识符后，进而通过概念标识符获取到医疗信息，并发送给用户终端。

在一些实施例中，可以通过这样的方式实现上述的步骤S514：

步骤S5141，从所述分词集合中，确定出能够组合成所述医疗实体的分词子集合。

这里，承接步骤S512举例，假设在第一语种医疗本体库中均具有与分词D+分词E、分词E+分词F符合匹配条件的医疗术语，且分词D+分词E这一组合医疗实体分词对应的概念标识符为15、分词E+分词F这一组合医疗实体分词对应的概念标识符为16，那么此时分词集合为{分词D，分词E，分词F、(分词D+分词E)-15、(分词E+分词F)-16}，那么能够组合成医疗实体分词的分词子集合为第一分词子集合{分词D、(分词E+分词F)-16}和第二分词子集合{(分词D+分词E)-15、分词F}和第三分词子集合{分词D，分词E，分词F}。

步骤S5142，确定出元素个数最少的分词子集合。

这里，由于第一分词子集合与第二分词子集合的元素个数为2，第三分词子集合的元素个数为3，因此元素个数最少的分词子集合为第一分词子集合和第二分词子集合。

步骤S5143，判断是否只存在一个元素个数最少的分词子集合。

这里，当只存在一个元素个数最少的分词子集合时，进入步骤S5124；当存在至少两个元素个数最少的分词子集合时，进入步骤S5125。

步骤S5144，将所述元素个数最少的分词子集合确定为目标分词子集合。

步骤S5145，确定所述至少两个元素最少的分词子集合中最后一个元素所包括的分词个数。

这里，承接步骤S5141的举例，第一分词子集合最后一个元素为(分词E+分词F)-16，第二分词子集合最后一个元素为分词F，那么也就是说第一分词子集合最后一个元素所包括的分词个数为2，第二分词子集合最后一个元素所包括的分词个数为1。

步骤S5146，将所述最后一个元素包括的分词个数最多的分词子集合确定为目标分词子集合。

这里，由于医疗实体的核心词一般为异常词，位于医疗实体的后部，因此在本实施例中，将最后一个元素包括的分词个数最多的分词子集合确定为目标分词子集合，从而保证确定出相对准确的概念标识符，以提高医疗实体归一化的准确性。

基于前述的实施例，本申请实施例再提供一种基于人工智能的医疗文本处理方法，所述方法包括：

步骤S201，服务器获取待处理医疗文本中的医疗实体。

这里，待处理医疗文本为第一语种的文本。步骤S201在实现时，可以是基于人工智能中自然语言处理方法对待处理医疗文本进行分词，得到文本分词，然后再从各个文本分词中识别出医疗实体。

步骤S202，服务器将所述医疗实体输入基于人工智能的匹配模型，与第一语种医疗本体库进行匹配，以确定与所述医疗实体对应的概念标识符。

这里，步骤S202在实现时，通过基于人工智能的匹配模型确定与医疗实体对应的概念标识符时，首先确定第一语种医疗本体库中是否能够匹配到与医疗实体符合匹配条件的目标医疗术语，当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时，利用人工智能中自然语言处理方法对所述医疗实体进行分词处理，得到多个医疗实体分词；然后再将所述医疗实体中具有同义分词的医疗实体分词，映射为对应的同义分词，得到映射后的医疗实体；进一步地，从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语；至少基于所述目标医疗术语，确定所述医疗实体对应的概念标识符。

步骤S203，服务器建立所述医疗实体与所述概念标识符的映射关系。

这里，建立了医疗实体与概念标识符的映射关系即实现了医疗实体归一化。

在步骤S201至步骤S203中，在服务器获取到待处理的医疗文本后，首先识别出其中的医疗实体，然后再利用基于人工智能的匹配模型确定医疗实体对应的概念标识符，并建立医疗实体与概念标识符的映射关系以实现医疗实体的归一化，并且在通过匹配模型确定医疗实体对应的概念标识符时，当第一医疗本体库中未匹配到与医疗实体精确匹配的医疗术语时，通过分词映射的方式对医疗实体进行归一化，从而能够较为准确的将医疗实体映射到本体中，提升对医疗文本的理解。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

医疗实体标准化是为文本中识别的医疗实体分配一个概念标识符，从而可以将该医疗实体映射到相应的医疗本体中。与医疗实体的识别相比较，医疗视图的标准化工作首先要以一个成熟的医疗本体作为载体，同时还存在语义理解上的问题，即通过确定某个医疗实体的具体含义，将其映射到标准的医疗本体中。因此识别出医疗实体之后，医疗实体的标准化工作成为了该领域亟待解决的问题。

本申请实施例提供的医疗文本处理方法，进一步地可以是一种基于术语成分切分的标准化方法，主要包含以下处理步骤：1)英文医疗本体到中文医疗本体的移植和扩充；2)基于术语的排序消歧；3)映射关系的建立。

图6为本申请实施例基于术语成分切分的标准化方法的实现流程示意图，如图6所示，所述方法包括：

步骤S601，获取英文本体库。

这里，获取的可以是医学主题标题(MESH，Medical Subject Headings(MESH)、医学系统命名法-临床术语(SNOMED CT，Systematized Nomenclatu re of Medicine-Clinical Terms)等英文本体库。

步骤S602，基于英文本体库进行语义翻译和扩展。

这里，步骤S602在实现时可以是对英文本体库中的词汇进行机器翻译，并对翻译得到的中文进行过滤及同义词扩充。

步骤S603，对翻译得到的中文翻译术语进行语义消歧。

这里，由于翻译得到的中文翻译术语可能存在一个中文翻译术语对应多个概念或者多个中文翻译术语对应一个概念的情况，此时需要对翻译得到的中文翻译术语进行语义消歧。

步骤S604，获得中文本体库。

这里，经过语义消歧后，就得到了相对完善规范的中文本体库。

步骤S605，获取医学实体列表。

这里，步骤S605在实现时，可以是获取到医学实体列表后从中选择一个医学实体为其建立与中文本体之间的映射关系。

步骤S606，判断医学实体是否能够与中文本体精确匹配。

这里，步骤S606在实现时，可以是判断中文本体库中是否存在与该医学实体精确匹配的中文本体，当中文本体库中匹配到与该医学实体精确匹配的中文本体，进入步骤S609；当中文本体库中未匹配到与该医学实体精确匹配的中文本体，进入步骤S607。

步骤S607，对该医学实体进行术语切分。

步骤S608，基于进行术语切分得到的分词进行术语映射。

步骤S609，建立医学实体和中文本体之间的映射关系，得到最终结果。

本体资源的完整性在医疗归一化的任务中起着举足轻重的作用，同时构建一个完全覆盖文本中所有医疗实体的本体是一件几乎不可能的事情，而且构建医疗本体的本身也是一项极其依赖人力物力和专业知识的工作。因此为了解决成熟的中文医疗本体缺乏的问题，在本实施例中，提出了一种基于MESH、SN OMED CT等英文本体，利用机器翻译构建中文本体的方法。

在本实施例中，借助较为完整的英文医疗本体，将其移植到中文领域，同时通过获取中文医疗实体之间的同义关系，对移植的中文医疗实体进行相应的扩充，在实际应用中，步骤S602可以通过以下步骤实现：

步骤S6021，词典翻译。

这里，图7为本申请实施例医疗本体的体系组成示意图，如图7所示，在该体系中包括概念701、术语702、关系703和文本实体704，其中：

概念701，通常表示一个临床观念(clinical idea)，每个概念都包含有唯一的一个数字识别符；

术语702，是相对于概念的语言指称。表达相同概念的不同术语之间在本体中具有同义关系，每个概念下可以有多个术语，即多个同义词，但是这些术语都对应着相同的唯一的数字标识符。同时术语702分为首选术语7021和其他术语7022，首选术语7021通常为概念较为规范和认可的表达；

关系703，是将本体中的每个概念与其他概念之间建立对应的联系，能够更充分的表示一个概念在整个本体中的位置和作用，同时蕴含概念的一些特征信息。

文本实体704，是指存在于各种医学文本中的医疗实体，如疾病等。

比如：在中文的OMAHA中概念用1254728标示，其对应的术语包括“高血糖素瘤”、“α细胞腺瘤”，“胰升糖素瘤”等，如果这些术语出现在文本中就是文本实体。

在本实施例中，步骤S6021在实现时可以获取网络翻译结果，并借助医疗中英文词典将英文本体中的所有术语翻译为对应的中文术语，同时保留概念和概念、概念和术语之间的关系，构建初步的中文医疗本体。

步骤S6022，中文翻译术语过滤。

对于利用机器翻译会存在低质量翻译的情况，在本实施例中，对初步翻译的中文数据进行过滤。在实际应用过程中，可以通过构造(概念标识符，中文术语)的分类器，该分类器使用的特征包含词典特征、语义特征和人工定义特征等。其中，词典特征，表征多少个词典可以通过概念下的术语得到该中文翻译术语；语义特征，表征该翻译术语是否是该概念下其他翻译术语的子串，如果是子串说明其他翻译词包含该词，该词语作用不大；人工定义特征，为该翻译术语通过词典翻译对应了多少个概念等人工设置的特征。

利用该分类器计算概念与其每一个中文术语之间的分类值，通过直接将概念和中文术语相关联的方式，将分类值低于预设分类阈值的中文术语过滤掉，从而能够过滤掉由于低质量翻译引入的错误医疗实体，达到提升中文医疗本体质量的目的。

步骤S6023，中文同义词扩充。

这里，步骤S6023在实现时，可以利用医疗百科网站，获取医疗实体的别名、缩写、英文名等同义词，同时利用多个网站的相互校验，保证扩充同义词对的可信度。通过加入中文同义词能够对中文医疗本体的完整性进一步的提升。

以下对步骤S603对翻译得到的中文翻译术语进行语义消歧的实现过程进行说明。

由于翻译质量，部分相同的中文术语会对应到多个本体概念上，在本实施例中，将歧义问题分为如下两类：

(1)词典翻译错误引起，针对该类问题，利用(概念标识符，中文术语)分类器，以中文术语为单位，通过计算相同中文术语和不同概念之间的分类值，根据分类值对该中文术语对应的概念进行筛选过滤，尽可能保证一个中文术语对应唯一的正确的概念标识符。

(2)医疗本体中不同类别含有多个相同术语也会导致出现一个术语对应多个概念的现象，对于此类问题，中文术语和多个概念的分类值都很高且均正确，因此保留这种中文术语与多个概念的对应关系，在实体映射中再进一步进行语义消歧。

在语义消歧之后，即得到了相对完善、规范的中文本体库。

在本实施例中，基于术语切分的映射关系构建可以包括以下两个部分：一、字符串的精确匹配；二、基于术语切分的匹配映射，以下对这两部分分别进行说明：

一)字符串的精确匹配。

因为不同的医学文本对于相同医学实体有着不同的书写方式，同时为了提高本体的覆盖率，也为了增加字符串精准匹配的准确度，在本实施例中利用规则对待识别医疗实体进行了相应的规则变化，主要分为两大类：

(1)字符串格式问题：针对字符串中出现的空格、英文字母、连字符等格式问题，需要进行统一规则处理。

例如，字符串中出现的多个空格统一处理为一个空格，英文字母统一处理为大写或者小写等。

(2)子串同义词替换：在中文本体扩充中，得到了术语之间的同义关系，因此可以采用词对齐算法和人工过滤的方式，挖取子串的同义词。例如“淋球菌性腹膜炎”和“淋菌性腹膜炎”这一同义词对，可以挖掘到“淋球菌性”和“淋菌性”的同义关系。那么当查找不到“淋菌性腹膜炎”对应的概念时，可以通过子串的同义词对替换，查找“淋球菌性腹膜炎”对应的概念，如果能够查找到“淋球菌性腹膜炎”对应的概念，那么将“淋菌性腹膜炎”映射到“淋球菌性腹膜炎”对应的医疗本体中。

因此通过以上规则，可以将待归一化的医疗实体完整地精确匹配到中文医疗本体中。

如果存在一个术语对应多个概念，通过术语切分的成分类型和本体中概念的类别(解剖位置、疾病、症状等)构建映射规则进行语义消歧，返回唯一对应的概念标识符。

二)基于术语切分的匹配映射

医疗实体通常由不同成分灵活构造得到，一般是将异常(通常为医疗实体核心词)与简短的描述性修饰语组合在一起。创建医疗实体的方式有多种形式，包括身体部位、性质、病原体等，因此医疗实体具有一定的可切分性。

对于大部分的难以通过精准字符串匹配的医疗实体，使用如下的处理步骤创建映射关系：

步骤81，将待归一化的医疗实体进行术语成分切分，将术语切分结果加入到映射结果集合中；

步骤82，医疗实体切分的每一部分和相邻部分的各种组合在医疗本体中进行字符串的精确匹配，将匹配到的部分和对应映射得到的概念标识符加入到映射结果集合中；

步骤83，从映射结果集合中选择能够覆盖待归一化医疗实体的最短路径，确定该待归一化医疗实体对应的概念标识符。

由于医疗实体核心词通常在词语后部，因此在相同路径长度下，选择最长后缀的匹配路径。

举例来说，比如一个医疗实体由a、b、c三个部分组成，将，这三个部分可以有以下几种组合方式：ab、bc、a、b、c，通过将各种组合与医疗本体进行匹配，得到的映射结果集合为{ab_概念2，bc_概念3，a_概念4，b_概念5，c_概念6}，那么定义能够组成该医疗实体的每一种可能都是一条路径，其中路径长度为概念数目，如“abc_概念1”的路径长度为1，“ab_概念2，c_概念6”和“a_概念4，bc_概念3”的路径长度均为2。当未匹配到路径长度为1的情况下，根据在相同路径长度下，选择最长后缀的原则，那么应该选择“a_概念4，bc_概念3”这一路径。

步骤84，建立待归一化医疗实体与概念标识符之间的映射关系。

本实施例提供的方案并不依赖特定医疗本体和标注数据，可以快速利用外部资源构建中文医疗本体，同时对语义信息进行扩充，通过构建(概念，术语)分类器，对构建得到的中文医疗本体中的术语进行质量过滤，快速移植得到一个较为可信和完整的中文医疗本体，避免了人工构建医疗本体复杂繁琐的过程，同时基于术语成分切分的启发式匹配算法，较为准确的将医疗实体映射到本体中，提升了对医疗文本的理解。

下面说明软件模块的示例性结构，在一些实施例中，如图2所示，装置240中的软件模块，即为医疗文本处理装置90可以包括：

第一获取模块91，用于获取待处理医疗文本中的医疗实体，并将所述医疗实体与第一语种医疗本体库进行匹配；

第一分词模块92，用于当所述第一语种医疗本体库中未匹配到与所述医疗实体符合匹配条件的目标医疗术语时，对所述医疗实体进行分词处理，得到多个医疗实体分词；

映射模块93，用于将所述医疗实体中具有同义分词的医疗实体分词，映射为对应的同义分词，得到映射后的医疗实体；

第一确定模块94，用于从所述第一语种医疗本体库中确定与所述映射后的医疗实体符合匹配条件的目标医疗术语；

第一映射建立模块95，用于至少基于所述目标医疗术语，确定所述医疗实体对应的概念标识符，建立所述医疗实体与所述概念标识符的映射关系。

在一些实施例中，所述装置还包括：

语种转换模块，用于将第二语种医疗本体库转换为第一语种，得到初始医疗本体库；

过滤扩展模块，用于对所述初始第一语种医疗本体库进行过滤和同义词扩展，得到扩展医疗本体库；

歧义消除模块，用于对所述扩展医疗本体库进行歧义消除，得到第一语种医疗本体库。

在一些实施例中，所述过滤扩展模块，还用于：

从所述初始医疗本体库中，获取对应有至少两个医疗术语的目标概念标识符；

基于构造出的分类器，对所述每个目标概念标识符和对应的至少两个医疗术语进行分类，得到分类结果；

基于所述分类结果，删除每个目标概念标识符对应的满足删除条件的医疗术语；

基于从网络中获取的与医疗相关的数据，确定初始医疗本体库中医疗术语的同义词；

将所述同义词添加至初始医疗本体库，得到扩展医疗本体库。

在一些实施例中，基于构造出的分类器，对所述每个目标概念标识符和对应的至少两个医疗术语进行分类，得到分类结果，包括：

基于所述分类器，计算每个目标概念标识符和对应的至少两个医疗术语之间的第一分类值；

将第一分类值低于第一分类阈值的医疗术语确定为不对应所述目标概念标识符的医疗术语；

将第一分类值高于或者等于所述第一分类阈值的医疗术语确定为对应所述目标概念标识符的医疗术语。

在一些实施例中，所述基于从预设的医疗网站中获取与医疗相关的数据，确定初始医疗本体库中医疗术语的同义词，包括：

从网络中获取所述初始医疗本体库中各个医疗术语对应的词条信息；

当所述医疗术语对应有至少两条词条信息时，分别获取所述至少两条词条信息中的初始同义词；

当所述初始同义词在所述至少两条词条信息中出现的次数大于次数阈值时，将所述初始同义词确定为所述医疗术语的同义词。

在一些实施例中，所述歧义消除模块，还用于：

从所述扩展医疗本体库中，确定对应有至少两个概念标识符的第一医疗术语；

基于构造的分类器，计算所述第一医疗术语与所述第一医疗术语对应的各个概念标识符之间的第二分类值；

将第二分类值低于第二分类阈值的概念标识符与第一医疗术语的之间的对应关系删除，得到第一语种医疗本体库。

在一些实施例中，所述装置还包括：

第二分词模块，用于对所述第一语种医疗本体库中的医疗术语进行分词处理，得到各个医疗术语的术语分词；

第二确定模块，用于根据医疗术语间的同义词关系，确定具有同义词关系的术语分词。

在一些实施例中，所述装置还包括：

第三确定模块，用于将医疗实体分词与术语分词进行匹配，确定与医疗实体分词符合匹配条件的术语分词；

第四确定模块，用于将所述术语分词具有同义词关系的其他术语分词确定为所述医疗实体分词的同义分词。

在一些实施例中，所述装置还包括：

第五确定模块，用于按照预设的词性分类规则，确定各个医疗实体分词的类型；

标注模块，用于为所述各个医疗实体分词标注所述类型。

在一些实施例中，所述第一映射建立模块，还用于：

获取所述目标医疗术语对应的概念标识符；

当所述目标医疗术语对应有至少两个概念标识符时，获取所述至少两个概念标识符的类别信息；

基于各个医疗实体分词的类型和所述至少两个概念标识符的类别信息，确定所述医疗实体对应的概念标识符。

在一些实施例中，所述装置还包括：

第一添加模块，用于当所述第一语种医疗本体库中未匹配到与所述映射后的医疗实体符合匹配条件的目标医疗术语时，将各个医疗实体分词按照在所述医疗实体中的顺序添加至分词集合；

组合模块，用于将各个医疗实体分词与相邻的医疗实体分词进行组合，得到组合医疗实体分词；

第二添加模块，用于确定各个组合医疗实体分词对应的概念标识符，并将所述各个组合医疗实体分词和对应的概念标识符添加至所述分词集合；

第六确定模块，用于从所述分词集合中，确定能够组合成所述医疗实体的目标分词子集合；

第七确定模块，用于将所述目标分词子集合中最后一个分词对应的概念标识符，确定为所述医疗实体对应的概念标识符。

在一些实施例中，所述第六确定模块，还用于：

从所述分词集合中，确定出能够组合成所述医疗实体的分词子集合；

确定出元素个数最少的分词子集合；

当只存在一个元素个数最少的分词子集合时，将所述元素个数最少的分词子集合确定为目标分词子集合；

在一些实施例中，所述第六确定模块，还用于：

当存在至少两个元素个数最少的分词子集合时，确定所述至少两个元素最少的分词子集合中最后一个元素所包括的分词个数；

将所述最后一个元素包括的分词个数最多的分词子集合确定为目标分词子集合。

作为本申请实施例提供的方法采用硬件实施的示例，本申请实施例所提供的方法可以直接采用硬件译码处理器形式的处理器410来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本申请实施例提供的方法。

在一些实施例中，装置440中的软件模块，即为医疗文本处理装置可以包括：

第二获取模块，用于获取待处理医疗文本中的医疗实体；

匹配模块，用于将所述医疗实体输入基于人工智能的匹配模型，与第一语种医疗本体库进行匹配，以确定与所述医疗实体对应的概念标识符；其中：

第二映射建立模块，用于建立所述医疗实体与所述概念标识符的映射关系。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3、图4和图5示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种医疗文本处理方法，其特征在于，所述方法包括：

获取待处理医疗文本中的医疗实体，将所述医疗实体与第一语种医疗本体库进行匹配；

2.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

将第二语种医疗本体库转换为第一语种，得到初始医疗本体库；

对所述初始第一语种医疗本体库进行过滤和同义词扩展，得到扩展医疗本体库；

对所述扩展医疗本体库进行歧义消除，得到第一语种医疗本体库。

3.根据权利要求2中所述的方法，其特征在于，所述对所述初始医疗本体库进行过滤和同义词扩展，得到扩展医疗本体库，包括：

4.根据权利要求3中所述的方法，其特征在于，基于构造出的分类器，对所述每个目标概念标识符和对应的至少两个医疗术语进行分类，得到分类结果，包括：

5.根据权利要求3中所述的方法，其特征在于，所述基于从预设的医疗网站中获取与医疗相关的数据，确定初始医疗本体库中医疗术语的同义词，包括：

6.根据权利要求2中所述的方法，其特征在于，所述对所述扩展医疗本体库进行歧义消除，得到第一语种医疗本体库，包括：

7.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

按照预设的词性分类规则，确定各个医疗实体分词的类型；

为所述各个医疗实体分词标注所述类型。

8.根据权利要求7中所述的方法，其特征在于，所述至少基于所述目标医疗术语，确定所述医疗实体对应的概念标识符，包括：

获取所述目标医疗术语对应的概念标识符；

9.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

当在所述第一语种医疗本体库中未匹配到与所述映射后的医疗实体符合匹配条件的目标医疗术语时，将各个医疗实体分词按照在所述医疗实体中的顺序添加至分词集合；

将各个医疗实体分词与相邻的医疗实体分词进行组合，得到组合医疗实体分词；

确定各个组合医疗实体分词对应的概念标识符，并将所述各个组合医疗实体分词和对应的概念标识符添加至所述分词集合；

从所述分词集合中，确定能够组合成所述医疗实体的目标分词子集合；

将所述目标分词子集合中最后一个分词对应的概念标识符，确定为所述医疗实体对应的概念标识符。

10.根据权利要求9中所述的方法，其特征在于，所述从所述分词集合中，确定能够组合成所述医疗实体的目标分词子集合，包括：

确定出元素个数最少的分词子集合；

当只存在一个元素个数最少的分词子集合时，将所述元素个数最少的分词子集合确定为目标分词子集合。

11.根据权利要求10中所述的方法，其特征在于，所述方法还包括：

12.一种基于人工智能的医疗文本处理方法，其特征在于，所述方法包括：

获取待处理医疗文本中的医疗实体；

建立所述医疗实体与所述概念标识符的映射关系。

13.一种医疗文本处理装置，其特征在于，所述装置包括：

14.一种医疗文本处理设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项或权利要求12所述的方法。

15.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至11任一项或权利要求12所述的方法。