CN105068994A

CN105068994A - 一种药品信息的自然语言处理方法及系统

Info

Publication number: CN105068994A
Application number: CN201510496389.8A
Authority: CN
Inventors: 陈志永; 朱华玲
Original assignee: Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Current assignee: Ebaotech Internet Medical Information Technology (beijing) Co Ltd
Priority date: 2015-08-13
Filing date: 2015-08-13
Publication date: 2015-11-18
Anticipated expiration: 2035-08-13
Also published as: CN105068994B

Abstract

本发明的实施方式提供了一种药品信息的自然语言处理方法及系统。该药品信息的自然语言处理方法包括：输入药品信息字符串并进行预处理；切分规格字符串和包装规格字符串；基于预先建立的词典集，切分第一类型子字符串和/或第二类型子字符串；对第二类型子字符串以及词条进行解析；将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配，查找第二类型子字符串相匹配的一个或多个词条；输出规格字符串、包装规格字符串及其对应的词条属性，以及输出第一类型子字符串、第二类型子字符串相匹配的词条及其对应的词条属性。本发明实现了对药品信息字符串的识别，提升了药品信息的识别成功率，为有效利用和管理药品信息提供了便利。

Description

一种药品信息的自然语言处理方法及系统

技术领域

本发明的实施方式涉及医疗信息化领域，更具体地，本发明的实施方式涉及一种药品信息的自然语言处理方法及系统。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着信息技术的快速发展，我国医药行业正加速医疗信息化建设。医疗信息化建设有助于提升医疗处理效率，给患者提供很好的体验，为提高医疗服务质量提供很大帮助。

药品信息管理是医疗信息化建设的重要组成部分，规范、准确的药品信息是管理药品信息的基础保障。

发明内容

实际临床作业中每天会产生大量的病案信息，这些病案信息中有很多医疗从业人员为治疗患者的疾病而输入的药品信息，研究和利用药品信息对于医疗信息化发展具有非常重要的意义。由于每天都会有海量的药品信息输入，仅靠人工力量识别这些药品信息然后再进行研究和利用几乎是不可能的，必须借助计算机对其识别和利用。

但是由于医疗从业人员输入的药品信息属于自然语言，格式复杂多样，没有统一的标准，例如，采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂无关符号等杂乱信息等等，就使得计算机识别药品信息具有相当大的难度。

为了提高计算机对药品信息的识别成功率，非常需要一种药品信息的自然语言处理方法，以便识别和利用输入至医疗信息化平台中的药品信息。

在本发明实施方式的第一方面中，提供了一种药品信息的自然语言处理方法，包括：

步骤1，输入药品信息字符串；

步骤2，对所述药品信息字符串进行预处理，得到预处理药品信息字符串；

步骤3，基于预设的规格词典和包装规格词典，从所述预处理药品信息字符串中切分出规格字符串和包装规格字符串；其中，所述规格词典包括若干表示药品的规格单位的词条；所述包装规格词典包括若干表示药品的包装规格单位的词条；所述规格字符串表示药品的规格信息；所述包装规格字符串表示药品的包装规格信息；

步骤4，基于预设的词典集，从所述预处理药品信息字符串的剩余字符中切分出若干第一类型子字符串和/或第二类型子字符串；其中，所述词典集包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条；所述第一类型子字符串能够与所述词典集中的词条直接匹配，所述第二类型子字符串不能够与所述词典集中的词条直接匹配；

步骤5，对所述第二类型子字符串和所述词典集中的词条进行解析，得到第二类型子字符串的解析结果，以及对词典集中每个词条的解析结果；并通过将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配，查找第二类型子字符串相匹配的一个或多个词条；

步骤6，输出所述规格字符串、所述包装规格字符串及其对应的词条属性，以及输出所述第一类型子字符串、所述第二类型子字符串相匹配的词条及其对应的词条属性；所述词条属性与所述词条所属的词典一一对应，所述词典具有预先设定的词条属性。

相应的，本发明提供一种药品信息的自然语言处理系统，包括：

词典数据库，提供预设的规格词典、包装规格词典和词典集；

输入模块，用于输入药品信息字符串；

预处理模块，用于对所述药品信息字符串进行预处理，得到预处理药品信息字符串；

第一切分模块，用于基于所述规格词典和包装规格词典，从所述预处理药品信息字符串中切分出规格字符串和包装规格字符串；其中，所述规格词典包括若干表示药品的规格单位的词条；所述包装规格词典包括若干表示药品的包装规格单位的词条；所述规格字符串表示药品的规格信息；所述包装规格字符串表示药品的包装规格信息；

第二切分模块，用于基于所述词典集，从所述预处理药品信息字符串的剩余字符中切分出若干第一类型子字符串和/或第二类型子字符串；其中，所述词典集包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条；所述第一类型子字符串能够与所述词典集中的词条直接匹配，所述第二类型子字符串不能够与所述词典集中的词条直接匹配；

匹配模块，用于对所述第二类型子字符串和所述词典集中的词条进行解析，得到第二类型子字符串的解析结果，以及对词典集中每个词条的解析结果；并通过将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配，查找第二类型子字符串相匹配的一个或多个词条；

输出模块，用于输出所述规格字符串、所述包装规格字符串及其对应的词条属性，以及输出所述第一类型子字符串、所述第二类型子字符串相匹配的词条及其对应的词条属性；所述词条属性与所述词条所属的词典一一对应，所述词典具有预先设定的词条属性。

借助于上述技术方案，本发明充分考虑了医疗从业人员输入的药品信息属于自然语言、格式复杂多样、没有统一标准等特点，利用预先建立的多种词典对药品信息字符串进行切分和匹配，将药品信息分类识别出来，并以医疗领域的标准形式分类输出精确匹配的词条，对于没有精确匹配的词条的字符，采用模糊匹配的方式对其进行识别，并以模糊匹配出的词条作为识别结果，最后将识别结果以医疗领域的标准形式分类输出模糊匹配的词条。通过上述技术手段，本发明可实现对带符号、数字和汉字的药品信息字符串的识别，并克服了现有技术无法顺利实现对药品信息进行自然与演化处理的问题，提升了药品信息的识别成功率，为有效利用药品信息提供了便利。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了本发明实施方式的适用场景；

图2示意性地示出了本发明示例性方法的流程；

图3示意性地示出了本发明示例性方法中切分第一类型子字符串、第二类型子字符串的过程；

图4示意性地示出了本发明示例性方法中对第二类型子字符串进行模糊匹配的过程；

图5示意性地示出了本发明示例性系统的结构框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种药品信息的自然语言处理方法及系统。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，医疗从业人员在医疗信息化平台中输入的药品信息格式复杂多样，没有统一的标准，经常会出现采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等情况，导致计算机不能顺畅地实现对药品信息进行自然语言化处理。

本发明充分考虑了药品信息的以上特点，利用预先建立的多种词典对药品信息字符串进行切分和匹配，将药品信息分类识别出来，并以医疗领域的标准形式分类输出精确匹配的词条，对于没有精确匹配的词条的字符，采用模糊匹配的方式对其进行识别，并以模糊匹配出的词条作为识别结果，最后将识别结果以医疗领域的标准形式分类输出模糊匹配的词条。通过上述技术手段，本发明可实现对带符号、数字和汉字的药品信息字符串的识别，并克服了现有技术无法顺利实现对药品信息进行自然与演化处理的问题，提升了药品信息的识别成功率，为有效利用药品信息提供了便利。

应用场景总览

首先参考图1，其示出了本发明的实施方式可以在其中实施的应用场景。

图1中所示的场景包括医疗信息化平台100和药品信息的自然语言处理系统200。医疗信息化平台100可以是装载于医生所用的台式电脑、笔记本电脑、平板电脑、个人数字助理等设备中的软件。药品信息的自然语言处理系统200可以是运行于医院信息服务器中的软件等。医疗信息化平台100和药品信息的自然语言处理系统200之间例如可以通过医院局域网等进行通信连接。

医疗从业人员(例如医生)在医疗信息化平台100中输入药品信息之后，药品信息被传输至药品信息的自然语言处理系统200，由药品信息的自然语言处理系统200对其进行识别，最后输出识别结果。

示例性方法

本示例性方法介绍本发明的一种示例性的药品信息的自然语言处理方法。该示例性方法用于对医疗从业人员输入的药品信息进行自然语言处理，识别并输出多个不同信息类型的词条。

在介绍该示例性方法之前，通过表1至表18介绍该示例性实施方式需要调用的各种词典。

(1)规格词典

规格词典包括若干表示药品的规格单位的词条，本发明中，规格词典是用于从药品信息字符串中切分出规格字符串，规格字符串表示药品的规格信息。

以下为一种示例性的规格词典：

规格词典包括标准规格表和规格同义词表。

标准规格表包括若干标准装量规格单位和标准成分规格单位。

标准装量规格单位，表示药品最小制剂单位的重量或装量，如一片药有多重，一瓶注射液装了多少毫升药。

标准成分规格单位，表示药品最小制剂单位中含有效成分的剂量或效价。

标准装量规格单位和标准成分规格单位均来自于国家食品药品监督管理总局(ChinaFoodandDrugAdministration，CFDA)对各种药品公布的【规格】信息。

表1表示了标准规格表包括的部分标准装量规格单位和标准成分规格单位。

表1

标准装量规格单位	标准成分规格单位
		克	克
毫克	毫克
		毫升	微克

规格同义词表包括若干装量规格单位同义词和成分规格单位同义词。

装量规格单位同义词是标准装量规格单位的别名、俗称、英文缩写、错别字等。

成分规格单位同义词是标准成分规格单位的别名、俗称、英文缩写、错别字等。

规格同义词表记录了装量规格单位同义词与标准装量规格单位之间的对应关系，以及成分规格单位同义词与标准成分规格单位之间的对应关系。

表2表示了规格同义词表包括的部分装量规格单位同义词、成分规格单位同义词，以及对应的标准装量规格单位和标准成分规格单位。

表2

需要说明的是，在实施本发明时，可以根据实际情况采用包含其他类型词条的规格词典，以达到切分出规格字符串的目的，本发明对规格词典所包含的词条的类型或来源不作具体限定，即以上说明仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，采用包含其它类型或来源的词条的规格词典均应包含在本发明的保护范围之内。

(2)包装规格词典

包装规格词典包括若干表示药品的包装规格单位的词条，本发明中，包装规格词典是用于从药品信息字符串中切分出包装规格字符串，包装规格字符串表示药品的包装规格信息。

以下为一种示例性的包装规格词典：

包装规格词典包括标准包装规格表和包装规格同义词表。

标准包装规格表包括若干标准制剂最小单位和标准包装规格单位。

标准制剂最小单位表示药品的最小制剂单位，如片、粒。

标准包装规格单位表示药品的最小包装单位，如盒、瓶。

标准包装规格单位均来自于国家食品药品监督管理总局(ChinaFoodandDrugAdministration，CFDA)对各种药品公布的【包装规格】信息以及药品生产厂家官网、药品说明中包装规格的信息。

表3表示了标准包装规格表包括的部分标准制剂最小单位和标准包装规格单位。

表3

标准制剂最小单位	标准包装规格单位
		片	盒
粒	瓶

支

袋

包装规格同义词表包括若干制剂最小单位同义词和包装规格单位同义词。

制剂最小单位同义词是标准制剂最小单位的别名、俗称、英文缩写或错别字等。

包装规格单位同义词是标准包装规格单位的别名、俗称、英文缩写或错别字等。

包装规格同义词表准确记录了制剂最小单位同义词与标准制剂最小单位之间的对应关系，以及包装规格单位同义词与标准包装规格单位之间的对应关系。

表4表示了包装规格同义词表包括的部分制剂最小单位同义词和包装规格单位同义词，以及对应的标准制剂最小单位和标准包装规格单位。

表4

本发明中，规格词典是用于切分包装规格字符串。需要说明的是，在实施本发明时，可以根据实际情况采用包含其他类型词条的包装规格词典，以达到切分出包装规格字符串的目的，本发明对包装规格词典所包含的词条的类型或来源不作具体限定，即以上说明仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，采用包含其它类型或来源的词条的包装规格词典均应包含在本发明的保护范围之内。

(3)通用名称词典

通用名称词典包括若干表示药品的通用名称的词条，本发明中，本发明中，通用名称词典是用于切分词条属性为“通用名称”的词条。

以下为一种示例性的通用名称词典：

通用名称词典包括标准通用名称表、通用名称同义词表。

标准通用名称表包括若干标准通用名称，这些标准通用名称是以国际非专利药品名称为依据、结合具体情况制定的中国药品通用名称(CADN，ChinaApprovedDrugNames)。

表5所示为标准通用名称表包括的部分标准通用名称。

表5

标准通用名称
	山莨菪碱
三磷酸腺苷
	玻璃酸钠
甲溴贝那替秦

通用名称同义词表包括若干通用名称同义词，这些通用名称同义词是标准通用名称的别名、俗称、英文缩写或错别字等。

通用名称同义词表准确记录了每个通用名称同义词与标准通用名称之间的对应关系。

表6所示为通用名称同义词表包括的部分通用名称同义词、标准通用名称、以及二者之间的同义关系。

表6

需要说明的是，在实施本发明时，可以根据实际情况采用包含其他类型词条的通用名称词典，以达到切分出词条属性为“通用名称”的词条的目的，本发明对通用名称词典所包含的词条的类型或来源不作具体限定，即以上说明仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，采用包含其它类型或来源的词条的通用名称词典均应包含在本发明的保护范围之内。

(4)商品名称词典

商品名称词典包括若干表示药品的商品名称的词条，本发明中，本发明中，商品名称词典是用于切分词条属性为“商品名称”的词条。

以下为一种示例性的商品名称词典：

商品名称词典包括标准商品名称表、商品名称同义词表。

标准商品名称表包括若干标准商品名称，这些标准商品名称来自于CFDA对药品公布的【商品名】信息以及生产厂家官方文件、药品说明书中商品名信息。

标准商品名称词典中准确记录了每个标准商品名称与标准通用名称之间的对应关系。

表7所示为标准商品名称表包括的部分标准商品名称、标准通用名称、以及二者之间的对应关系。

表7

标准商品名称	标准通用名称
		左克	盐酸左氧氟沙星
运德素	重组人干扰素α1b
		忆辛	辛伐他汀

商品名称同义词表包括若干商品名称同义词，这些商品名称同义词是标准商品名称的别名、俗称、英文缩写或错别字等。

商品名称同义词准确记录了每个商品名称同义词与标准商品名称以及标准通用名称之间的对应关系。

表8所示为商品名称同义词表包括的部分商品名称同义词、标准商品名称、标准通用名称、以及三者之间的对应关系。

表8

需要说明的是，在实施本发明时，可以根据实际情况采用包含其他类型词条的商品名称词典，以达到切分出词条属性为“商品名称”的词条的目的，本发明对商品名称词典所包含的词条的类型或来源不作具体限定，即以上说明仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，采用包含其它类型或来源的词条的商品名称词典均应包含在本发明的保护范围之内。

(5)产品名称词典

产品名称词典包括若干表示药品的产品名称的词条，本发明中，本发明中，产品名称词典是用于切分词条属性为“产品名称”的词条。

以下为一种示例性的产品名称词典：

产品名称词典包括标准产品名称表、产品名称同义词表。

标准产品名称表包括若干标准产品名称，这些标准产品名称来自于CFDA对各种药品公布的【产品名称】信息。

标准产品名称词典中准确记录了每个标准产品名称与标准通用名称之间的对应关系。

表9所示为标准产品名称表包括的部分标准产品名称、标准通用名称、以及二者之间的对应关系。

表9

标准产品名称	标准通用名称
		阿苯达唑片	阿苯达唑
阿苯达唑咀嚼片	阿苯达唑
		阿莫西林胶囊	阿莫西林
阿莫西林颗粒	阿莫西林
		布洛芬混悬液	布洛芬
布洛芬缓释混悬液	布洛芬
		布洛芬片	布洛芬

产品名称同义词表包括若干产品名称同义词，这些产品名称同义词是标准产品名称的别名、俗称、英文缩写或错别字等。

产品名称同义词准确记录了每个产品名称同义词与标准产品名称以及标准通用名称之间的对应关系。

表10所示为产品名称同义词表包括的部分产品名称同义词、标准产品名称、标准通用名称、以及三者之间的对应关系。

表10

需要说明的是，在实施本发明时，可以根据实际情况采用包含其他类型词条的产品名称词典，以达到切分出词条属性为“产品名称”的词条的目的，本发明对产品名称词典所包含的词条的类型或来源不作具体限定，即以上说明仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，采用包含其它类型或来源的词条的产品名称词典均应包含在本发明的保护范围之内。

(6)给药途径词典

给药途径词典包括若干表示药品的给药途径的词条，本发明中，本发明中，给药途径词典是用于切分词条属性为“给药途径”的词条。

以下为一种示例性的给药途径词典：

给药途径词典包括标准给药途径术语表、给药途径同义词表。

标准给药途径术语表包括了若干标准给药途径术语，这些标准给药途径术语是基于解剖学治疗学及化学分类系统(AnatomicalTherapeuticChemical，ATC)，结合实际药品应用而建立。

表11所示为标准给药途径术语表包括的部分标准给药途径术语。

表11

标准给药途径术语
	口服
含服
	粘膜给药
舌下
	注射给药
肌肉注射
	皮下注射
局部浸润
	局部给药
尿道给药

吸入给药
	牙用
眼用

给药途径同义词表包括若干给药途径同义词，这些给药途径同义词是标准给药途径术语的别名、俗称、英文缩写或错别字等。

给药途径同义词表准确记录了给药途径同义词与标准给药途径术语之间的对应关系。

表12所示为给药途径同义词表包括的部分给药途径同义词、标准药途径、以及二者之间的同义关系。

表12

需要说明的是，在实施本发明时，可以根据实际情况采用包含其他类型词条的给药途径词典，以达到切分出词条属性为“给药途径”的词条的目的，本发明对给药途径词典所包含的词条的类型或来源不作具体限定，即以上说明仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，采用包含其它类型或来源的词条的给药途径词典均应包含在本发明的保护范围之内。

(7)剂型词典

剂型词典包括若干表示药品的剂型的词条，本发明中，本发明中，剂型词典是用于切分词条属性为“剂型”的词条。

以下为一种示例性的剂型词典：

剂型词典包括标准剂型术语表、剂型同义词表。

标准剂型术语表包括了若干标准剂型术语。

标准剂型术语包括：①以CFDA的药品注册剂型为基础，根据《中国药典》2010版“制剂通则”的规则及定义，对药品注册剂型进行标准化处理后的药品剂型；②在国家医保目录中，无法在CFDA查询到相关注册信息的医保剂型，按照国家医保目录剂型确定其医保剂型。

表13表示了标准剂型术语表包括的部分标准剂型术语。

表13

标准剂型术语
	片剂
散剂
	颗粒剂
喷雾剂
	软膏剂
栓剂
	口服常释剂型
含漱剂

剂型同义词表包括了若干剂型同义词。

剂型同义词是标准剂型术语的别名、俗称、英文缩写、错别字或子类型。

剂型同义词表准确记录了剂型同义词与标准剂型术语之间的对应关系。

表14表示了剂型同义词表包括的部分剂型同义词、标准剂型术语以及二者的对应关系。

表14

需要说明的是，在实施本发明时，可以根据实际情况采用包含其他类型词条的剂型词典，以达到切分出词条属性为“剂型”的词条的目的，本发明对剂型词典所包含的词条的类型或来源不作具体限定，即以上说明仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，采用包含其它类型或来源的词条的剂型词典均应包含在本发明的保护范围之内。

(8)生产厂家词典

生产厂家词典包括若干表示药品的生产厂家的词条，本发明中，本发明中，生产厂家词典是用于切分词条属性为“生产厂家”的词条。

以下为一种示例性的生产厂家词典：

生产厂家词典包括标准生产厂家表、生产厂家同义词表。

标准生产厂家表包括了若干标准生产厂家名称，标准生产厂家名称来自于CFDA公布的药品生产企业信息或【生产厂商(中文)】、【生产厂商(英文)】信息。

表15表示了标准生产厂家表包括的部分标准生产厂家名称。

表15

标准生产厂家名称
	上海长征富民药业铜陵有限公司
南京恒生制药有限公司
	黑龙江哈星药业集团有限公司
广东九连山药业有限公司
	四川康特能药业
Dr.Reddy`s Laboratories Ltd.

生产厂家同义词表包括了若干生产厂家名称同义词。

生产厂家名称同义词是标准生产厂家名称的缩略语、英文名称等。

生产厂家同义词表准确记录了生产厂家名称同义词与标准生产厂家名称之间的对应关系。

表16表示了生产厂家同义词表包括的部分生产厂家名称同义词、标准生产厂家名称以及二者的对应关系。

表16

需要说明的是，在实施本发明时，可以根据实际情况采用包含其他类型词条的生产厂家词典，以达到切分出词条属性为“生产厂家”的词条的目的，本发明对生产厂家词典所包含的词条的类型或来源不作具体限定，即以上说明仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，采用包含其它类型或来源的词条的生产厂家词典均应包含在本发明的保护范围之内。

(9)包材词典

包材词典包括若干表示药品的包材的词条，本发明中，本发明中，包材词典是用于切分词条属性为“包材”的词条。

以下为一种示例性的包材词典：

包材词典包括标准包材表、包材同义词表。

标准包材表包括若干标准包材名称，这些标准包材名称来自于CFDA公布的药品包材或者药品说明书中有关包材的信息。

表17所示为标准包材表包括的部分标准包材名称。

表17

标准包材名称
	非PVC软袋
玻璃瓶
	塑料瓶

包材同义词表包括若干包材名称同义词。

包材名称同义词是标准包材名称的别名、俗称或英文缩写等。

包材同义词表准确记录了包材名称同义词与标准包材名称之间的对应关系。

表18所示为包材同义词表包括的部分包材名称同义词、标准包材名称、以及二者之间的同义关系。

表18

包材名称同义词	标准包材名称
		玻瓶	玻璃瓶
塑瓶	塑料瓶

需要说明的是，在实施本发明时，可以根据实际情况采用包含其他类型词条的包材词典，以达到切分出词条属性为“包材”的词条的目的，本发明对包材词典所包含的词条的类型或来源不作具体限定，即以上说明仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，采用包含其它类型或来源的词条的包材词典均应包含在本发明的保护范围之内。

下面结合图1的应用场景，参考表1至表18以及图2来描述根据本发明一种示例性实施方式的药品信息的自然语言处理方法。需要注意的是，图1的应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

参见图2所示，为本发明示例性方法的药品信息的自然语言处理方法，包括：

步骤S11，输入药品信息字符串。

步骤S12，对药品信息字符串进行预处理，得到预处理药品信息字符串。

该步骤的目的是将药品信息字符串中的字符转换成统一的编码格式，以便后续处理。

可选地，该步骤可以按照如下具体方式实施：对药品信息字符串中的非汉字进行格式归一化处理(例如，将药品信息字符串中的符号全部转换为半角格式或全部转换为全角格式，将其中的英文字母全部转换为大写格式或小写格式)；并根据一预先建立的无关字符词典删除药品信息字符串中的无关字符，例如删除□△○☆◢■▲●等无关字符。

步骤S13，基于规格词典和包装规格词典，从预处理药品信息字符串中切分出规格字符串和包装规格字符串。

具体地，该步骤可以包括如下步骤：

步骤S131，判断所述预处理药品信息字符串中是否存在数字；如果存在数字，则执行步骤S132；如果不存在数字，则直接跳转到步骤S14。

步骤S132，将数字之后紧邻的字符串与规格词典和包装规格词典中的词条进行匹配，如果匹配成功的词条是来自于规格词典，则将该数字及其之后紧邻的能够与规格词典中的词条相匹配的字符串切分出来作为规格字符串；如果匹配成功的词条是来自于包装规格词典，则将该数字及其之后紧邻的能够与包装规格词典中的词条相匹配的字符串切分出来作为包装规格字符串。

例如，预处理药品信息字符串为“膦甲酸钠乳膏|扶适灵0.15g”，首先判断出存在数字字符“0.15”，然后将字符“g”与规格词典和包装规格词典进行匹配，确定其与规格同义词表中的装量规格单位同义词“g”相匹配，因此将“0.15g”从该预处理药品信息字符串中切分出来作为规格字符串。

步骤S14，基于词典集，从所述预处理药品信息字符串的剩余字符中切分出第一类型子字符串和/或第二类型子字符串。

其中，词典集包括若干词条。对所述预处理药品信息字符串的剩余字符切分出的第一类型子字符串、第二类型子字符串具有独立语义，即所表示的信息不受其之前或之后的字符影响，且第一类型子字符串能够与词典集中的词条直接匹配，第二类型子字符串不能够与词典集中的词条直接匹配。

词典集中的词条来自于通用名称词典、商品名称词典、产品名称词典、给药途径词典、剂型词典、生产厂家词典、包材词典，或者说，词典集由通用名称词典、商品名称词典、产品名称词典、给药途径词典、剂型词典、生产厂家词典、包材词典组成。

由于第一类型子字符串能够与词典集中的词条直接匹配，因此第一类型子字符串可能是以下各项中的任意一项：标准通用名称、通用名称同义词、标准商品名称、商品名称同义词、标准产品名称、产品名称同义词、标准药途径、给药途径同义词、标准剂型术语、剂型同义词、标准生产厂家名称、生产厂家名称同义词、标准包材名称、包材名称同义词。

该步骤的目的是将药品信息切分成具有独立语义的子字符串，以有效避免将具有关联关系的多个字符分别进行识别从而导致识别错误的问题。

下文将以实施例一详细介绍步骤S14的具体实施方式。

步骤S15，对第二类型子字符串和词典集中的词条进行解析，得到第二类型子字符串的解析结果，以及对词典集中每个词条的解析结果；并通过将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配，查找第二类型子字符串相匹配的一个或多个词条。

本步骤的目的是对第二类型子字符串进行模糊匹配。具体来说，对于第二类型子字符串，基于预设的若干维度对其进行解析，然后将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配，若匹配成功，则将这类词条确定为第二类型子字符串相匹配的词条，最终实现对药品信息中所有字符的识别。

下文将以实施例二详细介绍步骤S15(对第二类型子字符串进行模糊匹配)的具体实施方式。

步骤S16，输出规格字符串、包装规格字符串及其词条属性，以及输出第一类型子字符串、第二类型子字符串相匹配的词条及其词条属性。其中，词条属性与词条所属的词典一一对应，各个词典具有预先设定的词条属性。

如表19表示词条属性及词典类型之间的对应关系。

表19

词条属性	词典类型
		通用名称	通用名称词典
商品名称	商品名称词典
		产品名称	产品名称词典
给药途径	给药途径词典
		剂型	剂型词典
生产厂家	生产厂家词典
		包材	包材词典
规格	规格词典
		包装规格	包装规格词典

根据表1至表18可知，各个词典中的词条分为两种类型，分别是标准型和同义词型，表20表示了各个词典中的标准型词条和同义词型词条。

表20

考虑到同义词型词条并非是医疗领域通用的药品术语，而标准型词条才是医疗领域通用的药品术语，为了便于后续能方便、有效地利用上述自然语言处理结果，可选地，该步骤可以按照如下规则执行：判断第一类型子字符串、第二类型子字符串相匹配的词条是标准型词条还是同义词型词条；如果第一类型子字符串、第二类型子字符串相匹配的词条为标准型词条，则直接输出该标准型词条；如果第一类型子字符串、第二类型子字符串相匹配的本体为同义词型词条，则输出与该同义词型词条具有同义关系(别名、俗称、英文缩写、错别字、曾用名等)的标准型词条。

可选地，本发明示例性方法还可以输出第一类型子字符串、第二类型子字符串。例如，后续可以通过分析第一类型子字符串、第二类型子字符串以及原始的药品信息字符串的语义，判断对药品信息字符串进行自然语言处理时字符串的切分准确程度。

需要说明的是，“第一类型子字符串”是能够与词典集中的词条直接匹配的字符组合，可以直接输出，属于本发明示例性方法的精确匹配结果，而“第二类型子字符串”是不能够与词典集中的词条直接匹配的字符组合，需要进行模糊匹配，输出模糊匹配的结果。

本发明示例性方法的药品信息的自然语言处理方法，充分考虑了医疗从业人员输入的药品信息的各种特点(如采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂无关符号等杂乱信息等)，利用预先建立的多种词典对药品信息字符串进行切分和匹配，将药品信息分类识别出来，并以医疗领域的标准形式分类输出精确匹配的词条，对于没有直接匹配的词条的字符，采用模糊匹配的方式对其进行识别，并以模糊匹配出的词条作为识别结果，最后将识别结果以医疗领域的标准形式分类输出模糊匹配的词条。通过上述技术手段，本发明可实现对带符号、数字和汉字的药品信息字符串的识别，并克服了现有技术无法顺利实现对药品信息进行自然与演化处理的问题，提升了药品信息的识别成功率，为有效利用药品信息提供了便利。

实施例一

参见图3所示，为本发明示例性方法中步骤S14的一实施方式示例。

如图3所示，基于词典集，将所述预处理药品信息字符串的剩余字符切分成第一类型子字符串和/或第二类型子字符串的过程可以包括：

步骤S20，判断所述预处理药品信息字符串的剩余字符中是否包含符号；如果包含符号，则执行步骤S21；如果未包含符号，则执行步骤S22。

步骤S21，将所述预处理药品信息字符串的剩余字符中每相邻两个符号之间的字符作为整体与词典集中的词条进行匹配；若匹配成功，则执行步骤S211；若匹配失败，则执行步骤S212。

步骤S211，将该相邻两个符号之间的字符切分出来作为第一类型子字符串。

步骤S212，将该相邻两个符号及其之间的字符确定为暂不切分字符串，然后执行步骤S23。

步骤S21、步骤S211、步骤S212依据的处理规则是：将相邻符号之间的全部字符作为整体与词典集中的词条进行匹配，只有匹配时才切分，否则暂时不予切分。

例如表21所示对“(立普妥)阿托伐他汀钙片(片剂)”的切分，其中，“立普妥”、“阿托伐他汀钙片”、“片剂”均为符号之间的全部字符，并且可以查找到相匹配的词条，因此，分别被切分出来。

表21

步骤S22，采用机械分词法将所述预处理药品信息字符串的剩余字符与词典集中的词条进行匹配；若预处理药品信息字符串中剩余的所有字符均能够与词条匹配，则执行步骤S221；若所述预处理药品信息字符串的剩余字符中存在未能与词条匹配的单个字符或多个连续的字符，则执行步骤S222。

步骤S221，依据所匹配的词条将所述预处理药品信息字符串的剩余字符切分出来作为第一类型子字符串。

步骤S222，将所述预处理药品信息字符串的剩余字符整体切分出来作为第二类型子字符串。

步骤S22、步骤S221、步骤S222依据的处理规则是：采用机械分词法将所述预处理药品信息字符串的剩余字符与词条进行匹配，只有全部字符都能查找到相匹配的词条时才切分，否则暂时不予切分。

例如对“诺和龙瑞格列奈片”进行切分，其中“诺和龙”、“瑞格列奈片”均能查找到相匹配的词条，即全部字符都能查找到相匹配的词条，因此对其予以切分，切分结果为“诺和龙”和“瑞格列奈片”。

步骤S22采用的机械分词法可以是正向最大匹配型，逆向最大匹配型，或最少切分型。具体的切分过程，本实施例不再赘述。

步骤S23，判断暂不切分字符串中是否包含预设的特殊符号；如果暂不切分字符串中包含特殊符号，则执行步骤S231；如果暂不切分字符串中不包含特殊符号，则执行步骤S233。

步骤S231，查找暂不切分字符串所属的字符模型，并根据该所属的字符模型对应的切分规则对暂不切分字符串进行切分；其中，字符模型由一预先建立的字符模型库提供，且字符模型具有一一对应的切分规则。

步骤232，将切分出来的字符与词典集中的词条进行匹配，若匹配成功，则将该切分出来的字符确定为第一类型子字符串，若匹配失败，则将该切分出来的字符确定为第二类型子字符串；

步骤S233，将暂不切分字符串直接确定为第二类型子字符串。

步骤S23、步骤S231、步骤232、步骤S233依据的处理规则是：当暂不切分字符串中包含预设的特殊符号时，根据暂不切分字符串所属的字符模型进行切分，否则直接切分出来；而且将基于字符模型切分出的字符再次与词典集中的词条进行匹配，将其中能够与词条直接匹配的作为第一类型子字符串，不能够直接匹配的作为第二类型子字符串。

例如预设的特殊符号可以包括但不限于竖线、括号、逗号、顿号、句号、冒号、加号、分号、斜杠线等等。

例如以下为字符模型库中的部分字符模型及其切分规则：

(1)字符模型：BCDE型，且C、E为括号，B、D为文字；

切分规则：将B、D切分出来；

(2)字符模型：FGH型，且F、H均为汉字，G为竖线；

切分规则：将F、H作为切分出来；

(3)字符模型：IJK型，且I、K均为汉字，J为分号、句号、问号、叹号、顿号，切

分规则：将I和K分别切分出来；

(4)字符模型：STU型，T为斜杠线，且S、U均无法与词典匹配成功；

切分规则：将STU作为整体切分出来。

以下为几个根据字符模型进行切分的示例：

原始字符串“巨和粒(山东齐鲁)”，符合字符模型BCDE型，因此切分为“巨和粒”、“山东齐鲁”。

原始字符串“奥美拉唑镁肠溶片∣洛赛克MUPS”，符合字符模型FGH型，因此切分为“奥美拉唑镁肠溶片”，“洛赛克MUPS”。

原始字符串“美沙拉桑缓释颗粒剂、艾迪莎”，符合字符模型IJK型，因此切分为“美沙拉桑缓释颗粒剂”，“艾迪莎”。

原始字符串“B型嗜血菌/乙型肝炎疫苗”，符合字符模型STU型，因此切分为“B型嗜血菌/乙型肝炎疫苗”。

实施例二

参见图4所示，为本发明示例性方法中步骤S15(对第二类型子字符串进行模糊匹配)的一实施方式示例。

如图4所示，查找第二类型子字符串相匹配的词条的过程可以包括：

步骤S31，对第二类型子字符串和词典集中的每个词条进行预设维度的解析，得到第二类型子字符串的各个维度的解析结果，以及词典集中每个词条的各个维度的解析结果。

该步骤将第二类型子字符串和本体分别作为解析对象，可选地，对解析对象进行预设维度的解析可以包括但不限于：

(1)确定解析对象中的每个汉字；

(2)确定解析对象中每个汉字的声母；

(3)确定解析对象中每个汉字的韵母；

(4)确定解析对象的首字符；

(5)确定解析对象的首字符的拼音；以及，

(6)确定解析对象中的非汉字字符，如果其中不包含非汉字字符，则该项解析结果为空。

当解析对象为第二类型子字符串时，其各个维度的解析结果可以包括但不限于：第二类型子字符串中的每个汉字、第二类型子字符串中每个汉字的声母、第二类型子字符串中每个汉字的韵母、第二类型子字符串的首字符、第二类型子字符串的首字符的拼音、第二类型子字符串中的非汉字字符。

当解析对象为词条时，解析结果可以包括但不限于：词条中的每个汉字、词条中每个汉字的声母、词条中每个汉字的韵母、词条的首字符、词条的首字符的拼音、词条的非汉字字符。

例如，表22为第二类型子字符串“尼莫地平”的解析结果。

表22

步骤S32，按照如下公式计算第二类型子字符串与每个词条的相似度：

M = \underset{\begin{matrix} t & i n & q \end{matrix}}{Σ} (t f (\begin{matrix} t & i n & q \end{matrix}) \cdot i d f {(t)}^{2} \cdot t . g e t B o o s t () \cdot n o r m (t, d))

其中，M表示相似度；

t表示第二类型子字符串的各个维度的解析结果；

q表示第二类型子字符串；

tinq表示第二类型子字符串的各个维度；

d表示词条；

tf(tind)表示在相同的维度上，第二类型子字符串的解析结果与词条的解析结果相匹配的频次；

其中，T表示词典集中词条的总数，T(t)表示各个维度的解析结果均与第二类型子字符串的各个维度的解析结果相匹配的词条的总数；

t.getBoost()表示各个维度的预设权值；

norm(t,d)表示词条的长度归一化因子；

其中，解析对象的各个维度分别是：每个汉字、每个汉字的声母、每个汉字的韵母、首字符、首字符的拼音、非汉字字符。

步骤S33，根据第二类型子字符串与各个词条的相似度，确定一个或多个词条作为第二类型子字符串相匹配的词条。

可选地，该步骤可以有如下的具体实施方式：按照与第二类型子字符串的相似度的大小对全部词条排序，并将其中排序靠前的预设数量的(例如为排序靠前的10个)词条确定为第二类型子字符串相匹配的词条；或者，将与第二类型子字符串的相似度达到预设阈值(例如为相似度大于0.9)的一个或多个词条，确定为第二类型子字符串相匹配的词条。

具体实施本发明时，为了明确第二类型子字符串与每一个相匹配的词条的相似度并对其加以利用，还可以在最终输出的结果中一并输出第二类型子字符串与其相匹配的各个词条的相似度。例如，输出第二类型子字符串与各个相匹配的词条的相似度，然后可以根据相似度的大小，通过人工方式从中再选出一个作为第二类型子字符串相匹配的词条。

具体实施本发明时，如果对第二类型子字符串与词条相似程度的计算有更高、更准确的要求，则还可以计算第二类型子字符串与其相匹配的各个词条的总置信度。其中，总置信度按照如下过程计算：

步骤(1)，确定第二类型子字符串中的每个汉字。

步骤(2)，按照如下公式计算第二类型子字符串与其相匹配的各个词条的余弦置信度：

N = \frac{Σ_{j = 1}^{V} w_{Q, j} \times w_{d^{'}, j}}{\sqrt{Σ_{j = 1}^{V} {w_{Q, j}}^{2} \times Σ_{j = 1}^{V} {w_{d^{'}, j}}^{2}}}

其中，N表示余弦置信度；

V表示第二类型子字符串及其相匹配的词条所包含的汉字总数；

Q表示第二类型子字符串；

d'表示与第二类型子字符串相匹配的词条；

w_Q,j表示每个汉字在第二类型子字符串中出现的频次；

w_d',j表示每个汉字在第二类型子字符串相匹配的词条中出现的频次；

j表示第二类型子字符串及其相匹配的词条所包含的汉字的序号。

步骤(3)，按照如下公式计算第二类型子字符串与其相匹配的各个词条的总置信度：

S＝M×a+N×b

其中，S表示总置信度；

a表示相似度M对应的预设权值；

b表示余弦置信度N对应的预设权值，其中b＝1-a。

例如，假设第二类型子字符串“尼莫地平注射液”的一个相匹配的本体为“尼莫地平”，其中每个汉字的出现频次如表23所示。

表23

则根据余弦置信度计算公式计算出第二类型子字符串“尼莫地平注射液”与本体“尼莫地平”的余弦置信度为：

\begin{matrix} N = \frac{Σ_{j = 1}^{V} w_{Q, j} \times w_{d^{'}, j}}{\sqrt{Σ_{j = 1}^{V} {w_{Q, j}}^{2} \times Σ_{j = 1}^{V} {w_{d^{'}, j}}^{2}}} \\ = \frac{(1 \times 1) + (1 \times 1) + (1 \times 1) + (1 \times 1) + (1 \times 0) + (1 \times 0) + (1 \times 0)}{\sqrt{(1^{2} + 1^{2} + 1^{2} + 1^{2} + 1^{2} + 1^{2} + 1^{2}) \times (1^{2} + 1^{2} + 1^{2} + 1^{2} + 0 + 0 + 0)}} \\ = 0.75 \end{matrix}

根据公式

M = \underset{\begin{matrix} t & i n & q \end{matrix}}{Σ} (t f (\begin{matrix} t & i n & q \end{matrix}) \cdot i d f {(t)}^{2} \cdot t . g e t B o o s t () \cdot n o r m (t, d))

计算出相似度M＝0.92。

根据总置信度计算公式S＝M×a+N×b计算出“尼莫地平注射液”与“注射用尼莫地平”的总置信度为S＝M×a+N×b＝0.92×40％+0.75×60％＝0.82。

实施例三

本实施例对一具体的药品信息进行自然语言处理。

药品信息字符串为：

H▲注射用盐酸伊立替康|◆艾力40mg1只(成都)江苏恒瑞水针

按照如下步骤对该药品信息进行自然语言处理：

步骤(1)，输入以上该药品信息字符串。

步骤(2)，对该药品信息字符串中的非汉字进行格式归一化处理；并根据无关字符词典删除药品信息字符串中的无关字符▲◆，得到预处理药品信息字符串“H注射用盐酸伊立替康|艾力40mg1只(成都)江苏恒瑞水针”。

步骤(3)，判断以上预处理药品信息字符串中存在数字“40”和“1”，基于规格词典和包装规格词典，从以上预处理药品信息字符串中切分出规格字符串“40mg”和包装规格字符串“1只”，所述预处理药品信息字符串的剩余字符为：“H注射用盐酸伊立替康|艾力(成都)江苏恒瑞水针”。

步骤(4)，基于词典集，将以上所述预处理药品信息字符串的剩余字符切分成第一类型子字符串“艾力”、“(成都)江苏恒瑞”、“水针”，和第二类型子字符串“注射用盐酸伊立替康”。

步骤(5)，输出第一类型子字符串“艾力”、“(成都)江苏恒瑞”、“水针”，以及输出第二类型子字符串“注射用盐酸伊立替康”。

步骤(6)，对第二类型子字符串“注射用盐酸伊立替康”进行解析，查找出第二类型子字符串相匹配的多个词条分别为“盐酸伊立替康”、“伊立替康”、“康艾注射液”、“痹痛立康酊”。

步骤(7)，输出规格字符串“40mg”，包装规格字符串“1只”，第一类型子字符串相匹配的词条“艾力”、“(成都)江苏恒瑞”、“水针”，第二类型子字符串匹配的词条“盐酸伊立替康”、“伊立替康”、“康艾注射液”、“痹痛立康酊”以及各个词条的词条属性，如下表24所示。其中，“1只”是“1支”的错别字；“(成都)江苏恒瑞”是生产厂家名称同义词，属于同义词型词条，其对应的标准型词条为“(成都)江苏恒瑞制药”；“水针”是剂型同义词，属于同义词型词条，其对应的标准型词条为“注射液”，表24中输出的是标准型词条。

表24

实施例四

本实施例对另一具体的药品信息进行自然语言处理。

药品信息字符串为：

(立普妥)阿托伐他汀钙片20mg*7片

按照如下步骤对该药品信息进行自然语言处理：

步骤(1)，输入以上药品信息字符串。

步骤(2)，对该药品信息字符串中的非汉字进行格式归一化处理；并根据无关字符词典删除药品信息字符串中的无关字符*，得到预处理药品信息字符串“(立普妥)阿托伐他汀钙片20mg7片”。

步骤(3)，判断以上预处理药品信息字符串中存在数字“20”和“7”，基于规格词典和包装规格词典，从以上预处理药品信息字符串中切分出规格字符串“20mg”和包装规格字符串“7片”，所述预处理药品信息字符串的剩余字符为：“(立普妥)阿托伐他汀钙片”。

步骤(4)，基于词典集，对以上所述预处理药品信息字符串的剩余字符进行切分，切分出第一类型子字符串“立普妥”、“阿托伐他汀钙片”，无第二类型子字符串。

步骤(5)，输出规格字符串“20mg”，包装规格字符串“7片”，第一类型子字符串相匹配的词条“立普妥”、“阿托伐他汀钙片”以及各个词条的词条属性，如下表25所示。

表25

示例性系统一

以下结合图1的应用场景，参考图5，介绍本发明的一种示例性系统，该示例性系统与示例性方法相对应。

图5所示为本发明一种示例性的药品信息的自然语言处理系统的框图，如图5所示，该药品信息的自然语言处理系统包括：

词典数据库401，提供规格词典、包装规格词典和词典集。其中，规格词典、包装规格词典和词典集的具体信息请参考示例性方法，此处不再赘述。

输入模块402，用于输入药品信息字符串。

预处理模块403，用于对药品信息字符串进行预处理，得到预处理药品信息字符串；

第一切分模块404，用于基于规格词典和包装规格词典，从预处理药品信息字符串中切分出规格字符串和包装规格字符串。其中，规格字符串表示药品的规格信息；包装规格字符串表示药品的包装规格信息。

第二切分模块405，用于基于词典集，从预处理药品信息字符串的剩余字符中切分出若干第一类型子字符串和/或第二类型子字符串。其中，第一类型子字符串能够与词典集中的词条直接匹配，第二类型子字符串不能够与词典集中的词条直接匹配；

模糊匹配模块406，用于基于若干预设的维度，对第二类型子字符串，以及词典集中的词条进行解析，得到第二类型子字符串的解析结果，以及对词典集中每个词条的解析结果；并通过将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配，查找第二类型子字符串相匹配的一个或多个词条。

输出模块407，用于输出规格字符串、包装规格字符串及其对应的词条属性，以及输出第一类型子字符串、第二类型子字符串相匹配的词条及其对应的词条属性。

其中，词条的词条属性划分可参考示例性方法，此处不再赘述。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrativecomponents)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元，或装置都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

Claims

1.一种药品信息的自然语言处理方法，包括：

步骤1，输入药品信息字符串；

步骤4，基于预设的词典集，从所述预处理药品信息字符串的剩余字符中切分出若干第一类型子字符串和/或第二类型子字符串；其中，所述词典集由多个词典组成，所述多个词典包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条；所述第一类型子字符串能够与所述词典集中的词条直接匹配，所述第二类型子字符串不能够与所述词典集中的词条直接匹配；

2.根据权利要求1所述的药品信息的自然语言处理方法，其中，

所述规格词典包括如下类型的词条：标准装量规格单位、标准成分规格单位、装量规格单位同义词、成分规格单位同义词；

所述标准装量规格单位为药品最小制剂单位的重量或装量；

所述标准成分规格单位为药品最小制剂单位中含有效成分的剂量或效价；

所述装量规格单位同义词是所述标准装量规格单位的别名、俗称、英文缩写或错别字；

所述成分规格单位同义词是所述标准成分规格单位的别名、俗称、英文缩写或错别字；

所述包装规格词典包括如下类型的词条：标准制剂最小单位、标准包装规格单位、制剂最小单位同义词、包装规格单位同义词；

所述标准制剂最小单位为药品的最小制剂单位；

所述标准包装规格单位为药品的最小包装单位；

所述制剂最小单位同义词是所述标准制剂最小单位的别名、俗称、英文缩写或错别字；

所述包装规格单位同义词是所述标准包装规格单位的别名、俗称、英文缩写或错别字；

所述词典集包括通用名称词典、商品名称词典、产品名称词典、给药途径词典、剂型词典、生产厂家词典、包材词典；

所述通用名称词典包括如下类型的词条：标准通用名称、通用名称同义词；

所述标准通用名称是中国药品通用名称；

所述通用名称同义词是标准通用名称的别名、俗称、英文缩写或错别字；

所述商品名称词典包括如下类型的词条：标准商品名称、商品名称同义词；

所述标准商品名称是国家食品药品监督管理总局CFDA对药品公布的商品名信息以及生产厂家官方文件、药品说明书中的商品名信息；

所述商品名称同义词是所述标准商品名称的别名、俗称、英文缩写或错别字；

所述产品名称词典包括如下类型的词条：标准产品名称、产品名称同义词；

所述标准产品名称是CFDA公布的药品产品名称信息；

所述产品名称同义词是标准产品名称的别名、俗称、英文缩写或错别字；

所述给药途径词典包括如下类型的词条：标准给药途径术语、给药途径同义词；

所述标准给药途径术语是药品的解剖学、治疗学及化学分类系统ATC中规定的给药途径；

所述给药途径同义词是所述标准给药途径术语的别名、俗称、英文缩写或错别字；

所述剂型词典包括如下类型的词条：标准剂型术语、剂型同义词；

所述标准剂型术语包括：根据《中国药典》的制剂通则对CFDA公布的药品注册剂型进行化处理后的药品剂型，以及，在国家医保目录中但无法在CFDA查询到相关注册信息的、按照国家医保目录剂型确定的医保剂型；

所述剂型同义词是与所述标准剂型术语的别名、俗称、英文缩写、错别字或子类型；

所述生产厂家词典包括如下类型的词条：标准生产厂家名称、生产厂家名称同义词；

所述标准生产厂家名称是CFDA公布的药品生产企业信息、生产厂商的中文信息或英文信息；

所述生产厂家名称同义词是所述标准生产厂家名称的缩略语或英文名称、曾用名；

所述包材词典包括如下类型的词条：标准包材名称、包材名称同义词；

所述标准包材名称是CFDA公布的药品包材；

所述包材名称同义词是所述标准包材名称的别名、俗称或英文缩写；

所述规格字符串、所述包装规格字符串对应的词条属性分别为规格、包装规格；

所述第一类型子字符串、第二类型子字符串相匹配的词条属于通用名称词典时，对应的词条属性为通用名称；

所述第一类型子字符串、第二类型子字符串相匹配的词条属于商品名称词典时，对应的词条属性为商品名称；

所述第一类型子字符串、第二类型子字符串相匹配的词条属于产品名称词典时，对应的词条属性为产品名称；

所述第一类型子字符串、第二类型子字符串相匹配的词条属于给药途径词典时，对应的词条属性为给药途径；

所述第一类型子字符串、第二类型子字符串相匹配的词条属于剂型词典时，对应的词条属性为剂型；

所述第一类型子字符串、第二类型子字符串相匹配的词条属于生产厂家词典时，对应的词条属性为生产厂家；

所述第一类型子字符串、第二类型子字符串相匹配的词条属于包材词典时，对应的词条属性为包材。

3.根据权利要求1所述的药品信息的自然语言处理方法，其中，所述步骤2包括：

对所述药品信息字符串中的非汉字进行格式归一化处理，并删除所述药品信息字符串中的无关字符，得到所述预处理药品信息字符串；

其中，所述无关字符由一预先建立的无关字符词典提供。

4.根据权利要求1所述的药品信息的自然语言处理方法，其中，所述步骤3包括：

判断所述预处理药品信息字符串中是否存在数字；

如果所述预处理药品信息字符串中存在数字，将该数字之后紧邻的字符串与所述规格词典和所述包装规格词典中的词条进行匹配；

若匹配成功的词条是来自于所述规格词典，则将该数字及其之后紧邻的能够与所述规格词典中的词条相匹配的字符串切分出来作为所述规格字符串；

若匹配成功的词条是来自于所述包装规格词典，则将该数字及其之后紧邻的能够与所述包装规格词典中的词条相匹配的字符串切分出来作为所述包装规格字符串；

如果所述预处理药品信息字符串中不存在数字，则直接执行所述步骤4。

5.根据权利要求1所述的药品信息的自然语言处理方法，其中，所述步骤4包括：

判断所述预处理药品信息字符串的剩余字符中是否包含符号；

如果所述预处理药品信息字符串的剩余字符中包含符号，则将所述预处理药品信息字符串的剩余字符中每相邻两个符号之间的字符作为整体与所述词典集中的词条进行匹配；

若所述预处理药品信息字符串的剩余字符中相邻两个符号之间的字符作为整体与所述词典集中的词条匹配成功，则将该相邻两个符号之间的字符切分出来作为第一类型子字符串；

若所述预处理药品信息字符串的剩余字符中相邻两个符号之间的字符作为整体与所述词典集中的词条匹配失败，将该相邻两个符号及其之间的字符确定为暂不切分字符串；

如果所述预处理药品信息字符串的剩余字符中未包含符号，则采用机械分词法将所述预处理药品信息字符串的剩余字符与所述词典集中的词条进行匹配；

若所述预处理药品信息字符串中剩余的所有字符均能够与词条匹配，则依据所匹配的词条将所述预处理药品信息字符串的剩余字符切分出来作为第一类型子字符串；

若所述预处理药品信息字符串的剩余字符中存在未能与词条匹配的单个字符或多个连续的字符，则将所述预处理药品信息字符串的剩余字符整体切分出来作为第二类型子字符串；

判断所述暂不切分字符串中是否包含预设的特殊符号；

如果所述暂不切分字符串中包含预设的特殊符号，则查找所述暂不切分字符串所属的字符模型，并根据该所属的字符模型对应的切分规则对所述暂不切分字符串进行切分，并将切分出来的字符与所述词典集中的词条进行匹配；

若对所述暂不切分字符串切分出来的字符与所述词典集中的词条匹配成功，则将该切分出来的字符确定为第一类型子字符串；

若对所述暂不切分字符串切分出来的字符与所述词典集中的词条匹配失败，则将该切分出来的字符确定为第二类型子字符串；

如果所述暂不切分字符串中未包含预设的特殊符号，则将所述暂不切分字符串直接确定为第二类型子字符串。

6.根据权利要求5所述的药品信息的自然语言处理方法，其中，所述机械分词法为正向最大匹配型，或逆向最大匹配型，或最少切分型。

7.根据权利要求1所述的药品信息的自然语言处理方法，其中，所述步骤5包括：

对所述第二类型子字符串和所述词典集中的每个词条进行预设维度的解析，得到所述第二类型子字符串的各个维度的解析结果，以及所述词典集中每个词条的各个维度的解析结果；

按照如下公式计算所述第二类型子字符串与每个词条的相似度：

M = \underset{\begin{matrix} t & i n & q \end{matrix}}{Σ} (t f (\begin{matrix} t & i n & q \end{matrix}) \cdot i d f {(t)}^{2} \cdot t . g e t B o o s t () \cdot n o r m (t, d))

其中，M表示相似度；

t表示第二类型子字符串的各个维度的解析结果；

q表示第二类型子字符串；

tinq表示第二类型子字符串的各个维度；

d表示词条；

t.getBoost()表示各个维度的预设权值；

norm(t,d)表示词条的长度归一化因子；

根据所述第二类型子字符串与各个词条的相似度，确定一个或多个词条作为所述第二类型子字符串相匹配的词条。

8.根据权利要求7所述的药品信息的自然语言处理方法，其中，所述第二类型子字符串\所述词条的各个维度的解析结果包括：

所述第二类型子字符串\所述词条的每个汉字；

所述第二类型子字符串\所述词条的每个汉字的声母；

所述第二类型子字符串\所述词条的每个汉字的韵母；

所述第二类型子字符串\所述词条的首字符；

所述第二类型子字符串\所述词条的首字符的拼音；以及，

所述第二类型子字符串\所述词条中的非汉字字符。

9.根据权利要求7所述的药品信息的自然语言处理方法，其中，所述根据所述第二类型子字符串与各个词条的相似度，确定一个或多个词条作为所述第二类型子字符串相匹配的词条的步骤，包括：

按照与所述第二类型子字符串的相似度的大小对全部词条排序，并将其中排序靠前的预设数量的词条确定为第二类型子字符串相匹配的词条；

或者，

将与所述第二类型子字符串的相似度达到预设阈值的一个或多个词条，确定为所述第二类型子字符串相匹配的词条。

10.根据权利要求7所述的药品信息的自然语言处理方法，其中，所述步骤5还包括：

输出所述第二类型子字符串与其相匹配的各个词条的相似度。

11.根据权利要求7所述的药品信息的自然语言处理方法，其中，所述步骤5还包括：

输出所述第二类型子字符串与其相匹配的各个词条的总置信度；其中，所述总置信度的计算过程如下：

确定所述第二类型子字符串中的每个汉字；

按照如下公式计算所述第二类型子字符串与其相匹配的各个词条的余弦置信度：

N = \frac{Σ_{j = 1}^{V} w_{Q, j} \times w_{d^{'}, j}}{\sqrt{Σ_{j = 1}^{V} {w_{Q, j}}^{2} \times Σ_{j = 1}^{V} {w_{d^{'}, j}}^{2}}}

其中，N表示余弦置信度；

Q表示第二类型子字符串；

d'表示与第二类型子字符串相匹配的词条；

w_Q,j表示每个汉字在第二类型子字符串中出现的频次；

j表示第二类型子字符串及其相匹配的词条所包含的汉字的序号；

按照如下公式计算所述第二类型子字符串与其相匹配的各个词条的总置信度：

S＝M×a+N×b

其中，S表示总置信度；

a表示相似度M对应的预设权值；

b表示余弦置信度N对应的预设权值，且b＝1-a。

12.根据权利要求2所述的药品信息的自然语言处理方法，其中，所述步骤6包括：

判断所述第一类型子字符串、所述第二类型子字符串相匹配的词条是标准型词条还是同义词型词条；

如果所述第一类型子字符串、所述第二类型子字符串相匹配的词条是标准型词条，则直接输出该标准型词条；

如果所述第一类型子字符串、所述第二类型子字符串相匹配的词条是同义词型词条，则输出与该同义词型词条具有同义关系的标准型词条；

其中，所述标准型词条是如下类型的词条：标准通用名称、标准商品名称、标准产品名称、标准给药途径术语、标准剂型术语、标准生产厂家名称、标准包材名称；

所述同义词型词条是如下类型的词条：通用名称同义词、商品名称同义词、产品名称同义词、给药途径同义词、剂型同义词、生产厂家名称同义词、包材名称同义词。

13.根据权利要求1所述的药品信息的自然语言处理方法，其中，所述步骤6还包括：输出所述第一类型子字符串和/或所述第二类型子字符串。

14.一种药品信息的自然语言处理系统，包括：