CN103678262A

CN103678262A - 一种文本处理方法和文本处理装置

Info

Publication number: CN103678262A
Application number: CN201310741364.0A
Authority: CN
Inventors: 金以东
Original assignee: SMS Siemag Technology Beijing Co Ltd
Current assignee: SMS Siemag Technology Beijing Co Ltd
Priority date: 2013-12-27
Filing date: 2013-12-27
Publication date: 2014-03-26

Abstract

本发明公开了一种文本处理方法和一种文本处理装置，文本处理方法包括以下步骤：S100、使用语义标准化表、第一标准库和第二标准库生成关联对照表；其中，所述语义标准化表的表项分别包括普通术语和对应的标准化术语；S200、使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作，得到经标准化处理的文本；S300、判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配，若是则执行步骤S400，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200；S400、利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本，代替所述经标准化处理的文本和/或编码。

Description

一种文本处理方法和文本处理装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种适于实现文本在不同标准之间自动转换的文本处理方法和文本处理装置。

背景技术

目前由于各行业内部的不同机构使用的标准往往不统一，需要实现文本在不同标准之间自动的转换。

以医疗系统为例进行说明，基本医疗保险结算单数据中的医学术语普遍存在术语标准各异、表述多样、术语标准覆盖不全面的情况，为信息的处理和应用带来了极大障碍。

现有技术的医疗机构将医疗文本“术语标准化”都是通过“码对码”转换实现的。例如，医保局要求医院上传申报数据时，须上传医保标准库中的医保码，这就要求医院向医保局申报之前，需要将自己医院信息系统（即本地系统）中的数据与医保局标准数据库中数据建立映射关系。

以某一药品为例，表（一）为医院的信息系统数据库中的术语，表（二）为医保标准库中的术语；反映了同一术语在不同标准中的表现形式不同，现有的方法是通过编码匹配使得使用两种标准的使用者都能够获知术语的含义的。

表（一）

药品名称	生产厂家	剂型	规格	包装规格
					阿莫西林胶囊	香港澳美	胶囊	0.5g	20粒/盒

表（二）

药品名称	商品名名称	剂型	规格	包装规格
					阿莫西林	阿莫灵(香港澳美制药厂)	胶囊	0.5g	20粒/盒

假定“阿莫西林”在某医院的信息系统数据库中编码为001，则该医院会首先通过人工比对得知“阿莫西林”在医保局标准数据库中的编码为AAA；之后该医院直接在数据库中存储001和AAA的对应关系，以后在申报“阿莫西林”时，直接从数据库中获取“阿莫西林”在医保局标准数据库中的编码AAA，进行上报。

此类技术的缺点在于：在进行人工比对时，没有采取严格的质控措施，随意性较大，容易发生错误；一旦有一方的数据库或编码体系发生了变动、更新，就需要立即重新人工进行对码工作，否则会导致对应关系有误，工作量大，系统不易维护。而且，通过“码对码”转换实现的“术语标准化”，存在较大的人为因素，由于不同地域、不同部门、不同从业人员使用的标准体系不同，对于标准的理解和应用也不同，导致容易出现对码错误。而且随着技术的发展，经常会有溢出目前标准之外的新生术语产生。这些术语难以被编码，因此无法被计算机识别。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本处理方法和文本处理装置。

依据本发明的一个方面，提供了一种文本处理方法，包括以下步骤：S100、使用语义标准化表、第一标准库和第二标准库生成关联对照表；其中，所述语义标准化表的表项分别包括普通术语和对应的标准化术语；S200、使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作，得到经标准化处理的文本；S300、判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配，若是则执行步骤S400，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200；S400、利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本和/或编码，代替所述经标准化处理的文本。

较佳地，步骤S200，具体包括以下步骤：S202、将文本切分为词汇序列；S204、从所述词汇序列中识别并提取术语；S206、将所述术语与语义标准化表中的普通术语进行比对，使用匹配的表项所包括的标准化术语代替对应的术语，从而得到经标准化处理的文本。

较佳地，所述步骤S300，具体包括：将经标准化处理的文本中的各术语，分别与关联对照表中的标准化术语进行语义精确匹配，若所有的术语均能够精确匹配则执行步骤S400，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200。

较佳地，所述步骤S100，具体包括：S102、将第一标准库中的第一表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第一表项则通过配置新的表项而调整语义标准化表并再次将所述第一表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语；将第二标准库中的第二表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第二表项则通过配置新的表项而调整语义标准化表并再次将所述第二表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语；S104、将与相同标准化术语匹配的第一表项与第二表项建立关联，得到关联对照表的表项。

较佳地，所述文本为医疗文本；所述第一标准库为医疗机构的标准库；所述第二标准库为医疗管理机构的标准库。

根据本发明的另一方面，提供了一种文本处理装置，该文本处理装置包括：关联单元，适于使用语义标准化表、第一标准库和第二标准库生成关联对照表；其中，所述语义标准化表的表项分别包括普通术语和对应的标准化术语；文本标准化单元，适于使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作，得到经标准化处理的文本；语义匹配单元，适于判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配，若是则将匹配结果发送至文本替换单元，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表，并将匹配未成功的消息通知文本标准化单元；文本替换单元，适于利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本和/或编码，代替所述经标准化处理的文本。

较佳地，所述文本标准化单元，适于将文本切分为词汇序列；从所述词汇序列中识别并提取术语；以及将所述术语与语义标准化表中的普通术语进行比对，使用匹配的表项所包括的标准化术语代替对应的术语，从而得到经标准化处理的文本。

较佳地，所述语义匹配单元，适于将经标准化处理的文本中的各术语，分别与关联对照表中的表项的标准化术语进行语义精确匹配，若所有的术语均能够精确匹配则将匹配结果发送至文本替换单元，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表，并将匹配未成功的消息通知文本标准化单元，以由文本标准化单元对文本重新进行语义标准化操作。

较佳地，所述关联单元，适于将第一标准库中的第一表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第一表项则通过配置新的表项而调整语义标准化表并再次将所述第一表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语；将第二标准库中的第二表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第二表项则通过配置新的表项而调整语义标准化表并再次将所述第二表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语；以及将与相同标准化术语匹配的第一表项与第二表项建立关联，得到关联对照表的表项。

根据本发明的文本处理方法和文本处理装置，可以通过使用语义标准化表将第一标准库和第二标准库进行关联，因此，在其中的标准库发生改变时能够方便地通过生成新的关联对照表得到正确的关联；可以通过使用语义匹配取代编码匹配实现文本在不同标准之间自动的转换，错误率低；通过根据处理结果更新语义标准化表，使得语义标准化表能够根据工作历史进行更新，适用性更好。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的文本处理方法的流程图；

图2示出了图1之中步骤S100的详细的流程图；

图3示出了图1之中步骤S200的详细的流程图；

图4示出了根据本发明一个实施例的文本处理装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整地传达给本领域的技术人员。

本发明的技术构思主要在于，通过使用语义标准化表将第一标准库和第二标准库进行关联，因此，在其中的标准库发生改变时能够方便地通过生成新的关联对照表得到正确的关联；同时，使用语义标准化表将文本进行语义标准化操作，使得经标准化处理的文本中的标准化术语能够与关联对照表中的标准化术语匹配同时得到匹配的表项，进而利用所述匹配的表项所对应的第二标准库的术语替换经标准化处理的文本中的标准化术语，可以完成文本的转换而且使用第二标准库的使用者可以依据第二标准库清楚地了解转换后的文本的含义；本实施例的文本、第一标准库和第二标准库均通过语义标准化表转化为标准术语从而建立关联关系，语义匹配的开销小；可以通过使用语义匹配取代编码匹配实现文本在不同标准之间自动的转换，错误率低；通过根据处理结果更新语义标准化表，使得语义标准化表能够根据工作历史进行更新，适用性更好。

图1示出了根据本发明一个实施例的文本处理方法的流程图。本实施例的文本处理方法，包括以下步骤：

S100、使用语义标准化表、第一标准库和第二标准库生成关联对照表。其中，所述语义标准化表的表项分别包括普通术语和对应的标准化术语。具体地，关联对照表的表项表示第一标准库和第二标准库相应表项的对应关系，仍以药品为例，若语义标准化表的一表项包括普通术语“阿莫西林”和对应的标准化术语“阿莫西林胶囊”，另一表项包括普通术语“阿莫西林胶囊”和对应的标准化术语“阿莫西林胶囊”；则第一标准库中的“阿莫西林胶囊”和第二标准库中的“阿莫西林”作为普通术语时对应于语义标准化表中相同的标准化术语“阿莫西林胶囊”，则将第一标准库中的“阿莫西林胶囊”与第二标准库中的“阿莫西林”建立关联，得到关联对照表的表项，当然实际工程的普通术语和对应的标准化术语不以药品的名称为限，也可以是生产者、规格等等；本实施例中关联对照表的表项包括标准化术语、第一标准库的表项的信息和第二标准库的表项的信息。

S200、使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作，得到经标准化处理的文本。

S300、判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配，若是则执行步骤S400，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200。

本实施例中，步骤S300，具体包括：将经标准化处理的文本中的各术语，分别与关联对照表中的标准化术语进行语义精确匹配，若所有的术语均能够精确匹配则执行步骤S400，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200。换言之，经标准化处理的文本，若包括的术语仅为标准化术语，则所有的术语均能够精确匹配，若存在不能精确匹配的术语，则表示语义标准化表中不存在对应的术语，进而执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表。。

由步骤S200和步骤S300，将文本进行语义标准化，具体地，将文本中的术语替换为对应的标准化术语，如果存在新的术语，即文本中存在语义标准化表之中没有记录的术语，则步骤S300的精确匹配操作不成功，进而能够实现语义标准化表的更新。

S400、利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本和/或编码，代替所述经标准化处理的文本。

通过步骤S400，使用第二标准库的文本和/或编码，代替所述经标准化处理的文本，可以使得到的文本和/或编码适用于第二标准库，仍以药品为例，若文本中的术语为“阿莫西林”则经步骤S200所述的标准化处理得到的文本包括标准化术语“阿莫西林胶囊”，与这一标准化术语匹配的关联对照表中的表项对应于第二标准库的文本“阿莫西林胶囊”和编码“AAA”，则可以使用第二标准库的文本“阿莫西林胶囊”和/或编码“AAA”，代替经标准化处理的文本，则经步骤S400得到的结果能够被基于第二标准库的使用者或数据处理系统所使用，进一步地，仍以药品为例，经过步骤S100，基于医疗机构（医院）的标准库和医疗管理机构（医保局）的标准库生成关联对照表；经过步骤S200和S300，将医疗机构的文本进行标准化和与关联对照表中的表项进行语义精确匹配；经过步骤S400，得到医疗管理机构能够使用的结果。本实施例中，标准化术语与第二标准库的文本相同，然而本领域技术人员应知，实际工程中会出现标准化术语与第二标准库的文本不相同的实施例，在这种情况下本发明的方法同样适用。

图2示出了图1之中步骤S100的详细的流程图。步骤S100具体包括以下步骤S102和S104：

S102、将第一标准库中的第一表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第一表项则通过配置新的表项而调整语义标准化表并再次将所述第一表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语；将第二标准库中的第二表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第二表项则通过配置新的表项而调整语义标准化表并再次将所述第二表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语。

具体地，因为语义标准化表的表项分别包括普通术语和对应的标准化术语，因此将第一标准库中的各个表项分别与普通术语进行精确匹配得到匹配的标准化术语；同样，将第二标准库中的各个表项分别与普通术语进行精确匹配也会得到匹配的标准化术语。这一步骤采用语义匹配而非人工对码，错误率低。类似地，若语义标准化表中不存在于第一表项或第二表项精确匹配的普通术语，则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表，将第一表项或第二表项与更新后的语义标准表进行精确匹配即可。

S104、将与相同标准化术语匹配的第一表项与第二表项建立关联，得到关联对照表的表项。由于经过步骤S102，则第一表项与标准化术语匹配且第二表项与标准化术语匹配，选择与相同标准化术语匹配的第一表项与第二表项建立关联，即可以得到关联对照表的表项。例如，仍以药品为例，若一个第一表项中的术语为“阿莫西林”则经步骤S102得到匹配的标准化术语“阿莫西林胶囊”，若一个第二表项中的术语为“阿莫西林胶囊”则经步骤S102得到匹配的标准化术语“阿莫西林胶囊”，由于该第一表项和该第二表项与相同的标准化术语“阿莫西林胶囊”匹配，所以将该第一表项和该第二表项建立关联，得到关联对照表的表项。

通过以上所述的步骤S100，生成关联对照表，本实施例以两个标准库为例进行说明，然而本领域技术人员应知的是，实际工程中标准库的数目不以此为限。

由上所述，可知在第一标准库和/或第二标准库发生改变时，只要通过执行步骤S100生成新的关联对照表即可，修改量小，错误率低。

图3示出了图1之中步骤S200的详细的流程图。步骤S200具体包括以下步骤S202、S204和S206：

S202、将文本切分为词汇序列。由于文本中存在多个术语，将文本划分为词汇序列可以降低后续精确匹配操作的运算开销。

S204、从所述词汇序列中识别并提取术语。例如，可以提取特定术语，删除无关文本（例如，删除“温馨提示”等无关的文本内容）。

S206、将所述术语与语义标准化表中的普通术语进行比对，使用匹配的表项所包括的标准化术语代替对应的术语，从而得到经标准化处理的文本。

本领域技术人员应当了解，本实施例所述的方法尤其适用于但不限于医疗领域。较佳地，所述文本为医疗文本。所述第一标准库为医疗机构的标准库。所述第二标准库为医疗管理机构的标准库。

图4示出了根据本发明一个实施例的文本处理装置的框图。该文本处理装置包括关联单元100、文本标准化单元200、语义匹配单元300和文本替换单元400。

关联单元100，适于使用语义标准化表102、第一标准库104和第二标准库106生成关联对照表108。其中，语义标准化表102的表项分别包括普通术语和对应的标准化术语，图4所示的第二标准库106保存在本地，当然第二标准库106也可以不保存在本地而是通过网络实时读取。

文本标准化单元200，适于使用语义标准化表102对依据第一标准库104创建的文本进行语义标准化操作，得到经标准化处理的文本。

语义匹配单元300，适于判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配，若是则将匹配结果发送至文本替换单元，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表，并将匹配未成功的消息通知文本标准化单元。

文本替换单元400，适于利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本和/或编码，代替所述经标准化处理的文本。

具体地，文本标准化单元200，适于将文本切分为词汇序列；从所述词汇序列中识别并提取术语；以及将所述术语与语义标准化表102中的普通术语进行比对，使用匹配的表项所包括的标准化术语代替对应的术语，从而得到经标准化处理的文本。

具体地，语义匹配单元300，适于将经标准化处理的文本中的各术语，分别与关联对照表108中的表项的标准化术语进行语义精确匹配，若所有的术语均能够精确匹配则将匹配结果发送至文本替换单元400并由文本替换单元400完成利用第二标准库的文本代替经标准化处理的文本的操作，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表102，并将匹配未成功的消息通知文本标准化单元200，以由文本标准化单元200对文本重新进行语义标准化操作。

具体地，关联单元100，适于将第一标准库104中的第一表项与语义标准化表102的普通术语进行精确匹配，若存在不能精确匹配的第一表项则通过配置新的表项而调整语义标准化表102并再次将所述第一表项与经调整的语义标准化表102的普通术语进行精确匹配，从而得到匹配的标准化术语；将第二标准库106中的第二表项与语义标准化表102的普通术语进行精确匹配，若存在不能精确匹配的第二表项则通过配置新的表项而调整语义标准化表102并再次将所述第二表项与经调整的语义标准化表102的普通术语进行精确匹配，从而得到匹配的标准化术语；以及将与相同标准化术语匹配的第一表项与第二表项建立关联，得到关联对照表108的表项。

本领域技术人员应当了解，本实施例所述的装置尤其适用于但不限于医疗领域。所述文本为医疗文本；第一标准库104为医疗机构的标准库；第二标准库106为医疗管理机构的标准库。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。

Claims

1.一种文本处理方法，该方法包括以下步骤：

S100、使用语义标准化表、第一标准库和第二标准库生成关联对照表；其中，所述语义标准化表的表项分别包括普通术语和对应的标准化术语；

S200、使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作，得到经标准化处理的文本；

S300、判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配，若是则执行步骤S400，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200；

2.根据权利要求1所述的方法，其中，步骤S200，具体包括以下步骤：

S202、将文本切分为词汇序列；

S204、从所述词汇序列中识别并提取术语；

3.根据权利要求2所述的方法，其中，所述步骤S300，具体包括：

将经标准化处理的文本中的各术语，分别与关联对照表中的标准化术语进行语义精确匹配，若所有的术语均能够精确匹配则执行步骤S400，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表并返回步骤S200。

4.根据权利要求1所述的方法，其中，所述步骤S100，具体包括：

S102、将第一标准库中的第一表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第一表项则通过配置新的表项而调整语义标准化表并再次将所述第一表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语；将第二标准库中的第二表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第二表项则通过配置新的表项而调整语义标准化表并再次将所述第二表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语；

S104、将与相同标准化术语匹配的第一表项与第二表项建立关联，得到关联对照表的表项。

5.根据权利要求1至4任一项所述的方法，其中，

所述文本为医疗文本；所述第一标准库为医疗机构的标准库；所述第二标准库为医疗管理机构的标准库。

6.一种文本处理装置，其中，该文本处理装置包括：

关联单元，适于使用语义标准化表、第一标准库和第二标准库生成关联对照表；其中，所述语义标准化表的表项分别包括普通术语和对应的标准化术语；

文本标准化单元，适于使用语义标准化表对依据第一标准库创建的文本进行语义标准化操作，得到经标准化处理的文本；

语义匹配单元，适于判断经标准化处理的文本是否能够与关联对照表中的表项进行语义精确匹配，若是则将匹配结果发送至文本替换单元，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表，并将匹配未成功的消息通知文本标准化单元；

文本替换单元，适于利用与关联对照表中的所述匹配的表项相对应的第二标准库的文本和/或编码，代替所述经标准化处理的文本。

7.根据权利要求6所述的装置，其中，

所述文本标准化单元，适于将文本切分为词汇序列；从所述词汇序列中识别并提取术语；以及将所述术语与语义标准化表中的普通术语进行比对，使用匹配的表项所包括的标准化术语代替对应的术语，从而得到经标准化处理的文本。

8.根据权利要求7所述的装置，其中，

所述语义匹配单元，适于将经标准化处理的文本中的各术语，分别与关联对照表中的表项的标准化术语进行语义精确匹配，若所有的术语均能够精确匹配则将匹配结果发送至文本替换单元，否则进一步执行语义模糊匹配和/或人工匹配以及根据匹配结果更新语义标准化表，并将匹配未成功的消息通知文本标准化单元，以由文本标准化单元对文本重新进行语义标准化操作。

9.根据权利要求6所述的装置，其中，

所述关联单元，适于将第一标准库中的第一表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第一表项则通过配置新的表项而调整语义标准化表并再次将所述第一表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语；将第二标准库中的第二表项与语义标准化表的普通术语进行精确匹配，若存在不能精确匹配的第二表项则通过配置新的表项而调整语义标准化表并再次将所述第二表项与经调整的语义标准化表的普通术语进行精确匹配，从而得到匹配的标准化术语；以及将与相同标准化术语匹配的第一表项与第二表项建立关联，得到关联对照表的表项。

10.根据权利要求6至9任一项所述的装置，其中，