CN111159978B

CN111159978B - 一种字符串的替换处理方法及装置

Info

Publication number: CN111159978B
Application number: CN201911399583.9A
Authority: CN
Inventors: 董婉; 刘宁; 申亚男; 胡茜; 王静; 吴志超
Original assignee: Beijing Aidoctor Intelligent Medical Technology Co ltd
Current assignee: Beijing Aidoctor Intelligent Medical Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-07-21
Anticipated expiration: 2039-12-30
Also published as: CN111159978A

Abstract

本发明实施例公开了一种字符串的替换处理方法及装置，方法包括：分别对第一数据库和第二数据库中的字符串进行序列标注，以将字符串表示成由各个词项构成的序列，得到第一集合和第二集合；根据序列标注结果，比较第一集合和第二集合；根据第一集合和第二集合之间的包含关系，对字符串进行替换。本发明实施例通过第一数据库中的字符串与第二数据库中的字符串之间的替换，避免了因第一数据库中的字符串与第二数据库中的字符串不一致导致无法自动地正确评估两个字符串是否表示同一个实体；直接使用字符串相似度无法利用语义信息，将字符串进行序列标注得到由各个词项构成的序列后再进行替换，更好的利用了语义层次的信息；方便做进一步地统计分析。

Description

一种字符串的替换处理方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种字符串的替换处理方法及装置。

背景技术

随着人工智能技术的快速发展，智能识别技术受到了前所未有的关注。

对于字符串，如事物的名称，进行识别，由于个人的书写习惯不同，存在使用的术语异名繁多、刻画粒度不统一等现象。并且对同一事物可能出现多种叫法。因此，针对同一事物，出现智能识别出来的名称与手写出来的名称不一致的现象。也就是说，针对同一事物，智能识别出来的名称与手写出来的名称差别较大。这一现象为数据的分析研究，如事物名称的分类统计、相似事物名称检索等带来了困难。由于对于同一事物有多种名称，仅使用普通的文本相似度计算很难获得很好的效果。直接使用字符串相似度无法利用语义信息。不同的事物的名称可能字符串上比较相似。同一事物的名称可能字符串上差别较大。事物的名称之间存在上下位关系、同义关系，使用普通的相似度计算方法无法体现这些关系。由人工智能算法推理出的事物的名称与手写的事物的名称不一致，导致无法自动地正确判断两个字符串是否指代同一事物。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种字符串的替换处理方法及装置。

第一方面，本发明实施例提出一种字符串的替换处理方法，包括：

分别对第一数据库和第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到第一集合和第二集合；

根据序列标注结果，比较所述第一集合和所述第二集合；

当所述第一集合包含于所述第二集合时，将所述第二数据库中的字符串替换为所述第一数据库中的字符串；

当所述第一集合包含了所述第二集合时，将所述第一数据库中的字符串替换为所述第二数据库中的字符串。

可选地，所述分别对第一数据库和第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到第一集合和第二集合，包括：

利用训练好的条件随机场模型分别对所述第一数据库和所述第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到所述第一集合和所述第二集合。

可选地，所述序列标注包括以下至少一项：标注方位词、序号词、部位词、主体词、事物分类、连接词、事物分期、程度性、持续性、急慢性、性质词、形状词和描述词。

可选地，所述利用训练好的条件随机场模型分别对所述第一数据库和所述第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到所述第一集合和所述第二集合之前，所述字符串的替换处理方法，包括：

根据预设的各个词典对提取的所述第二数据库中的字符串进行序列标注，以将序列标注无误的数据集作为训练集；

利用所述训练集对条件随机场模型进行训练，得到所述训练好的条件随机场模型。

可选地，所述字符串的替换处理方法，还包括：

当所述第一数据库中的字符串和所述第二数据库中的字符串相同或互为同义词时，将所述第一数据库中的字符串替换为所述第二数据库中的字符串。

可选地，所述字符串的替换处理方法，还包括：

当所述第一集合与所述第二集合无交集或有部分交集时，将序列标注后的所述第一数据库中的字符串的词项进行同义词替换；

当同义词替换后的词项对应的第一集合包含于所述第二集合时，将所述第二数据库中的字符串替换为同义词替换后的词项对应的第一数据库中的字符串；

当同义词替换后的词项对应的第一集合包含了所述第二集合时，将所述同义词替换后的词项对应的第一数据库中的字符串替换为所述第二数据库中的字符串。

可选地，所述字符串的替换处理方法，还包括：

当所述第二数据库中的字符串与同义词替换后的词项对应的第一数据库中的字符串无法进行替换时，将所述第一数据库中的字符串的词项用对应的上位词进行替换；

当上位词替换后的词项对应的第一集合包含于所述第二集合时，将所述第二数据库中的字符串替换为上位词替换后的词项对应的第一数据库中的字符串；

当上位词替换后的词项对应的第一集合包含了所述第二集合时，将所述上位词替换后的词项对应的第一数据库中的字符串替换为所述第二数据库中的字符串。

第二方面，本发明实施例还提出一种字符串的替换处理装置，包括：序列标注模块、比较模块、第一替换模块和第二替换模块；

所述序列标注模块，用于分别对第一数据库和第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到第一集合和第二集合；

所述比较模块，用于根据序列标注结果，比较所述第一集合和所述第二集合；

所述第一替换模块，用于当所述第一集合包含于所述第二集合时，将所述第二数据库中的字符串替换为所述第一数据库中的字符串；

所述第二替换模块，用于当所述第一集合包含了所述第二集合时，将所述第一数据库中的字符串替换为所述第二数据库中的字符串。

可选地，所述序列标注模块，具体用于：

可选地，所述利用训练好的条件随机场模型分别对所述第一数据库和所述第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到所述第一集合和所述第二集合之前，所述字符串的替换处理装置，包括：标注模块和训练模块；

所述标注模块，用于根据预设的各个词典对所述第二数据库中的字符串进行序列标注，以将序列标注无误的数据集作为训练集；

所述训练模块，用于利用所述训练集对条件随机场模型进行训练，得到所述训练好的条件随机场模型。

可选地，所述字符串的替换处理装置，还包括：第三替换模块；

所述第三替换模块，用于当所述第一数据库中的字符串和所述第二数据库中的字符串相同或互为同义词时，将所述第一数据库中的字符串替换为所述第二数据库中的字符串。

可选地，所述字符串的替换处理装置，还包括：同义词替换模块、第四替换块和第五替换模块；

所述同义词替换模块，用于当所述第一集合与所述第二集合无交集或有部分交集时，将序列标注后的第一数据库中的字符串的词项进行同义词替换；

所述第四替换模块，用于当同义词替换后的词项对应的第一集合包含于所述第二集合时，将所述第二数据库中的字符串替换为同义词替换后的词项对应的第一数据库中的字符串；

所述第五替换模块，用于当同义词替换后的词项对应的第一集合包含了所述第二集合时，将所述同义词替换后的词项对应的第一数据库中的字符串替换为所述第二数据库中的字符串。

可选地，所述字符串的替换处理装置，还包括：上位词替换模块、第六替换模块和第七替换模块；

所述上位词替换模块，用于当所述第二数据库中的字符串与同义词替换后的词项对应的第一数据库中的字符串无法进行替换时，将所述第一数据库中的字符串的词项用对应的上位词进行替换；

所述第六替换模块，用于当上位词替换后的词项对应的第一集合包含于所述第二集合时，将所述第二数据库中的字符串替换为上位词替换后的词项对应的第一数据库中的字符串；

所述第七替换模块，用于当上位词替换后的词项对应的第一集合包含了所述第二集合时，将所述上位词替换后的词项对应的第一数据库中的字符串替换为所述第二数据库中的字符串。

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过第一数据库中的字符串与第二数据库中的字符串之间的替换，避免了因第一数据库中的字符串与第二数据库中的字符串不一致导致无法自动地正确判断两个字符串是否指代同一事物；直接使用字符串相似度无法利用语义信息，将字符串进行序列标注得到由各个词项构成的序列后再进行替换，更好的利用了语义层次的信息；方便做进一步地统计分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种字符串的替换处理方法的流程示意图；

图2为本发明一实施例提供的一种字符串的替换处理装置的结构示意图；

图3为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种字符串的替换处理方法的流程示意图，包括：

S11，分别对第一数据库和第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到第一集合和第二集合。

在本发明实施例中，所述第一数据库和所述第二数据库均存储有同一领域的字符串。分别对所述第一数据库和所述第二数据库中的字符串进行序列标注。以BIO为例，B表示一个实体的开头，I表示一个实体的内部，O表示实体的外部(即字符不属于任何实体的组成部分)。将序列标注后的字符串表示成由各个词项构成的序列，得到第一集合和第二集合。

在本发明实施例中，以对第一数据库中的笔名称为“钢笔”，第二数据库中的笔名称为“自来水式钢笔”进行序列标注为例。“钢笔”的原始字符是“钢”和“笔”。对“钢”进行序列标注为“B-性质”，对“笔”进行序列标注为“B-主体”，则字符串“钢笔”的词项“钢”是“性质”和“笔”是“主体”，得到第一集合。“自来水式钢笔”的原始字符是“自”、“来”、“水”、“式”、“钢”和“笔”。对“自”进行序列标注为“B-描述”，对“来”进行序列标注为“I-描述”，对“水”进行序列标注为“I-描述”，对“式”进行序列标注为“O”，对“钢”进行序列标注为“B-性质”，对“笔”进行序列标注为“B-主体”，则字符串“自来水式钢笔”的词项“自来水式”是“描述”、“钢”是“性质”和“笔”是“主体”，得到第二集合。

在本发明实施例中，以对智能诊断结果(即第一数据库，下同)中的疾病名称为“心肌梗死”，病历(即第二数据库，下同)中的疾病名称为“急性正后壁心肌梗死”进行序列标注为例。“心肌梗死”的原始字符是“心”、“肌”、“梗”和“死”。对“心”、“肌”、“梗”和“死”四个字符分别进行序列标注，得到“B-部位”、“I-部位”、“B-描述”和“I-描述”，则字符串“心肌梗死”的词项“心肌”是“部位”和“梗死”是“描述”，得到第一集合。“急性正后壁心肌梗死”的原始字符是“急”、“性”、“正”、“后”、“壁”、“心”、“肌”、“梗”和“死”。对上述原始字符分别进行序列标注，得到“B-急慢性”、“I-急慢性”、“B-方位”、“I-方位”、“B-部位”、“I-部位”、“B-描述”和“I-描述”，则字符串“急性正后壁心肌梗死”的词项“急性”是“急慢性”、“正后壁”是“方位”、“心肌”是“主体”和“梗死”是“描述”，得到第二集合。

S12，根据序列标注结果，比较所述第一集合和所述第二集合。

在本发明实施例中，根据序列标注结果，比较所述第一集合和所述第二集合。

在本发明实施例中，以“钢笔”的原始字符是“钢”和“笔”，对“钢”进行序列标注为“B-性质”，对“笔”进行序列标注为“B-主体”，则字符串“钢笔”的词项“钢”是“性质”和“笔”是“主体”，以及“自来水式钢笔”的原始字符是“自”、“来”、“水”、“式”、“钢”和“笔”，对“自”进行序列标注为“B-描述”，对“来”进行序列标注为“I-描述”，对“水”进行序列标注为“I-描述”，对“式”进行序列标注为“O”，对“钢”进行序列标注为“B-性质”，对“笔”进行序列标注为“B-主体”，则字符串“自来水式钢笔”的词项“自来水式”是“描述”、“钢”是“性质”和“笔”是“主体”为例，将是“性质”的词项进行比较，将是“主体”的词项进行比较，将是“描述”的词项进行比较，得到第一集合包含于第二集合。

在本发明实施例中，以“心肌梗死”的原始字符是“心”、“肌”、“梗”和“死”，对“心”、“肌”、“梗”和“死”四个字符分别进行序列标注，得到“B-部位”、“I-部位”、“B-描述”和“I-描述”，则字符串“心肌梗死”的词项“心肌”是“部位”和“梗死”是“描述”，以及“急性正后壁心肌梗死”的原始字符是“急”、“性”、“正”、“后”、“壁”、“心”、“肌”、“梗”和“死”。对上述原始字符分别进行序列标注，得到“B-急慢性”、“I-急慢性”、“B-方位”、“I-方位”、“B-部位”、“I-部位”、“B-描述”和“I-描述”，则字符串“急性正后壁心肌梗死”的词项“急性”是“急慢性”、“正后壁”是“方位”、“心肌”是“主体”和“梗死”是“描述”为例，将是“部位”的词项进行比较，将是“描述”的词项进行比较，将是“急慢性”的词项进行比较，将是“方位”的词项进行比较，得到所述第一集合包含于所述第二集合。

S13，当所述第一集合包含于所述第二集合时，将所述第二数据库中的字符串替换为所述第一数据库中的字符串。

在本发明实施例中，当所述第一集合包含于所述第二集合时，所述第一集合是所述第二集合的父类，此时，将所述第二数据库中的字符串替换为所述第一数据库中的字符串。

在本发明实施例中，以所述第一数据库中的笔名称为“钢笔”，所述第二数据库中的笔名称为“自来水式钢笔”为例，由S12可知，所述第一集合包含于所述第二集合，因此，将所述第二数据库中的笔名称“自来水式钢笔”替换为所述第一数据库中的笔名称“钢笔”。

在本发明实施例中，以所述智能诊断结果中的疾病名称为“心肌梗死”，所述病历中的疾病名称为“急性正后壁心肌梗死”为例，由S12可知，所述第一集合包含于所述第二集合，因此，将所述病历中的疾病名称“急性正后壁心肌梗死”替换为所述智能诊断结果中的疾病名称“心肌梗死”。

S14，当所述第一集合包含了所述第二集合时，将所述第一数据库中的字符串替换为所述第二数据库中的字符串。

在本发明实施例中，当所述第一集合包含了所述第二集合时，所述第一集合是所述第二集合的子类，将所述第一数据库中的字符串替换为所述第二数据库中的字符串。

在本发明实施例中，所述第一集合是所述第二集合的子类，说明所述第一数据库中的笔名称，如“自来水式钢笔”，比所述第二数据库中的笔名称，如“钢笔”，的颗粒度更细。此时，将所述第一数据库中的字符串替换为所述第二数据库中的字符串，即将所述第一数据库中的笔名称“自来水式钢笔”替换为所述第二数据库中的笔名称“钢笔”。

在本发明实施例中，当所述第一集合包含了所述第二集合时，所述第一集合是所述第二集合的子类，说明所述智能诊断结果中的疾病名称比所述病历中的疾病名称颗粒度更细，此时，需要医生通过病历判断所述智能诊断结果是否正确。在医生判断所述智能诊断结果正确的情况下，将所述智能诊断结果中的疾病名称替换为所述病历中的疾病名称。具体地，以所述智能诊断结果中的疾病名称“急性正后壁心肌梗死”是由词项“急性”、“正后壁”、“心肌”和“梗死”构成的序列，所述病历中的疾病名称“心肌梗死”是由词项“心肌”和“梗死”构成的序列为例，显然，所述智能诊断结果中的疾病名称比所述病历中的疾病名称颗粒度更细。此时，若医生判断所述智能诊断结果正确，将所述智能诊断结果中的疾病名称“急性正后壁心肌梗死”替换为所述病历中的疾病名称“心肌梗死”。

本发明实施例通过第一数据库中的字符串与第二数据库中的字符串之间的替换，避免了因第一数据库中的字符串与第二数据库中的字符串不一致导致无法自动地正确判断两个字符串是否指代同一事物；直接使用字符串相似度无法利用语义信息，将字符串进行序列标注得到由各个词项构成的序列后再进行替换，更好的利用了语义层次的信息；方便做进一步地统计分析。

进一步地，在上述方法实施例的基础上，所述分别对第一数据库和第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到第一集合和第二集合，包括：

在本发明实施例中，所述训练好的条件随机场模型可以对所述第一数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到所述第一集合。与此同时，所述训练好的条件随机场模型可以对所述第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到所述第二集合。

在本发明实施例中，以利用所述训练好的条件随机场模型对第一数据库中的笔名称“钢笔”的字符“钢”和“笔”进行序列标注为例，对“钢”进行序列标注为“B-性质”，对“笔”进行序列标注为“B-主体”，则字符串“钢笔”的词项“钢”是“性质”和“笔”是“主体”，得到第一集合。以利用所述训练好的条件随机场模型对第二数据库中的笔名称“自来水式钢笔”的字符“自”、“来”、“水”、“式”、“钢”和“笔”进行序列标注为例，对“自”进行序列标注为“B-描述”，对“来”进行序列标注为“I-描述”，对“水”进行序列标注为“I-描述”，对“式”进行序列标注为“O”，对“钢”进行序列标注为“B-性质”，对“笔”进行序列标注为“B-主体”，则字符串“自来水式钢笔”的词项“自来水式”是“描述”、“钢”是“性质”和“笔”是“主体”，得到第二集合。

在本发明实施例中，所述训练好的条件随机场模型可以对所述智能诊断结果的疾病名称进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到第一集合。与此同时，所述训练好的条件随机场模型可以对提取的所述病历中的疾病名称进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到第二集合。具体地，以利用所述训练好的条件随机场模型对智能诊断结果的疾病名称“心肌梗死”的字符“心”、“肌”、“梗”和“死”进行序列标注为例，对“心”、“肌”、“梗”和“死”四个字符分别进行序列标注，得到“B-部位”、“I-部位”、“B-描述”和“I-描述”，则字符串“心肌梗死”的词项“心肌”是“部位”和“梗死”是“描述”，得到第一集合。以利用所述训练好的条件随机场模型对病历中的疾病名称“急性正后壁心肌梗死”的字符是“急”、“性”、“正”、“后”、“壁”、“心”、“肌”、“梗”和“死”分别进行序列标注为例，得到“B-急慢性”、“I-急慢性”、“B-方位”、“I-方位”、“B-部位”、“I-部位”、“B-描述”和“I-描述”，则字符串“急性正后壁心肌梗死”的词项“急性”是“急慢性”、“正后壁”是“方位”、“心肌”是“主体”和“梗死”是“描述”，得到第二集合。

本发明实施例通过对提取的所述第一数据库和所述第二数据库中的字符串进行序列标注，以将字符串表示成由各个词项构成的序列，有利于后续根据序列标注结果，对所述第一集合和所述第二集合进行比较，提高了比较效率。

进一步地，在上述方法实施例的基础上，所述序列标注包括以下至少一项：标注方位词、序号词、部位词、主体词、事物分类、连接词、事物分期、程度性、持续性、急慢性、性质词、形状词和描述词。

在本发明实施例中，利用训练好的条件随机场模型分别对所述第一数据库和所述第二数据库中的字符串进行序列标注。序列标注包括以下至少一项：标注方位词、序号词、部位词、主体词、事物分类、连接词、事物分期、程度性、持续性、急慢性、性质词、形状词和描述词。

在本发明实施例中，以所述第一数据库中的笔名称“钢笔”的字符“钢”和“笔”为例，对“钢”进行序列标注为“B-性质”，对“笔”进行序列标注为“B-主体”。

在本发明实施例中，以所述智能诊断结果的疾病名称“心肌梗死”的字符是“心”、“肌”、“梗”和“死”为例，对“心”、“肌”、“梗”和“死”四个字符分别进行序列标注，得到“B-部位”、“I-部位”、“B-描述”和“I-描述”。

本发明实施例通过对提取的所述第一数据库和第二数据库中的字符串进行序列标注，以将字符串表示成由各个词项构成的序列，有利于后续根据序列标注结果，对所述第一集合和所述第二集合进行比较，提高了比较效率。

进一步地，在上述方法实施例的基础上，所述利用训练好的条件随机场模型分别对所述第一数据库和所述第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到所述第一集合和所述第二集合之前，所述字符串的替换处理方法，包括：

根据预设的各个词典对所述第二数据库中的字符串进行序列标注，以将序列标注无误的数据集作为训练集；

在本发明实施例中，使用所述训练好的条件随机场模型之前，需要使用训练集对条件随机场模型进行训练。根据预设的各个词典对所述第二数据库中的字符串进行序列标注，以将序列标注无误的数据集作为训练集；利用所述训练集对条件随机场模型进行训练，得到所述训练好的条件随机场模型。

在本发明实施例中，以所述第二数据库中的笔名称为例，根据预设的各个词典对所述第二数据库中的笔名称进行序列标注；将序列标注无误的数据集作为训练集，用于对条件随机场模型进行训练，得到所述训练好的条件随机场模型。

在本发明实施例中，以所述病历中的疾病名称为例，根据预设的各个词典对所述病历中的疾病名称进行序列标注，由医生确认序列标注是否正确，若正确，将序列标注无误的数据集作为训练集；若医生确认序列标注不正确，则改正错误的序列标注，然后将序列标注无误的数据集作为训练集。利用所述训练集对条件随机场模型进行训练，得到所述训练好的条件随机场模型。需要说明的是，从摘要国际系统医学术语全集(The SystematizedNomenclature of Human and Veterinary Medicine，SNOMED)和《人体解剖学名词(第二版)》中提取部位词，构建部位词典(不包括方位)；从《现代汉语词典》、SNOMED和《人体解剖学名词(第二版)》中提取方位词，构建方位词词典；其他从已有的门诊病历、住院病历中的疾病名称中提取，分别存入相应的词典中。

本发明实施例通过利用训练集对条件随机场模型进行训练，得到了训练好的条件随机场模型，有利于后续对字符串进行序列标注，提高了序列标注效率。

进一步地，在上述方法实施例的基础上，所述字符串的替换处理方法，还包括：

在本发明实施例中，以所述第一数据库和所述第二数据库存储的字符串为笔名称为例，当所述第一数据库中的笔名称和所述第二数据库中的笔名称相同或互为同义词时，将所述第一数据库中的笔名称替换为所述第二数据库中的笔名称。

在本发明实施例中，以所述第一数据库和所述第二数据库存储的字符串为疾病名称为例，当所述智能诊断结果中的疾病名称和所述病历中的疾病名称相同或互为同义词时，将所述智能诊断结果中的疾病名称替换为所述病历中的疾病名称。需要说明的是，若所述病历中的疾病名称为与所述智能诊断结果中的疾病名称对应的英文名称，则将所述智能诊断结果中的疾病名称替换为所述病历中的英文名称。若所述病历中的疾病名称为与所述智能诊断结果中的疾病名称对应的简称，则将所述智能诊断结果中的疾病名称替换为所述病历中的简称。若所述病历中的疾病名称为与所述智能诊断结果中的疾病名称对应的俗称，则将所述智能诊断结果中的疾病名称替换为所述病历中的俗称。

本发明实施例当所述第一数据库中的字符串和所述第二数据库中的字符串相同或互为同义词时，不需要进行序列标注即可进行字符串的替换，提高了字符串替换效率。

当所述第一集合与所述第二集合无交集或有部分交集时，将序列标注后的第一数据库中的字符串的词项进行同义词替换；

在本发明实施例中，以所述第一数据库和所述第二数据库存储笔名称为例，当所述第一集合与所述第二集合无交集或有部分交集时，将序列标注后的所述第一数据库中的笔名称的词项进行同义词替换；当同义词替换后的词项对应的第一集合包含于所述第二集合时，将所述第二数据库中的笔名称替换为同义词替换后的词项对应的第一数据库中的笔名称；具体地，以所述第一数据库中的笔名称“圆珠笔”为例，对“圆珠笔”的字符进行序列标注后，得到的词项为“圆珠”和“笔”，也即第一集合以及以所述第二数据库中的笔名称“双头走珠笔”为例，对“双头走珠笔”的字符进行序列标注后，得到的词项为“双头”、“走珠”和“笔”，也即第二集合。可见，所述第一集合与所述第二集合有部分交集，即为“笔”。将所述第一数据库中的词项“圆珠”替换为同义词“走珠”之后，所述第一集合包含于所述第二集合，此时，将所述第二数据库中的笔名称“双头走珠笔”替换为所述第一数据库中的笔名称“圆珠笔”。当同义词替换后的词项对应的第一集合包含了所述第二集合时，将所述同义词替换后的词项对应的第一数据库中的笔名称替换为所述第二数据库中的笔名称。具体地，以所述第一数据库中的笔名称“双头走珠笔”为例，对“双头走珠笔”的字符进行序列标注后，得到的词项为“双头”、“走珠”和“笔”，以及以所述第二数据库中的笔名称“圆珠笔”为例，对“圆珠笔”的字符进行序列标注后，得到的词项为“圆珠”和“笔”。可见，所述第一集合与所述第二集合有部分交集，即为“笔”。将所述第一集合中的词项“走珠”替换为同义词“圆珠”之后，所述第一集合包含了所述第二集合，此时，将所述第一数据库中的笔名称“双头走珠笔”替换为所述第二数据库中的笔名称“圆珠笔”。

在本发明实施例中，以所述第一数据库和所述第二数据库存储疾病名称为例，当所述智能诊断结果集合与所述病历集合无交集或有部分交集时，将所述智能诊断结果集合中的疾病名称的词项进行同义词替换；当同义词替换后的词项对应的智能诊断结果集合包含于所述病历集合时，将所述病历中的疾病名称替换为同义词替换后的词项对应的智能诊断结果中的疾病名称；具体地，以所述智能诊断结果中的疾病名称“肺恶性肿瘤”为例，对“肺恶性肿瘤”进行序列标注，得到的词项为“肺”和“恶性肿瘤”，以及以所述病历中的疾病名称“右上肺癌”为例，对“右上肺癌”进行序列标注，得到的词项为“右上”、“肺”和“癌”。可见，所述智能诊断结果集合与所述病历集合有部分交集，即为“肺”。将所述智能诊断结果集合中的词项“恶性肿瘤”替换为同义词“癌”之后，所述智能诊断结果集合包含于所述病历集合，此时，将所述病历中的疾病名称“右上肺癌”替换为所述智能诊断结果中的疾病名称“肺癌”。当同义词替换后的词项对应的智能诊断结果集合包含了所述病历集合时，在医生判断所述同义词替换后的词项对应的智能诊断结果正确的情况下，将所述同义词替换后的词项对应的智能诊断结果中的疾病名称替换为所述病历中的疾病名称。具体地，以所述智能诊断结果中的疾病名称“右上肺癌”为例，对“右上肺癌”进行序列标注后，得到的词项为“右上”、“肺”和“癌”，以及以所述病历中的疾病名称“肺恶性肿瘤”为例，对“肺恶性肿瘤”进行序列标注后，得到的词项为“肺”和“恶性肿瘤”。可见，所述智能诊断结果集合与所述病历集合有部分交集，即为“肺”。将所述智能诊断结果集合中的词项“癌”替换为同义词“恶性肿瘤”之后，所述智能诊断结果集合包含了所述病历集合，此时，在医生判断所述同义词替换后的词项对应的智能诊断结果正确的情况下，将所述智能诊断结果中的疾病名称“右上肺恶性肿瘤”替换为所述病历中的疾病名称“肺恶性肿瘤”。

本发明实施例通过对字符串的词项进行同义词替换，避免了因为同义词原因无法进行字符串替换。

在本发明实施例中，以所述第一数据库和所述第二数据库存储笔名称为例，当所述第二数据库中的笔名称与同义词替换后的词项对应的第一数据库中的笔名称无法替换时，将所述第二数据库中的笔名称的词项用对应的上位词进行替换；当上位词替换后的词项对应的第一集合包含于所述第二集合时，将所述第二数据库中的笔名称替换为上位词替换后的词项对应的第一数据库中的笔名称；当上位词替换后的词项对应的第一集合包含了所述第二集合时，将所述上位词替换后的词项对应的第一数据库中的笔名称替换为所述第二数据库中的笔名称。

在本发明实施例中，以所述第一数据库和所述第二数据库存储疾病名称为例，当所述病历中的疾病名称与同义词替换后的词项对应的智能诊断结果中的疾病名称无法替换时，将所述智能诊断结果中的疾病名称的词项用对应的上位词进行替换；当上位词替换后的词项对应的智能诊断结果集合包含于所述病历集合时，将所述病历中的疾病名称替换为上位词替换后的词项对应的智能诊断结果中的疾病名称；当上位词替换后的词项对应的智能诊断结果集合包含了所述病历集合时，在医生判断所述上位词替换后的词项对应的智能诊断结果正确的情况下，将所述上位词替换后的词项对应的智能诊断结果中的疾病名称替换为所述病历中的疾病名称。在此需要说明的是，疾病名称的不同词项的相似度对于判断两个疾病名称是否为同一疾病所占的权重不同，不适合按相同的重要程度来计算相似度，将疾病名称切分为词项序列后，可为不同的词项赋予不同的权重。

本发明实施例通过对字符串的词项对应的上位词进行替换，避免了因为上位词原因无法进行字符串替换。

图2示出了本实施例提供的一种字符串的替换处理装置的结构示意图，所述装置包括：序列标注模块21、比较模块22、第一替换模块23和第二替换模块24；

所述序列标注模块21，用于分别对第一数据库和第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到第一集合和第二集合；

所述比较模块22，用于根据序列标注结果，比较所述第一集合和所述第二集合；

第一替换模块23，用于当所述第一集合包含于所述第二集合时，将所述第二数据库中的字符串替换为所述第一数据库中的字符串；

第二替换模块24，用于当所述第一集合包含了所述第二集合时，将所述第一数据库中的字符串替换为所述第二数据库中的字符串。

进一步地，在上述装置实施例的基础上，所述序列标注模块21，具体用于：

利用训练好的条件随机场模型分别对提取的所述第一数据库中的字符串和所述第二数据库中的字符串进行序列标注，将字符串序列转换为词项构成的序列，得到所述第一集合和所述第二集合。

进一步地，在上述装置实施例的基础上，所述序列标注包括以下至少一项：标注方位词、序号词、部位词、主体词、事物分类、连接词、事物分期、程度性、持续性、急慢性、性质词、形状词和描述词。

进一步地，在上述装置实施例的基础上，所述利用训练好的条件随机场模型分别对所述第一数据库和所述第二数据库中的字符串进行序列标注，以将所述字符串表示成由各个词项构成的序列，得到所述第一集合和所述第二集合之前，所述字符串的替换处理装置，包括：标注模块和训练模块；

进一步地，在上述装置实施例的基础上，所述字符串的替换处理装置，还包括：第三替换模块；

进一步地，在上述装置实施例的基础上，所述字符串的替换处理装置，还包括：同义词替换模块、第四替换模块和第五替换模块；

所述同义词替换模块，用于当所述第一集合与所述第二集合无交集或有部分交集时，将所述第一数据库中的字符串的词项进行同义词替换；

进一步地，在上述装置实施例的基础上，所述字符串的替换处理装置，还包括：上位词替换模块、第六替换模块和第七替换模块；

本实施例所述的字符串的替换处理装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

图3为本发明一实施例提供的电子设备的逻辑框图；所述电子设备，包括：处理器(processor)31、存储器(memory)32和总线33；

其中，所述处理器31和存储器32通过所述总线33完成相互间的通信；所述处理器31用于调用所述存储器32中的程序指令，以执行上述方法实施例所提供的字符串的替换处理方法。

本发明一实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，该计算机程序被处理器执行时实现了执行上述各实施例提供的字符串的替换处理方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种字符串的替换处理方法，其特征在于，包括：

分别提取第一数据库中的字符串和第二数据库中的字符串的各个词项；

分别对提取的所述第一数据库中的字符串和所述第二数据库中的字符串的各个词项，进行序列标注，得到第一集合和第二集合；

根据序列标注结果，比较所述第一集合和所述第二集合；

当所述第一集合包含于所述第二集合时，所述第一集合是所述第二集合的父类，将所述第二数据库中的字符串替换为所述第一数据库中的字符串；

当所述第一集合包含了所述第二集合时，所述第一集合是所述第二集合的子类，将所述第一数据库中的字符串替换为所述第二数据库中的字符串。

2.根据权利要求1所述的字符串的替换处理方法，其特征在于，所述分别对提取的所述第一数据库中的字符串和所述第二数据库中的字符串的各个词项，进行序列标注，得到第一集合和第二集合，包括：

利用训练好的条件随机场模型分别对提取的所述第一数据库中的字符串和所述第二数据库中的字符串的各个词项，进行序列标注，得到所述第一集合和所述第二集合。

3.根据权利要求2所述的字符串的替换处理方法，其特征在于，所述序列标注包括以下至少一项：标注方位词、序号词、部位词、主体词、事物分类、连接词、事物分期、程度性、持续性、急慢性、性质词、形状词和描述词。

4.根据权利要求2所述的字符串的替换处理方法，其特征在于，所述利用训练好的条件随机场模型分别对提取的所述第一数据库中的字符串和所述第二数据库中的字符串的各个词项，进行序列标注，得到所述第一集合和所述第二集合之前，所述字符串的替换处理方法，包括：

提取所述第二数据库中的字符串的各个词项；

根据预设的各个词典对提取的所述第二数据库中的字符串的各个词项进行序列标注，以将序列标注无误的各个词项作为训练集；

5.根据权利要求1所述的字符串的替换处理方法，其特征在于，所述字符串的替换处理方法，还包括：

6.根据权利要求1所述的字符串的替换处理方法，其特征在于，所述字符串的替换处理方法，还包括：

当所述第一集合与所述第二集合无交集或有部分交集时，将所述第一数据库中的字符串的词项进行同义词替换；

7.根据权利要求6所述的字符串的替换处理方法，其特征在于，所述字符串的替换处理方法，还包括：

8.一种字符串的替换处理装置，其特征在于，包括：词项提取模块、序列标注模块、比较模块、第一替换模块和第二替换模块；

所述词项提取模块，用于分别提取第一数据库中的字符串和第二数据库中的字符串的各个词项；

所述序列标注模块，用于分别对提取的所述第一数据库中的字符串和所述第二数据库中的字符串的各个词项，进行序列标注，得到第一集合和第二集合；

所述第一替换模块，用于当所述第一集合包含于所述第二集合时，所述第一集合是所述第二集合的父类，将所述第二数据库中的字符串替换为所述第一数据库中的字符串；

所述第二替换模块，用于当所述第一集合包含了所述第二集合时，所述第一集合是所述第二集合的子类，将所述第一数据库中的字符串替换为所述第二数据库中的字符串。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一所述的字符串的替换处理方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的字符串的替换处理方法。