CN111178063A

CN111178063A - 一种文本处理方法、装置、可读介质及电子设备

Info

Publication number: CN111178063A
Application number: CN201911224706.5A
Authority: CN
Inventors: 李红杰; 王�义; 刘水清
Original assignee: Nanjing Yiyi Yunda Data Technology Co Ltd; Nanjing Yiduyun Medical Technology Co ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-05-19
Anticipated expiration: 2039-12-04
Also published as: CN111178063B

Abstract

本发明公开了一种文本处理方法、装置、可读介质及电子设备，包括：从待处理文本中获取待处理词；基于所述待处理词，从所述待处理文本中识别得到相应的目标词；将所述待处理文本中的待处理词替换为所述目标词，以获得目标文本。获取省略了文本信息的待处理词，并通过待处理词确定目标词，进而根据目标词补充省略的文本信息，而确定目标文本；由此使得目标文本中不再存在文本信息的省略，可以通过NLP进行语义分析。

Description

一种文本处理方法、装置、可读介质及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本处理方法、装置、可读介质及电子设备。

背景技术

自然语言处理(Natural Language Prosessing，简称NLP)是指计算机对人类语言(包括语音和文本)进行分析，以判断其含义。

对于以文字形式记载的自然语言，很多情况下为了方便书写，都会出现省略词语，而目前基于NLP技术，无法准确的对这种省略词语分析。

发明内容

本发明提供一种文本处理方法、装置、可读介质及电子设备，通过找到省略词语对应的完整的文本信息并进行替换，以解决NLP技术无法分析识别省略词语的技术问题。

第一方面，本发明提供了一种文本处理方法，包括：

从待处理文本中获取待处理词；

基于所述待处理词，从所述待处理文本中识别得到相应的目标词；

将所述待处理文本中的待处理词替换为所述目标词，以获得目标文本。

优选地，所述基于所述待处理词，从所述待处理文本中识别得到相应的目标词包括：

确定所述待处理词对应的第一关联词；

从所述待处理文本中识别得到与所述第一关联词相关联的第二关联词；

获取所述第二关联词对应的文本信息，以作为所述目标词。

优选地，所述确定待处理词对应的第一关联词包括：

从所述待处理文本中，获取包括所述待处理词的第一文本段落；

从所述第一文本段落中，确定所述待处理词对应的第一关联词。

优选地，所述从所述待处理文本中识别得到与所述第一关联词相关联的第二关联词包括：

查询所述待处理文本中位于所述第一文本段落之前的第二文本段落，并从所述第二文本段落中识别得到所述第二关联词。

优选地，所述根据所述目标词确定目标文本包括：

在所述第一文本段落中，将所述待处理词替换为所述目标词；并将替换后的所述待处理文本确定为所述目标文本。

优选地，所述根据所述目标词确定目标文本包括：

根据所述目标词和所述第一关联词确定第三文本段落；

在所述待处理文本中，将所述第一文本段落替换为所述第三文本段落；

将替换后的所述待处理文本确定为所述目标文本。

优选地于，还包括：

对所述目标文本进行切词处理，得到多个目标段落；

从所述多个目标段落中提取文本信息，并将所述文本信息进行结构化处理。

第二方面，本发明提供了一种文本处理装置，包括：

待处理词获取模块，用于从待处理文本中获取待处理词；

目标词识别模块，用于基于所述待处理词，从所述待处理文本中识别得到相应的目标词；

文本替换模块，用于将所述待处理文本中的待处理词替换为所述目标词，以获得目标文本。

第三方面，本发明提供了一种可读介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述电子设备执行如第一方面中任一所述的文本处理方法。

第四方面，本发明提供了一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如第一方面中任一所述的文本处理方法。

本发明提供了一种文本处理方法、装置、可读介质及电子设备，获取省略了文本信息的待处理词，并通过待处理词确定目标词，进而根据目标词补充省略的文本信息，而确定目标文本；由此使得目标文本中不再存在文本信息的省略，可以通过NLP进行语义分析。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种文本处理方法的流程示意图；

图2为本发明一实施例提供的另一种文本处理方法的流程示意图；

图3为本发明一实施例提供的一种文本处理装置的结构示意图；

图4为本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于前述可知，很多情况下为了方便书写，都会出现省略词语。例如“同上”、“同理”、“同法”、“如前”等词汇，均表示在文本的此位置，省略了部分与前文相同的内容。这种语言形式在日常生活中比较常见，并且在医疗文本中尤其明显。

例如，有一段医生手书的医疗文本，具体内容如下：

“用钳子钳夹左侧腹主动脉旁淋巴结、腹股沟淋巴结、闭孔淋巴结并将其脂肪组织一并清除。同法处理右侧淋巴结。”

显然，上述文本中的“同法”即省略词语。可以理解的是，“同法”的实际含义为“用钳子钳夹右侧腹主动脉旁淋巴结、腹股沟淋巴结、闭孔淋巴结并将其脂肪组织一并清除”。但是在现有技术中，基于NLP技术无法针对类似“同法”的省略词语进行分析，以获悉其真实的含义。

由此，本发明提供一种文本处理方法、装置、可读介质及电子设备，通过找到省略词语对应的完整的文本信息并进行替换，以解决NLP技术无法分析识别省略词语的技术问题。

参见图1所示，为本发明提供的文本处理方法的具体实施例。本实施例中，所述方法具体包括以下步骤：

步骤101、从待处理文本中获取待处理词。

待处理文本，即包括上述的省略词语的一段文本。为便于解释说明，本实施例中可假设有具体的待处理文本内容如下：“左臂弯曲三次。右臂同上。”而待处理词，即是指代上述的“省略词语”。在本实施例中，待处理词为后续要进行处理的对象。

本步骤中，具体可以根据预设的关键词对所述待处理文本进行识别，以获取与所述关键词匹配的待处理词。其中，预设的关键词可以包括若干种常见的“省略词语”，例如“同上”、“同理”、“同法”、“如前”等。如果待处理文本中出现了任意与关键词匹配的词语，则将其确定为待处理词，以供后续处理。

本实施例中，则可将上述待处理文本中的“同上”这一词语确定为待处理词。

步骤102、基于所述待处理词，从所述待处理文本中识别得到相应的目标词。

在确定了待处理词之后，则需进一步的分析待处理词具体省略的哪些文本信息。通常在规范的待处理文本中，待处理词省略的部分文本信息必然在前文出现过，并且与待处理词具有一定的关联性。本步骤正是基于这一规律，实现对于被省略的文本信息的确定。

具体的，可以首先确定待处理词对应的第一关联词。一般来说，第一关联词是与待处理词之间存在相互修饰、或其他语义上的逻辑关系的词语；并且通常二者会存在于待处理文本中的同一个段落(相邻两个句号之间)。待处理词对应的第一关联词可基于NLP技术分析确定。在本实施例场景下，待处理词为“同上”，则第一关联词即为“右臂”。

进一步的，还需从所述待处理文本中识别得到与所述第一关联词相关联的第二关联词。也就是说，第二关联词是与第一关联词存在一定关联性的词语。或者通常来讲，第二关联词可以是与第一关联词“配对”的词语。前述已知的是，待处理词省略的部分文本信息，必然与待处理词具有一定的关联性。例如“左侧”和“右侧”、“前方”和“后方”、“上部”和“下部”等相互间具有明显的相对关系的“配对”词语，通常便存在此类关联性。则假设第一关联词为“左侧”，显然第二关联词即为“右侧”。以此类推。

则此处正是利用此关联性进行分析，基于技术NLP技术通过第一关联词识别得到相关联第二关联词。在本实施例中，显然与第一关联词“右臂”有明显关联性的第二关联词为“左臂”。

在确定了第二关联词后，便可通过第二关联词找到待处理词省略的文本信息。也就是获取所述第二关联词对应的文本信息，并认为其就是待处理词省略的文本信息。然后将第二关联词对应的文本信息作为所述目标词。由此，本步骤实现了利用第一关联词和第二关联词之间的关联性，确定出待处理词省略的文本信息，即目标词。

本实施例场景下，第二关联词为“左臂”对应的文本信息，即目标词为“弯曲三次”。很显然，该目标词正是待处理词“同上”省略的文本信息。

步骤103、根据所述目标词确定目标文本。

本实施例中，可直接将待处理词替换为所述目标词；并将替换后的所述待处理文本确定为所述目标文本。也就是，将待处理词“同上”替换为目标词“弯曲三次”。得到的目标文本为“左臂弯曲三次。右臂弯曲三次”。可见得到的目标文本中不再存在文本信息的省略，可以通过NLP进行语义分析。

可以理解的是，由于本实施例中，待处理文本中涉及的待处理词、目标词、第一关联词和第二关联词之间的逻辑关系相对简单，所以直接将将待处理词替换为所述目标词，即可得到目标文本。但是在另一些相对比较复杂的待处理文本中，便无法进行简单的替换。而是需要针对目标词进行其他相关的处理，从而将省略的文本信息补充到相应的位置上，以确定目标文本。本实施例中对此不作限定，任何根据目标词确定目标文本的方式均可结合在本发明的整体技术方案中。

通过以上技术方案可知，本实施例存在的有益效果是：获取省略了文本信息的待处理词，并通过待处理词确定目标词，进而根据目标词补充省略的文本信息，而确定目标文本；由此使得目标文本中不再存在文本信息的省略，可以通过NLP进行语义分析。

图1所示仅为本发明所述方法的基础实施例，在其基础上进行一定的优化和拓展，还能够得到所述方法的其他优选实施例。

如图2所示，为本发明所述文本处理方法的另一个具体实施例。本实施例在前述实施例的基础上，结合具体应用场景进行进一步的叙述。本实施例中，所述方法具体包括以下步骤：

步骤201、从待处理文本中获取待处理词，和包括所述待处理词的第一文本段落。

本实施例中，假设待处理文本为“用钳子钳夹左侧腹主动脉旁淋巴结、腹股沟淋巴结、闭孔淋巴结并将其脂肪组织一并清除。同法处理右侧淋巴结。”则参照图1所示实施例中的描述，可获得待处理词为“同法”。

进一步的，本实施例中将一段以“句号”分割的文本作为一个段落。则获取包括待处理词的第一文本段落为“同法处理右侧淋巴结”。

步骤202、从所述第一文本段落中，确定所述待处理词对应的第一关联词。

通常第一关联词将于待处理词存在于同一段落中，即第一关联词也存在于第一文本段落中。所以本实施例中优选的从第一文本段落中确第一关联词，以避免更大范围的分析和识别，由此提高文本处理效率。参照图1所示实施例中的描述，可确定第一关联词为“右侧”。

步骤203、查询所述待处理文本中位于所述第一文本段落之前的第二文本段落，并从所述第二文本段落中识别得到所述第二关联词。

省略的部分文本信息必然在前文出现过，也就是说其存在于第一文本段落之前的某一个段落当中。则本步骤中，将查询所述待处理文本中位于所述第一文本段落之前部分，由此确定第二关联词，并将包括第二关联词的段落作为第二文本段落。参照图1所示实施例中的描述，可确定第二关联词为“左侧”；第二本文段落为“用钳子钳夹左侧腹主动脉旁淋巴结、腹股沟淋巴结、闭孔淋巴结并将其脂肪组织一并清除”

步骤204、从所述第二文本段落中获取所述第二关联词对应的文本信息，以作为所述目标词。

通常认为，省略的文本信息即存在于第二文本段落中。换言之，第二文本段落中，与第二关联词存在相互修饰、或其他语义上的逻辑关系的相应文本信息，正是省略的文本信息，即目标词。

本实施例中待处理文本相对复杂，可以看出第二关联词的前后分别存在两个目标词，即“用钳子钳夹”和“腹主动脉旁淋巴结、腹股沟淋巴结、闭孔淋巴结并将其脂肪组织一并清除”。

步骤205、根据所述目标词和所述第一关联词确定第三文本段落。

在一些待处理文本相对简单的情况下，可以直接在所述第一文本段落中，将所述待处理词替换为所述目标词；并将替换后的所述待处理文本确定为所述目标文本。即如同图1所示实施例的处理方式得到目标文本。

但是显然在本实施例中，直接进行替换后，无法得到一段语义规范的文本。所以在本实施例中，可以将所述目标词和所述第一关联词相结合，以确定第三文本段落。具体的，可以结合本实施例中两个目标词与第二关联词的前后位置关系，将第一关联词替换第二关联词结合进去，得到第三文本段落为“用钳子钳夹右侧腹主动脉旁淋巴结、腹股沟淋巴结、闭孔淋巴结并将其脂肪组织一并清除”。

步骤206、在所述待处理文本中，将所述第一文本段落替换为所述第三文本段落；将替换后的所述待处理文本确定为所述目标文本。

在待处理文本中，利用第三文本段落对第一文本段落进行整体的替换，以确定目标文本。由此实现将省略的文本信息补充完整，使得目标文本能够基于NLP技术进行分析。

本实施例在图1所示实施例的基础上存在的有益效果是：针对段落确定第一关联词和第二关联词，提高了文本处理的效率。

还需要说明的是，尤其在对于医疗领域的文本处理应用当中，在能够基于NLP技术对目标文本进行分析的基础上，还可进一步的进行结构化处理。具体可以是对所述目标文本进行切词处理，得到多个目标段落；从所述多个目标段落中提取文本信息，并将所述文本信息进行结构化处理。其中，切词处理属于NLP领域的现有技术，具体可依据目标文本信息中的标点符号进行切分，得到多个目标段落。而在结构化的过程中，可将提取的文本信息保存至特定的结构化模板，以得到结构化信息。结构化模板的具体形式可根据实际需求设定。该结构化信息可应用于大数据分析、模型训练等诸多实际应用当中。而如图1～2所示实施例中所述的文本处理，正是得以准确的进行文本信息提取，并实现结构化处理的基础。

如图3所示，为本发明所述文本处理装置的一个具体实施例。本实施例所述装置，即用于执行图1～2所述方法的实体装置。其技术方案本质上与上述实施例一致，上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括：

待处理词获取模块301，用于从待处理文本中获取待处理词。

目标词识别模块302，用于基于所述待处理词，从所述待处理文本中识别得到相应的目标词。

文本替换模块303，用于将所述待处理文本中的待处理词替换为所述目标词，以获得目标文本。

图4是本发明实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放执行指令。具体地，执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器，并向处理器提供执行指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成文本处理装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本发明任一实施例中提供的文本处理方法。

上述如本发明图3所示实施例提供的文本处理装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本发明实施例还提出了一种可读介质，该可读存储介质存储有执行指令，存储的执行指令被电子设备的处理器执行时，能够使该电子设备执行本发明任一实施例中提供的文本处理方法，并具体用于执行如图1或图2所示的方法。

前述各个实施例中所述的电子设备可以为计算机。

本领域内的技术人员应明白，本发明的实施例可提供为方法或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种文本处理方法，其特征在于，包括：

从待处理文本中获取待处理词；

根据所述目标词确定目标文本。

2.根据权利要求1所述方法，其特征在于，所述基于所述待处理词，从所述待处理文本中识别得到相应的目标词包括：

确定所述待处理词对应的第一关联词；

获取所述第二关联词对应的文本信息，以作为所述目标词。

3.根据权利要求2所述方法，其特征在于，所述确定待处理词对应的第一关联词包括：

4.根据权利要求3所述方法，其特征在于，所述从所述待处理文本中识别得到与所述第一关联词相关联的第二关联词包括：

5.根据权利要求3所述方法，其特征在于，所述根据所述目标词确定目标文本包括：

6.根据权利要求3所述方法，其特征在于，所述根据所述目标词确定目标文本包括：

根据所述目标词和所述第一关联词确定第三文本段落；

在所述待处理文本中，将所述第一文本段落替换为所述第三文本段落；将替换后的所述待处理文本确定为所述目标文本。

7.根据权利要求1～6任意一项所述方法，其特征在于，还包括：

对所述目标文本进行切词处理，得到多个目标段落；

8.一种文本处理装置，其特征在于，包括：

待处理词获取模块，用于从待处理文本中获取待处理词；

9.一种可读介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述电子设备执行如权利要求1至7中任一权利要求所述的文本处理方法。

10.一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如权利要求1至7中任一权利要求所述的文本处理方法。