CN109726399A

CN109726399A - 一种文本处理方法、装置及计算机可读存储介质

Info

Publication number: CN109726399A
Application number: CN201811621752.4A
Authority: CN
Inventors: 欧阳佑
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-07
Anticipated expiration: 2038-12-28
Also published as: CN109726399B

Abstract

本发明实施例公开了一种文本处理方法、装置及存储介质，包括：获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；获取姓名称呼集合中姓名称呼的名字部分，得到名字集合；获取待处理文本中存在于名字集合的词组，得到待处理文本中的称呼。从本发明实施例提供的技术方案可见，由于先获得了待处理文本中能够识别出的姓名的名字部分，再从待处理文本中获得与名字部分相同的词组，因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼，从而提高了文本中称呼的识别度，保证了后续基于称呼的文本处理任务的顺利进行。

Description

一种文本处理方法、装置及计算机可读存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种文本处理方法、装置及计算机可读存储介质。

背景技术

针对特定对象的称呼是文本中重要的语义成分，对于理解新闻等类型的文本，称呼的识别尤其重要。

标准的中文称呼具有比较明显的特点，姓名就是一种完整的称呼，姓名由“姓氏”+“名字”的标准格式组成，其中姓氏本身往往又属于百家姓这样较为固定的列表，因此目前对这类人名的识别精度可超过95％。但非标准格式的称呼(比如省略了姓氏)，其识别难度可能就较大。例如语句：“徽因就这样降下了帆，拒绝了大海的诱惑”，省略了姓氏“林”而单独保留了名字“徽因”，相关技术无法识别这样的称呼，从而无法开展基于称呼的文本处理任务。

发明内容

为了解决上述技术问题，本发明实施例提供一种文本处理方法、装置及计算机可读存储介质，能够提高文本中称呼的识别度，从而保证后续基于称呼的文本处理任务顺利进行。

为了达到本发明实施例目的，本发明实施例提供了一种文本处理方法，包括：

服务器获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；

获取所述姓名称呼集合中姓名称呼的名字部分，得到名字集合；

获取所述待处理文本中存在于所述名字集合的词组，得到所述待处理文本中的称呼。

所述获取由姓氏和名字组成的姓名称呼之前或之后，还包括：

从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼，得到前缀称呼集合；

获取所述姓名称呼集合中姓名称呼的姓氏部分和所述前缀称呼集合中前缀称呼的姓氏部分，得到第一姓氏集合；

获取所述前缀称呼集合中前缀称呼的前缀部分，得到前缀集合；

根据获得的第一姓氏集合和获得的前缀集合，或者，根据获得的第一姓氏集合、获得的前缀集合和预置的前缀集合获取所述待处理文本中的称呼。

所述根据获得的第一姓氏集合和获得的前缀集合获取待处理文本中的称呼，包括：

获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于获得的第一姓氏集合中的词组，得到所述待处理文本中的称呼；

所述根据获得的第一姓氏集合、获得的前缀集合和预先设置的前缀集合获取所述待处理文本中的称呼，包括：

获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得的第一姓氏集合中的词组，并获取所述待处理文本中一部分存在于预置的前缀集合中且剩余部分存在于获得的第一姓氏集合中的词组，得到所述待处理文本中的称呼。

从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼，得到后缀称呼集合；

获取所述后缀称呼集合中后缀称呼的姓氏部分，得到第二姓氏集合；

获取所述后缀称呼集合中后缀称呼的后缀部分，得到后缀集合；

根据获得的第二姓氏集合和获得的后缀集合，或者，根据获得的第二姓氏集合、获得的后缀集合和预置的后缀集合获取所述待处理文本中的称呼。

所述根据获得的第二姓氏集合和获得的后缀集合获取待处理文本中的称呼，包括：

获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于所述第一姓氏集合中的词组，得到所述待处理文本中的称呼；

所述根据获得的第二姓氏集合、获得的后缀集合和预先设置的后缀集合获取待处理文本中的称呼，包括：

获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于所述姓氏集合中的词组，并获取所述待处理文本中一部分存在于所述预先设置的前缀集合中且剩余部分存在于获得的姓氏集合中的词组，得到所述待处理文本中的称呼。

本发明实施例还提供了一种服务器，包括：

处理模块，用于获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；

所述处理模块，还用于获取所述姓名称呼集合中姓名称呼的名字部分，得到名字集合；

所述处理模块，还用于获取所述待处理文本中存在于所述名字集合的词组，得到所述待处理文本中的称呼。

所述处理模块还用于：

本发明实施例还提供了一种文本处理装置，包括：处理器和存储器，其中，存储器中存储有以下可被处理器执行的命令：

获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；

本发明实施例还提供了一种计算机可读存储介质，所述存储介质上存储有计算机可执行命令，所述计算机可执行命令用于执行以下步骤：

获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；

与现有技术相比，本发明实施例至少包括：服务器获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；获取姓名称呼集合中姓名称呼的名字部分，得到名字集合；获取待处理文本中存在于名字集合的词组，得到待处理文本中的称呼。从本发明实施例提供的技术方案可见，由于先获得了待处理文本中能够识别出的姓名的名字部分，再从待处理文本中获得与名字部分相同的词组，因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼，从而提高了文本中称呼的识别度，保证了后续基于称呼的文本处理任务的顺利进行。

本发明实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明实施例的技术方案，并不构成对本发明实施例技术方案的限制。

图1为本发明实施例提供的一种文本处理方法的流程示意图；

图2为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意集合。

本发明实施例提供一种文本处理方法，如图1所示，该方法包括：

步骤101、获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合。

需要说明的是，称呼包括：由姓氏和名字组成的姓名称呼，例如：林徽因，由修饰性前缀和姓氏组成的前缀称呼，例如：小林，以及由姓氏和修饰性后缀组成的后缀称呼，例如：林小姐。

具体的，现有技术中可以通过以下方法获取文本中的称呼：基于姓氏列表或名人列表等数据的规则方法、基于人名标注数据训练识别人名的机器学习模型、基于已训练好的人名识别模型，其中，基于已训练好的人名识别模型可以是支持人名识别的自然语言处理应用程序编程接口(Application Programming Interface,API)，具体包括：百度词法分析API、腾讯分词与命名实体识别API、华为实体识别API等。

步骤102、获取姓名称呼集合中姓名称呼的名字部分，得到名字集合。

步骤103、获取待处理文本中存在于名字集合的词组，得到待处理文本中的称呼。

本发明实施例所提供的文本处理方法，服务器获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；获取姓名称呼集合中姓名称呼的名字部分，得到名字集合；获取待处理文本中存在于名字集合的词组，得到待处理文本中的称呼。从本发明实施例提供的技术方案可见，由于先获得了待处理文本中能够识别出的姓名的名字部分，再从待处理文本中获得与名字部分相同的词组，因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼，从而提高了文本中称呼的识别度，保证了后续基于称呼的文本处理任务的顺利进行。

可选地，获取由姓氏和名字组成的姓名称呼之前或之后，还包括：

步骤104、从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼，得到前缀称呼集合。

需要说明的是，修饰性前缀可以是：“小”、“老”，从而与姓氏(假设姓氏为林)组成的前缀称呼可以是：“小林”、“老林”。

步骤105、获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中前缀称呼的姓氏部分，得到第一姓氏集合。

步骤106、获取前缀称呼集合中前缀称呼的前缀部分，得到前缀集合。

步骤107、根据获得的第一姓氏集合和获得的前缀集合，或者，根据获得的第一姓氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼。

可选地，根据获得的第一姓氏集合和获得的前缀集合获取待处理文本中的称呼，包括：

获取待处理文本中一部分存在于前缀集合且剩余部分存在于获得的第一姓氏集合中的词组，得到待处理文本中的称呼。

根据获得的第一姓氏集合、获得的前缀集合和预先设置的前缀集合获取待处理文本中的称呼，包括：

获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得的第一姓氏集合中的词组，并获取待处理文本中一部分存在于预置的前缀集合中且剩余部分存在于获得的第一姓氏集合中的词组，得到待处理文本中的称呼。

步骤108、从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼，得到后缀称呼集合。

需要说明的是，修饰性后缀可以是：“先生”、“小姐”、“女士”、 “老先生”，从而与姓氏(假设姓氏为林)组成的后缀称呼可以是：“林先生”、“林小姐”、“林女士”、“林老先生”。

步骤109、获取后缀称呼集合中后缀称呼的姓氏部分，得到第二姓氏集合。

步骤110、获取后缀称呼集合中后缀称呼的后缀部分，得到后缀集合。

步骤111、根据获得的第二姓氏集合和获得的后缀集合，或者，根据获得的第二姓氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼。

可选地，根据获得的第二姓氏集合和获得的后缀集合获取待处理文本中的称呼，包括：

获取待处理文本中一部分存在于前缀集合且剩余部分存在于第一姓氏集合中的词组，得到待处理文本中的称呼。

根据获得的第二姓氏集合、获得的后缀集合和预先设置的后缀集合获取待处理文本中的称呼，包括：

获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于姓氏集合中的词组，并获取待处理文本中一部分存在于预先设置的前缀集合中且剩余部分存在于获得的姓氏集合中的词组，得到待处理文本中的称呼。

本发明实施例还提供一种文本处理方法，假设待处理文本的内容如下：

1991年6月，原任解州铝厂副厂长的许付活担任了厂长，为了挖掘和调动领导班子的积极性，许付活注意处理好这样几个关系：付活要求自己遇事先调查研究，而不是武断下结论，从许厂长的身上，我们能够学习到很多优点。

首先，使用基础人名识别模型，这里使用百度人名接口API提供的人名识别模型，使用该模型可以识别出的姓名或称呼包括：“许付活”、“许厂长”，但第二句中的“付活”并不是常见的中文名字，因此没有被识别出来；接下来，整理上述信息，得到名字列表“付活”，姓氏列表“许”等信息，从而可以得出待处理文本中的“付活”也是人名称呼。

本发明实施例提供一种服务器，如图2所示，该服务器2包括：

处理模块21，用于获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合。

处理模块21，还用于获取姓名称呼集合中姓名称呼的名字部分，得到名字集合。

处理模块21，还用于获取待处理文本中存在于名字集合的词组，得到待处理文本中的称呼。

可选地，处理模块21还用于：

从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼，得到前缀称呼集合。

获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中前缀称呼的姓氏部分，得到第一姓氏集合。

获取前缀称呼集合中前缀称呼的前缀部分，得到前缀集合。

根据获得的第一姓氏集合和获得的前缀集合，或者，根据获得的第一姓氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼。

可选地，处理模块21，具体用于取待处理文本中一部分存在于前缀集合且剩余部分存在于获得的第一姓氏集合中的词组，得到待处理文本中的称呼。

处理模块21，具体还用于获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得的第一姓氏集合中的词组，并获取待处理文本中一部分存在于预置的前缀集合中且剩余部分存在于获得的第一姓氏集合中的词组，得到待处理文本中的称呼。

可选地，处理模块21还用于：

从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼，得到后缀称呼集合。

获取后缀称呼集合中后缀称呼的姓氏部分，得到第二姓氏集合。

获取后缀称呼集合中后缀称呼的后缀部分，得到后缀集合。

根据获得的第二姓氏集合和获得的后缀集合，或者，根据获得的第二姓氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼。

可选地，处理模块21，具体用于获取待处理文本中一部分存在于前缀集合且剩余部分存在于第一姓氏集合中的词组，得到待处理文本中的称呼。

处理模块21，具体用于获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于姓氏集合中的词组，并获取待处理文本中一部分存在于预先设置的前缀集合中且剩余部分存在于获得的姓氏集合中的词组，得到待处理文本中的称呼。

本发明实施例所提供的服务器，获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；获取姓名称呼集合中姓名称呼的名字部分，得到名字集合；获取待处理文本中存在于名字集合的词组，得到待处理文本中的称呼。从本发明实施例提供的技术方案可见，由于先获得了待处理文本中能够识别出的姓名的名字部分，再从待处理文本中获得与名字部分相同的词组，因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼，从而提高了文本中称呼的识别度，保证了后续基于称呼的文本处理任务的顺利进行。

在实际应用中，所述处理模块21位于服务器中的中央处理器(CentralProcessing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable GateArray，FPGA)等实现。

本发明实施例还提供一种文本处理装置，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的命令：

获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合。

获取姓名称呼集合中姓名称呼的名字部分，得到名字集合。

获取待处理文本中存在于名字集合的词组，得到待处理文本中的称呼。

可选地，存储器中还存储有以下可被处理器执行的命令：

获取前缀称呼集合中前缀称呼的前缀部分，得到前缀集合。

可选地，存储器中具体存储有以下可被处理器执行的命令：

可选地，存储器中还存储有以下可被处理器执行的命令：

获取后缀称呼集合中后缀称呼的后缀部分，得到后缀集合。

可选地，存储器中具体存储有以下可被处理器执行的命令：

本发明实施例还提供一种计算机可读存储介质，存储介质上存储有计算机可执行命令，计算机可执行命令用于执行以下步骤：

获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合。

获取姓名称呼集合中姓名称呼的名字部分，得到名字集合。

可选地，计算机可执行命令还用于执行以下步骤：

获取前缀称呼集合中前缀称呼的前缀部分，得到前缀集合。

可选地，计算机可执行命令具体用于执行以下步骤：

可选地，计算机可执行命令还用于执行以下步骤：

获取后缀称呼集合中后缀称呼的后缀部分，得到后缀集合。

可选地，计算机可执行命令具体用于执行以下步骤：

虽然本发明实施例所揭露的实施方式如上，但所述的内容仅为便于理解本发明实施例而采用的实施方式，并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员，在不脱离本发明实施例所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明实施例的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的文本处理方法，其特征在于，所述获取由姓氏和名字组成的姓名称呼之前或之后，还包括：

3.根据权利要求2所述的文本处理方法，其特征在于，所述根据获得的第一姓氏集合和获得的前缀集合获取待处理文本中的称呼，包括：

4.根据权利要求1或2所述的文本处理方法，其特征在于，所述获取由姓氏和名字组成的姓名称呼之前或之后，还包括：

5.根据权利要求4所述的文本处理方法，其特征在于，所述根据获得的第二姓氏集合和获得的后缀集合获取待处理文本中的称呼，包括：

6.一种服务器，其特征在于，包括：

7.根据权利要求6所述的服务器，其特征在于，所述处理模块还用于：

8.根据权利要求6或7所述的服务器，其特征在于，所述处理模块还用于：

9.一种文本处理装置，其特征在于，包括：处理器和存储器，其中，存储器中存储有以下可被处理器执行的命令：

获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机可执行命令，所述计算机可执行命令用于执行以下步骤：

获取由姓氏和名字组成的姓名称呼，得到姓名称呼集合；