CN109726399A - 一种文本处理方法、装置及计算机可读存储介质 - Google Patents

一种文本处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109726399A
CN109726399A CN201811621752.4A CN201811621752A CN109726399A CN 109726399 A CN109726399 A CN 109726399A CN 201811621752 A CN201811621752 A CN 201811621752A CN 109726399 A CN109726399 A CN 109726399A
Authority
CN
China
Prior art keywords
address
name
surname
text
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811621752.4A
Other languages
English (en)
Other versions
CN109726399B (zh
Inventor
欧阳佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201811621752.4A priority Critical patent/CN109726399B/zh
Publication of CN109726399A publication Critical patent/CN109726399A/zh
Application granted granted Critical
Publication of CN109726399B publication Critical patent/CN109726399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明实施例公开了一种文本处理方法、装置及存储介质,包括:获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;获取姓名称呼集合中姓名称呼的名字部分,得到名字集合;获取待处理文本中存在于名字集合的词组,得到待处理文本中的称呼。从本发明实施例提供的技术方案可见,由于先获得了待处理文本中能够识别出的姓名的名字部分,再从待处理文本中获得与名字部分相同的词组,因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼,从而提高了文本中称呼的识别度,保证了后续基于称呼的文本处理任务的顺利进行。

Description

一种文本处理方法、装置及计算机可读存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本处理方法、装置 及计算机可读存储介质。
背景技术
针对特定对象的称呼是文本中重要的语义成分,对于理解新闻等类型的 文本,称呼的识别尤其重要。
标准的中文称呼具有比较明显的特点,姓名就是一种完整的称呼,姓名 由“姓氏”+“名字”的标准格式组成,其中姓氏本身往往又属于百家姓这 样较为固定的列表,因此目前对这类人名的识别精度可超过95%。但非标准 格式的称呼(比如省略了姓氏),其识别难度可能就较大。例如语句:“徽 因就这样降下了帆,拒绝了大海的诱惑”,省略了姓氏“林”而单独保留了 名字“徽因”,相关技术无法识别这样的称呼,从而无法开展基于称呼的文 本处理任务。
发明内容
为了解决上述技术问题,本发明实施例提供一种文本处理方法、装置及 计算机可读存储介质,能够提高文本中称呼的识别度,从而保证后续基于称 呼的文本处理任务顺利进行。
为了达到本发明实施例目的,本发明实施例提供了一种文本处理方法, 包括:
服务器获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文 本中的称呼。
所述获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合;
获取所述姓名称呼集合中姓名称呼的姓氏部分和所述前缀称呼集合中前 缀称呼的姓氏部分,得到第一姓氏集合;
获取所述前缀称呼集合中前缀称呼的前缀部分,得到前缀集合;
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取所述待处理文本中的称呼。
所述根据获得的第一姓氏集合和获得的前缀集合获取待处理文本中的称 呼,包括:
获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于获 得的第一姓氏集合中的词组,得到所述待处理文本中的称呼;
所述根据获得的第一姓氏集合、获得的前缀集合和预先设置的前缀集合 获取所述待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于 获得的第一姓氏集合中的词组,并获取所述待处理文本中一部分存在于预置 的前缀集合中且剩余部分存在于获得的第一姓氏集合中的词组,得到所述待 处理文本中的称呼。
所述获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合;
获取所述后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合;
获取所述后缀称呼集合中后缀称呼的后缀部分,得到后缀集合;
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取所述待处理文本中的称呼。
所述根据获得的第二姓氏集合和获得的后缀集合获取待处理文本中的称 呼,包括:
获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于所 述第一姓氏集合中的词组,得到所述待处理文本中的称呼;
所述根据获得的第二姓氏集合、获得的后缀集合和预先设置的后缀集合 获取待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于 所述姓氏集合中的词组,并获取所述待处理文本中一部分存在于所述预先设 置的前缀集合中且剩余部分存在于获得的姓氏集合中的词组,得到所述待处 理文本中的称呼。
本发明实施例还提供了一种服务器,包括:
处理模块,用于获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
所述处理模块,还用于获取所述姓名称呼集合中姓名称呼的名字部分, 得到名字集合;
所述处理模块,还用于获取所述待处理文本中存在于所述名字集合的词 组,得到所述待处理文本中的称呼。
所述处理模块还用于:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合;
获取所述姓名称呼集合中姓名称呼的姓氏部分和所述前缀称呼集合中前 缀称呼的姓氏部分,得到第一姓氏集合;
获取所述前缀称呼集合中前缀称呼的前缀部分,得到前缀集合;
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取所述待处理文本中的称呼。
所述处理模块还用于:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合;
获取所述后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合;
获取所述后缀称呼集合中后缀称呼的后缀部分,得到后缀集合;
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取所述待处理文本中的称呼。
本发明实施例还提供了一种文本处理装置,包括:处理器和存储器,其 中,存储器中存储有以下可被处理器执行的命令:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文 本中的称呼。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质上存储 有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文 本中的称呼。
与现有技术相比,本发明实施例至少包括:服务器获取由姓氏和名字组 成的姓名称呼,得到姓名称呼集合;获取姓名称呼集合中姓名称呼的名字部 分,得到名字集合;获取待处理文本中存在于名字集合的词组,得到待处理 文本中的称呼。从本发明实施例提供的技术方案可见,由于先获得了待处理 文本中能够识别出的姓名的名字部分,再从待处理文本中获得与名字部分相 同的词组,因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼, 从而提高了文本中称呼的识别度,保证了后续基于称呼的文本处理任务的顺利进行。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分 地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实 施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出 的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书 的一部分,与本申请的实施例一起用于解释本发明实施例的技术方案,并不 构成对本发明实施例技术方案的限制。
图1为本发明实施例提供的一种文本处理方法的流程示意图;
图2为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下文中将结 合附图对本发明实施例的实施例进行详细说明。需要说明的是,在不冲突的 情况下,本申请中的实施例及实施例中的特征可以相互任意集合。
本发明实施例提供一种文本处理方法,如图1所示,该方法包括:
步骤101、获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合。
需要说明的是,称呼包括:由姓氏和名字组成的姓名称呼,例如:林徽 因,由修饰性前缀和姓氏组成的前缀称呼,例如:小林,以及由姓氏和修饰 性后缀组成的后缀称呼,例如:林小姐。
具体的,现有技术中可以通过以下方法获取文本中的称呼:基于姓氏列 表或名人列表等数据的规则方法、基于人名标注数据训练识别人名的机器学 习模型、基于已训练好的人名识别模型,其中,基于已训练好的人名识别模 型可以是支持人名识别的自然语言处理应用程序编程接口(Application Programming Interface,API),具体包括:百度词法分析API、腾讯分词与命 名实体识别API、华为实体识别API等。
步骤102、获取姓名称呼集合中姓名称呼的名字部分,得到名字集合。
步骤103、获取待处理文本中存在于名字集合的词组,得到待处理文本 中的称呼。
本发明实施例所提供的文本处理方法,服务器获取由姓氏和名字组成的 姓名称呼,得到姓名称呼集合;获取姓名称呼集合中姓名称呼的名字部分, 得到名字集合;获取待处理文本中存在于名字集合的词组,得到待处理文本 中的称呼。从本发明实施例提供的技术方案可见,由于先获得了待处理文本 中能够识别出的姓名的名字部分,再从待处理文本中获得与名字部分相同的 词组,因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼,从而 提高了文本中称呼的识别度,保证了后续基于称呼的文本处理任务的顺利进行。
可选地,获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
步骤104、从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称 呼,得到前缀称呼集合。
需要说明的是,修饰性前缀可以是:“小”、“老”,从而与姓氏(假 设姓氏为林)组成的前缀称呼可以是:“小林”、“老林”。
步骤105、获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中 前缀称呼的姓氏部分,得到第一姓氏集合。
步骤106、获取前缀称呼集合中前缀称呼的前缀部分,得到前缀集合。
步骤107、根据获得的第一姓氏集合和获得的前缀集合,或者,根据获 得的第一姓氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的 称呼。
可选地,根据获得的第一姓氏集合和获得的前缀集合获取待处理文本中 的称呼,包括:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于获得的第一 姓氏集合中的词组,得到待处理文本中的称呼。
根据获得的第一姓氏集合、获得的前缀集合和预先设置的前缀集合获取 待处理文本中的称呼,包括:
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得 的第一姓氏集合中的词组,并获取待处理文本中一部分存在于预置的前缀集 合中且剩余部分存在于获得的第一姓氏集合中的词组,得到待处理文本中的 称呼。
可选地,获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
步骤108、从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称 呼,得到后缀称呼集合。
需要说明的是,修饰性后缀可以是:“先生”、“小姐”、“女士”、 “老先生”,从而与姓氏(假设姓氏为林)组成的后缀称呼可以是:“林先 生”、“林小姐”、“林女士”、“林老先生”。
步骤109、获取后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集 合。
步骤110、获取后缀称呼集合中后缀称呼的后缀部分,得到后缀集合。
步骤111、根据获得的第二姓氏集合和获得的后缀集合,或者,根据获 得的第二姓氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的 称呼。
可选地,根据获得的第二姓氏集合和获得的后缀集合获取待处理文本中 的称呼,包括:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于第一姓氏集 合中的词组,得到待处理文本中的称呼。
根据获得的第二姓氏集合、获得的后缀集合和预先设置的后缀集合获取 待处理文本中的称呼,包括:
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于姓氏 集合中的词组,并获取待处理文本中一部分存在于预先设置的前缀集合中且 剩余部分存在于获得的姓氏集合中的词组,得到待处理文本中的称呼。
本发明实施例还提供一种文本处理方法,假设待处理文本的内容如下:
1991年6月,原任解州铝厂副厂长的许付活担任了厂长,为了挖掘和调 动领导班子的积极性,许付活注意处理好这样几个关系:付活要求自己遇事 先调查研究,而不是武断下结论,从许厂长的身上,我们能够学习到很多优 点。
首先,使用基础人名识别模型,这里使用百度人名接口API提供的人名 识别模型,使用该模型可以识别出的姓名或称呼包括:“许付活”、“许厂 长”,但第二句中的“付活”并不是常见的中文名字,因此没有被识别出来; 接下来,整理上述信息,得到名字列表“付活”,姓氏列表“许”等信息, 从而可以得出待处理文本中的“付活”也是人名称呼。
本发明实施例提供一种服务器,如图2所示,该服务器2包括:
处理模块21,用于获取由姓氏和名字组成的姓名称呼,得到姓名称呼集 合。
处理模块21,还用于获取姓名称呼集合中姓名称呼的名字部分,得到名 字集合。
处理模块21,还用于获取待处理文本中存在于名字集合的词组,得到待 处理文本中的称呼。
可选地,处理模块21还用于:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合。
获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中前缀称呼的 姓氏部分,得到第一姓氏集合。
获取前缀称呼集合中前缀称呼的前缀部分,得到前缀集合。
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼。
可选地,处理模块21,具体用于取待处理文本中一部分存在于前缀集合 且剩余部分存在于获得的第一姓氏集合中的词组,得到待处理文本中的称呼。
处理模块21,具体还用于获取待处理文本中一部分存在于获得的前缀集 合且剩余部分存在于获得的第一姓氏集合中的词组,并获取待处理文本中一 部分存在于预置的前缀集合中且剩余部分存在于获得的第一姓氏集合中的词 组,得到待处理文本中的称呼。
可选地,处理模块21还用于:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合。
获取后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合。
获取后缀称呼集合中后缀称呼的后缀部分,得到后缀集合。
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼。
可选地,处理模块21,具体用于获取待处理文本中一部分存在于前缀集 合且剩余部分存在于第一姓氏集合中的词组,得到待处理文本中的称呼。
处理模块21,具体用于获取待处理文本中一部分存在于获得的前缀集合 且剩余部分存在于姓氏集合中的词组,并获取待处理文本中一部分存在于预 先设置的前缀集合中且剩余部分存在于获得的姓氏集合中的词组,得到待处 理文本中的称呼。
本发明实施例所提供的服务器,获取由姓氏和名字组成的姓名称呼,得 到姓名称呼集合;获取姓名称呼集合中姓名称呼的名字部分,得到名字集合; 获取待处理文本中存在于名字集合的词组,得到待处理文本中的称呼。从本 发明实施例提供的技术方案可见,由于先获得了待处理文本中能够识别出的 姓名的名字部分,再从待处理文本中获得与名字部分相同的词组,因此获得 了待处理文本中原先无法识别出的省略了姓氏的称呼,从而提高了文本中称 呼的识别度,保证了后续基于称呼的文本处理任务的顺利进行。
在实际应用中,所述处理模块21位于服务器中的中央处理器(CentralProcessing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信 号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable GateArray,FPGA)等实现。
本发明实施例还提供一种文本处理装置,包括存储器和处理器,其中, 存储器中存储有以下可被处理器执行的命令:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合。
获取姓名称呼集合中姓名称呼的名字部分,得到名字集合。
获取待处理文本中存在于名字集合的词组,得到待处理文本中的称呼。
可选地,存储器中还存储有以下可被处理器执行的命令:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合。
获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中前缀称呼的 姓氏部分,得到第一姓氏集合。
获取前缀称呼集合中前缀称呼的前缀部分,得到前缀集合。
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼。
可选地,存储器中具体存储有以下可被处理器执行的命令:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于获得的第一 姓氏集合中的词组,得到待处理文本中的称呼。
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得 的第一姓氏集合中的词组,并获取待处理文本中一部分存在于预置的前缀集 合中且剩余部分存在于获得的第一姓氏集合中的词组,得到待处理文本中的 称呼。
可选地,存储器中还存储有以下可被处理器执行的命令:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合。
获取后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合。
获取后缀称呼集合中后缀称呼的后缀部分,得到后缀集合。
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼。
可选地,存储器中具体存储有以下可被处理器执行的命令:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于第一姓氏集 合中的词组,得到待处理文本中的称呼。
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于姓氏 集合中的词组,并获取待处理文本中一部分存在于预先设置的前缀集合中且 剩余部分存在于获得的姓氏集合中的词组,得到待处理文本中的称呼。
本发明实施例还提供一种计算机可读存储介质,存储介质上存储有计算 机可执行命令,计算机可执行命令用于执行以下步骤:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合。
获取姓名称呼集合中姓名称呼的名字部分,得到名字集合。
获取待处理文本中存在于名字集合的词组,得到待处理文本中的称呼。
可选地,计算机可执行命令还用于执行以下步骤:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合。
获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中前缀称呼的 姓氏部分,得到第一姓氏集合。
获取前缀称呼集合中前缀称呼的前缀部分,得到前缀集合。
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼。
可选地,计算机可执行命令具体用于执行以下步骤:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于获得的第一 姓氏集合中的词组,得到待处理文本中的称呼。
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得 的第一姓氏集合中的词组,并获取待处理文本中一部分存在于预置的前缀集 合中且剩余部分存在于获得的第一姓氏集合中的词组,得到待处理文本中的 称呼。
可选地,计算机可执行命令还用于执行以下步骤:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合。
获取后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合。
获取后缀称呼集合中后缀称呼的后缀部分,得到后缀集合。
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼。
可选地,计算机可执行命令具体用于执行以下步骤:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于第一姓氏集 合中的词组,得到待处理文本中的称呼。
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于姓氏 集合中的词组,并获取待处理文本中一部分存在于预先设置的前缀集合中且 剩余部分存在于获得的姓氏集合中的词组,得到待处理文本中的称呼。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解 本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明 实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围 的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实 施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
服务器获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文本中的称呼。
2.根据权利要求1所述的文本处理方法,其特征在于,所述获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前缀称呼集合;
获取所述姓名称呼集合中姓名称呼的姓氏部分和所述前缀称呼集合中前缀称呼的姓氏部分,得到第一姓氏集合;
获取所述前缀称呼集合中前缀称呼的前缀部分,得到前缀集合;
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓氏集合、获得的前缀集合和预置的前缀集合获取所述待处理文本中的称呼。
3.根据权利要求2所述的文本处理方法,其特征在于,所述根据获得的第一姓氏集合和获得的前缀集合获取待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于获得的第一姓氏集合中的词组,得到所述待处理文本中的称呼;
所述根据获得的第一姓氏集合、获得的前缀集合和预先设置的前缀集合获取所述待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得的第一姓氏集合中的词组,并获取所述待处理文本中一部分存在于预置的前缀集合中且剩余部分存在于获得的第一姓氏集合中的词组,得到所述待处理文本中的称呼。
4.根据权利要求1或2所述的文本处理方法,其特征在于,所述获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后缀称呼集合;
获取所述后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合;
获取所述后缀称呼集合中后缀称呼的后缀部分,得到后缀集合;
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓氏集合、获得的后缀集合和预置的后缀集合获取所述待处理文本中的称呼。
5.根据权利要求4所述的文本处理方法,其特征在于,所述根据获得的第二姓氏集合和获得的后缀集合获取待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于所述第一姓氏集合中的词组,得到所述待处理文本中的称呼;
所述根据获得的第二姓氏集合、获得的后缀集合和预先设置的后缀集合获取待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于所述姓氏集合中的词组,并获取所述待处理文本中一部分存在于所述预先设置的前缀集合中且剩余部分存在于获得的姓氏集合中的词组,得到所述待处理文本中的称呼。
6.一种服务器,其特征在于,包括:
处理模块,用于获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
所述处理模块,还用于获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
所述处理模块,还用于获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文本中的称呼。
7.根据权利要求6所述的服务器,其特征在于,所述处理模块还用于:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前缀称呼集合;
获取所述姓名称呼集合中姓名称呼的姓氏部分和所述前缀称呼集合中前缀称呼的姓氏部分,得到第一姓氏集合;
获取所述前缀称呼集合中前缀称呼的前缀部分,得到前缀集合;
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓氏集合、获得的前缀集合和预置的前缀集合获取所述待处理文本中的称呼。
8.根据权利要求6或7所述的服务器,其特征在于,所述处理模块还用于:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后缀称呼集合;
获取所述后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合;
获取所述后缀称呼集合中后缀称呼的后缀部分,得到后缀集合;
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓氏集合、获得的后缀集合和预置的后缀集合获取所述待处理文本中的称呼。
9.一种文本处理装置,其特征在于,包括:处理器和存储器,其中,存储器中存储有以下可被处理器执行的命令:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文本中的称呼。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文本中的称呼。
CN201811621752.4A 2018-12-28 2018-12-28 一种文本处理方法、装置及计算机可读存储介质 Active CN109726399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811621752.4A CN109726399B (zh) 2018-12-28 2018-12-28 一种文本处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811621752.4A CN109726399B (zh) 2018-12-28 2018-12-28 一种文本处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109726399A true CN109726399A (zh) 2019-05-07
CN109726399B CN109726399B (zh) 2022-11-11

Family

ID=66297449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811621752.4A Active CN109726399B (zh) 2018-12-28 2018-12-28 一种文本处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109726399B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148948A (ja) * 2005-11-30 2007-06-14 Hitachi Ltd 文書検索プログラム
CN103513778A (zh) * 2012-06-20 2014-01-15 北京搜狗科技发展有限公司 一种针对人名的输入方法及装置
CN107844477A (zh) * 2017-10-25 2018-03-27 西安影视数据评估中心有限公司 一种影视剧本人物名称的提取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148948A (ja) * 2005-11-30 2007-06-14 Hitachi Ltd 文書検索プログラム
CN103513778A (zh) * 2012-06-20 2014-01-15 北京搜狗科技发展有限公司 一种针对人名的输入方法及装置
CN107844477A (zh) * 2017-10-25 2018-03-27 西安影视数据评估中心有限公司 一种影视剧本人物名称的提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
在天空飞翔: "简单的中文姓名生成器", 《博客园》 *

Also Published As

Publication number Publication date
CN109726399B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
US10824874B2 (en) Method and apparatus for processing video
US9424253B2 (en) Domain specific natural language normalization
CN108205674B (zh) 社交app的内容识别方法、电子设备、存储介质及系统
JP6771259B2 (ja) 画像および関連するテキストを処理するためのコンピュータ実装される方法、コンピュータ・プログラム製品、ならびにコンピュータ・システム
KR20110063313A (ko) 메시지 큐 내에서 논리적으로 연관된 메시지들의 자동화된 병합 방법
US20170004820A1 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
CN106899750A (zh) 基于卡片的信息展示方法、信息展示业务的处理方法及装置
US11314819B2 (en) Systems, apparatuses, and method for document ingestion
US9292252B2 (en) Methods and apparatus for voiced-enabling a web application
US8296785B2 (en) Providing links between application programs
CN112580339B (zh) 模型的训练方法、装置、电子设备及存储介质
CN108090069A (zh) 一种在浏览器中显示网页资源的方法和装置
US10380233B2 (en) Launching workflow processes based on annotations in a document
CN113656763A (zh) 确定小程序特征向量的方法、装置和电子设备
CN111104542B (zh) 零件识别管理方法及装置
CN109726399A (zh) 一种文本处理方法、装置及计算机可读存储介质
CN107943881A (zh) 题库生成方法、服务器及计算机可读存储介质
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
US9514501B2 (en) Systems and methods for multimedia-processing
CN104572945B (zh) 一种基于云存储空间的文件搜索方法和装置
WO2014198111A1 (en) Systems and methods for multimedia-processing
CN107798104A (zh) 一种目录管理方法、装置、设备及计算机可读存储介质
CN103279754A (zh) 名片云识别方法及系统
CN104572743B (zh) 快速链接的信息更新方法及装置
CN109683994B (zh) 确定视图构建时间的方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant