CN109726399B - 一种文本处理方法、装置及计算机可读存储介质 - Google Patents

一种文本处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109726399B
CN109726399B CN201811621752.4A CN201811621752A CN109726399B CN 109726399 B CN109726399 B CN 109726399B CN 201811621752 A CN201811621752 A CN 201811621752A CN 109726399 B CN109726399 B CN 109726399B
Authority
CN
China
Prior art keywords
name
text
surname
acquiring
prefix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811621752.4A
Other languages
English (en)
Other versions
CN109726399A (zh
Inventor
欧阳佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201811621752.4A priority Critical patent/CN109726399B/zh
Publication of CN109726399A publication Critical patent/CN109726399A/zh
Application granted granted Critical
Publication of CN109726399B publication Critical patent/CN109726399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例公开了一种文本处理方法、装置及存储介质,包括:获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;获取姓名称呼集合中姓名称呼的名字部分,得到名字集合;获取待处理文本中存在于名字集合的词组,得到待处理文本中的称呼。从本发明实施例提供的技术方案可见,由于先获得了待处理文本中能够识别出的姓名的名字部分,再从待处理文本中获得与名字部分相同的词组,因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼,从而提高了文本中称呼的识别度,保证了后续基于称呼的文本处理任务的顺利进行。

Description

一种文本处理方法、装置及计算机可读存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本处理方法、装置 及计算机可读存储介质。
背景技术
针对特定对象的称呼是文本中重要的语义成分,对于理解新闻等类型的 文本,称呼的识别尤其重要。
标准的中文称呼具有比较明显的特点,姓名就是一种完整的称呼,姓名 由“姓氏”+“名字”的标准格式组成,其中姓氏本身往往又属于百家姓这 样较为固定的列表,因此目前对这类人名的识别精度可超过95%。但非标准 格式的称呼(比如省略了姓氏),其识别难度可能就较大。例如语句:“徽 因就这样降下了帆,拒绝了大海的诱惑”,省略了姓氏“林”而单独保留了 名字“徽因”,相关技术无法识别这样的称呼,从而无法开展基于称呼的文 本处理任务。
发明内容
为了解决上述技术问题,本发明实施例提供一种文本处理方法、装置及 计算机可读存储介质,能够提高文本中称呼的识别度,从而保证后续基于称 呼的文本处理任务顺利进行。
为了达到本发明实施例目的,本发明实施例提供了一种文本处理方法, 包括:
服务器获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文 本中的称呼。
所述获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合;
获取所述姓名称呼集合中姓名称呼的姓氏部分和所述前缀称呼集合中前 缀称呼的姓氏部分,得到第一姓氏集合;
获取所述前缀称呼集合中前缀称呼的前缀部分,得到前缀集合;
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取所述待处理文本中的称呼。
所述根据获得的第一姓氏集合和获得的前缀集合获取待处理文本中的称 呼,包括:
获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于获 得的第一姓氏集合中的词组,得到所述待处理文本中的称呼;
所述根据获得的第一姓氏集合、获得的前缀集合和预先设置的前缀集合 获取所述待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于 获得的第一姓氏集合中的词组,并获取所述待处理文本中一部分存在于预置 的前缀集合中且剩余部分存在于获得的第一姓氏集合中的词组,得到所述待 处理文本中的称呼。
所述获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合;
获取所述后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合;
获取所述后缀称呼集合中后缀称呼的后缀部分,得到后缀集合;
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取所述待处理文本中的称呼。
所述根据获得的第二姓氏集合和获得的后缀集合获取待处理文本中的称 呼,包括:
获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于所 述第一姓氏集合中的词组,得到所述待处理文本中的称呼;
所述根据获得的第二姓氏集合、获得的后缀集合和预先设置的后缀集合 获取待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于 所述姓氏集合中的词组,并获取所述待处理文本中一部分存在于所述预先设 置的前缀集合中且剩余部分存在于获得的姓氏集合中的词组,得到所述待处 理文本中的称呼。
本发明实施例还提供了一种服务器,包括:
处理模块,用于获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
所述处理模块,还用于获取所述姓名称呼集合中姓名称呼的名字部分, 得到名字集合;
所述处理模块,还用于获取所述待处理文本中存在于所述名字集合的词 组,得到所述待处理文本中的称呼。
所述处理模块还用于:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合;
获取所述姓名称呼集合中姓名称呼的姓氏部分和所述前缀称呼集合中前 缀称呼的姓氏部分,得到第一姓氏集合;
获取所述前缀称呼集合中前缀称呼的前缀部分,得到前缀集合;
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取所述待处理文本中的称呼。
所述处理模块还用于:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合;
获取所述后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合;
获取所述后缀称呼集合中后缀称呼的后缀部分,得到后缀集合;
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取所述待处理文本中的称呼。
本发明实施例还提供了一种文本处理装置,包括:处理器和存储器,其 中,存储器中存储有以下可被处理器执行的命令:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文 本中的称呼。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质上存储 有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文 本中的称呼。
与现有技术相比,本发明实施例至少包括:服务器获取由姓氏和名字组 成的姓名称呼,得到姓名称呼集合;获取姓名称呼集合中姓名称呼的名字部 分,得到名字集合;获取待处理文本中存在于名字集合的词组,得到待处理 文本中的称呼。从本发明实施例提供的技术方案可见,由于先获得了待处理 文本中能够识别出的姓名的名字部分,再从待处理文本中获得与名字部分相 同的词组,因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼, 从而提高了文本中称呼的识别度,保证了后续基于称呼的文本处理任务的顺利进行。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分 地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实 施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出 的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书 的一部分,与本申请的实施例一起用于解释本发明实施例的技术方案,并不 构成对本发明实施例技术方案的限制。
图1为本发明实施例提供的一种文本处理方法的流程示意图;
图2为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下文中将结 合附图对本发明实施例的实施例进行详细说明。需要说明的是,在不冲突的 情况下,本申请中的实施例及实施例中的特征可以相互任意集合。
本发明实施例提供一种文本处理方法,如图1所示,该方法包括:
步骤101、获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合。
需要说明的是,称呼包括:由姓氏和名字组成的姓名称呼,例如:林徽 因,由修饰性前缀和姓氏组成的前缀称呼,例如:小林,以及由姓氏和修饰 性后缀组成的后缀称呼,例如:林小姐。
具体的,现有技术中可以通过以下方法获取文本中的称呼:基于姓氏列 表或名人列表等数据的规则方法、基于人名标注数据训练识别人名的机器学 习模型、基于已训练好的人名识别模型,其中,基于已训练好的人名识别模 型可以是支持人名识别的自然语言处理应用程序编程接口(Application Programming Interface,API),具体包括:百度词法分析API、腾讯分词与命 名实体识别API、华为实体识别API等。
步骤102、获取姓名称呼集合中姓名称呼的名字部分,得到名字集合。
步骤103、获取待处理文本中存在于名字集合的词组,得到待处理文本 中的称呼。
本发明实施例所提供的文本处理方法,服务器获取由姓氏和名字组成的 姓名称呼,得到姓名称呼集合;获取姓名称呼集合中姓名称呼的名字部分, 得到名字集合;获取待处理文本中存在于名字集合的词组,得到待处理文本 中的称呼。从本发明实施例提供的技术方案可见,由于先获得了待处理文本 中能够识别出的姓名的名字部分,再从待处理文本中获得与名字部分相同的 词组,因此获得了待处理文本中原先无法识别出的省略了姓氏的称呼,从而 提高了文本中称呼的识别度,保证了后续基于称呼的文本处理任务的顺利进行。
可选地,获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
步骤104、从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称 呼,得到前缀称呼集合。
需要说明的是,修饰性前缀可以是:“小”、“老”,从而与姓氏(假 设姓氏为林)组成的前缀称呼可以是:“小林”、“老林”。
步骤105、获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中 前缀称呼的姓氏部分,得到第一姓氏集合。
步骤106、获取前缀称呼集合中前缀称呼的前缀部分,得到前缀集合。
步骤107、根据获得的第一姓氏集合和获得的前缀集合,或者,根据获 得的第一姓氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的 称呼。
可选地,根据获得的第一姓氏集合和获得的前缀集合获取待处理文本中 的称呼,包括:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于获得的第一 姓氏集合中的词组,得到待处理文本中的称呼。
根据获得的第一姓氏集合、获得的前缀集合和预先设置的前缀集合获取 待处理文本中的称呼,包括:
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得 的第一姓氏集合中的词组,并获取待处理文本中一部分存在于预置的前缀集 合中且剩余部分存在于获得的第一姓氏集合中的词组,得到待处理文本中的 称呼。
可选地,获取由姓氏和名字组成的姓名称呼之前或之后,还包括:
步骤108、从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称 呼,得到后缀称呼集合。
需要说明的是,修饰性后缀可以是:“先生”、“小姐”、“女士”、 “老先生”,从而与姓氏(假设姓氏为林)组成的后缀称呼可以是:“林先 生”、“林小姐”、“林女士”、“林老先生”。
步骤109、获取后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集 合。
步骤110、获取后缀称呼集合中后缀称呼的后缀部分,得到后缀集合。
步骤111、根据获得的第二姓氏集合和获得的后缀集合,或者,根据获 得的第二姓氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的 称呼。
可选地,根据获得的第二姓氏集合和获得的后缀集合获取待处理文本中 的称呼,包括:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于第一姓氏集 合中的词组,得到待处理文本中的称呼。
根据获得的第二姓氏集合、获得的后缀集合和预先设置的后缀集合获取 待处理文本中的称呼,包括:
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于姓氏 集合中的词组,并获取待处理文本中一部分存在于预先设置的前缀集合中且 剩余部分存在于获得的姓氏集合中的词组,得到待处理文本中的称呼。
本发明实施例还提供一种文本处理方法,假设待处理文本的内容如下:
1991年6月,原任解州铝厂副厂长的许付活担任了厂长,为了挖掘和调 动领导班子的积极性,许付活注意处理好这样几个关系:付活要求自己遇事 先调查研究,而不是武断下结论,从许厂长的身上,我们能够学习到很多优 点。
首先,使用基础人名识别模型,这里使用百度人名接口API提供的人名 识别模型,使用该模型可以识别出的姓名或称呼包括:“许付活”、“许厂 长”,但第二句中的“付活”并不是常见的中文名字,因此没有被识别出来; 接下来,整理上述信息,得到名字列表“付活”,姓氏列表“许”等信息, 从而可以得出待处理文本中的“付活”也是人名称呼。
本发明实施例提供一种服务器,如图2所示,该服务器2包括:
处理模块21,用于获取由姓氏和名字组成的姓名称呼,得到姓名称呼集 合。
处理模块21,还用于获取姓名称呼集合中姓名称呼的名字部分,得到名 字集合。
处理模块21,还用于获取待处理文本中存在于名字集合的词组,得到待 处理文本中的称呼。
可选地,处理模块21还用于:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合。
获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中前缀称呼的 姓氏部分,得到第一姓氏集合。
获取前缀称呼集合中前缀称呼的前缀部分,得到前缀集合。
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼。
可选地,处理模块21,具体用于取待处理文本中一部分存在于前缀集合 且剩余部分存在于获得的第一姓氏集合中的词组,得到待处理文本中的称呼。
处理模块21,具体还用于获取待处理文本中一部分存在于获得的前缀集 合且剩余部分存在于获得的第一姓氏集合中的词组,并获取待处理文本中一 部分存在于预置的前缀集合中且剩余部分存在于获得的第一姓氏集合中的词 组,得到待处理文本中的称呼。
可选地,处理模块21还用于:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合。
获取后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合。
获取后缀称呼集合中后缀称呼的后缀部分,得到后缀集合。
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼。
可选地,处理模块21,具体用于获取待处理文本中一部分存在于前缀集 合且剩余部分存在于第一姓氏集合中的词组,得到待处理文本中的称呼。
处理模块21,具体用于获取待处理文本中一部分存在于获得的前缀集合 且剩余部分存在于姓氏集合中的词组,并获取待处理文本中一部分存在于预 先设置的前缀集合中且剩余部分存在于获得的姓氏集合中的词组,得到待处 理文本中的称呼。
本发明实施例所提供的服务器,获取由姓氏和名字组成的姓名称呼,得 到姓名称呼集合;获取姓名称呼集合中姓名称呼的名字部分,得到名字集合; 获取待处理文本中存在于名字集合的词组,得到待处理文本中的称呼。从本 发明实施例提供的技术方案可见,由于先获得了待处理文本中能够识别出的 姓名的名字部分,再从待处理文本中获得与名字部分相同的词组,因此获得 了待处理文本中原先无法识别出的省略了姓氏的称呼,从而提高了文本中称 呼的识别度,保证了后续基于称呼的文本处理任务的顺利进行。
在实际应用中,所述处理模块21位于服务器中的中央处理器(CentralProcessing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信 号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable GateArray,FPGA)等实现。
本发明实施例还提供一种文本处理装置,包括存储器和处理器,其中, 存储器中存储有以下可被处理器执行的命令:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合。
获取姓名称呼集合中姓名称呼的名字部分,得到名字集合。
获取待处理文本中存在于名字集合的词组,得到待处理文本中的称呼。
可选地,存储器中还存储有以下可被处理器执行的命令:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合。
获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中前缀称呼的 姓氏部分,得到第一姓氏集合。
获取前缀称呼集合中前缀称呼的前缀部分,得到前缀集合。
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼。
可选地,存储器中具体存储有以下可被处理器执行的命令:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于获得的第一 姓氏集合中的词组,得到待处理文本中的称呼。
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得 的第一姓氏集合中的词组,并获取待处理文本中一部分存在于预置的前缀集 合中且剩余部分存在于获得的第一姓氏集合中的词组,得到待处理文本中的 称呼。
可选地,存储器中还存储有以下可被处理器执行的命令:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合。
获取后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合。
获取后缀称呼集合中后缀称呼的后缀部分,得到后缀集合。
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼。
可选地,存储器中具体存储有以下可被处理器执行的命令:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于第一姓氏集 合中的词组,得到待处理文本中的称呼。
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于姓氏 集合中的词组,并获取待处理文本中一部分存在于预先设置的前缀集合中且 剩余部分存在于获得的姓氏集合中的词组,得到待处理文本中的称呼。
本发明实施例还提供一种计算机可读存储介质,存储介质上存储有计算 机可执行命令,计算机可执行命令用于执行以下步骤:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合。
获取姓名称呼集合中姓名称呼的名字部分,得到名字集合。
获取待处理文本中存在于名字集合的词组,得到待处理文本中的称呼。
可选地,计算机可执行命令还用于执行以下步骤:
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前 缀称呼集合。
获取姓名称呼集合中姓名称呼的姓氏部分和前缀称呼集合中前缀称呼的 姓氏部分,得到第一姓氏集合。
获取前缀称呼集合中前缀称呼的前缀部分,得到前缀集合。
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓 氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼。
可选地,计算机可执行命令具体用于执行以下步骤:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于获得的第一 姓氏集合中的词组,得到待处理文本中的称呼。
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得 的第一姓氏集合中的词组,并获取待处理文本中一部分存在于预置的前缀集 合中且剩余部分存在于获得的第一姓氏集合中的词组,得到待处理文本中的 称呼。
可选地,计算机可执行命令还用于执行以下步骤:
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后 缀称呼集合。
获取后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合。
获取后缀称呼集合中后缀称呼的后缀部分,得到后缀集合。
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓 氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼。
可选地,计算机可执行命令具体用于执行以下步骤:
获取待处理文本中一部分存在于前缀集合且剩余部分存在于第一姓氏集 合中的词组,得到待处理文本中的称呼。
获取待处理文本中一部分存在于获得的前缀集合且剩余部分存在于姓氏 集合中的词组,并获取待处理文本中一部分存在于预先设置的前缀集合中且 剩余部分存在于获得的姓氏集合中的词组,得到待处理文本中的称呼。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解 本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明 实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围 的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实 施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (6)

1.一种文本处理方法,其特征在于,包括:
服务器获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前缀称呼集合;
获取所述姓名称呼集合中姓名称呼的姓氏部分和所述前缀称呼集合中前缀称呼的姓氏部分,得到第一姓氏集合;
获取所述前缀称呼集合中前缀称呼的前缀部分,得到前缀集合;
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼;
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后缀称呼集合;
获取所述后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合;
获取所述后缀称呼集合中后缀称呼的后缀部分,得到后缀集合;
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼;获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文本中的称呼。
2.根据权利要求1所述的文本处理方法,其特征在于,所述根据获得的第一姓氏集合和获得的前缀集合获取待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于获得的第一姓氏集合中的词组,得到所述待处理文本中的称呼;
所述根据获得的第一姓氏集合、获得的前缀集合和预先设置的前缀集合获取所述待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于获得的第一姓氏集合中的词组,并获取所述待处理文本中一部分存在于预置的前缀集合中且剩余部分存在于获得的第一姓氏集合中的词组,得到所述待处理文本中的称呼。
3.根据权利要求1所述的文本处理方法,其特征在于,所述根据获得的第二姓氏集合和获得的后缀集合获取待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于所述前缀集合且剩余部分存在于所述第一姓氏集合中的词组,得到所述待处理文本中的称呼;
所述根据获得的第二姓氏集合、获得的后缀集合和预先设置的后缀集合获取待处理文本中的称呼,包括:
获取所述待处理文本中一部分存在于获得的前缀集合且剩余部分存在于所述姓氏集合中的词组,并获取所述待处理文本中一部分存在于所述预先设置的前缀集合中且剩余部分存在于获得的姓氏集合中的词组,得到所述待处理文本中的称呼。
4.一种服务器,其特征在于,包括:
处理模块,用于获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
从获得的称呼集合中获取由修饰性前缀和姓氏组成的前缀称呼,得到前缀称呼集合;
获取所述姓名称呼集合中姓名称呼的姓氏部分和所述前缀称呼集合中前缀称呼的姓氏部分,得到第一姓氏集合;
获取所述前缀称呼集合中前缀称呼的前缀部分,得到前缀集合;
根据获得的第一姓氏集合和获得的前缀集合,或者,根据获得的第一姓氏集合、获得的前缀集合和预置的前缀集合获取待处理文本中的称呼;
从获得的称呼集合中获取由姓氏和修饰性后缀组成的后缀称呼,得到后缀称呼集合;
获取所述后缀称呼集合中后缀称呼的姓氏部分,得到第二姓氏集合;
获取所述后缀称呼集合中后缀称呼的后缀部分,得到后缀集合;
根据获得的第二姓氏集合和获得的后缀集合,或者,根据获得的第二姓氏集合、获得的后缀集合和预置的后缀集合获取待处理文本中的称呼;
所述处理模块,还用于获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
所述处理模块,还用于获取所述待处理文本中存在于所述名字集合的词组,得到所述待处理文本中的称呼。
5.一种文本处理装置,其特征在于,包括:处理器和存储器,其中,存储器中存储有以下可被处理器执行的命令:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取待处理文本中存在于所述名字集合的词组,得到所述待处理文本中的称呼。
6.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
获取由姓氏和名字组成的姓名称呼,得到姓名称呼集合;
获取所述姓名称呼集合中姓名称呼的名字部分,得到名字集合;
获取待处理文本中存在于所述名字集合的词组,得到所述待处理文本中的称呼。
CN201811621752.4A 2018-12-28 2018-12-28 一种文本处理方法、装置及计算机可读存储介质 Active CN109726399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811621752.4A CN109726399B (zh) 2018-12-28 2018-12-28 一种文本处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811621752.4A CN109726399B (zh) 2018-12-28 2018-12-28 一种文本处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109726399A CN109726399A (zh) 2019-05-07
CN109726399B true CN109726399B (zh) 2022-11-11

Family

ID=66297449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811621752.4A Active CN109726399B (zh) 2018-12-28 2018-12-28 一种文本处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109726399B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148948A (ja) * 2005-11-30 2007-06-14 Hitachi Ltd 文書検索プログラム
CN103513778A (zh) * 2012-06-20 2014-01-15 北京搜狗科技发展有限公司 一种针对人名的输入方法及装置
CN107844477A (zh) * 2017-10-25 2018-03-27 西安影视数据评估中心有限公司 一种影视剧本人物名称的提取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148948A (ja) * 2005-11-30 2007-06-14 Hitachi Ltd 文書検索プログラム
CN103513778A (zh) * 2012-06-20 2014-01-15 北京搜狗科技发展有限公司 一种针对人名的输入方法及装置
CN107844477A (zh) * 2017-10-25 2018-03-27 西安影视数据评估中心有限公司 一种影视剧本人物名称的提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
简单的中文姓名生成器;在天空飞翔;《博客园》;20130218;全文 *

Also Published As

Publication number Publication date
CN109726399A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
US9378741B2 (en) Search results using intonation nuances
US10192544B2 (en) Method and system for constructing a language model
US20160306783A1 (en) Method and apparatus for phonetically annotating text
EP3405912A1 (en) Analyzing textual data
US20030004991A1 (en) Correlating handwritten annotations to a document
US9122673B2 (en) Domain specific natural language normalization
US10242670B2 (en) Syntactic re-ranking of potential transcriptions during automatic speech recognition
US20210248498A1 (en) Method and apparatus for training pre-trained knowledge model, and electronic device
CN106919542B (zh) 规则匹配方法及装置
WO2017166626A1 (zh) 归一化方法、装置和电子设备
CN101561725B (zh) 一种手写快速输入的方法和系统
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
CN109616096A (zh) 多语种语音解码图的构建方法、装置、服务器和介质
US20130297284A1 (en) Apparatus and method for generating polite expressions for automatic translation
CN114556328A (zh) 数据处理方法、装置、电子设备和存储介质
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
WO2022267454A1 (zh) 分析文本的方法、装置、设备及存储介质
CN111859950A (zh) 一种自动化生成讲稿的方法
CN109726399B (zh) 一种文本处理方法、装置及计算机可读存储介质
US11238865B2 (en) Function performance based on input intonation
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
CN110888976A (zh) 一种文本摘要生成方法和装置
CN113657102B (zh) 信息抽取方法、装置、设备及存储介质
US11853356B1 (en) System and method for generating hierarchical mind map and index table
US20210109960A1 (en) Electronic apparatus and controlling method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant