CN112131871B - 识别中文人名的方法、装置、设备及存储介质 - Google Patents
识别中文人名的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112131871B CN112131871B CN202011004052.8A CN202011004052A CN112131871B CN 112131871 B CN112131871 B CN 112131871B CN 202011004052 A CN202011004052 A CN 202011004052A CN 112131871 B CN112131871 B CN 112131871B
- Authority
- CN
- China
- Prior art keywords
- name
- surname
- character string
- chinese
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术领域,具体公开了一种识别中文人名的方法、装置、计算机设备及计算机可读存储介质,该方法包括:通过基于预置关键词对待处理文本进行截取,得到至少一个短文本;获取所述短文本中各个字符串的人名概率值;根据所述人名概率值,确定所述字符串是否为中文人名;若确定所述字符串不是为中文人名,则获取所述短文本中各个字词的词性信息;根据所述字词的词性信息,确定所述字词为中文人名,实现了通过人名概率值和词性信息准确识别文本中不同类型的中文人名,提升中文人名识别的准确率和查全率。同时,本发明还涉及区块链技术,且本发明可适用于智慧政务、智慧教育、智慧医疗等领域,从而可以进一步推动智慧城市的建设。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种识别中文人名的方法、装置、计算机设备及计算机可读存储介质。
背景技术
教育平台中很多资源都存储着作者介绍,一般用于查看,以对该作者产生一定的了解,但其实作者介绍还有别的作用,例如,可以提取出作者姓名及对应的关键词,根据作者姓名和关键词在资源推荐中进行同作者作品推荐和同类型作品推荐,以寻求用户更高的点击率和转化率。而提取作者姓名就涉及到文本识别的技术,基于角色标注和词性标注的人名识别方法在行业内较多。目前大多利用单一的算法和模型进行识别,但是单一的算法只对某种类型的人名效果较好,对多种类型的人名不能自适应的识别,需要人工参与进行分别处理,其中需要花费较高的成本,且不能实现自动识别。
发明内容
本申请的主要目的在于提供一种识别中文人名的方法、装置、计算机设备及计算机可读存储介质,旨在解决现有的单一的算法只对某种类型的人名效果较好,对多种类型的人名不能自适应的识别,需要人工参与进行分别处理,其中需要花费较高的成本,且不能实现自动识别的技术问题。
第一方面,本申请提供一种识别中文人名的方法,所述识别中文人名的方法包括以下步骤:
基于预置关键词对待处理文本进行截取,得到至少一个短文本;
获取所述短文本中各个字符串的人名概率值;
根据所述人名概率值,确定所述字符串是否为中文人名;
若确定所述字符串不是中文人名,则获取所述短文本中各个字词的词性信息;
根据所述字词的词性信息,确定所述字词为中文人名。
第二方面,本申请还提供一种识别中文人名装置,所述识别中文人名装置包括:
截取模块,用于基于预置关键词对待处理文本进行截取,得到至少一个短文本;
第一获取模块,用于获取所述短文本中各个字符串的人名概率值;
第一确定模块,用于根据所述人名概率值,确定所述字符串是否为中文人名;
第二获取模块,用于若确定所述字符串不是为中文人名,则获取所述短文本中各个字词的词性信息;
第二确定模块,用于基于所述字词的词性信息,确定所述字词为中文人名。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的识别中文人名的方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的识别中文人名的方法的步骤。
本申请提供一种识别中文人名的方法、装置、计算机设备及计算机可读存储介质,通过基于预置关键词对待处理文本进行截取,得到至少一个短文本;获取所述短文本中各个字符串的人名概率值;根据所述人名概率值,确定所述字符串是否为中文人名;若确定所述字符串不是为中文人名,则获取所述短文本中各个字词的词性信息;根据所述字词的词性信息,确定所述字词为中文人名,实现了通过人名概率值和词性信息准确识别文本中不同类型的中文人名,提升中文人名识别的准确率和查全率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种识别中文人名的方法的流程示意图;
图2为图1中的识别中文人名的方法的子步骤流程示意图;
图3为图1中的识别中文人名的方法的子步骤流程示意图;
图4为图1中的识别中文人名的方法的子步骤流程示意图;
图5为图1中的识别中文人名的方法的子步骤流程示意图;
图6为本申请实施例提供的一种识别中文人名装置的示意性框图;
图7为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种识别中文人名的方法、装置、计算机设备及计算机可读存储介质。其中,该识别中文人名的方法可应用于计算机设备中,该计算机设备可以是笔记本电脑、台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种识别中文人名的方法的流程示意图。
如图1所示,该识别中文人名的方法包括步骤S101至步骤S105。
步骤S101、基于预置关键词对待处理文本进行截取,得到至少一个短文本。
示范性的,获取待处理文本,该待处理文本包括书本、文章等包含人名的文本。当获取到待处理文本时,通过预置关键词对该处理文本进行截取,得到短文本,其中短文本的数量至少为一个。例如,预置关键词包括讲师简介、讲师介绍、作者介绍、关于作者、主讲老师、课程开发人、作者简介。通过讲师简介等字眼查询待处理文本,获取该讲师简介在待处理文本中的位置,根据所述位置对该待处理文本进截取,得到对应的短文本。例如,在确定讲师简介在待处理文本中的位置时,截取该位置后的100个字符,将截取到的字符作为短文本。
步骤S102、获取所述短文本中各个字符串的人名概率值。
示范性的,通过预置数据集,该预置数据集包括人名数据集和非人名数据集。根据该人名数据集和非人名数据集获取该短文本中各个字符串的人名概率值。例如,人名数据集中包括各种姓氏和各种人名,非人名数据集中包括多种非姓氏和各种非人名,获取短文本中各个字符串在人名数据集中出现的概率以及在非人名数据集中出现的概率。通过该字符串在人名数据集中出现的概率以及在非人名数据集中出现的概率,得到该字符串的人名概率值。或者,获取该字符串在人名数据集中出现的次数以及出现在非人名数据集中的次数。根据字符串在人名数据集中出现的次数以及出现在非人名数据集中的次数,得到该字符串的人名概率值。通过该种方式,获取短文本中各个字符串的人名概率值。
在一实施例中,具体地,参照图2,步骤S102包括:子步骤S1021至子步骤S1023。
子步骤S1021、基于预置切割策略对所述短文本进行切割,得到对应的字符串。
示范性的,根据预置切割策略对短文本进行切割,切割策略包括为2个字符、3个字符、4个字符,通过该切割策略该短文本切割为包含2个字符、3个字符等的字符串。如短文本W为产险万宇辰,则字符W1为产险万,字符W2为险万宇,字符W3为万宇辰,字符W4为产险,字符W5为险万.....依此类推。
子步骤S1022、根据预置数据集,得到所述字符串的姓氏概率值和名字概率值。
在获取到字符串时,根据预置数据集,得到该字符串的姓氏概率值和名字概率值。预置数据集包括人名数据集和非人名数据集,该人名数据及包括姓氏数据集和名字数据集,非人名数据集包括非姓氏数据集和非名字数据集。在获取到字符串时,将该字符串中的第一字符或非第一个字符和第二字符作为姓氏,将该姓氏与预置姓氏数据集和非姓氏数据集进行匹配,得到该姓氏分别在姓氏数据集和非姓氏数据集中匹配的数量。根据该姓氏在姓氏数据集中匹配的数据和该姓氏在非姓氏数据集中匹配的数据,得到该姓氏的概率值。如果将字符串中的第一个字符作为姓氏,则将第二个字符或者第二个字符和第三个字符,或者,第二字符、第三字符以及第四字符作为名字。将该字符串中的名字分别与名字数据集和非名字数据集进行匹配,分别获取到该字符串中该名字与名字数据集中匹配的数量和非名字数据集中匹配的数量。根据名字与名字数据集中匹配的数量和非名字数据集中匹配的数量,得到该名字的名字概率值。
在一实施例中,所述预置数据集包括人名数据集和非人名数据集,得到所述字符串的姓氏概率值和名字概率值,包括:获取所述字符串与所述人名数据集相匹配的姓氏数据值、名字数据值,以及所述字符串与所述非人名数据集相匹配的非姓氏数据值和非名字数据值;基于所述姓氏数据值和非姓氏数据值,得到所述字符串的姓氏概率值;基于所述名字数据值和非名字数据值,得到所述字符串的名字概率值。
示范性的,预置数据集包括人名数据集和非人名数据集,该人名数据及包括姓氏数据集和名字数据集,非人名数据集包括非姓氏数据集和非名字数据集。将该字符串拆分为姓氏字符和名字字符。将该姓氏字符分别与姓氏数据集和非姓氏数据集进行匹配,获取该姓氏字符在姓氏数据集匹配的姓氏数据值和在非姓氏数据集中匹配的非姓氏数据值。例如,计算出中国人名数据集样本个数SName和非中国人名数据集中的样本的个数SNoName。人名数据集包括姓氏F1和名字G1,其中,姓氏包括一个字符或两个字符,名字包括一个字符、两个字符、或三个字符。非人名数据集包括非姓氏F2和非名字G2,其中,非姓氏包括一个字符或两个字符,非名字包括一个字符、两个字符、或三个字符。
获取姓氏F1中该字符串的姓氏数据值F1Name,以及非姓氏F2中该字符串的非姓氏数据值F2NoName。例如,将该字符串中的一个字符和两个字符分别与姓氏F1和非姓氏F2进行匹配,得到对应的姓氏数据值F1Name和非姓氏数据值FNoName。通过预置公式得到该字符串的姓氏数据概率。
将该字符串中的名字字符分别与名字数据集G1和非名字数据集G2进行匹配,获取该名字字符在名字数据集匹配的名字数据值和在非名字数据集中匹配的非名字数据集。例如,匹配出在名字数据集G1中该字符串中的每一个字符出现的总次数sun1和非名字数据集G2中字符串中的每个字符出现的总次数sun2,计算出名字数据集G1中所有人名的字数count1和非名字数据集G2进中所有名字的字数count2。然后计算出该字符串中的字符出现的名字数据集G1和非名字数据集G2中的总字数所占的比例。例如,基于预置公式:和/>其中,P1为该名字字符在名字数据集G1中的概率值,P2为该名字字符在非名字数据集G2中的概率值。通过该名字字符在名字数据集G1中的概率值和该名字字符在非名字数据集G2中的概率值,得到该名字字符为名字的概率值。例如,基于预置公式/>得到该名字字符为名字的概率值。
在获取到姓氏概率值PF和名字概率值PG,获取预置贝叶斯算法公式PW=PF×a+PG×b,根据该预置贝叶斯算法公式PW=PF×a+PG×b、姓氏概率值PF和名字概率值PG,得到该字符串的人名概率值。其中,a、b为常量。
子步骤S1023、基于所述姓氏概率值和名字概率值,得到所述字符串的人名概率值。
在得到该字符串的姓氏概率值和名字概率值时,得到该字符串为人名概率值。例如,该姓氏概率值为60%和名字概率值为40%时,得到该字符串为人名概率值为50%。或者,该姓氏概率值为60%和名字概率值为40%时,得到该字符串为人名概率值为40%。
步骤S103、根据所述人名概率值,确定所述字符串是否为中文人名。
示范性的,在获取到该字符串的人名概率值,将该人名概率值与预置阈值进行比较。通过将该人名概率值与预置阈值进行比较,确定该字符串是否为中文人名。
在一实施例,所述根据所述人名概率值,确定所述字符串是否为中文人名,包括:基于所述人名概率值和预置阈值,确定所述字符串是否为中文人名;若所述人名概率值大于或等于所述预置阈值,则确定所述字符串为中文人名;若所述人名概率值小于所述预置阈值,则确定所述字符串不是中文人名。
示范性的,在获取到该字符串的人名概率值时,获取预置阈值。若该人名概率值大于或等于预置阈值时,确定该字符串为中文人名。例如,获取到预置阈值为80%时,获取到该字符串的人名概率值为80%时,确定该字符串为中文人名;或者,获取到该字符串的人名概率值为60%时,确定该字符串不是中文人名。
若该人名概率值小于预置阈值时,确定该字符串不是中文人名。例如,该预置阈值为80%时,获取到该字符串的人名概率值为60%时,确定该字符串不是中文人名。在确定该字符串不是中文人名时,获取该字符串对应的短文本中各个字符的词性信息。
或者,将该短文本存入hdfs存储介质当中,利用spark-SQL技术过滤出未识别出人名的短文本,从而获取未识别出人名的短文本中各个分词的词性信息。
步骤S104、若确定所述字符串不是中文人名,则获取所述短文本中各个字词的词性信息。
若确定该字符串不是中文人名,则获取该短文本中各个字词的词性信息。例如,该人名概率值小于预置阈值,或该人名概率值大于预置阈值,提取该短文本中的各个字词,并获取各个字词的词性信息,其中,该词性信息包括名词、介词、连词等词性。
在一实施例中,具体地,参照图3,步骤S104包括:子步骤S1041至子步骤S1043。
子步骤S1041、若确定所述字符串不是中文人名,则遍历所述短文本,确定所述短文本中姓氏的位置。
在确定该字符串不是中文人名时,遍历该短文本,确定该短文本中姓氏的位置。例如,基于预置姓氏数数据集中的姓氏,通过该预置姓氏数数据集中的姓氏一一查询短文本,从而确定短文本中各个姓氏的位置。
子步骤S1042、根据预置切分策略和所述姓氏的位置切分所述短文本,获取所述短文本中的各个字词。
在确定各个位置后,通过预置切分策略对该姓氏后的字词进行切分。例如,切分策略包括两个字符、三个字词、四个字词等,通过切分策略,得到短文本中包括各个姓氏位置的字词。
子步骤S1043、基于预置词性表,获取各个所述字词的词性信息。
基于预置词性表,获取字词中的第二个字词、第三个字词的词性信息,词性信息包括名词、动词、形容词等。其中,第二字词、第三个字词属于名字对应的字词。
步骤S105、根据所述字词的词性信息,确定所述字词为中文人名。
在获取到各个字词的词性信息时,根据该字词的词性信息,确定该字词为中文人名,例如,若该字词的词性信息为名词,形容词和动词时,确定该字词为中文人名。将通过词性信息识别出中文人名的短文本存入hdfs存储介质,与通过人名概率值得到的短文本进行合并。
在一实施例中,具体地,参照图4,步骤S105包括:子步骤S1051至子步骤S10453。
子步骤S1051、确定所述姓氏是否为常用姓氏。
确定该姓氏是否为常用姓氏。获取预置常用姓氏表,确定该姓氏是否属于预置常用姓氏表。例如,将该姓氏与预置常用姓氏表中的常用姓氏进行匹配,若该姓氏与预置形式表中的常用姓氏向匹配,则确定该姓氏为常用姓氏。
子步骤S1052、若所述姓氏为常用姓氏,则确定所述字词的词性信息是否为连词、介词或助词。
当该姓氏为常用姓氏时,确定该字词的词性是否为连词、介词或助词。获取该字词的词性信息,确定该字词标注的词性信息为连词、介词或助词中的至少一种。
子步骤S1053、若所述字词的词性信息是连词、介词或助词,则确定所述字词与所述姓氏之间的字词为中文人名。
若该字词的词性信息是连词、介词或助词时,确定该字词与姓氏之间的字词为中文人名。例如,当获取到的字词为张三丰时,获取字词丰的词性信息,当获取到丰的词性信息是连词、介词或助词时,确定张三为中文人名。或者,当获取到字词为张三丰手,获取字词丰的词性信息和字词手的词性信息,若该丰的词性信息不是连词、介词或助词,确定字词手的词性信息是否为连词、介词或助词,若字符手的词性信息是连词、介词或助词时,确定张三丰为中文人名。
在一实施例中,具体地,参照图5,步骤S1051之后还包括:子步骤S1054至子步骤S1055。
子步骤S1054、若所述姓氏不是常用姓氏,则确定所述字词的词性信息是否为名词,形容词和动词。
当该姓氏不是常用姓氏时,确定该字词的词性是否为名词,形容词和动词。获取该字词的词性信息,确定该字词标注的词性信息为名词,形容词和动词中的至少一种。
子步骤S1055、若所述字词的词性信息是名词,形容词和动词,则确定所述字词与所述姓氏之间的字词为中文人名。
若该字词的词性信息是名词,形容词和动词时,确定该字词与姓氏之间的字词为中文人名。例如,当获取到的字词为贯丘云时,获取字词云的词性信息,当获取到云的词性信息是名词,形容词或动词时,确定贯丘云为中文人名。
在本发明实施例中,通过预置关键词对待处理文本进行截取,得到多个字符串。根据预置数据集得到该字符串的姓氏概率值和名字概率值,从而获取该字符串的人名概率值,在该人名概率值小于预置阈值,确定该字符串不是中文人名,从而获取该短文本中各个字词的词性信息,根据词性信息获取短文本中的中文人名,实现了通过多种人名识别方法准确识别文本中不同类型的中文人名,提升中文人名识别的准确率和查全率。
请参照图6,图6为本申请实施例提供的一种识别中文人名装置的示意性框图。
如图6所示,该识别中文人名装置400,包括:截取模块401、第一获取模块402、第一确定模块403、第二获取模块404、第二确定模块405。
截取模块401,用于基于预置关键词对待处理文本进行截取,得到至少一个短文本;
第一获取模块402,用于获取所述短文本中各个字符串的人名概率值;
第一确定模块403,用于根据所述人名概率值,确定所述字符串是否为中文人名;
第二获取模块404,第二获取模块,用于若确定所述字符串不是中文人名,则获取所述短文本中各个字词的词性信息;
第二确定模块405,用于基于所述字词的词性信息,确定所述字词为中文人名。
其中,第一获取模块402具体还用于:
基于预置切割策略对所述短文本进行切割,得到对应的字符串;
根据预置数据集,得到所述字符串的姓氏概率值和名字概率值;
基于所述姓氏概率值和名字概率值,得到所述字符串的人名概率值。
其中,第一获取模块402具体还用于:
获取所述字符串与所述人名数据集相匹配的姓氏数据值、名字数据值,以及所述字符串与所述非人名数据集相匹配的非姓氏数据值和非名字数据值;
基于所述姓氏数据值和非姓氏数据值,得到所述字符串的姓氏概率值;
基于所述名字数据值和非名字数据值,得到所述字符串的名字概率值。
其中,第一确定模块403具体还用于:
基于所述人名概率值和预置阈值,确定所述字符串是否为中文人名;
若所述人名概率值大于或等于所述预置阈值,则确定所述字符串为中文人名;
若所述人名概率值小于所述预置阈值,则确定所述字符串不是中文人名。
其中,第二获取模块404具体还用于:
若确定所述字符串不是中文人名,则遍历所述短文本,确定所述短文本中姓氏的位置;
根据预置切分策略和所述姓氏的位置切分所述短文本,获取所述短文本中的各个字词;
基于预置词性表,获取各个所述字词的词性信息。
其中,确定模块405具体还用于:
确定所述姓氏是否为常用姓氏;
若所述姓氏为常用姓氏,则确定所述字词的词性信息是否为连词、介词或助词;
若所述字词的词性信息是连词、介词或助词,则确定所述字词与所述姓氏之间的字词为中文人名。
其中,识别中文人名装置还用于:
若所述姓氏不是常用姓氏,则确定所述字词的词性信息是否为名词,形容词和动词;
若所述字词的词性信息是名词,形容词和动词,则确定所述字词与所述姓氏之间的字词为中文人名。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述识别中文人名的方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。
如图7所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种识别中文人名的方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种识别中文人名的方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
基于预置关键词对待处理文本进行截取,得到至少一个短文本;
获取所述短文本中各个字符串的人名概率值;
根据所述人名概率值,确定所述字符串是否为中文人名;
若确定所述字符串不是为中文人名,则获取所述短文本中各个字词的词性信息;
根据所述字词的词性信息,确定所述字词为中文人名。
在一个实施例中,所述处理器获取所述短文本中各个字符串的人名概率值实现时,用于实现:
基于预置切割策略对所述短文本进行切割,得到对应的字符串;
根据预置数据集,得到所述字符串的姓氏概率值和名字概率值;
基于所述姓氏概率值和名字概率值,得到所述字符串的人名概率值。
在一个实施例中,所述处理器预置数据集包括人名数据集和非人名数据集,得到所述字符串的姓氏概率值和名字概率值实现时,用于实现:
获取所述字符串与所述人名数据集相匹配的姓氏数据值、名字数据值,以及所述字符串与所述非人名数据集相匹配的非姓氏数据值和非名字数据值;
基于所述姓氏数据值和非姓氏数据值,得到所述字符串的姓氏概率值;基于所述名字数据值和非名字数据值,得到所述字符串的名字概率值。
在一个实施例中,所述处理器在根据所述人名概率值,确定所述字符串是否为中文人名实现时,用于实现:
基于所述人名概率值和预置阈值,确定所述字符串是否为中文人名;
若所述人名概率值大于或等于所述预置阈值,则确定所述字符串为中文人名;
若所述人名概率值小于所述预置阈值,则确定所述字符串不是中文人名。
在一个实施例中,所述处理器若确定所述字符串不是为中文人名,则获取所述短文本中各个字词的词性信息实现时,用于实现:
若确定所述字符串不是中文人名,则遍历所述短文本,确定所述短文本中姓氏的位置;
根据预置切分策略和所述姓氏的位置切分所述短文本,获取所述短文本中的各个字词;
基于预置词性表,获取各个所述字词的词性信息。
在一个实施例中,所述处理器根据所述字词的词性信息,确定所述字词为中文人名实现时,用于实现:
确定所述姓氏是否为常用姓氏;
若所述姓氏为常用姓氏,则确定所述字词的词性信息是否为连词、介词或助词;
若所述字词的词性信息是连词、介词或助词,则确定所述字词与所述姓氏之间的字词为中文人名。
在一个实施例中,所述处理器确定所述姓氏是否为常用姓氏之后实现时,用于实现:
若所述姓氏不是常用姓氏,则确定所述字词的词性信息是否为名词,形容词和动词;
若所述字词的词性信息是名词,形容词和动词,则确定所述字词与所述姓氏之间的字词为中文人名。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请识别中文人名的方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是预置人名数据集和预置非人名数据集的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种识别中文人名的方法,其特征在于,包括:
基于预置关键词对待处理文本进行截取,得到至少一个短文本;
基于预置切割策略对所述短文本进行切割,得到对应的字符串,并根据预置数据集,得到所述字符串的姓氏概率值和名字概率值,基于所述姓氏概率值和名字概率值,得到所述字符串的人名概率值;
根据所述人名概率值,确定所述字符串是否为中文人名;
若确定所述字符串不是中文人名,则获取所述短文本中各个字词的词性信息;
根据所述字词的词性信息,确定所述字词为中文人名。
2.如权利要求1所述的识别中文人名的方法,其特征在于,所述预置数据集包括人名数据集和非人名数据集,所述根据预置数据集,得到所述字符串的姓氏概率值和名字概率值,包括:
获取所述字符串与所述人名数据集相匹配的姓氏数据值、名字数据值,以及所述字符串与所述非人名数据集相匹配的非姓氏数据值和非名字数据值;
基于所述姓氏数据值和非姓氏数据值,得到所述字符串的姓氏概率值;基于所述名字数据值和非名字数据值,得到所述字符串的名字概率值。
3.如权利要求1所述的识别中文人名的方法,其特征在于,所述根据所述人名概率值,确定所述字符串是否为中文人名,包括:
基于所述人名概率值和预置阈值,确定所述字符串是否为中文人名;
若所述人名概率值大于或等于所述预置阈值,则确定所述字符串为中文人名;
若所述人名概率值小于所述预置阈值,则确定所述字符串不是中文人名。
4.如权利要求3所述的识别中文人名的方法,其特征在于,所述若确定所述字符串不是为中文人名,则获取所述短文本中各个字词的词性信息,包括:
若确定所述字符串不是中文人名,则遍历所述短文本,确定所述短文本中姓氏的位置;
根据预置切分策略和所述姓氏的位置切分所述短文本,获取所述短文本中的各个字词;
基于预置词性表,获取各个所述字词的词性信息。
5.如权利要求4所述的识别中文人名的方法,其特征在于,所述根据所述字词的词性信息,确定所述字词为中文人名,包括:
确定所述姓氏是否为常用姓氏;
若所述姓氏为常用姓氏,则确定所述字词的词性信息是否为连词、介词或助词;
若所述字词的词性信息是连词、介词或助词,则确定所述字词与所述姓氏之间的字词为中文人名。
6.如权利要求5所述的识别中文人名的方法,其特征在于,所述确定所述姓氏是否为常用姓氏之后,还包括:
若所述姓氏不是常用姓氏,则确定所述字词的词性信息是否为名词,形容词和动词;
若所述字词的词性信息是名词,形容词和动词,则确定所述字词与所述姓氏之间的字词为中文人名。
7.一种识别中文人名装置,其特征在于,包括:
截取模块,用于基于预置关键词对待处理文本进行截取,得到至少一个短文本;
第一获取模块,用于基于预置切割策略对所述短文本进行切割,得到对应的字符串,并根据预置数据集,得到所述字符串的姓氏概率值和名字概率值,基于所述姓氏概率值和名字概率值,得到所述字符串的人名概率值;
第一确定模块,用于根据所述人名概率值,确定所述字符串是否为中文人名;
第二获取模块,用于若确定所述字符串不是中文人名,则获取所述短文本中各个字词的词性信息;
第二确定模块,用于基于所述字词的词性信息,确定所述字词为中文人名。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至6中任一项所述的识别中文人名的方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的识别中文人名的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011004052.8A CN112131871B (zh) | 2020-09-22 | 2020-09-22 | 识别中文人名的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011004052.8A CN112131871B (zh) | 2020-09-22 | 2020-09-22 | 识别中文人名的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131871A CN112131871A (zh) | 2020-12-25 |
CN112131871B true CN112131871B (zh) | 2023-06-30 |
Family
ID=73842449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011004052.8A Active CN112131871B (zh) | 2020-09-22 | 2020-09-22 | 识别中文人名的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131871B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883727B (zh) * | 2021-02-25 | 2022-02-11 | 重庆邮电大学 | 一种确定人物间关联关系的方法及装置 |
CN115935985A (zh) * | 2022-06-08 | 2023-04-07 | 北京有限元科技有限公司 | 中文姓名的识别方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1464431A (zh) * | 2002-06-11 | 2003-12-31 | 富士施乐株式会社 | 区分亚洲语言写入系统中姓名的系统 |
CN102033879A (zh) * | 2009-09-27 | 2011-04-27 | 腾讯科技(深圳)有限公司 | 一种中文人名识别的方法和装置 |
CN102193646A (zh) * | 2010-03-18 | 2011-09-21 | 腾讯科技(深圳)有限公司 | 人名候选词的生成方法及装置 |
CN102955775A (zh) * | 2012-06-14 | 2013-03-06 | 华东师范大学 | 基于上下文语义的外国人名自动识别控制方法 |
CN103823859A (zh) * | 2014-02-21 | 2014-05-28 | 安徽博约信息科技有限责任公司 | 基于决策树规则和多种统计模型相结合的人名识别算法 |
CN108090033A (zh) * | 2017-12-27 | 2018-05-29 | 北京天融信网络安全技术有限公司 | 人名检测方法、装置、计算机可读介质及设备 |
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
CN109753657A (zh) * | 2018-12-29 | 2019-05-14 | 北京泰迪熊移动科技有限公司 | 用于人名识别的数据处理方法以及装置、客户端、服务器 |
CN110413983A (zh) * | 2018-04-27 | 2019-11-05 | 北京海马轻帆娱乐科技有限公司 | 一种识别人名的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7933901B2 (en) * | 2007-01-04 | 2011-04-26 | Brian Kolo | Name characteristic analysis software and methods |
-
2020
- 2020-09-22 CN CN202011004052.8A patent/CN112131871B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1464431A (zh) * | 2002-06-11 | 2003-12-31 | 富士施乐株式会社 | 区分亚洲语言写入系统中姓名的系统 |
CN102033879A (zh) * | 2009-09-27 | 2011-04-27 | 腾讯科技(深圳)有限公司 | 一种中文人名识别的方法和装置 |
CN102193646A (zh) * | 2010-03-18 | 2011-09-21 | 腾讯科技(深圳)有限公司 | 人名候选词的生成方法及装置 |
CN102955775A (zh) * | 2012-06-14 | 2013-03-06 | 华东师范大学 | 基于上下文语义的外国人名自动识别控制方法 |
CN103823859A (zh) * | 2014-02-21 | 2014-05-28 | 安徽博约信息科技有限责任公司 | 基于决策树规则和多种统计模型相结合的人名识别算法 |
CN108090033A (zh) * | 2017-12-27 | 2018-05-29 | 北京天融信网络安全技术有限公司 | 人名检测方法、装置、计算机可读介质及设备 |
CN110413983A (zh) * | 2018-04-27 | 2019-11-05 | 北京海马轻帆娱乐科技有限公司 | 一种识别人名的方法及装置 |
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
CN109753657A (zh) * | 2018-12-29 | 2019-05-14 | 北京泰迪熊移动科技有限公司 | 用于人名识别的数据处理方法以及装置、客户端、服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN112131871A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022105122A1 (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
WO2021189951A1 (zh) | 文本搜索方法、装置、计算机设备和存储介质 | |
US20170075983A1 (en) | Subject-matter analysis of tabular data | |
US9965460B1 (en) | Keyword extraction for relationship maps | |
CN112131871B (zh) | 识别中文人名的方法、装置、设备及存储介质 | |
US11232263B2 (en) | Generating summary content using supervised sentential extractive summarization | |
CN112215008A (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
WO2021196934A1 (zh) | 一种基于字段相似度计算的问题推荐方法、装置和服务器 | |
CN114417865B (zh) | 灾害事件的描述文本处理方法、装置、设备及存储介质 | |
CN115687655A (zh) | 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质 | |
CN111061877A (zh) | 文本主题提取方法和装置 | |
WO2021169217A1 (zh) | 摘要提取方法、装置、设备及计算机可读存储介质 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN113268560A (zh) | 用于文本匹配的方法和装置 | |
CN111552798B (zh) | 基于名称预测模型的名称信息处理方法、装置、电子设备 | |
CN113190675A (zh) | 文本摘要生成方法、装置、计算机设备和存储介质 | |
CN112328735A (zh) | 热点话题确定方法、装置及终端设备 | |
CN113268597B (zh) | 文本分类方法、装置、设备及存储介质 | |
WO2022022049A1 (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
TW202123026A (zh) | 資料歸檔方法、裝置、電腦裝置及存儲介質 | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
WO2022252638A1 (zh) | 文本匹配方法、装置、计算机设备及可读存储介质 | |
WO2021056740A1 (zh) | 语言模型构建方法、系统、计算机设备及可读存储介质 | |
CN110866106A (zh) | 一种文本推荐方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |