CN115935985A - 中文姓名的识别方法、装置、电子设备及存储介质 - Google Patents
中文姓名的识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115935985A CN115935985A CN202210646860.7A CN202210646860A CN115935985A CN 115935985 A CN115935985 A CN 115935985A CN 202210646860 A CN202210646860 A CN 202210646860A CN 115935985 A CN115935985 A CN 115935985A
- Authority
- CN
- China
- Prior art keywords
- word
- label
- name
- information
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000008569 process Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241001301450 Crocidium multicaule Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供的一种中文姓名的识别方法、装置、电子设备及存储介质,通过基于词库对文本信息进行分词得到词网,然后基于人名标签库遍历词网中的词,确定确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,从而基于第一目标词和所述第二目标词确定所述文本信息中的中文姓名,能够保证识别准确率的同时,提高中文姓名的识别速度。
Description
技术领域
本申请涉及文本识别技术领域,特别地涉及一种中文姓名的识别方法、装置、电子设备及存储介质。
背景技术
命名实体识别在NLP的领域中是一项关健性的技术,是诸多流程如信息抽取、文本分类、知识图谱、机器翻译、多轮对话等的基础任务,其中中文姓名识别的应用最为广泛也最为基础,相关技术中,有基于姓名词典、盘古分词算法、基于n-gram模型、基于CRF的姓名识别方法、jcseg中文姓名识别算法等等来对中文姓名进行识别的技术,但是相关技术中提供的技术准确率不够高,且识别速度较慢。
发明内容
针对上述相关技术中的问题本申请提供一种中文姓名的识别方法、装置及存储介质。
本申请提供了一种中文姓名的识别方法,所述方法包括:
获取文本信息,所述文本信息中包括人的中文姓名;
基于词库对所述文本信息进行分词处理,得到所述文本信息对应的词网;
基于人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,其中,所述人名标签库中包括:词和词对应的标签信息,所述标签信息包括:姓氏标签和称呼标签;
基于所述第一目标词和所述第二目标词确定所述文本信息中的中文姓名。
在一些实施例中,所述词网包括:词和所述词对应的词性标签,所述方法还包括:
基于各个词的词性标签对所述词网中的空字符串和标点进行去除处理,得到所述词网中的词。
在一些实施例中,所述称呼标签包括:人名标签,所述基于所述人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,包括:
在遍历所述词网中的词的过程中,确定标签信息为姓氏标签的词;
确定标签信息为姓氏标签的词之后的第一个词和第二个词的标签信息是否为人名标签;
在确定标签信息为姓氏标签的词之后的第一个词和第二个词的标签信息为人名标签的情况下,确定所述标签信息为姓氏标签的词之后的第一个词和第二个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
在一些实施例中,所述方法还包括:
在确定标签信息为姓氏标签的词之后的第一个词的标签信息为人名标签,且第一目标词之后的第二个词的标签信息不是人名标签的情况下,确定所述第一目标词之后的第一个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
在一些实施例中,所述称呼标签包括:称谓标签,所述基于所述人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,包括:
在遍历所述词网中的词的过程中,确定标签信息为姓氏标签的词;
确定标签信息为姓氏标签的词之后的第一个词的标签信息是否为称谓标签;
在确定第一目标词之后的第一个词的标签信息为称谓标签的情况下,确定标签信息为姓氏标签的词之后的第一个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
在一些实施例中,所述方法还包括:
获取用户的语音信息;
基于所述语音信息确定所述文本信息。
在一些实施例中,所述方法还包括:
基于预设规则对各个中文姓名进行降噪处理,以确定所述文本信息中的目标中文姓名。
本申请实施例提供一种中文姓名的识别装置,包括:
第一获取模块,用于获取文本信息,所述文本信息中包括人的中文姓名;
分词处理模块,用于基于词库对所述文本信息进行分词处理,得到所述文本信息对应的词网;
第一确定模块,用于基于人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,其中,所述人名标签库中包括:词和词对应的标签信息,所述标签信息包括:姓氏标签和称呼标签;
第二确定模块,用于基于所述第一目标词和所述第二目标词确定所述文本信息中的中文姓名。
本申请实施例提供一种电子设备,包括:包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如上述任意一项所述中文姓名的识别方法。
本申请实施例提供一种存储介质,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现上述任一项所述的中文姓名的识别方法。
本申请实施例提供一种中文姓名的识别方法、装置及存储介质,通过基于词库对文本信息进行分词得到词网,然后基于人名标签库遍历词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,从而基于第一目标词和所述第二目标词确定所述文本信息中的中文姓名,能够保证识别准确率的同时,提高中文姓名的识别速度。
附图说明
在下文中将基于实施例并参考附图来对本申请进行更详细的描述。
图1为本申请实施例提供的一种中文姓名的识别方法的实现流程示意图;
图2为本申请实施例提供的一种中文姓名的识别装置的结构示意图;
图3为本申请实施例提供的电子设备的组成结构示意图。
在附图中,相同的部件使用相同的附图标记,附图并未按照实际的比例绘制。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
如果申请文件中出现“第一\第二\第三”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在介绍本申请实施例之前,对相关技术中的问题进行简要介绍。
命名实体识别在NLP的领域中是一项关健性的技术,是诸多流程如信息抽取、文本分类、知识图谱、机器翻译、多轮对话等的基础任务,其中中文姓名识别的应用最为广泛也最为基础。最常用的实现方法有基于姓名词典、盘古分词算法、基于n-gram模型、基于CRF的姓名识别方法、jcseg中文姓名识别算法等等,基于姓名词典的方式简单而且市面上有现成的中文姓名词库,但是该方式很古老、不灵活,词典里面有的姓名就能识别,但是词典里面没有的就识别不出来,但是中文姓名姓氏多、名字各式各样、规则繁琐,所以基于词典的方式识别率是很低的,这种方式是不可取的。盘古分词算法主要包括两步:预处理和消除歧义,识别效果要比规则和统计的方式好得多,但是往往在识别词根和词缀方面的效果要差一些,例如张三丰,可能会识别成张三。基于n-gram模型的方式,识别率很高,但是也有可能将地名识别成姓名,如李庄,也可能将一个机构名/机构简写/ 品牌名,如范思哲、谭木匠,还有可能是一个常用词,如高原、金星。基于CRF 的姓名识别方法是最先被提出用于命名实体识别(包括姓名),但是如果识别内容比较长的话算法的执行效率太低,而且计算公式的通用性也比较低。jcseg中文姓名识别算法先分词然后确认每个词的长度是否大于1小于2,从姓氏库中确认词是否为单姓名还是双姓名,最后进行消歧分析,该方法的准确率提高了,但是如果多个姓氏排在一起的话就会出问题,例如“向雷锋同志学习”向和雷都是姓氏,jcseg识别这种情况就会出现问题,除了多个姓氏识别问题外,jcseg算法在姓氏用作非姓氏的情况也会出现问题,例如“拥戴某人”,其中“戴”就会被识别成姓氏。即相关技术中提供的方案存在准确率不够高,而提高了准确率的方案识别速度较慢的问题。
基于相关技术中存在的问题,本申请实施例提供一种中文姓名的识别方法,所述方法应用于电子设备,所述电子设备具体可以为手机、平板电脑、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、手持计算机、上网本、个人数字助理(Personal Digital Assistant,PDA)、可穿戴电子设备、车载设备(也可称为车机)、虚拟现实设备、服务器等,本申请实施例对此不做任何限制。本申请实施例提供的中文姓名的识别方法所实现的功能可以通过电子设备的处理器调用程序代码来实现,其中,程序代码可以保存在计算机存储介质中。本申请实施例提供一种中文姓名的识别方法,图1为本申请实施例提供的一种中文姓名的识别方法的实现流程示意图,如图1所示,包括:
步骤S1:获取文本信息,所述文本信息中包括人的中文姓名;
本申请实施例中,可以通过输入设备的输入来获取文本信息,也可以通过网络来获取文本信息。在一些实施例中,可以通过获取语音信息来识别文本信息,从而使得电子设备获取文本信息。所述文本信息包括:中文姓名,在一些实施例中,所述文本信息还包括空字符串和空格符。所述中文姓名可以是中文名字、中文称呼等。
本申请实施例中,中文名字可以是普通或特殊的姓+名,中文称呼可以是姓+ 称谓,例如,张+先生、张+女士等。
步骤S2,基于词库对所述文本信息进行分词处理,得到所述文本信息对应的词网。
本申请实施例中,所述词库为中文词库,所述词库中包括大量的中文词。可以预先建立好词库,以基于词库对文本信息进行分词处理。词网是个一元数组,包含了分词及标注有各个词的词性标签,词性可以包括:名词、动词、形容词等等。在一些实施例中,词网也可以叫分词列表。在对各个分词进行词性标注时,对空字符串、标点等可以不进行标注。
步骤S3,基于人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词。
本申请实施例中,所述人名标签库中包括:词和词对应的标签信息,所述标签信息包括:姓氏标签和称呼标签。所述称呼标签可以包括:人名标签和称谓标签,所述人名标签还进行了更细的划分,人名标签包括:双名的首字标签、双名的末字标签,单名标签等等。
本申请实施例中,可以通过词性标签来对所述词网中的空字符串和标点进行去除处理,得到所述词网中的词,如果没有词性标签对应的词就可以去除。
本申请实施例中,通过遍历词网中的词的方式,来确定词网中的词的标签。
在一些实施例中,可以在遍历所述词网中的词的过程中,确定标签信息为姓氏标签的词;确定标签信息为姓氏标签的词之后的第一个词和第二个词的标签信息是否为人名标签;在确定标签信息为姓氏标签的词之后的第一个词和第二个词的标签信息为人名标签的情况下,确定所述标签信息为姓氏标签的词之后的第一个词和第二个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
在一些实施例中,在确定标签信息为姓氏标签的词之后的第一个词的标签信息为人名标签,且第一目标词之后的第二个词的标签信息不是人名标签的情况下,确定所述第一目标词之后的第一个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
在一些实施例中,所述称呼标签包括:称谓标签,所述基于所述人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,包括:在遍历所述词网中的词的过程中,确定标签信息为姓氏标签的词;确定标签信息为姓氏标签的词之后的第一个词的标签信息是否为称谓标签;在确定第一目标词之后的第一个词的标签信息为称谓标签的情况下,确定标签信息为姓氏标签的词之后的第一个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
步骤S4,基于所述第一目标词和所述第二目标词确定所述文本信息中的中文姓名。
承接上面的实施例,当姓氏标签对应的词为一个字时,且第二目标词包括:第一目标词之后的第一个词和第二个词的情况下,确定中文姓名为三字中文姓名,当第二目标词包括:第一目标词之后的第一个词时,则中文姓名为二字中文姓名。当第一目标词之后的第一个词为称谓标签的情况下,则中文姓名为姓+称谓。
在一些实施例中,由于有些词同时具有姓氏标签和称呼标签,可能识别出多个中文姓名,但是部分中文姓名不满足中文姓名的规则,则可以通过预设规则来对中文姓名进行去噪处理,从而确定最终的目标中文姓名。例如,所述预设规则可以包括以下一个或多个:消除多个姓氏排在一起的中文姓名、消除姓氏用作非姓氏使用的中文姓名(例如“你和他”中“和”是姓氏标签)、消除不知是单字姓名和双字姓名的中文姓名(如李思其,“其”可能是姓名组成部分,也可能用于指代“李思”本人)、消除尾字和后面成词的中文姓名(如张美丽的人生)。
基于前述的各个实施例,本申请实施例再提供一种中文姓名识别方法,所述方法包括:
第一步、切分输入的句子(同上述实施例中的文本信息),结合本地词库生成词网,词网是个一元数组,包含分词以及标注词性,词网中包含最细化的分词策略,其中包含字以及字的组合。
第二步、去除空字符串和标点,由于词网中包含空字符串、标点、字以及字的组合,所以这步是需要将空字符串和标点去除,尽量保留词,去除琐碎的字符。
第三步、遍历词网,结合本地人名标签库选出人名标签,如果遍历词的标签在之前定义好的人名标签库中并且是属于姓氏标签,那么继续遍历后面的词,如果紧接着的词是人名标签中的第二个字,那么就继续遍历后面的词,如果紧接着的词是人名标签中第三个字,那么就刚好组成一个三个字的中文姓名,当然如果连续第三次遍历的词不是个人名标签,那么此次遍历就组成一个两个字的中文姓名。
第四步、遍历词网,结合本地人名标签库,确定词是否是姓氏标签,如果是,那就继续遍历后面的词,如果后面的词属于称呼,那么就识别出一个带称呼的名称,如李先生。
第五步、遍历词网,结合本地人名标签库,确定词是否是特殊姓氏标签,如果是,那就继续遍历后面的词,如果后面的是词属于特殊名字,那么就识别出一个特殊的姓名。
第六步、将识别出的中文姓名进行降噪处理,主要消除多个姓氏排在一起、姓氏用作非姓氏使用(如“你和他”,“和”是姓氏标签)、不知是单字姓名和双字姓名的问题(如李思其,有可能李思也有可能是李思其)、尾字和后面成词 (如张美丽的人生)。
本申请实施例提供的中文姓名识别的方法,相对于机器学习来识别中文姓名的方法,识别准确率更高,识别速度更快。
本申请实施例提供的方法,采用统计词性标注和多姓名标签的方式来实现姓名识别,统计词性标注相对来讲比较灵活而且可以通过丰富词库的方式来提高准确率和覆盖率,准确率和覆盖率得以提高,那么后面基于多标签的中文姓名识别的准确率就高。本申请实施例提供的方法可以应用于有识别应用需求的领域或场景,例如,场景为金融领域的机器人语音客服,比如银行的app上机器人的语音转账服务,该方法可以从输入的语音中识别出人机对话中的姓名,例如客户说我想给张三转一千万,那么这是系统自动识别,用户确认后进入转账环节,不需要再手动输入姓名和金额的数量。客户不再需要手动输入姓名,直接通过对话即可完成转账交易,提高了用户体验,提高了服务质量和效率。
基于前述的实施例,本申请实施例提供一种中文姓名的识别装置,该装置包括的各模块、以及各模块包括的各单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器 (CPU,CentralProcessing Unit)、微处理器(MPU,Microprocessor Unit)、数字信号处理器(DSP,DigitalSignal Processing)或现场可编程门阵列(FPGA, Field Programmable Gate Array)等。
本申请实施例提供了一种中文姓名的识别装置200,图2为本申请实施例提供的一种中文姓名的识别装置的结构示意图,如图2所示,中文姓名的识别装置 200包括:
第一获取模块201,用于获取文本信息,所述文本信息中包括人的中文姓名;
分词处理模块202,用于基于词库对所述文本信息进行分词处理,得到所述文本信息对应的词网;
第一确定模块203,用于基于人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,其中,所述人名标签库中包括:词和词对应的标签信息,所述标签信息包括:姓氏标签和称呼标签;
第二确定模块204,用于基于所述第一目标词和所述第二目标词确定所述文本信息中的中文姓名。
在一些实施例中,所述词网包括:词和所述词对应的词性标签,所述中文姓名的识别装置还包括:
去除模块,用于基于各个词的词性标签对所述词网中的空字符串和标点进行去除处理,得到所述词网中的词。
在一些实施例中,所述称呼标签包括:人名标签,所述第一确定模块,包括:
第一确定单元,用于在遍历所述词网中的词的过程中,确定标签信息为姓氏标签的词;
第一判断单元,用于确定标签信息为姓氏标签的词之后的第一个词和第二个词的标签信息是否为人名标签;
第二确定单元,用于在确定标签信息为姓氏标签的词之后的第一个词和第二个词的标签信息为人名标签的情况下,确定所述标签信息为姓氏标签的词之后的第一个词和第二个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
在一些实施例中,所述称呼标签包括:人名标签,所述第一确定模块,包括:
第三确定单元,用于在确定标签信息为姓氏标签的词之后的第一个词的标签信息为人名标签,且第一目标词之后的第二个词的标签信息不是人名标签的情况下,确定所述第一目标词之后的第一个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
在一些实施例中,所述称呼标签包括:称谓标签,所述第一确定模块,包括:
第四确定单元,用于在遍历所述词网中的词的过程中,确定标签信息为姓氏标签的词;
第二判断单元,用于确定标签信息为姓氏标签的词之后的第一个词的标签信息是否为称谓标签;
第五确定单元,用于在确定第一目标词之后的第一个词的标签信息为称谓标签的情况下,确定标签信息为姓氏标签的词之后的第一个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
在一些实施例中,所述中文姓名的识别装置还包括:
第二获取模块,用于获取用户的语音信息;
第三确定模块,用于基于所述语音信息确定所述文本信息。
在一些实施例中,所述中文姓名的识别装置还包括:
降噪模块,用于基于预设规则对各个中文姓名进行降噪处理,以确定所述文本信息中的目标中文姓名。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的中文姓名的识别方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供中文姓名的识别方法中的步骤。
本申请实施例提供一种电子设备;图3为本申请实施例提供的电子设备的组成结构示意图,如图3所示,所述电子设备500包括:一个处理器501、至少一个通信总线502、用户接口503、至少一个外部通信接口504、存储器505。其中,通信总线502配置为实现这些组件之间的连接通信。其中,用户接口503可以包括显示屏,外部通信接口504可以包括标准的有线接口和无线接口。所述处理器 501配置为执行存储器中存储的中文姓名的识别方法程序,以实现以上述实施例提供的中文姓名的识别方法中的步骤。
以上电子设备和存储介质实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请计算机设备和存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台控制器执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种中文姓名的识别方法,其特征在于,包括:
获取文本信息,所述文本信息中包括人的中文姓名;
基于词库对所述文本信息进行分词处理,得到所述文本信息对应的词网;
基于人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,其中,所述人名标签库中包括:词和词对应的标签信息,所述标签信息包括:姓氏标签和称呼标签;
基于所述第一目标词和所述第二目标词确定所述文本信息中的中文姓名。
2.根据权利要求1所述的方法,其特征在于,所述词网包括:词和所述词对应的词性标签,所述方法还包括:
基于各个词的词性标签对所述词网中的空字符串和标点进行去除处理,得到所述词网中的词。
3.根据权利要求1所述的方法,其特征在于,所述称呼标签包括:人名标签,所述基于所述人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,包括:
在遍历所述词网中的词的过程中,确定标签信息为姓氏标签的词;
确定标签信息为姓氏标签的词之后的第一个词和第二个词的标签信息是否为人名标签;
在确定标签信息为姓氏标签的词之后的第一个词和第二个词的标签信息为人名标签的情况下,确定所述标签信息为姓氏标签的词之后的第一个词和第二个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在确定标签信息为姓氏标签的词之后的第一个词的标签信息为人名标签,且第一目标词之后的第二个词的标签信息不是人名标签的情况下,确定所述第一目标词之后的第一个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
5.根据权利要求1所述的方法,其特征在于,所述称呼标签包括:称谓标签,所述基于所述人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,包括:
在遍历所述词网中的词的过程中,确定标签信息为姓氏标签的词;
确定标签信息为姓氏标签的词之后的第一个词的标签信息是否为称谓标签;
在确定第一目标词之后的第一个词的标签信息为称谓标签的情况下,确定标签信息为姓氏标签的词之后的第一个词为第二目标词,并确定标签信息为姓氏标签的词为第一目标词。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户的语音信息;
基于所述语音信息确定所述文本信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预设规则对各个中文姓名进行降噪处理,以确定所述文本信息中的目标中文姓名。
8.一种中文姓名的识别装置,其特征在于,包括:
第一获取模块,用于获取文本信息,所述文本信息中包括人的中文姓名;
分词处理模块,用于基于词库对所述文本信息进行分词处理,得到所述文本信息对应的词网;
第一确定模块,用于基于人名标签库,遍历所述词网中的词,确定姓氏标签对应的第一目标词和称呼标签对应的第二目标词,其中,所述人名标签库中包括:词和词对应的标签信息,所述标签信息包括:姓氏标签和称呼标签;
第二确定模块,用于基于所述第一目标词和所述第二目标词确定所述文本信息中的中文姓名。
9.一种电子设备,其特征在于,包括:包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1至7任意一项所述中文姓名的识别方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-7任一项所述中文姓名的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210646860.7A CN115935985A (zh) | 2022-06-08 | 2022-06-08 | 中文姓名的识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210646860.7A CN115935985A (zh) | 2022-06-08 | 2022-06-08 | 中文姓名的识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115935985A true CN115935985A (zh) | 2023-04-07 |
Family
ID=86649627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210646860.7A Pending CN115935985A (zh) | 2022-06-08 | 2022-06-08 | 中文姓名的识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115935985A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1342942A (zh) * | 2000-09-08 | 2002-04-03 | 百度在线网络技术(北京)有限公司 | 中文姓名的计算机识别及检索方法 |
CN105373530A (zh) * | 2015-12-03 | 2016-03-02 | 北京锐安科技有限公司 | 中文姓名的识别方法和装置 |
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
CN112131871A (zh) * | 2020-09-22 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 识别中文人名的方法、装置、设备及存储介质 |
-
2022
- 2022-06-08 CN CN202210646860.7A patent/CN115935985A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1342942A (zh) * | 2000-09-08 | 2002-04-03 | 百度在线网络技术(北京)有限公司 | 中文姓名的计算机识别及检索方法 |
CN105373530A (zh) * | 2015-12-03 | 2016-03-02 | 北京锐安科技有限公司 | 中文姓名的识别方法和装置 |
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
CN112131871A (zh) * | 2020-09-22 | 2020-12-25 | 平安国际智慧城市科技股份有限公司 | 识别中文人名的方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN109299227B (zh) | 基于语音识别的信息查询方法和装置 | |
CN112631436B (zh) | 输入法敏感词的过滤方法及装置 | |
CN111414561B (zh) | 用于呈现信息的方法和装置 | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
CN108351876A (zh) | 用于兴趣点识别的系统和方法 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN111191445A (zh) | 广告文本分类方法及装置 | |
CN111339775A (zh) | 命名实体识别方法、装置、终端设备及存储介质 | |
CN114186061A (zh) | 语句意图预测方法、装置、存储介质及计算机设备 | |
CN113887200A (zh) | 文本变长纠错方法、装置、电子设备及存储介质 | |
CN113326702A (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN116127001A (zh) | 敏感词检测方法、装置、计算机设备及存储介质 | |
CN108763202A (zh) | 识别敏感文本的方法、装置、设备及可读存储介质 | |
CN117278675A (zh) | 一种基于意图分类的外呼方法、装置、设备及介质 | |
CN110222340B (zh) | 书籍人物姓名识别模型的训练方法、电子设备及存储介质 | |
CN111858966A (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
CN115935985A (zh) | 中文姓名的识别方法、装置、电子设备及存储介质 | |
CN113342977B (zh) | 发票图像分类方法、装置、设备及存储介质 | |
CN113051923B (zh) | 数据验证方法、装置、计算机设备和存储介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
JP7216627B2 (ja) | 入力支援方法、入力支援システム、及びプログラム | |
CN113870478A (zh) | 快速取号方法、装置、电子设备及存储介质 | |
CN113808577A (zh) | 语音摘要的智能提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 129, Floor 1, Building 5, Yard 1, Shangdi Fourth Street, Haidian District, Beijing Applicant after: Beijing Zhongkejin Finite Element Technology Co.,Ltd. Address before: 100083 129, Floor 1, Building 5, Yard 1, Shangdi Fourth Street, Haidian District, Beijing Applicant before: Beijing finite element technology Co.,Ltd. |