CN104182423A - 一种基于条件随机场的中文人名自动识别方法 - Google Patents

一种基于条件随机场的中文人名自动识别方法 Download PDF

Info

Publication number
CN104182423A
CN104182423A CN201310202667.5A CN201310202667A CN104182423A CN 104182423 A CN104182423 A CN 104182423A CN 201310202667 A CN201310202667 A CN 201310202667A CN 104182423 A CN104182423 A CN 104182423A
Authority
CN
China
Prior art keywords
name
word
random field
feature
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310202667.5A
Other languages
English (en)
Inventor
吕钊
高维维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201310202667.5A priority Critical patent/CN104182423A/zh
Publication of CN104182423A publication Critical patent/CN104182423A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于条件随机场的中文人名自动识别方法,通过对中文人名特征的研究,结合统计学的概率模型,构建出中文人名自动识别系统,通过对文本信息进行分词处理,基于条件随机场并结合上下文规则及人名可信度的方法,最后得到候选人名,借助局部统计算法对边界识别错误的人名进行修正,最终得到系统的识别结果,本系统大大降低了由于分词而产生的识别错误,较好的解决了其他命名实体识别为中文人名的情况,提高了识别效果。

Description

一种基于条件随机场的中文人名自动识别方法
技术领域
本发明涉及自然语言处理领域,具体地说是命名实体识别中的中文人名识别技术。
背景技术
中文人名主要包括中国人名、日本人名、外国音译人名等。中文人名的识别是中文命名实体识别的重要组成部分,同时也是信息挖掘、信息抽取、机器翻译、文本分类等研究领域重要的基础性工作。此外,在分词领域,绝大多数的未登录词是人名,中文人名的识别效果直接影响了分词的效果。中文人名识别问题的解决是提高中文文本自动分词精度的先决条件,识别效果有待提高。
有鉴于此,发明人提供了一种基于条件随机场的中文人名自动识别方法。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于条件随机场的中文人名自动识别方法,克服了现有技术的困难,通过对中文人名特征的研究,结合统计学的概率模型,构建出中文人名自动识别系统。通过对文本信息进行分词处理,基于条件随机场并结合上下文规则及人名可信度的方法,最后得到候选人名。借助局部统计算法对边界识别错误的人名进行修正,最终得到系统的识别结果。本系统大大降低了由于分词而产生的识别错误,较好的解决了其他命名实体识别为中文人名的情况,提高了识别效果。
本发明提出了基于条件随机场(CRF)和上下文规则及人名可信度的方法(CRRM)进行中文人名识别。所采用的方法可以分为两个阶段,即训练阶段和识别阶段,预处理训练阶段包含CRF训练和获取规则集两部分,在CRF训练阶段,系统在训练语料库的基础上依次进行特征提取,特征选择和参数训练,最后得到CRF参数模型;另外利用基于转换的错误驱动的学习方法进行规则提取并最终获得规则集。CRRM人名识别过程,首先利用训练阶段设定的特征构建CRF模型并进行人名初识别,然后对CRF识别的结果进行预处理,再利用人名可信度模型、规则等对识别结果进行确认,最后利用局部统计算法对边界识别错误的人名进行了修正,并利用扩散操作召回系统中未被识别的人名。
根据本发明的一个方面,提供一种基于条件随机场的中文人名自动识别方法,包括以下步骤:
构建条件随机场模型;
获取人名规则集,首先利用初始状态的标注器来标注文本,接下来采用转换模板和目标函数,通过与已经正确标注过的参考语料相比较得到多条候选的转换模板,然后从中找出应用一条转换模板后可产生标注错误次数最少的转换式,作为一条新的标注规则作用到标注语料库,直到找不出这样的规则为止;
利用训练阶段得到的条件随机场模型对测试文本语料进行人名识别并输出每个标记的边缘概率;
对条件随机场的识别结果进行预处理;
对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别;
对于识别的潜在人名,利用训练阶段获取的人名规则集进行筛选,去除误识别的人名;
利用局部统计算法对边界识别错误的人名进行修正,并借助已经正确识别的人名进行扩散操作标记未被识别的人名;以及
扩散识别,对多次出现的一个人名根据不同位置进行分别识别。
优选地,所述构建条件随机场模型包括以下步骤:
对各标注语料进行相应的标记转换,使之符合条件随机场所使用的语料库格式,在此共定义了三组标注转换规则,每一组对应条件随机场的一类特征。
对标注转换后的语料进行特征提取,其中将特征分为四类:上下文特征、人名用字特征、边界词特征、字符特征。
选择特征模板,特征模板描述了我们在训练和测试过程中将会使用哪些特征,它为特征函数的生成提供了一个统一的模式,通过特征模板的使用可以使条件随机场方便的获得人名识别所需要的所有特征函数。
通过设置阈值来选择出现频次高于该阈值的特征:
F = { f | Σ x , y ∈ Γ f ( x , y ) ≥ K , f ∈ C }
其中Γ表示训练样本,C表示特征集,K即为设定的阈值。
优选地,所述获取人名规则集包括以下步骤:
利用条件随机场进行人名识别,识别结果作为错误驱动学习的训练语料库。
将人名识别结果和正确的人工标注结果进行比较,分析错误识别的案例,并总结规则。
依次将第二步总结的各条规则应用到人名识别结果的副本中,根据各条规则对人名识别正确率贡献的大小进行由高到低进行排序。
将贡献最大的规则作用到已经识别的文本重新进行人名标注,得到一个更新的已识别文本。
优选地,所述对条件随机场的识别结果进行预处理包括:
将条件随机场的识别结果转换为便于后续处理的格式;以及
对于转换后的结果,利用收集的中文词典采用简单的基于最长匹配的分词方法对转换后的结果进行词语切分。
优选地,所述中文词典由标准中文词集、冲突词集以及关联词集三部分组成;
标准中文词集包含的词既不能是人名,也不可以作为人名的部分出现,该词集将作为分词器的词集使用;
冲突词集包含的词可以作为人名的部分出现,而它本身又不是人名;
关联词集包括那些既可以是人名又可以是地名或其他实体名的词及其相关的表征词。
优选地,所述对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别包括:
将姓和名统一看待,其定义如下:
TP-Name代表外国音译人名;
S代表单个汉字的人名;
F、M、L分别代表外国音译人名首字、中字和尾字。
优选地,所述对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别还包括:并利用β来提高长字符串作为人名的可信度,β定义如下:
&beta; = sin ( &pi; * len 12 ) if 2 &le; len < 6 1 iflen &GreaterEqual; 6
则外国音译人名TP-Name的可信度P(TP-Name)定义如下:
P(TP-Name)=Pf(F)*Pm(M)*Pl(L)*β
优选地,设定位于左右边界词之间及边界词之外的音译人名的可信度阈值分别为0.39和0.592。
与现有技术相比,由于使用了以上技术,本发明的一种基于条件随机场的中文人名自动识别方法通过对中文人名特征的研究,结合统计学的概率模型,构建出中文人名自动识别系统。通过对文本信息进行分词处理,基于条件随机场并结合上下文规则及人名可信度的方法,最后得到候选人名。借助局部统计算法对边界识别错误的人名进行修正,最终得到系统的识别结果。本系统大大降低了由于分词而产生的识别错误,较好的解决了其他命名实体识别为中文人名的情况,提高了识别效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明的第一实施例的,本发明的一种基于条件随机场的中文人名自动识别方法的流程图;以及
图2示出根据本发明的第一实施例的,本发明的一种基于条件随机场的中文人名自动识别方法的过程示意图。
具体实施方式
本领域技术人员理解,本领域技术人员结合现有技术以及上述实施例可以实现变化例,在此不予赘述。这样的变化例并不影响本发明的实质内容,在此不予赘述。
第一实施例
图1示出根据本发明的第一实施例的,本发明的一种基于条件随机场的中文人名自动识别方法的流程图。如图1所示,本发明的一种基于条件随机场的中文人名自动识别方法,包括以下步骤:
步骤S101:构建条件随机场模型。
步骤S102:获取人名规则集,首先利用初始状态的标注器来标注文本,接下来采用转换模板和目标函数,通过与已经正确标注过的参考语料相比较得到多条候选的转换模板,然后从中找出应用一条转换模板后可产生标注错误次数最少的转换式,作为一条新的标注规则作用到标注语料库,直到找不出这样的规则为止。
步骤S103:利用训练阶段得到的条件随机场模型对测试文本语料进行人名识别并输出每个标记的边缘概率。
步骤S104:对条件随机场的识别结果进行预处理。
步骤S105:对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别。
步骤S106:对于识别的潜在人名,利用训练阶段获取的人名规则集进行筛选,去除误识别的人名。
步骤S107:利用局部统计算法对边界识别错误的人名进行修正,并借助已经正确识别的人名进行扩散操作标记未被识别的人名。以及
步骤S108:扩散识别,对多次出现的一个人名根据不同位置进行分别识别。
步骤S101:构建CRF模型
本发明利用两个大规模的人工标注语料库作为训练语料库,他们分别是人民日报语料库和LCMC(The Lancaster Corpus of Mandarin Chinese)语料库。我们利用训练语料库得到CRF的参数模型。基本步骤如下:
第一步,对各标注语料进行相应的标记转换,使之符合CRF所使用的语料库格式,在此共定义了三组标注转换规则,每一组对应CRF的一类特征。
第二步,对标注转换后的语料进行特征提取,其中将特征分为四类:上下文特征、人名用字特征、边界词特征、字符特征,本系统收集的特征总结如下:
表1人名特征总结
第三步,选择特征模板,特征模板描述了我们在训练和测试过程中将会使用哪些特征,它为特征函数的生成提供了一个统一的模式,通过特征模板的使用可以使CRF方便的获得人名识别所需要的所有特征函数。本系统总结的部分特征模板如下:
NO. 模板
T1 Character(n),n∈{-2,-1,0,1,2}
T2 CPOS(n),n∈{-2,-1,0,1,2}
T3 PFamily(n),n∈{-2,-1,0,1,2}
T4 PBegin(n),n∈{-2,-1,0,1,2}
T5 PInner(n),n∈{-2,-1,0,1,2}
T6 PEnd(n),n∈{-2,-1,0,1,2}
T7 PLeftBoundary(n),n∈{-2,-1,0,1,2}
表2中文人名识别特征模板
第四步,通过设置阈值来选择出现频次高于该阈值的特征:
F = { f | &Sigma; x , y &Element; &Gamma; f ( x , y ) &GreaterEqual; K , f &Element; C }
其中Γ表示训练样本,C表示特征集,K即为设定的阈值。
步骤S102:获取人名规则集
本发明利用基于转换的错误驱动的学习方法提取规则,其基本思想是:首先利用初始状态的标注器来标注文本,接下来采用转换模板和目标函数,通过与已经正确标注过的参考语料相比较得到多条候选的转换模板,然后从中找出应用一条转换模板后可产生标注错误次数最少的转换式,作为一条新的标注规则作用到标注语料库,直到找不出这样的规则为止。从而获取规则集。
第一步,利用CRF进行人名识别,识别结果作为错误驱动学习的训练语料库。
第二步,将人名识别结果和正确的人工标注结果进行比较,分析错误识别的案例,并总结规则。
第三步,依次将第二步总结的各条规则应用到人名识别结果的副本中,根据各条规则对人名识别正确率贡献的大小进行由高到低进行排序。
第四步,将贡献最大的规则作用到已经识别的文本重新进行人名标注,得到一个更新的已识别文本。
重复第二步到第四步,当找不到一条规则可以提高人名识别效果时,整个学习过程就结束了。最终我们得到一个有序的规则列表,将这个规则集中的规则全部应用到人名识别过程中。
步骤S103:利用训练阶段得到的CRF模型对测试文本语料进行人名识别并输出每个标记的边缘概率。
步骤S104:对CRF的识别结果进行预处理,共包含两部分的内容。
(1)将CRF的识别结果转换为便于后续处理的格式。
(2)对于转换后的结果,利用收集的中文词典采用简单的基于最长匹配的分词方法对转换后的结果进行词语切分。其中中文词典由标准中文词集、冲突词集以及关联词集三部分组成。
标准中文词集包含的词既不能是人名,也不可以作为人名的部分出现,该词集将作为分词器的词集使用。
冲突词集包含的词可以作为人名的部分出现,而它本身又不是人名。
关联词集中存放那些既可以是人名又可以是地名或其他实体名的词及其相关的表征词。
步骤S105:对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别;
由于中、日、音译人名各有各的特点,我们对中国人名、日本人名和外国音译人名的人名可信度模型做了不同的定义。以外国音译人名为例:
外国音译人名的首字、中字、尾字可信度的定义同日本人名,只是计算所采用的是音译人名的相关用字。考虑到音译人名通常以非完整的形式出现,因此本文将姓和名统一看待,其定义如下:
S代表单个汉字的人名,对于这种人名,如果采用人名可信度进行识别,将会导致大量的单字被识别为人名,并且难以排除,因此对这种人名只能通过上下文特征及人名用字特征相结合来识别。
F、M、L分别代表外国音译人名首字、中字和尾字。另外,我们也需要利用β来提高长字符串作为人名的可信度。β定义如下:
&beta; = sin ( &pi; * len 12 ) if 2 &le; len < 6 1 iflen &GreaterEqual; 6
外国音译人名TP-Name的可信度P(TP-Name)定义如下:
P(TP-Name)=Pf(F)*Pm(M)*Pl(L)*β
本发明设定位于左右边界词之间及边界词之外的音译人名的可信度阈值分别为0.39和0.592。
步骤S106:对于识别的潜在人名,利用训练阶段获取的人名规则集进行筛选,去除误识别的人名。
步骤S107:利用局部统计算法对边界识别错误的人名进行修正,并借助已经正确识别的人名进行扩散操作标记未被识别的人名。例如:
邓小平等人为啥从留法开始走向革命?
邓小平见证了中国20世纪翻天覆地大变化的历史。
邓小平是中国共产党第二代领导核心。
在第一句话中,由于“邓小平”中的“平”字和下文的“等”字成词,导致只有“邓小”被识别为人名,而在第二、三句中的人名均被正确识别。
为了解决上述问题,我们设置了每100句话作为一个统计单元,利用局部统计算法(PFS)来修正边界识别错误的人名。其基本思想是:统计在该单元中不同人名所出现的频率,并按照人名长度从长到短进行排序。对于每一个人名namei,如果人名namej(j>i)是人名namei的一部分,那么(1)如果所有的namej和它的边界汉字可以构成namei,那么将所有的namej及边界汉字用namei进行替换。否则(2)如果namej的频率高于namei,namei不包含人名间隔号且namei去除姓氏后不等于namej,那么将所有的namei变为namej,如果namei余下的字符串仍然可以构成本单元曾经出现过的人名,那么将namei余下的字符串也标注为人名。PFS算法如下所示:
步骤S108:扩散识别:当一个人名在文中多次出现时,由于处在不同的位置,因而具有的上下文环境也不尽相同。对于上下文信息量充足的人名很容易被识别,而在上下文信息量较少的位置的人名则难以识别。此外,若人名和上下文成词,也可能导致人名被漏识别。例如:
人名“李文波”在句子“李文波带领永暑礁上的国际观测站创造了连续7000多天无差错的纪录。”中被识别为人名,但是在“山东汉子李文波南海守礁21年,累计守礁97个月。”中没有被召回。对于这种情况我们可以利用那些已经识别了的人名去找到那些未被识别的人名。
此外,对于中国人名和日本人名,经常会出现有姓无名或者有名无姓的人名,这类人名自身的信息量很少,很可能被我们的系统漏识别,但是这类人名的上文中一般会有与其对应的全称人名出现,我们可以借助这些已识别的全称人名来召回这些不完整的人名。
以下示出了本发明的另一个实施示例。
(1)原语料库如下:
今年/t80/m岁/qt的/u喜多川/nr社长/n亲自/d创办/v了/u吉尼斯/nz公司/n,/w并/cc培养/v出/v SMAP/x这样/r优秀/a的/u男子/n演唱/vn组/n。/w
(2)转换后的测试语料库如下:
(3)CRF的识别结果为:
(4)CRF识别结果预处理1(格式转换)
今/C年/C80岁的/C喜多川社/C长/C亲/A自/A创/A办/A了吉尼斯公司/C,/Cw并/A培/C养/C出/C SMAP这/A样/A优秀的/C男/B子/B演/A唱/A组。/Cw
(5)CRF识别结果预处理2(分词)
今/C年/C80岁的/C喜多川社/C长/C亲/A自/A创/A办/A了吉尼斯公司/rm/C,/Cw并/A培/C养/C出/C SMAP这/A样/A优秀/rm的/C男/B子/B演/A唱/A组。/Cw。/Cw
(6)人名初识别
今年80岁的喜多川/Pname社长亲自创办了吉尼斯/Pname公司,并培养出SMAP这样优秀的男子演唱组。
(7)规则修正
今年80岁的喜多川/Pname社长亲自创办了吉尼斯公司,并培养出SMAP这样优秀的男子演唱组。
(8)局部统计算法
因上述示例中不存在短人名是长人名部分的情况,因此局部统计算法对上述结果没有影响。
(9)扩散操作
因上述示例中不存在多次出现的人名,因此扩散操作对上述结果没有影响。
图2示出根据本发明的第一实施例的,本发明的一种基于条件随机场的中文人名自动识别方法的过程示意图。图2示出了中文人名识别的训练过程和识别过程。在训练过程中,首先对训练语料库进行标注转换,然后在此基础上进行特征提取,并进行特征选择和参数训练,最后得到参数模型,该模型包含了对特征的数字化赋值,可以很好地解析训练数据。在识别阶段,我们的识别步骤已经详细说明,在此不再赘述。
综上可知,本发明的一种基于条件随机场的中文人名自动识别方法通过对中文人名特征的研究,结合统计学的概率模型,构建出中文人名自动识别系统。通过对文本信息进行分词处理,基于条件随机场并结合上下文规则及人名可信度的方法,最后得到候选人名。借助局部统计算法对边界识别错误的人名进行修正,最终得到系统的识别结果。本系统大大降低了由于分词而产生的识别错误,较好的解决了其他命名实体识别为中文人名的情况,提高了识别效果。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (8)

1.一种基于条件随机场的中文人名自动识别方法,其特征在于,包括以下步骤: 
构建条件随机场模型; 
获取人名规则集,首先利用初始状态的标注器来标注文本,接下来采用转换模板和目标函数,通过与已经正确标注过的参考语料相比较得到多条候选的转换模板,然后从中找出应用一条转换模板后可产生标注错误次数最少的转换式,作为一条新的标注规则作用到标注语料库,直到找不出这样的规则为止; 
利用训练阶段得到的条件随机场模型对测试文本语料进行人名识别并输出每个标记的边缘概率; 
对条件随机场的识别结果进行预处理; 
对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别; 
对于识别的潜在人名,利用训练阶段获取的人名规则集进行筛选,去除误识别的人名; 
利用局部统计算法对边界识别错误的人名进行修正,并借助已经正确识别的人名进行扩散操作标记未被识别的人名;以及 
扩散识别,对多次出现的一个人名根据不同位置进行分别识别。 
2.如权利要求1所述的一种基于条件随机场的中文人名自动识别方法,其特征在于:所述构建条件随机场模型包括以下步骤: 
对各标注语料进行相应的标记转换,使之符合条件随机场所使用的语料库格式,在此共定义了三组标注转换规则,每一组对应条件随机场的一类特征。 
对标注转换后的语料进行特征提取,其中将特征分为四类:上下文特征、人名用字特征、边界词特征、字符特征。 
选择特征模板,特征模板描述了我们在训练和测试过程中将会使用哪些特征,它为特征函数的生成提供了一个统一的模式,通过特征模板的使用可以使条件随机场方便的获得人名识别所需要的所有特征函数。 
通过设置阈值来选择出现频次高于该阈值的特征: 
其中Γ表示训练样本,C表示特征集,K即为设定的阈值。 
3.如权利要求1所述的一种基于条件随机场的中文人名自动识别方法,其特征在于:所述获取人名规则集包括以下步骤: 
利用条件随机场进行人名识别,识别结果作为错误驱动学习的训练语料库。 
将人名识别结果和正确的人工标注结果进行比较,分析错误识别的案例,并总结规则。 
依次将第二步总结的各条规则应用到人名识别结果的副本中,根据各条规则对人名识别正确率贡献的大小进行由高到低进行排序。 
将贡献最大的规则作用到已经识别的文本重新进行人名标注,得到一个更新的已识别文本。 
4.如权利要求1所述的一种基于条件随机场的中文人名自动识别方法,其特征在于:所述对条件随机场的识别结果进行预处理包括: 
将条件随机场的识别结果转换为便于后续处理的格式;以及 
对于转换后的结果,利用收集的中文词典采用简单的基于最长匹配的分词方法对转换后的结果进行词语切分。 
5.如权利要求4所述的一种基于条件随机场的中文人名自动识别方法,其特征在于:所述中文词典由标准中文词集、冲突词集以及关联词集三部分组成; 
标准中文词集包含的词既不能是人名,也不可以作为人名的部分出现,该词集将作为分词器的词集使用; 
冲突词集包含的词可以作为人名的部分出现,而它本身又不是人名; 
关联词集包括那些既可以是人名又可以是地名或其他实体名的词及其相关的表征词。 
6.如权利要求1所述的一种基于条件随机场的中文人名自动识别方法,其特征在于:所述对于边缘概率低的人名以及未被识别的潜在人名利用人 名可信度模型进行识别包括: 
将姓和名统一看待,其定义如下: 
TP-Name代表外国音译人名; 
S代表单个汉字的人名; 
F、M、L分别代表外国音译人名首字、中字和尾字。 
7.如权利要求6所述的一种基于条件随机场的中文人名自动识别方法,其特征在于:所述对于边缘概率低的人名以及未被识别的潜在人名利用人名可信度模型进行识别还包括:并利用β来提高长字符串作为人名的可信度,β定义如下: 
则外国音译人名TP-Name的可信度P(TP-Name)定义如下: 
P(TP-Name)=Pf(F)*Pm(M)*Pl(L)*β 。
8.如权利要求7所述的一种基于条件随机场的中文人名自动识别方法,其特征在于:设定位于左右边界词之间及边界词之外的音译人名的可信度阈值分别为0.39和0.592。 
CN201310202667.5A 2013-05-27 2013-05-27 一种基于条件随机场的中文人名自动识别方法 Pending CN104182423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310202667.5A CN104182423A (zh) 2013-05-27 2013-05-27 一种基于条件随机场的中文人名自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310202667.5A CN104182423A (zh) 2013-05-27 2013-05-27 一种基于条件随机场的中文人名自动识别方法

Publications (1)

Publication Number Publication Date
CN104182423A true CN104182423A (zh) 2014-12-03

Family

ID=51963474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310202667.5A Pending CN104182423A (zh) 2013-05-27 2013-05-27 一种基于条件随机场的中文人名自动识别方法

Country Status (1)

Country Link
CN (1) CN104182423A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750779A (zh) * 2015-03-04 2015-07-01 华东师范大学 一种基于条件随机场的中文兼类词识别方法
CN105260360A (zh) * 2015-10-27 2016-01-20 小米科技有限责任公司 命名实体的识别方法及装置
CN105723361A (zh) * 2016-01-07 2016-06-29 马岩 网络信息的分词处理方法及系统
CN106598950A (zh) * 2016-12-23 2017-04-26 东北大学 一种基于混合层叠模型的命名实体识别方法
CN106919794A (zh) * 2017-02-24 2017-07-04 黑龙江特士信息技术有限公司 面向多数据源的药品类实体识别方法及装置
CN107038157A (zh) * 2017-05-05 2017-08-11 百度在线网络技术(北京)有限公司 基于人工智能的识别错误发现方法、装置及存储介质
CN108171064A (zh) * 2018-01-29 2018-06-15 中国人民解放军战略支援部队信息工程大学 一种用于灰盒模糊测试的样本格式保护方法及装置
CN108197110A (zh) * 2018-01-03 2018-06-22 北京方寸开元科技发展有限公司 一种名字和职务获取及校对的方法、装置及其存储介质
CN108829775A (zh) * 2018-05-30 2018-11-16 国网浙江省电力有限公司宁波供电公司 一种基于条件随机场的电力调度日志设备名称提取方法
CN108959566A (zh) * 2018-07-04 2018-12-07 哈尔滨工业大学 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN109189932A (zh) * 2018-09-06 2019-01-11 北京京东尚科信息技术有限公司 文本分类方法和装置、计算机可读存储介质
CN109977951A (zh) * 2019-03-22 2019-07-05 北京泰迪熊移动科技有限公司 一种用于识别服务门店名的方法、设备及存储介质
CN110222329A (zh) * 2019-04-22 2019-09-10 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置
CN110516241A (zh) * 2019-08-26 2019-11-29 北京三快在线科技有限公司 地理地址解析方法、装置、可读存储介质及电子设备
CN112883161A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 音译名识别规则的生成方法、装置、生成设备及存储介质
CN113011183A (zh) * 2021-03-23 2021-06-22 北京科东电力控制系统有限责任公司 一种电力调控领域非结构化文本数据处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955775A (zh) * 2012-06-14 2013-03-06 华东师范大学 基于上下文语义的外国人名自动识别控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955775A (zh) * 2012-06-14 2013-03-06 华东师范大学 基于上下文语义的外国人名自动识别控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZUXING WANG等: "A Context-aware Automatic Chinese Transliterated Person Names Recognition Approach", 《2012 EIGHTH INTERNATIONAL CONFERENCE ON SEMANTICS, KNOWLEDGE AND GRIDS》 *
和雪娟等: "基于统计和规则混合策略的中国人名识别研究", 《云南民族大学学报(自然科学版)》 *
王东亮: "基于条件随机场模型的中文人名识别的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
罗智勇,宋柔: "一种基于可信度的人名识别方法", 《中文信息学报》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750779A (zh) * 2015-03-04 2015-07-01 华东师范大学 一种基于条件随机场的中文兼类词识别方法
CN105260360B (zh) * 2015-10-27 2018-12-18 小米科技有限责任公司 命名实体的识别方法及装置
CN105260360A (zh) * 2015-10-27 2016-01-20 小米科技有限责任公司 命名实体的识别方法及装置
CN105723361A (zh) * 2016-01-07 2016-06-29 马岩 网络信息的分词处理方法及系统
WO2017117782A1 (zh) * 2016-01-07 2017-07-13 马岩 网络信息的分词处理方法及系统
CN106598950A (zh) * 2016-12-23 2017-04-26 东北大学 一种基于混合层叠模型的命名实体识别方法
CN106919794A (zh) * 2017-02-24 2017-07-04 黑龙江特士信息技术有限公司 面向多数据源的药品类实体识别方法及装置
CN106919794B (zh) * 2017-02-24 2019-12-06 黑龙江特士信息技术有限公司 面向多数据源的药品类实体识别方法及装置
CN107038157A (zh) * 2017-05-05 2017-08-11 百度在线网络技术(北京)有限公司 基于人工智能的识别错误发现方法、装置及存储介质
US10599954B2 (en) 2017-05-05 2020-03-24 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus of discovering bad case based on artificial intelligence, device and storage medium
CN108197110A (zh) * 2018-01-03 2018-06-22 北京方寸开元科技发展有限公司 一种名字和职务获取及校对的方法、装置及其存储介质
CN108171064B (zh) * 2018-01-29 2021-03-19 中国人民解放军战略支援部队信息工程大学 一种用于灰盒模糊测试的样本格式保护方法及装置
CN108171064A (zh) * 2018-01-29 2018-06-15 中国人民解放军战略支援部队信息工程大学 一种用于灰盒模糊测试的样本格式保护方法及装置
CN108829775A (zh) * 2018-05-30 2018-11-16 国网浙江省电力有限公司宁波供电公司 一种基于条件随机场的电力调度日志设备名称提取方法
CN108959566A (zh) * 2018-07-04 2018-12-07 哈尔滨工业大学 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN109189932A (zh) * 2018-09-06 2019-01-11 北京京东尚科信息技术有限公司 文本分类方法和装置、计算机可读存储介质
CN109977951A (zh) * 2019-03-22 2019-07-05 北京泰迪熊移动科技有限公司 一种用于识别服务门店名的方法、设备及存储介质
CN109977951B (zh) * 2019-03-22 2021-10-15 北京泰迪熊移动科技有限公司 一种用于识别服务门店名的方法、设备及存储介质
CN110222329A (zh) * 2019-04-22 2019-09-10 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置
CN110222329B (zh) * 2019-04-22 2023-11-24 平安科技(深圳)有限公司 一种基于深度学习的中文分词方法和装置
CN110516241A (zh) * 2019-08-26 2019-11-29 北京三快在线科技有限公司 地理地址解析方法、装置、可读存储介质及电子设备
CN112883161A (zh) * 2021-03-05 2021-06-01 龙马智芯(珠海横琴)科技有限公司 音译名识别规则的生成方法、装置、生成设备及存储介质
CN113011183A (zh) * 2021-03-23 2021-06-22 北京科东电力控制系统有限责任公司 一种电力调控领域非结构化文本数据处理方法及系统
CN113011183B (zh) * 2021-03-23 2023-09-05 北京科东电力控制系统有限责任公司 一种电力调控领域非结构化文本数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN104182423A (zh) 一种基于条件随机场的中文人名自动识别方法
CN109829159B (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN108287911B (zh) 一种基于约束化远程监督的关系抽取方法
CN112632980A (zh) 一种基于大数据深度学习的企业分类方法、系统及电子设备
US12008830B2 (en) System for template invariant information extraction
CN110457715B (zh) 融入分类词典的汉越神经机器翻译集外词处理方法
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN111324742A (zh) 一种数字人文知识图谱的构建方法
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN111860981B (zh) 一种基于lstm深度学习的企业国民行业类别预测方法及系统
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN113722490A (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN110929714A (zh) 一种基于深度学习的密集文本图片的信息提取方法
CN116257644A (zh) 标注数据的方法、通过模型标注数据的方法及装置
CN116776879A (zh) 一种挖掘招聘领域技能实体的方法、系统及设备
CN114782965A (zh) 基于布局关联性的视觉富文档信息抽取方法、系统及介质
Sturgeon Large-scale Optical Character Recognition of pre-modern Chinese texts
CN116720520A (zh) 一种面向文本数据的别名实体快速识别方法及系统
CN110941703A (zh) 一种基于机器学习和模糊规则的集成简历信息抽取方法
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
Liu et al. Recognizing proper names in ur iii texts through supervised learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141203

WD01 Invention patent application deemed withdrawn after publication