CN106354713A - 自动识别中文姓名的方法 - Google Patents
自动识别中文姓名的方法 Download PDFInfo
- Publication number
- CN106354713A CN106354713A CN201610753576.4A CN201610753576A CN106354713A CN 106354713 A CN106354713 A CN 106354713A CN 201610753576 A CN201610753576 A CN 201610753576A CN 106354713 A CN106354713 A CN 106354713A
- Authority
- CN
- China
- Prior art keywords
- name
- word
- probability
- chinese
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及计算机应用技术领域,具体涉及自动识别中文姓名的方法。本发明包括标注数据训练部分和人名识别部分。本发明不需要穷举人名,而是通过算法自动识别人名中文人名的组合极多,而且每时每刻都有新增的人名,直接将所有人名加入词典显然是不可能实现的。自动根据上下文来判断人名姓名的分布受上下文影响很大。另外,还有一些生僻的中文姓名,给自动人名识别带来了很大的困难。通过本发明专利的方法,可以全面解决上述复杂情况的识别。
Description
技术领域
本发明涉及自动识别中文姓名的方法,具体涉及根据标注出人名的中文训练语料集,统计特定汉字在中文人名不同位置出现的先验概率,再根据所提出的中文人名组合概率计算方法,判断并提取中文人名片段。
背景技术
在中文的文章中,经常会出现人物姓名,例如“王建国”、“张晓明”、“李明”等,但是怎样通过计算机系统自动来识别哪些是人物的姓名,是本专利待解决的问题。
解决该问题的难点在于,中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。例句:“Actress Ziyi Zhang won the prize”,英文可自然分割为Actress/Margaret/Grace/won/the/prize这样的词汇,每个词能独立表义;而中文里:“女影星章子怡赢得了奖金”,由于缺少分隔符,在寻找进行符合汉字表义的切分就会遇到困难。
另一方面,在中文里,“词”比“单字”的表义能力更强;现代汉语的基本表达单元为“词”,以双字或者多字居多,其单独切分后难以独自表义。例如:章子怡,如果按单子切分为“章”、“子”、“怡”,则这些单字不符合人对中文语义的理解,因此不符合需求。
发明内容
针对现有技术中的上述不足之处,本发明专利提出一种自动识别中文姓名的方法,来自动识别中文文章中连续的字的含义,判断其中是否存在中文姓名,如果存在则可以自动进行提取。
本发明采取的技术方案如下:
自动识别中文姓名的方法,包括如下两步骤:
第一步,标注数据训练部分;
第二步,人名识别部分;
第一步所述的标注数据训练部分包括如下步骤:
C.将单字按照出现的位置划分为以下类型:
1H_1:出现在中文人名的首部/Head;
2M_1:出现在中文人名的中间/Middle;
3T_1:出现在中文人名的尾部/Tail;
4N_1:未出现在中文人名的以上任何位置/None;
5统计所有单字在以上4种类型中的数量,并计算概率;对单字w_i来说,其条件概率分别为:
P(H_1|w_i),P(M_1|w_i),P(T_1|w_i),P(N_1|w_i),
D.将双字按照出现的位置划分为以下类型:
1H_2:出现在中文人名首部的双字复姓/Head;
2HM_2:2字人名,但是后面如果再跟一个汉字的话很可能构成3子人名/Head+Middle;
3MT_2:经常作3字中国人名的2字词语;
4N_2:未出现在中文人名的以上任何位置/None;
所述对2HM_2和3MT_2两种类型,抽取方法为在全部人名中,出现频次高于阈值β的组合;
5统计所有双字在以上4类情况中的数量,并计算概率;对双字w_i来说,条件概率分别为:
P(H_2|w_i),P(HM_2|w_i),P(MT_2|w_i),P(N_2|w_i),
对在以上4类情况中出现的双字组合和以上概率值,构成词典DoubleWord_Dict;
C.通过贝叶斯概率公式近似计算单字和双字出现概率,
其中N为所有出现在H_1位置的单字的总数;
类似的,可以得到单字在所有可能位置的概率:
P(w_i|M_1),P(w_i|T_1),P(w_i|N_1),
和双字的所有概率:
P(w_i|H_2),P(w_i|HM_2),P(w_i|MT_2),P(w_i|N_2),
第二步所述的人名识别部分包括如下步骤:
A.初始化,候选的文本串;
B.判断当前词是否为DoubleWord_dict中类型为H_2或者HM_2的双字词;假如是H_2或者HM_2的双字词,设置d1为该双字词,取对应的条件概率数值,并进入步骤3:假如不是H_2或者HM_2的双字词,则进行步骤3:
C.判断当前词是否为单字中类型为H_1的词;如果不是类型为H_1的词,则认为当前词非人名,继续沿文本向前遍历,直至文本结束;如果为是类型为H_1的词,则设置d1为该单字,取对应的单字条件概率,并进入步骤4;
D.判断d1后紧接的两汉字是否为Doubleword_dict中类型为MT_2中出现的双字名;如果出现双字名,则设置MT_2的对应双字为d2,并取对应概率,进入二阶贝叶斯概率人名判断模块,即进入F步;如果不出现双字名,则分别取其后的连续两字,设置为d2、d3,将d1、d2、d3送入三阶人名判断模块,即进入G步;
E.如果上述判断仍然为否,则将d1、d2送入二阶人名判断模块;
F.二阶贝叶斯概率人名判断模块;
G.三阶贝叶斯概率人名判断模块;
H.结束。
2.根据权利1所述的自动识别中文姓名的方法,其特征在于,第二步涉及到的F步的二阶贝叶斯概率人名判断模块的算法为:
构成人名的概率为:
通过该贝叶斯算法计算P(HT|d1d2),来判断当前组合为二阶人名的概率,在该公式中,P(HT)为常数,当d1,d2确定时,P(d1d2)不变,因此只需要计算概率P(d1d2|HT),由于在计算双字组合时,已经将两字间存在紧密关系的部分拆离出来,因此,可认为d1,d2直接独立分布,因此近似计算方法为:
P(d1d2|HT)=P(d1|H)×P(d2|T),
其中,P(d1|H)和P(d2|T)在前面的训练阶段已经计算并存储好,直接读取并计算即可,判断当且仅当满足:
P(d1d2|HT)>P(d1|N)*P(d2|N),P(d1d2|HT)>P(d1|N)*P(d2|H)时,则d1,d2的组合为中文人名。
3.根据权利1所述的自动识别中文姓名的方法,其特征在于,第二步涉及到的G步的三阶贝叶斯概率人名判断模块的算法为:
与二阶模块类似,贝叶斯计算公式:
P(d1d2d3|HMT)=P(d1|H)×P(d2|M)×P(d3|T),
当计算所得的P(d1d2d3|HMT)同时满足:
P(d1d2d3|HMT)>P(d1|N)*P(d2|N)*P(d3|N),P(d1d2d3|HMT)>P(d1|N)*P(d2|N)*P(d3|B),P(d1d2d3|HMT)>P(d1|N)*P(d2|B)*P(d3|E);P(d1d2d3|HMT)>P(d1|B)*P(d2|E)*P(d3|O),P(d1d2d3|HMT)>P(d1|B)*,P(d2|E)*P(d3|B);则该组合d1/d2/d3为合法的三阶人名组合。
采用上述技术方案,本发明包括以下有益技术效果:
1.不需要穷举人名,而是通过算法自动识别人名中文人名的组合极多,而且每时每刻都有新增的人名,直接将所有人名加入词典显然是不可能实现的。
2.自动根据上下文来判断人名姓名的分布受上下文影响很大。例如“王军虎去广州了”,这里“王军虎”是一个人的名字,而在句子“王军虎头虎脑的”中,“王军虎”不是一个人名。这里的判定要根据上下文才能识别。
3.自动识别中文人名中存在的复杂情况。中文人名中,存在有单姓、复姓;二字人名、三字人名、四字人名等多样情况,除了“王、张、赵、陈、李”等常见单姓外,还有很多复姓“欧阳、司马、公孙、上官”等复姓,中文人名的长度也不一,另外,还有一些生僻的中文姓名,给自动人名识别带来了很大的困难。通过本专利的方法,可以全面解决上述复杂情况的识别。
附图说明
图1示例性示出了本发明的流程示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。整体流程分为2大部分:标注数据训练部分和人名识别部分。其中,标注数据训练部分的具体步骤如下:
其中姓名数据训练部分可使用已标注好中文人名的大量训练文本作为基础语料,具体操作包括:
1.将单字按照出现的位置划分为以下类型:
H_1:出现在中文人名的首部/Head,为单姓,例如:张、李、王;
M_1:出现在中文人名的中间/Middle,例如:晓、学、海等;
T_1:出现在中文人名的尾部/Tail,例如:文、斌、涛;
N_1:未出现在中文人名的以上任何位置/None;
统计所有单字在以上4种类型中的数量,并计算概率;对单字w_i来说,其条件概率分别为:
P(H_1|w_i),P(M_1|w_i),P(T_1|w_i),P(N_1|w_i);
2.将双字按照出现的位置划分为以下类型:
H_2:出现在中文人名首部的双字复姓/Head,例如:欧阳,上官,司马等;
HM_2:2字人名,但是后面如果再跟一个汉字的话很可能构成3子人名/Head+Middle,例如:刘晓、李嘉、张明;
MT_2:经常作3字中国人名的2字词语,例如:晓明、建国、学军;
N_2:未出现在中文人名的以上任何位置/None;
其中对HM_2,MT_2两种类型,抽取方法为在全部人名中,出现频次高于阈值β的组合;
统计所有双字在以上4类情况中的数量,并计算概率;对双字w_i来说,条件概率分别为:
P(H_2|w_i),P(HM_2|w_i),P(MT_2|w_i),P(N_2|w_i);
对在以上4类情况中出现的双字组合和以上概率值,构成词典DoubleWord_Dict。
3.通过贝叶斯概率公式近似计算单字和双字出现
其中,N为所有出现在H_1位置的单字的总数。类似的,我们可以得到单字在所有可能位置的概率:
P(w_i|M_1),P(w_i|T_1),P(w_i|N_1),
和双字的所有概率:
P(w_i|H_2),P(w_i|HM_2),P(w_i|MT_2),P(w_i|N_2);
以上为数据训练和准备阶段,全部完成并将模型记录好以后,就可以进入第2阶段。对待检测的文章,进行第2阶段人名识别部分工作的具体步骤为:
A.初始化,候选的文本串;
B.判断当前词是否为DoubleWord_dict中类型为H_2或者HM_2的双字词;假如是H_2或者HM_2的双字词,设置d1为该双字词,取对应的条件概率数值,并进入步骤3:假如不是H_2或者HM_2的双字词,则进行步骤3:
C.判断当前词是否为单字中类型为H_1的词;如果不是类型为H_1的词,则认为当前词非人名,继续沿文本向前遍历,直至文本结束;如果为是类型为H_1的词,则设置d1为该单字,取对应的单字条件概率,并进入步骤4;
D.判断d1后紧接的两汉字是否为Doubleword_dict中类型为MT_2中出现的双字名;如果出现双字名,则设置MT_2的对应双字为d2,并取对应概率,进入二阶贝叶斯概率人名判断模块,即进入F步;如果不出现双字名,则分别取其后的连续两字,设置为d2、d3,将d1、d2、d3送入三阶人名判断模块,即进入G步;
E.如果上述判断仍然为否,则将d1、d2送入二阶人名判断模块;
F.二阶贝叶斯概率人名判断模块;
G.三阶贝叶斯概率人名判断模块;
H.结束。
第二步涉及到的F步的二阶贝叶斯概率人名判断模块的算法为:构成人名的概率为:
通过该贝叶斯算法计算P(HT|d1d2),来判断当前组合为二阶人名的概率,在该公式中,P(HT)为常数,当d1,d2确定时,P(d1d2)不变,因此只需要计算概率P(d1d2|HT),由于在计算双字组合时,已经将两字间存在紧密关系的部分拆离出来,因此,可认为d1,d2直接独立分布,因此近似计算方法为:
P(d1d2|HT)=P(d1|H)×P(d2|T),
其中,P(d1|H)和P(d2|T)在前面的训练阶段已经计算并存储好,直接读取并计算即可,判断当且仅当满足:
P(d1d2|HT)>P(d1|N)*P(d2|N),P(d1d2|HT)>P(d1|N)*P(d2|H)时,则d1,d2的组合为中文人名。
第二步涉及到的G步的三阶贝叶斯概率人名判断模块的算法为:
与二阶模块类似,贝叶斯计算公式:
P(d1d2d3|HMT)=P(d1|H)×P(d2|M)×P(d3|T),
当计算所得的P(d1d2d3|HMT)同时满足:
P(d1d2d3|HMT)>P(d1|N)*P(d2|N)*P(d3|N),P(d1d2d3|HMT)>P(d1|N)*P(d2|N)*P(d3|B),P(d1d2d3|HMT)>P(d1|N)*P(d2|B)*P(d3|E);P(d1d2d3|HMT)>P(d1|B)*P(d2|E)*P(d3|O),P(d1d2d3|HMT)>P(d1|B)*,P(d2|E)*P(d3|B);则该组合d1/d2/d3为合法的三阶人名组合。
本方法适用与中文人名识别,能够处理长度从2-4的任意中文人名,例如:2字:王明;3字:汤晓欧;4字:欧阳夏丹。基于二阶和三阶贝叶斯概率统计的方法,有良好的识别稳定性。巧妙的使用了单字和双字组合策略进行概率计算,提出的方法能处理中文人名歧义切分的问题。
对于本领域的普通技术人员而言,具体实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。
Claims (3)
1.自动识别中文姓名的方法,其特征在于,包括如下两步骤:
第一步,标注数据训练部分;
第二步,人名识别部分;
第一步所述的标注数据训练部分包括如下步骤:
A.将单字按照出现的位置划分为以下类型:
1 H_1:出现在中文人名的首部/Head;
2 M_1:出现在中文人名的中间/Middle;
3 T_1:出现在中文人名的尾部/Tail;
4 N_1:未出现在中文人名的以上任何位置/None;
5统计所有单字在以上4种类型中的数量,并计算概率;对单字w_i来说,其条件概率分别为:
P(H_1|w_i),P(M_1|w_i),P(T_1|w_i),P(N_1|w_i),
B.将双字按照出现的位置划分为以下类型:
1 H_2:出现在中文人名首部的双字复姓/Head;
2 HM_2:2字人名,但是后面如果再跟一个汉字的话很可能构成3子人名/Head+Middle;
3 MT_2:经常作3字中国人名的2字词语;
4 N_2:未出现在中文人名的以上任何位置/None;
所述对2 HM_2和3 MT_2两种类型,抽取方法为在全部人名中,出现频次高于阈值β的组合;
5统计所有双字在以上4类情况中的数量,并计算概率;对双字w_i来说,条件概率分别为:
P(H_2|w_i),P(HM_2|w_i),P(MT_2|w_i),P(N_2|w_i),
对在以上4类情况中出现的双字组合和以上概率值,构成词典DoubleWord_Dict;
C.通过贝叶斯概率公式近似计算单字和双字出现概率,
其中N为所有出现在H_1位置的单字的总数;
类似的,可以得到单字在所有可能位置的概率:
P(w_i|M_1),P(w_i|T_1),P(w_i|N_1),
和双字的所有概率:
P(w_i|H_2),P(w_i|HM_2),P(w_i|MT_2),P(w_i|N_2),
第二步所述的人名识别部分包括如下步骤:
A.初始化,候选的文本串;
B.判断当前词是否为DoubleWord_dict中类型为H_2或者HM_2的双字词;假如是H_2或者HM_2的双字词,设置d1为该双字词,取对应的条件概率数值,并进入步骤3:假如不是H_2或者HM_2的双字词,则进行步骤3:
C.判断当前词是否为单字中类型为H_1的词;如果不是类型为H_1的词,则认为当前词非人名,继续沿文本向前遍历,直至文本结束;如果为是类型为H_1的词,则设置d1为该单字,取对应的单字条件概率,并进入步骤4;
D.判断d1后紧接的两汉字是否为Doubleword_dict中类型为MT_2中出现的双字名;如果出现双字名,则设置MT_2的对应双字为d2,并取对应概率,进入二阶贝叶斯概率人名判断模块,即进入F步;如果不出现双字名,则分别取其后的连续两字,设置为d2、d3,将d1、d2、d3送入三阶人名判断模块,即进入G步;
E.如果上述判断仍然为否,则将d1、d2送入二阶人名判断模块;
F.二阶贝叶斯概率人名判断模块;
G.三阶贝叶斯概率人名判断模块;
H.结束。
2.根据权利1所述的自动识别中文姓名的方法,其特征在于,第二步涉及到的F步的二阶贝叶斯概率人名判断模块的算法为:
构成人名的概率为:
通过该贝叶斯算法计算P(HT|d1d2),来判断当前组合为二阶人名的概率,在该公式中,P(HT)为常数,当d1,d2确定时,P(d1d2)不变,因此只需要计算概率P(d1d2|HT),由于在计算双字组合时,已经将两字间存在紧密关系的部分拆离出来,因此,可认为d1,d2直接独立分布,因此近似计算方法为:
P(d1d2|HT)=P(d1|H)×P(d2|T),
其中,P(d1|H)和P(d2|T)在前面的训练阶段已经计算并存储好,直接读取并计算即可,判断当且仅当满足:
P(d1d2|HT)>P(d1|N)*P(d2|N),P(d1d2|HT)>P(d1|N)*P(d2|H)时,则d1,d2的组合为中文人名。
3.根据权利1所述的自动识别中文姓名的方法,其特征在于,第二步涉及到的G步的三阶贝叶斯概率人名判断模块的算法为:
与二阶模块类似,贝叶斯计算公式:
P(d1d2d3|HMT)=P(d1|H)×P(d2|M)×P(d3|T),
当计算所得的P(d1d2d3|HMT)同时满足:
P(d1d2d3|HMT)>P(d1|N)*P(d2|N)*P(d3|N),P(d1d2d3|HMT)>P(d1|N)*P(d2|N)*P(d3|B),P(d1d2d3|HMT)>P(d1|N)*P(d2|B)*P(d3|E);P(d1d2d3|HMT)>P(d1|B)*P(d2|E)*P(d3|O),P(d1d2d3|HMT)>P(d1|B)*,P(d2|E)*P(d3|B);则该组合d1/d2/d3为合法的三阶人名组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610753576.4A CN106354713A (zh) | 2016-08-29 | 2016-08-29 | 自动识别中文姓名的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610753576.4A CN106354713A (zh) | 2016-08-29 | 2016-08-29 | 自动识别中文姓名的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106354713A true CN106354713A (zh) | 2017-01-25 |
Family
ID=57857389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610753576.4A Pending CN106354713A (zh) | 2016-08-29 | 2016-08-29 | 自动识别中文姓名的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106354713A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197110A (zh) * | 2018-01-03 | 2018-06-22 | 北京方寸开元科技发展有限公司 | 一种名字和职务获取及校对的方法、装置及其存储介质 |
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1342942A (zh) * | 2000-09-08 | 2002-04-03 | 百度在线网络技术(北京)有限公司 | 中文姓名的计算机识别及检索方法 |
CN101727441A (zh) * | 2009-12-25 | 2010-06-09 | 北京工业大学 | 一种面向中文人名识别系统的评测方法及评测系统 |
CN102033879A (zh) * | 2009-09-27 | 2011-04-27 | 腾讯科技(深圳)有限公司 | 一种中文人名识别的方法和装置 |
CN102339286A (zh) * | 2010-07-22 | 2012-02-01 | 盛乐信息技术(上海)有限公司 | 中文人名自动识别方法 |
-
2016
- 2016-08-29 CN CN201610753576.4A patent/CN106354713A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1342942A (zh) * | 2000-09-08 | 2002-04-03 | 百度在线网络技术(北京)有限公司 | 中文姓名的计算机识别及检索方法 |
CN102033879A (zh) * | 2009-09-27 | 2011-04-27 | 腾讯科技(深圳)有限公司 | 一种中文人名识别的方法和装置 |
CN101727441A (zh) * | 2009-12-25 | 2010-06-09 | 北京工业大学 | 一种面向中文人名识别系统的评测方法及评测系统 |
CN102339286A (zh) * | 2010-07-22 | 2012-02-01 | 盛乐信息技术(上海)有限公司 | 中文人名自动识别方法 |
Non-Patent Citations (1)
Title |
---|
韩明 等: "《概率论与数理统计(第4版)》", 30 June 2016, 上海:同济大学出版社 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197110A (zh) * | 2018-01-03 | 2018-06-22 | 北京方寸开元科技发展有限公司 | 一种名字和职务获取及校对的方法、装置及其存储介质 |
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
CN109344233B (zh) * | 2018-08-28 | 2022-07-19 | 昆明理工大学 | 一种中文人名识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE602005001840T2 (de) | System und Verfahren zur Verdeutlichung nicht diakritisierter arabischer Wörter in einem Text | |
CN109241538A (zh) | 基于关键词和动词依存的中文实体关系抽取方法 | |
CN105718586A (zh) | 分词的方法及装置 | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN104951469B (zh) | 优化语料库的方法和装置 | |
CN101655866A (zh) | 科技术语的自动化抽取方法 | |
CN108549625B (zh) | 一种基于句法宾语聚类的中文篇章表现主题分析方法 | |
CN102033879A (zh) | 一种中文人名识别的方法和装置 | |
CN101937430A (zh) | 一种汉语句子中事件句式的抽取方法 | |
CN107818082B (zh) | 结合短语结构树的语义角色识别方法 | |
CN109657039B (zh) | 一种基于双层BiLSTM-CRF的工作履历信息抽取方法 | |
CN105138514A (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN109344403A (zh) | 一种增强语义特征嵌入的文本表示方法 | |
Joosten | The distinction between Classical and Late Biblical Hebrew as reflected in syntax | |
Huber | Syntactic and variational complexity in British and Ghanaian English | |
CN109255117A (zh) | 中文分词方法及装置 | |
WO2019100458A1 (zh) | 泰语音节切分的方法及装置 | |
CN105095196A (zh) | 文本中新词发现的方法和装置 | |
CN104598441B (zh) | 一种计算机拆分汉语句子的方法 | |
CN111984845B (zh) | 网站错别字识别方法和系统 | |
CN106354713A (zh) | 自动识别中文姓名的方法 | |
CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
CN102982020A (zh) | 一种搜索系统中的中文分词方法 | |
CN107092590A (zh) | 一种语句分词方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170125 |
|
RJ01 | Rejection of invention patent application after publication |