CN108647208A - 一种基于中文的新型分词方法 - Google Patents
一种基于中文的新型分词方法 Download PDFInfo
- Publication number
- CN108647208A CN108647208A CN201810437731.0A CN201810437731A CN108647208A CN 108647208 A CN108647208 A CN 108647208A CN 201810437731 A CN201810437731 A CN 201810437731A CN 108647208 A CN108647208 A CN 108647208A
- Authority
- CN
- China
- Prior art keywords
- word
- chinese
- probability
- state
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于中文的新型分词方法,包括以下步骤:(1)以一字一方格形式录入文本,命名方块扫描器;(2)扫描文本,待将所有文本中的词按单字完全切分后,对于扫描器识别的未登录词,构建隐马尔科夫模型;(3)构建马尔科夫模型λ=(A,B,π);(4)将汉字的状态分为起始字B、中间字M、结束字E、单个成词字S四种状态;(5)计算概率并进行归一化;(6)对句子进行切分;本发明对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。
Description
技术领域
本发明涉及中文分词技术领域,尤其涉及一种基于中文的新型分词方法。
背景技术
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,在英文的行文中,单词之间是以空格作为自然分界符的,使得英文分词技术相对成熟,大大地推动了英文自然语言处理技术的发展。而有别于英文,中文没有天然的空格对词进行切分,中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。
有鉴于此,特提出本发明。
发明内容内容
针对现有技术中存在的问题,本发明的目的是提供一种基于中文的新型分词方法,对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。
为了实现上述目的,本发明提供的一种基于中文的新型分词方法,包括以下步骤:
(1)判断字体,将文本以一字一方格形式录入,并将其命名为方块字扫描器;
(2)当扫描器接触到文本起始字边缘时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出,完成分词;待将所有文本中的词按单字完全切分后,对扫描器识别未登录词,构建隐马尔科夫模型;
(3)建设隐马尔科夫模型参数,λ=(π,A,B),其中,
A是状态转移概率矩阵A=[aij]N×M,aij=P(it+1=qj|it=qi),aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率;
B是观测概率矩阵B=[bik]N×M,bik=P(ot=vk|it=qi),bik是在时刻t处于状态qi的条件下生产观测Vk的概率;
π是初始状态概率向量:π=(πi),πi=P(i1=qi),πi是时刻t=1处于状态qi的概率;
Q是所有可能的状态,记为Q={q1,q2,.....qN},N是可能的状态数目,记为:N={v1,v2,......vM};
I是长度为T的状态序列,O是对应的观测序列I={i1,i2...iT}O={O1,O2,...OT};
(4)将汉字的状态分为起始字begin(B)、中间字middle(M)、结束字end(E)、单个成词字single(S)四种状态;
(5)读取词库统计B/M/S/E状态字的词频并计算概率(qi)并进行归一化操作即
初始概率:i∈[0,3]
统计词库中B/M/S/E状态字相互转移概率(qij)并进行归一化操作即
转移概率:N∈[0,65535]
统计词库中汉字分别为B/M/S/E状态的概率(sik)并进行归一化操作即
观测概率:M=65536
得λ=(πi,aij,bik)
(6)利用Viterbi算法对所给句子进行概率计算并利用大数定理原理从而对句子进行切分。
优选地,所述步骤(2)对按单个汉字切分后的文本通过监督学习方法并辅助标准中文词库进行概率计算;
优选地,所述隐马尔科夫模型参数齐次假设:
P(it|it-1,ot-1,it-2,ot-2…i1,o1)=P(it|it-1)
观测独立性假设:
P(ot|iT,oT,iT-1,OT-1…i1,o1)=P(ot|it)
优选地,所述步骤(2)中所述扫描器遇到数字等非中文字符时直接将其单个切分。
本发明提供的,具有如下有益效果:本发明采用中文汉字一字一方格命名放块扫描仪的方法,对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。
附图说明
图1为本发明提供的流程示意图图
图2为本发明提供的方块扫描仪的示意图。
图3为本发明提供的方块扫描仪扫描字体的过程示意图。
图4为本发明提供的当扫描器遇到数字等非中问字符时切分示意图。
具体实施方式
下面结合具体实施例和附图对本发明做进一步说明,以助于理解本发明的内容。
如图1-4所示,为本发明提供的一种基于中文的新型分词方法,包括以下步骤:
(1)判断字体,将文本以一字一方格形式录入,并将其命名为方块字扫描器;
(2)当扫描器接触到文本起始字边缘时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出,完成分词;若扫描器遇到数字等非中文字符时直接将其单个切分,待将所有文本中的词按单字完全切分后,构建隐马尔科夫模型,对于未登录词的识别则采用隐马尔科夫模型;
(3)建设隐马尔科夫模型参数,λ=(π,A,B),其中,
A是状态转移概率矩阵A=[aij]N×M,aij=P(it+1=qj|it=qi),aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率;
B是观测概率矩阵B=[bik]N×M,bik=P(ot=vk|it=qi),bik是在时刻t处于状态qi的条件下生产观测Vk的概率;
π是初始状态概率向量:π=(πi),πi=P(i1=qi),πi是时刻t=1处于状态qi的概率;
Q是所有可能的状态,记为Q={q1,q2,.....qN},N是可能的状态数目,记为:N={v1,v2,......vM};
I是长度为T的状态序列,O是对应的观测序列I={i1,i2...iT}O={O1,O2,...OT};
隐马尔科夫模型参数齐次假设:
P(it|it-1,ot-1,it-2,ot-2…i1,o1)=P(it|it-1)
观测独立性假设:
P(ot|iT,oT,iT-1,oT-1…i1,o1)=P(ot|it)
对按单个汉字切分后的文本按监督学习方法并辅助标准中文词库进行概率计算,利用Bernoulli大数定理的结论“频率的极限是概率”,给出HMM估计;
(4)将汉字的状态分为起始字begin(B)、中间字middle(M)、结束字end(E)、单个成词字single(S)四种状态;
(5)读取词库统计B/M/S/E状态字的词频并计算概率(qi)并进行归一化操作即
初始概率:i∈[0,3]
统计词库中B/M/S/E状态字相互转移概率(qij)并进行归一化操作即
转移概率:N∈[0,65535]
统计词库中汉字分别为B/M/S/E状态的概率(sik)并进行归一化操作即
观测概率:M=65536
得λ=(πi,aij,bik)
(6)利用Viterbi算法对所给句子进行概率计算并利用大数定理原理从而对句子进行切分。
如图3-4所示,以”希望政策能真的制止炒房行为”为例,当扫描器接触到文本起始字边缘“希”时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出。
本文中应用了具体个例对发明构思进行了详细阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离该发明构思的前提下,所做的任何显而易见的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于中文的新型分词方法,其特征在于,包括以下步骤:
(1)判断字体,将文本以一字一方格形式录入,并将其命名为方块字扫描器;
(2)当扫描器接触到文本起始字边缘时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出,完成分词;待将所有文本中的词按单字完全切分后,对扫描器识别未登录词,构建隐马尔科夫模型;
(3)建设隐马尔科夫模型参数,λ=(π,A,B),其中,
A是状态转移概率矩阵A=[aij]N×M,aij=P(it+1=qj|it=qi),aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率;
B是观测概率矩阵B=[bik]N×M,bik=P(ot=vk|it=qi),bik是在时刻t处于状态qi的条件下生产观测Vk的概率;
π是初始状态概率向量:π=(πi),πi=P(i1=qi),πi是时刻t=1处于状态qi的概率;
Q是所有可能的状态,记为Q={q1,q2,.....qN},N是可能的状态数目,记为:N={v1,v2,......vM};
I是长度为T的状态序列,O是对应的观测序列I={i1,i2...iT}O={O1,O2,...OT};
(4)将汉字的状态分为起始字begin(B)、中间字middle(M)、结束字end(E)、单个成词字single(S)四种状态;
(5)读取词库统计B/M/S/E状态字的词频并计算概率(qi)并进行归一化操作即
初始概率:
统计词库中B/M/S/E状态字相互转移概率(qij)并进行归一化操作即
转移概率:
统计词库中汉字分别为B/M/S/E状态的概率(sik)并进行归一化操作即
观测概率:
得λ=(πi,aij,bik)
(6)利用Viterbi算法对所给句子进行概率计算并利用大数定理原理从而对句子进行切分。
2.根据权利要求1所述的一种基于中文的新型分词方法,其特征在于,所述步骤(2)对按单个汉字切分后的文本通过监督学习方法并辅助标准中文词库进行概率计算。
3.根据权利要求1所述的一种基于中文的新型分词方法,其特征在于,所述隐马尔科夫模型参数齐次假设:
P(it|it-1,ot-1,it-2,ot-2…i1,o1)=P(it|it-1)
观测独立性假设:
P(ot|iT,oT,iT-1,oT-1…i1,o1)=P(ot|it) 。
4.根据权利要求1所述的一种基于中文的新型分词方法,其特征在于,所述步骤(2)中所述扫描器遇到数字等非中文字符时直接将其单个切分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810437731.0A CN108647208A (zh) | 2018-05-09 | 2018-05-09 | 一种基于中文的新型分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810437731.0A CN108647208A (zh) | 2018-05-09 | 2018-05-09 | 一种基于中文的新型分词方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108647208A true CN108647208A (zh) | 2018-10-12 |
Family
ID=63754074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810437731.0A Pending CN108647208A (zh) | 2018-05-09 | 2018-05-09 | 一种基于中文的新型分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647208A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148841A (zh) * | 2020-09-30 | 2020-12-29 | 北京金堤征信服务有限公司 | 一种对象分类以及分类模型构建方法和装置 |
CN113378566A (zh) * | 2021-05-31 | 2021-09-10 | 安徽淘云科技股份有限公司 | 信息内容显示方法、装置和设备 |
CN114492426A (zh) * | 2021-12-30 | 2022-05-13 | 北京百度网讯科技有限公司 | 子词切分方法、模型训练方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154226A (zh) * | 2006-09-27 | 2008-04-02 | 腾讯科技(深圳)有限公司 | 在输入法词库中添加未登录词的方法及文字输入装置 |
CN101739393A (zh) * | 2008-11-20 | 2010-06-16 | 苗玉水 | 汉语文本智能分词法 |
US20150269431A1 (en) * | 2012-11-19 | 2015-09-24 | Imds America Inc. | Method and system for the spotting of arbitrary words in handwritten documents |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
CN107861940A (zh) * | 2017-10-10 | 2018-03-30 | 昆明理工大学 | 一种基于hmm的中文分词方法 |
-
2018
- 2018-05-09 CN CN201810437731.0A patent/CN108647208A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154226A (zh) * | 2006-09-27 | 2008-04-02 | 腾讯科技(深圳)有限公司 | 在输入法词库中添加未登录词的方法及文字输入装置 |
CN101739393A (zh) * | 2008-11-20 | 2010-06-16 | 苗玉水 | 汉语文本智能分词法 |
US20150269431A1 (en) * | 2012-11-19 | 2015-09-24 | Imds America Inc. | Method and system for the spotting of arbitrary words in handwritten documents |
CN105373529A (zh) * | 2015-10-28 | 2016-03-02 | 甘肃智呈网络科技有限公司 | 一种基于隐马尔科夫模型的智能分词方法 |
CN107861940A (zh) * | 2017-10-10 | 2018-03-30 | 昆明理工大学 | 一种基于hmm的中文分词方法 |
Non-Patent Citations (2)
Title |
---|
LIUJIANFEI526: "中文分词之HMM模型详解", 《HTTPS://BLOG.CSDN.NET/LIUJIANFEI526/ARTICLE/DETAILS/50640176》 * |
LIUWU265: "隐马尔科夫模型(HMM)原理", 《HTTPS://WWW.CNBLOGS.COM/LIUWU265/P/4732797.HTML》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148841A (zh) * | 2020-09-30 | 2020-12-29 | 北京金堤征信服务有限公司 | 一种对象分类以及分类模型构建方法和装置 |
CN112148841B (zh) * | 2020-09-30 | 2024-04-19 | 北京金堤征信服务有限公司 | 一种对象分类以及分类模型构建方法和装置 |
CN113378566A (zh) * | 2021-05-31 | 2021-09-10 | 安徽淘云科技股份有限公司 | 信息内容显示方法、装置和设备 |
CN114492426A (zh) * | 2021-12-30 | 2022-05-13 | 北京百度网讯科技有限公司 | 子词切分方法、模型训练方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dozat et al. | Deep biaffine attention for neural dependency parsing | |
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
US5883986A (en) | Method and system for automatic transcription correction | |
US7302640B2 (en) | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors | |
CN105373529B (zh) | 一种基于隐马尔科夫模型的智能分词方法 | |
CN108647208A (zh) | 一种基于中文的新型分词方法 | |
CN108021552A (zh) | 一种电力系统操作票内容提取方法及系统 | |
CN112948543A (zh) | 基于加权TextRank的多语言多文档摘要抽取方法 | |
CN109255117A (zh) | 中文分词方法及装置 | |
CN114996467A (zh) | 基于语义相似度的知识图谱实体属性对齐算法 | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
Stahlberg et al. | QATIP--An Optical Character Recognition System for Arabic Heritage Collections in Libraries | |
CN110413972A (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN103177125A (zh) | 一种快速的短文本双聚类方法 | |
Chang et al. | Automatic construction of a Chinese electronic dictionary | |
CN110362803B (zh) | 一种基于领域特征词法组合的文本模板生成方法 | |
Mohapatra et al. | Spell checker for OCR | |
CN113987172A (zh) | 恶意评论识别方法、装置、系统及计算机可读存储介质 | |
JP2006053866A (ja) | カタカナ文字列の表記ゆれの検出方法 | |
Cheriet | Strategies for visual arabic handwriting recognition: issues and case study | |
Rowinski et al. | Namsel: An optical character recognition system for Tibetan text | |
CN110414000A (zh) | 一种基于模板文档对比的关键词提取方法及系统 | |
Tesprasit et al. | Learning phrase break detection in Thai text-to-speech. | |
Molina et al. | Word Sense Disambiguation using Statistical Models and WordNet. | |
Bouressace et al. | A self-organizing feature map for Arabic word extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181012 |