CN108647208A - 一种基于中文的新型分词方法 - Google Patents

一种基于中文的新型分词方法 Download PDF

Info

Publication number
CN108647208A
CN108647208A CN201810437731.0A CN201810437731A CN108647208A CN 108647208 A CN108647208 A CN 108647208A CN 201810437731 A CN201810437731 A CN 201810437731A CN 108647208 A CN108647208 A CN 108647208A
Authority
CN
China
Prior art keywords
word
chinese
probability
state
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810437731.0A
Other languages
English (en)
Inventor
安静
魏从猛
梁鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN201810437731.0A priority Critical patent/CN108647208A/zh
Publication of CN108647208A publication Critical patent/CN108647208A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于中文的新型分词方法,包括以下步骤:(1)以一字一方格形式录入文本,命名方块扫描器;(2)扫描文本,待将所有文本中的词按单字完全切分后,对于扫描器识别的未登录词,构建隐马尔科夫模型;(3)构建马尔科夫模型λ=(A,B,π);(4)将汉字的状态分为起始字B、中间字M、结束字E、单个成词字S四种状态;(5)计算概率并进行归一化;(6)对句子进行切分;本发明对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。

Description

一种基于中文的新型分词方法
技术领域
本发明涉及中文分词技术领域,尤其涉及一种基于中文的新型分词方法。
背景技术
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,在英文的行文中,单词之间是以空格作为自然分界符的,使得英文分词技术相对成熟,大大地推动了英文自然语言处理技术的发展。而有别于英文,中文没有天然的空格对词进行切分,中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。
有鉴于此,特提出本发明。
发明内容内容
针对现有技术中存在的问题,本发明的目的是提供一种基于中文的新型分词方法,对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。
为了实现上述目的,本发明提供的一种基于中文的新型分词方法,包括以下步骤:
(1)判断字体,将文本以一字一方格形式录入,并将其命名为方块字扫描器;
(2)当扫描器接触到文本起始字边缘时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出,完成分词;待将所有文本中的词按单字完全切分后,对扫描器识别未登录词,构建隐马尔科夫模型;
(3)建设隐马尔科夫模型参数,λ=(π,A,B),其中,
A是状态转移概率矩阵A=[aij]N×M,aij=P(it+1=qj|it=qi),aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率;
B是观测概率矩阵B=[bik]N×M,bik=P(ot=vk|it=qi),bik是在时刻t处于状态qi的条件下生产观测Vk的概率;
π是初始状态概率向量:π=(πi),πi=P(i1=qi),πi是时刻t=1处于状态qi的概率;
Q是所有可能的状态,记为Q={q1,q2,.....qN},N是可能的状态数目,记为:N={v1,v2,......vM};
I是长度为T的状态序列,O是对应的观测序列I={i1,i2...iT}O={O1,O2,...OT};
(4)将汉字的状态分为起始字begin(B)、中间字middle(M)、结束字end(E)、单个成词字single(S)四种状态;
(5)读取词库统计B/M/S/E状态字的词频并计算概率(qi)并进行归一化操作即
初始概率:i∈[0,3]
统计词库中B/M/S/E状态字相互转移概率(qij)并进行归一化操作即
转移概率:N∈[0,65535]
统计词库中汉字分别为B/M/S/E状态的概率(sik)并进行归一化操作即
观测概率:M=65536
得λ=(πi,aij,bik)
(6)利用Viterbi算法对所给句子进行概率计算并利用大数定理原理从而对句子进行切分。
优选地,所述步骤(2)对按单个汉字切分后的文本通过监督学习方法并辅助标准中文词库进行概率计算;
优选地,所述隐马尔科夫模型参数齐次假设:
P(it|it-1,ot-1,it-2,ot-2…i1,o1)=P(it|it-1)
观测独立性假设:
P(ot|iT,oT,iT-1,OT-1…i1,o1)=P(ot|it)
优选地,所述步骤(2)中所述扫描器遇到数字等非中文字符时直接将其单个切分。
本发明提供的,具有如下有益效果:本发明采用中文汉字一字一方格命名放块扫描仪的方法,对中文文本进行准确而高效分词,将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列。
附图说明
图1为本发明提供的流程示意图图
图2为本发明提供的方块扫描仪的示意图。
图3为本发明提供的方块扫描仪扫描字体的过程示意图。
图4为本发明提供的当扫描器遇到数字等非中问字符时切分示意图。
具体实施方式
下面结合具体实施例和附图对本发明做进一步说明,以助于理解本发明的内容。
如图1-4所示,为本发明提供的一种基于中文的新型分词方法,包括以下步骤:
(1)判断字体,将文本以一字一方格形式录入,并将其命名为方块字扫描器;
(2)当扫描器接触到文本起始字边缘时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出,完成分词;若扫描器遇到数字等非中文字符时直接将其单个切分,待将所有文本中的词按单字完全切分后,构建隐马尔科夫模型,对于未登录词的识别则采用隐马尔科夫模型;
(3)建设隐马尔科夫模型参数,λ=(π,A,B),其中,
A是状态转移概率矩阵A=[aij]N×M,aij=P(it+1=qj|it=qi),aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率;
B是观测概率矩阵B=[bik]N×M,bik=P(ot=vk|it=qi),bik是在时刻t处于状态qi的条件下生产观测Vk的概率;
π是初始状态概率向量:π=(πi),πi=P(i1=qi),πi是时刻t=1处于状态qi的概率;
Q是所有可能的状态,记为Q={q1,q2,.....qN},N是可能的状态数目,记为:N={v1,v2,......vM};
I是长度为T的状态序列,O是对应的观测序列I={i1,i2...iT}O={O1,O2,...OT};
隐马尔科夫模型参数齐次假设:
P(it|it-1,ot-1,it-2,ot-2…i1,o1)=P(it|it-1)
观测独立性假设:
P(ot|iT,oT,iT-1,oT-1…i1,o1)=P(ot|it)
对按单个汉字切分后的文本按监督学习方法并辅助标准中文词库进行概率计算,利用Bernoulli大数定理的结论“频率的极限是概率”,给出HMM估计;
(4)将汉字的状态分为起始字begin(B)、中间字middle(M)、结束字end(E)、单个成词字single(S)四种状态;
(5)读取词库统计B/M/S/E状态字的词频并计算概率(qi)并进行归一化操作即
初始概率:i∈[0,3]
统计词库中B/M/S/E状态字相互转移概率(qij)并进行归一化操作即
转移概率:N∈[0,65535]
统计词库中汉字分别为B/M/S/E状态的概率(sik)并进行归一化操作即
观测概率:M=65536
得λ=(πi,aij,bik)
(6)利用Viterbi算法对所给句子进行概率计算并利用大数定理原理从而对句子进行切分。
如图3-4所示,以”希望政策能真的制止炒房行为”为例,当扫描器接触到文本起始字边缘“希”时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出。
本文中应用了具体个例对发明构思进行了详细阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离该发明构思的前提下,所做的任何显而易见的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于中文的新型分词方法,其特征在于,包括以下步骤:
(1)判断字体,将文本以一字一方格形式录入,并将其命名为方块字扫描器;
(2)当扫描器接触到文本起始字边缘时,其将按照单个汉字进行扫描,当扫描完一个字后将其加入空格后显示,当扫描器遇到换行符时继续切换到下一行继续以上操作,当扫描器扫描完文本结束字后自动结束扫描操作,并将扫描完文本输出,完成分词;待将所有文本中的词按单字完全切分后,对扫描器识别未登录词,构建隐马尔科夫模型;
(3)建设隐马尔科夫模型参数,λ=(π,A,B),其中,
A是状态转移概率矩阵A=[aij]N×M,aij=P(it+1=qj|it=qi),aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率;
B是观测概率矩阵B=[bik]N×M,bik=P(ot=vk|it=qi),bik是在时刻t处于状态qi的条件下生产观测Vk的概率;
π是初始状态概率向量:π=(πi),πi=P(i1=qi),πi是时刻t=1处于状态qi的概率;
Q是所有可能的状态,记为Q={q1,q2,.....qN},N是可能的状态数目,记为:N={v1,v2,......vM};
I是长度为T的状态序列,O是对应的观测序列I={i1,i2...iT}O={O1,O2,...OT};
(4)将汉字的状态分为起始字begin(B)、中间字middle(M)、结束字end(E)、单个成词字single(S)四种状态;
(5)读取词库统计B/M/S/E状态字的词频并计算概率(qi)并进行归一化操作即
初始概率:
统计词库中B/M/S/E状态字相互转移概率(qij)并进行归一化操作即
转移概率:
统计词库中汉字分别为B/M/S/E状态的概率(sik)并进行归一化操作即
观测概率:
得λ=(πi,aij,bik)
(6)利用Viterbi算法对所给句子进行概率计算并利用大数定理原理从而对句子进行切分。
2.根据权利要求1所述的一种基于中文的新型分词方法,其特征在于,所述步骤(2)对按单个汉字切分后的文本通过监督学习方法并辅助标准中文词库进行概率计算。
3.根据权利要求1所述的一种基于中文的新型分词方法,其特征在于,所述隐马尔科夫模型参数齐次假设:
P(it|it-1,ot-1,it-2,ot-2…i1,o1)=P(it|it-1)
观测独立性假设:
P(ot|iT,oT,iT-1,oT-1…i1,o1)=P(ot|it) 。
4.根据权利要求1所述的一种基于中文的新型分词方法,其特征在于,所述步骤(2)中所述扫描器遇到数字等非中文字符时直接将其单个切分。
CN201810437731.0A 2018-05-09 2018-05-09 一种基于中文的新型分词方法 Pending CN108647208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810437731.0A CN108647208A (zh) 2018-05-09 2018-05-09 一种基于中文的新型分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810437731.0A CN108647208A (zh) 2018-05-09 2018-05-09 一种基于中文的新型分词方法

Publications (1)

Publication Number Publication Date
CN108647208A true CN108647208A (zh) 2018-10-12

Family

ID=63754074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810437731.0A Pending CN108647208A (zh) 2018-05-09 2018-05-09 一种基于中文的新型分词方法

Country Status (1)

Country Link
CN (1) CN108647208A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148841A (zh) * 2020-09-30 2020-12-29 北京金堤征信服务有限公司 一种对象分类以及分类模型构建方法和装置
CN113378566A (zh) * 2021-05-31 2021-09-10 安徽淘云科技股份有限公司 信息内容显示方法、装置和设备
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154226A (zh) * 2006-09-27 2008-04-02 腾讯科技(深圳)有限公司 在输入法词库中添加未登录词的方法及文字输入装置
CN101739393A (zh) * 2008-11-20 2010-06-16 苗玉水 汉语文本智能分词法
US20150269431A1 (en) * 2012-11-19 2015-09-24 Imds America Inc. Method and system for the spotting of arbitrary words in handwritten documents
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN107861940A (zh) * 2017-10-10 2018-03-30 昆明理工大学 一种基于hmm的中文分词方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154226A (zh) * 2006-09-27 2008-04-02 腾讯科技(深圳)有限公司 在输入法词库中添加未登录词的方法及文字输入装置
CN101739393A (zh) * 2008-11-20 2010-06-16 苗玉水 汉语文本智能分词法
US20150269431A1 (en) * 2012-11-19 2015-09-24 Imds America Inc. Method and system for the spotting of arbitrary words in handwritten documents
CN105373529A (zh) * 2015-10-28 2016-03-02 甘肃智呈网络科技有限公司 一种基于隐马尔科夫模型的智能分词方法
CN107861940A (zh) * 2017-10-10 2018-03-30 昆明理工大学 一种基于hmm的中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIUJIANFEI526: "中文分词之HMM模型详解", 《HTTPS://BLOG.CSDN.NET/LIUJIANFEI526/ARTICLE/DETAILS/50640176》 *
LIUWU265: "隐马尔科夫模型(HMM)原理", 《HTTPS://WWW.CNBLOGS.COM/LIUWU265/P/4732797.HTML》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148841A (zh) * 2020-09-30 2020-12-29 北京金堤征信服务有限公司 一种对象分类以及分类模型构建方法和装置
CN112148841B (zh) * 2020-09-30 2024-04-19 北京金堤征信服务有限公司 一种对象分类以及分类模型构建方法和装置
CN113378566A (zh) * 2021-05-31 2021-09-10 安徽淘云科技股份有限公司 信息内容显示方法、装置和设备
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Similar Documents

Publication Publication Date Title
Dozat et al. Deep biaffine attention for neural dependency parsing
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
US5883986A (en) Method and system for automatic transcription correction
US7302640B2 (en) Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
CN105373529B (zh) 一种基于隐马尔科夫模型的智能分词方法
CN108647208A (zh) 一种基于中文的新型分词方法
CN108021552A (zh) 一种电力系统操作票内容提取方法及系统
CN112948543A (zh) 基于加权TextRank的多语言多文档摘要抽取方法
CN109255117A (zh) 中文分词方法及装置
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
Stahlberg et al. QATIP--An Optical Character Recognition System for Arabic Heritage Collections in Libraries
CN110413972A (zh) 一种基于nlp技术的表名字段名智能补全方法
CN103177125A (zh) 一种快速的短文本双聚类方法
Chang et al. Automatic construction of a Chinese electronic dictionary
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法
Mohapatra et al. Spell checker for OCR
CN113987172A (zh) 恶意评论识别方法、装置、系统及计算机可读存储介质
JP2006053866A (ja) カタカナ文字列の表記ゆれの検出方法
Cheriet Strategies for visual arabic handwriting recognition: issues and case study
Rowinski et al. Namsel: An optical character recognition system for Tibetan text
CN110414000A (zh) 一种基于模板文档对比的关键词提取方法及系统
Tesprasit et al. Learning phrase break detection in Thai text-to-speech.
Molina et al. Word Sense Disambiguation using Statistical Models and WordNet.
Bouressace et al. A self-organizing feature map for Arabic word extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181012