CN106610947A - 一种新的中文自动分词算法 - Google Patents

一种新的中文自动分词算法 Download PDF

Info

Publication number
CN106610947A
CN106610947A CN201610835327.XA CN201610835327A CN106610947A CN 106610947 A CN106610947 A CN 106610947A CN 201610835327 A CN201610835327 A CN 201610835327A CN 106610947 A CN106610947 A CN 106610947A
Authority
CN
China
Prior art keywords
concept
word segmentation
paths
attribute
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610835327.XA
Other languages
English (en)
Inventor
金平艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yonglian Information Technology Co Ltd
Original Assignee
Sichuan Yonglian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yonglian Information Technology Co Ltd filed Critical Sichuan Yonglian Information Technology Co Ltd
Publication of CN106610947A publication Critical patent/CN106610947A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种新的中文自动分词算法,根据《分词词典》找到待分词句子中与词典中匹配的词,依据概率统计学,将待分词句子拆分成网状结构,给网状结构每条边赋予权值,找出权值最大的路径即为待分词句子的分词结果。本发明中文预处理的速度较基于分词词典的方法更快;较基于分词词典的方法精度更高;较基于统计学方法有更好的准确度;为后续自然语言处理技术提供了极大的应用价值。

Description

一种新的中文自动分词算法
技术领域
本发明涉及中文语义网络技术领域,具体涉及一种新的中文自动分词算法。
背景技术
自上世纪八十年代初,中文信息处理领域提出中文自动分词这一课题以来,就一直吸引着来自计算机界、数学界、信息检索界、语言界无数的专家和学者。他们经过几十年的不懈努力和艰苦探索,已取得了一些重要的进展和实用性的成果。可以把这些方法概括的分为三大类。第一,基于词典的中文分词方法,其过程简单、易于理解,但也存在一个明显的不足,就是对多义词、歧义词和嵌套词的切分效果不太理想。第二,基于统计的中文分词方法,该类方法,通过选取合适的数学统计模型,依靠大量的语料来对其进行训练,待模型稳定以后,再利用训练好的模型实现汉字串的自动分词。最后,基于理解的中文分词方法,基于理解的分词方法就是借助于人工智能中的相关技术,将事先已经提取好的关于汉语构词的一些规则和知识加入到推理过程中,利用这些规则和知识结合不同的推理机制,实现最终的中文分词,目前为止基于理解的分词系统还处在试验阶段。
为提高中文自动分词的准确性,本发明提供了一种新的中文自动分词算法。
发明内容
为了提高中文自动分词的准确性,本发明提供了一种新的中文自动分词算法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型。
步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词。
步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E。
步骤4:利用统计学概念理论知识,给上述网状结构每条边赋予一定的权值。
步骤5:找到权值最大的一条路径,即为待分词句子的分词结果。
本发明有益效果是:
1、中文预处理的速度较基于分词词典的方法快。
2、此方法较基于分词词典的方法有更好的精度。
3、此方法较基于统计学方法有更好的准确度。
4、此方法为后续自然语言处理技术提供了极大地应用价值。
附图说明
图1为一种新的中文自动分词算法的结构流程图。
图2为n元语法分词算法图解。
具体实施方式
为了提高中文自动分词的准确性,结合图1-图2对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型。
步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词,其具体描述如下:
把待分词的汉字串完整的扫描一遍,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空。
步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E,其结构图如图2所示。
步骤4:利用统计学概念理论知识,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
步骤4.1)计算相邻两个词(C1,C2)相关度RE(C1,C2)
将两个词(C1,C2)映射到概念模型中,得到相应的概念(g1,g2),即概念(g1,g2)的相关度RE(g1,g2)即为相邻两个词(C1,C2)相关度。
RE(C1,C2)=RE(g1,g2)
这里考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念(g1,g2)间的相关度。
步骤4.1.1)构造基于基本属性关系对两本体概念(g1,g2)相似度的影响函数RE属性(g1,g2)
两本体概念(g1,g2)相似度与属性相似度成正比,与属性权重也成正比。
路径为g1→J1→…→Jn→g2
假设g1、J1、…、Jn、g2的属性个数各为
每个属性对相应概念的影响权重是不同的,按照权重系数分别对概念属性进行排序,对每个概念属性取前i个属性权重值。
这里
即得下列属性权重矩阵(n+2)×i:
从专业领域本体树中,可以很清楚的知道g1、J1、…、Jn概念中的共有属性,记为(S1′,S2′,…Sj′),这里j为共有属性的个数,j≤i,且
为概念g1、J1、…、Jn、g2中属性相同,则取出其对应权重值
所以构建的影响函数为:
步骤4.1.2)构造基于路径距离、与路径数量对两本体概念(g1,g2)相似度的影响函数RE路径(g1,g2)
两本体概念(g1,g2)相似度与其路径长度成反比,找到两本体概念(g1,g2)间最长路径,其中经过的概念节点有n个,即(J1→…→Jn)。
即经过路径的长度为L(g1,g2)=n+2
两本体概念(g1,g2)相似度与路径数量成反比,即当路径数量越多,两本体概念(g1,g2)相似度越大,这里根据专业领域本体树可知路径数量为N,如下图。
上式r为路径长度与路径个数的权重比值,这个可以根据实验迭代出来。
步骤4.1.3)构造密度与深度对两本体概念(g1,g2)相似度的影响函数RED(g1,g2)
步骤4.1.3.1)两本体概念(g1,g2)深度函数D(g1,g2)
概念节点的深度是指概念在所处的本体树中的层次深度。在本体树中,每个概念节点都是对上一层节点的一次细化。因此概念节点处于本体树中层次越深,则表示的内容越具体,概念间的相似度越大。反之概念间的相似度越小。
这里深度值从根节点开始,根节点的深度值为1,从概念(g1,g2)与共同父节点构成的树子集中找到同一层中两本体概念(g1,g2)数量最多的,其对应的深度为h。
如果两本体概念(g1,g2)不在同一层,则其平均,即有下式:
分别为从概念(g1,g2)与共同父节点构成的树子集中两本体概念(g1,g2)数量最多的深度值。
步骤4.1.3.2)两本体概念(g1,g2)密度函数
概率节点密度越大,则其直接子节点数目越多,节点细化的越具体,各直接子节点之间的相似度越大。
从概念(g1,g2)的直接子节点中找到共同直接子节点个数,如上为N。
步骤4.1.3.3)由上述步骤可得:
上式α、β分别为深度与密度的权重系数,α+β=1,α越大表示概念深度对相关度的影响越大,反之影响越小。β越大表示概念密度对相关度的影响越大,反之影响越小。γ为平滑因子,α、β、γ可以通过非线回归迭代估计来确定。
综上所述,有下式
RE(C1,C2)=RE(g1,g2)=ARE属性(g1,g2)+BRE路径(g1,g2)+CRED(g1,g2)
上式A、B、C为相应的影响系数,根据其值大小,影响相关度的程度也不一样,值越大,对相关度影响也越大,A+B+C=1。
步骤5:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:
有n条路径,每条路径长度不一样,假设路径长度集合为(L1,L2,…,Ln)。
则每条路径权重为:
上式分别为第1,2到Li路径边的权重值,根据步骤4可以一一计算得出,Li∈(1,2,…,n)为第i条路径的长度。
权值最大的一条路径:
maxweight=max(w1,w2,…,wn)

Claims (3)

1.一种新的中文自动分词算法,本发明涉及中文语义网络技术领域,具体涉及一种新的中文自动分词算法,其特征是,包括如下步骤:
步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型
步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词
步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为
步骤4:利用统计学概念理论知识,给上述网状结构每条边赋予一定的权值
步骤5:找到权值最大的一条路径,即为待分词句子的分词结果。
2.根据权利要求1中所述的一种新的中文自动分词算法,其特征是,以上所述步骤4中的具体计算过程如下:
步骤4:利用统计学概念理论知识,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:
步骤4.1)计算相邻两个词相关度
将两个词映射到概念模型中,得到相应的概念即概念的相关度即为相邻两个词相关度
这里考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念间的相关度
步骤4.1.1)构造基于基本属性关系对两本体概念相似度的影响函数
两本体概念相似度与属性相似度成正比,与属性权重也成正比
路径为
假设的属性个数各为
每个属性对相应概念的影响权重是不同的,按照权重系数分别对概念属性进行排序,对每个概念属性取前i个属性权重值
这里
即得下列属性权重矩阵
从专业领域本体树中,可以很清楚的知道概念中的共有属性,记为这里j为共有属性的个数,,且
为概念中属性相同,则取出其对应权重值
所以构建的影响函数为:
步骤4.1.2)构造基于路径距离、与路径数量对两本体概念相似度的影响函数
两本体概念相似度与其路径长度成反比,找到两本体概念间最长路径,其中经过的概念节点有n个,即
即经过路径的长度为
两本体概念相似度与路径数量成反比,即当路径数量越多,两本体概念相似度越大,这里根据专业领域本体树可知路径数量为N,如下图
上式为路径长度与路径个数的权重比值,这个可以根据实验迭代出来
步骤4.1.3)构造密度与深度对两本体概念相似度的影响函数
步骤4.1.3.1)两本体概念深度函数
概念节点的深度是指概念在所处的本体树中的层次深度,在本体树中,每个概念节点都是对上一层节点的一次细化,因此概念节点处于本体树中层次越深,则表示的内容越具体,概念间的相似度越大,反之概念间的相似度越小
这里深度值从根节点开始,根节点的深度值为1,从概念与共同父节点构成的树子集中找到同一层中两本体概念数量最多的,其对应的深度为h
如果两本体概念不在同一层,则其平均,即有下式:
分别为从概念与共同父节点构成的树子集中两本体概念数量最多的深度值
步骤4.1.3.2)两本体概念密度函数
概率节点密度越大,则其直接子节点数目越多,节点细化的越具体,各直接子节点之间的相似度越大
从概念的直接子节点中找到共同直接子节点个数,如上为N
步骤4.1.3.3)由上述步骤可得:
上式分别为深度与密度的权重系数,越大表示概念深度对相关度的影响越大,反之影响越小,越大表示概念密度对相关度的影响越大,反之影响越小,为平滑因子,可以通过非线回归迭代估计来确定
综上所述,有下式:
上式A、B、C为相应的影响系数,根据其值大小,影响相关度的程度也不一样,值越大,对相关度影响也越大,A+B+C=1。
3.根据权利要求1中所述的一种新的中文自动分词算法,其特征是,以上所述步骤5中的具体计算过程如下:
步骤5:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:
有n条路径,每条路径长度不一样,假设路径长度集合为
则每条路径权重为:
上式分别为第1,2到路径边的权重值,根据步骤4可以一一计算得出,为第i条路径的长度
权值最大的一条路径:
CN201610835327.XA 2016-08-25 2016-09-20 一种新的中文自动分词算法 Pending CN106610947A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610728393 2016-08-25
CN2016107283937 2016-08-25

Publications (1)

Publication Number Publication Date
CN106610947A true CN106610947A (zh) 2017-05-03

Family

ID=58614968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610835327.XA Pending CN106610947A (zh) 2016-08-25 2016-09-20 一种新的中文自动分词算法

Country Status (1)

Country Link
CN (1) CN106610947A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
CN109241208A (zh) * 2017-07-10 2019-01-18 阿里巴巴集团控股有限公司 地址定位、地址监测、信息处理方法及装置
CN112269858A (zh) * 2020-10-22 2021-01-26 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082908A (zh) * 2007-06-26 2007-12-05 腾讯科技(深圳)有限公司 一种中文分词方法及系统
CN102156726A (zh) * 2011-04-01 2011-08-17 中国测绘科学研究院 基于语义相似度的地理要素查询扩展方法
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082908A (zh) * 2007-06-26 2007-12-05 腾讯科技(深圳)有限公司 一种中文分词方法及系统
CN102156726A (zh) * 2011-04-01 2011-08-17 中国测绘科学研究院 基于语义相似度的地理要素查询扩展方法
CN105550200A (zh) * 2015-12-02 2016-05-04 北京信息科技大学 一种面向专利摘要的中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BECK_ZHOU: "中文分词语言模型和动态规划", 《CSDN博客 HTTPS://BLOG.CSDN.NET/ZHOUBL668/ARTICLE/DETAILS/6896438》 *
崔春华 等: "基于本体的概念相似度计算的改进", 《世界科技研究与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
CN109241208A (zh) * 2017-07-10 2019-01-18 阿里巴巴集团控股有限公司 地址定位、地址监测、信息处理方法及装置
CN112269858A (zh) * 2020-10-22 2021-01-26 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质
CN112269858B (zh) * 2020-10-22 2024-04-19 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN109948029A (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN106682220A (zh) 一种基于深度学习的在线中医文本命名实体识别方法
CN107784320A (zh) 基于卷积支持向量机的雷达一维距离像目标识别方法
CN109783817A (zh) 一种基于深度强化学习的文本语义相似计算模型
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN106294684A (zh) 词向量的文本分类方法及终端设备
CN109697232A (zh) 一种基于深度学习的中文文本情感分析方法
CN107102989A (zh) 一种基于词向量、卷积神经网络的实体消歧方法
CN106547735A (zh) 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN109101235A (zh) 一种软件程序的智能解析方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN107369098A (zh) 社交网络中数据的处理方法和装置
CN103971415B (zh) 一种三维模型构件的在线标注方法
CN111680488B (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
CN111191466B (zh) 一种基于网络表征和语义表征的同名作者消歧方法
CN107608953B (zh) 一种基于不定长上下文的词向量生成方法
CN108268449A (zh) 一种基于词项聚类的文本语义标签抽取方法
CN107122340A (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
CN106598950A (zh) 一种基于混合层叠模型的命名实体识别方法
CN105930413A (zh) 相似度模型参数的训练方法、搜索处理方法及对应装置
CN106933785A (zh) 一种基于递归神经网络的摘要生成方法
CN107895000A (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN106610947A (zh) 一种新的中文自动分词算法
CN107102985A (zh) 改进的文档中多主题的关键词提取技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170503