CN104462052A

CN104462052A - 一种实现智能联想的行业词语关联度分词方法

Info

Publication number: CN104462052A
Application number: CN201310430100.3A
Authority: CN
Inventors: 周小伟; 商杰
Original assignee: SHANGHAI BOKE INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI BOKE INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-09-22
Filing date: 2013-09-22
Publication date: 2015-03-25

Abstract

本发明为了弥补现有汉语分词技术的不足，提出了一种实现智能联想的行业词语关联度分词方法。利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念，从而给出了属于此行业领域的语义词典完整的自动构建方法。建立分布式递归模型，将本地词库写入云端词库，检索行业文章并存数据库，用云端词库过滤出属于本行业的词汇，根据队列中消息读取云端数据，对数据进行去噪并分词，取出出现次数最多的N个词，或取出出现次数最多的一个词，统计单据数量和词语出现的次数。之后，计算词语在每张单据中出现的平均次数。最后，计算词语出现次数的标准差，从而实现快速、准确联想。

Description

一种实现智能联想的行业词语关联度分词方法

技术领域

本发明涉及一种实现智能联想的行业词语关联度分词方法。

背景技术

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。汉语分词技术是指将一个汉字序列切分成一个一个单独的词。

汉语分词技术历经了多个发展阶段。最初是人工分词，它的缺陷为人们在阅读时，大脑会一个模糊的分词过程，它是与视觉到声音的转换和语义理解交叉或同时进行的，并以语感的形式体现出来，由于文化修养和知识水平的差异，不同的人对词和非词、词和词组的语感差别很大，因而人工分词的同一性得不到保证。在处理大篇文字材料时人工分词不仅速度慢，长时间单调枯燥的工作也使错误切分次数大大增加。

词具有语音、语义和结构三大特征，其语义特征表现在必须具备一定的意义，表明客观现实中的某一事物的性质、特征、行为和关系等，没有意义的词是不存在的。词里包含有两种不同性质的意义：词汇意义和语法意义。词的结构特征表现在词在结构上是一个不可分割的整体，其意义不是它的几个构成成分的意义的简单总和。这些表明人工分词不能满足汉字处理现代化的要求。

汉语词自动切分是汉语词中文信息处理的第一步，也是计算机科学界、语言文字学界以及信息管理学界所面临的挑战性难题，其对于现代汉语分词存在四处不利：第一，汉语的词不分写，而且词无明显的形态标志，不利于汉语语法分析；第二，汉语是一种无形态变化的分析性语言，缺乏明显的句法形式标记，其语法主要靠虚词和不同的词序来实现；第三，汉语的形态不发达，增加了语言的表层结构对语义的依赖性，所以，汉语句子成分的语法作用强烈依赖于该成分的意义；第四，汉语结构具有极大的灵活性和自由性。只要词汇意义和语言习惯允许，就能组合起来，没有限制。如果在自动分词处理时，既不进行语法分析，也不进行语义理解，只是机械的匹配比较，必然会出现许多错误。这一瓶颈的解决是计算机自然语言理解、人工智能、信息检索、机器翻译和自动文摘等领域突破的关键，长期以来一直困扰着这一研究领域的许多专家学者。尽管汉语词自动切分研究已经取得了可喜的进展，但在汉语词的规范、自动分词算法突破、切分歧义处理、自然语言理解和人工智能等诸多领域还存在着难以克服的障碍。

归纳起来，目前，国内公开报道过的分词系统采用的分词方法主要有三种类型：机械分词法、语义分词法、人工智能法。

机械分析法主要有最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法词库划分法和联想匹配法。

语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理，如扩充转移网络法、知识分词语义分词法、邻接约束法、综合匹配法、特征词库法、约束矩阵法、语法分析法。

人工智能法又称理解智能法，是对信息进行智能化处理的一种模式。其有两种处理方式，一种是基于心理学的符号处理方式，模拟人脑的功能，构建推理网络，经过符号转换，从而可以进行解释性处理。另一种是基于生理学的模拟方式。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。

近年来,开发的大量的中文分词系统对中文分词中的未登录词识别,通常的做法是在分词系统中加入单独的未登录词识别模块,建立相关的规则来识别。这些分词系统对一些专有名词,如人名、地名、机构名等能够较好的识别,但是对于那些没有特殊规则的网络新词几乎不能识别,这在很大程度上影响了分词的精度。对于歧义切分,尽管近几年对歧义切分的准确率有所提高,但是歧义切分问题仍是迫切需要解决的问题。这两年,字标注的分词方法,取得了很好的成绩。但是,它的分词成绩受限于训练语料类型与规模的分词模式,虽然是目前的研究主流,但这与实用分词的需求背道而驰。

发明内容

本发明为了弥补现有汉语分词技术的不足，提出了一种实现智能联想的行业词语关联度分词方式。利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念，从而给出了属于此行业领域的语义词典完整的自动构建方法。将计算wordweight所需要的中间数据包装成WordWeightData放在SJ_TYPE中，

将WordRelevancy用于包装两个词的相关性，将WordWeight用于计算物流行业词汇的相关程度。

本发明是通过以下步骤实现的：建立分布式递归模型，将本地词库写入云端词库，检索属于同一行业的文章并存数据库，用云端词库过滤出属于本行业的词汇，根据队列中消息读取云端数据，对数据进行去噪并分词，取出出现次数最多的N个词，或取出出现次数最多的一个词，统计单据数量和词语出现的次数。之后，计算词语在每张单据中出现的平均次数。最后，计算词语出现次数的标准差，公式为：V(A,B)=∑(A- )(B-)/(n-1)∆A∆B，从而实现快速、准确联想。

Claims

1.一种实现智能联想的行业词语关联度分词方法，其特征在于，利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念，从而给出了属于此行业领域的语义词典完整的自动构建方法。

2.根据权利要求1的一种方法，其特征在于，建立一个分布式递归模型。

3.根据权利要求1的一种方法，其特征在于，将本地词库写入云端词库。

4.根据权利要求1的一种方法，其特征在于，检索属于同一行业的文章并存数据库。

5.根据权利要求1的一种方法，其特征在于，用云端词库过滤出属于本行业的词汇。

6.根据权利要求1的一种方法，其特征在于，根据队列中消息读取云端数据。

7.根据权利要求1的一种方法，其特征在于，对数据进行去噪并分词。

8.根据权利要求7的一种方法，其特征在于，取出出现次数最多的N个词，或取出出现次数最多的一个词。

9.根据权利要求7的一种方法，其特征在于，统计单据数量和词语出现的次数。

10.根据权利要求7的一种方法，其特征在于，计算词语在每张单据中出现的平均次数。

11.根据权利要求7的一种方法，其特征在于，计算词语出现次数的标准差，公式为：V(A,B)=∑(A- )(B-)/(n-1)∆A∆B。