CN104462052A - 一种实现智能联想的行业词语关联度分词方法 - Google Patents

一种实现智能联想的行业词语关联度分词方法 Download PDF

Info

Publication number
CN104462052A
CN104462052A CN201310430100.3A CN201310430100A CN104462052A CN 104462052 A CN104462052 A CN 104462052A CN 201310430100 A CN201310430100 A CN 201310430100A CN 104462052 A CN104462052 A CN 104462052A
Authority
CN
China
Prior art keywords
word
industry
dictionary
association
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310430100.3A
Other languages
English (en)
Inventor
周小伟
商杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI BOKE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI BOKE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI BOKE INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI BOKE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310430100.3A priority Critical patent/CN104462052A/zh
Publication of CN104462052A publication Critical patent/CN104462052A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明为了弥补现有汉语分词技术的不足,提出了一种实现智能联想的行业词语关联度分词方法。利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了属于此行业领域的语义词典完整的自动构建方法。建立分布式递归模型,将本地词库写入云端词库,检索行业文章并存数据库,用云端词库过滤出属于本行业的词汇,根据队列中消息读取云端数据,对数据进行去噪并分词,取出出现次数最多的N个词,或取出出现次数最多的一个词,统计单据数量和词语出现的次数。之后,计算词语在每张单据中出现的平均次数。最后,计算词语出现次数的标准差,从而实现快速、准确联想。

Description

一种实现智能联想的行业词语关联度分词方法
技术领域
本发明涉及一种实现智能联想的行业词语关联度分词方法。
背景技术
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。汉语分词技术是指将一个汉字序列切分成一个一个单独的词。
汉语分词技术历经了多个发展阶段。最初是人工分词,它的缺陷为人们在阅读时,大脑会一个模糊的分词过程,它是与视觉到声音的转换和语义理解交叉或同时进行的,并以语感的形式体现出来,由于文化修养和知识水平的差异,不同的人对词和非词、词和词组的语感差别很大,因而人工分词的同一性得不到保证。在处理大篇文字材料时人工分词不仅速度慢,长时间单调枯燥的工作也使错误切分次数大大增加。
词具有语音、语义和结构三大特征,其语义特征表现在必须具备一定的意义,表明客观现实中的某一事物的性质、特征、行为和关系等,没有意义的词是不存在的。词里包含有两种不同性质的意义:词汇意义和语法意义。词的结构特征表现在词在结构上是一个不可分割的整体,其意义不是它的几个构成成分的意义的简单总和。这些表明人工分词不能满足汉字处理现代化的要求。
汉语词自动切分是汉语词中文信息处理的第一步,也是计算机科学界、语言文字学界以及信息管理学界所面临的挑战性难题,其对于现代汉语分词存在四处不利:第一,汉语的词不分写,而且词无明显的形态标志,不利于汉语语法分析;第二,汉语是一种无形态变化的分析性语言,缺乏明显的句法形式标记,其语法主要靠虚词和不同的词序来实现;第三,汉语的形态不发达,增加了语言的表层结构对语义的依赖性,所以,汉语句子成分的语法作用强烈依赖于该成分的意义;第四,汉语结构具有极大的灵活性和自由性。只要词汇意义和语言习惯允许,就能组合起来,没有限制。如果在自动分词处理时,既不进行语法分析,也不进行语义理解,只是机械的匹配比较,必然会出现许多错误。这一瓶颈的解决是计算机自然语言理解、人工智能、信息检索、机器翻译和自动文摘等领域突破的关键,长期以来一直困扰着这一研究领域的许多专家学者。尽管汉语词自动切分研究已经取得了可喜的进展,但在汉语词的规范、自动分词算法突破、切分歧义处理、自然语言理解和人工智能等诸多领域还存在着难以克服的障碍。
归纳起来,目前,国内公开报道过的分词系统采用的分词方法主要有三种类型:机械分词法、语义分词法、人工智能法。
机械分析法主要有最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法词库划分法和联想匹配法。
语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分词法、邻接约束法、综合匹配法、特征词库法、约束矩阵法、语法分析法。
人工智能法又称理解智能法,是对信息进行智能化处理的一种模式。其有两种处理方式,一种是基于心理学的符号处理方式,模拟人脑的功能,构建推理网络,经过符号转换,从而可以进行解释性处理。另一种是基于生理学的模拟方式。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。
近年来,开发的大量的中文分词系统对中文分词中的未登录词识别,通常的做法是在分词系统中加入单独的未登录词识别模块,建立相关的规则来识别。这些分词系统对一些专有名词,如人名、地名、机构名等能够较好的识别,但是对于那些没有特殊规则的网络新词几乎不能识别,这在很大程度上影响了分词的精度。对于歧义切分,尽管近几年对歧义切分的准确率有所提高,但是歧义切分问题仍是迫切需要解决的问题。 这两年,字标注的分词方法,取得了很好的成绩。但是,它的分词成绩受限于训练语料类型与规模的分词模式,虽然是目前的研究主流,但这与实用分词的需求背道而驰。
发明内容
本发明为了弥补现有汉语分词技术的不足,提出了一种实现智能联想的行业词语关联度分词方式。利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了属于此行业领域的语义词典完整的自动构建方法。将计算wordweight所需要的中间数据包装成WordWeightData放在SJ_TYPE中,
将WordRelevancy用于包装两个词的相关性,将WordWeight用于计算物流行业词汇的相关程度。
本发明是通过以下步骤实现的:建立分布式递归模型,将本地词库写入云端词库,检索属于同一行业的文章并存数据库,用云端词库过滤出属于本行业的词汇,根据队列中消息读取云端数据,对数据进行去噪并分词,取出出现次数最多的N个词,或取出出现次数最多的一个词,统计单据数量和词语出现的次数。之后,计算词语在每张单据中出现的平均次数。最后,计算词语出现次数的标准差,公式为:V(A,B)=∑(A- )(B-)/(n-1)∆A∆B,从而实现快速、准确联想。

Claims (11)

1.一种实现智能联想的行业词语关联度分词方法,其特征在于,利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了属于此行业领域的语义词典完整的自动构建方法。
2.根据权利要求1的一种方法,其特征在于,建立一个分布式递归模型。
3.根据权利要求1的一种方法,其特征在于,将本地词库写入云端词库。
4.根据权利要求1的一种方法,其特征在于,检索属于同一行业的文章并存数据库。
5.根据权利要求1的一种方法,其特征在于,用云端词库过滤出属于本行业的词汇。
6.根据权利要求1的一种方法,其特征在于,根据队列中消息读取云端数据。
7.根据权利要求1的一种方法,其特征在于,对数据进行去噪并分词。
8.根据权利要求7的一种方法,其特征在于,取出出现次数最多的N个词,或取出出现次数最多的一个词。
9.根据权利要求7的一种方法,其特征在于,统计单据数量和词语出现的次数。
10.根据权利要求7的一种方法,其特征在于,计算词语在每张单据中出现的平均次数。
11.根据权利要求7的一种方法,其特征在于,计算词语出现次数的标准差,公式为:V(A,B)=∑(A- )(B-)/(n-1)∆A∆B。
CN201310430100.3A 2013-09-22 2013-09-22 一种实现智能联想的行业词语关联度分词方法 Pending CN104462052A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310430100.3A CN104462052A (zh) 2013-09-22 2013-09-22 一种实现智能联想的行业词语关联度分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310430100.3A CN104462052A (zh) 2013-09-22 2013-09-22 一种实现智能联想的行业词语关联度分词方法

Publications (1)

Publication Number Publication Date
CN104462052A true CN104462052A (zh) 2015-03-25

Family

ID=52908124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310430100.3A Pending CN104462052A (zh) 2013-09-22 2013-09-22 一种实现智能联想的行业词语关联度分词方法

Country Status (1)

Country Link
CN (1) CN104462052A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109298796A (zh) * 2018-07-24 2019-02-01 北京捷通华声科技股份有限公司 一种词联想方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256557A (zh) * 2008-04-16 2008-09-03 腾讯科技(深圳)有限公司 自定义词管理装置、方法及分词系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256557A (zh) * 2008-04-16 2008-09-03 腾讯科技(深圳)有限公司 自定义词管理装置、方法及分词系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张彦等: "具有概念联想功能的特定领域分词词典的自动构建", 《计算机工程》 *
王治敏: "汉语常用名词的自动提取研究—兼论《汉语水平词汇与汉字等级大纲》的词语更新问题", 《中国计算机语言学研究前沿进展(2007-2009)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109298796A (zh) * 2018-07-24 2019-02-01 北京捷通华声科技股份有限公司 一种词联想方法及装置
CN109298796B (zh) * 2018-07-24 2022-05-24 北京捷通华声科技股份有限公司 一种词联想方法及装置

Similar Documents

Publication Publication Date Title
CN105718586B (zh) 分词的方法及装置
CN108363687A (zh) 主观题评分及其模型的构建方法、电子设备及存储介质
CN110287494A (zh) 一种基于深度学习bert算法的短文本相似匹配的方法
TWI608367B (zh) 中文文本可讀性計量系統及其方法
CN107590133A (zh) 基于语义的招聘职位与求职简历匹配的方法及系统
CN110909736B (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
Maharjan et al. A multi-task approach to predict likability of books
CN101645083B (zh) 一种基于概念符号的文本领域的获取系统及方法
CN103823859B (zh) 基于决策树规则和多种统计模型相结合的人名识别算法
Peng et al. Radical-based hierarchical embeddings for Chinese sentiment analysis at sentence level
CN101599071A (zh) 对话文本主题的自动提取方法
CN103544246A (zh) 互联网多种情感词典构建方法及系统
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN111931506A (zh) 一种基于图信息增强的实体关系抽取方法
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN109740164B (zh) 基于深度语义匹配的电力缺陷等级识别方法
CN110851593B (zh) 一种基于位置与语义的复值词向量构建方法
Sharma et al. Using Hidden Markov Model to improve the accuracy of Punjabi POS tagger
CN107704996A (zh) 一种基于情感分析的教师评价系统
CN110399603A (zh) 一种基于意群划分的文本处理技术方法和系统
CN110457711A (zh) 一种基于主题词的社交媒体事件主题识别方法
CN106569999A (zh) 多粒度短文本语义相似度比较方法及系统
CN102360436B (zh) 一种基于部件的联机手写藏文字符的识别方法
CN106445917A (zh) 一种基于模式的自举中文实体抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325