CN105760363B - 文本文件的词义消歧方法及装置 - Google Patents
文本文件的词义消歧方法及装置 Download PDFInfo
- Publication number
- CN105760363B CN105760363B CN201610088179.XA CN201610088179A CN105760363B CN 105760363 B CN105760363 B CN 105760363B CN 201610088179 A CN201610088179 A CN 201610088179A CN 105760363 B CN105760363 B CN 105760363B
- Authority
- CN
- China
- Prior art keywords
- word
- module
- text
- relevance score
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了词义消歧方法,包括:配置多份已确定好词义的参考文本内容;获取至少一个待消歧的文本文件;针对每一待消歧的文本文件,从该文本文件中提取文本内容,对文本内容进行分词处理以得到第一词集合并确认其中待消歧的词,针对每一待消歧的词:提取该待消歧的词对应的至少一份参考文本内容并对其分别进行分词处理以得到至少一个第二词集合,基于第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值,并确定该文本文件与具有最高相关性分值的参考文本内容相关;针对每一待消歧的文本文件,将该文本文件归到与其相关的参考文本内容对应的词义类别。还公开了相应的装置。该方法和装置能提高消歧效率。
Description
技术领域
本申请涉及信息技术(IT,Information Technology)领域,尤其涉及一种文本文件的词义消歧方法及装置。
背景技术
词义消歧(Word Sense Disambiguation,WSD)是计算语言学和自然语言处理领域一个重要的研究课题,在机器翻译、信息检索、语音识别等技术中,需要对于文本文件中的文本内容进行词义消歧,消歧结果的准确度则直接会影响到这些技术的处理结果。
词义消歧技术可以分为有监督和无监督两种。有监督的词义消歧技术需要根据词义标注语料库,利用机器学习技术训练分类器,判定新实例的词义,但是该方法依赖标注数据,而标注数据的获得要消耗大量的人工成本,导致该方法难于应用于大规模的词义消歧任务。无监督的词义消歧技术则利用聚类算法对上下文相似的实例进行聚类,而不必使用人工知识(如词典、标注等)。
发明内容
有鉴于此,本申请提供了一种文本文件的词义消歧方法及装置,以提高词义消歧的准确度和效率。
本申请的技术方案是这样实现的:
本申请提供了一种文本文件的词义消歧方法,包括:配置多份已确定好词义的参考文本内容;获取至少一个待消歧的文本文件;及针对每一待消歧的文本文件,从该文本文件中提取文本内容,对所述文本内容进行分词处理以得到第一词集合并确认该文本内容中待消歧的词,针对每一待消歧的词执行如下处理:提取该待消歧的词对应的至少一份参考文本内容并对其分别进行分词处理以得到至少一个第二词集合,基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值,并确定该文本文件与具有最高相关性分值的参考文本内容相关;及针对每一待消歧的文本文件,将该文本文件归到与其相关的参考文本内容所对应的一个或多个词义类别。
本申请还提供了一种文本文件的词义消歧装置,包括:参考文本配置模块、待消歧文本获取模块、相关性计算模块和归类模块;其中,所述参考文本配置模块,配置有多份已确定好词义的参考文本内容;所述待消歧文本获取模块,获取至少一个待消歧的文本文件并提供给所述相关性计算模块;所述相关性计算模块,针对每一待消歧的文本文件,从该文本文件中提取文本内容,对所述文本内容进行分词处理以得到第一词集合并确认该文本内容中待消歧的词,针对每一待消歧的词执行如下处理:从所述参考文本配置模块提取该待消歧的词对应的至少一份参考文本内容并对其分别进行分词处理以得到至少一个第二词集合,基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值,并确定该文本文件与具有最高相关性分值的参考文本内容相关;及所述归类模块,针对每一待消歧的文本文件的每一待消歧的词,将该文本文件归到所述相关性计算模块所确定的与该文本文件相关的参考文本内容所对应的一个或多个词义类别。
本申请所提供的上述方法及装置能提高词义消歧的准确度和效率。
附图说明
为了更清楚的说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。其中,
图1为本申请所涉及的实施环境示意图;
图2为本申请一实例中的方法流程示意图;
图3A为依赖关系图一示例;
图3B为利用word2vec模型训练得到词向量的示意图;
图4为本申请一实例中的装置组成结构示意图;及
图5为本申请一实例中的计算设备组成结构示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实例是本申请一部分实例,而不是全部的实例。基于本申请中的实例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例,都属于本申请保护的范围。
图1为本申请所涉及的实施环境示意图。参见图1,在一需要对文本文件进行词义消歧的系统中会设置词义消歧装置100,该词义消歧装置100可从外部的数据源200或者从本地获取待消歧的文本文件,之后,根据预设的算法对文本文件中的文本内容进行消歧,确定该文本文件对应的词义类别。其中,词义消歧装置100可从多个数据源200(如图1中的数据源1~数据源n)获取待消歧的文本文件。这些数据源200可能是互联网中提供各种资源的服务器,比如:视频网站的服务器可作为数据源,其提供的待消歧的文本文件可为对于各种视频文件的内容进行摘要性描述的文本文件;各种社交应用服务器(如:微博服务器、即时通讯服务器、微信服务器等)也可作为数据源,其提供的待消歧的文本文件可为包含社交应用消息内容的文本文件(如包含微博消息、即时通讯消息、微信消息等的文本文件);各种门户网站的服务器也可作为数据源,其提供的待消歧的文本文件可为包含对于各种资源的内容进行摘要性描述的文本文件,比如:一条新闻对应一个待消歧的文本文件,一篇博客对应一个待消歧的文本文件。上述的待消歧的文本文件可以为检索装置300依据关键词检索而从各数据源获得的文本文件。比如:互联网中的某个搜索引擎可以根据输入的关键词检索得到来自各个数据源200的与该关键词相关的资源(比如:视频、图片、文本、软件等等),并能获得对于这些资源的内容进行摘要性描述的文本文件,再将其作为待消歧的文本文件提供给词义消歧装置100。
上述词义消歧装置100可以应用在信息检索、舆情监控等场景中。例如,在输入关键词进行信息检索时,检索装置300可以从各个数据源200中抓取到各种与此关键词相关的资源的内容描述信息(即待消歧的文本文件),然后将这些待消歧的文本文件提供给词义消歧装置100,由其进行消歧处理,将抓取到的各种资源归到该关键词的各词义类别中。这样,在给用户展示信息检索结果时,可以将检索结果根据关键词的不同词义而分类显示,比如:关键词为“黎明”,可以将检索结果分为“演员黎明”、“黎明基本词义”等几个类别进行展示。再例如,在进行舆情监控时,可以根据监控需求输入受监控的关键词,检索装置300可以从各个数据源200中抓取到各种与此关键词相关的资源的内容描述信息(即待消歧的文本文件),然后将这些待消歧的文本文件提供给词义消歧装置100,由其进行消歧处理,将抓取到的各种资源归到该关键词的各词义类别中,或者从抓取到的各种资源中提取属于受监控的词义类别的资源。
基于上述实施环境,以下结合方法流程图对本申请提供的文本文件的词义消歧方法加以详述。该方法应用于上述词义消歧装置100。
在一实例中,如图2所示,该方法包括如下步骤:
步骤201:配置多份已确定好词义的参考文本内容。
这里,参考文本内容可以从本地输入也可通过网络获得,参考文本内容可以来源于各种基于互联网的百科全书,如百度百科、维基百科等提供的具有确定词义的参考文本内容。具体的,参考文本内容可以是对一些词的词义说明,比如:对于“黎明”这个词,参考文本内容中可以给出几种解释,可以包括:“黎明”的基本词义(其表示天快要亮或刚亮的时候)、几个名为“黎明”的人物介绍(如:演员黎明、校长黎明等),“黎明”可对应多份参考文本内容,每份参考文本内容包含一种“黎明”的解释。
步骤202:获取至少一个待消歧的文本文件。
具体的获取待消歧的文本文件的方式,前面已有详述,这里不再赘述。
步骤203:针对每一待消歧的文本文件,从该文本文件中提取文本内容,对文本内容进行分词处理以得到第一词集合并确定该文本内容中待消歧的词(比如:可以是信息检索时输入的关键词或者是舆情监控中输入的受控关键词等),针对每一待消歧的词执行如下处理:
步骤204:提取该待消歧的词对应的至少一份参考文本内容并对其分别进行分词处理以得到至少一个第二词集合,其中,对一份参考文本内容进行分词处理以获得一个第二词集合;基于第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值;并确定该文本文件与具有最高相关性分值的参考文本内容相关;将该文本文件归到与其相关的参考文本内容所对应的一个或多个词义类别。
以下对上述步骤204中计算相关性分值的具体方法加以详述。
在一实例中,基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值的方法可以包括:
1.1计算第一词集合与每一第二词集合之间的相关性分值;及
1.2将计算得到的与任一第二词集合之间的相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
其中,可以采用平滑分数(Gloss score)算法来计算第一词集合和第二词集合之间的相关性分值,具体可包括如下步骤:
1)预先利用一些语料(比如百度百科文档)计算各个关键词的逆文档(IDF)权重。
2)假定一个待消歧的文本文件的分词结果为词序列S(即第一词集合),一份参考文本内容的分词结果为词序列P(即一个第二词集合),则具体计算方法如下:
对于词序列S中的每个结点Si(即每一个词),设置权重WSi=1/lSi其中lSi为Si与待消歧的词的在词序列S中的距离。
对于词序列P中的每个结点Pj(即每一个词),如果Pj=Si,则计算Pj的Gloss score=Wsi×IDFw×Lw。
之后,对词序列P中各结点的Gloss score求和得到最终的分值:
Gloss score=∑(Wsi×IDFw×Lw)
其中,IDFw为Pj词的IDF权重,Lw为根据Pj的词长度计算得到的平滑权重。
在一实例中,基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值的方法可以包括:
2.1对第一词集合进行词义扩展以得到第三词集合;
2.2计算第三词集合与每一第二词集合之间的第二相关性分值;及
2.3将计算得到的与任一第二词集合之间的第二相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
在一实例中,基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值的方法可以包括:
3.1对所述第一词集合进行词义扩展以得到第三词集合;
3.2计算所述第一词集合与每一第二词集合之间的第一相关性分值;
3.3计算所述第三词集合与每一第二词集合之间的第二相关性分值;及
3.4针对每一第二词集合,对计算得到的与该第二词集合的所述第一相关性分值和所述第二相关性分值进行加权计算得到第三相关性分值,将该第三相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
在一实例中,对第一词集合进行词义扩展时,可以采用多种词义扩展方法,这样,就会得到多个第三词集合,采用一种词义扩展方法会得到一个第三词集合。之后,针对每一第三词集合,计算该第三词集合与每一第二词集合之间的第二相关性分值。
其中,所采用的词义扩展方法可以包括:基于依赖关系图(Dependency Graph)的词义扩展方法和/或基于相似性图(Similarity Graph)的词义扩展方法。
在一实例中,对所述第一词集合进行词义扩展以得到第三词集合的方法可以包括:利用预先获得的语料构建基于词义的依赖关系图和/或相似性图;根据所述依赖关系图和/或相似性图对所述第一词集合进行词义扩展以得到基于所述依赖关系图的第三词集合和/或基于所述相似性图的第三词集合。这样,计算所述第三词集合与每一第二词集合之间的第二相关性分值的方法可以包括:计算基于依赖关系图的第三词集合与每一第二词集合之间的第二相关性分值,和/或计算基于相似性图的第三词集合与每一第二词集合之间的第二相关性分值。
以下对基于依赖关系图和基于相似性图的处理方法做进一步详述。
一、基于依赖关系图的处理方法
1、收集语料,构建基于词义的依赖关系图,作为全局的语义关系图。这里的语料可以为互联网中抓取的社交网络中的各种文本内容、互联网百科数据(如百度百科、维基百科等数据)。其中,所构建的依赖关系图中,以词为结点,由词与词之间的共现情况以及位置情况计算边权重。
2、基于所构建的依赖关系图,对第一词集合进行词义扩展得到基于依赖关系图的第三词集合。假设依赖关系图为图G,第一词集合为词序列X,具体的扩展方法如下:
1)将词序列X中的各个词分别插入图G中,其中,对词序列X中任两个相邻词Xi和Xi+k,其中,k为预设常量,将其按如下规则插入图G中:
如果图G中已有结点Xi和Xi+k,则将连接这两结点的边权重加1/k;如果图G中不存在Xi或Xi+k,则新增结点Xi或Xi+k,并新增连接这两个结点的边,并设权重为1/k。经过上述处理所得到的图G可如图3A所示:
2)对图G中各边的权重进行归一化处理。
其中,可采用卡方检验值(Chi-Square Test)作为归一化数值,具体方法如下:
假设有词X和Y,词X和Y的共现次数为n11,词Y出现而词X不出现次数为n12,如下表列出,其中,N为数据量大小,该数据量大小代表所用语料的大小,比如构建图G所用到的所有文本的词的总个数。
则卡方检验值为:
然后,查X2(1)开方表,获取置信值作为归一化权值。
还可采用共现次数归一化的方法,具体如下:
参照上表的变量定义,边X->Y的权重归一化为:n11/n.1,边X->Y的权重还可归一化为:n11/n1.。
经过以上插入结点、权重归一化处理之后的图G就是基于依赖关系图进行词义扩展得到的基于依赖关系图的第三词集合,该第三词集合包括:各个词以及它们之间的依赖关系、任意两个相邻的词之间的经过归一化处理的能够代表二者相关性的权重值。
3、利用以上通过1和2的方法获得的基于依赖关系图的第三词集合计算其与每一第二词集合之间的第二相关性分值,此第二相关性分值可称为依赖关系分值(DependencyScore),具体方法如下:
A.预先利用一些语料(比如百度百科文档)计算各个关键词的IDF权重。
B.假定一个待消歧的文本文件的分词结果为词序列S(即第一词集合),一份参考文本内容的分词结果为词序列P(即一个第二词集合),则具体计算方法如下:
对于词序列S中的每个结点Si(即每一个词),设置权重WSi=1/lSi其中lSi为Si与待消歧的词的在词序列S中的距离。
对于词序列P中的每个结点Pj(即每一个词),执行如下处理:
获取Pj在图G中的依赖词集合D(比如包含Pj之前的K个结点的集合);
对于每个结点Si,如果Si∈D,则计算Pj的Dependency score=Wsi×IDFw×Lw×Vij。
之后,对词序列P中各结点的Dependency score求和得到最终的分值:
Dependency score=∑(Wsi×IDFw×Lw×Vij)
其中,Vij为Si与Pj在图G中的权重根据层数衰减计算的边权重,IDFw为词的IDF权重,Lw为根据词长度计算得到的平滑权重。
二、基于相似性图的处理方法
1、收集语料,构建基于词义的相似性图(Similarity Graph),作为全局的语义关系图。这里的语料可以为互联网中抓取的社交网络中的各种文本内容、互联网百科数据(如百度百科、维基百科等数据)。具体的构建相似性图的方法如下。
1)利用如word2vec等模型和所收集的语料训练得到词向量。
具体的,利用神经网络,预测一个窗口长度为c的窗口内每个词的周边词概率,因此两个词的上下文越相似,它们的词向量也越相似。根据输入输出方式,可以选用cbow和skip-gram两种模型,如图3B所示。
在一实例中,采用skip-gram模型,可训练得到100维的词向量。
假设语料为T个词构成的词序列:w1、w2、……、wT,对于一个中心词wt,采用skip-gram模型最大化周边任意单词的log概率p的目标函数如以下公式:
其中,c为窗口长度,对于p(wt+j|wt)最简单的表达式是:
2)以各个词向量为顶点,以词之间的相似度为边权重,建立Similarity Graph。其中,还可根据预定算法对图做进一步剪枝和过滤。
其中,相似度的计算采用了Cosine Similarity,任两个词A和B之间的相似度的计算公式如下:
2、基于所构建的相似性图G可以获得基于相似性图的第三词集合,该第三词集合包括:各个词、词之间的相似度。
3、利用基于相似性图的第三词集合确定其与每一第二词集合之间的第二相关性分值,此第二相关性分值可称为相似性分值(Similarity Score)。其中,任两个词之间的相似性分值为前述获得的第三词集合中的相似度。
以上详述了三种词集合之间相关性的计算方法,Gloss score、Dependency score和Similarity score。这三种方法可以任意组合起来使用,也可只采用其中一种。
当将以上任两种或三种方法结合起来使用时,还要进一步对其进行加权计算来获得最终的相关性分值。
具体的,可采用逻辑函数(可用模拟退火方法设置权重)来进行加权计算,具体可采用如下公式来计算得到逻辑函数值y:
x=α*Gloss+β*Dependency+γ*Similarity+δ
其中,α,β,γ分别为系数,δ为常数,Gloss、Dependency、Similarity分别代表上述的Gloss score、Dependency score和Similarity score。
以上给出三种方法结合的加权计算公式,以此类推即可以得到任两种方法结合的加权计算公式,本文不再一一列出。
这样,针对一个待消歧词,对于每一个第二词集合(即每一份参考文本内容)会计算得到一个逻辑函数值y,就会得到多个逻辑函数值y,那么可进一步对这些逻辑函数值y进行归一化处理。
具体的,可采用Softmax函数对逻辑函数值yi进行归一,公式如下:
在一实例中,在对第一词集合进行词义扩展得到第三词集合之后,在计算第三词集合与每一第二词集合之间的第二相关性分值之前,可进一步对第三词集合进行过滤。由于在构建依赖关系图和相似性图时,语料规模比较大,经过过滤处理就能减少计算量和存储复杂度,同时,也能避免无意义词对相关性分值的干扰。
进一步的,可在前述各实例中的各种处理阶段,根据实现需要对第一词集合和/或第二词集合进行过滤,以减少计算量和复杂度,以提高处理效率、节约处理资源和存储资源。比如:在计算第一和/或第二相关性分值之前可对第一词集合和/或第二词集合进行过滤,和/或,在通过词义扩展得到第三词集合之前,可对第一词集合进行过滤。
具体的,可对分词结果进行过滤,过滤掉其中的单字和符号,只保留能表达人、物、动作、地点、状态等的实体性词,比如:名形词、叹词、成语、简称略语、名词、人名、姓、名、地名、机构团体、动词、动名词、状态词等。
采用上述实例,可通过图模型匹配(如:依赖关系图、相似性图)进行词义消歧,对于不同待消歧的词只需依赖不同的参考文本内容,避免了对标注数据的依赖,实现了无监督消歧,对于新增待消歧的词,只需新增参考文本内容(如互联网的百科数据)即可完成扩展。进一步的,可对待消歧的文本文件进行基于依赖关系和相似性这两个维度的扩展,相比现有的无监督模型,召回率和准确率都更优。
利用现有的互联网百科数据作为参考文本内容,对主要是关于人物和影视作品的待消歧的词进行词义消歧,其计算准确率、召回率和F1分数(F1Score)的评估结果如下:
待消歧的词 | 准确率 | 召回率 | F1分数 |
后会无期 | 71.13% | 93.73% | 80.88% |
于正 | 93.85% | 88.41% | 91.04% |
黎明 | 92.31% | 75.00% | 91.04% |
归来 | 78.95% | 93.75% | 85.71% |
十二生肖 | 82.26% | 100.00% | 90.27% |
宁静 | 76.92% | 95.24% | 85.11% |
亲爱的 | 76.88% | 95.35% | 85.12% |
007 | 82.46% | 95.27% | 88.40% |
速度与激情 | 57.71% | 97.82% | 72.59% |
私人订制 | 79.10% | 72.60% | 75.71% |
功夫 | 77.71% | 76.33% | 77.01% |
一生一世 | 72.05% | 89.67% | 79.90% |
金刚 | 61.64% | 85.71% | 71.71% |
超人 | 49.01% | 67.89% | 56.92% |
平均分 | 75.14% | 87.63% | 80.23% |
基于以上实例中的词义消歧方法,本申请还提出了一种相应的词义消歧装置。如图1所示,该装置包括:参考文本配置模块101、待消歧文本获取模块102、相关性计算模块103和归类模块104。
参考文本配置模块101,配置有多份已确定好词义的参考文本内容。待消歧文本获取模块102,获取至少一个待消歧的文本文件并提供给相关性计算模块103。相关性计算模块103,针对每一待消歧的文本文件,从该文本文件中提取文本内容,对文本内容进行分词处理以得到第一词集合并确认该文本内容中待消歧的词,针对每一待消歧的词执行如下处理:从参考文本配置模块101提取该待消歧的词对应的至少一份参考文本内容并对其分别进行分词处理以得到至少一个第二词集合,基于第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值,并确定该文本文件与具有最高相关性分值的参考文本内容相关。归类模块104,针对每一待消歧的文本文件的每一待消歧的词,将该文本文件归到相关性计算模块103所确定的与该文本文件相关的参考文本内容所对应的一个或多个词义类别。
在一实例中,如图4所示,相关性计算模块103可包括:第一分词模块401、文本提取模块402、第二分词模块403、匹配算分模块404、相关性确定模块406。在此实例中,基于待消歧文本文件的分词结果(第一词集合)和参考文本的分词结果(第二词集合)进行相关性分值计算。其中,针对每一待消歧的文本文件,各模块的处理如下:
第一分词模块401,从该文本文件中提取文本内容,对文本内容进行分词处理以得到第一词集合并确认该文本内容中待消歧的词。
之后,针对每一待消歧的词,各模块的处理如下:
文本提取模块402,从参考文本配置模块101提取该待消歧的词对应的至少一份参考文本内容。
第二分词模块403,对文本提取模块402提取到的至少一份参考文本内容分别进行分词处理以得到至少一个第二词集合。
匹配算分模块404,计算第一分词模块401得到的第一词集合与第二分词模块403得到的每一第二词集合之间的相关性分值,将计算得到的第一词集合与任一第二词集合之间的相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
相关性确定模块406,根据匹配算分模块404得到的各相关性分值,确定该文本文件与具有最高相关性分值的参考文本内容相关。
在一实例中,如图4所示,相关性计算模块103可包括:第一分词模块401、文本提取模块402、第二分词模块403、词义扩展模块405、匹配算分模块404、相关性确定模块406。在此实例中,除了进一步对待消歧文本文件的分词结果(第一词集合)进行词义扩展得到第三词集合,还基于待消歧文本文件的分词结果(第一词集合)、此第三词集合和参考文本的分词结果(第二词集合)三者进行相关性分值计算。其中,针对每一待消歧的文本文件,各模块的处理如下:
第一分词模块401,从该文本文件中提取文本内容,对文本内容进行分词处理以得到第一词集合并确认该文本内容中待消歧的词。
之后,针对每一待消歧的词,各模块的处理如下:
文本提取模块402,从参考文本配置模块101提取该待消歧的词对应的至少一份参考文本内容。
第二分词模块403,对文本提取模块402提取到的至少一份参考文本内容分别进行分词处理以得到至少一个第二词集合。
词义扩展模块405,对第一分词模块401得到的第一词集合进行词义扩展以得到第三词集合。
匹配算分模块404,计算词义扩展模块405得到的第三词集合与第二分词模块403得到的每一第二词集合之间的第二相关性分值,并将计算得到的第三词集合与任一第二词集合之间的第二相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
相关性确定模块406,根据匹配算分模块404得到的各相关性分值,确定该文本文件与具有最高相关性分值的参考文本内容相关。
上述实例中,词义扩展模块405可能包括多个扩展子模块(扩展子模块1、扩展子模块2、……、扩展子模块n),每一扩展子模块对应一种词义扩展方法,它们分别采用各自对应的词义扩展方法对第一分词模块401得到的第一词集合进行扩展并分别得到多个第三词集合。此种情况下,相关性计算模块103可进一步包括加权计算模块407,其中,针对每一待消歧的词,匹配算分模块404,针对每一第三词集合,计算该第三词集合与第二分词模块403得到的每一第二词集合之间的第二相关性分值;加权计算模块407,针对每一第二词集合,对计算得到的各个第二相关性分值进行加权计算得到第三相关性分值,将该第三相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
在一实例中,如图4所示,相关性计算模块103可包括:第一分词模块401、文本提取模块402、第二分词模块403、词义扩展模块405、匹配算分模块404、加权计算模块407、相关性确定模块406。在此实例中,进一步对待消歧文本文件的分词结果(第一词集合)进行词义扩展得到第三词集合,然后再基于此第三词集合和参考文本的分词结果(第二词集合)进行相关性分值计算。其中,针对每一待消歧的文本文件,各模块的处理如下:
第一分词模块401,从该文本文件中提取文本内容,对文本内容进行分词处理以得到第一词集合并确认该文本内容中待消歧的词。
之后,针对每一待消歧的词,各模块的处理如下:
文本提取模块402,从参考文本配置模块101提取该待消歧的词对应的至少一份参考文本内容。
第二分词模块403,对文本提取模块402提取到的至少一份参考文本内容分别进行分词处理以得到至少一个第二词集合。
词义扩展模块405,对第一分词模块401得到的第一词集合进行词义扩展以得到第三词集合。
匹配算分模块404,计算第一分词模块401得到的第一词集合与第二分词模块403得到的每一第二词集合之间的第二相关性分值,计算词义扩展模块405得到的第三词集合与第二分词模块403得到的每一第二词集合之间的第二相关性分值。
加权计算模块407,针对每一第二词集合,对匹配算分模块404计算得到的第一词集合与该第二词集合的第一相关性分值和第三词集合与该第二词集合的第二相关性分值进行加权计算得到第三相关性分值,将该第三相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
相关性确定模块406,根据匹配算分模块404得到的该文本文件与该第二词集合对应的参考文本内容之间的各相关性分值,确定该文本文件与具有最高相关性分值的参考文本内容相关。
上述实例中,词义扩展模块405可能包括多个扩展子模块(扩展子模块1、扩展子模块2、……、扩展子模块n),每一扩展子模块对应一种词义扩展方法,它们分别采用各自对应的词义扩展方法对第一分词模块401得到的第一词集合进行扩展并分别得到多个第三词集合。此种情况下,相关性计算模块103可进一步包括加权计算模块407;其中,针对每一待消歧的词,匹配算分模块404,针对每一第三词集合,计算该第三词集合与每一第二词集合之间的第二相关性分值;加权计算模块407,针对每一第二词集合,对计算得到的第一词集合与该第二词集合之间的第一相关性分值和各第三词集合于该第二词集合之间的各第二相关性分值进行加权计算得到第三相关性分值。
上述实施例中,词义扩展模块405可以采用基于依赖关系图或者基于相似图的词义扩展方法,具体方法前文已有描述,这里不再赘述。
词义扩展模块405也可同时采用基于依赖关系图和基于相似图的词义扩展方法,这样,词义扩展模块405可包括两个扩展子模块来分别采用基于依赖关系图和基于相似图的词义扩展方法得到基于依赖关系图的第三词集合和基于相似性图的第三词集合。
在一实例中,词义扩展模块405可进一步对获得的第三词集合进行过滤再输出给匹配算分模块404。
其中,根据实现需要也可以在各种数据处理结点对各种词集合(第一词集合和/或第二词集合)进行过滤。比如:在计算第一相关性分值和/或第二相关性分值之前,第一分词模块401可对第一词集合进行过滤,和/或第二分词模块403可对第二词集合进行过滤;和/或,在通过词义扩展得到第三词集合之前,词义扩展模块405或第一分词模块401也可对第一词集合进行过滤。
在一实例中,加权计算模块407可采用逻辑函数对上述第一相关性分值和上述一个或多个第二相关性分值进行加权计算得到逻辑函数值;之后,可进一步对各个第二词集合对应的各逻辑函数值进行归一化处理得到各第三相关性分值。这样,针对每一第二词集合,可将通过归一化处理得到的第三相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
另外,在本申请各个实例中的各装置及各(子)模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上装置或模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
在一实施例中,上述的词义消歧装置100可运行在各种用于对各种文本文件进行词义消歧处理的计算设备中,并加载在该计算设备的存储器中。如图5所示,该计算设备除了包括上述词义消歧装置100中的各个模块,还可包括:存储器501、处理器503、总线502、端口504。处理器503和存储器501通过总线502互联。处理器503可通过端口504接收和发送数据以实现网络通信和/或本地通信。上述各模块101~104可以是存储器501中存储的机器可执行指令模块。处理器503通过执行存储器501中各模块101~104中包含的机器可执行指令,进而能够实现上述各模块101~104的功能。
在实际应用中,可能采用一个计算设备进行词义消歧处理,也可能采用一组计算设备进行词义消歧处理,这样,上述的词义消歧装置100可运行在多个计算设备上,各模块101~104可分布在多个计算设备的存储器501中,因实现原理与前述相同,这里就不再一一图示及详述。
上述计算设备中,各模块101~104实现各自功能的具体方法在前述方法实例中均有描述,这里不再赘述。
另外,本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本申请。存储介质可以使用任何类型的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
因此,本申请还提供了一种存储介质,其中存储有数据处理程序,该数据处理程序用于执行本申请上述方法的任何一种实例。
以上所述仅为本申请的实例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (16)
1.一种文本文件的词义消歧方法,其特征在于,包括:
配置多份已确定好词义的参考文本内容;
获取至少一个待消歧的文本文件;及
针对每一待消歧的文本文件,执行如下处理:
从该文本文件中提取文本内容,对所述文本内容进行分词处理以得到第一词集合,并确认该文本内容中待消歧的词;
针对每一待消歧的词,执行如下处理:提取该待消歧的词对应的至少一份参考文本内容,并对其分别进行分词处理以得到至少一个第二词集合;基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值,并确定该文本文件与具有最高相关性分值的参考文本内容相关;及,将该文本文件归到与其相关的参考文本内容所对应的一个或多个词义类别。
2.根据权利要求1所述的方法,其中,所述基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值,包括:
计算所述第一词集合与每一第二词集合之间的相关性分值;及
将计算得到的与任一第二词集合之间的相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
3.根据权利要求1所述的方法,其中,所述基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值,包括:
对所述第一词集合进行词义扩展以得到第三词集合;
计算所述第三词集合与每一第二词集合之间的第二相关性分值;及
将计算得到的与任一第二词集合之间的第二相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
4.根据权利要求1所述的方法,其中,所述基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值,包括:
对所述第一词集合进行词义扩展以得到第三词集合;
计算所述第一词集合与每一第二词集合之间的第一相关性分值;
计算所述第三词集合与每一第二词集合之间的第二相关性分值;及
针对每一第二词集合,对计算得到的与该第二词集合的所述第一相关性分值和所述第二相关性分值进行加权计算得到第三相关性分值,将该第三相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
5.根据权利要求4所述的方法,其中,所述对计算得到的与该第二词集合的所述第一相关性分值和所述第二相关性分值进行加权计算得到第三相关性分值,包括:
采用逻辑函数对所述第一相关性分值和所述第二相关性分值进行加权计算得到逻辑函数值;及
对各个第二词集合对应的逻辑函数值进行归一化处理得到各第三相关性分值。
6.根据权利要求3所述的方法,其中,所述对所述第一词集合进行词义扩展以得到第三词集合,包括:
采用多种词义扩展方法对所述第一词集合进行扩展并分别得到多个第三词集合;
其中,针对每一第三词集合,计算该第三词集合与每一第二词集合之间的第二相关性分值。
7.根据权利要求3所述的方法,其中,所述对所述第一词集合进行词义扩展以得到第三词集合,包括:
利用预先获得的语料构建基于词义的依赖关系图和/或相似性图;
根据所述依赖关系图和/或相似性图对所述第一词集合进行词义扩展以得到基于所述依赖关系图的第三词集合和/或基于所述相似性图的第三词集合;
其中,所述计算所述第三词集合与每一第二词集合之间的第二相关性分值,包括:计算基于所述依赖关系图的第三词集合与每一第二词集合之间的第二相关性分值,和/或计算基于所述相似性图的第三词集合与每一第二词集合之间的第二相关性分值。
8.根据权利要求3所述的方法,其中,在计算所述第三词集合与每一第二词集合之间的第二相关性分值之前,进一步对所述第三词集合和/或所述第二词集合进行过滤;和/或在得到所述第三词集合之前,进一步对所述第一词集合进行过滤。
9.一种文本文件的词义消歧装置,其特征在于,包括:参考文本配置模块、待消歧文本获取模块、相关性计算模块和归类模块;其中,
所述参考文本配置模块,配置有多份已确定好词义的参考文本内容;
所述待消歧文本获取模块,获取至少一个待消歧的文本文件并提供给所述相关性计算模块;
针对每一待消歧的文本文件,执行如下处理:
所述相关性计算模块,从该文本文件中提取文本内容,对所述文本内容进行分词处理以得到第一词集合,并确认该文本内容中待消歧的词;针对每一待消歧的词,执行如下处理:从所述参考文本配置模块提取该待消歧的词对应的至少一份参考文本内容,并对其分别进行分词处理以得到至少一个第二词集合;基于所述第一词集合与各第二词集合计算该文本文件与各参考文本内容之间的相关性分值,并确定该文本文件与具有最高相关性分值的参考文本内容相关;及
所述归类模块,将该文本文件归到所述相关性计算模块所确定的与该文本文件相关的参考文本内容所对应的一个或多个词义类别。
10.根据权利要求9所述的装置,其中,所述相关性计算模块包括:第一分词模块、文本提取模块、第二分词模块、匹配算分模块、相关性确定模块;其中,针对每一待消歧的文本文件,各模块的处理如下:
所述第一分词模块,从该文本文件中提取文本内容,对所述文本内容进行分词处理以得到第一词集合并确认该文本内容中待消歧的词;
其中,针对每一待消歧的词,各模块的处理如下:
所述文本提取模块,从所述参考文本配置模块提取该待消歧的词对应的至少一份参考文本内容;
所述第二分词模块,对所述至少一份参考文本内容分别进行分词处理以得到至少一个第二词集合;
所述匹配算分模块,计算所述第一词集合与每一第二词集合之间的相关性分值,将计算得到的与任一第二词集合之间的相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值;
所述相关性确定模块,确定该文本文件与具有最高相关性分值的参考文本内容相关。
11.根据权利要求9所述的装置,其中,所述相关性计算模块包括:第一分词模块、文本提取模块、第二分词模块、词义扩展模块、匹配算分模块、相关性确定模块;其中,针对每一待消歧的文本文件,各模块的处理如下:
所述第一分词模块,从该文本文件中提取文本内容,对所述文本内容进行分词处理以得到第一词集合并确认该文本内容中待消歧的词;
其中,针对每一待消歧的词,各模块的处理如下:
所述文本提取模块,从所述参考文本配置模块提取该待消歧的词对应的至少一份参考文本内容;
所述第二分词模块,对所述至少一份参考文本内容分别进行分词处理以得到至少一个第二词集合;
所述词义扩展模块,对所述第一词集合进行词义扩展以得到第三词集合;
所述匹配算分模块,计算所述第三词集合与每一第二词集合之间的第二相关性分值,并将计算得到的与任一第二词集合之间的第二相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值;
所述相关性确定模块,确定该文本文件与具有最高相关性分值的参考文本内容相关。
12.根据权利要求9所述的装置,其中,所述相关性计算模块包括:第一分词模块、文本提取模块、第二分词模块、词义扩展模块、匹配算分模块、加权计算模块,相关性确定模块;其中,针对每一待消歧的文本文件,各模块的处理如下:
所述第一分词模块,从该文本文件中提取文本内容,对所述文本内容进行分词处理以得到第一词集合并确认该文本内容中待消歧的词;
其中,针对每一待消歧的词,各模块的处理如下:
所述文本提取模块,从所述参考文本配置模块提取该待消歧的词对应的至少一份参考文本内容;
所述第二分词模块,对所述至少一份参考文本内容分别进行分词处理以得到至少一个第二词集合;
所述词义扩展模块,对所述第一词集合进行词义扩展以得到第三词集合;
所述匹配算分模块,计算所述第一词集合与每一第二词集合之间的第一相关性分值,计算所述第三词集合与每一第二词集合之间的第二相关性分值;
所述加权计算模块,针对每一第二词集合,对计算得到的与该第二词集合的所述第一相关性分值和所述第二相关性分值进行加权计算得到第三相关性分值,将该第三相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值;
所述相关性确定模块,确定该文本文件与具有最高相关性分值的参考文本内容相关。
13.根据权利要求11所述的装置,其中,该装置进一步包括加权计算模块;所述词义扩展模块包括:多个扩展子模块,分别采用多种词义扩展方法对所述第一词集合进行扩展并分别得到多个第三词集合;
其中,针对每一待消歧的词,所述匹配算分模块,针对每一第三词集合,计算该第三词集合与每一第二词集合之间的第二相关性分值;所述加权计算模块,针对每一第二词集合,对计算得到的各个第二相关性分值进行加权计算得到第三相关性分值,将该第三相关性分值作为该文本文件与该第二词集合对应的参考文本内容之间的相关性分值。
14.根据权利要求12所述的装置,其中,所述词义扩展模块包括:多个扩展子模块,分别采用多种词义扩展方法对所述第一词集合进行扩展并分别得到多个第三词集合;
其中,针对每一待消歧的词,所述匹配算分模块,针对每一第三词集合,计算该第三词集合与每一第二词集合之间的第二相关性分值;所述加权计算模块,针对每一第二词集合,对计算得到的与该第二词集合的所述第一相关性分值和各第二相关性分值进行加权计算得到第三相关性分值。
15.一种计算设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述指令可以使所述处理器执行如权利要求1至8任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,存储有计算机可读指令,可以使至少一个处理器执行如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610088179.XA CN105760363B (zh) | 2016-02-17 | 2016-02-17 | 文本文件的词义消歧方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610088179.XA CN105760363B (zh) | 2016-02-17 | 2016-02-17 | 文本文件的词义消歧方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760363A CN105760363A (zh) | 2016-07-13 |
CN105760363B true CN105760363B (zh) | 2019-12-13 |
Family
ID=56330856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610088179.XA Active CN105760363B (zh) | 2016-02-17 | 2016-02-17 | 文本文件的词义消歧方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760363B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415896B (zh) * | 2017-02-09 | 2022-03-04 | 北京京东尚科信息技术有限公司 | 深度学习模型训练方法、分词方法、训练系统和分词系统 |
US10810375B2 (en) | 2018-07-08 | 2020-10-20 | International Business Machines Corporation | Automated entity disambiguation |
CN109325229B (zh) * | 2018-09-19 | 2023-01-31 | 中译语通科技股份有限公司 | 一种利用语义信息计算文本相似度的方法 |
CN109359303B (zh) * | 2018-12-10 | 2023-04-07 | 枣庄学院 | 一种基于图模型的词义消歧方法和系统 |
CN109872714A (zh) * | 2019-01-25 | 2019-06-11 | 广州富港万嘉智能科技有限公司 | 一种提高语音识别准确性的方法、电子设备及存储介质 |
CN110705274B (zh) * | 2019-09-06 | 2023-03-24 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
CN113407717B (zh) * | 2021-05-28 | 2022-12-20 | 数库(上海)科技有限公司 | 消除新闻中行业词歧义的方法、装置、设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079025B (zh) * | 2006-06-19 | 2010-06-16 | 腾讯科技(深圳)有限公司 | 一种文档相关度计算系统和方法 |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
RU2579873C2 (ru) * | 2013-12-19 | 2016-04-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи семантического классификатора |
CN104699763B (zh) * | 2015-02-11 | 2017-10-17 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN105045913B (zh) * | 2015-08-14 | 2018-08-28 | 北京工业大学 | 基于WordNet以及潜在语义分析的文本分类方法 |
-
2016
- 2016-02-17 CN CN201610088179.XA patent/CN105760363B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105760363A (zh) | 2016-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760363B (zh) | 文本文件的词义消歧方法及装置 | |
Alam et al. | The impact of preprocessing steps on the accuracy of machine learning algorithms in sentiment analysis | |
Montejo-Ráez et al. | Ranked wordnet graph for sentiment polarity classification in twitter | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
Hua et al. | Short text understanding through lexical-semantic analysis | |
WO2018049960A1 (zh) | 一种为文本信息匹配资源的方法及装置 | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
WO2020103899A1 (zh) | 用于生成图文信息的方法和用于生成图像数据库的方法 | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
WO2017139764A1 (en) | Zero-shot event detection using semantic embedding | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN110196910B (zh) | 一种语料分类的方法及装置 | |
CN109271624B (zh) | 一种目标词确定方法、装置及存储介质 | |
Zhang et al. | Multilingual sentence categorization and novelty mining | |
US11227183B1 (en) | Section segmentation based information retrieval with entity expansion | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN111159405A (zh) | 基于背景知识的讽刺检测方法 | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN111133429A (zh) | 提取表达以供自然语言处理 | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
Mamaev et al. | Automatic detection of hidden communities in the texts of Russian social network corpus | |
CN110609997B (zh) | 生成文本的摘要的方法和装置 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |