CN105740225A - 一种融合句子局部上下文与文档领域信息的词义消歧方法 - Google Patents

一种融合句子局部上下文与文档领域信息的词义消歧方法 Download PDF

Info

Publication number
CN105740225A
CN105740225A CN201610033097.5A CN201610033097A CN105740225A CN 105740225 A CN105740225 A CN 105740225A CN 201610033097 A CN201610033097 A CN 201610033097A CN 105740225 A CN105740225 A CN 105740225A
Authority
CN
China
Prior art keywords
word
related term
sentence
interdependent
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610033097.5A
Other languages
English (en)
Other versions
CN105740225B (zh
Inventor
鹿文鹏
孟凡擎
杜月寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jingweishengrui Data Technology Co ltd
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201610033097.5A priority Critical patent/CN105740225B/zh
Publication of CN105740225A publication Critical patent/CN105740225A/zh
Application granted granted Critical
Publication of CN105740225B publication Critical patent/CN105740225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及一种融合句子局部上下文与文档领域信息的词义消歧方法,属于自然语言处理技术领域。其步骤为:①对歧义词所在的句子进行依存句法分析,获得与歧义词具有直接依存关系的句子局部上下文相关词;②对领域文档集合进行依存句法分析,收集其所包含的全部的依存元组,构建依存元组库;③对依存元组库进行统计分析,找到与歧义词关系最为密切的一组领域相关词;④根据领域相关词的依存分布相似度及其与局部上下文的词义相关度,确定其消歧权重;⑤将句子局部上下文相关词和领域相关词合并,构建相关词集合;⑥根据歧义词的各个词义与相关词集合的加权累加相关度,判定正确词义。本发明公开的方法能够提高词义消歧系统在特定领域上的适应性,提高消歧正确率。

Description

一种融合句子局部上下文与文档领域信息的词义消歧方法
技术领域
本发明涉及到一种词义消歧方法,特别涉及一种融合句子局部上下文与文档领域信息的词义消歧方法,属于自然语言处理技术领域。
背景技术
自然语言处理系统普遍存在“领域失配”问题,词义消歧也不例外。同样的方法对于不同的领域,往往性能差异很大。在大规模词义消歧任务中,其所需处理的文本的领域类型千差万别。如果词义消歧系统无法主动适应文本领域的差别,其消歧性能将大打折扣。“领域适应”已成为制约特定领域上词义消歧性能提高的关键问题。面向特定领域的词义消歧已得到了自然语言处理领域研究者的关注。
面向特定领域的词义消歧方法主要包括有监督的方法和基于知识库的方法。有监督的方法主要针对扩充有效的消歧特征和降低词义标注工作量而展开;这只能减轻对训练语料的部分依赖,面对有监督方法对训练语料的海量需求,显然无法从根本上解决困扰有监督方法的数据稀疏问题。基于知识库的方法的研究主要围绕领域信息的挖掘和利用而展开;为目标领域收集密切相关的词语作为领域信息,为词义消歧系统提供更多的消歧特征。但现有方法对领域信息的挖掘利用并不充分,尚不能将领域信息与歧义词所在句子的局部上下文信息充分融合。
发明内容
本发明的目的是为了克服现有词义消歧技术所面临的“领域失配”问题,主要针对基于知识库的词义消歧方法的领域信息的挖掘和利用问题,提出一种新的融合句子局部上下文与文档领域信息的词义消歧方法。
本发明的目的是通过如下技术方案实现的。
一种融合句子局部上下文与文档领域信息的词义消歧方法,其具体操作步骤如下。
步骤一、对歧义词所在的句子进行依存句法分析,获得与歧义词具有直接依存关系的句子局部上下文相关词;具体如下。
步骤1.1:用符号S表示待处理的句子;用符号wt表示目标歧义词。
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号等,获得预处理后的句子S’。
步骤1.3:使用依存句法分析器,对句子S’进行依存句法分析;并对句子中的词语进行词形还原;获得其依存元组集合Rs
步骤1.4:从依存元组集合Rs中,提取出包含wt的依存元组,并将wt的依存词提取出来,筛选其中的实词,构建句子局部上下文相关词集合C。
步骤二、对领域文档集合进行依存句法分析,收集其所包含的全部的依存元组,构建依存元组库;具体如下。
步骤2.1:根据歧义词所在文档的领域类型Domain,收集隶属于该领域的文档,构建领域文档集合DSet。
步骤2.2:对领域文档集合DSet中的文档逐个进行依存句法分析,获得其依存元组集合,构建依存元组库DependSet。
步骤三、对依存元组库进行统计分析,找到与歧义词关系最为密切的一组领域相关词;具体如下。
步骤3.1:借助于LinDeKang提出的依存分布相似度的概念,根据公式(1)计算歧义词wt与其它词语w的依存分布相似度,并降序排列,记入链表DList。
(1)
其中,;(w,r,x)表示一个依存元组,w表示支配词,r表示依存关系的类型,x表示从属词。
步骤3.2:取链表DList的top-N个词语,作为与歧义词wt最为密切的一组领域相关词,构建领域相关词集合D。
步骤四、根据领域相关词的依存分布相似度及其与局部上下文的词义相关度,确定其消歧权重;具体如下。
步骤4.1:由公式(2),计算领域相关词wi与句子局部上下文相关词集合C的词义相关度。
(2)
其中,wi表示某个特定的领域相关词,C表示句子局部上下文相关词的集合,simi(wi,cj)表示wi与某个局部上下文相关词cj的相关度。
步骤4.2:结合公式(1)与公式(2),由公式(3)和公式(4)确定领域相关词wi的消歧权重。
(3)
mixrela(wi)=rela(wi,C)×dss(wt,wi)(4)
其中,wi表示某个特定的领域相关词,D表示领域相关词的集合。
步骤五、将句子局部上下文相关词和领域相关词合并,构建相关词集合;具体如下。
将各个句子局部上下文相关词cj的消歧权重均置为1,将cj加入相关词集合R;将各个领域相关词wi加入相关词集合R;即R=C∪D。
步骤六、根据歧义词的各个词义与相关词集合的加权累加相关度,判定正确词义;具体如下。
步骤6.1:根据公式(5),由相关词集合,计算各个词义与相关词集合的相关度,并根据相关词的消歧权重进行加权累加,获得各个词义的整体相关度。
(5)
其中,si表示某一特定词义,wj表示某一个相关词,R表示全部相关词集合,sense(wt)表示歧义词wt的全部词义的集合;simi(si,wj)表示词义si与相关词wj的相关度,其计算方法同步骤4.1。
步骤6.2:将与相关词集合整体相关度最高的词义,判定为正确词义。
经过以上步骤的操作,即可判定歧义词的词义,完成词义消歧任务。
如上所述,本发明提供了一种融合句子局部上下文与文档领域信息的词义消歧方法,用户输入歧义句及其所属领域类型,系统将自动判定目标歧义词的词义。
有益效果
本发明提出的融合句子局部上下文与文档领域信息的词义消歧方法与已有词义消歧方法相比较,其优点是根据领域相关词与局部上下文的词义相关度对领域相关词的权重进行调整,同时考虑了句子局部上下文与文档领域信息对词义判定的影响,这能够改善词义消歧系统在特定领域上的适应性,提高词义消歧的正确率。
附图说明
图1为本发明具体实施方式中的half#n的领域相关词表(体育)。
图2为本发明具体实施方式中的half#n的领域相关词与句子局部上下文相关词集的相关度表。
图3为本发明具体实施方式中的half#n的领域相关词的消歧权重表。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步详细说明。
以句子“TheArgentinestooka18-9advantageintothesecond‘halfofthebasketballgame.”为例,该句子所在的文档属于体育领域,对其中的名词half进行词义消歧处理。
根据WordNet3.0词典,歧义词half的词义如表1所示。
表1half#n的词义表
词义编号 词义说明
half#n#1 one-half, half -- (one of two equal parts of a divisible whole; "half a loaf"; "half an hour"; "a century and one half")
half#n#2 (one of two divisions into which some games or performances aredivided: the two divisions are separated by an interval)
其中,#n表示词性为名词;#1,#2表示在WordNet3.0中的词义序号。
步骤一、对歧义词所在的句子进行依存句法分析,获得与歧义词具有直接依存关系的句子局部上下文相关词;具体如下。
步骤1.1:用符号S表示待处理的句子,此例中S为“TheArgentinestooka18-9advantageintothesecond‘halfofthebasketballgame.”;用符号wt表示目标歧义词half。
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号等,获得预处理后的句子S’,此例可得“TheArgentinestooka18-9advantageintothesecondhalfofthebasketballgame.”。
步骤1.3:使用依存句法分析器,对句子S’进行依存句法分析;并对句子中的词语进行词形还原;获得其依存元组集合Rs
此例中,采用斯坦福大学所提供的StanfordParser句法分析器,使用englishPCFG.ser.gz语言模型,由句子S’可获得如下依存元组:det(Argentines-2,The-1)、nsubj(took-3,Argentines-2)、det(advantage-6,a-4)、num(advantage-6,18-9-5)、dobj(took-3,advantage-6)、det(half-10,the-8)、amod(half-10,second-9)、prep_into(took-3,half-10)、det(game-14,the-12)、nn(game-14,basketball-13)、prep_of(half-10,game-14)。
借助于WordNet3.0和美国西北大学所提供的MorphAdorner工具包,完成词形还原工作。此例中,took将被还原为take。
经以上处理,可得依存元组集合Rs中包含如下依存元组:det(Argentines-2,the-1)、nsubj(take-3,Argentines-2)、det(advantage-6,a-4)、num(advantage-6,18-9-5)、dobj(take-3,advantage-6)、det(half-10,the-8)、amod(half-10,second-9)、prep_into(take-3,half-10)、det(game-14,the-12)、nn(game-14,basketball-13)、prep_of(half-10,game-14)。
步骤1.4:从依存元组集合Rs中,提取出包含wt的依存元组,并将wt的依存词提取出来,筛选其中的实词,构建句子局部上下文相关词集合C。
此例中,对歧义词half,包含其的依存元组有:det(half-10,the-8)、amod(half-10,second-9)、prep_into(take-3,half-10)、prep_of(half-10,game-14);从中可提取half的依存词:the、second、take、game;筛选其中的实词,可得句子局部上下文相关词集合C={second,take,game}。
步骤二、对领域文档集合进行依存句法分析,收集其所包含的全部的依存元组,构建依存元组库;具体如下。
步骤2.1:根据歧义词所在文档的领域类型Domain,收集隶属于该领域的文档,构建领域文档集合DSet。
此例中,歧义词所在文档的领域类型为体育(Sport);ReuterCorpus收集了路透社约80万篇新闻文档,并且人工对每篇文档的领域类型作了标注;从中筛选主题分类代码(TopicCode)为“GSPO”的2万篇文档,构建体育领域文档集合DSet。
步骤2.2:对领域文档集合DSet中的文档逐个进行依存句法分析,获得其依存元组集合,构建依存元组库DependSet。
此例中,参照步骤1.3,对于DSet中的每一个文档,使用StanfordParser进行依存句法分析,并借助WordNet和MorphAdorner进行词形还原,将获得的依存元组全部存入依存元组库DependSet。
步骤三、对依存元组库进行统计分析,找到与歧义词关系最为密切的一组领域相关词;具体如下。
步骤3.1:借助于LinDeKang提出的依存分布相似度的概念,根据公式(1)计算歧义词wt与其它词语w的依存分布相似度,并降序排列,记入链表DList。
(1)
其中,;(w,r,x)表示一个依存元组,w表示支配词,r表示依存关系的类型,x表示从属词。
此例中,借助于公式(1),对步骤二所得的依存元组库DependSet进行统计分析,得到与half依存分布相似度最高的一组相关词,如附图1所示。
步骤3.2:取链表DList的top-N个词语,作为与歧义词wt最为密切的一组领域相关词,构建领域相关词集合D。
此例中,根据经验,将N值取为20,即取DependSet中相似度(相关度)最高的20个词语构建领域相关词集合D,即D={quarter,period,day,round,draw,game,rally,inning,yankee,weekend,play,innings,display,performance,hour,football,show,tennis,start,finish}。
步骤四、根据领域相关词的依存分布相似度及其与局部上下文的词义相关度,确定其消歧权重;具体如下。
步骤4.1:由公式(2),计算领域相关词wi与句子局部上下文相关词集合C的词义相关度。
(2)
其中,wi表示某个特定的领域相关词,C表示句子局部上下文相关词的集合,simi(wi,cj)表示wi与某个局部上下文相关词cj的相关度。
此例中,对于simi(wi,cj),选用TedPedersen所编写的WordNet::Similarity工具包,采用WordNet::Similarity::vector_pairs度量标准来进行计算。由公式(2),依次计算20个领域相关词与上下文相关词集合C(second,take,game)的词义相关度,如附图2所示。
步骤4.2:结合公式(1)与公式(2),由公式(3)和公式(4)确定领域相关词wi的消歧权重。
(3)
mixrela(wi)=rela(wi,C)×dss(wt,wi)(4)
其中,wi表示某个特定的领域相关词,D表示领域相关词的集合。
此例中,根据步骤3.1所获得的依存分布相似度和步骤4.1所获得的词义相似度,利用公式(3)和公式(4)计算可得各领域相关词的消歧权重,如附图3所示。
步骤五、将句子局部上下文相关词和领域相关词合并,构建相关词集合;具体如下。
将各个句子局部上下文相关词cj的消歧权重均置为1,将cj加入相关词集合R;将各个领域相关词wi加入相关词集合R;即R=C∪D:
此例中,可得R={quarter,period,day,round,draw,game,rally,inning,yankee,weekend,play,innings,display,performance,hour,football,show,tennis,start,finish,second,take,game}。
步骤六、根据歧义词的各个词义与相关词集合的加权累加相关度,判定正确词义;具体如下。
步骤6.1:根据公式(5),由相关词集合,计算各个词义与相关词集合的相关度,并根据相关词的消歧权重进行加权累加,获得各个词义的整体相关度。
(5)
其中,si表示某一特定词义,wj表示某一个相关词,R表示全部相关词集合,sense(wt)表示歧义词wt的全部词义的集合;simi(si,wj)表示词义si与相关词wj的相关度,其计算方法同步骤4.1。
此例中,由公式(5),可得half的两义词义half#n#1与half#n#2与相关词集合的整体相关度分别为:3.0611259224071445和5.086624231866441。
步骤6.2:将与相关词集合整体相关度最高的词义,判定为正确词义。
此例中,half#n#2将被判定为正确的词义。
经过以上步骤的操作,即可判定歧义词的词义,完成词义消歧任务。
如上所述,本发明提供了一种融合句子局部上下文与文档领域信息的词义消歧方法。用户输入歧义句及其所属领域类型,系统将自动判定目标歧义词的词义。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种融合句子局部上下文与文档领域信息的词义消歧方法,其特征在于包括以下步骤:
步骤一、对歧义词所在的句子进行依存句法分析,获得与歧义词具有直接依存关系的句子局部上下文相关词;具体如下:
步骤1.1:用符号S表示待处理的句子;用符号wt表示目标歧义词;
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号等,获得预处理后的句子S’;
步骤1.3:使用依存句法分析器,对句子S’进行依存句法分析;并对句子中的词语进行词形还原;获得其依存元组集合Rs
步骤1.4:从依存元组集合Rs中,提取出包含wt的依存元组,并将wt的依存词提取出来,筛选其中的实词,构建句子局部上下文相关词集合C;
步骤二、对领域文档集合进行依存句法分析,收集其所包含的全部的依存元组,构建依存元组库;具体如下:
步骤2.1:根据歧义词所在文档的领域类型Domain,收集隶属于该领域的文档,构建领域文档集合DSet;
步骤2.2:对领域文档集合DSet中的文档逐个进行依存句法分析,获得其依存元组集合,构建依存元组库DependSet;
步骤三、对依存元组库进行统计分析,找到与歧义词关系最为密切的一组领域相关词;具体如下:
步骤3.1:借助于LinDeKang提出的依存分布相似度的概念,根据公式(1)计算歧义词wt与其它词语w的依存分布相似度,并降序排列,记入链表DList;
(1)
其中,;(w,r,x)表示一个依存元组,w表示支配词,r表示依存关系的类型,x表示从属词;
步骤3.2:取链表DList的top-N个词语,作为与歧义词wt最为密切的一组领域相关词,构建领域相关词集合D;
步骤四、根据领域相关词的依存分布相似度及其与局部上下文的词义相关度,确定其消歧权重;具体如下:
步骤4.1:由公式(2),计算领域相关词wi与句子局部上下文相关词集合C的词义相关度;
(2)
其中,wi表示某个特定的领域相关词,C表示句子局部上下文相关词的集合,simi(wi,cj)表示wi与某个局部上下文相关词cj的相关度;
步骤4.2:结合公式(1)与公式(2),由公式(3)和公式(4)确定领域相关词wi的消歧权重;
(3)
mixrela(wi)=rela(wi,C)×dss(wt,wi)(4)
其中,wi表示某个特定的领域相关词,D表示领域相关词的集合;
步骤五、将句子局部上下文相关词和领域相关词合并,构建相关词集合;具体如下:
将各个句子局部上下文相关词cj的消歧权重均置为1,将cj加入相关词集合R;将各个领域相关词wi加入相关词集合R;即R=C∪D;
步骤六、根据歧义词的各个词义与相关词集合的加权累加相关度,判定正确词义;具体如下:
步骤6.1:根据公式(5),由相关词集合,计算各个词义与相关词集合的相关度,并根据相关词的消歧权重进行加权累加,获得各个词义的整体相关度;
(5)
其中,si表示某一特定词义,wj表示某一个相关词,R表示全部相关词集合,sense(wt)表示歧义词wt的全部词义的集合;simi(si,wj)表示词义si与相关词wj的相关度,其计算方法同步骤4.1;
步骤6.2:将与相关词集合整体相关度最高的词义,判定为正确词义;
经过以上步骤的操作,即可判定歧义词的词义,完成词义消歧任务。
CN201610033097.5A 2016-01-19 2016-01-19 一种融合句子局部上下文与文档领域信息的词义消歧方法 Active CN105740225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610033097.5A CN105740225B (zh) 2016-01-19 2016-01-19 一种融合句子局部上下文与文档领域信息的词义消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610033097.5A CN105740225B (zh) 2016-01-19 2016-01-19 一种融合句子局部上下文与文档领域信息的词义消歧方法

Publications (2)

Publication Number Publication Date
CN105740225A true CN105740225A (zh) 2016-07-06
CN105740225B CN105740225B (zh) 2019-02-01

Family

ID=56247416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610033097.5A Active CN105740225B (zh) 2016-01-19 2016-01-19 一种融合句子局部上下文与文档领域信息的词义消歧方法

Country Status (1)

Country Link
CN (1) CN105740225B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509449A (zh) * 2017-02-24 2018-09-07 腾讯科技(深圳)有限公司 一种信息处理的方法及服务器
CN109614620A (zh) * 2018-12-10 2019-04-12 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和系统
CN111625622A (zh) * 2020-04-28 2020-09-04 北京中科智加科技有限公司 领域本体构建方法、装置、电子设备及存储介质
CN116795972A (zh) * 2023-08-11 2023-09-22 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
US20150254228A1 (en) * 2014-03-10 2015-09-10 Fuji Xerox Co., Ltd Non-transitory computer readable medium and information processing apparatus and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
US20150254228A1 (en) * 2014-03-10 2015-09-10 Fuji Xerox Co., Ltd Non-transitory computer readable medium and information processing apparatus and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HEYAN HUANG 等: "Knowledge-based Word Sense Disambiguation with Feature Words Based on Dependency Relation and Syntax Tree", 《INTERNATIONAL JOURNAL OF ADVANCEMENTS IN COMPUTING TECHNOLOGY》 *
鹿文鹏: "基于依存和领域知识的词义消歧方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509449A (zh) * 2017-02-24 2018-09-07 腾讯科技(深圳)有限公司 一种信息处理的方法及服务器
CN109614620A (zh) * 2018-12-10 2019-04-12 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和系统
CN109614620B (zh) * 2018-12-10 2023-01-17 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和系统
CN111625622A (zh) * 2020-04-28 2020-09-04 北京中科智加科技有限公司 领域本体构建方法、装置、电子设备及存储介质
CN116795972A (zh) * 2023-08-11 2023-09-22 之江实验室 一种模型训练的方法、装置、存储介质及电子设备
CN116795972B (zh) * 2023-08-11 2024-01-09 之江实验室 一种模型训练的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN105740225B (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN104008166B (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN105740225A (zh) 一种融合句子局部上下文与文档领域信息的词义消歧方法
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN104199965A (zh) 一种语义信息检索方法
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN109145260A (zh) 一种文本信息自动提取方法
CN106202034B (zh) 一种基于依存约束和知识的形容词词义消歧方法和装置
CN106708798B (zh) 一种字符串切分方法及装置
CN104484380A (zh) 个性化搜索方法及装置
CN102567409A (zh) 一种提供检索关联词的方法及装置
CN104881399B (zh) 基于概率软逻辑psl的事件识别方法和系统
CN106095791A (zh) 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN109934251A (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
CN106959943B (zh) 语种识别更新方法及装置
CN107480137A (zh) 用语义迭代提取网络突发事件并识别外延事件关系的方法
CN102929864B (zh) 一种音字转换方法及装置
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
CN109614493A (zh) 一种基于监督词向量的文本缩写识别方法及系统
Almeida et al. BIT. UA at BioASQ 8: Lightweight Neural Document Ranking with Zero-shot Snippet Retrieval.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200219

Address after: 250001 room 1002, block C, Yinhe building, No. 2008, Xinluo street, high tech Zone, Jinan City, Shandong Province

Patentee after: Shandong jingweishengrui Data Technology Co.,Ltd.

Address before: 250353 Qilu Industrial University, 3501 University Road, Science Park, Xincheng University, Ji'nan, Shandong

Patentee before: Qilu University of Technology

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A word sense disambiguation method integrating sentence local context and document domain information

Effective date of registration: 20210803

Granted publication date: 20190201

Pledgee: Jinan Rural Commercial Bank Co.,Ltd. Runfeng sub branch

Pledgor: Shandong jingweishengrui Data Technology Co.,Ltd.

Registration number: Y2021980007214

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220721

Granted publication date: 20190201

Pledgee: Jinan Rural Commercial Bank Co.,Ltd. Runfeng sub branch

Pledgor: Shandong jingweishengrui Data Technology Co.,Ltd.

Registration number: Y2021980007214

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A word sense disambiguation method that combines sentence local context and document domain information

Effective date of registration: 20220729

Granted publication date: 20190201

Pledgee: Jinan Rural Commercial Bank Co.,Ltd. Runfeng sub branch

Pledgor: Shandong jingweishengrui Data Technology Co.,Ltd.

Registration number: Y2022980011557

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230724

Granted publication date: 20190201

Pledgee: Jinan Rural Commercial Bank Co.,Ltd. Runfeng sub branch

Pledgor: Shandong jingweishengrui Data Technology Co.,Ltd.

Registration number: Y2022980011557

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Word Sense Disambiguation Method Integrating Local Context of Sentences and Domain Information of Documents

Effective date of registration: 20230728

Granted publication date: 20190201

Pledgee: Jinan Rural Commercial Bank Co.,Ltd. Runfeng sub branch

Pledgor: Shandong jingweishengrui Data Technology Co.,Ltd.

Registration number: Y2023980050126