CN107861939A - 一种融合词向量和主题模型的领域实体消歧方法 - Google Patents

一种融合词向量和主题模型的领域实体消歧方法 Download PDF

Info

Publication number
CN107861939A
CN107861939A CN201710913216.0A CN201710913216A CN107861939A CN 107861939 A CN107861939 A CN 107861939A CN 201710913216 A CN201710913216 A CN 201710913216A CN 107861939 A CN107861939 A CN 107861939A
Authority
CN
China
Prior art keywords
entity
similarity
disambiguation
candidate
term vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710913216.0A
Other languages
English (en)
Other versions
CN107861939B (zh
Inventor
郭剑毅
马晓军
余正涛
陈玮
张志坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201710913216.0A priority Critical patent/CN107861939B/zh
Publication of CN107861939A publication Critical patent/CN107861939A/zh
Application granted granted Critical
Publication of CN107861939B publication Critical patent/CN107861939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明涉及一种融合词向量和主题模型的领域实体消歧方法,属于自然语言处理和深度学习技术领域。本发明获取待消歧实体的候选实体集合,再获取待消歧实体和候选实体的向量形式,结合上下位关系领域知识库获取待消歧实体的类别指称,进行上下文相似度和类别指称相似度计算,再利用LDA主题模型和Skip‑gram词向量模型对不同主题分类下的文档进行词向量训练,获取多义词不同含义的词向量表示,用K‑Means算法抽取文本的主题领域关键词,进行领域主题关键词相似度计算,最后对三类特征相似度进行融合,把相似度最高的候选实体作为最终的目标实体。本发明优于传统消歧方法,可以很好的满足实际应用的需求。

Description

一种融合词向量和主题模型的领域实体消歧方法
技术领域
本发明涉及一种融合词向量和主题模型的领域实体消歧方法,属于自然语言处理和深度学习技术领域。
背景技术
实体消歧是自然语言处理领域的重要任务之一,该任务通过对文本中多义词的义项加以明确,旨在消除语义歧义,为人类和计算机更好理解自然语言信息提供帮助,实体消歧的任务万网针对通用文本,如新闻、网页等,使用的语料库由多个领域的文本构成,然而在实际的应用中,经常需要对某一特定领域的文本进行消歧,这不仅对领域知识的挖掘具有重要的意义,而且有助于领域知识库的构专业文献自动翻译等任务。
发明内容
本发明提供了一种融合词向量和主题模型的领域实体消歧方法,以用于解决现有的实体消歧方法使用Skip-gram词向量计算模型在处理多义词时只能计算出一个混合了多种语义的词向量,没能对多义词不同含义进行区分的问题。
本发明的技术方案是:一种融合词向量和主题模型的领域实体消歧方法,所述方法的具体步骤如下:
Step1、首先利用Word2vec对旅游领域的百科语料进行词向量模型训练;
所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条,旅游网页信息等。
Step1.3、对Step1.2步骤获得的语料进行预处理,采用开源的工具包中科院汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有旅游领域的高质量的文本级语料。
Step1.4、选择Google的开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练。
本发明中词向量模型的训练过程,是领域实体消歧的前提与基础,是不可缺少的一步,同时由于中文主要由字符组成,相比英文而言,字符间的语义关系表达比较复杂,因此中文文本表示成词向量时,必须先进行分词处理。使用分词工具进行分词之后,需要人工校对。
Step2、从维基百科知识库中获取待消歧实体的候选实体集合;
所述步骤Step2的具体步骤为:
Step2.1、下载维基百科2014年12月的中文离线数据库,并提取其中旅游分类下的页面信息;
Step2.2、从实体页面、重定向页面、消歧页面、超链接中获取待消歧实体的候选实体。
本发明过程中候选实体的获取,主要目的是获取高质量的候选实体集合。
Step3、结合词向量模型和LDA主题模型,充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行领域实体消歧;
所述步骤Step3的具体步骤如下:
Step3.1、获取待消歧实体所在文本和候选实体所在文本的上下文环境,利用词向量模型训练上下文环境得到上下文特征,然后进行上下文特征相似度的计算;
Step3.2、利用K-means聚类算法获取待消歧实体所在文本的高频词,利用上下位关系领域知识库获取高频词在知识库中所属的类别指称特征,即上位词,与候选实体所属的类别名称进行上下位关系类别指称特征相似度的计算。
Step3.3、利用LDA主题模型对训练语料进行上下文主题建模,再进行分类,在不同主题下对多义词进行语义标注,利用词向量模型进行训练获取多义词的不同词向量,利用K-means聚类算法获取不同主题下的关键词特征,然后与候选实体进行主题关键词特征相似度的计算;
Step3.4、充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行特征相似度的融合,然后进行领域实体消歧。
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用中科院汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
所述步骤Step3.1的具体步骤为:
Step3.1.1、对于某待消歧的实体G,其背景文本经过预处理后,用训练好的词向量模型进行向量的表示,其向量表示为
Step3.1.2、对于候选实体,通过在知识库中获取实体的摘要,经过向量表示后为
Step3.1.3、待消歧实体G和候选实体G候选之间的相似度通过计算之间的相似度来计算,相似度计算公式:
本发明中上下文相似度的计算,是实体消歧任务的基础,目的是从全局文档出发,考虑两个不同文本之间的相似度,从而获取待消歧实体与候选实体之间的相似度。
所述步骤Step3.2的具体步骤为:
Step3.2.1、对于待消歧实体所在的背景文档,对其预处理后,包括分词、去停用词,获取所有预处理后的名词类的词语将其转化为单独的词向量;
Step3.2.2、使用K-Means算法对名词类词语的词向量进行聚类操作,使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的4个词作为该类的高频词;
从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称。
Step3.2.3、从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称;
Step3.2.4、从百科的词条标签中获取每个候选实体的类别指称,然后计算x个候选实体与背景文档的y个类的相似度Ri(x),并且每个候选实体只保留一个最大相似度-与各类相似度值比较后最大的相似度值,相似度计算公式sim2(G,G候选)=max{Ri(x)}。
本发明中上下位关系类别相似度的计算,是实体消歧任务的基础,目的也是从全局文档出发,考虑两个不同文本之间所属类别指称的相似度,从而获取待消歧实体与候选实体之间的相似度。
所述步骤Step3.3的具体步骤为:
Step3.3.1、预处理:通过中科院汉语词法分析系统ICTCLAS对旅游领域背景文档内容进行分词,去除停用词、对上下文按句分割;
Step3.3.2、主题建模:使用LDA主题模型对每个文档的上下文集合进行主题建模;参数推理采用MCMC方法中的Gibbs抽样算法,看成是文本生成的逆过程,即在已知文本集的情况下,通过参数估计得到参数值,根据概率图模型,得到一段上下文的概率;
Step3.3.3、上下文分类与主题分析:获取待消歧实体所在主题下前4个文本主题词,利用TextRank抽取待消歧实体所在文本的关键词,然后利用词向量模型将关键词表示为向量的形式,计算主题词与关键词的相似度大小,从而对待测上下文进行分类,确定上下文对应的主题词;
Step3.3.4、词义标注:根据多义词所处的上下文主题及其分类,对多义词进行语义标注,将该词语与主题词对看做为一个新词放回词袋,用w′=<w,t>表示多义词与主题对,将w′最为新词取代w放入原词袋模型;
Step3.3.5、多义词词向量训练:把<wi,ti>看做新词进行训练就得到多义词的多个含义的词向量;
Step3.3.6、然后对词向量进行K-Means聚类操作,在聚类过程中使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的m个词作为关键词;
Step3.3.7、获取了不同主题下的关键词集合,每个不同聚类簇下的关键词都是以词向量的形式表示的,聚类簇的个数为主题的个数,设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量,对于关键词集合S中的关键词k,其向量的形式为wk(k=1,2,...,m),候选实体G候选的摘要文本向量形式为ni,则下述公式表示候选实体含义向量与主题关键词之间的相似性,相似度计算公式为:
本发明中基于主题关键词相似度的计算,是实体消歧任务的关键,目的是从局部文档出发,获取多义词的不同向量表示,从而提高消歧的准确率。
所述步骤Step3.4的具体步骤为:
Step3.4.1、对步骤Step3.1、Step3.2、Step3.1获得的特征进行相似度融合,融合公式为
sim(G,G候选)=αsim1(G,G候选)+βsim2(G,G候选)+χsim3(G,G候选)
Step3.4.2、对于三种相似度权重的选择,采用基于经验和权值归一的方法,获得权重比值,且满足α+β+χ=1,α,β,χ表示三项相似度权重值。
所述步骤Step3.4.2中,最终使用的三项相似度权重值α,β,χ分别为0.23,0.25,0.52。
本发明中相似度的融合,是实体消歧的关键,是不可缺少的一步,只有获取合适的权值,才能获取获取高准确率的待消歧实体。
本发明的有益效果是:
1、本发明的一种融合词向量和主题模型的领域实体消歧方法,与现有的实体消歧方法相比较,提高了实体消歧的正确率,本发明取得了较好的效果;
2、本发明的一种融合词向量和主题模型的领域实体消歧方法,与现有的实体消歧方法相比较,本文将多义词表示成多个词向量的形式,通过三种相似度特征的融合,更好的对领域实体进行消歧。
3、本发明的一种融合词向量和主题模型的领域实体消歧方法,对领域实体进行了有效的消歧,为后续工作的实体链接、实体融合和知识图谱构建等工作提供强有力的支撑。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的部分领域知识库语义层次结构图;
图3为本发明上位词个数对消歧结果的影响的示意图;
图4为本发明关键词个数对消歧结果的影响的示意图。
具体实施方式
实施例1:如图1-4所示,一种融合词向量和主题模型的领域实体消歧方法,所述方法的具体步骤如下:
Step1、首先利用Word2vec对旅游领域的百科语料进行词向量模型训练;
所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条,旅游网页信息等。
Step1.3、对Step1.2步骤获得的语料进行预处理,采用开源的工具包中科院汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有旅游领域的高质量的文本级语料。
Step1.4、选择Google的开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练。
本发明中词向量模型的训练过程,是领域实体消歧的前提与基础,是不可缺少的一步,同时由于中文主要由字符组成,相比英文而言,字符间的语义关系表达比较复杂,因此中文文本表示成词向量时,必须先进行分词处理。使用分词工具进行分词之后,需要人工校对。
Step2、从维基百科知识库中获取待消歧实体的候选实体集合;
所述步骤Step2的具体步骤为:
Step2.1、下载维基百科2014年12月的中文离线数据库,并提取其中旅游分类下的页面信息;
Step2.2、从实体页面、重定向页面、消歧页面、超链接中获取待消歧实体的候选实体。
本发明过程中候选实体的获取,主要目的是获取高质量的候选实体集合。
Step3、结合词向量模型和LDA主题模型,充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行领域实体消歧;
所述步骤Step3的具体步骤如下:
Step3.1、获取待消歧实体所在文本和候选实体所在文本的上下文环境,利用词向量模型训练上下文环境得到上下文特征,然后进行上下文特征相似度的计算;
Step3.2、利用K-means聚类算法获取待消歧实体所在文本的高频词,图2为本发明中的部分领域知识库语义层次结构图,包含10000个领域实体的旅游领域知识库,利用上下位关系领域知识库获取高频词在知识库中所属的类别指称特征,即上位词,与候选实体所属的类别名称进行上下位关系类别指称特征相似度的计算。
Step3.3、利用LDA主题模型对训练语料进行上下文主题建模,再进行分类,在不同主题下对多义词进行语义标注,利用词向量模型进行训练获取多义词的不同词向量,利用K-means聚类算法获取不同主题下的关键词特征,然后与候选实体进行主题关键词特征相似度的计算;
Step3.4、充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行特征相似度的融合,然后进行领域实体消歧。
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用中科院汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
所述步骤Step3.1的具体步骤为:
Step3.1.1、对于某待消歧的实体G,其背景文本经过预处理后,用训练好的词向量模型进行向量的表示,其向量表示为
Step3.1.2、对于候选实体,通过在知识库中获取实体的摘要,经过向量表示后为
Step3.1.3、待消歧实体G和候选实体G候选之间的相似度通过计算之间的相似度来计算,相似度计算公式:
本发明中上下文相似度的计算,是实体消歧任务的基础,目的是从全局文档出发,考虑两个不同文本之间的相似度,从而获取待消歧实体与候选实体之间的相似度。
所述步骤Step3.2的具体步骤为:
Step3.2.1、对于待消歧实体所在的背景文档,对其预处理后,包括分词、去停用词,获取所有预处理后的名词类的词语将其转化为单独的词向量;
Step3.2.2、使用K-Means算法对名词类词语的词向量进行聚类操作,使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的4个词作为该类的高频词;
从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称。
Step3.2.3、从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称;,如表1所示,待消歧实体“香格里拉”经过步骤Step3.2.2、Step3.2.3可以得到实体“香格里拉”的上位词类别信息。
表1实体指称K-Means聚类及上位词类别
Step3.2.4、从百科的词条标签中获取每个候选实体的类别指称,然后计算x个候选实体与背景文档的y个类的相似度Ri(x),并且每个候选实体只保留一个最大相似度-与各类相似度值比较后最大的相似度值,相似度计算公式sim2(G,G候选)=max{Ri(x)}。
本发明中上下位关系类别相似度的计算,是实体消歧任务的基础,目的也是从全局文档出发,考虑两个不同文本之间所属类别指称的相似度,从而获取待消歧实体与候选实体之间的相似度。
所述步骤Step3.3的具体步骤为:
Step3.3.1、预处理:通过中科院汉语词法分析系统ICTCLAS对旅游领域背景文档内容进行分词,去除停用词、对上下文按句分割;
Step3.3.2、主题建模:使用LDA主题模型对每个文档的上下文集合进行主题建模;参数推理采用MCMC方法中的Gibbs抽样算法,看成是文本生成的逆过程,即在已知文本集的情况下,通过参数估计得到参数值,根据概率图模型,得到一段上下文的概率;
Step3.3.3、上下文分类与主题分析:获取待消歧实体所在主题下前4个文本主题词,利用TextRank抽取待消歧实体所在文本的关键词,然后利用词向量模型将关键词表示为向量的形式,计算主题词与关键词的相似度大小,从而对待测上下文进行分类,确定上下文对应的主题词;
Step3.3.4、词义标注:根据多义词所处的上下文主题及其分类,对多义词进行语义标注,将该词语与主题词对看做为一个新词放回词袋,用w′=<w,t>表示多义词与主题对,将w′最为新词取代w放入原词袋模型;
Step3.3.5、多义词词向量训练:把<wi,ti>看做新词进行训练就得到多义词的多个含义的词向量;
Step3.3.6、然后对词向量进行K-Means聚类操作,在聚类过程中使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的m个词作为关键词;
Step3.3.7、获取了不同主题下的关键词集合,每个不同聚类簇下的关键词都是以词向量的形式表示的,聚类簇的个数为主题的个数,设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量,对于关键词集合S中的关键词k,其向量的形式为wk(k=1,2,...,m),候选实体G候选的摘要文本向量形式为ni,则下述公式表示候选实体含义向量与主题关键词之间的相似性,相似度计算公式为:
本发明中基于主题关键词相似度的计算,是实体消歧任务的关键,目的是从局部文档出发,获取多义词的不同向量表示,从而提高消歧的准确率。
所述步骤Step3.4的具体步骤为:
Step3.4.1、对步骤Step3.1、Step3.2、Step3.1获得的特征进行相似度融合,融合公式为
sim(G,G候选)=αsim1(G,G候选)+βsim2(G,G候选)+χsim3(G,G候选)
Step3.4.2、对于三种相似度权重的选择,采用基于经验和权值归一的方法,获得权重比值,且满足α+β+χ=1,α,β,χ表示三项相似度权重值。
所述步骤Step3.4.2中,最终使用的三项相似度权重值α,β,χ分别为0.23,0.25,0.52。
本发明中相似度的融合,是实体消歧的关键,是不可缺少的一步,只有获取合适的权值,才能获取获取高准确率的待消歧实体。
为了验证本发明识别出来的命名实体的效果,将采用统一的评价标准:正确率(Precision)衡量本发明的性能。
本发明为了验证该发明的的有效性、可行性设计以下几组实验进行验证:
实验一、在实际的环境中,上下文相似度特征(A)、上下位实体类别指称相似度特征(B)、基于领域主题关键词相似度(C)特征对于实体消歧结果的影响可能不同,对实体相似度贡献也不同,本实验通过选取不同的特征组合进行对比实验,表2所示为不同特征组合对实验结果的影响。
表2不同特征组合实验结果统计
特征组合 P(%)
A 80.2
A+B 83.6
A+B+C 89.7
根据实验结果发现,仅仅利用上下文相似度特征和上下位实体类别相似度特征进行消歧,其准确率明显低于结合基于领域关键词相似度特征,原因是上下文相似度特征和上下位实体类别相似度特征是基于文档的全局上下文信息出发,对于相似度的计算考虑的是背景文档的上下文与候选义项的上下文是否具有整体相似性,而基于主题关键词的相似度特征从文档的局部上下文信息考虑,其充分考虑了多义词的不同含义在同一文档出现的可能性,因此准确率有了很大的提高。
实验二、本实验就上位词个数m的确定做了4组实验,分布测试m在取1,2,3,4,5时对消歧准确率的影响,实验结果如图3所示。
根据图3的实验结果发现,针对本文提出的基于上下位关系的类别指称相似度计算,其在选择指称项所在文档各个类的类别名称的情况下,选取每个类下高频词的上位词作为文档各个类的类别名称,为了验证类别名称的数量对于消歧结果的影响,实验分别选取类别名称数量为1、2、3、4、5组数据进行实验,从结果发现,当上位词个数选择3个的时候,其实体消歧准确率最高达到87.3%,而随着数量的增加,其准确率不断下降,这是因为上下位关系是一种层级的关系,越往上其上位词代表的类别信息覆盖范围更广,区分度将会越小,有时还会引入了噪音,降低了消歧的准确率。
实验三、本实验就主题关键词个数n的确定做了6组实验,分布测试n在取3、5、7、9、11、13时对消歧准确率的影响,实验结果如图4所示。
根据图4的实验结果发现,针对本文中基于主题关键词相似度计算的关键词选取个数n定为9时准确率达到最大值88.9%。考虑到领域知识库其实并不完备,并非所有的实体指称项在知识库中都有相应的目标实体,同时,关键词并不是越多越好,越多的关键词将会使一些领域关联性很小、没有区分度的词引入到相似度计算中,势必会影响消歧的准确率。
实验四、为了验证本文提出方法的可行性将本文的方法与其他几种实体消歧方法进行比较,实验结果如表3所示。
表3本文方法与其他方法的比较
方法名 准确率(%)
Wikify 70.2
Cucerzan 75.3
SVM[15] 82.5
Score[20] 88.4
本文的方法 89.6
从表中可知,本文提出的方法在准确率上与其他方法相比有了很大的提高,证明了本方法在对特定领域实体消歧任务的可行性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (9)

1.一种融合词向量和主题模型的领域实体消歧方法,其特征在于:
所述方法的具体步骤为:
Step1、首先利用旅游领域的百科语料进行词向量模型训练;
Step2、从维基百科知识库中获取待消歧实体的候选实体集合;
Step3、结合词向量模型和LDA主题模型,充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行领域实体消歧;
所述步骤Step3的具体步骤如下:
Step3.1、获取待消歧实体所在文本和候选实体所在文本的上下文环境,利用词向量模型训练上下文环境得到上下文特征,然后进行上下文特征相似度的计算;
Step3.2、利用K-means聚类算法获取待消歧实体所在文本的高频词,利用上下位关系领域知识库获取高频词在知识库中所属的类别指称特征,即上位词,与候选实体所属的类别名称进行上下位关系类别指称特征相似度的计算。
Step3.3、利用LDA主题模型对训练语料进行上下文主题建模,再进行分类,在不同主题下对多义词进行语义标注,利用词向量模型进行训练获取多义词的不同词向量,利用K-means聚类算法获取不同主题下的关键词特征,然后与候选实体进行主题关键词特征相似度的计算;
Step3.4、充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行特征相似度的融合,然后进行领域实体消歧。
2.根据权利要求1所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
Step1.3、对Step1.2步骤获得的语料进行预处理,采用开源的工具包中科院汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
Step1.4、选择Google的开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练。
3.根据权利要求1所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、下载维基百科的中文离线数据库,并提取其中旅游分类下的页面信息;
Step2.2、从实体页面、重定向页面、消歧页面、超链接中获取待消歧实体的候选实体。
4.根据权利要求2所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用中科院汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
5.根据权利要求1所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.1的具体步骤为:
Step3.1.1、对于某待消歧的实体G,其背景文本经过预处理后,用训练好的词向量模型进行向量的表示,其向量表示为
Step3.1.2、对于候选实体,通过在知识库中获取实体的摘要,经过向量表示后为
Step3.1.3、待消歧实体G和候选实体G候选之间的相似度通过计算之间的相似度来计算,相似度计算公式:
6.根据权利要求5所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.2的具体步骤为:
Step3.2.1、对于待消歧实体所在的背景文档,对其预处理后,包括分词、去停用词,获取所有预处理后的名词类的词语将其转化为单独的词向量;
Step3.2.2、使用K-Means算法对名词类词语的词向量进行聚类操作,使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的4个词作为该类的高频词;
Step3.2.3、从上下位关系领域知识库中分别查找这些高频词所属的上位词,将上位词作为该类的类别指称;
Step3.2.4、从百科的词条标签中获取每个候选实体的类别指称,然后计算x个候选实体与背景文档的y个类的相似度Ri(x),并且每个候选实体只保留一个最大相似度-与各类相似度值比较后最大的相似度值,相似度计算公式sim2(G,G候选)=max{Ri(x)}。
7.根据权利要求6所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.3的具体步骤为:
Step3.3.1、预处理:通过中科院汉语词法分析系统ICTCLAS对旅游领域背景文档内容进行分词,去除停用词、对上下文按句分割;
Step3.3.2、主题建模:使用LDA主题模型对每个文档的上下文集合进行主题建模;参数推理采用MCMC方法中的Gibbs抽样算法,看成是文本生成的逆过程,即在已知文本集的情况下,通过参数估计得到参数值,根据概率图模型,得到一段上下文的概率;
Step3.3.3、上下文分类与主题分析:获取待消歧实体所在主题下前4个文本主题词,利用TextRank抽取待消歧实体所在文本的关键词,然后利用词向量模型将关键词表示为向量的形式,计算主题词与关键词的相似度大小,从而对待测上下文进行分类,确定上下文对应的主题词;
Step3.3.4、词义标注:根据多义词所处的上下文主题及其分类,对多义词进行语义标注,将该词语与主题词对看做为一个新词放回词袋,用w′=<w,t>表示多义词与主题对,将w′最为新词取代w放入原词袋模型;
Step3.3.5、多义词词向量训练:把<wi,ti>看做新词进行训练就得到多义词的多个含义的词向量;
Step3.3.6、然后对词向量进行K-Means聚类操作,在聚类过程中使用余弦相似度计算公式计算两个词之间的距离,分别计算每个词到距离中心之间的距离,选择离聚类中心最近的m个词作为关键词;
Step3.3.7、获取了不同主题下的关键词集合,每个不同聚类簇下的关键词都是以词向量的形式表示的,聚类簇的个数为主题的个数,设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量,对于关键词集合S中的关键词k,其向量的形式为wk(k=1,2,...,m),候选实体G候选的摘要文本向量形式为ni,则下述公式表示候选实体含义向量与主题关键词之间的相似性,相似度计算公式为:
8.根据权利要求7所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.4的具体步骤为:
Step3.4.1、对步骤Step3.1、Step3.2、Step3.1获得的特征进行相似度融合,融合公式为
sim(G,G候选)=αsim1(G,G候选)+βsim2(G,G候选)+χsim3(G,G候选)
Step3.4.2、对于三种相似度权重的选择,采用基于经验和权值归一的方法,获得权重比值,且满足α+β+χ=1,α,β,χ表示三项相似度权重值。
9.根据权利要求8所述的融合词向量和主题模型的领域实体消歧方法,其特征在于:所述步骤Step3.4.2中,最终使用的三项相似度权重值α,β,χ分别为0.23,0.25,0.52。
CN201710913216.0A 2017-09-30 2017-09-30 一种融合词向量和主题模型的领域实体消歧方法 Active CN107861939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710913216.0A CN107861939B (zh) 2017-09-30 2017-09-30 一种融合词向量和主题模型的领域实体消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710913216.0A CN107861939B (zh) 2017-09-30 2017-09-30 一种融合词向量和主题模型的领域实体消歧方法

Publications (2)

Publication Number Publication Date
CN107861939A true CN107861939A (zh) 2018-03-30
CN107861939B CN107861939B (zh) 2021-05-14

Family

ID=61698216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710913216.0A Active CN107861939B (zh) 2017-09-30 2017-09-30 一种融合词向量和主题模型的领域实体消歧方法

Country Status (1)

Country Link
CN (1) CN107861939B (zh)

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415901A (zh) * 2018-02-07 2018-08-17 大连理工大学 一种基于词向量和上下文信息的短文本主题模型
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN108763192A (zh) * 2018-04-18 2018-11-06 达而观信息科技(上海)有限公司 用于文本处理的实体关系抽取方法及装置
CN108763189A (zh) * 2018-04-12 2018-11-06 武汉斗鱼网络科技有限公司 一种直播间内容标签权重计算方法、装置及电子设备
CN108763487A (zh) * 2018-05-30 2018-11-06 华南理工大学 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN108874772A (zh) * 2018-05-25 2018-11-23 太原理工大学 一种多义词词向量消歧方法
CN108920497A (zh) * 2018-05-23 2018-11-30 北京奇艺世纪科技有限公司 一种人机交互方法及装置
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN108920466A (zh) * 2018-07-27 2018-11-30 杭州电子科技大学 一种基于word2vec和TextRank的科技文本关键词提取方法
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN109033307A (zh) * 2018-07-17 2018-12-18 华北水利水电大学 基于crp聚类的词语多原型向量表示及词义消歧方法
CN109325230A (zh) * 2018-09-21 2019-02-12 广西师范大学 一种基于维基百科双向链接的词语语义相关度判断方法
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和系统
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN109635297A (zh) * 2018-12-11 2019-04-16 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN109902144A (zh) * 2019-01-11 2019-06-18 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN109933788A (zh) * 2019-02-14 2019-06-25 北京百度网讯科技有限公司 类型确定方法、装置、设备和介质
CN109961091A (zh) * 2019-03-01 2019-07-02 杭州叙简科技股份有限公司 一种自学习的事故文字标签与摘要生成系统及其方法
CN110110094A (zh) * 2019-04-22 2019-08-09 华侨大学 基于社交网络知识图谱的跨网络人物关联方法
CN110134965A (zh) * 2019-05-21 2019-08-16 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110196907A (zh) * 2019-04-15 2019-09-03 中国石油大学(华东) 一种多层次文本聚类方法和装置
CN110232185A (zh) * 2019-01-07 2019-09-13 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN110309316A (zh) * 2018-06-08 2019-10-08 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN110362723A (zh) * 2019-05-31 2019-10-22 平安国际智慧城市科技股份有限公司 一种题目特征表示方法、装置及存储介质
CN110457711A (zh) * 2019-08-20 2019-11-15 电子科技大学 一种基于主题词的社交媒体事件主题识别方法
CN110532541A (zh) * 2019-06-11 2019-12-03 福建奇点时空数字科技有限公司 一种基于实体相似度计算的本体实体消歧方法
CN110580294A (zh) * 2019-09-11 2019-12-17 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110717015A (zh) * 2019-10-10 2020-01-21 大连理工大学 一种基于神经网络的多义词识别方法
CN110826331A (zh) * 2019-10-28 2020-02-21 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN110837568A (zh) * 2019-11-26 2020-02-25 精硕科技(北京)股份有限公司 实体对齐方法及装置、电子设备、存储介质
CN111079429A (zh) * 2019-10-15 2020-04-28 平安科技(深圳)有限公司 基于意图识别模型的实体消歧方法、装置和计算机设备
CN111191445A (zh) * 2018-11-15 2020-05-22 北京京东金融科技控股有限公司 广告文本分类方法及装置
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN111368532A (zh) * 2020-03-18 2020-07-03 昆明理工大学 一种基于lda的主题词嵌入消歧方法及系统
CN111428031A (zh) * 2020-03-20 2020-07-17 电子科技大学 一种融合浅层语义信息的图模型过滤方法
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111507098A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 多义词识别方法、装置、电子设备及计算机可读存储介质
CN111583072A (zh) * 2020-04-27 2020-08-25 北京北大软件工程股份有限公司 法条上下位关系判断方法及处理终端
CN111783418A (zh) * 2020-06-09 2020-10-16 北京北大软件工程股份有限公司 一种中文词义表示学习方法及装置
CN111831802A (zh) * 2020-06-04 2020-10-27 北京航空航天大学 一种基于lda主题模型的城市领域知识检测系统及方法
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN111967263A (zh) * 2020-07-30 2020-11-20 北京明略软件系统有限公司 一种基于实体话题关联度的领域命名实体去噪方法及系统
CN111966780A (zh) * 2019-05-20 2020-11-20 天津科技大学 一种基于词向量建模和信息检索的回顾性队列选择方法及装置
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112215008A (zh) * 2020-10-23 2021-01-12 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112307134A (zh) * 2020-10-30 2021-02-02 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备及存储介质
CN112434169A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种知识图谱的构建方法及其系统和计算机设备
CN112580355A (zh) * 2020-12-30 2021-03-30 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN112612892A (zh) * 2020-12-29 2021-04-06 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN112612889A (zh) * 2020-12-28 2021-04-06 中科院计算技术研究所大数据研究院 一种多语种文献分类方法、装置及存储介质
WO2021082370A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于百科知识库和词向量的中文地名语义消歧方法
CN112825112A (zh) * 2019-11-20 2021-05-21 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机终端
CN112861990A (zh) * 2021-03-05 2021-05-28 电子科技大学 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN113010633A (zh) * 2019-12-20 2021-06-22 海信视像科技股份有限公司 一种信息交互方法及设备
WO2021120174A1 (zh) * 2019-12-20 2021-06-24 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
CN113032584A (zh) * 2021-05-27 2021-06-25 北京明略软件系统有限公司 一种实体关联方法、装置、电子设备及存储介质
CN113051917A (zh) * 2021-04-23 2021-06-29 东南大学 一种基于时间窗口文本相似度的文档隐式时间推断方法
CN113221561A (zh) * 2021-01-27 2021-08-06 北京云天互联科技有限公司 基于nlp结合上下文的实体识别方法
CN113283236A (zh) * 2021-05-31 2021-08-20 北京邮电大学 一种复杂中文文本中的实体消歧方法
CN113407717A (zh) * 2021-05-28 2021-09-17 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN113947087A (zh) * 2021-12-20 2022-01-18 太极计算机股份有限公司 一种基于标签的关系构建方法、装置、电子设备及存储介质
CN114896980A (zh) * 2022-07-14 2022-08-12 湖南四方天箭信息科技有限公司 军事实体链接方法、装置、计算机设备和存储介质
CN115221871A (zh) * 2022-06-24 2022-10-21 毕开龙 多特征融合的英文科技文献关键词提取方法
CN115293158A (zh) * 2022-06-30 2022-11-04 撼地数智(重庆)科技有限公司 基于标签辅助的消歧方法及装置
CN111191445B (zh) * 2018-11-15 2024-04-19 京东科技控股股份有限公司 广告文本分类方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224565A1 (en) * 2005-03-31 2006-10-05 International Business Machines Corporation System and method for disambiguating entities in a web page search
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法
US20140046653A1 (en) * 2012-08-10 2014-02-13 Xurmo Technologies Pvt. Ltd. Method and system for building entity hierarchy from big data
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统
CN107092605A (zh) * 2016-02-18 2017-08-25 北大方正集团有限公司 一种实体链接方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224565A1 (en) * 2005-03-31 2006-10-05 International Business Machines Corporation System and method for disambiguating entities in a web page search
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法
US20140046653A1 (en) * 2012-08-10 2014-02-13 Xurmo Technologies Pvt. Ltd. Method and system for building entity hierarchy from big data
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统
CN107092605A (zh) * 2016-02-18 2017-08-25 北大方正集团有限公司 一种实体链接方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IVAN LOPEZ-AREVALO等: "Improving selection of synsets from WordNet for domain-specific", 《COMPUTER SPEECH AND LANGUAGE》 *
曾琦等: "一种多义词词向量计算方法", 《小型微型计算机系统》 *
汪沛等: "一种结合词向量和图模型的特定领域实体消歧方法", 《智能系统学报》 *

Cited By (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415901A (zh) * 2018-02-07 2018-08-17 大连理工大学 一种基于词向量和上下文信息的短文本主题模型
CN108763189A (zh) * 2018-04-12 2018-11-06 武汉斗鱼网络科技有限公司 一种直播间内容标签权重计算方法、装置及电子设备
CN108763189B (zh) * 2018-04-12 2022-03-25 武汉斗鱼网络科技有限公司 一种直播间内容标签权重计算方法、装置及电子设备
CN108763192A (zh) * 2018-04-18 2018-11-06 达而观信息科技(上海)有限公司 用于文本处理的实体关系抽取方法及装置
CN108763192B (zh) * 2018-04-18 2022-04-19 达而观信息科技(上海)有限公司 用于文本处理的实体关系抽取方法及装置
CN108763333B (zh) * 2018-05-11 2022-05-17 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN108920497A (zh) * 2018-05-23 2018-11-30 北京奇艺世纪科技有限公司 一种人机交互方法及装置
CN108874772A (zh) * 2018-05-25 2018-11-23 太原理工大学 一种多义词词向量消歧方法
CN108763487A (zh) * 2018-05-30 2018-11-06 华南理工大学 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN110309316B (zh) * 2018-06-08 2022-10-25 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN110309316A (zh) * 2018-06-08 2019-10-08 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN108921213B (zh) * 2018-06-28 2021-06-22 国信优易数据股份有限公司 一种实体分类模型训练方法及装置
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN110162769B (zh) * 2018-07-05 2024-01-02 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN110162769A (zh) * 2018-07-05 2019-08-23 腾讯科技(深圳)有限公司 文本主题输出方法和装置、存储介质及电子装置
CN109033307A (zh) * 2018-07-17 2018-12-18 华北水利水电大学 基于crp聚类的词语多原型向量表示及词义消歧方法
CN108920466A (zh) * 2018-07-27 2018-11-30 杭州电子科技大学 一种基于word2vec和TextRank的科技文本关键词提取方法
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN109325230A (zh) * 2018-09-21 2019-02-12 广西师范大学 一种基于维基百科双向链接的词语语义相关度判断方法
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法
CN111191445B (zh) * 2018-11-15 2024-04-19 京东科技控股股份有限公司 广告文本分类方法及装置
CN111191445A (zh) * 2018-11-15 2020-05-22 北京京东金融科技控股有限公司 广告文本分类方法及装置
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和系统
CN109359303B (zh) * 2018-12-10 2023-04-07 枣庄学院 一种基于图模型的词义消歧方法和系统
CN109635297B (zh) * 2018-12-11 2022-01-04 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN109635297A (zh) * 2018-12-11 2019-04-16 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN110232185A (zh) * 2019-01-07 2019-09-13 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN110232185B (zh) * 2019-01-07 2023-09-19 华南理工大学 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN109902144A (zh) * 2019-01-11 2019-06-18 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN109902144B (zh) * 2019-01-11 2020-01-31 杭州电子科技大学 一种基于改进wmd算法的实体对齐方法
CN109933788A (zh) * 2019-02-14 2019-06-25 北京百度网讯科技有限公司 类型确定方法、装置、设备和介质
CN109961091A (zh) * 2019-03-01 2019-07-02 杭州叙简科技股份有限公司 一种自学习的事故文字标签与摘要生成系统及其方法
CN110196907A (zh) * 2019-04-15 2019-09-03 中国石油大学(华东) 一种多层次文本聚类方法和装置
CN110110094B (zh) * 2019-04-22 2022-07-01 华侨大学 基于社交网络知识图谱的跨网络人物关联方法
CN110110094A (zh) * 2019-04-22 2019-08-09 华侨大学 基于社交网络知识图谱的跨网络人物关联方法
CN111966780A (zh) * 2019-05-20 2020-11-20 天津科技大学 一种基于词向量建模和信息检索的回顾性队列选择方法及装置
CN110134965A (zh) * 2019-05-21 2019-08-16 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110134965B (zh) * 2019-05-21 2023-08-18 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110362723B (zh) * 2019-05-31 2022-06-21 平安国际智慧城市科技股份有限公司 一种题目特征表示方法、装置及存储介质
CN110362723A (zh) * 2019-05-31 2019-10-22 平安国际智慧城市科技股份有限公司 一种题目特征表示方法、装置及存储介质
CN110532541A (zh) * 2019-06-11 2019-12-03 福建奇点时空数字科技有限公司 一种基于实体相似度计算的本体实体消歧方法
CN110457711A (zh) * 2019-08-20 2019-11-15 电子科技大学 一种基于主题词的社交媒体事件主题识别方法
CN110457711B (zh) * 2019-08-20 2021-02-02 电子科技大学 一种基于主题词的社交媒体事件主题识别方法
CN110580294B (zh) * 2019-09-11 2022-11-29 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110580294A (zh) * 2019-09-11 2019-12-17 腾讯科技(深圳)有限公司 实体融合方法、装置、设备及存储介质
CN110717015A (zh) * 2019-10-10 2020-01-21 大连理工大学 一种基于神经网络的多义词识别方法
CN111079429A (zh) * 2019-10-15 2020-04-28 平安科技(深圳)有限公司 基于意图识别模型的实体消歧方法、装置和计算机设备
CN111079429B (zh) * 2019-10-15 2022-03-18 平安科技(深圳)有限公司 基于意图识别模型的实体消歧方法、装置和计算机设备
JP2022532451A (ja) * 2019-10-28 2022-07-14 南京師範大学 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法
JP7228946B2 (ja) 2019-10-28 2023-02-27 南京師範大学 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法
CN110826331B (zh) * 2019-10-28 2023-04-18 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN110826331A (zh) * 2019-10-28 2020-02-21 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
WO2021082370A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于百科知识库和词向量的中文地名语义消歧方法
CN112825112A (zh) * 2019-11-20 2021-05-21 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机终端
CN110837568A (zh) * 2019-11-26 2020-02-25 精硕科技(北京)股份有限公司 实体对齐方法及装置、电子设备、存储介质
WO2021120174A1 (zh) * 2019-12-20 2021-06-24 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
CN113010633A (zh) * 2019-12-20 2021-06-22 海信视像科技股份有限公司 一种信息交互方法及设备
CN113010633B (zh) * 2019-12-20 2023-01-31 海信视像科技股份有限公司 一种信息交互方法及设备
CN111368532A (zh) * 2020-03-18 2020-07-03 昆明理工大学 一种基于lda的主题词嵌入消歧方法及系统
CN111368532B (zh) * 2020-03-18 2022-12-09 昆明理工大学 一种基于lda的主题词嵌入消歧方法及系统
CN111428031A (zh) * 2020-03-20 2020-07-17 电子科技大学 一种融合浅层语义信息的图模型过滤方法
CN111428031B (zh) * 2020-03-20 2023-07-07 电子科技大学 一种融合浅层语义信息的图模型过滤方法
CN111507098A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 多义词识别方法、装置、电子设备及计算机可读存储介质
CN111507098B (zh) * 2020-04-17 2023-03-21 腾讯科技(深圳)有限公司 多义词识别方法、装置、电子设备及计算机可读存储介质
CN111583072B (zh) * 2020-04-27 2023-11-07 北京北大软件工程股份有限公司 法条上下位关系判断方法及处理终端
CN111583072A (zh) * 2020-04-27 2020-08-25 北京北大软件工程股份有限公司 法条上下位关系判断方法及处理终端
CN111353303B (zh) * 2020-05-25 2020-08-25 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN111353303A (zh) * 2020-05-25 2020-06-30 腾讯科技(深圳)有限公司 词向量构建方法、装置、电子设备及存储介质
CN111831802A (zh) * 2020-06-04 2020-10-27 北京航空航天大学 一种基于lda主题模型的城市领域知识检测系统及方法
CN111831802B (zh) * 2020-06-04 2023-05-26 北京航空航天大学 一种基于lda主题模型的城市领域知识检测系统及方法
KR20210152924A (ko) * 2020-06-09 2021-12-16 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 엔티티 연결 방법, 장치, 기기 및 저장 매체
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111783418A (zh) * 2020-06-09 2020-10-16 北京北大软件工程股份有限公司 一种中文词义表示学习方法及装置
CN111783418B (zh) * 2020-06-09 2024-04-05 北京北大软件工程股份有限公司 一种中文词义表示学习方法及装置
US11727216B2 (en) 2020-06-09 2023-08-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device, and storage medium for linking entity
KR102448129B1 (ko) * 2020-06-09 2022-09-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 엔티티 연결 방법, 장치, 기기 및 저장 매체
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112069826B (zh) * 2020-07-15 2021-12-07 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN111967263A (zh) * 2020-07-30 2020-11-20 北京明略软件系统有限公司 一种基于实体话题关联度的领域命名实体去噪方法及系统
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN112215008B (zh) * 2020-10-23 2024-04-16 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112215008A (zh) * 2020-10-23 2021-01-12 中国平安人寿保险股份有限公司 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112307134A (zh) * 2020-10-30 2021-02-02 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备及存储介质
CN112307134B (zh) * 2020-10-30 2024-02-06 北京百度网讯科技有限公司 实体信息处理方法、装置、电子设备及存储介质
CN112434169A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种知识图谱的构建方法及其系统和计算机设备
CN112434169B (zh) * 2020-11-13 2024-03-15 海创汇科技创业发展股份有限公司 一种知识图谱的构建方法及其系统和计算机设备
CN112612889A (zh) * 2020-12-28 2021-04-06 中科院计算技术研究所大数据研究院 一种多语种文献分类方法、装置及存储介质
CN112612892A (zh) * 2020-12-29 2021-04-06 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN112612892B (zh) * 2020-12-29 2022-11-01 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN112580355A (zh) * 2020-12-30 2021-03-30 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN113221561A (zh) * 2021-01-27 2021-08-06 北京云天互联科技有限公司 基于nlp结合上下文的实体识别方法
CN112861990B (zh) * 2021-03-05 2022-11-04 电子科技大学 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN112861990A (zh) * 2021-03-05 2021-05-28 电子科技大学 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN113051917A (zh) * 2021-04-23 2021-06-29 东南大学 一种基于时间窗口文本相似度的文档隐式时间推断方法
CN113032584A (zh) * 2021-05-27 2021-06-25 北京明略软件系统有限公司 一种实体关联方法、装置、电子设备及存储介质
CN113407717B (zh) * 2021-05-28 2022-12-20 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN113407717A (zh) * 2021-05-28 2021-09-17 数库(上海)科技有限公司 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN113283236B (zh) * 2021-05-31 2022-07-19 北京邮电大学 一种复杂中文文本中的实体消歧方法
CN113283236A (zh) * 2021-05-31 2021-08-20 北京邮电大学 一种复杂中文文本中的实体消歧方法
CN113947087A (zh) * 2021-12-20 2022-01-18 太极计算机股份有限公司 一种基于标签的关系构建方法、装置、电子设备及存储介质
CN115221871B (zh) * 2022-06-24 2024-02-20 毕开龙 多特征融合的英文科技文献关键词提取方法
CN115221871A (zh) * 2022-06-24 2022-10-21 毕开龙 多特征融合的英文科技文献关键词提取方法
CN115293158B (zh) * 2022-06-30 2024-02-02 撼地数智(重庆)科技有限公司 基于标签辅助的消歧方法及装置
CN115293158A (zh) * 2022-06-30 2022-11-04 撼地数智(重庆)科技有限公司 基于标签辅助的消歧方法及装置
CN114896980A (zh) * 2022-07-14 2022-08-12 湖南四方天箭信息科技有限公司 军事实体链接方法、装置、计算机设备和存储介质
CN114896980B (zh) * 2022-07-14 2022-10-28 湖南四方天箭信息科技有限公司 军事实体链接方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN107861939B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN101470732B (zh) 一种辅助词库的生成方法和装置
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN108959258B (zh) 一种基于表示学习的特定领域集成实体链接方法
CN106708966A (zh) 基于相似度计算的垃圾评论检测方法
CN103324700B (zh) 一种基于Web信息的本体概念属性学习方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
CN101609450A (zh) 基于训练集的网页分类方法
CN101231634A (zh) 一种多文档自动文摘方法
CN104199965A (zh) 一种语义信息检索方法
CN109271640B (zh) 文本信息的地域属性识别方法及装置、电子设备
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN108388914A (zh) 一种基于语义计算的分类器构建方法、分类器
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN106095791A (zh) 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yu Zhengtao

Inventor after: Ma Xiaojun

Inventor after: Guo Jianyi

Inventor after: Chen Wei

Inventor after: Zhang Zhikun

Inventor before: Guo Jianyi

Inventor before: Ma Xiaojun

Inventor before: Yu Zhengtao

Inventor before: Chen Wei

Inventor before: Zhang Zhikun

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant