CN104008301A - 一种领域概念层次结构自动构建方法 - Google Patents

一种领域概念层次结构自动构建方法 Download PDF

Info

Publication number
CN104008301A
CN104008301A CN201410252806.XA CN201410252806A CN104008301A CN 104008301 A CN104008301 A CN 104008301A CN 201410252806 A CN201410252806 A CN 201410252806A CN 104008301 A CN104008301 A CN 104008301A
Authority
CN
China
Prior art keywords
concept
field
relation
matrix
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410252806.XA
Other languages
English (en)
Other versions
CN104008301B (zh
Inventor
吕钊
何立群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201410252806.XA priority Critical patent/CN104008301B/zh
Publication of CN104008301A publication Critical patent/CN104008301A/zh
Application granted granted Critical
Publication of CN104008301B publication Critical patent/CN104008301B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种领域概念层次结构自动构建的方法,该方法包括:首先抽取领域概念间关系;然后根据概念的共现频次和关系构建关系矩阵;再使用融合聚类算法对领域概念聚类,得到稳定的概念簇;最后使用BRT-Guass算法对簇进行融合,得到领域概念层次结构。本发明降低了层次结构构建的时间复杂度,能获取较全面的领域概念词对集,且具有较为理想的准确率及召回率。

Description

一种领域概念层次结构自动构建方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种领域概念层次结构自动构建方法。
背景技术
领域概念是人类在认知过程中对领域对象的抽象描述,是领域知识在文本中的一种表现形式,并随着领域的发展变化,形成独立的知识单元。领域概念层次结构自动构建技术的研究就是如何利用计算机从领域文本中自动地抽取领域概念和概念间关系,进一步根据关系将领域概念组织起来形成层次结构。领域概念层次结构在人工智能、自然语言处理和信息检索等应用领域有着重要的作用,实现领域概念层次结构的自动构建具有重要的意义。
现有的概念层次结构自动构建方法主要分为:概念抽取、概念间关系获取和层次结构自动构建。当前很多研究方法都是面向通用知识层次结构构建,较少针对特定领域。现有研究主要存在以下问题:(1)领域概念抽取困难,领域概念中包含了较多未登录词(新词或复合词),增加了领域概念的抽取难度;(2)领域概念间关系抽取准确率低,现有知识库没有覆盖领域概念间的关系;(3)概念层次结构自动构建算法效率有限:现有方法较多基于聚类算法,这些方法只能反映出概念的层次类别,而不能很好地表示出概念间关系层次结构。
发明内容
本发明的目的是针对现有技术不足而提供的一种领域概念层次结构自动构建方法(Domain Concept Taxonomy Automatic Construct Algorithm,DoCTA),该方法以领域文本作为研究对象,通过对领域概念特征的研究,解决领域概念间关系自动抽取和层次结构自动构建这两个技术难点。为用户提供了更好的可视化平台去了解领域结构,对实现领域在线问答有很好的帮助。
实现本发明目的的具体技术方案如下:
一种领域概念层次结构自动构建的方法,该方法包括以下具体步骤:
a、关系抽取
通过基于句法树和基于规则的方法获取领域概念间关系;
b、矩阵生成
进行领域概念词频统计,选取概念间关系与共现频次作为概念间的特征构建概念矩阵;
c、聚类融合
对矩阵设置不同的初始值,使用基于K-means的算法融合聚类;
d、层次构建
对聚类结果稳定的簇,使用BRT-Guass算法构建领域概念层次结构。
所述步骤a中基于句法树和基于规则的方法获取领域概念间关系,具体包括:
ⅰ、通过领域概念和领域文档得到领域语料;
ⅱ、根据制定的规则进行匹配,获取相应的概念关系,所述概念关系为并列关系、同仪关系和实例关系;
ⅲ、对领域语料进行依存分析得到依存结构;
ⅳ、对依存结构进行句法分析,获取上下位和整体部分关系;
ⅴ、将得到的每一个关系以一对概念和概念间的关系这种形式表示,组成关系词对集。
所述步骤b中选取概念间关系与共现频次作为概念间的特征构建概念矩阵,具体包括:
ⅰ、选取领域概念词集合{M}和规则提取的所有集合{N},然后将{M}中每个词与{N}中的每个词进行组合,就有M*N个词对,构成一个M×N的矩阵,矩阵的取值为矩阵中每个概念词对的概念关系,表示该词对的关联程度;
ⅱ、对M*N个词对按照上下文的共现频率和词对间的概念关系,按照下式对valueij进行赋值:
valueij=α freq(keywordi)P(termj|keywordi)+βR(termj,keywordi)     (1)
P ( term | keyword ) = n ( term , keyword ) n ( term ) - - - ( 2 )
其中n(term,keyword)表示概念和关键字在领域文本的某句话里共同出现的次数,n(term)表示概念在领域文本中出现的次数;R(termj,keywordi)表示领域概念的关系;freq(keywordi)表示关键字在领域文本中出现的次数;P(termj|keywordi)表示在关键字出现的情况下概念出现的概率;α和β是衡量关键字在领域背景概念的控制参数,且α+β=1;如果keyword与term没有在同一句话出现过,将对应的value值设为1;
ⅲ、对矩阵中的valueij进行优化,即如果{N}中存在同义词,那么{M}中的每个词相对这个两个词的值相等。
所述步骤c中对矩阵设置不同的初始值,使用基于K-means的算法融合聚类,具体包括:
ⅰ、根据公式(1)对valueij赋值,得到一个初始矩阵;
ⅱ、使用K-Means进行聚类,得到聚类结果;
ⅲ、通过调整公式(1)中的参数α与β,得到新的矩阵,接着聚类,如此迭代n次,n=10-20;
ⅳ、对步骤ⅲ得到的聚类结果簇进行融合,获取聚类稳定的结果。
所述步骤d中使用BRT-Guass算法,具体包括:
先验概率采用了高斯分布,多相项式的似然估如公式如下:
f ( X | θ ) = m ! Π i n x i ! Π i = 1 n p ( x i | θ ) = m ! Π i n x i ! Π i = 1 n [ θ j ] x j - - - ( 3 )
层次构建的边缘概率公式如下:
f ( D ) = Π i = 0 d ∫ f ( D i | θ i ) f ( θ i | u i , δ i ) dθ - - - ( 4 )
f ( D ) = Π i n m ! Π j t x ij ! · ∫ Π j t p ( x ij | θ j ) f ( θ i | μ i , δ i ) dθ - - - ( 5 )
其中n表示领域概念个数,t表示本文选取的主题概念的个数,xij是概念i在主题概念j下的特征值,xi表示主题概念的频次。其中μ是均值,δ为方差,是由最大释然估计方法求出。
对三种融合方式:连接,吸收和归并,采用比率评分Score(D|T)来决策选择哪种融合方式,其公式如下:
p ( D | T ) = π T f ( D ) + ( 1 - π T ) Π T i ∈ ch ( T ) p ( leaves ( T i ) | T i ) ) - - - ( 6 )
π T = 1 - ( 1 - r ) n T - 1 - - - ( 7 )
Score ( D | T ) = p ( D m | T m ) p ( D i | T i ) p ( D j | T j ) - - - ( 8 )
其中D=leaves(T)表示所有数据点,T表示层次结构,πT表示T的叶子节点保存在一个分区内且不被分离的概率。
所述步骤d中构建领域概念层次结构,具体包括:
以簇为单位对概念进行融合;选择概念簇A与概念簇B,分别计算A和B在公式(3)、(4)、(5)连接,吸收和归并三种融合方式下得到的概念层次的概率,然后选择概率最大的作为A和B融合的结果。
最终的融合结果就是层次结构。
所述步骤a的ⅱ中制定的规则如下:
表1规则示例表
序号 规则模型 概念词对 关系类型
Rule1 后缀模式:***C0 (***C0,C0) 实例关系
Rule2 前缀模式:C0*** (C0***,C0) 实例关系
Rule3 C0<又称为|即是|也叫做|简称>C1 (C0,C1) 同义关系
Rule4 C1<是|属于>C0的一<种|类> (C0,C1) 上下位关系
Rule5 C1<是一种>C0 (C0,C1) 上下位关系
Rule6 C0<[主要]分为|包含|包括|有>C1…Cn (C0,C1…Cn) 整体部分关系
Rule7 C0<[主要]由>C1…Cn<等组成|构成> (C0,C1…Cn) 整体部分关系
Rule8 C0,<例如|如>C1…Cn (C0,C1…Cn) 实例关系
Rule9 <可以将>C0<分为|划分为>C1..Cn (C0,C1…Cn) 整体部分关系
Rule10 C0<的|,><特别是|>C1…Cn (C0,C1…Cn) 实例关系
Rule11 C0、C1…<[和|与|加上]>Cn<等> (C0,C1…Cn) 并列关系
Rule12 C0<推出了|增加了>C1…Cn (C1…Cn,C0) 实例关系
本发明分析了领域概念的构词特征以及在领域文档中的句法特征,给出了领域概念间存在的五种关系,并且制定了适合领域概念的关系抽取规则。
提出了将句法树与基于规则相结合的方法识别领域概念间关系。与以往技术相比,该方法充分考虑了领域概念的特点,不仅将低频领域概念考虑在内,能准确解析新概念与原有概念的关系,而且能解析复合概念与单词型概念间的关系,提高了概念间关系的查全率和查准率。
此外,本发明用改进的BRT算法—BRT-Guass来构建领域概念层次结构。该算法在初始化数据时同时考虑了领域概念间的概念特征与共现特征,对领域概念节点聚类后,通过计算簇和簇在吸收、归并和连接三种合并方式下的融合概率,选择概率最大的合并方式进行融合。该算法是针对聚类稳定的结果簇做操作,降低了时间复杂度。
本发明为用户提供了更好的可视化平台去了解领域结构,对实现领域在线问答有很好的帮助。
附图说明
图1为本发明流程图;
图2为本发明多策略的领域关系抽取流程图;
图3为本发明在移动领域的概念层次展示图。
具体实施方式
为了进一步说明本发明的原理和步骤,现结合附图对本发明进行详细描述。
1)、领域概念间关系识别
首先通过领域概念和领域文档得到领域语料;然后根据制定的规则进行匹配,获取相应的概念关系;再对领域概念句进行句法分析,获取上下位和整体部分关系;最后将得到的每一个关系以(概念1,关系,概念2)形式表示,加到关系词对集中。接着引入了基于规则匹配的方法,提高对于领域概念间关系的查准率和查全率。最后对概念出现的频次和概念与概念共现的频次进行统计。
2)、构建概念矩阵
第一步,选取领域概念词集合{M}和规则提取的所有集合{N},然后将{M}中每个词与{N}中的每个词进行组合,这样就有M*N个词对,每个矩阵点表示该词对的关联程度。
第二步,对M*N个词对按照上下文的共现频率和已获取的关系,按照下式对valueij进行赋值。
valuei=αfreq(keywordi)P(termj|keywordi)+βR(termj,keywordi)     (1)
其中n(term,keyword)表示概念和关键字在领域文本的某句话里共同出现的次数,n(term)表示概念在领域文本中出现的次数。R(termj,keywordi)表示领域概念的关系。α和β是衡量关键字在领域背景概念的控制参数,且α+β=1。如果keyword与term没有在同一句话出现过,将对应的value值设为1。
第三步,对矩阵中的valueij进行优化,如果{N}中存在同义词,那么{M}中的每个词相对这个两个词的值应该相等。
本发明采用概念词对在大规模语料库出现的频次和概念间的关系来表示矩阵,通过此法将领域的关键词转化为相对于主题概念的矩阵,为下一步实现概念层次构建做好准备工作。1)、基于K-means的算法融合聚类
首先对valueij赋值,得到一个初始矩阵;然后使用K-Means进行聚类,得到聚类结果;再通过调整参数α与β,可以得到新的矩阵,接着聚类,如此迭代n次;最后对聚类结果簇进行融合,获取聚类比较稳定的结果。
其算法如下:
1.初始化概念矩阵Co-assoc
2.执行K-means算法
3.如果关键词对(A,B)在分区集合的同一个簇里
4.矩阵co_assoc(A,B)=co_assoc(A,B)+1;
5.重新改变参数值,得到新的概念矩阵;
6.当X>0,重复第1-5步,X--;
7.循环结束,得到最后的矩阵co_assoc
8.如果则数据点i,j分到一个簇内
9.剩余的数据点则每个独自成为一个簇得到一致的数据分区集
在算法中,X为聚类次数,值设为X/2。
2)、层次自动构建
为了更好的实现层次自动构建,本发明引入BRT算法,并对它进行了改进。
其中多项式分布能很好的反映概念间的关系,而先验概率采用了高斯分布,多相项式的似然估计如公式
f ( X | &theta; ) = m ! &Pi; i n x i ! &Pi; i = 1 n p ( x i | &theta; ) = m ! &Pi; i n x i ! &Pi; i = 1 n [ &theta; j ] x j - - - ( 3 )
层次构建的边缘概率公式:
f ( D ) = &Pi; i = 0 d &Integral; f ( D i | &theta; i ) f ( &theta; i | u i , &delta; i ) d&theta; - - - ( 4 )
f ( D ) = = &Pi; i n m ! &Pi; j t x ij ! &CenterDot; &Integral; &Pi; j t p ( x ij | &theta; j ) f ( &theta; i | &mu; i , &delta; i ) d&theta; - - - ( 5 )
其中n表示领域概念个数,t表示本文选取的主题概念的个数,xij是概念i在主题概念j下的特征值,xi表示主题概念的频次。其中μ是均值,δ为方差,是由最大释然估计方法求出。
对三种融合方式,采用比率评分Score(D|T)来决策选择哪种融合方式,其公式如下:
Score ( D | T ) = p ( D m | T m ) p ( D i | T i ) p ( D j | T j ) - - - ( 8 )
在K-means融合聚类后,可以得到比较稳定一致的聚类簇,本发明以簇为单位对概念进行融合。其主要步骤是:选择概念簇A与概念簇B,分别计算A和B在三种融合方式下得到的概念层次的概率,然后选择概率最大的作为A和B融合的结果。
实施例
图1示出了本发明提供的领域概念层次结构自动构建流程图。
首先从数据堂和百度百科等其他网站抓取移动领域的文档和概念,作为领域文档集合领域概念集,数据完全非结构化。
步骤S101,S102分别是基于句法树和基于规则进行领域概念间的关系识别,具体的流程如图2所示。首先通过领域概念和领域文档得到领域语料;然后根据制定的规则进行匹配,获取相应的概念关系;再对领域概念句进行句法分析,获取上下位和整体部分关系;最后将得到的每一个关系以(概念1,关系,概念2)形式表示,加到关系词对集中。句法树分析的结果一般表示为树结构,树的节点表示句子中的语法单元,而树的分叉表示两个或者多个语法单元组成一个新的、跨度更大的语法单元。例如对“神州行幸福卡是一款专为老年客户设计的具有月费低,亲情号码通话优惠的资费套餐。”进行句法分析,该句中包含移动领域的“神州行幸福卡”、“亲情号码”、“资费套餐”三个领域词。通过句法分析可以得出“神州行幸福卡”是一种“资费套餐”,结果比较准确。但是“神州行”与“神州行幸福卡”的关系通过此方法并没有识别出来,于是在上述基础上进行基于规则匹配的方法进行关系识别。规则匹配的部分结果如表2所示:
表2基于规则获取的部分概念间关系词对表
从表中得出“神州行”和“神州行幸福卡”是实例关系,补充了基于句法树进行关系识别的结果。
步骤S103是对领域文档集进行领域概念词频统计,将统计结果结合S101得到的领域概念关系词对集合S102得到的共现特征和关系特征,进行步骤S104构建概念矩阵。此步骤将领域的关键词转化为相对于主题概念的矩阵,为下一步实现概念层次构建做好准备工作。
步骤105是对构建好的矩阵进行Kmeans聚类,得到聚类结果,再通过调整参数迭代聚类n次;最后对聚类结果簇进行融合,得到概念一致簇。
步骤106是用改进的BRT-Guass算法构建领域层次结构,得到移动领域的概念层次结构,部分结果如图3所示。
综上所述,针对移动领域,可以利用本发明自动构建该领域的概念层次结构,达到了本发明的目的。

Claims (6)

1.一种领域概念层次结构自动构建的方法,其特征在于该方法包括以下具体步骤:
a、关系抽取
通过基于句法树和基于规则的方法获取领域概念间关系;
b、矩阵生成
进行领域概念词频统计,选取概念间关系与共现频次作为概念间的特征构建概念矩阵;
c、聚类融合
对矩阵设置不同的初始值,使用基于K-means的算法融合聚类;
d、层次构建
对聚类结果稳定的簇,使用BRT-Guass算法构建领域概念层次结构。
2.根据权利要求1所述的方法,其特征在于所述步骤a中基于句法树和基于规则的方法获取领域概念间关系,具体包括:
ⅰ、通过领域概念和领域文档得到领域语料;
ⅱ、根据制定的规则进行匹配,获取相应的概念关系,所述概念关系为并列关系、同仪关系和实例关系;
ⅲ、对领域语料进行依存分析得到依存结构;
ⅳ、对依存结构进行句法分析,获取上下位和整体部分关系;
ⅴ、将得到的每一个关系以一对概念和概念间的关系这种形式表示,组成关系词对集。
3.根据权利要求1所述的方法,其特征在于所述步骤b中选取概念间关系与共现频次作为概念间的特征构建概念矩阵,具体包括:
ⅰ、选取领域概念词集合{M}和规则提取的所有集合{N},然后将{M}中每个词与{N}中的每个词进行组合,就有M*N个词对,构成一个M×N的矩阵,矩阵的取值为矩阵中每个概念词对的概念关系,表示该词对的关联程度;
ⅱ、对M*N个词对按照上下文的共现频率和词对间的概念关系,按照下式对valueij进行赋值:
valueij=α freq(keywordi)P(termj|keywordi)+βR(termj,keywordi)     (1)
P ( term | keyword ) = n ( term , keyword ) n ( term ) - - - ( 2 )
其中n(term,keyword)表示概念和关键字在领域文本的某句话里共同出现的次数,n(term)表示概念在领域文本中出现的次数;R(termj,keywordi)表示领域概念的关系;freq(keywordi)表示关键字在领域文本中出现的次数;P(termj|keywordi)表示在关键字出现的情况下概念出现的概率;α和β是衡量关键字在领域背景概念的控制参数,且α+β=1;如果keyword与term没有在同一句话出现过,将对应的value值设为1;
ⅲ、对矩阵中的valueij进行优化,即如果{N}中存在同义词,那么{M}中的每个词相对这个两个词的值相等。
4.根据权利要求1所述的方法,其特征在于所述步骤c对矩阵设置不同的初始值,使用基于K-means的算法融合聚类,具体包括:
ⅰ、根据公式(1)对valueij赋值,得到一个初始矩阵;
ⅱ、使用K-Means进行聚类,得到聚类结果;
ⅲ、通过调整公式(1)中的参数α与β,得到新的矩阵,接着聚类,如此迭代n次,n=10-20;
ⅳ、对步骤c得到的聚类结果簇进行融合,获取聚类稳定的结果。
5.根据权利要求1所述的方法,其特征在于所述步骤d中使用BRT-Guass算法,具体包括:
先验概率采用了高斯分布,多相项式的似然估如公式如下:
f ( X | &theta; ) = m ! &Pi; i n x i ! &Pi; i = 1 n p ( x i | &theta; ) = m ! &Pi; i n x i ! &Pi; i = 1 n [ &theta; j ] x j - - - ( 3 )
层次构建的边缘概率公式如下:
f ( D ) = &Pi; i = 0 d &Integral; f ( D i | &theta; i ) f ( &theta; i | u i , &delta; i ) d&theta; - - - ( 4 )
f ( D ) = &Pi; i n m ! &Pi; j t x ij ! &CenterDot; &Integral; &Pi; j t p ( x ij | &theta; j ) f ( &theta; i | &mu; i , &delta; i ) d&theta; - - - ( 5 )
其中n表示领域概念个数,t表示本文选取的主题概念的个数,xij是概念i在主题概念j下的特征值,xi表示主题概念的频次。其中μ是均值,δ为方差,是由最大释然估计方法求出;
对三种融合方式:连接,吸收和归并,采用比率评分Score(D|T)来决策选择哪种融合方式,其公式如下:
p ( D | T ) = &pi; T f ( D ) + ( 1 - &pi; T ) &Pi; T i &Element; ch ( T ) p ( leaves ( T i ) | T i ) ) - - - ( 6 )
&pi; T = 1 - ( 1 - r ) n T - 1 - - - ( 7 )
Score ( D | T ) = p ( D m | T m ) p ( D i | T i ) p ( D j | T j ) - - - ( 8 )
其中D=leaves(T)表示所有数据点,T表示层次结构,πT表示T的叶子节点保存在一个分区内且不被分离的概率。
6.根据权利要求1所述的方法,其特征在于所述步骤d中构建领域概念层次结构,具体包括:
以簇为单位对概念进行融合;选择概念簇A与概念簇B,分别计算A和B在公式(3)、(4)、(5)连接,吸收和归并三种融合方式下得到的概念层次的概率,然后选择概率最大的作为A和B融合的结果,融合结果就是层次结构。
CN201410252806.XA 2014-06-09 2014-06-09 一种领域概念层次结构自动构建方法 Expired - Fee Related CN104008301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410252806.XA CN104008301B (zh) 2014-06-09 2014-06-09 一种领域概念层次结构自动构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410252806.XA CN104008301B (zh) 2014-06-09 2014-06-09 一种领域概念层次结构自动构建方法

Publications (2)

Publication Number Publication Date
CN104008301A true CN104008301A (zh) 2014-08-27
CN104008301B CN104008301B (zh) 2017-09-26

Family

ID=51368953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410252806.XA Expired - Fee Related CN104008301B (zh) 2014-06-09 2014-06-09 一种领域概念层次结构自动构建方法

Country Status (1)

Country Link
CN (1) CN104008301B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598613A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN105912656A (zh) * 2016-04-07 2016-08-31 桂林电子科技大学 一种商品知识图谱的构建方法
CN106354715A (zh) * 2016-09-28 2017-01-25 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
CN108280221A (zh) * 2018-02-08 2018-07-13 北京百度网讯科技有限公司 关注点的层次化构建方法、装置和计算机设备
CN109977228A (zh) * 2019-03-21 2019-07-05 浙江大学 电网设备缺陷文本的信息辨识方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236641B (zh) * 2011-05-18 2015-02-04 安徽农业大学 一种农业领域概念相似度矩阵生成方法
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598613A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN104598613B (zh) * 2015-01-30 2017-11-03 百度在线网络技术(北京)有限公司 一种用于垂直领域的概念关系构建方法和装置
CN105912656A (zh) * 2016-04-07 2016-08-31 桂林电子科技大学 一种商品知识图谱的构建方法
CN105912656B (zh) * 2016-04-07 2020-03-17 桂林电子科技大学 一种商品知识图谱的构建方法
CN106354715A (zh) * 2016-09-28 2017-01-25 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
CN106354715B (zh) * 2016-09-28 2019-04-16 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
CN108280221A (zh) * 2018-02-08 2018-07-13 北京百度网讯科技有限公司 关注点的层次化构建方法、装置和计算机设备
CN108280221B (zh) * 2018-02-08 2022-04-15 北京百度网讯科技有限公司 关注点的层次化构建方法、装置和计算机设备
CN109977228A (zh) * 2019-03-21 2019-07-05 浙江大学 电网设备缺陷文本的信息辨识方法
CN109977228B (zh) * 2019-03-21 2021-01-12 浙江大学 电网设备缺陷文本的信息辨识方法

Also Published As

Publication number Publication date
CN104008301B (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN103870000B (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN108363725A (zh) 一种用户评论观点提取和观点标签生成的方法
CN102662931B (zh) 一种基于协同神经网络的语义角色标注方法
CN108287858A (zh) 自然语言的语义提取方法及装置
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN102402561B (zh) 一种搜索方法和装置
CN104008301A (zh) 一种领域概念层次结构自动构建方法
CN106570148A (zh) 一种基于卷积神经网络的属性抽取方法
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN104102630B (zh) 一种针对中文社交网络中中英文混合文本的规范方法
CN104133897B (zh) 一种基于话题影响力的微博话题溯源方法
CN102231151B (zh) 一种农业领域本体自适应学习建模方法
CN103793501A (zh) 基于社交网络的主题社团发现方法
CN107169079A (zh) 一种基于Deepdive的领域文本知识抽取方法
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN104050255A (zh) 基于联合图模型的纠错方法及系统
CN107480137A (zh) 用语义迭代提取网络突发事件并识别外延事件关系的方法
CN104881399A (zh) 基于概率软逻辑psl的事件识别方法和系统
CN105677828A (zh) 基于大数据的用户信息处理方法
CN104778157A (zh) 一种多文档摘要句的生成方法
CN103116573A (zh) 一种基于词汇注释的领域词典自动扩充方法
CN103761246B (zh) 一种基于链接网络的用户领域识别方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170926

Termination date: 20200609