CN105677873A - 基于领域知识模型的文本情报关联聚类汇集处理方法 - Google Patents
基于领域知识模型的文本情报关联聚类汇集处理方法 Download PDFInfo
- Publication number
- CN105677873A CN105677873A CN201610015796.7A CN201610015796A CN105677873A CN 105677873 A CN105677873 A CN 105677873A CN 201610015796 A CN201610015796 A CN 201610015796A CN 105677873 A CN105677873 A CN 105677873A
- Authority
- CN
- China
- Prior art keywords
- text
- vocabulary
- theme
- intelligence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Abstract
本发明提出的一种基于领域知识模型的文本情报关联聚类汇集处理方法,包括如下步骤:搜集文本情报训练集进行提取词干预处理,通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量;采用主题图模型学习训练提取目标事件的代表性特征词汇,并计算主题关联归属的权重值;然后根据训练计算的特征词汇的主题关联归属权重值,构建特征词汇集合,建立事件主题词汇模板;再通过中文命名实体识别与领域字典查询的方式提取实时接入文本的分词序列的特征词汇向量;然后计算特征词汇向量与所有目标事件知识模板的相似度距离;根据相似度阈值确定多个文本对同一主题目标事件的关联关系,利用相似度距离排序规则进行分类整编。
Description
技术领域
本发明涉及主题内容的文本关联与分类领域,即采用计算机处理技术实现自动的文本关联分析与聚类汇集处理。
背景技术
文本情报信息分析是综合信息平台的重要组成部分,随着当前情报文本信息获取的方式众多,文本情报来源日趋多样化、信息数据量逐渐庞大,给文本情报分析带来的难度也越来越大,实现文本情报的高效分析和有效分析的途径之一就是要首先进行文本情报关联与分类,将相关性高、关系紧密的文本情报聚合在一起分析。当前,文本情报分析的一般步骤有:(1)多源异构文本情报转化为半结构化的文本。(2)针对文本格式的情报进行关联聚类。(3)针对聚类后的情报文本进行统计归纳分析。其中,文本情报信息关联聚类过程面临的新问题有:
(1)传统情报文本关联方法通常把情报文本作为普通文本,按照普通领域的文本挖掘技术来处理,并没有考虑情报分析领域中存在的非常重要的经验和先验知识,导致情报文本关联结果与实际联系有较大偏差。情报领域知识通常具有重要的指导作用,情报领域中的专有名词在情报文本关联聚类/分类任务中具有非常大的权重,特殊领域专有名词之间的联系通常是特殊的,不具有普遍性,因此传统方法也无法关联出这种联系。
(2)传统文本关联方法通常以统计特征为基础,需要文本中包含有大量词汇,适合处理长文本数据,因为所含的词汇量越大,一方面统计才具有意义,另一方面统计特征较多,特征维数与样本维数不会相差太大,避免出现NP难问题。但情报文本通常属于短文本,例如报道、动向报、简讯等,短文本包含的词汇量较少,词汇的统计特征便没有意义,情报文本中有限的关键词/主题词/领域专有名词才具有重要价值。因此传统基于词汇统计特征的方法并不适合处理文本情报。
(3)传统文本关联方法利用文本词汇特征进行关联计算通常没有考虑文档主题概念层次上的关联关系,而情报分析中通常比较关心情报所描述的事件主题,需要依据情报主题对情报文本进行聚类整编,因此传统方法并没有满足情报分析整编的需求。
基于以上问题,通过引入情报领域知识和先验信息的指导,克服传统情报文本关联方法关联结果偏差大,针对性弱的问题;通过有限的领域专有名词/关键词/主题词建立模板进行主题匹配聚类的方法解决传统基于统计特征的方法需要大量词汇的问题;通过主题图模型提取情报事件主题满足情报分析整编需求。
发明内容
本发明的目的在于解决文本情报关联过程中传统方法未考虑领域知识的指导作用导致关联出的情报偏差较大、针对性较弱的问题;提供一种引入情报领域知识与先验信息下的文本情报内容关联分析,实现情报按目标事件主题类型的关联整合,提高文本情报主题归属类别的正确关联率。
为了取得上述技术效果,本发明采用的技术方案是:一种基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于包括如下步骤:步骤S1文本情报预处理:搜集文本情报训练集进行分词、词性标注,去停用词,保留名词与动词,提取词干预处理,得到文本情报训练集规范化的文本分词序列;步骤S2特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量;步骤S3事件主题词汇学习:采用主题图模型学习训练提取目标事件的代表性特征词汇,并计算其主题关联归属的权重值;步骤S4事件主题词汇模板建立:根据训练计算的特征词汇的主题关联归属权重值,构建以人物、地点、装备、行为、组织和事件名称代号类概念词汇组成的特征词汇集合,作为表达目标事件知识模板,以及与主题类别归属的索引关系,建立事件主题词汇模板;步骤S5文本情报预处理:对新接入文本情报进行步骤S1中的预处理,得到接入文本情报规范化的文本分词序列;步骤S6特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取步骤S5中实时接入文本的分词序列的特征词汇向量;步骤S7主题相似度距离计算比对:计算特征词汇向量与所有目标事件知识模板的相似度距离,并比对上述相似度距离;步骤S8情报主题分类整编:根据相似度阈值确定多个文本对同一主题目标事件的关联关系,利用相似度距离排序规则进行文本情报的分类整编。
本发明相比与现有技术具有如下有益效果。
本发明针对情报领域关注分析目标事件的特点,建立以目标要素(人物、地点、装备、行为、组织和事件名称代号)为核心的领域词典和基于领域词典的文本情报描述方法,解决的情报领域中情报文本表征不准确的问题和传统针对普通文本的表征方法描述的情报难以有效应用于目标事件分析的问题。引入情报领域中的专家知识,训练典型主题事件的主题模板,用于关联整合主题事件的情报信息,提高了针对性主题事件的关联准确度,达到了90%的正确率。
附图说明
为了更清楚地理解本发明,现将通过本发明实施方式,同时参照附图,来描述本发明,其中:
图1是本发明基于领域知识模型的文本情报关联聚类汇集处理流程图。
图2是图1中事件主题词汇模板结构图。
图3是1中主题图模型示意图。
图4是具体实施案例中实例化的几类典型事件的主题模板结构示意图。
图5是具体实施案例流程图。
具体实施方式
为了更好地理解本发明,首先介绍基于领域知识的主题模板和用于学习训练主题模板的主题图模型。
参阅图1。根据本发明,利用情报领域知识建模和主题图技术指导文本情报的关联分析,步骤S1文本情报预处理:搜集文本情报训练集进行分词、词性标注,去停用词,保留名词与动词,提取词干预处理,得到文本情报训练集规范化的文本分词序列;步骤S2特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量;步骤S3事件主题词汇学习:采用主题图模型学习训练提取目标事件的代表性特征词汇,并计算其主题关联归属的权重值;步骤S4事件主题词汇模板建立:根据训练计算的特征词汇的主题关联归属权重值,构建以人物、地点、装备、行为、组织和事件名称代号类概念词汇组成的特征词汇集合,作为表达目标事件知识模板,以及与主题类别归属的索引关系,建立事件主题词汇模板;步骤S5文本情报预处理:对新接入文本情报进行步骤S1中的预处理,得到接入文本情报规范化的文本分词序列;步骤S6特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取步骤S5中实时接入文本的分词序列的特征词汇向量;步骤S7主题相似度距离计算比对:计算特征词汇向量与所有目标事件知识模板的相似度距离,并比对上述相似度距离;步骤S8情报主题分类整编:根据相似度阈值确定多个文本对同一主题目标事件的关联关系,利用相似度距离排序规则进行文本情报的分类整编。
具体包括如下步骤:
(1)S1:文本情报预处理。搜集文本情报训练集进行预处理,得到的情报训练集规范化的文本分词序列。首先搜集开源文本情报文本作为情报文本训练集D,对训练集中每个文本情报文本进行文本分词、词性标注、去停用词,提取词干等预处理,保留名词和动词,形成训练集情报文本的文本词汇序列。
(2)S2:特征词汇向量提取。通过中文命名实体识别与领域字典查询的方式提取训练集情报文本的文本分词序列特征词汇向量:
基于情报文本事件的描述特点,对文本词汇序列dm∈D使用中文命名实体识别与领域字典查询的方式提取时间、地点、人物、装备、组织、行为、名称代号共6类概念的特征词汇,并与领域字典进行语义相似度计算来归一化特征词汇向量Wm=(Wm1,Wm2,…,WmV),即针对S1中预处理的每个文本词汇序列dm∈D做如下处理:
S21对文本词汇序列dm进行中文命名实体识别,将词汇序列进行实体分类,分别有地名、人名、时间、日期、机构名、专有名实体。对于实体类别与词汇概念类别已对应好的,直接将其作为该概念类词汇。例如人名实体直接作为人物概念词汇Wm1,地名实体直接作为地理概念词汇Wm2。
S22对于情报领域专有概念类词汇,例如装备类词汇、行为动向类词汇、组织机构类词汇,通过领域字典进行匹配提取,具体步骤如下:
S221建立基于情报文本领域知识的V类概念领域字典,以V类概念词词汇集合,例如人物概念词汇集,地理概念词汇集,装备概念词汇集,行为概念词汇集、组织概念词汇集、名称代号概念词汇集等,建立领域字典Dict={Dict1,Dict2,…,DictV},其中Ductv=Numv表示第v类概念字典Dictv中的词汇个数,字典中的词汇不能重复。
S222利用情报领域字典Dict,将文本词汇序列dm的词汇分别与第v类概念字典进行匹配。匹配方法是计算dm中的词汇wi与领域字典中的第v类概念字典Dictv中第j个词汇tj的语义相似度,语义相似度计算公式为:
其中a为常数,pij为两个词wi,tj在语义树种的语义距离。
当dm的词汇wi与第v类概念领域字典Dictv中的词汇tj的语义相似度满足阈值要求时,认为该词汇wi属于第v类概念特征词汇;按归一化要求,使用领域字典Dictv中的词汇tj代替专有名词实体wi,组成了文本情报文本dm的第v类概念特征词汇向量Wmv。
针对每类概念的领域字典,重复步骤S222,提取文本情报文本dm的特征词汇向量Wm=(Wm1,Wm2,…,WmV)。
(3)S3:事件主题词汇学习。通过主题图模型训练学习主题的特征词汇权重。利用训练集样本,通过主题图模型学习各类主题事件下字典中各词汇对应的权重向量其实现步骤如下:
S31学习各类主题事件对应第v类概念领域字典Dictv的词汇权重分布使用GibbsSampling算法学习训练步骤如下:
S311记训练集D包含目前周边热点目标事件涉及的相关主题类别为C=(C1,C2,…,CK)。取训练样本dm的第v类概念特征词汇向量m=1,2,…,M,训练样本大小为M,nv表示样本dm中v类概念词汇个数,文档中的词汇可以重复,并给定主题图模型中主题分布和词分布的超参数α和β。
S312初始时给每个文档dm的特征词汇向量Wmv中的每个词汇随机分配主题z(0),然后统计训练集中每个主题k下出现词汇t的数量以及每个文档dm下出现主题k中的词汇数量
S313针对每个文档dm中的每个词汇计算其主题更新概率根据这个概率分布为该词采样一个新的主题;其中词汇主题的更新概率计算公式为:
表示排除当前词i=(m,n)的主题分配,由其他词的主题分配和观察到的单词来计算当前词的主题的概率。其中下表i=(m,n),表示去除i的词, 表示文档dm中主题k出现的次数,表示主题k下出现词汇t的数量,但词i除外,表示文档dm中出现主题k中的词汇数量,但词i除外。
S314重复S312、S313,不断更新下一个词汇的主题,直到每个文档的主题分布和每个主题的词分布保持不变,算法即收敛停止,计算收敛时的文档-主题分布θm,k和主题-词分布其计算公式如下:
其中,表示主题k包含词汇t的个数;表示文档dm中分配给主k的词汇数。最后算法停止时输出训练出所有K类主题的主题-词分布其中第k类主题的主题-词分布为式中表示字典Dictv中的第j个词汇tj属于主题k的权重。
S32利用训练集样本,针对每类概念领域字典Dictv(v=1,2,…,V),重复S31的步骤进行训练,得到每类主题下每类概念领域字典中的词汇对应的权重向量将其按主题分量写为其中
(4)S4:事件主题词汇模板建立。具体实现步骤如下:
S41利用学习到的第k类主题事件的主题-词汇分布其中对应第v类概念领域字典Dictv中的词汇权重分布为分量进行排序,取权重向量中权重最大的前Nv个权重分量对应字典Dictv中的Nv个词汇,其中Nv的取值依据是:前Nv个权重分量和占整个权重能量和的90%以上,即满足公式:
组成第k类主题事件的主题词汇模板为:
词汇对应的权重为:
式中表示对S32中的进行排序后取前Nv个分量,排序后的权重分量为
S42、分别针对所有K类主题事件,重复S41过程,建立每类主题事件的主题词汇模板,组成各类典型事件的主题词汇模板T={T1,T2,…,TK}。
(5)S5:文本情报预处理。对接入的文本情报文本进行文本分词、词性标注、去停用词,提取词干等预处理,保留名词和动词,得到新接入情报文本的文本词汇序列dm。
(6)S6:特征词汇向量提取。通过中文命名实体识别与领域字典查询的方式提取接入情报文本分词序列的特征词汇向量。即对S5中新接入情报文本的文本词汇序列做与S2相同的处理:
S61对接入的文本词汇序列dm进行中文命名实体识别,将词汇序列进行实体分类,分别有地名、人名、时间、日期、机构名、专有名实体。对于实体类别与词汇概念类别已对应好的,直接将其作为该概念类词汇。例如人名实体直接作为人物概念词汇W1,地名实体直接作为地理概念词汇W2。
S62对于领域专有概念类词汇,例如武器装备类词汇、行为动向类词汇、组织机构类词汇,利用领域字典Dict,将接入的文本词汇序列dm的词汇分别与第v类概念字典进行匹配。匹配方法是计算dm中的词汇wi与领域字典中的第v类概念字典Dictv中第j个词汇tj的语义相似度,语义相似度计算公式为:
其中a为常数,pij为两个词wi,tj在语义树种的语义距离。
当dm的词汇wi与第v类概念领域字典Dictv中的词汇tj的语义相似度满足阈值要求时,认为该词汇wi属于第v类概念特征词汇。按归一化要求,使用领域字典Dictv中的词汇tj代替专有名词实体wi,组成了接入文本情报文本dm的第v类概念特征词汇向量Wv。
针对每类概念的领域字典,重复步骤S62,提取接入的文本情报的文本词汇序列dm的特征词汇向量W=(W1,W2,…,WV)。
(7)S7:主题相似度距离计算比对。计算情报文本特征词汇向量与主题词汇模板的相似度距离,根据主题的分类阈值,进行比对得到情报文本的主题归属类别。
计算情报文本特征词汇向量与主题模板词汇之间的相似度距离,并根据主题模型类别阈值,进行比对分类,得到情报文本的主题归属分类。
比对文本情报文本的特征词汇向量W的各概念词汇Wv与第k类主题词汇模板Tk的对应概念词汇模板Tkv,得到基于该模板的情报文本文本表征向量Xkv,比对方法为:
得到比对第k类主题词汇模板的文本表征向量Xk=(Xk1,Xk2,…,XkV),其中 使用S4中训练的第k类主题模板词汇的权重向量计算该文本与Ck类主题的相似度距离:
如果disk>threshold,则认为该文本情报文本属于第k类主题事件。
使用上述方法计算该文本情报文本与所有Ck,k=1,2,…,K类主题事件的模板之间的相似度距离,根据各类主题事件确定的阈值判断该文本情报文本是否属于该主题类别,这里允许一个文本情报文本属于多个主题类别。
(8)S8:情报主题分类整编:将所有情报文本按主题类别进行聚类,利用相似度距离进行排序整编。根据每篇文本情报文本的主题归属分类,将相同主题的文档进行聚类,并根据计算出的文档与主题模板相似度距离进行排序,实现所有文本情报文本的主题归属聚类整编。
参阅图2所示主题词汇模板设计为三层,顶层为情报文本数据层,第二层为情报文本的主题层,将顶层的情报文本数据划分为多个主题类别,第三层为主题的词汇模板层,每个主题的词汇模板由多种概念类的词汇来组成,这些词汇将这样来生成:通过训练数据学习领域字典中各类概念词汇的权重,选取权重较高的词汇作为此类概念的模板词汇。
参阅图3。在所示主题图模型中,每个结点表示一个随机变量,箭头表示变量之间的依赖关系,矩形表示变量的重复,矩形中数字表示重复次数。隐藏变量对应的结点是单环,观测变量wm,n对应的结点是双环。LDA是一种生成模型,它表示生成文档中的一个词汇的过程,认为某篇文档dm中的第n个词wm,n是这样生成的:首先从狄利克雷分布α中取样生成文档dm的文档-主题分布然后从文档-主题分布中取样生成文档dm的第n个词的主题zm,n,然后再在这个主题zm,n下,从狄利克雷分布β中取样生成主题zm,n对应的主题-词汇分布中采样生成一个词语即为wm,n,不断重复这个随机生成过程,直到生成整篇文章dm以及整个训练集的文章。基于这个思想,反过来可以利用观察到的词汇wm,n和超参数(根据经验给定的先验参数)α和β,估计学习其他未知变量zm,n,和
参阅图4。在具体实施案例实例化的几类典型事件的主题模板结构中,顶层是文本情报文本数据索引,第二层是依据军事情报领域知识以及特定区域发生的事件或特定活动平台目标事件抽象出的五类主题,分别某主题1事件、某主题2事件、某区域主题3事件、某主题4事件、某平台活动事件5。第三层是依据军事情报文本分析领域中通常从事件发生的时间、发生的地点、参与的人物、使用的武器装备、发生的军事行为、所属的组织机构、事件的名称代号等概念描述每类主题事件,建立了地点、人物、装备、行为、组织、名称代号共六类概念的词汇模板组成每个主题的词汇模板。
本发明具体实施方式分为两步:(一)离线数据准备:包括用于训练和测试的情报文本素材数据整理、领域字典建立和主题模板建立。
搜集网上开源军事新闻报道,整理形成文本情报文本素材。如主题模板示例:主题包括某主题1事件852篇、某主题2事件600篇、某区域主题3事件420篇、某主题4事件432篇、某平台5活动事件524篇。将文本情报文本分成两个集合,分别作为训练集D和测试集T。其中训练集D中包含552篇主题1事件、400篇主题2事件、220篇主题3事件、232篇主题4事件、324篇平台5活动事件,剩下的作为测试集T。对训练集和测试集情报文本均进行类别标注C={C1,C2,C3,C4,C5},其中C1表示主题1事件,C2表示主题2事件,C3表示主题3事件,C4表示主题4事件,C5表示平台5活动事件。
针对情报文本采用以下几类概念描述事件,建立领域字典Dict:Dict1={人物概念词汇字典}表示描述事件中相关的人物,Dict2={地理概念词汇字典}表示描述事件发生地点,Dict3={装备概念词汇字典}表示描述事件涉及的相关军事装备,Dict4={行为概念词汇字典}表示描述事件中目标的行为动向,Dict5={组织概念词汇字典}表示描述事件中目标所属部队、国家机构组织等,Dict6={名称代号概念词汇字典}表示事件的名称代号、简称等。
使用领域字典和训练集D学习训练出各个主题事件的主题词汇模板及词汇权重向量。
参阅图5所示为在线实施步骤的具体实施案例流程图,首先从测试集T中依次读取文本情报文本,对原始文本情报文本进行预处理,包括分词、去停用词,词干提取,词性标注和保留名字与动词,最后得到文本的词汇序列;对词汇序列进行中文命名实体识别,提取人物、地理概念类的特征词汇,并利用领域字典查询比对,提取装备、行为、组织、名称代号概念类的特征词汇;然后将提取的特征词汇向量与主题模板中的词汇进行相似度距离计算和阈值比对,得到文本情报文本的主题归属类别。按照上述步骤处理测试集中的每篇文本情报文本,得到所有情报文本的主题归属类别;最后根据所有文本情报文本的归属类别,将情报文本进行主题聚类,将相同主题聚类的情报文本按相似度距离进行排序整编索引,实现情报文本的主题聚类整合。
实施结果表明对测试的文本情报文本进行主题聚类整编,实现相同主题情报文本的关联,根据聚类结果和人工标注进行关联正确率统计计算,其关联正确率达到90%。
Claims (10)
1.一种基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于包括如下步骤:步骤S1文本情报预处理:搜集文本情报训练集进行分词、词性标注,去停用词,保留名词与动词,提取词干预处理,得到文本情报训练集规范化的文本分词序列;步骤S2特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取情报训练集文本分词序列的特征词汇向量;步骤S3事件主题词汇学习:采用主题图模型学习训练提取目标事件的代表性特征词汇,并计算其主题关联归属的权重值;步骤S4事件主题词汇模板建立:根据训练计算的特征词汇的主题关联归属权重值,构建以人物、地点、装备、行为、组织和事件名称代号类概念词汇组成的特征词汇集合,作为表达目标事件知识模板,以及与主题类别归属的索引关系,建立事件主题词汇模板;步骤S5文本情报预处理:对新接入文本情报进行步骤S1中的预处理,得到接入文本情报规范化的文本分词序列;步骤S6特征词汇向量提取:通过中文命名实体识别与领域字典查询的方式提取步骤S5中实时接入文本的分词序列的特征词汇向量;步骤S7主题相似度距离计算比对:计算特征词汇向量与所有目标事件知识模板的相似度距离,并比对上述相似度距离;步骤S8情报主题分类整编:根据相似度阈值确定多个文本对同一主题目标事件的关联关系,利用相似度距离排序规则进行文本情报的分类整编。
2.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:首先搜集开源文本情报文本作为情报文本训练集D,对训练集中每个文本情报文本进行文本分词、词性标注、去停用词,保留名词和动词,形成训练集情报文本的文本词汇序列。
3.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:基于情报文本事件的描述特点,对文本词汇序列dm∈D使用中文命名实体识别与领域字典查询的方式提取时间、地点、人物、装备、组织、行为、名称代号共6类概念的特征词汇,并与领域字典进行语义相似度计算来归一化特征词汇向量Wm=(Wm1,Wm2,…,WmV)。
4.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:建立基于情报文本领域知识的V类概念领域字典,以V类概念词:人物概念词汇集,地理概念词汇集,装备概念词汇集,行为概念词汇集、组织概念词汇集、名称代号概念词汇集词汇集合,建立领域字典Dict={Dict1,Dict2,…,DictV},其中Numv表示第v类概念字典Dictv中的词汇个数,字典中的词汇不能重复。
5.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:利用情报领域字典Dict,将文本词汇序列dm的词汇分别与第v类概念字典进行匹配,匹配时,计算dm中的词汇wi与领域字典中的第v类概念字典Dictv中第j个词汇tj的语义相似度,语义相似度计算公式为:
其中a为常数,pij为两个词wi,tj在语义树种的语义距离。当dm的词汇wi与第v类概念领域字典Dictv中的词汇tj的语义相似度满足阈值要求时,该词汇wi属于第v类概念特征词汇,按归一化要求,使用领域字典Dictv中的词汇tj代替专有名词实体wi,组成文本情报文本dm的第v类概念特征词汇向量Wmv。
6.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:取训练样本dm的第v类概念特征词汇向量m=1,2,…,M,训练样本大小为M,nv表示样本dm中v类概念词汇个数,给定主题图模型中主题分布和词分布的超参数α和β。
7.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:初始时,给每个文档dm的特征词汇向量Wmv中的每个词汇随机分配主题z(0),然后统计训练集中每个主题k下出现词汇t的数量以及每个文档dm下出现主题k中的词汇数量针对每个文档dm中的每个词汇计算其主题更新概率根据这个概率分布为该词采样一个新的主题;其中词汇主题的更新概率计算公式为:
表示排除当前词i=(m,n)的主题分配,由其它词的主题分配和观察到的单词来计算当前词的主题的概率,其中下表i=(m,n),表示去除i的词, 表示文档dm中主题k出现的次数,表示主题k下出现词汇t的数量,表示文档dm中出现主题k中的词汇数量,但词i除外;并不断更新下一个词汇的主题,直到每个文档的主题分布θ和每个主题的词分布保持不变,算法即收敛停止。
8.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:针对每类概念领域字典Dictv(v=1,2,…,V)进行训练,得到每类主题下每类概念领域字典中的词汇对应的权重向量按主题分量将权重向量写为其中,
9.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:事件主题词汇模板建立,利用学习到的第k类主题事件的主题-词汇分布对应第v类概念领域字典Dictv中的词汇权重分布为分量进行排序,取权重向量中权重最大的前Nv个权重分量对应字典Dictv中的Nv个词汇,其中,Nv的取值依据是:前Nv个权重分量和占整个权重能量和的90%以上;前Nv个权重分量满足公式:
组成第k类主题事件的主题词汇模板为:
词汇对应的权重为:
式中v=1,2,…,V表示对S32中的进行排序后取前Nv个分量,排序后的权重分量为
10.如权利要求1所述的基于领域知识模型的文本情报关联聚类汇集处理方法,其特征在于:主题相似度距离计算比对时,计算情报文本特征词汇向量与主题词汇模板的相似度距离,根据主题的分类阈值,进行比对得到情报文本的主题归属类别。首先比对文本情报文本的特征词汇向量W的各概念词汇Wv与第k类主题词汇模板Tk的对应概念词汇模板Tkv,得到基于该模板的情报文本文本表征向量xkv,比对方法为:
得到比对第k类主题词汇模板的文本表征向量Xk=(Xk1,Xk2,…,XkV),其中 使用步骤S4中训练的第k类主题模板词汇的权重向量 计算该文本与Ck类主题的相似度距离:
如果disk>threshold,则认为该文本情报文本属于第k类主题事件。计算该文本情报文本与所有Ck,k=1,2,…,K类主题事件的模板之间的相似度距离,根据各类主题事件确定的阈值判断该文本情报文本是否属于该主题类别,这里允许一个文本情报文本属于多个主题类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610015796.7A CN105677873B (zh) | 2016-01-11 | 2016-01-11 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610015796.7A CN105677873B (zh) | 2016-01-11 | 2016-01-11 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105677873A true CN105677873A (zh) | 2016-06-15 |
CN105677873B CN105677873B (zh) | 2019-03-26 |
Family
ID=56299871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610015796.7A Active CN105677873B (zh) | 2016-01-11 | 2016-01-11 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105677873B (zh) |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038229A (zh) * | 2017-04-07 | 2017-08-11 | 云南大学 | 一种基于自然语义分析的用例提取方法 |
CN107862081A (zh) * | 2017-11-29 | 2018-03-30 | 四川无声信息技术有限公司 | 网络信息源查找方法、装置及服务器 |
CN108052636A (zh) * | 2017-12-20 | 2018-05-18 | 北京工业大学 | 确定文本主题相关度的方法、装置及终端设备 |
CN108268560A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种文本分类方法及装置 |
CN108288229A (zh) * | 2018-03-02 | 2018-07-17 | 北京邮电大学 | 一种用户画像构建方法 |
CN108763321A (zh) * | 2018-05-02 | 2018-11-06 | 深圳智能思创科技有限公司 | 一种基于大规模相关实体网络的相关实体推荐方法 |
CN108959550A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 用户关注点挖掘方法、装置、设备及计算机可读介质 |
CN109145390A (zh) * | 2018-07-26 | 2019-01-04 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 卫星信息应用终端效能评估的半实物仿真系统 |
CN109189941A (zh) * | 2018-09-07 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 用于更新模型参数的方法、装置、设备和介质 |
CN109284486A (zh) * | 2018-08-14 | 2019-01-29 | 重庆邂智科技有限公司 | 文本相似性度量方法、装置、终端及存储介质 |
CN109325126A (zh) * | 2018-10-31 | 2019-02-12 | 中国电子科技集团公司电子科学研究院 | 语言文本的对象化处理方法、装置及计算机存储介质 |
CN109388795A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及系统 |
CN109492092A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于lda主题模型的文献分类方法和系统 |
CN109508453A (zh) * | 2018-09-28 | 2019-03-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨媒体情报目标要素关联分析系统及其关联分析方法 |
CN109597888A (zh) * | 2018-11-19 | 2019-04-09 | 北京百度网讯科技有限公司 | 建立文本领域识别模型的方法、装置 |
CN109710939A (zh) * | 2018-12-28 | 2019-05-03 | 北京百度网讯科技有限公司 | 用于确定主题的方法和装置 |
CN109906449A (zh) * | 2016-10-27 | 2019-06-18 | 华为技术有限公司 | 一种查找方法及装置 |
CN109918488A (zh) * | 2019-02-02 | 2019-06-21 | 上海蜜度信息技术有限公司 | 用于相似文档检索的方法与设备 |
CN109918509A (zh) * | 2019-03-12 | 2019-06-21 | 黑龙江世纪精彩科技有限公司 | 基于信息提取的场景生成方法及场景生成系统的存储介质 |
CN110162590A (zh) * | 2019-02-22 | 2019-08-23 | 北京捷风数据技术有限公司 | 一种工程招标文本结合经济要素的数据库显示方法及其装置 |
CN110162771A (zh) * | 2018-11-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 事件触发词的识别方法、装置、电子设备 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN110348277A (zh) * | 2018-11-30 | 2019-10-18 | 浙江农林大学 | 一种基于自然背景下的树种图像识别方法 |
CN110377901A (zh) * | 2019-06-20 | 2019-10-25 | 湖南大学 | 一种针对配电线路跳闸填报案例的文本挖掘方法 |
CN110826326A (zh) * | 2019-10-30 | 2020-02-21 | 中国人民解放军海军航空大学 | 一种基于文本分类的小样本数据描述规范化预处理方法 |
CN110825839A (zh) * | 2019-11-07 | 2020-02-21 | 成都国腾实业集团有限公司 | 一种对文本信息中目标的关联关系分析方法 |
CN111460296A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111966780A (zh) * | 2019-05-20 | 2020-11-20 | 天津科技大学 | 一种基于词向量建模和信息检索的回顾性队列选择方法及装置 |
CN112016936A (zh) * | 2020-08-13 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 一种欺诈案例的串并方法、装置及设备 |
CN112101039A (zh) * | 2020-08-05 | 2020-12-18 | 华中师范大学 | 一种面向在线学习社区的学习兴趣发现方法 |
CN112214515A (zh) * | 2020-10-16 | 2021-01-12 | 平安国际智慧城市科技股份有限公司 | 数据自动匹配方法、装置、电子设备及存储介质 |
CN112328811A (zh) * | 2020-11-12 | 2021-02-05 | 国衡智慧城市科技研究院(北京)有限公司 | 一种基于同类型词组的词谱聚类智能生成方法 |
CN112487811A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 基于强化学习的级联信息提取系统及方法 |
CN112508376A (zh) * | 2020-11-30 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种指标体系构建方法 |
CN112990388A (zh) * | 2021-05-17 | 2021-06-18 | 成都数联铭品科技有限公司 | 基于概念词的文本聚类方法 |
CN113139106A (zh) * | 2021-05-07 | 2021-07-20 | 杭州世平信息科技有限公司 | 一种保密检查的事件审核方法和装置 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
CN113449101A (zh) * | 2020-03-26 | 2021-09-28 | 北京中科闻歌科技股份有限公司 | 公共卫生安全事件检测及事件集合构建方法及系统 |
WO2022042297A1 (zh) * | 2020-08-28 | 2022-03-03 | 清华大学 | 文本聚类方法、装置、电子设备及存储介质 |
CN115687960A (zh) * | 2022-12-30 | 2023-02-03 | 中国人民解放军61660部队 | 一种面向开源安全情报的文本聚类方法 |
CN116304016A (zh) * | 2022-12-29 | 2023-06-23 | 太和康美(北京)中医研究院有限公司 | 一种文献的共性分析方法及装置 |
US11972213B2 (en) | 2018-07-03 | 2024-04-30 | Tencent Technology (Shenzhen) Company Limited | Event recognition method and apparatus, model training method and apparatus, and storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185659A1 (en) * | 2009-01-12 | 2010-07-22 | Nec Laboratories America, Inc. | Supervised semantic indexing and its extensions |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103617157A (zh) * | 2013-12-10 | 2014-03-05 | 东北师范大学 | 基于语义的文本相似度计算方法 |
CN104182388A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义分析的文本聚类系统及方法 |
-
2016
- 2016-01-11 CN CN201610015796.7A patent/CN105677873B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185659A1 (en) * | 2009-01-12 | 2010-07-22 | Nec Laboratories America, Inc. | Supervised semantic indexing and its extensions |
CN103544255A (zh) * | 2013-10-15 | 2014-01-29 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103617157A (zh) * | 2013-12-10 | 2014-03-05 | 东北师范大学 | 基于语义的文本相似度计算方法 |
CN104182388A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义分析的文本聚类系统及方法 |
Non-Patent Citations (1)
Title |
---|
卢宁: "面向知识发现的知识关联揭示及其应用研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11210292B2 (en) | 2016-10-27 | 2021-12-28 | Huawei Technologies Co., Ltd. | Search method and apparatus |
CN109906449B (zh) * | 2016-10-27 | 2021-07-20 | 华为技术有限公司 | 一种查找方法及装置 |
CN109906449A (zh) * | 2016-10-27 | 2019-06-18 | 华为技术有限公司 | 一种查找方法及装置 |
CN108268560A (zh) * | 2017-01-03 | 2018-07-10 | 中国移动通信有限公司研究院 | 一种文本分类方法及装置 |
CN107038229A (zh) * | 2017-04-07 | 2017-08-11 | 云南大学 | 一种基于自然语义分析的用例提取方法 |
CN107038229B (zh) * | 2017-04-07 | 2020-07-17 | 云南大学 | 一种基于自然语义分析的用例提取方法 |
CN109388795B (zh) * | 2017-08-07 | 2022-11-08 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及系统 |
CN109388795A (zh) * | 2017-08-07 | 2019-02-26 | 芋头科技(杭州)有限公司 | 一种命名实体识别方法、语言识别方法及系统 |
CN107862081B (zh) * | 2017-11-29 | 2021-07-16 | 四川无声信息技术有限公司 | 网络信息源查找方法、装置及服务器 |
CN107862081A (zh) * | 2017-11-29 | 2018-03-30 | 四川无声信息技术有限公司 | 网络信息源查找方法、装置及服务器 |
CN108052636A (zh) * | 2017-12-20 | 2018-05-18 | 北京工业大学 | 确定文本主题相关度的方法、装置及终端设备 |
CN108052636B (zh) * | 2017-12-20 | 2022-02-25 | 北京工业大学 | 确定文本主题相关度的方法、装置及终端设备 |
CN108288229A (zh) * | 2018-03-02 | 2018-07-17 | 北京邮电大学 | 一种用户画像构建方法 |
CN108763321B (zh) * | 2018-05-02 | 2021-07-06 | 深圳智能思创科技有限公司 | 一种基于大规模相关实体网络的相关实体推荐方法 |
CN108763321A (zh) * | 2018-05-02 | 2018-11-06 | 深圳智能思创科技有限公司 | 一种基于大规模相关实体网络的相关实体推荐方法 |
CN108959550B (zh) * | 2018-06-29 | 2022-03-25 | 北京百度网讯科技有限公司 | 用户关注点挖掘方法、装置、设备及计算机可读介质 |
CN108959550A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 用户关注点挖掘方法、装置、设备及计算机可读介质 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
US11972213B2 (en) | 2018-07-03 | 2024-04-30 | Tencent Technology (Shenzhen) Company Limited | Event recognition method and apparatus, model training method and apparatus, and storage medium |
CN109145390A (zh) * | 2018-07-26 | 2019-01-04 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 卫星信息应用终端效能评估的半实物仿真系统 |
CN109145390B (zh) * | 2018-07-26 | 2022-06-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 卫星信息应用终端效能评估的半实物仿真系统 |
CN109284486A (zh) * | 2018-08-14 | 2019-01-29 | 重庆邂智科技有限公司 | 文本相似性度量方法、装置、终端及存储介质 |
CN109284486B (zh) * | 2018-08-14 | 2023-08-22 | 重庆邂智科技有限公司 | 文本相似性度量方法、装置、终端及存储介质 |
CN109189941A (zh) * | 2018-09-07 | 2019-01-11 | 百度在线网络技术(北京)有限公司 | 用于更新模型参数的方法、装置、设备和介质 |
CN109508453A (zh) * | 2018-09-28 | 2019-03-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨媒体情报目标要素关联分析系统及其关联分析方法 |
CN109492092A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于lda主题模型的文献分类方法和系统 |
CN109492092B (zh) * | 2018-09-29 | 2020-07-17 | 北京智通云联科技有限公司 | 基于lda主题模型的文献分类方法和系统 |
CN109325126A (zh) * | 2018-10-31 | 2019-02-12 | 中国电子科技集团公司电子科学研究院 | 语言文本的对象化处理方法、装置及计算机存储介质 |
CN109325126B (zh) * | 2018-10-31 | 2022-04-22 | 中国电子科技集团公司电子科学研究院 | 语言文本的对象化处理方法、装置及计算机存储介质 |
CN109597888A (zh) * | 2018-11-19 | 2019-04-09 | 北京百度网讯科技有限公司 | 建立文本领域识别模型的方法、装置 |
CN110162771A (zh) * | 2018-11-22 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 事件触发词的识别方法、装置、电子设备 |
CN110162771B (zh) * | 2018-11-22 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 事件触发词的识别方法、装置、电子设备 |
CN110348277A (zh) * | 2018-11-30 | 2019-10-18 | 浙江农林大学 | 一种基于自然背景下的树种图像识别方法 |
CN109710939B (zh) * | 2018-12-28 | 2023-06-09 | 北京百度网讯科技有限公司 | 用于确定主题的方法和装置 |
CN109710939A (zh) * | 2018-12-28 | 2019-05-03 | 北京百度网讯科技有限公司 | 用于确定主题的方法和装置 |
CN109918488A (zh) * | 2019-02-02 | 2019-06-21 | 上海蜜度信息技术有限公司 | 用于相似文档检索的方法与设备 |
CN110162590A (zh) * | 2019-02-22 | 2019-08-23 | 北京捷风数据技术有限公司 | 一种工程招标文本结合经济要素的数据库显示方法及其装置 |
CN109918509A (zh) * | 2019-03-12 | 2019-06-21 | 黑龙江世纪精彩科技有限公司 | 基于信息提取的场景生成方法及场景生成系统的存储介质 |
CN109918509B (zh) * | 2019-03-12 | 2021-07-23 | 明白四达(海南经济特区)科技有限公司 | 基于信息提取的场景生成方法及场景生成系统的存储介质 |
CN111966780A (zh) * | 2019-05-20 | 2020-11-20 | 天津科技大学 | 一种基于词向量建模和信息检索的回顾性队列选择方法及装置 |
CN110377901A (zh) * | 2019-06-20 | 2019-10-25 | 湖南大学 | 一种针对配电线路跳闸填报案例的文本挖掘方法 |
CN110826326A (zh) * | 2019-10-30 | 2020-02-21 | 中国人民解放军海军航空大学 | 一种基于文本分类的小样本数据描述规范化预处理方法 |
CN110825839A (zh) * | 2019-11-07 | 2020-02-21 | 成都国腾实业集团有限公司 | 一种对文本信息中目标的关联关系分析方法 |
CN113449101A (zh) * | 2020-03-26 | 2021-09-28 | 北京中科闻歌科技股份有限公司 | 公共卫生安全事件检测及事件集合构建方法及系统 |
CN111460296A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
WO2022028249A1 (zh) * | 2020-08-05 | 2022-02-10 | 华中师范大学 | 一种面向在线学习社区的学习兴趣发现方法 |
CN112101039A (zh) * | 2020-08-05 | 2020-12-18 | 华中师范大学 | 一种面向在线学习社区的学习兴趣发现方法 |
CN112016936A (zh) * | 2020-08-13 | 2020-12-01 | 支付宝(杭州)信息技术有限公司 | 一种欺诈案例的串并方法、装置及设备 |
WO2022042297A1 (zh) * | 2020-08-28 | 2022-03-03 | 清华大学 | 文本聚类方法、装置、电子设备及存储介质 |
CN112214515A (zh) * | 2020-10-16 | 2021-01-12 | 平安国际智慧城市科技股份有限公司 | 数据自动匹配方法、装置、电子设备及存储介质 |
CN112487811A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 基于强化学习的级联信息提取系统及方法 |
CN112487811B (zh) * | 2020-10-21 | 2021-07-06 | 上海旻浦科技有限公司 | 基于强化学习的级联信息提取系统及方法 |
CN112328811A (zh) * | 2020-11-12 | 2021-02-05 | 国衡智慧城市科技研究院(北京)有限公司 | 一种基于同类型词组的词谱聚类智能生成方法 |
CN112508376A (zh) * | 2020-11-30 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种指标体系构建方法 |
CN113139106B (zh) * | 2021-05-07 | 2022-03-15 | 杭州世平信息科技有限公司 | 一种保密检查的事件审核方法和装置 |
CN113139106A (zh) * | 2021-05-07 | 2021-07-20 | 杭州世平信息科技有限公司 | 一种保密检查的事件审核方法和装置 |
CN112990388A (zh) * | 2021-05-17 | 2021-06-18 | 成都数联铭品科技有限公司 | 基于概念词的文本聚类方法 |
CN113407660A (zh) * | 2021-08-16 | 2021-09-17 | 中国科学院自动化研究所 | 非结构化文本事件抽取方法 |
CN116304016A (zh) * | 2022-12-29 | 2023-06-23 | 太和康美(北京)中医研究院有限公司 | 一种文献的共性分析方法及装置 |
CN116304016B (zh) * | 2022-12-29 | 2023-10-10 | 太和康美(北京)中医研究院有限公司 | 一种文献的共性分析方法及装置 |
CN115687960A (zh) * | 2022-12-30 | 2023-02-03 | 中国人民解放军61660部队 | 一种面向开源安全情报的文本聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105677873B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677873A (zh) | 基于领域知识模型的文本情报关联聚类汇集处理方法 | |
CN108897857B (zh) | 面向领域的中文文本主题句生成方法 | |
Yu et al. | Beyond Word Attention: Using Segment Attention in Neural Relation Extraction. | |
CN104820629B (zh) | 一种智能的舆情突发事件应急处理系统及方法 | |
CN109165284A (zh) | 一种基于大数据的金融领域人机对话意图识别方法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN103207856A (zh) | 一种本体概念及层次关系生成方法 | |
CN110390006A (zh) | 问答语料生成方法、装置和计算机可读存储介质 | |
CN106257455A (zh) | 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法 | |
CN112417161A (zh) | 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备 | |
CN113742396B (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
Saveleva et al. | Graph-based argument quality assessment | |
CN117494760A (zh) | 一种基于超大规模语言模型的富语义标签数据增广方法 | |
CN106991171A (zh) | 基于智慧校园信息服务平台的话题发现方法 | |
CN115563968A (zh) | 水电运检知识自然语言人工智能系统及方法 | |
Qiu et al. | NeuroSPE: A neuro‐net spatial relation extractor for natural language text fusing gazetteers and pretrained models | |
Zou et al. | An improved model for spam user identification | |
Wang et al. | A decision tree-based method for detecting middle school students' behaviour characteristics in online English learning | |
Zhang et al. | Relation extraction via deep-fusion convolution neural network | |
Tavan et al. | Identifying Ironic Content Spreaders on Twitter using Psychometrics, Contextual and Ironic Features with Gradient Boosting Classifier. | |
CN109543182A (zh) | 一种基于solr引擎的电力企业多轮交互语义分析方法 | |
Zheng | Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University | |
Liu et al. | Personalised recommendation algorithm of network resources based on collaborative knowledge map | |
Ding et al. | A Semi-Supervised Failure Knowledge Graph Construction Method for Decision Support in Operations and Maintenance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |