CN111178045A - 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质 - Google Patents

基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质 Download PDF

Info

Publication number
CN111178045A
CN111178045A CN201910972823.3A CN201910972823A CN111178045A CN 111178045 A CN111178045 A CN 111178045A CN 201910972823 A CN201910972823 A CN 201910972823A CN 111178045 A CN111178045 A CN 111178045A
Authority
CN
China
Prior art keywords
extraction
semantic concept
boot
semantic
concept dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910972823.3A
Other languages
English (en)
Inventor
荆继远
姜春涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Softcom Power Information Technology Co Ltd
Original Assignee
Shenzhen Softcom Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Softcom Power Information Technology Co Ltd filed Critical Shenzhen Softcom Power Information Technology Co Ltd
Priority to CN201910972823.3A priority Critical patent/CN111178045A/zh
Publication of CN111178045A publication Critical patent/CN111178045A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

基于知识的自然语言处理系统,在实际应用中所面临的主要问题在于:很难移植和纵向扩展到新的领域,其瓶颈在于前述系统依赖于特定领域的语义概念词典,而构建上述词典需要大量的基于人工的知识工程。有鉴于此,本发明,针对特定领域的中文文本,公开了一种基于领域的非监督式中文语义概念词典的自动构建方法,由内、外两层构成,用以同时自动构建中文语义概念词典和提取模式词典。所提出的算法不需要预先标注训练语料,而只需要少量基于语义概念类别的种子词,作为输入。由本算法所构建的中文领域概念词典对于诸如文本分类、文本摘要、信息检索、本体学习等智能文本应用起到重要的支撑作用,是不可或缺的一环。

Description

基于领域的非监督式中文语义概念词典的自动构建方法、电 子设备及存储介质
技术领域
本发明涉及信息提取、自然语言处理领域,尤其涉及一种基于领 域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介 质。
背景技术
目前,基于知识的自然语言处理系统,在实际应用中所面临的主 要问题在于:很难移植和纵向扩展到新的领域,其瓶颈在于前述系统 依赖于特定领域的语义概念词典,而构建上述词典需要大量的基于人 工的知识工程。
在现有技术中,AutoSlog是一个词典构建系统,该系统通过启发 式规则来自动创建提取模式集,这些提取模式,被用于从英文文本中 自动获取触发提取模式的特定’概念’词语,这些概念词语即作为 词典的条目。
作为输入,AutoSlog所需的文本语料需要预先对特定领域的名 词短语进行标注,例如,在AutoSlog所选择的领域-恐怖活动领域, 实施者、目标、受害者这类名词短语需要进行预标注。AutoSlog的 工作流程如下:根据所标注的名词短语及源文本语料,AutoSlog首 先找到包含该名词短语的句子,然后使用句法分析工具,来识别该分 句的句法成分,即识别名词、动词、直接宾语、及介词短语等成分, 最后应用启发式规则,识别出相应的概念。
AutoSlog的实现原理,需要有经过预先标注的训练语料集来支 持,而从时间成本和难易程度考虑,生成经过标注的训练语料集,并 不是一项容易的工作,AutoSlog以前的实验结果表明:一个用户大 概需要一周时间,用以建立一个含有1000个文本的训练语料集。除 了前述人力成本以外,AutoSlog还需要标注相关的名词短语,而什 么成分构成相关名词短语?是否包括修饰词及哪些修饰词?这些都 是需要仔细考虑的问题。对于标注工作而言,很难定义一个惯例,用 以获取所要的信息,从而导致标注数据的不一致性。
为了规避AutoSlog的所具有的上述问题,文献提出了 AutoSlog-TS算法。该算法的实现并不需要任何文本标注工作,而只 需要,基于特定的领域,对语料集中的文本预先分为‘相关’和‘不相 关’两类。对于许多应用而言,相关文本很容易从网络在线获取。AutoSlog-TS的工作流程如下:首先,为训练语料中的每个名词短语 ,生成提取模式;然后,为第一阶段所生成的每个提取模式,计算其 相关性,相关性值是由触发该提取模式的文本的相关性条件概率而定 ;最后,通过排序函数,为每个提取模式计算其对于特定领域的重要 性。
术语是指在特定领域,用以表示概念的集合,术语提取,其实 质即领域概念提取,而所提取的术语即可组成基于领域的语义概念词 典。术语在机器翻译、问答系统、自动文摘、本体工程等多个自然语 言处理应用领域起着巨大的作用。国内外研究将术语的提取方法划分 为以下三类:
·基于语言学规则的方法:通过分析术语上下文特殊的语法结构 ,利用词法、句法分析工具来识别术语,这类方法具有提取精度高的 优势,但需要深入了解语料库的专业知识及构词特点。
·基于统计学的方法:利用词频、词共现、互信息等技术来提取 术语,这类方法具有较好的适应性和移植性,但提取精度较低。
·混合方法:即结合前述两种方法的优点,在术语提取过程中同 时采用语言学规则和统计学方法。
现有的术语提取方法,通常具有以下不足之处:
·基于机器学习的术语提取方法,大多数情况下需要预先标注的 训练语料,而由于不同领域的差异性,导致这类方法很难在不同领域 之间移植。
·许多现有的术语提取方法是基于英文的,并不支持中文。因为 中、英文之间的根本性差异,导致基于英文的术语提取方法很难扩展 到中文应用。
·基于中文分词工具的术语提取方法具有内在的缺陷:
–分词工具所用的分词词典,并不能完全覆盖全部术语。
–分词单元的粒度太小,导致术语被分割为几个较小的语言片 段。
由于信息和知识的幂指数增长,知识库本体的研究在很多领域被 深入扩展。通常情况下,本体被用于对特定领域的的知识进行正式地 概念化,其主要目的是为领域知识提供一个共享和共同的理解基础, 从而促进用户和应用程序之间的交互。然而,本体构建是一项十分耗 时、耗力的系统工程,为了促进本体构建,本体学习作为一项广泛的 研究,用以从文本语料库中半自动或自动地构建本体。在本体学习中 ,所面临的一个关键的挑战在于:如何自动提取特定领域的关键概念 ,从而使得所提取的概念可以表达基于特定领域的语料库的关键信 息。由此,关键概念提取,对于基于文本语料库的本体学习是一个重 要步骤。如果所提取的关键概念是非相关的,那么所构建的知识库本 体就无法正确表达领域知识,以至于不相关的概念可以导致生成不相 关的语义关系和定理。
拔靴法(Bootstrapping)是一种迭代的方法,用以在从实例集合 中获取的学习规则集和从规则集合中获取的实例集之间进行交替学 习。使用拔靴法的信息提取系统,始于人工标记的种子实例集,然后 ,在从种子集中学习规则和进一步从规则集中获取种子之间交替进行 学习,不断进行迭代,直到满足预设的条件为止。
综上所述,现有的领域概念词典构建方法,很难适用于中文应用。 现有的主流领域概念提取方法,需要预先对文本语料进行标注,进行 模型训练。现有的领域概念提取方法,不易于在不同领域之间进行移 植和扩展,具有实施困难的问题。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于 领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储 介质,其能解决如下技术问题:
现有的领域概念词典构建方法,很难适用于中文应用。
现有的主流领域概念提取方法,需要预先对文本语料进行标注, 进行模型训练。
现有的领域概念提取方法,不易于在不同领域之间进行移植和扩 展。
本发明的目的之一采用如下技术方案实现:
一种基于两层拔靴法学习的算法,用以同时自动构建语义概念词 典和提取模式词典,包括以下两层:
内层拔靴法学习-利用单层拔靴法,如图1所示:包括如下步骤 :
提取模式生成步骤:采用与典型信息提取方法(如AutoSlog)相 似的思路,为文本语料中的每个名词短语,生成候选提取模式,从而 形成候选提取模式集合。其中,每个候选提取模式,是一个具有足够 概括能力,并且能提取其它相关名词短语的语法表达式。
应用提取模式步骤:应用上述候选提取模式于文本语料,获得相 应的提取信息,并将所有的提取模式及提取信息存入EPA中。
提取模式评分步骤:因为语义概念词典中的概念条目是不断增长 的,每一轮迭代中,所有的提取模式都要进行重新评分。对EPA中 的所有的提取模式进行评分计算。
语义概念提取步骤:由评分高低,选取最佳提取模式,并应用最 佳提取模式于文本语料,生成新的语义概念条目,存入Lexicon中。
循环步骤:转向提取模式评分步骤,进行迭代,直至满足约束条 件。
外层拔靴法学习阶段-利用双层拔靴法,只保留由内层拔靴法学 习阶段所提取的领域相关性排名最高的前K个语义概念,然后利用 已扩展的语义概念词典,再重新开始内层拔靴法学习的迭代过程。如 图2所示,包含以下步骤:
语义概念评分步骤:在内层拔靴法学习阶段中,每一轮所提取的 新的语义概念,存入临时语义概念词典,对临时语义概念词典中的 每个语义概念,根据语义概念的可靠性计算策略,进行评分计算。可 靠性计算策略是基于一定的启发式计算而得到的:即由多个语义类别 的提取模式所提取的同一个名词短语,要比只由单一语义类别的提取 模式所提取的单个名词短语,更加可能从属于特定语义类别的概念。
语义概念提取步骤:由评分值的高低,选取临时语义概念词典中 的分值排序最高的前K个语义概念,加入语义概念词典。
循环步骤:利用经过扩展的语义概念词典,作为种子初始化临时 语义概念词典,重新进入内层拔靴法学习阶段,进行迭代。
进一步地,在所述内层拔靴法学习阶段,基于特定语义概念类 别的提取模式可以生成新的实例,而新的实例则可反过来用于生成新 的提取模式,这种交互工程不断进行迭代,直到满足约束条件退出为 止。
进一步地,在所述内层拔靴法学习阶段,根据语义概念词典中 最初的种子概念和刚添加的新概念,识别出下一轮最佳的提取模式, 并应用前述提取模式去获取新的语义概念。
进一步地,在所述内层拔靴法学习阶段的提取模式评分步骤中 ,提取模式的评分计算采用启发式策略:即一个提取模式可以提 取多少不同类别的语义概念。该策略对提取模式的通用性能力进行奖 励,即一个模式如果能提取多种语义概念,其评分要高于只能提取1 或2种语义概念的模式。
进一步地,在所述内层拔靴法学习阶段的提取模式评分步骤中 ,提取模式的评分策略与提取模式的提取频率和相关性都有关,即
在提取模式的相关性和频率之间取得一定程度的平衡:当提取模 式的相关性值很高,意味着该模式所提取的信息与选定的语义类别高 度相关;而当该提取模式的频率值很高,则意味着该模式提取了大量的 属于选定语义类别的概念。因而,当提取模式的相关性越高,提取频 率越高时,评分就越高。
进一步地,在所述内层拔靴法学习阶段的提取模式评分步骤中, 提取模式的评分计算利用‘头短语’匹配策略来替换精确匹配策略。 头短语匹配即指:如果字符串A是字符串B的最右端的子字符串,则 A和B即认为是相匹配的。例如:“主持人”将匹配任何以“主持人 ”而结尾的短语,如“财经主持人”、“央视财经主持人”,但是并 不匹配诸如“主持人名单”或“主持人大赛”之类的短语。头短语 匹配策略有利于提高提取模式的通用能力,因为名词短语,通常会由任 意数量的限定词前缀来修饰。
进一步地,在所述外层拔靴法学习阶段,对内层拔靴法学习阶段 的结果进行过滤后,再进行迭代,即根据语义概念的评分计算策略, 进行评分、排序。
进一步地,在所述外层拔靴法学习阶段的语义概念评分步骤中, 每个语义概念的可靠性评分计算是由提取该语义概念的不同类别的 提取模式的数目及前述提取模式的强度来共同决定的。
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且 被配置成由处理器执行,所述程序包括用于实现基于领域的非监督式 中文语义概念词典构建方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机 程序被处理器实现基于领域的非监督式中文语义概念词典构建方法。
本技术方案所提出的基于双层拔靴法学习的算法,其优势来自于 经过每轮交互拔靴法的学习过程之后,重新对提取模式进行评价:即 ,经过第一轮的交互拔靴法的学习,新的语义概念被添加入语义概念 词典中,然后,利用最初的种子概念词语和新加入的概念词语,交互 拔靴法学习从头开始学习,这种反复迭代的过程产生一种类似滚雪球 的迅速增大的效应。从实际应用角度来看,这种基于双层拔靴法学习 的算法,使得更多具有通用性能力的提取模式,展示在最终结果的前 列。与仅仅采用单层拔靴法学习的算法相比,本技术方案所提出的 算法产生质量更高的中文语义概念词典。
相比现有技术,本发明的有益效果在于:
1、本申请提供了一种从大量非结构化的中文文本语料中,自动 获取领域知识的方法。
2、本申请的实现是基于非监督方式的,也就意味着其不需要人 工标注大量训练语料,用以构建机器学习模型。
3、本申请所提出的算法是一个适用通用领域的方法,并不受限 于任何特定领域或应用,且为许多典型文本挖掘应用,如新词发现、 事件提取、热点发现,提供了一种自我学习的信息提取能力。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发 明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明 的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施 例,并配合附图,详细说明如下。
附图说明
图1为本发明算法-双层拔靴法的工作流程图;
图2为单层拔靴法的算法pseudocode;
图3为基于依存关系的提取模式生成示例图;
图4为实施例中初始化种子词语图表;
图5为实施例中提取模式排序结果图表;
图6为基于3个语义类别的排名Top5的语义概念图表。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需 要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技 术特征之间可以任意组合形成新的实施例。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发 明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说 明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于 限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所 列项目的任意的和所有的组合。
请参阅图1-2,一种基于领域的非监督式中文语义概念词典的自 动构建方法,采用基于两层拔靴法学习的算法,包括如下步骤:
内层拔靴法提取模式生成步骤:通过信息提取法从训练文本语料 中生成候选提取模式,形成候选提取模式集;
内层拔靴法应用提取模式步骤:应用上述候选提取模式于文本语 料,获得相应的提取信息,并将所有的提取模式及提取信息存入EPA 中;
内层拔靴法提取模式评分步骤:对EPA中的所有的提取模式 进行评分计算;
内层拔靴法语义概念提取步骤:选取评分最高的提取模式,作 为最佳,并应用最佳提取模式于文本语料,生成新的概念条目,存入 临时语义概念词典中;
内层拔靴法循环步骤:转向内层拔靴法提取模式评分步骤,进 行迭代,直至满足约束条件;
外层拔靴法语义概念评分步骤:对临时语义概念词典中的每个 语义概念,进行可靠性评分计算;
外层拔靴法语义概念提取步骤:从临时语义概念词典中,选取 评分值排序最高的前K个语义概念,加入语义概念词典。
外层拔靴法循环步骤:利用经过扩展的语义概念词典,作为种子 词初始化临时语义概念词典,重新进入内层拔靴法学习,进行迭代, 直至满足约束条件退出。
具体的,在所述内层拔靴法学习阶段,基于特定语义概念类别的 提取模式可以生成新的实例,而新的实例则反过来可用于生成新的提 取模式,这种交互过程不断进行迭代,直到满足约束条件退出为止。 在所述内层拔靴法学习阶段,根据语义概念词典中最初的种子概念和 刚添加的新概念,识别出下一轮最佳的提取模式,并应用前述提取模 式去获取新的语义概念。在所述内层拔靴法学习阶段,提取模式的评 分计算采用启发式策略:一个提取模式可以提取多少不同类别的语义 概念,该策略对提取模式的通用性能力进行奖励。在所述内层拔靴法 学习阶段,提取模式的评分策略与提取模式的提取频率和相关性有关 ,当提取模式的相关性高,提取频率高时,评分越高。在所述内层拔 靴法学习阶段,提取模式的评分计算利用‘头短语’匹配策略来替换 精确匹配策略,有利于提高提取模式的通用能力。在所述外层拔靴法 学习阶段,对单层拔靴法的运行结果进行过滤后,再进行迭代,即根 据语义概念的评分计算策略,进行评分、排序。其中,每个语义概念 的可靠性评分计算是由提取该语义概念的不同类别的提取模式的数 目及前述提取模式的强度来共同决定的。
在所述外层拔靴法学习阶段,从排序结果中,只选取分值排序最 高的前K个语义概念,加入语义概念词典,然后整个单层拔靴法重新 进行迭代学习。
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且 被配置成由处理器执行,所述程序包括用于执行基于领域的非监督式 中文语义概念词典的自动构建方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机 程序被处理器执行基于领域的非监督式中文语义概念词典的自动构 建方法。
实施案例:
为了阐述本申请所提技术方案的有效性,本实施案例采用中文维 基百科(即Wikipedia中文)所含的中文文本数据作为文本语料, 进行本发明所提算法的实现。其它领域的实施例,其原理及方法,与 本实施例基本一致,不再赘述。
因为中文维基百科数据的规模很大,如果完全采用人工的方式对 文本数据进行提取模式的生成,是不太现实的,故基于本实施例的应 用场景,提出如下解决方案:
·采用Solr(https://lucene.apache.org/solr/)搜索引擎工具,将 中文维基百科中的文本,切分为句子,以每个句子作为一篇文档,形 成检索语料集。
·当利用种子词语生成提取模式时,只处理含有种子词语的语 句。
·当利用前述提取模式提取候选名词短语时,只处理含有触发该 提取模式激活词的语句。
·当评价候选名词短语是否匹配提取模式时,只处理同时含有候 选名词短语和触发提取模式激活词的语句。
本算法需要使用句法分析从训练语料中,自动生成提取模式,而 对于句法分析工具的选择,本算法并无特定要求,可使用任何能对中 文语句进行句法分析的工具,如StanfordNLP (https://stanfordnlp.github.io/CoreNLP/)、
哈工大语言云(https://www.ltp-cloud.com)等。一个典型的通用 提取模式的定义,可由“relation head<object>”来表达,其中 :relation表示关系,head表示头词语,<object>表示宾语。那 么对于一个例句“姚明被任命为中国篮协主席”,使用哈工大语言云,进行句法分析,所得到的依存关系如图3所示:其中,名词“姚明 ”和头词语“任命”由关系‘FOB’相连,由此,可生成相应的提 取模式-“FOB任命<object>”。前述所生成的提取模式中:预定义 的种子词语(本例为:“姚明”)直接依赖的词语为激活词(本例为 :“任命”),而约束条件则为<object>(本例为:“主席”)。
本算法的实施步骤如下:
(1)初始化种子词语-手动选择了15个词语,作为初始化种 子词语,如图4所示。
(2)根据种子词语生成提取模式-通过基于中文维基百科的文 本检索引擎,检索含有种子词语的句子,选取检索结果中的前1000条 信息,并应用句法分析,生成提取模式集,第一轮共生成2608个提 取模式。
(3)对所有提取模式进行排序计算-根据对每个提取模式和特 定语义类别的相关性计算,对所有的提取模式进行排序,由排序结果 ,根据每个语义类别,选取得分前5位的提取模式,可由图5显示。
(4)利用提取模式进行词语提取-借助文本检索引擎,应用提取 模式,自动提取相应的候选概念词语。
(5)根据概念词语的评分计算策略,对所提取的词语进行评分 计算、排序,选取每个语义类别中评分值排名前5位的词语,加入 语义概念词典,其结果可由图6所展示。
由图6可知,对于某特定语义类别(如‘公司’),所提取的语 义概念还是存在错误的。由此可知,经由本算法所生成的语义概念词 典,最终还是需要人工审核,过滤掉一些不正确的条目,然而这个操 作,并不需要花费很多的人力成本。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发 明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实 质性的变化及替换均属于本发明所要求保护的范围。

Claims (10)

1.一种基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于这是一种基于两层拔靴法学习的算法,由内、外两层组成:
内层拔靴法学习阶段-利用单层拔靴法,从文本语料中交互选取相应类别的最佳提取模式及其提取物于各自的词典中,提取物代表语义概念,而语义概念词典中的概念则是选取下一轮提取模式的基础;
外层拔靴法学习阶段-利用双层拔靴法,只保留由内层拔靴法学习阶段所提取的领域相关性排名最高的前K个语义概念,然后利用已扩展的语义概念词典,再重新开始内层拔靴法学习的迭代过程。
2.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述内层拔靴法学习阶段,基于特定语义概念类别的提取模式可以生成新的实例,而新的实例则反过来可用于生成新的提取模式,这种交互过程不断进行迭代,直到满足约束条件退出为止。
3.如权利要求2所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述内层拔靴法学习阶段,根据语义概念词典中最初的种子概念和刚添加的新概念,识别出下一轮最佳的提取模式,并应用前述提取模式去获取新的语义概念。
4.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述内层拔靴法学习阶段,提取模式的评分计算采用启发式策略:一个提取模式可以提取多少不同类别的语义概念,该策略对提取模式的通用性能力进行奖励。
5.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述内层拔靴法学习阶段,提取模式的评分策略与提取模式的提取频率和相关性有关,当提取模式的相关性越高,提取频率越高,评分越高。
6.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述内层拔靴法学习阶段,提取模式的评分计算利用头短语匹配策略来替换精确匹配策略,有利于提高提取模式的通用能力。
7.如权利要求1所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述外层拔靴法学习阶段,对单层拔靴法的运行结果进行过滤后,再进行迭代,即根据语义概念的评分计算策略,进行评分、排序;其中,每个语义概念的可靠性评分计算是由提取该语义概念的不同类别的提取模式的数目及前述提取模式的强度来共同决定的。
8.如权利要求7所述的基于领域的非监督式中文语义概念词典的自动构建方法,其特征在于:在所述外层拔靴法学习阶段,从排序结果中,只选取分值排序最高的前K个语义概念,加入语义概念词典,然后整个单层拔靴法重新进行迭代学习。
9.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-8任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1-8任意一项所述的方法。
CN201910972823.3A 2019-10-14 2019-10-14 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质 Pending CN111178045A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910972823.3A CN111178045A (zh) 2019-10-14 2019-10-14 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910972823.3A CN111178045A (zh) 2019-10-14 2019-10-14 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111178045A true CN111178045A (zh) 2020-05-19

Family

ID=70655745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910972823.3A Pending CN111178045A (zh) 2019-10-14 2019-10-14 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111178045A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797635A (zh) * 2020-07-14 2020-10-20 暨南大学 一种面向xbrl领域本体的语义基元提取方法
CN111832294A (zh) * 2020-06-24 2020-10-27 平安科技(深圳)有限公司 标注数据的选择方法、装置、计算机设备和存储介质
CN112101020A (zh) * 2020-08-27 2020-12-18 北京百度网讯科技有限公司 训练关键短语标识模型的方法、装置、设备和存储介质
CN113158688A (zh) * 2021-05-11 2021-07-23 科大讯飞股份有限公司 一种领域知识库构建方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641640A (zh) * 2004-01-15 2005-07-20 佳能株式会社 电子词典中多个专业词典的数据结构的合并方法及装置
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN103810156A (zh) * 2014-01-17 2014-05-21 浙江大学 利用二次语义标注的文本信息提取方法
CN104484411A (zh) * 2014-12-16 2015-04-01 中国科学院自动化研究所 一种基于词典的语义知识库的构建方法
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统
CN106257455A (zh) * 2016-07-08 2016-12-28 闽江学院 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN106407235A (zh) * 2015-08-03 2017-02-15 北京众荟信息技术有限公司 一种基于点评数据的语义词典构建方法
CN106445917A (zh) * 2016-09-23 2017-02-22 中国电子科技集团公司第二十八研究所 一种基于模式的自举中文实体抽取方法
CN108304373A (zh) * 2017-10-13 2018-07-20 腾讯科技(深圳)有限公司 语义词典的构建方法、装置、存储介质和电子装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641640A (zh) * 2004-01-15 2005-07-20 佳能株式会社 电子词典中多个专业词典的数据结构的合并方法及装置
CN103678565A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN103810156A (zh) * 2014-01-17 2014-05-21 浙江大学 利用二次语义标注的文本信息提取方法
CN104484411A (zh) * 2014-12-16 2015-04-01 中国科学院自动化研究所 一种基于词典的语义知识库的构建方法
CN106407235A (zh) * 2015-08-03 2017-02-15 北京众荟信息技术有限公司 一种基于点评数据的语义词典构建方法
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统
CN106257455A (zh) * 2016-07-08 2016-12-28 闽江学院 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN106445917A (zh) * 2016-09-23 2017-02-22 中国电子科技集团公司第二十八研究所 一种基于模式的自举中文实体抽取方法
CN108304373A (zh) * 2017-10-13 2018-07-20 腾讯科技(深圳)有限公司 语义词典的构建方法、装置、存储介质和电子装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ELLEN RILOFF ET.AL: "Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping", 《AAAI-99 PROCEEDINGS》 *
于江德等: "基于自扩展的信息抽取模式自动获取", 《小型微型计算机系统》 *
李向阳等: "一种基于自举原理的语义模式自动获取方法", 《微电子学与计算机》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832294A (zh) * 2020-06-24 2020-10-27 平安科技(深圳)有限公司 标注数据的选择方法、装置、计算机设备和存储介质
CN111832294B (zh) * 2020-06-24 2022-08-16 平安科技(深圳)有限公司 标注数据的选择方法、装置、计算机设备和存储介质
CN111797635A (zh) * 2020-07-14 2020-10-20 暨南大学 一种面向xbrl领域本体的语义基元提取方法
CN112101020A (zh) * 2020-08-27 2020-12-18 北京百度网讯科技有限公司 训练关键短语标识模型的方法、装置、设备和存储介质
CN112101020B (zh) * 2020-08-27 2023-08-04 北京百度网讯科技有限公司 训练关键短语标识模型的方法、装置、设备和存储介质
CN113158688A (zh) * 2021-05-11 2021-07-23 科大讯飞股份有限公司 一种领域知识库构建方法、装置、设备及存储介质
CN113158688B (zh) * 2021-05-11 2023-12-01 科大讯飞股份有限公司 一种领域知识库构建方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Grishman Information extraction
Cheng et al. An economical scan design for sequential logic test generation
CN111178045A (zh) 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质
Imam et al. An ontology-based summarization system for arabic documents (ossad)
CN108681574A (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
Youssef et al. MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion
JP6077727B1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
Ashna et al. Lexicon based sentiment analysis system for malayalam language
De Melo et al. UWN: A large multilingual lexical knowledge base
Sterckx et al. Knowledge base population using semantic label propagation
Kumar et al. A Comparative Analysis of Pre-Processing Time in Summary of Hindi Language using Stanza and Spacy
Garrido et al. The GENIE project-a semantic pipeline for automatic document categorisation
Pouliquen et al. Automatic construction of multilingual name dictionaries
Ahmed et al. Developing an ontology of concepts in the Qur'an
Malhar et al. Deep learning based Answering Questions using T5 and Structured Question Generation System’
Saeidi et al. Context-enhanced concept disambiguation in Wikification
Nazar et al. A taxonomy of Spanish nouns, a statistical algorithm to generate it and its implementation in open source code
Gupta A Survey of Word-sense Disambiguation Effective Techniques and Methods for Indian Languages.
Dlamini et al. isiZulu word embeddings
Lezama Sanchez et al. A Behavior Analysis of the Impact of Semantic Relationships on Topic Discovery
Sierra et al. Extracting semantic clusters from MRDs for an onomasiological search dictionary
Zouaoui et al. Ontological Approach Based on Multi-Agent System for Indexing and Filtering Arabic Docu-ments
Khan et al. A corpus based sql formation from bangla language using neural machine translation
Bhargava et al. High-throughput and language-agnostic entity disambiguation and linking on user generated data
CN115270786B (zh) 一种识别问句意图的方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519

RJ01 Rejection of invention patent application after publication